CN108305618B

CN108305618B - 语音获取及搜索方法、智能笔、搜索终端及存储介质

Info

Publication number: CN108305618B
Application number: CN201810043526.6A
Authority: CN
Inventors: 徐杨
Original assignee: Guangdong Genius Technology Co Ltd
Current assignee: Guangdong Genius Technology Co Ltd
Priority date: 2018-01-17
Filing date: 2018-01-17
Publication date: 2021-10-22
Anticipated expiration: 2038-01-17
Also published as: CN108305618A

Abstract

本发明实施例公开了一种语音获取及搜索方法、智能笔、搜索终端及存储介质。所述方法包括：当智能笔接收到录音指令时，获取用户根据搜索内容输入的目标语音；所述智能笔基于所述目标语音生成所述目标语音的反馈语音，并将所述反馈语音进行播放；其中，所述反馈语音，用于提示用户根据所述反馈语音判断所述反馈语音是否与所述搜索内容匹配以输入停止录音指令；当所述智能笔接收到停止录音指令时，将所述目标语音发送至所述搜索终端，以使所述搜索终端基于所述目标语音进行搜索。本发明实施例能够及时向用户反馈语音识别的结果，从而实现精确搜索，而且简化了现有的语音搜索的步骤，提高语音搜索的效率。

Description

语音获取及搜索方法、智能笔、搜索终端及存储介质

技术领域

本发明实施例涉及电子教育领域，尤其涉及一种语音获取及搜索方法、智能笔、搜索终端及存储介质。

背景技术

随着科技的发展，智能终端的语音获取搜索功能已成为人们日常生活、工作、学习的常用手段。

目前，智能终端的语音获取搜索功能是对用户的语音进行录制，并将获取的语音进行识别，将识别出的文本信息上传至互联网，可以实现对处理后的数据进行搜索查询的操作，最终将互联网反馈的信息显示给用户。其中，通过智能终端的语音获取搜索功能，可以解决用户在写作业过程中遇到的疑难问题。但是，从智能终端语音获取到反馈结果一般要经过以下多个步骤：开机-滑屏解锁-选择需要的搜索题目应用程序(Application，app)-启动app-启动相机-对焦语音获取-截取待搜索的题目-确认-上传-识别-匹配-反馈，该搜索题目的步骤繁琐，同时搜索题目的效率较低。

发明内容

本发明实施例提供了一种语音获取及搜索方法、智能笔、搜索终端及存储介质，能够及时向用户反馈语音识别的结果，从而实现精确搜索，而且简化了现有的语音搜索的步骤，提高语音搜索的效率。

第一方面，本发明实施例提供了一种语音获取搜索的方法，包括：

当智能笔接收到录音指令时，获取用户根据搜索内容输入的目标语音；

所述智能笔基于所述目标语音生成所述目标语音的反馈语音，并将所述反馈语音进行播放；其中，所述反馈语音，用于提示用户根据所述反馈语音判断所述反馈语音是否与所述搜索内容匹配以输入停止录音指令；

当所述智能笔接收到停止录音指令时，将所述目标语音发送至搜索终端，以使所述搜索终端基于所述目标语音进行搜索。

第二方面，本发明实施例还提供了一种搜索方法，包括：

搜索终端接收智能笔发送的用户根据搜索内容输入的目标语音；

所述搜索终端将所述目标语音转换成文本信息，并根据用户的对所述文本信息的选择操作确定所述文本信息中的待搜索对象；

所述搜索终端将所述待搜索对象发送至服务器，并接收所述服务器发送的基于所述待搜索对象反馈的内容，以及将所述内容进行显示。

第三方面，本发明实施例还提供了一种语音搜索方法，包括：

当所述智能笔接收到停止录音指令时，将所述目标语音发送至搜索终端，以使所述搜索终端基于所述目标语音进行搜索；

所述搜索终端接收所述目标语音；

第四方面，本发明实施例还提供了一种智能笔，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现本发明实施例中任一所述的语音获取方法。

第五方面，本发明实施例还提供了一种搜索终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现本发明实施例中任一所述的搜索方法。

第六方面，一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现本发明实施例中任一所述的语音获取方法。

第七方面，一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现本发明实施例中任一所述的搜索方法。

本发明实施例提供了一种语音获取及搜索方法、智能笔、搜索终端及存储介质，通过设置智能笔执行用户语音获取操作，并将语音发送给搜索终端，由搜索终端基于用户语音进行搜索，解决了现有技术中必须经过解锁终端、启动应用程序、启动话筒等繁琐步骤才能进行录音的问题，简化现有的智能终端语音搜索过程，提高了语音搜索的效率；通过对输入语音的识别并及时反馈给用户，避免用户需要经过搜索终端识别文本并显示后才能判断语音识别的结果是否正确，实现及时向用户反馈语音识别结果，并简化了语音搜索的步骤，提高语音识别的准确性，从而实现提高语音搜索的准确性，同时提高用户体验。

附图说明

图1是本发明实施例一中的一种语音获取方法的流程图；

图2是本发明实施例二中的一种搜索方法的流程图；

图3a是本发明实施例三中的一种语音搜索方法的流程图；

图3b是本发明实施例三中的一种语音搜索方法的交互图；

图3c是本发明实施例三中的一种语音搜索方法的功能示意图；

图4是本发明实施例四中的一种语音获取装置的结构框图；

图5是本发明实施例五中的一种搜索装置的结构框图；

图6是本发明实施例七中的一种智能笔的结构示意图；

图7是本发明实施例八中的一种搜索终端的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理，但是其中的许多操作可以被并行地、并发地或者同时实施。此外，各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

实施例一

图1为本发明实施例一提供的一种语音获取方法的流程图，本实施例可适用于语音搜索的情况，该方法可以由本发明实施例提供的语音获取装置来执行，该装置可采用软件和/或硬件的方式实现，并一般可集成在智能笔中。如图1所示，本实施例的方法具体包括：

S110，当智能笔接收到录音指令时，获取用户根据搜索内容输入的目标语音。

在本发明实施例中，录音指令可以通过机械按键获取，也可以通过用户的按压机械按键的压力值或时间获取，还可以通过判断智能笔自身是否被用户拿起来获取。具体的，智能笔判断自身是否被用户拿起，可以通过在智能笔上设置重力传感器，测量智能笔的加速度，当存在加速度时，确定智能笔被用户拿起。当智能笔接收到录音指令时，可以开启设置在智能笔上的麦克风采集用户的语音。

S120，所述智能笔基于所述目标语音生成所述目标语音的反馈语音，并将所述反馈语音进行播放；其中，所述反馈语音，用于提示用户根据所述反馈语音判断所述反馈语音是否与所述搜索内容匹配以输入停止录音指令。

在本发明实施例中，反馈语音可以是智能笔根据目标语音生成对应识别后的语音，当反馈语音与目标语音相同时，判断反馈语音与搜索内容匹配，以使用户输入停止录音指令。或者反馈语音还可以是智能笔根据目标语音确定目标语音的质量评价等级，并生成的与质量评价等级对应的语音，以提示用户目标语音的质量，从而使用户能够根据反馈语音输入停止录音指令或者录音指令。

在本实施例中，智能笔通过基于目标语音向用户播放反馈语音，可以使用户根据反馈语音，确认当前输入的目标语音是否与搜索内容匹配，从而进行下一步语音搜索操作，可以避免用户只能在终端判断目标语音为无效语音，减少用户审核目标语音的操作步骤，提高语音搜索的效率，同时提高目标语音的准确性，从而实现提高用户体验。

在本发明实施例中，可选的，所述智能笔基于所述目标语音生成所述目标语音的反馈语音，可以包括：所述智能笔根据所述目标语音确定所述目标语音对应的文本信息，并提取所述文本信息的文本特征；所述智能笔基于所述文本特征生成对应的音频信号，并基于所述音频信号生成所述语音的反馈语音。

具体的，智能笔将目标语音从音频形式转变成文本信息，并对文本信息进行划分，并对划分后的文字片段进行标注。根据划分和标注的结果提取文本的特征，形成多个文本特征向量组成的有序序列。将多个文本特征向量输入到声学模型，对应生成多个声学特征向量，并对应形成多个声学特征向量组成的有序序列。声学特征向量经过声码器变换得到声音波形，将声音波形按照对应的声学特征向量序列的顺序进行拼接，确定整个文本的合成语音。

通过智能笔获取目标语音的文本信息，并对应生成反馈语音，无需通过终端接收反馈信号并发送至智能笔，并由智能笔提示用户，减少通过终端确认目标语音的步骤，提高语音搜索的效率，同时提高目标语音的准确性，从而实现提高用户体验。

可选的，智能笔可以根据目标语音，评价语音质量，确定语音质量的等级，并将该等级对应生成文本信息，通过提取该文本信息的文本特征，生成对应的音频信号，并基于该音频信号最终生成反馈语音，以提示用户目标语音的质量，输入停止录音指令或录音指令。具体的，可以通过主观评价方法(如平均意见分方法)或客观评价方法(如基于输入——输出方式)评价语音质量。示例性的，基于输入——输出方式确定语音质量等级可以是将原始语音和失真语音分别进行预处理以及特征提取，对处理后的原始语音和处理后的失真语音进行客观失真量计算获取失真语音相对于原始语音的失真量，最后将失真量输入到数据模型中，输出语音质量的等级。

S130，当所述智能笔接收到停止录音指令时，将所述目标语音发送至搜索终端，以使所述搜索终端基于所述目标语音进行搜索。

在本发明实施例中，停止录音指令可以通过机械按键获取，也可以通过用户的按压机械按键的压力值或时间获取，还可以通过智能笔确定不存在语音输入获取。示例性的，智能笔确定不存在语音输入的具体方式为，当获取的目标语音转换的音频信号的幅值的方差小于设定阈值时，确定智能笔不存在语音输入，生成停止录音指令。

在本发明的另一个实施例中，可选的，在获取用户根据搜索内容输入的目标语音之后，还包括：所述智能笔获取背景声音，并将所述背景声音转换成背景音频信号；所述智能笔将背景音频信号依次进行校准处理和听觉转换，并获取背景音频信号的响度值，其中，所述校准处理包括频域整形和时间对准；所述智能笔将所述目标语音转换成目标音频信号，对所述目标音频信号依次进行校准处理和听觉转换，获取目标音频信号的响度值；所述智能笔将所述背景音频信号的响度值和所述目标音频信号的响度值输入到认知模型，获取语音评价分数，其中，所述语音评价分数用于提示用户是否重新根据搜索内容输入目标语音。

具体的，智能笔可以在获取目标语音之前录制设定时间的声音，也可以在获取目标语音之后录制设定时间的声音，并将该声音进行拼接或者剪切，生成与目标语音时间长度相同的声音片段，即背景声音。

其中，将目标语音作为待评估样本，将背景声音作为背景样本，比较待评估样本与背景样本之间的差异，并将该差异进行量化，对应生成语音评价分数。更详细的，计算待评估样本与背景样本之间的差值的方法可以是，将目标语音转化为目标音频信号，依次进行频域整形、时间对准、听觉转换，获取目标音频信号的响度值，其中，频域整形可以包括将信号的电平调整为标准听觉电平，以及通过输入滤波器进行滤波，时间对准包括预处理，整体语音的时延估计、语句的标识、语句的延时估计和语句的分割，听觉转换包括计算校正因子、时域——频域变换、变换Bark谱密度、线性频率响应补偿、增益补偿和响度变换。获取背景声音，并将背景声音转换成背景音频信号，同样也进行频域整形、时间对准和听觉转换，最后获取背景音频信号的响度值，将两个信号的响度值，输入到认知模型，获取语音评价分数。其中，输入到认知模型进行的计算具体包括计算干扰密度、非对称处理、干扰度、坏区间的重对齐、干扰度的时域平衡和计算客观得分。

通过智能笔对用户发出的目标语音进行质量评分，以提示用户目标语音的质量，从而用户可以进行下一步操作，执行录音指令或者停止录音指令，实现评价语音的质量，同时能够仅通过智能笔向用户进行反馈，减少用户从终端获取反馈的步骤，提高语音搜索的效率，从而提高用户体验。

本发明实施例通过设置智能笔执行用户语音获取操作，并将语音发送给搜索终端，由搜索终端基于用户语音进行搜索，解决了现有技术中必须经过解锁终端、启动应用程序、启动话筒或麦克风等繁琐步骤才能进行录音的问题，简化现有的智能终端语音搜索过程，提高了语音搜索的效率；通过对输入语音的识别并及时反馈给用户，避免用户需要经过搜索终端识别文本并显示后才能判断语音识别的结果是否准确，实现及时向用户反馈语音识别结果，并简化了向用户反馈的步骤，提高语音识别的准确性，从而实现提高语音搜索的准确性，同时提高用户体验。

实施例二

图2为本发明实施例二提供的一种搜索方法的流程图，本实施例中的搜索终端与上述实施例的智能笔存在交互过程，本实施例可适用于语音搜索的情况，该方法可以由本发明实施例提供的搜索装置来执行，该装置可采用软件和/或硬件的方式实现，并一般可集成在搜索终端中。如图2所示，本实施例的方法具体包括：

相应的，本实施例的方法包括：

S210，搜索终端接收智能笔发送的用户根据搜索内容输入的目标语音。

在本发明实施例中，搜索终端可以通过搜索应用接收智能笔发送的用户根据搜索内容输入的目标语音。若当搜索终端处于待机状态，且接收到智能笔发送的目标语音时，对屏幕进行解锁，并唤醒搜索应用以及锁定除所述搜索应用之外的应用。搜索应用可以对目标语音进行识别，并将识别后的文本信息发送至服务器进行搜索。若当搜索终端处于运行状态，且接收到智能笔发送的目标语音时，唤醒搜索应用以及锁定除所述搜索应用之外的应用。

通过当搜索终端接收到智能笔发送的目标语音时，只解锁屏幕和搜索应用，并保证其他应用处于锁定状态，可以避免用户在进行语音搜索的过程中受到其他应用的干扰，同时通过接收目标语音时自动唤醒屏幕和搜索应用，解决了现有技术中需要通过开机、滑屏解锁、选择需要的搜索应用、启动搜索应用、启动麦克风、停止录音等操作才能进行语音搜索的问题，可以简化语音搜索的操作步骤，提高语音搜索的效率，从而提高用户体验。

S220，所述搜索终端将所述目标语音转换成文本信息，并根据用户的对所述文本信息的选择操作确定所述文本信息中的待搜索对象。

在本发明实施例中，搜索终端可以将目标语音分帧，即把声音划分成一个个小段，可以通过移动窗函数实现，形成多个帧波形，将每一帧波形变换成一个多维向量，即声学特征提取。根据整个目标语音的多个多维向量与数据库中的语音模板中的声学特征进行比较，根据路径搜索算法(如维特比(Viterbi)算法)，搜索与输入语音匹配的模板，并根据该模板，输出识别结果，其中，数据库可以是搜索终端中的数据库，也可以是服务器中的数据库。

具体的，用户对文本信息的选择操作可以包括点击选择操作、触摸按压操作、框选操作或语音选择操作。其中，用户可以通过选择操作来选择搜索的关键词，关键词的数目可以是多个。用户也可以通过选择操作来选择与需要搜索的内容一致的文本信息，以避免语音识别错误，或者目标语音与用户输入的语音不一致，而造成针对错误的文本信息进行搜索。

S230，所述搜索终端将所述待搜索对象发送至服务器，并接收所述服务器发送的基于所述待搜索对象反馈的内容，以及将所述内容进行显示。

具体的，反馈的内容可以包括对待搜索对象的分析和答案，具体可以是图、文字、视频和/或音频，还可以包括各类搜索引擎(如百度搜索引擎)对待搜索对象的搜索结果。

其中，搜索终端可以通过显示屏将反馈的内容进行显示。可以将反馈的内容按照设定顺序显示，具体的，设定顺序可以是按照浏览次数进行升序或降序排列，还可以是按照类别排列，或者还可以是按照最后一次被浏览的时间顺序进行排序。例如，可以按照类别将反馈的内容进行归类，且每个类别中仅显示评价等级最高或者浏览次数最多的内容。

在本发明实施例中，可选的，所述方法还可以包括：当所述搜索终端接收到所述内容中包含的搜索记录的数目超过设定阈值时，返回根据用户的对所述文本信息的选择操作确定所述文本信息中的待搜索对象的操作。

具体的，当搜索终端在进行网络搜索时，服务器会根据搜索词或搜索语句的不同，发送不同的搜索记录，若当搜索记录的数目超过设定阈值，即待搜索对象需要重新确定。其中，设定阈值可以是100条。

通过对搜索记录数目的统计，并当该数目超过设定阈值时，重新确定待搜索对象，可以优化待搜索对象，以优化搜索记录，便于用户查看，并提高搜索的准确性。

本发明实施例通过搜索终端接收智能笔发送的目标语音并进行文字显示，根据用户的操作进行搜索解决了现有技术中需要通过开机、滑屏解锁、启动麦克风、停止录音等多个操作才能进行语音搜索的问题，大大简化了语音搜索的过程，提高语音搜索的效率，从而提高用户体验。

实施例三

图3a为本发明实施例三提供的一种语音搜索方法的流程图。本实施例为上述实施例中的搜索终端与智能笔的交互方法，本实施例可适用于语音搜索的情况，该方法可以由本发明实施例提供的语音搜索系统来执行。如图3a所示，所述方法，包括：

S310，当智能笔接收到录音指令时，获取用户根据搜索内容输入的目标语音。

S320，所述智能笔基于所述目标语音生成所述目标语音的反馈语音，并将所述反馈语音进行播放；其中，所述反馈语音，用于提示用户根据所述反馈语音判断所述反馈语音是否与所述搜索内容匹配以输入停止录音指令。

S330，当所述智能笔接收到停止录音指令时，将所述目标语音发送至所述搜索终端，以使所述搜索终端基于所述目标语音进行搜索。

S340，所述搜索终端接收所述目标语音。

S350，所述搜索终端将所述目标语音转换成文本信息，并根据用户的对所述文本信息的选择操作确定所述文本信息中的待搜索对象。

S360，所述搜索终端将所述待搜索对象发送至服务器，并接收所述服务器发送的基于所述待搜索对象反馈的内容，以及将所述内容进行显示。

在本发明实施例中，可选的，所述方法还可以包括：当所述搜索终端接收到所述内容中包含的搜索记录的数目超过设定阈值时，返回根据用户的对所述文本信息的选择操作确定所述文本信息中的待搜索对象的操作。由此，通过搜索记录过多时，返回确定待搜索对象的操作，可以优化待搜索对象，以优化搜索记录，便于用户查看。

具体的，图3b为本发明实施例三提供的一种语音搜索方法的交互图，具体如图3b所示，所述方法包括：

S361，当智能笔接收到录音指令时，获取用户根据搜索内容输入的目标语音；

S362，所述智能笔基于所述目标语音生成所述目标语音的反馈语音，并将所述反馈语音进行播放；其中，所述反馈语音，用于提示用户根据所述反馈语音判断所述反馈语音是否与所述搜索内容匹配以输入停止录音指令；

S363，当所述智能笔接收到停止录音指令时，将所述目标语音发送至搜索终端；

S364，所述搜索终端接收所述目标语音；

S365，所述搜索终端将所述目标语音转换成文本信息，并根据用户的对所述文本信息的选择操作确定所述文本信息中的待搜索对象；

S366，所述搜索终端发送所述待搜索对象至服务器；

S367，所述服务器基于所述待搜索对象进行搜索，生成反馈的内容；

S368，所述服务器发送所述反馈的内容；

S369，所述搜索终端接收所述反馈的内容并显示。

其中，图3c为本发明实施例三提供的一种语音搜索方法的功能示意图，具体如图3c所示，智能笔370获取用户输入的语音，将获取的语音发送至搜索终端380，由搜索终端380进行问题搜索，获取问题的答案和解析。

本发明实施例通过设置额外的智能笔执行语音获取操作，同时通过搜索终端仅进行搜索操作，解决了现有技术中必须通过繁琐的步骤才能进行语音搜索的问题，大大简化了语音搜索的过程，提高语音搜索的效率，同时，减少了用户与搜索终端的交互步骤，减少搜索终端对用户学习的干扰，从而提高用户体验。

实施例四

图4为本发明实施例四提供的一种语音获取装置的结构示意图。如图4所示，所述装置包括：

目标语音获取模块410，用于当接收到录音指令时，获取用户根据搜索内容输入的目标语音；

语音反馈模块420，用于基于所述目标语音生成所述目标语音的反馈语音，并将所述反馈语音进行播放；其中，所述反馈语音，用于提示用户根据所述反馈语音判断所述反馈语音是否与所述搜索内容匹配以输入停止录音指令；

发送模块430，用于当接收到停止录音指令时，将所述目标语音发送至搜索终端，以使所述搜索终端基于所述目标语音进行搜索。

本发明实施例通过执行用户语音获取操作，并将语音发送给搜索终端，由搜索终端基于用户语音进行搜索，解决了现有技术中必须经过解锁终端、启动应用程序、启动话筒或麦克风等繁琐步骤才能进行录音的问题，简化现有的智能终端语音搜索过程，提高了语音搜索的效率；通过对输入语音的识别并及时反馈给用户，避免用户需要经过搜索终端识别文本并显示后才能判断语音识别的结果是否准确，实现及时向用户反馈语音识别结果，并简化了向用户反馈的步骤，提高语音识别的准确性，从而实现提高语音搜索的准确性，同时提高用户体验。

进一步的，所述语音反馈模块420，用于：根据所述目标语音确定所述目标语音对应的文本信息，并提取所述文本信息的文本特征；基于所述文本特征生成对应的音频信号，并基于所述音频信号生成所述语音的反馈语音。

进一步的，所述装置还包括：语音评价分数获取模块，用于获取背景声音，并将所述背景声音转换成背景音频信号；将背景音频信号依次进行校准处理和听觉转换，并获取背景音频信号的响度值，其中，所述校准处理包括频域整形和时间对准；将所述目标语音转换成目标音频信号，对所述目标音频信号依次进行校准处理和听觉转换，获取目标音频信号的响度值；将所述背景音频信号的响度值和所述目标音频信号的响度值输入到认知模型，获取语音评价分数，其中，所述语音评价分数用于提示用户是否重新根据搜索内容输入目标语音。

上述语音获取搜索的装置可执行本发明任意实施例所提供的语音获取搜索的方法，具备执行的语音获取搜索的方法相应的功能模块和有益效果。

实施例五

图5为本发明实施例五提供的一种搜索装置的结构示意图。如图5所示，所述装置包括：

接收模块510，用于接收智能笔发送的用户根据搜索内容输入的目标语音；

待搜索对象确定模块520，用于将所述目标语音转换成文本信息，并根据用户的对所述文本信息的选择操作确定所述文本信息中的待搜索对象；

反馈显示模块530，用于将所述待搜索对象发送至服务器，并接收所述服务器发送的基于所述待搜索对象反馈的内容，以及将所述内容进行显示。

本发明实施例通过接收智能笔发送的目标语音并进行文字显示，根据用户的操作进行搜索解决了现有技术中需要通过开机、滑屏解锁、启动麦克风、停止录音等多个操作才能进行语音搜索的问题，大大简化了语音搜索的过程，提高语音搜索的效率，从而提高用户体验。

进一步的，所述反馈显示模块530，用于：当接收到所述内容中包含的搜索记录的数目超过设定阈值时，返回根据用户的对所述文本信息的选择操作确定所述文本信息中的待搜索对象的操作。

上述搜索装置可执行本发明任意实施例所提供的搜索方法，具备执行的搜索方法相应的功能模块和有益效果。

实施例六

图6为本发明实施例6提供的一种智能笔的结构示意图，如图6所示，该智能笔包括处理器610、存储器620、输入装置630和输出装置640；智能笔中处理器610的数量可以是一个或多个，图6中以一个处理器610为例；智能笔中的处理器610、存储器620、输入装置630和输出装置640可以通过总线或其他方式连接，图6中以通过总线连接为例。

存储器620作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的语音获取方法对应的程序指令/模块(例如，语音获取装置中的目标语音获取模块、语音反馈模块和发送模块)。处理器610通过运行存储在存储器620中的软件程序、指令以及模块，从而执行智能笔的各种功能应用以及数据处理，即实现上述的语音获取方法。

存储器620可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器620可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器620可进一步包括相对于处理器610远程设置的存储器，这些远程存储器可以通过网络连接至智能笔。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置630可用于接收输入的数字或字符信息，以及产生与智能笔的用户设置以及功能控制有关的键信号输入。输出装置640可包括输出端口等。

实施例七

图7为本发明实施例七提供的一种搜索终端的结构示意图。图7示出了适于用来实现本发明实施方式的示例性搜索终端712的框图。图7显示的搜索终端712仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图7所示，搜索终端712以通用计算设备的形式表现。搜索终端712的组件可以包括但不限于：一个或者多个处理器或者处理单元716，系统存储器728，连接不同系统组件(包括系统存储器728和处理单元716)的总线718。

总线718表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture，ISA)总线，微通道体系结构(Micro Channel Architecture，MCA)总线，增强型ISA总线、视频电子标准协会(Video Electronics Standards Association，VESA)局域总线以及外围组件互连(Peripheral Component Interconnect，PCI)总线。

搜索终端712典型地包括多种计算机系统可读介质。这些介质可以是任何能够被搜索终端712访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器728可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(Random Access Memory，RAM)730和/或高速缓存存储器732。搜索终端712可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统734可以用于读写不可移动的、非易失性磁介质(图7未显示，通常称为“硬盘驱动器”)。尽管图7中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如紧凑磁盘只读存储器(Compact Disc Read-OnlyMemory，CD-ROM)，数字视盘(Digital Video Disc-Read Only Memory，DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线718相连。存储器728可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块742的程序/实用工具740，可以存储在例如存储器728中，这样的程序模块742包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块742通常执行本发明所描述的实施例中的功能和/或方法。

搜索终端712也可以与一个或多个外部设备714(例如键盘、指向设备、显示器724等)通信，还可与一个或者多个使得用户能与该搜索终端712交互的设备通信，和/或与使得该搜索终端712能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(Input/Output，I/O)接口722进行。并且，搜索终端712还可以通过网络适配器720与一个或者多个网络(例如局域网(Local Area Network，LAN)，广域网(Wide Area Network，WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器720通过总线718与搜索终端712的其它模块通信。应当明白，尽管图7中未示出，可以结合搜索终端712使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、磁盘阵列(Redundant Arrays of Inexpensive Disks，RAID)系统、磁带驱动器以及数据备份存储系统等。

处理单元716通过运行存储在系统存储器728中的程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的一种搜索方法。

也即，所述处理单元执行所述程序时实现：当智能笔接收到录音指令时，获取用户根据搜索内容输入的目标语音；所述智能笔基于所述目标语音生成所述目标语音的反馈语音，并将所述反馈语音进行播放；其中，所述反馈语音，用于提示用户根据所述反馈语音判断所述反馈语音是否与所述搜索内容匹配以输入停止录音指令；当所述智能笔接收到停止录音指令时，将所述目标语音发送至搜索终端，以使所述搜索终端基于所述目标语音进行搜索。

实施例八

本发明实施例八提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请所有发明实施例提供的语音获取方法：

也即，该程序被处理器执行时实现：当智能笔接收到录音指令时，获取用户根据搜索内容输入的目标语音；所述智能笔基于所述目标语音生成所述目标语音的反馈语音，并将所述反馈语音进行播放；其中，所述反馈语音，用于提示用户根据所述反馈语音判断所述反馈语音是否与所述搜索内容匹配以输入停止录音指令；当所述智能笔接收到停止录音指令时，将所述目标语音发送至搜索终端，以使所述搜索终端基于所述目标语音进行搜索。

可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、RAM、只读存储器(Read Only Memory，ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、闪存、光纤、便携式CD-ROM、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、电线、光缆等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括LAN或WAN——连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

实施例九

本发明实施例九提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请所有发明实施例提供的搜索方法：

也即，该程序被处理器执行时实现：搜索终端接收智能笔发送的用户根据搜索内容输入的目标语音；所述搜索终端将所述目标语音转换成文本信息，并根据用户的对所述文本信息的选择操作确定所述文本信息中的待搜索对象；所述搜索终端将所述待搜索对象发送至服务器，并接收所述服务器发送的基于所述待搜索对象反馈的内容，以及将所述内容进行显示。

可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、RAM、ROM、EPROM或闪存、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——LAN或WAN——连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种语音获取方法，其特征在于，包括：

在所述获取用户根据搜索内容输入的目标语音之后，还包括：

所述智能笔获取背景声音，并将所述背景声音转换成背景音频信号；

所述智能笔将背景音频信号依次进行校准处理和听觉转换，并获取背景音频信号的响度值；

所述智能笔将所述目标语音转换成目标音频信号，对所述目标音频信号依次进行校准处理和听觉转换，获取目标音频信号的响度值；

所述智能笔将所述背景音频信号的响度值和所述目标音频信号的响度值输入到认知模型，获取语音评价分数，其中，所述语音评价分数用于提示用户是否重新根据搜索内容输入目标语音；

所述反馈语音，用于提示用户根据所述反馈语音判断所述反馈语音是否与所述搜索内容匹配以输入停止录音指令，包括：

所述反馈语音是所述智能笔根据所述目标语音生成对应识别后的语音，当所述反馈语音与所述目标语音相同时，判断所述反馈语音与所述搜索内容匹配，以使用户输入停止录音指令；

2.根据权利要求1所述的方法，其特征在于，所述智能笔基于所述目标语音生成所述目标语音的反馈语音，包括：

所述智能笔根据所述目标语音确定所述目标语音对应的文本信息，并提取所述文本信息的文本特征；

所述智能笔基于所述文本特征生成对应的音频信号，并基于所述音频信号生成所述目标语音的反馈语音。

3.根据权利要求1所述的方法，其特征在于，所述搜索终端基于所述目标语音进行搜索，包括：

4.根据权利要求3所述的方法，其特征在于，还包括：

当所述搜索终端接收到所述内容中包含的搜索记录的数目超过设定阈值时，返回根据用户的对所述文本信息的选择操作确定所述文本信息中的待搜索对象的操作。

5.一种语音搜索方法，其特征在于，包括：

所述搜索终端接收所述目标语音；

6.一种智能笔，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-2中任一所述的语音获取方法。

7.一种搜索终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求3-4中任一所述的语音获取方法。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-2中任一所述的语音获取方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求3-4中任一所述的语音获取方法。