CN109817203B - 一种语音交互的方法和系统 - Google Patents
一种语音交互的方法和系统 Download PDFInfo
- Publication number
- CN109817203B CN109817203B CN201910123362.2A CN201910123362A CN109817203B CN 109817203 B CN109817203 B CN 109817203B CN 201910123362 A CN201910123362 A CN 201910123362A CN 109817203 B CN109817203 B CN 109817203B
- Authority
- CN
- China
- Prior art keywords
- voice
- question
- user
- preset
- mode
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Electrically Operated Instructional Devices (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明涉及辅助学习领域,提供一种语音交互方法,包括:开启预设模式,所述预设模式下,持续通过麦克风进行用户语音的监听,并且只调用预设题库进行问题查询;当监听到所述用户语音时,识别其语义,获取其中需要进行查询的问题,判断其是否收录在所述预设题库中;当所述问题收录在所述预设题库中时,输出所述问题的答案。本发明通过设置一种预设模式,在该模式下麦克风常开识别用户提出的问题,实现免除用户使用语音识别查询问题时需要反复发出唤醒词的步骤,同时,因为对用户的问题进行识别后,只在与学习有关的题库中寻找答案并输出结果,也实现了帮助孩子在学习时专注于当前题目内容的效果。
Description
技术领域
本发明涉及辅助学习技术领域,尤指一种语音交互的方法和系统。
背景技术
随着社会的进步,孩子在学校学到的知识越来越多样化,做的课后练习题也越来越难,当他们遇到无法解决的难题时,习惯性地求助于家长,但家长有时也会被难住,这时家长不得不在手机中查询百度等搜索引擎来给孩子解答问题,往往需要花费大量时间来操作和筛选。
现有的方法利用语音识别技术,通过识别孩子提出的问题的语音来识别其遇到的问题,再从搜索引擎中自动搜索答案后输出。这些方法往往通过设置一个语音唤醒词来激活语音识别程序,例如常见的苹果手机通过“Hi,Siri”这样一个标识语音来唤醒语音识别功能。这样孩子或家长在使用这些设备时,不得不频繁地发出标识语音,重复唤醒设备的语音识别功能,这往往会干扰孩子学习的连续性,分散其进行作业练习时的注意力。
如何跳过唤醒标识语音,使用户直接提出问题便可以被识别,省去重复地发出唤醒标识语音的麻烦,成为需要解决的问题。
发明内容
基于如何跳过唤醒词,直接识别用户提出的问题并找寻答案的问题,本发明提供一种语音交互的方法和系统,技术方案如下:
本发明提供一种语音交互的方法,包括:
开启预设模式,所述预设模式下,持续通过麦克风进行用户语音的监听,并且只调用预设题库进行问题查询;
当监听到所述用户语音时,识别其语义,获取其中需要进行查询的问题,判断其是否收录在所述预设题库中;
当所述问题收录在所述预设题库中时,输出所述问题的答案。
进一步优选地,一种语音交互的方法中,所述输出所述问题的答案包括:
通过语音播报输出所述答案;
和/或通过屏幕输出所述答案;
和/或使用通信技术将所述答案传输到智能设备上,由所述智能设备输出。
进一步优选地,一种语音交互的方法中,所述通过语音播报输出所述答案,包括:
进行所述语音播报时,关闭所述麦克风;
当所述语音播报停止后,间隔预设时间开启所述麦克风,继续进行所述用户语音的监听。
进一步优选地,一种语音交互的方法中,所述获取其中需要进行查询的问题后,还包括:
当所述问题未收录在所述预设题库中时,将其记录为搁置问题;
当关闭所述预设模式后,尝试通过搜索引擎对所述搁置问题进行搜索,输出搜索结果。
进一步优选地,一种语音交互的方法中,所述当监听到所述用户语音时,识别其语义包括:
当所述用户语音中包含多个语音片段时,优先提取所述语音片段里的疑问词,识别所述疑问词所在的所述语音片段的语义。
本发明还提供一种语音交互的系统,包括:
监听模块,在预设模式下,持续通过麦克风进行用户语音的监听,并且只调用预设题库进行问题查询;
识别模块,当所述监听模块监听到所述用户语音时,识别其语义,获取其中需要进行查询的问题,判断其是否收录在所述预设题库中;
输出模块,当所述识别模块获取的所述问题在所述预设题库中时,输出所述问题的答案。
进一步优选地,一种语音交互的系统中,所述输出模块包括:
语音子模块,通过语音播报输出所述答案;
显示子模块,通过屏幕输出所述答案;
通信子模块,使用通信技术将所述答案传输到智能设备上,由所述智能设备输出。
进一步优选地,一种语音交互的系统中,所述语音子模块包括:
关麦单元,进行所述语音播报时,关闭所述麦克风;
开麦单元,当所述语音播报停止后,间隔预设时间开启所述麦克风,继续进行所述用户语音的监听。
进一步优选地,一种语音交互的系统中,还包括:
搁置模块,当所述问题未收录在所述预设题库中时,将其记录为搁置问题;
搜索模块,当关闭所述预设模式后,尝试通过搜索引擎对所述搁置问题进行搜索,输出搜索结果。
进一步优选地,一种语音交互的系统中,所述识别模块包括:
优先子模块,当所述监听模块监听到所述用户语音中包含多个语音片段时,优先提取所述语音片段里的疑问词,识别所述疑问词所在的所述语音片段的语义。
通过本发明提供的一种语音交互的方法和系统,能够带来以下至少一种有益效果:
1、本发明通过设置一种预设模式,例如学习模式,在学习模式下,麦克风处于开启状态,持续对用户语音进行监听和识别,对于用户提出的问题,识别与学习相关的问题后,只向用户输出与学习有关的问题的答案。实现免除用户使用语音识别查询问题时需要反复发出唤醒词的复杂步骤,同时,因为对用户的问题进行识别后,只在与学习有关的题库中寻找答案并输出结果,也实现了帮助孩子在学习时专注于当前题目内容的效果,因为即使孩子提出其他问题,在学习模式下也不会得到解答。
2、本发明通过多种输出答案的方法,实现了适应各种不同的学习场景,例如当孩子在学习英语音标时,需要查询具体音标的读法,那么就通过语音播报输出答案,如果需要查询汉字写法,那么就通过屏幕显示输出答案,如果需要使用手机等其它设备输出,还可以使用通信技术将答案传输到智能设备上。
3、当答案需要使用语音播报输出时,播出的声音会影响麦克风对用户语音的监听,可能造成误听。本发明通过在语音播报的同时,关闭麦克风,直到播报结束,再重启麦克风,实现免除语音播报答案时可能造成误听的功能。
4、如果孩子在学习模式下,提出了与学习无关的问题,如果完全置之不理,那么孩子容易感到被忽略,从而影响情绪。本发明通过将这些问题搁置存储起来,当他们完成学习任务,关闭学习模式后,再从百度、BING等搜索引擎中寻找搁置问题的答案,为孩子解惑,实现了保障孩子学习效率的同时,又不影响其保持好奇心的效果。
5、如果孩子在提出问题时,输入的语音是一大段语句,在识别其中的问题时,如果按顺序一句句地解读,那么很可能需要将一整段语句全部解析完才能获得孩子想要查询的问题。本发明通过优先识别与疑问词相关的语音片段,在学习模式下专注于问题识别,提高了获取问题的速度。
附图说明
下面将以明确易懂的方式,结合附图说明优选实施方式,对一种语音交互的方法和系统的上述技术特征、优点及其实现方式予以进一步的说明。
图1是本发明一种语音交互的方法的一个实施例的流程图;
图2是本发明一种语音交互的方法的另一个实施例的流程图;
图3是本发明一种语音交互的方法的又一个实施例的流程图;
图4是本发明一种语音交互的方法的另一个实施例的流程图;
图5是本发明一种语音交互的方法的又一个实施例的流程图;
图6是本发明一种语音交互的方法的另一个实施例的流程图;
图7是本发明一种语音交互的系统的一个实施例的结构示意图
附图标号说明:
100监听模块 200识别模块
210优先子模块 300输出模块
310语音子模块 311关麦单元
312开麦单元 320显示子模块
330通信子模块 400搁置模块
500搜索模块
具体实施方式
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对照附图说明本发明的具体实施方式。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施方式。
为使图面简洁,各图中只示意性地表示出了与本发明相关的部分,它们并不代表其作为产品的实际结构。另外,以使图面简洁便于理解,在有些图中具有相同结构或功能的部件,仅示意性地绘示了其中的一个,或仅标出了其中的一个。在本文中,“一个”不仅表示“仅此一个”,也可以表示“多于一个”的情形。
为了方便用户专注于学习,实现跳过唤醒词,直接识别用户提出的问题,本发明提供一种语音交互的方法和系统。
本发明第一实施例,图1是本发明一些实施例中提供的一种语音交互的方法的流程图,包括:
S100开启预设模式,所述预设模式下,持续通过麦克风进行用户语音的监听,并且只调用预设题库进行问题查询;
S200当监听到所述用户语音时,识别其语义,获取其中需要进行查询的问题,判断其是否收录在所述预设题库中;
S300当所述问题收录在所述预设题库中时,输出所述问题的答案。
具体地,在S100中,预设模式可以为专注模式、学习模式、学科模式等,具体的设置根据用户的需求进行,其特点在于,在预设模式下,麦克风处于常开状态,并只对用户与该模式相关的问题做出查询,当用户询问其他问题与当前模式下的场景不相关时,因为S100中只调用对应的预设题库进行查询,所以无关问题无法得到回应。S100为用户提供了一种与当前场景相匹配的识别模式,一方面省去用户在激活语音识别时的唤醒词,一方面将用户的注意力集中到当前任务中。
当检测到用户发出语音时,进入S200,对监听到的用户的语音进行识别,获取其中的语义,进而获取用户提出的问题,再从预设题库中查询该问题。一般来说,当用户提出的问题匹配当前模式时,可以在题库中查询到该问题。另一种情形是,当用户提出的问题存在于多个题库中时,只在当前的预设题库中进行问题查询。例如,当用户选择的英语学科模式时,提出问题“SIN的意思是什么”?那么就只在英语学习模式对应的题库中进行查询,而在数学学习模式时,如果用户提出“SIN的意思是什么”?那么就只在数学模式对应的题库中进行查询,可以看到同样的问题在两种模式下查询的结果是不同的。进一步地,如果用户提出的问题与当前学习模式不匹配,在题库中无法查询到该问题,则向用户发出提示,提示其将注意力集中于当前任务中。
当顺利在当前的预设模式下查询到用户提出的问题时,通过S300将问题的答案输出。需要明确的是,此时输出的只是在当前预设题库中的答案,如果一个问题对应多个题库,那么该问题在其他题库中的答案将无法输出。例如,当用户选择的英语学科模式时,提出问题“SIN的意思是什么”?输出的答案只是单词“SIN”的英文解释:“n.违背宗教[道德原则]的恶行;罪恶,罪孽;过错,罪过;愚蠢的事,可耻的事;vi.犯罪,犯过错;vt.犯罪。”如果用户选择的数学学科模式时,提出问题“SIN的意思是什么”?输出的答案只是数学函数SIN的解释:“sin(函数名称)编辑在直角三角形中,∠α(不是直角)的对边与斜边的比叫做∠α的正弦,记作sinα,即sinα=∠α的对边/∠α的斜边”。
本发明的一些实施例中,提供一种语音交互的方法通过设置一种预设模式,在该模式下麦克风常开识别用户提出的问题,并只向用户输出与该模式有关的问题的答案,实现了免除用户使用语音识别查询问题时需要反复发出唤醒词的复杂步骤,同时,因为对用户的问题进行识别后,只在与学习有关的题库中寻找答案并输出结果,也实现了帮助孩子在学习时专注于当前题目内容的效果。
本发明第二实施例,图2是本发明一些实施例中提供的另一种语音交互的方法的流程图,包括:
S100开启预设模式,所述预设模式下,持续通过麦克风进行用户语音的监听,并且只调用预设题库进行问题查询;
S200当监听到所述用户语音时,识别其语义,获取其中需要进行查询的问题,判断其是否收录在所述预设题库中;
S300当所述问题收录在所述预设题库中时,输出所述问题的答案;
S410通过语音播报输出所述答案;
S420和/或通过屏幕输出所述答案;
S430和/或使用通信技术将所述答案传输到智能设备上,由所述智能设备输出。
具体地,在S100中,预设模式可以为专注模式、学习模式、学科模式等,具体的设置根据用户的需求进行,其特点在于,在预设模式下,麦克风处于常开状态,并只对用户与该模式相关的问题做出查询,当用户询问其他问题与当前模式下的场景不相关时,因为S100中只调用对应的预设题库进行查询,所以无关问题无法得到回应。S100为用户提供了一种与当前场景相匹配的识别模式,一方面省去用户在激活语音识别时的唤醒词,一方面将用户的注意力集中到当前任务中。
当检测到用户发出语音时,进入S200,对监听到的用户的语音进行识别,获取其中的语义,进而获取用户提出的问题,再从预设题库中查询该问题。一般来说,当用户提出的问题匹配当前模式时,可以在题库中查询到该问题。另一种情形是,当用户提出的问题存在于多个题库中时,只在当前的预设题库中进行问题查询。例如,当用户选择的英语学科模式时,提出问题“SIN的意思是什么”?那么就只在英语学习模式对应的题库中进行查询,而在数学学习模式时,如果用户提出“SIN的意思是什么”?那么就只在数学模式对应的题库中进行查询,可以看到同样的问题在两种模式下查询的结果是不同的。进一步地,如果用户提出的问题与当前学习模式不匹配,在题库中无法查询到该问题,则向用户发出提示,提示其将注意力集中于当前任务中。
当顺利在当前的预设模式下查询到用户提出的问题时,通过S300将问题的答案输出。需要明确的是,此时输出的只是在当前预设题库中的答案,如果一个问题对应多个题库,那么该问题在其他题库中的答案将无法输出。例如,当用户选择的英语学科模式时,提出问题“SIN的意思是什么”?输出的答案只是单词“SIN”的英文解释:“n.违背宗教[道德原则]的恶行;罪恶,罪孽;过错,罪过;愚蠢的事,可耻的事;vi.犯罪,犯过错;vt.犯罪。”如果用户选择的数学学科模式时,提出问题“SIN的意思是什么”?输出的答案只是数学函数SIN的解释:“sin(函数名称)编辑在直角三角形中,∠α(不是直角)的对边与斜边的比叫做∠α的正弦,记作sinα,即sinα=∠α的对边/∠α的斜边”。
经过S300中成功获得需要输出的答案内容后,在向用户输出答案时,可以采取多种方法,可以用S410中的语音播报,和/或S420通过屏幕输出,和/或S430使用通信技术将所述答案传输到智能设备上,由所述智能设备输出,选择何种输出方法可以根据问题的属性进行灵活变化。需要明确的是,每一个问题的输出方式在预设题库中已经进行设定,例如用户在英语学习模式下,提出的问题为“SIN怎么念”时,预设题库中检测到的答案是单词“SIN”的英语读音,会通过语音播报输出读音。S410、S420、S430的选择除了在题库中预先设定外,也会根据用户的具体指令进行灵活更改,例如,用户在获得S420通过屏幕输出的答案后,继续提出指令“发送到我的手机中”,则会使用S430步骤,通过通信技术将答案发送到用户所说的“我的手机”对应的智能设备。
本发明的一些实施例中,提供一种语音交互的方法通过多种输出答案的方法,实现了适应各种不同的场景,根据用户提出的具体问题和具体需求,灵活地选择输出方式的效果,可以进一步增加用户的体验,丰富了应用场景。
本发明第三实施例,图3是本发明一些实施例中提供的又一种语音交互的方法的流程图,包括:
S100开启预设模式,所述预设模式下,持续通过麦克风进行用户语音的监听,并且只调用预设题库进行问题查询;
S200当监听到所述用户语音时,识别其语义,获取其中需要进行查询的问题,判断其是否收录在所述预设题库中;
S300当所述问题收录在所述预设题库中时,输出所述问题的答案;
S410通过语音播报输出所述答案;
S411进行所述语音播报时,关闭所述麦克风;
S412当所述语音播报停止后,间隔预设时间开启所述麦克风,继续进行所述用户语音的监听。
具体地,在S100中,预设模式可以为专注模式、学习模式、学科模式等,具体的设置根据用户的需求进行,其特点在于,在预设模式下,麦克风处于常开状态,并只对用户与该模式相关的问题做出查询,当用户询问其他问题与当前模式下的场景不相关时,因为S100中只调用对应的预设题库进行查询,所以无关问题无法得到回应。S100为用户提供了一种与当前场景相匹配的识别模式,一方面省去用户在激活语音识别时的唤醒词,一方面将用户的注意力集中到当前任务中。
当检测到用户发出语音时,进入S200,对监听到的用户的语音进行识别,获取其中的语义,进而获取用户提出的问题,再从预设题库中查询该问题。一般来说,当用户提出的问题匹配当前模式时,可以在题库中查询到该问题。另一种情形是,当用户提出的问题存在于多个题库中时,只在当前的预设题库中进行问题查询。例如,当用户选择的英语学科模式时,提出问题“SIN的意思是什么”?那么就只在英语学习模式对应的题库中进行查询,而在数学学习模式时,如果用户提出“SIN的意思是什么”?那么就只在数学模式对应的题库中进行查询,可以看到同样的问题在两种模式下查询的结果是不同的。进一步地,如果用户提出的问题与当前学习模式不匹配,在题库中无法查询到该问题,则向用户发出提示,提示其将注意力集中于当前任务中。
当顺利在当前的预设模式下查询到用户提出的问题时,通过S300将问题的答案输出。需要明确的是,此时输出的只是在当前预设题库中的答案,如果一个问题对应多个题库,那么该问题在其他题库中的答案将无法输出。例如,当用户选择的英语学科模式时,提出问题“SIN的意思是什么”?输出的答案只是单词“SIN”的英文解释:“n.违背宗教[道德原则]的恶行;罪恶,罪孽;过错,罪过;愚蠢的事,可耻的事;vi.犯罪,犯过错;vt.犯罪。”如果用户选择的数学学科模式时,提出问题“SIN的意思是什么”?输出的答案只是数学函数SIN的解释:“sin(函数名称)编辑在直角三角形中,∠α(不是直角)的对边与斜边的比叫做∠α的正弦,记作sinα,即sinα=∠α的对边/∠α的斜边”。
进一步优选地,如果根据预设题库中的设置,或者用户的选择,采取S410中的语音播报输出题目答案时,通过S411将麦克风关闭,这样的目的在于避免麦克风收集到语音播报答案的内容,从而造成识别混乱。替代性地,也可以采取声纹识别的方法,对麦克风中采集到的语音进行声纹分析,只对符合当前用户的声纹特征的语音进行问题识别和回应,S411步骤的目的在于,采取简便的方法实现语音识别抗干扰功能,因为在语音播报时,用户集中精力听取播报内容,一般不会同时输出新的语音,所以在此时直接关闭麦克风是比较简便和易于实现的方法。
当S410中的语音播报结束时,造成麦克风收集的语音混杂的影响因素也消失了,此时为了继续对用户新的问题进行识别,需要通过S412重新开启麦克风。S412中重新开启麦克风并不是语音播报结束的同时立即开启,而是等待其停止播报后,间隔预设时间再开启麦克风。这个间隔时间一般设定为500ms,因为语音可能存在一定的回音,设置间隔时间有利于更加清楚地分隔播报语音和用户语音。
本发明的一些实施例中,提供一种语音交互的方法当答案需要使用语音播报输出时,播出的声音会影响麦克风对用户语音的监听,可能造成误听,通过在语音播报的同时,关闭麦克风,直到播报结束,再重启麦克风,实现了免除语音播报答案时可能造成误听的功能,同时,语音播报结束与重启麦克风之间设置预设时间的间隔,防止语音播报的回音影响麦克风采集。
本发明第四实施例,图4是本发明一些实施例中提供的另一种语音交互的方法的流程图,包括:
S100开启预设模式,所述预设模式下,持续通过麦克风进行用户语音的监听,并且只调用预设题库进行问题查询;
S200当监听到所述用户语音时,识别其语义,获取其中需要进行查询的问题,判断其是否收录在所述预设题库中;
S210当所述问题未收录在所述预设题库中时,将其记录为搁置问题;
S220当关闭所述预设模式后,尝试通过搜索引擎对所述搁置问题进行搜索,输出搜索结果;
S300当所述问题收录在所述预设题库中时,输出所述问题的答案。
具体地,在S100中,预设模式可以为专注模式、学习模式、学科模式等,具体的设置根据用户的需求进行,其特点在于,在预设模式下,麦克风处于常开状态,并只对用户与该模式相关的问题做出查询,当用户询问其他问题与当前模式下的场景不相关时,因为S100中只调用对应的预设题库进行查询,所以无关问题无法得到回应。S100为用户提供了一种与当前场景相匹配的识别模式,一方面省去用户在激活语音识别时的唤醒词,一方面将用户的注意力集中到当前任务中。
当检测到用户发出语音时,进入S200,对监听到的用户的语音进行识别,获取其中的语义,进而获取用户提出的问题,再从预设题库中查询该问题。一般来说,当用户提出的问题匹配当前模式时,可以在题库中查询到该问题。另一种情形是,当用户提出的问题存在于多个题库中时,只在当前的预设题库中进行问题查询。例如,当用户选择的英语学科模式时,提出问题“SIN的意思是什么”?那么就只在英语学习模式对应的题库中进行查询,而在数学学习模式时,如果用户提出“SIN的意思是什么”?那么就只在数学模式对应的题库中进行查询,可以看到同样的问题在两种模式下查询的结果是不同的。进一步地,如果用户提出的问题与当前学习模式不匹配,在题库中无法查询到该问题,则向用户发出提示,提示其将注意力集中于当前任务中。
进一步优选地,在S200中,如果识别用户提出的问题后,发现该问题并不属于预设题库中的问题后,通过S210将该问题记录为搁置问题。进一步地,在S210中,搁置的问题有两种,一种是不属于当前预设模式下的场景的问题,这种问题可能是用户在走神或者接触到其他事物被吸引了注意力后提出的,因为其不属于该场景的设定,很大可能是无法在题库中查询到答案的,例如在数学学习模式下提出的问题“中饭吃什么”?,这样的问题将直接被搁置,系统不会做出任何提示;第二种是属于当前预设模式下的场景问题,但预设题库未记录,或者未收录标准答案,例如在物理学习模式下提出的问题“宇宙大爆炸前是什么”?,这样的问题属于当前场景下的问题,但目前并没有标准答案,这样的问题会对用户发出相应提示,例如“当前问题超纲了”,然后搁置。
搁置的问题并不是不予理会,当用户结束当前的预设模式时,通过S220会从存储器中调取被搁置的这些问题,然后在百度、GOOGLE等搜索引擎中进行搜索,查询相关的内容,并将搜索结果输出给用户。优选地,在输出搜索结果前,询问用户是否需要获取这些问题的相关内容,例如询问用户“是否还对宇宙大爆炸前时什么有兴趣?”如果用户做出需要查询的指令,则启动在各大搜索引擎的搜索,并输出搜索结果。
当顺利在当前的预设模式下查询到用户提出的问题时,通过S300将问题的答案输出。需要明确的是,此时输出的只是在当前预设题库中的答案,如果一个问题对应多个题库,那么该问题在其他题库中的答案将无法输出。例如,当用户选择的英语学科模式时,提出问题“SIN的意思是什么”?输出的答案只是单词“SIN”的英文解释:“n.违背宗教[道德原则]的恶行;罪恶,罪孽;过错,罪过;愚蠢的事,可耻的事;vi.犯罪,犯过错;vt.犯罪。”如果用户选择的数学学科模式时,提出问题“SIN的意思是什么”?输出的答案只是数学函数SIN的解释:“sin(函数名称)编辑在直角三角形中,∠α(不是直角)的对边与斜边的比叫做∠α的正弦,记作sinα,即sinα=∠α的对边/∠α的斜边”。
本发明的一些实施例中,提供一种语音交互的方法孩子在学习模式下,如果提出了与学习无关的问题,如果完全置之不理,那么孩子容易感到被忽略,从而影响情绪,打击其维持好奇心。通过将这些问题搁置存储起来,当他们完成学习任务,关闭学习模式后,再从其他搜索引擎中寻找搁置问题的答案,为孩子解惑,实现了保障孩子学习效率的同时,又不影响其保持好奇心的效果。
本发明第五实施例,图5是本发明一些实施例中提供的又一种语音交互的方法的流程图,包括:
S100开启预设模式,所述预设模式下,持续通过麦克风进行用户语音的监听,并且只调用预设题库进行问题查询;
S200当监听到所述用户语音时,识别其语义,获取其中需要进行查询的问题,判断其是否收录在所述预设题库中;
S201当所述用户语音中包含多个语音片段时,优先提取所述语音片段里的疑问词,识别所述疑问词所在的所述语音片段的语义;
S300当所述问题收录在所述预设题库中时,输出所述问题的答案。
具体地,在S100中,预设模式可以为专注模式、学习模式、学科模式等,具体的设置根据用户的需求进行,其特点在于,在预设模式下,麦克风处于常开状态,并只对用户与该模式相关的问题做出查询,当用户询问其他问题与当前模式下的场景不相关时,因为S100中只调用对应的预设题库进行查询,所以无关问题无法得到回应。S100为用户提供了一种与当前场景相匹配的识别模式,一方面省去用户在激活语音识别时的唤醒词,一方面将用户的注意力集中到当前任务中。
当检测到用户发出语音时,进入S200,对监听到的用户的语音进行识别,获取其中的语义,进而获取用户提出的问题,再从预设题库中查询该问题。一般来说,当用户提出的问题匹配当前模式时,可以在题库中查询到该问题。另一种情形是,当用户提出的问题存在于多个题库中时,只在当前的预设题库中进行问题查询。例如,当用户选择的英语学科模式时,提出问题“SIN的意思是什么”?那么就只在英语学习模式对应的题库中进行查询,而在数学学习模式时,如果用户提出“SIN的意思是什么”?那么就只在数学模式对应的题库中进行查询,可以看到同样的问题在两种模式下查询的结果是不同的。进一步地,如果用户提出的问题与当前学习模式不匹配,在题库中无法查询到该问题,则向用户发出提示,提示其将注意力集中于当前任务中。
进一步优选地,在S200中,麦克风收集的用户语音可能包含多个片段,为了提高识别用户提问的效率,S201提供一种方法,优先将用户语音中的疑问词提取出来,然后将与这些疑问词连接的语音片段优先进行识别,这样便于在众多语音片段中,快速定位问题。在汉语中,疑问词往往具有很明显的特征,相对于用户语音中的其他词语更容易识别,这样也从另一方面进一步提高了识别效率。
当顺利在当前的预设模式下查询到用户提出的问题时,通过S300将问题的答案输出。需要明确的是,此时输出的只是在当前预设题库中的答案,如果一个问题对应多个题库,那么该问题在其他题库中的答案将无法输出。例如,当用户选择的英语学科模式时,提出问题“SIN的意思是什么”?输出的答案只是单词“SIN”的英文解释:“n.违背宗教[道德原则]的恶行;罪恶,罪孽;过错,罪过;愚蠢的事,可耻的事;vi.犯罪,犯过错;vt.犯罪。”如果用户选择的数学学科模式时,提出问题“SIN的意思是什么”?输出的答案只是数学函数SIN的解释:“sin(函数名称)编辑在直角三角形中,∠α(不是直角)的对边与斜边的比叫做∠α的正弦,记作sinα,即sinα=∠α的对边/∠α的斜边”。
本发明的一些实施例中,提供一种语音交互的方法如果孩子在提出问题时,输入的语音是一大段语句,在识别其中的问题时,如果按顺序一句句地解读,那么很可能需要将一整段语句全部解析完才能获得孩子想要查询的问题。通过优先识别与疑问词相关的语音片段,在学习模式下专注于问题识别,提高了获取问题的速度。
本发明第六实施例,图6是本发明一些实施例中提供的另一种语音交互的方法的流程图,包括:
S100开启预设模式,所述预设模式下,持续通过麦克风进行用户语音的监听,并且只调用预设题库进行问题查询;
S200当监听到所述用户语音时,识别其语义,获取其中需要进行查询的问题,判断其是否收录在所述预设题库中;
S210当所述问题未收录在所述预设题库中时,将其记录为搁置问题;
S220当关闭所述预设模式后,尝试通过搜索引擎对所述搁置问题进行搜索,输出搜索结果;
S300当所述问题收录在所述预设题库中时,输出所述问题的答案;
S410通过语音播报输出所述答案;
S411进行所述语音播报时,关闭所述麦克风;
S412当所述语音播报停止后,间隔预设时间开启所述麦克风,继续进行所述用户语音的监听;
S420和/或通过屏幕输出所述答案;
S430和/或使用通信技术将所述答案传输到智能设备上,由所述智能设备输出。
具体地,在S100中,预设模式可以为专注模式、学习模式、学科模式等,具体的设置根据用户的需求进行,其特点在于,在预设模式下,麦克风处于常开状态,并只对用户与该模式相关的问题做出查询,当用户询问其他问题与当前模式下的场景不相关时,因为S100中只调用对应的预设题库进行查询,所以无关问题无法得到回应。S100为用户提供了一种与当前场景相匹配的识别模式,一方面省去用户在激活语音识别时的唤醒词,一方面将用户的注意力集中到当前任务中。
当检测到用户发出语音时,进入S200,对监听到的用户的语音进行识别,获取其中的语义,进而获取用户提出的问题,再从预设题库中查询该问题。一般来说,当用户提出的问题匹配当前模式时,可以在题库中查询到该问题。另一种情形是,当用户提出的问题存在于多个题库中时,只在当前的预设题库中进行问题查询。例如,当用户选择的英语学科模式时,提出问题“SIN的意思是什么”?那么就只在英语学习模式对应的题库中进行查询,而在数学学习模式时,如果用户提出“SIN的意思是什么”?那么就只在数学模式对应的题库中进行查询,可以看到同样的问题在两种模式下查询的结果是不同的。进一步地,如果用户提出的问题与当前学习模式不匹配,在题库中无法查询到该问题,则向用户发出提示,提示其将注意力集中于当前任务中。
进一步优选地,在S200中,如果识别用户提出的问题后,发现该问题并不属于预设题库中的问题后,通过S210将该问题记录为搁置问题。进一步地,在S210中,搁置的问题有两种,一种是不属于当前预设模式下的场景的问题,这种问题可能是用户在走神或者接触到其他事物被吸引了注意力后提出的,因为其不属于该场景的设定,很大可能是无法在题库中查询到答案的,例如在数学学习模式下提出的问题“中饭吃什么”?,这样的问题将直接被搁置,系统不会做出任何提示;第二种是属于当前预设模式下的场景问题,但预设题库未记录,或者未收录标准答案,例如在物理学习模式下提出的问题“宇宙大爆炸前是什么”?,这样的问题属于当前场景下的问题,但目前并没有标准答案,这样的问题会对用户发出相应提示,例如“当前问题超纲了”,然后搁置。
搁置的问题并不是不予理会,当用户结束当前的预设模式时,通过S220会从存储器中调取被搁置的这些问题,然后在百度、GOOGLE等搜索引擎中进行搜索,查询相关的内容,并将搜索结果输出给用户。优选地,在输出搜索结果前,询问用户是否需要获取这些问题的相关内容,例如询问用户“是否还对宇宙大爆炸前时什么有兴趣?”如果用户做出需要查询的指令,则启动在各大搜索引擎的搜索,并输出搜索结果。
当顺利在当前的预设模式下查询到用户提出的问题时,通过S300将问题的答案输出。需要明确的是,此时输出的只是在当前预设题库中的答案,如果一个问题对应多个题库,那么该问题在其他题库中的答案将无法输出。例如,当用户选择的英语学科模式时,提出问题“SIN的意思是什么”?输出的答案只是单词“SIN”的英文解释:“n.违背宗教[道德原则]的恶行;罪恶,罪孽;过错,罪过;愚蠢的事,可耻的事;vi.犯罪,犯过错;vt.犯罪。”如果用户选择的数学学科模式时,提出问题“SIN的意思是什么”?输出的答案只是数学函数SIN的解释:“sin(函数名称)编辑在直角三角形中,∠α(不是直角)的对边与斜边的比叫做∠α的正弦,记作sinα,即sinα=∠α的对边/∠α的斜边”。
经过S300中成功获得需要输出的答案内容后,在向用户输出答案时,可以采取多种方法,可以用S410中的语音播报,和/或S420通过屏幕输出,和/或S430使用通信技术将所述答案传输到智能设备上,由所述智能设备输出,选择何种输出方法可以根据问题的属性进行灵活变化。需要明确的是,每一个问题的输出方式在预设题库中已经进行设定,例如用户在英语学习模式下,提出的问题为“SIN怎么念”时,预设题库中检测到的答案是单词“SIN”的英语读音,会通过语音播报输出读音。S410、S420、S430的选择除了在题库中预先设定外,也会根据用户的具体指令进行灵活更改,例如,用户在获得S420通过屏幕输出的答案后,继续提出指令“发送到我的手机中”,则会使用S430步骤,通过通信技术将答案发送到用户所说的“我的手机”对应的智能设备。
进一步优选地,如果根据预设题库中的设置,或者用户的选择,采取S410中的语音播报输出题目答案时,通过S411将麦克风关闭,这样的目的在于避免麦克风收集到语音播报答案的内容,从而造成识别混乱。替代性地,也可以采取声纹识别的方法,对麦克风中采集到的语音进行声纹分析,只对符合当前用户的声纹特征的语音进行问题识别和回应,S411步骤的目的在于,采取简便的方法实现语音识别抗干扰功能,因为在语音播报时,用户集中精力听取播报内容,一般不会同时输出新的语音,所以在此时直接关闭麦克风是比较简便和易于实现的方法。
当S410中的语音播报结束时,造成麦克风收集的语音混杂的影响因素也消失了,此时为了继续对用户新的问题进行识别,需要通过S412重新开启麦克风。S412中重新开启麦克风并不是语音播报结束的同时立即开启,而是等待其停止播报后,间隔预设时间再开启麦克风。这个间隔时间一般设定为500ms,因为语音可能存在一定的回音,设置间隔时间有利于更加清楚地分隔播报语音和用户语音。
本发明的一些实施例中,提供一种语音交互的方法通过设置一种预设模式,在该模式下麦克风常开识别用户提出的问题,并只向用户输出与该模式有关的问题的答案,实现了免除用户使用语音识别查询问题时需要反复发出唤醒词的复杂步骤,同时,因为对用户的问题进行识别后,只在与学习有关的题库中寻找答案并输出结果,也实现了帮助孩子在学习时专注于当前题目内容的效果。通过多种输出答案的方法,实现了适应各种不同的场景,根据用户提出的具体问题和具体需求,灵活地选择输出方式的效果,可以进一步增加用户的体验,丰富了应用场景。当答案需要使用语音播报输出时,播出的声音会影响麦克风对用户语音的监听,可能造成误听,通过在语音播报的同时,关闭麦克风,直到播报结束,再重启麦克风,实现了免除语音播报答案时可能造成误听的功能,同时,语音播报结束与重启麦克风之间设置预设时间的间隔,防止语音播报的回音影响麦克风采集。孩子在学习模式下,如果提出了与学习无关的问题,如果完全置之不理,那么孩子容易感到被忽略,从而影响情绪,打击其维持好奇心。通过将这些问题搁置存储起来,当他们完成学习任务,关闭学习模式后,再从其他搜索引擎中寻找搁置问题的答案,为孩子解惑,实现了保障孩子学习效率的同时,又不影响其保持好奇心的效果。如果孩子在提出问题时,输入的语音是一大段语句,在识别其中的问题时,如果按顺序一句句地解读,那么很可能需要将一整段语句全部解析完才能获得孩子想要查询的问题。通过优先识别与疑问词相关的语音片段,在学习模式下专注于问题识别,提高了获取问题的速度。
本发明第七实施例,图7是本发明一些实施例中提供的一种语音交互的系统的结构示意图,包括:
监听模块100,在预设模式下,持续通过麦克风进行用户语音的监听,并且只调用预设题库进行问题查询;
识别模块200,当所述监听模块100监听到所述用户语音时,识别其语义,获取其中需要进行查询的问题,判断其是否收录在所述预设题库中;
输出模块300,当所述识别模块200获取的所述问题在所述预设题库中时,输出所述问题的答案;
语音子模块310,通过语音播报输出由输出模块300获得的所述答案;
显示子模块320,通过屏幕输出由输出模块300获得的所述答案;
通信子模块330,使用通信技术将由输出模块300获得的所述答案传输到智能设备上,由所述智能设备输出;
关麦单元311,当语音子模块310进行所述语音播报时,关闭所述麦克风;
开麦单元312,当语音子模块310停止所述语音播报后,间隔预设时间开启所述麦克风,继续进行所述用户语音的监听;
搁置模块400,当所述识别模块200获取的所述问题未收录在所述预设题库中时,将其记录为搁置问题;
搜索模块500,当关闭所述预设模式后,尝试通过搜索引擎对搁置模块400所搁置问题进行搜索,输出搜索结果;
优先子模块210,当所述监听模块100监听到所述用户语音中包含多个语音片段时,优先提取所述语音片段里的疑问词,识别所述疑问词所在的所述语音片段的语义。
具体地,本实施例为上述第六实施例所对应的系统实施例,其采取的技术方案和达到的技术效果相同,在此不再一一赘述。
应当说明的是,上述实施例均可根据需要自由组合。以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (8)
1.一种语音交互方法,其特征在于,包括:
开启预设模式,所述预设模式下,持续通过麦克风进行用户语音的监听,并且只调用预设题库进行问题查询,所述预设模式为专注模式、学习模式和学科模式的一种;
当监听到所述用户语音时,识别其语义,获取其中需要进行查询的问题,判断其是否收录在所述预设题库中;
当所述问题收录在所述预设题库中时,输出所述问题的答案;
当所述问题未收录在所述预设题库中时,将其记录为搁置问题,所述搁置问题包括不属于当前预设模式下的场景的问题和属于当前预设模式下的场景问题,当所述搁置问题属于当前预设模式下的场景问题时,发出相应提示;
当关闭所述预设模式后,尝试通过搜索引擎对所述搁置问题进行搜索,输出搜索结果。
2.根据权利要求1所述的一种语音交互方法,其特征在于,所述输出所述问题的答案包括:
通过语音播报输出所述答案;
和/或通过屏幕输出所述答案;
和/或使用通信技术将所述答案传输到智能设备上,由所述智能设备输出。
3.根据权利要求2所述的一种语音交互方法,其特征在于,所述通过语音播报输出所述答案,包括:
进行所述语音播报时,关闭所述麦克风;
当所述语音播报停止后,间隔预设时间开启所述麦克风,继续进行所述用户语音的监听。
4.根据权利要求1所述的一种语音交互方法,其特征在于,所述当监听到所述用户语音时,识别其语义包括:
当所述用户语音中包含多个语音片段时,优先提取所述语音片段里的疑问词,识别所述疑问词所在的所述语音片段的语义。
5.一种语音交互的系统,其特征在于,包括:
监听模块,在预设模式下,持续通过麦克风进行用户语音的监听,并且只调用预设题库进行问题查询,所述预设模式为专注模式、学习模式和学科模式的一种;
识别模块,当所述监听模块监听到所述用户语音时,识别其语义,获取其中需要进行查询的问题,判断其是否收录在所述预设题库中;
输出模块,当所述识别模块获取的所述问题在所述预设题库中时,输出所述问题的答案;
搁置模块,当所述问题未收录在所述预设题库中时,将其记录为搁置问题,所述搁置问题包括不属于当前预设模式下的场景的问题和属于当前预设模式下的场景问题,当所述搁置问题属于当前预设模式下的场景问题时,发出相应提示;
搜索模块,当关闭所述预设模式后,尝试通过搜索引擎对所述搁置问题进行搜索,输出搜索结果。
6.根据权利要求5所述的一种语音交互的系统,其特征在于,所述输出模块包括:
语音子模块,通过语音播报输出所述答案;
显示子模块,通过屏幕输出所述答案;
通信子模块,使用通信技术将所述答案传输到智能设备上,由所述智能设备输出。
7.根据权利要求6所述的一种语音交互的系统,其特征在于,所述语音子模块包括:
关麦单元,进行所述语音播报时,关闭所述麦克风;
开麦单元,当所述语音播报停止后,间隔预设时间开启所述麦克风,继续进行所述用户语音的监听。
8.根据权利要求5所述的一种语音交互的系统,其特征在于,所述识别模块包括:
优先子模块,当所述监听模块监听到所述用户语音中包含多个语音片段时,优先提取所述语音片段里的疑问词,识别所述疑问词所在的所述语音片段的语义。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910123362.2A CN109817203B (zh) | 2019-02-19 | 2019-02-19 | 一种语音交互的方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910123362.2A CN109817203B (zh) | 2019-02-19 | 2019-02-19 | 一种语音交互的方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109817203A CN109817203A (zh) | 2019-05-28 |
CN109817203B true CN109817203B (zh) | 2021-07-27 |
Family
ID=66606871
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910123362.2A Active CN109817203B (zh) | 2019-02-19 | 2019-02-19 | 一种语音交互的方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109817203B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110379234A (zh) * | 2019-07-23 | 2019-10-25 | 广东小天才科技有限公司 | 一种学习辅导方法及装置 |
CN111009239A (zh) * | 2019-11-18 | 2020-04-14 | 北京小米移动软件有限公司 | 回声消除方法、回声消除装置及电子设备 |
CN112328308A (zh) * | 2020-02-26 | 2021-02-05 | 北京字节跳动网络技术有限公司 | 用于识别文本的方法和装置 |
CN111899734A (zh) * | 2020-07-16 | 2020-11-06 | 陕西闪现智能科技有限公司 | 智能语音对话装置及其运行方法、智能语音对话机器人 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108986796A (zh) * | 2018-06-21 | 2018-12-11 | 广东小天才科技有限公司 | 一种语音搜索方法及装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20140119536A (ko) * | 2013-04-01 | 2014-10-10 | 양승혜 | 전자 시험 및 학습 시스템 |
CN106550011A (zh) * | 2016-09-26 | 2017-03-29 | 广东小天才科技有限公司 | 一种基于移动设备的答疑实现方法及系统、服务器 |
CN106921560B (zh) * | 2017-02-28 | 2020-06-02 | 北京小米移动软件有限公司 | 语音通信方法、装置及系统 |
CN108961887A (zh) * | 2018-07-24 | 2018-12-07 | 广东小天才科技有限公司 | 一种语音搜索控制方法及家教设备 |
CN109271503A (zh) * | 2018-11-06 | 2019-01-25 | 北京猎户星空科技有限公司 | 智能问答方法、装置、设备及存储介质 |
-
2019
- 2019-02-19 CN CN201910123362.2A patent/CN109817203B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108986796A (zh) * | 2018-06-21 | 2018-12-11 | 广东小天才科技有限公司 | 一种语音搜索方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN109817203A (zh) | 2019-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109817203B (zh) | 一种语音交互的方法和系统 | |
US20180052824A1 (en) | Task identification and completion based on natural language query | |
US20210366459A1 (en) | Hotword-Aware Speech Synthesis | |
US7103553B2 (en) | Assistive call center interface | |
US10192544B2 (en) | Method and system for constructing a language model | |
JP6730994B2 (ja) | 問答情報の処理方法、装置、記憶媒体及び装置 | |
WO2020253064A1 (zh) | 语音的识别方法及装置、计算机设备、存储介质 | |
CN106407393B (zh) | 一种用于智能设备的信息处理方法及装置 | |
CN108766431B (zh) | 一种基于语音识别的自动唤醒方法及电子设备 | |
CN111199732B (zh) | 一种基于情感的语音交互方法、存储介质及终端设备 | |
US20080201142A1 (en) | Method and apparatus for automication creation of an interactive log based on real-time content | |
CN110047481A (zh) | 用于语音识别的方法和装置 | |
JP6625772B2 (ja) | 検索方法及びそれを用いた電子機器 | |
CN109637536B (zh) | 一种自动化识别语义准确性的方法及装置 | |
CN113140138A (zh) | 互动教学方法、装置、存储介质及电子设备 | |
US11721328B2 (en) | Method and apparatus for awakening skills by speech | |
CN104090968B (zh) | 一种智能信息推送的方法和装置 | |
CN111459453A (zh) | 一种辅助阅读的方法、装置、存储介质及电子设备 | |
CN109326284A (zh) | 语音搜索的方法、装置和存储介质 | |
CN109063182B (zh) | 一种基于语音搜题的内容推荐方法及电子设备 | |
CN111563182A (zh) | 语音会议记录存储处理方法、装置 | |
CN108492826B (zh) | 音频处理方法、装置、智能设备及介质 | |
CN116403583A (zh) | 语音数据处理方法和装置、非易失性存储介质及车辆 | |
CN109063127A (zh) | 一种搜索方法、装置、服务器及存储介质 | |
CN111161718A (zh) | 语音识别方法、装置、设备、存储介质及空调 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |