CN109147801B - 语音交互方法、系统、终端及存储介质 - Google Patents
语音交互方法、系统、终端及存储介质 Download PDFInfo
- Publication number
- CN109147801B CN109147801B CN201811160538.3A CN201811160538A CN109147801B CN 109147801 B CN109147801 B CN 109147801B CN 201811160538 A CN201811160538 A CN 201811160538A CN 109147801 B CN109147801 B CN 109147801B
- Authority
- CN
- China
- Prior art keywords
- keywords
- voice
- voice data
- keyword
- nth
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 53
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000003062 neural network model Methods 0.000 claims description 18
- 238000012545 processing Methods 0.000 claims description 15
- 238000007781 pre-processing Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 9
- 230000009467 reduction Effects 0.000 claims description 6
- 230000015572 biosynthetic process Effects 0.000 claims description 3
- 238000003786 synthesis reaction Methods 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 2
- 230000002452 interceptive effect Effects 0.000 abstract description 3
- 238000001228 spectrum Methods 0.000 description 11
- 241000207840 Jasminum Species 0.000 description 9
- 235000010254 Jasminum officinale Nutrition 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 6
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 241000238558 Eucarida Species 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本申请提供了一种语音交互方法、系统、终端及存储介质,通过采集用户输入的第N轮语音数据,N为正整数;识别所述第N轮语音数据,生成一个第N关键词;从N个关键词中选取M个关键词;所述N个关键词为N轮语音数据中的关键词,M为小于或等于N的正整数;从内容库中获取与所述M个关键词匹配的至少一个输出结果。当用户对智能语音终端下达指令时,简短的关键词指令下达方式可在瞬间完成,很多程度上降低了用户在使用语音智能设备的不适应感,且每次在指令下达后,智能设备即重新反馈内容给用户,语音交互的效率大大提高。
Description
技术领域
本申请涉及电子技术领域,特别是一种语音交互方法、系统、终端及存储介质。
背景技术
随着科技的发展,语音交互技术已经成功进入人们的生活。一般而言,用户对智能终端下达语音数据时,需要使用该智能终端能够识别的标准口音语言,并使用完整的语句来描述指令任务,举例来说,当你使用苹果手机想听张三的《茉莉花》时,你通常需要说:“Siri,请播放一首张三的歌曲茉莉花。”。
一个完整的语句被智能语音设备识别及理解后,只能输出一个最终结果,若输出内容不满意,则又需重新下达一次完整的语音数据,这使得语音交互的效率大大降低。
发明内容
本申请实施例公开了一种语音交互方法、系统、终端及存储介质,用于解决语音交互的效率较低的问题。
本申请实施例第一方面提供了一种语音交互方法,其中:
采集用户输入的第N轮语音数据,N为正整数;
识别所述第N轮语音数据,生成一个第N关键词;
从N个关键词中选取M个关键词;所述N个关键词为N轮语音数据中的关键词,M为小于或等于N的正整数;
从内容库中获取与所述M个关键词匹配的至少一个输出结果。
本申请实施例第二方面提供了一种语音交互系统,包括:
语音采集单元,用于采集用户输入的第N轮语音数据,N为正整数;
语音识别单元,用于识别所述第N轮语音数据,生成一个第N关键词;
关键词选取单元,用于从N个关键词中选取M个关键词;所述N个关键词为N轮语音数据中的关键词,M为小于或等于N的正整数;
输出获取单元,用于从内容库中获取与所述M个关键词匹配的至少一个输出结果。
在一种可能实现的方式中,该语音交互系统的语音采集单元采集用户输入的第N轮语音数据,具体为:
通过麦克风阵列采集用户输入的第N轮语音数据,上述麦克风阵列包括至少两个具有指向性的声学传感器。
在一种可能实现的方式中,该语音交互系统还包括语音预处理单元,用于在识别上述第N轮语音数据,生成一个第N关键词之前,对上述语音数据进行预处理,上述预处理包括降噪处理、回声消除处理和波束合成处理。
在一种可能实现的方式中,上述语音识别单元识别上述第N轮语音数据,生成一个第N关键词,具体为:
通过神经网络模型识别上述语音数据,生成一个第N关键词,上述神经网络模型包括卷积神经网络模型或循环神经网络模型。
在一种可能实现的方式中,该语音交互系统还包括输出展示单元,用于在从内容库中获取与M个关键词匹配的至少一个输出结果之后,展示上述至少一个输出结果,上述输出结果对应的内容包括音频、视频、文字中的至少一种。
在一种可能实现的方式中,该语音交互系统还包括优先级排序单元,用于按照优先级算法对N个关键词进行优先级排序,之后关键词选取单元再从N个关键词中选取优先级最高的M个关键词。
在一种可能实现的方式中,上述优先级算法包括顺序优先级算法、倒序优先级算法及乱序优先级算法中的任一种。
本申请实施例第三方面提供了一种终端,包括处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如本申请实施例第一方面所描述的方法。
本申请实施例第四方面提供了一种计算机可读存储介质,其中,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如本申请实施例第一方面所描述的方法。
本申请实施例具有如下有益效果:
上述语音交互方法、系统、终端及存储介质,通过采集用户输入的第N轮语音数据,N为正整数;识别所述第N轮语音数据,生成一个第N关键词;从N个关键词中选取M个关键词;所述N个关键词为N轮语音数据中的关键词,M为小于或等于N的正整数;从内容库中获取与所述M个关键词匹配的至少一个输出结果。当用户对智能语音终端下达指令时,简短的关键词指令下达方式可在瞬间完成,很多程度上降低了用户在使用语音智能设备的不适应感,且每次在指令下达后,智能设备即重新反馈内容给用户,语音交互的效率大大提高。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例中语音交互方法的应用场景图;
图2为本申请实施例中一种语音交互方法的流程示意图;
图3为本申请实施例公开的一种关键词选取的详细示意图;
图4为本申请实施例公开的一种具体的语音交互方法的流程示意图;
图5为本申请实施例中另一种语音交互方法的流程示意图;
图6为本申请实施例公开的一种关键词优先级排列示意图;
图7为本申请实施例中一种语音交互系统的结构示意图;
图8为本申请实施例中一种终端的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、产品或设备固有的其他步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
下面对本申请实施例进行详细介绍。
如图1所示,图1为本申请实施例中语音交互方法的应用场景图,如图1所示,该应用场景包括终端110和服务器120,该终端110可以包括各种具有语音交互功能的手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其他处理设备,以及各种形式的用户设备(User Equipment,UE),移动台(Mobile Station,MS),终端设备(terminaldevice)等等,为方便描述,上面提到的设备统称为终端110。该服务器120可以包括内容库,该内容库中预设与语音关键词匹配的输出结果,上述终端110和服务器120可以通过网络连接。
可选的,当终端110采集到用户的第一轮语音数据时,识别该语音数据并生成第一语音关键词,通过服务器120获取到内容库121中预设的与语音关键词匹配的输出结果,将该输出结果以相应的形式输出到上述终端上,若用户认为上述输出结果不符合预期要求,则可以继续向终端110输入语音,终端110继续识别该语音数据并生成第二关键词,通过服务器120获取到内容库121中预设的与第一语音关键词和第二语音关键词形成的关键词组合匹配的输出结果,将该输出结果以相应的形式输出到上述终端上,重复上述步骤直到用户满意为止。
下面结合图2对本申请实施例中的一种语音交互方法进行详细说明,图2为一种语音交互方法的流程示意图,包含以下步骤:
步骤201,采集用户输入的第N轮语音数据。
其中,N为正整数,在本申请中,用户可以输入多轮语音数据,以每次语音数据输入之间间隔一定时长作为轮次划分的标准,该间隔时长可以为2秒,当终端接收到一条语音数据后2秒未接收到语音数据,则判断第一轮次的语音输入结束。
上述每一轮语音数据都可以为单个的关键词,用户可以通过语音输入关键词完成语音的输入。
可选的,可以通过设置在终端上的麦克风阵列采集用户输入的语音数据,该麦克风阵列可以由至少两个具有指向性的声学传感器(一般是麦克风)组成,利用两个麦克风接收到声波的相位之间的差异对声波进行过滤,能最大限度将环境背景声音清除掉,只剩下需要的声波。对于在嘈杂的环境下采用这种配置的设备,能够采集到较准确的用户输入的语音数据。
步骤202,识别上述第N轮语音数据,生成一个第N关键词。
其中,上述终端通过神经网络模型识别上述语音数据,生成一个第N关键词,上述神经网络模型可以为卷积神经网络(Convolutional Neural Networks,CNN)或循环神经网络(Recurrent Neural Network,RNN)中的至少一种,该第N关键词为与第N轮语音数据对应的单个关键词。
通过神经网络模型识别上述语音数据可以大大降低语音识别错误的概率,提高语音交互的概率。
步骤203,从N个关键词中选取M个关键词。
其中,上述N个关键词为N轮语音数据中的关键词,M为小于或等于N的正整数。
具体的,举例来说如图3所示,上述语音交互方法选取关键词数量是有限制的,可选的,可以预先设置只选取3个关键词,当采集到用户输入的第四轮语音数据时,剔除掉第一轮采集的语音数据中的第一关键词,只选取第二轮、第三轮、第四轮的语音数据中的第二关键词、第三关键词、第四关键词,当采集到用户输入的第五轮语音数据时,剔除掉第一轮采集的语音数据中的第一关键词和第二轮采集的语音数据中的第二关键词,只选取第三轮、第四轮、第五轮的语音数据中的第三关键词、第四关键词、第五关键词,以此类推,在此不再赘述。
可选的,可以预先设置可选取关键词的数量,如可以选取四个关键词或者五个关键词等,在此不做具体限定。
通过选取有限的关键词,可以使终端对输入的语音数据的理解更加准确。
步骤204,从内容库中获取与所述M个关键词匹配的至少一个输出结果。
其中,该内容库可以为服务器中的数据库,用于存放与上述关键词对应的输出结果,举例来说,当关键词为“张三”时,通过服务器搜索到内容库中与“张三”相关的内容,并可以以检索界面形式输出到终端的显示屏上。该输出结果可以为一种显示列表,也可以为一种执行的操作,如直接开始播放音乐,在此对该输出结果不做具体限定。
结合图4对上述语音交互方法流程进行举例说明:
若想通过上述语音交互的方法听张三的歌曲《茉莉花》时。
终端首先通过麦克风阵列获取到用户输入的第一轮语音数据,若第一轮语音数据为简短的核心词“张三”,则将该音频进行预处理后通过神经网络模型识别得到关键词“张三”,上述终端的处理器理解该关键词“张三”的意思之后,再通过云端服务器搜索内容库中与“张三”关键词匹配的输出结果,把该输出结果(音频、视频或文字中的至少一种)通过终端上相应的单元(扬声器或屏幕)输出。
若第一轮输出结果令人满意,则无需输入第二轮语音数据。
当第一轮语音数据下达后,上述终端并未输出满意的内容,则上述终端通过麦克风阵列获取到用户输入的第二轮语音数据,若第二轮语音数据为简短的核心词“歌曲”,则将该音频进行预处理后通过神经网络模型识别得到关键词“歌曲”,上述终端的处理器理解该关键词“歌曲”的意思之后,结合上一轮获取到的关键词“张三”通过云端服务器搜索内容库中与“张三”“歌曲”这两个关键词匹配的输出结果,在输入本轮语音数据后,系统反馈给用户的输出结果(音频、视频或文字中的至少一种)信息将会达到用户的要求或更接近用户的要求。
若第二轮输出结果令人满意,则无需输入第三轮语音数据。
当用户输入第二轮语音数据后,上述终端并未输出满意的内容,则上述终端通过麦克风阵列获取到用户输入的第三轮语音数据,若第三轮语音数据为简短的核心词“茉莉花”,则将该音频进行预处理后通过神经网络模型识别得到关键词“茉莉花”,上述终端的处理器理解该关键词“茉莉花”的意思之后,结合前两轮轮获取到的关键词“张三”和关键词“歌曲”通过云端服务器搜索内容库中与“张三”“歌曲”“茉莉花”这三个关键词匹配的输出结果,在输入本轮语音数据后,系统反馈给用户的输出结果为直接在终端的音频播放器上播放张三的歌曲“茉莉花”。
可以理解的是,用户可以以任意顺序输入语音核心词,其输入顺序并不会改变最终的输出结果。
当用户对智能语音终端下达语音指令时,简短的核心词指令下达方式可在瞬间完成,很大程度上降低了用户在使用语音智能终端时的不适应感;每轮语音指令下达后,智能设备即重新反馈内容给用户,交互效率提高;叠加式的语音交互方法可快速修正反馈内容,智能语音终端可根据采集到的语音指令进行实时的组合及语义理解,从而可以给用户输出经不断优化的内容,这也大大提高了语音交互的效率。
下面结合图5对本申请实施例中另一种语音交互方法进行详细说明,图5为本申请实施例中另一种语音交互方法的流程示意图,包含以下步骤:
步骤501,采集用户输入的第N轮语音数据。
步骤502,对上述语音数据进行预处理。
上述预处理包括但不限于降噪处理、回声消除处理和波束合成处理,其中,上述预处理通过终端中的预处理单元来完成,经过预处理的语音数据更加清晰,能更好地被识别,降低噪音干扰或音频模糊等使上述终端产生识别错误的概率。
具体的,降噪处理可以假设音频起始处的一小段语音是背景音,首先将这一小背景音进行分帧,并按照帧的先后顺序进行分组,每组的帧数可以为10或其他值,组的数量一般不少于5,随后对每组背景噪声数据帧使用傅里叶变换得到其频谱,再将各频谱求平均后得到背景噪声的频谱。得到噪声的频谱后,降噪的过程就非常简单了,噪声的频谱和有效语音信号的频谱,两者共同构成含噪语音的频谱,用含噪语音的频谱减去噪音频谱后得到降噪后语音的频谱,再使用傅里叶逆变换转回到时域中,从而得到降噪后的语音数据。
回声消除处理和波束形成处理可以通过不同的内置算法来完成,在此不再赘述。
步骤503,识别上述第N轮语音数据,生成一个第N关键词。
步骤504,对N个关键词进行优先级排序。
其中,按照终端中处理器的优先级算法对N个关键词进行优先级排序,上述优先级算法包括顺序优先级算法、倒序优先级算法及乱序优先级算法中的任一种。
举例来说,如图6所示,当用户依次输入了“歌曲”、“茉莉花”、“张三”三个关键词之后,可以依照顺序优先级算法将上述三个关键词的优先级按照输入的时间顺序排列,也可以依照倒序优先级算法将上述三个关键词的优先级按照输入的时间倒序排列,还可以依照乱序优先级算法将上述三个关键词的优先级乱序排列。
可选的,当获取到至少两个关键词之后,对关键词进行优先级排序,可以通过保存在终端上的历史语音数据对提取的关键词进行对比,若存在历史语音数据与提取的某一项关键词对应,则采用乱序优先级算法,将该关键词优先级设置为“高”,可以将多个关键词的优先级同时设置为“高”。
若不存在历史语音数据,则根据获取到关键词的时间顺序将关键词进行优先级排序,可选的,在输入的语音数据条数未超过预设的关键词选取数量限制时,一般采用顺序优先级算法更符合用户语音输入的习惯,一般用户都是先输入最相关的语音数据;但是当输入的语音数据条数超过预设的关键词选取数量限制时,说明用户对之前的输出结果都不满意,此时应当切换为倒序优先级算法。最新生成的关键词优先级设置为“高”,同理,第一个生成的关键词优先级则为“低”。
通过设置关键词的优先级,可以更加准确地找到符合用户要求的输出结果,提高语音交互的效率。
步骤505,从N个关键词中选取优先级最高的M个关键词。
步骤506,从内容库中获取与所述M个关键词匹配的至少一个输出结果。
步骤507,展示所述至少一个输出结果。
其中,所述输出结果对应的内容包括音频、视频、文字中的至少一种。
可选的,当用户输入的语音数据不足以支持终端输出一个确定的结果时,上述终端可以将与提取的关键词相匹配的多条输出结果都展示在界面上,用户可以选取上述至少一个输出结果中符合自己预期目标的一个输出结果,当选取之后此次语音交互结束;当上述终端根据用户输入的语音数据可以获取到一个确定的输出结果,那么该终端可以直接执行该操作,如直接开始播放相应的歌曲或视频,用户无需再进行一次选取操作。
通过将展示输出结果的方式多样化,可以使语音交互更加灵活,增强语音交互的便利性。
上述步骤501、503、505、506的具体实施可以参见图2中所示的步骤201~204对应的描述,在此不再赘述。
下面结合图7对本申请实施例中的语音交互系统700进行详细说明,图7为本申请实施例中语音交互系统700的结构示意图,该语音交互系统700包含以下单元:
语音采集单元710,用于采集用户输入的第N轮语音数据,N为正整数;
语音识别单元720,用于识别上述第N轮语音数据,生成一个第N关键词;
关键词选取单元730,用于从N个关键词中选取M个关键词;上述N个关键词为N轮语音数据中的关键词,M为小于或等于N的正整数;
输出获取单元740,用于从内容库中获取与上述M个关键词匹配的至少一个输出结果。
在一个实施例中,该语音交互系统的语音采集单元710采集用户输入的第N轮语音数据,具体为:
通过麦克风阵列采集用户输入的第N轮语音数据,上述麦克风阵列包括至少两个具有指向性的声学传感器。
在一个实施例中,该语音交互系统还包括语音预处理单元750,用于在识别上述第N轮语音数据,生成一个第N关键词之前,对上述语音数据进行预处理,上述预处理包括降噪处理、回声消除处理和波束合成处理。
在一个实施例中,上述语音识别单元720识别上述第N轮语音数据,生成一个第N关键词,具体为:
通过神经网络模型识别上述语音数据,生成一个第N关键词,上述神经网络模型包括卷积神经网络模型或循环神经网络模型。
在一个实施例中,该语音交互系统还包括输出展示单元760,用于在从内容库中获取与M个关键词匹配的至少一个输出结果之后,展示上述至少一个输出结果,上述输出结果对应的内容包括音频、视频、文字中的至少一种。
在一个实施例中,该语音交互系统还包括优先级排序单元770,用于按照优先级算法对N个关键词进行优先级排序,之后关键词选取单元730再从N个关键词中选取优先级最高的M个关键词。
可选的,上述优先级算法包括顺序优先级算法、倒序优先级算法及乱序优先级算法中的任一种。
请参阅图8,图8是本申请实施例公开的一种终端的结构示意图。
如图8所示,该终端800包括处理器801和存储器802,其中,终端800还可以包括总线803,处理器801和存储器802可以通过总线803相互连接,总线803可以是外设部件互连标准(Peripheral Component Interconnect,简称PCI)总线或扩展工业标准结构(ExtendedIndustry Standard Architecture,简称EISA)总线等。总线803可以分为地址总线、数据总线、控制总线等。为便于表示,图8中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。其中,终端800还可以包括语音交互系统804,上述语音交互系统804包括语音采集单元、语音识别单元、关键词选取单元、输出获取单元等。存储器802用于存储包含指令的一个或多个程序;处理器801用于调用存储在存储器802中的指令执行上述图2和/或图5中的部分或全部方法步骤。
本申请实施例还提供一种计算机存储介质,其中,该计算机存储介质存储用于电子数据交换的计算机程序,该计算机程序使得计算机执行图2和/或图5中的部分或全部方法步骤。
上述计算机可读存储介质可以是前述任一实施例上述的服务器的内部存储单元,例如服务器的硬盘或内存。上述计算机可读存储介质也可以是上述服务器的外部存储设备,例如上述服务器上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,上述计算机可读存储介质还可以既包括上述服务器的内部存储单元也包括外部存储设备。上述计算机可读存储介质用于存储上述计算机程序以及上述服务器所需的其他程序和数据。上述计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的服务器和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的服务器和方法,可以通过其它的方式实现。例如,以上所描述的终端实施例仅仅是示意性的,例如,上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、终端或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本申请实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例上述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
以上上述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利说明书要求的保护范围为准。
Claims (9)
1.一种语音交互方法,其特征在于,包括:
采集用户输入的第N轮语音数据,N为正整数;
识别所述第N轮语音数据,生成一个第N关键词;
从N个关键词中选取M个关键词;所述N个关键词为N轮语音数据中的关键词,M为小于或等于N的正整数,所述N个关键词包括N轮语音交互得到的N个关键词,所述M个关键词包括所述第N关键词中后面M轮生成的关键词;
从内容库中获取与所述M个关键词匹配的至少一个输出结果;
展示所述至少一个输出结果,所述输出结果对应的内容包括音频、视频、文字中的至少一种;
用户从所述至少一个输出结果中选取符合预期目标的一个输出结果,结束本次语音交互。
2.根据权利要求1所述的方法,其特征在于,所述采集用户输入的第N轮语音数据,包括:
通过麦克风阵列采集用户输入的第N轮语音数据,所述麦克风阵列包括至少两个具有指向性的声学传感器。
3.根据权利要求1所述的方法,其特征在于,所述识别所述第N轮语音数据,生成一个第N关键词之前,还包括:
对所述语音数据进行预处理,所述预处理包括降噪处理、回声消除处理和波束合成处理。
4.根据权利要求1所述的方法,其特征在于,所述识别所述第N轮语音数据,生成一个第N关键词,包括:
通过神经网络模型识别所述语音数据,生成一个第N关键词,所述神经网络模型包括卷积神经网络模型或循环神经网络模型。
5.根据权利要求1~4任一项所述的方法,其特征在于,所述从N个关键词中选取M个关键词,包括:
按照优先级算法对N个关键词进行优先级排序;
从N个关键词中选取优先级最高的M个关键词。
6.根据权利要求5所述的方法,其特征在于,所述优先级算法包括倒序优先级算法。
7.一种语音交互系统,其特征在于,包括:
语音采集单元,用于采集用户输入的第N轮语音数据,N为正整数;
语音识别单元,用于识别所述第N轮语音数据,生成一个第N关键词;
关键词选取单元,用于从N个关键词中选取M个关键词;所述N个关键词为N轮语音数据中的关键词,M为小于或等于N的正整数,所述N个关键词包括N轮语音交互得到的N个关键词,所述M个关键词包括所述第N关键词中后面M轮生成的关键词;
输出获取单元,用于从内容库中获取与所述M个关键词匹配的至少一个输出结果;
输出展示单元,用于展示所述至少一个输出结果,所述输出结果对应的内容包括音频、视频、文字中的至少一种;
用户从所述至少一个输出结果中选取符合预期目标的一个输出结果,结束本次语音交互。
8.一种终端,其特征在于,包括处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1~6任一项所述的方法。
9.一种计算机可读存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1~6任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811160538.3A CN109147801B (zh) | 2018-09-30 | 2018-09-30 | 语音交互方法、系统、终端及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811160538.3A CN109147801B (zh) | 2018-09-30 | 2018-09-30 | 语音交互方法、系统、终端及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109147801A CN109147801A (zh) | 2019-01-04 |
CN109147801B true CN109147801B (zh) | 2021-08-10 |
Family
ID=64810396
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811160538.3A Active CN109147801B (zh) | 2018-09-30 | 2018-09-30 | 语音交互方法、系统、终端及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109147801B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112614486B (zh) * | 2020-10-30 | 2024-06-21 | 北京小狗吸尘器集团股份有限公司 | 应用于扫地机的语音控制执行功能方法、装置、电子设备 |
CN112581951B (zh) * | 2020-10-30 | 2024-06-21 | 北京小狗吸尘器集团股份有限公司 | 应用于扫地机的语音控制执行功能方法、装置、电子设备 |
CN112309400A (zh) * | 2020-11-20 | 2021-02-02 | 深圳中时利和科技有限公司 | 一种自动定位的语音识别系统和方法 |
CN112562641B (zh) * | 2020-12-02 | 2023-09-29 | 北京百度网讯科技有限公司 | 语音交互满意度的评估方法、装置、设备和存储介质 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1219266C (zh) * | 2003-05-23 | 2005-09-14 | 郑方 | 一种实现多路对话的人-机汉语口语对话系统的方法 |
US8774372B2 (en) * | 2009-07-30 | 2014-07-08 | Felix Call, LLC | Telephone call inbox |
CN107613353B (zh) * | 2012-08-16 | 2020-10-16 | 纽昂斯通讯公司 | 在电子设备上呈现搜索结果的方法、电子设备及计算机存储介质 |
JP6636303B2 (ja) * | 2015-10-29 | 2020-01-29 | シャープ株式会社 | 対話装置、対話機器、対話装置の制御方法、制御プログラム、および記録媒体 |
CN107145509B (zh) * | 2017-03-28 | 2020-11-13 | 深圳市元征科技股份有限公司 | 一种信息搜索方法及其设备 |
CN107229684B (zh) * | 2017-05-11 | 2021-05-18 | 合肥美的智能科技有限公司 | 语句分类方法、系统、电子设备、冰箱及存储介质 |
CN107832433B (zh) * | 2017-11-15 | 2020-08-11 | 北京百度网讯科技有限公司 | 基于对话交互的信息推荐方法、装置、服务器和存储介质 |
CN108364644A (zh) * | 2018-01-17 | 2018-08-03 | 深圳市金立通信设备有限公司 | 一种语音交互方法、终端及计算机可读介质 |
-
2018
- 2018-09-30 CN CN201811160538.3A patent/CN109147801B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN109147801A (zh) | 2019-01-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109147801B (zh) | 语音交互方法、系统、终端及存储介质 | |
CN108630193B (zh) | 语音识别方法及装置 | |
CN110600059B (zh) | 声学事件检测方法、装置、电子设备及存储介质 | |
CN112037792B (zh) | 一种语音识别方法、装置、电子设备及存储介质 | |
CN107507615A (zh) | 界面智能交互控制方法、装置、系统及存储介质 | |
CN111243590A (zh) | 一种会议记录的生成方法及设备 | |
CN107705782B (zh) | 用于确定音素发音时长的方法和装置 | |
CN111028845A (zh) | 多音频识别方法、装置、设备及可读存储介质 | |
CN111868823B (zh) | 一种声源分离方法、装置及设备 | |
CN113314119B (zh) | 语音识别智能家居控制方法及装置 | |
CN108234793B (zh) | 一种通讯方法、装置、电子设备和存储介质 | |
CN108053822B (zh) | 一种语音信号处理方法、装置、终端设备及介质 | |
JP2020003774A (ja) | 音声を処理する方法及び装置 | |
CN111312292A (zh) | 基于语音的情绪识别方法、装置、电子设备及存储介质 | |
CN112687286A (zh) | 音频设备的降噪模型的调整方法和装置 | |
US8868419B2 (en) | Generalizing text content summary from speech content | |
US20170364516A1 (en) | Linguistic model selection for adaptive automatic speech recognition | |
CN109147764A (zh) | 语音交互方法、装置、设备及计算机可读介质 | |
CN113033245A (zh) | 一种功能调节方法、装置、存储介质及电子设备 | |
CN112420049A (zh) | 数据处理方法、装置及存储介质 | |
CN114694654A (zh) | 音频处理方法、装置、终端设备及计算机可读存储介质 | |
CN112331187A (zh) | 多任务语音识别模型训练方法、多任务语音识别方法 | |
CN112740219A (zh) | 手势识别模型的生成方法、装置、存储介质及电子设备 | |
CN116110370A (zh) | 基于人机语音交互的语音合成系统及相关设备 | |
CN114067842B (zh) | 客户满意度鉴别方法及装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |