CN110289000B

CN110289000B - 一种语音识别方法、装置

Info

Publication number: CN110289000B
Application number: CN201910446325.5A
Authority: CN
Inventors: 鞠向宇; 袁志伟; 赵晓朝
Original assignee: Beijing Moran Cognitive Technology Co Ltd
Current assignee: Beijing Moran Cognitive Technology Co Ltd
Priority date: 2019-05-27
Filing date: 2019-05-27
Publication date: 2020-11-13
Anticipated expiration: 2039-05-27
Also published as: CN110289000A

Abstract

本发明公开了一种语音识别方法，所述方法包括：101，接收用户第一语音指令；102，采集用户的反馈信息，基于用户的反馈信息判断用户第一语音指令是否被正确识别，如果未被正确识别，执行步骤103；103，接收用户第二语音指令；104，采集用户的反馈信息，基于用户的反馈信息判断用户第二语音指令是否被正确识别，如果未被正确识别，执行步骤105；105，确定当前语音对话场景，根据所述对话场景，生成第一问询请求。通过本发明的方法，能够通过询问领域策略和提示用户更换说话方法，优化补救识别过程，提高了二次识别的准确性，提升了用户体验。

Description

一种语音识别方法、装置

技术领域

本发明实施例涉及信息处理技术领域，特别涉及一种语音识别方法、装置、终端设备和计算机可读存储介质。

背景技术

随着语音识别技术的发展和进步，语音识别技术逐渐进入工业、医疗、通信、汽车、智能家庭服务等多个领域。虽然语音识别在我们的日常生活中取得了一定规模的应用，但相关技术发展仍然不够完善，尤其是语音识别的精度仍然还有十分巨大的发展空间。

目前语音识别系统在一些复杂场景中的精确度大都差强人意的，尤其是在人机交互方面，语音识别系统经常会出现误识别的情况，在交互过程中，如果连续出现识别错误，会严重影响用户体验。如何优化语音识别成为一个亟待解决的问题。

发明内容

针对现有技术中的问题，本发明提供一种语音识别方法、装置、终端设备和计算机可读存储介质。

本发明提供一种语音识别方法，其特征在于，所述方法包括：

101，接收用户第一语音指令；

102，采集用户的反馈信息，基于用户的反馈信息判断用户第一语音指令是否被正确识别，如果未被正确识别，执行步骤103；

103，接收用户第二语音指令；

104，采集用户的反馈信息，基于用户的反馈信息判断用户第二语音指令是否被正确识别，如果未被正确识别，执行步骤105；

105，确定当前语音对话场景，根据所述对话场景，生成第一问询请求。

优选地，所述反馈信息包括用户生物特征反馈信息，所述生物特征反馈信息包括表情信息、声音信息、姿势信息和/或生理指数信息。

优选地，所述步骤101进一步包括，

1011，接收用户第一语音指令，确定符合第一语音指令的多条第一候选识别结果；

1012，确定多条第一候选识别结果的第一置信等级，基于第一置信等级确定第一目标结果；

1013，基于第一目标结果，确定第一指令执行通知消息。

优选地，所述步骤102具体包括

根据用户的反馈信息，确定用户情绪分类，如果用户情绪属于第一预定分类，则判断用户第一语音指令未被正确识别，执行步骤103。

优选地，所述步骤103进一步包括，

1031，接收用户第二语音指令，确定符合第二语音指令的多条第二候选识别结果；

1032，基于多条第一候选识别结果和多条第二候选识别结果，确定多条第一候选识别结果和多条第二候选识别结果的第二置信等级，基于所述第二置信等级确定第二目标结果；

1033，基于第二目标结果，确定第二指令执行通知消息。

优选地，所述步骤105具体包括

确定用户语音指令所属对话场景，根据所述对话场景，生成第一问询请求，所述第一问询请求包括向用户发起的与场景相关的第一问询；

接收用户第一应答指令，根据用户第一应答指令，确定第三识别结果，基于所述第三识别结果确定将要执行的指令。

本发明还提供一种语音识别装置，其特征在于，所述装置包括：

接口模块，用于接收用户第一语音指令；

判断模块，用于采集用户的反馈信息，基于用户的反馈信息判断用户第一语音指令是否被正确识别；

所述接口模块，还用所述用户第一语音指令未被正确识别时，接收用户第二语音指令；

所述判断模块，还用于采集用户的反馈信息，基于用户的反馈信息判断用户第二语音指令是否被正确识别；

场景确定模块，用于所述用户第二语音指令未被正确识别时，确定当前语音对话场景，根据所述对话场景，生成第一问询请求。

优选地，所述接口模块进一步包括，

候选结果确定模块，用于接收用户第一语音指令，确定符合第一语音指令的多条第一候选识别结果；

目标结果确定模块，用于确定多条第一候选识别结果的第一置信等级，基于第一置信等级确定第一目标结果；

通知确定模块，用于基于第一目标结果，确定第一指令执行通知消息。

优选地，所述判断模块具体包括

根据用户的反馈信息，确定用户情绪分类，如果用户情绪属于第一预定分类，则判断用户第一语音指令未被正确识别。

优选地，所述候选结果确定模块，进一步用于接收用户第二语音指令，确定符合第二语音指令的多条第二候选识别结果；

所述目标结果确定模块，进一步用于基于多条第一候选识别结果和多条第二候选识别结果，确定多条第一候选识别结果和多条第二候选识别结果的第二置信等级，基于所述第二置信等级确定第二目标结果；

所述通知确定模块，进一步用于基于第二目标结果，确定第二指令执行通知消息。

优选地，所述场景确定模块，具体用于确定用户语音指令所属对话场景，根据所述对话场景，生成第一问询请求，所述第一问询请求包括向用户发起的与场景相关的第一问询；

所述接口模块，进一步用于接收用户第一应答指令，根据用户第一应答指令，确定第三识别结果，基于所述第三识别结果确定将要执行的指令。

本发明还提供一种终端设备，其特征在于，所述终端设备包括处理器和存储器，所述存储器中存储有可在处理器上运行的计算机程序，所述计算机程序在被所述处理器执行时实现如上所述的方法。

本发明还提供一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有可在处理器上运行的计算机程序、所述计算机程序在被执行时实现如上所述的方法。

通过本发明的方法，能够优化语音补救识别过程，提高了二次识别的准确性，提升了用户体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例中的一种语音识别方法。

图2是本发明一个实施例中的一种语音识别装置。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。本发明的实施例以及实施例的具体特征是对本发明实施例技术方案的详细说明，而非对本发明说明书技术方案的限定，在不冲突的情况下，本发明的实施例以及实施例的技术特征可以相互结合。

本发明的方法可以应用于任何具有语音交互能力的装置或设备，如计算机、手机，平板电脑，车机，车载终端，机顶盒，智慧型家电等。

实施例一

参考图1，本发明实施例一提供一种语音识别方法，其特征在于，所述方法包括：

101，接收用户第一语音指令；

103，接收用户第二语音指令；

优选地，所述步骤101进一步包括，

1013，基于第一目标结果，确定第一指令执行通知消息。

例如，接收用户通过语音助手输入的一段语音信息，对用户输入的语音进行特征提取，抽取反映语音信号特征的关键特征参数，将所述关键特征参数与语音特征库中的特征数据进行匹配。所述语音特征库包括通用语音数据库、和/或用户专属语音数据库。

上述数据库默认优先匹配用户专属语音数据库，其次匹配通用语音数据库，确定符合用户语音指令的可能候选结果；

选取用户专属语音数据库时，可以基于用户登录语音助手的用户ID，通过用户ID，调用与该用户ID相匹配的用户专属语音数据库；或者，或者通过采集用户生物识别信息，例如，声纹，指纹，虹膜，面部等，通过用户信息库，匹配用户身份，获取用户ID，调用与该用户ID相匹配的用户专属语音数据库。

将所述关键特征参数与语音特征库中的特征数据进行匹配，具体可采用相似性度量比较，将相似度较高的作为识别的中间候选结果，即第一候选识别结果；基于相似度对候选结果进行排序，缓存前N个候选结果，N可以预先设定，例如取大于等于10的自然数。随后对多个候选识别结果继续进行处理，通过音素、词法、句法和语义信息等进一步限定，确定多条候选识别结果的第一置信等级；确定第一置信等级最高的为目标识别结果，从而基于目标识别结果填充语音交互引擎的命令槽位，并向用户反馈第一指令执行通知消息。

优选地，步骤102中用户的反馈信息包括用户生物特征反馈信息，所述生物特征反馈信息包括表情信息、声音信息、姿势信息和/或生理指数信息。

例如，可以通过摄像装置，采集用户的面部表情，用户的动作轨迹，包括头部、手部、身体姿势变化；通过麦克风装置采集用户的声音，包括语音语调，声音强度，声音频率；通过可穿戴的传感设备采集用户的生理指数信息，包括脉搏信号，心跳信号，呼吸信号，肌电信号，皮肤电信号，脑电信号等。

优选地，所述步骤102具体包括

例如将情绪状态分为正性的和负性的情绪。通过一维或多维情绪识别模型对情绪进行分类和评价。进一步地，还可以基于通用的基本情绪划分：高兴、惊奇、悲伤、愤怒、恐惧、厌恶。可以将负性的情绪或者愤怒、厌恶情绪设置为第一预定分类，当确定用户的情绪属于所述第一预定分类，则判断用户第一语音指令未被正确识别。

具体地，以生理指数信息为例，通过传感器采集用户生理指数信息，所述传感器可配置于用户的可穿戴设备。例如采集脉搏信号，脉搏信号中包含了丰富的生理信息，当用户处于较平静的状态下时，正常的脉搏信号具有规律的波形变化。当用户处于愤怒、厌恶等状态下时，由于交感神经和副交感神经的调节作用，脉搏信号波形发生变化。通过采集脉搏信号，提取信号的特征信息，利用情绪识别模型的分类器对特征进行筛选并得到基于该脉搏信号的情绪识别结果。当识别结果为负性的情绪或者愤怒、厌恶时，认为用户对语音识别的结果不满意，即用户第一语音指令未被正确识别。同样地对于心跳信号，呼吸信号，肌电信号，皮肤电信号，脑电信号，可采用同样的方式采集上述信号执行情绪分析。另外可以结合多个生理指数信息执行情绪分析。

以表情信息为例，例如采集用户面部图像，采用图像情感识别技术识别用户面部变化，获取用户的表情，如眉间的肌肉皱纹增加，瞳孔缩小、嘴角下撇，耸鼻等，从而确定用户处于负性的情绪，例如愤怒或厌恶。当处于此类预定分类时，认为用户对语音识别的结果不满意，即用户第一语音指令未被正确识别。

以姿势信息为例，通过摄像头采集用户的动作轨迹，包括头部、手部、身体姿势变化，采用图像情感识别技术识别用户的动作变化确定用户的情绪，例如用户摇头，摆手，拍击方向盘等动作时，确定用户处于负性的情绪，例如愤怒或厌恶。当处于此类预定分类时，认为用户对语音识别的结果不满意，即用户第一语音指令未被正确识别。

以声音信息为例，通过麦克风采集用户声音，通过语音情绪识别系统分析用户的状态，如音调升高，节奏变快，语音中包含敏感词等，从而确定用户处于负性的情绪，例如愤怒或厌恶。当处于此类预定分类时，认为用户对语音识别的结果不满意，即用户第一语音指令未被正确识别。

同样地，可以结合表情信息、声音信息、姿势信息和/或生理指数信息等多种生物特征反馈信息，以更准确确定用户情绪分类。

优选地，所述步骤103进一步包括，

1033，基于第二目标结果，确定第二指令执行通知消息。

具体地，在确定第一次未能准确识别用户语音时，用户通常会复述命令或者重新调整命令表述，此时获取用户的语音进行进一步识别。

此时，接收用户通过语音助手再次输入的一段语音信息，对用户输入的语音进行特征提取，抽取反映语音信号特征的关键特征参数，将所述关键特征参数与语音特征库中的特征数据进行匹配。将所述关键特征参数与语音特征库中的特征数据进行匹配，具体可采用相似性度量比较，将相似度较高的作为识别的中间候选结果，即第二候选识别结果；

提取在前缓存的多条第一候选识别结果；结合多条第一候选识别结果与第二候选识别结果，对多个候选识别结果继续进行处理，通过音素、词法、句法和语义信息等进一步限定，确定多条候选识别结果的第二置信等级；确定第二置信等级最高的为目标识别结果，从而基于第一语音指令和第二语音指令共同确定最有可能的指令，随后基于目标识别结果填充语音交互引擎的命令槽位，并向用户反馈第二指令执行通知消息。由此可见，在第二次的识别过程中，利用了前次的候选识别结果，通过对第一候选识别结果和第二候选识别结果的集合进行后续处理，能够进一步提高语音识别的准确度。

优选地，所述步骤104具体包括

根据用户的反馈信息，确定用户情绪分类，如果用户情绪属于第一预定分类，则判断用户第二语音指令未被正确识别，执行步骤105。

该步骤中根据用户的反馈信息，确定用户情绪分类，以及判断用户情绪是否属于第一预定分类，可采用步骤102中相同的方式。

优选地，所述步骤105具体包括

基于第一语音指令和/或第二语音指令确定对话场景；

如果从语音指令中无法确定对话场景，可以进一步结合音频记录确定对话场景，具体地基于第一语音指令、第二语音指令和/或音频记录分析确定用户发起语音指令时的场景信息。所述音频记录是通过麦克风实时采集周围声音获取，所述音频记录以时间周期为单位，或存储空间为单位进行缓存。

另外，可以进一步结合位置信息确定对话场景，具体地可以获取用户的当前位置，所述当前位置可以是用户的定位信息，例如用户GPS数据。基于用户的定位，确定附近设施属性，例如超市、影院、图书馆等。或者获取用户的导航目的地，确定目的地属性，例如超市、影院、图书馆等，结合用户的当前位置/用户的导航目的地、第一语音指令、第二语音指令、和/或音频记录分析确定用户发起语音指令时的场景信息。

例如，在两次识别后都无法确定用户表述的是“买西红柿”或是“买西虹市”时，如果能通过用户发起语音指令时缓存的音频记录中存在用户与其他人交谈有关电影的内容时，可以确定用户的指令对话场景是电影；如果缓存的音频记录中存在用户与其他人交谈有关晚饭的内容时，可以确定用户的指令对话场景是生活。或者判断用户当前定位在超市附近，确定用户的指令对话场景是生活。或者判断用户导航目的地是电影院，确定用户的指令对话场景是电影。

随后根据所述对话场景，生成第一问询请求，所述第一问询请求包括向用户发起的与场景相关的第一问询。例如确定用户的指令对话场景是电影时，采用询问领域策略，比如，“您是否想购买电影票”。

接收用户第一应答指令，根据用户第一应答指令，确定第三识别结果，基于所述第三识别结果确定将要执行的指令。例如，当用户回答“是”，则确定用户是需要买西虹市首富的电影票，基于该识别结果填充语音交互引擎的命令槽位，例如填充订票，从而调用订票助手，并填充票务相关槽位信息，同时向用户反馈指令执行通知消息。例如，当用户回答“不是”，则确定用户是需要买西红柿，基于该识别结果填充语音交互引擎的命令槽位，例如填充外卖，从而调用外卖助手，并填充外卖订购相关槽位信息，同时向用户反馈指令执行通知消息。

进一步地如果在步骤105中仍旧无法确定用户领域，则使用提示用户更换说法策略，向用户发送错误通知，所述通知包括提示用户当前指令无法被识别，请用户变更指令表达方式。

实施例二

参考图2，本发明实施例二还提供一种语音识别装置，其特征在于，所述装置包括：

接口模块，用于接收用户第一语音指令；

优选地，所述接口模块进一步包括，

优选地，所述判断模块还用于根据用户的反馈信息，确定用户情绪分类，如果用户情绪属于第一预定分类，则判断用户第一语音指令未被正确识别。

优选地，所述判断模块还用于根据用户的反馈信息，确定用户情绪分类，如果用户情绪属于第一预定分类，则判断用户第二语音指令未被正确识别。

所述终端设备包括但不限于计算机、手机，平板电脑，车机，车载终端，机顶盒，智慧型家电。

本发明提供一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有可在处理器上运行的计算机程序、所述计算机程序在被执行时实现如上所述的方法。

可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质可以包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、闪存、可擦式可编程只读存储器(EPROM)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码。

以上说明只是为了方便理解本发明而举出的例子，不用于限定本发明的范围。在具体实现时，本领域技术人员可以根据实际情况对装置的部件进行变更、增加、减少，在不影响方法所实现的功能的基础上可以根据实际情况对方法的步骤进行变更、增加、减少或改变顺序。

尽管已经示出和描述了本发明的实施例，本领域技术人员应当理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同替换所限定，在未经创造性劳动所作的改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音识别方法，其特征在于，所述方法包括：

1011，接收用户第一语音指令，确定符合所述第一语音指令的多条第一候选识别结果，缓存所述多条第一候选识别结果；

1012，确定所述多条第一候选识别结果的第一置信等级，基于所述第一置信等级确定第一目标识别结果；

1013，基于所述第一目标识别结果填充语音交互引擎的命令槽位，并向用户反馈第一指令执行通知消息；

102，采集用户的反馈信息，基于用户的反馈信息判断用户第一语音指令是否被正确识别，如果未被正确识别，执行步骤1031；

1031，接收所述用户的第二语音指令，确定符合第二语音指令的多条第二候选识别结果；

1032，提取所述缓存的所述多条第一候选识别结果，基于所述多条第一候选识别结果和所述多条第二候选识别结果，确定所述多条第一候选识别结果和多条第二候选识别结果的第二置信等级，基于所述第二置信等级确定第二目标识别结果；

1033，基于所述第二目标识别结果填充语音交互引擎的命令槽位，并向用户反馈第二指令执行通知消息；

105，获取用户的当前位置，所述当前位置是用户的定位信息，或者获取用户的导航目的地；结合用户的当前位置、第一语音指令、第二语音指令、和音频记录分析确定用户语音指令所属对话场景，或者结合用户的导航目的地、第一语音指令、第二语音指令、和音频记录分析确定用户语音指令所属对话场景；所述音频记录是通过麦克风实时采集周围声音获取；根据所述用户语音指令所属对话场景，生成第一问询请求；所述第一问询请求包括向用户发起的与场景相关的第一问询。

2.根据权利要求1所述的方法，其特征在于，所述反馈信息包括用户生物特征反馈信息，所述生物特征反馈信息包括表情信息、声音信息、姿势信息和/或生理指数信息。

3.根据权利要求1所述的方法，其特征在于，所述步骤102具体包括

根据用户的反馈信息，确定用户情绪分类，如果用户情绪属于第一预定分类，则判断用户第一语音指令未被正确识别，执行步骤1031。

4.根据权利要求1所述的方法，其特征在于，所述步骤105具体包括

5.一种语音识别装置，其特征在于，所述装置包括接口模块，判断模块以及场景确定模块，具体地：

所述接口模块进一步包括：

候选结果确定模块，用于接收用户第一语音指令，确定符合所述第一语音指令的多条第一候选识别结果，缓存所述多条第一候选识别结果；

目标结果确定模块，用于确定所述多条第一候选识别结果的第一置信等级，基于所述第一置信等级确定第一目标识别结果；

通知确定模块，用于基于所述第一目标识别结果填充语音交互引擎的命令槽位，并向用户反馈第一指令执行通知消息；

所述判断模块，用于采集用户的反馈信息，基于用户的反馈信息判断用户第一语音指令是否被正确识别；

所述候选结果确定模块，进一步用于接收所述用户的第二语音指令，确定符合第二语音指令的多条第二候选识别结果；

所述目标结果确定模块，进一步用于提取所述缓存的所述多条第一候选识别结果，基于所述多条第一候选识别结果和所述多条第二候选识别结果，确定所述多条第一候选识别结果和多条第二候选识别结果的第二置信等级，基于所述第二置信等级确定第二目标识别结果；

所述通知确定模块，进一步用于基于所述第二目标识别结果填充语音交互引擎的命令槽位，并向用户反馈第二指令执行通知消息；

所述场景确定模块，用于所述用户的所述第二语音指令未被正确识别时，获取用户的当前位置，所述当前位置是用户的定位信息，或者获取用户的导航目的地；结合用户的当前位置、第一语音指令、第二语音指令、和音频记录分析确定用户语音指令所属对话场景，或者结合用户的导航目的地、第一语音指令、第二语音指令、和音频记录分析确定用户语音指令所属对话场景；所述音频记录是通过麦克风实时采集周围声音获取；根据所述用户语音指令所属对话场景，生成第一问询请求，所述第一问询请求包括向用户发起的与场景相关的第一问询。

6.根据权利要求5所述的装置，其特征在于，

所述反馈信息包括用户生物特征反馈信息，所述生物特征反馈信息包括表情信息、声音信息、姿势信息和/或生理指数信息。

7.根据权利要求5所述的装置，其特征在于，所述判断模块具体包括

8.根据权利要求5所述的装置，其特征在于，

9.一种终端设备，其特征在于，所述终端设备包括处理器和存储器，所述存储器中存储有可在处理器上运行的计算机程序，所述计算机程序在被所述处理器执行时实现如权利要求1至4任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有可在处理器上运行的计算机程序、所述计算机程序在被执行时实现如权利要求1至4任一项所述的方法。