CN112530442B

CN112530442B - 语音交互方法及装置

Info

Publication number: CN112530442B
Application number: CN202011225235.2A
Authority: CN
Inventors: 胡子坚
Original assignee: Midea Group Co Ltd; Guangdong Midea Kitchen Appliances Manufacturing Co Ltd
Current assignee: Midea Group Co Ltd; Guangdong Midea Kitchen Appliances Manufacturing Co Ltd
Priority date: 2020-11-05
Filing date: 2020-11-05
Publication date: 2023-11-17
Anticipated expiration: 2040-11-05
Also published as: CN112530442A

Abstract

本发明公开一种语音交互方法及装置，方法包括：在捕获到语音时，根据语音的声纹特征分析得到用户置信系数；确定语音的语义意图及意图系数；根据用户置信系数和意图系数确定系统响应系数；根据系统响应系数高于语义意图对应的响应阈值，响应语音。本申请通过声纹识别得到捕获语音的用户置信系数，并通过语义分析得到捕获语音的语义意图及意图系数，进而结合用户置信系数和意图系数得到系统响应系数，由于系统响应系数根据意图系数和用户置信系数得到，因此可以实现语义过滤，通过将系统响应系数与语义意图对应的响应阈值比较以做出是否响应的判定，以避免频繁唤醒操作以及多人嘈杂环境下的误识别、频繁触发对话的问题，以真正提升用户的使用体验。

Description

语音交互方法及装置

技术领域

本发明涉及计算机技术领域，具体涉及一种语音交互方法及装置。

背景技术

目前市场上的语音菜谱助手，通常需要频繁唤醒操作，用户体验不佳。如果使用全双工对话技术，解决掉频繁唤醒操作问题，由于整个对话过程，语音菜谱助手一直响应捕获到的所有声音，这样就会出现多人嘈杂环境下误识别的问题，导致会频繁触发语音对话。

发明内容

本发明的目的是针对上述现有技术的不足提出的一种语音交互方法及装置，该目的是通过以下技术方案实现的。

本发明的第一方面提出了一种语音交互方法，所述方法包括：

在捕获到语音时，根据所述语音的声纹特征分析得到用户置信系数；

确定所述语音的语义意图及意图系数，所述意图系数是所述语音属于所确定的语义意图的概率；

根据所述用户置信系数和所述意图系数确定系统响应系数；

根据所述系统响应系数高于所述语义意图对应的响应阈值，响应所述语音。

本发明的第二方面提出了一种语音交互装置，所述装置包括：

声纹分析模块，用于在捕获到语音时，根据所述语音的声纹特征分析得到用户置信系数；

语义分析模块，用于确定所述语音所属的预设语义意图及意图系数，所述意图系数是所述语音属于所确定的语义意图的概率；

计算模块，用于根据所述用户置信系数和所述意图系数确定系统响应系数；

响应模块，用于根据所述系统响应系数高于所述预设语义意图对应的响应阈值，响应所述语音。

基于上述第一方面和第二方面所述的语音交互方法及装置，本发明具有如下有益效果：

在捕获到语音时，通过声纹识别得到捕获语音的用户置信系数，并通过语义分析得到捕获语音的语义意图及意图系数，进而结合用户置信系数和意图系数得到系统响应系数，由于系统响应系数根据意图系数和用户置信系数得到，因此可以实现语义过滤，通过将系统响应系数与语义意图对应的响应阈值比较以做出是否响应的判定，以避免频繁唤醒操作以及多人嘈杂环境下的误识别、频繁触发对话的问题，以真正提升用户的使用体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1为本发明示出的一种语音交互方法的实施例流程图；

图2为本发明根据图1所示实施例示出的一种电子设备的结构示意图；

图3为本发明示出一种语音交互装置的结构示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明，本发明实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

另外，在本发明中如涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“连接”、“固定”等应做广义理解，例如，“固定”可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

另外，本发明各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

目前市场上的语音菜谱助手大部分需要频繁唤醒操作，即用户每次与助手对话，都需要用固定的唤醒词先唤醒助手，用户体验很不好。如果采用全双工语音交互技术，可以解决掉频繁唤醒操作的问题。但是应用全双工语音交互技术，由于整个对话过程中，语音菜谱助手始终在识别捕获的声音，除非是在一个安静的单人场景下使用效果会比较理想，但是在嘈杂多人对话的环境中，会出现误识别的问题，导致语音菜谱助手会频繁触发对话，无法真正提升用户体验。

基于此，本申请提出一种改进的语音交互方法，通过将全双工语音交互技术、声纹识别技术和语义识别技术结合在一起实现语音交互，以避免频繁唤醒操作以及多人嘈杂环境下的频繁触发对话的问题，以真正提升用户的使用体验。

具体实现方案为：在捕获到语音时，先使用声纹识别技术根据捕获的语音分析得到用户置信系数，并使用语义识别技术分析语音的语义意图及意图系数，然后根据用户置信系数和意图系数确定系统响应系数，进而如果系统响应系数高于分析的到的语义意图对应的响应阈值时，再响应捕获到的语音。

下面以具体实施例对本申请提出的语音交互方法进行详细阐述。

图1为本发明示出的一种语音交互方法的实施例流程图，该语音交互方法可以应用在终端设备上，以菜谱应用场景为例，通过在终端设备上安装语音菜谱助手APP实现本实施例提出的语音交互方案。如图1所示，该语音交互方法包括如下步骤：

步骤101：在捕获到语音时，根据捕获的语音的声纹特征分析得到用户置信系数。

其中，语音的捕获可以通过设备上的麦克风进行采集。

可以理解的是，针对根据捕获的语音的声纹特征分析得到用户置信系数，可以使用声纹识别技术提取捕获语音的声纹特征，然后将提取的声纹特征与使用者列表中记录的每位使用者的声纹特征进行比对分析，以得到候选用户置信系数，进而从得到的候选用户置信系数中选择一个最大的候选用户置信系数作为用户置信系数。

其中，使用者列表中记录有使用者的声纹特征。以语音菜谱助手应用场景为例，使用者列表即为菜谱使用者列表，用户通过语音启动某一菜谱，并选择进入全双工语音交互模式后，设备提取用户语音的声纹特征并记录到菜谱使用者列表中。

可以理解的是，可以将捕获的语音的声纹特征与每位使用者的声纹特征进行声纹近似度计算，以得到与每位使用者的声纹特征之间的候选用户置信系数。其中，最大候选用户置信系数对应的使用者即可能是捕获的语音的发出者。

步骤102：确定捕获的语音的语义意图及意图系数。

在执行步骤102之前，可以预先部署好所需的语义意图知识库。在语音菜谱应用场景中，预先部署好的知识库，可以包括所需的问答意图的知识库、设备操作意图的知识库、播放音乐意图的知识库等。

可以理解的是，根据预先部署好的各种语义意图的知识库，可以使用语义分析技术确定捕获的语音的语义意图及意图系数。

其中，意图系数指的是捕获的语音属于确定的语义意图的概率值。当然最终确定的语义意图为概率值最高的语义意图。

需要说明的是，在部署好所需的语义意图的知识库之后，还可以进一步为每种语义意图独立设置响应阈值，以用于与下面步骤103中计算得到的系统响应系数进行比较，判断需不需要响应。例如问答意图的响应阈值是1.6，设备操作意图的响应阈值是1.8，播放音乐意图的响应阈值为1.5。

步骤103：根据该用户置信系数和该意图系数确定系统响应系数。

可以理解的是，可以将用户置信系数与意图系数之和确定为系统响应系数。

当然在其他实施方式中，还可以为每种类型的系数设置权重，从而系统响应系数为权重与用户置信系数的乘积加上权重与意图系数的乘积。

步骤104：判断该系统响应系数是否高于该语义意图对应的响应阈值，若高于，则执行步骤105，否则，返回执行步骤101。

其中，响应阈值即为上述步骤102中为语义意图设置的响应阈值。

步骤105：响应捕获到的语音。

可以理解的是，基于上述步骤102中预先部署的知识库，可以根据所述语义意图对应的知识库，获取该语音的应答信息并进行播放。

其中，根据知识库获取语音的应答信息可以采用相关技术实现，本申请不再详述。

在执行步骤105之后，可以判断上述步骤101分析得到的用户置信系数是否低于预设阈值，如果低于，认为捕获的语音不属于使用者列表中的用户，但系统响应，已经参与到菜谱的互动中，从而可以将捕获的语音的声纹特征作为新用户的声纹特征添加到使用者列表中，以实现用户的动态注册机制。

其中，预设阈值可以根据实践经验设置，例如可以设置为0.9，如果低于0.9，则认为声音不属于同一个人。

针对上述步骤101至步骤105的过程，以语音菜谱交互举例来说，假设当前场景中有用户A、用户B、用户C三人：

用户A通过语音启动戚风蛋糕的菜谱，并选择进入全双工语音交互模式，语音菜谱助手的后台将用户A的声纹特征记录到使用者列表中。

当用户A说“需要什么材料？”，语音菜谱助手的后台使用声纹识别技术分析计算得到用户置信系数是0.9，使用语义分析技术，确定出的意图是“问答意图”且意图系数为0.8，由于系统响应系数0.9+0.8＝1.7，高于“问答意图”对应的响应阈值1.6，因此语音菜谱助手响应，即播放对应的应答信息。

而后，用户B说“帮我放歌”，语音菜谱助手的后台使用声纹识别技术分析计算得到是用户A的用户置信系数是0.6，使用语义分析技术，确定出的意图是“播放音乐意图”且意图系数为1，由于系统响应系数0.6+1＝1.6，高于“播放音乐意图”对应的响应阈值1.5，因此语音菜谱助手响应，即按照用户B的意图播放音乐。而由于用户置信系数0.6低于预设阈值0.9，说明明显与用户A的声纹不同，则语音菜谱助手将用户B作为新增用户添加到使用者列表中。

紧接着，用户C说“今天有什么活动”，语音菜谱助手的后台使用声纹识别技术分析出用户C的声纹特征相对于使用者列表中用户A的声纹特征的候选用户置信系数为0.6，相当于使用者列表中用户B的声纹特征的候选用户置信系数为0.3，则去最大值0.6作为用户C的用户置信系数，使用语义分析技术确定出的意图是“问答意图”，意图系数为0.9，由于系统响应系数0.6+0.9＝1.5，低于“问答意图”对应的响应阈值1.6，因此语音菜谱助手静默处理，不响应用户C的语音。

至此，完成上述图1所示流程，在捕获到语音时，通过声纹识别得到捕获语音的用户置信系数，并通过语义分析得到捕获语音的语义意图及意图系数，进而结合用户置信系数和意图系数得到系统响应系数，由于系统响应系数根据意图系数和用户置信系数得到，因此可以实现语义过滤，通过将系统响应系数与语义意图对应的响应阈值比较以做出是否响应的判定，以避免频繁唤醒操作以及多人嘈杂环境下的误识别、频繁触发对话的问题，以真正提升用户的使用体验。

图2为本发明根据一示例性实施例示出的一种电子设备的硬件结构图，该电子设备包括：通信接口201、处理器202、机器可读存储介质203和总线204；其中，通信接口201、处理器202和机器可读存储介质203通过总线204完成相互间的通信。处理器202通过读取并执行机器可读存储介质203中与语音交互方法的控制逻辑对应的机器可执行指令，可执行上文描述的语音交互方法，该方法的具体内容参见上述实施例，此处不再累述。

本发明中提到的机器可读存储介质203可以是任何电子、磁性、光学或其它物理存储装置，可以包含或存储信息，如可执行指令、数据，等等。例如，机器可读存储介质可以是：易失存储器、非易失性存储器或者类似的存储介质。具体地，机器可读存储介质203可以是RAM(Random Access Memory，随机存取存储器)、闪存、存储驱动器(如硬盘驱动器)、任何类型的存储盘(如光盘、DVD等)，或者类似的存储介质，或者它们的组合。

与前述语音交互方法的实施例相对应，本发明还提供了语音交互装置的实施例。

图3为本发明示出一种语音交互装置的结构示意图，该语音交互装置可以应用在终端设备上，如图3所示，该语音交互装置包括：

声纹分析模块310，用于在捕获到语音时，根据所述语音的声纹特征分析得到用户置信系数；

语义分析模块320，用于确定所述语音所属的预设语义意图及意图系数，所述意图系数是所述语音属于所确定的语义意图的概率；

计算模块330，用于根据所述用户置信系数和所述意图系数确定系统响应系数；

响应模块340，用于根据所述系统响应系数高于所述预设语义意图对应的响应阈值，响应所述语音。

在一可选实现方式中，所述声纹分析模块310，具体用于获取所述语音的声纹特征，并将所述声纹特征与使用者列表中记录的每位使用者的声纹特征进行比对，得到候选用户置信系数；从得到的候选用户置信系数中选择一个最大的候选用户置信系数作为所述语音的用户置信系数。

在一可选实现方式中，所述计算模块330，具体用于将所述用户置信系数与所述意图系数之和确定为系统响应系数。

在一可选实现方式中，所述响应模块340，具体用于根据所述语义意图对应的知识库，获取所述语音的应答信息并进行播放。

在一可选实现方式中，所述装置还包括(图3中未示出)：

注册模块，用于在所述响应模块340响应所述语音后，根据所述用户置信系数低于预设阈值时，将所述语音的声纹特征作为新用户的声纹特征添加到所述使用者列表中。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是在本发明的构思下，利用本发明说明书及附图内容所作的等效结构变换，或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。

Claims

1.一种语音交互方法，其特征在于，所述方法包括：

根据所述用户置信系数和所述意图系数确定系统响应系数；

根据所述系统响应系数高于所述语义意图对应的响应阈值，响应所述语音；

其中，所述根据所述用户置信系数和所述意图系数确定系统响应系数，包括：

将所述用户置信系数与所述意图系数之和确定为系统响应系数。

2.如权利要求1所述的方法，其特征在于，所述根据所述语音的声纹特征分析得到用户置信系数，包括：

提取所述语音的声纹特征，并将所述声纹特征与使用者列表中记录的每位使用者的声纹特征进行比对，得到候选用户置信系数；

从得到的候选用户置信系数中选择一个最大的候选用户置信系数作为所述语音的用户置信系数。

3.如权利要求1所述的方法，其特征在于，所述响应所述语音，包括：

根据所述语义意图对应的知识库，获取所述语音的应答信息并进行播放。

4.如权利要求2所述的方法，其特征在于，所述方法还包括：

在响应所述语音后，根据所述用户置信系数低于预设阈值，将所述语音的声纹特征作为新用户的声纹特征添加到所述使用者列表中。

5.一种语音交互装置，其特征在于，所述装置包括：

响应模块，用于根据所述系统响应系数高于所述预设语义意图对应的响应阈值，响应所述语音；

其中，所述计算模块，具体用于将所述用户置信系数与所述意图系数之和确定为系统响应系数。

6.如权利要求5所述的装置，其特征在于，所述声纹分析模块，具体用于获取所述语音的声纹特征，并将所述声纹特征与使用者列表中记录的每位使用者的声纹特征进行比对，得到候选用户置信系数；从得到的候选用户置信系数中选择一个最大的候选用户置信系数作为所述语音的用户置信系数。

7.如权利要求5所述的装置，其特征在于，所述响应模块，具体用于根据所述语义意图对应的知识库，获取所述语音的应答信息并进行播放。

8.如权利要求5所述的装置，其特征在于，所述装置还包括：

注册模块，用于在所述响应模块响应所述语音后，根据所述用户置信系数低于预设阈值，将所述语音的声纹特征作为新用户的声纹特征添加到使用者列表中。