CN110931018A

CN110931018A - 智能语音交互的方法、装置及计算机可读存储介质

Info

Publication number: CN110931018A
Application number: CN201911219749.4A
Authority: CN
Inventors: 高宏; 毛跃辉; 王慧君
Original assignee: Gree Electric Appliances Inc of Zhuhai
Current assignee: Gree Electric Appliances Inc of Zhuhai; Gree Green Refrigeration Technology Center Co Ltd of Zhuhai
Priority date: 2019-12-03
Filing date: 2019-12-03
Publication date: 2020-03-27

Abstract

本发明提供一种智能语音交互的方法。所述智能语音交互的方法包括：获取待识别的语音信号；利用识别模型识别所述语音信号并输出第一语义文本；将所述语音信号与预设的用户语料库进行匹配，确定所述语音信号对应的用户语料库并输出第二语义文本；根据所述第一语义文本和所述第二语义文本确定所述语音信号对应的目标语义文本及所述目标语义文本对应的控制指令。本发明结合预设的用户语料库和识别模型分别输出的第一语义文本、第二语义文本，并在此基础上进一步确定所述语音信号的目标语义文本，保证了语音控制的准确性，给用户带来更好的控制体验。

Description

智能语音交互的方法、装置及计算机可读存储介质

技术领域

本发明涉及语音交互技术领域，具体而言，涉及一种智能语音交互的方法、装置及计算机可读存储介质。

背景技术

随着人工智能技术的日益成熟，人们的生活开始走向智能化，各种智能设备逐渐进入人们的日常生活中。语音交互作为智能设备应用中主流的交互方式之一，其交互的方式通常只考虑机器的对语音的翻译识别结果，并未考虑到用户语料库，即用户表达的多样化，对于用户的交互语音可能会做出错误的理解，从而导致智能交互设备做出错误的响应，带来较差的用户体验。

因此，业内亟需一种能解决上述问题的技术方案。

发明内容

本发明提供了一种智能语音交互的方法，以提高语音交互控制的准确性，给用户带来更好的控制体验。

对应地，本发明提供了一种智能语音交互的装置及一种计算机可读存储介质。

本发明具体采用如下技术方案：

第一方面，本发明提供了一种智能语音交互的方法。

所述智能语音交互的方法包括：

获取待识别的语音信号；

利用识别模型识别所述语音信号并输出第一语义文本；

将所述语音信号与预设的用户语料库进行匹配，确定所述语音信号对应的用户语料库并输出第二语义文本；

根据所述第一语义文本和所述第二语义文本确定所述语音信号对应的目标语义文本及所述目标语义文本对应的控制指令。

具体地，所述利用识别模型识别所述语音信号并输出第一语义文本的步骤之前，还包括：

对所述语音信号预处理去噪。

具体地，所述对所述语音信号预处理去噪的步骤中，具体包括：

对所述语音信号进行频谱分析；

将所述频谱分析后的语音信号按照预设的规则过滤去噪。

具体地，所述将所述语音信号与预设的用户语料库进行匹配的步骤中，具体包括：

提取所述语音信号的声纹特征，根据所述声纹特征匹配所述语音信号对应的用户语料库。

进一步地，所述用户语料库具有多个，一个所述用户语料库对应一个所述声纹特征。

具体地，所述根据所述第一语义文本和所述第二语义文本确定所述语音信号对应的目标语义文本的步骤中，具体包括：

确定所述第一语义文本和所述第二语义文本所对应的概率系数，分别对所述第一语义文本和所述第二语义文本根据所述概率系数加权计算，得到计算后的目标语义文本。

进一步地，还包括：

根据所述目标语义文本更新所述用户语料库。

具体地，所述用户语料库包括通用的用户语料库和特定的用户语料库；所述将所述语音信号与预设的用户语料库进行匹配的步骤中，具体包括：

提取所述语音信号的声纹特征，通过声纹模型进行匹配；

若匹配成功，则调用特定的用户语料库；若否，则选择调用通用的用户语料库。

第二方面，本发明提供一种智能语音交互的装置。

所述智能语音交互的装置包括：

获取模块，用于获取待识别的语音信号；

识别模块，用于利用识别模型识别所述语音信号并输出第一语义文本；

匹配模块，用于将所述语音信号与预设的用户语料库进行匹配，确定所述语音信号对应的用户语料库并输出第二语义文本；

确定模块，用于根据所述第一语义文本和所述第二语义文本确定所述语音信号对应的目标语义文本及所述目标语义文本对应的控制指令。

第三方面，本发明提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现第一方面任一项所述的智能语音交互的方法的步骤。

相比于现有技术，本发明的方案具有以下优点：

本发明中，利用了当前的识别模型识别翻译所述待识别的语音信号为第一语义文本，在此基础上，结合预设的用户语料库输出的第二语义文本，结合所述第一语义文本和第二语义文本输出目标语义文本，综合了机器的语音识别功能及考虑特定用户的差异化，提高了语音控制的准确性，给用户带来更好的控制体验。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明中一种智能语音交互的方法的一种实施例的方法流程图；

图2为本发明中一种智能语音交互的方法的另一种实施例的方法流程图；

图3为本发明中一种智能语音交互的装置的一种实施例的结构图；

图4为本发明中一种智能语音交互的装置的另一种实施例的结构图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

本领域普通技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

第一方面，本发明提供了一种智能语音交互的方法。

如图1，示出了本发明的一种智能语音交互的方法的一种实施例的流程。

所述智能语音交互的方法包括步骤S101、步骤S102、步骤S103和步骤S104。其中：

步骤S101.获取待识别的语音信号；

当前，绝大部分的智能设备均能实现语音交互的功能，如电视机、手机、智能手表、智能空调等。本发明中，执行主体为具有语音交互功能的智能设备。

智能设备通过麦克风阵列进行语音信号的获取，并对所获取的语音信号进行识别。

步骤S102.利用识别模型识别所述语音信号并输出第一语义文本；

本发明中，利用当前智能设备的惯用的识别模型对所述语音信号进行识别，以输出第一语义文本，所述第一语义文本为识别模型对获取到的待识别的有效的语音信号进行语义理解处理得到的语义理解结果。在现有技术中，智能设备可以根据所述第一语义文本确定人有效的所述语音信号所对应的语音指令，以完成人与智能设备之间的语音交互。本发明实施例中，智能设备是根据第一语义文本和第二语义文本确定所述语音信号所对应的语音指令，以完成人与智能设备之间的语音交互。

步骤S103.将所述语音信号与预设的用户语料库进行匹配，确定所述语音信号对应的用户语料库并输出第二语义文本；

所述用户语料库用于存储用户的语音信息及所述语音信息对应的第二语义文本等数据。

在本发明的一种具体的实施例中，所述用户语料库包括通用的用户语料库和特定的用户语料库。特定的用户语料库是专属某个用户的用户语料库，其用于记录和更新该专属用户的语音信号及语音信号对应的语义文本等。通用的用户语料库，为新用户先前未在系统或设备上有相关语音记录时，初次触发所匹配的。当然，当所获取的语音信号无法与所述特定的用户语料库相匹配时，其亦会匹配通用的用户语料库。初次匹配完后，为该新用户创建一个专属于该新用户的特定的用户语料库。

本发明中，建立用户语料库时，用户发出语音信息，提取所述语音特征并保存，精确定位用户，有针对性的搭建用户语料库。一个用户对应一个语音特征，一个语音特征对应一个用户语料库。所述语音特征用于区别不同的用户。其中，语音特征可以为声纹特征。例如，获取甲的语音信息，提取所述语音特征，建立一个甲的用户语料库；获取乙的语音信息，提取所述语音特征，建立一个乙的用户语料库。

由于不同的人，说话的习惯跟风格不一，建立用户语料库，匹配所获取的语音信号，输出该语音信号所对应的第二语义文本，有助于语音信号识别的个性化，快速实现语音信号的识别跟提高语音信号识别的准确性。

本发明实施例中，所述将所述语音信号与预设的用户语料库进行匹配的步骤中，具体包括：

提取所述语音信号的声纹特征，通过声纹模型进行匹配；

步骤S104.根据所述第一语义文本和所述第二语义文本确定所述语音信号对应的目标语义文本及所述目标语义文本对应的控制指令。

本发明中，利用了当前的识别模型识别翻译所述待识别的语音信号为第一语义文本，在此基础上，结合预设的用户语料库输出的第二语义文本，结合所述第一语义文本和第二语义文本输出目标语义文本，从而根据所述目标语义文本对应的控制指令实现与智能设备的语音交互。本发明综合了机器的识别模型的语音识别功能及考虑特定用户的差异化，提高了语音控制的准确性，给用户带来更好的控制体验。

如图2，示出了本发明中一种智能语音交互的方法的另一种实施例的方法流程。

本实施例中，所述步骤S102之前，还包括步骤S1010。其中，

步骤S1010.对所述语音信号预处理去噪。

在获取语音信号后，为减少误识别率，有必要对所述语音信号做预处理，从而将一些带噪语音信号在前端处理后，获得有效的语音信号。

在本发明的一种具体的实施例中，所述对所述语音信号预处理去噪的步骤中，具体包括：

对所述语音信号进行频谱分析；

将所述频谱分析后的语音信号按照预设的规则过滤去噪。

本实施例中，对语音信号进行频谱分析后，根据实际的应用情形指定相应的过滤规则,过滤掉与噪音相关的波形，达到去噪的效果，得到有效的语音信号。

一种具体的实施例中，所述将所述语音信号与预设的用户语料库进行匹配的步骤中，具体包括：

本实施例中，预先存储用户的语音信号，提取所存储的语音信号的声纹特征，为用户创建用户语料库并在所述用户语料库存储所存储的语音信号对应的语义文本。因此，当获取到智能设备上麦克风阵列等接收到的与交互相关的语音信号，提取该语音信号的声纹特征，可以根据该接收到的语音信号的声纹特征与预先存储的声纹特征所匹配，从而确定该接收到的语音信号的用户语料库。通过用户语料库，可以有效地识别该接收到的语音信号所对应地第二语义文本。

例如，当前系统上存储的用户语料库包括1个通用的用户语料库和3个特定的用户语料库。其中，3个特定的用户语料库分别对应甲、乙、丙这3个用户。当智能设备获取到甲的语音信号进行识别时，若该语音信号有效，则智能设备会将甲的语音信号与甲的特定的用户语料库相匹配，并根据甲的特定的用户语料库对甲的语音信号进行识别，输出第二语义文本。

如上所述，在本发明实施例，所述用户语料库可以具有多个，一个所述用户语料库对应一个所述声纹特征。

在另一种具体的实施例中，所述根据所述第一语义文本和所述第二语义文本确定所述语音信号对应的目标语义文本的步骤中，具体包括：

本实施例中，通过将基于存储的用户语料库的第二语义文本和识别模型输出的第一语义文本作对比，将第二语义文本和第一语义文本替换，从而获得第一语义文本和第二语义文本的概率，并将各概率加权计算得到目标语义文本。从而根据目标语义文本得到步骤S101中待识别的语音信号所对应的控制指令，以完成人与智能设备之间的语音交互。

进一步地，还包括：

根据所述目标语义文本更新所述用户语料库。

由于最终输出的目标语义文本与所述用户语料库当中的第二语义文本有区别，因此以最终输出的目标语义文本为准，将一语音信号所对应的目标语义文本替换该语音信号中用户语料库中的第二语义文本，并将所述目标语义文本存储于用户语料库中。

第二方面，本发明提供了一种智能语音交互的装置。

如图3，示出了本发明的一种智能语音交互的装置的一种实施例的结构。

所述智能语音交互的方法包括获取模块101、识别模块102、匹配模块103和确定模块104。其中：

获取模块101，用于获取待识别的语音信号；

识别模块102，用于利用识别模型识别所述语音信号并输出第一语义文本；

匹配模块103，用于将所述语音信号与预设的用户语料库进行匹配，确定所述语音信号对应的用户语料库并输出第二语义文本；

本发明实施例中，所述匹配模块103中，具体包括：

提取单元，用于提取所述语音信号的声纹特征，通过声纹模型进行匹配；

调用单元，用于若匹配成功，则调用特定的用户语料库；若否，则选择调用通用的用户语料库。

确定模块104，用于根据所述第一语义文本和所述第二语义文本确定所述语音信号对应的目标语义文本及所述目标语义文本对应的控制指令。

如图4，示出了本发明中一种智能语音交互的装置的另一种实施例的结构。

本实施例中，还包括去噪模块1010。其中，

去噪模块1010，用于对所述语音信号预处理去噪。

在本发明的一种具体的实施例中，所述去噪模块1010中，具体包括：

分析单元，用于对所述语音信号进行频谱分析；

过滤单元，用于将所述频谱分析后的语音信号按照预设的规则过滤去噪。

本实施例中，通过将基于存储的用户语料库的第二语义文本和识别模型输出的第一语义文本作对比，将第二语义文本和第一语义文本替换，从而获得第一语义文本和第二语义文本的概率，并将各概率加权计算得到目标语义文本。从而根据目标语义文本得到获取模块101中待识别的语音信号所对应的控制指令，以完成人与智能设备之间的语音交互。

进一步地，还包括更新模块。其中，更新模块：用于根据所述目标语义文本更新所述用户语料库。

以上对本发明所提供的技术方案的实施例进行了详细介绍，对于本领域的一般技术人员，依据本发明实施例的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种智能语音交互的方法，其特征在于，包括：

获取待识别的语音信号；

利用识别模型识别所述语音信号并输出第一语义文本；

2.根据权利要求1所述的智能语音交互的方法，其特征在于，所述利用识别模型识别所述语音信号并输出第一语义文本的步骤之前，还包括：

对所述语音信号预处理去噪。

3.根据权利要求2所述的智能语音交互的方法，其特征在于，所述对所述语音信号预处理去噪的步骤中，具体包括：

对所述语音信号进行频谱分析；

将所述频谱分析后的语音信号按照预设的规则过滤去噪。

4.根据权利要求1所述的智能语音交互的方法，其特征在于，所述将所述语音信号与预设的用户语料库进行匹配的步骤中，具体包括：

5.根据权利要求4所述的智能语音交互的方法，其特征在于，所述用户语料库具有多个，一个所述用户语料库对应一个所述声纹特征。

6.根据权利要求5所述的智能语音交互的方法，其特征在于，所述根据所述第一语义文本和所述第二语义文本确定所述语音信号对应的目标语义文本的步骤中，具体包括：

7.根据权利要求6所述的智能语音交互的方法，其特征在于，还包括：

根据所述目标语义文本更新所述用户语料库。

8.根据权利要求1所述的智能语音交互的方法，其特征在于，所述用户语料库包括通用的用户语料库和特定的用户语料库；所述将所述语音信号与预设的用户语料库进行匹配的步骤中，具体包括：

提取所述语音信号的声纹特征，通过声纹模型进行匹配；

9.一种智能语音交互的装置，其特征在于，包括：

获取模块，用于获取待识别的语音信号；

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现权利要求1至8所述的智能语音交互的方法的步骤。