CN111161726B

CN111161726B - 一种智能语音交互方法、设备、介质及系统

Info

Publication number: CN111161726B
Application number: CN201911345694.1A
Authority: CN
Inventors: 石忠民; 林桂石; 钟力
Original assignee: GUANGZHOU SUMMBA INFORMATION TECHNOLOGY CO LTD
Current assignee: GUANGZHOU SUMMBA INFORMATION TECHNOLOGY CO LTD
Priority date: 2019-12-24
Filing date: 2019-12-24
Publication date: 2023-11-03
Anticipated expiration: 2039-12-24
Also published as: CN111161726A

Abstract

本发明提供的一种智能语音交互方法，包括实时获取当前用户发出的当前音频信号；将获取到的当前用户音频信号转换成当前用户文本序列；将当前用户文本序列输入至预设领域分类器中进行分类，将当前用户文本序列输入至预设子领域分类器中进行分类，得到子领域类型时，根据子领域类型在预设处理结果数据库中筛选对应处理结果文本信息；将处理结果文本信息转换成语音信号，并将语音信号播放给用户。本发明提供的一种智能语音交互方法，通过预设分类器和预设子领域分类器对当前用户文本进行分类实现了对用户的多个任务请求作出响应，且交互过程高效精准。

Description

一种智能语音交互方法、设备、介质及系统

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种智能语音交互方法、设备、介质及系统。

背景技术

语音交互技术是指智能设备可以通过语音信号实现和外界的交互，是一种十分便捷的交互方式，如今已广泛应用于各个领域。近十年来，机器学习、深度学习等人工智能技术的飞速发展，语音交互系统在语音识别、语义理解、对话生成等方面性能大幅度提高，市场上也涌现出很多形态各异的语音产品。有全领域语音交互系统，可以针对用户所有的语音请求做出响应，也有针对某一个领域(也称“垂直领域”)的语音交互系统，只针对用户关于特定领域的交互做出响应。

传统的垂直领域的交互系统每次只能针对用户的单个任务请求作出响应，且交互过程反馈滞后以及交互结果不精准。

发明内容

为了克服现有技术的不足，本发明的目的之一在于一种智能语音交互方法，其能解决传统的垂直领域的交互系统每次只能针对用户的单个任务请求作出响应，且交互过程反馈滞后以及交互结果不精准的问题。

本发明的目的之二在于一种电子设备，其能解决传统的垂直领域的交互系统每次只能针对用户的单个任务请求作出响应，且交互过程反馈滞后以及交互结果不精准的问题。

本发明的目的之三在于一种计算机可读存储介质，其能解决传统的垂直领域的交互系统每次只能针对用户的单个任务请求作出响应，且交互过程反馈滞后以及交互结果不精准的问题。

本发明的目的之四在于一种智能语音交互系统，其能解决传统的垂直领域的交互系统每次只能针对用户的单个任务请求作出响应，且交互过程反馈滞后以及交互结果不精准的问题。

本发明的目的之一采用以下技术方案实现：

一种智能语音交互方法，包括以下步骤：

音频获取，实时获取当前用户发出的当前音频信号；

语音转换，将获取到的当前用户音频信号转换成当前用户文本序列；

领域判定，将所述当前用户文本序列输入至预设领域分类器中进行分类，预设分类器输出第一分类结果，若所述第一分类结果为领域相关文本，则执行步骤子领域判定，若所述分类结果为领域无关文本，则返回执行步骤音频获取；

子领域判定，将所述当前用户文本序列输入至预设子领域分类器中并根据上一轮子领域类型进行分类，所述上一轮子领域类型为预设子领域分类器在对所述当前用户文本序列之前的在先用户文本序列进行分类后存储的子领域类型；预设子领域分类器输出第二分类结果，若所述第二分类结果为子领域类型时，执行步骤处理结果信息提取，若所述第二分类结果为空时，返回执行步骤音频获取；

处理结果提取，根据所述子领域类型在预设处理结果数据库中筛选对应处理结果文本信息；

处理结果转换，将所述处理结果文本信息转换成语音信号，并将语音信号播放给用户。

进一步地，所述将所述当前用户文本序列输入至预设领域分类器中进行分类具体为：预设领域分类器将所述当前用户文本序列进行分词处理，得到含有若干关键词的关键词集合，预设领域分类器根据所述关键词集合在预设领域语料数据库中提取出对应的预设领域语料片段和预设领域类型，将所述预设领域语料片段进行分词处理，得到含有若干预设领域词汇的语料集合；根据所述关键词集合和所述语料集合计算出相似系数，当所述相似系数大于预设相似系数阈值时，则所述当前用户文本序列与预设领域类型相关，则输出第一分类结果，所述第一分类结果为领域相关文本，当所述相似系数大于预设相似系数阈值时，则所述当前用户文本序列与预设领域类型无关，则输出第一分类结果，此时所述第一分类结果为领域无关文本，且返回执行步骤音频获取。

进一步地，所述根据所述关键词集合和所述语料集合计算出相似系数具体如以下公式所示：

其中，J表示所述相似系数，U表示所述关键词集合，S表示语料集合。

进一步地，所述子领域判定具体为：将所述当前用户文本序列输入至预设子领域分类器中进行分类，预设领域分类器判断当前用户文本序列是否与预存子领域相关，若是，则输出对应的子领域类型，将所述子领域类型和所述当前用户文本序列进行存储，若否，则将上一轮子领域类型输出，所述上一轮子领域类型为预设子领域分类器在对所述当前用户文本序列之前的在先用户文本序列进行分类后存储的子领域类型。

进一步地，所述预设领域分类器判断当前用户文本序列是否与预存子领域相关具体为：判断当前用户文本序列是否与模板数据库中的预存用户问句模板匹配，若匹配，则预存用户问句模板对应的子领域类型作为第二分类结果输出，若不匹配，则对所述当前用户文本序列进行分词、去停用词处理，得到含有第二关键词的第二关键词集合，通过预设词向量模型将所述第二关键词集合转换成词向量序列，将所述词向量序列发送至预设神经网络模型中，预设神经网络模型输出分类结果，当所述分类结果包括若干目标子领域类型和若干目标概率，每个目标子领域类型与唯一的目标概率对应，选取数字最大的目标概率对应的目标子领域类型作为子领域类型，并将所述子领域类型作为第二分类结果输出。

本发明的目的之二采用以下技术方案实现：

一种电子设备，包括：处理器；

存储器；以及程序，其中所述程序被存储在所述存储器中，并且被配置成由处理器执行，所述程序包括用于执行本申请的一种智能语音交互方法。

本发明的目的之三采用以下技术方案实现：

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行本申请的一种智能语音交互方法。

本发明的目的之四采用以下技术方案实现：

一种智能语音交互系统，包括：

语音转文字模块，所述语音转文字模块用于实时获取当前用户发出的当前音频信号以及将获取到的当前用户音频信号转换成当前用户文本序列；

领域分类器，所述领域分类器用于将所述当前用户文本序列进行分类并输出第一分类结果；

子领域分类器，所述子领域分类器用于根据上一轮子领域类型将所述当前用户文本序列进行分类，并输出第二分类结果；

处理结果提取模块，所述处理结果提取用于根据所述第二分类结果在预设处理结果数据库中筛选对应处理结果文本信息；

文字转语音模块，所述文字转语音模块用于将所述处理结果文本信息转换成语音信号，并将语音信号播放给用户。

进一步地，所述用于将所述当前用户文本序列进行分类并输出第二分类结果具体为：将所述当前用户文本序列输入至预设子领域分类器中进行分类，预设领域分类器判断当前用户文本序列是否与预存子领域相关，若是，则输出对应的子领域类型，将所述子领域类型进行存储，若否，则将上一轮子领域类型输出，所述上一轮子领域类型为预设子领域分类器在对所述当前用户文本序列之前的在先用户文本序列进行分类后存储的子领域类型；还包括会话管理模块用于将所述子领域类型和所述当前用户文本序列进行存储。

进一步地，所述语音转文字模块包括唤醒子模块，所述唤醒子模块用于根据预设语音序列控制所述语音转文字模块从休眠状态进入工作状态。

相比现有技术，本发明的有益效果在于：本申请的一种智能语音交互方法，包括实时获取当前用户发出的当前音频信号；将获取到的当前用户音频信号转换成当前用户文本序列；将所述当前用户文本序列输入至预设领域分类器中进行分类，预设分类器输出第一分类结果，若所述第一分类结果为领域相关文本，则执行步骤子领域判定，若所述分类结果为领域无关文本，则返回执行步骤音频获取；将所述当前用户文本序列输入至预设子领域分类器中进行分类，预设子领域分类器输出第二分类结果，若所述第二分类结果为子领域类型时，执行步骤处理结果信息提取，若所述第二分类结果为空时，执行步骤处理结果信息提取；根据所述子领域类型在预设处理结果数据库中筛选对应处理结果文本信息；将所述处理结果文本信息转换成语音信号，并将语音信号播放给用户；通过预设分类器和预设子领域分类器对当前用户文本进行分类实现了对用户的多个任务请求作出响应，且交互过程高效精准。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，并可依照说明书的内容予以实施，以下以本发明的较佳实施例并配合附图详细说明如后。本发明的具体实施方式由以下实施例及其附图详细给出。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明的一种智能语音交互方法的流程示意图。

具体实施方式

下面，结合附图以及具体实施方式，对本发明做进一步描述，需要说明的是，在不相冲突的前提下，以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。

如图1所示，本发明提供一种智能语音交互方法，包括以下步骤：

音频获取，实时获取当前用户发出的当前音频信号。

语音转换，将获取到的当前用户音频信号转换成当前用户文本序列。

领域判定，将所述当前用户文本序列输入至预设领域分类器中进行分类，预设分类器输出第一分类结果，若所述第一分类结果为领域相关文本，则执行步骤子领域判定，若所述分类结果为领域无关文本，则返回执行步骤音频获取。在本实施中，领域判定具体为：将所述当前用户文本序列输入至预设领域分类器中，预设领域分类器将所述当前用户文本序列进行分词处理，得到含有若干关键词的关键词集合，预设领域分类器根据所述关键词集合在预设领域语料数据库中提取出对应的预设领域语料片段和预设领域类型，将所述预设领域语料片段进行分词处理，得到含有若干预设领域词汇的语料集合；根据所述关键词集合和所述语料集合计算出相似系数，当所述相似系数大于预设相似系数阈值时，则所述当前用户文本序列与预设领域类型相关，则输出第一分类结果，所述第一分类结果为领域相关文本，当所述相似系数大于预设相似系数阈值时，则所述当前用户文本序列与预设领域类型无关，则输出第一分类结果，此时所述第一分类结果为领域无关文本，且返回执行步骤音频获取。以下举例说明：假如当前文本序列为“红烧肉怎么做”，此时基于N-gram分词模型进行分词，按照1-gram，2-gram，3-gram进行分词，则“红烧肉怎么做”按照按1-gram分词的结果为(红、烧、肉、怎、么、做)；按2-gram分词的结果为(红烧、烧肉、肉怎、怎么、么做)；按3-gram分词的结果为(红烧肉、烧肉怎、肉怎么、怎么做)；将上述三个集合合并起来得到关键词集合，关键词集合为(红、烧、么、肉、红烧、肉怎、烧肉、红烧肉、肉怎么、怎、怎么、怎么做、做、么做、烧肉怎)；预设领域分类器根据所述关键词集合在预设领域语料数据库中提取出对应的预设领域语料片段和预设领域类型；假如预设领域语料片段为“红烧肉这道菜怎么做”，则将“红烧肉这道菜怎么做”进行分词处理，得到(肉这、烧肉这、红、菜怎、烧、么、肉、红烧、这道、道菜怎、烧肉、菜怎么、红烧肉、怎、这道菜、怎么、怎么做、道、肉这道、道菜、这、做、么做、菜)，将此集合作为语料集合；根据所述关键词集合和所述语料集合计算出相似系数，具体如以下公式(1)所示：

其中，J表示所述相似系数，U表示所述关键词集合，S表示语料集合。当所述相似系数大于预设相似系数阈值时，则所述当前用户文本序列与预设领域类型相关，则输出第一分类结果，所述第一分类结果为领域相关文本，当所述相似系数大于预设相似系数阈值时，则所述当前用户文本序列与预设领域类型无关，则输出第一分类结果，此时所述第一分类结果为领域无关文本，且返回执行步骤音频获取。在本实施例中在根据相似系数判断是否为领域相关文本时，还会判断当前文本词序是否和预设模板匹配，若匹配，则将相似系数的值加1后再与预设相似系数阈值进行比较。

子领域判定，将所述当前用户文本序列输入至预设子领域分类器中并根据上一轮子领域类型进行分类，所述上一轮子领域类型为预设子领域分类器在对所述当前用户文本序列之前的在先用户文本序列进行分类后存储的子领域类型；预设子领域分类器输出第二分类结果，若所述第二分类结果为子领域类型时，执行步骤处理结果信息提取，若所述第二分类结果为空时，返回执行步骤音频获取。在本实施例中，子领域判定具体为：将所述当前用户文本序列输入至预设子领域分类器中进行分类，判断当前用户文本序列是否与模板数据库中的预存用户问句模板匹配，若匹配，则预存用户问句模板对应的子领域类型作为第二分类结果输出，若不匹配，则对所述当前用户文本序列进行分词、去停用词处理，得到含有第二关键词的第二关键词集合，通过预设词向量模型将所述第二关键词集合转换成词向量序列，将所述词向量序列发送至预设神经网络模型中，本实施例中的预设神经网络模型可以为DNN、CNN、RNN等，此处不做限制。预设神经网络模型输出分类结果，当所述分类结果包括若干目标子领域类型和若干目标概率，每个目标子领域类型与唯一的目标概率对应，选取数字最大的目标概率对应的目标子领域类型作为子领域类型，并将所述子领域类型作为第二分类结果输出。预设领域分类器判断当前用户文本序列是否与预存子领域相关，若是，则输出对应的子领域类型，将所述子领域类型和所述当前用户文本序列进行存储，若否，则将上一轮子领域类型输出。举例说明：若当前用户文本序列为“红烧肉如何做”，经过判断当前与模板数据库中的预存用户问句模板不匹配，则将“红烧肉如何做”进行分词、去停用词处理，得到“(红烧肉、如何、做)”，“(红烧肉、如何、做)”为第二关键词集合，通过预设词向量模型将所述第二关键词集合转换成((0.15，0.25，0.78)，(0.34，0.53,0.12),(0.23,0.87,0.46))，将((0.15，0.25，0.78)，(0.34，0.53,0.12),(0.23,0.87,0.46))发送至预设神经网络模型中，得到((0,0.7),(1,0.15),(2,0.15))，其中0、1、2代表目标子领域，其中0代表菜谱领域，1代表厨电控制领域，2代表无关领域，0.7、0.15均表示目标概率；则根据上述目标概率判断，“(红烧肉、如何、做)”属于菜谱领域的概率较大，则将菜谱领域作为子领域类型输出。

本实施例中还提供了一种电子设备，一种电子设备，包括：处理器；

本实施例中还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行本申请的一种智能语音交互方法。

本实施例中还提供了一种智能语音交互系统，包括：

在本实施例中，所述用于将所述当前用户文本序列进行分类并输出第二分类结果具体为：将所述当前用户文本序列输入至预设子领域分类器中进行分类，预设领域分类器判断当前用户文本序列是否与预存子领域相关，若是，则输出对应的子领域类型，将所述子领域类型进行存储，若否，则将上一轮子领域类型输出，所述上一轮子领域类型为预设子领域分类器在对所述当前用户文本序列之前的在先用户文本序列进行分类后存储的子领域类型；还包括会话管理模块用于将所述子领域类型和所述当前用户文本序列进行存储。所述语音转文字模块包括唤醒子模块，所述唤醒子模块用于根据预设语音序列控制所述语音转文字模块从休眠状态进入工作状态。

本发明的一种智能语音交互方法，包括实时获取当前用户发出的当前音频信号；将获取到的当前用户音频信号转换成当前用户文本序列；将所述当前用户文本序列输入至预设领域分类器中进行分类，预设分类器输出第一分类结果，若所述第一分类结果为领域相关文本，则执行步骤子领域判定，若所述分类结果为领域无关文本，则返回执行步骤音频获取；将所述当前用户文本序列输入至预设子领域分类器中进行分类，预设子领域分类器输出第二分类结果，若所述第二分类结果为子领域类型时，执行步骤处理结果信息提取，若所述第二分类结果为空时，执行步骤处理结果信息提取；根据所述子领域类型在预设处理结果数据库中筛选对应处理结果文本信息；将所述处理结果文本信息转换成语音信号，并将语音信号播放给用户；通过预设分类器和预设子领域分类器对当前用户文本进行分类实现了对用户的多个任务请求作出响应，且交互过程高效精准，实现了仅通过一次唤醒，多轮交互响应多个请求的，达到“单次唤醒，连续对话”的效果。

以上，仅为本发明的较佳实施例而已，并非对本发明作任何形式上的限制；凡本行业的普通技术人员均可按说明书附图所示和以上而顺畅地实施本发明；但是,凡熟悉本专业的技术人员在不脱离本发明技术方案范围内，利用以上所揭示的技术内容而做出的些许更动、修饰与演变的等同变化，均为本发明的等效实施例；同时,凡依据本发明的实质技术对以上实施例所作的任何等同变化的更动、修饰与演变等，均仍属于本发明的技术方案的保护范围之内。

Claims

1.一种智能语音交互方法，其特征在于，包括以下步骤：

音频获取，实时获取当前用户发出的当前音频信号；

2.如权利要求1所述的一种智能语音交互方法，其特征在于：所述将所述当前用户文本序列输入至预设领域分类器中进行分类具体为：预设领域分类器将所述当前用户文本序列进行分词处理，得到含有若干关键词的关键词集合，预设领域分类器根据所述关键词集合在预设领域语料数据库中提取出对应的预设领域语料片段和预设领域类型，将所述预设领域语料片段进行分词处理，得到含有若干预设领域词汇的语料集合；根据所述关键词集合和所述语料集合计算出相似系数，当所述相似系数大于预设相似系数阈值时，则所述当前用户文本序列与预设领域类型相关，则输出第一分类结果，所述第一分类结果为领域相关文本，当所述相似系数大于预设相似系数阈值时，则所述当前用户文本序列与预设领域类型无关，则输出第一分类结果，此时所述第一分类结果为领域无关文本，且返回执行步骤音频获取。

3.如权利要求2所述的一种智能语音交互方法，其特征在于：所述根据所述关键词集合和所述语料集合计算出相似系数具体如以下公式所示：

4.如权利要求1所述的一种智能语音交互方法，其特征在于：所述子领域判定具体为：将所述当前用户文本序列输入至预设子领域分类器中进行分类，预设领域分类器判断当前用户文本序列是否与预存子领域相关，若是，则输出对应的子领域类型，将所述子领域类型和所述当前用户文本序列进行存储，若否，则将上一轮子领域类型输出。

5.如权利要求4所述的一种智能语音交互方法，其特征在于：所述预设领域分类器判断当前用户文本序列是否与预存子领域相关具体为：判断当前用户文本序列是否与模板数据库中的预存用户问句模板匹配，若匹配，则预存用户问句模板对应的子领域类型作为第二分类结果输出，若不匹配，则对所述当前用户文本序列进行分词、去停用词处理，得到含有第二关键词的第二关键词集合，通过预设词向量模型将所述第二关键词集合转换成词向量序列，将所述词向量序列发送至预设神经网络模型中，预设神经网络模型输出分类结果，当所述分类结果包括若干目标子领域类型和若干目标概率，每个目标子领域类型与唯一的目标概率对应，选取数字最大的目标概率对应的目标子领域类型作为子领域类型，并将所述子领域类型作为第二分类结果输出。

6.一种电子设备，其特征在于包括：处理器；

存储器；以及程序，其中所述程序被存储在所述存储器中，并且被配置成由处理器执行，所述程序包括用于执行权利要求1-5任意一项所述的方法。

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行如权利要求1-5任意一项所述的方法。

8.一种智能语音交互系统，其特征在于，包括：

9.如权利要求8所述的一种智能语音交互系统，其特征在于：所述用于将所述当前用户文本序列进行分类并输出第二分类结果具体为：将所述当前用户文本序列输入至预设子领域分类器中进行分类，预设领域分类器判断当前用户文本序列是否与预存子领域相关，若是，则输出对应的子领域类型，将所述子领域类型进行存储，若否，则将上一轮子领域类型输出，所述上一轮子领域类型为预设子领域分类器在对所述当前用户文本序列之前的在先用户文本序列进行分类后存储的子领域类型；还包括会话管理模块用于将所述子领域类型和所述当前用户文本序列进行存储。

10.如权利要求8所述的一种智能语音交互系统，其特征在于：所述语音转文字模块包括唤醒子模块，所述唤醒子模块用于根据预设语音序列控制所述语音转文字模块从休眠状态进入工作状态。