CN108492824A

CN108492824A - 一种ai智能式的语音交互方法

Info

Publication number: CN108492824A
Application number: CN201810185769.3A
Authority: CN
Inventors: 王亚光
Original assignee: Zhuhai Sino Guangdong Communication Technology Co Ltd
Current assignee: Zhuhai Sino Guangdong Communication Technology Co Ltd
Priority date: 2018-03-07
Filing date: 2018-03-07
Publication date: 2018-09-04

Abstract

本发明公开了一种AI智能式的语音交互方法，包括：该方法包括如下步骤：S1、接收语音数据；对所述语音数据进行语音识别，得到语音识别结果；S2、根据预先构建的基于语义层面的判断模型对所述语音识别结果进行判断，得到模型输出结果；S3、根据所述模型输出结果确定所述语音数据是否为人机交互语音数据；如果是，则对所述语音识别结果进行语义理解，根据语义理解结果生成交互结果，所述交互结果包括响应文本。该方法能够有效地确定所述语音数据是否为人机交互语音数据，有效地减少了噪声语音数据对人机交互的影响，降低了人机交互系统的误响应。

Description

一种AI智能式的语音交互方法

技术领域

本发明涉及一种语音交互方法的技术领域，尤其是一种AI智能式的语音交互方法。

背景技术

近年来，随着人工智能技术的迅猛发展，语音识别、语义理解、语音合成等技术也随之进入了实用水平。人们越来越来渴望可以自然便捷地与机器进行交流，从传统的一问一答的语音交互系统到目前较流行的多轮问答的语音交互系统，AI交互越来越接近人人交互，在用户体验上有了很大的提升。然而由于实际的交互环境复杂多变，经常会有各种噪声语音的输入，引起交互系统的误响应。为了防止这种情况的出现，现有交互系统一般采用提示语机制，即在接收语音数据后，先进行提示语识别，识别到提示语后，机器被唤醒，然后再进行后续交互。

然而，由于在实际语音交互时，交互环境经常是复杂多变的，现有系统并不能防止交互过程中噪声的输入；在语音交互过程中，机器接收的语音数据经常会存在噪声，如背景噪声、机器自身的播报声、非交互语音(如人人交谈的语音)等，都会对交互过程产生影响，干扰交互系统，导致机器的误响应，尤其是人人交谈的语音，现有系统无法判断当前人人交谈的语音数据是否是交互语音数据，从而在很大程度上引起机器的误响应，增加了系统负载，降低了用户体验。

发明内容

本发明的目的是为了解决上述现有技术的不足而提供一种AI智能式的语音交互方法。

为了实现上述目的，本发明所设计的一种AI智能式的语音交互方法，该方法包括如下步骤：

S1、接收语音数据；对所述语音数据进行语音识别，得到语音识别结果；

S2、根据预先构建的基于语义层面的判断模型对所述语音识别结果进行判断，得到模型输出结果；

S3、根据所述模型输出结果确定所述语音数据是否为人机交互语音数据；如果是，则对所述语音识别结果进行语义理解，根据语义理解结果生成交互结果，所述交互结果包括响应文本。

进一步，在步骤S1中的语音识别的数据识别方法是：在识别过程中预先隔离噪音以及杂音。

进一步，所述方法还包括：按以下方式构建判断模型：确定判断模型拓扑结构；收集大量人机交互语音数据及其对应的语音识别文本；对所述语音识别文本中用户提问或回答语句文本进行分词，并以单轮回答或提问为单位，获取分词词串；提取所述分词词串中各词的语义特征，并标注判断结果；基于所述人机交互语音数据及其标注信息和分词词串中各词的语义特征，训练得到判断模型。

进一步，所述模型拓扑结构采用RNN模型，包括输入层、中间隐层和输出层；所述输入层的输入包括：语音识别文本包含每个词的语义特征；所述输出层的输出包括：判断结果。

进一步，所述输入层的输入还包括：语音识别文本的对话历史状态特征，所述对话历史状态特征包括：上一轮交互的响应文本信息，及上一轮交互语音识别文本对信息槽的填充情况。

进一步，在对所述语音数据进行语音识别之前，对所述语音数据进行提示语检测；如果检测到提示语，则执行对所述语音数据进行语音识别的步骤；如果未检测到提示语，则判断接收的语音数据与上次用户交互的时间间隔是否超过预设时间；如果否，则执行对所述语音数据进行语音识别的步骤。

本发明得到的一种AI智能式的语音交互方法，能够有效地确定所述语音数据是否为人机交互语音数据，有效地减少了噪声语音数据对人机交互的影响，降低了人机交互系统的误响应。

具体实施方式

下面结合实施例对发明创造作进一步说明。

实施例1：

本实施例提供的一种AI智能式的语音交互方法，该方法包括如下步骤：

进一步，所在步骤S1中的语音识别的数据识别方法是：在识别过程中预先隔离噪音以及杂音。

进一步，所述方法还包括：按以下方式构建判断模型：确定判断模型拓扑结构；收集大量人机交互语音数据及其对应的语音识别文本；对所述语音识别文本中用户提问或回答语句文本进行分词，并以单轮回答或提问为单位，获取分词词串；提取所述分词词串中各词的语义特征，并标注判断结果；基于所述人机交互语音数据及其标注信息和分词词串中各词的语义特征，训练得到判断模型

进一步，所在对所述语音数据进行语音识别之前，对所述语音数据进行提示语检测；如果检测到提示语，则执行对所述语音数据进行语音识别的步骤；如果未检测到提示语，则判断接收的语音数据与上次用户交互的时间间隔是否超过预设时间；如果否，则执行对所述语音数据进行语音识别的步骤。

Claims

1.一种AI智能式的语音交互方法，其特征在于，该方法包括如下步骤：

2.根据权利要求 1 所述的一种AI智能式的语音交互方法，其特征在于，在步骤S1中的语音识别的数据识别方法是：在识别过程中预先隔离噪音以及杂音。

3.根据权利要求 2所述的一种AI智能式的语音交互方法，其特征在于，所述方法还包括：按以下方式构建判断模型：确定判断模型拓扑结构；收集大量人机交互语音数据及其对应的语音识别文本；对所述语音识别文本中用户提问或回答语句文本进行分词，并以单轮回答或提问为单位，获取分词词串；提取所述分词词串中各词的语义特征，并标注判断结果；基于所述人机交互语音数据及其标注信息和分词词串中各词的语义特征，训练得到判断模型。

4.根据权利要求 3所述的一种AI智能式的语音交互方法，其特征在于，所述模型拓扑结构采用RNN模型，包括输入层、中间隐层和输出层；所述输入层的输入包括：语音识别文本包含每个词的语义特征；所述输出层的输出包括：判断结果。

5.根据权利要求 4所述的一种AI智能式的语音交互方法，其特征在于，所述输入层的输入还包括：语音识别文本的对话历史状态特征，所述对话历史状态特征包括：上一轮交互的响应文本信息，及上一轮交互语音识别文本对信息槽的填充情况。

6.根据权利要求5所述的一种AI智能式的语音交互方法，其特征在于，在对所述语音数据进行语音识别之前，对所述语音数据进行提示语检测；如果检测到提示语，则执行对所述语音数据进行语音识别的步骤；如果未检测到提示语，则判断接收的语音数据与上次用户交互的时间间隔是否超过预设时间；如果否，则执行对所述语音数据进行语音识别的步骤。