CN111081219A

CN111081219A - 一种端到端的语音意图识别方法

Info

Publication number: CN111081219A
Application number: CN202010061724.2A
Authority: CN
Inventors: 司马华鹏; 汤毅平
Original assignee: Nanjing Guiji Intelligent Technology Co ltd
Current assignee: Nanjing Guiji Intelligent Technology Co ltd
Priority date: 2020-01-19
Filing date: 2020-01-19
Publication date: 2020-04-28

Abstract

本发明公开了一种端到端的语音意图识别方法，涉及语音意图识别技术领域。现有语音意图识别的应用，大多都是先通过语音识别获取文本再进行意图识别，这种基于文本的意图识别方式，其准确率严重依赖于语音识别转译文本的准确率，存在语音意图识别不准确的文图。为解决该问题，本发明技术方案要点是输入待识别语音，对其进行降噪、特征提取处理，将待识别语音转化为包含声音信息的特征向量，再将特征向量输入至语音意图识别模型，输出语音意图。其中，语音意图识别模型采用深度学习网络的预训练模型思想。本发明达到了减少语音识别造成的信息缺失，提高语音意图识别准确率的效果。

Description

一种端到端的语音意图识别方法

技术领域

本发明涉及语音意图识别的技术领域，尤其是涉及一种端到端的语音意图识别方法。

背景技术

随着人工智能技术在学术界的快速发展以及在生活中的广泛使用，语音交互成为人与机器之间沟通交流的重要桥梁。机器人系统要与用户对话并完成特定任务，其中一个核心技术是语音意图的判定，即让机器人系统在接受到用户语音后，能够通过语音判定用户的意图。

语音意图识别技术，是指对输入的语音识别出相应的意图或特征（这里的意图包括单意图、多意图、槽值、情感等多类问题），为后端特定的服务目标提供有效的支撑，高性能的语音意图识别技术，能够最大限度地保证人机对话系统正确理解用户的意图，采取相应的应答策略，使得机器人系统与用户之间的对话过程正确且流畅地进行。

现传统的意图识别方法通常分成语音识别、意图识别两个独立的阶段，在第一阶段通过语音识别技术（Automatic Speech Recognition，ASR）将语音转化成文字，第二阶段通过自然语言处理技术（Natural Language Processing，NLP）从文字中抽取文本内的语义信息，识别出用户的意图。基于文本的意图识别的准确率严重依赖于语音识别技术的准确率。

现在大多数语音意图识别的应用，都是在通过语音识别获取文本之后，使用文本信息进行后续的语义加工和处理。当语音转文本信息正确率较高时，意图识别的准确率就高；当文本信息识别率较低时，大量的有用信息在识别过程中被语音识别丢弃，导致文本信息传递的用户意图也随之丢失。

发明内容

本发明的目的是提供一种端到端的语音意图识别方法，将语音直接转换为意图，从而达到了减少语音识别造成的信息缺失，提高语音意图识别准确率的效果。

本发明的上述发明目的是通过以下技术方案得以实现的：

一种端到端的语音意图识别方法，其特征在于，包括以下步骤：

S1、输入待识别语音，用语音识别模块对其进行降噪、特征提取处理，将待识别语音转化为特征序列；

S2、将特征序列直接输入至语音意图识别模型，输出语音意图。

本发明进一步设置为：步骤S2中，语音意图识别模型包括有预训练模型和意图识别训练模型两部分，具体模型训练包括以下步骤：

S2.1、收集并截取大量包含用户意图的语音，人工标注用户语音中所包含的用户意图类别，得到大量带有意图标签的用户语音；

S2.2、将带有用户意图的语音，通过预训练模型，训练出包含语音意图特征的音素和字素；

S2.3、将带有意图标签的用户语音作为训练集，载入预训练模型，构建意图识别训练模型。

本发明进一步设置为：预训练模型的构建包括如下步骤：

a、接收声序列数据输入；

b、使用卷积神经网络提取语音特征；

c、使用循环神经网络提取音素、字素特征；

d、调整神经网络参数形成预训练模型。

1. 本发明进一步设置为：在预训练模型的基础上，语音意图识别模型的构建包括如下步骤：

a、接收包含意图标签的语音输入数据；

b、载入预先训练完成的预训练模型，导入循环神经网络中进行意图识别训练模型训练；

c、针对输入的语音数据进行模型参数的调整，完成语音意图识别模型训练。

综上所述，本发明的有益技术效果为：

1.通过将语音识别初步处理后的语音数据输入语音意图识别模型，直接转换为意图，能有效的简化语音到意图识别的构建过程，解决对齐问题，并针对语音结构和词的特性，能充分利用语音中的隐含信息，有效的提高语音意图识别的准确率；

2.通过预训练模型的构建，使用卷积神经网络提取语音特征，卷积神经网络中，一般用卷积核去提取特征，这些初始化的卷积核会在反向传播的过程中，在迭代中被一次又一次的更新，无限地逼近我们的真实语音，形成包含语音特征的特征向量集；

3.通过语音意图训练模型的构建，载入训练模型能避免文字长短不均带来的处理困难，循环神经网络可以对时间序列上的变化进行建模，能够学习到语言先后的关联关系，从而形成了音素、字素到意图的语言模型。

附图说明

图1是本发明实施例的整体流程图；

图2是本发明实施例的预训练模型构建流程图；

图3是本发明实施例的意图识别训练模型构建流程图。

具体实施方式

参照图1，本发明公开了一种端到端的语音意图识别方法，包括以下步骤：

S1、输入待识别语音，对其进行降噪、特征提取处理，将待识别语音转化为包含声音信息的特征向量；

S2、将特征向量输入至语音意图识别模型，输出语音意图。

在步骤S1中，对输入的语音的降噪、特征提取处理包括预处理过程和特征提取过程。预处理过程首先将首尾端的静音切除，降低对后续步骤造成的干扰，静音切除的操作一般称为语音端点检测(Voice Activity Detection,VAD)。然后进行声音分帧，也就是把声音切开成一小段一小段，每小段称为一帧，使用移动窗函数来实现，各帧之间保留有交叠部分。特征处理过程主要的算法有线性预测倒谱系数(Linear Prediction CepstrumCoefficient,LPCC)和梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)，目的是把每一帧波形变成一个包含声音信息的多维向量。

在步骤S2中，语音意图识别模型通过对语音数据进行训练获得，采用深度学习网络的预训练模型思想，主要包含预训练模型和意图识别训练模型两部分，具体模型训练包括以下步骤：

其中，预训练模型的构建包括如下步骤：

a、接收声序列数据输入；

b、使用卷积神经网络提取语音特征；

c、使用循环神经网络提取音素、字素特征；

d、调整神经网络参数形成预训练模型。

预训练模型主要对语音数据进行处理，既生成声学序列的音素表示，也生成声学序列的字素表示，使用预训练模型来预测音素和字素。人工整理准备训练集合，收集并截取大量包含用户意图的语音，人工标注用户语音中所包含的用户意图类别。最终得到大量带有意图标注的用户语音作为意图判定服务的训练集合，为进一步训练作基础。

在预训练模型的基础上，语音意图识别模型的构建包括如下步骤：

a、接收包含意图标签的语音输入数据；

意图识别训练模型需要载入预训练模型，把预训练模型得到的音素和字素作为中间的目标结果，进一步来训练语音与意图的模型关联性。

本发明可以应用于包含语音交互的所有对话聊天机器人系统。

上述实施例的实施原理为：将语音直接转换为意图，从而达到了减少语音识别造成的信息缺失，提高语音意图识别准确率的效果。

本具体实施方式的实施例均为本发明的较佳实施例，并非依此限制本发明的保护范围，故：凡依本发明的结构、形状、原理所做的等效变化，均应涵盖于本发明的保护范围之内。

Claims

1.一种端到端的语音意图识别方法，其特征在于，包括以下步骤：

S2、将特征向量输入至语音意图识别模型，输出语音意图。

步骤S2中，语音意图识别模型包括有预训练模型和意图识别训练模型两部分，具体模型训练包括以下步骤：

预训练模型的构建包括如下步骤：

a、接收声序列数据输入；

b、使用卷积神经网络提取语音特征；

c、使用循环神经网络提取音素、字素特征；

d、调整神经网络参数形成预训练模型。

2.根据权利要求1所述的一种端到端的语音意图识别方法，其特征在于：在预训练模型的基础上，语音意图识别模型的构建包括如下步骤：

a、接收包含意图标签的语音输入数据；