CN112581963B

CN112581963B - 一种语音意图识别方法及系统

Info

Publication number: CN112581963B
Application number: CN202011318591.9A
Authority: CN
Inventors: 李海洲; 肖龙源; 李稀敏; 廖斌
Original assignee: Xiamen Kuaishangtong Technology Co Ltd
Current assignee: Xiamen Kuaishangtong Technology Co Ltd
Priority date: 2020-11-23
Filing date: 2020-11-23
Publication date: 2024-02-20
Anticipated expiration: 2040-11-23
Also published as: CN112581963A

Abstract

本发明公开了一种语音意图识别方法及系统。该系统包括语音采集模块，用于采集待识别语音；特征提取模块，用于根据待识别语音提取文本特征向量、韵律特征向量和意图类别特征向量；特征融合模块，用于将文本特征向量、韵律特征向量和意图类别特征向量进行特征融合，得到意图特征向量；以及根据意图特征向量计算出用户意图。本发明基于深度学习技术从待识别语音中获得声学和语言信息，结合声学特征中的韵律表示，最终实现稳定准确的用户意图预测。

Description

一种语音意图识别方法及系统

技术领域

本发明涉及语音识别技术领域，特别是一种语音意图识别方法及系统。

背景技术

随着智能设备中语音操作界面的日益普及，语音交互成为人与机器之间沟通交流的重要桥梁。语音意图识别技术则是实现语音交互的关键技术之一。语音意图识别技术，是指机器根据输入的语音推断其含义或意图，来决定响应的内容。

现有的语音意图识别系统架构由两个部分组成，第一个部分是自动语音识别模块，用于将输入的语音解码为文本转录，第二个部分是自然语言理解模块，用于将意图分类为自动语音识别的输出文本。

但现有的语音意图识别系统存在一定局限性：只考虑语音中的音素信息，因此无法准确地推断出说话人的意图。

发明内容

本发明为解决上述问题，提供了一种语音意图识别方法及系统，基于深度学习技术从待识别语音中获得声学和语言信息，结合声学特征中的韵律表示，最终实现稳定准确的用户意图预测。

为实现上述目的，本发明采用的技术方案为：

一种语音意图识别系统，包括：语音采集模块，用于采集待识别语音；特征提取模块，用于根据所述待识别语音提取文本特征向量、韵律特征向量和意图类别特征向量，所述韵律特征向量包括表征语音中音长、音强和音高方面变化的向量中的一种或多种；特征融合模块，用于将所述文本特征向量、所述韵律特征向量和所述意图类别特征向量进行特征融合，得到意图特征向量；以及根据所述意图特征向量计算出用户意图。

优选的，所述待识别语音包括一个以上语种的语音。

优选的，所述待识别语音输入前经过降噪和序列提取处理，所述序列提取处理提取的语音特征序列为MFCC特征序列或FBANK特征序列。

优选的，所述特征提取模块包括：语音识别模型，所述语音识别模型输入所述待识别语音，输出所述文本特征向量；语音韵律模型，所述语音韵律模型输入所述待识别语音，输出所述韵律特征向量；语音分类模型，所述语音分类模型输入所述待识别语音，输出所述意图类别特征向量。

优选的，所述语音识别模型为循环神经网络模型，所述循环神经网络模型为Listen,Attend and Spell模型；所述语音韵律模型为卷积神经网络模型，所述卷积神经网络模型包含3×3卷积核和1×1卷积核；所述语音识别模型为卷积神经网络模型，所述卷积神经网络模型包含3×3卷积核和1×1卷积核。

优选的，所述语音识别模型的构建方法包括以下步骤：收集并截取包含用户意图的用户语音，人工标注得到带有文本标签、韵律标签和意图标签的训练语音；将所述训练语音转化为训练语音特征序列，输入待训练的所述语音识别模型；根据所述训练语音特征序列提取文本特征向量；根据所述文本特征向量输出音素和字素；根据所述音素、所述字素和所述文本标签调整所述语音识别模型的模型参数，完成所述语音识别模型的训练；

优选的，所述语音韵律模型的构建方法包括以下步骤：将所述训练语音特征序列输入待训练的所述语音韵律模型；根据所述训练语音特征序列提取韵律特征向量；根据所述韵律特征向量输出韵律标注；根据所述韵律标注和所述韵律标签调整所述语音韵律模型的模型参数，完成所述语音韵律模型的训练；

优选的，所述语音分类模型的构建方法包括以下步骤：将所述训练语音特征序列输入待训练的所述语音意图分类模型；根据所述训练语音特征序列提取意图类别特征向量；根据所述意图类别特征向量输出意图类别；根据所述意图类别和所述意图标签调整所述语音分类模型的模型参数，完成所述语音分类模型的训练；

优选的，所述特征融合网络的构建方法包括以下步骤：将所述训练语音特征序列分别输入已经训练好的所述语音识别模型、所述语音韵律模型和所述语音意图分类模型，分别得到训练文本特征向量、训练韵律特征向量和训练意图类别特征向量；将所述训练文本特征向量、所述训练韵律特征向量和所述训练意图类别特征向量输入待训练的特征融合网络；根据所述训练文本特征向量、所述训练韵律特征向量和所述训练意图类别特征向量提取意图特征向量；根据所述意图特征向量输出训练意图；根据所述训练意图和所述意图标签调整所述特征融合网络的模型参数，完成所述特征融合网络的训练。

基于同样的发明构思，本发明还提供了一种语音意图识别方法，包括以下步骤：将所述待识别语音输入已经训练好的语音意图识别系统；根据所述待识别语音得到文本特征向量、韵律特征向量和意图类别特征向量；将所述文本特征向量、所述韵律特征向量和所述意图类别特征向量进行特征融合，得到意图特征向量；根据意图特征向量计算出用户意图。

本发明的有益效果是：

(1)能够基于深度学习技术提取语音中的韵律信息，针对语音结构和词的特性，能充分利用语音中的隐含信息，提高语音意图的识别性能；

(2)能够兼容多种不同语言的输入，应用性和商业价值高；

(3)对待识别语音进行降噪处理后再进行语音意图的识别，降低待识别语音采集时环境对自动语音识别性能的影响。

附图说明

图1为实施例一所提供的语音识别模型、语音韵律模型和语音意图分类模型的构建方法的流程图；

图2为实施例二所提供的语音意图识别方法的流程图。

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白，以下结合具体实施例对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

在有些语言中，言语韵律更能说明话语的含义。

在语言学中，韵律是音节或较大语音单位的属性。语音中包含除音质特征之外的音长、音强和音高方面的变化，即语言应用中的抑扬顿挫的现象为韵律特征。

韵律特征可以反映一段话语中未通过词汇或语法编码的其他元素，例如：说话人的情绪状态、话语形式(陈述，疑问或命令)、表达方式(讽刺、强调等)。韵律特征为对比性特征，在音位层次上表现为长短音，在音节层次上表现为声调，在音节组合层次上表现为轻重音，在语句层次上表现为语调。

本实施例在现有技术的基础，加入语音中的韵律信息作为推断说话人的意图的考虑因素，具体为根据待识别语音提取韵律特征向量。韵律特征向量包含有如长短音、声调、轻重音、语调等特征信息，能够有效帮助语音意图识别系统识别说话人的意图。语音意图识别系统通过特征融合得到的特征向量计算用户意图，而韵律特征向量作为其中一个进行特征融合的特征向量。

实施例一

本实施例提供一种语音意图识别系统，用于预测用户意图。

该系统包括语音采集模块，用于采集待识别语音。语音采集模块对待识别语音进行降噪和序列提取处理，转化为待识别语音特征序列。

现有的语音意图识别系统还存在另一个局限性：自动语音识别的性能在很大程度上受到环境影响，尤其是在嘈杂条件下，容易导致错误的转录，进而影响自然语言理解模块的性能。如果自然语言理解模块的训练和测试条件之间存在明显的不匹配，最终会限制语音意图识别系统的性能。本实施例的降噪处理包含去噪声、去混响等操作，降低环境对系统的影响。

序列提取处理指从降噪处理后的训练语音中提取出包含声音信息的训练语音特征序列的操作。在本实施例中，语音特征序列为MFCC特征序列。在其他实施例中，也可以使用FBANK特征序列作为模型的输入。

FBANK特征序列一般的提取步骤包括：预加重、分帧、加窗、短时傅里叶变换(STFT)、Mel滤波、去均值等。FBank特征序列已经很贴近人耳的响应特性，但是存在有以下不足：FBank特征序列相邻的特征高度相关(相邻滤波器组有重叠)。

对FBANK特征序列做离散余弦变换(discrete cosine transform，DCT)，即可获得MFCC特征序列。DCT是傅里叶变换的一个变种，好处是经过DCT后结果是实数，没有虚部。DCT还有一个特点是，对于一般的语音信号，结果的前几个系数特别大，后面的系数比较小，可以忽略。实际中，一般仅保留前12～20个作为MFCC系数，这就进一步压缩了数据。DCT的实质是去除各维信号之间的相关性，将信号映射到低维空间。因此，MFCC特征序列具有更好的判别度。

待识别语音可以为跨语种的语音，即包括一个以上语种的语音。所述语种不仅包含不同国家的语音，还包括不同地区的口音和方言。

现有的语音意图识别系统往往只针对单一语言，考虑到当下多语言交流的实际背景，本实施例使用跨语种的语音训练模型，可以提高最终得到的语音意图识别系统的应用性和推广性。

该系统还包括特征提取模块，用于根据待识别语音提取文本特征向量、韵律特征向量和意图类别特征向量。

语音采集模块将待识别语音特征序列传输到特征提取模块。

特征提取模块包括语音识别模型、语音韵律模型、语音意图分类模型。待识别语音特征序列分别输入语音识别模型、语音韵律模型和语音分类模型，得到文本特征向量、韵律特征向量和意图类别特征向量。

在本实施例中，语音识别模型使用循环神经网络模型。具体为Listen,Attend andSpell模型，采用三层512节点BLSTM编码器及两层512节点LSTM解码器的encoder-decoder结构，其编码器与解码器之间使用注意力机制进行连接。

循环神经网络模型由于其结构，处理数据时能够考虑到数据内的序列关系，即序列的当前输出与之前时刻的输出是相关的，尤其适合处理语音这种时序序列，特别是应用于下文与之前的内容有极大关联性的语音识别任务。模型中的注意力机制能够自动计算编码器与解码器输出之间的相关性，根据相关性对于不同输入赋予不同的权重，增强模型的性能。

在本实施例中，使用语音及其文字标签和预训练语音识别模型，训练出能够识别跨语种的音素和字素的模型。

在本实施例中，使用预训练语音识别模型、预训练语音韵律模型和预训练语音意图分类模型进行训练，即这些模型在训练前就已经具有一定的相应功能，训练时对模型参数进行调整，使用预训练模型可以节省大量的时间和计算资源。

语音识别模型的具体的构建方法包括以下步骤：

第一步，收集并截取大量包含用户意图的语音，人工标注用户语音中包含的文本信息、韵律信息以及用户意图类别，得到大量带有文本、韵律和意图标签的用户语音，作为语音识别模型的训练语音。

文本标签即为每一段训练语音的转写文本。韵律标签为根据训练语音的韵律信息在对应的转写文本上进行的韵律标注。意图标签为对训练语音进行用户意图类别的划分。

其中，训练语音为跨语种的语音。

所述训练语音同样也作为语音韵律模型和语音意图分类模型的训练语音。

训练语音选取无环境音的语音，无需进行降噪处理。

第二步，将训练语音进行序列提取处理，转化为训练语音特征序列，输入待训练的预训练语音识别模型。

第三步，根据训练语音特征序列提取训练文本特征向量。

第四步，根据训练文本特征向量输出音素和字素。

第五步，根据音素、字素和文本标签调整预训练语音识别模型的模型参数，完成语音识别模型的训练。

语音韵律模型使用卷积神经网络模型。该卷积神经网络模型包含卷积层、池化层、ReLu激活函数和全连接层。模型由五个block组成：

block1包含一层5×5卷积层(ReLu)、一层3×3卷积层(ReLu)及一层2×2最大池化层；

block2包含两层3×3卷积层(ReLu)及一层2×2最大池化层；

block3包含四层3×3卷积层(ReLu)及一层2×2最大池化层；

block4包含一层3×3卷积层(ReLu)及一层1×1卷积层；

block5包含一层1×1卷积层(ReLu)及全连接层。

卷积神经网络模型由于其独特属性，能够有效捕获输入音频特征的频谱特性。模型使用3×3卷积核和1×1卷积核。3×3卷积核能够大幅度减少模型的参数数量，1×1卷积核能够在不改变感受野的情况下，通过ReLu非线性激活函数，增加模型的非线性特性。而且使用较深的网络层数，增大网络的特征提取能力

本实施例利用相同的训练语音及其韵律标签和预训练语音韵律模型，训练出能够描述跨语种的韵律自动标注模型。语音韵律模型的具体的构建方法包括以下步骤：

第一步，将预训练语音识别模型的训练语音特征序列输入待训练的韵律识别模型。

第二步，根据训练语音特征序列提取训练韵律特征向量。

第三步，根据训练韵律特征向量输出韵律标注。

第四步，根据韵律标注和韵律标签调整语音韵律模型的模型参数，完成语音韵律模型的训练。

语音意图分类模型使用卷积神经网络模型。与语音韵律模型相同，该卷积神经网络模型包含卷积层、池化层、ReLu激活函数和全连接层。模型由五个block组成：

block2包含两层3×3卷积层(ReLu)及一层2×2最大池化层；

block3包含四层3×3卷积层(ReLu)及一层2×2最大池化层；

block4包含一层3×3卷积层(ReLu)及一层1×1卷积层；

block5包含一层1×1卷积层(ReLu)及全连接层。

本实施例利用相同的训练语音及其意图标签和预训练语音意图分类模型，训练出能够只根据用户语音进行意图分类的模型。

语音韵律模型和语音意图分类模型采用相同的神经网络结构，以及相同的训练语音输入，两个模型的区别之处在于，第一，训练时使用的预训练模型不同，因此两个预训练模型由于经过不同的预训练，模型参数已存在不同，即两个预训练模型已具有不同的功能，第二，两个预训练模型训练时使用的标签不同，分别为韵律标签和意图标签，对相应的模型的训练进行监督，进一步对相应的模型参数进行调整。

语音意图分类模型的具体的构建方法包括以下步骤：

第一步，将预训练语音识别模型的训练语音特征序列输入待训练的语音意图分类模型。

第二步，根据训练语音特征序列提取训练意图类别特征向量。

第三步，根据训练意图类别特征向量输出意图类别。

第四步，根据意图类别和意图标签调整语音意图分类模型的模型参数，完成语音意图分类模型的训练。

语音在传达的过程中包含了多维的信息。在实现本发明的过程中，发明人发现语音对应的文本信息和语音中的韵律信息都与该语音所要表达的意图具有很强的相关性。

在本实施例中，使用语音识别模型提取出待识别语音中与文本信息高度相关的部分，即文本特征向量，根据文本特征向量对该语音进行分类，预测该语音中可能包含的字或词。

在本实施例中，使用语音韵律模型提取出待识别语音中与韵律信息高度相关的部分，即韵律特征向量，根据韵律特征向量对该语音进行分类，预测该语音中可能包含的长短音、声调、轻重音、语调等。

在本实施例中，使用语音意图分类模型提取出待识别语音中与意图类别高度相关的部分，即意图类别特征向量，根据意图类别向量对该语音进行分类，预测该语音所要表达的意图可能所属的意图类别。

该系统还包括特征融合模块，用于将文本特征向量、韵律特征向量和意图类别特征向量进行特征融合，得到意图特征向量；以及根据意图特征向量计算出用户意图。

特征提取模块将文本特征向量、韵律特征向量和意图类别特征向量传输到特征融合模块。

特征融合模块包括特征融合网络。

在训练完成上述三个模型的基础上，将上述带有文字、韵律、意图标签的训练语音作为训练集，训练特征融合网络，从而实现语音意图识别系统的构建。

特征融合网络的具体构建方法包括以下步骤：

第一步，将训练语音识别模型的训练语音特征序列分别输入已经训练好的语音识别模型、语音韵律模型和语音意图分类模型，分别得到文本特征向量、韵律特征向量和意图类别特征向量。

第二步，将文本特征向量、韵律特征向量和意图类别特征向量输入待训练的特征融合网络。

第三步，根据文本特征向量、韵律特征向量和意图类别特征向量提取意图特征向量。

第四步，根据意图特征向量输出训练意图。

第五步，根据训练意图和意图标签调整特征融合网络的模型参数，完成特征融合网络的训练。

由于语音识别模型、语音韵律模型和语音意图分类模型分别孤立考察待识别语音中的某个因素对意图的影响，例如语音意图分类模型的意图分类预测过程直接输入语音特征序列，输出意图分类的预测结果，并未涉及到任何语音因素，因此上述三个模型都不鲁棒。

特征融合网络根据文本特征向量、韵律特征向量和意图类别特征向量提取出意图特征向量，意图特征向量整合了待识别语音的文本信息、韵律信息和用户意图类别，即综合考虑了上述三个与用户意图具有很强相关性的因素。

根据意图特征向量可以计算出待识别语音可能所要表达的每个意图的离散概率分布，将概率最大的意图作为系统预测的用户意图。

通过特征融合处理，可以使预测的用户意图与真实的用户意图实现稳定准确的匹配。

本实施例提供的语音意图识别系统使用端到端构架进行语音采集，能够基于输入的语音数据，经过初步处理(降噪处理和序列提取处理)后进行意图识别，直接输出预测结果，有效简化了用户语音到意图的识别过程。

本实施例提供的语音意图识别系统能够基于深度学习技术提取语音中的韵律信息，针对语音结构和词的特性，能充分利用语音中的隐含信息，为识别语音意图提供重要线索与有效信息源，尤其是对于英语、西班牙语之类具有独特语调模式的语种，能够有效提高语音意图的识别性能。

本实施例提供的语音意图识别系统能够兼容多种不同语言的输入，在国际化以及日常语言多元化的趋势下，跨语种能够有效提高语音意图识别系统的应用性和商业价值。

实施例二

本实施例提供一种语音意图识别系统，包括语音采集模块和语音意图识别模块。

本实施例的语音采集模块和实施例一中的相同，用于采集待识别语音，以及对待识别语音进行降噪和序列提取处理，转化为待识别语音特征序列。

语音采集模块将待识别语音特征序列传输到语音意图识别模块。

本实施例的语音意图识别模块，用于根据待识别语音提取文本特征向量、韵律特征向量和意图类别特征向量；将文本特征向量、韵律特征向量和意图类别特征向量进行特征融合，得到意图特征向量；以及根据意图特征向量计算出用户意图。

本实施例的系统与实施例一所述的系统的区别在于：实施例一所述的系统在特征提取模块上装载有语音识别模型、语音韵律模型和语音意图分类模型，以及在特征融合模块上装载有特征融合网络。

本实施例的系统语音意图识别系统只包括一个包含多级网络结构的神经网络模型，也即将实施例一所述的所有模型的功能整合在一个模型中。该模型装载在语音意图识别模块上。

待识别语音特征序列输入该模型后，该模型首先根据待识别语音特征序列同时提取得到文本特征向量、韵律特征向量和意图类别特征向量，然后将上述三个特征向量进行特征融合，得到意图特征向量。

意图识别模块根据意图特征向量计算出概率最大的意图，作为用户意图。

实施例三

本实施例提供一种语音意图识别方法，包括以下步骤：

第一步，对待识别语音进行降噪和序列提取处理，转化为待识别语音特征序列。待识别语音可以为跨语种的语音。

第二步，将待识别语音特征序列输入已经训练好的语音意图识别系统。

该语音意图识别系统为实施例一中所述的系统，包括语音采集模块，特征提取模块，装载有语音识别模型、语音韵律模型和语音意图分类模型，特征融合模块，装载有特征融合网络。

第三步，语音识别模型根据待识别语音特征序列得到文本特征向量。语音意图分类模型根据待识别语音特征序列得到韵律特征向量。语音意图分类模型根据待识别语音特征序列得到意图类别特征向量。

第四步，特征融合网络将文本特征向量、韵律特征向量和意图类别特征向量进行特征融合，得到意图特征向量。

第五步，根据意图特征向量计算出概率最大的意图，作为用户意图。

本方法可以从待识别语音中获得声学和语言信息，结合声学特征中的韵律表示，最终实现稳定准确的用户意图预测。

本领域技术人员可以理解，实现上述音频数据识别方法实施例中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

实施例四

本实施例提供一种语音意图识别装置，应用于智能音箱。

该装置安装有实施例一所述的系统。该系统包括语音采集模块、特征提取模块和特征融合模块。

用户说出的语音指令，即输出相应的控制智能音箱操作的意图，本实施例所述的语音意图识别装置对该语音指令进行意图识别。

语音采集模块通过麦克风等外设设备采集待识别语音，并对待识别语音进行降噪和序列提取处理，转化为待识别语音特征序列。

语音采集模块将待识别语音特征序列传输到特征提取模块，提取出文本特征向量、韵律特征向量和意图类别特征向量。

特征提取模块将上述三个特征向量传输到特征融合模块，提取出意图特征向量。

特征融合模块根据意图特征向量计算出用户意图，并输出到本实施例所述的智能音箱的控制系统。

该智能音箱可以利用语音意图识别装置的语音意图识别功能判断用户的暂停、播放、下一首、上一首等意图，并根据用户意图做出相应的响应，实现用户对该智能音箱的语音控制。

本实施例所述的语音意图识别装置可以应用于所有包含语音操作的对话交互系统。例如，还可以应用于客服中心的电话转接系统，通过接收的客户的电话语音判断客户需要的服务，实现自动转接。

上述说明示出并描述了本发明的优选实施例，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文发明构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种语音意图识别系统，其特征在于，包括：

语音采集模块，用于采集待识别语音；所述待识别语音包括一个以上语种的语音；

特征提取模块，用于根据所述待识别语音提取文本特征向量、韵律特征向量和意图类别特征向量，所述韵律特征向量包括表征语音中音长、音强和音高方面变化的向量中的一种或多种；

特征融合模块，用于将所述文本特征向量、所述韵律特征向量和所述意图类别特征向量进行特征融合，得到意图特征向量；以及根据所述意图特征向量计算出用户意图；

所述特征提取模块包括：

语音识别模型，所述语音识别模型输入所述待识别语音，输出所述文本特征向量；

语音韵律模型，所述语音韵律模型输入所述待识别语音，输出所述韵律特征向量；

语音意图分类模型，所述语音意图分类模型输入所述待识别语音，输出所述意图类别特征向量；

所述语音识别模型的构建方法包括以下步骤：

收集并截取包含用户意图的用户语音，人工标注得到带有文本标签、韵律标签和意图标签的训练语音；

将所述训练语音转化为训练语音特征序列，输入待训练的所述语音识别模型；

根据所述训练语音特征序列提取训练文本特征向量；

根据所述训练文本特征向量输出音素和字素；

根据所述音素、所述字素和所述文本标签调整所述语音识别模型的模型参数，完成所述语音识别模型的训练；

所述语音韵律模型的构建方法包括以下步骤：

将所述训练语音特征序列输入待训练的所述语音韵律模型；

根据所述训练语音特征序列提取训练韵律特征向量；

根据所述训练韵律特征向量输出韵律标注；

根据所述韵律标注和所述韵律标签调整所述语音韵律模型的模型参数，完成所述语音韵律模型的训练；

所述语音意图分类模型的构建方法包括以下步骤：

将所述训练语音特征序列输入待训练的所述语音意图分类模型；

根据所述训练语音特征序列提取训练意图类别特征向量；

根据所述训练意图类别特征向量输出意图类别；

根据所述意图类别和所述意图标签调整所述语音意图分类模型的模型参数，完成所述语音意图分类模型的训练；

特征融合网络的构建方法包括以下步骤：

将所述训练语音特征序列分别输入已经训练好的所述语音识别模型、所述语音韵律模型和所述语音意图分类模型，分别得到所述训练文本特征向量、所述训练韵律特征向量和所述训练意图类别特征向量；

将所述训练文本特征向量、所述训练韵律特征向量和所述训练意图类别特征向量输入待训练的特征融合网络；

根据所述训练文本特征向量、所述训练韵律特征向量和所述训练意图类别特征向量提取意图特征向量；

根据所述意图特征向量输出训练意图；

根据所述训练意图和所述意图标签调整所述特征融合网络的模型参数，完成所述特征融合网络的训练。

2.根据权利要求1所述的语音意图识别系统，其特征在于，所述待识别语音输入前经过降噪和序列提取处理，所述序列提取处理提取的语音特征序列为MFCC特征序列或FBANK特征序列。

3.根据权利要求1所述的语音意图识别系统，其特征在于，所述语音识别模型为循环神经网络模型，所述循环神经网络模型为Listen，Attend 和Spell模型；所述语音韵律模型为卷积神经网络模型，所述卷积神经网络模型包含3×3卷积核和1×1卷积核；所述语音识别模型为卷积神经网络模型，所述卷积神经网络模型包含3×3卷积核和1×1卷积核。

4.一种语音意图识别方法，其特征在于，包括以下步骤：

将待识别语音输入已经训练好的语音意图识别系统；所述待识别语音包括一个以上语种的语音；

根据所述待识别语音得到文本特征向量、韵律特征向量和意图类别特征向量；

将所述文本特征向量、所述韵律特征向量和所述意图类别特征向量进行特征融合，得到意图特征向量；

根据意图特征向量计算出用户意图；

特征提取包括：