CN111581968A

CN111581968A - 口语理解模型的训练方法、识别方法、系统、设备及介质

Info

Publication number: CN111581968A
Application number: CN202010378089.0A
Authority: CN
Inventors: 杨森; 罗超; 吉聪睿; 李巍; 胡泓
Original assignee: Ctrip Computer Technology Shanghai Co Ltd
Current assignee: Ctrip Computer Technology Shanghai Co Ltd
Priority date: 2020-05-07
Filing date: 2020-05-07
Publication date: 2020-08-25

Abstract

本发明公开了一种口语理解模型的训练方法、识别方法、系统、设备及介质，该训练方法包括：获取若干历史口语语句分别对应的文本语句；标注每一文本语句中的第一信息，第一信息包括用于表征文本语句中目的的标记目的信息以及存放标记目的信息对应槽位的标记槽位信息；获取每一文本语句中每一个词的词向量及每一个字的字向量；采用联合机器学习模型，根据第一信息、词向量及字向量训练以得到口语理解模型。本发明通过将历史口语语句中获取的文本语句中的词向量及字向量输入至联合机器学习模型中训练以得到口语理解模型，通过结合词的含义及字的含义，从而能够更准确的训练出口语理解模型，进一步减小口语理解的误差。

Description

口语理解模型的训练方法、识别方法、系统、设备及介质

技术领域

本发明涉及口语识别领域，特别涉及一种口语理解模型的训练方法、识别方法、系统、设备及介质。

背景技术

在口语识别中一般通过三块内容对口语进行理解，即Domain Classification(领域分类)、Intent Classification(目的分类)、Slot Filling(槽填充)三块，换句话说，在用户进行口语对话时，识别语句中的Slot Filling而后，将Intent Classification及Domain Classification填充Slot Filling，从而达到筛选语句中的有用信息，理解口语中的重要内容的目的，目前识别上述三块内容的主流的方法一般为pipe mode(管道模型)和joint model(联合模型)，pipe model指分别使用不同的模型对这三块内容进行建模，例如使用SVM(一种文本分类算法)、LR(一种文本分类算法)、DNN(一种文本分类算法)等文本分类算法来实现Domain Classification、Intent Classification，使用HMM(一种序列标注算法)、CRF(一种序列标注算法)、RNN+CRFCRF(一种序列标注算法)等序列标注算法来实现Slot Filling。但是，现有技术中的上述方案不仅没有考虑到intent(目的)和slot(槽)之间的相互关系，而且训练多个模型也不高效。

另一种主流方法是对它们进行联和建模，仅使用一个模型来进行识别。常用联和建模方法通过设计联和损失函数对intent和slot进行建模，使用gate(一种神经网络)机制来计算slot和intent的相关性从而提升slot效果，使用胶囊网络的Dynamic Routing(动态路径)来构建slot和intent之间关系，从而达到相互促进的作用。joint model同时考虑到了slot和intent之间的相互关系，效果往往优于pipe model。但是这种方法在对口语语义的理解与口语的真实语义仍然存在偏差。

发明内容

本发明要解决的技术问题是为了克服现有技术中在对话中对口语理解容易产生偏差的缺陷，提供一种能准确识别理解口语中关键信息的口语理解模型的训练方法、识别方法、系统、设备及介质。

本发明是通过下述技术方案来解决上述技术问题：

本发明提供了一种口语理解模型的训练方法，所述训练方法包括：

获取若干历史口语语句分别对应的文本语句；

标注每一所述文本语句中的第一信息，所述第一信息包括用于表征所述文本语句中目的的标记目的信息以及存放所述标记目的信息的槽位的标记槽位信息；

获取每一所述文本语句中每一个词的词向量及每一个字的字向量；

采用联合机器学习模型，根据所述第一信息、所述词向量及所述字向量训练以得到所述口语理解模型，所述联合机器学习模型包括若干机器学习模型组合成的模型。

本发明通过将历史口语语句中获取的文本语句中的词向量及字向量共同输入至联合机器学习模型中进行训练以得到口语理解模型。本实施例通过结合文本语句中的词的含义及字的含义，从而能够更准确的训练出口语理解模型，进一步减小口语理解的误差。

较佳地，所述联合机器学习模型包括Attention(一种机器学习模型)机制；

采用联合机器学习模型，根据所述第一信息、所述词向量及所述字向量训练以得到所述口语理解模型的步骤包括：

通过所述Attention机制将每一所述文本语句的每个所述字向量与每个所述词向量对齐以生成若干对齐特征信息；

根据若干所述对齐特征信息获取融合向量；

根据所述融合向量获取第二信息；

当所述联合机器学习模型输出的每一所述第二信息与对应的所述文本语句的所述第一信息相符时，则确定训练后的所述联合机器学习模型为所述口语理解模型。

本发明中，基于Attention机制对文本语句中的词向量和字向量进行对齐得到融合向量，减小了ASR(自动语音识别技术)对口语识别存在误差而给文本语句理解带来的偏差。

本发明中，通过生成融合向量可以将每一文本语句中的字的含义融入对应的词的含义中，从而识别出更准确的第二信息。

较佳地，所述联合机器学习模型还包括第一GRU(一种神经网络模型)网络与第二GRU网络；

通过所述Attention机制将每一所述文本语句的每个所述字向量与每个所述词向量对齐以生成若干对齐特征信息的步骤前还包括：

将每一所述文本语句中每一个词向量，根据所述第一GRU网络生成所述词向量在所述文本语句中的上下文向量表示；

将每一所述文本语句中每一个字向量，根据所述第二GRU网络生成所述字向量在所述文本语句中的上下文向量表示；

通过所述Attention机制将每一所述文本语句的每个所述字向量与每个所述词向量对齐以生成若干对齐特征信息的步骤包括：

通过所述词向量在所述文本语句中的上下文向量表示与所述字向量在所述文本语句中的上下文向量表示对齐以生成若干对齐特征信息；

和/或，

所述联合机器学习模型还包括第三GRU网络；

根据若干所述对齐特征信息获取融合向量的步骤包括：

通过所述第三GRU网络获取每一所述对齐特征信息的上下文意思表示；

根据所有所述对齐特征信息的上下文意思表示生成所述融合向量；

和/或，

所述联合机器学习模型还包括CRF模型与Softmax(一种回归分类模型)模型；

根据所述融合向量获取所述第二信息的步骤包括：

将所述融合向量输入至所述CRF模型中以获取槽位输出信息；

将所述融合向量及所述槽位目标信息输入至所述Softmax模型中以获取目的输出信息，所述第二信息包括所述目的输出信息及所述槽位输出信息；

当所述联合机器学习模型输出的每一所述第二信息与对应所述文本语句的所述第一信息相符时，则确定训练后的所述联合机器学习模型为所述口语理解模型的步骤包括：

当所述槽位输出信息与所述标记槽位信息相符且所述目的输出信息与所述标记目的信息均相符时，则确定训练后的所述机器学习模型为所述口语理解模型。

本发明中，通过GRU网络，使得融合向量中每个词以及每个字与文本语句的整体意思相关联。

本发明中，克服了现有技术中割裂槽位信息与目的信息关系的缺陷，通过在槽位输出信息的基础上进一步识别出目的输出信息，从而进一步提高了目的输出信息识别的准确度。

较佳地，所述训练方法还包括：

当所述第二信息与所述第一信息不相符时，则生成误差信息，并根据所述误差信息修改所述Attention机制中的目标参数后，执行通过所述Attention机制将每一所述文本语句的每个所述字向量与每个所述词向量对齐以生成若干对齐特征信息、根据若干所述对齐特征信息获取融合向量及根据所述融合向量获取所述第二信息的步骤，直至所述第二信息与所述第一信息相符，则确定训练后的所述联合机器学习模型为所述口语理解模型。

本发明还提供了一种口语识别方法，所述口语识别方法包括：

获取用户在对话中的当前口语语句；

将所述当前口语语句输入至如上所述的口语理解模型中以得到目标信息，所述目标信息包括目标槽位信息以及目标目的信息。

本发明中，在获取用户当前口语语句的情况下，可以根据训练出的口语理解模型中自动识别到目标目的信息。

本发明还提供了一种口语理解模型的训练系统，所述训练系统包括：文本语句获取模块、第一信息标注模块、向量获取模块及模型训练模块；

所述文本语句获取模块用于获取若干历史口语语句分别对应的文本语句；

所述第一信息标注模块用于标注每一所述文本语句中的第一信息，所述第一信息包括用于表征所述文本语句中目的的标记目的信息以及存放所述标记目的信息的槽位的标记槽位信息；

所述向量获取模块用于获取每一所述文本语句中每一个词的词向量及每一个字的字向量；

所述模型训练模块用于采用联合机器学习模型，根据所述第一信息、所述词向量及所述字向量训练以得到所述口语理解模型，所述联合机器学习模型包括若干机器学习模型组合成的模型。

较佳地，所述联合机器学习模型包括Attention机制；

所述模型训练模块包括：对齐单元、融合向量获取单元、第二信息获取单元及模型确定单元；

所述对齐单元用于通过所述Attention机制将每一所述文本语句的每个所述字向量与每个所述词向量对齐以生成若干对齐特征信息；

所述融合向量获取单元用于根据若干所述对齐特征信息获取融合向量；

所述第二信息获取单元用于根据所述融合向量获取第二信息；

所述模型确定单元用于当所述联合机器学习模型输出的每一所述第二信息与对应的所述文本语句的所述第一信息相符时，则确定训练后的所述联合机器学习模型为所述口语理解模型。

较佳地，所述联合机器学习模型还包括第一GRU网络与第二GRU网络；

所述训练模块还包括：第一上下文向量生成单元及第二上下文向量生成单元；

所述第一上下文向量生成单元用于将每一所述文本语句中每一个词向量，根据所述第一GRU网络生成所述词向量在所述文本语句中的上下文向量表示；

所述第二上下文向量生成单元用于将每一所述文本语句中每一个字向量，根据所述第二GRU网络生成所述字向量在所述文本语句中的上下文向量表示；

所述对齐单元还用于通过所述词向量在所述文本语句中的上下文向量表示与所述字向量在所述文本语句中的上下文向量表示对齐以生成若干对齐特征信息；

和/或，

所述联合机器学习模型还包括第三GRU网络；

所述融合向量获取单元用于通过所述第三GRU网络获取每一所述对齐特征信息的上下文意思表示，并根据所有所述对齐特征信息的上下文意思表示生成所述融合向量；

和/或，

所述联合机器学习模型还包括CRF模型与Softmax模型；

所述第二信息获取单元用于将所述融合向量输入至所述CRF模型中以获取槽位输出信息且将所述融合向量及所述槽位目标信息输入至所述Softmax模型中以获取目的输出信息，所述第二信息包括所述目的输出信息及所述槽位输出信息；

所述模型确定单元用于当所述槽位输出信息与所述标记槽位信息相符且所述目的输出信息与所述标记目的信息均相符时，则确定训练后的所述机器学习模型为所述口语理解模型。

较佳地，所述模型确定单元用于当所述第二信息与所述第一信息不相符时，则生成误差信息，并根据所述误差信息修改所述Attention机制中的目标参数，并在修改所述目标参数后，调用所述对齐单元、所述融合向量获取单元、所述第二信息获取单元及所述模型确定单元直至所述模型确定单元确定所述第二信息与所述第一信息相符，则确定训练后的所述联合机器学习模型为所述口语理解模型。

本发明还提供了一种口语识别系统，所述口语识别系统包括：当前语句获取模块及目标输出模块；

所述当前语句获取模块用于获取用户在对话中的当前口语语句；

所述目标输出模块用于将所述当前口语语句输入至如上所述的口语理解模型中以得到目标信息，所述目标信息包括目标槽位信息以及目标目的信息。

本发明还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上所述的口语理解模型的训练方法或实现如上所述的口语识别方法。

本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的口语理解模型的训练方法的步骤或实现如上所述的口语识别方法的步骤。

在符合本领域常识的基础上，上述各优选条件，可任意组合，即得本发明各较佳实例。

本发明的积极进步效果在于：

本发明通过将历史口语语句中获取的文本语句中的词向量及字向量共同输入至联合机器学习模型中进行训练以得到口语理解模型。本发明通过结合文本语句中的词的含义及字的含义，从而能够更准确的训练出口语理解模型，进一步减小口语理解的误差，此外，通过对文本语句中每一词向量及每一字向量的对齐可以更准确地训练出符合文本语句意思的口语理解模型，进一步通过口语理解模型准确及时地识别用户的当前口语语句。

附图说明

图1为本发明实施例1的口语理解模型的训练方法的流程图。

图2为本发明实施例2中的步骤104的流程图。

图3为本发明实施例2的口语理解模型的训练方法的部分流程图。

图4为本发明实施例3的口语识别方法的流程图。

图5为本发明实施例4的口语理解模型的训练系统的模块示意图。

图6为本发明实施例5的训练模块的模块示意图。

图7为本发明实施例6的口语识别系统的模块示意图。

图8为本发明实施例7中的电子设备的结构示意图。

具体实施方式

下面通过实施例的方式进一步说明本发明，但并不因此将本发明限制在所述的实施例范围之中。

实施例1

本实施例提供了一种口语理解模型的训练方法，如图1所示，训练方法包括：

步骤101、获取若干历史口语语句分别对应的文本语句。

步骤102、标注每一文本语句中的第一信息。

步骤103、获取每一文本语句中每一个词的词向量及每一个字的字向量；

步骤104、采用联合机器学习模型，根据第一信息、词向量及字向量训练以得到口语理解模型。

其中，联合机器学习模型包括若干机器学习模型组合成的模型。

其中，步骤101中可以通过ASR来识别历史口语语句对应的文本语句。具体的可以以对话中用户方的单轮通话内容作为一条文本语句对应的历史口语语句来源。

其中，步骤102中可以通过人工的方式标注文本语句中的第一信息，第一信息包括用于表征文本语句中目的的标记目的信息以及存放标记目的信息的槽位的标记槽位信息，如，步骤101中获取的文本语句为：订北京到上海的酒店，步骤102中标记的标记目的信息为：订酒店，标记的标记槽位信息为：出发城市槽位：北京，到达城市槽位：上海。

其中，步骤103中分别以分词和分字的数据格式来通过预先训练好的词向量以及字向量来获取文本语句中每个词的词向量和每个字的字向量，如，可以使用200维的word2vec(一种将字词转换成向量形式的工具)词向量和字向量。

其中，步骤104中，通过联合机器学习模型以联和训练的算法根据第一信息、词向量及字向量来建模。

本实施例通过将历史口语语句中获取的文本语句中的词向量及字向量共同输入至联合机器学习模型中进行训练以得到口语理解模型。本实施例通过结合文本语句中的词的含义及字的含义，从而能够更准确的训练出口语理解模型，进一步减小口语理解的误差。

实施例2

本实施例提供了一种口语理解模型的训练方法，本实施例是对实施例1的进一步改进，具体的，联合机器学习模型包括Attention机制。

如图2所示，步骤104包括：

步骤1041、通过Attention机制将每一文本语句的每个字向量与每个词向量对齐以生成若干对齐特征信息。

步骤1042、根据若干对齐特征信息获取融合向量。

步骤1043、根据融合向量获取第二信息。

步骤1044、判断联合机器学习模型输出的每一第二信息与对应的文本语句的第一信息是否相符，若是，则执行步骤1045，若否，则执行步骤1046。

步骤1045、确定训练后的联合机器学习模型为口语理解模型。

步骤1046、生成误差信息，并根据误差信息修改Attention机制中的目标参数，返回步骤1041。

其中，步骤1041中，Attention模型可以通过下述公式将每一字向量与每一词向量对齐以生成若干对齐特征信息：

a_j,i＝tanh(u^Ts_i+v^Th_j+b)

其中，s_i表示第i个词的词向量，h_j表示第j个字的隐藏向量，u表示第一初始模型参数，v表示第二初始模型参数，b表示预设参数，a_j,i表示第j个词和第i个字的对齐后的初始相关性，b_j,i表示初始相关性映射至集合[0,1]的目标相关性，

表示第j个词向量在与所有字向量对齐后生成的对齐特征信息。

其中，在训练开始前，u为预设的第一初始模型参数，v为预设的第二初始模型参数，在模型的训练过程中，当步骤1044中判断第一信息与第二信息不相符时，则会生成误差信息，后根据误差信息调节目标参数u和v以进一步对联合机器学习模型进行训练。

本实施例中，在联合机器学习模型的特征层层面基于Attention对文本语句中的词向量和字向量进行对齐得到融合向量，减小了ASR对口语识别存在误差而给文本语句理解带来的偏差。

本实施例中，通过生成融合向量可以将每一文本语句中的字的含义融入对应的词的含义中，从而识别出更准确的第二信息。

可选的，为了避免对单个词及单个字进行识别而造成理解偏差，本实施例中的联合机器学习模型还包括第一GRU网络与第二GRU网络，如图3所示，步骤1041前还包括：

步骤1031、将每一文本语句中每一个词向量，根据第一GRU网络生成词向量在文本语句中的上下文向量表示。

步骤1032、将每一文本语句中每一个字向量，根据第二GRU网络生成字向量在文本语句中的上下文向量表示。

步骤1041中具体通过将词向量在文本语句中的上下文向量表示与字向量在文本语句中的上下文向量表示对齐以生成若干对齐特征信息。

其中，步骤1031和步骤1032中分别使用单层的GRU网络来获得基于词的上下文向量表示和基于字的上下文向量表示，以获取每个词向量或字向量在整个文本语句中的语义。

可选的，为了使得融合向量中每个词与整体语句的意思相关联，联合机器学习模型还包括第三GRU网络，具体的，骤1042中通过第三GRU网络获取每一对齐特征信息的上下文意思表示，并且根据所有对齐特征信息的上下文意思表示生成融合向量，其中，通过单层的GRU网络获取对其特征信息在文本语义中的上下文意思表示。

可选的，为了提高对第二信息识别的准确性，联合机器学习模型还包括CRF模型与Softmax模型。具体的，步骤1043中将融合向量输入至CRF模型中以获取槽位输出信息，并且将融合向量及槽位目标信息输入至Softmax模型中以获取目的输出信息。

其中，第二信息包括目的输出信息及槽位输出信息。

由于CRF模型可以考虑到标签之间的关系，因此可以排除掉部分不合理的标签组合，进一步提升槽位输出信息识别的准确率。

因为词是句子的组成部分，因此目的输出信息和槽位输出信息之间是存在相互关系的，因此，本实施例中，把通过CRF模型获得的槽位输出信息的识别结果作为Softmax模型的输入的一部分同时利用融合向量来进行目的输出信息的识别。

在步骤1044中，当槽位输出信息与标记槽位信息相符且目的输出信息与标记目的信息均相符时，则确定训练后的机器学习模型为口语理解模型。

本实施例中，克服了现有技术中割裂槽位信息与目的信息关系的缺陷，通过在槽位输出信息的基础上进一步识别出目的输出信息，从而进一步提高了目的输出信息识别的准确度。

实施例3

本实施例提供了一种口语识别方法，如图4所示，口语识别方法包括：

步骤201、获取用户在对话中的当前口语语句。

步骤202、将当前口语语句输入至口语理解模型中以得到目标信息。

其中，口语理解模型为基于实施例1或实施2中的训练方法训练出的口语理解模型，目标信息包括目标槽位信息以及目标目的信息。

如，本实施例中，获取到的用户的当前口语语句为：订北京到上海的酒店，则可以识别到目标目的信息为：订酒店，识别到目标槽位信息为：出发城市槽位：北京，到达城市槽位：上海。又如，获取到的用户当前口语语句为：查询上海的天气，则可以识别出目标槽位信息为：城市槽位：上海，目标目的信息为：查天气。

本实施例中，在获取用户当前口语语句的情况下，可以根据训练出的口语理解模型中自动且准确地识别到目标目的信息及其目标槽位信息。

实施例4

本实施例提供了一种口语理解模型的训练系统，如图5所示，本实施例中的训练系统包括：文本语句获取模块401、第一信息标注模块402、向量获取模块403及模型训练模块404。

文本语句获取模块401用于获取若干历史口语语句分别对应的文本语句。

第一信息标注模块402用于标注每一文本语句中的第一信息。

向量获取模块403用于获取每一文本语句中每一个词的词向量及每一个字的字向量。

模型训练模块404用于采用联合机器学习模型，根据第一信息、词向量及字向量训练以得到口语理解模型，联合机器学习模型包括若干机器学习模型组合成的模型。

其中，文本语句获取模块401可以通过ASR来识别历史口语语句对应的文本语句。具体的可以以对话中用户方的单轮通话内容作为一条文本语句对应的历史口语语句来源。

其中，第一信息标注模块402可以通过人工的方式标注文本语句中的第一信息，第一信息包括用于表征文本语句中目的的标记目的信息以及存放标记目的信息的槽位的标记槽位信息，如，文本语句获取模块401获取的文本语句为：订北京到上海的酒店，向量获取模块403标记的标记目的信息为：订酒店，标记的标记槽位信息为：出发城市槽位：北京，到达城市槽位：上海。

其中，向量获取模块403中分别以分词和分字的数据格式来通过预先训练好的词向量以及字向量来获取文本语句中每个词的词向量和每个字的字向量，如，可以使用200维的word2vec(一种将字词转换成向量形式的工具)词向量和字向量。

其中，模型训练模块404通过联合机器学习模型以联和训练的算法根据第一信息、词向量及字向量来建模。

实施例5

本实施例提供了一种口语理解模型的训练系统，本实施例是对实施例3的进一步改进，其中，联合机器学习模型包括Attention机制，如图6所示，模型训练模块404包括：对齐单元4041、融合向量获取单元4042、第二信息获取单元4043及模型确定单元4044。

对齐单元4041用于通过Attention机制将每一文本语句的每个字向量与每个词向量对齐以生成若干对齐特征信息。

融合向量获取单元4042用于根据若干对齐特征信息获取融合向量。

第二信息获取单元4043用于根据融合向量获取第二信息。

模型确定单元4044用于当联合机器学习模型输出的每一第二信息与对应的文本语句的第一信息相符时，则确定训练后的联合机器学习模型为口语理解模型。

其中，对齐单元4041可以根据Attention模型通过下述公式将每一字向量与每一词向量对齐以生成若干对齐特征信息：

a_j,i＝tanh(u^Ts_i+v^Th_j+b)

其中，在训练开始前，u为预设的第一初始模型参数，v为预设的第二初始模型参数，在模型的训练过程中，当模型确定单元4044判断第一信息与第二信息不相符时，则会生成误差信息，后根据误差信息调节目标参数u和v以进一步对联合机器学习模型进行训练。

可选的，为了避免对单个词及单个字进行识别而造成理解偏差，本实施例中联合机器学习模型还包括第一GRU网络与第二GRU网络。如图6所示，训练模块404还包括：第一上下文向量生成单元4045及第二上下文向量生成单元4046。

第一上下文向量生成单元4045用于将每一文本语句中每一个词向量，根据第一GRU网络生成词向量在文本语句中的上下文向量表示。

第二上下文向量生成单元4046用于将每一文本语句中每一个字向量，根据第二GRU网络生成字向量在文本语句中的上下文向量表示，并调用对其单元4041。

对齐单元4041还用于通过词向量在文本语句中的上下文向量表示与字向量在文本语句中的上下文向量表示对齐以生成若干对齐特征信息。

其中，第一上下文向量生成单元4045和第二上下文向量生成单元4046分别使用单层的GRU网络来获得基于词的上下文向量表示和基于字的上下文向量表示，以获取每个词向量或字向量在整个文本语句中的语义。

可选的，为了使得融合向量中每个词与整体语句的意思相关联，联合机器学习模型还包括第三GRU网络。融合向量获取单元4042具体用于通过第三GRU网络获取每一对齐特征信息的上下文意思表示，并根据所有对齐特征信息的上下文意思表示生成融合向量，其中，通过单层的GRU网络获取对其特征信息在文本语义中的上下文意思表示。

可选的，为了提高对第二信息识别的准确性，联合机器学习模型还包括CRF模型与Softmax模型，第二信息获取单元4043具体用于将融合向量输入至CRF模型中以获取槽位输出信息且将融合向量及槽位目标信息输入至Softmax模型中以获取目的输出信息，第二信息包括目的输出信息及槽位输出信息。

模型确定单元4043具体用于当槽位输出信息与标记槽位信息相符且目的输出信息与标记目的信息均相符时，则确定训练后的机器学习模型为口语理解模型。

由于CRF模型可以考虑到标签之间的关系，因此第二信息获取单元4043可以排除掉部分不合理的标签组合，进一步提升槽位输出信息识别的准确率。

因为词是句子的组成部分，因此目的输出信息和槽位输出信息之间是存在相互关系的，因此，本实施例中，第二信息获取单元4043把通过CRF模型获得的槽位输出信息的识别结果作为Softmax模型的输入的一部分同时利用融合向量来进行目的输出信息的识别。

实施例6

本实施例提供了一种口语识别系统，如图7所示，本实施例中的口语识别系统包括：当前语句获取模块601及目标输出模块602。

当前语句获取模块601用于获取用户在对话中的当前口语语句。

目标输出模块602用于将当前口语语句输入至口语理解模型中以得到目标信息。

其中，口语理解模型为基于实施例4或实施5中的训练系统训练出的口语理解模型，目标信息包括目标槽位信息以及目标目的信息。

本实施例中，在获取用户当前口语语句的情况下，可以根据训练出的口语理解模型中自动识别到目标目的信息。

实施例7

本实施例提供一种电子设备，电子设备可以通过计算设备的形式表现(例如可以为服务器设备)，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中处理器执行计算机程序时可以实现实施例1或实施例2中口语理解模型的训练方法。

图8示出了本实施例的硬件结构示意图，如图8所示，电子设备9具体包括：

至少一个处理器91、至少一个存储器92以及用于连接不同系统组件(包括处理器91和存储器92)的总线93，其中：

总线93包括数据总线、地址总线和控制总线。

存储器92包括易失性存储器，例如随机存取存储器(RAM)921和/或高速缓存存储器922，还可以进一步包括只读存储器(ROM)923。

存储器92还包括具有一组(至少一个)程序模块924的程序/实用工具925，这样的程序模块924包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

处理器91通过运行存储在存储器92中的计算机程序，从而执行各种功能应用以及数据处理，例如本发明实施例1或实施例2中口语理解模型的训练方法。

电子设备9进一步可以与一个或多个外部设备94(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口95进行。并且，电子设备9还可以通过网络适配器96与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。网络适配器96通过总线93与电子设备9的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备9使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。

应当注意，尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

实施例8

本实施例提供一种电子设备，电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现实施例3中口语识别方法。该电子设备的具体结构参照实施例7中的电子设备，其工作原理与实施例7中的电子设备的工作原理基本一致，在此不再赘述。

实施例9

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现实施例1或实施例2中口语理解模型的训练方法。

其中，可读存储介质可以采用的更具体可以包括但不限于：便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。

在可能的实施方式中，本发明还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行实现实施例1或实施例2中口语理解模型的训练方法的步骤。

其中，可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码，所述程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。

实施例10

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现实施例3中口语识别方法的步骤。

在可能的实施方式中，本发明还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行实现实施例3中口语识别方法的步骤。

虽然以上描述了本发明的具体实施方式，但是本领域的技术人员应当理解，这仅是举例说明，本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下，可以对这些实施方式做出多种变更或修改，但这些变更和修改均落入本发明的保护范围。

Claims

1.一种口语理解模型的训练方法，其特征在于，所述训练方法包括：

获取若干历史口语语句分别对应的文本语句；

采用联合机器学习模型，根据所述第一信息、所述词向量及所述字向量训练以得到所述口语理解模型，所述联合机器学习模型包括若干机器学习模型。

2.如权利要求1所述的口语理解模型的训练方法，其特征在于，

所述联合机器学习模型包括Attention机制；

所述采用联合机器学习模型，根据所述第一信息、所述词向量及所述字向量训练以得到所述口语理解模型的步骤包括：

根据若干所述对齐特征信息获取融合向量；

根据所述融合向量获取第二信息；

3.如权利要求2所述的口语理解模型的训练方法，其特征在于，所述联合机器学习模型还包括第一GRU网络与第二GRU网络；

通过所述Attention机制将所述词向量在所述文本语句中的上下文向量表示与所述字向量在所述文本语句中的上下文向量表示进行对齐以生成若干对齐特征信息；

和/或，

所述联合机器学习模型还包括第三GRU网络；

根据所述若干对齐特征信息获取融合向量的步骤包括：

和/或，

所述联合机器学习模型还包括CRF模型与Softmax模型；

根据所述融合向量获取所述第二信息的步骤包括：

将所述融合向量输入至所述CRFCRF模型中以获取槽位输出信息；

4.如权利要求2所述的口语理解模型的训练方法，其特征在于，所述训练方法还包括：

当所述第二信息与所述第一信息不相符时，则生成误差信息，并根据所述误差信息修改所述Attention机制中的目标参数，并在修改所述目标参数后，执行所述通过所述Attention机制将每一所述文本语句的每个所述字向量与每个所述词向量对齐以生成若干对齐特征信息、根据若干所述对齐特征信息获取融合向量及根据所述融合向量获取所述第二信息的步骤，直至所述第二信息与所述第一信息相符，则确定训练后的所述联合机器学习模型为所述口语理解模型。

5.一种口语识别方法，其特征在于，所述口语识别方法包括：

获取用户在对话中的当前口语语句；

将所述当前口语语句输入至权利要求1-4中任意一项所述的口语理解模型中以得到目标信息，所述目标信息包括目标槽位信息以及目标目的信息。

6.一种口语理解模型的训练系统，其特征在于，所述训练系统包括：文本语句获取模块、第一信息标注模块、向量获取模块及模型训练模块；

7.如权利要求6所述的口语理解模型的训练系统，其特征在于，

所述联合机器学习模型包括Attention机制；

8.如权利要求7所述的口语理解模型的训练系统，其特征在于，所述联合机器学习模型还包括第一GRU网络与第二GRU网络；

和/或，

所述联合机器学习模型还包括第三GRU网络；

和/或，

所述联合机器学习模型还包括CRF模型与Softmax模型；

9.如权利要求7所述的口语理解模型的训练系统，其特征在于，所述模型确定单元用于当所述第二信息与所述第一信息不相符时，则生成误差信息，并根据所述误差信息修改所述Attention机制中的目标参数，并在修改所述目标参数后，调用所述对齐单元、所述融合向量获取单元、所述第二信息获取单元及所述模型确定单元直至所述模型确定单元确定所述第二信息与所述第一信息相符，则确定训练后的所述联合机器学习模型为所述口语理解模型。

10.一种口语识别系统，其特征在于，所述口语识别系统包括：当前语句获取模块及目标输出模块；

所述目标输出模块用于将所述当前口语语句输入至权利要求6-9中任意一项所述的口语理解模型中以得到目标信息，所述目标信息包括目标槽位信息以及目标目的信息。

11.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至4任一项所述的口语理解模型的训练方法或实现权利要求5所述的口语识别方法。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-4任一项所述的口语理解模型的训练方法的步骤或实现权利要求5所述的口语识别方法的步骤。