CN107452374B

CN107452374B - 基于单向自标注辅助信息的多视角语言识别方法

Info

Publication number: CN107452374B
Application number: CN201710561261.4A
Authority: CN
Inventors: 俞凯; 钱彦旻; 吴越; 贺天行; 陈哲怀
Original assignee: Shanghai Jiaotong University; AI Speech Ltd
Current assignee: Sipic Technology Co Ltd
Priority date: 2017-07-11
Filing date: 2017-07-11
Publication date: 2020-05-05
Anticipated expiration: 2037-07-11
Also published as: CN107452374A

Abstract

一种基于单向自标注辅助信息的多视角语言识别方法，首先通过标注模型对当前词和词层面的辅助信息进行自标注，得到当前词的自标注辅助特征的概率分布；然后将自标注辅助特征的概率分布通过Viterbi解码得到相对准确的辅助特征，从而将双向辅助信息转换为单向辅助信息；再将单向辅助信息和当前词一起输入多视角语言模型进行解析，得到当前词的准确语义。本发明通过将多视角神经网络中的词层面的辅助特征，从而消除后文信息造成的负面影响，采用多种不同的词层面的辅助信息，引入具有树形结构的词层面辅助特征进行多视角语言模型训练，并且在标注模型和语言模块分别使用稳定算子来调整不同的适应各自的学习率等特点。

Description

基于单向自标注辅助信息的多视角语言识别方法

技术领域

本发明涉及的是一种语音识别领域的技术，具体是一种基于单向自标注辅助信息的多视角语言识别方法。

背景技术

近几年，循环神进网络(RNN)和基于记忆单元的长短时间变化神经网络(LSTM)被广泛用于语言模型。在现有的利用LSTM建模的诸多语言模型中，多视角神经网络语言模型能够在混淆度判断标准(Perplexity)上提升一定的模型性能，但是在语音识别重打分任务上并没有提升。

这是因为这些模型所涉及的辅助特征向量中词层面的向量的信息是双向信息，即同时包含上下文信息，以至于在混淆度判断时引入了后文作弊信息故而提升，而在语音识别重打分(ASR rescore)任务中这些作弊信息无法被使用，因此无法提升语言识别重打分任务，同样的也无法在大规模语料的语音识别任务中起作用。

发明内容

本发明针对现有多视角语言模型的词层面的辅助信息包含后文信息，使得后文信息对预测结果产生负面影响，从而无法在语音识别重打分(ASR rescore)任务中提高效果、多视角语言模型的辅助特征的种类较为单一、词层面的辅助特征较为扁平化等等缺陷，提出一种基于单向自标注辅助信息的多视角语言识别方法，通过将多视角神经网络中的词层面的辅助特征，由包含前后文信息的状态转换为只包含前文信息，从而消除后文信息造成的负面影响，在此基础上，本发明还采用多种不同的词层面的辅助信息，引入具有树形结构的词层面辅助特征进行多视角语言模型训练，并且在标注模型和语言模块分别使用稳定算子来调整不同的适应各自的学习率等特点。

本发明是通过以下技术方案实现的：

本发明涉及一种基于单向自标注辅助信息的多视角语言识别方法，首先通过标注模型对当前词和词层面的辅助信息进行自标注，得到当前词的自标注辅助特征的概率分布；然后将自标注辅助特征的概率分布通过Viterbi解码得到相对准确的辅助特征，从而将双向辅助信息转换为单向辅助信息；再将单向辅助信息和当前词一起输入多视角语言模型进行解析，得到当前词的准确语义。

所述的标注模型(Tagging model)采用具有长短时间变化(LSTM)单元的循环神经网络(RNN)，用于在保证较高准确率的情况下将同时包含前后文信息的辅助特征转化为只含有前文信息的特征。

该长短时间变化循环神经网络包含前后文信息的辅助特征将由传统的方法(如基于最大熵的双向循环神经网络)对语言模型的训练数据进行标注，特征作为训练这个模型的标注输入到标注模型的输出层。

所述的Viterbi解码过程中使用的约束矩阵是根据训的已标注数据统计得到，用来保证标注模型的准确率。

所述的多视角语言模型(Language Model)采用具有长短时间变化(LSTM)的循环神经网络(RNN)，且循环神经网络(RNN)的采用LSTM作为其隐层单元，其中：来自标注模型的单向辅助信息和当前词一起作为多视角语言模型的输入，由该多视角语言模型的隐层训练一个多视角的长短时间变化循环神经网络语言模型，下一个词作为标注输入到该多视角语言模型的输出层。

所述的该多视角语言模型中的隐层具有多个输入和一个输出，输入为语言模型的当前词和标注模型输出的当前词的单向辅助信息，输出表示语言模型下一个词的概率分布向量。

优选地，在训练上述多视角语言模型时，隐层中的每一层均设有用于独立调整各层学习率的稳定算子，从而使得两个分模型可以用适合各自的不同的学习率进行训练。

所述的将含有双向信息的辅助特征转换为仅含单向信息的辅助特征的LSTM标注模型，所采用的方法包括但不限于：不含有长短时间变化的循环神经网络、卷积神经网络或深度神经网络等。

所述的多视角语言模型也可以采用不含有长短时间变化的循环神经网络、卷积神经网络或深度神经网络。

技术效果

与现有技术相比，本发明能够将同时包含前后文信息的词层面的辅助特征转换为只包含前文信息的特征，不包含后文的作弊信息，更加满足语言模型的要求，因此在ASRrescore任务中达到提升，并且能适用于LVCSR任务。

本发明尝试多种词层面的辅助特征，其中不止包括扁平化的浅层信息，还包括语法树(parsing)这种深层信息转化成的块标注(chunking)特征。

本发明采用了最新的学习率自适应技术，为总模型的每一层配备一个稳定算子，自动调整学习率，使标注模型和语言模型能用适用于各自的学习率来共同学习到最好的状态。

附图说明

图1为实施例流程示意图；

图中：Tagging Model为标注模型、Laguage Model为多视角语言模型、Decoder为标注模型输出部分附带的解码操作、w_t为待识别信息、f_t为标注模型生成的当前词的辅助特征的概率分布向量、y_t为语言模型预测的下一个词的概率分布向量、LSTM为模型中隐层的长短时间记忆神经单元。

具体实施方式

如图1所示，本实施例包括：用来生成词层面的只含前文信息的辅助向量的标注模型和多视角的语言模型，其中：标注模型将待识别信息中的双向信息的标注特征转换为单向信息的特征，标注模型决定当输入单词的分类标注，其输出与词向量一同作为语言模型的输入并形成多视角结构。

所述的待识别信息w_t为一个只有一个位置为1，其他位都是0的一维数组，其中t为当前时刻，该待识别信息同时作为标注模型和语言模型的输入。

所述的标注模型采用具有长短时间变化(LSTM)单元的循环神经网络(RNN)，以提升标注模型的正确率，其隐层大小为200。因为本实施例需要使用只含前文信息的标注特征，故采用单向模型而非双向模型。

所述的标注模型中的循环神经网络(RNN)采用LSTM作为其隐层单元，该隐层LSTM单元的输出为h_t＝L_tag(x_t,h_t-1)，其中：L_tag为标注模型中隐层LSTM单元，该隐层LSTM单元为：

其中：x_t为词向量，x_t＝E_tagw_t，h_t-1为上一时刻语言模型的输出，h_t-1＝L_Lm(ω_t-1,h_t-2)。

所述的语言模型也采用循环神经网络(RNN)，且循环神经网络(RNN)采用LSTM作为其隐层单元，该隐层LSTM单元输出为：h_t＝L_Lm(ω_t,h_t-1)，L_Lm为语言模型的隐层LSTM单元，且L_Lm＝L_tag。

所述的语言模型的输入为ω_t＝W_tagτ_t+E_wordx_t，其中：x_t为词向量，x_t＝E_tagw_t，E_tag为词嵌套矩阵，W_tag为辅助特征向量输入到语言模型时的参数矩阵，E_word为语言模型中的词签到矩阵，τ_t为目标序列，τ_t＝D(f_t)，D为解码的维特比(Viterbi)过程函数，f_t为标注模型的输出，表示当前词的辅助特征的概率分布向量，即标注模型的输出，具体为：f_t＝soft max(W_hoh_t+b_y)，其中：Softmax是归一化函数，W_ho为语言模型隐层到输出层之间的参数矩阵，在训练语言模型的过程中得到，b_y为偏移量。标注模型或解码过程的输出同当前词向量一同输入语言模型即形成多视角语言模型。

所述的语言模型的输出即为预测下一个词的概率分布的输出P(x_t+1|x₁:x_t)，y_t＝soft max(W_hoh_t+b_y)，需要区分的是：y_t是语言模型的输出，是下个预测的词的概率分布；f_t是当前词的标注的概率分布，作为辅助信息输入到语言模型中。

上述具体实施中的长短时间变化模型，包括标注模型和语言模型皆为单层神经网络结构，隐层大小为200，其余参数为训练过程中得到。实验结果如下：

Tagging模型为LSTM的是我们提出的方法，可以发现在PPL上比4-gram和普通LSTMLM更好，虽然在PPL上不如双向信息的辅助特征Ground truth，但是在ASR rescore任务中的WER和SER指标上有提高，从而在现实的语音识别任务中能够真正得到提升

上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整，本发明的保护范围以权利要求书为准且不由上述具体实施所限，在其范围内的各个实现方案均受本发明之约束。

Claims

1.一种基于单向自标注辅助信息的多视角语言识别方法，其特征在于，首先通过标注模型对当前词和词层面的辅助信息进行自标注，得到当前词的自标注辅助特征的概率分布；然后将自标注辅助特征的概率分布通过Viterbi解码得到相对准确的辅助特征，从而将双向辅助信息转换为单向辅助信息；再将单向辅助信息和当前词一起输入多视角语言模型进行解析，得到当前词的准确语义；

所述的标注模型采用具有长短时间变化单元的循环神经网络，用于在保证较高准确率的情况下将同时包含前后文信息的辅助特征转化为只含有前文信息的特征；

所述的多视角语言模型采用具有长短时间变化的循环神经网络，且循环神经网络的采用LSTM作为其隐层单元，其中：来自标注模型的单向辅助信息和当前词一起作为多视角语言模型的输入，由该多视角语言模型的隐层训练一个多视角的长短时间变化循环神经网络语言模型，下一个词作为标注输入到该多视角语言模型的输出层。

2.根据权利要求1所述的方法，其特征是，所述的长短时间变化循环神经网络包含前后文信息的辅助特征将由基于最大熵的双向循环神经网络对语言模型的训练数据进行标注，特征作为训练这个模型的标注输入到标注模型的输出层。

3.根据权利要求1所述的方法，其特征是，所述的Viterbi解码过程中使用的约束矩阵是根据训的已标注数据统计得到，用来保证标注模型的准确率。

4.根据权利要求1所述的方法，其特征是，所述的多视角语言模型中的隐层具有多个输入和一个输出，输入为语言模型的当前词和标注模型输出的当前词的单向辅助信息，输出表示语言模型下一个词的概率分布向量。

5.根据权利要求4所述的方法，其特征是，在训练多视角语言模型时，隐层中的每一层均设有用于独立调整各层学习率的稳定算子，从而使得两个分模型用适合各自的不同的学习率进行训练。

6.根据权利要求1所述的方法，其特征是，所述的多视角语言模型采用不含有长短时间变化的循环神经网络、卷积神经网络或深度神经网络。