CN107452374B - 基于单向自标注辅助信息的多视角语言识别方法 - Google Patents

基于单向自标注辅助信息的多视角语言识别方法 Download PDF

Info

Publication number
CN107452374B
CN107452374B CN201710561261.4A CN201710561261A CN107452374B CN 107452374 B CN107452374 B CN 107452374B CN 201710561261 A CN201710561261 A CN 201710561261A CN 107452374 B CN107452374 B CN 107452374B
Authority
CN
China
Prior art keywords
model
labeling
auxiliary
language model
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710561261.4A
Other languages
English (en)
Other versions
CN107452374A (zh
Inventor
俞凯
钱彦旻
吴越
贺天行
陈哲怀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sipic Technology Co Ltd
Original Assignee
Shanghai Jiaotong University
AI Speech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University, AI Speech Ltd filed Critical Shanghai Jiaotong University
Priority to CN201710561261.4A priority Critical patent/CN107452374B/zh
Publication of CN107452374A publication Critical patent/CN107452374A/zh
Application granted granted Critical
Publication of CN107452374B publication Critical patent/CN107452374B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/04Training, enrolment or model building

Abstract

一种基于单向自标注辅助信息的多视角语言识别方法,首先通过标注模型对当前词和词层面的辅助信息进行自标注,得到当前词的自标注辅助特征的概率分布;然后将自标注辅助特征的概率分布通过Viterbi解码得到相对准确的辅助特征,从而将双向辅助信息转换为单向辅助信息;再将单向辅助信息和当前词一起输入多视角语言模型进行解析,得到当前词的准确语义。本发明通过将多视角神经网络中的词层面的辅助特征,从而消除后文信息造成的负面影响,采用多种不同的词层面的辅助信息,引入具有树形结构的词层面辅助特征进行多视角语言模型训练,并且在标注模型和语言模块分别使用稳定算子来调整不同的适应各自的学习率等特点。

Description

基于单向自标注辅助信息的多视角语言识别方法
技术领域
本发明涉及的是一种语音识别领域的技术,具体是一种基于单向自标注辅助信息的多视角语言识别方法。
背景技术
近几年,循环神进网络(RNN)和基于记忆单元的长短时间变化神经网络(LSTM)被广泛用于语言模型。在现有的利用LSTM建模的诸多语言模型中,多视角神经网络语言模型能够在混淆度判断标准(Perplexity)上提升一定的模型性能,但是在语音识别重打分任务上并没有提升。
这是因为这些模型所涉及的辅助特征向量中词层面的向量的信息是双向信息,即同时包含上下文信息,以至于在混淆度判断时引入了后文作弊信息故而提升,而在语音识别重打分(ASR rescore)任务中这些作弊信息无法被使用,因此无法提升语言识别重打分任务,同样的也无法在大规模语料的语音识别任务中起作用。
发明内容
本发明针对现有多视角语言模型的词层面的辅助信息包含后文信息,使得后文信息对预测结果产生负面影响,从而无法在语音识别重打分(ASR rescore)任务中提高效果、多视角语言模型的辅助特征的种类较为单一、词层面的辅助特征较为扁平化等等缺陷,提出一种基于单向自标注辅助信息的多视角语言识别方法,通过将多视角神经网络中的词层面的辅助特征,由包含前后文信息的状态转换为只包含前文信息,从而消除后文信息造成的负面影响,在此基础上,本发明还采用多种不同的词层面的辅助信息,引入具有树形结构的词层面辅助特征进行多视角语言模型训练,并且在标注模型和语言模块分别使用稳定算子来调整不同的适应各自的学习率等特点。
本发明是通过以下技术方案实现的:
本发明涉及一种基于单向自标注辅助信息的多视角语言识别方法,首先通过标注模型对当前词和词层面的辅助信息进行自标注,得到当前词的自标注辅助特征的概率分布;然后将自标注辅助特征的概率分布通过Viterbi解码得到相对准确的辅助特征,从而将双向辅助信息转换为单向辅助信息;再将单向辅助信息和当前词一起输入多视角语言模型进行解析,得到当前词的准确语义。
所述的标注模型(Tagging model)采用具有长短时间变化(LSTM)单元的循环神经网络(RNN),用于在保证较高准确率的情况下将同时包含前后文信息的辅助特征转化为只含有前文信息的特征。
该长短时间变化循环神经网络包含前后文信息的辅助特征将由传统的方法(如基于最大熵的双向循环神经网络)对语言模型的训练数据进行标注,特征作为训练这个模型的标注输入到标注模型的输出层。
所述的Viterbi解码过程中使用的约束矩阵是根据训的已标注数据统计得到,用来保证标注模型的准确率。
所述的多视角语言模型(Language Model)采用具有长短时间变化(LSTM)的循环神经网络(RNN),且循环神经网络(RNN)的采用LSTM作为其隐层单元,其中:来自标注模型的单向辅助信息和当前词一起作为多视角语言模型的输入,由该多视角语言模型的隐层训练一个多视角的长短时间变化循环神经网络语言模型,下一个词作为标注输入到该多视角语言模型的输出层。
所述的该多视角语言模型中的隐层具有多个输入和一个输出,输入为语言模型的当前词和标注模型输出的当前词的单向辅助信息,输出表示语言模型下一个词的概率分布向量。
优选地,在训练上述多视角语言模型时,隐层中的每一层均设有用于独立调整各层学习率的稳定算子,从而使得两个分模型可以用适合各自的不同的学习率进行训练。
所述的将含有双向信息的辅助特征转换为仅含单向信息的辅助特征的LSTM标注模型,所采用的方法包括但不限于:不含有长短时间变化的循环神经网络、卷积神经网络或深度神经网络等。
所述的多视角语言模型也可以采用不含有长短时间变化的循环神经网络、卷积神经网络或深度神经网络。
技术效果
与现有技术相比,本发明能够将同时包含前后文信息的词层面的辅助特征转换为只包含前文信息的特征,不包含后文的作弊信息,更加满足语言模型的要求,因此在ASRrescore任务中达到提升,并且能适用于LVCSR任务。
本发明尝试多种词层面的辅助特征,其中不止包括扁平化的浅层信息,还包括语法树(parsing)这种深层信息转化成的块标注(chunking)特征。
本发明采用了最新的学习率自适应技术,为总模型的每一层配备一个稳定算子,自动调整学习率,使标注模型和语言模型能用适用于各自的学习率来共同学习到最好的状态。
附图说明
图1为实施例流程示意图;
图中:Tagging Model为标注模型、Laguage Model为多视角语言模型、Decoder为标注模型输出部分附带的解码操作、wt为待识别信息、ft为标注模型生成的当前词的辅助特征的概率分布向量、yt为语言模型预测的下一个词的概率分布向量、LSTM为模型中隐层的长短时间记忆神经单元。
具体实施方式
如图1所示,本实施例包括:用来生成词层面的只含前文信息的辅助向量的标注模型和多视角的语言模型,其中:标注模型将待识别信息中的双向信息的标注特征转换为单向信息的特征,标注模型决定当输入单词的分类标注,其输出与词向量一同作为语言模型的输入并形成多视角结构。
所述的待识别信息wt为一个只有一个位置为1,其他位都是0的一维数组,其中t为当前时刻,该待识别信息同时作为标注模型和语言模型的输入。
所述的标注模型采用具有长短时间变化(LSTM)单元的循环神经网络(RNN),以提升标注模型的正确率,其隐层大小为200。因为本实施例需要使用只含前文信息的标注特征,故采用单向模型而非双向模型。
所述的标注模型中的循环神经网络(RNN)采用LSTM作为其隐层单元,该隐层LSTM单元的输出为ht=Ltag(xt,ht-1),其中:Ltag为标注模型中隐层LSTM单元,该隐层LSTM单元为:
Figure BDA0001347148590000031
其中:xt为词向量,xt=Etagwt,ht-1为上一时刻语言模型的输出,ht-1=LLmt-1,ht-2)。
所述的语言模型也采用循环神经网络(RNN),且循环神经网络(RNN)采用LSTM作为其隐层单元,该隐层LSTM单元输出为:ht=LLmt,ht-1),LLm为语言模型的隐层LSTM单元,且LLm=Ltag
所述的语言模型的输入为ωt=Wtagτt+Ewordxt,其中:xt为词向量,xt=Etagwt,Etag为词嵌套矩阵,Wtag为辅助特征向量输入到语言模型时的参数矩阵,Eword为语言模型中的词签到矩阵,τt为目标序列,τt=D(ft),D为解码的维特比(Viterbi)过程函数,ft为标注模型的输出,表示当前词的辅助特征的概率分布向量,即标注模型的输出,具体为:ft=soft max(Whoht+by),其中:Softmax是归一化函数,Who为语言模型隐层到输出层之间的参数矩阵,在训练语言模型的过程中得到,by为偏移量。标注模型或解码过程的输出同当前词向量一同输入语言模型即形成多视角语言模型。
所述的语言模型的输出即为预测下一个词的概率分布的输出P(xt+1|x1:xt),yt=soft max(Whoht+by),需要区分的是:yt是语言模型的输出,是下个预测的词的概率分布;ft是当前词的标注的概率分布,作为辅助信息输入到语言模型中。
上述具体实施中的长短时间变化模型,包括标注模型和语言模型皆为单层神经网络结构,隐层大小为200,其余参数为训练过程中得到。实验结果如下:
Figure BDA0001347148590000041
Tagging模型为LSTM的是我们提出的方法,可以发现在PPL上比4-gram和普通LSTMLM更好,虽然在PPL上不如双向信息的辅助特征Ground truth,但是在ASR rescore任务中的WER和SER指标上有提高,从而在现实的语音识别任务中能够真正得到提升
上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整,本发明的保护范围以权利要求书为准且不由上述具体实施所限,在其范围内的各个实现方案均受本发明之约束。

Claims (6)

1.一种基于单向自标注辅助信息的多视角语言识别方法,其特征在于,首先通过标注模型对当前词和词层面的辅助信息进行自标注,得到当前词的自标注辅助特征的概率分布;然后将自标注辅助特征的概率分布通过Viterbi解码得到相对准确的辅助特征,从而将双向辅助信息转换为单向辅助信息;再将单向辅助信息和当前词一起输入多视角语言模型进行解析,得到当前词的准确语义;
所述的标注模型采用具有长短时间变化单元的循环神经网络,用于在保证较高准确率的情况下将同时包含前后文信息的辅助特征转化为只含有前文信息的特征;
所述的多视角语言模型采用具有长短时间变化的循环神经网络,且循环神经网络的采用LSTM作为其隐层单元,其中:来自标注模型的单向辅助信息和当前词一起作为多视角语言模型的输入,由该多视角语言模型的隐层训练一个多视角的长短时间变化循环神经网络语言模型,下一个词作为标注输入到该多视角语言模型的输出层。
2.根据权利要求1所述的方法,其特征是,所述的长短时间变化循环神经网络包含前后文信息的辅助特征将由基于最大熵的双向循环神经网络对语言模型的训练数据进行标注,特征作为训练这个模型的标注输入到标注模型的输出层。
3.根据权利要求1所述的方法,其特征是,所述的Viterbi解码过程中使用的约束矩阵是根据训的已标注数据统计得到,用来保证标注模型的准确率。
4.根据权利要求1所述的方法,其特征是,所述的多视角语言模型中的隐层具有多个输入和一个输出,输入为语言模型的当前词和标注模型输出的当前词的单向辅助信息,输出表示语言模型下一个词的概率分布向量。
5.根据权利要求4所述的方法,其特征是,在训练多视角语言模型时,隐层中的每一层均设有用于独立调整各层学习率的稳定算子,从而使得两个分模型用适合各自的不同的学习率进行训练。
6.根据权利要求1所述的方法,其特征是,所述的多视角语言模型采用不含有长短时间变化的循环神经网络、卷积神经网络或深度神经网络。
CN201710561261.4A 2017-07-11 2017-07-11 基于单向自标注辅助信息的多视角语言识别方法 Active CN107452374B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710561261.4A CN107452374B (zh) 2017-07-11 2017-07-11 基于单向自标注辅助信息的多视角语言识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710561261.4A CN107452374B (zh) 2017-07-11 2017-07-11 基于单向自标注辅助信息的多视角语言识别方法

Publications (2)

Publication Number Publication Date
CN107452374A CN107452374A (zh) 2017-12-08
CN107452374B true CN107452374B (zh) 2020-05-05

Family

ID=60488802

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710561261.4A Active CN107452374B (zh) 2017-07-11 2017-07-11 基于单向自标注辅助信息的多视角语言识别方法

Country Status (1)

Country Link
CN (1) CN107452374B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108417201B (zh) * 2018-01-19 2020-11-06 苏州思必驰信息科技有限公司 单信道多说话人身份识别方法及系统
JP7258988B2 (ja) * 2019-02-08 2023-04-17 ヤフー株式会社 情報処理装置、情報処理方法及び情報処理プログラム
CN110738984B (zh) * 2019-05-13 2020-12-11 苏州闪驰数控系统集成有限公司 人工智能cnn、lstm神经网络语音识别系统
CN111179910A (zh) * 2019-12-17 2020-05-19 深圳追一科技有限公司 语速识别方法和装置、服务器、计算机可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106328122A (zh) * 2016-08-19 2017-01-11 深圳市唯特视科技有限公司 一种利用长短期记忆模型递归神经网络的语音识别方法
US9607616B2 (en) * 2015-08-17 2017-03-28 Mitsubishi Electric Research Laboratories, Inc. Method for using a multi-scale recurrent neural network with pretraining for spoken language understanding tasks
CN106682220A (zh) * 2017-01-04 2017-05-17 华南理工大学 一种基于深度学习的在线中医文本命名实体识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9607616B2 (en) * 2015-08-17 2017-03-28 Mitsubishi Electric Research Laboratories, Inc. Method for using a multi-scale recurrent neural network with pretraining for spoken language understanding tasks
CN106328122A (zh) * 2016-08-19 2017-01-11 深圳市唯特视科技有限公司 一种利用长短期记忆模型递归神经网络的语音识别方法
CN106682220A (zh) * 2017-01-04 2017-05-17 华南理工大学 一种基于深度学习的在线中医文本命名实体识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"A Unified Tagging Solution:Bidirectional LSTM Recurrent Neural Network with Word Embedding";PeiluWang等;《arXiv:1511.00215 [cs.CL]》;20151101;全文 *
"Joint Online Spoken Language Understanding and Language Modeling with Recurrent Neural Networks";Bing Liu等;《arXiv:1609.01462v1 [cs.CL]》;20160906;全文 *
"基于词向量和LSTM的汉语零指代消解研究";吴兵兵;《中国优秀硕士学位论文全文数据库 信息科技辑》;20170215(第02期);全文 *

Also Published As

Publication number Publication date
CN107452374A (zh) 2017-12-08

Similar Documents

Publication Publication Date Title
US10854193B2 (en) Methods, devices and computer-readable storage media for real-time speech recognition
Audhkhasi et al. End-to-end ASR-free keyword search from speech
Audhkhasi et al. Direct acoustics-to-word models for english conversational speech recognition
US11145293B2 (en) Speech recognition with sequence-to-sequence models
CN108492820B (zh) 基于循环神经网络语言模型和深度神经网络声学模型的中文语音识别方法
CN111883110B (zh) 语音识别的声学模型训练方法、系统、设备及介质
CN110556100B (zh) 端到端语音识别模型的训练方法及系统
CN108170686B (zh) 文本翻译方法及装置
CN107452374B (zh) 基于单向自标注辅助信息的多视角语言识别方法
US20180349327A1 (en) Text error correction method and apparatus based on recurrent neural network of artificial intelligence
US10714076B2 (en) Initialization of CTC speech recognition with standard HMM
CN112331183B (zh) 基于自回归网络的非平行语料语音转换方法及系统
CN112037773B (zh) 一种n最优口语语义识别方法、装置及电子设备
CN106340297A (zh) 一种基于云计算与置信度计算的语音识别方法与系统
CN102063900A (zh) 克服混淆发音的语音识别方法及系统
JP2023545988A (ja) トランスフォーマトランスデューサ:ストリーミング音声認識と非ストリーミング音声認識を統合する1つのモデル
Tanaka et al. Neural Error Corrective Language Models for Automatic Speech Recognition.
CN112509560B (zh) 一种基于缓存语言模型的语音识别自适应方法和系统
CN114596844A (zh) 声学模型的训练方法、语音识别方法及相关设备
KR20210141115A (ko) 발화 시간 추정 방법 및 장치
WO2022028378A1 (zh) 语音意图识别方法、装置及设备
Collobert et al. Word-level speech recognition with a letter to word encoder
CN110992943A (zh) 基于词混淆网络的语义理解方法及系统
KR20230158608A (ko) 종단 간 자동 음성 인식 신뢰도 및 삭제 추정을 위한 멀티태스크 학습
CN112967720B (zh) 少量重口音数据下的端到端语音转文本模型优化方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200629

Address after: Room 105G, 199 GuoShoujing Road, Pudong New Area, Shanghai, 200120

Co-patentee after: AI SPEECH Co.,Ltd.

Patentee after: Shanghai Jiaotong University Intellectual Property Management Co.,Ltd.

Address before: 200240 Dongchuan Road, Shanghai, No. 800, No.

Co-patentee before: AI SPEECH Co.,Ltd.

Patentee before: SHANGHAI JIAO TONG University

TR01 Transfer of patent right

Effective date of registration: 20201030

Address after: 215123 14 Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou, Jiangsu.

Patentee after: AI SPEECH Co.,Ltd.

Address before: Room 105G, 199 GuoShoujing Road, Pudong New Area, Shanghai, 200120

Patentee before: Shanghai Jiaotong University Intellectual Property Management Co.,Ltd.

Patentee before: AI SPEECH Co.,Ltd.

TR01 Transfer of patent right
CP01 Change in the name or title of a patent holder

Address after: 215123 14 Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou, Jiangsu.

Patentee after: Sipic Technology Co.,Ltd.

Address before: 215123 14 Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou, Jiangsu.

Patentee before: AI SPEECH Co.,Ltd.

CP01 Change in the name or title of a patent holder
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A Multi perspective Language Recognition Method Based on Unidirectional Self labeling Assisted Information

Effective date of registration: 20230726

Granted publication date: 20200505

Pledgee: CITIC Bank Limited by Share Ltd. Suzhou branch

Pledgor: Sipic Technology Co.,Ltd.

Registration number: Y2023980049433

PE01 Entry into force of the registration of the contract for pledge of patent right