CN109427330B - 一种基于统计语言模型得分规整的语音识别方法及系统 - Google Patents

一种基于统计语言模型得分规整的语音识别方法及系统 Download PDF

Info

Publication number
CN109427330B
CN109427330B CN201710790753.0A CN201710790753A CN109427330B CN 109427330 B CN109427330 B CN 109427330B CN 201710790753 A CN201710790753 A CN 201710790753A CN 109427330 B CN109427330 B CN 109427330B
Authority
CN
China
Prior art keywords
gram
statistical
score
language model
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710790753.0A
Other languages
English (en)
Other versions
CN109427330A (zh
Inventor
张鹏远
张一珂
潘接林
颜永红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Acoustics CAS
Beijing Kexin Technology Co Ltd
Original Assignee
Institute of Acoustics CAS
Beijing Kexin Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Acoustics CAS, Beijing Kexin Technology Co Ltd filed Critical Institute of Acoustics CAS
Priority to CN201710790753.0A priority Critical patent/CN109427330B/zh
Publication of CN109427330A publication Critical patent/CN109427330A/zh
Application granted granted Critical
Publication of CN109427330B publication Critical patent/CN109427330B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

本发明一种基于统计语言模型得分规整的语音识别方法,所述方法包括:步骤1)建立和训练若干个基于多尺度马尔科夫假设的统计语言模型;包括:k阶统计N元文法语言模型,k‑1个不同阶数的统计N元文法语言模型和k‑1个不同阶数的改进的统计N元文法语言模型;步骤2)将待识别语音进行第一遍解码,得到L条候选语音s;步骤3)利用步骤1)的若干个基于多尺度马尔科夫假设的统计语言模型计算L条候选语音s的语言模型得分,结合声学模型得分计算出每条候选语音的得分;步骤4)选出得分最高的候选语音作为第二遍解码结果;该结果为最终的识别结果。本发明的方法对于识别错误具有良好的容错性,能够有效的提升语音识别的正确率。

Description

一种基于统计语言模型得分规整的语音识别方法及系统
技术领域
本发明涉及语音识别领域和自然语言处理领域,特别涉及一种基于统计语言模型得分规整的语音识别方法及系统。
背景技术
传统的统计语言模型(Language Model,LM)建模目标是学习训练数据的分布,即如何在给定正确的历史词序列的条件下,更加精确预测未来的词。对于统计N元文法语言模型(N gram LM),国内外研究者已提出多种数据平滑(Data Smoothing)算法,例如加法平滑算法、古德-图灵(Good-Turning)平滑算法、Katz平滑算法、Witten-Bell平滑算法、Kneser-Ney平滑算法等。以上数据平滑算法可以归为插值(Interpolation)与回退(Back-off)两类,其目标都是利用有限的训练数据建立更符合真实数据分布的概率分布模型。对于基于神经网络(Neural Network)的语言模型,尚未有学者提出有效的数据平滑算法,而是利用神经网络对历史词汇的低维表示隐含的对数据进行平滑。
在语音识别中,语言模型作用的条件与其训练条件存在较大差异。在语音识别解码过程中,语言模型依赖的历史序列中包含由识别错误引入的非正确词汇序列。此处非正确词汇序列是指不符合语法、语义规则的词汇序列,正确的词汇序列则是符合语法、语义规则的词汇序列。而统计语言模型在训练和参数估计过程中,仅在输入正确词汇序列的条件下进行预测。因此,统计语言模型训练模式与应用目标的差异,导致了语言模型在语音识别任务中性能受限。
发明内容
本发明的目的在于克服现有语言模型的存在的识别错误的容错性低的缺陷,提出了一种基于统计语言模型得分规则的语音识别方法。
为了实现上述目的,本发明提出了一种基于统计语言模型得分规则的语音识别方法,所述方法包括:
步骤1)建立和训练若干个基于多尺度马尔科夫假设的统计语言模型;包括:k阶统计N元文法语言模型,k-1个不同阶数的统计N元文法语言模型和k-1个不同阶数的改进的统计N元文法语言模型;
步骤2)将待识别语音进行第一遍解码,得到L条候选语音s;
步骤3)利用步骤1)的若干个基于多尺度马尔科夫假设的统计语言模型计算L条候选语音s的语言模型得分,结合声学模型得分计算出每条候选语音的得分;
步骤4)选出得分最高的候选语音作为第二遍解码结果;该结果为最终的识别结果。
作为上述方法的一种改进,所述步骤1)具体包括:
步骤1-1)确定马尔科夫假设阶数k,利用训练数据训练待规整的k阶统计N元文法语言模型,记为k gram LM;
步骤1-2)采用步骤1)的训练数据分别训练k+1gram LM,k+2gram LM,…,2k-1gramLM;
给定训练语句W=w1,...,wT,T是语句W的长度,单词wt,1<=t<=T的k gram历史是
Figure BDA0001399149870000021
k gram LM利用语句s中每个单词的k gram历史计算语句W的概率:
Figure BDA0001399149870000022
步骤1-3)训练0skip k gram LM,1skip k+1gram LM,…,k-2skip 2k-2gram LM;
其中,i skip k gram LM,i<k,i,k为正整数;为改进的统计N元文法语言模型;iskip k gram LM的具体定义如下:
单词wt的i skip k gram历史是
Figure BDA0001399149870000023
iskip k gram LM利用语句W中每个单词的i skip k gram历史计算语句W的概率:
Figure BDA0001399149870000024
作为上述方法的一种改进,所述步骤3)具体包括:
步骤3-1)利用k阶统计N元语言模型计算每条候选语音s的原始语言模型得分l(s),并记录该候选语音的声学模型得分a(s),以及语言模型缩放因子lm_sc;
步骤3-2)对于每一条候选语音s,根据k-1个不同阶数的统计N元文法语言模型和k-1个不同阶数的改进的统计N元文法语言模型计算规整后的语言模型得分r(s);
步骤3-3)将规整后的语言模型得分r(s)与原始的语言模型得分l(s)按照比例m进行加权,得到新的语言模型得分p(s)=m*r(s)+(1-m)*l(s);
步骤3-4)重新计算每条候选语音s的得分Score(s)=a(s)+lm_sc*p(s)。
作为上述方法的一种改进,所述步骤3-2)具体实现过程为:
Figure BDA0001399149870000031
其中,Pk(s)表示利用k gram LM计算得到的候选语音s的得分,
Figure BDA0001399149870000032
表示利用iskip i+k gram LM计算得到的候选语音s的得分,r(s)表示利用规整后的语言模型计算得到的候选语音s的得分。
一种基于统计语言模型得分规整的语音识别系统,包括存储器、处理器和存储在存储器上的并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现上述方法的步骤。
本发明的优点在于:
1、本发明的方法提供的语言模型得分规整算法,在语音识别应用中,对于识别错误具有良好的容错性,即依据包含解码错误的词历史序列依然可以稳健的对当前词进行预测;从而能够有效的提升语音识别的正确率;
2、本发明的方法与传统的统计语言模型数据平滑算法具有叠加性,即可以进一步提升平滑后的语言模型的性能;
3、本发明的方法可应用于基于加权有限状态转换器(Weighted Finite StateTransducer,WFST)的一遍解码过程中,只需要将各个k gram LM、i skip k gram LM按照一般的方法插值后,建立WFST解码图即可。
附图说明
图1为本发明的一种基于统计语言模型得分规整的语音识别方法流程图。
具体实施方式
下面结合附图和实施例对本发明的方法进行详细说明。
如图1所示,一种基于统计语言模型得分规整的语音识别方法,包括:
步骤1)建立和训练若干个基于多尺度马尔科夫假设的统计语言模型;
步骤1-1)确定马尔科夫假设阶数k,利用训练数据训练待规整的k阶统计N元文法语言模型(k gram LM);
步骤1-2)采用步骤1)的训练数据分别训练不同阶数的统计N元文法语言模型:k+1gram LM,k+2gram LM,…,2k-1gram LM;
给定训练语句W=w1,...,wT,T是句子长度单词,wt(1<=t<=T)的k gram历史是
Figure BDA0001399149870000033
wt的i skip k gram历史是:
Figure BDA0001399149870000041
k gram LM利用语句W中每个词的k gram历史计算语句W的概率:
Figure BDA0001399149870000042
步骤1-3)训练0skip k gram LM,1skip k+1gram LM,…,k-2skip 2k-2gram LM;
其中,i skip k gram LM(i<k,i,k为正整数)指一种改进的统计N元文法语言模型;i skip k gram LM的具体定义如下:
i skip k gram LM利用语句W中每个词的i skip k gram历史计算语句W的概率:
Figure BDA0001399149870000043
例如给定句子“一二三四五上山打老虎”,0skip 3gram LM在预测词汇“老虎”时,依赖历史词汇“上山”,而3gram LM在预测词汇“老虎”时,依赖历史词汇“上山”和“打”。
步骤2)将待识别语音进行第一遍解码,得到L条候选语音s;
步骤3)利用k gram LM计算每条候选语音的原始语言模型得分l(s),声学模型得a(s),以及语言模型缩放因子lm_sc;
步骤4)对于每一条候选语音s,按照如下公式计算规整后的语言模型得分:
Figure BDA0001399149870000044
其中,Pk(s)表示利用k gram LM计算得到的候选语音s的得分,
Figure BDA0001399149870000045
表示利用iskip i+k gram LM计算得到的候选语音s的得分,r(s)表示利用规整后的语言模型计算得到的候选语音s的得分;
步骤5)将规整后的语言模型得分r(s)与原始的语言模型得分l(s)按照比例m(0<m<1)加权,得到新的语言模型得分p(s)=m*r(s)+(1-m)*l(s);
步骤6)重新计算每条候选语音s的得分Score(s)=a(s)+lm_sc*p(s);
步骤7)选出得分最高的候选语音作为第二遍解码结果;该结果为最终的识别结果。
实例:
本实例采用英文Switchboard公开数据集,利用kaldi语音识别工具搭建识别系统,SRILM工具训练统计语言模型。Switchboard数据集包含Dev和Hub5两个测试集,其中Hub5又包含switchboard(SWB)和callhome(CH)两个子集。
1.搭建基线识别系统:声学模型为3层LSTM-RNN神经网络模型,语言模型为采用Kneser-Ney平滑的2gram统计语言模型(KN2)。
2.抽取100候选:利用基线识别系统对测试集Dev和Hub5分别进行解码,并对每条测试语音保留前100候选。记录每条候选的原始语言模型得分l和声学模型得分a,以及语言模型缩放因子lm_sc。
一般来说,一个语音测试集包含若干条测试语音。
3.训练规整后的语言模型得分所需的辅助模型:依据发明内容步骤1-2)中的公式,规整2gram语言模型的得分,需要训练3gram语言模型和0skip 2gram语言模型。
4.计算规整后的语言模型得分:依据发明内容步骤4)中的公式和步骤4)中的模型可以计算得到每条测试语音每条候选规整后的语言模型得分r。
5.重新计算候选语言模型得分:选取权重比例m=0.5,依据发明内容步骤5)中公式计算新的语言模型得分p(s)=0.5*r(s)+0.5*(s)。
6.重新计算候选总分:取语言模型权重因子lm_sc=9,计算每条测试语音每条候选的最终得分Score(s)=a(s)+9*p(s)。对于每条测试语音,选取Score最高的候选作为重估解码结果。
7.计算重估结果的识别错误率:对Dev、HUB5、SWB、CH,分别依据各自的参考答案(语音转录文本),计算重估结果的识别词错误率(Word Error Rate,WER),具体结果见表1。其中,KN2表示2gram基线语言模型,KN2-r表示规整后的2gram语言模型。
表1:2-gram LM得分规整前后的识别词错误率
Dev Hub5 SWB CH
KN2 16.4 21.2 16.1 26.1
KN2-r 15.9 20.6 15.4 25.6
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (4)

1.一种基于统计语言模型得分规整的语音识别方法,所述方法包括:
步骤1)建立和训练若干个基于多尺度马尔科夫假设的统计语言模型;包括:k阶统计N元文法语言模型,k-1个不同阶数的统计N元文法语言模型和k-1个不同阶数的改进的统计N元文法语言模型;
步骤2)将待识别语音进行第一遍解码,得到L条候选语音s;
步骤3)利用步骤1)的若干个基于多尺度马尔科夫假设的统计语言模型计算L条候选语音s的语言模型得分,结合声学模型得分计算出每条候选语音的得分;
步骤4)选出得分最高的候选语音作为第二遍解码结果;该结果为最终的识别结果;
所述步骤1)具体包括:
步骤1-1)确定马尔科夫假设阶数k,利用训练数据训练待规整的k阶统计N元文法语言模型,记为k gram LM;
步骤1-2)采用步骤1)的训练数据分别训练k+1gram LM,k+2gram LM,…,2k-1gram LM;
给定训练语句W=w1,…,wT,T是语句W的长度,单词wt,1<=t<=T的kgram历史是
Figure FDA0003969717570000011
k gram LM利用语句s中每个单词的k gram历史计算语句W的概率:
Figure FDA0003969717570000012
步骤1-3)训练0skip k gram LM,1skip k+1gram LM,…,k-2skip 2k-2gram LM;
其中,i skip k gram LM,i<k,i,k为正整数;为改进的统计N元文法语言模型;i skipk gram LM的具体定义如下:
单词wt的i skip k gram历史是
Figure FDA0003969717570000013
iskip k gram LM利用语句W中每个单词的i skip k gram历史计算语句W的概率:
Figure FDA0003969717570000014
2.根据权利要求1所述的基于统计语言模型得分规整的语音识别方法,其特征在于,所述步骤3)具体包括:
步骤3-1)利用k阶统计N元语言模型计算每条候选语音s的原始语言模型得分l(s),并记录该候选语音的声学模型得分a(s),以及语言模型缩放因子lm_sc;
步骤3-2)对于每一条候选语音s,根据k-1个不同阶数的统计N元文法语言模型和k-1个不同阶数的改进的统计N元文法语言模型计算规整后的语言模型得分r(s);
步骤3-3)将规整后的语言模型得分r(s)与原始的语言模型得分l(s)按照比例m进行加权,得到新的语言模型得分p(s)=m*r(s)+(1-m)*l(s);
步骤3-4)重新计算每条候选语音s的得分Score(s)=a(s)+lm_sc*p(s)。
3.根据权利要求2所述的基于统计语言模型得分规整的语音识别方法,其特征在于,所述步骤3-2)具体实现过程为:
Figure FDA0003969717570000021
其中,Pk(s)表示利用k gram LM计算得到的候选语音s的得分,
Figure FDA0003969717570000022
表示利用i skipi+k gram LM计算得到的候选语音s的得分,r(s)表示利用规整后的语言模型计算得到的候选语音s的得分。
4.一种基于统计语言模型得分规整的语音识别系统,包括存储器、处理器和存储在存储器上的并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1~3所述方法的步骤。
CN201710790753.0A 2017-09-05 2017-09-05 一种基于统计语言模型得分规整的语音识别方法及系统 Active CN109427330B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710790753.0A CN109427330B (zh) 2017-09-05 2017-09-05 一种基于统计语言模型得分规整的语音识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710790753.0A CN109427330B (zh) 2017-09-05 2017-09-05 一种基于统计语言模型得分规整的语音识别方法及系统

Publications (2)

Publication Number Publication Date
CN109427330A CN109427330A (zh) 2019-03-05
CN109427330B true CN109427330B (zh) 2023-04-07

Family

ID=65513980

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710790753.0A Active CN109427330B (zh) 2017-09-05 2017-09-05 一种基于统计语言模型得分规整的语音识别方法及系统

Country Status (1)

Country Link
CN (1) CN109427330B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110517693B (zh) * 2019-08-01 2022-03-04 出门问问(苏州)信息科技有限公司 语音识别方法、装置、电子设备和计算机可读存储介质
CN112102815B (zh) * 2020-11-13 2021-07-13 深圳追一科技有限公司 语音识别方法、装置、计算机设备和存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103325370A (zh) * 2013-07-01 2013-09-25 百度在线网络技术(北京)有限公司 语音识别方法和语音识别系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE602006013969D1 (de) * 2006-08-11 2010-06-10 Harman Becker Automotive Sys Spracherkennung mittels eines statistischen Sprachmodells unter Verwendung von Quadratwurzelglättung
CN102623010B (zh) * 2012-02-29 2015-09-02 北京百度网讯科技有限公司 一种建立语言模型的方法、语音识别的方法及其装置
CN103971677B (zh) * 2013-02-01 2015-08-12 腾讯科技(深圳)有限公司 一种声学语言模型训练方法和装置
US20150325236A1 (en) * 2014-05-08 2015-11-12 Microsoft Corporation Context specific language model scale factors
US9971765B2 (en) * 2014-05-13 2018-05-15 Nuance Communications, Inc. Revising language model scores based on semantic class hypotheses
CN106803422B (zh) * 2015-11-26 2020-05-12 中国科学院声学研究所 一种基于长短时记忆网络的语言模型重估方法
US10176799B2 (en) * 2016-02-02 2019-01-08 Mitsubishi Electric Research Laboratories, Inc. Method and system for training language models to reduce recognition errors

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103325370A (zh) * 2013-07-01 2013-09-25 百度在线网络技术(北京)有限公司 语音识别方法和语音识别系统

Also Published As

Publication number Publication date
CN109427330A (zh) 2019-03-05

Similar Documents

Publication Publication Date Title
CN111480197B (zh) 语音识别系统
US8019602B2 (en) Automatic speech recognition learning using user corrections
JP4543294B2 (ja) 音声認識装置および音声認識方法、並びに記録媒体
JP2020505650A (ja) 音声認識システム及び音声認識の方法
Sharma et al. State-transition interpolation and MAP adaptation for HMM-based dysarthric speech recognition
US20040186714A1 (en) Speech recognition improvement through post-processsing
CN101887725A (zh) 一种基于音素混淆网络的音素后验概率计算方法
JPH0372998B2 (zh)
JP5752060B2 (ja) 情報処理装置、大語彙連続音声認識方法及びプログラム
KR102199246B1 (ko) 신뢰도 측점 점수를 고려한 음향 모델 학습 방법 및 장치
CN112509560B (zh) 一种基于缓存语言模型的语音识别自适应方法和系统
CN109427330B (zh) 一种基于统计语言模型得分规整的语音识别方法及系统
CN117043857A (zh) 用于英语发音评估的方法、设备和计算机程序产品
JP6027754B2 (ja) 適応化装置、音声認識装置、およびそのプログラム
JP2938866B1 (ja) 統計的言語モデル生成装置及び音声認識装置
US20220199071A1 (en) Systems and Methods for Speech Validation
JP2002082690A (ja) 言語モデル生成方法、音声認識方法及びそのプログラム記録媒体
JP2005156593A (ja) 音響モデル作成方法、音響モデル作成装置、音響モデル作成プログラムおよび音声認識装置
Tao et al. The NLPR Speech Synthesis entry for Blizzard Challenge 2017
JP4689497B2 (ja) 音声認識装置
JP2000075885A (ja) 音声認識装置
JP5170449B2 (ja) 検出装置、音声認識装置、検出方法、及びプログラム
Kadir et al. Bangla speech sentence recognition using hidden Markov models
JPH0981177A (ja) 音声認識装置および単語構成要素の辞書並びに隠れマルコフモデルの学習方法
Dahan et al. Arabic speech pronunciation recognition and correction using Automatic Speech Recognizer (ASR)

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant