CN106486115A - 改进神经网络语言模型的方法和装置及语音识别方法和装置 - Google Patents
改进神经网络语言模型的方法和装置及语音识别方法和装置 Download PDFInfo
- Publication number
- CN106486115A CN106486115A CN201510543232.6A CN201510543232A CN106486115A CN 106486115 A CN106486115 A CN 106486115A CN 201510543232 A CN201510543232 A CN 201510543232A CN 106486115 A CN106486115 A CN 106486115A
- Authority
- CN
- China
- Prior art keywords
- language model
- mentioned
- neutral net
- speech
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000007935 neutral effect Effects 0.000 title claims abstract description 100
- 238000000034 method Methods 0.000 title claims abstract description 68
- 230000006872 improvement Effects 0.000 claims abstract description 48
- RZVAJINKPMORJF-UHFFFAOYSA-N Acetaminophen Chemical compound CC(=O)NC1=CC=C(O)C=C1 RZVAJINKPMORJF-UHFFFAOYSA-N 0.000 claims description 10
- 229940059720 apra Drugs 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 7
- 210000004218 nerve net Anatomy 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 10
- 239000007787 solid Substances 0.000 description 10
- 210000005036 nerve Anatomy 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000001537 neural effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000003245 coal Substances 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Evolutionary Computation (AREA)
Abstract
本发明提供改进语音识别系统的神经网络语言模型的方法、改进语音识别系统的神经网络语言模型的装置、语言识别方法以及语音识别装置。根据一个实施方式的改进语音识别系统的神经网络语言模型的装置,包括:词分类单元,其对上述语音识别系统的词典中的词进行分类;语言模型训练单元,其基于分类的结果训练基于类的语言模型;和向量拼接单元,其将上述基于类的语言模型的输出向量与上述神经网络语言模型的位置指示向量拼接,作为上述神经网络语言模型的输入向量。
Description
技术领域
本发明涉及语音识别系统,具体涉及改进语音识别系统的神经网络语言模型的方法、改进语音识别系统的神经网络语言模型的装置、语言识别方法以及语音识别装置。
背景技术
语音识别系统一般包含声学模型(AM)和语言模型(LM)两个部分。声学模型是统计语音特征对音素单元概率分布的模型,语言模型是统计词序列(词汇上下文)出现概率的模型,语音识别过程是根据两个模型的概率得分的加权和得到得分最高的结果。
作为语言模型中最为经典的方法,统计回退语言模型,如ARPA LM,几乎应用于所有的语音识别系统中。这类模型是一种离散式的非参数化的模型,即直接用词序列的频率来统计出概率。
近几年,神经网络语言模型(NN LM)作为一种新方法被引入语音识别系统,极大地提高了识别性能,其中,深度神经网络(DNN)和递归神经网络(RNN)是两种最具代表性的技术。
上述神经网络LM是一种参数化的统计模型,对语音识别系统词汇的量化采用位置指示向量作为词汇特征,该词汇特征为神经网络LM的输入,而输出为在某词序列历史的条件下,系统词典中每个词作为下一个词出现的概率。每个词汇的特征为位置指示向量,即在以语音识别系统词典大小为维数的向量中将对应某词汇在系统词典中的位置的元素标为“1”,而其他元素均为“0”。
发明内容
本发明者们发现,位置指示向量仅包含了词汇在系统词典中的位置信息,因此,以往的神经网络语言模型对词序列出现概率的学习和预测能力还存在进一步改进的余地。
为了进一步改进神经网络语言模型对词序列出现概率的学习和预测能力,本发明提出了将其他信息加入位置指示向量中,从而提高神经网络语言模型对词序列出现概率的学习和预测能力的方法和装置。也就是说,本发明提供了改进语音识别系统的神经网络语言模型的方法和装置,并进一步提供了语音识别方法和语音识别装置。具体地,提供了以下技术方案。
[1]一种改进语音识别系统的神经网络语言模型的装置,具备:
词分类单元,其对上述语音识别系统的词典中的词进行分类;
语言模型训练单元,其基于分类的结果训练基于类的语言模型;和
向量拼接单元,其将上述基于类的语言模型的输出向量与上述神经网络语言模型的位置指示向量拼接,作为上述神经网络语言模型的输入向量。
根据上述[1]的改进语音识别系统的神经网络语言模型的装置,可以将基于类的语言模型的向量作为附加特征加入神经网络语言模型的输入向量,能够提高神经网络语言模型对词序列出现概率的学习和预测能力。
[2]根据上述[1]的改进神经网络语言模型的装置,其中,
上述词分类单元,基于预定的标准对上述词典中的词进行分类。
[3]根据上述[2]的改进神经网络语言模型的装置,其中,
上述预定的标准包括词性、语义和语用信息。
根据上述[2]和[3]的改进神经网络语言模型的装置,可以以多个标准对词典中的词进行分类,由此,能够提高对词典中的词分类的多样性。并且,根据不同的分类标准,可相应地得到不同的基于类的语言模型,由此,能够提高基于类的语言模型的多样性。
[4]根据上述[3]所述的改进神经网络语言模型的装置,其中,
上述词分类单元,基于词性以预定的分类方式对上述词典中的词进行分类。
根据上述[4]的改进神经网络语言模型的装置,在以词性为标准对词典中的词进行分类时,能够进一步以例如100种词性和315种词性的分类方式对词典中的词进行分类,能够进一步提高对词典分类的多样性。并且,根据不同的分类方式,可相应地得到不同的基于类的语言模型,由此,能够进一步提高基于类的语言模型的多样性。
[5]根据上述[1]-[4]的任一项的改进神经网络语言模型的装置,其中,
上述语言模型训练单元,以预定的阶数训练基于类的语言模型。
根据上述[5]的改进神经网络语言模型的装置,能够以预定的阶数训练基于类的语言模型,例如,可以以3-gram、4-gram训练基于类的语言模型,根据不同的阶数,可相应地得到不同的基于类的语言模型,由此,能够提高基于类的语言模型的多样性。
[6]根据上述[1]-[4]的任一项的改进神经网络语言模型的装置,其中,
上述基于类的语言模型包括APRA语言模型、NN语言模型和RF语言模型。
[7]根据上述[6]的改进神经网络语言模型的装置,其中,
上述NN语言模型包括DNN语言模型和RNN语言模型。
根据上述[6]和[7]的改进神经网络语言模型的装置,基于类的语言模型例如可以是APRA语言模型、DNN语言模型、RNN语言模型和RF语言模型,根据不同类型的语言模型,可相应地得到不同的基于类的语言模型,由此,能够提高基于类的语言模型的多样性。
[8]一种语音识别装置,具备:
语音输入单元,其用于输入待识别的语音;
文本句识别单元,其利用声学模型将上述语音识别为文本句;和
得分计算单元,其利用语言模型计算上述文本句的得分;
所述语言模型包括由上述[1]-[7]的任一项的装置改进后的语言模型。
根据上述[7]的语音识别装置,使用了由上述[1]-[7]的任一项的装置改进后的语言模型,由此,可以将基于类的语言模型的向量作为附加特征加入神经网络语言模型的输入向量,能够提高神经网络语言模型对词序列出现概率的学习和预测能力。另外,能够提高基于类的语言模型的多样性。
[9]根据上述[8]所述的语音识别装置,还具备:
平均值计算单元,其计算利用两个以上的语言模型分别计算出的得分的加权平均值,作为上述文本句的得分。
根据上述[9]的语音识别装置,计算利用两个以上的语言模型分别计算出的得分的加权平均值,作为上述文本句的得分,由此,能够进一步提高识别准确率。具体地,由于分类标准多种多样(例如词性、语义、语用信息等),同一分类标准也有不同的分类方式(例如,对于词性分类有100种词性分类和315种词性分类等),同一分类标准也有不同上下文阶数(例如3-gram、4-gram等)的语言模型,语言模型也有多种选择(例如APRA语言模型、DNN语言模型、RNN语言模型和RF语言模型等),因此能够提高对词典中的词分类的多样性,与此相应,也能提高训练出的基于类的语言模型的多样性,得到多种以基于类的语言模型的得分为附加特征而改进了的神经网络语言模型,再将这些神经网络语言模型进行融合时可进一步提高识别准确率,提高识别性能。
[10]一种改进语音识别系统的神经网络语言模型的方法,包括:
对上述语音识别系统的词典中的词进行分类;
基于分类的结果训练基于类的语言模型;和
将上述基于类的语言模型的输出向量与上述神经网络语言模型的位置指示向量拼接,作为上述神经网络语言模型的输入向量。
根据上述[10]的改进语音识别系统的神经网络语言模型的方法,可以将基于类的语言模型的向量作为附加特征加入神经网络语言模型的输入向量,能够提高神经网络语言模型对词序列出现概率的学习和预测能力。
[11]根据上述[10]的改进神经网络语言模型的方法,其中,
对上述词典中的词进行分类的步骤包括:
基于预定的标准对上述词典中的词进行分类。
[12]根据上述[11]的改进神经网络语言模型的方法,其中,
上述预定的标准包括词性、语义和语用信息。
根据上述[11]和[12]的改进神经网络语言模型的方法,可以以多个标准对词典中的词进行分类,由此,能够提高对词典中的词分类的多样性。并且,根据不同的分类标准,可相应地得到不同的基于类的语言模型,由此,能够提高基于类的语言模型的多样性。
[13]根据上述[12]的改进神经网络语言模型的方法,其中,
对上述词典中的词进行分类的步骤包括:
基于词性以预定的分类方式对上述词典中的词进行分类。
根据上述[13]的改进神经网络语言模型的方法,在以词性为标准对词典中的词进行分类时,能够进一步以例如100种词性和315种词性的分类方式对词典中的词进行分类,能够进一步提高对词典分类的多样性。并且,根据不同的分类方式,可相应地得到不同的基于类的语言模型,由此,能够进一步提高基于类的语言模型的多样性。
[14]根据上述[10]-[13]的任一项的改进神经网络语言模型的方法,其中,
上述基于分类的结果训练基于类的语言模型的步骤包括:
以预定的阶数训练基于类的语言模型。
根据上述[14]的改进神经网络语言模型的方法,能够以预定的阶数训练基于类的语言模型,例如,可以以3-gram、4-gram训练基于类的语言模型,根据不同的阶数,可相应地得到不同的基于类的语言模型,由此,能够提高基于类的语言模型的多样性。
[15]根据上述[10]-[13]的任一项的改进神经网络语言模型的方法,其中,
上述基于类的语言模型包括APRA语言模型、NN语言模型和RF语言模型。
[16]根据上述[15]的改进神经网络语言模型的方法,其中,
上述NN语言模型包括DNN语言模型和RNN语言模型。
根据上述[15]和[16]的改进神经网络语言模型的方法,基于类的语言模型例如可以是APRA语言模型、DNN语言模型、RNN语言模型和RF语言模型,根据不同类型的语言模型,可相应地得到不同的基于类的语言模型,由此,能够提高基于类的语言模型的多样性。
[17]一种语音识别方法,包括:
输入待识别的语音;
利用声学模型将上述语音识别为文本句;和
利用语言模型计算上述文本句的得分;
所述语言模型包括由上述[10]-[16]的任一项的方法改进后的语言模型。
根据上述[17]的语音识别方法,使用了由上述[10]-[16]的任一项的方法改进后的语言模型,可以将基于类的语言模型的向量作为附加特征加入神经网络语言模型的输入向量,能够提高神经网络语言模型对词序列出现概率的学习和预测能力。另外,能够提高基于类的语言模型的多样性。
[18]根据上述[17]所述的语音识别方法,其中,
利用语言模型计算上述文本句的得分的步骤包括:
计算利用两个以上的语言模型分别计算出的得分的加权平均值,作为上述文本句的得分。
根据上述[18]的语音识别方法,计算利用两个以上的语言模型分别计算出的得分的加权平均值,作为上述文本句的得分,由此,能够进一步提高识别准确率。具体地,由于分类标准多种多样(例如词性、语义、语用信息等),同一分类标准也有不同的分类方式(例如,对于词性分类有100种词性分类和315种词性分类等),同一分类标准也有不同上下文阶数(例如3-gram、4-gram等)的语言模型,语言模型也有多种选择(例如APRA语言模型、DNN语言模型、RNN语言模型和RF语言模型等),因此能够提高对词典中的词分类的多样性,与此相应,也能提高训练出的基于类的语言模型的多样性,得到多种以基于类的语言模型的得分为附加特征而改进了的神经网络语言模型,再将这些神经网络语言模型进行融合时可进一步提高识别准确率,提高识别性能。
附图说明
通过以下结合附图对本发明具体实施方式的说明,能够更好地了解本发明上述的特点、优点和目的。
图1是根据本发明的一个实施方式的改进语音识别系统的神经网络语言模型的方法的流程图。
图2是对本发明的一个实施方式的改进语音识别系统的神经网络语言模型的方法进行说明的框图。
图3是对本发明的一个实施方式的改进语音识别系统的神经网络语言模型的方法进行说明的框图。
图4是根据本发明的另一实施方式的语音识别方法的流程图。
图5是根据本发明的另一实施方式的改进语音识别系统的神经网络语言模型的装置的框图。
图6是根据本发明的另一实施方式的语音识别装置的框图。
具体实施方式
下面就结合附图对本发明的各个优选实施例进行详细的说明。
改进语音识别系统的神经网络语言模型的方法
图1是根据本发明的改进语音识别系统的神经网络语言模型的方法的流程图。
如图1所示,首先,在步骤S100中,对语音识别系统的词典中的词进行分类。
关于对语音识别系统的词典中的词进行分类的方法,参照图2的框图进行说明。
在图2中,P1示出词典中的词1、词2……。
如P2所示,作为对语音识别系统的词典中的词进行分类的标准,可列举词性、语义和语用信息等,本实施方式对此没有任何限制。在本实施方式中,以词性为例进行说明。
在以同一分类标准对词典中的词进行分类时,也会存在不同的分类方式,例如如图2中的P3所示,在如本实施方式那样以词性为标准对词典中的词进行分类时,存在315种词性的分类和100种词性的分类。
在本实施方式中,以315种词性的分类方式为例进行说明。
在确定了对词典中的词进行分类的方式之后,P1中的词1、词2……就会与315种词性对应地被分类成P4中的词性1、词性2……,完成对词典中的词的分类。
另外,对语音识别系统的词典中的词进行分类的标准不限于上述列举的标准,并且在任一种标准下都可能对应不同的分类方式。
返回图1,在步骤S100中对语言识别系统的词典中的词进行分类后,进入S110。
在S110中,基于分类的结果训练基于类的语言模型。
参照图2对基于分类的结果训练基于类的语言模型的步骤进行说明。
在基于P4中的分类结果来训练基于类的语言模型时,可以以不同的阶数(n-gram)训练基于类的语言模型,例如可以训练3-gram语言模型、4-gram语言模型等。另外,作为训练出的语言模型的类型(type),例如可列举APRA语言模型、DNN语言模型、RNN语言模型和随机场(RF)语言模型,也可以是其他语言模型。
如图2的P5所示,在本实施方式中,以4-gram ARPA语言模型为例,将其作为基于类的语言模型。
返回图1,在步骤S110中基于分类的结果训练基于类的语言模型后,进入S120。
在S120中,将上述基于类的语言模型的输出向量与上述神经网络语言模型的位置指示向量拼接,作为上述神经网络语言模型的输入向量。
以下,参照图3的框图,对S120的处理的一例进行说明,在图3中以与词(t)对应的位置指示向量和基于类的语言模型的输出向量为例进行说明。
R1表示词典,本实施方式中,词典R1例如含有10000个词。
如R2、R3所示,词典中的10000个词“……词(t-n+1)……词(t-1)词(t)词(t+1)……”被以315种词性进行分类,得到对应的R3中的“……词性(t-n+1)……词性(t-1)词性(t)词性(t+1)……”。
R4的4-gram ARPA LM为上述S110中训练出的基于类的语言模型,其以315种词性为分类方式。
R6表示位置指示向量。
以下,参照图3,以位置指示向量R6为例对位置指示向量进行说明。
位置指示向量是常规神经网络语言模型的每个词汇的特征,维数与词典中词汇的数量相同,将对应某词汇在词典中的位置的元素标为“1”,而其他元素均为“0”,由此,位置指示向量包含了词汇在词典中的位置信息。
在本实施方式中,词典R1包含10000个词汇,所以位置指示向量R6的维数为10000维,在图3中,R6中的每一个格代表一个维数,图3中仅示出了一部分维数。
位置指示向量R6中的黑实心格R61与词汇在词典中的位置相对应,黑实心格代表“1”,一个位置指示向量中仅存在一个黑实心格。除了黑实心格R61之外,R6中还存在9999个空心格,空心格代表“0”,在此,仅示出了一部分空心格。
图5中的黑实心格与R2中的词(t)的位置相对应,所以位置指示向量R6包含了词(t)在词典R1中的位置信息。
R5表示基于类的语言模型的输出向量。
以下,参照图3,以基于类的语言模型的输出向量R5为例对基于类的语言模型的输出向量进行说明。在以下说明中,将基于类的语言模型的输出向量R5简称为输出向量R5。
输出向量R5也是一个多维向量,其表示语言模型R4的概率输出。
如上所述,在训练语言模型R4时,以315种词性进行了分类。
输出向量R5的维数与分类的结果对应,是315维的向量,并且每一维的位置代表315种词性中的某个具体词性,每一维的数值代表是315种词性中的某个具体词性的概率。
并且,在R4为n-gram语言模型时,能够根据前n-1个词的词性来算出第n个词是某个词性的概率。
在本实施方式中,作为例子,语言模型R4是4-gram语言模型,所以能够根据前3个词(即,词(t)词(t-1)词(t-2))的词性来算出第4个词(即,词(t+1))是315种词性中的某个词性的概率,即能够算出上述词(t)的下一个词是哪个词性的概率。
在图3中,R5中的每一格代表一个维数,也就是说每一个格对应于315种词性种的某个词性,每一个格的数值代表下个词是某个具体词性的概率,是0以上且1以下的值,所以用灰实心格进行示出。图3中仅示出了一部分的维数。
以上,以R4为4-gram语言模型为例进行了说明,特别地,在R4为1-gram语言模型时,在输出向量R5中,与当前的词(t)的词性对应的位置(即,R5中的某个格)的数值成为1,其余格的位置均为0。
在得到了与词(t)对应的位置指示向量R6和输出向量R5后,将位置指示向量R6与输出向量R5拼接,将拼接后的向量作为神经网络语言模型的输入向量来训练神经网络语言模型,由此得到R7的神经网络语言模型。
此处,“拼接”是指位置指示向量R6与输出向量R5的维数的相加,在如上述那样位置指示向量R6为10000维,输出向量R5为315维的情况下,拼接后的向量成为10315维的向量。
在本实施例中,在拼接后的10315维的向量中,包含词(t)在词典R1中的位置信息和词(t+1)是315种词性中的某个词性的概率的信息。
在本实施方式中,将基于类的语言模型的向量作为附加特征加入神经网络语言模型的输入向量,能够提高神经网络语言模型对词序列出现概率的学习和预测能力。
另外,在本实施方式中,分类标准多种多样(例如词性、语义、语用信息等),同一分类标准也有不同的分类方式(例如,对于词性分类有100种词性分类和315种词性分类等),同一分类标准也有不同上下文阶数(例如3-gram、4-gram等)的语言模型,语言模型也有多种选择(例如APRA语言模型、DNN语言模型、RNN语言模型和RF语言模型等),因此能够提高对词典中的词分类的多样性,与此相应,也能提高训练出的基于类的语言模型的多样性,得到多种以基于类的语言模型的得分为附加特征而改进了的神经网络语言模型,在将这些神经网络语言模型进行融合时可进一步提高识别准确率,提高识别性能。
语音识别方法
图4是在同一发明构思下的本发明的语音识别方法的流程图。下面就结合该图,对本实施方式进行描述。对于那些与前面实施例相同的部分,适当省略其说明。
在本实施方式中,在S200中,输入待识别的语音,然后进入S210。
在S210中,利用声学模型将上述语音识别为文本句,然后进入S220。
在S220中,利用通过上述第一实施方式的方法改进后的语言模型计算上述文本句的得分。
由此,由于使用了提高了对词序列出现概率的学习和预测能力的神经网络语言模型,所以能够提高语言识别方法的识别准确率。
在S220中,也可以利用两个以上的语言模型分别计算得分,将计算出的得分的加权平均值作为文本句的得分。
其中,该两个以上的语言模型只要其中至少一个是通过上述第一实施方式的方法改进后的语言模型即可,可以全部是改进后的语言模型,也可以一部分是改进后的语言模型,而另一部分是ARPA语言模型等公知的各种语言模型。
由此,含有不同附加特征的神经网络语言模型能够进一步融合,可进一步提高语言识别方法的识别准确率。
关于S220中所使用的改进后的语言模型,使用按照上述的改进神经网络语言模型的方法改进后的神经网络语言模型即可,其改进的过程已在改进神经网络语言模型的方法中详细叙述,在此省略详细的说明。
改进语音识别系统的神经网络语言模型的装置
图5是在同一发明构思下的本发明的改进语音识别系统的神经网络语言模型的装置的框图。下面就结合该图,对本实施方式进行描述。对于那些与前面实施方式相同的部分,适当省略其说明。
以下,有时将“改进语音识别系统的神经网络语言模型的装置”简称为“改进语言模型的装置”。
本实施方式提供一种改进语音识别系统的神经网络语言模型的装置10,包括:词分类单元100,其对上述语音识别系统的词典1中的词进行分类;语言模型训练单元110,其基于分类的结果训练基于类的语言模型;和向量拼接单元120,其将上述基于类的语言模型的输出向量与上述神经网络语言模型的位置指示向量拼接,作为上述神经网络语言模型2的输入向量。
如图5所示,词典分类单元100对语音识别系统的词典中的词进行分类。
关于词典分类单元100对语音识别系统的词典中的词进行分类的方法,参照图2的框图进行说明。
在图2中,P1示出词典中的词1、词2……。
如P2所示,作为对语音识别系统的词典中的词进行分类的标准,可列举词性、语义和语用信息等,本实施方式对此没有任何限制。在本实施方式中,以词性为例进行说明。
在以同一分类标准对词典中的词进行分类时,也会存在不同的分类方式,例如如图2中的P3所示,在如本实施方式那样以词性为标准对词典中的词进行分类时,存在315种词性的分类和100种词性的分类。
在本实施方式中,以315种词性的分类方式为例进行说明。
在确定了对词典中的词进行分类的方式之后,P1中的词1、词2……就会与315种词性对应地被分类成P4中的词性1、词性2……,完成对词典中的词的分类。
另外,对语音识别系统的词典中的词进行分类的标准不限于上述列举的标准,并且在任一种标准下都可能对应不同的分类方式。
返回图5,在词分类单元100对语音识别系统的词典中的词进行分类之后,语言模型训练单元110基于分类的结果训练基于类的语言模型。
参照图2对语言模型训练单元110基于分类的结果训练基于类的语言模型进行详细说明。
在基于P4中的分类结果来训练基于类的语言模型时,可以以不同的阶数(n-gram)训练基于类的语言模型,例如可以训练3-gram语言模型、4-gram语言模型等。另外,作为训练出的语言模型的类型(type),例如可列举ARPA语言模型、DNN语言模型、RNN语言模型和随机场(RF)语言模型,也可以是其他语言模型。
如图2的P5所示,在本实施方式中,以4-gram ARPA语言模型为例,将其作为基于类的语言模型。
返回图5,在语言模型训练单元110基于分类的结果训练基于类的语言模型后,向量拼接单元120将上述基于类的语言模型的输出向量与上述神经网络语言模型的位置指示向量拼接,作为上述神经网络语言模型2的输入向量。
以下,参照图3的框图,对向量拼接单元120所执行的处理的一例进行说明,在图3中以与词(t)对应的位置指示向量和基于类的语言模型的输出向量为例进行说明。
R1表示词典,本实施方式中,词典R1例如含有10000个词。
如R2、R3所示,词典中的10000个词“……词(t-n+1)……词(t-1)词(t)词(t+1)……”被以315种词性进行分类,得到对应的R3中的“……词性(t-n+1)……词性(t-1)词性(t)词性(t+1)……”。
R4的4-gram ARPA LM为由语言模型训练单元110训练出的基于类的语言模型,其以315种词性为分类方式。
R6表示位置指示向量。
以下,参照图3,以位置指示向量R6为例对位置指示向量进行说明。
位置指示向量是常规神经网络语言模型的每个词汇的特征,维数与词典中词汇的数量相同,将对应某词汇在词典中的位置的元素标为“1”,而其他元素均为“0”,由此,位置指示向量包含了词汇在词典中的位置信息。
在本实施方式中,词典R1包含10000个词汇,所以位置指示向量R6的维数为10000维,在图3中,R6中的每一个格代表一个维数,图3中仅示出了一部分维数。
位置指示向量R6中的黑实心格R61与词汇在词典中的位置相对应,黑实心格代表“1”,一个位置指示向量中仅存在一个黑实心格。除了黑实心格R61之外,R6中还存在9999个空心格,空心格代表“0”,在此,仅示出了一部分空心格。
图3中的黑实心格与R2中的词(t)的位置相对应,所以位置指示向量R6包含了词(t)在词典R1中的位置信息。
R5表示基于类的语言模型的输出向量。
以下,参照图3,以基于类的语言模型的输出向量R5为例对基于类的语言模型的输出向量进行说明。在以下说明中,将基于类的语言模型的输出向量R5简称为输出向量R5。
输出向量R5也是一个多维向量,其表示语言模型R4的概率输出。
如上所述,在训练语言模型R4时,以315种词性进行了分类。
输出向量R5的维数与分类的结果对应,是315维的向量,并且每一维的位置代表315种词性中的某个具体词性,每一维的数值代表是315种词性中的某个具体词性的概率。
并且,在R4为n-gram语言模型时,能够根据前n-1个词的词性来算出第n个词是某个词性的概率。
在本实施方式中,作为例子,语言模型R4是4-gram语言模型,所以能够根据前3个词(即,词(t)词(t-1)词(t-2))的词性来算出第4个词(即,词(t+1))是315种词性中的某个词性的概率,即能够算出上述词(t)的下一个词是哪个词性的概率。
在图3中,R5中的每一格代表一个维数,也就是说每一个格对应于315种词性种的某个词性,每一个格的数值代表下个词是某个具体词性的概率,是0以上且1以下的值,所以用灰实心格进行示出。图3中仅示出了一部分的维数。
以上,以R4为4-gram语言模型为例进行了说明,特别地,在R4为1-gram语言模型时,在输出向量R5中,与当前的词(t)的词性对应的位置(即,R5中的某个格)的数值成为1,其余格的位置均为0。
在得到了与词(t)对应的位置指示向量R6和输出向量R5后,将位置指示向量R6与输出向量R5拼接,将拼接后的向量作为神经网络语言模型的输入向量来训练神经网络语言模型,由此得到R7的神经网络语言模型。
此处,“拼接”是指位置指示向量R6与输出向量R5的维数的相加,在如上述那样位置指示向量R6为10000维,输出向量R5为315维的情况下,拼接后的向量成为10315维的向量。
在本实施例中,在拼接后的10315维的向量中,包含词(t)在词典R1中的位置信息和词(t+1)是315种词性中的某个词性的概率的信息。
在本实施方式中,根据改进语言模型的装置10,将基于类的语言模型的向量作为附加特征加入神经网络语言模型的输入向量,能够提高神经网络语言模型对词序列出现概率的学习和预测能力。
另外,在本实施方式中,根据改进语言模型的装置10,分类标准多种多样(例如词性、语义、语用信息等),同一分类标准也有不同的分类方式(例如,对于词性分类有100种词性分类和315种词性分类等),同一分类标准也有不同上下文阶数(例如3-gram、4-gram等)的语言模型,语言模型也有多种选择(例如APRA语言模型、DNN语言模型、RNN语言模型和RF语言模型等),因此能够提高对词典中的词分类的多样性,与此相应,也能提高训练出的基于类的语言模型的多样性,得到多种以基于类的语言模型的得分为附加特征而改进了的神经网络语言模型,在将这些神经网络语言模型进行融合时可进一步提高识别准确率,提高识别性能。
语音识别装置
图6是在同一发明构思下的本发明的语音识别装置的框图。下面就结合该图,对本实施方式进行描述。对于那些与前面实施方式相同的部分,适当省略其说明。
本实施方式提供一种语音识别装置20,具备:语音输入单元200,其用于输入待识别的语音3;文本句识别单元210,其利用声学模型将上述语音识别为文本句;和得分计算单元220,其利用语言模型计算上述文本句的得分;所述语言模型包括由上述实施方式中的改进语音识别系统的神经网络语言模型的装置改进后的语言模型。
在本实施方式中,从语音输入单元200输入待识别的语音,然后文本句识别单元210利用声学模型将上述语音识别为文本句。
在由文本句识别单元210识别出文本句后,得分计算单元220利用通过上述改进语言模型的方法改进后的语言模型计算上述文本句的得分,根据得分生成识别结果。
由此,根据本实施方式的语音识别装置20,由于使用了提高了对词序列出现概率的学习和预测能力的神经网络语言模型,所以能够提高语言识别方法的识别准确率。
另外,得分计算单元220也可以利用两个以上的语言模型分别计算得分,将计算出的得分的加权平均值作为文本句的得分。
其中,该两个以上的语言模型只要其中至少一个是上述的改进后的语言模型即可,可以全部是改进后的语言模型,也可以一部分是改进后的语言模型,而另一部分是ARPA语言模型等公知的各种语言模型。
由此,含有不同附加特征的神经网络语言模型能够进一步融合,可进一步提高语言识别方法的识别准确率。
关于得分计算单元220所使用的改进后的语言模型,使用按照上述的改进神经网络语言模型的方法改进后的神经网络语言模型即可,其改进的过程已在改进神经网络语言模型的方法中详细叙述,在此省略详细的说明。
以上虽然通过一些示例性的实施方式详细地描述了本发明的改进语音识别系统的神经网络语言模型的方法、改进语音识别系统的神经网络语言模型的装置、语言识别方法以及语音识别装置,但是以上这些实施方式并不是穷举的,本领域技术人员可以在本发明的精神和范围内实现各种变化和修改。因此,本发明并不限于这些实施方式,本发明的范围仅由所附权利要求为准。
Claims (10)
1.一种改进语音识别系统的神经网络语言模型的装置,包括:
词分类单元,其对上述语音识别系统的词典中的词进行分类;
语言模型训练单元,其基于分类的结果训练基于类的语言模型;和
向量拼接单元,其将上述基于类的语言模型的输出向量与上述神经网络语言模型的位置指示向量拼接,作为上述神经网络语言模型的输入向量。
2.根据权利要求1所述的改进神经网络语言模型的方法,其中,
上述词分类单元,基于预定的标准对上述词典中的词进行分类。
3.根据权利要求2所述的改进神经网络语言模型的方法,其中,
上述预定的标准包括词性、语义和语用信息。
4.根据权利要求3所述的改进神经网络语言模型的方法,其中,
上述词分类单元,基于词性以预定的分类方式对上述词典中的词进行分类。
5.根据权利要求1-4的任一项所述的改进神经网络语言模型的方法,其中,
上述语言模型训练单元,以预定的阶数训练基于类的语言模型。
6.根据权利要求1-4的任一项所述的改进神经网络语言模型的方法,其中,
上述基于类的语言模型包括APRA语言模型、NN语言模型和RF语言模型。
7.根据权利要求6所述的改进神经网络语言模型的方法,其中,
上述NN语言模型包括DNN语言模型和RNN语言模型。
8.一种语音识别装置,具备:
语音输入单元,其用于输入待识别的语音;
文本句识别单元,其利用声学模型将上述语音识别为文本句;和
得分计算单元,其利用语言模型计算上述文本句的得分;
所述语言模型包括由权利要求1-7中任一项的装置改进后的语言模型。
9.一种改进语音识别系统的神经网络语言模型的方法,包括:
对上述语音识别系统的词典中的词进行分类;
基于分类的结果训练基于类的语言模型;和
将上述基于类的语言模型的输出向量与上述神经网络语言模型的位置指示向量拼接,作为上述神经网络语言模型的输入向量。
10.一种语音识别方法,包括:
输入待识别的语音;
利用声学模型将上述语音识别为文本句;和
利用语言模型计算上述文本句的得分;
所述语言模型包括由权利要求9所述的方法改进后的语言模型。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510543232.6A CN106486115A (zh) | 2015-08-28 | 2015-08-28 | 改进神经网络语言模型的方法和装置及语音识别方法和装置 |
US15/247,589 US20170061958A1 (en) | 2015-08-28 | 2016-08-25 | Method and apparatus for improving a neural network language model, and speech recognition method and apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510543232.6A CN106486115A (zh) | 2015-08-28 | 2015-08-28 | 改进神经网络语言模型的方法和装置及语音识别方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106486115A true CN106486115A (zh) | 2017-03-08 |
Family
ID=58104171
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510543232.6A Pending CN106486115A (zh) | 2015-08-28 | 2015-08-28 | 改进神经网络语言模型的方法和装置及语音识别方法和装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20170061958A1 (zh) |
CN (1) | CN106486115A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107358948A (zh) * | 2017-06-27 | 2017-11-17 | 上海交通大学 | 基于注意力模型的语言输入关联性检测方法 |
CN108320740A (zh) * | 2017-12-29 | 2018-07-24 | 深圳和而泰数据资源与云技术有限公司 | 一种语音识别方法、装置、电子设备及存储介质 |
CN108563639A (zh) * | 2018-04-17 | 2018-09-21 | 内蒙古工业大学 | 一种基于循环神经网络的蒙古语语言模型 |
CN108630192A (zh) * | 2017-03-16 | 2018-10-09 | 清华大学 | 一种非汉语语音识别方法、系统及其构造方法 |
CN110517693A (zh) * | 2019-08-01 | 2019-11-29 | 出门问问(苏州)信息科技有限公司 | 语音识别方法、装置、电子设备和计算机可读存储介质 |
CN110858480A (zh) * | 2018-08-15 | 2020-03-03 | 中国科学院声学研究所 | 一种基于n元文法神经网络语言模型的语音识别方法 |
CN111540343A (zh) * | 2020-03-17 | 2020-08-14 | 北京捷通华声科技股份有限公司 | 一种语料识别方法和装置 |
CN111583906A (zh) * | 2019-02-18 | 2020-08-25 | 中国移动通信有限公司研究院 | 一种语音会话的角色识别方法、装置及终端 |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107220220A (zh) * | 2016-03-22 | 2017-09-29 | 索尼公司 | 用于文本处理的电子设备和方法 |
US11550751B2 (en) * | 2016-11-18 | 2023-01-10 | Microsoft Technology Licensing, Llc | Sequence expander for data entry/information retrieval |
CN109147773B (zh) * | 2017-06-16 | 2021-10-26 | 上海寒武纪信息科技有限公司 | 一种语音识别装置和方法 |
US11544345B1 (en) * | 2022-03-09 | 2023-01-03 | My Job Matcher, Inc. | Apparatuses and methods for linking posting data |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080249762A1 (en) * | 2007-04-05 | 2008-10-09 | Microsoft Corporation | Categorization of documents using part-of-speech smoothing |
US20100145678A1 (en) * | 2008-11-06 | 2010-06-10 | University Of North Texas | Method, System and Apparatus for Automatic Keyword Extraction |
CN103035241A (zh) * | 2012-12-07 | 2013-04-10 | 中国科学院自动化研究所 | 模型互补的汉语韵律间断识别系统及方法 |
CN103810999A (zh) * | 2014-02-27 | 2014-05-21 | 清华大学 | 基于分布式神经网络的语言模型训练方法及其系统 |
CN104217717A (zh) * | 2013-05-29 | 2014-12-17 | 腾讯科技(深圳)有限公司 | 构建语言模型的方法及装置 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6347297B1 (en) * | 1998-10-05 | 2002-02-12 | Legerity, Inc. | Matrix quantization with vector quantization error compensation and neural network postprocessing for robust speech recognition |
US8738354B2 (en) * | 2009-06-19 | 2014-05-27 | Microsoft Corporation | Trans-lingual representation of text documents |
US9311915B2 (en) * | 2013-07-31 | 2016-04-12 | Google Inc. | Context-based speech recognition |
KR102167719B1 (ko) * | 2014-12-08 | 2020-10-19 | 삼성전자주식회사 | 언어 모델 학습 방법 및 장치, 음성 인식 방법 및 장치 |
KR102305584B1 (ko) * | 2015-01-19 | 2021-09-27 | 삼성전자주식회사 | 언어 모델 학습 방법 및 장치, 언어 인식 방법 및 장치 |
US9720901B2 (en) * | 2015-11-19 | 2017-08-01 | King Abdulaziz City For Science And Technology | Automated text-evaluation of user generated text |
-
2015
- 2015-08-28 CN CN201510543232.6A patent/CN106486115A/zh active Pending
-
2016
- 2016-08-25 US US15/247,589 patent/US20170061958A1/en not_active Abandoned
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080249762A1 (en) * | 2007-04-05 | 2008-10-09 | Microsoft Corporation | Categorization of documents using part-of-speech smoothing |
US20100145678A1 (en) * | 2008-11-06 | 2010-06-10 | University Of North Texas | Method, System and Apparatus for Automatic Keyword Extraction |
CN103035241A (zh) * | 2012-12-07 | 2013-04-10 | 中国科学院自动化研究所 | 模型互补的汉语韵律间断识别系统及方法 |
CN104217717A (zh) * | 2013-05-29 | 2014-12-17 | 腾讯科技(深圳)有限公司 | 构建语言模型的方法及装置 |
CN103810999A (zh) * | 2014-02-27 | 2014-05-21 | 清华大学 | 基于分布式神经网络的语言模型训练方法及其系统 |
Non-Patent Citations (1)
Title |
---|
TOMAS MIKOLOV ET AL.: "EXTENSIONS OF RECURRENT NEURAL NETWORK LANGUAGE MODEL", 《2011 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP)》 * |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108630192A (zh) * | 2017-03-16 | 2018-10-09 | 清华大学 | 一种非汉语语音识别方法、系统及其构造方法 |
CN108630192B (zh) * | 2017-03-16 | 2020-06-26 | 清华大学 | 一种非汉语语音识别方法、系统及其构造方法 |
CN107358948B (zh) * | 2017-06-27 | 2020-06-09 | 上海交通大学 | 基于注意力模型的语言输入关联性检测方法 |
CN107358948A (zh) * | 2017-06-27 | 2017-11-17 | 上海交通大学 | 基于注意力模型的语言输入关联性检测方法 |
CN108320740A (zh) * | 2017-12-29 | 2018-07-24 | 深圳和而泰数据资源与云技术有限公司 | 一种语音识别方法、装置、电子设备及存储介质 |
CN108563639A (zh) * | 2018-04-17 | 2018-09-21 | 内蒙古工业大学 | 一种基于循环神经网络的蒙古语语言模型 |
CN108563639B (zh) * | 2018-04-17 | 2021-09-17 | 内蒙古工业大学 | 一种基于循环神经网络的蒙古语语言模型 |
CN110858480A (zh) * | 2018-08-15 | 2020-03-03 | 中国科学院声学研究所 | 一种基于n元文法神经网络语言模型的语音识别方法 |
CN110858480B (zh) * | 2018-08-15 | 2022-05-17 | 中国科学院声学研究所 | 一种基于n元文法神经网络语言模型的语音识别方法 |
CN111583906A (zh) * | 2019-02-18 | 2020-08-25 | 中国移动通信有限公司研究院 | 一种语音会话的角色识别方法、装置及终端 |
CN111583906B (zh) * | 2019-02-18 | 2023-08-15 | 中国移动通信有限公司研究院 | 一种语音会话的角色识别方法、装置及终端 |
CN110517693A (zh) * | 2019-08-01 | 2019-11-29 | 出门问问(苏州)信息科技有限公司 | 语音识别方法、装置、电子设备和计算机可读存储介质 |
CN110517693B (zh) * | 2019-08-01 | 2022-03-04 | 出门问问(苏州)信息科技有限公司 | 语音识别方法、装置、电子设备和计算机可读存储介质 |
CN111540343A (zh) * | 2020-03-17 | 2020-08-14 | 北京捷通华声科技股份有限公司 | 一种语料识别方法和装置 |
CN111540343B (zh) * | 2020-03-17 | 2021-02-05 | 北京捷通华声科技股份有限公司 | 一种语料识别方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
US20170061958A1 (en) | 2017-03-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106486115A (zh) | 改进神经网络语言模型的方法和装置及语音识别方法和装置 | |
CN108647214B (zh) | 基于深层神经网络翻译模型的解码方法 | |
US12087288B2 (en) | Language understanding and dialogue state tracking in dialogue systems | |
Afouras et al. | Deep lip reading: a comparison of models and an online application | |
Seki et al. | An end-to-end language-tracking speech recognizer for mixed-language speech | |
CN108417210B (zh) | 一种词嵌入语言模型训练方法、词语识别方法及系统 | |
US10109272B2 (en) | Apparatus and method for training a neural network acoustic model, and speech recognition apparatus and method | |
CN112735373A (zh) | 语音合成方法、装置、设备及存储介质 | |
Rasooli et al. | Joint parsing and disfluency detection in linear time | |
CN107195295A (zh) | 基于中英文混合词典的语音识别方法及装置 | |
CN110853649A (zh) | 基于智能语音技术的标签提取方法、系统、设备及介质 | |
EP1551007A1 (en) | Language model creation/accumulation device, speech recognition device, language model creation method, and speech recognition method | |
CN109977398A (zh) | 一种特定领域的语音识别文本纠错方法 | |
CN1731510B (zh) | 混合语言文语转换 | |
CN111209363B (zh) | 语料数据处理方法、装置、服务器和存储介质 | |
CN111489754A (zh) | 一种基于智能语音技术的话务数据分析方法 | |
CN114067786A (zh) | 语音识别方法、装置、电子设备及存储介质 | |
CN105988978A (zh) | 确定文本焦点的方法及系统 | |
Oh et al. | Fast offline transformer‐based end‐to‐end automatic speech recognition for real‐world applications | |
Tran et al. | Joint modeling of text and acoustic-prosodic cues for neural parsing | |
CN111831832A (zh) | 词表构建方法、电子设备及计算机可读介质 | |
CN111724765A (zh) | 一种文本转语音的方法、装置及计算机设备 | |
Choi et al. | Joint streaming model for backchannel prediction and automatic speech recognition | |
CN114333790A (zh) | 数据处理方法、装置、设备、存储介质及程序产品 | |
CN101004909A (zh) | 基于韵律特征的汉语语音合成基元的选取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20170308 |