CN110738989A - 一种利用多种语言模型的端到端网络学习解决基于地点的语音的自动识别任务的方法 - Google Patents
一种利用多种语言模型的端到端网络学习解决基于地点的语音的自动识别任务的方法 Download PDFInfo
- Publication number
- CN110738989A CN110738989A CN201911000418.1A CN201911000418A CN110738989A CN 110738989 A CN110738989 A CN 110738989A CN 201911000418 A CN201911000418 A CN 201911000418A CN 110738989 A CN110738989 A CN 110738989A
- Authority
- CN
- China
- Prior art keywords
- character string
- alternative
- speech
- language model
- evaluation score
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 21
- 238000011156 evaluation Methods 0.000 claims description 58
- 239000013598 vector Substances 0.000 claims description 12
- 238000013528 artificial neural network Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 9
- 230000000306 recurrent effect Effects 0.000 claims description 6
- 238000013179 statistical model Methods 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 4
- 238000010845 search algorithm Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 claims description 3
- 238000003064 k means clustering Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 2
- 238000012163 sequencing technique Methods 0.000 claims description 2
- 238000011161 development Methods 0.000 description 7
- 230000018109 developmental process Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 230000002457 bidirectional effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/081—Search algorithms, e.g. Baum-Welch or Viterbi
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种利用多种语言模型的端到端网络学习解决基于地点的语音的自动识别任务的方法。主要包括如下步骤:1)针对于一组基于地点的语音、相关联字符串数据集,根据编码器网络形成语音序列编码,利用连接时序分类器和含有大量地理名词的基于字符的语言模型生成序列编码的备选字符串集。2)根据得到的备选字符串集,使用含有大量地理名词的基于词语的语言模型和基于类型的语言模型选择出最佳的字符串答案。相比于一般的自动语音识别解决方案,本发明利用了多种语言模型的端到端网络学习的方法,能够综合利用词语的上下文相关性与句子的语法结构。本发明在基于地点的语音的自动识别中所取得的效果相比于传统的方法更好。
Description
技术领域
本发明涉及基于地点的语音的自动识别任务,尤其涉及一种利用多种语言模型的端到端网络学习解决基于地点的语音的自动识别任务的方法。
背景技术
随着以神经网络技术基础的自动语音识别技术的蓬勃发展,以神经网络技术为基础的自动语音识别服务已经成为一项重要的网络服务,该服务可以针对于用户说出的语音,自动生成语音所对应的字符串,让其他的服务组件进一步进行自动问题回答、自然语言理解等工作的处理。而针对于一段语音对话,通常会有许多可能的备选字符串答案,如果将语音对话的核心聚焦在地点上,比如使用语音对话进行导航等服务,则对于答案字符串的组成也应当有不同的侧重,字符串中应当以较高的频率出现地点相关的词汇,上下文关系也应当以地点为主,但是目前的基于地点的语音对话的自动识别技术的效果并不是很好。
现有的基于地点的语音的自动识别技术主要是在神经网络中使用单一的基于字符的语言模型来提高自动语音识别的正确率,该方法主要是使用单一基于字符的语言模型来提高地理相关词汇的出现率,或者让上下文关系更加以地点为主,从而将与地点相关度最高的字符串排在前面,但是由于中文分词任务的困难性,该方法仅仅考虑到了字符串中字符间的相互关系,并没有充分利用字符串中词语间的相互关系和语法的结构。为了克服这个缺陷,本方法将同时利用基于字符、词语、类型的三种语言模型来提高识别的准确度。
本发明将首先利用深层卷积网络、双向门控循环单元和连接时序分类器来进行语音的序列编码,之后通过在含有大量地理名词的基于字符的语言模型中使用前缀集束搜索算法来排除有明显发音错误或语法错误的备选字符串,之后利用基于词语的语言模型和基于类型的语言模型来计算反映备选字符串上下文关系及语法关系的评价分数,结合为备选字符串的最终评价分数,选取最终评价分数最优的备选字符串作为最终的语音识别结果。
发明内容
本发明的目的在于解决现有技术中的问题,为了克服现有技术中仅仅关注到基于地点的语音识别中字符串内字符的相互关系,没有关注字符串内上下文相互关系及语法结构的问题,本发明提供一种利用多种语言模型的端到端网络学习解决基于地点的语音的自动识别任务的方法。本发明所采用的具体技术方案是:
利用多种语言模型的端到端网络学习解决基于地点的语音的自动识别任务的方法,包含如下步骤:
1)针对于一组基于地点的语音和相关联的字符串数据集,使用编码器获得语音中每个帧对应于词汇集的概率分布向量的序列编码;构建基于字符的语言模型LM1,采用LM1和前缀集束搜索算法得到序列编码的备选字符串集a和各个备选字符串对应的反映字符相关性的评价分数;
2)构建基于词语的语言模型LM2;根据步骤1)得到的备选字符串集a和各个备选字符串对应的反映字符相关性的评价分数,利用LM2得到各个备选字符串的反映上下文关系的评价分数;
3)将步骤1)得到的备选字符串集a映射到基于所属类型的备选字符串集a',构建基于类型的语言模型LM3,根据a'和LM3得到各个备选字符串的反映语法关系的评价分数;
4)将步骤2)获得的反映上下文关系的评价分数与步骤3)获得的反映语法关系的评价分数相加,得到各个备选字符串的最终评价分数,选择最终评价分数最高的备选字符串作为语音的识别结果。
进一步的,所述的步骤1)具体为:
1.1)构建基于地点的语音、字符串之间相互关系的编码器网络,所述编码器网络由深层卷积网络、双向门控循环单元和连接时序分类器构成;对于含有t个帧的一段语音,使用编码器将语音中的第i个帧映射成对应于词汇集的概率分布向量pi,获得整段语音中每个帧对应于词汇集的概率分布向量的序列编码{p1,p2,p3,…,pt},记为P;
1.2)根据维基百科、百度和专有名词的语料库建立基于字符的N-gram统计模型作为语言模型LM1;对于步骤1.1)得到的序列编码P,使用集束大小为m的前缀集束搜索算法获得序列编码的对应备选字符串集a={a1,a2,a3...,am},其中ai表示备选字符串集中的第i个字符串,m为前缀集束搜索的集束大小;
将备选字符串ai输入到基于字符的语言模型LM1中,得到对于备选字符串ai的评价分数LM1(ai),计算公式如下:
其中,ci,j代表备选字符串ai中的第j个字符,Nci代表备选字符串ai中的字符个数,N为语言模型LM1的N-gram模型中N的大小;
1.3)计算每一个备选字符串ai对应的反映字符相关性的评价分数s1,i:
s1,i=log(p(ai|x))+α×LM1(ai)+β×Nci
其中,x代表一段基于地点的语音,α和β代表用来组合不同语言模型所用的超参数。
进一步的,所述的步骤2)具体为:
2.1)根据维基百科、百度和专有名词的语料库建立基于词语的N-gram统计模型作为语言模型LM2;
2.2)将备选字符串ai输入到基于词语的语言模型LM2中,得到对于备选字符串ai的评价分数LM2(ai),计算公式如下:
其中,wi,j代表备选字符串ai中的第j个词语;Nwi代表备选字符串ai中的词语个数,N为语言模型LM2的N-gram模型中N的大小;
2.3)计算每一个备选字符串ai的反映上下文关系的评价分数contexti:
contexti=γ×norm(s1,i)+δ×norm(LM2(ai))+∈×norm(Nwi)
其中,γ、δ和∈是代表用来组合不同语言模型所用的超参数,norm(·)代表标准化函数。
进一步的,所述的步骤3)具体为:
3.1)首先使用K-Means聚类算法,在预训练的词嵌入(Word Embedding),上将备选字符串中的备选词汇分类为特定的类型:
3.2)建立递归神经网络,用现有的已知词汇类型的训练数据对递归神经网络进行训练,得到基于类型的语言模型LM3;
3.3)将步骤2.1)得到的带类型的备选字符串ai'输入到基于类型的语言模型LM3中,得到对于备选字符串ai'的评价分数LM3(ai'),计算公式如下:
3.4)对于备选字符串集中每个备选字符串ai的映射后的结果ai',按照如下公式计算每一个备选字符串ai的反映语法关系的评价分数grammari:
grammari=η×norm(LM3(ai'))
其中,η是代表用来组合不同语言模型所用的超参数。
进一步的,所述的步骤4)具体为:
将步骤2)得到的每一个备选字符串ai的反应上下文关系的评价分数contexti和步骤3)得到的每一个备选字符串ai的反应语法关系的评价分数grammari相加,得到每一个备选字符串ai的最终评价分数si:
si=contexti+grammari
将备选字符串集中的每一个备选字符串的最终评价分数进行排序,选择最终评价分数最高的备选字符串作为语音的识别结果。
在实际应用中,经过在开发用的基于地点的语音识别数据集上进行训练,形成使用多种语言模型的基于地点的语音识别端到端网络,对于所给的基于地点的语音,通过该模型便可识别该语音所对应的的字符串。
本发明具备的有益效果是:
本发明为一种利用多种语言模型的端到端网络学习解决基于地点的语音的自动识别任务的方法,在实现时,本发明使用了基于字符的语言模型、基于词语的语言模型和基于类型的语言模型。
(1)通过使用基于字符的语言模型,本发明将输入的基于地点的语音的序列编码转换为一个备选字符串集合,且由于使用N-Gram类型的基于字符的语言模型,本发明在计算备选字符串的初始评价分数时可以保证计算的速度。在后面的步骤中,由于已经将基于地点的语音的序列编码转换为了备选字符串集,可以直接考察整个备选的字符串和上下文,而不必一个接一个地去进行解码。另外,本发明在基于字符的语言模型中加入了大量的地点相关的名词,可以强化对于地点相关的名词的识别能力,并在基于地点的语音的识别结果中尽可能激励地点相关词汇的出现。
(2)通过使用基于词语的语言模型,本发明可以充分考虑备选字符串的上下文关系,尽可能使备选字符串的上下文关系以地点为主,同时由于本发明再一次在基于词语的语言模型中也加入了大量的地理名词,本发明可以进一步强化对于地点相关名词的识别能力,并在基于地点的语音的识别结果中更加激励地点相关词汇的出现。
(3)通过使用基于类型的语言模型,本发明可以充分考虑备选字符串的语法结构,使基于地点的语音的识别结果更加符合中文的合理语法结构,使得基于地点的语音的识别结果字符串更加通顺,可读性更高。
综上所述,通过联合使用三种语言模型,本发明可以充分利用中文的字符、词语、上下文和语法结构关系,使得基于地点的自动识别结果字符串中尽可能通顺、内容尽可能以地点为主、上下文关系更加协调。
附图说明
图1是本发明使用的端到端网络系统概览图,包含编码器网络和解码器网络,编码器网络由层叠的卷积神经网络、层叠的双向门控循环单元和连接时序分类器组成,解码器网络由连接时序分类器和3种语言模型组成。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步阐述和说明。
如图1所示,本发明一种利用多种语言模型的端到端网络学习解决基于地点的语音的自动识别任务的方法包括如下步骤:
步骤一、针对于一组基于地点的语音和相关联的字符串数据集,构建基于地点的语音、字符串之间相互关系的编码器网络,获得一段语音中每个帧的对应于词汇集的概率分布向量的序列编码,利用连接时序分类器和含有大量地理名词的基于字符的语言模型生成序列编码的备选字符串集;
具体为:
1.1)针对于一组基于地点的语音和相关联的字符串数据集,使用预训练的含有深层卷积网络、双向门控循环单元及连接时序分类器的编码器网络获得基于地点的语音中每个帧的对应于词汇集的概率向量,对于含有t个帧的一段语音,将语音中的第i个帧映射成对应于词汇集的概率分布向量pi,将一段语音的所有帧输入完成之后,进行训练,获得整段语音中每个帧的对应于词汇集的概率分布向量的序列编码{p1,p2,p3,…,pt},记为P。
1.2)对于步骤1.1)所获得的语音中每个帧的对应于词汇集的概率分布向量的序列编码,通过在含有大量地理名词的基于字符的语言模型LM1中使用前缀集束搜索算法,获得关于整段语音中每个帧的对应于词汇集的概率分布向量的序列编码的对应备选字符串集{(a1,s1,1),(a2,s1,2),…,(am,s1,m)},记为S1,其中m为前缀集束搜索的集束大小,该集合中的每一条数据(ai,s1,i)代表的含义为“针对于一段基于地点的语音而言,备选字符串ai的反映字符相关性的评价分数为s1,i”。针对于备选字符串集S1={(a1,s1,1),(a2,s1,2),…,(am,s1,m)}中的每一个备选字符串ai,按照如下公式构建反映字符相关性的评价分数s1,i:
s1,i=log(p(ai|x))+α×LM1(ai)+β×Nci
其中,x代表一段基于地点的语音,Nci代表备选字符串ai中的字符个数,α和β代表用来组合不同语言模型所用的超参数;LM1(ai)代表在含有大量地理名词的基于字符的语言模型LM1中使用前缀集束搜索得到的对于备选字符串ai的评价分数,LM1(ai)的计算公式如下:
其中,ci,j代表备选字符串ai中的第j个字符。
在此步骤中,LM1为采用了基于维基百科、百度和专有名词的语料库得到的N-gram统计模型,超参数α预先设置为了2.6,β预先设置为了5.0。
步骤二、对于步骤一形成的基于地点的语音序列编码的备选字符串集,利用连接时序分类器、含有大量地理名词的基于词语的语言模型LM2计算备选字符串集中各个备选字符串的反映上下文关系的评价分数,利用基于类型的语言模型LM3计算备选字符串集中各个备选字符串的反映语法关系的评价分数,将反应上下文关系的评价分数和反应语法关系的评价分数之和作为备选字符串的最终评价分数,选择最终评价分数最优的备选字符串作为语音的识别结果。
具体为:
2.1)根据步骤1)获得的基于地点的语音序列编码的备选字符串集和反映字符相关性的评价分数,对于备选字符串集中每个备选字符串ai,按照如下公式构建反映备选字符串ai的上下文关系的评价分数contexti:
contexti=γ×norm(s1,i)+δ×norm(LM2(ai))+∈×norm(Nwi)
其中,γ、δ和∈是代表用来组合不同语言模型所用的超参数,Nwi代表备选字符串ai中的词语个数,norm(·)代表标准化函数;LM2(ai)代表使用含有大量地理名词的基于词语的语言模型LM2得到的对于备选字符串ai的评价分数,LM2(ai)的计算公式如下:
其中,wi,j代表备选字符串ai中的第j个词语。
在此步骤中,LM2为采用了基于维基百科、百度和专有名词的语料库得到的N-gram统计模型,超参数γ预先设置为了0.31,超参数δ设置为了0.36,超参数∈预先设置为了0.27。
2.2)使用K-Means聚类算法,在预训练的词嵌入(Word Embedding)上将备选词汇分类为特定的类型,根据步骤一获得的基于地点的语音序列编码的备选字符串集,对于备选字符串集中每个备选字符串ai,将备选字符串映射为其中wi,j代表备选字符串ai中的第j个词语,group(wi,j)代表备选字符串ai中的第j个词语的所属类型。
然后,使用递归神经网络和词汇类型训练数据训练基于类型的语言模型LM3。对于备选字符串集中每个备选字符串ai的映射后的结果ai',按照如下公式构建反映备选字符串ai的语法关系的评价分数grammari:
其中,η是代表用来组合不同语言模型所用的超参数,Nwi代表备选字符串ai中的词语个数,wi,j代表备选字符串ai中的第j个词语,group(wi,j)代表备选字符串ai中的第j个词语的所属类型;LM3(ai)代表使用基于类型的语言模型LM3得到的对于备选字符串ai的评价分数,LM3(ai)的计算公式如下:
其中,wi,j代表备选字符串ai中的第j个词语,group(wi,j)代表备选字符串ai中的第j个词语的所属类型。
在此步骤中,LM3为含有128个隐单元的递归神经网络,超参数η预先设置为了0.09。
2.3)对于步骤2.1)及2.2)所形成的对于备选字符串集中备选字符串ai的反映上下文关系的评价分数contexti和反映语法关系的评价分数grammari,按照公式si=contexti+grammari计算备选字符串ai的最终评价分数si,选择备选字符串集中最终评价分数最优的备选字符串作为语音的识别结果。
2.4)经过在开发用的基于地点的语音识别数据集上进行训练,形成使用多种语言模型的基于地点的语音识别端到端网络,对于所给的基于地点的语音,通过该模型便可识别该语音所对应的的字符串。
下面将上述方法应用于下列实施例中,以体现本发明的技术效果,实施例中具体步骤不再赘述。
实施例
本发明在基于地点的对话语音实验数据进行实验,并且比较了使用不同语言模型组合所得到的实验结果。所使用的基于地点的对话语音实验数据集中共包括超过200人对话的录音,且将实验数据集分为了开发数据集和测试数据集,其中开发数据集包含50小时的基于地点的对话语音录音,测试数据集包含20小时的基于地点的对话语音录音。为了客观地评价本发明的算法的性能,本发明在所选出的开发数据集和测试数据集中,都分别使用了无语言模型、仅使用语言模型LM1、仅使用语言模型LM1+LM2、同时使用语言模型LM1+LM2+LM3这四种不同的语言模型组合来对于本发明的效果进行评价。实验结果的评价标准使用了字符差错率(CER)来进行计算。按照具体实施方式中描述的步骤,不同语言模型组合在开发数据集上的字符差错率结果如表1所示,不同语言模型组合在测试数据集上的字符差错率结果如表2所示,无论是针对于开发数据集还是针对于测试数据集,LM1+LM2+LM3的组合得到的字符差错率(CER)最低。
表1本发明在不同语言模型组合情况下针对于开发数据集的字符差错率结果
语言模型组合 | 无语言模型 | LM<sub>1</sub> | LM<sub>1</sub>+LM<sub>2</sub> | LM<sub>1</sub>+LM<sub>2</sub>+LM<sub>3</sub> |
字符差错率(CER) | 18.16 | 9.51 | 7.98 | 7.69 |
表2本发明在不同语言模型组合情况下针对于测试数据集的字符差错率结果
语言模型组合 | 无语言模型 | LM<sub>1</sub> | LM<sub>1</sub>+LM<sub>2</sub> | LM<sub>1</sub>+LM<sub>2</sub>+LM<sub>3</sub> |
字符差错率(CER) | 17.05 | 8.66 | 7.07 | 6.78 |
Claims (5)
1.一种利用多种语言模型的端到端网络学习解决基于地点的语音的自动识别任务的方法,其特征在于包括如下步骤:
1)针对于一组基于地点的语音和相关联的字符串数据集,使用编码器获得语音中每个帧对应于词汇集的概率分布向量的序列编码;构建基于字符的语言模型LM1,采用LM1和前缀集束搜索算法得到序列编码的备选字符串集a和各个备选字符串对应的反映字符相关性的评价分数;
2)构建基于词语的语言模型LM2;根据步骤1)得到的备选字符串集a和各个备选字符串对应的反映字符相关性的评价分数,利用LM2得到各个备选字符串的反映上下文关系的评价分数;
3)将步骤1)得到的备选字符串集a映射到基于所属类型的备选字符串集a',构建基于类型的语言模型LM3,根据a'和LM3得到各个备选字符串的反映语法关系的评价分数;
4)将步骤2)获得的反映上下文关系的评价分数与步骤3)获得的反映语法关系的评价分数相加,得到各个备选字符串的最终评价分数,选择最终评价分数最高的备选字符串作为语音的识别结果。
2.根据权利要求1所述利用多种语言模型的端到端网络学习解决基于地点的语音的自动识别任务的方法,其特征在于所述的步骤1)具体为:
1.1)对于含有t个帧的一段语音,使用编码器将语音中的第i个帧映射成对应于词汇集的概率分布向量pi,获得整段语音中每个帧对应于词汇集的概率分布向量的序列编码{p1,p2,p3,…,pt},记为P;
1.2)根据维基百科、百度和专有名词的语料库建立基于字符的N-gram统计模型作为语言模型LM1;对于步骤1.1)得到的序列编码P,使用集束大小为m的前缀集束搜索算法获得序列编码的对应备选字符串集a={a1,a2,a3...,am},其中ai表示备选字符串集中的第i个字符串,m为前缀集束搜索的集束大小;
将备选字符串ai输入到基于字符的语言模型LM1中,得到对于备选字符串ai的评价分数LM1(ai),计算公式如下:
其中,ci,j代表备选字符串ai中的第j个字符,Nci代表备选字符串ai中的字符个数,N为语言模型LM1的N-gram模型中N的大小;
1.3)计算每一个备选字符串ai对应的反映字符相关性的评价分数s1,i:
s1,i=log(p(ai|x))+α×LM1(ai)+β×Nci
其中,x代表一段基于地点的语音,α和β代表用来组合不同语言模型所用的超参数。
3.根据权利要求1所述利用多种语言模型的端到端网络学习解决基于地点的语音的自动识别任务的方法,其特征在于所述的步骤2)具体为:
2.1)根据维基百科、百度和专有名词的语料库建立基于词语的N-gram统计模型作为语言模型LM2;
2.2)将备选字符串ai输入到基于词语的语言模型LM2中,得到对于备选字符串ai的评价分数LM2(ai),计算公式如下:
其中,wi,j代表备选字符串ai中的第j个词语;Nwi代表备选字符串ai中的词语个数,N为语言模型LM2的N-gram模型中N的大小;
2.3)计算每一个备选字符串ai的反映上下文关系的评价分数contexti:
contexti=γ×norm(s1,i)+δ×norm(LM2(ai))+∈×norm(Nwi)
其中,γ、δ和∈是代表用来组合不同语言模型所用的超参数,norm(·)代表标准化函数。
4.根据权利要求1所述利用多种语言模型的端到端网络学习解决基于地点的语音的自动识别任务的方法,其特征在于所述的步骤3)具体为:
3.1)首先使用K-Means聚类算法,在预训练的词嵌入上将备选字符串中的备选词汇分类为特定的类型:
3.2)建立递归神经网络,用现有的已知词汇类型的训练数据对递归神经网络进行训练,得到基于类型的语言模型LM3;
3.3)将步骤2.1)得到的带类型的备选字符串ai'输入到基于类型的语言模型LM3中,得到对于备选字符串ai'的评价分数LM3(ai'),计算公式如下:
3.4)对于备选字符串集中每个备选字符串ai的映射后的结果ai',按照如下公式计算每一个备选字符串ai的反映语法关系的评价分数grammari:
grammari=η×norm(LM3(ai'))
其中,η是代表用来组合不同语言模型所用的超参数。
5.根据权利要求1所述利用多种语言模型的端到端网络学习解决基于地点的语音的自动识别任务的方法,其特征在于所述的步骤4)具体为:
将步骤2)得到的每一个备选字符串ai的反应上下文关系的评价分数contexti和步骤3)得到的每一个备选字符串ai的反应语法关系的评价分数grammari相加,得到每一个备选字符串ai的最终评价分数si:
si=contexti+grammari
将备选字符串集中的每一个备选字符串的最终评价分数进行排序,选择最终评价分数最高的备选字符串作为语音的识别结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911000418.1A CN110738989B (zh) | 2019-10-21 | 2019-10-21 | 一种利用多种语言模型的端到端网络学习解决基于地点的语音的自动识别任务的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911000418.1A CN110738989B (zh) | 2019-10-21 | 2019-10-21 | 一种利用多种语言模型的端到端网络学习解决基于地点的语音的自动识别任务的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110738989A true CN110738989A (zh) | 2020-01-31 |
CN110738989B CN110738989B (zh) | 2021-12-07 |
Family
ID=69270340
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911000418.1A Active CN110738989B (zh) | 2019-10-21 | 2019-10-21 | 一种利用多种语言模型的端到端网络学习解决基于地点的语音的自动识别任务的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110738989B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112115981A (zh) * | 2020-08-26 | 2020-12-22 | 微梦创科网络科技(中国)有限公司 | 一种社交网络博主的embedding评估方法及系统 |
CN116861885A (zh) * | 2023-07-11 | 2023-10-10 | 贝壳找房(北京)科技有限公司 | 标签生成方法、装置、设备和介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010091675A (ja) * | 2008-10-06 | 2010-04-22 | Mitsubishi Electric Corp | 音声認識装置 |
US20150120296A1 (en) * | 2013-10-29 | 2015-04-30 | At&T Intellectual Property I, L.P. | System and method for selecting network-based versus embedded speech processing |
CN105283914A (zh) * | 2013-06-14 | 2016-01-27 | 三菱电机株式会社 | 用于识别语音的系统和方法 |
CN105765650A (zh) * | 2013-09-27 | 2016-07-13 | 亚马逊技术公司 | 带有多向解码的语音辨识器 |
US9460088B1 (en) * | 2013-05-31 | 2016-10-04 | Google Inc. | Written-domain language modeling with decomposition |
WO2016209493A1 (en) * | 2015-06-25 | 2016-12-29 | Intel Corporation | Method and system of automatic speech recognition with dynamic vocabularies |
US9966066B1 (en) * | 2016-02-03 | 2018-05-08 | Nvoq Incorporated | System and methods for combining finite state transducer based speech recognizers |
CN110111780A (zh) * | 2018-01-31 | 2019-08-09 | 阿里巴巴集团控股有限公司 | 数据处理方法和服务器 |
CN111048082A (zh) * | 2019-12-12 | 2020-04-21 | 中国电子科技集团公司第二十八研究所 | 一种改进的端到端语音识别方法 |
CN111613215A (zh) * | 2019-02-22 | 2020-09-01 | 浙江大学 | 一种语音识别的方法及其装置 |
-
2019
- 2019-10-21 CN CN201911000418.1A patent/CN110738989B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010091675A (ja) * | 2008-10-06 | 2010-04-22 | Mitsubishi Electric Corp | 音声認識装置 |
US9460088B1 (en) * | 2013-05-31 | 2016-10-04 | Google Inc. | Written-domain language modeling with decomposition |
CN105283914A (zh) * | 2013-06-14 | 2016-01-27 | 三菱电机株式会社 | 用于识别语音的系统和方法 |
CN105765650A (zh) * | 2013-09-27 | 2016-07-13 | 亚马逊技术公司 | 带有多向解码的语音辨识器 |
US20150120296A1 (en) * | 2013-10-29 | 2015-04-30 | At&T Intellectual Property I, L.P. | System and method for selecting network-based versus embedded speech processing |
WO2016209493A1 (en) * | 2015-06-25 | 2016-12-29 | Intel Corporation | Method and system of automatic speech recognition with dynamic vocabularies |
US9966066B1 (en) * | 2016-02-03 | 2018-05-08 | Nvoq Incorporated | System and methods for combining finite state transducer based speech recognizers |
CN110111780A (zh) * | 2018-01-31 | 2019-08-09 | 阿里巴巴集团控股有限公司 | 数据处理方法和服务器 |
CN111613215A (zh) * | 2019-02-22 | 2020-09-01 | 浙江大学 | 一种语音识别的方法及其装置 |
CN111048082A (zh) * | 2019-12-12 | 2020-04-21 | 中国电子科技集团公司第二十八研究所 | 一种改进的端到端语音识别方法 |
Non-Patent Citations (5)
Title |
---|
AWNI Y. HANNUN,等: "First-Pass Large Vocabulary Continuous Speech Recognition using Bi-Directional Recurrent DNNs", 《HTTPS://ARXIV.ORG/ABS/1408.2873》 * |
I. KATUNOBU,等: "Continuous speech recognition by context-dependent phonetic HMM and an efficient algorithm for finding N-Best sentence hypotheses", 《ICASSP-92: 1992 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING》 * |
张剑: "连续语音识别中的循环神经网络语言模型技术研究", 《中国优秀硕士学位论文全文数据库》 * |
张瑞珍: "基于门控循环单元和自注意力机制的端到端语音识别研究", 《中国优秀硕士学位论文全文数据库》 * |
黎亚雄,等: "基于RNN-RBM语言模型的语音识别研究", 《计算机研究与发展》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112115981A (zh) * | 2020-08-26 | 2020-12-22 | 微梦创科网络科技(中国)有限公司 | 一种社交网络博主的embedding评估方法及系统 |
CN112115981B (zh) * | 2020-08-26 | 2024-05-03 | 微梦创科网络科技(中国)有限公司 | 一种社交网络博主的embedding评估方法及系统 |
CN116861885A (zh) * | 2023-07-11 | 2023-10-10 | 贝壳找房(北京)科技有限公司 | 标签生成方法、装置、设备和介质 |
CN116861885B (zh) * | 2023-07-11 | 2024-05-07 | 贝壳找房(北京)科技有限公司 | 标签生成方法、装置、设备和介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110738989B (zh) | 2021-12-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108492820B (zh) | 基于循环神经网络语言模型和深度神经网络声学模型的中文语音识别方法 | |
Klejch et al. | Sequence-to-sequence models for punctuated transcription combining lexical and acoustic features | |
CN110135551B (zh) | 一种基于词向量和循环神经网络的机器人聊天方法 | |
CN111429889A (zh) | 基于截断注意力的实时语音识别的方法、装置、设备以及计算机可读存储介质 | |
CN111858932A (zh) | 基于Transformer的多重特征中英文情感分类方法及系统 | |
CN112599128B (zh) | 一种语音识别方法、装置、设备和存储介质 | |
CN114116994A (zh) | 一种迎宾机器人对话方法 | |
CN101510222A (zh) | 一种多层索引语音文档检索方法及其系统 | |
CN112101010B (zh) | 一种基于bert的电信行业oa办公自动化文稿审核的方法 | |
CN112199945A (zh) | 一种文本纠错的方法和装置 | |
CN113178193A (zh) | 一种基于智能语音芯片的中文自定义唤醒与物联交互方法 | |
CN110929476B (zh) | 一种基于混合粒度注意力机制的任务型多轮对话模型构建方法 | |
CN110738989B (zh) | 一种利用多种语言模型的端到端网络学习解决基于地点的语音的自动识别任务的方法 | |
Tündik et al. | Joint word-and character-level embedding CNN-RNN models for punctuation restoration | |
CN111966797A (zh) | 利用引入了语义信息的词向量进行机器阅读理解的方法 | |
CN111090726A (zh) | 一种基于nlp的电力行业文字客服交互方法 | |
Oh et al. | Fast offline transformer‐based end‐to‐end automatic speech recognition for real‐world applications | |
CN112349294B (zh) | 语音处理方法及装置、计算机可读介质、电子设备 | |
Singhal et al. | Abstractive summarization of meeting conversations | |
Ihori et al. | Parallel corpus for Japanese spoken-to-written style conversion | |
Ding et al. | Compression of CTC-Trained Acoustic Models by Dynamic Frame-Wise Distillation or Segment-Wise N-Best Hypotheses Imitation. | |
Avram et al. | Romanian speech recognition experiments from the robin project | |
CN111104806A (zh) | 神经机器翻译模型的构建方法及装置、翻译方法及装置 | |
CN115376547A (zh) | 发音评测方法、装置、计算机设备和存储介质 | |
Amari et al. | Arabic speech recognition based on a CNN-BLSTM combination |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |