CN111179918B - 联结主义时间分类和截断式注意力联合在线语音识别技术 - Google Patents
联结主义时间分类和截断式注意力联合在线语音识别技术 Download PDFInfo
- Publication number
- CN111179918B CN111179918B CN202010106791.1A CN202010106791A CN111179918B CN 111179918 B CN111179918 B CN 111179918B CN 202010106791 A CN202010106791 A CN 202010106791A CN 111179918 B CN111179918 B CN 111179918B
- Authority
- CN
- China
- Prior art keywords
- chinese character
- sequence
- decoder
- character sequence
- new
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 claims abstract description 43
- 238000003062 neural network model Methods 0.000 claims abstract description 21
- 238000012549 training Methods 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 11
- 230000007787 long-term memory Effects 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 230000006403 short-term memory Effects 0.000 claims description 4
- 239000013598 vector Substances 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 230000002123 temporal effect Effects 0.000 claims description 2
- 230000007246 mechanism Effects 0.000 abstract description 11
- 238000012935 Averaging Methods 0.000 abstract 1
- 238000013138 pruning Methods 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 4
- 230000015654 memory Effects 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明实施例提供了一种联结主义时间分类和截断式注意力联合在线语音识别技术。构建了基于编码器、解码器、截断式注意力和联结主义时间分类器的语音识别神经网络模型,采用交叉熵准则和联结主义时间分类准则训练该神经网络模型;将语音流输入解码器,将存留的汉字序列输入编码器,利用截断式注意力机制截取有效的语音片段;根据截取的语音片段,对每条存留的汉字序列预测多个汉字,并于之构成一个新的汉字序列,并评分;联结主义时间分类器将解码拓展的多组汉字序列和已接收的语音对齐,并评分;对两种评分取平均,对各汉字序列进行剪枝;当满足终止条件时输出识别结果。该方法很大程度提升在线语音识别的性能。
Description
技术领域
本发明涉及语音识别领域,尤其涉及一种联结主义时间分类和截断式注意力联合在线语音识别技术。
背景技术
端对端语音识别技术简化了传统的语音识别技术,直接实现语音特征序列转换为汉字序列。目前主流的端对端语音识别模型采用编码器、解码器和注意力机制的结构组成统一的神经网络模型,使用交叉熵准则训练模型。通常基于注意力机制的端对端语音识别模型依赖完整的语音,不适合实时地将语音特征转换为汉字序列。同时,使用交叉熵训练的模型,在解码阶段识别性能较差。
发明内容
本发明的目的旨在克服现有的基于编码器、解码器和注意力机制的结构的端对端语音识别模型不能应用于实时转写在线任务的问题,通过发明截断式注意力机制实时地截断输入的语音流,使得端对端语音识别模型在语音输入的同时输出汉字序列。同时采用联结主义时间分类准则和交叉熵准则联合训练,解决解码阶段识别性能差的问题。
本发明为解决上述技术问题采用的技术方案为,一方面提供一种端对端语音在线语音识别方法,所述方法基于神经网络模型,所述神经网络模型包括编码器、解码器、注意力截断网络、联结主义时间分类器,所述方法包括:
获取待解码的语音流,提取所述语音流的声学特征流;
编码器根据所述声学特征流,得到编码特征流;
获取留存的汉字序列;将所述留存的汉字序列输入解码器,解码器生成状态序列;
根据所述状态序列,以及编码特征流,所述注意力截断网络截取有效的编码特征;
根据所述有效的编码特征,解码器给出多个所述留存的汉字序列的后续一位预测汉字,每个所述预测汉字和留存的汉字序列构成一个新汉字序列,解码器根据所述新汉字序列,得到第一预测评分;
对齐所述新汉字序列和所述编码特征流,所述联结主义时间分类器根据联结主义时间分类准则对对齐后的新汉字序列进行估算,得到第二预测评分;
根据第一预测评分和第二预测评分,得到综合预测评分,根据所述综合预测评分,保留综合预测评分最高的若干所述新汉字序列;
判断所述新汉字序列是否包含终止符,
若不包含,
将其变为留存汉字序列,输入解码器,继续后续汉字的预测;
若包含,
以所述综合预测评分最高的所述新汉字序列做作为识别结果,并输出。
优选地,所述对齐所述新汉字序列和所述语音包括,使用维特比算法所述对齐所述新汉字序列和所述语音。
优选地,所述获取待解码的语音流,提取所述语音流的声学特征流;编码器根据所述声学特征流,得到编码特征流;获取留存的汉字序列;根据所述留存的汉字序列,以及编码特征流,解码器截取有效的语音片段;包括:
将待解码的语音流对应的声学特征序列X=[x1,x2,...xt]输入编码器,实时地输出新的特征序列H=[h1,h2,...,ht];
同时将存留的汉字序列Y=[sos,y1,...,yi-1]输入解码器,解码器在依次处理存留的汉字序列中的每一个汉字后产生的最终状态si-1,根据最终状态si-1,从上一次截断点τi-1开始依次向后计算H中每帧hj的截断概率,即j=τi-1,τi-1+1,...,
当概率第一次大于0.5时停止计算,并将当前j的值作为新的截断点τi;
若在输入的语音流中未能找到满足条件的截断点,则等待新的语音流输入,直至找到满足条件的截断点;
对于解码的初始状态,存留的汉字序列为Yinit=[sos],语音的截断点为τ0=1。
具体地,根据所述截断点τi,注意力截断网络计算出截断点之前每帧语音对应的权重,即j=1,...,τi,
并对前τi个特征序列根据上述权重加权求和,并与解码器内部产生的状态si-1一同输入解码器,解码器在预测下一个汉字时,对每一个汉字输出一个概率,选择概率最大的前M个汉字作为解码器预测的M种结果,M为自然数,每个汉字yi都与存留的汉字序列Y=[sos,y1,...,yi-1]构成一个新的汉字序列Y=[sos,y1,...,yi-1,yi],新的汉字序列的分数是存留汉字序列的分数加上当前预测汉字的概率之对数值,初始的汉字序列Yinit=[sos]分数为零。
进一步具体地,根据每一个新的汉字序列Y=[sos,y1,...,yi-1,yi],联结主义时间分类器对已经计算得到的特征序列H=[h1,h2,...,ht]中的每一特征,计算每一个汉字的概率p(yk|hj);
采用维特比算法将汉字序列Y和特征序列H对齐,若对齐过程中需要更多的特征序列,则等待新的语音流输入,直到完成对齐;
对齐结束后,采用联结主义时间分类准则计算特征序列H对应的汉字序列的分数。
另一方面,提供一种端对端语音在线语音识别神经网络模型的训练方法,所述神经网络模型包括编码器、解码器、注意力截断网络、联结主义时间分类器,所述方法包括:
获取有汉字标签的音频文件,提取所述音频文件的声学特征序列;
编码器根据所述声学特征序列,得到编码特征序列;
将所述汉字标签的汉字序列,输入解码器,解码器据以生成状态序列;
根据编码特征序列、所述状态序列,注意力截断网络生成注意力特征;
根据所述汉字序列、所述注意力特征,以及所述汉字序列中一个汉字的一个后续汉字,计算后续汉字的损失;
依次计算汉字序列中每个汉字的后续汉字损失,并累积所述汉字序列中每个汉字的后续汉字损失,作为第一预测损失;
根据编码特征序列,联结主义时间分类器直接根据所述汉字序列计算联结主义时间分类准则损失函数,作为第二预测损失;
结合所述第一预测损失和所述第二预测损失,更新所述编码器、解码器。
优选地,所述编码器由多层单向长短期记忆网络堆叠组成,可以将语音对应的T帧声学特征序列X=[x1,...,xT]经过非线性变换后得到新的特征序列H=[h1,...,hT];
所述解码器由多层单向长短期记忆网络堆叠组成,将汉字序列Yin=[y0,y1,...,yn]输入解码器,其中y0=sos,表示起始符;
解码器依次处理所述汉字序列中每一个汉字,最终给出汉字序列Yout=[y1,...,yn,eos]中每个汉字的概率,其中eos代表终止符;包括:
所述解码器将依次处理每一个汉字,包括,当解码器计算完第i-1个汉字的概率后,解码器将内部产生的状态si-1输入注意力截断网络,注意力截断网络将计算在第j帧截断语音的概率:
其中Wh和Ws是参数矩阵,b和v是参数向量,g和r是参数标量,根据截断语音的概率进一步计算特征序列H中第j帧的权重:
然后将特征序列H根据上述权重加权求和,并与si一同输入解码器,由解码器计算输出第i个汉字的概率p(yi|Y0:i-1)。
然后根据特征序列H和汉字序列Y,由前向-后向算法计算联结主义时间分类准则对应的损失函数Lctc,采用误差反向传播算法最小化损失函数
L=0.5LCE+0.5Lctc
根据所述损失函数,更新所述神经网络模型。
附图说明
为了更清楚说明本发明实施例的技术方案,下面将对实施例描述中所需使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种端对端语音在线语音识别方法的流程图;
图2为本发明实施例提供的一种端对端语音在线语音识别神经网络模型的训练方法的流程图;
图3为本发明实施例提供的一种端对端语音在线语音识别神经网络模型的训练方法的一种实施方案图;
图4为本发明实施例提供的一种端对端语音在线语音识别方法的一种实施方案图;
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的一种端对端语音在线语音识别方法的流程图,如图1所示,所述方法基于以一种神经网络模型,所述神经网络模型由训练所得,并包括编码器、解码器、注意力截断网络、联结主义时间分类器,该方法包括如下步骤:
步骤S101,获取待解码的语音流,提取所述语音流的声学特征流;
在一个实施例中,所述待解码的语音流,为实时接收的语音流,如图3中所示。
步骤S102,编码器根据所述声学特征流,得到编码特征流;
步骤S103,获取留存的汉字序列;将所述留存的汉字序列输入解码器,解码器生成状态序列;
步骤S104,根据所述状态序列,以及编码特征流,所述注意力截断网络截取有效的编码特征;
在一个实施例中,将待解码的语音流对应的声学特征序列X=[x1,x2,...xt]输入解码器,实时地输出新的特征序列H=[h1,h2,...,ht];同时将存留的汉字序列Y=[sos,y1,...,yi-1]输入解码器,解码器在依次处理存留的汉字序列中的每一个汉字后,将内部产生的最终状态si-1输入截断式注意力机制,截断式注意力机制从上一次截断点τi-1开始依次向后计算每帧hj的截断概率,即j=τi-1,τi-1+1,...,
直至在概率第一次大于0.5时停止计算,并将当前j的值作为新的截断点τi,若在输入的语音流中未能找到满足条件的截断点,则等待新的语音流输入,直至找到满足条件的截断点,对于解码的初始状态,存留的汉字序列为Yinit=[sos],语音的截断点为τ0=1。
步骤S105,根据所述有效的编码特征,解码器给出多个所述留存的汉字序列的后续一位预测汉字,每个所述预测汉字和留存的汉字序列构成一个新汉字序列,解码器根据所述新汉字序列,得到第一预测评分;
在一个实施例中,注意力截断网络(根据截断式注意力机制)计算出截断点之前每帧语音对应的权重,即j=1,...,τi,
并对前τi个特征序列根据上述权重加权求和,并与解码器内部产生的状态si-1一同输入解码器,解码器在预测下一个汉字时,对词汇表内的每一个汉字输出一个概率,选择概率最大的前M个汉字作为解码器预测的M种结果,每个汉字yi都与存留的汉字序列Y=[sos,y1,...,yi-1]构成一个新的汉字序列Y=[sos,y1,...,yi-1,yi],新的汉字序列的分数(第一预测评分)是存留汉字序列的分数加上当前预测汉字的概率之对数值,初始的汉字序列Yinit=[sos]分数为零。
步骤S106,对齐所述新汉字序列和所述编码特征流,所述联结主义时间分类器根据联结主义时间分类准则对对齐后的新汉字序列进行估算,得到第二预测评分;
在一个实施例中,联结主义时间分类器对已经计算得到的特征序列H=[h1,h2,...,ht]中的每一特征,计算汇表内的每一个汉字的概率p(yk|hj),然后采用维特比算法将汉字序列Y和特征序列H对齐,若对齐过程中需要更多的特征序列,则等待新的语音流输入,直到完成对齐,对齐结束后,采用联结主义时间分类准则计算特征序列H对应汉字序列的分数(第二预测评分)。
步骤S107,根据第一预测评分和第二预测评分,得到综合预测评分,根据所述综合预测评分,保留综合预测评分最高的若干所述新汉字序列;
在一个实施例中,对每一个新的汉字序列,将前述基于截断式注意力机制的解码器所计算的分数和基于联结主义时间分类准则所计算的分数取平均,作为该的汉字序列的分数(综合预测评分),然后对步骤S105中输出的多组汉字序列进行剪枝,挑选分数最高的前N个汉字序列,作为新的一组存留序列。
步骤S108,判断所述新汉字序列是否包含终止符,
若不包含,
将其变为留存汉字序列,输入解码器,即回到步骤S103,继续后续汉字的预测;
若包含,
步骤S109,以所述综合预测评分最高的所述新汉字序列做作为识别结果,并输出。
在一个实施例中,如果所有存留序列的最后一个字符均为终止符eos,或者联结主义时序分类器所对齐的语音片段已经到达了语音终点,则收集,该汉字序列,其余存留的汉字序列作为解码器的输入被继续拓展,重复步骤S103至步骤S108,且若所有的存留序列都被收集,测终止解码器。在另又一个实施例中,在收集的汉字序列中选取分数最高(综合预测评分)的汉字序列作为最终的识别结果。
根据本发明的核心思想,上述步骤可以进一步进行细化,如图4示出本发明实施例提供的一种端对端语音在线语音识别方法的一种实施方案图,凡在本发明的核心精神之内,均应属于本发明的保护范围之内。
图2为本发明一个实施例提供的一种端对端语音在线语音识别神经网络模型的训练方法的流程图,该神经网络模型包括编码器、解码器、注意力截断网络、联结主义时间分类器,如图2所示,所述训练方法包括如下步骤:
步骤S201,获取有汉字标签的音频文件,提取所述音频文件的声学特征序列;
在一个实施例中,提取的声学特征流为梅尔频率倒谱系数(MFCC)升学特征流,入图3所示。
步骤S202,编码器根据所述声学特征序列,得到编码特征序列;
步骤S203,将所述汉字标签的汉字序列,输入解码器,解码器据以生成状态序列;
步骤S204,根据编码特征序列、所述状态序列,注意力截断网络生成注意力特征;
步骤S205,根据所述汉字序列、所述注意力特征,以及所述汉字序列中一个汉字的一个后续汉字,计算后续汉字的损失;
步骤S206,重复步骤S203-205,依次计算汉字序列中每个汉字的后续汉字损失,并累积所述汉字序列中每个汉字的后续汉字损失,作为第一预测损失
步骤S207,根据编码特征序列,联结主义时间分类器直接根据所述汉字序列计算联结主义时间分类准则损失函数,作为第二预测损失;
步骤S208,结合所述第一预测损失和所述第二预测损失,更新所述编码器、解码器、注意力截断网络、联结主义时间分类器。
在一个实施例中,所述神经网络模型在训练之前构建,其中,编码器由多层单向长短期记忆网络堆叠组成,可以将语音对应的T帧声学特征序列X=[x1,...,xT]经过非线性变换后得到新的特征序列H=[h1,...,hT];
在另一个实施例中,进行第一预测汉字为给出汉字序列中每个汉字概率,具体包括,解码器由多层单向长短期记忆网络堆叠组成,将汉字序列Yin=[y0,y1,...,yn]输入解码器,其中y0=sos,表示起始符。解码器将依次处理每一个汉字,最终给出汉字序列Yout=[y1,...,yn,eos]中每个汉字的概率,其中eos代表终止符;在解码器处理的过程中,当解码器计算完第i-1个汉字的概率后,解码器将内部产生的状态si-1输入注意力截断网络,根据截断式注意力机制将计算在第j帧截断语音的概率:
其中Wh和Ws是参数矩阵,b和v是参数向量,g和r是参数标量,根据截断语音的概率进一步计算特征序列H中第j帧的权重:
然后将特征序列H根据上述权重加权求和,并与si一同输入解码器,由解码器计算输出第i个汉字的概率p(yi|Y0:i-1)。
确定第二预测损失具体为,然后根据特征序列H和正确标签Y,由前向-后向算法计算联结主义时间分类准则对应的损失函数Lctc,采用误差反向传播算法最小化损失函数
L=0.5LCE+0.5Lctc。
根据本发明的核心思想,上述步骤可以进一步进行细化,如图3示出本发明实施例提供的一种端对端语音在线语音识别神经网络模型的训练方法的一种实施方案图,凡在本发明的核心精神之内,均应属于本发明的保护范围之内。
从以上实施例可以看出,采用本发明实施例提供的一种截断式注意力机制,让端对端语音识别系统在解码的过程中可以截取语音流,同时输出汉字序列,达到在线解码的目的。同时通过引入联结主义时间分类准则,采用联合训练和解码的方式,提升了端对端语音识别系统的性能。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种端对端语音在线语音识别方法,所述方法基于神经网络模型,所述神经网络模型由训练所得,并包括编码器、解码器、注意力截断网络、联结主义时间分类器,所述方法包括:
获取待解码的语音流,提取所述语音流的声学特征流;
编码器根据所述声学特征流,得到编码特征流;
获取留存的汉字序列;将所述留存的汉字序列输入解码器,解码器生成状态序列;
根据所述状态序列,以及编码特征流,所述注意力截断网络截取有效的编码特征;
根据所述有效的编码特征,解码器给出多个所述留存的汉字序列的后续一位预测汉字,每个所述预测汉字和留存的汉字序列构成一个新汉字序列,解码器根据所述新汉字序列,得到第一预测评分;
对齐所述新汉字序列和所述编码特征流,所述联结主义时间分类器根据联结主义时间分类准则对对齐后的新汉字序列进行估算,得到第二预测评分;
根据第一预测评分和第二预测评分,得到综合预测评分,根据所述综合预测评分,保留综合预测评分最高的若干所述新汉字序列;
判断所述新汉字序列是否包含终止符,
若不包含,
将其变为留存汉字序列,输入解码器,继续后续汉字的预测;
若包含,
以所述综合预测评分最高的所述新汉字序列做作为识别结果,并输出。
2.根据权利要求1所述的方法,其中,所述对齐所述新汉字序列和所述语音包括,使用维特比算法对齐所述新汉字序列和所述语音。
3.根据权利要求1所述的方法,其中,所述获取待解码的语音流,提取所述语音流的声学特征流;编码器根据所述声学特征流,得到编码特征流;获取留存的汉字序列;根据所述留存的汉字序列,以及编码特征流,解码器截取有效的语音片段;包括:
将待解码的语音流对应的声学特征序列X=[x1,x2,...,xt]输入编码器,实时地输出新的特征序列H=[h1,h2,...,ht];
同时将存留的汉字序列Y=[sos,y1,...,yi-1]输入解码器,解码器在依次处理存留的汉字序列中的每一个汉字后产生的最终状态si-1,根据最终状态si-1,从上一次截断点τi-1开始依次向后计算H中每帧hj的截断概率,即j=τi-1,τi-1+1,...,
其中,pij为在hj帧的截断概率,Wh和Ws是参数矩阵,b和v是参数向量,g和r是参数标量,sos表示起始符,
当概率第一次大于0.5时停止计算,并将当前j的值作为新的截断点τi;
若在输入的语音流中未能找到满足条件的截断点,则等待新的语音流输入,直至找到满足条件的截断点;
对于解码的初始状态,存留的汉字序列为Yinit=[sos],语音的截断点为τ0=1。
4.根据权利要求3所述的方法,还包括,
根据所述截断点τi,注意力截断网络计算出截断点之前每帧语音对应的权重,即j′=1,...,τi,该权重aij′为:
5.一种端对端语音在线语音识别神经网络模型的训练方法,所述神经网络模型包括编码器、解码器、注意力截断网络、联结主义时间分类器,所述方法包括:
获取有汉字标签的音频文件,提取所述音频文件的声学特征序列;
编码器根据所述声学特征序列,得到编码特征序列;
将所述汉字标签的汉字序列,输入解码器,解码器据以生成状态序列;
根据编码特征序列、所述状态序列,注意力截断网络生成注意力特征;
根据所述汉字序列、所述注意力特征,以及所述汉字序列中一个汉字的一个后续汉字,计算后续汉字的损失;
依次计算汉字序列中每个汉字的后续汉字损失,并累积所述汉字序列中每个汉字的后续汉字损失,作为第一预测损失;
根据编码特征序列,联结主义时间分类器直接根据所述汉字序列计算联结主义时间分类准则损失函数,作为第二预测损失;
结合所述第一预测损失和所述第二预测损失,更新所述编码器、解码器、注意力截断网络、联结主义时间分类器。
6.根据权利要求5所述的方法,其特征在于,
所述编码器由多层单向长短期记忆网络堆叠组成,可以将语音对应的T 帧声学特征序列X=[x1,...,xT]经过非线性变换后得到新的特征序列H=[h1,...,hT];
所述解码器由多层单向长短期记忆网络堆叠组成,将汉字序列Yin=[y0,y1,...,yn]输入解码器,其中y0=sos,表示起始符;
解码器依次处理所述汉字序列中每一个汉字,最终给出汉字序列Yout=[y1,...,yn,eos]中每个汉字的概率,其中eos代表终止符;包括:
所述解码器将依次处理每一个汉字,包括,当解码器计算完第i-1个汉字的概率后,解码器将内部产生的状态si-1输入注意力截断网络,注意力截断网络将计算在第j帧截断语音的概率:
其中,Wh和Ws是参数矩阵,b和v是参数向量,g和r是参数标量,根据截断语音的概率进一步计算特征序列H中第j帧的权重:
然后将特征序列H根据上述权重加权求和,并与si一同输入解码器,由解码器计算输出第i个汉字的概率p(yi|Y0:i-1)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010106791.1A CN111179918B (zh) | 2020-02-20 | 2020-02-20 | 联结主义时间分类和截断式注意力联合在线语音识别技术 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010106791.1A CN111179918B (zh) | 2020-02-20 | 2020-02-20 | 联结主义时间分类和截断式注意力联合在线语音识别技术 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111179918A CN111179918A (zh) | 2020-05-19 |
CN111179918B true CN111179918B (zh) | 2022-10-14 |
Family
ID=70648261
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010106791.1A Active CN111179918B (zh) | 2020-02-20 | 2020-02-20 | 联结主义时间分类和截断式注意力联合在线语音识别技术 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111179918B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112382278B (zh) * | 2020-11-18 | 2021-08-17 | 北京百度网讯科技有限公司 | 流式语音识别结果显示方法、装置、电子设备和存储介质 |
CN113257248B (zh) * | 2021-06-18 | 2021-10-15 | 中国科学院自动化研究所 | 一种流式和非流式混合语音识别系统及流式语音识别方法 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110070855B (zh) * | 2018-01-23 | 2021-07-23 | 中国科学院声学研究所 | 一种基于迁移神经网络声学模型的语音识别系统及方法 |
CN108630199A (zh) * | 2018-06-30 | 2018-10-09 | 中国人民解放军战略支援部队信息工程大学 | 一种声学模型的数据处理方法 |
US11145293B2 (en) * | 2018-07-20 | 2021-10-12 | Google Llc | Speech recognition with sequence-to-sequence models |
US11107463B2 (en) * | 2018-08-01 | 2021-08-31 | Google Llc | Minimum word error rate training for attention-based sequence-to-sequence models |
CN109215662B (zh) * | 2018-09-18 | 2023-06-20 | 平安科技(深圳)有限公司 | 端对端语音识别方法、电子装置及计算机可读存储介质 |
CN110189748B (zh) * | 2019-05-31 | 2021-06-11 | 百度在线网络技术(北京)有限公司 | 模型构建方法和装置 |
CN110390326A (zh) * | 2019-06-14 | 2019-10-29 | 华南理工大学 | 一种基于集聚交叉熵损失函数的序列识别方法 |
CN110534095B (zh) * | 2019-08-22 | 2020-10-23 | 百度在线网络技术(北京)有限公司 | 语音识别方法、装置、设备以及计算机可读存储介质 |
CN110556100B (zh) * | 2019-09-10 | 2021-09-17 | 思必驰科技股份有限公司 | 端到端语音识别模型的训练方法及系统 |
CN110767218A (zh) * | 2019-10-31 | 2020-02-07 | 南京励智心理大数据产业研究院有限公司 | 端到端语音识别方法、系统、装置及其存储介质 |
CN110782882B (zh) * | 2019-11-04 | 2022-05-17 | 科大讯飞股份有限公司 | 语音识别方法、装置、电子设备和存储介质 |
-
2020
- 2020-02-20 CN CN202010106791.1A patent/CN111179918B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN111179918A (zh) | 2020-05-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Fukuda et al. | Efficient Knowledge Distillation from an Ensemble of Teachers. | |
CN111429889B (zh) | 基于截断注意力的实时语音识别的方法、装置、设备以及计算机可读存储介质 | |
CN110444223B (zh) | 基于循环神经网络和声学特征的说话人分离方法及装置 | |
EP1989701B1 (en) | Speaker authentication | |
CN111916111B (zh) | 带情感的智能语音外呼方法及装置、服务器、存储介质 | |
CN113314124B (zh) | 文本输出方法及系统、存储介质、电子装置 | |
CN111128137A (zh) | 一种声学模型的训练方法、装置、计算机设备和存储介质 | |
US9542931B2 (en) | Leveraging interaction context to improve recognition confidence scores | |
CN111179918B (zh) | 联结主义时间分类和截断式注意力联合在线语音识别技术 | |
CN109256135A (zh) | 一种端到端说话人确认方法、装置及存储介质 | |
CN112017694B (zh) | 语音数据的评测方法和装置、存储介质和电子装置 | |
Padmanabhan et al. | Large-vocabulary speech recognition algorithms | |
CN110970031B (zh) | 语音识别系统及方法 | |
CN113724718B (zh) | 目标音频的输出方法及装置、系统 | |
WO2023109379A1 (zh) | 语音识别方法、语音识别模型、电子设备和存储介质 | |
CN110704618B (zh) | 确定对话数据对应的标准问题的方法及装置 | |
CN109979461B (zh) | 一种语音翻译方法及装置 | |
JP2021039219A (ja) | 音声信号処理装置、音声信号処理方法、音声信号処理プログラム、学習装置、学習方法及び学習プログラム | |
Saeidi et al. | Particle swarm optimization for sorted adapted gaussian mixture models | |
JP2654539B2 (ja) | 音声認識装置 | |
CN113724690B (zh) | Ppg特征的输出方法、目标音频的输出方法及装置 | |
CN115240645A (zh) | 基于注意力重打分的流式语音识别方法 | |
CN113345423B (zh) | 语音端点检测方法、装置、电子设备和存储介质 | |
CN110110294B (zh) | 一种动态反向解码的方法、装置及可读存储介质 | |
JP2905674B2 (ja) | 不特定話者連続音声認識方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |