CN109215662A - 端对端语音识别方法、电子装置及计算机可读存储介质 - Google Patents

端对端语音识别方法、电子装置及计算机可读存储介质 Download PDF

Info

Publication number
CN109215662A
CN109215662A CN201811088477.4A CN201811088477A CN109215662A CN 109215662 A CN109215662 A CN 109215662A CN 201811088477 A CN201811088477 A CN 201811088477A CN 109215662 A CN109215662 A CN 109215662A
Authority
CN
China
Prior art keywords
sequence
output sequence
decoder
representing
tag
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811088477.4A
Other languages
English (en)
Other versions
CN109215662B (zh
Inventor
贾雪丽
程宁
王健宗
肖京
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201811088477.4A priority Critical patent/CN109215662B/zh
Publication of CN109215662A publication Critical patent/CN109215662A/zh
Application granted granted Critical
Publication of CN109215662B publication Critical patent/CN109215662B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Theoretical Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明涉及语音识别技术领域,公开了一种端对端语音识别方法,包括:获取包含多个说话人的第一混合语音信号以及标签序列作为训练样本;构建基于Encoder‑Decoder架构的神经网络模型;训练所述神经网络模型;获取待识别的包括多个说话人的第二混合语音信号;将第二混合语音信号输入经过训练的神经网络模型,输出分别与每个说话人相对应的文本信息。本发明对于包含多个说话人同时发声形成的混合语音源输入,输出分别与每个说话人相对应的发音内容,而无需包含明显的语音分割阶段,从单声道混合语音中生成多个独立的输出,精简语音识别过程,减少计算量。本发明还公开了一种电子装置和计算机可读存储介质。

Description

端对端语音识别方法、电子装置及计算机可读存储介质
技术领域
本发明涉及语音识别技术领域,尤其涉及一种端对端语音识别方法、电子装置及计算机可读存储介质。
背景技术
语音识别,也被称为自动语音识别(Automatic Speech Recognition,ASR),可以通过识别和理解,将输入的语音信号转变为相应的文字或命令输出,是现代人工智能发展的重要分支。随着计算机处理能力的迅速提高,语音识别技术也得到了较大发展,语音识别技术能够有效地推动声控交互相关领域的发展并极大地方便了人们的生活,也在日益改变人类的生产和生活方式。随着语音交互方式的发展,对语音识别技术的要求越来越高。目前,语音识别系统可以实现一对一的转换,即,给定一个语音信号,识别一个单独的发音内容。但是其将自动语音识别系统限定在对于仅有一个说话人输入的语音识别,极大地限制了语音识别的应用范围,所以,对于单声道多说话人的语音识别系统的研究很有必要。现有的针对单声道多说话人的语音识别方法通常包括两个步骤:先将混合语音进行分开,然后再在分开的语音上分别做识别,一个语音信号识别一个单独的发音内容,依然是实现一对一的转换,对于多说话人的混合语音输入的处理量较大,过程繁杂,并且不能针对混合语音源输入进行直接识别,并输出多个独立的发音内容。
发明内容
本发明提供一种端对端语音识别方法、电子装置及计算机可读存储介质,以解决现有语音识别方法及系统对于多说话人的混合语音输入的处理量较大,过程繁杂,并且不能针对混合语音源输入进行直接识别,并输出多个独立的发音内容的问题。
为了实现上述目的,本发明的一个方面是提供一种端对端语音识别方法,应用于电子装置,所述端对端语音识别方法包括以下步骤:
步骤S1、获取包含多个说话人的第一混合语音信号以及与第一混合语音信号对应的标签序列作为训练样本;
步骤S2、构建基于Encoder-Decoder架构的神经网络模型,所述神经网络模型包括编码网络和解码网络;
步骤S3、将第一混合语音信号输入构建的神经网络模型中,训练所述神经网络模型;
步骤S4、获取待识别的包括多个说话人的第二混合语音信号;
步骤S5、将第二混合语音信号输入经过训练的神经网络模型,输出分别与每个说话人相对应的文本信息;
其中,所述编码网络包括:
第一编码器,对所述第一混合语音信号进行处理得到第一特征序列;
多个第二编码器,分别对所述第一特征序列处理,每个第二编码器均得到一个第二特征序列;
多个第三编码器,每个第三编码器与一个第二编码器相对应,对第二编码器输出的第二特征序列处理,得到编码网络的输出序列,并发送至所述解码网络;
所述解码网络包括:
解码器,包括CTC解码器和注意力机制解码器,接收由所述第三编码器发送的输出序列,基于时序分类器CTC准则和注意力机制对所述输出序列处理,得到识别的文本信息。
优选地,所述步骤S3中,训练所述神经网络模型包括:
将所述第一混合语音信号输入所述第一编码器,输出第一特征序列;
多个所述第二编码器分别对所述第一特征序列处理,每个所述第二编码器得到一个第二特征序列;
每个所述第三编码器对相应的所述第二特征序列处理,得到编码网络的输出序列,并发送至解码网络;
所述CTC解码器和所述注意力机制解码器接收由第三编码器发送的输出序列,得到解码网络的输出序列;
根据下式基于损失函数最小选择标签序列的排列,通过反向传播更新注意力机制中的权重值,
其中,L表示损失函数值,s表示说话人的索引,S表示说话人的数量,R表示标签序列,Y表示解码网络的输出序列,P表示排列集合{1,…,S},π表示标签序列的排列,π(s)表示排列π中的第s个元素,Ys,π(s)表示第s个说话人第π(s)个输出序列;
权重值更新前与更新后的损失函数值的变化大于设定值,则继续训练,损失函数值的变化小于或等于设定值,则训练结束。
优选地,训练所述神经网络模型还包括:
通过下式得到在编码网络的每个第三编码器的输出序列Gu的标签序列是Rv时,对于编码网络的每个第三编码器的输出序列Gu,注意力机制解码器输出序列Yu,v的条件概率为:
其中,O表示输入序列;u表示某个说话人的语音的识别结果的索引;v表示标签序列的索引;n表示元素的索引;Y表示解码器的输出序列;yn表示输出序列的第n个元素;表示第u个说话人对应第v个标签序列的输出序列元素;Yu,v表示第u个说话人对应第v个标签序列的解码器输出序列;表示从第1个到第n-1个yu,v表示输入序列为O、输出序列元素为时,注意力机制解码器输出序列元素为的条件概率;patt(Yu,v|O)表示输入序列为O时,注意力机制解码器的输出序列为Yu,v的条件概率;
根据注意力机制解码器输出序列Yu,v的条件概率,得到与编码网络的输出序列Gu对应的标签序列。
优选地,训练所述神经网络模型还包括:
根据下式基于损失函数值最小选择标签序列的排列,
其中,Latt表示基于注意力机制的损失函数值,s表示说话人的索引,R表示标签序列,Y表示解码网络的输出序列,P表示排列集合{1,…,S},π表示标签序列的排列,π(s)表示排列π中的第s个元素,Ys,π(s)表示第s个说话人第π(s)个输出序列。
优选地,训练所述神经网络模型还包括:
基于CTC准则的损失函数值最小,CTC解码器输出一个标签排列;
根据CTC解码器输出的标签排列所决定的标签和与该CTC解码器相同的编码网络的输出序列得到所述注意力机制解码器的输出序列的条件概率;
根据注意力机制解码器输出序列的条件概率,得到与编码网络的输出序列相对应的标签序列。
优选地,训练所述神经网络模型还包括根据下式得到所述神经网络模型的损失函数值:
Lmtl=λLCTC+(1-λ)Latt
其中,LCTC表示基于CTC准则的损失函数值,Latt表示基于注意力机制的损失函数值,Lmtl表示基于CTC准则和注意力机制的损失函数值,λ表示插值。
优选地,第三编码器的同一个输出序列Gu通过CTC解码器得到输出序列Yu的条件概率,结合通过注意力机制解码器得到输出序列Yu的条件概率,通过下式得到神经网络模型的输出序列:
pCTC(Yu|Gu)表示CTC准则下,解码网络输入序列Gu,输出序列为Yu的条件概率;patt(Yu|Gu)表示注意力机制下,解码网络输入序列Gu,输出序列为Yu的条件概率;pcTC(Yu|Gu)和patt(Yu|Gu)由相同的第三编码器的输出序列Gu得到。
优选地,在损失函数中增加基于负对称相对熵散度的项。
为了实现上述目的,本发明的另一个方面是提供一种电子装置,包括:
语音接收器,用于接收语音信号;处理器;存储器,用于存储端对端语音识别程序,所述处理器执行所述端对端语音识别程序,实现如上所述的端对端语音识别方法。
为了实现上述目的,本发明的再一个方面是提供一种计算机可读存储介质,包括端对端语音识别程序,所述端对端语音识别程序被处理器执行时,实现如上所述的端对端语音识别方法。
相对于现有技术,本发明具有以下优点和有益效果:
本发明通过结合了时序分类器CTC准则(Connectionist TemporalClassification准则)和注意力机制的Encoder-Decoder(编码-解码)架构的神经网络模型,对于包含多个说话人同时发声形成的混合语音源输入,输出分别与每个说话人相对应的发音内容,而无需包含明显的语音分割阶段,可以直接将混合语音源输入进行处理,从单声道混合语音中生成多个独立的输出,精简语音识别过程,减少计算量。
附图说明
图1为本发明所述端对端语音识别方法的流程示意图;
图2为图1中Encoder-Decoder架构示意图;
图3为本发明中端对端语音识别程序的模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面将参考附图来描述本发明所述的实施例。本领域的普通技术人员可以认识到,在不偏离本发明的精神和范围的情况下,可以用各种不同的方式或其组合对所描述的实施例进行修正。因此,附图和描述在本质上是说明性的,而不是用于限制权利要求的保护范围。此外,在本说明书中,附图未按比例画出,并且相同的附图标记表示相同的部分。
图1为本发明所述端对端语音识别方法的流程示意图,如图1所示,本发明提供了一种端对端语音识别方法,该方法应用于电子装置,该电子装置可以由软件和/或硬件实现,所述端对端语音识别方法包括:
步骤S1、获取包含多个说话人的第一混合语音信号以及与第一混合语音信号对应的标签序列作为训练样本;
步骤S2、构建基于Encoder-Decoder架构的神经网络模型;
步骤S3、将第一混合语音信号输入构建的神经网络模型中,训练神经网络模型;
步骤S4、获取待识别的包括多个说话人的第二混合语音信号;
步骤S5、将第二混合语音信号输入经过训练的神经网络模型,输出分别与每个说话人相对应的文本信息。
其中,所述步骤S2中,所述基于Encoder-Decoder架构的神经网络模型包括编码网络和解码网络(编码网络和解码网络均可以是任意的多层的神经网络,例如,CNN/RNN/BiRNN/GRU/LSTM等神经网络),图2为图1中Encoder-Decoder架构示意图,如图2所示,所述编码网络包括:
第一编码器,对输入的第一混合语音信号进行处理得到第一特征序列;
多个第二编码器,分别对所述第一特征序列处理,每个第二编码器得到一个第二特征序列;
多个第三编码器,每个第三编码器与一个第二编码器相对应,对第二编码器输出的第二特征序列处理,得到编码网络的输出序列,并发送至所述解码网络;
所述解码网络包括:
解码器,包括CTC解码器和注意力机制解码器,接收由所述第三编码器发送的输出序列,基于时序分类器CTC准则和注意力机制对所述输出序列处理,得到识别的文本信息。
本发明中,对多个说话人同时发声形成的混合语音进行处理,识别发音内容,分别得到与每个说话人相对应的文本信息,将自动语音识别的一对一转换转变成一对多转换,端对端语音识别系统直接识别混合语音,扩大语音识别的应用范围。并且,构建基于Encoder-Decoder架构的神经网络模型,基于时序分类器CTC准则和注意力机制对编码网络的输出序列处理,减少计算代价,且提高语音识别的精准度。
步骤S1中,对于S个说话人同时发声时,形成的第一混合语音信号为D维输入特征向量的T帧序列O=(ot∈RD|t=1,…,T),标签序列为S个分别与每个说话人相对应的标签序列
其中,T表示序列帧数,t表示序列帧数的索引,D表示输入特征向量的维度,O表示输入序列,o表示序列元素,ot表示第t帧序列元素,RD表示元素为实数的D维特征向量;s表示说话人的索引,S表示说话人的数量,N表示标签序列中的标签数量,Ns表示第s个说话人的标签序列中的标签数量,R表示标签序列,r表示标签序列R中的标签,Rs表示第s个说话人的标签序列。
本发明中,对神经网络模型进行训练,从单声道混合语音中生成多个独立的输出,在训练时,考虑标签序列的所有可能的排列方式,例如,对于S个说话人,标签序列的排列有S!种排列方式,在神经网络训练时,选出所有排列方式中具有最小损失的标签序列用于反向传播计算,反向传播可以选用BP神经网络传播,在逐层反向传播的过程中由损失结果的反馈不断调整神经网络中各隐藏层的权重值,对权重进行更新,经过训练,输出与标签序列R最接近的输出序列Y。
本发明的一个可选实施例中,步骤S3中,利用第一混合语音信号和相应的标签序列对神经网络模型进行训练的方法包括:
将第一混合语音信号输入第一编码器,输出第一特征序列为H,
H=EncoderMix(O)
其中,O表示输入序列,H表示第一特征序列,EncoderMix表示第一编码器;
多个第二编码器分别对第一特征序列H处理,每个第二编码器得到一个第二特征序列,对于S个说话人,采用S个第二编码器(区分说话人编码器SD),生成S个第二特征序列Hu
其中,u∈{1,…,S}表示某个说话人的语音的识别结果的索引,Hu表示第u个说话人的第二特征序列,表示第u个说话人的第二编码器;
采用与第二编码器数量相等的多个第三编码器(识别编码器Recognitionencoder),每个第三编码器与一个第二编码器相对应,对第二编码器输出的第二特征序列Hu处理,得到编码网络的输出序列Gu,并发送至解码网络,
Gu=EncoderRec(Hu)
其中,Gu表示第u个说话人的第三编码器的输出序列,EncoderRec表示第三编码器;
CTC解码器和注意力机制解码器接收由第三编码器发送的输出序列Gu,基于时序分类器CTC准则和注意力机制对所述输出序列处理,得到解码网络的输出序列;
考虑所有标签序列的排列,根据下式基于损失函数最小选择标签序列的排列,通过反向传播更新注意力机制中的权重值,
其中,L表示损失函数值,s表示说话人的索引,S表示说话人的数量,R表示标签序列,Y表示解码网络的输出序列,P表示排列集合{1,…,S},π表示标签序列的排列,π(s)表示排列π中的第s个元素,Ys,π(s)表示第s个说话人第π(s)个输出序列;
权重值更新前与更新后的损失函数值的变化大于设定值,则继续训练,损失函数值的变化小于或等于设定值,则训练结束。
神经网络模型中确定的注意力权重值,使得语音信号被输入到神经网络模型之后,基于注意力权重值突出语音信号在语音帧一个或多个频率范围的特征值的不同重要程度,经过Encoder-Decoder神经网络模型之后,输出相对应的文本信息。
优选地,训练所述神经网络模型还包括:
在编码网络的每个第三编码器的输出序列Gu的标签序列是Rv时,对于编码网络的每个第三编码器的输出序列Gu,得到注意力机制解码器输出序列Yu,v的条件概率为:
其中,O表示输入序列;u表示某个说话人的语音的识别结果的索引;v表示标签序列的索引;n表示元素的索引;Y表示解码器的输出序列;yn表示输出序列的第n个元素;表示第u个说话人对应第v个标签序列的第n个输出序列元素;Yu,v表示第u个说话人对应第v个标签序列的解码器输出序列;表示从第1个到第n-1个yu,v表示输入序列为O、输出序列元素为时,注意力机制解码器输出序列元素为的条件概率;patt(Yu,v|O)表示输入序列为O时,注意力机制解码器的输出序列为Yu,v的条件概率;
根据注意力机制解码器输出序列Yu,v的条件概率,得到与编码网络的输出序列Gu对应的标签序列。
根据下式得到第u个说话人对应第v个标签序列的第n个输出序列元素
其中,u表示某个说话人的语音的识别结果的索引;v表示标签序列的索引,Gu表示第三编码器输出的第u个说话人的输出序列;Attention表示注意力机制,Update表示更新,Decoder表示解码,表示第u个说话人对应第v个标签序列的第n个上下文向量;表示第u个说话人对应第v个标签序列的第n个注意力权重;表示第u个说话人对应第v个标签序列的注意力机制解码器的第n个隐含状态向量;r表示标签序列R中的标签;表示第v个标签序列中的第n-1个标签。
对于输入的混合语音序列,经过注意力机制解码器之后将得到与各个第三编码器的输出序列相对应的所有标签序列的条件概率分布。对与同一个标签序列相对应的第三编码器的输出序列的条件概率得到注意力机制解码器的权重,根据权重以及第三编码器的输出序列得到对应的中间语义序列,进而解码得到输出序列。
本发明中,以损失衡量神经网络的期望输出与实际输出之间的距离。优选地,根据下式结合注意力机制的基于损失函数值最小选择标签序列的排列:
其中,Latt表示基于注意力机制的损失函数值,s表示说话人的索引,R表示标签序列,Y表示解码网络的输出序列,P表示排列集合{1,…,S},π表示标签序列的排列,π(s)表示排列π中的第s个元素,Ys,π(s)表示第s个说话人第π(s)个输出序列。
例如,有两个说话人,P表示集合{1,2},π包含两种排列(1,2)和(2,1),则损失值为:
Latt=min(Lossatt(Y1,i,R1)+Lossatt(Y2,2,R2),Lossatt(Y1,2,R2)
+Lossatt(Y2,1,R1))
选择使损失值最小的排列,用于反向传播,利用误差的反馈结果,训练注意力机制中的权重值。
进一步地,为了减少计算带来的损失,本发明中,优选地,结合CTC准则和注意力机制定义损失值,训练神经网络模型。
具体地,根据CTC准则,基于CTC准则的损失函数值最小,CTC解码器输出一个标签排列,
其中,Lctc表示基于CTC的损失函数值,s表示说话人的索引,R表示标签序列,Y表示解码网络的输出序列,P表示排列集合{1,…,S},π表示标签序列的排列,π(s)表示排列π中的第s个元素,Ys表示第s个说话人的解码器的输出序列,Rπ(s)表示第π(s)个标签序列;
选择使得损失函数值Lctc最小的一个标签排列:
其中,表示CTC解码器确定的标签排列,R表示标签序列,Y表示解码网络的输出序列,P表示排列集合{1,…,S},π表示标签序列的排列,π(s)表示排列π中的第s个元素,Ys表示第s个说话人的解码器的输出序列;
根据标签排列决定的标签和与该CTC解码器相同的编码网络的输出序列Gu来实施注意力机制解码,得到注意力机制解码器的输出序列的条件概率:
其中,O表示输入序列,表示CTC解码器确定的标签排列,表示标签序列排列的第u个元素,u表示某个说话人的语音的识别结果的索引;Y表示解码器的输出序列;y表示输出序列元素;n表示元素的索引;表示第u个说话人对应第个的第n个输出序列元素;表示第u个说话人对应第个输出序列;表示第u个说话人对应第个标签的第1个到第(n-1)个输出序列元素;表示输入序列为O、输出序列元素为时,注意力机制解码器输出序列元素为的条件概率;表示输入序列为O时,注意力机制解码器的输出序列为的条件概率;
根据注意力机制解码器输出序列的条件概率,得到与编码网络的输出序列相对应的标签序列。
根据下式得到第u个说话人对应第个的第n个输出序列元素
其中,u表示某个说话人的语音的识别结果的索引;v表示标签序列的索引,Gu表示第三编码器输出的第u个说话人的输出序列;Attention表示注意力机制,Update表示更新,Decoder表示解码,表示第u个说话人对应第个标签序列的第n个上下文向量;表示第u个说话人对应第个标签序列的第n个注意力权重;表示第u个说话人对应第个标签序列的注意力机制解码器的第n个隐含状态向量;r表示标签序列R中的标签;表示第个标签序列中的第n-1个标签。
进一步地,结合CTC准则和注意力机制的损失值为两个目标函数带插值λ的和:
Lmtl=λLCTC+(1-λ)Latt
其中,LCTC表示基于CTC准则的损失值,Latt表示基于注意力机制的损失值,Lmtl表示基于CTC准则和注意力机制的损失值,s表示说话人的索引,Ys表示第s个说话人对应CTC解码器的输出序列,表示第s个说话人对应的第个注意力机制解码器的输出序列,Rπ(s)表示第个标签序列。
选择使损失值Lmtl最小的排列,用于反向传播,利用误差的反馈结果,更新注意力机制中的权重。
优选地,第三编码器的同一个输出序列Gu通过CTC解码器得到输出序列Yu的条件概率,结合通过注意力机制解码器得到输出序列Yu的条件概率,得到解码网络的输出序列
具体地,神经网络模型的输出序列可以由下式得到:
pCTC(Yu|Gu)表示CTC准则下,解码网络输入序列Gu,输出序列为Yu的条件概率;patt(Yu|Gu)表示注意力机制下,解码网络输入序列Gu,输出序列为Yu的条件概率;pCTC(Yu|Gu)和patt(Yu|Gu)由相同的第三编码器的输出序列Gu得到。
一个单独的解码网络通过独立地解码由编码网络生成的多个隐藏层向量来输出多个标签序列。为了让解码网络生成许多不同的标签序列,编码网络需要对不同的说话人生成足够鉴别性的隐藏层向量序列。
优选地,在损失函数中增加基于负对称相对熵散度的项。通过引入一个基于负对称相对熵散度的项来增强不同隐藏层向量之间的对比。以两个说话人同时发声为例,损失函数通过下式得到:
其中,η是一个常数值,是由第三编码器EncoderRec的输出序列Gu经过softmax操作而得:
其中,l表示神经网络中的隐藏层数量;
表示第l个隐藏层的输出序列为Gu的概率;
表示两个概率的KL散度。
对于重新输入神经网络模型的一段包含多个说话人的第二混合语音信号,经过编码网络编码,输出与每个说话人相对应的输出序列Gu,利用训练后的注意力权重,求得输出序列为Yu的条件概率,进而得到解码网络的输出序列
本发明所述端对端语音识别方法应用于电子装置,电子装置可以是电视机、智能手机、平板电脑、计算机等终端设备。然而,电子装置并不限于所列举示例,电子装置可以是用户控制的通过语音识别技术处理用户命令的任何其他装置,通过输入用户的语音,在显示器等装置上以文本格式提供识别结果,或在其他的输出装置上输出用户语音的识别结果。
所述电子装置包括:语音接收器,用于接收语音信号;处理器;存储器,用于存储端对端语音识别程序,处理器执行端对端语音识别程序,实现如上所述的端对端语音识别方法。
语音接收器,通过电子装置的麦克风接收用户的语音信号输入,可以是多个说话人的混合语音信号。
存储器包括至少一种类型的可读存储介质,可以是闪存、硬盘、光盘等非易失性存储介质,也可以是插接式硬盘等,且并不限于此,可以是以非暂时性方式存储指令或软件以及任何相关联的数据文件并向处理器提供指令或软件程序以使该处理器能够执行指令或软件程序的任何装置。本发明中,存储器存储的软件程序包括端对端语音识别程序,并可以向处理器提供该端对端语音识别程序,以使得处理器可以执行该端对端语音识别程序,实现端对端语音识别方法。
处理器可以是中央处理器、微处理器或其他数据处理芯片等,可以运行存储器中的存储程序。
可选地,该电子装置还包括显示器,例如,可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管触摸器等。显示器用于显示在电子装置中经处理形成的文本信息。
本发明中,处理器执行端对端语音识别程序,可以实现如下的端对端语音识别方法:
获取包含多个说话人的第一混合语音信号以及与第一混合语音信号对应的标签序列作为训练样本;
构建基于Encoder-Decoder架构的神经网络模型,包括编码网络和解码网络(编码网络和解码网络均可以是任意的多层的神经网络,例如,CNN/RNN/BiRNN/GRU/LSTM等神经网络),编码网络包括:第一编码器,对输入的第一混合语音信号进行处理得到第一特征序列;多个第二编码器,分别对所述第一特征序列处理,每个第二编码器得到一个第二特征序列;多个第三编码器,每个第三编码器与一个第二编码器相对应,对第二编码器输出的第二特征序列处理,得到编码网络的输出序列,并发送至所述解码网络;所述解码网络包括:解码器,包括CTC解码器和注意力机制解码器,接收由所述第三编码器发送的输出序列,基于时序分类器CTC准则和注意力机制对所述输出序列处理,得到识别的文本信息;
将第一混合语音信号输入构建的神经网络模型中,训练神经网络模型;
获取待识别的包括多个说话人的第二混合语音信号;
将第二混合语音信号输入经过训练的神经网络模型,输出分别与每个说话人相对应的文本信息。
对于S个说话人同时发声时,形成的第一混合语音信号为D维输入特征向量的T帧序列O=(ot∈RD|t=1,…,T),标签序列为S个分别与每个说话人相对应的标签序列
其中,T表示序列帧数,t表示序列帧数的索引,D表示输入特征向量的维度,O表示输入序列,o表示序列元素,ot表示第t帧序列元素,RD表示元素为实数的D维特征向量;s表示说话人的索引,S表示说话人的数量,N表示标签序列中的标签数量,Ns表示第s个说话人的标签序列中的标签数量,R表示标签序列,r表示标签序列R中的标签,Rs表示第s个说话人的标签序列。
本发明中,处理器执行端对端语音识别程序对神经网络模型进行训练,从单声道混合语音中生成多个独立的输出,在训练时,考虑标签序列的所有可能的排列方式,例如,对于S个说话人,标签序列的排列有S!种排列方式,在神经网络训练时,选出所有排列方式中具有最小损失的标签序列用于反向传播计算,反向传播可以选用BP神经网络传播,在逐层反向传播的过程中由损失结果的反馈不断调整神经网络中各隐藏层的权重值,对权重进行更新,经过训练,输出与标签序列R最接近的输出序列Y。
本发明的一个可选实施例中,处理器执行端对端语音识别程序,利用第一混合语音信号和相应的标签序列对神经网络模型进行训练的方法包括:
将第一混合语音信号输入第一编码器,输出第一特征序列为H,
H=EncoderMix(O)
其中,O表示输入序列,H表示第一特征序列,EncoderMix表示第一编码器;
多个第二编码器分别对第一特征序列H处理,每个第二编码器得到一个第二特征序列,对于S个说话人,采用S个第二编码器(区分说话人编码器SD),生成S个第二特征序列Hu
其中,u∈{1,…,S}表示某个说话人的语音的识别结果的索引,Hu表示第u个说话人的第二特征序列,表示第u个说话人的第二编码器;
采用与第二编码器数量相等的多个第三编码器(识别编码器Recognitionencoder),每个第三编码器与一个第二编码器相对应,对第二编码器输出的第二特征序列Hu处理,得到编码网络的输出序列Gu,并发送至解码网络,
Gu=EncodeYRec(Hu)
其中,Gu表示第u个说话人的第三编码器的输出序列,EncoderRec表示第三编码器;
CTC解码器和注意力机制解码器接收由第三编码器发送的输出序列Gu,基于时序分类器CTC准则和注意力机制对所述输出序列处理,得到解码网络的输出序列;
考虑所有标签序列的排列,根据下式基于损失函数最小选择标签序列的排列,通过反向传播更新注意力机制中的权重值,
其中,L表示损失函数值,s表示说话人的索引,S表示说话人的数量,R表示标签序列,Y表示解码网络的输出序列,P表示排列集合{1,…,S},π表示标签序列的排列,π(s)表示排列π中的第s个元素,Ys,π(s)表示第s个说话人第π(s)个输出序列;
权重值更新前与更新后的损失函数值的变化大于设定值,则继续训练,损失函数值的变化小于或等于设定值,则训练结束。
优选地,处理器执行端对端语音识别程序,训练所述神经网络模型还包括:
在编码网络的每个第三编码器的输出序列Gu的标签序列是Rv时,对于编码网络的每个第三编码器的输出序列Gu,得到注意力机制解码器输出序列Yu,v的条件概率为:
其中,O表示输入序列;u表示某个说话人的语音的识别结果的索引;v表示标签序列的索引;n表示元素的索引;Y表示解码器的输出序列;yn表示输出序列的第n个元素;表示第u个说话人对应第v个标签序列的第n个输出序列元素;Yu,v表示第u个说话人对应第v个标签序列的解码器输出序列;表示从第1个到第n-1个yu,v表示输入序列为O、输出序列元素为时,注意力机制解码器输出序列元素为的条件概率;patt(Yu,v|O)表示输入序列为O时,注意力机制解码器的输出序列为Yu,v的条件概率;
根据注意力机制解码器输出序列Yu,v的条件概率,得到与编码网络的输出序列Gu对应的标签序列。
根据下式得到第u个说话人对应第v个标签序列的第n个输出序列元素
其中,u表示某个说话人的语音的识别结果的索引;v表示标签序列的索引,Gu表示第三编码器输出的第u个说话人的输出序列;Attention表示注意力机制,Update表示更新,Decoder表示解码,表示第u个说话人对应第v个标签序列的第n个上下文向量;表示第u个说话人对应第v个标签序列的第n个注意力权重;表示第u个说话人对应第v个标签序列的注意力机制解码器的第n个隐含状态向量;r表示标签序列R中的标签;表示第v个标签序列中的第n-1个标签。
优选地,处理器执行端对端语音识别程序,根据下式结合注意力机制的基于损失函数值最小选择标签序列的排列:
其中,Latt表示基于注意力机制的损失函数值,s表示说话人的索引,R表示标签序列,Y表示解码网络的输出序列,P表示排列集合{1,…,S},π表示标签序列的排列,π(s)表示排列π中的第s个元素,Ys,π(s)表示第s个说话人第π(s)个输出序列。
例如,有两个说话人,P表示集合{1,2},π包含两种排列(1,2)和(2,1),则损失值为:
Latt=min(Lossatt(Y1,1,R1)+Lossatt(Y2,2,R2),Lossatt(Y1,2,R2)
+Lossatt(Y2,1,R1))
选择使损失值最小的排列,用于反向传播,利用误差的反馈结果,训练注意力机制中的权重值。
进一步地,为了减少计算带来的损失,本发明中,优选地,处理器执行端对端语音识别程序,结合CTC准则和注意力机制定义损失值,训练神经网络模型。
具体地,根据CTC准则,基于CTC准则的损失函数值最小,CTC解码器输出一个标签排列,
其中,Lctc表示基于CTC的损失函数值,s表示说话人的索引,R表示标签序列,Y表示解码网络的输出序列,P表示排列集合{1,…,S},π表示标签序列的排列,π(s)表示排列π中的第s个元素,Ys表示第s个说话人的解码器的输出序列,Rπ(s)表示第π(s)个标签序列;
选择使得损失函数值Lctc最小的一个标签排列:
其中,表示CTC解码器确定的标签排列,R表示标签序列,Y表示解码网络的输出序列,P表示排列集合{1,…,S},π表示标签序列的排列,π(s)表示排列π中的第s个元素,Ys表示第s个说话人的解码器的输出序列;
根据标签排列决定的标签和与该CTC解码器相同的编码网络的输出序列Gu来实施注意力机制解码,得到注意力机制解码器的输出序列的条件概率:
其中,O表示输入序列,表示CTC解码器确定的标签排列,表示标签序列排列的第u个元素,u表示某个说话人的语音的识别结果的索引;Y表示解码器的输出序列;y表示输出序列元素;n表示元素的索引;表示第u个说话人对应第个的第n个输出序列元素;表示第u个说话人对应第个输出序列;表示第u个说话人对应第个标签的第1个到第(n-1)个输出序列元素;表示输入序列为O、输出序列元素为时,注意力机制解码器输出序列元素为的条件概率;表示输入序列为O时,注意力机制解码器的输出序列为的条件概率;
根据注意力机制解码器输出序列的条件概率,得到与编码网络的输出序列相对应的标签序列。
根据下式得到第u个说话人对应第个的第n个输出序列元素
其中,u表示某个说话人的语音的识别结果的索引;v表示标签序列的索引,Gu表示第三编码器输出的第u个说话人的输出序列;Attention表示注意力机制,Update表示更新,Decoder表示解码,表示第u个说话人对应第个标签序列的第n个上下文向量;表示第u个说话人对应第个标签序列的第n个注意力权重;表示第u个说话人对应第个标签序列的注意力机制解码器的第n个隐含状态向量;r表示标签序列R中的标签;表示第个标签序列中的第n-1个标签。
进一步地,结合CTC准则和注意力机制的损失值为两个目标函数带插值λ的和:
Lmtl=λLcTc+(1-λ)Latt
其中,LCTC表示基于CTC准则的损失值,Latt表示基于注意力机制的损失值,Lmtl表示基于CTC准则和注意力机制的损失值,s表示说话人的索引,Ys表示第s个说话人对应CTC解码器的输出序列,表示第s个说话人对应的第个注意力机制解码器的输出序列,Rπ(s)表示第个标签序列。
选择使损失值Lmtl最小的排列,用于反向传播,利用误差的反馈结果,更新注意力机制中的权重。
优选地,第三编码器的同一个输出序列Gu通过CTC解码器得到输出序列Yu的条件概率,结合通过注意力机制解码器得到输出序列Yu的条件概率,得到解码网络的输出序列
具体地,神经网络模型的输出序列可以由下式得到:
pCTC(Yu|Gu)表示CTC准则下,解码网络输入序列Gu,输出序列为Yu的条件概率;patt(Yu|Gu)表示注意力机制下,解码网络输入序列Gu,输出序列为Yu的条件概率;pCTC(Yu|Gu)和patt(Yu|Gu)由相同的第三编码器的输出序列Gu得到。
一个单独的解码网络通过独立地解码由编码网络生成的多个隐藏层向量来输出多个标签序列。为了让解码网络生成许多不同的标签序列,编码网络需要对不同的说话人生成足够鉴别性的隐藏层向量序列。
优选地,在损失函数中增加基于负对称相对熵散度的项。通过引入一个基于负对称相对熵散度的项来增强不同隐藏层向量之间的对比。以两个说话人同时发声为例,损失函数通过下式得到:
其中,η是一个常数值,是由第三编码器EncoderRec的输出序列Gu经过softmax操作而得:
其中,l表示神经网络中的隐藏层数量;
表示第l个隐藏层的输出序列为Gu的概率;
表示两个概率的KL散度。
在其他实施例中,端对端语音识别程序还可以被分割为一个或者多个模块,一个或者多个模块被存储于存储器中,并由处理器执行,以完成本发明。本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段。图3为本发明中端对端语音识别程序的模块示意图,如图3所示,所述端对端语音识别程序可以被分割为:训练样本获取模块10、模型构建模块20、模型训练模块30、语音获取模块40、语音识别模块50。各个模块所实现的功能或操作步骤均与上文类似,此处不再详述,示例性地,例如其中:
训练样本获取模块10,获取包含多个说话人的第一混合语音信号以及与第一混合语音信号对应的标签序列;
模型构建模块20,构建基于Encoder-Decoder架构的神经网络模型;
模型训练模块30,将第一混合语音信号输入构建的神经网络模型中,训练神经网络模型;
语音获取模块40,获取待识别的包括多个说话人的第二混合语音信号;
语音识别模块50,将第二混合语音信号输入经过训练的神经网络模型,输出识别的分别与每个说话人相对应的文本信息。
本发明的一个实施例中,计算机可读存储介质可以是任何包含或存储程序或指令的有形介质,其中的程序可以被执行,通过存储的程序指令相关的硬件实现相应的功能。例如,计算机可读存储介质可以是计算机磁盘、硬盘、随机存取存储器、只读存储器等。本发明并不限于此,可以是以非暂时性方式存储指令或软件以及任何相关数据文件或数据结构并且可提供给处理器以使处理器执行其中的程序或指令的任何装置。所述计算机可读存储介质中包括端对端语音识别程序,所述端对端语音识别程序被处理器执行时,实现如下的端对端语音识别方法:
获取包含多个说话人的第一混合语音信号以及与第一混合语音信号对应的标签序列作为训练样本;
构建基于Encoder-Decoder架构的神经网络模型,包括编码网络和解码网络(编码网络和解码网络均可以是任意的多层的神经网络,例如,CNN/RNN/BiRNN/GRU/LSTM等神经网络),编码网络包括:第一编码器,对输入的第一混合语音信号进行处理得到第一特征序列;多个第二编码器,分别对所述第一特征序列处理,每个第二编码器得到一个第二特征序列;多个第三编码器,每个第三编码器与一个第二编码器相对应,对第二编码器输出的第二特征序列处理,得到编码网络的输出序列,并发送至所述解码网络;所述解码网络包括:解码器,包括CTC解码器和注意力机制解码器,接收由所述第三编码器发送的输出序列,基于时序分类器CTC准则和注意力机制对所述输出序列处理,得到识别的文本信息;
将第一混合语音信号输入构建的神经网络模型中,训练神经网络模型;
获取待识别的包括多个说话人的第二混合语音信号;
将第二混合语音信号输入经过训练的神经网络模型,输出分别与每个说话人相对应的文本信息。
优选地,训练所述神经网络模型包括:
将所述第一混合语音信号输入所述第一编码器,输出第一特征序列;
多个所述第二编码器分别对所述第一特征序列处理,每个所述第二编码器得到一个第二特征序列;
每个所述第三编码器对相应的所述第二特征序列处理,得到编码网络的输出序列,并发送至解码网络;
所述CTC解码器和所述注意力机制解码器接收由第三编码器发送的输出序列,得到解码网络的输出序列;
根据下式基于损失函数最小选择标签序列的排列,通过反向传播更新注意力机制中的权重值,
其中,L表示损失函数值,s表示说话人的索引,S表示说话人的数量,R表示标签序列,Y表示解码网络的输出序列,P表示排列集合{1,…,S},π表示标签序列的排列,π(s)表示排列π中的第s个元素,Ys,π(s)表示第s个说话人第π(s)个输出序列;
权重值更新前与更新后的损失函数值的变化大于设定值,则继续训练,损失函数值的变化小于或等于设定值,则训练结束。
优选地,训练所述神经网络模型还包括:
通过下式得到在编码网络的每个第三编码器的输出序列Gu的标签序列是Rv时,对于编码网络的每个第三编码器的输出序列Gu,注意力机制解码器输出序列Yu,v的条件概率为:
其中,O表示输入序列;u表示某个说话人的语音的识别结果的索引;v表示标签序列的索引;n表示元素的索引;Y表示解码器的输出序列;yn表示输出序列的第n个元素;表示第u个说话人对应第v个标签序列的输出序列元素;Yu,v表示第u个说话人对应第v个标签序列的解码器输出序列;表示从第1个到第n-1个yu,v表示输入序列为O、输出序列元素为时,注意力机制解码器输出序列元素为的条件概率;patt(Yu,v|O)表示输入序列为O时,注意力机制解码器的输出序列为Yu,v的条件概率;
根据注意力机制解码器输出序列Yu,v的条件概率,得到与编码网络的输出序列Gu对应的标签序列。
优选地,训练所述神经网络模型还包括:
根据下式基于损失函数值最小选择标签序列的排列,
其中,Latt表示基于注意力机制的损失函数值,s表示说话人的索引,R表示标签序列,Y表示解码网络的输出序列,P表示排列集合{1,…,S},π表示标签序列的排列,π(s)表示排列π中的第s个元素,Ys,π(s)表示第s个说话人第π(s)个输出序列。
优选地,训练所述神经网络模型还包括:
基于CTC准则的损失函数值最小,CTC解码器输出一个标签排列;
根据CTC解码器输出的标签排列所决定的标签和与该CTC解码器相同的编码网络的输出序列得到所述注意力机制解码器的输出序列的条件概率;
根据注意力机制解码器输出序列的条件概率,得到与编码网络的输出序列相对应的标签序列。
优选地,训练所述神经网络模型还包括根据下式得到所述神经网络模型的损失函数值:
Lmtl=λLCTC+(1-λ)Latt
其中,LCTC表示基于CTC准则的损失函数值,Latt表示基于注意力机制的损失函数值,Lmtl表示基于CTC准则和注意力机制的损失函数值,λ表示插值。
优选地,第三编码器的同一个输出序列Gu通过CTC解码器得到输出序列Yu的条件概率,结合通过注意力机制解码器得到输出序列Yu的条件概率,通过下式得到神经网络模型的输出序列:
pCTC(Yu|Gu)表示CTC准则下,解码网络输入序列Gu,输出序列为Yu的条件概率;patt(Yu|Gu)表示注意力机制下,解码网络输入序列Gu,输出序列为Yu的条件概率;pCTC(Yu|Gu)和patt(Yu|Gu)由相同的第三编码器的输出序列Gu得到。
优选地,在损失函数中增加基于负对称相对熵散度的项。
本发明所述计算机可读存储介质的具体实施方式与上述端对端语音识别方法、电子装置的具体实施方式大致相同,在此不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种端对端语音识别方法,应用于电子装置,其特征在于,所述端对端语音识别方法包括以下步骤:
步骤S1、获取包含多个说话人的第一混合语音信号以及与第一混合语音信号对应的标签序列作为训练样本;
步骤S2、构建基于Encoder-Decoder架构的神经网络模型,所述神经网络模型包括编码网络和解码网络;
步骤S3、将第一混合语音信号输入构建的神经网络模型中,训练所述神经网络模型;
步骤S4、获取待识别的包括多个说话人的第二混合语音信号;
步骤S5、将第二混合语音信号输入经过训练的神经网络模型,输出分别与每个说话人相对应的文本信息;
其中,所述编码网络包括:
第一编码器,对所述第一混合语音信号进行处理得到第一特征序列;
多个第二编码器,分别对所述第一特征序列处理,每个第二编码器均得到一个第二特征序列;
多个第三编码器,每个第三编码器与一个第二编码器相对应,对第二编码器输出的第二特征序列处理,得到编码网络的输出序列,并发送至所述解码网络;
所述解码网络包括:
解码器,包括CTC解码器和注意力机制解码器,接收由所述第三编码器发送的输出序列,基于时序分类器CTC准则和注意力机制对所述输出序列处理,得到识别的文本信息。
2.根据权利要求1所述的端对端语音识别方法,其特征在于,所述步骤S3中,训练所述神经网络模型包括:
将所述第一混合语音信号输入所述第一编码器,输出第一特征序列;
多个所述第二编码器分别对所述第一特征序列处理,每个所述第二编码器得到一个第二特征序列;
每个所述第三编码器对相应的所述第二特征序列处理,得到编码网络的输出序列,并发送至解码网络;
所述CTC解码器和所述注意力机制解码器接收由第三编码器发送的输出序列,得到解码网络的输出序列;
根据下式基于损失函数最小选择标签序列的排列,通过反向传播更新注意力机制中的权重值,
其中,L表示损失函数值,s表示说话人的索引,S表示说话人的数量,R表示标签序列,Y表示解码网络的输出序列,P表示排列集合{1,...,S},π表示标签序列的排列,π(s)表示排列π中的第s个元素,Ys,π(s)表示第s个说话人第π(s)个输出序列;
权重值更新前与更新后的损失函数值的变化大于设定值,则继续训练,损失函数值的变化小于或等于设定值,则训练结束。
3.根据权利要求2所述的端对端语音识别方法,其特征在于,训练所述神经网络模型还包括:
通过下式得到在编码网络的每个第三编码器的输出序列Gu的标签序列是Rv时,对于编码网络的每个第三编码器的输出序列Gu,注意力机制解码器输出序列Yu,v的条件概率为:
其中,O表示输入序列;u表示某个说话人的语音的识别结果的索引;v表示标签序列的索引;n表示元素的索引;Y表示解码器的输出序列;yn表示输出序列的第n个元素;表示第u个说话人对应第v个标签序列的输出序列元素;Yu,v表示第u个说话人对应第v个标签序列的解码器输出序列;表示从第1个到第n-1个yu,v表示输入序列为O、输出序列元素为时,注意力机制解码器输出序列元素为的条件概率;patt(Yu,v|O)表示输入序列为O时,注意力机制解码器的输出序列为Yu,v的条件概率;
根据注意力机制解码器输出序列Yu,v的条件概率,得到与编码网络的输出序列Gu对应的标签序列。
4.根据权利要求3所述的端对端语音识别方法,其特征在于,训练所述神经网络模型还包括:
根据下式基于损失函数值最小选择标签序列的排列,
其中,Latt表示基于注意力机制的损失函数值,s表示说话人的索引,R表示标签序列,Y表示解码网络的输出序列,P表示排列集合{1,...,S},π表示标签序列的排列,π(s)表示排列π中的第s个元素,Ys,π(s)表示第s个说话人第π(s)个输出序列。
5.根据权利要求2所述的端对端语音识别方法,其特征在于,训练所述神经网络模型还包括:
基于CTC准则的损失函数值最小,CTC解码器输出一个标签排列;
根据CTC解码器输出的标签排列所决定的标签和与该CTC解码器相同的编码网络的输出序列得到所述注意力机制解码器的输出序列的条件概率;
根据注意力机制解码器输出序列的条件概率,得到与编码网络的输出序列相对应的标签序列。
6.根据权利要求5所述的端对端语音识别方法,其特征在于,训练所述神经网络模型还包括根据下式得到所述神经网络模型的损失函数值:
Lmtl=λLCTC+(1-λ)Latt
其中,LCTC表示基于CTC准则的损失函数值,Latt表示基于注意力机制的损失函数值,Lmtl表示基于CTC准则和注意力机制的损失函数值,λ表示插值。
7.根据权利要求6所述的端对端语音识别方法,其特征在于,第三编码器的同一个输出序列Gu通过CTC解码器得到输出序列Yu的条件概率,结合通过注意力机制解码器得到输出序列Yu的条件概率,通过下式得到神经网络模型的输出序列:
pCTC(Yu|Gu)表示CTC准则下,解码网络输入序列Gu,输出序列为Yu的条件概率;patt(Yu|Gu)表示注意力机制下,解码网络输入序列Gu,输出序列为Yu的条件概率;pCTC(Yu|Gu)和patt(Yu|Gu)由相同的第三编码器的输出序列Gu得到。
8.根据权利要求2所述的端对端语音识别方法,其特征在于,在损失函数中增加基于负对称相对熵散度的项。
9.一种电子装置,其特征在于,所述电子装置包括:
语音接收器,用于接收语音信号;
处理器;
存储器,用于存储端对端语音识别程序,
所述处理器执行所述端对端语音识别程序,实现如权利要求1-8中任一项权利要求所述的端对端语音识别方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中包括端对端语音识别程序,所述端对端语音识别程序被处理器执行时,实现如权利要求1-8中任一项权利要求所述的端对端语音识别方法。
CN201811088477.4A 2018-09-18 2018-09-18 端对端语音识别方法、电子装置及计算机可读存储介质 Active CN109215662B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811088477.4A CN109215662B (zh) 2018-09-18 2018-09-18 端对端语音识别方法、电子装置及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811088477.4A CN109215662B (zh) 2018-09-18 2018-09-18 端对端语音识别方法、电子装置及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN109215662A true CN109215662A (zh) 2019-01-15
CN109215662B CN109215662B (zh) 2023-06-20

Family

ID=64984264

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811088477.4A Active CN109215662B (zh) 2018-09-18 2018-09-18 端对端语音识别方法、电子装置及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN109215662B (zh)

Cited By (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110189748A (zh) * 2019-05-31 2019-08-30 百度在线网络技术(北京)有限公司 模型构建方法和装置
CN110335592A (zh) * 2019-06-28 2019-10-15 腾讯科技(深圳)有限公司 语音音素识别方法和装置、存储介质及电子装置
CN110428809A (zh) * 2019-06-28 2019-11-08 腾讯科技(深圳)有限公司 语音音素识别方法和装置、存储介质及电子装置
CN110444203A (zh) * 2019-07-17 2019-11-12 腾讯科技(深圳)有限公司 语音识别方法、装置及电子设备
CN110517666A (zh) * 2019-01-29 2019-11-29 腾讯科技(深圳)有限公司 音频识别方法、系统、机器设备和计算机可读介质
CN110534095A (zh) * 2019-08-22 2019-12-03 百度在线网络技术(北京)有限公司 语音识别方法、装置、设备以及计算机可读存储介质
CN110556114A (zh) * 2019-07-26 2019-12-10 国家计算机网络与信息安全管理中心 基于注意力机制的通话人识别方法及装置
CN110570858A (zh) * 2019-09-19 2019-12-13 芋头科技(杭州)有限公司 语音唤醒方法、装置、智能音箱和计算机可读存储介质
CN110648659A (zh) * 2019-09-24 2020-01-03 上海依图信息技术有限公司 基于多任务模型的语音识别与关键词检测装置和方法
CN110706690A (zh) * 2019-09-16 2020-01-17 平安科技(深圳)有限公司 语音识别方法及其装置
CN110767218A (zh) * 2019-10-31 2020-02-07 南京励智心理大数据产业研究院有限公司 端到端语音识别方法、系统、装置及其存储介质
CN110797018A (zh) * 2019-08-28 2020-02-14 腾讯科技(深圳)有限公司 语音识别方法及装置、介质和设备
CN110880328A (zh) * 2019-11-20 2020-03-13 Oppo广东移动通信有限公司 到站提醒方法、装置、终端及存储介质
CN111104884A (zh) * 2019-12-10 2020-05-05 电子科技大学 一种基于两阶段神经网络模型的汉语唇语识别方法
CN111128137A (zh) * 2019-12-30 2020-05-08 广州市百果园信息技术有限公司 一种声学模型的训练方法、装置、计算机设备和存储介质
CN111160348A (zh) * 2019-11-20 2020-05-15 中国科学院深圳先进技术研究院 自然场景的文本识别方法、存储装置和计算机设备
CN111179918A (zh) * 2020-02-20 2020-05-19 中国科学院声学研究所 联结主义时间分类和截断式注意力联合在线语音识别技术
CN111276133A (zh) * 2020-01-20 2020-06-12 厦门快商通科技股份有限公司 音频识别方法、系统、移动终端及存储介质
CN111326157A (zh) * 2020-01-20 2020-06-23 北京字节跳动网络技术有限公司 文本生成方法、装置、电子设备和计算机可读介质
CN111401374A (zh) * 2020-03-06 2020-07-10 湖南快乐阳光互动娱乐传媒有限公司 基于多任务的模型训练方法、字符识别方法及装置
CN111583909A (zh) * 2020-05-18 2020-08-25 科大讯飞股份有限公司 一种语音识别方法、装置、设备及存储介质
CN111583911A (zh) * 2020-04-30 2020-08-25 深圳市优必选科技股份有限公司 基于标签平滑的语音识别方法、装置、终端及介质
CN111768762A (zh) * 2020-06-05 2020-10-13 北京有竹居网络技术有限公司 语音识别方法、装置及电子设备
CN111862985A (zh) * 2019-05-17 2020-10-30 北京嘀嘀无限科技发展有限公司 一种语音识别装置、方法、电子设备及存储介质
CN111899727A (zh) * 2020-07-15 2020-11-06 苏州思必驰信息科技有限公司 用于多说话人的语音识别模型的训练方法及系统
CN112652300A (zh) * 2020-12-24 2021-04-13 百果园技术(新加坡)有限公司 多方言语音识别方法、装置、设备和存储介质
CN112905795A (zh) * 2021-03-11 2021-06-04 证通股份有限公司 文本意图分类的方法、装置和可读介质
CN113192496A (zh) * 2020-01-10 2021-07-30 普天信息技术有限公司 语音识别方法及装置
CN113574595A (zh) * 2019-03-25 2021-10-29 三菱电机株式会社 用于具有触发注意力的端到端语音识别的系统和方法
CN113646835A (zh) * 2019-04-05 2021-11-12 谷歌有限责任公司 联合自动语音识别和说话人二值化
CN113782013A (zh) * 2021-09-15 2021-12-10 北京百度网讯科技有限公司 语音识别及模型训练的方法、设备、存储介质及程序产品
CN113870846A (zh) * 2021-09-27 2021-12-31 平安科技(深圳)有限公司 基于人工智能的语音识别方法、装置及存储介质
CN115440198A (zh) * 2022-11-08 2022-12-06 南方电网数字电网研究院有限公司 混合音频信号的转换方法、装置、计算机设备和存储介质
CN111862985B (zh) * 2019-05-17 2024-05-31 北京嘀嘀无限科技发展有限公司 一种语音识别装置、方法、电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020091522A1 (en) * 2001-01-09 2002-07-11 Ning Bi System and method for hybrid voice recognition
CN106104674A (zh) * 2014-03-24 2016-11-09 微软技术许可有限责任公司 混合语音识别
CN107408111A (zh) * 2015-11-25 2017-11-28 百度(美国)有限责任公司 端对端语音识别
CN108122035A (zh) * 2016-11-29 2018-06-05 科大讯飞股份有限公司 端到端建模方法及系统
CN108417202A (zh) * 2018-01-19 2018-08-17 苏州思必驰信息科技有限公司 语音识别方法及系统
US20180261225A1 (en) * 2017-03-13 2018-09-13 Mitsubishi Electric Research Laboratories, Inc. System and Method for Multichannel End-to-End Speech Recognition

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020091522A1 (en) * 2001-01-09 2002-07-11 Ning Bi System and method for hybrid voice recognition
CN106104674A (zh) * 2014-03-24 2016-11-09 微软技术许可有限责任公司 混合语音识别
CN107408111A (zh) * 2015-11-25 2017-11-28 百度(美国)有限责任公司 端对端语音识别
CN108122035A (zh) * 2016-11-29 2018-06-05 科大讯飞股份有限公司 端到端建模方法及系统
US20180261225A1 (en) * 2017-03-13 2018-09-13 Mitsubishi Electric Research Laboratories, Inc. System and Method for Multichannel End-to-End Speech Recognition
CN108417202A (zh) * 2018-01-19 2018-08-17 苏州思必驰信息科技有限公司 语音识别方法及系统

Cited By (60)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110517666B (zh) * 2019-01-29 2021-03-02 腾讯科技(深圳)有限公司 音频识别方法、系统、机器设备和计算机可读介质
CN110517666A (zh) * 2019-01-29 2019-11-29 腾讯科技(深圳)有限公司 音频识别方法、系统、机器设备和计算机可读介质
US11900917B2 (en) 2019-01-29 2024-02-13 Tencent Technology (Shenzhen) Company Limited Audio recognition method and system and machine device
CN113574595A (zh) * 2019-03-25 2021-10-29 三菱电机株式会社 用于具有触发注意力的端到端语音识别的系统和方法
CN113574595B (zh) * 2019-03-25 2023-11-24 三菱电机株式会社 语音识别系统、方法以及非暂时性计算机可读存储介质
CN113646835A (zh) * 2019-04-05 2021-11-12 谷歌有限责任公司 联合自动语音识别和说话人二值化
CN113646835B (zh) * 2019-04-05 2024-05-28 谷歌有限责任公司 联合自动语音识别和说话人二值化
CN111862985A (zh) * 2019-05-17 2020-10-30 北京嘀嘀无限科技发展有限公司 一种语音识别装置、方法、电子设备及存储介质
CN111862985B (zh) * 2019-05-17 2024-05-31 北京嘀嘀无限科技发展有限公司 一种语音识别装置、方法、电子设备及存储介质
CN110189748A (zh) * 2019-05-31 2019-08-30 百度在线网络技术(北京)有限公司 模型构建方法和装置
CN110473518B (zh) * 2019-06-28 2022-04-26 腾讯科技(深圳)有限公司 语音音素识别方法和装置、存储介质及电子装置
CN110428809A (zh) * 2019-06-28 2019-11-08 腾讯科技(深圳)有限公司 语音音素识别方法和装置、存储介质及电子装置
CN110428809B (zh) * 2019-06-28 2022-04-26 腾讯科技(深圳)有限公司 语音音素识别方法和装置、存储介质及电子装置
CN110335592A (zh) * 2019-06-28 2019-10-15 腾讯科技(深圳)有限公司 语音音素识别方法和装置、存储介质及电子装置
CN110473518A (zh) * 2019-06-28 2019-11-19 腾讯科技(深圳)有限公司 语音音素识别方法和装置、存储介质及电子装置
CN110534092B (zh) * 2019-06-28 2022-04-26 腾讯科技(深圳)有限公司 语音音素识别方法和装置、存储介质及电子装置
CN110534092A (zh) * 2019-06-28 2019-12-03 腾讯科技(深圳)有限公司 语音音素识别方法和装置、存储介质及电子装置
CN110444203B (zh) * 2019-07-17 2024-02-27 腾讯科技(深圳)有限公司 语音识别方法、装置及电子设备
CN110444203A (zh) * 2019-07-17 2019-11-12 腾讯科技(深圳)有限公司 语音识别方法、装置及电子设备
CN110556114B (zh) * 2019-07-26 2022-06-17 国家计算机网络与信息安全管理中心 基于注意力机制的通话人识别方法及装置
CN110556114A (zh) * 2019-07-26 2019-12-10 国家计算机网络与信息安全管理中心 基于注意力机制的通话人识别方法及装置
CN110534095A (zh) * 2019-08-22 2019-12-03 百度在线网络技术(北京)有限公司 语音识别方法、装置、设备以及计算机可读存储介质
US11145314B2 (en) * 2019-08-22 2021-10-12 Baidu Online Network Technology (Beijing) Co., Ltd. Method and apparatus for voice identification, device and computer readable storage medium
CN110797018B (zh) * 2019-08-28 2022-03-25 腾讯科技(深圳)有限公司 语音识别方法及装置、介质和设备
CN110797018A (zh) * 2019-08-28 2020-02-14 腾讯科技(深圳)有限公司 语音识别方法及装置、介质和设备
CN110706690A (zh) * 2019-09-16 2020-01-17 平安科技(深圳)有限公司 语音识别方法及其装置
WO2021051544A1 (zh) * 2019-09-16 2021-03-25 平安科技(深圳)有限公司 语音识别方法及其装置
CN110570858A (zh) * 2019-09-19 2019-12-13 芋头科技(杭州)有限公司 语音唤醒方法、装置、智能音箱和计算机可读存储介质
WO2021057038A1 (zh) * 2019-09-24 2021-04-01 上海依图信息技术有限公司 基于多任务模型的语音识别与关键词检测装置和方法
CN110648659B (zh) * 2019-09-24 2022-07-01 上海依图信息技术有限公司 基于多任务模型的语音识别与关键词检测装置和方法
CN110648659A (zh) * 2019-09-24 2020-01-03 上海依图信息技术有限公司 基于多任务模型的语音识别与关键词检测装置和方法
CN110767218A (zh) * 2019-10-31 2020-02-07 南京励智心理大数据产业研究院有限公司 端到端语音识别方法、系统、装置及其存储介质
CN111160348A (zh) * 2019-11-20 2020-05-15 中国科学院深圳先进技术研究院 自然场景的文本识别方法、存储装置和计算机设备
WO2021098689A1 (zh) * 2019-11-20 2021-05-27 中国科学院深圳先进技术研究院 自然场景的文本识别方法、存储装置和计算机设备
CN110880328A (zh) * 2019-11-20 2020-03-13 Oppo广东移动通信有限公司 到站提醒方法、装置、终端及存储介质
CN111104884A (zh) * 2019-12-10 2020-05-05 电子科技大学 一种基于两阶段神经网络模型的汉语唇语识别方法
CN111104884B (zh) * 2019-12-10 2022-06-03 电子科技大学 一种基于两阶段神经网络模型的汉语唇语识别方法
CN111128137A (zh) * 2019-12-30 2020-05-08 广州市百果园信息技术有限公司 一种声学模型的训练方法、装置、计算机设备和存储介质
CN113192496A (zh) * 2020-01-10 2021-07-30 普天信息技术有限公司 语音识别方法及装置
CN111276133A (zh) * 2020-01-20 2020-06-12 厦门快商通科技股份有限公司 音频识别方法、系统、移动终端及存储介质
CN111326157B (zh) * 2020-01-20 2023-09-08 抖音视界有限公司 文本生成方法、装置、电子设备和计算机可读介质
CN111326157A (zh) * 2020-01-20 2020-06-23 北京字节跳动网络技术有限公司 文本生成方法、装置、电子设备和计算机可读介质
CN111179918A (zh) * 2020-02-20 2020-05-19 中国科学院声学研究所 联结主义时间分类和截断式注意力联合在线语音识别技术
CN111401374A (zh) * 2020-03-06 2020-07-10 湖南快乐阳光互动娱乐传媒有限公司 基于多任务的模型训练方法、字符识别方法及装置
CN111583911A (zh) * 2020-04-30 2020-08-25 深圳市优必选科技股份有限公司 基于标签平滑的语音识别方法、装置、终端及介质
CN111583911B (zh) * 2020-04-30 2023-04-14 深圳市优必选科技股份有限公司 基于标签平滑的语音识别方法、装置、终端及介质
CN111583909B (zh) * 2020-05-18 2024-04-12 科大讯飞股份有限公司 一种语音识别方法、装置、设备及存储介质
CN111583909A (zh) * 2020-05-18 2020-08-25 科大讯飞股份有限公司 一种语音识别方法、装置、设备及存储介质
CN111768762B (zh) * 2020-06-05 2022-01-21 北京有竹居网络技术有限公司 语音识别方法、装置及电子设备
CN111768762A (zh) * 2020-06-05 2020-10-13 北京有竹居网络技术有限公司 语音识别方法、装置及电子设备
CN111899727A (zh) * 2020-07-15 2020-11-06 苏州思必驰信息科技有限公司 用于多说话人的语音识别模型的训练方法及系统
CN111899727B (zh) * 2020-07-15 2022-05-06 思必驰科技股份有限公司 用于多说话人的语音识别模型的训练方法及系统
CN112652300A (zh) * 2020-12-24 2021-04-13 百果园技术(新加坡)有限公司 多方言语音识别方法、装置、设备和存储介质
CN112652300B (zh) * 2020-12-24 2024-05-17 百果园技术(新加坡)有限公司 多方言语音识别方法、装置、设备和存储介质
CN112905795A (zh) * 2021-03-11 2021-06-04 证通股份有限公司 文本意图分类的方法、装置和可读介质
CN113782013B (zh) * 2021-09-15 2024-01-30 北京百度网讯科技有限公司 语音识别及模型训练的方法、设备、存储介质及程序产品
CN113782013A (zh) * 2021-09-15 2021-12-10 北京百度网讯科技有限公司 语音识别及模型训练的方法、设备、存储介质及程序产品
CN113870846A (zh) * 2021-09-27 2021-12-31 平安科技(深圳)有限公司 基于人工智能的语音识别方法、装置及存储介质
CN113870846B (zh) * 2021-09-27 2024-05-31 平安科技(深圳)有限公司 基于人工智能的语音识别方法、装置及存储介质
CN115440198A (zh) * 2022-11-08 2022-12-06 南方电网数字电网研究院有限公司 混合音频信号的转换方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN109215662B (zh) 2023-06-20

Similar Documents

Publication Publication Date Title
CN109215662B (zh) 端对端语音识别方法、电子装置及计算机可读存储介质
EP3577650B1 (en) Speech recognition system and method using speech recognition system
US11972754B2 (en) Multi-task training architecture and strategy for attention-based speech recognition system
US10699697B2 (en) Knowledge transfer in permutation invariant training for single-channel multi-talker speech recognition
CN110211563B (zh) 面向情景及情感的中文语音合成方法、装置及存储介质
US10726833B2 (en) System and method for rapid customization of speech recognition models
US20210142794A1 (en) Speech processing dialog management
WO2020024646A1 (en) Monaural multi-talker speech recognition with attention mechanism and gated convolutional networks
US11043205B1 (en) Scoring of natural language processing hypotheses
WO2022178941A1 (zh) 语音合成方法、装置、设备及存储介质
US20210193116A1 (en) Data driven dialog management
WO2014035738A1 (en) Computer-implemented deep tensor neural network
US11081104B1 (en) Contextual natural language processing
CN111445903B (zh) 企业名称识别方法及装置
US11651767B2 (en) Metric learning of speaker diarization
CN110491393A (zh) 声纹表征模型的训练方法及相关装置
Zhang et al. Improving end-to-end single-channel multi-talker speech recognition
CN113096634B (zh) 语音合成方法、装置、服务器及存储介质
KR20220130565A (ko) 키워드 검출 방법 및 장치
CN114218488A (zh) 基于多模态特征融合的信息推荐方法、装置及处理器
CN113822017A (zh) 基于人工智能的音频生成方法、装置、设备及存储介质
CN111625629B (zh) 任务型对话机器人应答方法、装置及机器人、存储介质
WO2021169825A1 (zh) 语音合成方法、装置、设备和存储介质
CN112580325A (zh) 一种快速文本匹配方法及装置
CN113112987B (zh) 语音合成方法、语音合成模型的训练方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant