CN113077785A - 一种端到端的多语言连续语音流语音内容识别方法及系统 - Google Patents

一种端到端的多语言连续语音流语音内容识别方法及系统 Download PDF

Info

Publication number
CN113077785A
CN113077785A CN201911300918.7A CN201911300918A CN113077785A CN 113077785 A CN113077785 A CN 113077785A CN 201911300918 A CN201911300918 A CN 201911300918A CN 113077785 A CN113077785 A CN 113077785A
Authority
CN
China
Prior art keywords
language
vector
speech
level
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911300918.7A
Other languages
English (en)
Other versions
CN113077785B (zh
Inventor
徐及
林格平
刘丹阳
万辛
张鹏远
李娅强
刘发强
颜永红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Acoustics CAS
National Computer Network and Information Security Management Center
Original Assignee
Institute of Acoustics CAS
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Acoustics CAS, National Computer Network and Information Security Management Center filed Critical Institute of Acoustics CAS
Priority to CN201911300918.7A priority Critical patent/CN113077785B/zh
Publication of CN113077785A publication Critical patent/CN113077785A/zh
Application granted granted Critical
Publication of CN113077785B publication Critical patent/CN113077785B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)

Abstract

本发明属于网络通信技术领域,具体涉及一种端到端的多语言连续语音流语音内容识别方法,该方法包括:将待识别的语音频谱特征输入至预先构建的基于深度神经网络的段级别语种分类模型,提取语句级别语种状态后验概率分布向量;将每一种语言种类的待识别的语音频谱特征序列和语句级别语种状态后验概率分布向量输入至预先构建的多语言语音识别模型,输出对应语言种类的语音识别结果。

Description

一种端到端的多语言连续语音流语音内容识别方法及系统
技术领域
本发明属于网络通信和语音识别技术领域,具体涉及一种端到端的多语言连续语音流语音内容识别方法及系统。
背景技术
目前,端到端识别框架已广泛应用于自动语音识别任务。由于端到端框架在构建语音识别系统的过程中不依赖于发音词典,因此在构建新语言的语音识别系统以及多语言语音识别系统的过程中更加灵活。不仅如此,端到端语音识别模型可以对声学特征序列和文本建模单元序列之间的映射关系进行直接建模。相比于基于声学建模和语言建模的传统语音识别系统,端到端框架将声学建模和语言学建模过程进行统一,有效地降低了语音识别系统构建的复杂性。
在多语言语音识别系统的构建过程,虽然端到端框架可以降低语音识别系统构建的复杂性,但也给多语言语音识别带来了新问题。多语言端到端框架将多种语言的建模单元在一个统一的框架下进行建模,由于不同语言间发音机制以及语法规则存在较大差异,相比于单语言语音识别系统来说,将多种语言进行联合建模会不可避免地在使得多语言建模单元相互混淆。现有的语音内容识别方法存在无法有效提升多语言语音识别系统的语种区分性的问题。
发明内容
本发明的目的在于,为解决现有的语音识别方法存在上述缺陷,本发明提出了一种端到端的多语言连续语音流语音内容识别方法及系统,具体涉及一种基于多注意力机制的端到端多语言的语音识别方法,该方法将语种分类信息引入到端到端建模过程中,并结合多注意训练机制有效提升多语言语音识别系统的性能。
为了实现上述目的,本发明还提供了一种端到端的多语言连续语音流语音内容识别方法,该方法包括:
将待识别的语音频谱特征输入至预先构建的基于深度神经网络的段级别语种分类模型,输出语句级别语种状态后验概率分布向量;
将每一种语言种类的待识别的语音频谱特征序列和语句级别语种状态后验概率分布向量,输入至预先构建的多语言语音识别模型,输出对应语言种类的语音识别结果。
作为上述技术方案的改进之一,所述方法还包括:根据语句级别语种状态后验概率分布向量,获得对应语言种类的语种分类结果,将其结合预先构建的多语言语音识别模型中的解码网络的输出的对应语言种类的语音识别结果的历史信息,获得相应的解码网络预测序列,最终得到多语言语音识别结果。
作为上述技术方案的改进之一,所述方法还包括:基于深度神经网络的段级别语种分类模型的训练步骤,具体包括:
提取训练集的多语言连续语音流的帧级别的语音频谱特征,将所述帧级别语音频谱特征输入至该段级别语种分类模型,对当前隐含层的输出向量进行长时统计,计算当前隐含层输出向量的均值向量、方差向量和段级统计向量;
所述均值向量为:
Figure BDA0002321749550000021
所述方差向量为:
Figure BDA0002321749550000022
所述段级统计向量:
hsegment=Append(μ,σ) (6)
其中,hj为当前隐含层在j时刻的输出向量;T为长时统计周期;μ为长时统计的均值向量;σ为长时统计的方差向量;hsegment为段级统计向量;其中,所述段级统计向量是将均值向量和方差向量拼接在一起,其维度为hj维度的2倍;Append(μ,σ)表示将μ和σ进行拼接构成高维向量;
将段级统计向量hsegment作为下一隐含层的输入,根据段级别语种标签,通过误差计算和反向梯度回传过程训练,获得训练好的段级别语种分类模型,完成该段级别语种分类模型的建立。
作为上述技术方案的改进之一,所述多语言语音识别模型包括:编码网络、多个注意力机制模块和解码网络;其中,根据待识别的语言种类数目,设置对应数目的注意力机制模块;
根据待识别的语音频谱特征中包含的语言种类数目,设置对应数目的注意力机制模块。
作为上述技术方案的改进之一,所述注意力机制模块的训练步骤具体包括:
将语音特征的状态序列henc输入至对应的注意力机制模块,输出对应的输出状态序列;
根据公式(2),获得对应的输出序列:
el t,i=wTtanh(Wlhenc+Vlhdec i+Ul(Fl*al t,i-1)+bl) (2)
其中,l表示多语言的语言种类标号;el t,i表示第t帧待识别的语音频谱特征的注意力机制模块的输出状态;wT,Wl,Vl,Ul分别表示第一变换矩阵、第二变换矩阵、第三变换矩阵和第四变换矩阵;bl表示偏置向量;tanh()表示非线性激活函数;Fl表示卷积函数;
Figure BDA0002321749550000031
表示第t帧编码网络的输出状态;hdec i表示解码网络的第i个输出建模单元的隐含层状态;al t,i-1为第l个语言种类的注意力权重向量在第i-1个输出建模单元的第t帧对应的权重值;
根据该对应的输出状态序列,获得对应的语言种类的注意力权重向量;
具体地,根据公式(3),获得对应的语言种类的注意力权重向量:
Figure BDA0002321749550000032
其中,al t,i表示第l个语言种类的注意力权重向量在第i个输出建模单元的第t帧对应的权重值;el t′,i为第t′帧待识别的语音频谱特征在第i个输出建模单元对应的注意力机制模块的输出状态;1≤t′≤T为语音特征序列的对应帧。
作为上述技术方案的改进之一,所述将每一种语言种类的待识别的语音频谱特征序列和语句级别语种状态后验概率分布向量,输入至预先构建的多语言语音识别模型,输出对应语言种类的语音识别结果;具体为:
将每一种语言种类的待识别的语音频谱特征输入至编码网络,输出对应的语音特征的状态序列;
根据公式(1),获得对应的语音特征的状态序列henc
henc=Encoder(x) (1)
其中,
Figure BDA0002321749550000041
为语音特征的状态序列,即编码网络的隐层状态输出序列;x=(x1,x2,...,xt,...,xT)为待识别的语音频谱特征序列,即输入特征;其中,T为输入特征序列的总帧数;Encoder()为基于卷积神经网络/双向长短时记忆网络的编码网络的计算函数;
将该对应的语音特征状态序列与对应的语言种类的注意力权重向量进行加权求和,获得对应的注意力上下文内容向量;
具体地,根据公式(4),获得对应的注意力上下文内容向量;
Figure BDA0002321749550000042
其中,cl i表示对应的注意力上下文内容向量,即第l个语言种类对编码网络加权求和得到的注意力上下文内容向量;
在多注意力机制条件下,通过语种状态分布向量Vl与对应的注意力上下文内容向量进行加权求和,得到最终的注意力上下文内容向量:
Figure BDA0002321749550000043
其中,Vl为语种状态分布向量,即Vl=(wl 1,wl 2,...,wl n,...,wl N);N为待识别的多语言的语言种类数目;
将所述最终的注意力上下文内容向量输入至解码网络,获得该语言种类的语音识别结果。
本发明还提供了一种端到端的多语言连续语音流语音内容识别系统,所述系统包括:提取模块和语音识别模块;
所述提取模块,用于将待识别的语音频谱特征输入至预先构建的基于深度神经网络的段级别语种分类模型,并根据该段级别语种分类模型,提取语句级别语种状态后验概率分布向量;
所述语音识别模块,将每一种语言种类的待识别的语音频谱特征序列和语句级别语种状态后验概率分布向量,输入至预先构建的多语言语音识别模型,输出对应语言种类的语音识别结果。
作为上述技术方案的改进之一,所述系统还包括:语音结果获取模块,用于根据语句级别语种状态后验概率分布向量,获得对应语言种类的语种分类结果,将其结合预先构建的多语言语音识别模型中的解码网络的输出的对应语言种类的语音识别结果的历史信息,获得相应的解码网络预测序列,最终得到多语言语音识别结果。
本发明还提供了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述方法。
本发明还提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述方法。
本发明与现有技术相比的有益效果是:
本发明的方法是基于多注意力机制的端到端多语言语音识别方法,该方法在基于注意力机制的端到端框架下为每种语言构建特定的注意力机制模块,该注意力机制模块对特定语言的输入频谱特征序列与输出标注序列的映射关系进行语言特定建模。此外通过将语种分类信息引入到端到端建模过程中,对多注意力机制模块的输出信息进行加权,从而可以有效提升多语言语音识别系统的语种区分性。
附图说明
图1是本发明的一种端到端的多语言连续语音流语音内容识别方法的流程图。
具体实施方式
现结合附图对本发明作进一步的描述。
如图1所示,本发明提供了一种端到端的多语言连续语音流语音内容识别方法,该方法包括:
将待识别的语音频谱特征输入至预先构建的基于深度神经网络的段级别语种分类模型,并根据该段级别语种分类模型,提取语句级别语种状态后验概率分布向量Vl,获得对应语言种类的语种分类结果;其中,对应语言种类的语种分类结果为语句级别语种状态后验概率分布向量Vl;待识别的语音频谱特征是通过对多语言连续语音流进行傅里叶变换得到的频域表示,多语言连续语音流是指语音流中只包含一种语言信息的语音流,但是语音流的语言种类未知的情况。
具体地,基于待识别的语音频谱特征序列输入到所述段级别语种分类模型,通过神经网络前向计算,并根据该段级别语种分类模型,提取语句级别语种状态后验概率分布向量Vl,获得对应语言种类的语种分类结果。
其中,所述基于深度神经网络的段级别语种分类模型的建立具体包括:
提取训练集的多语言连续语音流的帧级别的语音频谱特征,将所述帧级别语音频谱特征输入至该段级别语种分类模型,对当前隐含层的输出向量进行长时统计,计算当前隐含层输出向量的均值向量、方差向量和段级统计向量;
所述均值向量为:
Figure BDA0002321749550000061
所述方差向量为:
Figure BDA0002321749550000062
所述段级统计向量:
hsegment=Append(μ,σ) (6)
其中,hj为当前隐含层j时刻的输出向量;T为长时统计周期;μ为长时统计的均值向量;σ为长时统计的方差向量;hsegment为段级统计向量;其中,所述段级统计向量是将均值向量和方差向量拼接在一起,其维度为hj维度的2倍;Append(μ,σ)表示将μ和σ进行拼接构成高维向量;
将段级统计向量hsegment作为下一隐含层的输入,根据段级别语种标签,通过误差计算和反向梯度回传过程训练,获得训练好的段级别语种分类模型,完成该段级别语种分类模型的建立。其中,所述语种标签为带有语言种类的标签。
将每一种语言种类的待识别的语音频谱特征序列和语句级别语种状态后验概率分布向量输入至预先构建的多语言语音识别模型,输出对应语言种类的语音识别结果。
其中,如图1所示,所述多语言语音识别模型包括:编码网络、多个注意力机制模块(注意力机制模块1,注意力机制模块2,…,注意力机制模块N)和解码网络。其中,根据待识别的语言种类数目,设置对应数目的注意力机制模块;
具体地,根据待识别的语音频谱特征中包含的语言种类数目,设置对应数目的注意力机制模块;
将每一种语言种类的待识别的语音频谱特征输入至编码网络,输出对应的语音特征的状态序列;
具体地,根据公式(1),获得对应的语音特征的状态序列henc
henc=Encoder(x) (1)
其中,henc=(henc 1,henc 2,...,henc t,...,henc T)为语音特征的状态序列,即编码网络的隐层状态输出序列;x=(x1,x2,...,xt,...,xT)为待识别的语音频谱特征序列,即输入特征;其中,T为输入特征序列的总帧数;Encoder()为基于卷积神经网络/双向长短时记忆网络(CNN/BLSTM)的编码网络的计算函数。
将对应的语音特征的状态序列henc输入至对应的注意力机制模块,输出对应的输出状态序列;
具体地,根据公式(2),获得对应的输出序列:
el t,i=wTtanh(Wlhenc+Vlhdec i+Ul(Fl*al t,i-1)+bl) (2)
其中,l表示多语言的语言种类标号;el t,i表示第t帧待识别的语音频谱特征的注意力机制模块的输出状态;wT,Wl,Vl,Ul分别表示第一变换矩阵、第二变换矩阵、第三变换矩阵和第四变换矩阵;bl表示偏置向量;tanh()表示非线性激活函数;Fl表示卷积函数;henc t表示第t帧编码网络的输出状态;hdec i表示解码网络的第i个输出建模单元的隐含层状态;al t,i-1为第l个语言种类的注意力权重向量在第i-1个输出建模单元的第t帧对应的权重值;
根据该对应的输出状态序列,获得对应的语言种类的注意力权重向量;
具体地,根据公式(3),获得对应的语言种类的注意力权重向量:
Figure BDA0002321749550000071
其中,al t,i表示表示第l个语言种类的注意力权重向量在第i个输出建模单元的第t帧对应的权重值;el t′,i为第t′帧待识别的语音频谱特征在第i个输出建模单元对应的注意力机制模块的输出状态;1≤t′≤T为语音特征序列的对应帧;
将该对应的语音特征状态序列与对应的语言种类的注意力权重向量进行加权求和,获得对应的注意力上下文内容向量;
具体地,根据公式(4),获得对应的注意力上下文内容向量;
Figure BDA0002321749550000072
其中,cl i表示对应的注意力上下文内容向量,即第l个语言种类对编码网络加权求和得到的注意力上下文内容向量;
在多注意力机制条件下,通过语种状态分布向量Vl与对应的注意力上下文内容向量进行加权求和,得到最终的注意力上下文内容向量:
Figure BDA0002321749550000081
其中,Vl为语种状态分布向量,即Vl=(wl 1,wl 2,...,wl n,...,wl N);N为待识别的多语言的语言种类数目;
将所述最终的注意力上下文内容向量输入至解码网络,获得该语言种类的语音识别结果。
所述方法还包括:将该语言种类的语种分类结果,结合预先构建的多语言语音识别模型中的解码网络的输出的对应语言种类的语音识别结果的历史信息,获得相应的解码网络预测序列,最终得到多语言语音识别结果。
具体地,为了预测解码网络的第i个输出建模单元yi的概率,所述的输出建模单元为图1所示的语种-1输出建模单元,…,语种-N输出建模单元,需要首先预测解码网络的第i个输出建模单元的解码网络隐含层状态hdec i,其中,解码网络的输入为第i-1个输出建模单元和注意力上下文内容向量ci,如公式(6)所示,最终结合softmax函数可以由解码网络的第i个输出建模单元的解码网络隐含层状态hdec i预测解码网络的第i个输出建模单元yi的概率p(yi|y1:i-1,x),如公式(7)所示:
hi dec=Decoder(yi-1,ci) (6)
p(yi|y1:i-1,x)=soft max(hi dec) (7)
其中,x表示输入的待识别的语音频谱特征序列;yi-1为解码网络的第i-1个输出建模单元;ci为最终的注意力上下文内容向量;y1:i-1为解码网络的第1个输出到第i-1个输出的历史信息;p(yi|y1:i-1,x)为解码网络的第i个输出建模单元yi的预测概率;soft max(hi dec)为对解码网络隐含层状态hdec i取softmax函数;yi表示解码网络的第i个输出建模单元;Decoder()表示基于长短时记忆网络(LSTM)的解码网络;
通预测概率p(yi|y1:i-1,x),可以得到第i次建模单元预测过程中预测概率最大的建模单元yi,通过结合第1次预测的结果到第I次预测的结果,可以得到最终的语音识别结果y=(y1,y2,...,yi,...,yI)。
对于不同语言来说,输入特征序列和输出建模单元序列的时间步长映射是不一致的,因此通过这种方式可以使得多种语言之间在编码网络和解码网络进行模型信息共享的同时还可以根据特定语言的特性对注意力模块进行优化。
本发明还提供了一种端到端的多语言连续语音流语音内容识别系统,该系统基于上述方法来实现,该系统包括:
提取模块,用于将待识别的语音频谱特征输入至预先构建的基于深度神经网络的段级别语种分类模型,并根据该段级别语种分类模型,提取语句级别语种状态后验概率分布向量Vl
语音识别模块,将每一种语言种类的待识别的语音频谱特征序列和语句级别语种状态后验概率分布向量Vl输入至预先构建的多语言语音识别模型,输出对应语言种类的语音识别结果。
所述系统还包括:语音结果获取模块,用于根据语句级别语种状态后验概率分布向量Vl,获得对应语言种类的语种分类结果,将该语言种类的语种分类结果,结合预先构建的多语言语音识别模型中的解码网络的输出的对应语言种类的语音识别结果的历史信息,获得相应的解码网络预测序列,最终得到多语言语音识别结果。
本发明还提供了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述方法。
基于本发明的基于多注意力机制的多语言语音识别系统的合理性和有效性已经在实际系统上得到了验证,结果见表1:
表1多语言端到端识别模型的识别结果(词错误率%)
Figure BDA0002321749550000091
本发明的方法通过使用他加禄语、宿雾语、托克皮辛语和海地克里奥尔语构建多语言端到端语音识别系统。其中,他加禄语和宿雾语是在菲律宾不同地区使用的菲律宾语,而托克皮辛语和海地克里奥尔语是两种不同的克里奥尔语。这四种语言的共同特征是它们的标注文本都是拉丁字母以及拉丁字母的变体。
因此,基于这四种语言的多语言联合建模可以有效地共享信息并提高多语言语音识别系统的性能。从表1可知,相比于单语言端到端识别模型以及不包含多注意力机制模块的多语言端到端识别系统来说,本发明的方法通过将语种信息融合到多语言识别方法中,并结合多注意力机制模块,在四种语言上有效将多语言识别模型的词错误率从平均62.6%降低到60.3%。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (10)

1.一种端到端的多语言连续语音流语音内容识别方法,其特征在于,该方法包括:
将待识别的语音频谱特征输入至预先构建的基于深度神经网络的段级别语种分类模型,输出语句级别语种状态后验概率分布向量;
将每一种语言种类的待识别的语音频谱特征序列和语句级别语种状态后验概率分布向量,输入至预先构建的多语言语音识别模型,输出对应语言种类的语音识别结果。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:根据语句级别语种状态后验概率分布向量,获得对应语言种类的语种分类结果,将其结合预先构建的多语言语音识别模型中的解码网络的输出的对应语言种类的语音识别结果的历史信息,获得相应的解码网络预测序列,最终得到多语言语音识别结果。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:基于深度神经网络的段级别语种分类模型的训练步骤,具体包括:
提取训练集的多语言连续语音流的帧级别的语音频谱特征,将所述帧级别语音频谱特征输入至该段级别语种分类模型,对当前隐含层的输出向量进行长时统计,计算当前隐含层输出向量的均值向量、方差向量和段级统计向量;
所述均值向量为:
Figure FDA0002321749540000011
所述方差向量为:
Figure FDA0002321749540000012
所述段级统计向量:
hsegment=Append(μ,σ) (6)
其中,hj为当前隐含层在j时刻的输出向量;T为长时统计周期;μ为长时统计的均值向量;σ为长时统计的方差向量;hsegment为段级统计向量;其中,所述段级统计向量是将均值向量和方差向量拼接在一起,其维度为hj维度的2倍;Append(μ,σ)表示将μ和σ进行拼接构成高维向量;
将段级统计向量hsegment作为下一隐含层的输入,根据段级别语种标签,通过误差计算和反向梯度回传过程训练,获得训练好的段级别语种分类模型,完成该段级别语种分类模型的建立。
4.根据权利要求1所述的方法,其特征在于,所述多语言语音识别模型包括:编码网络、多个注意力机制模块和解码网络;其中,根据待识别的语言种类数目,设置对应数目的注意力机制模块;
根据待识别的语音频谱特征中包含的语言种类数目,设置对应数目的注意力机制模块。
5.根据权利要求4所述的方法,其特征在于,所述注意力机制模块的训练步骤具体包括:
将语音特征的状态序列henc输入至对应的注意力机制模块,输出对应的输出状态序列;
根据公式(2),获得对应的输出序列:
el t,i=wTtanh(Wlhenc+Vlhdec i+Ul(Fl*al t,i-1)+bl) (2)
其中,l表示多语言的语言种类标号;el t,i表示第t帧待识别的语音频谱特征的注意力机制模块的输出状态;wT,Wl,Vl,Ul分别表示第一变换矩阵、第二变换矩阵、第三变换矩阵和第四变换矩阵;bl表示偏置向量;tanh()表示非线性激活函数;Fl表示卷积函数;
Figure FDA0002321749540000021
表示第t帧编码网络的输出状态;hdec i表示解码网络的第i个输出建模单元的隐含层状态;al t,i-1为第l个语言种类的注意力权重向量在第i-1个输出建模单元的第t帧对应的权重值;
根据该对应的输出状态序列,获得对应的语言种类的注意力权重向量;
具体地,根据公式(3),获得对应的语言种类的注意力权重向量:
Figure FDA0002321749540000022
其中,al t,i表示第l个语言种类的注意力权重向量在第i个输出建模单元的第t帧对应的权重值;el t′,i为第t′帧待识别的语音频谱特征在第i个输出建模单元对应的注意力机制模块的输出状态;1≤t′≤T为语音特征序列的对应帧。
6.根据权利要求1所述的方法,其特征在于,所述将每一种语言种类的待识别的语音频谱特征序列和语句级别语种状态后验概率分布向量,输入至预先构建的多语言语音识别模型,输出对应语言种类的语音识别结果;具体为:
将每一种语言种类的待识别的语音频谱特征输入至编码网络,输出对应的语音特征的状态序列;
根据公式(1),获得对应的语音特征的状态序列henc
henc=Encoder(x) (1)
其中,
Figure FDA0002321749540000031
为语音特征的状态序列,即编码网络的隐层状态输出序列;x=(x1,x2,...,xt,...,xT)为待识别的语音频谱特征序列,即输入特征;其中,T为输入特征序列的总帧数;Encoder()为基于卷积神经网络/双向长短时记忆网络的编码网络的计算函数;
将该对应的语音特征状态序列与对应的语言种类的注意力权重向量进行加权求和,获得对应的注意力上下文内容向量;
具体地,根据公式(4),获得对应的注意力上下文内容向量;
Figure FDA0002321749540000032
其中,cl i表示对应的注意力上下文内容向量,即第l个语言种类对编码网络加权求和得到的注意力上下文内容向量;
在多注意力机制条件下,通过语种状态分布向量Vl与对应的注意力上下文内容向量进行加权求和,得到最终的注意力上下文内容向量:
Figure FDA0002321749540000033
其中,Vl为语种状态分布向量,即Vl=(wl 1,wl 2,...,wl n,...,wl N);N为待识别的多语言的语言种类数目;
将所述最终的注意力上下文内容向量输入至解码网络,获得该语言种类的语音识别结果。
7.一种端到端的多语言连续语音流语音内容识别系统,其特征在于,所述系统包括:提取模块和语音识别模块;
所述提取模块,用于将待识别的语音频谱特征输入至预先构建的基于深度神经网络的段级别语种分类模型,并根据该段级别语种分类模型,提取语句级别语种状态后验概率分布向量;
所述语音识别模块,将每一种语言种类的待识别的语音频谱特征序列和语句级别语种状态后验概率分布向量,输入至预先构建的多语言语音识别模型,输出对应语言种类的语音识别结果。
8.根据权利要求7所述的系统,其特征在于,所述系统还包括:语音结果获取模块,用于根据语句级别语种状态后验概率分布向量,获得对应语言种类的语种分类结果,将其结合预先构建的多语言语音识别模型中的解码网络的输出的对应语言种类的语音识别结果的历史信息,获得相应的解码网络预测序列,最终得到多语言语音识别结果。
9.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1-6中任一所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述权利要求1-6中任一所述的方法。
CN201911300918.7A 2019-12-17 2019-12-17 一种端到端的多语言连续语音流语音内容识别方法及系统 Active CN113077785B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911300918.7A CN113077785B (zh) 2019-12-17 2019-12-17 一种端到端的多语言连续语音流语音内容识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911300918.7A CN113077785B (zh) 2019-12-17 2019-12-17 一种端到端的多语言连续语音流语音内容识别方法及系统

Publications (2)

Publication Number Publication Date
CN113077785A true CN113077785A (zh) 2021-07-06
CN113077785B CN113077785B (zh) 2022-07-12

Family

ID=76608263

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911300918.7A Active CN113077785B (zh) 2019-12-17 2019-12-17 一种端到端的多语言连续语音流语音内容识别方法及系统

Country Status (1)

Country Link
CN (1) CN113077785B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117746866A (zh) * 2024-02-19 2024-03-22 上海蜜度科技股份有限公司 多语种语音转换文本方法、系统、存储介质及电子设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9263036B1 (en) * 2012-11-29 2016-02-16 Google Inc. System and method for speech recognition using deep recurrent neural networks
CN106782518A (zh) * 2016-11-25 2017-05-31 深圳市唯特视科技有限公司 一种基于分层循环神经网络语言模型的语音识别方法
CN107408111A (zh) * 2015-11-25 2017-11-28 百度(美国)有限责任公司 端对端语音识别
CN109003601A (zh) * 2018-08-31 2018-12-14 北京工商大学 一种针对低资源土家语的跨语言端到端语音识别方法
CN109523993A (zh) * 2018-11-02 2019-03-26 成都三零凯天通信实业有限公司 一种基于cnn与gru融合深度神经网络的语音语种分类方法
US20190189115A1 (en) * 2017-12-15 2019-06-20 Mitsubishi Electric Research Laboratories, Inc. Method and Apparatus for Open-Vocabulary End-to-End Speech Recognition
CN110428818A (zh) * 2019-08-09 2019-11-08 中国科学院自动化研究所 低资源多语言的语音识别模型、语音识别方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9263036B1 (en) * 2012-11-29 2016-02-16 Google Inc. System and method for speech recognition using deep recurrent neural networks
CN107408111A (zh) * 2015-11-25 2017-11-28 百度(美国)有限责任公司 端对端语音识别
CN106782518A (zh) * 2016-11-25 2017-05-31 深圳市唯特视科技有限公司 一种基于分层循环神经网络语言模型的语音识别方法
US20190189115A1 (en) * 2017-12-15 2019-06-20 Mitsubishi Electric Research Laboratories, Inc. Method and Apparatus for Open-Vocabulary End-to-End Speech Recognition
CN109003601A (zh) * 2018-08-31 2018-12-14 北京工商大学 一种针对低资源土家语的跨语言端到端语音识别方法
CN109523993A (zh) * 2018-11-02 2019-03-26 成都三零凯天通信实业有限公司 一种基于cnn与gru融合深度神经网络的语音语种分类方法
CN110428818A (zh) * 2019-08-09 2019-11-08 中国科学院自动化研究所 低资源多语言的语音识别模型、语音识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
戴礼荣等: "基于深度学习的语音识别技术现状与展望", 《数据采集与处理》, no. 02, 15 March 2017 (2017-03-15) *
苗晓晓等: "应用于短时语音语种识别的时长扩展方法", 《清华大学学报(自然科学版)》, no. 03, 15 March 2018 (2018-03-15) *
金马等: "基于卷积神经网络的语种识别系统", 《数据采集与处理》, no. 02, 15 March 2019 (2019-03-15) *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117746866A (zh) * 2024-02-19 2024-03-22 上海蜜度科技股份有限公司 多语种语音转换文本方法、系统、存储介质及电子设备
CN117746866B (zh) * 2024-02-19 2024-05-07 上海蜜度科技股份有限公司 多语种语音转换文本方法、系统、存储介质及电子设备

Also Published As

Publication number Publication date
CN113077785B (zh) 2022-07-12

Similar Documents

Publication Publication Date Title
CN108647207B (zh) 自然语言修正方法、系统、设备及存储介质
CN110895932B (zh) 基于语言种类和语音内容协同分类的多语言语音识别方法
CN108804611B (zh) 一种基于自我评论序列学习的对话回复生成方法及系统
CN110990543A (zh) 智能对话的生成方法、装置、计算机设备及计算机存储介质
CN113657399A (zh) 文字识别模型的训练方法、文字识别方法及装置
CN110569505B (zh) 一种文本输入方法及装置
CN111401084A (zh) 一种机器翻译的方法、设备以及计算机可读存储介质
CN111833845A (zh) 多语种语音识别模型训练方法、装置、设备及存储介质
JP7229345B2 (ja) 文処理方法、文復号方法、装置、プログラム及び機器
CN111738006A (zh) 基于商品评论命名实体识别的问题生成方法
CN113326367B (zh) 基于端到端文本生成的任务型对话方法和系统
CN111161724A (zh) 中文视听结合语音识别方法、系统、设备及介质
CN114528387A (zh) 基于对话流自举的深度学习对话策略模型构建方法和系统
CN113297374B (zh) 一种基于bert和字词特征融合的文本分类方法
CN113077785B (zh) 一种端到端的多语言连续语音流语音内容识别方法及系统
CN112183062A (zh) 一种基于交替解码的口语理解方法、电子设备和存储介质
WO2023116572A1 (zh) 一种词句生成方法及相关设备
CN116312539A (zh) 基于大模型的中文对话轮次纠正方法及系统
CN110888944A (zh) 基于多卷积窗尺寸注意力卷积神经网络实体关系抽取方法
CN116362242A (zh) 一种小样本槽值提取方法、装置、设备及存储介质
CN115906854A (zh) 一种基于多级对抗的跨语言命名实体识别模型训练方法
CN115240712A (zh) 一种基于多模态的情感分类方法、装置、设备及存储介质
CN113129869B (zh) 语音识别模型的训练与语音识别的方法、装置
CN115374784A (zh) 一种多模态信息选择性融合的中文命名实体识别方法
CN115270792A (zh) 一种医疗实体识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant