CN110875035A - 新型多任务联合的语音识别训练架构和方法 - Google Patents

新型多任务联合的语音识别训练架构和方法 Download PDF

Info

Publication number
CN110875035A
CN110875035A CN201911019755.5A CN201911019755A CN110875035A CN 110875035 A CN110875035 A CN 110875035A CN 201911019755 A CN201911019755 A CN 201911019755A CN 110875035 A CN110875035 A CN 110875035A
Authority
CN
China
Prior art keywords
loss value
model
seq2seq model
time sequence
seq2seq
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911019755.5A
Other languages
English (en)
Inventor
徐波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GUANGDONG LIWEI NETWORK TECHNOLOGY CO LTD
Multi Benefit Network Co Ltd
Guangzhou Duoyi Network Co Ltd
Original Assignee
GUANGDONG LIWEI NETWORK TECHNOLOGY CO LTD
Multi Benefit Network Co Ltd
Guangzhou Duoyi Network Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GUANGDONG LIWEI NETWORK TECHNOLOGY CO LTD, Multi Benefit Network Co Ltd, Guangzhou Duoyi Network Co Ltd filed Critical GUANGDONG LIWEI NETWORK TECHNOLOGY CO LTD
Priority to CN201911019755.5A priority Critical patent/CN110875035A/zh
Publication of CN110875035A publication Critical patent/CN110875035A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明公开了一种新型多任务联合的语音识别训练架构和方法,属于智能语音领域,包括Seq2seq模型和联结时序分类模型,Seq2seq模型用于编码语音或频谱,提取高维特征,根据上下文向量、注意力向量以及输入标签来逐步解码,并输出发音单元;所述联结时序分类模型用于辅助训练所述Seq2seq模型的语音、发音对齐,按照权重计算损失值,根据所述Seq2seq模型的损失值得到总损失值,使用反向传播算法更新所述Seq2seq模型的参数。联结时序分类部分能帮助Seq2seq模型在音频和文字间单调对齐,同时能使注意力模块更快收敛,减少了训练阶段和推理阶段的无规律的对齐。

Description

新型多任务联合的语音识别训练架构和方法
技术领域
本发明涉及语音识别技术领域,特别是指一种新型多任务联合的语音识别训练架构和方法。
背景技术
语音识别(Automatic Speech Recognition,ASR),是一种可以将语音信号转换成文字的技术,语音识别技术和语音合成技术(Text-To-Speech,TTS)共同成为智能语音交互中不可或缺的技术。语音合成是机器的嘴巴,是让机器说得出;语音识别是机器的耳朵,让机器听得懂。无论是语音输入、实时字幕、语音助手、同传等需求和应用场景,语音识别技术都在发挥着越来越大的作用。
语音识别主要分为两个模块:声学模型(语音->拼音),语言模型(拼音->汉字)。语音识别主要方法有:HMM-GMM(图1所示)和深度学习方法。深度学习方法又包括Seq2seq模型和联结时序分类(Connectionist Temporal Classification, CTC)两种,Seq2seq模型的原理如图2,简化图如图3所示。
1、联结时序分类模型
业界普遍使用窄而深的神经网络结构来拟合频谱特征,使用联结时序分类作为对齐工具。
缺点:缺乏语言建模能力,不能整合语言模型进行联合优化;不能建模模型输出之间的依赖关系;要求符合条件独立的假设。
优点:具备单调对齐特性。
2、Seq2seq模型
Seq2seq模型包含三个模块:编码器、注意力模块、解码器。Seq2seq模型利用编码器部分提取语音(或频谱)的高维特征,用解码器输出发音单元(音素、拼音、汉字),用注意力模块作为语音帧与发音单元的对齐工具。
优点:效果十分不错。
缺点:过于灵活,缺乏对单调对齐的强制约束,较难学习,因为较长的输入序列与较短的输出序列之间很难对齐,而且attention部分在噪音环境下表现不好,易受干扰。
现有技术中没有将二者组合的技术方案。
发明内容
本发明提出一种新型多任务联合的语音识别训练架构和方法,用联结时序分类作为辅助训练任务帮助训练Seq2seq模型,编码器部分也会被联结时序分类共享,联结时序分类部分能帮助Seq2seq模型在音频和文字间单调对齐,同时能使注意力模块更快收敛,减少了训练阶段和推理阶段的无规律的对齐。
本发明的技术方案是这样实现的:
一种新型多任务联合的语音识别训练架构,包括Seq2seq模型和联结时序分类模型,所述Seq2seq模型用于编码语音或频谱,提取高维特征,根据上下文向量、注意力向量以及输入标签来逐步解码,并输出发音单元;所述联结时序分类模型用于辅助训练所述Seq2seq模型的语音、发音对齐,按照权重计算损失值,根据所述Seq2seq模型的损失值得到总损失值,使用反向传播算法更新所述 Seq2seq模型的参数。
作为本发明的一个优选实施例,所述Seq2seq模型包括编码器、注意力模块、解码器,所述编码器用于编码语音或频谱,提取高维特征;所述注意力模块用于语音和发音的对齐,输出上下文向量、输入标签、历史状态至所述解码器;所述解码器用于解码和输出拼音序列,计算发音单元和输入标签的交叉熵损失值。
作为本发明的一个优选实施例,所述联结时序分类模型包括卷积网络模块、循环网络模块、全连接层和损失值计算模块,所述卷积网络模块接收语音或频谱,所述编码器输出第一参数矩阵至所述全连接层,所述卷积网络模块和循环网络模块输出第二参数矩阵至所述全连接层;所述全连接层对上述第一参数矩阵和第二参数矩阵进行矩阵运算,得到拼音概率矩阵,并传输至所述损失值计算模块;所述损失值计算模块根据拼音概率矩阵计算损失值,再与交叉熵损失值相加得到总损失值。
一种新型多任务联合的语音识别训练方法,具体包括以下步骤:
S1,关联Seq2seq模型和联结时序分类模型,将语音或频谱分别传输至所述Seq2seq模型和联结时序分类模型;
S2,所述Seq2seq模型编码语音或频谱,提取高维特征,根据上下文向量、注意力向量以及输入标签来逐步解码,并输出发音单元;
S3,计算发音单元与输入标签的交叉熵损失值;
S4,所述联结时序分类模型根据语音或频谱以及所述Seq2seq模型传递的参数计算损失值;
S5,将Seq2seq模型的交叉熵损失值和联结时序模型的损失值按权重相加,得到总损失值,使用反向传播算法更新所述Seq2seq模型的参数。
作为本发明的一个优选实施例,步骤S5中,总损失值ζMTL的计算公式为:
ζMTL=λζCTC+(1-λ)ζAttention
其中,λ为权重,取值范围为[0,1],ζCTC为联结时序分类模型的损失值,ζAttention为Seq2seq模型的交叉熵损失值。
作为本发明的一个优选实施例,联结时序分类模型的损失值,其计算公式为:
ζCTC=-lnP(y*|x)
其中,x表示输入频谱或语音数值矩阵,y*表示标签序列的概率矩阵,P(y* |x)表示通过计算输入频谱或语音数值矩阵得到y*的条件概率,再通过负对数似然函数计算出联结时序分类模型的损失值。
作为本发明的一个优选实施例,Seq2seq模型的交叉熵损失值,其计算公式为:
Figure BDA0002246812890000041
x是输入参数矩阵,
Figure DEST_PATH_FDA0002246812880000025
表示从第一个输出标签到第u-1个输出标签,
Figure BDA0002246812890000043
是第u个输出标签,所以
Figure BDA0002246812890000044
表示在x和
Figure 1
的条件下,得到输出的
Figure BDA0002246812890000046
概率。这里使用负对数似然函数计算某个输出标签的损失值,最后通过
Figure BDA0002246812890000047
将u个输出标签的损失值相加得到Seq2seq模型的交叉熵损失值。
作为本发明的一个优选实施例,所述λ=0.2。
本发明的有益效果在于:用联结时序分类作为辅助训练任务帮助训练 Seq2seq模型,编码器部分也会被联结时序分类共享,联结时序分类部分能帮助 Seq2seq模型在音频和文字间单调对齐,同时能使注意力模块更快收敛,减少了训练阶段和推理阶段的无规律的对齐。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为现有技术中语音识别方法的流程图;
图2为现有技术中Seq2seq模型的原理图;
图3为现有技术中Seq2seq模型的方框图;
图4为本发明联结时序分类模型的原理方框图;
图5为本发明一种新型多任务联合的语音识别训练架构的原理方框图;
图6为本发明一种新型多任务联合的语音识别训练方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图4和5所示,本发明提出了一种新型多任务联合的语音识别训练架构,包括Seq2seq模型和联结时序分类模型,Seq2seq模型用于编码语音或频谱,提取高维特征,根据上下文向量、注意力向量以及输入标签来逐步解码,并输出发音单元(如音素、拼音);联结时序分类模型用于辅助训练Seq2seq模型的语音、发音对齐,按照权重计算损失值,根据Seq2seq模型的损失值得到总损失值,使用反向传播算法更新Seq2seq模型的参数。通常编码器和解码器内部都会使用长短时循环神经网络单元(Long Short-Term Memory,LSTM)实现,这种神经网络单元的运算与卷积神经网络单元不同,卷积网络可以并行运算,但长短时循环神经网络单元只能够迭代运行,因此性能较差,但效果更好,因为考虑到了上下文的信息。
作为本发明的一个优选实施例,Seq2seq模型包括编码器、注意力模块、解码器,编码器用于编码语音或频谱,提取高维特征;注意力模块用于语音和发音的对齐,输出上下文向量、输入标签、历史状态至解码器;解码器用于解码和输出拼音序列,计算发音单元和输入标签的交叉熵损失值。
作为本发明的一个优选实施例,联结时序分类模型包括卷积网络模块、循环网络模块、全连接层和损失值计算模块,所述卷积网络模块接收语音或频谱,所述编码器输出第一参数矩阵至全连接层,编码器部分的输出,除了传递给注意力模块以外,还需要传递全连接层。卷积网络模块和循环网络模块输出第二参数矩阵至全连接层;全连接层对上述第一参数矩阵和第二参数矩阵进行矩阵运算,得到拼音概率矩阵,并传输至损失值计算模块;损失值计算模块根据拼音概率矩阵计算损失值,再与交叉熵损失值相加得到总损失值。
如图6所示,本发明还提出了一种新型多任务联合的语音识别训练方法,具体包括以下步骤:
S1,关联Seq2seq模型和联结时序分类模型,将语音或频谱分别传输至 Seq2seq模型和联结时序分类模型;
S2,Seq2seq模型编码语音或频谱,提取高维特征,根据上下文向量、注意力向量以及输入标签来逐步解码,并输出发音单元;
S3,计算发音单元与输入标签的交叉熵损失值;解码器部分接受三项输入: 注意力机制传递来的上下文向量、输入标签、历史状态,并输出拼音序列,计算解码器输出与标签序列的交叉熵损失值。
S4,联结时序分类模型根据语音或频谱以及Seq2seq模型传递的参数计算损失值;编码器部分的输出,除了传递给注意力模块以外,还需要传递全连接层;将全连接层的参数矩阵与编码器部分的输出参数矩阵进行矩阵运算,得到每个拼音的概率;拼音概率矩阵传递给联结时序分类模块,计算损失值。具体的,在实施过程中,步骤S3和步骤S4无先后顺序的强制要求。
S5,其中,λ为权重,ζCTC为联结时序分类模型的损失值,ζAttention为Seq2seq 模型的交叉熵损失值。
步骤S5中,总损失值ζMTL的计算公式为:
ζMTL=λζCTC+(1-λ)ζAttention
其中,λ为权重,ζCTC为联结时序分类模型的损失值,ζAttention为Seq2seq 模型的交叉熵损失值。λ的取值范围为[0,1],当λ为0时,总损失值等于Seq2seq 模型的交叉熵损失值,当λ为1时,总损失值等于联结时序分类模型的损失值。λ取值不同,最终语音识别模型的效果有差别,收敛速度也有差别。
联结时序分类模型的损失值,其计算公式为:
ζCTC=-lnP(y*|x)
其中,x表示输入频谱或语音数值矩阵,y*表示标签序列的概率矩阵,P(y* |x)表示通过计算输入频谱或语音数值矩阵得到y*的条件概率,再通过负对数似然函数计算出联结时序分类模型的损失值。
Seq2seq模型的交叉熵损失值,其计算公式为:
Figure BDA0002246812890000061
x是输入参数矩阵,
Figure 904156DEST_PATH_FDA0002246812880000025
表示从第一个输出标签到第u-1个输出标签,
Figure BDA0002246812890000063
是第u个输出标签,所以
Figure BDA0002246812890000064
表示在x和
Figure 2
的条件下,得到输出的
Figure BDA0002246812890000071
概率。这里使用负对数似然函数计算某个输出标签的损失值,最后通过
Figure BDA0002246812890000072
将u个输出标签的损失值相加得到Seq2seq模型的交叉熵损失值。
由实验可知,参数λ=0.2时效果最佳。此时语音识别模型收敛较快,Seq2seq 模型更快学会对齐,而最终的语音识别效果也更好。
本发明引入了联结时序分类模型,构建联合训练架构,有效地缓解了传统seq2seq架构的缺点,通过迫使注意力机制的单调对齐,提高了模块的泛化能力、减少了训练阶段和推理阶段之间的无规律对齐。
以上仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种新型多任务联合的语音识别训练架构,其特征在于:包括Seq2seq模型和联结时序分类模型,所述Seq2seq模型用于编码语音或频谱,提取高维特征,根据上下文向量、注意力向量以及输入标签来逐步解码,并输出发音单元;所述联结时序分类模型用于辅助训练所述Seq2seq模型的语音、发音对齐,按照权重计算损失值,根据所述Seq2seq模型的损失值得到总损失值,使用反向传播算法更新所述Seq2seq模型的参数。
2.根据权利要求1所述的新型多任务联合的语音识别训练架构,其特征在于:所述Seq2seq模型包括编码器、注意力模块、解码器,所述编码器用于编码语音或频谱,提取高维特征;所述注意力模块用于语音和发音的对齐,输出上下文向量、输入标签、历史状态至所述解码器;所述解码器用于解码和输出拼音序列,计算发音单元和输入标签的交叉熵损失值。
3.根据权利要求2所述的新型多任务联合的语音识别训练架构,其特征在于:所述联结时序分类模型包括卷积网络模块、循环网络模块、全连接层和损失值计算模块,所述卷积网络模块接收语音或频谱,所述编码器输出第一参数矩阵至所述全连接层,所述卷积网络模块和循环网络模块输出第二参数矩阵至所述全连接层;所述全连接层对上述第一参数矩阵和第二参数矩阵进行矩阵运算,得到拼音概率矩阵,并传输至所述损失值计算模块;所述损失值计算模块根据拼音概率矩阵计算损失值,再与交叉熵损失值按权重相加得到总损失值。
4.一种新型多任务联合的语音识别训练方法,其特征在于,具体包括以下步骤:
S1,关联Seq2seq模型和联结时序分类模型,将语音或频谱分别传输至所述Seq2seq模型和联结时序分类模型;
S2,所述Seq2seq模型编码语音或频谱,提取高维特征,根据上下文向量、注意力向量以及输入标签来逐步解码,并输出发音单元;
S3,计算发音单元与输入标签的交叉熵损失值;
S4,所述联结时序分类模型根据语音或频谱以及所述Seq2seq模型传递的参数计算损失值;
S5,将Seq2seq模型的交叉熵损失值和联结时序模型的损失值按权重相加,得到总损失值,使用反向传播算法更新所述Seq2seq模型的参数。
5.根据权利要求4所述的新型多任务联合的语音识别训练方法,其特征在于:步骤S5中,总损失值ζMTL的计算公式为:
ζMTL=λζCTC+(1-λ)ζAttention
其中,λ为权重,取值范围为[0,1],ζCTC为联结时序分类模型的损失值,ζAttention为Seq2seq模型的交叉熵损失值。
6.根据权利要求5所述的新型多任务联合的语音识别训练方法,其特征在于:联结时序分类模型的损失值,其计算公式为:
ζCTC=-lnP(y*|x)
其中,x表示输入频谱或语音数值矩阵,y*表示标签序列的概率矩阵,P(y*|x)表示通过计算输入频谱或语音数值矩阵得到y*的条件概率,再通过负对数似然函数计算出联结时序分类模型的损失值。
7.根据权利要求5所述的新型多任务联合的语音识别训练方法,其特征在于:Seq2seq模型的交叉熵损失值,其计算公式为:
Figure FDA0002246812880000021
x是输入参数矩阵,
Figure FDA0002246812880000025
表示从第一个输出标签到第u-1个输出标签,
Figure FDA0002246812880000023
是第u个输出标签,所以
Figure FDA0002246812880000024
表示在x和
Figure FDA0002246812880000025
的条件下,得到输出的
Figure FDA0002246812880000026
概率,这里使用负对数似然函数计算某个输出标签的损失值,最后通过
Figure FDA0002246812880000027
将u个输出标签的损失值相加得到Seq2seq模型的交叉熵损失值。
8.根据权利要求5-7任一项所述的新型多任务联合的语音识别训练方法,其特征在于:所述λ=0.2。
CN201911019755.5A 2019-10-24 2019-10-24 新型多任务联合的语音识别训练架构和方法 Pending CN110875035A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911019755.5A CN110875035A (zh) 2019-10-24 2019-10-24 新型多任务联合的语音识别训练架构和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911019755.5A CN110875035A (zh) 2019-10-24 2019-10-24 新型多任务联合的语音识别训练架构和方法

Publications (1)

Publication Number Publication Date
CN110875035A true CN110875035A (zh) 2020-03-10

Family

ID=69718091

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911019755.5A Pending CN110875035A (zh) 2019-10-24 2019-10-24 新型多任务联合的语音识别训练架构和方法

Country Status (1)

Country Link
CN (1) CN110875035A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111554275A (zh) * 2020-05-15 2020-08-18 深圳前海微众银行股份有限公司 语音识别方法、装置、设备及计算机可读存储介质
CN111681646A (zh) * 2020-07-17 2020-09-18 成都三零凯天通信实业有限公司 端到端架构的通用场景中文普通话语音识别方法
CN111680591A (zh) * 2020-05-28 2020-09-18 天津大学 一种基于特征融合和注意力机制的发音反演方法
CN112349288A (zh) * 2020-09-18 2021-02-09 昆明理工大学 基于拼音约束联合学习的汉语语音识别方法
CN112735467A (zh) * 2020-12-28 2021-04-30 福州数据技术研究院有限公司 一种基于序列神经网络自动编码解码器的风叶声音边界定位方法和存储设备
CN112992129A (zh) * 2021-03-08 2021-06-18 中国科学技术大学 语音识别任务中的保持注意力机制单调性方法
CN115527525A (zh) * 2022-11-23 2022-12-27 广州小鹏汽车科技有限公司 语音识别模型生成方法、语音交互方法、车辆和存储介质
CN117711381A (zh) * 2024-02-06 2024-03-15 北京边锋信息技术有限公司 音频识别方法、装置、系统和电子设备

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107408111A (zh) * 2015-11-25 2017-11-28 百度(美国)有限责任公司 端对端语音识别
CN107832310A (zh) * 2017-11-27 2018-03-23 首都师范大学 基于seq2seq模型的结构化论点生成方法及系统
CN108227565A (zh) * 2017-12-12 2018-06-29 深圳和而泰数据资源与云技术有限公司 一种信息处理方法、终端及计算机可读介质
CN108630199A (zh) * 2018-06-30 2018-10-09 中国人民解放军战略支援部队信息工程大学 一种声学模型的数据处理方法
CN109036384A (zh) * 2018-09-06 2018-12-18 百度在线网络技术(北京)有限公司 语音识别方法和装置
CN109545190A (zh) * 2018-12-29 2019-03-29 联动优势科技有限公司 一种基于关键词的语音识别方法
CN109582789A (zh) * 2018-11-12 2019-04-05 北京大学 基于语义单元信息的文本多标签分类方法
CN110189748A (zh) * 2019-05-31 2019-08-30 百度在线网络技术(北京)有限公司 模型构建方法和装置
CN110299132A (zh) * 2019-06-26 2019-10-01 京东数字科技控股有限公司 一种语音数字识别方法和装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107408111A (zh) * 2015-11-25 2017-11-28 百度(美国)有限责任公司 端对端语音识别
CN107832310A (zh) * 2017-11-27 2018-03-23 首都师范大学 基于seq2seq模型的结构化论点生成方法及系统
CN108227565A (zh) * 2017-12-12 2018-06-29 深圳和而泰数据资源与云技术有限公司 一种信息处理方法、终端及计算机可读介质
CN108630199A (zh) * 2018-06-30 2018-10-09 中国人民解放军战略支援部队信息工程大学 一种声学模型的数据处理方法
CN109036384A (zh) * 2018-09-06 2018-12-18 百度在线网络技术(北京)有限公司 语音识别方法和装置
CN109582789A (zh) * 2018-11-12 2019-04-05 北京大学 基于语义单元信息的文本多标签分类方法
CN109545190A (zh) * 2018-12-29 2019-03-29 联动优势科技有限公司 一种基于关键词的语音识别方法
CN110189748A (zh) * 2019-05-31 2019-08-30 百度在线网络技术(北京)有限公司 模型构建方法和装置
CN110299132A (zh) * 2019-06-26 2019-10-01 京东数字科技控股有限公司 一种语音数字识别方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SHINJI WATANABE ET AL.: "《Hybrid CTC/Attention Architecture for End-to-End Speech Recognition》", 《IEEE JOURNAL OF SELECTED TOPICS IN SIGNAL PROCESSING ( VOLUME: 11, ISSUE: 8, DEC. 2017)》 *
杨鸿武等: "《基于改进混合CTC/attention架构的端到端普通话语音识别》", 《西北师范大学学报(自然科学版)》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111554275A (zh) * 2020-05-15 2020-08-18 深圳前海微众银行股份有限公司 语音识别方法、装置、设备及计算机可读存储介质
CN111554275B (zh) * 2020-05-15 2023-11-03 深圳前海微众银行股份有限公司 语音识别方法、装置、设备及计算机可读存储介质
CN111680591A (zh) * 2020-05-28 2020-09-18 天津大学 一种基于特征融合和注意力机制的发音反演方法
CN111680591B (zh) * 2020-05-28 2023-01-13 天津大学 一种基于特征融合和注意力机制的发音反演方法
CN111681646A (zh) * 2020-07-17 2020-09-18 成都三零凯天通信实业有限公司 端到端架构的通用场景中文普通话语音识别方法
CN112349288A (zh) * 2020-09-18 2021-02-09 昆明理工大学 基于拼音约束联合学习的汉语语音识别方法
CN112735467A (zh) * 2020-12-28 2021-04-30 福州数据技术研究院有限公司 一种基于序列神经网络自动编码解码器的风叶声音边界定位方法和存储设备
CN112992129A (zh) * 2021-03-08 2021-06-18 中国科学技术大学 语音识别任务中的保持注意力机制单调性方法
CN115527525A (zh) * 2022-11-23 2022-12-27 广州小鹏汽车科技有限公司 语音识别模型生成方法、语音交互方法、车辆和存储介质
CN117711381A (zh) * 2024-02-06 2024-03-15 北京边锋信息技术有限公司 音频识别方法、装置、系统和电子设备

Similar Documents

Publication Publication Date Title
CN110875035A (zh) 新型多任务联合的语音识别训练架构和方法
CN107545903B (zh) 一种基于深度学习的语音转换方法
CN110164476B (zh) 一种基于多输出特征融合的blstm的语音情感识别方法
CN108170686B (zh) 文本翻译方法及装置
CN112735373B (zh) 语音合成方法、装置、设备及存储介质
CN108269568B (zh) 一种基于ctc的声学模型训练方法
CN109979429A (zh) 一种tts的方法及系统
CN112802448A (zh) 一种新音色生成的语音合成方法和系统
WO2018066436A1 (ja) 音響モデルの学習装置及びそのためのコンピュータプログラム
CN105654939A (zh) 一种基于音向量文本特征的语音合成方法
CN113393832B (zh) 一种基于全局情感编码的虚拟人动画合成方法及系统
CN112420050B (zh) 一种语音识别方法、装置和电子设备
CN113450761B (zh) 一种基于变分自编码器的并行语音合成方法和装置
CN106782513A (zh) 基于置信度的语音识别实现方法及系统
CN112634918B (zh) 一种基于声学后验概率的任意说话人语音转换系统及方法
CN111009235A (zh) 一种基于cldnn+ctc声学模型的语音识别方法
CN108461080A (zh) 一种基于hlstm模型的声学建模方法和装置
CN112349288A (zh) 基于拼音约束联合学习的汉语语音识别方法
Deng et al. Improving RNN-T for Domain Scaling Using Semi-Supervised Training with Neural TTS.
CN115905485A (zh) 基于常识自适应选择的共情对话方法及系统
Khursheed et al. Tiny-crnn: Streaming wakeword detection in a low footprint setting
CN112908293B (zh) 一种基于语义注意力机制的多音字发音纠错方法及装置
WO2022227365A1 (zh) 基于词库学习的饱和潜水氦语音解读方法
CN112908317B (zh) 一种针对认知障碍的语音识别系统
CN113450760A (zh) 一种文本转语音的方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200310