CN110875035A - 新型多任务联合的语音识别训练架构和方法 - Google Patents
新型多任务联合的语音识别训练架构和方法 Download PDFInfo
- Publication number
- CN110875035A CN110875035A CN201911019755.5A CN201911019755A CN110875035A CN 110875035 A CN110875035 A CN 110875035A CN 201911019755 A CN201911019755 A CN 201911019755A CN 110875035 A CN110875035 A CN 110875035A
- Authority
- CN
- China
- Prior art keywords
- loss value
- model
- seq2seq model
- time sequence
- seq2seq
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明公开了一种新型多任务联合的语音识别训练架构和方法,属于智能语音领域,包括Seq2seq模型和联结时序分类模型,Seq2seq模型用于编码语音或频谱,提取高维特征,根据上下文向量、注意力向量以及输入标签来逐步解码,并输出发音单元;所述联结时序分类模型用于辅助训练所述Seq2seq模型的语音、发音对齐,按照权重计算损失值,根据所述Seq2seq模型的损失值得到总损失值,使用反向传播算法更新所述Seq2seq模型的参数。联结时序分类部分能帮助Seq2seq模型在音频和文字间单调对齐,同时能使注意力模块更快收敛,减少了训练阶段和推理阶段的无规律的对齐。
Description
技术领域
本发明涉及语音识别技术领域,特别是指一种新型多任务联合的语音识别训练架构和方法。
背景技术
语音识别(Automatic Speech Recognition,ASR),是一种可以将语音信号转换成文字的技术,语音识别技术和语音合成技术(Text-To-Speech,TTS)共同成为智能语音交互中不可或缺的技术。语音合成是机器的嘴巴,是让机器说得出;语音识别是机器的耳朵,让机器听得懂。无论是语音输入、实时字幕、语音助手、同传等需求和应用场景,语音识别技术都在发挥着越来越大的作用。
语音识别主要分为两个模块:声学模型(语音->拼音),语言模型(拼音->汉字)。语音识别主要方法有:HMM-GMM(图1所示)和深度学习方法。深度学习方法又包括Seq2seq模型和联结时序分类(Connectionist Temporal Classification, CTC)两种,Seq2seq模型的原理如图2,简化图如图3所示。
1、联结时序分类模型
业界普遍使用窄而深的神经网络结构来拟合频谱特征,使用联结时序分类作为对齐工具。
缺点:缺乏语言建模能力,不能整合语言模型进行联合优化;不能建模模型输出之间的依赖关系;要求符合条件独立的假设。
优点:具备单调对齐特性。
2、Seq2seq模型
Seq2seq模型包含三个模块:编码器、注意力模块、解码器。Seq2seq模型利用编码器部分提取语音(或频谱)的高维特征,用解码器输出发音单元(音素、拼音、汉字),用注意力模块作为语音帧与发音单元的对齐工具。
优点:效果十分不错。
缺点:过于灵活,缺乏对单调对齐的强制约束,较难学习,因为较长的输入序列与较短的输出序列之间很难对齐,而且attention部分在噪音环境下表现不好,易受干扰。
现有技术中没有将二者组合的技术方案。
发明内容
本发明提出一种新型多任务联合的语音识别训练架构和方法,用联结时序分类作为辅助训练任务帮助训练Seq2seq模型,编码器部分也会被联结时序分类共享,联结时序分类部分能帮助Seq2seq模型在音频和文字间单调对齐,同时能使注意力模块更快收敛,减少了训练阶段和推理阶段的无规律的对齐。
本发明的技术方案是这样实现的:
一种新型多任务联合的语音识别训练架构,包括Seq2seq模型和联结时序分类模型,所述Seq2seq模型用于编码语音或频谱,提取高维特征,根据上下文向量、注意力向量以及输入标签来逐步解码,并输出发音单元;所述联结时序分类模型用于辅助训练所述Seq2seq模型的语音、发音对齐,按照权重计算损失值,根据所述Seq2seq模型的损失值得到总损失值,使用反向传播算法更新所述 Seq2seq模型的参数。
作为本发明的一个优选实施例,所述Seq2seq模型包括编码器、注意力模块、解码器,所述编码器用于编码语音或频谱,提取高维特征;所述注意力模块用于语音和发音的对齐,输出上下文向量、输入标签、历史状态至所述解码器;所述解码器用于解码和输出拼音序列,计算发音单元和输入标签的交叉熵损失值。
作为本发明的一个优选实施例,所述联结时序分类模型包括卷积网络模块、循环网络模块、全连接层和损失值计算模块,所述卷积网络模块接收语音或频谱,所述编码器输出第一参数矩阵至所述全连接层,所述卷积网络模块和循环网络模块输出第二参数矩阵至所述全连接层;所述全连接层对上述第一参数矩阵和第二参数矩阵进行矩阵运算,得到拼音概率矩阵,并传输至所述损失值计算模块;所述损失值计算模块根据拼音概率矩阵计算损失值,再与交叉熵损失值相加得到总损失值。
一种新型多任务联合的语音识别训练方法,具体包括以下步骤:
S1,关联Seq2seq模型和联结时序分类模型,将语音或频谱分别传输至所述Seq2seq模型和联结时序分类模型;
S2,所述Seq2seq模型编码语音或频谱,提取高维特征,根据上下文向量、注意力向量以及输入标签来逐步解码,并输出发音单元;
S3,计算发音单元与输入标签的交叉熵损失值;
S4,所述联结时序分类模型根据语音或频谱以及所述Seq2seq模型传递的参数计算损失值;
S5,将Seq2seq模型的交叉熵损失值和联结时序模型的损失值按权重相加,得到总损失值,使用反向传播算法更新所述Seq2seq模型的参数。
作为本发明的一个优选实施例,步骤S5中,总损失值ζMTL的计算公式为:
ζMTL=λζCTC+(1-λ)ζAttention
其中,λ为权重,取值范围为[0,1],ζCTC为联结时序分类模型的损失值,ζAttention为Seq2seq模型的交叉熵损失值。
作为本发明的一个优选实施例,联结时序分类模型的损失值,其计算公式为:
ζCTC=-lnP(y*|x)
其中,x表示输入频谱或语音数值矩阵,y*表示标签序列的概率矩阵,P(y* |x)表示通过计算输入频谱或语音数值矩阵得到y*的条件概率,再通过负对数似然函数计算出联结时序分类模型的损失值。
作为本发明的一个优选实施例,Seq2seq模型的交叉熵损失值,其计算公式为:
x是输入参数矩阵,表示从第一个输出标签到第u-1个输出标签,是第u个输出标签,所以表示在x和的条件下,得到输出的概率。这里使用负对数似然函数计算某个输出标签的损失值,最后通过将u个输出标签的损失值相加得到Seq2seq模型的交叉熵损失值。
作为本发明的一个优选实施例,所述λ=0.2。
本发明的有益效果在于:用联结时序分类作为辅助训练任务帮助训练 Seq2seq模型,编码器部分也会被联结时序分类共享,联结时序分类部分能帮助 Seq2seq模型在音频和文字间单调对齐,同时能使注意力模块更快收敛,减少了训练阶段和推理阶段的无规律的对齐。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为现有技术中语音识别方法的流程图;
图2为现有技术中Seq2seq模型的原理图;
图3为现有技术中Seq2seq模型的方框图;
图4为本发明联结时序分类模型的原理方框图;
图5为本发明一种新型多任务联合的语音识别训练架构的原理方框图;
图6为本发明一种新型多任务联合的语音识别训练方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图4和5所示,本发明提出了一种新型多任务联合的语音识别训练架构,包括Seq2seq模型和联结时序分类模型,Seq2seq模型用于编码语音或频谱,提取高维特征,根据上下文向量、注意力向量以及输入标签来逐步解码,并输出发音单元(如音素、拼音);联结时序分类模型用于辅助训练Seq2seq模型的语音、发音对齐,按照权重计算损失值,根据Seq2seq模型的损失值得到总损失值,使用反向传播算法更新Seq2seq模型的参数。通常编码器和解码器内部都会使用长短时循环神经网络单元(Long Short-Term Memory,LSTM)实现,这种神经网络单元的运算与卷积神经网络单元不同,卷积网络可以并行运算,但长短时循环神经网络单元只能够迭代运行,因此性能较差,但效果更好,因为考虑到了上下文的信息。
作为本发明的一个优选实施例,Seq2seq模型包括编码器、注意力模块、解码器,编码器用于编码语音或频谱,提取高维特征;注意力模块用于语音和发音的对齐,输出上下文向量、输入标签、历史状态至解码器;解码器用于解码和输出拼音序列,计算发音单元和输入标签的交叉熵损失值。
作为本发明的一个优选实施例,联结时序分类模型包括卷积网络模块、循环网络模块、全连接层和损失值计算模块,所述卷积网络模块接收语音或频谱,所述编码器输出第一参数矩阵至全连接层,编码器部分的输出,除了传递给注意力模块以外,还需要传递全连接层。卷积网络模块和循环网络模块输出第二参数矩阵至全连接层;全连接层对上述第一参数矩阵和第二参数矩阵进行矩阵运算,得到拼音概率矩阵,并传输至损失值计算模块;损失值计算模块根据拼音概率矩阵计算损失值,再与交叉熵损失值相加得到总损失值。
如图6所示,本发明还提出了一种新型多任务联合的语音识别训练方法,具体包括以下步骤:
S1,关联Seq2seq模型和联结时序分类模型,将语音或频谱分别传输至 Seq2seq模型和联结时序分类模型;
S2,Seq2seq模型编码语音或频谱,提取高维特征,根据上下文向量、注意力向量以及输入标签来逐步解码,并输出发音单元;
S3,计算发音单元与输入标签的交叉熵损失值;解码器部分接受三项输入: 注意力机制传递来的上下文向量、输入标签、历史状态,并输出拼音序列,计算解码器输出与标签序列的交叉熵损失值。
S4,联结时序分类模型根据语音或频谱以及Seq2seq模型传递的参数计算损失值;编码器部分的输出,除了传递给注意力模块以外,还需要传递全连接层;将全连接层的参数矩阵与编码器部分的输出参数矩阵进行矩阵运算,得到每个拼音的概率;拼音概率矩阵传递给联结时序分类模块,计算损失值。具体的,在实施过程中,步骤S3和步骤S4无先后顺序的强制要求。
S5,其中,λ为权重,ζCTC为联结时序分类模型的损失值,ζAttention为Seq2seq 模型的交叉熵损失值。
步骤S5中,总损失值ζMTL的计算公式为:
ζMTL=λζCTC+(1-λ)ζAttention
其中,λ为权重,ζCTC为联结时序分类模型的损失值,ζAttention为Seq2seq 模型的交叉熵损失值。λ的取值范围为[0,1],当λ为0时,总损失值等于Seq2seq 模型的交叉熵损失值,当λ为1时,总损失值等于联结时序分类模型的损失值。λ取值不同,最终语音识别模型的效果有差别,收敛速度也有差别。
联结时序分类模型的损失值,其计算公式为:
ζCTC=-lnP(y*|x)
其中,x表示输入频谱或语音数值矩阵,y*表示标签序列的概率矩阵,P(y* |x)表示通过计算输入频谱或语音数值矩阵得到y*的条件概率,再通过负对数似然函数计算出联结时序分类模型的损失值。
Seq2seq模型的交叉熵损失值,其计算公式为:
x是输入参数矩阵,表示从第一个输出标签到第u-1个输出标签,是第u个输出标签,所以表示在x和的条件下,得到输出的概率。这里使用负对数似然函数计算某个输出标签的损失值,最后通过将u个输出标签的损失值相加得到Seq2seq模型的交叉熵损失值。
由实验可知,参数λ=0.2时效果最佳。此时语音识别模型收敛较快,Seq2seq 模型更快学会对齐,而最终的语音识别效果也更好。
本发明引入了联结时序分类模型,构建联合训练架构,有效地缓解了传统seq2seq架构的缺点,通过迫使注意力机制的单调对齐,提高了模块的泛化能力、减少了训练阶段和推理阶段之间的无规律对齐。
以上仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种新型多任务联合的语音识别训练架构,其特征在于:包括Seq2seq模型和联结时序分类模型,所述Seq2seq模型用于编码语音或频谱,提取高维特征,根据上下文向量、注意力向量以及输入标签来逐步解码,并输出发音单元;所述联结时序分类模型用于辅助训练所述Seq2seq模型的语音、发音对齐,按照权重计算损失值,根据所述Seq2seq模型的损失值得到总损失值,使用反向传播算法更新所述Seq2seq模型的参数。
2.根据权利要求1所述的新型多任务联合的语音识别训练架构,其特征在于:所述Seq2seq模型包括编码器、注意力模块、解码器,所述编码器用于编码语音或频谱,提取高维特征;所述注意力模块用于语音和发音的对齐,输出上下文向量、输入标签、历史状态至所述解码器;所述解码器用于解码和输出拼音序列,计算发音单元和输入标签的交叉熵损失值。
3.根据权利要求2所述的新型多任务联合的语音识别训练架构,其特征在于:所述联结时序分类模型包括卷积网络模块、循环网络模块、全连接层和损失值计算模块,所述卷积网络模块接收语音或频谱,所述编码器输出第一参数矩阵至所述全连接层,所述卷积网络模块和循环网络模块输出第二参数矩阵至所述全连接层;所述全连接层对上述第一参数矩阵和第二参数矩阵进行矩阵运算,得到拼音概率矩阵,并传输至所述损失值计算模块;所述损失值计算模块根据拼音概率矩阵计算损失值,再与交叉熵损失值按权重相加得到总损失值。
4.一种新型多任务联合的语音识别训练方法,其特征在于,具体包括以下步骤:
S1,关联Seq2seq模型和联结时序分类模型,将语音或频谱分别传输至所述Seq2seq模型和联结时序分类模型;
S2,所述Seq2seq模型编码语音或频谱,提取高维特征,根据上下文向量、注意力向量以及输入标签来逐步解码,并输出发音单元;
S3,计算发音单元与输入标签的交叉熵损失值;
S4,所述联结时序分类模型根据语音或频谱以及所述Seq2seq模型传递的参数计算损失值;
S5,将Seq2seq模型的交叉熵损失值和联结时序模型的损失值按权重相加,得到总损失值,使用反向传播算法更新所述Seq2seq模型的参数。
5.根据权利要求4所述的新型多任务联合的语音识别训练方法,其特征在于:步骤S5中,总损失值ζMTL的计算公式为:
ζMTL=λζCTC+(1-λ)ζAttention
其中,λ为权重,取值范围为[0,1],ζCTC为联结时序分类模型的损失值,ζAttention为Seq2seq模型的交叉熵损失值。
6.根据权利要求5所述的新型多任务联合的语音识别训练方法,其特征在于:联结时序分类模型的损失值,其计算公式为:
ζCTC=-lnP(y*|x)
其中,x表示输入频谱或语音数值矩阵,y*表示标签序列的概率矩阵,P(y*|x)表示通过计算输入频谱或语音数值矩阵得到y*的条件概率,再通过负对数似然函数计算出联结时序分类模型的损失值。
8.根据权利要求5-7任一项所述的新型多任务联合的语音识别训练方法,其特征在于:所述λ=0.2。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911019755.5A CN110875035A (zh) | 2019-10-24 | 2019-10-24 | 新型多任务联合的语音识别训练架构和方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911019755.5A CN110875035A (zh) | 2019-10-24 | 2019-10-24 | 新型多任务联合的语音识别训练架构和方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110875035A true CN110875035A (zh) | 2020-03-10 |
Family
ID=69718091
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911019755.5A Pending CN110875035A (zh) | 2019-10-24 | 2019-10-24 | 新型多任务联合的语音识别训练架构和方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110875035A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111554275A (zh) * | 2020-05-15 | 2020-08-18 | 深圳前海微众银行股份有限公司 | 语音识别方法、装置、设备及计算机可读存储介质 |
CN111681646A (zh) * | 2020-07-17 | 2020-09-18 | 成都三零凯天通信实业有限公司 | 端到端架构的通用场景中文普通话语音识别方法 |
CN111680591A (zh) * | 2020-05-28 | 2020-09-18 | 天津大学 | 一种基于特征融合和注意力机制的发音反演方法 |
CN112349288A (zh) * | 2020-09-18 | 2021-02-09 | 昆明理工大学 | 基于拼音约束联合学习的汉语语音识别方法 |
CN112735467A (zh) * | 2020-12-28 | 2021-04-30 | 福州数据技术研究院有限公司 | 一种基于序列神经网络自动编码解码器的风叶声音边界定位方法和存储设备 |
CN112992129A (zh) * | 2021-03-08 | 2021-06-18 | 中国科学技术大学 | 语音识别任务中的保持注意力机制单调性方法 |
CN115527525A (zh) * | 2022-11-23 | 2022-12-27 | 广州小鹏汽车科技有限公司 | 语音识别模型生成方法、语音交互方法、车辆和存储介质 |
CN117711381A (zh) * | 2024-02-06 | 2024-03-15 | 北京边锋信息技术有限公司 | 音频识别方法、装置、系统和电子设备 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107408111A (zh) * | 2015-11-25 | 2017-11-28 | 百度(美国)有限责任公司 | 端对端语音识别 |
CN107832310A (zh) * | 2017-11-27 | 2018-03-23 | 首都师范大学 | 基于seq2seq模型的结构化论点生成方法及系统 |
CN108227565A (zh) * | 2017-12-12 | 2018-06-29 | 深圳和而泰数据资源与云技术有限公司 | 一种信息处理方法、终端及计算机可读介质 |
CN108630199A (zh) * | 2018-06-30 | 2018-10-09 | 中国人民解放军战略支援部队信息工程大学 | 一种声学模型的数据处理方法 |
CN109036384A (zh) * | 2018-09-06 | 2018-12-18 | 百度在线网络技术(北京)有限公司 | 语音识别方法和装置 |
CN109545190A (zh) * | 2018-12-29 | 2019-03-29 | 联动优势科技有限公司 | 一种基于关键词的语音识别方法 |
CN109582789A (zh) * | 2018-11-12 | 2019-04-05 | 北京大学 | 基于语义单元信息的文本多标签分类方法 |
CN110189748A (zh) * | 2019-05-31 | 2019-08-30 | 百度在线网络技术(北京)有限公司 | 模型构建方法和装置 |
CN110299132A (zh) * | 2019-06-26 | 2019-10-01 | 京东数字科技控股有限公司 | 一种语音数字识别方法和装置 |
-
2019
- 2019-10-24 CN CN201911019755.5A patent/CN110875035A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107408111A (zh) * | 2015-11-25 | 2017-11-28 | 百度(美国)有限责任公司 | 端对端语音识别 |
CN107832310A (zh) * | 2017-11-27 | 2018-03-23 | 首都师范大学 | 基于seq2seq模型的结构化论点生成方法及系统 |
CN108227565A (zh) * | 2017-12-12 | 2018-06-29 | 深圳和而泰数据资源与云技术有限公司 | 一种信息处理方法、终端及计算机可读介质 |
CN108630199A (zh) * | 2018-06-30 | 2018-10-09 | 中国人民解放军战略支援部队信息工程大学 | 一种声学模型的数据处理方法 |
CN109036384A (zh) * | 2018-09-06 | 2018-12-18 | 百度在线网络技术(北京)有限公司 | 语音识别方法和装置 |
CN109582789A (zh) * | 2018-11-12 | 2019-04-05 | 北京大学 | 基于语义单元信息的文本多标签分类方法 |
CN109545190A (zh) * | 2018-12-29 | 2019-03-29 | 联动优势科技有限公司 | 一种基于关键词的语音识别方法 |
CN110189748A (zh) * | 2019-05-31 | 2019-08-30 | 百度在线网络技术(北京)有限公司 | 模型构建方法和装置 |
CN110299132A (zh) * | 2019-06-26 | 2019-10-01 | 京东数字科技控股有限公司 | 一种语音数字识别方法和装置 |
Non-Patent Citations (2)
Title |
---|
SHINJI WATANABE ET AL.: "《Hybrid CTC/Attention Architecture for End-to-End Speech Recognition》", 《IEEE JOURNAL OF SELECTED TOPICS IN SIGNAL PROCESSING ( VOLUME: 11, ISSUE: 8, DEC. 2017)》 * |
杨鸿武等: "《基于改进混合CTC/attention架构的端到端普通话语音识别》", 《西北师范大学学报(自然科学版)》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111554275A (zh) * | 2020-05-15 | 2020-08-18 | 深圳前海微众银行股份有限公司 | 语音识别方法、装置、设备及计算机可读存储介质 |
CN111554275B (zh) * | 2020-05-15 | 2023-11-03 | 深圳前海微众银行股份有限公司 | 语音识别方法、装置、设备及计算机可读存储介质 |
CN111680591A (zh) * | 2020-05-28 | 2020-09-18 | 天津大学 | 一种基于特征融合和注意力机制的发音反演方法 |
CN111680591B (zh) * | 2020-05-28 | 2023-01-13 | 天津大学 | 一种基于特征融合和注意力机制的发音反演方法 |
CN111681646A (zh) * | 2020-07-17 | 2020-09-18 | 成都三零凯天通信实业有限公司 | 端到端架构的通用场景中文普通话语音识别方法 |
CN112349288A (zh) * | 2020-09-18 | 2021-02-09 | 昆明理工大学 | 基于拼音约束联合学习的汉语语音识别方法 |
CN112735467A (zh) * | 2020-12-28 | 2021-04-30 | 福州数据技术研究院有限公司 | 一种基于序列神经网络自动编码解码器的风叶声音边界定位方法和存储设备 |
CN112992129A (zh) * | 2021-03-08 | 2021-06-18 | 中国科学技术大学 | 语音识别任务中的保持注意力机制单调性方法 |
CN115527525A (zh) * | 2022-11-23 | 2022-12-27 | 广州小鹏汽车科技有限公司 | 语音识别模型生成方法、语音交互方法、车辆和存储介质 |
CN117711381A (zh) * | 2024-02-06 | 2024-03-15 | 北京边锋信息技术有限公司 | 音频识别方法、装置、系统和电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110875035A (zh) | 新型多任务联合的语音识别训练架构和方法 | |
CN107545903B (zh) | 一种基于深度学习的语音转换方法 | |
CN110164476B (zh) | 一种基于多输出特征融合的blstm的语音情感识别方法 | |
CN108170686B (zh) | 文本翻译方法及装置 | |
CN112735373B (zh) | 语音合成方法、装置、设备及存储介质 | |
CN108269568B (zh) | 一种基于ctc的声学模型训练方法 | |
CN109979429A (zh) | 一种tts的方法及系统 | |
CN112802448A (zh) | 一种新音色生成的语音合成方法和系统 | |
WO2018066436A1 (ja) | 音響モデルの学習装置及びそのためのコンピュータプログラム | |
CN105654939A (zh) | 一种基于音向量文本特征的语音合成方法 | |
CN113393832B (zh) | 一种基于全局情感编码的虚拟人动画合成方法及系统 | |
CN112420050B (zh) | 一种语音识别方法、装置和电子设备 | |
CN113450761B (zh) | 一种基于变分自编码器的并行语音合成方法和装置 | |
CN106782513A (zh) | 基于置信度的语音识别实现方法及系统 | |
CN112634918B (zh) | 一种基于声学后验概率的任意说话人语音转换系统及方法 | |
CN111009235A (zh) | 一种基于cldnn+ctc声学模型的语音识别方法 | |
CN108461080A (zh) | 一种基于hlstm模型的声学建模方法和装置 | |
CN112349288A (zh) | 基于拼音约束联合学习的汉语语音识别方法 | |
Deng et al. | Improving RNN-T for Domain Scaling Using Semi-Supervised Training with Neural TTS. | |
CN115905485A (zh) | 基于常识自适应选择的共情对话方法及系统 | |
Khursheed et al. | Tiny-crnn: Streaming wakeword detection in a low footprint setting | |
CN112908293B (zh) | 一种基于语义注意力机制的多音字发音纠错方法及装置 | |
WO2022227365A1 (zh) | 基于词库学习的饱和潜水氦语音解读方法 | |
CN112908317B (zh) | 一种针对认知障碍的语音识别系统 | |
CN113450760A (zh) | 一种文本转语音的方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200310 |