CN114944148B - 融合外部语言知识的流式越南语语音识别方法 - Google Patents
融合外部语言知识的流式越南语语音识别方法 Download PDFInfo
- Publication number
- CN114944148B CN114944148B CN202210803414.2A CN202210803414A CN114944148B CN 114944148 B CN114944148 B CN 114944148B CN 202210803414 A CN202210803414 A CN 202210803414A CN 114944148 B CN114944148 B CN 114944148B
- Authority
- CN
- China
- Prior art keywords
- vietnam
- model
- language
- streaming
- loss function
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 238000012549 training Methods 0.000 claims abstract description 43
- 230000006870 function Effects 0.000 claims abstract description 40
- 230000004927 fusion Effects 0.000 claims description 38
- 238000004364 calculation method Methods 0.000 claims description 6
- 230000009193 crawling Effects 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims 1
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000002474 experimental method Methods 0.000 description 11
- 230000000694 effects Effects 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000007500 overflow downdraw method Methods 0.000 description 3
- 238000009499 grossing Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 238000010438 heat treatment Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
Abstract
本发明提出融合外部语言知识的流式越南语语音识别方法,属人工智能领域。越南语为低资源语言,训练语料难以获取;流式端到端模型在训练过程中难以学习到外部大量文本中的语言知识,这些问题限制了流式越南语语音识别模型的性能。本发明以越南语音节作为语言模型和流式越南语语音识别模型的建模单元,在训练阶段,通过预训练越南语语言模型和语音识别模型解码器的输出计算一个新的损失函数,帮助流式越南语语音识别模型学习一些越南语语言知识从而优化其模型参数。在越南语数据集上,在训练阶段融合语言模型能将流式越南语语音识别模型的词错率提升2.45%。在解码阶段再次融合语言模型,还能将模型词错率分别提升1.35%和4.75%。
Description
技术领域
本发明涉及人工智能领域,提出了融合外部语言知识的流式越南语语音识别方法。
背景技术
近年来,虽然端到端语音识别受到了广泛关注,但目前针对越南语语音识别研究还比较少。Nguyen等人构建了500小时的越南语数据集并使用TDNN和BLSTM神经网络构建声学模型,在解码阶段融合了4元语言模型。为了提升模型性能,它将4元语言模型替换为RNN语言模型,在3小时测试集数据上进行测试,词错率达到6.9%。Nguyen和Huy使用CTC损失函数将TDNN和BLSTM模型结合一起联合训练越南语语音识别模型,在FPT测试数据集上,词错率达到14.41%。刘佳文提出了一种基于Transformer模型的越南语语音识模型,在VIVOS数据集上,字符错率达到40.4%。ESPNET基于不同的Transducer模型在VIVOS数据集上做了不同实验,RNN-T词错率达到36.6%,Conformer/RNN-T词错率达到26%。为了提升模型识别率,这些模型都在解码阶段融合了语言模型,但在解码阶段融合语言模型只能影响模型的识别结果,并不能利用语言模型来优化语音识别模型的参数。因此,本发明在流式越南语语音识别模型的训练阶段和解码阶段都融合了语言模型。在训练阶段融合语言模型可以帮助流式语音识别模型学习一些越南语语言知识优化其模型参数。
发明内容
本发明提供了一种融合外部语言知识的流式越南语语音识别方法,首次在训练阶段将越南语语言模型融合到流式越南语语音识别模型中,提升了流式越南语语音识别模型的识别率。
本发明的技术方案是:融合外部语言知识的流式越南语语音识别方法,所述方法的具体步骤如下:
Step1、收集越南语单语文本作为语言模型的训练预料;
Step2、使用收集的越南语文本语料预训练transformer语言模型;
Step3、将预训练transformer语言模型在训练阶段融合到流式Hybrid CTC/Attention语音识别模型中。
作为本发明的进一步方案,所述Step1的具体步骤为:
Step1.1、使用爬虫爬取不同网站和领域的越南语单语文本,由于每个网站使用的文本编码格式不同,统一全部文本语料使用utf-8编码;
Step1.2、去除越南语单语文本中的乱码、数字;
Step1.3、根据训练要求切分越南语单语本段落,适应语言模型的训练。
作为本发明的进一步方案,所述Step2中使用Transformer-xl作为越南语语言模型,解决越南语音节长期依赖和位置编码丢失的问题,从而使越南语语言模型更好地表征越南语语言知识,在融合过程中能让语音识别模型从越南语语言模型学习到越南语语言知识,从而提升语音识别模型的识别率。
作为本发明的进一步方案,所述Step3的具体步骤为:
Step3.1、将越南语语言模型输出的PLM作为真实分布,Transformer解码器输出的PAED作为理论数据分布,使用KL散度来计算Transformer解码器与越南语Transformer-xl语言模型的融合损失函数;实现原理如下:
令LAED-LM损失函数等于DKL(PLM||PAED)并使其最小化;
Step3.2、在融合过后,引入了一个语言模型融合超参数α(0≤α<1),用来调节Transformer解码器LAED损失函数和LAED-LM损失函数;使联合损失函数为LJoint,其计算过程如下:
LJoint=(1-α)LAED+αLAED-LM
Step3.3、训练的联合损失函数与传统Hybrid CTC/Attention模型损失函数类似,不同的是将Attention损失函数修改为Transformer解码器融合了越南语语言模型的损失函数,其计算过程如下所示:
Loss=λLCTC+(1-λ)LJoint
其中λ(0≤λ<1)参数表示CTC权重参数;LCTC表示Hybrid CTC/Attention模型CTC解码器的损失函数;
Step3.4、流式越南语语音识别模型最后使用Loss损失函数来训练;这种训练方式能让融合损失函数LAED-LM在训练阶段同时优化CTC解码器和Transformer解码器的参数,帮助CTC和Transformer解码器联合学习到越南语语言知识从而提升流式越南语语音识别模型的识别率。
作为本发明的进一步方案,还包括步骤Step4、用训练好的模型进行语言识别时,在解码阶段使用Shallow Fusion或WFST再次融合预训练好的语言模型进行语言识别。
本发明的有益效果是:本发明以越南语音节作为语言模型和流式越南语语音识别模型的建模单元,在训练阶段,通过预训练越南语语言模型和语音识别模型解码器的输出计算一个新的损失函数,帮助流式越南语语音识别模型学习一些越南语语言知识从而优化其模型参数。在越南语VIVOS数据集上,在训练阶段融合语言模型可以将流式越南语语音识别模型的词错率提升2.45%。在解码阶段使用Shallow Fusion或WFST再次融合语言模型,还可以将模型词错率分别提升1.35%和4.75%。
附图说明
图1为本发明中的融合外部语言知识的流式越南语语音识别方法架构图;
图2为本发明中的越南语语言模型和Transformer解码器的输出概率分布。
具体实施方式
实施例1:如图1-图2所示,融合外部语言知识的流式越南语语音识别方法,所述方法的具体步骤如下:
Step1、收集越南语单语文本作为语言模型的训练预料;
Step2、使用收集的越南语文本语料预训练transformer语言模型;
Step3、将预训练transformer语言模型在训练阶段融合到流式Hybrid CTC/Attention语音识别模型中。
作为本发明的进一步方案,所述Step1的具体步骤为:
Step1.1、使用爬虫爬取不同网站和领域的越南语单语文本,由于每个网站使用的文本编码格式不同,统一全部文本语料使用utf-8编码;
Step1.2、去除越南语单语文本中的乱码、数字;
Step1.3、根据训练要求切分越南语单语本段落,适应语言模型的训练。
作为本发明的进一步方案,所述Step2中使用Transformer-xl作为越南语语言模型。
作为本发明的进一步方案,所述Step3的具体步骤为:
Step3.1、将越南语语言模型输出的PLM作为真实分布,Transformer解码器输出的PAED作为理论数据分布,如图2所示,使用KL散度来计算Transformer解码器与越南语Transformer-xl语言模型的融合损失函数;实现原理如下:
令LAED-LM损失函数等于DKL(PLM||PAED)并使其最小化;
Step3.2、在融合过后,引入了一个语言模型融合超参数α(0≤α<1),用来调节Transformer解码器LAED损失函数和LAED-LM损失函数;使联合损失函数为LJoint,其计算过程如下:
LJoint=(1-α)LAED+αLAED-
Step3.3、训练的联合损失函数与传统Hybrid CTC/Attention模型损失函数类似,不同的是将Attention损失函数修改为Transformer解码器融合了越南语语言模型的损失函数,其计算过程如下所示:
Loss=λLCTC+(1-λ)LJoint
其中λ(0≤λ<1)参数表示CTC权重参数;LCTC表示Hybrid CTC/Attention模型CTC解码器的损失函数;
Step3.4、流式越南语语音识别模型最后使用Loss损失函数来训练;这种训练方式能让融合损失函数LAED-LM在训练阶段同时优化CTC解码器和Transformer解码器的参数,帮助CTC和Transformer解码器联合学习到越南语语言知识从而提升流式越南语语音识别模型的识别率。
作为本发明的进一步方案,还包括步骤Step4、用训练好的模型进行语言识别时,在解码阶段使用Shallow Fusion或WFST再次融合预训练好的语言模型进行语言识别。
为了说明本发明的效果,本发明进行了如下实验:实验在开源越南语数据集VIVOS上进行。使用Adam优化器,学习率设置为0.002,学习率预热设置为25000步;使用标签平滑技术来计算损失函数,标签平滑率设置为0.1。通过调整CTC权重超参数λ和融合语言模型权重参数α来控制越南语语言模型对流式越南语语音识别模型的影响。所有实验均在一张NVIDIA Tesla T4上完成训练。
实验一:为了验证本发明提出的方法对流式越南语语音识别模型性能有提升,本发明将流式越南语语音识别模型的CTC超参数λ和语言模型融合超参数α分别设置为不同的值,对比在训练阶段融合语言模型前后和不同超参数对流式端到端越南语语音识别模型性能的影响,实验结果见表1和表2。
表1:当CTC权重为0.3时,融合语言模型权重参数α对流式越南语语音识别模型的影响
表2:当CTC权重为0.5时,融合语言模型权重参数α对流式越南语语音识别模型的影响
实验结果数据显示,当CTC权重参数设置为0.3时,在不融合语言模型(融合语言模型权重参数α为0)的情况下,流式越南语语音识别模型词错率为31.03%(baseline)。当以0.3的权重融合语言模型时,性能有明显提升,词错率达到了28.58%。但当语言模型融合权重设置为0.5时,性能相比基线模型有一定下降。当语言模型融合权重设置为0.7时,性能相比基线模型又有一定提升,达到29.15%。当CTC权重参数设置为0.5时,在不融合语言模型的情况下,流式越南语语音识别模型词错率为30.30%(baseline)。当语言模型融合权重参数分别设置为0.3/0.5/0.7时,流式越南语语音识别模型的识别性能相比基线模型都有所提升,但语言模型融合权重参数对流式越南语语音识别模型的识别词错率影响不怎么明显,词错率保持在29%左右。
当CTC权重参数为0.3,语言模型融合权重参数为0.5时,性能相比基线模型有一定下降。主要是因为当语言模型融合权重设置为0.5时,解码器和语言模型的输出比重相同,语音识别模型不能抉择解码器和越南语语言模型输出的重要性,从而导致模型混乱,识别性能下降。但是当语言模型融合权重设置为其他值时,性能相比基线模型都有一定提升。这说明了流式越南语语音识别模型可以从越南语语言模型中学习到越南语语言知识从而优化其模型参数,达到识别性能提升的效果。
实验二:为了验证融合越南语语言模型对流式越南语语音识别模型识别结果的影响,本次实验将CTC权重参数设置为0.3,语言模型融合权重参数分别设置为0/0.3,针对一个句子进行识别结果分析,实验结果见表3。
表3:融合语言模型对流式越南语语音识别结果的影响
实验结果表明,融合了语言模型的流式越南语语音识别模型识别结果完全正确,而未融合语言模型的流式越南语语音识别模型识别词错率为18.18%。
未融合语言模型的流式越南语语音识别模型识别错了两个音节和là,主要原因是/>和/>là和/>音节的发音非常相似,提取出来的语音特征也非常接近,从而导致语音识别模型不能辨别。而融合了越南语语言模型的流式越南语语音识别模型可以学习到和/>可以组成一个词,而/>和/>là不能组成词,从而/>和/>的输出概率高于/>和/>là,因此流式越南语语音识别模型选择/> 和/>输出。
实验结果表明,在训练阶段融合语言模型确实可以纠正一些流式越南语语音识别模型将越南语音节识别错误的情况。
实验三:为了验证二次融合语言模型对流式越南语语音识别模型识别率的影响。本发明在解码阶段使用Shallow Fusion和WFST方法分别对Transformer-xl语言模型和3元语言模型进行融合。实验结果如表4和表5所示。
表4:使用Shallow Fusion融合方法对流式越南语模型性能的影响
表5:使用WFST融合方法对流式越南语模型性能的影响
实验数据结果显示,在训练阶段融合语言模型后,在解码阶段使用ShallowFusion方法再次融合Transformer语言模型还可以将模型的识别率提升1.35%;在训练阶段融合语言模型后,在解码阶段使用WFST融合3元语言模型,性能达到最佳23.83%,其识别率相对于基线模型使用WFST提升了0.49%。
虽然使用Shallow Fusion或WFST方法进行解码,模型识别率会有所差距,但实验数据结果显示,在训练阶段融合语言模型后,在解码阶段再次融合语言模型确实可以进一步提升流式越南语语音识别模型的识别率。同时,在训练阶段和解码阶段都融合语言模型,模型的识别率要明显高于在解码阶段单独融合语言模型的识别率。
实验四:对比实验。本次实验对比了本发明使用的流式模型和ESPNET使用RNN-T、Conformer/RNN-T模型在VIVOS测试数据集上的结果。实验结果如表6所示。
表6:和其他模型识别效果对比
实验结果数据显示,本发明使用的流式模型词错率达到23.83%,RNN-T和Conformer/RNN-T模型的词错率分别为36.6%和26.0%。
本发明在训练阶段融合语言模型后,再使用WFST在解码阶段融合3元语言模型的识别率达到最佳。其主要原因是本发明同时在训练阶段和解码阶段都融合了语言模型。在训练阶段融合语言模型可以优化模型的参数;在解码阶段融合语言模型可以纠正语音识别模型识别结果。而ESPNET仅在解码阶段融合了语言模型,只影响了语音识别模型的识别结果,并不能优化模型的参数。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (2)
1.融合外部语言知识的流式越南语语音识别方法,其特征在于:所述方法的具体步骤如下:
Step1、收集越南语单语文本作为语言模型的训练语料;
Step2、使用收集的越南语文本语料预训练transformer语言模型;
Step3、将预训练transformer语言模型在训练阶段融合到流式Hybrid CTC/Attention语音识别模型中;
所述Step1的具体步骤为:
Step1.1、使用爬虫爬取不同网站和领域的越南语单语文本,由于每个网站使用的文本编码格式不同,统一全部文本语料使用utf-8编码;
Step1.2、去除越南语单语文本中的乱码、数字;
Step1.3、根据训练要求切分越南语单语本段落,适应语言模型的训练;
所述Step2中使用Transformer-xl作为越南语语言模型;
所述Step3的具体步骤为:
Step3.1、将越南语语言模型输出的PLM作为真实分布,Transformer解码器输出的PAED作为理论数据分布,使用KL散度来计算Transformer解码器与越南语Transformer-xl语言模型的融合损失函数;实现原理如下:
令LAED-LM损失函数等于DKL(PLM||PAED)并使其最小化;
Step3.2、在融合过后,引入了一个语言模型融合超参数α(0≤α<1),用来调节Transformer解码器LAED损失函数和LAED-LM损失函数;使联合损失函数为LJoint,其计算过程如下:
LJoint=(1-α)LAED+αLAED-LM
Step3.3、训练的联合损失函数是将传统Hybrid CTC/Attention模型损失函数中的Attention损失函数修改为Transformer解码器融合了越南语语言模型的损失函数,其计算过程如下所示:
Loss=λLCTC+(1-λ)LJoint
其中λ(0≤λ<1)参数表示CTC权重参数;LCTC表示Hybrid CTC/Attention模型CTC解码器的损失函数;
Step3.4、流式越南语语音识别模型最后使用Loss损失函数来训练;这种训练方式能让融合损失函数LAED-LM在训练阶段同时优化CTC解码器和Transformer解码器的参数,帮助CTC和Transformer解码器联合学习到越南语语言知识从而提升流式越南语语音识别模型的识别率。
2.根据权利要求1所述的融合外部语言知识的流式越南语语音识别方法,其特征在于:还包括步骤Step4、用训练好的模型进行语言识别时,在解码阶段使用Shallow Fusion或WFST再次融合预训练好的语言模型进行语言识别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210803414.2A CN114944148B (zh) | 2022-07-09 | 2022-07-09 | 融合外部语言知识的流式越南语语音识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210803414.2A CN114944148B (zh) | 2022-07-09 | 2022-07-09 | 融合外部语言知识的流式越南语语音识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114944148A CN114944148A (zh) | 2022-08-26 |
CN114944148B true CN114944148B (zh) | 2023-08-22 |
Family
ID=82911501
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210803414.2A Active CN114944148B (zh) | 2022-07-09 | 2022-07-09 | 融合外部语言知识的流式越南语语音识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114944148B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109346064A (zh) * | 2018-12-13 | 2019-02-15 | 苏州思必驰信息科技有限公司 | 用于端到端语音识别模型的训练方法及系统 |
CN109949796A (zh) * | 2019-02-28 | 2019-06-28 | 天津大学 | 一种基于藏文部件的端到端架构拉萨方言语音识别方法 |
CN110929013A (zh) * | 2019-12-04 | 2020-03-27 | 成都中科云集信息技术有限公司 | 一种基于bottom-up attention和定位信息融合的图片问答实现方法 |
CN111415667A (zh) * | 2020-03-25 | 2020-07-14 | 极限元(杭州)智能科技股份有限公司 | 一种流式端到端语音识别模型训练和解码方法 |
CN111899727A (zh) * | 2020-07-15 | 2020-11-06 | 苏州思必驰信息科技有限公司 | 用于多说话人的语音识别模型的训练方法及系统 |
CN112420024A (zh) * | 2020-10-23 | 2021-02-26 | 四川大学 | 一种全端到端的中英文混合空管语音识别方法及装置 |
CN113516968A (zh) * | 2021-06-07 | 2021-10-19 | 北京邮电大学 | 一种端到端长时语音识别方法 |
CN114023316A (zh) * | 2021-11-04 | 2022-02-08 | 匀熵科技(无锡)有限公司 | 基于TCN-Transformer-CTC的端到端中文语音识别方法 |
CN114596843A (zh) * | 2022-03-11 | 2022-06-07 | 华南理工大学 | 一种基于端到端语音识别模型和语言模型的融合方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020231522A1 (en) * | 2019-05-10 | 2020-11-19 | Google Llc | Using context information with end-to-end models for speech recognition |
-
2022
- 2022-07-09 CN CN202210803414.2A patent/CN114944148B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109346064A (zh) * | 2018-12-13 | 2019-02-15 | 苏州思必驰信息科技有限公司 | 用于端到端语音识别模型的训练方法及系统 |
CN109949796A (zh) * | 2019-02-28 | 2019-06-28 | 天津大学 | 一种基于藏文部件的端到端架构拉萨方言语音识别方法 |
CN110929013A (zh) * | 2019-12-04 | 2020-03-27 | 成都中科云集信息技术有限公司 | 一种基于bottom-up attention和定位信息融合的图片问答实现方法 |
CN111415667A (zh) * | 2020-03-25 | 2020-07-14 | 极限元(杭州)智能科技股份有限公司 | 一种流式端到端语音识别模型训练和解码方法 |
CN111899727A (zh) * | 2020-07-15 | 2020-11-06 | 苏州思必驰信息科技有限公司 | 用于多说话人的语音识别模型的训练方法及系统 |
CN112420024A (zh) * | 2020-10-23 | 2021-02-26 | 四川大学 | 一种全端到端的中英文混合空管语音识别方法及装置 |
CN113516968A (zh) * | 2021-06-07 | 2021-10-19 | 北京邮电大学 | 一种端到端长时语音识别方法 |
CN114023316A (zh) * | 2021-11-04 | 2022-02-08 | 匀熵科技(无锡)有限公司 | 基于TCN-Transformer-CTC的端到端中文语音识别方法 |
CN114596843A (zh) * | 2022-03-11 | 2022-06-07 | 华南理工大学 | 一种基于端到端语音识别模型和语言模型的融合方法 |
Non-Patent Citations (1)
Title |
---|
Improving Hybrid CTC/Attention End-to-End Speech Recognition with Pretrained Acoustic and Language Models;Keqi Deng;2021 IEEE Automattic Speech Recognition and Understanding Workshop;第2021卷;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114944148A (zh) | 2022-08-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Park et al. | Improved noisy student training for automatic speech recognition | |
CN109948152B (zh) | 一种基于lstm的中文文本语法纠错模型方法 | |
CN110334361B (zh) | 一种面向小语种语言的神经机器翻译方法 | |
CN110472238B (zh) | 基于层级交互注意力的文本摘要方法 | |
Shi et al. | Context-aware goodness of pronunciation for computer-assisted pronunciation training | |
Kano et al. | Transformer-based direct speech-to-speech translation with transcoder | |
CN113516968B (zh) | 一种端到端长时语音识别方法 | |
CN113327595B (zh) | 发音偏误检测方法、装置及存储介质 | |
Bahar et al. | Tight integrated end-to-end training for cascaded speech translation | |
CN105845130A (zh) | 用于语音识别的声学模型训练方法及装置 | |
CN115114940A (zh) | 一种基于课程化预训练的机器翻译风格的迁移方法和系统 | |
CN114944150A (zh) | 一种基于双任务的Conformer陆空通话声学模型构建方法 | |
CN114944148B (zh) | 融合外部语言知识的流式越南语语音识别方法 | |
CN113591460A (zh) | 一种基于迭代知识迁移的机器翻译风格迁移性能提升方法 | |
Ashihara et al. | SpeechGLUE: How well can self-supervised speech models capture linguistic knowledge? | |
Huang et al. | Multilingual and Fully Non-Autoregressive ASR with Large Language Model Fusion: A Comprehensive Study | |
Mounika et al. | Automatic Correction of Speech Recognized Mathematical Equations using Encoder-Decoder Attention Model | |
CN113257221B (zh) | 一种基于前端设计的语音模型训练方法及语音合成方法 | |
CN112989845B (zh) | 一种基于路由算法的篇章级神经机器翻译方法及系统 | |
Haidar et al. | Transformer-based ASR incorporating time-reduction layer and fine-tuning with self-knowledge distillation | |
Qiu | Construction of English Speech Recognition Model by Fusing CNN and Random Deep Factorization TDNN | |
CN112380882A (zh) | 一种具有误差修正功能的蒙汉神经机器翻译方法 | |
Wang et al. | VADOI: Voice-activity-detection overlapping inference for end-to-end long-form speech recognition | |
Xu et al. | Donggan speech recognition based on deep neural network | |
Boakye-Yiadom et al. | Research of Automatic Speech Recognition of Asante-Twi Dialect For Translation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |