CN115273827A - 多口音语音识别的具有域对抗训练的自适应注意力方法 - Google Patents
多口音语音识别的具有域对抗训练的自适应注意力方法 Download PDFInfo
- Publication number
- CN115273827A CN115273827A CN202210729139.4A CN202210729139A CN115273827A CN 115273827 A CN115273827 A CN 115273827A CN 202210729139 A CN202210729139 A CN 202210729139A CN 115273827 A CN115273827 A CN 115273827A
- Authority
- CN
- China
- Prior art keywords
- accent
- training
- network
- speech recognition
- attention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 56
- 230000003044 adaptive effect Effects 0.000 title claims abstract description 31
- 238000000034 method Methods 0.000 title claims abstract description 30
- 230000006978 adaptation Effects 0.000 claims description 7
- 238000013459 approach Methods 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 claims description 2
- 238000013145 classification model Methods 0.000 claims description 2
- 238000005457 optimization Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 claims 2
- 230000008014 freezing Effects 0.000 claims 2
- 238000007710 freezing Methods 0.000 claims 2
- 206010002953 Aphonia Diseases 0.000 claims 1
- 238000004364 calculation method Methods 0.000 claims 1
- 239000000284 extract Substances 0.000 claims 1
- 230000007306 turnover Effects 0.000 claims 1
- 238000000605 extraction Methods 0.000 abstract description 7
- 230000006870 function Effects 0.000 description 6
- 238000012360 testing method Methods 0.000 description 5
- 238000011176 pooling Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000003042 antagnostic effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
Abstract
本发明公开多口音语音识别的具有域对抗训练的自适应注意力方法。首先建立基于Transformer的对抗端到端网络,使用细分类的领域对抗训练对模型进行预训练,使模型具有更好的口音鲁棒性,产生口音鲁棒的语音识别特征;通过外部口音分类网络提取每条语音的口音判别性特征;建立基于自注意力机制的自适应模块,加载用对抗训练预训练好的Transformer模型,将生成器生成的特征和使用口音分类网络提取的口音特征一同输入到自适应模块中进生成的自适应特征输入到解码器中,推理时加载口音特征提取网络、自适应模块和语音识别网络。本发明提高多口音语音识别性能。此外,所提出的方法对看不见的口音有很好的性能提升。
Description
技术领域
本发明涉及语音识别技术领域,具体为一种多口音语音识别的具有域对抗训练的自适应注意力方法,基于多层自注意力模型、对抗训练和自适应方法的语音识别算法。
背景技术
自动语音识别(ASR)旨在从语音中获取转录。在众多直播录制场景中取得了骄人的成绩。然而,现实世界中的语音可变性问题对ASR系统提出了严峻的挑战。口音是一个典型的语音变异问题,它是由地理区域、社会群体等引起的(参考文献[1])。不同口音的ASR之间的性能差距仍然很大,在一种口音或标准语音上训练的ASR系统在面对其他口音语音时会降级。因此,很难用有限的口音语音数据构建口音鲁棒系统。
以前的工作主要通过两种方式探索构建具有口音鲁棒性的ASR系统:引入口音相关信息和生成口音无关特征。引入口音相关信息的主要思想是使用口音相关信息,例如i-vectors、口音IDs或口音嵌入来管理多口音ASR系统,或以多任务方式使用它。一些口音自适应网络还引入了口音相关信息(参考文献[2])。这些架构旨在将口音信息合并到单个通用模型中,它们总是在看到的口音中取得更好的结果,而口音相关的自适应网络还可以减少训练数据和测试数据之间的不匹配。
为了生成与口音无关的特征,ASR系统通常使声学模型的输出包含尽可能少的口音信息。对抗性训练可以有效缓解口音不匹配问题。域对抗训练(DAT)是对抗训练的常用技术,它强制中间表示对于不同的口音语音是口音不变的。DAT已被证明可以提高多口音ASR模型的口音鲁棒性。域对抗训练(DAT)(参考文献[3])尝试从端到端(E2E)编码器(参考文献[4])的输出中去除口音信息。但对抗训练并不能使得生成器生成的特征完全不受口音的影响,对于一些口音所生成的特征还具有很高的口音判别性,这使得生成的用于语音识别的特征对口音不够鲁棒,影响多口音语音识别的准确率。参考文献如下:
[1]Koenecke,Allison,et al."Racial disparities in automated speechrecognition."Proceedings of the National Academy of Sciences 117.14(2020):7684-7689.
[2]Zhu,Han,et al."Multi-accent adaptation based on gate mechanism."arXiv preprint arXiv:2011.02774(2020).
[3]Ganin,Yaroslav,et al."Domain-adversarial training of neuralnetworks."The journal of machine learning research 17.1(2016):2096-2030.
[4]Vaswani,Ashish,et al."Attention is all you need."Advances inneural information processing systems 30(2017).
Kim,Suyoun,Takaaki Hori,and Shinji Watanabe."Joint CTC-attentionbased end-to-end speech recognition using multi-task learning."2017IEEEinternational conference on acoustics,speech and signal processing(ICASSP).IEEE,2017.
发明内容
本发明为了提高多口音语音识别的准确度,提出了具有域对抗训练的自适应注意力方法(AANet),使用域对抗训练并且进一步使用自适应方法,消除DAT中残留口音信息的影响。AANet采用DAT来初始化Transformer编码器。实验结果表明,AANet可以进一步减少DAT训练模型中的口音不匹配,可以提高许多口音的语音识别能力,尤其是提高看不见口音的性能。在AANet网络中,自适应注意力模块将编码器的输出转换为自适应特征并输入到Transformer模型的解码器中,而基于注意力的适配器通过口音分类器获取口音信息。
本发明的目的是通过以下技术方案实现的:多口音语音识别的具有域对抗训练的自适应注意力方法,包括如下步骤:
(一)基于Transformer模型的对抗训练模型:
领域对抗训练(DAT)已广泛应用于多种条件下的鲁棒ASR系统,例如扬声器、噪声、口音和语言。它旨在学习一个域不变的中间潜在特征空间(对于本发明的工作来说,为口音不变的特征)。
对抗训练策略可三个过程:优化口音分类器的参数,使其对训练数据的误差最小化;优化注意力编码器和解码器的参数以最小化ASR任务的损失;同时对生成器的参数进行了优化,以最小化ASR任务的损失并最大化口音分类器的损失。DAT网络通过在生成器(Transformer的编码器)和口音分类器(编码器后接的线性分类网络)之间应用梯度反转层,将三个训练过程嵌入到一个网络中。
(二)口音判别性特征的提取
口音提取器网络使用Transformer-CTC模型(参考文献[5])构建的,是一个基于自注意(SA)的多层编码器。本发明使用最后一个编码器的输出作为口音判别特征。对于口音分类,在最后一个编码器之后应用平均标准池化层以在T维度上池化输出,池化后,将其输入线性层以区分口音类并优化交叉熵损失。此外,使用ASR下游任务训练的编码器来初始化口音分类网络的编码器,以提高口音特征的口音判别性。
(三)自适应
所提出的带有DAT的自适应注意力方法(AANet)模型的架构基于E2E-DAT架构,具有口音判别性特征提取网络和新颖的自适应注意力模块。使用多头自注意力,并使用线性层作为位置编码层,这允许网络在特定口音嵌入的不同位置共同关注来自不同表示子空间的口音信息。
(四)训练流程
根据分析,DAT生成的特征仍然是口音判别信息。因此,本发明应用提出的自适应注意模块来进一步优化DAT训练的语音识别性能。所提出模型的架构如图1(d)所示。该模型由口音提取器网络、作为域不变特征生成器的编码器、作为域鉴别器的口音分类器、梯度反向层和ASR任务的解码器组成。
(1)对口音提取器进行预训练。它用于输出稳定的口音识别嵌入;
(2)冻结口音提取器的参数,通过DAT训练E2E ASR网络,直到E2E网络收敛。
判别器中口音分类的准确率不再下降,保持在一个较低的值。
(3)冻结口音鉴别器的参数,并应用基于注意力的方法来优化DAT预训练的ASR网络。
与现有技术相比,本发明具有的优点:
与现有技术相比,本发明提出了一种基于域对抗训练(DAT)的口音自适应器,进一步消除DAT中剩余口音信息的影响。
本发明使用DAT对Transformer编码器进行了预训练。然后,编码器输出和口音嵌入被输入到适配器以获得自适应特征。
本发明发现DAT对每种口音的处理方式不同;大多数编码器输出包含剩余的当前口音信息;一些编码器输出包含不正确的口音信息;而少数编码器输出包含丰富的口音信息或较少的口音信息。本发明所提出的方法在有限的数据集合上进行训练,不仅使用了对抗训练进行多口音语音识别的训练,使得模型具有鲁棒性,并且在对抗训练之后,使用基于自注意力的自适应机制,对域对抗训练后编码器中残留的口音进行自适应,从而进一步提高了多口音语音识别的准确性。
附图说明
图1为本发明所使用的所有网络架构:
(a)DAT架构的流程图;(b)提议的自适应注意力模块;(c)具有
E2E基线的自适应注意力;(d)提议的AANet;
图2为本发明在2020AESRC测试集合不同口音上的语音识别结果;
图3为本发明的口音特征提取起的分类精度;
图4为本发明训练集合不可见的口音被口音分类网络分类为可见的某种口音的概率;
图5为本发明中DAT模型(测试集)中第n个最大softmax值的口音分类精度,Sn代表第n个最大的softmax;
图6模型(测试集)中第n个最大softmax值的训练集不存在的口音精度,Sn代表第n个最大的softmax。
具体实施方式
以下结合附图和具体实施例对本发明作进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
(一)基于transfomer模型的对抗训练模型:
领域对抗训练(DAT)已广泛应用于多种条件下的鲁棒ASR系统,例如扬声器、噪声、口音和语言。它旨在学习一个域不变的中间潜在特征空间(对于本发明的工作来说,为口音不变的特征)。本发明的语音识别领域对抗框架在图1(a)中进行了说明,它由三个主要组件组成:口音不变特征f、生成器G、输入语音特征x和参数θf;口音分类网络C、输入口音判别性特征fa和参数θa,其中输入的口音判别性特征fa由注意力解码器产生的特征f输入到T维上的池化层中,产生的均值特征fmean和方差特征fstd得到:
fa=fmean+fstd
整个训练策略分为三个过程:优化口音分类器的参数,使其对训练数据的误差最小化;优化注意力编码器和解码器的参数以最小化ASR任务的损失;同时对生成器的参数进行了优化,以最小化ASR任务的损失并最大化口音分类器的损失。DAT网络通过在生成器和口音分类器之间应用梯度反转层,将三个训练过程嵌入到一个网络中。
整个流程的损失函数为:
E(θf,θy,θc)=LASR(θf,θy)-λLC(θf,θc))
其中θf,θy,θc,分别是生成器G,解码器D,口音分类器C的权重矩阵;LASR为Transformer模型的损失函数,Lc是口音分类模型的损失函数:
LASR=(1-γ)LATT+γLCTC
其中LATT为注意力的损失函数,LCTC为基于神经网络的时序类分类损失函数,γ为CTC损失函数的权重系数。
对抗训练的优化策略为:
梯度下降的规则为:
(二)口音判别性特征的提取
口音提取器网络是使用Transformer-CTC模型构建的,它是一个基于自注意力(SA)的多层编码器。本发明使用最后一个编码器的输出作为口音判别特征。对于口音分类,在最后一个编码器之后应用平均标准池化层以在T维度上池化输出,池化后,本发明将其输入线性层以区分口音类并优化交叉熵损失:
LE=CE(Linear(mean(va)+std(va)),vtrue)
其中Vtrue是样本的真实口音标签,va是输入的口音相关特征。
此外,本发明还使用ASR下游任务训练的编码器来初始化口音分类网络的编码器,以提高口音特征的口音判别性。
(三)自适应注意力
所提出的带有域对抗训练的自适应注意力方法(AANet)模型的架构基于Transformer-CTC和DAT架构,具有口音判别性特征提取网络和新颖的自适应注意模块。在本节中,本发明将详细描述每个模块并说明AANet的相应训练策略。
自适应注意力模块的架构如图1(b)和图1(c),分布描述了自适应注意力方法在简单的E2E网络中使用时的结构。自适应模块在下文中称为Aatt。将编码器输出表示为f,va是该样本的口音音嵌入,att表示注意力和位置层网络,其参数为θa。
整个适应过程描述为如下公式:
其中⊙表示元素级积,att(va,θa)表示注意力网络。
特别地,本发明使用多头自注意力,并使用线性层作为位置编码层,这允许网络在特定口音嵌入的不同位置共同关注来自不同表示子空间的口音信息。
(四)训练流程
根据分析,DAT生成的特征仍然是口音判别信息。因此,本发明应用提出的自适应注意力模块来进一步优化DAT训练的语音识别性能。所提出模型的架构如图1(d)所示。该模型由口音提取器网络、作为域不变特征生成器的编码器、作为域鉴别器的口音分类器、梯度反向层和ASR任务的解码器组成。
(1)对口音提取器进行预训练。它用于输出稳定的口音识别嵌入;
(2)冻结口音提取器的参数,通过DAT训练E2E ASR网络,直到E2E网络收敛。
判别器中口音分类的准确率不再下降,保持在一个较低的值;
(3)冻结口音鉴别器的参数,并应用基于注意力的方法来优化DAT预训练的ASR网络。
图2为本发明在2020AESRC测试集合不同口音上的语音识别结果;
图3为本发明的口音特征提取起的分类精度;
图4为本发明训练集合不可见的口音被口音分类网络分类为可见的某种口音的概率;
图5为本发明中DAT模型(测试集)中第n个最大softmax值的口音分类精度,Sn代表第n个最大的softmax;
图6模型(测试集)中第n个最大softmax值的训练集不存在的口音精度,Sn代表第n个最大的softmax。
Claims (4)
1.多口音语音识别的具有域对抗训练的自适应注意力方法,其特征在于,包括如下步骤
(1)训练基于Transformer的对抗训练语音识别网络:
首先使用对抗训练进行Transformer模型的预训练,领域对抗训练通过使用梯度翻转层,同时优化生成器和分类器,最小化语音识别和口音分类的损失,使得生成器和分类器优化目标对抗,促进生成器生成更有泛化性的特征;
(2)训练口音分类网络,提取口音判别性特征
训练基于Transformer的口音分类器,使用Transformer的编码器后接线性层计算交叉熵损失来进行口音分类,并把训练好的Transformer的编码器输出作为口音判别性特征,为达到更好的分类效果,该模型经过同数据集的语音识别预训练;
(3)使用自适应模块进行语音识别模型的口音自适应
使用DAT进行预训练后,Transformer编码器输出特征中仍具有一些口音的判别性,所构建的基于注意力的自适应模块,通过将输入的语音同时也输入到口音分类网络中,提取口音判别性特征,随后将判别性特征输入到自适应模块里,通过权重计算与主体网络的编码器输出特征融合以达到自适应的目的。
2.根据权利要求1所述的多口音语音识别的具有域对抗训练的自适应注意力方法,其特征在于,步骤(1)中,使用DAT预训练Transformer语音识别网络,DAT网络通过在生成器和口音分类器之间应用梯度反转层,将三个训练过程嵌入到一个网络中,同时最小化ASR任务的损失并最大化口音分类器的损失。
3.根据权利要求1所述的多口音语音识别的具有域对抗训练的自适应注意力方法,其特征在于,步骤(2)中,使用语音识别预训练Transformer,并使用此Transformer的编码器后接线性层计算交叉熵损失来进行口音分类,用编码器的特征作为口音判别性特征。
4.根据权利要求1所述的多口音语音识别的具有域对抗训练的自适应注意力方法,其特征在于,步骤(3)中,具体步骤如下:
(1)对口音提取器进行预训练,用于输出稳定的用于口音判别性特征;
(2)冻结口音提取器的参数,通过DAT训练端到端的ASR网络,直到E2E网络收敛,判别器中口音分类的准确率不再下降,保持在一个较低的值;
DAT整个流程的损失函数为:E(θf,θy,θc)=LASR(θf,θy)-λLC(θf,θc))
其中:θf,θy,θc,分别是生成器G,解码器D,口音分类器C的权重矩阵;
LASR为Transformer模型的损失函数,Lc是口音分类模型的损失函数:
LASR=(1-γ)LATT+γLCTC
其中:LATT为注意力的损失函数,LCTC为基于神经网络的时序类分类损失函数,γ为CTC损失函数的权重系数;
(3)冻结口音鉴别器的参数,并应用基于注意力的方法来优化DAT预训练的语音识别模型的识别效果,整个适应过程描述为如下公式:
其中:⊙表示元素级积,att(va,θa)表示注意力网络;
使用多头自注意力,并使用线性层作为位置编码层,这允许网络在特定口音嵌入的不同位置共同关注来自不同表示子空间的口音信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210729139.4A CN115273827A (zh) | 2022-06-24 | 2022-06-24 | 多口音语音识别的具有域对抗训练的自适应注意力方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210729139.4A CN115273827A (zh) | 2022-06-24 | 2022-06-24 | 多口音语音识别的具有域对抗训练的自适应注意力方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115273827A true CN115273827A (zh) | 2022-11-01 |
Family
ID=83761295
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210729139.4A Pending CN115273827A (zh) | 2022-06-24 | 2022-06-24 | 多口音语音识别的具有域对抗训练的自适应注意力方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115273827A (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160284344A1 (en) * | 2013-12-19 | 2016-09-29 | Baidu Online Network Technology (Beijing) Co., Ltd. | Speech data recognition method, apparatus, and server for distinguishing regional accent |
US20190325861A1 (en) * | 2018-04-18 | 2019-10-24 | Maneesh Kumar Singh | Systems and Methods for Automatic Speech Recognition Using Domain Adaptation Techniques |
US20200160836A1 (en) * | 2018-11-21 | 2020-05-21 | Google Llc | Multi-dialect and multilingual speech recognition |
US20200380952A1 (en) * | 2019-05-31 | 2020-12-03 | Google Llc | Multilingual speech synthesis and cross-language voice cloning |
CN112992119A (zh) * | 2021-01-14 | 2021-06-18 | 安徽大学 | 基于深度神经网络的口音分类方法及其模型 |
WO2021183229A1 (en) * | 2020-03-13 | 2021-09-16 | Microsoft Technology Licensing, Llc | Cross-speaker style transfer speech synthesis |
WO2022008739A1 (en) * | 2020-07-10 | 2022-01-13 | Novoic Ltd. | Speech analysis for monitoring or diagnosis of a health condition |
US11315548B1 (en) * | 2021-03-31 | 2022-04-26 | Chief Chief Technologies Oy | Method and system for performing domain adaptation of end-to-end automatic speech recognition model |
-
2022
- 2022-06-24 CN CN202210729139.4A patent/CN115273827A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160284344A1 (en) * | 2013-12-19 | 2016-09-29 | Baidu Online Network Technology (Beijing) Co., Ltd. | Speech data recognition method, apparatus, and server for distinguishing regional accent |
US20190325861A1 (en) * | 2018-04-18 | 2019-10-24 | Maneesh Kumar Singh | Systems and Methods for Automatic Speech Recognition Using Domain Adaptation Techniques |
US20200160836A1 (en) * | 2018-11-21 | 2020-05-21 | Google Llc | Multi-dialect and multilingual speech recognition |
US20200380952A1 (en) * | 2019-05-31 | 2020-12-03 | Google Llc | Multilingual speech synthesis and cross-language voice cloning |
WO2021183229A1 (en) * | 2020-03-13 | 2021-09-16 | Microsoft Technology Licensing, Llc | Cross-speaker style transfer speech synthesis |
WO2022008739A1 (en) * | 2020-07-10 | 2022-01-13 | Novoic Ltd. | Speech analysis for monitoring or diagnosis of a health condition |
CN112992119A (zh) * | 2021-01-14 | 2021-06-18 | 安徽大学 | 基于深度神经网络的口音分类方法及其模型 |
US11315548B1 (en) * | 2021-03-31 | 2022-04-26 | Chief Chief Technologies Oy | Method and system for performing domain adaptation of end-to-end automatic speech recognition model |
Non-Patent Citations (3)
Title |
---|
CHEN, YI-CHEN ET, AL.: "《AIPNET: GENERATIVE ADVERSARIAL PRE-TRAINING OF ACCENT-INVARIANT NETWORKS FOR END-TO-END SPEECH RECOGNITION》", 《 2020 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING》, 2 March 2021 (2021-03-02), pages 6979 - 6983 * |
SUN, SINING ET, AL.: "《DOMAIN ADVERSARIAL TRAINING FOR ACCENTED SPEECH RECOGNITION》", 《2018 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP)》, 25 October 2018 (2018-10-25), pages 4854 - 4858 * |
任劲安: "《面向方言口音对话系统的多任务语音识别算法研究及应用》", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 04, 15 April 2022 (2022-04-15), pages 136 - 278 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109326302B (zh) | 一种基于声纹比对和生成对抗网络的语音增强方法 | |
CN110491416B (zh) | 一种基于lstm和sae的电话语音情感分析与识别方法 | |
CN109559736B (zh) | 一种基于对抗网络的电影演员自动配音方法 | |
KR100908121B1 (ko) | 음성 특징 벡터 변환 방법 및 장치 | |
Kumatani et al. | Direct modeling of raw audio with dnns for wake word detection | |
Cai et al. | Within-sample variability-invariant loss for robust speaker recognition under noisy environments | |
CN112331216A (zh) | 基于复合声学特征和低秩分解tdnn的说话人识别系统及方法 | |
CN110211594B (zh) | 一种基于孪生网络模型和knn算法的说话人识别方法 | |
CN1302427A (zh) | 用于说话者认证的模型自适应系统和方法 | |
CN111429935B (zh) | 一种语音话者分离方法和装置 | |
CN113763965A (zh) | 一种多重注意力特征融合的说话人识别方法 | |
CN116092501A (zh) | 语音增强方法、语音识别方法、说话人识别方法和系统 | |
Park et al. | The Second DIHARD Challenge: System Description for USC-SAIL Team. | |
Tan et al. | Denoised senone i-vectors for robust speaker verification | |
CN117310668A (zh) | 融合注意力机制与深度残差收缩网络的水声目标识别方法 | |
CN116580708A (zh) | 一种智能语音处理方法和系统 | |
CN115273827A (zh) | 多口音语音识别的具有域对抗训练的自适应注意力方法 | |
Fukuda et al. | Generalized knowledge distillation from an ensemble of specialized teachers leveraging unsupervised neural clustering | |
CN110807370B (zh) | 一种基于多模态的会议发言人身份无感确认方法 | |
Łopatka et al. | State sequence pooling training of acoustic models for keyword spotting | |
Bhavani et al. | A survey on various speech emotion recognition techniques | |
Moonasar et al. | A committee of neural networks for automatic speaker recognition (ASR) systems | |
Nichie et al. | Voice recognition using artificial neural networks and Gaussian mixture models | |
Xu et al. | Improve Data Utilization with Two-stage Learning in CNN-LSTM-based Voice Activity Detection | |
Abd El-Moneim et al. | Effect of reverberation phenomena on text-independent speaker recognition based deep learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |