CN115273827A - 多口音语音识别的具有域对抗训练的自适应注意力方法 - Google Patents

多口音语音识别的具有域对抗训练的自适应注意力方法 Download PDF

Info

Publication number
CN115273827A
CN115273827A CN202210729139.4A CN202210729139A CN115273827A CN 115273827 A CN115273827 A CN 115273827A CN 202210729139 A CN202210729139 A CN 202210729139A CN 115273827 A CN115273827 A CN 115273827A
Authority
CN
China
Prior art keywords
accent
training
network
speech recognition
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210729139.4A
Other languages
English (en)
Inventor
杨颜冰
王龙标
侯庆志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202210729139.4A priority Critical patent/CN115273827A/zh
Publication of CN115273827A publication Critical patent/CN115273827A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Abstract

本发明公开多口音语音识别的具有域对抗训练的自适应注意力方法。首先建立基于Transformer的对抗端到端网络,使用细分类的领域对抗训练对模型进行预训练,使模型具有更好的口音鲁棒性,产生口音鲁棒的语音识别特征;通过外部口音分类网络提取每条语音的口音判别性特征;建立基于自注意力机制的自适应模块,加载用对抗训练预训练好的Transformer模型,将生成器生成的特征和使用口音分类网络提取的口音特征一同输入到自适应模块中进生成的自适应特征输入到解码器中,推理时加载口音特征提取网络、自适应模块和语音识别网络。本发明提高多口音语音识别性能。此外,所提出的方法对看不见的口音有很好的性能提升。

Description

多口音语音识别的具有域对抗训练的自适应注意力方法
技术领域
本发明涉及语音识别技术领域,具体为一种多口音语音识别的具有域对抗训练的自适应注意力方法,基于多层自注意力模型、对抗训练和自适应方法的语音识别算法。
背景技术
自动语音识别(ASR)旨在从语音中获取转录。在众多直播录制场景中取得了骄人的成绩。然而,现实世界中的语音可变性问题对ASR系统提出了严峻的挑战。口音是一个典型的语音变异问题,它是由地理区域、社会群体等引起的(参考文献[1])。不同口音的ASR之间的性能差距仍然很大,在一种口音或标准语音上训练的ASR系统在面对其他口音语音时会降级。因此,很难用有限的口音语音数据构建口音鲁棒系统。
以前的工作主要通过两种方式探索构建具有口音鲁棒性的ASR系统:引入口音相关信息和生成口音无关特征。引入口音相关信息的主要思想是使用口音相关信息,例如i-vectors、口音IDs或口音嵌入来管理多口音ASR系统,或以多任务方式使用它。一些口音自适应网络还引入了口音相关信息(参考文献[2])。这些架构旨在将口音信息合并到单个通用模型中,它们总是在看到的口音中取得更好的结果,而口音相关的自适应网络还可以减少训练数据和测试数据之间的不匹配。
为了生成与口音无关的特征,ASR系统通常使声学模型的输出包含尽可能少的口音信息。对抗性训练可以有效缓解口音不匹配问题。域对抗训练(DAT)是对抗训练的常用技术,它强制中间表示对于不同的口音语音是口音不变的。DAT已被证明可以提高多口音ASR模型的口音鲁棒性。域对抗训练(DAT)(参考文献[3])尝试从端到端(E2E)编码器(参考文献[4])的输出中去除口音信息。但对抗训练并不能使得生成器生成的特征完全不受口音的影响,对于一些口音所生成的特征还具有很高的口音判别性,这使得生成的用于语音识别的特征对口音不够鲁棒,影响多口音语音识别的准确率。参考文献如下:
[1]Koenecke,Allison,et al."Racial disparities in automated speechrecognition."Proceedings of the National Academy of Sciences 117.14(2020):7684-7689.
[2]Zhu,Han,et al."Multi-accent adaptation based on gate mechanism."arXiv preprint arXiv:2011.02774(2020).
[3]Ganin,Yaroslav,et al."Domain-adversarial training of neuralnetworks."The journal of machine learning research 17.1(2016):2096-2030.
[4]Vaswani,Ashish,et al."Attention is all you need."Advances inneural information processing systems 30(2017).
Kim,Suyoun,Takaaki Hori,and Shinji Watanabe."Joint CTC-attentionbased end-to-end speech recognition using multi-task learning."2017IEEEinternational conference on acoustics,speech and signal processing(ICASSP).IEEE,2017.
发明内容
本发明为了提高多口音语音识别的准确度,提出了具有域对抗训练的自适应注意力方法(AANet),使用域对抗训练并且进一步使用自适应方法,消除DAT中残留口音信息的影响。AANet采用DAT来初始化Transformer编码器。实验结果表明,AANet可以进一步减少DAT训练模型中的口音不匹配,可以提高许多口音的语音识别能力,尤其是提高看不见口音的性能。在AANet网络中,自适应注意力模块将编码器的输出转换为自适应特征并输入到Transformer模型的解码器中,而基于注意力的适配器通过口音分类器获取口音信息。
本发明的目的是通过以下技术方案实现的:多口音语音识别的具有域对抗训练的自适应注意力方法,包括如下步骤:
(一)基于Transformer模型的对抗训练模型:
领域对抗训练(DAT)已广泛应用于多种条件下的鲁棒ASR系统,例如扬声器、噪声、口音和语言。它旨在学习一个域不变的中间潜在特征空间(对于本发明的工作来说,为口音不变的特征)。
对抗训练策略可三个过程:优化口音分类器的参数,使其对训练数据的误差最小化;优化注意力编码器和解码器的参数以最小化ASR任务的损失;同时对生成器的参数进行了优化,以最小化ASR任务的损失并最大化口音分类器的损失。DAT网络通过在生成器(Transformer的编码器)和口音分类器(编码器后接的线性分类网络)之间应用梯度反转层,将三个训练过程嵌入到一个网络中。
(二)口音判别性特征的提取
口音提取器网络使用Transformer-CTC模型(参考文献[5])构建的,是一个基于自注意(SA)的多层编码器。本发明使用最后一个编码器的输出作为口音判别特征。对于口音分类,在最后一个编码器之后应用平均标准池化层以在T维度上池化输出,池化后,将其输入线性层以区分口音类并优化交叉熵损失。此外,使用ASR下游任务训练的编码器来初始化口音分类网络的编码器,以提高口音特征的口音判别性。
(三)自适应
所提出的带有DAT的自适应注意力方法(AANet)模型的架构基于E2E-DAT架构,具有口音判别性特征提取网络和新颖的自适应注意力模块。使用多头自注意力,并使用线性层作为位置编码层,这允许网络在特定口音嵌入的不同位置共同关注来自不同表示子空间的口音信息。
(四)训练流程
根据分析,DAT生成的特征仍然是口音判别信息。因此,本发明应用提出的自适应注意模块来进一步优化DAT训练的语音识别性能。所提出模型的架构如图1(d)所示。该模型由口音提取器网络、作为域不变特征生成器的编码器、作为域鉴别器的口音分类器、梯度反向层和ASR任务的解码器组成。
(1)对口音提取器进行预训练。它用于输出稳定的口音识别嵌入;
(2)冻结口音提取器的参数,通过DAT训练E2E ASR网络,直到E2E网络收敛。
判别器中口音分类的准确率不再下降,保持在一个较低的值。
(3)冻结口音鉴别器的参数,并应用基于注意力的方法来优化DAT预训练的ASR网络。
与现有技术相比,本发明具有的优点:
与现有技术相比,本发明提出了一种基于域对抗训练(DAT)的口音自适应器,进一步消除DAT中剩余口音信息的影响。
本发明使用DAT对Transformer编码器进行了预训练。然后,编码器输出和口音嵌入被输入到适配器以获得自适应特征。
本发明发现DAT对每种口音的处理方式不同;大多数编码器输出包含剩余的当前口音信息;一些编码器输出包含不正确的口音信息;而少数编码器输出包含丰富的口音信息或较少的口音信息。本发明所提出的方法在有限的数据集合上进行训练,不仅使用了对抗训练进行多口音语音识别的训练,使得模型具有鲁棒性,并且在对抗训练之后,使用基于自注意力的自适应机制,对域对抗训练后编码器中残留的口音进行自适应,从而进一步提高了多口音语音识别的准确性。
附图说明
图1为本发明所使用的所有网络架构:
(a)DAT架构的流程图;(b)提议的自适应注意力模块;(c)具有
E2E基线的自适应注意力;(d)提议的AANet;
图2为本发明在2020AESRC测试集合不同口音上的语音识别结果;
图3为本发明的口音特征提取起的分类精度;
图4为本发明训练集合不可见的口音被口音分类网络分类为可见的某种口音的概率;
图5为本发明中DAT模型(测试集)中第n个最大softmax值的口音分类精度,Sn代表第n个最大的softmax;
图6模型(测试集)中第n个最大softmax值的训练集不存在的口音精度,Sn代表第n个最大的softmax。
具体实施方式
以下结合附图和具体实施例对本发明作进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
(一)基于transfomer模型的对抗训练模型:
领域对抗训练(DAT)已广泛应用于多种条件下的鲁棒ASR系统,例如扬声器、噪声、口音和语言。它旨在学习一个域不变的中间潜在特征空间(对于本发明的工作来说,为口音不变的特征)。本发明的语音识别领域对抗框架在图1(a)中进行了说明,它由三个主要组件组成:口音不变特征f、生成器G、输入语音特征x和参数θf;口音分类网络C、输入口音判别性特征fa和参数θa,其中输入的口音判别性特征fa由注意力解码器产生的特征f输入到T维上的池化层中,产生的均值特征fmean和方差特征fstd得到:
fa=fmean+fstd
整个训练策略分为三个过程:优化口音分类器的参数,使其对训练数据的误差最小化;优化注意力编码器和解码器的参数以最小化ASR任务的损失;同时对生成器的参数进行了优化,以最小化ASR任务的损失并最大化口音分类器的损失。DAT网络通过在生成器和口音分类器之间应用梯度反转层,将三个训练过程嵌入到一个网络中。
整个流程的损失函数为:
E(θf,θy,θc)=LASRf,θy)-λLCf,θc))
其中θf,θy,θc,分别是生成器G,解码器D,口音分类器C的权重矩阵;LASR为Transformer模型的损失函数,Lc是口音分类模型的损失函数:
LASR=(1-γ)LATT+γLCTC
其中LATT为注意力的损失函数,LCTC为基于神经网络的时序类分类损失函数,γ为CTC损失函数的权重系数。
对抗训练的优化策略为:
Figure BDA0003712198760000061
Figure BDA0003712198760000062
梯度下降的规则为:
Figure BDA0003712198760000063
Figure BDA0003712198760000064
Figure BDA0003712198760000065
(二)口音判别性特征的提取
口音提取器网络是使用Transformer-CTC模型构建的,它是一个基于自注意力(SA)的多层编码器。本发明使用最后一个编码器的输出作为口音判别特征。对于口音分类,在最后一个编码器之后应用平均标准池化层以在T维度上池化输出,池化后,本发明将其输入线性层以区分口音类并优化交叉熵损失:
LE=CE(Linear(mean(va)+std(va)),vtrue)
其中Vtrue是样本的真实口音标签,va是输入的口音相关特征。
此外,本发明还使用ASR下游任务训练的编码器来初始化口音分类网络的编码器,以提高口音特征的口音判别性。
(三)自适应注意力
所提出的带有域对抗训练的自适应注意力方法(AANet)模型的架构基于Transformer-CTC和DAT架构,具有口音判别性特征提取网络和新颖的自适应注意模块。在本节中,本发明将详细描述每个模块并说明AANet的相应训练策略。
自适应注意力模块的架构如图1(b)和图1(c),分布描述了自适应注意力方法在简单的E2E网络中使用时的结构。自适应模块在下文中称为Aatt。将编码器输出表示为f,va是该样本的口音音嵌入,att表示注意力和位置层网络,其参数为θa
整个适应过程描述为如下公式:
Figure BDA0003712198760000071
其中⊙表示元素级积,att(vaa)表示注意力网络。
特别地,本发明使用多头自注意力,并使用线性层作为位置编码层,这允许网络在特定口音嵌入的不同位置共同关注来自不同表示子空间的口音信息。
(四)训练流程
根据分析,DAT生成的特征仍然是口音判别信息。因此,本发明应用提出的自适应注意力模块来进一步优化DAT训练的语音识别性能。所提出模型的架构如图1(d)所示。该模型由口音提取器网络、作为域不变特征生成器的编码器、作为域鉴别器的口音分类器、梯度反向层和ASR任务的解码器组成。
(1)对口音提取器进行预训练。它用于输出稳定的口音识别嵌入;
(2)冻结口音提取器的参数,通过DAT训练E2E ASR网络,直到E2E网络收敛。
判别器中口音分类的准确率不再下降,保持在一个较低的值;
(3)冻结口音鉴别器的参数,并应用基于注意力的方法来优化DAT预训练的ASR网络。
图2为本发明在2020AESRC测试集合不同口音上的语音识别结果;
图3为本发明的口音特征提取起的分类精度;
图4为本发明训练集合不可见的口音被口音分类网络分类为可见的某种口音的概率;
图5为本发明中DAT模型(测试集)中第n个最大softmax值的口音分类精度,Sn代表第n个最大的softmax;
图6模型(测试集)中第n个最大softmax值的训练集不存在的口音精度,Sn代表第n个最大的softmax。

Claims (4)

1.多口音语音识别的具有域对抗训练的自适应注意力方法,其特征在于,包括如下步骤
(1)训练基于Transformer的对抗训练语音识别网络:
首先使用对抗训练进行Transformer模型的预训练,领域对抗训练通过使用梯度翻转层,同时优化生成器和分类器,最小化语音识别和口音分类的损失,使得生成器和分类器优化目标对抗,促进生成器生成更有泛化性的特征;
(2)训练口音分类网络,提取口音判别性特征
训练基于Transformer的口音分类器,使用Transformer的编码器后接线性层计算交叉熵损失来进行口音分类,并把训练好的Transformer的编码器输出作为口音判别性特征,为达到更好的分类效果,该模型经过同数据集的语音识别预训练;
(3)使用自适应模块进行语音识别模型的口音自适应
使用DAT进行预训练后,Transformer编码器输出特征中仍具有一些口音的判别性,所构建的基于注意力的自适应模块,通过将输入的语音同时也输入到口音分类网络中,提取口音判别性特征,随后将判别性特征输入到自适应模块里,通过权重计算与主体网络的编码器输出特征融合以达到自适应的目的。
2.根据权利要求1所述的多口音语音识别的具有域对抗训练的自适应注意力方法,其特征在于,步骤(1)中,使用DAT预训练Transformer语音识别网络,DAT网络通过在生成器和口音分类器之间应用梯度反转层,将三个训练过程嵌入到一个网络中,同时最小化ASR任务的损失并最大化口音分类器的损失。
3.根据权利要求1所述的多口音语音识别的具有域对抗训练的自适应注意力方法,其特征在于,步骤(2)中,使用语音识别预训练Transformer,并使用此Transformer的编码器后接线性层计算交叉熵损失来进行口音分类,用编码器的特征作为口音判别性特征。
4.根据权利要求1所述的多口音语音识别的具有域对抗训练的自适应注意力方法,其特征在于,步骤(3)中,具体步骤如下:
(1)对口音提取器进行预训练,用于输出稳定的用于口音判别性特征;
(2)冻结口音提取器的参数,通过DAT训练端到端的ASR网络,直到E2E网络收敛,判别器中口音分类的准确率不再下降,保持在一个较低的值;
DAT整个流程的损失函数为:E(θf,θy,θc)=LASRf,θy)-λLCf,θc))
其中:θf,θy,θc,分别是生成器G,解码器D,口音分类器C的权重矩阵;
LASR为Transformer模型的损失函数,Lc是口音分类模型的损失函数:
LASR=(1-γ)LATT+γLCTC
其中:LATT为注意力的损失函数,LCTC为基于神经网络的时序类分类损失函数,γ为CTC损失函数的权重系数;
其优化策略为:
Figure FDA0003712198750000021
(3)冻结口音鉴别器的参数,并应用基于注意力的方法来优化DAT预训练的语音识别模型的识别效果,整个适应过程描述为如下公式:
Figure FDA0003712198750000022
其中:⊙表示元素级积,att(vaa)表示注意力网络;
使用多头自注意力,并使用线性层作为位置编码层,这允许网络在特定口音嵌入的不同位置共同关注来自不同表示子空间的口音信息。
CN202210729139.4A 2022-06-24 2022-06-24 多口音语音识别的具有域对抗训练的自适应注意力方法 Pending CN115273827A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210729139.4A CN115273827A (zh) 2022-06-24 2022-06-24 多口音语音识别的具有域对抗训练的自适应注意力方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210729139.4A CN115273827A (zh) 2022-06-24 2022-06-24 多口音语音识别的具有域对抗训练的自适应注意力方法

Publications (1)

Publication Number Publication Date
CN115273827A true CN115273827A (zh) 2022-11-01

Family

ID=83761295

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210729139.4A Pending CN115273827A (zh) 2022-06-24 2022-06-24 多口音语音识别的具有域对抗训练的自适应注意力方法

Country Status (1)

Country Link
CN (1) CN115273827A (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160284344A1 (en) * 2013-12-19 2016-09-29 Baidu Online Network Technology (Beijing) Co., Ltd. Speech data recognition method, apparatus, and server for distinguishing regional accent
US20190325861A1 (en) * 2018-04-18 2019-10-24 Maneesh Kumar Singh Systems and Methods for Automatic Speech Recognition Using Domain Adaptation Techniques
US20200160836A1 (en) * 2018-11-21 2020-05-21 Google Llc Multi-dialect and multilingual speech recognition
US20200380952A1 (en) * 2019-05-31 2020-12-03 Google Llc Multilingual speech synthesis and cross-language voice cloning
CN112992119A (zh) * 2021-01-14 2021-06-18 安徽大学 基于深度神经网络的口音分类方法及其模型
WO2021183229A1 (en) * 2020-03-13 2021-09-16 Microsoft Technology Licensing, Llc Cross-speaker style transfer speech synthesis
WO2022008739A1 (en) * 2020-07-10 2022-01-13 Novoic Ltd. Speech analysis for monitoring or diagnosis of a health condition
US11315548B1 (en) * 2021-03-31 2022-04-26 Chief Chief Technologies Oy Method and system for performing domain adaptation of end-to-end automatic speech recognition model

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160284344A1 (en) * 2013-12-19 2016-09-29 Baidu Online Network Technology (Beijing) Co., Ltd. Speech data recognition method, apparatus, and server for distinguishing regional accent
US20190325861A1 (en) * 2018-04-18 2019-10-24 Maneesh Kumar Singh Systems and Methods for Automatic Speech Recognition Using Domain Adaptation Techniques
US20200160836A1 (en) * 2018-11-21 2020-05-21 Google Llc Multi-dialect and multilingual speech recognition
US20200380952A1 (en) * 2019-05-31 2020-12-03 Google Llc Multilingual speech synthesis and cross-language voice cloning
WO2021183229A1 (en) * 2020-03-13 2021-09-16 Microsoft Technology Licensing, Llc Cross-speaker style transfer speech synthesis
WO2022008739A1 (en) * 2020-07-10 2022-01-13 Novoic Ltd. Speech analysis for monitoring or diagnosis of a health condition
CN112992119A (zh) * 2021-01-14 2021-06-18 安徽大学 基于深度神经网络的口音分类方法及其模型
US11315548B1 (en) * 2021-03-31 2022-04-26 Chief Chief Technologies Oy Method and system for performing domain adaptation of end-to-end automatic speech recognition model

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CHEN, YI-CHEN ET, AL.: "《AIPNET: GENERATIVE ADVERSARIAL PRE-TRAINING OF ACCENT-INVARIANT NETWORKS FOR END-TO-END SPEECH RECOGNITION》", 《 2020 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING》, 2 March 2021 (2021-03-02), pages 6979 - 6983 *
SUN, SINING ET, AL.: "《DOMAIN ADVERSARIAL TRAINING FOR ACCENTED SPEECH RECOGNITION》", 《2018 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP)》, 25 October 2018 (2018-10-25), pages 4854 - 4858 *
任劲安: "《面向方言口音对话系统的多任务语音识别算法研究及应用》", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 04, 15 April 2022 (2022-04-15), pages 136 - 278 *

Similar Documents

Publication Publication Date Title
CN109326302B (zh) 一种基于声纹比对和生成对抗网络的语音增强方法
CN110491416B (zh) 一种基于lstm和sae的电话语音情感分析与识别方法
CN109559736B (zh) 一种基于对抗网络的电影演员自动配音方法
KR100908121B1 (ko) 음성 특징 벡터 변환 방법 및 장치
Kumatani et al. Direct modeling of raw audio with dnns for wake word detection
Cai et al. Within-sample variability-invariant loss for robust speaker recognition under noisy environments
CN112331216A (zh) 基于复合声学特征和低秩分解tdnn的说话人识别系统及方法
CN110211594B (zh) 一种基于孪生网络模型和knn算法的说话人识别方法
CN1302427A (zh) 用于说话者认证的模型自适应系统和方法
CN111429935B (zh) 一种语音话者分离方法和装置
CN113763965A (zh) 一种多重注意力特征融合的说话人识别方法
CN116092501A (zh) 语音增强方法、语音识别方法、说话人识别方法和系统
Park et al. The Second DIHARD Challenge: System Description for USC-SAIL Team.
Tan et al. Denoised senone i-vectors for robust speaker verification
CN117310668A (zh) 融合注意力机制与深度残差收缩网络的水声目标识别方法
CN116580708A (zh) 一种智能语音处理方法和系统
CN115273827A (zh) 多口音语音识别的具有域对抗训练的自适应注意力方法
Fukuda et al. Generalized knowledge distillation from an ensemble of specialized teachers leveraging unsupervised neural clustering
CN110807370B (zh) 一种基于多模态的会议发言人身份无感确认方法
Łopatka et al. State sequence pooling training of acoustic models for keyword spotting
Bhavani et al. A survey on various speech emotion recognition techniques
Moonasar et al. A committee of neural networks for automatic speaker recognition (ASR) systems
Nichie et al. Voice recognition using artificial neural networks and Gaussian mixture models
Xu et al. Improve Data Utilization with Two-stage Learning in CNN-LSTM-based Voice Activity Detection
Abd El-Moneim et al. Effect of reverberation phenomena on text-independent speaker recognition based deep learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination