CN116364085A - 数据增强方法、装置、电子设备和存储介质 - Google Patents
数据增强方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN116364085A CN116364085A CN202111625325.5A CN202111625325A CN116364085A CN 116364085 A CN116364085 A CN 116364085A CN 202111625325 A CN202111625325 A CN 202111625325A CN 116364085 A CN116364085 A CN 116364085A
- Authority
- CN
- China
- Prior art keywords
- voice
- data
- speech
- speaker
- conversion model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 96
- 238000003860 storage Methods 0.000 title claims abstract description 18
- 238000006243 chemical reaction Methods 0.000 claims abstract description 192
- 238000012545 processing Methods 0.000 claims abstract description 55
- 238000012549 training Methods 0.000 claims description 67
- 238000001228 spectrum Methods 0.000 claims description 35
- 230000015654 memory Effects 0.000 claims description 18
- 230000008569 process Effects 0.000 claims description 17
- 230000033764 rhythmic process Effects 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 7
- 230000008485 antagonism Effects 0.000 claims description 4
- 230000003042 antagnostic effect Effects 0.000 claims description 2
- 238000001514 detection method Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 7
- 238000003786 synthesis reaction Methods 0.000 description 7
- 230000015572 biosynthetic process Effects 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 6
- 230000002776 aggregation Effects 0.000 description 4
- 238000004220 aggregation Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000005291 magnetic effect Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- KLDZYURQCUYZBL-UHFFFAOYSA-N 2-[3-[(2-hydroxyphenyl)methylideneamino]propyliminomethyl]phenol Chemical compound OC1=CC=CC=C1C=NCCCN=CC1=CC=CC=C1O KLDZYURQCUYZBL-UHFFFAOYSA-N 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 201000001098 delayed sleep phase syndrome Diseases 0.000 description 2
- 208000033921 delayed sleep phase type circadian rhythm sleep disease Diseases 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000009827 uniform distribution Methods 0.000 description 2
- 101100134058 Caenorhabditis elegans nth-1 gene Proteins 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000005294 ferromagnetic effect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Probability & Statistics with Applications (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
Abstract
本实施例公开了一种数据增强方法、装置、设备、系统和计算机存储介质,该方法包括:获取训练完成的语音转换模型;所述语音转换模型用于根据说话人的标签信息与语音数据的韵律信息,对所述语音数据进行语音转换,得到语音转换结果;将目标领域的语音数据和说话人的标签信息输入至所述训练完成的语音转换模型中,利用所述训练完成的语音转换模型对所述目标领域的语音数据和所述说话人的标签信息进行处理,得到所述目标领域的语音数据对应的语音转换结果。
Description
技术领域
本申请涉及语音处理技术,尤其涉及一种数据增强方法、装置、电子设备和计算机存储介质。
背景技术
语音识别技术是自动将语音转变为文字的技术。随着深度学习技术的发展,序列到序列建模的深度学习框架逐渐成熟,端到端的语音识别模型开始成为当下热门技术,其中包括连接时序分类(Connectionist Temporal Classification,CTC)模型、循环神经网络变换器(Recurrent Neural Network-Transducer,RNN-T)模型、注意力编码解码(Attention Encoder Decoder)模型等主流端到端语音识别模型。
端到端语音识别模型接受音频特征输入并直接输出文字,解决了输入序列长度和输出序列长度数量级不匹配的问题;端到端语音识别模型取得了性能提升并且结构较为简单,但是,端到端语音识别模型是完全由数据驱动的模型,因此增大了训练模型所需要的数据量。针对特定领域的端到端语音识别模型需要使用特定领域的语音数据进行训练,如何扩充特定领域的语音数据以便于训练特定领域的端到端语音识别模型,是亟待解决的技术问题。
发明内容
本申请实施例提供一种数据增强方法,可以扩充目标领域的语音数据,有利于训练得到适用于目标领域的语音识别模型。
本申请实施例提供了一种数据增强方法,所述方法包括:
获取训练完成的语音转换模型;所述语音转换模型用于根据说话人的标签信息与语音数据的韵律信息,对所述语音数据进行语音转换,得到语音转换结果;
将目标领域的语音数据和说话人的标签信息输入至所述训练完成的语音转换模型中,利用所述训练完成的语音转换模型对所述目标领域的语音数据和所述说话人的标签信息进行处理,得到所述目标领域的语音数据对应的语音转换结果。
在一些实施例中,所述利用所述训练完成的语音转换模型对所述目标领域的语音数据和所述说话人的标签信息进行处理,得到所述目标领域的语音数据对应的语音转换结果,包括:
提取所述目标领域的语音数据的显式韵律特征;
根据所述目标领域的语音数据的梅尔谱和瓶颈特征,确定所述目标领域的语音数据的隐式韵律表示;
对所述说话人的标签信息、所述显式韵律特征和所述隐式韵律表示进行处理,得出所述目标领域的语音数据对应的语音转换结果。
在一些实施例中,所述根据所述目标领域的语音数据的梅尔谱和瓶颈特征,确定所述目标领域的语音数据的隐式韵律表示,包括:
采用变分自编码器(Variational Auto-Encoder,VAE)从所述梅尔谱中提取所述目标领域的语音数据的第一韵律表示;
采用参考编码器(Reference Encoder)从所述瓶颈特征中提取所述目标领域的语音数据的第二韵律表示;
将所述目标领域的语音数据的第一韵律表示和所述第二韵律表示进行叠加,得到所述目标领域的语音数据的隐式韵律表示。
在一些实施例中,所述提取所述目标领域的语音数据的显式韵律特征,包括:
将所述目标领域的语音数据的端点检测结果(voice/unvoice flag feature,vuv)、数域基本频率和短期平均振幅中的至少一项作为:所述目标领域的语音数据的显式韵律特征。
在一些实施例中,所述对所述说话人的标签信息、所述显式韵律特征和所述隐式韵律表示进行处理,得出所述目标领域的语音数据对应的语音转换结果,包括:
采用加权聚合自注意力(Self Attention-Weighted Aggregation,SA-WA)编码器所述瓶颈特征中确定所述目标领域的语音数据的句子表征;
对所述说话人的标签信息、所述显式韵律特征、所述隐式韵律表示和所述句子表征进行处理,得出所述目标领域的语音数据对应的语音转换结果。
在一些实施例中,所述语音转换模型的训练过程包括:
获取训练数据集,所述训练数据集包括预设领域的语音数据以及说话人的标签信息;所述预设领域和所述目标领域为不同的领域;
根据所述训练数据集,采用对抗式训练方法对所述语音转换模型进行训练,得出所述训练完成的语音转换模型。
在一些实施例中,所述根据所述训练数据集,采用对抗式训练方法对所述语音转换模型进行训练,得出所述训练完成的语音转换模型,包括:
将所述预设领域的语音数据和说话人的标签信息输入至所述语音转换模型中,利用所述语音转换模型对所述预设领域的语音数据和所述说话人的标签信息进行处理,得到所述预设领域的语音数据对应的语音转换结果;
利用说话人分类器对所述预设领域的语音数据的第一韵律表示进行分类处理,得到分类结果;所述预设领域的语音数据的第一韵律表示是由所述语音转换模型中的VAE从所述预设领域的语音数据的梅尔谱中提取出的信息;
将所述说话人分类器作为判别器,将所述语音转换模型作为生成器;根据所述分类结果确定所述判别器的损失和所述生成器的损失;
根据所述判别器的损失和所述生成器的损失,并采用对抗式训练方法对所述语音转换模型进行训练,得出所述训练完成的语音转换模型。
在一些实施例中,根据所述分类结果确定所述生成器的损失,包括:
根据所述VAE的KL散度、所述语音转换模型的梅尔谱重构损失和所述语音转换模型的对抗损失,确定所述生成器的损失。
本申请实施例还提供了一种数据增强装置,所述装置包括:获取模块和处理模块,其中,
获取模块,用于获取训练完成的语音转换模型;所述语音转换模型用于根据说话人的标签信息与语音数据的韵律信息,对所述语音数据进行语音转换,得到语音转换结果;
处理模块,用于将目标领域的语音数据和说话人的标签信息输入至所述训练完成的语音转换模型中,利用所述训练完成的语音转换模型对所述目标领域的语音数据和所述说话人的标签信息进行处理,得到所述目标领域的语音数据对应的语音转换结果。
本申请实施例还提供了一种电子设备,包括处理器和用于存储能够在处理器上运行的计算机程序的存储器;其中,
所述处理器用于运行所述计算机程序以执行上述任意一种数据增强方法。
本申请实施例还提供了一种计算机存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述任意一种数据增强方法。
可以看出,本申请实施例可以在训练语音转换模型的基础上,将目标领域的语音数据和说话人的标签信息输入至训练完成的语音转换模型中,从而得到目标领域的语音数据对应的语音转换结果,由于目标领域的语音数据对应的语音转换结果可以作为目标领域的新的语音数据,从而实现了目标领域的端到端语音识别模型的训练数据的扩充。
附图说明
图1为本申请实施例的数据增强方法的流程示意图一;
图2为本申请实施例的数据增强方法的流程示意图二;
图3为本申请实施例中语音转换模型和说话人分类器的架构示意图;
图4为本申请实施例中提取语音数据的隐式韵律表示的流程图;
图5为本申请实施例数据增强方法的流程示意图三;
图6为本申请实施例中SA-WA编码器的架构示意图;
图7为本申请实施例中语音转换模型的训练流程示意图一;
图8为本申请实施例中语音转换模型的训练流程示意图二;
图9为本申请实施例中数据增强装置的结构示意图;
图10为本申请实施例中电子设备的结构示意图。
具体实施方式
在相关技术中,成熟的语音识别模型可以包括隐马尔可夫模型(Hidden MarkovModel,HMM)。它主要由以下三部分组成:声学模块、发音词典、语言模型;其中,声学模块负责将语音识别为HMM状态;发音词典用于将音素映射为文字或者单词;语言模型用于统计语言信息让整句话读起来更加接近正常人类语言。
在相关技术中,也可以采用基于深度学习框架的端到端语音识别模型实现语音识别,端到端语音识别模型最大的特点是将HMM模型的三部分整合成为一个模型。端到端语音识别模型是完全由数据驱动的模型,因此增大了训练模型所需要的数据量,训练端到端语音识别模型时使用的标注数据包括成对的语音和文本,然后,成对的语音和文本通常难以获得,需要耗费大量人力、物力和财力,如果使用通用领域的语音数据训练语音识别模型,则训练完成的语音识别模型不能准确可靠地实现特定领域的语音识别。如何扩充特定领域的语音数据以便于训练特定领域的端到端语音识别模型,是亟待解决的技术问题。
在相关技术中,针对语音数据的数据增强技术可以包括以下几种:1)变速变调,即,对音频进行音调和语速上的变换从而扩充新的数据;2)语音失真,即,人工地设计一些损失对频谱造成损伤从而扩充新的数据;3)频谱增强(SpecAugment),即,训练时在频谱上随机地去除一些行和列从而有效在训练时防止过拟合;4)数据加噪,即,在训练数据上加入一些噪声或者卷积房间冲激响应从而在数据上加入噪声,让干净的音频数据变成带噪声干扰的数据增强模型的鲁棒性。但是,上述只针对语音数据的数据增强技术无法从实质上产生新的数据,只是在原有数据上进行一定的变换。
在相关技术中,可以使用语音转换技术来扩充特定领域的语音数据,以便于训练特定领域的端到端语音识别模型。语音转换的目标是在不改变语言内容的情况下,将源说话人的语音修改为目标说话人的语音。相关技术中的语音转换方法包括:基于高斯混合模型(Gaussian Mixed Model,GMM)的方法、基于频率扭曲的语音转换方法和示范法。这些方法通常需要来自源说话人和目标说话人的成对语音数据,成对语音数据的收集成本较高。在相关技术中,也可以使用非成对数据进行语音转换,得益于深度学习强大的丰富特征提取能力和非线性回归能力,可以提出基于深度学习框架的使用非成对数据进行语音转换的方法,例如,基于深度学习框架的使用非成对数据进行语音转换的方法可以是基于语音后向图(Phonetic Posterior Grams,PPG)的方法。基于PPG的方法可以通过语音识别阶段和语音合成阶段实现,在基于PPG的方法中,PPG或神经网络瓶颈特征(BottleNeck,BN)作为“信息桥梁”。在语音识别阶段,采用ASR声学模型提取说话人独立的PPG或BN特征,代表语言内容。合成阶段是一个转换模型,将自动语音识别(Automatic Speech Recognition,ASR)声学模型提取的特征映射到目标说话人的声学特征。虽然可以将将语音识别阶段和语音合成阶段集成到一个统一的编码器-解码器神经体系结构中,以端到端方式训练,然而,语音识别-合成框架仍然是更为通用的使用非成对数据进行语音转换的框架,因为该框架可以灵活地分别对两个阶段进行训练,提升语音识别和语音合成的鲁棒性,并且训练ASR声学模型可以使用大量的训练数据。如何使用
在相关技术中,语音转换方法侧重于音色向目标的转换和源语音语言内容的保留。然而,源语音的韵律也需要正确地转换到目标韵律上。韵律信息至少包括情绪、音调、持续时间和响度,这些信息对于一些需要富表现力语音的场景是非常重要的,如配音、直播和数据增强。因此,如何在语音转换方法中转换源语言的韵律信息,是待解决的技术问题。
针对上述技术问题,提出本申请实施例的技术方案。
以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所提供的实施例仅仅用以解释本申请,并不用于限定本申请。另外,以下所提供的实施例是用于实施本申请的部分实施例,而非提供实施本申请的全部实施例,在不冲突的情况下,本申请实施例记载的技术方案可以任意组合的方式实施。
本申请实施例提供了一种数据增强方法,可以应用于电子设备中,电子设备可以包括终端和/服务器,这里,终端可以是瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、可编程消费电子产品、网络个人电脑、小型计算机系统,等等。服务器可以是小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境,等等。
服务器等电子设备可以包括执行计算机指令的程序模块,通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务。计算机系统/服务器可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。
图1为本申请实施例的数据增强方法的流程示意图一,如图1所示,该流程可以包括:
步骤101:获取训练完成的语音转换模型;所述语音转换模型用于根据说话人的标签信息与语音数据的韵律信息,对所述语音数据进行语音转换,得到语音转换结果。
本申请实施例中,说话人的标签信息用于标识说话人,示例性地,说话人的标签信息可以是用户输入的信息。
本申请实施例中,语音数据的韵律信息可以包括显式韵律特征和隐式韵律表示。显式韵律特征是从语音数据中提取的显式特征,示例性地,显式韵律特征可以包括持续时间、音高、能量等;为了能够精细地描述和控制韵律,可以从源说话人的语音数据中提取显式韵律特征。
示例性地,可以使用全局风格符号(Global Style Tokens,GST)、参考编码器和VAE从语音数据中提取出隐式韵律表示。
示例性地,在语音转换模型中,在得到说话人的标签信息与语音数据的韵律信息后,可以将说话人的标签信息和语音数据的韵律信息进行级联,得到级联后的信息;对级联后的信息进行处理,得到语音转换结果。
步骤102:将目标领域的语音数据和说话人的标签信息输入至训练完成的语音转换模型中,利用训练完成的语音转换模型对目标领域的语音数据和所述说话人的标签信息进行处理,得到目标领域的语音数据对应的语音转换结果。
本申请实施例中,目标领域可以用户指定的任意一个领域。在训练语音转换模型时,可以使用除目标领域外的其它领域的语音数据进行训练,这样,在得到训练完成的语音转换模型后,可以将新的目标领域的语音数据和说话人的标签信息输入至训练完成的语音转换模型,能够准确得到目标领域的语音数据对应的语音转换结果。可以看出,由于语音转换模型可以提取语音数据的韵律信息,因此,目标领域的语音数据对应的语音转换结果为包含目标领域的语音数据的韵律信息的语音转换结果。
在实际应用中,步骤101至步骤102可以基于电子设备的处理器实现,上述处理器可以是特定用途集成电路(Application Specific Integrated Circuit,ASIC)、数字信号处理器(Digital Signal Processor,DSP)、数字信号处理装置(Digital SignalProcessing Device,DSPD)、可编程逻辑装置(Programmable Logic Device,PLD)、现场可编程门阵列(Field Programmable Gate Array,FPGA)、中央处理器(Central ProcessingUnit,CPU)、控制器、微控制器、微处理器中的至少一种。可以理解地,实现上述处理器功能的电子器件还可以为其它,本申请实施例不作限制。
可以看出,本申请实施例可以在训练语音转换模型的基础上,将目标领域的语音数据和说话人的标签信息输入至训练完成的语音转换模型中,从而得到目标领域的语音数据对应的语音转换结果,由于目标领域的语音数据对应的语音转换结果可以作为目标领域的新的语音数据,从而实现了目标领域的端到端语音识别模型的训练数据的扩充。
在一些实施例中,参照图2,利用训练完成的语音转换模型对目标领域的语音数据和所说话人的标签信息进行处理,得到目标领域的语音数据对应的语音转换结果的流程,可以包括:
步骤201:提取目标领域的语音数据的显式韵律特征。
示例性地,可以将目标领域的语音数据的vuv、对数域基本频率(lf0,log f0)和短期平均振幅中的至少一项作为:目标领域的语音数据的显式韵律特征。这里,lf0可以用于模拟音调,短期平均振幅可以用于模拟能量。
在实际应用中,可以针对目标领域的语音数据的每帧语音,分别提取数据基本频率、lf0或短期平均振幅;帧级的语音转换过程可以使持续时间信息在语音转换前后保持一致。
示例性地,可以使用语音合成系统world中的特征提取器提取lf0;示例性地,可以对lf0和短期平均振幅进行归一化处理,使归一化后的数据处于区间[0,1]中,这样,有助于减少在语音转换模型的应用阶段由于看不见的风格而导致的性能下降。
步骤202:根据目标领域的语音数据的梅尔谱(Mel Spectrum)和瓶颈特征(Bottleneck Feature),确定目标领域的语音数据的隐式韵律表示。
本申请实施例中,梅尔谱属于频谱的非线性变换,用于使人类对频率的感知变得更加线性;瓶颈特征是采用含有少量显层和大量隐层节点的瓶颈状神经网络生成的新特征。
在实际应用中,参照图3,可以针对目标领域的语音数据的每帧数据分别提取梅尔谱和瓶颈特征;对于提取每帧数据的瓶颈特征的实现方式,示例性地,可以利用ASR声学模型提取每帧数据的特征,然后,利用上述瓶颈状神经网络对ASR声学模型提取的特征进行处理,得到瓶颈特征。
需要说明的是,本申请实施例并不对步骤201和步骤202的执行顺序进行限定,步骤201可以在步骤202之前执行,也可以在步骤202之后执行,步骤201和步骤202还可以同时执行。
步骤203:对说话人的标签信息、显式韵律特征和隐式韵律表示进行处理,得出目标领域的语音数据对应的语音转换结果。
在一些实施例中,可以对说话人的标签信息、显式韵律特征和隐式韵律表示进行级联(Concatenate)处理,得到级联结果;然后,可以对级联结果进行解码等处理,从而得到目标领域的语音数据对应的育婴转换结果。
可以理解地,由于显式韵律特征具有直观性,显式韵律特征对韵律的影响容易理解,可以通过不同的显式特征独立地控制和解释韵律。然而,韵律涉及的因素很多,通过手工制作的显式声学特征难以完美地描述韵律信息。对于隐式韵律表示,通过韵律嵌入(embedding)层提取的隐式韵律表示很难解释和控制韵律的不同方面,此外,提取的隐式韵律表示可能包含其他与韵律无关的信息,如音色,这种现象称为音色渗漏。针对上述问题,在本申请实施例中,可以将目标领域的语音数据的显式韵律特征和隐式韵律进行结合,从而能够提取更全面的韵律信息。
在一些实施例中,参照图4,上述步骤202的实现方式可以包括:
步骤2021:采用VAE从梅尔谱中提取目标领域的语音数据的第一韵律表示。
这里,VAE作为深度生成模型的一种形式,是基于变分贝叶斯(VariationalBayes,VB)推断的生成式网络结构。
步骤2022:采用参考编码器从瓶颈特征中提取目标领域的语音数据的第二韵律表示。
本申请实施例中,参照图3,采用参考编码器可以直接从瓶颈特征中提取出与说话人无关的第二韵律表示;在提取第一韵律表示的基础上,通过提取第二韵律表示,可以增强隐式韵律表示的内容。
需要说明的是,本申请实施例并不对步骤2021和步骤2022的执行顺序进行限定,步骤2021可以在步骤2022之前执行,也可以在步骤2022之后执行,步骤2021和步骤2022还可以同时执行。
步骤2023:将目标领域的语音数据的第一韵律表示和第二韵律表示进行叠加,得到目标领域的语音数据的隐式韵律表示。
参照图3,可以将VAE提取的第一韵律表示和参考编码器提取的第二韵律表示连接,得到目标领域的语音数据的隐式韵律表示。
可以理解地,根据梅尔谱依赖于说话人,瓶颈特征独立于说话人但依赖于韵律的特点,我们使用VAE和参考编码器对分别以梅尔谱和BN为输入的韵律进行隐式建模,然后通过对将目标领域的语音数据的第一韵律表示和第二韵律表示进行叠加,可以更加全面地得出目标领域的语音数据的隐式韵律表示的信息。
在一些实施例中,参照图5,步骤203的实现方式可以包括:
步骤2031:采用SA-WA编码器从瓶颈特征中确定目标领域的语音数据的句子表征。
本申请实施例中,SA-WA编码器确定的句子表征由不同自我注意层次的韵律相关的句子上下文信息聚合而成;参照图6,SA-WA编码器包括:编码器前置模块、自注意模块和加权聚合模块,其中,编码器前置模块的架构与语音合成模型Tacotron的架构相同;自注意模块包括N个自注意块,每个自注意块由以下两个子网络组成:多头注意力网络和前馈网络组成,各子网络还采用了层归一化单元和残差连接单元;在n取2至N的情况下,对于第n个自注意块,第n-1个自注意块的输出fn-1、第n个自注意块的第一子网络(即多头注意力网络)的输出mn和第n个自注意块的第二子网络(即前馈网络)的输出fn之间的关系可以通过公式(1)和公式(2)说明。
mn=LN(MultiHead(fn-1)+fn-1) (1)
fn=LN(FFN(mn)+mn) (2)
其中,MultiHead(·)表示多头注意力网络执行的数据处理操作,FFN(·)表示前馈网络执行的数据处理操作,LN(·)表示层归一化操作。
加权聚合模块与自注意模块类似,由两个子网络组成。加权聚合的输出结果g为目标领域的语音数据的句子表征,加权聚合的输出结果g可以通过公式(3)、公式(4)和公式(5)计算得出。
gn=MeanPool(Conv1d(fn)) (3)
c=LN(MultiHead(g1,…,gN)+gN) (4)
g=LN(FFN(c)+c) (5)
其中,Conv1d(·)表示一维卷积操作,MeanPool(·)表示平均池化操作。
步骤2032:对说话人的标签信息、显式韵律特征、隐式韵律表示和句子表征进行处理,得出目标领域的语音数据对应的语音转换结果。
在一些实施例中,参照图3,可以利用嵌入层对说话人的标签信息进行格式转换,得到格式转换结果;可以将VAE提取的第一韵律表示、参考编码器提取的第二韵律表示和SA-WA编码器输出的句子表征进行叠加,得到叠加结果;然后,可以将显示韵律特征、叠加结果和说话人的标签信息对应的格式转换结果进行级联,得到级联结果,然后,根据级联结果得到目标领域的语音数据对应的语音转换结果。
在一些实施例中,参照图3,在得出级联结果后,可以对级联结果进行解码,得到解码结果;然后针对各帧语音数据对应的解码结果提取梅尔谱,得到梅尔谱提取结果,利用WaveRNN对梅尔谱提取结果进行处理,得到目标领域的语音数据对应的语音转换结果。
可以看出,SA-WA编码器可以从瓶颈特征中提取句子上下文,SA-WA编码器确定的句子表征可以从分层表示中隐式聚合源语音的韵律信息,因而,结合显式韵律特征、隐式韵律表示和句子表征,能够更加准确全面地提炼源语音的韵律信息,从而有利于准确得出目标领域的语音数据对应的语音转换结果。
在一些实施例中,参照图7,语音转换模型的训练过程可以包括:
步骤701:获取训练数据集,训练数据集包括预设领域的语音数据以及说话人的标签信息;预设领域和目标领域为不同的领域。
步骤702:根据训练数据集,采用对抗式训练方法对语音转换模型进行训练,得出训练完成的语音转换模型。
可以理解地,通过采用对抗式训练方法对语音转换模型进行训练,有利于提升训练完成的语音转换模型的数据处理精度;并且,通过预设领域的语音数据训练语音转换模型后,可以直接使用训练完成的语音转换模型对目标领域的语音数据进行语音转换,由于目标领域的语音数据对应的语音转换结果可以作为目标领域的新的语音数据,从而实现了目标领域的端到端语音识别模型的训练数据的扩充。
本申请实施例中,采用VAE从梅尔谱中提取的第一韵律表示z与说话人有关,会影响语音转换后的语音音色,因此,可以在采用说话人分类器C的基础上,采用对抗式训练方法对语音转换模型进行训练,从而去除说话人相关信息。
在一些实施例中,参照图8,步骤702的实现方式可以包括:
步骤7021:将预设领域的语音数据和说话人的标签信息输入至语音转换模型中,利用语音转换模型对预设领域的语音数据和所述说话人的标签信息进行处理,得到预设领域的语音数据对应的语音转换结果。
本申请实施例中,得出预设领域的语音数据对应的语音转换结果的方式与得出目标领域的语音数据对应的语音转换结果的方式相同,这里不再赘述。
步骤7022:利用说话人分类器对预设领域的语音数据的第一韵律表示进行分类处理,得到分类结果;预设领域的语音数据的第一韵律表示是由语音转换模型中的VAE从预设领域的语音数据的梅尔谱中提取出的信息。
参照图3,可以利用说话人分类器C对VAE提取的第一韵律表示进行分类处理,得到分类结果ps,这里,可以根据公式(6)描述分类结果ps。
ps=C(z) (6)
其中,z表示预设领域的语音数据的第一韵律表示,C(·)表示说话人分类器的数据处理操作。
步骤7023:将说话人分类器作为判别器,将语音转换模型作为生成器;根据分类结果确定判别器的损失和生成器的损失。
需要说明的是,说话人分类器是训练语音转换模型时使用的判别器,训练完成的语音转换模型并不包含说话人分类器,即,在使用训练完成的语音转换模型对目标领域的语音数据进行处理时,并不使用说话人分类器。
在一些实施例中,可以根据公式(7)和公式(8)计算判别器的损失LossD。
LCE=CE(ps,ls) (7)
LossD=LCE (8)
其中,ls表示一个独立的说话人的标签信息,CE(·)表示交叉熵损失函数。
在一些实施例中,可以根据VAE的KL散度、语音转换模型的梅尔谱重构损失和语音转换模型的对抗损失,确定生成器的损失。
示例性地,可以根据公式(9)和公式(10)计算得出生成器的损失LossG。
LossG=Lrecons+βLadv+γLkl (10)
其中,e表示均匀分布,e=[1/S,…,1/S],S为说话人的个数;‖·‖2表示2范数,Lrecons表示梅尔谱重构损失,Lrecons是对各帧预设领域的语音数据对应的解码结果提取梅尔谱后,根据帧预设领域的语音数据对应的梅尔谱提取结果得出的损失;Lkl表示VAE的KL散度,Ladv表示对抗损失,β和γ分别表示Ladv和Lkl的权重。
可以理解地,根据VAE的KL散度、语音转换模型的梅尔谱重构损失和语音转换模型的对抗损失,可以准确得出生成器的损失。
步骤7024:根据判别器的损失和生成器的损失,并采用对抗式训练方法对语音转换模型进行训练,得出训练完成的语音转换模型。
在一些实施例中,为了使说话人分类器无法对第一韵律表示z进行准确区分,可以通过最小化对抗损失为目标,使分类结果ps服从均匀分布e。
可以看出,本申请实施例通过采用对抗式训练方法对语音转换模型进行训练,有利于对语音转换模型的VAE等模块进行优化,从而提升训练完成的语音转换模型的数据处理精度。
在一些实施例中,为了提高语音转换模型的泛化能力和转换后语音的说话人相似度,可以在多说话人数据集上对整个语音转换模型进行训练,然后输入目标说话人的信息进行自适应处理;这里,由于说话人的信息为解码器的输入,因此,解码器的处理过程与说话人信息相关,并且,说话人的信息与VAE、参考编码器、SA-WA编码器等相互独立,进而,在自适应过程中,解码器可以实现自适应地优化。
在一些实施例中,采用对抗式训练方法训练语音转换模型,可以成功第从第一韵律表示z中的信息删除说话人相关信息,但是也有可能删除部分韵律信息;针对该问题,可以通过叠加参考编码器提取的第二韵律表示,准确全面地得到语音数据的隐式韵律表示。
下面通过一个实施例对语音转换模型的训练过程和应用过程进行说明。
训练数据集为通用领域的语音数据A以及语音数据A的说话人标签信息;目标领域的语音数据为数据量较小的数据集B;首先可以基于训练数据集对语音转换模型进行训练,使语音转换模型可以根据语音的韵律、语音的内容和说话人的标签信息输出目标语音;在得到训练完成的语音转换模型后,可以将数据集B输入至语音转换模型,并使用语音数据A的说话人标签信息作为语音转换模型的输入,这样,通过训练完成的语音转换模型对数据集B进行处理,可以得到目标领域的语音数据对应的语音转换结果,从而扩充出具有数据集B的风格的数据,实现语音数据的扩充。使用本申请实施例的数据增强方法,可以有效地扩充较小目标数据集的数据量,从而使语音识别模型在目标数据集上获得更好的识别效果。
在前述实施例提出的数据增强方法的基础上,本申请实施例还提出了一种数据增强装置;图9为本申请实施例的一种数据增强装置的组成结构示意图,如图9所示,该装置可以包括获取模块900和处理模块901,其中,
获取模块900,用于获取训练完成的语音转换模型;所述语音转换模型用于根据说话人的标签信息与语音数据的韵律信息,对所述语音数据进行语音转换,得到语音转换结果;
处理模块901,用于将目标领域的语音数据和说话人的标签信息输入至所述训练完成的语音转换模型中,利用所述训练完成的语音转换模型对所述目标领域的语音数据和所述说话人的标签信息进行处理,得到所述目标领域的语音数据对应的语音转换结果。
在本申请的一些实施例中,所述处理模块901,用于利用所述训练完成的语音转换模型对所述目标领域的语音数据和所述说话人的标签信息进行处理,得到所述目标领域的语音数据对应的语音转换结果,包括:
提取所述目标领域的语音数据的显式韵律特征;
根据所述目标领域的语音数据的梅尔谱和瓶颈特征,确定所述目标领域的语音数据的隐式韵律表示;
对所述说话人的标签信息、所述显式韵律特征和所述隐式韵律表示进行处理,得出所述目标领域的语音数据对应的语音转换结果。
在本申请的一些实施例中,所述处理模块901,用于根据所述目标领域的语音数据的梅尔谱和瓶颈特征,确定所述目标领域的语音数据的隐式韵律表示,包括:
采用VAE从所述梅尔谱中提取所述目标领域的语音数据的第一韵律表示;
采用参考编码器从所述瓶颈特征中提取所述目标领域的语音数据的第二韵律表示;
将所述目标领域的语音数据的第一韵律表示和所述第二韵律表示进行叠加,得到所述目标领域的语音数据的隐式韵律表示。
在本申请的一些实施例中,所述处理模块901,用于提取所述目标领域的语音数据的显式韵律特征,包括:
将所述目标领域的语音数据的vuv、数域基本频率和短期平均振幅中的至少一项作为:所述目标领域的语音数据的显式韵律特征。
在本申请的一些实施例中,所述处理模块901,用于对所述说话人的标签信息、所述显式韵律特征和所述隐式韵律表示进行处理,得出所述目标领域的语音数据对应的语音转换结果,包括:
采用加权聚合自注意力SA-WA编码器从所述瓶颈特征中确定所述目标领域的语音数据的句子表征;
对所述说话人的标签信息、所述显式韵律特征、所述隐式韵律表示和所述句子表征进行处理,得出所述目标领域的语音数据对应的语音转换结果。
在本申请的一些实施例中,所述装置还包括训练模块,所述训练模块用于根据以下步骤对语音转换模型进行训练:
获取训练数据集,所述训练数据集包括预设领域的语音数据以及说话人的标签信息;所述预设领域和所述目标领域为不同的领域;
根据所述训练数据集,采用对抗式训练方法对所述语音转换模型进行训练,得出所述训练完成的语音转换模型。
在本申请的一些实施例中,所述训练模块,用于根据所述训练数据集,采用对抗式训练方法对所述语音转换模型进行训练,得出所述训练完成的语音转换模型,包括:
将所述预设领域的语音数据和说话人的标签信息输入至所述语音转换模型中,利用所述语音转换模型对所述预设领域的语音数据和所述说话人的标签信息进行处理,得到所述预设领域的语音数据对应的语音转换结果;
利用说话人分类器对所述预设领域的语音数据的第一韵律表示进行分类处理,得到分类结果;所述预设领域的语音数据的第一韵律表示是由所述语音转换模型中的VAE从所述预设领域的语音数据的梅尔谱中提取出的信息;
将所述说话人分类器作为判别器,将所述语音转换模型作为生成器;根据所述分类结果确定所述判别器的损失和所述生成器的损失;
根据所述判别器的损失和所述生成器的损失,并采用对抗式训练方法对所述语音转换模型进行训练,得出所述训练完成的语音转换模型。
在本申请的一些实施例中,所述训练模块,用于根据所述分类结果确定所述生成器的损失,包括:
根据所述VAE的KL散度、所述语音转换模型的梅尔谱重构损失和所述语音转换模型的对抗损失,确定所述生成器的损失。
在实际应用中,获取模块900和处理模块901均可以利用电子设备的处理器实现。
需要说明的是,以上装置实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本申请装置实施例中未披露的技术细节,请参照本申请方法实施例的描述而理解。
需要说明的是,本申请实施例中,如果以软件功能模块的形式实现上述的方法,并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是终端、服务器等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。这样,本申请实施例不限制于任何特定的硬件和软件结合。
对应地,本申请实施例再提供一种计算机程序产品,所述计算机程序产品包括计算机可执行指令,该计算机可执行指令用于实现本申请实施例提供的任意一种数据增强方法。
相应的,本申请实施例再提供一种计算机存储介质,所述计算机存储介质上存储有计算机可执行指令,该计算机可执行指令用于实现上述实施例提供的任意一种数据增强方法。
本申请实施例还提供一种电子设备,图10为本申请实施例提供的电子设备的一个可选的组成结构示意图,如图10所示,所述电子设备1000包括:
存储器1001,用于存储可执行指令;
处理器1002,用于执行所述存储器1001中存储的可执行指令时,实现上述任意一种数据增强方法。
上述处理器1002可以为ASIC、DSP、DSPD、PLD、FPGA、CPU、控制器、微控制器、微处理器中的至少一种。
上述计算机可读存储介质/存储器可以是只读存储器(Read Only Memory,ROM)、可编程只读存储器(Programmable Read-Only Memory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,EPROM)、电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、磁性随机存取存储器(Ferromagnetic Random Access Memory,FRAM)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(Compact Disc Read-Only Memory,CD-ROM)等存储器;也可以是包括上述存储器之一或任意组合的各种终端,如移动电话、计算机、平板设备、个人数字助理等。
这里需要指出的是:以上存储介质和设备实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本申请存储介质和设备实施例中未披露的技术细节,请参照本申请方法实施例的描述而理解。
应理解,说明书通篇中提到的“一些实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此,在整个说明书各处出现的“在一些实施例中”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解,在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本申请实施例方案的目的。
另外,在本申请各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
或者,本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得设备自动测试线执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。
本申请所提供的几个方法实施例中所揭露的方法,在不冲突的情况下可以任意组合,得到新的方法实施例。
本申请所提供的几个方法或设备实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的方法实施例或设备实施例。
以上所述,仅为本申请的实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (11)
1.一种数据增强方法,其特征在于,所述方法包括:
获取训练完成的语音转换模型;所述语音转换模型用于根据说话人的标签信息与语音数据的韵律信息,对所述语音数据进行语音转换,得到语音转换结果;
将目标领域的语音数据和说话人的标签信息输入至所述训练完成的语音转换模型中,利用所述训练完成的语音转换模型对所述目标领域的语音数据和所述说话人的标签信息进行处理,得到所述目标领域的语音数据对应的语音转换结果。
2.根据权利要求1所述的方法,其特征在于,所述利用所述训练完成的语音转换模型对所述目标领域的语音数据和所述说话人的标签信息进行处理,得到所述目标领域的语音数据对应的语音转换结果,包括:
提取所述目标领域的语音数据的显式韵律特征;
根据所述目标领域的语音数据的梅尔谱和瓶颈特征,确定所述目标领域的语音数据的隐式韵律表示;
对所述说话人的标签信息、所述显式韵律特征和所述隐式韵律表示进行处理,得出所述目标领域的语音数据对应的语音转换结果。
3.根据权利要求2所述的方法,其特征在于,所述根据所述目标领域的语音数据的梅尔谱和瓶颈特征,确定所述目标领域的语音数据的隐式韵律表示,包括:
采用变分自编码器VAE从所述梅尔谱中提取所述目标领域的语音数据的第一韵律表示;
采用参考编码器从所述瓶颈特征中提取所述目标领域的语音数据的第二韵律表示;
将所述目标领域的语音数据的第一韵律表示和所述第二韵律表示进行叠加,得到所述目标领域的语音数据的隐式韵律表示。
4.根据权利要求2所述的方法,其特征在于,所述提取所述目标领域的语音数据的显式韵律特征,包括:
将所述目标领域的语音数据的端点检测结果vuv、数域基本频率和短期平均振幅中的至少一项作为:所述目标领域的语音数据的显式韵律特征。
5.根据权利要求2至4任一项所述的方法,其特征在于,所述对所述说话人的标签信息、所述显式韵律特征和所述隐式韵律表示进行处理,得出所述目标领域的语音数据对应的语音转换结果,包括:
采用加权聚合自注意力SA-WA编码器从所述瓶颈特征中确定所述目标领域的语音数据的句子表征;
对所述说话人的标签信息、所述显式韵律特征、所述隐式韵律表示和所述句子表征进行处理,得出所述目标领域的语音数据对应的语音转换结果。
6.根据权利要求1所述的方法,其特征在于,所述语音转换模型的训练过程包括:
获取训练数据集,所述训练数据集包括预设领域的语音数据以及说话人的标签信息;所述预设领域和所述目标领域为不同的领域;
根据所述训练数据集,采用对抗式训练方法对所述语音转换模型进行训练,得出所述训练完成的语音转换模型。
7.根据权利要求6所述的方法,其特征在于,所述根据所述训练数据集,采用对抗式训练方法对所述语音转换模型进行训练,得出所述训练完成的语音转换模型,包括:
将所述预设领域的语音数据和说话人的标签信息输入至所述语音转换模型中,利用所述语音转换模型对所述预设领域的语音数据和所述说话人的标签信息进行处理,得到所述预设领域的语音数据对应的语音转换结果;
利用说话人分类器对所述预设领域的语音数据的第一韵律表示进行分类处理,得到分类结果;所述预设领域的语音数据的第一韵律表示是由所述语音转换模型中的VAE从所述预设领域的语音数据的梅尔谱中提取出的信息;
将所述说话人分类器作为判别器,将所述语音转换模型作为生成器;根据所述分类结果确定所述判别器的损失和所述生成器的损失;
根据所述判别器的损失和所述生成器的损失,并采用对抗式训练方法对所述语音转换模型进行训练,得出所述训练完成的语音转换模型。
8.根据权利要求7所述的方法,其特征在于,根据所述分类结果确定所述生成器的损失,包括:
根据所述VAE的KL散度、所述语音转换模型的梅尔谱重构损失和所述语音转换模型的对抗损失,确定所述生成器的损失。
9.一种数据增强装置,其特征在于,所述装置包括获取模块和处理模块,其中,
获取模块,用于获取训练完成的语音转换模型;所述语音转换模型用于根据说话人的标签信息与语音数据的韵律信息,对所述语音数据进行语音转换,得到语音转换结果;
处理模块,用于将目标领域的语音数据和说话人的标签信息输入至所述训练完成的语音转换模型中,利用所述训练完成的语音转换模型对所述目标领域的语音数据和所述说话人的标签信息进行处理,得到所述目标领域的语音数据对应的语音转换结果。
10.一种电子设备,其特征在于,包括处理器和用于存储能够在处理器上运行的计算机程序的存储器;其中,
所述处理器用于运行所述计算机程序以执行权利要求1至8任一项所述的数据增强方法。
11.一种计算机存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至8任一项所述的数据增强方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111625325.5A CN116364085A (zh) | 2021-12-28 | 2021-12-28 | 数据增强方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111625325.5A CN116364085A (zh) | 2021-12-28 | 2021-12-28 | 数据增强方法、装置、电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116364085A true CN116364085A (zh) | 2023-06-30 |
Family
ID=86936419
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111625325.5A Pending CN116364085A (zh) | 2021-12-28 | 2021-12-28 | 数据增强方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116364085A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118588085A (zh) * | 2024-08-05 | 2024-09-03 | 南京硅基智能科技有限公司 | 语音交互方法、语音交互系统和存储介质 |
-
2021
- 2021-12-28 CN CN202111625325.5A patent/CN116364085A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118588085A (zh) * | 2024-08-05 | 2024-09-03 | 南京硅基智能科技有限公司 | 语音交互方法、语音交互系统和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Carlini et al. | Audio adversarial examples: Targeted attacks on speech-to-text | |
JP7427723B2 (ja) | ニューラルネットワークを使用したターゲット話者の声でのテキストからの音声合成 | |
KR102494139B1 (ko) | 뉴럴 네트워크 학습 장치 및 방법과, 음성 인식 장치 및 방법 | |
CN110335587B (zh) | 语音合成方法、系统、终端设备和可读存储介质 | |
CN110211575B (zh) | 用于数据增强的语音加噪方法及系统 | |
KR20170030923A (ko) | 음향 모델 생성 장치 및 방법, 음성 인식 장치 및 방법 | |
CN112185363B (zh) | 音频处理方法及装置 | |
CN113205820B (zh) | 一种用于声音事件检测的声音编码器的生成方法 | |
CN114708857A (zh) | 语音识别模型训练方法、语音识别方法及相应装置 | |
CN110136726A (zh) | 一种语音性别的估计方法、装置、系统及存储介质 | |
US20230267950A1 (en) | Audio signal generation model and training method using generative adversarial network | |
CN112580669B (zh) | 一种对语音信息的训练方法及装置 | |
Shaaban et al. | Audio Deepfake Approaches | |
CN116364085A (zh) | 数据增强方法、装置、电子设备和存储介质 | |
Kong et al. | Data redaction from conditional generative models | |
CN113345410A (zh) | 通用语音、目标语音合成模型的训练方法及相关装置 | |
CN111048065B (zh) | 文本纠错数据生成方法及相关装置 | |
Reimao | Synthetic speech detection using deep neural networks | |
Wang et al. | Revealing the processing history of pitch-shifted voice using CNNs | |
Wu et al. | Understanding the tradeoffs in client-side privacy for downstream speech tasks | |
CN116013274A (zh) | 语音识别的方法、装置、计算机设备和存储介质 | |
Gao | Audio deepfake detection based on differences in human and machine generated speech | |
CN110413739B (zh) | 用于口语语义理解的数据增强方法及系统 | |
Alam et al. | Radon transform of auditory neurograms: a robust feature set for phoneme classification | |
Afonja et al. | Generative extraction of audio classifiers for speaker identification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |