CN111599368A - 一种基于直方图匹配的自适应实例规一化语音转换方法 - Google Patents

一种基于直方图匹配的自适应实例规一化语音转换方法 Download PDF

Info

Publication number
CN111599368A
CN111599368A CN202010417945.9A CN202010417945A CN111599368A CN 111599368 A CN111599368 A CN 111599368A CN 202010417945 A CN202010417945 A CN 202010417945A CN 111599368 A CN111599368 A CN 111599368A
Authority
CN
China
Prior art keywords
voice
information
speech
speaker
content information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010417945.9A
Other languages
English (en)
Other versions
CN111599368B (zh
Inventor
简志华
朱雅楠
于佳祺
金易帆
孙闽红
钟华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202010417945.9A priority Critical patent/CN111599368B/zh
Publication of CN111599368A publication Critical patent/CN111599368A/zh
Application granted granted Critical
Publication of CN111599368B publication Critical patent/CN111599368B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0018Speech coding using phonetic or linguistical decoding of the source; Reconstruction using text-to-speech synthesis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/173Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开了一种基于直方图匹配的自适应实例规一化语音转换方法,包括:S11.将源语音和目标语音分别输入至编码器中进行编码处理,分别得到语音内容信息和说话人信息;S12.将得到的语音内容信息和说话人信息分别输入自适应实例规一化AdaIN中进行均值和方差的对齐处理;S13.将经过自适应实例规一化AdaIN处理后的语音内容信息和说话人信息通过解码器进行解码,得到解码后的转换语音;S14.将解码后的转换语音输入直方图匹配算法中进行处理,得到最终转换后的语音。本发明将语音的内容信息与说话人信息分开处理,并用直方图进行匹配优化,从而达到训练一个模型完成一对多的语音转换的目的。

Description

一种基于直方图匹配的自适应实例规一化语音转换方法
技术领域
本发明涉及语言转化技术领域,尤其涉及一种基于直方图匹配的自适应实例规一化语音转换方法。
背景技术
语音转换技术是指将源说话人的身份信息转换为目标说话人的身份信息,同时保持语音内容不变,简单地说就是将一个说话人(称之为源)的声音,通过某种手段进行变换,使其听起来仿佛是另一个说话人(称之为目标)说的话。语音转换属于交叉性的学科分支,其内容既涉及到语音学、语义学及心理声学等领域的知识,又涵盖语音信号处理领域的各个方面,如语音的分析与合成、说话人识别、语音编码和增强等。现阶段,语音转换技术在医疗服务、保密通信及生活娱乐的方面有着非常重要的应用。目前,语音转换可以大致分为两类,一类是受监督的,另一类是无监督的。受监督的语音转换已经取得了较好的成果,但是需要源语音与目标语音之间相应语音帧对齐,如果源语音与目标语音之间有巨大差异,就无法达到较好的转换效果,这也限制了其应用推广。
如公开号为CN102737628A的专利公开了一种基于LPC及RBF神经网络的声音转换的方法,包括以下步骤:A、对语音进行预处理;B、对浊音帧进行基频检测;C、对基频检测后的浊音帧进行转换;D、对转换后的基频进行浊音帧参量的提取;E、对提取到的浊音帧参量进行计算,求得一帧浊音帧,然后对该一帧浊音帧进行合成,得到转换后的浊音帧。上述申请提出了一种高质量、计算量适中的语音转换技术方案,但其不足之处在于:该申请案的一种基于LPC及RBF神经网络的声音转换的方法,将待转换语音分解成清音和浊音,又将浊音分成基频、能量、LPC及LSF系数进行语音转换,增加了能量的测量,增大了测量难度和误差,易造成转换后的语音质量不理想的问题。
针对上述技术问题,本发明提出一种基于直方图匹配的自适应实例规一化语音转换方法来解决上述问题。
发明内容
本发明的目的是针对现有技术的缺陷,提供了一种基于直方图匹配的自适应实例规一化语音转换方法。
为了实现以上目的,本发明采用以下技术方案:
一种基于直方图匹配的自适应实例规一化语音转换方法,包括:
S1.将源语音和目标语音分别输入至编码器中进行编码处理,分别得到语音内容信息和说话人信息;
S2.将得到的语音内容信息和说话人信息分别输入自适应实例规一化AdaIN中进行均值和方差的对齐处理;
S3.将经过自适应实例规一化AdaIN处理后的语音内容信息和说话人信息通过解码器进行解码,得到解码后的转换语音;
S4.将解码后的转换语音输入直方图匹配算法中进行处理,得到最终转换后的语音。
进一步的,所述步骤S1中编码器包括内容编码器和说话人编码器。
进一步的,所述步骤S1具体为将源语音输入至内容编码器中进行编码处理,得到语音内容信息;将目标语音输入至说话人编码器中进行编码处理,得到说话人信息。
进一步的,所述步骤S2中进行均值和方差的对齐处理是对输入的语音内容信息进行均值和方差的对齐处理,以匹配说话人信息的均值和方差。
进一步的,所述步骤S2中对输入的语音内容信息进行均值和方差的对齐处理,表示为:
Figure BDA0002495785950000021
Figure BDA0002495785950000022
其中,μ(c)表示语音内容信息的均值;σ(c)表示语音内容信息的方差;M表示卷积层输出的特征映射;W表示维度。
进一步的,所述步骤S2中将得到的语音内容信息和说话人信息分别输入自适应实例规一化AdaIN中进行均值和方差的对齐处理,表示为:
Figure BDA0002495785950000031
其中,AdaIN(c,s)表示语音内容信息和说话人信息输入自适应实例规一化AdaIN进行处理的结果;σ(c)表示语音内容信息的方差;μ(c)表示语音内容信息的均值;σ(s)表示说话人信息的方差;μ(s)表示说话人信息的均值。
进一步的,所述步骤S3中得到解码后的转换语音后还包括分别计算语音内容信息的损失和说话人信息的损失。
进一步的,所述步骤S2之前还包括:
将说话人信息通过残差深度神经网络DNN进行处理。
进一步的,所述步骤S4中进行处理是通过计算目标语音与直方图匹配算法之间的欧氏距离,得到直方图损失。
进一步的,所述步骤S4中进行处理后还包括将语音内容信息的损失、说话人信息的损失、直方图损失进行转换,得到最终转换后的语音。
与现有技术相比,本发明具有以下优点:
(1)通过AdaIN层的应用,可以将语音的内容信息与身份信息分开进行处理,并且可以实现无监督的语音转换,从而解决了需要大量并行数据的弊端,使语音转换的应用范围更加广泛与灵活。
(2)本算法在训练过程中不需要说话人标签,使得数据收集十分容易,并且即使不提供说话人标签,说话人编码器也可以自动学习有意义的说话人嵌入,从而可以实现只训练一个模型即可完成一对多的语音转换。
(3)通过直方图进行匹配,很大程度上提高了转换系统与转换语音的性能,因为直方图包含更多与语音相关的有效统计信息,故以此为驱动转换得到的语音在自然度与流畅性方面质量更好。
附图说明
图1是实施例一提供的一种基于直方图匹配的自适应实例规一化语音转换方法流程图;
图2是实施例一提供的一种基于直方图匹配的自适应实例规一化语音转换方法框架结构图;
图3是实施例一提供的内容编码器结构图。
图4是实施例一提供的说话人编码器结构图;
图5是实施例一提供的解码器结构图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
本发明的目的是针对现有技术的缺陷,提供了一种基于直方图匹配的自适应实例规一化语音转换方法。
本发明将语音的内容信息与说话人信息分开处理,并用直方图进行匹配优化,从而达到训练一个模型完成一对多的语音转换的目的。将源语音和目标语音作为输入,进行编码处理之后由AdaIN层进行均值和方差的对齐。在此过程中,可能会丢失与语音相关的其他统计信息,因此用直方图匹配损失函数来捕获更多的信息。通过直方图匹配的AdaIN层可以更加有效地匹配内容信息与身份信息。
实施例一
本实施例提供一种基于直方图匹配的自适应实例规一化语音转换方法,如图1-2所示,包括步骤:
S11.将源语音和目标语音分别输入至编码器中进行编码处理,分别得到语音内容信息和说话人信息;
S12.将得到的语音内容信息和说话人信息分别输入自适应实例规一化AdaIN中进行均值和方差的对齐处理;
S13.将经过自适应实例规一化AdaIN处理后的语音内容信息和说话人信息通过解码器进行解码,得到解码后的转换语音;
S14.将解码后的转换语音输入直方图匹配算法中进行处理,得到最终转换后的语音。
在步骤S11中,将源语音和目标语音分别输入至编码器中进行编码处理,分别得到语音内容信息和说话人信息。其中,编码器包括内容编码器和说话人编码器。
在内容编码器中使用Conv 1d层来处理所有的频率信息,并通过ConvBank层来捕获长期信息。具体为将源语音X输入至内容编码器中,在内容编码器输出端得到语音内容信息C。其中内容编码器的结构如图3所示。
在说话人编码器中同样使用Conv 1d层来处理频率信息,并通过ConvBank层来捕获长期信息,并且由于平均池化信息的应用使得说话人编码器只学习全局信息。具体为将目标语音Y输入至说话人编码器中,在说话人编码器输出端得到说话人信息S。其中说话人编码器的结构如图4所示。
在步骤S12中,将得到的语音内容信息和说话人信息分别输入自适应实例规一化AdaIN中进行均值和方差的对齐处理。
在本实施例中,在步骤S12之前还包括将说话人信息S输入至自适应实例规一化AdaIN中之前要先经过一个残差深度神经网络(Deep Neural Network,DNN)进行处理,再将经过DNN处理后的说话人信息S输入至自适应实例规一化AdaIN中。
AdaIN接收输入的语音内容信息C和说话人信息S,并通过AdaIN对输入的语音内容信息C进行均值和方差的对齐处理,以匹配说话人信息S的均值和方差。AdaIN具有学习训练映射参数的能力,即它能够根据说话人输入自适应地计算参数。
为了应用AdaIN,需要对输入的语音内容信息进行均值和方差的对齐处理,表示为:
Figure BDA0002495785950000051
Figure BDA0002495785950000052
其中,μ(c)表示语音内容信息的均值;σ(c)表示语音内容信息的方差;M表示卷积层输出的特征映射;W表示维度。
由此得到AdaIN的定义,即将语音内容信息和说话人信息分别输入自适应实例规一化AdaIN中进行均值和方差的对齐处理,表示为:
Figure BDA0002495785950000061
其中,AdaIN(c,s)表示语音内容信息和说话人信息输入自适应实例规一化AdaIN进行处理的结果;σ(c)表示语音内容信息的方差;μ(c)表示语音内容信息的均值;σ(s)表示说话人信息的方差;μ(s)表示说话人信息的均值。
在步骤S13中,将经过自适应实例规一化AdaIN处理后的语音内容信息和说话人信息通过解码器进行解码,得到解码后的转换语音。
解码器在编码器的基础上增加PixelShuffle 1d层进行采样。解码器的输入分别为经过AdaIN处理的说话人信息S和语音内容信息C。其中解码器的结构如图5所示。
在本实施例中,得到解码后的转换语音后还包括分别计算语音内容信息的损失和说话人信息的损失。
在步骤S14中,将解码后的转换语音输入直方图匹配算法中进行处理,得到最终转换后的语音。
本发实施例中的语音转换由直方图进行匹配,从而构成自适应系统。但是由于AdaIN层只考虑了均值与方差,但是影响语音的参数有很多,而直方图包含了很多其他相关参数,故用其进行匹配可以很大程度上优化语音转换系统。鉴于AdaIN层与直方图的使用,则需计算相关的重建损失与直方图损失。当损失达到最小时,完成语音的转换,从而达到转换语音最优化的目的。
其中直方图损失是通过计算目标语音与直方图匹配算法之间的欧氏距离,最后得到直方图损失。
当计算得到语音内容信息的损失、说话人信息的损失、直方图损失后,将语音内容信息的损失、说话人信息的损失、直方图损失进行转换,得到最终转换后的语音。
本实施例语音转换方法步骤S11-S14的具体过程如下:
(1)分别对内容编码器和说话人编码器进行设置。
在内容编码器中使用Conv 1d层来处理所有的频率信息,并通过ConvBank层来捕获长期信息。输入源语音X可以在编码器输出端得到内容的表示C。
在说话人编码器中同样使用Conv 1d层来处理频率信息,ConvBank层来捕获长期信息,并且由于平均池信息的应用使得说话人编码器只学习全局信息。输入目标语音Y,即可在输出端得到说话人信息S。
(2)编码器f分别对输入的语音进行处理,经过训练的内容编码器将源说话人的语音内容信息C进行编码得到输出序列f(c),经过训练的说话人编码器将说话人信息S进行编码得到输出序列f(s);
(3)在特征空间对语音内容信息C与说话人信息S进行编码后,利用得到的输出序列f(c)和f(s),在AdaIN层将语音内容信息特征映射与说话人信息特征映射的均值和方差对齐,从而得到目标语音特征映射t,即:
t=AdaIN(f(c),f(s))
(4)对解码器g进行相应设置,解码器在编码器的基础上增加PixelShuffle1d层进行上采样,并进行随机初始化。将经过AdaIN处理的说话人表示S和内容表示C作为解码器输入,可将t映射回语音空间,生成转换后的语音T,即:
T(c,s)=g(t)
(5)计算出重建的语音内容信息损失与说话人信息损失,从而训练解码器。计算目标语音的特征与输出语音的特征之间的欧氏距离得到语音内容信息损失与说话人信息损失。
语音内容信息损失是目标语音的特征与输出语音内容信息的特征之间的欧氏距离。本实施例使用AdaIN层输出t作为内容目标,即:
Lc=||f(g(t)-t)||
因为AdaIN层只转换了均值和方差,所以说话人信息损失也只包含均值和方差,即:
Figure BDA0002495785950000071
其中,l取决于说话人编码器中的ReLU层。
(6)利用直方图进行统计信息匹配时,首先需要根据值从输出特征值中找出
Figure BDA0002495785950000072
Figure BDA0002495785950000073
从而确定直方图间隔Delta,即:
Figure BDA0002495785950000081
为了更好地进行直方图匹配,必须首先对输入说话人语音S和输出Tij进行归一化。然后,本实施例将它们匹配以获得重新映射的输出H(Tij),并对每个特征重复此过程。然后计算原始输出Tij与重新映射的一个H(Tij)之间的欧式距离,以获得直方图匹配损失函数,即:
Figure BDA0002495785950000082
其中,Tij是卷积层i的输出,j和H(Tij)是直方图重新映射的输出。
(7)总体的AdaIN损失为:
L=Ls+Lc+Lh
整个方法中的损失函数是由语音内容信息损失LC、说话人信息损失LS以及直方图损失Lh构成,从而可以找到转化的最优匹配进行转换,达到生成高质量转换语音的目的。
与现有技术相比,本发明具有以下优点:
(1)通过AdaIN层的应用,可以将语音的内容信息与身份信息分开进行处理,并且可以实现无监督的语音转换,从而解决了需要大量并行数据的弊端,使语音转换的应用范围更加广泛与灵活。
(2)本算法在训练过程中不需要说话人标签,使得数据收集十分容易,并且即使不提供说话人标签,说话人编码器也可以自动学习有意义的说话人嵌入,从而可以实现只训练一个模型即可完成一对多的语音转换。
(3)通过直方图进行匹配,很大程度上提高了转换系统与转换语音的性能,因为直方图包含更多与语音相关的有效统计信息,故以此为驱动转换得到的语音在自然度与流畅性方面质量更好。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种基于直方图匹配的自适应实例规一化语音转换方法,其特征在于,包括:
S1.将源语音和目标语音分别输入至编码器中进行编码处理,分别得到语音内容信息和说话人信息;
S2.将得到的语音内容信息和说话人信息分别输入自适应实例规一化AdaIN中进行均值和方差的对齐处理;
S3.将经过自适应实例规一化AdaIN处理后的语音内容信息和说话人信息通过解码器进行解码,得到解码后的转换语音;
S4.将解码后的转换语音输入直方图匹配算法中进行处理,得到最终转换后的语音。
2.根据权利要求1所述的一种基于直方图匹配的自适应实例规一化语音转换方法,其特征在于,所述步骤S1中编码器包括内容编码器和说话人编码器。
3.根据权利要求2所述的一种基于直方图匹配的自适应实例规一化语音转换方法,其特征在于,所述步骤S1具体为将源语音输入至内容编码器中进行编码处理,得到语音内容信息;将目标语音输入至说话人编码器中进行编码处理,得到说话人信息。
4.根据权利要求1所述的一种基于直方图匹配的自适应实例规一化语音转换方法,其特征在于,所述步骤S2中进行均值和方差的对齐处理是对输入的语音内容信息进行均值和方差的对齐处理,以匹配说话人信息的均值和方差。
5.根据权利要求4所述的一种基于直方图匹配的自适应实例规一化语音转换方法,其特征在于,所述步骤S2中对输入的语音内容信息进行均值和方差的对齐处理,表示为:
Figure FDA0002495785940000011
Figure FDA0002495785940000012
其中,μ(c)表示语音内容信息的均值;σ(c)表示语音内容信息的方差;M表示卷积层输出的特征映射;W表示维度。
6.根据权利要求5所述的一种基于直方图匹配的自适应实例规一化语音转换方法,其特征在于,所述步骤S2中将得到的语音内容信息和说话人信息分别输入自适应实例规一化AdaIN中进行均值和方差的对齐处理,表示为:
Figure FDA0002495785940000021
其中,AdaIN(c,s)表示语音内容信息和说话人信息输入自适应实例规一化AdaIN进行处理的结果;σ(c)表示语音内容信息的方差;μ(c)表示语音内容信息的均值;σ(s)表示说话人信息的方差;μ(s)表示说话人信息的均值。
7.根据权利要求1所述的一种基于直方图匹配的自适应实例规一化语音转换方法,其特征在于,所述步骤S3中得到解码后的转换语音后还包括分别计算语音内容信息的损失和说话人信息的损失。
8.根据权利要求1所述的一种基于直方图匹配的自适应实例规一化语音转换方法,其特征在于,所述步骤S2之前还包括:
将说话人信息通过残差深度神经网络DNN进行处理。
9.根据权利要求7所述的一种基于直方图匹配的自适应实例规一化语音转换方法,其特征在于,所述步骤S4中进行处理是通过计算目标语音与直方图匹配算法之间的欧氏距离,得到直方图损失。
10.根据权利要求9所述的一种基于直方图匹配的自适应实例规一化语音转换方法,其特征在于,所述步骤S4中进行处理后还包括将语音内容信息的损失、说话人信息的损失、直方图损失进行转换,得到最终转换后的语音。
CN202010417945.9A 2020-05-18 2020-05-18 一种基于直方图匹配的自适应实例规一化语音转换方法 Active CN111599368B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010417945.9A CN111599368B (zh) 2020-05-18 2020-05-18 一种基于直方图匹配的自适应实例规一化语音转换方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010417945.9A CN111599368B (zh) 2020-05-18 2020-05-18 一种基于直方图匹配的自适应实例规一化语音转换方法

Publications (2)

Publication Number Publication Date
CN111599368A true CN111599368A (zh) 2020-08-28
CN111599368B CN111599368B (zh) 2022-10-18

Family

ID=72192233

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010417945.9A Active CN111599368B (zh) 2020-05-18 2020-05-18 一种基于直方图匹配的自适应实例规一化语音转换方法

Country Status (1)

Country Link
CN (1) CN111599368B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112259086A (zh) * 2020-10-15 2021-01-22 杭州电子科技大学 一种基于语谱图合成的语音转换方法
CN113689868A (zh) * 2021-08-18 2021-11-23 北京百度网讯科技有限公司 一种语音转换模型的训练方法、装置、电子设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120253794A1 (en) * 2011-03-29 2012-10-04 Kabushiki Kaisha Toshiba Voice conversion method and system
CN104217721A (zh) * 2014-08-14 2014-12-17 东南大学 基于说话人模型对齐的非对称语音库条件下的语音转换方法
CN107545903A (zh) * 2017-07-19 2018-01-05 南京邮电大学 一种基于深度学习的语音转换方法
CN110459232A (zh) * 2019-07-24 2019-11-15 浙江工业大学 一种基于循环生成对抗网络的语音转换方法
US20190385628A1 (en) * 2017-02-28 2019-12-19 The University Of Electro-Communications Voice conversion / voice identity conversion device, voice conversion / voice identity conversion method and program

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120253794A1 (en) * 2011-03-29 2012-10-04 Kabushiki Kaisha Toshiba Voice conversion method and system
CN104217721A (zh) * 2014-08-14 2014-12-17 东南大学 基于说话人模型对齐的非对称语音库条件下的语音转换方法
US20190385628A1 (en) * 2017-02-28 2019-12-19 The University Of Electro-Communications Voice conversion / voice identity conversion device, voice conversion / voice identity conversion method and program
CN107545903A (zh) * 2017-07-19 2018-01-05 南京邮电大学 一种基于深度学习的语音转换方法
CN110459232A (zh) * 2019-07-24 2019-11-15 浙江工业大学 一种基于循环生成对抗网络的语音转换方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
安洁: "基于AHOcoder及GMM模型的语音转换研究", 《中国优秀硕士学位论文全文数据库(电子期刊)》 *
张筱等: "基于多谱特征生成对抗网络的语音转换算法", 《计算机工程与科学》 *
简志华 等: "采用联合字典优化的噪声鲁棒性语音转换算法", 《声学学报》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112259086A (zh) * 2020-10-15 2021-01-22 杭州电子科技大学 一种基于语谱图合成的语音转换方法
CN113689868A (zh) * 2021-08-18 2021-11-23 北京百度网讯科技有限公司 一种语音转换模型的训练方法、装置、电子设备及介质

Also Published As

Publication number Publication date
CN111599368B (zh) 2022-10-18

Similar Documents

Publication Publication Date Title
CN111179911B (zh) 目标语音提取方法、装置、设备、介质和联合训练方法
CN109767756B (zh) 一种基于动态分割逆离散余弦变换倒谱系数的音声特征提取算法
CN103531205B (zh) 基于深层神经网络特征映射的非对称语音转换方法
CN112767954B (zh) 音频编解码方法、装置、介质及电子设备
CN112151030B (zh) 一种基于多模态的复杂场景语音识别方法和装置
Zhen et al. Cascaded cross-module residual learning towards lightweight end-to-end speech coding
US20210217431A1 (en) Voice morphing apparatus having adjustable parameters
CN107039036B (zh) 一种基于自动编码深度置信网络的高质量说话人识别方法
CN111599368B (zh) 一种基于直方图匹配的自适应实例规一化语音转换方法
US11763801B2 (en) Method and system for outputting target audio, readable storage medium, and electronic device
CN111461173A (zh) 一种基于注意力机制的多说话人聚类系统及方法
US11100940B2 (en) Training a voice morphing apparatus
CN115083394B (zh) 一种融合时空属性的实时环境噪声识别方法、系统及设备
CN112927709B (zh) 一种基于时频域联合损失函数的语音增强方法
CN112466297B (zh) 一种基于时域卷积编解码网络的语音识别方法
CN111489763B (zh) 一种基于gmm模型的复杂环境下说话人识别自适应方法
CN114495969A (zh) 一种融合语音增强的语音识别方法
CN116486794A (zh) 一种中英混合语音识别方法
Dendani et al. Self-Supervised Speech Enhancement for Arabic Speech Recognition in Real-World Environments.
US20030101051A1 (en) Distributed speech recognition with codec parameters
Chen et al. TeNC: Low bit-rate speech coding with VQ-VAE and GAN
EP4330962A1 (en) Decoder
Park et al. The Second DIHARD Challenge: System Description for USC-SAIL Team.
Zhang et al. Non-parallel sequence-to-sequence voice conversion for arbitrary speakers
Li et al. A Convolutional Neural Network with Non-Local Module for Speech Enhancement.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant