CN113327627B - 一种基于特征解耦的多因素可控的语音转换方法及系统 - Google Patents

一种基于特征解耦的多因素可控的语音转换方法及系统 Download PDF

Info

Publication number
CN113327627B
CN113327627B CN202110567500.3A CN202110567500A CN113327627B CN 113327627 B CN113327627 B CN 113327627B CN 202110567500 A CN202110567500 A CN 202110567500A CN 113327627 B CN113327627 B CN 113327627B
Authority
CN
China
Prior art keywords
voice
decoupling
characterization
factor
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110567500.3A
Other languages
English (en)
Other versions
CN113327627A (zh
Inventor
王洁
吴志勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen International Graduate School of Tsinghua University
Original Assignee
Shenzhen International Graduate School of Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen International Graduate School of Tsinghua University filed Critical Shenzhen International Graduate School of Tsinghua University
Priority to CN202110567500.3A priority Critical patent/CN113327627B/zh
Publication of CN113327627A publication Critical patent/CN113327627A/zh
Application granted granted Critical
Publication of CN113327627B publication Critical patent/CN113327627B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/173Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding

Abstract

本发明提供一种基于特征解耦的多因素可控的语音转换方法及系统,所述方法包括如下步骤:S1、从音频信号中提取出不同的语音表征,其中包括韵律信息;S2、采用Mask‑And‑Predict解码方法利用对抗训练进一步解耦提取出的语音表征;S3、从解耦程度高的语音表征中预测声学特征,并利用声码器进行音频合成。本发明将韵律信息从音频信号中提取出来,而不是混杂在文本、说话人信息内,实现对韵律更精准的控制,降低韵律转换的不确定性。除可转换音色说话人音色外,还可以实现向任意来源的节奏、基频进行转换,因而可控性更高。

Description

一种基于特征解耦的多因素可控的语音转换方法及系统
技术领域
本发明涉及一种语音转换方法及系统,尤其是基于特征解耦的多因素可控的语音转换方法及系统。
背景技术
语音转换技术指的是在不改变语义信息的基础上,转化源说话人的发言使其听起来像是目标说话人说出的一样。语音转换在许多领域应用广泛,包括生成各种表达性的语音转换器,唱歌的新语音效果和跨语言的配音等。同时,语音转换对语音分析、语音合成、说话人识别等其它领域有重要的促进作用。
目前已有的语音转换系统仅从语音信号中解耦出说话人的音色信息和以文本信息为主的剩余信息,转换因素单一,不能转换韵律、音调等,难以满足对于语音交互的表现力多样性的需求。
现有技术中,有一种基于非平行语料的语音转换,由于其训练数据获取难度低、应用场景多而受到了更多的关注,如何利用非平行语料进行训练并实现语音转换的可大致分为构造平行语料和特征解耦两个思路,其中构造平行语料的方法转换后的音频仍然保留源说话人的韵律特征,与目标说话人的相似度不高;基于特征解耦的方法广泛采用的是由编码器和解码器组成的自编码器架构,将语音信号中的文本内容与说话人信息分离开,在训练时使用重建损失约束也即让解码器的输出与编码器的输入越接近越好,在转换时将说话人信息替换为目标说话人的表征,并且会采用对抗训练的说话人分类器来使得文本表征尽可能少地含有说话人信息以提高解耦程度。
但这些方法存在如下缺点:
1)韵律转换效果差。传统方法的韵律信息混杂在说话人信息或是文本信息中,转换后的音频的韵律信息在源说话人与目标说话人二者的韵律信息间滑动,合成音频的自然度低。
2)提取的语音特征不鲁棒。特征提取器本身设计的不完备性以及粗糙的解耦手段导致提取出的特征间的解耦程度有限。
3)可控性低。传统方法多只能实现音色的转换,无法实现其他副语言因子(节奏、音调)可控的语音生成。
4)对齐特性差。目前对于声学特征序列与文本信息序列、节奏序列、基频序列的对齐仅采用简单的填充机制,将短序列均以0值填充到最长序列的长度,导致合成音频的后半段存在发音混乱等现象。
发明内容
本发明的目的是为了解决现有技术中的问题,提出一种基于特征解耦的多因素可控的语音转换方法及系统,提高转换效果,提升鲁棒性、可控性和对齐特性。
为解决上述技术问题,本发明提出一种基于特征解耦的多因素可控的语音转换方法,包括如下步骤:S1、从音频信号中提取出不同的语音表征,其中包括韵律信息;S2、采用Mask-And-Predict解码方法利用对抗训练进一步解耦提取出的语音表征;S3、从解耦程度高的语音表征中预测声学特征,并利用声码器进行音频合成。
在一些实施例中,还包括如下特征:
步骤S1中所述不同的语音表征包括如下语音因子:音色表征、文本表征、节奏表征、基频表征,对不同的语音因子,分配相应的编码器。
对不同的编码器施以不同的信息瓶颈限制各编码器的编码能力。
所述限制包括:限制一、4个编码器的输入不相同,有的是音频,有的只是基频曲线;限制二、对4个编码器的输出在维度上进行限制;限制三、在音高和文本的提取上,加入了随机重采样这一操作来破坏节奏信息。
采取了以下方法中的至少一者提高语音表征学习的效果,以提升步骤S1中的提取效果:方法一、通过多标签二维向量限制节奏编码只能为离散化表征,当采取离散编码时,建模空间有限,节奏编码器会优先编码可以恢复出完整音频的节奏信息;方法二、采用词预测网络从文本表征中预测一个二值的、与词典等大的指示向量,向量的每一维度值为0或1指示该段音频中是否包含对应的词,通过这种显式的损失函数引导,文本编码器会倾向于编码出更有效的文本信息;方法三、采用预训练好的说话人编码器从特定音频中提取对应说话人的表征,从而实现不要求说话人在训练时见过,可实现向集外目标说话人的转换。
步骤S2中,通过降低各语音特征间的互信息以增大提取出的各语音特征间的解耦程度。
采取Mask-And-Predict解码方法来提供显式的正交性保证,训练过程中,随机选取某一个语音因子,将其对应的表征向量置为0,然后用剩余的语音表征来预测被抹掉的这一个;而在反向传播过程中,梯度通过梯度反转层进行反转,从而使得预测得越不准确。
步骤S3中,在训练时,各语音表征是从同一段音频中提取的,解码器的输出越接近输入越好,将编码器的输入替换成目标因素的来源音频,即可实现多因素可控的语音转换。
步骤S3中,采用注意力机制进行动态对齐以解决不同来源的语音表征序列的对齐问题;并施加单调性限制降低转换后音频的错字、漏字问题。
本发明还提出一种基于特征解耦的多因素可控的语音转换方法及系统,包括处理器和存储器,所述存储器中存储有计算机程序,所述计算机程序可被处理器执行以实现如上所述的方法。
与现有技术相比,本发明的有益效果有:本发明将韵律信息从音频信号中提取出来,而不是混杂在文本、说话人信息内,实现对韵律更精准的控制,降低韵律转换的不确定性。除可转换音色说话人音色外,还可以实现向任意来源的节奏、基频进行转换,因而可控性更高。
附图说明
图1为本发明实施例多因素可控的语音转换系统概略示意图。
图2为本发明实施例基于特征解耦的多因素可控的语音转换系统框架示意图。
图3为本发明实施例编码器分别对不同的信息进行编码得到对应的表征的示意图。
图4为本发明实施例Mask-And-Predict提高解耦程度示意图。
图5为本发明实施例多因素可控的语音转换示意图。
具体实施方式
语音信号包含了丰富的信息,包括语言信息、说话人特征、情感、韵律、节奏等等。本发明人认识到,由于包含韵律、情感、音调、节奏等信息的副语言信息的高度耦合性导致语音生成时的可控性低,解耦程度高的语音因子是实现多因素可控语音转换、提高转换语音的质量和相似度的前提,同时也可提升下游任务的性能。其中转换语音的质量评价指标包含主、客观指标,客观是有mcd(mel cepstral distortion),主观包括需要听者来对合成音频的质量、与目标说话人音色的相似度、与目标说话人的风格相似度等进行打分。
本发明下述实施例主要涉及到音色、音调和节奏三方面的转换,如图1所示,是本发明实施例的多因素可控的语音转换系统概略示意图,其主要框架参考图如图2所示,该语音转换框架主要由三部分组成,第一部分是从音频信号中提取出不同的语音表征;第二部分是采用Mask-And-Predict(一种解码方法)的思想利用对抗训练进一步解耦提取出的语音表征;第三部分是从解耦程度高的语音表征中预测声学特征,并利用声码器进行音频合成。
相比之前的方法,本发明实施例有以下几点优势:
1)提高韵律转换的效果。将韵律信息从音频信号中提取出来,而不是混杂在文本、说话人信息内,实现对韵律更精准的控制,降低韵律转换的不确定性。
2)提取的特征更为鲁棒。通过Mask-And-Predict操作,对从特征提取器提取出的互信息高的表征进行了更为显式的正交化处理,提高特征提取的鲁棒性。
3)可控性更高。除可转换音色说话人音色外,还可以实现向任意来源的节奏、基频进行转换。
4)更好的对齐特性。通过引入attention机制(Attention机制为大家广泛应应用于不同长度序列之间的对齐,即为下文提到的“梅尔谱序列与文本序列、节奏序列、基频序列的分别对齐”),实现梅尔谱序列(即decoder的输出,也即预测出声学特征,梅尔普会输入到声码器来进行音频的合成)与文本序列、节奏序列、基频序列的分别对齐,减少合成音频中出现的错误,提高合成音频的质量。
具体方法描述如下:
1、语音表征学习
为了提取出多种不同的语音因子(例如音色表征、文本表征、节奏表征、基频表征等),需要给不同的编码器(编码器与上述语音因子相对应,对上述因子分别编码)施以不同的信息瓶颈限制各编码器的编码能力,这些限制包括:首先4个编码器的输入不相同,有的是音频,有的只是基频曲线;其次4个编码器的输出在维度上进行了限制,限制在比较小的数值;最后,在音高和文本的提取上,加入了随机重采样这一操作来破坏节奏信息,如图3所示。图3是4个编码器分别对不同的信息进行编码,得到对应的表征的示意图。这主要是基于这一假设:即当编码能力有限时,各编码器会优先编码在其他地方无法编码的信息。
本发明采取了以下几种方法提高语音表征学习的效果:
一是通过多标签二维向量限制节奏编码只能为离散化表征,因为节奏编码器的输入是完整的音频信息,如果不加任何限制,节奏编码器会将音频中的所有信息进行编码以获取最好的音频重建效果,当采取离散编码时,建模空间有限,节奏编码器会优先编码可以恢复出完整音频的节奏信息。
二是采用词预测网络从文本表征中预测一个二值的、与词典等大的指示向量,向量的每一维度值为0或1指示该段音频中是否包含对应的词,通过这种显式的损失函数引导,文本编码器会倾向于编码出更有效的文本信息。
三是采用预训练好的说话人编码器从特定音频中提取对应说话人的表征,这就不要求说话人在训练时见过,可实现向集外目标说话人的转换。
通过以上方法,各编码器可学习到不同语音因子的表征。
2、语音表征解耦的对抗学习
由于第一步中仅是将各语音表征因子提取出来(如音色表征、文本表征、节奏表征、基频表征),并未施加任何正交性限制,故这些表征因子间的耦合程度很高,导致转换的音频质量下降,因为不同信息如文本和音色会掺杂在一起,当替换其中某一种时,会造成合成时信息的混乱,进一步降低合成的音频的质量。因此通过降低各语音特征间的互信息以增大提取出的各语音特征间的解耦程度,本发明主要采取Mask-And-Predict的思想来提供显式的正交性保证。但与BERT等模型中使用的Mask-And-Predict操作不同,我们不是使用相邻帧的特征来预测某一帧的特征,而是在同一帧的不同特征之间进行mask和predict;且在mask-and-predict操作之后,我们增加了梯度反转层将梯度回传到自编码器结构中。如图4所示。训练过程中,会随机选取某一个语音因素(或称语音因子,包括音色表征、文本表征、节奏表征、基频表征中的任意一种),将其对应的表征向量置为0,然后用剩余的语音表征来预测被mask掉(置为0即表示对应的信息被抹掉,需要从其他特征中预测)的这一个,这个预测网络会预测得越准确越好,而在反向传播过程中,梯度会通过梯度反转层进行反转,从而使得预测得越不准确。预测的准确度越低就说明剩余表征无法预测出被mask掉的那个表征,即被mask掉的表征与剩余表征间的互信息越少,解耦程度就越高。
3、基于解耦语音表征的语音转换
在训练时,各语音表征是从同一段音频中提取的,解码器的输出越接近输入越好,将编码器的输入(如图2或图5所示)替换成目标因素(即想要转换的某一因素,如音色、基频、节奏等)的来源音频,即可实现多因素可控的语音转换,如图5所示。
为了解决不同来源的语音表征序列的对齐问题,本发明采用注意力机制进行动态对齐,并施加单调性限制降低转换后音频的错字、漏字问题。由于在训练过程中使用的是重建损失进行约束,各序列是同一来源,也就不存在不同长度序列的对齐问题,而在测试时由于不同说话人、不同音频的差异,节奏序列、基频序列、文本序列等序列长度不等,简单的填补机制无法保证合成高质量的音频,而注意力机制在各序列间进行自动的对齐,单调性限制了注意力的对齐特性,减少合成的漏字、错字问题,提高了合成音频的质量。
本发明上述实施例技术方案带来的有益效果可以归纳为:
1、实现了一个可控性更高的语音转换框架(如图5),可转换任意来源的声音的音色、节奏、基频等。
2、提取到的特征鲁棒性强,降低了对特征提取器提取精度的依赖。现有技术中的特征提取器对于维度等非常敏感,也即这个维度大一点或者小一点都会造成提取的特征不纯、相互之间耦合程度高,而这里我们的mask-and-predict模块能够进一步提高这些特征的解耦程度,即使在提取器比较粗糙的情况下仍可得到耦和程度低的表征。
3、提高了韵律转换的效果,实现对韵律更精准的控制,降低韵律转换的不确定性。与现有的方法相比较,现有的方法不能实现韵律的控制或者是比较粗糙的控制,而这里我们将节奏、基频特征分离开来,就可以实现单独的转换,实现更精细的控制。
4、能够更好地对齐不同来源的语音因素序列,提高转换后音频的质量。

Claims (8)

1.一种基于特征解耦的多因素可控的语音转换方法,其特征在于,包括如下步骤:
S1、从音频信号中提取出不同的语音表征,其中包括韵律信息;
S2、采用Mask-And-Predict解码方法利用对抗训练进一步解耦提取出的语音表征;其中,通过降低各语音特征间的互信息以增大提取出的各语音特征间的解耦程度;
S3、从解耦程度高的语音表征中预测声学特征,并利用声码器进行音频合成;
其中,采取Mask-And-Predict解码方法来提供显式的正交性保证,在同一帧的不同特征之间进行mask和predict;训练过程中,随机选取某一个语音因子,将其对应的表征向量置为0,然后用剩余的语音表征来预测被抹掉的这一个;而在反向传播过程中,梯度通过梯度反转层进行反转,将梯度回传到自编码器结构中,从而使得预测得越不准确。
2.如权利要求1所述的基于特征解耦的多因素可控的语音转换方法,其特征在于,步骤S1中所述不同的语音表征包括如下语音因子:音色表征、文本表征、节奏表征、基频表征,对不同的语音因子,分配相应的编码器。
3.如权利要求2所述的基于特征解耦的多因素可控的语音转换方法,其特征在于,对不同的编码器施以不同的信息瓶颈限制各编码器的编码能力。
4.如权利要求3所述的基于特征解耦的多因素可控的语音转换方法,其特征在于,所述限制包括:限制一、4个编码器的输入不相同,有的是音频,有的只是基频曲线;限制二、对4个编码器的输出在维度上进行限制;限制三、在音高和文本的提取上,加入了随机重采样这一操作来破坏节奏信息。
5.如权利要求1所述的基于特征解耦的多因素可控的语音转换方法,其特征在于,采取了以下方法中的至少一者提高语音表征学习的效果,以提升步骤S1中的提取效果:
方法一、通过多标签二维向量限制节奏编码只能为离散化表征,当采取离散编码时,建模空间有限,节奏编码器会优先编码可以恢复出完整音频的节奏信息;
方法二、采用词预测网络从文本表征中预测一个二值的、与词典等大的指示向量,向量的每一维度值为0或1指示所述音频信号中是否包含对应的词,通过这种显式的损失函数引导,文本编码器会倾向于编码出更有效的文本信息;
方法三、采用预训练好的说话人编码器从所述音频信号中提取对应说话人的表征,从而实现不要求说话人在训练时见过,可实现向集外目标说话人的转换。
6.如权利要求1所述的基于特征解耦的多因素可控的语音转换方法,其特征在于,步骤S3中,在训练时,各语音表征是从同一段音频中提取的,解码器的输出越接近输入越好,将编码器的输入替换成目标因素的来源音频,即可实现多因素可控的语音转换。
7.如权利要求6所述的基于特征解耦的多因素可控的语音转换方法,其特征在于,步骤S3中,采用注意力机制进行动态对齐以解决不同来源的语音表征序列的对齐问题;并施加单调性限制降低转换后音频的错字、漏字问题。
8.一种基于特征解耦的多因素可控的语音转换系统,其特征在于,包括处理器和存储器,所述存储器中存储有计算机程序,所述计算机程序可被处理器执行以实现如权利要求1-7中任一项所述的方法。
CN202110567500.3A 2021-05-24 2021-05-24 一种基于特征解耦的多因素可控的语音转换方法及系统 Active CN113327627B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110567500.3A CN113327627B (zh) 2021-05-24 2021-05-24 一种基于特征解耦的多因素可控的语音转换方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110567500.3A CN113327627B (zh) 2021-05-24 2021-05-24 一种基于特征解耦的多因素可控的语音转换方法及系统

Publications (2)

Publication Number Publication Date
CN113327627A CN113327627A (zh) 2021-08-31
CN113327627B true CN113327627B (zh) 2024-04-05

Family

ID=77416554

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110567500.3A Active CN113327627B (zh) 2021-05-24 2021-05-24 一种基于特征解耦的多因素可控的语音转换方法及系统

Country Status (1)

Country Link
CN (1) CN113327627B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023102932A1 (zh) * 2021-12-10 2023-06-15 广州虎牙科技有限公司 音频转换方法、电子设备、程序产品及存储介质
CN114093342B (zh) * 2022-01-24 2022-05-03 中国科学院自动化研究所 一种细粒度韵律建模的语音生成装置、设备及存储介质
CN116778937B (zh) * 2023-03-28 2024-01-23 南京工程学院 一种基于说话人对抗子网络的语音转换方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103021418A (zh) * 2012-12-13 2013-04-03 南京邮电大学 一种面向多时间尺度韵律特征的语音转换方法
US8484022B1 (en) * 2012-07-27 2013-07-09 Google Inc. Adaptive auto-encoders
CN110299149A (zh) * 2019-06-18 2019-10-01 电子科技大学 一种基于注意力机制的语音增强算法
WO2020146873A1 (en) * 2019-01-11 2020-07-16 Applications Technology (Apptek), Llc System and method for direct speech translation system
CN111883149A (zh) * 2020-07-30 2020-11-03 四川长虹电器股份有限公司 一种带情感和韵律的语音转换方法及装置
CN112257471A (zh) * 2020-11-12 2021-01-22 腾讯科技(深圳)有限公司 一种模型训练方法、装置、计算机设备及存储介质
CN112435650A (zh) * 2020-11-11 2021-03-02 四川长虹电器股份有限公司 一种多说话人、多语言的语音合成方法及系统
CN112767958A (zh) * 2021-02-26 2021-05-07 华南理工大学 一种基于零次学习的跨语种音色转换系统及方法
CN112786012A (zh) * 2020-12-31 2021-05-11 科大讯飞股份有限公司 一种语音合成方法、装置、电子设备和存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10347271B2 (en) * 2015-12-04 2019-07-09 Synaptics Incorporated Semi-supervised system for multichannel source enhancement through configurable unsupervised adaptive transformations and supervised deep neural network
KR102525209B1 (ko) * 2016-03-03 2023-04-25 한국전자통신연구원 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 자동 통역 시스템 및 그 동작 방법
US11527174B2 (en) * 2018-06-18 2022-12-13 Pearson Education, Inc. System to evaluate dimensions of pronunciation quality

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8484022B1 (en) * 2012-07-27 2013-07-09 Google Inc. Adaptive auto-encoders
CN103021418A (zh) * 2012-12-13 2013-04-03 南京邮电大学 一种面向多时间尺度韵律特征的语音转换方法
WO2020146873A1 (en) * 2019-01-11 2020-07-16 Applications Technology (Apptek), Llc System and method for direct speech translation system
CN110299149A (zh) * 2019-06-18 2019-10-01 电子科技大学 一种基于注意力机制的语音增强算法
CN111883149A (zh) * 2020-07-30 2020-11-03 四川长虹电器股份有限公司 一种带情感和韵律的语音转换方法及装置
CN112435650A (zh) * 2020-11-11 2021-03-02 四川长虹电器股份有限公司 一种多说话人、多语言的语音合成方法及系统
CN112257471A (zh) * 2020-11-12 2021-01-22 腾讯科技(深圳)有限公司 一种模型训练方法、装置、计算机设备及存储介质
CN112786012A (zh) * 2020-12-31 2021-05-11 科大讯飞股份有限公司 一种语音合成方法、装置、电子设备和存储介质
CN112767958A (zh) * 2021-02-26 2021-05-07 华南理工大学 一种基于零次学习的跨语种音色转换系统及方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Ghazvininejad Marjan et,al..《Mask-Predict: Parallel Decoding of Conditional Masked Language Models》.《Meeting Conference on Empirical Methods in Natural Language Processing / 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP)》.2019,6112-6121. *
K. Qian et,al..《Unsupervised speech decomposition via triple information bottleneck》.《37 th International Conference on Machine Learning》.2020,1-11. *
Liu, Andy T et,al..《 Unsupervised End-to-End Learning of Discrete Linguistic Units for Voice Conversion》.《INTERSPEECH 2019》.2019,1108-1112. *

Also Published As

Publication number Publication date
CN113327627A (zh) 2021-08-31

Similar Documents

Publication Publication Date Title
CN113327627B (zh) 一种基于特征解耦的多因素可控的语音转换方法及系统
CN112863483B (zh) 支持多说话人风格、语言切换且韵律可控的语音合成装置
CN110299131B (zh) 一种可控制韵律情感的语音合成方法、装置、存储介质
CN108899009B (zh) 一种基于音素的中文语音合成系统
CN112802450B (zh) 一种韵律可控的中英文混合的语音合成方法及其系统
CN116364055B (zh) 基于预训练语言模型的语音生成方法、装置、设备及介质
CN113053357B (zh) 语音合成方法、装置、设备和计算机可读存储介质
CN112530403A (zh) 基于半平行语料的语音转换方法和系统
CN112908294A (zh) 一种语音合成方法以及语音合成系统
CN114974218A (zh) 语音转换模型训练方法及装置、语音转换方法及装置
CN111357049A (zh) 自动语音识别装置及方法
CN1085367C (zh) 汉语识别合成型声码器及其韵律信息处理方法
CN114446278A (zh) 语音合成方法及装置、设备以及存储介质
Gong et al. ZMM-TTS: Zero-shot Multilingual and Multispeaker Speech Synthesis Conditioned on Self-supervised Discrete Speech Representations
Peiró Lilja et al. Naturalness enhancement with linguistic information in end-to-end TTS using unsupervised parallel encoding
Vioni et al. Investigating content-aware neural text-to-speech mos prediction using prosodic and linguistic features
Erdogan et al. Tokensplit: Using discrete speech representations for direct, refined, and transcript-conditioned speech separation and recognition
CN114299910B (zh) 语音合成模型的训练方法、使用方法、装置、设备及介质
US11915689B1 (en) Generating audio using auto-regressive generative neural networks
CN117636842B (zh) 基于韵律情感迁移的语音合成系统及方法
CN114566143B (zh) 一种可局部修改内容的语音合成方法及语音合成系统
Liu et al. Emotion-Aware Prosodic Phrasing for Expressive Text-to-Speech
Guo et al. Towards High-Quality Neural TTS for Low-Resource Languages by Learning Compact Speech Representations
Mao et al. Speech synthesis of Chinese Braille with limited training data
CN114203152A (zh) 语音合成方法及其模型训练方法、相关装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant