CN113362805B - 一种音色、口音可控的中英文语音合成方法及装置 - Google Patents

一种音色、口音可控的中英文语音合成方法及装置 Download PDF

Info

Publication number
CN113362805B
CN113362805B CN202110679279.0A CN202110679279A CN113362805B CN 113362805 B CN113362805 B CN 113362805B CN 202110679279 A CN202110679279 A CN 202110679279A CN 113362805 B CN113362805 B CN 113362805B
Authority
CN
China
Prior art keywords
vector
text
language
identification vector
speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110679279.0A
Other languages
English (en)
Other versions
CN113362805A (zh
Inventor
朱海
王昆
周琳珉
刘书君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Qiruike Technology Co Ltd
Original Assignee
Sichuan Qiruike Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Qiruike Technology Co Ltd filed Critical Sichuan Qiruike Technology Co Ltd
Priority to CN202110679279.0A priority Critical patent/CN113362805B/zh
Publication of CN113362805A publication Critical patent/CN113362805A/zh
Application granted granted Critical
Publication of CN113362805B publication Critical patent/CN113362805B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Abstract

本发明提出一种音色、口音可控的中英文语音合成方法及装置,所述方法包括了训练阶段和推理阶段,在训练阶段包括:获取语音训练数据库;将不同语言的文本处理为统一表征方式,并对音频提取声学特征;然后分别进行处理得到文本向量、说话人识别向量及语言识别向量,然后,输出最终的说话人识别向量与语言识别向量,并计算两者的格拉姆矩阵;再将文本向量、最终的说话人识别向量与语言识别向量共同输入到解码器得到预测声学特征;采用损失函数对预测声学特征、声学特征、格拉姆矩阵进行梯度计算,对整个模型进行训练。随后通过训练的模型进行推理阶段实现音频输出,实现了中英文语音合成中对音色变换、口音强弱的控制。

Description

一种音色、口音可控的中英文语音合成方法及装置
技术领域
本发明涉及语音处理技术领域,具体来说涉及一种音色、口音可控的中英文语音合成方法及装置。
背景技术
语音合成是一种将文本信息转换为语音信息的技术,即将文字信息转换为任意的可听的语音。而今,对于中英文混合文本的语音合成任务在各方面都涌现出大量需求,然而如何在保持说话人一致性的条件下,用单语数据建立多说话人、多语言的语言合成系统,并且对音色变换、口音强弱进行控制一直是一个难题。
传统的中英文语音合成系统依赖单人多语的语音数据库(数据录制困难、价格昂贵),并且不能对音色、口音等进行控制。
本发明通过输入目标音频,并从中提取说话人识别向量和语音识别向量,通过注意力网络得到了文本相关的最终说话人识别向量及语言识别向量,并通过使两者的格拉姆矩阵接近零来减小音色和语言的空间依赖,本发明可以通过输入不同的目标音频来控制语音合成系统的音色,通过不同的尺度系数来控制口音强弱,能在保持说话人一致性的条件下实现稳定、高音质的中英文语音合成。
发明内容
本发明所要解决的技术问题是:提出一种音色、口音可控的中英文语音合成方法及装置,解决中英文的语音合成中音色、口音控制的问题。
本发明解决上述问题所采取的技术方案是:
一种音色、口音可控的中英文语音合成方法,其特征在于,包括训练阶段和推理阶段,所述训练阶段包括以下步骤:
步骤S11、获取多说话人、单语言的语音训练数据库;
步骤S12、将不同语言的文本处理为统一表征方式,并对音频提取声学特征;统一表征方式为将不同语言的文本处理为音素、Unicode编码、字符统一的表达方式;
步骤S13、将步骤S12处理后的文本输入文本编码器,得到文本向量;并将步骤S12得到的声学特征分别输入说话人特征提取器及语言特征提取器,得到说话人识别向量及语言识别向量;
步骤S14、将步骤S13得到的文本向量与说话人识别向量、文本向量与语言识别向量分别输入到注意力网络,输出最终的说话人识别向量与语言识别向量,并计算两者的格拉姆矩阵GramMatrix;
步骤S15、将步骤S13得到的文本向量、步骤S14得到的最终的说话人识别向量与语言识别向量共同输入到解码器decoder得到预测声学特征;
步骤S16、采用损失函数对步骤S15得到的预测声学特征、步骤S12得到的声学特征、步骤S14得到的格拉姆矩阵进行梯度计算,对整个模型进行训练。
进一步的,所述推理阶段包括以下步骤:
步骤S21.对待合成文本进行规范化处理,并处理为统一表征方式;
步骤S22.将文本及目标音频分别输入经训练的文本编码器、说话人特征提取器、语言特征提取器,得到文本向量、说话人识别向量、语言识别向量;
步骤S23.将步骤S22得到的文本向量与说话人识别向量、文本向量与语言识别向量分别输入到经训练的注意力网络,得到最终的说话人识别向量与语言识别向量;
步骤S24.将步骤S22得到的文本向量、步骤S23得到的说话人识别向量与语言识别向量共同输入到经训练的解码器,得到预测声学特征,通过对语言识别向量乘以不同的尺度来对预测声学特征的口音强弱进行控制;
步骤S25.采用声码器将步骤S24得到的预测声学特征转换为音频。
进一步的,为了准备训练数据,所述步骤S11还包括:每种语言各具有一定数量的说话人单语语音训练数据库,并涵盖中英文文本及对应的音频。
进一步的,所述步骤S12中的统一表征方式为音素、Unicode编码或字符统一的表达方式;提取的声学特征包括梅尔频谱特征、线性预测系数特征LPC、线性频谱特征、基频F0、频谱包络、以及非周期信号参数。
进一步的,所述步骤S13中的文本编码器和步骤S15中的解码器为循环神经网络结构RNN或自注意力网络结构Transformer。
进一步的,为了对音色、口音进行控制,所述步骤S14具体为:在注意力网络中,文本编码向量作为查询向量query,说话人识别向量或语言识别向量作为键值key-value,输出最终的说话人识别向量与语言识别向量与文本编码向量步长一致。
进一步的,为了重构声学特征,步骤S15还包括:
解码器包括但不限于循环神经网络结构RNN、自注意力网络结构Transformer等;
进一步的,为了将对音色、口音可控的语音合成模型进行训练,所述步骤S16中的损失函数为均方误差损失函数MSE或平均绝对误差损失函数MAE。
进一步的,所述步骤S16为:通过预测声学特征与真实声学特征之间的损失函数实现对声学特征的重构,格拉姆矩阵与0之间的损失函数保证说话人识别特征与语言识别特征的正交,通过梯度回传对整个模型进行训练。
进一步的,为了将预测声学特征转换为音频,所述步骤S25中的声码器为直接将声学特征转换为音频信号的传统信号处理算法或深度学习网络预训练模型。
还提出一种音色、口音可控的中英文语音合成的装置,包括:
文本处理模块,用于将中英文文本规范化处理,并且将文本转换为统一表征方式;统一表征方式为将不同语言的文本处理为音素、
Unicode编码、字符统一的表达方式;
信息编码模块,用于对经过文本处理模块处理后的文本进行编码,得到文本向量;对目标音频进行编码,得到说话人识别向量和语言识别向量;
注意力控制模块,用于将信息编码模块得到的文本编码向量作为查询向量,将信息编码模块得到的说话人识别向量以及语言识别向量作为键值,输出注意力加权后的最终说话人识别向量和语言识别向量;
信息解码模块,用于输入经信息编码模块得到的文本向量、注意力控制模块得到的最终说话人识别向量及语言识别向量,输出预测声学特征;通过对语言识别向量乘以不同的尺度来对预测声学特征的口音强弱进行控制;声码器模块,用于输入信息解码模块得到的预测声学特征,输出音频。
本发明的有益效果是:在编码解码的语音合成模型结构中,通过对目标音频提取与文本向量每个步长相对应的说话人识别向量及语言识别向量,计算格拉姆矩阵来保证两者正交,实现了中英文语音合成中对音色变换、口音强弱的控制。
附图说明
图1为本发明实施例所述的一种音色、口音可控的中英文语音合成方法的流程示意图;
图2为本发明实施例所述的一种音色、口音可控的中英文语音合成模型的结构及训练流程图。
具体实施方式
下面将结合附图对本发明的实施方式进行详细描述。显然,所描述的实施例仅仅是本发明的一部分实施例,而不是本发明的全部实施例,应理解的,本发明不受这里描述的实施例的限制。
实施例1
如图1所示,本发明实施例的一种音色、口音可控的中英文语音合成的方法,包括训练阶段和推理阶段;
其中,训练阶段包括以下步骤:
S11.获取多说话人、单语言的语音训练数据库;
可选的,英文语音合成数据集可以使用LJSpeech、VCTK等公开数据集,中文语音合成数据集使用标贝公司的女生语音数据库以及录制的涵盖20多个人声音的语音数据库。
可理解的,每种语言各具有一定数量的说话人单语语音训练数据库,涵盖中英文文本及对应的音频;
S12.将不同语言的文本处理为统一表征方式,并对音频提取声学特征;
可选的,将不同语言的文本处理为音素、Unicode编码、字符等统一的表达方式;提取的声学特征包括但不限于梅尔频谱特征、线性预测系数特征LPC、线性频谱特征、基频F0、频谱包络、非周期信号参数等;
举例说明,英文文本为“who met him at the door.”,将英文文本转换为音素表达方式,得到“h u1 m ai1 t h i1 m a1 t s i a0 d uo1 r pp4”;中文文本为“我是中国人,我爱中国”,处理为统一的音素表达方式,得到“uo3 sh iii4 pp1 zh ong1 g uo2 ren2 pp3 uo3 ai4zh ong1 g uo2pp4”,再将音素表达通过字符字典转换为对应的ID用于训练,对文本对应的音频提取梅尔频谱特征用于训练。
S13.将S12处理后的文本输入文本编码器得到文本向量,并将S12得到的声学特征分别输入说话人特征提取器及语言特征提取器,提取得到说话人识别向量及语言识别向量;
可选的,文本编码器包括但不限于循环神经网络结构RNN、自注意力网络结构Transformer等;说话人特征提取器及语言特征提取器包括但不限于分别从音频中提取韵律向量,同时辅以说话人分类网络、语言分类网络来提取说话人识别向量、语言识别向量;
举例说明,将处理后的文本经字典转化为ID再输入Transformer结构的文本编码器得到文本向量,说话人特征提取器与语言特征提取器采用卷积加双向LSTM的网络结构,提取器的网络结构相同,但是分别加入了说话人分类与语言分类的辅助网络,将S12提取的梅尔频谱声学特征分别输入说话人特征提取器与语言特征提取器,得到了说话人识别向量与语言识别向量;
S14.将S13得到的文本向量与说话人识别向量、文本向量与语言识别向量分别输入到注意力网络,输出最终的说话人识别向量与语言识别向量,并计算两者的格拉姆矩阵GramMatrix;
可理解的,在注意力网络中,文本编码向量作为查询向量query,说话人识别向量或语言识别向量作为键值key-value,输出与文本编码向量步长一致的最终的说话人识别向量与语言识别向量;
S15.将S13得到的文本向量、S14得到的最终的说话人识别向量与语言识别向量共同输入到解码器decoder得到预测声学特征;
可选的,解码器包括但不限于循环神经网络结构RNN、自注意力网络结构Transformer等。
S16.采用损失函数对S15得到的预测声学特征、S12得到的声学特征、S14得到的格拉姆矩阵进行梯度计算,对整个模型进行训练;
可选的,损失函数包括但不限于均方误差损失函数MSE、平均绝对误差损失函数MAE等;可理解的,预测声学特征与真实声学特征之间的损失函数实现了对声学特征的重构,Gram矩阵与0之间的损失函数保证说话人识别特征与语言识别特征的正交;通过梯度回传对整个模型进行训练;
推理阶段包括以下步骤:
S21.对待合成文本进行规范化处理,并将文本处理为统一表征方式;
S22.将文本及目标音频分别输入经训练的文本编码器、说话人特征提取器、语言特征提取器,得到文本向量、说话人识别向量、语言识别向量;
S23.将S22得到的文本向量与说话人识别向量、文本向量与语言识别向量分别输入到经训练的注意力网络,得到最终的说话人识别向量与语言识别向量;
S24.将S22得到的文本向量、S23得到的说话人识别向量与语言识别向量共同输入到经训练的解码器,得到预测声学特征,通过对语言识别向量乘以不同的尺度来对预测声学特征的口音强弱进行控制;
可选的,推理阶段的文本处理方式与训练阶段基本一致;推理阶段的文本编码器、说话人特征提取器、语言特征提取器、解码器的参数由训练阶段得到,并且网络结构保持一致;可理解的,推理阶段可以根据需要输入不同的目标音频来控制音色;可理解的,推理阶段可以根据需要指定语言识别向量的尺度系数,通过尺度系数来控制语言口音强弱;
举例说明,带合成文本为“我爱china”,经处理为统一的音素表达,得到“uo3 ai4ch ai1 n a0 pp4”,再通过字符字典转换为相应的ID,这里假设为“3,21,4,30,7,10,50”,再输入文本编码器输出文本向量,对目标音频提取梅尔频谱并输入说话人特征提取器与语言特征提取器,输出说话人识别向量与语言识别向量,将文本向量作为查询向量,通过注意力网络输出最终的说话人识别向量与语言识别向量,再将最终的语言识别向量乘上尺度系数与说话人向量、文本向量一同输入解码器得到预测的声学特征;
S25.采用声码器将S24得到的预测声学特征转换为音频。
可选的,所述声码器包括但不限于直接将声学特征转换为音频信号的传统信号处理算法(如WORD、Griffin-Lim等)以及深度学习网络预训练模型(如WaveRNN、WaveNet等)。
通过本实施例1所提供的一种音色、口音可控的中英文语音合成方法,对目标音频提取说话人识别向量、语言识别向量,同时通过注意力网络将其与文本步长进行对齐,得到与文本位置对应的最终说话人识别向量与语言识别向量,将语言识别向量乘以尺度系数,与说话人识别向量、文本向量共同输入解码器得到预测声学特征,通过声码器将其转换为了音频,实现了对音色、口音强弱的控制。训练过程只需要使用多说话人的单语数据,并且语音合成速度极快,合成的语音音质高,稳定性好,能在保持说话人音色一致性的条件下实现不同语言间的流利转换。
实施例2
本发明实施例提供一种音色、口音可控的中英文语音合成装置,包括:
文本处理模块,用于将中英文文本规范化处理,并且将文本转换为统一的表达方式;
可选的,对带合成文本进行正则化等前处理,将不同语言的文本处理为音素、Unicode编码、字符等统一的表达方式,再通过字符字典转化为数字ID;
信息编码模块,用于对经过文本处理模块处理后的文本进行编码,得到文本向量,对目标音频进行编码,得到说话人识别向量和语言识别向量;
可选的,通过文本编码器对文本处理模块的处理结果输出文本编码向量,通过说话人特征提取器与语言特征提取器对目标音频提取得到说话人识别向量、语言识别向量;
注意力控制模块,用于将信息编码模块得到的文本编码向量作为查询向量,将信息编码模块得到的说话人识别向量以及语言识别向量作为键值,输出注意力加权后的最终说话人识别向量和语言识别向量;
可理解的,在注意力网络中,文本编码向量作为查询向量(query),说话人识别向量或语言识别向量作为键值(key-value),输出与文本编码向量步长一致的最终的说话人识别向量与语言识别向量;
信息解码模块,用于输入经信息编码模块得到的文本向量、注意力控制模块得到的最终说话人识别向量及语言识别向量,输出预测声学特征;
可理解的,通过选取不同的目标音频可以对音色进行控制,通过乘以不同的尺度系数,可以对口音强弱进行控制;
声码器模块,用于输入信息解码模块得到的预测声学特征,输出音频。
可选的,声码器包括但不限于直接将声学特征转换为音频信号的传统信号处理算法(如WORD、Griffin-Lim等)以及深度学习网络预训练模型(如WaveRNN、WaveNet等)。
通过本实施例2所提供的一种音色、口音可控的中英文语音合成装置,文本处理模块将中英文文本转换为统一表征方式,信息编码模块分别从文本和音频提取了文本向量、说话人识别向量与语言识别向量,注意力控制模块得到了文本对应的说话人识别向量与语言识别向量,信息解码、声码器模块得到了合成音频。本专利可通过选取不同目标音频对音色进行控制,通过乘以不同的尺度系数对口音强弱进行控制,训练过程只需要使用多说话人的单语数据,并且语音合成速度极快,合成的语音音质高,稳定性好,能在保持说话人音色一致性的条件下实现不同语言间的流利转换。
综上所述,在阅读本详细公开内容之后,本领域技术人员可以明白,前述详细公开内容可以仅以示例的方式呈现,并且可以不是限制性的。尽管这里没有明确说明,本领域技术人员可以理解本申请意图囊括对实施例的各种合理改变,改进和修改。这些改变,改进和修改旨在由本申请提出,并且在本申请的示例性实施例的精神和范围内。最后,应理解,本文公开的申请的实施方案是对本申请的实施方案的原理的说明。其他修改后的实施例也在本申请的范围内。因此,本申请披露的实施例仅仅作为示例而非限制。本领域技术人员可以根据本申请中的实施例采取替代配置来实现本申请中的申请。因此,本申请的实施例不限于申请中被精确地描述过的实施例。

Claims (9)

1.一种音色、口音可控的中英文语音合成方法,其特征在于,包括训练阶段和推理阶段,
所述训练阶段包括以下步骤:
步骤S11、获取多说话人、单语言的语音训练数据库;
步骤S12、将不同语言的文本处理为统一表征方式,并对音频提取声学特征;统一表征方式为将不同语言的文本处理为音素、Unicode编码、字符统一的表达方式;
步骤S13、将步骤S12处理后的文本输入文本编码器,得到文本向量;并将步骤S12得到的声学特征分别输入说话人特征提取器及语言特征提取器,得到说话人识别向量及语言识别向量;
步骤S14、将步骤S13得到的文本向量与说话人识别向量、文本向量与语言识别向量分别输入到注意力网络,输出最终的说话人识别向量与语言识别向量,并计算两者的格拉姆矩阵GramMatrix;
步骤S15、将步骤S13得到的文本向量、步骤S14得到的最终的说话人识别向量与语言识别向量共同输入到解码器decoder得到预测声学特征;
步骤S16、采用损失函数对步骤S15得到的预测声学特征、步骤S12得到的声学特征、步骤S14得到的格拉姆矩阵进行梯度计算,对整个模型进行训练;
所述推理阶段包括以下步骤:
步骤S21.对待合成文本进行规范化处理,并处理为统一表征方式;
步骤S22.将文本及目标音频分别输入经训练的文本编码器、说话人特征提取器、语言特征提取器,得到文本向量、说话人识别向量、语言识别向量;
步骤S23.将步骤S22得到的文本向量与说话人识别向量、文本向量与语言识别向量分别输入到经训练的注意力网络,得到最终的说话人识别向量与语言识别向量;
步骤S24.将步骤S22得到的文本向量、步骤S23得到的说话人识别向量与语言识别向量共同输入到经训练的解码器,得到预测声学特征,通过对语言识别向量乘以不同的尺度来对预测声学特征的口音强弱进行控制;
步骤S25.采用声码器将步骤S24得到的预测声学特征转换为音频。
2.根据权利要求1所述的一种音色、口音可控的中英文语音合成方法,其特征在于,所述步骤S11还包括:每种语言各具有一定数量的说话人单语语音训练数据库,并涵盖中英文文本及对应的音频。
3.根据权利要求1所述的一种音色、口音可控的中英文语音合成方法,其特征在于,所述步骤S12中的统一表征方式为音素、Unicode编码或字符统一的表达方式;提取的声学特征包括梅尔频谱特征、线性预测系数特征LPC、线性频谱特征、基频F0、频谱包络、以及非周期信号参数。
4.根据权利要求1所述的一种音色、口音可控的中英文语音合成方法,其特征在于,所述步骤S13中的文本编码器和步骤S15中的解码器为循环神经网络结构RNN或自注意力网络结构Transformer。
5.根据权利要求1所述的一种音色、口音可控的中英文语音合成方法,其特征在于,所述步骤S14具体为:在注意力网络中,文本编码向量作为查询向量query,说话人识别向量或语言识别向量作为键值key-value,输出最终的说话人识别向量与语言识别向量与文本编码向量步长一致。
6.根据权利要求1所述的一种音色、口音可控的中英文语音合成方法,其特征在于,所述步骤S16中的损失函数为均方误差损失函数MSE或平均绝对误差损失函数MAE。
7.根据权利要求6所述的一种音色、口音可控的中英文语音合成方法,其特征在于,所述步骤S16为:通过预测声学特征与真实声学特征之间的损失函数实现对声学特征的重构,格拉姆矩阵与0之间的损失函数保证说话人识别特征与语言识别特征的正交,通过梯度回传对整个模型进行训练。
8.根据权利要求1所述的一种音色、口音可控的中英文语音合成方法,其特征在于,所述步骤S25中的声码器为直接将声学特征转换为音频信号的传统信号处理算法或深度学习网络预训练模型。
9.一种音色、口音可控的中英文语音合成装置,其特征在于,包括:
文本处理模块,用于将中英文文本规范化处理,并且将文本转换为统一表征方式,统一表征方式为将不同语言的文本处理为音素、Unicode编码、字符统一的表达方式;
信息编码模块,用于对经过文本处理模块处理后的文本进行编码,得到文本向量;对目标音频进行编码,得到说话人识别向量和语言识别向量;
注意力控制模块,用于将信息编码模块得到的文本编码向量作为查询向量,将信息编码模块得到的说话人识别向量以及语言识别向量作为键值,输出注意力加权后的最终说话人识别向量和语言识别向量;
信息解码模块,用于输入经信息编码模块得到的文本向量、注意力控制模块得到的最终说话人识别向量及语言识别向量,输出预测声学特征;通过对语言识别向量乘以不同的尺度来对预测声学特征的口音强弱进行控制;
声码器模块,用于输入信息解码模块得到的预测声学特征,输出音频。
CN202110679279.0A 2021-06-18 2021-06-18 一种音色、口音可控的中英文语音合成方法及装置 Active CN113362805B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110679279.0A CN113362805B (zh) 2021-06-18 2021-06-18 一种音色、口音可控的中英文语音合成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110679279.0A CN113362805B (zh) 2021-06-18 2021-06-18 一种音色、口音可控的中英文语音合成方法及装置

Publications (2)

Publication Number Publication Date
CN113362805A CN113362805A (zh) 2021-09-07
CN113362805B true CN113362805B (zh) 2022-06-21

Family

ID=77535168

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110679279.0A Active CN113362805B (zh) 2021-06-18 2021-06-18 一种音色、口音可控的中英文语音合成方法及装置

Country Status (1)

Country Link
CN (1) CN113362805B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000019415A2 (en) * 1998-09-25 2000-04-06 Creative Technology Ltd. Method and apparatus for three-dimensional audio display
CA2698237A1 (en) * 2007-09-06 2009-03-12 John M. Kowalski Systems and methods for designing a reference signal to be transmitted in a multiplexed cellular system
CN102568472A (zh) * 2010-12-15 2012-07-11 盛乐信息技术(上海)有限公司 说话人可选的语音合成系统及其实现方法
CN107094277A (zh) * 2016-02-18 2017-08-25 谷歌公司 用于在虚拟扬声器阵列上渲染音频的信号处理方法和系统
CN107481713A (zh) * 2017-07-17 2017-12-15 清华大学 一种混合语言语音合成方法及装置
CN112151005A (zh) * 2020-09-28 2020-12-29 四川长虹电器股份有限公司 一种中英文混合的语音合成方法及装置
CN112435650A (zh) * 2020-11-11 2021-03-02 四川长虹电器股份有限公司 一种多说话人、多语言的语音合成方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2489473B (en) * 2011-03-29 2013-09-18 Toshiba Res Europ Ltd A voice conversion method and system

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000019415A2 (en) * 1998-09-25 2000-04-06 Creative Technology Ltd. Method and apparatus for three-dimensional audio display
CA2698237A1 (en) * 2007-09-06 2009-03-12 John M. Kowalski Systems and methods for designing a reference signal to be transmitted in a multiplexed cellular system
CN102568472A (zh) * 2010-12-15 2012-07-11 盛乐信息技术(上海)有限公司 说话人可选的语音合成系统及其实现方法
CN107094277A (zh) * 2016-02-18 2017-08-25 谷歌公司 用于在虚拟扬声器阵列上渲染音频的信号处理方法和系统
CN107481713A (zh) * 2017-07-17 2017-12-15 清华大学 一种混合语言语音合成方法及装置
CN112151005A (zh) * 2020-09-28 2020-12-29 四川长虹电器股份有限公司 一种中英文混合的语音合成方法及装置
CN112435650A (zh) * 2020-11-11 2021-03-02 四川长虹电器股份有限公司 一种多说话人、多语言的语音合成方法及系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
END-TO-END CODE-SWITCHING TTS WITH CROSS-LINGUAL LANGUAGE MODEL;Xuehao Zhou et al.;《IEEE ICASSP 2020》;IEEE;20200514;全文 *
Perceptual-Similarity-Aware Deep Speaker Representation Learning for Multi-Speaker Generative Modeling;Yuki Saito et al.;《IEEE/ACM Transactions on Audio, Speech, and Language Processing》;IEEE;20210215;第29卷;全文 *
基于HCSIPA的中英文混合语音合成;徐英进等;《计算机工程》;中国知网;20120830;第39卷(第4期);全文 *
基于深度学习的中文语音合成;陈梦楠;《中国优秀硕士学位论文全文数据库 (信息科技辑)》;中国学术期刊(光盘版)电子杂志社;20201115(第11期);全文 *

Also Published As

Publication number Publication date
CN113362805A (zh) 2021-09-07

Similar Documents

Publication Publication Date Title
CN112435650B (zh) 一种多说话人、多语言的语音合成方法及系统
CN112863483B (zh) 支持多说话人风格、语言切换且韵律可控的语音合成装置
CN108899009B (zh) 一种基于音素的中文语音合成系统
CN112802448B (zh) 一种新音色生成的语音合成方法和系统
CN110767210A (zh) 一种生成个性化语音的方法及装置
Guo et al. Didispeech: A large scale mandarin speech corpus
CN112102811B (zh) 一种合成语音的优化方法、装置及电子设备
Black et al. The festival speech synthesis system, version 1.4. 2
Wu et al. Multilingual text-to-speech training using cross language voice conversion and self-supervised learning of speech representations
CN113205792A (zh) 一种基于Transformer和WaveNet的蒙古语语音合成方法
Zhao et al. Lhasa-Tibetan speech synthesis using end-to-end model
CN113362805B (zh) 一种音色、口音可控的中英文语音合成方法及装置
JPH08248994A (ja) 声質変換音声合成装置
Zhao et al. Research on voice cloning with a few samples
CN112242134A (zh) 语音合成方法及装置
CN113314097B (zh) 语音合成方法、语音合成模型处理方法、装置和电子设备
CN115359778A (zh) 基于说话人情感语音合成模型的对抗与元学习方法
CN115359775A (zh) 一种端到端的音色及情感迁移的中文语音克隆方法
Yang et al. Cross-Lingual Voice Conversion with Disentangled Universal Linguistic Representations.
JP2709926B2 (ja) 声質変換方法
Zhang et al. Chinese speech synthesis system based on end to end
Cosi et al. A modified" PaIntE" model for Italian TTS
CN113763924B (zh) 声学深度学习模型训练方法、语音生成方法及设备
CN115424604B (zh) 一种基于对抗生成网络的语音合成模型的训练方法
Boco et al. An End to End Bilingual TTS System for Fongbe and Yoruba

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant