CN112466276A - 一种语音合成系统训练方法、装置以及可读存储介质 - Google Patents

一种语音合成系统训练方法、装置以及可读存储介质 Download PDF

Info

Publication number
CN112466276A
CN112466276A CN202011361466.6A CN202011361466A CN112466276A CN 112466276 A CN112466276 A CN 112466276A CN 202011361466 A CN202011361466 A CN 202011361466A CN 112466276 A CN112466276 A CN 112466276A
Authority
CN
China
Prior art keywords
audio data
data
speaker
synthesis system
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202011361466.6A
Other languages
English (en)
Inventor
江明奇
杨喜鹏
张旭
陈云琳
殷昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Go Out And Ask Suzhou Information Technology Co ltd
Original Assignee
Go Out And Ask Suzhou Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Go Out And Ask Suzhou Information Technology Co ltd filed Critical Go Out And Ask Suzhou Information Technology Co ltd
Priority to CN202011361466.6A priority Critical patent/CN112466276A/zh
Publication of CN112466276A publication Critical patent/CN112466276A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明公开了一种语音合成系统训练方法、装置以及可读存储介质,包括:获取针对目标说话人的第一音频数据和对应的文本数据,其中第一音频数据为低质量的数据;获取表征目标话说人唯一身份的特征数据;将第一音频数据、文本数据和特征数据作为已预训练的多说话人语音合成系统的输入再次进行训练,得到目标说话人语音合成系统;其中多说话人语音合成系统预先基于高质量的第二音频数据进行预训练,并且第一音频数据数量少于第二音频数据数量。由此,在已经利用高质量音频数据训练的多说话人语音合成系统基础上再次进行低质量音频数据的训练,经本方案所生成目标说话人语音合成系统在输出目标说话人时会提高音质,并且减少了训练时间。

Description

一种语音合成系统训练方法、装置以及可读存储介质
技术领域
本发明涉及语音合成技术领域,尤其涉及一种语音合成系统训练方法、装置以及可读存储介质。
背景技术
传统的语音合成技术都是基于单个说话人数据训练模型,该方案为每个说话人训练不同的模型,最后会得到多个不同的语音合成系统。单说话人语音合成系统有诸多缺陷,如所需数据量大,成本高,鲁棒性差,模型冗余。
多说话人语音合成技术可以解决上述问题,但针对低质量小样本手机录音时,若直接使用多说话人语音合成技术,否则会导致在手机录音方面的语音合成系统音质差以及整个多说话人语音合成系统训练耗时长的问题。
发明内容
本发明实施例提供了一种语音合成系统训练方法、装置以及可读存储介质,具有提升语音合成的音质,同时减少训练时间的技术效果。
本发明一方面提供一种语音合成系统训练方法,所述方法包括:获取针对目标说话人的第一音频数据和对应的文本数据,其中所述第一音频数据为低质量的数据;获取表征所述目标话说人唯一身份的特征数据;将所述第一音频数据、文本数据和特征数据作为已预训练的多说话人语音合成系统的输入再次进行训练,得到目标说话人语音合成系统;其中所述多说话人语音合成系统预先基于高质量的第二音频数据进行预训练,并且所述第一音频数据数量少于所述第二音频数据数量。
在一可实施方式中,所述获取针对目标说话人的第一音频数据,包括:获取所述第二音频数据所对应的说话人特征数据;根据所获取的说话人特征数据,选取与所述说话人特征数据相同或者相似的第一音频数据。
在一可实施方式中,所述说话人特征数据至少包括年龄信息、音色信息和性别信息中的一个或多个。
在一可实施方式中,在获取针对目标说话人的第一音频数据的过程中,所述方法还包括:对所述第一音频数据至少进行降噪和去回响处理。
在一可实施方式中,所述将所述第一音频数据、文本数据和特征数据作为已预训练的多说话人语音合成系统的输入再次进行训练,得到目标说话人语音合成系统,包括:所述多说话人语音合成系统根据所述第一音频数据和文本数据生成第三音频数据;获取所述第一音频数据所对应的第一声学特征和所述第三音频数据所对应的第二声学特征;若所述第一声学特征和第二声学特征满足预设条件,则训练停止,得到目标说话人语音合成系统。
在一可实施方式中,所述若所述第一声学特征和第二声学特征满足预设条件,则训练停止:所述第一声学特征和第二声学特征的相似度值高于预设阈值,则训练停止。
本发明另一方面提供一种语音合成系统训练装置,所述装置包括:训练数据获取模块,用于获取针对目标说话人的第一音频数据和对应的文本数据,其中所述第一音频数据为低质量的数据;特征数据获取模块,用于获取表征所述目标话说人唯一身份的特征数据;数据训练模块,用于将所述第一音频数据、文本数据和特征数据作为已预训练的多说话人语音合成系统的输入再次进行训练,得到目标说话人语音合成系统;其中所述多说话人语音合成系统预先基于高质量的第二音频数据进行预训练,并且所述第一音频数据数量少于所述第二音频数据数量。
在一可实施方式中,所述训练数据获取模块具体用于:获取所述第二音频数据所对应的说话人特征数据;根据所获取的说话人特征数据,选取与所述说话人特征数据相同或者相似的第一音频数据。
在一可实施方式中,所述数据训练模块具体用于:所述多说话人语音合成系统根据所述第一音频数据和文本数据生成第三音频数据;获取所述第一音频数据所对应的第一声学特征和所述第三音频数据所对应的第二声学特征;若所述第一声学特征和第二声学特征满足预设条件,则训练停止,得到目标说话人语音合成系统。
本发明另一方面提供一种计算机可读存储介质,所述存储介质包括一组计算机可执行指令,当所述指令被执行时用于执行上述任一项所述的语音合成系统训练方法。
在本发明实施例中,在已经利用高质量音频数据训练的多说话人语音合成系统基础上再次进行低质量音频数据的训练,在训练过程中会参考已有权重参数,使得相比较于全部利用低质量音频数据训练语音合成系统而言,经本方案所生成目标说话人语音合成系统在输出目标说话人时会提高音质,并且训练时间也大大减少。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
在附图中,相同或对应的标号表示相同或对应的部分。
图1为本发明实施例一种语音合成系统训练方法的实现流程示意图;
图2为本发明实施例一种语音合成系统训练方法的具体实现示例图;
图3为本发明实施例一种语音合成系统训练装置的结构组成示意图。
具体实施方式
为使本发明的目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而非全部实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例一种语音合成系统训练方法的实现流程示意图;
图2为本发明实施例一种语音合成系统训练方法的具体实现示例图。
结合图1和图2所示,本发明一方面提供一种基于多说话人的语音合成系统训练方法,方法包括:
步骤101,获取针对目标说话人的第一音频数据和对应的文本数据,其中第一音频数据为低质量的数据;
步骤102,获取表征目标话说人唯一身份的特征数据;
步骤103,将第一音频数据、文本数据和特征数据作为已预训练的多说话人语音合成系统的输入再次进行训练,得到目标说话人语音合成系统;其中多说话人语音合成系统预先基于高质量的第二音频数据进行预训练,并且第一音频数据数量少于第二音频数据数量。
本实施例中,在步骤101中,第一音频数据包括是手机或者电脑录音数据,也可以是通过语音合成或者语音拼接技术得到的音频数据,低质量的音频数据可以表征为音频的强度或幅度低、失真度高、频率低和信噪比低等等中的其中一种或者多种。对应的文本数据可通过语音识别系统对第一音频数据进行识别得到,也可以人工手写得到。
在步骤102中,特征数据包括目标说话人的身份ID,指纹数据、瞳孔数据以及人脸数据的其中一种或多种。
在步骤103中,多说话人语音合成系统是预先通过高质量的第二音频数据进行过预训练,具体为事先将大量且高质量的第二音频数据、对应的文本数据以及对应说话人的特征数据输入到多说话人语音合成系统进行训练,以调整多说话人语音合成系统中的权重参数。
再将少量且低质量的第一音频数据、对应的文本数据以及特征数据输入到多说话人语音合成系统中再次进行训练,得到目标说话人语音合成系统,其中目标说话人语音合成系统用于接收文本数据以及特征数据,并输出与目标说话人音色相同或者相近的音频数据。
由此,在已经利用高质量音频数据训练的多说话人语音合成系统基础上再次进行低质量音频数据的训练,在训练过程中会参考已有权重参数,使得相比较于全部利用低质量音频数据训练语音合成系统而言,经本方案所生成目标说话人语音合成系统在输出目标说话人时会提高音质,并且训练时间也大大减少。
在一可实施方式中,获取针对目标说话人的第一音频数据,包括:
获取第二音频数据所对应的说话人特征数据;
根据所获取的说话人特征数据,选取与说话人特征数据相同或者相似的第一音频数据。
本实施例中,说话人特征数据至少包括年龄信息、音色信息和性别信息中的其中一个或多个,在选取第一音频数据时,优先选取与说话人特征数据相同或者相似的第一音频数据,其中数据相同包括年龄相同或者性别相同,相似包括音色信息中的频率相近或者幅度相近。比如若多说话人语音合成系统在预训练过程中选择的第二音频数据为男性,那么第一音频数据对应的目标说话人也优选为男性,从这可以使多说话人语音合成系统再次训练过程中减少已有权重参数的变动幅度,进而使得目标说话人语音合成系统所输出的音频数据仍能保持很高的质量。
在一可实施方式中,在获取针对目标说话人的第一音频数据的过程中,方法还包括:
对第一音频数据至少进行降噪和去回响处理。
本实施例中,降噪处理具体可以利用现有的音频降噪算法对第一音频数据进行降噪,比如维纳滤波降噪、LMS自适应滤波器降噪等。去回响处理可以通过现有的自适应滤波器和自适应算法进行去除。
在一可实施方式中,将第一音频数据、文本数据和特征数据作为已预训练的多说话人语音合成系统的输入再次进行训练,得到目标说话人语音合成系统,包括:
多说话人语音合成系统根据第一音频数据和文本数据生成第三音频数据;
获取第一音频数据所对应的第一声学特征和第三音频数据所对应的第二声学特征;
若第一声学特征和第二声学特征满足预设条件,则训练停止,得到目标说话人语音合成系统。
本实施例中,第一声学特征和第二声学特征包括基频特征、共振峰特征、梅尔频率倒谱系数等等,其中基频特征的提取方式有自相关函数法、平均幅度差法或者小波法;共振峰提取方式有倒谱法、线性预测分析方法或者带通滤波组法;梅尔频率倒谱系数可以通过先对音频数据进行预加重、分帧和加窗等预处理,再对每一个短时分析窗,通过FFT得到对应的频谱;将频谱通过梅尔滤波器组得到梅尔频谱;在梅尔频谱上面进行倒谱分析得到。
在一可实施方式中,若第一声学特征和第二声学特征满足预设条件,则训练停止:
第一声学特征和第二声学特征的相似度值高于预设阈值,则训练停止。
本实施例中,声学特征包括基频特征、共振峰特征、梅尔频率倒谱系数等等,那么可以具体选取基频特征、共振峰特征、梅尔频率倒谱系数中的一个或多个进行相似度计算,得到单个或者多个相似度值,若单个相似度值或者多个相似度值高于预设阈值,说明所生成的第二音频数据已经接近表征真实数据的第一音频数据,此时训练停止;反之,则继续选取其他音频数据、对应的文本数据和特征数据继续训练。
图3为本发明实施例一种语音合成系统训练装置的结构组成示意图。
结合图3所示,本发明实施例另一方面提供一种语音合成系统训练装置,装置包括:
训练数据获取模块201,用于获取针对目标说话人的第一音频数据和对应的文本数据,其中第一音频数据为低质量的数据;
特征数据获取模块202,用于获取表征目标话说人唯一身份的特征数据;
数据训练模块203,用于将第一音频数据、文本数据和特征数据作为已预训练的多说话人语音合成系统的输入再次进行训练,得到目标说话人语音合成系统;其中多说话人语音合成系统预先基于高质量的第二音频数据进行预训练,并且第一音频数据数量少于第二音频数据数量。
本实施例中,在训练数据获取模块201中,第一音频数据包括是手机或者电脑录音数据,也可以是通过语音合成或者语音拼接技术得到的音频数据,低质量的音频数据可以表征为音频的强度或幅度低、失真度高、频率低和信噪比低等等中的其中一种或者多种。对应的文本数据可通过语音识别系统对第一音频数据进行识别得到,也可以人工手写得到。
在特征数据获取模块202中,特征数据包括目标说话人的身份ID,指纹数据、瞳孔数据以及人脸数据的其中一种或多种。
在数据训练模块203中,多说话人语音合成系统是预先通过高质量的第二音频数据进行过预训练,具体为事先将大量且高质量的第二音频数据、对应的文本数据以及对应说话人的特征数据输入到多说话人语音合成系统进行训练,以调整多说话人语音合成系统中的权重参数。
再将少量且低质量的第一音频数据、对应的文本数据以及特征数据输入到多说话人语音合成系统中再次进行训练,得到目标说话人语音合成系统,其中目标说话人语音合成系统用于接收文本数据以及特征数据,并输出与目标说话人音色相同或者相近的音频数据。
由此,在已经利用高质量音频数据训练的多说话人语音合成系统基础上再次进行低质量音频数据的训练,在训练过程中会参考已有权重参数,使得相比较于全部利用低质量音频数据训练语音合成系统而言,经本方案所生成目标说话人语音合成系统在输出目标说话人时会提高音质,并且训练时间也大大减少。
在一可实施方式中,训练数据获取模块201具体用于:
获取第二音频数据所对应的说话人特征数据;
根据所获取的说话人特征数据,选取与说话人特征数据相同或者相似的第一音频数据。
本实施例中,说话人特征数据至少包括年龄信息、音色信息和性别信息中的其中一个或多个,在选取第一音频数据时,优先选取与说话人特征数据相同或者相似的第一音频数据,其中数据相同包括年龄相同或者性别相同,相似包括音色信息中的频率相近或者幅度相近。比如若多说话人语音合成系统在预训练过程中选择的第二音频数据为男性,那么第一音频数据对应的目标说话人也优选为男性,从这可以使多说话人语音合成系统再次训练过程中减少已有权重参数的变动幅度,进而使得目标说话人语音合成系统所输出的音频数据仍能保持很高的质量。
在一可实施方式中,数据训练模块203具体用于:
多说话人语音合成系统根据第一音频数据和文本数据生成第三音频数据;
获取第一音频数据所对应的第一声学特征和第三音频数据所对应的第二声学特征;
若第一声学特征和第二声学特征满足预设条件,则训练停止,得到目标说话人语音合成系统。
本实施例中,第一声学特征和第二声学特征包括基频特征、共振峰特征、梅尔频率倒谱系数等等,其中基频特征的提取方式有自相关函数法、平均幅度差法或者小波法;共振峰提取方式有倒谱法、线性预测分析方法或者带通滤波组法;梅尔频率倒谱系数可以通过先对音频数据进行预加重、分帧和加窗等预处理,再对每一个短时分析窗,通过FFT得到对应的频谱;将频谱通过梅尔滤波器组得到梅尔频谱;在梅尔频谱上面进行倒谱分析得到。满足预设条件包括:具体选取基频特征、共振峰特征、梅尔频率倒谱系数中的一个或多个进行相似度计算,得到单个或者多个相似度值,若单个相似度值或者多个相似度值高于预设阈值,说明所生成的第二音频数据已经接近表征真实数据的第一音频数据,此时训练停止;反之,则继续选取其他音频数据、对应的文本数据和特征数据继续训练。
本发明另一方面提供一种计算机可读存储介质,存储介质包括一组计算机可执行指令,当指令被执行时用于执行上述任一项的语音合成系统训练方法。
在本发明实施例中计算机可读存储介质包括一组计算机可执行指令,当指令被执行时用于,获取针对目标说话人的第一音频数据和对应的文本数据,其中第一音频数据为低质量的数据;获取表征目标话说人唯一身份的特征数据;将第一音频数据、文本数据和特征数据作为已预训练的多说话人语音合成系统的输入再次进行训练,得到目标说话人语音合成系统;其中多说话人语音合成系统预先基于高质量的第二音频数据进行预训练,并且第一音频数据数量少于第二音频数据数量。
由此,在已经利用高质量音频数据训练的多说话人语音合成系统基础上再次进行低质量音频数据的训练,在训练过程中会参考已有权重参数,使得相比较于全部利用低质量音频数据训练语音合成系统而言,经本方案所生成目标说话人语音合成系统在输出目标说话人时会提高音质,并且训练时间也大大减少。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种语音合成系统训练方法,其特征在于,所述方法包括:
获取针对目标说话人的第一音频数据和对应的文本数据,其中所述第一音频数据为低质量的数据;
获取表征所述目标话说人唯一身份的特征数据;
将所述第一音频数据、文本数据和特征数据作为已预训练的多说话人语音合成系统的输入再次进行训练,得到目标说话人语音合成系统;其中所述多说话人语音合成系统预先基于高质量的第二音频数据进行预训练,并且所述第一音频数据数量少于所述第二音频数据数量。
2.根据权利要求1所述的方法,其特征在于,所述获取针对目标说话人的第一音频数据,包括:
获取所述第二音频数据所对应的说话人特征数据;
根据所获取的说话人特征数据,选取与所述说话人特征数据相同或者相似的第一音频数据。
3.根据权利要求2所述的方法,其特征在于,所述说话人特征数据至少包括年龄信息、音色信息和性别信息中的一个或多个。
4.根据权利要求1或2所述的方法,其特征在于,在获取针对目标说话人的第一音频数据的过程中,所述方法还包括:
对所述第一音频数据至少进行降噪和去回响处理。
5.根据权利要求1所述的方法,其特征在于,所述将所述第一音频数据、文本数据和特征数据作为已预训练的多说话人语音合成系统的输入再次进行训练,得到目标说话人语音合成系统,包括:
所述多说话人语音合成系统根据所述第一音频数据和文本数据生成第三音频数据;
获取所述第一音频数据所对应的第一声学特征和所述第三音频数据所对应的第二声学特征;
若所述第一声学特征和第二声学特征满足预设条件,则训练停止,得到目标说话人语音合成系统。
6.根据权利要求5所述的方法,其特征在于,所述若所述第一声学特征和第二声学特征满足预设条件,则训练停止:
所述第一声学特征和第二声学特征的相似度值高于预设阈值,则训练停止。
7.一种语音合成系统训练装置,其特征在于,所述装置包括:
训练数据获取模块,用于获取针对目标说话人的第一音频数据和对应的文本数据,其中所述第一音频数据为低质量的数据;
特征数据获取模块,用于获取表征所述目标话说人唯一身份的特征数据;
数据训练模块,用于将所述第一音频数据、文本数据和特征数据作为已预训练的多说话人语音合成系统的输入再次进行训练,得到目标说话人语音合成系统;其中所述多说话人语音合成系统预先基于高质量的第二音频数据进行预训练,并且所述第一音频数据数量少于所述第二音频数据数量。
8.根据权利要求7所述的装置,其特征在于,所述训练数据获取模块具体用于:
获取所述第二音频数据所对应的说话人特征数据;
根据所获取的说话人特征数据,选取与所述说话人特征数据相同或者相似的第一音频数据。
9.根据权利要求7所述的装置,其特征在于,所述数据训练模块具体用于:
所述多说话人语音合成系统根据所述第一音频数据和文本数据生成第三音频数据;
获取所述第一音频数据所对应的第一声学特征和所述第三音频数据所对应的第二声学特征;
若所述第一声学特征和第二声学特征满足预设条件,则训练停止,得到目标说话人语音合成系统。
10.一种计算机可读存储介质,其特征在于,所述存储介质包括一组计算机可执行指令,当所述指令被执行时用于执行权利要求1-6任一项所述的语音合成系统训练方法。
CN202011361466.6A 2020-11-27 2020-11-27 一种语音合成系统训练方法、装置以及可读存储介质 Withdrawn CN112466276A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011361466.6A CN112466276A (zh) 2020-11-27 2020-11-27 一种语音合成系统训练方法、装置以及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011361466.6A CN112466276A (zh) 2020-11-27 2020-11-27 一种语音合成系统训练方法、装置以及可读存储介质

Publications (1)

Publication Number Publication Date
CN112466276A true CN112466276A (zh) 2021-03-09

Family

ID=74808044

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011361466.6A Withdrawn CN112466276A (zh) 2020-11-27 2020-11-27 一种语音合成系统训练方法、装置以及可读存储介质

Country Status (1)

Country Link
CN (1) CN112466276A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113053353A (zh) * 2021-03-10 2021-06-29 重庆度小满优扬科技有限公司 一种语音合成模型的训练方法及装置
CN113593521A (zh) * 2021-07-29 2021-11-02 北京三快在线科技有限公司 语音合成方法、装置、设备及可读存储介质
CN117953855A (zh) * 2024-03-26 2024-04-30 粤港澳大湾区数字经济研究院(福田) 语音合成模型的训练方法、语音合成方法及设备

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113053353A (zh) * 2021-03-10 2021-06-29 重庆度小满优扬科技有限公司 一种语音合成模型的训练方法及装置
CN113053353B (zh) * 2021-03-10 2022-10-04 度小满科技(北京)有限公司 一种语音合成模型的训练方法及装置
CN113593521A (zh) * 2021-07-29 2021-11-02 北京三快在线科技有限公司 语音合成方法、装置、设备及可读存储介质
CN117953855A (zh) * 2024-03-26 2024-04-30 粤港澳大湾区数字经济研究院(福田) 语音合成模型的训练方法、语音合成方法及设备
CN117953855B (zh) * 2024-03-26 2024-06-18 粤港澳大湾区数字经济研究院(福田) 语音合成模型的训练方法、语音合成方法及设备

Similar Documents

Publication Publication Date Title
CN108597496B (zh) 一种基于生成式对抗网络的语音生成方法及装置
WO2019232829A1 (zh) 声纹识别方法、装置、计算机设备及存储介质
CN106935248B (zh) 一种语音相似度检测方法及装置
CN112466276A (zh) 一种语音合成系统训练方法、装置以及可读存储介质
CN108922541A (zh) 基于dtw和gmm模型的多维特征参数声纹识别方法
CN108305639B (zh) 语音情感识别方法、计算机可读存储介质、终端
CN109036437A (zh) 口音识别方法、装置、计算机装置及计算机可读存储介质
CN108682432B (zh) 语音情感识别装置
CN110942766A (zh) 音频事件检测方法、系统、移动终端及存储介质
Archana et al. Gender identification and performance analysis of speech signals
Murugappan et al. DWT and MFCC based human emotional speech classification using LDA
WO2023070874A1 (zh) 一种声纹识别方法
CN111489763B (zh) 一种基于gmm模型的复杂环境下说话人识别自适应方法
CN112397074A (zh) 基于mfcc和向量元学习的声纹识别方法
CN110931045A (zh) 基于卷积神经网络的音频特征生成方法
CN114613389A (zh) 一种基于改进mfcc的非语音类音频特征提取方法
CN112017658A (zh) 一种基于智能人机交互的操作控制系统
CN112116909A (zh) 语音识别方法、装置及系统
CN111785262B (zh) 一种基于残差网络及融合特征的说话人年龄性别分类方法
Mardhotillah et al. Speaker recognition for digital forensic audio analysis using support vector machine
CN114512133A (zh) 发声对象识别方法、装置、服务器及存储介质
CN112908340A (zh) 一种基于全局-局部加窗的声音特征快速提取方法
CN113516987A (zh) 一种说话人识别方法、装置、存储介质及设备
CN108962249B (zh) 一种基于mfcc语音特征的语音匹配方法及存储介质
Tahliramani et al. Performance Analysis of Speaker Identification System With and Without Spoofing Attack of Voice Conversion

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20210309

WW01 Invention patent application withdrawn after publication