CN117877499A - 语音转换模型训练方法、语音转换方法、电子设备和介质 - Google Patents

语音转换模型训练方法、语音转换方法、电子设备和介质 Download PDF

Info

Publication number
CN117877499A
CN117877499A CN202410195469.9A CN202410195469A CN117877499A CN 117877499 A CN117877499 A CN 117877499A CN 202410195469 A CN202410195469 A CN 202410195469A CN 117877499 A CN117877499 A CN 117877499A
Authority
CN
China
Prior art keywords
voice
target
source
sample
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410195469.9A
Other languages
English (en)
Inventor
盛乐园
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Xiaoying Innovation Technology Co ltd
Original Assignee
Hangzhou Xiaoying Innovation Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Xiaoying Innovation Technology Co ltd filed Critical Hangzhou Xiaoying Innovation Technology Co ltd
Priority to CN202410195469.9A priority Critical patent/CN117877499A/zh
Publication of CN117877499A publication Critical patent/CN117877499A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本申请提供了一种语音转换模型训练方法、语音转换方法、电子设备和介质,语音转换模型训练方法包括:获取样本源语音,对样本源语音进行预设声学维度的变换,生成样本源语音的中间语音,获取中间语音的样本声学特征,采用初始编码网络,对样本声学特征进行特征编码,得到样本编码特征,获取样本源语音对应样本说话人的语音特征,采用初始解码网络,根据样本编码特征和样本说话人的语音特征,生成样本转换语音,根据样本源语音和样本转换语音,调整初始编码网络的参数和初始解码网络的参数,得到包括目标编码网络和目标解码网络的语音转换模型。本方案语音转换模型,能够实现跨语言和音调跨度大的语音转换,转换后语音在质量和自然度上的效果更佳。

Description

语音转换模型训练方法、语音转换方法、电子设备和介质
技术领域
本申请涉及计算机技术领域,具体而言,涉及一种语音转换模型训练方法、语音转换方法、电子设备和介质。
背景技术
随着语音转换技术的快速发展,在娱乐、游戏等领域,为了增强趣味性,对语音的处理编辑显得尤为重要。
现阶段,往往采用语音转换技术将一段语音的音色转换为指定的目标音色,其中,在语音转换过程中存在跨语言挑战和音调跨度挑战,跨语言挑战指的是由于不同语言具有不同发音特点,在转换过程中需要适应不同语言的语音特征,音调跨度挑战指的是转换前后的语音具有跨度较大的音调,在转换过程中需要调整音调。
然而,采用上述方法进行语音转换时,转换后语音不够自然,且质量较差。
发明内容
有鉴于此,本申请实施例提供了一种语音转换模型训练方法、语音转换方法、电子设备和介质,以适应不同语言和音调差异,使得转换后语音自然、质量高。
第一方面,本申请实施例提供了一种语音转换模型训练方法,包括:
获取样本源语音;
对所述样本源语音进行预设声学维度的变换,生成所述样本源语音的中间语音;
获取所述中间语音的样本声学特征;
采用初始编码网络,对所述样本声学特征进行特征编码,得到样本编码特征;
获取所述样本源语音对应样本说话人的语音特征;
采用初始解码网络,根据所述样本编码特征和所述样本说话人的语音特征,生成样本转换语音;
根据所述样本源语音和所述样本转换语音,调整所述初始编码网络的参数和所述初始解码网络的参数,得到包括目标编码网络和目标解码网络的语音转换模型。
在一可选的实施方式中,所述获取所述中间语音的样本声学特征,包括:
采用初始语音识别网络,对所述中间语音进行处理,得到样本内容特征;
获取所述中间语音的音高信息和音强信息,所述样本声学特征包括:所述样本内容特征、所述中间语音的音高信息和音强信息;
所述方法还包括:
根据所述样本源语音和所述样本转换语音,调整所述初始语音识别网络的参数,得到目标语音识别网络,所述语音转换模型还包括:所述目标语音识别网络。
在一可选的实施方式中,所述获取所述样本源语音对应样本说话人的语音特征,包括:
从所述样本源语音中分别提取样本音色信息、样本音高信息以及样本音强信息,所述样本说话人的语音特征包括:所述样本音色信息、所述样本音高信息以及所述样本音强信息。
第二方面,本申请实施例还提供了一种语音转换方法,包括:
获取待转换源语音和目标语音;
获取所述待转换源语音的源声学特征;
采用语音转换模型中的目标编码网络,对所述源声学特征进行特征编码,得到所述待转换源语音的源编码特征,所述语音转换模型为采用第一方面任一项所述的方法训练得到的;
获取所述目标语音对应目标说话人的语音特征;
采用所述语音转换模型中的目标解码网络,根据所述源编码特征和所述目标说话人的语音特征,生成转换后语音。
在一可选的实施方式中,所述获取所述目标语音对应目标说话人的语音特征,包括:
从所述目标语音中分别提取所述目标说话人的音色信息、目标音高信息以及目标音强信息;
根据所述目标音高信息以及所述目标音强信息,得到所述目标说话人的说话风格分布信息,所述目标说话人的语音特征包括:所述目标说话人的音色信息和所述目标说话人的说话风格分布信息。
在一可选的实施方式中,所述源声学特征包括:源音高信息以及源音强信息;
所述根据所述目标音高信息以及所述目标音强信息,得到所述目标说话人的说话风格分布信息,包括:
对所述源音高信息以及所述源音强信息分别进行归一化,得到源归一化音高信息以及源归一化音强信息;
根据所述目标音高信息、所述目标音强信息、所述源归一化音高信息以及所述源归一化音强信息,得到所述目标说话人的说话风格分布信息。
在一可选的实施方式中,所述根据所述目标音高信息、所述目标音强信息、所述源归一化音高信息以及所述源归一化音强信息,得到所述目标说话人的说话风格分布信息,包括:
根据所述目标音高信息,计算目标音高均值和目标音高方差;
根据所述目标音强信息,计算目标音强均值和目标音高方差;
根据所述源归一化音高信息、所述目标音高均值以及所述目标音高方差,获取所述目标说话人的说话音高分布信息;
根据所述源归一化音强信息、所述目标音强均值以及所述目标音高方差,获取所述目标说话人的说话音强分布信息。
在一可选的实施方式中,所述获取所述待转换源语音的源声学特征,包括:
采用所述语音转换模型中的目标语音识别网络,对所述待转换源语音进行处理,得到源内容特征;
获取所述待转换源语音的源音高信息和源音强信息,所述源声学特征包括:所述源内容特征、所述源音高信息和源音强信息。
第三方面,本申请实施例还提供了一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述处理器执行所述机器可读指令,以执行第一方面和第二方面任一项所述的方法。
第四方面,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行第一方面和第二方面任一项所述的方法。
本申请提供了一种语音转换模型训练方法、语音转换方法、电子设备和介质,语音转换模型训练方法包括:获取样本源语音,对样本源语音进行预设声学维度的变换,生成样本源语音的中间语音,获取中间语音的样本声学特征,采用初始编码网络,对样本声学特征进行特征编码,得到样本编码特征,获取样本源语音对应样本说话人的语音特征,采用初始解码网络,根据样本编码特征和样本说话人的语音特征,生成样本转换语音,根据样本源语音和样本转换语音,调整初始编码网络的参数和初始解码网络的参数,得到包括目标编码网络和目标解码网络的语音转换模型。本方案语音转换模型,能够实现跨语言和音调跨度大的语音转换,转换后语音在质量和自然度上的效果更佳。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的语音转换模型训练方法的流程示意图一;
图2为本申请实施例提供的语音转换模型训练方法的流程示意图二;
图3为本申请实施例提供的语音转换方法的流程示意图一;
图4为本申请实施例提供的语音转换方法的流程示意图二;
图5为本申请实施例提供的语音转换方法的流程示意图三;
图6为本申请实施例提供的语音转换方法的流程示意图四;
图7为本申请实施例提供的语音转换模型训练装置的结构示意图;
图8为本申请实施例提供的语音转换装置的结构示意图;
图9为本申请实施例提供的电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
针对语音音色转换,存在跨语言挑战和音调跨度挑战,其中,跨语言挑战指的是由于不同语言具有不同的发音特点,在语音音色转换上需要适应不同语言的语音特征,以确保转换后语音在发音上更加准确和自然,音调跨度挑战指的是转换前后的语音跨度较大,例如,转换前的语音具有较高音调,如女声或童声,而指定音色为男生时,音调差异较大,这种情况下转换后语音可能保持较高的音调,与指定男声音调不符,因此在语音音色转换上需要考虑如何调整音调使得转换后语音更好地匹配指定音色的音调特征,以确保整体音质更为自然。现阶段所采用的语音转换技术在进行语音转换时,转换后语音不够自然,且质量较差。
基于此,本申请提供的语音转换模型,能够实现跨语言和音调跨度大的语音转换,使得转换后语音在质量和自然度上的效果更佳。
图1为本申请实施例提供的语音转换模型训练方法的流程示意图一,本实施例的执行主体可以为电子设备,如终端、服务器。
如图1所示,该方法可以包括:
S101、获取样本源语音。
其中,样本源语音的数量为多个,样本源语音可以为任意说话人的中文语音或者英文语音,本实施例对此不做特别限定。
S102、对样本源语音进行预设声学维度的变换,生成样本源语音的中间语音。
对样本源语音进行预设声学维度的变化,生成样本源语音的中间语音,其中,中间语音的语音内容与样本源语音的语音内容相同,预设声学维度例如可以为音色、音调,也就是说,对样本源语音进行音色和/或音调的变换,生成样本源语音的中间语音。
S103、获取中间语音的样本声学特征。
其中,中间语音的样本声学特征为中间语音的声学特征,从中间语音中提取中间语音的声学特征,中间语音的声学特征可以包括中间语音的音高信息、音强信息以及内容特征,其中,内容特征用于指示中间语音的语音内容。
值得说明的是,通过生成中间语音,能够增强模型的鲁棒性并解决数据集中缺乏平行数据的问题,从而使模型更能适应不同的语音变化。同时,由于在提取语音的内容特征可能会携带有语音的音色、音高等信息,为了避免直接从样本源语音中提取的内容特征由于携带有样本源语音的音色、音高等信息,对模型训练造成干扰,因此通过生成中间语音,以提取中间语音的内容特征,这样内容特征中携带有中间语音的音色、音高等信息,但由于在模型训练时,并不基于中间语音的说话人的语音特征进行模型训练,所以内容特征所携带的中间语音的音色、音高等信息不会对模型训练过程造成干扰。
S104、采用初始编码网络,对样本声学特征进行特征编码,得到样本编码特征。
采用初始编码网络,对样本声学特征进行特征编码,以将样本声学特征进行融合,得到样本编码特征,从而能够捕捉到中间语音的更全面和丰富的声学信息,提高语音转换的感知质量。
其中,初始编码网络可以为StyleTTS2模型中的内容编码器,StyleTTS2是一款文本转语音的模型,为了适应语音转换任务,通过精简保留内容编码器的结构。
S105、获取样本源语音对应样本说话人的语音特征。
样本源语音对应样本说话人为样本源语音的说话人,样本说话人的语音特征可以包括样本说话人的音色信息、样本说话人的语音的音高信息以及音强信息。
在一可选的实施方式中,步骤S105,获取样本源语音对应样本说话人的语音特征,可以包括:
从样本源语音中分别提取样本音色信息、样本音高信息以及样本音强信息。
样本说话人的语音特征包括:样本音色信息、样本音高信息以及样本音强信息,样本音色信息为样本说话人的音色信息,样本音高信息为样本源语音的音高信息、样本音强信息为样本源语音的音强信息,其中,音强信息用于指示样本源语音的能量,音色信息用于指示样本说话人的说话人编码。
在一些实施例中,可以采用预先训练得到的说话人编码提取模型,从样本源语音中提取样本说话人的音色信息,以及采用预设的音高音强提取方法,从样本源语音中提取样本源语音的音高信息和音强信息。
S106、采用初始解码网络,根据样本编码特征和样本说话人的语音特征,生成样本转换语音。
将样本编码特征和样本说话人的语音特征输入到初始解码网络,初始解码网络对样本编码特征和样本说话人的语音特征进行解码处理,得到样本转换语音。
其中,初始编码网络可以为StyleTTS2模型中的解码器,为了适应语音转换任务,通过精简保留解码器的结构。
S107、根据样本源语音和样本转换语音,调整初始编码网络的参数和初始解码网络的参数,得到包括目标编码网络和目标解码网络的语音转换模型。
根据样本源语音和样本转换语音计算语音损失,根据语音损耗函数调整初始编码网络的参数和初始解码网络的参数,并采用调整后的初始编码网络,对样本声学特征进行特征编码重新得到样本编码特征,以及采用调整后的初始解码网络,根据样本编码特征和样本说话人的语音特征重新生成样本转换语音,并根据样本源语音和重新生成的样本转换语音重新计算语音损失,重复该过程,直至语音损失不超过预设阈值,将不超过预设阈值时的初始编码网络作为目标编码网络,将不超过预设阈值时的初始解码网络作为目标解码网络,其中,语音转换模型包括:目标编码网络和目标解码网络。
在该过程中,在还原样本源语音的同时,有效保留了样本源语音的音高信息、音强信息以及音色信息,实现了更精准的语音转换。值得说明的是,StyleTTS2是一种文本转语音(TTS)模型,其实现接近人类水平的语音合成是通过将风格扩散和对抗训练与大型语音语言模型相结合实现的,该模型支持多种语音风格的迁移,包括情感、说话速度和音调等。为了将其应用于语音转换领域并解决跨语言转换和音调跨度大的问题,本实施例对StyleTTS2的部分网络结构进行了修改,这样的改进使得该模型更具灵活性,能够在语音转换任务中更好地适应不同的语言和音调差异,提高了其在解决实际问题时的适用性。
在本实施例中,样本源语音可以为任意说话人的任意语言的语音,从而可适应多样化的语言输入,体现了跨语言的语音转换,采用本方案训练得到的语音转换模型能够实现跨语言和音调跨度大的语音转换,使得转换后语音在质量和自然度上的效果更佳。
图2为本申请实施例提供的语音转换模型训练方法的流程示意图二,如图2所示,在一可选的实施方式中,上述步骤S101,获取中间语音的样本声学特征,包括:
S201、采用初始语音识别网络,对中间语音进行处理,得到样本内容特征。
采用初始语音识别网络,对中间语音进行处理,得到样本内容特征,其中,样本内容特征为中间语音的内容特征,有效减弱了中间语音中的音色、音调等信息。
其中,样本内容特征可以为大规模多语言语音(Massively MultilingualSpeech,MMS)特征,初始语音识别网络可以为MMS模型中的语音识别网络,MMS模型是一款AI语音识别模型,能够识别、转录和生成超过1100多种口语,也就是说,采用MMS模型中的语音识别网络实现了跨语言的语音转换功能。
值得说明的是,由于在语音转换过程中,采用MMS模型中的语音识别网络提取的内容特征也保留了中间语音对应说话人的少量音色信息,因此,在解码处理过程中,可以增加融合次数,以更快地减弱中间语音对应说话人的音色信息。
S202、获取中间语音的音高信息和音强信息。
从中间语音中提取中间语音的音高信息和音强信息,其中,可以采用预设的音高音强方法,从中间语音中提取中间语音的音色信息和音高信息,样本声学特征包括:样本内容特征、中间语音的音高信息和音强信息。
在一些实施例中,该方法还可以包括:
S203、根据样本源语音和样本转换语音,调整初始语音识别网络的参数,得到目标语音识别网络。
根据样本源语音和样本转换语音计算语音损失,根据语音损失,调整初始编码网络的参数、初始解码网络的参数以及初始语音识别网络的参数,重复该过程,直至语音损失不超过预设阈值,将不超过预设阈值时的初始编码网络作为目标编码网络,将不超过预设阈值时的初始解码网络作为目标解码网络,将不超过预设阈值时的初始语音识别网络作为目标语音识别网络,其中,语音转换模型还包括:目标语音识别网络。
在本实施例中,为了克服仅使用MMS特征的局限性并提高感知质量,通过引入StyleTTS2模型中的内容编码器,以将中间语音的样本内容特征、音高信息和音强信息进行融合,以捕捉到更全面且更丰富的声学表示,并且,通过将MMS模型和StyleTTS2模型结合,提高了语音转换的性能,同时保留了重要的声学信息,使得生成的语音更自然、更贴近人类语音。
图3为本申请实施例提供的语音转换方法的流程示意图一,本实施例的执行主体可以为电子设备,如终端、服务器。
如图3所示,该方法可以包括:
S301、获取待转换源语音和目标语音。
其中,待转换源语音的语言、目标语音的语言和样本源语音的语言保持一致,例如均为中文语音或者英文语音。
待转换源语音为待进行音色转换的说话人语音,目标语音为待转换成的指定音色的说话人语音。
S302、获取待转换源语音的源声学特征。
其中,待转换源语音的源声学特征为待转换源语音的声学特征,该声学特征可以包括待转换源语音的音高信息、音强信息以及内容特征,其中,内容特征用于指示待转换源语音的语音内容。
S303、采用语音转换模型中的目标编码网络,对源声学特征进行特征编码,得到待转换源语音的源编码特征。
语音转换模型为采用上述语音转换模型训练方法训练得到的,采用语音转换模型中的目标编码网络,对源声学特征进行特征编码,以将源声学特征进行融合,得到待转换源语音的源编码特征。
S304、获取目标语音对应目标说话人的语音特征。
其中,目标说话人为目标语音对应的说话人,目标说话人的语音特征用于指示目标说话人的说话风格和音色信息,对目标语音进行分析,可以得到目标说话人的说话风格和音色信息。
S305、采用语音转换模型中的目标解码网络,根据源编码特征和目标说话人的语音特征,生成转换后语音。
其中,源编码特征用于指示待转换源语音的更全面和丰富的声学信息,目标说话人的语音特征用于指示目标说话人的说话风格和音色信息,采用语音转换模型中的目标解码网络,对源编码特征和目标说话人的语音特征进行解码处理,得到转换后语音,其中,转换后语音的语音内容与待转换源语音的语音内容一致,且音色与目标语音对应目标说话人的音色、说话风格一致,即生成既包含待转换源语音的语音内容又具有目标说话人的音色和说话风格的转换后语音。
在本实施例中,通过根据源编码特征和目标说话人的语音特征,生成转换后语音,保证了转换后语音在保留待转换源语音的内容的同时,具备了目标语音对应目标说话人的音色特征和说话风格,同时对于跨语言、以及待转换源语音和目标语音音调跨度较大的情况,均可实现语音音色和说话风格的转换,转换后语音在质量和自然度上的效果更佳,以及,通过对待转换源语音和目标语音的细致分析,提取各种关键特征,并巧妙地融合这些信息,以实现高质量、自然度和音色一致性的语音合成。
图4为本申请实施例提供的语音转换方法的流程示意图二,如图4所示,在一可选的实施方式中,上述步骤S304,获取目标语音对应目标说话人的语音特征,可以包括:
S401、从目标语音中分别提取目标说话人的音色信息、目标音高信息以及目标音强信息。
其中,目标音高信息为目标语音的音高信息,目标音强信息为目标语音的音强信息。
在一些实施例中,可以采用预先训练得到的说话人编码提取模型,从目标语音中提取目标说话人的音色信息,以及采用预设的音高音强提取方法,从目标语音中提取目标语音的音高信息和音强信息。
S402、根据目标音高信息以及目标音强信息,得到目标说话人的说话风格分布信息。
其中,目标说话人的语音特征包括:目标说话人的音色信息和目标说话人的说话风格分布信息。
对于目标语音来说,根据目标语音的目标音高信息和目标音强信息,可以确定目标语音在时间维度上的音高分布和音强分布,其中,目标音高信息包括多个采样时刻下的多个音高信息,目标音强信息包括多个采样时刻下的多个音强信息,通过分析多个采样时刻下的多个音高信息和多个音强信息,可以分别确定目标语音的音高分布信息和音强分布信息。其中,说话风格分布信息包括:目标语音的音高分布信息和音强分布信息。
在一些实施例中,可以采用预先训练得到的说话人编码提取模型,根据目标音高信息以及目标音强信息,得到目标说话人的说话风格分布信息。
图5为本申请实施例提供的语音转换方法的流程示意图三,如图5所示,在一可选的实施方式中,源声学特征包括:源音高信息以及源音强信息,上述步骤S402,根据目标音高信息以及目标音强信息,得到目标说话人的说话风格分布信息,可以包括:
S501、对源音高信息以及源音强信息分别进行归一化,得到源归一化音高信息以及源归一化音强信息。
其中,源音高信息为待转换源语音的音高信息,源音强信息为待转换源语音的音强信息,对源音高信息进行归一化,得到源归一化音高信息,并对源音强信息进行归一化,得到源归一化音强信息,源归一化音高信息为源音高信息的归一化音高信息,源归一化音强信息为源音强信息的归一化音强信息。
在一些实施例中,源音高信息包括多个采样时刻下的多个音高信息,根据源音高信息,计算源音高均值和源音高方差,根据源音高信息中各音高信息、源音高均值以及源音高方差,计算源音高信息中各音高信息的归一化音高信息,其中,归一化音高信息=(源音高信息中各音高信息-源音高均值)/源音高方差。
类似地,源音强信息包括多个采样时刻下的多个音强信息,根据源音强信息中各音强信息、源音强均值以及源音强方差,计算源音高信息中各音强信息的归一化音强信息,其中,归一化音强信息=(源音强信息中各音强信息-源音强均值)/源音强方差。
S502、根据目标音高信息、目标音强信息、源归一化音高信息以及源归一化音强信息,得到目标说话人的说话风格分布信息。
通过将对源音高信息和源音强信息进行归一化,能够将待转换源语音对应说话人的音色信息剔除,然后根据目标音高信息、目标音强信息、源归一化音高信息以及源归一化音强信息,得到目标说话人的说话风格分布信息,其中,目标说话人的说话风格分布信息用于指示目标语音的音高分布和音强分布。
上述步骤S502,根据目标音高信息、目标音强信息、源归一化音高信息以及源归一化音强信息,得到目标说话人的说话风格分布信息,包括:
根据目标音高信息,计算目标音高均值和目标音高方差。
根据目标音强信息,计算目标音强均值和目标音高方差。
根据源归一化音高信息、目标音高均值以及目标音高方差,获取目标说话人的说话音高分布信息。
根据源归一化音强信息、目标音强均值以及目标音高方差,获取目标说话人的说话音强分布信息。
其中,目标音高信息包括多个采样时刻下的多个音高信息,根据目标音高信息,计算目标音高均值和目标音高方差,其中,目标音高均值为目标音高信息的均值,目标音高方差为目标音高信息的方差,然后根据源归一化音高信息、目标音高均值以及目标音高方差,获取目标说话人的说话音高分布信息。
针对目标音高信息中各音高信息,根据目标音高信息中各音高信息、目标音高均值以及目标音高方差,确定目标音高信息中各音高信息对应采样时刻的采样音高信息,根据多个采样时刻的采样音高信息,获取目标说话人的说话音高分布信息。其中,目标音高信息中各音高信息对应采样时刻的采样音高信息=该采样时刻下的源音高信息中音高信息的归一化音高信息×目标音高方差+目标音高均值。
类似地,目标音强信息包括多个采样时刻下的多个音强信息,根据目标音强信息,计算目标音强均值和目标音强方差,其中,目标音强均值为目标音强信息的均值,目标音强方差为目标音强信息的方差,根据源归一化音强信息、目标音强均值以及目标音高方差,获取目标说话人的说话音强分布信息。
其中,目标音强信息包括多个采样时刻下的多个音强信息,根据目标音强信息,计算目标音强均值和目标音强方差,其中,目标音强均值为目标音强信息的均值,目标音强方差为目标音强信息的方差,然后根据源归一化音强信息、目标音强均值以及目标音强方差,获取目标说话人的说话音强分布信息。
针对目标音强信息中各音强信息,根据目标音强信息中各音强信息、目标音强均值以及目标音强方差,确定目标音强信息中各音强信息对应采样时刻的采样音强信息,根据多个采样时刻的采样音强信息,获取目标说话人的说话音强分布信息。其中,目标音强信息中各音强信息对应采样时刻的采样音强信息=该采样时刻下的源音强信息中音强信息的归一化音强信息×目标音强方差+目标音强均值。
在本实施例中,通过归一化处理方法,生成目标说话人的说话风格分布信息,确保了在后续解码过程中能够有效地融合待转换源语音和目标语音对应目标说话人的音色。
图6为本申请实施例提供的语音转换方法的流程示意图四,如图6所示,在一可选的实施方式中,上述步骤S302,获取待转换源语音的源声学特征,可以包括:
S601、采用语音转换模型中的目标语音识别网络,对待转换源语音进行处理,得到源内容特征。
采用语音转换模型找那个的目标语音识别网络,对待转换源语音进行内容识别,得到待转换源语音的源内容特征,该源内容特征可以为MMS特征。
S602、获取待转换源语音的源音高信息和源音强信息。
其中,源音高信息为待转换源语音的音高信息,源音强信息为待转换源语音的音强信息,采用预设的音高音强提取方法,从待转换源语音中提取待转换语音的音高信息和音强信息。源声学特征包括:源内容特征、源音高信息和源音强信息。
采用目标编码网络,对源内容特征、源音高信息和源音强信息进行编码,以将源内容特征、源音高信息和源音强信息进行融合,得到待转换源语音的源编码特征。
在本实施例中,源编码特征表示在保留待转换源语音的音高和音强信息的同时,获得更丰富的声学表示,避免了转换的结果出现吐字不清的情况,同时由于引入了音高和音强信息,这样用户可以根据实际需求对音高和音强进行调控,以满足用户更多需求。
图7为本申请实施例提供的语音转换模型训练装置的结构示意图,该装置可以集成在电子设备中。
如图7所示,该装置可以包括:
获取模块701,用于获取样本源语音;
处理模块702,用于对样本源语音进行预设声学维度的变换,生成样本源语音的中间语音;
获取模块701,还用于获取中间语音的样本声学特征;
处理模块702,还用于采用初始编码网络,对样本声学特征进行特征编码,得到样本编码特征;
获取模块701,还用于获取样本源语音对应样本说话人的语音特征;
处理模块702,还用于采用初始解码网络,根据样本编码特征和样本说话人的语音特征,生成样本转换语音;
处理模块702,还用于根据样本源语音和样本转换语音,调整初始编码网络的参数和初始解码网络的参数,得到包括目标编码网络和目标解码网络的语音转换模型。
在一可选的实施方式中,获取模块701,具体用于:
采用初始语音识别网络,对中间语音进行处理,得到样本内容特征;
获取中间语音的音高信息和音强信息,样本声学特征包括:样本内容特征、中间语音的音高信息和音强信息;
处理模块702,还用于根据样本源语音和样本转换语音,调整初始语音识别网络的参数,得到目标语音识别网络,语音转换模型还包括:目标语音识别网络。
在一可选的实施方式中,获取模块701,具体用于:
从样本源语音中分别提取样本音色信息、样本音高信息以及样本音强信息,样本说话人的语音特征包括:样本音色信息、样本音高信息以及样本音强信息。
关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明,这里不再详述。
图8为本申请实施例提供的语音转换装置的结构示意图,该装置可以集成在电子设备中。
如图8所示,该装置可以包括:
获取模块801,用于获取待转换源语音和目标语音;
获取模块801,还用于获取待转换源语音的源声学特征;
处理模块802,用于采用语音转换模型中的目标编码网络,对源声学特征进行特征编码,得到待转换源语音的源编码特征,语音转换模型为采用上述方法训练得到的;
获取模块801,还用于获取目标语音对应目标说话人的语音特征;
处理模块802,还用于采用语音转换模型中的目标解码网络,根据源编码特征和目标说话人的语音特征,生成转换后语音。
在一可选的实施方式中,获取模块801,具体用于:
从目标语音中分别提取目标说话人的音色信息、目标音高信息以及目标音强信息;
根据目标音高信息以及目标音强信息,得到目标说话人的说话风格分布信息,目标说话人的语音特征包括:目标说话人的音色信息和目标说话人的说话风格分布信息。
在一可选的实施方式中,源声学特征包括:源音高信息以及源音强信息;
处理模块802,具体用于:
对源音高信息以及源音强信息分别进行归一化,得到源归一化音高信息以及源归一化音强信息;
根据目标音高信息、目标音强信息、源归一化音高信息以及源归一化音强信息,得到目标说话人的说话风格分布信息。
在一可选的实施方式中,处理模块802,具体用于:
根据目标音高信息,计算目标音高均值和目标音高方差;
根据目标音强信息,计算目标音强均值和目标音高方差;
根据源归一化音高信息、目标音高均值以及目标音高方差,获取目标说话人的说话音高分布信息;
根据源归一化音强信息、目标音强均值以及目标音高方差,获取目标说话人的说话音强分布信息。
在一可选的实施方式中,获取模块801,具体用于:
采用语音转换模型中的目标语音识别网络,对待转换源语音进行处理,得到源内容特征;
获取待转换源语音的源音高信息和源音强信息,源声学特征包括:源内容特征、源音高信息和源音强信息。
关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明,这里不再详述。
图9为本申请实施例提供的电子设备的结构示意图,如图9所示,该设备可以包括:处理器901、存储器902和总线903,存储器902存储有处理器901可执行的机器可读指令,当电子设备运行时,处理器901与存储器902之间通过总线903通信,处理器901执行机器可读指令,以执行上述方法。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行,所述处理器执行上述方法。
在本申请实施例中,该计算机程序被处理器运行时还可以执行其它机器可读指令,以执行如实施例中其它所述的方法,关于具体执行的方法步骤和原理参见实施例的说明,在此不再详细赘述。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释,此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种语音转换模型训练方法,其特征在于,包括:
获取样本源语音;
对所述样本源语音进行预设声学维度的变换,生成所述样本源语音的中间语音;
获取所述中间语音的样本声学特征;
采用初始编码网络,对所述样本声学特征进行特征编码,得到样本编码特征;
获取所述样本源语音对应样本说话人的语音特征;
采用初始解码网络,根据所述样本编码特征和所述样本说话人的语音特征,生成样本转换语音;
根据所述样本源语音和所述样本转换语音,调整所述初始编码网络的参数和所述初始解码网络的参数,得到包括目标编码网络和目标解码网络的语音转换模型。
2.根据权利要求1所述的方法,其特征在于,所述获取所述中间语音的样本声学特征,包括:
采用初始语音识别网络,对所述中间语音进行处理,得到样本内容特征;
获取所述中间语音的音高信息和音强信息,所述样本声学特征包括:所述样本内容特征、所述中间语音的音高信息和音强信息;
所述方法还包括:
根据所述样本源语音和所述样本转换语音,调整所述初始语音识别网络的参数,得到目标语音识别网络,所述语音转换模型还包括:所述目标语音识别网络。
3.根据权利要求1所述的方法,其特征在于,所述获取所述样本源语音对应样本说话人的语音特征,包括:
从所述样本源语音中分别提取样本音色信息、样本音高信息以及样本音强信息,所述样本说话人的语音特征包括:所述样本音色信息、所述样本音高信息以及所述样本音强信息。
4.一种语音转换方法,其特征在于,包括:
获取待转换源语音和目标语音;
获取所述待转换源语音的源声学特征;
采用语音转换模型中的目标编码网络,对所述源声学特征进行特征编码,得到所述待转换源语音的源编码特征,所述语音转换模型为采用权利要求1-3任一项所述的方法训练得到的;
获取所述目标语音对应目标说话人的语音特征;
采用所述语音转换模型中的目标解码网络,根据所述源编码特征和所述目标说话人的语音特征,生成转换后语音。
5.根据权利要求4所述的方法,其特征在于,所述获取所述目标语音对应目标说话人的语音特征,包括:
从所述目标语音中分别提取所述目标说话人的音色信息、目标音高信息以及目标音强信息;
根据所述目标音高信息以及所述目标音强信息,得到所述目标说话人的说话风格分布信息,所述目标说话人的语音特征包括:所述目标说话人的音色信息和所述目标说话人的说话风格分布信息。
6.根据权利要求5所述的方法,其特征在于,所述源声学特征包括:源音高信息以及源音强信息;
所述根据所述目标音高信息以及所述目标音强信息,得到所述目标说话人的说话风格分布信息,包括:
对所述源音高信息以及所述源音强信息分别进行归一化,得到源归一化音高信息以及源归一化音强信息;
根据所述目标音高信息、所述目标音强信息、所述源归一化音高信息以及所述源归一化音强信息,得到所述目标说话人的说话风格分布信息。
7.根据权利要求6所述的方法,其特征在于,所述根据所述目标音高信息、所述目标音强信息、所述源归一化音高信息以及所述源归一化音强信息,得到所述目标说话人的说话风格分布信息,包括:
根据所述目标音高信息,计算目标音高均值和目标音高方差;
根据所述目标音强信息,计算目标音强均值和目标音高方差;
根据所述源归一化音高信息、所述目标音高均值以及所述目标音高方差,获取所述目标说话人的说话音高分布信息;
根据所述源归一化音强信息、所述目标音强均值以及所述目标音高方差,获取所述目标说话人的说话音强分布信息。
8.根据权利要求4所述的方法,其特征在于,所述获取所述待转换源语音的源声学特征,包括:
采用所述语音转换模型中的目标语音识别网络,对所述待转换源语音进行处理,得到源内容特征;
获取所述待转换源语音的源音高信息和源音强信息,所述源声学特征包括:所述源内容特征、所述源音高信息和源音强信息。
9.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述处理器执行所述机器可读指令,以执行权利要求1-8任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行权利要求1至8任一项所述的方法。
CN202410195469.9A 2024-02-22 2024-02-22 语音转换模型训练方法、语音转换方法、电子设备和介质 Pending CN117877499A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410195469.9A CN117877499A (zh) 2024-02-22 2024-02-22 语音转换模型训练方法、语音转换方法、电子设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410195469.9A CN117877499A (zh) 2024-02-22 2024-02-22 语音转换模型训练方法、语音转换方法、电子设备和介质

Publications (1)

Publication Number Publication Date
CN117877499A true CN117877499A (zh) 2024-04-12

Family

ID=90581285

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410195469.9A Pending CN117877499A (zh) 2024-02-22 2024-02-22 语音转换模型训练方法、语音转换方法、电子设备和介质

Country Status (1)

Country Link
CN (1) CN117877499A (zh)

Similar Documents

Publication Publication Date Title
JP5195414B2 (ja) 応答生成装置及びプログラム
CN112614510B (zh) 一种音频质量评估方法及装置
CN115700772A (zh) 人脸动画生成方法及装置
CN112735371B (zh) 一种基于文本信息生成说话人视频的方法及装置
CN112270917B (zh) 一种语音合成方法、装置、电子设备及可读存储介质
Wang et al. Comic-guided speech synthesis
CN116994553A (zh) 语音合成模型的训练方法、语音合成方法、装置及设备
CN113948062B (zh) 数据转换方法及计算机存储介质
CN114005428A (zh) 语音合成方法、装置、电子设备、存储介质和程序产品
CN114171002A (zh) 语音识别方法、装置、电子设备和存储介质
CN114125506B (zh) 语音审核方法及装置
CN118036619A (zh) 文本翻译方法、装置、电子设备和存储介质
CN116582726B (zh) 视频生成方法、装置、电子设备及存储介质
CN117012177A (zh) 语音合成方法、电子设备和存储介质
CN116453502A (zh) 基于双说话人嵌入的跨语言语音合成方法及系统
CN117877499A (zh) 语音转换模型训练方法、语音转换方法、电子设备和介质
US20240339107A1 (en) Data processing method, and storage medium and electronic device thereof
CN116959464A (zh) 音频生成网络的训练方法、音频生成方法以及装置
CN112634861B (zh) 数据处理方法、装置、电子设备和可读存储介质
CN113763920B (zh) 空调器及其语音生成方法、语音生成装置和可读存储介质
CN114974218A (zh) 语音转换模型训练方法及装置、语音转换方法及装置
CN114299989A (zh) 一种语音过滤方法、装置、电子设备及存储介质
CN118506764B (zh) 基于自回归类深度学习语音合成的可控输出方法及设备
CN117995165B (zh) 基于隐变量空间添加水印的语音合成方法、装置及设备
CN113035247B (zh) 一种音频文本对齐方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination