CN114170999A - 语音转换方法、装置、电子设备和存储介质 - Google Patents

语音转换方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN114170999A
CN114170999A CN202111570375.8A CN202111570375A CN114170999A CN 114170999 A CN114170999 A CN 114170999A CN 202111570375 A CN202111570375 A CN 202111570375A CN 114170999 A CN114170999 A CN 114170999A
Authority
CN
China
Prior art keywords
voice
speaker
conversion
target
acoustic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111570375.8A
Other languages
English (en)
Inventor
包顺
江源
胡亚军
刘利娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN202111570375.8A priority Critical patent/CN114170999A/zh
Publication of CN114170999A publication Critical patent/CN114170999A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H7/00Instruments in which the tones are synthesised from a data store, e.g. computer organs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/315Sound category-dependent sound synthesis processes [Gensound] for musical use; Sound category-specific synthesis-controlling parameters or control means therefor
    • G10H2250/455Gensound singing voices, i.e. generation of human voices for musical applications, vocal singing sounds or intelligible words at a desired pitch or with desired vocal effects, e.g. by phoneme synthesis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明提供一种语音转换方法、装置、电子设备和存储介质,其中方法包括:确定源发音人语音的发音人无关特征;基于样本语音的发音人无关特征和声学特征,对所述源发音人语音的发音人无关特征进行声学转换,得到目标声学特征,所述样本语音中的部分为类人声音频;基于所述目标声学特征进行语音合成,得到目标发音人的目标语音。本发明提供的方法、装置、电子设备和存储介质,通过在样本语音中添加类人声音频,使得样本语音能够覆盖人声各声部的音域,由此能够学习到更广音域下语音的发音人无关特征和声学特征,因此能够克服跨音域转换时的音域匹配问题,保证语音转换尤其是跨音频转换的转换效果。

Description

语音转换方法、装置、电子设备和存储介质
技术领域
本发明涉及计算机技术领域,尤其涉及一种语音转换方法、装置、电子设备和存储介质。
背景技术
歌声转换是一种对源发音人的歌声进行转换,使其具有目标发音人的音色,同时能够保持歌声内容不变的技术。
目前常见的歌声转换方法即any to one的歌声转换方法,是指将任意的源发音人歌声转换成特定的目标发音人音色的方法,该方法有着数据获取成本低、实用性高、应用范围广等优势。
但是上述方法中,不同源发音人与特定的目标发音人的歌唱音域之间常常存在较大差距,例如源发音人歌声数据音域广、音调高,而目标发音人训练数据音域窄、音调低,由此转换后的歌声高音会出现哑、鲁棒性差等情况,跨音域转换效果不佳。
发明内容
本发明提供一种语音转换方法、装置、电子设备和存储介质,用以解决现有技术中跨音域转换效果不佳的问题。
本发明提供一种语音转换方法,包括:
确定源发音人语音的发音人无关特征;
基于样本语音的发音人无关特征和声学特征,对所述源发音人语音的发音人无关特征进行声学转换,得到目标声学特征,所述样本语音中的部分为类人声音频;
基于所述目标声学特征进行语音合成,得到目标发音人的目标语音。
根据本发明提供的一种语音转换方法,所述类人声音频基于如下步骤确定:
确定类人声源;
获取所述类人声源在人声全音域的单轨单音数据,作为所述类人声音频。
根据本发明提供的一种语音转换方法,所述发音人无关特征包括表现力特征,所述表现力特征基于对应语音中多个频段的频率响应幅度确定。
根据本发明提供的一种语音转换方法,所述表现力特征包括多个频段的频率响应特征,所述频率响应特征基于对应频段的幅度谱确定。
根据本发明提供的一种语音转换方法,所述基于所述目标声学特征进行语音合成,得到目标发音人的目标语音,包括:
基于声码器,对所述目标声学特征进行语音合成,得到目标发音人的目标语音,所述声码器包括高频建模部分。
根据本发明提供的一种语音转换方法,所述基于样本语音的发音人无关特征和声学特征,对所述源发音人语音的发音人无关特征进行声学转换,得到目标声学特征,包括:
基于转换模型,对所述源发音人语音的发音人无关特征进行声学转换,得到目标声学特征;
所述转换模型基于如下步骤训练得到:
基于所述样本语音的发音人标识、发音人无关特征和声学特征,训练多人转换模型;
在所述多人转换模型的基础上,应用目标发音人语音的发音人无关特征和声学特征进行训练,得到所述转换模型。
根据本发明提供的一种语音转换方法,所述在所述多人转换模型的基础上,应用目标发音人语音的发音人无关特征和声学特征进行训练,得到所述转换模型,包括:
去除所述多人转换模型中用于编码发音人标识的部分,得到初始模型;
在所述多人转换模型的基础上,应用目标发音人语音的发音人无关特征和声学特征进行训练,得到所述转换模型。
本发明还提供一种语音转换装置,包括:
特征确定单元,用于确定源发音人语音的发音人无关特征;
声学转换单元,用于基于样本语音的发音人无关特征和声学特征,对所述源发音人语音的发音人无关特征进行声学转换,得到目标声学特征,所述样本语音中的部分为类人声音频;
语音合成单元,用于基于所述目标声学特征进行语音合成,得到目标发音人的目标语音。
本发明还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一种所述语音转换方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述语音转换方法的步骤。
本发明提供的语音转换方法、装置、电子设备和存储介质,通过在样本语音中添加类人声音频,使得样本语音能够覆盖人声各声部的音域,由此能够学习到更广音域下语音的发音人无关特征和声学特征,因此能够克服跨音域转换时的音域匹配问题,保证语音转换尤其是跨音频转换的转换效果。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图简要地说明,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的语音转换方法的流程示意图;
图2是本发明提供的转换模型的训练方法的流程示意图;
图3是本发明提供的多人转换模型的结构示意图;
图4是本发明提供的语音转换装置的结构示意图;
图5是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
语音转换是一种对源发音人的语音进行转换,使其具有目标发音人的音色,同时能够保持语音内容不变的技术,歌声转换属于语音转换中的一种。
目前常用于歌声转换的any to one方法,受限于目标发音人自身的音域、歌唱水平,以及歌声录制成本等因素,源发音人与目标发音人的歌唱音域之间常常存在较大差距,例如源发音人歌声数据音域广、音调高,而目标发音人训练数据音域窄、音调低,由此转换后的歌声高音会出现哑、鲁棒性差等情况,跨音域转换效果不佳。
针对这一问题,本发明实施例提供一种语音转换方法,该方法可应用于演讲、主持等场景下的语音转换,也可以应用于日常说话的普通语音的语音转换,尤其可以应用于歌声转换,且具体在应用于歌声转换,或者其他需要跨音域转换的语音转换场景下时,能够有效解决音域匹配问题。
图1是本发明提供的语音转换方法的流程示意图,如图1所示,该方法包括:
步骤110,确定源发音人语音的发音人无关特征。
此处,源发音人语音即源发音人的语音,源发音人语音可以是通过音频采集设备直接录制的,也可以是通过互联网或者其他途径下载得到的,本发明实施例对此不作具体限定。
源发音人语音为语音转换提供了发音人无关特征,此处的发音人无关特征用于表征源发音人语音中与源发音人的音色无关的信息,例如表征发音内容的状态后验概率或者音素后验概率,又例如表征发音音律的韵律学特征,具体可以是基频特征、能量特征等,其中基频特征用于表征语音的音高音调,能量特征用于表征语音的发音力度,在发音人无关特征中存在多类特征时,可以对多类特征进行拼接或者融合以便于后续应用。
进一步地,发音人无关特征的提取可以通过预先训练好的与发音人无关的识别模型实现。此处,与发音人无关的识别模型的输入可以是语音的声学特征,输出可以是语音的发音人无关特征。上述识别模型可以通过与情绪识别、语音识别、语义识别、语种识别等与发音人无关的任务联合训练,训练时所应用的样本应包含各个不同发音人的语音,由此使得识别模型在训练过程中更多关注与发音人无关的特征,进而具备提取发音人无关特征的能力。
步骤120,基于样本语音的发音人无关特征和声学特征,对所述源发音人语音的发音人无关特征进行声学转换,得到目标声学特征,所述样本语音中的部分为类人声音频。
具体地,在得到源发音人语音的发音人无关特征之后,即可通过声学转换的方式将发音人无关特征转换为目标声学特征,此处的目标声学特征即携带有目标发音人的音色且符合源发音人语音的发音人无关特征的声学特征。
此处,声学转换可以通过预先训练好的转换模型实现,也可以通过预先挖掘得到的发音人无关特征和声学特征之间的映射关系实现,转换模型或者映射关系,均可用于实现由源发音人语音的发音人无关特征至目标语音的目标声学特征的转换。而无论是转换模型的训练,或者是映射关系的挖掘,均需要样本语音的支持。
常规方法中跨音域转换效果不佳的问题,往往也是因为用于转换模型或者对应关系的样本语音受限,导致转换模型或者关系挖掘时无法学习到更广音域下语音的发音人无关特征和声学特征之间的映射关系导致。针对这一问题,本发明实施例,对用于转换模型训练或者映射关系挖掘的样本语音进行了数据增广,增广后的样本语音,不仅涵盖了常规方法中的自然人语音,还涵盖了类人声音频。
此处,类人声音频即模拟人声的音频,类人声音频可以是对乐器或者动物发出的声音录制得到的音频,也可以是应用音频软件合成得到的音频。相较于自然人语音,类人声音频的获取难度和成本显著降低,并且更加容易得到音域更广的音频,例如提琴无论是音色还是发声原理均与人声接近,通过提琴演奏可以容易地得到人声各声部歌唱音域的音频,而无需再受发音人自身音域、歌唱水平等条件限制。
由于类人声音频本身能够覆盖人声各声部的音域,将类人声音频加入样本语音,使得样本语音同样能够覆盖人声各声部的音域。在此基础上,将样本语音的发音人无关特征和声学特征应用到转换模型的训练过程或者映射关系的挖掘过程中,即可学习到更广音域下语音的发音人无关特征和声学特征,后续在模型或者映射关系的应用阶段,即便出现输入的发音人无关特征所指示的音频过高或者过低的情况,亦可以稳定可靠地实现针对目标发音人的声学特征转换,避免高音效果哑、鲁棒性差的问题。
步骤130,基于所述目标声学特征进行语音合成,得到目标发音人的目标语音。
具体地,在得到目标声学特征之后,即可通过声码器在目标声学特征的基础上进行语音合成,从而得到目标发言人的目标语音,此处的目标语音即具有目标发音人的音色,同时能够保持源发音人语音的语音内容不变的语音。
需要说明的是,上述语音转换方法中涉及到的语音,具体可以是歌声,针对语音具体是歌声的情况,上述语音转换方法可无差别执行,此处不作赘述。
本发明实施例提供的方法,通过在样本语音中添加类人声音频,使得样本语音能够覆盖人声各声部的音域,由此能够学习到更广音域下语音的发音人无关特征和声学特征,因此能够克服跨音域转换时的音域匹配问题,保证语音转换尤其是跨音频转换的转换效果。
基于上述实施例,样本语音中的类人声音频基于如下步骤确定:
确定类人声源;
获取所述类人声源在人声全音域的单轨单音数据,作为所述类人声音频。
具体地,类人声源即可以发出类似人声的声音的声源,类人声源的音色应尽可能与人声相近,且类人声源的发声原理亦是与人的发声方式相近,由此方可保证基于类人声源采集得到的音频能够达到接近人声的效果。类人声源可以是各种乐器或者动物,例如提琴、二胡等,本发明实施例中类人声源的种类数量可以是一种也可以是多种。
在确定好类人声源之后,即可采集类人声源在人声全音域的单轨单音数据,此处人声全音域是指人声各声部的音域的总和,即从男低音的最低音起到花腔女高音的最高音止(64-2048赫兹),单轨单音数据是指仅用一种类人声源进行发声,且同一时刻只能发出一个音符的音频数据,单轨单音的限制能够避免音符混淆和音高中和。由此得到的类人声音频,其音域空间范围覆盖人声全音域,且音域空间内音符音高需符合单高斯分布。
作为优选,为了便于类人声音频的采集,可以从MIDI(Musical InstrumentDigital Interface,音乐数字接口)数据库中获取MIDI类人声单轨单音数据作为类人声音频。
目前的语音转换方法中,多通过一维的能量特征来描述语音中的表现力强度,而不同源发音人与特定目标发音人在发音技巧和发音方式上的不同,则在语音转换中被直接忽略,导致转换后语音的精细表现力不足、气息弱等问题。例如在歌声转换中,源发音人歌声中某一音高不同频段表现力饱满,但由于目标发音人和源发音人歌唱方式和技巧的差距,导致转换后效果高频成分微弱或低频成分过于饱和,表现力不足。
针对这一问题,本发明实施例中,所述发音人无关特征包括表现力特征,所述表现力特征基于对应语音中多个频段的频率响应幅度确定。
具体地,为了保证转换所得的目标语音的表现力,本发明实施例在发音人无关特征中,特增加了用于反映语音表现力的表现力特征。区别于一维的能量特征,本发明实施例中的表现力特征通过语音在各个判断上的频率响应幅度反映语音在各个频段上的表现力信息,分频段的表现力特征,更加能够体现发音人在发音技巧和发音方式上的特点,例如女高音在高频的频率响应显著高于中低频,不加以区分会使得高频表现不突出,影响音色的明亮度,降低歌声的表现力。
发音人无关特征中新增的表现力特征,能够更加精细地为声学转换操作提供了更加丰富的表现力信息,进而保证转换后的目标语音在表现力上能够与源发音人语音保持一致,使得语音转换效果更加饱满,表现力更高。
需要说明的是,发音人无关特征中,除了包括表现力特征,还可以包括声学特征的状态后验概率特征或者音素后验概率特征,也可以包括韵律学特征,具体可以是基频特征、能量特征等。特别地,发音人无关特征可以包括后验概率特征、基频特征、能量特征和表现力特征。
基于上述任一实施例,所述表现力特征包括多个频段的频率响应特征,所述频率响应特征基于对应频段的幅度谱确定。
具体地,为了避免不同频段下频率响应幅度的特性在表现力特征中发生混淆,本发明实施例中将多个判断的频率响应特征通过拼接等组合方式,构建表现力特征,使得表现力特征中,能够包含每个频段独立的频率响应特征。此处,针对任意一个频段的频率响应特征而言,频率响应特征可以是基于语音在该频段的幅度谱确定的,例如频率响应特征可以是语音在该频段的幅度谱的均值,也可以是语音在该频段的幅度谱的最大值或者中位值等,本发明实施例对此不作具体限定。
例如,可以将语音频段划分为5个频段,具体为低频、中低频、中频、中高频和高频,每个频段均对应一个频率响应特征,亦可以理解为该频段的表现力特,即可以将0-1000赫兹频段的幅度谱均值作为低频表现力特征,将1000-2000赫兹频段的幅度谱均值作为中低频表现力特征,将2000-4000赫兹频段的幅度谱均值作为中频表现力特征,将4000-6000赫兹频段的幅度谱均值作为中高频表现力特征,将6000-8000赫兹频段的幅度谱均值作为高频表现力特征。
此外,目前的语音转换方法中,常用16K或24K神经网络声码器进行语音合成,16K或24K神经网络声码器无法对高频信息建模,因此合成的语音可能存在高频缺失的问题。对于歌声数据,尤其是女性高音歌声数据,歌声中的高频部分影响着歌曲的力度和空间感,如果应用此类声码器进行合成,会导致歌声转换效果不饱满,清晰度不高,听感机械等问题。
基于上述任一实施例,步骤130包括:
基于声码器,对所述目标声学特征进行语音合成,得到目标发音人的目标语音,所述声码器包括高频建模部分。
具体地,针对常规声码器合成的语音可能存在高频缺失的问题,本发明实施例中采用包含了高频建模部分的声码器进行语音合成,此处的声码器具体可以是48k神经网络声码器,或者其他具备高频信息建模能够的声码器。通过将包含高频建模部分的声码器应用在语音合成环节,使得语音合成时目标声学特征中的高频信息也能得到应用,目标发音人的目标语音中的高频部分能够得到充分刻画,从而保证输出的目标语音的语音质量,丰富了语音转换所得目标语音的高频部分,增强了目标语音的空间感和自然度。
基于上述任一实施例,步骤120包括:
基于转换模型,对所述源发音人语音的发音人无关特征进行声学转换,得到目标声学特征。
此处的转换模型,可以实现由源发音人语音的发音人无关特征至目标语音的目标声学特征的转换。
转换模型的训练,需要应用到样本语音的发音人无关特征和声学特征。在训练过程中,转换模型可以建立发音人无关特征和声学特征之间的回归任务,学习更广音域下语音的发音人无关特征和声学特征之间的映射关系,后续在模型应用阶段,即便出现输入的发音人无关特征所指示的音频过高或者过低的情况,转换模型亦可以稳定可靠地实现针对目标发音人的声学特征转换,避免高音效果哑、鲁棒性差的问题。此处,转换模型可以在神经网络结构的基础上训练得到,此处的神经网络结构可以是全连接网络、循环神经网络、卷积神经网络中的一种或几种的组合。
基于上述任一实施例,图2是本发明提供的转换模型的训练方法的流程示意图,如图2所示,转换模型基于如下步骤训练得到:
步骤210,基于所述样本语音的发音人标识、发音人无关特征和声学特征,训练多人转换模型;
步骤220,在所述多人转换模型的基础上,应用目标发音人语音的发音人无关特征和声学特征进行训练,得到所述转换模型。
具体地,考虑到样本语音中包含了不同发音人以及类人声源的音频,基于样本语音训练得到转换模型同样对于发音人有所区分,且针对特定的目标发音人而言,如果样本语音中包含了目标发音人的语音,则此时的转换模型则具备针对特征的目标发音人进行声学转换的能力,但是转换效果较为普通,而如果样本语音中未能包含目标发音人的语音,则此时的转换模型并不具备针对特征的目标发音人进行声学转换的能力。针对这一情况,本发明实施例提出在基于样本语音训练得到多人转换模型的基础上,应用目标发音人语音进行针对性的优化训练,从而得到用于实现特定的目标发音人的声学转换的转换模型。
首先,可以先进行多人转换模型的训练,具体可以先收集样本语音,并且对样本语音中的发音人进行标注,从而得到样本语音的发音人标识speaker code,此处的发音人标识用于指示发音人的身份,例如发音人的名称、编号等。此外,还可以提取样本语音的声学特征,并基于声学特征,通过预先训练好的与发音人无关的识别模型,对样本语音中的发音人无关特征进行提取。在得到样本语音的发音人标识、发音人无关特征和声学特征之后,即可挖掘样本语音的发音人标识、发音人无关特征,与样本语音的声学特征之间的映射关系,从而得到能够反映这一映射关系的模型,即多人转换模型。此处,多人转换模型的输入为发音人标识和发音人无关特征,输出为相对应的声学特征。
在此基础上,为了针对性地提高特定的目标发音人的声学转换效果,可以应用目标发音人语音的发音人无关特征和声学特征,对多人转换模型进行优化训练,使得多人转换模型在已经学习到全音域的下语音的发音人无关特征和声学特征之间的映射关系,可以进一步优化针对特定的目标发音人的语音的发音人无关特征和声学特征之间的映射关系,从而使得优化所得的转换模型,不仅能够克服跨音域转换时的音域匹配问题,还能够针对特定的目标发音人贡献质量更优的声学转换效果。并且,上述方法在目标发音人语音有限且目标发音人音域范围窄的情况下,降低了训练成本,使得小批量数据的转换效果更加稳定。
基于上述任一实施例,步骤220包括:
去除所述多人转换模型中用于编码发音人标识的部分,得到初始模型;
在所述多人转换模型的基础上,应用目标发音人语音的发音人无关特征和声学特征进行训练,得到所述转换模型。
具体地,图3是本发明提供的多人转换模型的结构示意图,如图3所示,多人转换模型的输入包括发音人无关特征和发音人标识两个部分,而多人转换模型内部针对输入的发音人标识设置有编码部分,此处针对发音人标识的编码部分用于实现发音人标识的编码,以使得发音人标识能够参与到声学转换过程中。
考虑到后续针对特定的目标发音人的优化,是期望优化所得的转换模型成为目标发音人的专用模型,即转换模型默认针对目标发音人进行转换,无需再另外根据发音人标识确认需要转换的发音人,因此可以在针对多人转换模型进行优化之前,去除多人转换模型中用于编码发音人标识的部分,从而得到无需再输入发音人标识的初始模型。
在此基础上,应用目标发音人语音的发音人无关特征和声学特征对初始模型进行优化训练,即可得到专属于目标发音人的转换模型。
基于上述任一实施例,一种语音转换方法,包括如下步骤:
首先,训练与发音人无关的识别模型,用于提取上下文后验概率特征:
可以应用包含不同发音人的语音的多人数据库,训练一个与发音人无关的识别模型。该模型可以基于深度神经网络DNN训练得到。识别模型的输入可以是语音的声学特征,输出可以是声学特征属于各个音素类的后验概率值,即上下文后验概率特征。识别网络的隐层可以是全连接网络、卷积神经网络、循环神经网络的一种或者几种组合。
此处,声学特征具体可以是FBK(filter bank,滤波器组)声学特征,上下文后验概率特征可以理解为语音的发音人无关特征中的一类特征。
其次,通过数据增广,构建样本语音:
从MIDI数据库中获取MIDI类人声单轨单音数据作为类人声音频。另外收集多人多风格的自然人语音。将类人声音频和自然人语音的数据量比值控制在预先设定好的比例范围内,构建样本语音,例如比例范围可以是2:8、3:7等,构建得到的样本语音中音频的总时长应用在40小时以上。
接着,训练多人转换模型:
对样本语音中的发音人进行标注,从而得到样本语音的发音人标识speakercode。此外,提取样本语音的声学特征,并基于声学特征,通过预先训练好的与发音人无关的识别模型,对样本语音的上下文后验概率特征进行提取。另外,获取样本语音的基频特征、能量特征和表现力特征。此处,应用样本语音的上下文后验概率特征、基频特征、能量特征和表现力特征,作为样本语音的发音人无关特征。
根据获取的样本语音的发音人标识、上下文后验概率特征、基频特征、能量特征和表现力特征,以及声学特征,训练表示多人的上下文后验概率特征、基频特征、能量特征和表现力特征,以及声学特征之间关系的多人转换模型。
在上述多人转换模型训练完成之后,去除多人转换模型中用于编码发音人标识的部分,得到初始模型。
随后,训练48K声码器:
应用自然人语音及其声学特征,训练48K声码器。声码器的输入是语音的声学特征,输出是语音波形,即语音。声码器的网络结构可以是WaveRNN、WaveNet或者HIFIGAN等。
最后,在多人转换模型的基础上,训练针对特定的目标发音人的转换模型:
给定目标发音人的训练语料,即目标发音人语音,并提取目标发音人语音的上下文后验概率特征、基频特征、能量特征和表现力特征,以及声学特征,基于目标发音人语音的上下文后验概率特征、基频特征、能量特征和表现力特征,以及声学特征,对初始模型进行优化,从而得到针对特定的目标发音人的转换模型。特别地,在对初始模型进行优化之前,还可以基于目标发音人语音的基频特征,计算基频的均值方差,并据此对基频特征进行调域调整,相应地,用于对初始模型进行优化的基频特征可以是调域调整之后的基频特征。
在完成上述操作之后,针对需要转换的语音,即源发音人语音,可以先提取源发音人语音的声学特征,再将源发音人语音的声学特征输入到与发音人无关的识别模型,以获取源发音人语音的上下文后验概率特征。
在此基础上,将源发音人语音的上下文后验概率特征、基频特征、能量特征和表现力特征输入到针对特定的目标发音人的转换模型,以获取转换模型输出的目标声学特征。
接着将目标声学特征输入到48K声码器中,即可得到48K声码器输出的目标发音人的目标语音。
本发明实施例提供的方法,通过应用类人声音频对样本语音进行数据增广,能够克服跨音域转换时的音域匹配问题,保证语音转换尤其是跨音频转换的转换效果,并且,在目标发音人语音有限且目标发音人音域范围窄的情况下,降低了训练成本,使得小批量数据的转换效果更加稳定。此外,通过在发音人无关特征中增加表现力特征以描述语音的空间力度,能够有效改善转换得到的语音表现力不足的问题,使得语音转换效果更加饱满,表现力更高。再者,通过48K声码器进行语音合成,丰富了语音转换所得目标语音的高频部分,增强了目标语音的空间感和自然度。
基于上述任一实施例,图4是本发明提供的语音转换装置的结构示意图,如图4所示,语音转换装置包括:
特征确定单元410,用于确定源发音人语音的发音人无关特征;
声学转换单元420,用于基于样本语音的发音人无关特征和声学特征,对所述源发音人语音的发音人无关特征进行声学转换,得到目标声学特征,所述样本语音中的部分为类人声音频;
语音合成单元430,用于基于所述目标声学特征进行语音合成,得到目标发音人的目标语音。
本发明实施例提供的装置,通过在样本语音中添加类人声音频,使得样本语音能够覆盖人声各声部的音域,由此能够学习到更广音域下语音的发音人无关特征和声学特征,因此能够克服跨音域转换时的音域匹配问题,保证语音转换尤其是跨音频转换的转换效果。
基于上述任一实施例,该装置还包括类人声音频确定单元,用于:
确定类人声源;
获取所述类人声源在人声全音域的单轨单音数据,作为所述类人声音频。
基于上述任一实施例,所述发音人无关特征包括表现力特征,所述表现力特征基于对应语音中多个频段的频率响应幅度确定。
基于上述任一实施例,所述表现力特征包括多个频段的频率响应特征,所述频率响应特征基于对应频段的幅度谱确定。
基于上述任一实施例,所述语音合成单元430用于:
基于声码器,对所述目标声学特征进行语音合成,得到目标发音人的目标语音,所述声码器包括高频建模部分。
基于上述任一实施例,所述声学转换单元420用于:
基于转换模型,对所述源发音人语音的发音人无关特征进行声学转换,得到目标声学特征;
该装置还包括转换模型训练单元,用于:
基于所述样本语音的发音人标识、发音人无关特征和声学特征,训练多人转换模型;
在所述多人转换模型的基础上,应用目标发音人语音的发音人无关特征和声学特征进行训练,得到所述转换模型。
基于上述任一实施例,所述转换模型训练单元用于:
去除所述多人转换模型中用于编码发音人标识的部分,得到初始模型;
在所述多人转换模型的基础上,应用目标发音人语音的发音人无关特征和声学特征进行训练,得到所述转换模型。
图5示例了一种电子设备的实体结构示意图,如图5所示,该电子设备可以包括:处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540,其中,处理器510,通信接口520,存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令,以执行语音转换方法,该方法包括:
确定源发音人语音的发音人无关特征;
基于样本语音的发音人无关特征和声学特征,对所述源发音人语音的发音人无关特征进行声学转换,得到目标声学特征,所述样本语音中的部分为类人声音频;
基于所述目标声学特征进行语音合成,得到目标发音人的目标语音。
此外,上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的语音转换方法,该方法包括:
确定源发音人语音的发音人无关特征;
基于样本语音的发音人无关特征和声学特征,对所述源发音人语音的发音人无关特征进行声学转换,得到目标声学特征,所述样本语音中的部分为类人声音频;
基于所述目标声学特征进行语音合成,得到目标发音人的目标语音。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的语音转换方法,该方法包括:
确定源发音人语音的发音人无关特征;
基于样本语音的发音人无关特征和声学特征,对所述源发音人语音的发音人无关特征进行声学转换,得到目标声学特征,所述样本语音中的部分为类人声音频;
基于所述目标声学特征进行语音合成,得到目标发音人的目标语音。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种语音转换方法,其特征在于,包括:
确定源发音人语音的发音人无关特征;
基于样本语音的发音人无关特征和声学特征,对所述源发音人语音的发音人无关特征进行声学转换,得到目标声学特征,所述样本语音中的部分为类人声音频;
基于所述目标声学特征进行语音合成,得到目标发音人的目标语音。
2.根据权利要求1所述的语音转换方法,其特征在于,所述类人声音频基于如下步骤确定:
确定类人声源;
获取所述类人声源在人声全音域的单轨单音数据,作为所述类人声音频。
3.根据权利要求1所述的语音转换方法,其特征在于,所述发音人无关特征包括表现力特征,所述表现力特征基于对应语音中多个频段的频率响应幅度确定。
4.根据权利要求3所述的语音转换方法,其特征在于,所述表现力特征包括多个频段的频率响应特征,所述频率响应特征基于对应频段的幅度谱确定。
5.根据权利要求1所述的语音转换方法,其特征在于,所述基于所述目标声学特征进行语音合成,得到目标发音人的目标语音,包括:
基于声码器,对所述目标声学特征进行语音合成,得到目标发音人的目标语音,所述声码器包括高频建模部分。
6.根据权利要求1至5中任一项所述的语音转换方法,其特征在于,所述基于样本语音的发音人无关特征和声学特征,对所述源发音人语音的发音人无关特征进行声学转换,得到目标声学特征,包括:
基于转换模型,对所述源发音人语音的发音人无关特征进行声学转换,得到目标声学特征;
所述转换模型基于如下步骤训练得到:
基于所述样本语音的发音人标识、发音人无关特征和声学特征,训练多人转换模型;
在所述多人转换模型的基础上,应用目标发音人语音的发音人无关特征和声学特征进行训练,得到所述转换模型。
7.根据权利要求6所述的语音转换方法,其特征在于,所述在所述多人转换模型的基础上,应用目标发音人语音的发音人无关特征和声学特征进行训练,得到所述转换模型,包括:
去除所述多人转换模型中用于编码发音人标识的部分,得到初始模型;
在所述多人转换模型的基础上,应用目标发音人语音的发音人无关特征和声学特征进行训练,得到所述转换模型。
8.一种语音转换装置,其特征在于,包括:
特征确定单元,用于确定源发音人语音的发音人无关特征;
声学转换单元,用于基于样本语音的发音人无关特征和声学特征,对所述源发音人语音的发音人无关特征进行声学转换,得到目标声学特征,所述样本语音中的部分为类人声音频;
语音合成单元,用于基于所述目标声学特征进行语音合成,得到目标发音人的目标语音。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述语音转换方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述语音转换方法的步骤。
CN202111570375.8A 2021-12-21 2021-12-21 语音转换方法、装置、电子设备和存储介质 Pending CN114170999A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111570375.8A CN114170999A (zh) 2021-12-21 2021-12-21 语音转换方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111570375.8A CN114170999A (zh) 2021-12-21 2021-12-21 语音转换方法、装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
CN114170999A true CN114170999A (zh) 2022-03-11

Family

ID=80487640

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111570375.8A Pending CN114170999A (zh) 2021-12-21 2021-12-21 语音转换方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN114170999A (zh)

Similar Documents

Publication Publication Date Title
CN109949783B (zh) 歌曲合成方法及系统
US11468870B2 (en) Electronic musical instrument, electronic musical instrument control method, and storage medium
CN108053814B (zh) 一种模拟用户歌声的语音合成系统及方法
US20190096379A1 (en) Electronic musical instrument, musical sound generating method of electronic musical instrument, and storage medium
US11495206B2 (en) Voice synthesis method, voice synthesis apparatus, and recording medium
CN111223474A (zh) 一种基于多神经网络的语音克隆方法和系统
CN109346043B (zh) 一种基于生成对抗网络的音乐生成方法及装置
CN112992109B (zh) 辅助歌唱系统、辅助歌唱方法及其非瞬时计算机可读取记录媒体
CN109308901A (zh) 歌唱者识别方法和装置
US11842719B2 (en) Sound processing method, sound processing apparatus, and recording medium
JP5598516B2 (ja) カラオケ用音声合成システム,及びパラメータ抽出装置
CN115101046A (zh) 一种特定说话人语音合成方法和装置
KR20080013524A (ko) 성대파를 이용한 음색 변환 시스템
CN110853457B (zh) 可互动的音乐教学指导方法
Lee et al. A comparative study of spectral transformation techniques for singing voice synthesis.
CN114170999A (zh) 语音转换方法、装置、电子设备和存储介质
JP2013210501A (ja) 素片登録装置,音声合成装置,及びプログラム
JP4349316B2 (ja) 音声分析及び合成装置、方法、プログラム
JP6578544B1 (ja) 音声処理装置、および音声処理方法
JP2022065554A (ja) 音声合成方法およびプログラム
JP2022065566A (ja) 音声合成方法およびプログラム
CN113555001A (zh) 歌声合成方法、装置、计算机设备及存储介质
CN115457923B (zh) 一种歌声合成方法、装置、设备及存储介质
Bous A neural voice transformation framework for modification of pitch and intensity
US20230260493A1 (en) Sound synthesizing method and program

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination