CN111247584B - 语音转换方法、系统、装置及存储介质 - Google Patents

语音转换方法、系统、装置及存储介质 Download PDF

Info

Publication number
CN111247584B
CN111247584B CN201980003189.0A CN201980003189A CN111247584B CN 111247584 B CN111247584 B CN 111247584B CN 201980003189 A CN201980003189 A CN 201980003189A CN 111247584 B CN111247584 B CN 111247584B
Authority
CN
China
Prior art keywords
voice
target
trained
vector
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201980003189.0A
Other languages
English (en)
Other versions
CN111247584A (zh
Inventor
王若童
汤志超
黄东延
谢杰斌
赵之源
刘洋
熊友军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Ubtech Technology Co ltd
Original Assignee
Shenzhen Ubtech Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Ubtech Technology Co ltd filed Critical Shenzhen Ubtech Technology Co ltd
Publication of CN111247584A publication Critical patent/CN111247584A/zh
Application granted granted Critical
Publication of CN111247584B publication Critical patent/CN111247584B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本申请公开了一种语音转换方法,所述方法包括:获取待转换语音,提取所述待转换语音的声学特征;从源向量池中获取与所述待转换语音对应的源向量,从目标向量池中选取目标语音对应的目标向量;将所述待转换语音的声学特征、所述待转换语音对应的源向量和所述目标语音对应的目标向量作为语音转换模型的输入,获取所述语音转换模型输出的目标语音声学特征;采用声码器对所述目标语音声学特征进行转换得到目标语音。通过语音转换模型得到目标语音声学特征,再对目标语音声学特征进行转换得到目标语音,使得单个语音转换模型能够进行多对多的语音转换,同时可以解决因存放模型而产生额外成本的问题。此外,还提出了一种语音转换系统、装置及存储介质。

Description

语音转换方法、系统、装置及存储介质
技术领域
本申请涉及语音识别技术领域,尤其涉及一种语音转换方法、系统、装置及存储介质。
背景技术
目前最前沿的语音转换技术都是基于深度学习技术的语音转换技术,它的转换效果好,语音相似度高,流畅自然。基于深度学习的语音转换技术,可以根据所用的神经网络的结构不同分为不同的种类。比如使用Bi-LSTM的语音转换技术、使用Seq2Seq2模型的语音转换技术、使用WGAN的语音转换技术等。
目前所有的Bi-LSTM模型,都是进行一对一的转换,即从某个特定的源说话人A转换到特定的目标说话人B,这在使用上会造成一些麻烦,例如,如果目标说话人有多个,那么就需要训练出多个一对一的模型,这使得在工业生产应用中,不仅不能实现单个语音模型进行多对多的语音转换,还需要额外的成本去存放模型。
申请内容
基于此,本申请提出了一种可以使得单个语音转换模型能够进行多对多的语音转换,从而可以解决因存放模型而产生额外成本的问题的语音转换方法、系统、装置及存储介质。
一种语音转换方法,所述方法包括:
获取待转换语音,提取所述待转换语音的声学特征;
从源向量池中获取与所述待转换语音对应的源向量,从目标向量池中选取目标语音对应的目标向量;
将所述待转换语音的声学特征、所述待转换语音对应的源向量和所述目标语音对应的目标向量作为语音转换模型的输入,获取所述语音转换模型输出的目标语音声学特征;
采用声码器对所述目标语音声学特征进行转换得到目标语音。
在其中一个实施例中,所述从源向量池中获取与所述待转换语音对应的源向量,从目标向量池中选取目标语音对应的目标向量,包括:获取待转换语音对应的源语音标识,根据所述源语音标识从源向量池中获取与所述待转换语音对应的源向量;获取目标语音对应的目标语音标识,根据所述目标语音标识从目标向量池中选取目标语音对应的目标向量。
在其中一个实施例中,所述语音转换模型采用以下步骤得到:获取多个源说话人语音对应的待训练源向量池,获取多个目标说话人语音对应的待训练目标向量池,所述待训练源向量池中包括每个源说话人语音的待训练源向量,所述待训练目标向量池包括每个目标说话人语音的待训练目标向量;获取训练样本对集合,所述训练样本对集合中包括多个训练样本对,所述训练样本对中包括源说话人对应的训练语音样本和目标说话人对应的训练目标语音样本;提取所述训练语音样本的声学特征,提取所述训练目标语音样本的声学特征;将所述训练语音样本的声学特征、所述源说话人语音对应的待训练源向量、所述目标说话人语音的待训练目标向量作为待训练语音转换模型的输入,将所述训练目标语音样本的声学特征作为期望的输出,对所述待训练语音转换模型进行训练,得到训练好的语音转换模型。
在其中一个实施例中,所述将所述训练语音样本的声学特征、所述源说话人语音对应的待训练源向量、所述目标说话人语音的待训练目标向量作为待训练语音转换模型的输入,将所述训练目标语音样本的声学特征作为期望的输出,对所述待训练语音转换模型进行训练,得到训练好的语音转换模型,包括:将所述训练语音样本的声学特征、所述源说话人语音对应的待训练源向量、所述目标说话人语音的待训练目标向量作为待训练语音转换模型的输入,获取所述待训练语音转换模型输出的实际语音声学特征;根据所述训练目标语音样本的声学特征和所述实际语音声学特征计算得到损失值;根据所述损失值对所述待训练语音转换模型中的参数、所述待训练源向量和所述待训练目标向量进行更新,直到所述损失值达到预设的收敛条件,将最后更新得到的待训练语音转换模型作为目标语音转换模型,将最后更新得到的待训练源向量作为训练好的源向量池中的源向量,将最后更新得到的待训练目标向量作为训练好的目标向量池中的目标向量。
在其中一个实施例中,在所述提取所述训练语音样本的声学特征,提取所述训练目标语音样本的声学特征之后,还包括:将所述训练语音样本的声学特征与所述训练目标语音样本的声学特征进行对齐;根据对齐结果得到对齐后的训练语音样本的声学特征,将所述对齐后的训练语音样本的声学特征作为待训练语音转换模型的输入。
在其中一个实施例中,所述获取待转换语音,提取所述待转换语音的声学特征,包括:转换所述待转换语音,得到待转换语音对应的待转换声学特征;根据所述待转换声学特征,计算得到所述待转换语音的声学特征。
在其中一个实施例中,所述声码器采用以下步骤得到:获取多个目标说话人的语音数据,提取每个目标说话人的语音数据对应的声学特征和向量;将声码器中的参数、所述声学特征和所述向量作为所述声码器的输入,将相应的目标说话人的语音数据作为期望的输出,对所述声码器进行训练,得到训练好的声码器,所述训练好的声码器用于对所述目标语音声学特征进行转换得到目标语音。
第二方面,本申请实施例提供了一种语音转换系统,所述系统包括:语音特征分析器,语音转换模型和声码器;
所述语音特征分析器用于获取待转换语音,提取所述待转换语音的声学特征;
所述语音转换模型用于对所述待转换语音的声学特征、所述待转换语音对应的源向量和所述目标语音对应的目标向量进行转换,获取输出的目标语音声学特征;
所述声码器用于对所述目标语音声学特征进行转换得到目标语音。
第三方面,本申请实施例提供一种语音转换装置,所述装置包括:
获取模块,用于获取待转换语音,提取所述待转换语音的声学特征;
选取模块,用于从源向量池中获取与所述待转换语音对应的源向量,从目标向量池中选取目标语音对应的目标向量;
训练模块,用于将所述待转换语音的声学特征、所述待转换语音对应的源向量和所述目标语音对应的目标向量作为语音转换模型的输入,获取所述语音转换模型输出的目标语音声学特征;
转换模块,用于采用声码器对所述目标语音声学特征进行转换得到目标语音。
第四方面,本申请实施例提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:
获取待转换语音,提取所述待转换语音的声学特征;
从源向量池中获取与所述待转换语音对应的源向量,从目标向量池中选取目标语音对应的目标向量;
将所述待转换语音的声学特征、所述待转换语音对应的源向量和所述目标语音对应的目标向量作为语音转换模型的输入,获取所述语音转换模型输出的目标语音声学特征;
采用声码器对所述目标语音声学特征进行转换得到目标语音。
实施本申请实施例,将具有如下有益效果:
上述语音转换方法,通过获取待转换语音,提取所述待转换语音的声学特征,再从源向量池中获取与所述待转换语音对应的源向量、从目标向量池中选取目标语音对应的目标向量,然后将所述待转换语音的声学特征、所述待转换语音对应的源向量和所述目标语音对应的目标向量作为语音转换模型的输入,获取所述语音转换模型输出的目标语音声学特征,最后采用声码器对所述目标语音声学特征进行转换得到目标语音。通过语音转换模型得到目标语音声学特征,再对目标语音声学特征进行转换得到目标语音,使得单个语音转换模型能够进行多对多的语音转换,同时可以解决因存放模型而产生额外成本的问题。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
其中:
图1为本申请一实施例的语音转换方法的流程图;
图2为本申请一实施例的获取源向量、获取目标向的流程图;
图3为本申请一实施例的训练得到语音转换模型的流程图;
图4为本申请一实施例的对待训练语音转换模型进行训练的流程图;
图5为本申请一实施例的对齐训练语音样本的声学特征与训练目标语音样本的声学特征的流程图;
图6为本申请一实施例的提取待转换语音的声学特征的流程图;
图7为本申请一实施例的训练得到声码器的流程图;
图8为本申请一实施例的语音转换系统的结构框图;
图9为本申请一实施例的语音转换装置的结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
如图1所示,提出了一种语音转换方法,该语音转换方法可以应用于终端,本实施例以应用于终端举例说明。该语音转换方法具体包括以下步骤:
步骤102,获取待转换语音,提取所述待转换语音的声学特征。
其中,待转换语音是指需要转换的语音信号;待转换语音的声学特征是指需要转换的语音信号对应的声学参数,待转换语音对应的声学参数可以包括:频谱、基频、非周期频率、梅尔倒谱、清/浊音信息等。由于不同语音信号对应的声学特征不同,所以需要提取出待转换语音的声学特征。在一个实施例中,可以是根据语音特征分析器,将待转换语音转换为对应的声学特征。例如,通过语音特征分析器,将待转换语音转换为对应的频谱、基谱和非周期频率等声学特征。由于梅尔倒谱和清/浊音信息更能反映人耳的特性,所以可以将所得频谱转换为梅尔倒谱、将所得基谱取对数、根据所得到的的各个声学特征计算得到清/浊音信息,将所得的梅尔倒谱、基普的对数和清/浊音信息作为待转换语音的声学特征,提取出上述声学特征。
步骤104,从源向量池中获取与所述待转换语音对应的源向量,从目标向量池中选取目标语音对应的目标向量。
其中,源向量池是指经过训练得到的、多个源说话人语音对应的向量池,源向量池中可以包括多个源说话人语音对应的向量,其中,多个源说话人语音是指需要训练的多个源说话人的音频,多个源说话人语音可以是根据采样得到;源向量是多个源说话人中的某个人对应的,代表其音色特征的向量;目标向量池是指经过训练得到的、多个目标说话人语音对应的向量池,目标向量池中可以包括多个目标说话人语音对应的向量,其中,多个目标说话人语音是指需要训练的多个目标说话人的音频,多个目标说话人语音可以是根据采样得到;目标向量是指多个目标说话人中的某个人对应的,代表其音色特征的向量;目标语音是指对待转换语音进行转换后得到的输出语音,目标语音可以是从采集到的多个真实的目标说话人语音中选取得到。由于源向量池和目标向量池中包括多个源说话人语音对应的向量和多个目标说话人语音对应的向量,而需要得到的是待转换语音对应的源向量和目标语音对应的目标向量,所以需要分别从源向量池和目标向量池中提取出源向量和目标向量。又因为待转换语音是已经确定的语音,所以可以根据待转换语音,直接从源向量池中提取出源向量;而目标语音可以是根据用户的选择得到,用户可以选择得到一个或多个目标语音。所以可以根据用户选择的目标语音,从目标向量池中选取出目标向量。
在一个实施例中,可以是根据待转换语音对应的标识,从源向量池包括的多个源说话人语音对应的向量中提取出源向量;再根据用户选择的目标语音对应的标识,从目标向量池中的多个目标说话人语音对应的向量中选取得到目标语音对应的目标向量。可以将得到的源向量和目标向量用于转换得到目标语音声学特征。
步骤106,将所述待转换语音的声学特征、所述待转换语音对应的源向量和所述目标语音对应的目标向量作为语音转换模型的输入,获取所述语音转换模型输出的目标语音声学特征。
其中,语音转换模型是指基于多个语音数据进行训练得到的训练模型;目标语音声学特征是指目标语音对应的声学参数,目标语音声学特征包括:基频、非周期频率、梅尔倒谱等。在一个实施例中,可以是基于多个源说话人语音的声学特征、多个目标说话人语音对应的声学特征、多个源说话人语音对应的向量和多个目标说话人语音对应的向量进行训练得到语音转换模型,然后可以将待转换语音的声学特征、待转换语音对应的源向量和目标语音对应的目标向量作为语音转换模型的输入,通过获取语音转换模型的输出即可得到目标语音声学特征。
步骤108,采用声码器对所述目标语音声学特征进行转换得到目标语音。
其中,声码器是指语音转换模型对应的语音合成系统,声码器可以根据接收到的声学特征合成语音波形。在一个实施例中,声码器可以是通过训练得到、可以分别合成多个目标语音的语音合成系统。训练得到的声码器可以根据不同目标语音对应的目标向量和目标语音声学特征,合成目标语音,例如,可以是将目标语音对应的目标向量和目标语音声学特征作为训练好的声码器的输入,通过获取训练好的声码器的输出即可得到目标语音。
上述语音转换方法,通过语音转换模型得到目标语音声学特征,再对目标语音声学特征进行转换得到目标语音,使得单个语音转换模型能够进行多对多的语音转换,同时可以解决因存放模型而产生额外成本的问题。
如图2所示,在一个实施例中,所述从源向量池中获取与所述待转换语音对应的源向量,从目标向量池中选取目标语音对应的目标向量,包括:
步骤202,获取待转换语音对应的源语音标识,根据所述源语音标识从源向量池中获取与所述待转换语音对应的源向量。
其中,源语音标识是指待转换语音对应的源说话人的标识。由于待转换语音可以是从多个源说话人语音中选取得到,即,待转换语音可以是多个源说话人语音中的一个或多个源说话人语音,又因为源向量池中可以包括多个源说话人语音对应的向量,不同的源说话人对应的源说话人语音对应不同的向量,为得到待转换语音对应的源说话人语音对应的向量,可以根据待转换语音对应的源语音标识,在源向量池中找寻与待转换语音相对应的向量,从而可以得到待转换语音对应的源向量。在一个实施例中,假设待转换语音对应的源语音标识为src_speaker_id,则可以根据源语音标识src_speaker_id,在源向量池中找相应的向量,得到对应的向量为src_speaker_embedding,从而可以得到待转换语音对应的源向量为src_speaker_embedding。
步骤204,获取目标语音对应的目标语音标识,根据所述目标语音标识从目标向量池中选取目标语音对应的目标向量。
其中,目标语音标识是指目标语音对应的目标说话人语音的标识。由于目标语音可以是从多个目标说话人语音中选取得到的一个或多个目标说话人语音,目标向量池中可以包括多个目标说话人语音对应的向量,不同的目标说话人语音对应不同的向量,为得到目标语音对应的目标说话人语音对应的向量,可以根据目标语音对应的目标语音标识,在目标向量池中找寻与目标语音相对应的向量,从而可以得到目标语音对应的目标向量。在一个实施例中,假设目标语音对应的源语音标识为tgt_speaker_id,则可以根据目标语音标识tgt_speaker_id,在目标向量池中找相应的向量,得到对应的向量为tgt_speaker_embedding,从而可以得到目标语音对应的目标向量为tgt_speaker_embedding。通过获取待转换语音对应的源语音标识、获取目标语音对应的目标语音标识,根据源语音标识和目标语音标识分别从源向量池和目标向量池中找寻相应的向量,从而得到待转换语音对应的源向量和目标语音对应的目标向量,可以从源向量池中的多个向量中准确获取源向量、从目标向量池的多个向量中准确选取目标向量。
如图3所示,在一个实施例中,所述语音转换模型采用以下步骤得到:
步骤302,获取多个源说话人语音对应的待训练源向量池,获取多个目标说话人语音对应的待训练目标向量池,所述待训练源向量池中包括每个源说话人语音的待训练源向量,所述待训练目标向量池包括每个目标说话人语音的待训练目标向量。
其中,待训练源向量池是指需要进行训练的多个源说话人语音对应的多个待训练源向量构成的向量池;待训练源向量是指多个源说话人语音对应的、需要进行训练的向量;待训练目标向量池是指需要进行训练的多个目标说话人语音对应的多个待训练目标向量构成的向量池;待训练目标向量是指多个目标说话人语音对应的、需要进行训练的向量。可以是同时采集多个源说话人语音和多个目标说话人语音,然后分别得到多个源说话人语音对应的待训练源向量池和多个目标说话人语音对应的待训练目标向量池。在一个实施例中,待训练源向量池可以是包括M个源说话人语音对应的待训练源向量,例如,可以是包括10个源说话人语音对应的待训练源向量,假设这10个源说话人语音对应的待训练源向量池的维度为10*16,获取上述待训练源向量池;假设待训练目标向量池可以是包括M个目标说话人语音对应的待训练目标向量,例如,可以是包括10个目标说话人语音对应的待训练目标向量,假设这10个目标说话人语音对应的待训练目标向量池的维度为10*16,获取上述待训练目标向量池。
步骤304,获取训练样本对集合,所述训练样本对集合中包括多个训练样本对,所述训练样本对中包括源说话人对应的训练语音样本和目标说话人对应的训练目标语音样本。
其中,训练样本对是指由每个源说话人对应的训练语音样本和每个目标说话人对应的训练目标语音样本组成的多对训练样本;其中,源说话人对应的训练语音样本可以包括:每个源说话人语音的声学特征和每个源说话人语音对应的待训练源向量;目标说话人对应的训练目标语音样本可以包括:每个目标说话人语音的声学特征和每个目标说话人语音对应的待训练目标向量;训练样本对集合是指多对训练样本对所构成的集合。可以是将训练样本对集合中的每对训练样本对与语音转换模型中的参数一起进行训练,使得每对训练样本对中的训练语音样本的每个源说话人语音对应的待训练源向量和训练目标语音样本对应的每个目标说话人语音对应的待训练目标向量,与语音训练模型中的参数一起得到更新。
在一个实施例中,获取训练样本对集合,可以是先获取由每个源说话人对应的训练语音样本和每个目标说话人对应的训练目标语音样本,组成每对训练样本对,然后将每对训练样本对进行组合,就可以得到训练样本对集合。获取训练语音样本,可以是通过获取每个源说话人语音对应的声学特征和待训练源向量得到;获取训练目标语音样本,可以是通过获取每个目标说话人语音对应的声学特征和待训练目标向量得到。然后可以依次获取由每个训练语音样本和每个训练目标语音样本组成多对训练样本对,组合得到多对训练样本对,从而可以得到训练样本对集合。例如,假设有5个训练语音样本,假设有5个训练目标语音样本。可以一次只获取第一个训练语音样本和第一个训练目标语音样本,将二者组合成为第一对训练样本对;可以依次将5个训练语音样本和5个训练目标语音样本进行组合,可以得到组合后的25对训练样本对,最后可以得到由25对训练样本对构成的训练样本对集合。可以将所得的训练样本对集合用于语音转换模型的训练。
步骤306,提取所述训练语音样本的声学特征,提取所述训练目标语音样本的声学特征。
其中,训练语音样本的声学特征是指每个源说话人语音对应的声学参数,上述声学参数可以包括:频谱、基频、非周期频率、梅尔倒谱等;训练目标语音样本的声学特征是指每个目标说话人语音对应的声学参数,上述声学参数可以包括:频谱、基频、非周期频率、梅尔倒谱等。由于不同的训练语音样本对应不同的源语音说话人语音对应的声学特征,不同训练目标语音样本对应不同目标说话人对应的声学特征,所以可以分别提取每个训练语音样本的声学特征和每个训练目标语音样本的声学特征。在一个实施例中,可以是提取训练语音样本的梅尔倒谱和清/浊音信息,提取训练目标语音样本的梅尔倒谱和清/浊音信息,从而分别得到训练语音样本的声学特征和训练目标语音样本的声学特征。
步骤308,将所述训练语音样本的声学特征、所述源说话人语音对应的待训练源向量、所述目标说话人语音的待训练目标向量作为待训练语音转换模型的输入,将所述训练目标语音样本的声学特征作为期望的输出,对所述待训练语音转换模型进行训练,得到训练好的语音转换模型。
其中,待训练语音转换模型是指需要进行训练的语音转换模型,训练好的语音转换模型是指基于各个语音数据进行训练后得到的语音转换模型。在一个实施例中,可以是对待训练语音转换模型进行训练,从而得到训练好的语音转换模型。可以是将训练语音样本的声学特征、源说话人语音对应的待训练源向量和目标说话人语音的待训练目标向量作为待训练语音转换模型的输入,将训练目标语音样本的声学特征作为期望的输出,然后对待训练语音转换模型进行训练,从而可以得到训练好的语音转换模型。例如,假设在t时刻,对某一对训练样本对进行训练时,训练语音样本的声学特征为xt,假设待训练源向量为src_speaker_embedding,假设待训练目标向量为tgt_speaker_embedding,假设得到的待训练转换模型的输出为
Figure GDA0002458618860000081
可以通过下列公式计算得到/>
Figure GDA0002458618860000082
Figure GDA0002458618860000083
可以根据上述公式,计算得到待训练语音转换模型的输出
Figure GDA0002458618860000084
然后可以根据所得输出/>
Figure GDA0002458618860000085
对待训练语音转换模型进行训练,得到期望的输出(即得到训练目标语音样本的声学特征),从而可以得到训练好的语音转换模型。通过获取待训练源向量池、待训练目标向量池,然后获取训练样本对集合,再提取出训练语音样本的声学特征、提取出训练目标语音样本的声学特征,最后将训练语音样本的声学特征、源说话人语音对应的待训练源向量、目标说话人语音的待训练目标向量作为待训练语音转换模型的输入,将所述训练目标语音样本的声学特征作为期望的输出,对待训练语音转换模型进行训练,可以得到训练好的语音转换模型。通过整个训练过程,使得待训练源向量池中的待训练源向量、待训练目标向量池中的待训练目标向量与待训练语音转换模型中的参数同时得到了更新,也得到了学习。可以实现在训练收敛后,训练好的某个源向量就代表了该向量对应的源说话人语音的声学特征、训练好的某个目标向量就代表了该向量对应的目标说话人语音的声音特征,使得训练好的语音转换模型可以用于将待转换语音转换为目标语音,从而可以使得单个语音转换模型能够进行多对多的语音转换,从而可以解决因存放模型而产生额外成本的问题。
如图4所示,在一个实施例中,所述将所述训练语音样本的声学特征、所述源说话人语音对应的待训练源向量、所述目标说话人语音的待训练目标向量作为待训练语音转换模型的输入,将所述训练目标语音样本的声学特征作为期望的输出,对所述待训练语音转换模型进行训练,得到训练好的语音转换模型,包括:
步骤402,将所述训练语音样本的声学特征、所述源说话人语音对应的待训练源向量、所述目标说话人语音的待训练目标向量作为待训练语音转换模型的输入,获取所述待训练语音转换模型输出的实际语音声学特征。
其中,实际语音声学特征是指待训练语音转换模型输出的实际上的声学特征。由于待训练语音转换模型输出的声学特征,不一定就是期望得到的声学特征,或是与期望得到的声学特征差异较大,所以要得到待训练语音转换模型输出的实际上的声学特征。在一个实施例中,可以是将所述训练语音样本的声学特征、所述源说话人语音对应的待训练源向量、所述目标说话人语音的待训练目标向量作为待训练语音转换模型的输入,得到待训练语音转换模型的输出,可以将输出所得作为实际语音声学特征,从而可以得到实际语音声学特征,可以将实际语音声学特征用于训练待训练语音转换模型。
步骤404,根据所述训练目标语音样本的声学特征和所述实际语音声学特征计算得到损失值。
其中,损失值是指表示实际语音声学特征与训练目标语音样本的声学特征之间的差异的数值。由于在训练阶段得到的实际语音声学特征会与期望得到的声学特征之间存在较大的差异,为了得到二者之间的差异,可以是根据训练目标语音样本的声学特征和实际语音声学特征,计算得到损失值,从而可以用损失值来表示二者之间的差异。在一个实施例中,假设实际语音声学特征为
Figure GDA0002458618860000091
(T x N,N此处可以为130),假设训练目标语音样本的声学特征为y,假设损失值为loss,根据/>
Figure GDA0002458618860000092
和y计算得到损失值,可以是根据下列公式计算得到:
Figure GDA0002458618860000093
语音声学特征之间的差异。可以将loss用于对待训练语音转换模型中的参数、待训练源向量和待训练目标向量进行更新。
步骤406,根据所述损失值对所述待训练语音转换模型中的参数、所述待训练源向量和所述待训练目标向量进行更新,直到所述损失值达到预设的收敛条件,将最后更新得到的待训练语音转换模型作为目标语音转换模型,将最后更新得到的待训练源向量作为训练好的源向量池中的源向量,将最后更新得到的待训练目标向量作为训练好的目标向量池中的目标向量。
其中,待训练语音转换模型中的参数可以包括:参数矩阵W;预设的收敛条件是指预先设置的训练收敛的条件;目标语音转换模型是指用于将待转换语音转换为目标语音的语音转换模型。由于实际语音声学参数与训练模板语音样本的声学特征之间存在差异,为了得到训练模板语音样本的声学特征,可以是根据损失值,对待训练语音转换模型中的参数、待训练源向量和待训练目标向量进行更新,直至达到预设的收敛条件,使得训练收敛,最后可以得到更新后的各个参数。
在一个实施例中,假设计算得到损失值为loss,可以根据loss进行梯度下降,更新待训练模型中的参数、待训练源向量和待训练目标向量;预设的收敛条件可以是当实际语音声学特征与训练目标语音样本的声学特征相等时,训练收敛,即结束对待训练模型中的参数、待训练源向量和待训练目标向量的更新,可以将最后更新得到的待训练语音转换模型作为目标语音转换模型。由于在训练收敛后,每个待训练源向量和每个待训练目标向量都得到了更新,所以可以将最后更新得到的待训练源向量作为训练好的源向量池中的源向量,将最后更新得到的待训练目标向量作为训练好的目标向量池中的目标向量。通过获取实际语音声学特征,根据训练目标语音样本的声学特征和实际语音声学特征计算得到损失值,再根据所得损失值对待训练语音转换模型中的参数、待训练源向量和待训练目标向量进行更新,然后将最后更新得到的待训练语音转换模型作为目标语音转换模型,将最后更新得到的待训练源向量作为训练好的源向量池中的源向量,将最后更新得到的待训练目标向量作为训练好的目标向量池中的目标向量,可以使得待训练源向量、待训练目标向量和待训练语音转换模型中的参数同时得到了更新和学习;通过预设的收敛条件,可以根据需求,使得训练收敛;实现了在训练收敛后,源向量池和目标向量池中的某个向量就代表了该说话人的声音特征,使得训练好的目标语音转换模型能够进行多对多的语音转换,从而可以解决因存放模型而产生额外成本的问题。
如图5所示,在一个实施例中,在所述提取所述训练语音样本的声学特征,提取所述训练目标语音样本的声学特征之后,还包括:
步骤308,将所述训练语音样本的声学特征与所述训练目标语音样本的声学特征进行对齐。
其中,对齐是指将训练语音样本的声学特征与训练目标语音样本的声学特征进行对齐。由于训练语音样本的声学特征具有相当大的随机性,如果直接将训练语音样本的声学特征和训练目标语音样本的声学特征进行匹配,会导致训练语音样本的声学特征无法对正训练目标语音样本的声学特征,从而导致二者无法匹配。所以需要将训练语音样本的声学特征与训练目标语音样本的声学特征进行对齐,从而可以使得训练语音样本的声学特征与训练目标语音样本的声学特征一一对正。在一个实施例中,可以使用动态规划时间对齐(Dynamic Time Warping,简称DTW)的方法,将训练语音样本的声学特征与训练目标语音样本的声学特征进行对齐,即,将训练语音样本的声学特征进行不均匀地扭曲或弯折,可以使其与训练目标语音样本的声学特征对正。
步骤310,根据对齐结果得到对齐后的训练语音样本的声学特征,将所述对齐后的训练语音样本的声学特征作为待训练语音转换模型的输入。
其中,对齐结果是指将训练语音样本的声学特征与训练目标语音样本的声学特征一一进行对正后的训练语音样本的声学特征。由于训练语音样本的声学特征与训练目标语音样本的声学特征已经对齐,所以可以得到对齐后的训练语音样本的声学特征,继而可以将对齐后的训练语音样本的声学特征作为待训练语音转换模型的输入。在一个实施例中,假设对齐后的训练语音声学特征为x(T x N,N此处可以为130),其中的T为经过傅里叶变换之后,训练语音声学特征的帧数;N=130,是梅尔倒谱+一阶/二阶倒数、lf0+一阶/二阶倒数、清/浊音以及ap+一阶/二阶倒数的合集,可以将对齐后的训练语音声学特征为x作为待训练语音转换模型的输入。通过将训练语音样本的声学特征与训练目标语音样本的声学特征进行对齐,可以解决训练语音样本的声学特征与训练目标语音样本的声学特征之间的长短不一的匹配问题;通过将对齐后的训练语音声学特征为x作为待训练语音转换模型的输入,可以有效提高系统对训练语音声学特征的识别精度。
如图6所示,在一个实施例中,所述获取待转换语音,提取所述待转换语音的声学特征,包括:
步骤602,转换所述待转换语音,得到待转换语音对应的待转换声学特征。
其中,待转换声学特征是指使用语音特征分析器将待转换语音转换得到的声学参数,待转换声学特征可以包括:频谱、基频和非周期频率等。由于待转换语音中可以包含有各种各样的信息,例如,语音内容信息、源说话人语音的声学特征信息和说话环境信息,其中,只有源说话人语音的声学特征信息描述了与源说话人身份相关的声音方面的特征,所以需要提取得到待转换语音对应的待转换声学特征,对待转换声学特征进行转换,其他方面的信息可以保留不变。在一个实施例中,可以是使用WORLD语音特征分析器对待转换语音进行转换,得到待转换语音对应的待转换声学特征。例如,可以使用WORLD语音特征分析器将待转换语音转换为频谱、基频和非周期频率,可以将这三个声学特征作为待转换声学特征。可以将待转换声学特征用于得到待转换语音的声学特征。
步骤604,根据所述待转换声学特征,计算得到所述待转换语音的声学特征。
在一个实施例中,可以是根据语音特征分析器转换得到频谱、基频和非周期频率等待转换声学特征。由于梅尔倒谱和清/浊音更能反映人耳的特性,所以再根据频谱、基频和非周期频率计算得到梅尔倒谱、基频对数和清/浊音信息,可以将计算得到的梅尔倒谱、基频对数和清/浊音信息作为待转换语音的声学特征。例如,可以根据频谱计算得到梅尔倒谱;可以将基频取对数,得到基频对数lf0;再根据待转换声学特征计算得到清/浊音信息。通过语音特征分析器对待转换语音进行转换,提取出待转换声学特征,然后可以根据待转换声学特征,计算得到待转换语音的声学特征。通过对待转换声学特征的再次转换,可以得到更能反映人耳的特性的待转换语音的声学特征,从而可以提高语音转换的效率和质量。
如图7所示,在一个实施例中,所述声码器采用以下步骤得到:
步骤702,获取多个目标说话人的语音数据,提取每个目标说话人的语音数据对应的声学特征和向量。
其中,多个目标说话人的语音数据是指多个目标说话人语音的相关数据,多个目标说话人的语音数据可以对应多个声学特征和多个向量。由于不同目标说话人对应的语音数据不同,所以要分别获取不同目标说话人的语音数据;可以提取出每个目标说话人的语音数据对应的声学特征和向量,从而可以得到更具体的多个目标说话人的语音数据。在一个实施例中,假设有5个目标说话人,分别为001,002,003,004,005,则可以获取这5个目标说话人的语音数据,然后提取出每个目标说话人的语音数据对应的声学特征和向量,例如,可以提取出目标说话人001对应的频谱、基频和非周期频率,提取出目标说话人001对应的目标向量。可以将多个目标说话人的语音数据、每个目标说话人的语音数据对应的声学特征和向量用于对声码器进行训练。
步骤704,将声码器中的参数、所述声学特征和所述向量作为所述声码器的输入,将相应的目标说话人的语音数据作为期望的输出,对所述声码器进行训练,得到训练好的声码器,所述训练好的声码器用于对所述目标语音声学特征进行转换得到目标语音。
其中,训练好的声码器是指用于将目标语音声学特征转换为目标语音的声码器。可以是根据训练好的声码器,将多个目标语音声学特征转换为对应的目标语音。在一个实施例中,对声码器进行训练,可以是将声码器中的参数、多个目标说话人的声学特征和多个向量作为声码器的输入,将相应的目标说话人的语音数据作为期望的输出,然后对声码器进行训练,从而可以得到训练好的声码器。例如,可以是将声码器中的参数、多个目标说话人的声学特征和对应的向量作为声码器的输入,获取声码器输出的实际上的目标语音数据,即,可以得到实际语音数据;然后可以根据目标说话人的语音数据和实际语音数据,计算得到二者之间的损失;再根据所得损失进行优化,当遍历一遍多个目标说话人的语音数据、语音数据对应的声学特征和向量时,就可以得到训练好的声码器。得到训练好的声码器。可以将训练好的声码器用于对目标语音声学特征进行转换得到目标语音。可以将训练好的声码器用于对目标语音声学特征进行转换得到目标语音,例如,可以将每个目标说话人的向量作为目标说话人的信息标识,辅助训练好的声码器识别目标说话人的声学特征,通过训练好的声码器对声学特征进行合成转换后得到目标语音。根据多个目标说话人的语音数据、以及语音数据对应的声学特征和向量对声码器进行训练,通过大量的训练,使得声码器中的参数趋于稳定,从而可以实现声码器输出多个目标语音功能。
如图8所示,本发明实施例提出了一种语音转换系统,所述系统包括:语音特征分析器802,语音转换模型804和声码器806;
所述语音特征分析器802还用于获取待转换语音,提取所述待转换语音的声学特征。
在一个实施例中,语音特征分析器可以是WORLD语音特征分析器。可以是通过WORLD语音特征分析器,对待转换语音进行声学特征的提取。例如,通过WORLD语音特征分析器将待转换语音转换为频谱、基频、非周期频率等声学特征。
所述语音转换模型804用于对所述待转换语音的声学特征、所述待转换语音对应的源向量和所述目标语音对应的目标向量进行转换,获取输出的目标语音声学特征。
在一个实施例中,语音转换模型804可以是基于多个源说话人语音的声学特征、多个目标说话人语音对应的声学特征、多个源说话人语音对应的向量和多个目标说话人语音对应的向量进行训练得到的,然后可以将待转换语音的声学特征、待转换语音对应的源向量和目标语音对应的目标向量作为语音转换模型的输入,通过获取语音转换模型的输出即可得到目标语音声学特征。
所述声码器806用于对所述目标语音声学特征进行转换得到目标语音。
在一个实施例中,声码器806可以是WaveNet声码器,可以是通过WaveNet声码器,将目标语音声学特征合成目标语音。
如图9所示,本发明实施例提出了一种语音转换装置,所述装置包括:
获取模块902,用于获取待转换语音,提取所述待转换语音的声学特征;
选取模块904,用于从源向量池中获取与所述待转换语音对应的源向量,从目标向量池中选取目标语音对应的目标向量;
训练模块906,用于将所述待转换语音的声学特征、所述待转换语音对应的源向量和所述目标语音对应的目标向量作为语音转换模型的输入,获取所述语音转换模型输出的目标语音声学特征;
转换模块908,用于采用声码器对所述目标语音声学特征进行转换得到目标语音。
在一个实施例中,所述从源向量池中获取与所述待转换语音对应的源向量,从目标向量池中选取目标语音对应的目标向量,包括:获取模块902还用于获取待转换语音对应的源语音标识,根据所述源语音标识从源向量池中获取与所述待转换语音对应的源向量;获取模块902还用于获取目标语音对应的目标语音标识,根据所述目标语音标识从目标向量池中选取目标语音对应的目标向量。
在一个实施例中,所述语音转换模型采用以下步骤得到:获取模块902还用于获取多个源说话人语音对应的待训练源向量池,获取多个目标说话人语音对应的待训练目标向量池,所述待训练源向量池中包括每个源说话人语音的待训练源向量,所述待训练目标向量池包括每个目标说话人语音的待训练目标向量;获取模块902还用于获取训练样本对集合,所述训练样本对集合中包括多个训练样本对,所述训练样本对中包括源说话人对应的训练语音样本和目标说话人对应的训练目标语音样本;提取模块904还用于提取所述训练语音样本的声学特征,提取所述训练目标语音样本的声学特征;训练模块906还用于将所述训练语音样本的声学特征、所述源说话人语音对应的待训练源向量、所述目标说话人语音的待训练目标向量作为待训练语音转换模型的输入,将所述训练目标语音样本的声学特征作为期望的输出,对所述待训练语音转换模型进行训练,得到训练好的语音转换模型。
在一个实施例中,所述将所述训练语音样本的声学特征、所述源说话人语音对应的待训练源向量、所述目标说话人语音的待训练目标向量作为待训练语音转换模型的输入,将所述训练目标语音样本的声学特征作为期望的输出,对所述待训练语音转换模型进行训练,得到训练好的语音转换模型,包括:获取模块902还用于将所述训练语音样本的声学特征、所述源说话人语音对应的待训练源向量、所述目标说话人语音的待训练目标向量作为待训练语音转换模型的输入,获取所述待训练语音转换模型输出的实际语音声学特征;根据所述训练目标语音样本的声学特征和所述实际语音声学特征计算得到损失值;训练模块906还用于根据所述损失值对所述待训练语音转换模型中的参数、所述待训练源向量和所述待训练目标向量进行更新,直到所述损失值达到预设的收敛条件,将最后更新得到的待训练语音转换模型作为目标语音转换模型,将最后更新得到的待训练源向量作为训练好的源向量池中的源向量,将最后更新得到的待训练目标向量作为训练好的目标向量池中的目标向量。
在一个实施例中,在所述提取所述训练语音样本的声学特征,提取所述训练目标语音样本的声学特征之后,还包括:将所述训练语音样本的声学特征与所述训练目标语音样本的声学特征进行对齐;训练模块906还用于根据对齐结果得到对齐后的训练语音样本的声学特征,将所述对齐后的训练语音样本的声学特征作为待训练语音转换模型的输入。
在一个实施例中,所述获取待转换语音,提取所述待转换语音的声学特征,包括:获取模块902还用于转换所述待转换语音,得到待转换语音对应的待转换声学特征;根据所述待转换声学特征,计算得到所述待转换语音的声学特征。
在一个实施例中,所述声码器采用以下步骤得到:获取模块902还用于获取多个目标说话人的语音数据,提取每个目标说话人的语音数据对应的声学特征和向量;训练模块906还用于将声码器中的参数、所述声学特征和所述向量作为所述声码器的输入,将相应的目标说话人的语音数据作为期望的输出,对所述声码器进行训练,得到训练好的声码器,所述训练好的声码器用于对所述目标语音声学特征进行转换得到目标语音。
一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:获取待转换语音,提取所述待转换语音的声学特征;从源向量池中获取与所述待转换语音对应的源向量,从目标向量池中选取目标语音对应的目标向量;将所述待转换语音的声学特征、所述待转换语音对应的源向量和所述目标语音对应的目标向量作为语音转换模型的输入,获取所述语音转换模型输出的目标语音声学特征;采用声码器对所述目标语音声学特征进行转换得到目标语音。
在一个实施例中,所述从源向量池中获取与所述待转换语音对应的源向量,从目标向量池中选取目标语音对应的目标向量,包括:获取待转换语音对应的源语音标识,根据所述源语音标识从源向量池中获取与所述待转换语音对应的源向量;获取目标语音对应的目标语音标识,根据所述目标语音标识从目标向量池中选取目标语音对应的目标向量。
在一个实施例中,所述语音转换模型采用以下步骤得到:获取多个源说话人语音对应的待训练源向量池,获取多个目标说话人语音对应的待训练目标向量池,所述待训练源向量池中包括每个源说话人语音的待训练源向量,所述待训练目标向量池包括每个目标说话人语音的待训练目标向量;获取训练样本对集合,所述训练样本对集合中包括多个训练样本对,所述训练样本对中包括源说话人对应的训练语音样本和目标说话人对应的训练目标语音样本;提取所述训练语音样本的声学特征,提取所述训练目标语音样本的声学特征;将所述训练语音样本的声学特征、所述源说话人语音对应的待训练源向量、所述目标说话人语音的待训练目标向量作为待训练语音转换模型的输入,将所述训练目标语音样本的声学特征作为期望的输出,对所述待训练语音转换模型进行训练,得到训练好的语音转换模型。
在一个实施例中,所述将所述训练语音样本的声学特征、所述源说话人语音对应的待训练源向量、所述目标说话人语音的待训练目标向量作为待训练语音转换模型的输入,将所述训练目标语音样本的声学特征作为期望的输出,对所述待训练语音转换模型进行训练,得到训练好的语音转换模型,包括:将所述训练语音样本的声学特征、所述源说话人语音对应的待训练源向量、所述目标说话人语音的待训练目标向量作为待训练语音转换模型的输入,获取所述待训练语音转换模型输出的实际语音声学特征;根据所述训练目标语音样本的声学特征和所述实际语音声学特征计算得到损失值;根据所述损失值对所述待训练语音转换模型中的参数、所述待训练源向量和所述待训练目标向量进行更新,直到所述损失值达到预设的收敛条件,将最后更新得到的待训练语音转换模型作为目标语音转换模型,将最后更新得到的待训练源向量作为训练好的源向量池中的源向量,将最后更新得到的待训练目标向量作为训练好的目标向量池中的目标向量。
在一个实施例中,在所述提取所述训练语音样本的声学特征,提取所述训练目标语音样本的声学特征之后,还包括:将所述训练语音样本的声学特征与所述训练目标语音样本的声学特征进行对齐;根据对齐结果得到对齐后的训练语音样本的声学特征,将所述对齐后的训练语音样本的声学特征作为待训练语音转换模型的输入。
在一个实施例中,所述获取待转换语音,提取所述待转换语音的声学特征,包括:转换所述待转换语音,得到待转换语音对应的待转换声学特征;根据所述待转换声学特征,计算得到所述待转换语音的声学特征。
在一个实施例中,所述声码器采用以下步骤得到:获取多个目标说话人的语音数据,提取每个目标说话人的语音数据对应的声学特征和向量;将声码器中的参数、所述声学特征和所述向量作为所述声码器的输入,将相应的目标说话人的语音数据作为期望的输出,对所述声码器进行训练,得到训练好的声码器,所述训练好的声码器用于对所述目标语音声学特征进行转换得到目标语音。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种语音转换方法,其特征在于,所述方法包括:
获取待转换语音,提取所述待转换语音的声学特征;
从源向量池中获取与所述待转换语音对应的源向量,从目标向量池中选取目标语音对应的目标向量,所述源向量池为经过训练得到的、多个源说话人语音对应的向量池,所述源向量池中包括多个源说话人语音对应的向量;所述源向量为所述多个源说话人中每个人分别对应的代表音色特征的向量;所述目标向量池为经过训练得到的、多个目标说话人语音对应的向量池,所述目标向量池中包括多个目标说话人语音对应的向量;所述目标向量为目标说话人中的每个人分别对应的代表音色特征的向量;
将所述待转换语音的声学特征、所述待转换语音对应的源向量和所述目标语音对应的目标向量作为语音转换模型的输入,获取所述语音转换模型输出的目标语音声学特征;
采用声码器对所述目标语音声学特征进行转换得到目标语音。
2.根据权利要求1所述的方法,其特征在于,所述从源向量池中获取与所述待转换语音对应的源向量,从目标向量池中选取目标语音对应的目标向量,包括:
获取待转换语音对应的源语音标识,根据所述源语音标识从源向量池中获取与所述待转换语音对应的源向量;
获取目标语音对应的目标语音标识,根据所述目标语音标识从目标向量池中选取目标语音对应的目标向量。
3.根据权利要求1所述的方法,其特征在于,所述语音转换模型采用以下步骤得到:
获取多个源说话人语音对应的待训练源向量池,获取多个目标说话人语音对应的待训练目标向量池,所述待训练源向量池中包括每个源说话人语音的待训练源向量,所述待训练目标向量池包括每个目标说话人语音的待训练目标向量;
获取训练样本对集合,所述训练样本对集合中包括多个训练样本对,所述训练样本对中包括源说话人对应的训练语音样本和目标说话人对应的训练目标语音样本;
提取所述训练语音样本的声学特征,提取所述训练目标语音样本的声学特征;
将所述训练语音样本的声学特征、所述源说话人语音对应的待训练源向量、所述目标说话人语音的待训练目标向量作为待训练语音转换模型的输入,将所述训练目标语音样本的声学特征作为期望的输出,对所述待训练语音转换模型进行训练,得到训练好的语音转换模型。
4.根据权利要求3所述的方法,其特征在于,所述将所述训练语音样本的声学特征、所述源说话人语音对应的待训练源向量、所述目标说话人语音的待训练目标向量作为待训练语音转换模型的输入,将所述训练目标语音样本的声学特征作为期望的输出,对所述待训练语音转换模型进行训练,得到训练好的语音转换模型,包括:
将所述训练语音样本的声学特征、所述源说话人语音对应的待训练源向量、所述目标说话人语音的待训练目标向量作为待训练语音转换模型的输入,获取所述待训练语音转换模型输出的实际语音声学特征;
根据所述训练目标语音样本的声学特征和所述实际语音声学特征计算得到损失值;
根据所述损失值对所述待训练语音转换模型中的参数、所述待训练源向量和所述待训练目标向量进行更新,直到所述损失值达到预设的收敛条件,将最后更新得到的待训练语音转换模型作为目标语音转换模型,将最后更新得到的待训练源向量作为训练好的源向量池中的源向量,将最后更新得到的待训练目标向量作为训练好的目标向量池中的目标向量。
5.根据权利要求3所述的方法,其特征在于,在所述提取所述训练语音样本的声学特征,提取所述训练目标语音样本的声学特征之后,还包括:
将所述训练语音样本的声学特征与所述训练目标语音样本的声学特征进行对齐;
根据对齐结果得到对齐后的训练语音样本的声学特征,将所述对齐后的训练语音样本的声学特征作为待训练语音转换模型的输入。
6.根据权利要求1所述的方法,其特征在于,所述获取待转换语音,提取所述待转换语音的声学特征,包括:
转换所述待转换语音,得到待转换语音对应的待转换声学特征;
根据所述待转换声学特征,计算得到所述待转换语音的声学特征。
7.根据权利要求1所述的方法,其特征在于,所述声码器采用以下步骤得到:
获取多个目标说话人的语音数据,提取每个目标说话人的语音数据对应的声学特征和向量;
将声码器中的参数、所述声学特征和所述向量作为所述声码器的输入,将相应的目标说话人的语音数据作为期望的输出,对所述声码器进行训练,得到训练好的声码器,所述训练好的声码器用于对所述目标语音声学特征进行转换得到目标语音。
8.一种语音转换系统,其特征在于,所述系统包括:语音特征分析器,语音转换模型和声码器;
所述语音特征分析器用于获取待转换语音,提取所述待转换语音的声学特征;
所述语音转换模型用于对所述待转换语音的声学特征、所述待转换语音对应的源向量和目标语音对应的目标向量进行转换,获取输出的目标语音声学特征,所述源向量为多个源说话人中每个人分别对应的代表音色特征的向量;所述目标向量为目标说话人中的每个人分别对应的代表音色特征的向量;
所述声码器用于对所述目标语音声学特征进行转换得到目标语音。
9.一种语音转换装置,其特征在于,所述装置包括:
获取模块,用于获取待转换语音,提取所述待转换语音的声学特征;
选取模块,用于从源向量池中获取与所述待转换语音对应的源向量,从目标向量池中选取目标语音对应的目标向量,所述源向量池为经过训练得到的、多个源说话人语音对应的向量池,所述源向量池中包括多个源说话人语音对应的向量;所述源向量为所述多个源说话人中每个人分别对应的代表音色特征的向量;所述目标向量池为经过训练得到的、多个目标说话人语音对应的向量池,所述目标向量池中包括多个目标说话人语音对应的向量;所述目标向量为目标说话人中的每个人分别对应的代表音色特征的向量;
训练模块,用于将所述待转换语音的声学特征、所述待转换语音对应的源向量和所述目标语音对应的目标向量作为语音转换模型的输入,获取所述语音转换模型输出的目标语音声学特征;
转换模块,用于采用声码器对所述目标语音声学特征进行转换得到目标语音。
10.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至7中任一项所述方法的步骤。
CN201980003189.0A 2019-12-24 2019-12-24 语音转换方法、系统、装置及存储介质 Active CN111247584B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2019/127948 WO2021127985A1 (zh) 2019-12-24 2019-12-24 语音转换方法、系统、装置及存储介质

Publications (2)

Publication Number Publication Date
CN111247584A CN111247584A (zh) 2020-06-05
CN111247584B true CN111247584B (zh) 2023-05-23

Family

ID=70875611

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980003189.0A Active CN111247584B (zh) 2019-12-24 2019-12-24 语音转换方法、系统、装置及存储介质

Country Status (3)

Country Link
US (1) US11996112B2 (zh)
CN (1) CN111247584B (zh)
WO (1) WO2021127985A1 (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114141269A (zh) * 2020-08-12 2022-03-04 中国电信股份有限公司 语音转换模型生成方法和装置
CN112259072B (zh) * 2020-09-25 2024-07-26 北京百度网讯科技有限公司 语音转换方法、装置和电子设备
CN112382308A (zh) * 2020-11-02 2021-02-19 天津大学 基于深度学习与简单声学特征的零次语音转换系统和方法
CN112509550A (zh) * 2020-11-13 2021-03-16 中信银行股份有限公司 语音合成模型训练方法、语音合成方法、装置及电子设备
WO2022140966A1 (zh) * 2020-12-28 2022-07-07 深圳市优必选科技股份有限公司 跨语言语音转换方法、计算机设备和存储介质
US11605369B2 (en) * 2021-03-10 2023-03-14 Spotify Ab Audio translator
CN113345452B (zh) * 2021-04-27 2024-04-26 北京搜狗科技发展有限公司 语音转换方法、语音转换模型的训练方法、装置和介质
CN113838452B (zh) * 2021-08-17 2022-08-23 北京百度网讯科技有限公司 语音合成方法、装置、设备和计算机存储介质
CN113689867B (zh) * 2021-08-18 2022-06-28 北京百度网讯科技有限公司 一种语音转换模型的训练方法、装置、电子设备及介质
CN113793598B (zh) * 2021-09-15 2023-10-27 北京百度网讯科技有限公司 语音处理模型的训练方法和数据增强方法、装置及设备
CN114023342B (zh) * 2021-09-23 2022-11-11 北京百度网讯科技有限公司 一种语音转换方法、装置、存储介质及电子设备
CN114283825A (zh) * 2021-12-24 2022-04-05 北京达佳互联信息技术有限公司 一种语音处理方法、装置、电子设备及存储介质
US12131745B1 (en) * 2023-06-27 2024-10-29 Sanas.ai Inc. System and method for automatic alignment of phonetic content for real-time accent conversion

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106205623A (zh) * 2016-06-17 2016-12-07 福建星网视易信息系统有限公司 一种声音转换方法及装置
CN108461079A (zh) * 2018-02-02 2018-08-28 福州大学 一种面向音色转换的歌声合成方法
CN109147758A (zh) * 2018-09-12 2019-01-04 科大讯飞股份有限公司 一种说话人声音转换方法及装置
CN109377978A (zh) * 2018-11-12 2019-02-22 南京邮电大学 非平行文本条件下基于i向量的多对多说话人转换方法
CN109637551A (zh) * 2018-12-26 2019-04-16 出门问问信息科技有限公司 语音转换方法、装置、设备及存储介质
CN109767778A (zh) * 2018-12-27 2019-05-17 中国人民解放军陆军工程大学 一种融合Bi-LSTM和WaveNet的语音转换方法
CN110060690A (zh) * 2019-04-04 2019-07-26 南京邮电大学 基于STARGAN和ResNet的多对多说话人转换方法
JP2019132948A (ja) * 2018-01-30 2019-08-08 日本電信電話株式会社 音声変換モデル学習装置、音声変換装置、方法、及びプログラム
CN110136690A (zh) * 2019-05-22 2019-08-16 平安科技(深圳)有限公司 语音合成方法、装置及计算机可读存储介质

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2868586A1 (fr) * 2004-03-31 2005-10-07 France Telecom Procede et systeme ameliores de conversion d'un signal vocal
US7996222B2 (en) * 2006-09-29 2011-08-09 Nokia Corporation Prosody conversion
JP4966048B2 (ja) * 2007-02-20 2012-07-04 株式会社東芝 声質変換装置及び音声合成装置
US10186251B1 (en) * 2015-08-06 2019-01-22 Oben, Inc. Voice conversion using deep neural network with intermediate voice training
US10453476B1 (en) * 2016-07-21 2019-10-22 Oben, Inc. Split-model architecture for DNN-based small corpus voice conversion
JP7018659B2 (ja) * 2017-02-28 2022-02-15 国立大学法人電気通信大学 声質変換装置、声質変換方法およびプログラム
US10706867B1 (en) * 2017-03-03 2020-07-07 Oben, Inc. Global frequency-warping transformation estimation for voice timbre approximation
US10622002B2 (en) * 2017-05-24 2020-04-14 Modulate, Inc. System and method for creating timbres
US10796686B2 (en) * 2017-10-19 2020-10-06 Baidu Usa Llc Systems and methods for neural text-to-speech using convolutional sequence learning
US10872596B2 (en) * 2017-10-19 2020-12-22 Baidu Usa Llc Systems and methods for parallel wave generation in end-to-end text-to-speech
US11538455B2 (en) * 2018-02-16 2022-12-27 Dolby Laboratories Licensing Corporation Speech style transfer
JP6876641B2 (ja) * 2018-02-20 2021-05-26 日本電信電話株式会社 音声変換学習装置、音声変換装置、方法、及びプログラム
GB201804073D0 (en) * 2018-03-14 2018-04-25 Papercup Tech Limited A speech processing system and a method of processing a speech signal
US10937438B2 (en) * 2018-03-29 2021-03-02 Ford Global Technologies, Llc Neural network generative modeling to transform speech utterances and augment training data
US11854562B2 (en) * 2019-05-14 2023-12-26 International Business Machines Corporation High-quality non-parallel many-to-many voice conversion
US11410667B2 (en) * 2019-06-28 2022-08-09 Ford Global Technologies, Llc Hierarchical encoder for speech conversion system
JP7356005B2 (ja) * 2019-09-06 2023-10-04 日本電信電話株式会社 音声変換装置、音声変換学習装置、音声変換方法、音声変換学習方法及びコンピュータプログラム
CN111433847B (zh) * 2019-12-31 2023-06-09 深圳市优必选科技股份有限公司 语音转换的方法及训练方法、智能装置和存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106205623A (zh) * 2016-06-17 2016-12-07 福建星网视易信息系统有限公司 一种声音转换方法及装置
JP2019132948A (ja) * 2018-01-30 2019-08-08 日本電信電話株式会社 音声変換モデル学習装置、音声変換装置、方法、及びプログラム
CN108461079A (zh) * 2018-02-02 2018-08-28 福州大学 一种面向音色转换的歌声合成方法
CN109147758A (zh) * 2018-09-12 2019-01-04 科大讯飞股份有限公司 一种说话人声音转换方法及装置
CN109377978A (zh) * 2018-11-12 2019-02-22 南京邮电大学 非平行文本条件下基于i向量的多对多说话人转换方法
CN109637551A (zh) * 2018-12-26 2019-04-16 出门问问信息科技有限公司 语音转换方法、装置、设备及存储介质
CN109767778A (zh) * 2018-12-27 2019-05-17 中国人民解放军陆军工程大学 一种融合Bi-LSTM和WaveNet的语音转换方法
CN110060690A (zh) * 2019-04-04 2019-07-26 南京邮电大学 基于STARGAN和ResNet的多对多说话人转换方法
CN110136690A (zh) * 2019-05-22 2019-08-16 平安科技(深圳)有限公司 语音合成方法、装置及计算机可读存储介质

Also Published As

Publication number Publication date
US20210193160A1 (en) 2021-06-24
CN111247584A (zh) 2020-06-05
WO2021127985A1 (zh) 2021-07-01
US11996112B2 (en) 2024-05-28

Similar Documents

Publication Publication Date Title
CN111247584B (zh) 语音转换方法、系统、装置及存储介质
JP7427723B2 (ja) ニューラルネットワークを使用したターゲット話者の声でのテキストからの音声合成
CN111247585B (zh) 语音转换方法、装置、设备及存储介质
CN110120224B (zh) 鸟声识别模型的构建方法、装置、计算机设备及存储介质
US10176811B2 (en) Neural network-based voiceprint information extraction method and apparatus
JP5768093B2 (ja) 音声処理システム
CN111433847B (zh) 语音转换的方法及训练方法、智能装置和存储介质
CN110491393B (zh) 声纹表征模型的训练方法及相关装置
JP6437581B2 (ja) 話者適応型の音声認識
CN103065620B (zh) 在手机上或网页上接收用户输入的文字并实时合成为个性化声音的方法
CN104157285B (zh) 语音识别方法、装置及电子设备
CN108922543A (zh) 模型库建立方法、语音识别方法、装置、设备及介质
WO2017166625A1 (zh) 用于语音识别的声学模型训练方法、装置和电子设备
CN109065022A (zh) i-vector向量提取方法、说话人识别方法、装置、设备及介质
CN111128211A (zh) 一种语音分离方法及装置
JP2017134321A (ja) 信号処理方法、信号処理装置及び信号処理プログラム
CN108364655A (zh) 语音处理方法、介质、装置和计算设备
CN114927122A (zh) 一种情感语音的合成方法及合成装置
CN112686041B (zh) 一种拼音标注方法及装置
KR20190135916A (ko) 음성 신호를 이용한 사용자 스트레스 판별 장치 및 방법
Xie et al. Investigation of stacked deep neural networks and mixture density networks for acoustic-to-articulatory inversion
Lőrincz et al. Speaker verification-derived loss and data augmentation for DNN-based multispeaker speech synthesis
JP7548316B2 (ja) 音声処理装置、音声処理方法、プログラム、および音声認証システム
CN113658599A (zh) 基于语音识别的会议记录生成方法、装置、设备及介质
Nath et al. Feature Selection Method for Speaker Recognition using Neural Network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant