CN107705802A - 语音转换方法、装置、电子设备及可读存储介质 - Google Patents
语音转换方法、装置、电子设备及可读存储介质 Download PDFInfo
- Publication number
- CN107705802A CN107705802A CN201710814245.1A CN201710814245A CN107705802A CN 107705802 A CN107705802 A CN 107705802A CN 201710814245 A CN201710814245 A CN 201710814245A CN 107705802 A CN107705802 A CN 107705802A
- Authority
- CN
- China
- Prior art keywords
- fundamental frequency
- frame unit
- feature
- voice
- phoneme
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Abstract
本发明提供一种语音转换方法、装置、电子设备及可读存储介质。方法包括基于预设切分规则将输入语音切分为多个帧单元;提取每个帧单元的梅尔倒谱特征和基频特征;将帧单元归类到相应的音素集合;根据帧单元的梅尔倒谱特征和平行训练得到的高斯混合模型参数,计算得到输出梅尔倒谱特征;根据输入语音帧单元基频,原始音素集合的基频特征和目标语音素集合的基频特征,计算得到输出基频;根据输出梅尔倒谱特征及输出基频计算得到输入语音转换后对应的输出语音。该方法不仅改善因忽略语音瞬时信息而导致的语音连续性差的缺点,还弥补整体训练的高斯混合模型导致的频谱细节缺失的问题,使得合成语音发音更准确,连续,以及韵律保持更完好。
Description
技术领域
本发明涉及语音信息处理技术领域,具体而言,涉及一种语音转换方法、装置、电子设备及可读存储介质。
背景技术
语音合成技术经过将近半个世纪的发展,已经取得了丰硕的成果,在人工智能等领域发挥着极其重要的作用。其中,TTS(Text-to-Speech,又称文语转换)是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的口语输出的技术,但是TTS合成的语音一般存在以下两方面的问题:一是音色局限于少量的播音员样本,无法满足个性化的需求;而是韵律不自然,合成痕迹明显。
音色转换(又称语音转换)是在不改变语音内容的前提下,将当前说话人音色直接转换为输出说话人音色的技术,优点在于韵律自然,个性化音色保持较好。目前,基于GMM(高斯混合模型)的语音转换方法是参数语音转换技术中主流的方法,该方法的思路:①提取输出说话人语音和原说话人语音的梅尔倒谱特征和基频特征;②训练基频特征,计算输出说话人和原说话人基频特征均值和标准差;③初始化GMM,联合输出说话人和原说话人梅尔倒谱特征向量,基于EM(期望最大化)算法迭代出高斯混合模型参数;④根据基音特征概率参数和高斯混合模型参数,分别建立映射函数,计算转换输出特征;⑤将映射得到基频和梅尔特征转换为频谱,在经过傅里叶逆变换转换成时域波形。该方法的不足在于,一方面在于联合特征向量以单帧为单元,没有考虑输出语音帧间的平滑特性,导致语音瞬时信息的缺失,造成合成语音不连续;另一方面在于高斯混合模型是一种多维特征的拟合的数学模型,各个因素联合训练,会导致频谱细节的缺失,这两者都将对合成语音音质造成影响。
发明内容
为了克服现有技术中的上述不足,本发明所要解决的技术问题是提供一种语音转换方法、装置、电子设备及可读存储介质,其能够在保证合成语音连续的前提下,确保频谱细节不被丢失。
本发明第一方面的目的在于提供一种语音转换方法,所述方法包括:
基于预设切分规则将待转换说话人的输入语音切分为多个帧单元,其中,每个帧单元包括多个连续语音帧;
提取每个所述帧单元的梅尔倒谱特征和基频特征;
将所述帧单元归类到相应的语音音素集合;
根据所述帧单元的梅尔倒谱特征和所述帧单元对应语音音素集合的高斯混合模型参数,计算得到输出梅尔倒谱特征;
基于所述帧单元的基频和帧单元对应的原始语音音素集合的基频特征和目标语音音素集合的基频特征,计算得到输出基频,其中,所述原始语音音素集合为待转换说话人语音对应的语音音素集合,所述目标语音音素为目标音色说话人语音对应的语音音素集合;
根据所述输出梅尔倒谱特征及输出基频计算得到所述输入语音转换后对应的输出语音。
可选地,所述方法还包括通过原始语音音素集合和目标语音音素集合平行训练得到高斯混合模型参数及基频转换参数,其中,原始语音库为待转换说话人语音库,目标语音库为目标音色说话人的语音库;
所述通过原始语音音素集合和目标语音音素集合平行训练得到高斯混合模型参数及基频转换参数的步骤包括:
采用所述预设切分规则对原始语音库中的原始语音及目标语音库中的目标语音进行切分,得到原始语音对应的多个帧单元和目标语音对应的多个帧单元;
提取原始语音和目标语音的梅尔倒谱特征及基频特征;
建立所述原始语音与目标语音之间的对应关系;
将原始语音库划分为单语音音素集合和多语音音素集合;
根据所述原始语音与目标语音之间的对应关系,将所述目标语音库划分成与所述原始语音库相对应的语音音素集合;
将原始语音的帧单元与目标语音的帧单元添加到相应的至少一个语音音素集合中;
基于所述原始语音的基频特征及所述目标语音的基频特征计算每个语音音素集合的基频转换参数;
基于每个语音音素集合,联合原始语音与目标语音的联合梅尔倒谱特征,训练获得每个语音音素集合的高斯混合模型参数。
本发明第二方面的目的在于提供一种语音转换装置,所述装置包括:
划分模块,用于基于预设切分规则将待转换说话人的输入语音切分为多个帧单元,其中,每个帧单元包括多个连续语音帧;
提取模块,用于提取每个所述帧单元的梅尔倒谱特征和基频特征;
归类模块,用于将所述帧单元归类到相应的语音音素集合;
计算模块,用于根据所述帧单元的梅尔倒谱特征和所述帧单元对应语音音素集合的高斯混合模型参数,计算得到输出梅尔倒谱特征;
所述计算模块,还用于基于所述帧单元的基频和帧单元对应的原始语音音素集合的基频特征和目标语音音素集合的基频特征,计算得到输出基频,其中,所述原始语音音素集合为待转换说话人语音对应的语音音素集合,所述目标语音音素为目标音色说话人语音对应的语音音素集合;
所述计算模块,还用于根据所述输出梅尔倒谱特征及输出基频计算得到所述输入语音对应的目标音色说话人的输出语音。
可选地,所述装置还包括训练模块,通过原始语音音素集合和目标语音音素集合平行训练得到高斯混合模型参数及基频转换参数,其中,原始语音库为待转换说话人语音库,目标语音库为目标音色说话人的语音库;
所述训练模块训练语音音素集合得到高斯混合模型参数及基频转换参数的方式包括:
采用所述预设切分规则对原始语音库中的原始语音及目标语音库中的目标语音进行切分,得到原始语音对应的多个帧单元和目标语音对应的多个帧单元;
提取原始语音和目标语音的梅尔倒谱特征及基频特征;
建立所述原始语音与目标语音之间的对应关系;
将原始语音库划分为单语音音素集合和多语音音素集合;
根据所述原始语音与目标语音之间的对应关系,将所述目标语音库划分成与所述原始语音库相对应的语音音素集合;
将原始语音的帧单元与目标语音的帧单元添加到相应的至少一个语音音素集合中;
基于所述原始语音的基频特征及所述目标语音的基频特征计算每个语音音素集合的基频转换参数;
基于每个语音音素集合,联合原始语音与目标语音的梅尔倒谱特征,训练获得每个语音音素集合的高斯混合模型参数。
本发明第三方面的目的在于提供一种电子设备,所述电子设备包括:处理器以及存储器,所述存储器耦接到所述处理器,所述存储器存储指令,当所述指令由所述处理器执行时使所述电子设备执行以下操作:
基于预设切分规则将待转换说话人的输入语音切分为多个帧单元,其中,每个帧单元包括多个连续语音帧;
提取每个所述帧单元的梅尔倒谱特征和基频特征;
将所述帧单元归类到相应的语音音素集合;
根据所述帧单元的梅尔倒谱特征和所述帧单元对应语音音素集合的高斯混合模型参数,计算得到输出梅尔倒谱特征;
基于所述帧单元的基频和帧单元对应的原始语音音素集合的基频特征和目标语音音素集合的基频特征,计算得到输出基频,其中,所述原始语音音素集合为待转换说话人语音对应的语音音素集合,所述目标语音音素为目标音色说话人语音对应的语音音素集合;
根据所述输出梅尔倒谱特征及输出基频计算得到所述输入语音对应的目标音色说话人的输出语音。
本发明第四方面的目的在于提供一种可读存储介质,所述可读存储介质包括计算机程序,所述计算机程序运行时控制所述可读存储介质所在电子设备执行上面所述的语音转换方法。
相对于现有技术而言,本发明具有以下有益效果:
本发明提供一种语音转换方法、装置、电子设备及可读存储介质。所述方法包括基于预设切分规则将输入语音切分为多个帧单元;提取每个所述帧单元的梅尔倒谱特征和基频特征;将所述帧单元归类到相应的语音音素集合;根据所述帧单元的梅尔倒谱特征和所述帧单元对应语音音素集合的高斯混合模型参数,计算得到输出梅尔倒谱特征;基于所述帧单元的基频和帧单元对应的原始和目标语音音素集合的基频特征,计算得到输出基频;根据所述输出梅尔倒谱特征及输出基频计算得到所述输入语音转换后对应的输出语音。所述方法基于每一个语音音素集合的高斯混合模型参数及基频转换参数,不仅改善了因忽略语音瞬时信息而导致的语音连续性差的缺点,还弥补了传统的整体训练的高斯混合模型导致的频谱细节缺失的问题,使得合成语音发音更准确,连续,以及韵律保持更完好。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是本发明实施例提供的电子设备的方框示意图。
图2是本发明第一实施例提供的语音转换方法的一种步骤流程图。
图3是本发明第一实施例提供的语音转换方法的另一种步骤流程图。
图4是图3中步骤S170的子步骤流程图。
图5是帧单元结构示意图。
图6是将帧单元同时添加到对应的多个语音音素集合的示意图。
图7是本发明第二实施例提供的语音转换装置的结构框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
请参照图1,是本发明较佳实施例提供的的一种电子设备100的方框示意图。所述电子设备100可以包括语音转换装置300、存储器111、存储控制器112及处理器113。
所述存储器111、存储控制器112及处理器113各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述语音转换装置300可以包括至少一个可以软件或固件(firmware)的形式存储于所述存储器111中或固化在所述电子设备100的操作系统(operatingsystem,OS)中的软件功能模块。所述处理器113用于执行所述存储器111中存储的可执行模块,例如所述语音转换装置300所包括的软件功能模块及计算机程序等。
其中,所述存储器111可以是,但不限于,随机存取存储器(Random AccessMemory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(ProgrammableRead-Only Memory,PROM),可擦除只读存储器(Erasable Programmable Read-OnlyMemory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-OnlyMemory,EEPROM)等。其中,存储器111用于存储程序,所述处理器113在接收到执行指令后,执行所述程序。所述处理器113以及其他可能的组件对存储器111的访问可在所述存储控制器112的控制下进行。
所述处理器113可能是一种集成电路芯片,具有信号的处理能力。上述的处理器113可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
第一实施例
请参照图2,图2是本发明较佳实施例提供的语音转换方法的步骤流程图。所述方法应用于上面描述的电子设备100,下面对语音转换方法的步骤做具体的描述。
步骤S110,基于预设切分规则将待转换说话人的输入语音切分为多个帧单元。
在本实施例中,采用预设切分规则对输入语音进行切换,使得切分后的每个帧单元包括多个连续语音帧。
步骤S120,提取每个所述帧单元的梅尔倒谱特征和基频特征。
在本实施例中,步骤S120包括:
对所述帧单元进行时频域变化得到每一帧单元的频谱信息。
从所述频谱信息中提取得到所述帧单元的基频特征。
采用梅尔滤波器组提取得到所述帧单元的梅尔倒谱特征。
步骤S130,将所述帧单元归类到相应的语音音素集合。
在本实施例中,可以通过语音识别系统(比如,kaldi语音识别系统),将帧单元归类到相应的语音音素集合。
步骤S140,根据所述帧单元的梅尔倒谱特征和所述帧单元对应语音音素集合的高斯混合模型参数,计算得到输出梅尔倒谱特征。
在本实施例中,根据所述帧单元对应语音音素集合的序号,提取得到所述语音音素集合对应的高斯混合模型参数及基频转换参数。
通过提取的高斯混合模型参数构建所述输出梅尔倒谱特征与所述帧单元的梅尔倒谱特征之间的映射关系,计算得到所述输出梅尔倒谱特征。
请参照图3,在本实施例中,在步骤S140之前,所述方法还包括步骤S170。
步骤S170,通过原始语音音素集合和目标语音音素集合平行训练得到高斯混合模型参数及基频转换参数,其中,原始语音库为待转换说话人语音库,目标语音库为目标音色说话人的语音库。具体地,输入语音可以是原始语音库中原始语音的一部分,也可以是原始语音的组合,同理地,输出语音可以是目标语音库中目标语音的一部分,也可以是目标语音的组合。在本实施例中,由于是对输入语音和输出语音进行平行训练,要求输入语音和输出语音内容逐条对应,内容一致。
请参照图4,具体地,所述步骤S170可以包括以下子步骤。
子步骤S171,采用所述预设切分规则对原始语音库中的原始语音及目标语音库中的目标语音进行切分,得到原始语音对应的多个帧单元和目标语音对应的多个帧单元。
参照图5,在本实施例中,考虑到帧单元之间的平滑连接和语音的瞬时信息,本方案选取连续的奇数帧(q=2p+1)为一个帧单元,其中心帧为第p+1帧,前后各p帧,相邻两个帧单元之间重叠2p帧。可以理解的是,子步骤S171中采用了预设切分规则和步骤S110中预设切分规则相同。
对于原始语音,帧序列可以表示为X=[x(1),x(2),x(3),...,x(n),...,x(N)],第n个单元可以表示为x(n)=[xn-p,xn-p+1,...,xn,...,xn+p+1,xn+p],其中xn表示帧序列中的第n帧。同理,对目标语音也可以做相同的单元划分操作。
子步骤S172,提取原始语音和目标语音的梅尔倒谱特征及基频特征。
在本实施例中,经快速傅里叶变换之后得到每一帧频谱信息,通过梅尔滤波器组提取梅尔倒谱特征,并同步提取基频特征。
子步骤S173,建立所述原始语音与目标语音之间的对应关系。
在本实施例中,采用DTW(Dynamic Time Warping,动态时间归整)算法,建立原始语音帧与目标语音帧之间的对应关系。所述原始语音与目标语音之间的对应关系可以表示为:Z=[z1,z2,...,zl,...zL],其中为原始语音的帧单元与目标语音的帧单元的配对,最终将转化为联合特征向量。
子步骤S174,将原始语音库划分为单语音音素集合和多语音音素集合。
在本实施例中,可以调用kaldi语音识别系统,基于timit数据包实现音素的自动识别。遍历原始语音库,以连续多帧为输入单元,将语音库划分为单语音音素集合和多语音音素集合。
子步骤S175,根据所述原始语音与目标语音之间的对应关系,将所述目标语音库划分成与所述原始语音库相对应的语音音素集合。
在本实施例中,根据原始语音的帧单元与目标语音的帧单元的对应关系,将目标语音库划分到相应的语音音素集合中。
子步骤S176,将原始语音的帧单元与目标语音的帧单元添加到相应的至少一个语音音素集合中。
请参照图6,在本实施例中,由于帧单元包含多个连续帧,因此可能出现一个帧单元跨越两个(或两个以上)语音音素集合的情况,为了保证转换的质量,将该帧单元同时添加到对应的至少一个语音音素集合中。
子步骤S177,基于所述原始语音的基频特征及所述目标语音的基频特征计算每个语音音素集合的基频转换参数。
在本实施例中,浊音的激励是周期性的脉冲串,脉冲串的频率就是基音频率,因此基频也是语音的重要特征,基频提取的准确性直接影响合成语音的个性化音色的保持,以及节奏韵律。在统计学上,可以将统计特征(均值,方差)不同的两个相同的分布(如正态分布等)进行相互转换。因此,将原始语音和目标语音基频特征视为服从正态分布,计算其均值和方差,就可以建立原始语音和目标语音之间基频的映射关系。
子步骤S178,基于每个语音音素集合训练得到原始语音与目标语音的联合梅尔倒谱特征,以获得每个语音音素集合的高斯混合模型参数。
高斯混合模型是一种基于拟合的数学模型,任何一个数学模型都能够通过若干高斯模型拟合得到。同样的,联合原始语音与目标语音特征作为高斯混合模型的输入,初始化高斯混合模型,经过期望最大化算法能够得到最终的高斯混合模型参数,包括:单高斯高斯模型个数,每个单高斯模型权重,以及其对应的均值和方差。
公式表达如下:
xt和yt分别表示t时刻原说话人(待转换说话人)的原始语音与目标音色说话人的目标语音的多帧梅尔特征,联合特征zt=[xt,yt].,联合概率密度可以用高斯混合模型表示为:
其中,M表示单高斯模型的个数,第m个高斯模型对应的权重为ωm,单高斯模型(即正态分布)表示为N(z;μ,Σ),混合高斯模型的参数集可以用λ(z)表示,对于每个单高斯模型而言,包括权重,均值向量和方差矩阵。
第m个单高斯模型的均值和方差可以表示为:
其中,和分别表示第m个单高斯模型中原始语音和目的语音的均值,相应地,和分别表示其方差。模型参数训练过程主要包括初始化和EM(期望最大化)算法迭代两个部分。遍历每一个语音音素集合,完成高斯混合模型的参数训练。
可选地,步骤S140可以采用以下公式实现:
构建映射函数
其中,
第m个条件概率分布的均值向量和方差矩阵可以表示为:
基于MMSE(最小均方误差),转换特征向量可以表示为:
E[·]表示转换得到的输出特征向量的期望。因此,映射函数可以写成如下形式:
步骤S150,基于所述帧单元的基频和帧单元对应的原始语音音素集合的基频特征和目标语音音素集合的基频特征,计算得到输出基频。
在本实施例中,输入语音信息包括输入语音基频序列,以及其对应的原始语音音素集合的基频均值和基频方差及目标语音音素集合的基频均值和基频方差。
将输入语音基频序列与对应的原始语音音素集合的基频均值相减,所得的差值与目标语音音素集合的基频方差和原始语音音素集合的基频方差之商相乘,相乘得到的乘积与目标语音音素集合的基频均值相加即得到输出基频。输出基频的计算公式可以为:
其中,f0(i)为输出基频序列,为输入语音基频序列,sf0m和tf0m分别为原始语音音素集合的基频均值与目标语音音素集合的均值,sf0v和tf0v分别为原始语音音素集合的基频方差与目标语音音素集合的基频方差。
步骤S160,根据所述输出梅尔倒谱特征及输出基频计算得到所述输入语音对应的目标音色说话人的输出语音。
在本实施例中,可选地,调用STRAIGHT工具包将输出梅尔倒谱特征和输出基频特征转换为频谱,再经过逆傅里叶变换转换为时域波形,从而得到所述输入语音转换后对应的输出语音。
第二实施例
请参照图7,图7为本发明较佳实施例提供的语音转换装置300的结构框图。所述语音转换装置300包括:划分模块310、提取模块320、归类模块330及计算模块340。
划分模块310,用于基于预设切分规则将待转换说话人的输入语音切分为多个帧单元,其中,每个帧单元包括多个连续语音帧。
提取模块320,用于提取每个所述帧单元的梅尔倒谱特征和基频特征。
在本实施例中,所述提取模块320提取所述帧单元的梅尔倒谱特征和基频特征的方式包括:
对所述帧单元进行时频域变化得到每一帧单元的频谱信息;
从所述频谱信息中提取得到所述帧单元的基频特征;
采用梅尔滤波器组提取得到所述帧单元的梅尔倒谱特征。
归类模块330,用于将所述帧单元归类到相应的语音音素集合。
计算模块340,用于根据所述帧单元的梅尔倒谱特征和所述帧单元对应语音音素集合的高斯混合模型参数及基频转换参数,计算得到输出梅尔倒谱特征。
在本实施例中,所述计算模块340基于所述帧单元的梅尔倒谱特征和所述帧单元对应语音音素集合的高斯混合模型参数及基频转换参数,计算得到输出梅尔倒谱特征的方式包括:
根据所述帧单元对应语音音素集合的序号,提取得到所述语音音素集合对应的高斯混合模型参数;
通过提取的高斯混合模型参数构建所述输出梅尔倒谱特征与所述帧单元的梅尔倒谱特征之间的映射关系,计算得到所述输出梅尔倒谱特征。
所述计算模块340,还用于基于所述帧单元的基频和帧单元对应的原始语音音素集合的基频特征和目标语音音素集合的基频特征,计算得到输出基频,其中,所述原始语音音素集合为待转换说话人语音对应的语音音素集合,所述目标语音音素为目标音色说话人语音对应的语音音素集合;
在本实施例中,输入语音信息包括输入语音基频序列,以及其对应的原始语音音素集合的基频均值和基频方差及目标语音音素集合的基频均值和基频方差,计算得到输出基频的步骤包括:
将输入语音基频序列与对应的原始语音音素集合的基频均值相减,所得的差值与目标语音音素集合的基频方差和原始语音音素集合的基频方差之商相乘,相乘得到的乘积与目标语音音素集合的基频均值相加即得到输出基频。
所述计算模块340,还用于根据所述输出梅尔倒谱特征及输出基频计算得到所述输入语音转换后对应的输出语音。
请再次参照图7,所述语音转换装置300还包括训练模块350。
训练模块350用于训练语音音素集合得到高斯混合模型参数及基频转换参数,其中,原始语音库为待转换说话人语音库,目标语音库为目标音色说话人的语音库。具体地,输入语音可以是原始语音库中原始语音的一部分,也可以是原始语音的组合,同理地,输出语音可以是目标语音库中目标语音的一部分,也可以是目标语音的组合。由于是平行训练,要求输入语音和输出语音内容逐条对应,内容一致。
所述训练模块350训练语音音素集合得到高斯混合模型参数及基频转换参数的方式包括:
采用所述预设切分规则对原始语音库中的原始语音及目标语音库中的目标语音进行切分,得到原始语音对应的多个帧单元和目标语音对应的多个帧单元;
提取原始语音和目标语音的梅尔倒谱特征及基频特征;
建立所述原始语音与目标语音之间的对应关系;
将原始语音库划分为单语音音素集合和多语音音素集合;
根据所述原始语音与目标语音之间的对应关系,将所述目标语音库划分成与所述原始语音库相对应的语音音素集合;
将原始语音的帧单元与目标语音的帧单元添加到相应的至少一个语音音素集合中;
基于所述原始语音的基频特征及所述目标语音的基频特征计算每个语音音素集合的基频转换参数;
基于每个语音音素集合,联合原始语音与目标语音的梅尔倒谱特征,训练获得每个语音音素集合的高斯混合模型参数。
本发明提供一种语音转换方法、装置、电子设备及可读存储介质。所述方法包括基于预设切分规则将输入语音切分为多个帧单元;提取每个所述帧单元的梅尔倒谱特征和基频特征;将所述帧单元归类到相应的语音音素集合;根据所述帧单元的梅尔倒谱特征和所述帧单元对应语音音素集合的高斯混合模型参数,计算得到输出梅尔倒谱特征;基于所述帧单元的基频和帧单元对应的原始和目标语音音素集合的基频特征,计算得到输出基频;根据所述输出梅尔倒谱特征及输出基频计算得到所述输入语音转换后对应的输出语音。所述方法基于每一个语音音素集合的高斯混合模型参数及基频转换参数,不仅改善了因忽略语音瞬时信息而导致的语音连续性差的缺点,还弥补了传统的整体训练的高斯混合模型导致的频谱细节缺失的问题,使得合成语音发音更准确,连续,以及韵律保持更完好。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (12)
1.一种语音转换方法,其特征在于,所述方法包括:
基于预设切分规则将待转换说话人的输入语音切分为多个帧单元,其中,每个帧单元包括多个连续语音帧;
提取每个所述帧单元的梅尔倒谱特征和基频特征;
将所述帧单元归类到相应的语音音素集合;
根据所述帧单元的梅尔倒谱特征和所述帧单元对应语音音素集合的高斯混合模型参数,计算得到输出梅尔倒谱特征;
基于所述帧单元的基频和帧单元对应的原始语音音素集合的基频特征和目标语音音素集合的基频特征,计算得到输出基频,其中,所述原始语音音素集合为待转换说话人语音对应的语音音素集合,所述目标语音音素为目标音色说话人语音对应的语音音素集合;
根据所述输出梅尔倒谱特征及输出基频计算得到所述输入语音对应的目标音色说话人的输出语音。
2.如权利要求1所述的语音转换方法,其特征在于,所述方法还包括通过原始语音音素集合和目标语音音素集合平行训练得到高斯混合模型参数及基频转换参数,其中,原始语音库为待转换说话人语音库,目标语音库为目标音色说话人的语音库;
所述通过原始语音音素集合和目标语音音素集合平行训练得到高斯混合模型参数及基频转换参数的步骤包括:
采用所述预设切分规则对原始语音库中的原始语音及目标语音库中的目标语音进行切分,得到原始语音对应的多个帧单元和目标语音对应的多个帧单元;
提取原始语音和目标语音的梅尔倒谱特征及基频特征;
建立所述原始语音与目标语音之间的对应关系;
将原始语音库划分为单语音音素集合和多语音音素集合;
根据所述原始语音与目标语音之间的对应关系,将所述目标语音库划分成与所述原始语音库相对应的语音音素集合;
将原始语音的帧单元与目标语音的帧单元添加到相应的至少一个语音音素集合中;
基于所述原始语音的基频特征及所述目标语音的基频特征计算每个语音音素集合的基频转换参数;
基于每个语音音素集合,联合原始语音与目标语音的梅尔倒谱特征,训练获得每个语音音素集合的高斯混合模型参数。
3.根据权利要求1所述的语音转换方法,其特征在于,所述提取所述帧单元的梅尔倒谱特征和基频特征的步骤包括:
对所述帧单元进行时频域变化得到每一帧单元的频谱信息;
从所述频谱信息中提取得到所述帧单元的基频特征;
采用梅尔滤波器组提取得到所述帧单元的梅尔倒谱特征。
4.根据权利要求3所述的语音转换方法,其特征在于,所述基于所述帧单元的梅尔倒谱特征和所述帧单元对应语音音素集合的高斯混合模型参数,计算得到输出梅尔倒谱特征的步骤包括:
根据所述帧单元对应语音音素集合的序号,提取得到所述语音音素集合对应的高斯混合模型参数;
通过提取的高斯混合模型参数构建所述输出梅尔倒谱特征与所述帧单元的梅尔倒谱特征之间的映射关系,计算得到所述输出梅尔倒谱特征。
5.如权利要求1所述的语音转换方法,其特征在于,输入语音信息包括输入语音基频序列,以及其对应的原始语音音素集合的基频均值和基频方差及目标语音音素集合的基频均值和基频方差,计算得到输出基频的步骤包括:
将输入语音基频序列与对应的原始语音音素集合的基频均值相减,所得的差值与目标语音音素集合的基频方差和原始语音音素集合的基频方差之商相乘,相乘得到的乘积与目标语音音素集合的基频均值相加即得到输出基频。
6.一种语音转换装置,其特征在于,所述装置包括:
划分模块,用于基于预设切分规则将待转换说话人的输入语音切分为多个帧单元,其中,每个帧单元包括多个连续语音帧;
提取模块,用于提取每个所述帧单元的梅尔倒谱特征和基频特征;
归类模块,用于将所述帧单元归类到相应的语音音素集合;
计算模块,用于根据所述帧单元的梅尔倒谱特征和所述帧单元对应语音音素集合的高斯混合模型参数,计算得到输出梅尔倒谱特征;
所述计算模块,还用于基于所述帧单元的基频和帧单元对应的原始语音音素集合的基频特征和目标语音音素集合的基频特征,计算得到输出基频,其中,所述原始语音音素集合为待转换说话人语音对应的音素集合,所述目标语音音素为目标音色说话人语音对应的语音音素集合;
所述计算模块,还用于根据所述输出梅尔倒谱特征及输出基频计算得到所述输入语音对应的目标音色说话人的输出语音。
7.如权利要求6所述的语音转换装置,其特征在于,所述装置还包括训练模块,通过原始语音音素集合和目标语音音素集合平行训练得到高斯混合模型参数及基频转换参数,其中,原始语音库为待转换说话人语音库,目标语音库为目标音色说话人的语音库;
所述训练模块训练语音音素集合得到高斯混合模型参数及基频转换参数的方式包括:
采用所述预设切分规则对原始语音库中的原始语音及目标语音库中的目标语音进行切分,得到原始语音对应的多个帧单元和目标语音对应的多个帧单元;
提取原始语音和目标语音的梅尔倒谱特征及基频特征;
建立所述原始语音与目标语音之间的对应关系;
将原始语音库划分为单语音音素集合和多语音音素集合;
根据所述原始语音与目标语音之间的对应关系,将所述目标语音库划分成与所述原始语音库相对应的语音音素集合;
将原始语音的帧单元与目标语音的帧单元添加到相应的至少一个语音音素集合中;
基于所述原始语音的基频特征及所述目标语音的基频特征计算每个语音音素集合的基频转换参数;
基于每个语音音素集合,联合原始语音与目标语音的梅尔倒谱特征,训练获得每个语音音素集合的高斯混合模型参数。
8.根据权利要求6所述的语音转换装置,其特征在于,所述提取模块提取所述帧单元的梅尔倒谱特征和基频特征的方式包括:
对所述帧单元进行时频域变化得到每一帧单元的频谱信息;
从所述频谱信息中提取得到所述帧单元的基频特征;
采用梅尔滤波器组提取得到所述帧单元的梅尔倒谱特征。
9.根据权利要求8所述的语音转换装置,其特征在于,所述计算模块基于所述帧单元的梅尔倒谱特征和所述帧单元对应语音音素集合的高斯混合模型参数,计算得到输出梅尔倒谱特征的方式包括:
根据所述帧单元对应语音音素集合的序号,提取得到所述语音音素集合对应的高斯混合模型参数;
通过提取的高斯混合模型参数构建所述输出梅尔倒谱特征与所述帧单元的梅尔倒谱特征之间的映射关系,计算得到所述输出梅尔倒谱特征。
10.如权利要求6所述的语音转换装置,其特征在于,基于输入语音基频序列,以及其对应的原始语音音素集合的基频均值和基频方差和目标语音音素集合的基频均值和基频方差,计算得到输出基频的步骤包括:
将输入语音基频序列与对应的原始语音音素集合的基频均值相减,所得的差值与目标语音音素集合的基频方差和原始语音音素集合的基频方差之商相乘,相乘得到的乘积与目标语音音素集合的基频均值相加即得到输出基频。
11.一种电子设备,其特征在于,所述电子设备包括:处理器以及存储器,所述存储器耦接到所述处理器,所述存储器存储指令,当所述指令由所述处理器执行时使所述电子设备执行以下操作:
基于预设切分规则将待转换说话人的输入语音切分为多个帧单元,其中,每个帧单元包括多个连续语音帧;
提取每个所述帧单元的梅尔倒谱特征和基频特征;
将所述帧单元归类到相应的语音音素集合;
根据所述帧单元的梅尔倒谱特征和所述帧单元对应语音音素集合的高斯混合模型参数,计算得到输出梅尔倒谱特征;
基于所述帧单元的基频和帧单元对应的原始语音音素集合的基频特征和目标语音音素集合的基频特征,计算得到输出基频,其中,所述原始语音音素集合为待转换说话人语音对应的语音音素集合,所述目标语音音素为目标音色说话人语音对应的语音音素集合;
根据所述输出梅尔倒谱特征及输出基频计算得到所述输入语音对应的目标音色说话人的输出语音。
12.一种可读存储介质,所述可读存储介质包括计算机程序,其特征在于:
所述计算机程序运行时控制所述可读存储介质所在电子设备执行权利要求1-5中任意一项所述的语音转换方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710814245.1A CN107705802B (zh) | 2017-09-11 | 2017-09-11 | 语音转换方法、装置、电子设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710814245.1A CN107705802B (zh) | 2017-09-11 | 2017-09-11 | 语音转换方法、装置、电子设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107705802A true CN107705802A (zh) | 2018-02-16 |
CN107705802B CN107705802B (zh) | 2021-01-29 |
Family
ID=61172516
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710814245.1A Active CN107705802B (zh) | 2017-09-11 | 2017-09-11 | 语音转换方法、装置、电子设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107705802B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108847249A (zh) * | 2018-05-30 | 2018-11-20 | 苏州思必驰信息科技有限公司 | 声音转换优化方法和系统 |
CN109817197A (zh) * | 2019-03-04 | 2019-05-28 | 天翼爱音乐文化科技有限公司 | 歌声生成方法、装置、计算机设备和存储介质 |
WO2019232845A1 (zh) * | 2018-06-04 | 2019-12-12 | 平安科技(深圳)有限公司 | 语音数据处理方法、装置、计算机设备及存储介质 |
CN111048109A (zh) * | 2019-12-25 | 2020-04-21 | 广州酷狗计算机科技有限公司 | 声学特征的确定方法、装置、计算机设备及存储介质 |
CN111213205A (zh) * | 2019-12-30 | 2020-05-29 | 深圳市优必选科技股份有限公司 | 一种流式语音转换方法、装置、计算机设备及存储介质 |
CN112634920A (zh) * | 2020-12-18 | 2021-04-09 | 平安科技(深圳)有限公司 | 基于域分离的语音转换模型的训练方法及装置 |
CN113421576A (zh) * | 2021-06-29 | 2021-09-21 | 平安科技(深圳)有限公司 | 语音转换方法、装置、设备以及存储介质 |
CN113763987A (zh) * | 2021-09-06 | 2021-12-07 | 中国科学院声学研究所 | 一种语音转换模型的训练方法及装置 |
CN114882891A (zh) * | 2022-07-08 | 2022-08-09 | 杭州远传新业科技股份有限公司 | 一种应用于tts的语音转换方法、装置、设备及介质 |
CN115063895A (zh) * | 2022-06-10 | 2022-09-16 | 深圳市智远联科技有限公司 | 一种基于语音识别的售票方法及售票系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1835074A (zh) * | 2006-04-07 | 2006-09-20 | 安徽中科大讯飞信息科技有限公司 | 一种结合高层描述信息和模型自适应的说话人转换方法 |
CN101399044A (zh) * | 2007-09-29 | 2009-04-01 | 国际商业机器公司 | 语音转换方法和系统 |
US20150127349A1 (en) * | 2013-11-01 | 2015-05-07 | Google Inc. | Method and System for Cross-Lingual Voice Conversion |
CN105206257A (zh) * | 2015-10-14 | 2015-12-30 | 科大讯飞股份有限公司 | 一种声音转换方法及装置 |
CN106157949A (zh) * | 2016-06-14 | 2016-11-23 | 上海师范大学 | 一种模块化机器人语音识别算法及其语音识别模块 |
CN106504741A (zh) * | 2016-09-18 | 2017-03-15 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种基于深度神经网络音素信息的语音转换方法 |
-
2017
- 2017-09-11 CN CN201710814245.1A patent/CN107705802B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1835074A (zh) * | 2006-04-07 | 2006-09-20 | 安徽中科大讯飞信息科技有限公司 | 一种结合高层描述信息和模型自适应的说话人转换方法 |
CN101399044A (zh) * | 2007-09-29 | 2009-04-01 | 国际商业机器公司 | 语音转换方法和系统 |
US20150127349A1 (en) * | 2013-11-01 | 2015-05-07 | Google Inc. | Method and System for Cross-Lingual Voice Conversion |
CN105206257A (zh) * | 2015-10-14 | 2015-12-30 | 科大讯飞股份有限公司 | 一种声音转换方法及装置 |
CN106157949A (zh) * | 2016-06-14 | 2016-11-23 | 上海师范大学 | 一种模块化机器人语音识别算法及其语音识别模块 |
CN106504741A (zh) * | 2016-09-18 | 2017-03-15 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种基于深度神经网络音素信息的语音转换方法 |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108847249B (zh) * | 2018-05-30 | 2020-06-05 | 苏州思必驰信息科技有限公司 | 声音转换优化方法和系统 |
CN108847249A (zh) * | 2018-05-30 | 2018-11-20 | 苏州思必驰信息科技有限公司 | 声音转换优化方法和系统 |
WO2019232845A1 (zh) * | 2018-06-04 | 2019-12-12 | 平安科技(深圳)有限公司 | 语音数据处理方法、装置、计算机设备及存储介质 |
CN109817197A (zh) * | 2019-03-04 | 2019-05-28 | 天翼爱音乐文化科技有限公司 | 歌声生成方法、装置、计算机设备和存储介质 |
CN109817197B (zh) * | 2019-03-04 | 2021-05-11 | 天翼爱音乐文化科技有限公司 | 歌声生成方法、装置、计算机设备和存储介质 |
CN111048109A (zh) * | 2019-12-25 | 2020-04-21 | 广州酷狗计算机科技有限公司 | 声学特征的确定方法、装置、计算机设备及存储介质 |
CN111213205B (zh) * | 2019-12-30 | 2023-09-08 | 深圳市优必选科技股份有限公司 | 一种流式语音转换方法、装置、计算机设备及存储介质 |
CN111213205A (zh) * | 2019-12-30 | 2020-05-29 | 深圳市优必选科技股份有限公司 | 一种流式语音转换方法、装置、计算机设备及存储介质 |
WO2021134232A1 (zh) * | 2019-12-30 | 2021-07-08 | 深圳市优必选科技股份有限公司 | 一种流式语音转换方法、装置、计算机设备及存储介质 |
CN112634920A (zh) * | 2020-12-18 | 2021-04-09 | 平安科技(深圳)有限公司 | 基于域分离的语音转换模型的训练方法及装置 |
CN112634920B (zh) * | 2020-12-18 | 2024-01-02 | 平安科技(深圳)有限公司 | 基于域分离的语音转换模型的训练方法及装置 |
CN113421576A (zh) * | 2021-06-29 | 2021-09-21 | 平安科技(深圳)有限公司 | 语音转换方法、装置、设备以及存储介质 |
CN113763987A (zh) * | 2021-09-06 | 2021-12-07 | 中国科学院声学研究所 | 一种语音转换模型的训练方法及装置 |
CN115063895A (zh) * | 2022-06-10 | 2022-09-16 | 深圳市智远联科技有限公司 | 一种基于语音识别的售票方法及售票系统 |
CN114882891A (zh) * | 2022-07-08 | 2022-08-09 | 杭州远传新业科技股份有限公司 | 一种应用于tts的语音转换方法、装置、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN107705802B (zh) | 2021-01-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107705802A (zh) | 语音转换方法、装置、电子设备及可读存储介质 | |
CN109036384B (zh) | 语音识别方法和装置 | |
CN109272988B (zh) | 基于多路卷积神经网络的语音识别方法 | |
CN105654939B (zh) | 一种基于音向量文本特征的语音合成方法 | |
CN101178896B (zh) | 基于声学统计模型的单元挑选语音合成方法 | |
CN103065620B (zh) | 在手机上或网页上接收用户输入的文字并实时合成为个性化声音的方法 | |
CN108305616A (zh) | 一种基于长短时特征提取的音频场景识别方法及装置 | |
CN107507619A (zh) | 语音转换方法、装置、电子设备及可读存储介质 | |
CN107195295A (zh) | 基于中英文混合词典的语音识别方法及装置 | |
CN107945786A (zh) | 语音合成方法和装置 | |
CN108847249A (zh) | 声音转换优化方法和系统 | |
CN108109613A (zh) | 用于智能对话语音平台的音频训练和识别方法及电子设备 | |
CN109243465A (zh) | 声纹认证方法、装置、计算机设备以及存储介质 | |
CN105161092B (zh) | 一种语音识别方法和装置 | |
CN106373580A (zh) | 基于人工智能的合成歌声的方法和装置 | |
CN1835075B (zh) | 一种结合自然样本挑选与声学参数建模的语音合成方法 | |
CN110246488B (zh) | 半优化CycleGAN模型的语音转换方法及装置 | |
CN104575519B (zh) | 特征提取方法、装置及重音检测的方法、装置 | |
CN105023570B (zh) | 一种实现声音转换的方法及系统 | |
CN109036467A (zh) | 基于tf-lstm的cffd提取方法、语音情感识别方法及系统 | |
CN107452379A (zh) | 一种方言语言的识别技术及虚拟现实教学方法和系统 | |
CN105810191B (zh) | 融合韵律信息的汉语方言辨识方法 | |
CN107452369A (zh) | 语音合成模型生成方法和装置 | |
CN110148399A (zh) | 一种智能设备的控制方法、装置、设备及介质 | |
CN112951203B (zh) | 语音合成方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |