CN105390141B - 声音转换方法和装置 - Google Patents

声音转换方法和装置 Download PDF

Info

Publication number
CN105390141B
CN105390141B CN201510676304.4A CN201510676304A CN105390141B CN 105390141 B CN105390141 B CN 105390141B CN 201510676304 A CN201510676304 A CN 201510676304A CN 105390141 B CN105390141 B CN 105390141B
Authority
CN
China
Prior art keywords
sound
transformation model
speaker
parameter
spectrum signature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510676304.4A
Other languages
English (en)
Other versions
CN105390141A (zh
Inventor
陈凌辉
张卫庆
江源
杨浦
潘青华
胡国平
胡郁
刘庆峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN201510676304.4A priority Critical patent/CN105390141B/zh
Publication of CN105390141A publication Critical patent/CN105390141A/zh
Application granted granted Critical
Publication of CN105390141B publication Critical patent/CN105390141B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Abstract

本发明提出一种声音转换方法和装置,该声音转换方法包括预先构建声音转换模型;接收源发音人的语音信号,并提取语音信号的频谱特征;确定源发音人对应的声音转换模型;根据频谱特征和源发音人对应的声音转换模型,进行声音转换,以得到目标发音人的语音信息。该声音转换方法能够有效提高声音转换的灵活性。

Description

声音转换方法和装置
技术领域
本发明涉及语音信号技术领域,尤其涉及一种声音转换方法和装置。
背景技术
声音转换的目标是将源说话人的语音转换为目标说话人的语音。近年来,由于其广泛的应用前景,声音转换技术得到了广泛的研究与关注。同样,声音转换技术在娱乐方面也有很大的应用前景,例如,可以将用户的声音转换为想要的明星的声音,或者转换为用户所熟悉的人的声音。此外,声音转换技术还可以帮助因发音器官受损而植入电子喉的病人发出高质量的语音,将说话语音变换为歌唱语音等等。另外,声音转换技术也可以作为语音合成技术的个性化音色构建的一种方法。
现有的声音转换方法都是一对一的转换方法,即转换方法是与源说话人和目标说话人相关的,例如,如果构建源发音人到目标发音人的声音转换模型,需要获得源发音人和目标发音人足够的训练语料,用以学习他们之间的转换关系,但是该转换模型对于其他源发音人或目标发音人并不适用,这样,转换模型的灵活性差,在实际产品应用中,技术门槛高。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种声音转换方法,该声音转换方法能够有效提高声音转换的灵活性。
本发明的另一个目的在于提出一种声音转换装置。
为达到上述目的,本发明第一方面实施例提出的声音转换方法,包括:预先构建声音转换模型;接收源发音人的语音信号,并提取所述语音信号的频谱特征;确定所述源发音人对应的声音转换模型;根据所述频谱特征和所述源发音人对应的声音转换模型,进行声音转换,以得到目标发音人的语音信息。
本发明第一方面实施例提出的声音转换方法,通过预先构建声音转换模型,接收源发音人的语音信号并提取频谱特征,确定源发音人对应的声音转换模型,根据频谱特征和源发音人对应的声音转换模型,进行声音转换,以得到目标发音人的语音信息,有效提高声音转换的灵活性。
为达到上述目的,本发明第二方面实施例提出的声音转换装置,包括:构建模块,用于预先构建声音转换模型;接收模块,用于接收源发音人的语音信号,并提取所述语音信号的频谱特征;确定模块,用于确定所述源发音人对应的声音转换模型;转换模块,用于根据所述频谱特征和所述源发音人对应的声音转换模型,进行声音转换,以得到目标发音人的语音信息。
本发明第二方面实施例提出的声音转换装置,通过预先构建声音转换模型,接收源发音人的语音信号并提取频谱特征,确定源发音人对应的声音转换模型,根据频谱特征和源发音人对应的声音转换模型,进行声音转换,以得到目标发音人的语音信息,有效提高声音转换的灵活性。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明一实施例提出的声音转换方法的流程示意图;
图2是本发明实施例中声音转换模型的结构示意图;
图3是本发明另一实施例提出的声音转换方法的流程示意图;
图4是本发明另一实施例提出的声音转换装置的结构示意图;
图5是本发明另一实施例提出的声音转换装置的结构示意图;
图6是本发明另一实施例提出的声音转换装置的结构示意图;
图7是本发明另一实施例提出的声音转换装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
图1是本发明一实施例提出的声音转换方法的流程示意图,该方法包括:
S11:预先构建声音转换模型。
其中,声音转换模型可以是神经网络模型,参见图2,包括输入编码层21、中间转换层22、输出解码层23。
神经网络模型可以是深度神经网络(Deep Neural Networks,DNN)模型、递归神经网络(Recurrent Neural Networks,RNN)模型、卷积神经网络(Convolutional NeuralNetworks,CNN)模型等,本申请以DNN模型为例构建声音转换模型。
可选的,预先构建声音转换模型,可以包括:获取训练数据,并对训练数据进行预处理;提取训练数据的频谱特征;确定声音转换模型的拓扑结构;初始化声音转换模型的参数;根据训练数据的频谱特征,以及初始化后的声音转换模型的参数,训练声音转换模型。
S12:接收源发音人的语音信号,并提取语音信号的频谱特征。
其中,频谱特征例如能量谱特征,或者梅尔域倒谱系数(MCEP)。
本实施例中,提取语音信息的24维梅尔域倒谱系数MCEP和1维能量谱特征,共25维的频谱特征。
S13:确定源发音人对应的声音转换模型。
可选的,确定源发音人对应的声音转换模型,可以包括:确定目标发音人,并提取目标发音人的语音信号的频谱特征;根据目标发音人的语音信号的频谱特征,调整声音转换模型的输出解码层融合权值,以及,根据源发音人的语音信号的频谱特征,调整声音转换模型的输入编码层融合权值,以得到所述源发音人对应的声音转换模型。
S14:根据频谱特征和源发音人对应的声音转换模型,进行声音转换,以得到目标发音人的语音信息。
具体地,将提取出的源发音人语音信号的25维的频谱特征,作为源发音人对应的声音转换模型的输入,进行声音转换,以得到目标发音人的语音信息。
本实施例中,通过预先构建声音转换模型,接收源发音人的语音信号并提取频谱特征,确定源发音人对应的声音转换模型,根据频谱特征和源发音人对应的声音转换模型,进行声音转换,以得到目标发音人的语音信息,有效提高声音转换的灵活性。
图3是本发明另一实施例提出的声音转换方法的流程示意图,该方法包括:
S301:获取训练数据,并对训练数据进行预处理。
其中,训练数据为平行语料。
平行语料指针对同一文本内容,不同源发音人的语音信息。
可选的,获取训练数据,并对训练数据进行预处理,可以包括:
将平行语料进行配对,以构造声音转换模型的输入数据和输出数据;将输入数据和输出数据做时长对齐,以训练声音转换模型。
例如,可以根据动态时间规整(Dynamic Time Warping,DTW)算法将输入数据和输出数据做时长对齐。
具体地,可以收集至少一位的源发音人的语音信号,本实施例以收集100位不同的源发音人的每人10分钟的语音信号为例,构造训练数据,并对训练数据集内的100位发音人进行两两配对,得到9900对不同源发音人的语音信号,将每对不同源发音人的语音信号,分别构造声音转换模型的输入数据和输出数据。
进一步,对同一文本内容,不同的源发音人录音,由于源发音人的个体差异性,100位源发音人对同一文本内容的发音,不可能控制在完全相同的时长内,因此,需要使用时长对齐算法自动的做时长对齐,其中,时长对齐算法例如为DTW算法,将两两配对后,将每对不同源发音人的语音信号进行时长对齐,得到时长对齐后的9900对源-目标发音人的训练样本,作为声音转换模型的输入数据和输出数据用以训练模型。
例如,将第一位源发音人和第二位的源发音人的针对同一文本内容的语音信号进行配对,其中,第一位源发音人的语音信号时长为10s,第二位的源发音人的语音信号时长为12s,进而,采用DTW算法自动的做这两段语音信号时长对齐,得到时长对齐后的一对训练样本,将第一位源发音人的语音信号作为声音转换模型的输入数据,将第二位源发音人的语音信号作为声音转换模型的输出数据用以训练模型,并可以采用同样的方法构造出另外若干对训练数据。
S302:提取训练数据的频谱特征。
本实施例中,提取语音信息的24维梅尔域倒谱系数MCEP和1维能量谱特征,共25维的频谱特征。
S303:确定声音转换模型的拓扑结构。
其中,声音转换模型可以是神经网络模型,参见图2,声音转换模型包括输入编码层21、中间转换层22、输出解码层23,本申请以DNN模型为例。
其中,输入编码层21由N个神经网络,即编码器组成,每个编码器代表整个声学空间中,某一类相似源发音人语音信息的本征空间。
本申请中,每个编码器为一个单层神经网络,其中,编码器的个数N一般由大量实验或经验确定,本实施例中,N取值16。
具体地,每个神经网络的输入数据是源发音人语音信号的频谱特征,本实施例中输入数据是25维的频谱特征,每个神经网络根据以下公式,对源发音人语音信号的频谱特征进行变换,输出结构化的高层特征,其中,
其中,表示输入编码层i的第n个本征空间模型的输出, 表示输入层i的第n个本征空间模型对应的网络参数,σ表示激励函数,例如,σ可以是sigmoid函数。
中间转换层22由多层神经网络构成,本申请中,多层神经网络为3层的深度神经网络,中间转换层22的输入数据是由输入编码层21对源发音人语音信号的频谱特征,经过多个编码器编码后,进行融合得到的特征,输入编码层21中的各个编码器的融合权重分别为
本申请中,中间转换层22输入节点数取为512,经过中间转换层22转换后,输出节点数取为512。
输出解码层23由N个神经网络,即解码器组成,每个神经网络均可用来重建输出目标发音人的频谱特征,每个解码器代表整个声学空间中的某一类相似目标发音人的本征空间。
每个解码器的输入数据为中间转换层22的输出数据;每个解码器的输出数据为25维的频谱特征,每个神经网络根据以下公式,重建输出目标发音人的频谱特征,其中,
其中,表示输出解码层o的第n个本征空间的输出数据, 分别为输出解码层o的第n个本征空间模型对应的网络参数。
需要说明的是,整个声音转换模型的输出数据是输出解码层23中各个解码器输出目标发音人语音信号的频谱特征,同样经过融合得到的融合后的频谱特征,其融合权值为
S304:初始化声音转换模型的参数。
其中,声音转换模型的参数包括:输入编码层融合权值、输出解码层融合权值、输入编码层参数、输出解码层参数,以及中间转换层各层间参数。
例如,模型参数包括输入编码层21的融合权值输出解码层23的融合权值输入编码层21的参数输出解码层23参数以及中间转换层22的各层间参数Wm和bm。其中输入编码层21的参数、输出解码层23的参数以及中间转换层22的各层间的参数初始化,由大量实验或经验确定。
进一步,训练数据集中每位源发音人都有一套融合每位源发音人的权值,如对第s位源发音人,其融合权值为包括:输入编码层21融合权值和输出解码层23融合权值。
其中,融合权值由以下方法进行初始化:
首先将训练数据集中源发音人进行聚类,例如,可以使用声纹识别中的i-vector特征进行k-means聚类;并将每类源发音人对应到N位源发音人本征空间;然后对每个源发音人分配初始化的融合权值,包括:输入编码层21融合权值和输出解码层23融合权值,对应的本征空间权值为1,其余空间权值为0。
S305:根据训练数据的频谱特征,以及初始化后的声音转换模型的参数,训练声音转换模型。
可选的,可以根据训练数据的频谱特征,以及初始化后的输入编码层融合权值、输出解码层融合权值、输入编码层参数、输出解码层参数,以及中间转换层各层间参数,训练声音转换模型。
具体的,为确保各个本征空间的权值大于0且和为1,可以使用如下公式构造第s位源发音人的融合权值,其中,
其中,为训练阶段要更新的模型参数。
如果源发音人为Sp,目标发音人为Sk,则转换关系可以表示为如下公式,
其中,Fpk(x)表示源发音人为Sp经过声音转换模型转换后的语音信号的频谱特征,N为源发音人本征空间数,本申请中取N=16,θ(.)表示中间转换层转换函数。
因此,声音转换模型的训练准则如下公式:
其中,表示参数 表示参数θ表示参数Wm和bm,S表示源发音人数目,T表示经过时长对齐后每个源发音人语音信号的总帧数,表示第t帧期望得到的目标发音人k的值,表示第t帧通过声音转换模型实际得到的从源发音人p到目标发音人k转换的值。
S306:接收源发音人的语音信号,并提取语音信号的频谱特征。
本实施例中,提取语音信号的24维梅尔域倒谱系数MCEP和1维能量谱特征,共25维的频谱特征。
S307:确定目标发音人,并提取目标发音人的语音信号的频谱特征。
具体地,提取目标发音人的语音信号的24维梅尔域倒谱系数MCEP和1维能量谱特征,共25维的频谱特征。
S308:根据目标发音人的语音信信号的频谱特征,调整声音转换模型的输出解码层融合权值。
具体的,在预先训练好的声音转换模型基础上,使用获取到的目标发音人训练数据,得到它对应的融合权值。
其中,声音转换模型作为自编码器,即输入数据和输出数据均为目标发音人语音信号的频谱特征,绑定输入编码层21与输出解码层23的融合权值,即两层的融合权值取相同值进行求解,其求解过程与声音转换模型参数训练过程相似,仅是调整融合权值,其余参数保持不变。
S309:根据源发音人的语音信号的频谱特征,调整声音转换模型的输入编码层融合权值,以得到所述源发音人对应的声音转换模型。
具体的,根据源发音人语音信号的频谱特征数据,调整确定输入编码层21的融合权值。
S310:根据频谱特征和源发音人对应的声音转换模型,进行声音转换,以得到目标发音人的语音信息。
具体地,将提取出的源发音人语音信号的25维的频谱特征,作为源发音人对应的声音转换模型的输入,进行声音转换,以得到目标发音人的语音信息。
本实施例中,通过预先构建声音转换模型,接收源发音人的语音信号并提取频谱特征,确定源发音人对应的声音转换模型,根据频谱特征和源发音人对应的声音转换模型,进行声音转换,以得到目标发音人的语音信息,有效提高声音转换的灵活性。另外,本实施例通过训练得到与源发音人和目标发音人无关的声音转换模型,可以实现从任意源发音人到任意目标发音人之间的声音转换,有效降低了声音转换方法的使用门槛。
图4是本发明另一实施例提出的声音转换装置的结构示意图,该装置40包括构建模块401、接收模块402、确定模块403,以及转换模块404,其中,构建模块401,用于预先构建声音转换模型;接收模块402,用于接收源发音人的语音信号,并提取语音信号的频谱特征;确定模块403,用于确定源发音人对应的声音转换模型;转换模块404,用于根据频谱特征和源发音人对应的声音转换模型,进行声音转换,以得到目标发音人的语音信息。
构建模块401,用于预先构建声音转换模型。
其中,声音转换模型可以是神经网络模型,参见图2,包括输入编码层21、中间转换层22、输出解码层23。
神经网络模型可以是深度神经网络(Deep Neural Networks,DNN)模型、递归神经网络(Recurrent Neural Networks,RNN)模型、卷积神经网络(Convolutional NeuralNetworks,CNN)模型等,本申请以DNN模型为例构建声音转换模型。
一个实施例中,参见图5,构建模块401包括:
训练数据获取子模块4011,用于获取训练数据,并对训练数据进行预处理。
另一个实施例中,参见图6,训练数据为平行语料,训练数据获取子模块4011具体包括:
配对单元40111,用于将平行语料进行配对,以构造声音转换模型的输入数据和输出数据。
其中,训练数据为平行语料。
平行语料指针对同一文本内容,不同源发音人的语音信息。
可选的,获取训练数据,并对训练数据进行预处理,可以包括:
将平行语料进行配对,以构造声音转换模型的输入数据和输出数据
具体地,可以收集至少一位的源发音人的语音信号,本实施例以收集100位不同的源发音人的每人10分钟的语音信号为例,构造训练数据,并对训练数据集内的100位发音人进行两两配对,得到9900对不同源发音人的语音信号,将每对不同源发音人的语音信号,分别构造声音转换模型的输入数据和输出数据。
对齐单元40112,用于将输入数据和输出数据做时长对齐,以训练声音转换模型。
例如,可以根据动态时间规整(Dynamic Time Warping,DTW)算法将输入数据和输出数据做时长对齐。
进一步,对同一文本内容,不同的源发音人录音,由于源发音人的个体差异性,100位源发音人对同一文本内容的发音,不可能控制在完全相同的时长内,因此,需要使用时长对齐算法自动的做时长对齐,其中,时长对齐算法例如为DTW算法,将两两配对后,将每对不同源发音人的语音信号进行时长对齐,得到时长对齐后的9900对源-目标发音人的训练样本,作为声音转换模型的输入数据和输出数据用以训练模型。
例如,将第一位源发音人和第二位的源发音人的针对同一文本内容的语音信号进行配对,其中,第一位源发音人的语音信号时长为10s,第二位的源发音人的语音信号时长为12s,进而,采用DTW算法自动的做这两段语音信号时长对齐,得到时长对齐后的一对训练样本,将第一位源发音人的语音信号作为声音转换模型的输入数据,将第二位源发音人的语音信号作为声音转换模型的输出数据用以训练模型,并可以采用同样的方法构造出另外若干对训练数据。
第一提取子模块4012,用于提取训练数据的频谱特征。
本实施例中,提取语音信息的24维梅尔域倒谱系数MCEP和1维能量谱特征,共25维的频谱特征。
确定子模块4013,用于确定声音转换模型的拓扑结构。
其中,声音转换模型可以是神经网络模型,参见图2,声音转换模型包括输入编码层21、中间转换层22、输出解码层23,本申请以DNN模型为例。
其中,输入编码层21由N个神经网络,即编码器组成,每个编码器代表整个声学空间中,某一类相似源发音人语音信息的本征空间。
本申请中,每个编码器为一个单层神经网络,其中,编码器的个数N一般由大量实验或经验确定,本实施例中,N取值16。
具体地,每个神经网络的输入数据是源发音人语音信号的频谱特征,本实施例中输入数据是25维的频谱特征,每个神经网络根据以下公式,对源发音人语音信号的频谱特征进行变换,输出结构化的高层特征,其中,
其中,表示输入编码层i的第n个本征空间模型的输出, 表示输入层i的第n个本征空间模型对于的网络参数,σ表示激励函数,例如,σ可以是sigmoid函数。
中间转换层22由多层神经网络构成,本申请中,多层神经网络为3层的深度神经网络,中间转换层22的输入数据是由输入编码层21对源发音人语音信号的频谱特征,经过多个编码器编码后,进行融合得到的特征,输入编码层21中的各个编码器的融合权重分别为
本申请中,中间转换层22输入节点数取为512,经过中间转换层22转换后,输出节点数取为512。
输出解码层23由N个神经网络,即解码器组成,每个神经网络均可用来重建输出目标发音人的频谱特征,每个解码器代表整个声学空间中的某一类相似目标发音人的本征空间。
每个解码器的输入数据为中间转换层22的输出数据;每个解码器的输出数据为25维的频谱特征,每个神经网络根据以下公式,重建输出目标发音人的频谱特征,其中,
其中,表示输出解码层o的第n个本征空间的输出数据, 分别为输出解码层o的第n个本征空间模型对应的网络参数。
需要说明的是,整个声音转换模型的输出数据是输出解码层23中各个解码器输出目标发音人语音信号的频谱特征,同样经过融合得到的融合后的频谱特征,其融合权值为
初始化子模块4014,用于初始化声音转换模型的参数。
其中,声音转换模型的参数包括:输入编码层融合权值、输出解码层融合权值、输入编码层参数、输出解码层参数,以及中间转换层各层间参数。
例如,模型参数包括输入编码层21的融合权值输出解码层23的融合权值输入编码层21的参数输出解码层23参数以及中间转换层22的各层间参数Wm和bm。其中输入编码层21的参数、输出解码层23的参数以及中间转换层22的各层间的参数初始化,由大量实验或经验确定。
进一步,训练数据集中每位源发音人都有一套融合每位源发音人的权值,如对第s位源发音人,其融合权值为包括:输入编码层21融合权值和输出解码层23融合权值。
其中,融合权值由以下方法进行初始化:
首先将训练数据集中源发音人进行聚类,例如,可以使用声纹识别中的i-vector特征进行k-means聚类;并将每类源发音人对应到N位源发音人本征空间;然后对每个源发音人分配初始化的融合权值,包括:输入编码层21融合权值和输出解码层23融合权值,对应的本征空间权值为1,其余空间权值为0。
训练子模块4015,用于根据训练数据的频谱特征,以及初始化后的声音转换模型的参数,训练声音转换模型。
可选的,训练子模块4015具体用于根据训练数据的频谱特征,以及初始化后的输入编码层融合权值、输出解码层融合权值、输入编码层参数、输出解码层参数,以及中间转换层各层间参数,训练声音转换模型。
可选的,可以根据训练数据的频谱特征,以及输入编码层参数、输出解码层参数,以及中间转换层各层间参数,训练声音转换模型。
具体的,为确保各个本征空间的权值大于0且和为1,可以使用如下公式构造第s位源发音人的融合权值,其中,
其中,为训练阶段要更新的模型参数。
如果源发音人为Sp,目标发音人为Sk,则转换关系可以表示为如下公式,
其中,Fpk(x)表示源发音人为Sp经过声音转换模型转换后的语音信号的频谱特征,N为源发音人本征空间数,本申请中取N=16,θ(.)表示中间转换层转换函数。
因此,声音转换模型的训练准则如下公式:
其中,表示参数 表示参数θ表示参数Wm和bm,S表示源发音人数目,T表示经过时长对齐后每个源发音人语音信号的总帧数,表示第t帧期望得到的目标发音人k的值,表示第t帧通过声音转换模型实际得到的从源发音人p到目标发音人k转换的值。
接收模块402,用于接收源发音人的语音信号,并提取语音信号的频谱特征。
其中,频谱特征例如能量谱特征,或者梅尔域倒谱系数MCEP。
本实施例中,提取语音信号的24维梅尔域倒谱系数MCEP和1维能量谱特征,共25维的频谱特征。
确定模块403,用于确定源发音人对应的声音转换模型。
另一个实施例中,参见图7,确定模块403包括:
第二提取子模块4031,用于确定目标发音人,并提取目标发音人的语音信号的频谱特征。
具体地,提取目标发音人的语音信号的24维梅尔域倒谱系数MCEP和1维能量谱特征,共25维的频谱特征。
调整子模块4032,用于根据目标发音人的语音信号的频谱特征,调整声音转换模型的输出解码层融合权值,以及,根据源发音人的语音信号的频谱特征,调整声音转换模型的输入编码层融合权值,以得到所述源发音人对应的声音转换模型。
具体的,在预先训练好的声音转换模型基础上,使用获取到的目标发音人训练数据,得到它对应的融合权值。
其中,声音转换模型作为自编码器,即输入数据和输出数据均为目标发音人语音信号的频谱特征,绑定输入编码层21与输出解码层23的融合权值,即两层的融合权值取相同值进行求解,其求解过程与声音转换模型参数训练过程相似,仅是调整融合权值,其余参数保持不变。
具体的,根据源发音人语音信号的频谱特征数据,调整确定输入编码层21的融合权值。
转换模块404,用于根据频谱特征和源发音人对应的声音转换模型,进行声音转换,以得到目标发音人的语音信息。
具体地,将提取出的源发音人语音信号的25维的频谱特征,作为源发音人对应的声音转换模型的输入,进行声音转换,以得到目标发音人的语音信息。
本实施例中,通过预先构建声音转换模型,接收源发音人的语音信号并提取频谱特征,确定源发音人对应的声音转换模型,根据频谱特征和源发音人对应的声音转换模型,进行声音转换,以得到目标发音人的语音信息,有效提高声音转换的灵活性。
需要说明的是,在本发明的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (12)

1.一种声音转换方法,其特征在于,包括:
预先构建与源发音人和目标发音人无关的声音转换模型;
接收源发音人的语音信号,并提取所述语音信号的频谱特征;
确定所述源发音人对应的声音转换模型,所述确定所述源发音人对应的声音转换模型,包括:确定目标发音人,并提取所述目标发音人的语音信号的频谱特征,根据所述目标发音人的语音信号的频谱特征,调整所述声音转换模型的输出解码层融合权值,以及,根据所述源发音人的所述语音信号的频谱特征,调整所述声音转换模型的输入编码层融合权值,以得到所述源发音人对应的声音转换模型;
根据所述源发音人的所述语音信号的频谱特征和所述源发音人对应的声音转换模型,进行声音转换,以得到所述目标发音人的语音信息。
2.根据权利要求1所述的声音转换方法,其特征在于,所述预先构建声音转换模型,包括:
获取训练数据,并对所述训练数据进行预处理;
提取所述训练数据的频谱特征;
确定所述声音转换模型的拓扑结构;
初始化所述声音转换模型的参数;
根据所述训练数据的频谱特征,以及所述初始化后的所述声音转换模型的参数,训练所述声音转换模型。
3.根据权利要求2所述的声音转换方法,其特征在于,所述训练数据为平行语料,所述获取训练数据,并对所述训练数据进行预处理,包括:
将所述平行语料进行配对,以构造所述声音转换模型的输入数据和输出数据;
将所述输入数据和所述输出数据做时长对齐,以训练所述声音转换模型。
4.根据权利要求1-3任一项所述的声音转换方法,其特征在于,所述声音转换模型为神经网络模型,所述声音转换模型包括输入编码层、中间转换层、输出解码层。
5.根据权利要求2所述的声音转换方法,其特征在于,所述声音转换模型的参数包括:所述输入编码层融合权值、所述输出解码层融合权值、所述输入编码层参数、所述输出解码层参数,以及中间转换层各层间参数。
6.根据权利要求2所述的声音转换方法,其特征在于,所述根据所述训练数据的频谱特征,以及所述初始化后的所述声音转换模型的参数,训练所述声音转换模型,具体包括:
根据所述训练数据的频谱特征,以及初始化后的所述输入编码层融合权值、所述输出解码层融合权值、所述输入编码层参数、所述输出解码层参数,以及中间转换层各层间参数,训练所述声音转换模型。
7.一种声音转换装置,其特征在于,包括:
构建模块,用于预先构建与源发音人和目标发音人无关的声音转换模型;
接收模块,用于接收源发音人的语音信号,并提取所述语音信号的频谱特征;
确定模块,用于确定所述源发音人对应的声音转换模型,其中,所述确定模块包括第二提取子模块和调整子模块,所述第二提取子模块用于确定目标发音人,并提取所述目标发音人的语音信号的频谱特征,所述调整子模块用于根据所述目标发音人的语音信号的频谱特征,调整所述声音转换模型的输出解码层融合权值,以及根据所述源发音人的所述语音信号的频谱特征,调整所述声音转换模型的输入编码层融合权值,以得到所述源发音人对应的声音转换模型;
转换模块,用于根据所述源发音人的所述语音信号的频谱特征和所述源发音人对应的声音转换模型,进行声音转换,以得到目标发音人的语音信息。
8.根据权利要求7所述的声音转换装置,其特征在于,所述构建模块包括:
训练数据获取子模块,用于获取训练数据,并对所述训练数据进行预处理;
第一提取子模块,用于提取所述训练数据的频谱特征;
确定子模块,用于确定所述声音转换模型的拓扑结构;
初始化子模块,用于初始化所述声音转换模型的参数;
训练子模块,用于根据所述训练数据的频谱特征,以及所述初始化后的所述声音转换模型的参数,训练所述声音转换模型。
9.根据权利要求8所述的声音转换装置,其特征在于,所述训练数据为平行语料,所述训练数据获取子模块具体包括:
配对单元,用于将所述平行语料进行配对,以构造所述声音转换模型的输入数据和输出数据;
对齐单元,用于将所述输入数据和所述输出数据做时长对齐,以训练所述声音转换模型。
10.根据权利要求7-9任一项所述的声音转换装置,其特征在于,所述声音转换模型为神经网络模型,所述声音转换模型包括输入编码层、中间转换层、输出解码层。
11.根据权利要求8所述的声音转换装置,其特征在于,所述声音转换模型的参数包括:所述输入编码层融合权值、所述输出解码层融合权值、所述输入编码层参数、所述输出解码层参数,以及中间转换层各层间参数。
12.根据权利要求8所述的声音转换装置,其特征在于,所述训练子模块具体用于:
根据所述训练数据的频谱特征,以及初始化后的所述输入编码层融合权值、所述输出解码层融合权值、所述输入编码层参数、所述输出解码层参数,以及中间转换层各层间参数,训练所述声音转换模型。
CN201510676304.4A 2015-10-14 2015-10-14 声音转换方法和装置 Active CN105390141B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510676304.4A CN105390141B (zh) 2015-10-14 2015-10-14 声音转换方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510676304.4A CN105390141B (zh) 2015-10-14 2015-10-14 声音转换方法和装置

Publications (2)

Publication Number Publication Date
CN105390141A CN105390141A (zh) 2016-03-09
CN105390141B true CN105390141B (zh) 2019-10-18

Family

ID=55422357

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510676304.4A Active CN105390141B (zh) 2015-10-14 2015-10-14 声音转换方法和装置

Country Status (1)

Country Link
CN (1) CN105390141B (zh)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106057192A (zh) * 2016-07-07 2016-10-26 Tcl集团股份有限公司 一种实时语音转换方法和装置
CN109102810B (zh) * 2017-06-21 2021-10-15 北京搜狗科技发展有限公司 声纹识别方法和装置
CN107274906A (zh) * 2017-06-28 2017-10-20 百度在线网络技术(北京)有限公司 语音信息处理方法、装置、终端及存储介质
CN107481735A (zh) * 2017-08-28 2017-12-15 中国移动通信集团公司 一种转换音频发声的方法、服务器及计算机可读存储介质
CN107464554B (zh) * 2017-09-28 2020-08-25 百度在线网络技术(北京)有限公司 语音合成模型生成方法和装置
CN108447486B (zh) * 2018-02-28 2021-12-03 科大讯飞股份有限公司 一种语音翻译方法及装置
CN108806699B (zh) * 2018-05-30 2021-03-23 Oppo广东移动通信有限公司 语音反馈方法、装置、存储介质及电子设备
CN109377978B (zh) * 2018-11-12 2021-01-26 南京邮电大学 非平行文本条件下基于i向量的多对多说话人转换方法
CN109637551A (zh) * 2018-12-26 2019-04-16 出门问问信息科技有限公司 语音转换方法、装置、设备及存储介质
CN109599091B (zh) * 2019-01-14 2021-01-26 南京邮电大学 基于STARWGAN-GP和x向量的多对多说话人转换方法
CN109903773B (zh) * 2019-03-13 2021-01-08 腾讯音乐娱乐科技(深圳)有限公司 音频处理方法、装置及存储介质
CN110097890B (zh) * 2019-04-16 2021-11-02 北京搜狗科技发展有限公司 一种语音处理方法、装置和用于语音处理的装置
CN110136690B (zh) * 2019-05-22 2023-07-14 平安科技(深圳)有限公司 语音合成方法、装置及计算机可读存储介质
CN110223705B (zh) * 2019-06-12 2023-09-15 腾讯科技(深圳)有限公司 语音转换方法、装置、设备及可读存储介质
CN112349266A (zh) * 2019-08-09 2021-02-09 深圳Tcl数字技术有限公司 一种语音编辑方法及相关设备
CN111247581B (zh) * 2019-12-23 2023-10-10 深圳市优必选科技股份有限公司 一种多语言文本合成语音方法、装置、设备及存储介质
WO2021134520A1 (zh) * 2019-12-31 2021-07-08 深圳市优必选科技股份有限公司 语音转换的方法及训练方法、智能装置和存储介质
US11676571B2 (en) * 2021-01-21 2023-06-13 Qualcomm Incorporated Synthesized speech generation
CN113077783B (zh) * 2021-03-26 2023-07-21 联想(北京)有限公司 小语种语音语料扩增方法、装置及电子设备和存储介质
CN113421571B (zh) * 2021-06-22 2023-01-24 云知声智能科技股份有限公司 一种语音转换方法、装置、电子设备和存储介质
CN115206335B (zh) * 2022-09-15 2022-12-02 北京中环高科环境治理有限公司 一种自动留样取证的噪声监测方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07306691A (ja) * 1993-07-12 1995-11-21 Meidensha Corp 不特定話者音声認識装置およびその方法
CN101359473A (zh) * 2007-07-30 2009-02-04 国际商业机器公司 自动进行语音转换的方法和装置
CN102568476A (zh) * 2012-02-21 2012-07-11 南京邮电大学 基于自组织特征映射网络聚类和径向基网络的语音转换法
CN102982809A (zh) * 2012-12-11 2013-03-20 中国科学技术大学 一种说话人声音转换方法
CN103021418A (zh) * 2012-12-13 2013-04-03 南京邮电大学 一种面向多时间尺度韵律特征的语音转换方法
CN104123933A (zh) * 2014-08-01 2014-10-29 中国科学院自动化研究所 基于自适应非平行训练的语音转换方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4241736B2 (ja) * 2006-01-19 2009-03-18 株式会社東芝 音声処理装置及びその方法
JP4966048B2 (ja) * 2007-02-20 2012-07-04 株式会社東芝 声質変換装置及び音声合成装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07306691A (ja) * 1993-07-12 1995-11-21 Meidensha Corp 不特定話者音声認識装置およびその方法
CN101359473A (zh) * 2007-07-30 2009-02-04 国际商业机器公司 自动进行语音转换的方法和装置
CN102568476A (zh) * 2012-02-21 2012-07-11 南京邮电大学 基于自组织特征映射网络聚类和径向基网络的语音转换法
CN102982809A (zh) * 2012-12-11 2013-03-20 中国科学技术大学 一种说话人声音转换方法
CN103021418A (zh) * 2012-12-13 2013-04-03 南京邮电大学 一种面向多时间尺度韵律特征的语音转换方法
CN104123933A (zh) * 2014-08-01 2014-10-29 中国科学院自动化研究所 基于自适应非平行训练的语音转换方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Voice Conversion Using Deep Neural Networks With Layer-Wise Generative Training;Chen Linghui etc;《IEEE/ACM Transactions on Audio,Speech,and Language Processing》;20141231;第22卷(第12期);第1859-1872页 *
Voice conversion using deep neural networks with speaker-independent pre-training;Seyed Hamidreza Mohammadi;《2014 IEEE Spoken Language Technology Workshop (SLT)》;20141010;第1-5页 *
声音转换的神经网络建模方法研究;刘利娟;《中国优秀硕士学位论文全文数据库 信息科技辑》;20150915(第9期);第3-54页 *

Also Published As

Publication number Publication date
CN105390141A (zh) 2016-03-09

Similar Documents

Publication Publication Date Title
CN105390141B (zh) 声音转换方法和装置
US11222620B2 (en) Speech recognition using unspoken text and speech synthesis
CN105206258B (zh) 声学模型的生成方法和装置及语音合成方法和装置
CN102982809B (zh) 一种说话人声音转换方法
CN110534089A (zh) 一种基于音素和韵律结构的中文语音合成方法
CN108777140A (zh) 一种非平行语料训练下基于vae的语音转换方法
CN105931635B (zh) 一种音频分割方法及装置
Cutler Brooklyn style: Hip-hop markers and racial affiliation among European immigrants in New York City
CN106575500A (zh) 基于面部结构合成话音的方法和装置
CN107767879A (zh) 基于音色的音频转换方法及装置
CN108172218A (zh) 一种语音建模方法及装置
CN111210803B (zh) 一种基于Bottle neck特征训练克隆音色及韵律的系统及方法
CN109346064A (zh) 用于端到端语音识别模型的训练方法及系统
CN110491393A (zh) 声纹表征模型的训练方法及相关装置
CN110148408A (zh) 一种基于深度残差的中文语音识别方法
CN110349588A (zh) 一种基于词嵌入的lstm网络声纹识别方法
CN111223474A (zh) 一种基于多神经网络的语音克隆方法和系统
CN112365874B (zh) 语音合成模型的属性注册、装置、电子设备与介质
CN104916282B (zh) 一种语音合成的方法和装置
CN112466316A (zh) 一种基于生成对抗网络的零样本语音转换系统
CN116863038A (zh) 一种文本生成数字人语音及面部动画的方法
CN110348409A (zh) 一种基于声纹生成人脸图像的方法和装置
CN109377986A (zh) 一种非平行语料语音个性化转换方法
CN109036376A (zh) 一种闽南语语音合成方法
CN108520757A (zh) 基于听觉特性的音乐适用场景自动分类方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant