CN113808595A

CN113808595A - 一种从源说话人到目标说话人的声音转换方法及装置

Info

Publication number: CN113808595A
Application number: CN202010543805.6A
Authority: CN
Inventors: 颜蔚
Original assignee: Individual
Current assignee: Individual
Priority date: 2020-06-15
Filing date: 2020-06-15
Publication date: 2021-12-17
Anticipated expiration: 2040-06-15

Abstract

本申请公开了一种源说话人到目标说话人的声音转换方法及装置，该方法包括：在获取源说话人或目标说话人的语音数据后，提取每一语音帧中的浊音所对应的内容特征数据与声学特征数据，存储为说话人的一个特征向量，根据浊音的内容特征数据判断浊音内容，按照浊音内容和说话人类型将所有特征向量分类存储，并利用分类存储后的特征向量得到基于不同浊音的源说话人到目标说话人的声学特征转换参数，然后，接收待转换语音数据，判断每一帧待转换语音中的浊音内容，选取相应的声学转换参数对待转换的语音帧进行多线程并行的语音转换。利用本申请实施例，可以细化浊音的区分并简化声音转换的准备工作，令使用者可以在较短时间内得到品质较高的转换语音。

Description

一种从源说话人到目标说话人的声音转换方法及装置

技术领域

本申请涉及语音信号处理技术领域，具体涉及一种从源说话人到目标说话人的声音转换方法及装置。

背景技术

在日常生活的交流中，我们可以通过一个人的声音判断出这个人是否是我们熟悉的人，这是因为每个人的声音往往是独一无二的，很难找到拥有相同音色的两个人。源说话人到目标说话人声音转换技术可以对源说话人的语音数据进行处理转换，使转换后的语音具有目标说话人的音色特征，而语义内容保持不变。

这种技术拥有广泛的应用前景，例如用于通信安全领域，保证通话的私密性。也可用于舞台表演等实时表演时增加效果，或者解决配音行业的音源不足等问题。

但是，现有的语音转换技术要想得到理想的效果，在获取所需要的语音数据后，往往还需要较长时间的训练与转换，使得语音转换的实时性效果较差。

发明内容

本申请旨在提供一种源说话人到目标说话人的声音转换方法及装置，具体基于语音转换时根据浊音类型的不同进行多线程并行的声学特征转换，使得可以在较短时间内获得精度较高的转换语音。

本申请提供一种源说话人到目标说话人的声音转换方法，包括：

接收源说话人语音数据，并进行分帧预处理；

从所述源说话人语音数据中提取所需特征数据，并输出为基于不同语音帧中浊音的源说话人特征向量；

接收目标说话人语音数据，并进行分帧预处理；

从所述目标说话人语音数据提取所需特征数据，并输出为基于不同语音帧中浊音的目标说话人特征向量；

将所述源说话人特征向量与目标说话人特征向量按照其浊音类型进行分类存储；

利用分类存储后的源说话人和目标说话人特征向量进行训练，得到基于不同浊音的源说话人到目标说话人的声学特征映射参数；

接收源说话人待转换语音数据，并进行分帧处理；

将所有浊音的映射参数输入语音转换模型，按照待转换语音中不同帧包含的浊音类型进行语音转换，得到转换后的目标语音数据。

优选地，所述从所述源说话人语音数据中提取所需特征数据，并输出为基于不同语音帧中浊音的源说话人特征向量，包括：

利用预先构建的内容特征提取模型与声学特征提取模型构建特征提取网络；

提取源说话人语音数据不同帧中的浊音的内容特征数据与声学特征数据；

将同一语音帧中的浊音对应的内容特征与声学特征作为两个元素存储为一个源说话人特征向量。

优选地，所述接收目标说话人语音数据，包括：

向用户提供两种选择，可使用已有的目标说话人特征向量组，或由用户输入目标说话人实时语音数据；

向用户展现可选择的已有目标说话人特征向量组。

优选地，所述从所述目标说话人语音数据提取所需特征数据，并输出为基于不同语音帧中浊音的目标说话人特征向量，包括：

利用预先构建的声学特征随机波动数据提取模型构建波动数据提取网络；

提取目标说话人语音数据不同帧中的浊音的内容特征数据与声学特征（即共振峰分布）数据；

所述将所述源说话人特征向量与目标说话人特征向量按照浊音类型进行分类存储，包括：

预先存储所有浊音对应的内容特征数据，并建立基于浊音分类的数据库；

利用DTW方法进行特征向量与预先存储的浊音数据之间的比较查找；

根据当前输入的源说话人或目标说话人特征向量中浊音的内容特征，与数据库中存储的不同浊音的内容特征进行比较，并查找得到最相近的浊音内容特征；

将当前进行比较查找的源说话人或目标说话人特征向量存储到查找结果对应的数据库区域；

其中，基于浊音分类的数据库区域的结构包括：

分类标记，即此数据库区域对应的浊音；

分类的依据，即此数据库区域对应的浊音的内容特征；

源说话人特征向量区，用于存储分类后应归于此数据库区域的源说话人特征向量；

目标说话人特征向量区，用于存储分类后应归于此数据库区域的目标说话人特征向量。

所述利用分类存储后的源说话人和目标说话人特征向量进行训练，得到基于不同浊音的源说话人到目标说话人的声学特征映射参数，包括：

利用预先构建的声学特征转换模型构建特征转换网络；

从数据库中按照不同浊音提取一对源说话人与目标说话人特征向量作为训练样本，输入特征转换网络训练得到对应浊音的特征映射参数；

检测当前特征映射参数的精度，若低于预期值则对所述特征映射参数进行优化；

其中，所述检测当前特征映射参数的精度，若低于预期值则对所述特征映射参数进行优化，包括：

提取对应浊音的另一对源说话人与目标说话人特征向量作为检测样本，利用当前特征映射参数对检测样本中的源说话人声学特征进行声音转换；

将声音转换结果与检测样本中的目标说话人声学特征进行对比，并将对应浊音的目标说话人的声学特征随机波动情况作为误差判定的松弛量；

若当前特征映射参数精度低于预期值，则利用检测样本与当前的特征映射参数再次训练，以优化特征映射参数。

优选地，所述将所有浊音的映射参数输入语音转换模型并按照浊音类型进行语音转换，得到转换后的目标语音数据，包括：

利用预先建立的语音转换模型构建转换网络；

将源说话人语音进行预处理，根据预处理后每一帧语音数据包含的浊音类型，选取相应浊音的特征转换数据进行声音转换。

本申请还提供了一种从源说话人到目标说话人的声音转换装置，包括：

数据库单元，用于预先存储用户可选择的目标说话人特征向量组，与所有浊音的内容特征数据，以及在使用过程中进行源说话人与目标说话人特征向量的分类存储；

语音数据获取单元，用于接收用户提供的源说话人与目标说话人实时语音数据并对其进行语音分帧预处理，或者提取用户选择的预先存储的目标说话人特征向量组；

特征提取单元，用于对源说话人与目标说话人的语音数据进行内容特征与声学特征提取，得到源说话人与目标说话人的特征向量组；

分类存储单元，用于将源说话人与目标说话人特征向量与数据库中预先存储的所有浊音的内容特征数据进行比较，并按照不同浊音进行分类存储；

转换参数提取单元，用于提取同一浊音分类下的目标说话人与源说话人的特征向量，以建立基于不同浊音的声学特征映射关系；

语音转换单元，用于对待转换语音进行分帧预处理，并按照不同帧中的浊音进行语音转换，得到转换参数后对源说话人语音进行转换。

所述数据库单元，包括：

可选目标说话人子单元，用于存储用户可选择的目标说话人特征向量组；

特征向量存储子单元，用于预先存储所有浊音的内容特征，并在每个浊音下建立源说话人特征向量区域和目标说话人特征向量区域，方便将所有特征向量按照浊音类型和说话人类型进行分类存储。

所述语音数据获取单元，包括：

选择子单元，用于在接收目标说话人数据时向用户提供选择，选择使用用户传输目标说话人实时语音数据或者使用数据库中已有的目标说话人特征向量组，并在用户选择使用已有数据后，向用户展示可选的目标说话人；

语音数据获取子单元，用于获取源说话人与目标说话人的实时语音数据；

预处理子单元，用于对接收的源说话人与目标说话人语音数据进行分帧预处理；

数据传输子单元，用于将预处理后的实时语音数据传入特征提取单元，以及在用户选择使用已有的目标说话人数据后，传输信号给数据库子单元并使其调用相应数据。

可选的，所述特征提取单元，包括：

内容特征提取子单元，用于提取源说话人与目标说话人语音中不同语音帧所包含浊音的内容特征数据；

声学特征提取子单元，用于提取源说话人与目标说话人语音中不同语音帧所包含浊音的声学特征数据，即共振峰分布数据。

所述分类存储单元，包括：

比较选择子单元，用于将源说话人与目标说话人的特征向量按照其中所包含的浊音的内容特征，与数据库单元中存储的所有浊音的内容特征进行比较，根据最为接近的比较结果来确定特征向量中的浊音内容；

分类存储子单元，用于将当前特征向量按照浊音内容和说话人类型分类存储到对应的数据库区域。

优选地，所述转换参数提取单元，包括：

特征向量提取子单元，用于按照浊音的不同提取数据库单元中的源说话人与目标说话人特征向量；

转换参数计算子单元，用于利用具有相同浊音内容的源说话人与目标说话人的特征向量训练得到此浊音对应的源说话人到目标说话人声学特征转换参数。

可选的，所述语音转换单元，包括：

待转换语音获取子单元，用于获取待转换语音并进行分帧预处理；

浊音判断子单元，用于接收一帧待转换语音，提取此语音帧所含浊音的内容特征并判断此浊音的内容；

第一语音转换子单元，存储有所有浊音的源说话人到目标说话人的声学特征转换参数，用于根据接收的待转换语音帧中的浊音内容，提取相应的转换参数进行语音转换；

第二语音转换子单元，构造与功能同第一语音转换子单元一致，用于与第一语音转换子单元进行多线程的并行工作，提高语音转换效率。

本申请实施例提供的一种源说话人到目标说话人声音转换方法及装置，首先接收源说话人和目标说话人的语音数据，并对其进行分帧处理，提取每一帧语音中源说话人与目标说话人的特征向量，并按照浊音的不同分类存储。利用分类存储后的特征向量，得到基于不同浊音的源说话人到目标说话人的声学特征转换参数。在接收待转换语音后，同样进行分帧处理，并按照不同浊音的转换参数对待转换语音帧进行多线程并行处理。可见，本申请实例通过对不同浊音转换参数的细致区分，简化了训练转换参数时对共振峰的聚类计算等繁琐处理工作，并优化了转换后语音的品质，并采用多线程并行的硬件设计使得语音转换效率不会因区分浊音而降低，故而能够做到在较短的时间内得到品质较高的转换语音。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请中的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种源说话人到目标说话人声音转换方法的流程示意图；

图2为本申请实施例提供的数据库结构示意图；

图3为基于预滤波方式的共振峰提取流程示意图；

图4为本申请实施例提供的一种源说话人到目标说话人声音转换装置的组成示意图；

图5为本申请实施例提供的装置中语音转换单元的组成与工作流程示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请实施例提供的方法及装置，下面将结合附图和实施例对本申请实施例进行详细说明。

现有的依靠共振峰进行的声音转换技术，通常是利用预先准备的大量来自源说话人与目标说话人的指定的语音数据进行特征提取，在得到足够的共振峰数据后对其全体使用聚类算法进行处理并得到声学转换参数，以进行声音转换。

但是，这样的转换过程是基于指定语音数据库和聚类算法的使用，也即在使用前需要大量的事先准备工作，且在得到转换参数是需要进行较为繁琐的计算，极大地影响了语音转换的实时性，并且通着这类方法得到的源说话人到目标说话人的声学特征映射往往比较单一，在进行语音转换时会导致细节的丢失，使得转换后的语音品质不够理想。

针对以上所说的缺陷，本申请实例提供了一种方法，在准备阶段，主要的分析目标不再是源说话人与目标说话人的整段语音数据，而变成了语音数据的每一帧中的浊音，通过提取每一语音帧中浊音的特征数据，使得能够利用较少的说话人语音提取出足够的特征数据，从而减少准备阶段的工作量，同时，由于分析目标变为了具体的浊音而不是所有的共振峰数据，就无需使用包含所有共振峰数据的聚类算法，使得转换参数提取时间变短，且得到的转换语音的细节能够得到补充，使转换语音的品质能够得到保证。

第一实施例

如图1所示，是本申请实例所提供的声音转换方法的流程示意图，包括以下步骤：

步骤101：接收源说话人与目标说话人的语音数据，并进行分帧处理。

在本申请实施例中，将需要进行声音转换的说话人定义为源说话人，将拥有预期转换成的声音特征的说话人定义为目标说话人。在本实施例中，获取到源说话人与目标说话人的语音数据后，按照每一帧语音中仅含有一个浊音音素的原则来进行语音分帧处理，根据发声器官变化缓慢的特点，可以认为语音信号具有短时平稳性，所取语音帧时长也根据这一特性来制定，在实际应用中通常为15—40ms。

其中，在本申请实施例的一种实现方法中，在语音获取环节也可以向用户提供选项，供用户选择是否使用已有的目标说话人特征数据，若用户选择此选项，则从数据库中调用所有可选择的目标说话人选项，并将其呈现给用户。在用户选择了特定的目标说话人后，由系统直接从数据库提取其声学特征数据输入声音转换模型进行声学转换，略过中间步骤，数据库的组成以及存储方式可参照图2所示数据库结构示意图。

步骤102：提取每一帧语音中浊音的内容特征与声学特征，作为说话人的一个特征向量。

在本申请实施例中，通过步骤101对需要处理的源说话人或目标说话人的语音数据进行分帧处理后，利用已有的或将来可能出现的数据提取方法，对每个语音帧中出现的浊音音素进行处理，建立特征提取模型，提取出能够反映浊音内容的内容特征数据，以及能够反映说话人在发出此浊音音素时声学特征的声学特征数据。

其中，在本申请实施例的一种实现方法中，可以将那个语音帧中的清音音素认为是随机生成的白噪音，通过滤波后提取分析剩余部分，也即浊音音素的共振峰数据。在提取共振峰作为语音特征时，往往提取前4至5个共振峰，此时的共振峰数据最有代表性，其后的共振峰由于频率过高，参考价值大大降低。前4至5个共振峰之中，第一、二共振峰代表了较多的语义信息，可以作为浊音音素的内容特征数据的主要参考指标，而第三到第五共振峰则更多代表了浊音的声学特征数据。本步骤中所输出的数据为说话人发出此浊音音素时的特征向量，其表示形式为：

其中，N_i为此浊音的第i个内容特征数据，M_j为浊音的第j个声学特征数据。

需要说明的是，本申请实施例注重语音转换的实时性，所以接收的源说话人与目标说话人实时语音数据可能会存在杂音等干扰，所以在本申请实施例的实现过程中，建议使用一种基于预滤波的共振峰提取方法，具体实现流程可参照后续第三实施例的相关介绍。

步骤103：将所有特征向量按照浊音内容和说话人类型存储到数据库的对应区域。

在本申请实施例的一种实现方法中，数据库中预先存储有所有浊音的内容特征数据（包括男性与女性的不同数据），且设有用于暂存说话人特征向量的区域，每一个说话人特征数据都能够根据其中包含的内容特征（反映此特征向量代表的浊音内容）与所属的说话人类型来进行分类存储。数据库的具体组成以及存储方式可参照图2所示数据库结构示意图。

其具体实施原理为：以源说话人语音数据处理过程举例，从接收源说话人的语音数据开始，直到将源说话人语音数据处理完毕后的这段时间内，只开启数据库中与源说话人对应区域的存储权限，此时处理完的特征向量只能存储到对应浊音的源说话人特征向量区域，然后利用当前正在处理的特征向量中所包含的内容特征数据，与数据库中预先存储的所有浊音的内容特征数据进行DTW算法比较，选出与特征向量中所包含内容特征数据子相近的浊音的内容数据，并以此确定该特征向量所表征的浊音，按照这一结果将当前处理的源说话人特征向量存储到数据库中特定浊音下的源说话人特征向量存储区域。

步骤104：根据分类后的源说话人与目标说话人特征向量组，得到基于不同浊音的声学特征转换参数。

在本申请实施例的一种实现方法中，可选择以下方法确定不同浊音的声学特征转换参数：以某一特定浊音举例，从数据库中这一浊音对应的存储区域提取一个源说话人特征向量和一个目标说话人特征向量作为第一组样本数据，将其中的声学特征数据输入转换参数提取模型，初步得到一组基于此浊音的声学特征转换参数，在转换参数提取模型中保留此时的声学转换参数用于检验，然后再提取一对此浊音下存储的源说话人与目标说话人特征向量作为一组检验数据，将检验数据中的源说话人声学特征输入此时的转换参数提取模型，将模型输出的计算结果与检验数据中的目标说话人声学特征比较，在比较时预先设置一个松弛量，若计算所得目标说话人声学特征与检验数据中的目标说话人声学特征相差在松弛量范围内，则当前转换参数符合标准，继续提取下一组检验数据，若两者相差超过松弛量范围，则将检验数据与样本数据组合为新的样本数据，由聚类算法进行新的声学转换参数的提取。

在本申请实施例的一种实现方法中，松弛量的设置可以为目标说话人的声学特征波动范围，即由分类存储后的目标说话人特征向量计算得到的目标说话人多次发出同一浊音时的声学特征随机分布情况，此外，也可不采取逐步优化转换参数的做法，而直接对同一浊音下的所有源说话人与目标说话人特征向量使用聚类算法从而得到声学特征转换参数。

这一步骤对于声学转换参数的计算方式无特定要求，一般采用径向基神经网络模型对其进行计算，由于本实施例采取的逐步优化的声学转换参数提取策略，径向基神经网络可以保证转换效率，且在精度检验时，可以直接通过改变或保留神经网络隐层的方式进行，较为方便。

步骤105：接收待转换语音并进行分帧预处理，按照不同帧中的浊音内容进行多线程并行的语音转换。

在本申请实施例中，将需要保留语义进行语音转换的源说话人语音称为待转换语音，在本实施例中，接收待转换语音后，将按照处理源说话人与目标说话人语音数据时的分帧原则对其进行语音分帧处理，在分帧处理后，利用步骤102中的浊音内容特征提取模型，提取每一帧语音数据中所含浊音的内容特征数据，将所提取出的内容特征数据送入步骤103中的分类存储模型，此时分类存储模型的作用仅为辨别内容特征数据所对应的浊音内容，将此浊音内容作为当前处理的语音帧的标识数据并建立待转换语音帧向量，其结构为：

其中，S为此语音帧向量的标识数据，为一个或一组可以表征此语音帧所包含浊音的数据,D_n为第n个当前待转换语音帧数据，在得到此待转换语音帧向量后，将其输入语音转换模型，语音转换模型通过识别待转换语音帧中的标识数据来判断当前待转换语音帧中的浊音内容，并选取此浊音对应的源说话人到目标说话人声音转换参数进行语音转换，并在输出时进行转换后语音帧的合并处理，得到转换后语音。

综上，本实施例提供的一种源说话人到目标说话人声学转换方法，在获取源说话人与目标说话人的语音数据后，通过对其分帧，并提取每一帧数据中包含的浊音的内容特征与声学特征，得到源说话人与目标说话人的特征向量组，将所有特征向量按照其对应的浊音内容与说话人类型进行分类，利用分类后的特征向量得到基于不同浊音的源说话人到目标说话人声学转换参数，接着对待转换语音也进行分帧处理，根据每一待转换语音帧中的浊音，选取对应的声学转换参数，进行多线程并行的语音转换，得到最终的转换语音，利用这种方法，可以在精简语音转换所必需的事前准备工作的情况下得到质量较好的转换语音，能够提高语音转换处理的实时性。

由于将待转换语音划分为许多语音帧，时整体数据离散化，在进行语音转换时的处理时间将造成大量待处理数据的堆积，增加系统负担，且造成数据处理的不连贯，易使得语音转换效果下降，针对这样的问题可以采取硬件与多线程并行结合的方式解决，具体实现方式可参照后续第四、第五实施例中语音转换单元的相关介绍。

第二实施例

本实施例详细介绍了第一实施例中有关说话人声学特征，也即共振峰提取的方法以及流程，利用本实施例提供的此种方法，可以在使用时较好的排除环境噪音、相邻共振峰以及虚假峰值等的干扰作用，提取出较为可靠的共振峰数据。

参见图3，图3展示出本实施例提供的基于预滤波的共振峰提取方法的流程示意图。

步骤301：对语音帧数据进行预加重，移除频谱倾斜。

由于人的发声器官的生理限制，语音信号的高频部分往往会受到抑制，从而造成语音信号的频谱倾斜，预加重的目的是将语音通过一个高频滤波器，从而消除频谱倾斜现象，同时人在发声时，嘴唇与口腔也会对发声带来影响，称为口唇辐射，其模型可等效为一个一阶零点模型，口唇辐射带来的影响同样可以通过预加重进行消除。

高通滤波器的数学模型为：

其中μ的值介于0.9到1.0之间，一般为0.96，根据具体效果可做改变。

步骤302：进行希尔伯特变换，得到解析数据，便于计算。

对于一个实值函数f(t),t∈(-∞,+∞)，其希尔伯特变换定义为f(t)与1/πt的卷积，即公式：

希尔伯特变换可以在避免复杂数学运算的前提下得到较为准确的、能够反映一个函数变化趋势的分析信号，很适合用于分析本实施例中需要处理的大量的、变换具有延时性的语音帧数据。

步骤303：使用自适应滤波器进行动态滤波。

在本实施例中，动态滤波器由四个自适应共振峰滤波器完成，其中，每个滤波器都由一个全零点滤波器和一个单极点动态追踪滤波器组成。

此步骤的作用是通过在对每一个共振峰进行计算之前先对其进行动态滤波的方法，限制了每个共振峰的频谱范围，可以有效抑制相邻共振峰之间的互相干扰以及背景噪声的干扰。

步骤304：对数据进行能量检测、性别检测。

在此步骤中，能量检测的作用在于有限区分有话段和无话段，因此能量检测也可以称为语音信号的端点检测，其意义在于进一步排除了噪声能量的干扰，使提取出的共振峰更加准确，同时滤除了非语音段，使得数据分析时减少了很多运算量，能量检测的主要指标为短时能量与短时平均过零率，由于使用某一单独指标的情况下检测结果易存在较大误差，因此本实施例中使用的能量检测方法为两级判决法，两级判决法将短时能量与短时平均过零率相结合，可以在仅增加了有限的算法复杂度的情况下得到较为准确的能量检测结果。

性别检测的意义在于针对男女声频率的差异给共振峰提供不同的滤波初值，使得提取共振峰时能够排除一些误差带来的干扰，使提取出的共振峰更加准确，性别检测的方法是提取基音频率，男性的基音频率一般在100至200Hz之间，女性的基音频率一般在200至350Hz之间，存在这较为明显的差异，所以基频可作为性别检测的唯一指标，在本实施例的具体实现方案中，性别检测的准确结果可以持续使用直到当前说话人语音帧全部处理完毕。

在本实施例的具体实现流程中，可依据具体情况增添检测步骤，可选的其他检测包括清浊音检测等。

步骤305：通过移动平均值作决策。

由于语音数据中浊音出现的时间与长度都是不确定且无固定规律的，有可能出现同一语音帧中出现多个浊音，进而提取出多组共振峰的情况，对于这类情况，可以通过采用移动平均值的方法求取能够代表该语音帧的声学特征的唯一一组共振峰数据。

需要注意的是，由于一个语音帧的特征向量需要由内容特征与声学特征两部分组成，内容特征由于其能够表征特定浊音内容的特殊性，在同一语音帧中出现多个浊音时，无法通过移动平均值的方法求取其内容特征，只能选取其中某一浊音的内容特征数据作为整体的内容特征，这样的选取方式会导致同一语音帧的内容特征与声学特征之间产生一定的割裂，最终可能导致转换语音的品质降低，所以在本实施例的具体实现中需要视情况选择是否需要步骤305。

第三实施例

本实施例将对一种源说话人到目标说话人声音转换装置进行介绍，方法相关内容请参见上述方法实施例。

参见图4，图4为本实施例提供的一种源说话人到目标说话人声音转换装置的组成示意图，该装置400包括：

数据库单元401，用于预先存储用户可选择的目标说话人特征向量组，与所有浊音的内容特征数据，以及在使用过程中进行源说话人与目标说话人特征向量的分类存储；

语音数据获取单元402，用于接收用户提供的源说话人与目标说话人实时语音数据并对其进行语音分帧预处理，或者提取用户选择的预先存储的目标说话人特征向量组；

特征提取单元403，用于对源说话人与目标说话人的语音数据进行内容特征与声学特征提取，得到源说话人与目标说话人的特征向量组；

分类存储单元404，用于将源说话人与目标说话人特征向量与数据库中预先存储的所有浊音的内容特征数据进行比较，并按照不同浊音进行分类存储；

转换参数提取单元405，用于提取同一浊音分类下的目标说话人与源说话人的特征向量，以建立基于不同浊音的声学特征映射关系；

语音转换单元406，用于对待转换语音进行分帧预处理，并按照不同帧中的浊音进行语音转换，得到转换参数后对源说话人语音进行转换。

在本实施例的实际应用中，数据库单元401预先存储所有浊音的内容特征数据，一遍对说话人的声学特征按照浊音进行分类，同时数据库单元中预先存储有一定数量的目标说话人的特征数据以便用户在接收目标说话人语音数据时选择使用，相应的，在语音数据获取单元402中设置有选择子单元与语音接收子单元，由用户决定接收实时的目标说话人语音数据还是使用数据库中已有的目标说话人的特征数据，并在用户选择使用已有的目标说话人特征数据后向用户展现可选的目标说话人，在用户选择特定的目标说话人后，语音数据获取单元传送数据至数据库单元，并由数据库单元直接将用户选择的对应数据作为目标说话人特征向量送入转换参数提取单元405，从而省略中间的数据多次传送过程，为了实现由数据库单元401直接传送数据到转换参数提取单元405，在本实施例的集体视线中设置有这两个单元间的直接传输路径。

在本申请实例的方法实施例中，对于所接收的源说话人与目标说话人语音首先要进行分帧处理再进行数据传输，因此，语音数据获取单元402的一种具体结构包括以下子单元：

数据传输子单元，用于将预处理后的实时语音数据传入特征提取单元。

考虑到本申请实例的实际使用情况，在获取目标说话人语音数据这一步中，有使用已有数据和接收实时语音两种选择，所以，所述语音数据单元还可以包括：

信号传输单元，用于在用户选择使用已有的目标说话人数据后，传输信号给数据库子单元并使其调用相应数据，在实际的使用中可以合并到数据传输子单元中。

对于所述特征提取单元403，由于需要提取内容特征与声学特征，所以可以设置这样一种具体结构：

内容特征提取子单元，用于提取源说话人与目标说话人不同语音帧中包含的浊音的内容特征数据；

声学特征提取子单元，用于提取源说话人与目标说话人不同语音帧中包含的浊音的共振峰数据。

其中，所述声学特征提取子单元包括：

预处理子单元，用于对语音数据进行预加重、希尔伯特变换、动态滤波和能量检测等预处理操作，减小可能存在的误差；

共振峰提取子单元，利用处理后的解析信号对语音帧进行共振峰提取；

筛选子单元，对于得到的共振峰数据进行筛选和处理，选取合理的数值进行保留；

根据提取内容特征数据的方法不同，特征提取可以采取不同的具体结构，在本申请实例的方法实施例中，倾向于利用第一第二共振峰数据进行相应浊音的内容特征提取，利用这种方式提取内容特征数据需要先进行声学特征，也即共振峰的提取，因此可将内容特征提取子单元设置在声学特征提取子单元后，两者工作时间按照线性排列，在本实施例的具体实现中，如果不采取基于共振峰的内容特征提取方法，其复杂度一般会有所升高，这种情况下则可考虑将内容特征提取子单元与声学特征提取子单元分开设置，使两个单元在工作时间排列上呈现并行状态。

由于本申请实例的转换参数提取方法采取逐步优化的策略，在提取语音转换参数前需要进行松弛量设置，以防止由于预期精度过高导致的计算量激增，在本实施例的一种具体实现中，松弛量可设置为目标说话人多次发出同一浊音时的声学特征随机波动情况，因此，所述特征提取单元的一种具体结构中，还包括：

声学特征波动情况提取子单元，用于提取目标说话人在不同语音帧中发出同一浊音时的共振峰随机波动情况。

所述子单元在目标说话人特征向量按照浊音分类存储完成后，利用数据库单元与特征提取单元间建立的直接传输路径进行数据传输，并可利用数据库单元的存储结构，使得一次数据传输中仅传输一个浊音对应的目标说话人特征向量，在传输完成后进行基于不同浊音的目标说话人声学特征随机波动情况的数据提取。

本申请实例中，说话人的所有特征向量都需要按照浊音和说话人类型进行分类并存储到数据库的相应区域，对应的，在特征提取单元403与数据库单元401间设置有所述分类存储单元404，用于将提取出的说话人特征向量进行分类存储，对于分类存储单元，可以设置这样一种具体结构：

需要注意的是，由于预先存储的用于比较的浊音内容数据都存储在数据库单元中，所以分类存储单元进行比较时需要调用数据库单元中的数据内容，只能选取双向传输的制作工艺，且分类时间会有所增加，所以所述分类存储单元的具体结构中，视使用情况不同，还可以包括：

存储子单元，用于存储分类比较时所需的所有浊音和每个浊音对应的内容特征数据。

在说话人的特征向量全部分类存储完成后，通过所述转换参数提取单元405进行基于不同浊音的源说话人到目标说话人声学特征转换提取，其具体结构为：

所述转换参数计算子单元，包括：

样本输入子单元，用于将数据库中提取的或者检验子单元中保留的说话人特征向量输入转换参数模型；

转换参数模型子单元，用于利用样本数据对声学转换参数进行计算或优化；

精度检验单元，用于保留当前得到的转换参数，并从数据库中提取相同浊音下的另一对源说话人与目标说话人特征向量，使用当前转换参数进行精度检验，若合格则进行下一组检验，若不合格则将检验数据与之前的样本数据一同输入样本输入子单元，进行新的转换参数提取。

所述语音转换单元406，其具体结构为：

所述待转换语音获取子单元，其结构包括：

语音数据获取子单元，用于获取待转换语音数据；

预处理子单元，用于对接收的待转换语音数据进行分帧预处理。

需要注意的时，由于其功能相一致，且工作时间没有冲突，所以在具体实现过程中可使用语音数据获取单元中的语音数据获取子单元与预处理子单元作为待转换语音获取子单元。

所述浊音判断子单元，其结构包括：

内容特征提取子单元，用于提取待转换语音帧中的浊音的内容特征；

判断子单元，用于根据浊音的内容特征判断待转换语音帧所包含的浊音。

同样的，由于内容特征提取子单元的功能与特征提取单元中的内容特征提取子单元功能相同，判断子单元与分类存储单元中的比较选择子单元的功能相同，且工作时间没有冲突，所以在本实施例的具体实现中，都应尽量使用同一个子单元。

由于语音转换单元406的工作方式是对待转换语音帧进行语音转换，导致语音数据的离散，在处理过程中，如果仅使用一个语音转换子单元，容易造成数据堆积，使系统压力增加，处理时间变长，因此，在语音转换单元的一种具体结构中，采用第一语音转换子单元和第二语音转换子单元并行工作的方式，这样的结构能够有效的解决数据积压以及不同子单元处理相同语音帧所需时间不同带来的问题，使语音转换子单元中的各部分能够在总体上处于连续、同步的工作状态，其具体的工作流程可参照附图5所示。

需要说明的是，本说明书中各个实施例均采用递进的方式描述，各实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同或相似的部分互相参照即可，对于实施例所公开的装置而言，由于其与实施例公开的方法相对应，故描述较为简单，相关之处参见方法部分说明即可。

上述对于本申请实例的说明，使本领域的一般技术人员能够实现或使用本申请，同时，对本领域的一般技术人员，依据本申请实例的核心思想，在具体实现与应用时均会有所改变；本文使用了具体实施方式用于帮助理解恩说明书中的方法与装置，其中所定义的一般原理可在其他实施例中实现，因此，本说明书内容不应理解为本申请实例的限制。

Claims

1.一种从源说话人到目标说话人的声音转换方法，其特征在于，包括：

接收源说话人的语音数据，并进行分帧预处理；

从所述源说话人语音数据中提取源说话人的语音数据的内容特征和声学特征，将其存储为基于不同浊音的源说话人特征数据向量；

将所述源说话人特征数据向量与预先存储的浊音的内容特征比较，并按照不同浊音进行分类存储；

获取目标说话人的语音数据，并进行分帧预处理；

从所述目标说话人的语音数据中提取目标说话人的语音数据的内容特征和声学特征，将其建立为基于不同浊音的目标说话人特征数据向量；

将所述目标说话人特征数据向量与预先存储的浊音的内容特征比较，并按照不同浊音进行分类存储，分类存储完成后提取目标说话人多次发出同一浊音时的声学特征波动数据；

根据分类存储，将属于同一浊音的目标说话人特征向量与源说话人特征向量中的声学特征输入至预先训练的声音转换模型，生成基于内容特征的目标说话人语音转换参数；

将所述语音转换参数输入语音合成模型，得到目标说话人语音合成数据，且合成内容与源说话人内容一致。

2.根据权利要求1所述的方法，其特征在于，对所述源说话人的语音数据进行特征提取，得到的内容特征和声学特征包括：

所述提取的源说话人语音数据的内容信息，包括：源说话人语音数据的语义信息，源说话人不同语音帧中包含的浊音的内容特征数据；

所述提取的源说话人语音数据的声学特征，包括：不同语音帧中包含的浊音所对应的共振峰分布；

将属于同一帧语音中的浊音的内容特征与声学特征作为不同元素存储为源说话人的一个特征数据向量。

3.根据权利要求1所述的方法，其特征在于，对所述目标说话人的语音数据进行特征提取，得到的内容特征和声学特征及声学特征的随机分布信息包括：

所述提取的目标说话人语音数据的内容信息，包括：目标说话人不同语音帧中包含的浊音的内容特征数据；

所述提取的目标说话人语音数据的声学特征，包括：不同语音帧中浊音所对应的共振峰分布；将属于同一帧语音中的浊音的内容特征与声学特征作为不同元素存储为目标说话人的特征数据向量。

4.根据权利要求1所述的方法，其特征在于，所述将所述源说话人特征数据向量与预先存储的浊音的内容特征比较，并按照不同浊音进行分类存储，其步骤包括：

预先建立包含所有浊音的内容特征数据的数据库；

通过DTW法，在数据库中进行比较查找，得到与当前进行比较的源说话人特征数据向量中表征浊音的内容特征数据最相近的一组数据；

将当前源说话人特征数据向量存储至查找结果对应的浊音在数据库中的源说话人数据区域。

5.根据权利要求1所述的方法，其特征在于，所述将所述目标说话人特征数据向量与预先存储的浊音的内容特征比较，并按照不同浊音进行分类存储，其步骤包括：

预先建立包含所有浊音的内容特征数据的数据库；

通过DTW法，在数据库中进行比较查找，得到与当前进行比较的目标说话人特征数据向量中表征浊音的内容特征数据最相近的一组数据；

将当前目标说话人特征数据向量存储至查找结果对应的浊音在数据库中的目标说话人数据区域。

6.根据权利要求1所述的方法，其特征在于，源说话人与目标说话人之间的语音转换参数的提取模型包括：

利用预先训练的径向基函数神经网络构建语音转换参数提取模型；

利用分类存储后的数据，在数据库中提取同属一个浊音下的源说话人与目标说话人特征数据向量，训练得到基于不同浊音的源说话人到目标说话人的声学特征映射参数；

预先设置一个松弛量，例如目标说话人的声学特征随机波动范围，检验所得声学特征映射参数的精度，并对当前映射参数进行优化。

7.一种从源说话人到目标说话人的声音转换装置，其特征在于，包括：

数据库单元，用于存储用户可选择的目标说话人特征数据，以及预先存储所有浊音的内容特征数据；

语音数据获取单元，用于接收用户提供的源说话人与目标说话人语音数据并对其进行预处理，或者提取用户所选择的存储中已有的目标说话人特征数据；

特征提取单元，用于对源说话人与目标说话人的语音数据进行浊音内容特征与声学特征提取，得到源说话人与目标说话人的特征数据向量组；

分类存储单元，用于将源说话人与目标说话人特征数据向量按照不同浊音进行分类存储；

转换参数提取单元，用于利用已经分类完成的目标说话人与源说话人的特征数据向量，建立基于不同浊音的声学特征映射参数；

语音转换单元，用于利用基于不同浊音的声学映射规则进行源说话人到目标说话人的声学特征转换。

8.根据权利要求7所述的装置，其特征在于，所述语音数据获取单元包括：

9. 根据权利要求7所述的装置，其特征在于，所述特征提取单元包括：

内容特征提取子单元，用于提取源说话人与目标说话人不同语音帧中包含的浊音的内容特征数据

声学特征提取子单元，用于提取源说话人与目标说话人不同语音帧中包含的浊音的共振峰数据；

10.根据权利要求7所述的装置，其特征在于，所述分类存储单元包括：

比较选择子单元，用于将说话人特征向量按照其所包含的浊音的内容特征，与数据库单元中存储的所有浊音的内容特征进行比较，选取最为接近的结果作为特征向量中的浊音内容；

11.根据权利要求7所述的装置，其特征在于，所述语音转换单元包括：

利用预先构建的转换模型构建语音转换网络；

预处理子单元，用于对待转换语音进行分帧的预处理以及提取当前待转换语音帧中的浊音的内容特征；

第一语音转换子单元，用于根据当前待转换语音帧中的浊音的内容特征提取相应浊音的声学特征转换参数，并对当前语音帧进行转换；

第二语音转换子单元，语音转换功能与第一语音转换子单元相同，用于与第一语音转换子单元并行工作，以提高语音转换效率。