CN111243572A

CN111243572A - 基于说话人博弈的多人语音转换方法与系统

Info

Publication number: CN111243572A
Application number: CN202010035558.9A
Authority: CN
Inventors: 汤步洲; 林浩鹏; 张依奔; 付沪豪; 陈清财; 王晓龙
Original assignee: Harbin Institute Of Technology shenzhen Shenzhen Institute Of Science And Technology Innovation Harbin Institute Of Technology
Current assignee: Harbin Institute Of Technology shenzhen Shenzhen Institute Of Science And Technology Innovation Harbin Institute Of Technology
Priority date: 2020-01-14
Filing date: 2020-01-14
Publication date: 2020-06-05
Anticipated expiration: 2040-01-14
Also published as: CN111243572B

Abstract

本发明提供了一种基于说话人博弈的多人语音转换方法，包括以下步骤：训练时，首先使用常用的音频处理工具（如Librosa等）对所有说话人的语音数据进行声学特征的抽取，然后采用以下步骤进行模型训练：（1）鉴别器主要分为编码层和判别层，使用多层CNN堆叠的鉴别器的编码层逐步下采样得到当前声学特征输入的语义信息表示，并作为鉴别器的判别层的输入。本发明还提供了一种基于说话人博弈的多人语音转换系统。本发明的有益效果是：可直接建模转换关系，在充分考虑了说话人数量较多情况下捕捉说话人音色信息的难点，以多说话人博弈建模语音转换关系，可提供更加稳定、性能更好的转换效果。

Description

基于说话人博弈的多人语音转换方法与系统

技术领域

本发明涉及语音转换方法，尤其涉及一种基于说话人博弈的多人语音转换方法与系统。

背景技术

随着计算机技术的发展以及语音处理技术的突破，语音在生活中发挥了重要的作用，如车载系统中的语音助手，安防系统中的声纹识别等，为人们的生活提供了极大的便利。而个性化语音生成是如今语音应用的热点。语音转换是个性化语音生成的一种重要技术。其中，语音转换是语音生成的一个重要子方向，其任务是在保证内容不变、仅改变音色的情况下，将一个人的语音转换成其他人的语音。对比语音合成技术，语音转换更容易通过保留源语音中的个性化内容，如韵律、情感，提供表现力更为丰富的语音。目前，在语音转换领域已经有着不少的研究，受到学术界和工业界的广泛关注。

传统的语音转换的主流方法依赖于内容平行语料，需要针对非等长语音进行动态时间规整。常见的转换方法有基于混合高斯模型的语音转换和基于长短时记忆网络的语音转换方法。但基于平行语料的传统语音转换方法对语料的要求影响了语音转换的推广，其语音动态规整的过程中易引入噪音，在该基础上建模多人语音转换有较大的模型代价，转换效果较差。

发明内容

为了解决现有技术中的问题，本发明提供了一种基于说话人博弈的多人语音转换方法与系统。

本发明提供了一种基于说话人博弈的多人语音转换方法，包括以下步骤：

训练时，首先使用常用的音频处理工具(如Librosa等)对所有说话人的语音数据进行声学特征的抽取，然后采用以下步骤进行模型训练：

(1)鉴别器主要分为编码层和判别层，使用多层CNN堆叠的鉴别器的编码层逐步下采样得到当前声学特征输入的语义信息表示，并作为鉴别器的判别层的输入；

(2)鉴别器的判别层计算当前输入语义信息的分类置信度(如当前输入声学特征是否属于转换得到的声学特征、当前输入声学特征的所属说话人类别)；

(3)输入一个说话人的语音声学特征，固定生成器权重，通过上述步骤(1)、(2)各层的处理，得到鉴别器对该声学特征的分类置信度，以该分类置信度作为输出，结合说话人的语音声学特征的真实分类标签，利用说话人博弈框架进行训练，更新鉴别器权重；

(4)生成器主要分为编码层、残差层、解码层，使用多层CNN堆叠的生成器的编码层得到当前声学特征输入的语义信息表示，并作为生成器的残差层的输入；

(5)生成器的残差层对当前输入的语义信息表示进行再变换；

(6)生成器的解码层将输入进行多次上采样与将上采样所得表示与目标说话人类别信息使用基于门控机制的CNN层进行结合的运算，将原始输入表示变换到目标说话人的声学特征；

(7)输入一个说话人的语音声学特征以及随机采样得到的目标说话人类别，通过上述步骤(4)(5)(6)各层的处理得到一个目标说话人的声学特征表示，固定鉴别器权重，将所得转换声学特征输入鉴别器，通过上述步骤(1)、(2)各层的处理，得到鉴别器对该特征的分类置信度，

以该分类置信度作为输出，结合说话人的语音声学特征的真实分类标签，利用说话人博弈框架与循环一致性损失进行训练，更新生成器权重；

(8)以设定比例依次重复步骤(3)和步骤(7)的训练操作，直至模型收敛；

测试时，通过相同的声学特征预处理方式对输入说话人语音进行声学特征提取，将所得声学特征和目标说话人类别依照步骤(4)、(5)、(6)

各层得到目标说话人转换声学特征，最后使用声码器(如Griffin-Lim算法、WaveGlow算法)进行声学特征到语音音频的恢复。

作为本发明的进一步改进，在步骤(8)中，以5:1的比例依次重复步骤(3)和步骤(7)的训练操作，直至模型收敛。

作为本发明的进一步改进，步骤(1)中，考虑到声学特征中每个位置的相邻关联性，使用时序跳步为2的卷积神经网络对当前声学特征输入逐步下采样抽取语义信息表示：

(101)对输入的二维声学特征依次使用数量为[x,2x,4x,8x]和跳步数为t的卷积核组对表示进行卷积操作，t取大于等于2，在卷积的过程中，对于声学特征的每一个位置计算一个局部的深度表示；

(102)对每一个卷积核得到的特征向量通过LeakyReLU激活函数进行处理。

作为本发明的进一步改进，在步骤(2)中，考虑到语音转换中建模多说话人分布建模难点，使用基于多说话人博弈的训练框架设计鉴别器的判别层计算当前输入语义信息的分类置信度，主要包含如下两种方案：

第一种方案：

(201)对输入的局部深度表示以大小与局部深度表示维度大小一致、数量为1的卷积核计算当前特征图属于真实声学特征的置信度；

(202)记当前转换说话人数为N，对输入的局部深度表示以大小与特征图大小一致、数量为N+1的卷积核计算当前特征图属于不同说话人源的置信度，转换的声学特征目标类别为N+1，而真实源声学特征则以其源说话人类别为目标类别；

(203)固定生成器权重，目标类别包括所属声学特征是否为真实和所属说话人源类别，分类器分类置信度包括所属声学特征是否为真实的置信度和所属说话人源类别的置信度，利用目标类别和分类器分类置信度使用交叉熵进行训练；

第二种方案除以下步骤外所有可学习的权重均使用谱归一化进行约束：

(2001)记当前转换说话人数为N，对输入的局部深度表示以大小与特征图大小一致、数量为N+1的卷积核计算当前特征图属于不同说话人源的置信度，转换的声学特征目标类别为N+1，而真实源声学特征则以其源说话人类别为目标类别。

(2002)固定生成器权重，目标类别包括所属声学特征是否为真实和所属说话人源类别，分类器分类置信度包括所属声学特征是否为真实的置信度和所属说话人源类别的置信度，利用目标类别和分类器分类置信度使用交叉熵进行训练；

采用第一种方案或者第二种方案计算当前输入语义信息的分类置信度。

作为本发明的进一步改进，在步骤(4)中，考虑到语音转换中对转换前后声学特征位置一致性，转换前后每个位置的发音内容一致，生成器的编码层使用时序跳步为1的卷积神经网络对当前声学特征输入的语义信息表示：

(401)对输入的二维声学特征使用一个大小为k、数量为x的卷积核对声学特征进行卷积操作，k取大于3的奇数，在卷积的过程中，对于声学特征的每一个位置计算一个局部的深度表示；

(402)固定二维卷积核的大小为[w,h]，w与后续t的设定相关，要求卷积前后大小可恢复，不产生丢失，依次使用数量为[x,2x,4x]和跳步数为([t,1],[t,1],[t,1])的卷积核组对表示进行卷积操作，其中，t取大于等于2的整数，在卷积操作中为避免位置信息的丢失，在时间维度上固定跳步数为1，在表示维度上进行系数为t的下采样；

(403)对每一个卷积核得到的特征向量通过实例归一化和LeakyReLU激活函数进行处理。

作为本发明的进一步改进，在步骤(5)中，考虑到增加模型深度并避免梯度消失，生成器的残差层使用带残差连接的卷积神经网络对当前的语义信息表示进行再变换：

(501)对输入使用n组卷积核大小为w，数量为k的卷积核组进行表示的变换，单次卷积组包含y次卷积操作，前y-1次的卷积核得到的特征向量通过实例归一化和LeakyReLU激活函数进行处理，第y次的卷积核得到的特征向量通过实例归一化进行处理；

(502)将经过卷积操作、归一化和激活函数的表示与原输入语义信息表示以残差连接进行叠加。

作为本发明的进一步改进，在步骤(6)中，考虑到生成对抗网络中上采样易出现棋盘阴影效应以及语义信息与说话人信息的选择性融合的特点，使用双线性插值算子和基于门控机制的CNN层所结合的运算，将原始输入表示变换到目标说话人的声学特征：

(601)对输入的二维声学语义表示使用一个双线性插值操作对前面下采样过的表示维度进行系数为t的上采样；

(602)使用Embedding层对条件输入进行映射得到条件表示；

(603)固定二维卷积核的大小为w，跳步数为1的卷积核组对语义表示得到语义门控信息gated_content；

(604)使用全连接层对条件表示进行变换得到条件门控信息gated_condition；

(605)固定二维卷积核的大小为w，依次使用跳步数为1的卷积核组得到语义输出信息output_content；

(606)使用全连接层对条件表示进行变换得到条件输出信息output_condition；

(607)使用门控机制将信息进行融合，分别使用sigmoid激活函数和tanh激活函数进行处理，通过如下计算方式σ(gated_content+gated_content)*tanh(output_content+output_condition)得到；

(608)分别使用输出维度为4x、2x、x、1进行步骤(601)-(607)计算操作，最后得到目标说话人的声学特征

本发明还提供了一种基于说话人博弈的多人语音转换系统，包括可读存储介质，所述可读存储介质中存储有执行指令，所述执行指令被处理器执行时用于实现如上述中任一项所述的方法。

本发明的有益效果是：可直接建模转换关系，在充分考虑了说话人数量较多情况下捕捉说话人音色信息的难点，以多说话人博弈建模语音转换关系，可提供更加稳定、性能更好的转换效果。

附图说明

图1为本发明一种基于说话人博弈的多人语音转换方法的框架图。

图2为本发明鉴别器基于CNN获取声学特征局部语义信息的流程图。

图3为本发明基于不同博弈架构融合判别全局语义信息的流程图。

图4为本发明生成器编码层基于时序跳步为1的CNN获取声学特征的局部语义信息的流程图。

图5为本发明生成器基于带残差连接的CNN再变换局部语义信息的流程图。

图6为本发明生成器基于带门控机制的CNN和双线性插值算子融合局部语义信息和条件信息重构得到目标说话人声学特征的流程图。

具体实施方式

下面结合附图说明及具体实施方式对本发明作进一步说明。

如图1所示本发明的具体实施方式是：基于说话人博弈的多人语音转换方法，其网络架构主要由鉴别器和生成器组成，鉴别器包括如下2层：

编码层：主要完成将输入的声学特征使用卷积方法获取特征的局部语义信息。

鉴别层：主要基于卷积神经网络将输入的局部语义信息按照所选择的说话人博弈的网络架构输出对应的判别信息。

生成器包括如下3层：

残差层：主要使用带残差的卷积神经网络将输入的局部语义信息进行进一步的信息变换。

解码层：主要使用带门控机制的卷积神经网络将输入的语义信息和目标类别所映射的条件表示进行融合并转换得到目标说话人的声学特征。

如图2所示具体为鉴别器编码层采用卷积方法获取声学特征的局部语义信息的流程图，包括以下几个步骤：

(1)对输入的二维声学特征依次使用数量为[x,2x,4x,8x](x常取64)和跳步数为t(通常取大于等于2)的卷积核组对表示进行卷积操作，在卷积的过程中，对于声学特征的每一个位置计算一个局部的深度表示；

(2)对每一个卷积核得到的特征向量通过LeakyReLU激活函数进行处理；

(3)重复上述(1)、(2)三次；

如图3所示，具体为鉴别器鉴别层采用卷积方法将局部语义信息的进行全局整合，依照选择的不同的说话人博弈架构计算分类，包括以下步骤：

第一种方案如图3a)所示，包含如下步骤：

(1)对输入的局部深度表示以大小与特征图大小一致、数量为1的卷积核计算当前特征图属于真实声学特征的置信度。

(2)记当前转换说话人数为N。对输入的局部深度表示以大小与特征图大小一致、数量为N+1的卷积核计算当前特征图属于不同说话人源的置信度，转换的声学特征目标类别为N+1，而真实源声学特征则以其源说话人类别为目标类别。

(3)固定生成器权重，利用目标类别(包括所属声学特征是否为真实和所属说话人源类别)和分类器分类置信度(包括所属声学特征是否为真实的置信度和所属说话人源类别的置信度)使用交叉熵进行训练。

第二种方案如图3b)所示，包含如下步骤：

(1)记当前转换说话人数为N。对输入的局部深度表示以大小与特征图大小一致、数量为N+1的卷积核计算当前特征图属于不同说话人源的置信度，转换的声学特征目标类别为N+1，而真实源声学特征则以其源说话人类别为目标类别。

(2)固定生成器权重，利用目标类别(包括所属声学特征是否为真实和所属说话人源类别)和分类器分类置信度(包括所属声学特征是否为真实的置信度和所属说话人源类别的置信度)使用交叉熵进行训练。

如图4所示，具体为生成器编码层采用卷积方法获取声学特征的局部语义信息的流程图，包括以下几个步骤：

(1)对输入的二维声学特征使用一个大小为k(k常取大于3的奇数，如7)、数量为x(x常取32)的卷积核对声学特征进行卷积操作，在卷积的过程中，对于声学特征的每一个位置计算一个局部的深度表示,固定二维卷积核的大小为[w,h](w、h常取4和3，w与后续t的设定相关，要求卷积前后大小可恢复，不产生丢失)，依次使用数量为[x,2x,4x](x常取64)和跳步数为([t,1],[t,1],[t,1](其中t常取大于等于2的整数))的卷积核组对表示进行卷积操作，在卷积操作中为避免位置信息的丢失，在时间维度上固定跳步数为1，在表示维度上进行下采样；

(2)对每一个卷积核得到的特征向量通过实例归一化和LeakyReLU激活函数进行处理；

(3)重复上述(1)、(2)三次得到最后的局部语义表示。

如图5所示，具体为生成器残差层采用带残差连接的卷积方法进一步变化局部语义信息的流程图，包括以下几个步骤：

(1)对输入使用n组卷积核大小为w(n可取4，w可取3)，数量为k的卷积核组进行表示的变换(k可取256)，单次卷积组包含y次卷积操作(y可取2)，前y-1次的卷积核得到的特征向量通过实例归一化和LeakyReLU激活函数进行处理，第y次的卷积核得到的特征向量通过实例归一化进行处理；

(2)将经过卷积操作、归一化和激活函数的表示与原输入语义信息表示以残差连接进行叠加；

(3)重复上述(1)、(2)三次得到最后的再变换局部语义表示。

如图6所示，具体为生成器解码层将上一步骤输入的局部语义信息和目标类别映射得到的条件表示采样带门控机制的CNN和双线性插值算子转换得到目标说话人声学特征的流程图，包括以下几个步骤：

(1)对输入的二维声学语义表示使用一个双线性插值操作对前面下采样过的表示维度进行系数为t(通常取大于等于2)的上采样；

(2)使用Embedding层对条件输入进行映射得到条件表示；

(3)固定二维卷积核的大小为w(w可取3)，跳步数为1的卷积核组对语义表示得到语义门控信息(gated_content)；

(4)使用全连接层对条件表示进行变换得到条件门控信息(gated_condition)；

(5)固定二维卷积核的大小为w(w可取3)，依次使用跳步数为1的卷积核组得到语义输出信息(output_content)；

(6)使用全连接层对条件表示进行变换得到条件输出信息(output_condition)；

(7)使用门控机制将信息进行融合，分别使用sigmoid激活函数和tanh激活函数进行处理，通过如下计算方式σ(gated_content+gated_content)*tanh(output_contet+output_condition)得到；

(8)分别使用输出维度为4x、2x、x、1(x可取32)进行(1)-(7)计算操作，最后得到目标说话人的声学特征。

本发明在深入地研究了现有的多人语音转换方法的基础上，设计了一种基于说话人博弈的多人语音转换方法。随着计算机技术以及语音处理技术的发展，语音在生活中发挥了重要的作用，如车载系统中的语音助手，安防系统中的声纹识别等，为人们的生活提供了极大的便利。而个性化语音生成是如今语音应用的热点。语音转换是个性化语音生成的一种重要技术，其任务是在保证内容不变、仅改变音色的情况下，将一个人的语音转换成其他人的语音。在多处任务和多处场景中，语音转换为个性化定制语音提供技术支持，发挥着重要作用，例如在医疗领域，能够辅助声带受损的患者正常发声；在语音合成领域中，可以结合已有的单一说话人语音合成引擎，将合成语音转换成具有较少语料的目标说话人等，受到了学术界和工业界的广泛关注。本发明包括两部分内容：1)基于说话人博弈的转换模型架构；2)基于星型生成对抗网络的语音转换方法。基于说话人博弈的转换模型架构包括以下两种：基于说话人博弈的辅助分类器生成对抗网络转换架构(如图1所示)；基于类最大化激活与谱归一化的生成对抗网络转换架构(如图2所示)。以上两者的网络架构中，生成器均依照指定目标说话人类别将源语音对应的声学特征(一般为梅尔声谱图)转换为目标说话人声学特征。前者以双重博弈作为训练方法。第一重博弈以输入声学特征真假性作为博弈目标，鉴别器以正确分类声学特征的真假性作为训练目标，而生成器以极大化混淆鉴别器将生成的声学特征转换结果分类成真实样本为目标。第二重博弈以输入声学特征所属说话人的细粒度信息作为博弈目标，鉴别器以正确分类声学特征的所属说话人类别为训练目标，其中转换所得声学特征设定属于第N+1类(假设总类别记为N)。而生成器以极大化混淆鉴别器将转换的声学特征转换结果分类成所采样的转换类别为目标。后者直接以细粒度博弈作为训练目标。细粒度博弈以输入声学特征所属说话人的细粒度信息作为博弈目标，鉴别器以正确分类声学特征的所属说话人类别为训练目标，其中转换所得声学特征属于第N+1类(假设总类别记为N)。而生成器以极大化混淆鉴别器将转换的声学特征转换结果分类成所采样的转换类别为目标，在该框架下所有模型权重均以谱归一化进行约束。基于星型生成对抗网络的语音转换方法整体上采用深度神经生成对抗网络框架，由生成器与鉴别器组成。鉴别器主要分为2个模块(如图3所示)：编码层和鉴别层，编码层层将原始声学特征梅尔声谱图进行深度局部语义表示，主要使用多层CNN(卷积神经网络，Convolutional NeuralNetwork)堆叠组成。而鉴别层则使用CNN对局部语义表示进行全局整合，并根据当前所选的不同的博弈的转换模型架构输出鉴别类别。生成器主要分为3个模块(如图4所示)：编码层、残差层和解码层。其中，编码层层将原始声学特征梅尔声谱图进行深度语义表示，模型通过为不同说话人声学特征共享编码层可有效帮助声学特征所得语义表示中源说话人音色信息的解耦，主要使用多层CNN(卷积神经网络，Convolutional Neural Network)堆叠组成。残差层对上述所得语义表述进行再变换，可在加深网络、增强网络容量的同时避免梯度消失，使用多层带残差连接的CNN网络进行构建。最后解码层使用带上采样(Upsample)操作和基于带门控机制(Gated)的CNN层将所得语义表示与目标说话人类别经过向量映射层(Embedding)所映射得到的信息结合得到最后的转换声学特征。与传统语音转换对比，该转换方法继承了深度学习中无监督学习方法不需要依赖于平行语料的优势。与基于无监督学习算法的转换模型相比，该方法可直接建模转换关系，在充分考虑了说话人数量较多情况下捕捉说话人音色信息的难点，以多说话人博弈建模语音转换关系，可提供更加稳定、性能更好的转换效果。

本发明提供的一种基于说话人博弈的多人语音转换方法与系统，主要为个性化定制语音提供技术支持，如在电影配音产业，利用语音转换技术可以为影片提供跨语言配音并同时保持演员的音色不变，也可为语音领域相关处理任务提供数据增强，如鲁棒性语音识别、少语料语音合成。

本发明提供的一种基于说话人博弈的多人语音转换方法与系统，与常见的基于非平行语料的多人语音转换方法相比，要求同一个模型可建模足够多数量的说话人分布。简单的基于生成对抗网络的语音转换方法往往不能完成这样的转换任务。因此，在处理目标说话人数量较多的语音转换任务，需要综合任务特点从提高模型建模多说话人分布的能力出发，设计合理的处理方法。

本发明提供的一种基于说话人博弈的多人语音转换方法与系统，针对基于多说话人语音转换任务，从建模目标的特殊性出发，设计了一种基于说话人博弈的多人语音转换方法。该方法具有以下特点：1)考虑提升模型建模多说话人分布的能力，设计了两种基于多说话人博弈的转换模型架构；2)充分考虑声学特征的一维为时间表示维度以及转换前后时序位置说话内容不变的特点，设计了一种同时考虑了声学特征局部上下文信息以及时间信息不变性的基于生成对抗网络的深度神经网络。

本发明提供的一种基于说话人博弈的多人语音转换方法与系统，可以解决基于非平行语料的多人语音转换任务，鉴别器编码层基于CNN获取声学特征局部语义信息；鉴别器判别层基于不同博弈架构进行全局语义信息融合判别；生成器编码层基于时序跳步为1的CNN获取声学特征的局部语义信息；生成器残差层使用带残差连接的CNN对局部语义信息的再变换；生成器解码层使用基于带门控机制的CNN和双线性插值算子融合局部语义信息和条件信息重构得到目标说话人声学特征。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于说话人博弈的多人语音转换方法，其特征在于，包括以下步骤：

训练时，首先对所有说话人的语音数据进行声学特征的抽取，然后采用以下步骤进行模型训练：

(2)鉴别器的判别层计算当前输入语义信息的分类置信度；

(5)生成器的残差层对当前输入的语义信息表示进行再变换；

(7)输入一个说话人的语音声学特征以及随机采样得到的目标说话人类别，通过上述步骤(4)(5)(6)各层的处理得到一个目标说话人的声学特征表示，固定鉴别器权重，将所得转换声学特征输入鉴别器，通过上述步骤(1)、(2)各层的处理，得到鉴别器对该特征的分类置信度，以该分类置信度作为输出，结合说话人的语音声学特征的真实分类标签，利用说话人博弈框架与循环一致性损失进行训练，更新生成器权重；

测试时，通过相同的声学特征预处理方式对输入说话人语音进行声学特征提取，将所得声学特征和目标说话人类别依照步骤(4)、(5)、(6)各层得到目标说话人转换声学特征，最后进行声学特征到语音音频的恢复。

2.根据权利要求1所述的基于说话人博弈的多人语音转换方法，其特征在于：在步骤(8)中，以5:1的比例依次重复步骤(3)和步骤(7)的训练操作，直至模型收敛。

3.根据权利要求1所述的基于说话人博弈的多人语音转换方法，其特征在于：在步骤(1)中，考虑到声学特征中每个位置的相邻关联性，使用时序跳步为2的卷积神经网络对当前声学特征输入逐步下采样抽取语义信息表示：

4.根据权利要求1所述的基于说话人博弈的多人语音转换方法，其特征在于：在步骤(2)中，考虑到语音转换中建模多说话人分布建模难点，使用基于多说话人博弈的训练框架设计鉴别器的判别层计算当前输入语义信息的分类置信度，主要包含如下两种方案：

第一种方案：

(2001)记当前转换说话人数为N，对输入的局部深度表示以大小与特征图大小一致、数量为N+1的卷积核计算当前特征图属于不同说话人源的置信度，转换的声学特征目标类别为N+1，而真实源声学特征则以其源说话人类别为目标类别；

5.根据权利要求1所述的基于说话人博弈的多人语音转换方法，其特征在于：在步骤(4)中，考虑到语音转换中对转换前后声学特征位置一致性，转换前后每个位置的发音内容一致，生成器的编码层使用时序跳步为1的卷积神经网络对当前声学特征输入的语义信息表示：

6.根据权利要求1所述的基于说话人博弈的多人语音转换方法，其特征在于：在步骤(5)中，考虑到增加模型深度并避免梯度消失，生成器的残差层使用带残差连接的卷积神经网络对当前的语义信息表示进行再变换：

7.根据权利要求1所述的基于说话人博弈的多人语音转换方法，其特征在于：在步骤(6)中，考虑到生成对抗网络中上采样易出现棋盘阴影效应以及语义信息与说话人信息的选择性融合的特点，使用双线性插值算子和基于门控机制的CNN层所结合的运算，将原始输入表示变换到目标说话人的声学特征：

(602)使用Embedding层对条件输入进行映射得到条件表示；

(608)分别使用输出维度为4x、2x、x、1进行步骤(601)-(607)计算操作，最后得到目标说话人的声学特征。

8.一种基于说话人博弈的多人语音转换系统，其特征在于：包括可读存储介质，所述可读存储介质中存储有执行指令，所述执行指令被处理器执行时用于实现如权利要求1至7中任一项所述的方法。