CN109308903B

CN109308903B - 语音模仿方法、终端设备及计算机可读存储介质

Info

Publication number: CN109308903B
Application number: CN201810868960.8A
Authority: CN
Inventors: 刘博卿; 贾雪丽; 王健宗; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-08-02
Filing date: 2018-08-02
Publication date: 2023-04-25
Anticipated expiration: 2038-08-02
Also published as: CN109308903A

Abstract

本发明适用于语音处理技术领域，提供了语音模仿方法、终端设备及计算机可读存储介质，包括：将获取到的原始语音数据通过预设的生成对抗网络GAN转换成包含原始语音数据中对话内容的第一梅尔谱图，再根据预设的自回归神经网络模型，将原始语音数据转换成包含原始语音数据的语言特征的第二梅尔谱图，最后根据第一梅尔谱图、第二梅尔谱图以及预设的模仿目标的梅尔谱图，生成与模仿目标具有相同语言特征的语音数据。通过生成对抗网络和自回归神经网络模型对原始语音数据进行处理，提高了语音模拟的真实度和清晰度，保证了在语音模拟过程中的原始性。

Description

语音模仿方法、终端设备及计算机可读存储介质

技术领域

本发明属于语音处理技术领域，尤其涉及语音模仿方法、终端设备及计算机可读存储介质。

背景技术

现在一些软件通过获取常人的说话语音数据，将这些数据进行训练，将常人的语音数据模拟成特定的人的语音，便可以将采集到的声音模拟为其他人的声音。现有技术中主要通过两种方式实现这个技术，分别为讲话人适配和讲话人编码。其中，讲话人适配方法是使用数个克隆样本，通过基于反向传播的优化方法对多讲话人语音生成模型做精细调节。适配方法可以作用于整个模型，或者只作用于低维度的讲话人；讲话人编码表征每个讲话人所需的参数数量要少得多，但需要更长的模拟时间，生成的语音的质量也要稍差一些。

但是这些方法在很大程度上都会破坏语音的原始性，不能保证原始语音在感官上的清晰度。

发明内容

有鉴于此，本发明实施例提供了语音模仿方法、终端设备及计算机可读存储介质，以解决现有技术中在很大程度上都会破坏语音的原始性，不能保证原始语音在感官上的清晰度的问题。

本发明实施例的第一方面提供了一种语音模仿方法，包括：

获取原始语音数据，并将所述原始语音数据通过预设的生成对抗网络GAN转换成包含所述原始语音数据中对话内容的第一梅尔谱图；

根据预设的自回归神经网络模型，将所述原始语音数据转换成包含所述原始语音数据的语言特征的第二梅尔谱图；

根据所述第一梅尔谱图、所述第二梅尔谱图以及预设的模仿目标的梅尔谱图，生成与所述模仿目标具有相同语言特征的语音数据。

本发明实施例的第二方面提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

本发明实施例的第三方面提供了一种计算机可读存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行上述第一方面的方法。

本发明实施例与现有技术相比存在的有益效果是：

本发明实施例获取到的原始语音数据通过预设的生成对抗网络GAN转换成包含原始语音数据中对话内容的第一梅尔谱图，再根据预设的自回归神经网络模型，将原始语音数据转换成包含原始语音数据的语言特征的第二梅尔谱图，最后根据第一梅尔谱图、第二梅尔谱图以及预设的模仿目标的梅尔谱图，生成与模仿目标具有相同语言特征的语音数据。通过生成对抗网络和自回归神经网络模型对原始语音数据进行处理，提高了语音模拟的真实度和清晰度，保证了在语音模拟过程中的原始性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例一提供的语音模仿方法的流程图；

图2是本发明实施例二提供的语音模仿方法的流程图；

图3是本发明实施例三提供的终端设备的示意图；

图4是本发明实施例四提供的终端设备的示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本发明实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。

为了说明本发明所述的技术方案，下面通过具体实施例来进行说明。

参见图1，图1是本发明实施例一提供的语音模仿方法的流程图。本实施例中语音模仿方法的执行主体为终端。终端包括但不限于智能手机、平板电脑、可穿戴设备等移动终端，还可以是台式电脑等。如图所示的语音模仿方法可以包括以下步骤：

S101：获取原始语音数据，并将所述原始语音数据通过预设的生成式对抗网络GAN转换成包含所述原始语音数据中对话内容的第一梅尔谱图。

世界上每一个人的声音都是独一无二的，人们在电话中，也是通过声音确定对方的身份。当前出现的一些娱乐软件也可以用来模仿其他人的声音。用户可以将自己的语音输入至该软件中，软件通过对这些语音数据进行处理，便可以将这些数据转换成用户想要的音色，并将其播放出来，就像是具有该音色的人在说话一样。

之所以能产生如此高还原度的合成声音，背后的技术就是神经网络和机器学习。神经网络模拟电信号在人脑神经元之间的传递过程，对输入数据进行处理。它利用分层的神经元，从大量样本数据中总结出共同特征。目前，神经网络在图片识别、字幕生成等方面受到了广泛应用。神经网络能够从声音样本中抓取关键特征，如音色、音调、音节、停顿等等，而这些关键特征足够定义一个人的声音，这跟人们根据声音判断说话者是一个道理。在学习了很多不同讲话者的声音后，学习一个全新的陌生声音就会快很多，这也是我们为什么不用那么多数据的原因。更多的数据肯定也是有帮助的，不过一分钟就足够捕捉声音的DNA中的大部分信息了。

在实际使用中，本实施例中获取原始语音数据的方式可以是实时获取用户的语音数据，还可以是将用户的语音数据存储起来，将语音数据存储至预设的语音数据库中，通过从数据库中提取该数据，以对提取出来的语音数据进行处理。

在本实施例中，通过生成式对抗网络(Generative Adversarial Networks，GAN)将原始的语音数据转化成梅尔谱图的形式。具体的，GAN模型通过框架中的至少两个模块：生成模型(Generative Model，G)和判别模型(Discriminative Model,D)的互相博弈学习产生相当好的输出。原始GAN中，并不要求G和D都是神经网络，只需要是能拟合相应生成和判别的函数即可。但实用中一般均使用深度神经网络作为G和D。一个GAN应用需要有良好的训练方法，否则可能由于神经网络模型的自由性而导致输出不理想。

示例性的，判别模型：给定一张图，判断这张图里的动物是猫还是狗，在生成模型中，给一系列猫的图片，生成一张新的猫咪，不在数据集里；对于判别模型，损失函数是容易定义的，因为输出的目标相对简单。但对于生成模型，损失函数的定义就不是那么容易。我们对于生成结果的期望，往往是一个暧昧不清，难以数学公理化定义的范式。把生成模型的回馈部分，交给判别模型处理。其中，G是一个生成图片的网络，它接收一个随机的噪声z，通过这个噪声生成图片，记做G(z)。D是一个判别网络，判别一张图片是不是“真实的”。它的输入参数是x，x代表一张图片，输出D(x)代表x为真实图片的概率，如果为1，就代表100％是真实的图片，而输出为0，就代表不可能是真实的图片。在训练过程中，生成网络G的目标就是尽量生成真实的图片去欺骗判别网络D。而D的目标就是尽量把G生成的图片和真实的图片分别开来。这样，G和D构成了一个动态的“博弈过程”。在最理想的状态下，G可以生成足以“以假乱真”的图片G(z)。对于D来说，它难以判定G生成的图片究竟是不是真实的，因此D(G(z))＝0.5。这样我们的目的就达成了：我们得到了一个生成式的模型G，它可以用来生成图片。类似的，通过对语音模拟的GAN进行训练，则可以确定出这个当前的训练结果是否可以用来进行语音模拟。

在实际应用中，通过将原始语音数据通过预设的GAN转换成包含该语音数据中对话内容的梅尔谱图。具体的，梅尔谱图是由梅尔频率倒谱的系数构成的一组频域图像，梅尔频率倒谱系数派生自音频片段的倒谱表示。梅尔频率倒谱是一段声音的短时功率谱，基于频率的非线性梅尔刻度的对数能量频谱的线性预先变换。倒谱和梅尔频率倒谱的区别在于，梅尔频率倒谱的频带划分是在梅尔刻度上等距划分的，它比用于正常的对数倒频谱中的线性间隔的频带更能近似人类的听觉系统。这种频率弯曲可以更好的表示声音，例如音频压缩或者模拟。

在对原始语音进行转化时，最常用到的语音特征就是梅尔倒谱系数。根据人耳听觉机理的研究发现，人耳对不同频率的声波有不同的听觉敏感度。从200Hz到5000Hz的语音信号对语音的清晰度影响对大。两个响度不等的声音作用于人耳时，则响度较高的频率成分的存在会影响到对响度较低的频率成分的感受，使其变得不易察觉，这种现象称为掩蔽效应。由于频率较低的声音在内耳蜗基底膜上行波传递的距离大于频率较高的声音，故一般来说，低音容易掩蔽高音，而高音掩蔽低音较困难。在低频处的声音掩蔽的临界带宽较高频要小。所以，人们从低频到高频这一段频带内按临界带宽的大小由密到疏安排一组带通滤波器，对输入信号进行滤波。将每个带通滤波器输出的信号能量作为信号的基本特征，对此特征经过进一步处理后就可以作为语音的输入特征。由于这种特征不依赖于信号的性质，对输入信号不做任何的假设和限制，又利用了听觉模型的研究成果。因此，这种参数比基于声道模型的线性预测倒谱系数相比具有更好的鲁邦性，更符合人耳的听觉特性，而且当信噪比降低时仍然具有较好的识别性能。

S102：根据预设的自回归神经网络模型，将所述原始语音数据转换成包含所述原始语音数据的语言特征的第二梅尔谱图。

在自回归神经网络模型中，自回归，全称自回归模型，是统计上一种处理时间序列的方法，是用同一变量之前各期的表现情况，来预测该变量本期的表现情况，并假设它们为线性关系。因为这是从回归分析中的线性回归发展而来，只是不是用来预测其他变量，而是用来预测自己，所以叫做自回归。自回归方法的优点是所需资料不多，可用自身变数数列来进行预测。但是这种方法受到一定的限制：必须具有自相关，自相关系数是关键。如果自相关系数小于0.5，则不宜采用，否则预测结果极不准确。自回归只能适用于预测与自身前期相关的经济现象，即受自身历史因素影响较大的经济现象，如矿的开采量，各种自然资源产量等；对于受社会因素影响较大的经济现象，不宜采用自回归，而应改采可纳入其他变数的向量自回归模型。

通过自回归的预测方法大体上分为定性预测法、时间序列预测法和因果模型预测法。其中，定性预测法是在数据资料掌握不多的情况下，依靠人的经验和分析能力，用系统的、逻辑的思维方法，把有关资料加以综合、进行预测的方法。定性预测法包括特尔斐法、主观概率预测法、判断预测法等方法；时间序列预测法是依据预测对象过去的统计数据，找到其随时间变化的规律，建立时序模型，以判断未来数值的预测方法。其基本思想是:过去的变化规律会持续到未来，即未来是过去的延伸。时间序列预测法包括时间序列平滑法、趋势外推法、季节变动预测法等确定型时间序列的预测方法和马尔可夫法、随机型时间序列的预测方法；因果模型预测法是把所要预测的对象同其他有关因素联系起来进行分析，制定出揭示因果关系的模型，然后根据模型进行预测。因果模型预测法包括回归分析预测法、经济计量模型法、投入产出预测法等。由于时间序列预测法和因果模型预测法都是以统计资料为依据，应用统计方法进行预测的，所以有时两者统称为统计预测。

常用的分析和预测方法有下面几种：投资分析方法，这是市场分析家常用的方法；时间序列分析法，这种方法主要是通过建立综合指数之间的时间序列相关辩识模型，如自回归移动平均模型、齐次非平稳模型等来预测未来变化；神经网络预测法，神经网络是一种最新的时间序列分析方法。

进一步的，在本实施例中，步骤S102可以具体包括步骤S1021和步骤S1022：

S1021：根据所述原始语音数据以及所述自回归神经网路模型中的长短期记忆网络，得到原始语音的线性语音数据。

在实际应用中，长短期记忆网络(Long ShortTerm Memory，LSTM)是一种时间递归神经网络，适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。LSTM已经在科技领域有了多种应用。基于LSTM的系统可以学习翻译语言、控制机器人、图像分析、文档摘要、语音识别图像识别、手写识别、控制聊天机器人、预测疾病、点击率和股票、合成音乐等等任务。LSTM主要就在于它在算法中加入了一个判断信息有用与否的处理器，这个处理器作用的结构被称为cell。一个cell当中被放置了三扇门，分别叫做输入门、遗忘门和输出门。一个信息进入LSTM的网络当中，可以根据规则来判断是否有用。只有符合算法认证的信息才会留下，不符的信息则通过遗忘门被遗忘。这种一进二出的工作原理，可以在反复运算下解决神经网络中长期存在的大问题。目前已经证明，LSTM是解决长序依赖问题的有效技术，并且这种技术的普适性非常高，导致带来的可能性变化非常多。各研究者根据LSTM纷纷提出了自己的变量版本，这就让LSTM可以处理千变万化的垂直问题。

LSTM，是为了解决长期以来问题而专门设计出来的，所有的循环神经网络(Recurrent Neural Network，RNN)都具有一种重复神经网络模块的链式形式。在标准RNN中，这个重复的结构模块只有一个非常简单的结构，例如一个tanh层。LSTM同样是这样的结构，但是重复的模块拥有一个不同的结构。不同于单一神经网络层，这里是有四个，以一种非常特殊的方式进行交互。LSTM的关键在于细胞的状态整个和穿过细胞的那条水平线。细胞状态类似于传送带。直接在整个链上运行，只有一些少量的线性交互。信息在上面流传保持不变会很容易。若只有上面的那条水平线是没办法实现添加或者删除信息的。而是通过一种叫做“门”的结构来实现的。门可以实现选择性地让信息通过，主要是通过一个sigmoid的神经层和一个逐点相乘的操作来实现的。sigmoid层的输出是一个向量，该向量中的每个元素都是一个在0和1之间的实数，表示让对应信息通过的权重。比如，“0”表示“不让任何信息通过”，“1”表示“让所有信息通过”。

LSTM通过三个门结构结构来实现信息的保护和控制，这三个门分别输入门、遗忘门和输出门。在LSTM中的第一步是决定会从细胞状态中丢弃什么信息，这个决定通过一个称为忘记门层完成。在这个问题中，细胞状态可能包含当前主语的性别，因此正确的代词可以被选择出来。当有新的主语出现时，我们希望忘记旧的主语。再下一步的输入门中，决定让多少新的信息加入到cell状态中来。实现这个需要包括两个步骤：首先，一个叫做“输入栅极层”的sigmoid层决定哪些信息需要更新；一个tanh层生成一个向量，也就是备选的用来更新的内容，在下一步把这两部分联合起来，对cell的状态进行一个更新。最终需要确定输出什么值，这个输出将会基于细胞状态，但是也是一个过滤后的版本。首先，运行一个sigmoid层来确定细胞状态的哪个部分将输出出去。接着，把细胞状态通过tanh进行处理，得到一个在-1到1之间的值，并将它和sigmoid门的输出相乘，最终我们仅仅会输出我们确定输出的那部分。在语言模型的例子中，因为他就看到了一个代词，可能需要输出与一个动词相关的信息。例如，可能输出是否代词是单数还是负数，这样如果是动词的话，我们也知道动词需要进行的词形变化。

在本实施例中，为了解决从文本到语音问题而建立的声学模型将从文本信息中提取的语言特征转成声学特征，比如梅尔谱图。在我们的研究中，给出N个帧结构的语言特征l_1:＝{l₁，…,l_N}，一个声学模型需要产生相对应的声学特征a_1:N＝{a₁,…,a_N}。实现了如何将原始语音转换成线性语音数据。

S1022：将所述线性语音数据通过递归的方式，得到包含所述原始语音数据的语言特征的第二梅尔谱图。

在本实施例中，生成式对抗网络有两个前馈层和一个双向的LSTM。之后是一个单向的LSTM层，不同于第一个LSTM，这个LSTM不仅将前面层的输出作为输入，还将整个网络的之前的输出作为输入。比如，当其为第n帧产生a_n的时候，将a_n-1作为输入。这种反馈网络被称作自回归模型。当在训练过程中，训练集中的天然的a_n-1被反馈的时候，产生的

在生成中被反馈。通过将线性语音数据通过递归的方式，得到包含原始语音数据的语言特征的第二梅尔谱图。

进一步的，在训练和生成阶段，都随机的去掉反馈的数据。训练和合成用的语言特征是用数字滤波器函数Flite提取的，除了用语言特征，一个可以表达增强状态的数值变量也被用作了输入。

S103：根据所述第一梅尔谱图、所述第二梅尔谱图以及预设的模仿目标的梅尔谱图，生成与所述模仿目标具有相同语言特征的语音数据。

在本实施例中，模仿目标可能是用户周围的熟悉的人，也可以是明星、公众人物等，因此，在对语言数据进行模仿时，也需要提前获取到模仿目标的语音数据，在本实施例中，获取的模仿目标的语音数据为模仿目标的语音的梅尔谱图。在确定了第一梅尔谱图和第二梅尔谱图之后，根据模仿目标的梅尔谱图，生成与模仿目标具有相同语言特征的语音数据。

上述方案，将获取到的原始语音数据通过预设的生成式对抗网络GAN转换成包含原始语音数据中对话内容的第一梅尔谱图，再根据预设的自回归神经网络模型，将原始语音数据转换成包含原始语音数据的语言特征的第二梅尔谱图，最后根据第一梅尔谱图、第二梅尔谱图以及预设的模仿目标的梅尔谱图，生成与模仿目标具有相同语言特征的语音数据。通过生成式对抗网络和自回归神经网络模型对原始语音数据进行处理，提高了语音模拟的真实度和清晰度，保证了在语音模拟过程中的原始性。

参见图2，图2是本发明实施例二提供的语音模仿方法的流程图。本实施例中语音模仿方法的执行主体为终端。终端包括但不限于智能手机、平板电脑、可穿戴设备等移动终端，还可以是台式电脑等。如图所示的语音模仿方法可以包括以下步骤：

S201：采集所述模仿目标的目标语音数据，将所述目标语音数据和加过噪音的语料库数据作为基础数据。

在本实施例中，通过生成对抗结构，其中，语音增强主要是用G模型，他是一个编码-解码的结构。通过将有噪音的语音作为输，增强过的语音作为输出。D模型的作用是在训练的过程中决定是否一个增强过的语音被检测为假的还是真的，其中，假的语音用于表示增强过的语音，真的语音便是原始语音。如果增强过的语音能骗过D模型，就不会有任何梯度流过G模型。如果不能骗过D模型，梯度就反向传播给G模型，然后更新从而骗过D模型，从而使这个结构产生的增强过的语音变得越来越像没有任何加工的语音。

在本实施例中，由于语音增强生成式对抗网络在训练过程中对噪声很敏感，让收敛变得很困难。所以我们通过产生一些已经预训练的语音增强模型，用来增强语音。同时，为G模型添加跳跃连接步骤，之后便不需要从零产生增强过的语音，而是产生一个可以改善输入的有噪声的语音的残差信号。这样可以鼓励生成器去学习干净的语音波形和增强过的语音的波形之间的区别，进而将目标语音数据和加过噪音的语料库数据作为基础数据，以供之后的训练和学习。

S202：对所述基础数据按照预设的采样方式进行采样，得到语音片段。

由于基础数据的数据量较大，如果将所有的基础数据都进行处理的话，则会消耗掉大量的运算时间和运算资源。因此，通过对基础数据进行数据采样，从中获取到一些语音片段，可以降低数据处理量，并能保证数据处理的效率和准确率。

示例性的，在本实施例中，我们从公共资源中得到的模仿目标的声音和加过噪音的语料库中的语音数据来作为训练数据。我们用有214个采样点的滑动窗，重叠长度是213个采样点，产生语音的片段去训练语音增强模型。对于最后一个片段，我们用前面的采样点补齐，得到语音片段。

S203：通过训练所述语音片段得到语音增强模型；所述语音增强模型用于对所述原始语音数据进行语音增强得到语音增强数据。

在本实施例中，产生一些已经预训练的语音增强模型，用来增强语音。同时，为G模型添加跳跃连接步骤，之后便不需要从零产生增强过的语音，而是产生一个可以改善输入的有噪声的语音的残差信号。这样可以鼓励生成器去学习干净的语音波形和增强过的语音的波形之间的区别，进而将目标语音数据和加过噪音的语料库数据作为基础数据，以供之后的训练和学习，得到语音增强模型。

S204：获取原始语音数据，识别出所述原始语音数据中的对话内容。

获取原始语音数据，并从这些语音数据中识别出其中的对话内容。其中，对话内容用于表示该原始语音中说了什么样的文字信息，表达出了什么样的语音信息。

具体的对话内容识别方法可以是通过GAN的方式将原始语音数据中的对话内容识别出来，成为文字或者音频数据的形式。

S205：基于所述对话内容进行语音增强，得到语音增强数据。

语音编码和语音识别研究常常是在实验室条件下进行的，也就是在信噪比很高或无噪声的环境中进行的。因此当语音处理从实验室走向实际应用时，由于实际环境噪声与干扰的存在，会使许多方法无法使用，性能急速下降。因此研究对受噪降质语音改善其听觉效果或提髙信噪比的处理，是面临的必须解决的实际问题。语音增强是指当语音信号被各种各样的噪声干扰、甚至淹没后，从噪声背景中提取有用的语音信号，抑制、降低噪声干扰。

在本实施例中，对采样得到的对话内容进行语音增强的方式可以通过基于谱相减的语音增强算法、基于小波分析的语音增强算法、基于卡尔曼滤波的语音增强算法、基于信号子空间的增强方法、基于听觉掩蔽效应的语音增强方法、基于独立分量分析的语音增强方法或者基于神经网络的语音增强方法，此处不做限定。

S206：将所述语音增强数据通过所述GAN转换成所述第一梅尔谱图。

在对对话内容进行语音增强之后，将得到的语音增强数据通过GAN转换成梅尔谱图。进一步的，步骤S206可以具体包括：

将所述原始语音数据的所述语音增强数据x通过所述第一生成器得到第一映射结果G(x)；将所述模仿目标的语音数据y通过所述第二生成器得到第二映射结果F(y)；根据所述第一映射结果和所述第二映射结果，通过如下公式计算一致性损失：

Γ(G,F)＝E_x·[||F(G(x))-x||]+E_y·[||G(F(y))-y||]；

其中，E_x用于表示所述原始语音数据的期望值；E_y用于表示所述模仿目标的语音数据y的期望值。

通过将原始语音数据和目标语音数据分别通过第一生成器和第二生成器，得到第一映射结果和第二映射结果，再通过这两个结果确定一致性损失，将所述一致性损失小于预设的损失阈值时的原始语音数据的第一映射结果识别为第一梅尔谱图。

需要说明的是，在语音模仿领域中，这项技术的漏洞也是显而易见，不在于技术本身，而在于使用它的人。如果这项技术被图谋不轨的人利用，社会上的误导、迷惑、欺骗行为可能会更加猖獗。小到钱财，大到人身安全、社会集体利益可能都会受到威胁，无意间的犯罪或者被侵犯都是非常可怕的事情。在未来声音篡改模仿都是可能的，尽管现在法庭上还将录音作为一项重要的证据，但谁都可能伪造这种证据。而通过将这项技术发布给全世界，更希望确保技术的安全性，人人都能接触并应用到这项技术好的一面，并能在提高技术保护和信息保护的关注度。

上述方案，通过采集模仿目标的目标语音数据，将目标语音数据和加过噪音的语料库数据作为基础数据，对基础数据按照预设的采样方式进行采样，得到语音片段；通过训练语音片段得到语音增强模型，以对原始语音数据进行语音增强得到语音增强数据。在获取原始语音数据之后，识别出原始语音数据中的对话内容，并基于对话内容进行语音增强，得到语音增强数据，最后将语音增强数据通过GAN转换成第一梅尔谱图。通过将原始语音数据进行语音增强和采样，保证了语音数据的全面性和完整性，最后将增强之后的语音数据转换成梅尔谱图的形式，保留了原始语音数据的的真实度和清晰度，保证了在语音模拟过程中的原始性。

参见图3，图3是本发明实施例三提供的一种终端设备的示意图。终端设备包括的各单元用于执行图1～图2对应的实施例中的各步骤。具体请参阅图1～图2各自对应的实施例中的相关描述。为了便于说明，仅示出了与本实施例相关的部分。本实施例的终端设备300包括：

第一谱图单元301，用于获取原始语音数据，并将所述原始语音数据通过预设的生成式对抗网络GAN转换成包含所述原始语音数据中对话内容的第一梅尔谱图；

第二谱图单元302，用于根据预设的自回归神经网络模型，将所述原始语音数据转换成包含所述原始语音数据的语言特征的第二梅尔谱图；

语音生成单元303，用于根据所述第一梅尔谱图、所述第二梅尔谱图以及预设的模仿目标的梅尔谱图，生成与所述模仿目标具有相同语言特征的语音数据。

进一步的，所述第一谱图单元301可以包括：

数据获取单元，用于获取原始语音数据，识别出所述原始语音数据中的对话内容；

语音增强单元，用于基于所述对话内容进行语音增强，得到语音增强数据；

数据转换单元，用于将所述语音增强数据通过所述GAN转换成所述第一梅尔谱图。

进一步的，所述GAN中包括第一生成器和第二生成器；所述数据转换单元可以包括：

第一映射单元，用于将所述原始语音数据的所述语音增强数据x通过所述第一生成器得到第一映射结果G(x)；

第二映射单元，用于将所述模仿目标的语音数据y通过所述第二生成器得到第二映射结果F(y)；

损失计算单元，用于根据所述第一映射结果和所述第二映射结果，通过如下公式计算一致性损失：

Γ(G,F)＝E_x·[||F(G(x))-x||]+E_y·[||G(F(y))-y||]；

其中，E_x用于表示所述原始语音数据的期望值；E_y用于表示所述模仿目标的语音数据y的期望值；

谱图确定单元，用于将所述一致性损失小于预设的损失阈值时的所述原始语音数据的第一映射结果G(x)识别为所述第一梅尔谱图。

进一步的，所述第二谱图单元302可以包括：

线性数据单元，用于根据所述原始语音数据以及所述自回归神经网路模型中的长短期记忆网络，得到原始语音的线性语音数据；

数据地柜单元，用于将所述线性语音数据通过递归的方式，得到包含所述原始语音数据的语言特征的第二梅尔谱图。

进一步的，所述终端设备还可以包括：

加噪单元，用于采集所述模仿目标的目标语音数据，将所述目标语音数据和加过噪音的语料库数据作为基础数据；

采样单元，用于对所述基础数据按照预设的采样方式进行采样，得到语音片段；

训练单元，用于通过训练所述语音片段得到语音增强模型；所述语音增强模型用于对所述原始语音数据进行语音增强得到语音增强数据。

图4是本发明实施例四提供的终端设备的示意图。如图4所示，该实施例的终端设备4包括：处理器40、存储器41以及存储在所述存储器41中并可在所述处理器40上运行的计算机程序42。所述处理器40执行所述计算机程序42时实现上述各个语音模仿方法实施例中的步骤，例如图1所示的步骤101至103。或者，所述处理器40执行所述计算机程序42时实现上述各装置实施例中各模块/单元的功能，例如图3所示单元301至303的功能。

示例性的，所述计算机程序42可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器41中，并由所述处理器40执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序42在所述终端设备4中的执行过程。

所述终端设备4可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括，但不仅限于，处理器40、存储器41。本领域技术人员可以理解，图4仅仅是终端设备4的示例，并不构成对终端设备4的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器40可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器41可以是所述终端设备4的内部存储单元，例如终端设备4的硬盘或内存。所述存储器41也可以是所述终端设备4的外部存储设备，例如所述终端设备4上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card，FC)等。进一步地，所述存储器41还可以既包括所述终端设备4的内部存储单元也包括外部存储设备。所述存储器41用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器41还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种语音模仿方法，其特征在于，包括：

根据所述第一梅尔谱图、所述第二梅尔谱图以及预设的模仿目标的梅尔谱图，生成与所述模仿目标具有相同语言特征的语音数据；

所述获取原始语音数据，并将所述原始语音数据通过预设的生成对抗网络GAN转换成包含所述原始语音数据中对话内容的第一梅尔谱图，包括：

获取原始语音数据，识别出所述原始语音数据中的对话内容；

基于所述对话内容进行语音增强，得到语音增强数据；

将所述语音增强数据通过所述GAN转换成所述第一梅尔谱图；

所述GAN中包括第一生成器和第二生成器；所述将所述语音增强数据通过所述GAN转换成所述第一梅尔谱图，包括：

将所述原始语音数据的所述语音增强数据x通过所述第一生成器得到第一映射结果G(x)；

将所述模仿目标的语音数据y通过所述第二生成器得到第二映射结果F(y)；

根据所述第一映射结果和所述第二映射结果，通过如下公式计算一致性损失：

Γ(G,F)＝E_x·[||F(G(x))-x||]+E_y·[||G(F(y))-y||]；

将所述一致性损失小于预设的损失阈值时的所述原始语音数据的第一映射结果G(x)识别为所述第一梅尔谱图。

2.如权利要求1所述的语音模仿方法，其特征在于，所述根据预设的自回归神经网络模型，将所述原始语音数据转换成包含所述原始语音数据的语言特征的第二梅尔谱图，包括：

根据所述原始语音数据以及所述自回归神经网路模型中的长短期记忆网络，得到原始语音的线性语音数据；

将所述线性语音数据通过递归的方式，得到包含所述原始语音数据的语言特征的第二梅尔谱图。

3.如权利要求1或2所述的语音模仿方法，其特征在于，所述根据所述第一梅尔谱图、所述第二梅尔谱图以及预设的模仿目标的梅尔谱图，生成与所述模仿目标具有相同语言特征的语音数据之前，还可以包括：

采集所述模仿目标的目标语音数据，将所述目标语音数据和加过噪音的语料库数据作为基础数据；

对所述基础数据按照预设的采样方式进行采样，得到语音片段；

通过训练所述语音片段得到语音增强模型；所述语音增强模型用于对所述原始语音数据进行语音增强得到语音增强数据。

4.一种终端设备，其特征在于，包括存储器以及处理器，所述存储器中存储有可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时，实现如下步骤：

基于所述对话内容进行语音增强，得到语音增强数据；

将所述语音增强数据通过所述GAN转换成所述第一梅尔谱图；

Γ(G,F)＝E_x·[||F(G(x))-x||]+E_y·[||G(F(y))-y||]；

5.如权利要求4所述的终端设备，其特征在于，所述根据预设的自回归神经网络模型，将所述原始语音数据转换成包含所述原始语音数据的语言特征的第二梅尔谱图，包括：

6.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至3任一项所述方法的步骤。