CN110379441A

CN110379441A - 一种基于对抗型人工智能网络的语音服务方法与系统

Info

Publication number: CN110379441A
Application number: CN201910586563.6A
Authority: CN
Inventors: 龚裕
Original assignee: Terminus Beijing Technology Co Ltd
Current assignee: Terminus Beijing Technology Co Ltd
Priority date: 2019-07-01
Filing date: 2019-07-01
Publication date: 2019-10-25
Anticipated expiration: 2039-07-01
Also published as: CN110379441B

Abstract

本发明基于BP神经网络以及GAN网络，提供了一种能够使计算机语音根据用户情感变化产生相应的情感变化的方法，通过使BP神经网络在信息正向传播和误差反向传播两个过程的训练，准确的输出用户输入语音情绪状态的类型，并以该情绪状态类型为基准，通过GAN网络的生成对抗过程，输出相应的赋情绪语音，并通过上述方法设计出了一种基于对抗型人工智能网络的语音服务系统。

Description

一种基于对抗型人工智能网络的语音服务方法与系统

技术领域

本发明涉及人工智能领域，更具体的说是涉及一种基于对抗型人工智能网络的语音服务方法与系统。

背景技术

目前，人机对话越来越普遍，例如在各种智能设备与人类的语音交互功能或者是自动电话客户服务当中，智能设备可以通过计算机自动生成的语音与用户进行语音交互，在该过程中，计算机根据与用户对话的需要，产生语义内容，通过语义内容，从保存有事先录制的语音片段的语音库当中，找到语义内容对应的语音片段并组合播放，进而实现人机对话。

但是，计算机自动生成语音的技术手段并不能实现人们通过人机对话达到情感上交流的目的，计算机自动生成的语音始终表现为语速均匀、声调平缓、音量波动小，该语音无法根据对话者情绪的变化产生相应的情感变化，导致使用户在交流中无法体会到计算机语音真实自然的情感，交流过程感觉不够自然。

因此，如何实现与对话者具有情感共鸣的人工智能语音服务技术，是本领域技术人员亟需解决的问题。

发明内容

有鉴于此，本发明提供了一种基于对抗型人工智能网络的语音服务方法与系统，从而使计算机语音能够根据对话者的情绪变化产生相应的情绪变化，以期实现使用者在人机对话过程中更加舒服自然的寄托及表达情感的目的。

为了实现上述目的，本发明采用如下技术方案：

一种基于对抗型人工智能网络的语音服务方法，包括如下步骤：

S1、输入用户语音，提取反映情绪状态的特征量；

S2、建立BP神经网络，并将所述S1获得的特征量输入BP神经网络，获取用户情绪状态的类型；

S3、根据所述S2获取的用户情绪状态类型，在训练样本库中找到对应的情绪语音样本；

S4、基于由语音生成器和辨别器组成的GAN网络，辨别器在以情绪语音样本为基准进行训练后，对语音生成器生成的赋情绪语音进行真伪判别，判别结果为伪时，继续训练语音生成器，语音生成器将在训练过程中调整参数，重新生成赋情绪语音，直至辨别器对语音生成器生成的赋情绪语音判别为真，输出与情绪语音样本的情绪状态相同的赋情绪语音。

优选的，所述S1中，包括S11-S13三个具体步骤；其中，

S11、输入用户语音，并对语音进行滤波、采样、量化、预加重处理，可以提高用户输入的语音信号的识别率，使频谱变得平稳，便于分析；

S12、利用加窗分帧的方法，将语音划分为若干个语音帧。因为后期语音处理需要平稳的语音信号，而一段语音信号整体看是不平稳的，但是局部信号是平稳的，所以将一段语音进行分帧处理，另外，由于每一帧的起始端和末尾端会出现不连续的地方，所以分帧越多与原始信号的误差也就越大，用加窗的方法可以使分帧后的信号变得连续；

S13、提取每一个语音帧的语音持续时间、短时能量极值和均值、基音频率、共振峰作为所述特征量；

优选的，所述S2分为S21-S24四个具体步骤，

S21、建立一个可以根据输入的语音特征量识别并输出语音的情绪状态类型的BP神经网络，BP神经网络由多层神经元构成，各层神经元之间具有特定的权值；BP神经网络具有自适应、自组织、自学习能力，有信息正向传播和误差反向传播两个过程，当信息正向传播时，实际输出若与预期输出不符，BP网络的误差反向传播过程可以修正各层权值，使误差达到最小，从而通过训练的BP神经网络能够准确输出情绪状态类型。

S22、预设五种情绪状态类型，分别是：高兴、气愤、低落、害怕和中性，每种情绪状态类型收集一定的训练语音样本，并按照S1中的提取特征量的步骤，提取训练语音样本的特征量，五种情绪状态类型可以使计算机语音的情绪更丰富，能够适用不同用户不同情绪状态的需求，收集不同情绪状态类型的训练语音样本，可以使BP网络通过训练精准输出各种情绪状态的类型。

S23、将训练语音样本的特征量作为多维度向量，输入到BP神经网络中，将输出的情绪状态类型与预期情绪状态类型比对，不断修正各层权值，直至输出的训练语音样本的情绪状态类型与预期情绪状态类型一致，则获得一个训练后的BP神经网络，该过程为训练BP神经网络的过程，由于BP神经网络自身的自适应、自组织、自学习性能，通过训练过程即可获得一个可以精准分类输出各种情绪状态的类型的BP神经网络。

S24、将所述S1获得的特征值输入到所述S23获得的训练后的BP神经网络中，得到准确的情绪状态的类型。

优选的，所述S4分为S41-S43三个具体步骤：

S41、在语音库中找到与语义内容匹配的语音片段，智能设备根据与用户对话的需求，产生语义内容，计算机从语音库中找到与语义内容相匹配的语音片段，该过程生成的是没有情绪状态的语音，是赋情绪语音的基础；

S42、将随机变量与语音片段叠加，并传输给语音生成器，语音生成器把叠加了随机变量的语音片段生成为赋情绪语音，语音生成器生成赋情绪语音后，将赋情绪语音输入到辨别器中；

S43、辨别器以所述S3获得的情绪语音样本为基准，对赋情绪语音进行真伪判别，判别结果为伪时，则反馈给语音生成器，通过训练语音生成器，重新生成赋情绪语音，直至辨别器对语音生成器生成的赋情绪语音判别结果为真，输出情绪状态类型与情绪语音样本相同的赋情绪语音。

上述S42-S43是基于GAN网络原理，在GAN网络中G为生成模型，D为判别模型，生成模型即本发明中的语音生成器，将叠加了随机变量的语音片段输入语音生成器，通过随机变量随机调整了语音片段的特征量，语音生成器再继续调整语音片段的特征量，生成赋情绪语音，判别模型即本发明中的辨别器，辨别器判别情绪语音样本与赋情绪语音的情绪状态的吻合程度，若二者情绪状态不吻合，辨别器将以情绪语音样本为基准向语音生成器反馈，训练调整语音生成器的参数，重新输出赋情绪语音，辨别器再次判别赋情绪语音与情绪语音样本的情绪状态类型的吻合程度，若不一致则一直训练语音生成器，调整参数，直至输出与情绪语音样本的情绪状态吻合的赋情绪语音；GAN网络可以产生更加真实清晰的样本，GAN采用监督的学习方式训练，避免损失函数设计的困难，只要有一个基准，加一个辨别器即可自行完成对抗训练。

基于上述方法，本发明设计了如下系统：

一种基于对抗型人工智能网络的语音服务系统，包括：情绪状态特征量提取模块、BP神经网络模块、训练样本库、辨别器模块、语音生成器模块；其中，

所述情绪状态特征量提取模块用于输入用户语音，提取反映情绪状态的特征量；

所述BP神经网络模块用于识别分析输入的特征量，并输出对应的用户情绪状态的类型；

所述训练样本库保存有不同情绪的语音样本，通过所述情绪状态特征量提取模块获取的用户情绪状态类型，可以在训练样本库中找到对应的情绪语音样本；

所述辨别器模块在以情绪语音样本为基准进行训练后，对语音生成器生成的赋情绪语音进行真伪判别，判别结果为伪时，继续训练语音生成器，重新生成赋情绪语音，最终输出判别结果为真的赋情绪语音。

所述语音生成器模块用于调整叠加了随机变量的语音片段的特征量，生成赋情绪语音；

优选的，所述情绪特征提取模块包括语音处理单元、语音加窗分帧单元、特征量提取单元；其中，

所述语音处理单元用于对输入的用户语音进行滤波、采样、量化、预加重处理，经过所述语音处理单元的处理后语音的频谱变得平稳，便于分析；

所述语音加窗分帧单元用于将语音划分为若干个语音帧，用加窗的方法可以使分帧后的信号变得连续；

所述特征量提取单元用于提取每一个语音帧的语音持续时间、短时能量极值和均值、基音频率、共振峰作为所述特征量，经过所述特征量提取单元提取出所述特征量，方便BP神经网络对输入语音的情绪状态类型进行分析判断。

优选的，所述BP神经网络模块包括BP神经网络训练单元、BP神经网络单元；其中，

所述BP神经网络训练单元用于训练新建立的BP神经网络，首先预设高兴、气愤、低落、害怕和中性五种情绪状态类型，每种情绪状态类型收集一定的训练样本，并通过所述情绪特征提取模块提取训练语音样本的特征量，将训练语音样本的特征量输入到新建立的BP神经网络中，比对输出的情绪状态类型和预期情绪状态类型是否吻合，若不吻合，不断修正各层权值直至吻合，从而完成对新建立的BP神经网络的训练；

所述BP神经网络单元为通过所述BP神经网络训练单元训练完成的BP神经网络，用于分析识别输入的用户语音的特征量，并输出准确的用户情绪状态的类型。

优选的，还包括语音库；其中，

所述语音库中保存有事先录制的语音片段，用于组合播放与用户对话需要的语义内容；

所述语音生成器模块用于将叠加了随机变量的语音片段生成为赋情绪语音，语音生成器生成赋情绪语音后，将赋情绪语音输入到辨别器中；

所述辨别器模块以所述情绪语音样本为基准，对赋情绪语音进行真伪判别，判别结果为伪时，则反馈给所述语音生成器模块，通过训练所述语音生成器模块，重新生成赋情绪语音，直至所述辨别器模块对所述语音生成器模块生成的赋情绪语音判别结果为真，输出情绪状态类型与情绪语音样本相同的赋情绪语音。

优选的，本系统的研发基础是生成对抗网络，所述语音生成器模块相当于生成模型G，可以在自学过程中，不断调整参数，以期所述辨别器无法判别到区别点，从而准确输出与情绪语音样本的情绪状态类型一致的赋情绪语音；所述辨别器模块相当于对抗生成网络的判别模型D，以情绪语音样本为基准，判别赋情绪语音的真伪，通过不断地学习反馈，输出与情绪语音样本相同情绪状态类型的赋情绪语音，整个过程为对抗生成网络自我学习的过程，无需复杂的损失函数设计即可实现，并且输出结果精准。

经由上述的技术方案可知，基于现有技术，本发明公开提供了一种基于对抗型人工智能网络的语音服务方法与系统，通过训练BP神经网络精准输出情绪状态的类型，并且以生成对抗网络为基础，以根据用户情绪状态类型选取的情绪语音样本为基准，匹配输出合适的赋情绪语音，使用户在人机对话的过程中，感受到机器语音更加真实的情绪变化。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1附图为本发明的方法流程图；

图2附图为本发明的系统结构框图。

具体实施方式

下面将对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种基于对抗型人工智能网络的语音服务的方法与系统，包括如下步骤：

如图1所示：

S1、输入用户语音，提取反映情绪状态的特征量

S11、用户在与机器交流时，将用户的语音输入到计算机，计算机通过对用户语音进行滤波、采样、量化、预加重的处理，使用户的输入语音更加有辨识度，使语音频谱变得更加平稳，有利于后续的分析；

S12、因为后期语音处理需要更加平稳的语音信号，而整段语音信号并不平稳，所以将经过S11处理后的用户的输入语音划分为若干个语音帧，分帧后的语音信号每一帧是平稳的，再利用加窗的方法，使分帧后的语音信号变得连续，减少分帧误差；

S13、提取经过S12处理的每一个语音帧的语音持续时间、短时能量极值和均值、基音频率、共振峰作为所述特征量。

S2、建立BP神经网络，并将所述S1获得的特征量输入BP神经网络，获取用户情绪状态的类型

S21、因为BP神经网络具备自学习能力，因此建立一个可以根据输入的语音特征量识别并输出情绪状态类型的BP神经网络，可以方便准确的识别并输出用户语音的情绪状态类型。

S22、BP神经网络需要学习训练才能精准输出，在本发明中为了使最终输出的赋情绪语音的情绪更加丰富，所以预设五种情绪状态类型，分别是：高兴、气愤、低落、害怕和中性，每种情绪状态类型收集一定的训练语音样本，并按照S1中提取特征量的步骤，提取训练语音样本的特征量，以期通过训练获得精准输出的BP神经网络。

S23、将训练语音样本的特征量作为多维度向量，输入到BP神经网络中，将输出的情绪状态类型与预期情绪状态类型比对，不断修正各层权值，直至输出的训练语音样本的情绪状态类型与预期情绪状态类型一致，则获得一个训练后的BP神经网络。

S24、按照所述S1的步骤获得用户语音的特征值后，将特征值输入到训练后的BP神经网络中，即可获得准确的情绪状态的类型。

S3、根据所述S2获取的用户情绪状态类型，在训练样本库中找到对应的情绪语音样本，该情绪语音样本将作为GAN网络中辨别器判别真伪的基准。

S41、智能设备基于与用户对话的需要，产生语义内容，根据产生的语义内容在语音库中找到对应的语音片段，该语音片段为没有情绪的原始语音；

S42、随机变量与原始语音叠加后，输入到语音生成器中，语音生成器对其进行处理并生成赋情绪语音，该过程中语音生成器即生成对抗网络中的生成模型G；

S43、由于生成对抗网络能够自学习的特点，在以情绪语音样本为基准的状态下，设置辨别器3，即可实现整个系统的训练学习，具体的，辨别器以情绪语音样本为基准进行训练，训练完成后对赋情绪语音进行真伪判别，若判别结果为伪，则将结果反馈给语音生成器，语音生成器根据情绪语音样本的情绪状态类型更改叠加了随机变量的语音片段的特征量，并输出新的赋情绪语音，在不断地训练过程中，获得与情绪语音样本的情绪状态类型相同的赋情绪语音，并反馈给辨别器，输出赋情绪语音。

根据上述步骤1-4，设计出一种基于对抗型人工智能网络的语音服务系统：

如图2所示：

一种基于对抗型人工智能网络的语音服务系统，包括：情绪状态特征量提取模块1、BP神经网络模块2、训练样本库3、辨别器模块4、语音生成器模块5；其中，

情绪状态特征量提取模块1用于输入用户语音，提取反映情绪状态的特征量；

BP神经网络模块2用于识别分析输入的特征量，并输出对应的用户情绪状态的类型；

训练样本库3保存有不同情绪的语音样本，通过情绪状态特征量提取模块1获取的用户情绪状态类型，可以在训练样本库中找到对应的情绪语音样本；

辨别器模块4在以情绪语音样本为基准进行训练后，对语音生成器生成的赋情绪语音进行真伪判别，判别结果为伪时，继续训练语音生成器，重新生成赋情绪语音，最终输出判别结果为真的赋情绪语音。

语音生成器模块5用于调整叠加了随机变量的语音片段的特征量，生成赋情绪语音；

为了进一步优化上述技术特征，情绪特征提取模块1包括语音处理单元、语音加窗分帧单元、特征量提取单元；其中，

语音处理单元用于对输入的用户语音进行滤波、采样、量化、预加重处理；

语音加窗分帧单元用于将语音划分为若干个语音帧；

特征量提取单元用于提取每一个语音帧的语音持续时间、短时能量极值和均值、基音频率、共振峰作为所述特征量。

为了进一步优化上述技术特征，BP神经网络模块2包括BP神经网络训练单元、BP神经网络单元；其中，

BP神经网络训练单元用于训练新建立的BP神经网络，首先预设高兴、气愤、低落、害怕和中性五种情绪状态类型，每种情绪状态类型收集一定的训练样本，并通过情绪特征提取模块1提取训练语音样本的特征量，将训练语音样本的特征量输入到新建立的BP神经网络中，比对输出的情绪状态类型和预期情绪状态类型是否吻合，若不吻合，不断修正各层权值直至吻合，从而完成对新建立的BP神经网络的训练；

BP神经网络单元为通过所述BP神经网络训练单元训练完成的BP神经网络，用于分析识别输入的用户语音的特征量，并输出准确的用户情绪状态的类型。

为了进一步优化上述技术特征，还包括语音库6；其中，

语音库6中保存有事先录制的语音片段，用于组合播放与用户对话需要的语义内容；

语音生成器模块5用于将叠加了随机变量的语音片段生成为赋情绪语音，语音生成器生成赋情绪语音后，将赋情绪语音输入到辨别器中；

辨别器模块4以所述情绪语音样本为基准，对赋情绪语音进行真伪判别，判别结果为伪时，则反馈给语音生成器模块5，通过训练语音生成器模块5，重新生成赋情绪语音，直至辨别器模块4对语音生成器模块5生成的赋情绪语音判别结果为真，输出情绪状态类型与情绪语音样本相同的赋情绪语音。

根据上述对抗型人工智能网络的语音服务方法，设计出对抗型人工智能语音服务系统，该系统能够基于BP神经网络以及GAN网络输出与用户情绪状态类型相同的赋情绪语音。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于对抗型人工智能网络的语音服务方法，其特征在于，包括如下步骤：

S1、输入用户语音，提取反映情绪状态的特征量；

2.根据权利要求1所述的一种基于对抗型人工智能网络的语音服务方法，其特征在于，所述S1的具体步骤如下：

S11、输入用户语音，并对语音进行滤波、采样、量化、预加重处理；

S12、利用加窗分帧的方法，将语音划分为若干个语音帧；

S13、提取每一个语音帧的语音持续时间、短时能量极值和均值、基音频率、共振峰作为所述特征量。

3.根据权利要求1所述的一种基于对抗型人工智能网络的语音服务方法，其特征在于，所述S2的具体步骤如下：

S21、建立一个可以根据输入的语音特征量识别并输出语音的情绪状态类型的BP神经网络；

S22、预设五种情绪状态类型，分别是：高兴、气愤、低落、害怕和中性，每种情绪状态类型收集一定的训练语音样本，并按照S1中的提取特征量的步骤，提取训练语音样本的特征量；

S23、将训练语音样本的特征量作为多维度向量，输入到BP神经网络中，把输出的情绪状态类型与预期情绪状态类型比对，不断修正各层权值，直至输出的训练语音样本的情绪状态类型与预期情绪状态类型一致，则获得一个训练后的BP神经网络；

4.根据权利要求1所述的一种基于对抗型人工智能网络的语音服务方法，其特征在于，所述S4的具体步骤如下：

S41、在语音库中找到与语义内容匹配的语音片段；

5.根据权利要求1所述的一种基于对抗型人工智能网络的语音服务方法，其特征在于，基于与用户对话的需要，产生语义内容，根据产生的语义内容在语音库中找到对应的语音片段。

6.一种基于对抗型人工智能网络的语音服务系统，其特征在于，包括：情绪状态特征量提取模块(1)、BP神经网络模块(2)、训练样本库(3)、辨别器模块(4)、语音生成器模块(5)；其中，

所述情绪状态特征量提取模块(1)用于输入用户语音，提取反映情绪状态的特征量；

所述BP神经网络模块(2)用于识别分析输入的特征量，并输出对应的用户情绪状态的类型；

所述训练样本库(3)保存有不同情绪的语音样本，通过所述情绪状态特征量提取模块(1)获取的用户情绪状态类型，可以在训练样本库中找到对应的情绪语音样本；

所述辨别器模块(4)在以情绪语音样本为基准进行训练后，对语音生成器模块(5)生成的赋情绪语音进行真伪判别，判别结果为伪时，继续训练语音生成器模块(5)，重新生成赋情绪语音，最终输出判别结果为真的赋情绪语音。

所述语音生成器模块(5)用于调整叠加了随机变量的语音片段的特征量，生成赋情绪语音。

7.根据权利要求6所述的一种基于对抗型人工智能网络的语音服务系统，其特征在于，所述情绪特征提取模块(1)包括语音处理单元、语音加窗分帧单元、特征量提取单元；其中，

所述语音处理单元用于对输入的用户语音进行滤波、采样、量化、预加重处理；

所述语音加窗分帧单元用于将语音划分为若干个语音帧；

所述特征量提取单元用于提取每一个语音帧的语音持续时间、短时能量极值和均值、基音频率、共振峰作为所述特征量。

8.根据权利要求6所述的一种基于对抗型人工智能网络的语音服务系统，其特征在于，所述BP神经网络模块(2)包括BP神经网络训练单元、BP神经网络单元；其中，

所述BP神经网络训练单元用于训练新建立的BP神经网络，首先预设高兴、气愤、低落、害怕和中性五种情绪状态类型，每种情绪状态类型收集一定的训练样本，并通过所述情绪特征提取模块(1)提取训练语音样本的特征量，将训练语音样本的特征量输入到新建立的BP神经网络中，比对输出的情绪状态类型和预期情绪状态类型是否吻合，若不吻合，不断修正各层权值直至吻合，从而完成对新建立的BP神经网络的训练；

9.根据权利要求6所述的一种基于对抗型人工智能网络的语音服务系统，其特征在于，还包括语音库(6)；其中，

所述语音库(6)中保存有事先录制的语音片段，用于组合播放与用户对话需要的语义内容；

所述语音生成器模块(5)用于将叠加了随机变量的语音片段生成为赋情绪语音，语音生成器生成赋情绪语音后，将赋情绪语音输入到辨别器中；

所述辨别器模块(4)以所述情绪语音样本为基准，对赋情绪语音进行真伪判别，判别结果为伪时，则反馈给所述语音生成器模块(5)，通过训练所述语音生成器模块(5)，重新生成赋情绪语音，直至所述辨别器模块(4)对所述语音生成器模块(5)生成的赋情绪语音判别结果为真，输出情绪状态类型与情绪语音样本相同的赋情绪语音。

10.根据权利要求6所述的一种基于对抗型人工智能网络的语音服务系统，其特征在于，智能设备基于与用户对话的需要，产生语义内容，根据产生的语义内容在语音库中找到对应的语音片段，随机变量与原始语音叠加后，输入到语音生成器。