CN110379441A - 一种基于对抗型人工智能网络的语音服务方法与系统 - Google Patents
一种基于对抗型人工智能网络的语音服务方法与系统 Download PDFInfo
- Publication number
- CN110379441A CN110379441A CN201910586563.6A CN201910586563A CN110379441A CN 110379441 A CN110379441 A CN 110379441A CN 201910586563 A CN201910586563 A CN 201910586563A CN 110379441 A CN110379441 A CN 110379441A
- Authority
- CN
- China
- Prior art keywords
- voice
- mood
- speech
- training
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 230000036651 mood Effects 0.000 claims abstract description 123
- 230000002996 emotional effect Effects 0.000 claims abstract description 81
- 238000012549 training Methods 0.000 claims abstract description 79
- 238000013528 artificial neural network Methods 0.000 claims abstract description 64
- 230000008451 emotion Effects 0.000 claims abstract description 22
- 238000000605 extraction Methods 0.000 claims description 21
- 239000000523 sample Substances 0.000 claims description 21
- 239000000284 extract Substances 0.000 claims description 16
- 238000009432 framing Methods 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 12
- 238000004458 analytical method Methods 0.000 claims description 6
- 230000007935 neutral effect Effects 0.000 claims description 5
- 238000005070 sampling Methods 0.000 claims description 3
- 238000004519 manufacturing process Methods 0.000 claims description 2
- 210000005036 nerve Anatomy 0.000 claims description 2
- 235000013399 edible fruits Nutrition 0.000 claims 2
- 230000003042 antagnostic effect Effects 0.000 abstract 1
- 238000005516 engineering process Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 230000003466 anti-cipated effect Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000006854 communication Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000007510 mood change Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000004064 recycling Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000009331 sowing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Hospice & Palliative Care (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Child & Adolescent Psychology (AREA)
- User Interface Of Digital Computer (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明基于BP神经网络以及GAN网络,提供了一种能够使计算机语音根据用户情感变化产生相应的情感变化的方法,通过使BP神经网络在信息正向传播和误差反向传播两个过程的训练,准确的输出用户输入语音情绪状态的类型,并以该情绪状态类型为基准,通过GAN网络的生成对抗过程,输出相应的赋情绪语音,并通过上述方法设计出了一种基于对抗型人工智能网络的语音服务系统。
Description
技术领域
本发明涉及人工智能领域,更具体的说是涉及一种基于对抗型人工智能网络的语音服务方法与系统。
背景技术
目前,人机对话越来越普遍,例如在各种智能设备与人类的语音交互功能或者是自动电话客户服务当中,智能设备可以通过计算机自动生成的语音与用户进行语音交互,在该过程中,计算机根据与用户对话的需要,产生语义内容,通过语义内容,从保存有事先录制的语音片段的语音库当中,找到语义内容对应的语音片段并组合播放,进而实现人机对话。
但是,计算机自动生成语音的技术手段并不能实现人们通过人机对话达到情感上交流的目的,计算机自动生成的语音始终表现为语速均匀、声调平缓、音量波动小,该语音无法根据对话者情绪的变化产生相应的情感变化,导致使用户在交流中无法体会到计算机语音真实自然的情感,交流过程感觉不够自然。
因此,如何实现与对话者具有情感共鸣的人工智能语音服务技术,是本领域技术人员亟需解决的问题。
发明内容
有鉴于此,本发明提供了一种基于对抗型人工智能网络的语音服务方法与系统,从而使计算机语音能够根据对话者的情绪变化产生相应的情绪变化,以期实现使用者在人机对话过程中更加舒服自然的寄托及表达情感的目的。
为了实现上述目的,本发明采用如下技术方案:
一种基于对抗型人工智能网络的语音服务方法,包括如下步骤:
S1、输入用户语音,提取反映情绪状态的特征量;
S2、建立BP神经网络,并将所述S1获得的特征量输入BP神经网络,获取用户情绪状态的类型;
S3、根据所述S2获取的用户情绪状态类型,在训练样本库中找到对应的情绪语音样本;
S4、基于由语音生成器和辨别器组成的GAN网络,辨别器在以情绪语音样本为基准进行训练后,对语音生成器生成的赋情绪语音进行真伪判别,判别结果为伪时,继续训练语音生成器,语音生成器将在训练过程中调整参数,重新生成赋情绪语音,直至辨别器对语音生成器生成的赋情绪语音判别为真,输出与情绪语音样本的情绪状态相同的赋情绪语音。
优选的,所述S1中,包括S11-S13三个具体步骤;其中,
S11、输入用户语音,并对语音进行滤波、采样、量化、预加重处理,可以提高用户输入的语音信号的识别率,使频谱变得平稳,便于分析;
S12、利用加窗分帧的方法,将语音划分为若干个语音帧。因为后期语音处理需要平稳的语音信号,而一段语音信号整体看是不平稳的,但是局部信号是平稳的,所以将一段语音进行分帧处理,另外,由于每一帧的起始端和末尾端会出现不连续的地方,所以分帧越多与原始信号的误差也就越大,用加窗的方法可以使分帧后的信号变得连续;
S13、提取每一个语音帧的语音持续时间、短时能量极值和均值、基音频率、共振峰作为所述特征量;
优选的,所述S2分为S21-S24四个具体步骤,
S21、建立一个可以根据输入的语音特征量识别并输出语音的情绪状态类型的BP神经网络,BP神经网络由多层神经元构成,各层神经元之间具有特定的权值;BP神经网络具有自适应、自组织、自学习能力,有信息正向传播和误差反向传播两个过程,当信息正向传播时,实际输出若与预期输出不符,BP网络的误差反向传播过程可以修正各层权值,使误差达到最小,从而通过训练的BP神经网络能够准确输出情绪状态类型。
S22、预设五种情绪状态类型,分别是:高兴、气愤、低落、害怕和中性,每种情绪状态类型收集一定的训练语音样本,并按照S1中的提取特征量的步骤,提取训练语音样本的特征量,五种情绪状态类型可以使计算机语音的情绪更丰富,能够适用不同用户不同情绪状态的需求,收集不同情绪状态类型的训练语音样本,可以使BP网络通过训练精准输出各种情绪状态的类型。
S23、将训练语音样本的特征量作为多维度向量,输入到BP神经网络中,将输出的情绪状态类型与预期情绪状态类型比对,不断修正各层权值,直至输出的训练语音样本的情绪状态类型与预期情绪状态类型一致,则获得一个训练后的BP神经网络,该过程为训练BP神经网络的过程,由于BP神经网络自身的自适应、自组织、自学习性能,通过训练过程即可获得一个可以精准分类输出各种情绪状态的类型的BP神经网络。
S24、将所述S1获得的特征值输入到所述S23获得的训练后的BP神经网络中,得到准确的情绪状态的类型。
优选的,所述S4分为S41-S43三个具体步骤:
S41、在语音库中找到与语义内容匹配的语音片段,智能设备根据与用户对话的需求,产生语义内容,计算机从语音库中找到与语义内容相匹配的语音片段,该过程生成的是没有情绪状态的语音,是赋情绪语音的基础;
S42、将随机变量与语音片段叠加,并传输给语音生成器,语音生成器把叠加了随机变量的语音片段生成为赋情绪语音,语音生成器生成赋情绪语音后,将赋情绪语音输入到辨别器中;
S43、辨别器以所述S3获得的情绪语音样本为基准,对赋情绪语音进行真伪判别,判别结果为伪时,则反馈给语音生成器,通过训练语音生成器,重新生成赋情绪语音,直至辨别器对语音生成器生成的赋情绪语音判别结果为真,输出情绪状态类型与情绪语音样本相同的赋情绪语音。
上述S42-S43是基于GAN网络原理,在GAN网络中G为生成模型,D为判别模型,生成模型即本发明中的语音生成器,将叠加了随机变量的语音片段输入语音生成器,通过随机变量随机调整了语音片段的特征量,语音生成器再继续调整语音片段的特征量,生成赋情绪语音,判别模型即本发明中的辨别器,辨别器判别情绪语音样本与赋情绪语音的情绪状态的吻合程度,若二者情绪状态不吻合,辨别器将以情绪语音样本为基准向语音生成器反馈,训练调整语音生成器的参数,重新输出赋情绪语音,辨别器再次判别赋情绪语音与情绪语音样本的情绪状态类型的吻合程度,若不一致则一直训练语音生成器,调整参数,直至输出与情绪语音样本的情绪状态吻合的赋情绪语音;GAN网络可以产生更加真实清晰的样本,GAN采用监督的学习方式训练,避免损失函数设计的困难,只要有一个基准,加一个辨别器即可自行完成对抗训练。
基于上述方法,本发明设计了如下系统:
一种基于对抗型人工智能网络的语音服务系统,包括:情绪状态特征量提取模块、BP神经网络模块、训练样本库、辨别器模块、语音生成器模块;其中,
所述情绪状态特征量提取模块用于输入用户语音,提取反映情绪状态的特征量;
所述BP神经网络模块用于识别分析输入的特征量,并输出对应的用户情绪状态的类型;
所述训练样本库保存有不同情绪的语音样本,通过所述情绪状态特征量提取模块获取的用户情绪状态类型,可以在训练样本库中找到对应的情绪语音样本;
所述辨别器模块在以情绪语音样本为基准进行训练后,对语音生成器生成的赋情绪语音进行真伪判别,判别结果为伪时,继续训练语音生成器,重新生成赋情绪语音,最终输出判别结果为真的赋情绪语音。
所述语音生成器模块用于调整叠加了随机变量的语音片段的特征量,生成赋情绪语音;
优选的,所述情绪特征提取模块包括语音处理单元、语音加窗分帧单元、特征量提取单元;其中,
所述语音处理单元用于对输入的用户语音进行滤波、采样、量化、预加重处理,经过所述语音处理单元的处理后语音的频谱变得平稳,便于分析;
所述语音加窗分帧单元用于将语音划分为若干个语音帧,用加窗的方法可以使分帧后的信号变得连续;
所述特征量提取单元用于提取每一个语音帧的语音持续时间、短时能量极值和均值、基音频率、共振峰作为所述特征量,经过所述特征量提取单元提取出所述特征量,方便BP神经网络对输入语音的情绪状态类型进行分析判断。
优选的,所述BP神经网络模块包括BP神经网络训练单元、BP神经网络单元;其中,
所述BP神经网络训练单元用于训练新建立的BP神经网络,首先预设高兴、气愤、低落、害怕和中性五种情绪状态类型,每种情绪状态类型收集一定的训练样本,并通过所述情绪特征提取模块提取训练语音样本的特征量,将训练语音样本的特征量输入到新建立的BP神经网络中,比对输出的情绪状态类型和预期情绪状态类型是否吻合,若不吻合,不断修正各层权值直至吻合,从而完成对新建立的BP神经网络的训练;
所述BP神经网络单元为通过所述BP神经网络训练单元训练完成的BP神经网络,用于分析识别输入的用户语音的特征量,并输出准确的用户情绪状态的类型。
优选的,还包括语音库;其中,
所述语音库中保存有事先录制的语音片段,用于组合播放与用户对话需要的语义内容;
所述语音生成器模块用于将叠加了随机变量的语音片段生成为赋情绪语音,语音生成器生成赋情绪语音后,将赋情绪语音输入到辨别器中;
所述辨别器模块以所述情绪语音样本为基准,对赋情绪语音进行真伪判别,判别结果为伪时,则反馈给所述语音生成器模块,通过训练所述语音生成器模块,重新生成赋情绪语音,直至所述辨别器模块对所述语音生成器模块生成的赋情绪语音判别结果为真,输出情绪状态类型与情绪语音样本相同的赋情绪语音。
优选的,本系统的研发基础是生成对抗网络,所述语音生成器模块相当于生成模型G,可以在自学过程中,不断调整参数,以期所述辨别器无法判别到区别点,从而准确输出与情绪语音样本的情绪状态类型一致的赋情绪语音;所述辨别器模块相当于对抗生成网络的判别模型D,以情绪语音样本为基准,判别赋情绪语音的真伪,通过不断地学习反馈,输出与情绪语音样本相同情绪状态类型的赋情绪语音,整个过程为对抗生成网络自我学习的过程,无需复杂的损失函数设计即可实现,并且输出结果精准。
经由上述的技术方案可知,基于现有技术,本发明公开提供了一种基于对抗型人工智能网络的语音服务方法与系统,通过训练BP神经网络精准输出情绪状态的类型,并且以生成对抗网络为基础,以根据用户情绪状态类型选取的情绪语音样本为基准,匹配输出合适的赋情绪语音,使用户在人机对话的过程中,感受到机器语音更加真实的情绪变化。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1附图为本发明的方法流程图;
图2附图为本发明的系统结构框图。
具体实施方式
下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种基于对抗型人工智能网络的语音服务的方法与系统,包括如下步骤:
如图1所示:
S1、输入用户语音,提取反映情绪状态的特征量
S11、用户在与机器交流时,将用户的语音输入到计算机,计算机通过对用户语音进行滤波、采样、量化、预加重的处理,使用户的输入语音更加有辨识度,使语音频谱变得更加平稳,有利于后续的分析;
S12、因为后期语音处理需要更加平稳的语音信号,而整段语音信号并不平稳,所以将经过S11处理后的用户的输入语音划分为若干个语音帧,分帧后的语音信号每一帧是平稳的,再利用加窗的方法,使分帧后的语音信号变得连续,减少分帧误差;
S13、提取经过S12处理的每一个语音帧的语音持续时间、短时能量极值和均值、基音频率、共振峰作为所述特征量。
S2、建立BP神经网络,并将所述S1获得的特征量输入BP神经网络,获取用户情绪状态的类型
S21、因为BP神经网络具备自学习能力,因此建立一个可以根据输入的语音特征量识别并输出情绪状态类型的BP神经网络,可以方便准确的识别并输出用户语音的情绪状态类型。
S22、BP神经网络需要学习训练才能精准输出,在本发明中为了使最终输出的赋情绪语音的情绪更加丰富,所以预设五种情绪状态类型,分别是:高兴、气愤、低落、害怕和中性,每种情绪状态类型收集一定的训练语音样本,并按照S1中提取特征量的步骤,提取训练语音样本的特征量,以期通过训练获得精准输出的BP神经网络。
S23、将训练语音样本的特征量作为多维度向量,输入到BP神经网络中,将输出的情绪状态类型与预期情绪状态类型比对,不断修正各层权值,直至输出的训练语音样本的情绪状态类型与预期情绪状态类型一致,则获得一个训练后的BP神经网络。
S24、按照所述S1的步骤获得用户语音的特征值后,将特征值输入到训练后的BP神经网络中,即可获得准确的情绪状态的类型。
S3、根据所述S2获取的用户情绪状态类型,在训练样本库中找到对应的情绪语音样本,该情绪语音样本将作为GAN网络中辨别器判别真伪的基准。
S4、基于由语音生成器和辨别器组成的GAN网络,辨别器在以情绪语音样本为基准进行训练后,对语音生成器生成的赋情绪语音进行真伪判别,判别结果为伪时,继续训练语音生成器,语音生成器将在训练过程中调整参数,重新生成赋情绪语音,直至辨别器对语音生成器生成的赋情绪语音判别为真,输出与情绪语音样本的情绪状态相同的赋情绪语音。
S41、智能设备基于与用户对话的需要,产生语义内容,根据产生的语义内容在语音库中找到对应的语音片段,该语音片段为没有情绪的原始语音;
S42、随机变量与原始语音叠加后,输入到语音生成器中,语音生成器对其进行处理并生成赋情绪语音,该过程中语音生成器即生成对抗网络中的生成模型G;
S43、由于生成对抗网络能够自学习的特点,在以情绪语音样本为基准的状态下,设置辨别器3,即可实现整个系统的训练学习,具体的,辨别器以情绪语音样本为基准进行训练,训练完成后对赋情绪语音进行真伪判别,若判别结果为伪,则将结果反馈给语音生成器,语音生成器根据情绪语音样本的情绪状态类型更改叠加了随机变量的语音片段的特征量,并输出新的赋情绪语音,在不断地训练过程中,获得与情绪语音样本的情绪状态类型相同的赋情绪语音,并反馈给辨别器,输出赋情绪语音。
根据上述步骤1-4,设计出一种基于对抗型人工智能网络的语音服务系统:
如图2所示:
一种基于对抗型人工智能网络的语音服务系统,包括:情绪状态特征量提取模块1、BP神经网络模块2、训练样本库3、辨别器模块4、语音生成器模块5;其中,
情绪状态特征量提取模块1用于输入用户语音,提取反映情绪状态的特征量;
BP神经网络模块2用于识别分析输入的特征量,并输出对应的用户情绪状态的类型;
训练样本库3保存有不同情绪的语音样本,通过情绪状态特征量提取模块1获取的用户情绪状态类型,可以在训练样本库中找到对应的情绪语音样本;
辨别器模块4在以情绪语音样本为基准进行训练后,对语音生成器生成的赋情绪语音进行真伪判别,判别结果为伪时,继续训练语音生成器,重新生成赋情绪语音,最终输出判别结果为真的赋情绪语音。
语音生成器模块5用于调整叠加了随机变量的语音片段的特征量,生成赋情绪语音;
为了进一步优化上述技术特征,情绪特征提取模块1包括语音处理单元、语音加窗分帧单元、特征量提取单元;其中,
语音处理单元用于对输入的用户语音进行滤波、采样、量化、预加重处理;
语音加窗分帧单元用于将语音划分为若干个语音帧;
特征量提取单元用于提取每一个语音帧的语音持续时间、短时能量极值和均值、基音频率、共振峰作为所述特征量。
为了进一步优化上述技术特征,BP神经网络模块2包括BP神经网络训练单元、BP神经网络单元;其中,
BP神经网络训练单元用于训练新建立的BP神经网络,首先预设高兴、气愤、低落、害怕和中性五种情绪状态类型,每种情绪状态类型收集一定的训练样本,并通过情绪特征提取模块1提取训练语音样本的特征量,将训练语音样本的特征量输入到新建立的BP神经网络中,比对输出的情绪状态类型和预期情绪状态类型是否吻合,若不吻合,不断修正各层权值直至吻合,从而完成对新建立的BP神经网络的训练;
BP神经网络单元为通过所述BP神经网络训练单元训练完成的BP神经网络,用于分析识别输入的用户语音的特征量,并输出准确的用户情绪状态的类型。
为了进一步优化上述技术特征,还包括语音库6;其中,
语音库6中保存有事先录制的语音片段,用于组合播放与用户对话需要的语义内容;
语音生成器模块5用于将叠加了随机变量的语音片段生成为赋情绪语音,语音生成器生成赋情绪语音后,将赋情绪语音输入到辨别器中;
辨别器模块4以所述情绪语音样本为基准,对赋情绪语音进行真伪判别,判别结果为伪时,则反馈给语音生成器模块5,通过训练语音生成器模块5,重新生成赋情绪语音,直至辨别器模块4对语音生成器模块5生成的赋情绪语音判别结果为真,输出情绪状态类型与情绪语音样本相同的赋情绪语音。
根据上述对抗型人工智能网络的语音服务方法,设计出对抗型人工智能语音服务系统,该系统能够基于BP神经网络以及GAN网络输出与用户情绪状态类型相同的赋情绪语音。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种基于对抗型人工智能网络的语音服务方法,其特征在于,包括如下步骤:
S1、输入用户语音,提取反映情绪状态的特征量;
S2、建立BP神经网络,并将所述S1获得的特征量输入BP神经网络,获取用户情绪状态的类型;
S3、根据所述S2获取的用户情绪状态类型,在训练样本库中找到对应的情绪语音样本;
S4、基于由语音生成器和辨别器组成的GAN网络,辨别器在以情绪语音样本为基准进行训练后,对语音生成器生成的赋情绪语音进行真伪判别,判别结果为伪时,继续训练语音生成器,语音生成器将在训练过程中调整参数,重新生成赋情绪语音,直至辨别器对语音生成器生成的赋情绪语音判别为真,输出与情绪语音样本的情绪状态相同的赋情绪语音。
2.根据权利要求1所述的一种基于对抗型人工智能网络的语音服务方法,其特征在于,所述S1的具体步骤如下:
S11、输入用户语音,并对语音进行滤波、采样、量化、预加重处理;
S12、利用加窗分帧的方法,将语音划分为若干个语音帧;
S13、提取每一个语音帧的语音持续时间、短时能量极值和均值、基音频率、共振峰作为所述特征量。
3.根据权利要求1所述的一种基于对抗型人工智能网络的语音服务方法,其特征在于,所述S2的具体步骤如下:
S21、建立一个可以根据输入的语音特征量识别并输出语音的情绪状态类型的BP神经网络;
S22、预设五种情绪状态类型,分别是:高兴、气愤、低落、害怕和中性,每种情绪状态类型收集一定的训练语音样本,并按照S1中的提取特征量的步骤,提取训练语音样本的特征量;
S23、将训练语音样本的特征量作为多维度向量,输入到BP神经网络中,把输出的情绪状态类型与预期情绪状态类型比对,不断修正各层权值,直至输出的训练语音样本的情绪状态类型与预期情绪状态类型一致,则获得一个训练后的BP神经网络;
S24、将所述S1获得的特征值输入到所述S23获得的训练后的BP神经网络中,得到准确的情绪状态的类型。
4.根据权利要求1所述的一种基于对抗型人工智能网络的语音服务方法,其特征在于,所述S4的具体步骤如下:
S41、在语音库中找到与语义内容匹配的语音片段;
S42、将随机变量与语音片段叠加,并传输给语音生成器,语音生成器把叠加了随机变量的语音片段生成为赋情绪语音,语音生成器生成赋情绪语音后,将赋情绪语音输入到辨别器中;
S43、辨别器以所述S3获得的情绪语音样本为基准,对赋情绪语音进行真伪判别,判别结果为伪时,则反馈给语音生成器,通过训练语音生成器,重新生成赋情绪语音,直至辨别器对语音生成器生成的赋情绪语音判别结果为真,输出情绪状态类型与情绪语音样本相同的赋情绪语音。
5.根据权利要求1所述的一种基于对抗型人工智能网络的语音服务方法,其特征在于,基于与用户对话的需要,产生语义内容,根据产生的语义内容在语音库中找到对应的语音片段。
6.一种基于对抗型人工智能网络的语音服务系统,其特征在于,包括:情绪状态特征量提取模块(1)、BP神经网络模块(2)、训练样本库(3)、辨别器模块(4)、语音生成器模块(5);其中,
所述情绪状态特征量提取模块(1)用于输入用户语音,提取反映情绪状态的特征量;
所述BP神经网络模块(2)用于识别分析输入的特征量,并输出对应的用户情绪状态的类型;
所述训练样本库(3)保存有不同情绪的语音样本,通过所述情绪状态特征量提取模块(1)获取的用户情绪状态类型,可以在训练样本库中找到对应的情绪语音样本;
所述辨别器模块(4)在以情绪语音样本为基准进行训练后,对语音生成器模块(5)生成的赋情绪语音进行真伪判别,判别结果为伪时,继续训练语音生成器模块(5),重新生成赋情绪语音,最终输出判别结果为真的赋情绪语音。
所述语音生成器模块(5)用于调整叠加了随机变量的语音片段的特征量,生成赋情绪语音。
7.根据权利要求6所述的一种基于对抗型人工智能网络的语音服务系统,其特征在于,所述情绪特征提取模块(1)包括语音处理单元、语音加窗分帧单元、特征量提取单元;其中,
所述语音处理单元用于对输入的用户语音进行滤波、采样、量化、预加重处理;
所述语音加窗分帧单元用于将语音划分为若干个语音帧;
所述特征量提取单元用于提取每一个语音帧的语音持续时间、短时能量极值和均值、基音频率、共振峰作为所述特征量。
8.根据权利要求6所述的一种基于对抗型人工智能网络的语音服务系统,其特征在于,所述BP神经网络模块(2)包括BP神经网络训练单元、BP神经网络单元;其中,
所述BP神经网络训练单元用于训练新建立的BP神经网络,首先预设高兴、气愤、低落、害怕和中性五种情绪状态类型,每种情绪状态类型收集一定的训练样本,并通过所述情绪特征提取模块(1)提取训练语音样本的特征量,将训练语音样本的特征量输入到新建立的BP神经网络中,比对输出的情绪状态类型和预期情绪状态类型是否吻合,若不吻合,不断修正各层权值直至吻合,从而完成对新建立的BP神经网络的训练;
所述BP神经网络单元为通过所述BP神经网络训练单元训练完成的BP神经网络,用于分析识别输入的用户语音的特征量,并输出准确的用户情绪状态的类型。
9.根据权利要求6所述的一种基于对抗型人工智能网络的语音服务系统,其特征在于,还包括语音库(6);其中,
所述语音库(6)中保存有事先录制的语音片段,用于组合播放与用户对话需要的语义内容;
所述语音生成器模块(5)用于将叠加了随机变量的语音片段生成为赋情绪语音,语音生成器生成赋情绪语音后,将赋情绪语音输入到辨别器中;
所述辨别器模块(4)以所述情绪语音样本为基准,对赋情绪语音进行真伪判别,判别结果为伪时,则反馈给所述语音生成器模块(5),通过训练所述语音生成器模块(5),重新生成赋情绪语音,直至所述辨别器模块(4)对所述语音生成器模块(5)生成的赋情绪语音判别结果为真,输出情绪状态类型与情绪语音样本相同的赋情绪语音。
10.根据权利要求6所述的一种基于对抗型人工智能网络的语音服务系统,其特征在于,智能设备基于与用户对话的需要,产生语义内容,根据产生的语义内容在语音库中找到对应的语音片段,随机变量与原始语音叠加后,输入到语音生成器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910586563.6A CN110379441B (zh) | 2019-07-01 | 2019-07-01 | 一种基于对抗型人工智能网络的语音服务方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910586563.6A CN110379441B (zh) | 2019-07-01 | 2019-07-01 | 一种基于对抗型人工智能网络的语音服务方法与系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110379441A true CN110379441A (zh) | 2019-10-25 |
CN110379441B CN110379441B (zh) | 2020-07-17 |
Family
ID=68251530
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910586563.6A Active CN110379441B (zh) | 2019-07-01 | 2019-07-01 | 一种基于对抗型人工智能网络的语音服务方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110379441B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111243569A (zh) * | 2020-02-24 | 2020-06-05 | 浙江工业大学 | 基于生成式对抗网络的情感语音自动生成方法及装置 |
CN111583935A (zh) * | 2020-04-02 | 2020-08-25 | 深圳壹账通智能科技有限公司 | 贷款智能进件方法、装置及存储介质 |
CN111933187A (zh) * | 2020-09-21 | 2020-11-13 | 深圳追一科技有限公司 | 情感识别模型的训练方法、装置、计算机设备和存储介质 |
CN112837676A (zh) * | 2019-11-04 | 2021-05-25 | 深圳市优必选科技股份有限公司 | 一种语句生成方法、语句生成装置及智能设备 |
CN112908300A (zh) * | 2021-01-16 | 2021-06-04 | 西安电子科技大学 | 一种语音对抗样本检测方法、系统、存储介质及应用 |
CN113380261A (zh) * | 2021-05-26 | 2021-09-10 | 特斯联科技集团有限公司 | 一种人工智能语音采集处理器及方法 |
CN113422876A (zh) * | 2021-06-24 | 2021-09-21 | 广西电网有限责任公司 | 基于ai的电力客服中心辅助管理方法、系统及介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104538027A (zh) * | 2014-12-12 | 2015-04-22 | 复旦大学 | 语音社交媒体的情绪传播计算方法及系统 |
CN105761720A (zh) * | 2016-04-19 | 2016-07-13 | 北京地平线机器人技术研发有限公司 | 一种基于语音属性分类的交互系统及其方法 |
CN108053840A (zh) * | 2017-12-29 | 2018-05-18 | 广州势必可赢网络科技有限公司 | 一种基于pca-bp的情绪识别方法及系统 |
CN108564942A (zh) * | 2018-04-04 | 2018-09-21 | 南京师范大学 | 一种基于敏感度可调的语音情感识别方法及系统 |
CN108806667A (zh) * | 2018-05-29 | 2018-11-13 | 重庆大学 | 基于神经网络的语音与情绪的同步识别方法 |
CN109243492A (zh) * | 2018-10-28 | 2019-01-18 | 国家计算机网络与信息安全管理中心 | 一种语音情感识别系统及识别方法 |
WO2019102884A1 (ja) * | 2017-11-21 | 2019-05-31 | 日本電信電話株式会社 | ラベル生成装置、モデル学習装置、感情認識装置、それらの方法、プログラム、および記録媒体 |
-
2019
- 2019-07-01 CN CN201910586563.6A patent/CN110379441B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104538027A (zh) * | 2014-12-12 | 2015-04-22 | 复旦大学 | 语音社交媒体的情绪传播计算方法及系统 |
CN105761720A (zh) * | 2016-04-19 | 2016-07-13 | 北京地平线机器人技术研发有限公司 | 一种基于语音属性分类的交互系统及其方法 |
WO2019102884A1 (ja) * | 2017-11-21 | 2019-05-31 | 日本電信電話株式会社 | ラベル生成装置、モデル学習装置、感情認識装置、それらの方法、プログラム、および記録媒体 |
CN108053840A (zh) * | 2017-12-29 | 2018-05-18 | 广州势必可赢网络科技有限公司 | 一种基于pca-bp的情绪识别方法及系统 |
CN108564942A (zh) * | 2018-04-04 | 2018-09-21 | 南京师范大学 | 一种基于敏感度可调的语音情感识别方法及系统 |
CN108806667A (zh) * | 2018-05-29 | 2018-11-13 | 重庆大学 | 基于神经网络的语音与情绪的同步识别方法 |
CN109243492A (zh) * | 2018-10-28 | 2019-01-18 | 国家计算机网络与信息安全管理中心 | 一种语音情感识别系统及识别方法 |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112837676B (zh) * | 2019-11-04 | 2023-12-01 | 深圳市优必选科技股份有限公司 | 一种语句生成方法、语句生成装置及智能设备 |
CN112837676A (zh) * | 2019-11-04 | 2021-05-25 | 深圳市优必选科技股份有限公司 | 一种语句生成方法、语句生成装置及智能设备 |
CN111243569B (zh) * | 2020-02-24 | 2022-03-08 | 浙江工业大学 | 基于生成式对抗网络的情感语音自动生成方法及装置 |
CN111243569A (zh) * | 2020-02-24 | 2020-06-05 | 浙江工业大学 | 基于生成式对抗网络的情感语音自动生成方法及装置 |
CN111583935A (zh) * | 2020-04-02 | 2020-08-25 | 深圳壹账通智能科技有限公司 | 贷款智能进件方法、装置及存储介质 |
CN111933187B (zh) * | 2020-09-21 | 2021-02-05 | 深圳追一科技有限公司 | 情感识别模型的训练方法、装置、计算机设备和存储介质 |
CN111933187A (zh) * | 2020-09-21 | 2020-11-13 | 深圳追一科技有限公司 | 情感识别模型的训练方法、装置、计算机设备和存储介质 |
CN112908300A (zh) * | 2021-01-16 | 2021-06-04 | 西安电子科技大学 | 一种语音对抗样本检测方法、系统、存储介质及应用 |
CN112908300B (zh) * | 2021-01-16 | 2024-05-17 | 西安电子科技大学 | 一种语音对抗样本检测方法、系统、存储介质及应用 |
CN113380261A (zh) * | 2021-05-26 | 2021-09-10 | 特斯联科技集团有限公司 | 一种人工智能语音采集处理器及方法 |
CN113380261B (zh) * | 2021-05-26 | 2021-12-31 | 特斯联科技集团有限公司 | 一种人工智能语音采集处理器及方法 |
CN113422876A (zh) * | 2021-06-24 | 2021-09-21 | 广西电网有限责任公司 | 基于ai的电力客服中心辅助管理方法、系统及介质 |
CN113422876B (zh) * | 2021-06-24 | 2022-05-10 | 广西电网有限责任公司 | 基于ai的电力客服中心辅助管理方法、系统及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110379441B (zh) | 2020-07-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110379441A (zh) | 一种基于对抗型人工智能网络的语音服务方法与系统 | |
CN107293289A (zh) | 一种基于深度卷积生成对抗网络的语音生成方法 | |
CN108564942B (zh) | 一种基于敏感度可调的语音情感识别方法及系统 | |
CN109243494B (zh) | 基于多重注意力机制长短时记忆网络的儿童情感识别方法 | |
CN104102181B (zh) | 智能家居控制方法、装置及系统 | |
CN108806667A (zh) | 基于神经网络的语音与情绪的同步识别方法 | |
CN108597496A (zh) | 一种基于生成式对抗网络的语音生成方法及装置 | |
CN106504772B (zh) | 基于重要性权重支持向量机分类器的语音情感识别方法 | |
CN104575504A (zh) | 采用声纹和语音识别进行个性化电视语音唤醒的方法 | |
CN105590625A (zh) | 声学模型自适应方法及系统 | |
CN112259080B (zh) | 一种基于神经网络模型的语音识别方法 | |
CN106653020A (zh) | 一种基于深度学习的智慧视听设备多业务控制方法及系统 | |
CN105575383A (zh) | 利用用户的语音特征的对象信息语音输出控制装置及方法 | |
CN112562698B (zh) | 一种基于声源信息与热成像特征融合的电力设备缺陷诊断方法 | |
CN109243492A (zh) | 一种语音情感识别系统及识别方法 | |
CN103000172A (zh) | 信号分类方法和装置 | |
CN109448702A (zh) | 人工耳蜗听觉场景识别方法 | |
CN111105798B (zh) | 基于语音识别的设备控制方法 | |
CN111724769A (zh) | 一种智能家居语音识别模型的生产方法 | |
CN114495973A (zh) | 一种基于双路径自注意力机制的特定人语音分离方法 | |
Peng et al. | Auditory-inspired end-to-end speech emotion recognition using 3D convolutional recurrent neural networks based on spectral-temporal representation | |
CN113035203A (zh) | 一种动态变换语音应答风格的控制方法 | |
CN111402919B (zh) | 一种基于多尺度多视图的戏曲唱腔风格识别方法 | |
CN112233655A (zh) | 一种提高语音命令词识别性能的神经网络训练方法 | |
CN108831486B (zh) | 基于dnn与gmm模型的说话人识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |