CN114974312A - 一种虚拟人情绪生成方法与系统 - Google Patents
一种虚拟人情绪生成方法与系统 Download PDFInfo
- Publication number
- CN114974312A CN114974312A CN202210902311.1A CN202210902311A CN114974312A CN 114974312 A CN114974312 A CN 114974312A CN 202210902311 A CN202210902311 A CN 202210902311A CN 114974312 A CN114974312 A CN 114974312A
- Authority
- CN
- China
- Prior art keywords
- emotion
- virtual human
- emotional
- audio information
- parameter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 195
- 238000000034 method Methods 0.000 title claims abstract description 44
- 230000006397 emotional response Effects 0.000 claims abstract description 19
- 238000005316 response function Methods 0.000 claims abstract description 17
- 230000006854 communication Effects 0.000 claims abstract description 6
- 230000000694 effects Effects 0.000 claims abstract description 4
- 230000002996 emotional effect Effects 0.000 claims description 48
- 230000036651 mood Effects 0.000 claims description 31
- 238000000605 extraction Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 11
- 238000013145 classification model Methods 0.000 claims description 10
- 230000007935 neutral effect Effects 0.000 claims description 10
- 238000006243 chemical reaction Methods 0.000 claims description 9
- 241000282414 Homo sapiens Species 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 8
- 230000006870 function Effects 0.000 claims description 8
- 238000012706 support-vector machine Methods 0.000 claims description 8
- 238000004891 communication Methods 0.000 claims description 4
- 241000084490 Esenbeckia delta Species 0.000 claims description 3
- 238000010801 machine learning Methods 0.000 claims description 3
- 238000004088 simulation Methods 0.000 claims description 3
- 230000008859 change Effects 0.000 abstract description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000011161 development Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000002790 cross-validation Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 208000027534 Emotional disease Diseases 0.000 description 1
- 238000012952 Resampling Methods 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000005674 electromagnetic induction Effects 0.000 description 1
- 230000008909 emotion recognition Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000035790 physiological processes and functions Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 230000003938 response to stress Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000000638 stimulation Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Psychiatry (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Child & Adolescent Psychology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Hospice & Palliative Care (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明涉及一种虚拟人情绪生成方法以及系统;所述生成方法通过采集模块记录用户与虚拟人交流过程中的声音音频,并从声音音频中提取多个特征以及特征值;进一步的,使用分类模块对多个特征以及特征值进行基于n项情绪的分类,并计算n项情绪中每一项的情绪能量;进一步的,获取虚拟人实时的情绪指数,根据实时的情绪指数获取对应的情绪反应函数,并计算情绪增量;该情绪反应函数用于反映基于当前情绪状况下,特定情绪能量能产生对情绪的影响效果;进一步的,根据情绪增量更新所述情绪参数后,驱动虚拟人的情绪发生相应变化。
Description
技术领域
本发明涉及电子数字数据处理技术领域。具体而言,涉及一种虚拟人情绪生成方法与系统。
背景技术
虚拟人技术随着近年虚拟空间图像技术以及人工智能技术的高速发展,成为了一项社会重点研究和发展的领域,是体现以下两项技术的综合应用实力的一项最重要体现。而关于虚拟人的情绪驱动生成方面的研究目前还存在较大的开发困难。由于情绪具有较大的情境性和短暂性,真实人类本身的情绪研究本身仍存在较大的不确定性,因此虚拟人的情绪生成机制和系统目前尚有很大的开发空间。
在一个方面,虚拟人在与人类进行互动的实质,是由虚拟人本身的个性,通过接受外部的刺激,并分析刺激的本质,从而作出合理的反应;因此需要建立虚拟人本身的个性属性,从而形成一个情绪机制启动的出发点和基础;另一方面,需要分析和处理外部环境对于虚拟人的影响,并计算虚拟人对于外部影响所产生的反应以及下一步动作的动机,从而生成兼具合理性、拟人性以及具有可持续发展的情绪表现。
查阅相关已公开的技术方案,公开号为KR1020080074758A的技术方案通过检测虚拟空间的环境信息并根据对象之间的相互作用来检测发生的外部事件来生成传感器值,并通过该传感器值驱动虚拟人物的情绪或生理状态进行变化;公开号为JP2003071772A的技术方案中,对出一种利用电磁感应传感器进行外部感应的的电子宠物,并通过所感应的物件生成该电子宠物的不同情绪与外部反应;公开号为WO2021150492A1的技术方案通过读取并分析虚拟角色在游戏中的经历以及虚拟角色在游戏中的配置设定文件,从而基于经历中不同的特征值驱动虚拟角色的性格以及情感发生不变程度的改变。然而目前的技术方案所设定的虚拟人物情绪表现相对固化,还无法实时地基于虚拟人当前的经历展示出更近似于人类的情绪化表现。
背景技术的前述论述仅意图便于理解本发明。此论述并不认可或承认提及的材料中的任一种公共常识的一部分。
发明内容
本发明的目的在于,提供一种虚拟人情绪生成方法以及系统;所述生成方法通过采集模块记录用户与虚拟人交流过程中的声音音频,并从声音音频中提取多个特征以及特征值;进一步的,使用分类模块对多个特征以及特征值进行基于n项情绪的分类,并计算n项情绪中每一项的情绪能量;进一步的,获取虚拟人实时的情绪指数,根据实时的情绪指数获取对应的情绪反应函数,并计算情绪增量;该情绪反应函数用于反映基于当前情绪状况下,特定情绪能量能产生对情绪的影响效果;进一步的,根据情绪增量更新所述情绪参数后,驱动虚拟人的情绪发生相应变化。
本发明采用如下技术方案:
一种生成虚拟人情绪生成系统;所述生成系统包括:
一种虚拟人情绪生成系统,所述生成系统包括采集模块、特征提取模块、分类模块以及情绪驱动模块;其中
所述采集模块,被配置为用于采集用户与虚拟人交流时的声音,并将声音转换为可被所述特征提取模块识别的数字音频信息;
所述特征提取模块,被配置为从一段音频信息中进行特征提取,从而获得多个特征以及对应的特征值;
所述分类模块,被配置为使用一段音频信息中包括的多个特征以及对应特征值中的至少一部分进行情绪分类,从而计算该段音频信息中提供的n项情绪参数能量q1,q2……qn,并将计算结果上传输到情绪驱动模块;
所述情绪驱动模块,被配置为保存情绪参数,根据所述分类模块的计算结果,更新所述情绪参数,并根据所述情绪参数生成虚拟人的实时情绪表现;
进一步的,所述生成系统包括一种虚拟人情绪生成方法;所述生成方法包括采集阶段、处理阶段以及反应阶段;
在所述采集阶段,包括以下步骤:
S1:采集并存储当前与虚拟人交流的用户的音频信息;
S2:提取音频信息中的语气和语义中包含的多个特征,并分析每个特征对应的特征值fi,i=1,2,3……;
S3:基于多个特征值fi对音频进行基于n项情绪的分类,并且计算分类后的n项情绪每项的强度,从而获得该音频提供的n项情绪参数能量q1,q2……qn;
在所述处理阶段,包括以下步骤:
E1:获取驱动虚拟人情绪表现的每项情绪的情绪参数EM,即EM=[em1,em2……emn],其中em1,em2……emn为所述情绪参数EM中的n项情绪子参数;
E2:基于多个情绪子参数的当前值,确定每项情绪的情绪等级EL=[el1,el2……eln],并调用对应该等级的情绪反应函数FEL(),即FEL()=[Fel1()、Fel2()……Feln()];
E3:将n项情绪参数能量作为激励,输入到对应的情绪反应函数中,获取情绪增量ΔEM;所述情绪增量ΔEM包括n项情绪子增量,即ΔEM=[Δem1,Δem2……Δemn],并且:
式1中,i=1,2,……n;
在所述反应阶段,包括以下步骤:
R1:获取情绪模拟单元中的所述情绪增量ΔEM的阈值,阈值包括上限max(Δemi)和下限min(Δemi);
R2:根据以下条件式,计算每一项所述情绪子增量Δemi的实际效用能量Δef-emi:
上式表明,若一项所述情绪子增量Δemi超过其上限max(Δemi),则抑制该项所述情绪子增量Δemi;另一方面若所述情绪子增量Δemi未达到一阈值min(Δemi),则忽略其作用;其中,上限max(Δemi)和下限min(Δemi)决定虚拟人的情绪承受能力,由技术人员根据虚拟人的情绪承受力设定。
R3:更新所述情绪参数EM,即使更新后的EM´=EM+ΔEM,从而由更新后的所述情绪参数EM´生成新的虚拟人最新的情绪表现;
可选地,所述n项情绪分类的类别中至少包括中立情绪;并且分类的类别中还包括以下情绪的三项或三项以上:快乐、愤怒、恐惧、悲伤和厌恶;
可选地,在采集阶段的步骤S2中,包括:
读取音频信息;
从音频信息中计算一组梅尔频率倒谱系数;
从音频信息中确定多个声学变量;
计算这些声学变量在音频信息中的平均值、标准差、最大值和最小值;
可选地,在采集阶段中,包括采用基于机器学习的情绪分类模型进行情绪分类;所述情绪分类模型基于支持向量机内核而建立;
可选地,所述生成方法还包括衰减阶段;当虚拟人与外部不存在任何语音交流时随即开始所述衰减阶段;在所述衰减阶段中的每个时间周期Δt中,所述情绪参数EM的每一项情绪子参数emi基于以下衰减函数进行更新:
上式中,e为自然常数,ci为第i项情绪的衰减系数且ci>0,由技术人员根据虚拟人的性格决定;Δt为单位时间周期,取值为0.1秒,0.5秒,1秒或者其他时间数值,由技术人员根据虚拟人的情绪稳定性决定。
本发明所取得的有益效果是:
1. 本发明的生成方法基于用户与虚拟人进行声音交流时的语音特征,分析用户本身的语气以及语义所具有的内在情绪表现,从而驱动虚拟人作对应的情绪反应;
2. 本发明的生成法基于情绪参数驱动虚拟人的实时情绪反应;通过设定在不同情绪参数下具有不同的情绪反应函数,模拟人类处理不同情绪状态下针对不同的外部刺激具有超出一般表现的情绪反应;通过设定情绪增量的上、下限阈值,模拟虚拟人对于不同情绪的承受能力以及敏感程度;
3. 本发明的生成系统适用于纯数字形象的虚拟人系统,同时亦可适用接入诸如虚拟机器人或者其他虚拟-现实结合的虚拟人系统;
本发明的生成系统其硬件模块以及装置采用模块化设计和配合,后期可通过软件、硬件进行灵活优化和变更,节省了大量后期维护升级成本。
附图说明
从以下结合附图的描述可以进一步理解本发明。图中的部件不一定按比例绘制,而是将重点放在示出实施例的原理上。在不同的视图中,相同的附图标记指定对应的部分。
图1为本发明所述生成方法的原理示意图;
图2为本发明中所述采集阶段的步骤示意图;
图3为本发明实施例中对情绪进行分类的示意图;
图4为本发明中三个不同的情绪等级下的情绪反应函数的示意图。
附图图例说明:101-采集阶段;102-处理阶段;103-反应阶段;104-衰减阶段;301-音频信息;302-一阶段分类;303-类别1的二阶段分类;304-类别2的二阶段分类。
具体实施方式
为了使得本发明的目的技术方案及优点更加清楚明白,以下结合其实施例,对本发明进行进一步详细说明;应当理解,此处所描述的具体实施例仅用于解释本发明 ,并不用于限定本发明。对于本领域技术人员而言,在查阅以下详细描述之后,本实施例的其它系统.方法和/或特征将变得显而易见。旨在所有此类附加的系统、方法、特征和优点都包括在本说明书内.包括在本发明的范围内,并且受所附权利要求书的保护。在以下详细描述描述了所公开的实施例的另外的特征,并且这些特征根据以下将详细描述将是显而易见的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或组件必须具有特定的方位.以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
实施例一:
一种生成虚拟人情绪生成系统;所述生成系统包括:
一种虚拟人情绪生成系统,所述生成系统包括采集模块、特征提取模块、分类模块以及情绪驱动模块;其中
所述采集模块,被配置为用于采集用户与虚拟人交流时的声音,并将声音转换为可被所述特征提取模块识别的数字音频信息;
所述特征提取模块,被配置为从一段音频信息中进行特征提取,从而获得多个特征以及对应的特征值;
所述分类模块,被配置为使用一段音频信息中包括的多个特征以及对应特征值中的至少一部分进行情绪分类,从而计算该段音频信息中提供的n项情绪参数能量q1,q2……qn,并将计算结果上传输到情绪驱动模块;
所述情绪驱动模块,被配置为保存情绪参数,根据所述分类模块的计算结果,更新所述情绪参数,并根据所述情绪参数生成虚拟人的实时情绪表现;
如附图1所示,进一步的,所述生成系统包括一种虚拟人情绪生成方法;所述生成方法包括采集阶段、处理阶段以及反应阶段;
在所述采集阶段,包括以下步骤:
S1:采集并存储当前与虚拟人交流的用户的音频信息;
S2:提取音频信息中的语气和语义中包含的多个特征,并分析每个特征对应的特征值fi,i=1,2,3……;
S3:基于多个特征值fi对音频进行基于n项情绪的分类,并且计算分类后的n项情绪每项的强度,从而获得该音频提供的n项情绪参数能量q1,q2……qn;
在所述处理阶段,包括以下步骤:
E1:获取驱动虚拟人情绪表现的每项情绪的情绪参数EM,即EM=[em1,em2……emn],其中em1,em2……emn为所述情绪参数EM中的n项情绪子参数;
E2:基于多个情绪子参数的当前值,确定每项情绪的情绪等级EL=[el1,el2……eln],并调用对应该等级的情绪反应函数FEL(),即FEL()=[Fel1()、Fel2()……Feln()];
E3:将n项情绪参数能量作为激励,输入到对应的情绪反应函数中,获取情绪增量ΔEM;所述情绪增量ΔEM包括n项情绪子增量,即ΔEM=[Δem1,Δem2……Δemn],并且:
式1中,i=1,2,……n;
在所述反应阶段,包括以下步骤:
R1:获取情绪模拟单元中的所述情绪增量ΔEM的阈值,阈值包括上限max(Δemi)和下限min(Δemi);
R2:根据以下条件式,计算每一项所述情绪子增量Δemi的实际效用能量Δef-emi:
上式表明,若一项所述情绪子增量Δemi超过其上限max(Δemi),则抑制该项所述情绪子增量Δemi;另一方面若所述情绪子增量Δemi未达到一阈值min(Δemi),则忽略其作用;其中,上限max(Δemi)和下限min(Δemi)决定虚拟人的情绪承受能力,由技术人员根据虚拟人的情绪承受力设定。
R3:更新所述情绪参数EM,即使更新后的EM´=EM+ΔEM,从而由更新后的所述情绪参数EM´生成新的虚拟人最新的情绪表现;
可选地,所述n项情绪分类的类别中至少包括中立情绪;并且分类的类别中还包括以下情绪的三项或三项以上:快乐、愤怒、恐惧、悲伤和厌恶。
可选地,在采集阶段的步骤S2中,包括:
读取音频信息;
从音频信息中计算一组梅尔频率倒谱系数;
从音频信息中确定多个声学变量;
计算这些声学变量在音频信息中的平均值、标准差、最大值和最小值;
可选地,在采集阶段中,包括采用基于机器学习的情绪分类模型进行情绪分类;所述情绪分类模型基于支持向量机内核而建立;
可选地,所述生成方法还包括衰减阶段;当虚拟人与外部不存在任何语音交流时随即开始所述衰减阶段;在所述衰减阶段中的每个时间周期Δt中,所述情绪参数EM的每一项情绪子参数emi基于以下衰减函数进行更新:
上式中,e为自然常数,ci为第i项情绪的衰减系数且ci>0,由技术人员根据虚拟人的性格决定;Δt为单位时间周期,取值为0.1秒,0.5秒,1秒或者其他时间数值,由技术人员根据虚拟人的情绪稳定性决定;
其中,虚拟人的当前情绪由所述情绪参数EM中n项所述情绪子参数驱动从而作出情绪表现;例如,当所述情绪子参数中代表快乐的子参数具有较高数值时,则驱动虚拟人产生快乐的情绪;当所述情绪子参数中代表中立的子参数与悲伤的子参数较高时,则可以驱动虚拟人具有悲伤情绪的冲动,而同时受自身中立情绪压制着悲伤的情绪;
在一种实施方式中,如附图2所示的采集阶段,采集模块可以包括各类音频捕获设备,例如麦克风;音频信息由麦克风或其他音频捕获设备捕获的语音中获得的数据;在一些实施方式中,音频信息包括的无声部分被删除;通过截断音频信息并丢弃无助于情绪识别的数据,去除音频的无声部分可以提高系统的速度和效率;此外,从语音信号和滤波器中去除静音间隔,从而减少来自活动语音段的级联的失真;这在计算与语音相关的平均量时很有用,因为它消除了单词和音节之间的静默停顿,这在人与人之间可能会发生很大变化并影响性能计算;
但相对地在一些实施方式中,无声部分同样可作为一种情绪的表达,例如等待或者无奈的表现;这取决于虚拟人系统本身的处理能力或者需要接收外界信息的细节程度来决定是否去除无声部分;
进一步的,对采集后的音频信息进行模数转换以及重采样步骤,从而实现将采集到的原有模拟信号转化为具有目标采样频率的数字信号;
进一步的,对音频信息提取计算语音特征;常见的一种算法为梅尔频率倒谱系数(MFCC);MFCC系数是通过将信号与宽度随着频率增加而增加的三角形箱进行分箱来生成的;梅尔频率倒谱系数通常用于语音和情感分类;因此,本领域技术人员将理解可以使用许多计算系数的方法;
在优选的实施方法中,使用15个韵律特征和45个语音特征,用于描述音频信息的基频和幅度;韵律特征在实时情感分类中很有用,通过使用话语能够准确地反映在话语音频中的情感状态;
其中,使用基于次谐波与谐波比的音调确定算法来确定音频信息的基频的水平音高、音域范围和轮廓,以上声学变量均与情感特征密切相关,可以根据以上声学变量的特征用于分析音频所包含的发言人需要表现的情绪;例如,在快乐情绪下的说话音频的基频会随之增加,并且平均语音强度增加,音频的特征具有较高的可变性;而无聊或中立情绪下的与基频会随之降低,并且声学变量的标准差较小;
与仅使用韵律特征相比,一起结合使用韵律特征和语音特征有助于实现更高的分类准确度;在一些实施方法中,特征统计更侧重于各项声学变量的统计参数,例如均值、标准差、最小值、最大值和范围;
进一步的,特征被提取后继续用于对音频信息进行分类;
在一种实施方法中,采集阶段的步骤S3如附图3所示,所述分析模块分为两个阶段为音频信息进行分类,在两阶段分类中,在步骤301中,音频信息输入到所述分析模块;在步骤302,数据被分类为类别1和类别2两种情绪;在优选的一种实施方法中,类别1包括中性和积极的情绪,例如快乐的情绪;类别2包括消极的情绪,例如愤怒和悲伤;并且在第二阶段的步骤303中,进一步将类别1中的中立或积极情绪作进一步的区别;同样地,在步骤304中,进一步将类别2中的消极情绪作进一步的区别;优选地,以上步骤302、303、304中,均配置一个基于支持向量机的分类器,用于每一阶段的情绪类别的分类操作;
出于分类的目的并且基于支持向量机(SVM)的特性,使用具有线性、二次和径向基函数内核的支持向量机来生成用于优化分类的超平面;根据虚拟人的特定应用,可以针对不同的内核使用不同的参数运行优化,并且为每个分类存储最佳性能模型及其参数,以便稍后与虚拟人一起使用;
例如基于一种与年龄较小的用户进行互动的虚拟人,其情绪分类的模型及其参数则基于该年龄段的语言特点进行调教,且明显区别于成年人,或者专业性更强的使用场合;
进一步的,需要训练对于情绪的分类模型以运行于支持向量机的分类操作;其中每个分类器必须运行分类模型,并且优选地可以基于所需要的分类任务,配置不同的分类模型;在一种训练方法中,对模型的训练集使用十折交叉验证方法,即将每种情绪对应的音频集合随机分组为10份等大小的数据组;轮流将其中9份作为训练数据,1份作为测试数据,进行试验;每次试验都会得出相应的正确率(或差错率);10次的结果的正确率(或差错率)的平均值作为对算法精度的估计,一般还需要进行多次十折交叉验证,例如进行5次或者10次的十折交叉验证,再求其均值,作为对算法准确性的估计;
进一步的,基于以上方法,包括设定更多的分类器以及分类模型,对每种情绪进行情绪能量等级的划分;在一些实施例中,包括将除“中立”以外的具有明显特征的情绪,例如“快乐”或“愤怒”分为5个等级程度:非常高、比较高、一般、较为轻微、极轻微;而在使用更高运算能力的分类器中,可以将情绪能量等级划分为8级或者10级;
进一步的,并且对对应不同数据的情绪能量等级进行数值化,以映射到不同的情绪参数能量;例如在非常高等级,其情绪参数能量为10;而在一般等级,其情绪参数能量为5;从而将用户的音频信息,转化为具有n项情绪参数能量的输入量,进入下一阶段,即所述处理阶段。
实施例二:
本实施例应当理解为至少包含前述任意一个实施例的全部特征,并在其基础上进一步改进;
人类在不同情绪状态下,接受同一种外界刺激后,会产生不同的应激反应;例如,在比较快乐情绪下,接收一中等程度快乐的信息时,其表现不会出现太大改变;而在一中立情绪下,接收与上述相同的中等程度快乐的信息时,则其情绪相对地产生较大的起伏,从而表现出明显的快乐情绪;因此,为了进一步模拟人类在一定情绪基调下,在受到情绪刺激时产生具有差异化的情绪反应,所述生成方法包括在所述处理阶段对虚拟人的情绪生成作进一步的细化计算;
其中,在步骤E1中,需要获取虚拟人当前的所述情绪参数,亦即确定虚拟人当前的情绪状态;
从而在步骤E2中,针对不同的情绪状态,可以由所述情绪驱动模块输出对应该情绪状态对于外界刺激的一个反应;
如附图4所示,该函数曲线示意图包括了对应于第i项情绪中,三个不同的情绪等级下的所述情绪反应函数Feli();其中第一曲线401对应于一较低的情绪等级eli=1,第二曲线402对应于一中等程度的情绪等级eli=3,第三曲线403对应于一较低的情绪等级eli=5;
可见,对于一个确定的情绪能量q的刺激,由于在不同的情绪等级下,其情绪反应函数具有不同的输出值,因此,将会获得不同的情绪子增量Δemi;亦即获得不同的情绪变化的驱动;
进一步的,所述情绪反应函数根据设计人员对虚拟人的情感特性、性格特性等属性进行设定;所述情绪反应函数在一些实施方式中,可以为单调函数,即随着情绪能量的增加,情绪子增量亦随之增加;然而在一些实施方式中,所述情绪反应函数可以为常量,即设定虚拟人对某项情绪作出的表现恒定,该设定方式适合于一些较为严肃性格的虚拟人,或者应用于一些特殊需要的用户或应用场景。
实施例三:
本实施例应当理解为至少包含前述任意一个实施例的全部特征,并在其基础上进一步改进;
进一步的,在所述处理阶段以及所述衰减阶段,虚拟人的所述情绪参数随着各项情绪子增量的改变,从而情绪上出现相应的变化;
其中,所述衰减函数用于表现虚拟人的情绪随时间的推移并出现平复;
式2中,ci为第i项情绪的衰减系数,可选地,若设定虚拟人的某项情绪能够较快平复,则可以设定ci为一个较大的值,令情绪参数的衰减随时间的推移更快,并且迅速地到达0;
而若设定虚拟人的情绪更持续,例如具有较为感性的性格设定,则可以将ci设为更接近于0的值,例如0.5,或者0.2;则如此,虚拟人的情绪可以保持的时间更长;
进一步的,基于虚拟人的n项情绪子参数的每一项,可以设定为不同的ci值,用于表现虚拟人在各项情绪上的特征,例如乐观性格的虚拟人,其快乐情绪相比悲伤应该维持得更久;而需要表现虚拟人为冲动个性的,可以令愤怒情绪的上限值相对较高,但是衰减速度亦相对较快,以表现其可以达到较大的愤怒程度同时恢复的时间更短;
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
虽然上面已经参考各种实施例描述了本发明,但是应当理解,在不脱离本发明的范围的情况下,可以进行许多改变和修改。也就是说上面讨论的方法,系统和设备是示例。各种配置可以适当地省略,替换或添加各种过程或组件。例如,在替代配置中,可以以与所描述的顺序不同的顺序执行方法,和/或可以添加,省略和/或组合各种部件。而且,关于某些配置描述的特征可以以各种其他配置组合,如可以以类似的方式组合配置的不同方面和元素。此外,随着技术发展其中的元素可以更新,即许多元素是示例,并不限制本公开或权利要求的范围。
在说明书中给出了具体细节以提供对包括实现的示例性配置的透彻理解。然而,可以在没有这些具体细节的情况下实践配置例如,已经示出了众所周知的电路,过程,算法,结构和技术而没有不必要的细节,以避免模糊配置。该描述仅提供示例配置,并且不限制权利要求的范围,适用性或配置。相反,前面对配置的描述将为本领域技术人员提供用于实现所描述的技术的使能描述。在不脱离本公开的精神或范围的情况下,可以对元件的功能和布置进行各种改变。
综上,其旨在上述详细描述被认为是例示性的而非限制性的,并且应当理解,以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。
Claims (6)
1.一种虚拟人情绪生成系统,其特征在于,所述生成系统包括采集模块、特征提取模块、分类模块以及情绪驱动模块;其中
所述采集模块,被配置为用于采集用户与虚拟人交流时的声音,并将声音转换为可被特征提取模块识别的数字音频信息;
所述特征提取模块,被配置为从一段音频信息中进行特征提取,从而获得多个特征以及对应的特征值;
所述分类模块,被配置为使用一段音频信息中包括的多个特征以及对应特征值中的至少一部分进行情绪分类,从而计算该段音频信息中提供的n项情绪参数能量q1,q2……qn,并将计算结果上传输到情绪驱动模块;
所述情绪驱动模块,被配置为保存情绪参数,根据所述分类模块的计算结果,更新所述情绪参数,并根据所述情绪参数生成虚拟人的实时情绪表现。
2.一种虚拟人情绪生成方法,其特征在于,所述生成方法运行在如权利要求1所述的生成系统;所述生成方法包括采集阶段、处理阶段以及反应阶段;
在所述采集阶段,包括以下步骤:
S1:采集并存储当前与虚拟人交流的用户的音频信息;
S2:提取音频信息中的语气和语义中包含的多个特征,并分析每个特征对应的特征值fi,i=1,2,3……;
S3:基于多个特征值fi对音频进行基于n项情绪的分类,并且计算分类后的n项情绪每项的强度,从而获得该音频提供的n项情绪参数能量q1,q2……qn;
在所述处理阶段,包括以下步骤:
E1:获取驱动虚拟人情绪表现的情绪参数EM及其数值,且EM=[em1,em2……emn],其中em1,em2……emn为所述情绪参数EM中的n项情绪子参数的数值;
E2:基于多个情绪子参数的数值,确定每项情绪的情绪等级EL=[el1,el2……eln],并调用对应该等级的情绪反应函数FEL(),即FEL()=[Fel1()、Fel2()……Feln()];
E3:将n项情绪参数能量作为激励,输入到对应的情绪反应函数中,获取情绪增量ΔEM;所述情绪增量ΔEM包括n项情绪子增量,即ΔEM=[Δem1,Δem2……Δemn],并且:
式1中,i=1,2,……n;
在所述反应阶段,包括以下步骤:
R1:获取情绪模拟单元中的所述情绪增量ΔEM的阈值,阈值包括上限max(Δemi)和下限min(Δemi);
R2:根据以下条件式,计算每一项所述情绪子增量Δemi的实际效用能量Δef-emi:
上式表明,若一项所述情绪子增量Δemi超过其上限max(Δemi),则抑制该项所述情绪子增量Δemi;另一方面若所述情绪子增量Δemi未达到一阈值min(Δemi),则忽略其作用;其中,上限max(Δemi)和下限min(Δemi)决定虚拟人的情绪承受能力,由技术人员根据虚拟人的情绪承受力设定;
R3:更新所述情绪参数EM,即使更新后的EM´=EM+ΔEM,从而由更新后的所述情绪参数EM´生成新的虚拟人最新的情绪表现。
3.如权利要求2所述一种虚拟人情绪生成方法,其特征在于,所述n项情绪分类的类别中至少包括中立情绪;并且分类的类别中还包括以下情绪的三项或三项以上:快乐、愤怒、恐惧、悲伤和厌恶。
4.如权利要求3所述一种虚拟人情绪生成方法,其特征在于,在采集阶段的步骤S2中,包括:
读取音频信息;
从音频信息中计算一组梅尔频率倒谱系数;
从音频信息中确定多个声学变量;
计算这些声学变量在音频信息中的平均值、标准差、最大值和最小值。
5.如权利要求4所述一种虚拟人情绪生成方法,其特征在于,在采集阶段中,包括采用基于机器学习的情绪分类模型进行情绪分类;所述情绪分类模型基于支持向量机内核而建立。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210902311.1A CN114974312B (zh) | 2022-07-29 | 2022-07-29 | 一种虚拟人情绪生成方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210902311.1A CN114974312B (zh) | 2022-07-29 | 2022-07-29 | 一种虚拟人情绪生成方法与系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114974312A true CN114974312A (zh) | 2022-08-30 |
CN114974312B CN114974312B (zh) | 2022-10-21 |
Family
ID=82969156
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210902311.1A Active CN114974312B (zh) | 2022-07-29 | 2022-07-29 | 一种虚拟人情绪生成方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114974312B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116483983A (zh) * | 2023-06-25 | 2023-07-25 | 启智元慧(杭州)科技有限公司 | 一种虚拟人物情绪变化量的生成方法及相关设备 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170206095A1 (en) * | 2016-01-14 | 2017-07-20 | Samsung Electronics Co., Ltd. | Virtual agent |
CN107329990A (zh) * | 2017-06-06 | 2017-11-07 | 北京光年无限科技有限公司 | 一种用于虚拟机器人的情绪输出方法以及对话交互系统 |
US9812151B1 (en) * | 2016-11-18 | 2017-11-07 | IPsoft Incorporated | Generating communicative behaviors for anthropomorphic virtual agents based on user's affect |
CN108009573A (zh) * | 2017-11-24 | 2018-05-08 | 北京物灵智能科技有限公司 | 一种机器人情绪模型生成方法、情绪模型以及交互方法 |
CN111273764A (zh) * | 2018-12-05 | 2020-06-12 | 迪士尼企业公司 | 由虚拟代理模拟的类似人类的情感驱动行为 |
CN112927721A (zh) * | 2019-12-06 | 2021-06-08 | 观致汽车有限公司 | 人车互动方法、系统以及车辆和计算机可读存储介质 |
CN113436622A (zh) * | 2020-03-04 | 2021-09-24 | 腾讯科技(深圳)有限公司 | 一种智能语音助手的处理方法及装置 |
CN114003643A (zh) * | 2021-11-09 | 2022-02-01 | 青岛进化者小胖机器人科技有限公司 | 一种机器人情感表达系统和方法 |
-
2022
- 2022-07-29 CN CN202210902311.1A patent/CN114974312B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170206095A1 (en) * | 2016-01-14 | 2017-07-20 | Samsung Electronics Co., Ltd. | Virtual agent |
US9812151B1 (en) * | 2016-11-18 | 2017-11-07 | IPsoft Incorporated | Generating communicative behaviors for anthropomorphic virtual agents based on user's affect |
CN107329990A (zh) * | 2017-06-06 | 2017-11-07 | 北京光年无限科技有限公司 | 一种用于虚拟机器人的情绪输出方法以及对话交互系统 |
CN108009573A (zh) * | 2017-11-24 | 2018-05-08 | 北京物灵智能科技有限公司 | 一种机器人情绪模型生成方法、情绪模型以及交互方法 |
CN111273764A (zh) * | 2018-12-05 | 2020-06-12 | 迪士尼企业公司 | 由虚拟代理模拟的类似人类的情感驱动行为 |
CN112927721A (zh) * | 2019-12-06 | 2021-06-08 | 观致汽车有限公司 | 人车互动方法、系统以及车辆和计算机可读存储介质 |
CN113436622A (zh) * | 2020-03-04 | 2021-09-24 | 腾讯科技(深圳)有限公司 | 一种智能语音助手的处理方法及装置 |
CN114003643A (zh) * | 2021-11-09 | 2022-02-01 | 青岛进化者小胖机器人科技有限公司 | 一种机器人情感表达系统和方法 |
Non-Patent Citations (2)
Title |
---|
FUNG,P等: "Towards Empathetic Human-Robot Interactions", 《COMPUTATIONAL LINGUISTICS AND INTELLIGENT TEXT PROCESSING》 * |
吴伟国等: "PAD情感空间内人工情感建模及人机交互实验", 《哈尔滨工业大学学报》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116483983A (zh) * | 2023-06-25 | 2023-07-25 | 启智元慧(杭州)科技有限公司 | 一种虚拟人物情绪变化量的生成方法及相关设备 |
CN116483983B (zh) * | 2023-06-25 | 2023-08-29 | 启智元慧(杭州)科技有限公司 | 一种虚拟人物情绪变化量的生成方法及相关设备 |
Also Published As
Publication number | Publication date |
---|---|
CN114974312B (zh) | 2022-10-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Shen et al. | Automatic speech emotion recognition using support vector machine | |
Umamaheswari et al. | An enhanced human speech emotion recognition using hybrid of PRNN and KNN | |
Casale et al. | Speech emotion classification using machine learning algorithms | |
CN110838286A (zh) | 一种模型训练的方法、语种识别的方法、装置及设备 | |
CN110853618A (zh) | 一种语种识别的方法、模型训练的方法、装置及设备 | |
CN110675859B (zh) | 结合语音与文本的多情感识别方法、系统、介质及设备 | |
Li et al. | Speech emotion recognition using 1d cnn with no attention | |
CN109036395A (zh) | 个性化的音箱控制方法、系统、智能音箱及存储介质 | |
KR101738142B1 (ko) | 감성 기반의 대화가 가능한 디지털 생명체 생성 시스템 및 그 제어방법 | |
CN114974312B (zh) | 一种虚拟人情绪生成方法与系统 | |
CN110580897B (zh) | 音频校验方法、装置、存储介质及电子设备 | |
Zheng et al. | An improved speech emotion recognition algorithm based on deep belief network | |
Anjum | Emotion recognition from speech for an interactive robot agent | |
Houari et al. | Study the Influence of Gender and Age in Recognition of Emotions from Algerian Dialect Speech. | |
Subramanian et al. | Audio emotion recognition by deep neural networks and machine learning algorithms | |
Alshamsi et al. | Automated speech emotion recognition on smart phones | |
Pandey et al. | Multi-cultural speech emotion recognition using language and speaker cues | |
Gomes et al. | i-vector algorithm with Gaussian Mixture Model for efficient speech emotion recognition | |
CN114595692A (zh) | 一种情绪识别方法、系统及终端设备 | |
Singh et al. | Speaker Recognition Assessment in a Continuous System for Speaker Identification | |
Cao et al. | Emotion recognition from children speech signals using attention based time series deep learning | |
Tarng et al. | Applications of support vector machines on smart phone systems for emotional speech recognition | |
Ullah et al. | Speech emotion recognition using deep neural networks | |
Pan et al. | Feature extraction and selection in speech emotion recognition | |
Shome et al. | Speaker Recognition through Deep Learning Techniques: A Comprehensive Review and Research Challenges |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |