CN106991172B - 一种多模态情感交互数据库的建立方法 - Google Patents

一种多模态情感交互数据库的建立方法 Download PDF

Info

Publication number
CN106991172B
CN106991172B CN201710216975.1A CN201710216975A CN106991172B CN 106991172 B CN106991172 B CN 106991172B CN 201710216975 A CN201710216975 A CN 201710216975A CN 106991172 B CN106991172 B CN 106991172B
Authority
CN
China
Prior art keywords
emotion
database
interaction
video
establishing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710216975.1A
Other languages
English (en)
Other versions
CN106991172A (zh
Inventor
王坤侠
朱宗宝
王世东
严辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Asiainfo Technologies China Inc
Original Assignee
Anhui Jianzhu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Jianzhu University filed Critical Anhui Jianzhu University
Priority to CN201710216975.1A priority Critical patent/CN106991172B/zh
Publication of CN106991172A publication Critical patent/CN106991172A/zh
Application granted granted Critical
Publication of CN106991172B publication Critical patent/CN106991172B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2423Interactive query statement specification based on a database schema
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/211Schema design and management
    • G06F16/212Schema design and management with details for data modelling support
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/686Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title or artist information, time, location or usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Library & Information Science (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Probability & Statistics with Applications (AREA)
  • Child & Adolescent Psychology (AREA)
  • General Health & Medical Sciences (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • User Interface Of Digital Computer (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种多模态情感交互数据库的建立方法。一、建立多模态情感交互数据库模型:I.情感类型的选择;II.情感交互概率分布的约束;III.情感概率模型的构造。二、构建多模态情感交互数据库:I.建立视频情感数据库,步骤1、选择视频素材,步骤2、截取情感视频,步骤3、标注情感类型,步骤4、制定命名规则;II、建立音频情感数据库。根据视频情感交互数据库的建立方法建立音频情感交互数据库:先是把视频数据转换成音频数据、然后进行情感标注、制定命名规则、保存数据文件和进行情感交互的分析,除去原始语音文件中的噪声,最后建成音频情感交互数据库。三、分析视频情感数据库和音频情感数据库,建立多模态情感交互数据库。

Description

一种多模态情感交互数据库的建立方法
技术领域
本发明属于多模态交互技术和情感计算领域,具体涉及一种多模态情感交互数据库的建立方法。
背景技术
情感计算是关于、产生于或故意影响情感方面的计算(Affective Computing isthe Computing that Relates to,Arises from,or Deliberately Influences E-motions)。情感计算的主轴包含了感情及情感这两个维度,但以宏观的角度来说,二者相差不大,在本文也交错使用这两个名词。心理学辞典将情感定义为:指由某种刺激(外在的刺激或内在的心理状态)所引起的、个体自觉的心理失衡状态。失衡的心理状态涵盖极为复杂的情感性反应,例如喜、怒、哀、惧、爱、恶、欲七情之说,即指出情感的复杂性。
在情感状态下,个体除会有主观感受之外,在身体上亦随之会有生理变化(如愤怒或恐惧时会心跳加速)。而情感计算,即是建构在感测这种现象发生的时候所产生的信息之上,而由于情感的外显是通过非语言的身体语言(包括脸部表情、声音语调、姿态、生理现象)来表达的。因此它刚好可以弥补自然语言的不足,作为人或计算机沟通的一个新的媒介方式。从情感的定义可以知道,情感计算的研究范围较广,涉及多个学科。一般而言,除了工程领域的信息科学及电子工程学之外,与情感计算相关的领域还包含认知科学、心理学、神经学、医学、心理生理学、社会学及伦理学等。而信息相关的技术领域则包含机器学习、图形识别、讯号处理、计算机视觉、语音分析、传感器设计、使用者导向设计、计算机动画及协议语言设计等。
与情感计算相关的研究队伍,根据地域的不同,可以分成美国、英国及其它国家三类。有关人类情感的深入研究,早在19世纪末就开始了。然而,除了科幻小说当中,过去极少有人将“感情”和无生命的机器联系在一起。让计算机具有情感能力是由美国MIT大学Minsky在1985年提出的,他认为:问题不在于智能机器能否有任何情感,而在于机器实现智能时怎么能够没有情感。从此,赋予计算机情感能力并让计算机能够理解和表达情感的研究、探讨引起了计算机界许多人士的兴趣。美国MIT媒体实验室Picard教授提出情感计算一词“AffectiveComputing”并给出了上述定义。让机器(计算机)也具备“感情”,从感知信号中提取情感特征,分析人的情感与各种感知信号的关联,是国际上近几年刚刚兴起的研究方向。
情感数据库是进行情感识别算法研究的第一步,各国研究者从各方面对情感数据库进行了研究,也建立了一些可用的情感数据库,但是分别以表情、语音这两种单模态情感数据为主,表情语音双模态的数据库较少。下面我们对国内、外在这方面的研究做一个简单地介绍。
(1)国外的研究机构和个人在情感数据库的研究方面起步较早,并由单模态向多模态发展。Ekman和Friesen于1977年提出了面部运动编码系统(Facial Action CodingSystem,FACS),他们采用了44个能够独立运动的表情活动单元(ActionUnits,AU)来描述面部动作,同时还定义了六种最基本的表情:惊奇、恐惧、厌恶、愤怒、高兴、悲伤,这一系统的提出对面部表情识别具有里程碑的意义。目前国内外一些学者关于表情识别的研究,以及提出的算法,识别的表情种类基本上都是基于他们二人所提出的六种基本表情或其子集表情。美国的Cohn-Kanade AU-Coded人脸表情库包含210位18到50岁成年人的约2000张表情图像,该表情数据库只公开了约100人的500多段表情图像序列,每个序列从平静状态变化至情感最高峰,情感高峰所在的图片巾贞已经进行了FACS标定,当前被使用的次数最多。但是该表情数据库也存在着一些问题,比如,高强度的光照和照片上一些人的下巴处被打上了时间点都使得该表情库在某些情感识别系统中不易使用。日本ATR实验室建立的日本女性面部表情库(Japanese Female Facial Expression,JAFFE)包含了Ekman所提出的6种基本情感以及平静状态共7种情感的表情数据库,共有213张面部表情图片,每人每种表情包含3张不同程度的图片,该表情库在进行亚洲人的情感识别时使用较多,而且是对研究领域免费提供使用,不过该表情库只含有10名女性的表情图片。国内多数硕士研究生进行的表情研究均以此表情数据库为基础。
以上是对表情数据库的简要介绍,接下来将介绍情感语音数据库的发展情况。曰本明海大学的Makarova和Petmshin建立了俄语情感语句库,采集了61名年龄16到28岁的俄罗斯留学生的惊奇、高兴、生气、悲伤、害怕、平静6种情感语音,其中12名男生,49名女生,每人每种情感表演10句话,共得到3660句有效情感语音。柏林工业大学的Sendlmeier等人安排10名专业演员以不同情感表演10个单词和5个句子,共计1050句情感语音,包括害怕、生气、厌恶、无聊、悲伤、愉快和平静这7种情感,并同步采集了面部表情和喉结运动状态,语音库由25个裁判评判,只有得到20个及以上的裁判认可才将某句语音划分为目标情感。
(2)国内的学者多数也都是釆用Ekman提出的6种基本情感类型来建立情感数据库,包括情感语音数据库、表情数据库、情感生理信号数据库。这些数据库中的数据多为单模态情感数据,也有少量的多模态情感数据,大部分数据库对于科研领域依旧是半公开或者不公开。而且研究机构和学者们多是使用各自建立的情感数据库进行情感识别研究,没有在一个共同的数据库基础之上进行研究,降低了不同研究结果间的可对比性。清华大学的徐露、徐明星为进行汉语普通话情感变化的研究,建立了5种基本情感可能存在20种情感变化模式,通过50名大学生模拟接线员对话场景,录制了约600段对话(1200句带有情感变化的语音)。合肥工业大学的陈雁翔建立了一个包含1200句情感语音的情感数据库,语音内容以10句不带任何情感色彩和语义倾向的文本融入4种基本情感(高兴、愤怒、悲伤和平静)录制。通过对以上情感数据库的分析可知,现在国内对外公开的情感数据库并不多,而且多模态的情感数据库更是少见,严重影响了多模态情感识别的研究进度。为了解决这个问题,本文拟建立一个多模态情感数据库,为多模态情感识别研究提供可以免费获取的可用数据。
随着情感计算(affective computing)等技术的不断发展,情感交互成为高级信息时代人机交互的主要发展趋势。情感交互就是使人机交互可以像人与人交互一样自然、亲切、生动和富有情感。人与人进行交流时,是通过人脸表情、语音情感、带有感情的肢体动作、文本情感信息等来感知对方的感情。因此情感交互可以从人脸表情交互、语音情感交互、肢体行为情感交互、生理信号情感识别、文本信息情感交互等方面进行探索。另外人与人的交流可以通过表情、语音、眼神、手势等方式进行,而机器没有人脸和躯体,那么仿生代理(lifelike agent)将是实现情感交互的重要媒介。如下所示:
(1)人脸表情交互是情感交互的一个重要方向,交互模型为:识别人脸表情既而感知人的情感和意图,再生成与之对应的表情与人进行交互。现在对于识别人脸表情既而感知人的情感和意图的技术探究愈发活跃,目前已经有诸多的人脸表情数据库及表情特征提取技术供设计参照。人脸表情的自然生成也在向着智能化的方向发展,将通过社交环境、上下文语境的来智能生成。现阶段人脸表情交互在移动应用产品设计中应用举例:1)“twika^o^”一款由Takuto Onishi开发的iOS应用程序“twika^o^”,可以帮用户把人物面部真实表情转化成“kaomoji”即文字符号表情。打开应用,用户可以通过该应用读取自己或是朋友们的照片,或者干脆通过手机直接对着某人的脸咔嚓一张面部特写照,接下来它就能实时转化为有趣的颜文字表情。再通过电邮、推特或者信短信share给朋友们。
(2)语音中的情感信息可以影响人们的交流状态。所谓“听话听音”,说话人利用不同情感表达某语句时,听者可能会有不同的反应。语音情感交互就是通过语音情感识别技术对人类的情感进行获取、识别和响应,可以使用户在自然和谐的交互模式下高效地完成任务。语音情感交互的支撑技术是语音情感识别和情感语音合成。语音情感识别必须以一个高质量的情感语音数据库为基础,获取情感语料,进行情感特征参数的提取。情感语音合成是情感计算与语音合成的交叉课题,目前也取得了一定的研究成果。
(3)肢体行为情感交互
姿势运动不仅可以由物理上的时间、空间、加速度等描述,还可以由属于心理学范畴的维度描述。比如从手势的挠头、擦眼、捏鼻子、触唇、托下巴等,能够预测情感状态包括思考、回忆、疲劳、满意等。
肢体行为情感交互是重要的情感非语言交流方式,目前得到了越来越多的研究者的关注,并取得了一定的研究成果,但人的肢体行为在特征提取及情感分类方面仍面临较大困难,需要结合上下文才能获得较为准确的识别结果,且移动终端受本身硬件条件限制,肢体行为的提取本身就存在操作不便。因此目前应用较少。
(4)生理信号情感识别
生理变化由人的自主神经系统和内分泌系统支配,很少受人的主观控制,因而应用生理信号的情感识别更具客观性。生理信号感知情感一般通过皮肤电反应、肌电反应、呼吸信号、心电信号等,需要借助物理设备。虽然生理信号可以客观地反映人的情感状态,但是仅对不同唤醒度的情感具有较好的识别效果,若要进行多种情感的分类,则需要将生理信号同表情、语音等其他通道进行融合,实现多模情感识别。
(5)文本信息中的情感
随着互联网的飞速发展,文本信息已经成为人们最常用的交互方法之一。自然语言是人特有的交流手段,其中包含了大量的情感信息。研究文本中蕴含的情感信息已成为人机交互领域的研究热点。文本情感分析研究可以分为词语的情感分析、句子的情感分析、篇章的情感研究、海量信息的整体情感预测四个维度。
(6)情感仿生代理
在情感交互中,用户可以使用自然的交互方式,如语音、表情、眼神、手势等与机器进行交互。然而,机器没有人脸和躯体,无法用上述方式交流。目前的解决办法是通过仿生代理实现人机的情感交互。仿生代理是完全由计算生成的图形,用来模拟现实世界中真实的人或其他有生命物体的行为和动作。仿生代理具有人脸和躯体,并能通过多种交流方式与人进行信息传递。在基于仿生代理的人机交互中,仿生代理被赋予情感能力。仿生代理能够通过各种传感器获取由人的情感所引起的生理及行为特征信号,从而感知、识别和理解人类情感,针对人类的情感做出智能、灵敏、友好的反应。
从以上我们可以看出,情感交互已经从人脸表情交互、语音情感交互、肢体行为情感交互、生理信号情感识别、文本信息情感交互等方面进行探索,为我们研究相关课题提供了思路。目前情感交互技术在不断发展和完善,给人们的生活、学习和工作带来显著影响。在个人生活方面,情感交互可以记录个人的情绪波动曲线,总结出适合自己工作学习的最佳时间段,提高效率;在教育界,情感交互技术应用于幼教产品,可以教儿童如何讲话,甚至可以教他们如何把话讲的自然而富有感情;在娱乐界,情感交互技术可以构筑更加拟人化的风格和更加逼真的游戏场景,给用户更全面的感官享受;在工业界,智能家用电器、汽车等能够理解我们的情感,并做出响应,为我们的工作和生活提供优质的服务;在医学界,可以对部分心理病症(如抑郁症、焦虑症等心理疾病)和空巢家庭中的老年人的情感变化进行检测并提供相应帮助。像情感语音数据库、表情数据库、情感生理信号数据库等现有的情感数据库多为单模态情感数据库,现在国内对外公开的情感数据库也并不多,而且多模态的情感数据库更是少见,严重影响了多模态情感识别的研究进度。同时,现有的多模态数据库在情感交互领域的研究涉及较少,情感交互的发展势必会伴随着移动互联网的浪潮迎来一个崭新的阶段。
发明内容
本发明的目的是建立多模态情感交互数据库的建立方法,其不仅补充了由情感数据库模态单一的问题,还在多模态数据库的基础上对情感交互的问题进行深入探索,故能解决情感数据库模态单一且其在情感交互领域涉及较少的问题。
本发明的解决方案是:一种多模态情感交互数据库的建立方法,其包括以下步骤:
一、建立多模态情感交互数据库模型
I.情感类型的选择
II.情感交互概率分布的约束
III.情感概率模型的构造
认为对话中人物甲有m种情感,与之对话的乙有n种情感,构成的情感模型就具有n×m个情感状态。令L=n×m,于是得到等式(1)的L维的概率矩阵:
Figure GDA0002315969070000071
其中,Pij为第i个情感与第j个情感的交互概率,并且满足关系:
Figure GDA0002315969070000072
i∈[1,2,3,4,5,6,7],j∈[1,2,3,4,5,6,7],以公式形式来表达情感交互的概率,设t为情感发生的时间点,E为情感状态,δ为情感交互过程的概率函数,建立情感交互的概率公式:
Figure GDA0002315969070000073
其中,Pi公式如等式(2),Pj∣i公式如等式(3):
Figure GDA0002315969070000074
Figure GDA0002315969070000075
二、构建多模态情感交互数据库
I.建立视频情感数据库
步骤1、选择视频素材;
步骤2、截取情感视频;
步骤3、标注情感类型,
步骤4、制定命名规则;
II、建立音频情感数据库
根据视频情感交互数据库的建立方法建立音频情感交互数据库:先是把视频数据转换成音频数据、然后进行情感标注、制定命名规则、保存数据文件和进行情感交互的分析,除去原始语音文件中的噪声,最后建成音频情感交互数据库;
三、分析视频情感数据库和音频情感数据库,建立多模态情感交互数据库。
作为上述方案的进一步改进,设置七种情感类型:生气、害怕、惊奇、厌恶、高兴、伤心、平静。
进一步地,在分析视频情感数据库和音频情感数据库时,包括以下步骤:
I.根据七种情感类型分析说话者之间的情感交互的特点;
II.分析一个人的情感是怎样随另一个人的情感变化而变化的。
作为上述方案的进一步改进,情感交互概率分布的约束步骤如下:
(1)某一时刻人物甲的某一情感状态,在下一时刻仍然处于本状态的概率是最大的,其他情感状态的概率相对较小;
(2)对话的双方在情感交互的过程中,情感的状态受多方面因素影响;
(3)具有相互矛盾的情感状态的出现的概率最小。
作为上述方案的进一步改进,视频素材的选择主要包含以下步骤:
1.1选择电视剧剧集较多的视频;
1.2选择背景音乐和噪音较少的视频;
1.3选择剧情丰富,演员类型多的视频。
作为上述方案的进一步改进,情感视频的截取方法包含以下步骤:
2.1、用视频转换器打开视频,在避开噪音的前提下,截取一段视频长对话,保存为AVI格式;然后把此长对话放在另一个自建的文件下,根据文件顺序和剧中对话的人物姓名进行命名;
2.2、视频情感数据库中的长对话的截取是有时间范围的,当用视频转换器截取视频长对话中单人的视频片段时,其时间长度取3~5秒。
作为上述方案的进一步改进,情感类型的标注的方法包含以下步骤:
3.1、取七种情感做为情感数据库的基本情感:生气AG、害怕FE、惊奇SP、厌恶DG、高兴HP、伤心SD、平静NT,最为情感标注的情感类型;
3.2、对得到的情感视频段进行情感评判,给所有情感视频段进行情感评定,选出带有目标情感的情感视频,然后把这些短视频都放在此长对话的文件夹下。
作为上述方案的进一步改进,情感数据库的命名规则包括以下步骤:
4.1、视频片段的命名规则既要体现交互,姓名,年龄,性别特征,又要体现语句的序号和情感状态的特征,还要体现语句的序号和情感状态的特征;
4.2、制定多模态情感数据库中情感数据文件的命名规则。
进一步地,多模态情感数据库中情感数据文件的命名规则如下:
(1)第一~二个字符:是长对话的视频片段序号,为了后续的情感交互研究打基础;
(2)第三~五个字符:是剧中某个人物的英文名字大写缩写;
(3)第六个字符:代表横杠线,为了分开前后字符,使字符看起来更有条理,在这里没有实际的意义;
(4)第七个字符:代表年龄段;
(5)第八个字符:代表性别;
(6)第九~十一个字符:代表剧中某个人物说的语句的序号;
(7)第十二~十三个字符:代表情感类型的英文大写缩写。
再进一步地,再次使用视频转换器把长对话里单个人的视频片段转换成WAV格式,音频片段的命名规则与视频片段一致,获得对应的音频情感交互数据库。
本发明的多模态情感交互数据库的建立方法,是往多模态方向扩展的,同时在建立的多模态情感数据库的基础上,进行情感交互内容的研究,也为多模态情感识别研究提供可以免费获取的可用数据。
附图说明
图1为表达两个人之间对话的情感交互示意图。
图2为一个男演员和一个女演员之间的交互视频片段截图。
图3为多模态情感交互数据库的建立方法的构建流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
人类情感有着表情、语音、生理信号等多种载体,进行多模态情感识别研究可以促进情感计算的发展,而多模态情感识别研究需要多模态情感数据库的支持。当前的情感数据库多是单模态的,虽有少量的多模态数据库但是还存在着一些不足的地方。因此设计并建立一个多模态情感数据库具有重要的理论意义。
本发明的数据库分为两个模态:视频情感数据库和音频情感数据库。一个完整的视频情感数据库除了包括基本的视频文件外,还应有相应的标注文件;同时,一个完整的音频情感数据库也是如此,除了包括基本的语音文件外,还应该有相应的标注文件,详细的情感语音标注可以为情感语音合成和识别提供可靠的训练集和测试集,因此对音频情感数据库进行标注就显得极其重要。因此视频情感数据库和音频情感数据库共同构成了多模态情感数据库,在以后做情感识别实验时,可以分析各个单模态的数据库的识别效果的差异,为以后情感识别方面的课题进行更深入的研究。
请一并参阅图1、图2及图3,本发明的多模态情感交互数据库的建立方法包括以下步骤。
一、建立多模态情感交互数据库模型
I.情感类型的选择
II.情感交互概率分布的约束
III.情感概率模型的构造
认为对话中人物甲有m种情感,与之对话的乙有n种情感,构成的情感模型就具有n×m个情感状态。令L=n×m,于是得到等式(1)的L维的概率矩阵:
Figure GDA0002315969070000111
其中,Pij为第i个情感与第j个情感的交互概率,并且满足关系:
Figure GDA0002315969070000112
i∈[1,2,3,4,5,6,7],j∈[1,2,3,4,5,6,7],以公式形式来表达情感交互的概率,设t为情感发生的时间点,E为情感状态,δ为情感交互过程的概率函数,建立情感交互的概率公式:
Figure GDA0002315969070000113
其中,Pi公式如等式(2),Pj∣i公式如等式(3)。
Figure GDA0002315969070000114
Figure GDA0002315969070000115
二、构建多模态情感交互数据库
I.建立视频情感数据库
步骤1、选择视频素材;
步骤2、截取情感视频;
步骤3、标注情感类型,
步骤4、制定命名规则。
II、建立音频情感数据库
根据视频情感交互数据库的建立方法建立音频情感交互数据库:先是把视频数据转换成音频数据、然后进行情感标注、制定命名规则、保存数据文件和进行情感交互的分析,除去原始语音文件中的噪声,最后建成音频情感交互数据库。
三、分析视频情感数据库和音频情感数据库,建立多模态情感交互数据库。
在视频中,我们通过对剧中对话双方的表情变化、语气强度和说话内容的分析,得出一些视频情感数据库的情感交互的特点。同样地,在语音中,我们通过剧中人物的说话内容和语气强度的分析,得出一些语音情感数据库的情感交互的特点和规律,然后再进行多模态情感交互数据库的分析。现结合附图对本发明的具体实施方式做进一步详细的说明。
一、多模态情感交互数据库模型的建立
I.情感类型的选择
在构建模型之前的一个首要的问题就是,人的两种或两种以上的情感是否需要考虑?在心理学界是可能发生的,但是这里我们只进行单个情感类型的分析。这里从七种情感——生气、害怕、惊奇、厌恶、高兴、伤心和平静来构造一个情感模型。如图1表达的是两个人之间对话的情感交互,其中每个人都有七种情感状态。
II.情感交互概率分布方面的约束,具体步骤如下。
(1)某一时刻人物甲的某一情感状态,在下一时刻仍然处于本状态的概率是最大的,其他情感状态的概率相对较小。
(2)对话的双方在情感交互的过程中,情感的状态是受多方面因素影响的,例如:年龄、性格、性别和受教育程度等。
(3)具有相互矛盾的情感状态的出现的概率最小,如:一方是开心的、而另一方是生气的,这种情感交互的概率是很小的。
III.情感概率模型的构造
我们认为对话中人物甲有m种情感,与之对话的乙有n种情感。于是这样构成的情感模型就具有n×m个情感状态。令L=n×m,于是得到等式(1)的L维的概率矩阵:
Figure GDA0002315969070000131
其中,Pij为第i个情感与第j个情感的交互概率,并且满足关系:
Figure GDA0002315969070000132
i∈[1,2,3,4,5,6,7],j∈[1,2,3,4,5,6,7],以公式形式来表达情感交互的概率,设t为情感发生的时间点,E为情感状态,δ为情感交互过程的概率函数,建立情感交互的概率公式:
Figure GDA0002315969070000133
其中,Pi公式如等式(2),Pj∣i公式如等式(3)。
Figure GDA0002315969070000134
Figure GDA0002315969070000135
二、多模态情感交互数据库构建的过程
I.建立视频情感数据库
步骤1、视频素材的选择
视频素材的选择主要包含以下步骤:
1.1视频容量大。如今互联网的蓬勃发展不仅给我们的日常生活带来了方便,也为我们的科研进步提供了丰富的资源。我们可以找到很多自己需要的视频,在这些大量的视频中我们需要花费很多时间去筛选,当然,我们截取视频库时尽量会选择电视剧剧集较多的视频,这样获得数据库的样本就会很大,这样会使研究成果更有可靠性和说服力。
1.2背景音乐和噪音少。在很多视频中,我们会发现一些美妙的背景音乐,这些音乐很容易让人们入戏,从而达到感情共鸣。但是这些对于我们的情感数据库来说反而是一个障碍,我们需要一个对话清晰而无杂质的数据库,所以我们避开视频的背景音乐和杂音是为了能够更容易地进行情感的标注和情感交互的分析,同时也为以后的情感识别避免了很多麻烦,所以要选择背景音乐和噪音较少的视频。
1.3剧情丰富,演员类型多。一般情况下电视剧中的情节有跌宕起伏的也有单调乏味的,而我们的视频库还是需要更加曲折的情节,因为丰富的剧情会使剧中人物的情感类型也比较丰富,对获取情感数据库有很大帮助。同时,不同类型的演员对情感的表达也是多样的,这样有利于情感交互内容的获取。
步骤2、情感视频的截取,情感视频的具体截取方法主要包含以下步骤。
步骤2.1、我们用视频转换器打开视频,在避开背景音乐等噪音的前提下,截取一段视频长对话,保存为AVI格式。然后把此长对话放在另一个自建的文件下,根据文件顺序和剧中对话的人物姓名进行命名,例如:长对话1--周开启与刘西娜。
步骤2.2、我们视频库中的长对话的截取是有时间范围的,当我们用视频转换器截取视频长对话中单人的视频片段时,其时间长度大概会取3~5秒。
步骤3、情感类型的标注,情感类型的标注的具体方法包含以下主要步骤。
步骤3.1、这里需要说明的是,这里取七种情感做为情感数据库的基本情感,它们分别是:生气AG、害怕FE、惊奇SP、厌恶DG、高兴HP、伤心SD、平静NT。这样后面的情感标注才可以进行下去。
步骤3.2、本人与未参与视频截取实验的师弟师妹们对得到的情感视频段进行情感评判,给所有情感视频段进行情感评定,选出带有目标情感的情感视频,然后把这些短视频都放在此长对话的文件夹下。
步骤4、制定命名规则,情感数据库的命名规则的具体制定步骤如下。
步骤4.1、这些小视频片段的命名规则是有讲究的,既要体现交互,姓名,年龄,性别等特征,又要体现语句的序号和情感状态的特征又要体现语句的序号和情感状态的特征。
步骤4.2、多模态情感数据库中情感数据文件的命名规则。
(1)第一~二个字符:是长对话的视频片段序号,为了后续的情感交互研究打基础。
(2)第三~五个字符:是剧中某个人物的的英文名字大写缩写。
(3)第六个字符:代表横杠线,为了分开前后字符,使字符看起来更有条理,在这里没有实际的意义。
(4)第七个字符:代表年龄段,像老年的和年轻的。
(5)第八个字符:代表性别,像男性和女性。
(6)第九~十一个字符:代表剧中某个人物说的语句的序号。
(7)第十二~十三个字符:代表情感类型的英文大写缩写。
步骤4.3、在这里我们根据命名规则进行举例说明,例如:01ZKQ-OM001AG.AVI代表截取的第一个视频片段是生气的老年男性周开启的第一个语句。以此类推,把电视连续剧的全集按照上面方法截取,就首先得到了我们需要的视频情感数据库。
II、建立音频情感数据库
步骤1、上面我们截取的只是单模态情感数据库,我们需要进一步扩展数据库的模态。我们再次使用视频转换器把长对话里单个人的小视频片段转换成WAV格式,音频片段的命名规则与视频片段一致,这样我们就获得对应的音频情感交互数据库,把它们放在自建的音频情感交互数据库文件夹下。
步骤2、不过得到的原始语音文件中含有一些的噪声,影响情感评判以及后续的信号处理工作,使用声音编辑软件Cool Edit Pro除去原始语音文件中的噪声;这样我们就得到了这部电视连续剧的音频情感交互数据库。
三、多模态情感交互数据库的情感交互的分析
具体方法如以下步骤。
步骤1、如图1所示,这是两个对话者之间的情感交互的形象描绘。其中,我们选取七种情感作为本库的基本情感,它们分别是生气(AG)、害怕(FE)、惊奇(SP)、厌恶(DG)、高兴(HP)、伤心(SD)和平静(NT)。我们通过分析说话者之间的情感交互的特点,去获取一些有用的结论,为后面情感交互的深入研究做一个铺垫。
步骤2、如图2所示,这是一个男演员和一个女演员之间的交互视频片段截图。图片表明两个人在对话时,他们的情感状态是不断变化的,即一个人的情感状态是受另一个人情感状态变化所影响的。如图所示,首先这个女演员是高兴的,随后变得平静起来,而这个男演员一开始是平静的,随后变得生气起来,最后情感又趋于平静。
一个人的情感是怎样随另一个人的情感变化而变化?这就为我们后续研究情感交互的问题打下坚实的基础。
步骤3、如图3是本发明具体实施方式的流程图以及多模态情感交互数据库的构建的流程图。如图3所示,左边框图分为三大块,对应本发明具体实施方式的三大内容:多模态情感交互数据库的建模、多模态情感交互数据库的构建、多模态情感交互数据库中情感交互的分析。右边框图是多模态情感交互数据库的构建的具体完成步骤,其具体步骤分为:获取视频素材、截取情感视频、进行情感标注、制定命名规则、保存数据文件和进行情感交互的分析,最后建成视频情感交互数据库。同样地,音频情感交互数据库的建立过程与视频情感交互数据库的建立过程大致一致,先是把视频数据转换成音频数据、然后进行情感标注、制定命名规则、保存数据文件和进行情感交互的分析,最后建成音频情感交互数据库。通过分别获得视频情感交互数据和音频情感交互数据库,我们最终得到多模态情感交互数据库,这些都是最终建立多模态情感交互数据库的基础,也为我们继续深入研究多模态情感识别做好了铺垫。
多模态情感交互数据库的建立,为接下来的多模态情感识别的研究打下了坚实的基础,它拓展了在单一模态下情感识别的研究思路,同时在多模态情感数据库的基础上,我们又对情感交互的问题进行深入的研究;这样也扩宽了我们的研究路线,不再拘泥于单模态下的情感研究,我们可以通过单模态和多模态的对比以及对多模态情感交互问题的深入研究获得更好的研究效果。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种多模态情感交互数据库的建立方法,其特征在于:其包括以下步骤:
一、建立多模态情感交互数据库模型
I.情感类型的选择
II.情感交互概率分布的约束
III.情感概率模型的构造
认为对话中人物甲有m种情感,与之对话的乙有n种情感,构成的情感模型就具有n×m个情感状态;令L=n×m,于是得到等式(1)的L维的概率矩阵:
Figure FDA0002315969060000011
其中,Pij为第i个情感与第j个情感的交互概率,并且满足关系:
Figure FDA0002315969060000012
i∈[1,2,3,4,5,6,7],j∈[1,2,3,4,5,6,7],以公式形式来表达情感交互的概率,设t为情感发生的时间点,E为情感状态,δ为情感交互过程的概率函数,建立情感交互的概率公式:
Figure FDA0002315969060000013
其中,Pi公式如等式(2),Pj∣i公式如等式(3):
Figure FDA0002315969060000014
Figure FDA0002315969060000015
二、构建多模态情感交互数据库
I.建立视频情感数据库
步骤1、选择视频素材;
步骤2、截取情感视频;
步骤3、标注情感类型,
步骤4、制定命名规则;
II、建立音频情感数据库
根据视频情感交互数据库的建立方法建立音频情感交互数据库:先是把视频数据转换成音频数据、然后进行情感标注、制定命名规则、保存数据文件和进行情感交互的分析,除去原始语音文件中的噪声,最后建成音频情感交互数据库;
三、分析视频情感数据库和音频情感数据库,建立多模态情感交互数据库。
2.如权利要求1所述的多模态情感交互数据库的建立方法,其特征在于:设置七种情感类型:生气、害怕、惊奇、厌恶、高兴、伤心、平静。
3.如权利要求2所述的多模态情感交互数据库的建立方法,其特征在于:在分析视频情感数据库和音频情感数据库时,包括以下步骤:
I.根据七种情感类型分析说话者之间的情感交互的特点;
II.分析一个人的情感是怎样随另一个人的情感变化而变化的。
4.如权利要求1所述的多模态情感交互数据库的建立方法,其特征在于:情感交互概率分布的约束步骤如下:
(1)某一时刻人物甲的某一情感状态,在下一时刻仍然处于本状态的概率是最大的,其他情感状态的概率相对较小;
(2)对话的双方在情感交互的过程中,情感的状态受多方面因素影响;
(3)具有相互矛盾的情感状态的出现的概率最小。
5.如权利要求1所述的多模态情感交互数据库的建立方法,其特征在于:视频素材的选择主要包含以下步骤:
1.1选择电视剧剧集较多的视频;
1.2选择背景音乐和噪音较少的视频;
1.3选择剧情丰富,演员类型多的视频。
6.如权利要求1所述的多模态情感交互数据库的建立方法,其特征在于:情感视频的截取方法包含以下步骤:
2.1、用视频转换器打开视频,在避开噪音的前提下,截取一段视频长对话,保存为AVI格式;然后把此长对话放在另一个自建的文件下,根据文件顺序和剧中对话的人物姓名进行命名;
2.2、视频情感数据库中的长对话的截取是有时间范围的,当用视频转换器截取视频长对话中单人的视频片段时,其时间长度取3~5秒。
7.如权利要求6所述的多模态情感交互数据库的建立方法,其特征在于:情感类型的标注的方法包含以下步骤:
3.1、取七种情感做为情感数据库的基本情感:生气AG、害怕FE、惊奇SP、厌恶DG、高兴HP、伤心SD、平静NT,作为情感标注的情感类型;
3.2、对得到的情感视频段进行情感评判,给所有情感视频段进行情感评定,选出带有目标情感的情感视频,然后把这些短视频都放在此长对话的文件夹下。
8.如权利要求1所述的多模态情感交互数据库的建立方法,其特征在于:情感数据库的命名规则包括以下步骤:
4.1、视频片段的命名规则既要体现交互,姓名,年龄,性别特征,又要体现语句的序号和情感状态的特征,还要体现语句的序号和情感状态的特征;
4.2、制定多模态情感数据库中情感数据文件的命名规则。
9.如权利要求8所述的多模态情感交互数据库的建立方法,其特征在于:多模态情感数据库中情感数据文件的命名规则如下:
(1)第一~二个字符:是长对话的视频片段序号,为了后续的情感交互研究打基础;
(2)第三~五个字符:是剧中某个人物的英文名字大写缩写;
(3)第六个字符:代表横杠线,为了分开前后字符,使字符看起来更有条理,在这里没有实际的意义;
(4)第七个字符:代表年龄段;
(5)第八个字符:代表性别;
(6)第九~十一个字符:代表剧中某个人物说的语句的序号;
(7)第十二~十三个字符:代表情感类型的英文大写缩写。
10.如权利要求9所述的多模态情感交互数据库的建立方法,其特征在于:再次使用视频转换器把长对话里单个人的视频片段转换成WAV格式,音频片段的命名规则与视频片段一致,获得对应的音频情感交互数据库。
CN201710216975.1A 2017-04-05 2017-04-05 一种多模态情感交互数据库的建立方法 Active CN106991172B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710216975.1A CN106991172B (zh) 2017-04-05 2017-04-05 一种多模态情感交互数据库的建立方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710216975.1A CN106991172B (zh) 2017-04-05 2017-04-05 一种多模态情感交互数据库的建立方法

Publications (2)

Publication Number Publication Date
CN106991172A CN106991172A (zh) 2017-07-28
CN106991172B true CN106991172B (zh) 2020-04-28

Family

ID=59415275

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710216975.1A Active CN106991172B (zh) 2017-04-05 2017-04-05 一种多模态情感交互数据库的建立方法

Country Status (1)

Country Link
CN (1) CN106991172B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107578015B (zh) * 2017-09-06 2020-06-30 竹间智能科技(上海)有限公司 一种基于深度学习的第一印象识别与回馈系统及方法
CN107895582A (zh) * 2017-10-16 2018-04-10 中国电子科技集团公司第二十八研究所 面向多源信息领域的说话人自适应语音情感识别方法
CN108888279A (zh) * 2018-05-23 2018-11-27 深圳万发创新进出口贸易有限公司 一种具备情感交互功能的运动康复训练装置
CN108942919B (zh) * 2018-05-28 2021-03-30 北京光年无限科技有限公司 一种基于虚拟人的交互方法及系统
CN109887095A (zh) * 2019-01-22 2019-06-14 华南理工大学 一种情绪刺激虚拟现实场景自动生成系统及方法
CN111222837A (zh) * 2019-10-12 2020-06-02 中国平安财产保险股份有限公司 智能化面试的方法、系统、设备及计算机存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006155157A (ja) * 2004-11-29 2006-06-15 Sanyo Electric Co Ltd 自動選曲装置
CN103123619A (zh) * 2012-12-04 2013-05-29 江苏大学 基于情感上下文的视觉语音多模态协同分析方法及系统
CN103810994A (zh) * 2013-09-05 2014-05-21 江苏大学 基于情感上下文的语音情感推理方法及系统
CN103856742A (zh) * 2012-12-07 2014-06-11 华为技术有限公司 视音频信息的处理方法、装置和系统
CN104486331A (zh) * 2014-12-11 2015-04-01 上海元趣信息技术有限公司 多媒体文件的处理方法、客户端及互动系统
CN105244042A (zh) * 2015-08-26 2016-01-13 安徽建筑大学 一种基于有限状态自动机的语音情感交互装置与方法
CN105976809A (zh) * 2016-05-25 2016-09-28 中国地质大学(武汉) 基于语音和面部表情的双模态情感融合的识别方法及系统
CN106250855A (zh) * 2016-08-02 2016-12-21 南京邮电大学 一种基于多核学习的多模态情感识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130055748A (ko) * 2011-11-21 2013-05-29 한국전자통신연구원 콘텐츠 추천 시스템 및 방법

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006155157A (ja) * 2004-11-29 2006-06-15 Sanyo Electric Co Ltd 自動選曲装置
CN103123619A (zh) * 2012-12-04 2013-05-29 江苏大学 基于情感上下文的视觉语音多模态协同分析方法及系统
CN103856742A (zh) * 2012-12-07 2014-06-11 华为技术有限公司 视音频信息的处理方法、装置和系统
CN103810994A (zh) * 2013-09-05 2014-05-21 江苏大学 基于情感上下文的语音情感推理方法及系统
CN104486331A (zh) * 2014-12-11 2015-04-01 上海元趣信息技术有限公司 多媒体文件的处理方法、客户端及互动系统
CN105244042A (zh) * 2015-08-26 2016-01-13 安徽建筑大学 一种基于有限状态自动机的语音情感交互装置与方法
CN105976809A (zh) * 2016-05-25 2016-09-28 中国地质大学(武汉) 基于语音和面部表情的双模态情感融合的识别方法及系统
CN106250855A (zh) * 2016-08-02 2016-12-21 南京邮电大学 一种基于多核学习的多模态情感识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
基于类依赖的语音情感特征选择;陈俊 等;《微电子学与计算机》;20160805;第33卷(第8期);第92-96页 *
基于语音和人脸的情感识别研究;张石清;《中国博士学位论文全文数据库 信息科技辑》;20130515(第05(2013)期);第I138-31页 *
多模态情感数据库的研究与建立;宣守盼;《中国优秀硕士学位论文全文数据库 信息科技辑》;20130615(第06(2013)期);第I136-187页 *

Also Published As

Publication number Publication date
CN106991172A (zh) 2017-07-28

Similar Documents

Publication Publication Date Title
CN106991172B (zh) 一种多模态情感交互数据库的建立方法
Zhang et al. Intelligent facial emotion recognition and semantic-based topic detection for a humanoid robot
Sebe et al. Multimodal approaches for emotion recognition: a survey
Sebe et al. Multimodal emotion recognition
Martin et al. Multimodal complex emotions: Gesture expressivity and blended facial expressions
Saneiro et al. Towards emotion detection in educational scenarios from facial expressions and body movements through multimodal approaches
Ezzameli et al. Emotion recognition from unimodal to multimodal analysis: A review
Ren Affective information processing and recognizing human emotion
Ochs et al. Socially aware virtual characters: The social signal of smiles [Social Sciences]
CN114463827A (zh) 一种基于ds证据理论的多模态实时情绪识别方法及系统
Basori Emotion walking for humanoid avatars using brain signals
CN117462130A (zh) 一种基于数字人的心理健康评估方法与系统
Zhou et al. AmE framework: A model for emotion-aware ambient intelligence
Gladys et al. Survey on multimodal approaches to emotion recognition
Cowie et al. Piecing together the emotion jigsaw
Lazzeri et al. The influence of dynamics and speech on understanding humanoid facial expressions
Elkobaisi et al. Human emotion: a survey focusing on languages, ontologies, datasets, and systems
Riviello et al. A cross-cultural study on the perception of emotions: How Hungarian subjects evaluate American and Italian emotional expressions
Gregori et al. A roadmap for technological innovation in multimodal communication research
Kang On the Praxes and Politics of AI Speech Emotion Recognition
McTear et al. Affective conversational interfaces
Zucco et al. Emotion mining: from unimodal to multimodal approaches
Tsihrintzis et al. On improving visual-facial emotion recognition with audio-lingual and keyboard stroke pattern information
Nakatsu Nonverbal information recognition and its application to communications
Huang Ideal construction of chatbot based on intelligent depression detection techniques

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220601

Address after: 100193 Room 101, 1 / F, building 19, East District, yard 10, northwest Wangdong Road, Haidian District, Beijing

Patentee after: ASIAINFO TECHNOLOGIES (CHINA), Inc.

Address before: No.292, Ziyun Road, Hefei Economic and Technological Development Zone, Anhui Province, 230022

Patentee before: ANHUI JIANZHU University

TR01 Transfer of patent right