CN116978106A - 批处理混合对比学习的跨模态情绪异常检测方法和装置 - Google Patents
批处理混合对比学习的跨模态情绪异常检测方法和装置 Download PDFInfo
- Publication number
- CN116978106A CN116978106A CN202311230516.0A CN202311230516A CN116978106A CN 116978106 A CN116978106 A CN 116978106A CN 202311230516 A CN202311230516 A CN 202311230516A CN 116978106 A CN116978106 A CN 116978106A
- Authority
- CN
- China
- Prior art keywords
- emotion
- facial
- cross
- modal
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 306
- 238000001514 detection method Methods 0.000 title claims abstract description 39
- 238000012545 processing Methods 0.000 title claims abstract description 31
- 230000001815 facial effect Effects 0.000 claims abstract description 133
- 238000000034 method Methods 0.000 claims abstract description 96
- 230000008569 process Effects 0.000 claims abstract description 33
- 238000013528 artificial neural network Methods 0.000 claims abstract description 27
- 238000000605 extraction Methods 0.000 claims abstract description 18
- 230000002159 abnormal effect Effects 0.000 claims abstract description 15
- 238000013507 mapping Methods 0.000 claims abstract description 10
- 238000012549 training Methods 0.000 claims description 23
- 230000006870 function Effects 0.000 claims description 16
- 230000002996 emotional effect Effects 0.000 claims description 13
- 230000009471 action Effects 0.000 claims description 7
- 230000002776 aggregation Effects 0.000 claims description 5
- 238000004220 aggregation Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000004458 analytical method Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 230000000007 visual effect Effects 0.000 description 7
- 238000011160 research Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 206010003805 Autism Diseases 0.000 description 3
- 208000020706 Autistic disease Diseases 0.000 description 3
- 206010012559 Developmental delay Diseases 0.000 description 3
- 238000012512 characterization method Methods 0.000 description 3
- 238000003745 diagnosis Methods 0.000 description 3
- 238000005065 mining Methods 0.000 description 3
- 241000282412 Homo Species 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000008921 facial expression Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000036651 mood Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000003759 clinical diagnosis Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000011840 criminal investigation Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000010195 expression analysis Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Human Computer Interaction (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Image Analysis (AREA)
Abstract
本发明提供批处理混合对比学习的跨模态情绪异常检测方法和装置,涉及情绪检测技术领域。包含:S1、获取待检测情绪对象的语音数据和面部视频数据。S2、采用标准的Facet方法从面部视频数据中提取对话过程中的初始面部情绪特征。S3、采用标准的梅尔倒频谱系数提取方法将语音数据转化为梅尔频谱图,获取初始语音情绪特征。S4、分别通过单向长短期记忆神经网络和多层感知机神经网络从初始面部情绪特征和初始语音情绪特征中提取高层面部情绪特征和高层语音情绪特征。S5、将高层面部情绪特征和高层语音情绪特征映射到公共语义特征空间。S6、根据映射到公共语义特征空间的特征,通过双组贝塔混合模型拟合相似度分数,并判断待检测情绪对象的情绪是否异常。
Description
技术领域
本发明涉及情绪检测技术领域,具体而言,涉及一种批处理混合对比学习的跨模态情绪异常检测方法和装置。
背景技术
情感智能分析是人工智能与心理学相结合的一门跨学科热点学科,在检测人类情感的任务中做出了巨大的贡献。多模态情感分析技术旨在利用音频、视觉和语言等多模态特征的互补性和语义一致性,通过融合实现情绪状态的检测。其广泛地应用于市场研究、计算机游戏等领域。
区别于单个模态的计算机视觉领域,人类的多模态情感分析是一个更精细的分类问题,其中,以面部情绪的视觉模态和语音信号的听觉模态是人们表达情感的主要途径。
目前,大多数多模态融合方法选择接受所有多模态特征作为输入,融合特征层、决策层或两者的信息,在训练和决策后一次性输出分类结果。然而,与类别分类相比,人类的情感分析是更为精细的分类问题,目前现有的多模态情感检测技术基于语句级别或单词级别对齐的多模态数据进行情感分类,忽略了现实生活中存在单模态间的情绪取向不一致的可能,导致情感分析结果变得不可靠。
有鉴于此,申请人在研究了现有的技术后特提出本申请。
发明内容
本发明提供了一种批处理混合对比学习的跨模态情绪异常检测方法和装置,以改善上述技术问题中的至少一个。
第一方面
本发明实施例提供了一种批处理混合对比学习的跨模态情绪异常检测方法,其包含步骤S1至步骤S6。
S1、获取待检测情绪对象的对话过程的语音数据和面部视频数据。
S2、采用标准的Facet方法从面部视频数据中提取对话过程中的面部情绪动作单元初始特征,获取初始面部情绪特征。
S3、采用标准的梅尔倒频谱系数提取方法将语音数据转化为梅尔频谱图,获取初始语音情绪特征。
S4、分别通过单向长短期记忆神经网络和多层感知机神经网络从初始面部情绪特征和初始语音情绪特征中提取高层语义特征,获取高层面部情绪特征和高层语音情绪特征。
S5、将高层面部情绪特征和高层语音情绪特征映射到公共语义特征空间。
S6、根据映射到公共语义特征空间的高层面部情绪特征和高层语音情绪特征,通过双组贝塔混合模型拟合相似度分数,并根据相似度分数判断待检测情绪对象的情绪是否异常。
其中,
单向长短期记忆神经网络、多层感知机神经网络,以及双组贝塔混合模型的概率分布通过批处理混合对比学习方法训练得到。
第二方面
本发明实施例提供了一种批处理混合对比学习的跨模态情绪异常检测装置,其包含:
初始数据获取模块,用于获取待检测情绪对象的对话过程的语音数据和面部视频数据。
面部特征提取模块,用于采用标准的Facet方法从面部视频数据中提取对话过程中的面部情绪动作单元初始特征,获取初始面部情绪特征。
语音特征提取模块,用于采用标准的梅尔倒频谱系数提取方法将语音数据转化为梅尔频谱图,获取初始语音情绪特征。
高层特征提取模块,用于分别通过单向长短期记忆神经网络和多层感知机神经网络从初始面部情绪特征和初始语音情绪特征中提取高层语义特征,获取高层面部情绪特征和高层语音情绪特征。
特征映射模块,用于将高层面部情绪特征和高层语音情绪特征映射到公共语义特征空间。
情绪判断模块,用于根据映射到公共语义特征空间的高层面部情绪特征和高层语音情绪特征,通过双组贝塔混合模型拟合相似度分数,并根据相似度分数判断待检测情绪对象的情绪是否异常。
其中,
单向长短期记忆神经网络、多层感知机神经网络,以及双组贝塔混合模型的概率分布通过批处理混合对比学习方法训练得到。
通过采用上述技术方案,本发明可以取得以下技术效果:
本发明实施例能够准确的实现检测出检测对象的面部情绪和语音情绪是否一致,为自闭症和广泛性发展障碍的诊断以及微表情识别等应用研究提供理论参考。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是批处理混合对比学习的跨模态情绪异常检测方法的流程示意图。
图2是批处理混合对比学习的跨模态情绪异常检测模型的网络结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
请参阅图1至图2,本发明第一实施例提供一种批处理混合对比学习的跨模态情绪异常检测方法,其包含步骤S1至步骤S6。
S1、获取待检测情绪对象的对话过程的语音数据和面部视频数据。
S2、采用标准的Facet方法从所述面部视频数据中提取对话过程中的面部情绪动作单元初始特征,获取初始面部情绪特征。
具体的,针对视觉模态,采用标准的Facet方法(Stöckli, S., Schulte-Mecklenbeck, M., Borer, S. et al. Facial expression analysis with AFFDEX andFACET: A validation study. Behav Res 50, 1446–1460 (2018))提取对话过程中的面部情绪动作单元初始特征。
S3、采用标准的梅尔倒频谱系数提取方法将所述语音数据转化为梅尔频谱图,获取初始语音情绪特征。
具体的,针对音频模态,采用标准的梅尔倒频谱系数提取方法将语音片段转换为梅尔频谱图作为音频信息的原始数据的初始特征,这些特征从对话的完整音频片段中提取并构成音调变化的序列。
S4、分别通过单向长短期记忆神经网络和多层感知机神经网络从所述初始面部情绪特征和所述初始语音情绪特征中提取高层语义特征,获取高层面部情绪特征和高层语音情绪特征。
具体的,分别将面部情绪特征序列和音调变化的序列输入单向长短期记忆网络提取时序特征,从而获取高层面部情绪特征和高层语音情绪特征。
S5、将所述高层面部情绪特征和高层语音情绪特征映射到公共语义特征空间。
具体的,定义情绪的视觉模态训练数据为,情绪的音频模态训练数据为/>。其中,/>和/>分别表示第/>个样本的面部情绪和语音情绪两个模态的初始特征,/>表示训练集样本总数。
首先,使用单向的长短期记忆神经网络LSTM来映射情绪视觉模态和情绪听觉模态的特征,并利用多层感知机(MLP)输出高层语义特征。
其中,和/>为视觉和听觉模态的高层语义特征,/>和/>分别为单向长短期记忆网络关于视觉和听觉模态的训练网络参数,/>为三层由Tanh激活函数组成的密集连接层组成。
在经过特征提取网络后获得模态高层语义特征后,为加强具有相同情感极的跨模态数据的一致性,网络需将不同模态的数据映射到公共语义特征空间中,从而使得属于同一种情绪类别的异构数据在公共空间中尽可能地靠近,而属于不同情绪类别的异构数据相互远离。
S6、根据映射到公共语义特征空间的高层面部情绪特征和高层语音情绪特征,通过双组贝塔混合模型拟合相似度分数,并根据相似度分数判断待检测情绪对象的情绪是否异常。优选的,步骤S6具体包括步骤S61至步骤S63。
S61、所述根据映射到公共语义特征空间的高层面部情绪特征和高层语音情绪特征,通过双组贝塔混合模型拟合相似度分数。
S62、基于训练时得到的概率分布,判断所述相似度分数是否大于0.5。
S63、若所述相似度分数(即:概率密度函数值)大于0.5,则判定待检测情绪对象的情绪正常。否则判定待检测情绪对象的情绪异常。
具体的,针对训练过程中的面部情绪-语音情绪一致的样本对和不一致的样本对,本发明采用双组贝塔混合模型拟合情绪正常和情绪异常的面部情绪-语音数据对的相似度.令组面部情绪-语音数据对的相似度为/>,其概率密度函数(即:双组贝塔混合模型的相似度分数计算函数/>)表示如下:
式中,为混合数、/>是混合系数,/>表示给定/>来自于第/>个成分的/>分布类条件概率密度、参数/>为第/>个成分的/>的概率密度函数参数。其中,。
在训练阶段,用所有正样本对和负样本对的相似度拟合两个分量,得到该分布的参数,并使用期望最大化算法来优化。
在测试和应用阶段,模型计算面部情绪-语音数据对之间的相似性,并利用训练阶段得到的概率分布检验情绪是否异常。若测试得到的概率密度函数大于0.5,则判定为情绪正常的样本队,否则为情绪异常的样本对。
本发明实施例的基于批处理混合对比学习的跨模态情绪异常检测方法可以有效地提高跨面部情绪-语音情绪异常检测的准确率,为多模态情绪异常分析提供了一种新的方法。其能够准确的实现检测出检测对象的面部情绪和语音情绪是否一致,为自闭症和广泛性发展障碍的诊断以及微表情识别等应用研究提供理论参考。
在上述实施例的基础上,本发明的一个可选地实施例中,本发明实施例中,所述单向长短期记忆神经网络、多层感知机神经网络,以及双组贝塔混合模型的概率分布通过批处理混合对比学习方法训练得到。具体的,为了同时考虑批处理数据块中模态内和模态间样本的相似性和差异性。发明人设计了一种基于批处理混合对比学习的方法,其具体内容如下:
对于模态间的对比学习,给定样本的面部情绪特征,从固定大小为/>的批处理多模态情绪数据中,根据样本标签信息选取跨模态语音正样本集合/>和跨模态语音负样本集合/>。其中,跨模态语音正样本/>为与面部情绪样本/>类别一致的语音情绪样本;跨模态语音负样本/>为与面部情绪样本/>类别不一致的语音情绪样本,样本的相似度使用样本特征之间的余弦相似度计算。则其对应的面部情绪模态间对比损失(即:面部情绪模态间对比损失/>)可以表示为:
式中,表示给定特征集合的大小、/>为给定特征的编号、/>表示对数、/>表示跨模态语音正样本、/>表示跨模态语音正样本的集合、/>是成对特征的余弦相似度、/>表示给定的面部情绪特征、/>为温度系数、/>为跨模态语音负样本、/>为跨模态语音负样本的集合。
类似的,给定样本的语音情绪特征,从固定大小为/>的批处理多模态情绪数据中,根据样本标签信息选取跨模态面部情绪正样本集合/>和跨模态面部情绪负样本集合。其中,跨模态面部情绪正样本/>为与语音情绪特征/>情绪类别一致的面部情绪样本;跨模态面部情绪负样本/>为与语音情绪特征/>类别不一致的面部情绪样本,则语音情绪模态间对比损失(即:语音情绪模态间对比损失/>)可以表示为:
式中,表示给定特征集合的大小、/>为给定特征的编号、/>表示对数、/>表示跨模态面部情绪正样本、/>表示跨模态面部情绪正样本的集合、/>表示给定的语音情绪特征、为温度系数、/>表示跨模态面部情绪负样本、/>表示跨模态面部情绪负样本的集合。
进一步,为增强不同模态的表征学习,本发明实施例进一步考虑模态内的对比学习,即对比学习中的正样本和负样本与固定样本来自同一模态。由于训练数据都是成对的,这里的样本选取个数与模态间的样本选取个数对应。
具体的,给定样本的面部情绪特征,从固定大小为/>的批处理多模态情绪数据中,根据训练样本对数据是成对的原则,与模态间样本选择一致,选取模态内面部情绪正样本集合/>和模态内面部情绪负样本集合/>。其中,模态内面部情绪正样本/>为与面部情绪样本/>类别一致的样本,模态内面部情绪负样本/>为与面部情绪样本/>类别不一致的面部情绪样本。则,面部情绪模态内对比损失(即:面部情绪模态内对比损失/>)为:
式中,表示给定特征集合的大小、/>为给定特征的编号、/>表示对数、/>表示跨模态面部情绪正样本、/>表示跨模态面部情绪正样本的集合、/>是成对特征的余弦相似度、/>表示给定的面部情绪特征、/>为温度系数、/>表示跨模态面部情绪负样本、/>表示跨模态面部情绪负样本的集合。
另一方面,本发明同样考虑以语音为锚定样本的模态内对比学习。根据训练样本对数据是成对的原则,与模态间样本选择一致,选取模态内语音情绪正样本集合和模态内语音情绪负样本集合/>。其中,模态内语音情绪正样本/>为与语音/>情绪类别一致的语音情绪样本,模态内语音情绪负样本/>为与语音/>情绪类别不一致的语音情绪样本,则其对应的语音模态间对比损失(即:语音情绪模态内对比损失/>)可以表示为:
式中,表示给定特征集合的大小、/>为给定特征的编号、/>表示对数、/>表示跨模态语音正样本、/>表示跨模态语音正样本的集合、/>是成对特征的余弦相似度、/>表示给定的语音情绪特征、/>为温度系数、/>为跨模态语音负样本、/>为跨模态语音负样本的集合。
具体的,通过跨情绪语音监督对比学习的方法,可以有效地让属于同一种情绪类别的情绪-语音特征在公共特征空间中尽可能地靠近,而属于不同情绪类别的情绪-语音特征相互远离。同时,通过使用尽可能多的正负样本对,可以充分探索不同样本之间的模态内语义信息。
此外,在模态间的对比学习中,样本数量的增多给模型带来更多可用信息的同时也带来了冗余的信息,可能会覆盖有效数据对的信息。发明人融合了困难样本挖掘方法,使模型更有效地判别实例。
跨模态情绪异常检测任务又可视作二分类的过程,其二分类的标签直接由数据间的关系产生,若面部情绪-语音情绪的类别一致,则其二分类标签为1;若面部情绪-语音情绪的类别不一致,则其二分类的标签为0。可作为指导训练的理想相似性得分。因此,发明人利用小批量中前个相似度最大的负样本和前/>个相似度最小正样本,计算其二分类交叉熵损失。
具体的,以视觉样本为参照,计算小批量中每个样本对的跨模态余弦距离相似度得分,排序从集合中选取前/>个得分最小的样本集组成面部情绪困难正样本集合/>:
同样,从中选取前/>个得分最大的样本集组成面部情绪困难负样本集合/>:
然后,计算面部情绪模态间交叉熵损失:
式中,表示给定特征集合的大小、/>为给定特征的编号、/>为困难跨模态面部情绪正样本、/>为困难跨模态面部情绪正样本的集合、/>为困难语音情绪-面部情绪正样本对/>的类别一致性标签、/>表示对数、/>是成对特征的余弦相似度、/>表示给定的面部情绪特征、/>为困难跨模态面部情绪负样本、/>为困难跨模态面部情绪负样本的集合、/>为困难语音情绪-面部情绪负样本对/>的类别一致性标签。其中,/>和/>一致为1,不一致0,/>为困难正样本的索引号,/>,/>为困难负样本的索引号,。
同样的,以语音情绪样本为参照,发明人同样考虑跨模态困难样本挖掘,计算小批量中每个样本对的跨模态余弦距离相似度得分,排序从中选取前/>个得分最小的样本集组成语音情绪困难正样本集合/>:
同样, 从中选取前/>个得分最大的样本集组成语音情绪困难负样本集合/>:
则其对应的语音情绪模态间交叉熵损失为:
式中,表示给定特征集合的大小、/>为给定特征的编号、/>为困难跨模态语音情绪正样本、/>为困难跨模态语音情绪正样本的集合、/>为困难语音情绪-面部情绪正样本对/>的类别一致性标签、/>表示对数、/>是成对特征的余弦相似度、/>表示给定的语音情绪特征、/>为困难跨模态语音情绪负样本、/>为困难跨模态语音情绪负样本的集合、为困难语音情绪-面部情绪负样本对/>的类别一致性标签。其中,/>和/>一致为1,不一致为0。/>为困难正样本的索引号,/>,/>为困难负样本的索引号,/>。
综上,所述批处理混合对比学习方法的总体的损失函数为:
式中,为面部情绪模态间对比损失、/>为语音情绪模态间对比损失、/>面部情绪模态内对比损失、/>语音情绪模态内对比损失、/>面部情绪模态间交叉熵损失、/>语音情绪模态间交叉熵损失。
具体的,该损失引入了标签信息,在充分利用标签信息的情况下,模型可以更有效地学习判别语义不一致的跨模态样本。
本发明实施例的批处理混合对比学习的跨模态情绪异常检测方法,采用了批处理混合对比学习和双组贝塔混合模型,使其可以利用固定样本的许多正样本和负样本,同时考虑了多个正对和负对。因此,性能要优于经典的对比学习。
此外,本发明实施例的损失函数提出的损失同时考虑了语义一致的样本对有着最低的相似度,语义不一致的样本有较高的差异性,训练时考虑了多个困难正样本和困难负样本,使批处理混合对比学习的跨模态情绪异常检测方法比只考虑单个正样本和单个负样本更有优势。
本发明多模态情绪异常检测指的是单独观察某一种模态情绪表现通常是正常的表现,而在不同情绪模态联合观察时表现不一致的情绪实例。实现从这一角度出发的情绪异常检测在临床诊断、刑事侦查、情感智力培育中具有重要意义,并为自闭症和广泛性发展障碍的诊断以及微表情识别等应用研究提供理论参考。
然而,多模态情绪的跨模态异常检测主要面临以下挑战:(1)多模态情绪数据的高维性和异构性。由于面部表情和语音的底层特征维数、性质不同,存在语义表征的差异性和不可比性。(2)监督信息匮乏。仅使用有限的标签挖掘跨模态异常的情绪特征并不可靠,无法得到有效的模态间紧密的语义关联。导致传统的适用于单模态的情感检测算法无法应用于多模态情感异常检测中。
为了解决上述问题,本发明实施例提出了批处理混合对比学习的跨模态情绪异常检测方法。该方法采用批处理混合对比学习的方式进行面部情绪和语音情绪的不一致性学习,能够有效提高跨模态情绪异常检测的准确性。有利于扩大情感分析的应用范围,具有广泛的应用前景和现实意义。
本发明实施例的批处理混合对比学习的跨模态情绪异常检测方法充分考虑了面部情绪-语音情绪特征数据的语义差异特点,在学习共同语义空间的同时利用模态内和模态间的批处理混合对比学习来最小化具有相同情绪类别数据样本对的距离,同时,利用困难样本挖掘机制提高训练效率,最大化不同语义样本对的距离,使得具有语义差异的情绪样本得以区分,在训练过程中获得更稳定的表征,从而提高跨模态情绪异常检测网络的泛化性能。
实施例二
本发明实施例提供了一种批处理混合对比学习的跨模态情绪异常检测装置,其包含:
初始数据获取模块,用于获取待检测情绪对象的对话过程的语音数据和面部视频数据。
面部特征提取模块,用于采用标准的Facet方法从所述面部视频数据中提取对话过程中的面部情绪动作单元初始特征,获取初始面部情绪特征。
语音特征提取模块,用于采用标准的梅尔倒频谱系数提取方法将所述语音数据转化为梅尔频谱图,获取初始语音情绪特征。
高层特征提取模块,用于分别通过单向长短期记忆神经网络和多层感知机神经网络从所述初始面部情绪特征和所述初始语音情绪特征中提取高层语义特征,获取高层面部情绪特征和高层语音情绪特征。
特征映射模块,用于将所述高层面部情绪特征和高层语音情绪特征映射到公共语义特征空间。
情绪判断模块,用于根据映射到公共语义特征空间的高层面部情绪特征和高层语音情绪特征,通过双组贝塔混合模型拟合相似度分数,并根据相似度分数判断待检测情绪对象的情绪是否异常。
其中,
所述单向长短期记忆神经网络、多层感知机神经网络,以及双组贝塔混合模型的概率分布通过批处理混合对比学习方法训练得到。所述批处理混合对比学习方法的具体内容参见实施例一。
在上述实施例的基础上,本发明的一个可选地实施例中,情绪判断模块具体包括:
相似度拟合单元,用于所述根据映射到公共语义特征空间的高层面部情绪特征和高层语音情绪特征,通过双组贝塔混合模型拟合相似度分数。
相似度判断单元,用于基于训练时得到的概率分布,判断所述相似度分数是否大于0.5。
情绪判定单元,用于若所述相似度分数大于0.5,则判定待检测情绪对象的情绪正常。否则判定待检测情绪对象的情绪异常。
在本发明实施例所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置和方法实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,电子设备,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
实施例中提及的“第一\第二”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二”在允许的情况下可以互换特定的顺序或先后次序。应该理解“第一\第二”区分的对象在适当情况下可以互换,以使这里描述的实施例能够以除了在这里图示或描述的那些内容以外的顺序实施。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种批处理混合对比学习的跨模态情绪异常检测方法,其特征在于,包含:
获取待检测情绪对象的对话过程的语音数据和面部视频数据;
采用标准的Facet方法从所述面部视频数据中提取对话过程中的面部情绪动作单元初始特征,获取初始面部情绪特征;
采用标准的梅尔倒频谱系数提取方法将所述语音数据转化为梅尔频谱图,获取初始语音情绪特征;
分别通过单向长短期记忆神经网络和多层感知机神经网络从所述初始面部情绪特征和所述初始语音情绪特征中提取高层语义特征,获取高层面部情绪特征和高层语音情绪特征;
将所述高层面部情绪特征和高层语音情绪特征映射到公共语义特征空间;
根据映射到公共语义特征空间的高层面部情绪特征和高层语音情绪特征,通过双组贝塔混合模型拟合相似度分数,并根据相似度分数判断待检测情绪对象的情绪是否异常;
其中,
所述单向长短期记忆神经网络、多层感知机神经网络,以及双组贝塔混合模型的概率分布通过批处理混合对比学习方法训练得到;
所述批处理混合对比学习方法的损失函数为:
式中,为面部情绪模态间对比损失、/>为语音情绪模态间对比损失、/>面部情绪模态内对比损失、/>语音情绪模态内对比损失、/>面部情绪模态间交叉熵损失、语音情绪模态间交叉熵损失。
2.根据权利要求1所述的批处理混合对比学习的跨模态情绪异常检测方法,其特征在于,
面部情绪模态间对比损失为:
语音情绪模态间对比损失为:
式中,表示给定特征集合的大小、/>为给定特征的编号、/>表示对数、/>表示跨模态语音正样本、/>表示跨模态语音正样本的集合、/>是成对特征的余弦相似度、/>表示给定的面部情绪特征、/>为温度系数、/>为跨模态语音负样本、/>为跨模态语音负样本的集合、/>表示跨模态面部情绪正样本、/>表示跨模态面部情绪正样本的集合、/>表示给定的语音情绪特征、/>表示跨模态面部情绪负样本、/>表示跨模态面部情绪负样本的集合。
3.根据权利要求1所述的批处理混合对比学习的跨模态情绪异常检测方法,其特征在于,
面部情绪模态内对比损失为:
语音情绪模态内对比损失为:
式中,表示给定特征集合的大小、/>为给定特征的编号、/>表示对数、/>表示跨模态面部情绪正样本、/>表示跨模态面部情绪正样本的集合、/>是成对特征的余弦相似度、表示给定的面部情绪特征、/>为温度系数、/>表示跨模态面部情绪负样本、/>表示跨模态面部情绪负样本的集合、/>表示跨模态语音正样本、/>表示跨模态语音正样本的集合、表示给定的语音情绪特征、/>为跨模态语音负样本、/>为跨模态语音负样本的集合。
4.根据权利要求1所述的批处理混合对比学习的跨模态情绪异常检测方法,其特征在于,
面部情绪模态间交叉熵损失为:
语音情绪模态间交叉熵损失为:
式中,表示给定特征集合的大小、/>为给定特征的编号、/>为困难跨模态面部情绪正样本、/>为困难跨模态面部情绪正样本的集合、/>为困难语音情绪-面部情绪正样本对的类别一致性标签、/>表示对数、/>是成对特征的余弦相似度、/>表示给定的面部情绪特征、/>为困难跨模态面部情绪负样本、/>为困难跨模态面部情绪负样本的集合、为困难语音情绪-面部情绪负样本对/>的类别一致性标签、/>为困难跨模态语音情绪正样本、/>为困难跨模态语音情绪正样本的集合、/>为困难语音情绪-面部情绪正样本对/>的类别一致性标签、/>表示给定的语音情绪特征、/>为困难跨模态语音情绪负样本、/>为困难跨模态语音情绪负样本的集合、/>为困难语音情绪-面部情绪负样本对/>的类别一致性标签。
5.根据权利要求1至4任意一项所述的批处理混合对比学习的跨模态情绪异常检测方法,其特征在于,所述根据映射到公共语义特征空间的高层面部情绪特征和高层语音情绪特征,通过双组贝塔混合模型拟合相似度分数,并根据相似度分数判断待检测情绪对象的情绪是否异常,具体包括:
所述根据映射到公共语义特征空间的高层面部情绪特征和高层语音情绪特征,通过双组贝塔混合模型拟合相似度分数;
基于训练时得到的概率分布,判断所述相似度分数是否大于0.5;
若所述相似度分数大于0.5,则判定待检测情绪对象的情绪正常;否则判定待检测情绪对象的情绪异常。
6.根据权利要求5所述的批处理混合对比学习的跨模态情绪异常检测方法,其特征在于,所述双组贝塔混合模型的相似度分数计算函数为:
式中,为混合数、/>是混合系数,/>表示给定/>来自于第/>个成分的分布类条件概率密度、参数/>为第/>个成分的/>的概率密度函数参数;其中,。
7.一种批处理混合对比学习的跨模态情绪异常检测装置,其特征在于,包含:
初始数据获取模块,用于获取待检测情绪对象的对话过程的语音数据和面部视频数据;
面部特征提取模块,用于采用标准的Facet方法从所述面部视频数据中提取对话过程中的面部情绪动作单元初始特征,获取初始面部情绪特征;
语音特征提取模块,用于采用标准的梅尔倒频谱系数提取方法将所述语音数据转化为梅尔频谱图,获取初始语音情绪特征;
高层特征提取模块,用于分别通过单向长短期记忆神经网络和多层感知机神经网络从所述初始面部情绪特征和所述初始语音情绪特征中提取高层语义特征,获取高层面部情绪特征和高层语音情绪特征;
特征映射模块,用于将所述高层面部情绪特征和高层语音情绪特征映射到公共语义特征空间;
情绪判断模块,用于根据映射到公共语义特征空间的高层面部情绪特征和高层语音情绪特征,通过双组贝塔混合模型拟合相似度分数,并根据相似度分数判断待检测情绪对象的情绪是否异常;
其中,
所述单向长短期记忆神经网络、多层感知机神经网络,以及双组贝塔混合模型的概率分布通过批处理混合对比学习方法训练得到;
所述批处理混合对比学习方法的损失函数为:
式中,为面部情绪模态间对比损失、/>为语音情绪模态间对比损失、/>面部情绪模态内对比损失、/>语音情绪模态内对比损失、/>面部情绪模态间交叉熵损失、语音情绪模态间交叉熵损失。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311230516.0A CN116978106B (zh) | 2023-09-22 | 2023-09-22 | 批处理混合对比学习的跨模态情绪异常检测方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311230516.0A CN116978106B (zh) | 2023-09-22 | 2023-09-22 | 批处理混合对比学习的跨模态情绪异常检测方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116978106A true CN116978106A (zh) | 2023-10-31 |
CN116978106B CN116978106B (zh) | 2024-01-05 |
Family
ID=88473382
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311230516.0A Active CN116978106B (zh) | 2023-09-22 | 2023-09-22 | 批处理混合对比学习的跨模态情绪异常检测方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116978106B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108805089A (zh) * | 2018-06-14 | 2018-11-13 | 南京云思创智信息科技有限公司 | 基于多模态的情绪识别方法 |
CN115050077A (zh) * | 2022-06-30 | 2022-09-13 | 浪潮电子信息产业股份有限公司 | 情绪识别方法、装置、设备及存储介质 |
CN115358212A (zh) * | 2022-08-09 | 2022-11-18 | 南京工业大学 | 一种基于文本和语音置信度的多模态情绪识别模型与方法 |
CN115713797A (zh) * | 2022-11-11 | 2023-02-24 | 阿里巴巴(中国)有限公司 | 训练感情识别模型的方法、感情识别方法及装置 |
CN116386101A (zh) * | 2023-01-04 | 2023-07-04 | 南京航空航天大学 | 一种基于视频中人脸表情和语音的双模态航天员情绪识别方法 |
US20230281456A1 (en) * | 2022-03-06 | 2023-09-07 | Royal Bank Of Canada | Multi-modal artifical neural network and a self-supervised learning method for training same |
-
2023
- 2023-09-22 CN CN202311230516.0A patent/CN116978106B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108805089A (zh) * | 2018-06-14 | 2018-11-13 | 南京云思创智信息科技有限公司 | 基于多模态的情绪识别方法 |
US20230281456A1 (en) * | 2022-03-06 | 2023-09-07 | Royal Bank Of Canada | Multi-modal artifical neural network and a self-supervised learning method for training same |
CN115050077A (zh) * | 2022-06-30 | 2022-09-13 | 浪潮电子信息产业股份有限公司 | 情绪识别方法、装置、设备及存储介质 |
CN115358212A (zh) * | 2022-08-09 | 2022-11-18 | 南京工业大学 | 一种基于文本和语音置信度的多模态情绪识别模型与方法 |
CN115713797A (zh) * | 2022-11-11 | 2023-02-24 | 阿里巴巴(中国)有限公司 | 训练感情识别模型的方法、感情识别方法及装置 |
CN116386101A (zh) * | 2023-01-04 | 2023-07-04 | 南京航空航天大学 | 一种基于视频中人脸表情和语音的双模态航天员情绪识别方法 |
Non-Patent Citations (2)
Title |
---|
ZIYU JIA 等: "HetEmotionNet: Two-Stream Heterogeneous Graph Recurrent Neural Network for Multi-modal Emotion Recognition", MM \'21: PROCEEDINGS OF THE 29TH ACM INTERNATIONAL CONFERENCE ON MULTIMEDIA, pages 1047 - 1056 * |
陈凯: "对话场景下的多模态情绪分析研究", 中国优秀硕士学位论文全文数据库(电子期刊), no. 02, pages 136 - 335 * |
Also Published As
Publication number | Publication date |
---|---|
CN116978106B (zh) | 2024-01-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11093560B2 (en) | Stacked cross-modal matching | |
CN110298037B (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
Bavkar et al. | Multimodal sarcasm detection via hybrid classifier with optimistic logic | |
CN111858940B (zh) | 一种基于多头注意力的法律案例相似度计算方法及系统 | |
CN113297369B (zh) | 基于知识图谱子图检索的智能问答系统 | |
CN111126040B (zh) | 一种基于深度边界组合的生物医学命名实体识别方法 | |
CN110110059A (zh) | 一种基于深度学习的医疗对话系统意图识别分类方法 | |
CN115544279B (zh) | 一种基于协同注意力的多模态情感分类方法及其应用 | |
CN115269854B (zh) | 基于主题和结构感知神经网络的虚假新闻检测方法 | |
CN114239585A (zh) | 一种生物医学嵌套命名实体识别方法 | |
CN114691864A (zh) | 文本分类模型训练方法及装置、文本分类方法及装置 | |
CN114722798A (zh) | 一种基于卷积神经网络和注意力机制的反讽识别模型 | |
CN114496231A (zh) | 基于知识图谱的体质识别方法、装置、设备和存储介质 | |
Wu et al. | Inferring users' emotions for human-mobile voice dialogue applications | |
CN116720519B (zh) | 一种苗医药命名实体识别方法 | |
Xu et al. | Research on depression tendency detection based on image and text fusion | |
Hasan et al. | Early stage autism spectrum disorder detection of adults and toddlers using machine learning models | |
CN116757195A (zh) | 一种基于提示学习的隐性情感识别方法 | |
CN116978106B (zh) | 批处理混合对比学习的跨模态情绪异常检测方法和装置 | |
CN116630062A (zh) | 一种医保欺诈行为检测方法、系统、存储介质 | |
Xu et al. | Gene mutation classification using CNN and BiGRU network | |
CN115391534A (zh) | 文本情感原因识别方法、系统、设备及存储介质 | |
Wang et al. | Bi-directional Joint Embedding of Encyclopedic Knowledge and Original Text for Chinese Medical Named Entity Recognition | |
Zhan et al. | Application of machine learning and image target recognition in English learning task | |
Bingol et al. | Machine learning based deception detection system in online social networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |