CN115186146A - 一种半结构化访谈与跨模态融合的情绪识别方法及装置 - Google Patents
一种半结构化访谈与跨模态融合的情绪识别方法及装置 Download PDFInfo
- Publication number
- CN115186146A CN115186146A CN202211106720.7A CN202211106720A CN115186146A CN 115186146 A CN115186146 A CN 115186146A CN 202211106720 A CN202211106720 A CN 202211106720A CN 115186146 A CN115186146 A CN 115186146A
- Authority
- CN
- China
- Prior art keywords
- data
- cross
- audio
- text
- mode
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 230000004927 fusion Effects 0.000 title claims abstract description 58
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 48
- 230000008451 emotion Effects 0.000 claims abstract description 34
- 238000011156 evaluation Methods 0.000 claims abstract description 24
- 238000004088 simulation Methods 0.000 claims abstract description 12
- 238000000605 extraction Methods 0.000 claims description 17
- 208000027534 Emotional disease Diseases 0.000 claims description 13
- 238000012360 testing method Methods 0.000 claims description 11
- 238000010606 normalization Methods 0.000 claims description 10
- 230000033001 locomotion Effects 0.000 claims description 9
- 238000011835 investigation Methods 0.000 claims description 6
- 230000000007 visual effect Effects 0.000 claims description 5
- 230000003993 interaction Effects 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 5
- 230000007774 longterm Effects 0.000 abstract description 5
- 238000007500 overflow downdraw method Methods 0.000 abstract description 5
- 230000008569 process Effects 0.000 abstract description 5
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 230000002776 aggregation Effects 0.000 abstract 1
- 238000004220 aggregation Methods 0.000 abstract 1
- 239000013598 vector Substances 0.000 description 12
- 230000015654 memory Effects 0.000 description 7
- 238000002474 experimental method Methods 0.000 description 6
- 238000001514 detection method Methods 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 206010012374 Depressed mood Diseases 0.000 description 2
- 230000008921 facial expression Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000000994 depressogenic effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000004424 eye movement Effects 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 230000004886 head movement Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000001303 quality assessment method Methods 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/65—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/683—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/75—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及计算机人工智能技术领域,特别是涉及一种半结构化访谈与跨模态融合的情绪识别方法及装置,一种半结构化访谈与跨模态融合的情绪识别方法包括:获得被测者情绪的音视频文本数据;通过半结构化访谈与跨模态融合的情绪识别模型,对模拟访谈过程中被测者的音视频文本数据进行识别,得到被测者的情绪识别结果。其中,所述半结构化访谈与跨模态融合的情绪识别模型包括OpenFace、OpenSmile、预训练中文BERT模型、跨模态特征聚合Crossmodal‑Transformer以及全连接层,全连接层包括分类和回归两项输出。采用本发明,解决了跨模态融合方法内在不对齐以及长时的语义关联性问题,情绪识别评估方法的效果有显著提升。
Description
技术领域
本发明涉及计算机人工智能技术领域,特别是涉及一种半结构化访谈与跨模态融合的情绪识别方法及装置。
背景技术
随着社会的快速发展以及人们工作、生活压力的日益增加,抑郁等情绪问题持续高发。抑郁情绪对个人生活以及家庭和社会均存在着较大的危害。当前情绪问题的识别主要基于量表的方法。在实践中具体确定还依赖于心理咨询师通过人工访谈的方式进行评估。
常用的量表工具包括自评的健康问卷(Patient Health Questionnaire-9,PHQ-9)、抑郁情绪状快速评定量表(Quick Inventory of Depressive Symptomatology,QIDS),也包括通常使用的他评量表,如汉密尔顿抑郁量表(Hamilton Depression Scale,HAMD)、蒙哥马利抑郁评定量表(Montgomery-Asberg Depression Rating Scale,MADRS)量表。
然而,情绪问题具有一系列的视听行为指征。在识别和评估情绪问题的量表中,这些指征往往没有得到充分考虑。综合利用信息技术、人工智能等多样化手段是目前在情绪问题量化评估领域的新趋势,其中包括基于视觉信号(如面部表情、眼动、手势、头部运动)的情绪检测方法,基于语音(如韵律、频谱图、波形)的情绪检测方法、以及基于文本(如稀疏词汇编码)的情绪检测方法。但大多方法主要对单一行为模态,如视觉、语音、文本模态进行建模,且现有的跨模态融合方法无法解决模态内在不对齐以及长时的语义关联性问题,导致识别评估方法效果不佳。
发明内容
本发明实施例提供了一种半结构化访谈与跨模态融合的情绪识别方法及装置。所述技术方案如下:
一方面,提供了一种半结构化访谈与跨模态融合的情绪识别方法,该方法由电子设备实现,该方法包括:
通过采集预设的半结构化主题模拟访谈的结果,获得被测者的音频数据以及视频数据,根据获得的音频数据转化得到文本数据;
其中,所述半结构化主题模拟访谈的结果是由被测者完成预设调研问卷测试的结果得到,所述预设调研问卷测试的内容基于情绪问题专家的调研结果生成,所述预设问卷调研测试的内容包括12项访谈主题;所述半结构化主题模拟访谈在移动终端中通过应用程序或小程序实现。
通过预设方法分别对所述音频数据、视频数据以及文本数据进行特征提取,分别得到音频特征数据、视频特征数据以及文本特征数据;
可选地,所述预设方法分别对所述音频数据、视频数据以及文本数据进行特征提取,分别得到音频特征数据、视频特征数据以及文本特征数据,包括:
通过OpenSmile对所述音频数据进行特征提取,获得eGeMaps特征集作为音频特征数据;通过OpenFace对所述视频数据进行特征提取,获得面部运动单元出现的概率和强度作为视频特征数据;通过预训练中文BERT模型对所述文本数据进行特征提取,获得结果作为文本特征数据。
基于一维时域卷积操作,对所述音频特征数据、视频特征数据以及文本特征数据进行归一化;
分别对归一化后的音频特征数据、视频特征数据以及文本特征数据进行携带时域信息的位置编码,得到第一输入特征数据;
基于第一特征数据以及Crossmodal-Transformer跨模态融合模型进行音频模态、视频模态以及文本模态上的语义对齐与信息交换,得到音频模态、视频模态以及文本模态上特征数据相互影响后的第二输入特征数据;
可选地,所述音频模态、视频模态以及文本模态上的语义对齐与信息交换,得到音频模态、视频模态以及文本模态上特征数据相互影响后的第二输入特征数据,包括:
将每个模态的输入特征数据转换成一组不同的键/值对,通过Crossmodal-Transformer跨模态融合模型与目标模态特征数据相互作用,获得一组接受目标模态以外的其他模态信息的不同的键/值对,使用接受其他模态信息的不同的键/值对替换目标模态特征数据的键/值对。
将第二输入特征数据中的音频模态数据、视频模态数据以及文本模态数据进行串联;
基于串联后的第二输入特征数据以及Crossmodal-Transformer跨模态融合模型的全连接层,得到跨模态融合情绪识别结果,完成对所述被测者情绪的识别和评估。
可选地,所述基于串联后的第二输入特征数据以及Crossmodal-Transformer跨模态融合模型的全连接层,得到跨模态融合情绪识别结果,包括:
将串联后的接受其他模态信息的不同的键/值对输入全连接层进行分类,得到情绪识别的分类输出结果,根据所述分类输出结果判断是否存在情绪问题,输出判断结果;
对分类输出结果进行回归操作,得到回归输出结果,根据所述回归输出结果评估情绪问题的严重程度,输出情绪问题的严重程度数值。
另一方面,提供了一种半结构化访谈与跨模态融合的情绪识别装置,该由电子设备实现,该装置包括:
一种半结构化访谈与跨模态融合的情绪识别装置,其特征在于,所述装置包括:
获取模块,用于通过采集预设的半结构化主题模拟访谈的结果,获得被测者的音频数据以及视频数据,根据获得的音频数据转化得到文本数据;
可选地,所述获取模块,用于:
半结构化主题模拟访谈的结果是由被测者完成预设调研问卷测试的结果得到,预设调研问卷基于情绪问题专家的调研结果,其中包括12项访谈主题;半结构化访谈在移动终端中通过应用程序或小程序实现。
特征提取模块,用于通过预设方法分别对所述音频数据、视频数据以及文本数据进行特征提取,分别得到音频特征数据、视频特征数据以及文本特征数据;
可选地,所述特征提取模块,用于:
音频数据采用OpenSmile提取eGeMaps特征集作为音频特征;视频数据采用OpenFace提取面部运动单元出现的概率和强度作为视觉特征;文本数据采用预训练中文BERT模型提取文本特征。
归一化模块,用于基于一维时域卷积操作,对所述音频特征数据、视频特征数据以及文本特征数据进行归一化;
编码模块,用于分别对归一化后的音频特征数据、视频特征数据以及文本特征数据进行携带时域信息的位置编码,得到第一输入特征数据;
信息交换模块,用于第一特征数据以及Crossmodal-Transformer跨模态融合模型进行音频模态、视频模态以及文本模态上的语义对齐与信息交换,得到音频模态、视频模态以及文本模态上特征数据相互影响后的第二输入特征数据;
可选地,所述信息交换模块,用于:
每个模态的输入特征数据转换成一组不同的键/值对,通过Crossmodal-Transformer跨模态融合模型与目标模态特征数据相互作用,获得一组接受目标模态以外的其他模态信息的不同的键/值对。
串联模块,用于将第二输入特征数据中的音频模态数据、视频模态数据以及文本模态数据进行串联;
评估模块,用于基于串联后的第二输入特征数据以及Crossmodal-Transformer跨模态融合模型的全连接层,得到跨模态融合情绪识别结果,完成对所述被测者情绪的识别和评估。
可选地,所述评估模块,用于:
将串联后的接受其他模态信息的不同的键/值对输入全连接层进行分类,得到情绪识别方法的分类输出结果,根据分类输出结果判断是否存在情绪问题,输出判断结果;
对分类输出结果进行回归操作,得到回归输出结果,根据所述回归输出结果评估情绪问题的严重程度,输出情绪问题的严重程度数值。
另一方面,提供了一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现上述一种半结构化访谈与跨模态融合的情绪识别方法。
另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现上述一种半结构化访谈与跨模态融合的情绪识别方法。
本发明实施例提供的技术方案带来的有益效果至少包括:
本发明提出的方法,在半结构化访谈形式上,本方法具有高生态效度,便于在移动终端规范化进行大范围施测。在算法性能上,本方法基于中文跨模态数据集构建,适用于国内大范围应用,所取得的跨模态情绪识别实验结果与评估实验结果,在多种融合方式多个指标上综合优于现有方法机器学习方法和深度学习方法,有助于实现自动化情绪辅助识别与评估。本方法关注存在强信号或相关性的其他模态中的信息,能够以手动对齐无法轻易揭示的方式捕获远程跨模态关联情况,解决了跨模态融合方法内在不对齐以及长时的语义关联性问题,情绪识别评估方法的效果有显著提升。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种半结构化访谈与跨模态融合的情绪识别方法流程图;
图2是本发明实施例提供的一种半结构化访谈与跨模态融合的情绪识别装置框图;
图3是本发明实施例提供的一种半结构化访谈与跨模态融合的情绪识别电子设备的结构示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
本发明实施例提供了一种半结构化访谈与跨模态融合的情绪识别方法,该方法可以是终端或服务器。如图1所示的一种半结构化访谈与跨模态融合的情绪识别方法流程图,该方法的处理流程可以包括如下的步骤:
S101、通过采集预设的半结构化主题模拟访谈的结果,获得被测者的音频数据以及视频数据,根据获得的音频数据转化得到文本数据;
其中,半结构化主题模拟访谈的结果是由被测者完成预设调研问卷测试的结果得到,预设调研问卷测试的内容基于情绪问题专家的调研结果生成;半结构化主题模拟访谈在移动终端中通过应用程序或小程序实现。
S102、通过预设方法分别对音频数据、视频数据以及文本数据进行特征提取,分别得到音频特征数据、视频特征数据以及文本特征数据;
可选地,预设方法分别对音频数据、视频数据以及文本数据进行特征提取,分别得到音频特征数据、视频特征数据以及文本特征数据,包括:
通过OpenSmile对音频数据进行特征提取,获得GeMaps特征集作为音频特征数据;通过OpenFace对视频数据进行特征提取,获得面部运动单元出现的概率和强度作为视频特征数据;通过预训练中文BERT模型对所述文本数据进行特征提取,获得结果作为文本特征数据。
一种可行的实施方式中,OpenSmile的应用流程:
读取命令行选项,并解析配置文件,选择输出特征集为GeMaps。注册组件管理器组件和内存数据,然后配置主要步骤的输入/输出文件的字段的名称和尺寸。重复上述步骤数次,有些组件可能依赖于其他组件的配置(例如,组件读取来自另一个组件输出的维度和输出中字段的名称)。所有组件都被成功初始化后,组件管理器启动主执行循环(也可称为滴答循环)。每个组件都有一个tick()方法,该方法实现主要的增量处理功能,并通过其返回值报告处理的状态。
当输入结束时,组件管理器通过运行执行循环的最后一次迭代向组件发出输入结束的信号,并输出GeMaps特征集做为音频特征数据。
一种可行的实施方式中,OpenFace的应用流程:
OpenFace支持静态和动态两种动作单元预测模型。一般而言,在图像检测中默认使用静态模型,在图像序列和视频的检测中使用动态模型。面部动作单元(AU)是描述人类面部表情的一种方式,本发明中选择输出运动单元作为模型的输出,并根据运动单元的概率和强度作为视频特征数据。
一种可行的实施方式中,预训练中文BERT模型的应用流程:
BERT模型的目标是利用大规模无标注语料训练、获得文本的包含的语义信息,神经网络将文本中各个字或词的一维词向量作为输入,经过一系列的转换后,输出一个一维词向量作为文本的语义表示。BERT模型将字向量、文本向量和位置向量的加和作为模型输入。其中,文本向量的取值在模型训练过程中自动学习,用于刻画文本的全局语义信息,并与单字/词的语义信息相融合;位置向量用于区分不同位置的字/词分别附加一个不同的向量。
S103、基于一维时域卷积操作,对音频特征数据、视频特征数据以及文本特征数据进行归一化;
一种可行的实施方式中,特征数据归一化采用0均值归一化。对于线性模型来说,特征数据归一化是为了使不同的特征处于同样的量级范围内,避免因某些特征所占比重过大,导致预测结果失真。对于梯度下降优化的算法,特征数据归一化会避免特征空间的不规则化,大大减少模型输出结果收敛需要的迭代次数。0均值归一化将原始数据均映射到均值为0,标准差为1的分布上。具体来说,假设原始特征的均值为μ、标准差为σ,具体公式如下:
S104、分别对归一化后的音频特征数据、视频特征数据以及文本特征数据进行携带时域信息的位置编码,得到第一输入特征数据;
一种可行的实施方式中,跨模态融合模型机制中没有包含位置信息,所以构建一个跟输入维度一样的矩阵,具体公式如下:
其中,PE是与输入维度相同的二维矩阵,行表示词语,列表示词向量;pos表示词语在语句中的位置;dmodel表示词向量的维度;i表示词向量的位置。再将PE矩阵中的奇数位置元素添加cos变量,偶数位置元素添加sin变量,完成位置编码的引入。
S105、通过第一特征数据以及Crossmodal-Transformer跨模态融合模型进行音频模态、视频模态以及文本模态上的语义对齐与信息交换,得到音频模态、视频模态以及文本模态上特征数据相互影响后的第二输入特征数据;
可选地,通过第一特征数据以及Crossmodal-Transformer跨模态融合模型进行音频模态、视频模态以及文本模态上的语义对齐与信息交换,得到音频模态、视频模态以及文本模态上特征数据相互影响后的第二输入特征数据,包括;
将每个模态的输入特征数据转换成一组不同的键/值对,通过Crossmodal-Transformer跨模态融合模型与目标模态特征数据相互作用,获得一组接受目标模态以外的其他模态信息的不同的键/值对,使用接受其他模态信息的不同的键/值对替换目标模态特征数据的键/值对。
一种可行的实施方式中,基于Crossmodal-Transformer跨模态融合模型中的跨模注意力模块设计跨模transformer模块,使一个模态从其他模态接受信息。以下用模态vision(V)到模态language(L)为例:
每个跨模态transformer都由跨模注意力块组成,跨模态transformer计算前馈(feed-forwardly)如下:
其中,为以为参数的位置前馈子层;是i层中从模态V到模态L的
multi-head版的跨模注意力;LN代表层标准化操作(Layer Normalization),LN是在每一层
对单个样本的所有神经元节点进行规范化。
S106、将第二输入特征数据中的音频模态数据、视频模态数据以及文本模态数据进行串联;
S107、基于串联后的第二输入特征数据以及Crossmodal-Transformer跨模态融合模型的全连接层,得到跨模态融合情绪识别结果,完成对被测者情绪的识别和评估。
可选地,基于串联后的第二输入特征数据以及Crossmodal-Transformer跨模态融合模型的全连接层,得到跨模态融合情绪识别结果,包括:
将串联后的接受其他模态信息的不同的键/值对输入全连接层进行分类,得到情绪识别的分类输出结果,根据分类输出结果判断是否存在情绪问题,输出判断结果;
对分类输出结果进行回归操作,得到回归输出结果,根据所述回归输出结果评估情绪问题的严重程度,输出情绪问题的严重程度数值。
一种可行的实施方式中,全连接层整合前层网络提取的特征信息,并将特征信息映射到样本标记空间。全连接层会把卷积输出的二维特征图(featureMap)转化成一个一维的向量。全连接层对前层输出的特征进行加权求和,并把结果输入到激活函数,最终完成目标的分类。加权求和计算公式如下:
其中,wi是全连接层中的权重系数,xi是上一层第i个神经元的值,bi是全连接层的偏置量。
本发明提出的方法,在半结构化访谈形式上,本方法具有高生态效度,便于在移动终端规范化进行大范围施测。在算法性能上,本方法基于中文跨模态数据集构建,适用于国内大范围应用,所取得的跨模态情绪识别实验结果与评估实验结果,在多种融合方式多个指标上综合优于现有方法机器学习方法和深度学习方法,有助于实现自动化情绪辅助识别与评估。本方法关注存在强信号或相关性的其他模态中的信息,能够以手动对齐无法轻易揭示的方式捕获远程跨模态关联情况,解决了跨模态融合方法内在不对齐以及长时的语义关联性问题,情绪识别评估方法的效果有显著提升。
图2是根据一示例性实例示出的一种半结构化访谈与跨模态融合的情绪识别装置框图。参照图2,该装置包括:
获取模块210,用于通过采集预设的半结构化主题模拟访谈的结果,获得被测者的音频数据以及视频数据,根据获得的音频数据转化得到文本数据;
可选地,所述获取模块210,用于:
半结构化主题模拟访谈的结果是由被测者完成预设调研问卷测试的结果得到,预设调研问卷基于情绪问题专家的调研结果;半结构化访谈在移动终端中通过应用程序或小程序实现。
特征提取模块220,用于通过预设方法分别对所述音频数据、视频数据以及文本数据进行特征提取,分别得到音频特征数据、视频特征数据以及文本特征数据;
可选地,所述特征提取模块220,用于:
音频数据采用OpenSmile提取eGeMaps特征集作为音频特征;视频数据采用OpenFace提取面部运动单元出现的概率和强度作为视觉特征;文本数据采用预训练中文BERT模型提取文本特征。
归一化模块230,用于基于一维时域卷积操作,对所述音频特征数据、视频特征数据以及文本特征数据进行归一化;
编码模块240,用于分别对归一化后的音频特征数据、视频特征数据以及文本特征数据进行携带时域信息的位置编码,得到第一输入特征数据;
信息交换模块250,用于通过第一特征数据以及Crossmodal-Transformer跨模态融合模型进行音频模态、视频模态以及文本模态上的语义对齐与信息交换,得到音频模态、视频模态以及文本模态上特征数据相互影响后的第二输入特征数据;
可选地,所述信息交换模块250,用于:
将每个模态的输入特征数据转换成一组不同的键/值对,通过Crossmodal-Transformer跨模态融合模型与目标模态特征数据相互作用,获得一组接受目标模态以外的其他模态信息的不同的键/值对,使用接受其他模态信息的不同的键/值对替换目标模态特征数据的键/值对。
串联模块260,用于将第二输入特征数据中的音频模态数据、视频模态数据以及文本模态数据进行串联;
评估模块270,用于基于串联后的第二输入特征数据以及Crossmodal-Transformer跨模态融合模型的全连接层,得到跨模态融合情绪识别结果,完成对所述被测者情绪的识别和评估。
可选地,所述评估模块270,用于:
将串联后的接受其他模态信息的不同的键/值对输入全连接层进行分类,得到情绪识别方法的分类输出结果,根据分类输出结果判断是否存在情绪问题,输出判断结果;
对分类输出结果进行回归操作,得到回归输出结果,根据所述回归输出结果评估情绪问题的严重程度,输出情绪问题的严重程度数值。
本发明提出的方法,在半结构化访谈形式上,本方法具有高生态效度,便于在移动终端规范化进行大范围施测。在算法性能上,本方法基于中文多跨模态数据集构建,适用于国内大范围应用,所取得的跨模态情绪识别实验结果与评估实验结果,在多种融合方式多个指标上综合优于现有方法机器学习方法和深度学习方法,有助于实现自动化情绪辅助识别与评估。本方法关注存在强信号或相关性的其他模态中的信息,能够以手动对齐无法轻易揭示的方式捕获远程跨模态关联情况,解决了跨模态融合方法内在不对齐以及长时的语义关联性问题,情绪识别评估方法的效果有显著提升。
图3是本发明实施例提供的一种电子设备300的结构示意图,该电子设备300可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(centralprocessing units,CPU)301和一个或一个以上的存储器302,其中,所述存储器302中存储有至少一条指令,所述至少一条指令由所述处理器301加载并执行以实现上述半结构化访谈与跨模态融合的情绪识别方法的步骤。
在示例性实施例中,还提供了一种计算机可读存储介质,例如包括指令的存储器,上述指令可由终端中的处理器执行以完成上述半结构化访谈与跨模态融合的情绪识别方法。例如,所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种半结构化访谈与跨模态融合的情绪识别方法,其特征在于,所述方法包括:
通过采集预设的半结构化主题模拟访谈的结果,获得被测者的音频数据以及视频数据,根据获得的音频数据转化得到文本数据;
通过预设方法分别对所述音频数据、视频数据以及文本数据进行特征提取,分别得到音频特征数据、视频特征数据以及文本特征数据;
基于一维时域卷积操作,对所述音频特征数据、视频特征数据以及文本特征数据进行归一化;
分别对归一化后的音频特征数据、视频特征数据以及文本特征数据进行携带时域信息的位置编码,得到第一输入特征数据;
基于第一特征数据以及Crossmodal-Transformer跨模态融合模型进行音频模态、视频模态以及文本模态上的语义对齐与信息交换,得到音频模态、视频模态以及文本模态上特征数据相互影响后的第二输入特征数据;
将第二输入特征数据中的音频模态数据、视频模态数据以及文本模态数据进行串联;
基于串联后的第二输入特征数据以及Crossmodal-Transformer跨模态融合模型的全连接层,得到跨模态融合情绪识别结果,完成对所述被测者情绪的识别和评估。
2.根据权利要求1所述的半结构化访谈与跨模态融合的情绪识别方法,其特征在于,所述半结构化主题模拟访谈的结果是由被测者完成预设调研问卷测试得到的,所述预设调研问卷测试的内容基于情绪问题专家的调研结果生成,所述预设调研问卷测试的内容包括12项访谈主题;所述半结构化主题模拟访谈在移动终端中通过应用程序或小程序实现。
3.根据权利要求1所述的半结构化访谈与跨模态融合的情绪识别方法,其特征在于,所述通过预设方法分别对所述音频数据、视频数据以及文本数据进行特征提取,分别得到音频特征数据、视频特征数据以及文本特征数据,包括:
通过OpenSmile对所述音频数据进行特征提取,获得eGeMaps特征集作为音频特征数据;通过OpenFace对所述视频数据进行特征提取,获得面部运动单元出现的概率和强度作为视频特征数据;通过预训练中文BERT模型对所述文本数据进行特征提取,获得结果作为文本特征数据。
4.根据权利要求1所述的半结构化访谈与跨模态融合的情绪识别方法,其特征在于,所述基于第一特征数据以及Crossmodal-Transformer跨模态融合模型进行音频模态、视频模态以及文本模态上的语义对齐与信息交换,得到音频模态、视频模态以及文本模态上特征数据相互影响后的第二输入特征数据,包括:
将每个模态的输入特征数据转换成一组不同的键/值对,通过Crossmodal-Transformer跨模态融合模型与目标模态特征数据相互作用,获得一组接受目标模态以外的其他模态信息的不同的键/值对,使用接受其他模态信息的不同的键/值对替换目标模态特征数据的键/值对。
5.根据权利要求1所述的半结构化访谈与跨模态融合的情绪识别方法,其特征在于,所述基于串联后的第二输入特征数据以及Crossmodal-Transformer跨模态融合模型的全连接层,得到跨模态融合情绪识别结果,包括:
将串联后的接受其他模态信息的不同的键/值对输入全连接层进行分类,得到情绪识别的分类输出结果,根据所述分类输出结果判断是否存在情绪问题,输出判断结果;
对分类输出结果进行回归操作,得到回归输出结果,根据所述回归输出结果评估情绪问题的严重程度,输出情绪问题的严重程度数值。
6.一种半结构化访谈与跨模态融合的情绪识别装置,其特征在于,所述装置包括:
获取模块,用于通过采集预设的半结构化主题模拟访谈的结果,获得被测者的音频数据以及视频数据,根据获得的音频数据转化得到文本数据;
特征提取模块,用于通过预设方法分别对所述音频数据、视频数据以及文本数据进行特征提取,分别得到音频特征数据、视频特征数据以及文本特征数据;
归一化模块,用于基于一维时域卷积操作,对所述音频特征数据、视频特征数据以及文本特征数据进行归一化;
编码模块,用于分别对归一化后的音频特征数据、视频特征数据以及文本特征数据进行携带时域信息的位置编码,得到第一输入特征数据;
信息交换模块,用于通过Crossmodal-Transformer跨模态融合模型进行不同模态上的语义对齐与信息交换,得到不同模态上特征数据影响后的第二输入特征数据;
串联模块,用于将第二输入特征数据进行串联;
评估模块,用于基于串联后的第二输入特征数据以及全连接层,得到跨模态融合情绪识别结果,完成对所述被测者情绪的识别和评估。
7.根据权利要求6所述的半结构化访谈与跨模态融合的情绪识别装置,其特征在于,所述获取模块,用于:
半结构化主题模拟访谈的结果是由被测者完成预设调研问卷测试的结果得到,预设调研问卷基于大量情绪问题专家的调研结果,其中包括12项访谈主题;半结构化访谈在移动终端中通过应用程序或小程序实现。
8.根据权利要求6所述的半结构化访谈与跨模态融合的情绪识别装置,其特征在于,所述特征提取模块,用于:
音频数据采用OpenSmile提取eGeMaps特征集作为音频特征;视频数据采用OpenFace提取面部运动单元出现的概率和强度作为视觉特征;文本数据采用预训练中文BERT模型提取文本特征。
9.根据权利要求6所述的半结构化访谈与跨模态融合的情绪识别装置,其特征在于,所述信息交换模块,用于:
每个模态基于其他模态信息不断更新,将每个模态的输入特征数据转换成一组不同的键/值对,通过Crossmodal-Transformer跨模态融合模型与目标模态特征数据相互作用,获得一组接受其他模态信息的不同的键/值对。
10.根据权利要求6所述的半结构化访谈与跨模态融合的情绪识别装置,其特征在于,所述评估模块,用于:
将串联后的接受其他模态信息的不同的键/值对输入全连接层进行分类,得到情绪识别方法的分类输出结果,根据分类输出结果判断是否存在情绪问题;
对分类输出结果进行回归操作,得到回归输出结果,根据回归输出结果评估情绪问题严重程度,输出情绪问题严重程度数值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211106720.7A CN115186146A (zh) | 2022-09-13 | 2022-09-13 | 一种半结构化访谈与跨模态融合的情绪识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211106720.7A CN115186146A (zh) | 2022-09-13 | 2022-09-13 | 一种半结构化访谈与跨模态融合的情绪识别方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115186146A true CN115186146A (zh) | 2022-10-14 |
Family
ID=83524251
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211106720.7A Pending CN115186146A (zh) | 2022-09-13 | 2022-09-13 | 一种半结构化访谈与跨模态融合的情绪识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115186146A (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11281945B1 (en) * | 2021-02-26 | 2022-03-22 | Institute Of Automation, Chinese Academy Of Sciences | Multimodal dimensional emotion recognition method |
WO2022067524A1 (zh) * | 2020-09-29 | 2022-04-07 | 香港教育大学 | 自动情绪识别方法、系统、计算设备及计算机可读存储介质 |
CN114898860A (zh) * | 2022-03-22 | 2022-08-12 | 合肥工业大学 | 基于跨模态transformer的多模态焦虑症检测方法和系统 |
-
2022
- 2022-09-13 CN CN202211106720.7A patent/CN115186146A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022067524A1 (zh) * | 2020-09-29 | 2022-04-07 | 香港教育大学 | 自动情绪识别方法、系统、计算设备及计算机可读存储介质 |
US11281945B1 (en) * | 2021-02-26 | 2022-03-22 | Institute Of Automation, Chinese Academy Of Sciences | Multimodal dimensional emotion recognition method |
CN114898860A (zh) * | 2022-03-22 | 2022-08-12 | 合肥工业大学 | 基于跨模态transformer的多模态焦虑症检测方法和系统 |
Non-Patent Citations (3)
Title |
---|
BOCHAO ZOU等,: "Semi-structural Interview-Based Chinese Multimodal Depression Corpus Towards Automatic Preliminary Screening of Depressive Disorders", 《IEEE TRANSACTIONS ON AFFECTIVE COMPUTING》 * |
刘菁菁等: "基于长短时记忆网络的多模态情感识别和空间标注", 《复旦学报(自然科学版)》 * |
邹纪云等: "基于辅助模态监督训练的情绪识别神经网络", 《河北科技大学学报》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111027327B (zh) | 机器阅读理解方法、设备、存储介质及装置 | |
CN111209384A (zh) | 基于人工智能的问答数据处理方法、装置及电子设备 | |
CN111368049A (zh) | 信息获取方法、装置、电子设备及计算机可读存储介质 | |
CN108038208B (zh) | 上下文信息识别模型的训练方法、装置和存储介质 | |
CN116662552A (zh) | 金融文本数据分类方法、装置、终端设备及介质 | |
Noroozi et al. | Supervised vocal-based emotion recognition using multiclass support vector machine, random forests, and adaboost | |
CN112579666B (zh) | 智能问答系统和方法及相关设备 | |
CN111145903A (zh) | 获取眩晕症问诊文本的方法、装置、电子设备及问诊系统 | |
CN117789971B (zh) | 基于文本情感分析的心理健康智能评测系统及方法 | |
CN112699686A (zh) | 基于任务型对话系统的语义理解方法、装置、设备及介质 | |
CN112784573A (zh) | 文本情感内容分析方法、装置、设备及存储介质 | |
CN110852071B (zh) | 知识点检测方法、装置、设备及可读存储介质 | |
CN111078546A (zh) | 一种表达页面特征的方法和电子设备 | |
CN116244474A (zh) | 一种基于多模态情感特征融合的学习者学习状态获取方法 | |
CN117150320B (zh) | 对话数字人情感风格相似度评价方法及系统 | |
CN111680501B (zh) | 基于深度学习的问询信息识别方法、装置及存储介质 | |
CN117763126A (zh) | 知识检索方法、设备、存储介质及装置 | |
Pandey et al. | Interview bot with automatic question generation and answer evaluation | |
CN115456176B (zh) | 一种基于知识增强的文本匹配方法及系统 | |
CN116383360A (zh) | 一种心理咨询聊天机器人的回答体贴度检测方法及系统 | |
CN115186146A (zh) | 一种半结构化访谈与跨模态融合的情绪识别方法及装置 | |
CN115687910A (zh) | 一种数据处理方法、装置、计算机设备以及可读存储介质 | |
CN115017321A (zh) | 一种知识点预测方法、装置、存储介质以及计算机设备 | |
Suta et al. | Matching question and answer using similarity: an experiment with stack overflow | |
CN114416947B (zh) | 关系感知相似问题识别评估方法、系统、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20221014 |