CN112579745A - 基于图神经网络的对话情感纠错模型 - Google Patents
基于图神经网络的对话情感纠错模型 Download PDFInfo
- Publication number
- CN112579745A CN112579745A CN202110196514.9A CN202110196514A CN112579745A CN 112579745 A CN112579745 A CN 112579745A CN 202110196514 A CN202110196514 A CN 202110196514A CN 112579745 A CN112579745 A CN 112579745A
- Authority
- CN
- China
- Prior art keywords
- module
- neural network
- emotion
- feature extraction
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 58
- 230000008451 emotion Effects 0.000 title claims abstract description 51
- 238000012937 correction Methods 0.000 title claims abstract description 18
- 238000000605 extraction Methods 0.000 claims abstract description 55
- 230000008909 emotion recognition Effects 0.000 claims abstract description 41
- 230000002452 interceptive effect Effects 0.000 claims abstract description 23
- 230000003993 interaction Effects 0.000 claims description 23
- 230000002996 emotional effect Effects 0.000 claims description 20
- 230000007246 mechanism Effects 0.000 claims description 20
- 230000002457 bidirectional effect Effects 0.000 claims description 15
- 238000000034 method Methods 0.000 claims description 13
- 230000004927 fusion Effects 0.000 claims description 10
- 230000000306 recurrent effect Effects 0.000 claims description 9
- 230000003416 augmentation Effects 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- 239000002356 single layer Substances 0.000 claims description 6
- 230000003190 augmentative effect Effects 0.000 claims description 3
- 238000009432 framing Methods 0.000 claims description 3
- 238000007637 random forest analysis Methods 0.000 claims description 3
- 230000003595 spectral effect Effects 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- 238000012706 support-vector machine Methods 0.000 claims description 3
- 238000012549 training Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 230000009471 action Effects 0.000 description 3
- 230000003321 amplification Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000003199 nucleic acid amplification method Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 125000004122 cyclic group Chemical group 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
- G06V40/166—Detection; Localisation; Normalisation using acquisition arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/01—Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Abstract
本申请涉及基于图神经网络的对话情感纠错模型,包括:多模态特征抽取模块、基于单句的情感识别模块、交互建模模块、时序建模模块和情感预测模块;所述多模态特征抽取模块和所述基于单句的情感识别模块连接,所述基于单句的情感识别模块与所述交互建模模块连接,所述交互建模模块与所述时序建模模块连接,所述时序建模模块与所述情感预测模块连接。
Description
技术领域
本申请涉及情感识别领域,尤其涉及基于图神经网络的对话情感纠错模型。
背景技术
面向对话场景的情感识别技术,不仅具有重大的科学意义,而且极具经济价值,有着广泛的应用前景。同时其应用场景也不仅仅局限于人机交互领域,在其他诸多领域都可以发挥重要作用,例如对话生成,社会媒体分析和智能系统。面向对话场景的情感识别技术,旨在理解人类在对话场景下表达情感的方式,并识别出对话中每一句话所蕴含的情绪状态。
对话场景中存在着两部分重要的信息:时序信息和交互信息。时序信息中蕴含着丰富的背景知识,这些知识往往有助于理解当前时刻的情绪状态。而交互信息指的是,当前时刻的情绪状态会受到与之交谈者情绪的影响。例如,当交谈者处于极端愤怒的情况下,听众往往会受到他此刻情感状态的影响,也变得很愤怒,这种现象在心理学领域称之为“共情”。
目前,基于单句的情感识别模型占据研究的主流。但是,这种模型只依赖于当前句子识别情感状态,并没有考虑到对话场景下的时序信息和交互信息。如何将这些模型改造成适用于对话场景的情感识别系统,是一个具有挑战性的问题,而改造的关键在于将这两部分信息融入到模型中。
授权公告号CN 108877801 B公开了一种基于多模态情绪识别系统的多轮对话语义理解子系统,它包括数据采集设备、输出设备,其特征在于:它还包括情绪分析软件系统,所述情绪分析软件系统通过对所述数据采集设备得到的数据进行综合分析推理,最终把结果输出至所述输出设备上;所述情绪分析软件系统包括基于多轮对话语义理解子系统。本发明突破性的打通了五大单模态的情绪识别,创新性的利用深度神经网络将多个单模态的信息由神经网络编码、深度的关联和理解后进行综合判断,大幅度的提高了准确率,适用于绝大多数一般问询互动类应用场景。
申请公布号CN 111164601 A公开了一种情感识别方法,该情感识别方法包括:获取包括视频数据、音频数据和/或文本数据中的至少两个的待识别多模态数据组;提取视频数据的视频语义特征序列,提取音频数据的音频语义特征序列,和/或提取文本数据中的文本语义特征序列;将文本语义特征序列向音频数据的时间维度对齐处理,生成文本语义时序序列;将视频语义特征序列、音频语义特征序列和/或文本语义时序序列按照时间维度融合,生成多模态语义特征序列;将多模态语义特征序列输入预训练的情感识别神经网络,将情感识别神经网络的输出结果作为待识别数据组应的目标情感。本发明还公开了智能装置和计算机可读存储介质。本发明可以有效提升情感识别的准确性。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本申请提供了一种基于图神经网络的对话情感纠错模型,包括:多模态特征抽取模块、基于单句的情感识别模块、交互建模模块、时序建模模块和情感预测模块;所述多模态特征抽取模块和所述基于单句的情感识别模块连接,所述基于单句的情感识别模块与所述交互建模模块连接,所述交互建模模块与所述时序建模模块连接,所述时序建模模块与所述情感预测模块连接;
所述多模态特征抽取模块的具体功能为:抽取视频文件中的声学特征、文本特征和图像特征,并将所述视频中的声学特征、所述文本特征和所述图像特征融合,得到多模态特征;
基于单句的情感识别模块的具体功能为:获取每个句子的情感预测结果;
交互建模模块的具体功能为:在每个句子的情感预测结果的基础上融合交互信息,得到融合交互信息特征;
时序建模模块的具体功能为:动态关注到比较重要的上下文信息,得到对话情感特征;
情感预测模块的具体功能为:预测所述视频文件中个体的情绪状态。
优选地,所述多模态特征抽取模块包括,
声学特征抽取模块、文本特征抽取模块、图像特征抽取模块和多模态特征融合模块;视频文件分别输入所述声学特征抽取模块、所述文本特征抽取模块和所述图像特征抽取模块,所述声学特征抽取模块、所述文本特征抽取模块和所述图像特征抽取模块的输出分别输入所述多模态特征融合模块;
所述声学特征抽取模块的具体功能为:
将所述视频文件中的语音分帧,抽取每一帧的声学特征参数,计算所有帧的声学特征参数的统计信息,从而获取句子级别声学特征;所述声学特征参数包括:韵律特征、音质特征和谱特征;
所述文本特征抽取模块的具体功能为:
将所述视频文件中每个词转化为其对应的词向量特征,计算所有词的统计信息,从而获取句子级别文本特征;
所述图像特征抽取模块的具体功能为:
将视频分成若干图像帧,从所述图像帧中检测出面部区域位置,基于所述面部区域位置抽取形状特征和外观特征;计算所有图像帧的形状特征和外观特征统计信息,从而获取最终的图像特征;
所述多模态特征融合模块的具体功能为:
将声学特征、文本特征以及图像特征进行拼接,作为多模态特征参数。
优选地,所述基于单句的情感识别模块采用支持向量机、随机森林或深度网络任何一种情感识别方法。
优选地,所述交互建模模块采用图神经网络结构,所述图神经网络由三部分组成:节点、边及边的类型。
优选地,所述交互建模模块采用图神经网络建模对话中的交互信息,所述交互信息包括:自我依赖和相互依赖;所述自我依赖指的是每个人当前时刻的情绪状态,与其之前时刻的情绪状态之间存在的相互影响;所述相互依赖指的是每个人当前时刻的情绪状态,也会受到与之交谈者的影响;
图神经网络采用两种类型的边对所述自我依赖和所述相互依赖进行建模;采用连接当前时刻A的句子节点和上一时刻A的句子节点作为边建模自我依赖;采用连接当前时刻A的句子节点和上一时刻B的句子节点作为边建模相互依赖;其中所述A和B是对话中存在两个人。
优选地,所述时序建模模块(包括:
特征增广模块、双向循环神经网络和自注意力机制模块;所述特征增广模块与所述双向循环神经网络连接,所述双向循环神经网络与所述自注意力机制模块连接;
所述自注意力机制模块的具体功能为:使得模型能够动态关注到比较重要的上下文信息。
优选地,所述情感预测模块(5)利用单层感知机预测个体的情绪状态,具体公式为:
本申请实施例提供的上述技术方案与现有技术相比具有如下优点:
本申请实施例提供的该方法,
(1)首次提出了一种基于图神经网络的对话情感纠错模型,通过引入交互信息和时序信息,从而将传统意义上基于单句的情感识别模型,快速改造成适用于对话情感识别任务的模型。
(2)通过利用图神经网络,建模说话人之间的依赖关系,从而增强了情感识别的效果。
(3)通过循环神经网络和自注意力机制,建模对话中的上下文依赖关系,从而增强了情感识别的效果。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的基于图神经网络的对话情感纠错模型结构框图;
图2是根据一示例性实施例示出的多模态特征抽取模块的结构框图;
图3是根据一示例性实施例示出的时序建模模块的结构框图。
图中:1-多模态特征抽取模块、2-基于单句的情感识别模块、3-交互建模模块、4-时序建模模块、5-情感预测模块、11-声学特征抽取模块、12-文本特征抽取模块、13-图像特征抽取模块、14-多模态特征融合模块、41-特征增广模块、42-双向循环神经网络、43-自注意力机制模块。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1,为本申请实施例提供的基于图神经网络的对话情感纠错模型,包括:
多模态特征抽取模块1、基于单句的情感识别模块2、交互建模模块3、时序建模模块4和情感预测模块5;所述多模态特征抽取模块1和所述基于单句的情感识别模块2连接,所述基于单句的情感识别模块2与所述交互建模模块3连接,所述交互建模模块3与所述时序建模模块4连接,所述时序建模模块4与所述情感预测模块5连接;
所述多模态特征抽取模块1的具体功能为:抽取视频文件中的声学特征、文本特征和图像特征,并将所述视频中的声学特征、所述文本特征和所述图像特征融合,得到多模态特征;
如图2所示,多模态特征抽取模块1包括,
声学特征抽取模块11、文本特征抽取模块12、图像特征抽取模块13和多模态特征融合模块14;视频文件分别输入所述声学特征抽取模块11、所述文本特征抽取模块12和所述图像特征抽取模块13,所述声学特征抽取模块11、所述文本特征抽取模块12和所述图像特征抽取模块13的输出分别输入所述多模态特征融合模块14;
所述声学特征抽取模块11的具体功能为:
将所述视频文件中的语音分帧,抽取每一帧的声学特征参数,计算所有帧的声学特征参数的统计信息,从而获取句子级别声学特征;所述声学特征参数包括:韵律特征、音质特征和谱特征;
所述文本特征抽取模块12的具体功能为:
将所述视频文件中每个词转化为其对应的词向量特征,计算所有词的统计信息,从而获取句子级别文本特征;
所述图像特征抽取模块13的具体功能为:
将视频分成若干图像帧,从所述图像帧中检测出面部区域位置,基于所述面部区域位置抽取形状特征和外观特征;计算所有图像帧的形状特征和外观特征统计信息,从而获取最终的图像特征;
所述多模态特征融合模块14的具体功能为:
将声学特征、文本特征以及图像特征进行拼接,作为多模态特征参数。
基于单句的情感识别模块2的具体功能为:获取每个句子的情感预测结果;所述基于单句的情感识别模块2采用支持向量机、随机森林或深度网络任何一种情感识别方法。
交互建模模块3的具体功能为:在每个句子的情感预测结果的基础上融合交互信息,建模说话人之间的依赖关系,得到融合交互信息特征;
所述交互建模模块3采用图神经网络结构,所述图神经由三部分组成:节点、边及边的类型;
所述交互建模模块3采用图神经网络建模对话中的交互信息,所述交互信息包括:自我依赖和相互依赖;所述自我依赖指的是每个人当前时刻的情绪状态,与其之前时刻的情绪状态之间存在的相互影响;所述相互依赖指的是每个人当前时刻的情绪状态,也会受到与之交谈者的影响;
图神经网络采用两种类型的边对所述自我依赖和所述相互依赖进行建模;采用连接当前时刻A的句子节点和上一时刻A的句子节点作为边建模自我依赖;采用连接当前时刻A的句子节点和上一时刻B的句子节点作为边建模相互依赖;其中所述A和B是对话中存在两个人;
时序建模模块4的具体功能为:建模对话中的上下文依赖关系,动态关注到比较重要的上下文信息,得到对话情感特征;
如图3所示,所述时序建模模块4包括:
特征增广模块41、双向循环神经网络42和自注意力机制模块43;所述特征增广模块41与所述双向循环神经网络42连接,所述双向循环神经网络42与所述自注意力机制模块43连接;
所述自注意力机制模块43的具体功能为:使得模型能够动态关注到比较重要的上下文信息;
情感预测模块5的具体功能为:预测所述视频文件中个体的情绪状态。
所述情感预测模块5利用单层感知机预测个体的情绪状态,具体公式为:
情感识别结果使用准确率、召回率、F1分数进行度量,用于判断预测的情感状态和真实情感状态之间的相关性。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.基于图神经网络的对话情感纠错模型,其特征在于,包括:多模态特征抽取模块(1)、基于单句的情感识别模块(2)、交互建模模块(3)、时序建模模块(4)和情感预测模块(5);所述多模态特征抽取模块(1)和所述基于单句的情感识别模块(2)连接,所述基于单句的情感识别模块(2)与所述交互建模模块(3)连接,所述交互建模模块(3)与所述时序建模模块(4)连接,所述时序建模模块(4)与所述情感预测模块(5)连接;
所述多模态特征抽取模块(1)的具体功能为:抽取视频文件中的声学特征、文本特征和图像特征,并将所述视频中的声学特征、所述文本特征和所述图像特征融合,得到多模态特征;
基于单句的情感识别模块(2)的具体功能为:获取每个句子的情感预测结果;
交互建模模块(3)的具体功能为:在每个句子的情感预测结果的基础上融合交互信息,得到融合交互信息特征;
时序建模模块(4)的具体功能为:动态关注到比较重要的上下文信息,得到对话情感特征;
情感预测模块(5)的具体功能为:预测所述视频文件中个体的情绪状态。
2.根据权利要求1所述的基于图神经网络的对话情感纠错模型,其特征在于,所述多模态特征抽取模块(1)包括,
声学特征抽取模块(11)、文本特征抽取模块(12)、图像特征抽取模块(13)和多模态特征融合模块(14);视频文件分别输入所述声学特征抽取模块(11)、所述文本特征抽取模块(12)和所述图像特征抽取模块(13),所述声学特征抽取模块(11)、所述文本特征抽取模块(12)和所述图像特征抽取模块(13)的输出分别输入所述多模态特征融合模块(14);
所述声学特征抽取模块(11)的具体功能为:
将所述视频文件中的语音分帧,抽取每一帧的声学特征参数,计算所有帧的声学特征参数的统计信息,从而获取句子级别声学特征;所述声学特征参数包括:韵律特征、音质特征和谱特征;
所述文本特征抽取模块(12)的具体功能为:
将所述视频文件中每个词转化为其对应的词向量特征,计算所有词的统计信息,从而获取句子级别文本特征;
所述图像特征抽取模块(13)的具体功能为:
将视频分成若干图像帧,从所述图像帧中检测出面部区域位置,基于所述面部区域位置抽取形状特征和外观特征;计算所有图像帧的形状特征和外观特征统计信息,从而获取最终的图像特征;
所述多模态特征融合模块(14)的具体功能为:
将声学特征、文本特征以及图像特征进行拼接,作为多模态特征参数。
3.根据权利要求1所述的基于图神经网络的对话情感纠错模型,其特征在于,所述基于单句的情感识别模块(2)采用支持向量机、随机森林或深度网络任何一种情感识别方法。
4.根据权利要求1所述的基于图神经网络的对话情感纠错模型,其特征在于,所述交互建模模块(3)采用图神经网络结构,所述图神经网络由三部分组成:节点、边及边的类型。
6.根据权利要求5所述的基于图神经网络的对话情感纠错模型,其特征在于,所述交互建模模块(3)采用图神经网络建模对话中的交互信息,所述交互信息包括:自我依赖和相互依赖;所述自我依赖指的是每个人当前时刻的情绪状态,与其之前时刻的情绪状态之间存在的相互影响;所述相互依赖指的是每个人当前时刻的情绪状态,也会受到与之交谈者的影响;
图神经网络采用两种类型的边对所述自我依赖和所述相互依赖进行建模;采用连接当前时刻A的句子节点和上一时刻A的句子节点作为边建模自我依赖;采用连接当前时刻A的句子节点和上一时刻B的句子节点作为边建模相互依赖;其中所述A和B是对话中存在两个人。
8.根据权利要求7所述的基于图神经网络的对话情感纠错模型,其特征在于,所述时序建模模块(4)包括:
特征增广模块(41)、双向循环神经网络(42)和自注意力机制模块(43);所述特征增广模块(41)与所述双向循环神经网络(42)连接,所述双向循环神经网络(42)与所述自注意力机制模块(43)连接;
所述自注意力机制模块(43)的具体功能为:使得模型能够动态关注到比较重要的上下文信息。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110196514.9A CN112579745B (zh) | 2021-02-22 | 2021-02-22 | 基于图神经网络的对话情感纠错系统 |
US17/472,511 US20220270636A1 (en) | 2021-02-22 | 2021-09-10 | Dialogue emotion correction method based on graph neural network |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110196514.9A CN112579745B (zh) | 2021-02-22 | 2021-02-22 | 基于图神经网络的对话情感纠错系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112579745A true CN112579745A (zh) | 2021-03-30 |
CN112579745B CN112579745B (zh) | 2021-06-08 |
Family
ID=75113943
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110196514.9A Active CN112579745B (zh) | 2021-02-22 | 2021-02-22 | 基于图神经网络的对话情感纠错系统 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20220270636A1 (zh) |
CN (1) | CN112579745B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108805087A (zh) * | 2018-06-14 | 2018-11-13 | 南京云思创智信息科技有限公司 | 基于多模态情绪识别系统的时序语义融合关联判断子系统 |
CN108805088A (zh) * | 2018-06-14 | 2018-11-13 | 南京云思创智信息科技有限公司 | 基于多模态情绪识别系统的生理信号分析子系统 |
CN108877801A (zh) * | 2018-06-14 | 2018-11-23 | 南京云思创智信息科技有限公司 | 基于多模态情绪识别系统的多轮对话语义理解子系统 |
US10410630B2 (en) * | 2014-06-19 | 2019-09-10 | Robert Bosch Gmbh | System and method for speech-enabled personalized operation of devices and services in multiple operating environments |
CN111164601A (zh) * | 2019-12-30 | 2020-05-15 | 深圳市优必选科技股份有限公司 | 情感识别方法、智能装置和计算机可读存储介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9263060B2 (en) * | 2012-08-21 | 2016-02-16 | Marian Mason Publishing Company, Llc | Artificial neural network based system for classification of the emotional content of digital music |
JP6465077B2 (ja) * | 2016-05-31 | 2019-02-06 | トヨタ自動車株式会社 | 音声対話装置および音声対話方法 |
WO2019102884A1 (ja) * | 2017-11-21 | 2019-05-31 | 日本電信電話株式会社 | ラベル生成装置、モデル学習装置、感情認識装置、それらの方法、プログラム、および記録媒体 |
US11830291B2 (en) * | 2020-02-10 | 2023-11-28 | University Of Maryland, College Park | System and method for multimodal emotion recognition |
CN112348075B (zh) * | 2020-11-02 | 2022-09-20 | 大连理工大学 | 一种基于情景注意力神经网络的多模态情感识别方法 |
-
2021
- 2021-02-22 CN CN202110196514.9A patent/CN112579745B/zh active Active
- 2021-09-10 US US17/472,511 patent/US20220270636A1/en active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10410630B2 (en) * | 2014-06-19 | 2019-09-10 | Robert Bosch Gmbh | System and method for speech-enabled personalized operation of devices and services in multiple operating environments |
CN108805087A (zh) * | 2018-06-14 | 2018-11-13 | 南京云思创智信息科技有限公司 | 基于多模态情绪识别系统的时序语义融合关联判断子系统 |
CN108805088A (zh) * | 2018-06-14 | 2018-11-13 | 南京云思创智信息科技有限公司 | 基于多模态情绪识别系统的生理信号分析子系统 |
CN108877801A (zh) * | 2018-06-14 | 2018-11-23 | 南京云思创智信息科技有限公司 | 基于多模态情绪识别系统的多轮对话语义理解子系统 |
CN111164601A (zh) * | 2019-12-30 | 2020-05-15 | 深圳市优必选科技股份有限公司 | 情感识别方法、智能装置和计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112579745B (zh) | 2021-06-08 |
US20220270636A1 (en) | 2022-08-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108717856B (zh) | 一种基于多尺度深度卷积循环神经网络的语音情感识别方法 | |
CN110751208B (zh) | 一种基于自权重差分编码器进行多模态特征融合的服刑人员情感识别方法 | |
CN110534087B (zh) | 一种文本韵律层级结构预测方法、装置、设备及存储介质 | |
Parthasarathy et al. | Training strategies to handle missing modalities for audio-visual expression recognition | |
Agarwalla et al. | Machine learning based sample extraction for automatic speech recognition using dialectal Assamese speech | |
CN115329779B (zh) | 一种多人对话情感识别方法 | |
WO2021114841A1 (zh) | 一种用户报告的生成方法及终端设备 | |
CN112102850B (zh) | 情绪识别的处理方法、装置、介质及电子设备 | |
Seng et al. | Video analytics for customer emotion and satisfaction at contact centers | |
India Massana et al. | LSTM neural network-based speaker segmentation using acoustic and language modelling | |
Cid et al. | A novel multimodal emotion recognition approach for affective human robot interaction | |
Tavabi et al. | Multimodal learning for identifying opportunities for empathetic responses | |
CN112597841B (zh) | 一种基于门机制多模态融合的情感分析方法 | |
Lakomkin et al. | Incorporating end-to-end speech recognition models for sentiment analysis | |
CN113837072A (zh) | 一种融合多维信息的说话人情绪感知方法 | |
Sharma et al. | Multichannel attention network for analyzing visual behavior in public speaking | |
Goncalves et al. | Improving speech emotion recognition using self-supervised learning with domain-specific audiovisual tasks | |
Eom et al. | Speech Emotion Recognition Using 2D-CNN with Mel-Frequency Cepstrum Coefficients. | |
Ananthi et al. | Speech recognition system and isolated word recognition based on Hidden Markov model (HMM) for Hearing Impaired | |
Yao et al. | Anchor voiceprint recognition in live streaming via RawNet-SA and gated recurrent unit | |
CN112579745B (zh) | 基于图神经网络的对话情感纠错系统 | |
CN107507627B (zh) | 语音数据热度分析方法及系统 | |
Johar | Paralinguistic profiling using speech recognition | |
CN116611459A (zh) | 翻译模型的训练方法、装置、电子设备及存储介质 | |
CN112633263B (zh) | 海量音视频情感识别系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |