CN116681055A - 一种基于融合认知信号和文本的情感识别方法及装置 - Google Patents
一种基于融合认知信号和文本的情感识别方法及装置 Download PDFInfo
- Publication number
- CN116681055A CN116681055A CN202310451112.8A CN202310451112A CN116681055A CN 116681055 A CN116681055 A CN 116681055A CN 202310451112 A CN202310451112 A CN 202310451112A CN 116681055 A CN116681055 A CN 116681055A
- Authority
- CN
- China
- Prior art keywords
- text
- cognitive
- word
- specific
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000001149 cognitive effect Effects 0.000 title claims abstract description 197
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 42
- 238000000034 method Methods 0.000 title claims abstract description 40
- 230000004927 fusion Effects 0.000 title claims abstract description 32
- 239000011159 matrix material Substances 0.000 claims abstract description 76
- 238000007781 pre-processing Methods 0.000 claims abstract description 12
- 230000007246 mechanism Effects 0.000 claims abstract description 4
- 239000013598 vector Substances 0.000 claims description 83
- 230000006870 function Effects 0.000 claims description 79
- 230000019771 cognition Effects 0.000 claims description 51
- 230000008451 emotion Effects 0.000 claims description 15
- 210000004556 brain Anatomy 0.000 claims description 13
- 238000012549 training Methods 0.000 claims description 10
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 238000011156 evaluation Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims 2
- 238000003058 natural language processing Methods 0.000 description 12
- 238000012545 processing Methods 0.000 description 10
- 230000000875 corresponding effect Effects 0.000 description 5
- 238000002599 functional magnetic resonance imaging Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 210000004761 scalp Anatomy 0.000 description 3
- QVGXLLKOCUKJST-UHFFFAOYSA-N atomic oxygen Chemical compound [O] QVGXLLKOCUKJST-UHFFFAOYSA-N 0.000 description 2
- 239000008280 blood Substances 0.000 description 2
- 210000004369 blood Anatomy 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000001054 cortical effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 229910052760 oxygen Inorganic materials 0.000 description 2
- 239000001301 oxygen Substances 0.000 description 2
- 230000001766 physiological effect Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007177 brain activity Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000004424 eye movement Effects 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/254—Fusion techniques of classification results, e.g. of results related to same input data
- G06F18/256—Fusion techniques of classification results, e.g. of results related to same input data of results relating to different input data, e.g. multimodal recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/094—Adversarial learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于融合认知信号和文本的情感识别方法和装置,该方法首先对认知信号与文本信息预处理,得到词嵌入矩阵和认知信号矩阵;再进行文本注意力机制,并结合softmax函数,得到带有文本认知信号注意力权重的认知信号矩阵;接着通过使用多个编码器,从带有文本认知信号注意力权重的认知信号矩阵与词嵌入矩阵两种模态的输入中分别提取各自共有特征,同时保留和纯化每个模态的特有特征;将共有特征输入至生成对抗网络获取共享特征,并与每个模态的特有特征拼接得到共享‑特有多模态特征,再输入至预测器中进行预测。本发明同时基于文本信息以及认知信号特征进行预测,结合特征融合,大大提高了下游情感识别任务的准确性。
Description
技术领域
本发明属于自然语言处理技术领域,尤其涉及一种基于融合认知信号和文本的情感识别方法和装置。
背景技术
情感识别是一种典型的自然语言处理任务,它对带有感情色彩的主观性文本进行分类、推理,即分析语言的情感态度,倾向正面,中性或是反面。传统文本主题分类可以分析文本所讨论的客观内容,而情感分析则可以从文本中得到它是否支持某种观点的信息。这项工作在人工智能和人机交互领域发挥着重要作用。在计算领域,实现情感识别是基于对大量文本材料的训练。
近年来,认知启发式自然语言处理作为一种新颖的多模态研究方法,在情感识别任务中表现出了明显的改进效果。认知启发式自然语言处理是认知神经科学和自然语言处理的交叉研究领域,它在用神经科学设备(fMRI,MEG或EEG)记录受试者大脑活动的同时,向受试者展示刺激,并使用认知信号建模来提高自然语言处理任务的性能。其中,认知信号是人们在思考、运动或情绪变化等生理活动发生时,大脑产生的生理信号,其既包括通过非侵入式技术功能性磁共振成像获取的血氧水平依赖或头皮电极获取的脑电图等,也包括通过侵入式技术获取的皮质脑电图信号。在以往的研究中,认知启发的自然语言处理在情绪识别领域取得了优异的表现。
然而,如何在认知启发的自然语言处理中整合认知信号和文本是一个关键问题。目前该领域的早期研究简单地将文本与认知信号(如眼动或脑电图特征)经过预处理的特征向量直接拼接作为分类器的输入,这种方法已经被证实有效。然而认知信号包含了心理语言学信息,而词嵌入通常包含了上下文单词和句子的信息。输入的认知信号和词嵌入之间并未经过标准化定义,导致了不同的特征向量之间差异性很大,模型的可解释性严重降低,模型的优化被限制。
在整合认知信号和文本的阶段,最新的研究提出了新的特征融合框架,该框架通过使用复杂的神经网络来捕捉认知信号和词嵌入之间的公共特征,并采用公共特征与原始模态表示拼接的新特征来解决认知启发自然语言处理的任务,在很大程度上消除了两种模式之间的差异,也取得了较好的识别效率。但这些技术方法只提取了多模态数据的共有特征,而忽略了认知信号和词嵌入中的特有特征。考虑到认知信号和词嵌入都有不同的隐含信息。在提取共有特征的同时,保留和纯化特有特征是很重要的。
发明内容
本发明的目的在于针对现有技术的不足,提供了一种基于融合认知信号和文本的情感识别方法和装置。
本发明的目的是通过以下技术方案来实现的:一种基于融合认知信号和文本的情感识别方法,包括以下步骤:
(1)对输入的文本信息和认知信号分别进行预处理,得到词嵌入矩阵和认知信号矩阵;
(2)根据步骤(1)得到的词嵌入矩阵和认知信号矩阵,利用文本自注意力机制进行提取,并结合softmax函数,得到带有文本认知信号注意力权重的认知信号矩阵;
(3)将词嵌入矩阵分别输入至文本共有特征编码器和文本特有特征编码器,得到文本共有特征和文本特有特征,并得到文本正交损失函数LO-word;将带有文本认知信号注意力权重的认知信号矩阵分别输入至认知共有特征编码器和认知特有特征编码器,得到认知共有特征和认知特有特征,并得到认知正交损失函数LO-eeg;
(4)将文本共有特征和认知共有特征按序交替传入由共享特征编码器和判别器组成的生成对抗网络中,得到结合文本共有特征和认知共有特征的共享特征,并得到文本对抗性损失函数LA-word和认知对抗性损失函数LA-eeg;
(5)将文本特有特征和步骤(4)中得到的共享特征进行向量拼接得到文本共享-特有多模态特征;将认知特有特征和步骤(4)中得到的共享特征进行向量拼接得到认知共享-特有多模态特征;
(6)将文本特有特征和认知特有特征分别输入至文本特有预测器和认知特有预测器中,分别得到文本特有预测向量和认知特有预测向量,并得到文本特有预测损失函数LS-word和认知特有预测损失函数LS-eeg;
将文本共享-特有多模态特征和认知共享-特有多模态特征分别输入至文本共享-特有特征预测器和认知共享-特有特征预测器中,得到文本多模态预测向量和认知多模态预测向量,并得到文本多模态预测损失函数LT-word和认知多模态预测损失函数LT_eeg;
(7)计算最终损失函数L,进行反向传播,更新模型参数权重;重复步骤(2)-步骤(7),至少迭代70次;其中,L=Lword+Leeg,Lword=LT-word+λSLS-word+λOLO-word+λALA-word,Leeg=LT-eeg+λSLS-eeg+λOLO-eeg+λALA-eeg,λS、λO和λA分别是LS,LO和LA的系数;Lword为文本最终损失函数,Leeg为认知最终损失函数;
(8)根据模型的评价指标,保存最优模型;所述评价指标包括精确率、召回率和F1值;
(9)获取第二文本信息,对其进行预处理,得到第二词嵌入矩阵,并输入至最优模型,预测正面、中性和反面三个情感类别的置信度,所述置信度最高的情感类别即为第二文本信息最终的情感识别结果。
进一步地,所述步骤(1)中,文本信息的预处理具体为:从文本信息中提取文本单词;对于提取的单词,构造词序表和掩码表,赋予每一个文本单词唯一的序列号和掩码;对输入的每一个句子进行补零对齐操作;编码结束后,在每一句子的最前端加一个起止符,在句子的末端加一个终止符;从RoBERTa预训练模型中,得到每一个单词的单词级词嵌入向量,将其拼接形成一句话的词嵌入矩阵。
进一步地,所述步骤(1)中,认知信号的预处理具体为:提取左右脑单词级α,β和γ波段的认知信号,计算其左右脑差值向量,将三种波段的差值向量拼接,得到288维的单词级认知信号向量;将得到的单词级认知信号进行拼接和补零操作,得到认知信号矩阵。
进一步地,所述步骤(2)包括以下子步骤:
(2.1)对认知信号矩阵和词嵌入矩阵/>进行注意力操作,得到关联矩阵Wi,具体公式为:
其中,Dw和Dc分别是词嵌入向量和认知信号向量的维度,下标w表示文本(word),下标c表示认知(cognitive)。N是句子长度,是一个可训练的矩阵,T表示矩阵的转置操作;
(2.2)根据单词级词嵌入向量和单词级认知信号向量/>其中j代表一句话中的第j个单词,得到两者之间相关性权重的关联矩阵Wi=[w1;w2;…;wN],其中,wi代表关联矩阵的第i列;通过softmax函数,目标句子的归一化权重系数矩阵表示为:
Ai=softmax(w1;w2;…;wN)
其中,Ai的每一行表示单词级词嵌入和句子级认知信号矩阵/>之间的相关性权重分数;
(2.3)通过步骤(2.2)得到的Ai和进行点乘,最终得到带有文本认知信号注意力权重的认知信号矩阵/>
进一步地,所述步骤(3)具体为:2个采用相同超参数的文本共有特征编码器和文本特有特征编码器从输入的词嵌入矩阵上一次读取一句话;输入的词嵌入矩阵首先经过位置编码,并进行多头注意力操作,得到输出隐向量;2个编码器分别将得到的输出隐向量进行残差连接和层标准化后输入一个前馈神经网络中,再次进行残差连接和层标准化后即分别得到文本共有特征以及文本特有特征。并得到文本正交损失函数LO-word;
其中,B为样本训练数,为文本共有特征向量,/>为文本特有特征向量,c-word指代common-word(文本共有),s-word指代specific-word(文本特有)。
2个采用相同超参数的认知共有特征编码器和认知特有特征编码器从输入的带有文本认知信号注意力权重的认知信号矩阵上一次读取一句话对应的认知信号矩阵,之后首先经过位置编码,并进行多头注意力操作,得到输出隐向量;2个编码器分别将得到的输出隐向量进行残差连接和层标准化后输入一个前馈神经网络中,再次进行残差连接和层标准化后即分别得到认知共有特征以及认知特有特征;并得到认知正交损失函数Lo-eeg;
其中,为认知共有特征向量,/>为认知特有特征向量,c-eeg指代common-eeg(认知共有),s-eeg指代specific-eeg(认知特有)。
进一步地,所述步骤(4)中,文本对抗性损失函数LA-word:
认知对抗性损失函数LA-eeg:
其中,表示文本共有特征,/>表示认知共有特征,S和ps表示共享特征编码器和它的参数,D和pd表示判别器和判别器参数。
进一步地,所述步骤(6)中,得到的文本特有预测向量、认知特有预测向量、文本多模态预测向量和认知多模态预测向量分别经过softmax层进行归一化处理并得到其属于不同情感类型的概率和输出标签,并将结果通过交叉熵的形式获得文本特有预测损失函数LS-word、认知特有预测损失函数LS-eeg、文本多模态预测损失函数LT-word和认知多模态预测损失函数LT-eeg;
文本特有预测损失函数LS-word:
认知特有预测损失函数Ls-eeg:
文本多模态预测损失函数LT-word:
认知多模态预测损失函数LT-eeg:
其中,yi为真实标签概率,即真实值。表示文本特有特征,/>表示认知特有特征,/>表示文本共享-特有多模态特征,/>表示认知共享-特有多模态特征;/>为文本特有预测概率,/>为认知特有预测概率,为文本共享-特有多模态特征预测概率,/>为认知共享-特有多模态特征预测概率。
一种基于融合认知信号和文本的情感识别装置,包括一个或多个处理器,用于实现上述的基于融合认知信号和文本的情感识别方法。
一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述的基于融合认知信号和文本的情感识别方法。
本发明的有益效果是:
1、提高情绪识别的准确性:相比于只用文本的自然语言处理领域的情绪识别任务,本发明加入了认知信号,认知信号可以提供额外的信息,例如面部表情、身体语言和声音语调等,这些信息有助于更准确地识别文本中的情绪。结合这些信息,可以提高情绪识别的准确性;
2、提出了一种新的特征融合方法,在保留不同模态共有特征的同时纯化了各模态的特有特征,使得不同模态间的特征融合得更加彻底;
3、在公开且权威的认知启发式自然语言处理数据集上的情绪识别准确率达到了最佳。
附图说明
图1是本发明的基本原理流程图;
图2是本发明提出的数据预处理流程图;
图3是本发明提出的多模态特征融合的流程图;
图4是本发明提出的对抗学习特征强化的流程图;
图5是本发明装置的示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
在本发明使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本发明可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本发明范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
下面结合附图,对本发明进行详细说明。在不冲突的情况下,下述的实施例及实施方式中的特征可以相互组合。
名词解释:
认知信号:认知信号是人们在思考、运动或情绪变化等生理活动发生时,大脑产生的生理信号,其既包括通过非侵入式技术功能性磁共振成像获取的血氧水平依赖或头皮电极获取的脑电图等,也包括通过侵入式技术获取的皮质脑电图信号。在本实施例中,选择的数据为非侵入式头皮电极获取的脑电波EEG(electroencephalogram)。
共有特征:共有特征指某种模态中与另一种模态有高度相关的特征信息。
特有特征:特有特征指某种模态中独有的特征信息。
共享特征:两种模态的共有特征融合后的特征信息,即不同模态当中最具有相关性的特征信息。
本发明的一种基于融合认知信号和文本的情感识别方法,如图1所示,包括以下步骤:
(1)如图2所示,对输入的文本信息和认知信号分别进行预处理,得到词嵌入矩阵和认知信号矩阵;
文本信息的预处理具体为:使用matlab软件从数据集中的‘.mat’格式文件中提取文本文字;对于提取的文本文字,构造词序表和掩码表,赋予每一个单词唯一的序列号‘input_ids’和掩码‘attention_masks’其中序列号代表该单词在预训练好的Roberta模型的内置单词表上的位置,掩码为0或1;对输入的每一个句子进行对齐操作,通过补零操作,把所有句子的单词数补为最长句子的单词数。编码结束后,在每一句子的最前端加一个起止符,在句子的末端加一个终止符;把词序表和掩码表输入RoBERTa模型中,从RoBERTa中,根据词序表和掩码表能得到每一个单词的词嵌入,将其拼接形成一句话的词嵌入矩阵。
认知信号的预处理为:使用matlab软件读取数据集‘.mat’格式文件,并提取左右脑单词级α,β和γ波段的EEG;对于提取的单词级α,β和γ波段的EEG,计算其左右脑差值向量,将三种波段的差值向量拼接,得到288维的单词级认知信号向量;将得到的单词级认知信号数据进行拼接;通过补零操作,把进行拼接的认知信号数据转换为最长信号维度的认知信号矩阵,并转化为‘numpy’格式并储存;
(2)如图3所示,输入层中,根据步骤(1)得到的词嵌入矩阵和认知信号矩阵,利用文本自注意力机制进行提取,并结合softmax函数,得到带有文本认知信号注意力权重的认知信号矩阵;包括以下子步骤:
(2.1)对于目标句子si,对其认知信号矩阵和词嵌入矩阵进行注意力操作,得到关联矩阵Wi,具体公式为:
其中,Dw和Dc分别是词嵌入向量和认知信号向量的维度,N是句子长度,U∈RN×N是一个可训练的矩阵集,该矩阵可以促使训练更好拟合;
(2.2)根据单词级词嵌入向量和单词级认知信号向量/>得到两者之间相关性权重的关联矩阵wi,关联矩阵Wi=[w1;w2;…;wN],wi代表关联矩阵的第i列;通过softmax函数,目标句子的归一化权重系数矩阵表示为:
Ai=softmax(w1;w2;…;wN)
其中,Ai的每一行表示单词级词嵌入和句子级认知信号矩阵/>之间的相关性权重分数;
(2.3)通过步骤(2.2)得到的Ai和进行点乘,最终得到带有文本认知信号注意力权重的认知信号矩阵/>
(3)编码层中,将词嵌入矩阵分别输入至超参数相同并且互相之间通过损失函数进行正交约束的文本共有特征编码器和文本特有特征编码器,得到文本共有特征和文本特有特征,并得到文本正交损失函数Lo-word;
具体为:2个采用相同超参数的文本共有特征编码器和文本特有特征编码器从输入的词嵌入矩阵上,一次读取一句话;输入的词嵌入矩阵首先经过位置编码,并进行多头注意力操作,得到输出隐向量;2个编码器分别将得到的输出隐向量进行残差连接和层标准化后输入一个前馈神经网络中,再次进行残差连接和层标准化后即分别得到文本共有特征以及文本特有特征;并得到文本正交损失函数Lo-word;
其中,B为样本训练数,为文本共有特征向量,/>为文本特有特征向量。
将带有文本认知信号注意力权重的认知信号矩阵分别输入至超参数相同并且互相之间通过损失函数进行正交约束的认知共有特征编码器和认知特有特征编码器,得到认知共有特征和认知特有特征,并得到认知正交损失函数Lo-eeg;
具体为:2个采用相同超参数的认知共有特征编码器和认知特有特征编码器从输入的带有文本认知信号注意力权重的认知信号矩阵上,一次读取一句话对应的认知信号矩阵,之后首先经过位置编码,并进行多头注意力操作,得到输出隐向量;2个编码器分别将得到的输出隐向量进行残差连接和层标准化后输入一个前馈神经网络中,再次进行残差连接和层标准化后即分别得到认知共有特征以及认知特有特征;并得到认知正交损失函数Lo-eeg;
其中,为认知共有特征向量,/>为认知特有特征向量。
所述步骤(3)中,共有特征编码器用于提取不同模态间的共有特征信息,特有特征编码器用于提取不同模态的特有特征信息。本实施例中,文本共有特征编码器用于提取词嵌入矩阵的共有特征信息,即文本共有特征;认知共有特征编码器用于提取带有文本认知信号注意力权重的认知信号矩阵的共有特征信息,即认知共有特征;文本特有特征编码器用于提取词嵌入矩阵的特有特征信息,即文本特有特征;认知特有特征编码器用于提取带有文本认知信号注意力权重的认知信号矩阵的特有特征信息,即认知特有特征。
(4)如图4所示,编码层中,将文本共有特征和认知共有特征按序交替传入由共享特征编码器和判别器组成的生成对抗网络中,得到结合文本共有特征和认知共有特征的共享特征并得到文本对抗性损失函数LA-word和认知对抗性损失函数LA-eeg;其中,在判别器中加入了梯度反转,有助于在反向过程中反转梯度;
文本对抗性损失函数LA-word:
认知对抗性损失函数LA-eeg:
其中,表示文本共有特征,/>表示认知共有特征,S和ps表示共享特征编码器和它的参数,D和pd表示判别器和它的参数。
所述步骤(4)中,生成对抗网络由共享特征编码器和判别器组成,其中,共享特征编码器作为生成器。本实施例中,生成器,即共享特征编码器旨在将文本共有特征和认知共有特征映射到同一语义空间中,使两种模态的特征高度融合;而判别器则用来区分输入的特征是文本共有特征还是认知共有特征;该生成对抗网络的目标是使判别器无法判断输出为哪种模态的信息,即得到结合文本共有特征和认知共有特征的共享特征。
(5)编码层中,将文本特有特征和步骤(4)中得到的共享特征进行向量拼接得到文本共享-特有多模态特征具体为:
其中,表示文本共享-特有多模态特征;
将认知特有特征和步骤(4)中得到的共享特征进行向量拼接得到认知共享-特有多模态特征具体为:
其中,表示认知共享-特有多模态特征。
(6)预测层中,将文本特有特征和认知特有特征分别输入至文本特有预测器和认知特有预测器中,分别得到文本特有预测向量和认知特有预测向量,并得到文本特有预测损失函数LS-word和认知特有预测损失函数LS-eeg:
将文本共享-特有多模态特征和认知共享-特有多模态特征分别输入至文本共享-特有特征预测器和认知共享-特有特征预测器中,得到文本多模态预测向量和认知多模态预测向量,并得到文本多模态预测损失函数LT-word和认知多模态预测损失函数LT-eeg:
所述步骤(6)中,得到的文本特有预测向量、认知特有预测向量、文本多模态预测向量和认知多模态预测向量分别经过softmax层进行归一化处理并得到其属于不同情感类型的概率和输出标签,并将结果通过交叉熵的形式获得文本特有预测损失函数LS-word、认知特有预测损失函数LS-eeg、文本多模态预测损失函数LT-word和认知多模态预测损失函数LT-eeg;
文本特有预测损失函数LS-word:
认知特有预测损失函数LS-eeg:
文本多模态预测损失函数LT-word:
认知多模态预测损失函数LT-eeg:
其中,yi为真实标签概率,即真实值,表示文本特有特征,/>表示认知特有特征,/>表示文本共享-特有多模态特征,/>表示认知共享-特有多模态特征;/>为文本特有预测概率,/>为认知特有预测概率,为文本共享-特有多模态特征预测概率,/>为认知共享-特有多模态特征预测概率。
(7)计算最终损失函数L,进行反向传播,每次以样本训练数B的平均损失更新模型参数权重;重复上述步骤(2)-步骤(7),以样本训练数B对训练数据库迭代完全为一轮,至少迭代70次;其中,L=Lword+Leeg,Lword=LT-word+λSLS-word+λOLO-word+λALA-word,Leeg=LT-eeg+λSLS-eeg+λOLO-eeg+λALA-eeg,λS、λO和λA分别是LS,LO和LA的系数;Lword为文本最终损失函数,Leeg为认知最终损失函数;
(8)根据模型的评价指标,保存最优模型;所述评价指标包括精确率、召回率和F1值;
其中,精确率表示所有被预测为正例的样本中,被正确预测为正例的样本占所有被预测为正例的样本的比例;召回率表示所有正例中被正确预测为正例的样本占所有正例样本的比例;F1是分类模型的一个综合性指标,它结合了模型的精确率和召回率来评估模型的性能。F1值越高,说明模型的性能越好。
(9)获取第二文本信息,对其进行预处理,得到第二词嵌入矩阵,并输入至最优模型,预测正面、中性和反面三个情感类别的置信度,所述置信度最高的情感类别即为第二文本信息最终的情感识别结果。
综上所述,本发明基于情绪识别任务,引入了认知信号与文本信息的多模态融合,提取了共有特征以及保留和强化特有特征。同时利用生成对抗网络,将多模态中的共享特征信号进行融合强化,并应用于下游的情感识别任务中,提高了情感识别的准确性。
与前述的一种基于融合认知信号和文本的情感识别方法的实施例相对应,本发明还提供了一种基于融合认知信号和文本的情感识别装置的实施例。
参见图5,本发明实施例提供的一种基于融合认知信号和文本的情感识别装置,包括一个或多个处理器,用于实现上述实施例中的一种基于融合认知信号和文本的情感识别方法。
本发明的一种基于融合认知信号和文本的情感识别装置的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图5所示,为本发明的一种基于融合认知信号和文本的情感识别装置所在任意具备数据处理能力的设备的一种硬件结构图,除了图5所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述实施例中的一种基于融合认知信号和文本的情感识别方法。
所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备,例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、SD卡、闪存卡(Flash Card)等。进一步的,所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
以上实施例仅用于说明本发明的设计思想和特点,其目的在于使本领域内的技术人员能够了解本发明的内容并据以实施,本发明的保护范围不限于上述实施例。所以,凡依据本发明所揭示的原理、设计思路所作的等同变化或修饰,均在本发明的保护范围之内。
本领域技术人员在考虑说明书及实践这里公开的内容后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。
Claims (9)
1.一种基于融合认知信号和文本的情感识别方法,其特征在于,包括以下步骤:
(1)对输入的文本信息和认知信号分别进行预处理,得到词嵌入矩阵和认知信号矩阵;
(2)根据步骤(1)得到的词嵌入矩阵和认知信号矩阵,利用文本自注意力机制进行提取,并结合softmax函数,得到带有文本认知信号注意力权重的认知信号矩阵;
(3)将词嵌入矩阵分别输入至文本共有特征编码器和文本特有特征编码器,得到文本共有特征和文本特有特征,并得到文本正交损失函数LO-word;将带有文本认知信号注意力权重的认知信号矩阵分别输入至认知共有特征编码器和认知特有特征编码器,得到认知共有特征和认知特有特征,并得到认知正交损失函数Lo-eeg;
(4)将文本共有特征和认知共有特征按序交替传入由共享特征编码器和判别器组成的生成对抗网络中,得到结合文本共有特征和认知共有特征的共享特征,并得到文本对抗性损失函数LA-word和认知对抗性损失函数LA-eeg;
(5)将文本特有特征和步骤(4)中得到的共享特征进行向量拼接得到文本共享-特有多模态特征;将认知特有特征和步骤(4)中得到的共享特征进行向量拼接得到认知共享-特有多模态特征;
(6)将文本特有特征和认知特有特征分别输入至文本特有预测器和认知特有预测器中,分别得到文本特有预测向量和认知特有预测向量,并得到文本特有预测损失函数LS-word和认知特有预测损失函数LS-eeg;
将文本共享-特有多模态特征和认知共享-特有多模态特征分别输入至文本共享-特有特征预测器和认知共享-特有特征预测器中,得到文本多模态预测向量和认知多模态预测向量,并得到文本多模态预测损失函数LT-word和认知多模态预测损失函数LT-eeg;
(7)计算最终损失函数L,进行反向传播,更新模型参数权重;重复步骤(2)-步骤(7),至少迭代70次;其中,L=Lword+Leeg,Lword=LT-word+λSLS-word+λOLO-word+λALA-word,Leeg=Lr-eeg+λSLS-eeg+λOLO-eeg+λALA-eeg,λS、λO和λA分别是LS,LO和LA的系数;Lword为文本最终损失函数,Leeg为认知最终损失函数;
(8)根据模型的评价指标,保存最优模型;所述评价指标包括精确率、召回率和F1值;
(9)获取第二文本信息,对其进行预处理,得到第二词嵌入矩阵,并输入至最优模型,预测正面、中性和反面三个情感类别的置信度,所述置信度最高的情感类别即为第二文本信息最终的情感识别结果。
2.根据权利要求1所述的一种基于融合认知信号和文本的情感识别方法,其特征在于,所述步骤(1)中,文本信息的预处理具体为:从文本信息中提取文本单词;对于提取的单词,构造词序表和掩码表,赋予每一个文本单词唯一的序列号和掩码;对输入的每一个句子进行补零对齐操作;编码结束后,在每一句子的最前端加一个起止符,在句子的末端加一个终止符;从RoBERTa预训练模型中,得到每一个单词的单词级词嵌入向量,将其拼接形成一句话的词嵌入矩阵。
3.根据权利要求1所述的一种基于融合认知信号和文本的情感识别方法,其特征在于,所述步骤(1)中,认知信号的预处理具体为:提取左右脑单词级α,β和γ波段的认知信号,计算其左右脑差值向量,将三种波段的差值向量拼接,得到288维的单词级认知信号向量;将得到的单词级认知信号进行拼接和补零操作,得到认知信号矩阵。
4.根据权利要求1所述的一种基于融合认知信号和文本的情感识别方法,其特征在于,所述步骤(2)包括以下子步骤:
(2.1)对认知信号矩阵和词嵌入矩阵/>进行注意力操作,得到关联矩阵Wi,具体公式为:
其中,Dw和Dc分别是词嵌入向量和认知信号向量的维度,下标w表示文本,下标c表示认知;N是句子长度,是一个可训练的矩阵,T表示矩阵的转置操作;
(2.2)根据单词级词嵌入向量和单词级认知信号向量/>其中j代表一句话中的第j个单词,得到两者之间相关性权重的关联矩阵Wi=[w1;w2;…;wN],其中,wi代表关联矩阵的第i列;通过softmax函数,目标句子的归一化权重系数矩阵表示为:
Ai=softmax(w1;w2;…;wN)
其中,Ai的每一行表示单词级词嵌入和句子级认知信号矩阵/>之间的相关性权重分数;
(2.3)通过步骤(2.2)得到的Ai和进行点乘,最终得到带有文本认知信号注意力权重的认知信号矩阵/>
5.根据权利要求1所述的一种基于融合认知信号和文本的情感识别方法,其特征在于,所述步骤(3)具体为:2个采用相同超参数的文本共有特征编码器和文本特有特征编码器从输入的词嵌入矩阵上,一次读取一句话;输入的词嵌入矩阵首先经过位置编码,并进行多头注意力操作,得到输出隐向量;2个编码器分别将得到的输出隐向量进行残差连接和层标准化后输入一个前馈神经网络中,再次进行残差连接和层标准化后即分别得到文本共有特征以及文本特有特征;并得到文本正交损失函数LO-word;
其中,B为样本训练数,为文本共有特征向量,/>为文本特有特征向量;
2个采用相同超参数的认知共有特征编码器和认知特有特征编码器从输入的带有文本认知信号注意力权重的认知信号矩阵上,一次读取一句话对应的认知信号矩阵,之后首先经过位置编码,并进行多头注意力操作,得到输出隐向量;2个编码器分别将得到的输出隐向量进行残差连接和层标准化后输入一个前馈神经网络中,再次进行残差连接和层标准化后即分别得到认知共有特征以及认知特有特征;并得到认知正交损失函数LO-eeg;
其中,为认知共有特征向量,/>为认知特有特征向量。
6.根据权利要求1所述的一种基于融合认知信号和文本的情感识别方法,其特征在于,所述步骤(4)中,文本对抗性损失函数LA-word:
认知对抗性损失函数LA-eeg:
其中,表示文本共有特征,/>表示认知共有特征,S和ps表示共享特征编码器和它的参数,D和pd表示判别器和判别器参数。
7.根据权利要求1所述的一种基于融合认知信号和文本的情感识别方法,其特征在于,所述步骤(6)中,得到的文本特有预测向量、认知特有预测向量、文本多模态预测向量和认知多模态预测向量分别经过softmax层进行归一化处理并得到其属于不同情感类型的概率和输出标签,并将结果通过交叉熵的形式获得文本特有预测损失函数LS-word、认知特有预测损失函数LS-eeg、文本多模态预测损失函数LT-word和认知多模态预测损失函数LT-eeg;
文本特有预测损失函数LS-word:
认知特有预测损失函数LS-eeg:
文本多模态预测损失函数LT-word:
认知多模态预测损失函数LT-eeg:
其中,yi为真实标签概率,即真实值;表示文本特有特征,/>表示认知特有特征,/>表示文本共享-特有多模态特征,/>表示认知共享-特有多模态特征;/>为文本特有预测概率,/>为认知特有预测概率,为文本共享-特有多模态特征预测概率,/>为认知共享-特有多模态特征预测概率。
8.一种基于融合认知信号和文本的情感识别装置,其特征在于,包括一个或多个处理器,用于实现权利要求1-7中任一项所述的基于融合认知信号和文本的情感识别方法。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-7中任一所述的基于融合认知信号和文本的情感识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310451112.8A CN116681055A (zh) | 2023-04-20 | 2023-04-20 | 一种基于融合认知信号和文本的情感识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310451112.8A CN116681055A (zh) | 2023-04-20 | 2023-04-20 | 一种基于融合认知信号和文本的情感识别方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116681055A true CN116681055A (zh) | 2023-09-01 |
Family
ID=87777655
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310451112.8A Pending CN116681055A (zh) | 2023-04-20 | 2023-04-20 | 一种基于融合认知信号和文本的情感识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116681055A (zh) |
-
2023
- 2023-04-20 CN CN202310451112.8A patent/CN116681055A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112487182B (zh) | 文本处理模型的训练方法、文本处理方法及装置 | |
CN109003678B (zh) | 一种仿真文本病历的生成方法及系统 | |
Zhang et al. | A context-aware recurrent encoder for neural machine translation | |
CN109192300A (zh) | 智能问诊方法、系统、计算机设备和存储介质 | |
CN109522546A (zh) | 基于上下文相关的医学命名实体识别方法 | |
CN110427486B (zh) | 身体病况文本的分类方法、装置及设备 | |
CN110991190B (zh) | 一种文档主题增强系统、文本情绪预测系统和方法 | |
Ye et al. | ECG generation with sequence generative adversarial nets optimized by policy gradient | |
CN112257449A (zh) | 命名实体识别方法、装置、计算机设备和存储介质 | |
Wu et al. | KAICD: A knowledge attention-based deep learning framework for automatic ICD coding | |
CN111858940A (zh) | 一种基于多头注意力的法律案例相似度计算方法及系统 | |
Wan et al. | A self-attention based neural architecture for Chinese medical named entity recognition | |
CN114564959A (zh) | 中文临床表型细粒度命名实体识别方法及系统 | |
Kim et al. | Automatic classification of the Korean triage acuity scale in simulated emergency rooms using speech recognition and natural language processing: a proof of concept study | |
CN113657105A (zh) | 基于词汇增强的医学实体抽取方法、装置、设备及介质 | |
CN113408430A (zh) | 基于多级策略和深度强化学习框架的图像中文描述系统及方法 | |
CN114708976A (zh) | 辅助诊断技术的方法、装置、设备及存储介质 | |
Hsu et al. | Multi-label classification of ICD coding using deep learning | |
CN110687999A (zh) | 一种对脑电信号进行语义处理的方法和装置 | |
Shokrollahi et al. | A comprehensive review of generative AI in healthcare | |
Cai et al. | HITS-based attentional neural model for abstractive summarization | |
Kezar et al. | Improving sign recognition with phonology | |
CN115964475A (zh) | 一种用于医疗问诊的对话摘要生成方法 | |
CN115455144A (zh) | 用于小样本意图识别的完型填空式的数据增强方法 | |
CN116681055A (zh) | 一种基于融合认知信号和文本的情感识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |