CN113535894B - 基于条件融合的多模态反讽检测方法 - Google Patents

基于条件融合的多模态反讽检测方法 Download PDF

Info

Publication number
CN113535894B
CN113535894B CN202110659973.6A CN202110659973A CN113535894B CN 113535894 B CN113535894 B CN 113535894B CN 202110659973 A CN202110659973 A CN 202110659973A CN 113535894 B CN113535894 B CN 113535894B
Authority
CN
China
Prior art keywords
layer
encoder
audio
video
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110659973.6A
Other languages
English (en)
Other versions
CN113535894A (zh
Inventor
姜明
王晶晶
张旻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202110659973.6A priority Critical patent/CN113535894B/zh
Publication of CN113535894A publication Critical patent/CN113535894A/zh
Application granted granted Critical
Publication of CN113535894B publication Critical patent/CN113535894B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于条件融合的多模态反讽检测方法。本发明具体步骤:步骤1、对需要进行反讽检测的数据文本进行预训练;对数据文本对应的视频和音频进行编码,得到视频特征和音频特征;步骤2、将处理好的数据文本馈送到编码器TE中;将数据的视频特征和音频特征通过多头注意力机制获得与情感相关的语境信息;步骤3、将语境信息以增量参数的形式加入到编码器的层归一化的增益g和偏置b中,将视频、音频特征融合到文本特征中,获得融合后的语义编码;步骤4、将语义编码通过softmax层进行讽刺的极性分类;本发明方法具有更好的鲁棒性和检测能力,解决了评论文本中的反讽检测问题。

Description

基于条件融合的多模态反讽检测方法
技术领域
本发明涉及反讽检测领域,具体涉及一种基于条件融合的多模态反讽检测方法。
背景技术
情感分析结果会受到很多因素的影响,当文本存在反语或讽刺内容时,就会翻转句子的情感极性,这就需要使用反讽检测方法,其旨在检测文本中是否含有讽刺内容。
现有的研究大多是基于单一文本模态进行的,模型通过寻找句子中相互矛盾的情感来检测讽刺。在很多场景中,通过文本模态的语言表达不足以找到讽刺的语义线索,而通过与文本对应的视频、语音模态结合可以挖掘出讽刺语义。
发明内容
本发明的目的是针对现有的反讽检测方法的不足,提出了一种基于多层Transformer编码器架构的多模态反讽检测模型(CF-MSD)。为了让多模态特征信息能更有效的融合,针对Transformer编码器的归一化层提出了一种条件归一化方法,将视频、语音特征通过多头注意力机制获得与情感相关的语境信息,然后以增量参数的形式加入到原始归一化层的增益g(gain)和偏置b(bias)中,再通过Transformer编码器的层层迭代,将视频、语音等模态特征融合到文本模态特征中,得到融合后的语义编码,用以来判断目标对话是否含有讽刺。
本发明具体实现步骤如下:
步骤1、对需要进行反讽检测的数据文本进行预训练;对数据文本对应的视频和音频进行编码,得到视频特征和音频特征;
步骤2、将处理好的数据文本发送到编码器TE中;将数据的视频特征和音频特征通过多头注意力机制获得与情感相关的语境信息;
步骤3、将语境信息以增量参数的形式加入到编码器的层归一化的增益g和偏置b中,将视频、音频特征融合到文本特征中,获得融合后的语义编码;
步骤4、将语义编码通过softmax层进行讽刺的极性分类;
步骤1具体实现如下:
1.1对于数据文本,每条训练数据都包含上下文对话Context和目标对话Target,将上下文对话和目标对话联合作为Transformer编码器的输入X,计算方式如下:
X=Context+Target (1)
1.2使用Ekphrasis分词工具对输入X进行分词,然后预训练一个Word2vec模型来学习每个词的语义特征以获得词向量表示;
1.3对于数据文本对应的音频,通过使用librosa库,提取音频的基础特征;每段音频被切成不重合的小窗,提出不同特征拼接后将每段小窗取平均,对于整段音频就能够得到一个283维的向量;
1.4对于数据文本对应的视频,在抽帧后放入一个由ImageNet预训练好的Resnet-152网络进行提取,然后对视频抽帧取平均,获得一个2048维的向量。
进一步的,步骤2具体实现如下:
2.1输入序列X发送到Transformer编码器,首先会先经过第一层的多头注意力机制,该多头注意力机制将Head数设置为12,从而生成12个不同的特征矩阵;由于最后的输出矩阵要与输入矩阵大小一致,因此,得到的特征矩阵会按第二个维度拼接起来;然后经过第二层全连接层后得到多头注意力机制层的输出矩阵Z;最后,将Z与X融合得到矩阵R1,用于后面层归一化的操作;其计算过程如下:
Z=MultiHead(Q,K,V)=[head1;...;headh]WO (2)
Figure GDA0003776387050000021
Figure GDA0003776387050000022
R1=Z+X (5)
其中,
Figure GDA0003776387050000023
分别是查询Q、键K、值V以及多头注意力机制输出矩阵的投影矩阵,h是多有注意力机制的头数,headi是第i个注意力的输出;
2.2在每个Transformer编码器(TE)的子层中都使用两个关系记忆模块RM;RM的核心内容是使用了多头注意力机制,将来自层归一化的输入向量Rt作为查询Q,视频特征和音频特征联合成F={f1,f2,…,fn}作为键K和值V,通过Query和Key的相似度来获得关键的特征信息Ht,并将特征信息通过MLP变换为△gt和△bt,此△gt和△bt将在下一小节中作为条件融入到原始层归一化的g和b中;其次,将RM模块集成到Transformer编码器中,随着多个Transformer编码器的层层叠加,RM模块会不断地从上一层的交互信息中保存有效信息并进一步提取更深层次的抽象信息用于调节Transforme编码器中文本模态的语境信息提取;其计算过程如下:
Ht=fmulti-head(Rt,F) (6)
△gt=fmlp(Ht) (7)
△bt=fmlp(Ht) (8)
其中,Rt为层归一化的输入向量,当t=1时,R1=Z+X;当t=0时,R0=X,即第一次的Query为输入序列X。
进一步的,步骤3具体实现如下:
3.1在Transformer编码器使用的是层归一化LN,特征x通过μ和σ,得到归一化后的值为x′,公式可表示为:
Figure GDA0003776387050000031
其中,μ和σ分别表示归一化统计量均值和方差,ε是一个很小的小数,防止除0;
在层归一化LN,也需要一组参数来保证归一化操作不会破坏之前的信息,这组参数叫做增益g(gain)和偏置b(bias),LN的输出可表示为:
fLN(x′)=g☉x′+b (10)
合并上述两个公式,LN层最终输出可表示为:
Figure GDA0003776387050000041
将辅助特征信息△gt和△bt集成到Transformer编码器中原始LN的g和b中去,形成条件LN;为了防止扰乱原来的预训练权重,两个变换矩阵全零初始化,这样在初始状态,模型依然保持跟原来的预训练模型一致;公式如下:
Figure GDA0003776387050000042
Figure GDA0003776387050000043
在该Transformer编码器中,特征x为层归一化的输入向量Rt,则通过LN之后获得的特征结果如下:
Figure GDA0003776387050000044
其中,Rt为上一层的输出;μ和σ是分别是平均值和方差;
在Transformer编码器中,RM模块会集成到所有的编码层中,将编码层中的归一化都加入条件输入形成条件归一化层,用来动态调节TE中的编码过程。
进一步的,步骤4具体实现如下:
4.1当多个Transformer编码器的层层叠加时,上一层编码器的输出直接用作下一层编码器的输入;由于训练分类器需要向量表示,在最后一层编码器的输出S上应用了全局平均池化;池化向量G∈Rd用作单层前馈网络的输入,其输出层是计算任务P={0,1}的两类上的概率分布,公式可表示为:
O=softmax(max(0,GW1+b1)W2+b2) (15)
其中
Figure GDA0003776387050000045
是P上的概率分布,
Figure GDA0003776387050000046
是应用在G上的隐藏层的权重矩阵,
Figure GDA0003776387050000047
是输出层的权重矩阵;采用加权交叉熵作为网络训练的损失函数。
本发明的优点及有益效果如下:
本发明主要是为了解决评论文本中的反讽检测问题。在情感分析的过程中经常遇到反讽表达。反讽属于非正式表达方式,作为一种特殊的修辞手法,在情感分析过程中容易被忽略。如果句子中没有明确冲突的情感词作为判别依据,就需要从外部信息入手,通过推断用户背景等上下文的方式进行反讽检测。一旦忽略反讽表达背后的真实态度,就会对句子的情感倾向造成误判。
基于上下文无关的文本(即,反讽检测只对单一的目标语句)进行的反讽检测模型的应用场景非常有限,这是因为目标语句中是否含有讽刺含义离不开上下文语境信息,因此,利用对话中的上下文语境信息可以有效的提高反讽检测的准确性(基于上下文有关的反讽检测)。另一方面,除了上下文语境信息之外,其他模态的信息也会为反讽检测提供非常重要的辅助信息。首先,说话者的语调通常会有明显的变化,这仅当听到说话人的声音时,才能发现原本看似简单的文本其实是包含讽刺含义。其次,讽刺的另一个标志是对特定单词的过度强调。
本发明提出了一种条件归一化的方法将提取的多模态特征信息进行有效的融合。具体而言,该模型的核心模块包含两个部分,Tranformer编码器(TE,TransformerEncoder)和集成到TE中的关系记忆模块(RM,Renational Memory)。关系记忆模块用于其他模态和文本模态进行建模,提取与TE模块的隐层状态信息(语境信息)相关的其他跨模态(视频和音频)交互信息。TE模块用于对文本模态进行建模,通过多层叠加的编码器来提取文本中的深层次语境信息,本文提出将每层编码层中的无条件归一化替换成条件归一化的方法融合RM模块的跨模态交互信息和文本的隐层信息。条件归一化的融合方式可以有效地融合其他模态特征与文本模态特征,且不会影响文本模态中提取到的某些核心信息。最后通过获取的语义编码来判断目标对话是否含有讽刺。
附图说明
图1是本发明所述方法的流程框图。
图2是本发明所述模型方法的架构图。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1和图2,基于上下文感知嵌入的细粒度情感分析方法,包括以下步骤:
步骤1、对需要进行反讽检测的数据文本进行预训练;对数据文本对应的视频和音频进行编码,得到视频特征和音频特征。
步骤2、将处理好的数据文本发送到编码器TE中;将数据的视频特征和音频特征通过多头注意力机制获得与情感相关的语境信息。
步骤3、将语境信息以增量参数的形式加入到编码器的层归一化的增益g和偏置b中,将视频、音频特征融合到文本特征中,获得融合后的语义编码。
步骤4、将语义编码通过softmax层进行讽刺的极性分类。
步骤1具体实现如下:
1.1对于数据文本,每条训练数据都包含上下文对话(Context)和目标对话(Target),本文将上下文对话和目标对话联合作为模型的输入X,计算方式如下:
X=Context+Target
1.2使用Ekphrasis分词工具对输入X进行分词,然后预训练一个Word2vec模型来学习每个词的语义特征以获得词向量表示。
1.3对于数据文本对应的音频,通过使用librosa库,提取了音频的基础特征,如MFCC,过零率等。每段音频被切成不重合的小窗,提出不同特征拼接后将每段小窗取平均,对于整段音频就可以得到一个283维的向量。
1.4对于数据文本对应的视频,在抽帧后放入一个由ImageNet预训练好的Resnet-152网络进行提取,然后,对视频抽帧取平均,获得一个2048维的向量。
进一步的,步骤2具体实现如下:
2.1模型将输入序列X发送到编码器中,会先经过第一层的多头注意力机制(本方法中将Head数设置为12来生成12个不同的特征矩阵),由于最后的输出矩阵要与输入矩阵大小一致,因此,得到的特征矩阵会按第二个维度拼接起来,然后经过第二层全连接层后得到多头注意力机制层的输出矩阵Z,最后,将Z与X融合得到矩阵R1,用于后面层归一化的操作。其计算过程如下:
Z=MultiHead(Q,K,V)=[head1;...;headh]WO
Figure GDA0003776387050000071
Figure GDA0003776387050000072
R1=Z+X
其中,
Figure GDA0003776387050000073
分别是查询Q、键K、值V以及多头注意力机制输出矩阵的投影矩阵,h是多有注意力机制的头数,headi是第i个注意力的输出。
2.2在每个TE层的子层中都使用了两个关系记忆模块(RM)。RM的核心内容是使用了多头注意力机制,将来自层归一化的输入向量Rt作为查询Q(Query),视频特征和音频特征联合成F={f1,f2,…,fn}作为键K(Key)和值V(Value),通过Query和Key的相似度来获得关键的特征信息Ht,并将特征信息通过MLP变换为△gt和△bt,此△gt和△bt将在下一小节中作为条件融入到原始层归一化的g和b中。其次,将RM模块集成到TE模块中,随着TE模块中编码器的层层叠加,RM模块会不断地从上一层的交互信息中保存有效信息并进一步提取更深层次的抽象信息用于调节编码器中文本模态的语境信息提取。其计算过程如下:
Ht=fmulti-head(Rt,F)
△gt=fmlp(Ht)
△bt=fmlp(Ht)
其中,Rt为层归一化的输入向量,例如,当t=1时,R1=Z+X,特别的,当t=0时,R0=X,即第一次的Query为输入序列X。
进一步的,步骤3具体实现如下:
3.1在TE中使用的是层归一化(LN,Layer Normalization),LN是一个独立于batchsize的算法,所以无论样本数多少都不会影响参与LN计算的数据量。可以计算LN的归一化统计量均值μ和方差σ,统计量的计算是和样本数量没有关系的,它的数量只取决于隐层节点的数量,所以只要隐层节点的数量足够多,就能保证LN的归一化统计量足够具有代表性。特征x通过μ和σ,可以得到归一化后的值为x′,公式可表示为:
Figure GDA0003776387050000081
其中,ε是一个很小的小数,防止除0。
在LN中,也需要一组参数来保证归一化操作不会破坏之前的信息,这组参数叫做增益g(gain)和偏置b(bias),LN的输出可表示为:
fLN(x′)=g☉x′+b
合并上述两个公式,LN层最终输出可表示为:
Figure GDA0003776387050000082
对于Transformer编码器来说,已经有现成的、无条件的g和b了,它们都是长度固定的向量。本文将辅助特征信息△gt和△bt集成到TE中无条件LN的g和b中去,形成条件LN。为了防止扰乱原来的预训练权重,两个变换矩阵可以全零初始化,这样在初始状态,模型依然保持跟原来的预训练模型一致。公式如下:
Figure GDA0003776387050000083
Figure GDA0003776387050000091
在此模型中,特征x为归一化层的输入向量Rt,则通过LN之后获得的特征结果如下:
Figure GDA0003776387050000092
其中,Rt为上一层的输出;μ和v是分别是平均值和方差。
在TE中,RM模块会集成到所有的编码层中,将编码层中的归一化都加入条件输入形成条件归一化层,用来动态调节TE中的编码过程。
进一步的,步骤4具体实现如下:
4.1当在TE中堆叠多个编码器时,编码器的输入直接用作下一个编码器的输入。由于训练分类器需要向量表示,在最后一个编码器的输出S上应用了全局平均池化。池化向量G∈Rd用作单层前馈网络的输入,其输出层是计算任务P={0,1}的两类上的概率分布,公式可表示为:
O=softmax(max(0,GW1+b1)W2+b2)
其中
Figure GDA0003776387050000093
是P上的概率分布,
Figure GDA0003776387050000094
是应用在G上的隐藏层的权重矩阵,
Figure GDA0003776387050000095
是输出层的权重矩阵。针对实验语料库的不平衡性,考虑到训练集中每个类的分布情况,采用加权交叉熵作为网络训练的损失函数。公式可表示为:
Figure GDA0003776387050000096
其中
Figure GDA0003776387050000097
是数据集,
Figure GDA0003776387050000098
是损失函数,f是由θ参数化的模型。我们使用Adam作为更新规则,Noam作为学习速率衰减的模式。

Claims (3)

1.基于条件融合的多模态反讽检测方法,其特征在于包括如下步骤:
步骤1、对需要进行反讽检测的数据文本进行预训练;对数据文本对应的视频和音频进行编码,得到视频特征和音频特征;
步骤2、将处理好的数据文本发送到编码器TE中;将数据的视频特征和音频特征通过多头注意力机制获得与情感相关的语境信息;
步骤3、将语境信息以增量参数的形式加入到编码器的层归一化的增益g和偏置b中,将视频、音频特征融合到文本特征中,获得融合后的语义编码;
步骤4、将语义编码通过softmax层进行讽刺的极性分类;
步骤1具体实现如下:
1.1对于数据文本,每条训练数据都包含上下文对话Context和目标对话Target,将上下文对话和目标对话联合作为Transformer编码器的输入X,计算方式如下:
X=Context+Target (1)
1.2使用Ekphrasis分词工具对输入X进行分词,然后预训练一个Word2vec模型来学习每个词的语义特征以获得词向量表示;
1.3对于数据文本对应的音频,通过使用librosa库,提取音频的基础特征;每段音频被切成不重合的小窗,提出不同特征拼接后将每段小窗取平均,对于整段音频就能够得到一个283维的向量;
1.4对于数据文本对应的视频,在抽帧后放入一个由ImageNet预训练好的Resnet-152网络进行提取,然后对视频抽帧取平均,获得一个2048维的向量;
步骤2具体实现如下:
2.1输入序列X发送到Transformer编码器,首先会先经过第一层的多头注意力机制,该多头注意力机制将Head数设置为12,从而生成12个不同的特征矩阵;由于最后的输出矩阵要与输入矩阵大小一致,因此,得到的特征矩阵会按第二个维度拼接起来;然后经过第二层全连接层后得到多头注意力机制层的输出矩阵Z;最后,将Z与X融合得到矩阵R1,用于后面层归一化的操作;其计算过程如下:
Z=MultiHead(Q,K,V)=[head1;...;headh]WO (2)
Figure FDA0003776387040000021
Figure FDA0003776387040000022
R1=Z+X (5)
其中,
Figure FDA0003776387040000023
分别是查询Q、键K、值V以及多头注意力机制输出矩阵的投影矩阵,h是多头注意力机制的头数,headi是第i个注意力的输出;
2.2在每个Transformer编码器的子层中都使用两个关系记忆模块RM;RM的核心内容是使用了多头注意力机制,将来自层归一化的输入向量Rt作为查询Q,视频特征和音频特征联合成F={f1,f2,…,fn}作为键K和值V,通过Query和Key的相似度来获得关键的特征信息Ht,并将特征信息通过MLP变换为△gt和△bt,此△gt和△bt将作为条件融入到原始层归一化的g和b中;其次,将RM模块集成到Transformer编码器中,随着多个Transformer编码器的层层叠加,RM模块会不断地从上一层的交互信息中保存有效信息并进一步提取更深层次的抽象信息用于调节Transforme编码器中文本模态的语境信息提取;其计算过程如下:
Ht=fmulti-head(Rt,F) (6)
△gt=fmlp(Ht) (7)
△bt=fmlp(Ht) (8)
其中,Rt为层归一化的输入向量,当t=1时,R1=Z+X;当t=0时,R0=X,即第一次的Query为输入序列X。
2.根据权利要求1所述的基于条件融合的多模态反讽检测方法,其特征在于步骤3具体实现如下:
3.1在Transformer编码器使用的是层归一化LN,特征x通过μ和σ,得到归一化后的值为x′,公式可表示为:
Figure FDA0003776387040000031
其中,μ和σ分别表示归一化统计量均值和方差,ε是一个很小的小数,防止除0;
在层归一化LN,也需要一组参数来保证归一化操作不会破坏之前的信息,这组参数叫做增益g和偏置b,LN的输出可表示为:
fLN(x′)=g☉x′+b (10)
合并上述两个公式,LN层最终输出可表示为:
Figure FDA0003776387040000032
将辅助特征信息△gt和△bt集成到Transformer编码器中原始LN的g和b中去,形成条件LN;为了防止扰乱原来的预训练权重,两个变换矩阵全零初始化,这样在初始状态,模型依然保持跟原来的预训练模型一致;公式如下:
Figure FDA0003776387040000033
Figure FDA0003776387040000034
在该Transformer编码器中,特征x为层归一化的输入向量Rt,则通过LN之后获得的特征结果如下:
Figure FDA0003776387040000035
其中,Rt为上一层的输出;μ和σ是分别是平均值和方差;
在Transformer编码器中,RM模块会集成到所有的编码层中,将编码层中的归一化都加入条件输入形成条件归一化层,用来动态调节TE中的编码过程。
3.根据权利要求2所述的基于条件融合的多模态反讽检测方法,其特征在于步骤4具体实现如下:
4.1当多个Transformer编码器的层层叠加时,上一层编码器的输出直接用作下一层编码器的输入;由于训练分类器需要向量表示,在最后一层编码器的输出S上应用了全局平均池化;池化向量G∈Rd用作单层前馈网络的输入,其输出层是计算任务P={0,1}的两类上的概率分布,公式可表示为:
O=softmax(max(0,GW1+b1)W2+b2) (15)
其中
Figure FDA0003776387040000041
是P上的概率分布,
Figure FDA0003776387040000042
是应用在G上的隐藏层的权重矩阵,
Figure FDA0003776387040000043
是输出层的权重矩阵;采用加权交叉熵作为网络训练的损失函数。
CN202110659973.6A 2021-06-15 2021-06-15 基于条件融合的多模态反讽检测方法 Active CN113535894B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110659973.6A CN113535894B (zh) 2021-06-15 2021-06-15 基于条件融合的多模态反讽检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110659973.6A CN113535894B (zh) 2021-06-15 2021-06-15 基于条件融合的多模态反讽检测方法

Publications (2)

Publication Number Publication Date
CN113535894A CN113535894A (zh) 2021-10-22
CN113535894B true CN113535894B (zh) 2022-09-13

Family

ID=78124981

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110659973.6A Active CN113535894B (zh) 2021-06-15 2021-06-15 基于条件融合的多模态反讽检测方法

Country Status (1)

Country Link
CN (1) CN113535894B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116229332B (zh) * 2023-05-06 2023-08-04 浪潮电子信息产业股份有限公司 一种视频预训练模型的训练方法、装置、设备及存储介质
CN116956024A (zh) * 2023-07-05 2023-10-27 西北工业大学 一种基于参数自进化策略的目标细粒度识别方法
CN117251791B (zh) * 2023-11-08 2024-01-26 天津大学 基于图的全局语义感知的多模态反讽检测方法
CN117235605B (zh) * 2023-11-10 2024-02-02 湖南马栏山视频先进技术研究院有限公司 一种基于多模态注意力融合的敏感信息分类方法及装置
CN117558459A (zh) * 2024-01-10 2024-02-13 中国科学技术大学 一种记忆驱动的医疗多模态内容分析及生成方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112418034A (zh) * 2020-11-12 2021-02-26 元梦人文智能国际有限公司 多模态情感识别方法、装置、电子设备和存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11281863B2 (en) * 2019-04-18 2022-03-22 Salesforce.Com, Inc. Systems and methods for unifying question answering and text classification via span extraction

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112418034A (zh) * 2020-11-12 2021-02-26 元梦人文智能国际有限公司 多模态情感识别方法、装置、电子设备和存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CFN A Complex-Valued Fuzzy Network for Sarcasm Detection in Conversations;Yazhou Zhang等;《IEEE》;20210412;全文 *
基于图文融合的社交媒体反讽识别;林敏鸿;《电脑知识与技术》;20200831;第16卷(第24期);全文 *

Also Published As

Publication number Publication date
CN113535894A (zh) 2021-10-22

Similar Documents

Publication Publication Date Title
CN113535894B (zh) 基于条件融合的多模态反讽检测方法
US20240161732A1 (en) Multi-dialect and multilingual speech recognition
CN110914827B (zh) 生成多语言语义解析器的系统和计算机实现方法
WO2020107878A1 (zh) 文本摘要生成方法、装置、计算机设备及存储介质
JP7407968B2 (ja) 音声認識方法、装置、設備及び記憶媒体
CN109661664B (zh) 一种信息处理的方法及相关装置
CN112115687B (zh) 一种结合知识库中的三元组和实体类型的生成问题方法
CN108170848B (zh) 一种面向中国移动智能客服的对话场景分类方法
CN113223509B (zh) 一种应用于多人混杂场景下的模糊语句识别方法及系统
CN110781290A (zh) 一种长篇章结构化文本摘要提取方法
CN113065344A (zh) 一种基于迁移学习和注意力机制的跨语料库情感识别方法
CN111651973A (zh) 一种基于句法感知的文本匹配方法
CN114218928A (zh) 一种基于图知识和主题感知的抽象文本摘要方法
CN113609849A (zh) 一种融合先验知识模型的蒙古语多模态细粒度情感分析方法
Lin et al. Joint Prediction of Punctuation and Disfluency in Speech Transcripts.
CN115374270A (zh) 一种基于图神经网络的法律文本摘要生成方法
CN116189039A (zh) 一种全局音频特征增强的模态顺序感知的多模态情感分类方法及系统
CN114492796A (zh) 一种基于语法树的多任务学习手语翻译方法
CN114595700A (zh) 融合零代词与篇章信息的汉越神经机器翻译方法
CN112489651B (zh) 语音识别方法和电子设备、存储装置
CN113297374A (zh) 一种基于bert和字词特征融合的文本分类方法
CN112417138A (zh) 一种结合指针生成式与自注意力机制的短文本自动摘要方法
CN117251562A (zh) 一种基于事实一致性增强的文本摘要生成方法
CN115510230A (zh) 一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法
CN111814468B (zh) 一种自适应架构语义分布文本理解方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant