CN117633516B - 多模态嘲讽检测方法、装置、计算机设备以及存储介质 - Google Patents
多模态嘲讽检测方法、装置、计算机设备以及存储介质 Download PDFInfo
- Publication number
- CN117633516B CN117633516B CN202410101338.XA CN202410101338A CN117633516B CN 117633516 B CN117633516 B CN 117633516B CN 202410101338 A CN202410101338 A CN 202410101338A CN 117633516 B CN117633516 B CN 117633516B
- Authority
- CN
- China
- Prior art keywords
- representation
- feature
- modal
- cross
- attention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 158
- 238000003860 storage Methods 0.000 title description 12
- 238000000034 method Methods 0.000 claims abstract description 120
- 238000000605 extraction Methods 0.000 claims abstract description 41
- 239000013598 vector Substances 0.000 claims description 157
- 230000000007 visual effect Effects 0.000 claims description 134
- 239000011159 matrix material Substances 0.000 claims description 81
- 238000004422 calculation algorithm Methods 0.000 claims description 70
- 238000012549 training Methods 0.000 claims description 68
- 230000006870 function Effects 0.000 claims description 46
- 230000008569 process Effects 0.000 claims description 46
- 238000004364 calculation method Methods 0.000 claims description 29
- 238000010586 diagram Methods 0.000 claims description 26
- 238000012545 processing Methods 0.000 claims description 21
- 238000001125 extrusion Methods 0.000 claims description 18
- 230000004927 fusion Effects 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 12
- 238000011176 pooling Methods 0.000 claims description 7
- 238000000638 solvent extraction Methods 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 5
- 238000004458 analytical method Methods 0.000 claims description 4
- 238000012512 characterization method Methods 0.000 claims description 4
- 238000009826 distribution Methods 0.000 claims description 3
- 230000003213 activating effect Effects 0.000 claims description 2
- 230000009466 transformation Effects 0.000 claims description 2
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 230000007246 mechanism Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000005192 partition Methods 0.000 description 3
- 241000500128 Cynomorium Species 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000008451 emotion Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/42—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Biology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Biomedical Technology (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及自然语言处理技术领域,特别涉及一种多模态嘲讽检测方法,采用单模态门控注意力特征提取方法,提取文本级以及图像级的门控自注意力特征表示,采用跨模态图推理方法,捕捉局部配准和全局配准之间的不一致性关系,以识别跨模态级的图推理特征,结合文本级、图像级的门控自注意力特征表示以及跨模态级的图推理特征进行嘲讽识别,从而识别出更复杂的跨模态嘲讽特征和跨模态级的不一致性信息对文本和图像表示进行重构,充分考虑到了文本和图像模态之间的差距问题以及文本和图像传达的信息存在的不一致性问题,提高多模态嘲讽检测的精准性以及效率。
Description
技术领域
本发明涉及自然语言处理技术领域,特别涉及一种多模态嘲讽检测方法、装置、计算机设备以及存储介质。
背景技术
嘲讽是一种普遍存在的语言现象,表示字面意思与隐含意图之间的差异。通过嘲讽检测,可以更好地理解社交媒体上的言论,并推断出人们的真实情感和观点,在社交媒体平台上可以通过嘲讽检测,可以更好地理解用户发表的言论,并推断出人们的真实情感和观点。
目前的多模态嘲讽检测方法,通常采用融合文本和视觉特征的多模态策略,以提高多模态嘲讽检测性能,然而,上述方法未能充分考虑到单模态文本级和图像级嘲讽特征的重要性,以及所有层次的嘲讽特征对决策过程的贡献并非都是相同的,导致了多模态嘲讽检测的准确性的下降。
发明内容
基于此,本发明提供一种多模态嘲讽检测方法、装置、计算机设备以及存储介质,采用单模态门控注意力特征提取方法,提取文本级以及图像级的门控自注意力特征表示,采用跨模态图推理方法,捕捉局部配准和全局配准之间的不一致性关系,以识别跨模态级的图推理特征,结合文本级、图像级的门控自注意力特征表示以及跨模态级的图推理特征进行嘲讽识别,从而识别出更复杂的跨模态嘲讽特征和跨模态级的不一致性信息对文本和图像表示进行重构,充分考虑到了文本和图像模态之间的差距问题以及文本和图像传达的信息存在的不一致性问题,提高多模态嘲讽检测的精准性以及效率。该技术方法如下:
第一方面,本申请实施例提供了一种多模态嘲讽检测方法,包括以下步骤:
获得待测文档数据以及预设的多模态嘲讽检测模型,其中,所述待测文档数据包括待测文本以及待测图像,所述多模态嘲讽检测模型包括编码模块、门控自注意力模块、跨模态特征配准模块、跨模态图推理模块、模态划分权重计算模块以及嘲讽检测模块;
将所述待测文档数据输入至所述编码模块中,分别对所述待测文本以及待测图像进行编码处理,获得文本编码表示以及视觉编码表示;
将所述文本编码表示以及视觉编码表示输入至所述门控自注意力模块中进行特征提取,获得文本门控自注意力特征表示以及视觉门控自注意力特征表示;
将所述文本编码表示以及视觉编码表示输入至所述跨模态特征配准模块中进行特征配准,获得跨模态局部特征配准表示以及跨模态全局特征配准表示;
将所述跨模态局部特征配准表示以及跨模态全局特征配准表示输入至所述跨模态图推理模块中进行特征推理,获得跨模态图推理特征表示;
将所述跨模态图推理特征表示、文本门控自注意力特征表示以及视觉门控自注意力特征表示输入至所述模态划分权重计算模块中进行权重计算,获得模态划分权重参数矩阵;
将所述跨模态图推理特征表示、文本门控自注意力特征表示、视觉门控自注意力特征表示以及模态划分权重参数矩阵输入至所述嘲讽检测模块中进行嘲讽检测,获得所述待测文档数据的嘲讽检测结果。
第二方面,本申请实施例提供了一种多模态嘲讽检测装置,包括:
数据获取模块,用于获得待测文档数据以及预设的多模态嘲讽检测模型,其中,所述待测文档数据包括待测文本以及待测图像,所述多模态嘲讽检测模型包括编码模块、门控自注意力模块、跨模态特征配准模块、跨模态图推理模块、模态划分权重计算模块以及嘲讽检测模块;
文档编码模块,用于将所述待测文档数据输入至所述编码模块中,分别对所述待测文本以及待测图像进行编码处理,获得文本编码表示以及视觉编码表示;
注意力提取模块,用于将所述文本编码表示以及视觉编码表示输入至所述门控自注意力模块中进行特征提取,获得文本门控自注意力特征表示以及视觉门控自注意力特征表示;
特征配准模块,用于将所述文本编码表示以及视觉编码表示输入至所述跨模态特征配准模块中进行特征配准,获得跨模态局部特征配准表示以及跨模态全局特征配准表示;
图推理模块,用于将所述跨模态局部特征配准表示以及跨模态全局特征配准表示输入至所述跨模态图推理模块中进行特征推理,获得跨模态图推理特征表示;
权重计算模块,用于将所述跨模态图推理特征表示、文本门控自注意力特征表示以及视觉门控自注意力特征表示输入至所述模态划分权重计算模块中进行权重计算,获得模态划分权重参数矩阵;
检测模块,用于将所述跨模态图推理特征表示、文本门控自注意力特征表示、视觉门控自注意力特征表示以及模态划分权重参数矩阵输入至所述嘲讽检测模块中进行嘲讽检测,获得所述待测文档数据的嘲讽检测结果。
第三方面,本申请实施例提供了一种计算机设备,包括:处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序;所述计算机程序被所述处理器执行时实现如第一方面所述的多模态嘲讽检测方法的步骤。
第四方面,本申请实施例提供了一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的多模态嘲讽检测方法的步骤。
在本实施例中,提供一种多模态嘲讽检测方法、装置、计算机设备以及存储介质,采用单模态门控注意力特征提取方法,提取文本级以及图像级的门控自注意力特征表示,采用跨模态图推理方法,捕捉局部配准和全局配准之间的不一致性关系,以识别跨模态级的图推理特征,结合文本级、图像级的门控自注意力特征表示以及跨模态级的图推理特征进行嘲讽识别,从而识别出更复杂的跨模态嘲讽特征和跨模态级的不一致性信息对文本和图像表示进行重构,充分考虑到了文本和图像模态之间的差距问题以及文本和图像传达的信息存在的不一致性问题,提高多模态嘲讽检测的精准性以及效率。
为了更好地理解和实施,下面结合附图详细说明本发明。
附图说明
图1为本申请第一实施例提供的多模态嘲讽检测方法的流程示意图;
图2为本申请第一实施例提供的多模态嘲讽检测方法中S2的流程示意图;
图3为本申请第二实施例提供的多模态嘲讽检测方法中S7的流程示意图;
图4为本申请第二实施例提供的多模态嘲讽检测方法中S73的流程示意图;
图5为本申请第一实施例提供的多模态嘲讽检测方法中S4的流程示意图;
图6为本申请第三实施例提供的多模态嘲讽检测方法中S8的流程示意图;
图7为本申请第一实施例提供的多模态嘲讽检测方法中S5的流程示意图;
图8为本申请第一实施例提供的多模态嘲讽检测方法中S6的流程示意图;
图9为本申请第四实施例提供的多模态嘲讽检测装置的结构示意图;
图10为本申请第五实施例提供的计算机设备的结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在本申请使用的术语是仅仅出于描述目标实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”/“若”可以被解释成为“在……时”或“当……时”或“响应于确定”。
请参阅图1,图1为本申请一个实施例提供的多模态嘲讽检测方法的流程示意图,包括如下步骤:
S1:获得待测文档数据以及预设的多模态嘲讽检测模型。
本申请的多模态嘲讽检测方法的执行主体为多模态嘲讽检测方法的检测设备(以下简称检测设备)。
在一个可选的实施例中,检测设备可以是一台计算机设备,可以是服务器,或多台计算机设备联合而成的服务器机群。
检测设备获得待测文档数据,在一个可选的实施例中,所述待测文档数据源自于社交媒体,其中,社交媒体是互联网上基于用户关系的内容生产和交换平台,主要包括社交网站、微博、微信、脸书、推特、博客、论坛、播客等等。训练文档数据包括了社交媒体上的用户分享的意见、见解、经验和观点等等。
具体地,检测设备可以与所述社交媒体进行连接,获取社交媒体上发布的待测文档数据,其中,所述训练文档数据包括待测文本以及待测图像。
检测设备获取预设的多模态嘲讽检测模型,其中,所述多模态嘲讽检测模型包括编码模块、门控自注意力模块、跨模态特征配准模块、跨模态图推理模块、模态划分权重计算模块以及嘲讽检测模块。
S2:将所述待测文档数据输入至所述编码模块中,分别对所述待测文本以及待测图像进行编码处理,获得文本编码表示以及视觉编码表示。
所述编码模块采用CLIP(Contrastive Language-Image Pre-Training)对比语言-图像预训练模型,在本实施例中,检测设备将所述待测文档数据输入至所述编码模块中,分别对所述待测文本以及待测图像进行编码处理,获得文本编码表示以及视觉编码表示。
所述编码模块包括文本编码器以及图像编码器,请参阅图2,图2为本申请一个实施例提供的多模态嘲讽检测方法中S2的流程示意图,包括步骤S21~S22,具体如下:
S21:将所述待测文本输入至所述词嵌入模块中进行编码处理,获得所述文本编码表示。
所述词嵌入模块采用BERT(Bidirectional Encoder Representation fromTransformers)词嵌入模型,用于将待测句子中若干个单词的向量转换为相应的状态向量。
在本实施例中,检测设备将所述待测文本输入至所述词嵌入模块中进行编码处理,获得所述文本编码表示,其中,所述文本编码表示包括若干个单词的词嵌入向量。
具体地,检测设备将所述待测句子输入至BERT词嵌入模型中,将待测文本中的每个单词映射到低维向量空间中,经过查询预训练好的BERT矩阵,获得BERT词嵌入模型输出的所述待测文本的若干个单词的隐藏层向量,作为所述词嵌入向量,并进行编码处理,获得所述文本编码表示。
S22:将所述待测图像划分为若干个图像子区域,将若干个所述图像子区域输入至所述目标检测模块进行目标检测,获得所述视觉编码表示。
所述目标检测模块采用ViT模型,用于多目标检测,能确定图片中与实体有关的预定义对象。
在本实施例中,检测设备将所述待测图像划分为若干个图像子区域,将若干个所述图像子区域输入至所述目标检测模块进行目标检测,获得所述视觉编码表示,其中,所述视觉编码表示包括若干个图像子区域的检测向量。
S3:将所述文本编码表示以及视觉编码表示输入至所述门控自注意力模块中进行特征提取,获得文本门控自注意力特征表示以及视觉门控自注意力特征表示。
在本实施例中,检测设备将所述文本编码表示以及视觉编码表示输入至所述门控自注意力模块中进行特征提取,获得文本门控自注意力特征表示以及视觉门控自注意力特征表示,利用文本和图像的上下文信息,以挖掘更加有效的文本级和图像级嘲讽特征。
请参阅图3,图3为本申请一个实施例提供的多模态嘲讽检测方法中S3的流程示意图,包括步骤S31~S34,具体如下:
S31:分别将所述文本编码表示中的若干个单词的词嵌入向量以及所述视觉编码表示中若干个图像子区域的检测向量作为输入向量,构建所述输入向量的注意力矩阵集合,根据所述注意力矩阵集合以及预设的门控掩码算法,获得所述输入向量的门控掩码集合。
在本实施例中,检测设备分别将所述文本编码表示中的若干个单词的词嵌入向量以及所述视觉编码表示中若干个图像子区域的检测向量作为输入向量,构建所述输入向量的注意力矩阵集合,其中,所述注意力矩阵集合包括第一注意力矩阵、第二注意力矩阵以及第三注意力矩阵。
多头自注意力机制实际上是试图让模型关注整体单模态输入不同部分之间的相关性。然而,构建的注意力矩阵集合中的第一注意力矩阵和第二注意力矩阵可能包含嘈杂或与嘲讽无关的信息,为了有效传达捕捉到的模态内有用的嘲讽线索并抑制不相关的线索,检测设备根据所述注意力矩阵集合以及预设的门控掩码算法,获得所述输入向量的门控掩码集合,其中,所述门控掩码集合包括第一门控掩码以及第二门控掩码,所述门控掩码算法为:
式中,为第i个输入向量的第一注意力矩阵,/>为第i个输入向量的第二注意力矩阵,/>为第i个输入向量的第一门控掩码,/>为第i个输入向量的第二门控掩码,/>、、/>、/>分别为所述门控自注意力模块的第一权重参数、第二权重参数、第三权重参数以及第四权重参数,/>为激活函数。
S32:根据所述注意力矩阵集合、门控掩码集合以及预设的多头自注意力算法,获得所述输入向量的若干个自注意力头的输出向量,将若干个所述自注意力头的输出向量进行拼接处理,获得所述输入向量的注意力拼接向量。
所述多头自注意力算法为:
式中,为第h个自注意力头的输出向量,/>为第i个输入向量的第三注意力矩阵,/>为维度参数,T为偏置符号,/>为归一化指数函数。
在本实施例中,检测设备根据所述注意力矩阵集合、门控掩码集合以及预设的多头自注意力算法,获得所述输入向量的若干个自注意力头的输出向量,将若干个所述自注意力头的输出向量进行拼接处理,获得所述输入向量的注意力拼接向量,以过滤与嘲讽无关的上下文信息,更好地捕捉来自不同子空间的模态内语境嘲讽线索,提高嘲讽检测的准确性。
S33:根据所述输入向量的注意力拼接向量以及预设的残差连接算法,获得所述输入向量的残差连接向量,构建文本残差连接表示以及视觉残差连接表示。
所述残差连接算法为:
式中,为第i个输入向量的残差连接向量,/>为第i个输入向量的注意力拼接向量,/>为第i个输入向量,/>为残差函数。
在本实施例中,检测设备根据所述输入向量的注意力拼接向量以及预设的残差连接算法,获得所述输入向量的残差连接向量,构建文本残差连接表示以及视觉残差连接表示,其中,所述文本残差连接表示包括若干个单词的文本残差连接向量,所述视觉残差连接表示包括若干个图像子区域的视觉残差连接向/>。
S34:对所述输入向量的残差连接向量进行平均池化处理,获得所述输入向量的池化处理后的平均池化向量,作为门控自注意力特征向量,构建所述文本门控自注意力特征表示以及所述视觉门控自注意力特征表示。
在本实施例中,检测设备对所述输入向量的残差连接向量进行平均池化处理,获得所述输入向量的池化处理后的平均池化向量,作为门控自注意力特征向量,构建所述文本门控自注意力特征表示以及所述视觉门控自注意力特征表示,以实现丰富的单模态上下文信息的感知,并抑制一些与嘲讽无关的信息,从而在文本和图像层面挖掘出微妙的嘲讽线索,其中,所述文本门控自注意力特征表示包括若干个单词的文本门控自注意力向量,所述视觉门控自注意力特征表示包括若干个所述图像子区域的视觉门控自注意力向量/>。
S4:将所述文本编码表示以及视觉编码表示输入至所述跨模态特征配准模块中进行特征配准,获得跨模态局部特征配准表示以及跨模态全局特征配准表示。
为了准确捕捉到文本和图像层面的完整的对应关系,提高嘲讽检测的准确性,在本实施例中,检测设备将所述文本编码表示以及视觉编码表示输入至所述跨模态特征配准模块中进行特征配准,获得跨模态局部特征配准表示以及跨模态全局特征配准表示。
请参阅图4,图4为本申请一个实施例提供的多模态嘲讽检测方法中S4的流程示意图,包括步骤S41~S43,具体如下:
S41:根据所述文本编码表示、视觉编码表示以及预设的正向词关联视觉特征提取算法,获得正向词关联视觉特征表示。
所述正向词关联视觉特征提取算法为:
式中,为第i个单词的正向词关联视觉特征向量,/>为反向温度系数,K为图像子区域的数目,/>为第i个单词的词嵌入向量,/>为第j个图像子区域的检测向量,/>为维度参数,T为偏置符号。
在本实施例中,检测设备根据所述文本编码表示、视觉编码表示以及预设的正向词关联视觉特征提取算法,采用交叉注意机制,关注每个图像子区域与每个单词的正向对应关系,获得正向词关联视觉特征表示,其中,所述正向词关联视觉特征表示包括若干个单词的正向词关联视觉特征向量。
S42:根据所述正向词关联视觉特征表示、文本编码表示以及预设的跨模态局部特征配准表示提取算法,获得所述跨模态局部特征配准表示。所述跨模态局部特征配准表示提取算法为:
式中,为第i个单词的跨模态局部特征配准向量,/>为所述跨模态特征配准模块的第一权重参数。
在本实施例中,检测设备根据所述正向词关联视觉特征表示、文本编码表示以及预设的跨模态局部特征配准表示提取算法,基于向量的方法来计算跨模态局部特征配准表示,实现了不同模态特征表征之间丰富的不一致性信息的捕捉,以探索图像和文本的局部特征之间的对应关系,从而识别出更复杂的跨模态嘲讽特征和跨模态级的不一致性信息,获得所述跨模态局部特征配准表示,其中,所述跨模态局部特征配准表示包括若干个单词的跨模态局部特征配准向量。
S43:分别对所述文本编码表示以及视觉编码表示进行全局特征提取,获得文本全局特征表示以及视觉全局特征表示,根据所述文本全局特征表示、视觉全局特征表示以及预设的跨模态全局特征配准表示提取算法,获得所述跨模态全局特征配准表示。
为了探索全文和图像的全局特征之间有效而深入的对应关系,在本实施例中,检测设备采用自注意力机制,分别对所述文本编码表示以及视觉编码表示进行全局特征提取,获得文本全局特征表示以及视觉全局特征表示。
检测设备根据所述文本全局特征表示、视觉全局特征表示以及预设的跨模态全局特征配准表示提取算法,基于向量的方法来计算跨模态局部特征配准表示,实现了不同模态特征表征之间丰富的不一致性信息的捕捉,获得所述跨模态全局特征配准表示,其中,所述跨模态全局特征配准表示提取算法为:
式中,为所述跨模态全局特征配准表示,/>为所述跨模态特征配准模块的第二权重参数,/>为所述视觉全局特征表示,/>为所述文本全局特征表示。
S5:将所述跨模态局部特征配准表示以及跨模态全局特征配准表示输入至所述跨模态图推理模块中进行特征推理,获得跨模态图推理特征表示。
为了对捕捉到的局部和全局不协调信息进行综合推理,在本实施例中,检测设备将所述跨模态局部特征配准表示以及跨模态全局特征配准表示输入至所述跨模态图推理模块中进行特征推理,获得跨模态图推理特征表示。
请参阅图5,图5为本申请一个实施例提供的多模态嘲讽检测方法中S5的流程示意图,包括步骤S51~S52,具体如下:
S51:将所述跨模态局部特征配准表示中的若干个单词的跨模态局部特征配准向量以及跨模态全局特征配准表示作为节点,构建跨模态特征图,获得所述跨模态特征图对应的节点矩阵以及边矩阵。
在本实施例中,检测设备将所述跨模态局部特征配准表示中的若干个单词的跨模态局部特征配准向量以及跨模态全局特征配准表示作为节点,构建跨模态特征图,获得所述跨模态特征图对应的节点矩阵以及边矩阵,以传递跨模态不一致信息,其中,所述节点矩阵包括若干个节点,所述边矩阵包括若干个节点之间的边向量,所述边向量为:
式中,为第u个节点与第v个节点之间的边向量,/>、/>分别为第u个节点以及第v个节点,/>、/>分别为传入节点和传出节点的线性变换参数。
S52:根据所述跨模态特征图对应的节点矩阵、边矩阵以及预设的迭代更新算法,对所述跨模态特征图进行迭代更新,获得更新后的跨模态特征图对应的节点矩阵,对所述更新后的跨模态特征图对应的节点矩阵进行收敛,获得初始跨模态图推理特征表示,对所述初始跨模态图推理特征表示进行平均池化处理,获得所述跨模态图推理特征表示。
在本实施例中,检测设备根据所述跨模态特征图对应的节点矩阵、边矩阵以及预设的迭代更新算法,对所述跨模态特征图进行迭代更新,获得更新后的跨模态特征图对应的节点矩阵,通过迭代更新所构建的跨模态特征图中的节点和边,进行跨模态不一致性图推理,其中,所述迭代更新算法为:
式中,为第t+1步迭代更新后的第u个节点,/>为第t+1步迭代更新后的边矩阵,/>、/>分别为第u个节点以及第v个节点,/>为线性激活函数。
检测设备对所述更新后的跨模态特征图对应的节点矩阵进行收敛,获得初始跨模态图推理特征表示,对所述初始跨模态图推理特征表示进行平均池化处理,获得所述跨模态图推理特征表示。
S6:将所述跨模态图推理特征表示、文本门控自注意力特征表示以及视觉门控自注意力特征表示输入至所述模态划分权重计算模块中进行权重计算,获得模态划分权重参数矩阵。
在决策过程中,考虑到来自不同层面的不一致信息的重要性各不相同,在本实施例中,检测设备将所述跨模态图推理特征表示、文本门控自注意力特征表示以及视觉门控自注意力特征表示输入至所述模态划分权重计算模块中进行权重计算,获得模态划分权重参数矩阵。
请参阅图6,图6为本申请一个实施例提供的多模态嘲讽检测方法中S6的流程示意图,包括步骤S61~S62,具体如下:
S61:将所述跨模态图推理特征表示、文本门控自注意力特征表示以及视觉门控自注意力特征表示进行多维拼接处理,获得多维拼接特征表示,根据预设的挤压运算算法,对所述多维拼接特征表示进行挤压运算,获得多维挤压特征表示。
在本实施例中,检测设备将所述跨模态图推理特征表示、文本门控自注意力特征表示以及视觉门控自注意力特征表示进行多维拼接处理,获得多维拼接特征表示,根据预设的挤压运算算法,对所述多维拼接特征表示进行挤压运算,将全局模态不一致信息汇总至一个特征向量,获得多维挤压特征表示,其中,所述挤压运算算法为:
式中,为所述多维挤压特征表示,/>为挤压运算函数,/>为所述多维拼接特征表示,/>,/>为连接操作符号。
S62:根据所述多维挤压特征表示以及预设的模态划分权重计算算法,获得模态划分权重参数矩阵。
所述模态划分权重计算算法为:
式中,为所述模态划分权重参数矩阵,/>、/>分别为所述多维拼接特征表示,为sigmoid激活函数,/>为线性激活函数。
在本实施例中,检测设备根据所述多维挤压特征表示以及预设的模态划分权重计算算法,为不同层次的不一致信息分配合理权重,获得模态划分权重参数矩阵,促进不同层次嘲讽特征的有效聚合,其中,所述模态划分权重参数矩阵包括所述跨模态图推理特征表示对应的第一权重参数、所述文本门控自注意力特征表示对应的第二权重参数/>以及所述视觉门控自注意力特征表示对应的第三权重参数/>。
S7:将所述跨模态图推理特征表示、文本门控自注意力特征表示、视觉门控自注意力特征表示以及模态划分权重参数矩阵输入至所述嘲讽检测模块中进行嘲讽检测,获得所述待测文档数据的嘲讽检测结果。
在本实施例中,检测设备将所述跨模态图推理特征表示、文本门控自注意力特征表示、视觉门控自注意力特征表示以及模态划分权重参数矩阵输入至所述嘲讽检测模块中进行嘲讽检测,获得所述待测文档数据的嘲讽检测结果。采用单模态门控注意力特征提取方法,提取文本级以及图像级的门控自注意力特征表示,采用跨模态图推理方法,捕捉局部配准和全局配准之间的不一致性关系,以识别跨模态级的图推理特征,结合文本级、图像级的门控自注意力特征表示以及跨模态级的图推理特征进行嘲讽识别,从而识别出更复杂的跨模态嘲讽特征和跨模态级的不一致性信息对文本和图像表示进行重构,充分考虑到了文本和图像模态之间的差距问题以及文本和图像传达的信息存在的不一致性问题,提高多模态嘲讽检测的精准性以及效率。
请参阅图7,图7为本申请一个实施例提供的多模态嘲讽检测方法中S7的流程示意图,包括步骤S71~S72,具体如下:
S71:根据所述跨模态图推理特征表示、文本门控自注意力特征表示、视觉门控自注意力特征表示、模态划分权重参数矩阵以及预设的特征融合算法,获得特征融合表示。
所述特征融合算法为:
式中,为所述特征融合表示,/>为所述跨模态图推理特征表示对应的第一权重参数,/>为所述文本门控自注意力特征表示对应的第二权重参数,/>为所述视觉门控自注意力特征表示对应的第三权重参数,/>为所述文本门控自注意力特征表示,/>为所述跨模态图推理特征表示,/>为所述视觉门控自注意力特征表示,/>为连接操作符号。
在本实施例中,检测设备根据所述跨模态图推理特征表示、文本门控自注意力特征表示、视觉门控自注意力特征表示、模态划分权重参数矩阵以及预设的特征融合算法,获得能够反映多层级不一致性的特征融合表示。
S72:根据所述特征融合表示以及预设的嘲讽概率向量算法,获得预测嘲讽概率向量,根据所述预测嘲讽概率向量,获得所述待测文档数据的嘲讽检测结果。
所述嘲讽概率向量算法为:
式中,为所述预测嘲讽概率向量,/>为归一化指数函数,/>为多层感知机函数。
在本实施例中,检测设备根据所述特征融合表示以及预设的嘲讽概率向量算法,获得预测嘲讽概率向量,根据所述预测嘲讽概率向量,获得所述待测文档数据的嘲讽检测结果,具体地,检测设备根据所述嘲讽概率向量,获得维度最大的概率向量对应的嘲讽检测结果,作为所述待测文档数据的嘲讽检测结果。
在一个可选的实施例中,还包括步骤S8:训练所述多模态嘲讽检测模型,请参阅图8,图8为本申请另一个实施例提供的多模态嘲讽检测方法中S8的流程示意图,包括步骤S81~S84,具体如下:
S81:获得训练文档数据集,将所述训练文档数据集输入至所述多模态嘲讽检测模型,获得若干个训练文档数据的文本编码表示、视觉编码表示、文本残差连接表示、视觉残差连接表示、文本门控自注意力特征表示、视觉门控自注意力特征表示、正向词关联视觉特征表示、模态划分权重参数矩阵以及预测嘲讽概率向量。
在本实施例中,检测设备获得训练文档数据集,其中,所述训练文档数据集包括若干个训练文档数据。
检测设备将所述训练文档数据集输入至所述多模态嘲讽检测模型,获得若干个训练文档数据的文本编码表示、视觉编码表示、文本残差连接表示、视觉残差连接表示、文本门控自注意力特征表示、视觉门控自注意力特征表示、正向词关联视觉特征表示、模态划分权重参数矩阵以及预测嘲讽概率向量,具体实施例可以参考步骤S2~S7,在此不再赘述。
S82:根据若干个所述训练文档数据的文本编码表示、视觉编码表示以及预设的反向词关联视觉特征提取算法,获得若干个所述训练文档数据的反向词关联视觉特征表示,根据若干个所述训练文档数据的正向词关联视觉特征表示、反向词关联视觉特征表示、文本编码表示以及预设的第一损失函数,获得第一损失值。
在本实施例中,检测设备根据若干个所述训练文档数据的文本编码表示、视觉编码表示以及预设的反向词关联视觉特征提取算法,获得若干个所述训练文档数据的反向词关联视觉特征表示,其中,所述反向词关联视觉特征表示包括若干个单词的反向词关联视觉特征向量,所述反向词关联视觉特征提取算法为:
式中,为第i个单词的反向词关联视觉特征向量。
检测设备根据若干个所述训练文档数据的正向词关联视觉特征表示、反向词关联视觉特征表示、文本编码表示以及预设的第一损失函数,获得第一损失值,通过设计模态间细粒度对比学习,来引导注意力机制学习更准确的文本引导视觉表征,提高多模态嘲讽检测模型训练的准确性,其中,所述第一损失函数为:
式中,为所述第一损失值,/>为相似度函数,/>为控制相似性差值边际参数,/>为取绝对值函数。
S83:根据若干个训练文档数据的文本残差连接表示、视觉残差连接表示、文本门控自注意力特征表示、视觉门控自注意力特征表示以及预设的跨模态模糊性得分计算算法,获得若干个训练文档数据的跨模态模糊性得分,构建跨模态模糊性得分集合,根据所述跨模态模糊性得分集合、模态划分权重参数矩阵以及预设的第二损失函数,获得第二损失值。
当跨模态信息差距较小时,单模态不一致性特征足以准确检测出嘲讽。相反,当单模态之间存在很大的信息差距时,仅仅依靠单模态不一致性特征是不够的,还需要额外关注跨模态不一致性特征,在本实施例中,检测设备根据若干个训练文档数据的文本残差连接表示、视觉残差连接表示、文本门控自注意力特征表示、视觉门控自注意力特征表示以及预设的跨模态模糊性得分计算算法,获得若干个训练文档数据的跨模态模糊性得分,构建跨模态模糊性得分集合,通过对特征空间上的散度进行建模,以逼近视觉门控自注意力特征表示和文本门控自注意力特征表示/>之间的模糊性,利用跨模态模糊性来量化不同层次不一致信息之间的关系,从而引导模态层级注意力机制自适应地为不同层次的不一致信息分配合理权重,促进不同层次嘲讽特征的有效聚合,其中,所述跨模态模糊性得分计算算法为:
式中,为第a个训练文档数据的跨模态模糊性得分,/>为第a个训练文档数据的训练文本与训练图像的变分后验分布,/>为第a个训练文档数据的视觉残差连接向量,/>为第a个训练文档数据的视觉门控自注意力特征表示,/>为第a个训练文档数据的文本残差连接向量,/>为第a个训练文档数据的文本门控自注意力特征表示,A为所述训练文档数据集中训练文档数据的数目,/>为KL散度函数;
检测设备根据所述跨模态模糊性得分集合、模态划分权重参数矩阵以及预设的第二损失函数,获得第二损失值,可以在模糊性的引导下为不同层级的不一致性表征分配更合理的注意力分数,提高多模态嘲讽检测模型训练的准确性,其中,所述第二损失函数为:
式中,为所述第一损失值,/>为所述跨模态模糊性得分集合,/>为散度函数。
S84:获得若干个所述训练文档数据的真实嘲讽概率向量,根据若干个所述训练文档数据的预测嘲讽概率向量、真实嘲讽概率向量以及预设的第三损失函数,获得第三损失值,根据所述第一损失值、第二损失值以及第三损失值,对所述多模态嘲讽检测模型进行训练。
在本实施例中,检测设备获得若干个所述训练文档数据的真实嘲讽概率向量,根据若干个所述训练文档数据的预测嘲讽概率向量、真实嘲讽概率向量以及预设的第三损失函数,获得第三损失值,其中,所述第三损失函数为:
式中,为所述第三损失值,y为真实嘲讽概率向量。
检测设备根据所述第一损失值、第二损失值以及第三损失值,对所述多模态嘲讽检测模型进行训练,有效利用多层次的不一致性信息来提高多模态嘲讽检测的性能。
请参阅图9,图9为本申请一个实施例提供的多模态嘲讽检测装置的结构示意图,该装置可以通过软件、硬件或两者的结合实现多模态嘲讽检测方法的全部或一部分,该装置9包括:
数据获取模块91,用于数据获取模块,用于获得待测文档数据以及预设的多模态嘲讽检测模型,其中,所述待测文档数据包括待测文本以及待测图像,所述多模态嘲讽检测模型包括编码模块、门控自注意力模块、跨模态特征配准模块、跨模态图推理模块、模态划分权重计算模块以及嘲讽检测模块;
文档编码模块92,用于将所述待测文档数据输入至所述编码模块中,分别对所述待测文本以及待测图像进行编码处理,获得文本编码表示以及视觉编码表示;
注意力提取模块93,用于将所述文本编码表示以及视觉编码表示输入至所述门控自注意力模块中进行特征提取,获得文本门控自注意力特征表示以及视觉门控自注意力特征表示;
特征配准模块94,用于将所述文本编码表示以及视觉编码表示输入至所述跨模态特征配准模块中进行特征配准,获得跨模态局部特征配准表示以及跨模态全局特征配准表示;
图推理模块95,用于将所述跨模态局部特征配准表示以及跨模态全局特征配准表示输入至所述跨模态图推理模块中进行特征推理,获得跨模态图推理特征表示;
权重计算模块96,用于将所述跨模态图推理特征表示、文本门控自注意力特征表示以及视觉门控自注意力特征表示输入至所述模态划分权重计算模块中进行权重计算,获得模态划分权重参数矩阵;
检测模块97,用于将所述跨模态图推理特征表示、文本门控自注意力特征表示、视觉门控自注意力特征表示以及模态划分权重参数矩阵输入至所述嘲讽检测模块中进行嘲讽检测,获得所述待测文档数据的嘲讽检测结果。
在本申请的实施例中,通过数据获取模块,获得待测文档数据以及预设的多模态嘲讽检测模型,其中,所述待测文档数据包括待测文本以及待测图像,所述多模态嘲讽检测模型包括编码模块、门控自注意力模块、跨模态特征配准模块、跨模态图推理模块、模态划分权重计算模块以及嘲讽检测模块;通过文档编码模块,将所述待测文档数据输入至所述编码模块中,分别对所述待测文本以及待测图像进行编码处理,获得文本编码表示以及视觉编码表示;通过注意力提取模块,将所述文本编码表示以及视觉编码表示输入至所述门控自注意力模块中进行特征提取,获得文本门控自注意力特征表示以及视觉门控自注意力特征表示;通过特征配准模块,将所述文本编码表示以及视觉编码表示输入至所述跨模态特征配准模块中进行特征配准,获得跨模态局部特征配准表示以及跨模态全局特征配准表示;通过图推理模块,将所述跨模态局部特征配准表示以及跨模态全局特征配准表示输入至所述跨模态图推理模块中进行特征推理,获得跨模态图推理特征表示;通过权重计算模块,将所述跨模态图推理特征表示、文本门控自注意力特征表示以及视觉门控自注意力特征表示输入至所述模态划分权重计算模块中进行权重计算,获得模态划分权重参数矩阵;通过检测模块,将所述跨模态图推理特征表示、文本门控自注意力特征表示、视觉门控自注意力特征表示以及模态划分权重参数矩阵输入至所述嘲讽检测模块中进行嘲讽检测,获得所述待测文档数据的嘲讽检测结果。采用单模态门控注意力特征提取方法,提取文本级以及图像级的门控自注意力特征表示,采用跨模态图推理方法,捕捉局部配准和全局配准之间的不一致性关系,以识别跨模态级的图推理特征,结合文本级、图像级的门控自注意力特征表示以及跨模态级的图推理特征进行嘲讽识别,从而识别出更复杂的跨模态嘲讽特征和跨模态级的不一致性信息对文本和图像表示进行重构,充分考虑到了文本和图像模态之间的差距问题以及文本和图像传达的信息存在的不一致性问题,提高多模态嘲讽检测的精准性以及效率。
请参考图10,图10为本申请一个实施例提供的计算机设备的结构示意图,计算机设备10包括:处理器101、存储器102以及存储在存储器102上并可在处理器101上运行的计算机程序103;计算机设备可以存储有多条指令,指令适用于由处理器101加载并执行上述图1至图7所述实施例的方法步骤,具体执行过程可以参见图1至图7所述实施例的具体说明,在此不进行赘述。
其中,处理器101可以包括一个或多个处理核心。处理器101利用各种接口和线路连接服务器内的各个部分,通过运行或执行存储在存储器102内的指令、程序、代码集或指令集,以及调用存储器102内的数据,执行多模态嘲讽检测装置8的各种功能和处理数据,可选的,处理器101可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programble LogicArray,PLA)中的至少一个硬件形式来实现。处理器101可集成中央处理器101(CentralProcessing Unit,CPU)、图像处理器101(Graphics Processing Unit,GPU)和调制解调器等中的一个或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责触摸显示屏所需要显示的内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器101中,单独通过一块芯片进行实现。
其中,存储器102可以包括随机存储器102(Random Access Memory,RAM),也可以包括只读存储器102(Read-Only Memory)。可选的,该存储器102包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器102可用于存储指令、程序、代码、代码集或指令集。存储器102可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控指令等)、用于实现上述各个方法实施例的指令等;存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器102可选的还可以是至少一个位于远离前述处理器101的存储装置。
本申请实施例还提供了一种存储介质,所述存储介质可以存储有多条指令,所述指令适用于由处理器加载并执行所示实施例一至实施例三的方法步骤,具体执行过程可以参见所示图1至图7所述实施例的具体说明,在此不进行赘述。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的目标应用和设计约束条件。专业技术人员可以对每个目标的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端设备实施例仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。
本发明并不局限于上述实施方式,如果对本发明的各种改动或变形不脱离本发明的精神和范围,倘若这些改动和变形属于本发明的权利要求和等同技术范围之内,则本发明也意图包含这些改动和变形。
Claims (9)
1.一种多模态嘲讽检测方法,其特征在于,包括以下步骤:
获得待测文档数据以及预设的多模态嘲讽检测模型,其中,所述待测文档数据包括待测文本以及待测图像,所述多模态嘲讽检测模型包括编码模块、门控自注意力模块、跨模态特征配准模块、跨模态图推理模块、模态划分权重计算模块以及嘲讽检测模块;
将所述待测文档数据输入至所述编码模块中,分别对所述待测文本以及待测图像进行编码处理,获得文本编码表示以及视觉编码表示;
将所述文本编码表示以及视觉编码表示输入至所述门控自注意力模块中进行特征提取,获得文本门控自注意力特征表示以及视觉门控自注意力特征表示;
将所述文本编码表示以及视觉编码表示输入至所述跨模态特征配准模块中进行特征配准,获得跨模态局部特征配准表示以及跨模态全局特征配准表示;
将所述跨模态局部特征配准表示以及跨模态全局特征配准表示输入至所述跨模态图推理模块中进行特征推理,获得跨模态图推理特征表示;
将所述跨模态图推理特征表示、文本门控自注意力特征表示以及视觉门控自注意力特征表示输入至所述模态划分权重计算模块中进行权重计算,获得模态划分权重参数矩阵;
将所述跨模态图推理特征表示、文本门控自注意力特征表示、视觉门控自注意力特征表示以及模态划分权重参数矩阵输入至所述嘲讽检测模块中,根据所述跨模态图推理特征表示、文本门控自注意力特征表示、视觉门控自注意力特征表示、模态划分权重参数矩阵以及预设的特征融合算法,获得特征融合表示,其中,所述特征融合算法为:
式中,为所述特征融合表示,/>为所述跨模态图推理特征表示对应的第一权重参数,/>为所述文本门控自注意力特征表示对应的第二权重参数,/>为所述视觉门控自注意力特征表示对应的第三权重参数,/>为所述文本门控自注意力特征表示,/>为所述跨模态图推理特征表示,/>为所述视觉门控自注意力特征表示,/>为连接操作符号;
根据所述特征融合表示以及预设的嘲讽概率向量算法,获得预测嘲讽概率向量,根据所述预测嘲讽概率向量,获得所述待测文档数据的嘲讽检测结果,其中,所述嘲讽概率向量算法为:
式中,为所述预测嘲讽概率向量,/>为归一化指数函数,/>为多层感知机函数。
2.根据权利要求1所述的多模态嘲讽检测方法,其特征在于:所述编码模块包括词嵌入模块以及目标检测模块;
所述将所述待测文档数据输入至所述编码模块中,分别对所述待测文本以及待测图像进行编码处理,获得文本编码表示以及视觉编码表示,包括步骤:
将所述待测文本输入至所述词嵌入模块中进行编码处理,获得所述文本编码表示,其中,所述文本编码表示包括若干个单词的词嵌入向量;
将所述待测图像划分为若干个图像子区域,将若干个所述图像子区域输入至所述目标检测模块进行目标检测,获得所述视觉编码表示,其中,所述视觉编码表示包括若干个图像子区域的检测向量。
3.根据权利要求2所述的多模态嘲讽检测方法,其特征在于,所述将所述文本编码表示以及视觉编码表示输入至所述门控自注意力模块中进行特征提取,获得文本门控自注意力特征表示以及视觉门控自注意力特征表示,包括步骤:
分别将所述文本编码表示中的若干个单词的词嵌入向量以及所述视觉编码表示中若干个图像子区域的检测向量作为输入向量,构建所述输入向量的注意力矩阵集合,根据所述注意力矩阵集合以及预设的门控掩码算法,获得所述输入向量的门控掩码集合,其中,所述注意力矩阵集合包括第一注意力矩阵、第二注意力矩阵以及第三注意力矩阵,所述门控掩码集合包括第一门控掩码以及第二门控掩码,所述门控掩码算法为:
式中,为第i个输入向量的第一注意力矩阵,/>为第i个输入向量的第二注意力矩阵,为第i个输入向量的第一门控掩码,/>为第i个输入向量的第二门控掩码,/>、/>、/>、分别为所述门控自注意力模块的第一权重参数、第二权重参数、第三权重参数以及第四权重参数,/>为激活函数;
根据所述注意力矩阵集合、门控掩码集合以及预设的多头自注意力算法,获得所述输入向量的若干个自注意力头的输出向量,将若干个所述自注意力头的输出向量进行拼接处理,获得所述输入向量的注意力拼接向量,其中,所述多头自注意力算法为:
式中,为第h个自注意力头的输出向量,/>为第i个输入向量的第三注意力矩阵,/>为维度参数,T为偏置符号,/>为归一化指数函数;
根据所述输入向量的注意力拼接向量以及预设的残差连接算法,获得所述输入向量的残差连接向量,构建文本残差连接表示以及视觉残差连接表示,其中,所述文本残差连接表示包括若干个单词的文本残差连接向量,所述视觉残差连接表示包括若干个图像子区域的视觉残差连接向量,所述残差连接算法为:
式中,为第i个输入向量的残差连接向量,/>为第i个输入向量的注意力拼接向量,/>为第i个输入向量,/>为残差函数;
对所述输入向量的残差连接向量进行平均池化处理,获得所述输入向量的池化处理后的平均池化向量,作为门控自注意力特征向量,构建所述文本门控自注意力特征表示以及所述视觉门控自注意力特征表示,其中,所述文本门控自注意力特征表示包括若干个单词的文本门控自注意力向量,所述视觉门控自注意力特征表示包括若干个所述图像子区域的视觉门控自注意力向量。
4.根据权利要求3所述的多模态嘲讽检测方法,其特征在于,所述将所述文本门控自注意力特征表示以及视觉门控自注意力特征表示输入至所述跨模态特征配准模块中进行特征配准,获得跨模态特征配准表示,包括步骤:
根据所述文本编码表示、视觉编码表示以及预设的正向词关联视觉特征提取算法,获得正向词关联视觉特征表示,其中,所述正向词关联视觉特征表示包括若干个单词的正向词关联视觉特征向量,所述正向词关联视觉特征提取算法为:
式中,为第i个单词的正向词关联视觉特征向量,/>为反向温度系数,K为图像子区域的数目,/>为第i个单词的词嵌入向量,/>为第j个图像子区域的检测向量,/>为维度参数,T为偏置符号;
根据所述正向词关联视觉特征表示、文本编码表示以及预设的跨模态局部特征配准表示提取算法,获得所述跨模态局部特征配准表示,其中,所述跨模态局部特征配准表示包括若干个单词的跨模态局部特征配准向量,所述跨模态局部特征配准表示提取算法为:
式中,为第i个单词的跨模态局部特征配准向量,/>为所述跨模态特征配准模块的第一权重参数;
分别对所述文本编码表示以及视觉编码表示进行全局特征提取,获得文本全局特征表示以及视觉全局特征表示,根据所述文本全局特征表示、视觉全局特征表示以及预设的跨模态全局特征配准表示提取算法,获得所述跨模态全局特征配准表示,其中,所述跨模态全局特征配准表示提取算法为:
式中,为所述跨模态全局特征配准表示,/>为所述跨模态特征配准模块的第二权重参数,/>为所述视觉全局特征表示,/>为所述文本全局特征表示。
5.根据权利要求4所述的多模态嘲讽检测方法,其特征在于,所述将所述文本门控自注意力特征表示以及视觉门控自注意力特征表示输入至所述跨模态特征配准模块中进行特征配准,获得跨模态特征配准表示,包括步骤:
将所述跨模态局部特征配准表示中的若干个单词的跨模态局部特征配准向量以及跨模态全局特征配准表示作为节点,构建跨模态特征图,获得所述跨模态特征图对应的节点矩阵以及边矩阵,其中,所述节点矩阵包括若干个节点,所述边矩阵包括若干个节点之间的边向量,所述边向量为:
式中,为第u个节点与第v个节点之间的边向量,/>、/>分别为第u个节点以及第v个节点,/>、/>分别为传入节点和传出节点的线性变换参数;
根据所述跨模态特征图对应的节点矩阵、边矩阵以及预设的迭代更新算法,对所述跨模态特征图进行迭代更新,获得更新后的跨模态特征图对应的节点矩阵,对所述更新后的跨模态特征图对应的节点矩阵进行收敛,获得初始跨模态图推理特征表示,对所述初始跨模态图推理特征表示进行平均池化处理,获得所述跨模态图推理特征表示,其中,所述迭代更新算法为:
式中,为第t+1步迭代更新后的第u个节点,/>为第t+1步迭代更新后的边矩阵,/>、/>分别为第u个节点以及第v个节点,/>为线性激活函数。
6.根据权利要求5所述的多模态嘲讽检测方法,其特征在于,所述将所述跨模态图推理特征表示、文本门控自注意力特征表示以及视觉门控自注意力特征表示输入至所述模态划分权重计算模块中进行权重计算,获得模态划分权重参数矩阵,包括步骤:
将所述跨模态图推理特征表示、文本门控自注意力特征表示以及视觉门控自注意力特征表示进行多维拼接处理,获得多维拼接特征表示,根据预设的挤压运算算法,对所述多维拼接特征表示进行挤压运算,获得多维挤压特征表示,其中,所述挤压运算算法为:
式中,为所述多维挤压特征表示,/>为所述多维拼接特征表示,/>为挤压运算函数;
根据所述多维挤压特征表示以及预设的模态划分权重计算算法,获得模态划分权重参数矩阵,其中,所述模态划分权重参数矩阵包括所述跨模态图推理特征表示对应的第一权重参数、所述文本门控自注意力特征表示对应的第二权重参数以及所述视觉门控自注意力特征表示对应的第三权重参数,所述模态划分权重计算算法为:
式中,为所述模态划分权重参数矩阵,/>、/>分别为所述多维拼接特征表示,/>为sigmoid激活函数,/>为线性激活函数。
7.根据权利要求6所述的多模态嘲讽检测方法,其特征在于,还包括步骤:训练所述多模态嘲讽检测模型,所述多模态嘲讽检测模型,包括步骤:
获得训练文档数据集,将所述训练文档数据集输入至所述多模态嘲讽检测模型,获得若干个训练文档数据的文本编码表示、视觉编码表示、文本残差连接表示、视觉残差连接表示、文本门控自注意力特征表示、视觉门控自注意力特征表示、正向词关联视觉特征表示、模态划分权重参数矩阵以及预测嘲讽概率向量,其中,所述训练文档数据集包括若干个训练文档数据,所述训练文档数据包括训练文本以及训练图像;
根据若干个所述训练文档数据的文本编码表示、视觉编码表示以及预设的反向词关联视觉特征提取算法,获得若干个所述训练文档数据的反向词关联视觉特征表示,根据若干个所述训练文档数据的正向词关联视觉特征表示、反向词关联视觉特征表示、文本编码表示以及预设的第一损失函数,获得第一损失值,其中,所述反向词关联视觉特征表示包括若干个单词的反向词关联视觉特征向量,所述反向词关联视觉特征提取算法为:
式中,为第i个单词的反向词关联视觉特征向量;
所述第一损失函数为:
式中,为所述第一损失值,/>为相似度函数,/>为控制相似性差值边际参数,为取绝对值函数;
根据若干个训练文档数据的文本残差连接表示、视觉残差连接表示、文本门控自注意力特征表示、视觉门控自注意力特征表示以及预设的跨模态模糊性得分计算算法,获得若干个训练文档数据的跨模态模糊性得分,构建跨模态模糊性得分集合,根据所述跨模态模糊性得分集合、模态划分权重参数矩阵以及预设的第二损失函数,获得第二损失值,其中,所述跨模态模糊性得分计算算法为:
式中,为第a个训练文档数据的跨模态模糊性得分,/>为第a个训练文档数据的训练文本与训练图像的变分后验分布,/>为第a个训练文档数据的视觉残差连接向量,/>为第a个训练文档数据的视觉门控自注意力特征表示,/>为第a个训练文档数据的文本残差连接向量,/>为第a个训练文档数据的文本门控自注意力特征表示,A为所述训练文档数据集中训练文档数据的数目,/>为KL散度函数;
所述第二损失函数为:
式中,为所述第一损失值,/>为所述跨模态模糊性得分集合,/>为散度函数;
获得若干个所述训练文档数据的真实嘲讽概率向量,根据若干个所述训练文档数据的预测嘲讽概率向量、真实嘲讽概率向量以及预设的第三损失函数,获得第三损失值,根据所述第一损失值、第二损失值以及第三损失值,对所述多模态嘲讽检测模型进行训练,其中,所述第三损失函数为:
式中,为所述第三损失值,y为真实嘲讽概率向量。
8.一种多模态嘲讽检测装置,其特征在于,包括:
数据获取模块,用于获得待测文档数据以及预设的多模态嘲讽检测模型,其中,所述待测文档数据包括待测文本以及待测图像,所述多模态嘲讽检测模型包括编码模块、门控自注意力模块、跨模态特征配准模块、跨模态图推理模块、模态划分权重计算模块以及嘲讽检测模块;
文档编码模块,用于将所述待测文档数据输入至所述编码模块中,分别对所述待测文本以及待测图像进行编码处理,获得文本编码表示以及视觉编码表示;
注意力提取模块,用于将所述文本编码表示以及视觉编码表示输入至所述门控自注意力模块中进行特征提取,获得文本门控自注意力特征表示以及视觉门控自注意力特征表示;
特征配准模块,用于将所述文本编码表示以及视觉编码表示输入至所述跨模态特征配准模块中进行特征配准,获得跨模态局部特征配准表示以及跨模态全局特征配准表示;
图推理模块,用于将所述跨模态局部特征配准表示以及跨模态全局特征配准表示输入至所述跨模态图推理模块中进行特征推理,获得跨模态图推理特征表示;
权重计算模块,用于将所述跨模态图推理特征表示、文本门控自注意力特征表示以及视觉门控自注意力特征表示输入至所述模态划分权重计算模块中进行权重计算,获得模态划分权重参数矩阵;
检测模块,用于将所述跨模态图推理特征表示、文本门控自注意力特征表示、视觉门控自注意力特征表示以及模态划分权重参数矩阵输入至所述嘲讽检测模块中,根据所述跨模态图推理特征表示、文本门控自注意力特征表示、视觉门控自注意力特征表示、模态划分权重参数矩阵以及预设的特征融合算法,获得特征融合表示,其中,所述特征融合算法为:
式中,为所述特征融合表示,/>为所述跨模态图推理特征表示对应的第一权重参数,/>为所述文本门控自注意力特征表示对应的第二权重参数,/>为所述视觉门控自注意力特征表示对应的第三权重参数,/>为所述文本门控自注意力特征表示,/>为所述跨模态图推理特征表示,/>为所述视觉门控自注意力特征表示,/>为连接操作符号;
根据所述特征融合表示以及预设的嘲讽概率向量算法,获得预测嘲讽概率向量,根据所述预测嘲讽概率向量,获得所述待测文档数据的嘲讽检测结果,其中,所述嘲讽概率向量算法为:
式中,为所述预测嘲讽概率向量,/>为归一化指数函数,/>为多层感知机函数。
9.一种计算机设备,其特征在于,包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的多模态嘲讽检测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410101338.XA CN117633516B (zh) | 2024-01-25 | 2024-01-25 | 多模态嘲讽检测方法、装置、计算机设备以及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410101338.XA CN117633516B (zh) | 2024-01-25 | 2024-01-25 | 多模态嘲讽检测方法、装置、计算机设备以及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117633516A CN117633516A (zh) | 2024-03-01 |
CN117633516B true CN117633516B (zh) | 2024-04-05 |
Family
ID=90025534
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410101338.XA Active CN117633516B (zh) | 2024-01-25 | 2024-01-25 | 多模态嘲讽检测方法、装置、计算机设备以及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117633516B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117892205B (zh) * | 2024-03-15 | 2024-07-09 | 华南师范大学 | 多模态讽刺检测方法、装置、设备以及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114036993A (zh) * | 2021-10-15 | 2022-02-11 | 浙大城市学院 | 基于多尺度跨模态神经网络的多模态讽刺对象检测方法 |
CN114330334A (zh) * | 2021-12-30 | 2022-04-12 | 杭州电子科技大学 | 一种基于知识图谱和跨模态注意力的多模态反讽检测方法 |
CN115408517A (zh) * | 2022-07-21 | 2022-11-29 | 中国科学院软件研究所 | 基于知识注入的双注意力网络的多模态讽刺意图识别方法 |
CN116402063A (zh) * | 2023-06-09 | 2023-07-07 | 华南师范大学 | 多模态讽刺识别方法、装置、设备以及存储介质 |
CN116611024A (zh) * | 2023-05-16 | 2023-08-18 | 南开大学 | 一种基于事实和情感对立性的多模态反讽检测方法 |
CN116740736A (zh) * | 2023-07-27 | 2023-09-12 | 四川大学 | 一种对图文对错误匹配鲁棒的预训练方法 |
CN117371456A (zh) * | 2023-10-10 | 2024-01-09 | 国网江苏省电力有限公司南通供电分公司 | 一种基于特征融合的多模态讽刺检测方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210151034A1 (en) * | 2019-11-14 | 2021-05-20 | Comcast Cable Communications, Llc | Methods and systems for multimodal content analytics |
-
2024
- 2024-01-25 CN CN202410101338.XA patent/CN117633516B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114036993A (zh) * | 2021-10-15 | 2022-02-11 | 浙大城市学院 | 基于多尺度跨模态神经网络的多模态讽刺对象检测方法 |
CN114330334A (zh) * | 2021-12-30 | 2022-04-12 | 杭州电子科技大学 | 一种基于知识图谱和跨模态注意力的多模态反讽检测方法 |
CN115408517A (zh) * | 2022-07-21 | 2022-11-29 | 中国科学院软件研究所 | 基于知识注入的双注意力网络的多模态讽刺意图识别方法 |
CN116611024A (zh) * | 2023-05-16 | 2023-08-18 | 南开大学 | 一种基于事实和情感对立性的多模态反讽检测方法 |
CN116402063A (zh) * | 2023-06-09 | 2023-07-07 | 华南师范大学 | 多模态讽刺识别方法、装置、设备以及存储介质 |
CN116740736A (zh) * | 2023-07-27 | 2023-09-12 | 四川大学 | 一种对图文对错误匹配鲁棒的预训练方法 |
CN117371456A (zh) * | 2023-10-10 | 2024-01-09 | 国网江苏省电力有限公司南通供电分公司 | 一种基于特征融合的多模态讽刺检测方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN117633516A (zh) | 2024-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11093560B2 (en) | Stacked cross-modal matching | |
US20220414911A1 (en) | Three-dimensional reconstruction method and three-dimensional reconstruction apparatus | |
CN108875074B (zh) | 基于交叉注意力神经网络的答案选择方法、装置和电子设备 | |
CN116402063B (zh) | 多模态讽刺识别方法、装置、设备以及存储介质 | |
CN111783902B (zh) | 数据增广、业务处理方法、装置、计算机设备和存储介质 | |
CN111931067B (zh) | 兴趣点推荐方法、装置、设备和介质 | |
CN108288067A (zh) | 图像文本匹配模型的训练方法、双向搜索方法及相关装置 | |
CN117633516B (zh) | 多模态嘲讽检测方法、装置、计算机设备以及存储介质 | |
CN112541122A (zh) | 推荐模型的训练方法、装置、电子设备及存储介质 | |
US11675928B2 (en) | Electronic device for obfuscating and decoding data and method for controlling same | |
CN109376222A (zh) | 问答匹配度计算方法、问答自动匹配方法及装置 | |
CN116151263B (zh) | 多模态命名实体识别方法、装置、设备以及存储介质 | |
CN111401219B (zh) | 一种手掌关键点检测方法和装置 | |
CN114676704A (zh) | 句子情感分析方法、装置、设备以及存储介质 | |
CN116258145B (zh) | 多模态命名实体识别方法、装置、设备以及存储介质 | |
CN111091010A (zh) | 相似度确定、网络训练、查找方法及装置和存储介质 | |
CN111434118A (zh) | 用户感兴趣信息生成的装置和方法 | |
CN115659987B (zh) | 基于双通道的多模态命名实体识别方法、装置以及设备 | |
CN115408517A (zh) | 基于知识注入的双注意力网络的多模态讽刺意图识别方法 | |
CN114782722A (zh) | 图文相似度的确定方法、装置及电子设备 | |
CN111160049B (zh) | 文本翻译方法、装置、机器翻译系统和存储介质 | |
US20230055991A1 (en) | System and method for interactive dialogue | |
CN116208399A (zh) | 一种基于元图的网络恶意行为检测方法及设备 | |
CN115906861B (zh) | 基于交互方面信息融合的语句情感分析方法以及装置 | |
CN117009599A (zh) | 数据检索方法、装置、处理器及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |