CN113159071A - 一种跨模态图像-文本关联异常检测方法 - Google Patents
一种跨模态图像-文本关联异常检测方法 Download PDFInfo
- Publication number
- CN113159071A CN113159071A CN202110423224.3A CN202110423224A CN113159071A CN 113159071 A CN113159071 A CN 113159071A CN 202110423224 A CN202110423224 A CN 202110423224A CN 113159071 A CN113159071 A CN 113159071A
- Authority
- CN
- China
- Prior art keywords
- image
- text
- label
- association
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明属于计算机多媒体技术领域,具体为一种跨模态图像‑文本关联异常检测方法。本发明通过以下几个步骤来判断图像‑文本对的关联是否异常:1)图像多标签分类阶段,将图像输入基于CNN‑RNN的编码解码器,准确提取图像的标签信息;2)文本多标签分类阶段,将文本输入基于BiLSTM的网络,得到文本的标签信息;3)关联异常检测阶段,融合图像和文本的分类结果,判断图像‑文本对的关联是否异常。本发明提出的方法能够准确实现对图像‑文本对关联异常的检测,并且模型具有较强的鲁棒性。
Description
技术领域
本发明涉及一种跨模态图像-文本关联异常检测方法,属于计算机多媒体技术领域。
背景技术
随着移动互联网、物联网、社交媒体网络相关技术的应用,可收集并进行分析的数据量正在飞速增长,信息的载体也从传统的文字记录向着更加丰富的多媒体记录发展。不同于文字记录那样包含大量的抽象概念,多媒体的信息内容大多为具象的感官信息描述,而如何让人工智能学会理解多媒体内容的同时可以将抽象的文本语义信息与直观的多媒体内容之间进行关联成为了近些年越来越被关注的课题。图像-文本的关联异常检测是该课题中的重要研究内容,在医疗数据分析领域,可以用来检测医学图像与相关文本记录的关联是否异常。
然而建模跨模态数据之间的关系具有非常大的难度,不同模态之间的数据存在很大的差异性,比如图像的表示是连续的,而文本的表示通常是离散的,因此很难在这个层面建立不同模态的数据之间的联系。传统的一些基于机器学习的图像-文本关联异常检测算法,通过引入典型关联性分析的方法可以将异构的数据特征映射到一个公共的隐空间中,在公共的隐空间中不同模态的数据之间可以直接计算相关度系数,由于不同模态数据的异构性,这些‘浅层’的模型很难充分学习到不同模态数据之间的关联。深度学习在图像、语音和自然语言处理等各个领域都产生了优秀的研究成果,使得很多技术任务取得了突破性的进展,深度学习在这些领域的成功表现为将其用于建模多模态数据提供了依据。
发明内容
本发明为了克服现有技术的不足,提供一种基于深度学习的跨模态图像-文本关联异常检测方法。本发明的输入为待检测的图像-文本对,输出对该图像-文本对关联情况的判断。本发明先构建图像多标签分类模型和文本多标签分类模型,然后将图像-文本对分别输入对应的分类模型,获得图像和文本的分类结果,最后根据分类结果计算图像-文本对的关联匹配度,并据此判断图像-文本对的关联是否异常。
本发明分为三个阶段来检测图像-文本对的关联异常:图像多标签分类阶段、文本多标签分类阶段和关联异常检测阶段。以下内容按照三个阶段来组织:
一、图像多标签分类阶段
图像多标签分类阶段的输入为待检测图像-文本对中的图像,图像多标签分类模型由CNN编码器和RNN解码器组成,用CNN编码器从图像中提取重要的视觉特征,然后将提取到的特征输入RNN解码器中生成标签序列,以预测图像的最终标签。首先对图像进行预处理,在预处理阶段,将图像的大小调整为288*288的固定形状,然后对图像R、G、B三个通道的像素分别进行归一化,如公式(1):
其中x为图像中任意位置处的像素值,u为归一化的均值,σ为归一化的标准差,x*为归一化后的像素值。将处理后的图像输入CNN编码器,编码器输出特征向量g,该特征向量为RNN解码器初始时刻的隐状态h0。RNN解码器[1]由Attention模块、Label Embedding层和RNN单元组成,CNN编码器中间过程中产生的特征图W和RNN上一时刻的隐状态ht-1为Attention模块的输入,Attention模块输出特征向量pt-1;RNN上一时刻的输出lt-1为LabelEmbedding层的输入,Label Embedding层输出特征向量将向量pt-1和进行拼接,拼接后的向量为RNN单元t时刻的输入。RNN解码器最终输出一个n维的向量其中N是标签集合的大小,向量每个维度的值为0或1,Ii=1表示图像具有第i类标签。基于CNN-RNN的图像多标签分类模型结构示意图如图2所示。
在本发明中,预处理阶段,R、G、B三个通道像素的归一化均值分别为0.485、0.456和0.406,标准差为0.229、0.224和0.225;CNN编码器采用ResNet101架构[2],训练CNN模型部分使用SGD优化器,学习率为0.01,动量为0.9;RNN解码器采用具有512个隐藏单元的LSTM网络,对于RNN模型,使用ADAM优化器进行训练,随机权值平均使用循环学习速率调节器进行训练,在3次迭代中从1e-3减少到1e-6。CNN模型训练30个epoch,RNN模型训练30个epoch。
二、文本多标签分类阶段
文本多标签分类阶段的输入为待检测图像-文本对中的文本,文本多标签分类模型由BiLSTM网络[3]、最大池化层和Sigmoid层组成。首先对图像的关联文本进行预处理,用word embedding[4]技术把文本中的每一个单词转换为300维的向量,然后将向量输入文本多标签分类模型,模型输出一个n维的预测向量其中N是标签集合的大小。选择合适的阈值对向量T进行处理,T中大于阈值的元素用1代替,反之用0代替,然后得到最终的预测结果向量向量每个维度的值为0或1,Yi=1表示文本具有第i类标签。基于BiLSTM的文本多标签分类模型结构示意图如图3所示。
本发明中使用的word embedding模型是在Google News[4]上训练得到的;BiLSTM网络具有512个隐藏单元;使用0.5的丢失率对最大池化层的输出进行正则化;训练正则化的BiLSTM网络时,使用ADAM优化器,学习速率为0.01,目标函数是交叉熵损失函数,模型训练30个epoch。
三、关联异常检测阶段
(1)匹配度计算:将图像多标签分类阶段和文本多标签分类阶段得到的预测结果I和Y使用公式(2)进行融合,获得图像-文本对的关联匹配度σ。
(2)异常检测:选择合适的阈值τ来检测图像-文本对的关联是否异常,若图像-文本对的关联匹配度σ大于阈值τ,则图像-文本对关联正确,反之则关联异常。
本发明的有益效果如下:
1.本发明创新性的将对图像-文本关联的异常检测问题转化为图像和文本的多标签分类问题,利用分类模型提取图像和文本中的关联信息,有效剔除了数据中与关联异常检测无关的信息。本发明根据分类结果融合的匹配度大小来检测异常,可有效的建立不同模态数据之间的关系,提高异常检测的准确率和鲁棒性。
2.本发明无需人工设计特征,本发明使用中的网络参数皆为自动学习得到。
附图说明
图1是本发明基于深度学习的跨模态图像-文本关联异常检测方法的流程图。
图2是基于CNN-RNN的图像多标签分类模型结构示意图。
图3是基于BiLSTM的文本多标签分类模型结构示意图。
具体实施方式
下面结合附图和实施例对本发明的技术方案进行详细阐述。
实施例1
本发明提供一种跨模态图像-文本关联异常检测方法,其流程图如图1所示,分为三个阶段,即图像多标签分类阶段、文本多标签分类阶段和关联异常检测阶段。具体如下:
一、图像多标签分类阶段
图像多标签分类阶段的输入为待检测图像-文本对中的图像,图像多标签分类模型由CNN编码器和RNN解码器组成,用CNN编码器从图像中提取重要的视觉特征,然后将提取到的特征输入RNN解码器中生成标签序列,以预测图像的最终标签。首先对图像进行预处理,在预处理阶段,将图像的大小调整为288*288的固定形状,然后对图像R、G、B三个通道的像素分别进行归一化,如公式(1):
其中x为图像中任意位置处的像素值,u为归一化的均值,σ为归一化的标准差,x*为归一化后的像素值。将处理后的图像输入CNN编码器,编码器输出特征向量g,该特征向量为RNN解码器初始时刻的隐状态h0。RNN解码器[1]由Attention模块、Label Embedding层和RNN单元组成。CNN编码器中间过程中产生的特征图W和RNN上一时刻的隐状态ht-1为Attention模块的输入,Attention模块输出特征向量pt-1;RNN上一时刻的输出lt-1为LabelEmbedding层的输入,Label Embedding输出特征向量将向量pt-1和进行拼接,拼接后的向量为RNN单元t时刻的输入。RNN解码器最终输出一个n维的向量其中N是标签集合的大小,向量每个维度的值为0或1,Ii=1表示图像具有第i类标签。基于CNN-RNN的图像多标签分类模型结构示意图如图2所示。
在本发明中,预处理阶段,R、G、B三个通道像素的归一化均值分别为0.485、0.456和0.406,标准差为0.229、0.224和0.225;CNN编码器采用ResNet101架构[2],训练CNN模型部分使用SGD优化器,学习率为0.01,动量为0.9;RNN解码器采用具有512个隐藏单元的LSTM网络,对于RNN模型,使用ADAM优化器进行训练,随机权值平均使用循环学习速率调节器进行训练,在3次迭代中从1e-3减少到1e-6。CNN模型训练30个epoch,RNN模型训练30个epoch。
二、文本多标签分类阶段
文本多标签分类阶段的输入为待检测图像-文本对中的文本,文本多标签分类模型由BiLSTM网络[3]、最大池化层和Sigmoid层组成。首先对图像的关联文本进行预处理,用word embedding[4]技术把文本中的每一个单词转换为300维的向量,然后将向量输入文本多标签分类模型,模型输出一个n维的预测向量其中N是标签集合的大小。选择合适的阈值对向量T进行处理,T中大于阈值的元素用1代替,反之用0代替,然后得到最终的预测结果向量向量每个维度的值为0或1,Yi=1表示文本具有第i类标签。基于BiLSTM的文本多标签分类模型结构示意图如图3所示。
本发明中使用的word embedding模型是在Google News[41上训练得到的;BiLSTM网络具有512个隐藏单元;使用0.5的丢失率对最大池化层的输出进行正则化;训练正则化的BiLSTM网络时,使用ADAM优化器,学习速率为0.01,目标函数是交叉熵损失函数,模型训练30个epoch。
三、关联异常检测阶段
(1)匹配度计算:将图像多标签分类阶段和文本多标签分类阶段得到的预测结果I和Y使用公式(2)进行融合,获得图像-文本对的关联匹配度σ。
(2)异常检测:选择合适的阈值τ来检测图像-文本对的关联是否异常,若图像-文本对的关联匹配度σ大于阈值τ,则图像-文本对关联正确,反之则关联异常。
本实施例中使用的coco2014数据集[5]由123287对关联的图像-文本数据组成,按照数据集原始的划分,82783对图文关联数据作为训练集,40504对图文关联数据作为测试集。因为原始数据都是相互关联的数据,所以把测试集中20%的数据打乱,将其作为图像-文本关联异常的数据进行检测。在真实的场景中,训练集中难免会有图像-文本不匹配的数据,为了模拟真实场景,也为了测试方法的鲁棒性,分别把训练集中1%、2%的数据打乱进行实验。实验的结果如下表1,本方法能实现对图像-文本关联异常的准确检测,准确率达到了78.22%;在训练阶段加入不同比例的不匹配数据,模型依然能够准确检测出异常数据,在F1上仅有小幅度的下降,说明本方法具有很强的鲁棒性。
表1 实验结果
异常比例\性能 | Precision | Recall | F1 |
0 | 78.22 | 71.19 | 74.86 |
1% | 77.19 | 72.34 | 74.68 |
2% | 71.99 | 72.52 | 72.25 |
参考文献:
[1]Yazici V O,Gonzalez-Garcia A,Ramisa A,et al.Orderless RecurrentModels for Multi-label Classification[J]2019.
[2]He K,Zhang X,Ren S,et al.Deep Residual Learning for ImageRecognition[C]//IEEE Conference on Computer Vision&Pattern Recognition.IEEEComputer Society,2016.
[3]Zhou P,Shi W,Tian J,et al.Attention-Based Bidirectional LongShort-Term Memory Networks for Relation Classification[C]//Proceedings of the54th Annual Meeting of the Association for Computational Linguistics(Volume2:Short Papers).2016.
[4]Mikolov T.Distributed Representations of Words and Phrases andtheir Compositionality[J]Advances in NeuralInformation ProcessingSystems.2013.26:3111-3119.
[5]Lin TY,Maire M,Belongie S,et al.Microsoft COCO:Common Objects inContext[J]2014.
Claims (7)
1.一种跨模态图像-文本关联异常检测方法,其特征在于,其分为3个阶段检测图像-文本对的关联异常:图像多标签分类阶段、文本多标签分类阶段和关联异常检测阶段,其中:
在图像多标签分类阶段,将图像进行预处理,然后输入图像多标签分类模型,预测图像的标签;
在文本多标签分类阶段,将图像的关联文本进行向量化,然后输入文本多标签分类模型提取标签信息;
在关联异常检测阶段,根据预测的图像和文本的标签信息计算匹配度,根据匹配度的大小判断图像-文本对的关联是否异常。
3.根据权利要求1所述的跨模态图像-文本关联异常检测方法,其特征在于,图像多标签分类模型由CNN编码器和RNN解码器组成;CNN编码器用于从图像中提取重要的视觉特征;RNN解码器由Attention模块、Label Embedding层和RNN单元组成,RNN解码器用于输入CNN编码器提取到的特征生成标签序列,以预测图像的最终标签;工作时,预处理后的图像输入CNN编码器,编码器输出特征向量g,该特征向量为RNN解码器初始时刻的隐状态h0;CNN编码器中间过程中产生的特征图W和RNN上一时刻的隐状态ht-1为Attention模块的输入,Attention模块输出特征向量pt-1;RNN上一时刻的输出lt-1为Label Embedding层的输入,Label Embedding输出特征向量将向量pt-1和进行拼接,拼接后的向量为RNN单元t时刻的输入;RNN解码器最终输出一个n维的向量其中N是标签集合的大小,向量每个维度的值为0或1,Ii=1表示图像具有第i类标签。
4.根据权利要求3所述的跨模态图像-文本关联异常检测方法,其特征在于,CNN编码器采用ResNet101架构,训练CNN模型部分使用SGD优化器;RNN解码器采用具有512个隐藏单元的LSTM网络,对于RNN模型,使用ADAM优化器进行训练,随机权值平均使用循环学习速率调节器进行训练,在3次迭代中从1e-3减少到1e-6,CNN模型训练30个epoch,RNN模型训练30个epoch。
6.根据权利要求5所述的跨模态图像-文本关联异常检测方法,其特征在于,wordembedding模型是在Google News上训练得到的;BiLSTM网络具有512个隐藏单元;使用0.5的丢失率对最大池化层的输出进行正则化;训练正则化的BiLSTM网络时,使用ADAM优化器,学习速率为0.01,目标函数是交叉熵损失函数,模型训练30个epoch。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110423224.3A CN113159071B (zh) | 2021-04-20 | 2021-04-20 | 一种跨模态图像-文本关联异常检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110423224.3A CN113159071B (zh) | 2021-04-20 | 2021-04-20 | 一种跨模态图像-文本关联异常检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113159071A true CN113159071A (zh) | 2021-07-23 |
CN113159071B CN113159071B (zh) | 2022-06-21 |
Family
ID=76868988
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110423224.3A Active CN113159071B (zh) | 2021-04-20 | 2021-04-20 | 一种跨模态图像-文本关联异常检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113159071B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115098563A (zh) * | 2022-07-14 | 2022-09-23 | 中国海洋大学 | 基于gcn和注意力vae的时序异常检测方法及系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130050180A1 (en) * | 2011-08-30 | 2013-02-28 | 5D Robotics, Inc. | Graphical Rendition of Multi-Modal Data |
CN108319686A (zh) * | 2018-02-01 | 2018-07-24 | 北京大学深圳研究生院 | 基于受限文本空间的对抗性跨媒体检索方法 |
CN110309331A (zh) * | 2019-07-04 | 2019-10-08 | 哈尔滨工业大学(深圳) | 一种基于自监督的跨模态深度哈希检索方法 |
CN110909736A (zh) * | 2019-11-12 | 2020-03-24 | 北京工业大学 | 一种基于长短期记忆模型与目标检测算法的图像描述方法 |
CN111259947A (zh) * | 2020-01-13 | 2020-06-09 | 国网浙江省电力有限公司信息通信分公司 | 一种基于多模态学习的电力系统故障预警方法和系统 |
CN111311554A (zh) * | 2020-01-21 | 2020-06-19 | 腾讯科技(深圳)有限公司 | 图文内容的内容质量确定方法、装置、设备及存储介质 |
CN111598214A (zh) * | 2020-04-02 | 2020-08-28 | 浙江工业大学 | 一种基于图卷积神经网络的跨模态检索方法 |
CN111930972A (zh) * | 2020-08-04 | 2020-11-13 | 山东大学 | 利用标签层次信息的多媒体数据跨模态检索方法及系统 |
CN112015901A (zh) * | 2020-09-08 | 2020-12-01 | 迪爱斯信息技术股份有限公司 | 文本分类方法及装置、警情分析系统 |
-
2021
- 2021-04-20 CN CN202110423224.3A patent/CN113159071B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130050180A1 (en) * | 2011-08-30 | 2013-02-28 | 5D Robotics, Inc. | Graphical Rendition of Multi-Modal Data |
CN108319686A (zh) * | 2018-02-01 | 2018-07-24 | 北京大学深圳研究生院 | 基于受限文本空间的对抗性跨媒体检索方法 |
CN110309331A (zh) * | 2019-07-04 | 2019-10-08 | 哈尔滨工业大学(深圳) | 一种基于自监督的跨模态深度哈希检索方法 |
CN110909736A (zh) * | 2019-11-12 | 2020-03-24 | 北京工业大学 | 一种基于长短期记忆模型与目标检测算法的图像描述方法 |
CN111259947A (zh) * | 2020-01-13 | 2020-06-09 | 国网浙江省电力有限公司信息通信分公司 | 一种基于多模态学习的电力系统故障预警方法和系统 |
CN111311554A (zh) * | 2020-01-21 | 2020-06-19 | 腾讯科技(深圳)有限公司 | 图文内容的内容质量确定方法、装置、设备及存储介质 |
CN111598214A (zh) * | 2020-04-02 | 2020-08-28 | 浙江工业大学 | 一种基于图卷积神经网络的跨模态检索方法 |
CN111930972A (zh) * | 2020-08-04 | 2020-11-13 | 山东大学 | 利用标签层次信息的多媒体数据跨模态检索方法及系统 |
CN112015901A (zh) * | 2020-09-08 | 2020-12-01 | 迪爱斯信息技术股份有限公司 | 文本分类方法及装置、警情分析系统 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115098563A (zh) * | 2022-07-14 | 2022-09-23 | 中国海洋大学 | 基于gcn和注意力vae的时序异常检测方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113159071B (zh) | 2022-06-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110334705B (zh) | 一种结合全局和局部信息的场景文本图像的语种识别方法 | |
CN112926396B (zh) | 一种基于双流卷积注意力的动作识别方法 | |
CN113065577A (zh) | 一种面向目标的多模态情感分类方法 | |
CN110909673A (zh) | 一种基于自然语言描述的行人再识别方法 | |
CN112818951B (zh) | 一种票证识别的方法 | |
CN114511906A (zh) | 基于跨模态动态卷积的视频多模态情感识别方法、装置及计算机设备 | |
CN114936623B (zh) | 一种融合多模态数据的方面级情感分析方法 | |
CN114973222B (zh) | 基于显式监督注意力机制的场景文本识别方法 | |
CN112651940B (zh) | 基于双编码器生成式对抗网络的协同视觉显著性检测方法 | |
CN113159023A (zh) | 基于显式监督注意力机制的场景文本识别方法 | |
CN114170411A (zh) | 一种融合多尺度信息的图片情感识别方法 | |
CN116304984A (zh) | 基于对比学习的多模态意图识别方法及系统 | |
CN113657115A (zh) | 一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法 | |
CN116610778A (zh) | 基于跨模态全局与局部注意力机制的双向图文匹配方法 | |
CN115100664B (zh) | 基于相关性信息扩展的多模态虚假新闻识别方法及系统 | |
CN113807214B (zh) | 基于deit附属网络知识蒸馏的小目标人脸识别方法 | |
CN113159071B (zh) | 一种跨模态图像-文本关联异常检测方法 | |
CN114548274A (zh) | 一种基于多模态交互的谣言检测方法及系统 | |
CN112434686B (zh) | 针对ocr图片的端到端含错文本分类识别仪 | |
Li | A deep learning-based text detection and recognition approach for natural scenes | |
CN116522942A (zh) | 一种基于字符对的中文嵌套命名实体识别方法 | |
CN110929013A (zh) | 一种基于bottom-up attention和定位信息融合的图片问答实现方法 | |
Alshawi et al. | An Attention-Based Convolutional Recurrent Neural Networks for Scene Text Recognition | |
CN113221885B (zh) | 一种基于整字和偏旁部首的层次化建模方法及系统 | |
CN112861848B (zh) | 基于动作条件已知的视觉关系检测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |