CN113159071A

CN113159071A - 一种跨模态图像-文本关联异常检测方法

Info

Publication number: CN113159071A
Application number: CN202110423224.3A
Authority: CN
Inventors: 金城; 王尚尚; 吴渊
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2021-04-20
Filing date: 2021-04-20
Publication date: 2021-07-23
Anticipated expiration: 2041-04-20
Also published as: CN113159071B

Abstract

本发明属于计算机多媒体技术领域，具体为一种跨模态图像‑文本关联异常检测方法。本发明通过以下几个步骤来判断图像‑文本对的关联是否异常：1)图像多标签分类阶段，将图像输入基于CNN‑RNN的编码解码器，准确提取图像的标签信息；2)文本多标签分类阶段，将文本输入基于BiLSTM的网络，得到文本的标签信息；3)关联异常检测阶段，融合图像和文本的分类结果，判断图像‑文本对的关联是否异常。本发明提出的方法能够准确实现对图像‑文本对关联异常的检测，并且模型具有较强的鲁棒性。

Description

一种跨模态图像-文本关联异常检测方法

技术领域

本发明涉及一种跨模态图像-文本关联异常检测方法，属于计算机多媒体技术领域。

背景技术

随着移动互联网、物联网、社交媒体网络相关技术的应用，可收集并进行分析的数据量正在飞速增长，信息的载体也从传统的文字记录向着更加丰富的多媒体记录发展。不同于文字记录那样包含大量的抽象概念，多媒体的信息内容大多为具象的感官信息描述，而如何让人工智能学会理解多媒体内容的同时可以将抽象的文本语义信息与直观的多媒体内容之间进行关联成为了近些年越来越被关注的课题。图像-文本的关联异常检测是该课题中的重要研究内容，在医疗数据分析领域，可以用来检测医学图像与相关文本记录的关联是否异常。

然而建模跨模态数据之间的关系具有非常大的难度，不同模态之间的数据存在很大的差异性，比如图像的表示是连续的，而文本的表示通常是离散的，因此很难在这个层面建立不同模态的数据之间的联系。传统的一些基于机器学习的图像-文本关联异常检测算法，通过引入典型关联性分析的方法可以将异构的数据特征映射到一个公共的隐空间中，在公共的隐空间中不同模态的数据之间可以直接计算相关度系数，由于不同模态数据的异构性，这些‘浅层’的模型很难充分学习到不同模态数据之间的关联。深度学习在图像、语音和自然语言处理等各个领域都产生了优秀的研究成果，使得很多技术任务取得了突破性的进展，深度学习在这些领域的成功表现为将其用于建模多模态数据提供了依据。

发明内容

本发明为了克服现有技术的不足，提供一种基于深度学习的跨模态图像-文本关联异常检测方法。本发明的输入为待检测的图像-文本对，输出对该图像-文本对关联情况的判断。本发明先构建图像多标签分类模型和文本多标签分类模型，然后将图像-文本对分别输入对应的分类模型，获得图像和文本的分类结果，最后根据分类结果计算图像-文本对的关联匹配度，并据此判断图像-文本对的关联是否异常。

本发明分为三个阶段来检测图像-文本对的关联异常：图像多标签分类阶段、文本多标签分类阶段和关联异常检测阶段。以下内容按照三个阶段来组织：

一、图像多标签分类阶段

图像多标签分类阶段的输入为待检测图像-文本对中的图像，图像多标签分类模型由CNN编码器和RNN解码器组成，用CNN编码器从图像中提取重要的视觉特征，然后将提取到的特征输入RNN解码器中生成标签序列，以预测图像的最终标签。首先对图像进行预处理，在预处理阶段，将图像的大小调整为288*288的固定形状，然后对图像R、G、B三个通道的像素分别进行归一化，如公式(1)：

其中x为图像中任意位置处的像素值，u为归一化的均值，σ为归一化的标准差，x^*为归一化后的像素值。将处理后的图像输入CNN编码器，编码器输出特征向量g，该特征向量为RNN解码器初始时刻的隐状态h₀。RNN解码器^[1]由Attention模块、Label Embedding层和RNN单元组成，CNN编码器中间过程中产生的特征图W和RNN上一时刻的隐状态h_t-1为Attention模块的输入，Attention模块输出特征向量p_t-1；RNN上一时刻的输出l_t-1为LabelEmbedding层的输入，Label Embedding层输出特征向量

将向量p_t-1和

进行拼接，拼接后的向量为RNN单元t时刻的输入。RNN解码器最终输出一个n维的向量

其中N是标签集合的大小，向量每个维度的值为0或1，I_i＝1表示图像具有第i类标签。基于CNN-RNN的图像多标签分类模型结构示意图如图2所示。

在本发明中，预处理阶段，R、G、B三个通道像素的归一化均值分别为0.485、0.456和0.406，标准差为0.229、0.224和0.225；CNN编码器采用ResNet101架构^[2]，训练CNN模型部分使用SGD优化器，学习率为0.01，动量为0.9；RNN解码器采用具有512个隐藏单元的LSTM网络，对于RNN模型，使用ADAM优化器进行训练，随机权值平均使用循环学习速率调节器进行训练，在3次迭代中从1e-3减少到1e-6。CNN模型训练30个epoch，RNN模型训练30个epoch。

二、文本多标签分类阶段

文本多标签分类阶段的输入为待检测图像-文本对中的文本，文本多标签分类模型由BiLSTM网络^[3]、最大池化层和Sigmoid层组成。首先对图像的关联文本进行预处理，用word embedding^[4]技术把文本中的每一个单词转换为300维的向量，然后将向量输入文本多标签分类模型，模型输出一个n维的预测向量

其中N是标签集合的大小。选择合适的阈值对向量T进行处理，T中大于阈值的元素用1代替，反之用0代替，然后得到最终的预测结果向量

向量每个维度的值为0或1，Y_i＝1表示文本具有第i类标签。基于BiLSTM的文本多标签分类模型结构示意图如图3所示。

本发明中使用的word embedding模型是在Google News^[4]上训练得到的；BiLSTM网络具有512个隐藏单元；使用0.5的丢失率对最大池化层的输出进行正则化；训练正则化的BiLSTM网络时，使用ADAM优化器，学习速率为0.01，目标函数是交叉熵损失函数，模型训练30个epoch。

三、关联异常检测阶段

(1)匹配度计算：将图像多标签分类阶段和文本多标签分类阶段得到的预测结果I和Y使用公式(2)进行融合，获得图像-文本对的关联匹配度σ。

其中

是图像多标签分类模型的预测结果向量，I_i＝1表示图像具有第i类标签；其中

是文本多标签分类模型的预测结果向量，Y_i＝1表示文本具有第i类标签；N是标签集合的大小。

(2)异常检测：选择合适的阈值τ来检测图像-文本对的关联是否异常，若图像-文本对的关联匹配度σ大于阈值τ，则图像-文本对关联正确，反之则关联异常。

本发明的有益效果如下：

1.本发明创新性的将对图像-文本关联的异常检测问题转化为图像和文本的多标签分类问题，利用分类模型提取图像和文本中的关联信息，有效剔除了数据中与关联异常检测无关的信息。本发明根据分类结果融合的匹配度大小来检测异常，可有效的建立不同模态数据之间的关系，提高异常检测的准确率和鲁棒性。

2.本发明无需人工设计特征，本发明使用中的网络参数皆为自动学习得到。

附图说明

图1是本发明基于深度学习的跨模态图像-文本关联异常检测方法的流程图。

图2是基于CNN-RNN的图像多标签分类模型结构示意图。

图3是基于BiLSTM的文本多标签分类模型结构示意图。

具体实施方式

下面结合附图和实施例对本发明的技术方案进行详细阐述。

实施例1

本发明提供一种跨模态图像-文本关联异常检测方法，其流程图如图1所示，分为三个阶段，即图像多标签分类阶段、文本多标签分类阶段和关联异常检测阶段。具体如下：

一、图像多标签分类阶段

其中x为图像中任意位置处的像素值，u为归一化的均值，σ为归一化的标准差，x^*为归一化后的像素值。将处理后的图像输入CNN编码器，编码器输出特征向量g，该特征向量为RNN解码器初始时刻的隐状态h₀。RNN解码器^[1]由Attention模块、Label Embedding层和RNN单元组成。CNN编码器中间过程中产生的特征图W和RNN上一时刻的隐状态h_t-1为Attention模块的输入，Attention模块输出特征向量p_t-1；RNN上一时刻的输出l_t-1为LabelEmbedding层的输入，Label Embedding输出特征向量

将向量p_t-1和

二、文本多标签分类阶段

本发明中使用的word embedding模型是在Google News^[41上训练得到的；BiLSTM网络具有512个隐藏单元；使用0.5的丢失率对最大池化层的输出进行正则化；训练正则化的BiLSTM网络时，使用ADAM优化器，学习速率为0.01，目标函数是交叉熵损失函数，模型训练30个epoch。

三、关联异常检测阶段

其中

本实施例中使用的coco2014数据集^[5]由123287对关联的图像-文本数据组成，按照数据集原始的划分，82783对图文关联数据作为训练集，40504对图文关联数据作为测试集。因为原始数据都是相互关联的数据，所以把测试集中20％的数据打乱，将其作为图像-文本关联异常的数据进行检测。在真实的场景中，训练集中难免会有图像-文本不匹配的数据，为了模拟真实场景，也为了测试方法的鲁棒性，分别把训练集中1％、2％的数据打乱进行实验。实验的结果如下表1，本方法能实现对图像-文本关联异常的准确检测，准确率达到了78.22％；在训练阶段加入不同比例的不匹配数据，模型依然能够准确检测出异常数据，在F1上仅有小幅度的下降，说明本方法具有很强的鲁棒性。

表1 实验结果

异常比例\性能	Precision	Recall	F1
				0	78.22	71.19	74.86
1％	77.19	72.34	74.68
				2％	71.99	72.52	72.25

参考文献：

[1]Yazici V O，Gonzalez-Garcia A，Ramisa A，et al.Orderless RecurrentModels for Multi-label Classification[J]2019.

[2]He K，Zhang X，Ren S，et al.Deep Residual Learning for ImageRecognition[C]//IEEE Conference on Computer Vision&Pattern Recognition.IEEEComputer Society，2016.

[3]Zhou P，Shi W，Tian J，et al.Attention-Based Bidirectional LongShort-Term Memory Networks for Relation Classification[C]//Proceedings of the54th Annual Meeting of the Association for Computational Linguistics(Volume2：Short Papers).2016.

[4]Mikolov T.Distributed Representations of Words and Phrases andtheir Compositionality[J]Advances in NeuralInformation ProcessingSystems.2013.26：3111-3119.

[5]Lin TY，Maire M，Belongie S，et al.Microsoft COCO：Common Objects inContext[J]2014.

Claims

1.一种跨模态图像-文本关联异常检测方法，其特征在于，其分为3个阶段检测图像-文本对的关联异常：图像多标签分类阶段、文本多标签分类阶段和关联异常检测阶段，其中：

在图像多标签分类阶段，将图像进行预处理，然后输入图像多标签分类模型，预测图像的标签；

在文本多标签分类阶段，将图像的关联文本进行向量化，然后输入文本多标签分类模型提取标签信息；

在关联异常检测阶段，根据预测的图像和文本的标签信息计算匹配度，根据匹配度的大小判断图像-文本对的关联是否异常。

2.根据权利要求1所述的跨模态图像-文本关联异常检测方法，其特征在于，在图像多标签分类阶段，对图像进行预处理的方法如下：将图像的大小调整为固定形状，然后对图像R、G、B三个通道的像素分别进行归一化，如公式(1):

其中x为图像中任意位置处的像素值，u为归一化的均值，σ为归一化的标准差，x^*为归一化后的像素值。

3.根据权利要求1所述的跨模态图像-文本关联异常检测方法，其特征在于，图像多标签分类模型由CNN编码器和RNN解码器组成；CNN编码器用于从图像中提取重要的视觉特征；RNN解码器由Attention模块、Label Embedding层和RNN单元组成，RNN解码器用于输入CNN编码器提取到的特征生成标签序列，以预测图像的最终标签；工作时，预处理后的图像输入CNN编码器，编码器输出特征向量g，该特征向量为RNN解码器初始时刻的隐状态h₀；CNN编码器中间过程中产生的特征图W和RNN上一时刻的隐状态h_t-1为Attention模块的输入，Attention模块输出特征向量p_t-1；RNN上一时刻的输出l_t-1为Label Embedding层的输入，Label Embedding输出特征向量

将向量p_t-1和

进行拼接，拼接后的向量为RNN单元t时刻的输入；RNN解码器最终输出一个n维的向量

其中N是标签集合的大小，向量每个维度的值为0或1，I_i＝1表示图像具有第i类标签。

4.根据权利要求3所述的跨模态图像-文本关联异常检测方法，其特征在于，CNN编码器采用ResNet101架构，训练CNN模型部分使用SGD优化器；RNN解码器采用具有512个隐藏单元的LSTM网络，对于RNN模型，使用ADAM优化器进行训练，随机权值平均使用循环学习速率调节器进行训练，在3次迭代中从1e-3减少到1e-6,CNN模型训练30个epoch，RNN模型训练30个epoch。

5.根据权利要求1所述的跨模态图像-文本关联异常检测方法，其特征在于，文本多标签分类模型由BiLSTM网络、最大池化层和Sigmoid层组成；首先对图像的关联文本进行预处理，用word embedding技术把文本中的每一个单词转换为300维的向量，然后将向量输入文本多标签分类模型，模型输出一个n维的预测向量

其中N是标签集合的大小；选择合适的阈值对向量T进行处理，T中大于阈值的元素用1代替，反之用0代替，然后得到最终的预测结果向量

向量每个维度的值为0或1，Y_i＝1表示文本具有第i类标签。

6.根据权利要求5所述的跨模态图像-文本关联异常检测方法，其特征在于，wordembedding模型是在Google News上训练得到的；BiLSTM网络具有512个隐藏单元；使用0.5的丢失率对最大池化层的输出进行正则化；训练正则化的BiLSTM网络时，使用ADAM优化器，学习速率为0.01，目标函数是交叉熵损失函数，模型训练30个epoch。

7.根据权利要求1所述的跨模态图像-文本关联异常检测方法，其特征在于，关联异常检测阶段判断图像-文本对关联是否异常的步骤如下：

(1)匹配度计算：将图像多标签分类阶段和文本多标签分类阶段得到的预测结果I和Y使用公式(2)进行融合，获得图像-文本对的关联匹配度σ；

其中

是文本多标签分类模型的预测结果向量，Y_i＝1表示文本具有第i类标签；N是标签集合的大小；