CN114021558B

CN114021558B - 一种基于分层的图与文语义一致性智能评估方法

Info

Publication number: CN114021558B
Application number: CN202111325660.3A
Authority: CN
Inventors: 郭雷; 李玉红; 王岩; 乔建忠
Original assignee: Hangzhou Innovation Research Institute of Beihang University
Current assignee: Hangzhou Innovation Research Institute of Beihang University
Priority date: 2021-11-10
Filing date: 2021-11-10
Publication date: 2022-05-10
Anticipated expiration: 2041-11-10
Also published as: CN114021558A

Abstract

本发明涉及一种基于分层的图与文语义一致性智能评估方法，采用深度学习表示出图像、文本特征；采用自下而上(bottom‑up)、空间、通道相混合的注意力机制对图像场景进行理解，并将光照、视角、尺度、遮挡等信息考虑在内提取出显著的图像区域特征；从语义学考虑语义一致性，构建本体(object)、属性(property)、关系(relation)、全局(global)四个层次的评估指标模型进行分层次评估；最后加权给出图像与其标题内容最终的语义一致性程度，评估结果考虑了图像本身信息和语义要素层次，能够更加客观、清楚地反映各层次对图像与图像标题语义一致性影响的不同程度。

Description

一种基于分层的图与文语义一致性智能评估方法

技术领域

本发明涉及计算机仿真、自然语言处理领域，尤其涉及一种基于分层的图与文语义一致性智能评估方法，可用于新闻、评论、微博等多媒体内容中图像与图像标题的语义一致性评估。

背景技术

现有多媒体内容包含有图像、文本、音频、视频等模态信息，其中图与文内容是多媒体内容最常见的多模态表现形式。虚假内容出于一些不正当目的通过“加减”事实对受众进行蒙蔽、诱导，经过传播会对受众、社会产生不良的影响。图与文语义一致性评估是从语义内容上判定多媒体内容中的图像、文本是否一致，不一致则内容为假。

从2014年开始，国、内外许多高校和企业都进行了图与文语义一致性方面的探索研究，目前以美国斯坦福大学、微软、中科院的研究成果较多。总体来讲，目前大多是分别针对图像、文本进行特征表示，然后将两模态的特征映射到一个公共空间中，再进行相似度的比较。具体来讲，主要有图像特征表示、文本特征表示、公共空间构建、语义一致性度量、模型目标函数构建等几方面的研究内容。对于图像特征表示，常采用卷积神经网络(Convolutional Neural Network，CNN)及其变体(VGG19、ResNet(Residual Network))等将图像表示成多个语义标签、进行语义推理、卷积核直接提取特征、自注意力机制提取本体间的交互关系、注意力机制提取更为显著的本体或图像区域、分层次提取图像特征等；对于文本特征，常采用CNN、长短时记忆网络(Long Short Term Memory Network，LSTM)、双向LSTM(Bi-LSTM)等进行自注意力机制提取、图形化结构表示；公共空间构建的研究有单一模态特征以相同维度进行比较、自注意力机制交互映射、注意力权重分配嵌入映射、特征融合；语义一致性度量的方法有距离计算法、矩阵内积、基于距离的矢量法、多层感知网络回归法；模型的目标学习函数大多采用基于余弦距离法的双向角度损失函数。

图与文语义一致性计算最有代表性的模型有SCAN(Stacked CrossAttentionNetwork)、VSRN(Visual Semantic Reasoning Network)等。2018年微软发表的SCAN模型中，首先将图像特征表示成多个图像区域(region)、将文本特征表示成相同维度的单词(word)向量，接着将图像区域和文本中的单词进行对齐，然后进行“图像到句子和”句子到图像”的双向检索，计算每个{region，word}对的相似度，最后经过平均池化得到整张图像和文本的相似度。2019年美国波士顿东北大学的VSRN模型中，首先采用局部推理和全局推理来表示出重要的、含有语义关系的图像特征，然后通过优化目标学习函数进行图与文对齐学习，最后点乘文本特征向量和更新得到的图像特征向量计算图与文的相似度。

基于规则的图与其标题评估主要是针对参考标题和生成的标题间的相似性进行评估，这类方法包括BLEU(Bilingual Evaluation Understudy)、METEOR(Metric forEvaluation of Translation with Explicit Ordering)、ROUGE(Recall-orientedUnderstanding for Gisting Evaluation)、CIDEr(Consensus-based Image DescriptionEvaluation)、SPICE(Semantic Propositional Image Caption Evaluation)。BLEU、METEOR、ROUGE和CIDEr均是通过语句间n-gram(连续n个词)的匹配准确度评估候选句子与参考句子之间的相似度，BLEU和METEOR多用于评估机器翻译与人工翻译的距离。SPICE基于场景图从语义角度关联本体、属性、关系以量化图的相似度。

对现有研究进行分析能够发现，关于图与文语义一致性评估的研究，目前还未有相关的专利报导。现有的图与文语义一致性研究大多是针对图和单个句子的文本进行局部的语义一致性计算，是将每个词的重要性同等对待，亦不能很好地解释语义要素(本体、属性、关系)对图与文语义一致性的影响程度；基于规则的评估方法均假设参考语句能够很好的表达图像内容，未考虑参考语句不能完全覆盖图像信息的情况，不能从全局上评估图与文的语义一致性。

发明内容

本发明技术解决问题：克服现有技术的不足，提出一种基于分层的图与文语义一致性智能评估方法，该方法基于语义场概念将语义一致性分为本体、属性、关系等语义各要素层次上的一致性，在深度学习的基础上，通过将图像信息本身考虑在内能够更加客观地实现图与文在本体、属性、关系和全局四个层次上的语义一致性评估，量化的评估结果能够更加清晰地解释各个语义要素对评估结果的影响。

本发明技术解决方案：一种基于分层的图与文语义一致性智能评估方法，其特点在于：采用深度学习模型从语义场角度智能地提取出图像与其标题两种模态的本体、属性和关系特征，然后构建两模态在本体、属性、关系、全局四个层次上的语义一致性评估模型，分层次评估出两模态的语义一致度，通过加权得到两模态的语义一致度；

具体包括以下步骤(1)至步骤(5)：

步骤(1)：综合运用自下而上注意力机制、通道自注意力机制和空间自注意力机制，使用Faster R-CNN深度学习模型对图像提取出显著的区域特征，每个图像区域带有实物标签，并采用全连接网络模型对图像标签进行预测，从语义场角度分析和判别图像的本体、属性和关系语义特征，得到图像区域类别特征；

步骤(2)：将文本中单词进行独热编码，由Bi-GRU深度学习模型提取出单词特征，采用Core-NLP深度学习模型对文本单词进行本体、属性、关系的语义分类，得到文本单词类别特征；

步骤(3)：将步骤(1)得到的图像区域类别特征和和步骤(2)得到的文本单词类别特征作为输入，采用SCAN深度学习方法中“图像到文本”、“文本到图像”两种映射方式分别对图像参与的文本特征和文本参与的图像特征进行表达，挑选出注意力权重值最大的图像特征和文本特征进行对齐，得到关联度最高的本体、属性、关系特征向量；

步骤(4)：将步骤(3)得到的关联度最高的本体、属性、关系特征向量作为输入，通过计算占比、余弦距离，对图像、文本两种模态进行本体、属性、关系及全局层次上的进行语义一致性计算，最后，通过加权得到两模态的语义一致性；

步骤(5)：以上步骤(1)至步骤(4)构成整个评估模型；在使用评估模型对图像与其标题进行语义一致性评估之前，先对评估模型进行训练。实现方法是在步骤(4)得到两模态的语义一致度评估结果基础上，对图像和文本匹配、不匹配的情况进行采样，将三元组损失作为模型训练的优化函数，循环执行步骤(1)至步骤(4)对模型进行训练，直到该损失达到设定的期望值，即得到训练好的评估模型；最后，输入测试的图像与文本，最终得到两者在本体、属性、关系、全局四个层次上的语义一致性度、以及最终的语义一致度。

所述步骤(1)具体实现如下：

(11)采用自下而上注意力机制将抽取权重集中在图像的局部区域上，再使用Faster R-CNN深度学习模型首先在带有IoU阈值的贪婪非最大约束条件下选择出排序靠前的区域框，再经过均值化卷积后得到边界框的提取特征，从而对每张图像识别出本体和其他显著的区域。对于每一个图像区域i，x_i表示原始的均值化卷积特征，将x_i通过线性映射到一个D维向量，得到图像区域特征v_i：

v_i＝W_xx_i+b_i，i＝1，2，...，n

其中，W_x是自下而上注意力机制在每个图像区域上分配的权重，b_i是对应的偏差，共n个图像区域；

(12)在Faster R-CNN模型上综合使用已公开的通道和空间两种自注意力机制以进一步增强特征表示，通道自注意力机制用于捕获任意两通道图像区域之间的通道依赖关系，位置注意力机制用于捕获图像区域位置之间的空间依赖性，使目标图像V最终被表示为一个提取出的显著特征集V＝(v₁，v₂，...，v_n)∈R^n×D，每个图像区域带有实物标签；

(13)采用全连接模型对V中图像区域标签进行预测，从语义场角度分析和判别图像区域属于本体、属性、关系的类别，得到图像区域类别特征。

所述步骤(4)中，通过计算占比、余弦距离，对图像、文本中的本体、属性、关系进行语义一致性计算，在此基础上计算两种模态的全局一致性的具体实现如下：

假设经过步骤(3)后，图像语义空间中得到n_o个本体、n_p个属性、n_r个关系类别，文本语义空间中得到m_o个本体、m_p个属性、m_r个关系类别。以下计算图像与其标题在本体、属性、关系和全局四个层次上的一致性；

本体一致性计算：图像与其标题的本体一致度表示为文本与图像中相同或相似本体的数量占文本本体总数量的比例：

其中，k_mo表示文本本体与图像本体相同或相似的数量，k_mo≤m_o，0≤con_o≤1.0；

属性一致性计算：计算图像与其标题的属性一致性，需要考虑属性所修饰的本体是否一致：

其中，

object是与property对齐的本体向量，w₁为相应的对齐注意力权重，

为元素点乘运算符；

关系一致性计算：关系通常指某一本体1与另一不同本体2之间的关系，但同时需要考虑本体2缺少的情况，图像与其标题的关系一致性计算如下：

其中，object指与relation对齐的关系作用主体，w₂为相应的对齐注意力权重，object′指与relation对其的关系作用受体，w₃为相应的对齐注意力权重，本体2缺失时object′对应的元素值赋为1；

全局一致性计算：本体、属性、关系一致性的计算更多是表达图像与文本间局部的对齐关系，全局一致性需要考虑图像与本体中本体、属性、关系间的长依赖关系，计算如下：

con_g＝con_p·con_r

其中property、object、relation、object′都是对齐关系；

图像与其标题的语义一致性计算为con_o、con_p、con_r、con_g的加权和，四部分的权重w_o、w_p、w_r、w_g根据重视度情况而设定；

最终的一致性加权结果为：

con_V，T＝con_o·w_o+con_p·w_p+con_r·w_r+con_g·w_g

其中，权重关系满足w_o+w_p+w_r+w_g＝1.0，con_V，T∈[0.0，1.0]值越大表示标题与图像的语义一致性越高。

本发明与现有技术相比的优点在于：

(1)现有对于图片特征的提取，许多未考虑到位置、尺寸、明暗等信息的影响，本发明在现有特征提取基础上加入了位置和通道两种自注意力机制，能够识别不同光照、视角、尺度、遮挡下的显著特征，适用场景更广；

(2)现有对图与文的一致度衡量，大多基于余弦距离给出两模态的匹配程度，解释性较差，本发明从语义场角度能够更加客观和清晰地评价本体、属性、关系、全局多个层次对两模态一致性影响的不同程度。

附图说明

图1为实现本发明基于分层的图像与其标题语义一致性智能评估的模型框架示意图；

图2为实现本发明基于分层的图像与其标题语义一致性智能评估的模型实施流程图；

图3为位置注意力机制原理框图；

图4为通道注意力机制原理框图；

图5为图像区域特征提取及类别预测结果示例；

图6为本发明所提方法的测试用例及评估结果。

具体实施方式

为了能够更加清楚地理解本发明目的、技术方案及优势，以下结合附图和实施例对本发明作进一步的详细说明。此处所描述的具体实施例仅用以本发明的进一步解释，而不对本发明做限定。

如图1所示，本发明基于分层的图像与其标题语义一致性智能评估方法步骤为：首先对图像、文本进行特征提取，其中针对图像特征提取运用了包含自下而上、通道和空间的注意力机制。接着对图像特征、文本特征进行本体、属性、关系的语义分类，然后由SCAN方法对进行“图像到文本”、“文本到图像”的注意力交叉映射，得到关联度及对齐度最高的本体、属性、关系特征向量，再进行特征关联的一致性分层计算，最后加权得到图像与其标题的一致性。图2为方法模型具体的实施流程图。

一种基于分层的图与文语义一致性智能评估方法，采用深度学习网络模型对图像、文本分别进行特征表示，通过注意力机制提取出显著的图像区域，分别对图像、文本特征进行本体、属性、关系的分类，通过SCAN方法中“文本到图像”、“图像到文本”的注意力映射分别得到关于图像、文本的注意力向量表达，通过语义对齐得到有方向的本体、属性、关系图像与文本特征分类，构建本体、属性、关系、全局四个语义层次的评估指标模型进行分指标评估，加权给出图与文内容最终的语义一致性程度。其优点在于语义信息更加全面、评估结果可解释性更强，

包括步骤(1)至步骤(5)：

步骤(1)对图像进行特征表示；

采用自下而上注意力机制将抽取权重集中在图像的局部区域上，再使用FasterR-CNN模型首先在带有IoU阈值的贪婪非最大约束条件下选择出排序靠前的区域框，再经过均值化卷积后得到边界框的提取特征，从而对每张图像识别出本体和其他显著的区域。对于每一个图像区域i，x_i表示原始的均值化卷积特征，将x_i通过线性映射到一个D维向量，得到图像区域特征v_i：

v_i＝W_xx_i+b_i，i＝1，2，...，n

其中W_x是自下而上注意力机制在每个图像区域上分配的权重，b_i为相应的偏差，共n个图像区域。

接着，在Faster R-CNN模型上并联使用通道和空间两种自注意力机制以进一步增强特征表示。位置注意力机制用于捕获图像区域位置之间的空间依赖性，其原理如图3所示，特征图A首先分别通过3个卷积层得到3个特征图B、C、D，矩阵变维为C*(H*W)，再将变维后的B转置与变维后的C相乘，然后通过softmax学习得到空间注意力特征图S∈R^(H*W)*(H*W)：

其中，s_ji是S的第j行第i列元素，衡量第i个位置对第j个位置的影响，B_i、C_j分别为B、C的第i个、第j个子图，N是像素点的个数，两个位置的特征越相似则关联越紧密。

同时，将特征A输入批归一化操作的卷积层，由ReLU学习后得到特征图D，并变维为C*H*W，接着将S的转置与D做乘积，并变维为原来C*H*W的维度，最后乘以尺度系数α，与A相加得到最后的输出E，每个子特征E_j∈E是所有位置特征和原始特征的加权和：

其中，α初始化为0，并在逐渐学习过程中分配到更多的权重，E_j是E的第j个特征，D_i是D的第i个特征，A_j是第j个原始特征，N同上。

通道自注意力机制亦运用了相似的特征图变换方法，用于捕获任意两通道图像区域之间的通道依赖关系，原理如图4所示。与位置注意力机制不同，通道注意力特征是直接从特征图A中计算而得。对A和其转置作矩阵乘积，通过softmax层获得通道注意力特征图X：

其中，x_ji∈X是衡量第i个通道对第j个通道的影响，A_i、A_j分别表示第i、第j个原始特征，C是X的维度大小。

接着对X的转置和A作矩阵乘积，并将结果变维为C*(H*W)。最后，乘以尺度参数β，与A相加得到最后的输出G，每个子特征G_j∈G是所有通道特征和原始特征的加权和：

其中，β同α逐渐从0学习到权重，G_j是G的第j个特征，s_ij、N、A_i、A_j同上。

从而，目标图像V最终被表示为一个提取出的显著特征集V＝(v₁，v₂，...，v_n)∈Rⁿ ^×D，每个元素表示一个图像区域，每个图像区域带有实物标签。最后，采用全连接模型对图像区域进行预测，从语义场角度分析和判别图像区域属于本体、属性、关系的类别，得到图像区域类别特征。如图5所示是以MSCOCO数据集中一图像为例得到的判别结果，如“hands”、“green tree”、“two young guy”等图像区域类别。

步骤(2)对文本进行特征表示；

对于句子中的m个输入单词，首先通过单词嵌入层将它的独热编码W＝{w₁，w₂，...，w_m}嵌入到一个D维空间中，用向量y_i表示为：

y_i＝W_ew_i

其中，W_e是模型端到端学习得到的一个参数化矩阵，w_i(i∈[1，m])表示第i个单词。

然后，将这些向量输入到双向GRU(Gate RecurrentUnit)深度学习模型(Bi-GRU)中，模型的正向隐态

和反向隐态

表示为：

其中，

和

分别表示Bi-GRU模型的正向和反向过程。

接着，通过取

和

的均值

得到文本单词特征T＝{t₁，t₂，...，t_m}∈R^m×D，t_i表示文本单词嵌入向量，包含有以单词为中心的上下文信息。

最后，采用Core-NLP模型对T中文本单词进行分类，判别属于本体、属性、关系的类别，得到文本单词类别特征。如MSCOCO数据集中对应图2的文本“Two young guys withshaggy hair look at their hands while hanging out in the yard.”中不同颜色分别表示属性、本体和关系。

步骤(3)基于交叉注意力的语义对齐；

(3-1)采用SCAN方法中“图像到文本”的映射对每个图像区域v_i计算其与文本中所有单词的相关度。对每个图像区域分配给单词不同的注意力权重，关于第i个图像区域的文本单词权重组合表示为

其中，λ为softmax函数的平滑参数，α_ij是第i个图像区域与第j个文本单词的相关性，且满足

得到图像区域v_i和文本单词t_j之间的相似度：

其中，score(v_i，t_j)是通过余弦距离计算得到的v_i和t_j之间的相似度，sim(v_i，t_j)是score(v_i，t_j)经过归一化后取0和score(v_i，t_j)之间较大的值。

得到图像和其标题对齐的基础得分向量，记为S(V，T)：

S(V，T)＝{s₁，s₂，...，s_n}

其中，每个s_i表示第i个图像区域v_i与标题T的相关程度，能够反映出一定文本下图像区域的重要程度。

(3-2)采用SCAN方法中“文本到图像”的映射对每个文本单词t_j计算其与图像区域的相关度。对每个文本单词分配给图像区域不同的注意力权重，关于第j个文本单词的图像区域的权重组合表示为

标题和图像对齐的基础得分向量记为S(V，T)：

S(V，T)＝{s′₁，s′₂，...，s′_m}

其中，每个s′_j表示图像V与第j个文本t_j的相关程度，能够反映出一定图像下文本单词的重要程度。

经过步骤(3-1)和(3-2)，得到对齐程度最高、有关联关系的本体、属性、关系特征向量。

步骤(4)图与文语义一致性评估结果计算；

假设经过步骤(3)后，图像语义空间中得到n_o个本体、n_p个属性、n_r个关系类别类别，文本语义空间中得到m_o个本体、m_p个属性、m_r个关系类别。以下计算图像与其标题的本体、属性、关系、全局四个层次上的一致性。

(4-1)本体一致性计算。因此，图像与其标题的本体一致度表示为文本中本体与图像中相同或相似本体占文本中本体的比例：

其中k_mo表示文本本体与图像本体相同或相似的数量，k_mo≤m_o，0≤con_o≤1.0。如文本涉及4个本体，但其中只有2个本体与图像中本体相同或相似，则

(4-2)属性一致性计算。需要考虑属性所修饰的本体是否一致：

其中，

为元素点乘运算符。如property＝[1，1]，w₁＝[0.6，0.4]，object＝[1，1]，则

(4-3)关系一致性计算。关系通常指某一本体1与另一不同本体2之间的关系，但同时需要考虑本体2缺少的情况，因此图像与其标题的关系一致性计算如下：

其中，object指与relation对齐的关系作用主体，w₂为相应的对齐注意力权重，object′指与relation对其的关系作用受体，w₃为相应的对齐注意力权重，本体2缺失时object′对应的元素值赋为1。

(4-4)全局一致性计算。步骤(4-1)、(4-2)和(4-3)更多是表达图像与文本间局部的对齐关系，全局一致性需要考虑图像与本体中本体、属性、关系间的长依赖关系，计算如下：

con_g＝con_p·con_r

其中property、object、relation、object′都是对齐关系。

(4-5)图像与其标题的语义一致性计算为con_o、con_p、con_r、con_g的加权和，四部分的权重w_o、w_p、w_r、w_g可以根据重视度情况而设定，灵活度较大，最终的一致性结果为：

con_V，T＝con_o·w_o+con_p·w_p+con_r·w_r+con_g·w_g

其中，权重关系满足w_o+w_p+w_r+w_g＝1.0，con_V，T∈[0.0，1.0]值越大表示图标题与图像的语义一致性越高。

步骤(5)模型训练与测试；

在使用评估模型对图像与其标题进行语义一致性评估之前，需要对模型进行训练。实现方法是在步骤(4)得到两模态的语义一致度评估结果基础上，将三元组损失作为目标函数，使用文本T作为搜索目标，在每个mini-batch对其匹配和不匹配的图像进行采样，循环执行步骤(1)至步骤(4)对模型进行训练，直到该损失达到设定的期望值，即得到训练好的评估模型。

匹配的图像和文本构成正向对，不匹配的图像和文本构成负向对。正向对要比负向对的相似度得分要高出一个有界值γ。以图像作为搜索目标时，需同样满足上述约束条件。构建如下目标函数，最大化目标函数以使得那些使损失最高的负样本(称为硬负样本)最少：

其中，I′和T′为硬负样本，函数[·]₊等价于max[·，0]，g(·)表示由步骤(4-5)计算出的图像与文本对的全局相似度。

最后，给训练好的评估模型输入测试的图像与文本，可最终得到两者在本体、属性、关系、全局四个层次上的语义一致性度、以及最终的语义一致度。

以图6中图像和标号1句子为测试应用例，“1.Two men dressed in green are preparingfood in a restaurant.”，计算图像与其相似度。得到

con_g＝0.767*0.855＝0.656，这样就得到了图像和其标题间本体、属性、关系、全局的语义一致度结果，分了四个层次。若赋予w_o、w_p、w_r、w_g相同的值，均为1/4，则得到图像该文本间的语义一致性度为con_V，T＝0.25*(1.0+0.767+0.855+0.656)＝0.820。该图像与标号2、3、4，5文本间的分层次语义一致度评估结果如图6所示，该结果与SCAN方法得出的结果一致(标号1、2、3、4均匹配，标号5不匹配)。分析能够看到，本发明所提方法能够清楚地反映出图像与文本间本体、属性、关系、全局四个层次上的语义一致度，通过加权能最终得到图像与其标题最终的语义一致性评估量化结果，所得结果充分考虑了图像的信息，能够更加清晰地解释哪个层次对最终的一致性度的影响程度。

本发明未详细阐述部分属于本领域的公知技术。

以上所述的本发明实施方式并不构成对本发明保护范围的限定，任何熟悉本领域的人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于分层的图与文语义一致性智能评估方法，其特征在于，包括以下步骤：

步骤(3)：将步骤(1)得到的图像区域类别特征和步骤(2)得到的文本单词类别特征作为输入，采用SCAN深度学习方法中“图像到文本”、“文本到图像”两种映射方式分别对图像参与的文本特征和文本参与的图像特征进行表达，挑选出注意力权重值最大的图像特征和文本特征进行对齐，得到关联度最高的本体、属性、关系特征向量；

步骤(4)：将步骤(3)得到的关联度最高的本体、属性、关系特征向量作为输入，通过计算占比、余弦距离，对图像、文本两种模态进行本体、属性、关系及全局层次上的语义一致性计算，通过加权得到两模态的语义一致性；

步骤(5)：以上步骤(1)至步骤(4)构成整个评估模型；在步骤(4)得到两模态的语义一致度评估结果基础上，对图像和文本匹配、不匹配的情况进行采样，将三元组损失作为模型训练的优化函数，循环执行步骤(1)至步骤(4)对评估模型进行训练，直到该三元组损失达到设定的期望值，从而得到训练好的评估模型；最后，输入测试的图像与文本，最终得到图像与文本在本体、属性、关系和全局四个层次上的语义一致性度以及两模态最终的语义一致度。

2.根据权利要求1所述的基于分层的图与文语义一致性智能评估方法，其特征在于：所述步骤(1)实现如下：

(11)采用自下而上注意力机制将抽取权重集中在图像的局部区域上，使用Faster R-CNN深度学习模型，首先在带有交并比 (Intersect over Union)阈值的贪婪非最大约束条件下选择出排序靠前的区域框，再经过均值化卷积后得到边界框的提取特征，从而对每张图像识别出本体和其他显著的区域, 对于每一个图像区域i，x_i表示原始的均值化卷积特征，将x_i通过线性映射到一个D维向量，得到图像区域特征v_i：

v_i＝W_xx_i+b_i，i＝1，2，...，n

(12)在Faster R-CNN模型上综合使用通道和空间两种自注意力机制以进一步增强特征表示，通道自注意力机制用于捕获任意两通道图像区域之间的通道依赖关系，位置自注意力机制用于捕获图像区域位置之间的空间依赖性，使目标图像V最终被表示为一个提取出的显著特征集V＝(v₁，v₂，...，v_n)∈R^n×D，每个图像区域带有实物标签；

(13)采用全连接模型对显著特征集V中图像区域标签进行预测，从语义场角度分析和判别图像区域属于本体、属性、关系的类别，得到图像区域类别特征。

3.根据权利要求1所述的基于分层的图与文语义一致性智能评估方法，其特征在于：所述步骤(4)中，通过计算占比、余弦距离，对图像和文本中的本体、属性、关系进行语义一致性计算，在此基础上计算两种模态的全局一致性，具体实现如下：

假设经过步骤(3)后，图像语义空间中得到n_o个本体、n_p个属性、n_r个关系类别，文本语义空间中得到m_o个本体、m_p个属性、m_r个关系类别，以下计算图像与其标题在本体、属性、关系和全局四个层次上的一致性；

本体一致性计算：图像与其标题的本体一致度表示为文本中本体与图像中本体相同或相似数量占文本本体总数量的比例：

其中，

为元素点乘运算符；

其中，object指与relation对齐的关系作用主体，w₂为相应的对齐注意力权重，object′指与relation对齐的关系作用受体，w₃为相应的对齐注意力权重，本体2缺失时object′对应的元素值赋为1；

con_g＝con_p·con_r

其中property、object、relation、object′都是对齐关系；

最终的一致性加权结果为：

con_V，T＝con_o·w_o+con_p·w_p+con_r·w_r+con_g·w_g

其中，权重关系满足w_o+w_p+w_r+w_g＝1.0，con_V，T∈[0.0，1.0]值越大表示图像标题与其标题的语义一致性越高。