CN113221882A

CN113221882A - 一种面向课程领域的图像文本聚合方法及系统

Info

Publication number: CN113221882A
Application number: CN202110512070.5A
Authority: CN
Inventors: 张玲玲; 吴文俊; 杨宽; 刘均; 郑庆华; 魏笔凡; 胡欣; 王绍伟; 王佳欣
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2021-05-11
Filing date: 2021-05-11
Publication date: 2021-08-06
Anticipated expiration: 2041-05-11
Also published as: CN113221882B

Abstract

本发明公开了一种面向课程领域的图像文本聚合方法及系统，将对象特征及邻接矩阵作为输入构建图像对应的对象关系图，利用图卷积神经网络更新关系图中节点的特征；将所有语块特征向量的集合作为整个文本描述的特征表示；以对象特征集合和步语块特征集合作为输入，构建图文对之间的局部相似度矩阵；计算整个课程领域图像和文本描述之间的全局相似度；通过梯度下降法训练图文匹配模型的参数，通过已学习到的参数得出全局相似度最高的一段文本描述作为和该张图像相匹配的描述文本，实现图像文本聚合。本发明能够有效提取课程领域图像和文本描述的特征，从而将课程领域示意图和文本知识碎片聚合，进而自动化构建跨模态的知识碎片。

Description

一种面向课程领域的图像文本聚合方法及系统

技术领域

本发明属于计算机技术领域，具体涉及一种面向课程领域的图像文本聚合方法及系统。

背景技术

近年随着互联网技术的迅猛发展，各种与知识相关的网站平台不断涌现，通过互联网获取知识的用户人群也在飞速增加，从而促进了网络中各种类型的知识资源爆炸性增长。各种蕴含知识概念的课程领域图像和文本知识由不同的平台组织创建，它们散乱分布在各种网站中。这些多模态的知识之间的互补性有助于实现对复杂事物、知识、概念的高效表达。

同时，多模态的知识符合人脑的多通道信息加工模式，能够有效地提升学习者的认知效率。由于课程领域图像和自然图像存在巨大差异，传统自然图像文本聚合方法不能深入挖掘出课程领域图像中包含的信息，因此难以有效地进行课程领域图像和文本描述之间的自动化匹配。

发明内容

本发明所要解决的技术问题在于针对上述现有技术中的不足，提供一种面向课程领域的图像文本聚合方法及系统，能够有效提取课程领域图像和文本描述的特征，从而将课程领域示意图和文本知识碎片聚合，进而自动化构建跨模态的知识碎片。

本发明采用以下技术方案：

一种面向课程领域的图像文本聚合方法，包括以下步骤：

S1、利用预训练的对象检测网络Faster R-CNN检测课程领域图像x中存在的对象，获得n个对象在图像中的位置以及对象特征{o₁，o₂，...，o_n}；设计关系判别器网络判断对象间的关系值，构建与对象间关系对应的邻接矩阵R，将计算得到的对象特征{o₁，o₂，...，o_n}及邻接矩阵R作为输入构建图像对应的对象关系图，利用图卷积神经网络更新关系图中节点的特征V＝{v₁，v₂，...，v_n}；

S2、识别文本描述t中存在的语块并表示成注意力矩阵W；提取文本描述中r个单词的特征e_i，i＝1，…，r；根据注意力矩阵W以及r个单词的特征计算每个语块的特征向量，将所有语块特征向量的集合P＝{p₁，p₂，...，p_m}作为整个文本描述的特征表示；

S3、以步骤S1计算得到的对象特征集合V＝{v₁，v₂，...，v_n}和步骤S2计算得到的语块特征集合P＝{p₁，p₂，...，p_m}作为输入，构建图文对之间的局部相似度矩阵[s_ij]_n×m；以图文对之间的局部相似度矩阵[s_ij]_n×m为输入，基于注意力机制的方法计算整个课程领域图像和文本描述之间的全局相似度s(x，t)和s(x′，t′)；定义双向排序损失函数L，通过梯度下降法训练图文匹配模型的参数，训练完成后，图文匹配模型通过已学习到的参数得出全局相似度最高的一段文本描述作为和对应图像相匹配的描述文本，或得出全局相似度最高的一张图像作为和对应段文本描述相匹配的图像，实现图像文本聚合。

具体的，步骤S1中，构建与对象间关系对应的邻接矩阵R具体为：

将对象检测阶段计算得到的所有对象位置以及整张课程领域图像的特征图作为输入，提取出两种类型的对象间特征：相对空间特征和联合视觉特征；将两种类型的对象间特征拼接成向量t_so||u_so∈R⁵⁰⁰⁰作为输入，通过关系判别网络输出对象间的关系值；通过关系检测网络对课程领域图像中的对象进行关系检测就可以得到所有对象间的关系矩阵R＝{r_so}^n×n，n表示课程领域图像中检测到的对象数量。

进一步的，相对空间特征定义为4维的向量t_so＝(t_x，t_y，t_w，t_h)计算如下：

联合视觉特征(x_u，y_u，w_u，h_u)计算如下：

x_u＝min(x_s，x_o)，y_u＝min(y_s，y_o)

w_u＝max(x_s+ws，x_o+w_o)-x_u

h_u＝max(y_s+h_s，y_o+h_o)-y_u

其中，(x_u，y_u)表示联合区域的右上角坐标，w_u和h_u分别是联合区域的宽和高。

具体的，步骤S1中，以对象检测阶段计算得到一张课程领域图像中n个对象的特征表示{o₁，o₂，...，o_n}，以及关系检测阶段得到所有对象间的关系矩阵R＝{r_so}^n×n作为输入，更新关系图中的节点最终得到更新后的对象特征集合V＝{v₁，v₂，…，v_n}如下：

其中，

D_ii＝∑_jR_ij，

具体的，步骤S2中，使用自然语言处理工具包NLTK解析出文本中名词短语、动词短语、介词短语三种类型的语块，根据语块和单词在文本中的位置信息得到语块对单词的m×r维注意力矩阵W，注意力矩阵W中的每一个W_ij计算如下：

其中，l_i为第i个语块在文本描述中的起始位置，r_i为第i个语块在文本描述中的终止位置，j为单词在文本中的位置。

具体的，步骤S2中，利用双向循环神经网络提取文本描述中r个单词的特征e_i如下：

其中，

为通过前向GRU网络得到的单词特征向量，

为通过后向GRU网络得到的单词特征向量，i＝1，…，r。

具体的，步骤S3中，图文对之间的局部相似度矩阵[s_ij]_n×m；

其中，v_i为图像中更新后的对象特征，p_j为文本描述中语块的特征，i∈[1，n]，j∈[1，m]。

具体的，步骤S3中，课程领域图像到文本描述的全局相似度s(x，t)和文本描述到课程领域图像的全局相似度s(x′，t′)具体为：

其中，v_i和p_j分别为图像中更新后的对象特征和文本描述的语块特征，

和

分别为根据不同关注度由文本语块特征计算得到的受关注文本特征以及由更新后的对象特征计算得到的受关注对象特征，R和R′分别为计算对象特征与受关注文本特征和语块特征与受关注对象特征的相似度函数，n和m分别为图像中对象的数量和文本的语块数量。

具体的，步骤S3中，双向排序损失函数L如下：

其中，对于匹配的课程领域图像x_i和文本t_j，

表示的是与课程领域图像x_i最不匹配的文本；对于匹配的文本t_i′和课程领域图像x_j′，

表示的是与文本t_i′最不匹配的课程领域图像。

本发明的另一技术方案是，一种面向课程领域的图像文本聚合系统，包括：

更新模块，利用预训练的对象检测网络FasterR-CNN检测课程领域图像x中存在的对象，获得n个对象在图像中的位置以及对象特征{o₁，o₂，...，o_n}；设计关系判别器网络判断对象间的关系值，构建与对象间关系对应的邻接矩阵R，将计算得到的对象特征{o₁，o₂，...，o_n}及邻接矩阵R作为输入构建图像对应的对象关系图，利用图卷积神经网络更新关系图中节点的特征V＝{v₁，v₂，...，v_n}；

特征模块，识别文本描述t中存在的语块并表示成注意力矩阵W；提取文本描述中r个单词的特征e_i，i＝1，…，r；根据注意力矩阵W以及r个单词的特征计算每个语块的特征向量，将所有语块特征向量的集合P＝{p₁，p₂，...，p_m}作为整个文本描述的特征表示；

聚合模块，以更新模块计算得到的对象特征集合V＝{v₁，v₂，...，v_n}和特征模块计算得到的语块特征集合P＝{p₁，p₂，...，p_m}作为输入，构建图文对之间的局部相似度矩阵[s_ij]_n×m；以图文对之间的局部相似度矩阵[s_ij]_n×m为输入，基于注意力机制的方法计算整个课程领域图像和文本描述之间的全局相似度s(x，t)和s(x′，t′)；定义双向排序损失函数L，通过梯度下降法训练图文匹配模型的参数，训练完成后，图文匹配模型通过已学习到的参数得出全局相似度最高的一段文本描述作为和对应图像相匹配的描述文本，或得出全局相似度最高的一张图像作为和对应段文本描述相匹配的图像，实现图像文本聚合。

与现有技术相比，本发明至少具有以下有益效果：

本发明一种面向课程领域的图像文本聚合方法，通过分析发现课程领域图像中大量存在的白色背景导致图像中有效信息所占的像素点很少，忽略课程领域图像中的背景，充分利用图中的前景信息，检测课程领域图像中包含的对象以及对象之间存在的关系，从而更有效地挖掘出课程领域图像所包含的概念信息；同时，结合人类对语言的认知模式，将文本描述中的短语作为文本特征过程中的基本单元，通过注意力机制关注图像和文本中的重点区域，大大提高了图文匹配的准确率。

进一步的，传统的针对自然图像的视觉关系检测方法检测图像中已定位对象的各种交互作用，一般采用对关系三元组中的谓词进行分类。而针对课程领域图像的研究，不需要对图像中对象之间各种类型的关系进行分类，只需要判断不同对象间是否存在关系。构建与对象间关系对应的邻接矩阵R，能够避免获取包含各种类型关系的数据集的困难，同时也能学习到图像中对象关系结构的语义信息，便于利用这种关系结构通过图卷积网络更新对象的视觉特征。在邻接矩阵R中，每一个值表示两个对象间的关系值，图像中有关系的对象的关系值应比没有关系的对象的关系值要大，通过关系值的大小影响对象视觉特征的更新。

进一步的，相对空间特征是对视觉外观的补充，对象在图像中的相对位置对于判断课程领域图像中对象间的关系至关重要，有关系的对象空间位置一般相邻，无关系的对象则相对位置较远。同时，通过一对对象在图像中的视觉外观能够轻松认识到对象之间的关系，例如“猫吃老鼠”，由此可以看出联合视觉特征在视觉关系判别中同样担当着重要角色。

进一步的，更新前的对象视觉特征通过Faster-RCNN提取，特征只含有对象本身的视觉信息。由于课程领域图像中对象间的关系结构相当重要，是和文本描述相关联的重要语义信息，利用关系图的方式去更新节点的特征能够融合对象及与其有关系的对象的视觉信息，更新后的对象视觉特征便能够体现对象间关系结构的语义信息。

进一步的，由于通过解析得到的语块对文本描述中的每个单词分配了不同的注意力，例如文本描述“The butterfly is changed from chrysalis.”中的语块“thebutterfly”对单词“the”和“butterfly”的关注度高，而对其他不相关的单词关注度就低。将根据注意力矩阵W和单词特征计算得到的语块特征作为文本描述特征提取的基本单元，能够减小那些在文本描述中不具有重要意义的单词对特征提取过程的影响。

进一步的，语块计算需要利用每一个单词的特征向量。相同的单词在不同文本描述中语义信息不同，单词特征也应该有所区分。利用双向GRU生成的单词特征融合了文本描述的整体语义，能够加强语块特征的语义信息。

进一步的，在实际应用中，课程领域图像中包含非常丰富的信息，而对应的文本描述往往只是从某一个特定角度描述课程领域图像中某一个部分的内容。图像中出现而文本中未提及或者文本中出现而图像未涉及的不重要信息，会使得图文匹配的结果受到干扰。利用图像中对象的特征和文本描述的语块特征作为输入计算各个对象和各个语块之间的局部相似度，将语义相近的对象和语块赋予更高的注意力，依靠局部相似度矩阵[s_ij]_n×m能够更合理有效地计算课程领域图像和文本描述之间的全局相似度。

进一步的，全局相似度s(x,t)和s(x′,t′)的计算由图像中更新后的对象特征和文本描述语块特征与根据不同注意力生成的受关注特征计算相似度得到。考虑图像中不同对象对相应文本描述的不同语块注意力不同，通过注意力机制能够在匹配时更加关注语义相近的部分而忽略非重点的部分，使得关注相同内容更多的图像和文本描述其全局特征相似度更高。

进一步的，根据实际情况分析，给定课程领域图像，检索时与图像匹配的文本描述应排在其他不匹配的文本描述前面；给定文本描述，检索时与之匹配的课程领域图像应排在其他不匹配图像的前面。两个相反方向的约束能够一定程度拉开匹配与不匹配的课程领域图像和文本描述之间相似度的距离。

综上所述，本发明利用图卷积神经网络更新视觉单元关系图中视觉单元的特征表示，能够最终将课程领域图像的特征表示成含有关系语义的视觉单元特征的集合；文本描述的特征可以表示成语块特征的集合；能够共同促进匹配图像文本对全局相似度的提升。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为本发明实例中所述方法的模型结构图；

图2为本发明实例中所述对象关系检测网络的结构；

图3为本发明实例中所述的关系判别器的具体网络层次；

图4为本发明实例中所述的图文相似度计算过程中的注意力分布情况。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

在附图中示出了根据本发明公开实施例的各种结构示意图。这些图并非是按比例绘制的，其中为了清楚表达的目的，放大了某些细节，并且可能省略了某些细节。图中所示出的各种区域、层的形状及它们之间的相对大小、位置关系仅是示例性的，实际中可能由于制造公差或技术限制而有所偏差，并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域/层。

本发明一种面向课程领域的图像文本聚合方法，包括以下步骤：

S1、图像特征提取；

S101、对象检测

利用预训练的对象检测网络Faster R-CNN检测课程领域图像中存在的对象，获得n个对象在图像中的位置以及对象的特征表示{o₁,o₂,…,o_n}；

请参阅图1，本发明以尺寸为m×n×3的课程领域图像，使用预训练的对象检测网络Faster R-CNN计算得到图像对应的特征图，其尺寸为m/32×n/32×512；同时检测图像中n个对象的位置，用矩形框(x_i，y_i，w_i，h_i)表示出对象i在图中的位置，其中，(x_i，y_i)表示对象i对应的矩形框左上顶点的位置坐标，(w_i，h_i)表示对象i对应的矩形框的宽和高。本发明将对象i的位置(x_i，y_i，w_i，h_i)以及整张图像的特征图作为ROI Pooling池化层的输入，最终输出对象i的特征向量o_i∈R^k，其中k表示对象特征的维度。因此，以整张课程领域图像为输入，最终输出图像中所有对象特征{o₁，o₂，...，o_n}。

特别的，对于一张尺寸不定的课程领域图像，提取得到每个对象的特征向量o∈R⁷ ^×7×512，再经过神经元数为4096的全连接层对对象特征进行降维成4096维。

S102、关系检测

设计关系判别器网络判断对象间的关系值，构建与对象间关系对应的邻接矩阵R；

请参阅图2，分为两个步骤：对象间特征提取以及对象间关系判别。首先，本发明将对象检测阶段计算得到的所有对象位置以及整张课程领域图像的特征图作为输入，提取出两种类型的对象间特征：相对空间特征和联合视觉特征。

其中，相对空间特征表示两个对象在课程领域图像中的相对空间位置关系，定义为4维的向量t_so＝(t_x，t_y，t_w，t_h)。

联合视觉特征表示的是最小能够包含两个对象的联合空间区域(x_u，y_u，w_u，h_u)对应的视觉特征。联合空间区域(x_u，y_u，w_u，h_u)计算如下：

x_u＝min(x_s，x_o)，y_u＝min(y_s，y_o)，

w_u＝max(x_s+ws，x_o+w_o)-x_u，h_u＝max(y_s+h_s，y_o+h_o)-y_u，#

其中，(x_u，y_u)表示联合区域的右上角坐标，w_u和h_u分别是联合区域的宽和高。本发明以课程领域图像的特征图以及联合区域(x_u，y_u，w_u，h_u)为输入，利用ROI Pooling池化层提取联合视觉特征向量u_so∈R⁴⁰⁹⁶。

请参阅图3，将两种类型的对象间特征拼接成向量t_so||u_so∈R⁵⁰⁰⁰作为输入，通过关系判别网络输出对象间的关系值。其中，关系判别网络包含四层全连接层，其具体的输入特征尺寸大小分别为4100、2048、1024维以及1维。每两个全连接层中间都有线性整流激活函数ReLu，全连接层之后通过sigmoid函数将对象之间的关系值映射到0，1之间。

因此，通过关系检测网络对课程领域图像中的对象进行关系检测就可以得到所有对象间的关系矩阵R＝{r_so}^n×n，n表示课程领域图像中检测到的对象数量。

S103、对象特征更新

将步骤S101和步骤S102计算得到的对象特征及对象间关系对应的邻接矩阵R作为输入构建图像对应的对象关系图，利用图卷积神经网络更新关系图中节点的特征{v₁，v₂，...，v_n}。

以对象检测阶段计算得到一张课程领域图像中n个对象的特征表示{o₁，o₂，...，o_n}，以及关系检测阶段得到所有对象间的关系矩阵R＝{r_so}^n×n作为输入。本发明设计两层图卷积网络形式化如公式1所示，更新关系图中的节点最终得到更新后的对象特征集合V＝{v₁，v₂，...，v_n}。

其中，

D_ii＝∑_jR_ij，

S2、文本特征提取；

S201、语块解析

利用自然语言处理工具包NLTK中的语块解析方法识别出文本描述中存在的语块，并表示成注意力矩阵W；

使用自然语言处理工具包NLTK解析出文本中名词短语、动词短语、介词短语三种类型的语块，例如文本“The butterfly is changed from chrysalis.”通过语块解析可以得到语块“the butterfly”、“changed from chrysalis”、”from chrysalis“以及“chrysalis”。

因此，在给定文本的条件下，语块解析能够输出文本中包含的m个语块{c₁，，…，c_j，...，c_m}。m表示文本中包含的语块数量，c_j＝[l_j，r_j]，j＝1，2，…，m，l_j表示第j个语块在文本描述中的起始位置，r_j表示第j个语块在文本描述中的终止位置。

本发明根据语块和单词在文本中的位置信息得到语块对单词的m×r维注意力矩阵W，注意力矩阵W中的每一个W_ij计算如下：

S202、单词特征提取

利用双向循环神经网络提取文本描述中r个单词的特征表示e_i，i＝1，…，r；

对于文本中的第i个单词，本发明通过单词在词汇表中的索引将其表示成一个onehot向量w_i，并通过嵌入矩阵W_e将单词嵌入到300维向量中，即x_i＝W_ew_i。然后使用双向GRU网络汇总文本描述中两个方向的信息，根据文本描述的上下文信息提取词单元的特征表示。双向GRU网络包含一个前向GRU网络和后向GRU网络，从两个方向提取第i个单词的特征向量表示如下：

其中，i＝1，…，r。

S203、语块特征提取

根据文本描述中语块所对应的注意力矩阵W以及文本描述中词单元的特征表示e_i，i＝1，…，r计算每个语块的特征向量，将所有语块特征向量的集合{p₁，…，p_m}作为整个文本描述的特征表示。

在语块特征提取阶段，以语块位置信息对应的注意力矩阵W和r个单词的特征{e₁，e₂，…，e_r}作为输入，文本中存在的m个语块特征表示如下：

其中，w_jk是注意力矩阵W中第j行第k列的值，j＝1，2，…，m。

S3、图像文本相似度计算。

S301、以图像特征提取阶段计算得到课程领域图像x对应的对象特征集合V＝{v₁，v₂，...，v_n}和文本特征提取阶段计算得到文本描述t对应的语块特征集合P＝{p₁，p₂，...，p_m}作为输入，计算图文对中对象与语块之间的局部相似度，构建图文对之间的局部相似度矩阵[s_ij]_n×m；

其中，i∈[1，n]，j∈[1，m]。

请参阅图4，本发明在给定了课程领域图像的第i个对象的条件下，为文本中第j个语块分配关注度a_ij以及第j个语块对的第i个视觉单元的关注度a_ij如下：

对于课程领域图像中的第i个对象，根据关注度a_ij过滤掉文本描述t中的不相关信息，从而将受关注的文本特征

表示如式6所示，该受关注特征向量是对语块特征表示p的加权求和，权重是上述所计算得到的关注度a_ij。

对于文本描述中的第j个语块，由于局部相似度越低对应的关注度也就越低，可以通过降低关注度来减少不相关的视觉单元在图文相似度计算中带来的影响，从而将受关注的对象特征

表示如下所示，该受关注特征向量是对象特征表示v的加权求和，权重是上述所计算得到的关注度a′_ij。

课程领域图像中的第i个对象和整个文本之间的相似度通过余弦相似度以及第j个语块和整个图像的相似度计算如下：

S302、以局部相似度矩阵为输入，基于注意力机制的方法计算课程领域图像到文本描述的全局相似度s(x，t)和文本描述到课程领域图像的全局相似度s(x′，t′)；具体为：

和

S303、定义双向排序损失函数L，通过梯度下降法训练图文匹配模型的参数，训练完毕的模型参数装载到模型之后，将一张课程领域图像和需要检索的一批文本描述(即这些文本描述中有描述该张图像的一段文本)输入到模型，模型能够通过已学习到的参数得出全局相似度最高的一段文本描述作为和对应图像相匹配的描述文本；或者将一段文本描述和需要检索的一批课程领域图像(即这些图像中有对应段文本所描述的一张图像)输入到模型，模型能够通过已学习到的参数得出全局相似度最高的一张图像作为和对应段文本描述相匹配的图像。

定义双向排序损失函数L如下：

其中，对于匹配的课程领域图像x_i和文本t_j，

表示的是与文本t_i′最不匹配的课程领域图像。

本发明批量选择训练样本训练模型参数，样本批处理的大小为64，并采用初始学习率为0.002的Adam优化算法更新图像文本匹配模型中的参数，并且每15个epoch将学习率更新为之前的1/10。

本发明再一个实施例中，提供一种面向课程领域的图像文本聚合系统，该系统能够用于实现上述面向课程领域的图像文本聚合方法，具体的，该面向课程领域的图像文本聚合系统包括更新模块、特征模块以及聚合模块。

其中，更新模块，利用预训练的对象检测网络Faster R-CNN检测课程领域图像x中存在的对象，获得n个对象在图像中的位置以及对象特征{o₁，o₂，...，o_n}；设计关系判别器网络判断对象间的关系值，构建与对象间关系对应的邻接矩阵R，将计算得到的对象特征{o₁，o₂，...，o_n}及邻接矩阵R作为输入构建图像对应的对象关系图，利用图卷积神经网络更新关系图中节点的特征V＝{v₁，v₂，...，v_n}；

聚合模块，以更新模块计算得到的对象特征集合V＝{v₁，v₂，...，v_n}和特征模块计算得到的语块特征集合P＝{p₁，p₂，...，p_m}作为输入，构建图文对之间的局部相似度矩阵[s_ij]_n×m；以图文对之间的局部相似度矩阵[s_ij]_n×m为输入，基于注意力机制的方法计算整个课程领域图像和文本描述之间的全局相似度s(x，t)和s(x′，t′)；定义双向排序损失函数L，通过梯度下降法训练图文匹配模型的参数，训练完成后，图文匹配模型通过已学习到的参数得出全局相似度最高的一段文本描述作为和对应张图像相匹配的描述文本，或得出全局相似度最高的一张图像作为和对应段文本描述相匹配的图像，实现图像文本聚合。

本发明再一个实施例中，提供了一种终端设备，该终端设备包括处理器以及存储器，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器用于执行所述计算机存储介质存储的程序指令。处理器可能是中央处理单元(Central ProcessingUnit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor、DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其是终端的计算核心以及控制核心，其适于实现一条或一条以上指令，具体适于加载并执行一条或一条以上指令从而实现相应方法流程或相应功能；本发明实施例所述的处理器可以用于面向课程领域的图像文本聚合的操作，包括：

利用预训练的对象检测网络Faster R-CNN检测课程领域图像x中存在的对象，获得n个对象在图像中的位置以及对象特征{o₁，o₂，...，o_n}；设计关系判别器网络判断对象间的关系值，构建与对象间关系对应的邻接矩阵R，将计算得到的对象特征{o₁，o₂，...，o_n}及邻接矩阵R作为输入构建图像对应的对象关系图，利用图卷积神经网络更新关系图中节点的特征V＝{v₁，v₂，...，v_n}；识别文本描述t中存在的语块并表示成注意力矩阵W；提取文本描述中r个单词的特征e_i，i＝1，…，r；根据注意力矩阵W以及r个单词的特征计算每个语块的特征向量，将所有语块特征向量的集合P＝{p₁，p₂，...，p_m}作为整个文本描述的特征表示；以对象特征集合V＝{v₁，v₂，...，v_n}和语块特征集合P＝{p₁，p₂，...，p_m}作为输入，构建图文对之间的局部相似度矩阵[s_ij]_n×m；以图文对之间的局部相似度矩阵[s_ij]_n×m为输入，基于注意力机制的方法计算整个课程领域图像和文本描述之间的全局相似度s(x，t)和s(x′，t′)；定义双向排序损失函数L，通过梯度下降法训练图文匹配模型的参数，训练完成后，图文匹配模型通过已学习到的参数得出全局相似度最高的一段文本描述作为和对应图像相匹配的描述文本，或得出全局相似度最高的一张图像作为和对应段文本描述相匹配的图像，实现图像文本聚合。

本发明再一个实施例中，本发明还提供了一种存储介质，具体为计算机可读存储介质(Memory)，所述计算机可读存储介质是终端设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机可读存储介质既可以包括终端设备中的内置存储介质，当然也可以包括终端设备所支持的扩展存储介质。计算机可读存储介质提供存储空间，该存储空间存储了终端的操作系统。并且，在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令，这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是，此处的计算机可读存储介质可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。

可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令，以实现上述实施例中有关面向课程领域的图像文本聚合方法的相应步骤；计算机可读存储介质中的一条或一条以上指令由处理器加载并执行如下步骤：

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中的描述和所示的本发明实施例的组件可以通过各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下图展示了本文提出的面向课程领域图像文本匹配方法和5个对比方法在检索指标R@K(K＝10，50，100)上的性能比较。

其中，在每种检索指标下最优的结果用红色加粗字体显示。i2t表示从图像到文本计算图文相似度的方法，反之t2i表示从文本到图像计算图文相似度的方法。LSE表示在计算图文相似度时使用LogSumExp池化方法，AVG表示在计算图文相似度时使用平均池化方法。对于所有对比方法，本实验都先使用自然图像文本匹配数据集进行预训练，接着使用本文构建的课程领域图像文本匹配数据集中的样本量为1000的训练集进行再次训练，最后使用样本量为400的测试集对训练好的图文匹配模型和对比方法进行测试。评价指标R@K指的是两种模态的数据A和B进行跨模态检索时，检索得到的正确结果位于在前K个中的概率。

综上所述，本发明一种面向课程领域的图像文本聚合方法及系统，具有以下特点：

1、本发明提出的方法(i2t,LSE)在跨模态检索性能上整体表现完全优于所对比的先进图文匹配方法。在图像检索文本的过程中，本发明的方法在评价指标R@10上比SCAN模型好了7.25％，同时比VSE++模型好了9.25％；在文本检索图像过程中，本发明方法(i2t,AVG)在评价指标R@10上比SCAN模型好了13.15％，同时比DeepFE模型好了15.75％。这是由于相比于已有方法，本发明提出的图文匹配方法不仅更细粒度地提取了图像和文本描述的特征，还在模型中考虑了课程领域图像中对象之间的关系；同时本发明方法不再将单词视为独立的处理单元，而是通过提取文本描述中的语块，综合考虑了文本描述中单词之间的关系。本发明方法将这些更细粒度且更重要的信息提取出来作为图文匹配模型的重要特征，使得本发明提出的面向课程领域的图像文本匹配方法相比于其他图文匹配方法取得更加优秀的结果。

2、在课程领域图像的处理过程中，提取细粒度的图像特征有利于提高图像文本匹配模型的跨模态检索性能。本发明提出的面向课程领域的图像文本匹配方法和DeepFE、SCAN方法相同，都细粒度地提取了图像中对象的特征，而DCCA、mCNN和VSE++三种方法是粗粒度地提取了整张图像卷积特征。从表中可以看出不论是本方法还是DeepFE和SCAN方法在跨模态检索性能上都比其他三种粗粒度方法更好。详细地说明，在图像检索文本过程中，DeepFE在评价指标R@10上比DCCA方法好了3.7％，比mCNN好了3.9％，比VSE++好了2.1％；本发明方法(i2t,LSE)在评价指标R@10上相比DCCA好10.85％，比mCNN好了11.05％。在文本检索图像过程中，SCAN方法和本发明方法(i2t,AVG)在评价指标R@50上分别比粗粒度方法中最好的结果还要好10.2％和28.8％。由以上的分析可以总结得出本发明方法使用细粒度的图像特征作为面向课程领域的图文匹配模型的输入能够有效提升最终模型的性能。

3、在文本描述的处理过程中，把语块而非单词作为提取文本描述特征的基本单位有利于提升模型的跨模态检索性能。从表中可以看出本发明提出的方法在整体指标上都比提取词特征表示文本的SCAN方法更好，尤其是方法(i2t,LSE)和方法(t2i,LSE)两种不同的相似度度量方法在R@100处得到了75.0％的文本检索图像性能，而SCAN方法的结果只有60.8％。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上内容仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明权利要求书的保护范围之内。

Claims

1.一种面向课程领域的图像文本聚合方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，步骤S1中，构建与对象间关系对应的邻接矩阵R具体为：

3.根据权利要求2所述的方法，其特征在于，相对空间特征定义为4维的向量t_so＝(t_x，t_y，t_w，t_h)计算如下：

联合视觉特征(x_u，y_u，w_u，h_u)计算如下：

x_u＝min(x_s，x_o)，y_u＝min(y_s，y_o)

w_u＝max(x_s+w_s，x_o+w_o)-x_u

h_u＝max(y_s+h_s，y_o+h_o)-y_u

4.根据权利要求1所述的方法，其特征在于，步骤S1中，以对象检测阶段计算得到一张课程领域图像中n个对象的特征表示{o₁，o₂，...，o_n}，以及关系检测阶段得到所有对象间的关系矩阵R＝{r_so}^n×n作为输入，更新关系图中的节点最终得到更新后的对象特征集合V＝{v₁，v₂，...，v_n}如下：

其中，

D_ii＝∑_jR_ij，

5.根据权利要求1所述的方法，其特征在于，步骤S2中，使用自然语言处理工具包NLTK解析出文本中名词短语、动词短语、介词短语三种类型的语块，根据语块和单词在文本中的位置信息得到语块对单词的m×r维注意力矩阵W，注意力矩阵W中的每一个W_ij计算如下：

6.根据权利要求1所述的方法，其特征在于，步骤S2中，利用双向循环神经网络提取文本描述中r个单词的特征e_i如下：

其中，

为通过前向GRU网络得到的单词特征向量，

为通过后向GRU网络得到的单词特征向量，i＝1，…，r。

7.根据权利要求1所述的方法，其特征在于，步骤S3中，图文对之间的局部相似度矩阵[s_ij]_n×m；

8.根据权利要求1所述的方法，其特征在于，步骤S3中，课程领域图像到文本描述的全局相似度s(x，t)和文本描述到课程领域图像的全局相似度s(x′，t′)具体为：

和

9.根据权利要求1所述的方法，其特征在于，步骤S3中，双向排序损失函数L如下：

其中，对于匹配的课程领域图像x_i和文本t_j，

表示的是与文本t_i′最不匹配的课程领域图像。

10.一种面向课程领域的图像文本聚合系统，其特征在于，包括：

更新模块，利用预训练的对象检测网络Faster R-CNN检测课程领域图像x中存在的对象，获得n个对象在图像中的位置以及对象特征{o₁，o₂，...，o_n}；设计关系判别器网络判断对象间的关系值，构建与对象间关系对应的邻接矩阵R，将计算得到的对象特征{o₁，o₂，...，o_n}及邻接矩阵R作为输入构建图像对应的对象关系图，利用图卷积神经网络更新关系图中节点的特征V＝{v₁，v₂，...，v_n}；