CN110781319A

CN110781319A - 跨媒体大数据的公共语义表示、搜索方法和装置

Info

Publication number: CN110781319A
Application number: CN201910877850.2A
Authority: CN
Inventors: 梁美玉; 杜军平; 薛哲; 寇菲菲; 杨从先; 王旭
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2019-09-17
Filing date: 2019-09-17
Publication date: 2020-02-11
Anticipated expiration: 2039-09-17
Also published as: CN110781319B

Abstract

本发明公开了一种跨媒体大数据的公共语义表示、搜索方法和装置，所述方法包括：提取大数据中图像、文本的全局语义特征和局部显著性深度语义特征；确定所述图像和文本的全局语义特征相似性，以及所述图像和文本的局部显著性语义特征相似性；联合所述图像和文本的全局和局部显著性语义特征相似性进行跨媒体语义关联学习，获得跨媒体大数据的公共语义表示。应用本发明能够增强跨媒体关联学习能力，发现潜在的细粒度跨媒体语义关联，从而提高跨媒体大数据的搜索精准度。

Description

跨媒体大数据的公共语义表示、搜索方法和装置

技术领域

本发明涉及跨媒体大数据领域，特别是指一种跨媒体大数据的公共语义表示、搜索方法和装置。

背景技术

随着大规模信息网络技术在各领域，比如教育领域的应用，逐步形成和积累了前所未有的大数据资源，包括文本、图像和视频等跨媒体数据等，这些庞大的数据中蕴藏着丰富而有价值的信息。然而面对海量异构多样化的跨媒体大数据，以及数据分布于各类社交网络等多源互联网平台的情况，如果用户希望能在海量数据中搜索到所需的有效信息，传统的信息搜索技术已经难以满足用户日益增长的个性化和精确化的信息获取需求。因此需要提升资源搜索的精准性，充分利用大数据驱动的人工智能技术，深入开展跨媒体大数据智能精准搜索研究具有重要的理论意义和广泛的应用价值。

在智能化精准搜索过程中，不再局限于简单的关键词匹配，可根据用户情境与意图进行语义推理演算和匹配，建立知识间的语义关联，使搜索从以网页搜索为粒度转变为以知识为粒度，从而获取更加智慧综合的推荐和搜索结果。另外，各领域产生的跨媒体大数据以及关联情境信息，在语义上呈现出较强的语义相关性。充分利用这种语义相关性，可从不同维度挖掘用户的各种网络行为特征，并且有助于建立全面综合的跨媒体大数据知识关联，进而对跨媒体大数据的精准搜索起到很好的促进作用。

由于文本、图像等不同模态的数据间特征是异构的，存在较大的语义鸿沟，因此在跨媒体资源的搜索过程中，无法直接进行跨媒体资源间的匹配和搜索。由于不同媒体的数据往往具有较高的语义相关性，可通过跨媒体语义关联学习，将不同媒体的异构特征空间映射至统一的语义特征空间中，建立不同媒体数据的公共语义空间，并在此基础上通过相似性匹配实现跨媒体搜索。

近年来，跨媒体语义关联学习、跨媒体表示学习已成为一大研究热点，受到了国内外学术界和工业界的广泛关注。目前的研究方法主要有统计相关分析法、跨媒体图正则化法、跨媒体主题模型方法、基于深度神经网络的方法、跨媒体哈希方法等。其中基于深度学习模型的深度神经网络和跨媒体哈希方法是目前的热门方法。然而，本发明的发明人发现现有的跨媒体语义关联学习、搜索方法，跨媒体关联学习能力较弱，不能发现潜在的细粒度跨媒体语义关联，导致在面向在线社交网络中跨媒体大数据进行搜索时精准度不高。

发明内容

本发明提出了一种跨媒体大数据的公共语义表示、搜索方法和装置，能够增强跨媒体关联学习能力，发现潜在的细粒度跨媒体语义关联，从而提高跨媒体大数据的搜索精准度。

基于上述目的，本发明提供一种跨媒体大数据的公共语义表示方法，包括：

提取大数据中图像、文本的全局语义特征和局部显著性深度语义特征；

确定所述图像和文本的全局语义特征相似性，以及所述图像和文本的局部显著性语义特征相似性；

联合所述图像和文本的全局和局部显著性语义特征相似性进行跨媒体语义关联学习，获得跨媒体大数据的公共语义表示。

其中，所述联合所述图像和文本的全局和局部显著性语义特征相似性进行跨媒体语义关联学习，获得跨媒体大数据的公共语义表示，具体包括：

联合所述图像和文本的全局和局部显著性语义特征相似性进行跨媒体语义关联学习时，最大化不同媒体数据之间的语义关联关系，并最小化媒体内哈希量化后的重构误差，获得跨媒体大数据的公共语义表示。

较佳地，在所述获得跨媒体大数据的公共语义表示之前，还包括：基于对抗学习进一步增强不同媒体的语义相关性；以及

所述联合所述图像和文本的全局和局部显著性语义特征相似性进行跨媒体语义关联学习时，最大化不同媒体数据之间的语义关联关系，并最小化媒体内哈希量化后的重构误差，基于对抗学习进一步增强不同媒体的语义相关性，获得跨媒体大数据的公共语义表示的具体方法为：

通过构建如下式一所示的目标损失函数来学习跨媒体关联映射，获得跨媒体大数据的公共语义表示：

min Loss＝L_cm+λL_hq+γL_adv (式一)

其中，L_cm表示自适应交叉熵损失函数，最大化不同媒体之间的关联关系；L_hq表示媒体内二进制哈希量化损失函数，最小化媒体内哈希量化后的重构误差；L_adv表示对抗损失函数，进一步增强不同媒体的语义相关性；λ和γ是设置的权重调节因子；

所述自适应交叉熵损失函数L_cm如式三所示：

其中，

表示跨媒体全局语义特征相似性；

表示跨媒体局部显著性语义特征相似性；θ是使得网络训练过程中反向传播的自适应激活函数的超参数；

和

分别表示第i个图像实例的全局语义特征和局部显著性深度语义特征；

和

分别表示第j个文本实例的全局语义特征和局部显著性深度语义特征；SIM_i,j表示图像和文本对之间的相似性；如果两者相似，则SIM_i,j＝1，否则SIM_i,j＝0；

所述媒体内二进制哈希量化损失函数L_hq，如式四所示：

其中，M为码书个数，C_m表示第m个码书，

表示第i个图像实例v的全局语义特征，

表示第j个文本实例t的全局语义特征，

为用来近似表示第i个图像或文本实例所指定第m个码书中的一个词，

为用来近似表示第j个图像或文本实例所指定第m个码书中的一个词，

N_t和N_v分别表示文本实例t和图像实例v的个数；

所述对抗损失函数L_adv如式五所示：

其中，N表示图像-文本对的个数。b_u表示第u个图像或文本实例的真实媒体标签。和分别表示第u个图像和文本实例的全局语义特征表示；

表示每条实例中图像产生的概率，表示每条实例中文本产生的概率。

较佳地，所述文本是与所述图像相关联的，以及在所述提取大数据中文本的全局语义特征和局部显著性深度语义特征之前，还包括：

通过如下方法扩展得到与所述图像相关联的文本：

根据网络上的大数据构建图模型G＝{I,W,E}，E＝{e_l}；其中，所述图模型中包括图像节点v_i，单词节点w_n，I＝{v_i}，W＝{w_n}；若单词w_n出现在某图像v_i的文本描述中，则产生一条边e_l；

在所述图模型上通过基于深度框架的随机游走策略来学习图像和文本单词之间的语义关联关系，得到与所述图像相关联的文本。

本发明还提供一种跨媒体大数据的搜索方法，包括：

对知识图谱中的图像和文本采用如上所述的跨媒体大数据的公共语义表示方法，获得跨媒体大数据的公共语义表示；

基于所述跨媒体大数据的公共语义表示，根据查询请求进行搜索。

其中，所述基于所述跨媒体大数据的公共语义表示，根据查询请求进行搜索，具体包括：

基于所述跨媒体大数据的公共语义表示，对所述查询请求进行语义查询扩展；

根据语义查询扩展结果，基于所述跨媒体大数据的公共语义表示进行搜索。

本发明还提供一种跨媒体大数据的公共语义表示装置，包括：

语义特征提取模块，用于提取大数据中图像、文本的全局语义特征和局部显著性深度语义特征；

跨媒体公共语义表示模块，用于确定所述图像和文本的全局语义特征相似性，以及所述图像和文本的局部显著性语义特征相似性；联合所述图像和文本的全局和局部显著性语义特征相似性进行跨媒体语义关联学习，获得跨媒体大数据的公共语义表示。

进一步，所述跨媒体大数据的公共语义表示装置还包括：

关联文本扩展模块，通过如下方法扩展得到图像关联的文本单词：根据网络上的大数据构建图模型G＝{I,W,E}，E＝{e_l}；其中，所述图模型中包括图像节点v_i，单词节点w_n，I＝{v_i}，W＝{w_n}；若单词w_n出现在某图像v_i的文本描述中，则产生一条边e_l；在所述图模型上通过基于深度框架的随机游走策略来学习图像和文本的单词之间的语义关联关系，得到与所述图像相关联的文本。

本发明还提供一种跨媒体大数据的搜索装置，包括：如上所述跨媒体大数据的公共语义表示装置，以及如下模块：

搜索模块，用于基于所述跨媒体大数据的公共语义表示装置得到的跨媒体大数据的公共语义表示，根据查询请求进行搜索。

本发明的技术方案中，基于提取的图像和文本的全局语义特征、局部显著性深度语义特征，确定所述图像和文本的全局语义特征相似性，以及所述图像和文本的局部显著性语义特征相似性；联合所述图像和文本的全局和局部显著性语义特征相似性进行跨媒体语义关联学习，获得跨媒体大数据的公共语义表示；可以在跨媒体公共语义空间学习过程中，不仅考虑全局特征空间，而且还综合考虑到局部的显著性注意力特征。而实际上，图像中的显著性目标和组件信息以及文本中显著性单词具有强烈的语义相关性，如图像中的显著性目标区域通常在文本词中有对应的描述，充分捕捉这种显著性的图像区域和文本词可有助于发现更多潜在的细粒度跨媒体语义关联，从而进一步增强跨媒体关联学习能力，获得更为精确的跨媒体大数据的公共语义表示。由于可以获得更为精确的跨媒体大数据的公共语义表示，因此，在基于更为精确的跨媒体大数据的公共语义表示的基础上，可以得到精准度更高的跨媒体大数据的搜索结果。

更优地，在提取图像和文本的全局语义特征、局部显著性深度语义特征之前，可以先对图像关联的文本进行扩展，挖掘到最初没有出现在图像对应的文本中的单词，从而克服在线社交网络中跨媒体数据的稀疏性、多样性以及噪声问题，获得更多的与图像相关联的文本词，实现图像所关联文本的语义扩展；将这些语义扩展后的与图像相关联的文本输入到文本子网络中提取文本全局语义特征、局部显著性深度语义特征后，有助于进一步提高后续跨媒体数据语义关联学习的能力，发现更多潜在的跨媒体语义关联，并可以使得在面向在线社交网络中跨媒体大数据进行搜索时提高搜索精度。

附图说明

图1为本发明实施例提供的一种跨媒体大数据的公共语义表示、搜索方法流程图；

图2为本发明实施例提供的一种扩展图像所关联的文本的方法流程图；

图3为本发明实施例提供的基于深度注意力哈希网络构建跨媒体大数据的语义关联学习模型的示意图；

图4为本发明实施例提供的基于跨媒体大数据的公共语义表示根据查询请求进行搜索的方法流程图；

图5为本发明实施例提供的一种跨媒体大数据的公共语义表示、搜索装置的内部结构框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

需要说明的是，本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量，可见“第一”“第二”仅为了表述的方便，不应理解为对本发明实施例的限定，后续实施例对此不再一一说明。

本发明的发明人发现现有的方法在跨媒体公共语义空间学习过程中，往往仅考虑了全局特征空间，没有综合考虑到局部的显著性注意力特征。而实际上，图像中的显著性目标和组件信息以及文本中显著性单词具有强烈的语义相关性，如图像中的显著性目标区域通常在文本词中有对应的描述，充分捕捉这种显著性的图像区域和文本词可有助于发现更多潜在的细粒度跨媒体语义关联，进一步增强跨媒体关联学习能力。

为此，本发明提供的一种基于跨媒体大数据的语义关联学习方法中，联合图像和文本的全局和局部显著性语义特征相似性进行跨媒体语义关联学习，获取更为精确的跨媒体公共语义表示。

此外，在线社交网络中的跨媒体数据往往存在稀疏性、多样性以及噪声问题，从而增加了跨媒体语义关联学习的难度，使得现有的跨媒体搜索方法在面向在线社交网络中跨媒体教育大数据的处理时精度不高。为克服上述问题，本发明提出的基于跨媒体大数据的语义关联学习方法中，还可对图像相关联的文本进行扩展，将扩展后的文本进行全局语义特征和局部显著性深度语义特征的提取后，联合图像和文本的全局和局部显著性语义特征相似性进行跨媒体语义关联学习，获取更为精确的跨媒体公共语义表示，从而解决跨媒体数据存在的稀疏性、多样性以及噪声问题。比如，社交网络数据中有的文本数据是十分简短、稀少的，呈现稀疏性，可能不足以说明其对应的图像的完整语义，再就是社交网络中用户发布的数据中通常会包含一些噪声，也就是不相关的图像描述，即图像和文本描述不完全对应；因此通过本发明提出的基于跨媒体大数据的语义关联学习方法进行语义扩展后，可以发现更多的图像描述词，包括一些没有出现在原始图像描述中的语义相关的文本词，从而克服稀疏性和噪声问题。而另一方面，社交网络数据中图像的文本描述词形式多样，比如同样图像中出现一把椅子，有的用desk描述，有的用chair描述，文本词表达形式出现多个变种，从而引起了同样一个语义层面的多样性，因此通过本发明提出的基于跨媒体大数据的语义关联学习方法进行语义扩展后，可以发现这些间接的语义相关的文本词，从而使得扩展后学习到的语义嵌入表示中，语义上相关的这些词在嵌入表示空间中距离也更加接近，从而使得获得的语义表示更加精确。

下面结合附图详细说明本发明实施例的技术方案。

本发明基于深度注意力哈希网络构建跨媒体大数据的语义关联学习模型，联合图像和文本的全局和局部显著性语义特征相似性进行跨媒体语义关联学习，获取统一的跨媒体公共语义表示；由此，本发明实施例提供的一种跨媒体大数据的公共语义表示、搜索方法的具体流程如图1所示，包括如下步骤：

步骤S101：提取大数据中图像、文本的全局语义特征和局部显著性深度语义特征。

本步骤中，基于VGG-19(Visual Geometry Group，视觉几何群)深度卷积神经网络自动学习和提取图像的全局语义特征和局部显著性深度语义特征；结合基于注意力机制的LSTM(Long Short-Term Memory，长短时记忆神经)网络和MLP(Multi-Layer Perception，多层感知机)网络自动学习和提取文本的全局语义特征和局部显著性深度语义特征。例如，本步骤中可以对知识图谱中的图像、文本提取全局语义特征和局部显著性深度语义特征。

考虑到在线社交网络多媒体大数据的稀疏性、多样性和噪声问题，更优地，本发明在提取大数据中图像、文本的全局语义特征和局部显著性深度语义特征之前，还可采用基于内部图深度随机游走和外部维基百科(Wikipedia)知识库联合学习的大数据社交语义嵌入学习方法，通过嵌入在线社交网络图像和文本词间的社交语义关系来扩展图像所关联的文本，具体方法流程如图2所示，包括如下子步骤：

子步骤S201：基于在线社交网络上的大数据，构建图像—文本词关联图模型。

具体地，假设在线社交网络上的大数据中图像表示为I＝{v_i}，单词表示为W＝{w_n}，则构建的图模型为G＝{I,W,E}，E＝{e_l}。构建的图模型中节点包括图像节点v_i，单词节点w_n。如果某单词w_n出现在某图像v_i的文本描述中，则产生一条边e_l。所构建的图模型可以很好地实现对图像—单词，图像—图像以及单词—单词间语义关系的建模。

子步骤S202：在图模型上通过基于深度框架的随机游走策略来学习图像和文本的单词之间的语义关联关系，实现语义扩展，从而得到扩展的与所述图像相关联的文本。

具体地，通过在上述图模型G上深度随机游走能够学习到图像—单词的语义关系，包括直接和间接的语义关系，能够挖掘到最初没有出现在图像对应的文本中的单词，实现图像所关联文本的语义扩展，表示为W_rs＝{W_vj}＝{(w_j0,w_j1,….,w_jn)}。在此基础上，还可以结合Wikipedia知识库W_wk对数据进一步扩充，获取最终的内外部联合扩展后的图像所关联的文本W_io＝W_rs+W_wk。

因此，较佳地，本步骤基于深度注意力哈希网络构建跨媒体大数据的语义关联学习模型时，如图3所示，所述的深度注意力哈希网络结构可以包括两个子网络：图像子网络和文本子网络。其中，在图像子网络中，基于VGG-19深度卷积神经网络自动学习和提取图像的全局语义特征和局部显著性深度语义特征。在文本子网络中，结合基于注意力机制的LSTM神经网络和MLP网络自动学习和提取文本的全局和局部注意力深度语义和情境特征。而输入到文本子网络中的文本，可以是针对输入到图像子网络中的图像通过上述如图2所示的方法流程进行关联扩展后得到的文本。例如，输入到图像子网络中的图像可以是知识图谱中的图像，而输入到文本子网络中的文本则是对知识图谱中的图像进行关联扩展后得到的文本。

步骤S102：联合图像和文本的全局和局部显著性语义特征相似性进行跨媒体语义关联学习，获取跨媒体公共语义表示。

本步骤中，可如图3所示，根据提取的图像和文本的全局语义特征、局部显著性深度语义特征，确定所述图像和文本的全局语义特征相似性，以及所述图像和文本的局部显著性语义特征相似性；联合图像和文本的全局语义特征和局部显著性语义特征相似性进行跨媒体语义关联学习；并对图像和文本作为实例进行二进制量化学习，得到图像实例和文本实例的二进制哈希量化表示，从而得到更为精确的跨媒体大数据的公共语义表示。

具体地，可采用如下式一所示的基于深度注意力哈希网络构建的跨媒体大数据的语义关联学习网络的目标损失函数，通过深度注意力哈希网络来学习跨媒体关联映射，从而最大化不同媒体数据之间的语义关联关系，最小化媒体内哈希量化后的重构误差，以获取跨媒体数据的公共语义表示。

min Loss＝L_cm+λL_hq (式一)

或者，可以采用如下式二所示的基于深度注意力哈希网络构建的跨媒体大数据的语义关联学习网络的目标损失函数，通过深度注意力哈希网络来学习跨媒体关联映射，从而最大化不同媒体数据之间的语义关联关系，最小化媒体内哈希量化后的重构误差，并基于对抗学习进一步增强不同媒体的语义相关性，以获取跨媒体数据的公共语义表示。

min Loss＝L_cm+λL_hq+γL_adv (式二)

其中，上述式一、式二中，L_cm表示自适应交叉熵损失函数，最大化不同媒体之间的关联关系，保持跨媒体相似性；L_hq表示媒体内二进制哈希量化损失函数，最小化媒体内哈希量化后的重构误差，保持各个媒体数据内部的相关性，保证哈希质量。L_adv表示对抗损失函数，进一步增强不同媒体的语义相关性。λ和γ是设置的权重调节因子。

在进行跨媒体关联映射学习过程中，本步骤联合学习全局跨媒体相似性和局部跨媒体相似性，进一步提高跨媒体语义关联学习能力，构建了上述自适应交叉熵损失函数L_cm作为目标函数，该目标函数是跨媒体语义相似性损失函数，是整个深度注意力哈希网络的一个子损失函数，即是上述式一或式二的子函数，具体表达如式三所示：

式三中

表示跨媒体全局语义特征相似性；表示跨媒体局部显著性语义特征相似性。＜·＞表示内积操作。θ是使得网络训练过程中反向传播的自适应激活sigmoid函数的超参数。

和

分别表示第i个图像实例的全局语义特征和局部显著性深度语义特征。

和

分别表示第j个文本实例的全局语义特征和局部显著性深度语义特征。SIM_i,j表示图像和文本对之间的相似性；如果两者相似，则SIM_i,j＝1，否则SIM_i,j＝0。通常如果图像和文本对至少含有一个相同的语义标签，则认为两者相似。

较佳地，为了尽可能地提升哈希量化编码质量，减小量化误差，本步骤采用复合量化方法实现图像和文本实例的哈希量化。给定M个码书组成的码书集合C，C＝[C₁,C₂,...,C_M]，每个码书C_m包含K个码词C_m＝[C_m1,C_m2,...,C_mK]。基于码书集合对每个图像和文本实例进行哈希量化，设置M个指示向量b_i＝[b_1i,b_2i,..b_mi]，通过训练学习整个深度注意力哈希网络，可以得到为每个b_mr指定第m个码书中的K个码词中的哪一个词用来近似表示第r个图像或文本实例。假设每个码书中仅选择一个码词用于近似表示一个具体的图像或文本实例，则每个图像或文本实例d可近似表达为M个码词的和，即

则引入码书后的哈希量化损失函数如式四所示，通过最小化如式四所示的哈希量化损失函数，实现最小化媒体内哈希量化后的重构误差，保持各个媒体数据内部的相关性，保证哈希质量：

式四中，M为码书个数，C_m为表示第m个码书，

表示第i个图像实例v的全局语义特征，表示第j个文本实例t的全局语义特征，

为用来近似表示第i个图像实例所指定第m个码书中的一个词，

为用来近似表示第j个文本实例所指定第m个码书中的一个词，

N_t和N_v分别表示文本实例t和图像实例v的个数。

式四是整个深度注意力哈希网络的另一个子损失函数，即是上述式一或式二的另一个子函数；通过上述的式三和式四的联合学习可以达到跨媒体语义关联学习的目的，获取最终的跨媒体统一语义表示。

更优地，为进一步增强不同媒体的统一语义表示，本步骤还可基于对抗学习进一步增强深度表示空间中不同媒体的语义相关性，从而缩小语义鸿沟。定义一个模态分类器D作为对抗器，目标是基于特征表示检测出所属的媒体类型。对于分类器的实现，采用3层的前馈神经网络。该分类器基于对抗的学习过程通过最小化式五所示的对抗损失函数L_adv来实现，该对抗损失函数是式二所示的整个深度注意力哈希网络目标函数的一个子损失函数，具体表达如下：

式五中N表示图像-文本对的个数。b_u表示第u个图像或文本实例的真实媒体标签。

和

分别表示第u个图像或文本实例的全局语义特征表示；

步骤S103：基于上述步骤S102得到的跨媒体大数据的公共语义表示，根据查询请求进行搜索，得到搜索结果。

例如，在对知识图谱中的图像和文本采用上述步骤S101～102步骤的跨媒体大数据的公共语义表示方法，得到跨媒体大数据的公共语义表示后，基于所述跨媒体大数据的公共语义表示，根据查询请求进行搜索。

或者，在对知识图谱中的图像采用如图2所示的方法流程进行文本的关联扩展后，将对知识图谱中的图像和关联扩展后得到的文本采用上述步骤S101～102步骤的跨媒体大数据的公共语义表示方法，得到跨媒体大数据的公共语义表示后，基于所述跨媒体大数据的公共语义表示，根据查询请求进行搜索。

具体地，本步骤可以采用如图4所示的方法流程进行搜索，包括如下步骤：

步骤S401：结合所构建的知识图谱对用户的查询请求进行语义推理演算，同时结合语义规则约束和语义相似度计算，建立知识关联，实现对查询请求的语义扩展。

步骤S402：根据语义扩展后的查询请求，分析出用户需求特征。

步骤S403：将用户需求特征与知识图谱中的多媒体知识(包括图像和文本知识)进行匹配和关联，实现大数据智能精准搜索；同时结合相关性排序和相关反馈机制，进一步提升搜索性能。

本步骤中，在将用户需求特征与知识图谱中的多媒体知识进行匹配和关联过程中，在跨媒体大数据的公共语义表示的基础上，通过采用基于内积距离的近似最近邻方法进行跨媒体语义特征匹配，实现跨媒体相似性搜索。为了保证搜索准确性的同时进一步提高在线社交网络中大规模数据量下的搜索效率，基于非对称量化距离作为相似度函数来计算给定查询q(图像或文本)和基于公共语义表示的跨媒体大数据中待搜索的数据点d(文本或图像)之间的相似性距离，通过近似误差分析验证发现其可逼近实值距离，并可在跨媒体搜索精度和时间效率之间取得平衡。基于非对称量化器距离的相似度计算方法如式六所示：

其中，SIM(q,d)表示查询请求q和待搜索数据点d之间的非对称量化距离相似度函数。z_q是查询请求q的深度语义特征表示。

是待搜索数据点d的二进制哈希量化表示。

在搜索和匹配过程中，通过深度强化学习对跨媒体大数据语义特征匹配关联过程进行建模，依据用户个性化需求和用户搜索感知效用对匹配结果进行瞬时回报评价和总体回报评价，并依据瞬时回报评价和总体回报评价进行语义匹配深度增强学习。通过深度Q学习算法或策略梯度算法在马尔科夫决策过程总体框架下进行跨媒体数据的智能化匹配，获得最优瞬时回报评价和最优总体回报评价，获取与用户搜索意图和用户搜索感知效用精准匹配的搜索结果。

而上述的知识图谱可以根据如下方法构建和扩展：

基于以领域知识为中心的互联网信息抽取方法，实现领域知识要素的抽取。通过无监督学习的开放域聚类算法和基于联合推理的关系抽取方法实现领域实体抽取。并通过大数据中的领域知识、社交关系、个人偏好、情绪状态、时间、地点等概念术语以及语义关系的自动识别和抽取，对知识图谱进行自动扩展，进而实现领域知识智能化更新和完善，并将构建的教育领域知识图谱存储在Neo4J数据库中。

领域知识图谱构建与自动扩展主要包含四部分：领域知识抽取、知识表示与融合、知识推理和自动更新扩展。

领域知识抽取：通过对自然语言的词法、句法的分析，采用无监督学习的开放域聚类算法来自动化地抽取出可用的知识单元，包括实体、关系、属性等知识要素及相关术语等，并以此为基础，采用联合推理的关系抽取方法，定义逻辑规则，将抽取的知识与规则相结合，进一步获取高质量的知识元素。

知识表示与融合：基于数据层获取的海量碎片化数据中提取的知识要素，利用条件随机场模型对初始的领域知识进行学习，并结合支持向量机通过较少的训练语料即可获得较高的术语识别精确率。利用融合多策略的方法获取领域知识中的语义关系，采用图卷积神经网络结合词嵌入方法，通过语义相似度计算，实现链接预测、实体消歧与实体合并。

知识推理：基于知识图谱中已有的实体关系数据，综合利用基于逻辑的推理和基于图的推理方法，进行语义推理，建立实体间的新关联，从而拓展和丰富知识网络。

知识图谱自动更新扩展：基于知识规则与深度随机游走实现教育领域知识图谱自动扩展。首先，基于已有的知识规则、实体关系、公理等，利用目标引导的随机游走方法进行实体关系学习。在随机游走的每一步使用明确的推理目标作为方向。其次，在每一步随机游走的过程中，根据最终目标动态地估计走向各个邻居的潜在可能性，根据潜在可能性分配游走到各个邻居的概率。再次，引入启发式的知识规则，基于到达目标实体的可能性对概率矩阵进行修改。最后，应用逻辑实体回归来对实体关系概率进行计算，实现知识图谱的自动扩展。

基于上述的跨媒体大数据的公共语义表示方法，本发明实施例提供的一种跨媒体大数据的公共语义表示、搜索装置，内部结构如图5所示；其中，跨媒体大数据的公共语义表示装置中包括：语义特征提取模块501、跨媒体公共语义表示模块502。

其中，语义特征提取模块501用于提取大数据中图像、文本的全局语义特征和局部显著性深度语义特征；具体地，语义特征提取模块501可采用如上述步骤S101中的方法提取大数据中图像、文本的全局语义特征和局部显著性深度语义特征，此处不再赘述。

跨媒体公共语义表示模块502用于基于提取的图像和文本的全局语义特征、局部显著性深度语义特征，确定所述图像和文本的全局语义特征相似性，以及所述图像和文本的局部显著性语义特征相似性，联合所述图像和文本的全局和局部显著性语义特征相似性进行跨媒体语义关联学习，获得跨媒体大数据的公共语义表示。具体地，跨媒体公共语义表示模块502基于提取的图像和文本的全局语义特征、局部显著性深度语义特征，确定所述图像和文本的全局语义特征相似性，以及所述图像和文本的局部显著性语义特征相似性，依据如上述式一所示的目标损失函数最大化不同媒体数据之间的语义关联关系，最小化媒体内哈希量化后的重构误差，基于对抗学习进一步增强不同媒体的语义相关性，获得跨媒体大数据的公共语义表示；也就是说，跨媒体公共语义表示模块502可采用如上述步骤S102中的方法获得跨媒体大数据的公共语义表示，此处不再赘述。

进一步，本发明实施例提供的一种跨媒体大数据的公共语义表示装置还包括：关联文本扩展模块503。

关联文本扩展模块503可通过如下方法扩展得到与所述文本：根据网络上的大数据构建图模型G＝{I,W,E}，E＝{e_l}；其中，所述图模型中包括图像节点v_i，单词节点w_n，I＝{v_i}，W＝{w_n}；若单词w_n出现在某图像v_i的文本描述中，则产生一条边e_l；在所述图模型上通过基于深度框架的随机游走策略来学习图像和文本的单词之间的语义关联关系，得到与所述图像直接或间接相关联的文本。

本发明实施例提供的一种跨媒体大数据的搜索装置中，包括上述的跨媒体大数据的公共语义表示装置，以及还可包括：搜索模块504。

其中，搜索模块504用于基于所述跨媒体大数据的公共语义表示装置得到的跨媒体大数据的公共语义表示，根据查询请求进行搜索。具体地，搜索模块504可以结合所构建的知识图谱对用户的查询请求进行语义推理演算，同时结合语义规则约束和语义相似度计算，建立知识关联，实现对查询请求的语义扩展；根据语义扩展后的查询请求，分析出用户需求特征，将用户需求特征与知识图谱中的多媒体知识(包括图像和文本知识)进行匹配和关联，实现大数据智能精准搜索。同时结合相关性排序和相关反馈机制，进一步提升搜索性能。

本发明的技术方案中，基于提取的图像和文本的全局语义特征、局部显著性深度语义特征，确定所述图像和文本的全局语义特征相似性，以及所述图像和文本的局部显著性语义特征相似性；联合所述图像和文本的全局和局部显著性语义特征相似性进行跨媒体语义关联学习，获得跨媒体大数据的公共语义表示；可以在跨媒体公共语义空间学习过程中，不仅考虑了全局特征空间，而且还综合考虑到局部的显著性注意力特征。而实际上，图像中的显著性目标和组件信息以及文本中显著性单词具有强烈的语义相关性，如图像中的显著性目标区域通常在文本词中有对应的描述，充分捕捉这种显著性的图像区域和文本词可有助于发现更多潜在的细粒度跨媒体语义关联，从而进一步增强跨媒体关联学习能力，获得更为精确的跨媒体大数据的公共语义表示。由于可以更为精确的跨媒体大数据的公共语义表示，因此，在基于更为精确的跨媒体大数据的公共语义表示的基础上，可以得到精准度更高的跨媒体大数据的搜索结果。

更优地，在提取图像和文本的全局语义特征、局部显著性深度语义特征之前，可以先对图像关联的文本进行扩展，挖掘到最初没有出现在图像对应的文本中的单词，从而克服跨媒体数据的稀疏性、多样性以及噪声问题，获得更多的与图像相关联的文本，实现图像所关联文本的语义扩展；将这些与图像相关联的文本输入到文本子网络提取全局语义特征、局部显著性深度语义特征后，有助于降低后续跨媒体语义关联学习的难度，并可以使得在面向在线社交网络中跨媒体大数据进行搜索时提高搜索精度。

本技术领域技术人员可以理解，本发明中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地，具有本发明中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地，现有技术中的具有与本发明中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本公开的范围(包括权利要求)被限于这些例子；在本发明的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本发明的不同方面的许多其它变化，为了简明它们没有在细节中提供。因此，凡在本发明的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种跨媒体大数据的公共语义表示方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述联合所述图像和文本的全局和局部显著性语义特征相似性进行跨媒体语义关联学习，获得跨媒体大数据的公共语义表示，具体包括：

3.根据权利要求2所述的方法，其特征在于，在所述获得跨媒体大数据的公共语义表示之前，还包括：基于对抗学习进一步增强不同媒体的语义相关性；以及

minLoss＝L_cm+λL_hq+γL_adv (式一)

所述自适应交叉熵损失函数L_cm如式三所示：

其中，

表示跨媒体全局语义特征相似性；表示跨媒体局部显著性语义特征相似性；θ是使得网络训练过程中反向传播的自适应sigmoid函数的超参数；

和

和

所述媒体内二进制哈希量化损失函数L_hq，如式四所示：

其中，M为码书个数，C_m为表示第m个码书，

表示第i个图像实例v的全局语义特征，

表示第j个文本实例t的全局语义特征，

为用来近似表示第i个图像实例所指定第m个码书中的一个词，为用来近似表示第j个文本实例所指定第m个码书中的一个词，

N_t和N_v分别表示文本实例t和图像实例v的个数；

所述对抗损失函数L_adv如式五所示：

其中，N表示图像-文本对的个数。b_u表示第u个图像或文本实例的真实媒体标签。

和

分别表示第u个图像或文本实例的全局语义特征表示；

表示每条实例中图像产生的概率，

表示每条实例中文本产生的概率。

4.根据权利要求1-3所述的方法，其特征在于，所述文本是与所述图像相关联的，以及在所述提取大数据中文本的全局语义特征和局部显著性深度语义特征之前，还包括：

通过如下方法扩展得到与所述图像相关联的文本：

在所述图模型上通过基于深度框架的随机游走策略来学习图像和文本的单词之间的语义关联关系，得到与所述图像直接或间接相关联的文本。

5.一种跨媒体大数据的搜索方法，其特征在于，包括：

对知识图谱中的图像和文本采用如权利要求1-4任一所述的跨媒体大数据的公共语义表示方法，获得跨媒体大数据的公共语义表示；

6.根据权利要求5所述的方法，其特征在于，所述基于所述跨媒体大数据的公共语义表示，根据查询请求进行搜索，具体包括：

7.一种跨媒体大数据的公共语义表示装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，

所述跨媒体公共语义表示模块具体用于确定所述图像和文本的全局语义特征相似性，以及所述图像和文本的局部显著性语义特征相似性；联合所述图像和文本的全局和局部显著性语义特征相似性进行跨媒体语义关联学习时，最大化不同媒体数据之间的语义关联关系，并最小化媒体内哈希量化后的重构误差，基于对抗学习进一步增强不同媒体的语义相关性，获得跨媒体大数据的公共语义表示。

9.根据权利要求7或8所述的装置，其特征在于，还包括：

关联文本扩展模块，通过如下方法扩展得到与所述文本：根据网络上的大数据构建图模型G＝{I,W,E}，E＝{e_l}；其中，所述图模型中包括图像节点v_i，单词节点w_n，I＝{v_i}，W＝{w_n}；若单词w_n出现在某图像v_i的文本描述中，则产生一条边e_l；在所述图模型上通过基于深度框架的随机游走策略来学习图像和文本的单词之间的语义关联关系，得到与所述图像相关联的文本。

10.一种跨媒体大数据的搜索装置，其特征在于，包括：如权利要求7-9任一所述跨媒体大数据的公共语义表示装置，以及如下模块：