CN113239237A - 跨媒体大数据搜索方法及装置 - Google Patents

跨媒体大数据搜索方法及装置 Download PDF

Info

Publication number
CN113239237A
CN113239237A CN202110787827.1A CN202110787827A CN113239237A CN 113239237 A CN113239237 A CN 113239237A CN 202110787827 A CN202110787827 A CN 202110787827A CN 113239237 A CN113239237 A CN 113239237A
Authority
CN
China
Prior art keywords
text
image
semantic
attention
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110787827.1A
Other languages
English (en)
Other versions
CN113239237B (zh
Inventor
梁美玉
王笑笑
杜军平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN202110787827.1A priority Critical patent/CN113239237B/zh
Publication of CN113239237A publication Critical patent/CN113239237A/zh
Application granted granted Critical
Publication of CN113239237B publication Critical patent/CN113239237B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书一个或多个实施例提供一种跨媒体大数据搜索方法及装置,包括:分别提取图像数据的图像语义特征和文本数据的文本语义特征;计算图像语义特征和文本语义特征之间的相似度,根据相似度分别确定图像注意力特征和文本注意力特征;以图像注意力特征为输入,经过图像表示网络输出图像上下文特征向量;以文本注意力特征为输入,经过文本表示网络输出文本上下文特征向量;根据图像上下文特征向量和文本上下文特征向量,利用对抗学习确定统一语义表示;基于统一语义表示进行搜索。本说明书的搜索方法能够获得精确的搜索结果。

Description

跨媒体大数据搜索方法及装置
技术领域
本说明书一个或多个实施例涉及大数据技术领域,尤其涉及一种跨媒体大数据搜索方法及装置。
背景技术
目前,网络中存在大量的图像、文本等多媒体数据资源,实现跨媒体搜索的关键在于跨媒体数据语义空间的建模,根据原始的多媒体数据中提取出语义特征,针对不同模态数据进行统一建模,消除跨模态数据之间的“异构鸿沟”,确定不同模态数据之间的统一语义表示,基于统一语义表示实现语义搜索。目前的方法没有充分学习跨媒体大数据的语义特征,所获得的统一语义表示难以实现精确搜索。
发明内容
有鉴于此,本说明书一个或多个实施例的目的在于提出一种跨媒体大数据搜索方法及装置,能够实现精准搜索。
基于上述目的,本说明书一个或多个实施例提供了跨媒体大数据搜索方法,包括:
分别提取图像数据的图像语义特征和文本数据的文本语义特征;
计算所述图像语义特征和文本语义特征之间的相似度,根据所述相似度分别确定图像注意力特征和文本注意力特征;
以所述图像注意力特征为输入,经过图像表示网络输出图像上下文特征向量;
以所述文本注意力特征为输入,经过文本表示网络输出文本上下文特征向量;
根据所述图像上下文特征向量和所述文本上下文特征向量,利用对抗学习确定统一语义表示;
基于所述统一语义表示进行搜索。
可选的,根据所述相似度确定图像注意力特征,包括:
对于所述图像数据的每个图像区域,计算所述文本数据的所有文本片段的注意力权值;
根据每个图像区域的图像语义特征和所述注意力权值,计算所述图像注意力特征。
可选的,根据所述相似度确定文本注意力特征,包括:
对于所述文本数据的每个文本片段,计算所述图像数据的所有图像区域的注意力权值;
根据每个文本片段的文本语义特征和所述注意力权值,计算文本注意力特征。
可选的,所述分别提取图像数据的图像语义特征和文本数据的文本语义特征之前,还包括:
获取查询内容;
对所述查询内容进行语义扩展,得到语义扩展后的查询内容;所述语义扩展后的查询内容包括图像数据和文本数据。
可选的,所述利用对抗学习确定统一语义表示之后,还包括:
对所述统一语义表示进行哈希二值化处理,得到二值化的统一语义表示。
本说明书还提供一种跨媒体大数据搜索装置,包括:
语义特征提取模块,用于分别提取图像数据的图像语义特征和文本数据的文本语义特征;
注意力特征提取模块,用于计算所述图像语义特征和文本语义特征之间的相似度,根据所述相似度分别确定图像注意力特征和文本注意力特征;
上下文特征提取模块,用于以所述图像注意力特征为输入,经过图像表示网络输出图像上下文特征向量;以及以所述文本注意力特征为输入,经过文本表示网络输出文本上下文特征向量;
统一语义模块,用于根据所述图像上下文特征向量和所述文本上下文特征向量,利用对抗学习确定统一语义表示;
搜索模块,用于基于所述统一语义表示进行搜索。
可选的,所述注意力特征提取模块,用于对于所述图像数据的每个图像区域,计算所述文本数据的所有文本片段的注意力权值;以及根据每个图像区域的图像语义特征和所述注意力权值,计算所述图像注意力特征。
可选的,所述注意力特征提取模型,用于对于所述文本数据的每个文本片段,计算所述图像数据的所有图像区域的注意力权值;以及根据每个文本片段的文本语义特征和所述注意力权值,计算文本注意力特征。
可选的,装置还包括:
获取模块,用于获取查询内容;以及对所述查询内容进行语义扩展,得到语义扩展后的查询内容;所述语义扩展后的查询内容包括图像数据和文本数据。
可选的,装置还包括:
哈希处理模块,用于对确定出的统一语义表示进行哈希二值化处理,得到二值化的统一语义表示。
从上面所述可以看出,本说明书一个或多个实施例提供的跨媒体大数据搜索方法及装置,分别提取图像数据的图像语义特征和文本数据的文本语义特征;计算图像语义特征和文本语义特征之间的相似度,根据相似度分别确定图像注意力特征和文本注意力特征;以图像注意力特征为输入,经过图像表示网络输出图像上下文特征向量;以文本注意力特征为输入,经过文本表示网络输出文本上下文特征向量;根据图像上下文特征向量和文本上下文特征向量,利用对抗学习确定统一语义表示;基于统一语义表示进行搜索。本说明书能够深入挖掘跨媒体大数据之间的语义关联,获得准确的统一语义表示,进行精确的语义搜索。
附图说明
为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书一个或多个实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书一个或多个实施例的方法流程示意图;
图2为本说明书一个或多个实施例的模型示意图;
图3为本说明书一个或多个实施例的装置结构示意图;
图4为本说明书一个或多个实施例的电子设备结构示意图。
具体实施方式
为使本公开的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本公开进一步详细说明。
需要说明的是,除非另外定义,本说明书一个或多个实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本说明书一个或多个实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
如背景技术部分所述,实现跨媒体搜索的关键在于确定不同模态数据的统一语义表示。一些方法中,基于关联图模型确定不同模态数据之间的流形结构,基于对抗学习机制,利用生成器拟合不同模态数据的流形结构的分布,利用判别器区分输入数据为真实分布或者生成分布,通过动态博弈不断训练生成器和判别器,最终学习到不同模态数据之间的深度语义关联;此方法针对文本数据,仅考虑了文本中单词的频次信息,未考虑文本的语义特征,而且,仅考虑了原始数据的全局语义特征,未考虑不同模态数据的关联特征。另一些方法中,基于特征学习模型学习不同模态数据的全局语义特征,基于全局语义特征利用多标签注意力模型学习不同模态数据之间的语义关联,加强多模态数据的特征学习,但是未学习不同模态数据的细粒度语义特征,没有挖掘不同模态数据在细粒度层次上的语义关联,导致搜索精度不高。
有鉴于此,本说明书实施例提供一种跨媒体大数据搜索方法,提取图像数据的细粒度图像语义特征,提取文本数据的细粒度文本语义特征,深度挖掘图像语义特征和文本语义特征之间的语义关联,利用对抗学习机制获得图像数据和文本数据的统一语义表示,进而基于跨媒体大数据的统一语义表示实现精准搜索。
如图1、2所示,本说明书一个或多个实施例提供一种跨媒体大数据搜索方法,包括:
S101:分别提取图像数据的图像语义特征和文本数据的文本语义特征;
本实施例中,跨媒体大数据包括图像数据和文本数据。首先分别从图像数据中提取出细粒度的图像语义特征,从文本数据中提取出细粒度的文本语义特征。
一些方式中,对于图像数据,构建深度卷积神经网络(ImageCNN),学习图像数据在 细粒度层次上的图像语义特征。深度卷积神经网络的最后一个池化层之前的网络结构与 VGG19(Visual Geometry Group,视觉几何群)深度卷积神经网络结构相同,将最后一个池 化层中每个过滤器提取出的特征作为不同图像区域的局部特征,用以表示图像数据在细粒 度层次上的图像语义特征,可以描述为
Figure 659481DEST_PATH_IMAGE001
,m1为图像区域的数量,
Figure 107780DEST_PATH_IMAGE002
表 示第j个图像区域的特征向量。
对于文本数据,利用Bert预训练模型学习文本数据在细粒度层次上的文本语义特 征。Bert预训练模型对文本数据进行处理获得词向量矩阵,再经过一个全连接层,输出文本 数据的文本语义特征,表示为
Figure 274801DEST_PATH_IMAGE003
,m2为文本数据中文本片段的数量。
S102:计算图像语义特征和文本语义特征之间的相似度,根据相似度分别确定图像注意力特征和文本注意力特征;
本实施例中,确定图像数据的图像语义特征、文本数据的文本语义特征之后,计算图像语义特征和文本语义特征的相似度,并根据二者之间的相似度确定结合文本语义特征的图像注意力特征以及结合图像语义特征的文本注意力特征。
S103:以图像注意力特征为输入,经过图像表示网络输出图像上下文特征向量;
S104:以文本注意力特征为输入,经过文本表示网络输出文本上下文特征向量;
本实施例中,确定图像注意力特征后,利用有记忆的图像表示网络确定图像上下文特征向量。确定文本注意力特征后,利用有记忆的文本表示网络确定文本上下文特征向量。
S105:根据图像上下文特征向量和文本上下文特征向量,利用对抗学习确定统一语义表示;
S106:基于统一语义表示进行搜索。
本实施例中,基于图像上下文特征向量和文本上下文特征向量,利用对抗学习机制确定图像数据和文本数据的统一语义表示,基于统一语义表示进行精准搜索。
本实施例提供的跨媒体大数据搜索方法,包括分别提取图像数据的图像语义特征和文本数据的文本语义特征,计算图像语义特征和文本语义特征之间的相似度,根据相似度分别确定图像注意力特征和文本注意力特征,以图像注意力特征为输入,经过图像表示网络输出图像上下文特征向量,以文本注意力特征为输入,经过文本表示网络输出文本上下文特征向量,根据图像上下文特征向量和文本上下文特征向量,利用对抗学习确定统一语义表示,基于统一语义表示进行搜索。本实施例的搜索方法,提取细粒度的图像语义特征和文本语义特征,利用注意力机制深入挖掘图像语义特征和文本语义特征之间的语义关联,利用对抗学习机制获得图像与文本的统一语义表示,基于统一语义表示可实现精准的语义搜索。
一些实施例中,计算图像语义特征和文本语义特征之间的相似度为:计算图像语义特征和文本语义特征之间的cosine相似度,计算方法为:
Figure 201168DEST_PATH_IMAGE004
(1)
其中,
Figure 281120DEST_PATH_IMAGE005
代表第i个图像区域与第k个文本片段之间的相似度。
一些实施例中,对于图像数据,根据相似度确定图像注意力特征,包括:
对于每个图像区域,计算所有文本片段的注意力权值;根据每个图像区域的图像语义特征和注意力权值,计算图像注意力特征。本实施例利用注意力机制对图像语义特征和文本语义特征进行学习,挖掘图像与文本之间的语义关联性,能够充分学习不同媒体数据之间的互补信息和对应关系,提升跨媒体关联学习的能力。
一些方式中,第i个图像区域和所有文本片段的未归一化的注意力权值
Figure 510107DEST_PATH_IMAGE006
为:
Figure 308299DEST_PATH_IMAGE007
(2)
使用softmax函数进行归一化,得到归一化的注意力权值
Figure 162991DEST_PATH_IMAGE008
为:
Figure 363028DEST_PATH_IMAGE009
(3)
根据第i个图像区域的图像语义特征
Figure 762917DEST_PATH_IMAGE010
和该图像区域的注意力权值
Figure 782825DEST_PATH_IMAGE011
,计算第i个 图像区域的图像注意力特征
Figure 175629DEST_PATH_IMAGE012
,表示为:
Figure 964594DEST_PATH_IMAGE013
(4)
将所有图像区域的图像注意力特征组成输入序列,输入预先训练的图像表示网 络,由图像表示网络输出图像上下文特征向量
Figure 925597DEST_PATH_IMAGE014
,若图像表示网络
Figure 308168DEST_PATH_IMAGE015
的网络参数为
Figure 114450DEST_PATH_IMAGE016
Figure 413713DEST_PATH_IMAGE017
为图像注意力特征组成的输入序列,图像上下文特征向量可表示为
Figure 14458DEST_PATH_IMAGE018
。其中,图像表示网络基于长短期记忆网络(LSTM,Long Short-Term Memory)实现,网络的具体结构和训练过程不进行具体说明。
一些实施例中,对于文本数据,根据相似度确定文本注意力特征,包括:
对于每个文本片段,计算所有图像区域的注意力权值;根据每个文本片段的文本语义特征和注意力权值,计算文本注意力特征。本实施例利用注意力机制对图像语义特征和文本语义特征进行学习,深入挖掘图像与文本之间的语义关联性,能够充分学习不同媒体数据之间的互补信息和对应关系,提升跨媒体关联学习的能力。
其中,第k个文本片段和所有图像区域的未归一化的注意力权值
Figure 274538DEST_PATH_IMAGE019
为:
Figure 759877DEST_PATH_IMAGE020
(5)
使用softmax函数进行归一化,得到归一化的注意力权值
Figure 523434DEST_PATH_IMAGE021
为:
Figure 953803DEST_PATH_IMAGE022
(6)
根据第k个文本片段的文本语义特征
Figure 170021DEST_PATH_IMAGE023
和该文本片段的注意力权值
Figure 583684DEST_PATH_IMAGE024
,计算第k 个文本片段的文本注意力特征
Figure 77114DEST_PATH_IMAGE025
,表示为:
Figure 550820DEST_PATH_IMAGE026
(7)
将所有文本片段的文本注意力特征组成输入序列,输入预先训练的文本表示网 络,由文本表示网络输出文本上下文特征向量
Figure 254334DEST_PATH_IMAGE027
,若文本表示网络
Figure 65164DEST_PATH_IMAGE028
的网 络参数为
Figure 68892DEST_PATH_IMAGE029
Figure 447921DEST_PATH_IMAGE030
为文本注意力特征组成的输入序列,文本上下文特征向量可表示为
Figure 779676DEST_PATH_IMAGE031
。其中,文本表示网络基于长短期记忆网络实现,网络的具体结构和训练过 程不进行具体说明。
一些实施例中,获取图像上下文特征向量和文本上下文特征向量之后,利用对抗学习机制进一步挖掘图像和文本之间的语义关联,进行跨媒体语义关联学习,以确定跨媒体大数据的统一语义表示。
一些方式中,基于对抗学习机制,以图像表示网络和文本表示网络作为生成器G, 针对图像数据和文本数据,分别构建图像判别器
Figure 269564DEST_PATH_IMAGE032
和文本判别器
Figure 986853DEST_PATH_IMAGE033
,由生成器和判别器构 成动态的学习过程,基于图像上下文特征向量和文本上下文特征向量进行对抗学习时,最 大化相似语义下图像数据和文本数据之间的语义关联,最小化跨模态数据真实样本分布和 生成样本分布之间的距离,学习跨媒体大数据之间的统一语义表示,并将学习的特征进行 二值化哈希处理,快速获得精确、短小的跨媒体大数据的统一语义表示。具体的:
构建用于获得统一语义表示的目标损失函数:
Figure 536783DEST_PATH_IMAGE034
(8)
Figure 480468DEST_PATH_IMAGE035
(9)
其中,B为统一语义表示的哈希编码,K是二进制编码长度,
Figure 649412DEST_PATH_IMAGE036
表示图像判别器
Figure 362153DEST_PATH_IMAGE037
和文本判别器
Figure 207619DEST_PATH_IMAGE038
的网络参数的统一表示,
Figure 373021DEST_PATH_IMAGE039
表示用作生成器的图像表示网络和文本表 示网络的网络参数的统一表示,
Figure 470290DEST_PATH_IMAGE040
表示上一次迭代产生的图像判别器和文本判别器的网 络参数的统一表示,
Figure 912903DEST_PATH_IMAGE041
表示上一次迭代产生的生成器的网络参数的统一表示,
Figure 539057DEST_PATH_IMAGE042
为上一 次迭代学习到的统一语义表示的哈希编码。
Figure 457334DEST_PATH_IMAGE043
表示生成损失函数,最小化跨模态数据(图像数据和文本数据)的真实分布与 生成分布之间的距离,以使生成器尽可能的生成与真实样本分布相近的分布;
Figure 503436DEST_PATH_IMAGE044
表示交 叉熵损失函数,最大化的提高判别器判别真实样本分布与生成样本分布的能力,以进一步 的学习图像数据与文本数据之间的语义关联。
生成损失函数
Figure 659611DEST_PATH_IMAGE045
包括两部分,一部分是同一模态数据(图像数据或文本数据)的 约束性损失函数
Figure 863190DEST_PATH_IMAGE046
,另一部分是不同模态数据之间的约束性损失函数
Figure 737605DEST_PATH_IMAGE047
,表示为:
Figure 442256DEST_PATH_IMAGE048
(10)同一模态数据的约束性损 失函数
Figure 843150DEST_PATH_IMAGE049
可表示为:
Figure 76686DEST_PATH_IMAGE050
(11)
Figure 703976DEST_PATH_IMAGE051
(12)
Figure 556525DEST_PATH_IMAGE052
(13)
Figure 952872DEST_PATH_IMAGE053
(14)
Figure 747521DEST_PATH_IMAGE054
(15)
其中,
Figure 596529DEST_PATH_IMAGE055
为图像数据的约束性损失函数,
Figure 377403DEST_PATH_IMAGE056
为图像数据的约束性损失函 数,
Figure 503622DEST_PATH_IMAGE057
为图像数据和文本数据的约束性损失函数的统一表示。
Figure 344539DEST_PATH_IMAGE058
为图像上下文特征 向量
Figure 71055DEST_PATH_IMAGE059
和文本上下文特征向量
Figure 390041DEST_PATH_IMAGE060
的统一表示,
Figure 760980DEST_PATH_IMAGE061
为预测的图像上下文特征向量的实值 哈希码
Figure 648164DEST_PATH_IMAGE062
和文本上下文特征向量的实值哈希码
Figure 206184DEST_PATH_IMAGE063
的统一表示,
Figure 722004DEST_PATH_IMAGE064
为预测的图像上下文 特征向量的二值哈希码
Figure 681870DEST_PATH_IMAGE065
和文本上下文特征向量的二值哈希码
Figure 864589DEST_PATH_IMAGE066
的统一表示。
Figure 50851DEST_PATH_IMAGE067
是两 个三元损失函数(triplet-margin loss),
Figure 977219DEST_PATH_IMAGE068
表示添加在图像上下文特征向量或文本上下 文特征向量上的约束,
Figure 791591DEST_PATH_IMAGE069
表示在添加在图像上下文特征向量的实值哈希码或者文本上下文 特征向量的实值哈希码上的约束,
Figure 535425DEST_PATH_IMAGE070
表示实值哈希码和二值哈希码之间的均方误差。sim 函数为相似性函数,可以是内积函数、余弦函数或者欧式距离。
Figure 68038DEST_PATH_IMAGE071
表示图像数据或文本数据 的正例所学习到的上下文特征向量,
Figure 673462DEST_PATH_IMAGE072
表示图像数据或文本数据的负例所学习到的上下 文特征向量;
Figure 607920DEST_PATH_IMAGE073
表示图像数据或文本数据的正例所学习到的实值哈希码,
Figure 132443DEST_PATH_IMAGE074
表示图像数 据或文本数据的负例所学习到的实值哈希码,
Figure 276985DEST_PATH_IMAGE075
表示第
Figure 545155DEST_PATH_IMAGE075
批次待计算的图像数据,m表示第m 批次待计算的文本数据,n表示批次数量。
不同模态数据之间的约束性损失函数
Figure 334120DEST_PATH_IMAGE076
可表示为:
Figure 170489DEST_PATH_IMAGE077
(16)
Figure 412114DEST_PATH_IMAGE078
(17)
Figure 608609DEST_PATH_IMAGE079
(18)
Figure 783239DEST_PATH_IMAGE080
(19)
其中,
Figure 383984DEST_PATH_IMAGE081
表示添加在图像上下文特征向量或者文本上下文特征向量的约束,
Figure 519430DEST_PATH_IMAGE082
表 示添加在图像上下文特征向量的实值哈希码或者文本上下文特征向量的实值哈希码的约 束。
Figure 782266DEST_PATH_IMAGE083
为图像数据所对应的文本正例数据所学习到的特征,
Figure 811402DEST_PATH_IMAGE084
为图像数据所对应的文 本负例数据所学习到的特征;
Figure 723994DEST_PATH_IMAGE085
为图像数据所对应的文本正例数据所学习到的实值哈 希码
Figure 205791DEST_PATH_IMAGE086
为图像数据所对应的文本负例数据所学习到的实值哈希码。
交叉熵损失函数
Figure 744089DEST_PATH_IMAGE087
包括两部分,一部分是图像上下文特征向量的对抗损失,另 一部分是文本上下文特征向量的对抗损失,表示为:
Figure 362152DEST_PATH_IMAGE088
(20)
Figure 835858DEST_PATH_IMAGE089
(21)
Figure 414738DEST_PATH_IMAGE090
(22)
其中,
Figure 366514DEST_PATH_IMAGE091
为图像上下文特征向量的对抗损失,
Figure 104663DEST_PATH_IMAGE092
为文本上下文特征向量的对 抗损失,
Figure 608325DEST_PATH_IMAGE093
为第h个图像数据的图像上下文特征向量,
Figure 799135DEST_PATH_IMAGE094
为第h个文本数据的文本上下文特 征向量。
通过对公式(8)所示目标损失函数进行求解,得到图像数据和文本数据的统一语义表示,由于基于提取出的细粒度的图像语义特征和文本语义特征,利用注意力机制深度挖掘二者之间的语义关联,利用对抗学习进一步学习二者之间的语义关联,获得跨媒体大数据的统一语义表示,基于该统一语义表示进行跨媒体大数据的搜索,能够提高搜索精度。
一些实施例中,分别提取图像数据的图像语义特征和文本数据的文本语义特征之前,还包括:
获取查询内容;
对查询内容进行语义扩展,得到语义扩展后的查询内容;语义扩展后的查询内容包括图像数据和文本数据。
本实施例中,用户输入查询内容后,获取查询内容,对查询内容进行语义扩展,得到语义扩展后的查询内容,经过语义扩展的查询内容包括图像数据和文本数据,之后,基于语义扩展后的查询内容,从图像数据中提取图像语义特征,从文本数据中提取文本语义特征,深度挖掘图像语义特征和文本语义特征之间的语义关联,获得查询内容的统一语义表示,再基于统一语义表示进行语义搜索,得到精确的搜索结果。通过对查询内容进行语义扩展,能够充分利用跨媒体大数据的复杂多样性特点,更为准确、全面、深入的挖掘查询内容的深层搜索意图,进而实现精准全面的搜索。
一些方式中,利用构建的主题模型对查询内容进行语义扩展,主题模型可根据带有标签的数据集进行主题建模,构建主题-概念空间,该空间中包括当前标签下的所有候选扩展词。输入查询内容时,使用分类模型进行分类,找到当前分类标签下的概念空间,计算查询内容与概念空间下所有候选扩展词的相似度,将相似度大于设定阈值的候选扩展词作为筛选出的扩展词,然后,将查询内容和筛选出的扩展词进行加权,避免扩展词对原始查询内容造成过大的影响,根据加权计算结果构造语义扩展后的查询内容。
本说明书实施例的跨媒体大数据搜索方法,对于输入的查询内容,先进行语义扩展,用以深入挖掘搜索意图;针对语义扩展后的查询内容,提取细粒度的图像语义特征和文本语义特征,深入挖掘图像语义特征和文本语义特征之间的语义关联,获得跨媒体大数据的统一语义表示,基于统一语义表示进行语义搜索,由于提取了细粒度的语义特征,并深度挖掘不同媒体数据之间的语义关联,获得不同媒体数据之间的补充信息,充分利用了跨媒体大数据的复杂多样性,能够获得精确的搜索结果。
需要说明的是,本说明书一个或多个实施例的方法可以由单个设备执行,例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下,由多台设备相互配合来完成。在这种分布式场景的情况下,这多台设备中的一台设备可以只执行本说明书一个或多个实施例的方法中的某一个或多个步骤,这多台设备相互之间会进行交互以完成所述的方法。
需要说明的是,上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
如图3所示,本说明书实施例还提供一种跨媒体大数据搜索装置,包括:
语义特征提取模块,用于分别提取图像数据的图像语义特征和文本数据的文本语义特征;
注意力特征提取模块,用于计算所述图像语义特征和文本语义特征之间的相似度,根据所述相似度分别确定图像注意力特征和文本注意力特征;
上下文特征提取模块,用于以所述图像注意力特征为输入,经过图像表示网络输出图像上下文特征向量;以及以所述文本注意力特征为输入,经过文本表示网络输出文本上下文特征向量;
统一语义模块,用于根据所述图像上下文特征向量和所述文本上下文特征向量,利用对抗学习确定统一语义表示;
搜索模块,用于基于所述统一语义表示进行搜索。
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本说明书一个或多个实施例时可以把各模块的功能在同一个或多个软件和/或硬件中实现。
上述实施例的装置用于实现前述实施例中相应的方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
图4示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图, 该设备可以包括:处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线 1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。
处理器1010可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。
存储器1020可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1020中,并由处理器1010来调用执行。
输入/输出接口1030用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口1040用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
上述实施例的电子设备用于实现前述实施例中相应的方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本公开的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本说明书一个或多个实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。
另外,为简化说明和讨论,并且为了不会使本说明书一个或多个实施例难以理解,在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本说明书一个或多个实施例难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本说明书一个或多个实施例的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本公开的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本说明书一个或多个实施例。因此,这些描述应被认为是说明性的而不是限制性的。
尽管已经结合了本公开的具体实施例对本公开进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM))可以使用所讨论的实施例。
本说明书一个或多个实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本说明书一个或多个实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本公开的保护范围之内。

Claims (10)

1.跨媒体大数据搜索方法,其特征在于,包括:
分别提取图像数据的图像语义特征和文本数据的文本语义特征;
计算所述图像语义特征和文本语义特征之间的相似度,根据所述相似度分别确定图像注意力特征和文本注意力特征;
以所述图像注意力特征为输入,经过图像表示网络输出图像上下文特征向量;
以所述文本注意力特征为输入,经过文本表示网络输出文本上下文特征向量;
根据所述图像上下文特征向量和所述文本上下文特征向量,利用对抗学习确定统一语义表示;
基于所述统一语义表示进行搜索。
2.根据权利要求1所述的方法,其特征在于,根据所述相似度确定图像注意力特征,包括:
对于所述图像数据的每个图像区域,计算所述文本数据的所有文本片段的注意力权值;
根据每个图像区域的图像语义特征和所述注意力权值,计算所述图像注意力特征。
3.根据权利要求1所述的方法,其特征在于,根据所述相似度确定文本注意力特征,包括:
对于所述文本数据的每个文本片段,计算所述图像数据的所有图像区域的注意力权值;
根据每个文本片段的文本语义特征和所述注意力权值,计算文本注意力特征。
4.根据权利要求1所述的方法,其特征在于,所述分别提取图像数据的图像语义特征和文本数据的文本语义特征之前,还包括:
获取查询内容;
对所述查询内容进行语义扩展,得到语义扩展后的查询内容;所述语义扩展后的查询内容包括图像数据和文本数据。
5.根据权利要求1所述的方法,其特征在于,所述利用对抗学习确定统一语义表示之后,还包括:
对所述统一语义表示进行哈希二值化处理,得到二值化的统一语义表示。
6.一种跨媒体大数据搜索装置,其特征在于,包括:
语义特征提取模块,用于分别提取图像数据的图像语义特征和文本数据的文本语义特征;
注意力特征提取模块,用于计算所述图像语义特征和文本语义特征之间的相似度,根据所述相似度分别确定图像注意力特征和文本注意力特征;
上下文特征提取模块,用于以所述图像注意力特征为输入,经过图像表示网络输出图像上下文特征向量;以及以所述文本注意力特征为输入,经过文本表示网络输出文本上下文特征向量;
统一语义模块,用于根据所述图像上下文特征向量和所述文本上下文特征向量,利用对抗学习确定统一语义表示;
搜索模块,用于基于所述统一语义表示进行搜索。
7.根据权利要求6所述的装置,其特征在于,
所述注意力特征提取模块,用于对于所述图像数据的每个图像区域,计算所述文本数据的所有文本片段的注意力权值;以及根据每个图像区域的图像语义特征和所述注意力权值,计算所述图像注意力特征。
8.根据权利要求6所述的装置,其特征在于,
所述注意力特征提取模型,用于对于所述文本数据的每个文本片段,计算所述图像数据的所有图像区域的注意力权值;以及根据每个文本片段的文本语义特征和所述注意力权值,计算文本注意力特征。
9.根据权利要求6所述的装置,其特征在于,还包括:
获取模块,用于获取查询内容;以及对所述查询内容进行语义扩展,得到语义扩展后的查询内容;所述语义扩展后的查询内容包括图像数据和文本数据。
10.根据权利要求6所述的装置,其特征在于,还包括:
哈希处理模块,用于对确定出的统一语义表示进行哈希二值化处理,得到二值化的统一语义表示。
CN202110787827.1A 2021-07-13 2021-07-13 跨媒体大数据搜索方法及装置 Active CN113239237B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110787827.1A CN113239237B (zh) 2021-07-13 2021-07-13 跨媒体大数据搜索方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110787827.1A CN113239237B (zh) 2021-07-13 2021-07-13 跨媒体大数据搜索方法及装置

Publications (2)

Publication Number Publication Date
CN113239237A true CN113239237A (zh) 2021-08-10
CN113239237B CN113239237B (zh) 2021-11-30

Family

ID=77135396

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110787827.1A Active CN113239237B (zh) 2021-07-13 2021-07-13 跨媒体大数据搜索方法及装置

Country Status (1)

Country Link
CN (1) CN113239237B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070299838A1 (en) * 2006-06-02 2007-12-27 Behrens Clifford A Concept based cross media indexing and retrieval of speech documents
CN106095893A (zh) * 2016-06-06 2016-11-09 北京大学深圳研究生院 一种跨媒体检索方法
CN110147457A (zh) * 2019-02-28 2019-08-20 腾讯科技(深圳)有限公司 图文匹配方法、装置、存储介质及设备
CN110502743A (zh) * 2019-07-12 2019-11-26 北京邮电大学 基于对抗学习和语义相似度的社交网络跨媒体搜索方法
CN111026894A (zh) * 2019-12-12 2020-04-17 清华大学 基于可信度自适应匹配网络的跨模态图像文本检索方法
CN111639240A (zh) * 2020-05-14 2020-09-08 山东大学 一种基于注意力感知机制的跨模态哈希检索方法及系统
CN112966127A (zh) * 2021-04-07 2021-06-15 北方民族大学 一种基于多层语义对齐的跨模态检索方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070299838A1 (en) * 2006-06-02 2007-12-27 Behrens Clifford A Concept based cross media indexing and retrieval of speech documents
CN106095893A (zh) * 2016-06-06 2016-11-09 北京大学深圳研究生院 一种跨媒体检索方法
CN110147457A (zh) * 2019-02-28 2019-08-20 腾讯科技(深圳)有限公司 图文匹配方法、装置、存储介质及设备
CN110502743A (zh) * 2019-07-12 2019-11-26 北京邮电大学 基于对抗学习和语义相似度的社交网络跨媒体搜索方法
CN111026894A (zh) * 2019-12-12 2020-04-17 清华大学 基于可信度自适应匹配网络的跨模态图像文本检索方法
CN111639240A (zh) * 2020-05-14 2020-09-08 山东大学 一种基于注意力感知机制的跨模态哈希检索方法及系统
CN112966127A (zh) * 2021-04-07 2021-06-15 北方民族大学 一种基于多层语义对齐的跨模态检索方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
MEIYU LIANG等: "cross-media semantic correlation learning based on deep hash network and semantic expansion for social network cross-media search", 《IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS》 *
YANG LI等: "cross-media retrieval of tourism big data based on deep features and topics semantics", 《INTELLIGENT DATA ENGINEERING AND AUTOMATED LEARNING》 *
刘翀等: "一种基于对抗学习和语义相似度的社交网络跨媒体搜索方法", 《中国科学:信息科学》 *
李欣蔚: "跨模态检索关键技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Also Published As

Publication number Publication date
CN113239237B (zh) 2021-11-30

Similar Documents

Publication Publication Date Title
US11314806B2 (en) Method for making music recommendations and related computing device, and medium thereof
US8781255B2 (en) Methods and apparatus for visual search
CN110069709B (zh) 意图识别方法、装置、计算机可读介质及电子设备
CN110968654B (zh) 文本数据的地址类目确定方法、设备以及系统
CN110929080B (zh) 基于注意力和生成对抗网络的光学遥感图像检索方法
CN109905385B (zh) 一种webshell检测方法、装置及系统
CN116431847B (zh) 基于多重对比和双路对抗的跨模态哈希检索方法及设备
CN112632224B (zh) 基于案例知识图谱的案件推荐方法、装置和电子设备
CN104915673A (zh) 一种基于视觉词袋模型的目标分类方法和系统
US11645478B2 (en) Multi-lingual tagging for digital images
Luo et al. Kayak and sailboat detection based on the improved YOLO with Transformer
CN113535912B (zh) 基于图卷积网络和注意力机制的文本关联方法及相关设备
CN113435531A (zh) 零样本图像分类方法、系统、电子设备及存储介质
CN110889290B (zh) 文本编码方法和设备、文本编码有效性检验方法和设备
Farhangi et al. Informative visual words construction to improve bag of words image representation
CN113239237B (zh) 跨媒体大数据搜索方法及装置
CN116663008A (zh) 漏洞检测方法、装置、电子设备、存储介质及程序产品
CN115168575A (zh) 应用于审计领域的主语补全方法及相关设备
CN115618099A (zh) 神经网络架构搜索的方法、装置及电子设备
Olaode et al. Adaptive bag‐of‐visual word modelling using stacked‐autoencoder and particle swarm optimisation for the unsupervised categorisation of images
Kabbai et al. Hybrid local and global descriptor enhanced with colour information
Yang et al. PLSAV: Parallel loop searching and verifying for loop closure detection
CN117093715B (zh) 词库扩充方法、系统、计算机设备及存储介质
CN117830601B (zh) 一种基于弱监督的三维视觉定位方法、装置、设备及介质
Li et al. Compact descriptor for local feature using dominating centre‐symmetric local binary pattern

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant