CN109816039A - 一种跨模态信息检索方法、装置和存储介质 - Google Patents
一种跨模态信息检索方法、装置和存储介质 Download PDFInfo
- Publication number
- CN109816039A CN109816039A CN201910099972.3A CN201910099972A CN109816039A CN 109816039 A CN109816039 A CN 109816039A CN 201910099972 A CN201910099972 A CN 201910099972A CN 109816039 A CN109816039 A CN 109816039A
- Authority
- CN
- China
- Prior art keywords
- mode information
- information
- feature
- mode
- fusion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/254—Fusion techniques of classification results, e.g. of results related to same input data
- G06F18/256—Fusion techniques of classification results, e.g. of results related to same input data of results relating to different input data, e.g. multimodal recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/53—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
Abstract
本公开涉及一种跨模态信息检索方法、装置和存储介质,其中,该方法包括:获取第一模态信息和第二模态信息;对所述第一模态信息的模态特征和所述第二模态信息的模态特征进行特征融合,确定所述第一模态信息对应的第一融合特征以及所述第二模态信息对应的第二融合特征;基于所述第一融合特征和所述第二融合特征,确定所述第一模态信息和所述第二模态信息的相似度。通过本公开实施例提供的跨模态信息检索方案,在跨模态信息检索过程中考虑跨模态信息之间的内在联系,提高跨模态信息检索结果的准确性。
Description
技术领域
本公开涉及计算机技术领域,尤其涉及一种跨模态信息检索方法、装置和存储介质。
背景技术
随着计算机网络的发展,用户可以在网络中获取大量的信息。由于信息数量的庞大, 通常用户可以通过输入文字或者图片检索关注的信息。在信息检索技术不断优化的过程 中,跨模态检索方式应运而生。跨模态检索方式可以实现利用某一种模态信息,搜索近似语义的其他模态信息。例如,利用图像来检索相应的文本,或者,利用文本来检索相 应的图像。
但是,在相关的跨模态信息检索方式中,以文本-图片的跨模态方式为例,大多数跨 模态检索方式关注于文本与图片在同一个向量空间中的特征,然后利用特征在同一个向 量空间中的距离来衡量文本与图片的相似度。然而,文本与图片通常存在更深层次的内在联系,从而检索结果不够准确。
发明内容
有鉴于此,本公开提出了一种跨模态信息检索方法、装置和存储介质,可以考虑跨模态信息的内在联系,提高检索结果的准确性。
根据本公开的一方面,提供了一种跨模态信息检索方法,所述方法包括:
获取第一模态信息和第二模态信息;
对所述第一模态信息的模态特征和所述第二模态信息的模态特征进行特征融合,确 定所述第一模态信息对应的第一融合特征以及所述第二模态信息对应的第二融合特征;
基于所述第一融合特征和所述第二融合特征,确定所述第一模态信息和所述第二模 态信息的相似度。
在一种可能的实现方式中,对所述第一模态信息的模态特征和所述第二模态信息的 模态特征进行特征融合,确定所述第一模态信息对应的第一融合特征以及所述第二模态 信息对应的第二融合特征,包括:
基于所述第一模态信息的模态特征和所述第二模态信息的模态特征,确定所述第一 模态信息与所述第二模态信息进行特征融合的融合门限参数;
在所述融合门限参数的作用下,对所述第一模态信息的模态特征和所述第二模态信 息的模态特征进行特征融合,确定所述第一模态信息对应的第一融合特征以及所述第二 模态信息对应的第二融合特征;其中,所述融合门限参数用于根据特征之间的匹配程度配置于特征融合后的融合特征,其中,特征之间的匹配程度越低,特征融合参数越小。
在一种可能的实现方式中,所述基于所述第一模态信息的模态特征和所述第二模态 信息的模态特征,确定所述第一模态信息与所述第二模态信息进行特征融合的融合门限 参数,包括:
根据所述第一模态信息的模态特征和所述第二模态信息的模态特征,确定所述第一 模态信息对于所述第二模态信息关注的第二注意力特征;
根据所述第一模态信息的模态特征和所述第二注意力特征,确定所述第一模态信息 对应的第一融合门限参数。
在一种可能的实现方式中,所述确定所述第一模态信息对于所述第二模态信息关注 的第二注意力特征,包括:
所述第一模态信息包括至少一个信息单元,所述第二模态信息包括至少一个信息单 元;
获取所述第一模态信息的每个信息单元的第一模态特征;
获取所述第二模态信息的每个信息单元的第二模态特征;
根据所述第一模态特征和所述第二模态特征,确定所述第一模态信息的每个信息单 元与所述第二模态信息的每个信息单元之间的注意力权重;
根据所述注意力权重和所述第二模态特征,确定所述第一模态信息的每个信息单元 对所述第二模态信息关注的第二注意力特征。
在一种可能的实现方式中,所述基于所述第一模态信息的模态特征和所述第二模态 信息的模态特征,确定所述第一模态信息与所述第二模态信息进行特征融合的融合门限 参数,包括:
根据所述第一模态信息的模态特征和所述第二模态信息的模态特征,确定所述第二 模态信息对于所述第一模态信息关注的第一注意力特征;
根据所述第二模态信息的模态特征和所述第一注意力特征,确定所述第二模态信息 对应的第二融合门限参数。
在一种可能的实现方式中,所述根据所述第一模态信息的模态特征和所述第二模态 信息的模态特征,确定所述第二模态信息对于所述第一模态信息关注的第一注意力特征, 包括:
所述第一模态信息包括至少一个信息单元,所述第二模态信息包括至少一个信息单 元;
获取所述第一模态信息的每个信息单元的第一模态特征;
获取所述第二模态信息的每个信息单元的第二模态特征;
根据所述第一模态特征和所述第二模态特征,确定所述第一模态信息的每个信息单 元与所述第二模态信息的每个信息单元之间的注意力权重;
根据所述注意力权重和所述第一模态特征,确定所述第二模态信息的每个信息单元 对所述第一模态信息关注的第一注意力特征。
在一种可能的实现方式中,所述确定所述第一模态信息对应的第一融合特征,包括:
根据所述第一模态信息的模态特征和所述第二模态信息的模态特征,确定所述第一 模态信息对于所述第二模态信息关注的第二注意力特征;
利用所述融合门限参数对所述第一模态信息的模态特征和所述第二注意力特征进行 特征融合,确定第一模态信息对应的第一融合特征。
在一种可能的实现方式中,所述利用所述融合门限参数对所述第一模态信息的模态 特征和所述第二注意力特征进行特征融合,确定第一模态信息对应的第一融合特征,包括:
对所述第一模态信息的模态特征和所述第二注意力特征进行特征融合,得到第一融 合结果;
将所述融合门限参数作用于所述第一融合结果,得到作用后的第一融合结果;
基于作用后的第一融合结果和所述第一模态特征,确定所述第一模态信息对应的第 一融合特征。
在一种可能的实现方式中,所述确定所述第二模态信息对应的第二融合特征,包括:
根据所述第一模态信息的模态特征和所述第二模态信息的模态特征,确定所述第二 模态信息对于所述第一模态信息关注的第一注意力特征;
根据所述第二模态信息的模态特征和所述第一注意力特征,确定第二模态信息对应 的第二融合特征。
在一种可能的实现方式中,所述根据所述第二模态信息的模态特征和所述第一注意 力特征,确定第二模态信息对应的第二融合特征,包括:
对所述第二模态信息的模态特征和所述第一注意力特征进行特征融合,得到第二融 合结果;
将所述融合门限参数作用于所述第二融合结果,得到作用后的第二融合结果;
基于作用后的第二融合结果和所述第二模态特征,确定所述第二模态信息对应的第 二融合特征。
在一种可能的实现方式中,所述基于所述第一融合特征和所述第二融合特征,确定 所述第一模态信息和所述第二模态信息的相似度,包括:
基于所述第一融合特征的第一注意力信息与所述第二融合特征量的第二注意力信息, 确定所述第一模态信息和所述第二模态信息的相似度。
在一种可能的实现方式中,所述第一模态信息为第一模态的待检索信息,所述第二 模态信息为第二模态的预存信息;所述方法还包括:
在所述相似度满足预设条件的情况下,将所述第二模态信息作为所述第一模态信息 的检索结果。
在一种可能的实现方式中,所述第二模态信息为多个;所述在所述相似度满足预设 条件的情况下,将所述第二模态信息作为所述第一模态信息的检索结果,包括:
根据所述第一模态信息与每个第二模态信息的相似度,对多个第二模态信息进行排 序,得到排序结果;
根据所述排序结果,确定相似度满足所述预设条件的第二模态信息;
将相似度满足所述预设条件的第二模态信息作为所述第一模态信息的检索结果。
在一种可能的实现方式中,所述预设条件包括以下任一条件:
相似度大于预设值;相似度由小至大的排名大于预设排名。
在一种可能的实现方式中,所述第一模态信息包括文本信息或图像信息中的一种模 态信息;所述第二模态信息包括文本信息或图像信息中的另一种模态信息。
在一种可能的实现方式中,所述第一模态信息为第一模态的训练样本信息,所述第 二模态信息为第二模态的训练样本信息;每个第一模态的训练样本信息与第二模态的训 练样本信息形成训练样本对。
在一种可能的实现方式中,所述方法还包括:
所述训练样本对包括正样本对和负样本对;
获取每一训练样本对之间的相似度;
根据所述正样本对中模态信息匹配程度最高的正样本对的相似度,以及所述负样本 对中匹配程度最低的负样本对的相似度,确定所述第一模态信息与所述第二模态信息特 征融合过程中的损失;
根据所述损失对所述第一模态信息与所述第二模态信息特征融合过程所利用的跨模 态信息检索模型的模型参数进行调整。
根据本公开的另一方面,提供了一种跨模态信息检索装置,所述装置包括:
获取模块,用于获取第一模态信息和第二模态信息;
融合模块,用于对所述第一模态信息的模态特征和所述第二模态信息的模态特征进 行特征融合,确定所述第一模态信息对应的第一融合特征以及所述第二模态信息对应的 第二融合特征;
确定模块,用于基于所述第一融合特征和所述第二融合特征,确定所述第一模态信 息和所述第二模态信息的相似度。
在一种可能的实现方式中,所述融合模块包括:
确定子模块,用于基于所述第一模态信息的模态特征和所述第二模态信息的模态特 征,确定所述第一模态信息与所述第二模态信息进行特征融合的融合门限参数;
融合子模块,用于在所述融合门限参数的作用下,对所述第一模态信息的模态特征 和所述第二模态信息的模态特征进行特征融合,确定所述第一模态信息对应的第一融合 特征以及所述第二模态信息对应的第二融合特征;其中,所述融合门限参数用于根据特征之间的匹配程度配置于特征融合后的融合特征,其中,特征之间的匹配程度越低,特 征融合参数越小。
在一种可能的实现方式中,所述确定子模块包括:
第二注意力确定单元,用于根据所述第一模态信息的模态特征和所述第二模态信息 的模态特征,确定所述第一模态信息对于所述第二模态信息关注的第二注意力特征;
第一门限确定单元,用于根据所述第一模态信息的模态特征和所述第二注意力特征, 确定所述第一模态信息对应的第一融合门限参数。
在一种可能的实现方式中,所述第一模态信息包括至少一个信息单元,所述第二模 态信息包括至少一个信息单元;所述第二注意力确定单元,具体用于,
获取所述第一模态信息的每个信息单元的第一模态特征;
获取所述第二模态信息的每个信息单元的第二模态特征;
根据所述第一模态特征和所述第二模态特征,确定所述第一模态信息的每个信息单 元与所述第二模态信息的每个信息单元之间的注意力权重;
根据所述注意力权重和所述第二模态特征,确定所述第一模态信息的每个信息单元 对所述第二模态信息关注的第二注意力特征。
在一种可能的实现方式中,所述确定子模块包括:
第一注意力确定单元,用于根据所述第一模态信息的模态特征和所述第二模态信息 的模态特征,确定所述第二模态信息对于所述第一模态信息关注的第一注意力特征;
第二门限确定单元,用于根据所述第二模态信息的模态特征和所述第一注意力特征, 确定所述第二模态信息对应的第二融合门限参数。
在一种可能的实现方式中,所述第一模态信息包括至少一个信息单元,所述第二模 态信息包括至少一个信息单元;所述第一注意力确定单元,具体用于,
获取所述第一模态信息的每个信息单元的第一模态特征;
获取所述第二模态信息的每个信息单元的第二模态特征;
根据所述第一模态特征和所述第二模态特征,确定所述第一模态信息的每个信息单 元与所述第二模态信息的每个信息单元之间的注意力权重;
根据所述注意力权重和所述第一模态特征,确定所述第二模态信息的每个信息单元 对所述第一模态信息关注的第一注意力特征。
在一种可能的实现方式中,所述融合子模块包括:
第二注意力确定单元,用于根据所述第一模态信息的模态特征和所述第二模态信息 的模态特征,确定所述第一模态信息对于所述第二模态信息关注的第二注意力特征;
第一融合单元,用于利用所述融合门限参数对所述第一模态信息的模态特征和所述 第二注意力特征进行特征融合,确定第一模态信息对应的第一融合特征。
在一种可能的实现方式中,所述第一融合单元,具体用于,
对所述第一模态信息的模态特征和所述第二注意力特征进行特征融合,得到第一融 合结果;
将所述融合门限参数作用于所述第一融合结果,得到作用后的第一融合结果;
基于作用后的第一融合结果和所述第一模态特征,确定所述第一模态信息对应的第 一融合特征。
在一种可能的实现方式中,所述融合子模块包括:
第一注意力确定单元,用于根据所述第一模态信息的模态特征和所述第二模态信息 的模态特征,确定所述第二模态信息对于所述第一模态信息关注的第一注意力特征;
第二融合单元,用于根据所述第二模态信息的模态特征和所述第一注意力特征,确 定第二模态信息对应的第二融合特征。
在一种可能的实现方式中,所述第二融合单元,具体用于,
对所述第二模态信息的模态特征和所述第一注意力特征进行特征融合,得到第二融 合结果;
将所述融合门限参数作用于所述第二融合结果,得到作用后的第二融合结果;
基于作用后的第二融合结果和所述第二模态特征,确定所述第二模态信息对应的第 二融合特征。
在一种可能的实现方式中,所述确定模块,具体用于,
基于所述第一融合特征的第一注意力信息与所述第二融合特征量的第二注意力信息, 确定所述第一模态信息和所述第二模态信息的相似度。
在一种可能的实现方式中,所述第一模态信息为第一模态的待检索信息,所述第二 模态信息为第二模态的预存信息;所述装置还包括:
检索结果确定模块,用于在所述相似度满足预设条件的情况下,将所述第二模态信 息作为所述第一模态信息的检索结果。
在一种可能的实现方式中,所述第二模态信息为多个;所述检索结果确定模块包括:
排序子模块,用于根据所述第一模态信息与每个第二模态信息的相似度,对多个第 二模态信息进行排序,得到排序结果;
信息确定子模块,用于根据所述排序结果,确定相似度满足所述预设条件的第二模 态信息;
检索结果确定子模块,用于将相似度满足所述预设条件的第二模态信息作为所述第 一模态信息的检索结果。
在一种可能的实现方式中,所述预设条件包括以下任一条件:
相似度大于预设值;相似度由小至大的排名大于预设排名。
在一种可能的实现方式中,所述第一模态信息包括文本信息或图像信息中的一种模 态信息;所述第二模态信息包括文本信息或图像信息中的另一种模态信息。
在一种可能的实现方式中,所述第一模态信息为第一模态的训练样本信息,所述第 二模态信息为第二模态的训练样本信息;每个第一模态的训练样本信息与第二模态的训 练样本信息形成训练样本对。
在一种可能的实现方式中,所述训练样本对包括正样本对和负样本对;所述装置还 包括:反馈模块,用于,
获取每一训练样本对之间的相似度;
根据所述正样本对中模态信息匹配程度最高的正样本对的相似度,以及所述负样本 对中匹配程度最低的负样本对的相似度,确定所述第一模态信息与所述第二模态信息特 征融合过程中的损失;
根据所述损失对所述第一模态信息与所述第二模态信息特征融合过程所利用的跨模 态信息检索模型的模型参数进行调整。
根据本公开的另一方面,提供了一种跨模态信息检索装置,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为执行上述方法。
根据本公开的另一方面,提供了一种非易失性计算机可读存储介质,其上存储有计 算机程序指令,其中,所述计算机程序指令被处理器执行时实现上述方法。
本公开实施例通过获取第一模态信息和第二模态信息,对第一模态信息的模态特征 和第二模态信息的模态特征进行特征融合,确定第一模态信息对应的第一融合特征以及 第二模态信息对应的第二融合特征,然后利用确定的第一融合特征和第二融合特征,确定第一模态信息与第二模态信息之间的相似度。这样,可以通过对不同模态信息进行特 征融合的方式,得到不同模态信息之间的相似度,相比于现有技术方案中利用不同模态 信息的特征在同一个向量空间的距离确定相似度的方式,本公开实施例考虑不同模态信 息之间存在的内在联系,通过对不同模态信息进行特征融合的方式确定不同模态信息之 间相似度,提高跨模态信息检索的准确性。
根据下面参考附图对示例性实施例的详细说明,本公开的其它特征及方面将变得清 楚。
附图说明
包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本公开的示例 性实施例、特征和方面,并且用于解释本公开的原理。
图1示出根据本公开一实施例的跨模态信息检索方法的流程图。
图2示出根据本公开一实施例的确定融合特征的流程图。
图3示出根据本公开一实施例的图像信息包括多个图像单元的框图。
图4示出根据本公开一实施例的确定第一注意力特征过程的框图。
图5示出根据本公开一实施例的确定第一融合特征的过程的框图。
图6示出根据本公开一实施例的跨模态信息检索的流程图。
图7示出根据本公开一实施例的跨模态信息检索模型的训练过程的框图。
图8示出根据本公开一实施例的一种跨模态信息检索装置的框图。
图9是根据一示例性实施例的一种跨模态信息检索装置的框图。
具体实施方式
以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的 附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说 明的任何实施例不必解释为优于或好于其它实施例。
另外,为了更好的说明本公开,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本公开同样可以实施。在一些实例中, 对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本公开 的主旨。
本申请实施例下述方法、装置、电子设备或存储介质可以应用于任何需要对跨模态 信息进行检索的场景,比如,可以应用于检索软件、信息定位等。本申请实施例并不对具体的应用场景作限制,任何使用本申请实施例提供的方法对跨模态信息进行检索的方案均在本申请保护范围内。
本公开实施例提供的跨模态信息检索方案,可以分别获取第一模态信息和第二模态 信息,然后可以基于第一模态信息的模态特征和第二模态信息的模态特征,对第一模态信息的模态特征和第二模态信息的模态特征进行特征融合,得到第一模态信息对应的第一融合特征以及第二模态信息对应的第二融合特征,从而可以将考虑第一模态信息与第二模态信息之间的内在联系,这样,在确定第一模态信息和第二模态信息的相似度时, 可以利用得到的两个融合特征对不同模态信息之间的相似度进行衡量,考虑到不同模态 信息之间的内在联系,提高跨模态信息检索的准确性。
在相关技术中,在进行跨模态信息检索时,通常是根据文本与图像在同一个向量空 间中的特征向量来确定文本与图像的相似度,这种方式并未考虑不同模态信息之间的内 在联系,例如,文本中的名词通常会对应到图片中的某些区域,再例如,文本中的量词会对应到图片中特定的某些物品。显然,当前的跨模态信息的检索方式中没有考虑到跨 模态信息之间的内在联系,从而导致跨模态信息的检索结果不够准确。本公开实施例考 虑到跨模态信息之间的内在联系,提高跨模态信息检索过程中的准确率。下面,结合附 图对本公开实施例提供的跨模态信息检索方案进行详细说明。
图1示出根据本公开一实施例的跨模态信息检索方法的流程图。如图1所示,该方法 包括:
步骤11,获取第一模态信息和第二模态信息。
在本公开实施例中,检索装置(例如,检索软件、检索平台、检索服务器等检索装置)可以获取第一模态信息或者第二模态信息。例如,检索设备获取用户设备传输的第 一模态信息或第二模态信息;再例如,检索设备根据用户操作获取第一模态信息或者第 二模态信息。检索平台还可以在本地存储或数据库中获取第一模态信息或者第二模态信 息。这里,第一模态信息和第二模态信息为不同模态的信息,例如,第一模态信息可以 包括文本信息或图像信息中的一种模态信息,第二模态信息包括文本信息或图像信息中 的一种模态信息。这里的第一模态信息和第二模态信息不仅限于图像信息和文本信息, 还可以包括语音信息、视频信息和光信号信息等。这里的模态可以理解为信息的种类或 者存在形式。第一模态信息和第二模态信息可以为不同模态的信息。
步骤12,对所述第一模态信息的模态特征和所述第二模态信息的模态特征进行特征 融合,确定所述第一模态信息对应的第一融合特征以及所述第二模态信息对应的第二融 合特征。
这里,在获取第一模态信息和第二模态信息之后,可以分别对第一模态信息和第二 模态信息进行特征提取,确定第一模态信息的模态特征和第二模态信息的模态特征。第一模态信息的模态特征可以形成第一模态特征向量,第二模态信息的模态特征可以形成第二模态特征向量。然后可以根据第一模态特征向量和第二模态特征向量,对第一模态 信息和第二模态信息进行特征融合。这里,在对第一模态信息和第二模态信息进行特征 融合时,可以先将第一模态特征向量和第二模态特征向量映射为相同向量空间的特征向 量,然后对进行映射后得到的两个特征向量进行特征融合。这种特征融合的方式简单, 但是无法很好地捕捉第一模态信息和第二模态信息之间特征的匹配程度。本公开实施例 还提供了另一种特征融合的方式,可以很好地捕捉第一模态信息和第二模态信息之间特 征的匹配程度。
图2示出根据本公开一实施例的确定融合特征的流程图,可以包括以下步骤:
步骤121,基于所述第一模态信息的模态特征和所述第二模态信息的模态特征,确定 所述第一模态信息与所述第二模态信息进行特征融合的融合门限参数;
步骤122,在所述融合门限参数的作用下,对所述第一模态信息的模态特征和所述第 二模态信息的模态特征进行特征融合,确定所述第一模态信息对应的第一融合特征以及 所述第二模态信息对应的第二融合特征;其中,所述融合门限参数用于根据特征之间的匹配程度配置于特征融合后的融合特征,其中,特征之间的匹配程度越低,特征融合参 数越小。
这里,在对第一模态信息的模态特征和第二模态信息的模态特征进行特征融合时, 可以先根据第一模态信息的模态特征和第二模态信息的模态特征,确定第一模态信息的 模态特征与第二模态信息的模态特征进行特征融合的融合门限参数,再利用融合门限参 数对第一模态信息和第二模态信息进行特征融合。融合门限参数可以根据特征之前的匹 配程度进行设置,特征之间的匹配程度越高,特征融合参数越大,从而可以在特征融合过程中,保留相匹配的特征,过滤不匹配的特征,确定第一模态信息对应的第一融合特 征以及第二模态信息对应的第二融合特征。通过在特征融合过程中设置融合门限参数, 可以在跨模态信息的检索过程中很好地捕捉第一模态信息和第二模态信息之间特征的匹 配程度。
鉴于融合门限参数可以使第一模态信息和第二模态信息更好地进行融合,下面对确 定融合门限参数的过程进行说明。
在一种可能的实现方式中,融合门限参数可以包括第一融合门限参数和第二融合门 限参数。第一融合门限参数可以对应于第一模态信息,第二融合门限参数可以对应与第二模态信息。在确定融合门限参数时,可以分别确定第一融合门限参数和第二融合门限 参数。在确定第一融合门限参数时,可以根据第一模态信息的模态特征和第二模态信息 的模态特征,确定第一模态信息对于第二模态信息关注的第二注意力特征,然后根据第 一模态信息的模态特征和第二注意力特征,确定第一模态信息对应的第一融合门限参数。 相应地,在确定第二融合门限参数时,可以根据第一模态信息的模态特征和第二模态信 息的模态特征,确定第二模态信息对于第一模态信息关注的第一注意力特征,然后根据 第二模态信息的模态特征和第一注意力特征,确定第二模态信息对应的第二融合门限参 数。
这里,第一模态信息可以包括至少一个信息单元,相应地,第二模态信息可以包括至少一个信息单元。每个信息单元的尺寸可以相同或者不同,每个信息单元之间可以存 在交叠。例如,在第一模态信息或第二模态信息为图像信息的情况下,图像信息可以包 括多个图像单元,每个图像单元的尺寸可以相同或者不同,每个图像单元之间可以存在 交叠。图3示出根据本公开一实施例的图像信息包括多个图像单元的框图,如图3所示, 图像单元a对应人物的帽子区域,图像单元b对应人物的耳朵区域,图像单元c对应人物的 眼部区域。图像单元a、图像单元b和图像单元c的尺寸不同,并且,图像单元a与图像单 元b之间存在交叠部分。
在一种可能的实现方式中,在确定第一模态信息对于第二模态信息关注的第二注意 力特征时,检索装置可以获取第一模态信息的每个信息单元的第一模态特征,以及,获取第二模态信息的每个信息单元的第二模态特征。然后根据第一模态特征和第二模态特征,确定第一模态信息的每个信息单元与第二模态信息的每个信息单元之间的注意力权重,再根据注意力权重和第二模态特征,确定第一模态信息的每个信息单元对第二模态 信息关注的第二注意力特征。
相应地,在确定第二模态信息对于第一模态信息关注的第一注意力特征时,检索装 置可以获取第一模态信息的每个信息单元的第一模态特征,以及,获取第二模态信息的每个信息单元的第二模态特征。然后根据第一模态特征和第二模态特征,确定第一模态 信息的每个信息单元与第二模态信息的每个信息单元之间的注意力权重,再根据注意力 权重和第一模态特征,确定第二模态信息的每个信息单元对第一模态信息关注的第一注 意力特征。
图4示出根据本公开一实施例的确定第一注意力特征过程的框图。举例来说,以第一 模态信息为图像信息、第二模态信息为文本信息为例,检索装置可以获取图像信息每个图像单元的图像特征向量(第一模态特征的示例),图像单元的图像特征向量可以表示为:其中,R为图像单元的个数,d为图像特征向量的维数, vi为第i个图像单元的图像特征向量,可以表示实数矩阵。相应地,检索装置可以获取 文本信息每个文本单元的文本特征向量(第二模态特征的示例),文本单元的文本特征向 量可以表示为:其中,T为文本单元的个数,d为文本特 征向量的维数,sj为第j个文本单元的文本特征向量。然后检索装置可以根据图像特征向 量和文本特征向量,确定图像特征向量和文本特征向量之间的关联矩阵,然后利用关联 矩阵确定图像信息的每个图像单元与文本信息的每个文本单元之间的注意力权重。图4中 的MATMUL可以表示相乘操作。
这里的关联矩阵可以表示为:其中,dh为矩阵的维数。可以是将图像特征映射至dh维数向量空间的映射矩阵,可以是将文本 特征映射至dh维数向量空间的映射矩阵。
利用关联矩阵确定的图像单元与文本单元之间的注意力权重可以表示为:其中,的第i行可以表示第i个文本单元对于图像单元的注意力权重。softmax可以表示归一化指数函数操作。
在得到图像单元与文本单元之间的注意力权重之后,可以再根据注意力权重和图像 特征,确定每个文本单元对图像信息关注的第一注意力特征。文本单元对图像信息关注的第一注意力特征可以表示为:其中,的第i行可以表示第i个文本单元关注的图像特征所具有的注意力权重,其中,i为小于或等于T的正整数。
相应地,利用关联矩阵确定的文本单元与图像单元之间的注意力权重可以表示为根据和S可以得到的文本单元对图像信息关注的第一注意力特征其中,的 第j行可以表示第j个图像单元关注的文本特征所具有的注意力权重,其中,j为小于或等 于R的正整数。
在本公开实施例中,检索装置在确定第一注意力特征和第二注意特征之后,可以根 据第一模态信息的模态特征和第二注意力特征,确定第一模态信息对应的第一融合门限 参数,以及,根据第二模态信息的模态特征和第一注意力特征,确定第二模态信息对应的第二融合门限参数。下面对确定第一融合门限参数和第二融合门限参数的过程进行说明。
以第一模态信息为图像信息、第二模态信息为文本信息为例,第一注意力特征可以 为第二注意力特征可以为在确定图像信息对应的第一融合门限参数时,可以根据以下公式:
其中,⊙可以表示点积操作,σ(·)可以表示S型函数, 可以表示vi与之间的融合门限值。如果一个图像单元与文本信息匹配程度 越高,融合门限值越大,进而可以促进融合操作。反之,如果一个图像单元与文本信息匹配程度越低,融合门限值越小,进而可以抑制融合操作。
图像信息的每个图像单元对应的第一融合门限参数可以表示为 通过相同的方式,可以得到文本信息的每个文本单元对应的第二融合门限参数:
在本公开实施例中,检索装置在确定融合门限参数之后,可以融合门限参数对第一 模态信息和第二模态信息进行特征融合。下面对第一模态信息和第二模态信息的特征融 合过程进行说明。
在一种可能的实现方式中,可以根据第一模态信息的模态特征和第二模态信息的模 态特征,确定第一模态信息对于第二模态信息关注的第二注意力特征,然后利用融合门限参数对第一模态信息的模态特征和第二注意力特征进行特征融合,确定第一模态信息对应的第一融合特征。
这里,在进行特征融合时,可以将第一模态信息的模态特征和第二注意力特征进行 特征融合,考虑了第一模态信息和第二模态信息之间的注意力信息,考虑了第一模态信息和第二模态信息之间的内在关联,使第一模态信息和第二模态信息更好地进行特征融合。
在一种可能的实现方式中,在利用融合门限参数对第一模态信息的模态特征和第二 注意力特征进行特征融合,确定第一模态信息对应的第一融合特征时,可以先对第一模态信息的模态特征和第二注意力特征进行特征融合,得到第一融合结果。然后将融合门 限参数作用于所述第一融合结果,得到作用后的第一融合结果,再基于作用后的第一融 合结果和第一模态特征,确定第一模态信息对应的第一融合特征。
这里,融合门限参数可以包括第一融合门限参数和第二融合门限参数,在对第一模 态信息的模态特征和第二注意力特征进行特征融合时,可以利用第一融合门限参数。即, 可以将第一融合门限参数作用于第一融合结果,进而确定第一融合特征。
下面结合附图对本公开实施例提供的确定第一模态信息对应的第一融合特征的过程 进行说明。
图5示出根据本公开一实施例的确定第一融合特征的过程的框图。
以第一模态信息为图像信息、第二模态信息为文本信息为例,图像信息每个图像单 元的图像特征向量(第一模态特征的示例)为V,图像信息第一注意力特征形成的第一注意力特征向量可以为文本信息每个文本单元的文本特征向量(第二模态特征的示例) 为S,图像信息第二注意力特征形成的第二注意力特征向量可以为检索装置可以对图 像特征向量V和第二注意力特征向量进行特征融合,得到第一融合结果然后将第 一融合参数Gv作用于得到作用后的第一融合结果然后根据作用后的 第一融合结果和图像特征向量V得到第一融合特征。
第一融合特征可以表示为:
其中,可以为图像信息对应融合参数,⊙可以表示点积操作,可以表示融 合操作,ReLU可以表示线性整流操作。
相应地,在一种可能的实现方式中,可以根据第一模态信息的模态特征和第二模态 信息的模态特征,确定第二模态信息对于第一模态信息关注的第一注意力特征,然后利用融合门限参数对第二模态信息的模态特征和第一注意力特征进行特征融合,确定第二模态信息对应的第二融合特征。
这里,在进行特征融合时,可以将第二模态信息的模态特征和第一注意力特征进行 特征融合,考虑了第一模态信息和第二模态信息之间的注意力信息,考虑了第一模态信息和第二模态信息之间的内在关联,使第一模态信息和第二模态信息更好地进行特征融合。
这里,在利用融合门限参数对第二模态信息的模态特征和第一注意力特征进行特征 融合,确定第二模态信息对应的第二融合特征时,可以先对第二模态信息的模态特征和第一注意力特征进行特征融合,得到第二融合结果。然后将融合门限参数作用于所述第 二融合结果,得到作用后的第二融合结果,再基于作用后的第二融合结果和第二模态特 征,确定第二模态信息对应的第二融合特征。
这里,在对第一模态信息的模态特征和第二注意力特征进行特征融合时,可以利用 第二融合门限参数。即,可以将第二融合门限参数作用于第二融合结果,进而确定第二融合特征。
第二融合特征的确定过程与第一融合特征的确定过程类似,在此不赘述。以第二模 态特征为文本信息为例,第二融合特征形成的第二融合特征向量可以表示为:
其中,可以为文本信息对应的融合参数,⊙可以表示点积操作,可以表示 融合操作,ReLU可以表示线性整流操作。
步骤13,基于所述第一融合特征和所述第二融合特征,确定所述第一模态信息和所 述第二模态信息的相似度。
在本公开实施方式中,检索装置可以根据第一融合特征形成的第一融合特征向量以 及第二融合特征形成的第二融合特征向量,确定所述第一模态信息和所述第二模态信息 的相似度。例如,可以对第一融合特征向量和第二融合特征向量再次进行特征融合操作, 或者,对第一融合特征向量和第二融合特征向量进行匹配操作等,确定第一模态信息和 第二模态信息的相似度。为了使得到的相似度更加准确,本公开实施例还提供了一种确定第一模态信息和所述第二模态信息的相似度的方式,下面本公开实施例提供确定相似度的过程进行说明。
在一种可能的实现方式中,在确定第一模态信息和第二模态信息的相似度时,可以 获取第一融合特征的第一注意力信息,以及,获取第二融合特征的第二注意力信息。然后可以基于第一融合特征的第一注意力信息与第二融合特征量的第二注意力信息,确定第一模态信息和第二模态信息的相似度。
举例来说,如果第一模态信息为图像信息的情况下,图像信息的第一融合特征向量对应R个图像单元。在根据第一融合特征向量确定第一注意力信息时,可以利用多个注意 力分支提取不同图像单元的注意力信息。以存在M个注意力分支,每个注意分支的处理过程如下:
其中,可以表示线性映射参数;i∈{1,…,M},可以表示第i个注意力分支;可 以表示来自第i个注意分支的R个图像单元的注意力信息;softmax可以表示归一化指数函 数;可以表示权重控制参数,可以控制注意力信息的大小,使得到的注意力信息在 合适的大小范围。
然后可以将来自M个注意分支的注意力信息进行聚合,并将聚合后的注意力信息取 平均值,作为最终第一融合特征的第一注意力信息。
第一注意力信息可以表示为:
相应地,第二注意力信息可以为
第一模态信息和第二模态信息的相似度可以表示为:
这里,m可以在0至1之间,1表示第一模态信息与第二模态信息相匹配,0表示第一模态信息与第二模态信息不匹配。可以根据m与0或1的距离确定第一模态信息与第二模 态信息的匹配程度。
通过上述跨模态信息检索的方式,考虑不同模态信息之间存在的内在联系,通过对 不同模态信息进行特征融合的方式确定不同模态信息之间相似度,提高跨模态信息检索 的准确性。
图6示出根据本公开一实施例的跨模态信息检索的流程图。第一模态信息可以为第一 模态的待检索信息,第二模态信息可以为第二模态的预存信息,该跨模态信息检索方法 可以包括:
步骤61,获取第一模态信息和第二模态信息;
步骤62,对所述第一模态信息的模态特征和所述第二模态信息的模态特征进行特征 融合,确定所述第一模态信息对应的第一融合特征以及所述第二模态信息对应的第二融 合特征;
步骤63,基于所述第一融合特征和所述第二融合特征,确定所述第一模态信息和所 述第二模态信息的相似度;
步骤64,在所述相似度满足预设条件的情况下,将所述第二模态信息作为所述第一 模态信息的检索结果。
这里,检索装置可以获取用户输入的第一模态信息,然后可以在本地存储或数据库 中获取第二模态信息。在通过上述步骤确定第一模态信息与第二模态信息的相似度满足 预设条件的情况下,可以将第二模态信息作为第一模态信息的检索结果。
在一种可能的实现方式中,第二模态信息为多个,在将第二模态信息作为第一模态 信息的检索结果时,可以根据第一模态信息与每个第二模态信息的相似度,对多个第二模态信息进行排序,得到排序结果。然后根据第二模态信息的排序结果,可以确定相似 度满足预设条件的第二模态信息。然后将相似度满足预设条件的第二模态信息作为第一 模态信息的检索结果。
这里,预设条件包括以下任一条件:
相似度大于预设值;相似度由小至大的排名大于预设排名。
举例来说,在将第二模态信息作为第一模态信息的检索结果时,可以在第一检索信 息与第二检索信息的相似度大于预设值时,将第二模态信息作为第一模态信息的检索结 果。或者,在将第二模态信息作为第一模态信息的检索结果时,可以根据第一模态信息与每个第二模态信息的相似度,按照相似度由小至大的顺序为多个第二模态信息进行排序,排序结果,然后根据排序结果,将排名大于预设排名的第二模态信息作为第一模态 信息的检索结果。例如,将排名最高的第二模态信息作为第一模态信息的检索结果,即 可以将相似度最大的第二模态信息作为第一模态信息的检索结果。这里,检索结果可以 为一个或多个。
这里,在将第二模态信息作为第一模态信息的检索结果之后,还可以向用户端输出 检索结果。例如,可以将用户端发送检索结果,或者,在显示界面上显示检索结果。
图7示出根据本公开一实施例的跨模态信息检索模型的训练过程的框图。第一模态信 息可以为第一模态的训练样本信息,第二模态信息为第二模态的训练样本信息;每个第 一模态的训练样本信息与第二模态的训练样本信息形成训练样本对。
在训练过程中,可以将每对训练样本对输入跨模态信息检索模型。以训练样本对为 图像-文本对为例,可以分别将图像-文本对中的图像样本和文本样本输入跨模态信息检索 模型,利用跨模态信息检索模型对图像样本和文本样本的模态特征进行提取。或者,将 图像样本的图像特征和文本样本的文本特征输入跨模态信息检索模型。然后可以利用跨 模态信息检索模型的跨模态注意力层确定第一模态信息与第二模态信息相互关注的第一 注意力特征和第二注意力信息然后再利用门限特征融合层对第一模态信息和第二模 态信息进行特征融合,得到第一模态信息对应的第一融合特征以及第二模态信息对应的 第二融合特征然后在利用自我注意力层确定第一融合特征自我关注的第一注意力信 息和第二融合特征自我关注的第二注意力信息然后在多层感知器MLP结构和S型函 数(sigmoidσ)的作用下,输出第一模态信息和第二模态信息之间的相似度m。
这里,训练样本对可以包括正样本对和负样本对。在对跨模态信息检索模型的训练 过程中,可以利用损失函数得到跨模态信息检索模型的损失,从而根据得到的损失对跨模态信息检索模型的模型采参数进行调整。
在一种可能的实现方式中,可以获取每一训练样本对之间的相似度,然后根据正样 本对中模态信息匹配程度最高的正样本对的相似度,以及负样本对中匹配程度最低的负 样本对的相似度,确定第一模态信息与第二模态信息特征融合过程中的损失。然后根据损失对第一模态信息与第二模态信息特征融合过程所利用的跨模态信息检索模型的模型参数进行调整。在本实现方式中,利用匹配程度最高的正样本对的相似度以及匹配程度 最低的负样本对的相似度确定训练过程中的损失,从而可以提高跨模态信息检索模型检 索跨模态信息准确性。
确定跨模态信息检索模型的损失可以通过以下方式:
其中,可以为计算的损失。可以表示样本对之间的相似度,为一组正样本对,和为相应的负样本对。
通过上述跨模态信息检索模型训练过程,利用匹配程度最高的正样本对的相似度以 及匹配程度最低的负样本对的相似度确定训练过程中的损失,从而可以提高跨模态信息 检索模型检索跨模态信息准确性。
图8示出根据本公开实施例的一种跨模态信息检索装置的框图,如图8所示,所述跨 模态信息检索装置,包括:
获取模块81,用于获取第一模态信息和第二模态信息;
融合模块82,用于对所述第一模态信息的模态特征和所述第二模态信息的模态特征 进行特征融合,确定所述第一模态信息对应的第一融合特征以及所述第二模态信息对应 的第二融合特征;
确定模块83,用于基于所述第一融合特征和所述第二融合特征,确定所述第一模态 信息和所述第二模态信息的相似度。
在一种可能的实现方式中,所述融合模块82包括:
确定子模块,用于基于所述第一模态信息的模态特征和所述第二模态信息的模态特 征,确定所述第一模态信息与所述第二模态信息进行特征融合的融合门限参数;
融合子模块,用于在所述融合门限参数的作用下,对所述第一模态信息的模态特征 和所述第二模态信息的模态特征进行特征融合,确定所述第一模态信息对应的第一融合 特征以及所述第二模态信息对应的第二融合特征;其中,所述融合门限参数用于根据特征之间的匹配程度配置于特征融合后的融合特征,其中,特征之间的匹配程度越低,特 征融合参数越小。
在一种可能的实现方式中,所述确定子模块包括:
第二注意力确定单元,用于根据所述第一模态信息的模态特征和所述第二模态信息 的模态特征,确定所述第一模态信息对于所述第二模态信息关注的第二注意力特征;
第一门限确定单元,用于根据所述第一模态信息的模态特征和所述第二注意力特征, 确定所述第一模态信息对应的第一融合门限参数。
在一种可能的实现方式中,所述第一模态信息包括至少一个信息单元,所述第二模 态信息包括至少一个信息单元;所述第二注意力确定单元,具体用于,
获取所述第一模态信息的每个信息单元的第一模态特征;
获取所述第二模态信息的每个信息单元的第二模态特征;
根据所述第一模态特征和所述第二模态特征,确定所述第一模态信息的每个信息单 元与所述第二模态信息的每个信息单元之间的注意力权重;
根据所述注意力权重和所述第二模态特征,确定所述第一模态信息的每个信息单元 对所述第二模态信息关注的第二注意力特征。
在一种可能的实现方式中,所述确定子模块包括:
第一注意力确定单元,用于根据所述第一模态信息的模态特征和所述第二模态信息 的模态特征,确定所述第二模态信息对于所述第一模态信息关注的第一注意力特征;
第二门限确定单元,用于根据所述第二模态信息的模态特征和所述第一注意力特征, 确定所述第二模态信息对应的第二融合门限参数。
在一种可能的实现方式中,所述第一模态信息包括至少一个信息单元,所述第二模 态信息包括至少一个信息单元;所述第一注意力确定单元,具体用于,
获取所述第一模态信息的每个信息单元的第一模态特征;
获取所述第二模态信息的每个信息单元的第二模态特征;
根据所述第一模态特征和所述第二模态特征,确定所述第一模态信息的每个信息单 元与所述第二模态信息的每个信息单元之间的注意力权重;
根据所述注意力权重和所述第一模态特征,确定所述第二模态信息的每个信息单元 对所述第一模态信息关注的第一注意力特征。
在一种可能的实现方式中,所述融合子模块包括:
第二注意力确定单元,用于根据所述第一模态信息的模态特征和所述第二模态信息 的模态特征,确定所述第一模态信息对于所述第二模态信息关注的第二注意力特征;
第一融合单元,用于利用所述融合门限参数对所述第一模态信息的模态特征和所述 第二注意力特征进行特征融合,确定第一模态信息对应的第一融合特征。
在一种可能的实现方式中,所述第一融合单元,具体用于,
对所述第一模态信息的模态特征和所述第二注意力特征进行特征融合,得到第一融 合结果;
将所述融合门限参数作用于所述第一融合结果,得到作用后的第一融合结果;
基于作用后的第一融合结果和所述第一模态特征,确定所述第一模态信息对应的第 一融合特征。
在一种可能的实现方式中,所述融合子模块包括:
第一注意力确定单元,用于根据所述第一模态信息的模态特征和所述第二模态信息 的模态特征,确定所述第二模态信息对于所述第一模态信息关注的第一注意力特征;
第二融合单元,用于根据所述第二模态信息的模态特征和所述第一注意力特征,确 定第二模态信息对应的第二融合特征。
在一种可能的实现方式中,所述第二融合单元,具体用于,
对所述第二模态信息的模态特征和所述第一注意力特征进行特征融合,得到第二融 合结果;
将所述融合门限参数作用于所述第二融合结果,得到作用后的第二融合结果;
基于作用后的第二融合结果和所述第二模态特征,确定所述第二模态信息对应的第 二融合特征。
在一种可能的实现方式中,所述确定模块83,具体用于,
基于所述第一融合特征的第一注意力信息与所述第二融合特征量的第二注意力信息, 确定所述第一模态信息和所述第二模态信息的相似度。
在一种可能的实现方式中,所述第一模态信息为第一模态的待检索信息,所述第二 模态信息为第二模态的预存信息;所述装置还包括:
检索结果确定模块,用于在所述相似度满足预设条件的情况下,将所述第二模态信 息作为所述第一模态信息的检索结果。
在一种可能的实现方式中,所述第二模态信息为多个;所述检索结果确定模块包括:
排序子模块,用于根据所述第一模态信息与每个第二模态信息的相似度,对多个第 二模态信息进行排序,得到排序结果;
信息确定子模块,用于根据所述排序结果,确定相似度满足所述预设条件的第二模 态信息;
检索结果确定子模块,用于将相似度满足所述预设条件的第二模态信息作为所述第 一模态信息的检索结果。
在一种可能的实现方式中,所述预设条件包括以下任一条件:
相似度大于预设值;相似度由小至大的排名大于预设排名。
在一种可能的实现方式中,所述第一模态信息包括文本信息或图像信息中的一种模 态信息;所述第二模态信息包括文本信息或图像信息中的另一种模态信息。
在一种可能的实现方式中,所述第一模态信息为第一模态的训练样本信息,所述第 二模态信息为第二模态的训练样本信息;每个第一模态的训练样本信息与第二模态的训 练样本信息形成训练样本对。
在一种可能的实现方式中,所述训练样本对包括正样本对和负样本对;所述装置还 包括:反馈模块,用于,
获取每一训练样本对之间的相似度;
根据所述正样本对中模态信息匹配程度最高的正样本对的相似度,以及所述负样本 对中匹配程度最低的负样本对的相似度,确定所述第一模态信息与所述第二模态信息特 征融合过程中的损失;
根据所述损失对所述第一模态信息与所述第二模态信息特征融合过程所利用的跨模 态信息检索模型的模型参数进行调整。
可以理解,本公开提及的上述各个方法实施例,在不违背原理逻辑的情况下,均可以彼此相互结合形成结合后的实施例,限于篇幅,本公开不再赘述。
此外,本公开还提供了上述装置、电子设备、计算机可读存储介质、程序,上述均可用来实现本公开提供的任一种跨模态信息检索方法,相应技术方案和描述和参见方法部分的相应记载,不再赘述。
图9是根据一示例性实施例示出的一种用于跨模态信息检索的跨模态信息检索装置 1900的框图。例如,装置1900可以被提供为一服务器。参照图9,装置1900包括处理组件1922,其进一步包括一个或多个处理器,以及由存储器1932所代表的存储器资源,用于 存储可由处理组件1922的执行的指令,例如应用程序。存储器1932中存储的应用程序可 以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件1922被配置为 执行指令,以执行上述方法。
装置1900还可以包括一个电源组件1926被配置为执行装置1900的电源管理,一个有 线或无线网络接口1950被配置为将装置1900连接到网络,和一个输入输出(I/O)接口1958。 装置1900可以操作基于存储在存储器1932的操作系统,例如Windows ServerTM,MacOS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
在示例性实施例中,还提供了一种非易失性计算机可读存储介质,例如包括计算机 程序指令的存储器1932,上述计算机程序指令可由装置1900的处理组件1922执行以完成 上述方法。
本公开可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可 读存储介质,其上载有用于使处理器实现本公开的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。 计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设 备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质 的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软 盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意 合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电 波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光 纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处 理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交 换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从 网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处 理设备中的计算机可读存储介质中。
用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程 语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸 如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。 计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作 为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在 远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种 类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连 接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通 过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、 现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可 读程序指令,从而实现本公开的各个方面。
这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或 框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处 理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指 令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方 框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设 备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上 执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序 产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或 多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注 的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基 本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意 的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执 行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指 令的组合来实现。
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本 技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择, 旨在最好地解释各实施例的原理、实际应用或对市场中技术的技术改进,或者使本技术 领域的其它普通技术人员能理解本文披露的各实施例。
Claims (10)
1.一种跨模态信息检索方法,其特征在于,所述方法包括:
获取第一模态信息和第二模态信息;
对所述第一模态信息的模态特征和所述第二模态信息的模态特征进行特征融合,确定所述第一模态信息对应的第一融合特征以及所述第二模态信息对应的第二融合特征;
基于所述第一融合特征和所述第二融合特征,确定所述第一模态信息和所述第二模态信息的相似度。
2.根据权利要求1所述的方法,其特征在于,对所述第一模态信息的模态特征和所述第二模态信息的模态特征进行特征融合,确定所述第一模态信息对应的第一融合特征以及所述第二模态信息对应的第二融合特征,包括:
基于所述第一模态信息的模态特征和所述第二模态信息的模态特征,确定所述第一模态信息与所述第二模态信息进行特征融合的融合门限参数;
在所述融合门限参数的作用下,对所述第一模态信息的模态特征和所述第二模态信息的模态特征进行特征融合,确定所述第一模态信息对应的第一融合特征以及所述第二模态信息对应的第二融合特征;其中,所述融合门限参数用于根据特征之间的匹配程度配置于特征融合后的融合特征,其中,特征之间的匹配程度越低,特征融合参数越小。
3.根据权利要求2所述的方法,其特征在于,所述基于所述第一模态信息的模态特征和所述第二模态信息的模态特征,确定所述第一模态信息与所述第二模态信息进行特征融合的融合门限参数,包括:
根据所述第一模态信息的模态特征和所述第二模态信息的模态特征,确定所述第一模态信息对于所述第二模态信息关注的第二注意力特征;
根据所述第一模态信息的模态特征和所述第二注意力特征,确定所述第一模态信息对应的第一融合门限参数。
4.根据权利要求3所述的方法,其特征在于,所述第一模态信息包括至少一个信息单元,所述第二模态信息包括至少一个信息单元;所述确定所述第一模态信息对于所述第二模态信息关注的第二注意力特征,包括:
获取所述第一模态信息的每个信息单元的第一模态特征;
获取所述第二模态信息的每个信息单元的第二模态特征;
根据所述第一模态特征和所述第二模态特征,确定所述第一模态信息的每个信息单元与所述第二模态信息的每个信息单元之间的注意力权重;
根据所述注意力权重和所述第二模态特征,确定所述第一模态信息的每个信息单元对所述第二模态信息关注的第二注意力特征。
5.根据权利要求2所述的方法,其特征在于,所述基于所述第一模态信息的模态特征和所述第二模态信息的模态特征,确定所述第一模态信息与所述第二模态信息进行特征融合的融合门限参数,包括:
根据所述第一模态信息的模态特征和所述第二模态信息的模态特征,确定所述第二模态信息对于所述第一模态信息关注的第一注意力特征;
根据所述第二模态信息的模态特征和所述第一注意力特征,确定所述第二模态信息对应的第二融合门限参数。
6.根据权利要求5所述的方法,其特征在于,所述第一模态信息包括至少一个信息单元,所述第二模态信息包括至少一个信息单元;所述根据所述第一模态信息的模态特征和所述第二模态信息的模态特征,确定所述第二模态信息对于所述第一模态信息关注的第一注意力特征,包括:
获取所述第一模态信息的每个信息单元的第一模态特征;
获取所述第二模态信息的每个信息单元的第二模态特征;
根据所述第一模态特征和所述第二模态特征,确定所述第一模态信息的每个信息单元与所述第二模态信息的每个信息单元之间的注意力权重;
根据所述注意力权重和所述第一模态特征,确定所述第二模态信息的每个信息单元对所述第一模态信息关注的第一注意力特征。
7.一种跨模态信息检索装置,其特征在于,所述装置包括:
获取模块,用于获取第一模态信息和第二模态信息;
融合模块,用于对所述第一模态信息的模态特征和所述第二模态信息的模态特征进行特征融合,确定所述第一模态信息对应的第一融合特征以及所述第二模态信息对应的第二融合特征;
确定模块,用于基于所述第一融合特征和所述第二融合特征,确定所述第一模态信息和所述第二模态信息的相似度。
8.根据权利要求7所述的装置,其特征在于,所述融合模块包括:
确定子模块,用于基于所述第一模态信息的模态特征和所述第二模态信息的模态特征,确定所述第一模态信息与所述第二模态信息进行特征融合的融合门限参数;
融合子模块,用于在所述融合门限参数的作用下,对所述第一模态信息的模态特征和所述第二模态信息的模态特征进行特征融合,确定所述第一模态信息对应的第一融合特征以及所述第二模态信息对应的第二融合特征;其中,所述融合门限参数用于根据特征之间的匹配程度配置于特征融合后的融合特征,其中,特征之间的匹配程度越低,特征融合参数越小。
9.一种跨模态信息检索装置,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行存储器存储的可执行指令时,实现权利要求1至6中任意一项所述的方法。
10.一种非易失性计算机可读存储介质,其上存储有计算机程序指令,其特征在于,所述计算机程序指令被处理器执行时实现权利要求1至6中任意一项所述的方法。
Priority Applications (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910099972.3A CN109816039B (zh) | 2019-01-31 | 2019-01-31 | 一种跨模态信息检索方法、装置和存储介质 |
JP2021532203A JP2022510704A (ja) | 2019-01-31 | 2019-04-22 | クロスモーダル情報検索方法、装置及び記憶媒体 |
PCT/CN2019/083636 WO2020155418A1 (zh) | 2019-01-31 | 2019-04-22 | 一种跨模态信息检索方法、装置和存储介质 |
SG11202106066YA SG11202106066YA (en) | 2019-01-31 | 2019-04-22 | Cross-modal information retrieval method and device, and storage medium |
TW109101378A TWI785301B (zh) | 2019-01-31 | 2020-01-15 | 一種跨模態訊息檢索方法、裝置和儲存介質 |
US17/337,776 US20210295115A1 (en) | 2019-01-31 | 2021-06-03 | Method and device for cross-modal information retrieval, and storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910099972.3A CN109816039B (zh) | 2019-01-31 | 2019-01-31 | 一种跨模态信息检索方法、装置和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109816039A true CN109816039A (zh) | 2019-05-28 |
CN109816039B CN109816039B (zh) | 2021-04-20 |
Family
ID=66606255
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910099972.3A Active CN109816039B (zh) | 2019-01-31 | 2019-01-31 | 一种跨模态信息检索方法、装置和存储介质 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20210295115A1 (zh) |
JP (1) | JP2022510704A (zh) |
CN (1) | CN109816039B (zh) |
SG (1) | SG11202106066YA (zh) |
TW (1) | TWI785301B (zh) |
WO (1) | WO2020155418A1 (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110941727A (zh) * | 2019-11-29 | 2020-03-31 | 北京达佳互联信息技术有限公司 | 一种资源推荐方法、装置、电子设备及存储介质 |
CN111026894A (zh) * | 2019-12-12 | 2020-04-17 | 清华大学 | 基于可信度自适应匹配网络的跨模态图像文本检索方法 |
CN111461203A (zh) * | 2020-03-30 | 2020-07-28 | 北京百度网讯科技有限公司 | 跨模态处理方法、装置、电子设备和计算机存储介质 |
CN113032614A (zh) * | 2021-04-28 | 2021-06-25 | 泰康保险集团股份有限公司 | 一种跨模态信息检索方法和装置 |
CN113657478A (zh) * | 2021-08-10 | 2021-11-16 | 北京航空航天大学 | 一种基于关系建模的三维点云视觉定位方法 |
CN113822224A (zh) * | 2021-10-12 | 2021-12-21 | 中国人民解放军国防科技大学 | 融合多模态学习与多粒度结构学习的谣言检测方法及装置 |
CN114356852A (zh) * | 2022-03-21 | 2022-04-15 | 展讯通信(天津)有限公司 | 一种文件检索方法、电子设备及存储介质 |
CN114782719A (zh) * | 2022-04-26 | 2022-07-22 | 北京百度网讯科技有限公司 | 一种特征提取模型的训练方法、对象检索方法以及装置 |
WO2023045605A1 (zh) * | 2021-09-22 | 2023-03-30 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、计算机设备及存储介质 |
CN116108147A (zh) * | 2023-04-13 | 2023-05-12 | 北京蜜度信息技术有限公司 | 基于特征融合的跨模态检索方法、系统、终端及存储介质 |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112767303B (zh) * | 2020-08-12 | 2023-11-28 | 腾讯科技(深圳)有限公司 | 一种图像检测方法、装置、设备及计算机可读存储介质 |
CN112101380B (zh) * | 2020-08-28 | 2022-09-02 | 合肥工业大学 | 基于图文匹配的产品点击率预测方法和系统、存储介质 |
CN112989097A (zh) * | 2021-03-23 | 2021-06-18 | 北京百度网讯科技有限公司 | 模型训练、图片检索方法及装置 |
CN114693995B (zh) * | 2022-04-14 | 2023-07-07 | 北京百度网讯科技有限公司 | 应用于图像处理的模型训练方法、图像处理方法和设备 |
CN115909317A (zh) * | 2022-07-15 | 2023-04-04 | 广东工业大学 | 一种三维模型-文本联合表达的学习方法及系统 |
CN117078983B (zh) * | 2023-10-16 | 2023-12-29 | 安徽启新明智科技有限公司 | 图像匹配方法、装置、设备 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070005296A1 (en) * | 2005-06-30 | 2007-01-04 | Oracle International Corporation | Graphical display and correlation of severity scores of system metrics |
CN106202256A (zh) * | 2016-06-29 | 2016-12-07 | 西安电子科技大学 | 基于语义传播及混合多示例学习的Web图像检索方法 |
CN107515895A (zh) * | 2017-07-14 | 2017-12-26 | 中国科学院计算技术研究所 | 一种基于目标检测的视觉目标检索方法与系统 |
CN107608943A (zh) * | 2017-09-08 | 2018-01-19 | 中国石油大学(华东) | 融合视觉注意力和语义注意力的图像字幕生成方法及系统 |
CN107918782A (zh) * | 2016-12-29 | 2018-04-17 | 中国科学院计算技术研究所 | 一种生成描述图像内容的自然语言的方法与系统 |
CN107979764A (zh) * | 2017-12-06 | 2018-05-01 | 中国石油大学(华东) | 基于语义分割和多层注意力框架的视频字幕生成方法 |
CN108108771A (zh) * | 2018-01-03 | 2018-06-01 | 华南理工大学 | 基于多尺度深度学习的图像问答方法 |
CN108304506A (zh) * | 2018-01-18 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 检索方法、装置及设备 |
CN108932304A (zh) * | 2018-06-12 | 2018-12-04 | 山东大学 | 基于跨模态的视频时刻定位方法、系统及存储介质 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4340939B2 (ja) * | 1998-10-09 | 2009-10-07 | ソニー株式会社 | 学習装置および学習方法、認識装置および認識方法、並びに記録媒体 |
US20130226892A1 (en) * | 2012-02-29 | 2013-08-29 | Fluential, Llc | Multimodal natural language interface for faceted search |
JP6368677B2 (ja) * | 2015-04-06 | 2018-08-01 | 日本電信電話株式会社 | 写像学習方法、情報圧縮方法、装置、及びプログラム |
US9836671B2 (en) * | 2015-08-28 | 2017-12-05 | Microsoft Technology Licensing, Llc | Discovery of semantic similarities between images and text |
TWI553494B (zh) * | 2015-11-04 | 2016-10-11 | 創意引晴股份有限公司 | 基於多模態融合之智能高容錯視頻識別系統及其識別方法 |
CN105760507B (zh) * | 2016-02-23 | 2019-05-03 | 复旦大学 | 基于深度学习的跨模态主题相关性建模方法 |
CN107562812B (zh) * | 2017-08-11 | 2021-01-15 | 北京大学 | 一种基于特定模态语义空间建模的跨模态相似性学习方法 |
-
2019
- 2019-01-31 CN CN201910099972.3A patent/CN109816039B/zh active Active
- 2019-04-22 WO PCT/CN2019/083636 patent/WO2020155418A1/zh active Application Filing
- 2019-04-22 JP JP2021532203A patent/JP2022510704A/ja active Pending
- 2019-04-22 SG SG11202106066YA patent/SG11202106066YA/en unknown
-
2020
- 2020-01-15 TW TW109101378A patent/TWI785301B/zh active
-
2021
- 2021-06-03 US US17/337,776 patent/US20210295115A1/en not_active Abandoned
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070005296A1 (en) * | 2005-06-30 | 2007-01-04 | Oracle International Corporation | Graphical display and correlation of severity scores of system metrics |
CN106202256A (zh) * | 2016-06-29 | 2016-12-07 | 西安电子科技大学 | 基于语义传播及混合多示例学习的Web图像检索方法 |
CN107918782A (zh) * | 2016-12-29 | 2018-04-17 | 中国科学院计算技术研究所 | 一种生成描述图像内容的自然语言的方法与系统 |
CN107515895A (zh) * | 2017-07-14 | 2017-12-26 | 中国科学院计算技术研究所 | 一种基于目标检测的视觉目标检索方法与系统 |
CN107608943A (zh) * | 2017-09-08 | 2018-01-19 | 中国石油大学(华东) | 融合视觉注意力和语义注意力的图像字幕生成方法及系统 |
CN107979764A (zh) * | 2017-12-06 | 2018-05-01 | 中国石油大学(华东) | 基于语义分割和多层注意力框架的视频字幕生成方法 |
CN108108771A (zh) * | 2018-01-03 | 2018-06-01 | 华南理工大学 | 基于多尺度深度学习的图像问答方法 |
CN108304506A (zh) * | 2018-01-18 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 检索方法、装置及设备 |
CN108932304A (zh) * | 2018-06-12 | 2018-12-04 | 山东大学 | 基于跨模态的视频时刻定位方法、系统及存储介质 |
Non-Patent Citations (4)
Title |
---|
JIUXIANG GU等: "Look, Imagine and Match: Improving Textual-Visual Cross-Modal Retrieval with Generative Models", 《2018 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 * |
KUANG-HUEI LEE等: "Stacked Cross Attention for Image-Text Matching", 《COMPUTER VISION – ECCV 2018》 * |
LIWEI WANG等: "Learning deep structure—preserving image-text embeddings", 《2016 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 * |
MINGRUI LAO等: "Cross-Modal Multistep Fusion Network with Co- Attention for Visual Question Answering", 《IEEE ACCESS》 * |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110941727A (zh) * | 2019-11-29 | 2020-03-31 | 北京达佳互联信息技术有限公司 | 一种资源推荐方法、装置、电子设备及存储介质 |
CN110941727B (zh) * | 2019-11-29 | 2023-09-29 | 北京达佳互联信息技术有限公司 | 一种资源推荐方法、装置、电子设备及存储介质 |
CN111026894A (zh) * | 2019-12-12 | 2020-04-17 | 清华大学 | 基于可信度自适应匹配网络的跨模态图像文本检索方法 |
CN111026894B (zh) * | 2019-12-12 | 2021-11-26 | 清华大学 | 基于可信度自适应匹配网络的跨模态图像文本检索方法 |
US11341366B2 (en) | 2020-03-30 | 2022-05-24 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Cross-modality processing method and apparatus, and computer storage medium |
CN111461203A (zh) * | 2020-03-30 | 2020-07-28 | 北京百度网讯科技有限公司 | 跨模态处理方法、装置、电子设备和计算机存储介质 |
CN113032614A (zh) * | 2021-04-28 | 2021-06-25 | 泰康保险集团股份有限公司 | 一种跨模态信息检索方法和装置 |
CN113657478A (zh) * | 2021-08-10 | 2021-11-16 | 北京航空航天大学 | 一种基于关系建模的三维点云视觉定位方法 |
CN113657478B (zh) * | 2021-08-10 | 2023-09-22 | 北京航空航天大学 | 一种基于关系建模的三维点云视觉定位方法 |
WO2023045605A1 (zh) * | 2021-09-22 | 2023-03-30 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、计算机设备及存储介质 |
CN113822224A (zh) * | 2021-10-12 | 2021-12-21 | 中国人民解放军国防科技大学 | 融合多模态学习与多粒度结构学习的谣言检测方法及装置 |
CN113822224B (zh) * | 2021-10-12 | 2023-12-26 | 中国人民解放军国防科技大学 | 融合多模态学习与多粒度结构学习的谣言检测方法及装置 |
CN114356852A (zh) * | 2022-03-21 | 2022-04-15 | 展讯通信(天津)有限公司 | 一种文件检索方法、电子设备及存储介质 |
CN114782719A (zh) * | 2022-04-26 | 2022-07-22 | 北京百度网讯科技有限公司 | 一种特征提取模型的训练方法、对象检索方法以及装置 |
CN114782719B (zh) * | 2022-04-26 | 2023-02-03 | 北京百度网讯科技有限公司 | 一种特征提取模型的训练方法、对象检索方法以及装置 |
CN116108147A (zh) * | 2023-04-13 | 2023-05-12 | 北京蜜度信息技术有限公司 | 基于特征融合的跨模态检索方法、系统、终端及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2020155418A1 (zh) | 2020-08-06 |
TW202030623A (zh) | 2020-08-16 |
US20210295115A1 (en) | 2021-09-23 |
JP2022510704A (ja) | 2022-01-27 |
SG11202106066YA (en) | 2021-07-29 |
TWI785301B (zh) | 2022-12-01 |
CN109816039B (zh) | 2021-04-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109816039A (zh) | 一种跨模态信息检索方法、装置和存储介质 | |
CN109886326A (zh) | 一种跨模态信息检索方法、装置和存储介质 | |
EP3866026A1 (en) | Theme classification method and apparatus based on multimodality, and storage medium | |
US11960843B2 (en) | Multi-module and multi-task machine learning system based on an ensemble of datasets | |
CN111026842B (zh) | 自然语言处理方法、自然语言处理装置及智能问答系统 | |
US9684852B2 (en) | Systems and methods for inferring gender by fusion of multimodal content | |
US11783243B2 (en) | Targeted prioritization within a network based on user-defined factors and success rates | |
KR20200049695A (ko) | 콘볼루션 뉴럴 네트워크의 고속 계산 | |
CN108171260A (zh) | 一种图片识别方法及系统 | |
CN110209859A (zh) | 地点识别及其模型训练的方法和装置以及电子设备 | |
CN108121800A (zh) | 基于人工智能的信息生成方法和装置 | |
JP6308708B1 (ja) | 特許要件適否予測装置および特許要件適否予測プログラム | |
CN113095346A (zh) | 数据标注的方法以及数据标注的装置 | |
CN108629414A (zh) | 深度哈希学习方法及装置 | |
US11176429B2 (en) | Counter rare training date for artificial intelligence | |
CN110874590A (zh) | 基于适配器互学习模型的训练及可见光红外视觉跟踪方法 | |
US20230035366A1 (en) | Image classification model training method and apparatus, computer device, and storage medium | |
US11636331B2 (en) | User explanation guided machine learning | |
CN108921190A (zh) | 一种图像分类方法、装置及电子设备 | |
CN111611409B (zh) | 一种融入场景知识的事例分析方法及相关设备 | |
US11450111B2 (en) | Deterministic learning video scene detection | |
US11954910B2 (en) | Dynamic multi-resolution processing for video classification | |
CN116152938A (zh) | 身份识别模型训练和电子资源转移方法、装置及设备 | |
CN108537165A (zh) | 用于确定信息的方法和装置 | |
US20200050898A1 (en) | Intelligent personalization of operations of an image capturing device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40007436 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant |