CN115392389A - 跨模态信息匹配、处理方法、装置、电子设备及存储介质 - Google Patents

跨模态信息匹配、处理方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN115392389A
CN115392389A CN202211066005.5A CN202211066005A CN115392389A CN 115392389 A CN115392389 A CN 115392389A CN 202211066005 A CN202211066005 A CN 202211066005A CN 115392389 A CN115392389 A CN 115392389A
Authority
CN
China
Prior art keywords
information
modality
candidate
identification
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211066005.5A
Other languages
English (en)
Other versions
CN115392389B (zh
Inventor
贺峰
汪琦
冯知凡
崔骁鹏
畲俏俏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202211066005.5A priority Critical patent/CN115392389B/zh
Publication of CN115392389A publication Critical patent/CN115392389A/zh
Application granted granted Critical
Publication of CN115392389B publication Critical patent/CN115392389B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本公开提供了一种跨模态信息匹配、处理方法、装置、电子设备及存储介质,涉及人工智能技术领域,尤其涉及知识图谱、自然语言处理等技术领域,可应用于AIGC、智能创作等场景。具体实现方案为:响应于检测到信息匹配指令,确定第一模态信息的第一模态表征和第二模态信息的第二模态表征;根据第一模态表征和第二模态表征,确定第一模态信息和第二模态信息之间的第一相似度;确定与第一模态信息的标识信息对应的标识表征,标识信息表征第一模态信息的语义级别的信息;根据标识表征和第二模态表征,确定标识信息与第二模态信息之间的第二相似度;根据第一相似度和第二相似度,确定第一模态信息和第二模态信息之间的匹配度。

Description

跨模态信息匹配、处理方法、装置、电子设备及存储介质
技术领域
本公开涉及人工智能技术领域,尤其涉及知识图谱、自然语言处理等技术领域,可应用于AIGC(Artificial Intelligence Generated Content,人工智能创作内容)、智能创作等场景。具体地,涉及一种跨模态信息匹配、处理方法、装置、电子设备及存储介质。
背景技术
随着计算机技术的发展,人工智能技术也得以发展。人工智能技术可以包括计算机视觉技术、语音识别技术、自然语言处理技术、机器学习、深度学习、大数据处理技术和知识图谱技术等。
人工智能技术在各个应用领域得到了广泛应用。例如,可以利用人工智能技术进行跨模态信息匹配。
发明内容
本公开提供了一种跨模态信息匹配、处理方法、装置、电子设备及存储介质。
根据本公开的一方面,提供了一种跨模态信息匹配方法,包括:响应于检测到信息匹配指令,确定第一模态信息的第一模态表征和第二模态信息的第二模态表征,其中,上述第一模态信息是文本信息,上述第二模态信息与上述第一模态信息的模态不同;根据上述第一模态表征和上述第二模态表征,确定上述第一模态信息和上述第二模态信息之间的第一相似度;确定与上述第一模态信息的标识信息对应的标识表征,其中,上述标识信息表征上述第一模态信息的语义级别的信息;根据上述标识表征和上述第二模态表征,确定上述标识信息与上述第二模态信息之间的第二相似度;以及,根据上述第一相似度和上述第二相似度,确定上述第一模态信息和上述第二模态信息之间的匹配度。
根据本公开的另一方面,提供了一种跨模态信息处理方法,包括:响应于检测到信息处理指令,获取待处理第一模态信息和多个待匹配第二模态信息;利用根据本公开上述的方法确定上述待处理第一模态信息和上述多个待匹配第二模态信息各自之间的匹配度;以及,根据上述待处理第一模态信息和上述多个待匹配第二模态信息各自之间的匹配度,从上述多个待匹配第二模态信息中确定与上述待处理第一模态信息对应的匹配第二模态信息。
根据本公开的另一方面,提供了一种跨模态信息匹配装置,包括:第一确定模块,用于响应于检测到信息匹配指令,确定第一模态信息的第一模态表征和第二模态信息的第二模态表征,其中,上述第一模态信息是文本信息,上述第二模态信息与上述第一模态信息的模态不同;第二确定模块,用于根据上述第一模态表征和上述第二模态表征,确定上述第一模态信息和上述第二模态信息之间的第一相似度;第三确定模块,用于确定与上述第一模态信息的标识信息对应的标识表征,其中,上述标识信息表征上述第一模态信息的语义级别的信息;第四确定模块,用于根据上述标识表征和上述第二模态表征,确定上述标识信息与上述第二模态信息之间的第二相似度;以及,第五确定模块,用于根据上述第一相似度和上述第二相似度,确定上述第一模态信息和上述第二模态信息之间的匹配度。
根据本公开的另一方面,提供了一种跨模态信息处理装置,包括:获取模块,用于响应于检测到信息处理指令,获取待处理第一模态信息和多个待匹配第二模态信息;第八确定模块,用于利用根据本公开上述的装置确定上述待处理第一模态信息和上述多个待匹配第二模态信息各自之间的匹配度;以及,第九确定模块,用于根据上述待处理第一模态信息和上述多个待匹配第二模态信息各自之间的匹配度,从上述多个待匹配第二模态信息中确定与上述待处理第一模态信息对应的匹配第二模态信息。
根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与上述至少一个处理器通信连接的存储器;其中,上述存储器存储有可被上述至少一个处理器执行的指令,上述指令被上述至少一个处理器执行,以使上述至少一个处理器能够执行如本公开所述的方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,上述计算机指令用于使上述计算机执行如本公开所述的方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,上述计算机程序在被处理器执行时实现如本公开所述的方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1示意性示出了根据本公开实施例的可以应用跨模态信息匹配方法、跨模态信息处理方法及装置的示例性系统架构;
图2示意性示出了根据本公开实施例的跨模态信息匹配方法的流程图;
图3A示意性示出了根据本公开实施例的跨模态信息匹配方法的原理示意图;
图3B示意性示出了根据本公开实施例的获得至少一个第三映射关系的示例示意图;
图3C示意性示出了根据本公开实施例的获得第一映射关系的示例示意图;
图4示意性示出了根据本公开实施例的跨模态信息处理方法的流程图;
图5示意性示出了根据本公开实施例的跨模态信息匹配装置的框图;
图6示意性示出了根据本公开实施例的跨模态信息处理装置的框图;以及
图7示意性示出了根据本公开实施例的适于实现跨模态信息匹配方法和跨模态信息处理方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
跨模态信息匹配可以指至少两种模态信息之间的匹配。模态信息可以包括以下至少之一:图像信息、视频信息、文本信息和音频信息。文本信息可以包括至少一个对象。对象可以具有至少一个语义。
本公开实施例提出一种跨模态信息匹配方案。例如,响应于检测到信息匹配指令,确定第一模态信息的第一模态表征和第二模态信息的第二模态表征。第一模态信息是文本信息。第二模态信息与第一模态信息不同。根据第一模态表征和第二模态表征,确定第一模态信息和第二模态信息之间的第一相似度。确定与第一模态信息的标识信息对应的标识表征,其中,标识信息表征第一模态信息的语义级别的信息。根据标识表征和第二模态表征,确定标识信息与第二模态信息之间的第二相似度。根据第一相似度和第二相似度,确定第一模态信息和第二模态信息之间的匹配度。
根据本公开的实施例,通过根据第一相似度和第二相似度,确定第一模态信息和第二模态信息之间的匹配度,第二相似度是根据标识表征和第二模态表征确定的,标识表征是与第一模态信息的标识信息对应的标识表征,标识信息表征第一模态信息的语义级别的信息,第一模态信息和第二模态信息的模态不同,由此,实现了语义级别的跨模态信息匹配,提高了跨模态信息匹配的准确性。
图1示意性示出了根据本公开实施例的可以应用跨模态信息匹配方法、跨模态信息处理方法及装置的示例性系统架构。
需要注意的是,图1所示仅为可以应用本公开实施例的系统架构的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。例如,在另一实施例中,可以应用跨模态信息匹配方法、跨模态信息处理方法及装置的示例性系统架构可以包括终端设备,但终端设备可以无需与服务器进行交互,即可实现本公开实施例提供的跨模态信息匹配方法、跨模态信息处理方法及装置。
如图1所示,根据该实施例的系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型。例如,有线和无线通信链路等中的至少之一。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用。例如,知识阅读类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端和社交平台软件等中的至少之一。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备。例如,可以包括智能手机、平板电脑、膝上型便携计算机和台式计算机等中的至少之一。
服务器105可以是提供各种服务的各种类型的服务器。例如,服务器105可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,解决了传统物理主机与VPS服务(Virtual Private Server,虚拟专用服务器)中,存在的管理难度大,业务扩展性弱的缺陷。服务器105也可以为分布式系统的服务器,或者是结合了区块链的服务器。
需要说明的是,本公开实施例所提供的图像处理方法一般可以由终端设备101、102、或103执行。相应地,本公开实施例所提供的图像处理装置也可以设置于终端设备101、102、或103中。
备选地,本公开实施例所提供的图像处理方法一般也可以由服务器105执行。相应地,本公开实施例所提供的图像处理装置一般可以设置于服务器105中。本公开实施例所提供的图像处理方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地,本公开实施例所提供的图像处理装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
应注意,以下方法中各个操作的序号仅作为该操作的表示以便描述,而不应被看作表示该各个操作的执行顺序。除非明确指出,否则该方法不需要完全按照所示顺序来执行。
图2示意性示出了根据本公开实施例的跨模态信息匹配方法的流程图。
如图2所示,该方法200包括操作S210~S250。
在操作S210,响应于检测到信息匹配指令,确定第一模态信息的第一模态表征和第二模态信息的第二模态表征。
在操作S220,根据第一模态表征和第二模态表征,确定第一模态信息和第二模态信息之间的第一相似度。
在操作S230,确定与第一模态信息的标识信息对应的标识表征。
在操作S240,根据标识表征和第二模态表征,确定标识信息与第二模态信息之间的第二相似度。
在操作S250,根据第一相似度和第二相似度,确定第一模态信息和第二模态信息之间的匹配度。
根据本公开的实施例,第一模态信息可以是文本信息。第二模态信息可以与第一模态信息的模态不同。标识信息可以表征第一模态信息的语义级别的信息。
根据本公开的实施例,模态信息可以指预定模态的信息。预定模态可以包括以下至少之一:图像、视频、文本和音频。模态信息可以包括以下至少之一:图像信息、视频信息、文本信息和音频信息。视频信息可以包括至少一个视频帧信息。可以称图像信息为静态图像信息。可以称视频帧信息为动态图像信息。动态图像信息可以指视频帧信息。静态图像信息可以包括以下至少之一:静态文本图像信息和静态非文本图像信息。静态文本图像信息可以包括以下至少之一:静态文档文本图像信息和静态场景文本图像信息。动态文本图像信息可以包括以下至少之一:动态文本图像信息和动态非文本图像信息。动态文本图像信息可以包括以下至少之一:动态文档文本图像信息和动态场景文本图像信息。文档文本图像可以指布局工整、光线受控和背景较为单一的文本图像。场景文本图像可以指背景较为复杂、文字形式多样和光线不受控的文本图像。文字形式可以包括以下至少之一:文字的颜色、大小、字体、方向和布局不规律等。布局不规律可以包括弯曲、倾斜、褶皱、变形和残缺不全等中的至少之一。
根据本公开的实施例,第一模态信息可以与第二模态信息的预定模态不同。例如,第一模态信息可以是文本信息。第二模态信息可以包括以下之一:图像信息、视频信息和音频信息。备选地,第一模态信息可以是图像信息。第二模态信息可以包括以下之一:文本信息、视频信息和音频信息。备选地,第一模态信息可以是视频信息。第二模态信息可以包括以下之一:图像信息、文本信息和音频信息。备选地,第一模态信息可以是音频信息。第二模态信息可以包括以下之一:图像信息、视频信息和文本信息。
根据本公开的实施例,模态表征可以指模态信息的特征信息。模态表征可以是对模态信息进行特征提取得到的。例如,可以利用特征提取方法处理模态信息,得到模态表征。特征提取方法可以包括传统特征提取方法和基于深度学习的特征提取方法中的至少之一。
例如,在模态信息是图像信息和视频信息中的至少之一的情况下,传统特征提取方法可以包括以下至少之一:SIFT(Scale Invariant Feature Transform,尺度不变性特征转换)、SURF(Speeded Up Robust Features,加速鲁棒性特征)和ORB(即Oriented FASTand Rotated BRIEF)等。基于深度学习的特征提取方法可以包括以下至少之一:基于视觉编码器的特征提取方法和基于第一卷积神经网络的特征提取方法等。
根据本公开的实施例,视觉编码器可以包括视觉Transformer(即转换器)的编码器。视觉Transformer可以包括以下至少之一:Vision Transformer和Swin Transformer等。基于第一卷积神经网络的特征提取方法可以包括以下至少之一:基于D2-Net的特征提取方法和基于R2D2的特征信息提取方法等。
例如,在模态信息是文本信息的情况下,传统特征提取方法可以包括以下至少之一:基于Bag-of-Words的方法和基于主题模型的方法等。基于Bag-of-Words的方法可以包括以下至少之一:One-Hot(即独热编码)、TF-IDF(Term Frequency–Inverse DocumentFrequency,词频-逆文本频率指数)和Textrank(即文本排序)等。基于主题模型的算法可以包括以下至少之一:LSA(Latent Semantic Analysis,潜在语义分析)、PLSI(Probabilistic Latent Semantic Indexing,基于概率潜在语义分析)和LDA(LatentDirichlet allocation,隐含狄利克雷分布)等。基于深度学习的特征提取方法可以包括以下至少之一:基于文本编码器的特征提取方法和基于第二卷积神经网络的特征提取方法等。文本编码器可以包括文本Transformer(即转换器)的编码器。文本Transformer可以包括BERT(即Bidrectional Encoder Representations from Transformers)等。
例如,在模态信息是音频信息的情况下,传统特征提取方法可以包括以下至少之一:声强特征提取方法、响度特征提取方法、音高特征提取方法、基音周期确定方法和梅尔倒谱系数确定方法等。基于深度学习的特征提取方法可以包括以下至少之一:基于音频编码器的特征提取方法和基于第三卷积神经网络的特征提取方法等。音频编码器可以包括以下至少之一:音频Transformer(即转换器)的编码器和音频Conformer的编码器等。
根据本公开的实施例,信息匹配指令可以指用于确定第一模态信息和第二模态信息之间的匹配度的指令。信息匹配指令可以是响应于检测到信息匹配操作生成的。备选地,信息匹配指令可以是响应于检测到信息匹配例程生成的。信息匹配指令可以包括第一模态信息和第二模态信息。备选地,信息匹配指令可以包括与第一模态信息对应的第一索引信息和与第二模态信息对应的第二索引信息。第一索引信息可以指用于获取第一模态信息的信息。第二索引信息可以指用于获取第二模态信息的信息。
根据本公开的实施例,标识信息可以用于表征语义级别的第一模态信息。与第一模态信息对应的标识信息可以包括至少一个。各个标识信息彼此不同。第一模态信息可以包括至少一个对象。对象可以指实体。实体可以是文本中承载信息的语言单位。文本的语义可以表述为其包括的实体和实体彼此之间的关联。实体可以包括以下至少之一:人名、地名、机构名、日期和专有名词等。专有名词可以是各个应用领域的名词。例如,针对医学领域,实体可以包括以下至少之一:疾病、病症、药物、医院和医生等。实体可以是根据命名实体识别(Named Entity Recognition,NER)方法处理第一模态信息确定的。备选地,实体可以是根据实体链指(Entity Linking,EL)方法处理第一模态信息确定的。实体链指还可以被称为实体链接。
根据本公开的实施例,语义级别的第一模态信息可以指对象的语义。对象可以具有一个或多个语义。对象的各个语义各自具有与该语义对应的标识信息。与各个语义对应的标识信息彼此不同。可以具有与对象对应的至少一个标识信息。标识信息的形式可以根据实际业务需求进行配置,在此不作限定。例如,标识信息可以是根据预定阿拉伯字符确定的。备选地,标识信息可以是根据预定阿拉伯字符和预定标识符确定的。预定标识符可以包括以下至少之一:数学符号和标点符号等。
例如,第一模态信息包括的对象可以是“黄金”。“黄金”具有两个语义。一个语义是表征“重金属”的“黄金”。另一个语义是表征“篮球队”的“黄金”。表征“重金属”语义的“黄金”的标识信息与表征“篮球队”语义的“黄金”的标识信息不同。表征“重金属”语义的“黄金”的标识信息可以是“123456”。表征“篮球队”语义的“黄金”的标识信息可以是“345678”。
例如,第一模态信息包括的对象可以是“大鲨鱼”。“大鲨鱼”具有两个语义。一个语义是表征“动物”的“大鲨鱼”。另一个语义是表征“篮球队”的“大鲨鱼”。表征“动物”语义的“大鲨鱼”的标识信息与表征“篮球队”语义的“大鲨鱼”的标识信息不同。表征“动物”语义的“大鲨鱼”的标识信息可以是“142385”。表征“篮球队”语义的“大鲨鱼”的标识信息可以是“124385”。
例如,第一模态信息包括的对象可以是“火箭”。“火箭”具有两个语义。一个语义是表征“发射物”的“火箭”。另一个语义是表征“篮球队”的“火箭”。表征“发射物”语义的“火箭”的标识信息与表征“篮球队”语义的“火箭”的标识信息不同。表征“发射物”语义的“火箭”的标识信息可以是“158762”。表征“篮球队”语义的“火箭”的标识信息可以是“583742”。
根据本公开的实施例,标识表征可以指与标识信息对应的目标第二模态表征。目标第二模态表征可以是根据与标识信息的对应的至少一个候选第二模态表征确定的。候选第二模态表征可以是候选第二模态信息的模态表征。候选第二模态信息可以是媒体资源信息中的第二模态信息。媒体资源信息可以是来自数据源的信息。数据源可以包括以下至少之一:本地数据库、云数据库和网络资源。
根据本公开的实施例,相似度可以用于表征两个待匹配对象之间的相似程度。相似度的数值和相似程度的关系可以根据实际业务需求进行配置,在此不作限定。例如,相似度的数值越大,可以表征两个待匹配对象之间的相似程度越大。反之,两个待匹配对象之间的相似程度越小。备选地,相似度的数值越小,可以表征两个待匹配对象之间的相似程度越大。反之,两个待匹配对象之间的相似程度越小。匹配度可以表征两个待匹配对象之间的匹配程度。匹配度可以根据两个待匹配对象之间的相似度来确定。两个待匹配对象可以指第一模态信息和第二模态信息。备选地,两个待匹配对象可以指第一模态信息的标识信息和第二模态信息。第一相似度可以用于表征第一模态信息和第二模态信息之间的相似程度。第二相似度可以用于表征第一模态信息的标识信息与第二模态信息之间的相似程度。
根据本公开的实施例,可以确定是否检测到信息匹配指令。在检测到信息匹配指令的情况下,可以根据信息匹配指令,确定第一模态信息和第二模态信息。例如,可以对信息匹配指令进行解析,得到第一模态信息和第二模态信息。备选地,可以对信息匹配指令进行解析,得到第一索引信息和第二索引信息。根据第一索引信息,从数据源获取第一模态信息。根据第二索引信息,从数据源获取第二模态信息。例如,可以调用数据接口。利用数据接口从数据源中获取与第一索引信息对应的第一模态信息和与第二索引信息对应的第二模态信息。
根据本公开的实施例,可以对第一模态信息进行特征提取,得到第一模态信息的第一模态表征。对第二模态信息进行特征提取,得到第二模态信息的第二模态表征。例如,可以利用第一特征提取方法处理第一模态信息,得到第一模态信息的第一模态表征。可以利用第二特征提取方法处理第二模态信息,得到第二模态信息的第二模态表征。第一特征提取方法可以包括第一传统特征提取方法和基于深度学习的第一特征提取方法中的至少之一。第二特征提取方法可以包括第二传统特征提取方法和基于深度学习的第二特征方法中的至少之一。可以根据第一模态信息,确定第一模态信息的至少一个标识信息。根据第一模态信息的至少一个标识信息,确定至少一个标识信息各自的标识表征。
根据本公开的实施例,可以利用第一相似度方法处理第一模态表征和第二模态表征,得到第一模态信息和第二模态信息之间的第一相似度。针对至少一个标识信息中的标识信息,可以利用第二相似度方法处理与标识信息对应的标识表征和第二模态表征,得到标识信息和第二模态信息之间的第二相似度。相似度方法可以包括以下至少之一:基于字面相似度的方法、基于文本相似度的方法和基于实体相似度的方法等。基于字面相似度的方法可以包括以下至少之一:编辑距离、Dice系数和Jaccard相似度等。基于文本相似度的方法可以包括以下至少之一:余弦相似度、相对熵、KL(Kullback-Leibler,KL)散度和概率模型相似度等。概率模型相似度可以包括以下至少之一:基于主题模型的概率模型相似度和基于语言模型的概率模型相似度。基于实体相似度的方法可以包括以下至少之一:基于图的连接度和基于M&W相似度等。M&W相似度可以根据M&W距离确定。M&W距离是Milne和Witte提出的一种基于语义距离度量方法。M&W距离可以是用两个实体在预定数据源中被同一页面引用次数和这两个实体各自被引用的次数来共同确定的语义距离。第一相似度方法和第二相似度方法可以是相似度方法中的之一。第一相似度方法和第二相似度方法可以相同,也可以不同。
根据本公开的实施例,在获得第一相似度和至少一个第二相似度之后,可以根据第一相似度和至少一个第二相似度来确定第一模态信息和第二模态信息之间的匹配度。例如,可以对第一相似度和至少一个第二相似度进行融合,得到第一模态信息和第二模态信息之间的匹配度。对第一相似度和至少一个第二相似度进行融合,得到第一模态信息和第二模态信息之间的匹配度可以包括:可以确定第一相似度和至少一个第二相似度之间的加权和。各个第二相似度各自具有加权系数。可以根据加权和,确定第一模态信息和第二模态信息之间的匹配度。备选地,可以确定第一相似度和目标和之间的比值。根据比值,确定第一模态信息和第二模态信息之间的匹配度。目标和可以是根据至少一个第二相似度确定的。
根据本公开的实施例,可以由电子设备执行本公开实施例的跨模态信息匹配方法。例如,电子设备可以是服务器或终端设备。电子设备可以包括至少一个处理器。处理器可以用于执行本公开实施例提供的跨模态信息匹配方法。例如,可以利用单个处理器执行本公开实施例提供的跨模态信息匹配方法,也可以利用多个处理器并行执行本公开实施例提供的跨模态信息匹配方法。
例如,第一模态信息是文本信息“××黄金男篮对阵××大鲨鱼男篮”。第二模态信息是针对“××黄金男篮对阵××大鲨鱼男篮”的图像信息。可以确定第一模态信息的标识信息可以包括“黄金”和“大鲨鱼”。根据标识信息“黄金”的标识表征和第二模态信息的第二模态表征,确定标识信息“黄金”和第二模态信息之间的第二相似度。根据标识信息“大鲨鱼”的标识表征和第二模态信息的第二模态表征,确定标识信息“大鲨鱼”和第二模态信息之间的第二相似度。根据第一模态信息的第一模态表征和第二模态信息的第二模态表征,确定第一模态信息和第二模态信息之间的第一相似度。根据第一相似度和两个第二相似度,确定第一模态信息和第二模态信息之间的匹配度。
根据本公开的实施例,针对操作S210~S240的执行顺序进行说明。操作S210中确定第一模态信息的第一模态表征和第二模态信息的第二模态表征的操作以及操作S220~S240的执行顺序可以根据实际业务需求进行确定,在此不作限定。例如,可以按照本公开实施例所述的操作S210~S240的执行顺序执行。备选地,可以按照响应于检测到信息配置指令,确定与第一模态信息对应的标识表征。确定第一模态信息的第一模态表征和第二模态信息的第二模态表征。根据第一模态表征和第二模态表征,确定第一模态信息和第二模态信息之间的第一相似度。根据标识表征和第二模态表征,确定标识信息与第二模态信息之间的第二相似度。
根据本公开的实施例,通过根据第一相似度和第二相似度,确定第一模态信息和第二模态信息之间的匹配度,第二相似度是根据标识表征和第二模态表征确定的,标识表征是与第一模态信息的标识信息对应的标识表征,标识信息表征第一模态信息的语义级别的信息,第一模态信息和第二模态信息的模态不同,由此,实现了语义级别的跨模态信息匹配,提高了跨模态信息匹配的准确性。
根据本公开的实施例,操作S230可以包括如下操作。
根据第一模态信息,得到第一模态信息的实体信息。确定与实体信息对应的标识信息,得到第一模态信息的标识信息。根据与第一模态信息对应的标识信息,得到与第一模态信息的标识信息对应的标识表征。
根据本公开的实施例,可以对第一模态信息进行命名实体识别,得到第一模态信息的实体信息。备选地,可以对第一模态信息进行实体链指,得到第一模态信息的实体信息。可以确定实体信息的标识信息。将实体信息的标识信息确定为第一模态信息的标识信息。可以根据第一模态信息的标识信息,从第一映射关系集中确定与标识信息相匹配的第一匹配标识信息。将与第一匹配标识信息对应的标识表征确定为与第一模态信息的标识信息对应的标识表征。
根据本公开的实施例,根据第一模态信息,得到第一模态信息的实体信息,可以包括如下操作。
对第一模态信息进行实体链指,得到第一模态信息的实体信息。
根据本公开的实施例,实体链指(Entity Linking,EL)可以指从知识库中确定与文本信息中的实体指称(即实体提及(Entity Mention,EM))对应的实体。实体指称可以指同一实体的相同或不同的字符串表述。例如,针对实体“电话”,“有线电话”和“无线电话”是两个实体指称。知识库可以包括以下至少之一:结构化知识库和半结构化知识库等。
根据本公开的实施例,实体信息可以包括至少一个。对第一模态信息进行实体链指,得到第一模态信息的实体信息,可以包括:确定第一模态信息的至少一个实体指称。根据至少一个实体指称,从知识库中确定与至少一个实体指称各自对应的第一候选实体信息,得到至少一个第一候选实体信息。针对至少一个实体指称中的实体指称,根据实体指称和至少一个第一候选实体信息,从与实体指称对应的至少一个第一候选实体信息中确定与实体指称对应的实体信息。根据至少一个实体指称各自对应的实体信息,得到第一模态信息的实体信息。
根据本公开的实施例,可以利用实体识别模型处理第一模态信息,得到第一模态信息的至少一个实体指称。实体识别模型可以包括以下至少之一:序列标注模型和分类器。
根据本公开的实施例,根据实体指称和至少一个第一候选实体信息,从与实体指称对应的至少一个第一候选实体信息中确定与实体指称对应的实体信息,可以包括:确定实体指称与至少一个第一候选实体信息各自对应的相似度。根据实体指称与至少一个第一候选实体信息各自对应的相似度,从与实体指称对应的至少一个第一候选实体信息中确定与实体指称对应的实体信息。可以对实体指称进行特征提取,得到实体指称的实体指称表征。可以分别对至少一个第一候选实体信息进行特征提取,得到至少一个第一候选实体信息各自的候选实体表征。确定实体指称表征与至少一个候选实体表征各自对应的相似度。根据实体指称表征与至少一个候选实体表征各自对应的相似度,从与实体指称对应的至少一个第一候选实体信息中确定与实体指称对应的实体信息。
根据本公开的实施例,确定实体指称的描述信息。确定实体相关信息与至少一个第一候选实体信息各自对应的相似度。根据实体相关信息与至少一个第一候选实体信息各自对应的相似度,从与实体指称对应的至少一个第一候选实体信息中确定与实体指称对应的实体信息。实体相关信息可以包括实体指称和实体指称的描述信息。实体指称的描述信息可以指实体信息的上下文信息。可以对实体相关信息进行特征提取,得到实体相关表征。可以分别对至少一个第一候选实体信息进行特征提取,得到至少一个第一候选实体信息各自的候选实体表征。确定实体相关表征与至少一个候选实体表征各自对应的相似度。根据实体相关表征与至少一个候选实体表征各自对应的相似度,从与实体指称对应的至少一个第一候选实体信息中确定与实体指称对应的实体信息。
根据本公开的实施例,根据实体指称与至少一个第一候选实体信息各自对应的相似度,从与实体指称对应的至少一个第一候选实体信息中确定与实体指称对应的实体信息,可以包括:根据实体指称与至少一个第一候选实体信息各自对应的相似度,对至少一个第一候选实体信息进行排序,得到第一排序结果。根据第一排序结果,从与实体指称对应的至少一个第一候选实体信息中确定与实体指称对应的实体信息。排序可以可以按照以下方式之一进行排序:按照相似度由大到小的顺序进行排序和按照相似度由小到大的顺序进行排序。例如,相似度的数值越大,则表征实体指称和第一候选实体信息之间的相似程度越大。如果按照相似度由小到大的顺序进行排序,则可以将与排序最后的相似度对应的第一候选实体信息确定为实体信息。
根据本公开的实施例,根据实体相关信息与至少一个第一候选实体信息各自对应的相似度,从与实体指称对应的至少一个第一候选实体信息中确定与实体指称对应的实体信息,可以包括:根据实体相关信息与至少一个第一候选实体信息各自对应的相似度,对至少一个第一候选实体信息进行排序,得到第二排序结果。根据第二排序结果,从与实体指称对应的至少一个第一候选实体信息中确定与实体指称对应的实体信息。
例如,第一模态信息可以是“在×××的发布会上,苹果为开发者推出新编程语言Swift”。第一模态信息的实体指称可以包括“×××”、“苹果”和“Swift”。根据实体指称“苹果”,确定与实体指称“苹果”对应的第一候选实体信息可以包括“苹果(水果)”、“苹果公司”和“苹果银行”。实体指称“苹果”的描述信息可以包括发布会、开发者和编程语言。根据实体相关信息,从与实体指称“苹果”对应的第一候选实体信息“苹果(水果)”、“苹果公司”和“苹果银行”中确定实体信息是“苹果公司”。实体相关信息可以包括实体指称和实体指称的描述信息。
根据本公开的实施例,根据与第一模态信息对应的标识信息,得到与第一模态信息的标识信息对应的标识表征,可以包括如下操作。
根据与第一模态信息对应的标识信息,从第一映射关系集中确定与标识信息相匹配的第一匹配标识信息。将与第一匹配标识信息对应的标识表征确定为与第一模态信息的标识信息对应的标识表征。
根据本公开的实施例,第一映射关系集可以包括至少一个第一映射关系。第一映射关系可以表征候选第一模态信息的候选标识信息和候选标识信息的标识表征之间的关系。
根据本公开的实施例,第一匹配标识信息可以指第一映射关系集中与第一模态信息的标识信息相匹配的候选标识信息。相匹配可以指相一致。
根据本公开的实施例,针对与第一模态信息对应的至少一个标识信息中的标识信息,从第一映射关系集中确定与标识信息相匹配的第一匹配标识信息。
根据本公开的实施例,上述跨模态信息匹配方法还可以包括如下操作。
根据媒体资源信息集,确定第二映射关系集。根据第二映射关系集,确定第一映射关系集。
根据本公开的实施例,媒体资源信息集可以包括至少一个媒体资源信息。媒体资源信息可以包括候选第一模态信息和候选第二模态信息。第二映射关系集可以包括至少一个第二映射关系。第二映射关系可以表征候选第一模态信息的候选标识信息与至少一个候选第二模态信息之间的关系。
根据本公开的实施例,候选标识信息可以具有与该候选标识信息对应的至少一个候选第二模态信息。候选第一模态信息和候选第二模态信息的预定模态不同。候选第一模态信息可以是文本信息。候选第二模态信息可以包括以下之一:图像信息、视频信息和音频信息。
根据本公开的实施例,根据媒体资源信息集,确定第二映射关系集,可以包括如下操作。
针对媒体资源信息集中的媒体资源信息,根据媒体资源信息中的候选第一模态信息,得到候选第一模态信息的至少一个实体信息。确定与候选第一模态信息的至少一个实体信息各自对应的候选标识信息,得到至少一个候选标识信息。根据候选第一模态信息的至少一个候选标识信息和候选第二模态信息,得到至少一个第三映射关系。确定具有相同候选标识信息的第三映射关系,得到与至少一个所述候选标识信息各自对应的第二映射关系。
根据本公开的实施例,根据媒体资源信息中的候选第一模态信息,得到候选第一模态信息的至少一个实体信息,可以包括:确定候选第一模态信息的至少一个候选实体指称。根据至少一个候选实体指称,从知识库中确定与至少一个候选实体指称各自对应的第二候选实体信息,得到至少一个第二候选实体信息。针对至少一个候选实体指称中的候选实体指称,根据候选实体指称和至少一个第二候选实体信息,从与候选实体指称对应的至少一个第二候选实体信息中确定与候选实体指称对应的实体信息。根据至少一个候选实体指称各自对应的实体信息,得到候选第一模态信息的至少一个实体信息。
根据本公开的实施例,针对候选第一模态信息的至少一个实体信息中的实体信息,确定与实体信息对应的候选标识信息。根据候选标识信息和候选第二模态信息,确定第三映射关系。第三映射关系可以表征候选标识信息和候选第二模态信息之间的关系。
根据本公开的实施例,可以从与至少一个候选标识信息各自对应的至少一个第三映射关系中,确定具有相同候选标识信息的第三映射关系,得到与相同候选标识信息对应的至少一个第三映射关系。根据与相同候选标识信息对应的至少一个第三映射关系,得到候选标识信息和至少一个候选第二模态信息之间第二映射关系。
根据本公开的实施例,根据第二映射关系集,确定第一映射关系集,可以包括如下操作。
针对第二映射关系集中的第二映射关系,确定第二映射关系中的至少一个候选第二模态信息各自的候选第二模态表征,得到至少一个候选第二模态表征。对至少一个候选第二模态表征进行聚合,得到候选标识信息的标识表征。根据候选第一模态信息的候选标识信息和候选标识信息的标识表征,得到第一映射关系。
根据本公开的实施例,针对第二映射关系中的至少一个候选第二模态信息中的候选第二模态信息,对候选第二模态信息进行特征提取,得到候选第二模态信息的候选第二模态表征。可以利用聚合策略处理至少一个候选第二模态信息,得到第二映射关系中的候选标识信息的标识表征。聚合策略可以包括以下至少之一:聚类策略和融合策略。聚类策略可以指将至少一个候选第二模态信息进行聚类的策略。融合策略可以指将至少一个候选第二模态信息进行融合的策略。根据候选第一模态信息的候选标识信息和候选标识信息的标识表征,得到第一映射关系。
根据本公开的实施例,对至少一个候选第二模态表征进行聚合,得到候选标识信息的标识表征,可以包括如下操作。
对至少一个候选第二模态表征进行聚类,得到聚类结果。根据聚类结果,确定候选标识信息的标识表征。
根据本公开的实施例,可以利用聚类方法对至少一个候选第二模态表征进行聚类,得到聚类结果。聚类方法可以包括将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程,通过聚类可以进行对象分类和数据挖掘。聚类方法可以包括以下至少之一:K-Means(K-means Clustering,K均值聚类)算法、基于链接的层次聚类算法、基于密度的聚类算法、基于模型的SOM(Self-organizing Maps,自组织映射)聚类算法和基于概率的GMM(Gaussian Mixture Model,高斯混合模型)聚类算法等。可以根据实际业务需求确定聚类方法,在此不作限定。
根据本公开的实施例,聚类结果可以包括至少一个聚类簇。聚类簇具有与该聚类簇对应的聚类中心。可以根据聚类簇中的候选第二模态信息的数目,从至少一个聚类中心中确定目标聚类中心。根据目标聚类中心,确定候选标识信息的标识表征。例如,可以将目标聚类中心确定为候选标识信息的标识表征。
根据本公开的实施例,对至少一个候选第二模态表征进行聚合,得到候选标识信息的标识表征,可以包括如下操作。
对至少一个候选第二模态表征进行融合,得到融合表征。将融合表征确定为候选标识信息的标识表征。
根据本公开的实施例,可以将至少一个候选第二模态表征进行相加,得到融合表征。备选地,可以将至少一个候选第二模态表征进行拼接,得到融合表征。备选地,可以确定至少第一候选第二模态表征的平均值,得到融合表征。
根据本公开的实施例,上述跨模态信息匹配方法还可以包括如下操作。
响应于接收到新增媒体资源信息,利用新增媒体资源信息对第一映射关系集进行更新。
根据本公开的实施例,可以确定是否接收到新增媒体资源信息。在确定接收到新增媒体资源信息的情况下,可以根据新增媒体资源信息对第一映射关系集进行更新。
根据本公开的实施例,在达到预定更新时刻的情况下,响应于接收到新增媒体资源信息,利用新增媒体资源信息对第一映射关系集进行更新。预定更新时刻可以根据实际业务进行配置,在此不作限定。更新可以包括以下至少之一:修改和创建。
根据本公开的实施例,通过利用新增媒体资源信息对第一映射关系集进行更新,使得针对新增资源媒体信息中出现的新概念,利用更新后的第一映射关系集进行跨模态信息匹配,能够获得较为准确的跨模态匹配结果。
根据本公开的实施例,新增媒体资源信息可以包括新增第一模态信息和新增第二模态信息。
根据本公开的实施例,利用新增媒体资源信息对第一映射关系集进行更新,可以包括如下操作。
根据新增第一模态信息,得到新增第一模态信息的新增实体信息。确定与新增实体信息对应的标识信息,得到与新增第一模态信息对应的新增标识信息。在确定第一映射关系集中存在与新增标识信息相匹配的第二匹配标识信息的情况下,利用新增第二模态信息对与第二匹配标识信息对应的第一映射关系进行修改。在确定第一映射关系集中不存在与新增标识信息相匹配的第二匹配标识信息的情况下,利用新增媒体资源信息创建与新增标识信息对应的第一映射关系。
根据本公开的实施例,新增第一模态信息和新增第二模态信息的预定模态不同。新增第一模态信息可以是文本信息。新增第二模态信息可以包括以下之一:图像信息和音频信息。
根据本公开的实施例,可以对新增第一模态信息进行命名实体识别,得到新增第一模态信息的新增实体信息。备选地,可以对新增第一模态信息进行实体链指,得到新增第一模态信息的新增实体信息。可以确定新增实体信息的新增标识信息。将新增实体信息的新增标识信息确定为新增第一模态信息的标识信息。
根据本公开的实施例,可以确定第一映射关系集中是否存在与新增标识信息相匹配的第二匹配标识信息。在确定第一映射关系集中存在与新增标识信息相匹配的第二匹配标识信息的情况下,可以确定新增第二模态信息的新增第二模态表征。根据新增第二模态表征对与第二匹配标识信息对应的标识表征进行修改。例如,可以对新增第二模态信息的新增第二模态表征和与第二匹配标识信息对应的已有第二模态表征进行聚合,得到修改后的与第二匹配标识信息对应的标识表征。
根据本公开的实施例,在确定第二映射关系集中不存在与新增标识信息相匹配的第二匹配标识信息的情况下,可以根据新增媒体资源信息创建与新增标识信息对应的第一映射关系。例如,可以根据新增媒体资源信息中的新增第一模态信息,得到新增第一模态信息的至少一个实体信息。确定与新增第一模态信息的至少一个实体信息各自对应的候选标识信息,得到至少一个新增标识信息。根据新增第一模态信息的至少一个新增标识信息和新增第二模态信息,得到至少一个第三映射关系。根据至少一个第三映射关系,得到与新增标识信息对应的第二映射关系。确定与新增标识信息对应的第二映射关系中的新增第二模态信息的新增第二模态表征。根据新增第二模态表征,得到新增标识信息的标识表征。根据新增第一模态信息的标识信息和新增标识信息的标识表征,得到第一映射关系。
根据本公开的实施例,通过利用新增媒体资源信息对第一映射关系集中的第一映射关系进行修改或创建新的第一映射关系,使得针对新增资源媒体信息中出现的新概念,利用更新后的第一映射关系集进行跨模态信息匹配,能够获得较为准确的跨模态匹配结果。
根据本公开的实施例,操作S240可以包括如下操作。
确定第一相似度和第二相似度之间的加权和。根据加权和,确定第一模态信息和第二模态信息之间的匹配度。
根据本公开的实施例,第一相似度和第二相似度各自的加权系数可以根据实际业务需求进行配置,在此不作限定。可以将加权和确定为第一模态信息和第二模态信息之间的匹配度。
根据本公开的实施例,可以根据如下公式(1)确定第一模态信息和第二模态信息之间的匹配度。
Figure BDA0003827659420000201
根据本公开的实施例,match可以表征第一模态信息和第二模态信息之间的匹配度。sim1(r(m1),r(m2))可以表征第一模态信息和第二模态信息之间的第一相似度。
Figure BDA0003827659420000202
可以表征第一模态信息的标识信息和第二模态信息之间的第二相似度。m1可以表征第一模态信息。m2可以表征第二模态信息。
Figure BDA0003827659420000203
可以表征第一模态信息的标识信息。r1(m1)可以表征第一模态表征。r2(m2)可以表征第二模态表征。
Figure BDA0003827659420000204
可以表征与第一模态信息的标识信息对应的标识表征。α可以表征第一加权系数。β可以表征第二加权系数。α和β可以根据实际业务需求进行配置,在此不作限定。
下面参考图3A、图3B和图3C,结合具体实施例对根据本公开实施例所述的跨模态信息匹配方法做进一步说明。
图3A示意性示出了根据本公开实施例的跨模态信息匹配方法的原理示意图。
如图3A所示,在300A中,响应于检测到信息匹配指令,确定第一模态信息301的第一模态表征302和第二模态信息303的第二模态表征304。根据与第一模态信息301对应的标识信息306,从第一映射关系集307中确定与标识信息306相匹配的第一匹配标识信息。将与第一匹配标识信息对应的标识表征确定为与第一模态信息301的标识信息对应的标识表征308。
根据第一模态表征302和第二模态表征304,确定第一模态信息301和第二模态信息303之间的第一相似度305。根据标识表征308和第二模态表征304,确定标识信息306与第二模态信息303之间的第二相似度309。根据第一相似度305和第二相似度309,确定第一模态信息301和第二模态信息303之间的匹配度310。
图3B示意性示出了根据本公开实施例的获得至少一个第三映射关系的示例示意图。
如图3B所示,在300B中,媒体资源信息311可以包括候选第一模态信息311_1和候选第二模态信息311_2。根据候选第一模态信息311_1,得到候选第一模态信息311_1的至少一个实体信息312。确定与候选第一模态信息311_1的至少一个实体信息312各自对应的候选标识信息313,得到至少一个候选标识信息313。根据候选第一模态信息311_1的至少一个候选标识信息313和候选第二模态信息311_2,得到至少一个第三映射关系314。
图3C示意性示出了根据本公开实施例的获得第一映射关系的示例示意图。
如图3C所示,在300C中,与候选标识信息318对应的候选第二模态信息集315可以包括M个候选第二模态信息,例如,候选第二模态信息315_1、……、候选第二模态信息315_m、……、候选第二模态信息315_M。候选第二模态信息集315与候选第二模态表征集316相对应。候选第二模态表征集316可以包括M个候选第二模态表征,例如,候选第二模态表征316_1、……、候选第二模态表征316_m、……、候选第二模态表征316_M。M可以是大于或等于1的整数。m∈{1,2,……,M-1,M}。
可以对候选第二模态表征316_1、……、候选第二模态表征316_m、……、候选第二模态表征316_M进行聚合,得到候选标识信息318的标识表征317。根据候选标识信息318和候选标识信息318的标识表征317,得到第一映射关系319。
图4示意性示出了根据本公开实施例的跨模态信息处理方法的流程图。
如图4所示,该方法400包括操作S410~S430。
在操作S410,响应于检测到信息处理指令,获取待处理第一模态信息和多个待匹配第二模态信息。
在操作S420,确定待处理第一模态信息和多个待匹配第二模态信息各自之间的匹配度。
在操S430,根据待处理第一模态信息和多个待匹配第二模态信息各自之间的匹配度,从多个待匹配第二模态信息中确定与待处理第一模态信息对应的匹配第二模态信息。
根据本公开的实施例,待处理第一模态信息和多个待匹配第二模态信息各自之间的匹配度是根据本公开实施例所述的跨模态信息匹配方法确定的。
根据本公开的实施例,待处理第一模态信息可以和待匹配第二模态信息的预定模态不同。待处理第一模态信息可以是文本信息。待匹配第二模态信息可以包括以下之一:图像信息、视频信息和音频信息。匹配第二模态信息可以包括至少一个。
根据本公开的实施例,信息处理指令可以指用于确定与待处理第一模态信息对应的匹配第二模态信息的指令。信息处理指令可以是响应于检测到信息处理操作生成的。备选地,信息处理指令可以是响应于检测到信息处理例程生成的。信息处理指令可以包括待处理第一模态信息和多个待匹配第二模态信息。备选地,信息处理指令可以包括与待处理第一模态信息对应的第三索引信息和与多个待匹配第二模态信息各自对应的第四索引信息。第三索引信息可以指用于获取待处理第一模态信息的信息。第四索引信息可以指用于获取待匹配第二模态信息的信息。
根据本公开的实施例,信息处理指令可以是应用于各个应用领域的指令。例如,应用领域可以包括以下至少之一:检索领域、推荐领域、问答领域、知识图谱和智能创作等。智能创作可以包括AIGC。
根据本公开的实施例,可以根据待处理第一模态信息和多个待匹配第二模态信息各自之间的匹配度,对多个待匹配第二模态信息进行排序,得到第三排序结果。根据第三排序结果,从多个待匹配第二模态信息中确定与待处理第一模态信息对应的匹配第二模态信息。备选地,针对多个待匹配第二模态信息中的待匹配第二模态信息,在确定待处理第一模态信息和待匹配第二模态信息之间的匹配度大于或等于预定匹配阈值的情况下,可以将待匹配第二模态信息确定为匹配第二模态信息。预定匹配阈值可以根据实际业务需求进行配置,在此不作限定。例如,预定匹配阈值可以是0.9。
根据本公开的实施例,由于待处理第一模态信息和多个待匹配第二模态信息各自之间的匹配度是根据本公开实施例所述的跨模态信息匹配方法确定的,因此,实现了语义级别的跨模态信息匹配,提高了跨模态信息匹配的准确性。在此基础上,根据待处理第一模态信息和多个待匹配第二模态信息各自之间的匹配度,从多个待匹配第二模态信息中确定与待处理第一模态信息对应的匹配第二模态信息,提高了匹配第二模态信息确定的准确性。
根据本公开的实施例,信息处理指令可以包括以下之一:信息检索指令和信息推荐指令。
根据本公开的实施例,本公开实施例所述的跨模态信息处理方法可以应用于实现跨模态信息检索和跨模态信息推荐中的之一。跨模态信息检索可以包括以下至少之一:图文信息检索、视文信息检索和图频信息检索等。跨模态信息推荐可以包括以下至少之一:图文信息推荐、视文信息推荐和图频信息推荐等。
根据本公开的实施例,跨模态信息检索可以指根据一种模态信息来检索另一种模态信息。例如,可以根据待处理第一模态信息来检索匹配第二模态信息。跨模态信息推荐可以指根据一种模态信息来推荐另一种模态信息。例如,可以根据待处理第一模态信息来推荐匹配第二模态信息。
本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗
以上仅是示例性实施例,但不限于此,还可以包括本领域已知的其他跨模态信息匹配方法和跨模态信息处理方法,只要能够提高跨模态信息匹配的准确性即可。
图5示意性示出了根据本公开实施例的跨模态信息匹配装置的框图。
如图5所示,跨模态信息匹配装置500可以包括第一确定模块510、第二确定模块520、第三确定模块530、第四确定模块540和第五确定模块550。
第一确定模块510,用于响应于检测到信息匹配指令,确定第一模态信息的第一模态表征和第二模态信息的第二模态表征。第一模态信息是文本信息。第二模态信息与第一模态信息的模态不同。
第二确定模块520,用于根据第一模态表征和第二模态表征,确定第一模态信息和第二模态信息之间的第一相似度;
第三确定模块530,用于确定与第一模态信息的标识信息对应的标识表征。标识信息表征第一模态信息的语义级别的信息。
第四确定模块540,用于根据标识表征和第二模态表征,确定标识信息与第二模态信息之间的第二相似度。
第五确定模块550,用于根据第一相似度和第二相似度,确定第一模态信息和第二模态信息之间的匹配度。
根据本公开的实施例,第三确定模块530可以包括第一获得子模块、第二获得子模块和第三获得子模块。
第一获得子模块,用于根据第一模态信息,得到第一模态信息的实体信息。
第二获得子模块,用于确定与实体信息对应的标识信息,得到与第一模态信息对应的标识信息。
第三获得子模块,用于根据与第一模态信息对应的标识信息,得到与第一模态信息的标识信息对应的标识表征。
根据本公开的实施例,第一获得子模块可以包括第一获得单元。
第一获得单元,用于对第一模态信息进行实体链指,得到第一模态信息的实体信息。
根据本公开的实施例,第三获得子模块可以包括第一确定单元和第二确定单元。
第一确定单元,用于根据与第一模态信息对应的标识信息,从第一映射关系集中确定与标识信息相匹配的第一匹配标识信息。第一映射关系集包括至少一个第一映射关系。第一映射关系表征候选第一模态信息的候选标识信息和候选标识信息的标识表征之间的关系。
第二确定单元,用于将与第一匹配标识信息对应的标识表征确定为与第一模态信息的标识信息对应的标识表征。
根据本公开的实施例,上述跨模态信息匹配装置600还可以包括第六确定模块和第七确定模块。
第六确定模块,用于根据媒体资源信息集,确定第二映射关系集。媒体资源信息集包括至少一个媒体资源信息。媒体资源信息包括候选第一模态信息和候选第二模态信息。第二映射关系集包括至少一个第二映射关系。第二映射关系表征候选第一模态信息的候选标识信息与至少一个候选第二模态信息之间的关系。
第七确定模块,用于根据第二映射关系集,确定第一映射关系集。
根据本公开的实施例,针对第二映射关系集中的第二映射关系,第七确定模块可以包括第四获得子模块、第五获得子模块和第六获得子模块。
第四获得子模块,用于确定第二映射关系中的至少一个候选第二模态信息各自的候选第二模态表征,得到至少一个候选第二模态表征。
第五获得子模块,用于对至少一个候选第二模态表征进行聚合,得到候选标识信息的标识表征。
第六获得子模块,用于根据候选第一模态信息的候选标识信息和候选标识信息的标识表征,得到第一映射关系。
根据本公开的实施例,第五获得子模块可以包括第二获得单元和第三确定单元。
第二获得单元,用于对至少一个候选第二模态表征进行聚类,得到聚类结果。
第三确定单元,用于根据聚类结果,确定候选标识信息的标识表征。
根据本公开的实施例,第五获得子模块可以包括第三获得单元和第四确定单元。
第三获得单元,用于对至少一个候选第二模态表征进行融合,得到融合表征。
第四确定单元,用于将融合表征确定为候选标识信息的标识表征。
根据本公开的实施例,针对媒体资源信息集中的媒体资源信息,第六确定模块可以包括第七获得子模块、第八获得子模块、第九获得子模块和第十获得子模块。
第七获得子模块,用于根据媒体资源信息中的候选第一模态信息,得到候选第一模态信息的至少一个实体信息。
第八获得子模块,用于确定与候选第一模态信息的至少一个实体信息各自对应的候选标识信息,得到至少一个候选标识信息。
第九获得子模块,用于根据候选第一模态信息的至少一个候选标识信息和候选第二模态信息,得到至少一个第三映射关系。
第十获得子模块,用于确定具有相同候选标识信息的第三映射关系,得到与至少一个候选标识信息各自对应的第二映射关系。
根据本公开的实施例,第五确定模块550可以包括第一确定子模块和第二确定子模块。
第一确定子模块,用于确定第一相似度和第二相似度之间的加权和、
第二确定子模块,用于根据加权和,确定第一模态信息和第二模态信息之间的匹配度。
根据本公开的实施例,上述跨模态信息匹配装置500还可以包括更新模块。
更新模块,用于响应于接收到新增媒体资源信息,利用新增媒体资源信息对第一映射关系集进行更新。
根据本公开的实施例,新增媒体资源信息包括新增第一模态信息和新增第二模态信息。
根据本公开的实施例,更新模块可以包括第十一获得子模块、第十二获得子模块、修改子模块和创建子模块。
第十一获得子模块,用于根据新增第一模态信息,得到新增第一模态信息的新增实体信息。
第十二获得子模块,用于确定与新增实体信息对应的标识信息,得到与新增第一模态信息对应的新增标识信息。
修改子模块,用于在确定第一映射关系集中存在与新增标识信息相匹配的第二匹配标识信息的情况下,利用新增第二模态信息对与第二匹配标识信息对应的第一映射关系进行修改。
创建子模块,用于在确定第一映射关系集中不存在与新增标识信息相匹配的第二匹配标识信息的情况下,利用新增媒体资源信息创建与新增标识信息对应的第一映射关系。
根据本公开的实施例,第二模态信息包括以下至少之一:图像信息、视频信息和音频信息。
图6示意性示出了根据本公开实施例的跨模态信息处理装置的框图。
如图6所示,跨模态信息处理装置600可以包括获取模块610、第八确定模块620和第九确定模块630。
获取模块610,用于响应于检测到信息处理指令,获取待处理第一模态信息和多个待匹配第二模态信息;
第八确定模块620,用于确定待处理第一模态信息和多个待匹配第二模态信息各自之间的匹配度.
第九确定模块,用于根据待处理第一模态信息和多个待匹配第二模态信息各自之间的匹配度,从多个待匹配第二模态信息中确定与待处理第一模态信息对应的匹配第二模态信息。
根据本公开的实施例,待处理第一模态信息和多个待匹配第二模态信息各自之间的匹配度可以是根据实施例的跨模态信息匹配装置确定的。
根据本公开的实施例,信息处理指令包括以下之一:信息检索指令和信息推荐指令。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
根据本公开的实施例,一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如上所述的方法。
根据本公开的实施例,一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行如上所述的方法。
根据本公开的实施例,一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现如上所述的方法。
图7示意性示出了根据本公开实施例的适于实现跨模态信息匹配方法和跨模态信息处理方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图7所示,电子设备700包括计算单元701,其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序,来执行各种适当的动作和处理。在RAM 703中,还可存储电子设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
电子设备700中的多个部件连接至I/O接口705,包括:输入单元706,例如键盘、鼠标等;输出单元707,例如各种类型的显示器、扬声器等;存储单元708,例如磁盘、光盘等;以及通信单元709,例如网卡、调制解调器、无线通信收发机等。通信单元709允许电子设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理,例如,跨模态信息匹配方法和跨模态信息处理方法。例如,在一些实施例中,跨模态信息匹配方法和跨模态信息匹配方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元708。在一些实施例中,计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到电子设备700上。当计算机程序加载到RAM 703并由计算单元701执行时,可以执行上文描述的跨模态信息匹配方法和跨模态信息处理方法的一个或多个步骤。备选地,在其他实施例中,计算单元701可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行跨模态信息匹配方法和跨模型信息匹配方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以是分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (33)

1.一种跨模态信息匹配方法,包括:
响应于检测到信息匹配指令,确定第一模态信息的第一模态表征和第二模态信息的第二模态表征,其中,所述第一模态信息是文本信息,所述第二模态信息与所述第一模态信息的模态不同;
根据所述第一模态表征和所述第二模态表征,确定所述第一模态信息和所述第二模态信息之间的第一相似度;
确定与所述第一模态信息的标识信息对应的标识表征,其中,所述标识信息表征所述第一模态信息的语义级别的信息;
根据所述标识表征和所述第二模态表征,确定所述标识信息与所述第二模态信息之间的第二相似度;以及
根据所述第一相似度和所述第二相似度,确定所述第一模态信息和所述第二模态信息之间的匹配度。
2.根据权利要求1所述的方法,其中,所述确定与所述第一模态信息的标识信息对应的标识表征,包括:
根据所述第一模态信息,得到所述第一模态信息的实体信息;
确定与所述实体信息对应的标识信息,得到与所述第一模态信息对应的标识信息;以及
根据与所述第一模态信息对应的标识信息,得到与所述第一模态信息的标识信息对应的标识表征。
3.根据权利要求2所述的方法,其中,所述根据所述第一模态信息,得到所述第一模态信息的实体信息,包括:
对所述第一模态信息进行实体链指,得到所述第一模态信息的实体信息。
4.根据权利要求2或3所述的方法,其中,所述根据与所述第一模态信息对应的标识信息,得到与所述第一模态信息的标识信息对应的标识表征,包括:
根据与所述第一模态信息对应的标识信息,从第一映射关系集中确定与所述标识信息相匹配的第一匹配标识信息,其中,所述第一映射关系集包括至少一个第一映射关系,所述第一映射关系表征候选第一模态信息的候选标识信息和所述候选标识信息的标识表征之间的关系;以及
将与所述第一匹配标识信息对应的标识表征确定为与所述第一模态信息的标识信息对应的标识表征。
5.根据权利要求4所述的方法,还包括:
根据媒体资源信息集,确定第二映射关系集,其中,所述媒体资源信息集包括至少一个媒体资源信息,所述媒体资源信息包括所述候选第一模态信息和候选第二模态信息,所述第二映射关系集包括至少一个第二映射关系,所述第二映射关系表征所述候选第一模态信息的候选标识信息与至少一个所述候选第二模态信息之间的关系;以及
根据所述第二映射关系集,确定所述第一映射关系集。
6.根据权利要求5所述的方法,其中,所述根据所述第二映射关系集,确定所述第一映射关系集,包括:
针对所述第二映射关系集中的第二映射关系,
确定所述第二映射关系中的至少一个候选第二模态信息各自的候选第二模态表征,得到至少一个候选第二模态表征;
对所述至少一个候选第二模态表征进行聚合,得到所述候选标识信息的标识表征;以及
根据所述候选第一模态信息的候选标识信息和所述候选标识信息的标识表征,得到所述第一映射关系。
7.根据权利要求6所述的方法,其中,所述对所述至少一个候选第二模态表征进行聚合,得到所述候选标识信息的标识表征,包括:
对所述至少一个候选第二模态表征进行聚类,得到聚类结果;以及
根据所述聚类结果,确定所述候选标识信息的标识表征。
8.根据权利要求6所述的方法,其中,所述对所述至少一个候选第二模态表征进行聚合,得到所述候选标识信息的标识表征,包括:
对所述至少一个候选第二模态表征进行融合,得到融合表征;以及
将所述融合表征确定为所述候选标识信息的标识表征。
9.根据权利要求5~8中任一项所述的方法,其中,所述根据媒体资源信息集,确定第二映射关系集,包括:
针对所述媒体资源信息集中的媒体资源信息,
根据所述媒体资源信息中的候选第一模态信息,得到所述候选第一模态信息的至少一个实体信息;
确定与所述候选第一模态信息的至少一个实体信息各自对应的候选标识信息,得到至少一个候选标识信息;
根据所述候选第一模态信息的至少一个候选标识信息和所述候选第二模态信息,得到至少一个第三映射关系;以及
确定具有相同候选标识信息的第三映射关系,得到与至少一个所述候选标识信息各自对应的第二映射关系。
10.根据权利要求1~9中任一项所述的方法,其中,所述根据所述第一相似度和所述第二相似度,确定所述第一模态信息和所述第二模态信息之间的匹配度,包括:
确定所述第一相似度和所述第二相似度之间的加权和;以及
根据所述加权和,确定所述第一模态信息和所述第二模态信息之间的匹配度。
11.根据权利要求4~9中任一项所述的方法,还包括:
响应于接收到新增媒体资源信息,利用所述新增媒体资源信息对所述第一映射关系集进行更新。
12.根据权利要求11所述的方法,其中,所述新增媒体资源信息包括新增第一模态信息和新增第二模态信息;
其中,所述利用所述新增媒体资源信息对所述第一映射关系集进行更新,包括:
根据所述新增第一模态信息,得到所述新增第一模态信息的新增实体信息;
确定与所述新增实体信息对应的标识信息,得到与所述新增第一模态信息对应的新增标识信息;
在确定所述第一映射关系集中存在与所述新增标识信息相匹配的第二匹配标识信息的情况下,利用所述新增第二模态信息对与所述第二匹配标识信息对应的第一映射关系进行修改;以及
在确定所述第一映射关系集中不存在与所述新增标识信息相匹配的第二匹配标识信息的情况下,利用所述新增媒体资源信息创建与所述新增标识信息对应的第一映射关系。
13.根据权利要求1~12中任一项所述的方法,其中,所述第二模态信息包括以下至少之一:图像信息、视频信息和音频信息。
14.一种跨模态信息处理方法,包括:
响应于检测到信息处理指令,获取待处理第一模态信息和多个待匹配第二模态信息;
利用根据权利要求1~13中任一项所述的方法确定所述待处理第一模态信息和所述多个待匹配第二模态信息各自之间的匹配度;以及
根据所述待处理第一模态信息和所述多个待匹配第二模态信息各自之间的匹配度,从所述多个待匹配第二模态信息中确定与所述待处理第一模态信息对应的匹配第二模态信息。
15.根据权利要求14所述的方法,其中,所述信息处理指令包括以下之一:信息检索指令和信息推荐指令。
16.一种跨模态信息匹配装置,包括:
第一确定模块,用于响应于检测到信息匹配指令,确定第一模态信息的第一模态表征和第二模态信息的第二模态表征,其中,所述第一模态信息是文本信息,所述第二模态信息与所述第一模态信息的模态不同;
第二确定模块,用于根据所述第一模态表征和所述第二模态表征,确定所述第一模态信息和所述第二模态信息之间的第一相似度;
第三确定模块,用于确定与所述第一模态信息的标识信息对应的标识表征,其中,所述标识信息表征所述第一模态信息的语义级别的信息;
第四确定模块,用于根据所述标识表征和所述第二模态表征,确定所述标识信息与所述第二模态信息之间的第二相似度;以及
第五确定模块,用于根据所述第一相似度和所述第二相似度,确定所述第一模态信息和所述第二模态信息之间的匹配度。
17.根据权利要求16所述的装置,其中,所述第三确定模块包括:
第一获得子模块,用于根据所述第一模态信息,得到所述第一模态信息的实体信息;
第二获得子模块,用于确定与所述实体信息对应的标识信息,得到与所述第一模态信息对应的标识信息;以及
第三获得子模块,用于根据与所述第一模态信息对应的标识信息,得到与所述第一模态信息的标识信息对应的标识表征。
18.根据权利要求17所述的装置,其中,所述第一获得子模块,包括:
第一获得单元,用于对所述第一模态信息进行实体链指,得到所述第一模态信息的实体信息。
19.根据权利要求17或18所述的装置,其中,所述第三获得子模块,包括:
第一确定单元,用于根据与所述第一模态信息对应的标识信息,从第一映射关系集中确定与所述标识信息相匹配的第一匹配标识信息,其中,所述第一映射关系集包括至少一个第一映射关系,所述第一映射关系表征候选第一模态信息的候选标识信息和所述候选标识信息的标识表征之间的关系;以及
第二确定单元,用于将与所述第一匹配标识信息对应的标识表征确定为与所述第一模态信息的标识信息对应的标识表征。
20.根据权利要求19所述的装置,还包括:
第六确定模块,用于根据媒体资源信息集,确定第二映射关系集,其中,所述媒体资源信息集包括至少一个媒体资源信息,所述媒体资源信息包括所述候选第一模态信息和候选第二模态信息,所述第二映射关系集包括至少一个第二映射关系,所述第二映射关系表征所述候选第一模态信息的候选标识信息与至少一个所述候选第二模态信息之间的关系;以及
第七确定模块,用于根据所述第二映射关系集,确定所述第一映射关系集。
21.根据权利要求20所述的装置,其中,针对所述第二映射关系集中的第二映射关系,所述第七确定模块,包括:
第四获得子模块,用于确定所述第二映射关系中的至少一个候选第二模态信息各自的候选第二模态表征,得到至少一个候选第二模态表征;
第五获得子模块,用于对所述至少一个候选第二模态表征进行聚合,得到所述候选标识信息的标识表征;以及
第六获得子模块,用于根据所述候选第一模态信息的候选标识信息和所述候选标识信息的标识表征,得到所述第一映射关系。
22.根据权利要求21所述的装置,其中,所述第五获得子模块,包括:
第二获得单元,用于对所述至少一个候选第二模态表征进行聚类,得到聚类结果;以及
第三确定单元,用于根据所述聚类结果,确定所述候选标识信息的标识表征。
23.根据权利要求21所述的装置,其中,所述第五获得子模块,包括:
第三获得单元,用于对所述至少一个候选第二模态表征进行融合,得到融合表征;以及
第四确定单元,用于将所述融合表征确定为所述候选标识信息的标识表征。
24.根据权利要求20~23中任一项所述的装置,其中,针对所述媒体资源信息集中的媒体资源信息,所述第六确定模块,包括:
第七获得子模块,用于根据所述媒体资源信息中的候选第一模态信息,得到所述候选第一模态信息的至少一个实体信息;
第八获得子模块,用于确定与所述候选第一模态信息的至少一个实体信息各自对应的候选标识信息,得到至少一个候选标识信息;
第九获得子模块,用于根据所述候选第一模态信息的至少一个候选标识信息和所述候选第二模态信息,得到至少一个第三映射关系;以及
第十获得子模块,用于确定具有相同候选标识信息的第三映射关系,得到与至少一个所述候选标识信息各自对应的第二映射关系。
25.根据权利要求16~24中任一项所述的装置,其中,所述第五确定模块,包括:
第一确定子模块,用于确定所述第一相似度和所述第二相似度之间的加权和;以及
第二确定子模块,用于根据所述加权和,确定所述第一模态信息和所述第二模态信息之间的匹配度。
26.根据权利要求19~25中任一项所述的装置,还包括:
更新模块,用于响应于接收到新增媒体资源信息,利用所述新增媒体资源信息对所述第一映射关系集进行更新。
27.根据权利要求26所述的装置,其中,所述新增媒体资源信息包括新增第一模态信息和新增第二模态信息;
其中,所述更新模块,包括:
第十一获得子模块,用于根据所述新增第一模态信息,得到所述新增第一模态信息的新增实体信息;
第十二获得子模块,用于确定与所述新增实体信息对应的标识信息,得到与所述新增第一模态信息对应的新增标识信息;
修改子模块,用于在确定所述第一映射关系集中存在与所述新增标识信息相匹配的第二匹配标识信息的情况下,利用所述新增第二模态信息对与所述第二匹配标识信息对应的第一映射关系进行修改;以及
创建子模块,用于在确定所述第一映射关系集中不存在与所述新增标识信息相匹配的第二匹配标识信息的情况下,利用所述新增媒体资源信息创建与所述新增标识信息对应的第一映射关系。
28.根据权利要求16~27中任一项所述的装置,其中,所述第二模态信息包括以下至少之一:图像信息、视频信息和音频信息。
29.一种跨模态信息处理装置,包括:
获取模块,用于响应于检测到信息处理指令,获取待处理第一模态信息和多个待匹配第二模态信息;
第八确定模块,用于利用根据权利要求16~28中任一项所述的装置确定所述待处理第一模态信息和所述多个待匹配第二模态信息各自之间的匹配度;以及
第九确定模块,用于根据所述待处理第一模态信息和所述多个待匹配第二模态信息各自之间的匹配度,从所述多个待匹配第二模态信息中确定与所述待处理第一模态信息对应的匹配第二模态信息。
30.根据权利要求29所述的装置,其中,所述信息处理指令包括以下之一:信息检索指令和信息推荐指令。
31.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1~15中任一项所述的方法。
32.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1~15中任一项所述的方法。
33.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1~15中任一项所述的方法。
CN202211066005.5A 2022-09-01 2022-09-01 跨模态信息匹配、处理方法、装置、电子设备及存储介质 Active CN115392389B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211066005.5A CN115392389B (zh) 2022-09-01 2022-09-01 跨模态信息匹配、处理方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211066005.5A CN115392389B (zh) 2022-09-01 2022-09-01 跨模态信息匹配、处理方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN115392389A true CN115392389A (zh) 2022-11-25
CN115392389B CN115392389B (zh) 2023-08-29

Family

ID=84125174

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211066005.5A Active CN115392389B (zh) 2022-09-01 2022-09-01 跨模态信息匹配、处理方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN115392389B (zh)

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107273517A (zh) * 2017-06-21 2017-10-20 复旦大学 基于图嵌入学习的图文跨模态检索方法
CN108288067A (zh) * 2017-09-12 2018-07-17 腾讯科技(深圳)有限公司 图像文本匹配模型的训练方法、双向搜索方法及相关装置
CN111753116A (zh) * 2019-05-20 2020-10-09 北京京东尚科信息技术有限公司 图像检索方法、装置、设备及可读存储介质
CN112905827A (zh) * 2021-02-08 2021-06-04 中国科学技术大学 跨模态图文匹配的方法、装置及计算机可读存储介质
US20210240761A1 (en) * 2019-01-31 2021-08-05 Shenzhen Sensetime Technology Co., Ltd. Method and device for cross-modal information retrieval, and storage medium
CN113343664A (zh) * 2021-06-29 2021-09-03 京东数科海益信息科技有限公司 图像文本之间的匹配度的确定方法及装置
US20210349954A1 (en) * 2020-04-14 2021-11-11 Naver Corporation System and method for performing cross-modal information retrieval using a neural network using learned rank images
CN113642673A (zh) * 2021-08-31 2021-11-12 北京字跳网络技术有限公司 图像生成方法、装置、设备及存储介质
CN114003758A (zh) * 2021-12-30 2022-02-01 航天宏康智能科技(北京)有限公司 图像检索模型的训练方法和装置以及检索方法和装置
CN114676228A (zh) * 2022-04-08 2022-06-28 中国石油大学(华东) 基于动态路由的跨模态注意力筛选网络的跨模态匹配方法
CN114861758A (zh) * 2022-04-06 2022-08-05 北京百度网讯科技有限公司 多模态数据处理方法、装置、电子设备及可读存储介质
CN114861016A (zh) * 2022-07-05 2022-08-05 人民中科(北京)智能技术有限公司 一种跨模态检索方法、装置以及存储介质
US20220319495A1 (en) * 2021-04-01 2022-10-06 Nippon Telegraph And Telephone Corporation Learning device, learning method, and learning program

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107273517A (zh) * 2017-06-21 2017-10-20 复旦大学 基于图嵌入学习的图文跨模态检索方法
CN108288067A (zh) * 2017-09-12 2018-07-17 腾讯科技(深圳)有限公司 图像文本匹配模型的训练方法、双向搜索方法及相关装置
US20210240761A1 (en) * 2019-01-31 2021-08-05 Shenzhen Sensetime Technology Co., Ltd. Method and device for cross-modal information retrieval, and storage medium
CN111753116A (zh) * 2019-05-20 2020-10-09 北京京东尚科信息技术有限公司 图像检索方法、装置、设备及可读存储介质
US20210349954A1 (en) * 2020-04-14 2021-11-11 Naver Corporation System and method for performing cross-modal information retrieval using a neural network using learned rank images
CN112905827A (zh) * 2021-02-08 2021-06-04 中国科学技术大学 跨模态图文匹配的方法、装置及计算机可读存储介质
US20220319495A1 (en) * 2021-04-01 2022-10-06 Nippon Telegraph And Telephone Corporation Learning device, learning method, and learning program
CN113343664A (zh) * 2021-06-29 2021-09-03 京东数科海益信息科技有限公司 图像文本之间的匹配度的确定方法及装置
CN113642673A (zh) * 2021-08-31 2021-11-12 北京字跳网络技术有限公司 图像生成方法、装置、设备及存储介质
CN114003758A (zh) * 2021-12-30 2022-02-01 航天宏康智能科技(北京)有限公司 图像检索模型的训练方法和装置以及检索方法和装置
CN114861758A (zh) * 2022-04-06 2022-08-05 北京百度网讯科技有限公司 多模态数据处理方法、装置、电子设备及可读存储介质
CN114676228A (zh) * 2022-04-08 2022-06-28 中国石油大学(华东) 基于动态路由的跨模态注意力筛选网络的跨模态匹配方法
CN114861016A (zh) * 2022-07-05 2022-08-05 人民中科(北京)智能技术有限公司 一种跨模态检索方法、装置以及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
蹇松雷;卢凯;: "复杂异构数据的表征学习综述", no. 02 *

Also Published As

Publication number Publication date
CN115392389B (zh) 2023-08-29

Similar Documents

Publication Publication Date Title
CN108153901B (zh) 基于知识图谱的信息推送方法和装置
CN107436875B (zh) 文本分类方法及装置
US20170255694A1 (en) Method For Deducing Entity Relationships Across Corpora Using Cluster Based Dictionary Vocabulary Lexicon
US11436446B2 (en) Image analysis enhanced related item decision
US11188746B1 (en) Systems and methods for deep learning based approach for content extraction
US20220139063A1 (en) Filtering detected objects from an object recognition index according to extracted features
CN113986864A (zh) 日志数据处理方法、装置、电子设备及存储介质
WO2021007159A1 (en) Identifying entity attribute relations
US20230114673A1 (en) Method for recognizing token, electronic device and storage medium
CN110309355B (zh) 内容标签的生成方法、装置、设备及存储介质
CN112686035A (zh) 一种未登录词进行向量化的方法和装置
CN114048315A (zh) 确定文档标签的方法、装置、电子设备和存储介质
CN115248890A (zh) 用户兴趣画像的生成方法、装置、电子设备以及存储介质
US20200210760A1 (en) System and method for cascading image clustering using distribution over auto-generated labels
CN112818167B (zh) 实体检索方法、装置、电子设备及计算机可读存储介质
JP6026036B1 (ja) データ分析システム、その制御方法、プログラム、及び、記録媒体
CN115392389B (zh) 跨模态信息匹配、处理方法、装置、电子设备及存储介质
CN114579876A (zh) 虚假信息检测方法、装置、设备及介质
CN114201607A (zh) 一种信息处理的方法和装置
CN113392630A (zh) 一种基于语义分析的中文句子相似度计算方法和系统
CN110929175B (zh) 对用户评价进行评估的方法、装置、系统及介质
WO2015159702A1 (ja) 部分情報抽出システム
CN115795184B (zh) 一种基于rpa的场景化上车点推荐方法和装置
US20240289551A1 (en) Domain adapting graph networks for visually rich documents
US12124495B2 (en) Generating hierarchical ontologies

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant