CN110928961B - 一种多模态实体链接方法、设备及计算机可读存储介质 - Google Patents

一种多模态实体链接方法、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN110928961B
CN110928961B CN201911114851.8A CN201911114851A CN110928961B CN 110928961 B CN110928961 B CN 110928961B CN 201911114851 A CN201911114851 A CN 201911114851A CN 110928961 B CN110928961 B CN 110928961B
Authority
CN
China
Prior art keywords
entity
candidate
modal
embedded
mode
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911114851.8A
Other languages
English (en)
Other versions
CN110928961A (zh
Inventor
范红杰
王东升
林凤绿
柳泽明
雷欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Go Out And Ask Suzhou Information Technology Co ltd
Original Assignee
Go Out And Ask Suzhou Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Go Out And Ask Suzhou Information Technology Co ltd filed Critical Go Out And Ask Suzhou Information Technology Co ltd
Priority to CN201911114851.8A priority Critical patent/CN110928961B/zh
Publication of CN110928961A publication Critical patent/CN110928961A/zh
Application granted granted Critical
Publication of CN110928961B publication Critical patent/CN110928961B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种多模态实体链接方法、设备及计算机可读存储介质,所述方法包括:对多模态实体分别进行嵌入表示,得到在同一嵌入空间中的若干嵌入对象;通过多模态模型对所述若干嵌入对象进行训练识别的方式对所述多模态实体进行分组,得到若干候选实体组;其中,所述候选实体组包括具有共享特征的多个嵌入对象对应的候选多模态实体;将对应同一所述候选实体组的候选多模态实体进行链接预测,得到实体链接关系;针对所述若干候选实体组中每一个候选实体组,利用所述实体链接关系完成所述候选多模态实体的链接,以形成多模态知识图谱,本发明实施例针对知识图谱中给定的不同模态实体,分别提供不同的编码器进行编码和训练,实现多模态实体链接。

Description

一种多模态实体链接方法、设备及计算机可读存储介质
技术领域
本发明涉及数据处理技术领域,尤其涉及一种多模态实体链接方法、设备及计算机可读存储介质。
背景技术
随着互联网的快速发展和普及,网络上的信息呈爆炸式增长,如何对海量信息进行更加智能化的分析是自然语言处理急需解决的问题。实体链接作为自然语言处理领域中的一项前沿任务,能够将信息中的实体指称与知识库中的具体实体概念相链接。实体链接有助于机器从语义层次理解命名实体的含义,并能够推动情感计算、语义分析、知识工程等相关领域的发展。然而,目前大部分面向知识图谱的实体链接方法仅完成单一模态的链接任务,具有很大的局限性。
发明内容
本发明实施例提供了一种多模态实体链接方法、设备及计算机可读存储介质,完成多模态的实体链接。
本发明一方面提供一种多模态实体链接方法,所述方法包括:对多模态实体分别进行嵌入表示,得到在同一嵌入空间中的若干嵌入对象;通过多模态模型对所述若干嵌入对象进行训练识别的方式对所述多模态实体进行分组,得到若干候选实体组;其中,所述候选实体组包括具有共享特征的多个嵌入对象对应的候选多模态实体;将对应同一所述候选实体组的候选多模态实体进行链接预测,得到实体链接关系;针对所述若干候选实体组中每一个候选实体组,利用所述实体链接关系完成所述候选多模态实体的链接,以形成多模态知识图谱。
在一可实施方式中,在得到候选实体组之后,所述方法还包括:获取对应所述候选多模态实体的实体指称项和实体属性信息;判断不同实体指称项对应的所述实体属性信息是否相同,获得判断结果;当所述判断结果为相同时,合并具有相同实体属性信息的多模态实体。
在一可实施方式中,所述多模态实体的实体类型包括如下类型至少之一:用于表示结构化实体的第一实体、用于表示数字对象的第二实体、用于表示文本的第三实体、用于表示图像的第四实体。
在一可实施方式中,对多模态实体分别进行嵌入表示,得到在同一向量空间中的嵌入对象,包括:确定所述多模态实体的实体类型;当确定所述多模态实体的实体类型为第一实体时,对所述第一实体进行one-hot编码处理,通过稠密层得到第一嵌入对象;当确定所述多模态实体的实体类型为第二实体时,对所述第二实体进行全连接网络编码处理,得到第二嵌入对象;当确定所述多模态实体的实体类型为第三实体时,基于所述第三实体的字符串长度创建编码器,通过所述编码器对第三实体进行编码处理,得到第三嵌入对象;当确定所述多模态实体的实体类型为第四实体时,基于VGG预训练网络的最后隐藏层和紧凑的双线性池对第四实体进行编码处理,得到第四嵌入对象。
在一可实施方式中,通过多模态模型对所述若干嵌入对象进行训练识别的方式对所述多模态实体进行分类,得到若干候选实体组,包括:确定所述嵌入对象的信息类型;当确定所述嵌入对象为文本信息类嵌入对象时,通过深度学习的词嵌入、BI-LSTM编码处理,获取对应文本信息类嵌入对象的数据特征;当确定所述嵌入对象为图像信息类嵌入对象时,通过由VGG-NET构筑的卷积神经网络处理,获取对应图像信息类嵌入对象的数据特征;根据所述数据特征确定具有共享数据特征的若干嵌入对象;将所述具有共享数据特征的若干嵌入对象对应的候选多模态实体确定为一候选实体组。
在一可实施方式中,将对应同一所述候选实体组的候选多模态实体进行链接预测,得到实体链接关系,包括:根据给定三元组获取对应的候选实体组;通过损失函数对所述候选实体组中的候选多模态实体进行得分值计算,获取对应所述给定三元组的头实体和尾实体;对所述头实体和尾实体进行链接,得到用于表征实体链接关系的目标三元组。
本发明另一方面提供一种所述设备包括:嵌入模块,用于对多模态实体分别进行嵌入表示,得到在同一嵌入空间中的若干嵌入对象;分组模块,用于通过多模态模型对所述若干嵌入对象进行训练识别的方式对所述多模态实体进行分组,得到若干候选实体组;其中,所述候选实体组包括具有共享特征的多个嵌入对象对应的候选多模态实体;预测模块,用于将对应同一所述候选实体组的候选多模态实体进行链接预测,得到实体链接关系;链接模块,用于针对所述若干候选实体组中每一个候选实体组,利用所述实体链接关系完成所述候选多模态实体的链接,以形成多模态知识图谱。
在一可实施方式中,所述设备还包括:获取模块,用于获取对应所述候选多模态实体的实体指称项和实体属性信息;判断模块,用于判断不同实体指称项对应的所述实体属性信息是否相同,获得判断结果;合并模块,用于当所述判断结果为相同时,合并具有相同实体属性信息的多模态实体。
在一可实施方式中,所述多模态实体的实体类型包括如下类型至少之一:用于表示结构化实体的第一实体、用于表示数字对象的第二实体、用于表示文本的第三实体、用于表示图像的第四实体;相应的,所述嵌入模块,包括:第一确定子模块,用于确定所述多模态实体的实体类型;第一编码子模块,用于当确定所述多模态实体的实体类型为第一实体时,对所述第一实体进行one-hot编码处理,通过稠密层得到第一嵌入对象;第二编码子模块,用于当确定所述多模态实体的实体类型为第二实体时,对所述第二实体进行全连接网络编码处理,得到第二嵌入对象;第三编码子模块,用于当确定所述多模态实体的实体类型为第三实体时,基于所述第三实体的字符串长度创建编码器,通过所述编码器对第三实体进行编码处理,得到第三嵌入对象;第四编码子模块,用于当确定所述多模态实体的实体类型为第四实体时,基于VGG预训练网络的最后隐藏层和紧凑的双线性池对第四实体进行编码处理,得到第四嵌入对象。
在一可实施方式中,所述分组模块,包括:第二确定子模块,用于确定所述嵌入对象的信息类型;第一处理子模块,用于当确定所述嵌入对象确定为文本信息类嵌入对象时,通过深度学习的词嵌入、BI-LSTM编码处理,获取对应文本信息类嵌入对象的数据特征;第二处理子模块,用于当确定所述嵌入对象确定为图像信息类嵌入对象时,通过由VGG-NET构筑的卷积神经网络处理,获取对应图像信息类嵌入对象的数据特征;第三确定子模块,用于根据所述数据特征确定具有共享数据特征的若干嵌入对象;第四确定子模块,用于将所述具有共享数据特征的若干嵌入对象对应的候选多模态实体确定为一候选实体组。
在一可实施方式中,所述预测模块,包括:获取子模块,用于根据给定三元组获取对应的候选实体组;计算子模块,用于通过损失函数对所述候选实体组中的候选多模态实体进行得分值计算,获取对应所述给定三元组的头实体和尾实体;用于对所述头实体和尾实体进行链接,得到用于表征实体链接关系的目标三元组。
本发明另一方面提供一种计算机可读存储介质,所述存储介质包括一组计算机可执行指令,当所述指令被执行时用于执行上述任一项所述的多模态实体链接方法。
本发明实施例提供面向知识图谱的多模态实体链接方法,针对知识图谱中给定的多模态实体,分别通过不同的处理方式,完成面向知识图谱的多种模态实体统一。通过不同的嵌入方式处理,得到同一嵌入空间中的若干嵌入对象,通过多模态模型的训练,确定的实体链接关系,并完成多模态的实体链接。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
在附图中,相同或对应的标号表示相同或对应的部分。
图1为本发明实施例一种多模态实体链接方法的实现流程示意图;
图2为本发明实施例一种多模态实体链接方法实体合并的实现流程示意图;
图3为本发明实施例一种多模态实体链接方法嵌入表示的实现流程示意图;
图4为本发明实施例一种多模态实体链接方法模型训练的实现流程示意图;
图5为本发明实施例一种多模态模型的结构示意图;
图6为本发明实施例一种多模态实体链接方法实体链接的实现流程示意图;
图7为本发明实施例一种多模态实体链接方法的实体链接关系图;
图8为本发明实施例一种多模态实体链接模型的模块示意图。
具体实施方式
为使本发明的目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而非全部实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例一种多模态实体链接方法的实现流程示意图。
参见图1,本发明实施例一方面提供一种多模态实体链接方法,方法包括:步骤101,对多模态实体分别进行嵌入表示,得到在同一嵌入空间中的若干嵌入对象;步骤102,通过多模态模型对若干嵌入对象进行训练识别的方式对多模态实体进行分组,得到若干候选实体组;其中,候选实体组包括具有共享特征的多个嵌入对象对应的候选多模态实体;步骤103,将对应同一候选实体组的候选多模态实体进行链接预测,得到实体链接关系;步骤104,针对若干候选实体组中每一个候选实体组,利用实体链接关系完成候选多模态实体的链接,以形成多模态知识图谱。
本发明实施例提供面向知识图谱的多模态实体链接方法,针对知识图谱中给定的多模态实体,分别通过不同的处理方式,完成面向知识图谱的多种模态实体统一。通过不同的嵌入方式处理,得到同一嵌入空间中的若干嵌入对象,通过多模态模型的训练,确定的实体链接关系。并利用实体链接关系完成候选多模态实体的链接,以形成多模态知识图谱。该方法适用于知识图谱中的多模态和多描述性数据,针对多模态实体数据进行精确链接,该方案具有极高的应用和研究价值。
该方法包括对多模态实体分别进行嵌入表示,得到在同一嵌入空间中的若干嵌入对象。其中,实体指现实或虚拟世界中具有特定语义的任何对象或者概念,如某一个人、某一个城市、某一种植物等。模态为每一种信息的来源或者形式,例如语音、视频、文字等。多模态表示为可以涵盖多种模态的数据,包括数字、图像、视频、文本、语音、数据库,这些数据的交叉称为多模态。多模态实体为形式或来源不同的多项实体。如,针对知识图谱中给定的若干实体中,若干实体为数字、若干实体为图像、若干实体为视频、若干实体为文字等。
基于不同模态的实体,选择对应不同模态的实体的不同嵌入表示处理,可以获得在同一嵌入空间中的若干嵌入对象。上述的嵌入表示为在数学上表示一个映射函数f:X→Y,并且该函数是具有单设和结构保存性质。通过找到一个映射函数,在一个新的空间上生成表达,将作为源数据的实体映射成为另外一个空间的嵌入对象。理想状态下,同一嵌入空间表示为相同维度的同一向量空间中。通过嵌入表示处理,使不同模态的实体能够在同一嵌入空间中实现向量化。
该方法还包括通过多模态模型对若干嵌入对象进行训练识别的方式对多模态实体进行分组,得到若干候选实体组;其中,候选实体组包括具有共享特征的多个嵌入对象对应的候选多模态实体。
在进行实体嵌入表示处理时,不同模态的实体根据不同嵌入表示获得的实际向量维度不一致,基于此,需要针对嵌入对象进行多模态模型的训练识别,通过训练获得不同实体在同一维度下的特征属性,依据特征属性的共享程度对多模态实体进行分组,从而获得候选实体组。具体的,上述共享特征表示为实体的特征属性的共享程度高,用于认定共享程度高低的参数设置可根据实际情况进行选择。其中,多模态模型的训练处理可以为,通过训练嵌入对象,能够将对应多个模态实体的嵌入对象一起映射到一个统一的多模态向量空间中,并进行特征属性的提取;或,多模态模型还可以通过训练嵌入对象,负责将多模态中对应每个实体的嵌入对象分别映射到各自的表示空间,但映射后的向量之间满足一定的相关性约束(例如线性相关),并进行特征属性的提取。在通过多模态模型提取对应实体的特征属性后,通过比较特征属性的共享程度,可以获得与共享特征的多个嵌入对象对应的多个候选多模态实体,从而形成候选实体组。在编码中面向不同模态的实体数据(文本,数值,图像等),无需人工标注,完成多模态的实体链接。
该方法还包括,将对应同一候选实体组的候选多模态实体进行链接预测,得到实体链接关系。依据实体链接预测算法能够对候选多模态实体进行链接预测,从而获得对应候选实体组的实体链接关系。针对若干候选实体组中每一个候选实体组,利用实体链接关系完成候选多模态实体的链接,以形成多模态知识图谱。其中,知识图谱以图结构的组织形式,通过语义关联描述客观世界的概念、实体、事件及其之间的关系。知识图谱本质上是一种语义网络。其中,概念是指人们对客观事物的概念化表示,概念主要指集合、类别、对象类型、事物的种类,如人、动物、组织机构等。事件是客观事件的活动,如地震、买卖行为等。知识图谱是许多计算系统的重要组成部分,应用于搜索、结构化数据管理、推荐、问答和信息检索等。实体链接是建立从命名实体的文本提及到知识图谱实体的规范表示和映射任务,旨在将给定文档中的提及映射到目标知识图谱中的对应实体。通过将具有歧义的实体链接到给定的知识图谱,从而实现实体歧义的消除。实体链接是实现知识图谱扩容的核心关键技术。
图2为本发明实施例一种多模态实体链接方法实体合并的实现流程示意图。
参见图2,在本发明实施例中,在得到候选实体组之后,方法还包括:步骤201,获取对应候选多模态实体的实体指称项和实体属性信息;步骤202,判断不同实体指称项对应的实体属性信息是否相同,获得判断结果;步骤203,当判断结果为相同时,合并具有相同实体属性信息的多模态实体。
基于不同知识图谱获得的多模态实体在不同命名的情况下,可能指代同一实体,如“北京”、“北平”、“Beijing”、“中华人民共和国首都”在不同知识图谱中具有不同实体名称,但却代表着现实世界中同一事物的实体,将这些实体进行合并。通过相似性传播算法,能够对相同实体的不同表示表示方法进行梳理,对相同实体进行合并,能够减少实体链接过程中的数据代价。需要说明的是,本发明实施例可以在得到候选实体组后,通过相似性传播算法进行多模态实体合并;也可以在进行多模态模型训练前,通过相似性传播算法进行多模态实体合并;还可以在进行多模态模型训练后且得到候选实体组之前,通过相似性传播算法进行多模态实体合并。即,在能够获得多模态实体的实体指称项和实体属性信息的条件下,可以在任意时刻依据相似性传播算法进行实体的相似性判断和相同实体的合并,实现对相同实体的梳理。
具体的,本方法包括获取对应候选多模态实体的实体指称项和实体属性信息。通过对多模态实体中任一实体进行信息抽取,能够获得对应该实体的实体指称项和实体属性信息,其中,实体指称项对应该实体的命名,实体属性信息包括从与不同信息源中采集该实体的语义信息和/或属性信息,如针对某个公众人物,可以从网络公开信息中得到其昵称、生日、国籍、教育背景等信息。
本方法还包括判断不同实体指称项对应的实体属性信息是否相同,获得判断结果。通过相似性传播算法,能够判断不同实体指称项对应的实体属性信息是否相同,在相似性传播算法上,可以使用基于实例的近邻传播方法、反向传播算法、标签传播算法等方法。
本方法还包括当判断结果为相同时,合并具有相同实体属性信息的多模态实体。
通过计算实体指称项与候选多模态实体之间的语义相似性,能够获得对应语义相似性的判断结果,当判断结果为实体属性信息相同时,用具有唯一标识对该实体进行标识,最后将该实体添加到相应的知识图谱中。为解决知识图谱中存在的不同实体之间的“语义鸿沟”问题提供了新的思路和方法。
在本发明实施例中,多模态实体的实体类型包括如下类型至少之一:用于表示结构化实体的第一实体、用于表示数字对象的第二实体、用于表示文本的第三实体、用于表示图像的第四实体。
其中,第一实体用于对应结构化数据。第二实体用于对应具有数字属性的实体,用于表示数字信息,如年龄、日期、财务、地理经纬信息等。第三实体用于对应文本属性的实体,文本包括长文本和短文本,如名称、描述、标题、名称、出生地、简介、注释等。第四实体用于对应图像属性的实体,如照片、海报、缩略图、作品等。
图3为本发明实施例一种多模态实体链接方法嵌入表示的实现流程示意图。
在本发明实施例中,步骤101,对多模态实体分别进行嵌入表示,得到在同一向量空间中的嵌入对象,包括:步骤1011,确定多模态实体的实体类型;步骤1012,当确定多模态实体的实体类型为第一实体时,对第一实体进行one-hot编码处理,通过稠密层得到第一嵌入对象;步骤1013,当确定多模态实体的实体类型为第二实体时,对第二实体进行全连接网络编码处理,得到第二嵌入对象;步骤1014,当确定多模态实体的实体类型为第三实体时,基于第三实体的字符串长度创建编码器,通过编码器对第三实体进行编码处理,得到第三嵌入对象;步骤1015,当确定多模态实体的实体类型为第四实体时,基于VGG预训练网络的最后隐藏层和紧凑的双线性池对第四实体进行编码处理,得到第四嵌入对象。
需要说明的是,上述实施例中步骤1012、步骤1013、步骤1014、步骤1015的命名仅用于进行步骤区分,上述步骤之间不具有先后顺序,根据步骤1011的确定结果,后续按照确定结果执行步骤1012、步骤1013、步骤1014、步骤1015中的任一项。如当判断结果为第一实体时,执行步骤1012;当判断结果为第二实体时,执行步骤1013;当判断结果为第三实体时,执行步骤1014;当判断结果为第四实体时,执行步骤1015。
本方法包括,确定多模态实体的实体类型。为了通过嵌入表示,得到在同一向量空间中的嵌入对象,不同模态的实体需要采用不同的嵌入方法。在选择实体的嵌入方法时,需要对实体的类型进行确定。其中,根据需要,确定实体的类型包括第一实体、第二实体、第三实体和第四实体中的一项或多项,也可以包括其他非第一实体、第二实体、第三实体和第四实体类型的其他实体类型。针对知识图谱中给定的不同模态实体,可以分别提供不同的编码器进行编码处理,完成实体的嵌入表示。
对于对应结构化数据的第一实体依据独热编码(one-hot编码)通过稠密层得到嵌入表示。对应实数形式的数字对象的第二实体在标准化输入之后,使用全连接网络进行嵌入,得到嵌入表示。对应文本形式的第三实体可用于名称描述与段落描述,需要根据所涉及字符串的长度创建不同的编码器。当确定为第三实体时,在进行编码处理之前,需要先确定第三实体的字符串的长度,根据字符串确定文本类型,根据文本类型创建不同的编码器。当确定为第三实体的文本类型为短文本,例如属性、名称和标题,使用基于字符的双向GRUs(Gated Recurrent Unit)对它们进行编码,并使用顶层的最终输出作为字符串表示。当确定第三实体的文本类型为长字符串,例如由多个句子组成的实体详细描述,将它们视为单词序列,并使用CNN(Convolutional Neural Networks)在词向量上卷积和池化得到最终编码。其中,短文本和长字符串的具体字符串长度根据实际情况进行参数调整。对于对应图像数据的第四实体,可以先在可视化数据库,如世界上图像识别最大的数据库(ImageNet)上使用VGG(Visual Geometry Group)预训练网络的最后隐藏层,然后使用紧凑的双线性池来获得嵌入的图像。在多模态实体数据的空间表示上,可以针对不同模态实体采用不同空间表示方法,例如word2vec、glove等。
图4为本发明实施例一种多模态实体链接方法模型训练的实现流程示意图。
参见图4,在本发明实施例中,步骤102,通过多模态模型对若干嵌入对象进行训练识别的方式对多模态实体进行分类,得到若干候选实体组,包括:步骤1021,确定嵌入对象的信息类型;步骤1022,当确定嵌入对象为文本信息类嵌入对象时,通过深度学习的词嵌入、BI-LSTM编码处理,获取对应文本信息类嵌入对象的数据特征;步骤1023,当确定嵌入对象为图像信息类嵌入对象时,通过由VGG-NET构筑的卷积神经网络处理,获取对应图像信息类嵌入对象的数据特征;步骤1024,根据数据特征确定具有共享数据特征的若干嵌入对象;步骤1025,将具有共享数据特征的若干嵌入对象对应的候选多模态实体确定为一候选实体组。
在实际情况下,嵌入表达到统一嵌入空间的嵌入对象容易出现到向量维度不一致的情况,通过多模态模型的训练识别,能够获得使嵌入对象的向量维度实现一致,并进行数据特征的提取。给定一个实体的情况下,使用嵌入作为属性特定编码和解码来训练实体数据。
本发明实施例包括确定嵌入对象的信息类型,通过确定的信息类型,确定对应该嵌入对象的类型选择对应属性特定编码和解码来训练实体数据。具体而言,对于文本信息,可以使用深度学习的词嵌入、BI-LSTM编码来处理,对于图片信息,可以使用VGG-NET来构筑16~19层深的卷积神经网络来提取图像特征。相比其他神经网络,VGG-NET更能提取出深层的更好的特征,迁移到其它图片数据上的泛化性也非常好。在获得数据特征后,根据数据特征确定具有共享数据特征的若干嵌入对象,将具有共享数据特征的若干嵌入对象对应的候选多模态实体确定为一候选实体组。
图5为本发明实施例一种多模态模型的结构示意图。
在一种具体实施场景中,多模态输入模型如图5所示,将对应文本的实体“蒙娜丽莎”和对应图像的实体“蒙娜丽莎”进行训练识别,通过词嵌入和BI-LSTM编码处理,通过seq2seq模型对图像特征进行提取,通过自适应共同关注网络和CRF层处理,能够获得对应“蒙娜丽莎”的相同的数据特征。在此时进行能够进行相似性传播算法进行相同实体的合并,也可以将对应文本的实体“蒙娜丽莎”和对应图像的实体“蒙娜丽莎”确定为一候选实体组,再通过相似性传播算法,将相同实体的合并。
图6为本发明实施例一种多模态实体链接方法实体链接的实现流程示意图。
参见图6,在本发明实施例中,步骤103,将对应同一候选实体组的候选多模态实体进行链接预测,得到实体链接关系,包括:步骤1031,根据给定三元组获取对应的候选实体组;步骤1032,通过损失函数对候选实体组中的候选多模态实体进行得分值计算,获取对应给定三元组的头实体和尾实体;步骤1033,对头实体和尾实体进行链接,得到用于表征实体链接关系的目标三元组。
实体链接的基本思想是首先根据给定三元组的头(尾)实体和关系,从共享程度较高的特征中,选出一组候选实体对象,即本发明实施例所指代的候选实体组,然后通过实体链接预测算法,计算出正确的尾(头)实体,并将得到的三元组添加到相应的知识图谱中。具体的,在进行多模态模型训练中,进行损失函数的计算,对于给定的主题关系对<s,r>,s为头实体,r为实体关系,o为给定尾实体。
在所有实体上使用二进制标签向量ts,r来表示三元组<s,r,o>在训练时是否被观察到。此外,使用模型概率po s,r来表示任何三元组<s,r,o>的真实概率,po s,r通过sigmoid函数
Figure BDA0002273766070000131
进行计算。通过二元交叉熵损失函数计算三元组的得分值,损失函数定义为:
Figure BDA0002273766070000132
基于损失函数计算出正确的尾(头)实体,对头实体和尾实体进行链接,得到用于表征实体链接关系的目标三元组,并将得到的三元组添加到相应的知识图谱中。在多模态模型的实体训练上,还可以使用其他的损失函数进行判定。需要说明的是,区别于合并的实体,进行链接的实体的实体属性可以相同或不同。如对应“达芬奇”和对应“蒙娜丽莎”可以进行链接。对应“达芬奇”的实体和对应“da Vinci”的实体之间可以进行实体链接或实体合并,优选为实体合并。
图7为本发明实施例一种多模态实体链接方法的实体链接关系图。
参见图7,为方便上述实施例的理解,以下提供一种具体实施场景。首先,在现有的知识图谱中进行实体获取,得到对应达芬奇名字的文本实体、对应达芬奇英文名字的文本实体、对应达芬奇简介的文字实体、对应达芬奇性别的文字实体、对应蒙娜丽莎的图像实体、对应达芬奇出生年1452的数字实体、对应达芬奇画像的图像实体。
通过对不同模态实体数据采用不同的方式进行嵌入表示,在同一嵌入空间内,得到对应达芬奇名字的文本嵌入对象、对应达芬奇英文名字的文本嵌入对象、对应达芬奇简介的文字嵌入对象、对应达芬奇性别的文字嵌入对象、对应蒙娜丽莎的图像嵌入对象、对应达芬奇出生年1452的数字嵌入对象、对应达芬奇画像的图像嵌入对象。
对获得的嵌入对象进行多模态模型训练,针对不同的嵌入对象采用不同的训练方法,得到对应达芬奇名字的数据特征、对应达芬奇英文名字的数据特征、对应达芬奇简介的数据特征、对应达芬奇性别的数据特征、对应蒙娜丽莎的数据特征、对应达芬奇出生年1452的数据特征、对应达芬奇画像的数据特征,形成候选实体组。
利用基于损失函数的实体链接算法,将对应达芬奇名字的数据特征、对应达芬奇英文名字的数据特征进行合并,用具有唯一标识对该实体进行标识,最后将该实体添加到相应的知识图谱中。
根据给定三元组的实体关系,通过基于损失函数的实体链接算法将对应达芬奇名字和英文名字的文本实体、对应达芬奇简介的文字实体、对应达芬奇性别的文字实体、对应蒙娜丽莎的图像实体、对应达芬奇出生年1452的数字实体、对应达芬奇画像的图像实体进行实体连接,获得具有实体链接关系的三元组,将具有实体链接关系的三元组添加到相应的知识图谱中。
图8为本发明实施例一种多模态实体链接模型的模块示意图。
参见图8,本发明实施例另一方面提供一种多模态实体链接设备包括:嵌入模块801,用于对多模态实体分别进行嵌入表示,得到在同一嵌入空间中的若干嵌入对象;分组模块802,用于通过多模态模型对若干嵌入对象进行训练识别的方式对多模态实体进行分组,得到若干候选实体组;其中,候选实体组包括具有共享特征的多个嵌入对象对应的候选多模态实体;预测模块803,用于将对应同一候选实体组的候选多模态实体进行链接预测,得到实体链接关系;链接模块804,用于针对若干候选实体组中每一个候选实体组,利用实体链接关系完成候选多模态实体的链接,以形成多模态知识图谱。
在本发明实施例中,设备还包括:获取模块805,用于获取对应候选多模态实体的实体指称项和实体属性信息;判断模块806,用于判断不同实体指称项对应的实体属性信息是否相同,获得判断结果;合并模块807,用于当判断结果为相同时,合并具有相同实体属性信息的多模态实体。
在本发明实施例中,多模态实体的实体类型包括如下类型至少之一:用于表示结构化实体的第一实体、用于表示数字对象的第二实体、用于表示文本的第三实体、用于表示图像的第四实体;相应的,嵌入模块801,包括:第一确定子模块8011,用于确定多模态实体的实体类型;第一编码子模块8012,用于当确定多模态实体的实体类型为第一实体时,对第一实体进行one-hot编码处理,通过稠密层得到第一嵌入对象;第二编码子模块8013,用于当确定多模态实体的实体类型为第二实体时,对第二实体进行全连接网络编码处理,得到第二嵌入对象;第三编码子模块8014,用于当确定多模态实体的实体类型为第三实体时,基于第三实体的字符串长度创建编码器,通过编码器对第三实体进行编码处理,得到第三嵌入对象;第四编码子模块8015,用于当确定多模态实体的实体类型为第四实体时,基于VGG预训练网络的最后隐藏层和紧凑的双线性池对第四实体进行编码处理,得到第四嵌入对象。
在本发明实施例中,分组模块802,包括:第二确定子模块8021,用于确定嵌入对象的信息类型;第一处理子模块8022,用于当确定嵌入对象为文本信息类嵌入对象时,通过深度学习的词嵌入、BI-LSTM编码处理,获取对应文本信息类嵌入对象的数据特征;第二处理子模块8023,用于当确定嵌入对象为图像信息类嵌入对象时,通过由VGG-NET构筑的卷积神经网络处理,获取对应图像信息类嵌入对象的数据特征;第三确定子模块8024,用于根据数据特征确定具有共享数据特征的若干嵌入对象;第四确定子模块8025,用于将具有共享数据特征的若干嵌入对象对应的候选多模态实体确定为一候选实体组。
在本发明实施例中,预测模块803,包括:获取子模块8031,用于根据给定三元组获取对应的候选实体组;计算子模块8032,用于通过损失函数对候选实体组中的候选多模态实体进行得分值计算,获取对应给定三元组的头实体和尾实体;用于对头实体和尾实体进行链接,得到用于表征实体链接关系的目标三元组。
本发明实施例另一方面提供一种计算机可读存储介质,所述存储介质包括一组计算机可执行指令,当所述指令被执行时用于执行上述任一项所述的多模态实体链接方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (8)

1.一种多模态实体链接方法,其特征在于,所述方法包括:
对多模态实体分别进行嵌入表示,得到在同一嵌入空间中的若干嵌入对象;
通过多模态模型对所述若干嵌入对象进行训练识别的方式对所述多模态实体进行分组,得到若干候选实体组;其中,所述候选实体组包括具有共享特征的多个嵌入对象对应的候选多模态实体;所述多模态实体的实体类型包括如下类型至少之一:用于表示结构化实体的第一实体、用于表示数字对象的第二实体、用于表示文本的第三实体、用于表示图像的第四实体;
将对应同一所述候选实体组的候选多模态实体进行链接预测,得到实体链接关系;
针对所述若干候选实体组中每一个候选实体组,利用所述实体链接关系完成所述候选多模态实体的链接,以形成多模态知识图谱;所述多模态知识图谱用于信息检索、结构化数据管理、问答、推荐中的至少一种;
通过多模态模型对所述若干嵌入对象进行训练识别的方式对所述多模态实体进行分组,得到若干候选实体组,包括:
确定所述嵌入对象的信息类型;
当确定所述嵌入对象为文本信息类嵌入对象时,通过深度学习的词嵌入、BI-LSTM编码处理,获取对应文本信息类嵌入对象的数据特征;
当确定所述嵌入对象为图像信息类嵌入对象时,通过由VGG-NET构筑的卷积神经网络处理,获取对应图像信息类嵌入对象的数据特征;
根据所述数据特征确定具有共享特征的若干嵌入对象;
将所述具有共享特征的若干嵌入对象对应的候选多模态实体确定为一候选实体组。
2.根据权利要求1所述的方法,其特征在于,在得到候选实体组之后,所述方法还包括:
获取对应所述候选多模态实体的实体指称项和实体属性信息;
判断不同实体指称项对应的所述实体属性信息是否相同,获得判断结果;
当所述判断结果为相同时,合并具有相同实体属性信息的多模态实体。
3.根据权利要求1所述的方法,其特征在于,对多模态实体分别进行嵌入表示,得到在同一向量空间中的嵌入对象,包括:
确定所述多模态实体的实体类型;
当确定所述多模态实体的实体类型为第一实体时,对所述第一实体进行one-hot编码处理,通过稠密层得到第一嵌入对象;
当确定所述多模态实体的实体类型为第二实体时,对所述第二实体进行全连接网络编码处理,得到第二嵌入对象;
当确定所述多模态实体的实体类型为第三实体时,基于所述第三实体的字符串长度创建编码器,通过所述编码器对第三实体进行编码处理,得到第三嵌入对象;
当确定所述多模态实体的实体类型为第四实体时,基于VGG预训练网络的最后隐藏层和紧凑的双线性池对第四实体进行编码处理,得到第四嵌入对象。
4.根据权利要求1所述的方法,其特征在于,将对应同一所述候选实体组的候选多模态实体进行链接预测,得到实体链接关系,包括:
根据给定三元组获取对应的候选实体组;
通过损失函数对所述候选实体组中的候选多模态实体进行得分值计算,获取对应所述给定三元组的头实体和尾实体;
对所述头实体和尾实体进行链接,得到用于表征实体链接关系的目标三元组。
5.一种多模态实体链接设备,其特征在于,所述设备包括:
嵌入模块,用于对多模态实体分别进行嵌入表示,得到在同一嵌入空间中的若干嵌入对象;
分组模块,用于通过多模态模型对所述若干嵌入对象进行训练识别的方式对所述多模态实体进行分组,得到若干候选实体组;其中,所述候选实体组包括具有共享特征的多个嵌入对象对应的候选多模态实体;所述多模态实体的实体类型包括如下类型至少之一:用于表示结构化实体的第一实体、用于表示数字对象的第二实体、用于表示文本的第三实体、用于表示图像的第四实体;
预测模块,用于将对应同一所述候选实体组的候选多模态实体进行链接预测,得到实体链接关系;
链接模块,用于针对所述若干候选实体组中每一个候选实体组,利用所述实体链接关系完成所述候选多模态实体的链接,以形成多模态知识图谱,所述多模态知识图谱用于信息检索、结构化数据管理、问答、推荐中的至少一种;
所述分组模块,包括:第二确定子模块,用于确定所述嵌入对象的信息类型;第一处理子模块,用于当确定所述嵌入对象确定为文本信息类嵌入对象时,通过深度学习的词嵌入、BI-LSTM编码处理,获取对应文本信息类嵌入对象的数据特征;第二处理子模块,用于当确定所述嵌入对象确定为图像信息类嵌入对象时,通过由VGG-NET构筑的卷积神经网络处理,获取对应图像信息类嵌入对象的数据特征;第三确定子模块,用于根据所述数据特征确定具有共享特征的若干嵌入对象;第四确定子模块,用于将所述具有共享特征的若干嵌入对象对应的候选多模态实体确定为一候选实体组。
6.根据权利要求5所述的设备,其特征在于,所述设备还包括:
获取模块,用于获取对应所述候选多模态实体的实体指称项和实体属性信息;
判断模块,用于判断不同实体指称项对应的所述实体属性信息是否相同,获得判断结果;
合并模块,用于当所述判断结果为相同时,合并具有相同实体属性信息的多模态实体。
7.根据权利要求5所述的设备,其特征在于,所述嵌入模块,包括:
确定子模块,用于确定所述多模态实体的实体类型;
第一编码子模块,用于当确定所述多模态实体的实体类型为第一实体时,对所述第一实体进行one-hot编码处理,通过稠密层得到第一嵌入对象;
第二编码子模块,用于当确定所述多模态实体的实体类型为第二实体时,对所述第二实体进行全连接网络编码处理,得到第二嵌入对象;
第三编码子模块,用于当确定所述多模态实体的实体类型为第三实体时,基于所述第三实体的字符串长度创建编码器,通过所述编码器对第三实体进行编码处理,得到第三嵌入对象;
第四编码子模块,用于当确定所述多模态实体的实体类型为第四实体时,基于VGG预训练网络的最后隐藏层和紧凑的双线性池对第四实体进行编码处理,得到第四嵌入对象。
8.一种计算机可读存储介质,其特征在于,所述存储介质包括一组计算机可执行指令,当所述指令被执行时用于执行权利要求1-4任一项所述的一种多模态实体链接方法。
CN201911114851.8A 2019-11-14 2019-11-14 一种多模态实体链接方法、设备及计算机可读存储介质 Active CN110928961B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911114851.8A CN110928961B (zh) 2019-11-14 2019-11-14 一种多模态实体链接方法、设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911114851.8A CN110928961B (zh) 2019-11-14 2019-11-14 一种多模态实体链接方法、设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN110928961A CN110928961A (zh) 2020-03-27
CN110928961B true CN110928961B (zh) 2023-04-28

Family

ID=69853871

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911114851.8A Active CN110928961B (zh) 2019-11-14 2019-11-14 一种多模态实体链接方法、设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN110928961B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107292642B (zh) * 2016-03-31 2020-12-08 苏宁云计算有限公司 一种基于图像的商品推荐方法及系统
CN111982138B (zh) * 2020-07-09 2022-06-28 北京百度网讯科技有限公司 预测模型获取及路径规划方法、装置及存储介质
CN112133406B (zh) * 2020-08-25 2022-11-04 合肥工业大学 基于情感图谱的多模态情感引导方法和系统、存储介质
CN112507126B (zh) * 2020-12-07 2022-11-15 厦门渊亭信息科技有限公司 一种基于循环神经网络的实体链接装置和方法
CN113806552B (zh) * 2021-08-30 2022-06-14 北京百度网讯科技有限公司 信息提取方法、装置、电子设备和存储介质
CN116306925B (zh) * 2023-03-14 2024-05-03 中国人民解放军总医院 一种生成端到端实体链接方法和系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105550190A (zh) * 2015-06-26 2016-05-04 许昌学院 面向知识图谱的跨媒体检索系统
CN106909643A (zh) * 2017-02-20 2017-06-30 同济大学 基于知识图谱的社交媒体大数据主题发现方法
CN107832663A (zh) * 2017-09-30 2018-03-23 天津大学 一种基于量子理论的多模态情感分析方法
CN109710923A (zh) * 2018-12-06 2019-05-03 浙江大学 基于跨媒体信息的跨语言实体匹配方法
CN110245874A (zh) * 2019-03-27 2019-09-17 中国海洋大学 一种基于机器学习和知识推理的决策融合方法
CN110377715A (zh) * 2019-07-23 2019-10-25 天津汇智星源信息技术有限公司 基于法律知识图谱的推理式精准智能问答方法
CN110413784A (zh) * 2019-07-23 2019-11-05 国家计算机网络与信息安全管理中心 基于知识图谱的舆情关联分析方法及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10257241B2 (en) * 2016-12-21 2019-04-09 Cisco Technology, Inc. Multimodal stream processing-based cognitive collaboration system
US11042922B2 (en) * 2018-01-03 2021-06-22 Nec Corporation Method and system for multimodal recommendations

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105550190A (zh) * 2015-06-26 2016-05-04 许昌学院 面向知识图谱的跨媒体检索系统
CN106909643A (zh) * 2017-02-20 2017-06-30 同济大学 基于知识图谱的社交媒体大数据主题发现方法
CN107832663A (zh) * 2017-09-30 2018-03-23 天津大学 一种基于量子理论的多模态情感分析方法
CN109710923A (zh) * 2018-12-06 2019-05-03 浙江大学 基于跨媒体信息的跨语言实体匹配方法
CN110245874A (zh) * 2019-03-27 2019-09-17 中国海洋大学 一种基于机器学习和知识推理的决策融合方法
CN110377715A (zh) * 2019-07-23 2019-10-25 天津汇智星源信息技术有限公司 基于法律知识图谱的推理式精准智能问答方法
CN110413784A (zh) * 2019-07-23 2019-11-05 国家计算机网络与信息安全管理中心 基于知识图谱的舆情关联分析方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Qi Zhang 等.Adaptive co-attention network for named entity recognition in tweets.《Thirty-Second AAAI Conference on Artificial Intelligence》.2018,第32卷(第1期),5674-5681. *
ZiKang Wang 等.multimodal data enhanced representation learning for knowledge graphs.《2019 International joint Conference on Neural Network(IJCNN)》.2019,1-8. *

Also Published As

Publication number Publication date
CN110928961A (zh) 2020-03-27

Similar Documents

Publication Publication Date Title
CN110928961B (zh) 一种多模态实体链接方法、设备及计算机可读存储介质
CN111291185B (zh) 信息抽取方法、装置、电子设备及存储介质
CN109885672B (zh) 一种面向在线教育的问答式智能检索系统及方法
CN111488931B (zh) 文章质量评估方法、文章推荐方法及其对应的装置
CN104318340B (zh) 基于文本履历信息的信息可视化方法及智能可视分析系统
CN110990590A (zh) 一种基于强化学习和迁移学习的动态金融知识图谱构建方法
CN111263238B (zh) 基于人工智能的生成视频评论的方法及设备
CN111858940B (zh) 一种基于多头注意力的法律案例相似度计算方法及系统
CN113569001A (zh) 文本处理方法、装置、计算机设备及计算机可读存储介质
CN113722490B (zh) 一种基于键值匹配关系的视觉富文档信息抽取方法
CN116450834A (zh) 一种基于多模态语义特征的档案知识图谱构建方法
CN113240046B (zh) 一种基于知识的视觉问答任务下的多模态信息融合方法
CN115438674B (zh) 实体数据处理、实体链接方法、装置和计算机设备
CN116151256A (zh) 一种基于多任务和提示学习的小样本命名实体识别方法
CN117033609B (zh) 文本视觉问答方法、装置、计算机设备和存储介质
CN116975350A (zh) 图文检索方法、装置、设备及存储介质
CN114416995A (zh) 信息推荐方法、装置及设备
CN112085120A (zh) 多媒体数据的处理方法、装置、电子设备及存储介质
CN113947087B (zh) 一种基于标签的关系构建方法、装置、电子设备及存储介质
CN115062134A (zh) 知识问答模型训练及知识问答方法、装置和计算机设备
Senior et al. Graph neural networks in vision-language image understanding: A survey
CN117172253A (zh) 一种基于标签信息引导的社交媒体多模态命名实体识别方法
CN114372454A (zh) 文本信息抽取方法、模型训练方法、装置及存储介质
Rogushina et al. Use of ontologies for metadata records analysis in big data
CN116975403A (zh) 内容检索模型及内容检索处理方法、装置和计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant