CN110222200A - 用于实体融合的方法和设备 - Google Patents

用于实体融合的方法和设备 Download PDF

Info

Publication number
CN110222200A
CN110222200A CN201910536514.1A CN201910536514A CN110222200A CN 110222200 A CN110222200 A CN 110222200A CN 201910536514 A CN201910536514 A CN 201910536514A CN 110222200 A CN110222200 A CN 110222200A
Authority
CN
China
Prior art keywords
attribute
entity
entities
similarity
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910536514.1A
Other languages
English (en)
Inventor
郝吉芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BOE Technology Group Co Ltd
Original Assignee
BOE Technology Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BOE Technology Group Co Ltd filed Critical BOE Technology Group Co Ltd
Priority to CN201910536514.1A priority Critical patent/CN110222200A/zh
Publication of CN110222200A publication Critical patent/CN110222200A/zh
Priority to PCT/CN2020/085909 priority patent/WO2020253355A1/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Abstract

本发明涉及用于实体融合的方法和设备。该方法包括:获取来自多个数据源的多个实体的数据;从所获取的数据中抽取所述实体的属性,所述属性通过短语或者短句表达;将所述短语或者短句转换为向量以获得所表达属性的属性向量;对于来自不同数据源的多个实体中的两个实体,基于所述两个实体的对应属性的属性向量计算各属性的属性相似度且基于所述两个实体的各属性的属性相似度,确定是否进行所述两个实体的融合。通过将实体的属性映射为相应的属性向量来进行相似度的判断,降低了实体融合的处理复杂度,提高了知识图谱构建的效率。

Description

用于实体融合的方法和设备
技术领域
本公开总地涉及知识图谱领域,更具体而言,涉及用于实体融合的方法和设备。
背景技术
知识图谱是一种结构化的语义知识库,用于迅速描述物理世界中的概念及其相互关系。知识图谱通过对错综复杂的文档的数据进行有效的加工、处理、整合,将其转化为简单、清晰的“实体、关系、实体”的三元组,而聚合大量知识,以实现知识的快速响应和推理。
在知识图谱相关的领域中,由于知识图谱的构建经常需要利用多种不同的数据源,所以进行跨不同数据源的实体融合是一项重要的工作。目前,实体融合可以通过建立线性规划模型、基于同义实体描述方式和SVM(支持向量机)分类、同名人物实体归约或多义项对比等方式来进行。
对于艺术知识图谱的构建,由于不同数据源(例如网站)对同一艺术品、艺术家和艺术机构等实体的描述常常不一致,所以也需要对实体进行融合。但是已知的实体融合方法均未考虑艺术领域实体的特性,所以均不适用于艺术知识图谱的构建。
发明内容
按照本发明的第一方面,提供了一种用于实体融合的方法。该方法包括:获取来自多个数据源的多个实体的数据;从所获取的数据中抽取所述实体的属性,所述属性通过短语或者短句表达;将所述短语或者短句转换为向量以获得所表达属性的属性向量;以及对于来自不同数据源的两个实体,基于所述两个实体的对应属性的属性向量计算各属性的属性相似度;且基于所述两个实体的各属性的属性相似度,确定是否进行所述两个实体的融合。
在一些实施例中,将所述短语或者短句转换为向量还包括:将所述短语或者短句分割为一个或多个词语;将所述一个或多个词语转换为各自的词向量;以及将所述短语或者短句对应的每个词向量进行加权平均,得到所述短语或者短句所表达属性的属性向量。
在一些实施例中,基于所述两个实体的各属性的属性相似度,确定是否进行所述多个实体的融合还包括:将两个实体的各属性的属性相似度进行加权平均,得到实体相似度;以及通过比较所述实体相似度与第一阈值,确定是否进行实体融合。
在一些实施例中,在将两个实体的各属性的属性相似度进行加权平均之前还包括:向各属性赋予相应的权重。
在一些实施例中,在将短语或者短句转换为向量之前还包括:确定所抽取的属性是否在同义词词典中存在,以及响应于所述属性在同义词词典中存在,基于同义词词典来计算该属性对应的属性相似度。
在一些实施例中所述实体是艺术领域的艺术实体。
按照本发明的第二方面,提供了一种用于实体融合的设备。该设备包括获取器、抽取器、转换器和融合器。获取器被配置为获取来自多个数据源的多个实体的数据。抽取器被配置为从所获取的数据中抽取实体的属性,所述属性通过短语或者短句表达。转换器被配置为将短语或者短句转换为向量以获得所表达属性的属性向量。融合器被配置为对于来自不同数据源的两个实体,基于所述两个实体的对应属性的属性向量来计算各属性的属性相似度,以及基于所述两个实体的各属性的属性相似度来确定是否进行所述两个实体的融合。
在一些实施例中,所述转换器还被配置为将短语或者短句分割为一个或多个词语;将所述一个或多个词语转换为各自的词向量;以及将所述短语或者短句对应的每个词向量进行加权平均,得到该短语或者短句所表达属性的属性向量。
在一些实施例中,所述融合器还被配置为将两个实体的各属性的属性相似度进行加权平均,得到实体相似度;以及通过比较所述实体相似度与预定阈值来确定是否进行实体融合。
在一些实施例中,所述融合器还被配置为在将两个实体的各属性的属性相似度进行加权平均之前,根据专家经验向各属性赋予相应的权重。
在一些实施例中,所述融合器还被配置为在将短语或者短句转换为向量之前,确定所抽取的属性是否在同义词词典中存在,以及响应于所述属性在同义词词典中存在,基于同义词词典来计算该属性对应的属性相似度。
在一些实施例中,所述实体是艺术领域的艺术实体。
按照本发明的第三方面,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中所述处理器执行所述计算机程序时实现如前文以及本说明书其它部分所述的按照本发明实施例的方法的步骤。
按照本发明的第四方面,提供了一种计算机可读存储介质,其上存储有计算机指令,其中该计算机指令被处理器执行时实现如前文以及本说明书其它部分所述的按照本发明实施例的方法的步骤。
附图说明
通过阅读以下的详细说明和仔细查看相关联的附图,这些和其它的特征与优点将是明显的。应当明白,上述的一般性说明和以下的详细说明均仅仅是说明性的,而不是对所要求保护的方面的限制。
图1a图示了可以应用本发明实施例的实体的结构化数据的示例。
图1b图示了可以应用本发明实施例的实体的半结构化数据的示例。
图2图示了按照本发明实施例的用于实体融合的一种方法的流程图。
图3图示了按照本发明实施例的用于实体融合的另一种方法的流程图。
图4图示了基于同义词词典来计算属性相似度的方法流程图。
图5图示了按照本发明实施例的用于实体融合的设备的框图。
图6图示了包括可以用于实体融合的计算机设备的示例系统的框图。
具体实施方式
现在参考附图来描述所要求保护的主题,其中同样的参考数字通常用来贯穿全文地指示同样的单元。在以下的描述中,出于说明的目的,阐述了许多具体细节以方便对所要求保护的主题的理解。然而,显然没有这些具体细节也可以实践所要求保护的主题。此外,在这个上下文中,为了简单明了,省略了对熟悉的设备、电路和方法的详细描述,以避免多余的细节和可能引起的混淆。
由于知识图谱的构建基于多个不同的数据源,所以存在对来自不同数据源的实体进行融合的需要。以艺术领域为例,艺术类网站提供与艺术品、艺术家和艺术机构等艺术实体相关的结构化数据(例如关系数据库)和半结构化数据(例如XML、JSON、百科等)。在不同网站之间存在对同一艺术实体的描述不一致的问题。
图1a示意性地示出了来自一个网站的结构化数据。该结构化数据与画作《蒙娜丽莎》有关,其由二维表结构来逻辑表达和实现,且严格地遵循数据格式与长度规范。如图1a所示,该结构化数据对应的二维表具有包括作品名、作品简介、年代、内容题材、电子版价格、原作者等的固定结构模式。图1b示意性地示出了来自另一网站的半结构化数据。该半结构化数据同样与画作《蒙娜丽莎》有关,虽然其也是一种结构化的数据,但是其并未采用表格的形式来表达和实现相关的数据。
如图1a和1b所示,尽管来自两个网站的数据均将画作描述为《蒙娜丽莎》,但是画作的作者被分别描述为图1a中的“莱昂纳多●达●芬奇”和图1b中的“(意大利)列奥纳多●达●芬奇”,而年代被分别描述为图1a中的“创作于十六世纪初期”和图1b中的“1503年至1517年”。这种描述上的不一致导致在艺术领域知识图谱的构建中可能在实体间存在矛盾或者歧义,从而影响图谱构建的准确度,因此需要对实体进行融合。
本发明实施例针对用于实体融合的方案。通过得到实体各个属性的属性向量表示,且计算各个属性的相似度以得到实体相似度,可以实现有效的实体融合。
图2示出了按照本发明实施例的用于实体融合的方法200的流程图。方法200可以由计算设备执行,并且可以用软件、固件、硬件或其组合来实现。方法200被示出为一组步骤,且不限于所示出的执行各步骤的操作的顺序。以下将结合图1a和图1b所示出的艺术实体的示例来进行方法200的描述。
在步骤201,获取来自多个数据源的多个实体的数据。数据源可以是新闻网站、百科网站或者任何包含与该实体相关的数据的网站(例如包含小说数据的网站)。替换地或者附加地,数据源也可以是公用或者私有的数据库。举例而言,图1a的数据是来自针对艺术实体而专门构建的、由专家录入并审核的私有数据库,而图1b的数据是来自公用的百科网站。可以理解,对于艺术实体,其相关数据可以来源于相关领域(比如艺术领域)的各种网站。数据的获取可以例如通过利用网络爬虫爬取相关网站来采集相关的数据。在一些实施例中,实体可以是艺术实体,例如艺术品(比如画作、雕塑、古玩等)、艺术家(比如画家、雕塑家、音乐家等)和艺术机构(比如美术馆、博物馆等)。
实体的数据可以包含结构化和半结构化数据。在一些实施例中,当所获取的数据包含半结构化数据,可以对其进行结构化处理。示例性地,可以使用网络爬虫自带的网页解析功能来将半结构化数据结构化。替换地或者附加地,结构化还可以通过创建专用字典的方式进行。举例而言,对于艺术领域,可以创建艺术领域字典。在艺术领域字典中可以包含各个艺术实体和/或其属性的正确表达方式。比如,可以规定时间(例如出生年份和死亡年份)使用3位或4位数字来表达等,比如唐代画家阎立本的出生年份是公元601年(3位数字),而当代画家吴冠中的出生年份是公元1919年(4位数字)。这样,当所采集的半结构化数据中的表达方式与艺术领域字典中的不一致时,可以按照艺术领域字典对所获取的数据予以纠正或标明,从而使其具有与结构化数据一致的属性表达方式。在一些情况下,还可以加入人工判断来进行数据的结构化。
在一个示例中,图1b中的半结构化数据在经过结构化处理后可以例如通过与图1a中的二维表类似的,包含中文名、外文名、画作类型、现收藏地、规格、作者、创作年代、材质等条目的二维表结构来表达。进一步地,图1b中的实体属性名称可以被处理为采用与图1a实体属性名称一致的表达,比如“中文名”替换为“作品名”,“作者”替换为“原作者”等。
在一些实施例中,也可以在将数据结构化后,对所有的数据进行进一步的预处理,例如对数据的语法、数据表达形式(例如属性的表达形式)等进行正规化或者其它任何适用的处理。
在步骤202,从实体的数据中抽取实体的属性。在一些实施例中,当数据包含结构化数据时,可以根据其固定结构模式来从中抽取实体的属性。如图1a所示,其二维表中固定包含了作品名、作品简介、年代、内容题材、电子版价格、原作者等属性条目。因而可以从这样的结构化数据中抽取各个属性或者后续处理所需要的属性。
实体的属性可以通过短语或者短句表达。以艺术领域为例,艺术实体可以包括艺术品、艺术家和艺术机构等。对于艺术品而言,其属性可以包括艺术品的作者、英文名、创作年代、创作媒介、馆藏地、尺寸等。对于艺术家而言,其属性可以包含艺术家的英文名、国籍、出生地、出生年份、死亡年份、流派和代表作等。对于艺术机构而言,其属性可以包含艺术机构的英文名、地点、代表艺术品等。对于艺术实体而言,由于其属性通常用以标识某个对象(例如人、物、机构、地点等)的名称,且通常包含时间,所以常常可以用短语或者短句表达。如图1a所示,该画作的作品名、内容题材、原作者、以及时间等条目均是用短语或者短句表达的。
在步骤203,将用以表达属性的短语或者短句转换为向量以获得所表达属性的属性向量。对于短语或者短语,从语义的角度进行相似性判断可能是有利的。在一些实施例中,可以采用词嵌入工具来将短语或者短句转换为向量。词嵌入工具可以包括word2vec(词转化为向量)工具、GloVe(Global Vectors for Word Representation,用于词表示的全局向量)工具、嵌入层(Embedding Layer)工具等。
举例而言,对于图1a所示的第一艺术品实体《蒙娜丽莎》,由于其具有6个属性,即:作品名、作品简介、年代、内容题材、电子版价格、原作者,因此可以将表达各属性的短语或者短句分别转换为相应的6个属性向量。类似地,对于图1b所示的第二艺术品实体《蒙娜丽莎》,由于其具有8个属性,即:中文名、外文名、画作类型、现收藏地、规格、作者、创作年代、材质,因此经过向量转换后,可以得到该艺术品实体的8个属性向量。
在步骤204,对于来自不同数据源的任何两个实体,基于这两个实体的对应属性的属性向量来计算各属性的属性相似度。对应属性可以是属性名称相同或者相似的属性。仍然以图1a和图1b中来自不同数据源的两个艺术品实体为例。图1a中的第一艺术品实体具有作品名、作品简介、年代、内容题材、电子版价格、原作者6个属性,而图1b中的第二艺术品实体具有中文名、外文名、画作类型、现收藏地、规格、作者、创作年代、材质8个属性。可以理解,由于图1a中的属性名称:作品名、年代、内容题材、原作者和图1b中的属性名称:中文名、创作年代、画作类型、作者实际上指向相同的属性,所以第一艺术品实体和第二艺术品实体一共涉及10个属性,即:作品名/中文名;年代/创作年代;内容题材/画作类型;原作者/作者;作品简介;电子版价格;外文名;现收藏地;规格;材质。由此,在上面的示例中,可以基于第一和第二艺术品实体的这10个属性的属性向量来计算各属性的属性相似度。
在一些实施例中,对于某个实体而言,若所获取的数据中未包含某个属性,则可以将该属性设置为空值。可选地,可以在判断两个实体的属性相似度之前,预先确定两个实体的对应属性中是否有属性为空值。示例性地,如果两个实体的相同属性都为空值或者其中一个实体的属性为空值,则其属性相似度为0 。
在一些实施例中,可以通过相似度计算方法来计算一个或多个对应属性对中属性的属性向量的相似度,进而计算各对应属性的属性相似度。相似度计算方法包括但不限于夹角余弦相似度计算、距离计算等。
在步骤205,基于这两个实体的各对应属性的属性相似度来确定是否进行这两个实体的融合。在一些实施例中,可以将两个实体的各对应属性的属性相似度进行加权平均,以得到实体相似度。所得到的实体相似度被与预定阈值进行比较,以确定是否进行实体融合。通过对不同的属性赋予不同的权重,将更大的权重赋予对实体的特性有更大贡献的属性,可以提高实体相似度判断的准确度。示例地,若实体相似度高于阈值,则可以判断这两个实体为同一实体,且因而可以进行融合。反之,若实体相似度低于阈值,则可以判断这两个实体不是同一实体,且因而不进行融合。在一些实施例中,在对属性相似度进行加权平均之前,可以例如根据专家经验向实体的各属性预先赋予相应的权重。由于这样赋予的权重依赖于专家的经验和知识等,所以其能更可信和更科学地指示实体各属性在表征实体特性过程中的重要程度,由此可以进一步提高实体相似度判断的准确度,并进而改善实体融合的效果。在另一些实施例,对于艺术品实体而言,在判断两个实体是否为相同实体时,由于作者、创作年代、现收藏地等属性可能是独特地标识该实体的属性,能够更准确地表征该实体,所以可以将相对较高的权重赋予这些属性,从而得出正确的判断。而艺术品实体的其他属性,例如材质、尺寸、题材等可能是艺术品实体与其他实体共有的属性。因此,可以将相对较低的权重赋予这些属性。示例性地,可以对实体的属性进行分类为例如名称类别、时间类别、其它类别等,且为各个类别分别指定不同的权重。举例而言,可以为名称类别指定相对较高的权重。实体的所有属性的权重之和为1。对于这一实施例,实验表明,当作者、创作年代、现收藏地的权重为0.25、材质、尺寸的权重为0.1且题材的权重为0.05时,可以获得良好的判断准确率。在这些实施例中,阈值可以是由已知的相同实体之间的相似度和不同实体之间的相似度归纳推理得出的。
在另一些实施例中,替换地或者附加地,还可以使用机器学习中的分类(诸如逻辑回归、朴素贝叶斯、SVM等)和聚类方法(诸如K-means聚类、dbscan聚类等)来判断两个实体是否是相同实体以及是否需要进行融合。
应当理解的是,虽然在上文中针对艺术知识图谱构建对实体融合方法进行了描述,但是本发明实施例的方法也可适用于其他领域,例如金融知识图谱构建、菜品知识图谱构建等,只要该领域中的实体属性是通过短语或者短句描述即可。
按照本发明的实施例,利用实体的属性通过短语或者短句描述的特点,通过将实体的属性映射为相应的词向量来进行相似度的判断,降低了实体融合的计算复杂度,提高了知识图谱构建的效率。经过实验测试表明,使用按照本发明实施例的实体融合方法,实体融合的准确率最高可达87.6%。
图3示出了本发明实施例的用于实体融合的又一方法300的流程图。方法300同样可以由计算设备执行,并且可以用软件、固件、硬件或其组合来实现。方法300被示出为一组步骤,且不限于所示出的执行各步骤的操作的顺序。
在301,从采集到的数据中抽取实体的通过短语或者短句表达的属性。在一些实施例中,可以从实体的各属性中抽取包含的词语数量小于特定数量的属性。由于对于艺术实体而言,能够表征其特性的属性通常通过包含有限数量词语的短语或者短句来表征,所以通过选择部分属性而不是全部属性可以减少需要处理的数据量,从而提升实体融合的速度。
在302,确定来自不同数据源的两个实体的对应属性对。在一些实施例中,可以查找两个实体共有的相同或者相似的属性作为对应属性对。
同义词词典是一种可以被使用来进行词语相似性判断的简单方式。因此,在一些实施例中,当对应属性对中的两个属性均为单个词语时,可以通过使用同义词词典判断词语的相似性,并进而判断属性的相似性。在303,可以判断这两个属性是否通过单个词语表达,且是否存在于同义词词典中。这可以通过在同义词词典中搜索与这些属性相匹配的词语项来进行。由于经由同义词词典进行的判断计算复杂度较低,所以这将有助于加快属性相似性的判断,且提高实体融合速度。
若属性在同义词词典中不存在或者属性由包含多于一个词语的短语或者短句表达,则在304,将用以表达属性的短语或者短句分割成一个或多个词语。短语或者短句的分割可以例如通过使用分词工具对短语或者短句进行分词来实现。附加地,还可以通过命名实体识别等手段从短句中提取一个或多个有意义的词语。
在305,可以使用词嵌入工具,例如word2vec工具将每个词语转换为相应的词向量。在实体属性以短语或者短句形式描述的场合,较好的方式是从语义的角度进行属性的相似性判断。word2vec工具是基于神经网络产生词向量的模型。其可以根据给定的语料库,通过优化后的训练模型快速有效地将每个词语映射到向量,也即表达成向量形式,以便用于自然语言的处理。Word2vec依赖skip-grams或连续词袋(CBOW)来建立神经词嵌入,得到每个词语固定维数的词向量。产生的向量可用来表示词语与词语之间的关系。由于word2vec工具在将词语向量化的过程中还保持了上下文信息,因此其有助于从语义的角度进行相似性判断,且更好地适配于通过短语或者短句表达的实体属性的相似性判断。
在一些实施例中,在使用word2vec工具进行转换之前,可以预先使用训练数据对word2vec工具进行训练。训练数据的数量越大,越能精确捕获上下文信息,从而使得判断实体相似度的准确率越高。举例而言,训练数据可以是新闻数据、百科数据或者其它任何包含实体相关的信息的几十吉的数据。而且,经word2vec工具转换得到的词向量的维数越高,判断实体相似度的准确率越高。示例性地,转换所得的词向量可以是64维或者128维向量。在另一些实施例中,也可以采用任何可得到的已训练的word2vec工具,例如已公开的word2vec工具。
在306,将每个词向量进行加权平均,得到该短语或者短句所表达的属性的属性向量。通过对不同的词向量赋予不同的权重,可以加强有意义的词向量在属性向量中所占的比重,从而提供在向量空间中属性向量表达其对应属性的准确度,进而提高实体相似度判断的准确度。在一些实施例中,可以按照经验值或者实验值来对词向量的权重加以区分。在另一些实施例中,可以对短语或者短句中具有特定意义的词语,诸如人名、地名、机构名、专有名词,或者构成规律明显的词语类型,诸如时间、货币名称等赋予相对较高的权重。举例而言,对于图1a中艺术品实体的属性内容题材,其包含达芬奇、文艺复兴、油画和肖像画4个词语,可以对其中的人名“达芬奇”赋予最高的权重,对专有名词“文艺复兴”赋予次高的权重,以及对“油画”和“肖像画”这样的通用名词赋予较低的权重。
在307,对于来自不同数据源的两个实体,基于所述两个实体的对应属性对中两个属性的属性向量,计算属性相似度。
当在303处判断对应属性对中的属性为单个词语且在同义词词典中存在时,在307,基于同义词词典来计算属性相似度。图4示意性示出了基于同义词词典计算属性相似度的方法400的流程图。
在401,获取同义词词典。同义词词典可以是现有的例如可以从网络下载的同义词词林词典。替换地或者附加地,同义词词典也可以是基于所要构建的知识图谱类型而专门创建的词典。
在402,使用同义词词典对词语进行编码,包括为每个词语找到所有的义项及其编码。义项是一个词语所有可能的意思。
在403,利用义项的编号,根据两个义项的语义距离计算义项的相似度。以同义词词林词典为例,可以判断在同义词词林中作为叶子节点的两个义项在哪一层分支(也即两个义项在哪一层编号不同)。通过从第1层开始判断,相同乘1,否则在分支层乘以相应的系数和调节参数,计算得到两个义项的相似度。
在404,对两个词语的义项分别两两计算,得到词语的相似度来作为其属性相似度。
可以理解,使用同义词词林计算属性相似度的步骤是可选地。按照本发明的实施例,可以在抽取实体属性直接使用word2vec工具来进行到词向量的转换,而不进行有关同义词词林的判断。
按照本发明的实施例,通过将word2vec工具引入到实体属性相似度的判断中,可以在实现复杂度较小的同时提高实体融合的效率,进而提高知识图谱的构建效率。
图5示出了根据本发明实施例的用于实体融合的设备500的结构框图。设备500可以用来实现上文所述的实体融合方法的各种实施例。如图5所示,用于实体融合的设备500包括获取器511、抽取器512、转换器513、融合器514。
获取器511可以被配置为获取来自多个数据源的多个实体的数据。在一些实施例中,获取器511可以通过网络爬虫器实现。数据源是连接到网络530的任何包含实体相关信息的网站、数据库等,包括但不限于新闻网站521、百科网站522、小说网站523等。获取器511可以经由网络530例如通过有线或者无线的方式连接到数据源以便从其采集数据。所获取的数据可以包括与实体有关的结构化或半结构化数据。
抽取器512可以被配置为从所获取的数据中抽取实体的属性。所抽取的属性可以通过短语或者短句表达。在一些实施例中,抽取器512可以被配置为从结构化数据的二维表中抽取实体的各个属性。在另一些实施例中,抽取器512还可以对数据进行预处理,以使得数据的诸如语法、数据表示形式等正规化。
转换器513被配置为将用以表达实体属性的短语或短句转换为向量以获得所表达属性的属性向量。在一些实施例中,转换器513还被配置为将短语或短句分割为一个或多个词语、使用词嵌入工具(例如word2vec工具)将每个词语转换为词向量、以及将每个词向量进行加权平均来得到该短语或者短句的对应属性的属性向量。
融合器514被配置为对于来自不同数据源的两个实体,基于所述两个实体的所抽取的对应属性的属性向量来计算各属性的属性相似度,以及基于两个实体的各属性的属性相似度来确定是否进行实体融合。
在一些实施例中,融合器514可以包括相似度计算模块5141和融合判决模块5142。
相似度计算模块5141可以被配置为通过相似度计算方法(诸如夹角余弦相似度、距离计算等)来基于两个实体的对应属性的属性向量计算各属性的属性相似度,以及基于属性相似度来计算实体相似度。在一些实施例中,相似度计算模块5141还可以被配置为将两个实体的各属性的属性相似度进行加权平均,来得到两个实体之间的实体相似度。实体各属性的权重可以是根据专家经验预先赋予的。替换地或者附加地,属性权重也可以是由用户指定的。
融合判决模块5142可以通过比较实体相似度与阈值来确定是否进行这两个实体的融合。示例性地,若实体相似度高于阈值,则判断为相同实体,并进行实体融合。反之,则判断其不是同一实体,且不进行实体融合。阈值可以是由已知的同一实体之间的相似度和不同实体之间的相似度归纳推理得出。阈值可以是基于经验值或者实验值来确定的。
可选地,融合器514还被配置为在将短语或者短句转换为向量之前,确定所抽取的属性是否在同义词词典中存在,以及响应于所述属性在同义词词典中存在,基于同义词词典来计算该属性对应的属性相似度。
可选地,融合器514还可以被配置为使用机器学习中的分类(诸如逻辑回归、朴素贝叶斯、SVM等)、聚类方法(诸如K-means聚类、dbscan聚类等)来判断两个实体是否是同一实体以及是否需要进行融合。
可以理解,上文中针对方法实施例讨论的所有可能性对于图5的按照本发明实施例的设备也是有效的。
图6图示了示例系统600,其包括代表可以实现本文描述的关于实体融合的各种技术的一个或多个系统和/或设备的示例计算设备610。计算设备610可以是例如服务提供商的服务器、与客户端(例如,客户端设备)相关联的设备、片上系统、和/或任何其它合适的计算设备或计算系统。上面关于图5描述的用于实体融合的设备500可以采取计算设备610的形式。替换地,用于实体融合的设备500可以以实体融合应用616的形式被实现为计算机程序。
如图示的示例计算设备610包括彼此通信耦合的处理系统611、一个或多个计算机可读介质612以及一个或多个I / O接口613。尽管未示出,但是计算设备610还可以包括系统总线或其他数据和命令传送系统,其将各种组件彼此耦合。系统总线可以包括不同总线结构的任何一个或组合,所述总线结构诸如存储器总线或存储器控制器、外围总线、通用串行总线、和/或利用各种总线架构中的任何一种的处理器或局部总线。还构思了各种其他示例,诸如控制和数据线。
处理系统611代表使用硬件执行一个或多个操作的功能。因此,处理系统611被图示为包括可被配置为处理器、功能块等的硬件元件614。这可以包括在硬件中实现为专用集成电路或使用一个或多个半导体形成的其它逻辑器件。硬件元件614不受其形成的材料或其中采用的处理机构的限制。例如,处理器可以由(多个)半导体和/或晶体管(例如,电子集成电路(IC))组成。在这样的上下文中,处理器可执行指令可以是电子可执行指令。
计算机可读介质612被图示为包括存储器/存储装置615。存储器/存储装置615表示与一个或多个计算机可读介质相关联的存储器/存储容量。存储器/存储装置615可以包括易失性介质(诸如随机存取存储器(RAM))和/或非易失性介质(诸如只读存储器(ROM)、闪存、光盘、磁盘等)。存储器/存储装置615可以包括固定介质(例如,RAM、ROM、固定硬盘驱动器等)以及可移动介质(例如,闪存、可移动硬盘驱动器、光盘等)。计算机可读介质612可以以下面进一步描述的各种其他方式进行配置。
一个或多个I/O接口613代表允许用户向计算设备610输入命令和信息并且可选地还允许使用各种输入/输出设备将信息呈现给用户和/或其他组件或设备的功能。输入设备的示例包括键盘、光标控制设备(例如,鼠标)、麦克风(例如,用于语音输入)、扫描仪、触摸功能(例如,被配置为检测物理触摸的容性或其他传感器)、相机(例如,可以采用可见或不可见的波长(诸如红外频率)将不涉及触摸的运动检测为手势)等等。输出设备的示例包括显示设备(例如,监视器或投影仪)、扬声器、打印机、网卡、触觉响应设备等。因此,计算设备610可以以下面进一步描述的各种方式进行配置以支持用户交互。
计算设备610还包括实体融合应用616。实体融合应用616可以例如是关于图5描述的用于实体融合的装置500的软件实例,并且与计算设备610中的其他元件相组合地实现本文描述的技术。
本文可以在软件硬件元件或程序模块的一般上下文中描述各种技术。一般地,这些模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元素、组件、数据结构等。本文所使用的术语“模块”,“功能”和“组件”一般表示软件、固件、硬件或其组合。本文描述的技术的特征是与平台无关的,意味着这些技术可以在具有各种处理器的各种计算平台上实现。
所描述的模块和技术的实现可以存储在某种形式的计算机可读介质上或者跨某种形式的计算机可读介质传输。计算机可读介质可以包括可由计算设备610访问的各种介质。作为示例而非限制,计算机可读介质可以包括“计算机可读存储介质”和“计算机可读信号介质”。与单纯的信号传输、载波或信号本身相反,“计算机可读存储介质”是指能够持久存储信息的介质和/或设备,和/或有形的存储装置。
如前所述,硬件元件614和计算机可读介质612代表以硬件形式实现的指令、模块、可编程器件逻辑和/或固定器件逻辑,其在一些实施例中可以用于实现本文描述的技术的至少一些方面。硬件元件可以包括集成电路或片上系统、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、复杂可编程逻辑器件(CPLD)以及硅中的其它实现或其他硬件设备的组件。在这种上下文中,硬件元件可以作为执行由硬件元件所体现的指令、模块和/或逻辑所定义的程序任务的处理设备,以及用于存储用于执行的指令的硬件设备,例如,先前描述的计算机可读存储介质。
前述的组合也可以用于实现本文所述的各种技术和模块。因此,可以将软件、硬件或程序模块和其它程序模块实现为在某种形式的计算机可读存储介质上和/或由一个或多个硬件元件614体现的一个或多个指令和/或逻辑。计算设备610可以被配置为实现与软件和/或硬件模块相对应的特定指令和/或功能。因此,例如通过使用处理系统的计算机可读存储介质和/或硬件元件614,可以至少部分地以硬件来实现将模块实现为可由计算设备610作为软件执行的模块。指令和/或功能可以由一个或多个制品(例如,一个或多个计算设备610和/或处理系统611)可执行/可操作以实现本文所述的技术、模块和示例。
在各种实施方式中,计算设备610可以采用各种不同的配置。例如,计算设备610可以被实现为包括个人计算机、台式计算机、多屏幕计算机、膝上型计算机、上网本等的计算机类设备。计算设备610还可以被实现为包括诸如移动电话、便携式音乐播放器、便携式游戏设备、平板计算机、多屏幕计算机等移动设备的移动装置类设备。计算设备610还可以实现为电视类设备,其包括具有或连接到休闲观看环境中的一般地较大屏幕的设备。这些设备包括电视、机顶盒、游戏机等。
本文描述的技术可以由计算设备610的这些各种配置来支持,并且不限于本文所描述的技术的具体示例。功能还可以通过使用分布式系统、诸如通过如下所述的平台622而在“云”620上全部或部分地实现。
云620包括和/或代表用于资源624的平台622。平台622抽象云620的硬件(例如,服务器)和软件资源的底层功能。资源624可以包括在远离计算设备610的服务器上执行计算机处理时可以使用的应用和/或数据。资源624还可以包括通过因特网和/或通过诸如蜂窝或Wi-Fi网络的订户网络提供的服务。
平台622可以抽象资源和功能以将计算设备610与其他计算设备连接。平台622还可以用于抽象资源的分级以提供遇到的对于经由平台622实现的资源624的需求的相应水平的分级。因此,在互连设备实施例中,本文描述的功能的实现可以分布在整个系统600内。例如,功能可以部分地在计算设备610上以及通过抽象云620的功能的平台622来实现。
应当理解,为清楚起见,参考不同的功能模块对本公开的实施例进行了描述。然而,将明显的是,在不偏离本公开的情况下,每个功能模块的功能性可以被实施在单个模块中、实施在多个模块中或作为其它功能模块的一部分被实施。例如,被说明成由单个模块执行的功能性可以由多个不同的模块来执行。因此,对特定功能模块的参考仅被视为对用于提供所描述的功能性的适当模块的参考,而不是表明严格的逻辑或物理结构或组织。因此,本公开可以被实施在单个模块中,或者可以在物理上和功能上被分布在不同的模块和电路之间。
将理解的是,尽管第一、第二、第三等术语在本文中可以用来描述各种设备、元件、或部件,但是这些设备、元件、或部件不应当由这些术语限制。这些术语仅用来将一个设备、元件、或部件与另一个设备、元件、或部件相区分。
尽管已经结合一些实施例描述了本公开,但是其不旨在被限于在本文中所阐述的特定形式。相反,本公开的范围仅由所附权利要求来限制。附加地,尽管单独的特征可以被包括在不同的权利要求中,但是这些可以可能地被有利地组合,并且包括在不同权利要求中不暗示特征的组合不是可行的和/或有利的。特征在权利要求中的次序不暗示特征必须以其工作的任何特定次序。此外,在权利要求中,词“包括”不排除其它元件,并且不定冠词“一”或“一个”不排除多个。权利要求中的附图标记仅作为明确的例子被提供,不应该被解释为以任何方式限制权利要求的范围。

Claims (14)

1.一种用于实体融合的方法,包括:
获取来自多个数据源的多个实体的数据;
从所获取的数据中抽取所述实体的属性,所述属性通过短语或者短句表达;
将所述短语或者短句转换为向量以获得所表达属性的属性向量;以及
对于来自不同数据源的多个实体中的两个实体,基于所述两个实体的对应属性的属性向量计算各属性的属性相似度,且基于所述两个实体的各属性的属性相似度,确定是否进行所述两个实体的融合。
2.根据权利要求1的方法,其中将所述短语或者短句转换为向量包括:
将所述短语或者短句分割为一个或多个词语;
将所述一个或多个词语转换为各自的词向量;以及
将所述短语或者短句对应的每个词向量进行加权平均,得到所述短语或者短句所表达属性的属性向量。
3.根据权利要求1或2的方法,其中基于所述两个实体的各属性的属性相似度,确定是否进行所述多个实体的融合包括:
将两个实体的各属性的属性相似度进行加权平均,得到实体相似度;以及
通过比较所述实体相似度与预定阈值,确定是否进行实体融合。
4.根据权利要求3的方法,其中在将两个实体的各属性的属性相似度进行加权平均之前还包括:
向各属性赋予相应的权重。
5.根据权利要求1或2的方法,其中在将短语或者短句转换为向量之前还包括:
确定所抽取的属性是否在同义词词典中存在,以及
响应于所述属性在同义词词典中存在,基于同义词词典来计算该属性对应的属性相似度。
6.根据权利要求1或2的方法,其中所述实体是艺术领域的艺术实体。
7.一种用于实体融合的设备,包括:
获取器,被配置为获取来自多个数据源的多个实体的数据;
抽取器,被配置为从所获取的数据中抽取实体的属性,所述属性通过短语或者短句表达;
转换器,被配置为将短语或者短句转换为向量以获得所表达属性的属性向量;和
融合器,被配置为对于来自不同数据源的两个实体,基于所述两个实体的对应属性的属性向量来计算各属性的属性相似度,以及基于所述两个实体的各属性的属性相似度来确定是否进行所述两个实体的融合。
8.根据权利要求7的设备,其中所述转换器还被配置为将短语或者短句分割为一个或多个词语;将所述一个或多个词语转换为各自的词向量;以及将所述短语或者短句对应的每个词向量进行加权平均,得到该短语或者短句所表达属性的属性向量。
9.根据权利要求7或8的设备,其中所述融合器还被配置为将两个实体的各属性的属性相似度进行加权平均,得到实体相似度;以及通过比较所述实体相似度与预定阈值来确定是否进行实体融合。
10.根据权利要求9的设备,其中所述融合器还被配置为在将两个实体的各属性的属性相似度进行加权平均之前,向各属性赋予相应的权重。
11.根据权利要求7或8的设备,其中所述融合器还被配置为在将短语或者短句转换为向量之前,确定所抽取的属性是否在同义词词典中存在,以及对于所述属性在同义词词典中存在的情形,基于同义词词典来计算该属性对应的属性相似度。
12.根据权利要求7或8的设备,其中所述实体是艺术领域的艺术实体。
13.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中所述处理器执行所述计算机程序时实现根据权利要求1-6中任一项所述方法的步骤。
14.一种计算机可读存储介质,其上存储有计算机指令,其中该计算机指令被处理器执行时实现权利要求1-6中任一项所述方法的步骤。
CN201910536514.1A 2019-06-20 2019-06-20 用于实体融合的方法和设备 Pending CN110222200A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910536514.1A CN110222200A (zh) 2019-06-20 2019-06-20 用于实体融合的方法和设备
PCT/CN2020/085909 WO2020253355A1 (zh) 2019-06-20 2020-04-21 用于实体融合的方法和设备、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910536514.1A CN110222200A (zh) 2019-06-20 2019-06-20 用于实体融合的方法和设备

Publications (1)

Publication Number Publication Date
CN110222200A true CN110222200A (zh) 2019-09-10

Family

ID=67814301

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910536514.1A Pending CN110222200A (zh) 2019-06-20 2019-06-20 用于实体融合的方法和设备

Country Status (2)

Country Link
CN (1) CN110222200A (zh)
WO (1) WO2020253355A1 (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110909170A (zh) * 2019-10-12 2020-03-24 百度在线网络技术(北京)有限公司 兴趣点知识图谱构建方法、装置、电子设备及存储介质
CN111522968A (zh) * 2020-06-22 2020-08-11 中国银行股份有限公司 知识图谱融合方法及装置
CN111597788A (zh) * 2020-05-18 2020-08-28 腾讯科技(深圳)有限公司 基于实体对齐的属性融合方法、装置、设备及存储介质
CN111897968A (zh) * 2020-07-20 2020-11-06 国网浙江省电力有限公司嘉兴供电公司 一种工业信息安全知识图谱构建方法和系统
WO2020253355A1 (zh) * 2019-06-20 2020-12-24 京东方科技集团股份有限公司 用于实体融合的方法和设备、电子设备和存储介质
WO2021147786A1 (zh) * 2020-01-20 2021-07-29 京东方科技集团股份有限公司 知识图谱的构建方法及装置、存储介质、电子设备
CN113609838A (zh) * 2021-07-14 2021-11-05 华东计算技术研究所(中国电子科技集团公司第三十二研究所) 文档信息抽取及图谱化方法和系统
CN113705236A (zh) * 2021-04-02 2021-11-26 腾讯科技(深圳)有限公司 实体比较方法、装置、设备及计算机可读存储介质
CN113760995A (zh) * 2021-09-09 2021-12-07 上海明略人工智能(集团)有限公司 一种实体链接方法及系统、设备和存储介质
CN114139547A (zh) * 2021-11-25 2022-03-04 北京中科闻歌科技股份有限公司 知识融合方法、装置、设备、系统及介质
CN114169966A (zh) * 2021-12-08 2022-03-11 海南港航控股有限公司 一种用张量提取货物订单元数据的方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110128552A (ko) * 2010-05-24 2011-11-30 임춘성 컨설팅 지식융합 방법 및 그 시스템
CN105893481A (zh) * 2016-03-29 2016-08-24 国家计算机网络与信息安全管理中心 一种基于马尔可夫聚类的实体间关系消解方法
CN108804544A (zh) * 2018-05-17 2018-11-13 深圳市小蛙数据科技有限公司 互联网影视多源数据融合方法和装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8533148B1 (en) * 2012-10-01 2013-09-10 Recommind, Inc. Document relevancy analysis within machine learning systems including determining closest cosine distances of training examples
CN104699818B (zh) * 2015-03-25 2016-03-02 武汉大学 一种多源异构的多属性poi融合方法
CN108572947B (zh) * 2017-03-13 2019-11-19 腾讯科技(深圳)有限公司 一种数据融合方法及装置
CN108647318A (zh) * 2018-05-10 2018-10-12 北京航空航天大学 一种基于多源数据的知识融合方法
CN110222200A (zh) * 2019-06-20 2019-09-10 京东方科技集团股份有限公司 用于实体融合的方法和设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110128552A (ko) * 2010-05-24 2011-11-30 임춘성 컨설팅 지식융합 방법 및 그 시스템
CN105893481A (zh) * 2016-03-29 2016-08-24 国家计算机网络与信息安全管理中心 一种基于马尔可夫聚类的实体间关系消解方法
CN108804544A (zh) * 2018-05-17 2018-11-13 深圳市小蛙数据科技有限公司 互联网影视多源数据融合方法和装置

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020253355A1 (zh) * 2019-06-20 2020-12-24 京东方科技集团股份有限公司 用于实体融合的方法和设备、电子设备和存储介质
CN110909170B (zh) * 2019-10-12 2022-09-23 百度在线网络技术(北京)有限公司 兴趣点知识图谱构建方法、装置、电子设备及存储介质
CN110909170A (zh) * 2019-10-12 2020-03-24 百度在线网络技术(北京)有限公司 兴趣点知识图谱构建方法、装置、电子设备及存储介质
WO2021147786A1 (zh) * 2020-01-20 2021-07-29 京东方科技集团股份有限公司 知识图谱的构建方法及装置、存储介质、电子设备
CN111597788A (zh) * 2020-05-18 2020-08-28 腾讯科技(深圳)有限公司 基于实体对齐的属性融合方法、装置、设备及存储介质
CN111597788B (zh) * 2020-05-18 2023-11-14 腾讯科技(深圳)有限公司 基于实体对齐的属性融合方法、装置、设备及存储介质
CN111522968A (zh) * 2020-06-22 2020-08-11 中国银行股份有限公司 知识图谱融合方法及装置
CN111522968B (zh) * 2020-06-22 2023-09-08 中国银行股份有限公司 知识图谱融合方法及装置
CN111897968A (zh) * 2020-07-20 2020-11-06 国网浙江省电力有限公司嘉兴供电公司 一种工业信息安全知识图谱构建方法和系统
CN113705236A (zh) * 2021-04-02 2021-11-26 腾讯科技(深圳)有限公司 实体比较方法、装置、设备及计算机可读存储介质
CN113609838A (zh) * 2021-07-14 2021-11-05 华东计算技术研究所(中国电子科技集团公司第三十二研究所) 文档信息抽取及图谱化方法和系统
CN113760995A (zh) * 2021-09-09 2021-12-07 上海明略人工智能(集团)有限公司 一种实体链接方法及系统、设备和存储介质
CN114139547A (zh) * 2021-11-25 2022-03-04 北京中科闻歌科技股份有限公司 知识融合方法、装置、设备、系统及介质
CN114169966A (zh) * 2021-12-08 2022-03-11 海南港航控股有限公司 一种用张量提取货物订单元数据的方法及系统

Also Published As

Publication number Publication date
WO2020253355A1 (zh) 2020-12-24

Similar Documents

Publication Publication Date Title
CN110222200A (zh) 用于实体融合的方法和设备
Wang et al. Combining Knowledge with Deep Convolutional Neural Networks for Short Text Classification.
RU2678716C1 (ru) Использование автоэнкодеров для обучения классификаторов текстов на естественном языке
US20200302114A1 (en) Information extraction from open-ended schema-less tables
US20210397980A1 (en) Information recommendation method and apparatus, electronic device, and readable storage medium
US11501080B2 (en) Sentence phrase generation
US11475227B2 (en) Intelligent routing services and systems
CN111539197A (zh) 文本匹配方法和装置以及计算机系统和可读存储介质
CN106462807A (zh) 根据大规模非结构化数据学习多媒体语义
CN110705304B (zh) 一种属性词提取方法
CN114385806A (zh) 一种基于深度学习的文本摘要方法及系统
Nigam et al. Lexicon-based approach to sentiment analysis of tweets using R language
US11822590B2 (en) Method and system for detection of misinformation
CN113515589A (zh) 数据推荐方法、装置、设备以及介质
CN116719999A (zh) 文本相似度检测方法和装置、电子设备及存储介质
Sagar et al. Prcmla: product review classification using machine learning algorithms
Dhuria et al. NLP and ontology based clustering—An integrated approach for optimal information extraction from social web
Esteves et al. Named entity recognition in twitter using images and text
Mokhtari et al. Context-sensitive neural sentiment classification
Pokhrel et al. Web Data Scraping Technology using TF-IDF to Enhance the Big Data Quality on Sentiment Analysis
Showkatramani et al. User Interface for Managing and Refining Related Patent Terms
Gao et al. Deep learning based network news text classification system
US20240020476A1 (en) Determining linked spam content
Minocha et al. Generating domain specific sentiment lexicons using the web directory
Kumar Bhadra et al. Review on sentiment analysis and polarity classification of sarcastic sentences using deep learning in social media

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190910