CN111488464B - 实体属性处理方法、装置、设备及介质 - Google Patents

实体属性处理方法、装置、设备及介质 Download PDF

Info

Publication number
CN111488464B
CN111488464B CN202010289148.7A CN202010289148A CN111488464B CN 111488464 B CN111488464 B CN 111488464B CN 202010289148 A CN202010289148 A CN 202010289148A CN 111488464 B CN111488464 B CN 111488464B
Authority
CN
China
Prior art keywords
attribute
entity
value
entity information
information source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010289148.7A
Other languages
English (en)
Other versions
CN111488464A (zh
Inventor
徐程程
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010289148.7A priority Critical patent/CN111488464B/zh
Publication of CN111488464A publication Critical patent/CN111488464A/zh
Application granted granted Critical
Publication of CN111488464B publication Critical patent/CN111488464B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

公开了一种实体属性处理方法、装置、设备及介质,该方法包括:获取目标实体的实体信息簇,所述目标实体具有多个属性,所述实体信息簇对应于多个实体信息源,每个属性与至少一个实体信息源相对应,对于每个属性,在实体信息簇中包括提供该属性的至少一个实体信息源的标识、以及实体信息源所提供的属性值;对该目标实体的所述多个属性中的每个属性,确定该属性的属性类型,并根据该属性类型确定其所对应的属性值处理策略,其中所述属性类型包括单值属性、多值属性、保留属性、依赖型属性之一;根据所确定的属性值处理策略,基于与该属性对应的实体信息源所提供的属性值生成属性的融合属性值,对不同属性采用不同属性值处理策略,有效地筛选属性值。

Description

实体属性处理方法、装置、设备及介质
技术领域
本发明涉及图谱构建领域,更具体地涉及一种实体属性处理方法、实体属性处理装置、实体属性处理设备及介质。
背景技术
随着人工智能在民用和商用领域的广泛应用,图谱构建在业务大数据化、智能化等过程中起到日益重要的作用,因此对于图谱构建,特别是知识图谱构建也面临着更高的要求。
目前在知识图谱的构建中,通常包括知识抽取,实体对齐,属性处理,知识存储的步骤。在多个网站中抽取实体的属性信息且进行实体对齐之后,要经过属性处理,筛选出有效的属性值进行保存,才能避免最终的结果冗余。现有的属性处理方法大多没有构建完善的属性处理架构,仅采用将所得到的属性值全部保留的方式。这种策略对于某些属性(例如“代表作”属性)是有效的,但是对于其他属性(例如“出生地”属性等),当采用全保留方式进行处理时,一方面会带来大量的重复属性值,增加存储开销;另一方面也带来了存储错误属性值的隐患,导致所生成的知识图谱的准确度降低。
因此,需要一种在实现实体属性处理的前提下,能够构建完善的属性处理架构,对于不同的属性采用不同的属性值处理策略,有效地筛选属性值,减小属性值存储开销,并提高所生成的知识图谱的精确度的方法。
发明内容
针对以上问题,本公开提供了一种实体属性处理方法、实体属性处理装置、实体属性处理设备及介质。利用本公开提供的实体属性处理方法能够在实现良好的属性值处理的前提下,对于不同的属性采用不同的属性值处理策略,有效地筛选属性值,减小属性值存储开销,并提高所生成的知识图谱的精确度。
根据本公开的一方面,提出了一种实体属性处理方法,包括:获取目标实体的实体信息簇,所述目标实体具有多个属性,所述实体信息簇对应于多个实体信息源,每个属性与至少一个实体信息源相对应,对于每个属性,在实体信息簇中包括提供该属性的至少一个实体信息源的标识、以及该实体信息源所提供的属性值;对该目标实体的所述多个属性中的每个属性,确定该属性的属性类型,并根据该属性类型确定其所对应的属性值处理策略,其中所述属性类型包括单值属性、多值属性、保留属性、依赖型属性之一;以及根据所确定的属性值处理策略,基于与该属性对应的实体信息源所提供的属性值,生成该属性的融合属性值。
在一些实施例中,所述属性值处理策略包括:在该属性的属性类型为多值属性的情况下,基于该属性的实体信息源排序结果,将排序最先的实体信息源确定为目标实体信息源,并将该目标实体信息源所提供的属性值作为融合属性值;或在该属性的属性类型为单值属性的情况下,基于该属性的属性值排序结果,将排序最先的属性值确定融合属性值。
在一些实施例中,所述属性值处理策略包括:在该属性的属性类型指示该属性为依赖型属性的情况下:获取该属性的依赖属性;获取该依赖属性的融合属性值所对应的实体信息源;将该实体信息源中对应于该属性的属性值确定为该属性的融合属性值。
在一些实施例中,在该属性的属性类型为多值属性的情况下,且在该属性与至少两个实体信息源相对应的情况下,该方法还包括:对该属性的实体信息源进行排序以得到实体信息源排序结果,其中所述排序包括:对所述至少两个实体信息源中的每个实体信息源,获取该实体信息源的预设优先级;根据所述预设优先级,对所述至少两个实体信息源进行排序。
在一些实施例中,在该属性的属性类型为多值属性的情况下,且在该属性与至少两个实体信息源相对应的情况下,该方法还包括:对该属性的实体信息源进行排序以得到实体信息源排序结果,其中所述排序包括:对所述至少两个实体信息源中的每个实体信息源,计算该实体信息源对该属性的属性值贡献数目;按照属性值贡献数目由大至小的顺序对所述至少两个实体信息源进行排序。
在一些实施例中,对所述至少两个实体信息源进行排序之后,该方法还包括:将排序最先的实体信息源所提供的属性值与其他实体信息源所提供的属性值相比较;若其他实体信息源所提供的属性值与排序最先的实体信息源所提供的属性值不同,则将该属性值加入至排序最先的实体信息源中。
在一些实施例中,在该属性的属性类型为单值属性的情况下,且该属性与至少两个实体信息源相对应,所述至少两个实体信息源对于该属性提供了至少两个不同的属性值,该方法还包括:对该属性的属性值进行排序以获得该属性的属性值排序结果,所述排序包括:对于所述至少两个不同的属性值中的每一个属性值,确定该属性值是否关联至其他实体;若该属性值关联至其他实体,则将该属性值排序至其他属性值之前。
在一些实施例中,在该属性的属性类型为单值属性的情况下,且该属性与至少两个实体信息源相对应,所述至少两个实体信息源对于该属性提供了至少两个不同的属性值,该方法还包括对该属性的属性值进行排序以获得该属性的属性值排序结果,所述排序包括:计算该属性的每个属性值的出现次数;将该属性的属性值按照出现次数由大至小排列。
在一些实施例中,对该目标实体的所述多个属性中的每个属性确定其所对应的属性值处理策略还包括:根据属性类型和属性值特征确定该属性的属性值处理策略,所述属性值特征为数字属性值或文本属性值,且在该属性的属性类型为单值属性的情况下:若该属性的属性值特征为数字属性值,则将该属性的属性值按照数值由大至小排列;或若该属性的属性值特征为文本属性值,则获取该属性每个属性值的文本字符串长度,将该属性的属性值按照文本字符串长度由大至小排列。
在一些实施例中,所述属性值处理策略包括:在该属性的属性类型指示该属性为保留属性的情况下,合并该至少一个实体信息源对该属性所提供的属性值,得到该属性的融合属性值。
在一些实施例中,对该目标实体的所述多个属性中的每个属性,确定该属性的属性类型包括:获取目标实体的实体类别;根据该目标实体的实体类别确定该属性的属性类型。
根据本公开的另一方面,提出了一种实体属性处理装置,其包括:实体信息簇获取模块,其被配置为获取目标实体的实体信息簇,所述目标实体具有多个属性,所述实体信息簇对应于多个实体信息源,每个属性与至少一个实体信息源相对应,对于每个属性,在实体信息簇中包括提供该属性的至少一个实体信息源的标识、以及该实体信息源所提供的属性值;属性信息获取模块,其被配置为对该目标实体的所述多个属性中的每个属性,确定该属性的属性类型,并根据该属性类型确定其所对应的属性值处理策略,其中所述属性类型包括单值属性、多值属性、保留属性、依赖型属性之一;以及融合属性值生成模块,其被配置为对该目标实体的所述多个属性中的每个属性,根据所确定的属性值处理策略,基于与该属性对应的实体信息源所提供的属性值,生成该属性的融合属性值。
在一些实施例中,所述属性值处理策略包括:在该属性的属性类型为多值属性的情况下,基于该属性的实体信息源排序结果,将排序最先的实体信息源确定为目标实体信息源,并将该目标实体信息源所提供的属性值作为融合属性值;或在该属性的属性类型为单值属性的情况下,基于该属性的属性值排序结果,将排序最先的属性值确定融合属性值。
根据本公开的另一方面,提出了一种实体属性处理设备,所述设备包括处理器和存储器,所述存储器包含一组指令,所述一组指令在由所述处理器执行时使所述实体属性处理设备执行如前所述的方法。
根据本公开的另一方面,提出了一种计算机可读存储介质,其特征在于,其上存储有计算机可读的指令,当利用计算机执行所述指令时执行如前所述的方法。
利用本公开提供的实体属性处理方法、装置、设备及介质,在实现属性处理的前提下,能够构建完善的属性处理架构,对于不同的属性采用不同的属性值处理策略,有效地筛选属性值,减小属性值存储开销,并提高所生成的知识图谱的精确度。
附图说明
为了更清楚地说明本公开实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员而言,在没有做出创造性劳动的前提下,还可以根据这些附图获得其他的附图。以下附图并未刻意按实际尺寸等比例缩放绘制,重点在于示出本公开的主旨。
图1A示出了一种知识图谱构建方法100的示例性流程图;
图1B示出了按照图1A的方法生成的知识图谱的示意图;
图2A示出了根据本公开实施例的实体属性处理方法200的示例性流程图;
图2B示出了根据本公开实施例知识抽取及实体对齐后的实体信息集合300A的示意图;
图2C示出了根据本公开实施例的预处理过程处理后得到的实体信息簇300B的示意图;
图3示出了根据本公开实施例的属性值处理策略400的示例性流程图;
图4示出了根据本公开实施例的一种对多值属性的实体信息源进行排序的过程S402A的示例性流程图;
图5A示出了根据本公开实施例的另一种对多值属性的实体信息源进行排序的过程S402B;
图5B示出了根据本公开实施例的对多值属性的实体信息源进行排序的过程S402B的变体S402B’的示例性框图;
图6A示出了根据本公开实施例对单值属性的属性值进行排序的过程S403A的示例性流程图;
图6B示出了根据本公开实施例对单值属性的属性值进行排序的另一过程S403B的示例性流程图;
图6C示出了根据本公开实施例根据单值属性的属性值特征对该属性的属性值进行排序的过程S403C的示例性流程图;
图7示出了根据本公开实施例的实体属性处理装置800的示例性框图;
图8示出了根据本公开实施例的实体属性处理设备950的示例性框图。
具体实施方式
下面将结合附图对本公开实施例中的技术方案进行清楚、完整地描述,显而易见地,所描述的实施例仅仅是本公开的部分实施例,而不是全部的实施例。基于本公开实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,也属于本公开保护的范围。
如本申请和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其他的步骤或元素。
虽然本申请对根据本申请的实施例的系统中的某些模块做出了各种引用,然而,任何数量的不同模块可以被使用并运行在用户终端和/或服务器上。所述模块仅是说明性的,并且所述系统和方法的不同方面可以使用不同模块。
本申请中使用了流程图用来说明根据本申请的实施例的系统所执行的操作。应当理解的是,前面或下面操作不一定按照顺序来精确地执行。相反,根据需要,可以按照倒序或同时处理各种步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。本申请涉及人工智能技术在自然语言处理(Nature Language processing,NLP)及大数据处理方面的具体应用,具体地,涉及对人工智能技术在知识图谱构建过程中的应用。
本申请所述的知识图谱旨在表征语义网络的知识库,其可以形式化为一张由多个节点和边组成的图。且在知识图谱中,通常用“实体(Entity)”来表述图中的节点,用“关系(Relation)”来表示图中的边。
实体是现实世界中的人、事、物,比如人,地名,机构名,产品名等,关系则表示不同实体之间的某些联系。
在现实世界中,实体有自己对应的属性,比如人的年龄,性别,出生日期等,“关系”也是一种特殊的“属性”,区别是一个实体的关系连接的也是一个实体,而属性则采用相应的属性值来描述。
例如,若实体为“刘德华”,且该实体例如具有两个属性,一个是“妻子”属性,一个是“性别”属性,且此时“妻子”属性为一个关系,对应的属性值为另一个实体“朱丽倩”,而“性别”属性为普通属性,对应的属性值是“男”。
图1A示出了一种知识图谱构建方法100的示例性流程图。图1B示出了按照图1A的方法生成的知识图谱的示意图。接下来将参照图1A及图1B,对知识图谱的构建过程进行简要说明。
参照图1A,知识图谱的构建过程100例如可以包括:知识抽取、实体对齐、属性处理及知识存储的过程。
具体地,例如对于一个目标实体,首先,通过知识抽取过程,从多个原始网页或站点中抽取出与该实体相关的信息组,该信息组例如为<实体,属性,属性值,来源>的四元组,其中实体旨在表征该目标实体,属性旨在表征该目标实体所具有的属性,属性值旨在表征由该网页或站点提供的该目标实体在该属性下所具有的属性值,来源旨在表征该网页或站点,其通常通过网页的统一资源定位符(URL,表征Internet上标准的资源地址码)来表示。
其后,在实体对齐过程中,将新抽取的目标实体及其信息组与知识图谱原有的实体进行对比及合并,从而形成该目标实体的实体信息集合,并能够进一步处理该实体信息集合以生成实体信息簇。且对于同一个实体,只有一个对应的实体信息簇。
属性处理的过程是对同一个实体信息簇中的所有属性进行属性值的挑选的过程,即在该实体信息簇中,对于该实体的每一个属性,在来自多个来源的属性值中选择有效的属性值,据此得到该属性的融合属性值。
得到该目标实体的各个属性所具有的融合属性值后,在知识存储过程中,将当前属性处理后得到的融合实体信息簇写入到图数据库等存储装置中,方便之后在不同场景下,根据用户的实际需要,生成相应的知识图谱。
图1B示出了以“百度”为目标实体所生成的知识图谱。其中该图谱中包括目标实体“百度”,及该目标实体“百度”所具有的相应属性:股票、相关人员、所属行业、子公司名称、产品。其中,“相关人员”属性的属性值中“陆奇”属性值能够链接至另一个目标实体“陆奇”(图1B中对其加粗标注)。且其中,“相关人员”属性及“产品”属性为多值属性,其包括多个属性值,“股票”、“子公司名称”、“所属行业”为单值属性,其仅包括一个属性值。且其中绘制了各属性与该目标实体之间的关系。经由该知识图谱能够直观清晰地了解与目标实体“百度”相关的属性及其属性值。
基于上述,在知识图谱的构建中,在实体对齐之后,要经过属性处理,筛选出有效的属性值进行保存,才能避免最终的结果冗余。现有的属性处理方法大多没有构建完善的属性处理架构,仅采用将所得到的属性值全部保留的方式。这种策略对于某些属性(例如“代表作”属性)是有效的,但是对于其他属性(例如“出生地”属性等),当采用全保留方式进行处理时,一方面会带来大量的重复属性值,增加存储开销;另一方面也带来了存储错误属性值的隐患,导致所生成的知识图谱的准确度降低。
基于此,本申请提出了一种实体属性处理方法200,其在实现属性值处理的前提下,能够构建完善的属性处理架构,对于不同的属性采用不同的属性值处理策略,有效地筛选属性值,减小属性值存储开销,并提高所生成的知识图谱的精确度。
图2A示出了根据本公开实施例的实体属性处理方法200的示例性流程图。接下来将参照图2A进一步说明该实体属性处理方法。
首先,在步骤S201中,获取目标实体的实体信息簇。所述目标实体旨在表征当前待处理的实体,且所述目标实体具有多个属性。
所述实体信息簇包括多个属性簇,每一个属性簇对应于该实体的一个属性,每一个属性簇中包括各实体信息源中对应于该属性的属性值。具体而言,该实体信息簇对应于多个实体信息源(网页或站点),每个属性与至少一个实体信息源相对应。且对于每个属性,在实体信息簇中包括提供该属性的至少一个实体信息源的标识、以及该实体信息源所提供的属性值。
所述实体信息源旨在表征该实体属性值的来源,其例如通过该来源的URL编码表示,或者也可以通过其他的方式表示。本公开的实施例不受该实体信息源的表示方式的限制。
所述实体信息源的标识旨在表征用于标识该实体信息源的编码,其例如为字符串与数字相结合的形式,例如通过Fusion_1、Fusion_2来分别标识百度百科、豆瓣这两个实体信息源。本公开的实施例不受该实体信息源的标识的具体内容及形式的限制。
所述实体属性例如可以为预先设置的属性,或者也可以根据用户的实际需求由用户在属性表单中选取多个属性。本公开的实施例不受目标实体的属性的个数及其具体内容的限制。
在一些实施例中,例如通过预处理过程基于知识抽取及实体对齐后的实体信息集合生成该目标实体的实体信息簇,图2B示出了根据本公开实施例知识抽取及实体对齐后的实体信息集合300A的示意图。图2C示出了根据本公开实施例的预处理过程处理后得到的实体信息簇300B的示意图。
接下来,将参照图2B和图2C对该预处理过程及经由预处理过程所生成的实体信息簇进行更具体地描述。
首先,参照图2B,所述实体信息集合300A旨在表征包括该目标实体的全部实体信息源及从该实体信息源抽取的属性值的集合。例如对于如图2B所示的目标实体“张国荣”而言,从两个实体信息源(分别为豆瓣的张国荣介绍页、百度百科的张国荣介绍页)获得该目标实体隶属于多个属性的多个属性值,其中实体信息源“豆瓣的张国荣介绍页”、“百度百科的张国荣介绍页”具有其对应的标识Fusion_1、Fusion_2,且该实体信息源例如以其URL编码表示,分别为url_1,url_2,从豆瓣的张国荣介绍页获得的属性值为:“霸王别姬”(对应于“影视代表作”属性)、“春夏秋冬”(对应于“歌曲代表作”属性);从百度百科的张国荣介绍页获得的对应于“影视代表作”属性的属性值“东邪西毒”,“倩女幽魂”,以及对应于“歌曲代表作”属性的属性值“沉默是金”,“我”,“Monica”。据此,能够得到如图2B所示的实体信息集合300A。
基于上述实体信息集合,为了生成实体信息簇300B,例如对该实体信息集合进行如下预处理操作:首先,根据各实体信息源的URL编码,判断同一个实体信息源是否对应不同的实体信息源标识;若对于同一个实体信息源存在多个实体信息源标识,则仅保留其中一个实体信息源标识,删除其他实体信息源标识。其后,对于该实体的每一个属性,将不同的实体信息源对应于该属性的属性值合并,据此得到实体信息簇。
例如,经由该预处理过程,能够根据图2B中的实体信息集合300A生成图2C中示出的实体信息簇300B。参照图2C,根据该实体信息簇300B,能够直观清晰地了解到目标实体为“张国荣”,该实体具有如下2个属性:“影视代表作”、“歌曲代表作”,对应地,该实体信息簇具有两个属性簇301、302,其中属性簇301对应于属性“影视代表作”,属性簇302对应于属性“歌曲代表作”。且该实体具有实体信息源:豆瓣的张国荣介绍页(其URL编码例如为url_1)及百度百科的张国荣介绍页(其URL编码例如为url_2),该实体信息源分别具有标识Fusion_1、Fusion_2。且可知从豆瓣的张国荣介绍页获得目标实体“张国荣”的“影视代表作”属性的属性值为:“霸王别姬”,歌曲代表作为:“春夏秋冬”。从百度百科的张国荣介绍页获得目标实体“张国荣”的影视代表作为:“东邪西毒”、“倩女幽魂”,歌曲代表作为:“沉默是金”,“我”,“Monica”。
基于上述,通过预处理过程,将实体信息集合中同一个实体信息源的不同实体信息源标识删除,解决了在属性值抽取过程中由于同一个网站中链接重定向等操作使得同一实体信息源具有多个标识的问题,使得实体信息源与实体信息源标识一一对应。此外,通过在预处理中将多个实体信息源中对应于同一个属性的属性值合并,能够直观地了解到各个属性所对应的属性值,有利于后续进行属性处理过程中对属性值的排序和选择过程。
其后,在步骤S202中,对该目标实体的所述多个属性中的每个属性,确定该属性的属性类型,并根据该属性类型确定其所对应的属性值处理策略,其中所述属性类型包括单值属性、多值属性、保留属性、依赖型属性之一。
其中,所述属性类型表征该属性所具有的特征,其包括单值属性、多值属性、保留属性、依赖型属性之一,所述单值属性旨在表征该属性仅具有一个属性值,例如“年龄”属性即为单值属性;所述多值属性旨在表征该属性具有多个属性值,例如对于“电视剧作品”属性,其例如可以包括多个属性值;所述依赖型属性旨在表征该属性与其他属性具有强依赖关系;所述保留属性旨在表征该属性不需要进行实体属性处理。本公开的实施例不受该属性类型的具体组成的限制。
根据该属性类型确定其所对应的属性值处理策略的过程,例如能够通过查询相应的对照表实现。例如对每一个属性,根据该属性的属性类型即能够在预设的属性处理对照表中得到该属性所对应的属性值处理策略。
其后,在步骤S203中,对该目标实体的所述多个属性中的每个属性,根据所确定的属性值处理策略,基于与该属性对应的实体信息源所提供的属性值,生成该属性的融合属性值。
所述融合属性值旨在表征对该属性所对应的多个属性值进行筛选处理后得到的属性值。本公开的实施例不受该融合属性值的具体内容的限制。
基于上述,对所获取的实体信息簇中的属性,根据该属性的属性类型确定该属性对应的属性值处理策略,并根据该属性值处理策略对来自多个实体信息源的数据进行处理,最终得到该属性的融合属性值,相较于对所有属性采用相同的属性值处理策略(例如全部合并或去重全保留),本申请中构建了完善的属性值处理框架,使得对于不同的属性,能够根据该属性及目标实体的特征,选取合适的属性值处理策略,从而更有效地实现属性值的选择,减少重复属性值的多次存储,并且使得筛选后的属性值具有更好的精确度。
在一些实施例中,对该目标实体的所述多个属性中的每个属性确定该属性的属性类型的过程包括:首先,获取目标实体的实体类别;其后,根据该目标实体的实体类别确定该属性的属性类型。
所述实体类别旨在表征该实体所具有的类别,该类别例如可以表示为具有包含关系的类别树的形式,例如对于实体“胡歌”而言,其所具有的类别为:“人——明星——影视明星”;或者其也可以为对应于该实体的最小类别,例如对于实体“中国”,其对应的类别为“国家”。本公开的实施例不受该实体类别的具体组成及其表示方式的限制。
例如,对于相同属性“妻子”,当目标实体为“溥仪”时,其对应的实体类别为“人——清朝皇帝”,则其属性类型为“多值属性”;而当目标实体为“张若昀”时,其对应的实体类别为“人——影视明星”,其属性类型为“单值属性”。据此,对于相同的属性,当其对应于不同的实体时,能够根据该实体的实体类别来确定该属性的属性类型,从而确定合适的属性值处理策略。
在一些实施例中,所述属性值处理策略例如能够更具体地描述,下面将参考图3-图6C具体描述单值属性和多值属性的处理。
图3示出了根据本公开实施例的属性值处理策略400的示例性流程图。参照图3,该属性值处理策略400包括:首先,在步骤S401中,确定该属性的属性类型为多值属性还是单值属性。
其后,根据确定结果,在该属性的属性类型为多值属性的情况下,则在步骤S402中,基于该属性的实体信息源排序结果,将排序最先的实体信息源确定为目标实体信息源,并将该目标实体信息源所提供的属性值作为融合属性值。
其中,所述实体信息源排序结果旨在表征对与该属性对应的实体信息源进行排序后得到的结果。该排序过程例如可以通过多种方式实现,例如通过实体信息源的预设优先级对其进行排序,或者也可以通过每个实体信息源所贡献的属性值数量对其进行排序,或者将其随机排序。本公开的实施例不受该实体信息源的具体排序方式的限制。
所述排序最先的实体信息源旨在表征在排序结果中位于第一顺位的实体信息源,其例如可以是位于第一顺位的一个实体信息源,或者也可以是具有相同顺位的多个实体信息源。本公开的实施例不受所确定的目标实体信息源的个数的限制。
在基于预设优先级存在具有相同顺位的多个实体信息源的情况下,可以再根据每个实体信息源所贡献的属性值数量对所述多个实体信息源进行排序。或者,在根据每个实体信息源所贡献的属性值数量进行排序后存在具有相同顺位的多个实体信息源的情况下,可以再基于预设优先级对所述多个实体信息源进行排序。
或者,在该属性的属性类型为单值属性的情况下,则在步骤S403中,基于该属性的属性值排序结果,将排序最先的属性值确定融合属性值。
所述属性值排序结果旨在表征对与该属性对应的属性值进行排序后得到的结果。例如,当该属性与至少两个实体信息源相对应,所述至少两个实体信息源对于该属性提供了至少两个不同的属性值时,该排序过程例如可以通过多种方式实现,如通过属性值的数值由大至小排列;或者通过每个属性值的首字母,按照英文字母表的正序或逆序对其进行排序;也可以通过判断该属性值是否关联至其他实体,将关联至其他实体的属性值排在其他属性值之前;还可以计算每一个属性值的出现次数,将属性值按照出现次数由大到小的顺序排列。应了解,本公开的实施例不受该属性值的具体排序方式的限制。
所述排序最先的属性值旨在表征在排序结果中位于第一顺位的一个属性值。
基于上述,能够根据该属性的属性类型为单值属性或多值属性而确定不同的属性值处理策略。当其为多值属性时,则通过选择实体信息源来确定融合属性值,当其为单值属性时,则直接选择属性值来确定融合属性值,使得能够灵活地应对不同属性类型的属性,并为其选取合适的属性值处理方法。
在一些实施例中,在该属性的属性类型为多值属性的情况下,且在该属性与至少两个实体信息源相对应的情况下,该方法还包括对该属性的实体信息源进行排序以得到实体信息源排序结果的过程。
图4示出了根据本公开实施例的一种对多值属性的实体信息源进行排序的过程S402A的示例性流程图。参照图4,在该排序过程S402A中,首先,在步骤S402A-1中,对所述至少两个实体信息源中的每个实体信息源,获取该实体信息源的预设优先级。其后,在步骤S402A-2中,根据所述预设优先级,对所述至少两个实体信息源进行排序。
所述预设优先级旨在表征该实体信息源所预先设定的优先级。例如为用户根据实际需要设置的优先级顺序或者为根据实体信息源的可靠性及其信息量所确定的优先级顺序。本公开的实施例不受该预设优先级的设定过程及内容的限制。
根据优先级排序的过程例如能够更具体的描述。例如,若对于实体“刘德华”的“代表作”属性,若该属性对应于两个实体信息源,分别为豆瓣和知乎,且其二者的预设优先级豆瓣>知乎,则基于预设优先级由大至小对该实体信息源排序得到的排序结果为:豆瓣,知乎。
基于上述,本申请中的属性处理策略中,当属性为多值属性时,通过基于实体信息源的预设优先级对该属性的实体信息源进行排序,使得将同一属性对应于多个属性信息源时,通过选取优先级最高的属性信息源并选取该属性信息源的属性值,从而提高所选择的属性值的可靠性和准确度。
在一些实施例中,在该属性的属性类型为多值属性且在该属性与至少两个实体信息源相对应的情况下,对该属性的实体信息源进行排序以得到实体信息源排序结果的过程还能够通过其他方式实现。图5A示出了根据本公开实施例的另一种对多值属性的实体信息源进行排序的过程S402B。
参照图5A,在该属性与至少两个实体信息源相对应的情况下,在该排序过程S402B中,首先,在步骤S402B-1中,对所述至少两个实体信息源中的每个实体信息源,计算该实体信息源对该属性的属性值贡献数目。其后,在步骤S402B-2中,按照属性值贡献数目由大至小的顺序对所述至少两个实体信息源进行排序。
所述属性值贡献数目旨在表征该实体信息源在该属性下所提供的属性值的个数。
例如,如图2B所示,对于目标实体“张国荣”的属性“歌曲代表作”,由实体信息源“豆瓣的张国荣介绍页”提供的属性值为1个,即其属性值贡献数目为1,由实体信息源“百度百科的张国荣介绍页”提供的属性值为3个,即其属性值贡献数目为3。基于此,根据前述排序过程S402B,能够得到该实体信息源的排序结果为:百度百科的张国荣介绍页,豆瓣的张国荣介绍页。
基于上述,当存在多个实体信息源与属性相对应时,通过计算每一个实体信息源对该属性的属性值贡献数目,使得能够将对该属性具有最大贡献的实体信息源确定为目标实体信息源,从而获得该实体信息源的属性值。
在一些实施例中,在通过上述排序过程S402B的步骤S402B-1计算该实体信息源对该属性的属性值贡献数目之后,例如还能够通过步骤S402B-3和S402B-4替代步骤S402B-2来实现变体排序过程。
图5B示出了根据本公开实施例的对多值属性的实体信息源进行排序的过程S402B的变体S402B’的示例性框图。
具体而言,参照图5B,在步骤S402B-3中,将每一个实体信息源的属性值贡献数目与贡献阈值相比较,且在步骤S402B-4中,将属性值贡献数目大于该贡献阈值的实体信息源均赋予第一顺位。
所述贡献阈值例如为用户根据实际需要设置的,或者其也可以为根据属性类型及其属性值的预设个数所设置的。例如对于预设属性值为100的多值属性,则该贡献阈值例如能够设置为30,或者其也可以设置为50。本公开的实施例不受该贡献阈值的具体设置方式的限制。
通过步骤S402B-1、S402B-3及S402B-4的选择方法,当得到每一个实体信息源的属性值贡献数目后,通过将其与预设阈值进行比较,使得能够根据每一个实体信息源对该属性的贡献度选取具体的属性值,且其例如能够筛选出多个处于第一顺位的实体信息源(排序在最先的多个实体信息源),从而能够选择更多的属性值,扩充该属性的属性值内容,同时提高该属性的属性值精确度。
在一些实施例中,上述排序过程S402A和排序过程S402B、S402B’例如还能够结合以形成新的排序过程。具体而言,当采用上述排序过程S402A进行排序后,得到具有相同顺位(即均具有第一顺位)的多个实体信息源,则例如能够进一步地通过排序过程S402B或其变体排序过程S402B’对该具有第一顺位的多个实体信息源进行筛选,具体地,计算具有第一顺位的多个实体信息源所具有的属性值贡献数目,并将其中具有最大属性值贡献数目/属性值贡献数目大于贡献阈值的实体信息源确定为顺序最先的实体信息源。
应了解,上述仅给出了对实体信息源进行排序的一些示例性排序过程,该排序过程可以相互结合,其也能够单独使用。本公开的实施例还可以包括其他实体信息源的排序方法。
在一些实施例中,例如通过上述排序过程S402A、S402B对所述至少两个实体信息源进行排序之后,该方法还包括属性值补充过程。
所述属性值补充过程包括:首先,将排序最先的实体信息源所提供的属性值与其他实体信息源所提供的属性值相比较。其后,若其他实体信息源所提供的属性值与排序最先的实体信息源所提供的属性值不同,则将该属性值加入至排序最先的实体信息源中。
具体地,例如对于图2B中的目标实体“张国荣”,若对于其属性“影视代表作”的实体信息源进行排序后的排序结果为:百度百科的张国荣介绍页、豆瓣的张国荣介绍页。则将来自实体信息源“百度百科的张国荣介绍页”的属性值“东邪西毒”、“倩女幽魂”与来自实体信息源“豆瓣的张国荣介绍页”的属性值“霸王别姬”进行比较,由于该属性值不同,则例如将实体信息源“豆瓣的张国荣介绍页”的属性值“霸王别姬”加入至该实体信息源“百度百科的张国荣介绍页”所包括的属性值中,最终得到排序最先的实体信息源包括属性值“东邪西毒”、“倩女幽魂”、“霸王别姬”。
基于上述,对于多值属性,通过将其他属性信息源的不同属性值写入该排序最先的实体信息源中,使得能够实现对于来自不同实体信息源的属性值去重全保留的效果。从而避免遗漏多值属性的属性值,有利于提高属性值选取的精确度。
在一些实施例中,通过上述过程对该属性的实体信息源进行排序后,生成排序结果前,还可以进一步包括对排序最先的实体信息源内部的属性值进行排序的过程。该过程包括:首先,获取该排序最先的实体信息源中每一个属性值的预设抽取顺位;其后,根据该预设抽取顺位,对该实体信息源中的属性值进行排序。
所述预设抽取顺位旨在表征该属性值在从该实体信息源中抽取时所自带的顺序。例如对于属性“待上映影片”,当在实体信息源百度中抽取相关属性值时,多个属性值在百度中具有排布次序,该排布次序即为抽取顺位。
基于上述,通过属性值的抽取顺位对排序最先的实体信息源中的属性值进行排序,使得能够在确定融合属性值的基础上,进一步地确定多个融合属性值的排布顺序,从而能够将与该属性具有强相关或该属性下的重要属性值放置于属性值的前部,更有利于用户查看该属性时快速获取重要属性值。
在一些实施例中,在该属性的属性类型为单值属性且该属性与至少两个实体信息源相对应,所述至少两个实体信息源对于该属性提供了至少两个不同的属性值时,该方法还包括:对该属性的属性值进行排序以获得该属性的属性值排序结果,图6A示出了根据本公开实施例对单值属性的属性值进行排序的过程S403A的示例性流程图。
参照图6A,该排序过程S403A包括:首先,在步骤S403A-1中,对于所述至少两个不同的属性值中的每一个属性值,确定该属性值是否关联至其他实体。
其中,该属性值关联至其他实体旨在表征该属性值能够关联至另一实体,具体而言,通过该属性值能够与另一实体进行链接,从而获取该实体的相关属性及属性值。例如对于实体“刘德华”的“妻子”属性而言,若其属性值“朱丽倩”能够关联至另一目标实体“朱丽倩”,则能够通过点击该属性值“朱丽倩”获得相应的“朱丽倩”实体的实体信息。
其后,在步骤S403A-2中,对于所述至少两个不同的属性值中的每一个属性值,若该属性值关联至其他实体,则将该属性值排序至其他属性值之前。
基于上述,在进行属性值排序时,通过查看该属性值是否关联至其他实体,使得能够将与其他实体关联的属性值排序在先,便于后续将其确定为融合属性值,同时通过选择能够与其他实体相关联的属性值,使得用户在查看知识图谱时能够通过点击该属性值获得该属性值所关联的另一实体的信息,便于多实体之间的联动和信息查找。
在一些实施例中,如上所述,当该属性的属性类型为单值属性且该属性与至少两个实体信息源相对应时,所述至少两个实体信息源对于该属性提供了至少两个不同的属性值,则此时例如还能够通过其他方式对属性值进行排序,图6B示出了根据本公开实施例对单值属性的属性值进行排序的另一过程S403B的示例性流程图。
参照图6B,首先,在步骤S403B-1中,计算该属性的每个属性值的出现次数,其后,在步骤S403B-2中,将该属性的属性值按照出现次数由大至小排列。
例如,若对于实体“胡歌”的“作品数量”属性而言,当前从多个实体信息源中抓取到的属性值为:“27”,“26”,“25”,“27”,“27”,“27”,“26”,“27”,则能够统计得到属性值“27”出现的次数为5,属性值“26”出现的次数为2,属性值“25”出现的次数为1。则例如对其进行排序后结果为:27,26,25。
基于上述,通过根据各属性值出现的次数对属性值进行排序,使得能够令出现次数较多的属性值排序在先,从而在属性选择时能够将多个实体信息源中均出现的属性值确定为融合属性值,从而提高该属性值的准确度和可靠性。
在一些实施例中,对该目标实体的所述多个属性中的每个属性确定其所对应的属性值处理策略还包括:根据属性类型和属性值特征确定该属性的属性值处理策略。
所述属性值特征表征该属性的属性值所具有的特征。该属性值特征例如包括数字属性值、文本属性值。所述数字属性值表征该属性值为数字,所述文本属性值表征该属性值为文字或字符串。根据实际需要,还可以设置其他的属性值特征,本公开的实施例不受该属性值特征的具体组成的限制。
上述过程能够更具体地描述。例如,在该属性的属性类型为单值属性的情况下,能够根据该属性的属性值特征对该属性的属性值进行排序。图6C示出了根据本公开实施例根据单值属性的属性值特征对该属性的属性值进行排序的过程S403C的示例性流程图。
参照图6C,首先,在步骤S403C-1中,判断该属性的属性值特征,若该属性的属性值特征为数字属性值,在步骤S403C-2中,则将该属性的属性值按照数值由大至小排列。若该属性的属性值特征为文本属性值,在步骤S403C-3中,则获取该属性每个属性值的文本字符串长度,将该属性的属性值按照文本字符串长度由大至小排列。
基于上述,通过该属性的属性值特征,选取数值排列或字符串长度排列方法,使得能够对不同属性值特征设置其所适合的最佳属性值处理策略。从而提高实体属性处理的可靠性。
在一些实施例中,所述属性值处理策略包括:在该属性的属性类型指示该属性为保留属性的情况下,合并该至少一个实体信息源对该属性所提供的属性值,得到该属性的融合属性值。
基于上述,根据实际需要,当人工标识或预设某些属性不需要进行实体属性处理过程时,通过保留该属性的所有实体信息源所提供的属性值,使得能够最大限度的保留该属性的全部属性信息,便于后续根据用户的需求进行查看。
在一些实施例中,所述属性值处理策略包括:在该属性的属性类型指示该属性为依赖型属性的情况下:首先,获取该属性的依赖属性。
如前所述,所述依赖型属性旨在表征该属性与其他属性具有强依赖关系。例如对于属性“年龄”而言,其与属性“出生日期”具有强依赖关系,属性“年龄”的属性值由属性“出生日期”所确定。
所述依赖属性旨在表征该属性强依赖的另一个属性,例如基于上述,对于属性“年龄”而言,其依赖属性即为属性“出生日期”。
确定该属性的依赖属性后,进一步获取该依赖属性的融合属性值所对应的实体信息源。并将该实体信息源中对应于该属性的属性值确定为该属性的融合属性值。
例如,若对于实体“胡歌”而言,已知其属性“年龄”为依赖型属性,且其依赖属性为属性“出生日期”,且获取到该依赖属性“出生日期”的融合属性值为“1982年9月20日”,该融合属性值的实体信息源为“百度”,则能够获取该实体信息源“百度”中对应于属性“年龄”的属性值,其例如为“37”,则将该属性值“37”确定为属性“年龄”的融合属性值。
基于上述,当属性之间具有强依赖关系的情况下,通过该属性的依赖属性所选择的实体信息源来获取该属性的属性值,使得所生成的知识图谱中对于强依赖关系的属性具有相互对应的属性值,从而有利于保证该实体不同属性之间属性值的对应关系,提高该实体属性值的精确度。
在一些实施例中,所述实体属性处理方法在得到该融合属性值后,还包括补充处理过程,以进一步地完善属性处理的结果。该补充处理过程例如包括:确定实体类别中包括该目标实体的最小子类别,将该最小子类别作为该目标实体的类别属性的融合属性值。
所述最小子类别旨在表征实体类别中包括该实体的最低类别。例如对于实体“胡歌”而言,其所具有的类别为:“人——明星——影视明星”,则对应于该实体的最小子类别即为“影视明星”,可将其作为该目标实体的类别属性的融合属性值。
基于上述,通过将目标实体的最小子类别设置为其类别属性的属性值,使得当用户搜索该实体的信息时,能够简单便捷地得到与该实体关联最密切的类别信息,便于其进行后续检索或处理,在一些情况下,系统也可以根据用户检索的实体所具有的最小子类别,向其推送隶属于该最小子类别的其他实体信息。
在一些实施例中,该补充处理过程还包括有效性判断的步骤,该步骤主要用于弥补配置的属性处理策略的错误,例如,对于“人物生平简介”这类属性,若在属性处理策略中错误地将其配置为随机选取其中一个属性值的处理策略,从而导致在存在文本字符串长度更长(内容更详细)的属性值的同时,选择了属性值长度低于长度阈值的属性值作为融合属性值,则在有效性判断步骤中,例如能够将之前的选择结果设置为无效,重新规划属性值处理策略,并在剩余属性值中重新进行选择。
基于上述,通过设置在补充处理过程中进行有效性判断,并当判断该属性处理为无效时重新选择其他属性值选择策略并对该属性重新执行属性值处理,使得用户能够根据实体属性处理的结果灵活地调整属性处理策略,从而有利于对各个属性确定最适宜的属性值处理策略,从而提高属性处理的精度。
在一些实施例中,所述补充处理过程还包括额外属性值添加的步骤。例如,当多值属性的预设属性值个数为100个,进行属性处理后选择的融合属性值为30个,考虑到其远小于预设属性值个数,因此我们将获取该融合属性值所对应的实体信息源,并检查该实体信息源是否已更新或包括其他在先前抽取过程中未能抽取的该属性的属性值。若该实体信息源包括对应于该属性的额外的属性值,则将该额外的属性值也确定为该属性的融合属性值。
基于上述,在进行实体属性处理后,通过获取该融合属性值对应的实体信息源,并从该实体信息源获取额外的属性值补充至该属性中,使得能够在可靠的信息源中更深入地挖掘相关属性值,从而在保证属性值的准确度及精度的前提下,进一步地扩充该属性值的个数,为用户带来更好的查询体验。
根据本公开的另一方面,提出了一种实体属性处理装置。图7示出了根据本公开实施例的实体属性处理装置800的示例性框图。
参照图7,该实体属性处理装置800包括:实体信息簇获取模块810,属性信息获取模块820,融合属性值生成模块830。该实体属性处理装置能够执行图2A所示的流程图。
其中,该实体信息簇获取模块810被配置为执行如图2A中步骤S201的操作,获取目标实体的实体信息簇,其中,所述目标实体具有多个属性,所述实体信息簇对应于多个实体信息源,每个属性与至少一个实体信息源相对应,对于每个属性,在实体信息簇中包括提供该属性的至少一个实体信息源的标识、以及该实体信息源所提供的属性值。
所述实体信息源旨在表征该属性值的来源,其例如通过该来源的URL编码表示,或者也可以通过其他的方式表示。本公开的实施例不受该实体信息源的表示方式的限制。
所述实体信息源的标识旨在表征用于标识该实体信息源的编码,其例如为字符串与数字相结合的形式,例如通过Fusion_1、Fusion_2来分别标识百度百科、豆瓣这两个实体信息源。
所述实体属性例如可以为预先设置的属性,或者也可以根据用户的实际需求由用户在属性表单中选取多个属性。本公开的实施例不受目标实体的属性的个数及其具体内容的限制。
属性信息获取模块820被配置为执行如图2A中步骤S202的操作,对该目标实体的所述多个属性中的每个属性,确定该属性的属性类型,并根据该属性类型确定其所对应的属性值处理策略,其中所述属性类型包括单值属性、多值属性、保留属性、依赖型属性之一。
其中,所述属性类型表征该属性所具有的特征,其包括单值属性、多值属性、保留属性、依赖型属性之一,所述单值属性旨在表征该属性仅具有一个属性值,例如“年龄”属性即为单值属性;所述多值属性旨在表征该属性具有多个属性值,例如对于“电视剧作品”属性,其例如可以包括多个属性值;所述依赖型属性所述依赖型属性旨在表征该属性与其他属性具有强依赖关系;所述保留属性旨在表征该属性不需要进行实体属性处理。本公开的实施例不受该属性类型的具体组成的限制。
根据该属性类型确定其所对应的属性值处理策略的过程,例如能够通过查询相应的对照表实现。例如对每一个属性,根据该属性的属性类型即能够在预设的属性处理对照表中得到该属性所对应的属性值处理策略。
融合属性值生成模块830被配置为执行如图2A中步骤S203的操作,对该目标实体的所述多个属性中的每个属性,根据所确定的属性值处理策略,基于与该属性对应的实体信息源所提供的属性值,生成该属性的融合属性值。
所述融合属性值旨在表征对该属性所对应的多个属性值进行筛选处理后得到的属性值。本公开的实施例不受该融合属性值的具体内容的限制。
基于上述,对所获取的实体信息簇中的属性,根据该属性的属性类型确定该属性对应的属性值处理策略,并根据该属性值处理策略对来自多个实体信息源的数据进行处理,最终得到该属性的融合属性值,相较于对所有属性采用相同的属性值处理策略(例如全部合并或去重全保留),本申请中构建了完善的属性值处理框架,使得对于不同的属性,能够根据该属性及目标实体的特征,选取合适的属性值处理策略,从而更有效地实现属性值的选择,减少重复属性值的多次存储,并且使得筛选后的属性值具有更好的精确度。
在一些实施例中,所述属性值处理策略包括:在该属性的属性类型为多值属性的情况下,基于该属性的实体信息源排序结果,将排序最先的实体信息源确定为目标实体信息源,并将该目标实体信息源所提供的属性值作为融合属性值;或在该属性的属性类型为单值属性的情况下,基于该属性的属性值排序结果,将排序最先的属性值确定融合属性值。
其中,所述实体信息源排序结果旨在表征对与该属性对应的实体信息源进行排序后得到的结果。本公开的实施例不受该实体信息源的具体排序方式的限制。
所述排序最先的实体信息源旨在表征在排序结果中位于第一顺位的实体信息源,其例如可以是位于第一顺位的一个实体信息源,或者也可以是具有相同顺位的多个实体信息源。本公开的实施例不受所确定的目标实体信息源的个数的限制。
所述属性值排序结果旨在表征对与该属性对应的属性值进行排序后得到的结果。本公开的实施例不受该属性值的具体排序方式的限制。所述排序最先的属性值旨在表征在排序结果中位于第一顺位的一个属性值。
基于上述,能够根据该属性的属性类型为多值或单值属性而确定不同的属性值处理策略。当其为多值时,则通过选择实体信息源来确定融合属性值,当其为单值属性时,则直接选择属性值来确定融合属性值,使得能够灵活地应对不同属性类型的属性,并为其选取合适的属性值处理方法。
在一些实施例中,所述实体属性处理装置能够执行如前所述的方法,具有如前所述的功能。
图8示出了根据本公开实施例的实体属性处理设备950的示例性框图。
如图8所示的实体属性处理设备950可以实现为一个或多个专用或通用的计算机系统模块或部件,例如个人电脑、笔记本电脑、平板电脑、手机、个人数码助理(personaldigital assistance,PDA)及任何智能便携设备。其中,实体属性处理设备950可以包括至少一个处理器960及存储器970。
其中,所述至少一个处理器用于执行程序指令。所述存储器970在实体属性处理设备950中可以以不同形式的程序储存单元以及数据储存单元存在,例如硬盘、只读存储器(ROM)、随机存取存储器(RAM),其能够用于存储处理器处理和/或执行实体属性处理过程中使用的各种数据文件,以及处理器所执行的可能的程序指令。虽然未在图中示出,但实体属性处理设备950还可以包括一个输入/输出组件,支持实体属性处理设备950与其他组件之间的输入/输出数据流。实体属性处理设备950也可以通过通信端口从网络发送和接收信息及数据。
在一些实施例中,所述存储器970所存储的一组指令在由所述处理器960执行时,使所述实体属性处理设备950执行操作,所述操作包括:获取目标实体的实体信息簇,所述目标实体具有多个属性,所述实体信息簇对应于多个实体信息源,每个属性与至少一个实体信息源相对应,对于每个属性,在实体信息簇中包括提供该属性的至少一个实体信息源的标识、以及该实体信息源所提供的属性值;对该目标实体的所述多个属性中的每个属性,确定该属性的属性类型,并根据该属性类型确定其所对应的属性值处理策略,其中所述属性类型包括单值属性、多值属性、保留属性、依赖型属性之一;以及根据所确定的属性值处理策略,基于与该属性对应的实体信息源所提供的属性值,生成该属性的融合属性值。
所述融合属性值旨在表征对该属性所对应的多个属性值进行筛选处理后得到的属性值。本公开的实施例不受该融合属性值的具体内容的限制。
基于上述,对所获取的实体信息簇中的属性,根据该属性的属性类型确定该属性对应的属性值处理策略,并根据该属性值处理策略对来自多个实体信息源的数据进行处理,最终得到该属性的融合属性值,相较于对所有属性采用相同的属性值处理策略(例如全部合并或去重全保留),本申请中构建了完善的属性值处理框架,使得对于不同的属性,能够根据该属性及目标实体的特征,选取合适的属性值处理策略,从而更有效地实现属性值的选择,减少重复属性值的多次存储,并且使得筛选后的属性值具有更好的精确度。在一些实施例中,实体属性处理设备950可以接收来自外部的输入装置所传输的实体信息簇,并对接收的实体信息簇执行上文描述的实体属性处理方法、实现上文描述的实体属性处理装置的功能。
尽管在图8中,处理器960、存储器970呈现为单独的模块,本领域技术人员可以理解,上述设备模块可以被实现为单独的硬件设备,也可以被集成为一个或多个硬件设备。只要能够实现本公开描述的原理,不同的硬件设备的具体实现方式不应作为限制本公开保护范围的因素。
根据本公开的另一方面,还提供了一种非易失性的计算机可读存储介质,其上存储有计算机可读的指令,当利用计算机执行所述指令时可以执行如前所述的方法。
技术中的程序部分可以被认为是以可执行的代码和/或相关数据的形式而存在的“产品”或“制品”,通过计算机可读的介质所参与或实现的。有形的、永久的储存介质可以包括任何计算机、处理器、或类似设备或相关的模块所用到的内存或存储器。例如,各种半导体存储器、磁带驱动器、磁盘驱动器或者类似任何能够为软件提供存储功能的设备。
所有软件或其中的一部分有时可能会通过网络进行通信,如互联网或其他通信网络。此类通信可以将软件从一个计算机设备或处理器加载到另一个。例如:从目标跟踪设备的一个服务器或主机计算机加载至一个计算机环境的硬件平台,或其他实现系统的计算机环境,或与提供实体属性处理所需要的信息相关的类似功能的系统。因此,另一种能够传递软件元素的介质也可以被用作局部设备之间的物理连接,例如光波、电波、电磁波等,通过电缆、光缆或者空气等实现传播。用来载波的物理介质如电缆、无线连接或光缆等类似设备,也可以被认为是承载软件的介质。在这里的用法除非限制了有形的“储存”介质,其他表示计算机或机器“可读介质”的术语都表示在处理器执行任何指令的过程中参与的介质。
本申请使用了特定词语来描述本申请的实施例。如“第一/第二实施例”、“一实施例”、和/或“一些实施例”意指与本申请至少一个实施例相关的某一特征、结构或特点。因此,应强调并注意的是,本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一替代性实施例”并不一定是指同一实施例。此外,本申请的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。
此外,本领域技术人员可以理解,本申请的各方面可以通过若干具有可专利性的种类或情况进行说明和描述,包括任何新的和有用的工序、机器、产品或物质的组合,或对他们的任何新的和有用的改进。相应地,本申请的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外,本申请的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品,该产品包括计算机可读程序编码。
除非另有定义,这里使用的所有术语(包括技术和科学术语)具有与本发明所属领域的普通技术人员共同理解的相同含义。还应当理解,诸如在通常字典里定义的那些术语应当被解释为具有与它们在相关技术的上下文中的含义相一致的含义,而不应用理想化或极度形式化的意义来解释,除非这里明确地这样定义。
上面是对本发明的说明,而不应被认为是对其的限制。尽管描述了本发明的若干示例性实施例,但本领域技术人员将容易地理解,在不背离本发明的新颖教学和优点的前提下可以对示例性实施例进行许多修改。因此,所有这些修改都意图包含在权利要求书所限定的本发明范围内。应当理解,上面是对本发明的说明,而不应被认为是限于所公开的特定实施例,并且对所公开的实施例以及其他实施例的修改意图包含在所附权利要求书的范围内。本发明由权利要求书及其等效物限定。

Claims (14)

1.一种实体属性处理方法,包括:
获取目标实体的实体信息簇,所述目标实体具有多个属性,所述实体信息簇对应于多个实体信息源,每个属性与至少一个实体信息源相对应,对于每个属性,在实体信息簇中包括提供该属性的至少一个实体信息源的标识、以及该实体信息源所提供的属性值;
对该目标实体的所述多个属性中的每个属性,
确定该属性的属性类型,并根据该属性类型确定其所对应的属性值处理策略,其中所述属性类型包括单值属性、多值属性、保留属性、依赖型属性之一,所述依赖型属性是指该属性与其他属性具有强依赖关系;所述保留属性是指对该属性不进行实体属性处理;以及
根据所确定的属性值处理策略,基于与该属性对应的实体信息源所提供的属性值,生成该属性的融合属性值;
且其中,所述属性值处理策略包括:在该属性的属性类型指示该属性为依赖型属性的情况下:获取该属性的依赖属性;获取该依赖属性的融合属性值所对应的实体信息源;将该实体信息源中对应于该属性的属性值确定为该属性的融合属性值;其中,依赖属性旨在表征该属性强依赖的另一个属性。
2.如权利要求1所述的实体属性处理方法,其中,所述属性值处理策略包括:
在该属性的属性类型为多值属性的情况下,基于该属性的实体信息源排序结果,将排序最先的实体信息源确定为目标实体信息源,并将该目标实体信息源所提供的属性值作为融合属性值;或
在该属性的属性类型为单值属性的情况下,基于该属性的属性值排序结果,将排序最先的属性值确定融合属性值。
3.如权利要求2所述的实体属性处理方法,其中,在该属性的属性类型为多值属性的情况下,且在该属性与至少两个实体信息源相对应的情况下,该方法还包括:对该属性的实体信息源进行排序以得到实体信息源排序结果,其中所述排序包括:
对所述至少两个实体信息源中的每个实体信息源,获取该实体信息源的预设优先级;
根据所述预设优先级,对所述至少两个实体信息源进行排序。
4.如权利要求2所述的实体属性处理方法,其中,在该属性的属性类型为多值属性的情况下,且在该属性与至少两个实体信息源相对应的情况下,该方法还包括:对该属性的实体信息源进行排序以得到实体信息源排序结果,其中所述排序包括:
对所述至少两个实体信息源中的每个实体信息源,计算该实体信息源对该属性的属性值贡献数目;
按照属性值贡献数目由大至小的顺序对所述至少两个实体信息源进行排序。
5.如权利要求3或4所述的实体属性处理方法,其中,对所述至少两个实体信息源进行排序之后,该方法还包括:
将排序最先的实体信息源所提供的属性值与其他实体信息源所提供的属性值相比较;
若其他实体信息源所提供的属性值与排序最先的实体信息源所提供的属性值不同,则将该属性值加入至排序最先的实体信息源中。
6.如权利要求2所述的实体属性处理方法,其中,在该属性的属性类型为单值属性的情况下,且该属性与至少两个实体信息源相对应,所述至少两个实体信息源对于该属性提供了至少两个不同的属性值,该方法还包括:对该属性的属性值进行排序以获得该属性的属性值排序结果,所述排序包括:
对于所述至少两个不同的属性值中的每一个属性值,
确定该属性值是否关联至其他实体;
若该属性值关联至其他实体,则将该属性值排序至其他属性值之前。
7.如权利要求2所述的实体属性处理方法,其中,在该属性的属性类型为单值属性的情况下,且该属性与至少两个实体信息源相对应,所述至少两个实体信息源对于该属性提供了至少两个不同的属性值,该方法还包括对该属性的属性值进行排序以获得该属性的属性值排序结果,所述排序包括:
计算该属性的每个属性值的出现次数;
将该属性的属性值按照出现次数由大至小排列。
8.如权利要求2所述的实体属性处理方法,其中,对该目标实体的所述多个属性中的每个属性确定其所对应的属性值处理策略还包括:根据属性类型和属性值特征确定该属性的属性值处理策略,所述属性值特征为数字属性值或文本属性值,且在该属性的属性类型为单值属性的情况下:
若该属性的属性值特征为数字属性值,则将该属性的属性值按照数值由大至小排列;或
若该属性的属性值特征为文本属性值,则获取该属性每个属性值的文本字符串长度,将该属性的属性值按照文本字符串长度由大至小排列。
9.如权利要求1所述的实体属性处理方法,其中,所述属性值处理策略还包括:
在该属性的属性类型指示该属性为保留属性的情况下,合并该至少一个实体信息源对该属性所提供的属性值,得到该属性的融合属性值。
10.如权利要求1所述的实体属性处理方法,其中,对该目标实体的所述多个属性中的每个属性,确定该属性的属性类型包括:
获取目标实体的实体类别;
根据该目标实体的实体类别确定该属性的属性类型。
11.一种实体属性处理装置,其包括:
实体信息簇获取模块,其被配置为获取目标实体的实体信息簇,所述目标实体具有多个属性,所述实体信息簇对应于多个实体信息源,每个属性与至少一个实体信息源相对应,对于每个属性,在实体信息簇中包括提供该属性的至少一个实体信息源的标识、以及该实体信息源所提供的属性值;
属性信息获取模块,其被配置为对该目标实体的所述多个属性中的每个属性,确定该属性的属性类型,并根据该属性类型确定其所对应的属性值处理策略,其中所述属性类型包括单值属性、多值属性、保留属性、依赖型属性之一,所述依赖型属性是指该属性与其他属性具有强依赖关系;所述保留属性是指对该属性不进行实体属性处理;以及
融合属性值生成模块,其被配置为对该目标实体的所述多个属性中的每个属性,根据所确定的属性值处理策略,基于与该属性对应的实体信息源所提供的属性值,生成该属性的融合属性值;
且其中,所述属性值处理策略包括:在该属性的属性类型指示该属性为依赖型属性的情况下:获取该属性的依赖属性;获取该依赖属性的融合属性值所对应的实体信息源;将该实体信息源中对应于该属性的属性值确定为该属性的融合属性值;其中,依赖属性旨在表征该属性强依赖的另一个属性。
12.如权利要求11所述的实体属性处理装置,其中,所述属性值处理策略包括:
在该属性的属性类型为多值属性的情况下,基于该属性的实体信息源排序结果,将排序最先的实体信息源确定为目标实体信息源,并将该目标实体信息源所提供的属性值作为融合属性值;或
在该属性的属性类型为单值属性的情况下,基于该属性的属性值排序结果,将排序最先的属性值确定融合属性值。
13.一种实体属性处理设备,所述设备包括处理器和存储器,所述存储器包含一组指令,所述一组指令在由所述处理器执行时使所述实体属性处理设备执行上述权利要求1-10中任意一项所述的方法。
14.一种计算机可读存储介质,其特征在于,其上存储有计算机可读的指令,当利用计算机执行所述指令时执行上述权利要求1-10中任意一项所述的方法。
CN202010289148.7A 2020-04-14 2020-04-14 实体属性处理方法、装置、设备及介质 Active CN111488464B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010289148.7A CN111488464B (zh) 2020-04-14 2020-04-14 实体属性处理方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010289148.7A CN111488464B (zh) 2020-04-14 2020-04-14 实体属性处理方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN111488464A CN111488464A (zh) 2020-08-04
CN111488464B true CN111488464B (zh) 2023-01-17

Family

ID=71797949

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010289148.7A Active CN111488464B (zh) 2020-04-14 2020-04-14 实体属性处理方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN111488464B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112231524A (zh) * 2020-10-22 2021-01-15 北京天融信网络安全技术有限公司 一种数据融合方法、装置、存储介质及电子设备
CN114491318B (zh) * 2021-12-16 2023-09-01 北京百度网讯科技有限公司 目标信息的确定方法、装置、设备以及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102646137A (zh) * 2012-04-19 2012-08-22 中国人民解放军总参谋部第六十三研究所 一种基于Markov模型的实体基本信息自动生成系统及方法
CN106777274A (zh) * 2016-06-16 2017-05-31 北京理工大学 一种中文旅游领域知识图谱构建方法及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1708099A1 (en) * 2005-03-29 2006-10-04 BRITISH TELECOMMUNICATIONS public limited company Schema matching
CN110399496A (zh) * 2019-07-02 2019-11-01 厦门耐特源码信息科技有限公司 一种基于cr决策树的知识图谱构建方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102646137A (zh) * 2012-04-19 2012-08-22 中国人民解放军总参谋部第六十三研究所 一种基于Markov模型的实体基本信息自动生成系统及方法
CN106777274A (zh) * 2016-06-16 2017-05-31 北京理工大学 一种中文旅游领域知识图谱构建方法及系统

Also Published As

Publication number Publication date
CN111488464A (zh) 2020-08-04

Similar Documents

Publication Publication Date Title
CN110837550B (zh) 基于知识图谱的问答方法、装置、电子设备及存储介质
CN108304444B (zh) 信息查询方法及装置
CN107145485B (zh) 用于压缩主题模型的方法和装置
US11475055B2 (en) Artificial intelligence based method and apparatus for determining regional information
CN111008321A (zh) 基于逻辑回归推荐方法、装置、计算设备、可读存储介质
CN111488464B (zh) 实体属性处理方法、装置、设备及介质
CN111552797B (zh) 名称预测模型的训练方法、装置、电子设备及存储介质
CN110162637B (zh) 信息图谱构建方法、装置及设备
CN113204621A (zh) 文档入库、文档检索方法,装置,设备以及存储介质
CN114357197B (zh) 事件推理方法和装置
CN112506864A (zh) 文件检索的方法、装置、电子设备及可读存储介质
CN111428093A (zh) 基于实体对齐的可视化图谱融合方法及系统
CN110619253B (zh) 身份识别的方法和装置
CN113157904A (zh) 基于dfa算法的敏感词过滤方法及系统
CN110442614B (zh) 元数据的搜索方法及装置、电子设备、存储介质
CN116597443A (zh) 素材标签处理方法、装置、电子设备及介质
JP7403571B2 (ja) 音声検索方法、装置、電子機器、コンピュータ読み取り可能な媒体及びコンピュータプログラム
CN117009430A (zh) 数据管理方法、装置和存储介质及电子设备
CN110852078A (zh) 生成标题的方法和装置
CN110321435B (zh) 一种数据源划分方法、装置、设备和存储介质
CN114860872A (zh) 数据处理方法、装置、设备以及存储介质
CN110633430B (zh) 事件发现方法、装置、设备和计算机可读存储介质
CN111291230A (zh) 特征处理方法、装置、电子设备及计算机可读存储介质
CN112784600A (zh) 信息排序方法、装置、电子设备和存储介质
CN110765236A (zh) 一种非结构化海量数据的预处理方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant