CN111221982A - 信息处理方法、装置、计算机可读存储介质和计算机设备 - Google Patents
信息处理方法、装置、计算机可读存储介质和计算机设备 Download PDFInfo
- Publication number
- CN111221982A CN111221982A CN202010031559.6A CN202010031559A CN111221982A CN 111221982 A CN111221982 A CN 111221982A CN 202010031559 A CN202010031559 A CN 202010031559A CN 111221982 A CN111221982 A CN 111221982A
- Authority
- CN
- China
- Prior art keywords
- fused
- entity
- entities
- attribute
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种信息处理方法、装置、计算机可读存储介质和计算机设备,所述方法包括:获取至少两个的待融合实体对应的实体描述信息;所述实体描述信息用于描述对应的所述待融合实体的实体信息;根据所述至少两个的待融合实体对应的实体描述信息,确定所述至少两个的待融合实体之间的公共领域;所述公共领域为各个所述待融合实体共同归属的领域;根据所述公共领域,确定各个所述待融合实体的关键比对属性;根据各个所述待融合实体的关键比对属性之间的属性相似度,对所述至少两个的待融合实体进行融合。本申请提供的方案可以提高实体融合效率。
Description
技术领域
本申请涉及知识图谱技术领域,特别是涉及一种基于知识图谱的信息处理方法、装置、计算机可读存储介质和计算机设备。
背景技术
知识图谱,在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。
在知识图谱的构建过程中,现有技术在进行实体融合时,往往需要在网页、文本等实体资源中把所有记录有对应实体的属性信息的三元组全部抽取出来,并按一定的规则来进行一一比较,以进行实体融合,整个处理过程较为繁琐,计算量较大。
因此,现有技术在进行实体融合时存在效率不高的问题。
发明内容
基于此,有必要针对现有技术在进行实体融合时存在效率不高的技术问题,提供一种信息处理方法、装置、计算机可读存储介质和计算机设备。
一种信息处理方法,所述方法包括:
获取至少两个的待融合实体对应的实体描述信息;所述实体描述信息用于描述对应的所述待融合实体的实体信息;
根据所述至少两个的待融合实体对应的实体描述信息,确定所述至少两个的待融合实体之间的公共领域;所述公共领域为各个所述待融合实体共同归属的领域;
根据所述公共领域,确定各个所述待融合实体的关键比对属性;
根据各个所述待融合实体的关键比对属性之间的属性相似度,对所述至少两个的待融合实体进行融合。
一种信息处理装置,所述装置包括:
获取模块,用于获取至少两个的待融合实体对应的实体描述信息;所述实体描述信息用于描述对应的所述待融合实体的实体信息;
确定模块,用于根据所述至少两个的待融合实体对应的实体描述信息,确定所述至少两个的待融合实体之间的公共领域;所述公共领域为各个所述待融合实体共同归属的领域的信息;
匹配模块,用于根据所述公共领域,确定各个所述待融合实体的关键比对属性;
融合模块,用于根据各个所述待融合实体的关键比对属性之间的属性相似度,对所述至少两个的待融合实体进行融合。
一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:
获取至少两个的待融合实体对应的实体描述信息;所述实体描述信息用于描述对应的所述待融合实体的实体信息;
根据所述至少两个的待融合实体对应的实体描述信息,确定所述至少两个的待融合实体之间的公共领域;所述公共领域为各个所述待融合实体共同归属的领域;
根据所述公共领域,确定各个所述待融合实体的关键比对属性;
根据各个所述待融合实体的关键比对属性之间的属性相似度,对所述至少两个的待融合实体进行融合。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如下步骤:
获取至少两个的待融合实体对应的实体描述信息;所述实体描述信息用于描述对应的所述待融合实体的实体信息;
根据所述至少两个的待融合实体对应的实体描述信息,确定所述至少两个的待融合实体之间的公共领域;所述公共领域为各个所述待融合实体共同归属的领域;
根据所述公共领域,确定各个所述待融合实体的关键比对属性;
根据各个所述待融合实体的关键比对属性之间的属性相似度,对所述至少两个的待融合实体进行融合。
上述信息处理方法、装置、计算机可读存储介质和计算机设备,通过获取至少两个的待融合实体对应的实体描述信息;并根据至少两个的待融合实体对应的实体描述信息,确定至少两个的待融合实体之间的公共领域;然后,通过根据公共领域,确定各个待融合实体的关键比对属性;并根据各个待融合实体的关键比对属性之间的属性相似度,对至少两个的待融合实体进行融合;如此,可以从待融合实体之间的公共领域的角度入手,准确地确定出少量在判断待融合实体是否为同一实体的过程中起到关键作用的实体属性,从而实现细粒度且针对性地对待融合实体进行实体对齐,减少判断待融合实体是否为同一实体过程中的数据计算量,进而提高了在构建知识图谱过程中的实体融合效率。
附图说明
图1为一个实施例中一种信息处理方法的应用环境图;
图2为一个实施例中一种信息处理方法的流程示意图;
图3为一个实施例中一种知识图谱的示意图;
图4为一个实施例中一种融合后实体的示意图;
图5为另一个实施例中一种信息处理方法的流程示意图;
图6为一个实施例中另一种信息处理方法的流程示意图;
图7为另一个实施例中另一种信息处理方法的流程示意图;
图8为一个实施例中的一种领域关系定义的示意图;
图9为一个实施例中一种知识图谱的信息处理方法的流程示意图;
图10为一个实施例中一种信息处理装置的结构框图;
图11为一个实施例中一种知识图谱的实体融合的流程示意图;
图12为一个实施例中另一种知识图谱的实体融合的流程示意图;
图13为一个实施例中计算机设备的结构框图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
图1为一个实施例中一种信息处理方法的应用环境图。其中,服务器110首先获取至少两个的待融合实体对应的实体描述信息;所述实体描述信息用于描述对应的所述待融合实体的实体信息;然后,服务器110根据所述至少两个的待融合实体对应的实体描述信息,确定所述至少两个的待融合实体之间的公共领域;所述公共领域为各个所述待融合实体共同归属的领域;再然后,服务器110 根据所述公共领域,确定各个所述待融合实体的关键比对属性;最后,服务器 110根据各个所述待融合实体的关键比对属性之间的属性相似度,对所述至少两个的待融合实体进行融合,得到融合后实体。
如图2所示,在一个实施例中,提供了一种信息处理方法。本实施例主要以该方法应用于上述图1中的服务器110来举例说明。参照图2,该信息处理方法具体包括如下步骤:
S202,获取至少两个的待融合实体对应的实体描述信息;实体描述信息用于描述对应的待融合实体的实体信息。
其中,实体可以是指存储于知识图谱中的现实世界的事物,比如人、地名、概念、药物、公司等。例如,张三、上海、维生素C等等。
其中,知识图谱可以是指用于可视化描述真实世界中存在的各种知识发展进程与结构关系的图形,为了便于本领域技术人员的理解,图3提供了在一个实施例中一种知识图谱的示意图。
其中,待融合实体可以是指需要进行实体融合的实体。实际应用中,不同的待融合实体具有不同的数据源。例如,某一百科网页(如百度百科)中所描述的张三和某一电影影评网页(如豆瓣网)中所描述的张三。
其中,实体描述信息用于描述对应的待融合实体的实体信息。例如,实体描述信息可以是某一百科网页中对的张三的人物简介和某一电影影评网页中对的张三的人物简介。
具体实现中,服务器110获取至少两个的待融合实体对应的实体描述信息,例如,服务器110获取某一百科网页(如百度百科)中所描述的张三和某一电影影评网页(如豆瓣网)中所描述的张三。
S204,根据至少两个的待融合实体对应的实体描述信息,确定至少两个的待融合实体之间的公共领域;公共领域为各个待融合实体共同归属的领域。
其中,公共领域为各个待融合实体共同归属的领域。例如,公共领域可以但不限于是人物、药物、歌手、演员等。
具体实现中,在服务器110获取至少两个的待融合实体对应的实体描述信息之后,服务器110读取各个待融合实体对应的实体描述信息,分别各个待融合实体所归属的领域;然后,服务器110在各个待融合实体所归属的领域中,确定各个待融合实体共同归属的领域,将各个待融合实体共同归属的领域命名为公共领域。
S206,根据公共领域,确定各个待融合实体的关键比对属性。
其中,关键比对属性可以是指在比对待融合实体是否为同一实体的过程中起到关键作用的实体属性。
具体实现中,当服务器110确定各个待融合实体共同归属的公共领域后,服务器110可以查询与公共领域具有映射关系的实体属性,进而作为各个待融合实体的关键比对属性。
例如,当各个待融合实体共同归属的领域为“游戏角色”时,则各个待融合实体的关键比对属性可以为“所属游戏”和“名称”。
再例如,当各个待融合实体共同归属的领域为“人物”时,则各个待融合实体的关键比对属性可以为“名字”、“出生日期”和“性别”。
S208,根据各个待融合实体的关键比对属性之间的属性相似度,对至少两个的待融合实体进行融合。
其中,属性相似度可以是指关键比对属性的属性值之间的相似度。
具体实现中,当服务器110确定用于判断待融合实体是否为同一实体的关键比对属性之后,服务器110可以通过读取实体描述信息,确定各个待融合实体的关键比对属性的属性值;然后,服务器110计算出各个待融合实体的关键比对属性的属性值之间的相似度,作为各个待融合实体的关键比对属性之间的属性相似度。最后,当服务器110确定该属性相似度符合预设条件时,对至少两个的待融合实体进行融合。
例如,假设至少两个的待融合实体包括第一待融合实体和第二待融合实体且服务器110确定各个待融合实体共同归属的领域为“人物”时,服务器110 可以第一待融合实体的“名字”属性的属性值与第二待融合实体的“名字”属性的属性值之间的相似度,作为第一待融合实体和第二待融合实体之间针对“名字”属性的名字相似度。
同理,服务器110分别计算出第一待融合实体和第二待融合实体之间的出生日期相似度和性别相似度;最后,服务器110再根据名字相似度、出生日期相似度和性别相似度是否符合预设条件,进而判断第一待融合实体和第二待融合实体是否为同一个实体,从而对第一待融合实体和第二待融合实体进行实体融合,得到融合后实体。为了便于本领域技术人员的理解,图4提供了在一个实施例中一种融合后实体的示意图。
上述信息处理方法,通过获取至少两个的待融合实体对应的实体描述信息;并根据至少两个的待融合实体对应的实体描述信息,确定至少两个的待融合实体之间的公共领域;然后,通过根据公共领域,确定各个待融合实体的关键比对属性;并根据各个待融合实体的关键比对属性之间的属性相似度,对至少两个的待融合实体进行融合;如此,可以从待融合实体之间的公共领域的角度入手,准确地确定出少量在判断待融合实体是否为同一实体的过程中起到关键作用的实体属性,从而实现细粒度且针对性地对待融合实体进行实体对齐,减少判断待融合实体是否为同一实体过程中的数据计算量,进而提高了在构建知识图谱过程中的实体融合效率。
在一个实施例中,当关键比对属性具有至少两个时,根据各个待融合实体的关键比对属性之间的属性相似度,对至少两个的待融合实体进行融合,包括:分别获取每个关键比对属性对应的属性权重;根据各个关键比对属性对应的属性权重,对各个关键比对属性的属性相似度进行加权平均,得到各个待融合实体之间的实体相似度;根据实体相似度,对各个待融合实体进行融合。
具体实现中,当关键比对属性具有至少两个时,服务器110在根据各个待融合实体的关键比对属性之间的属性相似度,对至少两个的待融合实体进行融合的过程中,具体包括:服务器110分别获取每个关键比对属性对应的属性权重;然后,服务器110根据各个关键比对属性对应的属性权重,对各个关键比对属性的属性相似度进行加权平均,得到各个待融合实体之间的实体相似度;最后,服务器110根据实体相似度,对各个待融合实体进行融合。具体来说,服务器110可以将实体相似度与预设的阈值进行比对,当实体相似度大于或等于预设的阈值时,服务器110则判定各个待融合实体为同一个实体,
其中,SIM为实体相似度;simi为第i个关键比对属性的属性相似度;weighti为第i个关键比对属性的属性权重;Count(C)为关键比对属性的个数;C为关键比对属性;i为大于或等于1的正整数。
本实施例的技术方案,在根据各个待融合实体的关键比对属性之间的属性相似度,对至少两个的待融合实体进行融合的过程中,当关键比对属性具有至少两个时,通过获取各个关键比对属性对应的属性权重;根据各个关键比对属性对应的属性权重,对各个关键比对属性的属性相似度进行加权平均,使得计算得到的实体相似度,可以准确地表征出各个待融合实体之间的相似度,进而便于准确对待融合实体进行融合,提高了在构建知识图谱过程中的实体融合效率。
如图5所示,在另一个实施例中,提供了一种信息处理方法。参照图5,该信息处理方法具体包括如下步骤:S502,获取至少两个的待融合实体对应的实体描述信息;所述实体描述信息用于描述对应的所述待融合实体的实体信息。 S504,根据所述至少两个的待融合实体对应的实体描述信息,确定所述至少两个的待融合实体之间的公共领域;所述公共领域为各个所述待融合实体共同归属的领域。S506,根据所述公共领域,确定各个所述待融合实体的关键比对属性;所述关键比对属性具有至少两个。S508,分别获取每个所述关键比对属性对应的属性权重。S510,根据各个所述关键比对属性对应的属性权重,对各个所述关键比对属性的属性相似度进行加权平均,得到各个所述待融合实体之间的实体相似度。S512,根据所述实体相似度,对各个所述待融合实体进行融合。上述步骤的具体限定可以参见上文实施例的具体限定,在此不再赘述。
在一个实施例中,根据公共领域,确定各个待融合实体的关键比对属性,包括:获取至少两个的实体比对规则;当所述至少两个的实体比对规则中存在与所述公共领域匹配的目标实体比对规则时,在所述目标实体比对规则中,确定所述关键比对属性。
其中,实体比对规则可以是指用于比对待融合实体是否为同一实体的规则。其中,实体比对规则可以由多个关键比对属性组成。实际应用中,实体比对规则具有对应的优先级。
为了便于本领域技术人员的理解,如表一所示,提供了一个实施例中的一种实体比对规则表。
表一实体比对规则表
具体实现中,服务器110在根据公共领域,确定各个待融合实体的关键比对属性的过程中,服务器110在预设的数据库中获取至少两个的实体比对规则;然后,服务器110根据公共领域,判断至少两个的实体比对规则中是否存在与公共领域匹配的目标实体比对规则;当至少两个的实体比对规则中存在与公共领域匹配的目标实体比对规则时,在目标实体比对规则中,确定关键比对属性。当目标实体比对规则具有多组时,服务器110可以根据目标实体比对规则的优先级,确定对应的目标实体比对规则中的关键比对属性,进而用于后续判断待融合实体之间的实体相似度。
本实施例的技术方案,服务器在根据公共领域,确定各个待融合实体的关键比对属性的过程中,通过在至少两个的实体比对规则中确定与公共领域匹配的目标实体比对规则,并在目标实体比对规则中,准确地确定与公共领域对应的关键比对属性,进而用于判断各个待融合实体是否为同一实体,减少实体融合过程中的计算量,提高了在构建知识图谱过程中的实体融合效率。
在一个实施例中,当至少两个的实体比对规则中不存在与公共领域匹配的目标实体比对规则时,还包括:在至少两个的待融合实体对应的实体描述信息中,抽取至少两个的待融合实体之间的公共属性;基于至少两个的待融合实体对应的实体描述信息,确定各个待融合实体的公共属性之间的属性相似度;根据各个待融合实体的公共属性之间的属性相似度,对至少两个的待融合实体进行融合。
具体实现中,当服务器110确定至少两个的实体比对规则中不存在与公共领域匹配的目标实体比对规则时,服务器110则在在至少两个的待融合实体对应的实体描述信息中,抽取至少两个的待融合实体之间的公共属性;然后,服务器110基于至少两个的待融合实体对应的实体描述信息,确定各个待融合实体的公共属性之间的属性相似度;根据各个待融合实体的公共属性之间的属性相似度,对至少两个的待融合实体进行融合。需要说明的是,服务器110基于至少两个的待融合实体对应的实体描述信息,确定各个待融合实体的公共属性之间的属性相似度;根据各个待融合实体的公共属性之间的属性相似度,对至少两个的待融合实体进行融合过程中与服务器110根据各个所述待融合实体的关键比对属性之间的属性相似度,对所述至少两个的待融合实体进行融合过程中原理一致,具体参见上文的具体限定,在此不再赘述。
本实施例的技术方案,当实体比对规则中不存在与公共领域匹配的目标实体比对规则时,通过在至少两个的待融合实体对应的实体描述信息中,抽取至少两个的待融合实体之间的公共属性;并通过根据各个待融合实体的公共属性之间的属性相似度,从而实现准确地判断待融合实体是否为同一实体,提高了在构建知识图谱过程中的实体融合的准确度。
如图6所示,在一个实施例中,提供了另一种信息处理方法。参照图6,该信息处理方法具体包括如下步骤:S610,获取至少两个的待融合实体对应的实体描述信息;所述实体描述信息用于描述对应的所述待融合实体的实体信息。 S620,根据所述至少两个的待融合实体对应的实体描述信息,确定所述至少两个的待融合实体之间的公共领域;所述公共领域为各个所述待融合实体共同归属的领域。S630,获取至少两个的实体比对规则。S640,判断所述至少两个的实体比对规则中是否存在与所述公共领域匹配的目标实体比对规则。S650,若是,则在所述目标实体比对规则中,确定所述关键比对属性;S652,根据各个所述待融合实体的关键比对属性之间的属性相似度,对所述至少两个的待融合实体进行融合。S660,若否,则在所述至少两个的待融合实体对应的实体描述信息中,抽取所述至少两个的待融合实体之间的公共属性;S662,基于所述至少两个的待融合实体对应的实体描述信息,确定各个所述待融合实体的公共属性之间的属性相似度;S664,根据各个所述待融合实体的公共属性之间的属性相似度,对所述至少两个的待融合实体进行融合。上述步骤的具体限定可以参见上文实施例的具体限定,在此不再赘述。
在一个实施例中,在至少两个的待融合实体对应的实体描述信息中,抽取至少两个的待融合实体之间的公共属性,包括:在至少两个的待融合实体对应的实体描述信息中,分别抽取每个待融合实体对应的属性;在各个待融合实体对应的属性中,确定各个待融合实体之间的相同属性;相同属性为各个待融合实体共同归属的属性;将各个待融合实体之间的相同属性,作为至少两个的待融合实体之间的公共属性。
其中,相同属性为各个待融合实体共同归属的属性。
具体实现中,服务器110在至少两个的待融合实体对应的实体描述信息中,抽取至少两个的待融合实体之间的公共属性的过程中,具体包括:服务器110 分别对各个待融合实体对应的实体描述信息进行读取,具体来说,服务器110 可以按照关键字段匹配的方式,抽取出各个待融合实体对应的属性。然后,服务器110在各个待融合实体对应的属性中,确定各个待融合实体之间的相同属性;服务器110将各个待融合实体之间的相同属性,作为至少两个的待融合实体之间的公共属性。实际应用中,公共属性也可以命名为公共关键属性。另外,公共属性还可以表示为公共属性D=KPSet实体A∩KPSet实体B;
其中,KPSet为待融合实体的关键属性集合。
例如,服务器110根据QQ音乐网页对明星“张三A”的人物简介,确定该人物简介中待融合实体“张三A”的属性有“姓名”、“年龄”、“身高”和“影视作品”。而根据百度百科网页对明星“张三B”的人物简介,确定该人物简介中待融合实体“张三B”的属性有“姓名”“年龄”“籍贯”“出生地”和“配偶”。如此,服务器110将各个待融合实体之间的相同属性,如“姓名”和“年龄”,作为至少两个的待融合实体之间的公共属性。
本实施例的技术方案,在在至少两个的待融合实体对应的实体描述信息中,抽取至少两个的待融合实体之间的公共属性的过程中,通过在至少两个的待融合实体对应的实体描述信息中,分别抽取每个待融合实体对应的属性;在各个待融合实体对应的属性中,确定各个待融合实体之间的相同属性;从而准确地确定各个待融合实体之间的公共属性,进而便于服务器根据各个待融合实体之间的公共属性准确地判断各个待融合实体是否为同一实体,提高了在构建知识图谱过程中的实体融合的准确度。
在一个实施例中,根据公共领域,确定各个待融合实体的关键比对属性的步骤之后,还包括:基于至少两个的待融合实体对应的实体描述信息,确定各个待融合实体的关键比对属性对应的属性值;获取与关键比对属性的属性类型对应的相似度算法;并通过相似度算法,计算各个待融合实体的关键比对属性对应的属性值之间的相似度,作为各个待融合实体的关键比对属性之间的属性相似度。
其中,相似度算法可以但不限于是相等匹配算法、编辑距离算法、词向量余弦算法、Jaccard(一种相似度系数算法)相似度算法等。
为了便于本领域技术人员的理解,如表二所示,表二提供了一个实施例中的一种相似度算法选择表。
表二相似度算法选择表
其中,属性类型可以包括字符串、模糊字符串、文本、列表等类型。
具体实现中,服务器110在根据公共领域,确定各个待融合实体的关键比对属性之后,服务器110还需要基于至少两个的待融合实体对应的实体描述信息,确定各个待融合实体的关键比对属性对应的属性值;然后,服务器110获取与关键比对属性的属性类型对应的相似度算法;同时,服务器110通过对应的相似度算法,计算各个待融合实体的关键比对属性对应的属性值之间的相似度,作为各个待融合实体的关键比对属性之间的属性相似度。具体来说,服务器110通过读取待融合实体对应的实体描述信息,抽取出各个待融合实体的关键比对属性对应的三元组;然后,服务器110按照对应的相似度算法,计算各个关键比对属性对应的三元组之间的相似度,作为各个待融合实体的关键比对属性之间的属性相似度。
其中,三元组可以是指知识图谱实体的某个属性的属性值表示(subject,predicate,object),例如,张三的妻子是李四,这个三元组表示是 (张三,妻子,李四)。
本实施例的技术方案,通过基于至少两个的待融合实体对应的实体描述信息,确定各个待融合实体的关键比对属性对应的属性值;并通过按照对应的相似度算法,计算各个待融合实体的关键比对属性对应的属性值之间的相似度,从而得到各个待融合实体的关键比对属性之间的属性相似度,进而便于后续根据属性相似度准确且快速地判断出各个待融合实体是否为同一实体,减少实体融合过程中的计算量,提高了在构建知识图谱过程中的实体融合效率。
在一个实施例中,根据至少两个的待融合实体对应的实体描述信息,确定至少两个的待融合实体之间的公共领域,包括:根据至少两个的待融合实体对应的实体描述信息,确定各个待融合实体所归属的领域;在各个待融合实体所归属的领域中,确定各个待融合实体之间的相同领域;将相同领域,作为至少两个的待融合实体之间的公共领域。
具体实现中,当服务器110在根据至少两个的待融合实体对应的实体描述信息,确定至少两个的待融合实体之间的公共领域的过程中,具体包括:服务器110分别对各个待融合实体对应的实体描述信息进行读取,具体来说,服务器110可以按照关键字段匹配的方式,确定各个待融合实体所归属的领域。然后,服务器110在各个待融合实体所归属的领域中,确定各个待融合实体之间的相同领域;最后,将相同领域,作为至少两个的待融合实体之间的公共领域。
例如,服务器110根据QQ音乐网页对明星“张三A”的人物简介,确定待融合实体“张三A”所归属的领域是“歌手”、“乐团”等领域。而根据百度百科网页对明星“张三B”的人物简介,确定待融合实体“张三B”所归属的领域是“演员”、“导演”、“歌手”等领域。如此,服务器110确定各个待融合实体“张三”之间的相同领域为“歌手”;因此,服务器110确定待融合实体的公共领域为“歌手”。
本实施例的技术方案,通过根据至少两个的待融合实体对应的实体描述信息,确定各个待融合实体所归属的领域;在各个待融合实体所归属的领域中,确定各个待融合实体之间的相同领域,从而可以准确地确定各个待融合实体之间共同归属的公共领域,便于后续准确地确定用于判断各个待融合实体是否为同一实体的关键比对属性,进而减少实体融合过程中的计算量,提高了在构建知识图谱过程中的实体融合效率。
如图7所示,在另一个实施例中,提供了另一种信息处理方法。参照图7,该信息处理方法具体包括如下步骤:S702,获取至少两个的待融合实体对应的实体描述信息;所述实体描述信息用于描述对应的所述待融合实体的实体信息。 S704,根据所述至少两个的待融合实体对应的实体描述信息,确定各个所述待融合实体所归属的领域。S706,在各个所述待融合实体所归属的领域中,确定各个所述待融合实体之间的相同领域。S708,将所述相同领域,作为所述至少两个的待融合实体之间的公共领域;所述公共领域为各个所述待融合实体共同归属的领域。S710,根据所述公共领域,确定各个所述待融合实体的关键比对属性;所述关键比对属性具有至少两个。S712,分别获取每个所述关键比对属性对应的属性权重。S714,根据各个所述关键比对属性对应的属性权重,对各个所述关键比对属性的属性相似度进行加权平均,得到各个所述待融合实体之间的实体相似度。S716,判断所述实体相似度是否大于预设的实体相似度阈值。 S718,若所述实体相似度大于所述实体相似度阈值,则对各个所述待融合实体进行融合。上述步骤的具体限定可以参见上文实施例的具体限定,在此不再赘述。
在一个实施例中,当在根据实体描述信息确定的各个待融合实体所归属的领域中不存在相同领域时,还包括:根据各个待融合实体所归属的领域,查询各个待融合实体共同归属的上位领域;其中,上位领域为各个待融合实体所归属的领域的上一层级的领域;将上位领域,作为至少两个的待融合实体之间的公共领域。
其中,上位领域为各个待融合实体所归属的领域的上一层级的领域。例如,人物领域为影视明星领域和演唱者领域的上位领域。再例如,影视明星领域为演员领域、导演领域、编剧领域的上位领域。
具体实现中,当服务器110根据实体描述信息确定的各个待融合实体所归属的领域中不存在相同领域时,服务器110根据各个待融合实体所归属的领域,查询各个待融合实体共同归属的上位领域;具体地,服务器110可以在预设的领域关系定义中查询各个待融合实体所归属的领域共同归属的上位领域;然后,服务器110将该将上位领域,作为至少两个的待融合实体之间的公共领域。为了便于本领域技术人员的理解,图8提供了一个实施例中的一种领域关系定义的示意图。
例如,以明星“张三”为例,在QQ音乐网页对明星“张三A”的人物简介,往往着重针对“张三A”这一歌手进行介绍,在腾讯视频网页对明星“张三B”的人物简介,往往着重针对“张三”为这一演员进行介绍。因此,根据QQ音乐网页对明星“张三A”的人物简介,确定待融合实体“张三A”所归属的领域往往是歌手、乐团等领域。而根据腾讯视频网页对明星“张三B”的人物简介,确定待融合实体“张三B”所归属的领域往往是“演员”、“导演”等领域。可以看出,服务器110确定的各个待融合实体所归属的领域中不存在相同领域,此时服务器110可以在预设的领域关系定义中向上回溯查询到各个待融合实体所归属的“演员”、“导演”、“歌手”和“乐团等”领域共同归属的上位领域即“人物领域”;最后,将“人物领域”,作为至少两个的待融合实体之间的公共领域。
本实施例的技术方案,通过根据各个待融合实体所归属的领域,查询各个待融合实体共同归属的上位领域,并将该上位领域作为公共领域,如此及时在待融合实体的数据源为跨领域数据源,仍然可以准确地确定待融合实体之间的公共领域,从而便于准确地确定用于判断各个待融合实体是否为同一实体的关键比对属性,进而提高了在构建知识图谱过程中的实体融合效率。
在一个实施例中,根据实体相似度,对各个待融合实体进行融合,包括:当所述实体相似度大于预设的实体相似度阈值时,对各个所述待融合实体进行融合。
具体实现中,当服务器110在根据实体相似度,对各个待融合实体进行融合的过程中,服务器110获取预设的实体相似度阈值;然后,服务器110判断待融合实体之间的实体相似度是否大于预设的实体相似度阈值,若实体相似度大于该实体相似度阈值,则判定各个待融合实体是知识图谱中的同一个实体,对上述的待融合实体进行实体融合,得到融合后实体。若实体相似度低于或等于该实体相似度阈值,则判定该至少两个的待融合实体并不是知识图谱中的同一个实体,则服务器110不执行对待融合实体进行实体融合。
本实施例的技术方案,通过判断实体相似度是否大于预设的实体相似度阈值,进而判断高效地判断出待融合实体是否需要融合,提高了在构建知识图谱过程中的实体融合效率。
在一个实施例中,根据实体相似度,对各个待融合实体进行融合,包括:在至少两个的待融合实体中,确定第一相似实体对和第二相似实体对;其中,相似实体中的待融合实体之间的实体相似度大于实体相似度阈值;当在第一相似实体对中的任意一个的待融合实体与第二相似实体对中的任意一个的待融合实体之间的实体相似度大于实体相似度阈值时,对在第一相似实体对和第二相似实体对中的待融合实体进行融合。
其中,相似实体对中的待融合实体之间的实体相似度大于实体相似度阈值。例如,当实体A与实体B之间的实体相似度大于实体相似度阈值,则确定实体A 与实体B为相似实体对。
具体实现中,服务器110在根据实体相似度,对各个待融合实体进行融合的过程中,具体包括:服务器110在至少两个的待融合实体中,确定第一相似实体对和第二相似实体对;然后,当服务器110判断出在第一相似实体对中的任意一个的待融合实体与第二相似实体对中的任意一个的待融合实体之间的实体相似度大于实体相似度阈值时,服务器110则对在第一相似实体对和第二相似实体对中的待融合实体进行融合;当在第一相似实体对中的任意一个的待融合实体与第二相似实体对中的任意一个的待融合实体之间的实体相似度小于或等于实体相似度阈值时,服务器110则不执行对对在第一相似实体对和第二相似实体对中的待融合实体进行融合。
例如,已知实体A与实体B为第一相似实体对,实体C与实体D为第二相似实体对,当第一相似实体对中的实体B与第二相似实体对中的实体C之间的实体C,服务器110则确定第一相似实体对中的实体A与实体B以及第二相似实体对中的实体C与实体D均为同一实体,服务器110对实体A、实体B、实体C 和实体D进行融合,得到融合后实体。
本实施例的技术方案,通过两两计算待融合实体的实体相似度,在至少两个的待融合实体中,确定第一相似实体对和第二相似实体对,并通过使用连通性计算在第一相似实体对中的任意一个的待融合实体与第二相似实体对中的任意一个的待融合实体之间的实体相似度大于实体相似度阈值时,则对在第一相似实体对和第二相似实体对中的待融合实体进行融合,避免重复计算待融合实体之间的实体相似度,减少了计算量,提高了在构建知识图谱过程中的实体融合效率。
在一个实施例中,对至少两个的待融合实体进行融合,包括:确定各个待融合实体之间的待融合属性;待融合属性具有至少两个的属性值;获取与待融合属性对应的属性融合规则;按照属性融合规则,对待融合属性中的至少两个的属性值进行融合,得到各个待融合实体之间的融合后属性;融合后属性具有对应的融合后属性值。
其中,属性融合规则可以是指对待融合实体的同一个属性中的多个属性值的选择规则。实际应用中,属性融合规则可以但不限于是投票选择(针对单值属性)、去重后保留(针对列表属性)、按照数据源的权威程度进行选择、取最大值、取最小值等。
其中,待融合属性具有至少两个的属性值。
其中,融合后属性具有对应的融合后属性值。
具体实现中,当服务器110在对至少两个待融合实体进行融合的过程中,服务器110确定各个待融合实体之间的同时具有至少两个的属性值的待融合属性;然后,服务器110获取与待融合属性对应的属性融合规则,并按照属性融合规则,对待融合属性中的至少两个的属性值进行融合,得到各个待融合实体之间的融合后属性。
例如,当待融合实体包括第一待融合实体、第二待融合实体和第三待融合实体时,确定第一待融合实体的“性别”这一属性的属性值为“男性”,确定第二待融合实体的“性别”这一属性的属性值为“男性”,确定第三待融合实体的“性别”这一属性的属性值为“女性”。服务器110确定“性别”这一属性为待融合属性,并确定该待融合属性的属性融合规则为投票选择,对待融合属性中的至少两个的属性值进行融合,得到各个待融合实体之间的融合后属性;即选择出现频率最高的属性值作为最终属性值,因此最终确定待融合实体对应的融合后实体的在“性别”这一融合后属性的最终属性值为“男性”。
再例如,当确定第一待融合实体的“曾用名”这一属性的属性值为“刘小华”,确定第二待融合实体的“曾用名”这一属性的属性值为“刘华”,确定第华待融合实体的“曾用名”这一属性的属性值为“刘华”。服务器110确定“曾用名”这一属性为待融合属性,并确定该待融合属性的属性融合规则为去重后保留,对待融合属性中的至少两个的属性值进行融合,因此最终确定待融合实体对应的融合后实体的在“曾用名”这一融合后属性的最终属性值为“刘华”和“刘小华”。
为了便于本领域技术人员的理解,如表三所示,表三提供了一个实施例中的一种属性融合规则表;
表三一种属性融合规则表
本实施例的技术方案,在对待融合实体进行融合的过程中,当待融合实体之间存在具有至少两个的属性值的待融合属性时,通过针对性地按照待融合属性对应的属性融合规则对待融合属性的属性值进行融合,提高了在对待融合实体进行实体融合时对待融合实体的整合属性信息的速度和准确度,从而提高了在构建知识图谱过程中的实体融合效率。
在一个实施例中,在获取至少两个的待融合实体对应的实体描述信息的步骤之前,还包括:获取目标融合实体的资源标识;确定资源标识的实体名称列表:实体名称列表包括至少两个的实体名称;根据至少两个的实体名称,查询至少两个的待融合实体对应的实体描述信息;其中,待融合实体对应的实体描述信息具有对应的数据源。
其中,目标融合实体可以是指需要进行实体融合的目标实体。
其中,资源标识可以是指用于标识实体资源信息的标识。
其中,实体名称列表包括至少两个的实体名称。实际应用中,实体名称可以但不限于是实体的别名、英文名、同义词、网页重定向名称等。实际应用中,实体名称为经过归一化处理的字段。其中,归一化处理包括大小写转换、去空格杂质等。
具体实现中,在服务器110在获取至少两个的待融合实体对应的实体描述信息之前,服务器110可以在获取目标融合实体的资源标识;然后,服务器110 确定资源标识的实体名称列表:实体名称列表包括至少两个的实体名称;根据至少两个的实体名称,查询至少两个的待融合实体对应的实体描述信息。
需要说明的是,服务器110预先会根据目标融合实体的资源标识(如资源 ID)与目标融合实体的实体名称之间的映射关系,建立一个资源id到实体名称的映射表。然后,当服务器110获取至少两个的待融合实体对应的实体描述信息时,服务器110可以确定资源标识的实体名称列表:实体名称列表包括至少两个的实体名称;根据至少两个的实体名称,在互联网资源中查询至少两个的待融合实体对应的实体描述信息;具体来说,服务器110可以取出与资源ID对应的实体名称列表,然后使用spark(一种大数据处理程序)等大数据处理程序圈定出实体名称与该实体名称列表存在交集的实体描述信息,进而得到至少两个的待融合实体对应的实体描述信息。
本实施例的技术方案,通过获取目标融合实体的资源标识;确定资源标识的实体名称列表,并确定实体名称与该实体名称列表存在交集的实体描述信息,进而可以最大限度地将可能是同一个实体的资源全部收集在一起,提高在构建知识图谱的过程中的实体融合效率。
如图9所示,在一个实施例中,提供了一种知识图谱的信息处理方法。参照图9,该信息处理方法具体包括如下步骤:S902,获取目标融合实体的资源标识。S904,确定所述资源标识的实体名称列表:所述实体名称列表包括至少两个的实体名称。S906,根据所述至少两个的实体名称,查询至少两个的待融合实体对应的实体描述信息;其中,所述待融合实体对应的实体描述信息具有对应的数据源。S908,根据所述至少两个的待融合实体对应的实体描述信息,确定所述至少两个的待融合实体之间的公共领域;所述公共领域为各个所述待融合实体共同归属的领域。S910,根据所述公共领域,确定各个所述待融合实体的关键比对属性。S912,根据各个所述待融合实体的关键比对属性之间的属性相似度,对所述至少两个的待融合实体进行融合。S914,确定各个所述待融合实体之间的待融合属性;所述待融合属性具有至少两个的属性值。S916,获取与所述待融合属性对应的属性融合规则。S918,按照所述属性融合规则,对所述待融合属性中的至少两个的属性值进行融合,得到各个所述待融合实体之间的融合后属性;所述融合后属性具有对应的融合后属性值。上述步骤的具体限定可以参见上文实施例的具体限定,在此不再赘述。
应该理解的是,虽然图2、图5、图6、图7和图9的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2、图5、图6、图7和图9中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
如图10所示,在一个实施例中,提供了一种信息处理装置,该装置包括:
获取模块1010,用于获取至少两个的待融合实体对应的实体描述信息;所述实体描述信息用于描述对应的所述待融合实体的实体信息;
确定模块1020,用于根据所述至少两个的待融合实体对应的实体描述信息,确定所述至少两个的待融合实体之间的公共领域;所述公共领域为各个所述待融合实体共同归属的领域的信息;
匹配模块1030,用于根据所述公共领域,确定各个所述待融合实体的关键比对属性;
融合模块1040,用于根据各个所述待融合实体的关键比对属性之间的属性相似度,对所述至少两个的待融合实体进行融合。
上述的一种信息处理装置,通过获取至少两个的待融合实体对应的实体描述信息;并根据至少两个的待融合实体对应的实体描述信息,确定至少两个的待融合实体之间的公共领域;然后,通过根据公共领域,确定各个待融合实体的关键比对属性;并根据各个待融合实体的关键比对属性之间的属性相似度,对至少两个的待融合实体进行融合;如此,可以从待融合实体之间的公共领域的角度入手,准确地确定出少量在判断待融合实体是否为同一实体的过程中起到关键作用的实体属性,从而实现细粒度且针对性地对待融合实体进行实体对齐,减少判断待融合实体是否为同一实体过程中的数据计算量,进而提高了在构建知识图谱过程中的实体融合效率。
在其中一个实施例中,当所述关键比对属性具有至少两个时,上述的融合模块1040,包括:权重获取子模块,用于分别获取每个所述关键比对属性对应的属性权重;加权平均子模块,用于根据各个所述关键比对属性对应的属性权重,对各个所述关键比对属性的属性相似度进行加权平均,得到各个所述待融合实体之间的实体相似度;融合子模块,用于根据所述实体相似度,对各个所述待融合实体进行融合。
在其中一个实施例中,上述的匹配模块1030,包括:规则获取子模块,用于获取至少两个的实体比对规则;规则确定子模块,用于当所述至少两个的实体比对规则中存在与所述公共领域匹配的目标实体比对规则时,在所述目标实体比对规则中,确定所述关键比对属性。
在其中一个实施例中,当所述至少两个的实体比对规则中不存在与所述公共领域匹配的目标实体比对规则时,上述的匹配模块1030,具体用于在所述至少两个的待融合实体对应的实体描述信息中,抽取所述至少两个的待融合实体之间的公共属性;基于所述至少两个的待融合实体对应的实体描述信息,确定各个所述待融合实体的公共属性之间的属性相似度;根据各个所述待融合实体的公共属性之间的属性相似度,对所述至少两个的待融合实体进行融合。
在其中一个实施例中,上述的匹配模块1030,具体还用于在所述至少两个的待融合实体对应的实体描述信息中,分别抽取每个所述待融合实体对应的属性;在各个所述待融合实体对应的属性中,确定各个所述待融合实体之间的相同属性;所述相同属性为各个所述待融合实体共同归属的属性;将各个所述待融合实体之间的相同属性,作为所述至少两个的待融合实体之间的公共属性。
在其中一个实施例中,上述的信息处理装置,还包括:属性值确定模块,用于基于所述至少两个的待融合实体对应的实体描述信息,确定各个所述待融合实体的关键比对属性对应的属性值;相似度计算模块,用于获取与所述关键比对属性的属性类型对应的相似度算法;并通过所述相似度算法,计算各个所述待融合实体的关键比对属性对应的属性值之间的相似度,作为各个所述待融合实体的关键比对属性之间的属性相似度。
在其中一个实施例中,上述的确定模块1020,具体用于根据所述至少两个的待融合实体对应的实体描述信息,确定各个所述待融合实体所归属的领域;在各个所述待融合实体所归属的领域中,确定各个所述待融合实体之间的相同领域;将所述相同领域,作为所述至少两个的待融合实体之间的公共领域。
在其中一个实施例中,当在根据所述实体描述信息确定的各个所述待融合实体所归属的领域中不存在所述相同领域时,上述的确定模块1020,具体还用于根据各个所述待融合实体所归属的领域,查询各个所述待融合实体共同归属的上位领域;其中,所述上位领域为各个所述待融合实体所归属的领域的上一层级的领域;将所述上位领域,作为所述至少两个的待融合实体之间的公共领域。
在其中一个实施例中,上述的融合子模块,具体用于当所述实体相似度大于预设的实体相似度阈值时,对各个所述待融合实体进行融合。
在其中一个实施例中,上述的融合子模块,具体还用于在所述至少两个的待融合实体中,确定第一相似实体对和第二相似实体对;其中,所述相似实体对中的待融合实体之间的实体相似度大于所述实体相似度阈值;当在所述第一相似实体对中的任意一个的待融合实体与所述第二相似实体对中的任意一个的待融合实体之间的实体相似度大于所述实体相似度阈值时,对在所述第一相似实体对和所述第二相似实体对中的待融合实体进行融合。
在其中一个实施例中,上述的融合模块1040,具体用于确定各个所述待融合实体之间的待融合属性;所述待融合属性具有至少两个的属性值;获取与所述待融合属性对应的属性融合规则;按照所述属性融合规则,对所述待融合属性中的至少两个的属性值进行融合,得到各个所述待融合实体之间的融合后属性;所述融合后属性具有对应的融合后属性值。
在其中一个实施例中,上述的信息处理装置,还包括:资源标识获取模块,获取目标融合实体的资源标识;列表确定模块,用于确定所述资源标识的实体名称列表:所述实体名称列表包括至少两个的实体名称;查询模块,用于根据所述至少两个的实体名称,查询所述至少两个的待融合实体对应的实体描述信息;其中,所述待融合实体对应的实体描述信息具有对应的数据源。
为了便于本领域技术人员的理解,图11提供了一种知识图谱的实体融合的流程示意图:其中,当服务器110完成将可能是同一个实体的资源全部收集在一起即实体召回后,服务器110判断是否匹配领域规则;具体来说,服务器110 确定各个待融合实体共同归属的公共领域,然后,服务器110判断是否有与该公共领域匹配的目标实体比对规则;若存在,则判定匹配领域规则;则采用多套领域融合相似度算法;具体地,服务器110在确定目标实体比对规则中的关键比对属性;然后,在根据各个待融合实体的关键比对属性之间的属性相似度,对至少两个的待融合实体进行融合。当不存在与该公共领域匹配的目标实体比对规则时,服务器110则采用通用相似度判断算法,具体来说,在至少两个的待融合实体对应的实体描述信息中,抽取至少两个的待融合实体之间的公共属性;基于至少两个的待融合实体对应的实体描述信息,确定各个待融合实体的公共属性之间的属性相似度;根据各个待融合实体的公共属性之间的属性相似度,对至少两个的待融合实体进行融合。
为了便于本领域技术人员的理解,图12提供了另一种知识图谱的实体融合的流程示意图:其中,当服务器110完成将可能是同一个实体的资源全部收集在一起即实体召回后,服务器110根据至少两个的待融合实体对应的实体描述信息,判断资源实体是否跨领域的资源实体。若资源实体为跨领域的资源实体,服务器110则挖掘各个资源实体之间的公共领域,并根查询出与该公共领域匹配的目标实体比对规则,并确定目标实体比对规则中的关键比对属性;然后,再根据各个待融合实体的关键比对属性之间的属性相似度,对至少两个的待融合实体进行融合。若资源实体并不是跨领域的资源实体,服务器110则采用通用相似度判断算法,具体来说,在至少两个的待融合实体对应的实体描述信息中,抽取至少两个的待融合实体之间的公共属性;基于至少两个的待融合实体对应的实体描述信息,确定各个待融合实体的公共属性之间的属性相似度;根据各个待融合实体的公共属性之间的属性相似度,对至少两个的待融合实体进行融合。
图13示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的服务器110。如图13所示,该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、输入装置和显示屏。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现信息处理方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行信息处理方法。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图13中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,本申请提供的信息处理装置可以实现为一种计算机程序的形式,计算机程序可在如图13所示的计算机设备上运行。计算机设备的存储器中可存储组成该信息处理装置的各个程序模块,比如,图10所示的获取模块 1010、确定模块1020、匹配模块1030和融合模块1040。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的信息处理装置方法中的步骤。
例如,图13所示的计算机设备可以通过如图10所示的信息处理装置中的获取模块1010执行获取至少两个的待融合实体对应的实体描述信息;所述实体描述信息用于描述对应的所述待融合实体的实体信息。计算机设备可通过确定模块1020执行根据所述至少两个的待融合实体对应的实体描述信息,确定所述至少两个的待融合实体之间的公共领域;所述公共领域为各个所述待融合实体共同归属的领域的信息。计算机设备可通过匹配模块1030执行根据所述公共领域,确定各个所述待融合实体的关键比对属性。计算机设备可通过融合模块1040 执行根据各个所述待融合实体的关键比对属性之间的属性相似度,对所述至少两个的待融合实体进行融合。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述信息处理装置方法的步骤。此处信息处理装置方法的步骤可以是上述各个实施例的信息处理装置方法中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述信息处理装置方法的步骤。此处信息处理装置方法的步骤可以是上述各个实施例的信息处理装置方法中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM (DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(S13nchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (15)
1.一种信息处理方法,其特征在于,包括:
获取至少两个的待融合实体对应的实体描述信息;所述实体描述信息用于描述对应的所述待融合实体的实体信息;
根据所述至少两个的待融合实体对应的实体描述信息,确定所述至少两个的待融合实体之间的公共领域;所述公共领域为各个所述待融合实体共同归属的领域;
根据所述公共领域,确定各个所述待融合实体的关键比对属性;
根据各个所述待融合实体的关键比对属性之间的属性相似度,对所述至少两个的待融合实体进行融合。
2.根据权利要求1所述的方法,其特征在于,当所述关键比对属性具有至少两个时,所述根据各个所述待融合实体的关键比对属性之间的属性相似度,对所述至少两个的待融合实体进行融合,包括:
分别获取每个所述关键比对属性对应的属性权重;
根据各个所述关键比对属性对应的属性权重,对各个所述关键比对属性的属性相似度进行加权平均,得到各个所述待融合实体之间的实体相似度;
根据所述实体相似度,对各个所述待融合实体进行融合。
3.根据权利要求1所述的方法,其特征在于,所述根据所述公共领域,确定各个所述待融合实体的关键比对属性,包括:
获取至少两个的实体比对规则;
当所述至少两个的实体比对规则中存在与所述公共领域匹配的目标实体比对规则时,在所述目标实体比对规则中,确定所述关键比对属性。
4.根据权利要求3所述的方法,其特征在于,当所述至少两个的实体比对规则中不存在与所述公共领域匹配的目标实体比对规则时,还包括:
在所述至少两个的待融合实体对应的实体描述信息中,抽取所述至少两个的待融合实体之间的公共属性;
基于所述至少两个的待融合实体对应的实体描述信息,确定各个所述待融合实体的公共属性之间的属性相似度;
根据各个所述待融合实体的公共属性之间的属性相似度,对所述至少两个的待融合实体进行融合。
5.根据权利要求4所述的方法,其特征在于,所述在所述至少两个的待融合实体对应的实体描述信息中,抽取所述至少两个的待融合实体之间的公共属性,包括:
在所述至少两个的待融合实体对应的实体描述信息中,分别抽取每个所述待融合实体对应的属性;
在各个所述待融合实体对应的属性中,确定各个所述待融合实体之间的相同属性;所述相同属性为各个所述待融合实体共同归属的属性;
将各个所述待融合实体之间的相同属性,作为所述至少两个的待融合实体之间的公共属性。
6.根据权利要求1所述的方法,其特征在于,所述根据所述公共领域,确定各个所述待融合实体的关键比对属性的步骤之后,还包括:
基于所述至少两个的待融合实体对应的实体描述信息,确定各个所述待融合实体的关键比对属性对应的属性值;
获取与所述关键比对属性的属性类型对应的相似度算法;并通过所述相似度算法,计算各个所述待融合实体的关键比对属性对应的属性值之间的相似度,作为各个所述待融合实体的关键比对属性之间的属性相似度。
7.根据权利要求1所述的方法,其特征在于,所述根据所述至少两个的待融合实体对应的实体描述信息,确定所述至少两个的待融合实体之间的公共领域,包括:
根据所述至少两个的待融合实体对应的实体描述信息,确定各个所述待融合实体所归属的领域;
在各个所述待融合实体所归属的领域中,确定各个所述待融合实体之间的相同领域;
将所述相同领域,作为所述至少两个的待融合实体之间的公共领域。
8.根据权利要求7所述的方法,其特征在于,当在根据所述实体描述信息确定的各个所述待融合实体所归属的领域中不存在所述相同领域时,还包括:
根据各个所述待融合实体所归属的领域,查询各个所述待融合实体共同归属的上位领域;其中,所述上位领域为各个所述待融合实体所归属的领域的上一层级的领域;
将所述上位领域,作为所述至少两个的待融合实体之间的公共领域。
9.根据权利要求2所述的方法,其特征在于,所述根据所述实体相似度,对各个所述待融合实体进行融合,包括:
当所述实体相似度大于预设的实体相似度阈值时,对各个所述待融合实体进行融合。
10.根据权利要求9所述的方法,其特征在于,所述根据所述实体相似度,对各个所述待融合实体进行融合,包括:
在所述至少两个的待融合实体中,确定第一相似实体对和第二相似实体对;其中,所述相似实体对中的待融合实体之间的实体相似度大于所述实体相似度阈值;
当在所述第一相似实体对中的任意一个的待融合实体与所述第二相似实体对中的任意一个的待融合实体之间的实体相似度大于所述实体相似度阈值时,对在所述第一相似实体对和所述第二相似实体对中的待融合实体进行融合。
11.根据权利要求1至10中任一项所述的方法,其特征在于,所述对所述至少两个的待融合实体进行融合,包括:
确定各个所述待融合实体之间的待融合属性;所述待融合属性具有至少两个的属性值;
获取与所述待融合属性对应的属性融合规则;
按照所述属性融合规则,对所述待融合属性中的至少两个的属性值进行融合,得到各个所述待融合实体之间的融合后属性;所述融合后属性具有对应的融合后属性值。
12.根据权利要求1所述的方法,其特征在于,在所述获取至少两个的待融合实体对应的实体描述信息的步骤之前,还包括:
获取目标融合实体的资源标识;
确定所述资源标识的实体名称列表:所述实体名称列表包括至少两个的实体名称;
根据所述至少两个的实体名称,查询所述至少两个的待融合实体对应的实体描述信息;其中,所述待融合实体对应的实体描述信息具有对应的数据源。
13.一种信息处理装置,其特征在于,所述装置包括:
获取模块,用于获取至少两个的待融合实体对应的实体描述信息;所述实体描述信息用于描述对应的所述待融合实体的实体信息;
确定模块,用于根据所述至少两个的待融合实体对应的实体描述信息,确定所述至少两个的待融合实体之间的公共领域;所述公共领域为各个所述待融合实体共同归属的领域的信息;
匹配模块,用于根据所述公共领域,确定各个所述待融合实体的关键比对属性;
融合模块,用于根据各个所述待融合实体的关键比对属性之间的属性相似度,对所述至少两个的待融合实体进行融合。
14.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至12中任一项所述方法的步骤。
15.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至12中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010031559.6A CN111221982B (zh) | 2020-01-13 | 2020-01-13 | 信息处理方法、装置、计算机可读存储介质和计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010031559.6A CN111221982B (zh) | 2020-01-13 | 2020-01-13 | 信息处理方法、装置、计算机可读存储介质和计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111221982A true CN111221982A (zh) | 2020-06-02 |
CN111221982B CN111221982B (zh) | 2023-09-01 |
Family
ID=70809466
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010031559.6A Active CN111221982B (zh) | 2020-01-13 | 2020-01-13 | 信息处理方法、装置、计算机可读存储介质和计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111221982B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111814027A (zh) * | 2020-08-26 | 2020-10-23 | 电子科技大学 | 基于搜索引擎的多源人物属性融合方法 |
CN112084781A (zh) * | 2020-09-10 | 2020-12-15 | 腾讯科技(深圳)有限公司 | 一种标准术语确定方法、装置及存储介质 |
CN114896363A (zh) * | 2022-04-19 | 2022-08-12 | 北京月新时代科技股份有限公司 | 一种数据管理方法、装置、设备及介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108154198A (zh) * | 2018-01-25 | 2018-06-12 | 北京百度网讯科技有限公司 | 知识库实体归一方法、系统、终端和计算机可读存储介质 |
CN108304493A (zh) * | 2018-01-10 | 2018-07-20 | 深圳市腾讯计算机系统有限公司 | 一种基于知识图谱的上位词挖掘方法及装置 |
CN110457680A (zh) * | 2019-07-02 | 2019-11-15 | 平安科技(深圳)有限公司 | 实体消歧方法、装置、计算机设备和存储介质 |
CN110543468A (zh) * | 2019-08-27 | 2019-12-06 | 飞越无限(苏州)科技发展有限公司 | 一种用于公共安全领域大数据知识库的自动化构建方法 |
-
2020
- 2020-01-13 CN CN202010031559.6A patent/CN111221982B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108304493A (zh) * | 2018-01-10 | 2018-07-20 | 深圳市腾讯计算机系统有限公司 | 一种基于知识图谱的上位词挖掘方法及装置 |
CN108154198A (zh) * | 2018-01-25 | 2018-06-12 | 北京百度网讯科技有限公司 | 知识库实体归一方法、系统、终端和计算机可读存储介质 |
CN110457680A (zh) * | 2019-07-02 | 2019-11-15 | 平安科技(深圳)有限公司 | 实体消歧方法、装置、计算机设备和存储介质 |
CN110543468A (zh) * | 2019-08-27 | 2019-12-06 | 飞越无限(苏州)科技发展有限公司 | 一种用于公共安全领域大数据知识库的自动化构建方法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111814027A (zh) * | 2020-08-26 | 2020-10-23 | 电子科技大学 | 基于搜索引擎的多源人物属性融合方法 |
CN111814027B (zh) * | 2020-08-26 | 2023-03-21 | 电子科技大学 | 基于搜索引擎的多源人物属性融合方法 |
CN112084781A (zh) * | 2020-09-10 | 2020-12-15 | 腾讯科技(深圳)有限公司 | 一种标准术语确定方法、装置及存储介质 |
CN112084781B (zh) * | 2020-09-10 | 2024-04-12 | 腾讯科技(深圳)有限公司 | 一种标准术语确定方法、装置及存储介质 |
CN114896363A (zh) * | 2022-04-19 | 2022-08-12 | 北京月新时代科技股份有限公司 | 一种数据管理方法、装置、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111221982B (zh) | 2023-09-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11048966B2 (en) | Method and device for comparing similarities of high dimensional features of images | |
CN111061859B (zh) | 基于知识图谱的数据处理方法、装置和计算机设备 | |
US11727053B2 (en) | Entity recognition from an image | |
Sanoja et al. | Block-o-matic: A web page segmentation framework | |
CN111221982B (zh) | 信息处理方法、装置、计算机可读存储介质和计算机设备 | |
CN104991959B (zh) | 一种基于内容检索相同或相似图像的方法与系统 | |
US20110078176A1 (en) | Image search apparatus and method | |
CN110377558B (zh) | 文档查询方法、装置、计算机设备和存储介质 | |
CN110489558B (zh) | 文章聚合方法和装置、介质和计算设备 | |
WO2019019385A1 (zh) | 跨平台数据匹配方法、装置、计算机设备和存储介质 | |
CN110134965B (zh) | 用于信息处理的方法、装置、设备和计算机可读存储介质 | |
CN112163207B (zh) | 基于动态权限的业务数据查询方法及相关设备 | |
WO2022105119A1 (zh) | 意图识别模型的训练语料生成方法及其相关设备 | |
CN111291135A (zh) | 知识图谱构建方法和装置、服务器、计算机可读存储介质 | |
JP2021131783A (ja) | 情報処理装置、情報処理方法及び情報処理プログラム | |
CN111506750B (zh) | 图片检索方法、装置及电子设备 | |
CN110929647B (zh) | 一种文本检测方法、装置、设备及存储介质 | |
CN116597443A (zh) | 素材标签处理方法、装置、电子设备及介质 | |
CN110688516A (zh) | 图像检索方法、装置、计算机设备和存储介质 | |
CN113221572B (zh) | 一种信息处理方法、装置、设备及介质 | |
Kelm et al. | Georeferencing in social networks | |
TWI484359B (zh) | 文章資訊提供方法以及系統 | |
CN109460500B (zh) | 热点事件发现方法、装置、计算机设备和存储介质 | |
CN112685574B (zh) | 领域术语层次关系的确定方法、装置 | |
CN115392389B (zh) | 跨模态信息匹配、处理方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40024831 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |