CN107748799B

CN107748799B - 一种多数据源影视数据实体对齐的方法

Info

Publication number: CN107748799B
Application number: CN201711089351.4A
Authority: CN
Inventors: 唐娟; 唐军; 李晓燕
Original assignee: Sichuan Changhong Electric Co Ltd
Current assignee: Sichuan Changhong Electric Co Ltd
Priority date: 2017-11-08
Filing date: 2017-11-08
Publication date: 2021-09-21
Anticipated expiration: 2037-11-08
Also published as: CN107748799A

Abstract

本发明涉及影视知识图谱领域，公开了一种多数据源影视数据实体对齐的方法，来对齐多个数据源的实体，处理不同数据源之间的互补及冗余信息。本发明通过采集来自多个数据源的影视数据并进行数据预处理、属性对齐；然后基于预定义的影视实体匹配规则迅速对齐一部分实体；再基于实体相似度匹配剩下的影视实体；最后根据匹配结果进行影视实体对齐。本发明适用于影视知识图谱中多数据源影视数据实体对齐。

Description

一种多数据源影视数据实体对齐的方法

技术领域

本发明涉及影视知识图谱领域，特别涉及一种多数据源影视数据实体对齐的方法。

背景技术

传统的搜索引擎主要是基于关键字搜索相关网页，再由用户人工从一堆候选网页中寻找有用的信息，随着互联网技术的飞速发展，这种传统的搜索引擎已经日渐无法满足人们的需求，人们对搜索有了更高的期望。在此背景下，知识图谱也就应运而生了，它把复杂的知识领域通过数据挖掘、信息处理、知识计量和图形绘制而显示出来，描述了真实世界中存在的各种实体和概念，及实体、概念之间的关联关系，从而改善了搜索结果。

知识图谱覆盖了各个领域的知识，其中也包括影视这一人们娱乐生活中不可或缺的领域。影视知识图谱的构建需要将来自多个影视数据源的数据进行实体对齐，如豆瓣网、时光网、电影百度百科、中国电影票房网等数据源，从而实现一个统一接口、统一语义的影视知识图谱。由于来自不同数据源的数据的格式、内容、信息量都可能不同，必须要使用一种有效的方法来对齐多个数据源的实体，处理不同数据源之间的互补及冗余信息，充分综合有用的信息，从而生成对影视对象的一致性解释和描述。现有的影视知识图谱领域的实体对齐主要是采用通用的一些实体对齐方法，并未考虑影视领域数据特有的特点，而导致实体对齐结果的查准率和查全率不高。

发明内容

本发明要解决的技术问题是：提供一种多数据源影视数据实体对齐的方法，来对齐多个数据源的实体，处理不同数据源之间的互补及冗余信息。

为解决上述问题，本发明采用的技术方案是：一种多数据源影视数据实体对齐的方法，包括以下步骤：

步骤1：收集来自不同数据源的影视数据并分类；

步骤2：从影视数据中提取实体、实体主要特征、实体间关系；

步骤3：对提取的数据进行预处理；

步骤4：基于预定义规则匹配与实体相似度匹配相结合的方式进行实体匹配；

步骤5：根据实体匹配结果对齐实体。

进一步的，步骤2中，从影视数据中提取的实体包括影视实体、人物实体；影视实体的主要特征至少包括片名、别名、出品年、上映日期、制片国家/地方、类型；人物实体的特征至少包括人名、别名、出生日期、职业；实体间的关系至少包括人物与影片之间的“参演/导演/编剧”关系。

进一步的，步骤3中，对提取的数据进行预处理包括：

①简繁体转换、特殊字符处理以及html转义字符处理；

②根据属性特征分别进行处理，并将各属性对齐。

进一步的，步骤4具体包括：利用预定义规则匹配对待匹配实体中能够完成规则匹配的部分进行匹配，利用实体相似度匹配对待匹配实体中不能够完成规则匹配的部分进行匹配。

进一步的，所述预定义规则匹配包括唯一规则匹配和非唯一规则匹配；匹配时，满足任意一条唯一匹配规则则认为对应的实体相匹配，满足任意非唯一匹配规则的实体则加入候选集，利用多条非唯一规则对候选集中元素进行筛选，以找到与待匹配实体相匹配的实体。

进一步的，所述实体相似度匹配包括：

步骤41：基于概率模型计算得到影视实体各个属性的权重；

步骤42：确定影视实体的属性的类型，并利用各类型所对应的计算公式计算实体各属性的相似度；影视实体的属性的类型包括数值型、字符串型、日期型和集合型；

步骤43：将属性权重和相似度加权平均得到实体的相似度，与待匹配实体相似度最大且相似度大于给定阈值的实体即与待匹配实体相匹配。

进一步的，步骤42在计算两个影视实体的影视名、演员名、导演名、编剧名属性的相似度时，需要同时考虑各个实体的本名和别名，将其本名与零个或多个别名组合成名字集合，然后计算两个名字集合是否存在交集及交集的大小来判断相应属性是否相等：如果影视名、导演名、编剧名属性的名字集合的交集不为空，则认为待匹配影视实体的相应属性的属性值相同，如果演员名属性的名字集合p¹、p²的交集中元素的个数Num满足：Num(p¹∩p²)≥3或≥min(Num(p¹),Num(p²))，则认为待匹配实体的演员属性相等。

进一步的，步骤5中，根据匹配结果进行实体对齐时遵循如下规则：如果目标数据源中已存在待对齐实体，则对其属性进行更新，若属性值有歧义，则保留较热门数据源的值；如果目标数据源中不存在待对齐实体，则将该实体添加到目标数据源中。

本发明的有益效果是：本发明充分考虑了影视领域数据特有的特点，首先基于预定义的影视实体匹配规则迅速对齐一部分实体，再基于实体相似度匹配剩下的影视实体，能够在保证实体对齐速率的前提下，以更高的查准率和查全率对齐来自不同数据源的数据，为影视知识图片的构建提供了一个具有统一语义的数据支撑。

附图说明

图1为实施例的流程图。

具体实施方式

下面将结合附图更详细地描述本发明的示例性实施例。如图1所示，一种多源影视数据实体对齐的具体工作流程如下：

步骤1：数据收集与实体、实体间关系提取。

从多个不同的影视数据源站点中抓取影视相关的数据(本实施例中以两个数据源为例)，从抓取的数据中提取构建影视知识图谱将会用到的实体、属性与实体间关系，实体包括影视、人物、角色，影视实体的属性包括：片名、别名、出品年、上映日期、制片国家/地区、演员、导演、编剧、影片类型等影片基本信息；人物实体的属性包括：人名、别名、出生日期、国籍、身高、体重、家人等基本个人信息；角色实体的属性包括：角色名、别名。实体间关系包括人物与影片间的关系(参演、配音、导演、编剧、制片等)、人物与人物间的关系(父亲、姐姐、妻子、朋友、同学等)、人物与角色间的关系(扮演)、影片与角色间的关系(角色)。

步骤2：数据预处理与属性对齐

先对数据进行统一处理：繁体转换为简体、特殊字符处理、html字符转义；再对不同的属性根据其特征分别进行处理将各属性对齐，如影视数据中的人物实体的生日属性包括以下形式：{“生日”:”1991-1-12出生”}、{“出生日期”:”于1991年1月12号出生”}、{”birthday”:”1991/1/12”}等，利用正则表达式”\d{4}[年\-—/\.]\d{1,2}[月\-—/\.]\d{1,2}[日号]？”提取出生日信息，再转换为统一形式，即统一处理为{“birthday”:”1991-01-12”}格式的生日。

步骤3：影视实体匹配，分为以下两部分：

步骤31：基于预定义规则进行匹配

对于影片数据，定义以下十条匹配规则：①片名(影片名或别名)相同且上映日期相同；②导演相同且上映日期相同；③编剧相同且上映日期相同；④片名相同、导演相同且出品年相同；⑤片名相同、编剧相同且出品年相同；⑥片名、出品年及制片地区/国家相同；⑦片名及导演相同；⑧片名及编剧相同；⑨演、出品年及演员相同；⑩编剧、出品年及演员相同。其中片名、导演名、编剧名、演员名均为集合且包括本名及别名，只要两个名字集合的交集中元素个数大于给定的阈值则认为两个名字相同。如果两个影片实体满足上述规则中①～⑤中的任意一条，则认为两个实体是匹配的；如果满足规则⑥～⑩中某一条，则继续根据⑥～⑩中其他条规则来逐次筛选待匹配实体直到找到唯一的匹配实体或搜索结束。

对于人物数据，定义以下两条规则：①姓名相同且出生日期相同；②相同且参演影片相同。其中，姓名和参演影片名皆为集合且包括本名和别名，只要两个名称集合的交集的大小大于给定的阈值则认为两个名字相同。

步骤4：规则匹配结束后，对未匹配的实体部分再进行实体相似度进行匹配。实体相似度进行匹配的流程如下：

步骤41：实体属性权重计算

根据下列式子计算数据源中各个实体各个属性权重。

w′_p＝w″_p/max(w″_l)

式中，L表示C中的实体共有L个属性；M表示C中包含属性p的实体的总数；n_k表示对于属性p的属性值

来说，在

中有k个与

的b值相等。

以影视数据中的影片实体为例，通过上述公式计算得到影片实体各个属性的权重值如下：

w(影片名)＝0.194 w(别名)＝0.152 w(上映日期)＝0.087

w(出品年)＝0.066 w(导演)＝0.141 w(演员)＝0.155

w(编剧)＝0.138 w(类型)＝0.028 w(制片国家/地区)＝0.038

步骤42：属性相似度计算

影视实体的属性的类型包括数值型、字符串型、日期型和集合型。影片实体的属性中的出品年为数值型，简介为字符串型，发行日期为日期型，影片名、导演名、编剧名、演员名、影片类型、制片国家/地区为集合型。人物实体的属性中出生地、国籍为字符串型，出生日期为日期型，姓名、参演的影片名为集合型。各个类型的属性的相似度计算方法为：

数值型：Similarity(p¹,p²)＝1-(|p¹-p²|/max(p¹,p²))

字符串型：Similarity(p¹,p²)＝1-EditDistance(p¹,p²)/(max(length(p¹),length(p²)))，其中EditDistance(p¹,p²)表示字符串p¹和p²的编辑距离，length(p¹)表示字符串的长度。

日期型：Similarity(p¹,p²)＝1-|datedif(p¹-p²)|/(2*365)。

集合型：Similarity(p¹,p²)＝Num(p¹∩p²)/，其中M＝min(3,(min(Num(p¹),Nump2。

通过上述式子计算得到属性值p¹和p²的相似度，若得到的Similarity(p¹,p²)＞1，则令Similarity(p¹,p²)＝1，若Similarity(p¹,p²)＜0，则令Similarity(p¹,p²)＝0。

此外，在计算两个影视实体的影视名、演员名、导演名、编剧名属性的相似度时，考虑到名字可能存在别名，特别是外国的人或影片的名字由于翻译不一其对应的中文名很可能不同，这导致不同数据源中同一实体的本名可能不一致，因此为了更好实现匹配实体，不仅要考虑各个实体的本名，也要考虑其别名，将其本名与零个或多个别名组合成名字集合，然后计算两个名字集合是否存在交集及交集的大小来判断相应属性是否相等：如果影视名、导演名、编剧名属性的名字集合的交集不为空则认为待匹配影视实体的相应属性的属性值相同，如果演员名属性的名字集合p¹、p²的交集中元素的个数Num满足：Num(p¹∩p²)≥3或≥min(Num(p¹),Num(p²))，则认为待匹配实体的演员属性相等

步骤43：将属性权重和相似度加权平均得到实体的相似度，实体相似度计算方法如下：

其中，E₁和E₂表示待匹配实体，n表示实体共有n个属性，similarity(p_i)表示两个实体中属性p_i的相似度，w_i表示属性p_i的权重。

步骤44、得到匹配实体

计算得到与待匹配实体相似度最大的实体，如果相似度大于给定的相似度阈值,(本实例中设定相似度阈值为0.8，也可设置不同的相似度阈值进行实体匹配并统计匹配结果的准确率和召回率，以寻找到最合适的相似度阈值)，则认为其为相匹配的实体。

步骤5：实体对齐

根据实体匹配结果，将多个数据源的实体进行对齐，进行实体对齐时遵循以下规则：

①如果目标数据源中已存在待对齐实体(即目标数据源中存在与待对齐实体匹配的实体)，则对目标数据源中的实体的各属性的属性值进行更新；如果目标实体中不存在相应的属性，则新增属性及属性值；如果目标实体中已存在相应的属性，则保留来自较为热门的那个数据源的实体的属性值；

②如果目标数据源中不存在待对齐实体，则将该实体添加至目标数据源。

以上描述了本发明的基本原理和主要的特征，说明书的描述只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。

Claims

1.一种多数据源影视数据实体对齐的方法，其特征在于，包括以下步骤：

步骤1：收集来自不同数据源的影视数据并分类；

步骤3：对提取的数据进行预处理；

步骤4：利用预定义规则匹配对待匹配实体中能够完成规则匹配的部分进行匹配，利用实体相似度匹配对待匹配实体中不能够完成规则匹配的部分进行匹配；

所述预定义规则匹配包括唯一规则匹配和非唯一规则匹配；匹配时，满足任意一条唯一匹配规则则认为对应的实体相匹配，满足任意非唯一匹配规则的实体则加入候选集，利用多条非唯一规则对候选集中元素进行筛选，以找到与待匹配实体相匹配的实体；

所述实体相似度匹配包括：

步骤41：基于概率模型计算得到影视实体各个属性的权重；

步骤43：将属性权重和相似度加权平均得到实体的相似度，与待匹配实体相似度最大且相似度大于给定阈值的实体即与待匹配实体相匹配；

步骤5：根据实体匹配结果对齐实体。

2.如权利要求1所述的一种多数据源影视数据实体对齐的方法，其特征在于，步骤2中，从影视数据中提取的实体包括影视实体、人物实体；影视实体的主要特征至少包括片名、别名、出品年、上映日期、制片国家/地方、类型；人物实体的特征至少包括人名、别名、出生日期、职业；实体间的关系至少包括人物与影片之间的“参演/导演/编剧”关系。

3.如权利要求1所述的一种多数据源影视数据实体对齐的方法，其特征在于，步骤3中，对提取的数据进行预处理包括：

①简繁体转换、特殊字符处理以及html转义字符处理；

②根据属性特征分别进行处理，并将各属性对齐。

4.如权利要求1所述的一种多数据源影视数据实体对齐的方法，其特征在于，步骤42在计算两个影视实体的影视名、演员名、导演名、编剧名属性的相似度时，需要同时考虑各个实体的本名和别名，将其本名与零个或多个别名组合成名字集合，然后计算两个名字集合是否存在交集及交集的大小来判断相应属性是否相等：如果影视名、导演名、编剧名属性的名字集合的交集不为空，则认为待匹配影视实体的相应属性的属性值相同，如果演员名属性的名字集合p¹、p²的交集中元素的个数Num满足：Num(p¹∩p²)≥3或≥min(Num(p¹)，Num(p²))，则认为待匹配实体的演员属性相等。

5.如权利要求1所述的一种多数据源影视数据实体对齐的方法，其特征在于，步骤5中，根据匹配结果进行实体对齐时遵循如下规则：如果目标数据源中已存在待对齐实体，则对其属性进行更新，若属性值有歧义，则保留较热门数据源的值；如果目标数据源中不存在待对齐实体，则将该实体添加到目标数据源中。