CN107748799B - 一种多数据源影视数据实体对齐的方法 - Google Patents
一种多数据源影视数据实体对齐的方法 Download PDFInfo
- Publication number
- CN107748799B CN107748799B CN201711089351.4A CN201711089351A CN107748799B CN 107748799 B CN107748799 B CN 107748799B CN 201711089351 A CN201711089351 A CN 201711089351A CN 107748799 B CN107748799 B CN 107748799B
- Authority
- CN
- China
- Prior art keywords
- entity
- entities
- matching
- names
- attributes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/73—Querying
- G06F16/735—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及影视知识图谱领域,公开了一种多数据源影视数据实体对齐的方法,来对齐多个数据源的实体,处理不同数据源之间的互补及冗余信息。本发明通过采集来自多个数据源的影视数据并进行数据预处理、属性对齐;然后基于预定义的影视实体匹配规则迅速对齐一部分实体;再基于实体相似度匹配剩下的影视实体;最后根据匹配结果进行影视实体对齐。本发明适用于影视知识图谱中多数据源影视数据实体对齐。
Description
技术领域
本发明涉及影视知识图谱领域,特别涉及一种多数据源影视数据实体对齐的方法。
背景技术
传统的搜索引擎主要是基于关键字搜索相关网页,再由用户人工从一堆候选网页中寻找有用的信息,随着互联网技术的飞速发展,这种传统的搜索引擎已经日渐无法满足人们的需求,人们对搜索有了更高的期望。在此背景下,知识图谱也就应运而生了,它把复杂的知识领域通过数据挖掘、信息处理、知识计量和图形绘制而显示出来,描述了真实世界中存在的各种实体和概念,及实体、概念之间的关联关系,从而改善了搜索结果。
知识图谱覆盖了各个领域的知识,其中也包括影视这一人们娱乐生活中不可或缺的领域。影视知识图谱的构建需要将来自多个影视数据源的数据进行实体对齐,如豆瓣网、时光网、电影百度百科、中国电影票房网等数据源,从而实现一个统一接口、统一语义的影视知识图谱。由于来自不同数据源的数据的格式、内容、信息量都可能不同,必须要使用一种有效的方法来对齐多个数据源的实体,处理不同数据源之间的互补及冗余信息,充分综合有用的信息,从而生成对影视对象的一致性解释和描述。现有的影视知识图谱领域的实体对齐主要是采用通用的一些实体对齐方法,并未考虑影视领域数据特有的特点,而导致实体对齐结果的查准率和查全率不高。
发明内容
本发明要解决的技术问题是:提供一种多数据源影视数据实体对齐的方法,来对齐多个数据源的实体,处理不同数据源之间的互补及冗余信息。
为解决上述问题,本发明采用的技术方案是:一种多数据源影视数据实体对齐的方法,包括以下步骤:
步骤1:收集来自不同数据源的影视数据并分类;
步骤2:从影视数据中提取实体、实体主要特征、实体间关系;
步骤3:对提取的数据进行预处理;
步骤4:基于预定义规则匹配与实体相似度匹配相结合的方式进行实体匹配;
步骤5:根据实体匹配结果对齐实体。
进一步的,步骤2中,从影视数据中提取的实体包括影视实体、人物实体;影视实体的主要特征至少包括片名、别名、出品年、上映日期、制片国家/地方、类型;人物实体的特征至少包括人名、别名、出生日期、职业;实体间的关系至少包括人物与影片之间的“参演/导演/编剧”关系。
进一步的,步骤3中,对提取的数据进行预处理包括:
①简繁体转换、特殊字符处理以及html转义字符处理;
②根据属性特征分别进行处理,并将各属性对齐。
进一步的,步骤4具体包括:利用预定义规则匹配对待匹配实体中能够完成规则匹配的部分进行匹配,利用实体相似度匹配对待匹配实体中不能够完成规则匹配的部分进行匹配。
进一步的,所述预定义规则匹配包括唯一规则匹配和非唯一规则匹配;匹配时,满足任意一条唯一匹配规则则认为对应的实体相匹配,满足任意非唯一匹配规则的实体则加入候选集,利用多条非唯一规则对候选集中元素进行筛选,以找到与待匹配实体相匹配的实体。
进一步的,所述实体相似度匹配包括:
步骤41:基于概率模型计算得到影视实体各个属性的权重;
步骤42:确定影视实体的属性的类型,并利用各类型所对应的计算公式计算实体各属性的相似度;影视实体的属性的类型包括数值型、字符串型、日期型和集合型;
步骤43:将属性权重和相似度加权平均得到实体的相似度,与待匹配实体相似度最大且相似度大于给定阈值的实体即与待匹配实体相匹配。
进一步的,步骤42在计算两个影视实体的影视名、演员名、导演名、编剧名属性的相似度时,需要同时考虑各个实体的本名和别名,将其本名与零个或多个别名组合成名字集合,然后计算两个名字集合是否存在交集及交集的大小来判断相应属性是否相等:如果影视名、导演名、编剧名属性的名字集合的交集不为空,则认为待匹配影视实体的相应属性的属性值相同,如果演员名属性的名字集合p1、p2的交集中元素的个数Num满足:Num(p1∩p2)≥3或≥min(Num(p1),Num(p2)),则认为待匹配实体的演员属性相等。
进一步的,步骤5中,根据匹配结果进行实体对齐时遵循如下规则:如果目标数据源中已存在待对齐实体,则对其属性进行更新,若属性值有歧义,则保留较热门数据源的值;如果目标数据源中不存在待对齐实体,则将该实体添加到目标数据源中。
本发明的有益效果是:本发明充分考虑了影视领域数据特有的特点,首先基于预定义的影视实体匹配规则迅速对齐一部分实体,再基于实体相似度匹配剩下的影视实体,能够在保证实体对齐速率的前提下,以更高的查准率和查全率对齐来自不同数据源的数据,为影视知识图片的构建提供了一个具有统一语义的数据支撑。
附图说明
图1为实施例的流程图。
具体实施方式
下面将结合附图更详细地描述本发明的示例性实施例。如图1所示,一种多源影视数据实体对齐的具体工作流程如下:
步骤1:数据收集与实体、实体间关系提取。
从多个不同的影视数据源站点中抓取影视相关的数据(本实施例中以两个数据源为例),从抓取的数据中提取构建影视知识图谱将会用到的实体、属性与实体间关系,实体包括影视、人物、角色,影视实体的属性包括:片名、别名、出品年、上映日期、制片国家/地区、演员、导演、编剧、影片类型等影片基本信息;人物实体的属性包括:人名、别名、出生日期、国籍、身高、体重、家人等基本个人信息;角色实体的属性包括:角色名、别名。实体间关系包括人物与影片间的关系(参演、配音、导演、编剧、制片等)、人物与人物间的关系(父亲、姐姐、妻子、朋友、同学等)、人物与角色间的关系(扮演)、影片与角色间的关系(角色)。
步骤2:数据预处理与属性对齐
先对数据进行统一处理:繁体转换为简体、特殊字符处理、html字符转义;再对不同的属性根据其特征分别进行处理将各属性对齐,如影视数据中的人物实体的生日属性包括以下形式:{“生日”:”1991-1-12出生”}、{“出生日期”:”于1991年1月12号出生”}、{”birthday”:”1991/1/12”}等,利用正则表达式”\d{4}[年\-—/\.]\d{1,2}[月\-—/\.]\d{1,2}[日号]?”提取出生日信息,再转换为统一形式,即统一处理为{“birthday”:”1991-01-12”}格式的生日。
步骤3:影视实体匹配,分为以下两部分:
步骤31:基于预定义规则进行匹配
对于影片数据,定义以下十条匹配规则:①片名(影片名或别名)相同且上映日期相同;②导演相同且上映日期相同;③编剧相同且上映日期相同;④片名相同、导演相同且出品年相同;⑤片名相同、编剧相同且出品年相同;⑥片名、出品年及制片地区/国家相同;⑦片名及导演相同;⑧片名及编剧相同;⑨演、出品年及演员相同;⑩编剧、出品年及演员相同。其中片名、导演名、编剧名、演员名均为集合且包括本名及别名,只要两个名字集合的交集中元素个数大于给定的阈值则认为两个名字相同。如果两个影片实体满足上述规则中①~⑤中的任意一条,则认为两个实体是匹配的;如果满足规则⑥~⑩中某一条,则继续根据⑥~⑩中其他条规则来逐次筛选待匹配实体直到找到唯一的匹配实体或搜索结束。
对于人物数据,定义以下两条规则:①姓名相同且出生日期相同;②相同且参演影片相同。其中,姓名和参演影片名皆为集合且包括本名和别名,只要两个名称集合的交集的大小大于给定的阈值则认为两个名字相同。
步骤4:规则匹配结束后,对未匹配的实体部分再进行实体相似度进行匹配。实体相似度进行匹配的流程如下:
步骤41:实体属性权重计算
根据下列式子计算数据源中各个实体各个属性权重。
w′p=w″p/max(w″l)
以影视数据中的影片实体为例,通过上述公式计算得到影片实体各个属性的权重值如下:
w(影片名)=0.194 w(别名)=0.152 w(上映日期)=0.087
w(出品年)=0.066 w(导演)=0.141 w(演员)=0.155
w(编剧)=0.138 w(类型)=0.028 w(制片国家/地区)=0.038
步骤42:属性相似度计算
影视实体的属性的类型包括数值型、字符串型、日期型和集合型。影片实体的属性中的出品年为数值型,简介为字符串型,发行日期为日期型,影片名、导演名、编剧名、演员名、影片类型、制片国家/地区为集合型。人物实体的属性中出生地、国籍为字符串型,出生日期为日期型,姓名、参演的影片名为集合型。各个类型的属性的相似度计算方法为:
数值型:Similarity(p1,p2)=1-(|p1-p2|/max(p1,p2))
字符串型:Similarity(p1,p2)=1-EditDistance(p1,p2)/(max(length(p1),length(p2))),其中EditDistance(p1,p2)表示字符串p1和p2的编辑距离,length(p1)表示字符串的长度。
日期型:Similarity(p1,p2)=1-|datedif(p1-p2)|/(2*365)。
集合型:Similarity(p1,p2)=Num(p1∩p2)/,其中M=min(3,(min(Num(p1),Nump2。
通过上述式子计算得到属性值p1和p2的相似度,若得到的Similarity(p1,p2)>1,则令Similarity(p1,p2)=1,若Similarity(p1,p2)<0,则令Similarity(p1,p2)=0。
此外,在计算两个影视实体的影视名、演员名、导演名、编剧名属性的相似度时,考虑到名字可能存在别名,特别是外国的人或影片的名字由于翻译不一其对应的中文名很可能不同,这导致不同数据源中同一实体的本名可能不一致,因此为了更好实现匹配实体,不仅要考虑各个实体的本名,也要考虑其别名,将其本名与零个或多个别名组合成名字集合,然后计算两个名字集合是否存在交集及交集的大小来判断相应属性是否相等:如果影视名、导演名、编剧名属性的名字集合的交集不为空则认为待匹配影视实体的相应属性的属性值相同,如果演员名属性的名字集合p1、p2的交集中元素的个数Num满足:Num(p1∩p2)≥3或≥min(Num(p1),Num(p2)),则认为待匹配实体的演员属性相等
步骤43:将属性权重和相似度加权平均得到实体的相似度,实体相似度计算方法如下:
其中,E1和E2表示待匹配实体,n表示实体共有n个属性,similarity(pi)表示两个实体中属性pi的相似度,wi表示属性pi的权重。
步骤44、得到匹配实体
计算得到与待匹配实体相似度最大的实体,如果相似度大于给定的相似度阈值,(本实例中设定相似度阈值为0.8,也可设置不同的相似度阈值进行实体匹配并统计匹配结果的准确率和召回率,以寻找到最合适的相似度阈值),则认为其为相匹配的实体。
步骤5:实体对齐
根据实体匹配结果,将多个数据源的实体进行对齐,进行实体对齐时遵循以下规则:
①如果目标数据源中已存在待对齐实体(即目标数据源中存在与待对齐实体匹配的实体),则对目标数据源中的实体的各属性的属性值进行更新;如果目标实体中不存在相应的属性,则新增属性及属性值;如果目标实体中已存在相应的属性,则保留来自较为热门的那个数据源的实体的属性值;
②如果目标数据源中不存在待对齐实体,则将该实体添加至目标数据源。
以上描述了本发明的基本原理和主要的特征,说明书的描述只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。
Claims (5)
1.一种多数据源影视数据实体对齐的方法,其特征在于,包括以下步骤:
步骤1:收集来自不同数据源的影视数据并分类;
步骤2:从影视数据中提取实体、实体主要特征、实体间关系;
步骤3:对提取的数据进行预处理;
步骤4:利用预定义规则匹配对待匹配实体中能够完成规则匹配的部分进行匹配,利用实体相似度匹配对待匹配实体中不能够完成规则匹配的部分进行匹配;
所述预定义规则匹配包括唯一规则匹配和非唯一规则匹配;匹配时,满足任意一条唯一匹配规则则认为对应的实体相匹配,满足任意非唯一匹配规则的实体则加入候选集,利用多条非唯一规则对候选集中元素进行筛选,以找到与待匹配实体相匹配的实体;
所述实体相似度匹配包括:
步骤41:基于概率模型计算得到影视实体各个属性的权重;
步骤42:确定影视实体的属性的类型,并利用各类型所对应的计算公式计算实体各属性的相似度;影视实体的属性的类型包括数值型、字符串型、日期型和集合型;
步骤43:将属性权重和相似度加权平均得到实体的相似度,与待匹配实体相似度最大且相似度大于给定阈值的实体即与待匹配实体相匹配;
步骤5:根据实体匹配结果对齐实体。
2.如权利要求1所述的一种多数据源影视数据实体对齐的方法,其特征在于,步骤2中,从影视数据中提取的实体包括影视实体、人物实体;影视实体的主要特征至少包括片名、别名、出品年、上映日期、制片国家/地方、类型;人物实体的特征至少包括人名、别名、出生日期、职业;实体间的关系至少包括人物与影片之间的“参演/导演/编剧”关系。
3.如权利要求1所述的一种多数据源影视数据实体对齐的方法,其特征在于,步骤3中,对提取的数据进行预处理包括:
①简繁体转换、特殊字符处理以及html转义字符处理;
②根据属性特征分别进行处理,并将各属性对齐。
4.如权利要求1所述的一种多数据源影视数据实体对齐的方法,其特征在于,步骤42在计算两个影视实体的影视名、演员名、导演名、编剧名属性的相似度时,需要同时考虑各个实体的本名和别名,将其本名与零个或多个别名组合成名字集合,然后计算两个名字集合是否存在交集及交集的大小来判断相应属性是否相等:如果影视名、导演名、编剧名属性的名字集合的交集不为空,则认为待匹配影视实体的相应属性的属性值相同,如果演员名属性的名字集合p1、p2的交集中元素的个数Num满足:Num(p1∩p2)≥3或≥min(Num(p1),Num(p2)),则认为待匹配实体的演员属性相等。
5.如权利要求1所述的一种多数据源影视数据实体对齐的方法,其特征在于,步骤5中,根据匹配结果进行实体对齐时遵循如下规则:如果目标数据源中已存在待对齐实体,则对其属性进行更新,若属性值有歧义,则保留较热门数据源的值;如果目标数据源中不存在待对齐实体,则将该实体添加到目标数据源中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711089351.4A CN107748799B (zh) | 2017-11-08 | 2017-11-08 | 一种多数据源影视数据实体对齐的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711089351.4A CN107748799B (zh) | 2017-11-08 | 2017-11-08 | 一种多数据源影视数据实体对齐的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107748799A CN107748799A (zh) | 2018-03-02 |
CN107748799B true CN107748799B (zh) | 2021-09-21 |
Family
ID=61251011
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711089351.4A Active CN107748799B (zh) | 2017-11-08 | 2017-11-08 | 一种多数据源影视数据实体对齐的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107748799B (zh) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109002522A (zh) * | 2018-07-12 | 2018-12-14 | 北京猫眼文化传媒有限公司 | 一种影视数据库的更新方法和装置 |
CN109002528B (zh) * | 2018-07-12 | 2021-03-26 | 北京猫眼文化传媒有限公司 | 一种数据导入的方法、装置和存储介质 |
CN109213871A (zh) * | 2018-07-26 | 2019-01-15 | 南京邮电大学 | 患者信息知识图谱构建方法、可读存储介质和终端 |
CN109147954A (zh) * | 2018-07-26 | 2019-01-04 | 南京邮电大学 | 基于知识图谱的患者信息处理装置 |
CN109359172B (zh) * | 2018-08-02 | 2020-12-11 | 浙江大学 | 一种基于图划分的实体对齐优化方法 |
CN109255035B (zh) * | 2018-08-31 | 2024-03-26 | 北京字节跳动网络技术有限公司 | 用于构建知识图谱的方法和装置 |
CN110019843B (zh) * | 2018-09-30 | 2020-11-06 | 北京国双科技有限公司 | 知识图谱的处理方法及装置 |
CN109582787B (zh) * | 2018-11-05 | 2020-10-20 | 远光软件股份有限公司 | 一种火力发电领域语料数据的实体分类方法及装置 |
CN109657069B (zh) * | 2018-12-11 | 2021-03-23 | 北京百度网讯科技有限公司 | 知识图谱的生成方法及其装置 |
CN109960810B (zh) * | 2019-03-28 | 2020-05-19 | 科大讯飞(苏州)科技有限公司 | 一种实体对齐方法及装置 |
CN111914092A (zh) * | 2019-05-09 | 2020-11-10 | 富士通株式会社 | 针对作者消歧的信息处理装置、方法和介质 |
CN110674311A (zh) * | 2019-09-05 | 2020-01-10 | 国家电网有限公司 | 一种基于知识图谱的电力资产异构数据融合方法 |
CN111191045B (zh) * | 2019-12-30 | 2023-06-16 | 创新奇智(上海)科技有限公司 | 一种应用于知识图谱的实体对齐方法及系统 |
CN111698573B (zh) * | 2020-06-24 | 2021-10-01 | 四川长虹电器股份有限公司 | 一种影视专题创建方法及装置 |
CN111814027B (zh) * | 2020-08-26 | 2023-03-21 | 电子科技大学 | 基于搜索引擎的多源人物属性融合方法 |
CN112163100A (zh) * | 2020-10-14 | 2021-01-01 | 广州欢网科技有限责任公司 | 维基数据中明星库的知识图谱扩充方法及系统 |
CN113901264A (zh) * | 2021-11-12 | 2022-01-07 | 央视频融媒体发展有限公司 | 一种影视类属性数据源间的周期性实体匹配方法及系统 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9418103B2 (en) * | 2013-12-06 | 2016-08-16 | Quixey, Inc. | Techniques for reformulating search queries |
CN106156082B (zh) * | 2015-03-31 | 2019-09-20 | 华为技术有限公司 | 一种本体对齐方法及装置 |
CN106776711B (zh) * | 2016-11-14 | 2020-04-07 | 浙江大学 | 一种基于深度学习的中文医学知识图谱构建方法 |
CN106777331A (zh) * | 2017-01-11 | 2017-05-31 | 北京航空航天大学 | 知识图谱生成方法及装置 |
CN106897403B (zh) * | 2017-02-14 | 2019-03-26 | 中国科学院电子学研究所 | 面向知识图谱构建的细粒度中文属性对齐方法 |
CN106919794B (zh) * | 2017-02-24 | 2019-12-06 | 黑龙江特士信息技术有限公司 | 面向多数据源的药品类实体识别方法及装置 |
-
2017
- 2017-11-08 CN CN201711089351.4A patent/CN107748799B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN107748799A (zh) | 2018-03-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107748799B (zh) | 一种多数据源影视数据实体对齐的方法 | |
Wang et al. | Effective multi-query expansions: Collaborative deep networks for robust landmark retrieval | |
CN104854583B (zh) | 搜索结果排名和呈现 | |
Li et al. | GPS estimation for places of interest from social users' uploaded photos | |
CN101021855B (zh) | 基于内容的视频检索系统 | |
CN109960763A (zh) | 一种基于用户细粒度摄影偏好的摄影社区个性化好友推荐方法 | |
CN107562742A (zh) | 一种图像数据处理方法及装置 | |
Joshi et al. | Inferring generic activities and events from image content and bags of geo-tags | |
CN113222775B (zh) | 融合多模态信息及权重张量的用户身份关联方法 | |
CN106649663A (zh) | 一种基于紧凑视频表征的视频拷贝检测方法 | |
Qian et al. | Landmark summarization with diverse viewpoints | |
WO2001003008A1 (en) | Fundamental entity-relationship models for the generic audio visual data signal description | |
KR101224312B1 (ko) | 소셜 네트워킹 서비스 사용자를 위한 친구 추천 방법, 이를 위한 기록 매체 및 이를 이용하는 소셜 네트워킹 서비스 및 서버 | |
CN110750995A (zh) | 一种基于自定义图谱的文件管理方法 | |
Sheng et al. | Xi’an tourism destination image analysis via deep learning | |
CN113239159B (zh) | 基于关系推理网络的视频和文本的跨模态检索方法 | |
CN113204669A (zh) | 一种基于语音识别的短视频搜索推荐方法、系统及计算机存储介质 | |
CN109446399A (zh) | 一种影视实体搜索方法 | |
US20120254255A1 (en) | Apparatus and method for generating story according to user information | |
Liu et al. | Event-based media enrichment using an adaptive probabilistic hypergraph model | |
Yuan et al. | Shrec’19 track: Extended 2D scene sketch-based 3D scene retrieval | |
CN116010711A (zh) | 一种融合用户信息及兴趣变化的kgcn模型电影推荐方法 | |
CN107423294A (zh) | 一种社群图像检索方法及系统 | |
Psallidas et al. | Video summarization based on feature fusion and data augmentation | |
CN114238772A (zh) | 内容自适应感知的网络地图智能推荐系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |