CN111090754B - 一种基于百科词条自动构建影视综知识图谱的方法 - Google Patents
一种基于百科词条自动构建影视综知识图谱的方法 Download PDFInfo
- Publication number
- CN111090754B CN111090754B CN201911140587.5A CN201911140587A CN111090754B CN 111090754 B CN111090754 B CN 111090754B CN 201911140587 A CN201911140587 A CN 201911140587A CN 111090754 B CN111090754 B CN 111090754B
- Authority
- CN
- China
- Prior art keywords
- node
- entry
- movie
- item
- creating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及知识图谱技术领域,具体地说,涉及一种基于百科词条自动构建影视综知识图谱的方法。其包括将百科词条infobox、参演电影、参演电视剧模块转化为创建图谱节点和边的解析流程和根据百科词条判断是否为影视综相关人物流程。该基于百科词条自动构建影视综知识图谱的方法中,采用百科词条作为数据源,数据源易获得,容易复现,同时,数据源单一,不存在数据融合的问题,将百科词条infobox、参演电影、参演电视剧模块转化为创建图谱节点和边的解析,根据百科词条判断是否为影视综相关人物,实现影视综领域图谱自动化建设。
Description
技术领域
本发明涉及知识图谱技术领域,具体地说,涉及一种基于百科词条自动构建影视综知识图谱的方法。
背景技术
知识图谱被称为下一代AI系统的基石,越来越多的人们已经逐渐意识到知识图谱的重要性。知识图谱最早是由Google公司在2012年提出来的一个概念。从学术的角度,可以对知识图谱给一个这样的定义:“知识图谱本质上是语义网络的知识库”。从实际应用的角度出发可以简单地把知识图谱理解成多关系图(Multi-relational Graph)。其中节点和边是构成知识图谱的重要部分,创建知识图谱必须要创建节点和连接节点对应的边。现有知识图谱构建流程大都是开放领域的,影视综领域相关的知识图谱少之又少。目前大多数知识图谱构建流程使用了多个数据源且数据获取难度大,致使各个数据源的融合和数据的获取成为图谱自动化建设的一大难点。影视综图谱以明星、电影、电视剧等为核心,可以挖掘明星之间的隐含关系,也可以针对影视综做一些问答系统和电影推荐等。
发明内容
本发明的目的在于提供一种基于百科词条自动构建影视综知识图谱的方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供一种基于百科词条自动构建影视综知识图谱的方法,其方法包括如下步骤:
步骤一:解析百科词条;
步骤二:将词条名称、词条简介、词条infobox和词条标签传入分类模型判断是否为影视综相关人物,如果是,则继续执行步骤三,如果否,则结束;
步骤三:在neo4j上创建人物标签节点,记做ppl_node,并将url置为唯一性字段;
步骤四:解析词条infobox模块;
步骤五:将item对应的词条名称、词条简介、词条infobox和词条标签传入分类模型判断item是否为人物节点,如果是,则根据item创建人物标签节点,记做item_node,并将url置为唯一性字段,执行步骤九,如果否,则执行步骤六;
步骤六:将item对应的词条名称、词条简介、词条infobox和词条标签传入分类模型判断item是否为电视剧节点,如果是,则根据item创建电视剧标签节点,记做item_node,并将url置为唯一性字段,执行步骤九,如果否,则执行步骤七;
步骤七:将item对应的词条名称、词条简介、词条infobox和词条标签传入分类模型判断item是否为电影节点,如果是,则根据item创建电影标签节点,记做item_node,并将url置为唯一性字段,执行步骤九,如果否,则执行步骤八;
步骤八:根据item创建事物节点,记做item_node,并将url置为唯一性字段;
步骤九:创建节点ppl_node和节点item_node之间的边;
步骤十:解析参演电影模块,创建电影标签节点记做movie_node,并将url置为唯一性字段;
步骤十一:创建ppl_node与节点movie_node之间的边;
步骤十二:根据饰演字段创建角色节点记做role_node1,并将url置为唯一性字段;
步骤十三:创建ppl_node与节点role_node1之间的边;
步骤十四:解析参演电视剧模块,创建电视剧标签节点记做tv_series_node,并将url置为唯一性字段;
步骤十五:创建ppl_node与节点tv_series_node之间的边;
步骤十六:根据饰演字段创建角色标签节点记做role_node2,并将url置为唯一性字段;
步骤十七:创建ppl_node与节点role_node2之间的边。
作为优选,所述步骤四中,解析词条infobox模块具体为:将不带有超链接的属性值作为属性添加到节点ppl_node上,将带有超链接的属性值和对应的链接记做item。
作为优选,所述步骤九中,节点ppl_node和节点item_node之间的边,记做item_relation。
作为优选,所述步骤十一中,ppl_node与节点movie_node之间的边,记做starred_relation1。
作为优选,所述步骤十三中,ppl_node与节点role_node1之间的边,记做act_relation1。
作为优选,所述步骤十五中,ppl_node与节点tv_series_node之间的边,记做starred_relation1。
作为优选,所述步骤十七中,ppl_node与节点role_node2之间的边,记做act_relation2。
与现有技术相比,本发明的有益效果:
1、该基于百科词条自动构建影视综知识图谱的方法中,采用百科词条作为数据源,数据源易获得,容易复现,同时,数据源单一,不存在数据融合的问题。
2、该基于百科词条自动构建影视综知识图谱的方法中,将百科词条infobox、参演电影、参演电视剧模块转化为创建图谱节点和边的解析,根据百科词条判断是否为影视综相关人物,实现影视综领域图谱自动化建设。
附图说明
图1为本发明的整体流程局部图之一;
图2为本发明的整体流程局部图之二;
图3为本发明的整体流程局部图之三;
图4为本发明的效果图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-图4所示,本发明提供一种技术方案:
本发明提供一种基于百科词条自动构建影视综知识图谱的方法,其方法包括如下
步骤一:解析百科词条;
步骤二:将词条名称、词条简介、词条infobox和词条标签传入分类模型判断是否为影视综相关人物,如果是,则继续执行步骤三,如果否,则结束;
步骤三:在neo4j上创建人物标签节点,记做ppl_node,并将url置为唯一性字段;
步骤四:解析词条infobox模块,将不带有超链接的属性值作为属性添加到节点ppl_node上,将带有超链接的属性值和对应的链接记做item;
步骤五:将item对应的词条名称、词条简介、词条infobox和词条标签传入分类模型判断item是否为人物节点,如果是,则根据item创建人物标签节点,记做item_node,并将url置为唯一性字段,执行步骤九,如果否,则执行步骤六;
步骤六:将item对应的词条名称、词条简介、词条infobox和词条标签传入分类模型判断item是否为电视剧节点,如果是,则根据item创建电视剧标签节点,记做item_node,并将url置为唯一性字段,执行步骤九,如果否,则执行步骤七;
步骤七:将item对应的词条名称、词条简介、词条infobox和词条标签传入分类模型判断item是否为电影节点,如果是,则根据item创建电影标签节点,记做item_node,并将url置为唯一性字段,执行步骤九,如果否,则执行步骤八;
步骤八:根据item创建事物节点,记做item_node,并将url置为唯一性字段;
步骤九:创建节点ppl_node和节点item_node之间的边,记做item_relation;
步骤十:解析参演电影模块,创建电影标签节点记做movie_node,并将url置为唯一性字段;
步骤十一:创建ppl_node与节点movie_node之间的边,记做starred_relation1;
步骤十二:根据饰演字段创建角色节点记做role_node1,并将url置为唯一性字段;
步骤十三:创建ppl_node与节点role_node1之间的边,记做act_relation1;
步骤十四:解析参演电视剧模块,创建电视剧标签节点记做tv_series_node,并将url置为唯一性字段;
步骤十五:创建ppl_node与节点tv_series_node之间的边,记做starred_relation1;
步骤十六:根据饰演字段创建角色标签节点记做role_node2,并将url置为唯一性字段;
步骤十七:创建ppl_node与节点role_node2之间的边,记做act_relation2。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的仅为本发明的优选例,并不用来限制本发明,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
Claims (7)
1.一种基于百科词条自动构建影视综知识图谱的方法,其方法包括如下步骤:
步骤一:解析百科词条;
步骤二:将词条名称、词条简介、词条infobox和词条标签传入分类模型判断是否为影视综相关人物,如果是,则继续执行步骤三,如果否,则结束;
步骤三:在neo4j上创建人物标签节点,记做ppl_node,并将url置为唯一性字段;
步骤四:解析词条infobox模块;
步骤五:将item对应的词条名称、词条简介、词条infobox和词条标签传入分类模型判断item是否为人物节点,如果是,则根据item创建人物标签节点,记做item_node,并将url置为唯一性字段,执行步骤九,如果否,则执行步骤六;
步骤六:将item对应的词条名称、词条简介、词条infobox和词条标签传入分类模型判断item是否为电视剧节点,如果是,则根据item创建电视剧标签节点,记做item_node,并将url置为唯一性字段,执行步骤九,如果否,则执行步骤七;
步骤七:将item对应的词条名称、词条简介、词条infobox和词条标签传入分类模型判断item是否为电影节点,如果是,则根据item创建电影标签节点,记做item_node,并将url置为唯一性字段,执行步骤九,如果否,则执行步骤八;
步骤八:根据item创建事物节点,记做item_node,并将url置为唯一性字段;
步骤九:创建节点ppl_node和节点item_node之间的边;
步骤十:解析参演电影模块,创建电影标签节点记做movie_node,并将url置为唯一性字段;
步骤十一:创建ppl_node与节点movie_node之间的边;
步骤十二:根据饰演字段创建角色节点记做role_node1,并将url置为唯一性字段;
步骤十三:创建ppl_node与节点role_node1之间的边;
步骤十四:解析参演电视剧模块,创建电视剧标签节点记做tv_series_node,并将url置为唯一性字段;
步骤十五:创建ppl_node与节点tv_series_node之间的边;
步骤十六:根据饰演字段创建角色标签节点记做role_node2,并将url置为唯一性字段;
步骤十七:创建ppl_node与节点role_node2之间的边。
2.根据权利要求1所述的基于百科词条自动构建影视综知识图谱的方法,其特征在于:所述步骤四中,解析词条infobox模块具体为:将不带有超链接的属性值作为属性添加到节点ppl_node上,将带有超链接的属性值和对应的链接记做item。
3.根据权利要求1所述的基于百科词条自动构建影视综知识图谱的方法,其特征在于:所述步骤九中,节点ppl_node和节点item_node之间的边,记做item_relation。
4.根据权利要求1所述的基于百科词条自动构建影视综知识图谱的方法,其特征在于:所述步骤十一中,ppl_node与节点movie_node之间的边,记做starred_relation1。
5.根据权利要求1所述的基于百科词条自动构建影视综知识图谱的方法,其特征在于:所述步骤十三中,ppl_node与节点role_node1之间的边,记做act_relation1。
6.根据权利要求1所述的基于百科词条自动构建影视综知识图谱的方法,其特征在于:所述步骤十五中,ppl_node与节点tv_series_node之间的边,记做starred_relation1。
7.根据权利要求1所述的基于百科词条自动构建影视综知识图谱的方法,其特征在于:所述步骤十七中,ppl_node与节点role_node2之间的边,记做act_relation2。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911140587.5A CN111090754B (zh) | 2019-11-20 | 2019-11-20 | 一种基于百科词条自动构建影视综知识图谱的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911140587.5A CN111090754B (zh) | 2019-11-20 | 2019-11-20 | 一种基于百科词条自动构建影视综知识图谱的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111090754A CN111090754A (zh) | 2020-05-01 |
CN111090754B true CN111090754B (zh) | 2023-04-07 |
Family
ID=70393505
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911140587.5A Active CN111090754B (zh) | 2019-11-20 | 2019-11-20 | 一种基于百科词条自动构建影视综知识图谱的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111090754B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102622451A (zh) * | 2012-04-16 | 2012-08-01 | 上海交通大学 | 电视节目标签自动生成系统 |
CN103729402A (zh) * | 2013-11-22 | 2014-04-16 | 浙江大学 | 一种基于图书目录的知识图谱的构建方法 |
WO2017041372A1 (zh) * | 2015-09-07 | 2017-03-16 | 百度在线网络技术(北京)有限公司 | 基于人工智能的人机交互方法和系统 |
CN108376160A (zh) * | 2018-02-12 | 2018-08-07 | 北京大学 | 一种中文知识图谱构建方法和系统 |
CN110298042A (zh) * | 2019-06-26 | 2019-10-01 | 四川长虹电器股份有限公司 | 基于Bilstm-crf与知识图谱影视实体识别方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070060114A1 (en) * | 2005-09-14 | 2007-03-15 | Jorey Ramer | Predictive text completion for a mobile communication facility |
-
2019
- 2019-11-20 CN CN201911140587.5A patent/CN111090754B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102622451A (zh) * | 2012-04-16 | 2012-08-01 | 上海交通大学 | 电视节目标签自动生成系统 |
CN103729402A (zh) * | 2013-11-22 | 2014-04-16 | 浙江大学 | 一种基于图书目录的知识图谱的构建方法 |
WO2017041372A1 (zh) * | 2015-09-07 | 2017-03-16 | 百度在线网络技术(北京)有限公司 | 基于人工智能的人机交互方法和系统 |
CN108376160A (zh) * | 2018-02-12 | 2018-08-07 | 北京大学 | 一种中文知识图谱构建方法和系统 |
CN110298042A (zh) * | 2019-06-26 | 2019-10-01 | 四川长虹电器股份有限公司 | 基于Bilstm-crf与知识图谱影视实体识别方法 |
Non-Patent Citations (1)
Title |
---|
车金立等."基于百科知识的军事装备知识图谱构建与应用".《兵器装备工程学报》.2019,148-153. * |
Also Published As
Publication number | Publication date |
---|---|
CN111090754A (zh) | 2020-05-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Hwang et al. | Structure-aware web transcoding for mobile devices | |
CN105279272A (zh) | 一种基于分布式网络爬虫的内容聚合方法 | |
CN102819969A (zh) | 多媒体教育平台的实现方法及多媒体教育平台系统 | |
CN106802896A (zh) | 基于移动终端的微课制作、播放方法和装置及学习平台 | |
CN102253994A (zh) | 自动搜索装置和自动搜索方法 | |
CN109858024B (zh) | 一种基于word2vec的房源词向量训练方法及装置 | |
CN110415569A (zh) | 校园课堂共享教育方法和系统 | |
CN110083524A (zh) | 上传数据测试方法、装置、计算机设备及存储介质 | |
CN108664546B (zh) | Xml数据结构转换方法和装置 | |
CN110297980A (zh) | 素材的展示方法、装置、服务器 | |
CN102203734B (zh) | 条件处理方法和设备 | |
Möller et al. | HLA evolved–a summary of major technical improvements | |
Nikitina et al. | “Dragon, kung fu and Jackie Chan…”: stereotypes about China held by Malaysian students | |
CN111090754B (zh) | 一种基于百科词条自动构建影视综知识图谱的方法 | |
CN110889069A (zh) | 一种基于web在线学习的资源访问平台 | |
CN106354387A (zh) | 一种基于输入法的实用云剪切板 | |
CN110650159A (zh) | 多人互动的线上教学方法、装置及系统 | |
Larsson et al. | Technology transfer: why some succeed and some don't | |
CN111078905A (zh) | 一种数据处理方法、装置、介质以及设备 | |
CN114491059A (zh) | 一种电网技能培训知识库构建方法及系统 | |
CN110544475B (zh) | 一种多语音助手的实现方法 | |
CN102104741A (zh) | 多语种字幕的编排方法及装置 | |
CN112150329A (zh) | 一种基于多模态历程化数据管理与分享的研学系统及方法 | |
CN106412138B (zh) | 一种无标签精准推送的方法和设备 | |
CN101826013A (zh) | 一种智能规划系统中操作行为的可视化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |