CN112948510B - 一种媒体行业知识图谱的构建方法 - Google Patents

一种媒体行业知识图谱的构建方法 Download PDF

Info

Publication number
CN112948510B
CN112948510B CN202110429931.3A CN202110429931A CN112948510B CN 112948510 B CN112948510 B CN 112948510B CN 202110429931 A CN202110429931 A CN 202110429931A CN 112948510 B CN112948510 B CN 112948510B
Authority
CN
China
Prior art keywords
knowledge graph
media
entity
data
triples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110429931.3A
Other languages
English (en)
Other versions
CN112948510A (zh
Inventor
孙伟芳
朱立松
黄建杰
张勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Cntv Wuxi Co ltd
Original Assignee
Cntv Wuxi Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Cntv Wuxi Co ltd filed Critical Cntv Wuxi Co ltd
Priority to CN202110429931.3A priority Critical patent/CN112948510B/zh
Publication of CN112948510A publication Critical patent/CN112948510A/zh
Application granted granted Critical
Publication of CN112948510B publication Critical patent/CN112948510B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明是媒体行业知识图谱的构建方法,包括:1)对媒体数据进行预处理,包括中文单句拆分和组合;2)采用自然语言处理方法,挖掘出有效实体和关系,按照SPO三元组的模式进行三元组建模;3)将建模的三元组存入媒体知识图谱中;4)基于挖掘出来的实体,从现有通用知识图谱中匹配抓取新闻娱乐领域数据,填补到媒体知识图谱中。本发明的优点:(1)本发明构建的媒体知识图谱的数据更丰富且更符合媒体行业的业务需求;(2)将NLP联合提取关系的模型引入到本发明媒体知识图谱的构件中,大大简化了工作的杂度,模型性能优;(3)构建的媒体知识图谱作为基础数据,可为媒体行业及企业发展提供一个大数据分析平台,数据更全面,关系更清晰。

Description

一种媒体行业知识图谱的构建方法
技术领域
本发明涉及的是一种媒体行业知识图谱的构建方法,属于知识图谱技术领域。
背景技术
随着新媒体行业的不断发展,新媒体企业每年会生产大量的视频媒资等素材,保存有海量新闻娱乐媒体的信息。基于这些素材的搜索是一项困难而艰巨的事情,对这些信息进行整合和挖掘更是难上加难。想要解决这些难题,首先要对这些数据和信息进行合理有效的整理,考虑引入知识图谱来解决。
在信息的基础上,建立实体之间的联系,就能形成“知识”。知识图谱就是这样由一条条知识组成的,每条知识表示为一个spo三元组。
每个行业每个领域的数据信息类型和分布都不尽相同,关于媒体行业,(以本公司为例)数据主要包括各类视频、媒资编目文本信息、新媒资的AI自动识别出来的人物、视频字幕识别文本等等。这些信息虽然多而全,但很杂乱。
现有技术中网络上的知识图谱信息存在不全面和不纯粹的缺陷。
基于以上情况,考虑对媒体数据进行挖掘出实体和关系,存入媒体知识图谱中。现有技术一般采用Pipeline方法,即先抽取实体、再抽取关系,性能较差。现有技术的做法多数都需要大量复杂的特征工程,并且十分依赖其他的NLP工具,这将导致误差传播问题。通过共享参数的方法将两个任务整合到同一个模型当中,但是实体抽取与关系识别任务仍然是两个分离的过程,这将造成产生大量的冗余信息。实体关系联合抽取的关键就是要得到实体对以及它们之间关系组成的三元组。有现有技术采用新颖的标注方案,它包含实体信息和他们所持有的关系,对于系列标注问题,很容易使用神经网络来建模,而不需要复杂的特征工程。但是,该模型无法考虑到实体关系重叠的问题,也就是说一个实体在上下文中可能与多个实体有不同的关系。
发明内容
本发明提出的是一种媒体行业知识图谱的构建方法,其目的旨在克服现有技术存在的上述不足,构建一种媒体行业的知识图谱来解决搜索等具体相关问题。
本发明的技术解决方案:一种媒体行业知识图谱的构建方法,包括以下步骤:
1)对媒体数据进行预处理,包括中文单句拆分和组合,即对数据进行长句拆单句补主语,将词组组成短句;
2)采用自然语言处理方法,挖掘出有效实体和关系,按照SPO三元组的模式进行三元组建模;
3)将步骤2)建模的三元组存入媒体知识图谱中;
4)基于步骤2)挖掘出来的实体,从现有通用知识图谱中匹配抓取新闻娱乐领域数据,填补到步骤3)中的媒体知识图谱中。
优选的,所述的步骤1)具体包括:
对于大段文字类的编目信息或者视频标题,采用首先进行文本拆分成单句,然后一个长句拆成多个单句时添加主语的方式进行预处理,可使用NLTK库,
对于人脸识别的信息与节目名称,采用固定关系式参与,
对于节目报幕字幕识别结果,根据识别结果组装成三元组,
使得最终的文本中都是主谓宾齐全且单一的单句。
优选的,所述的步骤2)具体是采用人工智能领域的NLP子领域中的实体识别算法和关系抽取算法组成的联合抽取方法,将实体关系联合抽取任务看作一个序列标注任务来处理,直接对三元组进行建模。
优选的,所述的步骤2)具体包括:
(1)将需要抽取的三元组表示为:(Entity1,RelationType,Entity2),其中,Entity1和Entity2为需要抽取的文中的实体,RelationType为预定义的Entity1和Entity2之间的关系;
(2)对非抽取对象用标签"O"标注,表示"Other";
(3)实体对象的标签由三部分组成:单词位置、关系类型、关系角色,其中,
单词位置使用"BIES"的方式标注,表示单词在实体中的位置信息,
关系类型直接从预定义的关系集合中获得,
关系角色直接用"1"和"2"表示,表示实体在三元组中的位置,
标签的总数为2×4×|R|+1,其中|R|是预定义的关系集的大小;
(4)对已标注的序列,根据就近原则将其合并为需要抽取的三元组。
优选的,所述的步骤3)具体是使用py2neo库将三元组存储到neo4j图形数据库中,构建媒体知识图谱。
优选的,所述的步骤4)根据导出的新闻娱乐领域数据的不同,选用Cypher语句、neo4j-import或python逐条导入的方式导入到neo4j中。
优选的,所述的通用知识图谱为ownthink,领域+实体名利用Cypher查询语句联合查询定位到正确的实体,并利用Cypher基于该实体的查询语句将该实体所有信息导入到媒体知识图谱中。
本发明的优点:(1)相较于通用知识图谱,本发明构建的媒体知识图谱的数据更丰富且更符合媒体行业的业务需求;
(2)将NLP联合提取关系的模型引入到本发明媒体知识图谱的构件中,大大简化了工作的复杂度,模型性能优于现有技术;
(3)本方法构建的媒体知识图谱,可作为基础数据,可为媒体行业及企业发展提供一个大数据分析平台,且数据更全面,关系更清晰。
附图说明
图1是本发明媒体行业知识图谱的构建方法的流程示意图。
图2是联合抽取方法的一种实施例示意图。
具体实施方式
下面结合实施例和具体实施方式对本发明作进一步详细的说明。
一种媒体行业知识图谱的构建方法,该方法包括以下步骤:
1)对由各类视频媒资编目文本信息、新媒资的AI自动识别得到的人物信息,以及视频报幕识别文本等等媒体数据进行预处理,包括中文单句拆分和组合(拆句和组句)等;
具体的,预处理包括对数据进行长句拆单句补主语,将词组组成短句。可解决论文中联合提取关系方法的缺陷。
更具体的,对于大段文字类的编目信息或者视频标题,采用首先进行文本拆分成单句,然后一个长句拆成多个单句时添加主语的方式进行预处理,可以使用NLTK库等方法,
对于人脸识别的信息与节目名称,采用固定关系式参与,
对于节目报幕字幕识别结果,根据识别结果组装成三元组(比如《春江花月夜-表演者-白杨》),
使得最终的文本里都是主谓宾齐全且单一的单句。
2)采用自然语言处理方法(现有技术,详见论文),挖掘出有效实体和关系,按照SPO三元组的模式进行三元组建模;
具体的,采用人工智能领域的NLP子领域中的实体识别算法和关系抽取算法组成的联合抽取方法(现有技术,详见论文),将实体关系联合抽取任务看作一个序列标注任务来处理,直接对三元组进行建模。
更具体的,如图2所示,包括:
(1)将需要抽取的三元组表示为:(Entity1,RelationType,Entity2),其中,Entity1和Entity2为需要抽取的文中的实体,RelationType为预定义的Entity1和Entity2之间的关系;
(2)对非抽取对象用标签"O"标注,表示"Other";
(3)实体对象的标签由三部分组成:单词位置、关系类型、关系角色,其中,
单词位置使用"BIES"的方式标注,表示单词在实体中的位置信息,
关系类型直接从预定义的关系集合中获得,
关系角色直接用"1"和"2"表示,表示实体在三元组中的位置,
标签的总数为2×4×|R|+1,其中|R|是预定义的关系集的大小;
(4)对已标注的序列,根据就近原则将其合并为需要抽取的三元组。
3)将步骤2)建模的三元组存入媒体知识图谱中;
具体的,使用py2neo库将三元组存储到neo4j图形数据库中,构建媒体知识图谱。
4)基于步骤2)挖掘出来的实体,从现有通用知识图谱中匹配抓取新闻娱乐领域数据,填补到步骤3)中的媒体知识图谱中。
具体的,根据导出的新闻娱乐领域数据的不同,选用Cypher语句、neo4j-import或python逐条导入的方式导入到neo4j中。
所述的通用知识图谱可选用ownthink(一个开放的通用知识图谱),领域+实体名利用Cypher查询语句联合查询定位到正确的实体,并利用Cypher基于该实体的查询语句将该实体所有信息导入到媒体知识图谱中。
上文所述的论文为《Joint Extraction of Entities and Relations Based ona Novel Tagging Scheme》Suncong Zheng,Feng Wang,Hongyun Bao etc 2017。
以上所述的仅是本发明的优选实施方式,应当指出,对于本领域的普通技术人员来说,在不脱离本发明创造构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。

Claims (4)

1.一种媒体行业知识图谱的构建方法,其特征是该方法包括以下步骤:
1)对媒体数据进行预处理,包括中文单句拆分和组合,即对数据进行长句拆单句补主语,将词组组成短句;
2)采用自然语言处理方法,挖掘出有效实体和关系,按照SPO三元组的模式进行三元组建模;
3)将步骤2)建模的三元组存入媒体知识图谱中;
4)基于步骤2)挖掘出来的实体,从现有通用知识图谱中匹配抓取新闻娱乐领域数据,填补到步骤3)中的媒体知识图谱中;
所述的步骤1)具体包括:
对于大段文字类的编目信息或者视频标题,采用首先进行文本拆分成单句,然后一个长句拆成多个单句时添加主语的方式进行预处理,使用NLTK库,
对于人脸识别的信息与节目名称,采用固定关系式参与,
对于节目报幕字幕识别结果,根据识别结果组装成三元组,
使得最终的文本中都是主谓宾齐全且单一的单句;
所述的步骤2)具体是采用人工智能领域的NLP子领域中的实体识别算法和关系抽取算法组成的联合抽取方法,将实体关系联合抽取任务看作一个序列标注任务来处理,直接对三元组进行建模;
所述的步骤2)具体包括:
(1)将需要抽取的三元组表示为:(Entity1,RelationType,Entity2),其中,Entity1和Entity2为需要抽取的文中的实体,RelationType为预定义的Entity1和Entity2之间的关系;
(2)对非抽取对象用标签"O"标注,表示"Other";
(3)实体对象的标签由三部分组成:单词位置、关系类型、关系角色,其中,
单词位置使用"BIES"的方式标注,表示单词在实体中的位置信息,
关系类型直接从预定义的关系集合中获得,
关系角色直接用"1"和"2"表示,表示实体在三元组中的位置,
标签的总数为2×4×|R|+1,其中|R|是预定义的关系集的大小;
(4)对已标注的序列,根据就近原则将其合并为需要抽取的三元组。
2.如权利要求1所述的一种媒体行业知识图谱的构建方法,其特征是所述的步骤3)具体是使用py2neo库将三元组存储到neo4j图形数据库中,构建媒体知识图谱。
3.如权利要求1所述的一种媒体行业知识图谱的构建方法,其特征是所述的步骤4)根据导出的新闻娱乐领域数据的不同,选用Cypher语句、neo4j-import或python逐条导入的方式导入到neo4j中。
4.如权利要求3所述的一种媒体行业知识图谱的构建方法,其特征是所述的通用知识图谱为ownthink,领域+实体名利用Cypher查询语句联合查询定位到正确的实体,并利用Cypher基于该实体的查询语句将该实体所有信息导入到媒体知识图谱中。
CN202110429931.3A 2021-04-21 2021-04-21 一种媒体行业知识图谱的构建方法 Active CN112948510B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110429931.3A CN112948510B (zh) 2021-04-21 2021-04-21 一种媒体行业知识图谱的构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110429931.3A CN112948510B (zh) 2021-04-21 2021-04-21 一种媒体行业知识图谱的构建方法

Publications (2)

Publication Number Publication Date
CN112948510A CN112948510A (zh) 2021-06-11
CN112948510B true CN112948510B (zh) 2024-02-20

Family

ID=76233191

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110429931.3A Active CN112948510B (zh) 2021-04-21 2021-04-21 一种媒体行业知识图谱的构建方法

Country Status (1)

Country Link
CN (1) CN112948510B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113435438B (zh) * 2021-06-28 2023-05-05 中国兵器装备集团自动化研究所有限公司 一种图像和字幕融合的视频报幕板提取及视频切分方法
CN117114739B (zh) * 2023-09-27 2024-05-03 数据空间研究院 一种企业供应链信息挖掘方法、挖掘系统及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108829696A (zh) * 2018-04-18 2018-11-16 西安理工大学 面向地铁设计规范中知识图谱节点自动构建方法
CN110597999A (zh) * 2019-08-01 2019-12-20 湖北工业大学 一种依存句法分析关系抽取模型的司法案件知识图谱构建方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108829696A (zh) * 2018-04-18 2018-11-16 西安理工大学 面向地铁设计规范中知识图谱节点自动构建方法
CN110597999A (zh) * 2019-08-01 2019-12-20 湖北工业大学 一种依存句法分析关系抽取模型的司法案件知识图谱构建方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
oint Extraction of Entities and Relations Based on a Novel Tagging Scheme;Suncong Zheng等;arXiv;1-10 *

Also Published As

Publication number Publication date
CN112948510A (zh) 2021-06-11

Similar Documents

Publication Publication Date Title
Zhu et al. Multimodal joint attribute prediction and value extraction for e-commerce product
US9501467B2 (en) Systems, methods, software and interfaces for entity extraction and resolution and tagging
CN111581990A (zh) 跨境交易撮合匹配方法及装置
CN112948510B (zh) 一种媒体行业知识图谱的构建方法
CN105630938A (zh) 一种智能问答系统
CA2807494C (en) Method and system for integrating web-based systems with local document processing applications
CN111339318B (zh) 基于深度学习的大学计算机基础知识图谱构建方法
CN110188454A (zh) 建筑设备与建筑信息模型匹配方法及装置
CN109241247B (zh) 多方协作项目的问题处理方法、系统及服务器
CN110263021B (zh) 一种基于个性化标签体系的主题库生成方法
CN110321549B (zh) 基于序列化学习、关系挖掘、时序分析的新概念挖掘方法
CN111191051B (zh) 一种基于中文分词技术的应急知识图谱的构建方法及系统
CN110929007A (zh) 一种电力营销知识体系平台及应用方法
CN110969517A (zh) 一种招投标生命周期关联方法、系统、存储介质及计算机设备
Ali et al. Named entity recognition using deep learning: A review
CN114254102B (zh) 一种基于自然语言的协同应急响应soar剧本推荐方法
CN116975349A (zh) 图像检索方法、装置、电子设备及存储介质
CN109446522B (zh) 一种试题自动分类系统及方法
CN110765276A (zh) 知识图谱中的实体对齐方法及装置
CN106156262A (zh) 一种搜索信息处理方法及系统
CN114153983A (zh) 一种行业知识图谱的多源构建方法
Mercan et al. Abstractive text summarization for resumes with cutting edge NLP transformers and LSTM
CN117648926A (zh) 一种基于自然语言自动创建数据模型的方法及系统
CN110309355A (zh) 内容标签的生成方法、装置、设备及存储介质
CN111178615B (zh) 一种企业风险识别模型的构建方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant