CN112948510B - 一种媒体行业知识图谱的构建方法 - Google Patents
一种媒体行业知识图谱的构建方法 Download PDFInfo
- Publication number
- CN112948510B CN112948510B CN202110429931.3A CN202110429931A CN112948510B CN 112948510 B CN112948510 B CN 112948510B CN 202110429931 A CN202110429931 A CN 202110429931A CN 112948510 B CN112948510 B CN 112948510B
- Authority
- CN
- China
- Prior art keywords
- knowledge graph
- media
- entity
- data
- triples
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000010276 construction Methods 0.000 title description 3
- 238000000605 extraction Methods 0.000 claims abstract description 20
- 238000000034 method Methods 0.000 claims abstract description 17
- 238000003058 natural language processing Methods 0.000 claims abstract description 10
- 238000007781 pre-processing Methods 0.000 claims abstract description 8
- 238000002372 labelling Methods 0.000 claims description 8
- 238000013473 artificial intelligence Methods 0.000 claims description 3
- 239000013589 supplement Substances 0.000 claims description 3
- 238000007405 data analysis Methods 0.000 abstract description 2
- 239000012535 impurity Substances 0.000 abstract 1
- 230000007547 defect Effects 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 238000005065 mining Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明是媒体行业知识图谱的构建方法,包括:1)对媒体数据进行预处理,包括中文单句拆分和组合;2)采用自然语言处理方法,挖掘出有效实体和关系,按照SPO三元组的模式进行三元组建模;3)将建模的三元组存入媒体知识图谱中;4)基于挖掘出来的实体,从现有通用知识图谱中匹配抓取新闻娱乐领域数据,填补到媒体知识图谱中。本发明的优点:(1)本发明构建的媒体知识图谱的数据更丰富且更符合媒体行业的业务需求;(2)将NLP联合提取关系的模型引入到本发明媒体知识图谱的构件中,大大简化了工作的杂度,模型性能优;(3)构建的媒体知识图谱作为基础数据,可为媒体行业及企业发展提供一个大数据分析平台,数据更全面,关系更清晰。
Description
技术领域
本发明涉及的是一种媒体行业知识图谱的构建方法,属于知识图谱技术领域。
背景技术
随着新媒体行业的不断发展,新媒体企业每年会生产大量的视频媒资等素材,保存有海量新闻娱乐媒体的信息。基于这些素材的搜索是一项困难而艰巨的事情,对这些信息进行整合和挖掘更是难上加难。想要解决这些难题,首先要对这些数据和信息进行合理有效的整理,考虑引入知识图谱来解决。
在信息的基础上,建立实体之间的联系,就能形成“知识”。知识图谱就是这样由一条条知识组成的,每条知识表示为一个spo三元组。
每个行业每个领域的数据信息类型和分布都不尽相同,关于媒体行业,(以本公司为例)数据主要包括各类视频、媒资编目文本信息、新媒资的AI自动识别出来的人物、视频字幕识别文本等等。这些信息虽然多而全,但很杂乱。
现有技术中网络上的知识图谱信息存在不全面和不纯粹的缺陷。
基于以上情况,考虑对媒体数据进行挖掘出实体和关系,存入媒体知识图谱中。现有技术一般采用Pipeline方法,即先抽取实体、再抽取关系,性能较差。现有技术的做法多数都需要大量复杂的特征工程,并且十分依赖其他的NLP工具,这将导致误差传播问题。通过共享参数的方法将两个任务整合到同一个模型当中,但是实体抽取与关系识别任务仍然是两个分离的过程,这将造成产生大量的冗余信息。实体关系联合抽取的关键就是要得到实体对以及它们之间关系组成的三元组。有现有技术采用新颖的标注方案,它包含实体信息和他们所持有的关系,对于系列标注问题,很容易使用神经网络来建模,而不需要复杂的特征工程。但是,该模型无法考虑到实体关系重叠的问题,也就是说一个实体在上下文中可能与多个实体有不同的关系。
发明内容
本发明提出的是一种媒体行业知识图谱的构建方法,其目的旨在克服现有技术存在的上述不足,构建一种媒体行业的知识图谱来解决搜索等具体相关问题。
本发明的技术解决方案:一种媒体行业知识图谱的构建方法,包括以下步骤:
1)对媒体数据进行预处理,包括中文单句拆分和组合,即对数据进行长句拆单句补主语,将词组组成短句;
2)采用自然语言处理方法,挖掘出有效实体和关系,按照SPO三元组的模式进行三元组建模;
3)将步骤2)建模的三元组存入媒体知识图谱中;
4)基于步骤2)挖掘出来的实体,从现有通用知识图谱中匹配抓取新闻娱乐领域数据,填补到步骤3)中的媒体知识图谱中。
优选的,所述的步骤1)具体包括:
对于大段文字类的编目信息或者视频标题,采用首先进行文本拆分成单句,然后一个长句拆成多个单句时添加主语的方式进行预处理,可使用NLTK库,
对于人脸识别的信息与节目名称,采用固定关系式参与,
对于节目报幕字幕识别结果,根据识别结果组装成三元组,
使得最终的文本中都是主谓宾齐全且单一的单句。
优选的,所述的步骤2)具体是采用人工智能领域的NLP子领域中的实体识别算法和关系抽取算法组成的联合抽取方法,将实体关系联合抽取任务看作一个序列标注任务来处理,直接对三元组进行建模。
优选的,所述的步骤2)具体包括:
(1)将需要抽取的三元组表示为:(Entity1,RelationType,Entity2),其中,Entity1和Entity2为需要抽取的文中的实体,RelationType为预定义的Entity1和Entity2之间的关系;
(2)对非抽取对象用标签"O"标注,表示"Other";
(3)实体对象的标签由三部分组成:单词位置、关系类型、关系角色,其中,
单词位置使用"BIES"的方式标注,表示单词在实体中的位置信息,
关系类型直接从预定义的关系集合中获得,
关系角色直接用"1"和"2"表示,表示实体在三元组中的位置,
标签的总数为2×4×|R|+1,其中|R|是预定义的关系集的大小;
(4)对已标注的序列,根据就近原则将其合并为需要抽取的三元组。
优选的,所述的步骤3)具体是使用py2neo库将三元组存储到neo4j图形数据库中,构建媒体知识图谱。
优选的,所述的步骤4)根据导出的新闻娱乐领域数据的不同,选用Cypher语句、neo4j-import或python逐条导入的方式导入到neo4j中。
优选的,所述的通用知识图谱为ownthink,领域+实体名利用Cypher查询语句联合查询定位到正确的实体,并利用Cypher基于该实体的查询语句将该实体所有信息导入到媒体知识图谱中。
本发明的优点:(1)相较于通用知识图谱,本发明构建的媒体知识图谱的数据更丰富且更符合媒体行业的业务需求;
(2)将NLP联合提取关系的模型引入到本发明媒体知识图谱的构件中,大大简化了工作的复杂度,模型性能优于现有技术;
(3)本方法构建的媒体知识图谱,可作为基础数据,可为媒体行业及企业发展提供一个大数据分析平台,且数据更全面,关系更清晰。
附图说明
图1是本发明媒体行业知识图谱的构建方法的流程示意图。
图2是联合抽取方法的一种实施例示意图。
具体实施方式
下面结合实施例和具体实施方式对本发明作进一步详细的说明。
一种媒体行业知识图谱的构建方法,该方法包括以下步骤:
1)对由各类视频媒资编目文本信息、新媒资的AI自动识别得到的人物信息,以及视频报幕识别文本等等媒体数据进行预处理,包括中文单句拆分和组合(拆句和组句)等;
具体的,预处理包括对数据进行长句拆单句补主语,将词组组成短句。可解决论文中联合提取关系方法的缺陷。
更具体的,对于大段文字类的编目信息或者视频标题,采用首先进行文本拆分成单句,然后一个长句拆成多个单句时添加主语的方式进行预处理,可以使用NLTK库等方法,
对于人脸识别的信息与节目名称,采用固定关系式参与,
对于节目报幕字幕识别结果,根据识别结果组装成三元组(比如《春江花月夜-表演者-白杨》),
使得最终的文本里都是主谓宾齐全且单一的单句。
2)采用自然语言处理方法(现有技术,详见论文),挖掘出有效实体和关系,按照SPO三元组的模式进行三元组建模;
具体的,采用人工智能领域的NLP子领域中的实体识别算法和关系抽取算法组成的联合抽取方法(现有技术,详见论文),将实体关系联合抽取任务看作一个序列标注任务来处理,直接对三元组进行建模。
更具体的,如图2所示,包括:
(1)将需要抽取的三元组表示为:(Entity1,RelationType,Entity2),其中,Entity1和Entity2为需要抽取的文中的实体,RelationType为预定义的Entity1和Entity2之间的关系;
(2)对非抽取对象用标签"O"标注,表示"Other";
(3)实体对象的标签由三部分组成:单词位置、关系类型、关系角色,其中,
单词位置使用"BIES"的方式标注,表示单词在实体中的位置信息,
关系类型直接从预定义的关系集合中获得,
关系角色直接用"1"和"2"表示,表示实体在三元组中的位置,
标签的总数为2×4×|R|+1,其中|R|是预定义的关系集的大小;
(4)对已标注的序列,根据就近原则将其合并为需要抽取的三元组。
3)将步骤2)建模的三元组存入媒体知识图谱中;
具体的,使用py2neo库将三元组存储到neo4j图形数据库中,构建媒体知识图谱。
4)基于步骤2)挖掘出来的实体,从现有通用知识图谱中匹配抓取新闻娱乐领域数据,填补到步骤3)中的媒体知识图谱中。
具体的,根据导出的新闻娱乐领域数据的不同,选用Cypher语句、neo4j-import或python逐条导入的方式导入到neo4j中。
所述的通用知识图谱可选用ownthink(一个开放的通用知识图谱),领域+实体名利用Cypher查询语句联合查询定位到正确的实体,并利用Cypher基于该实体的查询语句将该实体所有信息导入到媒体知识图谱中。
上文所述的论文为《Joint Extraction of Entities and Relations Based ona Novel Tagging Scheme》Suncong Zheng,Feng Wang,Hongyun Bao etc 2017。
以上所述的仅是本发明的优选实施方式,应当指出,对于本领域的普通技术人员来说,在不脱离本发明创造构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。
Claims (4)
1.一种媒体行业知识图谱的构建方法,其特征是该方法包括以下步骤:
1)对媒体数据进行预处理,包括中文单句拆分和组合,即对数据进行长句拆单句补主语,将词组组成短句;
2)采用自然语言处理方法,挖掘出有效实体和关系,按照SPO三元组的模式进行三元组建模;
3)将步骤2)建模的三元组存入媒体知识图谱中;
4)基于步骤2)挖掘出来的实体,从现有通用知识图谱中匹配抓取新闻娱乐领域数据,填补到步骤3)中的媒体知识图谱中;
所述的步骤1)具体包括:
对于大段文字类的编目信息或者视频标题,采用首先进行文本拆分成单句,然后一个长句拆成多个单句时添加主语的方式进行预处理,使用NLTK库,
对于人脸识别的信息与节目名称,采用固定关系式参与,
对于节目报幕字幕识别结果,根据识别结果组装成三元组,
使得最终的文本中都是主谓宾齐全且单一的单句;
所述的步骤2)具体是采用人工智能领域的NLP子领域中的实体识别算法和关系抽取算法组成的联合抽取方法,将实体关系联合抽取任务看作一个序列标注任务来处理,直接对三元组进行建模;
所述的步骤2)具体包括:
(1)将需要抽取的三元组表示为:(Entity1,RelationType,Entity2),其中,Entity1和Entity2为需要抽取的文中的实体,RelationType为预定义的Entity1和Entity2之间的关系;
(2)对非抽取对象用标签"O"标注,表示"Other";
(3)实体对象的标签由三部分组成:单词位置、关系类型、关系角色,其中,
单词位置使用"BIES"的方式标注,表示单词在实体中的位置信息,
关系类型直接从预定义的关系集合中获得,
关系角色直接用"1"和"2"表示,表示实体在三元组中的位置,
标签的总数为2×4×|R|+1,其中|R|是预定义的关系集的大小;
(4)对已标注的序列,根据就近原则将其合并为需要抽取的三元组。
2.如权利要求1所述的一种媒体行业知识图谱的构建方法,其特征是所述的步骤3)具体是使用py2neo库将三元组存储到neo4j图形数据库中,构建媒体知识图谱。
3.如权利要求1所述的一种媒体行业知识图谱的构建方法,其特征是所述的步骤4)根据导出的新闻娱乐领域数据的不同,选用Cypher语句、neo4j-import或python逐条导入的方式导入到neo4j中。
4.如权利要求3所述的一种媒体行业知识图谱的构建方法,其特征是所述的通用知识图谱为ownthink,领域+实体名利用Cypher查询语句联合查询定位到正确的实体,并利用Cypher基于该实体的查询语句将该实体所有信息导入到媒体知识图谱中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110429931.3A CN112948510B (zh) | 2021-04-21 | 2021-04-21 | 一种媒体行业知识图谱的构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110429931.3A CN112948510B (zh) | 2021-04-21 | 2021-04-21 | 一种媒体行业知识图谱的构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112948510A CN112948510A (zh) | 2021-06-11 |
CN112948510B true CN112948510B (zh) | 2024-02-20 |
Family
ID=76233191
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110429931.3A Active CN112948510B (zh) | 2021-04-21 | 2021-04-21 | 一种媒体行业知识图谱的构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112948510B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113435438B (zh) * | 2021-06-28 | 2023-05-05 | 中国兵器装备集团自动化研究所有限公司 | 一种图像和字幕融合的视频报幕板提取及视频切分方法 |
CN117114739B (zh) * | 2023-09-27 | 2024-05-03 | 数据空间研究院 | 一种企业供应链信息挖掘方法、挖掘系统及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108829696A (zh) * | 2018-04-18 | 2018-11-16 | 西安理工大学 | 面向地铁设计规范中知识图谱节点自动构建方法 |
CN110597999A (zh) * | 2019-08-01 | 2019-12-20 | 湖北工业大学 | 一种依存句法分析关系抽取模型的司法案件知识图谱构建方法 |
-
2021
- 2021-04-21 CN CN202110429931.3A patent/CN112948510B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108829696A (zh) * | 2018-04-18 | 2018-11-16 | 西安理工大学 | 面向地铁设计规范中知识图谱节点自动构建方法 |
CN110597999A (zh) * | 2019-08-01 | 2019-12-20 | 湖北工业大学 | 一种依存句法分析关系抽取模型的司法案件知识图谱构建方法 |
Non-Patent Citations (1)
Title |
---|
oint Extraction of Entities and Relations Based on a Novel Tagging Scheme;Suncong Zheng等;arXiv;1-10 * |
Also Published As
Publication number | Publication date |
---|---|
CN112948510A (zh) | 2021-06-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhu et al. | Multimodal joint attribute prediction and value extraction for e-commerce product | |
US9501467B2 (en) | Systems, methods, software and interfaces for entity extraction and resolution and tagging | |
CN111581990A (zh) | 跨境交易撮合匹配方法及装置 | |
CN112948510B (zh) | 一种媒体行业知识图谱的构建方法 | |
CN105630938A (zh) | 一种智能问答系统 | |
CA2807494C (en) | Method and system for integrating web-based systems with local document processing applications | |
CN111339318B (zh) | 基于深度学习的大学计算机基础知识图谱构建方法 | |
CN110188454A (zh) | 建筑设备与建筑信息模型匹配方法及装置 | |
CN109241247B (zh) | 多方协作项目的问题处理方法、系统及服务器 | |
CN110263021B (zh) | 一种基于个性化标签体系的主题库生成方法 | |
CN110321549B (zh) | 基于序列化学习、关系挖掘、时序分析的新概念挖掘方法 | |
CN111191051B (zh) | 一种基于中文分词技术的应急知识图谱的构建方法及系统 | |
CN110929007A (zh) | 一种电力营销知识体系平台及应用方法 | |
CN110969517A (zh) | 一种招投标生命周期关联方法、系统、存储介质及计算机设备 | |
Ali et al. | Named entity recognition using deep learning: A review | |
CN114254102B (zh) | 一种基于自然语言的协同应急响应soar剧本推荐方法 | |
CN116975349A (zh) | 图像检索方法、装置、电子设备及存储介质 | |
CN109446522B (zh) | 一种试题自动分类系统及方法 | |
CN110765276A (zh) | 知识图谱中的实体对齐方法及装置 | |
CN106156262A (zh) | 一种搜索信息处理方法及系统 | |
CN114153983A (zh) | 一种行业知识图谱的多源构建方法 | |
Mercan et al. | Abstractive text summarization for resumes with cutting edge NLP transformers and LSTM | |
CN117648926A (zh) | 一种基于自然语言自动创建数据模型的方法及系统 | |
CN110309355A (zh) | 内容标签的生成方法、装置、设备及存储介质 | |
CN111178615B (zh) | 一种企业风险识别模型的构建方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |