CN111221976A - 基于bert算法模型的知识图谱构建方法 - Google Patents

基于bert算法模型的知识图谱构建方法 Download PDF

Info

Publication number
CN111221976A
CN111221976A CN201911114513.4A CN201911114513A CN111221976A CN 111221976 A CN111221976 A CN 111221976A CN 201911114513 A CN201911114513 A CN 201911114513A CN 111221976 A CN111221976 A CN 111221976A
Authority
CN
China
Prior art keywords
document
relationship
knowledge
zero
return
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911114513.4A
Other languages
English (en)
Inventor
牛志超
南海涛
刘林
马语菡
王俊
费廷伟
刘戎
徐永伟
高晓琼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jinghang Computing Communication Research Institute
Original Assignee
Beijing Jinghang Computing Communication Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jinghang Computing Communication Research Institute filed Critical Beijing Jinghang Computing Communication Research Institute
Priority to CN201911114513.4A priority Critical patent/CN111221976A/zh
Publication of CN111221976A publication Critical patent/CN111221976A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明属于知识图谱技术领域,具体涉及一种基于bert算法模型的知识图谱构建方法。与现有技术相比较,本发明通过使用bert‑bilstm‑crf中文命名识别深度学习算法对归零文档段落中的数据进行实体提取;利用句法依存关系对关系提取,并通过领域图谱的上下位关系、同意关系、反义关系、关联关系实现多个文档的横向和纵向关联,形成归零文档的知识体系和知识图谱。与现有技术相比,本发明提出的技术方案,实现了军工集团归零文档知识的体系化、结构化和知识化等,同时,基于bert‑bilstm‑crf中文命名识别算法模型,也保证了段落实体提取的快速性和精准性。

Description

基于bert算法模型的知识图谱构建方法
技术领域
本发明属于知识图谱技术领域,具体涉及一种基于bert算法模型的知识图谱构建方法。
背景技术
在军工集团,每年会产生大量的归零文档,但是现阶段只是将这些非结构化文档存储在磁盘或者知识库中,缺乏有效的处理手段对归零文档的知识进行进一步的处理,而利用知识图谱的方法可以将归零文档的知识体系化、结构化和知识化。常用的知识图谱实体提取方法包括:基于语义序列核方法、特征向量法、bilstm-crf中文命名识别方法等。语义序列核方法是结合中文文本的语义特征,利用七条启发规则来抽取实体;基于特征向量法是将实体抽取问题转化为实体分类问题,常用的特征包括:上下文特征、动词特征、距离特征等;基于bilstm-crf中文命名识别方法是一种端到端的过程,不依赖特征工程,是一种数据驱动方法。
面对大量的非结构化文本,进行图谱实体提取时大多数算法都能提取文档中实体,但是都存在精确度低、速度慢、消耗人力的特点。其中,基于语义序列核方法,在构建规则的过程往往需要大量的语言学知识,不同的语言规则不尽相同,而且很难处理规则之间的冲突,同时构建规则的过程费时费力、可移植性不还;基于特征向量的实体提取方法适合于包含两个句子的关系抽取;基于bilstm-crf中文命名识别方法无法有效的增强字的语义和字的多义性、无法对文本上下文全向预测。
发明内容
(一)要解决的技术问题
本发明要解决的技术问题是:为了快速、精准处理大量、复杂、互连、多变的非结构化归零文档数据,如何形成知识图谱和知识体系,方便相关人员快速理解归零文档知识和全面的了解归零文档体系,为军工集团相关应用提供基础的数据支撑。
(二)技术方案
为解决上述技术问题,本发明提供一种基于bert算法模型的知识图谱构建方法,所述方法包括如下步骤:
步骤1:对归零文档领域的数据做预处理得到实体识别模型需要的标注数据集;利用标注数据集训练bert-bilstm-crf中文命名识别算法模型,得到归零文档实体识别模型;
步骤2:读入归零文档,对归零文档做预处理,降低异常值和冗余数据的干扰,得到低噪声的文本数据;将低噪声的文本数据按照章节目录结构进行切分,切成与章节目录对应的段落,使每个章节目录与段落一一映射,形成若干个有章节目录的段落;
步骤3:利用归零文档实体识别模型对有章节目录的段落数据进行实体提取;同时利用句法依存关系算法提取实体与实体之间的关系,将提取的关系与提取到的实体一一连接,形成知识图谱的三元组;
步骤4:因此利用上下位关系、同意关系、反义关系、关联关系将多个归零文档实体的横向和纵向关联打通,形成整体归零文档知识图谱三元组;
步骤5:将最终生成的整体归零文档知识图谱三元组存储在图数据库中,形成知识图谱,为后续的相关应用提供基础的数据支撑。
其中,所述步骤3和步骤4之间,还包括:
由于归零文档本身知识体系的不完善性,结合归零文档和公开的领域词典对提取的实体和关系进行融合和完善,使实体和关系更加完善充实,最终形成单文档的知识图谱三元组。
其中,所述公开的领域词典包括来自清华的领域词典。
其中,所述公开的领域词典包括来自百度的领域词典。
其中,所述步骤5中,所述图数据库为neo4j图数据库。
其中,所述步骤5中,所述图数据库为JanusGraph图数据库。
(三)有益效果
与现有技术相比较,本发明通过使用bert-bilstm-crf中文命名识别深度学习算法对归零文档段落中的数据进行实体提取;利用句法依存关系对关系提取,并通过领域图谱的上下位关系、同意关系、反义关系、关联关系实现多个文档的横向和纵向关联,形成归零文档的知识体系和知识图谱。与现有技术相比,本发明提出的技术方案,实现了军工集团归零文档知识的体系化、结构化和知识化等,同时,基于bert-bilstm-crf中文命名识别算法模型,也保证了段落实体提取的快速性和精准性。
附图说明
图1为基于bert算法模型的知识图谱构建流程图。
具体实施方式
为使本发明的目的、内容、和优点更加清楚,下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。
为解决现有技术问题,本发明提供一种基于bert算法模型的知识图谱构建方法,如图1所示,所述方法包括如下步骤:
步骤1:对归零文档领域的数据做预处理得到实体识别模型需要的标注数据集;利用标注数据集训练bert-bilstm-crf中文命名识别算法模型,得到归零文档实体识别模型;
步骤2:读入归零文档,对归零文档做预处理,降低异常值和冗余数据的干扰,得到低噪声的文本数据;将低噪声的文本数据按照章节目录结构进行切分,切成与章节目录对应的段落,使每个章节目录与段落一一映射,形成若干个有章节目录的段落;
步骤3:利用归零文档实体识别模型对有章节目录的段落数据进行实体提取;同时利用句法依存关系算法提取实体与实体之间的关系,将提取的关系与提取到的实体一一连接,形成知识图谱的三元组;
步骤4:在处理归零文档的时候发现,不同归零文档实体之间存在上下位关系、同意关系、反义关系、关联关系等,因此利用上下位关系、同意关系、反义关系、关联关系将多个归零文档实体的横向和纵向关联打通,形成整体归零文档知识图谱三元组;
步骤5:将最终生成的整体归零文档知识图谱三元组存储在neo4j、JanusGraph等图数据库中,形成知识图谱,为后续的相关应用提供基础的数据支撑。
由于归零文档的实体和关系没有完整的属性知识支撑,所以通过爬虫和人工手动录入填报的方式对实体和关系的属性进行补充和完善。
其中,所述步骤3和步骤4之间,还包括:
由于归零文档本身知识体系的不完善性,结合归零文档和公开(清华、百度)的领域词典对提取的实体和关系进行融合和完善,使实体和关系更加完善充实,最终形成单文档的知识图谱三元组。
其中,所述公开的领域词典包括来自清华的领域词典。
其中,所述公开的领域词典包括来自百度的领域词典。
其中,所述步骤5中,所述图数据库为neo4j图数据库。
其中,所述步骤5中,所述图数据库为JanusGraph图数据库。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (6)

1.一种基于bert算法模型的知识图谱构建方法,其特征在于,所述方法包括如下步骤:
步骤1:对归零文档领域的数据做预处理得到实体识别模型需要的标注数据集;利用标注数据集训练bert-bilstm-crf中文命名识别算法模型,得到归零文档实体识别模型;
步骤2:读入归零文档,对归零文档做预处理,降低异常值和冗余数据的干扰,得到低噪声的文本数据;将低噪声的文本数据按照章节目录结构进行切分,切成与章节目录对应的段落,使每个章节目录与段落一一映射,形成若干个有章节目录的段落;
步骤3:利用归零文档实体识别模型对有章节目录的段落数据进行实体提取;同时利用句法依存关系算法提取实体与实体之间的关系,将提取的关系与提取到的实体一一连接,形成知识图谱的三元组;
步骤4:因此利用上下位关系、同意关系、反义关系、关联关系将多个归零文档实体的横向和纵向关联打通,形成整体归零文档知识图谱三元组;
步骤5:将最终生成的整体归零文档知识图谱三元组存储在图数据库中,形成知识图谱,为后续的相关应用提供基础的数据支撑。
2.如权利要求1所述的基于bert算法模型的知识图谱构建方法,其特征在于,所述步骤3和步骤4之间,还包括:
由于归零文档本身知识体系的不完善性,结合归零文档和公开的领域词典对提取的实体和关系进行融合和完善,使实体和关系更加完善充实,最终形成单文档的知识图谱三元组。
3.如权利要求2所述的基于bert算法模型的知识图谱构建方法,其特征在于,所述公开的领域词典包括来自清华的领域词典。
4.如权利要求2所述的基于bert算法模型的知识图谱构建方法,其特征在于,所述公开的领域词典包括来自百度的领域词典。
5.如权利要求1所述的基于bert算法模型的知识图谱构建方法,其特征在于,所述步骤5中,所述图数据库为neo4j图数据库。
6.如权利要求1所述的基于bert算法模型的知识图谱构建方法,其特征在于,所述步骤5中,所述图数据库为JanusGraph图数据库。
CN201911114513.4A 2019-11-14 2019-11-14 基于bert算法模型的知识图谱构建方法 Pending CN111221976A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911114513.4A CN111221976A (zh) 2019-11-14 2019-11-14 基于bert算法模型的知识图谱构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911114513.4A CN111221976A (zh) 2019-11-14 2019-11-14 基于bert算法模型的知识图谱构建方法

Publications (1)

Publication Number Publication Date
CN111221976A true CN111221976A (zh) 2020-06-02

Family

ID=70829011

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911114513.4A Pending CN111221976A (zh) 2019-11-14 2019-11-14 基于bert算法模型的知识图谱构建方法

Country Status (1)

Country Link
CN (1) CN111221976A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112182243A (zh) * 2020-09-27 2021-01-05 中国平安财产保险股份有限公司 基于实体识别模型构建知识图谱的方法、终端及存储介质
CN112819162A (zh) * 2021-02-02 2021-05-18 东北大学 一种知识图谱三元组的质检方法
WO2021147404A1 (zh) * 2020-07-30 2021-07-29 平安科技(深圳)有限公司 依存关系分类方法及相关设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001098941A1 (en) * 2000-06-20 2001-12-27 The University Of Queensland Method of sentence analysis
CN105389302A (zh) * 2015-10-19 2016-03-09 广东电网有限责任公司电网规划研究中心 一种电网设计评审指标结构信息识别方法
US20180150753A1 (en) * 2016-11-30 2018-05-31 International Business Machines Corporation Analyzing text documents
CN108874878A (zh) * 2018-05-03 2018-11-23 众安信息技术服务有限公司 一种知识图谱的构建系统及方法
CN110287334A (zh) * 2019-06-13 2019-09-27 淮阴工学院 一种基于实体识别和属性抽取模型的学校领域知识图谱构建方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001098941A1 (en) * 2000-06-20 2001-12-27 The University Of Queensland Method of sentence analysis
CN105389302A (zh) * 2015-10-19 2016-03-09 广东电网有限责任公司电网规划研究中心 一种电网设计评审指标结构信息识别方法
US20180150753A1 (en) * 2016-11-30 2018-05-31 International Business Machines Corporation Analyzing text documents
CN108874878A (zh) * 2018-05-03 2018-11-23 众安信息技术服务有限公司 一种知识图谱的构建系统及方法
CN110287334A (zh) * 2019-06-13 2019-09-27 淮阴工学院 一种基于实体识别和属性抽取模型的学校领域知识图谱构建方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王良萸: "面向碳交易领域的知识图谱构建方法", 《计算机与现代化》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021147404A1 (zh) * 2020-07-30 2021-07-29 平安科技(深圳)有限公司 依存关系分类方法及相关设备
CN112182243A (zh) * 2020-09-27 2021-01-05 中国平安财产保险股份有限公司 基于实体识别模型构建知识图谱的方法、终端及存储介质
CN112182243B (zh) * 2020-09-27 2023-11-28 中国平安财产保险股份有限公司 基于实体识别模型构建知识图谱的方法、终端及存储介质
CN112819162A (zh) * 2021-02-02 2021-05-18 东北大学 一种知识图谱三元组的质检方法
CN112819162B (zh) * 2021-02-02 2024-02-27 东北大学 一种知识图谱三元组的质检方法

Similar Documents

Publication Publication Date Title
CN108874878B (zh) 一种知识图谱的构建系统及方法
CN110399457B (zh) 一种智能问答方法和系统
CN110866125A (zh) 基于bert算法模型的知识图谱构建系统
Gesmundo et al. Lemmatisation as a tagging task
US20100161655A1 (en) System for string matching based on segmentation method and method thereof
CN111221976A (zh) 基于bert算法模型的知识图谱构建方法
CN101079031A (zh) 一种网页主题提取系统和方法
CN110609998A (zh) 一种电子文档信息的数据提取方法、电子设备及存储介质
TWI656450B (zh) 從中文語料庫提取知識的方法和系統
US11397855B2 (en) Data standardization rules generation
CN111160030A (zh) 一种信息抽取方法、装置、及存储介质
CN113312922B (zh) 一种改进的篇章级三元组信息抽取方法
US20070005549A1 (en) Document information extraction with cascaded hybrid model
CN106372232B (zh) 基于人工智能的信息挖掘方法和装置
CN111241299A (zh) 一种法律咨询的知识图谱自动构建方法及其检索系统
Nanba et al. Bilingual PRESRI-Integration of Multiple Research Paper Databases.
CN111133429A (zh) 提取表达以供自然语言处理
CN112015907A (zh) 一种学科知识图谱快速构建方法、装置及存储介质
CN110309258B (zh) 一种输入检查方法、服务器和计算机可读存储介质
CN110705285A (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
CN115759037A (zh) 建筑施工方案智能审核框架及审核方法
Luong et al. Word graph-based multi-sentence compression: Re-ranking candidates using frequent words
CN113807102A (zh) 建立语义表示模型的方法、装置、设备和计算机存储介质
KR20220116086A (ko) 텍스트 데이터의 수집·정제 시스템 및 방법, 그 방법을 수행하기 위한 기록 매체
Maheswari et al. Rule based morphological variation removable stemming algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200602

RJ01 Rejection of invention patent application after publication