CN110866125A - 基于bert算法模型的知识图谱构建系统 - Google Patents

基于bert算法模型的知识图谱构建系统 Download PDF

Info

Publication number
CN110866125A
CN110866125A CN201911113554.1A CN201911113554A CN110866125A CN 110866125 A CN110866125 A CN 110866125A CN 201911113554 A CN201911113554 A CN 201911113554A CN 110866125 A CN110866125 A CN 110866125A
Authority
CN
China
Prior art keywords
document
relationship
knowledge
zero
return
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911113554.1A
Other languages
English (en)
Inventor
牛志超
马语菡
南海涛
刘林
王俊
费廷伟
刘戎
徐永伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jinghang Computing Communication Research Institute
Original Assignee
Beijing Jinghang Computing Communication Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jinghang Computing Communication Research Institute filed Critical Beijing Jinghang Computing Communication Research Institute
Priority to CN201911113554.1A priority Critical patent/CN110866125A/zh
Publication of CN110866125A publication Critical patent/CN110866125A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明属于知识图谱技术领域,具体涉及一种基于bert算法模型的知识图谱构建系统。与现有技术相比较,本发明通过使用bert‑bilstm‑crf中文命名识别深度学习算法对归零文档段落中的数据进行实体提取;利用句法依存关系对关系提取,并通过领域图谱的上下位关系、同意关系、反义关系、关联关系实现多个文档的横向和纵向关联,形成归零文档的知识体系和知识图谱。与现有技术相比,本发明提出的技术方案,实现了军工集团归零文档知识的体系化、结构化和知识化等,同时,基于bert‑bilstm‑crf中文命名识别算法模型,也保证了段落实体提取的快速性和精准性。

Description

基于bert算法模型的知识图谱构建系统
技术领域
本发明属于知识图谱技术领域,具体涉及一种基于bert算法模型的知识图谱构建系统。
背景技术
在军工集团,每年会产生大量的归零文档,但是现阶段只是将这些非结构化文档存储在磁盘或者知识库中,缺乏有效的处理手段对归零文档的知识进行进一步的处理,而利用知识图谱的方法可以将归零文档的知识体系化、结构化和知识化。常用的知识图谱实体提取方法包括:基于语义序列核方法、特征向量法、bilstm-crf中文命名识别方法等。语义序列核方法是结合中文文本的语义特征,利用七条启发规则来抽取实体;基于特征向量法是将实体抽取问题转化为实体分类问题,常用的特征包括:上下文特征、动词特征、距离特征等;基于bilstm-crf中文命名识别方法是一种端到端的过程,不依赖特征工程,是一种数据驱动方法。
面对大量的非结构化文本,进行图谱实体提取时大多数算法都能提取文档中实体,但是都存在精确度低、速度慢、消耗人力的特点。其中,基于语义序列核方法,在构建规则的过程往往需要大量的语言学知识,不同的语言规则不尽相同,而且很难处理规则之间的冲突,同时构建规则的过程费时费力、可移植性不还;基于特征向量的实体提取方法适合于包含两个句子的关系抽取;基于bilstm-crf中文命名识别方法无法有效的增强字的语义和字的多义性、无法对文本上下文全向预测。
发明内容
(一)要解决的技术问题
本发明要解决的技术问题是:为了快速、精准处理大量、复杂、互连、多变的非结构化归零文档数据,如何形成知识图谱和知识体系,方便相关人员快速理解归零文档知识和全面的了解归零文档体系,为军工集团相关应用提供基础的数据支撑。
(二)技术方案
为解决上述技术问题,本发明提供一种基于bert算法模型的知识图谱构建系统,所述系统包括:
领域数据预处理模块,其用于对归零文档领域的数据做预处理得到实体识别模型需要的标注数据集;
实体识别模型生成模块,其用于利用标注数据集训练bert-bilstm-crf中文命名识别算法模型,得到归零文档实体识别模型;
文档预处理模块,其用于读入归零文档,对归零文档做预处理,降低异常值和冗余数据的干扰,得到低噪声的文本数据;
文本切分模块,其用于将低噪声的文本数据按照章节目录结构进行切分,切成与章节目录对应的段落,使每个章节目录与段落一一映射,形成若干个有章节目录的段落;
实体提取模块,其用于利用归零文档实体识别模型对有章节目录的段落数据进行实体提取;
实体关系提取模块,其用于利用句法依存关系算法提取实体与实体之间的关系,将提取的关系与提取到的实体一一连接,形成知识图谱的三元组;
整合模块,其用于利用上下位关系、同意关系、反义关系、关联关系将多个归零文档实体的横向和纵向关联打通,形成整体归零文档知识图谱三元组;
知识图谱生成模块,其用于将最终生成的整体归零文档知识图谱三元组存储在图数据库中,形成知识图谱,为后续的相关应用提供基础的数据支撑。
其中,在整合模块进行整合之前,由于归零文档本身知识体系的不完善性,还可以结合归零文档和公开的领域词典对提取的实体和关系进行融合和完善,使实体和关系更加完善充实,最终形成单文档的知识图谱三元组。
其中,所述公开的领域词典包括来自清华的领域词典。
其中,所述公开的领域词典包括来自百度的领域词典。
其中,所述步骤5中,所述图数据库为neo4j图数据库。
其中,所述步骤5中,所述图数据库为JanusGraph图数据库。
(三)有益效果
与现有技术相比较,本发明通过使用bert-bilstm-crf中文命名识别深度学习算法对归零文档段落中的数据进行实体提取;利用句法依存关系对关系提取,并通过领域图谱的上下位关系、同意关系、反义关系、关联关系实现多个文档的横向和纵向关联,形成归零文档的知识体系和知识图谱。与现有技术相比,本发明提出的技术方案,实现了军工集团归零文档知识的体系化、结构化和知识化等,同时,基于bert-bilstm-crf中文命名识别算法模型,也保证了段落实体提取的快速性和精准性。
附图说明
图1为基于bert算法模型的知识图谱构建流程图。
具体实施方式
为使本发明的目的、内容、和优点更加清楚,下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。
为解决上述技术问题,本发明提供一种基于bert算法模型的知识图谱构建系统,所述系统包括:
领域数据预处理模块,其用于对归零文档领域的数据做预处理得到实体识别模型需要的标注数据集;
实体识别模型生成模块,其用于利用标注数据集训练bert-bilstm-crf中文命名识别算法模型,得到归零文档实体识别模型;
文档预处理模块,其用于读入归零文档,对归零文档做预处理,降低异常值和冗余数据的干扰,得到低噪声的文本数据;
文本切分模块,其用于将低噪声的文本数据按照章节目录结构进行切分,切成与章节目录对应的段落,使每个章节目录与段落一一映射,形成若干个有章节目录的段落;
实体提取模块,其用于利用归零文档实体识别模型对有章节目录的段落数据进行实体提取;
实体关系提取模块,其用于利用句法依存关系算法提取实体与实体之间的关系,将提取的关系与提取到的实体一一连接,形成知识图谱的三元组;
整合模块,其用于利用上下位关系、同意关系、反义关系、关联关系将多个归零文档实体的横向和纵向关联打通,形成整体归零文档知识图谱三元组;
知识图谱生成模块,其用于将最终生成的整体归零文档知识图谱三元组存储在图数据库中,形成知识图谱,为后续的相关应用提供基础的数据支撑。
其中,在整合模块进行整合之前,由于归零文档本身知识体系的不完善性,还可以结合归零文档和公开的领域词典对提取的实体和关系进行融合和完善,使实体和关系更加完善充实,最终形成单文档的知识图谱三元组。
其中,所述公开的领域词典包括来自清华的领域词典。
其中,所述公开的领域词典包括来自百度的领域词典。
其中,所述步骤5中,所述图数据库为neo4j图数据库。
其中,所述步骤5中,所述图数据库为JanusGraph图数据库。
此外,本发明还提供一种基于bert算法模型的知识图谱构建方法,如图1所示,所述方法包括如下步骤:
步骤1:对归零文档领域的数据做预处理得到实体识别模型需要的标注数据集;利用标注数据集训练bert-bilstm-crf中文命名识别算法模型,得到归零文档实体识别模型;
步骤2:读入归零文档,对归零文档做预处理,降低异常值和冗余数据的干扰,得到低噪声的文本数据;将低噪声的文本数据按照章节目录结构进行切分,切成与章节目录对应的段落,使每个章节目录与段落一一映射,形成若干个有章节目录的段落;
步骤3:利用归零文档实体识别模型对有章节目录的段落数据进行实体提取;同时利用句法依存关系算法提取实体与实体之间的关系,将提取的关系与提取到的实体一一连接,形成知识图谱的三元组;
步骤4:在处理归零文档的时候发现,不同归零文档实体之间存在上下位关系、同意关系、反义关系、关联关系等,因此利用上下位关系、同意关系、反义关系、关联关系将多个归零文档实体的横向和纵向关联打通,形成整体归零文档知识图谱三元组;
步骤5:将最终生成的整体归零文档知识图谱三元组存储在neo4j、JanusGraph等图数据库中,形成知识图谱,为后续的相关应用提供基础的数据支撑。
由于归零文档的实体和关系没有完整的属性知识支撑,所以通过爬虫和人工手动录入填报的方式对实体和关系的属性进行补充和完善。
其中,所述步骤3和步骤4之间,还包括:
由于归零文档本身知识体系的不完善性,结合归零文档和公开(清华、百度)的领域词典对提取的实体和关系进行融合和完善,使实体和关系更加完善充实,最终形成单文档的知识图谱三元组。
其中,所述公开的领域词典包括来自清华的领域词典。
其中,所述公开的领域词典包括来自百度的领域词典。
其中,所述步骤5中,所述图数据库为neo4j图数据库。
其中,所述步骤5中,所述图数据库为JanusGraph图数据库。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (6)

1.一种基于bert算法模型的知识图谱构建系统,其特征在于,所述系统包括:
领域数据预处理模块,其用于对归零文档领域的数据做预处理得到实体识别模型需要的标注数据集;
实体识别模型生成模块,其用于利用标注数据集训练bert-bilstm-crf中文命名识别算法模型,得到归零文档实体识别模型;
文档预处理模块,其用于读入归零文档,对归零文档做预处理,降低异常值和冗余数据的干扰,得到低噪声的文本数据;
文本切分模块,其用于将低噪声的文本数据按照章节目录结构进行切分,切成与章节目录对应的段落,使每个章节目录与段落一一映射,形成若干个有章节目录的段落;
实体提取模块,其用于利用归零文档实体识别模型对有章节目录的段落数据进行实体提取;
实体关系提取模块,其用于利用句法依存关系算法提取实体与实体之间的关系,将提取的关系与提取到的实体一一连接,形成知识图谱的三元组;
整合模块,其用于利用上下位关系、同意关系、反义关系、关联关系将多个归零文档实体的横向和纵向关联打通,形成整体归零文档知识图谱三元组;
知识图谱生成模块,其用于将最终生成的整体归零文档知识图谱三元组存储在图数据库中,形成知识图谱,为后续的相关应用提供基础的数据支撑。
2.如权利要求1所述的基于bert算法模型的知识图谱构建系统,其特征在于,在整合模块进行整合之前,由于归零文档本身知识体系的不完善性,还可以结合归零文档和公开的领域词典对提取的实体和关系进行融合和完善,使实体和关系更加完善充实,最终形成单文档的知识图谱三元组。
3.如权利要求2所述的基于bert算法模型的知识图谱构建系统,其特征在于,所述公开的领域词典包括来自清华的领域词典。
4.如权利要求2所述的基于bert算法模型的知识图谱构建系统,其特征在于,所述公开的领域词典包括来自百度的领域词典。
5.如权利要求1所述的基于bert算法模型的知识图谱构建系统,其特征在于,所述步骤5中,所述图数据库为neo4j图数据库。
6.如权利要求1所述的基于bert算法模型的知识图谱构建系统,其特征在于,所述步骤5中,所述图数据库为JanusGraph图数据库。
CN201911113554.1A 2019-11-14 2019-11-14 基于bert算法模型的知识图谱构建系统 Pending CN110866125A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911113554.1A CN110866125A (zh) 2019-11-14 2019-11-14 基于bert算法模型的知识图谱构建系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911113554.1A CN110866125A (zh) 2019-11-14 2019-11-14 基于bert算法模型的知识图谱构建系统

Publications (1)

Publication Number Publication Date
CN110866125A true CN110866125A (zh) 2020-03-06

Family

ID=69653990

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911113554.1A Pending CN110866125A (zh) 2019-11-14 2019-11-14 基于bert算法模型的知识图谱构建系统

Country Status (1)

Country Link
CN (1) CN110866125A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111476034A (zh) * 2020-04-07 2020-07-31 同方赛威讯信息技术有限公司 基于规则和模型结合的法律文书信息抽取方法及系统
CN111767368A (zh) * 2020-05-27 2020-10-13 重庆邮电大学 一种基于实体链接的问答知识图谱构建方法及存储介质
CN112199519A (zh) * 2020-11-18 2021-01-08 北京观微科技有限公司 一种基于Bert的实体关系流水线抽取方法和系统
CN112395427A (zh) * 2020-12-01 2021-02-23 北京中电普华信息技术有限公司 一种技术标准知识图谱的构建方法及系统
CN113157916A (zh) * 2021-03-10 2021-07-23 南京航空航天大学 一种基于深度学习的民航突发事件抽取方法
CN113297347A (zh) * 2021-06-29 2021-08-24 中国人民解放军国防科技大学 一种专业文书阅读的智能辅助方法、系统及存储介质
CN113887199A (zh) * 2021-09-29 2022-01-04 合肥文因互联科技有限公司 一种基于知识库的金融文本核查系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105389302A (zh) * 2015-10-19 2016-03-09 广东电网有限责任公司电网规划研究中心 一种电网设计评审指标结构信息识别方法
CN108874878A (zh) * 2018-05-03 2018-11-23 众安信息技术服务有限公司 一种知识图谱的构建系统及方法
CN110287334A (zh) * 2019-06-13 2019-09-27 淮阴工学院 一种基于实体识别和属性抽取模型的学校领域知识图谱构建方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105389302A (zh) * 2015-10-19 2016-03-09 广东电网有限责任公司电网规划研究中心 一种电网设计评审指标结构信息识别方法
CN108874878A (zh) * 2018-05-03 2018-11-23 众安信息技术服务有限公司 一种知识图谱的构建系统及方法
CN110287334A (zh) * 2019-06-13 2019-09-27 淮阴工学院 一种基于实体识别和属性抽取模型的学校领域知识图谱构建方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111476034A (zh) * 2020-04-07 2020-07-31 同方赛威讯信息技术有限公司 基于规则和模型结合的法律文书信息抽取方法及系统
CN111767368A (zh) * 2020-05-27 2020-10-13 重庆邮电大学 一种基于实体链接的问答知识图谱构建方法及存储介质
CN112199519A (zh) * 2020-11-18 2021-01-08 北京观微科技有限公司 一种基于Bert的实体关系流水线抽取方法和系统
CN112395427A (zh) * 2020-12-01 2021-02-23 北京中电普华信息技术有限公司 一种技术标准知识图谱的构建方法及系统
CN113157916A (zh) * 2021-03-10 2021-07-23 南京航空航天大学 一种基于深度学习的民航突发事件抽取方法
CN113297347A (zh) * 2021-06-29 2021-08-24 中国人民解放军国防科技大学 一种专业文书阅读的智能辅助方法、系统及存储介质
CN113887199A (zh) * 2021-09-29 2022-01-04 合肥文因互联科技有限公司 一种基于知识库的金融文本核查系统

Similar Documents

Publication Publication Date Title
CN108874878B (zh) 一种知识图谱的构建系统及方法
CN110866125A (zh) 基于bert算法模型的知识图谱构建系统
CN111221976A (zh) 基于bert算法模型的知识图谱构建方法
CN110502642B (zh) 一种基于依存句法分析与规则的实体关系抽取方法
CN106777275A (zh) 基于多粒度语义块的实体属性和属性值提取方法
US20100161655A1 (en) System for string matching based on segmentation method and method thereof
CN101079031A (zh) 一种网页主题提取系统和方法
CN113312922B (zh) 一种改进的篇章级三元组信息抽取方法
CN110609998A (zh) 一种电子文档信息的数据提取方法、电子设备及存储介质
CN107180045A (zh) 一种互联网文本蕴含地理实体关系的抽取方法
CN111160030A (zh) 一种信息抽取方法、装置、及存储介质
CN112417891B (zh) 一种基于开放式信息抽取的文本关系自动标注方法
CN104750820A (zh) 一种语料库的过滤方法及装置
CN107515849A (zh) 一种成词判定模型生成方法、新词发现方法及装置
US20070005549A1 (en) Document information extraction with cascaded hybrid model
CN115759037A (zh) 建筑施工方案智能审核框架及审核方法
CN108021682A (zh) 开放式信息抽取背景下一种基于维基百科的实体语义化方法
CN115017335A (zh) 知识图谱构建方法和系统
CN111241299A (zh) 一种法律咨询的知识图谱自动构建方法及其检索系统
CN111133429A (zh) 提取表达以供自然语言处理
Chang et al. Enhancing POI search on maps via online address extraction and associated information segmentation
JP2024003750A (ja) 言語モデルの訓練方法、装置、電子デバイス及び記憶媒体
CN113297349B (zh) 一种基于知识图谱的ros软件包推荐方法及系统
Maheswari et al. Rule based morphological variation removable stemming algorithm
CN115827817A (zh) 一种文本类别的确定方法、相关装置以及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200306

RJ01 Rejection of invention patent application after publication