CN111221976A - 基于bert算法模型的知识图谱构建方法 - Google Patents
基于bert算法模型的知识图谱构建方法 Download PDFInfo
- Publication number
- CN111221976A CN111221976A CN201911114513.4A CN201911114513A CN111221976A CN 111221976 A CN111221976 A CN 111221976A CN 201911114513 A CN201911114513 A CN 201911114513A CN 111221976 A CN111221976 A CN 111221976A
- Authority
- CN
- China
- Prior art keywords
- document
- relationship
- knowledge
- zero
- return
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明属于知识图谱技术领域,具体涉及一种基于bert算法模型的知识图谱构建方法。与现有技术相比较,本发明通过使用bert‑bilstm‑crf中文命名识别深度学习算法对归零文档段落中的数据进行实体提取;利用句法依存关系对关系提取,并通过领域图谱的上下位关系、同意关系、反义关系、关联关系实现多个文档的横向和纵向关联,形成归零文档的知识体系和知识图谱。与现有技术相比,本发明提出的技术方案,实现了军工集团归零文档知识的体系化、结构化和知识化等,同时,基于bert‑bilstm‑crf中文命名识别算法模型,也保证了段落实体提取的快速性和精准性。
Description
技术领域
本发明属于知识图谱技术领域,具体涉及一种基于bert算法模型的知识图谱构建方法。
背景技术
在军工集团,每年会产生大量的归零文档,但是现阶段只是将这些非结构化文档存储在磁盘或者知识库中,缺乏有效的处理手段对归零文档的知识进行进一步的处理,而利用知识图谱的方法可以将归零文档的知识体系化、结构化和知识化。常用的知识图谱实体提取方法包括:基于语义序列核方法、特征向量法、bilstm-crf中文命名识别方法等。语义序列核方法是结合中文文本的语义特征,利用七条启发规则来抽取实体;基于特征向量法是将实体抽取问题转化为实体分类问题,常用的特征包括:上下文特征、动词特征、距离特征等;基于bilstm-crf中文命名识别方法是一种端到端的过程,不依赖特征工程,是一种数据驱动方法。
面对大量的非结构化文本,进行图谱实体提取时大多数算法都能提取文档中实体,但是都存在精确度低、速度慢、消耗人力的特点。其中,基于语义序列核方法,在构建规则的过程往往需要大量的语言学知识,不同的语言规则不尽相同,而且很难处理规则之间的冲突,同时构建规则的过程费时费力、可移植性不还;基于特征向量的实体提取方法适合于包含两个句子的关系抽取;基于bilstm-crf中文命名识别方法无法有效的增强字的语义和字的多义性、无法对文本上下文全向预测。
发明内容
(一)要解决的技术问题
本发明要解决的技术问题是:为了快速、精准处理大量、复杂、互连、多变的非结构化归零文档数据,如何形成知识图谱和知识体系,方便相关人员快速理解归零文档知识和全面的了解归零文档体系,为军工集团相关应用提供基础的数据支撑。
(二)技术方案
为解决上述技术问题,本发明提供一种基于bert算法模型的知识图谱构建方法,所述方法包括如下步骤:
步骤1:对归零文档领域的数据做预处理得到实体识别模型需要的标注数据集;利用标注数据集训练bert-bilstm-crf中文命名识别算法模型,得到归零文档实体识别模型;
步骤2:读入归零文档,对归零文档做预处理,降低异常值和冗余数据的干扰,得到低噪声的文本数据;将低噪声的文本数据按照章节目录结构进行切分,切成与章节目录对应的段落,使每个章节目录与段落一一映射,形成若干个有章节目录的段落;
步骤3:利用归零文档实体识别模型对有章节目录的段落数据进行实体提取;同时利用句法依存关系算法提取实体与实体之间的关系,将提取的关系与提取到的实体一一连接,形成知识图谱的三元组;
步骤4:因此利用上下位关系、同意关系、反义关系、关联关系将多个归零文档实体的横向和纵向关联打通,形成整体归零文档知识图谱三元组;
步骤5:将最终生成的整体归零文档知识图谱三元组存储在图数据库中,形成知识图谱,为后续的相关应用提供基础的数据支撑。
其中,所述步骤3和步骤4之间,还包括:
由于归零文档本身知识体系的不完善性,结合归零文档和公开的领域词典对提取的实体和关系进行融合和完善,使实体和关系更加完善充实,最终形成单文档的知识图谱三元组。
其中,所述公开的领域词典包括来自清华的领域词典。
其中,所述公开的领域词典包括来自百度的领域词典。
其中,所述步骤5中,所述图数据库为neo4j图数据库。
其中,所述步骤5中,所述图数据库为JanusGraph图数据库。
(三)有益效果
与现有技术相比较,本发明通过使用bert-bilstm-crf中文命名识别深度学习算法对归零文档段落中的数据进行实体提取;利用句法依存关系对关系提取,并通过领域图谱的上下位关系、同意关系、反义关系、关联关系实现多个文档的横向和纵向关联,形成归零文档的知识体系和知识图谱。与现有技术相比,本发明提出的技术方案,实现了军工集团归零文档知识的体系化、结构化和知识化等,同时,基于bert-bilstm-crf中文命名识别算法模型,也保证了段落实体提取的快速性和精准性。
附图说明
图1为基于bert算法模型的知识图谱构建流程图。
具体实施方式
为使本发明的目的、内容、和优点更加清楚,下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。
为解决现有技术问题,本发明提供一种基于bert算法模型的知识图谱构建方法,如图1所示,所述方法包括如下步骤:
步骤1:对归零文档领域的数据做预处理得到实体识别模型需要的标注数据集;利用标注数据集训练bert-bilstm-crf中文命名识别算法模型,得到归零文档实体识别模型;
步骤2:读入归零文档,对归零文档做预处理,降低异常值和冗余数据的干扰,得到低噪声的文本数据;将低噪声的文本数据按照章节目录结构进行切分,切成与章节目录对应的段落,使每个章节目录与段落一一映射,形成若干个有章节目录的段落;
步骤3:利用归零文档实体识别模型对有章节目录的段落数据进行实体提取;同时利用句法依存关系算法提取实体与实体之间的关系,将提取的关系与提取到的实体一一连接,形成知识图谱的三元组;
步骤4:在处理归零文档的时候发现,不同归零文档实体之间存在上下位关系、同意关系、反义关系、关联关系等,因此利用上下位关系、同意关系、反义关系、关联关系将多个归零文档实体的横向和纵向关联打通,形成整体归零文档知识图谱三元组;
步骤5:将最终生成的整体归零文档知识图谱三元组存储在neo4j、JanusGraph等图数据库中,形成知识图谱,为后续的相关应用提供基础的数据支撑。
由于归零文档的实体和关系没有完整的属性知识支撑,所以通过爬虫和人工手动录入填报的方式对实体和关系的属性进行补充和完善。
其中,所述步骤3和步骤4之间,还包括:
由于归零文档本身知识体系的不完善性,结合归零文档和公开(清华、百度)的领域词典对提取的实体和关系进行融合和完善,使实体和关系更加完善充实,最终形成单文档的知识图谱三元组。
其中,所述公开的领域词典包括来自清华的领域词典。
其中,所述公开的领域词典包括来自百度的领域词典。
其中,所述步骤5中,所述图数据库为neo4j图数据库。
其中,所述步骤5中,所述图数据库为JanusGraph图数据库。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
Claims (6)
1.一种基于bert算法模型的知识图谱构建方法,其特征在于,所述方法包括如下步骤:
步骤1:对归零文档领域的数据做预处理得到实体识别模型需要的标注数据集;利用标注数据集训练bert-bilstm-crf中文命名识别算法模型,得到归零文档实体识别模型;
步骤2:读入归零文档,对归零文档做预处理,降低异常值和冗余数据的干扰,得到低噪声的文本数据;将低噪声的文本数据按照章节目录结构进行切分,切成与章节目录对应的段落,使每个章节目录与段落一一映射,形成若干个有章节目录的段落;
步骤3:利用归零文档实体识别模型对有章节目录的段落数据进行实体提取;同时利用句法依存关系算法提取实体与实体之间的关系,将提取的关系与提取到的实体一一连接,形成知识图谱的三元组;
步骤4:因此利用上下位关系、同意关系、反义关系、关联关系将多个归零文档实体的横向和纵向关联打通,形成整体归零文档知识图谱三元组;
步骤5:将最终生成的整体归零文档知识图谱三元组存储在图数据库中,形成知识图谱,为后续的相关应用提供基础的数据支撑。
2.如权利要求1所述的基于bert算法模型的知识图谱构建方法,其特征在于,所述步骤3和步骤4之间,还包括:
由于归零文档本身知识体系的不完善性,结合归零文档和公开的领域词典对提取的实体和关系进行融合和完善,使实体和关系更加完善充实,最终形成单文档的知识图谱三元组。
3.如权利要求2所述的基于bert算法模型的知识图谱构建方法,其特征在于,所述公开的领域词典包括来自清华的领域词典。
4.如权利要求2所述的基于bert算法模型的知识图谱构建方法,其特征在于,所述公开的领域词典包括来自百度的领域词典。
5.如权利要求1所述的基于bert算法模型的知识图谱构建方法,其特征在于,所述步骤5中,所述图数据库为neo4j图数据库。
6.如权利要求1所述的基于bert算法模型的知识图谱构建方法,其特征在于,所述步骤5中,所述图数据库为JanusGraph图数据库。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911114513.4A CN111221976A (zh) | 2019-11-14 | 2019-11-14 | 基于bert算法模型的知识图谱构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911114513.4A CN111221976A (zh) | 2019-11-14 | 2019-11-14 | 基于bert算法模型的知识图谱构建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111221976A true CN111221976A (zh) | 2020-06-02 |
Family
ID=70829011
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911114513.4A Pending CN111221976A (zh) | 2019-11-14 | 2019-11-14 | 基于bert算法模型的知识图谱构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111221976A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112182243A (zh) * | 2020-09-27 | 2021-01-05 | 中国平安财产保险股份有限公司 | 基于实体识别模型构建知识图谱的方法、终端及存储介质 |
CN112819162A (zh) * | 2021-02-02 | 2021-05-18 | 东北大学 | 一种知识图谱三元组的质检方法 |
WO2021147404A1 (zh) * | 2020-07-30 | 2021-07-29 | 平安科技(深圳)有限公司 | 依存关系分类方法及相关设备 |
WO2024109097A1 (zh) * | 2022-11-21 | 2024-05-30 | 开普云信息科技股份有限公司 | 专利文本的知识图谱创建方法、装置、存储介质及设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001098941A1 (en) * | 2000-06-20 | 2001-12-27 | The University Of Queensland | Method of sentence analysis |
CN105389302A (zh) * | 2015-10-19 | 2016-03-09 | 广东电网有限责任公司电网规划研究中心 | 一种电网设计评审指标结构信息识别方法 |
US20180150753A1 (en) * | 2016-11-30 | 2018-05-31 | International Business Machines Corporation | Analyzing text documents |
CN108874878A (zh) * | 2018-05-03 | 2018-11-23 | 众安信息技术服务有限公司 | 一种知识图谱的构建系统及方法 |
CN110287334A (zh) * | 2019-06-13 | 2019-09-27 | 淮阴工学院 | 一种基于实体识别和属性抽取模型的学校领域知识图谱构建方法 |
-
2019
- 2019-11-14 CN CN201911114513.4A patent/CN111221976A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001098941A1 (en) * | 2000-06-20 | 2001-12-27 | The University Of Queensland | Method of sentence analysis |
CN105389302A (zh) * | 2015-10-19 | 2016-03-09 | 广东电网有限责任公司电网规划研究中心 | 一种电网设计评审指标结构信息识别方法 |
US20180150753A1 (en) * | 2016-11-30 | 2018-05-31 | International Business Machines Corporation | Analyzing text documents |
CN108874878A (zh) * | 2018-05-03 | 2018-11-23 | 众安信息技术服务有限公司 | 一种知识图谱的构建系统及方法 |
CN110287334A (zh) * | 2019-06-13 | 2019-09-27 | 淮阴工学院 | 一种基于实体识别和属性抽取模型的学校领域知识图谱构建方法 |
Non-Patent Citations (1)
Title |
---|
王良萸: "面向碳交易领域的知识图谱构建方法", 《计算机与现代化》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021147404A1 (zh) * | 2020-07-30 | 2021-07-29 | 平安科技(深圳)有限公司 | 依存关系分类方法及相关设备 |
CN112182243A (zh) * | 2020-09-27 | 2021-01-05 | 中国平安财产保险股份有限公司 | 基于实体识别模型构建知识图谱的方法、终端及存储介质 |
CN112182243B (zh) * | 2020-09-27 | 2023-11-28 | 中国平安财产保险股份有限公司 | 基于实体识别模型构建知识图谱的方法、终端及存储介质 |
CN112819162A (zh) * | 2021-02-02 | 2021-05-18 | 东北大学 | 一种知识图谱三元组的质检方法 |
CN112819162B (zh) * | 2021-02-02 | 2024-02-27 | 东北大学 | 一种知识图谱三元组的质检方法 |
WO2024109097A1 (zh) * | 2022-11-21 | 2024-05-30 | 开普云信息科技股份有限公司 | 专利文本的知识图谱创建方法、装置、存储介质及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108874878B (zh) | 一种知识图谱的构建系统及方法 | |
CN110866125A (zh) | 基于bert算法模型的知识图谱构建系统 | |
CN110399457B (zh) | 一种智能问答方法和系统 | |
CN111221976A (zh) | 基于bert算法模型的知识图谱构建方法 | |
Gesmundo et al. | Lemmatisation as a tagging task | |
US20100161655A1 (en) | System for string matching based on segmentation method and method thereof | |
CN101079031A (zh) | 一种网页主题提取系统和方法 | |
CN110609998A (zh) | 一种电子文档信息的数据提取方法、电子设备及存储介质 | |
TWI656450B (zh) | 從中文語料庫提取知識的方法和系統 | |
CN111160030A (zh) | 一种信息抽取方法、装置、及存储介质 | |
CN113312922B (zh) | 一种改进的篇章级三元组信息抽取方法 | |
Evert | A Lightweight and Efficient Tool for Cleaning Web Pages. | |
CN107515849A (zh) | 一种成词判定模型生成方法、新词发现方法及装置 | |
CN106372232B (zh) | 基于人工智能的信息挖掘方法和装置 | |
US20190095525A1 (en) | Extraction of expression for natural language processing | |
CN112015907A (zh) | 一种学科知识图谱快速构建方法、装置及存储介质 | |
CN111241299A (zh) | 一种法律咨询的知识图谱自动构建方法及其检索系统 | |
Nanba et al. | Bilingual PRESRI-Integration of Multiple Research Paper Databases. | |
CN113377739A (zh) | 知识图谱应用方法、平台、电子设备及存储介质 | |
Chang et al. | Enhancing POI search on maps via online address extraction and associated information segmentation | |
JP2024003750A (ja) | 言語モデルの訓練方法、装置、電子デバイス及び記憶媒体 | |
CN110309258B (zh) | 一种输入检查方法、服务器和计算机可读存储介质 | |
CN110705285A (zh) | 一种政务文本主题词库构建方法、装置、服务器及可读存储介质 | |
Maheswari et al. | Rule based morphological variation removable stemming algorithm | |
Luong et al. | Word graph-based multi-sentence compression: Re-ranking candidates using frequent words |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200602 |
|
RJ01 | Rejection of invention patent application after publication |