CN114398498A

CN114398498A - 一种科技档案知识图谱构建方法及系统

Info

Publication number: CN114398498A
Application number: CN202210069357.XA
Authority: CN
Inventors: 孙肖; 何祺; 朱烨; 李可; 林玲; 刘天华; 李峥; 王俊林
Original assignee: CETC 10 Research Institute
Current assignee: CETC 10 Research Institute
Priority date: 2022-01-21
Filing date: 2022-01-21
Publication date: 2022-04-26

Abstract

本发明涉及知识图谱构建技术领域，公开了一种科技档案知识图谱构建方法及系统，该科技档案知识图谱构建方法，包括以下步骤：S1，选取样本档案文件；S2，转换样本文本格式；S3，生成实体关系数据文件；S4，构建实体关系抽取模型；S5，形成实体关系数据集；S6，构建知识图谱。本发明解决了现有技术存在的检索过程繁琐、检索效率低、档案利用率低等问题。

Description

一种科技档案知识图谱构建方法及系统

技术领域

本发明涉及知识图谱构建技术领域，具体是一种科技档案知识图谱构建方法及系统。

背景技术

伴随企业信息化水平进步提升，科技类电子文件的归档数量呈现爆炸式增长，档案数据逐渐呈现出多源异构的大数据特点,通过产品数据管理系统归档到档案系统的科技电子文件快速增长。这些增量电子文件由大量技术文件、工艺文件、设计图纸等非结构化数据组成，其文件格式大多为PDF格式。企业用户在查找相关工作参考资料时基于传统的文档名称关键字进行搜寻，其过程繁琐且命中效率较低，阻碍了档案利用的普及。因此亟需引入大数据处理的技术，对档案数据进行分析处理，实现对科技档案的标签化处理，提取档案关系特征，构建企业科技档案知识图谱，提高档案检索和利用效率。

发明内容

为克服现有技术的不足，本发明提供了一种科技档案知识图谱构建方法及系统，解决现有技术存在的检索过程繁琐、检索效率低、档案利用率低等问题。

本发明解决上述问题所采用的技术方案是：

一种科技档案知识图谱构建方法，包括以下步骤：

S1，选取样本档案文件：构建所属科技领域知识词库并选取样本档案文件；

S2，转换样本文本格式：将选取的样本档案文件的全文内容提取并转换为普通文本；

S3，生成实体关系数据文件：对样本全文文本进行实体、关系的标注和抽取，生成实体关系数据文件；

S4，构建实体关系抽取模型：引入深度学习引擎对样本全文文本及其实体关系数据文件执行训练和测试，生成并优化实体关系抽取模型；

S5，形成实体关系数据集：基于实体关系抽取模型对增量的科技档案文档进行自动化抽取，形成实体关系数据集，并存储到专业图数据库中；

S6，构建知识图谱：使用专业图数据库提供的查询功能进行实体关系融合查询并构建出知识图谱。

作为一种优选的技术方案，步骤S2中，使用PaddleOCR开源框架将选取的样本档案文件的全文内容提取并转换为普通文本。

作为一种优选的技术方案，步骤S2包括以下步骤：

S21，设定文本识别数据集为icdar2015数据集；

S22，在configs/rec/rec_icdar15_train.yml文件中加载知识词库数据文件；

S23，设置文本识别方式；

S24，在命令行中运行主程序并将完成识别后的文本保存为txt扩展名的普通文本格式。

作为一种优选的技术方案，步骤S23中，采用以下设置方式的一种或多种设置文本识别方式：将识别脚本设置为基于CRNN模型的预识别脚本；将use_gpu参数设置为true；将数据增强方式设置为true；设置扰动方式。

作为一种优选的技术方案，步骤S3中，采用brat文本标注工具对样本全文文本进行实体、关系的标注和抽取。

作为一种优选的技术方案，步骤S3包括以下步骤：

S31，配置brat工具运行环境；

S32，在annotation.conf配置文件中加载知识词库中定义的名词的分类名称；

S33，在visual.conf配置文件中为每一项分类名称定义标注颜色；

S34，采用浏览器访问brat项目界面，打开待标注的.txt样本文本文件，进行人工标注作业；

S35，完成标注后，将自动生成的.ann标注数据文件进行保存。

作为一种优选的技术方案，步骤S4包括以下步骤：

S41，将.ann标注数据文件和.txt样本文本文件使用python编程转为bert模型需要的数据格式，保存到datas目录下；

S42，设置bert模型的预训练模型chinese_L-12_H-768_A-12，保存到models目录下；

S43，创建python虚拟环境并安装tensorflow-gpu模块；

S44，启动命令行进行训练，将训练生成的模型文件配置到checkpoint文件中，执行命令进行测试，人工对比评估结果；

S45，根据评估结果对模型进行优化。

作为一种优选的技术方案，步骤S5包括以下步骤：

S51，使用PaddleOCR将大量科技档案文件执行全文提取并用程序转换后，保存到datas目录下；

S52，使用python语言编写实体关系抽取调用程序，载入已完成训练的bert模型；

S53，在主程序中编写代码将模型抽取的数据转换为三元组数据结构，连接Neo4j数据库并保存三元组数据。

作为一种优选的技术方案，步骤S6包括以下步骤：

S61，使用cypher语句的MATCH命令从Neo4j数据库读取实体；

S62，CREATE命令创建实体与实体间的关系；

S63，使用MATCH RETURN语句融合实体后返回知识图谱数据，在数据视图平台中进行加载展示。

一种科技档案知识图谱构建系统，基于所述的一种科技档案知识图谱构建方法，包括依次电相连的以下模块：

选取样本档案文件模块：用以，构建所属科技领域知识词库并选取样本档案文件；

转换样本文本格式模块：用以，将选取的样本档案文件的全文内容提取并转换为普通文本；

生成实体关系数据文件模块：用以，对样本全文文本进行实体、关系的标注和抽取，生成实体关系数据文件；

构建实体关系抽取模型模块：用以，引入深度学习引擎对样本全文文本及其实体关系数据文件执行训练和测试，生成并优化实体关系抽取模型；

形成实体关系数据集模块：用以，基于实体关系抽取模型对增量的科技档案文档进行自动化抽取，形成实体关系数据集，并存储到专业图数据库中；

构建知识图谱模块：用以，使用专业图数据库提供的查询功能进行实体关系融合查询并构建出知识图谱。

本发明相比于现有技术，具有以下有益效果：

(1)本发明针对企业科技档案文档使用知识图谱技术对其进行实体关系建模，展示档案的内在信息和档案之间的关联关系，提高档案的利用效率和价值；

(2)本发明通过对知识图谱的深度搜索，可以达到实现智能推荐的作用。

附图说明

图1为本发明所述的一种科技档案知识图谱构建方法的步骤示意图；

图2为本发明所述的一种科技档案知识图谱构建系统的结构示意图。

具体实施方式

下面结合实施例及附图，对本发明作进一步的详细说明，但本发明的实施方式不限于此。

实施例1

如图1、图2所示，一种科技档案知识图谱构建方法，包括以下步骤：

S1，构建科技领域知识词库并选取样本档案文件；

S2，使用OCR光学字符识别技术将选取的样本档案文件的全文内容提取并转换为普通文本；

S3，对样本全文文本进行实体、关系的标注和抽取，生成实体关系数据文件；

S4，引入深度学习引擎对样本全文文本及其实体关系数据文件执行训练和测试，生成并优化实体关系抽取模型；

S5，基于该实体关系抽取模型对增量的科技档案文档进行自动化抽取，形成实体关系数据集，并转换为三元组形式存储到专业图数据库中；

S6，使用图数据库提供的查询功能进行实体关系查询并构建出知识图谱。

进一步地，步骤S1所述科技领域知识词库的内容主要针对技术研究领域专有名词进行定义和构建，其分类可包含：航空、航天、通信等；工程名称可包含领域内工程的简称、全称、代号等；常用术语可包含具体技术名词的中文名、英文名、简称和缩略语等。

进一步地，步骤S1所述样本档案文件主要是指传统纸质档案文件经过数字化扫描处理后形成的PDF格式文件。

进一步地，步骤S2所述OCR光学字符识别技术使用PaddleOCR开源框架对PDF文件进行文字识别，提取文件的全文内容并保存为普通的文本格式数据。

进一步地，步骤S3所述对样本全文文本进行实体、关系的标注和抽取所使用的工具是brat文本标注工具。

进一步地，步骤S4所述深度学习引擎采用基于bert+crf算法的训练模型，训练过程为：将brat产生的标注数据文件转换为训练所需格式，加载bert预训练模型，使用bert命令行读取训练数据进行训练，对生成的模型文件进行测试并反复进行训练。

进一步地，步骤S5中图数据库使用Neo4j数据库以存储实体关系三元组信息。

进一步地，步骤S6所述知识图谱构建过程为：使用cypher语句从Neo4j数据库中融合查询获取实体集合与关系集合的图形化表现形式，加载到数据视图系统中展示。

实施例2

如图1、图2所示，作为实施例1的进一步优化，本实施例包含了实施例1的全部技术特征，除此之外，本实施例还包括以下技术特征：

具体使用时，可采用以下步骤：

步骤S1：构建科技领域知识词库并选取样本档案文件。

在本实施例中，知识词库按照技术研究领域分类进行组织。其中的领域类大类分为航空电子、航天电子、通信技术、情报侦察技术、敌我识别技术等；领域大类可往下细分，航空电子领域细分为导航技术、射频技术等；航天电子领域细分为遥测技术、卫星应用技术、飞行器技术等；情报侦察技术领域细分为态势情报技术、文字情报技术、信号侦察技术等；敌我识别技术领域细分为航管识别技术、航管应答技术等。

在本实施例中，知识词库中的工程名称包括嫦娥探月工程的全称、简称及其代号；火星探测工程的全称、简称及其代号等；

在本实施例中，知识词库中的常用术语包括敌我识别IFF、综合通信导航识别ICNI、UHF甚高频电台等；

在本实施例中，选取PDF格式的科技档案样本文件不少于3000份，每个技术研究领域平均选取500份以上，文档类型包括技术方案、工艺结构卡片、模型设计图纸等。

上述词库内容及样本文件类型仅为本实施例的示例，不以此为限。

步骤S2：使用OCR光学字符识别技术将选取的样本档案文件的全文内容提取并转换为普通文本。

在本实施例中，使用PaddleOCR开源框架进行样本文件的全文识别和转换。具体步骤是：设定文本识别数据集为icdar2015数据集；在configs/rec/rec_icdar15_train.yml文件中加载步骤S1中产生的知识词库数据文件；识别脚本设定为基于CRNN模型的预识别脚本；设定use_gpu参数为true；设定数据增强方式为true；选择颜色空间转换(cvtColor)、模糊(blur)、抖动(jitter)、噪声(Gasuss noise)、随机切割(random crop)、透视(perspective)、颜色反转(reverse)等扰动方式；设置完成后，在命令行中运行主程序并将完成识别后的文本保存为txt扩展名的普通文本格式。

步骤S3：对样本全文文本进行实体、关系的标注和抽取，生成实体关系数据文件。

在本实施例中，样本全文文本的实体、关系的标注和抽取所使用的工具是brat文本标注工具。具体步骤是：配置brat工具运行环境；在annotation.conf配置文件中加载知识词库中定义的名词的分类名称，如“技术研究领域”、“工程名称”、“工程代号”、“技术术语”等；在visual.conf配置文件中为上一步每一项分类名称定义标注颜色，如“技术研究领域”：“红色”、“工程名称”：“黄色”、“工程代号”：“蓝色”、“技术术语”：“绿色”等；浏览器访问brat项目界面，打开待标注的.txt样本文本文件，进行人工标注作业；完成标注后，将自动生成的.ann标注数据文件进行保存。

上述annotation.conf和visual.conf配置文件内容仅为本实施例的示例，不以此为限。

步骤S4：引入深度学习引擎对样本全文文本及其实体关系数据文件执行训练和测试，对生成的模型文件进行测试并反复进行训练。具体步骤是：将步骤S3中保存好的.ann标注数据文件和.txt样本文本文件使用python编程转为bert模型需要的数据格式，保存到datas目录下；设置bert模型的预训练模型chinese_L-12_H-768_A-12，保存到models目录下；创建python虚拟环境并安装tensorflow-gpu模块；启动命令行进行训练，将训练生成的模型文件配置到checkpoint文件中，执行命令进行测试，人工对比评估结果；根据评估结果对模型进行优化，采用方法包括SGD+Momentum、AdaDelta、RMSProp等。

上述模型优化采用的方法仅为本实施例的示例，不以此为限。

步骤S5：基于该实体关系抽取模型对增量的科技档案文档进行自动化抽取，形成实体关系数据集，并转换为三元组形式存储到专业图数据库中。具体步骤是：使用PaddleOCR将大量科技档案文件执行全文提取并用程序转换后，保存到datas目录下；使用python语言编写实体关系抽取调用程序，载入步骤S4中生成的已完成训练的bert模型；在主程序中编写代码分别实现将模型抽取的数据转换为三元组数据结构，连接Neo4j数据库并保存三元组数据。

步骤S6：使用图数据库提供的查询功能进行实体关系查询并构建出知识图谱。具体步骤是：使用cypher语句的MATCH命令从Neo4j数据库读取实体，CREATE命令创建实体与实体间的关系，再使用MATCH RETURN语句融合实体后返回知识图谱数据，在数据视图平台中进行加载展示。

综上所述，由于采用了上述技术方案，本发明的有益效果是：本发明一种科技档案知识图谱构建方法，针对企业科技档案文档使用知识图谱技术对其进行实体关系建模，展示档案的内在信息和档案之间的关联关系，提高档案的利用效率和价值；通过对知识图谱的深度搜索，可以达到实现智能推荐的作用。

如上所述，可较好地实现本发明。

本说明书中所有实施例公开的所有特征，或隐含公开的所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以以任何方式组合和/或扩展、替换。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，依据本发明的技术实质，在本发明的精神和原则之内，对以上实施例所作的任何简单的修改、等同替换与改进等，均仍属于本发明技术方案的保护范围之内。

Claims

1.一种科技档案知识图谱构建方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种科技档案知识图谱构建方法，其特征在于，步骤S2中，使用PaddleOCR开源框架将选取的样本档案文件的全文内容提取并转换为普通文本。

3.根据权利要求2所述的一种科技档案知识图谱构建方法，其特征在于，步骤S2包括以下步骤：

S21，设定文本识别数据集为icdar2015数据集；

S23，设置文本识别方式；

4.根据权利要求3所述的一种科技档案知识图谱构建方法，其特征在于，步骤S23中，采用以下设置方式的一种或多种设置文本识别方式：将识别脚本设置为基于CRNN模型的预识别脚本；将use_gpu参数设置为true；将数据增强方式设置为true；设置扰动方式。

5.根据权利要求1至4任一项所述的一种科技档案知识图谱构建方法，其特征在于，步骤S3中，采用brat文本标注工具对样本全文文本进行实体、关系的标注和抽取。

6.根据权利要求5所述的一种科技档案知识图谱构建方法，其特征在于，步骤S3包括以下步骤：

S31，配置brat工具运行环境；

S35，完成标注后，将自动生成的.ann标注数据文件进行保存。

7.根据权利要求6所述的一种科技档案知识图谱构建方法，其特征在于，步骤S4包括以下步骤：

S43，创建python虚拟环境并安装tensorflow-gpu模块；

S45，根据评估结果对模型进行优化。

8.根据权利要求7所述的一种科技档案知识图谱构建方法，其特征在于，步骤S5包括以下步骤：

9.根据权利要求8所述的一种科技档案知识图谱构建方法，其特征在于，步骤S6包括以下步骤：

S61，使用cypher语句的MATCH命令从Neo4j数据库读取实体；

S62，CREATE命令创建实体与实体间的关系；

10.一种科技档案知识图谱构建系统，其特征在于，基于权利要求1至9任一项所述的一种科技档案知识图谱构建方法，包括依次电相连的以下模块：