CN113221562A

CN113221562A - 一种基于知识图谱提高文书档案检索效率的方法及系统

Info

Publication number: CN113221562A
Application number: CN202110397558.8A
Authority: CN
Inventors: 刘泽; 杨志勇
Original assignee: Nanjing Ruituode Intelligent Information Technology Co ltd; Hohai University HHU
Current assignee: Nanjing Ruituode Intelligent Information Technology Co ltd; Hohai University HHU
Priority date: 2021-04-14
Filing date: 2021-04-14
Publication date: 2021-08-06

Abstract

本发明公开了一种基于知识图谱提高文书档案检索效率的方法及系统，该方法包括一、从计算机中获取文书档案文本数据；二、根据获取的文本数据特点构建文书档案领域本体；三、从获取的文本数据中抽取文书档案领域本体的三元组实例数据；步骤四、通过JanusGraph图数据库存储文书档案领域本体和抽取出的三元组实例数据；步骤五、通过IKAnalyzer分词工具对查询语句进行解析，用同义词典进行语义转换，调用JanusGraph图数据库查询API完成智能语义查询。本发明以知识图谱为基础，以文书档案的事件概念为核心，挖掘文书档案的文书信息和文书内容的知识，构建文书档案事件知识图谱，通过构建知识存储模块和知识查询模块提供文书档案基于语义的检索方式，提升了文书档案检索效率。

Description

一种基于知识图谱提高文书档案检索效率的方法及系统

技术领域

本发明属于信息资源管理技术领域，具体涉及一种基于知识图谱提高文书档案检索效率的方法及系统。

背景技术

近些年，随着信息科技的不断进步，档案信息化也得到了快速发展，档案数据量呈现几何级增长，致使基于传统档案检索技术的档案管理系统，在档案信息检索方面的工作变得愈发困难。传统档案信息检索系统采用的时关键词匹配技术，只能进行词形的机械匹配，在数据量较小时，检索效果尚能接受，但随着信息化档案数量的不断提升，检索效果只会变得越来越差，很难做到通过语义进行精准查找，用户在面对大量无效的检索结果时，获取所需检索结果变得极为困难。

文书档案是所有档案分类里最常见的一类，文书档案是由通用文书转化而来的一部分档案的习惯称谓，其最主要的特点便是其中包含了大量语义信息，尤其是事件信息。由于目前我国档案信息化进程还在逐步发展过程中，存储在计算机中的文书档案数据只有部分经过电子化处理变成了文本数据，还有大量文书档案数据是以原实体文书的PDF或图片等快照形式存储，无法直接进行自然语言相关处理。

发明内容

本发明的目的在于提供的一种基于知识图谱提高文书档案检索效率的方法及系统，解决现有技术中档案信息管理系统通过关键词匹配方式进行机械检索，在面对大数据状况时查询精度低，检索效率低下的技术问题。

为解决上述技术问题，本发明提供如下技术方案：

一种基于知识图谱提高文书档案检索效率的方法，包括如下步骤：

步骤一、从计算机存储的数据中获取文书档案文本数据；

步骤二、根据获取的文书档案文本数据特点构建文书档案领域本体；

步骤三、通过Bert-Layered-BiLSTM-Attention-CRF嵌套命名实体识别模型和基于规则的关系抽取方法，以构建的文书档案领域本体为模板，从获取的文书档案文本数据中抽取文书档案领域本体的三元组实例数据；

步骤四、通过JanusGraph图数据库存储文书档案领域本体和抽取出的三元组实例数据；

步骤五、通过IKAnalyzer分词工具对查询语句进行解析，并使用同义词典进行语义转换，调用JanusGraph图数据库查询API完成智能语义查询。

进一步优化，所述步骤一中从计算机获取文书档案文本数据，包括获取原始文本数据和采用模式识别技术对PDF格式或图片类格式的文书档案进行预处理转化成的文本数据。

进一步优化，所述步骤二中根据获取的文书档案文本数据特点构建文书档案领域本体，包括如下步骤：

2.1、结合文书档案的存储特征及智能检索规则构建需要，提出以事件概念为中心的概念本体模型；在概念本体模型中，文书事件实体为中心实体，还包括发文机构、发文类型、人物、地点与时间六大类实体；

2.2、构建实体关系，以文书事件实体为中心，发文机构、发文类型、人物、地点与时间类实体与文书事件实体直接相关联。

进一步优化，所述发文机构类实体包含事业单位、国企和私企实体；发文类型类实体包含通知、公告和决定实体；人物类实体分为事件人物和发文负责人实体；地点分为事件地点和发文地点实体；时间类实体分为事件时间和发文时间实体。

进一步优化，所述步骤三中通过Bert-Layered-BiLSTM-Attention-CRF嵌套命名实体识别模型和基于规则的关系抽取方法，以构建的文书档案领域本体为模板，从获取的文书档案文本数据中抽取文书档案领域本体的三元组实例数据，包括如下步骤：

3.1、通过中文分词工具对文书档案文本数据进行预处理，生成中文文本分词数据；

3.2通过Bert-Layered-BiLSTM-Attention-CRF嵌套命名实体识别模型抽取文书档案文本数据中，包含嵌套命名实体在内的所有实体；

3.3、通过编写各实体间单一关系规则的方式抽取实体关系三元组数据。

进一步优化，所述步骤3.2中通过Bert-Layered-BiLSTM-Attention-CRF嵌套命名实体识别模型抽取文书档案文本数据中，包含嵌套命名实体在内的所有实体，包括：

3.2.1、通过Bert预训练语言模型，对待处理分词数据进行字向量编码；

3.2.2、通过BiLSTM-Attention-CRF的神经网络模型作为平面NER层识别最小非嵌套实体；

3.2.3、通过平面NER层的堆叠结构识别出所有的嵌套实体。

进一步优化，所述步骤3.2.2中通过BiLSTM-Attention-CRF的神经网络模型作为平面NER层识别最小非嵌套实体，包括：

3.2.2.1、通过BiLSTM模型获取字符序列的上下文编码信息；

3.2.2.2、通过Attention模型获取对字符序列的上下文信息权重进行重分配；

3.2.2.3、通过CRF模型对经过编码的序列信息进行解码，识别出当前层的非嵌套实体。

进一步优化，所述步骤3.2.3中通过平面NER层的堆叠结构识别出所有的嵌套实体，包括：如果平面NER层预测到任何实体，则会引入一个新的NER层，并融合当前NER层的每个检测到的实体的词序表示，来构成该实体表示，然后将其作为输入传递到新的NER层，否则终止模型的堆叠，完成嵌套实体的识别。

进一步优化，所述步骤五中通过IKAnalyzer分词工具对查询语句进行解析，并使用同义词典进行语义转换，调用JanusGraph图数据库查询API完成智能语义查询，包括如下步骤：

5.1、通过IKAnalyzer分词工具对查询语句进行预处理，识别出语句中存在的实体；

5.2、通过同义词典对识别出的实体进行语义转换；

5.3、通过调用JanusGraph图数据库查询API对知识图谱进行查询，查找与对应实体均有联系的文书事件实体即为查询结果，返回查询到的文书事件实体信息和与之直接相连的所有实体的信息给用户。

一种基于知识图谱提高文书档案检索效率的系统，包括：

数据获取模块，用于获取文书档案文本数据；

知识抽取模块，通过Bert-Layered-BiLSTM-Attention-CRF嵌套命名实体识别模型和基于规则的关系抽取方法对数据获取模块获取的文书档案文本数据进行知识抽取，生成文书档案三元组实例数据；

知识存储模块，使用JanusGraph图数据库用于存储文书档案三元组数据，提供知识查询接口；

知识查询模块，通过IKAnalyzer分词工具对查询语句进行解析，并使用同义词典进行语义转换，调用JanusGraph图数据库查询API对知识图谱进行查询，查找与对应实体均有联系的文书事件实体即为查询结果，返回查询到的文书事件实体信息和与之直接相连的所有实体的信息给用户。

与现有技术相比，本发明具有如下有益效果：

本发明以知识图谱为基础，以文书档案的事件概念为核心，挖掘文书档案的文书信息和文书内容的知识，构建文书档案事件知识图谱，通过构建知识存储模块和知识查询模块提供文书档案基于语义的检索方式，大大提升了文书档案检索效率。

附图说明

图1为本发明所述基于知识图谱提高文书档案检索效率的方法的流程图；

图2为本发明所述文书档案文书数据处理过程具体示例的流程图；

图3为本发明所述文书档案概念层本体的模型图；

图4为本发明所述文书档案嵌套实体抽取过程具体示例的流程图；

图5为本发明所述结合注意力机制的平面NER模型图；

图6为本发明所述文书档案知识查询过程具体示例的流程图；

图7为本发明所述基于知识图谱增强文书档案检索效率的系统的模块组成图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述地实施例是本发明一部分实施例，而不是全部地实施例。基于本发明中地实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1:

如图1所示，一种基于知识图谱提高文书档案检索效率的方法，包括如下步骤：

S1：从计算机中获取文书档案文本数据。

在本实施例中，如图2所示，根据文书档案数据特点，其存储的数据本质是一份文书数据，然而，由于目前我国档案信息化进程还在逐步发展过程中，存储在计算机中的文书档案数据只有部分经过电子化处理变成了文本数据，还有大量文书档案数据是以原实体文书的PDF或图片等快照形式存储，无法直接进行自然语言相关处理，故在对这些快照类数据进行处理前，需要使用OCR等模式识别技术将这些无法直接进行处理的快照数据转换成文本数据后再进行处理。

S2：根据获取的文书档案文本数据特点构建文书档案领域本体。

在知识图谱的常规构建方法中，分为自底向上构建知识图谱和自顶向下构建知识图谱两种方式。

在本实施例中，采用自顶向下的构建方式。在该方法中，首先是结合领域数据的特征，手工构建出知识图谱的概念层本体，再依据概念层本体要求，抽取出对应的实例实体和关系，这样构建出的领域知识往往具有更好的质量。档案资源作为一个强领域性的数据资源，理应采用自顶向下的知识图谱构建方式。

在本实施例中，如图3所示，在构建文书档案概念层本体阶段，根据文书档案自身的存储特征，以及文书档案内容多为事件的描述的特点再结合在查档过程中，用户往往会以某事件概念去进行资源查找的现象，构建了以文书事件为中心的文书档案概念层本体，在这个概念层本体中，中心实体为文书事件实体，其余的主要分为发文机构、发文类型、人物、地点与时间六大类实体，发文机构类实体包含事业单位、国企和私企实体；发文类型类实体包含通知、公告和决定实体；人物类实体分为事件人物和发文负责人实体；地点分为事件地点和发文地点实体；时间类实体分为事件时间和发文时间实体。

在实体关系构建层面上，以文书事件实体为中心，发文机构、发文类型、人物、地点与时间类实体与文书事件实体直接相关联。通过这些实体节点，用户可以实现传统档案检索系统所无法实现的通过文书档案内容来进行信息检索。

S3：以构建的文书档案领域本体为模板，通过Bert-Layered-BiLSTM-Attention-CRF嵌套命名实体识别模型和基于规则的关系抽取方法，从获取的文书档案文本数据中抽取文书档案领域本体的三元组实例数据。

在本发明实施例中，所述通过Bert-Layered-BiLSTM-Attention-CRF嵌套命名实体识别模型和基于规则的关系抽取方法，以构建的文书档案领域本体为模板，从获取的文书档案文本数据中抽取文书档案领域本体的三元组实例数据的步骤，包括：

3.2、通过Bert-Layered-BiLSTM-Attention-CRF嵌套命名实体识别模型抽取文书档案文本数据中，包含嵌套命名实体在内的所有实体；

3.3、通过基于规则的方法抽取实体关系三元组数据。

在本实施例中，通过Bert-Layered-BiLSTM-Attention-CRF嵌套命名实体识别模型抽取文书档案文本数据中，包含嵌套命名实体在内的所有实体的步骤，包括：

3.2.2、通过BiLSTM-Attention-CRF的神经网络模型作为平面NER层识别最小非嵌套实体，通过平面NER层的堆叠结构识别出所有的嵌套实体。

在本发明实施例中，所述通过平面NER层的堆叠结构识别出所有的嵌套实体的步骤，包括：如果平面NER层预测到任何实体，则会引入一个新的NER层，并融合当前NER层的每个检测到的实体的词序表示，来构成该实体表示，然后将其作为输入传递到新的NER层，否则终止模型的堆叠，完成嵌套实体的识别。

实际上，由于在文书档案文本数据中，经常会遇到嵌套实体的情况，如“南京XX大学校长”这句话，“南京”表示的是一个地点，“南京XX大学”表示的是一个机构，“南京XX大学校长”又表示一个人，在文本中出现这种情况就叫做嵌套实体，一般的实体抽取模型无法识别出嵌套实体，本发明采用层叠式嵌套命名实体识别模型，如图4所示，其中EmbeddingLayer为词嵌入层，即通过上述的Bert模型获取中文字符的向量表示，Flat NER Layer为平面NER层，每一层都表示对当前输入向量序列进行一次命名实体识别，矩形表示各字符的向量表示，椭圆表示对该字符的实体识别结果的标签表示，B-X表示实体X的开头字符，I-X表示实体X的中间至结尾字符，O表示非实体字符。整体模型由多个平面NER层组成，每一个平面NER层负责对当前输入的向量序列进行命名实体识别，识别出的实体结果以BIO的方式进行标注，若当前层识别出了至少一个命名实体，则向上堆叠一个新的平面NER层，并对识别出的命名实体字符序列进行融合作为新的平面NER层的输入，以此类推，直到新的NER层识别不出命名实体时停止嵌套。在平面NER层的设计中，本发明采用了BiLSTM+Attention+CRF实体抽取模型来提升实体抽取的精度，如图5所示，模型由三部分组成，Encoder表示部分是编码器，Decoder表示该部分是解码器，BiLSTM Layer表示该层使用BiLSTM模型进行处理，Attention Layer表示该层使用Attention模型进行处理，CRF Layer表示该层使用CRF模型进行处理，圆形和箭头分别代表输入字符向量当前的处理结果和处理过程方向。整体模型通过BiLSTM和Attention模型对输入字符向量序列进行编码，分别获取其上下文语义信息以及对这些信息权重进行优化再分配，最后使用CRF模型对编码后的字符向量序列进行解码，获取实体BIO标签。最后通过编写各实体间单一关系规则的方式，结合实体抽取结果和概念层关系设定，抽取出实体关系三元组。

步骤S4：通过JanusGraph图数据库存储文书档案领域本体和抽取出的三元组实例数据。

在本发明实施例中，使用JanusGraph图数据库来存储知识图谱信息，首先依据概念层本体模型，在初始化的JanusGraph中显示定义图的Schema结构，然后将抽取的三元组数据进行解析并存入到JanusGraph图数据库中，完成知识图谱的存储工作。

步骤S5：通过IKAnalyzer分词工具对查询语句进行解析，并使用同义词典进行语义转换，调用JanusGraph图数据库查询API完成智能语义查询。

在本发明实施例中，如图6所示，知识查询模型为本发明最为重要的一个模块，通过以上4步已成功构建了文书档案知识图谱，可以利用知识查询模块通过语义的方式对文书档案进行检索，如查询“张三升职的资料”，传统档案查询系统根据词匹配的方式进行查询，难以查到准确的文书档案文件，而知识查询模型首先会使用IKAnalyzer分词工具对查询语句进行解析，并使用同义词典进行语义转换，识别出里面包含待查询数据中的“事件人物”是“张三”，“事件类型”是“升职”，于是对JanusGraph图数据库发起查询请求，查询与“张三”节点和“升职”节点相连接的“文书事件”节点信息，便是我们需要的查询结果，于是找到该节点并返回与该节点所有相连节点的信息，完成知识查询的操作。

实施例2：

如图7所示，基于知识图谱提高文书档案检索效率的系统，包括：

数据获取模块1，用于获取文本类数据，此模块执行实施例1中的步骤S1、S2所描述的方法，在此不再赘述；

知识抽取模块2，用于识别文书档案的文本数据，生成文书档案三元组实例数据，此模块执行实施例1中的步骤S3所描述的方法，在此不再赘述；

知识存储模块3，用于存储融合后的文书档案三元组数据，提供知识查询接口，此模块执行实施例1中的步骤S4所描述的方法，在此不再赘述；

知识查询模块4，用于对查询信息进行预处理，查询知识图谱并返回查询到的文书事件实体信息和与之直接相连的所有实体的信息给用户，此模块执行实施例1中的步骤S5所描述的方法，在此不再赘述。

本发明实施例提供一种基于知识图谱增强文书档案检索效率的系统，基于实体识别、关系抽取等技术实现文书档案的文书信息和文书内容知识的抽取，对文书档案核心知识资源进行组织和表示，挖掘档案内部语义信息，然后结合知识存储、知识查询等技术，提供从语义层面进行文书档案检索的方式，解决传统档案检索精度差、效率低的问题，为档案信息化发展提供有力支撑。

Claims

1.一种基于知识图谱提高文书档案检索效率的方法，其特征在于，包括如下步骤：

步骤一、从计算机存储的数据中获取文书档案文本数据；

2.根据权利要求1所述的基于知识图谱提高文书档案检索效率的方法，其特征在于，所述步骤一中从计算机获取文书档案文本数据，包括获取原始文本数据和采用模式识别技术对PDF格式或图片类格式的文书档案进行预处理转化成的文本数据。

3.根据权利要求1所述的基于知识图谱提高文书档案检索效率的方法，其特征在于，所述步骤二中根据获取的文书档案文本数据特点构建文书档案领域本体，包括如下步骤：

4.根据权利要求3所述的基于知识图谱提高文书档案检索效率的方法，其特征在于，所述发文机构类实体包含事业单位、国企和私企实体；发文类型类实体包含通知、公告和决定实体；人物类实体分为事件人物和发文负责人实体；地点分为事件地点和发文地点实体；时间类实体分为事件时间和发文时间实体。

5.根据权利要求1所述的基于知识图谱提高文书档案检索效率的方法，其特征在于，所述步骤三中通过Bert-Layered-BiLSTM-Attention-CRF嵌套命名实体识别模型和基于规则的关系抽取方法，以构建的文书档案领域本体为模板，从获取的文书档案文本数据中抽取文书档案领域本体的三元组实例数据，包括如下步骤：

6.根据权利要求5所述的基于知识图谱提高文书档案检索效率的方法，其特征在于，所述步骤3.2中通过Bert-Layered-BiLSTM-Attention-CRF嵌套命名实体识别模型抽取文书档案文本数据中，包含嵌套命名实体在内的所有实体，包括：

3.2.3、通过平面NER层的堆叠结构识别出所有的嵌套实体。

7.根据权利要求6所述的基于知识图谱提高文书档案检索效率的方法，其特征在于，所述步骤3.2.2中通过BiLSTM-Attention-CRF的神经网络模型作为平面NER层识别最小非嵌套实体，包括：

3.2.2.1、通过BiLSTM模型获取字符序列的上下文编码信息；

8.根据权利要求6所述的基于知识图谱提高文书档案检索效率的方法，其特征在于，所述步骤3.2.3中通过平面NER层的堆叠结构识别出所有的嵌套实体，包括：如果平面NER层预测到任何实体，则会引入一个新的NER层，并融合当前NER层的每个检测到的实体的词序表示，来构成该实体表示，然后将其作为输入传递到新的NER层，否则终止模型的堆叠，完成嵌套实体的识别。

9.根据权利要求1所述的基于知识图谱提高文书档案检索效率的方法，其特征在于，所述步骤五中通过IKAnalyzer分词工具对查询语句进行解析，并使用同义词典进行语义转换，调用JanusGraph图数据库查询API完成智能语义查询，包括如下步骤：

5.2、通过同义词典对识别出的实体进行语义转换；

10.一种基于知识图谱提高文书档案检索效率的系统，其特征在于，包括：

数据获取模块，用于获取文书档案文本数据；