CN117216293A

CN117216293A - 一种多方式查询高校档案知识图谱构建方法及管理平台

Info

Publication number: CN117216293A
Application number: CN202311197153.5A
Authority: CN
Inventors: 杨志勇; 张轶; 周海炜
Original assignee: Nanjing Ruituode Intelligent Information Technology Co ltd; Hohai University HHU
Current assignee: Nanjing Ruituode Intelligent Information Technology Co ltd; Hohai University HHU
Priority date: 2023-09-15
Filing date: 2023-09-15
Publication date: 2023-12-12

Abstract

本发明涉及计算机数据处理领域，公开了一种多方式查询高校档案知识图谱构建方法及管理平台，高校档案知识图谱构建方法主要实现以下功能：根据预设的分类规则和学校档案数据，构建高校档案领域知识本体；对学校档案中的结构化数据、半结构化数据以及非结构化数据进行命名实体识别和实体关系抽取；对完成命名实体识别和实体关系抽取的数据进行知识融合，形成知识图谱；基于Neo4j图数据库进行档案知识图谱的存储及可视化展示。管理平台包括：知识采集系统、知识图谱构建系统、知识图谱存储系统和知识图谱应用系统，知识采集系统用于采集高校档案的信息数据，并将所述信息数据传输至所述知识图谱构建系统；知识图谱构建系统用于构建高校档案知识图谱，并将高校档案知识图谱传输至所述知识图谱存储系统；知识图谱存储系统用于对高校档案知识图谱进行存储和可视化展示；知识应用系统用于从所述知识存储系统中获取信息数据，并将信息数据应用于档案信息查询、检索和转换。

Description

一种多方式查询高校档案知识图谱构建方法及管理平台

技术领域

本发明涉及计算机数据处理领域，具体是涉及一种多方式查询高校档案知识图谱构建方法及管理平台。

背景技术

目前，高校对档案内容和档案管理工作进行了不同程度的数字化，高校档案系统中保存着学生档案、教职工档案、课程档案、科研档案、教学资源档案、行政档案、党群档案等众多类别档案，且档案内容形式多样，文本、照片、音频、视频等各种数据类型混杂，教务系统、学校OA系统等诸多系统接口还在源源不断地接收新数据，这对高校数字档案资源的管理能力和利用能力提出了很高要求。但是，高校档案数据来源众多，缺乏统一的协调机制，大多存储于各自的系统和数据库中，“信息孤岛”现象严重，高校档案工作依然停留在“保管员”上。因此，提出一种多方式查询高校档案知识图谱构建方法及管理平台，利用知识图谱，对高校档案资源进行知识化整理，实现对教学、管理、科研等各类信息的协同管理和及时反馈，为高校老师和领导提供教学、管理等辅助功能，同时提升档案查询效率和用户体验，让高校档案工作不仅是“保管员”，也是“知识提供者”。

发明内容

为解决上述背景技术中存在的问题，本发明提出一种多方式查询高校档案知识图谱构建方法及管理平台。具体内容包括：

一种多方式查询高校档案知识图谱构建方法，包括以下步骤：

根据预设的分类规则和学校档案数据，构建高校档案领域知识本体；

对学校档案中的结构化数据、半结构化数据以及非结构化数据进行命名实体识别和实体关系抽取；

对完成命名实体识别和实体关系抽取的数据进行知识融合，形成知识图谱；

基于Neo4j图数据库进行档案知识图谱的存储及可视化展示。

优选地，所述根据预设的分类规则和学校档案数据，构建高校档案领域知识本体，所述分类规则采用原国家教育委员会发布的《高等学校档案实体分类法》，构建高校档案领域知识本体具体步骤为：

采用自顶向下的方式定义高校档案知识图谱模式层，自顶向下的构建方式通过对知识图谱顶层的抽象设计，确定图谱的构建范围及数据的组织形式，基于预设的分类规则和高校档案数据，抽象定义高校档案知识图谱的数据类别、层次结构、本体类别、本体结构、本体关系类别，构建高校档案知识图谱体系；

采用自底向上的方式定义高校档案知识图谱数据层，自底向下的构建方式从底层数据提炼出构建知识图谱的“实体”、“实体关系”和“属性”三元组，最终抽象出知识数据模型，基于模式层定义的档案知识结构，从高校档案数据源中进行知识图谱的信息抽取，并将抽取出的信息纳入到构建好的高校档案知识图谱体系中。

优选地，所述对学校档案的结构化数据、半结构化数据以及非结构化数据进行命名实体识别和实体关系抽取，其中对非结构化文本数据进行命名实体识别具体步骤为：

对数据进行预处理，将数据去噪和分词，依照设定的规范对数据进行序列标注；

预处理后的数据通过Word2Vec模型进行词嵌入式表示；

采用卷积神经网络和双向长短期记忆网络模型分别进行文本特征提取，并加入Dropout机制防止过拟合现象；

将通过卷积神经网络的字符向量和双向长短期记忆网络模型的词向量逐项拼接，然后输入到全连接层和CRF层，经过对拼接向量进行解码，得到最优标记序列。

优选地，所述对学校档案的结构化数据、半结构化数据以及非结构化数据进行命名实体识别和实体关系抽取，其中对非结构化文本数据进行实体关系抽取的具体步骤为：

预处理后的数据通过Word2Vec模型进行词嵌入式表示，通过将序列中每个词语与实体的相对距离转化为向量形式后拼接作为位置特征嵌入式表示，词向量表示由词嵌入和位置特征嵌入拼接而成；

利用结合实体周围词注意力机制的双向长短期记忆网络作为特征提取层，从正、反两个方向捕获前后句子之间的依赖关系，引入实体类型信息与依存句法分析树，共同构建关系抽取模型，完成对实体关系的抽取。

对学校档案的非结构化数据进行命名实体识别和实体关系抽取的预处理环节，均需要依照设定的规范对数据进行序列标注，序列标注指给每个序列中的知识单元(字、词)进行打标签，需要根据不同的任务事先定义好标签样式，命名体识别和实体关系抽取所需的标签样式是不同的。

其中，所述利用结合实体周围词注意力机制的双向长短期记忆网络作为特征提取层，从正、反两个方向捕获前后句子之间的依赖关系具体步骤为：

对于包含n个词语的句子，通过双向长短期记忆网络得到的隐向量表示为H＝{h₁,h₂,h₃,...h_n}，h_i表示了句子中第i个词语的高维语义信息，i＝1,2,3,...,n，h_i通过前向隐向量和后向隐向量/>拼接得到，即/>

通过计算词语与实体之间的重要性程度构建词注意力机制，经过词注意力层的句子表示为：

式中，h_i表示了句子中第i个词语的高维语义信息，λ_i表示词注意力机制的权重，权重参数从序列中学习出来的，词语与实体的语义相关性通过一个神经网络进行计算，激活函数的计算公式为：

式中，W_a表示词语重要性权重矩阵，表示头实体，/>表示尾实体，b_a为偏置量；

通过soft max函数计算得到权重，权重计算公式为：

式中，σ_i表示句子中第i个词语激活函数，σ_k表示句子中第k个词语激活函数，k＝1,2,3,...,n，n为句子长度；

最后通过最大池化层，句子的最终向量表示为s_a＝max pool(x)；

另一方面，所述引入实体类型信息与依存句法分析树，共同构建了关系抽取器的具体步骤为：

将实体类型信息映射到一个k维向量空间中，得到实体类型信息的嵌入表示，将实体对(e₁,e₂)的类型嵌入连接作为实体类型对关系的约束，计算方法为式中和/>分别表示实体e₁和e₂的类型嵌入表示向量；

引入基于依存树的特征表示，将包含实体对的依存子树编码为局部特征向量，包含实体对的依存子树可以表示为Tr＝[t₁,t₂,t₃,...,t_n]，式中，t_i表示依存子树上第i个节点的词向量表示，i＝1,2,3,...,n，这些词向量连接起来组成最终的依存子树表示；

综合词注意力机制、实体类型信息和实体对的依存关系，得到最终的句子表示s＝[s_a，Ty_e，Tr]。

另一方面，本发明提供了一种多方式查询高校档案知识图谱管理平台，所述高校档案知识图谱管理平台包括：知识采集系统、知识图谱构建系统、知识图谱存储系统和知识图谱应用系统；

所述知识采集系统用于采集高校档案的信息数据，并将所述信息数据传输至所述知识图谱构建系统；

所述知识图谱构建系统用于构建高校档案知识图谱，并将高校档案知识图谱传输至所述知识图谱存储系统；

所述知识图谱存储系统用于对高校档案知识图谱进行存储和可视化展示；

所述知识应用系统用于从所述知识存储系统中获取信息数据，并将信息数据应用于档案信息查询、检索和转换。

优选地，所述知识图谱构建系统包括知识模式创建模块和数据处理模块；

所述知识模式创建模块用于定义高校档案知识图谱模式层，根据预设的分类规则和高校档案数据，抽象定义高校档案知识图谱的数据类别、层次结构、本体类别、本体结构、本体关系类别，构建高校档案知识图谱体系；

所述数据处理模块基于所述知识模式创建模块定义的档案知识结构，从高校档案数据源中进行知识图谱的信息抽取，并将抽取出的信息纳入到构建好的高校档案知识图谱体系中。

优选地，所述数据处理模块包括：数据预处理模块、命名实体识别模块、实体关系抽取模块、知识融合模块；

所述数据预处理模块用于数据去噪、分词和依照设定的规范对数据进行序列标注；

所述命名实体识别模块用于识别数据中的实体；

所述实体关系抽取模块用于抽取实体与实体间关系；

所述知识融合模块用于将实体链接到知识库中对应的正确实体中。

优选地，所述知识图谱应用系统包括：图片检索模块，人像检索模块，图片内容识别模块，视频图片检索模块，音频相似检索模块，音频转文本模块，视频人像检索模块和档案信息查询模块；

所述图片检索模块用于以图识图，检索相似的图片信息；

所述人像检索模块用于以人脸照片检索相似的照片以及相关的照片的信息；

所述图片内容识别模块用于识别出图片中的人、物及文本内容；

所述视频图片检索模块用于通过图片检索到相关的视频信息；

所述音频相似检索模块用于上传音频检索出相似的音频信息；

所述音频转文本模块用于将上传的音频转换成文本信息；

所述视频人像检索模块用于通过人像图片检索到相关的视频信息；

所述档案信息查询模块用于检索用户所需要的已归档的档案信息。

附图说明

图1为本发明实施例一中高校档案知识图谱构建方法的流程示意图；

图2为本发明实施例一中对非结构化文本数据进行命名实体识别的流程示意图；

图3为本发明实施例一中对非结构化文本数据进行实体关系抽取的流程示意图；

图4为本发明实施例二中一种多方式查询高校档案知识图谱管理平台的模块示意图；

图5为本发明实施例二中的知识图谱构建系统的模块示意图；

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

以下结合具体实施例对本发明的具体实现进行详细描述。

实施例一

在本实施例当中，如图1所示，提供了一种高校档案知识图谱构建方法，包括以下步骤：

基于Neo4j图数据库进行档案知识图谱的存储及可视化展示。

在进行知识图谱构建时，首先需要确定知识图谱中的实体、实体属性以及实体间关系，在本实施例中，所述分类规则采用原国家教育委员会发布的《高等学校档案实体分类法》，设定“党群”、“教学”、“科研”、“设备”、“基建”、“外事”、“行政”和“财会”为学校档案图谱实体分类的最高层次，即一级类目，再根据实际档案数据，进行二级及以上类目的实体分类。

在本实施例中，如图2所示，所述构建高校档案领域知识本体具体步骤为：

采用自底向上的方式定义高校档案知识图谱数据层，自底向下的构建方式从底层数据提炼出构建知识图谱的“实体”、“实体属性”和“实体关系”三元组，最终抽象出知识数据模型，基于模式层定义的档案知识结构，从高校档案数据源中进行知识图谱的信息抽取，并将抽取出的信息纳入到构建好的高校档案知识图谱体系中。

在本实施例中，通过提炼高校档案数据中知识图谱的“实体”、“实体属性”和“实体关系”三元组来构建知识图谱数据层，因而命名实体识别和实体关系抽取是构建知识图谱中的重要环节，命名实体识别和实体关系抽取以非结构化文本数据为主，在本实施例中，如图3所示，对学校档案的非结构化数据进行命名实体识别具体步骤为：

预处理后的数据通过Word2Vec模型进行词嵌入式表示；

在本实施例中，如图4所示，对非结构化文本数据进行实体关系抽取的具体步骤为：

通过softmax函数计算得到权重，权重计算公式为：

综合词注意力机制、实体类型信息和实体对的依存关系，得到最终的句子表示s＝[s_a,Ty_e,Tr]。

实施例二

在本实施例中，如图4所示，提供了一种多方式查询高校档案知识图谱管理平台，具体包括知识采集系统、知识图谱构建系统、知识图谱存储系统和知识图谱应用系统；

其中，所述知识图谱构建系统包括知识模式创建模块和数据处理模块；

在本实施例中，如图5所示，所述数据处理模块包括：数据预处理模块、命名实体识别模块、实体关系抽取模块、知识融合模块；

所述命名实体识别模块用于识别数据中的实体；

所述实体关系抽取模块用于抽取实体与实体间关系；

所述知识图谱应用系统包括：图片检索模块，人像检索模块，图片内容识别模块，视频图片检索模块，音频相似检索模块，音频转文本模块，视频人像检索模块和档案信息查询模块；

所述图片检索模块用于以图识图，检索相似的图片信息；

所述音频转文本模块用于将上传的音频转换成文本信息；

所述视频人像检索模块用于通过人像图片检索到相关的视频信息；所述档案信息查询模块用于检索用户所需要的已归档的档案信息。

Claims

1.一种多方式查询高校档案知识图谱构建方法，其特征在于，所述方法包括以下步骤：

基于Neo4j图数据库进行档案知识图谱的存储及可视化展示。

2.根据权利要求1所述的一种多方式查询高校档案知识图谱构建方法，其特征在于，所述对学校档案的结构化数据、半结构化数据以及非结构化数据进行命名实体识别和实体关系抽取，其中对非结构化文本数据进行命名实体识别具体步骤为：

预处理后的数据通过Word2Vec模型进行词嵌入式表示；

3.根据权利要求1所述的一种多方式查询高校档案知识图谱构建方法，其特征在于，所述对学校档案的结构化数据、半结构化数据以及非结构化数据进行命名实体识别和实体关系抽取，其中对非结构化文本数据进行实体关系抽取的具体步骤为：

4.根据权利要求3所述的一种多方式查询高校档案知识图谱构建方法，其特征在于，所述利用结合实体周围词注意力机制的双向长短期记忆网络作为特征提取层，从正、反两个方向捕获前后句子之间的依赖关系具体步骤为：

通过softmax函数计算得到权重，权重计算公式为：

最后通过最大池化层，句子的最终向量表示为s_a＝max pool(x)。

5.根据权利要求3所述的一种多方式查询高校档案知识图谱构建方法，其特征在于，所述引入实体类型信息与依存句法分析树，共同构建了关系抽取器的具体步骤为：

将实体类型信息映射到一个k维向量空间中，得到实体类型信息的嵌入表示，将实体对(e₁,e₂)的类型嵌入连接作为实体类型对关系的约束，计算方法为式中/>和/>分别表示实体e₁和e₂的类型嵌入表示向量；

6.一种多方式查询高校档案知识图谱管理平台，基于如权利要求1-5任一项所述的一种多方式查询高校档案知识图谱构建方法实现，其特征在于，所述高校档案知识图谱管理平台包括：知识采集系统、知识图谱构建系统、知识图谱存储系统和知识图谱应用系统；

7.根据权利要求6所述的一种多方式查询高校档案知识图谱管理平台，其特征在于，所述知识图谱构建系统包括知识模式创建模块和数据处理模块；

8.根据权利要求7所述的一种多方式查询高校档案知识图谱管理平台，其特征在于，所述数据处理模块包括：

数据预处理模块、命名实体识别模块、实体关系抽取模块、知识融合模块；

所述命名实体识别模块用于识别数据中的实体；

所述实体关系抽取模块用于抽取实体与实体间关系；

9.根据权利要求6所述的一种多方式查询高校档案知识图谱管理平台，其特征在于，所述知识应用系统包括：

图片检索模块，人像检索模块，图片内容识别模块，视频图片检索模块，音频相似检索模块，音频转文本模块，视频人像检索模块和档案信息查询模块；

所述图片检索模块用于以图识图，检索相似的图片信息；

所述音频转文本模块用于将上传的音频转换成文本信息；