CN117216293A - 一种多方式查询高校档案知识图谱构建方法及管理平台 - Google Patents
一种多方式查询高校档案知识图谱构建方法及管理平台 Download PDFInfo
- Publication number
- CN117216293A CN117216293A CN202311197153.5A CN202311197153A CN117216293A CN 117216293 A CN117216293 A CN 117216293A CN 202311197153 A CN202311197153 A CN 202311197153A CN 117216293 A CN117216293 A CN 117216293A
- Authority
- CN
- China
- Prior art keywords
- data
- knowledge graph
- archive
- college
- knowledge
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010276 construction Methods 0.000 title claims abstract description 32
- 238000009430 construction management Methods 0.000 title description 2
- 238000000605 extraction Methods 0.000 claims abstract description 35
- 230000006870 function Effects 0.000 claims abstract description 14
- 238000012545 processing Methods 0.000 claims abstract description 11
- 230000004927 fusion Effects 0.000 claims abstract description 10
- 238000006243 chemical reaction Methods 0.000 claims abstract description 4
- 239000013598 vector Substances 0.000 claims description 42
- 238000007726 management method Methods 0.000 claims description 16
- 238000000034 method Methods 0.000 claims description 13
- 238000007781 pre-processing Methods 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 12
- 230000004913 activation Effects 0.000 claims description 9
- 230000011218 segmentation Effects 0.000 claims description 9
- 238000004458 analytical method Methods 0.000 claims description 6
- 238000013527 convolutional neural network Methods 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 6
- 238000002372 labelling Methods 0.000 claims description 5
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000002194 synthesizing effect Effects 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 2
- 238000011160 research Methods 0.000 description 3
- 238000013499 data model Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及计算机数据处理领域,公开了一种多方式查询高校档案知识图谱构建方法及管理平台,高校档案知识图谱构建方法主要实现以下功能:根据预设的分类规则和学校档案数据,构建高校档案领域知识本体;对学校档案中的结构化数据、半结构化数据以及非结构化数据进行命名实体识别和实体关系抽取;对完成命名实体识别和实体关系抽取的数据进行知识融合,形成知识图谱;基于Neo4j图数据库进行档案知识图谱的存储及可视化展示。管理平台包括:知识采集系统、知识图谱构建系统、知识图谱存储系统和知识图谱应用系统,知识采集系统用于采集高校档案的信息数据,并将所述信息数据传输至所述知识图谱构建系统;知识图谱构建系统用于构建高校档案知识图谱,并将高校档案知识图谱传输至所述知识图谱存储系统;知识图谱存储系统用于对高校档案知识图谱进行存储和可视化展示;知识应用系统用于从所述知识存储系统中获取信息数据,并将信息数据应用于档案信息查询、检索和转换。
Description
技术领域
本发明涉及计算机数据处理领域,具体是涉及一种多方式查询高校档案知识图谱构建方法及管理平台。
背景技术
目前,高校对档案内容和档案管理工作进行了不同程度的数字化,高校档案系统中保存着学生档案、教职工档案、课程档案、科研档案、教学资源档案、行政档案、党群档案等众多类别档案,且档案内容形式多样,文本、照片、音频、视频等各种数据类型混杂,教务系统、学校OA系统等诸多系统接口还在源源不断地接收新数据,这对高校数字档案资源的管理能力和利用能力提出了很高要求。但是,高校档案数据来源众多,缺乏统一的协调机制,大多存储于各自的系统和数据库中,“信息孤岛”现象严重,高校档案工作依然停留在“保管员”上。因此,提出一种多方式查询高校档案知识图谱构建方法及管理平台,利用知识图谱,对高校档案资源进行知识化整理,实现对教学、管理、科研等各类信息的协同管理和及时反馈,为高校老师和领导提供教学、管理等辅助功能,同时提升档案查询效率和用户体验,让高校档案工作不仅是“保管员”,也是“知识提供者”。
发明内容
为解决上述背景技术中存在的问题,本发明提出一种多方式查询高校档案知识图谱构建方法及管理平台。具体内容包括:
一种多方式查询高校档案知识图谱构建方法,包括以下步骤:
根据预设的分类规则和学校档案数据,构建高校档案领域知识本体;
对学校档案中的结构化数据、半结构化数据以及非结构化数据进行命名实体识别和实体关系抽取;
对完成命名实体识别和实体关系抽取的数据进行知识融合,形成知识图谱;
基于Neo4j图数据库进行档案知识图谱的存储及可视化展示。
优选地,所述根据预设的分类规则和学校档案数据,构建高校档案领域知识本体,所述分类规则采用原国家教育委员会发布的《高等学校档案实体分类法》,构建高校档案领域知识本体具体步骤为:
采用自顶向下的方式定义高校档案知识图谱模式层,自顶向下的构建方式通过对知识图谱顶层的抽象设计,确定图谱的构建范围及数据的组织形式,基于预设的分类规则和高校档案数据,抽象定义高校档案知识图谱的数据类别、层次结构、本体类别、本体结构、本体关系类别,构建高校档案知识图谱体系;
采用自底向上的方式定义高校档案知识图谱数据层,自底向下的构建方式从底层数据提炼出构建知识图谱的“实体”、“实体关系”和“属性”三元组,最终抽象出知识数据模型,基于模式层定义的档案知识结构,从高校档案数据源中进行知识图谱的信息抽取,并将抽取出的信息纳入到构建好的高校档案知识图谱体系中。
优选地,所述对学校档案的结构化数据、半结构化数据以及非结构化数据进行命名实体识别和实体关系抽取,其中对非结构化文本数据进行命名实体识别具体步骤为:
对数据进行预处理,将数据去噪和分词,依照设定的规范对数据进行序列标注;
预处理后的数据通过Word2Vec模型进行词嵌入式表示;
采用卷积神经网络和双向长短期记忆网络模型分别进行文本特征提取,并加入Dropout机制防止过拟合现象;
将通过卷积神经网络的字符向量和双向长短期记忆网络模型的词向量逐项拼接,然后输入到全连接层和CRF层,经过对拼接向量进行解码,得到最优标记序列。
优选地,所述对学校档案的结构化数据、半结构化数据以及非结构化数据进行命名实体识别和实体关系抽取,其中对非结构化文本数据进行实体关系抽取的具体步骤为:
对数据进行预处理,将数据去噪和分词,依照设定的规范对数据进行序列标注;
预处理后的数据通过Word2Vec模型进行词嵌入式表示,通过将序列中每个词语与实体的相对距离转化为向量形式后拼接作为位置特征嵌入式表示,词向量表示由词嵌入和位置特征嵌入拼接而成;
利用结合实体周围词注意力机制的双向长短期记忆网络作为特征提取层,从正、反两个方向捕获前后句子之间的依赖关系,引入实体类型信息与依存句法分析树,共同构建关系抽取模型,完成对实体关系的抽取。
对学校档案的非结构化数据进行命名实体识别和实体关系抽取的预处理环节,均需要依照设定的规范对数据进行序列标注,序列标注指给每个序列中的知识单元(字、词)进行打标签,需要根据不同的任务事先定义好标签样式,命名体识别和实体关系抽取所需的标签样式是不同的。
其中,所述利用结合实体周围词注意力机制的双向长短期记忆网络作为特征提取层,从正、反两个方向捕获前后句子之间的依赖关系具体步骤为:
对于包含n个词语的句子,通过双向长短期记忆网络得到的隐向量表示为H={h1,h2,h3,...hn},hi表示了句子中第i个词语的高维语义信息,i=1,2,3,...,n,hi通过前向隐向量和后向隐向量/>拼接得到,即/>
通过计算词语与实体之间的重要性程度构建词注意力机制,经过词注意力层的句子表示为:
式中,hi表示了句子中第i个词语的高维语义信息,λi表示词注意力机制的权重,权重参数从序列中学习出来的,词语与实体的语义相关性通过一个神经网络进行计算,激活函数的计算公式为:
式中,Wa表示词语重要性权重矩阵,表示头实体,/>表示尾实体,ba为偏置量;
通过soft max函数计算得到权重,权重计算公式为:
式中,σi表示句子中第i个词语激活函数,σk表示句子中第k个词语激活函数,k=1,2,3,...,n,n为句子长度;
最后通过最大池化层,句子的最终向量表示为sa=max pool(x);
另一方面,所述引入实体类型信息与依存句法分析树,共同构建了关系抽取器的具体步骤为:
将实体类型信息映射到一个k维向量空间中,得到实体类型信息的嵌入表示,将实体对(e1,e2)的类型嵌入连接作为实体类型对关系的约束,计算方法为式中和/>分别表示实体e1和e2的类型嵌入表示向量;
引入基于依存树的特征表示,将包含实体对的依存子树编码为局部特征向量,包含实体对的依存子树可以表示为Tr=[t1,t2,t3,...,tn],式中,ti表示依存子树上第i个节点的词向量表示,i=1,2,3,...,n,这些词向量连接起来组成最终的依存子树表示;
综合词注意力机制、实体类型信息和实体对的依存关系,得到最终的句子表示s=[sa,Tye,Tr]。
另一方面,本发明提供了一种多方式查询高校档案知识图谱管理平台,所述高校档案知识图谱管理平台包括:知识采集系统、知识图谱构建系统、知识图谱存储系统和知识图谱应用系统;
所述知识采集系统用于采集高校档案的信息数据,并将所述信息数据传输至所述知识图谱构建系统;
所述知识图谱构建系统用于构建高校档案知识图谱,并将高校档案知识图谱传输至所述知识图谱存储系统;
所述知识图谱存储系统用于对高校档案知识图谱进行存储和可视化展示;
所述知识应用系统用于从所述知识存储系统中获取信息数据,并将信息数据应用于档案信息查询、检索和转换。
优选地,所述知识图谱构建系统包括知识模式创建模块和数据处理模块;
所述知识模式创建模块用于定义高校档案知识图谱模式层,根据预设的分类规则和高校档案数据,抽象定义高校档案知识图谱的数据类别、层次结构、本体类别、本体结构、本体关系类别,构建高校档案知识图谱体系;
所述数据处理模块基于所述知识模式创建模块定义的档案知识结构,从高校档案数据源中进行知识图谱的信息抽取,并将抽取出的信息纳入到构建好的高校档案知识图谱体系中。
优选地,所述数据处理模块包括:数据预处理模块、命名实体识别模块、实体关系抽取模块、知识融合模块;
所述数据预处理模块用于数据去噪、分词和依照设定的规范对数据进行序列标注;
所述命名实体识别模块用于识别数据中的实体;
所述实体关系抽取模块用于抽取实体与实体间关系;
所述知识融合模块用于将实体链接到知识库中对应的正确实体中。
优选地,所述知识图谱应用系统包括:图片检索模块,人像检索模块,图片内容识别模块,视频图片检索模块,音频相似检索模块,音频转文本模块,视频人像检索模块和档案信息查询模块;
所述图片检索模块用于以图识图,检索相似的图片信息;
所述人像检索模块用于以人脸照片检索相似的照片以及相关的照片的信息;
所述图片内容识别模块用于识别出图片中的人、物及文本内容;
所述视频图片检索模块用于通过图片检索到相关的视频信息;
所述音频相似检索模块用于上传音频检索出相似的音频信息;
所述音频转文本模块用于将上传的音频转换成文本信息;
所述视频人像检索模块用于通过人像图片检索到相关的视频信息;
所述档案信息查询模块用于检索用户所需要的已归档的档案信息。
附图说明
图1为本发明实施例一中高校档案知识图谱构建方法的流程示意图;
图2为本发明实施例一中对非结构化文本数据进行命名实体识别的流程示意图;
图3为本发明实施例一中对非结构化文本数据进行实体关系抽取的流程示意图;
图4为本发明实施例二中一种多方式查询高校档案知识图谱管理平台的模块示意图;
图5为本发明实施例二中的知识图谱构建系统的模块示意图;
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
以下结合具体实施例对本发明的具体实现进行详细描述。
实施例一
在本实施例当中,如图1所示,提供了一种高校档案知识图谱构建方法,包括以下步骤:
根据预设的分类规则和学校档案数据,构建高校档案领域知识本体;
对学校档案中的结构化数据、半结构化数据以及非结构化数据进行命名实体识别和实体关系抽取;
对完成命名实体识别和实体关系抽取的数据进行知识融合,形成知识图谱;
基于Neo4j图数据库进行档案知识图谱的存储及可视化展示。
在进行知识图谱构建时,首先需要确定知识图谱中的实体、实体属性以及实体间关系,在本实施例中,所述分类规则采用原国家教育委员会发布的《高等学校档案实体分类法》,设定“党群”、“教学”、“科研”、“设备”、“基建”、“外事”、“行政”和“财会”为学校档案图谱实体分类的最高层次,即一级类目,再根据实际档案数据,进行二级及以上类目的实体分类。
在本实施例中,如图2所示,所述构建高校档案领域知识本体具体步骤为:
采用自顶向下的方式定义高校档案知识图谱模式层,自顶向下的构建方式通过对知识图谱顶层的抽象设计,确定图谱的构建范围及数据的组织形式,基于预设的分类规则和高校档案数据,抽象定义高校档案知识图谱的数据类别、层次结构、本体类别、本体结构、本体关系类别,构建高校档案知识图谱体系;
采用自底向上的方式定义高校档案知识图谱数据层,自底向下的构建方式从底层数据提炼出构建知识图谱的“实体”、“实体属性”和“实体关系”三元组,最终抽象出知识数据模型,基于模式层定义的档案知识结构,从高校档案数据源中进行知识图谱的信息抽取,并将抽取出的信息纳入到构建好的高校档案知识图谱体系中。
在本实施例中,通过提炼高校档案数据中知识图谱的“实体”、“实体属性”和“实体关系”三元组来构建知识图谱数据层,因而命名实体识别和实体关系抽取是构建知识图谱中的重要环节,命名实体识别和实体关系抽取以非结构化文本数据为主,在本实施例中,如图3所示,对学校档案的非结构化数据进行命名实体识别具体步骤为:
对数据进行预处理,将数据去噪和分词,依照设定的规范对数据进行序列标注;
预处理后的数据通过Word2Vec模型进行词嵌入式表示;
采用卷积神经网络和双向长短期记忆网络模型分别进行文本特征提取,并加入Dropout机制防止过拟合现象;
将通过卷积神经网络的字符向量和双向长短期记忆网络模型的词向量逐项拼接,然后输入到全连接层和CRF层,经过对拼接向量进行解码,得到最优标记序列。
在本实施例中,如图4所示,对非结构化文本数据进行实体关系抽取的具体步骤为:
对数据进行预处理,将数据去噪和分词,依照设定的规范对数据进行序列标注;
预处理后的数据通过Word2Vec模型进行词嵌入式表示,通过将序列中每个词语与实体的相对距离转化为向量形式后拼接作为位置特征嵌入式表示,词向量表示由词嵌入和位置特征嵌入拼接而成;
利用结合实体周围词注意力机制的双向长短期记忆网络作为特征提取层,从正、反两个方向捕获前后句子之间的依赖关系,引入实体类型信息与依存句法分析树,共同构建关系抽取模型,完成对实体关系的抽取。
其中,所述利用结合实体周围词注意力机制的双向长短期记忆网络作为特征提取层,从正、反两个方向捕获前后句子之间的依赖关系具体步骤为:
对于包含n个词语的句子,通过双向长短期记忆网络得到的隐向量表示为H={h1,h2,h3,...hn},hi表示了句子中第i个词语的高维语义信息,i=1,2,3,...,n,hi通过前向隐向量和后向隐向量/>拼接得到,即/>
通过计算词语与实体之间的重要性程度构建词注意力机制,经过词注意力层的句子表示为:
式中,hi表示了句子中第i个词语的高维语义信息,λi表示词注意力机制的权重,权重参数从序列中学习出来的,词语与实体的语义相关性通过一个神经网络进行计算,激活函数的计算公式为:
式中,Wa表示词语重要性权重矩阵,表示头实体,/>表示尾实体,ba为偏置量;
通过softmax函数计算得到权重,权重计算公式为:
式中,σi表示句子中第i个词语激活函数,σk表示句子中第k个词语激活函数,k=1,2,3,...,n,n为句子长度;
最后通过最大池化层,句子的最终向量表示为sa=max pool(x);
另一方面,所述引入实体类型信息与依存句法分析树,共同构建了关系抽取器的具体步骤为:
将实体类型信息映射到一个k维向量空间中,得到实体类型信息的嵌入表示,将实体对(e1,e2)的类型嵌入连接作为实体类型对关系的约束,计算方法为式中和/>分别表示实体e1和e2的类型嵌入表示向量;
引入基于依存树的特征表示,将包含实体对的依存子树编码为局部特征向量,包含实体对的依存子树可以表示为Tr=[t1,t2,t3,...,tn],式中,ti表示依存子树上第i个节点的词向量表示,i=1,2,3,...,n,这些词向量连接起来组成最终的依存子树表示;
综合词注意力机制、实体类型信息和实体对的依存关系,得到最终的句子表示s=[sa,Tye,Tr]。
实施例二
在本实施例中,如图4所示,提供了一种多方式查询高校档案知识图谱管理平台,具体包括知识采集系统、知识图谱构建系统、知识图谱存储系统和知识图谱应用系统;
所述知识采集系统用于采集高校档案的信息数据,并将所述信息数据传输至所述知识图谱构建系统;
所述知识图谱构建系统用于构建高校档案知识图谱,并将高校档案知识图谱传输至所述知识图谱存储系统;
所述知识图谱存储系统用于对高校档案知识图谱进行存储和可视化展示;
所述知识应用系统用于从所述知识存储系统中获取信息数据,并将信息数据应用于档案信息查询、检索和转换。
其中,所述知识图谱构建系统包括知识模式创建模块和数据处理模块;
所述知识模式创建模块用于定义高校档案知识图谱模式层,根据预设的分类规则和高校档案数据,抽象定义高校档案知识图谱的数据类别、层次结构、本体类别、本体结构、本体关系类别,构建高校档案知识图谱体系;
所述数据处理模块基于所述知识模式创建模块定义的档案知识结构,从高校档案数据源中进行知识图谱的信息抽取,并将抽取出的信息纳入到构建好的高校档案知识图谱体系中。
在本实施例中,如图5所示,所述数据处理模块包括:数据预处理模块、命名实体识别模块、实体关系抽取模块、知识融合模块;
所述数据预处理模块用于数据去噪、分词和依照设定的规范对数据进行序列标注;
所述命名实体识别模块用于识别数据中的实体;
所述实体关系抽取模块用于抽取实体与实体间关系;
所述知识融合模块用于将实体链接到知识库中对应的正确实体中。
所述知识图谱应用系统包括:图片检索模块,人像检索模块,图片内容识别模块,视频图片检索模块,音频相似检索模块,音频转文本模块,视频人像检索模块和档案信息查询模块;
所述图片检索模块用于以图识图,检索相似的图片信息;
所述人像检索模块用于以人脸照片检索相似的照片以及相关的照片的信息;
所述图片内容识别模块用于识别出图片中的人、物及文本内容;
所述视频图片检索模块用于通过图片检索到相关的视频信息;
所述音频相似检索模块用于上传音频检索出相似的音频信息;
所述音频转文本模块用于将上传的音频转换成文本信息;
所述视频人像检索模块用于通过人像图片检索到相关的视频信息;所述档案信息查询模块用于检索用户所需要的已归档的档案信息。
Claims (9)
1.一种多方式查询高校档案知识图谱构建方法,其特征在于,所述方法包括以下步骤:
根据预设的分类规则和学校档案数据,构建高校档案领域知识本体;
对学校档案中的结构化数据、半结构化数据以及非结构化数据进行命名实体识别和实体关系抽取;
对完成命名实体识别和实体关系抽取的数据进行知识融合,形成知识图谱;
基于Neo4j图数据库进行档案知识图谱的存储及可视化展示。
2.根据权利要求1所述的一种多方式查询高校档案知识图谱构建方法,其特征在于,所述对学校档案的结构化数据、半结构化数据以及非结构化数据进行命名实体识别和实体关系抽取,其中对非结构化文本数据进行命名实体识别具体步骤为:
对数据进行预处理,将数据去噪和分词,依照设定的规范对数据进行序列标注;
预处理后的数据通过Word2Vec模型进行词嵌入式表示;
采用卷积神经网络和双向长短期记忆网络模型分别进行文本特征提取,并加入Dropout机制防止过拟合现象;
将通过卷积神经网络的字符向量和双向长短期记忆网络模型的词向量逐项拼接,然后输入到全连接层和CRF层,经过对拼接向量进行解码,得到最优标记序列。
3.根据权利要求1所述的一种多方式查询高校档案知识图谱构建方法,其特征在于,所述对学校档案的结构化数据、半结构化数据以及非结构化数据进行命名实体识别和实体关系抽取,其中对非结构化文本数据进行实体关系抽取的具体步骤为:
对数据进行预处理,将数据去噪和分词,依照设定的规范对数据进行序列标注;
预处理后的数据通过Word2Vec模型进行词嵌入式表示,通过将序列中每个词语与实体的相对距离转化为向量形式后拼接作为位置特征嵌入式表示,词向量表示由词嵌入和位置特征嵌入拼接而成;
利用结合实体周围词注意力机制的双向长短期记忆网络作为特征提取层,从正、反两个方向捕获前后句子之间的依赖关系,引入实体类型信息与依存句法分析树,共同构建关系抽取模型,完成对实体关系的抽取。
4.根据权利要求3所述的一种多方式查询高校档案知识图谱构建方法,其特征在于,所述利用结合实体周围词注意力机制的双向长短期记忆网络作为特征提取层,从正、反两个方向捕获前后句子之间的依赖关系具体步骤为:
对于包含n个词语的句子,通过双向长短期记忆网络得到的隐向量表示为H={h1,h2,h3,...hn},hi表示了句子中第i个词语的高维语义信息,i=1,2,3,...,n,hi通过前向隐向量和后向隐向量/>拼接得到,即/>
通过计算词语与实体之间的重要性程度构建词注意力机制,经过词注意力层的句子表示为:
式中,hi表示了句子中第i个词语的高维语义信息,λi表示词注意力机制的权重,权重参数从序列中学习出来的,词语与实体的语义相关性通过一个神经网络进行计算,激活函数的计算公式为:
式中,Wa表示词语重要性权重矩阵,表示头实体,/>表示尾实体,ba为偏置量;
通过softmax函数计算得到权重,权重计算公式为:
式中,σi表示句子中第i个词语激活函数,σk表示句子中第k个词语激活函数,k=1,2,3,...,n,n为句子长度;
最后通过最大池化层,句子的最终向量表示为sa=max pool(x)。
5.根据权利要求3所述的一种多方式查询高校档案知识图谱构建方法,其特征在于,所述引入实体类型信息与依存句法分析树,共同构建了关系抽取器的具体步骤为:
将实体类型信息映射到一个k维向量空间中,得到实体类型信息的嵌入表示,将实体对(e1,e2)的类型嵌入连接作为实体类型对关系的约束,计算方法为式中/>和/>分别表示实体e1和e2的类型嵌入表示向量;
引入基于依存树的特征表示,将包含实体对的依存子树编码为局部特征向量,包含实体对的依存子树可以表示为Tr=[t1,t2,t3,...,tn],式中,ti表示依存子树上第i个节点的词向量表示,i=1,2,3,...,n,这些词向量连接起来组成最终的依存子树表示;
综合词注意力机制、实体类型信息和实体对的依存关系,得到最终的句子表示s=[sa,Tye,Tr]。
6.一种多方式查询高校档案知识图谱管理平台,基于如权利要求1-5任一项所述的一种多方式查询高校档案知识图谱构建方法实现,其特征在于,所述高校档案知识图谱管理平台包括:知识采集系统、知识图谱构建系统、知识图谱存储系统和知识图谱应用系统;
所述知识采集系统用于采集高校档案的信息数据,并将所述信息数据传输至所述知识图谱构建系统;
所述知识图谱构建系统用于构建高校档案知识图谱,并将高校档案知识图谱传输至所述知识图谱存储系统;
所述知识图谱存储系统用于对高校档案知识图谱进行存储和可视化展示;
所述知识应用系统用于从所述知识存储系统中获取信息数据,并将信息数据应用于档案信息查询、检索和转换。
7.根据权利要求6所述的一种多方式查询高校档案知识图谱管理平台,其特征在于,所述知识图谱构建系统包括知识模式创建模块和数据处理模块;
所述知识模式创建模块用于定义高校档案知识图谱模式层,根据预设的分类规则和高校档案数据,抽象定义高校档案知识图谱的数据类别、层次结构、本体类别、本体结构、本体关系类别,构建高校档案知识图谱体系;
所述数据处理模块基于所述知识模式创建模块定义的档案知识结构,从高校档案数据源中进行知识图谱的信息抽取,并将抽取出的信息纳入到构建好的高校档案知识图谱体系中。
8.根据权利要求7所述的一种多方式查询高校档案知识图谱管理平台,其特征在于,所述数据处理模块包括:
数据预处理模块、命名实体识别模块、实体关系抽取模块、知识融合模块;
所述数据预处理模块用于数据去噪、分词和依照设定的规范对数据进行序列标注;
所述命名实体识别模块用于识别数据中的实体;
所述实体关系抽取模块用于抽取实体与实体间关系;
所述知识融合模块用于将实体链接到知识库中对应的正确实体中。
9.根据权利要求6所述的一种多方式查询高校档案知识图谱管理平台,其特征在于,所述知识应用系统包括:
图片检索模块,人像检索模块,图片内容识别模块,视频图片检索模块,音频相似检索模块,音频转文本模块,视频人像检索模块和档案信息查询模块;
所述图片检索模块用于以图识图,检索相似的图片信息;
所述人像检索模块用于以人脸照片检索相似的照片以及相关的照片的信息;
所述图片内容识别模块用于识别出图片中的人、物及文本内容;
所述视频图片检索模块用于通过图片检索到相关的视频信息;
所述音频相似检索模块用于上传音频检索出相似的音频信息;
所述音频转文本模块用于将上传的音频转换成文本信息;
所述视频人像检索模块用于通过人像图片检索到相关的视频信息;
所述档案信息查询模块用于检索用户所需要的已归档的档案信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311197153.5A CN117216293A (zh) | 2023-09-15 | 2023-09-15 | 一种多方式查询高校档案知识图谱构建方法及管理平台 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311197153.5A CN117216293A (zh) | 2023-09-15 | 2023-09-15 | 一种多方式查询高校档案知识图谱构建方法及管理平台 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117216293A true CN117216293A (zh) | 2023-12-12 |
Family
ID=89034872
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311197153.5A Pending CN117216293A (zh) | 2023-09-15 | 2023-09-15 | 一种多方式查询高校档案知识图谱构建方法及管理平台 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117216293A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117973520A (zh) * | 2024-03-29 | 2024-05-03 | 山东云力信息科技有限公司 | 基于大数据可视化的智慧社区知识图谱的构建方法 |
-
2023
- 2023-09-15 CN CN202311197153.5A patent/CN117216293A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117973520A (zh) * | 2024-03-29 | 2024-05-03 | 山东云力信息科技有限公司 | 基于大数据可视化的智慧社区知识图谱的构建方法 |
CN117973520B (zh) * | 2024-03-29 | 2024-06-07 | 山东云力信息科技有限公司 | 基于大数据可视化的智慧社区知识图谱的构建方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kaur et al. | Comparative analysis on cross-modal information retrieval: A review | |
CN111538835B (zh) | 一种基于知识图谱的社交媒体情感分类方法与装置 | |
Hedges et al. | Academic crowdsourcing in the humanities: Crowds, communities and co-production | |
CN108595708A (zh) | 一种基于知识图谱的异常信息文本分类方法 | |
CN111026861B (zh) | 文本摘要的生成方法、训练方法、装置、设备及介质 | |
CN111581401A (zh) | 一种基于深度相关性匹配的局部引文推荐系统及方法 | |
CN113792177B (zh) | 基于知识引导深度注意力网络的场景文字视觉问答方法 | |
CN109918506A (zh) | 一种文本分类方法及装置 | |
CN117055724B (zh) | 虚拟教学场景中生成式教学资源系统的工作方法 | |
CN113515632B (zh) | 基于图路径知识萃取的文本分类方法 | |
CN112559781B (zh) | 一种图像检索系统和方法 | |
CN112597296A (zh) | 一种基于计划机制和知识图谱引导的摘要生成方法 | |
CN111931061A (zh) | 标签映射方法、装置、计算机设备及存储介质 | |
CN117216293A (zh) | 一种多方式查询高校档案知识图谱构建方法及管理平台 | |
CN114780777B (zh) | 基于语义增强的跨模态检索方法及装置、存储介质和终端 | |
Zhao et al. | TUCH: Turning Cross-view Hashing into Single-view Hashing via Generative Adversarial Nets. | |
CN114357148A (zh) | 一种基于多级别网络的图像文本检索方法 | |
CN113094534A (zh) | 一种基于深度学习的多模态图文推荐方法及设备 | |
CN111428502A (zh) | 一种面向军事语料的命名实体标注方法 | |
Zhu et al. | Unpaired image captioning by image-level weakly-supervised visual concept recognition | |
CN111522923B (zh) | 一种多轮任务式对话状态追踪方法 | |
CN111259152A (zh) | 一种深度多层网络驱动的特征聚合类别划分器 | |
CN116662924A (zh) | 基于双通道与注意力机制的方面级多模态情感分析方法 | |
WO2023168818A1 (zh) | 视频和文本相似度确定方法、装置、电子设备、存储介质 | |
CN113886602B (zh) | 一种基于多粒度认知的领域知识库实体识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |