CN111737471A - 一种基于知识图谱的档案管理模型构建方法及系统 - Google Patents

一种基于知识图谱的档案管理模型构建方法及系统 Download PDF

Info

Publication number
CN111737471A
CN111737471A CN202010600107.5A CN202010600107A CN111737471A CN 111737471 A CN111737471 A CN 111737471A CN 202010600107 A CN202010600107 A CN 202010600107A CN 111737471 A CN111737471 A CN 111737471A
Authority
CN
China
Prior art keywords
knowledge
archive
model
semantic
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010600107.5A
Other languages
English (en)
Other versions
CN111737471B (zh
Inventor
雷洁
赵瑞雪
鲜国建
寇远涛
侯希闻
仲晓春
刘杉
许怡然
程思梦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Agricultural Information Institute of CAAS
Original Assignee
Agricultural Information Institute of CAAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Agricultural Information Institute of CAAS filed Critical Agricultural Information Institute of CAAS
Priority to CN202010600107.5A priority Critical patent/CN111737471B/zh
Publication of CN111737471A publication Critical patent/CN111737471A/zh
Application granted granted Critical
Publication of CN111737471B publication Critical patent/CN111737471B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于知识图谱的档案管理模型构建方法及系统,方法包括:获取计算机可读格式的档案文本,识别档案文本中最小的知识单元,基于各个最小的知识单元的相关关系,形成各知识单元间的语义联系;基于各知识单元间的语义联系,通过知识图谱建立动态档案多维度关联模型;根据动态档案多维度关联模型,通过编辑工具、建模语言建立计算机可识别的档案知识图谱语义模型,利用档案知识对齐、知识消歧对档案自身知识进行知识融合,并与档案知识组织模型互相映射,通过知识推理过程对语义关联进行知识更新与替代。本发明提出了通过识别最小的知识单元识别、建立多维度关联模型及知识融合技术,提高档案语义关联度与利用率。

Description

一种基于知识图谱的档案管理模型构建方法及系统
技术领域
本发明涉及信息资源管理技术领域,具体涉及一种基于知识图谱的档案管理模型构建方法及系统。
背景技术
档案作为机构的重要资源,其价值绝不仅仅在于保存历史资料作为参考凭证,指导未来科学研究工作与提供决策支撑更为重要,随着数字档案急剧增加,大数据、云计算、语义网等信息技术正在推动档案管理方法的创新。在大数据时代,数据已成为基础性战略资源,在数据密集型科学研究范式下,信息的多样化多源化海量化使得档案科研人员必须花费大量的时间检索大量的基础文献资源获取档案科研思路,只有有效挖掘与发现档案资源间的关联,才能产出高质量的档案知识,打通档案科研人员获取档案科研数据、档案科研方法的通道,整合档案知识,梳理各类资源间关联关系,挖掘各类资源的重要关联信息,将档案的科研项目、科研人员、科研成果与研究报告、技术思路等档案资源连接。
当前正快速步入智能时代,知识图谱在各领域快速发展并实现了场景式应用,为档案管理领域开展知识图谱研究奠定了基础,语义技术的发展对于档案管理效率的提高以及档案服务空间的拓展有着重要影响,语义技术存在档案关联与利用方面存在着档案完整性缺失、档案资源组织关联方式单一、档案资源融合与利用率低等缺陷。
发明内容
因此,本发明提供的一种基于知识图谱的档案管理模型构建方法及系统,克服了现有技术中档案语义关联与利用率低的缺陷。
为达到上述目的,本发明提供如下技术方案:
第一方面,本发明实施例提供一种基于知识图谱的档案管理模型构建方法,包括:
获取计算机可读格式的档案文本,识别档案文本中最小的知识单元,基于各个最小的知识单元的相关关系,形成各知识单元间的语义联系;
基于各知识单元间的语义联系,通过知识图谱建立动态档案多维度关联模型;
根据动态档案多维度关联模型,通过编辑工具、建模语言建立计算机可识别的档案知识图谱语义模型,利用档案知识对齐、知识消歧对档案自身知识进行知识融合,并与档案知识组织模型互相映射,通过知识推理过程对语义关联进行知识更新与替代。
在一实施例中,还包括:档案文本还与外部知识库建立关联,扩展档案的语义关系。
在一实施例中,所述获取计算机可读格式的档案文本,识别档案文本中最小的知识单元,基于各个最小的知识单元的相关关系,形成各知识单元间的语义联系的步骤,包括:
分析档案文本的类型,根据不同类型档案文本的数据结构,采用不同的方法对档案文本进行解析;
在解析的基础上利用预设档案元数据架构以及档案知识层级构建识别档案文本中的最小知识单元;
利用预设实体识别方法及自然语言处理方法对最小知识单元进行抽取,所述最小知识单元为实体;
利用最小知识单元,建立与其他知识单元的语义联系。
在一实施例中,在解析的基础上利用预设实体识别方法及自然语言处理方法对档案文本中的最小知识单元进行抽取,所述最小知识单元为实体的步骤,包括:
在解析的基础上,进行档案资源知识层面的实体描述,通过预设档案元数据架构、档案知识层级架构及参考科技类相关字典,结合档案实体的词性特征要素,建立基于档案的实体抽取规则,通过深度学习模型进行档案实体抽取。
在一实施例中,基于各知识单元间的语义联系,通过知识图谱建立动态档案多维度关联模型的步骤,包括:
利用本体编辑编辑工具,使用档案文本描述框架和本体表示语言,集成利用预设本体模型,结合档案语义描述体系,构建档案的知识图谱模型,形成档案文本之间以及档案文本与外部知识库的语义关联,建立动态档案多维度关联模型。
在一实施例中,档案自身知识,包括:档案活动中的科研人员、管理人员、科研项目、科研成果及档案资源中的实体和属性。
在一实施例中,知识推理过程,包括:基于符号的推理和基于统计的推理。
第二方面,本发明实施例提供一种基于知识图谱的档案管理模型构建系统,包括:
最小知识单元识别模块,用于获取计算机可读格式的档案文本,识别档案文本中最小的知识单元,基于各个最小的知识单元的相关关系,形成各知识单元间的语义联系;
多维度关联模型构建模块,用于基于各知识单元间的语义联系,通过知识图谱建立动态档案多维度关联模型;
知识融合模块,用于根据动态档案多维度关联模型,通过编辑工具、建模语言建立计算机可识别的档案知识图谱语义模型,利用档案知识对齐、知识消歧对档案自身知识进行知识融合,并与档案知识组织模型互相映射,通过知识推理过程对语义关联进行知识更新与替代。
第三方面,本发明实施例提供一种终端,包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行本发明实施例第一方面所述的基于知识图谱的档案管理模型构建方法。
第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行本发明实施例第一方面所述的基于知识图谱的档案管理模型构建方法。
本发明技术方案,具有如下优点:
本发明提供的基于知识图谱的档案管理模型构建方法及系统,选取合适的命名实体识别和语义关系抽取方法对档案文本数据开展知识抽取,将档案的科研文本资源转化为计算机可读格式的档案文本,形成各知识单元间的语义联系,通过各类知识组织方式以及相关档案管理模型的对比分析,从档案多维度关联模型构建出发,通过知识融合、知识推理等过程,基于档案管理人员等行为分析档案知识图谱的智能知识应用场景和方法以支持管理决策,提高档案语义关联度与利用率。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于知识图谱的档案管理模型构建方法的一个具体示例的流程图;
图2为本发明实施例提供的一种基于知识图谱的档案管理模型构建方法的一个具体示例的档案元数据架构图;
图3为本发明实施例提供的一种基于知识图谱的档案管理模型构建方法的一个具体示例的档案知识层级图;
图4为本发明实施例提供的一种基于知识图谱的档案管理模型构建系统的模块组成图;
图5为本发明实施例提供的一种终端一个具体示例的组成图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,还可以是两个元件内部的连通,可以是无线连接,也可以是有线连接。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
实施例1
本发明实施例提供的一种基于知识图谱的档案管理模型构建方法,如图1所示,包括如下步骤:
步骤S1:获取计算机可读格式的档案文本,识别档案文本中最小的知识单元,基于各个最小的知识单元的相关关系,形成各知识单元间的语义联系。
在本发明实施例中,识别档案文本中最小的知识单元,基于各个最小的知识单元的相关关系,形成各知识单元间的语义联系的步骤,包括:分析档案文本的类型,根据不同类型档案文本的数据结构,采用不同的方法对档案文本进行解析,在进行数据解析前,需要全方位了解档案资源的数据类型及分类等情况;在解析的基础上利用预设档案元数据架构以及档案知识层级构建识别档案文本中的最小知识单元;利用预设实体识别方法及自然语言处理方法对最小知识单元进行抽取,所述最小知识单元为实体;利用最小知识单元,建立与其他知识单元的语义联系。为开展语义关联的档案管理研究,在档案数据解析与深层次揭示的基础上,须抽取科研档案实体,作为档案文本中最小的知识单元与其他知识单元建立关联关系,利用命名实体识别、自然语言处理等技术完成科研档案实体的抽取。
在本发明实施例中,档案文本还与外部知识库建立关联,扩展档案的语义关系。首先开展科研档案数据解析,分解文本档案、音视频档案、档案元数据、XML档案等资源中各类异构数据格式,在数据解析的基础上,进行档案资源知识层面的实体描述,通过档案元数据架构设计以及档案知识层级构建来共同揭示科研档案资源,最后参考科技类相关字典,结合科研档案实体的词性特征等要素,建立基于科研档案的实体抽取规则,通过深度学习模型等完成科研档案实体抽取;通过对科研档案数据解析、深层次揭示以及实体抽取,完成档案最小的知识单元的实体识别,实体是档案资源中最小的知识单元,实体是深入到科研档案资源知识层级,从内容中抽取或提取的知识单元。
在本发明实施例中,如图2所示,档案的元数据分为人员、组织机构、来源、支持信息、项目以及实体关系几大模块。档案包含了一般档案具有的元数据属性如与人员相关的管理人员、科研人员、权限管理等属性,与组织机构相关的团队名称、研究方向等,与来源相关的档号等,与支持信息相关的题名、主题词、日期、密级等。项目档案在继承科研档案属性的基础上还增加了项目编号、项目来源等项目性质元数据以及成果类型、获奖级别等科研成果元数据,在开展知识图谱构建中会将档案元数据的一般属性和特殊属性统筹考虑。
实际中,档案资源除档案资源元数据外,还包括档案资源自身的知识。档案资源知识分散在各类档案资源内,包含综合文书类、科研课题类、人事财务类以及修购基建类等多种类型,其中课题类档案资源内容具有较高的特殊性,故在档案知识的选取上从课题档案展开研究,按照课题研究过程课题档案又可分为立项档案、研究档案、结项档案、成果档案以及成果转化档案等。立项档案按内容还可分为立项任务书、立项合同书和实施方案等内容,如图3所示,档案知识层级图。由此可以看出,档案资源最小的知识单元加工应能够识别到内容层级,即档案资源知识层面的研究任务、研究思路、技术路线以及实施方案、考核指标等实体。在档案知识层面的数据揭示过程中,将对档案语料定义句的句法-语义剖析等,借助语义技术进行实体识别,提取科研档案知识层面的高频词与关键词等进一步充实科研档案的实体。
步骤S2:基于各知识单元间的语义联系,通过知识图谱建立动态档案多维度关联模型。
在本发明实施例中,基于各知识单元间的语义联系,通过知识图谱建立动态档案多维度关联模型的步骤,包括:利用本体编辑编辑工具,使用档案文本描述框架和本体表示语言,集成利用预设本体模型,结合档案语义描述体系,构建档案的知识图谱模型,形成档案文本之间以及档案文本与外部知识库的语义关联,建立动态档案多维度关联模型。知识图谱模型构建过程,通过自然语言处理、机器学习等技术将档案文本资源转化为计算机可读格式的档案文本,抽取出有价值的科研档案知识,利用本体编辑工具Protégé,使用资源描述框架RDF和WEB,本体表示语言OWL,继承利用EAD、DCMI、VIVO、SWRC、VIVO、Schema.org等现有较为通用的本体模型,仅以此举例,不以此为限,在实际应用中选择相应的编辑工具、描述框架、语言及模型,结合档案语义描述体系,构建档案的知识图谱模型,形成档案资源之间以及档案资源与外部知识库的语义关联,为档案资源精细化加工与智能组织提供语义框架支持。
本发明实施例中,档案描述体系设计是动态循环的,在进行设计时要充分考虑档案特点,需要利用Protégé构建的计算机可理解与计算的档案本体,结合知识抽取阶段实体识别、关系抽取以及属性抽取的实例数据,筛选高频词统计以及语义关系抽取结果,实现档案知识图谱语义层面的关联。基于档案语义词典进一步规范知识图谱实体与关系,与外部知识库(如Wikidata)进行连接,丰富档案资源的关联关系。实际中,在档案描述体系设计中,采用专家咨询的方法,邀请知识构建领域专家2名、档案管理专家2名对档案描述体系的结构合理性和可扩展性两方面开展了质量评估。
步骤S3:根据动态档案多维度关联模型,通过编辑工具、建模语言建立计算机可识别的档案知识图谱语义模型,利用档案知识对齐、知识消歧对档案自身知识进行知识融合,并与档案知识组织模型互相映射,通过知识推理过程对语义关联进行知识更新与替代。
在本发明实施例中,应用编辑工具Protégé、建模语言OWL建立计算机可理解的档案知识图谱语义模型。通过构建的档案知识图谱模型将项目、人员、成果等要素与档案知识层面的实体进行语义关联,将档案知识集成起来,解析用户需求,反馈与推送相关知识。
在本发明实施例中,档案知识推理是根据已构建的数据模型和档案数据,知识推理过程,包括:基于符号的推理和基于统计的推理,基于符号的推理在人工智能研究方向主要是通过一阶谓词逻辑、命题逻辑或者缺省逻辑等,利用已知的知识图谱(如Freebase等),使用已建立的规则推断实体之间的新关系,或者针对科研档案知识图谱进行逻辑冲突检测。基于统计的方法一般是通过统计规则,利用关系机器学习的技术,从档案知识图谱中学习新的实体关系。依据一定的推理规则,获取满足语义的新的档案知识。利用档案知识图谱的可拓展性,从各类异构数据源中抽取数据并集成到知识图谱中,扩展档案资源中的实体与关联关系,可实现知识的不断积累,因此,有必要开展档案的知识融合与推理,开展档案知识对齐、知识消歧等,进一步融合档案资源自身知识,并通过知识推理等过程,加强与外部知识库的关联。
在本发明实施例中,档案自身知识,包括:档案活动中的科研人员、管理人员、科研项目、科研成果及档案资源中的实体和属性。档案管理系统的主要用户是档案管理人员及相关协同人员,为了开展档案资源的深层次利用,需针对档案管理人员等用户基本信息,通过对系统数据库中用户日志分析,抓取用户访问频率(Access frequency)以及用户检索行为(Operation)等,构建“用户画像”,为基于知识图谱的档案管理系统智能推荐等功能提供语义框架支撑。在构建的档案知识图谱顶层模式架构中的实体、关系与属性较为简单,在实例构建过程中,有必要根据用户需求及档案资源具体内容进一步细化和丰富各科研档案实体之间的语义关系,从而准确表达科研档案资源的关联情况。在开展档案管理过程中,管理人员主要负责档案的收集、存储和管理工作,而科研人员主要负责开展科研活动、产出科研成果等,两类人员分工差异性较大,故将人员实体细分为科研人员和管理人员两类。
本发明实施例中提供的基于知识图谱的档案管理模型构建方法,选取合适的命名实体识别和语义关系抽取方法对档案文本数据开展知识抽取,将科研档案文本资源转化为计算机可读格式的档案文本,形成各知识单元间的语义联系,通过各类知识组织方式以及相关档案管理模型的对比分析,从档案多维度关联模型构建出发,通过知识融合、知识推理等过程,基于档案管理人员等行为分析档案知识图谱的智能知识应用场景和方法以支持管理决策,提高档案语义关联度与利用率。
实施例2
本发明实施例提供一种基于知识图谱的档案管理模型构建系统,如图4所示,包括:
最小知识单元识别模块1,用于获取计算机可读格式的档案文本,识别档案文本中最小的知识单元,基于各个最小的知识单元的相关关系,形成各知识单元间的语义联系;此模块执行实施例1中的步骤S1所描述的方法,在此不再赘述。
多维度关联模型构建模块2,用于基于各知识单元间的语义联系,通过知识图谱建立动态档案多维度关联模型;此模块执行实施例1中的步骤S2所描述的方法,在此不再赘述。
知识融合模块3,用于根据动态档案多维度关联模型,通过编辑工具、建模语言建立计算机可识别的档案知识图谱语义模型,利用档案知识对齐、知识消歧对档案自身知识进行知识融合,并与档案知识组织模型互相映射,通过知识推理过程对语义关联进行知识更新与替代;此模块执行实施例1中的步骤S3所描述的方法,在此不再赘述。
本发明实施例提供一种基于知识图谱的档案管理模型构建系统,选取合适的命名实体识别和语义关系抽取方法对档案文本数据开展知识抽取,将科研档案文本资源转化为计算机可读格式的档案文本,形成各知识单元间的语义联系,通过各类知识组织方式以及相关档案管理模型的对比分析,从档案多维度关联模型构建出发,通过知识融合、知识推理等过程,基于档案管理人员等行为分析档案知识图谱的智能知识应用场景和方法以支持管理决策,提高档案语义关联度与利用率。
实施例3
本发明实施例提供一种终端,如图5所示,包括:至少一个处理器401,例如CPU(Central Processing Unit,中央处理器),至少一个通信接口403,存储器404,至少一个通信总线402。其中,通信总线402用于实现这些组件之间的连接通信。其中,通信接口403可以包括显示屏(Display)、键盘(Keyboard),可选通信接口403还可以包括标准的有线接口、无线接口。存储器404可以是高速RAM存储器(Random Access Memory,易挥发性随机存取存储器),也可以是非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。存储器404可选的还可以是至少一个位于远离前述处理器401的存储装置。其中处理器401可以执行实施例1中的基于知识图谱的档案管理模型构建方法。存储器404中存储一组程序代码,且处理器401调用存储器404中存储的程序代码,以用于执行实施例1中的基于知识图谱的档案管理模型构建方法。其中,通信总线402可以是外设部件互连标准(peripheralcomponent interconnect,简称PCI)总线或扩展工业标准结构(extended industrystandard architecture,简称EISA)总线等。通信总线402可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一条线表示,但并不表示仅有一根总线或一种类型的总线。其中,存储器404可以包括易失性存储器(英文:volatile memory),例如随机存取存储器(英文:random-access memory,缩写:RAM);存储器也可以包括非易失性存储器(英文:non-volatile memory),例如快闪存储器(英文:flash memory),硬盘(英文:hard diskdrive,缩写:HDD)或固降硬盘(英文:solid-state drive,缩写:SSD);存储器404还可以包括上述种类的存储器的组合。其中,处理器401可以是中央处理器(英文:centralprocessing unit,缩写:CPU),网络处理器(英文:network processor,缩写:NP)或者CPU和NP的组合。
其中,存储器404可以包括易失性存储器(英文:volatile memory),例如随机存取存储器(英文:random-access memory,缩写:RAM);存储器也可以包括非易失性存储器(英文:non-volatile memory),例如快闪存储器(英文:flash memory),硬盘(英文:hard diskdrive,缩写:HDD)或固态硬盘(英文:solid-state drive,缩写:SSD);存储器404还可以包括上述种类的存储器的组合。
其中,处理器401可以是中央处理器(英文:central processing unit,缩写:CPU),网络处理器(英文:network processor,缩写:NP)或者CPU和NP的组合。
其中,处理器401还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(英文:application-specific integrated circuit,缩写:ASIC),可编程逻辑器件(英文:programmable logic device,缩写:PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(英文:complex programmable logic device,缩写:CPLD),现场可编程逻辑门阵列(英文:field-programmable gate array,缩写:FPGA),通用阵列逻辑(英文:generic arraylogic,缩写:GAL)或其任意组合。
可选地,存储器404还用于存储程序指令。处理器401可以调用程序指令,实现如本申请执行实施例1中的基于知识图谱的档案管理模型构建方法。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机可执行指令,该计算机可执行指令可执行实施例1中的基于知识图谱的档案管理模型构建方法。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(Random Access Memory,RAM)、快闪存储器(Flash Memory)、硬盘(HardDisk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;所述存储介质还可以包括上述种类的存储器的组合。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims (10)

1.一种基于知识图谱的档案管理模型构建方法,其特征在于,包括:
获取计算机可读格式的档案文本,识别档案文本中最小的知识单元,基于各个最小的知识单元的相关关系,形成各知识单元间的语义联系;
基于各知识单元间的语义联系,通过知识图谱建立动态档案多维度关联模型;
根据动态档案多维度关联模型,通过编辑工具、建模语言建立计算机可识别的档案知识图谱语义模型,利用档案知识对齐、知识消歧对档案自身知识进行知识融合,并与档案知识组织模型互相映射,通过知识推理过程对语义关联进行知识更新与替代。
2.根据权利要求1所述的基于知识图谱的档案管理模型构建方法,其特征在于,还包括:档案文本还与外部知识库建立关联,扩展档案的语义关系。
3.根据权利要求1所述的基于知识图谱的档案管理模型构建方法,其特征在于,所述获取计算机可读格式的档案文本,识别档案文本中最小的知识单元,基于各个最小的知识单元的相关关系,形成各知识单元间的语义联系的步骤,包括:
分析档案文本的类型,根据不同类型档案文本的数据结构,采用不同的方法对档案文本进行解析;
在解析的基础上利用预设档案元数据架构以及档案知识层级构建识别档案文本中的最小知识单元;
利用预设实体识别方法及自然语言处理方法对最小知识单元进行抽取,所述最小知识单元为实体;
利用最小知识单元,建立与其他知识单元的语义联系。
4.根据权利要求3所述的基于知识图谱的档案管理模型构建方法,其特征在于,在解析的基础上利用预设实体识别方法及自然语言处理方法对档案文本中的最小知识单元进行抽取,所述最小知识单元为实体的步骤,包括:
在解析的基础上,进行档案资源知识层面的实体描述,通过预设档案元数据架构、档案知识层级架构及参考科技类相关字典,结合档案实体的词性特征要素,建立基于档案的实体抽取规则,通过深度学习模型进行档案实体抽取。
5.根据权利要求2所述的基于知识图谱的档案管理模型构建方法,其特征在于,基于各知识单元间的语义联系,通过知识图谱建立动态档案多维度关联模型的步骤,包括:
利用本体编辑编辑工具,使用档案文本描述框架和本体表示语言,集成利用预设本体模型,结合档案语义描述体系,构建档案的知识图谱模型,形成档案文本之间以及档案文本与外部知识库的语义关联,建立动态档案多维度关联模型。
6.根据权利要求1所述的基于知识图谱的档案管理模型构建方法,其特征在于,档案自身知识,包括:档案活动中的科研人员、管理人员、科研项目、科研成果及档案资源中的实体和属性。
7.根据权利要求1所述的基于知识图谱的档案管理模型构建方法,其特征在于,知识推理过程,包括:基于符号的推理和基于统计的推理。
8.一种基于知识图谱的档案管理模型构建系统,其特征在于,包括:
最小知识单元识别模块,用于获取计算机可读格式的档案文本,识别档案文本中最小的知识单元,基于各个最小的知识单元的相关关系,形成各知识单元间的语义联系;
多维度关联模型构建模块,用于基于各知识单元间的语义联系,通过知识图谱建立动态档案多维度关联模型;
知识融合模块,用于根据动态档案多维度关联模型,通过编辑工具、建模语言建立计算机可识别的档案知识图谱语义模型,利用档案知识对齐、知识消歧对档案自身知识进行知识融合,并与档案知识组织模型互相映射,通过知识推理过程对语义关联进行知识更新与替代。
9.一种终端,其特征在于,包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行权利要求1-7任一所述的基于知识图谱的档案管理模型构建方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行权利要求1-7任一所述的基于知识图谱的档案管理模型构建方法。
CN202010600107.5A 2020-06-28 2020-06-28 一种基于知识图谱的档案管理模型构建方法及系统 Active CN111737471B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010600107.5A CN111737471B (zh) 2020-06-28 2020-06-28 一种基于知识图谱的档案管理模型构建方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010600107.5A CN111737471B (zh) 2020-06-28 2020-06-28 一种基于知识图谱的档案管理模型构建方法及系统

Publications (2)

Publication Number Publication Date
CN111737471A true CN111737471A (zh) 2020-10-02
CN111737471B CN111737471B (zh) 2023-10-13

Family

ID=72651474

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010600107.5A Active CN111737471B (zh) 2020-06-28 2020-06-28 一种基于知识图谱的档案管理模型构建方法及系统

Country Status (1)

Country Link
CN (1) CN111737471B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112200544A (zh) * 2020-10-30 2021-01-08 中国科学院力学研究所 一种基于大数据技术的智能科研管理系统
CN112214617A (zh) * 2020-11-11 2021-01-12 广东新禾道信息科技有限公司 一种基于区块链技术的数字档案管理方法及系统
CN112417082A (zh) * 2020-10-14 2021-02-26 西南科技大学 一种科研成果数据消歧归档存储方法
CN112541692A (zh) * 2020-12-21 2021-03-23 中国医学科学院医学信息研究所 科学数据管理计划生成方法及装置
CN112732938A (zh) * 2021-01-13 2021-04-30 李晋琳 一种基于自然语言的知识图谱构建和完善系统及方法
CN113254659A (zh) * 2021-02-04 2021-08-13 天津德尔塔科技有限公司 一种基于知识图谱技术的档案研判方法及系统
CN113268602A (zh) * 2021-03-29 2021-08-17 江西融思科技有限公司 一种组织知识图谱构建方法及装置
CN113656647A (zh) * 2021-06-02 2021-11-16 韦东庆 一种面向智能运维的工程档案数据管理平台、方法及系统
CN114676266A (zh) * 2022-03-29 2022-06-28 建信金融科技有限责任公司 基于多层关系图谱的冲突识别方法、装置、设备及介质
CN114691894A (zh) * 2022-05-30 2022-07-01 国网浙江省电力有限公司 电子信息全链路知识图谱的无纸化财务数据管理方法
CN115033528A (zh) * 2022-06-29 2022-09-09 广东国讯信息科技有限公司 一种档案数据管理方法及系统
CN115186111A (zh) * 2022-09-13 2022-10-14 中国医学科学院医学信息研究所 一种指标数据语义关联及融合方法、系统及可存储介质
US20220366500A1 (en) * 2021-05-17 2022-11-17 GMA Digital Transformation LLC Methods and systems for digitally transforming research and developmental data for generating business intelligence data
CN116089628A (zh) * 2023-02-14 2023-05-09 成都市城市建设和自然资源档案馆 一种城市建设和自然资源档案知识图谱构建方法
CN116756396A (zh) * 2023-06-29 2023-09-15 广东齐峰信息科技有限公司 基于知识图谱的数字档案管理系统及方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108197119A (zh) * 2018-02-05 2018-06-22 成都卓观信息技术有限公司 基于知识图谱的纸质档案数字化方法
CN109739994A (zh) * 2018-12-14 2019-05-10 复旦大学 一种基于参考文档的api知识图谱构建方法
CN109840270A (zh) * 2018-12-23 2019-06-04 国网浙江省电力有限公司 一种基于Neo4j的电网设备信息管理方法
CN110019842A (zh) * 2018-09-30 2019-07-16 北京国双科技有限公司 一种建立知识图谱的方法及装置
CN110362693A (zh) * 2019-07-24 2019-10-22 广东电网有限责任公司 一种业扩工程图纸知识图谱构建方法
CN110781254A (zh) * 2020-01-02 2020-02-11 四川大学 一种案情知识图谱自动构建方法及系统及设备及介质
CN110825882A (zh) * 2019-10-09 2020-02-21 西安交通大学 一种基于知识图谱的信息系统管理方法
CN110929165A (zh) * 2019-12-17 2020-03-27 云南大学 一种基于JAVA Doc知识图谱的多维评估推荐方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108197119A (zh) * 2018-02-05 2018-06-22 成都卓观信息技术有限公司 基于知识图谱的纸质档案数字化方法
CN110019842A (zh) * 2018-09-30 2019-07-16 北京国双科技有限公司 一种建立知识图谱的方法及装置
CN109739994A (zh) * 2018-12-14 2019-05-10 复旦大学 一种基于参考文档的api知识图谱构建方法
CN109840270A (zh) * 2018-12-23 2019-06-04 国网浙江省电力有限公司 一种基于Neo4j的电网设备信息管理方法
CN110362693A (zh) * 2019-07-24 2019-10-22 广东电网有限责任公司 一种业扩工程图纸知识图谱构建方法
CN110825882A (zh) * 2019-10-09 2020-02-21 西安交通大学 一种基于知识图谱的信息系统管理方法
CN110929165A (zh) * 2019-12-17 2020-03-27 云南大学 一种基于JAVA Doc知识图谱的多维评估推荐方法
CN110781254A (zh) * 2020-01-02 2020-02-11 四川大学 一种案情知识图谱自动构建方法及系统及设备及介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张恺: "我国电子文件管理研究知识图谱的构建与分析", 《浙江档案》, vol. 2011, no. 5, pages 28 - 31 *
雷洁等: "科研档案管理知识图谱构建研究", 《科技管理研究》, vol. 40, no. 11, pages 162 - 169 *

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112417082B (zh) * 2020-10-14 2022-06-07 西南科技大学 一种科研成果数据消歧归档存储方法
CN112417082A (zh) * 2020-10-14 2021-02-26 西南科技大学 一种科研成果数据消歧归档存储方法
CN112200544B (zh) * 2020-10-30 2023-10-31 中国科学院力学研究所 一种基于大数据技术的智能科研管理系统
CN112200544A (zh) * 2020-10-30 2021-01-08 中国科学院力学研究所 一种基于大数据技术的智能科研管理系统
CN112214617A (zh) * 2020-11-11 2021-01-12 广东新禾道信息科技有限公司 一种基于区块链技术的数字档案管理方法及系统
CN112214617B (zh) * 2020-11-11 2021-05-14 广东新禾道信息科技有限公司 一种基于区块链技术的数字档案管理方法及系统
CN112541692A (zh) * 2020-12-21 2021-03-23 中国医学科学院医学信息研究所 科学数据管理计划生成方法及装置
CN112541692B (zh) * 2020-12-21 2023-08-11 中国医学科学院医学信息研究所 科学数据管理计划生成方法及装置
CN112732938A (zh) * 2021-01-13 2021-04-30 李晋琳 一种基于自然语言的知识图谱构建和完善系统及方法
CN113254659A (zh) * 2021-02-04 2021-08-13 天津德尔塔科技有限公司 一种基于知识图谱技术的档案研判方法及系统
CN113268602A (zh) * 2021-03-29 2021-08-17 江西融思科技有限公司 一种组织知识图谱构建方法及装置
US20220366500A1 (en) * 2021-05-17 2022-11-17 GMA Digital Transformation LLC Methods and systems for digitally transforming research and developmental data for generating business intelligence data
CN113656647A (zh) * 2021-06-02 2021-11-16 韦东庆 一种面向智能运维的工程档案数据管理平台、方法及系统
CN114676266A (zh) * 2022-03-29 2022-06-28 建信金融科技有限责任公司 基于多层关系图谱的冲突识别方法、装置、设备及介质
CN114676266B (zh) * 2022-03-29 2024-02-27 建信金融科技有限责任公司 基于多层关系图谱的冲突识别方法、装置、设备及介质
CN114691894A (zh) * 2022-05-30 2022-07-01 国网浙江省电力有限公司 电子信息全链路知识图谱的无纸化财务数据管理方法
CN115033528A (zh) * 2022-06-29 2022-09-09 广东国讯信息科技有限公司 一种档案数据管理方法及系统
CN115186111A (zh) * 2022-09-13 2022-10-14 中国医学科学院医学信息研究所 一种指标数据语义关联及融合方法、系统及可存储介质
CN116089628A (zh) * 2023-02-14 2023-05-09 成都市城市建设和自然资源档案馆 一种城市建设和自然资源档案知识图谱构建方法
CN116756396A (zh) * 2023-06-29 2023-09-15 广东齐峰信息科技有限公司 基于知识图谱的数字档案管理系统及方法
CN116756396B (zh) * 2023-06-29 2023-12-22 广东齐峰信息科技有限公司 基于知识图谱的数字档案管理系统及方法

Also Published As

Publication number Publication date
CN111737471B (zh) 2023-10-13

Similar Documents

Publication Publication Date Title
CN111737471B (zh) 一种基于知识图谱的档案管理模型构建方法及系统
US20240070487A1 (en) Systems and methods for enriching modeling tools and infrastructure with semantics
Pathak et al. Survey of modular ontology techniques and their applications in the biomedical domain
US11960513B2 (en) User-customized question-answering system based on knowledge graph
US20110099532A1 (en) Automation of Software Application Engineering Using Machine Learning and Reasoning
CN103294475A (zh) 基于图形化业务场景和领域模板的业务自动生成系统和方法
Upadhyaya et al. ERONTO: a tool for extracting ontologies from extended E/R diagrams
EP3671526A1 (en) Dependency graph based natural language processing
US20230409648A1 (en) Composite index on hierarchical nodes in the hierarchical data model within case model
US20120078969A1 (en) System and method to extract models from semi-structured documents
CN111967761A (zh) 一种基于知识图谱的监控预警方法、装置及电子设备
CN113094512B (zh) 一种工业生产制造中故障分析系统及方法
CN111198897B (zh) 科研热点主题分析方法、装置与电子设备
CN116843028A (zh) 多模态知识图谱构建方法、系统、存储介质及电子设备
Tao et al. Research on marketing management system based on independent ERP and business BI using fuzzy TOPSIS
CN117744784B (zh) 一种医学科研知识图谱构建与智能检索方法及系统
CN113220951B (zh) 一种基于智能内容的医学临床支持方法和系统
US8341170B2 (en) Apparatus and method for visualizing technology change
KR101684579B1 (ko) 지식 생성 시스템 및 방법
CN112883202A (zh) 一种基于知识图谱的多组件建模方法和系统
KR101783791B1 (ko) 프로버넌스 관리를 위한 압축 장치 및 방법
CN115878818B (zh) 一种地理知识图谱构建方法、装置、终端及存储介质
CN117473054A (zh) 基于知识图谱的通用智能问答方法及装置
CN104298676A (zh) 主题挖掘方法和设备、以及查询扩展方法和设备
CN115827885A (zh) 一种运维知识图谱的构建方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant