CN111753099B

CN111753099B - 一种基于知识图谱增强档案实体关联度的方法及系统

Info

Publication number: CN111753099B
Application number: CN202010599169.9A
Authority: CN
Inventors: 雷洁; 赵瑞雪; 鲜国建; 寇远涛; 侯希闻; 仲晓春; 刘杉; 许怡然; 程思梦
Original assignee: Agricultural Information Institute of CAAS
Current assignee: Agricultural Information Institute of CAAS
Priority date: 2020-06-28
Filing date: 2020-06-28
Publication date: 2023-11-21
Anticipated expiration: 2040-06-28
Also published as: CN111753099A

Abstract

本发明公开了一种基于知识图谱增强档案实体关联度的方法及系统，方法包括：获取档案文本类数据；利用实体识别模型识别档案文本类数据，生成已定义实体的实例数据；利用关系抽取模型识别已定义实体的实例数据，生成知识图谱中最小的单元；利用知识融合模型对知识图谱中最小的单元进行去重预处理，建立分区索引分文档，依据文本相似性或者结构相似度来查找匹配的实体，利用预设实体对齐算法进行知识融合，增强档案实体的关联度。本发明提出了使用实体识别、关系抽取、融合技术实现档案智能化采集与归档、数据加工与解析以及档案资源语义增强主要功能，为档案管理语义关联化、智能化发展提供有力支撑，提高档案数据关联度与利用率。

Description

一种基于知识图谱增强档案实体关联度的方法及系统

技术领域

本发明涉及信息资源管理技术领域，具体涉及一种基于知识图谱增强档案实体关联度的方法及系统。

背景技术

传统的档案管理主要是“手工”管理，收集主要通过“索要”，档案资源处在“以存为主”的阶段，在资源收集、著录与检索查询的功能上缺乏深度资源开发和共享，导致档案数据价值没有被激活，不能满足档案科研人员信息共享的迫切需求。围绕档案数字化、档案数据库系统以及数字档案馆建设等方面进行了目标设计和任务描述。档案管理也正逐步向档案信息化建设方向倾斜，促进档案的进一步开放和共享。在科学研究的第四范式即数据密集型科学发现的影响下，档案科研活动中各个要素间的联系更加紧密，档案科研手段发生了巨大变化，大规模、跨地域、跨机构的科研活动日益广泛。

档案系统的出现将纸质档案在实体档案馆的管理状态转换为电子档案在数据库中的存储模式，但在现有的档案系统内资源的加工粒度依然按照传统的“卷”和“件”进行，标引按照档案著录格式开展，存在档案数据关联度与利用率低的缺陷。

发明内容

因此，本发明提供的一种基于知识图谱增强档案实体关联度的方法及系统，克服了现有技术中档案数据关联度与利用率低的缺陷。

为达到上述目的，本发明提供如下技术方案：

第一方面，本发明实施例提供一种基于知识图谱增强档案实体关联度的方法，包括：

获取档案文本类数据；

利用实体识别模型识别档案文本类数据，生成已定义实体的实例数据；

利用关系抽取模型识别已定义实体的实例数据，生成知识图谱中最小的单元；

利用知识融合模型对知识图谱中最小的单元进行去重预处理，建立分区索引分文档，依据文本相似性或者结构相似度来查找匹配的实体，利用预设实体对齐算法进行知识融合，增强档案实体的关联度。

在一实施例中，所述利用实体识别模型识别文本类数据，生成已定义实体的实例数据的步骤，包括：

利用中文分词工具识别文本类数据，结合领域叙词表，生成中文文本分词数据；

利用条件随机场模型识别中文文本分词数据，生成中文文本分词标注数据；

利用二次验证模型识别中文文本分词数据、中文文本分词标注数据，生成已定义实体的实例数据。

在一实施例中，所述利用二次验证模型识别中文文本分词数据、中文文本分词标注数据，生成已定义实体的实例数据的步骤，包括：

获取中文文本分词数据、中文文本分词标注数据；

利用特征提取器识别档案知识图谱模型中的数据及中文文本分词标注数据，生成特征提取数据；

对中文文本分词数据及特征提取数据进行交叉验证，生成第一验证结果；

利用名词词频统计工具识别中文文本分词标注数据，结合叙词表、领域本体进行人工标注作为训练数据，并利用训练数据训练分类器，将特征提取数据输入训练好的分类器，生成分类数据；

根据分类数据及第一验证结果进行交叉验证，生成第二验证结果，将第二验证结果作为已定义实体的实例数据。

在一实施例中，所述利用关系抽取模型识别已定义实体的实例数据，生成知识图谱中最小的单元的步骤，包括：

利用分类标志识别文本类数据，生成文本类分句数据；

基于预设聚类算法，分析匹配文本类数据、文本类分句数据，生成档案实体和相应句子的聚类结果；

利用实体组构建模型识别已定义实体的实例数据和聚类结果，生成实体组的实体类型；

根据实体组的实体类型、实体间语义关系，同时利用人工校验确定档案实体的语义关系类型；

利用关系抽取模型中的档案实体语义关系类型，生成知识图谱中最小的单元。

在一实施例中，所述获取档案文本类数据，包括：采用模式识别技术对档案科研过程文档PDF附件、财务EXCEL报表、实验图片、会议音频视频进行预处理转化为档案文本类数据。

在一实施例中，档案文本类数据，包括：结构化数据、半结构化数据、非结构化数据。

第二方面，本发明实施例提供一种基于知识图谱增强档案实体关联度的系统，包括：

数据获取模块，用于获取文本类数据；

实体识别模块，用于利用实体识别模型识别档案文本类数据，生成已定义实体的实例数据；

关系抽取模块，用于利用关系抽取模型识别已定义实体的实例数据，生成知识图谱中最小的单元；

知识融合模块，用于利用知识融合模型对知识图谱中最小的单元进行去重预处理，建立分区索引分文档，依据文本相似性或者结构相似度来查找匹配的实体，利用预设实体对齐算法进行知识融合，增强档案实体的关联度。

第三方面，本发明实施例提供一种终端，包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行本发明实施例第一方面所述的基于知识图谱增强档案实体关联度的方法。

第四方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使所述计算机执行本发明实施例第一方面所述的基于知识图谱增强档案实体关联度的方法。

本发明技术方案，具有如下优点：

本发明提供的基于知识图谱增强档案实体关联度的方法及系统，基于实体识别、关系抽取融合等技术实现档案智能化采集与归档、数据加工与解析、实体识别与关系抽取以及档案资源语义增强等主要功能，对档案核心知识资源进行组织和表示，充分挖掘与利用档案科研机构档案资源的知识宝库，解决目前档案管理面临的知识关联度弱等问题，为档案管理语义关联化、智能化发展提供有力支撑，提高档案数据关联度与利用率。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于知识图谱增强档案实体关联度的方法的一个具体示例的流程图；

图2为本发明实施例提供的一种基于知识图谱增强档案实体关联度的方法的档案数据解析过程一个具体示例的流程图；

图3为本发明实施例提供的一种基于知识图谱增强档案实体关联度的方法的档案实体识别过程一个具体示例的流程图；

图4为本发明实施例提供的一种基于知识图谱增强档案实体关联度的方法的基于BiLSTM-CRF模型的实体识别一个具体示例的流程图；

图5为本发明实施例提供的一种基于知识图谱增强档案实体关联度的方法的一个具体示例档案关系抽取过程流程图；

图6为本发明实施例提供的一种基于知识图谱增强档案实体关联度的方法的一个具体示例的档案知识融合过程流程图；

图7为本发明实施例提供的一种基于知识图谱增强档案实体关联度的系统的模块组成图；

图8为本发明实施例提供的一种基于知识图谱增强档案实体关联度的系统终端一个具体示例的组成图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，还可以是两个元件内部的连通，可以是无线连接，也可以是有线连接。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

实施例1

本发明实施例提供的一种基于知识图谱增强档案实体关联度的方法，如图1所示，包括如下步骤：

步骤S1：获取档案文本类数据。

档案资源采集是档案管理工作的基础，档案管理的基础功能是智能采集与归档，是将提交的待归档电子文件集中处理中心，主要实现档案数据提交、档案接收及档案系统与其它应用系统之间的数据转换。利用智能化技术收集不同数据源产生的信息数据，并提取潜在可用的信息，在完成智能归档后，需按照档案数据特点开展数据加工与解析工作。由于存量纸质档案在持续开展数字化加工工作，因此档案管理系统的数据来源除了在各业务系统采集与收割的档案数据外，还包括在数字化加工中生成的电子档案资源，按照档案资源来源以及档案数据特点进行分类标引工作。

在本发明实施例中，在数据解析阶段，根据档案数据来源和类型，可以将其分为3个大类：第一类是结构化数据，如档案科研业务系统中存储的关系型数据库中的数据，仅以此举例，不以此为限，在实际应用中选择相应的数据；其中，结构化数据如将一份专利证书描述为一行记录，多个专利的数据结构可以通过二维表格展示；因表格中每行数据属性相同，可直接通过键值获取相应的实体信息。第二类是半结构化数据，半结构化数据有一定的固定格式，同一类实体可以有不同的属性，但内容信息不固定且格式有差异，常见的数据格式有JSON、XML等，仅以此举例，不以此为限，在实际应用中选择相应的格式。第三类是非结构化数据，包含文本、图片、各类报表、图像、音频、视频等，仅以此举例，不以此为限，在实际应用中选择相应的数据格式。

在本发明实施例中，如图2所示，结构化数据可直接利用接口或基于过滤规则等集成到知识图谱中，使用D2R工具(将数据库转换为RDF)与R2RML语言，根据关系数据库表间的语义关联，将关系型数据库转换成资源描述框架(Resource Description Framework，RDF)知识，以支持更为复杂的语义推理和扩展查询。具体步骤：使用generate-mapping命令将关系数据库间的关系映射成文件，启动D2R-server，使用SPARQL查询关系数据库内容，通过D2R将SPARQL语言转换为的SQL语言。之后使用dump-rdf命令生成RDF三元组格式的文件，三元组是知识图谱中知识表示的基本单位，被用来表示实体与实体之间的关系,或者实体的某个属性的属性值。半结构化数据使用包装器(Wrapper)学习抽取规则，并根据包装器提取属性信息，过滤并提取出可转化为结构化数据的档案属性。其他数据如将词汇类的可通过正则表达式规则匹配识别，将句子和文本类的按非结构化数据处理，非结构化数据的结构和类型较为丰富，针对非结构化数据，如档案科研过程文档PDF附件、财务EXCEL报表、实验图片、会议音频视频等采用模式识别技术对数据进行预处理转化为档案文本类数据。

步骤S2：利用实体识别模型识别档案文本类数据，生成已定义实体的实例数据。

在本发明实施例中，所述利用实体识别模型识别文本类数据，生成已定义实体的实例数据的步骤，包括：利用中文分词工具识别文本类数据，结合领域叙词表，生成中文文本分词数据；利用条件随机场模型识别中文文本分词数据，生成中文文本分词标注数据；利用二次验证模型识别中文文本分词数据、中文文本分词标注数据，生成已定义实体的实例数据。实体识别模型主要是通过数据解析从档案资源中辨别和解析出已定义实体的实例数据。

在本发明实施例中，利用二次验证模型识别中文文本分词数据、中文文本分词标注数据，生成已定义实体的实例数据的步骤，包括：获取中文文本分词数据、中文文本分词标注数据；利用特征提取器识别档案知识图谱模型中的数据及中文文本分词标注数据，生成特征提取数据；对中文文本分词数据及特征提取数据进行交叉验证，生成第一验证结果；利用名词词频统计工具识别中文文本分词标注数据，结合叙词表、领域本体进行人工标注作为训练数据，并利用训练数据训练分类器，将特征提取数据输入训练好的分类器，生成分类数据；根据分类数据及第一验证结果进行交叉验证，生成第二验证结果，将第二验证结果作为已定义实体的实例数据，二次验证使得数据的特征性更加明显、具有代表性。

实际中，如图3所示，开展档案的实体识别，首先，使用中文分词工具Jieba识别文本类数据，仅以此举例，不以此为限，在实际应用中选择相应的工具，结合领域叙词表，对文本语料进行分词，生成中文文本分词数据；采用条件随机场模型进行词性标注，生成中文文本分词标注数据；利用特征提取器识别档案知识图谱模型中的数据及中文文本分词标注数据，生成特征提取数据，档案知识图谱模型中的数据包括：档案知识图谱模型中的档案实体数据，仅以此举例，不以此为限，在实际应用中选择相应的数据形式，经过特征提取器提取的数据，可以有效提取档案资源的特征，如基于档案知识图谱、识别档案中的特征性内容(研究方法，关键技术等)，以提升档案实体识别效果，增强实体识别和抽取的特征性；对中文文本分词数据及特征提取数据进行交叉验证，生成第一验证结果；对高置信度的档案数据源(即结构化数据)使用MapReduce进行名词词频统计，利用名词词频统计工具识别中文文本分词标注数据，结合叙词表、领域本体进行人工标注作为训练数据，名词统计过程中，统计的是有特殊代表意义的名词，对高频名词结合叙词表、领域本体(如AGROVOC)进行人工标注产生训练数据，并利用训练数据训练分类器，将特征提取数据输入训练好的分类器，生成分类数据；根据分类数据及第一验证结果进行交叉验证，生成第二验证结果，将第二验证结果作为已定义实体的实例数据。

在本发明实施例中，如图4所示，采用基于规则的实体识别方法可较好的识别半结构化数据中的时间、来源等类型的实体。但非结构化数据在开展实体识别时，人员类、档案科研机构类等实体并没有得到令人满意的效果。因此要针对非结构化数据采用基于机器学习的实体识别方法，使用BIO标注体系，标注过程中遵循不重叠、不嵌套原则，将中文字标注为4种类型。采用深度学习方法，利用BiLSTM-CRF模型进行命名实体识别，在表示层将每个句子表示为词向量和字向量，然后建立Bi-LSTM层，以词向量序列作为输入，双向LSTM通过两个LSTM，该层的输出是句子中每个词标签的各自得分，在CRF层将发射概率矩阵以及转移概率矩阵作为参数，获得标签序列的概率，由此抽取档案的实体。

步骤S3：利用关系抽取模型识别已定义实体的实例数据，生成知识图谱中最小的单元。

在本发明实施例中，利用分类标志识别文本类数据，生成文本类分句数据；基于预设聚类算法，分析匹配文本类数据、文本类分句数据，生成档案实体和相应句子的聚类结果；利用实体组构建模型识别已定义实体的实例数据和聚类结果，生成实体组的实体类型；根据实体组的实体类型、实体间语义关系，同时利用人工校验确定档案实体的语义关系类型；利用关系抽取模型中的档案实体语义关系类型，生成知识图谱中最小的单元。结合知识抽取阶段实体识别、关系抽取以及属性抽取的实例数据，筛选高频词统计以及语义关系抽取结果，完成档案知识图谱数据层的构建，借助用户日志等数据进一步充实档案知识图谱实体、属性与关系，基于深度学习模型等对档案系统中的数据进一步训练和集成，以实现档案知识图谱中各类实体和语义关系的填充，并在数据层实现图谱数据的自动构建。通过对档案领域的数据进行实体、关系、属性的抽取得到的实验数据，还需要与档案科研项目、人事、财务等信息等进行知识融合，才能进一步完善，利用语义理解、机构知识库中的名词解释等进行智能校对，再由人工审核入库，将错误率降到最低。

实际中，如图5所示，在关系抽取之前需构建档案语料，包括分句、聚类、实体组构建、语义关系标注几个过程。首先，设定“。？！”为档案文本数据分句标志符号，生成文本类分句数据；然后在档案实体抽取过程中，采用规则匹配的方法对标注文件和句子数据集进行匹配，得到档案实体和相应句子的聚类结果。在进行语义标注时先识别各实体组的实体类型，然后根据已构建的档案知识图谱模式层中定义的语义关系类型，实体间语义关系由基于规则的方法自动标注，同时利用人工校对的方法确定档案实体的语义关系类型。本发明实施例利用深度学习BiGRU-Attention模型完成档案关系的抽取，BiGRU-Attention模型共分为三部分：文本矢量化输入层、隐藏层和输出层；其中，隐藏层由三块组成：BiGRU层、attention层和Dense层。通过语义关系抽取获得OutputAchievement等8个一级语义关系。由于知识图谱模型中构建的21个数据属性值也属于一种语义关系，故可用此方法一并获取。

步骤S4：利用知识融合模型对知识图谱中最小的单元进行去重预处理，建立分区索引分文档，依据文本相似性或者结构相似度来查找匹配的实体，利用预设实体对齐算法进行知识融合，增强档案实体的关联度。

在本发明实施例中，如图6所示，由于档案实体量大且重复率高，先分层对实体去重完成数据的预处理，之后基于Minhash建立分区索引分文档，使相似实体尽可能的分配到一个或多个区块中候选匹配，减少计算的复杂度，在前期实体识别的基础数据上，依据文本相似性或者结构相似度来查找匹配的实体，使用实体对齐算法来实现知识融合。档案知识图谱由实体、关系、属性构成，预设实体对齐算法包括：预设实体的对齐算法、预设关系的对齐算法、预设属性的对齐算法，因此档案资源的知识融合过程中不仅要考虑档案实体的对齐，还需要针对档案属性和关系等开展对齐工作。

在一具体实施例中，采用的实体及属性对齐方法，首先将档案知识图谱实体属性字段与外部知识库Wikidata中实体属性字段映射到统一的实体数据库表字段中。如选择抽取Wikidata中实体的标准名和别名，则档案知识图谱实体与Wikidata中的实体类型对应表如下：“科研人员”对应“name”类、“科研机构”对应“jobTitle”类、“研究方向”对应“studySubject”等，利用这些对应关系可以进一步缩小查询候选实体的范围，提高检索效率。之后，对档案实体属性内容如论文、期刊、著作、人名、机构名、科研项目等通过DOI、ISSN、ISBN、ORCID等唯一标识符进行清洗与规范化。采用PARIS算法计算两个知识库中实例相似与包含关系概率，并进行等价性判断。通过与Wikidata知识库的实体对齐，补充并完善档案知识图谱中人员、机构等实体数据。档案知识图谱还可与CN-DBpedia、百度百科、档案科研机构的网站主页、科研人员个人网页等进行融合，以补充和丰富档案知识图谱的实体、属性和关系信息，提升档案知识图谱准确性与关联性。

在本发明实施例中，通过知识抽取与知识融合过程，初步构建了档案知识图谱。在查询某类课题时，档案知识图谱能够链接到与该项目有关的所有档案信息，包括该项目任务书、结题报告、管理人员信息、研究成员信息、项目成果等等数据，这些数据再关联到其他相关信息，如此连接则可实现所有档案资源的聚合，为档案管理语义关联化、智能化发展提供有力支撑。

本发明实施例提供的基于知识图谱增强档案实体关联度的方法，基于实体识别、关系抽取、融合等技术实现档案智能化采集与归档、数据加工与解析、实体识别与关系抽取以及档案资源语义增强等主要功能，对档案核心知识资源进行组织和表示，充分挖掘与利用档案科研机构档案资源的知识宝库，解决目前档案管理面临的知识关联度弱等问题，为档案管理语义关联化、智能化发展提供有力支撑，提高档案数据关联度与利用率。

实施例2

本发明实施例提供一种基于知识图谱增强档案实体关联度的系统，如图7所示，包括：

数据获取模块1，用于获取文本类数据；此模块执行实施例1中的步骤S1所描述的方法，在此不再赘述。

实体识别模块2，用于利用实体识别模型识别档案文本类数据，生成已定义实体的实例数据；此模块执行实施例1中的步骤S2所描述的方法，在此不再赘述。

关系抽取模块3，用于利用关系抽取模型识别已定义实体的实例数据，生成知识图谱中最小的单元；此模块执行实施例1中的步骤S3所描述的方法，在此不再赘述。

知识融合模块4，用于利用知识融合模型对知识图谱中最小的单元进行去重预处理，建立分区索引分文档，依据文本相似性或者结构相似度来查找匹配的实体，利用预设实体对齐算法进行知识融合，增强档案实体的关联度；此模块执行实施例1中的步骤S4所描述的方法，在此不再赘述。

本发明实施例提供一种基于知识图谱增强档案实体关联度的系统，基于实体识别、关系抽取、融合等技术实现档案智能化采集与归档、数据加工与解析、实体识别与关系抽取以及档案资源语义增强等主要功能，对档案核心知识资源进行组织和表示，充分挖掘与利用档案科研机构档案资源的知识宝库，解决目前档案管理面临的知识关联度弱等问题，为档案管理语义关联化、智能化发展提供有力支撑，提高档案数据关联度与利用率。

实施例3

本发明实施例提供一种终端，如图8所示，包括：至少一个处理器401，例如CPU(Central Processing Unit，中央处理器)，至少一个通信接口403，存储器404，至少一个通信总线402。其中，通信总线402用于实现这些组件之间的连接通信。其中，通信接口403可以包括显示屏(Display)、键盘(Keyboard)，可选通信接口403还可以包括标准的有线接口、无线接口。存储器404可以是高速RAM存储器(Random Access Memory，易挥发性随机存取存储器)，也可以是非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器404可选的还可以是至少一个位于远离前述处理器401的存储装置。其中处理器401可以执行实施例1中的基于知识图谱增强档案实体关联度的方法。存储器404中存储一组程序代码，且处理器401调用存储器404中存储的程序代码，以用于执行实施例1中的基于知识图谱增强档案实体关联度的方法。其中，通信总线402可以是外设部件互连标准(peripheralcomponent interconnect，简称PCI)总线或扩展工业标准结构(extended industrystandard architecture，简称EISA)总线等。通信总线402可以分为地址总线、数据总线、控制总线等。为便于表示，图8中仅用一条线表示，但并不表示仅有一根总线或一种类型的总线。其中，存储器404可以包括易失性存储器(英文：volatile memory)，例如随机存取存储器(英文：random-access memory，缩写：RAM)；存储器也可以包括非易失性存储器(英文：non-volatile memory)，例如快闪存储器(英文：flash memory)，硬盘(英文：hard diskdrive，缩写：HDD)或固降硬盘(英文：solid-state drive，缩写：SSD)；存储器404还可以包括上述种类的存储器的组合。其中，处理器401可以是中央处理器(英文：centralprocessing unit，缩写：CPU)，网络处理器(英文：network processor，缩写：NP)或者CPU和NP的组合。

其中，存储器404可以包括易失性存储器(英文：volatile memory)，例如随机存取存储器(英文：random-access memory，缩写：RAM)；存储器也可以包括非易失性存储器(英文：non-volatile memory)，例如快闪存储器(英文：flash memory)，硬盘(英文：hard diskdrive，缩写：HDD)或固态硬盘(英文：solid-state drive，缩写：SSD)；存储器404还可以包括上述种类的存储器的组合。

其中，处理器401可以是中央处理器(英文：central processing unit，缩写：CPU)，网络处理器(英文：network processor，缩写：NP)或者CPU和NP的组合。

其中，处理器401还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(英文：application-specific integrated circuit，缩写：ASIC)，可编程逻辑器件(英文：programmable logic device，缩写：PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(英文：complex programmable logic device，缩写：CPLD)，现场可编程逻辑门阵列(英文：field-programmable gate array，缩写：FPGA)，通用阵列逻辑(英文：generic arraylogic,缩写：GAL)或其任意组合。

可选地，存储器404还用于存储程序指令。处理器401可以调用程序指令，实现如本申请执行实施例1中的基于知识图谱增强档案实体关联度的方法。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机可执行指令，该计算机可执行指令可执行实施例1中的基于知识图谱增强档案实体关联度的方法。其中，所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)、随机存储记忆体(Random Access Memory，RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，缩写：HDD)或固态硬盘(Solid-State Drive，SSD)等；所述存储介质还可以包括上述种类的存储器的组合。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种基于知识图谱增强档案实体关联度的方法，其特征在于，包括：

获取档案文本类数据；

利用实体识别模型识别档案文本类数据，生成已定义实体的实例数据，其中，利用中文分词工具识别文本类数据，结合领域叙词表，生成中文文本分词数据；利用条件随机场模型识别中文文本分词数据，生成中文文本分词标注数据；利用特征提取器识别档案知识图谱模型中的数据及中文文本分词标注数据，生成特征提取数据；对中文文本分词数据及特征提取数据进行交叉验证，生成第一验证结果；利用名词词频统计工具识别中文文本分词标注数据，结合叙词表、领域本体进行人工标注作为训练数据，并利用训练数据训练分类器，将特征提取数据输入训练好的分类器，生成分类数据；根据分类数据及第一验证结果进行交叉验证，生成第二验证结果，将第二验证结果作为已定义实体的实例数据；

利用知识融合模型对知识图谱中最小的单元进行去重预处理，建立分区索引分文档，依据文本相似性或者结构相似度来查找匹配的实体，利用预设实体对齐算法进行知识融合，增强档案实体的关联度，其中，预设实体对齐算法包括：预设实体的对齐算法、预设关系的对齐算法、预设属性的对齐算法。

2.根据权利要求1所述的基于知识图谱增强档案实体关联度的方法，其特征在于，所述利用关系抽取模型识别已定义实体的实例数据，生成知识图谱中最小的单元的步骤，包括：

利用分类标志识别文本类数据，生成文本类分句数据；

3.根据权利要求1所述的基于知识图谱增强档案实体关联度的方法，其特征在于，所述获取档案文本类数据，包括：采用模式识别技术对档案科研过程文档PDF附件、财务EXCEL报表、实验图片、会议音频视频进行预处理转化为档案文本类数据。

4.根据权利要求1所述的基于知识图谱增强档案实体关联度的方法，其特征在于，档案文本类数据，包括：结构化数据、半结构化数据、非结构化数据。

5.一种基于知识图谱增强档案实体关联度的系统，其特征在于，包括：

数据获取模块，用于获取文本类数据；

实体识别模块，用于利用实体识别模型识别档案文本类数据，生成已定义实体的实例数据，其中，利用中文分词工具识别文本类数据，结合领域叙词表，生成中文文本分词数据；利用条件随机场模型识别中文文本分词数据，生成中文文本分词标注数据；利用特征提取器识别档案知识图谱模型中的数据及中文文本分词标注数据，生成特征提取数据；对中文文本分词数据及特征提取数据进行交叉验证，生成第一验证结果；利用名词词频统计工具识别中文文本分词标注数据，结合叙词表、领域本体进行人工标注作为训练数据，并利用训练数据训练分类器，将特征提取数据输入训练好的分类器，生成分类数据；根据分类数据及第一验证结果进行交叉验证，生成第二验证结果，将第二验证结果作为已定义实体的实例数据；

知识融合模块，用于利用知识融合模型对知识图谱中最小的单元进行去重预处理，建立分区索引分文档，依据文本相似性或者结构相似度来查找匹配的实体，利用预设实体对齐算法进行知识融合，增强档案实体的关联度，其中，预设实体对齐算法包括：预设实体的对齐算法、预设关系的对齐算法、预设属性的对齐算法。

6.一种终端，其特征在于，包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行权利要求1-4任一所述的基于知识图谱增强档案实体关联度的方法。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使所述计算机执行权利要求1-4任一所述的基于知识图谱增强档案实体关联度的方法。