CN111753099B - 一种基于知识图谱增强档案实体关联度的方法及系统 - Google Patents
一种基于知识图谱增强档案实体关联度的方法及系统 Download PDFInfo
- Publication number
- CN111753099B CN111753099B CN202010599169.9A CN202010599169A CN111753099B CN 111753099 B CN111753099 B CN 111753099B CN 202010599169 A CN202010599169 A CN 202010599169A CN 111753099 B CN111753099 B CN 111753099B
- Authority
- CN
- China
- Prior art keywords
- data
- entity
- knowledge
- text
- file
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 230000002708 enhancing effect Effects 0.000 title claims abstract description 40
- 238000000605 extraction Methods 0.000 claims abstract description 49
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 24
- 230000004927 fusion Effects 0.000 claims abstract description 23
- 238000005516 engineering process Methods 0.000 claims abstract description 9
- 238000005192 partition Methods 0.000 claims abstract description 7
- 230000011218 segmentation Effects 0.000 claims description 51
- 230000015654 memory Effects 0.000 claims description 38
- 238000012795 verification Methods 0.000 claims description 31
- 238000011160 research Methods 0.000 claims description 21
- 238000012549 training Methods 0.000 claims description 17
- 230000008569 process Effects 0.000 claims description 9
- 239000000203 mixture Substances 0.000 claims description 4
- 230000008030 elimination Effects 0.000 claims description 3
- 238000003379 elimination reaction Methods 0.000 claims description 3
- 238000003909 pattern recognition Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000007726 management method Methods 0.000 abstract description 16
- 238000012545 processing Methods 0.000 abstract description 11
- 238000011161 development Methods 0.000 abstract description 6
- 230000006870 function Effects 0.000 abstract description 6
- 238000004458 analytical method Methods 0.000 abstract description 5
- 238000004891 communication Methods 0.000 description 9
- 238000002372 labelling Methods 0.000 description 7
- 230000018109 developmental process Effects 0.000 description 5
- 238000010276 construction Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000007499 fusion processing Methods 0.000 description 3
- 238000007405 data analysis Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000003306 harvesting Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001915 proofreading effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000013316 zoning Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于知识图谱增强档案实体关联度的方法及系统,方法包括:获取档案文本类数据;利用实体识别模型识别档案文本类数据,生成已定义实体的实例数据;利用关系抽取模型识别已定义实体的实例数据,生成知识图谱中最小的单元;利用知识融合模型对知识图谱中最小的单元进行去重预处理,建立分区索引分文档,依据文本相似性或者结构相似度来查找匹配的实体,利用预设实体对齐算法进行知识融合,增强档案实体的关联度。本发明提出了使用实体识别、关系抽取、融合技术实现档案智能化采集与归档、数据加工与解析以及档案资源语义增强主要功能,为档案管理语义关联化、智能化发展提供有力支撑,提高档案数据关联度与利用率。
Description
技术领域
本发明涉及信息资源管理技术领域,具体涉及一种基于知识图谱增强档案实体关联度的方法及系统。
背景技术
传统的档案管理主要是“手工”管理,收集主要通过“索要”,档案资源处在“以存为主”的阶段,在资源收集、著录与检索查询的功能上缺乏深度资源开发和共享,导致档案数据价值没有被激活,不能满足档案科研人员信息共享的迫切需求。围绕档案数字化、档案数据库系统以及数字档案馆建设等方面进行了目标设计和任务描述。档案管理也正逐步向档案信息化建设方向倾斜,促进档案的进一步开放和共享。在科学研究的第四范式即数据密集型科学发现的影响下,档案科研活动中各个要素间的联系更加紧密,档案科研手段发生了巨大变化,大规模、跨地域、跨机构的科研活动日益广泛。
档案系统的出现将纸质档案在实体档案馆的管理状态转换为电子档案在数据库中的存储模式,但在现有的档案系统内资源的加工粒度依然按照传统的“卷”和“件”进行,标引按照档案著录格式开展,存在档案数据关联度与利用率低的缺陷。
发明内容
因此,本发明提供的一种基于知识图谱增强档案实体关联度的方法及系统,克服了现有技术中档案数据关联度与利用率低的缺陷。
为达到上述目的,本发明提供如下技术方案:
第一方面,本发明实施例提供一种基于知识图谱增强档案实体关联度的方法,包括:
获取档案文本类数据;
利用实体识别模型识别档案文本类数据,生成已定义实体的实例数据;
利用关系抽取模型识别已定义实体的实例数据,生成知识图谱中最小的单元;
利用知识融合模型对知识图谱中最小的单元进行去重预处理,建立分区索引分文档,依据文本相似性或者结构相似度来查找匹配的实体,利用预设实体对齐算法进行知识融合,增强档案实体的关联度。
在一实施例中,所述利用实体识别模型识别文本类数据,生成已定义实体的实例数据的步骤,包括:
利用中文分词工具识别文本类数据,结合领域叙词表,生成中文文本分词数据;
利用条件随机场模型识别中文文本分词数据,生成中文文本分词标注数据;
利用二次验证模型识别中文文本分词数据、中文文本分词标注数据,生成已定义实体的实例数据。
在一实施例中,所述利用二次验证模型识别中文文本分词数据、中文文本分词标注数据,生成已定义实体的实例数据的步骤,包括:
获取中文文本分词数据、中文文本分词标注数据;
利用特征提取器识别档案知识图谱模型中的数据及中文文本分词标注数据,生成特征提取数据;
对中文文本分词数据及特征提取数据进行交叉验证,生成第一验证结果;
利用名词词频统计工具识别中文文本分词标注数据,结合叙词表、领域本体进行人工标注作为训练数据,并利用训练数据训练分类器,将特征提取数据输入训练好的分类器,生成分类数据;
根据分类数据及第一验证结果进行交叉验证,生成第二验证结果,将第二验证结果作为已定义实体的实例数据。
在一实施例中,所述利用关系抽取模型识别已定义实体的实例数据,生成知识图谱中最小的单元的步骤,包括:
利用分类标志识别文本类数据,生成文本类分句数据;
基于预设聚类算法,分析匹配文本类数据、文本类分句数据,生成档案实体和相应句子的聚类结果;
利用实体组构建模型识别已定义实体的实例数据和聚类结果,生成实体组的实体类型;
根据实体组的实体类型、实体间语义关系,同时利用人工校验确定档案实体的语义关系类型;
利用关系抽取模型中的档案实体语义关系类型,生成知识图谱中最小的单元。
在一实施例中,所述获取档案文本类数据,包括:采用模式识别技术对档案科研过程文档PDF附件、财务EXCEL报表、实验图片、会议音频视频进行预处理转化为档案文本类数据。
在一实施例中,档案文本类数据,包括:结构化数据、半结构化数据、非结构化数据。
第二方面,本发明实施例提供一种基于知识图谱增强档案实体关联度的系统,包括:
数据获取模块,用于获取文本类数据;
实体识别模块,用于利用实体识别模型识别档案文本类数据,生成已定义实体的实例数据;
关系抽取模块,用于利用关系抽取模型识别已定义实体的实例数据,生成知识图谱中最小的单元;
知识融合模块,用于利用知识融合模型对知识图谱中最小的单元进行去重预处理,建立分区索引分文档,依据文本相似性或者结构相似度来查找匹配的实体,利用预设实体对齐算法进行知识融合,增强档案实体的关联度。
第三方面,本发明实施例提供一种终端,包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行本发明实施例第一方面所述的基于知识图谱增强档案实体关联度的方法。
第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行本发明实施例第一方面所述的基于知识图谱增强档案实体关联度的方法。
本发明技术方案,具有如下优点:
本发明提供的基于知识图谱增强档案实体关联度的方法及系统,基于实体识别、关系抽取融合等技术实现档案智能化采集与归档、数据加工与解析、实体识别与关系抽取以及档案资源语义增强等主要功能,对档案核心知识资源进行组织和表示,充分挖掘与利用档案科研机构档案资源的知识宝库,解决目前档案管理面临的知识关联度弱等问题,为档案管理语义关联化、智能化发展提供有力支撑,提高档案数据关联度与利用率。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于知识图谱增强档案实体关联度的方法的一个具体示例的流程图;
图2为本发明实施例提供的一种基于知识图谱增强档案实体关联度的方法的档案数据解析过程一个具体示例的流程图;
图3为本发明实施例提供的一种基于知识图谱增强档案实体关联度的方法的档案实体识别过程一个具体示例的流程图;
图4为本发明实施例提供的一种基于知识图谱增强档案实体关联度的方法的基于BiLSTM-CRF模型的实体识别一个具体示例的流程图;
图5为本发明实施例提供的一种基于知识图谱增强档案实体关联度的方法的一个具体示例档案关系抽取过程流程图;
图6为本发明实施例提供的一种基于知识图谱增强档案实体关联度的方法的一个具体示例的档案知识融合过程流程图;
图7为本发明实施例提供的一种基于知识图谱增强档案实体关联度的系统的模块组成图;
图8为本发明实施例提供的一种基于知识图谱增强档案实体关联度的系统终端一个具体示例的组成图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,还可以是两个元件内部的连通,可以是无线连接,也可以是有线连接。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
实施例1
本发明实施例提供的一种基于知识图谱增强档案实体关联度的方法,如图1所示,包括如下步骤:
步骤S1:获取档案文本类数据。
档案资源采集是档案管理工作的基础,档案管理的基础功能是智能采集与归档,是将提交的待归档电子文件集中处理中心,主要实现档案数据提交、档案接收及档案系统与其它应用系统之间的数据转换。利用智能化技术收集不同数据源产生的信息数据,并提取潜在可用的信息,在完成智能归档后,需按照档案数据特点开展数据加工与解析工作。由于存量纸质档案在持续开展数字化加工工作,因此档案管理系统的数据来源除了在各业务系统采集与收割的档案数据外,还包括在数字化加工中生成的电子档案资源,按照档案资源来源以及档案数据特点进行分类标引工作。
在本发明实施例中,在数据解析阶段,根据档案数据来源和类型,可以将其分为3个大类:第一类是结构化数据,如档案科研业务系统中存储的关系型数据库中的数据,仅以此举例,不以此为限,在实际应用中选择相应的数据;其中,结构化数据如将一份专利证书描述为一行记录,多个专利的数据结构可以通过二维表格展示;因表格中每行数据属性相同,可直接通过键值获取相应的实体信息。第二类是半结构化数据,半结构化数据有一定的固定格式,同一类实体可以有不同的属性,但内容信息不固定且格式有差异,常见的数据格式有JSON、XML等,仅以此举例,不以此为限,在实际应用中选择相应的格式。第三类是非结构化数据,包含文本、图片、各类报表、图像、音频、视频等,仅以此举例,不以此为限,在实际应用中选择相应的数据格式。
在本发明实施例中,如图2所示,结构化数据可直接利用接口或基于过滤规则等集成到知识图谱中,使用D2R工具(将数据库转换为RDF)与R2RML语言,根据关系数据库表间的语义关联,将关系型数据库转换成资源描述框架(Resource Description Framework,RDF)知识,以支持更为复杂的语义推理和扩展查询。具体步骤:使用generate-mapping命令将关系数据库间的关系映射成文件,启动D2R-server,使用SPARQL查询关系数据库内容,通过D2R将SPARQL语言转换为的SQL语言。之后使用dump-rdf命令生成RDF三元组格式的文件,三元组是知识图谱中知识表示的基本单位,被用来表示实体与实体之间的关系,或者实体的某个属性的属性值。半结构化数据使用包装器(Wrapper)学习抽取规则,并根据包装器提取属性信息,过滤并提取出可转化为结构化数据的档案属性。其他数据如将词汇类的可通过正则表达式规则匹配识别,将句子和文本类的按非结构化数据处理,非结构化数据的结构和类型较为丰富,针对非结构化数据,如档案科研过程文档PDF附件、财务EXCEL报表、实验图片、会议音频视频等采用模式识别技术对数据进行预处理转化为档案文本类数据。
步骤S2:利用实体识别模型识别档案文本类数据,生成已定义实体的实例数据。
在本发明实施例中,所述利用实体识别模型识别文本类数据,生成已定义实体的实例数据的步骤,包括:利用中文分词工具识别文本类数据,结合领域叙词表,生成中文文本分词数据;利用条件随机场模型识别中文文本分词数据,生成中文文本分词标注数据;利用二次验证模型识别中文文本分词数据、中文文本分词标注数据,生成已定义实体的实例数据。实体识别模型主要是通过数据解析从档案资源中辨别和解析出已定义实体的实例数据。
在本发明实施例中,利用二次验证模型识别中文文本分词数据、中文文本分词标注数据,生成已定义实体的实例数据的步骤,包括:获取中文文本分词数据、中文文本分词标注数据;利用特征提取器识别档案知识图谱模型中的数据及中文文本分词标注数据,生成特征提取数据;对中文文本分词数据及特征提取数据进行交叉验证,生成第一验证结果;利用名词词频统计工具识别中文文本分词标注数据,结合叙词表、领域本体进行人工标注作为训练数据,并利用训练数据训练分类器,将特征提取数据输入训练好的分类器,生成分类数据;根据分类数据及第一验证结果进行交叉验证,生成第二验证结果,将第二验证结果作为已定义实体的实例数据,二次验证使得数据的特征性更加明显、具有代表性。
实际中,如图3所示,开展档案的实体识别,首先,使用中文分词工具Jieba识别文本类数据,仅以此举例,不以此为限,在实际应用中选择相应的工具,结合领域叙词表,对文本语料进行分词,生成中文文本分词数据;采用条件随机场模型进行词性标注,生成中文文本分词标注数据;利用特征提取器识别档案知识图谱模型中的数据及中文文本分词标注数据,生成特征提取数据,档案知识图谱模型中的数据包括:档案知识图谱模型中的档案实体数据,仅以此举例,不以此为限,在实际应用中选择相应的数据形式,经过特征提取器提取的数据,可以有效提取档案资源的特征,如基于档案知识图谱、识别档案中的特征性内容(研究方法,关键技术等),以提升档案实体识别效果,增强实体识别和抽取的特征性;对中文文本分词数据及特征提取数据进行交叉验证,生成第一验证结果;对高置信度的档案数据源(即结构化数据)使用MapReduce进行名词词频统计,利用名词词频统计工具识别中文文本分词标注数据,结合叙词表、领域本体进行人工标注作为训练数据,名词统计过程中,统计的是有特殊代表意义的名词,对高频名词结合叙词表、领域本体(如AGROVOC)进行人工标注产生训练数据,并利用训练数据训练分类器,将特征提取数据输入训练好的分类器,生成分类数据;根据分类数据及第一验证结果进行交叉验证,生成第二验证结果,将第二验证结果作为已定义实体的实例数据。
在本发明实施例中,如图4所示,采用基于规则的实体识别方法可较好的识别半结构化数据中的时间、来源等类型的实体。但非结构化数据在开展实体识别时,人员类、档案科研机构类等实体并没有得到令人满意的效果。因此要针对非结构化数据采用基于机器学习的实体识别方法,使用BIO标注体系,标注过程中遵循不重叠、不嵌套原则,将中文字标注为4种类型。采用深度学习方法,利用BiLSTM-CRF模型进行命名实体识别,在表示层将每个句子表示为词向量和字向量,然后建立Bi-LSTM层,以词向量序列作为输入,双向LSTM通过两个LSTM,该层的输出是句子中每个词标签的各自得分,在CRF层将发射概率矩阵以及转移概率矩阵作为参数,获得标签序列的概率,由此抽取档案的实体。
步骤S3:利用关系抽取模型识别已定义实体的实例数据,生成知识图谱中最小的单元。
在本发明实施例中,利用分类标志识别文本类数据,生成文本类分句数据;基于预设聚类算法,分析匹配文本类数据、文本类分句数据,生成档案实体和相应句子的聚类结果;利用实体组构建模型识别已定义实体的实例数据和聚类结果,生成实体组的实体类型;根据实体组的实体类型、实体间语义关系,同时利用人工校验确定档案实体的语义关系类型;利用关系抽取模型中的档案实体语义关系类型,生成知识图谱中最小的单元。结合知识抽取阶段实体识别、关系抽取以及属性抽取的实例数据,筛选高频词统计以及语义关系抽取结果,完成档案知识图谱数据层的构建,借助用户日志等数据进一步充实档案知识图谱实体、属性与关系,基于深度学习模型等对档案系统中的数据进一步训练和集成,以实现档案知识图谱中各类实体和语义关系的填充,并在数据层实现图谱数据的自动构建。通过对档案领域的数据进行实体、关系、属性的抽取得到的实验数据,还需要与档案科研项目、人事、财务等信息等进行知识融合,才能进一步完善,利用语义理解、机构知识库中的名词解释等进行智能校对,再由人工审核入库,将错误率降到最低。
实际中,如图5所示,在关系抽取之前需构建档案语料,包括分句、聚类、实体组构建、语义关系标注几个过程。首先,设定“。?!”为档案文本数据分句标志符号,生成文本类分句数据;然后在档案实体抽取过程中,采用规则匹配的方法对标注文件和句子数据集进行匹配,得到档案实体和相应句子的聚类结果。在进行语义标注时先识别各实体组的实体类型,然后根据已构建的档案知识图谱模式层中定义的语义关系类型,实体间语义关系由基于规则的方法自动标注,同时利用人工校对的方法确定档案实体的语义关系类型。本发明实施例利用深度学习BiGRU-Attention模型完成档案关系的抽取,BiGRU-Attention模型共分为三部分:文本矢量化输入层、隐藏层和输出层;其中,隐藏层由三块组成:BiGRU层、attention层和Dense层。通过语义关系抽取获得OutputAchievement等8个一级语义关系。由于知识图谱模型中构建的21个数据属性值也属于一种语义关系,故可用此方法一并获取。
步骤S4:利用知识融合模型对知识图谱中最小的单元进行去重预处理,建立分区索引分文档,依据文本相似性或者结构相似度来查找匹配的实体,利用预设实体对齐算法进行知识融合,增强档案实体的关联度。
在本发明实施例中,如图6所示,由于档案实体量大且重复率高,先分层对实体去重完成数据的预处理,之后基于Minhash建立分区索引分文档,使相似实体尽可能的分配到一个或多个区块中候选匹配,减少计算的复杂度,在前期实体识别的基础数据上,依据文本相似性或者结构相似度来查找匹配的实体,使用实体对齐算法来实现知识融合。档案知识图谱由实体、关系、属性构成,预设实体对齐算法包括:预设实体的对齐算法、预设关系的对齐算法、预设属性的对齐算法,因此档案资源的知识融合过程中不仅要考虑档案实体的对齐,还需要针对档案属性和关系等开展对齐工作。
在一具体实施例中,采用的实体及属性对齐方法,首先将档案知识图谱实体属性字段与外部知识库Wikidata中实体属性字段映射到统一的实体数据库表字段中。如选择抽取Wikidata中实体的标准名和别名,则档案知识图谱实体与Wikidata中的实体类型对应表如下:“科研人员”对应“name”类、“科研机构”对应“jobTitle”类、“研究方向”对应“studySubject”等,利用这些对应关系可以进一步缩小查询候选实体的范围,提高检索效率。之后,对档案实体属性内容如论文、期刊、著作、人名、机构名、科研项目等通过DOI、ISSN、ISBN、ORCID等唯一标识符进行清洗与规范化。采用PARIS算法计算两个知识库中实例相似与包含关系概率,并进行等价性判断。通过与Wikidata知识库的实体对齐,补充并完善档案知识图谱中人员、机构等实体数据。档案知识图谱还可与CN-DBpedia、百度百科、档案科研机构的网站主页、科研人员个人网页等进行融合,以补充和丰富档案知识图谱的实体、属性和关系信息,提升档案知识图谱准确性与关联性。
在本发明实施例中,通过知识抽取与知识融合过程,初步构建了档案知识图谱。在查询某类课题时,档案知识图谱能够链接到与该项目有关的所有档案信息,包括该项目任务书、结题报告、管理人员信息、研究成员信息、项目成果等等数据,这些数据再关联到其他相关信息,如此连接则可实现所有档案资源的聚合,为档案管理语义关联化、智能化发展提供有力支撑。
本发明实施例提供的基于知识图谱增强档案实体关联度的方法,基于实体识别、关系抽取、融合等技术实现档案智能化采集与归档、数据加工与解析、实体识别与关系抽取以及档案资源语义增强等主要功能,对档案核心知识资源进行组织和表示,充分挖掘与利用档案科研机构档案资源的知识宝库,解决目前档案管理面临的知识关联度弱等问题,为档案管理语义关联化、智能化发展提供有力支撑,提高档案数据关联度与利用率。
实施例2
本发明实施例提供一种基于知识图谱增强档案实体关联度的系统,如图7所示,包括:
数据获取模块1,用于获取文本类数据;此模块执行实施例1中的步骤S1所描述的方法,在此不再赘述。
实体识别模块2,用于利用实体识别模型识别档案文本类数据,生成已定义实体的实例数据;此模块执行实施例1中的步骤S2所描述的方法,在此不再赘述。
关系抽取模块3,用于利用关系抽取模型识别已定义实体的实例数据,生成知识图谱中最小的单元;此模块执行实施例1中的步骤S3所描述的方法,在此不再赘述。
知识融合模块4,用于利用知识融合模型对知识图谱中最小的单元进行去重预处理,建立分区索引分文档,依据文本相似性或者结构相似度来查找匹配的实体,利用预设实体对齐算法进行知识融合,增强档案实体的关联度;此模块执行实施例1中的步骤S4所描述的方法,在此不再赘述。
本发明实施例提供一种基于知识图谱增强档案实体关联度的系统,基于实体识别、关系抽取、融合等技术实现档案智能化采集与归档、数据加工与解析、实体识别与关系抽取以及档案资源语义增强等主要功能,对档案核心知识资源进行组织和表示,充分挖掘与利用档案科研机构档案资源的知识宝库,解决目前档案管理面临的知识关联度弱等问题,为档案管理语义关联化、智能化发展提供有力支撑,提高档案数据关联度与利用率。
实施例3
本发明实施例提供一种终端,如图8所示,包括:至少一个处理器401,例如CPU(Central Processing Unit,中央处理器),至少一个通信接口403,存储器404,至少一个通信总线402。其中,通信总线402用于实现这些组件之间的连接通信。其中,通信接口403可以包括显示屏(Display)、键盘(Keyboard),可选通信接口403还可以包括标准的有线接口、无线接口。存储器404可以是高速RAM存储器(Random Access Memory,易挥发性随机存取存储器),也可以是非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。存储器404可选的还可以是至少一个位于远离前述处理器401的存储装置。其中处理器401可以执行实施例1中的基于知识图谱增强档案实体关联度的方法。存储器404中存储一组程序代码,且处理器401调用存储器404中存储的程序代码,以用于执行实施例1中的基于知识图谱增强档案实体关联度的方法。其中,通信总线402可以是外设部件互连标准(peripheralcomponent interconnect,简称PCI)总线或扩展工业标准结构(extended industrystandard architecture,简称EISA)总线等。通信总线402可以分为地址总线、数据总线、控制总线等。为便于表示,图8中仅用一条线表示,但并不表示仅有一根总线或一种类型的总线。其中,存储器404可以包括易失性存储器(英文:volatile memory),例如随机存取存储器(英文:random-access memory,缩写:RAM);存储器也可以包括非易失性存储器(英文:non-volatile memory),例如快闪存储器(英文:flash memory),硬盘(英文:hard diskdrive,缩写:HDD)或固降硬盘(英文:solid-state drive,缩写:SSD);存储器404还可以包括上述种类的存储器的组合。其中,处理器401可以是中央处理器(英文:centralprocessing unit,缩写:CPU),网络处理器(英文:network processor,缩写:NP)或者CPU和NP的组合。
其中,存储器404可以包括易失性存储器(英文:volatile memory),例如随机存取存储器(英文:random-access memory,缩写:RAM);存储器也可以包括非易失性存储器(英文:non-volatile memory),例如快闪存储器(英文:flash memory),硬盘(英文:hard diskdrive,缩写:HDD)或固态硬盘(英文:solid-state drive,缩写:SSD);存储器404还可以包括上述种类的存储器的组合。
其中,处理器401可以是中央处理器(英文:central processing unit,缩写:CPU),网络处理器(英文:network processor,缩写:NP)或者CPU和NP的组合。
其中,处理器401还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(英文:application-specific integrated circuit,缩写:ASIC),可编程逻辑器件(英文:programmable logic device,缩写:PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(英文:complex programmable logic device,缩写:CPLD),现场可编程逻辑门阵列(英文:field-programmable gate array,缩写:FPGA),通用阵列逻辑(英文:generic arraylogic,缩写:GAL)或其任意组合。
可选地,存储器404还用于存储程序指令。处理器401可以调用程序指令,实现如本申请执行实施例1中的基于知识图谱增强档案实体关联度的方法。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机可执行指令,该计算机可执行指令可执行实施例1中的基于知识图谱增强档案实体关联度的方法。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(Random Access Memory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;所述存储介质还可以包括上述种类的存储器的组合。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。
Claims (7)
1.一种基于知识图谱增强档案实体关联度的方法,其特征在于,包括:
获取档案文本类数据;
利用实体识别模型识别档案文本类数据,生成已定义实体的实例数据,其中,利用中文分词工具识别文本类数据,结合领域叙词表,生成中文文本分词数据;利用条件随机场模型识别中文文本分词数据,生成中文文本分词标注数据;利用特征提取器识别档案知识图谱模型中的数据及中文文本分词标注数据,生成特征提取数据;对中文文本分词数据及特征提取数据进行交叉验证,生成第一验证结果;利用名词词频统计工具识别中文文本分词标注数据,结合叙词表、领域本体进行人工标注作为训练数据,并利用训练数据训练分类器,将特征提取数据输入训练好的分类器,生成分类数据;根据分类数据及第一验证结果进行交叉验证,生成第二验证结果,将第二验证结果作为已定义实体的实例数据;
利用关系抽取模型识别已定义实体的实例数据,生成知识图谱中最小的单元;
利用知识融合模型对知识图谱中最小的单元进行去重预处理,建立分区索引分文档,依据文本相似性或者结构相似度来查找匹配的实体,利用预设实体对齐算法进行知识融合,增强档案实体的关联度,其中,预设实体对齐算法包括:预设实体的对齐算法、预设关系的对齐算法、预设属性的对齐算法。
2.根据权利要求1所述的基于知识图谱增强档案实体关联度的方法,其特征在于,所述利用关系抽取模型识别已定义实体的实例数据,生成知识图谱中最小的单元的步骤,包括:
利用分类标志识别文本类数据,生成文本类分句数据;
基于预设聚类算法,分析匹配文本类数据、文本类分句数据,生成档案实体和相应句子的聚类结果;
利用实体组构建模型识别已定义实体的实例数据和聚类结果,生成实体组的实体类型;
根据实体组的实体类型、实体间语义关系,同时利用人工校验确定档案实体的语义关系类型;
利用关系抽取模型中的档案实体语义关系类型,生成知识图谱中最小的单元。
3.根据权利要求1所述的基于知识图谱增强档案实体关联度的方法,其特征在于,所述获取档案文本类数据,包括:采用模式识别技术对档案科研过程文档PDF附件、财务EXCEL报表、实验图片、会议音频视频进行预处理转化为档案文本类数据。
4.根据权利要求1所述的基于知识图谱增强档案实体关联度的方法,其特征在于,档案文本类数据,包括:结构化数据、半结构化数据、非结构化数据。
5.一种基于知识图谱增强档案实体关联度的系统,其特征在于,包括:
数据获取模块,用于获取文本类数据;
实体识别模块,用于利用实体识别模型识别档案文本类数据,生成已定义实体的实例数据,其中,利用中文分词工具识别文本类数据,结合领域叙词表,生成中文文本分词数据;利用条件随机场模型识别中文文本分词数据,生成中文文本分词标注数据;利用特征提取器识别档案知识图谱模型中的数据及中文文本分词标注数据,生成特征提取数据;对中文文本分词数据及特征提取数据进行交叉验证,生成第一验证结果;利用名词词频统计工具识别中文文本分词标注数据,结合叙词表、领域本体进行人工标注作为训练数据,并利用训练数据训练分类器,将特征提取数据输入训练好的分类器,生成分类数据;根据分类数据及第一验证结果进行交叉验证,生成第二验证结果,将第二验证结果作为已定义实体的实例数据;
关系抽取模块,用于利用关系抽取模型识别已定义实体的实例数据,生成知识图谱中最小的单元;
知识融合模块,用于利用知识融合模型对知识图谱中最小的单元进行去重预处理,建立分区索引分文档,依据文本相似性或者结构相似度来查找匹配的实体,利用预设实体对齐算法进行知识融合,增强档案实体的关联度,其中,预设实体对齐算法包括:预设实体的对齐算法、预设关系的对齐算法、预设属性的对齐算法。
6.一种终端,其特征在于,包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行权利要求1-4任一所述的基于知识图谱增强档案实体关联度的方法。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行权利要求1-4任一所述的基于知识图谱增强档案实体关联度的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010599169.9A CN111753099B (zh) | 2020-06-28 | 2020-06-28 | 一种基于知识图谱增强档案实体关联度的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010599169.9A CN111753099B (zh) | 2020-06-28 | 2020-06-28 | 一种基于知识图谱增强档案实体关联度的方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111753099A CN111753099A (zh) | 2020-10-09 |
CN111753099B true CN111753099B (zh) | 2023-11-21 |
Family
ID=72677840
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010599169.9A Active CN111753099B (zh) | 2020-06-28 | 2020-06-28 | 一种基于知识图谱增强档案实体关联度的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111753099B (zh) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111813798B (zh) * | 2020-07-10 | 2023-06-23 | 中国医学科学院医学信息研究所 | 基于r2rml标准的映射方法、装置、设备及存储介质 |
CN113254659A (zh) * | 2021-02-04 | 2021-08-13 | 天津德尔塔科技有限公司 | 一种基于知识图谱技术的档案研判方法及系统 |
CN112800243A (zh) * | 2021-02-04 | 2021-05-14 | 天津德尔塔科技有限公司 | 一种基于知识图谱的项目预算分析方法及系统 |
CN112836018A (zh) * | 2021-02-07 | 2021-05-25 | 北京联创众升科技有限公司 | 应急预案的处理方法及装置 |
CN112905746A (zh) * | 2021-03-08 | 2021-06-04 | 国能大渡河流域水电开发有限公司 | 一种基于知识图谱技术的制度档案知识挖掘处理方法 |
CN112966027B (zh) * | 2021-03-22 | 2022-10-21 | 青岛科技大学 | 一种基于动态探针的实体关联挖掘方法 |
CN113221562A (zh) * | 2021-04-14 | 2021-08-06 | 河海大学 | 一种基于知识图谱提高文书档案检索效率的方法及系统 |
CN113190687B (zh) * | 2021-05-08 | 2023-03-24 | 上海爱数信息技术股份有限公司 | 知识图谱的确定方法、装置、计算机设备及存储介质 |
CN113177124B (zh) * | 2021-05-11 | 2023-05-02 | 北京邮电大学 | 一种垂直领域知识图谱构建方法及系统 |
CN113656647B (zh) * | 2021-06-02 | 2022-05-03 | 韦东庆 | 一种面向智能运维的工程档案数据管理平台、方法及系统 |
CN114254131B (zh) * | 2022-02-28 | 2022-06-07 | 南京众智维信息科技有限公司 | 一种网络安全应急响应知识图谱实体对齐方法 |
CN114329132B (zh) * | 2022-03-14 | 2022-05-17 | 南京云档信息科技有限公司 | 一种档案要素补充采集系统 |
CN114722215A (zh) * | 2022-04-18 | 2022-07-08 | 成都卓讯智安科技有限公司 | 一种知识图谱模型的构建方法和系统 |
CN116152843B (zh) * | 2022-11-22 | 2024-01-12 | 南京擎盾信息科技有限公司 | 合同模板待填写内容的类别识别方法、装置及存储介质 |
CN115859128B (zh) * | 2023-02-23 | 2023-05-09 | 成都瑞安信信息安全技术有限公司 | 一种基于档案数据交互相似度的分析方法和系统 |
CN116028597B (zh) * | 2023-03-27 | 2023-07-21 | 南京燧坤智能科技有限公司 | 对象检索方法、装置、非易失性存储介质及计算机设备 |
CN117478435B (zh) * | 2023-12-28 | 2024-04-09 | 中汽智联技术有限公司 | 一种整车信息安全攻击路径生成方法和系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108875051A (zh) * | 2018-06-28 | 2018-11-23 | 中译语通科技股份有限公司 | 面向海量非结构化文本的知识图谱自动构建方法及系统 |
CN110019839A (zh) * | 2018-01-03 | 2019-07-16 | 中国科学院计算技术研究所 | 基于神经网络和远程监督的医学知识图谱构建方法和系统 |
CN110347843A (zh) * | 2019-07-10 | 2019-10-18 | 陕西师范大学 | 一种基于知识图谱的中文旅游领域知识服务平台构建方法 |
CN110675962A (zh) * | 2019-09-10 | 2020-01-10 | 电子科技大学 | 一种基于机器学习和文本规则的中药药理作用识别方法及系统 |
CN110704413A (zh) * | 2019-09-30 | 2020-01-17 | 东莞市盟大塑化科技有限公司 | 一种基于深度学习的知识图谱构建方法 |
CN110781254A (zh) * | 2020-01-02 | 2020-02-11 | 四川大学 | 一种案情知识图谱自动构建方法及系统及设备及介质 |
CN111324743A (zh) * | 2020-02-14 | 2020-06-23 | 平安科技(深圳)有限公司 | 文本关系抽取的方法、装置、计算机设备及存储介质 |
-
2020
- 2020-06-28 CN CN202010599169.9A patent/CN111753099B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110019839A (zh) * | 2018-01-03 | 2019-07-16 | 中国科学院计算技术研究所 | 基于神经网络和远程监督的医学知识图谱构建方法和系统 |
CN108875051A (zh) * | 2018-06-28 | 2018-11-23 | 中译语通科技股份有限公司 | 面向海量非结构化文本的知识图谱自动构建方法及系统 |
CN110347843A (zh) * | 2019-07-10 | 2019-10-18 | 陕西师范大学 | 一种基于知识图谱的中文旅游领域知识服务平台构建方法 |
CN110675962A (zh) * | 2019-09-10 | 2020-01-10 | 电子科技大学 | 一种基于机器学习和文本规则的中药药理作用识别方法及系统 |
CN110704413A (zh) * | 2019-09-30 | 2020-01-17 | 东莞市盟大塑化科技有限公司 | 一种基于深度学习的知识图谱构建方法 |
CN110781254A (zh) * | 2020-01-02 | 2020-02-11 | 四川大学 | 一种案情知识图谱自动构建方法及系统及设备及介质 |
CN111324743A (zh) * | 2020-02-14 | 2020-06-23 | 平安科技(深圳)有限公司 | 文本关系抽取的方法、装置、计算机设备及存储介质 |
Non-Patent Citations (3)
Title |
---|
Learning Entity and Relation Embeddings for Knowledge Graph Completion;Yankai Lin等;《Proceedings of the AAAI Conference on Artificial Intelligence》;第29卷(第1期);1-7 * |
扩展知识图谱上的实体关系检索;王秋月;《计算机应用》;第36卷(第4期);985-991 * |
科研档案管理知识图谱构建研究;雷洁等;《科技管理研究》;第40卷(第11期);1-8 * |
Also Published As
Publication number | Publication date |
---|---|
CN111753099A (zh) | 2020-10-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111753099B (zh) | 一种基于知识图谱增强档案实体关联度的方法及系统 | |
CN111708773B (zh) | 一种多源科创资源数据融合方法 | |
CN110399457B (zh) | 一种智能问答方法和系统 | |
CN111723215B (zh) | 基于文本挖掘的生物技术信息知识图谱构建装置与方法 | |
WO2020233261A1 (zh) | 一种基于自然语言生成技术的知识图谱辅助理解系统 | |
CN109992645B (zh) | 一种基于文本数据的资料管理系统及方法 | |
US11194797B2 (en) | Automatic transformation of complex tables in documents into computer understandable structured format and providing schema-less query support data extraction | |
CN110597999A (zh) | 一种依存句法分析关系抽取模型的司法案件知识图谱构建方法 | |
US20210064821A1 (en) | System and method to extract customized information in natural language text | |
CN106502991B (zh) | 出版物处理方法和装置 | |
CN111967761A (zh) | 一种基于知识图谱的监控预警方法、装置及电子设备 | |
US11194798B2 (en) | Automatic transformation of complex tables in documents into computer understandable structured format with mapped dependencies and providing schema-less query support for searching table data | |
CN113190687B (zh) | 知识图谱的确定方法、装置、计算机设备及存储介质 | |
CN112231494B (zh) | 信息抽取方法、装置、电子设备及存储介质 | |
CN111190920B (zh) | 一种基于自然语言的数据交互查询方法及其系统 | |
CN113159969B (zh) | 一种金融长文本复核系统 | |
CN114218472A (zh) | 基于知识图谱的智能搜索系统 | |
WO2017193472A1 (zh) | 一种东巴经典古籍数字化释读库的建立方法 | |
CN116450834A (zh) | 一种基于多模态语义特征的档案知识图谱构建方法 | |
CN111831624A (zh) | 数据表创建方法、装置、计算机设备及存储介质 | |
Papanikolaou et al. | Protest event analysis: A longitudinal analysis for Greece | |
CN117095419A (zh) | 一种pdf文档数据处理与信息抽取装置及方法 | |
CN116523041A (zh) | 装备领域知识图谱构建方法、检索方法、系统及电子设备 | |
TWI793432B (zh) | 工程專案文件管理方法與系統 | |
CN112559550B (zh) | 基于语义规则和多维模型的多数据源nl2sql系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |