CN116361487A - 一种多源异构政策知识图谱构建和存储方法及系统 - Google Patents

一种多源异构政策知识图谱构建和存储方法及系统 Download PDF

Info

Publication number
CN116361487A
CN116361487A CN202310418582.4A CN202310418582A CN116361487A CN 116361487 A CN116361487 A CN 116361487A CN 202310418582 A CN202310418582 A CN 202310418582A CN 116361487 A CN116361487 A CN 116361487A
Authority
CN
China
Prior art keywords
data
policy
knowledge
fusion
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310418582.4A
Other languages
English (en)
Inventor
罗辑
周松
周旺
雷雪峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CLP Cloud Digital Intelligence Technology Co Ltd
Original Assignee
CLP Cloud Digital Intelligence Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CLP Cloud Digital Intelligence Technology Co Ltd filed Critical CLP Cloud Digital Intelligence Technology Co Ltd
Priority to CN202310418582.4A priority Critical patent/CN116361487A/zh
Publication of CN116361487A publication Critical patent/CN116361487A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Animal Behavior & Ethology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种多源异构政策知识图谱构建和存储方法。本方法包括利用数据源数据集管理系统、NLP模型、OCR模型对多源异构政策数据实施分类管理,基于先验规则引导融合模型进行知识融合,构建政策知识图谱基础模型,利用任务调度引擎进行知识抽取和导入,并将结果存入图数据存储系统中。本方法解决了政策知识图谱多源异构数据场景的数据接入、知识抽取问题,尤其适用于政策领域文本和图片等非结构化数据的接入和知识抽取;本方法还提供了政策知识图谱的基础模型;本方法基于先验规则引导融合模型进行知识融合,提高了融合效率;本方法采用基于图结构的存储系统,能够存储海量政策数据,同时支持政策文件中大属性字段的存储和全文检索。

Description

一种多源异构政策知识图谱构建和存储方法及系统
技术领域
本发明属于知识图谱构建技术领域,尤其涉及一种多源异构政策知识图谱构建和存储方法及系统。
背景技术
知识图谱是结构化的语义知识库,通过符号形式描述物理世界中的概念及其相互关系。以“实体-关系-实体”三元组作为基本组成单位,实体之间通过关系构成网状知识结构。政策知识图谱是指将政策领域的相关知识和信息整合后形成的结构化图谱,以方便政策制定者和执行者查找和利用这些知识信息。近年来,随着大数据、人工智能等技术的不断发展,政策知识图谱的研究也日益受到关注。
目前,知识图谱在政府政策领域的应用还处于初级阶段,同时,由于政策知识图谱数据来源的多样性、数据结构的复杂性、实体建模缺乏统一规范标准以及数据存储的多样性等问题,导致政策知识图谱在多数据源的接入、基于异构数据的知识抽取、知识建模和知识储存等方面缺乏系统性的解决方案。虽然在基于多源异构的知识抽取方面,在医疗等领域存在一些解决方案,但是这些方案在政策图谱的实体关系抽取中精度不够,并且针对知识抽取后实体消歧缺乏有效的解决方案。在知识建模方面,针对政策文件尚未形成有效的政策模型构建方案,缺乏政策文件建模标准或者可以基于此拓展的模型基类。在知识图谱存储方面,常用的有两大类方案:一类是基于表结构的存储,如三元组表等,另一类是基于图结构的存储,将实体关系泛化为点、边、属性进行存储。目前已有基于三元组的表结构存储的政策图谱,但其存在随着知识数据的增加存储和查询开销巨大,大数据量情况下性能下降严重等问题,因此有必要进行深入的图存储探索,以解决海量数据的存储困难和查询性能低下问题。
发明内容
为了克服现有知识图谱构建方案在政策知识领域应用中存在的上述缺陷,本发明提出了一种新的多源异构政策知识图谱构建和存储方法。
术语解释
NLP:自然语言处理(Natural Language Processing)。
OCR:光学文字识别(optical character recognition)。
Janusgraph:一种分布式、开源、可大规模扩展的图数据库。
Quartz:一种基于JAVA程序语言开发的作业调度框架。
XXL-JOB:一种轻量级分布式任务调度平台。
针对当前政策知识图谱中存在的问题,本申请提供了一套针对多源异构知识抽取、知识建模和知识存储的系统性解决方案。本方案包括:在多源异构数据源的知识抽取方面,创新性的提出了基于数据集管理并整合基于机器学习的文本和图片识别多源异构数据的抽取方案,在兼容常见关系性数据源、结构化数据、半结构化数据的基础上,提升了政策知识中文本、图片等非结构化数据的接入和知识抽取能力;在知识建模方面,本申请提供了针对政策知识图谱的基础模型,该模型能够适用于政策知识图谱的常见和基础需求,对于定制化和特殊需求也可以基于此基础模型进行扩展;在知识存储方面,本申请采用了基于图结构的存储系统,有效克服了海量政策数据在快速存储和查询方面的需求瓶颈,为政策知识的深度扩展、关联政策查询提供了数据基础。
本发明通过以下技术方案实现,详细步骤如下:
S1、进行多源异构政策数据管理,利用数据源数据集管理系统、NLP模型、OCR模型对多源异构政策数据实施分类管理;
政策数据常见的提供方式包括治理过的结构化数据、对接第三方平台的json数据或者通过网页爬虫获取的政府公文数据等半结构化数据、以及诸如word、pdf、jpg等文本和图片的非结构化数据。可见,政策文件数据涉及的数据源种类多,涵盖了结构化数据、半结构化数据以及非结构化数据,而常规的数据集管理主要针对多数据源的结构化或半结构化数据,而对于政策文件中比较普遍的word文本数据以及pdf、jpg等图片数据缺乏接入、抽取和管理能力。
为了解决上述问题,本申请针对多源异构政策数据的知识采集和知识抽取,在常规多源数据集管理系统的基础上,整合了基于OCR的图片本文提取能力以及基于NLP的文本知识抽取能力,提升了对于非结构化政策数据的处理能力,具体的处理流程如下:
S11.对于结构化数据(包括关系型数据库存储的表、视图等),通过数据源数据集管理系统实现对接,系统只进行数据源连接信息和元数据管理,原始数据存储在用户端数据库;
S12.对于半结构化数据(包括json、xml、日志等),首先将其存入系统内置的文件存储系统,便于知识溯源以及后续处理;然后,针对常规结构的半结构化数据,利用系统内置的解析引擎进行知识抽取和转换,针对特殊结构的半结构化数据,通过新增自定义解析规则进行数据解析,利用解析后的数据生成结构化知识数据以及对应的元数据信息,并将所得结构化知识数据导入系统内置库进行数据存储;
S13.对于非结构化数据,由于政策数据的特殊性,非结构化数据主要包括文本和图片数据两种,文本数据主要包括word文本,图片数据主要包括pdf和jpg图片等,因此,对于政策领域的非结构化数据本申请着重考虑了文本和图片数据,对于其他类型的非结构化数据可以基于此思路进行拓展。在处理政策文本和图片等非结构化数据时,首先将其存入系统内置的文件存储系统,并根据增量规则和文件类型对数据进行分类,后续基于内置文件系统可采用基于调度系统的定时增量或全量解析,具体参见第四步(S4)中的说明。然后,针对文本数据,系统根据政策类型匹配相应的NLP模型进行数据解析,针对图片数据,系统根据政策类型选择对应的OCR模型进行文本提取,在此基础上匹配相应的NLP模型进行数据解析,利用解析后的数据生成结构化知识数据以及对应的元数据信息,在系统内置数仓中创建对应的数据集并将所得结构化知识数据导入其中。
S2.基于先验规则引导融合模型进行知识融合;
知识融合的一般处理方案是基于融合模型进行知识融合,然后人工判定融合的准确性,或者在基于融合模型的知识融合后,根据系统判定的融合准确度,设置准确度阈值,对于低于阈值的融合方案再进行人工判定,然而,这两种方案都需要大量的后续人工判定处理,以防止知识融合导致的数据异常。相比而言,在政策知识图谱领域,由于政策知识模型中涉及的执行类别相对固定,因此,基于政策知识先验性融合规则的知识融合准确可靠,且该类先验性融合规则在政策知识领域相对通用。在此认识的基础上,为解决常规的基于融合模型导致的后期大量人工判定的问题,本申请提出了一种新的基于先验规则引导融合模型的政策知识模型融合方案。
基于先验规则引导融合模型的政策知识模型融合方案在采取基于融合模型的知识融合之前,先采用基于先验性融合规则的知识融合对数据进行预处理,减少后续需要融合的数据,进而减少人工判定融合数据的工作量,主要实施过程分为以下三步:
S21.首先,根据政策领域的先验知识,构建一套先验性融合规则,如基于同义词的融合方案、基于相似算法的融合方案、基于关联关系的融合方案等;
S22.其次,将上述先验性融合规则应用于政策知识抽取后得到的实体和关系数据;
S23.最后,采用基于融合模型的知识融合方案对政策知识数据进行二次融合,输出最终的融合结果。
S3.构建政策知识图谱基础模型;
政策文件的类型一般包括请示、报告、意见、函、通知、纪要、议案、命令、决定、公告、通告、通报、批复、决议、公报等。通过对上述常见公文的统计分析,我们发现政策文件有如下共同属性:政策标题、发文机构、发布时间、政策类型、政策层级、公文份号、保密期限、密级、主送机关等,此外还可基于NLP的摘要和关键词抽取方法生成摘要和关键词属性。基于此,我们在政策知识图谱基础模型中利用组织机构、政策文件、政策类型、关键词构建四类实体,同时构建组织机构与政策文件之间的发布关系、政策文件与政策文件之间的相似关系、政策文件与政策类型之间的归类关系、政策文件与关键词之间的关联关系共四类关系。
上述政策知识图谱基础模型能够比较全面的展现出政策文件的基本属性和主要内容。基于发布关系可追溯政策文件的来源,以及基于发布机构维度进行政策相关数据的统计;通过相似关系和关联关系可以拓展目标政策的关联政策,为查询者方便快捷的提供一揽子相关政策,为政策决策者提供决策基础。该基础模型能够满足知识图谱在政府政策文件领域常规的应用,此外,也可以基于该模型进行扩展以满足更为复杂的应用场景。
S4.利用任务调度引擎进行知识抽取和导入;
针对政策知识图谱知识抽取和知识数据入库,本申请将任务调度引擎应用于知识抽取和导入中,提出了基于任务调度引擎的抽取和导入方案,包括以下步骤:
S41.在针对非结构化数据文件的解析和知识抽取中,先根据文件类型和文件增量方案对上传至系统内置文件存储系统的非结构化数据文件进行归类;在文件数量较小的情况下,按文件上传日期的毫秒值对文件进行归类;在文件数量较大的情况下,结合文件上传日期的毫秒值、上传文件的批次号按日期和批次号对文件进行归类;
S42.通过任务调度引擎,配置周期增量、周期全量或即时全量的知识抽取任务,进行知识抽取;
S43.将知识抽取结果转换为组织机构、政策文件、关键词的实体以及其关联关系的结构化数据;
S44.将上步所得的结构化的实体关系数据存入内置数仓;
S45.对于知识抽取数据导入图数据存储系统,可利用任务调度引擎,根据实体关系数据中的增量属性,采用与知识抽取类似的调度方案,将系统内置数仓或外部数据源中的结构化政策知识数据存入已预先完成建模的图数据存储系统中。
本申请涉及的任务调度引擎(或称数据调度系统)可以是常用的任务调度框架,如Quartz、xxl-job等,也可以采用自研的任务调度系统。
本申请方法采用了基于图结构的知识数据存储方案。
目前知识图谱知识数据的存储有两种方式:一种是基于三元组的存储系统;一种是基于图结构的存储系统。基于三元组的存储系统有着简单直接、易于理解的特性,但由于数据存储在一张表中导致单表规模过大,且进行复杂查询时开销巨大,因此很难满足政策知识数据的存储、查询、关系拓展、全文检索等需求。基于图结构的存储系统,以图论为理论基础,将实体看作节点、关系看作带有标签的边,以节点、边和属性作为图的核心概念。常见的基于图理论的存储系统大多采用分布式设计,支持海量政策数据的存储,能够适配政策文件中特有的大属性字段(如正文、摘要等)的存储。鉴于政策知识图谱中属性的特殊性以及基于图结构的存储系统优异的存储、查询性能,本申请提出了基于图结构的政策知识存储系统。本申请中采用的基于图结构的知识存储系统主要优点如下:
(1)支持海量政策数据的存储
图数据存储系统支持分布式设计,底层存储采用大数据存储技术(如janusgraph等),在一定集群范围内,其存储数据量随着节点数目的增加呈线性增长,因此对于海量政策知识数据有着很好的适用性,存储量可以随着数据量的变化扩容或缩减,能够显著提高服务器的使用效率。
(2)支持大属性字段的存储以及政策内容的全文检索
对于政策文件中特有的大属性字段,如政策文件正文内容、政策摘要等,即便在数据量较大的情况下也能表现出优异的存储性能,此外,由于部分图存储系统采用基于全文检索的搜索引擎,因此,对于政策图谱中政策内容的全文检索也能实现快速响应。
(3)深度关联关系拓展能力
由于图数据存储系统基于图论理论,且以节点、边和属性为核心概念,相比传统关系型数据库,其在关联查询,特别是深度关联方面的性能更加优越。图数据存储系统在政策知识图谱中相关政策查询、政策溯源、政策关联信息拓展方面能够快速响应。
另外,本申请还提供了一种多源异构政策知识图谱构建和存储系统,本系统包括:
数据管理模块:用于通过数据源数据集管理系统、NLP模型、OCR模型对多源异构政策数据实施分类管理;
知识融合模块:用于通过先验规则引导融合模型进行知识融合;
模型构建模块:用于构建政策知识图谱基础模型;
知识抽取和导入模块:用于通过任务调度引擎进行知识抽取和导入,并将结果存入图数据存储系统中;
各模块按照上述多源异构政策知识图谱构建和存储方法实施运行。
最后,本申请还提供了一种计算机可读存储介质,所述存储介质上存储有计算机程序,所述程序被处理器执行时实现上述的多源异构政策知识图谱构建和存储方法的步骤。
综上,本申请多源异构政策知识图谱构建和存储方法具有以下优点:
1、解决了政策知识图谱多源异构数据场景的数据接入、知识抽取问题,针对多源异构政策数据的管理和接入,整合了NLP文本提取和OCR图片识别的多数据源接入系统,能够解决常见的多数据源接入、结构化、半结构化、以及政策领域文本和图片非结构化数据的接入和知识抽取。
2、提供了政策知识图谱的基础模型,对于政策领域知识建模该模型具有较好的适用性,对于有特殊需求的政策知识建模场景,可以在该模型的基础上进一步拓展延伸。
3、基于先验规则引导融合模型进行知识融合,先通过针对政策领域的先验性融合规则进行知识融合,在此基础上再采用基于融合模型的知识融合。在政策领域通过基于先验规则的知识融合,大大减少了基于融合规则的融合量,降低了基于融合模型方案导致的后期人工判定的工作量,降低了融合成本,提高了知识融合效率。
4、基于图结构的政策知识图谱存储系统,能够存储海量政策数据,同时,对于政策知识领域正文、摘要等大属性字段的存储和全文检索有很好的支持,此外,由于图结构的存储系统在深度关联查询方面有着天然的优势,因此对于政策知识图谱领域的关联政策深度分析、政策溯源、政策相关性分析有着坚实的数据和引擎支撑。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面对本发明实施例中需要使用的附图作简要介绍,显而易见地,下述附图仅是本发明中记载的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明方法的实施流程示意图。
图2为本发明方法中多源异构政策数据分类管理实施流程示意图。
图3为本发明方法中基于先验规则引导融合模型进行知识融合实施流程示意图。
图4为本发明方法中利用任务调度引擎进行知识抽取和导入实施流程示意图。
图5为本发明系统的组成结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合具体实施例及相应的附图对本发明的技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例,本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。
同时,应理解,本发明的保护范围并不局限于下述特定的具体实施方案;还应当理解,本发明实施例中使用的术语是为了描述特定的具体实施方案,而不是为了限制本发明的保护范围。
实施例:一种多源异构政策知识图谱构建和存储方法
本发明方法通过以下技术方案实现,如图1所示,本方法包括下述步骤:
S1、进行多源异构政策数据管理,利用数据源数据集管理系统、NLP模型、OCR模型对多源异构政策数据实施分类管理;
本方法针对多源异构政策数据的知识采集和知识抽取,在常规多源数据集管理系统的基础上,整合了基于OCR的图片本文提取能力以及基于NLP的文本知识抽取能力,提升了对于非结构化政策数据的处理能力,具体的处理流程如图2所示。
S11、对于结构化数据(如图2中“1.1结构化数据”),包括关系型数据库存储的表、视图等(如图2中“2.1关系型数据库”)和非关系型数据库存储的结构化数据(如图2中“2.2非关系型数据库”),直接通过数据源数据集管理系统实现对接,系统只进行数据源连接信息和元数据管理,原始数据存储在用户端数据库(如图2中“3.1外部数据源管理模块”)。
S12、对于半结构化数据(如图2中“1.2半结构化数据”),包括json、xml、日志等,首先将其存入系统内置的文件存储系统(如图2中“2.3内置文件存储系统”);然后,针对常规结构的半结构化数据,利用系统内置的解析引擎(如图2中“3.2内置解析引擎”)进行知识抽取和转换,针对特殊结构的半结构化数据,通过新增自定义解析规则(如图2中“3.3自定义解析规则”)进行数据解析,利用解析后的数据生成结构化知识数据(如图2中“4.1结构化实体关系数据”)以及对应的元数据信息,并将所得结构化知识数据导入系统内置库进行数据存储(如图2中“5内置数仓”)。
S13、对于非结构化数据(如图2中“1.3非结构化数据”),包括word文本(如图2中“1.4文本”)、pdf和jpg图片(如图2中“1.5图片”)等,首先将其存入系统内置的文件存储系统(如图2中“2.3内置文件存储系统”),并根据增量规则和文件类型(如图2中“3.4文件类型”)对数据进行分类;然后,针对文本数据,系统根据政策类型匹配相应的NLP模型进行数据解析(如图2中“4.3基于NLP的知识抽取”),针对图片数据,系统根据政策类型选择对应的OCR模型(如图2中“4.2基于OCR的文本提取”)进行文本提取,在此基础上匹配相应的NLP模型进行数据解析,利用解析后的数据生成结构化知识数据(如图2中“4.1结构化实体关系数据”)以及对应的元数据信息,在系统内置数仓(如图2中“5内置数仓”)中创建对应的数据集并将所得结构化知识数据导入其中。
S2、基于先验规则引导融合模型进行知识融合;
基于先验规则引导融合模型的政策知识模型融合方案在采取基于融合模型的知识融合之前,先采用基于先验性融合规则的知识融合对数据进行预处理,减少后续需要融合的数据,进而减少人工判定融合数据的工作量,如图3所示,主要实施过程分为以下三步:
S21.首先,根据政策领域的先验知识,构建一套先验性融合规则,如基于同义词的融合方案、基于相似算法的融合方案、基于关联关系的融合方案等;
S22.其次,将上述先验性融合规则应用于政策知识抽取后得到的实体和关系数据;
S23.最后,采用基于融合模型的知识融合方案对政策知识数据进行二次融合,输出最终的融合结果。
S3、构建政策知识图谱基础模型;
本方法在政策知识图谱基础模型中利用组织机构、政策文件、政策类型(包括请示、报告、意见、函、通知、纪要、议案、命令、决定、公告、通告、通报、批复、决议、公报等)、关键词(包括基于NLP的关键词抽取方法生成的关键词)构建四类实体,同时构建组织机构与政策文件之间的发布关系、政策文件与政策文件之间的相似关系、政策文件与政策类型之间的归类关系、政策文件与关键词之间的关联关系共四类关系。
上述政策知识图谱基础模型能够比较全面的展现出政策文件的基本属性和主要内容。基于发布关系可追溯政策文件的来源,以及基于发布机构维度进行政策相关数据的统计;通过相似关系和关联关系可以拓展目标政策的关联政策,为查询者方便快捷的提供一揽子相关政策,为政策决策者提供决策基础。该基础模型能够满足知识图谱在政府政策文件领域常规的应用,此外,也可以基于该模型进行扩展以满足更为复杂的应用场景。
S4、利用任务调度引擎进行知识抽取和导入;
针对政策知识图谱知识抽取和知识数据入库,本申请将任务调度引擎应用于知识抽取和导入中,提出了基于任务调度引擎的抽取和导入方案,如图4所示,包括以下步骤:
S41、在针对非结构化数据文件的解析和知识抽取中,先根据文件类型和文件增量方案对上传至系统内置文件存储系统的非结构化数据文件进行归类;在文件数量较小的情况下,按文件上传日期的毫秒值对文件进行归类;在文件数量较大的情况下,结合文件上传日期的毫秒值、上传文件的批次号按日期和批次号对文件进行归类;
S42、通过任务调度引擎,配置周期增量、周期全量或即时全量的知识抽取任务,进行知识抽取;
S43、将知识抽取结果转换为组织机构、政策文件、关键词的实体以及其关联关系的结构化数据;
S44、将上步所得的结构化的实体关系数据存入内置数仓;
S45、对于知识抽取数据导入图数据存储系统,可利用任务调度引擎,根据实体关系数据中的增量属性,采用与知识抽取类似的调度方案,将系统内置数仓或外部数据源中的结构化政策知识数据存入已预先完成建模的图数据存储系统中。
本申请涉及的任务调度引擎(或称数据调度系统)可以是常用的任务调度框架,如Quartz、xxl-job等,也可以采用自研的任务调度系统。
如图5所示,本申请还提供了一种多源异构政策知识图谱构建和存储系统,本系统包括:
数据管理模块:用于通过数据源数据集管理系统、NLP模型、OCR模型对多源异构政策数据实施分类管理;
知识融合模块:用于通过先验规则引导融合模型进行知识融合;
模型构建模块:用于构建政策知识图谱基础模型;
知识抽取和导入模块:用于通过任务调度引擎进行知识抽取和导入,并将结果存入图数据存储系统中;
各模块按照上述多源异构政策知识图谱构建和存储方法实施运行。
以上所述仅为本发明的实施例而已,并不用于限制本发明。对于本领域技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、替换等,均应包含在本发明的权利要求保护范围之内。

Claims (10)

1.一种多源异构政策知识图谱构建和存储方法,其特征在于,所述方法包括:
S1.进行多源异构政策数据管理,利用数据源数据集管理系统、NLP模型、OCR模型对多源异构政策数据实施分类管理;
S2.基于先验规则引导融合模型进行知识融合;
S3.构建政策知识图谱基础模型;
S4.利用任务调度引擎进行知识抽取和导入,并将结果存入图数据存储系统中。
2.根据权利要求1所述的多源异构政策知识图谱构建和存储方法,其特征在于,步骤S1中所述进行多源异构政策数据管理,利用数据源数据集管理系统、NLP模型、OCR模型对多源异构政策数据实施分类管理,包括:
S11.对于结构化数据,通过数据源数据集管理系统实现对接,系统只进行数据源连接信息和元数据管理,原始数据存储在用户端数据库;
S12.对于半结构化数据,首先将其存入系统内置的文件存储系统;然后,针对常规结构的半结构化数据,利用系统内置的解析引擎进行知识抽取和转换,针对特殊结构的半结构化数据,通过新增自定义解析规则进行数据解析,利用解析后的数据生成结构化知识数据以及对应的元数据信息,并将所得结构化知识数据导入系统内置库进行数据存储;
S13.对于非结构化数据,首先将其存入系统内置的文件存储系统,并根据增量规则和文件类型对数据进行分类;然后,针对文本数据,系统根据政策类型匹配相应的NLP模型进行数据解析,针对图片数据,系统根据政策类型选择对应的OCR模型进行文本提取,在此基础上匹配相应的NLP模型进行数据解析,利用解析后的数据生成结构化知识数据以及对应的元数据信息,在系统内置数仓中创建对应的数据集并将所得结构化知识数据导入其中。
3.根据权利要求2所述的多源异构政策知识图谱构建和存储方法,其特征在于,
S11中所述结构化数据包括关系型数据库存储的表、视图;
S12中所述半结构化数据包括json、xml、日志;
S13中所述非结构化数据包括word文本、pdf和jpg图片。
4.根据权利要求1所述的多源异构政策知识图谱构建和存储方法,其特征在于,步骤S2中所述基于先验规则引导融合模型进行知识融合,包括:
S21.根据政策领域的先验知识,构建一套先验性融合规则;
S22.将所述先验性融合规则应用于政策知识抽取后得到的实体和关系数据;
S23.采用基于融合模型的知识融合方案对政策知识数据进行二次融合,输出最终的融合结果。
5.根据权利要求4所述的多源异构政策知识图谱构建和存储方法,其特征在于,步骤S21中所述先验性融合规则包括基于同义词的融合方案、基于相似算法的融合方案、基于关联关系的融合方案。
6.根据权利要求1所述的多源异构政策知识图谱构建和存储方法,其特征在于,步骤S3中所述构建政策知识图谱基础模型,所述政策知识图谱基础模型中包括:
四类实体:组织机构、政策文件、政策类型、关键词;
四类关系:组织机构与政策文件之间的发布关系、政策文件与政策文件之间的相似关系、政策文件与政策类型之间的归类关系、政策文件与关键词之间的关联关系。
7.根据权利要求6所述的多源异构政策知识图谱构建和存储方法,其特征在于,所述政策类型包括请示、报告、意见、函、通知、纪要、议案、命令、决定、公告、通告、通报、批复、决议、公报;
所述关键词包括基于NLP的关键词抽取方法生成的关键词。
8.根据权利要求1所述的多源异构政策知识图谱构建和存储方法,其特征在于,步骤S4中所述利用任务调度引擎进行知识抽取和导入,并将结果存入图数据存储系统中,包括:
S41.针对非结构化数据文件,根据文件类型和文件增量方案对上传至系统内置文件存储系统的数据进行归类,归类依据为文件上传日期的毫秒值或结合文件上传日期的毫秒值、上传文件的批次号;
S42.通过任务调度引擎,配置周期增量、周期全量或即时全量的知识抽取任务,进行知识抽取;
S43.将知识抽取结果转换为组织机构、政策文件、关键词的实体以及其关联关系的结构化数据;
S44.将上步所得的结构化的实体关系数据存入内置数仓;
S45.利用任务调度引擎,根据实体关系数据中的增量属性,将系统内置数仓或外部数据源中的结构化数据存入已完成建模的图数据存储系统中。
9.根据权利要求8所述的多源异构政策知识图谱构建和存储方法,其特征在于,所述任务调度引擎包括Quartz、xxl-job、以及自定义任务调度引擎。
10.一种多源异构政策知识图谱构建和存储系统,其特征在于,所述系统包括:
数据管理模块:用于通过数据源数据集管理系统、NLP模型、OCR模型对多源异构政策数据实施分类管理;
知识融合模块:用于通过先验规则引导融合模型进行知识融合;
模型构建模块:用于构建政策知识图谱基础模型;
知识抽取和导入模块:用于通过任务调度引擎进行知识抽取和导入,并将结果存入图数据存储系统中。
CN202310418582.4A 2023-04-19 2023-04-19 一种多源异构政策知识图谱构建和存储方法及系统 Pending CN116361487A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310418582.4A CN116361487A (zh) 2023-04-19 2023-04-19 一种多源异构政策知识图谱构建和存储方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310418582.4A CN116361487A (zh) 2023-04-19 2023-04-19 一种多源异构政策知识图谱构建和存储方法及系统

Publications (1)

Publication Number Publication Date
CN116361487A true CN116361487A (zh) 2023-06-30

Family

ID=86917309

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310418582.4A Pending CN116361487A (zh) 2023-04-19 2023-04-19 一种多源异构政策知识图谱构建和存储方法及系统

Country Status (1)

Country Link
CN (1) CN116361487A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116701639A (zh) * 2023-07-26 2023-09-05 广东师大维智信息科技有限公司 基于文本分析的双碳知识图谱数据分析方法及系统
CN116932612A (zh) * 2023-07-31 2023-10-24 杭州元声象素科技有限公司 一种基层社会治理智能数据处理系统
CN117608912A (zh) * 2024-01-24 2024-02-27 之江实验室 基于nlp大模型的全自动日志分析和故障处理系统和方法
CN117708350A (zh) * 2024-02-06 2024-03-15 成都草根有智创新科技有限公司 企业政策的信息关联方法、装置及电子设备

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116701639A (zh) * 2023-07-26 2023-09-05 广东师大维智信息科技有限公司 基于文本分析的双碳知识图谱数据分析方法及系统
CN116701639B (zh) * 2023-07-26 2024-03-12 广东师大维智信息科技有限公司 基于文本分析的双碳知识图谱数据分析方法及系统
CN116932612A (zh) * 2023-07-31 2023-10-24 杭州元声象素科技有限公司 一种基层社会治理智能数据处理系统
CN116932612B (zh) * 2023-07-31 2024-05-10 杭州元声象素科技有限公司 一种基层社会治理智能数据处理系统
CN117608912A (zh) * 2024-01-24 2024-02-27 之江实验室 基于nlp大模型的全自动日志分析和故障处理系统和方法
CN117608912B (zh) * 2024-01-24 2024-06-07 之江实验室 基于nlp大模型的全自动日志分析和故障处理系统和方法
CN117708350A (zh) * 2024-02-06 2024-03-15 成都草根有智创新科技有限公司 企业政策的信息关联方法、装置及电子设备
CN117708350B (zh) * 2024-02-06 2024-05-14 成都草根有智创新科技有限公司 企业政策的信息关联方法、装置及电子设备

Similar Documents

Publication Publication Date Title
US8266148B2 (en) Method and system for business intelligence analytics on unstructured data
CN109446344B (zh) 一种基于大数据的智能分析报告自动生成系统
US9348815B1 (en) Systems and methods for construction, maintenance, and improvement of knowledge representations
CN116361487A (zh) 一种多源异构政策知识图谱构建和存储方法及系统
CN111967761B (zh) 一种基于知识图谱的监控预警方法、装置及电子设备
Cui et al. Benefits of ontologies in real time data access
Park et al. Toward total business intelligence incorporating structured and unstructured data
Beheshti et al. istory: Intelligent storytelling with social data
CN110674206A (zh) 一种应用于企业知识共享平台
Assaf et al. Data quality principles in the semantic web
CN114564482A (zh) 一种面向多实体的标签系统及处理方法
Schorlemmer et al. Institutionalising ontology-based semantic integration
Schwade et al. A semantic data lake for harmonizing data from cross-platform digital workspaces using ontology-based data access
Jiang et al. Research on BIM-based Construction Domain Text Information Management.
González et al. Considering unstructured data for OLAP: a feasibility study using a systematic review
Rogushina et al. Use of ontologies for metadata records analysis in big data
CN116467291A (zh) 一种知识图谱存储与搜索方法及系统
CN116028642A (zh) 一种面向多工艺领域的工艺知识图谱构建与分类编码方法
CN115759253A (zh) 电网运维知识图谱构建方法及系统
CN115168361A (zh) 一种标签管理方法和装置
de Faria Cordeiro et al. An approach for managing and semantically enriching the publication of Linked Open Governmental Data
CN112464668A (zh) 一种提取智能家居行业动态信息的方法和系统
Tan et al. Semantic presentation and fusion framework of unstructured data in smart cites
Aumueller et al. Caravela: Semantic Content Management with Automatic Information Integration and Categorization (System Description)
Zhou et al. BDMCA: a big data management system for Chinese auditing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination