CN112115314A - 一种政务通用大数据聚合检索系统及构建方法 - Google Patents
一种政务通用大数据聚合检索系统及构建方法 Download PDFInfo
- Publication number
- CN112115314A CN112115314A CN202010974112.2A CN202010974112A CN112115314A CN 112115314 A CN112115314 A CN 112115314A CN 202010974112 A CN202010974112 A CN 202010974112A CN 112115314 A CN112115314 A CN 112115314A
- Authority
- CN
- China
- Prior art keywords
- data
- entities
- government
- library
- graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002776 aggregation Effects 0.000 title claims abstract description 24
- 238000004220 aggregation Methods 0.000 title claims abstract description 24
- 238000010276 construction Methods 0.000 title claims abstract description 9
- 238000013500 data storage Methods 0.000 claims abstract description 15
- 238000000034 method Methods 0.000 claims abstract description 13
- 238000005516 engineering process Methods 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 7
- 230000011218 segmentation Effects 0.000 claims description 7
- 230000006399 behavior Effects 0.000 claims 1
- 238000007405 data analysis Methods 0.000 abstract description 6
- 238000007726 management method Methods 0.000 abstract description 6
- 230000008901 benefit Effects 0.000 abstract description 3
- 238000012423 maintenance Methods 0.000 abstract description 3
- 230000000875 corresponding effect Effects 0.000 description 18
- 238000012550 audit Methods 0.000 description 8
- 238000000605 extraction Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000012098 association analyses Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 4
- 230000018109 developmental process Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000005553 drilling Methods 0.000 description 3
- 238000013467 fragmentation Methods 0.000 description 3
- 238000006062 fragmentation reaction Methods 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000001276 controlling effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012958 reprocessing Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000029305 taxis Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2221/00—Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F2221/21—Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F2221/2141—Access rights, e.g. capability lists, access control lists, access tables, access matrices
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Bioethics (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种政务通用大数据聚合检索系统及构建方法,属于电子信息技术领域。本申请通过将所有数据存储类型的数据按照倒序索引方式重新组织,并按照词条方式对所有的数据进行解析分类,形成统一的搜索引擎,得到统一检索库,可对关系型数据库、非关系数据库、文本数据、图数据等在一个平台进行维护管理、查询检索、数据分析等操作,提高数据检索范围和效率;通过根据统一检索库中的数据中的实体之间的关系建立图数据库,得到实体图谱,实现不同政务部门的数据之间的关联,从而在查询时可以获知所查询数据的各种相关数据,实现统一查询;本申请还通过权限控制层对检索结果数据的安全性分级管理,减少数据泄露风险。
Description
技术领域
本发明涉及一种政务通用大数据聚合检索系统及构建方法,属于电子信息技术领域。
背景技术
随着大数据时代的到来,政府机关面临人口数据、单位数据、财务数据、业务数据呈几何倍数增长的问题。面对数据内容多元化,数据量级海量化、数据形式虚拟化的情况,传统的数据分析处理模式往往存在大海捞针、无从下手的局面,若要对数据进行快速解析和应用,需要投入巨大的计算资源,使用和维护成本更难以控制,也难以满足复杂多变的业务定制化需求。
因此,在现有基础设施和数据环境下,如何利用大数据处理技术,采用多种数据架构的融合,创新数据处理技术,是当前基层单位增强国家治理的监督、评价、防御功能,推动政府机关信息化建设的重要问题。
随着大数据项目建设的持续深入,数据积累已经初具规模,网络互联互通能力也得到进一步提升,政府部门之间能够通过大数据平台进行数据交换,但是在数据利用方面还普遍存在以下问题:
一是数据多元化;政府部门在处理业务时需要获取多方面的数据;比如各部门行政审批数据、财政预算执行、地税征管、社保资金、公积金等业务数据以及车辆、人口、房产登记等第三方基础数据等。
二是数据碎片化且数据表达不一致;由于各个单位业务规范不统一,所以从多个口径获取的数据存在表述不一致、信息不完整、内容不规范的问题,给数据关联匹配制造了障碍。
三是数据查询检索难;现有习惯多依靠传统数据库查询技术,针对政府部门面对的数据多元化、数据碎片化的情况,缺少大数据架构的信息抽取、分词、模糊匹配等技术,现有的数据查询检索方法在数据量较少时系统的运行效率可以满足运行要求,但数据持续增长时,容易会造成性能瓶颈,检索效率降低。
四是缺乏数据分析工具,数据分析是大数据管理应用的核心,如何利用跨多部门、多业务、多层次、多领域的业务数据,从广度和深度上探索新的数据分析方法,需要大数据技术与业务实践的深入结合。
基于上述各个问题,现有的数据检索系统及方法中均不能进行有效的处理,而且针对政府部门需要对复杂数据类型的数据间关系进行关联分析的要求,现有的数据检索系统及方法均无法做到;比如,对人的搜索,现有的技术仅仅是单纯在某个人员表中将数据(可能只包含基本信息)提取出来,而不是将该人所在的单位、车辆、住房以及所产生的其他业务活动和关联数据一并获取,因为该人对应的车辆、住房以及其他业务活动分属不同的政务部门管理,前面提到不同数据库中的数据又存在的数据表达不一致的问题,因此各政务部门所对应的数据库之间无法简单融合。
基于此,如果想要获取与此人有关的所有数据,则需要分别从各自对应的数据库中进行搜索提取和整理,极其不方便;二是缺乏数据融合能力,现有的搜索技术往往侧重关系型数据库的搜索,采用数据库自带的搜索组件,缺少将关系数据与非关系数据的组合进行快速检索的能力。
发明内容
为了解决上述问题中的至少一个,本发明提供了一种政务通用大数据聚合检索系统,所述系统包括数据源层、检索库层、图形库层和权限控制层;
所述数据源层用于将各类政务数据按照数据存储类型划分为结构化数据、非结构化数据和文本数据;
所述检索库层用于将所有数据存储类型的数据按照倒序索引方式重新组织,并按照词条方式对所有的数据进行解析分类,形成统一的搜索引擎,得到统一检索库;
所述图形库层用于根据统一检索库中的数据中的实体之间的关系建立图数据库,得到实体图谱;
所述权限控制层用于根据数据源层中的数据的安全等级控制图数据库中对应数据的查看权限。
可选的,所述各类政务数据包括工商数据、税务数据、社保数据、财政数据、公积金数据、公安数据、民政数据和交通数据;
所述将所有数据存储类型的数据按照倒序索引方式重新组织,并按照词条方式对所有的数据进行解析分类,形成统一的搜索引擎,得到统一检索库,包括:
对其中的结构化数据,通过ETL工具kettle进行处理,将其转变为倒序索引的分词数据,存储进入统一的检索库中;
对于其中的非结构化数据和文本数据,通过POI技术进行文字提取和识别,以倒序索引方式存储进入统一的检索库中。
可选的,所述词条方式指对数据的分词和类型进行归类。
可选的,所述根据统一检索库中的数据中的实体之间的关系建立图数据库,得到实体图谱,包括:
确定所述各类政务数据中的实体及各实体对应的各种属性,所述实体包括人、单位、资产和资金;
根据政务的逻辑需要,通过实体对应的各种属性建立实体之间的逻辑关系;
根据建立的实体之间的逻辑关系建立图数据库,并得到实体图谱。
可选的,所述系统采用Neo4j工具建立图数据库。
可选的,所述根据数据源层中的数据的安全等级控制图数据库中对应数据的查看权限,包括:
若数据源层中的数据为实体对应的隐私数据,则图数据库中该数据需实体授权后才能够查看。
可选的,所述系统对数据操作行为进行后台记录并生成访问日志。
本申请还提供一种政务通用大数据聚合检索系统的构建方法,所述方法包括:
将各类政务数据按照数据存储类型,划分为结构化数据、非结构化数据和文本数据;
将所有数据存储类型的数据采用倒序索引方式重新组织,并按照词条方式对所有的数据进行解析分类,形成统一的搜索引擎,得到统一检索库;
确定统一检索库中的数据中的实体,并根据实体之间的逻辑关系建立图数据库;
可选的,所述根据实体之间的逻辑关系建立图数据库,包括:
确定所述各类政务数据中的实体及各实体对应的各种属性,所述实体包括人、单位、资产和资金;
根据政务的逻辑需要,通过实体对应的各种属性建立实体之间的逻辑关系;
根据建立的实体之间的逻辑关系建立图数据库。
可选的,所述各类政务数据包括工商数据、税务数据、社保数据、财政数据、公积金数据、公安数据、民政数据和交通数据。
本发明有益效果是:
本申请通过将所有数据存储类型的数据按照倒序索引方式重新组织,并按照词条方式对所有的数据进行解析分类,形成统一的搜索引擎,得到统一检索库,可对关系型数据库、非关系数据库、文本数据、图数据等在一个平台进行维护管理、查询检索、数据分析等操作,提高数据检索范围和效率;通过根据统一检索库中的数据中的实体之间的关系建立图数据库,得到实体图谱,实现不同政务部门的数据之间的关联,从而在查询时可以获知所查询数据的各种相关数据,实现统一查询;本申请还通过权限控制层对检索结果数据的安全性分级管理,普通检索结果显示普通数据,在特定的节点通过附加用户验证选择性展示隐私数据,从而减少数据泄露风险。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例中多源数据关联分析和聚合检索示意图。
图2是本发明一个实施例中某审计局数据聚合检索系统示意图。
图3是本发明一个实施例中人物图谱关联示意图。
图4是本发明一个实施例中企业图谱关联示意图。
图5是本发明一个实施例中某审计局数据聚合检索系统中人物图谱示意图。
图6是本发明一个实施例中某审计局数据聚合检索系统中企业图谱示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
首先对本申请技术方案设计的技术术语进行解释如下:
关系型数据库:指由若干张能互相联接的二维行列表格组成的数据库。关系型数据库中各数据的格式一致;顾名思义,关系型数据库中各数据之间存在关系。
非关系型数据库:是相对于关系型数据库而言的,通常用于存储那些类型不固定的,也没有什么规律的数据。
文本数据库:由文本组合而成的数据库,比如由txt,word等文件组成的数据库。
数据融合:指利用计算机对按时序获得的若干观测信息,在一定准则下加以自动分析、综合,以完成所需的决策和评估任务而进行的信息处理技术。
实施例一:
本实施例提供一种政务通用大数据聚合检索系统,所述系统应用于政府各部门中,包括公安、人社、审计、税务和检察等部门,这些部门的政务处理通常需要依赖海量多源数据,参见图1,所述系统包括数据源层、检索库层、图形库层和权限控制层。
数据源层,包括各类常见的政务数据来源,如工商数据、税务数据、社保数据、财政数据、公积金数据、公安数据、民政数据和交通数据等;按照数据存储类型,将各种政务数据划分为结构化数据、非结构化数据、文本数据。
检索库层,指将所有数据存储类型的数据按照倒序索引方式重新组织,并按照词条方式对所有的数据进行解析分类,形成统一的搜索引擎,得到统一检索库,用于对数据库内容进行快速的全文检索。
对其中的结构化数据,可以通过ETL工具kettle进行处理,将其转变为倒序索引的分词数据,存储进入统一的检索库中;
对于其中的非结构化数据和文本数据,可以通过POI技术进行文字提取和识别,以倒序索引方式存储进入统一的检索库中。
图形库层,指对检索库中的数据进行再加工,对数据之间的关联关系进行建模,形成图数据库,同时建立实体图谱。
权限控制层,指对于图数据中展示的可能涉及隐私的数据,加一层用户权限校验,校验通过再进入原始数据进行数据请求和展示,保护数据安全。也即,图数据中的数据按照安全等级分为隐私数据和常规数据。
具体的,所述结构化数据,通常会被存储在关系型数据库中,而常见的关系型数据库如Oracle、Mysql、SqlServer等,本申请提供的政务通用大数据聚合检索系统中,通常财政数据、社保数据、公积金数据、税务数据等行政审批、业务流转数据等存储于关系型数据库中。
所述非结构化数据,通常会被存储在非关系型数据库中,常见的非关系数据库如CSV,Excel等,本申请提供的政务通用大数据聚合检索系统中,通常案件数据、统计信息、报表数据等存储于非关系型数据库中。
文本数据库中的文本数据如txt,word等,本申请提供的政务通用大数据聚合检索系统中,通常文件数据、附件类、政策、通知等存储于文本数据库中。
通过采用抽取工具kettle、文件解析工具POI控件等,建立各类数据源的适配接口,将数据汇聚进入统一检索库。
检索库层采用Solr工具,对各类来源的数据采用倒序索引技术进行重新组织,按照词条方式对所有的数据进行解析分类,形成统一的搜索引擎,以便快速对检索库全库的数据进行全文检索。所述词条方式指对数据的分词和类型归类,例如“江苏开拓信息与系统有限公司”,会被拆分为“江苏”、“开拓”、“信息”、“与”、“系统”、“有限”、“公司”各个单词,每个单词为一个词条。搜索的时候,只要搜到任意一个词,都可以关联到该公司,以及详细信息,比如,以词条“系统”进行搜索,会将所有名称中含有“系统”两字的公司都列出来,“江苏开拓信息与系统有限公司”也在其中。
图形库层对检索库中的数据再加工,采用Neo4j工具建立图数据库,对来自工商、税务、社保等业务数据的人物、单位等实体之间建立关联关系,将各类来源的数据组织成为一张“大网”,解决了原有数据孤立和碎片化的弊端,使用户能对海量数据进行高效检索和下钻,漫游式查询。所述对来自工商、税务、社保等业务数据的人物、单位等实体之间建立关联关系包括:
(1)建立实体:主要实体包括业务中各个节点,例如,一个人物、一个单位、一个资产、一笔资金;实体具有属性。
(2)建立实体之间的逻辑关系:根据业务的逻辑需要,在实体之间建立关系。例如人和单位之间的关系,单位作为人的“工作单位”属性,同时,人作为单位的“职工成员”属性。
(3)建立数据关系:根据实体之间的逻辑关系,在数据库中找到对应的表以及对应的字段,建立字段的对应关系,从而采用Neo4j工具进行建模。
权限控制层对数据安全分级分类。根据数据安全等级将图形库层建立的图数据库中数据进行分类,可分为常规数据和隐私数据。常规数据指正常业务需要,不必做附加安全防控的数据,例如人员基本信息、单位基本信息等,可以在图数据库中直接查看明细。而安全防护较高的数据配置为隐私数据,在图数据展示中只能看到数据名称,不能看到数据明细,例如医保中的个人医疗健康档案、就医用药数据等。隐私数据需对用户进行高级别验证授权之后(输入预设密码),才能允许请求原始数据查看明细。对于查看隐私数据的行为,后台记录访问日志。
实施例二
本实施例提供一种政务通用大数据聚合检索系统的构建方法,本实施例以构建某地市级审计局数据聚合检索系统为例进行说明。
该政务通用大数据聚合检索系统的构建方法用于构建实施例一所给出的政务通用大数据聚合检索系统,如图2所述,政务通用大数据聚合检索系统的数据源层汇聚了财政数据、社保数据、公积金数据、税务数据以及工商、公安、民政、交通等业务数据等各类数据,按照实体之间的逻辑关系使用ELT自动抽取工具进行自动抽取后,形成审计局大数据仓库(即图数据库)。
比如,在抽取过程中,将人员表中的单位属性字段,与单位表中的具体信息进行关联,人员表中的社保字段,与社保库中的表进行关联,通过图数据库存储关系,在大数据仓库中对数据汇总关联。数据存储方式,由原来的二维表单结构,变成网状树形结构。
在形成审计局大数据仓库的基础上进行搜索引擎的检索设计,通过数据比碰撞比对工具和知识图谱工具,提供计算工具的支持。上层进行资金、人和单位、审计对象等主体的分析,面向用户提供汇总统计、数据钻取、关联分析、图形建模比对、全文检索、疑点追踪以及信息反馈等功能应用,并提供基于图表和地图的大屏展示。
所述汇总统计是指对明细数据的汇总计算,例如辖区人口、单位平均社保缴费基数、平均年龄、年度重点项目资金总额等;
所述数据钻取是指从汇总数据关联到明细数据,例如某单位总数100人,点击该数字可以跳转到人员明细。
所述关联分析是指根据数据关系的延伸分析,例如某人连续多次获取某类项目,经查其本人不是财政供养人员,通过关联分析判断其密切关系人(家属)是否存在财政供养人员,即可能存在的间接利益关系。
所述图形建模比对是指采用图形结构表达数据关系。
所述全文检索是指采用搜索引擎对数据内容进行转化,确保搜索的高效。
所述疑点追踪是指针对异常的数据,例如不同来源数据不一致的情况,进行针对分析。
所述信息反馈是指,用户对使用过程的疑问和功能问题进行记录和反馈。数据聚合之后,所建立的政务通用大数据聚合检索系统内已经对所有数据进行了关联,在对某一实体进行检索时,根据检索结果构建相应的图谱;比如:
人物图谱:以自然人为视角,通过姓名、身份证、社保号、公积金号等个人具有代表信息为入口查询人物姓名、性别、年龄、户籍等基本列表信息。运用图谱方式展示人物主要图谱信息,并提供关联钻取入口链接。根据关联关系提供扩展下钻,与企业、社会关系、地址、财政供养单位等信息关联。
如图5所示,所构建的人物图谱中,对于张三这个人,会显示该人员的社保数据、公积金数据、工作单位信息、亲属信息、同户籍人员信息。
点击任何一项信息,即可实施显示相应的明细数据,但是对于其中的一些安全等级较高的信息,则需要相应的实体授权后才可查看。
企业图谱:以普通企业为视角,按照统一社会信用代码、公司名称、法人、股东为简要信息快速定位一个公司,从公司股东股份情况、人员情况、变更情况、纳税情况、行业分类、经营范围来组合图谱信息,并可向下钻取,与人物图谱、财政资金图谱、审计对象图谱关联。
同时,本实施例所建立的政务通用大数据聚合检索系统在大屏显示检索结果时,除了以实体图谱的方式将所有关联的信息显示出来,还可以结合地图信息显示对应的地理位置信息。
如图6所示,所构建的企业图谱中,对于江苏开拓信息与系统有限公司,会显示单位公积金、社保、地税、国税、职工名单、投资人、股份情况、经营等信息。
本发明实施例中的部分步骤,可以利用软件实现,相应的软件程序可以存储在可读取的存储介质中,如光盘或硬盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种政务通用大数据聚合检索系统,其特征在于,所述系统包括数据源层、检索库层、图形库层和权限控制层;
所述数据源层用于将各类政务数据按照数据存储类型划分为结构化数据、非结构化数据和文本数据;
所述检索库层用于将所有数据存储类型的数据按照倒序索引方式重新组织,并按照词条方式对所有的数据进行解析分类,形成统一的搜索引擎,得到统一检索库;
所述图形库层用于根据统一检索库中的数据中的实体之间的关系建立图数据库,得到实体图谱;
所述权限控制层用于根据数据源层中的数据的安全等级控制图数据库中对应数据的查看权限。
2.根据权利要求1所述的政务通用大数据聚合检索系统,其特征在于,所述各类政务数据包括工商数据、税务数据、社保数据、财政数据、公积金数据、公安数据、民政数据和交通数据;
所述将所有数据存储类型的数据按照倒序索引方式重新组织,并按照词条方式对所有的数据进行解析分类,形成统一的搜索引擎,得到统一检索库,包括:
对其中的结构化数据,通过ETL工具kettle进行处理,将其转变为倒序索引的分词数据,存储进入统一的检索库中;
对于其中的非结构化数据和文本数据,通过POI技术进行文字提取和识别,以倒序索引方式存储进入统一的检索库中。
3.根据权利要求2所述的政务通用大数据聚合检索系统,其特征在于,所述词条方式指对数据的分词和类型进行归类。
4.根据权利要求3所述的政务通用大数据聚合检索系统,其特征在于,所述根据统一检索库中的数据中的实体之间的关系建立图数据库,得到实体图谱,包括:
确定所述各类政务数据中的实体及各实体对应的各种属性,所述实体包括人、单位、资产和资金;
根据政务的逻辑需要,通过实体对应的各种属性建立实体之间的逻辑关系;
根据建立的实体之间的逻辑关系建立图数据库,并得到实体图谱。
5.根据权利要求4所述的政务通用大数据聚合检索系统,其特征在于,所述系统采用Neo4j工具建立图数据库。
6.根据权利要求5所述的政务通用大数据聚合检索系统,其特征在于,所述根据数据源层中的数据的安全等级控制图数据库中对应数据的查看权限,包括:
若数据源层中的数据为实体对应的隐私数据,则图数据库中该数据需实体授权后才能够查看。
7.根据权利要求6所述的政务通用大数据聚合检索系统,其特征在于,所述系统对数据操作行为进行后台记录并生成访问日志。
8.一种政务通用大数据聚合检索系统的构建方法,其特征在于,所述方法包括:
将各类政务数据按照数据存储类型,划分为结构化数据、非结构化数据和文本数据;
将所有数据存储类型的数据采用倒序索引方式重新组织,并按照词条方式对所有的数据进行解析分类,形成统一的搜索引擎,得到统一检索库;
确定统一检索库中的数据中的实体,并根据实体之间的逻辑关系建立图数据库。
9.根据权利要求8所述的方法,其特征在于,所述根据实体之间的逻辑关系建立图数据库,包括:
确定所述各类政务数据中的实体及各实体对应的各种属性,所述实体包括人、单位、资产和资金;
根据政务的逻辑需要,通过实体对应的各种属性建立实体之间的逻辑关系;
根据建立的实体之间的逻辑关系建立图数据库。
10.根据权利要求9所述的方法,其特征在于,所述各类政务数据包括工商数据、税务数据、社保数据、财政数据、公积金数据、公安数据、民政数据和交通数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010974112.2A CN112115314A (zh) | 2020-09-16 | 2020-09-16 | 一种政务通用大数据聚合检索系统及构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010974112.2A CN112115314A (zh) | 2020-09-16 | 2020-09-16 | 一种政务通用大数据聚合检索系统及构建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112115314A true CN112115314A (zh) | 2020-12-22 |
Family
ID=73803613
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010974112.2A Pending CN112115314A (zh) | 2020-09-16 | 2020-09-16 | 一种政务通用大数据聚合检索系统及构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112115314A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112711594A (zh) * | 2021-01-15 | 2021-04-27 | 科技谷(厦门)信息技术有限公司 | 一种轨道交通数据集成方法 |
CN112800287A (zh) * | 2021-04-15 | 2021-05-14 | 杭州欧若数网科技有限公司 | 基于图数据库的全文索引方法和系统 |
CN112800243A (zh) * | 2021-02-04 | 2021-05-14 | 天津德尔塔科技有限公司 | 一种基于知识图谱的项目预算分析方法及系统 |
CN112965987A (zh) * | 2021-03-31 | 2021-06-15 | 华申数科(北京)信息科技有限责任公司 | 一种数字新治理业务的带权限高效模糊检索的方法及应用 |
CN113377896A (zh) * | 2021-05-19 | 2021-09-10 | 朗新科技集团股份有限公司 | 全文快速检索方法、装置、电子设备及存储介质 |
CN114218234A (zh) * | 2022-02-22 | 2022-03-22 | 深圳市一号互联科技有限公司 | 一种原生图数据存储方法和系统 |
CN114610721A (zh) * | 2022-03-23 | 2022-06-10 | 北京涵鑫盛科技有限公司 | 一种多层级分布式存储系统及存储方法 |
CN115905315A (zh) * | 2022-11-08 | 2023-04-04 | 北京德塔精要信息技术有限公司 | 多类型数据的融合处理方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106682527A (zh) * | 2016-12-25 | 2017-05-17 | 北京明朝万达科技股份有限公司 | 一种基于数据分类分级的数据安全管控方法及系统 |
CN107066599A (zh) * | 2017-04-20 | 2017-08-18 | 北京文因互联科技有限公司 | 一种基于知识库推理的相似上市公司企业检索分类方法及系统 |
CN108959433A (zh) * | 2018-06-11 | 2018-12-07 | 北京大学 | 一种从软件项目数据中提取知识图谱并问答的方法与系统 |
CN110147437A (zh) * | 2019-05-23 | 2019-08-20 | 北京金山数字娱乐科技有限公司 | 一种基于知识图谱的搜索方法及装置 |
-
2020
- 2020-09-16 CN CN202010974112.2A patent/CN112115314A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106682527A (zh) * | 2016-12-25 | 2017-05-17 | 北京明朝万达科技股份有限公司 | 一种基于数据分类分级的数据安全管控方法及系统 |
CN107066599A (zh) * | 2017-04-20 | 2017-08-18 | 北京文因互联科技有限公司 | 一种基于知识库推理的相似上市公司企业检索分类方法及系统 |
CN108959433A (zh) * | 2018-06-11 | 2018-12-07 | 北京大学 | 一种从软件项目数据中提取知识图谱并问答的方法与系统 |
CN110147437A (zh) * | 2019-05-23 | 2019-08-20 | 北京金山数字娱乐科技有限公司 | 一种基于知识图谱的搜索方法及装置 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112711594A (zh) * | 2021-01-15 | 2021-04-27 | 科技谷(厦门)信息技术有限公司 | 一种轨道交通数据集成方法 |
CN112800243A (zh) * | 2021-02-04 | 2021-05-14 | 天津德尔塔科技有限公司 | 一种基于知识图谱的项目预算分析方法及系统 |
CN112965987A (zh) * | 2021-03-31 | 2021-06-15 | 华申数科(北京)信息科技有限责任公司 | 一种数字新治理业务的带权限高效模糊检索的方法及应用 |
CN112800287A (zh) * | 2021-04-15 | 2021-05-14 | 杭州欧若数网科技有限公司 | 基于图数据库的全文索引方法和系统 |
CN113377896A (zh) * | 2021-05-19 | 2021-09-10 | 朗新科技集团股份有限公司 | 全文快速检索方法、装置、电子设备及存储介质 |
CN114218234A (zh) * | 2022-02-22 | 2022-03-22 | 深圳市一号互联科技有限公司 | 一种原生图数据存储方法和系统 |
CN114610721A (zh) * | 2022-03-23 | 2022-06-10 | 北京涵鑫盛科技有限公司 | 一种多层级分布式存储系统及存储方法 |
CN114610721B (zh) * | 2022-03-23 | 2022-12-27 | 北京涵鑫盛科技有限公司 | 一种多层级分布式存储系统及存储方法 |
CN115905315A (zh) * | 2022-11-08 | 2023-04-04 | 北京德塔精要信息技术有限公司 | 多类型数据的融合处理方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112115314A (zh) | 一种政务通用大数据聚合检索系统及构建方法 | |
CN110866123B (zh) | 基于数据模型构建数据图谱的方法及构建数据图谱的系统 | |
CN112215505A (zh) | 一种适应于电力行业的数据安全智能管控平台 | |
US20160004742A1 (en) | Methods and apparatus for harmonization of data stored in multiple databases using concept-based analysis | |
Hutchins et al. | Hiding in plain sight: criminal network analysis | |
KR101593910B1 (ko) | 개인 정보 상시 감시 시스템 및 그 상시 감시 방법 | |
Wu et al. | RETRACTED ARTICLE: Building the electronic evidence analysis model based on association rule mining and FP-growth algorithm | |
CN116089495A (zh) | 一种基于大数据的自助分析平台 | |
CN116384889A (zh) | 基于自然语言处理技术的情报大数据智能分析方法 | |
CN107679977A (zh) | 一种基于语义分析的税务管理平台及实现方法 | |
CN115222374A (zh) | 一种基于大数据处理的政务数据服务系统 | |
Galloway et al. | Network data mining: methods and techniques for discovering deep linkage between attributes | |
CN116028467A (zh) | 智能服务大数据建模方法、系统、存储介质及计算机设备 | |
Ariawan et al. | Design of Library Data Warehouse Using OLTP Result of Services Analysis | |
KR20180071699A (ko) | 개인 정보 온라인 감시 시스템 및 방법 | |
KR20210153561A (ko) | 빅데이터 기반의 도서관 의사결정 지원 시스템 | |
Vaish et al. | Business intelligence: Escalation of data warehousing and data mining for effective decision making | |
Do et al. | Toward a statistical data integration environment: the role of semantic metadata | |
Gallo et al. | Data warehouse design and management: theory and practice | |
CN118396087B (zh) | 基于区块链的企业数字化图谱构建方法及系统 | |
Pradhan et al. | Awareness of Problems and Defies with Big Data Involved in Network Security Management with Revised Data Fusion-Based Digital Investigation Model | |
Mukta et al. | An Agent Based Parallel and Secure Framework to Collect Feedbacks. | |
Phua et al. | Visual and Predictive Analytics on Singapore News: Experiments on GDELT, Wikipedia, and^ STI | |
Raca | Enterprise Dark Data | |
Wang | Improve Acquisition and Procurement through Data Governance and Information Quality |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20201222 |