CN113468163B - 一种多源异构公安大数据智能对接引擎系统 - Google Patents
一种多源异构公安大数据智能对接引擎系统 Download PDFInfo
- Publication number
- CN113468163B CN113468163B CN202111019291.5A CN202111019291A CN113468163B CN 113468163 B CN113468163 B CN 113468163B CN 202111019291 A CN202111019291 A CN 202111019291A CN 113468163 B CN113468163 B CN 113468163B
- Authority
- CN
- China
- Prior art keywords
- data
- source
- similarity
- community
- acquisition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003032 molecular docking Methods 0.000 title claims abstract description 19
- 238000000034 method Methods 0.000 claims abstract description 24
- 230000008569 process Effects 0.000 claims abstract description 18
- 238000005516 engineering process Methods 0.000 claims abstract description 9
- 230000007246 mechanism Effects 0.000 claims abstract description 9
- 230000008878 coupling Effects 0.000 claims abstract description 6
- 238000010168 coupling process Methods 0.000 claims abstract description 6
- 238000005859 coupling reaction Methods 0.000 claims abstract description 6
- 238000012544 monitoring process Methods 0.000 claims abstract description 6
- 238000006243 chemical reaction Methods 0.000 claims description 27
- 238000004422 calculation algorithm Methods 0.000 claims description 23
- 230000007717 exclusion Effects 0.000 claims description 22
- 238000004140 cleaning Methods 0.000 claims description 19
- 238000007726 management method Methods 0.000 claims description 19
- 238000001914 filtration Methods 0.000 claims description 12
- 238000000638 solvent extraction Methods 0.000 claims description 12
- 230000002159 abnormal effect Effects 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000010276 construction Methods 0.000 claims description 7
- 238000007405 data analysis Methods 0.000 claims description 7
- 238000013500 data storage Methods 0.000 claims description 7
- 230000006978 adaptation Effects 0.000 claims description 6
- 238000011161 development Methods 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims description 6
- 230000000694 effects Effects 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 238000012937 correction Methods 0.000 claims description 3
- 238000005111 flow chemistry technique Methods 0.000 claims description 3
- 230000008520 organization Effects 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 238000012546 transfer Methods 0.000 claims description 3
- 238000005192 partition Methods 0.000 claims description 2
- 230000008676 import Effects 0.000 claims 1
- 238000005538 encapsulation Methods 0.000 abstract description 3
- 230000010354 integration Effects 0.000 abstract description 3
- 230000000007 visual effect Effects 0.000 abstract description 3
- 230000004927 fusion Effects 0.000 description 8
- 238000011160 research Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2471—Distributed queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/54—Interprogram communication
- G06F9/547—Remote procedure calls [RPC]; Web services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2209/00—Indexing scheme relating to G06F9/00
- G06F2209/54—Indexing scheme relating to G06F9/54
- G06F2209/548—Queue
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- Computational Linguistics (AREA)
- Probability & Statistics with Applications (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种多源异构公安大数据智能对接引擎系统,属于互联网信息技术领域,本发明的数据采集模块基于在线服务调用方式以及消息主题的发布/订阅机制,能够在线实时从数据源采集、清洗转换、目标数据解析、传输和加载到目标数据源,只要网络连通,即可实现数据的源源不断流动;另外内部采用Spring Cloud微服务框架进行服务治理,实现多源数据采集服务的微服务化封装,支持多源端数据的并发采集能力,能够实时监控各采集服务的运行状态,实现并发采集服务的可视监控;任务之间均采用松耦合架构,并通过服务流程化控制技术实现任务之间的依赖触发,故每个源端到目标端数据的集成过程均是流程化自动控制执行的。
Description
技术领域
本发明涉互联网信息技术领域,尤其涉及一种多源异构公安大数据智能对接引擎系统。
背景技术
社会万象,公安业务场景纷多,由此导致公安数据种类多、数据量大,大规模公安大数据的关联和交叉,数据特征和现实需求都发生了变化。以大规模、多源异构、跨领域、跨媒体、动态演化、普适化为主要特征的数据发挥着更重要的作用,相应的数据存储、分析和理解也面临着重大挑战。特别是需要研究如何利用数据的关联、交叉和融合实现公安大数据的价值最大化。
公安大数据感知融合的实质是为获取高品质知识和线索,最大程度地发挥公安大数据的价值而提出,其重要性是毋庸置疑的。但是,作为一个多警种、跨领域的研究问题,传统的仅依赖分布式架构的多元异构数据融合方法已经远远无法适应当前公安大数据的感知与融合要求,迫切需要新的研究方法和技术向新的深度和广度拓展,做到大跨度、深层次融合。为了响应公安对于大数据感知融合体系“一中心、多平台、泛感知、异融合”的要求,本项目实现了分布式多源异构数据智能对接引擎技术。
发明内容
本发明所要解决的技术问题是针对背景技术的不足提供一种多源异构公安大数据智能对接引擎系统,其解决了公安领域资源信息种类过多,导致标隹订不及、类合不拢、治理搞不定的问题,实现了公安领域异构数据大融合,极大促进全警平台一体化建设。
本发明为解决上述技术问题采用以下技术方案:
一种多源异构公安大数据智能对接引擎系统,包含多源数据库接入模块、数据采集模块、
分布式采集转换执行模块、数据转换清洗模块和目标数据解析入库模块;
其中,多源数据库接入模块,用于实现对异构数据源的无缝连接;根据数据源管理中的
数据库连接信息以及要连接的数据库系统、版本信息,动态加载数据库连接程序,实现对不同异构数据库源驱动管理、连接参数读取、与源数据库自动适配、多连接线程的池化高效管理;
数据采集模块,基于Spring Cloud封装为横向扩展的微服务,用于实现微服务的自动注册、发现和负载均衡,通过解析采集定义规则XML,获取采集SQL信息、过滤条件信息、采集方式和采集时间,根据提前设置的数据库连接参数,实现对异构多源数据库的连接,并且自动执行采集SQL和过滤条件;
其中,Spring Cloud:微服务开发和治理框架;
XML:扩展标记语言;
SQL:结构化查询语言;
分布式采集转换执行模块,通过springcloud+flink+kafka的分布式架构实现流程自动化控制,支持按照 BPEL 流程标准化定义描述,解析流程定义脚本,支持定时循环、多任务并发、条件路径转移执行控制和监控,并且接入高吞吐量的分布式集群队列系统KAFKA,实现数据采集、转换和导入过程中间数据的消息总线机制,进而实现多任务间的松耦合运行机制,便于采集转换的多线程并发采集转换加载多目标数据源采集任务;
其中,Flink:开源流处理框架;
spring Cloud:微服务开发和治理框架;
kafka:分布式发布订阅消息系统;
BPEL :业务流程执行语;
数据转换清洗模块,用于对异常数据进行数据转换及数据清洗;
目标数据解析入库模块,用于将清洗转换的输出结果,根据系统管理配置视图的配置规则,基于目标库适配的数据格式规范,存入相应的临时交换库或目标库;
对异常数据进行数据转换及数据清洗,具体包含如下步骤:
步骤1,数据滤重:对相同数据的不同记录进行筛选、合并、清理,以减少冗余并形成统一出口,实现数据滤重的关键是定义数据主码,依据该主码能够唯一确定某条数据记录;
步骤2,冲突消解:针对同一数据属性不一致的问题,根据其信息来源、获取手段、置信度,设置不同权值,以加权平均作为该数据的最终属性值,权值的设置通过专家打分,也基于统计数据;
步骤3,错误修正:针对错误型数据,通过设置规则和推理的方式进行修正;
步骤4,数据归一化:利用基于图划分的优化算法对同一数据的不同描述进行归一化,包括全称与缩写、机构改名与合并、同义词转换、别称、多语信息;
基于图划分的优化算法,包含实体关系图构建、互斥关系发现和图划分算法三个步骤;
其中,实体关系图构建,具体如下,通过遍历集合中的任意两个实体,计算两个实体之
间的相似度,通过仅保留相似度高的实体相似度,作为实体关系图中边保留;
实体的相似度计算主要用于评估两个实体之间的相似程度关系,相似度计算过程综合了
实体的名称、 属性以及上下文信息三方面对特征信息,采用以下的公式计算两个实体之间的相似度;
互斥关系的发现具体通过两种方式:
一、若两个实体来自同一数据源并且具有相同名称,则说明数据源自身识别出了两个实体的差异,两个实体必然不存在等价关系;
二、若两个实体的上下文但相似度非常低,则说明两个实体也不具有等价关系,进而构建实体关系图以及实体间的互斥关系,以这两部分数据作为图划分算法的输入,进一步对等价实体集合进行划分;
图划分算法,具体如下:
将用户看作是点,用户之间的社交关系看作是边;用户间关系的疏密程度各部相同,根据图的结构划分出若干个社区,其中连接紧密的部分看成是一个社区,其内部的节点之间有紧密的连接,而在两个社区间则连接稀疏;
其中,Fast Unfolding是一种社区划分的算法,它提出了模块度Q的概念,用于衡量社区划分的效果,具体为:
式中, m 为网络中边的总数,C 表示划分出的社区,∑in表示社区C内部连接边的权重和,∑tot 表示社区 C内部连接边以及与社区C相连的外部边的权重和,FastUnfolding:基于模块度对社区划分的算法。
作为本发明一种多源异构公安大数据智能对接引擎系统的进一步优选方案,所述多源数据库接入模块采用采用 Druid多数据源连接池动态管理技术实现对异构数据源的无缝连接。
作为本发明一种多源异构公安大数据智能对接引擎系统的进一步优选方案,所述异常数
据包含冗余型数据、差异型数据、冲突型数据和错误型数据。
作为本发明一种多源异构公安大数据智能对接引擎系统的进一步优选方案,以等价实体关系和互斥的实体为输入,根据模块度 Q的增量大小∆Q 去挑选下一个进行处理的实体,并加入实体相似度以及互斥关系的约束,对关系图进行划分,具体计算过程如下:
输入:等价实体关系图、有互斥关系的实体对;
输出:若干等价实体关系图;
步骤(1),初始化,将每一个节点都划分为一个独立的社区;
步骤(2),遍历每一个节点,尝试把该节点划分到它邻居节点所在的社区里,计算划分前后模块度的差值 ∆Q ,取值最大的∆Q ;
步骤(3),判断 ∆Q 是否大于0,同时该节点与要并入社区不存在互斥关系,并需要满足Similarity的约束条件,则接受本次的划分;若一项不符合,则放弃本次的划分;如果存在互斥条件或者Similarity过低,移除该节点与要并入社区的所有边;
步骤(4),重复步骤(2)和步骤(3),直到 ∆Q不能再增大;
步骤(5),对关系图进行压缩,将同一个社区内的所有节点压缩成一个新节点,社区内边的权重转化为新节点与自身的权重,社区间的边权重转化为新节点间的边权重;
步骤(6),重复步骤(2)和步骤(3),直到 ∆Q 不能再增大;
步骤(7),单个社区中所有实体认为是同一集合,返回所有社区,在满足互斥条件和相似度约束条件的基础上,不断地划分社区,使得划分后整个关系图中的模块度不断增大,当模块度不能增加时停止迭代,得到若干个等价实体集合。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:
1、本发明一种多源异构公安大数据智能对接引擎系统,解决了公安领域资源信息种类过多,导致标隹订不及、类合不拢、治理搞不定的问题,实现了公安领域异构数据大融合,极大促进全警平台一体化建设;
2、本发明的数据采集模块基于在线服务调用方式以及消息主题的发布/订阅机制,能够在线实时从数据源采集、清洗转换、目标数据解析、传输和加载到目标数据源,只要网络连通,即实现数据的源源不断流动;另外内部采用 Spring Cloud 微服务框架进行服务治理,实现多源数据采集服务的微服务化封装,支持多源端数据的并发采集能力,能够实时监控各采集服务的运行状态,实现并发采集服务的可视监控;任务之间均采用松耦合架构,并通过服务流程化控制技术实现任务之间的依赖触发,故每个源端到目标端数据的集成过程均是流程化自动控制执行的。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,根据这些附图获得其他的附图。
图1是本发明一种多源异构公安大数据智能对接引擎系统整体结构框图;
图2是本发明异常数据清理方法流程框图。
具体实施方式
下面结合附图对本发明的技术方案做进一步的详细说明:
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描
述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了解决公安领域数据的复杂性、异构性,推进全警信息化、一体化建设,真正让数据
发挥能量,基于多源异构公安大数据智能对接引擎系统已在多个省份实践应用。在某省厅建设公安大数据平台建设过程中使用本系统完成900多类,3万亿条,近34PB数据量的汇聚。本发明的数据采集模块基于在线服务调用方式以及消息主题的发布/订阅机制,能够在线实时从数据源采集、清洗转换、目标数据解析、传输和加载到目标数据源,只要网络连通,即实现数据的源源不断流动;另外内部采用 Spring Cloud 微服务框架进行服务治理,实现多源数据采集服务的微服务化封装,支持多源端数据的并发采集能力,能够实时监控各采集服务的运行状态,实现并发采集服务的可视监控。任务之间均采用松耦合架构,并通过服务流程化控制技术实现任务之间的依赖触发,故每个源端到目标端数据的集成过程均是流程化自动控制执行的。
一种多源异构公安大数据智能对接引擎系统,如图1所示,包含多源数据库接入模块、数据采集模块、分布式采集转换执行模块、数据转换清洗模块和目标数据解析入库模块;
其中,多源数据库接入模块,用于实现对异构数据源的无缝连接;根据数据源管理中的数据库连接信息以及要连接的数据库系统、版本信息,动态加载数据库连接程序,实现对不同异构数据库源驱动管理、连接参数读取、与源数据库自动适配、多连接线程的池化高效管理;
数据采集模块,基于Spring Cloud封装为横向扩展的微服务,用于实现微服务的自动注册、发现和负载均衡,通过解析采集定义规则XML,获取采集SQL信息、过滤条件信息、采集方式和采集时间,根据提前设置的数据库连接参数,实现对异构多源数据库的连接,并且自动执行采集SQL和过滤条件;
其中,Spring Cloud:微服务开发和治理框架;
XML:扩展标记语言;
SQL:结构化查询语言;具体算法伪代码如下所示。
〈config〉
〈ruletype〉
extract / /表示该规则为数据采集规则
〈/ruletype〉
〈extracttype〉
increse / /表示增量采集,
all 表示全量采集
〈/ extracttype〉
〈mainsql〉
/ /核心语句
select A.case,A.bh,A.zhhm,B.name from ajhz A,jbxx
B where A.zjhm = B.gmsfhm
〈/ mainsql〉
〈conditions〉
/ / conditions表示条件集合
〈c〉/ / c 标记表示条件
rtime= 159004578
〈/ c〉
〈c〉
bh < 1000
〈/ c〉
…
〈/ conditions〉
〈executemethod〉
/ /定义采集的主方法
extractmethod
〈/ executemethod〉
〈tasktime〉
/ /定时任务cron的表达式
00 08***/ /每天 08: 00 执行任务
〈/ tasktime〉
… 。
分布式采集转换执行模块,通过springcloud+flink+kafka的分布式架构实现流程自动化控制,支持按照 BPEL 流程标准化定义描述,解析流程定义脚本,支持定时循环、多任务并发、条件路径转移执行控制和监控,并且接入高吞吐量的分布式集群队列系统KAFKA,实现数据采集、转换和导入过程中间数据的消息总线机制,进而实现多任务间的松耦合运行机制,便于采集转换的多线程并发采集转换加载多目标数据源采集任务;
其中,Flink:开源流处理框架;
spring Cloud:微服务开发和治理框架;
kafka:分布式发布订阅消息系统;
BPEL :业务流程执行语;
数据转换清洗模块,用于对异常数据进行数据转换及数据清洗;
目标数据解析入库模块,用于将清洗转换的输出结果,根据系统管理配置视图的配置规则,基于目标库适配的数据格式规范,存入相应的临时交换库或目标库。
所述多源数据库接入模块采用采用 Druid多数据源连接池动态管理技术实现对异构数据源的无缝连接。
在公安领域的大数据域中异常数据主要有冗余型数据、差异型数据、冲突型数据和错误型数据。
①冗余型数据。即对于同一个实体描述名称不同,比如不同,科信、治安获取了重点人常驻地址,分别命名为“上海路268号”或“上海路-268”。
②差异型数据。不同厂商上报过来的的数据格式不一样,A厂商上报登录时间格式“YYYY. MM. DD”,B厂商上报“XX年XX月XX 日”。
③冲突型数据。由于获情手段不同,导致部分数据发生冲突,比如同一类型的某单兵设备测量得到位置、速度信息不一致。
④错误型数据。由于人为或环境因素导致采集到的有些数据存在明显错误。比如,某重点人在本市内活动但其手机IMSI信息已在国外。
对异常数据进行数据转换及数据清洗,如图2所示,具体包含如下步骤:
步骤1,数据滤重:对相同数据的不同记录进行筛选、合并、清理,以减少冗余并形成统一出口,实现数据滤重的关键是定义数据主码,依据该主码能够唯一确定某条数据记录;
步骤2,冲突消解:针对同一数据属性不一致的问题,根据其信息来源、获取手段、置信度等,设置不同权值,以加权平均作为该数据的最终属性值,权值的设置通过专家打分,也基于统计数据;
步骤3,错误修正:针对错误型数据,通过设置规则和推理的方式进行修正;比如,通过出生年月推断出年龄;通过户籍迁入、迁出时间字段确定户籍变更时间等;
步骤4,数据归一化:主要考虑实体识别问题,需对同一数据的不同描述进行归一化,包括全称与缩写、机构改名与合并、同义词转换、别称、多语信息等,比如,将“平均速度”“平均时速”“行驶速度”等统一为“平均速度”,将“千米/小时”“米/秒” “马赫”速度单位统一为“千米/小时”。数据归一化的过程中利用本系统提出的基于图划分的优化算法。
在步骤4中,基于图划分的优化算法,包含实体关系图构建、互斥关系发现和图划分算法三个步骤。
实体的相似度计算主要用于评估两个实体之间的相似程度关系,相似度计算过程综合了实体的名称、属性以及上下文信息等三方面对特征信息,采用以下的公式计算两个实体之间的相似度;
互斥关系的发现具体通过两种方式:
一、若两个实体来自同一数据源并且具有相同名称,则说明数据源自身识别出了两个实体的差异,两个实体必然不存在等价关系;
二、若两个实体的上下文但相似度非常低,则说明两个实体也不具有等价关系,进而构建实体关系图以及实体间的互斥关系,以这两部分数据作为图划分算法的输入,进一步对等价实体集合进行划分。
图划分算法,具体如下:
将用户看作是点,用户之间的社交关系看作是边;用户间关系的疏密程度各部相同,根据图的结构划分出若干个社区,其中连接紧密的部分看成是一个社区,其内部的节点之间有紧密的连接,而在两个社区间则连接稀疏;
其中,Fast Unfolding是一种社区划分的算法,它提出了模块度Q的概念,用于衡量社区划分的效果,具体为:
式中, m 为网络中边的总数,C 表示划分出的社区,∑in表示社区C内部连接边的权重和,∑tot 表示社区 C内部连接边以及与社区C相连的外部边的权重和,FastUnfolding:基于模块度对社区划分的算法。
作为本发明一种多源异构公安大数据智能对接引擎系统的进一步优选方案,以等价实体关系和互斥的实体为输入,根据模块度 Q的增量大小∆Q 去挑选下一个进行处理的实体,并加入实体相似度以及互斥关系的约束,对关系图进行划分,具体计算过程如下:
输入:等价实体关系图、有互斥关系的实体对;
输出:若干等价实体关系图;
步骤(1),初始化,将每一个节点都划分为一个独立的社区;
步骤(2),遍历每一个节点,尝试把该节点划分到它邻居节点所在的社区里,计算划分前后模块度的差值 ∆Q ,取值最大的∆Q ;
步骤(3),判断 ∆Q 是否大于0,同时该节点与要并入社区不存在互斥关系,并需要满足Similarity的约束条件,则接受本次的划分;若一项不符合,则放弃本次的划分;如果存在互斥条件或者Similarity过低,移除该节点与要并入社区的所有边;
步骤(4),重复步骤(2)和步骤(3),直到 ∆Q不能再增大;
步骤(5),对关系图进行压缩,将同一个社区内的所有节点压缩成一个新节点,社区内边的权重转化为新节点与自身的权重,社区间的边权重转化为新节点间的边权重;
步骤(6),重复步骤(2)和步骤(3),直到 ∆Q 不能再增大;
步骤(7),单个社区中所有实体认为是同一集合,返回所有社区通过上述迭代算法的过程,在满足互斥条件和相似度约束条件的基础上,不断地划分社区,使得划分后整个关系图中的模块度不断增大,当模块度不能增加时停止迭代,得到若干个等价实体集合。
Claims (4)
1.一种多源异构公安大数据智能对接引擎系统,其特征在于:包含多源数据库接入模块、数据采集模块、分布式采集转换执行模块、数据转换清洗模块和目标数据解析入库模块;
其中,多源数据库接入模块,用于实现对异构数据源的无缝连接;根据数据源管理中的数据库连接信息以及要连接的数据库系统、版本信息,动态加载数据库连接程序,实现对不同异构数据库源驱动管理、连接参数读取、与源数据库自动适配、多连接线程的池化高效管理;
数据采集模块,基于Spring Cloud封装为横向扩展的微服务,用于实现微服务的自动注册、发现和负载均衡,通过解析采集定义规则XML,获取采集SQL信息、过滤条件信息、采集方式和采集时间,根据提前设置的数据库连接参数,实现对异构多源数据库的连接,并且自动执行采集SQL和过滤条件;
其中,Spring Cloud:微服务开发和治理框架;
XML:扩展标记语言;
SQL:结构化查询语言;
分布式采集转换执行模块,通过springcloud+flink+kafka的分布式架构实现流程自动化控制,支持按照BPEL流程标准化定义描述,解析流程定义脚本,支持定时循环、多任务并发、条件路径转移执行控制和监控,并且接入高吞吐量的分布式集群队列系统kafka,实现数据采集、转换和导入过程中间数据的消息总线机制,进而实现多任务间的松耦合运行机制,便于采集转换的多线程并发采集转换加载多目标数据源采集任务;
其中,flink:开源流处理框架;
spring Cloud:微服务开发和治理框架;
kafka:分布式发布订阅消息系统;
BPEL:业务流程执行语;
数据转换清洗模块,用于对异常数据进行数据转换及数据清洗;
目标数据解析入库模块,用于将清洗转换的输出结果,根据系统管理配置视图的配置规则,基于目标库适配的数据格式规范,存入相应的临时交换库或目标库;
对异常数据进行数据转换及数据清洗,具体包含如下步骤:
步骤1,数据滤重:对相同数据的不同记录进行筛选、合并、清理,以减少冗余并形成统一出口,实现数据滤重的关键是定义数据主码,依据该主码能够唯一确定某条数据记录;
步骤2,冲突消解:针对同一数据属性不一致的问题,根据其信息来源、获取手段、置信度,设置不同权值,以加权平均作为该数据的最终属性值,权值的设置通过专家打分,也基于统计数据;
步骤3,错误修正:针对错误型数据,通过设置规则和推理的方式进行修正;
步骤4,数据归一化:利用基于图划分的优化算法对同一数据的不同描述进行归一化,包括全称与缩写、机构改名与合并、同义词转换、别称、多语信息;
基于图划分的优化算法,包含实体关系图构建、互斥关系发现和图划分算法三个步骤;
其中,实体关系图构建,具体如下,通过遍历集合中的任意两个实体,计算两个实体之间的相似度,通过仅保留相似度高的实体相似度,作为实体关系图中边保留;
实体的相似度计算主要用于评估两个实体之间的相似程度关系,相似度计算过程综合了实体的名称、属性以及上下文信息三方面对特征信息,采用以下的公式计算两个实体之间的相似度;
sim(e1,e2)=w1×sim(e1.N,e2.N)+w2×sim(e1.P,e2.P)+w3×sim(e1.T,e2.T)
式中sim(e1.N,e2.N)表示实体名称的相似度,sim(e1.P,e2.P)表示实体属性的相似度,sim(e1.T,e2.T)表示实体上下文的相似度,w1、w2、w3分别代表了三者对应的权重;
互斥关系的发现具体通过两种方式:
一、若两个实体来自同一数据源并且具有相同名称,则说明数据源自身识别出了两个实体的差异,两个实体必然不存在等价关系;
二、若两个实体的上下文但相似度非常低,则说明两个实体也不具有等价关系,进而构建实体关系图以及实体间的互斥关系,以这两部分数据作为图划分算法的输入,进一步对等价实体集合进行划分;
图划分算法,具体如下:
将用户看作是点,用户之间的社交关系看作是边;用户间关系的疏密程度各部相同,根据图的结构划分出若干个社区,其中连接紧密的部分看成是一个社区,其内部的节点之间有紧密的连接,而在两个社区间则连接稀疏;
其中,Fast Unfolding是一种社区划分的算法,它提出了模块度Q的概念,用于衡量社区划分的效果,具体为:
式中,C表示划分出的社区,∑in表示社区C内部连接边的权重和,∑tot表示社区C内部连接边以及与社区C相连的外部边的权重和,m为网络中边的总数,Fast Unfolding:基于模块度对社区划分的算法。
2.根据权利要求1所述的一种多源异构公安大数据智能对接引擎系统,其特征在于:所述多源数据库接入模块采用Druid多数据源连接池动态管理技术实现对异构数据源的无缝连接。
3.根据权利要求1所述的一种多源异构公安大数据智能对接引擎系统,其特征在于:所述异常数据包含冗余型数据、差异型数据、冲突型数据和错误型数据。
4.根据权利要求1所述的一种多源异构公安大数据智能对接引擎系统,其特征在于:以等价实体关系和互斥的实体为输入,根据模块度Q的增量大小ΔQ去挑选下一个进行处理的实体,并加入实体相似度以及互斥关系的约束,对关系图进行划分,具体计算过程如下:
输入:等价实体关系图、有互斥关系的实体对;
输出:若干等价实体关系图;
步骤(1),初始化,将每一个节点都划分为一个独立的社区;
步骤(2),遍历每一个节点,尝试把该节点划分到它邻居节点所在的社区里,计算划分前后模块度的差值ΔQ,取值最大的ΔQ;
步骤(3),判断ΔQ是否大于0,同时该节点与要并入社区不存在互斥关系,并需要满足Similarity的约束条件,则接受本次的划分;若一项不符合,则放弃本次的划分;如果存在互斥条件或者Similarity过低,移除该节点与要并入社区的所有边;
其中,Similarity:相似性;
步骤(4),重复步骤(2)和步骤(3),直到ΔQ不能再增大;
步骤(5),对关系图进行压缩,将同一个社区内的所有节点压缩成一个新节点,社区内边的权重转化为新节点与自身的权重,社区间的边权重转化为新节点间的边权重;
步骤(6),重复步骤(2)和步骤(3),直到ΔQ不能再增大;
步骤(7),单个社区中所有实体认为是同一集合,返回所有社区,在满足互斥条件和相似度约束条件的基础上,不断地划分社区,使得划分后整个关系图中的模块度不断增大,当模块度不能增加时停止迭代,得到若干个等价实体集合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111019291.5A CN113468163B (zh) | 2021-09-01 | 2021-09-01 | 一种多源异构公安大数据智能对接引擎系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111019291.5A CN113468163B (zh) | 2021-09-01 | 2021-09-01 | 一种多源异构公安大数据智能对接引擎系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113468163A CN113468163A (zh) | 2021-10-01 |
CN113468163B true CN113468163B (zh) | 2021-12-21 |
Family
ID=77867120
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111019291.5A Active CN113468163B (zh) | 2021-09-01 | 2021-09-01 | 一种多源异构公安大数据智能对接引擎系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113468163B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115080565A (zh) * | 2022-06-08 | 2022-09-20 | 陕西天诚软件有限公司 | 一种基于大数据引擎的多源数据统一处理系统 |
CN116910824B (zh) * | 2023-08-28 | 2024-02-06 | 广东中山网传媒信息科技有限公司 | 一种基于分布式多源测度的安全大数据分析方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111754216A (zh) * | 2020-06-19 | 2020-10-09 | 多加网络科技(北京)有限公司 | 一种支付链路自动切换方法 |
US11010719B1 (en) * | 2020-10-16 | 2021-05-18 | Coupang Corp. | Systems and methods for detecting errors of asynchronously enqueued requests |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060167983A1 (en) * | 2005-01-07 | 2006-07-27 | Exacore Corporation | Inter-networked knowledge services (INKS) |
US7979475B2 (en) * | 2006-04-26 | 2011-07-12 | Robert Mack | Coherent data identification method and apparatus for database table development |
CN112000448B (zh) * | 2020-07-17 | 2023-08-25 | 北京计算机技术及应用研究所 | 基于微服务架构的应用管理方法 |
CN112100545A (zh) * | 2020-09-11 | 2020-12-18 | 杭州安恒信息安全技术有限公司 | 网络资产的可视化方法、装置、设备和可读存储介质 |
-
2021
- 2021-09-01 CN CN202111019291.5A patent/CN113468163B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111754216A (zh) * | 2020-06-19 | 2020-10-09 | 多加网络科技(北京)有限公司 | 一种支付链路自动切换方法 |
US11010719B1 (en) * | 2020-10-16 | 2021-05-18 | Coupang Corp. | Systems and methods for detecting errors of asynchronously enqueued requests |
Non-Patent Citations (2)
Title |
---|
刘海等.面向异构数据源的分布式集成工具研究与设计.《计算机应用研究》.2020,第37卷(第S1期),204-206. * |
林琳等.基于组织机构图的改进RBAC模型.《江苏大学学报(自然科学版)》.2006,(第02期),147-150. * |
Also Published As
Publication number | Publication date |
---|---|
CN113468163A (zh) | 2021-10-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111339071B (zh) | 一种多源异构数据的处理方法及装置 | |
CN113468163B (zh) | 一种多源异构公安大数据智能对接引擎系统 | |
JP2022078130A (ja) | アプリケーションプログラミングインターフェイスのメタデータ駆動型外部インターフェイス生成ためのシステムおよび方法 | |
CN110347719A (zh) | 一种基于大数据的企业外贸风险预警方法及系统 | |
CN112328706A (zh) | 数仓体系下的维度建模计算方法、计算机设备和存储介质 | |
CN111581454A (zh) | 基于深度图压缩算法的并行查询表现预测系统及方法 | |
CN108595664A (zh) | 一种hadoop环境下的农业数据监控方法 | |
CN107870949B (zh) | 数据分析作业依赖关系生成方法和系统 | |
CN114860833A (zh) | 应用于数字孪生水利工程的数据中台和数据处理方法 | |
CN116701661B (zh) | 一种基于编码的建筑工程bim设计算量方法 | |
CN117453937B (zh) | 一种电网图数据模型自动生成方法及装置 | |
Ouyang et al. | Semantic enrichment of object associations across federated BIM semantic graphs in a common data environment | |
Zhang et al. | Fog-enabled event processing based on IoT resource models | |
CN113010296A (zh) | 基于形式化模型的任务解析与资源分配方法及系统 | |
Ribeiro et al. | A data integration architecture for smart cities | |
CN114757448B (zh) | 一种基于数据空间模型的制造环节间最优价值链构建方法 | |
CN112559490B (zh) | 一种数据分层汇总设计方法及数据自动分层汇总方法 | |
CN112560213B (zh) | 基于模型系统工程和超网络理论的体系建模方法及系统 | |
CN114969188A (zh) | 一种流域边缘端多源异构生态环境大数据集成方法及系统 | |
CN113609631A (zh) | 基于事件网络拓扑图的创建方法、装置及电子设备 | |
CN110197305B (zh) | 一种基于最短路径算法的继电保护数据模型搜索优化方法及系统 | |
CN117271480B (zh) | 数据处理方法、装置、电子设备及介质 | |
Li et al. | Adaptive Spatial-Temporal Convolution Network for Traffic Forecasting | |
CN117808003A (zh) | 一种面向物联网元数据的语义推理模型构建及优化方法 | |
Liu | Intelligent Community Management System Based on Big Data Technology |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |