CN116483810A - 一种基于公安大数据处理技术指南的数据治理方法 - Google Patents

一种基于公安大数据处理技术指南的数据治理方法 Download PDF

Info

Publication number
CN116483810A
CN116483810A CN202210909013.5A CN202210909013A CN116483810A CN 116483810 A CN116483810 A CN 116483810A CN 202210909013 A CN202210909013 A CN 202210909013A CN 116483810 A CN116483810 A CN 116483810A
Authority
CN
China
Prior art keywords
data
library
time
management
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210909013.5A
Other languages
English (en)
Inventor
王东洁
方青
莫申林
孙晓伟
叶能锋
李凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuang Electronics Co ltd
Original Assignee
Sichuang Electronics Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuang Electronics Co ltd filed Critical Sichuang Electronics Co ltd
Priority to CN202210909013.5A priority Critical patent/CN116483810A/zh
Publication of CN116483810A publication Critical patent/CN116483810A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2291User-Defined Types; Storage management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Tourism & Hospitality (AREA)
  • Development Economics (AREA)
  • Software Systems (AREA)
  • Educational Administration (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于公安大数据处理技术指南的数据治理方法,涉及智慧公安大数据处理技术领域,分析已有的公安各警种和委办局业务数据、传感器数据、人工采集数据等数据源,将业务系统的数据接入到数据资源池,注册数据源并对其管理、元数据接入、接入任务及其管理。然后对数据进行清洗,对清洗后的数据成果,分原始库、资源库、主题库、专题库、标签库等进行存储,并为上层应用提供数据支撑;满足用户数据按需汇聚、统一存储、统一管理、统一维护的需求,有效的解决了用户各类数据逻辑孤岛难题。

Description

一种基于公安大数据处理技术指南的数据治理方法
技术领域
本发明属于公安大数据处理领域,涉及大数据处理技术,具体是一种基于公安大数据处理技术指南的数据治理方法。
背景技术
近年来,公安大数据战略不断升级,大数据应用在侦查打击、管理防范等领域持续井喷,已经成为公安部门不可或缺的实战利器。不过,公安大数据应用发展至今,数据壁垒导致的“信息孤岛”现象仍然存在,目前,公安信息网、视频专网、政务外网、社会资源整合网、互联网等多种网络之间仍然存在数据融合和开放能力不足、数据和应用耦合度高等问题;
首先是公安信息化建设中产生了大量结构化、非结构化、半结构化的数据资源,但现有公安系统往往只能就结构化数据进行简单应用,多数非结构化和半结构化数据没有发挥作用;
其次,各地方公安数据库建设情况不同,且多数只停留在标准库和原始库层次,数据之间缺乏有价值的关联;
最后,大部分地区只有少数警种在开展智能化应用探索,目前尚未形成全警种的智能应用网络,导致预测、预警、预防能力普遍偏低;已有的智能应用大多也存在无效预警过多、更新慢、没有因地制宜等缺陷;
为此,提出一种基于公安大数据处理技术指南的数据治理方法。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明提出一种基于公安大数据处理技术指南的数据治理方法,该一种基于公安大数据处理技术指南的数据治理方法分析已有的公安各警种和委办局业务数据、传感器数据、人工采集数据等数据源,将业务系统的数据接入到数据资源池,注册数据源并对其管理、元数据接入、接入任务及其管理;然后对数据进行清洗,对清洗后的数据成果,分原始库、资源库、主题库、专题库、标签库等进行存储,并为上层应用提供数据支撑;满足用户数据按需汇聚、统一存储、统一管理、统一维护的需求,有效的解决了用户各类数据逻辑孤岛难题;
为实现上述目的,根据本发明的第一方面的实施例提出一种基于公安大数据处理技术指南的数据治理方法,包括以下步骤:
步骤一:数据接入:通过Kafka消息队列将原始感知数据、名单数据、设备数据以及智能分析数据接入数据资源池;通过ETL工具将业务数据接入到数据资源池;通过人工将人工采集数据接入到数据资源池;
步骤二:数据清洗:对原始感知数据进行数据治理;对数据资源池中的数据进行数据过滤,实现冗余垃圾信息的滤除;以相似性为基础对数据资源池中的目标进行聚类;以及对数据资源池中的数据进行标准化、数据血缘追踪以及构造数据地图;并对数据资源池中的数据进行校验以及进行数据更新检测和数据异常检测;
步骤三:数据存储:将数据资源池内的数据根据不同数据间的关系,保存至各个数据库中;数据库包括原始库、资源库、主题库、知识库、专题库、标签库以及业务要素索引库;
步骤四:数据服务:提供数据订阅以及数据接口服务;
步骤五:数据应用:使用保存的各个数据库实现综合分析应用、积分模型以及数据应用的功能;
其中,所述原始感知数据为通过人脸、人体以及车辆等传感器获取的人脸、人体以及车辆数据,
其中,所述名单数据为通过名单管理组件获取到的应用平台下发的名单数据;
其中,所述设备数据为系统支持通过联网共享组件获取的监控点点位信息及状态信息,为后续监控点治理提供数据输入源;
其中,所述智能分析数据为将原始感知数据经过结构化、建模以及对比后的智能分析数据;
其中,所述业务数据包括各类业务关联的数据;系统通过ETL工具将业务系统的数据接入到数据资源池;具体功能包括:数据源注册与管理、元数据接入、接入任务及管理三个功能;
功能S1:数据源注册与管理;用户可对已完成注册的数据源进行管理,包括查看已注册的数据源列表,对数据源的汇聚任务进行启用/停止等操作;
功能S2:元数据接入;将数据源中的元数据接入到本数据池中,便于数据接入人员理解数据源的数据表结构和字段;
功能S3:接入任务及管理;在数据接入时,可采取单次执行、周期执行、定时执行和立即执行等多种任务类型,并且对数据同步任务进行调度和监控,以及异常任务告警和任务记录查询;
其中,同步任务可采用多种同步策略,包括一次性同步以及周期性同步;
其中,所述数据治理中对原始感知数据进行数据治理的范围包括:
一、人员数据:人脸特征库、人体特征库、人员轨迹库以及人员特定名单库;
二、车辆数据:车辆特征库、车辆轨迹库以及布控车辆库;
三、设备数据:监控点库、多维人像采集终端库以及卡口抓拍机库;
四、视频数据:实时和历史视频流,视频数据密度,抓拍数据量异常;
其中,设备数据治理的措施包括基础属性治理、经纬度治理、时差检测标定治理以及视频数据治理;
其中,所述基础属性治理为对监控点基本信息中的别名、场所类型、室内外、安装地址、关联地名、所属行政区划以及能力集按实际情况治理和修正;
其中,所述经纬度治理通过地图远程标定、现场勘察(或安装照片信息)实现监控点治理工具的空间信息治理功能,人工对经纬度进行治理;
其中,时差检测和标定通过监控点时间差管理工具对监控点的时间差进行检测;
其中,视频数据治理措施包括实时和历史视频流地址获取、视频数据密度以及抓拍数据量异常;
其中,实时和历史视频流地址获取为根据监控点信息和时间段信息,从联网共享平台或xres组件获取监控点实时或历史视频流的取流地址;
其中,视频数据密度为调用图像识别技术,在视频结构化任务发起后,每分钟统计一次产生的目标数量;域管通过接口获取当前监控点最近一段时间检测到的目标数量,用于评判监控点当前待检测目标是否超过检测阈值,并根据需要切换解析算法,保证能识别更多视频中的目标;
其中,所述抓拍数据量异常为通过监控点治理工具,根据抓拍数据量情况来分析监控点的异常情况;
其中,数据清洗中的对数据进行数据过滤包括基于数据标准和过滤规则,对不符合标准及规则的数据过滤;基于样本和内容分析,对冗余或垃圾信息进行辨别、分离和过滤;
其中,数据清洗中的对目标进行聚类可以为前端相机抓拍的人脸照片中,存在着大量的身份重复的人员;通过采用聚类模型,以人脸比对算法为基础,分析相似度达到一定阈值的抓拍照片,将相似的人脸抓拍照片聚类到一个档案中形成人员档案,实现对抓拍图片数据的聚类分组功能;根据人员档案,进一步获取更多的人员技战法,包括分析同行人、同乘人、关联车辆信息、落脚点、活跃时段、人员轨迹查询等功能;
其中数据清洗中的数据进行标准化为将数据资源池中的数据标准使用规范的代码翻译、标准的字段管理以及标准数据字段格式进行统一;
其中数据清洗中的数据血缘为实时跟踪数据资源池中的数据的演化过程,记录每项数据的真实来源;
其中数据清洗中的数据地图为通过汇集国家标准、部级标准、省级标准、行业规范或私有协议中元数据结构;并将所有来自数据源数据库和目标数据库的元数据结构信息,以树状列表方式显示,且在列表中展示每项数据所使用的标准或规范;
其中数据清洗中的对数据进行校验为使用结构化以及非结构化校验的方式对数据进行校验,符合标准的数据直接入库,不符合标准的数据可进入问题数据库以便进一步分析处理;所述结构化校验包括完全匹配、模糊匹配、范围匹配以及正则匹配;所述非结构化校验为通过将目标与非结构化数据进行对比校验;
其中,数据清洗中的数据更新检测包括数据监测、采集监控、数据监控以及任务状态评估;
其中,数据监测为对数据总量、种类、每日更新情况的监测以及数据异常的发现和告警;
其中,采集监控是针对各数据源端服务器的监控,监控到服务器是否宕机以及服务是否可用,一旦发现服务异常可以立即发送报警信息;
其中,数据监控为对平台所发布的数据接口使用情况进行监控;
其中,任务状态评估为对整个数据融合相关的错误、警告、异常信息进行汇总评估;
其中,数据存储中原始库为接入数据资源池内的原始数据;且进一步的根据实际经验将原始数据划分为公安执法与执勤、互联网、电信网、物联网、视频网、行业专网、其他数据等;
其中,数据存储中的资源库为综合各类数据资源建立的关键要素以及关键要素之间关联、关系的公共数据集合;且资源库可进一步划分为要素关联库、要素关系库、要素重点行为库、要素重点内容库以及要素分布库;
其中,要素关联库存储统一主体不同要素之间关联的时空分布,记录关联建立的最早时间、最后时间、关联次数等信息;
其中,要素关系库存储不同主体间要素关系的时空分布,并记录关系的类型、建立关系的最早时间、最后时间、关系发生次数等信息;
其中,要素重点行为库存储各种要素在不同时空分布下的重点行为信息;
要素重点内容库存储各种要素在不同时空分布下发布的重点内容,并对内容进行抽象归纳标识,需记录内容的类型、内容最早发布时间、最近发布时间和发布次数;以支撑预警发现、舆情分析等工作;
要素分布库包括要素最后分布和要素分布变迁时序;用于记录各类关键要素时空分布记录信息;
其中,数据存储中的主题库为数据资源池的数据进行加工、分析、聚合形成主题数据的过程,按照特定标识汇聚数据资源池的全部数据,形成描绘目标对象最完整的数据集;
将采集同步的各类业务数据和非格式化数据通过二次抽取、优化整合、逻辑关联等方式,高效地生成透明、多维的数据集,将基础数据表整理成小而精的小表,将关联的数据整合为大而全的大表,按“人、车、案、地址、设备”为重点要素建设档案库;
其中,数据存储中的知识库主要包括基础标准库、基础算法模型库、规则库等;
其中,数据存储中的专题库主要包含两类,分别是根据警务业务数据进行整合的警务业务专题库以及结合物联感知数据整合的物联感知类专题库;
其中,物联感知类专题库主要依靠前端设备采集的人脸、人体、车辆等数据建设专题库;
其中,警务业务类专题库根据警务业务建设人员档案专题库、侵财人员专题库、同行人员库以及个人特定人员专题库;
其中,数据存储中的标签库是将数据进行加工、分析、挖掘形成标签数据的过程;
其中,数据存储中的业务要素索引库是对业务库的关键要素建立的全局索引;
其中,所述数据服务中的数据订阅针对实时性要求高的数据场景,需要将系统中治理后产生的新数据,如根据模型计算出的新标签、积分规则计算出的新数据等,通过消息队列的方式将数据实时推送给订阅方;
其中,数据接口服务是一种对外提供数据服务的方式,它通过设定数据源配置、数据源表配置等基础信息;
其中,所述数据应用中的综合分析应用是用各个数据存储模块中的数据库中的数据实现不同的分析应用;
其中,所述数据应用中的积分模型为根据数据存储模块中的各个数据库的数据相结合,按数据的类别构建不同的管控系统;
其中,数据应用的功能为通过视频专网数据治理和公安信息网数据治理之后形成的数据池以及各类主题、专题库,在此基础上形成的数据应用;具体的。
与现有技术相比,本发明的有益效果是:
本发明根据数据治理目标,分析已有的公安各警种和委办局业务数据、传感器数据、人工采集数据等数据源,将业务系统的数据接入到数据资源池,注册数据源并对其管理、元数据接入、接入任务及其管理。然后对数据进行清洗,清洗过程包括过滤和聚类,过滤的过程对信息进行辨别和分离,实现冗余及垃圾信息的滤除,然后根据数据标准进行数据校验,保证数据质量。对清洗后的数据成果,分原始库、资源库、主题库、专题库、标签库等进行存储,并为上层应用提供数据支撑。实现对数据资源进行标准统一、流程规范的数据加工,并按照公安大数据处理技术指南分类建库,满足用户数据按需汇聚、统一存储、统一管理、统一维护的需求,有效的解决了用户各类数据逻辑孤岛难题。
附图说明
图1为本发明的流程图。
具体实施方式
下面将结合实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
如图1所示,一种基于公安大数据处理技术指南的数据治理方法,包括以下步骤:
步骤一:数据接入:通过Kafka消息队列将原始感知数据、名单数据、设备数据以及智能分析数据接入数据资源池;通过ETL工具将业务数据接入到数据资源池;通过人工将人工采集数据接入到数据资源池;
步骤二:数据清洗:对原始感知数据进行数据治理;对数据资源池中的数据进行数据过滤,实现冗余垃圾信息的滤除;以相似性为基础对数据资源池中的目标进行聚类;以及对数据资源池中的数据进行标准化、数据血缘追踪以及构造数据地图;并对数据资源池中的数据进行校验以及进行数据更新检测和数据异常检测;
步骤三:数据存储:将数据资源池内的数据根据不同数据间的关系,保存至各个数据库中;数据库包括原始库、资源库、主题库、知识库、专题库、标签库以及业务要素索引库;
步骤四:数据服务:提供数据订阅以及数据接口服务;
步骤五:数据应用:使用保存的各个数据库实现综合分析应用、积分模型以及数据应用的功能;
其中,所述原始感知数据为通过人脸、人体以及车辆等传感器获取的人脸、人体以及车辆数据,
其中,所述名单数据为通过名单管理组件获取到的应用平台下发的名单数据,借助名单数据后续实现传感器数据身份信息确认、人员信息关联分析以及名单数据治理任务;
其中,所述设备数据为系统支持通过联网共享组件获取的监控点点位信息及状态信息,为后续监控点治理提供数据输入源;
其中,所述智能分析数据为将原始感知数据经过结构化、建模以及对比后的智能分析数据;
其中,所述业务数据包括各类业务关联的数据,包括科信、各警种数据、政务数据、应用结果数据以及运行日志数据等;系统通过ETL工具将业务系统的数据接入到数据资源池;在一个优选的实施例中,具体功能可以包括:数据源注册与管理、元数据接入、接入任务及管理三个功能;
功能S1:数据源注册与管理;数据源注册支持将外部数据源按照标准描述文件方式进行注册,注册信息包括基本信息、连接信息、访问信息、用户名、密码和数据库名等信息等;系统支持的数据源包括Oracle、MySQL、MSSQL、KingBase、Postgresql、Hbase、Kafka、TXT、HTTP、BCP等,实现跨行业、跨部门、跨系统、跨平台的数据统一接入;
用户可对已完成注册的数据源进行管理,包括查看已注册的数据源列表,对数据源的汇聚任务进行启用/停止等操作;
功能S2:元数据接入;在数据中,当数据源中部分数据,特别是业务系统由于业务逻辑复杂,数据库表的结构复杂、难懂,且缺少相关文档说明字段口径时,数据资源平台难以有效接入数据;将数据源中的元数据接入到本数据池中,便于数据接入人员理解数据源的数据表结构和字段;
功能S3:接入任务及管理;在数据接入时,可采取单次执行、周期执行、定时执行和立即执行等多种任务类型,并且对数据同步任务进行调度和监控,以及异常任务告警和任务记录查询;
其中,同步任务可采用多种同步策略,包括一次性同步以及周期性同步;
其中,所述人工采集数据包括一线人员在现场数据采集的CSV、XLS、XLSX、TXT等格式数据,系统通过自动匹配模板将该类零散数据上传到数据资源池;
其中,所述数据治理中对原始感知数据进行数据治理的范围包括:
一、人员数据:人脸特征库、人体特征库、人员轨迹库以及人员特定名单库;
二、车辆数据:车辆特征库、车辆轨迹库以及布控车辆库;
三、设备数据:监控点库、多维人像采集终端库以及卡口抓拍机库;
四、视频数据:实时和历史视频流,视频数据密度,抓拍数据量异常;
其中,设备数据治理的措施包括基础属性治理、经纬度治理、时差检测标定治理以及视频数据治理;
其中,所述基础属性治理为对监控点基本信息中的别名、场所类型、室内外、安装地址、关联地名、所属行政区划以及能力集按实际情况治理和修正;
其中,所述经纬度治理通过地图远程标定、现场勘察(或安装照片信息)实现监控点治理工具的空间信息治理功能,人工对经纬度进行治理;
其中,时差检测和标定通过监控点时间差管理工具对监控点的时间差进行检测;选取需要检测的设备并设置检测周期,通过工具按照规则将多次检测出的时间差进行计算,设定需要人工对多次检测出来的时间差结果进行比较并标定出当前设备的时间差;
其中,视频数据治理措施包括实时和历史视频流地址获取、视频数据密度以及抓拍数据量异常;
其中,实时和历史视频流地址获取为根据监控点信息和时间段信息,从联网共享平台或xres组件获取监控点实时或历史视频流的取流地址;
其中,视频数据密度为调用图像识别技术,在视频结构化任务发起后,每分钟统计一次产生的目标(人体、车辆)数量;域管通过接口获取当前监控点最近一段时间(比如最近10分钟)检测到的目标数量,用于评判监控点当前待检测目标是否超过检测阈值,并根据需要切换解析算法,保证能识别更多视频中的目标;
其中,所述抓拍数据量异常为通过监控点治理工具,根据抓拍数据量情况来分析监控点的异常情况;包括:上一日无数据、上一日数据量突降、上一周无数据、上两周无数据等;
其中,数据清洗中的对数据进行数据过滤包括基于数据标准和过滤规则,对不符合标准及规则的数据过滤;基于样本和内容分析,对冗余或垃圾信息进行辨别、分离和过滤;
其中,数据清洗中的对目标进行聚类可以为前端相机抓拍的人脸照片中,存在着大量的身份重复的人员;通过采用聚类模型,以人脸比对算法为基础,分析相似度达到一定阈值的抓拍照片,将相似的人脸抓拍照片聚类到一个档案中形成人员档案,实现对抓拍图片数据的聚类分组功能;根据人员档案,进一步获取更多的人员技战法,包括分析同行人、同乘人、关联车辆信息、落脚点、活跃时段、人员轨迹查询等功能;
其中数据清洗中的数据进行标准化为将数据资源池中的数据标准使用规范的代码翻译、标准的字段管理以及标准数据字段格式进行统一;
其中数据清洗中的数据血缘为实时跟踪数据资源池中的数据的演化过程,记录每项数据的真实来源;
其中数据清洗中的数据地图为通过汇集国家标准、部级标准、省级标准、行业规范或私有协议中元数据结构;并将所有来自数据源数据库和目标数据库的元数据结构信息,以树状列表方式显示,且在列表中展示每项数据所使用的标准或规范;
其中数据清洗中的对数据进行校验为使用结构化以及非结构化校验的方式对数据进行校验,符合标准的数据直接入库,不符合标准的数据可进入问题数据库以便进一步分析处理;所述结构化校验包括完全匹配、模糊匹配、范围匹配以及正则匹配;所述非结构化校验为通过将目标与非结构化数据进行对比校验;
其中,数据清洗中的数据更新检测包括数据监测、采集监控、数据监控以及任务状态评估;
其中,数据监测为对数据总量、种类、每日更新情况的监测以及数据异常的发现和告警;
其中,采集监控是针对各数据源端服务器的监控,监控到服务器是否宕机以及服务是否可用,一旦发现服务异常可以立即发送报警信息;
其中,数据监控为对平台所发布的数据接口使用情况进行监控;
其中,任务状态评估为对整个数据融合相关的错误、警告、异常信息进行汇总评估;
其中,数据存储中原始库为接入数据资源池内的原始数据;且进一步的根据实际经验将原始数据划分为公安执法与执勤、互联网、电信网、物联网、视频网、行业专网、其他数据等;
其中,数据存储中的资源库为综合各类数据资源建立的关键要素以及关键要素之间关联、关系的公共数据集合;所述关键要素可以为各种标识类属性,如公民身份号码、车牌号、手机号等;且资源库可进一步划分为要素关联库、要素关系库、要素重点行为库、要素重点内容库以及要素分布库;
其中,要素关联库存储统一主体不同要素之间关联的时空分布,记录关联建立的最早时间、最后时间、关联次数等信息;如证件号码与手机号、证件号码与生物特征、组织名称与银行卡号、证件号码与网络应用账号、车牌与音视频等;
其中,要素关系库存储不同主体间要素关系的时空分布,并记录关系的类型、建立关系的最早时间、最后时间、关系发生次数等信息;如地址关系、监护关系、通联关系、通话关系、好友关系、交易关系、寄递关系等;
其中,要素重点行为库存储各种要素在不同时空分布下的重点行为信息,并记录行为的类型、行为的最早发生时间、最近发生时间、发生次数;包括涉行政执法行为、社会管理行为、警务管理行为、社会服务行为、关注行为等;
要素重点内容库存储各种要素在不同时空分布下发布的重点内容,并对内容进行抽象归纳标识,需记录内容的类型、内容最早发布时间、最近发布时间和发布次数;以支撑预警发现、舆情分析等工作;包括经济金融安全、涉及特定对象、涉及特定对象行为、事故灾难、社会治安、涉及民生等;
要素分布库包括要素最后分布和要素分布变迁时序;用于记录各类关键要素时空分布记录信息,如出入境记录、特殊行为记录、网吧上网记录、旅店入住记录、网络账号上下线记录、出行记录等;
其中,数据存储中的主题库为数据资源池的数据进行加工、分析、聚合形成主题数据的过程,按照特定标识汇聚数据资源池的全部数据,形成描绘目标对象最完整的数据集;
将采集同步的各类业务数据和非格式化数据通过二次抽取、优化整合、逻辑关联等方式,高效地生成透明、多维的数据集,将基础数据表整理成小而精的小表,将关联的数据整合为大而全的大表,按“人、车、案、地址、设备”为重点要素建设档案库;
其中,数据存储中的知识库主要包括基础标准库、基础算法模型库、规则库等,如身份证号码等字段标准、人脸抓拍库模型、人体抓拍库模型、车辆抓拍库模型、车辆特征库模型、人车关系模型;
其中,数据存储中的专题库主要包含两类,分别是根据警务业务数据进行整合的警务业务专题库以及结合物联感知数据整合的物联感知类专题库;
其中,物联感知类专题库主要依靠前端设备采集的人脸、人体、车辆等数据建设人员轨迹专题库、人人关系专题库、人车关系专题库、车辆轨迹专题库、车辆关系专题库等专题库;
其中,警务业务类专题库根据警务业务建设人员档案专题库、侵财人员专题库、同行人员库以及个人特定人员专题库;
其中,数据存储中的标签库是将数据进行加工、分析、挖掘形成标签数据的过程;
其中,数据存储中的业务要素索引库是对业务库的关键要素建立的全局索引;
其中,所述数据服务中的数据订阅针对实时性要求高的数据场景,需要将系统中治理后产生的新数据,如根据模型计算出的新标签、积分规则计算出的新数据等,通过消息队列的方式将数据实时推送给订阅方;
其中,数据接口服务是一种对外提供数据服务的方式,它通过设定数据源配置、数据源表配置等基础信息,通过配置的方式实现标准的SOAP和REST方式接口调用访问;
其中,所述数据应用中的综合分析应用是用各个数据存储模块中的数据库中的数据实现不同的分析应用;具体的,可以为特定车辆查询、号牌查询、以图搜图、布控告警、人脸库应用、非法营运车辆数据、超限车辆数据、遮挡号牌等应用需求;
其中,所述数据应用中的积分模型为根据数据存储模块中的各个数据库的数据相结合,按数据的类别构建不同的管控系统;具体的,可以为缉毒禁毒系统、侵财分析研判系统以及特殊人群管控系统;
其中,数据应用的功能为通过视频专网数据治理和公安信息网数据治理之后形成的数据池以及各类主题、专题库,在此基础上形成的数据应用;具体的,可以为智能搜索、标签工厂服务、关系图谱服务、轨迹服务和轨迹分析服务。
以上实施例仅用以说明本发明的技术方法而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方法进行修改或等同替换,而不脱离本发明技术方法的精神和范围。

Claims (6)

1.一种基于公安大数据处理技术指南的数据治理方法,其特征在于,包括以下步骤:
步骤一:数据接入:通过Kafka消息队列将原始感知数据、名单数据、设备数据以及智能分析数据接入数据资源池;通过ETL工具将业务数据接入到数据资源池;通过人工将人工采集数据接入到数据资源池;
步骤二:数据清洗:对原始感知数据进行数据治理;对数据资源池中的数据进行数据过滤,实现冗余垃圾信息的滤除;以相似性为基础对数据资源池中的目标进行聚类;以及对数据资源池中的数据进行标准化、数据血缘追踪以及构造数据地图;并对数据资源池中的数据进行校验以及进行数据更新检测和数据异常检测;
步骤三:数据存储:将数据资源池内的数据根据不同数据间的关系,保存至各个数据库中;数据库包括原始库、资源库、主题库、知识库、专题库、标签库以及业务要素索引库;
步骤四:数据服务:提供数据订阅以及数据接口服务;
步骤五:数据应用:依托存储的各个数据库的结合应用实现综合分析应用、积分模型以及数据应用的功能。
2.根据权利要求1所述的一种基于公安大数据处理技术指南的数据治理方法,其特征在于,所述数据清洗步骤中对原始感知数据进行数据治理的范围包括设备数据以及视频数据;
其中,设备数据治理的措施包括基础属性治理、经纬度治理、时差检测标定治理以及视频数据治理;
其中,所述基础属性治理为对监控点基本信息中的别名、场所类型、室内外、安装地址、关联地名、所属行政区划以及能力集按实际情况治理和修正;
其中,所述经纬度治理通过地图远程标定、现场勘察实现监控点治理工具的空间信息治理功能,人工对经纬度进行治理;
其中,时差检测和标定通过监控点时间差管理工具对监控点的时间差进行检测;选取需要检测的设备并设置检测周期,通过工具按照规则将多次检测出的时间差进行计算,设定需要人工对多次检测出来的时间差结果进行比较并标定出当前设备的时间差;
其中,视频数据治理措施包括实时和历史视频流地址获取、视频数据密度以及抓拍数据量异常;
其中,实时和历史视频流地址获取为根据监控点信息和时间段信息,从联网共享平台或xres组件获取监控点实时或历史视频流的取流地址;
其中,视频数据密度为调用图像识别技术,在视频结构化任务发起后,每分钟统计一次产生的目标数量;域管通过接口获取当前监控点最近一段时间检测到的目标数量,用于评判监控点当前待检测目标是否超过检测阈值,并根据需要切换解析算法;
其中,所述抓拍数据量异常为通过监控点治理工具,根据抓拍数据量情况来分析监控点的异常情况。
3.根据权利要求1所述的一种基于公安大数据处理技术指南的数据治理方法,其特征在于,数据清洗步骤中的对目标进行聚类为前端相机抓拍的人脸照片中,存在着大量的身份重复的人员;通过采用聚类模型,以人脸比对算法为基础,分析相似度达到一定阈值的抓拍照片,将相似的人脸抓拍照片聚类到一个档案中形成人员档案,实现对抓拍图片数据的聚类分组功能;根据人员档案,进一步获取更多的人员技战法,包括分析同行人、同乘人、关联车辆信息、落脚点、活跃时段、人员轨迹查询功能。
4.根据权利要求1所述的一种基于公安大数据处理技术指南的数据治理方法,其特征在于,所述数据清洗步骤中的对数据进行校验为使用结构化以及非结构化校验的方式对数据进行校验,符合标准的数据直接入库,不符合标准的数据可进入问题数据库以便进一步分析处理;所述结构化校验包括完全匹配、模糊匹配、范围匹配以及正则匹配;所述非结构化校验为通过将目标与非结构化数据进行对比校验。
5.根据权利要求1所述的一种基于公安大数据处理技术指南的数据治理方法,其特征在于,所述数据存储中的资源库为综合各类数据资源建立的关键要素以及关键要素之间关联、关系的公共数据集合;且资源库进一步划分为要素关联库、要素关系库、要素重点行为库、要素重点内容库以及要素分布库;
其中,要素关联库存储统一主体不同要素之间关联的时空分布,记录关联建立的最早时间、最后时间、关联次数信息;
其中,要素关系库存储不同主体间要素关系的时空分布,并记录关系的类型、建立关系的最早时间、最后时间、关系发生次数信息;
其中,要素重点行为库存储各种要素在不同时空分布下的重点行为信息,并记录行为的类型、行为的最早发生时间、最近发生时间、发生次数;
要素重点内容库存储各种要素在不同时空分布下发布的重点内容,并对内容进行抽象归纳标识,需记录内容的类型、内容最早发布时间、最近发布时间和发布次数;以支撑预警发现、舆情分析工作;
要素分布库包括要素最后分布和要素分布变迁时序;用于记录各类关键要素时空分布记录信息。
6.根据权利要求1所述的一种基于公安大数据处理技术指南的数据治理方法,其特征在于,所述业务数据包括各类业务关联的数据,系统通过ETL工具将业务系统的数据接入到数据资源池;包括数据源注册与管理、元数据接入、接入任务及管理三个功能;
功能S1:数据源注册与管理;数据源注册支持将外部数据源按照标准描述文件方式进行注册;数据源包括Oracle、MySQL、MS SQL、KingBase、Postgresql、Hbase、Kafka、TXT、HTTP、BCP,实现跨行业、跨部门、跨系统、跨平台的数据统一接入;
用户对已完成注册的数据源进行管理,包括查看已注册的数据源列表,对数据源的汇聚任务进行启用/停止操作;
功能S2:元数据接入;将数据源中的元数据接入到本数据池中,便于数据接入人员理解数据源的数据表结构和字段;
功能S3:接入任务及管理;在数据接入时,采取单次执行、周期执行、定时执行和立即执行多种任务类型,并且对数据同步任务进行调度和监控,以及异常任务告警和任务记录查询。
CN202210909013.5A 2022-07-29 2022-07-29 一种基于公安大数据处理技术指南的数据治理方法 Pending CN116483810A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210909013.5A CN116483810A (zh) 2022-07-29 2022-07-29 一种基于公安大数据处理技术指南的数据治理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210909013.5A CN116483810A (zh) 2022-07-29 2022-07-29 一种基于公安大数据处理技术指南的数据治理方法

Publications (1)

Publication Number Publication Date
CN116483810A true CN116483810A (zh) 2023-07-25

Family

ID=87221960

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210909013.5A Pending CN116483810A (zh) 2022-07-29 2022-07-29 一种基于公安大数据处理技术指南的数据治理方法

Country Status (1)

Country Link
CN (1) CN116483810A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117235077A (zh) * 2023-11-15 2023-12-15 青岛民航凯亚系统集成有限公司 一种基于数据编织的机场智能化数据治理方法及系统
CN117236327A (zh) * 2023-10-17 2023-12-15 东亚银行(中国)有限公司 一种用于服务治理平台的自动映射方法和装置
CN117370325A (zh) * 2023-10-19 2024-01-09 杭州数亮科技股份有限公司 一种基于大数据采集分析的数据中台系统
CN118277372A (zh) * 2024-06-04 2024-07-02 烟台海颐软件股份有限公司 一种电力客户数据清洗治理方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117236327A (zh) * 2023-10-17 2023-12-15 东亚银行(中国)有限公司 一种用于服务治理平台的自动映射方法和装置
CN117370325A (zh) * 2023-10-19 2024-01-09 杭州数亮科技股份有限公司 一种基于大数据采集分析的数据中台系统
CN117370325B (zh) * 2023-10-19 2024-05-28 杭州数亮科技股份有限公司 一种基于大数据采集分析的数据中台系统
CN117235077A (zh) * 2023-11-15 2023-12-15 青岛民航凯亚系统集成有限公司 一种基于数据编织的机场智能化数据治理方法及系统
CN117235077B (zh) * 2023-11-15 2024-03-08 青岛民航凯亚系统集成有限公司 一种基于数据编织的机场智能化数据治理方法及系统
CN118277372A (zh) * 2024-06-04 2024-07-02 烟台海颐软件股份有限公司 一种电力客户数据清洗治理方法

Similar Documents

Publication Publication Date Title
US11929870B2 (en) Correlation engine for correlating sensory events
US20240250867A1 (en) Correlation engine for correlating sensory events
CN116483810A (zh) 一种基于公安大数据处理技术指南的数据治理方法
US7999847B2 (en) Audio-video tip analysis, storage, and alerting system for safety, security, and business productivity
US20150070506A1 (en) Event triggered location based participatory surveillance
CN110866642A (zh) 安全监控方法、装置、电子设备和计算机可读存储介质
EP3479270B1 (en) Incident response analytic maps
CN102905113A (zh) 一种基于图像识别技术的粮食仓库智能监控系统
CN113794819A (zh) 防疫场所智能管理方法、系统、装置和介质
CN110727805A (zh) 社区知识图谱构建方法及系统
CN115966313A (zh) 基于人脸识别的一体化管理平台
CN117273429A (zh) 事件监测方法、系统、电子设备及存储介质
CN115309938B (zh) 一种监管、执法大数据数据分析挖掘的方法和系统
CN111695065A (zh) 一种警务信息可视化系统、方法、装置及存储介质
CN111090816A (zh) 时空轨迹数据的管理方法和装置
CN110990748B (zh) 一种国别舆情数据采集与发布系统
CN117726486A (zh) 一种基于物联网的社区应用服务系统
CN118628316A (zh) 监狱数据管理平台及管理方法
CN117541165A (zh) 一种案宗综合管理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination