CN114048213A - 数据的审计方法及装置、计算机存储介质、电子设备 - Google Patents
数据的审计方法及装置、计算机存储介质、电子设备 Download PDFInfo
- Publication number
- CN114048213A CN114048213A CN202111355336.6A CN202111355336A CN114048213A CN 114048213 A CN114048213 A CN 114048213A CN 202111355336 A CN202111355336 A CN 202111355336A CN 114048213 A CN114048213 A CN 114048213A
- Authority
- CN
- China
- Prior art keywords
- data
- monitored
- monitoring
- real
- monitoring result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000003860 storage Methods 0.000 title claims abstract description 17
- 238000012544 monitoring process Methods 0.000 claims abstract description 228
- 238000004519 manufacturing process Methods 0.000 claims abstract description 47
- 238000012550 audit Methods 0.000 claims abstract description 20
- 238000013507 mapping Methods 0.000 claims abstract description 11
- 238000001914 filtration Methods 0.000 claims description 41
- 238000012545 processing Methods 0.000 claims description 30
- 238000009826 distribution Methods 0.000 claims description 28
- 230000032683 aging Effects 0.000 claims description 16
- 238000012795 verification Methods 0.000 claims description 13
- 125000004122 cyclic group Chemical group 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 3
- 238000013024 troubleshooting Methods 0.000 abstract description 5
- 230000002159 abnormal effect Effects 0.000 description 18
- 238000010586 diagram Methods 0.000 description 4
- 230000005856 abnormality Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000003111 delayed effect Effects 0.000 description 2
- 230000002085 persistent effect Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 230000009365 direct transmission Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000009349 indirect transmission Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24552—Database cache management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24568—Data stream processing; Continuous queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Quality & Reliability (AREA)
- Debugging And Monitoring (AREA)
Abstract
本申请实施例提供了一种数据的审计方法及其装置、计算机存储介质、电子设备,数据的审计方法包括:对待监控数据进行实时监控,生成实时监控结果;对待监控数据进行离线监控,生成离线监控结果;根据实时监控结果和离线监控结果,生成生产数据索引,所述生产数据索引包括所述待监控数据分别与所述实时监控结果和离线监控结果的映射关系;根据生产数据索引,生成针对待监控数据的审计结果,从而提供了一种数据审计的解决方案,直接基于生产索引生成审计结果,至少提高了审计结果的生成速度,降低了进行数据审计时的排查难度,提高了定位速度。
Description
技术领域
本申请涉及数据处理技术领域,具体涉及一种数据的审计方法及其装置、计算机存储介质、电子设备。
背景技术
基于大数据解决方案,通过对收集的源数据进行清洗分析、整理等一系列深度挖掘,进而提供数据综合查询或分类查询服务,比如查询企业相关的信息,包括投资情况、股东情况等。
但是,由于源数据的来源较为复杂,导致数据的生产链路错综复杂,带来的数据问题也日益增多,导致在进行数据审计时,审计结果的生成较慢,问题排查难以及定位慢等问题。
发明内容
本申请实施例提供一种数据的审计方法及其装置、计算机存储介质、电子设备,用以克服或者缓解现有技术中存在的上述技术问题。
本申请实施例提供如下技术方案:
一种数据的审计方法,其包括:
对待监控数据进行实时监控,生成实时监控结果;
对所述待监控数据进行离线监控,生成离线监控结果;
根据所述实时监控结果和所述离线监控结果,生成生产数据索引,所述生产数据索引包括所述待监控数据分别与所述实时监控结果和离线监控结果的映射关系;
根据所述生产数据索引,生成针对所述待监控数据的审计结果。
可选地,在一实施例中,所述待监控数据包括待监控线索数据、待监控源数据、待监控日志数据,所述待监控线索数据用于查询关联于目标对象的待监控源数据,所述待监控源数据用于生产关联于所述目标对象的待监控目标数据,所述待监控日志数据为所述生产的过程数据。
可选地,在一实施例中,所述方法还包括:
采集源监控线索数据,并根据工商公开的数据对所述源监控线索数据进行有效性验证;
根据通过所述有效性验证的源监控线索数据生成所述待监控线索数据。
可选地,在一实施例中,所述根据通过所述有效性验证的源监控线索数据生成所述待监控线索数据包括:根据为通过所述有效性验证的源监控线索数据配置的调用服务,生成所述待监控线索数据。
可选地,在一实施例中,所述方法还包括:
基于所述待监控线索数据,获取包括所述待监控源数据的原始数据;
对所述原始数据进行解析,以从中采集所述待监控源数据。
可选地,在一实施例中,所述对所述原始数据进行解析,以从中采集所述待监控源数据包括:对所述原始数据进行解析,以从中采集所述待监控源数据以及对应的索引信息。
可选地,在一实施例中,所述方法还包括:
获取源监控日志数据,并对所述源监控日志数据进行流式处理得到待监控日志数据。
可选地,在一实施例中,所述方法还包括:对所述待监控数据进行滤噪处理,去除掉其中的脏数据,以对滤噪处理后的所述待监控数据进行实时监控和离线监控。
可选地,在一实施例中,所述对所述待监控数据进行滤噪处理,去除掉其中的脏数据,包括:基于设置的过滤规则,对所述待监控数据进行滤噪处理,去除掉其中的脏数据,所述过滤规则包括对所述待监控数据中的非结构化数据进行过滤的第一过滤规则,以及对所述待监控数据中的无效数据进行过滤的第二过滤规则。
可选地,在一实施例中,所述对待监控数据进行实时监控,生成实时监控结果,包括:
实时监控所述待监控线索数据的来源分布,并对所述来源分布进行统计,以生成实时监控结果。
可选地,在一实施例中,所述对待监控数据进行实时监控,生成实时监控结果,包括:
判断所述待监控数据的调度任务是否实时连续,并统计超时未完成的调度任务,以生成实时监控结果。
可选地,在一实施例中,所述对所述待监控数据进行离线监控,生成离线监控结果,包括:缓存所述待监控数据,并对缓存的所述待监控数据进行定时循环监控,以生成离线监控结果。
可选地,在一实施例中,所述对所述待监控数据进行离线监控,生成离线监控结果,还包括:获取缓存的所述待监控数据的时效信息,以根据所述时效信息,生成离线监控结果。
可选地,在一实施例中,所述根据所述实时监控结果和所述离线监控结果,生成生产数据索引之后,包括:根据所述生产数据索引,生成知识图谱。
一种数据的审计装置,其包括:
第一监控单元,用于对待监控数据进行实时监控,生成实时监控结果;
第二监控单元,用于对所述待监控数据进行离线监控,生成离线监控结果;
索引单元,用于根据所述实时监控结果和所述离线监控结果,生成生产数据索引,所述待监控数据分别与所述实时监控结果和离线监控结果的映射关系;
审计单元,用于根据所述生产数据索引,生成针对所述待监控数据的审计结果;
其中,所述待监控数据包括待监控线索数据、待监控源数据、待监控日志数据,所述待监控线索数据用于查询关联于目标对象的待监控源数据,所述待监控源数据用于生产关联于所述目标对象的待监控目标数据,所述待监控日志数据为所述生产的过程数据。
一种计算机存储介质,所述计算机存储介质上存储有计算机可执行程序,所述计算机可执行程序被运行以实施本申请实施例任一所述的方法。
一种电子设备,所述电子设备包括存储器以及处理器,所述存储器上用于存储计算机可执行程序,所述处理器用于运行所述计算机可执行程序以实施本申请实施例任一所述的方法。
本申请实施例,对待监控数据进行实时监控,生成实时监控结果;对所述待监控数据进行离线监控,生成离线监控结果;根据所述实时监控结果和所述离线监控结果,生成生产数据索引,所述生产数据索引包括所述待监控数据分别与所述实时监控结果和离线监控结果的映射关系;根据所述生产数据索引,生成针对所述待监控数据的审计结果,从而提供了一种数据审计的解决方案,直接基于生产索引生成审计结果,至少提高了审计结果的生成速度,降低了进行数据审计时的排查难度,提高了定位速度。
附图说明
图1为本申请实施例的应用场景示意图;
图2为本申请实施例一种数据的审计方法的流程示意图;
图3为本申请实施例一种数据的审计方法的流程示意图;
图4为本申请实施例一种数据的审计装置的结构示意图;
图5为本申请实施例电子设备的结构示意图。
具体实施方式
为使本申请要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
本申请实施例,对待监控数据进行实时监控,生成实时监控结果;对所述待监控数据进行离线监控,生成离线监控结果;根据所述实时监控结果和所述离线监控结果,生成生产数据索引,所述生产数据索引包括所述待监控数据分别与所述实时监控结果和离线监控结果的映射关系;根据所述生产数据索引,生成针对所述待监控数据的审计结果,从而提供了一种数据审计的解决方案,直接基于生产索引生成审计结果,至少提高了审计结果的生成速度,降低了进行数据审计时的排查难度,提高了定位速度。
图1为本申请实施例的应用场景示意图;如图1所示,该应用场景针对一数据处理系统,该数据处理系统包括终端设备101、数据处理服务器102,数据处理服务器102可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备101可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端设备101以及上述数据处理服务器102可以通过无线通信方式(如网络)进行直接或间接地连接,本申请在此不做限制。
数据处理服务器102上存储有各种结构化数据,终端设备101上安装有可可与数据处理服务器102进行交互的应用程序,当用户使用所述应用程序进行有关于自然人或者法人的数据查询时,所述数据处理服务器102对响应该数据查询,并将查询到的结构化数据传输(此处包括直接传输或者间接传输)给所述应用程序以通过终端设备101展示给用户。间接传输比如将结构化数据缓存在中间数据库上,传输给所述应用程序的结构化数据是从该中间数据库中获取到的。
以下实施例中,设置了审计服务器,该审计服务器用于执行下述的审计方法,在具体应用时,所述审计服务器和所述数据处理服务器可以在物理上位于同一服务器,但在逻辑上相互独立。当然,在其他应用场景中,也可以由上述数据处理服务器来执行下述的审计方法。
图2为本申请实施例一种数据的审计方法的流程示意图;本实施例中,执行主体可以为专用于执行所述审计方法的审计服务器,如图2所示,其包括:
S201、对待监控数据进行实时监控,生成实时监控结果;
本实施例中,所述待监控数据包括待监控线索数据、待监控源数据、待监控日志数据,所述待监控线索数据用于查询关联于目标对象的待监控源数据,所述待监控源数据用于生产关联于所述目标对象的待监控目标数据,所述待监控日志数据为所述生产的过程数据,所述目标对象包括自然人或者法人或者社会团体。
此处,需要说明的是,所述待监控数据包括待监控线索数据、待监控源数据、待监控日志数据仅仅示例,并非唯一性限定,本领域普通技术人员可以根据应用场景的不同灵活选择即可。
具体地,本实施例中,所述对待监控数据进行实时监控,生成实时监控结果,包括:实时监控所述待监控线索数据的来源分布,并对所述来源分布进行统计,以生成实时监控结果。
比如,在一具体应用场景中,扫描待监控线索数据,统计出高频的待监控线索数据来源分布以及低频的待监控线索数据来源的分布,以生成实时监控结果。
具体地,所述对待监控数据进行实时监控,生成实时监控结果,还可以包括:判断所述待监控数据的调度任务是否实时连续,并统计超时未完成的调度任务,以生成实时监控结果。
通过判断所述待监控数据的调度任务是否实时连续,从而调度任务从启动到结束是否连续,通过统计超时未完成的调度任务,可以生成针对超时未完成的调度任务的报警信息,便于进行问题的预排查和预定位,从而整体上降低了进行数据审计时的排查难度,提高了定位速度。
本实施例中,针对所述待监控数据中不能进行延迟处理的数据进行实时监控,通过实时监控生成实时监控结果,从而及时对不符合预期的情况进行统计从而生成统计结果,便于后续进行处理,比如报警、维护等。
具体地,对于待监控线索数据,不符合预期的情况可以包括如下情形中的至少其一:
(1)高频有效线索的来源分布值相对于预先设定的高频来源分布值阈值的偏移量超过设定的高频来源偏移范围;
(2)低频有效线索的来源分布值相对于预先设定的低频分布值阈值的偏移量超过设定的低频来源偏移范围;
可选地,所述高频来源分布值阈值、高频来源偏移范围、低频分布值阈值、低频来源偏移范围可以根据应用场景的需求灵活设置。
具体地,扫描待监控线索数据,统计出高频的待监控线索数据来源分布以及低频的待监控线索数据来源的分布,以生成实时监控结果,包括:
通过扫描待监控线索数据,统计高频的待监控线索数据来源分布以及低频的待监控线索数据来源的分布分别得到高频有效线索的来源分布值、低频有效线索的来源分布值;将高频有效线索的来源分布值、低频有效线索的来源分布值分别与高频来源分布值阈值、低频分布值阈值进行比对,以判断是否分别超过设定的高频来源偏移范围、设定的低频来源偏移范围,以生成针对所述待监控源数据中所述待监控线索数据的实时监控结果。
对于待监控源数据,实时监控结果可以包括待监控源数据不符合预期的情况,具体包括如下情形中至少其一:
(1)未接收到待监控源数据的汇报信息;
(2)接收到了待监控源数据的异常反馈,比如文件存储异常、文件解析异常的反馈。
具体地,本实施例中,所述对待监控数据进行实时监控,生成实时监控结果,包括:实时监控所述待监控源数据的汇报信息和/或异常反馈,以生成实时监控结果。
比如,所述实时监控结果中记录有:在设定的源数据监控时间内,通过实时监控确定出未接收到待监控源数据的汇报信息;或者,记录有:接收到待监控源数据的异常反馈。
具体地,在一应用场景中,可以设置以定时器,通过该定时器来设定所述源数据监控时间。
对于待监控日志数据,实时监控结果可以包括待监控日志数据不符合预期的情况,具体可以包括如下情形中至少其一:
(1)待监控日志数据的异常类别占比超过设定的异常类比占比阈值。
(2)未收到待监控日志数据的汇报信息。
具体地,本实施例中,所述对待监控数据进行实时监控,生成实时监控结果,包括:实时监控所述待监控日志数据的异常类别和/或汇报信息,以生成针对所述待监控源数据中所述待监控日志数据的实时监控结果。
具体地,本实施例中,所述实时监控所述待监控日志数据的异常类别,以生成实时监控结果,包括:
在设定的日志数据监控时间内,实时监控所述待监控日志数据的异常类别,以统计出异常日志数据在该日志数据监控时间内所有待监控日志数据中的的日志数据异常占比;
将所述日志数据异常占比与设定的日志数据异常占比阈值进行比对,以判断所述日志数据异常占比超过日志数据异常占比阈值,以生成针对所述待监控日志数据的实时监控结果。
具体地,本实施例中,实时监控所述待监控日志数据的汇报信息,以生成实时监控结果:
在设定的日志数据监控时间内,判断是否收到待监控日志数据的汇报信息以及判断收到的汇报信息的汇报信息数量是否达到设定的汇报信息数量阈值,以生成针对所述待监控日志数据的实时监控结果。
具体地,在一实施例中,可以设置定时器来定义上述日志数据监控时间;设置计数器来统计上述汇报信息数量。
S202、对所述待监控数据进行离线监控,生成离线监控结果;
本实施例中,针对所述待监控数据需要延迟处理的数据进行离线监控。
本实施例中,所述离线监控结果可以类似上述针对在线监控的离线监控结果,在此不再赘述。
本实施例中,比如根据离线监控结果,可以判断离线监控的待监控数据的时效信息是否正常,比如是否在设定的时间阈值范围内,如果在所述时间阈值范围内,则判定所述离线监控的待监控数据正常,否则,则判定所述离线监控的待监控数据异常,比如再进一步生成报警信息。
S203、根据所述实时监控结果和所述离线监控结果,生成生产数据索引;
本实施例中,所述生产数据索引包括所述待监控数据分别与所述实时监控结果和离线监控结果的映射关系,具体地,比如所述待监控数据与所述实时监控结果的映射关系,所述待监控数据与所述离线监控结果的映射关系,以记录那些待监控数据出现了那些不符合预期的情况,以及具体不符合预期情况的内容。
S204、根据所述生产数据索引,生成针对所述待监控数据的审计结果。
本实施例中,由于生产数据索引准确地记录有从源数据到生产出目标数据的过程中的中间环节的数据,因此,从而直接依据该生产数据索引快速地生成了审计结果,所述审计结果至少包括所述待监控数据的异常类别和对应的异常明细,同时,当要进行问题排查时,基于对应的生产数据索引,可以快速的完成问题的排查和定位。
本实施例中,根据所述生产数据索引,生成针对所述待监控数据的审计结果时,对所述生产数据索引中记录的所述实时监控结果和离线监控结果进行聚类分析,确定出所述待监控数据的异常类别和对应的异常明细,比如对于待监控源数据,包括汇报异常和处理异常,处理异常的明细包括文件存储异常、文件解析异常,汇报异常的明细包括:未接收到待监控源数据汇报的次数等。类似地,对于待监控日志数据,包括:占比异常以及汇报异常,占比异常的明细包括:异常占比的区间范围等,汇报异常的明细包括:未接收到待监控日志数据汇报的总次数和总数量等。
图3为本申请实施例一种数据的审计方法的流程示意图;如图3所示,其包括:
S301、采集待监控数据;
具体地,步骤S301可以包括:
S311、采集待监控线索数据;
S321、采集待监控源数据;
S331、采集待监控日志数据;
具体地,S311中采集待监控线索数据可以包括如下步骤:
S3111、采集源监控线索数据,并根据工商公开的数据对所述源监控线索数据进行有效性验证;
S3112、根据通过所述有效性验证的源监控线索数据生成所述待监控线索数据。
具体地,采集源监控线索数据时,可以通过抓取公开数据、研究企业注册规则、新闻舆情等渠道获取到新成立的企业线索信息,从中采集到源监控线索数据。
基于上述步骤S3111-S3112的处理,从而保证了准确的待监控线索数据。
进一步地,S3112中根据通过所述有效性验证的源监控线索数据生成所述待监控线索数据包括:根据为通过所述有效性验证的源监控线索数据配置的调用服务,生成所述待监控线索数据。
通过上述配置调用服务,从而保证了后续对所述待监控线索数据进行查询。
具体地,所述调用服务可以为基于WEB调用服务,从而保障了查询时的效率。
具体地,本实施例中,步骤S321中采集待监控源数据时,可以包括:
S3211、基于所述待监控线索数据,获取包括所述待监控源数据的原始数据;
S3212、对所述原始数据进行解析,以从中采集所述待监控源数据。
具体地,本实施例中,步骤S3212中对所述原始数据进行解析,以从中采集所述待监控源数据包括:对所述原始数据进行解析,以从中采集所述待监控源数据以及对应的索引信息。
具体地,采集到的原始数据可以存储在分布式文件存储的数据库(如MongoDB)中,在保存一定时效后,放入oss进行归档存储。所述原始数据可以为html\json等数据。采集到的所述待监控源数据也可以存储在MongoDB中,同时,也可以将待监控源数据的索引信息存储在云服务器中,比如对象存储(Object Storage Service,简称OSS)云服务器中,从而便于后续进行待监控源数据的查询。
具体地,本实施例中,步骤S331中采集待监控日志数据时,可以包括:
S3311、获取源监控日志数据;
S3312、对所述源监控日志数据进行流式处理得到待监控日志数据。
具体地,可以通过分布式日志采集系统(如filebeat、logstash等)获取源监控日志数据,并将采集到的源监控日志数据存储到流处理平台(如kafka),由该流处理平台通过flink流式处理后得到待监控日志数据,从而便于对待监控日志数据进行监控。所述源监控日志数据具体可以暂存在物理磁盘上。
当然,在一实施例中,也可以对待监控目标数据进行监控,比如具体包括:
从待监控目标数据的MySQL和表格存储数据库(如tablestore)去采集待监控目标数据,并给采集到的待监控目标数据配置api查询接口,从而保证了待监控目标数据的准确性,同时便于进行查询。
本实施例中,采集到的待监控目标数据以持久化存储的方式进行保存,比如持久化存储在物理磁盘中。
进一步地,在采集到待监控数据后以及执行上述实时监控和离线监控之前,对采集到的所述待监控数据进行滤噪处理,去除掉其中的脏数据。
具体地,所述对所述待监控数据进行滤噪处理,去除掉其中的脏数据,包括:基于设置的过滤规则,对所述待监控数据进行滤噪处理,去除掉其中的脏数据,所述过滤规则包括对所述待监控数据中的非结构化数据进行过滤的第一过滤规则,以及对所述待监控数据中的无效数据进行过滤的第二过滤规则。
比如,在一应用场景中,基于上述第一过滤规则,过滤掉待监控线索数据、待监控源数据中非必要的结构化数据,比如与法人属性数据无关的请求信息,前置请求等。基于第二过滤规则,过滤掉待监控日志数据中效用指标低于Info级别的无效数据,以及其他非标准格式的无效数据。
S302、对采集的待监控数据进行实时监控,生成实时监控结果;
S303、对所述待监控数据进行离线监控,生成离线监控结果;
本实施例中,所述对所述待监控数据进行离线监控,生成离线监控结果,包括:缓存所述待监控数据,并对缓存的所述待监控数据进行定时循环监控,以生成离线监控结果。
进一步地,所述对所述待监控数据进行离线监控,生成离线监控结果,还包括:获取缓存的所述待监控数据的时效信息,以根据所述时效信息,生成离线监控结果。
比如,在一具体应用场景中,设置一个中间缓冲层,将所述待监控数据从监控服务器缓存到缓冲层,从而提高大量用户访问时的响应能力,如果有缓存则取缓存数据不必每次都去数据库获取,也减轻监控服务器的压力。
进一步地,考虑到由于更新不及时等原因,导致缓存的不一致的问题,因此,通过对缓存的所述待监控数据进行定时循环监控,实现对缓存的所述待监控数据进行抽检,获取当前缓存的待监控数据的时效信息,以根据所述时效信息,生成离线监控结果。比如,如果时效信息记录的时效超过设定的时效阈值(比如10分钟),则生成报警信息,以便于启动所述待监控数据从监控服务器到缓冲层的同步更新。
进一步地,为此,上述对所述待监控数据进行实时监控和离线监控时,基于滤噪处理后的所述待监控数据进行实时监控和离线监控,从而保证了监控结果的准确性。
进一步地,本实施例中,S302中对采集的待监控数据进行实时监控时,还可以对采集到的待监控数据进行异常数据量和成功率的统计,生成实时监控结果。其中,当异常数据量过多或者成功率低于同期平均水平时,生成对应的报警信息,便于进行问题的预排查和预定位。
S304、根据所述实时监控结果和所述离线监控结果,生成生产数据索引;
S305、根据所述生产数据索引,生成针对所述待监控数据的审计结果。
步骤S304-S305可参见上述实施例,在此不再赘述。
在上述任一实施例的基础上,在根据所述实时监控结果和所述离线监控结果,生成生产数据索引之后,包括:根据所述生产数据索引,生成知识图谱,从而基于该知识图谱搭建基于atlassian和飞书实时协作文档,将源数据生产为目标数据的生产链路的各个环节进行不断的梳理和补充。
图4为本申请实施例一种数据的审计装置的结构示意图;如图4所示,其包括:
第一监控单元401,用于对待监控数据进行实时监控,生成实时监控结果;
第二监控单元402,用于对所述待监控数据进行离线监控,生成离线监控结果;
索引单元403,用于根据所述实时监控结果和所述离线监控结果,生成生产数据索引,所述生产数据索引包括所述待监控数据分别与所述实时监控结果和离线监控结果的映射关系;
审计单元404,用于根据所述生产数据索引,生成针对所述待监控数据的审计结果;
可选地,一实施例中,所述待监控数据包括待监控线索数据、待监控源数据、待监控日志数据,所述待监控线索数据用于查询关联于目标对象的待监控源数据,所述待监控源数据用于生产关联于所述目标对象的待监控目标数据,所述待监控日志数据为所述生产的过程数据,所述目标对象包括自然人或者法人或者社会团体。
可选地,一实施例中,所述装置还包括:采集单元,用于采集源监控线索数据,并根据工商公开的数据对所述源监控线索数据进行有效性验证;并根据通过所述有效性验证的源监控线索数据生成所述待监控线索数据。
可选地,一实施例中,所述采集单元具体用于:根据为通过所述有效性验证的源监控线索数据配置的调用服务,生成所述待监控线索数据。
可选地,一实施例中,所述采集单元还用于:
基于所述待监控线索数据,获取包括所述待监控源数据的原始数据;
对所述原始数据进行解析,以从中采集所述待监控源数据。
可选地,一实施例中,所述采集单元还具体用于:
对所述原始数据进行解析,以从中采集所述待监控源数据以及对应的索引信息。
可选地,一实施例中,所述采集单元还用于:
获取源监控日志数据,并对所述源监控日志数据进行流式处理得到待监控日志数据。
可选地,一实施例中,所述装置还包括预处理单元,用于对所述待监控数据进行滤噪处理,去除掉其中的脏数据,以对滤噪处理后的所述待监控数据进行实时监控和离线监控。
可选地,一实施例中,所述装置还包括预处理单元具体用于基于设置的过滤规则,对所述待监控数据进行滤噪处理,去除掉其中的脏数据,所述过滤规则包括对所述待监控数据中的非结构化数据进行过滤的第一过滤规则,以及对所述待监控数据中的无效数据进行过滤的第二过滤规则。
可选地,一实施例中,所述第一监控单元401具体用于:
实时监控所述待监控线索数据的来源分布,并对所述来源分布进行统计,以生成实时监控结果。
可选地,一实施例中,所述第一监控单元401具体用于:
判断所述待监控数据的调度任务是否实时连续,并统计超时未完成的调度任务,以生成实时监控结果。
可选地,一实施例中,所述第二监控单元402具体用于:缓存所述待监控数据,并对缓存的所述待监控数据进行定时循环监控,以生成离线监控结果。
可选地,一实施例中,所述第二监控单元402还用于:获取缓存的所述待监控数据的时效信息,以根据所述时效信息,生成离线监控结果。
可选地,一实施例中,所述装置还包括图谱生成单元,用于在根据所述实时监控结果和所述离线监控结果,生成生产数据索引之后,根据所述生产数据索引,生成知识图谱。
本申请实施例还提供一种计算机存储介质,所述计算机存储介质上存储有计算机可执行程序,所述计算机可执行程序被运行以实施本申请任一实施例所述的方法。
图5为本申请实施例电子设备的结构示意图;如图5所示,所述电子设备包括存储器501以及处理器502,所述存储器上用于存储计算机可执行程序,所述处理器用于运行所述计算机可执行程序以实施本申请实施例任一项所述的方法。
以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
Claims (17)
1.一种数据的审计方法,其特征在于,包括:
对待监控数据进行实时监控,生成实时监控结果;
对所述待监控数据进行离线监控,生成离线监控结果;
根据所述实时监控结果和所述离线监控结果,生成生产数据索引,所述生产数据索引包括所述待监控数据分别与所述实时监控结果和离线监控结果的映射关系;
根据所述生产数据索引,生成针对所述待监控数据的审计结果。
2.根据权利要求1所述的方法,其特征在于,所述待监控数据包括待监控线索数据、待监控源数据、待监控日志数据,所述待监控线索数据用于查询关联于目标对象的待监控源数据,所述待监控源数据用于生产关联于所述目标对象的待监控目标数据,所述待监控日志数据为所述生产的过程数据。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
采集源监控线索数据,并根据工商公开的数据对所述源监控线索数据进行有效性验证;
根据通过所述有效性验证的源监控线索数据生成所述待监控线索数据。
4.根据权利要求3所述的方法,其特征在于,所述根据通过所述有效性验证的源监控线索数据生成所述待监控线索数据包括:根据为通过所述有效性验证的源监控线索数据配置的调用服务,生成所述待监控线索数据。
5.根据权利要求2所述的方法,其特征在于,所述方法还包括:
基于所述待监控线索数据,获取包括所述待监控源数据的原始数据;
对所述原始数据进行解析,以从中采集所述待监控源数据。
6.根据权利要求5所述的方法,其特征在于,所述对所述原始数据进行解析,以从中采集所述待监控源数据包括:对所述原始数据进行解析,以从中采集所述待监控源数据以及对应的索引信息。
7.根据权利要求2所述的方法,其特征在于,所述方法还包括:
获取源监控日志数据,并对所述源监控日志数据进行流式处理得到待监控日志数据。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:对所述待监控数据进行滤噪处理,去除掉其中的脏数据,以对滤噪处理后的所述待监控数据进行实时监控和离线监控。
9.根据权利要求1所述的方法,其特征在于,所述对所述待监控数据进行滤噪处理,去除掉其中的脏数据,包括:基于设置的过滤规则,对所述待监控数据进行滤噪处理,去除掉其中的脏数据,所述过滤规则包括对所述待监控数据中的非结构化数据进行过滤的第一过滤规则,以及对所述待监控数据中的无效数据进行过滤的第二过滤规则。
10.根据权利要求2所述的方法,其特征在于,所述对待监控数据进行实时监控,生成实时监控结果,包括:
实时监控所述待监控线索数据的来源分布,并对所述来源分布进行统计,以生成实时监控结果。
11.根据权利要求1所述的方法,其特征在于,所述对待监控数据进行实时监控,生成实时监控结果,包括:
判断所述待监控数据的调度任务是否实时连续,并统计超时未完成的调度任务,以生成实时监控结果。
12.根据权利要求1所述的方法,其特征在于,所述对所述待监控数据进行离线监控,生成离线监控结果,包括:缓存所述待监控数据,并对缓存的所述待监控数据进行定时循环监控,以生成离线监控结果。
13.根据权利要求1所述的方法,其特征在于,所述对所述待监控数据进行离线监控,生成离线监控结果,还包括:获取缓存的所述待监控数据的时效信息,以根据所述时效信息,生成离线监控结果。
14.根据权利要求1所述的方法,其特征在于,所述根据所述实时监控结果和所述离线监控结果,生成生产数据索引之后,包括:根据所述生产数据索引,生成知识图谱。
15.一种数据的审计装置,其特征在于,包括:
第一监控单元,用于对待监控数据进行实时监控,生成实时监控结果;
第二监控单元,用于对所述待监控数据进行离线监控,生成离线监控结果;
索引单元,用于根据所述实时监控结果和所述离线监控结果,生成生产数据索引,所述生产数据索引包括所述待监控数据分别与所述实时监控结果和离线监控结果的映射关系;
审计单元,用于根据所述生产数据索引,生成针对所述待监控数据的审计结果。
16.一种计算机存储介质,其特征在于,所述计算机存储介质上存储有计算机可执行程序,所述计算机可执行程序被运行以实施权利要求1-14任一所述的方法。
17.一种电子设备,其特征在于,所述电子设备包括存储器以及处理器,所述存储器上用于存储计算机可执行程序,所述处理器用于运行所述计算机可执行程序以实施权利要求1-14任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111355336.6A CN114048213A (zh) | 2021-11-16 | 2021-11-16 | 数据的审计方法及装置、计算机存储介质、电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111355336.6A CN114048213A (zh) | 2021-11-16 | 2021-11-16 | 数据的审计方法及装置、计算机存储介质、电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114048213A true CN114048213A (zh) | 2022-02-15 |
Family
ID=80209256
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111355336.6A Pending CN114048213A (zh) | 2021-11-16 | 2021-11-16 | 数据的审计方法及装置、计算机存储介质、电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114048213A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180089272A1 (en) * | 2016-09-26 | 2018-03-29 | Splunk Inc. | Techniques for generating structured metrics from ingested events |
CN109582667A (zh) * | 2018-10-16 | 2019-04-05 | 中国电力科学研究院有限公司 | 一种基于电力调控大数据的多数据库混合存储方法及系统 |
CN111046022A (zh) * | 2019-12-04 | 2020-04-21 | 山西云时代技术有限公司 | 一种基于大数据技术的数据库审计方法 |
CN111575358A (zh) * | 2020-05-11 | 2020-08-25 | 菏泽市疾病预防控制中心(挂市卫生检测检验中心牌子) | 非诊断目的的肠道微生物定性与定量检测方法及检测系统 |
CN111858251A (zh) * | 2020-07-22 | 2020-10-30 | 上海市大数据中心 | 一种基于大数据计算技术的数据安全审计方法及系统 |
CN113515499A (zh) * | 2021-03-25 | 2021-10-19 | 中国雄安集团数字城市科技有限公司 | 一种数据库服务方法及系统 |
-
2021
- 2021-11-16 CN CN202111355336.6A patent/CN114048213A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180089272A1 (en) * | 2016-09-26 | 2018-03-29 | Splunk Inc. | Techniques for generating structured metrics from ingested events |
CN109582667A (zh) * | 2018-10-16 | 2019-04-05 | 中国电力科学研究院有限公司 | 一种基于电力调控大数据的多数据库混合存储方法及系统 |
CN111046022A (zh) * | 2019-12-04 | 2020-04-21 | 山西云时代技术有限公司 | 一种基于大数据技术的数据库审计方法 |
CN111575358A (zh) * | 2020-05-11 | 2020-08-25 | 菏泽市疾病预防控制中心(挂市卫生检测检验中心牌子) | 非诊断目的的肠道微生物定性与定量检测方法及检测系统 |
CN111858251A (zh) * | 2020-07-22 | 2020-10-30 | 上海市大数据中心 | 一种基于大数据计算技术的数据安全审计方法及系统 |
CN113515499A (zh) * | 2021-03-25 | 2021-10-19 | 中国雄安集团数字城市科技有限公司 | 一种数据库服务方法及系统 |
Non-Patent Citations (1)
Title |
---|
徐超;陈勇;葛红美;何炎祥;: "基于大数据的审计技术研究", 电子学报, no. 05, 15 May 2020 (2020-05-15) * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112035404B (zh) | 医疗数据监控与预警方法、装置、设备及存储介质 | |
CN107888452B (zh) | 一种24小时分布式网站性能监测和实时告警方法 | |
CN106940677A (zh) | 一种应用日志数据告警方法及装置 | |
CN108509309A (zh) | 一种基于访问日志进行性能监控的系统及方法 | |
CN108369550B (zh) | 实时更改来自不同源的数据 | |
CN113448812A (zh) | 微服务场景下的监控告警方法及装置 | |
CN113746703B (zh) | 一种异常链路监控方法、系统和装置 | |
CN108306997B (zh) | 域名解析监控方法及装置 | |
CN112636979A (zh) | 一种集群告警方法及相关装置 | |
WO2023109806A1 (zh) | 物联网设备的活跃数据处理方法、装置及存储介质 | |
CN106951360B (zh) | 数据统计完整度计算方法和系统 | |
CN115509797A (zh) | 一种故障类别的确定方法、装置、设备及介质 | |
CN114172921A (zh) | 一种调度录音系统的日志审计方法及装置 | |
CN110633191B (zh) | 实时监控软件系统业务健康度的方法和系统 | |
CN113342608A (zh) | 流式计算引擎任务的监控方法及装置 | |
CN115766768B (zh) | 一种算力网络操作系统中感知中枢设计方法及装置 | |
CN114048213A (zh) | 数据的审计方法及装置、计算机存储介质、电子设备 | |
CN113037547A (zh) | 一种资源性能采集监控与告警系统 | |
CN110011845B (zh) | 日志采集方法及系统 | |
CN115391148A (zh) | 异常检测方法和装置 | |
CN112882891B (zh) | 一种客户端Web访问链路监控的方法 | |
CA3140769A1 (en) | Method and system for positioning fault root cause of service system | |
CN115309735A (zh) | 大数据清洗方法、装置、计算机设备及存储介质 | |
CN113285824B (zh) | 一种监控网络配置命令安全性的方法及装置 | |
CN114969187A (zh) | 数据分析系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20230727 Address after: Room 404-405, 504, Building B-17-1, Big data Industrial Park, Kecheng Street, Yannan High tech Zone, Yancheng, Jiangsu Province, 224000 Applicant after: Yancheng Tianyanchawei Technology Co.,Ltd. Address before: 224000 room 501-503, building b-17-1, Xuehai road big data Industrial Park, Kecheng street, Yannan high tech Zone, Yancheng City, Jiangsu Province (CNK) Applicant before: Yancheng Jindi Technology Co.,Ltd. |