CN114048516A - 基于流失数据包的数据稽核方法、装置、设备及存储介质 - Google Patents

基于流失数据包的数据稽核方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN114048516A
CN114048516A CN202210036931.1A CN202210036931A CN114048516A CN 114048516 A CN114048516 A CN 114048516A CN 202210036931 A CN202210036931 A CN 202210036931A CN 114048516 A CN114048516 A CN 114048516A
Authority
CN
China
Prior art keywords
data
packet
target
auditing
source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210036931.1A
Other languages
English (en)
Other versions
CN114048516B (zh
Inventor
储瑞兵
胡腾
廖麟龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Fiberhome Information Integration Technologies Co ltd
Original Assignee
Wuhan Fiberhome Information Integration Technologies Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Fiberhome Information Integration Technologies Co ltd filed Critical Wuhan Fiberhome Information Integration Technologies Co ltd
Priority to CN202210036931.1A priority Critical patent/CN114048516B/zh
Publication of CN114048516A publication Critical patent/CN114048516A/zh
Application granted granted Critical
Publication of CN114048516B publication Critical patent/CN114048516B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/64Protecting data integrity, e.g. using checksums, certificates or signatures

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种基于流失数据包的数据稽核方法、装置、设备及存储介质,所述方法通过获取目标数据源,将所述目标数据源的数据切分为块数据,根据预设结构体和所述块数据生成数据包;将所述数据包进行解析校验,对解析校验后的数据包进行拼接,生成数据表;判断所述数据表的数据量和稽核不通过数据的数据量之和是否等于所述目标数据源的数据量,根据判断结果确定数据完整性,能够独立于其他系统平台,进行高效的数据处理,提高了数据稽核速度和效率,保证了数据顺序不会发生紊乱,提升了数据稽核的准确性和全面性。

Description

基于流失数据包的数据稽核方法、装置、设备及存储介质
技术领域
本发明涉及计算机软件技术领域,尤其涉及一种基于流失数据包的数据稽核方法、装置、设备及存储介质。
背景技术
在目前世界范围内信息作为最宝贵的资产,都以数据形式存在于计算机及云等存储环境中,大数据能力平台作为数据汇聚及分析处理的核心系统,肩负着数据智能化的使命,而其中数据的正确性、有效性是核心的问题,数据稽核技术主要就是为了解决数据该问题的;传统的数据稽核都是通过数据库本身或者软件本身的清洗函数来完成的,其缺乏良好的扩展性和统筹性,且性能比较低下,在海量数据处理的过程之中,处理效率得不到保证。
发明内容
本发明的主要目的在于提供一种基于流失数据包的数据稽核方法、装置、设备及存储介质,旨在解决现有技术中数据集合通过数据库本身或软件本身的清洗函数来完成,缺乏扩展性和统筹性,性能低下,数据处理效率低的技术问题。
第一方面,本发明提供一种基于流失数据包的数据稽核方法,所述基于流失数据包的数据稽核方法包括以下步骤:
获取目标数据源,将所述目标数据源的数据切分为块数据,根据预设结构体和所述块数据生成数据包;
将所述数据包进行解析校验,对解析校验后的数据包进行拼接,生成数据表;
判断所述数据表的数据量和稽核不通过数据的数据量之和是否等于所述目标数据源的数据量,根据判断结果确定数据完整性。
可选地,所述获取目标数据源,将所述目标数据源的数据切分为块数据,根据预设结构体和所述块数据生成数据包,包括:
连接一个或多个前置机,读取数据源的表信息,获得目标数据源;
对所述目标数据源的数据根据预设切分标准进行切分,获得块数据;
读取所述块数据中的目标信息,根据预设结构体对所述目标信息进行处理,生成数据包。
可选地,所述读取所述块数据中的目标信息,根据预设结构体对所述目标信息进行处理,生成数据包,包括:
读取所述块数据中的目标信息,从预设结构体中获取包序号、包数据范围、包长度和数据内容;
根据所述包序号、所述包数据范围、所述包长度和所述数据内容对所述目标信息进行处理,生成数据包。
可选地,所述将所述数据包进行解析校验,对解析校验后的数据包进行拼接,生成数据表,包括:
将所述数据包依次经过流处理平台、稽核模块、异常校验模块和数据唯一性校验模块对所述数据包进行解析校验;
从解析校验通过后的稽核数据包中提取目标数据内容,将所述目标数据内容进行拼接,生成数据表。
可选地,所述将所述数据包依次经过流处理平台、稽核模块、异常校验模块和数据唯一性校验模块对所述数据包进行解析校验,包括:
将所述数据包经过流处理平台,判断所述数据包是否存在堵塞等待状态;
在所述数据包不存在堵塞等待状态时,将经过所述流处理平台的所述数据包依次经过稽核模块、异常校验模块和数据唯一性校验模块进行解析,获得当前数据内容;
对所述当前数据内容进行异常校验,在所述数据包存在异常状态时,丢弃异常数据,并记录日志;
在所述数据包不存在异常状态时,对所述当前数据内容进行唯一性校验,判断所述目标数据源在切分时是否存在重复数据;
在存在所述重复数据时,根据重复ID删除所述重复数据,并记录日志,根据解析校验通过后的数据生成稽核数据包。
可选地,所述在存在所述重复数据时,根据重复ID删除所述重复数据,并记录日志,根据解析校验通过后的数据生成稽核数据包,包括:
获取每一次数据唯一性校验后的行号ID,将所述行号ID与根据ID列表对所述行号ID进行筛选,在所述ID列表中存在重复ID时,判定存在所述重复数据;
根据所述重复ID删除所述重复数据,获得稽核通过数据和稽核不通过数据,并记录日志,根据所述稽核通过数据生成稽核数据包。
可选地,所述判断所述数据表的数据量和稽核不通过数据的数据量之和是否等于所述目标数据源的数据量,根据判断结果确定数据完整性,包括:
计算所述数据表的数据量和稽核不通过数据的数据量之和;
获取所述目标数据源的数据量,将所述数据量之和与所述目标数据源的数据量进行比较;
在所述数据量之和与所述目标数据源的数据量相等时,判定数据完整;
在所述数据量之和与所述目标数据源的数据量不相等时,判定数据不完整。
第二方面,为实现上述目的,本发明还提出一种基于流失数据包的数据稽核装置,所述基于流失数据包的数据稽核装置包括:
数据包生成模块,用于获取目标数据源,将所述目标数据源的数据切分为块数据,根据预设结构体和所述块数据生成数据包;
解析校验模块,用于将所述数据包进行解析校验,对解析校验后的数据包进行拼接,生成数据表;
判断模块,用于判断所述数据表的数据量和稽核不通过数据的数据量之和是否等于所述目标数据源的数据量,根据判断结果确定数据完整性。
第三方面,为实现上述目的,本发明还提出一种基于流失数据包的数据稽核设备,所述基于流失数据包的数据稽核设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于流失数据包的数据稽核程序,所述基于流失数据包的数据稽核程序配置为实现如上文所述的基于流失数据包的数据稽核方法的步骤。
第四方面,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有基于流失数据包的数据稽核程序,所述基于流失数据包的数据稽核程序被处理器执行时实现如上文所述的基于流失数据包的数据稽核方法的步骤。
本发明提出的基于流失数据包的数据稽核方法,通过获取目标数据源,将所述目标数据源的数据切分为块数据,根据预设结构体和所述块数据生成数据包;将所述数据包进行解析校验,对解析校验后的数据包进行拼接,生成数据表;判断所述数据表的数据量和稽核不通过数据的数据量之和是否等于所述目标数据源的数据量,根据判断结果确定数据完整性,能够独立于其他系统平台,进行高效的数据处理,提高了数据稽核速度和效率,保证了数据顺序不会发生紊乱,提升了数据稽核的准确性和全面性。
附图说明
图1为本发明实施例方案涉及的硬件运行环境的设备结构示意图;
图2为本发明基于流失数据包的数据稽核方法第一实施例的流程示意图;
图3为本发明基于流失数据包的数据稽核方法第二实施例的流程示意图;
图4为本发明基于流失数据包的数据稽核方法第三实施例的流程示意图;
图5为本发明基于流失数据包的数据稽核方法第四实施例的流程示意图;
图6为本发明基于流失数据包的数据稽核方法第五实施例的流程示意图;
图7为本发明基于流失数据包的数据稽核方法第六实施例的流程示意图;
图8为本发明基于流失数据包的数据稽核装置第一实施例的功能模块图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例的解决方案主要是:通过获取目标数据源,将所述目标数据源的数据切分为块数据,根据预设结构体和所述块数据生成数据包;将所述数据包进行解析校验,对解析校验后的数据包进行拼接,生成数据表;判断所述数据表的数据量和稽核不通过数据的数据量之和是否等于所述目标数据源的数据量,根据判断结果确定数据完整性,能够独立于其他系统平台,进行高效的数据处理,提高了数据稽核速度和效率,保证了数据顺序不会发生紊乱,提升了数据稽核的准确性和全面性,解决了现有技术中数据集合通过数据库本身或软件本身的清洗函数来完成,缺乏扩展性和统筹性,性能低下,数据处理效率低的技术问题。
参照图1,图1为本发明实施例方案涉及的硬件运行环境的设备结构示意图。
如图1所示,该设备可以包括:处理器1001,例如CPU,通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如Wi-Fi接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(Non-Volatile Memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的设备结构并不构成对该设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及基于流失数据包的数据稽核程序。
本发明设备通过处理器1001调用存储器1005中存储的基于流失数据包的数据稽核程序,并执行以下操作:
获取目标数据源,将所述目标数据源的数据切分为块数据,根据预设结构体和所述块数据生成数据包;
将所述数据包进行解析校验,对解析校验后的数据包进行拼接,生成数据表;
判断所述数据表的数据量和稽核不通过数据的数据量之和是否等于所述目标数据源的数据量,根据判断结果确定数据完整性。
本发明设备通过处理器1001调用存储器1005中存储的基于流失数据包的数据稽核程序,还执行以下操作:
连接一个或多个前置机,读取数据源的表信息,获得目标数据源;
对所述目标数据源的数据根据预设切分标准进行切分,获得块数据;
读取所述块数据中的目标信息,根据预设结构体对所述目标信息进行处理,生成数据包。
本发明设备通过处理器1001调用存储器1005中存储的基于流失数据包的数据稽核程序,还执行以下操作:
读取所述块数据中的目标信息,从预设结构体中获取包序号、包数据范围、包长度和数据内容;
根据所述包序号、所述包数据范围、所述包长度和所述数据内容对所述目标信息进行处理,生成数据包。
本发明设备通过处理器1001调用存储器1005中存储的基于流失数据包的数据稽核程序,还执行以下操作:
将所述数据包依次经过流处理平台、稽核模块、异常校验模块和数据唯一性校验模块对所述数据包进行解析校验;
从解析校验通过后的稽核数据包中提取目标数据内容,将所述目标数据内容进行拼接,生成数据表。
本发明设备通过处理器1001调用存储器1005中存储的基于流失数据包的数据稽核程序,还执行以下操作:
将所述数据包经过流处理平台,判断所述数据包是否存在堵塞等待状态;
在所述数据包不存在堵塞等待状态时,将经过所述流处理平台的所述数据包依次经过稽核模块、异常校验模块和数据唯一性校验模块进行解析,获得当前数据内容;
对所述当前数据内容进行异常校验,在所述数据包存在异常状态时,丢弃异常数据,并记录日志;
在所述数据包不存在异常状态时,对所述当前数据内容进行唯一性校验,判断所述目标数据源在切分时是否存在重复数据;
在存在所述重复数据时,根据重复ID删除所述重复数据,并记录日志,根据解析校验通过后的数据生成稽核数据包。
本发明设备通过处理器1001调用存储器1005中存储的基于流失数据包的数据稽核程序,还执行以下操作:
获取每一次数据唯一性校验后的行号ID,将所述行号ID与根据ID列表对所述行号ID进行筛选,在所述ID列表中存在重复ID时,判定存在所述重复数据;
根据所述重复ID删除所述重复数据,获得稽核通过数据和稽核不通过数据,并记录日志,根据所述稽核通过数据生成稽核数据包。
本发明设备通过处理器1001调用存储器1005中存储的基于流失数据包的数据稽核程序,还执行以下操作:
计算所述数据表的数据量和稽核不通过数据的数据量之和;
获取所述目标数据源的数据量,将所述数据量之和与所述目标数据源的数据量进行比较;
在所述数据量之和与所述目标数据源的数据量相等时,判定数据完整;
在所述数据量之和与所述目标数据源的数据量不相等时,判定数据不完整。
本实施例通过上述方案,通过获取目标数据源,将所述目标数据源的数据切分为块数据,根据预设结构体和所述块数据生成数据包;将所述数据包进行解析校验,对解析校验后的数据包进行拼接,生成数据表;判断所述数据表的数据量和稽核不通过数据的数据量之和是否等于所述目标数据源的数据量,根据判断结果确定数据完整性,能够独立于其他系统平台,进行高效的数据处理,提高了数据稽核速度和效率,保证了数据顺序不会发生紊乱,提升了数据稽核的准确性和全面性。
基于上述硬件结构,提出本发明基于流失数据包的数据稽核方法实施例。
参照图2,图2为本发明基于流失数据包的数据稽核方法第一实施例的流程示意图。
在第一实施例中,所述基于流失数据包的数据稽核方法包括以下步骤:
步骤S10、获取目标数据源,将所述目标数据源的数据切分为块数据,根据预设结构体和所述块数据生成数据包。
需要说明的是,所述目标数据源为需要进行数据稽核的数据源,对所述目标数据源的数据进行切分,能够获得对应的块数据,所述预设结构体为预先设置的数据包结构,通过所述预设结构体可以对块数据进行包装生成对应的数据包。
步骤S20、将所述数据包进行解析校验,对解析校验后的数据包进行拼接,生成数据表。
可以理解的是,将所述数据包进行稽核解析,并且进行校验,能够对解析校验通过后的数据包进行数据拼接,从而生成对应数据表。
步骤S30、判断所述数据表的数据量和稽核不通过数据的数据量之和是否等于所述目标数据源的数据量,根据判断结果确定数据完整性。
应当理解的是,通过计算所述数据表的数据量和稽核不通过的数据对应的数据量的数据量之和,可以将所述数据量之和与所述目标数据源的数据量进行比较,从而可以判断数据量之和是否等于所述目标数据源的数据量,进而根据判断结果确定数据完整性。
本实施例通过上述方案,通过获取目标数据源,将所述目标数据源的数据切分为块数据,根据预设结构体和所述块数据生成数据包;将所述数据包进行解析校验,对解析校验后的数据包进行拼接,生成数据表;判断所述数据表的数据量和稽核不通过数据的数据量之和是否等于所述目标数据源的数据量,根据判断结果确定数据完整性,能够独立于其他系统平台,进行高效的数据处理,提高了数据稽核速度和效率,保证了数据顺序不会发生紊乱,提升了数据稽核的准确性和全面性。
进一步地,图3为本发明基于流失数据包的数据稽核方法第二实施例的流程示意图,如图3所示,基于第一实施例提出本发明基于流失数据包的数据稽核方法第二实施例,在本实施例中,所述步骤S10具体包括以下步骤:
步骤S11、连接一个或多个前置机,读取数据源的表信息,获得目标数据源。
需要说明的是,一般可以连接一个或多个前置机,读取数据源的表信息,从而确保连接成功,获得目标数据源。
步骤S12、对所述目标数据源的数据根据预设切分标准进行切分,获得块数据。
可以理解的是,对所述目标数据源的数据进行切分,可以获得块数据,根据预设切分标准可以进行切分,获得块数据。
在具体实现中,可以对数据源的数据按行切分,以多少数据条数为切分标准,第一次切分标准的初始值默认1万条数据,先切分10块,经过后面的流程以此算出切分标准;第一次切分标准也可以进行设定;第二次及以后的切分标准会自动获取数据条数值。
步骤S13、读取所述块数据中的目标信息,根据预设结构体对所述目标信息进行处理,生成数据包。
应当理解的是,所述预设结构体为预先设置的数据包结构体,读取所述块数据中的信息后,可以根据预设结构体对信息进行处理包装,生成数据包。
本实施例通过上述方案,通过连接一个或多个前置机,读取数据源的表信息,获得目标数据源;对所述目标数据源的数据根据预设切分标准进行切分,获得块数据;读取所述块数据中的目标信息,根据预设结构体对所述目标信息进行处理,生成数据包;能够进行数据源信息的切分,快速生成数据包,提高了数据稽核速度和效率。
进一步地,图4为本发明基于流失数据包的数据稽核方法第三实施例的流程示意图,如图4所示,基于第一实施例提出本发明基于流失数据包的数据稽核方法第三实施例,在本实施例中,所述步骤S13具体包括以下步骤:
步骤S131、读取所述块数据中的目标信息,从预设结构体中获取包序号、包数据范围、包长度和数据内容。
需要说明的是,读取所述块数据中的目标信息,能够从预设结构体中获取包序号、包数据范围、包长度和数据内容,在实际操作中,1个数据块对应1个数据包,包数据范围反应该数据包中数据的起止行号,数据包由包序号、包数据范围、包长度、数据内容4个部分组成。
步骤S132、根据所述包序号、所述包数据范围、所述包长度和所述数据内容对所述目标信息进行处理,生成数据包。
可以理解的是,根据所述包序号、所述包数据范围、所述包长度和所述数据内容可以对所述目标信息进行包装处理,生成数据包。
在具体实现中,预设结构体用以描述单个或批量的数据包结构,可以包含基本的信息如下表所示:
Figure 571370DEST_PATH_IMAGE001
应当理解的是,包序号为每个数据包的编号,为有序的整数;包数据范围为记录包内的数据范围,从n条到n+m条;为了反映出数据包内的数据是从数据源中取了哪几条数据;包长度为反应数据包中有多少个数据;数据内容为实际的数据内容,在数据包中以数组的形式体现;其中包是一个独立的数据整体,负责描述一段或者多段数据的信息,该段数据信息作为独立的个体发送到不同的数据处理程序中进行处理,并依据包序号返回数据稽核信息。
本实施例通过上述方案,通过读取所述块数据中的目标信息,从预设结构体中获取包序号、包数据范围、包长度和数据内容;根据所述包序号、所述包数据范围、所述包长度和所述数据内容对所述目标信息进行处理,生成数据包,能够利用数据包结构生成数据包,提高了数据稽核速度和效率。
进一步地,图5为本发明基于流失数据包的数据稽核方法第四实施例的流程示意图,如图5所示,基于第一实施例提出本发明基于流失数据包的数据稽核方法第四实施例,在本实施例中,所述步骤S20具体包括以下步骤:
步骤S21、将所述数据包依次经过流处理平台、稽核模块、异常校验模块和数据唯一性校验模块对所述数据包进行解析校验。
需要说明的是,从流处理平台出来的数据包再进入稽核模块,依次进入异常校验模块和数据唯一性校验模块,对数据包进行解析,读取数据包中的数据内容。
步骤S22、从解析校验通过后的稽核数据包中提取目标数据内容,将所述目标数据内容进行拼接,生成数据表。
可以理解的是,解析校验通过后的数据包即为稽核数据包,将稽核数据包进行数据提取,可以获得通过稽核的数据包的数据内容,对所述目标数据内容进行拼接,能够获得数据表,在实际操作中,还可以不断的汇聚到大数据能力平台。
本实施例通过上述方案,通过将所述数据包依次经过流处理平台、稽核模块、异常校验模块和数据唯一性校验模块对所述数据包进行解析校验;从解析校验通过后的稽核数据包中提取目标数据内容,将所述目标数据内容进行拼接,生成数据表,能够快速进行数据包信息合并,生成数据表,可以独立于其他系统平台,进行高效的数据处理,提高了数据稽核速度和效率。
进一步地,图6为本发明基于流失数据包的数据稽核方法第五实施例的流程示意图,如图6所示,基于第一实施例提出本发明基于流失数据包的数据稽核方法第五实施例,在本实施例中,所述步骤S21具体包括以下步骤:
步骤S211、将所述数据包经过流处理平台,判断所述数据包是否存在堵塞等待状态。
需要说明的是,将所述数据包经过流处理平台,可以判断是否有升级包堵塞且处于等待状态,即判断所述数据包是否存在堵塞等待状态。
步骤S212、在所述数据包不存在堵塞等待状态时,将经过所述流处理平台的所述数据包依次经过稽核模块、异常校验模块和数据唯一性校验模块进行解析,获得当前数据内容。
可以理解的是,在所述数据包不存在堵塞等待状态时,可以从流处理平台出来的数据包再进入稽核模块,依次进入异常校验模块和数据唯一性校验模块,对数据包进行解析,从而读取数据包中的数据内容。
步骤S213、对所述当前数据内容进行异常校验,在所述数据包存在异常状态时,丢弃异常数据,并记录日志。
应当理解的是,对所述当前数据内容进行异常校验,即对数据内容做异常校验,验证是否异常,如果否,则对数据内容做唯一性校验,如果是,异常数据丢弃,并记录日志,异常情况可以为数据内容为空值、数据内容错位等,本实施例对此不加以限制。
步骤S214、在所述数据包不存在异常状态时,对所述当前数据内容进行唯一性校验,判断所述目标数据源在切分时是否存在重复数据。
可以理解的是,在所述数据包不存在异常状态时,对所述当前数据内容进行唯一性校验,验证在数据源切分的时候是否分切了重复数据。
步骤S215、在存在所述重复数据时,根据重复ID删除所述重复数据,并记录日志,根据解析校验通过后的数据生成稽核数据包。
应当理解的是,在存在所述重复数据时,可以根据重复ID删除所述重复数据,并且记录日志,从而将解析校验通过后的数据生成稽核数据包,通过稽核的数据包,取出数据内容进行拼接,生成数据表,不断的汇聚到大数据能力平台。
进一步的,所述步骤S215具体包括以下步骤:
获取每一次数据唯一性校验后的行号ID,将所述行号ID与根据ID列表对所述行号ID进行筛选,在所述ID列表中存在重复ID时,判定存在所述重复数据;
根据所述重复ID删除所述重复数据,获得稽核通过数据和稽核不通过数据,并记录日志,根据所述稽核通过数据生成稽核数据包。
在具体实现中,每一次数据经过唯一性校验后,均记录下行号ID,形成列表,记为ID[n,m];新进入唯一性校验模块的数据包,取出行号ID与列表ID[n,m]进行比较,看是否有重复值,如果是,则根据该重复ID在数据包中找到该数据内容并删除,同时记录日志,此时数据包内的数据是有缩减的;如果否,则通过稽核的数据包,取出数据内容进行拼接,生成数据表。
本实施例通过上述方案,通过将所述数据包经过流处理平台,判断所述数据包是否存在堵塞等待状态;在所述数据包不存在堵塞等待状态时,将经过所述流处理平台的所述数据包依次经过稽核模块、异常校验模块和数据唯一性校验模块进行解析,获得当前数据内容;对所述当前数据内容进行异常校验,在所述数据包存在异常状态时,丢弃异常数据,并记录日志;在所述数据包不存在异常状态时,对所述当前数据内容进行唯一性校验,判断所述目标数据源在切分时是否存在重复数据;在存在所述重复数据时,根据重复ID删除所述重复数据,并记录日志,根据解析校验通过后的数据生成稽核数据包,能够对所述数据包进行稽核校验,快速进行数据包信息合并,生成数据表,可以独立于其他系统平台,进行高效的数据处理,提高了数据稽核速度和效率。
进一步地,图7为本发明基于流失数据包的数据稽核方法第六实施例的流程示意图,如图7所示,基于第一实施例提出本发明基于流失数据包的数据稽核方法第六实施例,在本实施例中,所述步骤S30包括以下步骤:
步骤S31、计算所述数据表的数据量和稽核不通过数据的数据量之和。
需要说明的是,通过计算,可以获得稽核不通过数据对应的数据量和所述数据表的数据量对应有数据量之和。
步骤S32、获取所述目标数据源的数据量,将所述数据量之和与所述目标数据源的数据量进行比较。
应当理解的是,获取所述目标数据源的数据量,从而可以将所述数据量之和与所述目标数据源的数据量进行比较。
步骤S33、在所述数据量之和与所述目标数据源的数据量相等时,判定数据完整。
可以理解的是,在所述数据量之和与所述目标数据源的数据量相等时,可以证明数据具有完整性,即判定数据完整。
步骤S34、在所述数据量之和与所述目标数据源的数据量不相等时,判定数据不完整。
应当理解的是,在所在所述数据量之和与所述目标数据源的数据量不相等时,可以证明数据不具有完整性,即判定数据不完整。
在具体实现中,所有的数据包经过稽核后,可以检查数据完整性,确保数据源的数据都抽取到了,一般可以统计3个数据量,生成的数据表数据量+稽核不通过数据量是否等于数据源的数据量,将结果反馈到日志中;前述切分标准中的第一次切分标准可以根据自己的经验进行设定,采用默认给出的切分标准,第一次切分后的10个数据包,依次经过流处理平台和稽核,在第1个数据包稽核完后,其它数据包可能还在流处理平台管道中排队,此时可以根据管道中剩余容量对比第一次切分的数据条数,来计算出新的切分标准。
本实施例通过上述方案,通过计算所述数据表的数据量和稽核不通过数据的数据量之和;获取所述目标数据源的数据量,将所述数据量之和与所述目标数据源的数据量进行比较;在所述数据量之和与所述目标数据源的数据量相等时,判定数据完整;在所述数据量之和与所述目标数据源的数据量不相等时,判定数据不完整,能够快速验证数据的完整性,提高了数据稽核的全面性。
相应地,本发明进一步提供一种基于流失数据包的数据稽核装置。
参照图8,图8为本发明基于流失数据包的数据稽核装置第一实施例的功能模块图。
本发明基于流失数据包的数据稽核装置第一实施例中,该基于流失数据包的数据稽核装置包括:
数据包生成模块10,用于获取目标数据源,将所述目标数据源的数据切分为块数据,根据预设结构体和所述块数据生成数据包。
解析校验模块20,用于将所述数据包进行解析校验,对解析校验后的数据包进行拼接,生成数据表。
判断模块30,用于判断所述数据表的数据量和稽核不通过数据的数据量之和是否等于所述目标数据源的数据量,根据判断结果确定数据完整性。
所述数据包生成模块10,还用于连接一个或多个前置机,读取数据源的表信息,获得目标数据源;对所述目标数据源的数据根据预设切分标准进行切分,获得块数据;读取所述块数据中的目标信息,根据预设结构体对所述目标信息进行处理,生成数据包。
所述数据包生成模块10,还用于读取所述块数据中的目标信息,从预设结构体中获取包序号、包数据范围、包长度和数据内容;根据所述包序号、所述包数据范围、所述包长度和所述数据内容对所述目标信息进行处理,生成数据包。
所述解析校验模块20,还用于将所述数据包依次经过流处理平台、稽核模块、异常校验模块和数据唯一性校验模块对所述数据包进行解析校验;从解析校验通过后的稽核数据包中提取目标数据内容,将所述目标数据内容进行拼接,生成数据表。
所述解析校验模块20,还用于将所述数据包经过流处理平台,判断所述数据包是否存在堵塞等待状态;在所述数据包不存在堵塞等待状态时,将经过所述流处理平台的所述数据包依次经过稽核模块、异常校验模块和数据唯一性校验模块进行解析,获得当前数据内容;对所述当前数据内容进行异常校验,在所述数据包存在异常状态时,丢弃异常数据,并记录日志;在所述数据包不存在异常状态时,对所述当前数据内容进行唯一性校验,判断所述目标数据源在切分时是否存在重复数据;在存在所述重复数据时,根据重复ID删除所述重复数据,并记录日志,根据解析校验通过后的数据生成稽核数据包。
所述解析校验模块20,还用于获取每一次数据唯一性校验后的行号ID,将所述行号ID与根据ID列表对所述行号ID进行筛选,在所述ID列表中存在重复ID时,判定存在所述重复数据;根据所述重复ID删除所述重复数据,获得稽核通过数据和稽核不通过数据,并记录日志,根据所述稽核通过数据生成稽核数据包。
所述判断模块30,还用于计算所述数据表的数据量和稽核不通过数据的数据量之和;获取所述目标数据源的数据量,将所述数据量之和与所述目标数据源的数据量进行比较;在所述数据量之和与所述目标数据源的数据量相等时,判定数据完整;在所述数据量之和与所述目标数据源的数据量不相等时,判定数据不完整。
其中,基于流失数据包的数据稽核装置的各个功能模块实现的步骤可参照本发明基于流失数据包的数据稽核方法的各个实施例,此处不再赘述。
此外,本发明实施例还提出一种存储介质,所述存储介质上存储有基于流失数据包的数据稽核程序,所述基于流失数据包的数据稽核程序被处理器执行时实现如下操作:
获取目标数据源,将所述目标数据源的数据切分为块数据,根据预设结构体和所述块数据生成数据包;
将所述数据包进行解析校验,对解析校验后的数据包进行拼接,生成数据表;
判断所述数据表的数据量和稽核不通过数据的数据量之和是否等于所述目标数据源的数据量,根据判断结果确定数据完整性。
进一步地,所述基于流失数据包的数据稽核程序被处理器执行时还实现如下操作:
连接一个或多个前置机,读取数据源的表信息,获得目标数据源;
对所述目标数据源的数据根据预设切分标准进行切分,获得块数据;
读取所述块数据中的目标信息,根据预设结构体对所述目标信息进行处理,生成数据包。
进一步地,所述基于流失数据包的数据稽核程序被处理器执行时还实现如下操作:
读取所述块数据中的目标信息,从预设结构体中获取包序号、包数据范围、包长度和数据内容;
根据所述包序号、所述包数据范围、所述包长度和所述数据内容对所述目标信息进行处理,生成数据包。
进一步地,所述基于流失数据包的数据稽核程序被处理器执行时还实现如下操作:
将所述数据包依次经过流处理平台、稽核模块、异常校验模块和数据唯一性校验模块对所述数据包进行解析校验;
从解析校验通过后的稽核数据包中提取目标数据内容,将所述目标数据内容进行拼接,生成数据表。
进一步地,所述基于流失数据包的数据稽核程序被处理器执行时还实现如下操作:
将所述数据包经过流处理平台,判断所述数据包是否存在堵塞等待状态;
在所述数据包不存在堵塞等待状态时,将经过所述流处理平台的所述数据包依次经过稽核模块、异常校验模块和数据唯一性校验模块进行解析,获得当前数据内容;
对所述当前数据内容进行异常校验,在所述数据包存在异常状态时,丢弃异常数据,并记录日志;
在所述数据包不存在异常状态时,对所述当前数据内容进行唯一性校验,判断所述目标数据源在切分时是否存在重复数据;
在存在所述重复数据时,根据重复ID删除所述重复数据,并记录日志,根据解析校验通过后的数据生成稽核数据包。
进一步地,所述基于流失数据包的数据稽核程序被处理器执行时还实现如下操作:
获取每一次数据唯一性校验后的行号ID,将所述行号ID与根据ID列表对所述行号ID进行筛选,在所述ID列表中存在重复ID时,判定存在所述重复数据;
根据所述重复ID删除所述重复数据,获得稽核通过数据和稽核不通过数据,并记录日志,根据所述稽核通过数据生成稽核数据包。
进一步地,所述基于流失数据包的数据稽核程序被处理器执行时还实现如下操作:
计算所述数据表的数据量和稽核不通过数据的数据量之和;
获取所述目标数据源的数据量,将所述数据量之和与所述目标数据源的数据量进行比较;
在所述数据量之和与所述目标数据源的数据量相等时,判定数据完整;
在所述数据量之和与所述目标数据源的数据量不相等时,判定数据不完整。
本实施例通过上述方案,通过获取目标数据源,将所述目标数据源的数据切分为块数据,根据预设结构体和所述块数据生成数据包;将所述数据包进行解析校验,对解析校验后的数据包进行拼接,生成数据表;判断所述数据表的数据量和稽核不通过数据的数据量之和是否等于所述目标数据源的数据量,根据判断结果确定数据完整性,能够独立于其他系统平台,进行高效的数据处理,提高了数据稽核速度和效率,保证了数据顺序不会发生紊乱,提升了数据稽核的准确性和全面性。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种基于流失数据包的数据稽核方法,其特征在于,所述基于流失数据包的数据稽核方法包括:
获取目标数据源,将所述目标数据源的数据切分为块数据,根据预设结构体和所述块数据生成数据包;
将所述数据包进行解析校验,对解析校验后的数据包进行拼接,生成数据表;
判断所述数据表的数据量和稽核不通过数据的数据量之和是否等于所述目标数据源的数据量,根据判断结果确定数据完整性。
2.如权利要求1所述的基于流失数据包的数据稽核方法,其特征在于,所述获取目标数据源,将所述目标数据源的数据切分为块数据,根据预设结构体和所述块数据生成数据包,包括:
连接一个或多个前置机,读取数据源的表信息,获得目标数据源;
对所述目标数据源的数据根据预设切分标准进行切分,获得块数据;
读取所述块数据中的目标信息,根据预设结构体对所述目标信息进行处理,生成数据包。
3.如权利要求2所述的基于流失数据包的数据稽核方法,其特征在于,所述读取所述块数据中的目标信息,根据预设结构体对所述目标信息进行处理,生成数据包,包括:
读取所述块数据中的目标信息,从预设结构体中获取包序号、包数据范围、包长度和数据内容;
根据所述包序号、所述包数据范围、所述包长度和所述数据内容对所述目标信息进行处理,生成数据包。
4.如权利要求1所述的基于流失数据包的数据稽核方法,其特征在于,所述将所述数据包进行解析校验,对解析校验后的数据包进行拼接,生成数据表,包括:
将所述数据包依次经过流处理平台、稽核模块、异常校验模块和数据唯一性校验模块对所述数据包进行解析校验;
从解析校验通过后的稽核数据包中提取目标数据内容,将所述目标数据内容进行拼接,生成数据表。
5.如权利要求4所述的基于流失数据包的数据稽核方法,其特征在于,所述将所述数据包依次经过流处理平台、稽核模块、异常校验模块和数据唯一性校验模块对所述数据包进行解析校验,包括:
将所述数据包经过流处理平台,判断所述数据包是否存在堵塞等待状态;
在所述数据包不存在堵塞等待状态时,将经过所述流处理平台的所述数据包依次经过稽核模块、异常校验模块和数据唯一性校验模块进行解析,获得当前数据内容;
对所述当前数据内容进行异常校验,在所述数据包存在异常状态时,丢弃异常数据,并记录日志;
在所述数据包不存在异常状态时,对所述当前数据内容进行唯一性校验,判断所述目标数据源在切分时是否存在重复数据;
在存在所述重复数据时,根据重复ID删除所述重复数据,并记录日志,根据解析校验通过后的数据生成稽核数据包。
6.如权利要求5所述的基于流失数据包的数据稽核方法,其特征在于,所述在存在所述重复数据时,根据重复ID删除所述重复数据,并记录日志,根据解析校验通过后的数据生成稽核数据包,包括:
获取每一次数据唯一性校验后的行号ID,将所述行号ID与根据ID列表对所述行号ID进行筛选,在所述ID列表中存在重复ID时,判定存在所述重复数据;
根据所述重复ID删除所述重复数据,获得稽核通过数据和稽核不通过数据,并记录日志,根据所述稽核通过数据生成稽核数据包。
7.如权利要求1所述的基于流失数据包的数据稽核方法,其特征在于,所述判断所述数据表的数据量和稽核不通过数据的数据量之和是否等于所述目标数据源的数据量,根据判断结果确定数据完整性,包括:
计算所述数据表的数据量和稽核不通过数据的数据量之和;
获取所述目标数据源的数据量,将所述数据量之和与所述目标数据源的数据量进行比较;
在所述数据量之和与所述目标数据源的数据量相等时,判定数据完整;
在所述数据量之和与所述目标数据源的数据量不相等时,判定数据不完整。
8.一种基于流失数据包的数据稽核装置,其特征在于,所述基于流失数据包的数据稽核装置包括:
数据包生成模块,用于获取目标数据源,将所述目标数据源的数据切分为块数据,根据预设结构体和所述块数据生成数据包;
解析校验模块,用于将所述数据包进行解析校验,对解析校验后的数据包进行拼接,生成数据表;
判断模块,用于判断所述数据表的数据量和稽核不通过数据的数据量之和是否等于所述目标数据源的数据量,根据判断结果确定数据完整性。
9.一种基于流失数据包的数据稽核设备,其特征在于,所述基于流失数据包的数据稽核设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于流失数据包的数据稽核程序,所述基于流失数据包的数据稽核程序配置为实现如权利要求1至7中任一项所述的基于流失数据包的数据稽核方法的步骤。
10.一种存储介质,其特征在于,所述存储介质上存储有基于流失数据包的数据稽核程序,所述基于流失数据包的数据稽核程序被处理器执行时实现如权利要求1至7中任一项所述的基于流失数据包的数据稽核方法的步骤。
CN202210036931.1A 2022-01-13 2022-01-13 基于流失数据包的数据稽核方法、装置、设备及存储介质 Active CN114048516B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210036931.1A CN114048516B (zh) 2022-01-13 2022-01-13 基于流失数据包的数据稽核方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210036931.1A CN114048516B (zh) 2022-01-13 2022-01-13 基于流失数据包的数据稽核方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN114048516A true CN114048516A (zh) 2022-02-15
CN114048516B CN114048516B (zh) 2022-04-01

Family

ID=80196516

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210036931.1A Active CN114048516B (zh) 2022-01-13 2022-01-13 基于流失数据包的数据稽核方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN114048516B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10373216B1 (en) * 2011-10-12 2019-08-06 Stamps.Com Inc. Parasitic postage indicia
CN111126970A (zh) * 2020-01-02 2020-05-08 兰州嘉文电子科技有限公司 一种基于数据一致性的运营管理系统及方法
CN111539633A (zh) * 2020-04-26 2020-08-14 北京思特奇信息技术股份有限公司 一种业务数据质量的稽核方法、系统、装置和存储介质
CN112445787A (zh) * 2020-11-20 2021-03-05 北京思特奇信息技术股份有限公司 一种基于实时业务的数据稽核方法和系统
CN113127458A (zh) * 2019-12-30 2021-07-16 北京奇虎科技有限公司 一种数据质量稽核方法、装置、电子设备和存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10373216B1 (en) * 2011-10-12 2019-08-06 Stamps.Com Inc. Parasitic postage indicia
CN113127458A (zh) * 2019-12-30 2021-07-16 北京奇虎科技有限公司 一种数据质量稽核方法、装置、电子设备和存储介质
CN111126970A (zh) * 2020-01-02 2020-05-08 兰州嘉文电子科技有限公司 一种基于数据一致性的运营管理系统及方法
CN111539633A (zh) * 2020-04-26 2020-08-14 北京思特奇信息技术股份有限公司 一种业务数据质量的稽核方法、系统、装置和存储介质
CN112445787A (zh) * 2020-11-20 2021-03-05 北京思特奇信息技术股份有限公司 一种基于实时业务的数据稽核方法和系统

Also Published As

Publication number Publication date
CN114048516B (zh) 2022-04-01

Similar Documents

Publication Publication Date Title
CN107391359B (zh) 一种业务测试方法及装置
CN109656999B (zh) 大数据量的数据同步方法、设备、存储介质及装置
US11119843B2 (en) Verifying application behavior based on distributed tracing
CN111858242A (zh) 一种系统日志异常检测方法、装置及电子设备和存储介质
CN113254255B (zh) 一种云平台日志的分析方法、系统、设备及介质
CN109495291B (zh) 调用异常的定位方法、装置和服务器
CN113849760B (zh) 敏感信息风险评估方法、系统和存储介质
CN109862396A (zh) 一种视频码流的分析方法、电子设备及可读存储介质
CN109271315B (zh) 脚本代码检测方法、装置、计算机设备及存储介质
WO2022110863A1 (zh) 一种兼容性检测方法、装置、设备及可读存储介质
CN111273891A (zh) 基于规则引擎的业务决策方法、装置及终端设备
WO2010015145A1 (zh) 过滤以及监控程序行为的方法和系统
CN116346456A (zh) 业务逻辑漏洞攻击检测模型训练方法及装置
US20130205010A1 (en) Workload patterns for realistic load recreation in performance testing
CN114048516B (zh) 基于流失数据包的数据稽核方法、装置、设备及存储介质
CN108923967B (zh) 一种去重流量记录方法、装置、服务器及存储介质
CN112612832B (zh) 节点分析方法、装置、设备及存储介质
CN111966339B (zh) 埋点参数的录入方法、装置、计算机设备和存储介质
CN109977328A (zh) 一种url分类方法及装置
CN111538542B (zh) 一种系统配置方法及相关装置
CN116383742B (zh) 基于特征分类的规则链设置处理方法、系统及介质
CN112953948A (zh) 一种实时网络横向蠕虫攻击流量检测方法及装置
CN109409091B (zh) 检测Web页面的方法、装置、设备以及计算机存储介质
CN113419964B (zh) 一种测试案例生成方法、装置、计算机设备及存储介质
CN113342632A (zh) 仿真数据自动化处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant