CN116894104A - 数据处理方法、装置及计算机可读存储介质 - Google Patents
数据处理方法、装置及计算机可读存储介质 Download PDFInfo
- Publication number
- CN116894104A CN116894104A CN202310740686.7A CN202310740686A CN116894104A CN 116894104 A CN116894104 A CN 116894104A CN 202310740686 A CN202310740686 A CN 202310740686A CN 116894104 A CN116894104 A CN 116894104A
- Authority
- CN
- China
- Prior art keywords
- data
- dictionary tree
- merchant
- detection
- metadata
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 37
- 238000001514 detection method Methods 0.000 claims abstract description 175
- 238000013138 pruning Methods 0.000 claims description 23
- 238000012545 processing Methods 0.000 claims description 16
- 238000000034 method Methods 0.000 abstract description 15
- 238000004891 communication Methods 0.000 description 6
- 238000013480 data collection Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 238000012423 maintenance Methods 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9027—Trees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/907—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/48—Program initiating; Program switching, e.g. by interrupt
- G06F9/4806—Task transfer initiation or dispatching
- G06F9/4843—Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Library & Information Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种数据处理方法、装置及计算机可读存储介质,其方法包括:获取多个第一商户数据元数据;基于第一商户数据元数据对应的数据表的字段与预设数据检测规则之间的绑定关系,在预设规则库中获取第一商户数据元数据对应的数据检测规则;基于各个第一商户数据元数据以及所述数据检测规则,选择各个第一商户数据元数据对应的待检测表,并基于各个待检测表创建检测任务;通过任务调度管理确定所述检测任务对应的检测程序,并通过所述检测程序对所述检测任务执行数据检测操作,获得数据检测结果。本发明过将数据检测规则与商户数据元数据数据表的字段进行绑定,可以实现多类型数据源的商户数据检测,提升了商户数据的检测效率。
Description
技术领域
本发明涉及数据检测技术领域,尤其涉及一种数据处理方法、装置及计算机可读存储介质。
背景技术
目前,生活平台对接的数据源越来越多,数据规模源越来越大,访问量源越来越高。但是由于商户数据源不同,接入数据数据格式也多种多样,由于数据来源越来越多,各个数据源数据结构、规范不同,不同商户字段定义格式不一致,上下游系统对数据字段格式要求不同,在对商户数据进行异常检测时,由于各种格式的商户数据的检测规则不同,难以进行多类型数据源的商户数据检测,导致商户数据的管理成本较高。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供一种数据处理方法、装置及计算机可读存储介质,旨在解决现有难以进行多类型数据源的商户数据检测的技术问题。
为实现上述目的,本发明提供一种数据处理方法,所述数据处理方法包括以下步骤:
获取多个第一商户数据元数据;
基于第一商户数据元数据对应的数据表的字段与预设数据检测规则之间的绑定关系,在预设规则库中获取第一商户数据元数据对应的数据检测规则;
基于各个第一商户数据元数据以及所述数据检测规则,选择各个第一商户数据元数据对应的待检测表,并基于各个待检测表创建检测任务;
通过任务调度管理确定所述检测任务对应的检测程序,并通过所述检测程序对所述检测任务执行数据检测操作,获得数据检测结果。
进一步地,所述数据处理方法还包括:
对商户数据源进行数据采集操作,以获得所述商户数据源对应的第二商户数据元数据;
将所述第二商户数据元数据中预设数量的数据作为样本数据,并基于所述样本数据,通过Trie树算法生成所述第二商户数据元数据对应的预设数据检测规则,并将所述预设数据检测规则存储至所述预设规则库。
进一步地,所述基于所述样本数据,生成所述第二商户数据元数据对应的预设数据检测规则的步骤包括:
将所述样本数据与预设规则库的预设数据检测规则进行正则匹配,以确定所述预设数据检测规则中是否存在于所述样本数据正则匹配的目标数据检测规则;
若存在所述目标数据检测规则,则将所述目标数据检测规则作为所述第二商户数据元数据对应的预设数据检测规则;
若不存在所述目标数据检测规则,则基于所述样本数据通过Trie树算法生成所述第二商户数据元数据对应的预设数据检测规则。
进一步地,所述基于所述样本数据通过Trie树算法生成所述第二商户数据元数据对应的预设数据检测规则的步骤包括:
将所述样本数据对应的字符串插入字典树中,以获得待处理字典树;
将待处理字典树中各个分支按照逻辑或的形式串联,以获得所述第二商户数据元数据对应的预设数据检测规则。
进一步地,所述将所述样本数据对应的字符串插入字典树中,以获得待处理字典树的步骤包括:
将所述数据对应的字符串插入字典树中,获得第一字典树;
基于节点升级策略、节点合并策略以及节点剪枝策略,确定所述第一字典树是否可变化;
若所述第一字典树不可变化,则将所述第一字典树作为所述待处理字典树;
若所述第一字典树可变化,则基于节点升级策略、节点合并策略以及节点剪枝策略,确定所述第一字典树对应的第二字典树;
将所述第二字典树作为所述第一字典树,并返回执行基于节点升级策略、节点合并策略以及节点剪枝策略,确定所述第一字典树是否可变化的步骤。
进一步地,所述基于节点升级策略、节点合并策略以及节点剪枝策略,确定所述第一字典树对应的第二字典树的步骤包括:
获取第一字典树中各个第一节点对应的子分支数;
若所述子分支数中存在大于预设分支数的目标子分支数,则在第一字典树中将所述目标子分支数对应的第一节点进行节点升级操作,以获得第三字典树;
若所述第三字典树的各个第二节点中存在值与对应子节点的值相同的目标节点,则将所述目标节点的子节点合并至所述目标节点,以获得第四字典树;
基于所述节点剪枝策略以及所述第四字典树,确定所述第二字典树。
进一步地,所述基于所述节点剪枝策略以及所述第四字典树,确定所述第二字典树的步骤包括:
获取所述第四字典树中各个第三节点对应子分支的数据量,并基于所述数据量确定所述第三节点对应的平均数据量;
基于所述数据量以及所述平均数据量,确定各个所述第三节点对应子分支的数据量比例;
确定所述数据量比例中是否存在小于预设比例的目标数据量比例;
若存在所述目标数据量比例,则在所述第四字典树减去所述目标数据量比例对应的子分支,以获得第二字典树。
进一步地,所述获取多个第一商户数据元数据的步骤包括:
对于每一个第一商户数据元数据对应的商户数据源,在基于商户数据源的参数确定所述商户数据源可采集时,确定所述商户数据源对应的数据库类型;
基于所述数据库类型生成采集任务信息;
通过所述数据库类型对应的监听器监听所述采集任务信息时,基于所述采集任务信息执行数据采集操作,以获得所述第一商户数据元数据。
此外,为实现上述目的,本发明还提供一种数据处理装置,所述数据处理装置包括:
存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据处理程序,所述数据处理程序被所述处理器执行时实现前述的数据处理方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述可读存储介质上存储有数据处理程序,所述数据处理程序被处理器执行时实现前述的数据处理方法的步骤。
本发明通过获取多个第一商户数据元数据;接着基于第一商户数据元数据对应的数据表的字段与预设数据检测规则之间的绑定关系,在预设规则库中获取第一商户数据元数据对应的数据检测规则;而后基于各个第一商户数据元数据以及所述数据检测规则,选择各个第一商户数据元数据对应的待检测表,并基于各个待检测表创建检测任务;然后通过任务调度管理确定所述检测任务对应的检测程序,并通过所述检测程序对所述检测任务执行数据检测操作,获得数据检测结果。通过将数据检测规则与商户数据元数据数据表的字段进行绑定,可以实现多类型数据源的商户数据检测,通过检测任务的调度与检测任务的执行线程分离,使得各个检测任务互不干扰,达到了在有限资源的情况既保证了检测服务的性能,也保证了检测的质量,进而提升了商户数据的检测效率。通过规则库将检测规则与检测程序解偶,使得规则库可在各个数据场景中复用,提高了开发运维效率。
附图说明
图1是本发明实施例方案涉及的硬件运行环境中数据处理装置的结构示意图;
图2为本发明数据处理方法第一实施例的流程示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,图1是本发明实施例方案涉及的硬件运行环境中数据处理装置的结构示意图。
本发明实施例数据处理装置可以是PC,也可以是智能手机、平板电脑、电子书阅读器、便携计算机等具有显示功能的可移动式终端设备。
如图1所示,该数据处理装置可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的终端结构并不构成对数据处理装置的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及数据处理程序。
在图1所示的数据处理装置中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的数据处理程序。
在本实施例中,数据处理装置包括:存储器1005、处理器1001及存储在所述存储器1005上并可在所述处理器1001上运行的数据处理程序,其中,处理器1001调用存储器1005中存储的数据处理程序时,并执行以下各个实施例中数据处理方法的步骤。
本发明还提供一种数据处理方法,参照图2,图2为本发明数据处理方法第一实施例的流程示意图。
本实施例中,该数据处理方法包括:
步骤S101,获取多个第一商户数据元数据;
本实施例中,在进行商户数据检测时,可定时获取多个第一商户数据元数据,该第一商户数据元数据可以为同类型数据源的商户的元数据,也可以为不同类型数据源的商户的元数据,具体的,可定时或实时采集多个第一商户数据元数据,并将该第一商户数据元数据存储至元数据数据库中,定时在该元数据数据库获取多个第一商户数据元数据,其中,第一商户数据元数据的数量可以根据需求进行合理设置。
进一步地,在一可能实现方式中,该步骤S101包括:
步骤S1011,对于每一个第一商户数据元数据对应的商户数据源,在基于商户数据源的参数确定所述商户数据源可采集时,确定所述商户数据源对应的数据库类型;
步骤S1012,基于所述数据库类型生成采集任务信息;
步骤S1013,通过所述数据库类型对应的监听器监听所述采集任务信息时,基于所述采集任务信息执行数据采集操作,以获得所述第一商户数据元数据。
本实施例中,对于每一个第一商户数据元数据对应的商户数据源,可实时或者定时采集第一商户数据元数据,基于商户数据源的参数确定连通性,若连通性为连通则确定商户数据源当前是否采集过,若未采集则确定商户数据源可采集,此时确定所述商户数据源对应的数据库类型,例如,数据库类型包括MySQL和Mongodb,接着,基于所述数据库类型生成采集任务信息,将采集任务信息通过消息队列发送给采集应用,并更新所述数据源对应的采集状态。
而后,通过所述数据库类型对应的监听器监听所述采集任务信息时,基于所述采集任务信息执行数据采集操作,以获得所述第一商户数据元数据,具体的,采集应用通过数据库类型对应的监听器监听所述采集任务信息时,基于采集任务信息执行数据采集操作,将采集结果(第一商户数据元数据)写到数据库,并更新所述数据源对应的采集状态。
步骤S102,基于第一商户数据元数据对应的数据表的字段与预设数据检测规则之间的绑定关系,在预设规则库中获取第一商户数据元数据对应的数据检测规则;
本实施例中,预设规则库中已预先写入第一商户数据元数据对应的预设数据检测规则,预设数据检测规则与每一个第一商户数据元数据的数据表的字段绑定,即预设规则库中存在与每一个第一商户数据元数据的数据表的字段具有绑定关系的预设数据检测规则。
获取到第一商户数据元数据时,获取第一商户数据元数据对应的数据表的字段与预设数据检测规则之间的绑定关系,基于该绑定关系在预设规则库中获取第一商户数据元数据对应的数据检测规则。
其中,预设数据检测规则包括通用规则以及自定义规则,通用规则包括类型、日期、URL、格式、内容安全等规则,自定义规则可以为基于各个第一商户数据元数据所对应的正常元数据样本生成的规则。可通过问题数据引起的缺陷进行归因分析发现,问题数据的归因主要集中在:类型不符、数据格式不符规范、图片无效、URL链接无效、内容不合规等方面。通过归因分析,提炼出检测规则,形成预设规则库的预设数据检测规则。
步骤S103,基于各个第一商户数据元数据以及所述数据检测规则,选择各个第一商户数据元数据对应的待检测表,并基于各个待检测表创建检测任务;
本实施例中,在获取到数据检测规则时,基于各个第一商户数据元数据以及所述数据检测规则,选择各个第一商户数据元数据对应的待检测表,即每一个商户的第一商户数据元数据对应一个待检测表,每一个待检测表包括一个第一商户数据元数据以及与该第一商户数据元数据绑定的数据检测规则。
获取到待检测表之后,基于各个待检测表生成检测任务,具体的,可以生成一个或多个检测任务,每一个检测任务均可包括多个待检测表。
步骤S104,通过任务调度管理确定所述检测任务对应的检测程序,并通过所述检测程序对所述检测任务执行数据检测操作,获得数据检测结果。
本实施例中,通过任务调度管理调度各个检测任务,具体的,通过任务调度管理确定所述检测任务对应的检测程序,通过该检测程序对检测任务执行数据检测操作,获得数据检测结果,通过调度线程与任务执行线程分离,执行线程使用线程池来维护,各个检测任务互不干扰,达到了在有限资源的情况既保证了检测服务的性能,也保证了检测的质量。
本实施例中,获取到数据检测结果之后,可以将数据检测结果通过消息队列异步写入数据库,形成检测报告。如果数据检测结果中存在问题数据,则触发告警,并通过招乎机器人等推送给开发人员,充分评估问题数据对下游系统的影响,并形成处理干预措施:放行还是拦截。
本实施例提出的数据处理方法,通过获取多个第一商户数据元数据;接着基于第一商户数据元数据对应的数据表的字段与预设数据检测规则之间的绑定关系,在预设规则库中获取第一商户数据元数据对应的数据检测规则;而后基于各个第一商户数据元数据以及所述数据检测规则,选择各个第一商户数据元数据对应的待检测表,并基于各个待检测表创建检测任务;然后通过任务调度管理确定所述检测任务对应的检测程序,并通过所述检测程序对所述检测任务执行数据检测操作,获得数据检测结果。通过将数据检测规则与商户数据元数据数据表的字段进行绑定,可以实现多类型数据源的商户数据检测,通过检测任务的调度与检测任务的执行线程分离,使得各个检测任务互不干扰,达到了在有限资源的情况既保证了检测服务的性能,也保证了检测的质量,进而提升了商户数据的检测效率。通过规则库将检测规则与检测程序解偶,使得规则库可在各个数据场景中复用,提高了开发运维效率。
基于第一实施例,提出本发明数据处理方法的第二实施例,在本实施例中,该数据处理方法还包括:
步骤S201,对商户数据源进行数据采集操作,以获得所述商户数据源对应的第二商户数据元数据;
步骤S202,将所述第二商户数据元数据中预设数量的数据作为样本数据,并基于所述样本数据,生成所述第二商户数据元数据对应的预设数据检测规则,并将所述预设数据检测规则存储至所述预设规则库。
本实施例中,可以根据各个商户的商户数据源生成对应的数据检测规则,具体的,对商户数据源进行数据采集操作,以获得所述商户数据源对应的第二商户数据元数据,其中,第二商户数据元数据的数据采集过程与第一商户数据元数据的数据采集过程类似,在此不再赘述。
接着,将所述第二商户数据元数据中预设数量的数据作为样本数据,具体的,获取第二商户数据元数据中正确的数据,例如,通过人工检查的方式剔除第二商户数据元数据中异常的数据,将正确的数据中预设数量的数据作为样本数据,该预设数量可进行合理设置,例如预设数量为100。接着,基于样本数据,通过Trie树算法生成所述第二商户数据元数据对应的预设数据检测规则,并将预设数据检测规则存储至所述预设规则库,同时将该第二商户数据元数据对应的预设数据检测规则与第二商户数据元数据对应数据表的字段进行绑定,得到对应的绑定关系。
进一步地,在一可能实现方式中,该步骤S202包括:
步骤S2021,将所述样本数据与预设规则库的预设数据检测规则进行正则匹配,以确定所述预设数据检测规则中是否存在于所述样本数据正则匹配的目标数据检测规则;
步骤S2022,若存在所述目标数据检测规则,则将所述目标数据检测规则作为所述第二商户数据元数据对应的预设数据检测规则;
步骤S2023,若不存在所述目标数据检测规则,则基于所述样本数据通过Trie树算法生成所述第二商户数据元数据对应的预设数据检测规则。
本实施例中,获取到第二商户数据元数据对应的样本数据之后,将所述样本数据与预设规则库的预设数据检测规则进行正则匹配,以确定预设数据检测规则中是否存在于所述样本数据正则匹配的目标数据检测规则,即是否存在目标数据检测规则与各个样本数据均匹配,若存在所述目标数据检测规则,则将所述目标数据检测规则作为所述第二商户数据元数据对应的预设数据检测规则,以提升确定第二商户数据元数据对应的预设数据检测规则的效率。
若不存在所述目标数据检测规则,则基于所述样本数据通过Trie树算法生成所述第二商户数据元数据对应的预设数据检测规则,以准确得到第二商户数据元数据对应的预设数据检测规则。
本实施例提出的数据处理方法,通过对商户数据源进行数据采集操作,以获得所述商户数据源对应的第二商户数据元数据;接着将所述第二商户数据元数据中预设数量的数据作为样本数据,并基于所述样本数据,通过Trie树算法生成所述第二商户数据元数据对应的预设数据检测规则,并将所述预设数据检测规则存储至所述预设规则库,可以准确得到商户数据元数据所对应的预设数据检测规则,实现了数据检测规则的自动生成,使得数据处理过程具有易扩展的特性,在新增检测数据源通过配置的方式对新增数据的检测规则进行绑定,即可快速对接本实施例的数据数量方法的处理流程。通过规则库将检测规则与检测程序解偶,使得规则库可在各个数据场景中复用,提高了开发运维效率。
基于第二实施例,提出本发明数据处理方法的第三实施例,在本实施例中,步骤S2023包括:
步骤S301,将所述样本数据对应的字符串插入字典树中,以获得待处理字典树;
步骤S302,将待处理字典树中各个分支按照逻辑或的形式串联,以获得所述第二商户数据元数据对应的预设数据检测规则。
本实施例中,在生成第二商户数据元数据对应的预设数据检测规则时,先将本数据对应的字符串插入字典树中,对该字典树进行处理,直至该字典树不可变化时,获得待处理字典树。
接着,将待处理字典树中各个分支按照逻辑或的形式串联,以获得所述第二商户数据元数据对应的预设数据检测规则,进而可通过Trie树算法准确生成第二商户数据元数据对应的预设数据检测规则。
本实施例提出的数据处理方法,通过将所述样本数据对应的字符串插入字典树中,以获得待处理字典树;接着将待处理字典树中各个分支按照逻辑或的形式串联,以获得所述第二商户数据元数据对应的预设数据检测规则,可通过Trie树算法准确生成第二商户数据元数据对应的预设数据检测规则,提高了第二商户数据元数据对应的预设数据检测规则的准确性,进一步提升了数据检测效率。
基于第三实施例,提出本发明数据处理方法的第四实施例,在本实施例中,步骤S301包括:
步骤S401,将所述数据对应的字符串插入字典树中,获得第一字典树;
步骤S402,基于节点升级策略、节点合并策略以及节点剪枝策略,确定所述第一字典树是否可变化;
步骤S403,若所述第一字典树不可变化,将所述第一字典树作为所述待处理字典树;
步骤S404,若所述第一字典树可变化,则基于节点升级策略、节点合并策略以及节点剪枝策略,确定所述第一字典树对应的第二字典树;
步骤S405,将所述第二字典树作为所述第一字典树,并返回执行基于节点升级策略、节点合并策略以及节点剪枝策略,确定所述第一字典树是否可变化的步骤。
本实施例中,在生成第二商户数据元数据对应的预设数据检测规则时,先将本数据对应的字符串插入字典树中,获得第一字典树,接着,基于节点升级策略、节点合并策略以及节点剪枝策略,确定所述第一字典树是否可变化,即确定第一字典树中是否存在可升级节点、可合并节点以及可剪枝节点。
若所述第一字典树不可变化,即第一字典树中不存在可升级节点、可合并节点以及可剪枝节点,则将所述第一字典树作为所述待处理字典树。
若第一字典树可变化,即第一字典树中存在可升级节点、可合并节点以及可剪枝节点,则基于节点升级策略、节点合并策略以及节点剪枝策略,确定所述第一字典树对应的第二字典树,即对第一字典树中可升级节点、可合并节点或可剪枝节点进行节点升级、节点合并或节点剪枝,得到第二字典树。而后将所述第二字典树作为所述第一字典树,并返回执行步骤S402。
本实施例提出的数据处理方法,通过将所述数据对应的字符串插入字典树中,获得第一字典树;接着基于节点升级策略、节点合并策略以及节点剪枝策略,确定所述第一字典树是否可变化;而后若所述第一字典树不可变化,则将所述第一字典树作为所述待处理字典树;然后若所述第一字典树可变化,则基于节点升级策略、节点合并策略以及节点剪枝策略,确定所述第一字典树对应的第二字典树;最后将所述第二字典树作为所述第一字典树,并返回执行基于节点升级策略、节点合并策略以及节点剪枝策略,确定所述第一字典树是否可变化的步骤,可以准确生成第二商户数据元数据对应的预设数据检测规则,提高了第二商户数据元数据对应的预设数据检测规则的准确性,进一步提升了数据检测效率。
基于第四实施例,提出本发明数据处理方法的第五实施例,在本实施例中,步骤S404包括:
步骤S401,获取第一字典树中各个第一节点对应的子分支数;
步骤S402,若所述子分支数中存在大于预设分支数的目标子分支数,则在第一字典树中将所述目标子分支数对应的第一节点进行节点升级操作,以获得第三字典树;
步骤S403,若所述第三字典树的各个第二节点中存在值与对应子节点的值相同的目标节点,则将所述目标节点的子节点合并至所述目标节点,以获得第四字典树;
步骤S404,基于所述节点剪枝策略以及所述第四字典树,确定所述第二字典树。
本实施例中,先获取第一字典树中各个第一节点对应的子分支数,并判断子分支数中是否存在大于预设分支数的目标子分支数,若子分支数中存在大于预设分支数的目标子分支数,则在第一字典树中将目标子分支数对应的第一节点进行节点升级操作,以获得第三字典树。若不存在所述目标子分支数,则将所述第一字典树作为所述第三字典树。
接着,获取第三字典树的各个第二节点的值,以及各个第二节点所对应的子节点的值,并确定各个第二节点的值与其对应子节点的值是否相同,进而确定各个第二节点中是否存在值与对应子节点的值相同的目标节点,若所述第三字典树的各个第二节点中存在值与对应子节点的值相同的目标节点,则将所述目标节点的子节点合并至所述目标节点,以获得第四字典树;若所述第三字典树不存在目标节点,则将第三字典树作为第四字典树。
获取到第四字典树之后,基于所述节点剪枝策略以及所述第四字典树,确定所述第二字典树,具体的,在一可能实现方式中,该步骤S404包括:
步骤S4041,对于所述第四字典树中每一个第三节点,获取所述第四字典树中各个第三节点对应子分支的数据量,并基于所述数据量确定所述第三节点对应的平均数据量;
步骤S4042,基于所述数据量以及所述平均数据量,确定各个所述第三节点对应子分支的数据量比例;
步骤S4043,确定所述数据量比例中是否存在小于预设比例的目标数据量比例;
步骤S4044,若存在所述目标数据量比例,则在所述第四字典树减去所述目标数据量比例对应的子分支,以获得第二字典树。
本实施例中,对于第四字典树中每一个第三节点,获取第三节点对应子分支的数据量,并基于所述数据量确定所述第三节点对应的平均数据量,该平均数据量可以为第三节点对应子分支的数据量的均值,并基于数据量以及所述平均数据量,进而获得各个第三节点对应子分支的数据量以及平均数据量。
接着,基于所述数据量以及所述平均数据量,确定第三节点对应子分支的数据量比例,对于每一个第三节点,基于该第三节点对应的数据量以及平均数据量分别计算该第三节点对应的每一个子分支的数据量比例,该数据量比例为子分支的数据量/平均数据量。
接着,确定所述数据量比例中是否存在小于预设比例的目标数据量比例;若存在所述目标数据量比例,则在所述第四字典树减去所述目标数据量比例对应的子分支,以获得第二字典树,若不存在所述目标数据量比例,则将所述第四字典树作为所述第二字典树。
本实施例提出的数据处理方法,通过获取第一字典树中各个第一节点对应的子分支数;接着若所述子分支数中存在大于预设分支数的目标子分支数,则在第一字典树中将所述目标子分支数对应的第一节点进行节点升级操作,以获得第三字典树;而后若所述第三字典树的各个第二节点中存在值与对应子节点的值相同的目标节点,则将所述目标节点的子节点合并至所述目标节点,以获得第四字典树;然后基于所述节点剪枝策略以及所述第四字典树,确定所述第二字典树,可以准确得到第二字典树,进而根据第二字典树准确生成第二商户数据元数据对应的预设数据检测规则,提高了第二商户数据元数据对应的预设数据检测规则的准确性,进一步提升了数据检测效率。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有数据处理程序,所述数据处理程序被所述处理器执行时实现如上所述的数据处理方法的步骤。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种数据处理方法,其特征在于,所述数据处理方法包括以下步骤:
获取多个第一商户数据元数据;
基于第一商户数据元数据对应的数据表的字段与预设数据检测规则之间的绑定关系,在预设规则库中获取第一商户数据元数据对应的数据检测规则;
基于各个第一商户数据元数据以及所述数据检测规则,选择各个第一商户数据元数据对应的待检测表,并基于各个待检测表创建检测任务;
通过任务调度管理确定所述检测任务对应的检测程序,并通过所述检测程序对所述检测任务执行数据检测操作,获得数据检测结果。
2.如权利要求1所述的数据处理方法,其特征在于,所述数据处理方法还包括:
对商户数据源进行数据采集操作,以获得所述商户数据源对应的第二商户数据元数据;
将所述第二商户数据元数据中预设数量的数据作为样本数据,并基于所述样本数据,通过Trie树算法生成所述第二商户数据元数据对应的预设数据检测规则,并将所述预设数据检测规则存储至所述预设规则库。
3.如权利要求2所述的数据处理方法,其特征在于,所述基于所述样本数据,生成所述第二商户数据元数据对应的预设数据检测规则的步骤包括:
将所述样本数据与预设规则库的预设数据检测规则进行正则匹配,以确定所述预设数据检测规则中是否存在于所述样本数据正则匹配的目标数据检测规则;
若存在所述目标数据检测规则,则将所述目标数据检测规则作为所述第二商户数据元数据对应的预设数据检测规则;
若不存在所述目标数据检测规则,则基于所述样本数据通过Trie树算法生成所述第二商户数据元数据对应的预设数据检测规则。
4.如权利要求3所述的数据处理方法,其特征在于,所述基于所述样本数据通过Trie树算法生成所述第二商户数据元数据对应的预设数据检测规则的步骤包括:
将所述样本数据对应的字符串插入字典树中,以获得待处理字典树;
将待处理字典树中各个分支按照逻辑或的形式串联,以获得所述第二商户数据元数据对应的预设数据检测规则。
5.如权利要求4所述的数据处理方法,其特征在于,所述将所述样本数据对应的字符串插入字典树中,以获得待处理字典树的步骤包括:
将所述数据对应的字符串插入字典树中,获得第一字典树;
基于节点升级策略、节点合并策略以及节点剪枝策略,确定所述第一字典树是否可变化;
若所述第一字典树不可变化,则将所述第一字典树作为所述待处理字典树;
若所述第一字典树可变化,则基于节点升级策略、节点合并策略以及节点剪枝策略,确定所述第一字典树对应的第二字典树;
将所述第二字典树作为所述第一字典树,并返回执行基于节点升级策略、节点合并策略以及节点剪枝策略,确定所述第一字典树是否可变化的步骤。
6.如权利要求5所述的数据处理方法,其特征在于,所述基于节点升级策略、节点合并策略以及节点剪枝策略,确定所述第一字典树对应的第二字典树的步骤包括:
获取第一字典树中各个第一节点对应的子分支数;
若所述子分支数中存在大于预设分支数的目标子分支数,则在第一字典树中将所述目标子分支数对应的第一节点进行节点升级操作,以获得第三字典树;
若所述第三字典树的各个第二节点中存在值与对应子节点的值相同的目标节点,则将所述目标节点的子节点合并至所述目标节点,以获得第四字典树;
基于所述节点剪枝策略以及所述第四字典树,确定所述第二字典树。
7.如权利要求6所述的数据处理方法,其特征在于,所述基于所述节点剪枝策略以及所述第四字典树,确定所述第二字典树的步骤包括:
获取所述第四字典树中各个第三节点对应子分支的数据量,并基于所述数据量确定所述第三节点对应的平均数据量;
基于所述数据量以及所述平均数据量,确定各个所述第三节点对应子分支的数据量比例;
确定所述数据量比例中是否存在小于预设比例的目标数据量比例;
若存在所述目标数据量比例,则在所述第四字典树减去所述目标数据量比例对应的子分支,以获得第二字典树。
8.如权利要求1至7任一项所述的数据处理方法,其特征在于,所述获取多个第一商户数据元数据的步骤包括:
对于每一个第一商户数据元数据对应的商户数据源,在基于商户数据源的参数确定所述商户数据源可采集时,确定所述商户数据源对应的数据库类型;
基于所述数据库类型生成采集任务信息;
通过所述数据库类型对应的监听器监听所述采集任务信息时,基于所述采集任务信息执行数据采集操作,以获得所述第一商户数据元数据。
9.一种数据处理装置,其特征在于,所述数据处理装置包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据处理程序,所述数据处理程序被所述处理器执行时实现如权利要求1至8中任一项所述的数据处理方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有数据处理程序,所述数据处理程序被处理器执行时实现如权利要求1至8中任一项所述的数据处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310740686.7A CN116894104A (zh) | 2023-06-20 | 2023-06-20 | 数据处理方法、装置及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310740686.7A CN116894104A (zh) | 2023-06-20 | 2023-06-20 | 数据处理方法、装置及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116894104A true CN116894104A (zh) | 2023-10-17 |
Family
ID=88314187
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310740686.7A Pending CN116894104A (zh) | 2023-06-20 | 2023-06-20 | 数据处理方法、装置及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116894104A (zh) |
-
2023
- 2023-06-20 CN CN202310740686.7A patent/CN116894104A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110263009B (zh) | 日志分类规则的生成方法、装置、设备及可读存储介质 | |
CN101923557B (zh) | 数据分析系统及方法 | |
CN111552665B (zh) | 标注信息格式转换方法、装置、设备和介质 | |
CN112506757A (zh) | 自动测试方法、系统、计算机设备及其介质 | |
CN110795697A (zh) | 逻辑表达式的获取方法、装置、存储介质以及电子装置 | |
CN115438740A (zh) | 一种多源数据的汇聚融合方法和系统 | |
CN111367791B (zh) | 一种生成测试用例的方法、装置、介质和电子设备 | |
CN111367531B (zh) | 代码处理方法及装置 | |
CN112328246A (zh) | 页面组件生成方法、装置、计算机设备及存储介质 | |
CN115757075A (zh) | 任务异常检测方法、装置、计算机设备及存储介质 | |
CN115936895A (zh) | 基于人工智能的风险评估方法、装置、设备及存储介质 | |
CN115185797A (zh) | 视觉算法模型的测试方法、系统、电子设备及存储介质 | |
CN116644213A (zh) | Xml文件读取方法、装置、设备及存储介质 | |
CN113869789A (zh) | 一种风险监控的方法、装置、计算机设备及存储介质 | |
CN112835810B (zh) | 一种基于日志分析的接口测试方法及装置 | |
CN116894104A (zh) | 数据处理方法、装置及计算机可读存储介质 | |
CN110727576A (zh) | 一种web页面测试方法、装置、设备及存储介质 | |
CN111610908B (zh) | 一种生成框架图的方法、计算机设备及可读存储介质 | |
CN113419738A (zh) | 接口文档的生成方法、装置及接口管理设备 | |
CN111309623A (zh) | 一种坐标类数据分类测试方法及装置 | |
CN117574010B (zh) | 一种数据采集方法、装置、设备以及存储介质 | |
CN113535594B (zh) | 业务场景测试用例的生成方法、装置、设备和存储介质 | |
CN112487022B (zh) | 关联数据的采集方法、系统、存储介质及电子设备 | |
CN115687734A (zh) | 一种网页信息验证方法及相关装置 | |
CN107918672B (zh) | 信息处理方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |