CN113282623A - 数据处理方法及装置 - Google Patents
数据处理方法及装置 Download PDFInfo
- Publication number
- CN113282623A CN113282623A CN202110552795.7A CN202110552795A CN113282623A CN 113282623 A CN113282623 A CN 113282623A CN 202110552795 A CN202110552795 A CN 202110552795A CN 113282623 A CN113282623 A CN 113282623A
- Authority
- CN
- China
- Prior art keywords
- data
- processed
- service
- type
- data processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 60
- 238000012545 processing Methods 0.000 claims abstract description 196
- 238000007781 pre-processing Methods 0.000 claims abstract description 9
- 238000003860 storage Methods 0.000 claims description 23
- 238000000034 method Methods 0.000 claims description 21
- 238000005457 optimization Methods 0.000 claims description 17
- 238000000605 extraction Methods 0.000 claims description 13
- 238000012216 screening Methods 0.000 claims description 5
- 238000001914 filtration Methods 0.000 claims description 4
- 238000009795 derivation Methods 0.000 description 21
- 238000010586 diagram Methods 0.000 description 14
- 230000008569 process Effects 0.000 description 11
- 238000004140 cleaning Methods 0.000 description 9
- 230000007123 defense Effects 0.000 description 8
- 238000012795 verification Methods 0.000 description 7
- 230000008859 change Effects 0.000 description 5
- 238000013138 pruning Methods 0.000 description 4
- 238000009960 carding Methods 0.000 description 3
- 238000011144 upstream manufacturing Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 239000013589 supplement Substances 0.000 description 2
- 230000007474 system interaction Effects 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 235000013372 meat Nutrition 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24564—Applying rules; Deductive queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
- G06F16/2255—Hash tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本说明书实施例提供数据处理方法及装置,其中所述数据处理方法包括:接收针对目标对象的数据处理请求,并对所述数据处理请求中携带的业务数据进行预处理,获得所述目标对象对应的待处理数据;基于所述待处理数据确定所述待处理数据对应的数据字段类型,并基于所述数据字段类型提取所述待处理数据的特征值数据;根据所述待处理数据的特征值数据,确定所述待处理数据的关联数据表、业务属性信息、数据处理类型,并基于所述关联数据表、业务属性信息、数据处理类型生成数据处理条件。
Description
技术领域
本说明书实施例涉及计算机技术领域,特别涉及一种数据处理方法。本说明书一个或者 多个实施例同时涉及一种数据处理装置,一种计算设备,以及一种计算机可读存储介质。
背景技术
随着互联网技术的飞速发展,使得支付领域与互联网进行深度融合,促使第三方网络支 付日益普及,其中,资源的流转安全是银行、企业以及一些第三方平台的一大重点,而资源 核对作为质量防线的重要一环,针对目前的核对规则可采取人工核对,也可采取智能核对, 但人工核对的规则编写耗时以及规则遗漏的风险均较高,同时智能核对的噪音也较大,可读 性较差,对新业务部署也不够及时。
发明内容
有鉴于此,本说明书施例提供了一种数据处理方法。本说明书一个或者多个实施例同时 涉及一种数据处理装置,一种计算设备,以及一种计算机可读存储介质,以解决现有技术中 存在的技术缺陷。
根据本说明书实施例的第一方面,提供了一种数据处理方法,包括:
接收针对目标对象的数据处理请求,并对所述数据处理请求中携带的业务数据进行预处 理,获得所述目标对象对应的待处理数据;
基于所述待处理数据确定所述待处理数据对应的数据字段类型,并基于所述数据字段类 型提取所述待处理数据的特征值数据;
根据所述待处理数据的特征值数据,确定所述待处理数据的关联数据表、业务属性信息、 数据处理类型,并基于所述关联数据表、业务属性信息、数据处理类型生成数据处理条件。
根据本说明书实施例的第二方面,提供了一种数据处理装置,包括:
处理模块,被配置为接收针对目标对象的数据处理请求,并对所述数据处理请求中携带 的业务数据进行预处理,获得所述目标对象对应的待处理数据;
特征提取模块,被配置为基于所述待处理数据确定所述待处理数据对应的数据字段类型, 并基于所述数据字段类型提取所述待处理数据的特征值数据;
条件生成模块,被配置为根据所述待处理数据的特征值数据,确定所述待处理数据的关 联数据表、业务属性信息、数据处理类型,并基于所述关联数据表、业务属性信息、数据处 理类型生成数据处理条件。
根据本说明书实施例的第三方面,提供了一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令, 其中,所述处理器执行所述计算机可执行指令时实现所述数据处理方法的步骤。
根据本说明书实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机可 执行指令,该计算机指令被处理器执行时实现任意一项所述数据处理方法的步骤。
本说明书一个实施例通过接收针对目标对象的数据处理请求,并对所述数据处理请求中 携带的业务数据进行预处理,获得所述目标对象对应的待处理数据;基于所述待处理数据确 定所述待处理数据对应的数据字段类型,并基于所述数据字段类型提取所述待处理数据的特 征值数据;根据所述待处理数据的特征值数据,确定所述待处理数据的关联数据表、业务属 性信息、数据处理类型,并基于所述关联数据表、业务属性信息、数据处理类型生成数据处 理条件;通过对单个数据处理请求中的业务数据进行处理,再对获得的待处理数据进行特征 提取,以确定关联数据表、业务属性信息以及数据处理类型,进而自动推导出数据处理规则, 不仅避免了直接使用历史业务数据出现的复杂度高的噪音问题,自动推导规则也解决了人工 梳理工作量大、难度高的问题,同时也更加快速地适应新业务的部署。
附图说明
图1是本说明书一个实施例提供的一种数据处理方法的系统交互图;
图2是本说明书一个实施例提供的一种数据处理方法的流程图;
图3是本说明书一个实施例提供的一种数据处理方法的字段属性示意图;
图4是本说明书一个实施例提供的一种数据处理方法的生成数据核对规则的流程图;
图5是本说明书一个实施例提供的一种数据处理方法的用户查询或者优化数据处理条件 示意图;
图6是本说明书一个实施例提供的一种数据处理方法的规则推导过程示意图;
图7是本说明书一个实施例提供的一种数据处理装置的结构示意图;
图8是本说明书一个实施例提供的一种计算设备的结构框图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很 多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本说明书内涵的情况下 做类似推广,因此本说明书不受下面公开的具体实施的限制。
在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨 在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使 用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其 他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或 多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种 信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如, 在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二 也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时” 或“当……时”或“响应于确定”。
首先,对本说明书一个或多个实施例涉及的名词术语进行解释。
核对:上下游DB数据的检查机制。
规则:实现核对的具体脚本。
链路:一笔请求串联的上下游应用数据。
trace:链路中标识一笔请求的数据。
部署:代码或者规则的应用。
TM:一种分钟级核对。
TH:一种小时级核对。
T1:一种天极核对。
Avitor:分钟级核对的语法。
智人:一种智能核对。
四道防线:一种串联上下游数据的平台。
Zdal:sofa框架的数据库层。
drm:sofa框架的配置开关。
流量清洗:一种根据关键信息过滤日志的平台。
资金安全是金融业务的一大重点,核对作为质量防线的重要一环,它对于业务的重要性 不言而喻,目前的业务核对规则,主要有以下两种方式:第一,人工核对(TM/TH/T1),其 优点为规则准确、噪音小,其缺点为编写成本(链路分析耗时,编写规则耗时,平均至少占 一天排期)及遗漏风险都较高;第二,智能核对(智人),其优点为成本较低,线上数据丰富, 规则较全,其缺点为量大,噪音也大,可读性较差,对于新业务部署不够及时。
具体的,TM核对:首先需要人工确认待核对的字段,然后寻找这个字段在zdal日志出 现的情况,找出变更涉及的表和字段集合,并人肉寻找表表字段间的关联关系,因此,这种 模式可能导致两个问题(1、字段遗漏,人工梳理不全;2、人工梳理有很大的工作量和难度); 智人核对:基于线上真实的历史数据,进行特征挖掘,学习训练资源核对规则的自动生成, 因此,这种模式将导致上述问题(量大,噪音也大,可读性较差,对于新业务上线部署不够 及时)。
因此,针对上述业务核对规则都有不同的痛点问题:TM(编写成本及遗漏风险都较高), 智人(噪音大,可读性较差,对于新业务部署不够及时),本说明书实施例提供的数据处理方 法通过单笔链路的精准数据,自动推导跨表一致性核对并部署(流水字段一致性、金额一致 性、状态一致性、币种一致性、属性一致性等),以解决上述历史数据复杂度高导致的噪音问 题,也可提高人工规则的覆盖率和编写效率,通过本说明书实施例提供的数据处理方法得出 的规则准确有效且无噪音,大大缩减核对的人力投入成本。
在本说明书中,提供了一种数据处理方法,本说明书同时涉及一种数据处理装置,一种 计算设备,以及一种计算机可读存储介质,在下面的实施例中逐一进行详细说明。
图1示出了根据本说明书一个实施例提供的一种数据处理方法的系统交互图。
需要说明的是,本说明书实施例提供的数据处理方法可应用于业务平台,在该业务平台 中对业务数据对应的核对规则进行推导,并将推导后的核对规则部署在核对平台中,以实现 对业务平台中的业务数据进行核对。
图1中业务平台A由两部分组成,分别为数据获取模块A1、规则推导模块A2,首先根据日志清洗获取到业务数据,将该业务数据输入至数据获取模块A1中,对业务数据进行处理,获得宽表串联数据,规则推导模块A2对该宽表串联数据进行核对规则推导,获得数据核对规则,并将该数据核对规则部署在核对平台B。
具体的,业务平台A的数据获取模块A1,通过日志清洗获取业务数据,并基于四道防 线的链路数据串联能力,对业务数据进行链路剪枝、链路清洗、链路串联,进而获得该业务 数据对应的宽表串联数据,并将该宽表串联数据输入至规则推导模块A2,对该宽表串联数据 进行外键关联、特征提取、字段打标,对宽表串联数据进行规则推导,其中,字段打标是通 过智人提供的自动打标能力,获得数据核对规则,并对该数据核对规则进行语法转换,将转 换后的数据核对规则部署在核对平台中。
实际应用中,业务链路变更数据的获取(DB数据是业务发生完成最终的一环),目前是 基于流量清洗平台及四道防线对其进行支撑:流量清洗平台可支持迭代维度的变更trace集合 的查询功能,四道防线可根据trace进行链路数据串联能力,完成流式变更数据的汇集、串联 成业务宽表;针对串联数据推导规则的问题,一笔业务链路变更涉及的表通常有40+,一个 表的字段数有20+,这样数量级(800+)的字段间寻找关联关系,最重要的就是对表字段进 行抽象建模并区别对待,根据业务属性对字段进行分类,在相同的字段类型间寻找一致性, 如流水字段和流水字段间寻找一致性关系,金额和金额字段间寻找一致性关系,这样不仅可 以减少计算的复杂度也可以提高推导的准确性
本说明书实施例提供的数据处理方法,业务平台通过对业务数据进行预处理,获得待处 理的业务数据,并对该业务数据进行字段打标、特征抽取等操作,自动推导跨表一致性的核 对规则,不仅可以解决历史数据复杂度高导致的噪音问题,也可提高人工规则的覆盖率和编 写效率。
图2示出了根据本说明书一个实施例提供的一种数据处理方法的流程图,具体包括以 下步骤。
步骤202:接收针对目标对象的数据处理请求,并对所述数据处理请求中携带的业务数 据进行预处理,获得所述目标对象对应的待处理数据。
其中,目标对象可以理解为业务场景下的目标对象,比如,在业务交易场景下,该目标 对象可以为用户的单笔交易。
其中,数据处理请求可以理解为针对目标对象的数据处理请求,比如,对单笔交易的数 据核对请求,该数据核对请求可以包括订单核对请求、金额核对请求等。
其中,待处理数据可以理解为对业务数据进行预处理后的待推导出相应的规则的数据, 可以为带有数据字段的库表类数据。
具体的,业务平台在接收到针对目标对象的数据处理请求后,并对该数据处理请求中携 带的业务数据进行预处理,进而获得目标对象对应的待处理数据,需要说明的是,数据处理 请求中携带的业务数据包括完成该业务的全部数据,待处理数据可以为与数据处理请求相关 的业务的数据,即待处理数据为业务数据筛选后的一部分数据;比如,业务平台接收了针对 单笔交易数据的交易额核对请求,则对该单笔交易数据先进行预处理,获得该单笔交易数据 中与金额相关的待处理数据。
为了精准地获取该目标对象对应的待处理数据,则对数据处理请求中携带的业务数据进 行处理,确定待处理数据;具体的,所述对所述数据处理请求中携带的业务数据进行预处理, 获得所述目标对象对应的待处理数据,包括:
确定所述数据处理请求中携带的业务数据以及所述业务数据对应的标签,基于所述标签 确定所述业务数据的业务类型;
基于所述业务类型从所述业务数据中筛选出与目标业务类型对应的候选业务数据;
基于所述候选业务数据确定所述目标对象对应的待处理数据。
其中,业务类型可以理解为根据业务数据的标签确定的数据类型,比如,交易类的业务 数据,对应的业务类型可以有商品类数据类型、订单类数据类型、金额类数据类型等。
其中,目标业务类型可以理解为在业务类型中筛选出的与数据处理请求相关联的目标业 务类型,比如,数据处理请求为交易额核对请求,那么在业务数据中即可筛选出金额类数据 类型的数据,作为待处理数据进行下一步处理。
其中,候选业务数据为在业务数据中筛选出与目标业务类型无关的业务数据之后,所剩 余的业务数据。
具体的,业务平台在接收到数据处理请求中携带的业务数据后,可确定数据处理请求中 携带的业务数据以及业务数据对应的标签,并基于该标签确定业务数据的业务类型,可基于 该业务类型从业务数据中筛选出与目标业务类型对应的候选业务数据,进而基于该候选业务 数据确定目标对象对应的待处理数据。
实际应用中,对业务数据进行处理获得待处理数据的过程中,可以理解为针对业务单个 链路的剪枝操作,筛选出与数据处理请求不相关的业务数据,将剩余的业务数据作为待处理 数据继续进行数据处理;其中,业务数据对应的标签可以为表示业务数据类型的标签,比如, 业务数据为“订单未完成”,其对应的业务数据的标签可以为“订单”标签,在确定出与目标 业务类型对应的候选业务数据后,该候选业务数据即可作为后续核对规则的待处理数据。
例如,若数据处理请求中携带的业务数据为单笔交易数据,业务平台在确定出该单笔交 易数据对应的标签有商品标签、订单标签、金额标签等,基于上述标签可确定出该业务数据 的业务类型为金额类数据类型,则可从金额类数据类型的业务数据中筛选出与该金额标签相 对应的候选业务数据,作为后续进行处理的待处理数据。
在对业务数据进行链路剪枝后,还需对候选业务数据进行链路清洗、链路串联,进而确 定所述目标对象对应的待处理数据;具体的,所述基于所述候选业务数据确定所述目标对象 对应的待处理数据,包括:
对所述候选业务数据进行过滤处理,获得备选业务数据;
基于所述业务类型确定所述备选业务数据的存储方式,并基于所述存储方式确定所述目 标对象对应的待处理数据。
其中,备选业务数据可以理解为对候选业务数据进行链路清洗后的业务数据,该链路清 洗可以为对数据进行去重、去冗余或者合并处理。
具体的,业务平台在对数据处理请求中携带的业务数据进行链路剪枝处理后,对获得的 候选业务数据进行过滤处理,获得备选业务数据,并基于业务类型确定出该备选业务数据的 存储方式,并基于该存储方式确定目标对象对应的待处理数据。
实际应用中,在对业务数据进行筛选后,可筛选出与目标业务类型候选业务数据,但候 选业务数据可能会存在重复或者冗余的数据内容,也可能业务数据的一个数据表中,数据已 经做了多次变更,进而需要对出现上述问题的候选业务数据进行去重、去冗余或者合并处理, 获得过滤后的备选业务数据,并根据该业务数据的业务类型确定备选业务数据的存储方式, 需要说明的是,该备选业务数据的存储方式可基于业务数据的业务类型适应性的调整,以确 定该业务类型对应的备选业务数据的存储方式,比如,对备选业务数据按分库分表的形式进 行存储,且基于业务类型为金额类数据类型,则可确定在备选业务数据的多个数据表中,可 将关于金额类的数据表放置在多个数据表的前几个数据表中,并可将剩余的数据表进行串联 存储,最后,基于该种存储方式确定目标对象对应的待处理数据。
本说明书实施例提供的数据处理方法,通过对候选业务数据进行过滤处理,并确定相对 应的存储方式,进而确定出目标对象对应的待处理数据,实现对业务数据有效性处理,以便 于后续基于待处理数据可推导出相应的数据核对规则,自动将该数据核对规则部署在核对平 台进行数据核对。
步骤204:基于所述待处理数据确定所述待处理数据对应的数据字段类型,并基于所述 数据字段类型提取所述待处理数据的特征值数据。
其中,数据字段类型可以理解为根据待处理数据的数据表中的数据字段确定的字段类型, 比如,流水字段、金额字段、币种字段、状态字段、属性字段等。
其中,特征值数据可以理解为对待处理数据的分库分表中数据字段对应的数据值,进行 抽象处理后的特征值数据。
具体的,业务平台基于待处理数据可确定出待处理数据对应的数据字段类型,根据该数 据字段类型可提取出待处理数据中每个数据字段类型对应的特征值数据。
进一步地,所述基于所述待处理数据确定所述待处理数据对应的数据字段类型,包括:
确定所述待处理数据的至少两个数据表,确定每个数据表中的待处理数据在所述数据表 中对应的数据字段类型。
具体的,在业务平台确定出分库分表的待处理数据之后,可确定出待处理数据具有的至 少两个数据表,并对每个数据表中的待处理数据在该数据表中对应的数据字段类型,实际应 用中,若业务平台确定出待处理数据具有3个数据表,那么根据每个数据表中的数据可确定 出不同的数据字段类型,比如,表1中有流水字段、金额字段、状态字段、币种字段、属性 字段;表2中有流水字段、金额字段、币种字段、属性字段;表3中有流水字段、属性字段、 状态字段。
实际应用中,业务平台可基于字段打标原理,根据字段命名及字段内容对数据表的字段 进行抽象归类,具体也可划分为五类:流水类、金额类、属性类、币种类以及状态类;具体 可参见图3,图3示出了一个实施例提供的一种数据处理方法的字段属性示意图。
图3中字段属性可包括流水字段、金额字段、币种字段、属性字段、状态字段五种,其 中,流水字段包括账号、单据,且每个字段属性后均具有相应的数据字符串,比如,在一个 应用场景中,流水字段比较关键,通常会作为表表之间的关联外键,其特征可归纳为:列名 以no或者id结尾且该值长度超过12且小于128,不是日期类型,不包含=、{、}等特殊符号, 且数字的比例超过75%。
需要说明的是,每个数据表所具有的数据字段类型在每个数据表中可以不一致,可根据 数据表中实际存在的数据确定的,本说明书对数据字段类型的确定方式不做任何限定。
本说明书实施例提供的数据处理方法,在每个数据表中确定相应的数据字段类型,以便 于后续根据该数据字段类型对数据表中的数据进行分类处理,实现对业务数据的规则推导, 进而可快速地确定数据处理规则。
为了实现对待处理数据的特征值数据的提取,可对待处理数据进行分类处理,获得待处 理数据的分类数据表;具体的,所述基于所述数据表中的待处理数据确定所述待处理数据的 数据字段类型之后,还包括:
基于所述数据字段类型对所述数据表的待处理数据进行分类处理,获得分类处理后的分 类数据表。
其中,分类数据表可以理解为对数据表中的数据按照数据字段类型进行分类后,获得的 数据表。
具体的,业务平台在确定数据字段类型之后,可基于该数据字段类型对数据表中的数据 进行分类处理,且将属于同一数据字段类型的数据归类在同一数据表中的位置,即可获得分 类处理后的分类数据表。
实际应用中,业务平台对数据表中的待处理数据进行分类处理,可看作为字段打标,这 一阶段需要完成模型的抽象,在确定出字段打标后的数据表之后,以便于后续根据每个数据 表中的数据字段类型对待处理数据进行特征提取,进而实现对该待处理数据进行处理的规则 推导。
本说明书实施例提供的数据处理方法,通过对数据表中的待处理数据进行字段打标,以 实现对待处理数据基于数据字段类型进行分类,以便于后续对分类处理后的待处理进行特征 提取,进而实现针对待处理数据的规则推导。
为了实现对待处理数据的特征提取,可基于待处理数据的分类数据表中的列索引以及值 序列,进而确定待处理数据的特征值数据;具体的,基于所述数据字段类型提取所述待处理 数据的特征值数据,包括:
对所述分类数据表中的待处理数据进行特征处理,确定所述待处理数据的数据值以及所 述待处理数据的索引值;
基于所述分类数据表中的待处理数据、所述待处理数据的数据值以及所述待处理数据的 索引值,按照所述数据字段类型确定所述待处理数据的特征值数据。
其中,待处理数据的数据值,可以理解为对待处理数据在分类数据表中进行特征抽象提 取后的数据值。
其中,待处理数据的索引值,可以理解为表示对抽象后的数据值进行索引表示的索引值。
具体的,业务平台在确定好待处理数据的至少两个分类数据表之后,对每个分类数据表 中的待处理数据进行特征处理,以确定待处理数据的数据值以及待处理数据的索引值,并基 于每个分类数据表中的待处理数据以及相关的列索引信息以及值序列,按照打标后获得的数 据字段类型合并到对应的数据表中,进而每个数据表可确定出待处理数据的特征值数据。
实际应用中,业务平台获得的原始待处理数据分散在至少两张数据表中,需要弱化原来 的结构,可以用HashMap(哈希映射)存储来简化一致性规则的挖掘,首先可将待处理数据 抽象成两部分:值序列以及列索引,然后将所有数据表中的待处理数据集相关的列索引信息 按照打标结果合并到对应的数据表中。
本说明书实施例提供的数据处理方法,通过对分类数据表中的待处理数据进行特征处理, 确定待处理数据的数据值以及索引值,进而确定待处理数据的特征值数据,以便于后续根据 待处理数据的特征值数据自动推导出数据核对规则。
步骤206:根据所述待处理数据的特征值数据,确定所述待处理数据的关联数据表、业 务属性信息、数据处理类型,并基于所述关联数据表、业务属性信息、数据处理类型生成数 据处理条件。
其中,关联数据表可以理解为根据待处理数据的特征值数据确定的相互关联的数据表, 比如,在几个数据表中,流水类字段通常作为外键关联字段,可确定出表1和表2为关联数 据表。
其中,业务属性信息可以理解为根据属性类字段和状态字段作为前置条件,确定相应的 业务场景。
其中,数据处理类型可以理解为针对待处理数据具体的核对内容,比如,针对金额类的 字段,可以确定该字段类型的待处理数据可进行算术运算。
具体的,业务平台可根据待处理数据的特征值,确定数据表中的待处理数据的关联数据 表、业务属性信息、数据处理类型,并根据外键关联字段确定的关联数据表、根据待处理数 据的特征值确定的业务属性信息以及确定待处理数据的数据处理类型,组装为待处理数据的 数据处理条件。
实际应用中,确定关联数据表可根据实际应用确定关联数据表的字段,比如,流水类字 段通常会作为外键关联字段,同时也会利用业务平台提供的链路数据串联能力获取外键关联 数据表的信息,对关联的数据表进行调整,也支持drm(数字权限管理技术)手工配置关联 外键进行补充,以提高确定关联数据表的准确性;确定待处理数据的业务属性信息也可根据 实际应用确定推导数据核对规则的前置条件,其中,前置条件可以理解为待处理数据的业务 场景,将业务场景作为前置条件,以支持各种业务场景,适应于核对的多样性;数据处理类 型可针对不同的字段类型,确定不同的核对手段,进而基于外键关联、前置条件以及核对内 容组装为数据核对规则。
进一步地,所述根据所述待处理数据的特征值数据,确定所述待处理数据的关联数据表, 包括:
根据所述待处理数据的特征值数据确定所述待处理数据的关联数据字段类型,基于所述 关联数据字段类型在所述特征值数据中确定所述待处理数据的关联数据表。
其中,关联数据字段类型可以理解为数据表之间相互具有关联关系的数据字段,比如, 流水字段在各个数据表中具有相互的关联关系,那么流水字段类型可确定为关联数据字段类 型。
具体的,业务平台可根据待处理数据的特征值确定待处理数据的关联数据字段类型,并 基于关联数据字段类型在特征值数据中确定待处理数据的关联数据表,比如,待处理数据的 特征值中的流水类字段类型,在多张数据表中具有关联性,那么可确定流水类字段类型作为 关联数据字段类型,进而确定流水类字段类型关联的数据表为关联数据表。
实际应用中,流水类字段通常会作为外键关联字段,同时也会利用业务平台的四道防线 提供的链路数据串联能力对推导的外键关联字段进行调整,同时也支持drm手工配置外键进 行补充,以提高外键的准确性。
本说明书实施例提供的数据处理方法,根据待处理数据的特征值数据确定关联数据字段 类型,进而确定待处理数据的关联数据表,以便于后续根据关联数据表自动推导出数据核对 规则所涉及的核对数据表。
更进一步地,所述根据所述待处理数据的特征值数据,确定所述待处理数据的业务属性 信息,包括:
基于所述待处理数据的特征值数据,确定与所述待处理数据的数据字段类型中的属性字 段类型以及状态字段类型;
基于所述属性字段类型以及所述状态字段类型确定所述待处理数据的业务属性信息。
具体的,业务平台基于待处理数据的特征值数据,确定与所述待处理数据的数据字段类 型中的属性字段类型以及状态字段类型,将属性字段类型以及状态字段类型作为前置条件, 确定相应的业务场景,即确定待处理数据的业务属性信息。
实际应用中,属性字段类型和状态字段类型通常作为前置条件,考虑到特殊场景,比如 表表之间没有属性和状态字段,可以将非空作为前置条件,以支持核对的多样性,根据不同 的业务属性信息,可确定出不同的业务场景信息。
本说明书实施例提供的数据处理方法,通过确定待处理数据的属性字段类型以及状态字 段类型,可确定待处理数据的业务属性信息,以便于后续自动推导出符合该业务场景的通用 的数据核对规则。
此外,数据处理条件还需业务平台确定数据处理类型,进而获得数据处理条件;具体的, 所述根据所述待处理数据的特征值数据,确定所述待处理数据的数据处理类型,包括:
基于所述待处理数据的特征值数据以及所述业务类型,确定待处理字段类型,并基于所 述待处理字段类型确定所述待处理数据的特征值数据的处理方式;
根据所述待处理字段类型以及所述处理方式确定数据处理类型。
其中,待处理字段类型可以理解为数据处理条件中针对核对内容的待核对数据的字段类 型。
其中,待处理数据的特征值数据的处理方式可以理解为针对不同的待处理字段类型确定 的相应的处理方式。
具体的,业务平台可针对待处理数据的特征值数据以及业务类型,确定待处理字段类型, 并基于待处理字段类型确定待处理数据的特征值数据的处理方式,最后,可根据待处理字段 类型以及处理方式确定数据处理类型。
实际应用中,根据待处理数据的业务类型可以确定出待处理字段类型,比如,待处理数 据的业务类型为交易类,则待处理字段类型可以为金额类的字段或者订单号字段类型,根据 不同的待处理字段类型,确定不同的特征值的处理方式,比如,金额类的字段可以进行算术 运算,订单号类型字段、状态类型字段的数据可以进行相等判断,状态类型字段还可以进行 映射判断,最后,基于数据处理类型推导出数据处理条件,即数据核对规则。
本说明书实施例提供的数据处理方法,根据待处理数据的特征值以及业务类型,确定待 处理字段类型以及待处理字段类型对应的处理方式,进而确定数据处理类型,以便于后续根 据数据处理类型自动推导出待处理数据的数据处理条件。
参见图4,图4示出了本说明书一实施例提供的数据处理方法生成数据核对规则的流程 图。
步骤402:业务平台确定待处理数据的特征值数据序列。
步骤404:业务平台基于该特征值数据序列中的流水特征数据确定外键关联。
步骤406:业务平台基于该特征值数据序列中的属性特征数据确定前置条件。
步骤408:业务平台基于金额/流水/币种/状态推导一致性内容。
步骤410:业务平台基于外键关联、前置条件、以及一致性内容生成数据核对规则(外 键关联、前置条件、核对内容)。
需要说明的是,业务平台在生成数据核对规则的过程中,可利用人工模型或者四道防线 为规则推导过程,通过接口提供链路数据串联能力。
本说明书实施例提供的数据处理方法,通过对待处理数据进行数据抽象,获取特征值数 据序列,并根据待处理数据的特征数据确定外键关联、前置条件以及核对内容,进而可快速 地自动推导出数据处理条件。
此外,本说明书另一实施例提供的数据处理方法,还包括:
接收数据处理平台基于所述业务数据以及所述业务数据对应的数据处理条件处理所述业 务数据的处理结果;
接收用户针对所述数据处理条件的查询请求,并基于所述查询请求中携带的用户标识, 将所述数据处理条件向所述用户展示。
其中,数据处理平台可以理解为针对待处理数据的数据核对平台,比如,将业务平台自 动推导的核对规则以及待处理数据部署在数据处理平台后,数据处理平台可基于该核对规则 对待处理数据进行数据核对。
具体的,业务平台不仅可基于上述实施例自动推导出待处理数据的核对规则,也可接收 到数据处理平台就要业务数据以及业务数据对应的数据处理条件处理所述业务数据的处理结 果,在此之后,在服务平台接收到用户针对业务数据的数据处理条件的查询请求之后,可基 于该查询请求中携带的用户标识,确定相应的用户,且将待处理数据对应的数据处理条件向 与该用户标识对应的用户展示。
实际应用中,业务平台可提供对数据处理条件的查询操作,将业务数据输入至业务平台 后,业务平台可为该业务数据自动推导出相应的核对规则,用户可在业务平台中查询推导后 的核对规则,需要说明的是,针对不同的业务数据,自动推导出的核对规则可能不同,但是 属于同一业务类型的业务数据,可使用同一个核对规则。
本说明书实施例提供的数据处理方法,业务平台可以为用户提供数据处理条件查询的机 会,不仅可以提升用户体验度,也进而为后续对数据处理条件进行优化提供的条件。
为了进一步获得符合用户需求的数据处理条件,用户也可针对业务平台自动推导的数据 核对规则进行优化处理;具体的,所述将所述数据处理条件向所述用户展示之后,还包括:
接收用户针对所述数据处理条件的优化请求,基于所述优化请求中携带的优化数据,对 所述数据处理条件进行优化处理,获得目标数据处理条件。
具体的,业务平台在接收到用户针对数据处理条件的优化请求之后,用户可对该数据处 理条件进行编辑优化,基于优化请求中携带的优化数据,对数据处理条件进行优化处理,获 得目标数据处理条件。
实际应用中,用户可针对业务平台自动推导的数据处理条件进行优化处理,比如优化推 导规则的前置条件、规则文本等内容,以实现对数据处理条件的优化,获得目标数据处理条 件,需要说明的是,对数据处理条件具体的优化方式可为多种优化方式,本说明书实施例对 此不做过多限定。
参见图5,图5示出了本说明一实施例提供的数据处理方法的用户查询或者优化数据处 理条件示意图。
图5中A部分为用户输入业务数据,即可查询出该业务数据对应的数据处理条件(数据 核对规则),图5中B部分为用户可针对数据核对规则进行优化更新,进而将更新后的数据 核对规则保存至业务平台。
具体的,用户将业务数据输入至图5中A部分的矩形输入框,再点击查询按钮后,即可 在该矩形输入框下展示数据核对规则中数据核对的关联数据表,可分为左表、右表、关联关 系、业务数据、操作这五栏数据,其中关联关系栏中可表示左表与右表之间的关联关系,可 确定针对业务数据的数据核对规则,主要是核对左表与右表之间的数据;点击操作栏中的查 看按钮,即可跳转为用户展示具体的数据核对规则;点击操作栏中的部署按钮,即可将该数 据核对规则部署在数据处理平台,数据处理平台可基于该数据核对规则对业务数据进行核对 处理;此外,图5中B部分为数据核对规则的展示模块,其中,展示模块中包括前置条件、 规则文本,以及编辑按钮和保存按钮,在用户在A部分点击查询按钮后,即可跳转至图5中 的B部分,用户可点击编辑按钮,对自动推导后的数据核对规则进行编辑,再点击保存按钮 后,即完成对数据核对规则的更新。
本说明书实施例提供的数据处理方法,业务平台为用户提供一个优化数据处理条件的机 会,不仅可以提升用户体验度,也进而为待处理数据提供准确性较高的核对规则。
参见图6,图6示出了本说明书一个实施例提供的一种数据处理方法的规则推导过程示 意图。
图6表示待处理数据的规则推导过程示意图,通过字段打标、特征提取、规则推导三个 步骤,对待处理数据的规则进行推导,首先,在字段打标阶段,对于数据表T1和T2中的待 处理数据确定数据字段类型,并根据数据字段类型对数据表中的待处理数据进行分类处理, 获得数据表T1’和T2’,其次,根据数据表T1’和T2’中的待处理数据进行特征提取,将特征提 取后的待处理数据按照数据字段类型进行分类确定,进而确定出待处理数据的相关联的数据 表、规则推导的前置条件以及核对内容,最后,规则推导,确定核对三要素(关联数据表、 前置条件和核对内容)。
需要说明的是,本说明书实施例提供的数据处理方法是基于单笔链路的精准数据推导的, 避免了历史数据复杂度高的噪音问题,也解决了智人目前支持不了新业务上线的问题(新业 务上线,业务量不足以支持规则推导);而本说明书实施例提供的数据处理方法是采用技术手 段解决数据获取和数据分析的过程(根据数据建模信息,抽取特征值信息,分而治之推导), 解决了人工梳理工作量大、难度高或者字段遗漏的痛点。
本说明书实施例提供的数据处理方法,业务平台自动推导的核对规则的覆盖的表和字段 比人工核对更全,可读性比智人核对更符合条件,在核对规则上线后的告警数量为0,则表 示线上业务实际运行平稳,说明核对规则有效,无噪音,可节省大量的人力投入成本(编写 规则、调试规则及规则维护)。
与上述方法实施例相对应,本说明书还提供了数据处理装置实施例,图7示出了本说明 书一个实施例提供的一种数据处理装置的结构示意图。如图7所示,该装置包括:
处理模块702,被配置为接收针对目标对象的数据处理请求,并对所述数据处理请求中 携带的业务数据进行预处理,获得所述目标对象对应的待处理数据;
特征提取模块704,被配置为基于所述待处理数据确定所述待处理数据对应的数据字段 类型,并基于所述数据字段类型提取所述待处理数据的特征值数据;
条件生成模块706,被配置为根据所述待处理数据的特征值数据,确定所述待处理数据 的关联数据表、业务属性信息、数据处理类型,并基于所述关联数据表、业务属性信息、数 据处理类型生成数据处理条件。
可选地,所述处理模块702,进一步被配置为:
确定所述数据处理请求中携带的业务数据以及所述业务数据对应的标签,基于所述标签 确定所述业务数据的业务类型;
基于所述业务类型从所述业务数据中筛选出与目标业务类型对应的候选业务数据;
基于所述候选业务数据确定所述目标对象对应的待处理数据。
可选地,所述处理模块702,进一步被配置为:
对所述候选业务数据进行过滤处理,获得备选业务数据;
基于所述业务类型确定所述备选业务数据的存储方式,并基于所述存储方式确定所述目 标对象对应的待处理数据。
可选地,所述特征提取模块704,进一步被配置为:
确定所述待处理数据的至少两个数据表,确定每个数据表中的待处理数据在所述数据表 中对应的数据字段类型。
可选地,所述特征提取模块704,进一步被配置为:
基于所述数据字段类型对所述数据表的待处理数据进行分类处理,获得分类处理后的分 类数据表。
可选地,所述特征提取模块704,进一步被配置为:
对所述分类数据表中的待处理数据进行特征处理,确定所述待处理数据的数据值以及所 述待处理数据的索引值;
基于所述分类数据表中的待处理数据、所述待处理数据的数据值以及所述待处理数据 的索引值,按照所述数据字段类型确定所述待处理数据的特征值数据。
可选地,所述条件生成模块706,进一步被配置为:
根据所述待处理数据的特征值数据确定所述待处理数据的关联数据字段类型,基于所述 关联字段类型在所述特征值数据中确定所述待处理数据的关联数据表。
可选地,所述条件生成模块706,进一步被配置为:
基于所述待处理数据的特征值数据,确定与所述待处理数据的数据字段类型中的属性字 段类型以及状态字段类型;
基于所述属性字段类型以及所述状态字段类型确定所述待处理数据的业务属性信息。
可选地,所述条件生成模块706,进一步被配置为:
基于所述待处理数据的特征值数据以及所述业务类型,确定待处理字段类型,并基于所 述待处理字段类型确定所述待处理数据的特征值数据的处理方式;
根据所述待处理字段类型以及所述处理方式确定数据处理类型。
可选地,所述装置,还包括:
接收数据处理平台基于所述业务数据以及所述业务数据对应的数据处理条件处理所述业 务数据的处理结果;
接收用户针对所述数据处理条件的查询请求,并基于所述查询请求中携带的用户标识, 将所述数据处理条件向所述用户展示。
可选地,所述装置,还包括:
接收用户针对所述数据处理条件的优化请求,基于所述优化请求中携带的优化数据,对 所述数据处理条件进行优化处理,获得目标数据处理条件。
本说明书实施例提供的数据处理装置,通过对单个数据处理请求中的业务数据进行处理, 再对获得的待处理数据进行特征提取,以确定关联数据表、业务属性信息以及数据处理类型, 进而自动推导出数据处理规则,不仅避免了直接使用历史业务数据复杂度高的噪音问题,自 动推导规则也解决了人工梳理工作量大、难度高的问题,同时也更快速地适应新业务部署。
上述为本实施例的一种数据处理装置的示意性方案。需要说明的是,该数据处理装置的 技术方案与上述的数据处理方法的技术方案属于同一构思,数据处理装置的技术方案未详细 描述的细节内容,均可以参见上述数据处理方法的技术方案的描述。
图8示出了根据本说明书一个实施例提供的一种计算设备800的结构框图。该计算设备 800的部件包括但不限于存储器810和处理器820。处理器820与存储器810通过总线830相 连接,数据库850用于保存数据。
计算设备800还包括接入设备840,接入设备840使得计算设备800能够经由一个或多 个网络860通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、 个域网(PAN)或诸如因特网的通信网络的组合。接入设备840可以包括有线或无线的任何 类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网 (WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB) 接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
在本说明书的一个实施例中,计算设备800的上述部件以及图8中未示出的其他部件也 可以彼此相连接,例如通过总线。应当理解,图8所示的计算设备结构框图仅仅是出于示例 的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部 件。
计算设备800可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备 (例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话 (例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动 设备,或者诸如台式计算机或PC的静止计算设备。计算设备800还可以是移动式或静止式 的服务器。
其中,处理器820用于执行如下计算机可执行指令,其中,所述处理器执行所述计算 机可执行指令时实现所述数据处理方法的步骤。
上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案 与上述的数据处理方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内 容,均可以参见上述数据处理方法的技术方案的描述。
本说明书一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处 理器执行时实现所述数据处理方法的步骤。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质 的技术方案与上述的数据处理方法的技术方案属于同一构思,存储介质的技术方案未详细描 述的细节内容,均可以参见上述数据处理方法的技术方案的描述。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一 些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍 然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺 序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是 有利的。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代 码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算 机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、 只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random AccessMemory)、 电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内 容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区, 根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动 作组合,但是本领域技术人员应该知悉,本说明书实施例并不受所描述的动作顺序的限制, 因为依据本说明书实施例,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人 员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定 都是本说明书实施例所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可 以参见其它实施例的相关描述。
以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙 述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书实施例的内 容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本说 明书实施例的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本说明书。 本说明书仅受权利要求书及其全部范围和等效物的限制。
Claims (14)
1.一种数据处理方法,包括:
接收针对目标对象的数据处理请求,并对所述数据处理请求中携带的业务数据进行预处理,获得所述目标对象对应的待处理数据;
基于所述待处理数据确定所述待处理数据对应的数据字段类型,并基于所述数据字段类型提取所述待处理数据的特征值数据;
根据所述待处理数据的特征值数据,确定所述待处理数据的关联数据表、业务属性信息、数据处理类型,并基于所述关联数据表、业务属性信息、数据处理类型生成数据处理条件。
2.根据权利要求1所述的数据处理方法,所述对所述数据处理请求中携带的业务数据进行预处理,获得所述目标对象对应的待处理数据,包括:
确定所述数据处理请求中携带的业务数据以及所述业务数据对应的标签,基于所述标签确定所述业务数据的业务类型;
基于所述业务类型从所述业务数据中筛选出与目标业务类型对应的候选业务数据;
基于所述候选业务数据确定所述目标对象对应的待处理数据。
3.根据权利要求2所述的数据处理方法,所述基于所述候选业务数据确定所述目标对象对应的待处理数据,包括:
对所述候选业务数据进行过滤处理,获得备选业务数据;
基于所述业务类型确定所述备选业务数据的存储方式,并基于所述存储方式确定所述目标对象对应的待处理数据。
4.根据权利要求1所述的数据处理方法,所述基于所述待处理数据确定所述待处理数据对应的数据字段类型,包括:
确定所述待处理数据的至少两个数据表,确定每个数据表中的待处理数据在所述数据表中对应的数据字段类型。
5.根据权利要求4所述的数据处理方法,所述基于所述数据表中的待处理数据确定所述待处理数据的数据字段类型之后,还包括:
基于所述数据字段类型对所述数据表的待处理数据进行分类处理,获得分类处理后的分类数据表。
6.根据权利要求5所述的数据处理方法,基于所述数据字段类型提取所述待处理数据的特征值数据,包括:
对所述分类数据表中的待处理数据进行特征处理,确定所述待处理数据的数据值以及所述待处理数据的索引值;
基于所述分类数据表中的待处理数据、所述待处理数据的数据值以及所述待处理数据的索引值,按照所述数据字段类型确定所述待处理数据的特征值数据。
7.根据权利要求1所述的数据处理方法,所述根据所述待处理数据的特征值数据,确定所述待处理数据的关联数据表,包括:
根据所述待处理数据的特征值数据确定所述待处理数据的关联数据字段类型,基于所述关联数据字段类型在所述特征值数据中确定所述待处理数据的关联数据表。
8.根据权利要求1所述的数据处理方法,所述根据所述待处理数据的特征值数据,确定所述待处理数据的业务属性信息,包括:
基于所述待处理数据的特征值数据,确定与所述待处理数据的数据字段类型中的属性字段类型以及状态字段类型;
基于所述属性字段类型以及所述状态字段类型确定所述待处理数据的业务属性信息。
9.根据权利要求2所述的数据处理方法,所述根据所述待处理数据的特征值数据,确定所述待处理数据的数据处理类型,包括:
基于所述待处理数据的特征值数据以及所述业务类型,确定待处理字段类型,并基于所述待处理字段类型确定所述待处理数据的特征值数据的处理方式;
根据所述待处理字段类型以及所述处理方式确定数据处理类型。
10.根据权利要求1所述的数据处理方法,还包括:
接收数据处理平台基于所述业务数据以及所述业务数据对应的数据处理条件处理所述业务数据的处理结果;
接收用户针对所述数据处理条件的查询请求,并基于所述查询请求中携带的用户标识,将所述数据处理条件向所述用户展示。
11.根据权利要求10所述的数据处理方法,所述将所述数据处理条件向所述用户展示之后,还包括:
接收用户针对所述数据处理条件的优化请求,基于所述优化请求中携带的优化数据,对所述数据处理条件进行优化处理,获得目标数据处理条件。
12.一种数据处理装置,包括:
处理模块,被配置为接收针对目标对象的数据处理请求,并对所述数据处理请求中携带的业务数据进行预处理,获得所述目标对象对应的待处理数据;
特征提取模块,被配置为基于所述待处理数据确定所述待处理数据对应的数据字段类型,并基于所述数据字段类型提取所述待处理数据的特征值数据;
条件生成模块,被配置为根据所述待处理数据的特征值数据,确定所述待处理数据的关联数据表、业务属性信息、数据处理类型,并基于所述关联数据表、业务属性信息、数据处理类型生成数据处理条件。
13.一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,其中,所述处理器执行所述计算机可执行指令时实现权利要求1-11任意一项所述数据处理方法的步骤。
14.一种计算机可读存储介质,其存储有计算机指令,该计算机指令被处理器执行时实现权利要求1-11任意一项所述数据处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110552795.7A CN113282623A (zh) | 2021-05-20 | 2021-05-20 | 数据处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110552795.7A CN113282623A (zh) | 2021-05-20 | 2021-05-20 | 数据处理方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113282623A true CN113282623A (zh) | 2021-08-20 |
Family
ID=77280585
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110552795.7A Pending CN113282623A (zh) | 2021-05-20 | 2021-05-20 | 数据处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113282623A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115631866A (zh) * | 2022-12-19 | 2023-01-20 | 成都瑞华康源科技有限公司 | 一种针对医疗大数据采集的快速精准去重方法 |
CN116303392A (zh) * | 2023-03-02 | 2023-06-23 | 重庆市规划和自然资源信息中心 | 关于不动产登记数据的多源数据表管理方法 |
CN116893952A (zh) * | 2023-09-11 | 2023-10-17 | 中移(苏州)软件技术有限公司 | 一种数据的处理方法、探针、采集逻辑处理单元和服务 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109325055A (zh) * | 2018-08-02 | 2019-02-12 | 阿里巴巴集团控股有限公司 | 业务关联数据表的筛选及核对方法、装置、电子设备 |
CN109615384A (zh) * | 2018-11-01 | 2019-04-12 | 阿里巴巴集团控股有限公司 | 时效性核对规则的生成方法、装置和服务器 |
WO2019128318A1 (zh) * | 2017-12-29 | 2019-07-04 | 华为技术有限公司 | 数据处理方法、装置和系统 |
CN110263071A (zh) * | 2019-05-31 | 2019-09-20 | 口碑(上海)信息技术有限公司 | 业务数据核对方法、装置、设备及系统架构 |
CN111930810A (zh) * | 2020-09-25 | 2020-11-13 | 蚂蚁智信(杭州)信息技术有限公司 | 数据规则挖掘方法及装置 |
CN112199416A (zh) * | 2020-09-30 | 2021-01-08 | 支付宝(杭州)信息技术有限公司 | 数据规则生成方法及装置 |
CN112380401A (zh) * | 2021-01-14 | 2021-02-19 | 蚂蚁智信(杭州)信息技术有限公司 | 业务数据的核对方法和装置 |
-
2021
- 2021-05-20 CN CN202110552795.7A patent/CN113282623A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019128318A1 (zh) * | 2017-12-29 | 2019-07-04 | 华为技术有限公司 | 数据处理方法、装置和系统 |
CN109325055A (zh) * | 2018-08-02 | 2019-02-12 | 阿里巴巴集团控股有限公司 | 业务关联数据表的筛选及核对方法、装置、电子设备 |
CN109615384A (zh) * | 2018-11-01 | 2019-04-12 | 阿里巴巴集团控股有限公司 | 时效性核对规则的生成方法、装置和服务器 |
CN110263071A (zh) * | 2019-05-31 | 2019-09-20 | 口碑(上海)信息技术有限公司 | 业务数据核对方法、装置、设备及系统架构 |
CN111930810A (zh) * | 2020-09-25 | 2020-11-13 | 蚂蚁智信(杭州)信息技术有限公司 | 数据规则挖掘方法及装置 |
CN112199416A (zh) * | 2020-09-30 | 2021-01-08 | 支付宝(杭州)信息技术有限公司 | 数据规则生成方法及装置 |
CN112380401A (zh) * | 2021-01-14 | 2021-02-19 | 蚂蚁智信(杭州)信息技术有限公司 | 业务数据的核对方法和装置 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115631866A (zh) * | 2022-12-19 | 2023-01-20 | 成都瑞华康源科技有限公司 | 一种针对医疗大数据采集的快速精准去重方法 |
CN116303392A (zh) * | 2023-03-02 | 2023-06-23 | 重庆市规划和自然资源信息中心 | 关于不动产登记数据的多源数据表管理方法 |
CN116303392B (zh) * | 2023-03-02 | 2023-09-01 | 重庆市规划和自然资源信息中心 | 关于不动产登记数据的多源数据表管理方法 |
CN116893952A (zh) * | 2023-09-11 | 2023-10-17 | 中移(苏州)软件技术有限公司 | 一种数据的处理方法、探针、采集逻辑处理单元和服务 |
CN116893952B (zh) * | 2023-09-11 | 2024-01-26 | 中移(苏州)软件技术有限公司 | 一种数据的处理方法、探针、采集逻辑处理单元和服务 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3989131A1 (en) | Method and system for realizing machine learning modeling process | |
CN111177569A (zh) | 基于人工智能的推荐处理方法、装置及设备 | |
CN113282623A (zh) | 数据处理方法及装置 | |
CN111784502A (zh) | 异常交易账户群体识别方法及装置 | |
CN108764984A (zh) | 一种基于大数据的电力用户画像构建方法及系统 | |
CN106649890A (zh) | 数据存储方法和装置 | |
WO2021190379A1 (zh) | 实现自动机器学习的方法及装置 | |
CN110807527A (zh) | 一种基于客群筛选的额度调整方法、装置和电子设备 | |
CN107679103B (zh) | 用于实体的属性分析方法及系统 | |
CN111325619A (zh) | 一种基于联合学习的信用卡欺诈检测模型更新方法及装置 | |
CN110163661A (zh) | 营销信息推广方法、装置、电子设备及计算机可读介质 | |
CN111882403A (zh) | 一种基于用户数据的金融服务平台智能推荐方法 | |
US20230421356A1 (en) | Determining a change to product information or user information via hashing | |
US20230043882A1 (en) | Method for assisting launch of machine learning model | |
CN110197426A (zh) | 一种信用评分模型的建立方法、装置及可读存储介质 | |
US11847599B1 (en) | Computing system for automated evaluation of process workflows | |
Lian | Implementation of computer network user behavior forensic analysis system based on speech data system log | |
CN110532448A (zh) | 基于神经网络的文档分类方法、装置、设备及存储介质 | |
CN115563176A (zh) | 一种电子商务数据处理系统及方法 | |
CN112767933B (zh) | 公路养护管理系统的语音交互方法、装置、设备及介质 | |
CN112561538B (zh) | 风险模型创制方法、装置、计算机设备及可读存储介质 | |
KR20230136410A (ko) | 개인에게 최적화된 정책을 추천하는 방법 및 장치 | |
CN111178535B (zh) | 实现自动机器学习的方法和装置 | |
CN114356860A (zh) | 对话生成方法及装置 | |
CN111915407A (zh) | 对象合规性检测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210820 |