CN108509485B - 数据的预处理方法、装置、计算机设备和存储介质 - Google Patents

数据的预处理方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN108509485B
CN108509485B CN201810125065.7A CN201810125065A CN108509485B CN 108509485 B CN108509485 B CN 108509485B CN 201810125065 A CN201810125065 A CN 201810125065A CN 108509485 B CN108509485 B CN 108509485B
Authority
CN
China
Prior art keywords
data
field
fields
model table
stored
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810125065.7A
Other languages
English (en)
Other versions
CN108509485A (zh
Inventor
陈旷雨
杨亮吉
王浩宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
OneConnect Financial Technology Co Ltd Shanghai
Original Assignee
OneConnect Financial Technology Co Ltd Shanghai
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by OneConnect Financial Technology Co Ltd Shanghai filed Critical OneConnect Financial Technology Co Ltd Shanghai
Priority to CN201810125065.7A priority Critical patent/CN108509485B/zh
Publication of CN108509485A publication Critical patent/CN108509485A/zh
Application granted granted Critical
Publication of CN108509485B publication Critical patent/CN108509485B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本申请涉及一种数据的预处理方法、系统、计算机设备和存储介质。所述方法包括:获取至少一个采样数据表,获取所述采样数据表的至少一个字段中存储的数据;获取数据模型表中的字段及预先配置的表字段的映射关系,所述映射关系包括所述数据模型表中的字段与所述采样数据表中的字段的一对一关系或一对多关系;根据所述映射关系,将该采样数据表的字段中存储的数据映射到该数据模型表的对应字段中,得到映射有数据的数据模型表;保存映射有数据的该数据模型表。本申请使得在面对不同的底层数据做相同的业务分析时,不需要重复的进行数据筛选,只需要调整映射关系即可自动实现数据的清洗,提高了数据的处理效率。

Description

数据的预处理方法、装置、计算机设备和存储介质
技术领域
本申请涉及数据处理技术领域,特别是涉及一种数据的预处理方法、装置、计算机设备和存储介质。
背景技术
随着用户的需求越来越多以及业务的多样化发展,目前在给某些企业做数据分析,例如给银行做做用户分群、精准营销等数据咨询项目时,通常需要对银行方提供的数据进行多层筛选,首先需要经过底层数据清洗,然后将清洗后的数据标准化、指标开发、建模分析等步骤,每个步骤都是根据各个银行的特点定制化的工作,其中耗时最长、工作内容最繁琐的是底层数据清洗和指标开发工作,其原因是银行的底层数据存储形式主要是为银行开展业务服务的,和数据建模分析的等需求有较大差异,需要人工先筛选出对分析有用的数据,再汇总成建模分析需要的统计指标,每次对另一家银行进行数据分析时,都需要大量的时间进行此项定制化的工作。
目前急需要一种能够自动对底层数据进行筛选和清洗的技术方案,以将不同银行的数据进行标准化处理,满足后期的使用需求。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高数据处理效率的数据的预处理方法、装置、计算机设备和存储介质。
一种数据的预处理方法,该方法包括:
获取至少一个采样数据表,获取所述采样数据表的至少一个字段中存储的数据;
获取数据模型表中的字段及预先配置的表字段的映射关系,所述映射关系包括所述数据模型表中的字段与所述采样数据表中的字段的一对一关系或一对多关系;
根据所述映射关系,将该采样数据表的字段中存储的数据映射到该数据模型表的对应字段中,得到映射有数据的数据模型表;
保存映射有数据的该数据模型表。
在其中一个实施例中,该方法还包括:
从保存的该数据模型表的字段存储的数据中抽取满足预设条件的样本数据;
将抽取的该样本数据输入至建模工具中进行建模。
在其中一个实施例中,在该保存映射有数据的该数据模型表的步骤之后,该方法还包括:
检测该数据模型表的各字段中存储的数据;
当检测的该数据中存在异常数据时,对该异常数据按照预设的处理方式进行处理。
在其中一个实施例中,该异常数据包括数值型异常数据;该对该异常数据按照预设的处理方式进行处理的步骤包括:
获取该数值型异常数据所在字段中的所有非异常的数值型数据;
计算获取的该数值型数据的平均值;
将该异常数据更新为计算的该平均值。
在其中一个实施例中,当所述映射关系为一对多关系时,该将该采样数据表的字段中存储的数据映射到该数据模型表的对应字段中的步骤包括:
获取不同的字段中存储的数值型数据;
根据预设的逻辑运算规则,对获取的该数值型数据进行逻辑运算;
将进行逻辑运算的结果映射到该数据模型表的对应字段中。
在其中一个实施例中,该方法还包括:
获取该数据模型表中的敏感字段;
对该敏感字段中存储的数据进行加密。
一种数据的预处理装置,该装置包括:
数据获取模块,用于获取至少一个采样数据表,获取所述采样数据表的至少一个字段中存储的数据;
字段获取模块,用于获取数据模型表中的字段及预先配置的表字段的映射关系,所述映射关系包括所述数据模型表中的字段与所述采样数据表中的字段的一对一关系或一对多关系;
映射模块,用于根据所述映射关系,将该采样数据表的字段中存储的数据映射到该数据模型表的对应字段中,得到映射有数据的数据模型表;
保存模块,用于保存映射有数据的该数据模型表。
在其中一个实施例中,该装置还包括:
检测模块,用于检测该数据模型表的各字段中存储的数据;
处理模块,用于当检测的该数据中存在异常数据时,对该异常数据按照预设的处理方式进行处理。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取至少一个采样数据表,获取所述采样数据表的至少一个字段中存储的数据;
获取数据模型表中的字段及预先配置的表字段的映射关系,所述映射关系包括所述数据模型表中的字段与所述采样数据表中的字段的一对一关系或一对多关系;
根据所述映射关系,将该采样数据表的字段中存储的数据映射到该数据模型表的对应字段中,得到映射有数据的数据模型表;
保存映射有数据的该数据模型表。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取至少一个采样数据表,获取所述采样数据表的至少一个字段中存储的数据;
获取数据模型表中的字段及预先配置的表字段的映射关系,所述映射关系包括所述数据模型表中的字段与所述采样数据表中的字段的一对一关系或一对多关系;
根据所述映射关系,将该采样数据表的字段中存储的数据映射到该数据模型表的对应字段中,得到映射有数据的数据模型表;
保存映射有数据的该数据模型表。
上述数据的预处理方法、装置、计算机设备和存储介质,通过获取至少一个采样数据表并获取所述采样数据表的至少一个字段中存储的数据,并将获取的数据按照预先配置的表字段的映射关系,将该采样数据表的字段中存储的数据映射到该数据模型表的对应字段中,得到映射有数据的数据模型表,实现了数据的自动清洗和筛选,当采样数据表的个数不止一个时,本方案还能实现同时对多个底层的采样数据表中的数据实现清洗和筛选,使得在面对不同的底层数据做相同的业务分析时,不需要重复的进行数据筛选,只需要调整映射关系,将采样数据表的字段中存储的数据映射到该数据模型表的对应字段中即可自动实现数据的清洗,提高了数据的处理效率。
附图说明
图1为一个实施例中数据的预处理方法的应用场景图;
图2为一个实施例中数据的预处理方法的流程示意图;
图3为另一实施例中数据的预处理方法的流程示意图;
图4为又一实施例中数据的预处理方法的流程示意图;
图5为一个实施例中数据的预处理装置的结构框图;
图6为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的数据的预处理方法,可以应用于如图1所示的应用环境中。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,该终端102中存储有预先配置的数据模型表、预先配置的映射关系及至少一个采样数据表,该采样数据表可以是通过网络或存储介质发送给该终端,该采样数据表也可以是用户在该终端上录入的。
在一个实施例中,如图2所示,提供了一种数据的预处理方法,以该方法应用于图1中的终端为例进行说明,包括以下步骤:
步骤201,获取至少一个采样数据表,获取所述采样数据表的至少一个字段中存储的数据。
根据本实施例的一个示例,该采样数据表存储的数据为用户录入的底层数据,该数据表中存储的数据可以与银行相关的明细业务数据,该采样数据表的各个字段中存储有对应明细的数据清单,例如用户的姓名、性别、联系电话、邮箱、用户的开户时间、单笔金额的交易时间、交易金额、交易成功或交易失败的状态等等。
其中,上述的采样数据表的个数可以是一个,也可以是多个。
在数据库中,大多数时,表的“列”称为“字段”,每个字段包含某一专题的信息。就像“通讯录”数据库中,“姓名”、“联系电话”这些都是表中所有行共有的属性,所以把这些列称为“姓名”字段和“联系电话”字段。
在一般情况下,我们把表中的每一行叫做一个“记录”,每一个记录包含这行中的所有信息,就像在通讯录数据库中某个人全部的信息,但记录在数据库中并没有专门的记录名,常常用它所在的行数表示这是第几个记录。在数据库中存放在表行列交叉处的数据叫做“值”,它是数据库中最基本的存储单元,它的位置要由这个表中的记录和字段来定义。
步骤202,获取数据模型表中的字段及预先配置的表字段的映射关系,所述映射关系包括所述数据模型表中的字段与所述采样数据表中的字段的一对一关系或一对多关系。
根据本实施例的一个示例,该数据模型表中的字段为程序员根据后期的使用需求对应配置的,该数据模型表中的字段可以是采样数据表中的字段的子集,还可以是比采样数据表种类更多的字段。
在其中一个实施例中,该模型数据表中的字段包括但不限于用户的开户时间、单笔金额的交易时间、交易金额、交易成功或交易失败的状态等等。
其中,该步骤中获取的数据模型表可以是空表,即该数据模型表中的各个字段未存储任何数据,在其他实施例中,该步骤中获取的数据模型表也可以是部分字段存储为空的数据表,即该数据模型表的某些字段中已经映射了对应的字段,但其他字段中存储的数据为空。
步骤203,根据所述映射关系,将该采样数据表的字段中存储的数据映射到该数据模型表的对应字段中,得到映射有数据的数据模型表。
在其中的一个实施例中,在进行映射的过程中,由于不同银行给的底层采样数据表的字段命名及含义一般不相同,所以在将该数据模型表与不同银行的数据表进行映射时,需要预先商议好映射的规则,即预先确定映射关系。例如在将该数据模型表与不同银行给的数据表中的字段进行映射时,银行A的数据表中的“交易时间”表示发起交易的时间,而银行B的数据表中的“交易时间”表示交易成功的时间,则需要对对应的映射关系进行调整,以使得数据模型表中各个字段的含义准确无误。
步骤204,保存映射有数据的该数据模型表。
在其中一个实施例中,该映射有数据的该数据模型表可以保存在本端,也可以发送给其他电子设备进行保存,还可以保存在云端网络。
上述数据的预处理方法中,通过获取至少一个采样数据表并获取所述采样数据表的至少一个字段中存储的数据,并将获取的数据按照预先配置的表字段的映射关系,将该采样数据表的字段中存储的数据映射到该数据模型表的对应字段中,得到映射有数据的数据模型表,实现了数据的自动清洗和筛选,当采样数据表的个数不止一个时,本方案还能实现同时对多个底层的采样数据表中的数据实现清洗和筛选,使得在面对不同的底层数据做相同的业务分析时,不需要重复的进行数据筛选,只需要调整映射关系,将采样数据表的字段中存储的数据映射到该数据模型表的对应字段中即可自动实现数据的清洗,提高了数据的处理效率。
根据本发明的另一实施例如图3所示,图3所示的数据的预处理方法在包括上述步骤201至步骤204的基础上还包括以下步骤301及步骤302。
步骤301、从保存的该数据模型表的字段存储的数据中抽取满足预设条件的样本数据。
根据本实施例的一个示例,可以从该数据模型表中进行数据抽样,具体需要抽取哪些数据作为数据样本则根据建模的需求,例如有一款推销的理财产品只适用于男性,则抽样时将条件限定为男性,抽样的条件除了包括性别,还可以包括年龄、抽取的人数等等。
步骤301、将抽取的该样本数据输入至建模工具中进行建模。
目前已经有比较成熟的技术可以自动进行建模,例如逻辑回归、线性回归、决策树、随机森林等等。其中,运用其中的一项或几项原理实现建模的建模工具包括但不限于PowerDesigner、ER/Studio、Sparx Enterprise Architect、ERwin、IBM-InfoSphere DataArchitect等等。
由于数据模型表中存储的数据量一般非常庞大,在根据该数据模型表进行建模分析时,从数据模型表中抽取一定量的数据,可以节省建模时间。
根据本发明的又一实施例如图4所示,图4所示的数据的预处理方法在包括上述步骤201至步骤204的基础上还包括以下步骤401及步骤402。
步骤401、检测该数据模型表的各字段中存储的数据。
根据本实施例的一个示例,被检测的数据可以是该数据模型表的每个字段中存储的数据。可以对不同类型的数据预设对应的存储规则,当该字段中的数据不满足对应的存储规则时,判断该数据为异常数据。
对于字符类型的数据,可以检测该字符类型的数据的长度是否不满足预设的要求,例如对于用户的姓名这一字段中设置其存储的数据长度,当检测到该字段中存储的数据长度超过预设值时,判断该数据为异常数据。
对于数值型的数据,可以针对不同的字段设置不同的存储规则,例如对于金额一类的数据,可以将存储规则设置为数据的长度,当检测到金额这一字段中存储的数据的长度超过预设的长度时,判断该数据为异常数据。再例如对于年月一类的数据,该字段中数据的存储规则为数据的大小,可以将当前时间设为预设值,当检测到年月这一字段中存储的数据的大小大于该预设值时,判断该数据为异常数据,例如当前时间为20180115,若检测数有数据大于这一数值,则判断对应的数据为异常数据。
步骤402、当检测的该数据中存在异常数据时,对该异常数据按照预设的处理方式进行处理。
在其中一个实施例中,该异常数据包括数值型异常数据;该对该异常数据按照预设的处理方式进行处理的步骤包括:获取该数值型异常数据所在字段中的所有非异常的数值型数据;计算获取的该数值型数据的平均值;将该异常数据更新为计算的该平均值。
针对每个数据字段的类型和异常情况,事先设定好处理方法,比如缺失的字符型字段一律设为“未知”,明显过大的数值型字段使用预设值代替。
根据本实施例的一个异常数据的使用场景例如:数据模型表填写的“时间”大于当前时间,当前时间是2017年…,填写的时间为2027年…,数据模型表中填写的“金额”的位数大于预设值,例如表示购买理财产品的交易金额的位数大于八位数等等。
对于时间字段中异常数据的处理方法可以是:将“时间”明显异常的数据修改为与该列中上一行的时间相同等。
根据本实施例的一个示例,对于异常数据的处理并不限定于对该数据进行更新,还可以是通过预先设定的提醒方式对对应的异常数据进行提醒,例如可以对异常数据进行高亮设置,还可以对异常数据标记为醒目的颜色,例如红色,以便于用户一眼看出哪些数据为异常数据,从而进行人工的干预进行确认与修正。
由于电子数据的原始来源都是人工输入的,都可能有输入错误的情况,该实施例对数据模型表中的各个字段存储的数据按照预设的规则进行验证和检查,以将明显异常的数据进行修正,使得以该数据模型表中的数据源为依据进行的数据建模分析或生成报表的结果更加准确。
在其中一个实施例中,当所述映射关系为一对多关系时,该将该采样数据表的字段中存储的数据映射到该数据模型表的对应字段中的步骤包括:获取不同的字段中存储的数值型数据;根据预设的逻辑运算规则,对获取的该数值型数据进行逻辑运算;将进行逻辑运算的结果映射到该数据模型表的对应字段中。
在其中一个实施例中,该不同的字段可以是同一采样数据表中的字段,也可以是不同采样数据表中的字段。
由于该数据模型表中的一个字段的数据可能涉及到采样数据表中两个甚至多个不同字段之间的相互关系,例如该数据模型表有一个字段表示理财产品的总交易金额,而银行的数据表中涉及理财的产品有三个,交易金额分别为a、b、c,则需要将a、b、c相加的结果映射到该数据模型的理财产品的总交易金额的字段中。
本实施例提供的方案使得可以将采样数据表的不同字段中的数据通过逻辑运算之后,将运算结果映射到数据模型表的同一个字段中,使得该数据模型表的数据存储能力能加强大,能适应用户的更多需求。
在其中一个实施例中,该方法还包括:获取该数据模型表中的敏感字段;对该敏感字段中存储的数据进行加密。
根据本实施例的一个示例,哪些字段为敏感字段由用户设定,其中,可以将涉及用户隐私的数据所对应的字段设备敏感字段,例如用户的姓名、年龄、手机号、邮箱、银行卡号等等。
根据本实施例的一个示例,对敏感字段中存储的数据进行加密的方式可以是将敏感字段中存储的数据的中间字符显示“*”符号或省略符号等等。
在该实施例中,该加密的步骤一般在映射的步骤之后,在对异常数据的检查和处理的步骤之前。由于映射的步骤主要是银行方IT人员进行处理,我方只是进行技术指导,所以对用户的敏感信息进行加密的步骤在映射的步骤之后也不会造成信息泄露。本实施例可以保护用户的隐私不会因为业务分析需求而泄露。
在其中一个实施例中,在完成映射和异常数据处理之后,该方法还包括基于整理好的标准的数据生成一套建模可用的数据标签。生成方法是利用预先写好的标准的统计软件脚本对整理后的数据进行处理,一键自动生成数据标签。例如,整理好的数据中有银行用户的所有交易时间和交易金额等信息,在这一步骤中,我们会利用生成标准脚本生成1个月、3个月、6个月、12个月内用户的最大的单笔交易额、总交易额、总交易次数等数据标签,再利用这些标签去训练最终的统计模型。
在其中的一个实施例中,该方法还包括根据该数据模型表中存储的数据自动生成报表,可以根据数据模型表中记载的交易金额及交易时间自动计算当月/当年的销量相比上一月/上一年的销量的增长率,以一键式自动生成报表。
本实施例制定一套标准的数据模型表,使得每次在处理底层数据时只需将银行的数据映射到标准的数据模型表上即可;本实施例基于标准的数据模型,开发一套清洗异常数据并生成统计指标的脚本,该脚本每次工作时可以完全复用,不用做任何修改;本实施例基于上一步生成的统计指标,根据各个业务场景开发自动化的建模分析或者报表脚本,每次只需针对建模结果对建模参数稍加调整即可投入到生产应用中。本实施例将原先四步定制化工作的工作量压缩到一步简单的数据映射中,用自动化的脚本替代了大量人工重复的工作。
本实施例提供的数据的预处理方法节约了人力时间,将原先两个工程师一个月的工作量减少到一个工程师两周的工作量,且在为不同银行服务时不用做很大的调整,大多数工作可以简单地复用,通过利用本实施例提供的映射有数据的该数据模型表,降低了数据建模的技术门槛,初级的工程师也可独立运用此技术,无需额外的指导和监督。
应该理解的是,虽然图2~4的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2~4中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图5所示,提供了一种数据的预处理装置,该数据的预处理装置100包括:数据获取模块11、字段获取模块12、映射模块13和保存模块14,其中:
数据获取模块11,用于获取至少一个采样数据表,获取所述采样数据表的至少一个字段中存储的数据。
根据本实施例的一个示例,该采样数据表存储的数据为用户录入的底层数据,该数据表中存储的数据可以与银行相关的明细业务数据,该采样数据表的各个字段中存储有对应明细的数据清单,例如用户的姓名、性别、联系电话、邮箱、用户的开户时间、单笔金额的交易时间、交易金额、交易成功或交易失败的状态等等。
字段获取模块12,用于获取数据模型表中的字段及预先配置的表字段的映射关系,所述映射关系包括所述数据模型表中的字段与所述采样数据表中的字段的一对一关系或一对多关系。
根据本实施例的一个示例,该数据模型表中的字段为程序员根据后期的使用需求对应配置的,该数据模型表中的字段可以是采样数据表中的字段的子集,还可以是比采样数据表种类更多的字段。
在其中一个实施例中,该模型数据表中的字段包括但不限于用户的开户时间、单笔金额的交易时间、交易金额、交易成功或交易失败的状态等等。
其中,该字段获取模块获取的数据模型表可以是空表,即该数据模型表中的各个字段未存储任何数据,在其他实施例中,该字段获取模块获取的数据模型表也可以是部分字段存储为空的数据表,即该数据模型表的某些字段中已经映射了对应的字段,但其他字段中存储的数据为空。
映射模块13,用于根据所述映射关系,将该采样数据表的字段中存储的数据映射到该数据模型表的对应字段中,得到映射有数据的数据模型表。
在其中的一个实施例中,在进行映射的过程中,由于不同银行给的底层采样数据表的字段命名及含义一般不相同,所以在将该数据模型表与不同银行的数据表进行映射时,需要预先商议好映射的规则,即预先确定映射关系。例如在将该数据模型表与不同银行给的数据表中的字段进行映射时,银行A的数据表中的“交易时间”表示发起交易的时间,而银行B的数据表中的“交易时间”表示交易成功的时间,则需要对对应的映射关系进行调整,以使得数据模型表中各个字段的含义准确无误。
保存模块14,用于保存映射有数据的该数据模型表。
在其中一个实施例中,该映射有数据的该数据模型表可以保存在本端,也可以发送给其他电子设备进行保存,还可以保存在云端网络。
在其中一个实施例中,该数据的预处理装置100还包括:
数据抽取模块,用于从保存的该数据模型表的字段存储的数据中抽取满足预设条件的样本数据;
建模模块,用于将抽取的该样本数据输入至建模工具中进行建模。
根据本实施例的一个示例,可以从该数据模型表中进行数据抽样,具体需要抽取哪些数据作为数据样本则根据建模的需求,例如有一款推销的理财产品只适用于男性,则抽样时将条件限定为男性,抽样的条件除了包括性别,还可以包括年龄、抽取的人数等等。
目前已经有比较成熟的技术可以自动进行建模,例如逻辑回归、线性回归、决策树、随机森林等等。其中,运用其中的一项或几项原理实现建模的建模工具包括但不限于PowerDesigner、ER/Studio、Sparx Enterprise Architect、ERwin、IBM-InfoSphere DataArchitect等等。
在其中的一个实施例中,该数据的预处理装置100还包括:
检测模块,用于检测该数据模型表的各字段中存储的数据;
处理模块,用于当检测的该数据中存在异常数据时,对该异常数据按照预设的处理方式进行处理。
根据本实施例的一个示例,被检测的数据可以是该数据模型表的每个字段中存储的数据。可以对不同类型的数据预设对应的存储规则,当该字段中的数据不满足对应的存储规则时,判断该数据为异常数据。
对于字符类型的数据,可以检测该字符类型的数据的长度是否不满足预设的要求,例如对于用户的姓名这一字段中设置其存储的数据长度,当检测到该字段中存储的数据长度超过预设值时,判断该数据为异常数据。
对于数值型的数据,可以针对不同的字段设置不同的存储规则,例如对于金额一类的数据,可以将存储规则设置为数据的长度,当检测到金额这一字段中存储的数据的长度超过预设的长度时,判断该数据为异常数据。再例如对于年月一类的数据,该字段中数据的存储规则为数据的大小,可以将当前时间设为预设值,当检测到年月这一字段中存储的数据的大小大于该预设值时,判断该数据为异常数据,例如当前时间为20180115,若检测数有数据大于这一数值,则判断对应的数据为异常数据。
针对每个数据字段的类型和异常情况,事先设定好处理方法,比如缺失的字符型字段一律设为“未知”,明显过大的数值型字段使用预设值代替。
根据本实施例的一个异常数据的使用场景例如:数据模型表填写的“时间”大于当前时间,当前时间是2017年…,填写的时间为2027年…,数据模型表中填写的“金额”的位数大于预设值,例如表示购买理财产品的交易金额的位数大于八位数等等。
对于时间字段中异常数据的处理方法可以是:将“时间”明显异常的数据修改为与该列中上一行的时间相同等。
根据本实施例的一个示例,对于异常数据的处理并不限定于对该数据进行更新,还可以是通过预先设定的提醒方式对对应的异常数据进行提醒,例如可以对异常数据进行高亮设置,还可以对异常数据标记为醒目的颜色,例如红色,以便于用户一眼看出哪些数据为异常数据,从而进行人工的干预进行确认与修正。
由于电子数据的原始来源都是人工输入的,都可能有输入错误的情况,该实施例对数据模型表中的各个字段存储的数据按照预设的规则进行验证和检查,以将明显异常的数据进行修正,使得以该数据模型表中的数据源为依据进行的数据建模分析或生成报表的结果更加准确。
在其中的一个实施例中,该异常数据包括数值型异常数据;该处理模块包括:
非异常数据获取单元,用于获取该数值型异常数据所在字段中的所有非异常的数值型数据;
计算单元,用于计算获取的该数值型数据的平均值;
更新单元,用于将该异常数据更新为计算的该平均值。
在其中一个实施例中,该映射模块13包括:
数值数据获取单元,用于获取不同的字段中存储的数值型数据;
逻辑运算单元,用于根据预设的逻辑运算规则,对获取的该数值型数据进行逻辑运算;
映射单元,用于将进行逻辑运算的结果映射到该数据模型表的对应字段中。
在其中一个实施例中,该不同的字段可以是同一采样数据表中的字段,也可以是不同采样数据表中的字段。
由于该数据模型表中的一个字段的数据可能涉及到采样数据表中两个甚至多个不同字段之间的相互关系,例如该数据模型表有一个字段表示理财产品的总交易金额,而银行的数据表中涉及理财的产品有三个,交易金额分别为a、b、c,则需要将a、b、c相加的结果映射到该数据模型的理财产品的总交易金额的字段中。
本实施例提供的方案使得可以将采样数据表的不同字段中的数据通过逻辑运算之后,将运算结果映射到数据模型表的同一个字段中,使得该数据模型表的数据存储能力能加强大,能适应用户的更多需求。
在其中一个实施例中,该数据的预处理装置100还包括:
敏感字段获取模块,用于获取该数据模型表中的敏感字段;
加密模块,用于对该敏感字段中存储的数据进行加密。
根据本实施例的一个示例,哪些字段为敏感字段由用户设定,其中,可以将涉及用户隐私的数据所对应的字段设备敏感字段,例如用户的姓名、年龄、手机号、邮箱、银行卡号等等。
根据本实施例的一个示例,对敏感字段中存储的数据进行加密的方式可以是将敏感字段中存储的数据的中间字符显示“*”符号或省略符号等等。
本实施例可以保护用户的隐私不会因为业务分析需求而泄露。
关于数据的预处理装置的具体限定可以参见上文中对于数据的预处理方法的限定,在此不再赘述。上述数据的预处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据的预处理方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
获取至少一个采样数据表,获取所述采样数据表的至少一个字段中存储的数据;
获取数据模型表中的字段及预先配置的表字段的映射关系,所述映射关系包括所述数据模型表中的字段与所述采样数据表中的字段的一对一关系或一对多关系;
根据所述映射关系,将该采样数据表的字段中存储的数据映射到该数据模型表的对应字段中,得到映射有数据的数据模型表;
保存映射有数据的该数据模型表。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
从保存的该数据模型表的字段存储的数据中抽取满足预设条件的样本数据;将抽取的该样本数据输入至建模工具中进行建模。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
检测该数据模型表的各字段中存储的数据;当检测的该数据中存在异常数据时,对该异常数据按照预设的处理方式进行处理。
在一个实施例中,该异常数据包括数值型异常数据,处理器执行计算机程序时还实现以下步骤:
获取该数值型异常数据所在字段中的所有非异常的数值型数据;计算获取的该数值型数据的平均值;将该异常数据更新为计算的该平均值。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
获取不同的字段中存储的数值型数据;根据预设的逻辑运算规则,对获取的该数值型数据进行逻辑运算;将进行逻辑运算的结果映射到该数据模型表的对应字段中。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
获取该数据模型表中的敏感字段;对该敏感字段中存储的数据进行加密。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取至少一个采样数据表,获取所述采样数据表的至少一个字段中存储的数据;
获取数据模型表中的字段及预先配置的表字段的映射关系,所述映射关系包括所述数据模型表中的字段与所述采样数据表中的字段的一对一关系或一对多关系;
根据所述映射关系,将该采样数据表的字段中存储的数据映射到该数据模型表的对应字段中,得到映射有数据的数据模型表;
保存映射有数据的该数据模型表。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
从保存的该数据模型表的字段存储的数据中抽取满足预设条件的样本数据;将抽取的该样本数据输入至建模工具中进行建模。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
检测该数据模型表的各字段中存储的数据;当检测的该数据中存在异常数据时,对该异常数据按照预设的处理方式进行处理。
在一个实施例中,该异常数据包括数值型异常数据,计算机程序被处理器执行时还实现以下步骤:
获取该数值型异常数据所在字段中的所有非异常的数值型数据;计算获取的该数值型数据的平均值;将该异常数据更新为计算的该平均值。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
获取不同的字段中存储的数值型数据;根据预设的逻辑运算规则,对获取的该数值型数据进行逻辑运算;将进行逻辑运算的结果映射到该数据模型表的对应字段中。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
获取该数据模型表中的敏感字段;对该敏感字段中存储的数据进行加密。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
本实施例提供的数据的预处理方法、装置、计算机设备和存储介质,通过获取至少一个采样数据表并获取所述采样数据表的至少一个字段中存储的数据,并将获取的数据按照预先配置的表字段的映射关系,将该采样数据表的字段中存储的数据映射到该数据模型表的对应字段中,得到映射有数据的数据模型表,实现了数据的自动清洗和筛选,当采样数据表的个数不止一个时,本方案还能实现同时对多个底层的采样数据表中的数据实现清洗和筛选,使得在面对不同的底层数据做相同的业务分析时,不需要重复的进行数据筛选,只需要调整映射关系,将采样数据表的字段中存储的数据映射到该数据模型表的对应字段中即可自动实现数据的清洗,提高了数据的处理效率。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种数据的预处理方法,所述方法包括:
获取至少一个采样数据表,获取所述采样数据表的至少一个字段中存储的数据;所述采样数据表中存储有与银行相关的明细业务数据;
根据不同银行的采样数据表的同一字段的含义,预先对对应的映射关系进行调整,确定数据模型表和不同银行的采样数据表之间的映射关系;
获取数据模型表中的字段及预先配置的表字段的映射关系,所述映射关系包括所述数据模型表中的字段与所述采样数据表中的字段的一对一关系或一对多关系;
根据所述映射关系,将所述采样数据表的字段中存储的数据映射到所述数据模型表的对应字段中,得到映射有数据的数据模型表;
保存映射有数据的所述数据模型表;
所述方法还包括:
根据与所述数据模型表的各字段中的数据对应的预设存储规则,检测所述数据模型表的各字段中存储的数据;
当根据所述预设存储规则,确定检测的所述数据中存在异常数据时,对所述异常数据按照预设的处理方式进行处理;
根据携带预设标准的统计软件脚本对处理后的数据进行处理,一键自动生成数据标签;所述数据标签用于对所述统计软件脚本对应的统计模型进行训练。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
从保存的所述数据模型表的字段存储的数据中抽取满足预设条件的样本数据;
将抽取的所述样本数据输入至建模工具中进行建模。
3.根据权利要求1所述的方法,其特征在于,所述异常数据包括数值型异常数据;所述对所述异常数据按照预设的处理方式进行处理的步骤包括:
获取所述数值型异常数据所在字段中的所有非异常的数值型数据;
计算获取的所述数值型数据的平均值;
将所述异常数据更新为计算的所述平均值。
4.根据权利要求1至3任意一项所述的方法,其特征在于,当所述映射关系为一对多关系时,所述将所述采样数据表的字段中存储的数据映射到所述数据模型表的对应字段中的步骤包括:
获取不同的字段中存储的数值型数据;
根据预设的逻辑运算规则,对获取的所述数值型数据进行逻辑运算;
将进行逻辑运算的结果映射到所述数据模型表的对应字段中。
5.根据权利要求1至3任意一项所述的方法,其特征在于,所述方法还包括:
获取所述数据模型表中的敏感字段;
对所述敏感字段中存储的数据进行加密。
6.根据权利要求1至3任意一项所述的方法,其特征在于,所述方法还包括:
根据所述数据模型表中记载的交易金额及交易时间,计算当月/当年的销量相比上一月/上一年的销量的增长率,并自动生成报表。
7.一种数据的预处理装置,其特征在于,所述装置包括:
数据获取模块,用于获取至少一个采样数据表,获取所述采样数据表的至少一个字段中存储的数据;所述采样数据表中存储有与银行相关的明细业务数据;
映射模块,用于根据不同银行的采样数据表的同一字段的含义,预先对对应的映射关系进行调整,确定数据模型表和不同银行的采样数据表之间的映射关系;
字段获取模块,用于获取数据模型表中的字段及预先配置的表字段的映射关系,所述映射关系包括所述数据模型表中的字段与所述采样数据表中的字段的一对一关系或一对多关系;映射模块,用于根据所述映射关系,将所述采样数据表的字段中存储的数据映射到所述数据模型表的对应字段中,得到映射有数据的数据模型表;
保存模块,用于保存映射有数据的所述数据模型表;
还包括:
检测模块,用于根据与所述数据模型表的各字段中的数据对应的预设存储规则,检测所述数据模型表的各字段中存储的数据;
处理模块,用于当根据所述预设存储规则,确定检测的所述数据中存在异常数据时,对所述异常数据按照预设的处理方式进行处理;用于根据携带预设标准的统计软件脚本对处理后的数据进行处理,一键自动生成数据标签的模块;其中,所述数据标签用于对所述统计软件脚本对应的统计模型进行训练。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
数据抽取模块,用于从保存的该数据模型表的字段存储的数据中抽取满足预设条件的样本数据;
建模模块,用于将抽取的该样本数据输入至建模工具中进行建模。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
CN201810125065.7A 2018-02-07 2018-02-07 数据的预处理方法、装置、计算机设备和存储介质 Active CN108509485B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810125065.7A CN108509485B (zh) 2018-02-07 2018-02-07 数据的预处理方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810125065.7A CN108509485B (zh) 2018-02-07 2018-02-07 数据的预处理方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN108509485A CN108509485A (zh) 2018-09-07
CN108509485B true CN108509485B (zh) 2021-06-22

Family

ID=63374983

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810125065.7A Active CN108509485B (zh) 2018-02-07 2018-02-07 数据的预处理方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN108509485B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111382198B (zh) * 2018-12-28 2023-09-19 中国移动通信集团山西有限公司 数据还原方法、装置、设备及存储介质
CN111414410B (zh) * 2019-01-07 2023-07-14 阿里巴巴集团控股有限公司 数据处理方法、装置、设备和存储介质
CN109739864B (zh) * 2019-01-24 2021-03-23 易保互联医疗信息科技(北京)有限公司 人社数据采集及共享方法、计算机存储介质及计算机设备
CN110399403A (zh) * 2019-07-24 2019-11-01 北京明略软件系统有限公司 数据处理方法及装置、存储介质、电子装置
CN110489300A (zh) * 2019-08-20 2019-11-22 北京市燃气集团有限责任公司 备份数据统计方法和装置
CN110716928A (zh) * 2019-09-09 2020-01-21 上海凯京信达科技集团有限公司 一种数据处理方法、装置、设备和存储介质
CN110597816A (zh) * 2019-09-17 2019-12-20 深圳追一科技有限公司 数据处理方法、装置、计算机设备和计算机可读存储介质
CN110569329B (zh) * 2019-10-28 2022-08-02 深圳市商汤科技有限公司 数据处理方法及装置、电子设备和存储介质
CN110990388A (zh) * 2019-11-29 2020-04-10 东软睿驰汽车技术(沈阳)有限公司 一种数据处理方法及装置
CN111078774A (zh) * 2019-12-05 2020-04-28 中国科学技术大学智慧城市研究院(芜湖) 一种数据的自动整合方法
CN111062794A (zh) * 2019-12-25 2020-04-24 中国建设银行股份有限公司 一种金融审计数据交换标准模型
CN111125067B (zh) * 2019-12-31 2024-02-23 中国银行股份有限公司 数据维护方法及装置
CN111881480A (zh) * 2020-07-31 2020-11-03 平安付科技服务有限公司 隐私数据加密方法、装置、计算机设备及存储介质
CN112561530A (zh) * 2020-12-25 2021-03-26 民生科技有限责任公司 一种基于多模型融合的交易流水处理方法及系统
CN113449103A (zh) * 2021-01-28 2021-09-28 民生科技有限责任公司 融入标签与文本交互机制的银行交易流水分类方法及系统
CN113986305B (zh) * 2021-11-17 2022-10-21 广州天维信息技术股份有限公司 B/s模型升级的检测方法、装置、设备和存储介质

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101046810B (zh) * 2006-05-26 2010-09-08 华为技术有限公司 自动建立关系模型的系统及其方法
CN100507869C (zh) * 2006-10-10 2009-07-01 国际商业机器公司 基于关系模型分析系统性能采样数据的方法和设备
CN102207940B (zh) * 2010-03-31 2014-11-05 国际商业机器公司 用于验证数据的方法和系统
US8538976B2 (en) * 2011-02-14 2013-09-17 International Business Machines Corporation Abstract data model extension through managed physical statement structures
US9171020B2 (en) * 2012-04-30 2015-10-27 Sap Se Deleting records in a multi-level storage architecture
CN103729337B (zh) * 2013-12-27 2018-01-12 金蝶软件(中国)有限公司 报表转换方法及装置
US20150186808A1 (en) * 2013-12-27 2015-07-02 International Business Machines Corporation Contextual data analysis using domain information
CN105447090B (zh) * 2015-11-05 2018-10-26 华中科技大学 一种自动化数据挖掘预处理方法
CN106777450B (zh) * 2016-11-04 2020-10-20 中软信息系统工程有限公司 一种支持组合模型的模型描述及生成方法
CN107103050A (zh) * 2017-03-31 2017-08-29 海通安恒(大连)大数据科技有限公司 一种大数据建模平台及方法

Also Published As

Publication number Publication date
CN108509485A (zh) 2018-09-07

Similar Documents

Publication Publication Date Title
CN108509485B (zh) 数据的预处理方法、装置、计算机设备和存储介质
US11023533B2 (en) Node task data display method and apparatus, storage medium and computer equipment
CN108876133A (zh) 基于业务信息的风险评估处理方法、装置、服务器和介质
WO2021004132A1 (zh) 异常数据检测方法、装置、计算机设备和存储介质
CN109543925B (zh) 基于机器学习的风险预测方法、装置、计算机设备和存储介质
CN108334625B (zh) 用户信息的处理方法、装置、计算机设备和存储介质
CN110674131A (zh) 财务报表数据处理方法、装置、计算机设备和存储介质
CN110729054B (zh) 异常就诊行为检测方法、装置、计算机设备及存储介质
WO2020069051A1 (en) Model aggregation using model encapsulation of user-directed iterative machine learning
CN115081997B (zh) 设备备件库存诊断系统
CN111210356B (zh) 医保数据分析方法、装置、计算机设备和存储介质
CN114693192A (zh) 风控决策方法、装置、计算机设备和存储介质
CN115936895A (zh) 基于人工智能的风险评估方法、装置、设备及存储介质
CN116089620A (zh) 一种电子档案数据管理方法和系统
CN111858278A (zh) 基于大数据处理的日志分析方法、系统及可读存储装置
CN109542764B (zh) 网页自动化测试方法、装置、计算机设备和存储介质
CN109542947B (zh) 数据统计方法、装置、计算机设备和存储介质
CN114490415A (zh) 业务测试方法、计算机设备、存储介质和计算机程序产品
CN113094595A (zh) 对象识别方法、装置、计算机系统及可读存储介质
KR20220072113A (ko) 사용환경에 대한 위험에 따른 정보집합물을 가명 처리하는 시스템 및 그 제어방법
CN110727711A (zh) 基金数据库中异常数据检测方法、装置和计算机设备
CN111274231A (zh) 异常医保数据排查方法、装置、计算机设备和存储介质
CN110222290B (zh) 页面生成方法、装置、计算机设备和存储介质
CN108966154B (zh) 群发短信方法、装置、计算机设备和存储介质
CN115689477A (zh) 业务方案生成方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant