CN111563068A

CN111563068A - 一种多源风控数据清洗处理方法

Info

Publication number: CN111563068A
Application number: CN202010418612.8A
Authority: CN
Inventors: 刘庆; 王伟
Original assignee: China Building Materials Xinyun Zhilian Technology Co ltd; Cnbm Technology Corp ltd
Current assignee: China Building Materials Xinyun Zhilian Technology Co ltd; Cnbm Technology Corp ltd
Priority date: 2020-05-18
Filing date: 2020-05-18
Publication date: 2020-08-21

Abstract

本发明涉及风控数据处理技术领域，具体地说，涉及一种多源风控数据清洗处理方法。包括历史数据采集，系统采用全量导入方式将风控历史数据导入；实时数据采集，系统基于数据库日志解析的方式来获取增量变更实现实时数据的同步；模式匹配，以属性的相似度为依据，对数据进行模式匹配；语义转换，将各异构数据源的属性数据转换成标准数据；无效信息过滤，识别并剔除错误数据和重复数据；数据加密，对原始数据进行加密；数据压缩，对原始数据采用无损的压缩处理。本发明设计的数据采用多源采集方式，同时实现数据的统一，便于数据处理，且能够减少无效数据，提升数据处理效率。

Description

一种多源风控数据清洗处理方法

技术领域

本发明涉及风控数据处理技术领域，具体地说，涉及一种多源风控数据清洗处理方法。

背景技术

风险存在于所有商业活动中，产生风险的来源不同，评估风险所需的策略、数据、模型会千差万别，因此，避免风险的方法是需要对风险进行分析，并掌握其规律，实现风险的控制，风险控制需要采集多源数据，由于数据来源不同，导致其数据种类不同，无法进行统一的分析，同时，数据中含有大量无用数据，在分析时，数据分析量庞大，导致数据分析效率低。

发明内容

本发明的目的在于提供一种多源风控数据清洗处理方法，以解决上述背景技术中提出的问题。

为实现上述技术问题的解决，本发明的目的之一在于，提供一种多源风控数据清洗处理方法，包括如下步骤：

(一)、多源数据采集阶段：

S1.1、历史数据采集，系统采用全量导入方式将风控历史数据导入；

S1.2、实时数据采集，系统基于数据库日志解析的方式来获取增量变更实现实时数据的同步；

(二)、数据整合阶段：

S1.3、模式匹配，以属性的相似度为依据，对数据进行模式匹配；

S1.4、语义转换，将各异构数据源的属性数据转换成标准数据；

(三)、数据清洗阶段：

S1.5、无效信息过滤，识别并剔除错误数据和重复数据；

S1.6、数据加密，对原始数据进行加密；

S1.7、数据压缩，对原始数据采用无损的压缩处理。

作为本技术方案的进一步改进，所述全量导入方式的方法包括如下步骤：

S2.1、查找对应文件的源文件，浏览对应的源文件，读取该文件下的所有的预设文件类型的数据文件名，并将有效的文件名记录到列表或者存储到文本文件中；

S2.2、获取数据源文件列表，一般情况下，同类型且同字段格式的放到一个文件夹下，因此，该文件夹下的所有文件的字段都是一样的，只需要读取文件名列表的第一个文件的所有字段，之后其他文件的字段就不需要重复读取，将这些数据源字段列举到新的列表中由用户挑选需要导人的字段；

S2.3、准备目标数据库和目标数据表，由用户来选择要导入到的目标服务器位置，如果是本地的服务器输人计算机名或IP地址即可，异地服务器需要输人对应的服务器IP地址，服务器连接成功后，继续选择该服务器下的数据库列表，以及所选数据库下的数据表列表；

S2.4、确定数据源与目标字段，根据需要结合数据源文件的字段列表和目标数据表的字段列表，确定数据源文件的字段和目标数据表的字段，舍弃不需要的字段，但应注意双方字段数量和字段类型要一致；

S2.5、生成导入新记录的表达式，根据数据源和目标字段自动生成新的数据导人操作表达式；

S2.6、按照数据源文件列表逐个打开、读取数据源文件记录，将需要导人的字段逐个导人到目标数据库。

作为本技术方案的进一步改进，所述数据库日志解析的方法包括如下步骤：

S3.1、获取日志中间文件列表；

S3.2、逐条扫描日志中间文件中的记录；

S3.3、使用正则语法解析器处理SQL语句；

S3.4、对数据进行净效应处理；

S3.5、输出增量数据文件。

所述净效应处理是在一次增量更新的过程中，对发生在同一元组上的操作序列进行压缩和优化处理，使得操作集合达到最小，并且最后得到的操作序列与最初的操作序列在本质上是相等的。

所述净效应处理算法如下：

输入nextOp，一条经过正则语法解析器处理后的操作信息

输出更新后的元组增量对象incObject

Begin

nextOp＝read()；//表示读入一条有关某个元组的//操作信息，它包含元组的标志；

incObject＝incMap.get(nextOp.getId())；

//从incMap中取出对应的增量对象；

if(incObject＝＝null){

//生成一个新的元组增量对象，包含元组id；

incObject＝createIncObject(nextOp.getId())；

incMap.put(incObject.getId()，incObject)；

}

if(incObject.firstOp＝＝null){

//表示这是事务中对这个元组的第1条操作信息

incObject.firstOp＝nextOp；

}else{

//读入的操作信息只可能是updateOp或deleteOp

if(nextOp.type＝＝″update″){

//这是一条updateOp，将本次updateOp中的更新信息附//加到lastOp中

incObject.lastOp＝incObject.lastOp∩nextOp；

}elseif(nextOp.type＝＝″delete″){

//这是一条deleteOp，直接把lastOp替换为deleteOp，此//时这个元组的生存周期结束，之后不可能再读取到该元组//的操作信息

incObject.lastOp＝nextOp；

END。

作为本技术方案的进一步改进，所述模式匹配的公式如下：

sim(S1.ei，S2.ej)＝AGG(simf(S1.ei，S2.ej))；

其中，ei与ej是分属于模式S1和S2的两个属性，simf是基于特征f的相似度算法，AGG为聚合函数，该公式根据一定的聚合规则，综合考虑多个相似度算法的结果，得出两个属性的最终相似度。

作为本技术方案的进一步改进，所述语义转换的方法为，用R_set表示语义转换规则集，R_set＝{r₁，r₂，...，r_n}，其中r_i表示某一条规则，i＝1，2，...，n，n为规则总数量，r_i＝(T，D，OT，O，R)；

T为Type，语义转换问题类型标识；D为Data，语义转换层待处理的数据对象；OT为Operation Type，语义转换层所执行转换操作的触发器类型；O为Operation，语义转换具体操作；R为Reference，规则中操作。

作为本技术方案的进一步改进，所述数据加密的方法包括如下步骤：

S4.1、系统参数的建立，随机选择一个数

计算P_pub＝sP，其中P为G₁的生成元，选择2个强密码杂凑函数

和

其中H₁将任意长度输入映射到固定长度，H₂把用户身份ID映射到G₁中的一个元素，最后PKG把s作为系统的私钥保存；

S4.2、签名：执行随机选择

计算R＝rP，输出针对M的签名σ＝(R，rP_pub+H₁(M，R)d_MACID)；

S4.3、验证：设σ＝(U，V)为针对对M的签名，验证者需要执行：计算Q_MACID＝H₂(MACID)，计算u＝e(V，P)，计算v＝e(U+H₁(M，U)Q_MACID，P_pub)，如果u＝v，则输出接受签名，否则输出拒绝。

作为本技术方案的进一步改进，所述数据压缩的方法采用Huffman编码算法，其算法包括如下步骤：

S5.1、根据n个权值{w₁，w₂，...，w_n}构成n颗二叉树的集合F＝{T₁，T₂，...，T_n}，其中每棵二叉树T_i中只有一个带权为w_i的根结点，其左右子树均为空；

S5.2、在F中选取两棵根结点的权值最小的树作为左右子树来构造一棵新的二叉树，且置新的二叉树的根结点的权值为其左、右子树结点的根结点的权值之和；

S5.3、在F中删除这两棵树，同时将新得到的二叉树加入F中；

S5.4、重复S5.2和S5.3，直到F中只含一棵树时为止。

本发明的目的之二在于，提供一种多源风控数据清洗处理系统，包括：

多源数据采集模块，用于对历史数据和实时数据进行采集；

数据整合模块，用于将收集的数据进行整合处理；

数据清洗模块，用于对整合后的数据进行清洗处理。

本发明的目的之三在于，提供一种多源风控数据清洗处理装置，包括处理器、存储器以及存储在存储器中并在处理器上运行的计算机程序，处理器用于执行计算机程序时实现上述任一的多源风控数据清洗处理方法。

本发明的目的之四在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述任一的多源风控数据清洗处理方法。

与现有技术相比，本发明的有益效果：

1、该多源风控数据清洗处理方法中，采用历史数据采集和实时数据采集两种方式对数据进行多源采集，进而提高数据的全面性，便于对数据进行全面分析处理。

2、该多源风控数据清洗处理方法中，采用数据整合方法，以属性的相似度为依据，对数据进行模式匹配，并将各异构数据源的属性数据转换成标准数据，实现数据的统一，便于数据处理。

3、该多源风控数据清洗处理方法中，采用数据清洗方法，识别并剔除错误数据和重复数据，并对数据进行加密和压缩处理，减少无效数据，提升数据处理效率。

附图说明

图1为实施例1的整体流程框图；

图2为实施例1的全量导入方式方法流程框图；

图3为实施例1的数据库日志解析方法流程框图；

图4为实施例1的数据加密方法流程框图；

图5为实施例1的数据压缩的方法流程框图；

图6为实施例1的云平台装置结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

如图1-6所示，本实施例的目的之一在于，提供一种多源风控数据清洗处理方法，如下步骤：

(一)、多源数据采集阶段：

(二)、数据整合阶段：

(三)、数据清洗阶段：

S1.5、无效信息过滤，识别并剔除错误数据和重复数据；

S1.6、数据加密，对原始数据进行加密；

S1.7、数据压缩，对原始数据采用无损的压缩处理。

本实施例中，全量导入方式的方法包括如下步骤：

进一步的，数据库日志解析的方法包括如下步骤：

S3.1、获取日志中间文件列表；

S3.2、逐条扫描日志中间文件中的记录；

S3.3、使用正则语法解析器处理SQL语句；

S3.4、对数据进行净效应处理；

S3.5、输出增量数据文件。

其中，净效应处理是在一次增量更新的过程中，对发生在同一元组上的操作序列进行压缩和优化处理，使得操作集合达到最小，并且最后得到的操作序列与最初的操作序列在本质上是相等的。

具体的，净效应处理算法如下：

输入nextOp，一条经过正则语法解析器处理后的操作信息

输出更新后的元组增量对象incObject

Begin

incObject＝incMap.get(nextOp.getId())；

//从incMap中取出对应的增量对象；

if(incObject＝＝nul1){

//生成一个新的元组增量对象，包含元组id；

incObject＝createIncObject(nextOp.getId())；

incMap.put(incObject.getId()，incObject)；

}

if(incObject.firstOp＝＝null){

//表示这是事务中对这个元组的第1条操作信息

incObject.firstOp＝nextOp；

}else{

//读入的操作信息只可能是updateOp或deleteOp

if(nextOp.type＝＝″update″){

incObject.lastOp＝incObject.lastOp∩nextOp；

}elseif(nextOp.type＝＝″delete″){

incObject.lastOp＝nextOp；

END。

再进一步的，模式匹配的公式如下：

sim(S1.ei，S2.ej)＝AGG(simf(S1.ei，S2.ej))；

此外，语义转换的方法为，用R_set表示语义转换规则集，R_set＝{r₁，r₂，...，r_n}，其中r_i表示某一条规则，i＝1，2，...，n，n为规则总数量，r_i＝(T，D，OT，O，R)；

除此之外，数据加密的方法包括如下步骤：

S4.1、系统参数的建立，随机选择一个数

计算P_pub＝sP，其中P为G₁的生成元，选择2个强密码杂凑函数

和

S4.2、签名：执行随机选择

计算R＝rP，输出针对M的签名σ＝(R，rP_pub+H₁(M，R)d_MACID)；

值得说明的是，数据压缩的方法采用Huffman编码算法，其算法包括如下步骤：

S5.3、在F中删除这两棵树，同时将新得到的二叉树加入F中；

S5.4、重复S5.2和S5.3，直到F中只含一棵树时为止。

本实施例的目的之二在于，提供一种多源风控数据清洗处理方法系统，包括：

多源数据采集模块，用于对历史数据和实时数据进行采集；

数据整合模块，用于将收集的数据进行整合处理；

数据清洗模块，用于对整合后的数据进行清洗处理。

需要说明的是，多源数据采集模块、数据整合模块、数据清洗模块的功能具体参见各模块对应的方法部分的描述，这里就不再赘述。

参阅图6，示出了本实施例所涉及的提供一种多源风控数据清洗处理装置结构示意图，该装置包括处理器、存储器和总线。

处理器包括一个或一个以上处理核心，处理器通过总线与处理器相连，存储器用于存储程序指令，处理器执行存储器中的程序指令时实现上述的多源风控数据清洗处理方法。

可选的，存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随时存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

此外，本发明还提供一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时实现上述的多源风控数据清洗处理方法。

可选的，本发明还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述各方面多源风控数据清洗处理方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，的程序可以存储与一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的仅为本发明的优选例，并不用来限制本发明，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种多源风控数据清洗处理方法，其特征在于：包括如下步骤：

(一)、多源数据采集阶段：

(二)、数据整合阶段：

(三)、数据清洗阶段：

S1.5、无效信息过滤，识别并剔除错误数据和重复数据；

S1.6、数据加密，对原始数据进行加密；

S1.7、数据压缩，对原始数据采用无损的压缩处理。

2.根据权利要求1所述的多源风控数据清洗处理方法，其特征在于：所述全量导入方式的方法包括如下步骤：

S2.2、获取数据源文件列表；

S2.3、准备目标数据库和目标数据表；

S2.4、确定数据源与目标字段，根据需要结合数据源文件的字段列表和目标数据表的字段列表，确定数据源文件的字段和目标数据表的字段，舍弃不需要的字段；

3.根据权利要求1所述的多源风控数据清洗处理方法，其特征在于：所述数据库日志解析的方法包括如下步骤：

S3.1、获取日志中间文件列表；

S3.2、逐条扫描日志中间文件中的记录；

S3.3、使用正则语法解析器处理SQL语句；

S3.4、对数据进行净效应处理；

S3.5、输出增量数据文件。

4.根据权利要求1所述的多源风控数据清洗处理方法，其特征在于：所述模式匹配的公式如下：

sim(S1.ei，S2.ej)＝AGG(simf(S1.ei，S2.ej))；

其中，ei与ej是分属于模式S1和S2的两个属性，simf是基于特征f的相似度算法，AGG为聚合函数。

5.根据权利要求1所述的多源风控数据清洗处理方法，其特征在于：所述语义转换的方法为，用R_set表示语义转换规则集，R_set＝{r₁，r₂，...，r_n}，其中r_i表示某一条规则，i＝1，2，...，n，n为规则总数量，r_i＝(T，D，OT，O，R)；

6.根据权利要求1所述的多源风控数据清洗处理方法，其特征在于：所述数据加密的方法包括如下步骤：

S4.1、系统参数的建立，随机选择一个数

计算P_pub＝sP，其中P为G₁的生成元，选择2个强密码杂凑函数H₁：

和H₂：

S4.2、签名：执行随机选择

计算R＝rP，输出针对M的签名σ＝(R，rP_pub+H₁(M，R)d_MACID)；

S4.3、验证：设σ＝(U，V)为针对M的签名，验证者需要执行：计算Q_MACID＝H₂(MACID)，计算u＝e(V，P)，计算v＝e(U+H₁(M，U)Q_MACID，P_pub)，如果u＝v，则输出接受签名，否则输出拒绝。

7.根据权利要求1所述的多源风控数据清洗处理方法，其特征在于：所述数据压缩的方法采用Huffman编码算法，其算法包括如下步骤：

S5.3、在F中删除这两棵树，同时将新得到的二叉树加入F中；

S5.4、重复S5.2和S5.3，直到F中只含一棵树时为止。

8.一种多源风控数据清洗处理装置，其特征在于：包括：

多源数据采集模块，用于对历史数据和实时数据进行采集；

数据整合模块，用于将收集的数据进行整合处理；

数据清洗模块，用于对整合后的数据进行清洗处理。

9.一种多源风控数据清洗处理装置，其特征在于：包括处理器、存储器以及存储在存储器中并在处理器上运行的计算机程序，处理器用于执行计算机程序时实现如权利要求1-7中任一所述的多源风控数据清洗处理方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现如权利要求1-7中任一所述的多源风控数据清洗处理方法。