CN111563068A - 一种多源风控数据清洗处理方法 - Google Patents

一种多源风控数据清洗处理方法 Download PDF

Info

Publication number
CN111563068A
CN111563068A CN202010418612.8A CN202010418612A CN111563068A CN 111563068 A CN111563068 A CN 111563068A CN 202010418612 A CN202010418612 A CN 202010418612A CN 111563068 A CN111563068 A CN 111563068A
Authority
CN
China
Prior art keywords
data
source
file
wind control
processing method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010418612.8A
Other languages
English (en)
Inventor
刘庆
王伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Building Materials Xinyun Zhilian Technology Co ltd
Cnbm Technology Corp ltd
Original Assignee
China Building Materials Xinyun Zhilian Technology Co ltd
Cnbm Technology Corp ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Building Materials Xinyun Zhilian Technology Co ltd, Cnbm Technology Corp ltd filed Critical China Building Materials Xinyun Zhilian Technology Co ltd
Priority to CN202010418612.8A priority Critical patent/CN111563068A/zh
Publication of CN111563068A publication Critical patent/CN111563068A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1805Append-only file systems, e.g. using logs or journals to store data
    • G06F16/1815Journaling file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • G06F16/162Delete operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2246Trees, e.g. B+trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2433Query languages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Bioethics (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及风控数据处理技术领域,具体地说,涉及一种多源风控数据清洗处理方法。包括历史数据采集,系统采用全量导入方式将风控历史数据导入;实时数据采集,系统基于数据库日志解析的方式来获取增量变更实现实时数据的同步;模式匹配,以属性的相似度为依据,对数据进行模式匹配;语义转换,将各异构数据源的属性数据转换成标准数据;无效信息过滤,识别并剔除错误数据和重复数据;数据加密,对原始数据进行加密;数据压缩,对原始数据采用无损的压缩处理。本发明设计的数据采用多源采集方式,同时实现数据的统一,便于数据处理,且能够减少无效数据,提升数据处理效率。

Description

一种多源风控数据清洗处理方法
技术领域
本发明涉及风控数据处理技术领域,具体地说,涉及一种多源风控数据清洗处理方法。
背景技术
风险存在于所有商业活动中,产生风险的来源不同,评估风险所需的策略、数据、模型会千差万别,因此,避免风险的方法是需要对风险进行分析,并掌握其规律,实现风险的控制,风险控制需要采集多源数据,由于数据来源不同,导致其数据种类不同,无法进行统一的分析,同时,数据中含有大量无用数据,在分析时,数据分析量庞大,导致数据分析效率低。
发明内容
本发明的目的在于提供一种多源风控数据清洗处理方法,以解决上述背景技术中提出的问题。
为实现上述技术问题的解决,本发明的目的之一在于,提供一种多源风控数据清洗处理方法,包括如下步骤:
(一)、多源数据采集阶段:
S1.1、历史数据采集,系统采用全量导入方式将风控历史数据导入;
S1.2、实时数据采集,系统基于数据库日志解析的方式来获取增量变更实现实时数据的同步;
(二)、数据整合阶段:
S1.3、模式匹配,以属性的相似度为依据,对数据进行模式匹配;
S1.4、语义转换,将各异构数据源的属性数据转换成标准数据;
(三)、数据清洗阶段:
S1.5、无效信息过滤,识别并剔除错误数据和重复数据;
S1.6、数据加密,对原始数据进行加密;
S1.7、数据压缩,对原始数据采用无损的压缩处理。
作为本技术方案的进一步改进,所述全量导入方式的方法包括如下步骤:
S2.1、查找对应文件的源文件,浏览对应的源文件,读取该文件下的所有的预设文件类型的数据文件名,并将有效的文件名记录到列表或者存储到文本文件中;
S2.2、获取数据源文件列表,一般情况下,同类型且同字段格式的放到一个文件夹下,因此,该文件夹下的所有文件的字段都是一样的,只需要读取文件名列表的第一个文件的所有字段,之后其他文件的字段就不需要重复读取,将这些数据源字段列举到新的列表中由用户挑选需要导人的字段;
S2.3、准备目标数据库和目标数据表,由用户来选择要导入到的目标服务器位置,如果是本地的服务器输人计算机名或IP地址即可,异地服务器需要输人对应的服务器IP地址,服务器连接成功后,继续选择该服务器下的数据库列表,以及所选数据库下的数据表列表;
S2.4、确定数据源与目标字段,根据需要结合数据源文件的字段列表和目标数据表的字段列表,确定数据源文件的字段和目标数据表的字段,舍弃不需要的字段,但应注意双方字段数量和字段类型要一致;
S2.5、生成导入新记录的表达式,根据数据源和目标字段自动生成新的数据导人操作表达式;
S2.6、按照数据源文件列表逐个打开、读取数据源文件记录,将需要导人的字段逐个导人到目标数据库。
作为本技术方案的进一步改进,所述数据库日志解析的方法包括如下步骤:
S3.1、获取日志中间文件列表;
S3.2、逐条扫描日志中间文件中的记录;
S3.3、使用正则语法解析器处理SQL语句;
S3.4、对数据进行净效应处理;
S3.5、输出增量数据文件。
所述净效应处理是在一次增量更新的过程中,对发生在同一元组上的操作序列进行压缩和优化处理,使得操作集合达到最小,并且最后得到的操作序列与最初的操作序列在本质上是相等的。
所述净效应处理算法如下:
输入nextOp,一条经过正则语法解析器处理后的操作信息
输出更新后的元组增量对象incObject
Begin
nextOp=read();//表示读入一条有关某个元组的//操作信息,它包含元组的标志;
incObject=incMap.get(nextOp.getId());
//从incMap中取出对应的增量对象;
if(incObject==null){
//生成一个新的元组增量对象,包含元组id;
incObject=createIncObject(nextOp.getId());
incMap.put(incObject.getId(),incObject);
}
if(incObject.firstOp==null){
//表示这是事务中对这个元组的第1条操作信息
incObject.firstOp=nextOp;
}else{
//读入的操作信息只可能是updateOp或deleteOp
if(nextOp.type==″update″){
//这是一条updateOp,将本次updateOp中的更新信息附//加到lastOp中
incObject.lastOp=incObject.lastOp∩nextOp;
}elseif(nextOp.type==″delete″){
//这是一条deleteOp,直接把lastOp替换为deleteOp,此//时这个元组的生存周期结束,之后不可能再读取到该元组//的操作信息
incObject.lastOp=nextOp;
END。
作为本技术方案的进一步改进,所述模式匹配的公式如下:
sim(S1.ei,S2.ej)=AGG(simf(S1.ei,S2.ej));
其中,ei与ej是分属于模式S1和S2的两个属性,simf是基于特征f的相似度算法,AGG为聚合函数,该公式根据一定的聚合规则,综合考虑多个相似度算法的结果,得出两个属性的最终相似度。
作为本技术方案的进一步改进,所述语义转换的方法为,用Rset表示语义转换规则集,Rset={r1,r2,...,rn},其中ri表示某一条规则,i=1,2,...,n,n为规则总数量,ri=(T,D,OT,O,R);
T为Type,语义转换问题类型标识;D为Data,语义转换层待处理的数据对象;OT为Operation Type,语义转换层所执行转换操作的触发器类型;O为Operation,语义转换具体操作;R为Reference,规则中操作。
作为本技术方案的进一步改进,所述数据加密的方法包括如下步骤:
S4.1、系统参数的建立,随机选择一个数
Figure BDA0002495981810000041
计算Ppub=sP,其中P为G1的生成元,选择2个强密码杂凑函数
Figure BDA0002495981810000042
Figure BDA0002495981810000043
其中H1将任意长度输入映射到固定长度,H2把用户身份ID映射到G1中的一个元素,最后PKG把s作为系统的私钥保存;
S4.2、签名:执行随机选择
Figure BDA0002495981810000044
计算R=rP,输出针对M的签名σ=(R,rPpub+H1(M,R)dMACID);
S4.3、验证:设σ=(U,V)为针对对M的签名,验证者需要执行:计算QMACID=H2(MACID),计算u=e(V,P),计算v=e(U+H1(M,U)QMACID,Ppub),如果u=v,则输出接受签名,否则输出拒绝。
作为本技术方案的进一步改进,所述数据压缩的方法采用Huffman编码算法,其算法包括如下步骤:
S5.1、根据n个权值{w1,w2,...,wn}构成n颗二叉树的集合F={T1,T2,...,Tn},其中每棵二叉树Ti中只有一个带权为wi的根结点,其左右子树均为空;
S5.2、在F中选取两棵根结点的权值最小的树作为左右子树来构造一棵新的二叉树,且置新的二叉树的根结点的权值为其左、右子树结点的根结点的权值之和;
S5.3、在F中删除这两棵树,同时将新得到的二叉树加入F中;
S5.4、重复S5.2和S5.3,直到F中只含一棵树时为止。
本发明的目的之二在于,提供一种多源风控数据清洗处理系统,包括:
多源数据采集模块,用于对历史数据和实时数据进行采集;
数据整合模块,用于将收集的数据进行整合处理;
数据清洗模块,用于对整合后的数据进行清洗处理。
本发明的目的之三在于,提供一种多源风控数据清洗处理装置,包括处理器、存储器以及存储在存储器中并在处理器上运行的计算机程序,处理器用于执行计算机程序时实现上述任一的多源风控数据清洗处理方法。
本发明的目的之四在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述任一的多源风控数据清洗处理方法。
与现有技术相比,本发明的有益效果:
1、该多源风控数据清洗处理方法中,采用历史数据采集和实时数据采集两种方式对数据进行多源采集,进而提高数据的全面性,便于对数据进行全面分析处理。
2、该多源风控数据清洗处理方法中,采用数据整合方法,以属性的相似度为依据,对数据进行模式匹配,并将各异构数据源的属性数据转换成标准数据,实现数据的统一,便于数据处理。
3、该多源风控数据清洗处理方法中,采用数据清洗方法,识别并剔除错误数据和重复数据,并对数据进行加密和压缩处理,减少无效数据,提升数据处理效率。
附图说明
图1为实施例1的整体流程框图;
图2为实施例1的全量导入方式方法流程框图;
图3为实施例1的数据库日志解析方法流程框图;
图4为实施例1的数据加密方法流程框图;
图5为实施例1的数据压缩的方法流程框图;
图6为实施例1的云平台装置结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
如图1-6所示,本实施例的目的之一在于,提供一种多源风控数据清洗处理方法,如下步骤:
(一)、多源数据采集阶段:
S1.1、历史数据采集,系统采用全量导入方式将风控历史数据导入;
S1.2、实时数据采集,系统基于数据库日志解析的方式来获取增量变更实现实时数据的同步;
(二)、数据整合阶段:
S1.3、模式匹配,以属性的相似度为依据,对数据进行模式匹配;
S1.4、语义转换,将各异构数据源的属性数据转换成标准数据;
(三)、数据清洗阶段:
S1.5、无效信息过滤,识别并剔除错误数据和重复数据;
S1.6、数据加密,对原始数据进行加密;
S1.7、数据压缩,对原始数据采用无损的压缩处理。
本实施例中,全量导入方式的方法包括如下步骤:
S2.1、查找对应文件的源文件,浏览对应的源文件,读取该文件下的所有的预设文件类型的数据文件名,并将有效的文件名记录到列表或者存储到文本文件中;
S2.2、获取数据源文件列表,一般情况下,同类型且同字段格式的放到一个文件夹下,因此,该文件夹下的所有文件的字段都是一样的,只需要读取文件名列表的第一个文件的所有字段,之后其他文件的字段就不需要重复读取,将这些数据源字段列举到新的列表中由用户挑选需要导人的字段;
S2.3、准备目标数据库和目标数据表,由用户来选择要导入到的目标服务器位置,如果是本地的服务器输人计算机名或IP地址即可,异地服务器需要输人对应的服务器IP地址,服务器连接成功后,继续选择该服务器下的数据库列表,以及所选数据库下的数据表列表;
S2.4、确定数据源与目标字段,根据需要结合数据源文件的字段列表和目标数据表的字段列表,确定数据源文件的字段和目标数据表的字段,舍弃不需要的字段,但应注意双方字段数量和字段类型要一致;
S2.5、生成导入新记录的表达式,根据数据源和目标字段自动生成新的数据导人操作表达式;
S2.6、按照数据源文件列表逐个打开、读取数据源文件记录,将需要导人的字段逐个导人到目标数据库。
进一步的,数据库日志解析的方法包括如下步骤:
S3.1、获取日志中间文件列表;
S3.2、逐条扫描日志中间文件中的记录;
S3.3、使用正则语法解析器处理SQL语句;
S3.4、对数据进行净效应处理;
S3.5、输出增量数据文件。
其中,净效应处理是在一次增量更新的过程中,对发生在同一元组上的操作序列进行压缩和优化处理,使得操作集合达到最小,并且最后得到的操作序列与最初的操作序列在本质上是相等的。
具体的,净效应处理算法如下:
输入nextOp,一条经过正则语法解析器处理后的操作信息
输出更新后的元组增量对象incObject
Begin
nextOp=read();//表示读入一条有关某个元组的//操作信息,它包含元组的标志;
incObject=incMap.get(nextOp.getId());
//从incMap中取出对应的增量对象;
if(incObject==nul1){
//生成一个新的元组增量对象,包含元组id;
incObject=createIncObject(nextOp.getId());
incMap.put(incObject.getId(),incObject);
}
if(incObject.firstOp==null){
//表示这是事务中对这个元组的第1条操作信息
incObject.firstOp=nextOp;
}else{
//读入的操作信息只可能是updateOp或deleteOp
if(nextOp.type==″update″){
//这是一条updateOp,将本次updateOp中的更新信息附//加到lastOp中
incObject.lastOp=incObject.lastOp∩nextOp;
}elseif(nextOp.type==″delete″){
//这是一条deleteOp,直接把lastOp替换为deleteOp,此//时这个元组的生存周期结束,之后不可能再读取到该元组//的操作信息
incObject.lastOp=nextOp;
END。
再进一步的,模式匹配的公式如下:
sim(S1.ei,S2.ej)=AGG(simf(S1.ei,S2.ej));
其中,ei与ej是分属于模式S1和S2的两个属性,simf是基于特征f的相似度算法,AGG为聚合函数,该公式根据一定的聚合规则,综合考虑多个相似度算法的结果,得出两个属性的最终相似度。
此外,语义转换的方法为,用Rset表示语义转换规则集,Rset={r1,r2,...,rn},其中ri表示某一条规则,i=1,2,...,n,n为规则总数量,ri=(T,D,OT,O,R);
T为Type,语义转换问题类型标识;D为Data,语义转换层待处理的数据对象;OT为Operation Type,语义转换层所执行转换操作的触发器类型;O为Operation,语义转换具体操作;R为Reference,规则中操作。
除此之外,数据加密的方法包括如下步骤:
S4.1、系统参数的建立,随机选择一个数
Figure BDA0002495981810000091
计算Ppub=sP,其中P为G1的生成元,选择2个强密码杂凑函数
Figure BDA0002495981810000092
Figure BDA0002495981810000093
其中H1将任意长度输入映射到固定长度,H2把用户身份ID映射到G1中的一个元素,最后PKG把s作为系统的私钥保存;
S4.2、签名:执行随机选择
Figure BDA0002495981810000094
计算R=rP,输出针对M的签名σ=(R,rPpub+H1(M,R)dMACID);
S4.3、验证:设σ=(U,V)为针对对M的签名,验证者需要执行:计算QMACID=H2(MACID),计算u=e(V,P),计算v=e(U+H1(M,u)QMACID,Ppub),如果u=v,则输出接受签名,否则输出拒绝。
值得说明的是,数据压缩的方法采用Huffman编码算法,其算法包括如下步骤:
S5.1、根据n个权值{w1,w2,...,wn}构成n颗二叉树的集合F={T1,T2,...,Tn},其中每棵二叉树Ti中只有一个带权为wi的根结点,其左右子树均为空;
S5.2、在F中选取两棵根结点的权值最小的树作为左右子树来构造一棵新的二叉树,且置新的二叉树的根结点的权值为其左、右子树结点的根结点的权值之和;
S5.3、在F中删除这两棵树,同时将新得到的二叉树加入F中;
S5.4、重复S5.2和S5.3,直到F中只含一棵树时为止。
本实施例的目的之二在于,提供一种多源风控数据清洗处理方法系统,包括:
多源数据采集模块,用于对历史数据和实时数据进行采集;
数据整合模块,用于将收集的数据进行整合处理;
数据清洗模块,用于对整合后的数据进行清洗处理。
需要说明的是,多源数据采集模块、数据整合模块、数据清洗模块的功能具体参见各模块对应的方法部分的描述,这里就不再赘述。
参阅图6,示出了本实施例所涉及的提供一种多源风控数据清洗处理装置结构示意图,该装置包括处理器、存储器和总线。
处理器包括一个或一个以上处理核心,处理器通过总线与处理器相连,存储器用于存储程序指令,处理器执行存储器中的程序指令时实现上述的多源风控数据清洗处理方法。
可选的,存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随时存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
此外,本发明还提供一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现上述的多源风控数据清洗处理方法。
可选的,本发明还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述各方面多源风控数据清洗处理方法。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,的程序可以存储与一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的仅为本发明的优选例,并不用来限制本发明,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (10)

1.一种多源风控数据清洗处理方法,其特征在于:包括如下步骤:
(一)、多源数据采集阶段:
S1.1、历史数据采集,系统采用全量导入方式将风控历史数据导入;
S1.2、实时数据采集,系统基于数据库日志解析的方式来获取增量变更实现实时数据的同步;
(二)、数据整合阶段:
S1.3、模式匹配,以属性的相似度为依据,对数据进行模式匹配;
S1.4、语义转换,将各异构数据源的属性数据转换成标准数据;
(三)、数据清洗阶段:
S1.5、无效信息过滤,识别并剔除错误数据和重复数据;
S1.6、数据加密,对原始数据进行加密;
S1.7、数据压缩,对原始数据采用无损的压缩处理。
2.根据权利要求1所述的多源风控数据清洗处理方法,其特征在于:所述全量导入方式的方法包括如下步骤:
S2.1、查找对应文件的源文件,浏览对应的源文件,读取该文件下的所有的预设文件类型的数据文件名,并将有效的文件名记录到列表或者存储到文本文件中;
S2.2、获取数据源文件列表;
S2.3、准备目标数据库和目标数据表;
S2.4、确定数据源与目标字段,根据需要结合数据源文件的字段列表和目标数据表的字段列表,确定数据源文件的字段和目标数据表的字段,舍弃不需要的字段;
S2.5、生成导入新记录的表达式,根据数据源和目标字段自动生成新的数据导人操作表达式;
S2.6、按照数据源文件列表逐个打开、读取数据源文件记录,将需要导人的字段逐个导人到目标数据库。
3.根据权利要求1所述的多源风控数据清洗处理方法,其特征在于:所述数据库日志解析的方法包括如下步骤:
S3.1、获取日志中间文件列表;
S3.2、逐条扫描日志中间文件中的记录;
S3.3、使用正则语法解析器处理SQL语句;
S3.4、对数据进行净效应处理;
S3.5、输出增量数据文件。
4.根据权利要求1所述的多源风控数据清洗处理方法,其特征在于:所述模式匹配的公式如下:
sim(S1.ei,S2.ej)=AGG(simf(S1.ei,S2.ej));
其中,ei与ej是分属于模式S1和S2的两个属性,simf是基于特征f的相似度算法,AGG为聚合函数。
5.根据权利要求1所述的多源风控数据清洗处理方法,其特征在于:所述语义转换的方法为,用Rset表示语义转换规则集,Rset={r1,r2,...,rn},其中ri表示某一条规则,i=1,2,...,n,n为规则总数量,ri=(T,D,OT,O,R);
T为Type,语义转换问题类型标识;D为Data,语义转换层待处理的数据对象;OT为Operation Type,语义转换层所执行转换操作的触发器类型;O为Operation,语义转换具体操作;R为Reference,规则中操作。
6.根据权利要求1所述的多源风控数据清洗处理方法,其特征在于:所述数据加密的方法包括如下步骤:
S4.1、系统参数的建立,随机选择一个数
Figure FDA0002495981800000021
计算Ppub=sP,其中P为G1的生成元,选择2个强密码杂凑函数H1
Figure FDA0002495981800000022
和H2
Figure FDA0002495981800000023
其中H1将任意长度输入映射到固定长度,H2把用户身份ID映射到G1中的一个元素,最后PKG把s作为系统的私钥保存;
S4.2、签名:执行随机选择
Figure FDA0002495981800000024
计算R=rP,输出针对M的签名σ=(R,rPpub+H1(M,R)dMACID);
S4.3、验证:设σ=(U,V)为针对M的签名,验证者需要执行:计算QMACID=H2(MACID),计算u=e(V,P),计算v=e(U+H1(M,U)QMACID,Ppub),如果u=v,则输出接受签名,否则输出拒绝。
7.根据权利要求1所述的多源风控数据清洗处理方法,其特征在于:所述数据压缩的方法采用Huffman编码算法,其算法包括如下步骤:
S5.1、根据n个权值{w1,w2,...,wn}构成n颗二叉树的集合F={T1,T2,...,Tn},其中每棵二叉树Ti中只有一个带权为wi的根结点,其左右子树均为空;
S5.2、在F中选取两棵根结点的权值最小的树作为左右子树来构造一棵新的二叉树,且置新的二叉树的根结点的权值为其左、右子树结点的根结点的权值之和;
S5.3、在F中删除这两棵树,同时将新得到的二叉树加入F中;
S5.4、重复S5.2和S5.3,直到F中只含一棵树时为止。
8.一种多源风控数据清洗处理装置,其特征在于:包括:
多源数据采集模块,用于对历史数据和实时数据进行采集;
数据整合模块,用于将收集的数据进行整合处理;
数据清洗模块,用于对整合后的数据进行清洗处理。
9.一种多源风控数据清洗处理装置,其特征在于:包括处理器、存储器以及存储在存储器中并在处理器上运行的计算机程序,处理器用于执行计算机程序时实现如权利要求1-7中任一所述的多源风控数据清洗处理方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求1-7中任一所述的多源风控数据清洗处理方法。
CN202010418612.8A 2020-05-18 2020-05-18 一种多源风控数据清洗处理方法 Pending CN111563068A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010418612.8A CN111563068A (zh) 2020-05-18 2020-05-18 一种多源风控数据清洗处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010418612.8A CN111563068A (zh) 2020-05-18 2020-05-18 一种多源风控数据清洗处理方法

Publications (1)

Publication Number Publication Date
CN111563068A true CN111563068A (zh) 2020-08-21

Family

ID=72074765

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010418612.8A Pending CN111563068A (zh) 2020-05-18 2020-05-18 一种多源风控数据清洗处理方法

Country Status (1)

Country Link
CN (1) CN111563068A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113190608A (zh) * 2021-05-28 2021-07-30 北京红山信息科技研究院有限公司 数据标准化采集方法、装置、设备及存储介质
CN113359553A (zh) * 2021-06-04 2021-09-07 金保信社保卡科技有限公司 就业在线数据大屏系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105069142A (zh) * 2015-08-18 2015-11-18 山大地纬软件股份有限公司 数据增量抽取转换与分发系统及方法
CN107294972A (zh) * 2017-06-20 2017-10-24 西北工业大学 基于身份的广义多接收者匿名签密方法
CN109959401A (zh) * 2019-03-26 2019-07-02 中国科学院光电技术研究所 一种光电轴角编码器的快速编码方法
CN110069478A (zh) * 2017-12-01 2019-07-30 广州明领基因科技有限公司 面向医疗大数据的多源异构数据整合系统
CN110389937A (zh) * 2019-07-26 2019-10-29 上海英方软件股份有限公司 一种基于数据库数据同步传输文件的方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105069142A (zh) * 2015-08-18 2015-11-18 山大地纬软件股份有限公司 数据增量抽取转换与分发系统及方法
CN107294972A (zh) * 2017-06-20 2017-10-24 西北工业大学 基于身份的广义多接收者匿名签密方法
CN110069478A (zh) * 2017-12-01 2019-07-30 广州明领基因科技有限公司 面向医疗大数据的多源异构数据整合系统
CN109959401A (zh) * 2019-03-26 2019-07-02 中国科学院光电技术研究所 一种光电轴角编码器的快速编码方法
CN110389937A (zh) * 2019-07-26 2019-10-29 上海英方软件股份有限公司 一种基于数据库数据同步传输文件的方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113190608A (zh) * 2021-05-28 2021-07-30 北京红山信息科技研究院有限公司 数据标准化采集方法、装置、设备及存储介质
CN113359553A (zh) * 2021-06-04 2021-09-07 金保信社保卡科技有限公司 就业在线数据大屏系统

Similar Documents

Publication Publication Date Title
US20230126005A1 (en) Consistent filtering of machine learning data
US11379755B2 (en) Feature processing tradeoff management
US10713589B1 (en) Consistent sort-based record-level shuffling of machine learning data
US10318882B2 (en) Optimized training of linear machine learning models
US10339465B2 (en) Optimized decision tree based models
US11182691B1 (en) Category-based sampling of machine learning data
US8065326B2 (en) System and method for building decision trees in a database
US20150379072A1 (en) Input processing for machine learning
US20150302197A1 (en) Apparatus and Method for Identifying Similarity Via Dynamic Decimation of Token Sequence N-Grams
US20070185896A1 (en) Binning predictors using per-predictor trees and MDL pruning
Gawrychowski Pattern matching in Lempel-Ziv compressed strings: fast, simple, and deterministic
CN111523072B (zh) 页面访问数据统计方法、装置、电子设备及存储介质
Fill et al. Singularity analysis, Hadamard products, and tree recurrences
US20120221503A1 (en) Systems and methods for generating interpolation data template to normalize analytic runs
CN111563068A (zh) 一种多源风控数据清洗处理方法
WO2021139074A1 (zh) 基于知识图谱的案件检索方法、装置、设备及存储介质
WO2020211393A1 (zh) 判决文书信息检索方法、装置、计算机设备和存储介质
CN111782763A (zh) 基于语音语义的信息检索方法、及其相关设备
CN109145003A (zh) 一种构建知识图谱的方法及装置
CN106874425A (zh) 基于Storm的实时关键词近似搜索算法
CN111309852B (zh) 生成可视化决策树集模型的方法、系统、装置及存储介质
CN115641092A (zh) 实现数据核查计划导入自动生成逻辑核查的方法和系统
US20180198860A1 (en) Irc-infoid data standardization for use in a plurality of mobile applications
CN109408643A (zh) 基金相似度计算方法、系统、计算机设备和存储介质
CN109977977A (zh) 一种识别潜在用户的方法及对应装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination