CN114139490A - 一种自动数据预处理的方法、装置以及设备 - Google Patents

一种自动数据预处理的方法、装置以及设备 Download PDF

Info

Publication number
CN114139490A
CN114139490A CN202210115352.6A CN202210115352A CN114139490A CN 114139490 A CN114139490 A CN 114139490A CN 202210115352 A CN202210115352 A CN 202210115352A CN 114139490 A CN114139490 A CN 114139490A
Authority
CN
China
Prior art keywords
field
data
bad
processed
mapping
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210115352.6A
Other languages
English (en)
Other versions
CN114139490B (zh
Inventor
庄涤坤
刘建新
赵雪
黄平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jianyuan Heguang Beijing Technology Co ltd
Original Assignee
Jianyuan Heguang Beijing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jianyuan Heguang Beijing Technology Co ltd filed Critical Jianyuan Heguang Beijing Technology Co ltd
Priority to CN202210115352.6A priority Critical patent/CN114139490B/zh
Publication of CN114139490A publication Critical patent/CN114139490A/zh
Application granted granted Critical
Publication of CN114139490B publication Critical patent/CN114139490B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Business, Economics & Management (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • General Health & Medical Sciences (AREA)
  • Development Economics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Technology Law (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Stored Programmes (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种自动数据预处理的方法、装置、设备以及计算机可读存储介质包括:将待处理不良资产包输入自动数据处理系统,读取待处理不良资产包的项目名称;根据项目名称,调用字段统一映射模板文件中待处理不良资产包的数据字段与标准字段的映射关系;将不良资产包中的字段统一映射为字段统一映射模板文件中的标准字段,输出映射后的不良资产包;根据字段统一映射模板文件中数据处理的规则,将映射后的不良资产包中所有非空的单元格进行数据处理,输出处理后的不良资产包。本发明使用自动化的处理方法,提高数据处理的效率,解决了现有技术依靠人力对不同不良资产包数据进行个性化手工处理的弊端,并减少人工处理中可能带来的数据质量问题。

Description

一种自动数据预处理的方法、装置以及设备
技术领域
本发明涉及资产数据处理技术领域,特别是涉及一种自动数据预处理的方法、装置、设备以及计算机可读存储介质。
背景技术
不良资产管理是指专门处置银行等金融或者非金融机构剥离的不良资产的金融资产管理公司所从事的不良资产清查、收购、交易及催收等业务。资产管理公司(AssetManagement Corporation,简称AMC)所获取或者收购的不良资产通常来自多个渠道,这些渠道包括目前国内外各类银行、消费金融公司和小额贷款公司等。
购买到一个不良资产包后,资产管理公司首要的任务是对资产有一个清晰的梳理和理解,对资产质量进行初步评估,并在此基础上进一步利用数据分析等技术进行资产包整体和个案的预测分析,例如通过构建机器学习模型逐一分析每笔不良资产的回收概率,并根据其结果指导后续的不良资产回收策略。
由于不良资产的来源众多,金融行业各个公司所使用的数据格式、字段约定和取值定义都千差万别,这也就造成了资产管理公司所面对的每笔不良资产存在格式不统一,无法进行统一存储和统一处理的问题。目前行业内比较典型的处理方式是各类数据单独定制化处理,并无一个统一的数据存储、数据管理、数据共享和共债管理系统。有些资产管理公司开始对数据进行统一管理,对字段命名规则进行规范,并对每笔不良资产进行相应的数据预处理,以便完成从个性化数据到通用化数据的映射和转换。
但是目前鉴于这些映射和转换的工作极其个性化和定制化,这部分工作大多采用人工处理方式,即由专门的数据处理人员对每个字段进行逐一分析,并映射为正确的字段,存储后供后续数据分析和机器学习模型预测。
综上所述可以看出,如何通过一种方法处理来自不同银行的不良资产包是目前有待解决的问题。
发明内容
本发明的目的是提供一种自动数据预处理的方法、装置、设备以及计算机可读存储介质解决了现有技术中不能通过一种方法处理来自各类银行不良资产包的问题。
为解决上述技术问题,本发明提供一种自动数据预处理的方法包括:
构建字段映射模板文件,所述字段映射模板文件包括标准字段与各类不良资产包数据字段的映射关系,以及数据处理的规则;
将待处理不良资产包输入自动数据处理系统,读取所述待处理不良资产包的项目名称;
根据所述项目名称,调用字段统一映射模板文件中所述待处理不良资产包的数据字段与标准字段的映射关系;
根据所述待处理不良资产包的数据字段与标准字段的映射关系,将所述不良资产包中的字段统一映射为所述字段统一映射模板文件中的标准字段,输出映射后的不良资产包;
根据所述字段统一映射模板文件中数据处理的规则,将所述映射后的不良资产包中所有非空的单元格进行数据处理,输出处理后的不良资产包。
优选地,所述字段映射模板文件包括还包括:资产催收概率的预测规则和标准字段的数据类型。
优选地,所述根据所述字段统一映射模板文件中数据处理的规则,将所述映射后的不良资产包中所有非空的单元格进行数据处理,输出处理后的不良资产包后包括:
根据所述字段统一映射模板文件中资产催收概率的预测规则,将所述处理后的不良资产包进行催收概率预测,将催收概率预测结果储存为新的特征变量,输出目标不良资产包,并输出数据质量分析报告。
优选地,还包括:当增加新类型不良资产包时,将所述新类型不良资产包的数据字段与标准字段的映射关系以及新类型不良资产包的处理规则输入所述字段统一映射模板文件中,便可实现对所述新类型不良资产包进行数据处理。
优选地,所述将待处理不良资产包输入自动数据处理系统,读取所述待处理不良资产包的项目名称包括:
当所述待处理不良资产包是以文件名格式命名时,提取所述不良资产包的文件名称作为项目名称。
优选地,所述根据所述待处理不良资产包的数据字段与标准字段的映射关系,将所述不良资产包中的字段统一映射为所述字段统一映射模板文件中的标准字段,输出映射后的不良资产包包括:
判断所述待处理不良资产包中的字段是否为所述字段统一映射模板文件中的标准字段;
若所述待处理不良资产包中的字段是所述字段统一映射模板文件中的标准字段,则所述待处理不良资产包中的字段保持不变;
若所述待处理不良资产包中的字段不是所述字段统一映射模板文件中的标准字段,则将所述待处理不良资产包中的字段映射为标准字段。
优选地,所述根据所述字段统一映射模板文件中数据处理的规则,将所述映射后的不良资产包中所有非空的单元格进行数据处理,输出处理后的不良资产包包括:
检测所述映射后的不良资产包中所有非空且非calc开头的单元格,基于所述字段统一映射模板文件中的规则,对所述所有非空且非calc开头的单元格内的数据进行数据清洗,得到数据清洗后的不良资产包;
检测所述数据清洗后的不良资产包中所有calc开头的单元格,基于所述字段统一映射模板文件中的规则,对所述所有calc开头的单元格进行特征计算,得到特征计算后的不良资产包;
检测所述特征计算后的不良资产包中所有非空行的单元格,基于所述字段统一映射模板文件中的规则,判断所述所有非空行的单元格中的字符是否符合目标字段类型格式,若不符合所述目标字段类型格式,则进行修复处理,输出数据处理后的不良资产包。
本发明还提供了一种通用自动数据处理的装置,包括:
构建文件模块,用于构建字段映射模板文件,所述字段映射模板文件包括标准字段与各类不良资产包数据字段的映射关系,以及数据处理的规则;
数据读取模块,用于将待处理不良资产包输入自动数据处理系统,读取所述待处理不良资产包的项目名称;
数据映射调用模块,用于根据所述项目名称,调用字段统一映射模板文件中所述待处理不良资产包的数据字段与标准字段的映射关系;
字段映射处理模块,用于根据所述待处理不良资产包的数据字段与标准字段的映射关系,将所述不良资产包中的字段统一映射为所述字段统一映射模板文件中的标准字段,输出映射后的不良资产包;
数据处理模块,用于根据所述字段统一映射模板文件中数据处理的规则,将所述映射后的不良资产包中所有非空的单元格进行数据处理,输出处理后的不良资产包。
本发明还提供了一种通用自动数据处理的设备,包括:
存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现上述一种自动数据预处理的方法的步骤。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述一种自动数据预处理的方法的步骤。
本发明所提供的一种自动数据预处理的方法,将待处理不良资产包输入自动数据处理系统中,读取待处理不良资产包的项目名称,根据项目名称,调用字段统一映射模板文件中所述待处理不良资产包的数据字段与标准字段的映射关系,根据映射关系将所述待处理不良资产包中的字段统一映射为所述字段统一映射模板中的标准字段,得到映射后的不良资产包,然后根据所述字段映射统一文件中的规则,将所述映射后的不良资产包中所有非空的单元格进行数据处理,得到处理后的不良资产包。本发明通过覆盖目前待处理不良资产包和规则构建字段统一映射模板文件,通用自动数据处理模型通过字段统一映射模板文件的数据可以自动处理不同类型的不良资产包,提高了数据处理的速度,便于工作人员进行下一步的工作,解决了现有技术中一种系统只能处理一类不良资产包的弊端。
附图说明
为了更清楚的说明本发明实施例或现有技术的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明所提供的自动数据预处理的方法的第一种具体实施例的流程图;
图2为本发明所提供的自动数据预处理的方法方法的第二种具体实施例的流程图;
图3为字段统一映射模板文件示意图;
图4为自动数据处理系统结构示意图;
图5为本发明所提供的自动数据预处理的方法的第三种具体实施例的流程图;
图6为本发明实施例提供的自动数据预处理的装置的结构框图。
具体实施方式
本发明的核心是提供一种自动数据预处理的方法、装置、设备以及计算机可读存储介质,利用字段统一映射模板文件实现可以将待处理不良资产包处理为标准规格的不良资产包。
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参考图1,图1为本发明所提供的自动数据预处理的方法的第一种具体实施例的流程图;具体操作步骤如下:
步骤S101:构建字段映射模板文件,所述字段映射模板文件包括标准字段与各类不良资产包数据字段的映射关系,以及数据处理的规则;
一个包括自动数据处理各个阶段处理规则的数据字段统一映射模版,包括统一字段名称映射、字段数据类型定义、字段格式约定及核验、数据清洗和异常处理、特征创建及衍生、模型调用及预测。以及在以上各个阶段中所定义的各类不同处理方法的详细语法描述。
步骤S102:将待处理不良资产包输入自动数据处理系统,读取所述待处理不良资产包的项目名称;
步骤S103:根据所述项目名称,调用字段统一映射模板文件中所述待处理不良资产包的数据字段与标准字段的映射关系;
步骤S104:根据所述待处理不良资产包的数据字段与标准字段的映射关系,将所述不良资产包中的字段统一映射为所述字段统一映射模板文件中的标准字段,输出映射后的不良资产包;
步骤S105:根据所述字段统一映射模板文件中数据处理的规则,将所述映射后的不良资产包中所有非空的单元格进行数据处理,输出处理后的不良资产包。
在本实施例中,首先将待处理不良资产包输入自动数据处理系统中,读取待处理不良资产包项目名称,根据项目名称调用字段统一映射模板文件中所述待处理不良资产包的数据字段与标准字段的映射关系,根据映射关系将所述待处理的不良资产包中的字段统一映射为所述字段统一映射模板中的标准字段,得到映射后的不良资产包,然后根据所述字段映射统一文件中的规则,将所述映射后的不良资产包中所有非空的单元格进行数据处理,得到处理后的不良资产包。本发明通过通用自动数据处理模型以及字段统一映射模板文件实现了处理不同类型的不良资产包,实现全自动,提高数据处理效率,便于工作人员进行下一步工作,解决了现有技术中一种系统只能处理一类不良资产包的弊端。
基于上述实施例,本实施例对上述实施例中数据处理步骤进行更加详细的说明,请参考图2,图2为本发明所提供的自动数据预处理的方法的第二种具体实施例的流程图;具体操作步骤如下:
步骤S201:将待处理不良资产包输入自动数据处理系统;
步骤S202:判断所述待处理不良资产包的项目名称是否为文件名格式命名,若所述待处理不良资产包的项目名称是文件名格式命名,则在文件名中读取所述项目名称,若所述待处理不良资产包的项目名称不是文件名格式命名,则利用其他约定方式读取所述项目名称;
字段统一映射模版文件采用Excel文件格式进行存储,如图3所示,其中每一行的粒度为一个标准字段,如图4为通用自动数据处理模型图。
字段统一映射模版文件包括若干列,各列的含义为:
图3中“标准字段名称”列表示系统定义的标准字段名称。所有资产包项目数据的原始字段名称都需要分别映射为本列的标准字段名。
图3中“字段类型”列表示“标准字段名称”的数据类型。数据类型包括:int:整数类型,float:浮点类型,str:字符串类型,date:日期时间类型。
图3中“数据清洗”列表示对每一个标准字段所进行的数据清洗操作。这些操作可以包括一个或者多个数据清洗动作,多个动作采用列表方式表示,例如[清洗动作1,清洗动作2,清洗动作3],对于列表中的数据清洗动作,系统将采用顺序执行方式。数据清洗动作可以扩展到各类数据清洗方法,以下为数据清洗动作某些范例:
fillna('U'):对该字段进行缺失值/空值填充处理,即如果该字段在某行数据中存在空值,则利用fillna中的数值或者表达式对空值进行自动替换。
replace(',', ''):对字段中的字符串进行替换处理。该操作首先查询所在字段中否存在replace括号中第一个参数,如果存在则使用replace中的第二个参数对第一个参数进行替换处理。在本例中将对所有“,”即逗号统一替换为“”,即空字符。
outlier.remove(“mean-3*std”,“mean+3*std”):表示对于outlier进行特殊处理,处理动作为remove,即删除。需要删除的数据包括小于第一个参数的数据和大于第二个参数的数据,在本例中表示删除所有数值小于本字段均值–3*标准差(mean-3*std)的数据,以及所有数值大于本字段均值–3*标准差(mean-3*std)的数据。
图3中“校验格式”列表示对标准字段进行格式核验。各个字段的格式与其业务场景和具体含义有关,例如对于身份证字段,需要为一个18位的字符串,其中前17位为数字,最后一位是数字、小写字母x或者大学字母X,其校验格式表达式则为“\d{17}[0-9,x,X]$”。再如对于手机号码,其校验格式表达式则为“\d{11}$”。
针对每个资产包项目,在字段统一映射模版文件都作为独立的一列进行定义。每个资产包项目分别对应到不同的不良资产出让方,包括但不限于各类金融机构和非金融机构,如银行、小额贷款机构、融资租赁机构、车贷机构等等。每一个项目均为独立的一列,在示例中,其中“西北消金”和“燕赵银行”表示两个独立的资产包项目。对于每个项目所在列中的每个单元格,存在三种数值格式:
1、一个字段名称:表示该项目对应某个“标准字段名称”的相应原始字段名。即该原始字段名与标准字段是一种映射关系;
2、一个计算公式:表示该字段使用特征工程方法,利用数据中的原有信息进行数据变换和数据衍生,从而得到的一个新的字段或者特征。计算字段用“__calc__”开头,后面的[ ]内为计算公式,例如:“__calc__["M"+str(div("逾期天数",30))]”:这里“"M"+str(div("逾期天数",30))”则为该字段的计算公式;
3、一个机器学习模型:表示该项目将使用本单元格内的机器学习模型等相关参数进行催回率预测及价值评估。一个机器学习模型使用“__model__”开头,例如__model__{‘model’:‘model_yanzhaobank_v15.pkl’,‘feature’:‘features_yanzhaobank_v15.pkl’}。其中{}内代表预测所使用的模型文件名称以及本模型所使用的所有特征名称。
数据读取模块负责原始数据的读取,系统支持各类主流的文件格式,例如excel、csv、json等。在数据读取模块需要提取原始数据的项目名称,以便后续与映射文件中相应的项目列相对应。原始数据的项目名称支持通过两种方式读取:
1、使用统一的文件名命名格式,在文件名中读取。如文件名第一个下划线之前的字符为项目名称。例如文件名为:西北消金_M3+_20210101.xlsx,则该资产包项目名称为“西北消金”;
2、通过其他约定,如在Excel数据文件表单“project”读取;
3、系统优先采用第一种方式读取资产包项目名称,如果文件名格式不符合规则1,则通过第二种方式读取;
4、因为系统无法对未包含项目名称的数据查找其映射规则以及数据处理方式,如果以上两种方式均读取项目名称失败,则返回错误,终止项目数据后续处理。
步骤S203:判断所述待处理不良资产包中的字段是否为所述字段统一映射模板文件中的标准字段,若所述待处理不良资产包中的字段是所述字段统一映射模板文件中的标准字段,则所述待处理不良资产包中的字段保持不变,若所述待处理不良资产包中的字段不是所述字段统一映射模板文件中的标准字段,则将所述待处理不良资产包中的字段映射为标准字段;
数据读取成功后,系统进入字段映射模块。该模块处理规则如下:
1、在数据统一映射文件中提取本次数据所属项目的所在列,例如本次数据为燕赵银行,则提取映射文件中的“燕赵银行”列;
2、在此列中找出所有非空而且非“__calc__”开头的单元格,这些单元格的值即为原始数据中各字段的原始名称;
3、对于每个原始字段名称,进行如下操作:
(1)、在此原始字段所在行中,找到对应的“标准字段名称”列的值,此值即为该原始字段所应该对应的标准字段名。
(2)、对原始数据文件进行字段名替换,即将原始字段名修改为上述查找到的标准字段名。例如原始文件中字段名为“证件号码”,对应统一映射文件中的标准字段名称为“证件号”,则将原始数据文件中的“证件号码”字段名修改为“证件号”。
步骤S204:检测所述映射后的不良资产包中所有非空且非calc开头的单元格,基于所述字段统一映射模板文件中的规则,对所述所有非空且非calc开头的单元格内的数据进行数据清洗,得到数据清洗后的不良资产包;
数据清洗模块处理规则如下:
1、对于项目名称列中找出所有非空且非“__calc__”开头的单元格,逐行查找统一映射文件中其所在行的“数据清洗”列是否为空;
2、如果不为空,则检查其数值,根据数值分别进行数据清洗处理。目前系统支持的数据清洗处理包括如下:
fillna('U'):对该字段进行缺失值/空值填充处理,即如果该字段在某行数据中存在空值,则利用fillna中的数值或者表达式对空值进行自动替换。
replace(',', ''):对字段中的字符串进行替换处理。该操作首先查询所在字段中否存在replace括号中第一个参数,如果存在则使用replace中的第二个参数对第一个参数进行替换处理。在本例中将对所有“,”即逗号统一替换为“”,即空字符。
outlier.remove(“mean-3*std”,“mean+3*std”):表示对于outlier进行特殊处理,处理动作为remove,即删除。需要删除的数据包括小于第一个参数的数据和大于第二个参数的数据,在本例中表示删除所有数值小于本字段均值–3*标准差(mean-3*std)的数据,以及所有数值大于本字段均值–3*标准差(mean-3*std)的数据。
duplicate(action=“delete”,method=‘last’):使用当前字段检查是否存在重复行。如果存在重复行,则进行重复项的删除。例如“合同编号”作为数据的唯一标识,如果存在两行数据使用同一合同编号,则首先查找action参数值,然后查找method参数值进行处理。例如action为delete,method为last,则表示将删除重复行,删除时保留最后一行数据。
数据清洗处理支持灵活扩展,在本框架下,可以定义各种标准及定制化的数据清洗方法。
步骤S205:检测所述数据清洗后的不良资产包中所有calc开头的单元格,基于所述字段统一映射模板文件中的规则,对所述所有calc开头的单元格进行特征计算,得到特征计算后的不良资产包;
特征工程处理规则如下:
统一映射文件中,对于项目名称所在列中所有“__calc__”开头的单元格,根据“[ ]”内的特征工程表达式,依次执行,创建新的特征变量。
系统支持以下特征工程表达式,并可以根据需求灵活扩展。对应每类特征工程表达式,系统中均有相应的处理子模块。
以下为部分示例:[substring("证件号",8,2)]:表示创建一个新的字段(特征),字段名称为映射文件中本公式所在行和“标准字段名称”所在列的单元格取值。例如本公式所对应的字段名应为“年龄”。该字段的创建方法为取括号内第一个参数“证件号”的子字符串,该子字符串从第8个字符(首个字符顺序号为0)开始,数量为2个。
[sum("剩余本金","剩余利息")]:本公式中新字段为数据中"剩余本金"和"剩余利息"两个字段之和。
["M"+str(div("逾期天数",30))]:本公式中新字段为“逾期天数”字段除以30后取整转换为字符类型后,前面增加一个字符“M”。例如一个数据样本的“逾期天数”为160,160除以30后取整为5,则新字段的取值为“M5”。
[Func:aging_mapping("逾期天数",project))]:本公式中新字段取值不是直接利用一个公式就可以得到,而是指明了需要调用的计算函数,函数名称为“Func:”后面部分,本例中函数名称为aging_mapping。这种函数的定义方式主要适用于复杂的特征计算场景,特别是单一公式难以或者无法完成的特殊计算。在本例中该函数需要根据第一参数“逾期天数”字段和第二参数project进行更为复杂的个性化映射关系。具体函数的实现在系统软件中实现。
特征工程所使用计算表达式支持灵活扩展,系统目前支持一下各类操作,包括:
数值类型的加、减、乘、除、平方、标准化、log等各类运算;
字符串类型的字串、字符查找及替换、删除空格、合并字符串等各类运算;
对数值变量进行分桶操作,以转换为分类型字段;
定义一个特殊函数,具体函数操作方法在系统程序中具体实现。
在本框架下,可以定义各种标准及定制化的特征工程方法。
步骤S206:检测所述特征计算后的不良资产包中所有非空行的单元格,基于所述字段统一映射模板文件中的规则,判断所述所有非空行的单元格中的字符是否符合目标字段类型格式,若不符合所述目标字段类型格式,则进行修复处理,输出数据处理后的不良资产包;
系统默认从数据文件读取数据时,会为每一个字段选择一个默认类型,很多情况下,我们需要字段进行调整。例如对于日期格式的字段,系统往往读成字符型。对于身份证号或者银行账号,通常系统默认会识别为数值型,而实际应该采用的类型为字符型等等。
又如,某些表示金额的字段因为包括“,”作为数值分隔符,导致被系统默认读取为字符型,而应该被改正为浮点数值型。
字段类型转换模块处理规则如下:
统一映射文件中对于项目名称所对应列中所有非空的行,逐行查找所对应的“标准字段名称”列的单元格取值,即本行所对应的标准字段名称,并查找本行在“字段类型”列的单元格取值,即本行所对应的字段类型。
然后对项目的各个字段进行类型转换。转换中的处理规则如下:
1、判断字段数据原数值是否符合目标字段类型格式,例如原来为字符类型的字段,是否符合“yyyy-mm-dd”的格式,或者原来为字符类型的字段,是否符合所有字符都为0-9或者小数点;
2、如果原来的字段不符合,则尝试进行相应的修复处理。例如对于前者,检查是否可以将原始字段中的数值转化为日期,对于后者则将非0-9或者小数点进行删除;
3、对字段类型进行改变。
步骤S207:根据所述字段统一映射模板文件中的规则,将所述处理后的不良资产包进行催收概率预测,将催收概率预测结果储存为新的特征变量,输出目标不良资产包;
机器学习模型预测模块处理规则如下:
1、统一映射文件中,对于项目名称所在列中所有“__model__”开头的单元格,根据“{}”内的机器学习模型参数进行预测。模型参数采用字典格式进行存储,例如{‘model’:‘model_yanzhaobank_v15.pkl’,‘feature’:‘features_yanzhaobank_v15.pkl’}。
其中‘model’:‘model_yanzhaobank_v15.pkl’代表预测所使用的模型文件名称,‘feature’:‘features_yanzhaobank_v15.pkl’表示本模型所使用的所有特征名称。
2、调用所有模型参数,先使用字典中的特征名称参数文件选取模型所需要的字段。
3、然后调用模型文件,对项目数据进行催收成功率预测。
4、将催收成功率存储为新的特征变量“prediction”。
步骤S208:当输出所述目标不良资产包时,同时输出数据质量分析报告。
在完成所有数据处理和特征工程之后,系统将生成一份数据质量分析报告,作为作业执行的最终结果以及对于数据质量的整体分析。数据质量报告包括:
数据字段及记录数量;
各个字段的填充前的空值统计以及填充策略和填充结果;
各个字段的异常值统计以及异常值处理策略和结果;
每个数值型字段的统计信息:均值、中值、最大值、最小值、标准差等;
每个数值型字段的统计图:直方图、KDE图、累计分布图等;
每个分类型字段的统计信息:类别数量、最大数量的类别、最小数量的类别;
每个分类型字段的统计图:各分类数量图;
每个日期型字段的统计信息:日期范围、最大日期、最小日期;
模型预测结果统计:催回率概率分布、资产包总评估价值。
在本实施例中,首先提取待处理不良资产项目名称,根据项目名称调用字段统一映射模板文件中所述待处理不良资产包的数据字段与标准字段的映射关系,然后根据映射关系对待处理不良资产包中的字段映射为标准字段,然后依次进行数据清洗,特征计算和字段类型转换处理,最后再对处理完的数据进行资产催收概率预测,生成催收概率的新变量,得到目标不良资产包,并会输出一份数据质量分析报告。本发明中通过一个系统实现处理待处理不良资产包,实现了全覆盖通用自动化处理,可以扩展任何不良资产项目,只需要在字段统一映射模板文件进行相关映射和各种处理方法的定义,也可以增加新的功能。
基于上述实施例,本实施例中利用本发明的自动数据预处理模型进行数据处理的具体流程,进行了详细的说明;请参考图5,图5为本发明所提供的自动数据预处理的方法的第三种具体实施例的流程图;具体操作步骤如下:
步骤S501:将“西北消金”不良资产包输入通用自动数据处理模型中,读取“西北消金”不良资产包的项目名称“西北消金”;
若输入“燕赵银行”不良资产包,读取不良资产包的项目名称“燕赵银行”。
步骤S502:根据所述项目名称“西北消金”在字段统一映射模板文件中读取所述项目名称“西北消金”相对应的数据列,将所述“西北消金”不良资产包中的字段映射为所述字段统一映射模板文件中的标准字段;
根据项目名称的不同,提取不同项目名称相对应的数据列,然后将不良资产包中的字段映射为字段统一映射模板文件中的标准字段。
步骤S503:检测“西北消金”不良资产包中所有非空且非calc开头的单元格,基于所述字段统一映射模板文件中的规则,对所述所有非空且非calc开头的单元格内的数据进行数据清洗,得到数据清洗后的“西北消金”不良资产包;
步骤S504:检测“西北消金”不良资产包中所有calc开头的单元格,基于所述字段统一映射模板文件中的规则,对所述所有calc开头的单元格进行特征计算,得到特征计算后的“西北消金”不良资产包;
步骤S505:检测“西北消金”不良资产包中所有非空行的单元格,基于所述字段统一映射模板文件中的规则,判断所述所有非空行的单元格中的字符是否符合目标字段类型格式,若不符合所述目标字段类型格式,则进行修复处理,输出数据处理后的“西北消金”不良资产包;
步骤S506:根据所述字段统一映射模板文件中的规则,将所述处理后的“西北消金”不良资产包进行催收概率预测,将催收概率预测结果储存为新的特征变量,输出处理完成的“西北消金”不良资产包,输出一份数据质量分析报告。
在本实施例中,详细说明了本发明在面对不同类型的不良资产包时的具体操作;在面对不同类型不良资产包时,首先读取不同类型不良资产包的项目名称,根据项目名称在字段统一映射模板文件中读取项目名称对应的数据列,然后基于字段统一映射模板文件中的规则,依次对不同类型不良资产包的字段数据进行处理,得到处理后的数据,然后进行资产催收预测,增加催收概率的自变量。本发明中利用一个模型就可以实现多类型不良资产包的数据处理,根据所有类型的映射模板实现不同类型的不良资产包转化,提高数据处理速度,便于工作人员进行下一步工作,解决了现有技术中一种系统只能处理一类不良资产包的弊端。
请参考图6,图6为本发明实施例提供的一种自动数据预处理的装置的结构框图;具体装置可以包括:
构建文件模块100,用于构建字段映射模板文件,所述字段映射模板文件包括标准字段与各类不良资产包数据字段的映射关系,以及数据处理的规则;
数据读取模块200,用于将待处理不良资产包输入自动数据处理系统,读取所述待处理不良资产包的项目名称;
数据映射调用模块300,用于根据所述项目名称,调用字段统一映射模板文件中所述待处理不良资产包的数据字段与标准字段的映射关系;
字段映射处理模块400,用于根据所述待处理不良资产包的数据字段与标准字段的映射关系,将所述不良资产包中的字段统一映射为所述字段统一映射模板文件中的标准字段,输出映射后的不良资产包;
数据处理模块500,用于根据所述字段统一映射模板文件中数据处理的规则,将所述映射后的不良资产包中所有非空的单元格进行数据处理,输出处理后的不良资产包。
本实施例的一种自动数据预处理的装置用于实现前述的一种自动数据预处理的方法,因此一种自动数据预处理的装置中的具体实施方式可见前文中的一种自动数据预处理的方法的实施例部分,例如,构建文件模块100,数据读取模块200,数据映射调用模块300,字段映射处理模块400,数据处理模块500,分别用于实现上述一种自动数据预处理的方法中步骤S101,S102,S103,S104和S105,所以,其具体实施方式可以参照相应的各个部分实施例的描述,在此不再赘述。
本发明具体实施例还提供了一种自动数据预处理的设备,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现上述一种自动数据预处理的方法的步骤。
本发明具体实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述一种自动数据预处理的方法的步骤。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上对本发明所提供的一种自动数据预处理的方法、装置、设备以及计算机存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

Claims (10)

1.一种自动数据预处理的方法,其特征在于,包括:
构建字段映射模板文件,所述字段映射模板文件包括标准字段与各类不良资产包数据字段的映射关系,以及数据处理的规则;
将待处理不良资产包输入自动数据处理系统,读取所述待处理不良资产包的项目名称;
根据所述项目名称,调用字段统一映射模板文件中所述待处理不良资产包的数据字段与标准字段的映射关系;
根据所述待处理不良资产包的数据字段与标准字段的映射关系,将所述不良资产包中的字段统一映射为所述字段统一映射模板文件中的标准字段,输出映射后的不良资产包;
根据所述字段统一映射模板文件中数据处理的规则,将所述映射后的不良资产包中所有非空的单元格进行数据处理,输出处理后的不良资产包。
2.如权利要求1所述自动数据预处理的方法,其特征在于,所述字段映射模板文件包括还包括:资产催收概率预测的规则和标准字段的数据类型。
3.如权利要求2所述自动数据预处理的方法,其特征在于,所述根据所述字段统一映射模板文件中数据处理的规则,将所述映射后的不良资产包中所有非空的单元格进行数据处理,输出处理后的不良资产包后包括:
根据所述字段统一映射模板文件中资产催收概率预测的规则,将所述处理后的不良资产包进行催收概率预测,将催收概率预测结果储存为新的特征变量,输出目标不良资产包,并输出数据质量分析报告。
4.如权利要求1所述自动数据预处理的方法,其特征在于,还包括:
当增加新类型不良资产包时,将所述新类型不良资产包的数据字段与标准字段的映射关系以及新类型不良资产包的处理规则输入所述字段统一映射模板文件中,便可实现对所述新类型不良资产包进行数据处理。
5.如权利要求1所述自动数据预处理的方法,其特征在于,所述将待处理不良资产包输入自动数据处理系统,读取所述待处理不良资产包的项目名称包括:
当所述待处理不良资产包是以文件名格式命名时,提取所述不良资产包的文件名称作为项目名称。
6.如权利要求1所述自动数据预处理的方法,其特征在于,根据所述待处理不良资产包的数据字段与标准字段的映射关系,将所述不良资产包中的字段统一映射为所述字段统一映射模板文件中的标准字段,输出映射后的不良资产包包括:
判断所述待处理不良资产包中的字段是否为所述字段统一映射模板文件中的标准字段;
若所述待处理不良资产包中的字段是所述字段统一映射模板文件中的标准字段,则所述待处理不良资产包中的字段保持不变;
若所述待处理不良资产包中的字段不是所述字段统一映射模板文件中的标准字段,则将所述待处理不良资产包中的字段映射为标准字段。
7.如权利要求1所述自动数据预处理的方法,其特征在于,根据所述字段统一映射模板文件中数据处理的规则,将所述映射后的不良资产包中所有非空的单元格进行数据处理,输出处理后的不良资产包包括:
检测所述映射后的不良资产包中所有非空且非calc开头的单元格,基于所述字段统一映射模板文件中的规则,对所述所有非空且非calc开头的单元格内的数据进行数据清洗,得到数据清洗后的不良资产包;
检测所述数据清洗后的不良资产包中所有calc开头的单元格,基于所述字段统一映射模板文件中的规则,对所述所有calc开头的单元格进行特征计算,得到特征计算后的不良资产包;
检测所述特征计算后的不良资产包中所有非空行的单元格,基于所述字段统一映射模板文件中的规则,判断所述所有非空行的单元格中的字符是否符合目标字段类型格式,若不符合所述目标字段类型格式,则进行修复处理,输出数据处理后的不良资产包。
8.一种自动数据预处理的装置,其特征在于,包括:
构建文件模块,用于构建字段映射模板文件,所述字段映射模板文件包括标准字段与各类不良资产包数据字段的映射关系,以及数据处理的规则;
数据读取模块,用于将待处理不良资产包输入自动数据处理系统,读取所述待处理不良资产包的项目名称;
数据映射调用模块,用于根据所述项目名称,调用字段统一映射模板文件中所述待处理不良资产包的数据字段与标准字段的映射关系;
字段映射处理模块,用于根据所述待处理不良资产包的数据字段与标准字段的映射关系,将所述不良资产包中的字段统一映射为所述字段统一映射模板文件中的标准字段,输出映射后的不良资产包;
数据处理模块,用于根据所述字段统一映射模板文件中数据处理的规则,将所述映射后的不良资产包中所有非空的单元格进行数据处理,输出处理后的不良资产包。
9.一种自动数据预处理的设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至7任一项所述一种自动数据预处理的方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述一种自动数据预处理的方法的步骤。
CN202210115352.6A 2022-02-07 2022-02-07 一种自动数据预处理的方法、装置以及设备 Active CN114139490B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210115352.6A CN114139490B (zh) 2022-02-07 2022-02-07 一种自动数据预处理的方法、装置以及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210115352.6A CN114139490B (zh) 2022-02-07 2022-02-07 一种自动数据预处理的方法、装置以及设备

Publications (2)

Publication Number Publication Date
CN114139490A true CN114139490A (zh) 2022-03-04
CN114139490B CN114139490B (zh) 2022-08-02

Family

ID=80381854

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210115352.6A Active CN114139490B (zh) 2022-02-07 2022-02-07 一种自动数据预处理的方法、装置以及设备

Country Status (1)

Country Link
CN (1) CN114139490B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114648337A (zh) * 2022-03-23 2022-06-21 中银金融科技有限公司 交易数据质量自动化分析方法及装置
CN114912544A (zh) * 2022-06-06 2022-08-16 北京百度网讯科技有限公司 自动化特征工程模型的训练方法及自动化特征工程方法
CN115174555A (zh) * 2022-06-28 2022-10-11 平安科技(深圳)有限公司 文件传输方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2011213842A1 (en) * 2010-09-03 2012-03-22 Tata Consultancy Services Limited A system and method of managing mapping information
CN102393945A (zh) * 2011-06-27 2012-03-28 中国建设银行股份有限公司 一种用于风险加权资产计算的数据处理方法和系统
US20120158667A1 (en) * 2010-12-17 2012-06-21 Verizon Patent And Licensing Inc. Asset manager
CN111738762A (zh) * 2020-06-19 2020-10-02 中国建设银行股份有限公司 不良资产回收价的确定方法、装置、设备和存储介质
CN113642923A (zh) * 2021-08-30 2021-11-12 建元和光(北京)科技有限公司 基于历史催收数据的不良资产包价值评估方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2011213842A1 (en) * 2010-09-03 2012-03-22 Tata Consultancy Services Limited A system and method of managing mapping information
US20120158667A1 (en) * 2010-12-17 2012-06-21 Verizon Patent And Licensing Inc. Asset manager
CN102393945A (zh) * 2011-06-27 2012-03-28 中国建设银行股份有限公司 一种用于风险加权资产计算的数据处理方法和系统
CN111738762A (zh) * 2020-06-19 2020-10-02 中国建设银行股份有限公司 不良资产回收价的确定方法、装置、设备和存储介质
CN113642923A (zh) * 2021-08-30 2021-11-12 建元和光(北京)科技有限公司 基于历史催收数据的不良资产包价值评估方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114648337A (zh) * 2022-03-23 2022-06-21 中银金融科技有限公司 交易数据质量自动化分析方法及装置
CN114912544A (zh) * 2022-06-06 2022-08-16 北京百度网讯科技有限公司 自动化特征工程模型的训练方法及自动化特征工程方法
CN114912544B (zh) * 2022-06-06 2023-11-14 北京百度网讯科技有限公司 自动化特征工程模型的训练方法及自动化特征工程方法
CN115174555A (zh) * 2022-06-28 2022-10-11 平安科技(深圳)有限公司 文件传输方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN114139490B (zh) 2022-08-02

Similar Documents

Publication Publication Date Title
CN114139490B (zh) 一种自动数据预处理的方法、装置以及设备
CN110738564A (zh) 贷后风险评估方法及装置、存储介质
CN111143578B (zh) 基于神经网络抽取事件关系的方法、装置和处理器
CN112949907A (zh) 一种工程造价的定额匹配方法、装置、设备及存储介质
CN113344079B (zh) 一种图像标签半自动标注方法、系统、终端及介质
CN117273968A (zh) 一种跨业务线产品的会计凭证生成方法及其相关设备
CN111324594A (zh) 用于粮食加工业的数据融合方法、装置、设备及存储介质
CN116071150A (zh) 数据处理方法、银行产品推广、风控系统、服务器及介质
CN115641202A (zh) 基于知识图谱和图计算的小贷行业团体借贷风险测度方法
CN115511187A (zh) 资产回收率的预测方法、装置、设备、介质和计算机程序产品
CN114792007A (zh) 代码检测方法、装置、设备、存储介质和计算机程序产品
CN111340281B (zh) 预测模型训练方法及装置
CN111080433A (zh) 一种信用风险评估方法与装置
CN112380321A (zh) 基于票据知识图谱的主次数据库分配方法及相关设备
CN113743695A (zh) 基于大数据的国际工程项目投标报价风险管理方法
CN110796381B (zh) 风控模型的建模方法、装置、终端设备及介质
CN112396513B (zh) 一种数据处理的方法及装置
CN117112791B (zh) 一种未知日志分类决策系统、方法、装置及可读存储介质
CN117892703B (zh) 一种理化表单自动联想录入功能的实现方法及系统
US20240220897A1 (en) Data packages for fast data processing in life cycle assessment
CN109409720B (zh) 基于大数据和深度学习的个性化审计方法和机器人系统
CN118261693A (zh) 资源申请方法、装置、计算机设备、存储介质和程序产品
CN117575607A (zh) 交易风险识别方法、装置、计算机设备和存储介质
Goldmann Enhancing Credit Risk Prediction in Retail Banking: Integrating Time Series and Classical ML Algorithms
Abhiram et al. Predicting the Borrower’s Genuineness in Loan Repayment through Big Data Analytics

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant