CN113360511A - 征信信息的处理方法、装置及设备 - Google Patents
征信信息的处理方法、装置及设备 Download PDFInfo
- Publication number
- CN113360511A CN113360511A CN202110673819.4A CN202110673819A CN113360511A CN 113360511 A CN113360511 A CN 113360511A CN 202110673819 A CN202110673819 A CN 202110673819A CN 113360511 A CN113360511 A CN 113360511A
- Authority
- CN
- China
- Prior art keywords
- credit investigation
- credit
- information
- data
- fields
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000011835 investigation Methods 0.000 title claims abstract description 396
- 238000000034 method Methods 0.000 title claims abstract description 67
- 238000012545 processing Methods 0.000 title claims abstract description 60
- 230000010365 information processing Effects 0.000 claims abstract description 9
- 238000003672 processing method Methods 0.000 claims abstract description 9
- 238000012795 verification Methods 0.000 claims description 57
- 238000006243 chemical reaction Methods 0.000 claims description 32
- 238000004590 computer program Methods 0.000 claims description 15
- 238000010586 diagram Methods 0.000 description 26
- 238000013507 mapping Methods 0.000 description 19
- 230000006870 function Effects 0.000 description 9
- 230000009286 beneficial effect Effects 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 239000002253 acid Substances 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000013506 data mapping Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Development Economics (AREA)
- General Business, Economics & Management (AREA)
- Technology Law (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供一种征信信息的处理方法、装置及设备,该方法包括:获取待处理的第一征信信息,所述第一征信信息中包括N个第一字段和所述N个第一字段一一对应的N个第一征信数据,所述N为大于1的整数;根据所述N个第一字段,在所述N个第一征信数据中确定与M个第二字段一一对应的M个第二征信数据,所述第二字段为升级后的征信信息中包括的字段,所述M为大于1的整数;根据所述第一征信信息、所述M个第二字段和所述M个第二征信数据,生成目标征信信息。实现了征信数据升级的自动处理,提高了征信信息的处理效率。
Description
技术领域
本申请涉及数据处理领域,尤其涉及一种征信信息的处理方法、装置及设备。
背景技术
目前,很多机构在对用户业务进行处理时,需要使用用户的征信信息。随着对征信信息的要求不断变化,需要对已有的征信信息进行升级。
征信信息中包括多个征信数据,升级前后的征信信息中包括的征信数据可能不同,征信数据的格式可能也不同。在现有技术中,当需要对征信信息进行升级时,通常采用人工的方式将升级前的征信信息修改为升级后的征信信息。但是采用人工操作的方式进行征信信息升级,费时费力,影响征信信息的处理效率。
发明内容
本申请提供一种征信信息的处理方法、装置及设备,提高征信信息的处理效率。
第一方面,本申请实施例提供一种征信信息的处理方法,包括:
获取待处理的第一征信信息,所述第一征信信息中包括N个第一字段和所述N个第一字段一一对应的N个第一征信数据,所述N为大于1的整数;
根据所述N个第一字段,在所述N个第一征信数据中确定与M个第二字段一一对应的M个第二征信数据,所述第二字段为升级后的征信信息中包括的字段,所述M为大于1的整数;
根据所述第一征信信息、所述M个第二字段和所述M个第二征信数据,生成目标征信信息。
第二方面,本申请实施例提供一种征信信息的处理装置,包括获取模块、确定模块以及生成模块;
所述获取模块用于,获取待处理的第一征信信息,所述第一征信信息中包括N个第一字段和所述N个第一字段一一对应的N个第一征信数据,所述N为大于1的整数;
所述确定模块用于,根据所述N个第一字段,在所述N个第一征信数据中确定与M个第二字段一一对应的M个第二征信数据,所述第二字段为升级后的征信信息中包括的字段,所述M为大于1的整数;
所述生成模块用于,根据所述第一征信信息、所述M个第二字段和所述M个第二征信数据,生成目标征信信息。
第三方面,本申请实施例提供一种征信信息的处理设备,包括处理器和存储器;
所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,使得所述处理器执行如第一方面所述的征信信息的处理方法。
第四方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当所述计算机执行指令被处理器执行时用于实现第一方面所述的征信信息的处理方法。
第五方面,本申请实施例提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现第一方面所述的征信信息的处理方法。
可以看出,本申请实施例中,可以预先设定一代征信信息(升级之前的征信信息)中的字段与二代征信信息(升级之后的征信信息)中的字段之间的映射关系,根据二代征信信息中的字段在一代征信信息中的对应字段所对应的征信数据,将征信数据迁移至二代征信信息的对应字段中。实现了对征信信息的自动化升级,无需人工操作,提高了征信信息的处理效率以及降低了征信信息处理过程中的出错率。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1为本申请实施例提供的系统架构图;
图2为本申请实施例提供的一种征信信息的处理方法的流程示意图;
图3为本申请实施例提供的获取第一征信信息的示意图;
图4为本申请实施例提供的获取第一征信信息的具体过程示意图;
图5为本申请实施例提供的对征信信息进行升级的示意图;
图6为本申请实施例提供的对第二征信信息进行验证处理的示意图;
图7为本申请实施例提供的生成目标征信信息的示意图;
图8为本申请实施例提供的一种分布式任务方法的示意图;
图9为本申请实施例提供的一种征信信息的处理装置的结构示意图;
图10为本申请实施例提供的一种征信信息的处理设备的结构示意图。
通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
首先对本申请所涉及的名词进行解释:
数仓:数仓是指数据仓库(DataWarehouse,DW)。数据仓库是一种面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策,此处的数仓包括离线数仓和实时数仓。
Oracle数据库:Oracle是一种高效率、可靠性好的、适应高吞吐量的关系数据库管理系统,其具有完整的数据管理功能,实现了分布式处理功能。
Hadoop:Hadoop是一个分布式系统基础架构,可以利用集群资源进行高速运算和存储。Hadoop实现了一个分布式文件系统(Distributed File System),具有高容错性的特点,设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适用于有着超大数据集(large data set)的应用程序。
Hive数据库:Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。Hive可以自由的扩展集群的规模,一般情况下不需要重启服务。Hive支持用户自定义函数,用户可以根据自己的需求来实现自己的函数,具有良好的容错性,节点出现问题时SQL仍可完成执行。
Es数据库:elasticsearch简写es,es是一个高扩展、开源的、支持全文检索和分析引擎的非关系型数据库,可以准实时地快速存储、搜索以及分析海量的数据。
Hbase数据库:HBase是一种构建在Hadoop体系下且在HDFS(Hadoop分布式文件系统)之上的分布式、面向列的存储系统。在需要实时读写、随机访问超大规模数据集时,可以使用HBase。
Tidb数据库:Tidb是一个分布式NewSQL数据库。Tidb支持水平弹性扩展、ACID事务、标准SQL、MySQL语法和MySQL协议,具有数据强一致的高可用特性,是一个不仅适合联机事务处理(on-line transaction processing,OLTP)场景还适合联机分析处理(On-LineAnalytical Processing,OLAP)场景的混合数据库。
MR:MapReduce的缩写,由Google公司研究提出的一种面向大规模数据处理的并行计算模型和方法。
为了便于理解,首先结合图1介绍本申请实施例所适用的系统架构。
图1为本申请实施例所提供的系统架构图。请参见图1,包括服务器集群、本地数据仓库、本地应用、第一数据库至第六数据库,服务器集群中包含有L个服务器,L为大于或者等于2的整数。每个服务器中可以设置部署应用,部署应用和本地应用可以为应用程序、应用程序中的服务等。服务器集群和本地应用可以共同使用本地数据仓库以及第一数据库至第六数据库。例如,用户可以通过服务器集群或本地应用查询本地数据仓库以及第一数据库至第六数据库中的数据,或者,通过服务器集群或本地应用将数据写入本地数据仓库以及第一数据库至第六数据库中。
同一个数据库中可以存储多种类型的数据,服务器集群和本地应用在工作过程中可以使用数据库中不同的数据类型。同一数据库可以存储一家或者多家金融机构的数据,或者一家金融机构的数据存储于多个数据库中。例如,本地数据仓库存储着使用本申请实施例所提供系统的金融机构对应的客户信息,同时,第一数据库至第六数据库中一个或者多个数据库存储着该金融机构对应客户的征信信息。
可选的,第一数据库至第六数据库可以为Hive数据库、Mysql数据库、Hbase数据库、Es数据库、Tidb数据库和Oracle数据库中的任一数据库。可以通过本地应用或部署应用读取、写入、修改数据库中的信息。
在相关技术中,由于采用人工的方式对征信信息进行升级,费时费力、影响征信信息升级的效率。
为了解决现有技术依靠人工升级征信信息所带来的问题,本申请提出了一种征信信息的处理方法,为了对征信信息进行自动处理,可以预先设定一代征信信息(升级之前的征信信息)中的字段与二代征信信息(升级之后的征信信息)中的字段之间的映射关系,根据二代征信信息中的字段在一代征信信息中的对应字段所对应的征信信息,将征信信息迁移至二代征信信息的对应字段中。实现了对征信信息的自动化升级,无需人工操作,提高了征信信息的处理效率以及降低了征信信息处理过程中的出错率。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
图2为本申请实施例提供的一种征信信息的处理方法的流程示意图。请参见图2,该方法可以包括:
S201、获取待处理的第一征信信息。
本申请实施例的执行主体可以为征信信息的处理装置,该征信信息的处理装置可以通过软件实现,也可以通过软件和硬件的结合实现。
第一征信信息中包括N个第一字段和N个第一字段一一对应的N个第一征信数据,N为大于1的整数。为了便于描述,在下文中还可以将第一征信信息称为一代征信信息。
可选的,一代征信信息可以存储于Oracle数据库中,一代征信信息包括多个字段以及多个字段对应的征信数据,可以通过本地应用将一代征信信息从Oracle数据库抽取出来。
S202、根据N个第一字段,在N个第一征信数据中确定与M个第二字段一一对应的M个第二征信数据。
第二字段为升级后的征信信息中包括的字段,M为大于1的整数。为了能够自动处理征信信息,需要建立升级前的征信信息与升级后的征信信息之间的数据映射关系,可以根据升级后的征信信息的格式,建立多个字段,以得到第二字段,其中每个字段均用于存放升级后征信信息中的征信数据。升级前的征信信息为一代征信信息,升级后的征信信息为二代征信信息,但是升级前后的征信信息并不局限于一二代征信信息,征信信息升级可以理解为本代征信信息升级为下一代征信信息。
下面,对确定第二字段对应的第二征信数据的方式进行说明:
在所述N个第一字段中,确定每个所述第二字段对应的第一字段,得到M个第一字段,所述M个第一字段与M个第一征信数据一一对应;将所述M个第一征信数据确定为所述M个第二征信数据。通过映射的方式将征信数据进行升级,提高了数据升级效率。
第二字段与第二字段对应的第一字段所指示的征信数据相同。例如,假设第二字段所指示的征信数据为用户的房贷金额,则第二字段对应的第一字段所指示的征信数据也为用户的房贷金额。
可以根据多个第一字段和多个第二字段之间的映射关系,确定第二字段对应的第一字段。
S203、根据第一征信信息、M个第二字段和M个第二征信数据,生成目标征信信息。
可以通过如下方式生成目标征信信息:根据所述M个第二字段和所述M个第二征信数据,生成第二征信信息;通过所述第一征信信息对所述第二征信信息进行验证处理,得到所述第二征信信息对应的验证结果,所述验证结果包括目标字段,所述目标字段为所述第二征信信息中验证成功的第二字段;根据所述验证结果和所述第二征信信息,生成所述目标征信信息,所述目标征信信息中包括所述目标字段和所述目标字段对应的第二征信数据。
根据第二字段和第二字段对应第一字段所对应的征信数据(即第二征信数据),通过数据转换生成第二征信信息,并对第二征信信息进行验证、补全,以生成目标征信信息。实现了征信数据的自动处理,并且保证了征信数据的完整性以及有效性。
可以通过如下方式生成第二征信信息:根据所述M个第二字段分别对应的数据格式,对所述M个第二征信数据进行格式转换,得到所述M个第二字段一一对应的M个第三征信数据;根据所述M个第二字段和所述M个第三征信数据,生成所述第二征信信息。
可以通过第一征信信息对第二征信信息中各征信数据的正确性和完整性进行验证,以在第二征信信息中确定验证成功的第二字段,验证成功的第二字段是指正确性和完整性均验证通过的字段。
可选的,在使用第一征信信息对第二征信信息进行验证后,也可以使用其他数据库中的信息对第二征信信息进行验证,但每个征信信息在不同的数据库中可能是相同的,也可能是不同的,可以取出现次数最多的数据作为准确数据,能够最大化保证第二征信信息中数据的准确性。
通过步骤S201至步骤S203对一代征信信息(第一征信信息)进行处理后,可将一代征信信息转化为二代征信信息(目标征信信息),上述步骤均可通过自动化的方式执行,避免了人工操作带来的误差,提高了数据转换效率。
在图2所示的实施例中,需要获取第一征信信息。下面,结合图3和图4,通过具体示例对获取第一征信信息的过程进行说明。
图3为本申请实施例提供的获取第一征信信息的示意图。请参见图3,一代征信信息可以存储于Oracle数据库中,可以通过本地应用将一代征信信息从Oracle数据库从抽取出来,并将抽取的一代征信信息放入Hive数据库中,得到一代征信信息中每个字段与其对应的征信数据,即得到包括多个第一字段和每个第一字段对应征信数据的第一征信信息。
需要说明的是,图3所示实施例仅仅是对如何获取第一征信信息进行示例说明,并非对具体的获取方式、路径进行限定,一代征信信息也可以存储在其他数据库中,例如:Mysql数据库或Hbase数据库。抽取一代征信信息的主体也并非限定于使用本地应用,也可以在云端进行数据抽取。
图4为本申请实施例提供的获取第一征信信息的具体过程示意图。请参见图4,一代征信信息存储于Oracle数据库中,Oracle数据库中的数据包含了来源表、产出表以及对照表(图中未示出)。来源表的表名可以为oracle表名+“_souce”,产出表表名为oracle表名+“_op”,对照表表名为oracle表名+“_contrast”。可选的,可以确定第一征信信息的目标数据库,在目标数据库中建立来源表,通过本地应用将一代征信数据从一代征信数据库中抽取出来,将抽取数据进行格式转换,然后将格式转换后的征信数据放入目标数据库的来源表中,得到一代征信数据的每个字段及其对应的征信数据,即得到第一征信信息。
可选的,在目标数据库中可以同时建立产出表以及对照表,以方便后续的升级数据的校验。
第一征信信息中的多个字段与目标数据库中数据表的多个字段对应,数据表中的字段按照二代征信数据的数据段划分,例如,个人基本信息的字段对应数据字段如表1所示。
表1个人基本信息的字段对应数据字段
基本信息字段 | 对应数据字段 |
基础段 | bs_inf_sgmt |
基本概况段 | fcs_inf_sgmt |
婚姻信息段 | sps_inf_sgmt |
教育信息段 | edu_inf_sgmt |
职业信息段 | octpn_inf_sgmt |
居住地址段 | rednc_inf_sgmt |
通讯信息段 | mlg_inf_sgmt |
其他标识段 | id_sgmt |
来源表与一代征信信息在Oracle数据库中的数据表对应,例如,个人的基本信息对应的来源表如表2所示。
表2个人基本信息的来源表
信息名称 | Oracle中的数据表 | 来源表 |
个人基本信息 | tiu_person | person_inf_sgmt_souce |
工作信息 | tiu_emp | profession_inf_sgmt_souce |
联系地址信息 | tiu_address | address_inf_sgmt_souce |
上述过程中,将抽取数据进行格式转换,具体过程为:将抽取出的Oracle数据类型转换为复制定义数据类型,然后将复制定义数据类型转换为Hive数据类型,复制定义数据类型为中间数据类型,Hive数据类型为目标数据库中的数据类型,通过对应的数据类型映射,完成抽取数据的格式转换。例如,部分Oracle数据类型转换为Hive数据类型的映射关系如表3所示。
表3数据类型映射关系
Oracle数据类型 | 复制定义数据类型 | Hive数据类型 |
Integer | rs_oracle_decimal | double |
Float | rs_oracle_float | double |
…… | …… | …… |
通过上述步骤即可自动获取初始的第一征信信息,提高了信息的获取效率。
下面,结合图5,通过具体示例对生成目标征信信息的过程进行详细说明。
图5所示为采用本申请实施例提供的对征信信息进行升级的示意图。请参见图5,假设一代征信信息包括如下字段:交易信息、人员自然信息、就业信息和居住信息。二代征信信息包括如下字段:个人基本信息报文数据和借贷报文数据。
可以确定二代征信信息与一代征信信息中的字段对应关系如下:二代征信信息中的个人基本报文信息对应一代征信信息中的人员自然信息、就业信息和居住信息,二代征信信息中的借贷报文数据对应一代征信信息中的交易信息。
在确定得到二代征信信息与一代征信信息中的字段对应关系之后,可以根据二代征信信息中的个人基本报文信息对应的数据格式,并通过一二代征信数据转换组件对一代征信信息中人员自然信息、就业信息和居住信息字段对应的征信数据进行格式转换,并将格式转换后的征信数据确定为个人基本信息报文数据对应的征信数据;根据二代征信信息中借贷报文数据对应的数据格式,对一代征信信息中的交易信息字段对应的征信数据进行格式转换,并将格式转换后的征信数据确定为借贷报文数据对应的征信数据。
通过如下示例对一二代征信数据转换组件的工作原理进行详细描述,具体为:预先在定义一二代数据码值转换映射表,读取当前待处理数据,检索当待处理数据在一二代数据码值转换映射表中对应的一代类型数据的字段名和数据枚举值,根据一二代数据码值转换映射表中的映射关系获取待处理数据的二代类型数据的字段名和数据枚举值,根据获取映射数据对待处理数据进行处理。一二代数据码值转换映射表的具体如表4所示。
表4一二代数据码值转换映射表
字段分类 | 二代类型 | 二代字段名 | 一代类型 | 一代字段名 |
经济分类 | L7240 | 广告业(旧版) | 17240 | 广告业 |
…… | …… | …… | …… | …… |
在上述任意一个实施例中,在将第一征信信息升级为目标征信信息的过程中,可以先根据第一征信信息确定第二征信信息,再根据第二征信信息确定目标征信信息。在根据第二征信信息确定目标征信信息的过程中,可以通过第一征信信息对第二征信信息进行验证处理,以得到验证结果。
可以通过如下方式确定验证结果:根据M个第三征信数据对应的M个第一征信数据,对M个第三征信数据进行完整性和正确性验证,得到M个第三征信数据的验证信息,验证信息包括验证成功或者验证失败;根据每个第三征信数据的验证信息生成验证结果。通过对第三征信数据进行验证,保证了征信数据的正确性和完整性,避免了数据转换出错引发的难以纠正的问题。
可以通过如下方式对第三征信数据的完整性和正确性进行验证:对第三征信数据进行反向数据格式转换,得到反向转换数据,并通过第一征信数据验证反向转换数据的完整性和正确性。反向数据格式转换是指将征信数据转换至第一征信数据所需满足的格式。若第一征信数据中包含反向转换数据,则确定该反向转换数据对应的第三征信数据的完整性和正确性均满足。
下面,结合图6,通过具体示例对通过第一征信信息对第二征信信息进行验证处理进行说明。
图6为本申请实施例提供的通过第一征信信息对第二征信信息进行验证处理的示意图。请参见图6,第一征信信息存储在第一数据表(来源表)中,第二征信信息储存在第二征信表(产出表)中。将第二数据表中的数据按第二征信信息获取过程进行反向数据格式转换,得到反向转换数据,并保存反向转换数据至第三数据表(对照表)中;根据第一数据表中的数据,对第三数据表中的数据进行校验,得到校验通过的数据;根据校验通过的数据,确定产出表中校验通过的征信数据所对应的字段,得到第二征信信息对应的验证结果。
第一数据表可以为Hive数据库中的来源表,第二数据表可以为Hive数据库中的产出表,第三数据表可以为Hive数据库中的对照表。如图6所示,将产出表中的数据根据客户姓名、证件类型、证件号码、业务号字段按照第二征信信息获取过程进行反向数据格式转换,将客户姓名、证件类型、证件号码、业务号字段的数据类型转换为来源表中的数据类型,并将反向格式转换后的数据保存至对照表中。然后根据对照表中的客户姓名、证件类型、证件号码、业务号字段,抽取来源表中的相关数据。将抽取的数据与第二数据表中的数据进行多次完整性以及有效性的校验,得到第二征信信息的校验结果。通过对数据进行校验,保证了数据的准确性以及有效性。
可选的,在多次校验通过后,对均未通过校验的数据进行异常标记,方便后续对异常数据进行处理。
在上述任意一个实施例的基础上,在将第一征信信息升级为目标征信信息的过程中,可以先根据第一征信信息确定第二征信信息,通过第一征信信息对第二征信信息进行验证处理得到验证结果,再根据所述验证结果和所述第二征信信息,生成所述目标征信信息。
可以通过如下方式根据验证结果和第二征信信息,生成目标征信信息:根据验证结果,在第二征信信息中删除验证失败的第二字段对应的第三征信数据,得到第三征信信息;若第三征信信息中存在征信数据为空的K个第二字段,则对K个第二字段对应的征信数据进行补全处理,得到目标征信信息,K为正整数;若第三征信信息中不存在征信数据为空的第二字段,则将第三征信信息确定为目标征信信息。
可以通过如下方式对K个第二字段对应的征信数据进行补全处理:获取征信信息的补全模式;若补全模式为调用补全模式,则在征信数据库中查询获取K个第二字段对应的第四征信数据,以及根据K个第二字段对应的第四征信数据更新第三征信信息,得到目标征信信息;若补全模式为非调用补全模式,则将第三征信信息中至K个第二字段对应的征信数据设置为默认值,得到目标征信信息。通过对征信信息补全后,再获取目标征信信息,可以使升级后的征信信息更加全面和完整。
下面,结合图7,通过具体示例对根据验证结果和第二征信信息,生成目标征信信息的过程进行说明。
图7为本申请实施例提供的根据验证结果和第二征信信息,生成目标征信信息的示意图。请参见图7,根据验证结果,可以在第二征信信息中确定验证未通过的数据和验证通过数据。针对未验证通过数据,可以删除未验证通过的数据。对于验证通过的数据,可以进行拆分、补全操作,为了便于描述,在下文中还可以将验证通过的数据称为第三征信信息。
可通过如下方式对第三征信信息进行拆分操作:根据第一征信信息中的信贷交易信息,确定第三征信信息中是否包含第一征信信息中的信贷交易信息,若是,则根据二代征信信息的格式,对信贷交易信息对应的第三征信信息进行拆分并储存,得到拆分第三征信产出表;否则根据二代征信信息的格式,将第三征信信息储存,得到原类型第三征信产出表。通过拆分第三征信产出表和原类型第三征信产出表中数据获取第三征信产出表,完成拆分步骤。
可选的,拆分规则可以具体为:将一代征信数据转换为二代征信数据时,需要将一代征信数据中的信贷交易信息需要拆分为非循环贷账户、循环贷账户、贷记卡账户、循环额度下分账户、催收账户以及授信协议信息。需要说明的是,此处所示的拆分规则,仅仅是作一个示例性的说明,也可以根据其他内容进行拆分。例如,目标征信信息需要包括A数据或B数据,但是第一征信信息A数据和B数据为合并在一起的数据,则需要在第三征信信息中将A数据和B数据进行拆分。
可通过如下方式对第三征信信息进行补全操作:预先在部署应用中设置data_filling_mode配置项,枚举值为1/0,1为调用补全模式,0为自动补完模式。若是配置项为1,则以第三征信信息为基础,调用本地数据仓库的查询接口,以征信五要素(姓名、身份证、银行卡、手机号码、地址)作为关键词搜索数仓中目标征信数据中相较于前一代征信数据新增的数据段值,根据搜索数据对第三征信信息进行自动补全,在数仓的原始数据无法补全时,可以将待补全字段填充为默认值。若是配置项为0,则直接将待补全字段填充为默认值。默认值可以为未知的二代征信格式code或枚举值。可选的,数据补全时所查询的数据仓库也可以为其他金融机构的数据库或者存储于云端的数据仓库,新增的数据段值可以为前一代征信数据中不存在的任意数据,例如,前一代征信数据中不存在个人信息对应的个人就业状况、国籍、电子邮箱、单位性质,则可以在对此部分信息进行查询补全,获取目标征信信息。将第三征信信息补全后,得到目标征信信息,对于目标征信信息,可以进行存盘操作。
可通过如下方式对目标征信信息进行存盘操作:预先配置部署应用的存储模式,即在应用配置中设置data_save_mode配置项,枚举值为0、1、2、3、4、5,其中1对应转存到Oracle数据库,2对应转存到Hbase数据库,3对应转存到Es数据库,4对应转存到Tidb数据库,5对应转存到Hive数据库,0对应转存到Mysql数据库),若配置项值非0,则根据预先设置好的数据库数据字段的格式类型映射组件将目标征信信息转存到对应类型的数据库中;若配置项值为0,则自动转存至Mysql数据库。数据库数据字段的格式类型映射组件主要用于将目标征信信息的数据格式转换为目标数据库的数据格式并储存,其具体示例如表5所示。
表5数据库数据字段格式类型映射组件中的映射关系
在图5所示实施例的基础上,采用分布式任务方法生成目标征信信息。
采用分布式任务方法生成目标征信信息包括:所述目标征信信息生成时采用多个处理进程并行执行。
下面结合图8对采用分布式任务方法生成目标征信信息进行示例说明。图8为本申请实施例提供的一种分布式任务方法的示意图。请参见图8,将服务器集群划分为多个干容器,以生成目标征信信息作为任务;将所有任务进行排序,并按序号将多个任务依次放入多个容器进行任务处理;待所有容器中的任务执行完成,按序号将未处理的任务依次放入多个容器中进行任务处理,直至所有任务处理完成。可通过如下方式进行任务处理:预先配置部署应用所在服务器集群对应调度并行策略的调度并行度。根据调度并行度,通过本地应用进行任务调度,充分利用部署应用所在的服务器集群负载能力,以多任务并行的方式进行任务处理。其中调度并行策略为:设置处理任务的调度并行度为X,将整个应用部署的服务器集群资源(cpu/内存/io流量)划分为X个容器,平均分配每个容器的资源值,将所有任务排序,并将0~X个序号的任务随机分配到X个容器中,整批任务(一批任务包括X个任务)进行并行处理,每个容器执行完成后,按序执行下一批任务,直至全部执行完成。
上述分布式任务方法仅仅作为一个示例,也可以使用其他调度方法进行分布式任务处理。通过分布式任务的方法生成目标征信信息,解决了现有技术中人工操作资源使用率低和处理效率低的问题,充分利用了服务器资源。
图9为本申请实施例提供的一种征信信息的处理装置的结构示意图。请参见图9,该处理装置900包括获取模块901、确定模块902以及生成模块903;
获取模块901用于,获取待处理的第一征信信息,第一征信信息中包括N个第一字段和N个第一字段一一对应的N个第一征信数据,N为大于1的整数;
确定模块902用于,根据N个第一字段,在N个第一征信数据中确定与M个第二字段一一对应的M个第二征信数据,第二字段为升级后的征信信息中包括的字段,M为大于1的整数;
生成模块903用于,根据第一征信信息、M个第二字段和M个第二征信数据,生成目标征信信息。所述目标征信信息生成时采用多个处理进程并行执行。
在一种可能的实施方式中,确定模块902具体用于,在N个第一字段中,确定每个第二字段对应的第一字段,得到M个第一字段,M个第一字段与M个第一征信数据一一对应;将M个第一征信数据确定为M个第二征信数据。
在一种可能的实施方式中,生成模块903具体用于:据M个第二字段和M个第二征信数据,生成第二征信信息;通过第一征信信息对第二征信信息进行验证处理,得到第二征信信息对应的验证结果,验证结果包括目标字段,目标字段为第二征信信息中验证成功的第二字段;根据验证结果和第二征信信息,生成目标征信信息,目标征信信息中包括目标字段和目标字段对应的第二征信数据。
在一种可能的实施方式中,生成模块903具体用于:根据M个第二字段分别对应的数据格式,对M个第二征信数据进行格式转换,得到M个第二字段一一对应的M个第三征信数据;根据M个第二字段和M个第三征信数据,生成第二征信信息。
在一种可能的实施方式中,生成模块903具体用于:根据M个第三征信数据对应的M个第一征信数据,对M个第三征信数据进行完整性和正确性验证,得到M个第三征信数据的验证信息,验证信息包括验证成功或者验证失败;根据每个第三征信数据的验证信息生成验证结果。
在一种可能的实施方式中,生成模块903具体用于:根据验证结果,在第二征信信息中删除验证失败的第二字段对应的第三征信数据,得到第三征信信息;若第三征信信息中存在征信数据为空的K个第二字段,则对K个第二字段对应的征信数据进行补全处理,得到目标征信信息,K为正整数;若第三征信信息中不存在征信数据为空的第二字段,则将第三征信信息确定为目标征信信息。
在一种可能的实施方式中,生成模块903具体用于:获取征信信息的补全模式;若补全模式为调用补全模式,则在征信数据库中查询获取K个第二字段对应的第四征信数据,以及根据K个第二字段对应的第四征信数据更新第三征信信息,得到目标征信信息;若补全模式为非调用补全模式,则将第三征信信息中至K个第二字段对应的征信数据设置为默认值,得到目标征信信息。
图9所示实施例提供的征信信息的处理装置可以执行上述方法实施例所示的技术方案,其实现原理以及有益效果类似,此次不再进行赘述。
图10为本申请实施例提供的一种征信信息的处理设备的结构示意图。请参见图10,该处理设备100可以包括存储器101和处理器102。示例性地,存储器101、处理器102,各部分之间通过总线103相互连接。
所述存储器101存储计算机执行指令;
所述处理器102执行所述存储器存储的计算机执行指令,使得所述处理器执行上述任一所示的征信信息的处理方法。
图10实施例所示的征信信息的处理设备可以执行上述方法实施例所示的技术方案,其实现原理以及有益效果类似,此处不再进行赘述。
本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当所述计算机执行指令被处理器执行时用于实现上述任一所示的征信信息的处理方法。
本申请实施例还可以提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述任一所示的征信信息的处理方法。
实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一可读取存储器中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储器(存储介质)包括:只读存储器(英文:read-only memory,缩写:ROM)、RAM、快闪存储器、硬盘、固态硬盘、磁带(英文:magnetic tape)、软盘(英文:floppydisk)、光盘(英文:optical disc)及其任意组合。
本申请实施例是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理单元以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理单元执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求书指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求书来限制。
Claims (12)
1.一种征信信息的处理方法,其特征在于,包括:
获取待处理的第一征信信息,所述第一征信信息中包括N个第一字段和所述N个第一字段一一对应的N个第一征信数据,所述N为大于1的整数;
根据所述N个第一字段,在所述N个第一征信数据中确定与M个第二字段一一对应的M个第二征信数据,所述第二字段为升级后的征信信息中包括的字段,所述M为大于1的整数;
根据所述第一征信信息、所述M个第二字段和所述M个第二征信数据,生成目标征信信息。
2.根据权利要求1所述的处理方法,其特征在于,所述根据所述第一征信信息、所述M个第二字段和所述M个第二征信数据,生成目标征信信息,包括:
根据所述M个第二字段和所述M个第二征信数据,生成第二征信信息;
通过所述第一征信信息对所述第二征信信息进行验证处理,得到所述第二征信信息对应的验证结果,所述验证结果包括目标字段,所述目标字段为所述第二征信信息中验证成功的第二字段;
根据所述验证结果和所述第二征信信息,生成所述目标征信信息,所述目标征信信息中包括所述目标字段和所述目标字段对应的第二征信数据。
3.根据权利要求2所述的处理方法,其特征在于,所述根据所述M个第二字段和所述M个第二征信数据,生成第二征信信息,包括:
根据所述M个第二字段分别对应的数据格式,对所述M个第二征信数据进行格式转换,得到所述M个第二字段一一对应的M个第三征信数据;
根据所述M个第二字段和所述M个第三征信数据,生成所述第二征信信息。
4.根据权利要求3所述的方法,其特征在于,所述通过所述第一征信信息对所述第二征信信息进行验证处理,得到所述第二征信信息对应的验证结果,包括:
根据所述M个第三征信数据对应的M个第一征信数据,对所述M个第三征信数据进行完整性和正确性验证,得到所述M个第三征信数据的验证信息,所述验证信息包括验证成功或者验证失败;
根据每个所述第三征信数据的验证信息生成所述验证结果。
5.根据权利要求2-4任一项所述的处理方法,其特征在于,所述根据所述验证结果和所述第二征信信息,生成所述目标征信信息,包括:
根据所述验证结果,在所述第二征信信息中删除验证失败的第二字段对应的第三征信数据,得到第三征信信息;
若所述第三征信信息中存在征信数据为空的K个第二字段,则对所述K个第二字段对应的征信数据进行补全处理,得到所述目标征信信息,所述K为正整数;
若所述第三征信信息中不存在征信数据为空的第二字段,则将所述第三征信信息确定为所述目标征信信息。
6.根据权利要求5所述的处理方法,其特征在于,所述对所述第三征信信息中所述K个第二字段对应的征信数据进行补全处理,得到所述目标征信信息,包括:
获取征信信息的补全模式;
若所述补全模式为调用补全模式,则在征信数据库中查询获取所述K个第二字段对应的第四征信数据,以及根据所述K个第二字段对应的第四征信数据更新所述第三征信信息,得到所述目标征信信息;
若所述补全模式为非调用补全模式,则将所述第三征信信息中所述K个第二字段对应的征信数据设置为默认值,得到所述目标征信信息。
7.根据权利要求1-6任一项所述的处理方法,其特征在于,所述根据所述N个第一字段,在所述N个第一征信数据中确定与M个第二字段一一对应的M个第二征信数据,包括:
在所述N个第一字段中,确定每个所述第二字段对应的第一字段,得到M个第一字段,所述M个第一字段与M个第一征信数据一一对应;
将所述M个第一征信数据确定为所述M个第二征信数据。
8.根据权利要求1-7任一项所述的处理方法,其特征在于,所述目标征信信息生成时采用多个处理进程并行执行。
9.一种征信信息的处理装置,其特征在于,包括获取模块、确定模块以及生成模块;
所述获取模块用于,获取待处理的第一征信信息,所述第一征信信息中包括N个第一字段和所述N个第一字段一一对应的N个第一征信数据,所述N为大于1的整数;
所述确定模块用于,根据所述N个第一字段,在所述N个第一征信数据中确定与M个第二字段一一对应的M个第二征信数据,所述第二字段为升级后的征信信息中包括的字段,所述M为大于1的整数;
所述生成模块用于,根据所述第一征信信息、所述M个第二字段和所述M个第二征信数据,生成目标征信信息。
10.一种征信信息的处理设备,其特征在于,包括处理器和存储器;
所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,使得所述处理器执行如权利要求1至8任一项所述的征信信息的处理方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当所述计算机执行指令被处理器执行时用于实现权利要求1至8任一项所述的征信信息的处理方法。
12.一种计算机程序产品,其特征在于,包括计算机程序,该计算机程序被处理器执行时实现权利要求1至8任一项所述的征信信息的处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110673819.4A CN113360511A (zh) | 2021-06-17 | 2021-06-17 | 征信信息的处理方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110673819.4A CN113360511A (zh) | 2021-06-17 | 2021-06-17 | 征信信息的处理方法、装置及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113360511A true CN113360511A (zh) | 2021-09-07 |
Family
ID=77534836
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110673819.4A Pending CN113360511A (zh) | 2021-06-17 | 2021-06-17 | 征信信息的处理方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113360511A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100005115A1 (en) * | 2008-07-03 | 2010-01-07 | Sap Ag | Method and system for generating documents usable by a plurality of differing computer applications |
CN105354314A (zh) * | 2015-11-10 | 2016-02-24 | 中国建设银行股份有限公司 | 数据迁移方法及装置 |
CN107122355A (zh) * | 2016-02-24 | 2017-09-01 | 阿里巴巴集团控股有限公司 | 数据迁移系统和方法 |
US20190377807A1 (en) * | 2018-06-11 | 2019-12-12 | International Business Machines Corporation | Transforming data for a target schema |
CN110688830A (zh) * | 2019-09-26 | 2020-01-14 | 中国银行股份有限公司 | 征信模板的转换方法及装置 |
CN111930842A (zh) * | 2020-08-10 | 2020-11-13 | 中国工商银行股份有限公司 | 一种数据核对方法及装置 |
-
2021
- 2021-06-17 CN CN202110673819.4A patent/CN113360511A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100005115A1 (en) * | 2008-07-03 | 2010-01-07 | Sap Ag | Method and system for generating documents usable by a plurality of differing computer applications |
CN105354314A (zh) * | 2015-11-10 | 2016-02-24 | 中国建设银行股份有限公司 | 数据迁移方法及装置 |
CN107122355A (zh) * | 2016-02-24 | 2017-09-01 | 阿里巴巴集团控股有限公司 | 数据迁移系统和方法 |
US20190377807A1 (en) * | 2018-06-11 | 2019-12-12 | International Business Machines Corporation | Transforming data for a target schema |
CN110688830A (zh) * | 2019-09-26 | 2020-01-14 | 中国银行股份有限公司 | 征信模板的转换方法及装置 |
CN111930842A (zh) * | 2020-08-10 | 2020-11-13 | 中国工商银行股份有限公司 | 一种数据核对方法及装置 |
Non-Patent Citations (3)
Title |
---|
于洋: "银行系统数据移植项目研究与实现", 中国优秀硕士学位论文全文数据库信息科技辑, pages 138 - 351 * |
蔡主希: "智能风控与反欺诈 体系算法与实践", 机械工业出版社, pages: 102 - 103 * |
韩建国,等: "大型企业信息化工程项目群管理实战 神华信息化PMO案例解析", 31 January 2014, 中国经济出版社, pages: 210 - 218 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109977110B (zh) | 数据清洗方法、装置及设备 | |
CN106557486A (zh) | 一种数据的存储方法和装置 | |
CN105787058B (zh) | 一种用户标签系统及基于用户标签系统的数据推送系统 | |
CN111125229A (zh) | 数据血缘生成方法、装置、电子设备 | |
CN112579586A (zh) | 数据处理方法、装置、设备及存储介质 | |
CN111858730A (zh) | 一种图数据库的数据导入导出装置、方法、设备及介质 | |
CN111680017A (zh) | 一种数据同步的方法及装置 | |
CN107798120B (zh) | 一种数据转换方法及装置 | |
CN112948473A (zh) | 数据仓库的数据处理方法、装置、系统及存储介质 | |
CN116719822B (zh) | 一种海量结构化数据的存储方法及系统 | |
CN112860412A (zh) | 业务数据处理方法、装置、电子设备及存储介质 | |
US8229946B1 (en) | Business rules application parallel processing system | |
CN117763024A (zh) | 一种数据分片抽取方法及装置 | |
CN113360511A (zh) | 征信信息的处理方法、装置及设备 | |
CN115114297A (zh) | 数据轻量存储及查找方法、装置、电子设备及存储介质 | |
CN111159213A (zh) | 一种数据查询方法、装置、系统和存储介质 | |
CN111723129B (zh) | 报表生成方法、报表生成装置和电子设备 | |
CN115034917A (zh) | 一种社保资金发放数据风险信息的筛查方法及装置 | |
CN115422180A (zh) | 数据校验方法及系统 | |
CN114356454A (zh) | 对账数据处理方法、设备、存储介质及程序产品 | |
CN114168595A (zh) | 一种数据分析方法及装置 | |
CN112116403A (zh) | 一种信息推荐方法、装置及设备 | |
CN112395291A (zh) | 一种根据数据资产动态生成宽表的方法及系统 | |
CN112347095B (zh) | 数据表的处理方法、装置和服务器 | |
CN112579605B (zh) | 一种数据存储方法、装置、存储介质及服务器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |