CN114741402A - 业务特征池的处理方法、装置、计算机设备和存储介质 - Google Patents
业务特征池的处理方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN114741402A CN114741402A CN202210362703.3A CN202210362703A CN114741402A CN 114741402 A CN114741402 A CN 114741402A CN 202210362703 A CN202210362703 A CN 202210362703A CN 114741402 A CN114741402 A CN 114741402A
- Authority
- CN
- China
- Prior art keywords
- data
- service
- data table
- target
- business
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
- G06F16/235—Update request formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/2425—Iterative querying; Query formulation based on the results of a preceding query
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Fuzzy Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请涉及一种业务特征池的处理方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括:获取业务对象的历史数据和周期性更新的增量数据,得到目标业务源数据;根据目标业务源数据的属性标签和预设的特征维度之间的对应关系,对目标业务源数据按预设的特征维度进行聚合处理,将聚合处理后的数据归类至预设的特征维度对应的第一数据表;根据业务需求从第一数据表中获取目标业务数据,并对目标业务数据按业务需求的目标维度进行聚合处理,得到业务对象的衍生特征;根据衍生特征更新业务对象的特征表,得到包含全量业务特征的业务特征池。采用本方法不需要获取底层数据通过手工衍生得到数据分析和建模所需的特征,提高了效率。
Description
技术领域
本申请涉及大数据分析技术领域,特别是涉及一种业务特征池的处理方法、装置、计算机设备和存储介质。
背景技术
在银行体系中,基于特征池进行分析和建模是整个金融体系健康运营管理的重要保障环节。
然而,目前传统上搭建的特征池,一般实现的效果仅是提供了部分建模的特征,难以完全覆盖日常分析和数据建模需求。特别是对于银行金融机构,由于囊括的数据源较多,数据量极大,更多的做法是自动批量加工少量的常见特征,无法覆盖数据分析和建模的全部需求。实际在进行数据分析和建模时,对于特征维度较多的一些项目,例如普惠金融项目(不仅要包括企业的特征,还需要涵盖企业实际控制人、法定代表人、股东的个人特征),需要获取多维度的数据,再手工衍生所需特征,效率低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高特征衍生效率的业务特征池处理方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
第一方面,本申请提供了一种业务特征池的处理方法。所述方法包括:
获取业务对象的历史数据和周期性更新的增量数据,得到目标业务源数据;
对所述目标业务源数据进行数据分析,得到所述目标业务源数据的属性标签;
根据所述属性标签和预设的特征维度之间的对应关系,对所述目标业务源数据按预设的特征维度进行聚合处理,将聚合处理后的数据归类至所述预设的特征维度对应的第一数据表;
根据业务需求从所述第一数据表中获取目标业务数据,并对所述目标业务数据按业务需求的目标维度进行聚合处理,得到所述业务对象的衍生特征;
根据所述衍生特征更新所述业务对象的特征表,得到包含全量业务特征的业务特征池。
在其中一个实施例中,所述对所述目标业务源数据按预设的特征维度进行聚合处理,将聚合处理后的数据归类至所述预设的特征维度对应的第一数据表,包括:
对所述增量数据按预设的特征维度进行聚合处理,将聚合处理后的数据归类至所述特征维度对应的数据表,得到增量数据表;
将历史数据表和所述增量数据表进行合并,得到所述第一数据表。
在其中一个实施例中,所述获取业务对象的历史数据和周期性更新的增量数据,得到目标业务源数据,包括:
根据业务对象的历史数据和周期性更新的增量数据,得到原始业务源数据;
构建不同业务对象类型的第二数据表;
获取所述业务对象的原始业务源数据的标签,根据所述标签确定所述原始业务源数据的数据特征,并归类至所述业务对象对应的第二数据表;
根据业务分析和建模需求,从所述第二数据表中获取所述目标业务源数据。
在其中一个实施例中,所述构建不同业务对象类型的第二数据表,包括:
根据业务分析和建模需求,确定业务对象的对象类型,其中,所述业务分析和建模需求是基于业务需求所确定的;
根据所述对象类型建立第二数据表;所述第二数据表中的表字段用于表征所述业务对象的数据特征。
在其中一个实施例中,所述方法还包括:
根据所述增量数据的周期性地更新所述第二数据表。
在其中一个实施例中,所述方法还包括:
接收业务处理请求,所述业务处理请求携带特征标识;
根据所述特征标识从所述业务特征池中获取目标业务特征,基于所述目标业务特征进行业务处理;所述业务处理包括上线统计报表、日常客户画像分析、风险成因分析、数据建模和筛选目标业务对象中的至少一种。
第二方面,本申请还提供了一种业务特征池的处理装置。所述装置包括:
数据获取模块,用于获取业务对象的历史数据和周期性更新的增量数据,得到目标业务源数据;
数据分析模块,用于对所述目标业务源数据进行数据分析,得到所述目标业务源数据的属性标签;
数据聚合处理模块,用于根据所述属性标签和预设的特征维度之间的对应关系,对所述目标业务源数据按预设的特征维度进行聚合处理,将聚合处理后的数据归类至所述预设的特征维度对应的第一数据表;
特征衍生模块,用于根据业务需求从所述第一数据表中获取目标业务数据,并对所述目标业务数据按业务需求的目标维度进行聚合处理,得到所述业务对象的衍生特征;
特征表更新模块,用于根据所述衍生特征更新所述业务对象的特征表,得到包含全量业务特征的业务特征池。
在其中一个实施例中,所述数据聚合处理模块,用于对所述增量数据按预设的特征维度进行聚合处理,将聚合处理后的数据归类至所述特征维度对应的数据表,得到增量数据表;
所述业务特征池处理装置包括:
数据表合并模块,用于将历史数据表和所述增量数据表进行合并,得到所述第一数据表。
在其中一个实施例中,所述数据获取模块,还用于根据业务对象的历史数据和周期性更新的增量数据,得到原始业务源数据;
所述装置还包括:
数据表构建模块,用于构建不同业务对象类型的第二数据表;
数据处理模块,用于获取所述业务对象的原始业务源数据的标签,根据所述标签确定所述原始业务源数据的数据特征,并归类至所述业务对象对应的第二数据表;
所述数据获取模块,用于根据业务分析和建模需求,从所述第二数据表中获取所述目标业务源数据。
在其中一个实施例中,所述数据表构建模块,还用于根据业务分析和建模需求,确定业务对象的对象类型,其中,所述业务分析和建模需求是基于业务需求所确定的;
根据所述对象类型建立第二数据表;所述第二数据表中的表字段用于表征所述业务对象的数据特征。
在其中一个实施例中,所述装置还包括:
更新模块,用于根据所述增量数据的周期性地更新所述第二数据表。
在其中一个实施例中,所述装置还包括:
业务处理模块,用于接收业务处理请求,所述业务处理请求携带特征标识;
根据所述特征标识从所述业务特征池中获取目标业务特征,基于所述目标业务特征进行业务处理;所述业务处理包括上线统计报表、日常客户画像分析、风险成因分析、数据建模和筛选目标业务对象中的至少一种。
第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取业务对象的历史数据和周期性更新的增量数据,得到目标业务源数据;
对所述目标业务源数据按预设的特征维度进行聚合处理,将聚合处理后的数据归类至所述预设的特征维度对应的第一数据表;
根据业务需求从所述第一数据表中获取目标业务数据,并对所述目标业务数据按业务需求的目标维度进行聚合处理,得到所述业务对象的衍生特征;
根据所述衍生特征更新所述业务对象的特征表,得到包含全量业务特征的业务特征池。
第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取业务对象的历史数据和周期性更新的增量数据,得到目标业务源数据;
对所述目标业务源数据进行数据分析,得到所述目标业务源数据的属性标签;
根据所述属性标签和预设的特征维度之间的对应关系,对所述目标业务源数据按预设的特征维度进行聚合处理,将聚合处理后的数据归类至所述预设的特征维度对应的第一数据表;
根据业务需求从所述第一数据表中获取目标业务数据,并对所述目标业务数据按业务需求的目标维度进行聚合处理,得到所述业务对象的衍生特征;
根据所述衍生特征更新所述业务对象的特征表,得到包含全量业务特征的业务特征池。
第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
获取业务对象的历史数据和周期性更新的增量数据,得到目标业务源数据;
对所述目标业务源数据进行数据分析,得到所述目标业务源数据的属性标签;
根据所述属性标签和预设的特征维度之间的对应关系,对所述目标业务源数据按预设的特征维度进行聚合处理,将聚合处理后的数据归类至所述预设的特征维度对应的第一数据表;
根据业务需求从所述第一数据表中获取目标业务数据,并对所述目标业务数据按业务需求的目标维度进行聚合处理,得到所述业务对象的衍生特征;
根据所述衍生特征更新所述业务对象的特征表,得到包含全量业务特征的业务特征池。
上述业务特征池的处理方法、装置、计算机设备、存储介质和计算机程序产品,该方法通过获取业务对象的历史数据和周期性更新的增量数据,得到目标业务源数据,根据目标业务源数据的属性标签和预设的特征维度之间的对应关系,对目标业务源数据进行聚合处理得到第一数据表,从第一数据表中获取业务需求的所需的目标业务特征进行特征衍生,得到业务对象所需要的特征表。由于第一数据表的基础上,进行特征衍生,不需要获取底层数据通过手工衍生得到数据分析和建模所需的特征,提高了效率。同时,随着增量数据的周期性更新的同时更新第一数据表,在更新第一数据表的同时也实现衍生特征的更新,避免了衍生特征更新频率慢以及更新不及时,从根本上简化数据分析、建模和特征衍生的处理操作。通过周期性更新的增量数据更新第一数据表来更新衍生特征,进而实现业务特征池的自动化更新。
附图说明
图1为一个实施例中业务特征池的处理方法的应用环境图;
图2为一个实施例中业务特征池的处理方法的流程示意图;
图3为另一个实施例中业务特征池的处理方法的流程示意图;
图4为一个实施例中业务特征池的处理方法的应用示意图;
图5为一个实施例中业务特征池的处理装置的结构框图;
图6为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供的业务特征池的处理方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他网络服务器上。终端从服务器中获取业务对象的历史数据和周期性更新的增量数据,得到目标业务源数据;对所述目标业务源数据进行数据分析,得到所述目标业务源数据的属性标签;根据所述属性标签和预设的特征维度之间的对应关系,对所述目标业务源数据按预设的特征维度进行聚合处理,将聚合处理后的数据归类至所述预设的特征维度对应的第一数据表;根据业务需求从所述第一数据表中获取目标业务数据,并对所述目标业务数据按业务需求的目标维度进行聚合处理,得到所述业务对象的衍生特征;根据所述衍生特征更新所述业务对象的特征表,得到包含全量业务特征的业务特征池。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种业务特征池的处理方法,以该方法应用于图1中的终端为例进行说明,包括以下步骤:
步骤202,获取业务对象的历史数据和周期性更新的增量数据,得到目标业务源数据。
其中,在与银行相关的业务应用场景中,业务对象包括行内小微企业客户、小微企业法定代表人、实控人和股东等等。本实施例中,以应用场景为银行应用场景(普惠金融的业务场景)为例进行说明。增量数据,是指周期性更新增加的业务数据,这里的业务数据可以但不仅限于是与银行相关的业务数据,例如,在与银行相关的业务场景中,业务数据包括客户类型数据、个人征信数据、个人流水交易数据、企业征信数据等。目标业务源数据包括分析环境中的历史数据和生产环境中的增量数据,目标业务源数据可以理解为业务底层数据。
具体地,根据业务需求确定业务对象,根据业务对象从分析环境中获取与业务对象匹配的历史数据,以及从生产环境中获取业务对象匹配的增量数据。可以理解的是,生产环境中的增量数据是动态更新的,周期性地进行自动化更新,周期性可以但不仅限于是日周期、周周期和月周期等。
步骤204,对目标业务源数据进行数据分析,得到目标业务源数据的属性标签。
其中,属性标签是用于标记数据。对于同一个目标业务源数据存在至少一个属性标签。例如,目标业务源数据A的属性标签包括属性标签1、属性标签2、属性标签3和属性标签4。在不同的业务场景中,目标业务源数据的属性标签也不是同的。例如,在金融业务场景中,目标业务源数据可以是交易明细数据,一个目标业务源数据的属性标签包括行为属性标签(如,交易行为)、时间属性标签(如,月,日)等。步骤206,根据属性标签和预设的特征维度之间的对应关系,对目标业务源数据按预设的特征维度进行聚合处理,将聚合处理后的数据归类至预设的特征维度对应的第一数据表。
其中,属性标签和预设的特征维度之间的对应关系是根据业务需求确定,可以理解的是,属性标签和预设的特征维度之间的对应关系是可以根基实际需求更新的。
预设的特征维度是指根据业务需求和/或业务应用确定的,聚合处理的数据包括多种数据类型,例如AUM、代发工资和个人流水等。不同的数据类型对应多个特征维度,例如,AUM对应的特征维度包括月份、客户编号、AUM类型、AUM值、月份、分位、分位值等;代发工资的特征维度包括月份、客户编号、代发工资金额、代发工资人数、代发工资次数、月份、分位和分位值等;个人流水对应的特征维度包括客户编号、日期、交易性质、交易金额、交易笔数、客户编号、月份、交易性质、交易金额、交易笔数、交易活跃天数和最近一笔交易距今天数等。
第一数据表用于根据业务需求进行特征衍生,生成业务需求的特征;其中业务需求包括建模需求、数据分析、客户画像分析、风险成因分析和潜在客户挖掘等。可选地,第一数据表可以是针对业务场景中所有的业务对象,也可以是针对业务场景中特定的业务对象。当目标业务源数据的数据量小于或等于预设值时,第一数据表是针对业务场景中所有的业务对象,第一数据表再关联对应的第二数据表(主表)衍生相应的特征;例如,若目标业务源数据的数据量小于或等于预设值,第一数据表的业务对象可以是全行客户,最后再关联对应的主表衍生相应的特征,通过共用中间表以及避免对新进入的业务对象每天做初始化,比如AUM中间表设计为全行客户每个月各类型的AUM情况。当目标业务源数据的数据量大于预设值时,第一数据表是针对业务场景中部分的业务对象。可选地,第一数据表设计考虑数据量、表空间大小,第一数据表是在底层明细表的基础上(目标业务源数据)进行聚合得到,且应定期进行历史数据的清理和回收表空间,只保存预设时长以内的数据。具体地,对获取的目标业务源数据按照预设的特征维度进行聚合处理,将聚合处理后的数据归类至预设的特征维度对应的第一数据表。
步骤208,根据业务需求从第一数据表中获取目标业务数据,并对目标业务数据按业务需求的目标维度进行聚合处理,得到业务对象的衍生特征。
其中,对目标业务数据按业务需求的目标维度进行聚合处理,可以得到目标业务源数据对应的特征池中不存在的特征,是得到新的数据特征。例如,业务对象(客户)近6个月类型为活期存款的月均AUM值。第一数据表中是每个客户每个月每种AUM类型的AUM值,首先从第一数据表筛选近6个月类型为活期存款的数据,在此基础上,按目标维度为客户维度聚合,计算每个客户AUM的平均值,得到对应的衍生特征。
具体地,根据业务需求从第一数据表中获取目标业务数据,并对目标业务数据按业务需求的目标维度进行聚合处理,得到业务对象的衍生特征。
步骤210,根据衍生特征更新业务对象的特征表,得到包含全量业务特征的业务特征池。
上述业务特征池的处理方法中,通过获取业务对象的历史数据和周期性更新的增量数据,得到目标业务源数据,对目标业务源数据进行聚合处理得到第一数据表,从第一数据表中获取业务需求的所需的目标业务特征进行特征衍生,得到业务对象所需要的特征表。由于第一数据表的基础上,进行特征衍生,不需要获取底层数据通过手工衍生得到数据分析和建模所需的特征,提高了效率。同时,随着增量数据的周期性更新的同时更新第一数据表,在更新第一数据表的同时也实现衍生特征的更新,避免了衍生特征更新频率慢以及更新不及时,从根本上简化数据分析、建模和特征衍生的处理操作。通过周期性更新的增量数据更新第一数据表来更新衍生特征,进而实现业务特征池的自动化更新。
在一个实施例中,如图3所示,提供了一种业务特征池的处理方法,以该方法应用于图1中的终端为例进行说明,包括以下步骤:
步骤302,获取业务对象的历史数据和周期性更新的增量数据,得到目标业务源数据。
具体地,根据业务对象的历史数据和周期性更新的增量数据,得到原始业务源数据;构建不同业务对象类型的第二数据表;获取业务对象的原始业务源数据的标签,根据标签确定原始业务源数据的数据特征,并归类至业务对象对应的第二数据表;根据业务分析和建模需求,从第二数据表中获取目标业务源数据。其中,在根据业务对象的历史数据和周期性更新的增量数据,得到原始业务源数据;对原始业务源数据进行数据清洗,清洗多余数据以及重复数据,提高原始业务源数据的准确性。
可选地,在一个实施例中,根据增量数据周期性地更新第二数据表;通过周期性地获取增量数据,根据增量数据自动对第二数据表进行更新,提高了第二数据表更新的及时性以及第二数据表中数据的完整性。
进一步地,构建不同业务对象类型的第二数据表,包括:根据业务分析和建模需求,确定业务对象的对象类型,其中,业务分析和建模需求是基于业务需求所确定的;根据对象类型建立第二数据表;第二数据表中的表字段用于表征业务对象的数据特征。
其中,第二数据表,可以理解为业务对象的主表(底层数据明细表),存储了业务对象在应用场景中,所有业务行产生的数据。业务对象的对象类型包括全量企业客户和个人客户等,对象类型不同,需要考虑的特征维度不同,建立的第二数据表也是不同的。例如,当对象类型为全小微企业(全量企业客户)时,第二数据表的表字段包括分行号、经办机构、开户机构、企业客户编号、贷款账号、授信身份、贷款日期、到期日期和进入主表日期;当对象类型为个人客户(如小微企业法定代表人、实控人、股东),第二数据表的表字段包括分行号、经办机构、开户机构、个人客户编号、贷款账号、授信身份、贷款日期、到期日期和进入主表日期等。
第一数据表关联第二数据表,第二数据表的表字段包括新增业务对象的日期字段,根据新增业务对象的日期字段可以进行数据筛选,筛选出第一数据表中的更新部分和衍生特征。可选地,在一个实施例中,当检测第一数据表中新增特征维度时,对第一数据表进行重新初始化,确保数据表中数据的准确性。
步骤304,对目标业务源数据进行数据分析,得到目标业务源数据的属性标签。步骤306,根据属性标签和预设的特征维度之间的对应关系,对增量数据按预设的特征维度进行聚合处理,将聚合处理后的数据归类至特征维度对应的数据表,得到增量数据表。
步骤308,将历史数据表和增量数据表进行合并,得到第一数据表。
其中,第一数据表预先设置的数据表属性包括字段数量、数据清理、更新频率、累数方式(是指直接插入数据或者更新数据);根据第一数据表的数据表属性可以第一数据表进行设置。直接插入数据可以是以每日/月/季增量插入的方式更新。
可以理解是,第一数据表、第二数据表、目标业务源数据的存储和数据清理以及客户范围的确定(是否全量企业客户、个人客户)等均要充分考虑所占空间大小和跑批效率。跑批效率指的是在有限的数据库资源和计算资源下特征加工所需的时间。
步骤310,根据业务需求从第一数据表中获取目标业务数据,并对目标业务数据按业务需求的目标维度进行聚合处理,得到业务对象的衍生特征。
其中,根据业务需求从第一数据表中获取目标业务数据,并对目标业务数据按业务需求的目标维度进行聚合处理时,与第二数据表进行关联,建立对应的特征表。
业务对象的衍生特征包括日度特征和月度特征等,日度特征包括征信特征(个人征信特征和企业征信特征),月度特征包括对公流水特征、代发工资特征、AUM资产特征、客户行为特征、代缴税特征、个人流水特征、历史贷款特征和客户标签特征。进一步地,除日度特征外,其余特征衍生时均关联第一数据表,建立对应的特征表。日度特征以对应的客户范围生成特征表,如征信特征以每份报告为主键生成特征表。
进一步地,在金融的业务场景中,部分特征衍生可能无需第一数据表,例如征信特征、行内贷款特征、基本信息特征、工商特征、房产特征等。
步骤312,根据衍生特征更新业务对象的特征表,得到包含全量业务特征的业务特征池。
其中,特征池中包括历史特征,当增量数据不断更新时,对第一数据进行更新;从第一数据表中获取目标业务数据,并对目标业务数据按业务需求的目标维度进行聚合处理,得到业务对象的衍生特征。
在业务应用中,当有业务需求时,根据业务需求的业务特征可以从特征池中获取所需的全部业务特征。其中,业务特征中包括数据建模(例如,准入模型、授信额度模型、预警模型、流失率预测模型、贷款需求预测模型)需要的第一业务特征,以及风险分析所需的第二业务特征等。
步骤314,接收业务处理请求,业务处理请求携带特征标识。
步骤316,根据特征标识从业务特征池中获取目标业务特征,基于目标业务特征进行业务处理。
其中,业务处理包括上线统计报表、日常客户画像分析、风险成因分析、数据建模和筛选目标业务对象中的至少一种。其中,数据建模包括准入模型、授信额度模型、预警模型、流失率预测模型和贷款需求预测模型中至少一种。
具体地,收业务处理请求,根据业务处理请求携带特征标识确定业务对象的对象类型,进而根据特征标识从业务特征池中获取目标业务特征,基于目标业务特征进行业务处理;可以对不同的业务类型的业务对象的业务请求进行针对性处理;通过从包括全量业务特征的特征池中获取业务需求所需的全部业务特征,丰富业务处理请求数据量,避免业务特征的缺失,提高业务请求处理的准确性。
以下为业务特征池的处理方法的应用场景框架图,如图4所示,以应用针对普惠金融客户的业务场景中为例进行说明。对象类型包括全量小微企业客户、小微企业法定代表人、实控人和股东;增量数据包括每日更新源数据和每月更新源数据;历史数据包括存量历史源数据;第一数据表包括历史数据表(可以理解为第一数据表初始化)和增量数据表。
从分析环境中获取历史数据,以及从生产环境中获取增量数据,得到原始业务源数据。确定业务对象的对象类型,根据不同的对象类型构建对应的第二数据表。其中,当对象类型为全量小微企业时,构建的第二数据表的表字段至少包括分行号、经办机构、开户机构、企业客户编号、贷款账号、授信身份、贷款日期、到期日期和进入主表日期等;当对象类型为小微企业法定代表人、实控人或股东时,构建的第二数据表的表字段至少包括分行号、经办机构、开户机构、个人客户编号、贷款账号、授信身份、贷款日期、到期日期和进入主表日期等。
获取业务对象的原始业务源数据的标签,根据所述标签确定所述原始业务源数据的数据特征,并归类至所述业务对象对应的第二数据表;根据业务分析和建模需求,从所述第二数据表中获取所述目标业务源数据。对所述增量数据按预设的特征维度进行聚合处理,将聚合处理后的数据归类至所述特征维度对应的数据表,得到增量数据表;将历史数据表和所述增量数据表进行合并,得到所述第一数据表。
根据业务需求从所述第一数据表中获取目标业务数据,并对所述目标业务数据按业务需求的目标维度进行聚合处理,得到所述业务对象的衍生特征。其中,衍生特征包括日度特征和月度特征等,日度特征包括征信特征(个人征信特征和企业征信特征),月度特征包括对公流水特征、代发工资特征、AUM资产特征、客户行为特征、代缴税特征、个人流水特征、历史贷款特征和客户标签特征。根据所述衍生特征更新所述业务对象的特征表,得到包含全量业务特征的业务特征池。
将业务特征池的衍生特征导入至项目主表中(包括分析主表和建模主表),进行数据分析和建模处理,可以实现客户画像分析、风险成因分析、数据建模和筛选目标业务对象等业务处理。或者将业务特征池中的特征表发送值业务系统,通过业务系统根据特征表对业务对象的业务规则或者业务模型的离线特征进行处理;还可以实现报表系统基于特征表按照预设维度(如,客户/贷款维度)聚合统计业务的整体情况。
上述业务特征池的处理方法中,通过获取业务对象的历史数据和周期性更新的增量数据,得到目标业务源数据,对目标业务源数据进行聚合处理得到第一数据表,从第一数据表中获取业务需求的所需的目标业务特征进行特征衍生,得到业务对象所需要的特征表,在接收到携带特征标识业务处理请求时,根据特征标识从业务特征池中获取目标业务特征,基于目标业务特征进行业务处理。由于第一数据表的基础上,进行特征衍生,不需要获取底层数据通过手工衍生得到数据分析和建模所需的特征,提高了效率。同时,随着增量数据的周期性更新的同时更新第一数据表,在更新第一数据表的同时也实现衍生特征的更新,避免了衍生特征更新频率慢以及更新不及时,从根本上简化数据分析、建模和特征衍生的处理操作。通过更新业务特征池,提高业务处理的效率以及业务处理的可靠性。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的业务特征池的处理方法的业务特征池的处理装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个业务特征池的处理装置实施例中的具体限定可以参见上文中对于业务特征池的处理方法的限定,在此不再赘述。
在一个实施例中,如图5所示,提供了一种业务特征池的处理装置,包括:数据获取模块502、数据分析模块504、数据聚合处理模块506、特征衍生模块508和特征表更新模块510,其中:
数据获取模块502,用于获取业务对象的历史数据和周期性更新的增量数据,得到目标业务源数据。
数据分析模块504,用于对所述目标业务源数据进行数据分析,得到所述目标业务源数据的属性标签。
数据聚合处理模块506,用于根据所述属性标签和预设的特征维度之间的对应关系,对所述目标业务源数据按预设的特征维度进行聚合处理,将聚合处理后的数据归类至所述预设的特征维度对应的第一数据表。
特征衍生模块508,用于根据业务需求从所述第一数据表中获取目标业务数据,并对所述目标业务数据按业务需求的目标维度进行聚合处理,得到所述业务对象的衍生特征。
特征表更新模块510,用于根据所述衍生特征更新所述业务对象的特征表,得到包含全量业务特征的业务特征池。
可选地,在一个实施例中,数据聚合处理模块506,用于对增量数据按预设的特征维度进行聚合处理,将聚合处理后的数据归类至特征维度对应的数据表,得到增量数据表。
可选地,在一个实施例中,业务特征池处理装置包括:数据表合并模块,用于将历史数据表和增量数据表进行合并,得到第一数据表。
可选地,在一个实施例中,数据获取模块502,还用于根据业务对象的历史数据和周期性更新的增量数据,得到原始业务源数据;
可选地,在一个实施例中,业务特征池处理装置包括:数据表构建模块,用于构建不同业务对象类型的第二数据表。
数据处理模块,用于获取业务对象的原始业务源数据的标签,根据标签确定原始业务源数据的数据特征,并归类至业务对象对应的第二数据表。
数据获取模块502,用于根据业务分析和建模需求,从第二数据表中获取目标业务源数据。
可选地,在一个实施例中,数据表构建模块,还用于根据业务分析和建模需求,确定业务对象的对象类型,其中,业务分析和建模需求是基于业务需求所确定的。
根据对象类型建立第二数据表;第二数据表中的表字段用于表征业务对象的数据特征。
可选地,在一个实施例中,业务特征池的处理装置还包括:
更新模块,用于根据增量数据的周期性地更新第二数据表。
可选地,在一个实施例中,业务特征池的处理装置还包括:
业务处理模块,用于接收业务处理请求,业务处理请求携带特征标识;
根据特征标识从业务特征池中获取目标业务特征,基于目标业务特征进行业务处理;业务处理包括上线统计报表、日常客户画像分析、风险成因分析、数据建模和筛选目标业务对象中的至少一种。
上述业务特征池的处理装置,该装置通过获取业务对象的历史数据和周期性更新的增量数据,得到目标业务源数据,对目标业务源数据进行聚合处理得到第一数据表,从第一数据表中获取业务需求的所需的目标业务特征进行特征衍生,得到业务对象所需要的特征表。由于第一数据表的基础上,进行特征衍生,不需要获取底层数据通过手工衍生得到数据分析和建模所需的特征,提高了效率。同时,随着增量数据的周期性更新,也实现衍生特征的更新,避免了衍生特征更新频率慢以及更新不及时,从根本上简化数据分析、建模和特征衍生的处理操作。通过周期性更新的增量数据更新第一数据表来更新衍生特征,进而实现业务特征池的自动化更新。
上述业务特征池的处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种业务特征池的处理方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (15)
1.一种业务特征池的处理方法,其特征在于,所述方法包括:
获取业务对象的历史数据和周期性更新的增量数据,得到目标业务源数据;
对所述目标业务源数据进行数据分析,得到所述目标业务源数据的属性标签;
根据所述属性标签和预设的特征维度之间的对应关系,对所述目标业务源数据按预设的特征维度进行聚合处理,将聚合处理后的数据归类至所述预设的特征维度对应的第一数据表;
根据业务需求从所述第一数据表中获取目标业务数据,并对所述目标业务数据按业务需求的目标维度进行聚合处理,得到所述业务对象的衍生特征;
根据所述衍生特征更新所述业务对象的特征表,得到包含全量业务特征的业务特征池。
2.根据权利要求1所述的方法,其特征在于,所述对所述目标业务源数据按预设的特征维度进行聚合处理,将聚合处理后的数据归类至所述预设的特征维度对应的第一数据表,包括:
对所述增量数据按预设的特征维度进行聚合处理,将聚合处理后的数据归类至所述特征维度对应的数据表,得到增量数据表;
将历史数据表和所述增量数据表进行合并,得到所述第一数据表。
3.根据权利要求1所述的方法,其特征在于,所述获取业务对象的历史数据和周期性更新的增量数据,得到目标业务源数据,包括:
根据业务对象的历史数据和周期性更新的增量数据,得到原始业务源数据;
构建不同业务对象类型的第二数据表;
获取所述业务对象的原始业务源数据的标签,根据所述标签确定所述原始业务源数据的数据特征,并归类至所述业务对象对应的第二数据表;
根据业务分析和建模需求,从所述第二数据表中获取所述目标业务源数据。
4.根据权利要求3所述的方法,其特征在于,所述构建不同业务对象类型的第二数据表,包括:
根据业务分析和建模需求,确定业务对象的对象类型,其中,所述业务分析和建模需求是基于业务需求所确定的;
根据所述对象类型建立第二数据表;所述第二数据表中的表字段用于表征所述业务对象的数据特征。
5.根据权利要求3所述的方法,其特征在于,所述方法还包括:
根据所述增量数据周期性地更新所述第二数据表。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
接收业务处理请求,所述业务处理请求携带特征标识;
根据所述特征标识从所述业务特征池中获取目标业务特征,基于所述目标业务特征进行业务处理;所述业务处理包括上线统计报表、日常客户画像分析、风险成因分析、数据建模和筛选目标业务对象中的至少一种。
7.一种业务特征池的处理装置,其特征在于,所述装置包括:
数据获取模块,用于获取业务对象的历史数据和周期性更新的增量数据,得到目标业务源数据;
数据分析模块,用于对所述目标业务源数据进行数据分析,得到所述目标业务源数据的属性标签;数据聚合处理模块,用于根据所述属性标签和预设的特征维度之间的对应关系,对所述目标业务源数据按预设的特征维度进行聚合处理,将聚合处理后的数据归类至所述预设的特征维度对应的第一数据表;
特征衍生模块,用于根据业务需求从所述第一数据表中获取目标业务数据,并对所述目标业务数据按业务需求的目标维度进行聚合处理,得到所述业务对象的衍生特征;
特征表更新模块,用于根据所述衍生特征更新所述业务对象的特征表,得到包含全量业务特征的业务特征池。
8.根据权利要求7所述的装置,其特征在于,所述数据聚合处理模块,用于对所述增量数据按预设的特征维度进行聚合处理,将聚合处理后的数据归类至所述特征维度对应的数据表,得到增量数据表;
所述业务特征池处理装置包括:
数据表合并模块,用于将历史数据表和所述增量数据表进行合并,得到所述第一数据表。
9.根据权利要求7所述的装置,其特征在于,所述数据获取模块,还用于根据业务对象的历史数据和周期性更新的增量数据,得到原始业务源数据;
所述装置还包括:
数据表构建模块,用于构建不同业务对象类型的第二数据表;
数据处理模块,用于获取所述业务对象的原始业务源数据的标签,根据所述标签确定所述原始业务源数据的数据特征,并归类至所述业务对象对应的第二数据表;
所述数据获取模块,用于根据业务分析和建模需求,从所述第二数据表中获取所述目标业务源数据。
10.根据权利要求9所述的装置,其特征在于,所述数据表构建模块,还用于根据业务分析和建模需求,确定业务对象的对象类型,其中,所述业务分析和建模需求是基于业务需求所确定的;
根据所述对象类型建立第二数据表;所述第二数据表中的表字段用于表征所述业务对象的数据特征。
11.根据权利要求9所述的装置,其特征在于,所述装置还包括:
更新模块,用于根据所述增量数据的周期性地更新所述第二数据表。
12.根据权利要求7所述的装置,其特征在于,所述装置还包括:
业务处理模块,用于接收业务处理请求,所述业务处理请求携带特征标识;
根据所述特征标识从所述业务特征池中获取目标业务特征,基于所述目标业务特征进行业务处理;所述业务处理包括上线统计报表、日常客户画像分析、风险成因分析、数据建模和筛选目标业务对象中的至少一种。
13.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
15.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210362703.3A CN114741402A (zh) | 2022-04-07 | 2022-04-07 | 业务特征池的处理方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210362703.3A CN114741402A (zh) | 2022-04-07 | 2022-04-07 | 业务特征池的处理方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114741402A true CN114741402A (zh) | 2022-07-12 |
Family
ID=82279982
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210362703.3A Pending CN114741402A (zh) | 2022-04-07 | 2022-04-07 | 业务特征池的处理方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114741402A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115600600A (zh) * | 2022-10-26 | 2023-01-13 | 中电金信软件有限公司(Cn) | 多对象标签体系的标签命名方法、装置、电子设备及介质 |
CN117252555A (zh) * | 2023-11-14 | 2023-12-19 | 之江实验室 | 一种基于车险场景的半自动化特征工程方法、系统和介质 |
-
2022
- 2022-04-07 CN CN202210362703.3A patent/CN114741402A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115600600A (zh) * | 2022-10-26 | 2023-01-13 | 中电金信软件有限公司(Cn) | 多对象标签体系的标签命名方法、装置、电子设备及介质 |
CN115600600B (zh) * | 2022-10-26 | 2023-10-17 | 中电金信软件有限公司 | 多对象标签体系的标签命名方法、装置、电子设备及介质 |
CN117252555A (zh) * | 2023-11-14 | 2023-12-19 | 之江实验室 | 一种基于车险场景的半自动化特征工程方法、系统和介质 |
CN117252555B (zh) * | 2023-11-14 | 2024-04-09 | 之江实验室 | 一种基于车险场景的半自动化特征工程方法、系统和介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Orjuela et al. | Towards an agriculture solution for product supply chain using blockchain: case study Agro-chain with BigchainDB | |
Jain | Big Data and Hadoop | |
US10614073B2 (en) | System and method for using data incident based modeling and prediction | |
CN114741402A (zh) | 业务特征池的处理方法、装置、计算机设备和存储介质 | |
Bijak et al. | Modelling LGD for unsecured retail loans using Bayesian methods | |
US10373267B2 (en) | User data augmented propensity model for determining a future financial requirement | |
EP3281167A1 (en) | Qualitatively planning, measuring, making effecient and capitalizing on marketing strategy | |
CN116468543A (zh) | 基于联邦学习的信贷风险评估方法、装置、设备和介质 | |
Saiktishna et al. | Historical analysis and time series forecasting of stock market using FB prophet | |
CN114266640A (zh) | 审计方法、装置、计算机设备及存储介质 | |
US10445839B2 (en) | Propensity model for determining a future financial requirement | |
Wan et al. | Assessment of model validation outcomes of a new recursive spatial equilibrium model for the Greater Beijing | |
Aranha et al. | Efficacies of artificial neural networks ushering improvement in the prediction of extant credit risk models | |
Chebli et al. | Measuring activity in big data: new estimates of big data employment in the UK market sector | |
Hilliard et al. | Option pricing under short-lived arbitrage: theory and tests | |
CN114186961A (zh) | 业务审批流程配置方法、装置、计算机设备和存储介质 | |
CN111179076A (zh) | It系统智能管理方法、装置及计算机可读存储介质 | |
US20170344925A1 (en) | Transmission of messages based on the occurrence of workflow events and the output of propensity models identifying a future financial requirement | |
CN115238195B (zh) | 目标对象的确定方法、装置、设备、介质和产品 | |
CN114742144A (zh) | 对象流失概率的确定方法、装置、计算机设备和存储介质 | |
Karthikeyan et al. | Meta Analytical Literature Study on Business Intelligence and Its Applications; a Techno-Business Leadership Perspective | |
CN115511314A (zh) | 业务活动竞赛方法、装置、计算机设备和存储介质、产品 | |
Mohammad-Pour et al. | Economic impact of government health expenditure: An application of the computable general equilibrium model to the Iran | |
CN114693354A (zh) | 计价方法、装置、计算机设备、存储介质和程序产品 | |
CN114595990A (zh) | 成本核算方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |