CN113515528B

CN113515528B - 基于大数据和oracle海量数据的资产筛选系统和方法

Info

Publication number: CN113515528B
Application number: CN202111071903.5A
Authority: CN
Inventors: 李剑生; 翁国海; 郑成彬
Original assignee: Beijing Jiangrongxin Technology Co ltd
Current assignee: Beijing Jiangrongxin Technology Co ltd
Priority date: 2021-09-14
Filing date: 2021-09-14
Publication date: 2022-04-05
Anticipated expiration: 2041-09-14
Also published as: CN113515528A

Abstract

本发明涉及一种基于大数据和ORACLE海量数据的资产筛选系统，包括大数据加工模块、ORACLE数据存储模块、作业调度模块和WEB应用模块；大数据加工模块能够基于Hadoop+Hive+HDFS构建的离线处理集群进行离线数据加工；ORACLE数据存储模块能够通过SQL建表语句建立资产信息表，并为需要检索的字段建立位图索引；作业调度模块能够通过配置对应调度脚本、调度时间来定时触发大数据加工与ORACLE数据导入；WEB应用模块能够接收ORACLE数据存储模块的数据，并输出能够直接被资产证券化管理系统使用的信息。本发明还公开了一种基于大数据和ORACLE海量数据的资产筛选方法。通过大数据的加工，使得海量资产属性更细致；通过ORACLE的位图索引，使得海量资产数据检索速度更快。

Description

基于大数据和ORACLE海量数据的资产筛选系统和方法

技术领域

本发明涉及金融领域，为一种资产证券化管理技术，具体是一种基于大数据和ORACLE海量数据的资产筛选系统和方法。

背景技术

目前信用卡资产证券化资产筛选普遍是通过SAS分析软件进行资产的数据筛选，SAS软件是独立软件，无法直接与资产证券化管理系统结合使用，需要手工导入数据、并且每次筛选需要手工编写脚本对数据进行加工、统计、分析，需要使用者有一定的编程能力，总的来说SAS存在大量手工操作、数据安全性和准确性无法保证、使用者使用门槛高的问题。

为解决上述问题，本发明通过作业调度自动化调用大数据集群能接入源数据，高效加工海量数据，其结果通过自动化脚本直接导入ORACLE，最终结果能直接被资产证券化管理系统使用进行筛选。

发明内容

本发明的目的是提供一种基于大数据和ORACLE海量数据的资产筛选系统，通过大数据的加工，使得海量资产属性更细致；通过ORACLE的位图索引，使得海量资产数据检索速度更快。

本发明的技术方案为：一种基于大数据和ORACLE海量数据的资产筛选系统，包括大数据加工模块、ORACLE数据存储模块、作业调度模块和WEB应用模块；

所述大数据加工模块能够基于Hadoop+Hive+HDFS构建的离线处理集群进行离线数据加工；

所述ORACLE数据存储模块能够通过SQL建表语句建立资产信息表，并为需要检索的字段建立位图索引，所述ORACLE数据存储模块采用Sqlldr命令进行并行读取所述大数据加工模块加工好的文件；

所述作业调度模块能够通过配置对应调度脚本、调度时间来定时触发大数据加工与ORACLE数据导入；

所述WEB应用模块能够接收所述ORACLE数据存储模块的数据，并输出能够直接被资产证券化管理系统使用的信息。

进一步的，所述大数据加工模块包括源数据抽取组件、Hadoop集群组件、Hive组件和加工调度脚本组件。

进一步的，所述源数据抽取组件用于抽取包含卡、账户、个人三个维度的信用卡资产最基本信息，信用卡资产证券化不同产品的资产附加信息，国家、地区、节假日、卡种类的信息，并逐行写入每条数据。

进一步的，所述Hadoop集群+Hive组件基于Hadoop+Hive+HDFS，通过HiveSql写入海量数据到Hdfs进行分布式存储，同时通过HiveSql对海量基础数据进行分析加工，得到按筛选项组装到一起的资产明细数据，并逐行写入每条资产明细数据。

进一步的，所述加工调度脚本组件为shell作业调度脚本，逐步执行大数据加工模块的每个步骤，以供所述作业调度模块调用。

进一步的，所述ORACLE数据存储模块包含文件到达检查组件、Sqlldr的数据导入组件、位图索引组件和数据导入调度脚本组件。

进一步的，所述文件到达检查组件为Shell文件检查脚本，循环检测所述大数据加工模块的结果文件是否到达文件数据导入调度脚本。

进一步的，所述Sqlldr的数据导入组件采用ORACLE的数据加载工具SQL*LOADER，将所述大数据加工模块产生的资产明细数据迁移到ORACLE数据库中。

进一步的，所述位图索引组件为筛选项根据需要添加ORACLE的位图索引。

进一步的，所述数据导入调度脚本组件为Shell作业调度脚本，逐步执行所述ORACLE数据存储模块的每个步骤，以供作业调度模块调用。

进一步的，所述ORACLE数据存储模块的Sqlldr命令包含skip_index_maintenance=true语句，在导入所述大数据加工模块加工好的数据时忽略索引，在导入完成后，再重建索引。

进一步的，所述WEB应用模块包括资产筛选模板组件、资产筛选组件、数据字典维护组件、Spring boot组件和Vue组件。

进一步的，所述资产筛选模板组件能够提供给用户进行定制资产筛选的筛选项的功能。

进一步的，所述资产筛选组件能够提供选择筛选模板并勾选筛选条件值进行筛选的功能。

进一步的，所述数据字典维护组件提供对资产筛选项的字典值进行维护功能。

进一步的，所述Springboot组件是Spring框架下的WEB应用框架，通过其集成的功能完成对资产筛选模板、资产筛选、数据字典维护请求的SQL化，然后连接ORACLE数据库进行增删查改并返回Json结果。

进一步的，所述Vue组件为构建用户界面的框架，通过其集成的功能完成对资产筛选、数据字典维护的功能展示与交互操作。

本发明另一个目的是提供一种基于大数据和ORACLE海量数据的资产筛选方法，基于该方法，资产证券化的资产筛选更灵活、准确并且高效，通过大数据的加工，使得海量资产属性更细致；通过ORACLE的位图索引，使得海量资产数据检索速度更快。该基于大数据和ORACLE海量数据的资产筛选方法的具体操作为：

运行大数据加工模块，进行基于Hadoop+Hive+HDFS构建的离线处理集群进行的离线数据加工，加工获得的数据上传到Oracle终端服务器；

运行ORACLE数据存储模块，通过SQL建表语句建立资产信息表，字段与大数据的资产信息表一致，并为需要检索的字段建立位图索引；调用Oracle的Sqlldr命令进行并行读取所述大数据加工模块传过来的数据；

运行作业调度模块，通过配置对应调度脚本、调度时间来定时触发大数据加工与ORACLE数据导入；

运行WEB应用模块，前台通过页面新增资产筛选模板保存需要进行筛选的字段，在加载筛选模块的时候根据筛选字段和筛选项字典展示筛选字段和供选择的筛选值，通过字典转换得到查询请求，通过Springboot的web服务器将该请求转换为对应查询数据库表资产明细表的SQL语句查询并返回Json结果到展示页面，展示页面将结果回显到前台。

本发明基于大数据和ORACLE海量数据加工查询的资产证券化资产筛选系统能更灵活的处理海量资产数据，并且具有方便快捷的资产筛选功能。还有以下的优点：

1)通过接入海量数据大数据加工，资产信息属性更细，粒度更高；

2)资产基础数据导入、加工、加工结果导出并入库全流程自动化；

3)资产筛选提供可订制化的筛选模板，方便对不同资产组合进行定制；

4)资产筛选基于ORACLE位图索引，查询效率更高。

附图说明

图1是本发明一种基于大数据和ORACLE海量数据的资产筛选系统一种实施例的组成示意图。

图2是本发明一种基于大数据和ORACLE海量数据的资产筛选系统一种实施例的大数据加工模块的处理流程示意图。

图3是本发明一种基于大数据和ORACLE海量数据的资产筛选系统一种实施例的ORACLE数据存储模块的处理流程示意图。

图4是本发明一种基于大数据和ORACLE海量数据的资产筛选系统一种实施例的作业调度模块建立GLUE（Shell）类型任务的示意图。

图5是本发明一种基于大数据和ORACLE海量数据的资产筛选系统一种实施例的WEB应用模块中的资产筛选模板的示意图。

图6是利用图5的资产筛选模板进行资产筛选操作的示意图。

图7是本发明一种基于大数据和ORACLE海量数据的资产筛选系统一种实施例的WEB应用模块的处理流程示意图。

图8是本发明一种基于大数据和ORACLE海量数据的资产筛选系统一种实施例的WEB应用模块进行资产筛选业务的处理流程示意图。

图9是本发明一种基于大数据和ORACLE海量数据的资产筛选方法一种实施例的处理流程示意图。

具体实施方式

以下结合附图1-9，对本发明一种基于大数据和ORACLE海量数据的资产筛选系统和方法作进一步地说明。

如图1所示，为本发明一种基于大数据和ORACLE海量数据的资产筛选系统一种实施例的组成示意图，该系统包括大数据加工模块、ORACLE数据存储模块、作业调度模块和WEB应用模块。

大数据加工模块是基于Hadoop+Hive+HDFS构建的离线处理集群进行的离线数据加工，主要包括源数据抽取组件、Hadoop集群组件、Hive组件和加工调度脚本功能组件。

源数据抽取组件的功能和作用主要是抽取包含卡、账户、个人三个维度的信用卡资产最基本信息，订单和延滞、催收信息等信用卡资产证券化不同产品（例如分期订单类产品与不良资产产品）的资产附加信息，国家、地区、节假日、卡种类等各类参数信息，并逐行写入每条数据信息，各个字段用约定的间隔符进行间隔，并存储为以dat为后缀的文件。

Hadoop集群+Hive组件的功能和作用主要是基于Hadoop+Hive+HDFS，通过HiveSql写入海量数据到HDFS进行分布式存储，同时通过HiveSql对海量基础数据进行分析加工，得到按筛选项组装到一起的资产明细数据，并逐行写入每条资产明细数据、各个字段用约定的间隔符进行间隔，并存储为以dat为后缀的的文件。

加工调用脚本组件是一个shell作业调度脚本，逐步执行大数据加工模块的每个步骤，以供作业调度模块调用。

如图2所示，为本发明一种基于大数据和ORACLE海量数据的资产筛选系统一种实施例的大数据加工模块的处理流程示意图，从数据源系统-卡核心系统读取信用卡卡信息表、账户信息表、个人信息表，读取后按字段的指定分割符号，如\033分割，逐条记录顺序按行写入到指定的dat文件，并将该文件以ftp方式上传到大数据集群的连接终端上，大数据集群通过Hive SQL建立卡、户、人空表（分隔符与源系统的dat文件中的分隔符一致，即\033），然后通过Hadoop put 命令将dat文件写入到hive对应的卡、户、人表目录下，并通过Hive SQL 建立表分区。通过Hive SQL建立资产信息表-空表（指定分隔符为\033），并通过Hive SQL从卡、户、人表中取数进行加工并将结果插入到资产信息表，通过Hive SQL将资产信息表数据导出到dat文件；上述的读取源系统数据、写入dat文件、上传dat文件、调用hadoop集群命令进行数据加工的操作指令按顺序维护到shell脚本，并通过作业调度定时触发执行该shell脚本，从而实现系统定时加工数据的功能。

参照图1，ORACLE数据存储模块主要包含文件到达检查组件、Sqlldr的数据导入组件和位图索引组件。

文件到达检查组件主要是通过编写Shell文件检查脚本，循环检测大数据加工模块的结果文件是否到达文件数据导入调度脚本。

Sqlldr的数据导入组件主要应用了ORACLE的数据加载工具SQL*LOADER，通过该工具大数据加工模块产生的资产明细数据从dat文件迁移到ORACLE数据库中，因为处理的是海量数据，这里使用的是Sqlldr的PARALLEL并行模式进行并发导入数据。

位图索引组件主要是将筛选项根据需要添加ORACLE的位图索引，ORACLE的位图索引是一种高效的检索索引，适合查询场景，并且索引的列只有几个固定值，而依据信用卡资产证券化资产筛选项的特点，如性别、婚姻状态、教育程度等，正好契合该索引的特点，另外由于资产明细数据又是大数据加工后的数据进行写入后续无变化，能最大程度上发挥位图索引的优点，避开了位图索引的不适合频繁修改的缺点。

数据导入调度脚本组件是一个Shell作业调度脚本，逐步执行ORACLE数据存储模块的每个步骤，以供作业调度模块调用。

在一个实施例中，ORACLE数据存储模块的处理流程如图3，大数据加工的资产信息的dat文件通过ftp上传到Oracle终端服务器，通过调用Oracle的Sqlldr命令进行并行读取dat文件。在此之前，Oracle通过SQL建表语句建立资产信息表，字段与大数据的资产信息表一致，并为需要检索的字段建立位图索引，如性别、婚姻状态、教育程度等。由于资产信息数据量为千万级别，为加快速度，sqlldr增加语句skip_index_maintenance=true，这个语句的功能是在导入的时候忽略索引，在导入完成后，再重建索引。上述调用sqlldr命令读取dat文件、重建索引的操作指令按顺序维护到shell脚本，并通过作业调度定时触发执行该shell脚本，从而实现系统定时将资产信息数据存储到Oracle的功能。

作业调度模块主要通过配置对应调度脚本、调度时间来定时触发大数据加工与ORACLE数据导入。

作业调度模块主要是使用XXL-JOB任务调度框架搭建的分布式作业调度中心，通过配置任务对shell脚本进行调用。

例如先建立GLUE（Shell）类型任务,如图4所示，然后通过GLUE IDE 编写调用的shell脚本，如下：

#!/bin/bash

Echo "xxl-job:data process"

Ssh appuser@xx.xx.xx "/home/data_process.sh "

Exit 0

参照图1，WEB应用模块主要包含资产筛选模板组件、资产筛选组件、数据字典维护组件、Spring boot组件和Vue组件。

如图5所示，为本发明一种基于大数据和ORACLE海量数据的资产筛选系统一种实施例的WEB应用模块中的资产筛选模板的示意图，其中，资产筛选模板组件提供给用户进行定制资产筛选的筛选项的功能。

资产筛选组件可提供选择筛选模板并勾选筛选条件值进行筛选的功能，如图6所示。

资产筛选模板组件和资产筛选组件的组合能结合用户的需要根据不同的筛选模板对资产明细进行筛选。

数据字典维护组件，主要是对资产筛选项的字典值，即存储与展示的K-V映射关系进行维护。如下表的映射关系：

字典类型	字典类型名称	字典码(K)	展示名（V）	排序
					MARRY	婚姻状况	0	已婚	1
MARRY	婚姻状况	1	未婚	2
					MARRY	婚姻状况	2	其他	3
CARD_TYPE	卡片种类	0	世界卡	1
					CARD_TYPE	卡片种类	1	无限卡	2
CARD_TYPE	卡片种类	2	钻石卡	3
					CARD_TYPE	卡片种类	3	白金卡	4
CARD_TYPE	卡片种类	4	金卡	5
					CARD_TYPE	卡片种类	5	钛金卡	6
CARD_TYPE	卡片种类	6	普卡	7
					…	…	…	…	…

Springboot组件是Spring框架下的一个WEB应用框架，通过其集成的功能完成对资产筛选模板组件、资产筛选组件、数据字典维护组件请求的SQL化，然后连接ORACLE数据库进行增删查改并返回Json结果。

Vue组件是一套构建用户界面的框架，通过其集成的功能完成对资产筛选组件、数据字典维护组件的功能展示与交互操作。

WEB应用模块的各个模块的处理流程如图7所示,前台通过页面新增资产筛选模板保存需要进行筛选的字段，如婚姻状况、学历、卡片种类等。在加载筛选模块的时候根据筛选字段和筛选项字典展示筛选字段和供选择的筛选值，如婚姻状况-已婚，学历-本科，卡片种类-普卡，通过字典转换得到查询请求为MARRY-0,EDUCATION-2,CARD_TYPE-6，通过Springboot的web服务器将该请求转换为对应查询数据库表资产明细表的SQL语句查询并返回Json结果到展示页面，展示页面将结果回显到前台。

如图8所示，为本发明一种基于大数据和ORACLE海量数据的资产筛选系统一种实施例的WEB应用模块进行资产筛选业务的处理流程示意图，里面介绍了资产筛选业务处理流程。

如图9所示，为本发明一种基于大数据和ORACLE海量数据的资产筛选方法一种实施例的处理流程示意图，该基于大数据和ORACLE海量数据的资产筛选方法的具体操作为：

运行大数据加工模块，从数据源中抽取基础数据，进行基于Hadoop+Hive+HDFS构建的离线处理集群进行的离线数据加工，加工获得的数据上传到Oracle终端服务器；

需要说明的是，在本发明中，xx组件一般表示为包含xx结构或具有xx功能的组件，例如资产筛选模板组件包含资产筛选模板，资产筛选组件具有资产筛选功能，数据字典维护组件具有数据字典维护功能，Spring boot组件具有Spring boot功能，Vue组件具有Vue功能。

以下涉及到本发明中一些名词的解释。

1.资产证券化：由银行业金融机构作为发起人，将其持有的预期可产生未来现金流的信贷资产进行组合，信托给受托机构并实行破产隔离后，由受托机构以资产支持证券的形式向投资机构发行受益证券，以该财产所产生的现金流支付资产支持证券本息及相关费用的行为。

2.ORACLE：是一个面向 Internet 计算环境的数据库。它是在数据库领域一直处于领先地位的ORACLE（即甲骨文公司）的产品。可以说ORACLE关系数据库系统是目前世界上流行的关系数据库管理系统，系统可移植性好、使用方便、功能强，适用于各类大、中、小、微机环境。它是一种高效率、可靠性好的适应高吞吐量的数据库解决方案。

3.SAS：全称为Statistics Analysis System，是用于数据分析的与决策支持的大型集成信息应用软件系统，统计分析功能是它的重要组成部分和核心功能。

4.位图索引：指的是位图索引(bitmap index)技术，是一类特殊的数据库索引技术，其索引使用bit数组（或称bitmap、bit set、bit string、bit vector）进行存储与计算操作。

5.Hadoop:是由java语言编写的，在分布式服务器集群上存储海量数据并运行分布式分析应用的开源框架，其核心部件是HDFS与MapReduce。

6.HDFS: 是一个分布式文件系统：引入存放文件元数据信息的服务器Namenode和实际存放数据的服务器Datanode，对数据进行分布式储存和读取。

7.MapReduce: 是一个计算框架：MapReduce的核心思想是把计算任务分配给集群内的服务器里执行。通过对计算任务的拆分（Map计算/Reduce计算）再根据任务调度器（JobTracker）对任务进行分布式计算。

8.Hive:是基于Hadoop的一个数据仓库工具，用来进行数据提取、转化、加载，这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表，并提供SQL查询功能，能将SQL语句转变成MapReduce任务来执行。

9.Spring boot: 是用来简化Spring应用初始搭建以及开发过程的全新框架，通过为 Spring 平台及第三方库提供开箱即用的设置，开发人员通过少量的代码就能创建一个独立的、产品级别的 Spring 应用。

10.Vue: 是一套用于构建用户界面的渐进式JavaScript框架。Vue 只关注视图层，采用自底向上增量开发的设计。Vue 的目标是通过尽可能简单的 API 实现响应的数据绑定和组合的视图组件。

11.XXL-JOB：XXL-JOB是一个分布式任务调度平台，其核心设计目标是开发迅速、学习简单、轻量级、易扩展。现已开放源代码并接入多家公司线上产品线，开箱即用。支持以GLUE模式开发和运行脚本任务，包括Shell、Python、NodeJS、PHP、PowerShell等类型脚本。

最后应说明的是：以上所述仅为本发明的几个实施例而已，并不用于限制本发明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行调节，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于大数据和ORACLE海量数据的资产筛选系统，其特征在于，包括大数据加工模块、ORACLE数据存储模块、作业调度模块和WEB应用模块；

所述大数据加工模块包括源数据抽取组件、Hadoop集群组件、Hive组件和加工调度脚本组件；所述源数据抽取组件用于抽取包含卡、账户、个人三个维度的信用卡资产最基本信息，信用卡资产证券化不同产品的资产附加信息，国家、地区、节假日、卡种类的信息，并逐行写入每条数据；所述大数据加工模块能够基于Hadoop+Hive+HDFS构建的离线处理集群进行离线数据加工；

所述WEB应用模块能够接收所述ORACLE数据存储模块的数据，并输出能够直接被资产证券化管理系统使用的信息；

所述WEB应用模块包括资产筛选模板组件、资产筛选组件、数据字典维护组件、Springboot组件和Vue组件；

所述资产筛选模板组件能够提供给用户进行定制资产筛选的筛选项的功能；

所述资产筛选组件能提供选择筛选模板并勾选筛选条件值进行筛选的功能；

所述资产筛选模板组件和资产筛选组件的组合能结合用户的需要根据不同的筛选模板对资产明细进行筛选。

2.如权利要求1所述的基于大数据和ORACLE海量数据的资产筛选系统，其特征在于，所述Hadoop集群+Hive组件基于Hadoop+Hive+HDFS，通过HiveSql写入海量数据到HDFS进行分布式存储，同时通过HiveSql对海量基础数据进行分析加工，得到按筛选项组装到一起的资产明细数据，并逐行写入每条资产明细数据。

3.如权利要求1所述的基于大数据和ORACLE海量数据的资产筛选系统，其特征在于，所述ORACLE数据存储模块包含文件到达检查组件、Sqlldr的数据导入组件、位图索引组件和数据导入调度脚本组件。

4.如权利要求3所述的基于大数据和ORACLE海量数据的资产筛选系统，其特征在于，所述位图索引组件为筛选项根据需要添加ORACLE的位图索引。

5.如权利要求3所述的基于大数据和ORACLE海量数据的资产筛选系统，其特征在于，所述ORACLE数据存储模块的Sqlldr命令包含skip_index_maintenance＝true语句，在导入所述大数据加工模块加工好的数据时忽略索引，在导入完成后，再重建索引。

6.如权利要求1所述的基于大数据和ORACLE海量数据的资产筛选系统，其特征在于，所述Springboot组件是Spring框架下的WEB应用框架，通过其集成的功能完成对资产筛选模板、资产筛选、数据字典维护请求的SQL化，然后连接ORACLE数据库进行增删查改并返回Json结果。

7.一种采用如权利要求1-6任一所述基于大数据和ORACLE海量数据的资产筛选系统进行资产筛选的方法，其特征在于，包括如下的操作：