一种数据处理方法和装置
技术领域
本发明涉及信息技术领域,尤其涉及一种数据处理方法、装置、存储介质以及计算设备。
背景技术
发挥互联网和大数据等技术在金融机构业务流程改造、金融产品创新、内部风险控制以及企业增信和金融监管中的作用,完善各领域监管信息系统,建立金融监管信息共享交换平台,以健全风险监测预警和早期干预机制,加强对金融机构和金融活动的全流程、全链条动态监测预警,进而及时有效识别重大风险隐患,是目前对金融机构进行监管的趋势。
然而,由于目前没有可靠的非现场监管平台,地方金融政府监管部门对各金融机构进行业务监管仍然采用现场检查的方式,不仅需要花费大量人力,而且信息获取滞后、信息真实性不易核验等效率低下等问题,这对监管的及时性、有效性造成了很大障碍。
发明内容
本发明的一个目的是提供一种数据处理方法和装置,以解决现有的日志匹配方法浪费大量计算资源的问题。
根据本发明的第一方面,提供一种数据处理方法,包括:
通过官方数据接口采集各金融机构的业务源数据;
对所述业务源数据进行指标有效性核验,并基于预设的指标配置策略对通过指标有效性核验的业务源数据进行指标数据加工处理;
将进行指标数据加工处理后的业务源数据作为数据评估模型的输入数据,并计算输出业务监管评估信息。
进一步,所述通过官方数据接口采集各金融机构的业务源数据后,包括:
按照预设的第一核验规则对所述业务源数据进行数据规则核验,得到符合预设的第一核验规则中预设格式的业务源数据;
将符合预设的第一核验规则中预设格式的业务源数据执行对所述业务源数据进行指标有效性核验的步骤。
进一步,对所述业务源数据进行指标有效性核验,包括:
获取预设的指标列表,所述指标列表包括指标项;
根据所述指标列表中的指标项以及对应的核验规则项生成第二核验规则;
基于所述第二核验规则对所述业务源数据进行金融指标的有效性核验,确定匹配所述指标项对应核验规则项的业务源数据为通过有效性核验的合规指标数据。
进一步,基于预设的指标配置策略对通过指标有效性核验的业务源数据进行指标数据加工处理,包括:
获取所有用于生成数据指标的资产元数据;
基于所述资产元数据进行指标配置,并生成具有数据加工信息的指标配置策略;
根据所述指标配置策略匹配与所述业务源数据对应的数据加工信息,根据所述数据加工信息对所述业务源数据进行加工并生成指标数据。
进一步,基于所述第二核验规则对所述业务源数据进行有效性核验,所述方法包括:
若确定业务源数据未通过有效性核验,发送具有未通过有效性核验消息的核验通知信息。
进一步,所述方法还包括:
汇总统计所述业务监管评估信息,生成业务监管统计报表;
发送所述业务监管统计报表。
进一步,所述通过官方数据接口采集各金融机构的业务源数据包括:
通过应用程序接口、API数据接口、用户上传文件、用户填报数据中至少一种方式采集所述业务源数据。
根据本发明的第二方面,提供一种数据处理装置,包括:
数据获取模块,用于通过官方数据接口采集各金融机构的业务源数据;
数据加工模块,用于对所述业务源数据进行指标有效性核验,并基于预设的指标配置策略对通过指标有效性核验的业务源数据进行指标数据加工处理;
数据计算模块,用于将进行指标数据加工处理后的业务源数据作为数据评估模型的输入数据,并计算输出业务监管评估信息。
进一步,所述装置还包括第一核验模块,
用于按照预设的第一核验规则对所述业务源数据进行数据规则核验,得到符合预设的第一核验规则中预设格式的业务源数据;
将符合预设的第一核验规则中预设格式的业务源数据执行对所述业务源数据进行指标有效性核验的步骤。
进一步,所述数据加工模块,具体用于:
获取预设的指标列表,所述指标列表包括指标项;
根据所述指标列表中的指标项以及对应的核验规则项生成第二核验规则;
基于所述第二核验规则对所述业务源数据进行金融指标的有效性核验,确定匹配所述指标项对应核验规则项的业务源数据为通过有效性核验的合规指标数据。
进一步,所述数据加工模块,具体用于:
获取所有用于生成数据指标的资产元数据;
基于所述资产元数据进行指标配置,并生成具有数据加工信息的指标配置策略;
根据所述指标配置策略匹配与所述业务源数据对应的数据加工信息,根据所述数据加工信息对所述业务源数据进行加工并生成指标数据。
进一步,本发明所述的装置,还包括:
消息通知模块,用于若确定指标数据核验未通过,发送具有未通过核验消息的核验通知信息。
进一步,本发明所述的装置,还包括数据统计模块,用于:
汇总统计所述数据评估信息,生成统计报表;
发送所述统计报表。
进一步,所述数据获取模块具体用于:
通过应用程序接口、API数据接口、用户上传文件、用户填报数据中至少一种方式采集所述业务源数据。
根据本发明的第三方面,提供一种存储介质,所述存储介质存储计算机程序指令,所述计算机程序指令根据本发明所述的方法进行执行。
根据本发明的第四方面,提供一种计算设备,包括:用于存储计算机程序指令的存储器和用于执行计算机程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发所述计算设备执行本发明所述的方法。
本发明提供的数据处理方法和装置,通过官方数据接口采集各金融机构的业务源数据;对所述业务源数据进行指标有效性核验,并基于预设的指标配置策略对通过指标有效性核验的业务源数据进行指标数据加工处理;将进行指标数据加工处理后的业务源数据作为数据评估模型的输入数据,并计算输出业务监管评估信息。一方面可以使政府监管部门通过计算生成的数据评估信息对各被监管机构的数据进行监管,无需去往现场进行实地人为监管,节省大量人力,另一方面可以更加及时、高效的获取精确信息,极大地提升被监管机构的数据核验效率。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明实施例一的数据处理方法的流程示意图;
图2为本发明实施例一的数据处理系统架构示意图;
图3为本发明实施例二的数据处理方法的流程示意图;
图4为本发明实施例的数据处理装置的结构示意图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本发明作进一步详细描述。
图1为本发明实施例一的数据处理方法的流程示意图,数据处理方法可以应用于各类数据处理系统,如图1所示,本发明实施例一提供的数据处理方法,包括:
步骤S101,通过官方数据接口采集各金融机构的业务源数据;
步骤S102,对所述业务源数据进行指标有效性核验,并基于预设的指标配置策略对通过指标有效性核验的业务源数据进行指标数据加工处理;
步骤S103,将进行指标数据加工处理后的业务源数据作为数据评估模型的输入数据,并计算输出业务监管评估信息。
图2为本发明实施例一的数据处理系统架构示意图,如图2所示,数据处理系统架构可以包括基础设施层、平台服务层、应用支撑层、应用服务层和展现层。其中,基础设施层主要负责提供运维管理、资源监控、日志监控服务等基础设施和安全保障;平台服务层负责提供大数据平台、各种数据库服务以及相应的运维管理软件,例如数据采集平台,机器学习平台、数据分析平台、对象存储、缓存服务等等;应用支撑层提供应用所需的核心功能组件和中间件,例如规则引擎、工作流引擎以及信息发送服务等,以促进上层应用的快速开发;应用服务层则提供业务所需要的各种功能,如提供数据采集上报、综合监控、投诉举报服务等。
在步骤101中,通过官方数据接口采集各金融机构的业务源数据;
图3为本发明一实施例的数据处理流程示意图,参考图3所示,平台服务层的数据采集平台集成多方外部数据,并通过官方数据接口以多种方式获取多方业务源数据,如通过表格填报、文件上传、实时API(Application Programming Interface,应用程序接口)接口对接等方式。以金融机构监管业务为例,实际应用中,政府监管部门对各被监管机构的各种业务的金融数据进行监管时,被监管机构中地方类金融机构可以将通过线上表格填报、文件上传、实时API接口对接和前置代理等多种方式上报待监管的相关业务源数据,其中,互联网公开数据可以以实时API接口对接方式从外部数据服务平台获取相关业务源数据,政务机构或其他机构业务源数据可以采用实时API接口对接和数据库直连等多种方式接入获取。
由于政府监管部门采集的数据量巨大,在海量的待监管数据中会产生大量的脏数据,例如用户误填误报信息等情况导致产生的脏数据,为避免脏数据过多造成的计算资源浪费,处理效率低下等问题,通过官方数据接口采集各金融机构的业务源数据,还可以包括:按照预设的第一核验规则对业务源数据进行数据规则核验,得到符合预设的第一核验规则中预设格式的业务源数据;将符合预设的第一核验规则中预设格式的业务源数据执行步骤S102。
具体地,位于平台服务层的数据采集平台在采集到业务源数据过程中,通过第一核验规则对获取的业务源数据进行前置采集校验以对不符合要求的信息进行过滤。其中,预设的第一核验规则可以是根据金额范围、字符串格式、证件号码等数据项的格式而预先设定,也可以是根据有数字处理逻辑的多个数据项的表达式规则而设定,例如A1+A2==C1的逻辑表达式。
举例而言,当被监管机构通过线上表格填报业务数据信息时,例如表格中的公司统一信用代码预先设置的填报位数为18位的格式规则,当被监管机构填写的统一信用代码大于或小于18位,那么该上报的业务数据信息(统一信用代码)则不符合预设的第一核验规则中预设格式,可以提示错误信息,以过滤掉错误的数据。对于符合第一核验规则中预设格式的业务源数据,确定通过数据规则核验,执行步骤S102。
通过实时对业务源数据进行形式或表达式规则质量校验可以初步将可能存在的误填误报排除出去,并将通过核验的业务源数据进行上报存储,可以按照类别写入平台服务层数据库服务的关系数据库、NoSQL数据库和对象存储等,对于未通过校验的业务源数据将被视为上报失败,并反馈核验结果,以使用户根据需要进行上报。
步骤S102,对所述业务源数据进行指标有效性核验,并基于预设的指标配置策略对通过指标有效性核验的业务源数据进行指标数据加工处理。
在本发明一个实施例中,还包括:获取预设的指标列表;根据所述指标列表中的指标项以及对应的核验规则项生成第二核验规则。之后,可以基于第二核验规则对所述业务源数据进行指标有效性核验。
具体地,首先获取预设的指标列表,指标列表包括待配置的指标项,例如综合借款利率指标,人均借贷指标等,将指标列表中的指标项生成具有表达式和核验规则的预设的第二核验规则,用于确定业务源数据为待监管的指标数据,根据第二核验规则中对核验规则的配置,核验规则引擎会自动生成核验SQL语句,并提交给大数据平台,由大数据平台的任务调度系统在指定时间执行表间数据核验,以完成指标有效性核验,进而确定通过有效性核验的业务源数据,并将核验结果写回数据仓库,由应用层通过读取数据仓库获得核验结果进行相应处理;若确定业务源数据未通过指标有效性核验,则发送具有未通过核验消息的核验通知信息,向数据上报机构反馈核验结果。
进一步地,对于通过指标有效性校验的业务源数据,可以进行合规指标的加工和合规预警检查。具体可由数据集成平台同步到大数据平台基于ETL工具对通过指标有效性核验的业务源数据进行表间指标加工,进而通过数据清洗、转换后形成数据仓库中符合规范的中间层和应用层数据。
表间指标加工可以包括:获取所有用于生成数据指标的资产元数据;基于所述资产元数据进行指标配置,并生成具有数据加工信息的指标配置策略;根据所述指标配置策略匹配与所述业务源数据对应的数据加工信息,根据所述数据加工信息对所述业务源数据进行加工并生成指标数据。
具体地,表间指标加工可以由指标引擎完成,首先从数据仓库获取所有可以用于生成指标的资产元数据,该资产元数据可以是预先生成的,基于载入的资产元数据进行指标配置,其中,指标配置包括对指标名称、主体、客体、生成函数、累积时间窗口、时间字段等参数的配置,并根据该指标配置的各参数生成具有数据加工信息指标配置策略。指标引擎可根据指标配置策略自动生成对应的SQL(用于访问和处理数据库的标准的计算机语言)语句,通过Spark API发布执行该SQL的定时任务,Spark任务调度系统定时启动任务执行SQL,并生成对应的指标数据。
其中,上述对业务源数据进行加工还可以包括数据清洗、转换等多种方式进行,例如:
1、空值处理:根据业务需要,可以将空值替换为特定的值或者过滤掉;
2、验证数据正确性:将不符合业务含义的数据做一处理,比如,把一个表示数量的字段中的字符串替换为0,把一个日期字段的非日期字符串过滤掉;
3、规范数据格式:比如,把所有的日期都格式化成yyyy-MM-dd HH:mm:ss的格式等;
4、数据转码:把一个业务源数据中用编码表示的字段,通过关联编码表,转换成代表其真实意义的值等;
5、数据标准统一:比如在业务源数据中表示不同类别数据的方式有很多种,在抽取的时候,直接根据模型中定义的值做转化,统一表示各种类别。
当然,根据实际应用场景的不同还可以通过其他业务规则定义的数据清洗方式,本发明在此不做具体限定。
步骤S103,将进行指标数据加工处理后的业务源数据作为数据评估模型的输入数据,并计算输出业务监管评估信息。
根据指标配置策略匹配的数据加工信息对业务源数据进行加工后,生成指标数据存储到数据仓库,并可以将该指标数据作为数据评估模型的输入数据输入预先建立的数据评估模型进行计算,并输出业务监管评估信息。其中,该数据评估模型是通过训练生成的复杂模型,随着样本的增多而进化,相应地计算结果也会更为精准。
对于政府监管部门来说,通过官方系统平台采集被监管机构的各种业务源数据,并进行指标数据核验、加工为满足监管需求的指标数据,进而综合考虑指标数据中合规情况、司法涉诉、关联风险、工商风险、经营风险、舆情风险和资金风险等多个维度通过在线或离线对数据评估信息进行评分,完成自动化数据处理和评估计算,大大降低了人工操作负担,有效提高处理效率和处理能力,从而极大地提高了金融监管的及时性和有效性。
另外,为了实现评估结果的可视化,本公开实施例中还可以对评估信息进行汇总统计,并生成相应的统计报表,反馈至监管机构等业务用户,以使用户更为直观的了解被监管机构的综合情况,并且可以根据需要更为便捷的查看相应的重点内容,提升用户体验。
图4为本发明实施例的数据处理装置的结构示意图,如图4所示,本发明实施例的数据处理装置,包括数据获取模块41、数据加工模块42以及数据计算模块43,其中:
数据获取模块41,用于通过官方数据接口采集各金融机构的业务源数据;
数据加工模块42,用于对所述业务源数据进行指标有效性核验,并基于预设的指标配置策略对通过指标有效性核验的业务源数据进行指标数据加工处理;
数据计算模块43,用于将进行指标数据加工处理后的业务源数据作为数据评估模型的输入数据,并计算输出业务监管评估信息
在本发明一个实施例中,所述装置还包括:第一核验模块,
用于按照预设的第一核验规则对所述业务源数据进行数据规则核验,得到符合预设的第一核验规则中预设格式的业务源数据;
将符合预设的第一核验规则中预设格式的业务源数据执行对所述业务源数据进行指标有效性核验的步骤。
在本发明一个实施例中,数据加工模块,具体用于:
获取预设的指标列表,所述指标列表包括指标项;
根据所述指标列表中的指标项以及对应的核验规则项生成第二核验规则;
基于所述第二核验规则对所述业务源数据进行金融指标的有效性核验,确定匹配所述指标项对应核验规则项的业务源数据为通过有效性核验的合规指标数据。
在本发明一个实施例中,所述数据加工模块,具体用于:
获取所有用于生成数据指标的资产元数据;
基于所述资产元数据进行指标配置,并生成具有数据加工信息的指标配置策略;
根据所述指标配置策略匹配与所述业务源数据对应的数据加工信息,根据所述数据加工信息对所述业务源数据进行加工并生成指标数据。
在本发明一个实施例中,所述装置还包括:
消息通知模块,用于若确定指标数据核验未通过,发送具有未通过核验消息的核验通知信息。
在本发明一个实施例中,所述装置还包括数据统计模块,用于:
汇总统计所述数据评估信息,生成统计报表;
发送所述统计报表。
在本发明一个实施例中,所述数据获取模块具体用于:
通过应用程序接口、API数据接口、用户上传文件、用户填报数据中至少一种方式采集所述业务源数据。
本发明实施例图4所示装置为本发明实施例图1和图3所示方法的实现装置,其具体原理与本发明实施例图1和图3所示方法相同,此处不再赘述。
在本发明一个实施例中,还提供一种存储介质,所述存储介质存储计算机程序指令,所述计算机程序指令根据本发明实施例的方法进行执行。
在本发明一个典型的配置中,计算设备均包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
在本发明一个实施例中,还提供一种计算设备,包括:用于存储计算机程序指令的存储器和用于执行计算机程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发所述计算设备执行本发明实施例的方法。
在本发明一个典型的配置中,终端、服务网络的设备均包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读存储介质包括永久性和非永久性、可移动和非可移动媒体,可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的装置或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
需要注意的是,本发明可在软件和/或软件与硬件的组合体中被实施,例如,可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一些实施例中,本发明的软件程序可以通过处理器执行以实现上文步骤或功能。同样地,本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本发明的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。