CN112463799A - 数据提取方法、装置、设备及存储介质 - Google Patents
数据提取方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN112463799A CN112463799A CN202011453102.0A CN202011453102A CN112463799A CN 112463799 A CN112463799 A CN 112463799A CN 202011453102 A CN202011453102 A CN 202011453102A CN 112463799 A CN112463799 A CN 112463799A
- Authority
- CN
- China
- Prior art keywords
- data
- standard format
- preset
- type
- original
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000013075 data extraction Methods 0.000 title claims abstract description 40
- 238000012545 processing Methods 0.000 claims abstract description 64
- 238000000605 extraction Methods 0.000 claims abstract description 43
- 230000015654 memory Effects 0.000 claims description 30
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000003672 processing method Methods 0.000 claims description 2
- 239000000126 substance Substances 0.000 claims description 2
- 230000008859 change Effects 0.000 abstract description 4
- 238000013475 authorization Methods 0.000 description 21
- 238000009825 accumulation Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 239000004973 liquid crystal related substance Substances 0.000 description 4
- 238000012502 risk assessment Methods 0.000 description 4
- 230000006399 behavior Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013499 data model Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000011144 upstream manufacturing Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000000329 smooth muscle myocyte Anatomy 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/14—Error detection or correction of the data by redundancy in operation
- G06F11/1402—Saving, restoring, recovering or retrying
- G06F11/1446—Point-in-time backing up or restoration of persistent data
- G06F11/1448—Management of the data involved in backup or backup restore
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
- G06F16/24578—Query processing with adaptation to user needs using ranking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/602—Providing cryptographic facilities or services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Software Systems (AREA)
- Marketing (AREA)
- Health & Medical Sciences (AREA)
- Technology Law (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Development Economics (AREA)
- Computational Linguistics (AREA)
- General Business, Economics & Management (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Quality & Reliability (AREA)
- Storage Device Security (AREA)
Abstract
本发明涉及数据处理领域,提供了一种数据提取方法、装置、设备及存储介质。所述方法包括:每隔预设时间段从预设消息队列中获取原始数据及该原始数据的数据类型;基于所述原始数据的数据类型将所述原始数据转换为标准格式数据,对所述标准格式数据中的敏感信息执行加密操作,将加密后的标准格式数据存储至预设数据库的第一数据表中;基于标准格式数据的数据类型,加载该数据类型对应的提取规则,基于所述提取规则提取出所述标准格式数据的特征指标数据。本发明可以将数据的标准化和特征指标提取解耦,实现数据的快速接入,降低编程复杂度,从而快速响应业务变化。
Description
技术领域
本发明涉及数据处理领域,尤其涉及一种数据提取方法、装置、设备及存储介质。
背景技术
在应用于个人信贷产品的智能风控系统中,需要从多个维度来分析用户的经济状况,预测用户的还款能力,还款意愿以及欺诈风险。如需要分析用户的年龄,学历,职业,家庭,征信信息等等。
目前系统主要有用户自行填写的数据、经用户授权获取到的第三方数据、或者经用户授权收集到的用户行为数据,然而这些原始数据无法直接用来作为特征指标,且同一类信息可能有很多不同的授权渠道,导致同类信息的原始数据不同,由于用户基数大及数据种类多样化等因素,系统需要处理大量的数据,且处理的数据与其它相关的系统依赖较强,导致数据处理的速度较慢。
发明内容
鉴于以上内容,本发明提供一种数据提取方法、装置、设备及存储介质,其目的在于解决现有技术中提取特征指标值时,数据处理速度较慢的技术问题。
为实现上述目的,本发明提供一种数据提取方法,该方法包括:
每隔预设时间段从预设消息队列中获取原始数据及该原始数据的数据类型;
基于所述原始数据的数据类型将所述原始数据转换为标准格式数据,对所述标准格式数据中的敏感信息执行加密操作,将加密后的标准格式数据存储至预设数据库的第一数据表中;
基于标准格式数据的数据类型,加载该数据类型对应的提取规则,基于所述提取规则提取出所述标准格式数据的特征指标数据。
优选的,所述获取原始数据及该原始数据的数据类型之后,所述方法还包括:
根据预设的配置信息判断是否需要对所述原始数据执行备份操作及存储操作,当判断需要对所述原始数据执行备份操作时,将所述原始数据发送至所述消息队列的预设备份路径;
当判断需要对所述原始数据执行存储操作时,将所述原始数据中的敏感信息执行加密操作,将加密后的原始数据存储至预设数据库的第二数据表中。
优选的,所述基于所述原始数据的数据类型将所述原始数据转换为标准格式数据之后,所述方法还包括:
判断所述标准格式数据中是否存在预设类型的数据,当判断所述标准格式数据中存在预设类型的数据时,将所述预设类型的数据发送至所述消息队列中。
优选的,所述基于所述提取规则提取出所述标准格式数据的特征指标数据之后,所述方法还包括:
根据所述特征指标数据对应的原始数据的消息头判断是否需要将特征指标数据发送至预设存储路径,若是,将所述特征指标数据发送至预设存储路径。
优选的,所述对所述标准格式数据中的敏感信息执行加密操作包括:
根据预先配置的加密配置表获取需要执行加密操作的敏感信息,对所述敏感信息执行加密操作,其中,所述加密配置表记录了需要加密的字段。
为实现上述目的,本发明还提供一种数据提取装置,该数据提取装置包括:
获取模块:用于每隔预设时间段从预设消息队列中获取原始数据及该原始数据的数据类型;
转换模块:用于基于所述原始数据的数据类型将所述原始数据转换为标准格式数据,对所述标准格式数据中的敏感信息执行加密操作,将加密后的标准格式数据存储至预设数据库的第一数据表中;
提取模块:用于基于标准格式数据的数据类型,加载该数据类型对应的提取规则,基于所述提取规则提取出所述标准格式数据的特征指标数据。
为实现上述目的,本发明还提供一种电子设备,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的程序,所述程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行如下步骤:
每隔预设时间段从预设消息队列中获取原始数据及该原始数据的数据类型;
基于所述原始数据的数据类型将所述原始数据转换为标准格式数据,对所述标准格式数据中的敏感信息执行加密操作,将加密后的标准格式数据存储至预设数据库的第一数据表中;
基于标准格式数据的数据类型,加载该数据类型对应的提取规则,基于所述提取规则提取出所述标准格式数据的特征指标数据。
优选的,所述获取原始数据及该原始数据的数据类型之后,还包括如下步骤:
根据预设的配置信息判断是否需要对所述原始数据执行备份操作及存储操作,当判断需要对所述原始数据执行备份操作时,将所述原始数据发送至所述消息队列的预设备份路径;
当判断需要对所述原始数据执行存储操作时,将所述原始数据中的敏感信息执行加密操作,将加密后的原始数据存储至预设数据库的第二数据表中。
优选的,所述基于所述原始数据的数据类型将所述原始数据转换为标准格式数据之后,还包括如下步骤:
判断所述标准格式数据中是否存在预设类型的数据,当判断所述标准格式数据中存在预设类型的数据时,将所述预设类型的数据发送至所述消息队列中。
为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有数据提取程序,所述数据提取程序被处理器执行时,实现如上所述数据提取方法的任意步骤。
本发明提出的数据提取方法、装置、设备及存储介质,只需要将不同来源的数据做标准化处理以及特征数据提取便可完成某一类数据的计算,极大的减少了代码的复杂度以及工作量,当需要接入某类新渠道的数据,开发对应的数据标准化类就可以顺利完成数据的提取处理,由于系统经常需要调整风控指标的计算逻辑,只需要修改特征数据提取逻辑即可。将数据的标准化和特征指标提取解耦,可以做到数据的快速接入,降低编程复杂度,快速响应业务变化。
附图说明
图1为本发明数据提取方法较佳实施例的流程图示意图;
图2为本发明数据提取装置较佳实施例的模块示意图;
图3为本发明电子设备较佳实施例的示意图;
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供一种数据提取方法。参照图1所示,为本发明数据提取方法的实施例的方法流程示意图。该方法可以由一个电子设备执行,该电子设备可以由软件和/或硬件实现。数据提取方法包括:
步骤S10:每隔预设时间段从预设消息队列中获取原始数据及该原始数据的数据类型。
本方案的应用场景可以是从多个数据源获取的数据中提取出特征指标数据用于风险评估。需要说明的是,本方案的实际应用场景并不仅限于此。在个人信贷产品的风控系统中,需要从多个维度来分析用户的经济状况,来预测用户的还款能力、还款意愿以及欺诈风险。例如,需要分析用户的年龄,学历,职业,家庭,资产,负债,社保信息,公积金信息,人行征信信息等。
获取用户信息主要有3大类的数据源:用户自行填写的贷款申请数据,经用户授权获取到的第三方数据,经用户授权收集到的用户行为数据。这些原始数据无法直接用来作为风控特征指标,且同一类信息可能有很多不同的授权渠道,导致同类信息的原始数据不同。例如,公积金数据,A用户选择授权了K1来源的数据A1,B用户选择授权了K2来源的数据A2,对风控系统来说需要将不同数据源的同类数据处理为统一的数据格式,再从统一格式的数据中提取出相关的特征指标数据用于风险评估。
在本实施例中,上游系统在实时获取到用户的授权数据后,根据授权数据的特征构造相应的消息头,授权数据放入消息体,将授权数据发送到消息队列(例如,Kafka对应Topic),可以实现系统之间的解耦。之后,监听Kafka中相应Topic中的授权数据,Topic是Kafka数据写入操作的基本单元,采用微型批处理的方式每预设时间段(例如,x毫秒)获取一批授权数据作为原始数据进行处理。
在一个实施例中,所述获取原始数据及该原始数据的数据类型之后,所述方法还包括:
根据预设的配置信息判断是否需要对所述原始数据执行备份操作及存储操作,当判断需要对所述原始数据执行备份操作时,将所述原始数据发送至所述消息队列的预设备份路径(例如,Kafka备份Topic);
当判断需要对所述原始数据执行存储操作时,将所述原始数据中的敏感信息执行加密操作,将加密后的原始数据存储至预设数据库的第二数据表中。
预设的配置信息可以是根据具体的业务需求进行配置,配置中心存储了一个无需备份的数据类型的列表,该列表中的数据类型无需备份,其余数据默认需做备份处理。将数据发送至Kafka备份Topic中,由另一个辅助系统负责将数据写入HDFS,可以将HDFS写入操作与数据处理解耦,提升数据处理的速度。敏感信息可以是用户身份证号,手机号,地址等个人隐私数据,预设数据库的第二数据表可以是指cassandra对应的原始数据表。
步骤S20:基于所述原始数据的数据类型将所述原始数据转换为标准格式数据,对所述标准格式数据中的敏感信息执行加密操作,将加密后的标准格式数据存储至预设数据库的第一数据表中。
在本实施例中,根据原始数据的数据类型将原始数据转化为标准格式数据,例如,公司内部统一的公积金数据格式,社保数据格式等等。对原始数据标准化操作之后,将标准格式数据中的敏感信息加密后再将整条标准格式数据存储至cassandra对应的标准化数据表中。
在一个实施例中,所述对所述标准格式数据中的敏感信息执行加密操作包括:
根据预先配置的加密配置表获取需要执行加密操作的敏感信息,对所述敏感信息执行加密操作,其中,所述加密配置表记录了需要加密的字段。
敏感信息可以是用户身份证号、手机号、地址等个人隐私数据。可以根据预先配置的加密配置表判断是否需要对数据进行加密,加密配置表中记录了哪个表中的哪些字段需要加密处理,在存储数据时会先判断该表中是否存在加密配置表对应的信息,若有,将敏感信息加密后将整条标准格式数据存储至数据库。在读取数据时,读取数据后会判断读取的数据是否有加密配置表对应的信息,若有,将数据解密后再返回。该加解密操作是通过系统的代理模式处理,业务处理无需关注该操作,需要加解密的数据只需要在加密配置表中配置好即可。
在一个实施例中,所述基于所述原始数据的数据类型将所述原始数据转换为标准格式数据之后,所述方法还包括:
判断所述标准格式数据中是否存在预设类型的数据,当判断所述标准格式数据中存在预设类型的数据时,将所述预设类型的数据发送至所述消息队列中。
如果标准格式数据中包含有用于某类数据搜索的信息(例如,地址信息),将该用于数据搜索的信息提取之后,发送到Kafka搜索Topic的消息队列中,由另外的辅助系统将数据写入搜索服务器(例如,Elastic Search)用于信息搜索,可以将Elastic Search的写入操作与数据处理解耦,进一步的提升数据处理的速度。
步骤S30:基于标准格式数据的数据类型,加载该数据类型对应的提取规则,基于所述提取规则提取出所述标准格式数据的特征指标数据。
在本实施例中,据标准化后的标准格式数据的数据类型,加载对应的特征指标提取规则来提取特征指标数据,其中,特征指标提取规则对应不同的特征指标提取处理类,每种类型的标准格式数据与特征指标提取处理类有对应的映射关系。
数据类型对应的处理类最终会生成一个数据的model,根据该model加载对应的特征指标提取处理类。该提取处理类在定义时会声明处理哪个数据model,系统启动时会扫描特定命名规范的提取处理类,将model跟处理类的对应关系放入map加载到内存中,后续直接从内存该map中根据model获取其特征处理类,系统加载对应的特征指标提取处理类,提取出对应的风控特征指标数据,将该数据中的敏感信息加密后再将数据写入cassandra中的特征指标数据表中。该表中的数据为系统进行风控决策的重要参考数据。
在一个实施例中,所述基于所述提取规则提取出所述标准格式数据的特征指标数据之后,所述方法还包括:
根据所述特征指标数据对应的原始数据的消息头判断是否需要将特征指标数据发送至预设存储路径,若是,将所述特征指标数据发送至预设存储路径。
预设存储路径可以是指下游系统(例如,需要根据特征指标数据进行评估的系统)的某个存储路径。
消息头中包含原始数据的数据类型,可以根据数据类型确定是否需要将特征指标数据发送至下游系统,需要发送至下游系统的特征指标数据的数据类型可以根据实际的业务需求预先配置,例如,处理公积金数据需要回调,则头信息需要包含数据类型、数据序列ID、回调数据对应的Kafka的Topic名称、回调参数。处理通讯录数据无需回调,则头信息需要包含数据类型、数据序列ID。
本方案的数据标准化处理、特征数据提取处理只需要将不同来源的数据做标准化处理以及特征数据提取便可完成某一类数据的计算,极大的减少了代码的复杂度以及工作量,当需要接入某类新渠道的数据,只需要开发对应的数据标准化类就可以顺利完成数据的处理。由于系统经常需要调整风控指标的计算逻辑,只需要修改特征数据提取逻辑即可。将数据的标准化和风控特征指标提取分离开,可以做到数据的快速接入,降低编程复杂度,快速响应业务变化。
在风控系统后续数据处理中,其它系统根据标准化后的数据做分析处理,极大的降低了数据处理的复杂度,提升整体系统的处理能力。基于spark流处理的分布式计算架构,易于水平扩容缩容,可以根据数据量的大小调整计算节点的数量,达到资源的有效利用,实现系统的高可用,高性能,高并发。通过将HDFS写操作,Elastic Search写操作与数据处理解耦,大大提升了系统的处理速度,使得系统能在毫秒级内完成特征指标的提取,配合其它系统在秒级内输出风控结果。
参照图2所示,为本发明数据提取装置100的功能模块示意图。
本发明所述数据提取装置100可以安装于电子设备中。根据实现的功能,所述数据提取装置100可以包括获取模块110、转换模块120及提取模块130。本发明所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
在本实施例中,关于各模块/单元的功能如下:
获取模块110,用于每隔预设时间段从预设消息队列中获取原始数据及该原始数据的数据类型。
本方案的应用场景可以是从多个数据源获取的数据中提取出特征指标数据用于风险评估。需要说明的是,本方案的实际应用场景并不仅限于此。在个人信贷产品的风控系统中,需要从多个维度来分析用户的经济状况,来预测用户的还款能力、还款意愿以及欺诈风险。例如,需要分析用户的年龄,学历,职业,家庭,资产,负债,社保信息,公积金信息,人行征信信息等。
获取用户信息主要有3大类的数据源:用户自行填写的贷款申请数据,经用户授权获取到的第三方数据,经用户授权收集到的用户行为数据。这些原始数据无法直接用来作为风控特征指标,且同一类信息可能有很多不同的授权渠道,导致同类信息的原始数据不同。例如,公积金数据,A用户选择授权了K1来源的数据A1,B用户选择授权了K2来源的数据A2,对风控系统来说需要将不同数据源的同类数据处理为统一的数据格式,再从统一格式的数据中提取出相关的特征指标数据用于风险评估。
在本实施例中,上游系统在实时获取到用户的授权数据后,根据授权数据的特征构造相应的消息头,授权数据放入消息体,将授权数据发送到消息队列(例如,Kafka对应Topic),可以实现系统之间的解耦。之后,监听Kafka中相应Topic中的授权数据,Topic是Kafka数据写入操作的基本单元,采用微型批处理的方式每预设时间段(例如,x毫秒)获取一批授权数据作为原始数据进行处理。
在一个实施例中,所述获取原始数据及该原始数据的数据类型之后,所述方法还包括:
根据预设的配置信息判断是否需要对所述原始数据执行备份操作及存储操作,当判断需要对所述原始数据执行备份操作时,将所述原始数据发送至所述消息队列的预设备份路径(例如,Kafka备份Topic);
当判断需要对所述原始数据执行存储操作时,将所述原始数据中的敏感信息执行加密操作,将加密后的原始数据存储至预设数据库的第二数据表中。
预设的配置信息可以是根据具体的业务需求进行配置,配置中心存储了一个无需备份的数据类型的列表,该列表中的数据类型无需备份,其余数据默认需做备份处理。将数据发送至Kafka备份Topic中,由另一个辅助系统负责将数据写入HDFS,可以将HDFS写入操作与数据处理解耦,提升数据处理的速度。敏感信息可以是用户身份证号,手机号,地址等个人隐私数据,预设数据库的第二数据表可以是指cassandra对应的原始数据表。
转换模块120,用于基于所述原始数据的数据类型将所述原始数据转换为标准格式数据,对所述标准格式数据中的敏感信息执行加密操作,将加密后的标准格式数据存储至预设数据库的第一数据表中。
在本实施例中,根据原始数据的数据类型将原始数据转化为标准格式数据,例如,公司内部统一的公积金数据格式,社保数据格式等等。对原始数据标准化操作之后,将标准格式数据中的敏感信息加密后再将整条标准格式数据存储至cassandra对应的标准化数据表中。
在一个实施例中,所述对所述标准格式数据中的敏感信息执行加密操作包括:
根据预先配置的加密配置表获取需要执行加密操作的敏感信息,对所述敏感信息执行加密操作,其中,所述加密配置表记录了需要加密的字段。
敏感信息可以是用户身份证号、手机号、地址等个人隐私数据。可以根据预先配置的加密配置表判断是否需要对数据进行加密,加密配置表中记录了哪个表中的哪些字段需要加密处理,在存储数据时会先判断该表中是否存在加密配置表对应的信息,若有,将敏感信息加密后将整条标准格式数据存储至数据库。在读取数据时,读取数据后会判断读取的数据是否有加密配置表对应的信息,若有,将数据解密后再返回。该加解密操作是通过系统的代理模式处理,业务处理无需关注该操作,需要加解密的数据只需要在加密配置表中配置好即可。
在一个实施例中,所述基于所述原始数据的数据类型将所述原始数据转换为标准格式数据之后,所述方法还包括:
判断所述标准格式数据中是否存在预设类型的数据,当判断所述标准格式数据中存在预设类型的数据时,将所述预设类型的数据发送至所述消息队列中。
如果标准格式数据中包含有用于某类数据搜索的信息(例如,地址信息),将该用于数据搜索的信息提取之后,发送到Kafka搜索Topic的消息队列中,由另外的辅助系统将数据写入搜索服务器(例如,Elastic Search)用于信息搜索,可以将Elastic Search的写入操作与数据处理解耦,进一步的提升数据处理的速度。
提取模块130,用于基于标准格式数据的数据类型,加载该数据类型对应的提取规则,基于所述提取规则提取出所述标准格式数据的特征指标数据。
在本实施例中,据标准化后的标准格式数据的数据类型,加载对应的特征指标提取规则来提取特征指标数据,其中,特征指标提取规则对应不同的特征指标提取处理类,每种类型的标准格式数据与特征指标提取处理类有对应的映射关系。
数据类型对应的处理类最终会生成一个数据的model,根据该model加载对应的特征指标提取处理类。该提取处理类在定义时会声明处理哪个数据model,系统启动时会扫描特定命名规范的提取处理类,将model跟处理类的对应关系放入map加载到内存中,后续直接从内存该map中根据model获取其特征处理类,系统加载对应的特征指标提取处理类,提取出对应的风控特征指标数据,将该数据中的敏感信息加密后再将数据写入cassandra中的特征指标数据表中。该表中的数据为系统进行风控决策的重要参考数据。
在一个实施例中,所述基于所述提取规则提取出所述标准格式数据的特征指标数据之后,所述方法还包括:
根据所述特征指标数据对应的原始数据的消息头判断是否需要将特征指标数据发送至预设存储路径,若是,将所述特征指标数据发送至预设存储路径。
预设存储路径可以是指下游系统(例如,需要根据特征指标数据进行评估的系统)的某个存储路径。
消息头中包含原始数据的数据类型,可以根据数据类型确定是否需要将特征指标数据发送至下游系统,需要发送至下游系统的特征指标数据的数据类型可以根据实际的业务需求预先配置,例如,处理公积金数据需要回调,则头信息需要包含数据类型、数据序列ID、回调数据对应的Kafka的Topic名称、回调参数。处理通讯录数据无需回调,则头信息需要包含数据类型、数据序列ID。
本方案的数据标准化处理、特征数据提取处理只需要将不同来源的数据做标准化处理以及特征数据提取便可完成某一类数据的计算,极大的减少了代码的复杂度以及工作量,当需要接入某类新渠道的数据,只需要开发对应的数据标准化类就可以顺利完成数据的处理。由于系统经常需要调整风控指标的计算逻辑,只需要修改特征数据提取逻辑即可。将数据的标准化和风控特征指标提取分离开,可以做到数据的快速接入,降低编程复杂度,快速响应业务变化。
在风控系统后续数据处理中,其它系统根据标准化后的数据做分析处理,极大的降低了数据处理的复杂度,提升整体系统的处理能力。基于spark流处理的分布式计算架构,易于水平扩容缩容,可以根据数据量的大小调整计算节点的数量,达到资源的有效利用,实现系统的高可用,高性能,高并发。通过将HDFS写操作,Elastic Search写操作与数据处理解耦,大大提升了系统的处理速度,使得系统能在毫秒级内完成特征指标的提取,配合其它系统在秒级内输出风控结果。
参照图3所示,为本发明电子设备1较佳实施例的示意图。
该电子设备1包括但不限于:存储器11、处理器12、显示器13及网络接口14。所述电子设备1通过网络接口14连接网络,获取原始数据。其中,所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobilecommunication,GSM)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi、通话网络等无线或有线网络。
其中,存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器11可以是所述电子设备1的内部存储单元,例如该电子设备1的硬盘或内存。在另一些实施例中,所述存储器11也可以是所述电子设备1的外部存储设备,例如该电子设备1配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,所述存储器11还可以既包括所述电子设备1的内部存储单元也包括其外部存储设备。本实施例中,存储器11通常用于存储安装于所述电子设备1的操作系统和各类应用软件,例如数据提取程序10的程序代码等。此外,存储器11还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器12在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器12通常用于控制所述电子设备1的总体操作,例如执行数据交互或者通信相关的控制和处理等。本实施例中,所述处理器12用于运行所述存储器11中存储的程序代码或者处理数据,例如运行数据提取程序10的程序代码等。
显示器13可以称为显示屏或显示单元。在一些实施例中显示器13可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-EmittingDiode,OLED)触摸器等。显示器13用于显示在电子设备1中处理的信息以及用于显示可视化的工作界面,例如显示数据统计的结果。
网络接口14可选地可以包括标准的有线接口、无线接口(如WI-FI接口),该网络接口14通常用于在所述电子设备1与其它电子设备之间建立通信连接。
图3仅示出了具有组件11-14以及数据提取程序10的电子设备1,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
可选地,所述电子设备1还可以包括用户接口,用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard),可选的用户接口还可以包括标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode,OLED)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。
该电子设备1还可以包括射频(Radio Frequency,RF)电路、传感器和音频电路等等,在此不再赘述。
在上述实施例中,处理器12执行存储器11中存储的数据提取程序10时可以实现如下步骤:
每隔预设时间段从预设消息队列中获取原始数据及该原始数据的数据类型;
基于所述原始数据的数据类型将所述原始数据转换为标准格式数据,对所述标准格式数据中的敏感信息执行加密操作,将加密后的标准格式数据存储至预设数据库的第一数据表中;
基于标准格式数据的数据类型,加载该数据类型对应的提取规则,基于所述提取规则提取出所述标准格式数据的特征指标数据。
所述存储设备可以为电子设备1的存储器11,也可以为与电子设备1通讯连接的其它存储设备。
关于上述步骤的详细介绍,请参照上述图2关于数据提取装置100实施例的功能模块图以及图1关于数据提取方法实施例的流程图的说明。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质可以是非易失性的,也可以是易失性的。该计算机可读存储介质可以是硬盘、多媒体卡、SD卡、闪存卡、SMC、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器等等中的任意一种或者几种的任意组合。所述计算机可读存储介质中包括存储数据区和存储程序区,存储数据区存储根据区块链节点的使用所创建的数据,存储程序区存储有数据提取程序10,所述数据提取程序10被处理器执行时实现如下操作:
每隔预设时间段从预设消息队列中获取原始数据及该原始数据的数据类型;
基于所述原始数据的数据类型将所述原始数据转换为标准格式数据,对所述标准格式数据中的敏感信息执行加密操作,将加密后的标准格式数据存储至预设数据库的第一数据表中;
基于标准格式数据的数据类型,加载该数据类型对应的提取规则,基于所述提取规则提取出所述标准格式数据的特征指标数据。
本发明之计算机可读存储介质的具体实施方式与上述数据提取方法的具体实施方式大致相同,在此不再赘述。
需要说明的是,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,电子装置,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种数据提取方法,其特征在于,所述方法包括:
每隔预设时间段从预设消息队列中获取原始数据及该原始数据的数据类型;
基于所述原始数据的数据类型将所述原始数据转换为标准格式数据,对所述标准格式数据中的敏感信息执行加密操作,将加密后的标准格式数据存储至预设数据库的第一数据表中;
基于标准格式数据的数据类型,加载该数据类型对应的提取规则,基于所述提取规则提取出所述标准格式数据的特征指标数据。
2.如权利要求1所述的数据提取方法,其特征在于,所述获取原始数据及该原始数据的数据类型之后,所述方法还包括:
根据预设的配置信息判断是否需要对所述原始数据执行备份操作及存储操作,当判断需要对所述原始数据执行备份操作时,将所述原始数据发送至所述消息队列的预设备份路径;
当判断需要对所述原始数据执行存储操作时,将所述原始数据中的敏感信息执行加密操作,将加密后的原始数据存储至预设数据库的第二数据表中。
3.如权利要求1所述的数据提取方法,其特征在于,所述基于所述原始数据的数据类型将所述原始数据转换为标准格式数据之后,所述方法还包括:
判断所述标准格式数据中是否存在预设类型的数据,当判断所述标准格式数据中存在预设类型的数据时,将所述预设类型的数据发送至所述消息队列中。
4.如权利要求1所述的数据提取方法,其特征在于,所述基于所述提取规则提取出所述标准格式数据的特征指标数据之后,所述方法还包括:
根据所述特征指标数据对应的原始数据的消息头判断是否需要将特征指标数据发送至预设存储路径,若是,将所述特征指标数据发送至预设存储路径。
5.如权利要求1所述的数据提取方法,其特征在于,所述对所述标准格式数据中的敏感信息执行加密操作包括:
根据预先配置的加密配置表获取需要执行加密操作的敏感信息,对所述敏感信息执行加密操作,其中,所述加密配置表记录了需要加密的字段。
6.一种数据提取装置,其特征在于,所述装置包括:
获取模块:用于每隔预设时间段从预设消息队列中获取原始数据及该原始数据的数据类型;
转换模块:用于基于所述原始数据的数据类型将所述原始数据转换为标准格式数据,对所述标准格式数据中的敏感信息执行加密操作,将加密后的标准格式数据存储至预设数据库的第一数据表中;
提取模块:用于基于标准格式数据的数据类型,加载该数据类型对应的提取规则,基于所述提取规则提取出所述标准格式数据的特征指标数据。
7.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的程序,所述程序被所述至少一个处理器执行,以使所述至少一个处理器执行如下步骤:
每隔预设时间段从预设消息队列中获取原始数据及该原始数据的数据类型;
基于所述原始数据的数据类型将所述原始数据转换为标准格式数据,对所述标准格式数据中的敏感信息执行加密操作,将加密后的标准格式数据存储至预设数据库的第一数据表中;
基于标准格式数据的数据类型,加载该数据类型对应的提取规则,基于所述提取规则提取出所述标准格式数据的特征指标数据。
8.如权利要求7所述的电子设备,其特征在于,所述获取原始数据及该原始数据的数据类型之后,还包括如下步骤:
根据预设的配置信息判断是否需要对所述原始数据执行备份操作及存储操作,当判断需要对所述原始数据执行备份操作时,将所述原始数据发送至所述消息队列的预设备份路径;
当判断需要对所述原始数据执行存储操作时,将所述原始数据中的敏感信息执行加密操作,将加密后的原始数据存储至预设数据库的第二数据表中。
9.如权利要求7所述的电子设备,其特征在于,所述基于所述原始数据的数据类型将所述原始数据转换为标准格式数据之后,还包括如下步骤:
判断所述标准格式数据中是否存在预设类型的数据,当判断所述标准格式数据中存在预设类型的数据时,将所述预设类型的数据发送至所述消息队列中。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有数据提取程序,所述数据提取程序被处理器执行时,实现如权利要求1至5中任一项所述数据提取方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011453102.0A CN112463799A (zh) | 2020-12-11 | 2020-12-11 | 数据提取方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011453102.0A CN112463799A (zh) | 2020-12-11 | 2020-12-11 | 数据提取方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112463799A true CN112463799A (zh) | 2021-03-09 |
Family
ID=74800711
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011453102.0A Pending CN112463799A (zh) | 2020-12-11 | 2020-12-11 | 数据提取方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112463799A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115037462A (zh) * | 2022-05-31 | 2022-09-09 | 江苏保旺达软件技术有限公司 | 一种搜索服务器启动方法、装置、电子设备及存储介质 |
US11880803B1 (en) * | 2022-12-19 | 2024-01-23 | Tbk Bank, Ssb | System and method for data mapping and transformation |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109614401A (zh) * | 2018-12-06 | 2019-04-12 | 航天恒星科技有限公司 | 基于ElasticSearch和Hbase技术的网络传输数据存储系统 |
CN110348239A (zh) * | 2019-06-13 | 2019-10-18 | 平安普惠企业管理有限公司 | 脱敏规则配置方法以及数据脱敏方法、系统、计算机设备 |
CN111522805A (zh) * | 2020-04-23 | 2020-08-11 | 中国银行股份有限公司 | 分布式批量数据清理方法及系统 |
CN111782690A (zh) * | 2019-04-04 | 2020-10-16 | 上海晶赞融宣科技有限公司 | 多源异构数据的汇聚方法及装置、存储介质、终端 |
WO2020211344A1 (zh) * | 2019-04-17 | 2020-10-22 | 平安科技(深圳)有限公司 | 一种基于mqtt的消息分发方法、服务器、装置及存储介质 |
CN111813770A (zh) * | 2020-09-03 | 2020-10-23 | 平安国际智慧城市科技股份有限公司 | 数据模型的构建方法、装置及计算机可读存储介质 |
-
2020
- 2020-12-11 CN CN202011453102.0A patent/CN112463799A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109614401A (zh) * | 2018-12-06 | 2019-04-12 | 航天恒星科技有限公司 | 基于ElasticSearch和Hbase技术的网络传输数据存储系统 |
CN111782690A (zh) * | 2019-04-04 | 2020-10-16 | 上海晶赞融宣科技有限公司 | 多源异构数据的汇聚方法及装置、存储介质、终端 |
WO2020211344A1 (zh) * | 2019-04-17 | 2020-10-22 | 平安科技(深圳)有限公司 | 一种基于mqtt的消息分发方法、服务器、装置及存储介质 |
CN110348239A (zh) * | 2019-06-13 | 2019-10-18 | 平安普惠企业管理有限公司 | 脱敏规则配置方法以及数据脱敏方法、系统、计算机设备 |
CN111522805A (zh) * | 2020-04-23 | 2020-08-11 | 中国银行股份有限公司 | 分布式批量数据清理方法及系统 |
CN111813770A (zh) * | 2020-09-03 | 2020-10-23 | 平安国际智慧城市科技股份有限公司 | 数据模型的构建方法、装置及计算机可读存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115037462A (zh) * | 2022-05-31 | 2022-09-09 | 江苏保旺达软件技术有限公司 | 一种搜索服务器启动方法、装置、电子设备及存储介质 |
US11880803B1 (en) * | 2022-12-19 | 2024-01-23 | Tbk Bank, Ssb | System and method for data mapping and transformation |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107844634B (zh) | 多元通用模型平台建模方法、电子设备及计算机可读存储介质 | |
CN109474578B (zh) | 报文消息校验方法、装置、计算机设备和存储介质 | |
CN110674188A (zh) | 一种特征提取方法、装置及设备 | |
CN112463799A (zh) | 数据提取方法、装置、设备及存储介质 | |
CN109542764B (zh) | 网页自动化测试方法、装置、计算机设备和存储介质 | |
CN112017007A (zh) | 用户行为数据的处理方法及装置、计算机设备、存储介质 | |
CN113254445A (zh) | 实时数据存储方法、装置、计算机设备及存储介质 | |
CN111241803A (zh) | 生成文本文件的方法、装置、计算机设备及可读存储介质 | |
US10097588B2 (en) | Method and system for configuring simple kernel access control policy for android-based mobile terminal | |
CN115712422A (zh) | 表单页面的生成方法、装置、计算机设备及存储介质 | |
CN114186976A (zh) | 工作流程流转方法、装置、计算机设备及存储介质 | |
CN113032647A (zh) | 数据分析系统 | |
CN113435950A (zh) | 票据处理方法及装置 | |
CN113297358A (zh) | 数据处理方法、装置、服务器和计算机可读存储介质 | |
CN112381514A (zh) | 业务数据的提醒方法、装置和服务器 | |
CN116643884A (zh) | 基于规则引擎的数据计算方法、装置、设备及存储介质 | |
CN117251159A (zh) | 规则页面生成方法、装置、计算机设备及存储介质 | |
CN115756630A (zh) | 插件处理方法、装置、计算机设备及存储介质 | |
CN115080045A (zh) | 链路生成方法、装置、计算机设备及存储介质 | |
CN116821210A (zh) | 黑名单查询方法、装置、计算机设备及存储介质 | |
CN115526731A (zh) | 任务批处理方法、装置、计算机设备及存储介质 | |
CN116932486A (zh) | 文件生成方法、装置、计算机设备及存储介质 | |
CN117251468A (zh) | 查询处理方法、装置、计算机设备及存储介质 | |
CN117056629A (zh) | 缓存配置方法、装置、计算机设备及存储介质 | |
CN117251490A (zh) | 数据查询方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |