CN112364264A - 一种风险防控方法、装置及设备 - Google Patents

一种风险防控方法、装置及设备 Download PDF

Info

Publication number
CN112364264A
CN112364264A CN202011359371.0A CN202011359371A CN112364264A CN 112364264 A CN112364264 A CN 112364264A CN 202011359371 A CN202011359371 A CN 202011359371A CN 112364264 A CN112364264 A CN 112364264A
Authority
CN
China
Prior art keywords
query
target object
data
sub
time period
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011359371.0A
Other languages
English (en)
Other versions
CN112364264B (zh
Inventor
刘龙历
于仰泉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202011359371.0A priority Critical patent/CN112364264B/zh
Publication of CN112364264A publication Critical patent/CN112364264A/zh
Application granted granted Critical
Publication of CN112364264B publication Critical patent/CN112364264B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/38Payment protocols; Details thereof
    • G06Q20/40Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
    • G06Q20/401Transaction verification
    • G06Q20/4016Transaction verification involving fraud or risk level assessment in transaction processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Accounting & Taxation (AREA)
  • Computing Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书实施例公开了一种风险防控方法、装置及设备,该方法包括:获取待查询的目标对象的标识、查询时间段和查询任务标识;基于预设的第一单位时长,将所述查询时间段划分为一个或多个子查询时段,所述查询时间段对应的时长不小于所述第一单位时长;基于所述目标对象的标识和所述查询任务标识,从数据以每个所述第一单位时长进行聚合存储的数据库中获取每个所述子查询时段对应的所述目标对象的行为数据的聚合结果;通过增量式归并算法对所述子查询时段对应的所述目标对象的行为数据的聚合结果进行归并计算,得到所述目标对象在所述查询时间段内的行为特征,以进行针对所述目标对象的风险防控。

Description

一种风险防控方法、装置及设备
技术领域
本说明书涉及计算机技术领域,尤其涉及一种风险防控方法、装置及设备。
背景技术
随着互联网金融业务需求以及业务量的不断增加,交易中的目标对象越来越丰富,目标对象的风险类型也越来越多样,为了应对多样的风险形势,可以采取多维度的特征对交易中目标对象的行为进行刻画,其中需要多维度的目标对象所具有的属性信息,并需要对目标对象的行为特征进行累积。而上述统计指标无法对目标对象的行为特征的波动性进行刻画,例如对目标对象的高频且有规律的访问某个URL地址的行为特征进行刻画,而类似的行为特征的波动性刻画对某些风险防控效果的提升具有显著作用。
对目标对象的行为特征的波动性进行刻画,就需要解决计算的数据量和时效问题,对目标对象的高频且有规律的行为特征进行刻画的情况下,如果是在数据量较小的场景下,则可以直接通过SQL语句查询相应的数据,进而基于查询的数据确定目标对象的行为特征。但是在大数据场景下,上述通过SQL语句的方式无法满足实际需求,而如果采用将目标对象的所有行为明细数据进行存储,然后再基于存储的行为明细数据进行统计计算的方式,在大数据场景下,数据存储的压力较大,而且需要消耗大量的计算资源,数据累积的时效性降低,基于此,需要提供一种能够对大数据场景下的高频且有规律的行为特征进行刻画,以提高风险识别和风险防控的时效性。
发明内容
本说明书实施例的目的是提供一种终端设备的设备指纹的获取准确性更高的技术方案。
为了实现上述技术方案,本说明书实施例是这样实现的:
本说明书实施例提供的一种风险防控方法,所述方法包括:获取待查询的目标对象的标识、查询时间段和查询任务标识。基于预设的第一单位时长,将所述查询时间段划分为一个或多个子查询时段,所述查询时间段对应的时长不小于所述第一单位时长。基于所述目标对象的标识和所述查询任务标识,从数据以每个所述第一单位时长进行聚合存储的数据库中获取每个所述子查询时段对应的所述目标对象的行为数据的聚合结果。通过增量式归并算法对所述子查询时段对应的所述目标对象的行为数据的聚合结果进行归并计算,得到所述目标对象在所述查询时间段内的行为特征,以进行针对所述目标对象的风险防控。
本说明书实施例提供的一种风险防控装置,所述装置包括:信息获取模块,获取待查询的目标对象的标识、查询时间段和查询任务标识。时间拆分模块,基于预设的第一单位时长,将所述查询时间段划分为一个或多个子查询时段,所述查询时间段对应的时长不小于所述第一单位时长。聚合结果获取模块,基于所述目标对象的标识和所述查询任务标识,从数据以每个所述第一单位时长进行聚合存储的数据库中获取每个所述子查询时段对应的所述目标对象的行为数据的聚合结果。增量计算模块,通过增量式归并算法对所述子查询时段对应的所述目标对象的行为数据的聚合结果进行归并计算,得到所述目标对象在所述查询时间段内的行为特征,以进行针对所述目标对象的风险防控。
本说明书实施例提供的一种风险防控设备,包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:获取待查询的目标对象的标识、查询时间段和查询任务标识。基于预设的第一单位时长,将所述查询时间段划分为一个或多个子查询时段,所述查询时间段对应的时长不小于所述第一单位时长。基于所述目标对象的标识和所述查询任务标识,从数据以每个所述第一单位时长进行聚合存储的数据库中获取每个所述子查询时段对应的所述目标对象的行为数据的聚合结果。通过增量式归并算法对所述子查询时段对应的所述目标对象的行为数据的聚合结果进行归并计算,得到所述目标对象在所述查询时间段内的行为特征,以进行针对所述目标对象的风险防控。
本说明书实施例还提供了一种存储介质,其中,所述存储介质用于存储计算机可执行指令,所述可执行指令在被执行时实现以下流程:获取待查询的目标对象的标识、查询时间段和查询任务标识。基于预设的第一单位时长,将所述查询时间段划分为一个或多个子查询时段,所述查询时间段对应的时长不小于所述第一单位时长。基于所述目标对象的标识和所述查询任务标识,从数据以每个所述第一单位时长进行聚合存储的数据库中获取每个所述子查询时段对应的所述目标对象的行为数据的聚合结果。通过增量式归并算法对所述子查询时段对应的所述目标对象的行为数据的聚合结果进行归并计算,得到所述目标对象在所述查询时间段内的行为特征,以进行针对所述目标对象的风险防控。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1A为本说明书一种风险防控方法实施例;
图1B为本说明书一种风险防控过程的示意图;
图2为本说明书一种风险防控的系统的结构示意图;
图3为本说明书另一种风险防控过程的示意图;
图4为本说明书又一种风险防控过程的示意图;
图5为本说明书又一种风险防控过程的示意图;
图6为本说明书一种风险防控装置实施例;
图7为本说明书一种风险防控设备实施例。
具体实施方式
本说明书实施例提供一种风险防控方法、装置及设备。
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
实施例一
如图1A和图1B所示,本说明书实施例提供一种风险防控方法,该方法的执行主体可以为服务器或终端设备,其中,该终端设备可以如笔记本电脑或台式电脑等计算机设备,还可以如手机或平板电脑等移动终端设备。该服务器可以是为某项业务(如进行交易的业务或金融业务等)或可以记录某对象的行为的后台服务器,具体如,该服务器可以是支付业务的服务器,也可以是与金融或即时通讯等相关业务的服务器等。本实施例中的执行主体以服务器为例进行说明,对于执行主体为终端设备的情况,可以参见下述相关内容,在此不再赘述。该方法具体可以包括以下步骤:
在步骤S102中,获取待查询的目标对象的标识、查询时间段和查询任务标识。
其中,目标对象可以是任意需要查询的对象,在实际应用中,目标对象可以包括多种,例如在交易场景下,目标对象可以是某商户或某买方,或者,目标对象可以是某账户等,再例如在数据访问场景下,目标对象可以是数据访问方或数据提供方,或者,目标对象也可以是某账户等,具体可以根据是情况设定,本说明书实施例对此不做限定。目标对象的标识可以是目标对象的名称或目标对象的编码等,具体可以根据实际情况设定。查询任务标识可以是当前查询任务的名称或当前查询任务的编码等,其中的查询任务可以是每次查询数据的任务。查询时间段可以根据实际情况设定,例如当前时刻之前的1天,或者,也可以是当前时刻之前的12小时(如4:00:00-16:00:00)等。
在实施中,随着互联网金融业务需求以及业务量的不断增加,交易中的目标对象越来越丰富,目标对象的风险类型也越来越多样,为了应对多样的风险形势,可以采取多维度的特征对交易中目标对象的行为进行刻画,其中需要多维度的目标对象所具有的属性信息,如交易金额、地址、目标对象是否通过认证等,此外,也需要对目标对象的行为特征进行累积,如涉及的金额的求和、金额的平均值,交易对象(或赌博风险对象等)的个数等统计信息。而上述统计指标无法对目标对象的行为特征的波动性进行刻画,例如对目标对象的高频且有规律的访问某个URL地址的行为特征进行刻画,而类似的行为特征的波动性刻画对某些风险防控效果的提升具有显著作用。而对目标对象的行为特征的波动性进行刻画,就需要解决计算的数据量和时效问题,对目标对象的高频且有规律的行为特征进行刻画的情况下,如果是在数据量较小的场景下,则可以直接通过SQL语句查询相应的数据,进而基于查询的数据确定目标对象的行为特征。但是在大数据场景下,上述通过SQL语句的方式无法满足实际需求,而如果采用将目标对象的所有行为明细数据进行存储,然后再基于存储的行为明细数据进行统计计算的方式,在大数据场景下,数据存储的压力较大,而且需要消耗大量的计算资源,数据累积的时效性降低,基于此,需要提供一种能够对大数据场景下的高频且有规律的行为特征进行刻画,以提高风险识别和风险防控的时效性。本说明书实施例提供一种可选的处理方式,具体可以包括以下内容:
在大数据场景下,当需要对目标对象在某时间段内高频且有规律的行为特征进行刻画时,可以对数据的查询参数进行分析,从中可以确定针对目标对象和上述时间段所需要使用的查询参数,此外,针对不同的查询对象可以预先设置相应的查询任务标识,如任务ID,具体如200或150等。基于此,可以获取目标对象的标识和目标对象对应的查询任务标识,以及所需要查询的查询时间段等。
需要说明的是,可以通过多种方式触发执行对目标对象在某时间段内高频且有规律的行为特征进行刻画的处理,例如每当到达指定的周期时,触发执行对目标对象在某时间段内高频且有规律的行为特征进行刻画的处理,或者,当目标对象被举报或被投诉后,管理方可以触发执行对目标对象在某时间段内高频且有规律的行为特征进行刻画的处理等,具体可以根据实际情况设定,本说明书实施例对此不做限定。
在步骤S104中,基于预设的第一单位时长,将上述查询时间段划分为一个或多个子查询时段,该查询时间段对应的时长不小于上述第一单位时长。
其中,第一单位时长可以根据实际情况设定,例如1小时、1分钟、1天、3小时、2分钟、2天等。子查询时段可以是将查询时间段划分为一个或个组成部分而得到的时间段,例如查询时间段可以为1天(即24小时),则子查询时段可以是每个小时的时间段,具体如,查询时间段为4:00:00-16:00:00,子查询时段可以包括4:00:00-5:00:00、5:00:00-6:00:00、6:00:00-7:00:00、7:00:00-8:00:00、8:00:00-9:00:00、9:00:00-10:00:00、10:00:00-11:00:00、11:00:00-12:00:00、12:00:00-13:00:00、13:00:00-14:00:00、14:00:00-15:00:00、15:00:00-16:00:00。
在实施中,为了减少对目标对象的行为数据的存储,同时提高数据累积的时效性,可以预先设置一个第一单位时长,该第一单位时长相对较小,可以将目标对象的行为数据划分为多个不同的部分,每一个部分对应的时长即为上述第一单位时长,即可以记录目标对象的行为数据,每隔第一单位时长,将该第一单位时长内的行为数据划分为一组。基于上述处理,也可以基于预设的第一单位时长,将上述查询时间段划分为一个或多个子查询时段,例如,第一单位时长为1小时,查询时间段可以为某一具体日期的一天,这样,可以将上述一具体日期的一天内的24小时划分为24个子查询时段,从而后续可以从上述预先设置的第一单位时长的相关数据中获取所需要的子查询时段的数据,这样不仅可以减少对目标对象的行为数据的存储压力,还可以提高数据累积的时效性。
在步骤S106中,基于目标对象的标识和上述查询任务标识,从数据以每个上述第一单位时长进行聚合存储的数据库中获取每个子查询时段对应的目标对象的行为数据的聚合结果。
其中,行为数据的聚合结果可以是基于目标对象的行为数据进行聚合处理而得到的相应信息,该聚合结果可以包括多种,例如可以包括第一单位时长内的行为数据对应的特征值的和、第一单位时长内的行为数据对应的特征值的平均值、第一单位时长内的行为数据对应的特征值的方差、第一单位时长内的行为数据对应的特征值的平方和、第一单位时长内的行为数据对应的特征值的平方差中的一项或多项等,具体可以根据实际情况设定,本说明书实施例对此不做限定。数据库可以是预先设定的数据库,该数据库可以是分布式存储系统中的数据库,具体可以根据实际情况设定。
在实施中,基于上述内容,为了减少对目标对象的行为数据的存储,同时提高数据累积的时效性,可以记录目标对象的行为数据,每隔第一单位时长,将该第一单位时长内的行为数据划分为一组,同时,可以对每一组行为数据进行聚合处理,从而得到如第一单位时长内的行为数据对应的特征值的和、第一单位时长内的行为数据对应的特征值的平均值、第一单位时长内的行为数据对应的特征值的方差、第一单位时长内的行为数据对应的特征值的平方和、第一单位时长内的行为数据对应的特征值的平方差中的一项或多项等聚合结果,可以将上述聚合结果存储于预设的数据库中。其中,数据库中存储的聚合结果可以与目标对象的标识和上述查询任务标识对应存储,可以如表1所示。
表1
对象标识_任务标识 聚合结果
对象A_100 聚合结果1
对象B_200 聚合结果2
对象C_300 聚合结果3
如图2所示,通过上述方式得到目标对象的标识和上述查询任务标识后,可以通过目标对象的标识和上述查询任务标识,在上述如表1所示的数据库中查找其中是否包括目标对象的标识和上述查询任务标识,如果该数据库中包括目标对象的标识和上述查询任务标识,则可以基于上述表1所示的数据库中查找目标对象的标识和上述查询任务标识对应的聚合结果,具体如,如果通过上述方式得到的目标对象的标识和上述查询任务标识为对象B_200,则基于上述表1所示的对应关系,可以查找到对象B_200对应的聚合结果,即聚合结果2。通过上述方式,可以基于目标对象的标识和上述查询任务标识,从数据库中获取每个子查询时段对应的目标对象的行为数据的聚合结果。
在步骤S108中,通过增量式归并算法对上述子查询时段对应的目标对象的行为数据的聚合结果进行归并计算,得到目标对象在查询时间段内的行为特征,以进行针对目标对象的风险防控。
其中,增量式归并算法可以是通过增量的方式进行聚合计算对应的算法,增量式归并算法可以包括多种,具体可以根据实际情况设定,本说明书是手里对此不做限定。
在实施中,通过上述方式得到每个子查询时段对应的目标对象的行为数据的聚合结果后,由于聚合结果可能是多个不同的子查询时段对应的聚合结果,因此,若需要得到查询时间段内的行为特征,可以对多个不同的子查询时段对应的聚合结果进行归并计算,即可以通过增量式归并算法对上述一个或多个不同的子查询时段对应的目标对象的行为数据的聚合结果进行归并计算,其中在进行归并计算的过程中,可以先任意选取两个相邻的子查询时段,然后,通过增量式归并算法对上述两个相邻的子查询时段对应的目标对象的行为数据的聚合结果进行归并计算,得到第一归并结果,之后,可以获取与第一归并结果对应的查询时段相邻的一个子查询时段对应的目标对象的行为数据的聚合结果,可以将其与第一归并结果通过增量式归并算法进行归并计算,得到第二归并结果,依据此方式依次通过增量式归并算法进行归并计算,最终可以得到查询时间段内的归并结果,可以将得到的查询时间段内的归并结果作为目标对象在查询时间段内的行为特征,后续,可以基于目标对象在查询时间段内的行为特征进行针对目标对象的风险防控处理,具体可以根据实际情况设定,本说明书实施例对此不做限定。
本说明书实施例提供一种风险防控方法,获取待查询的目标对象的标识、查询时间段和查询任务标识,基于预设的第一单位时长,将查询时间段划分为一个或多个子查询时段,该查询时间段对应的时长不小于第一单位时长,然后,可以基于目标对象的标识和查询任务标识,从数据以每个第一单位时长进行聚合存储的数据库中获取每个子查询时段对应的目标对象的行为数据的聚合结果,通过增量式归并算法对子查询时段对应的目标对象的行为数据的聚合结果进行归并计算,得到目标对象在查询时间段内的行为特征,这样,通过子查询时段的聚合结果基于归并方式得到查询时间段内目标对象的累积结果,从而可以大大降低数据存储压力和存储成本,提高累积计算效率和累积的时效性,为大数据场景下目标对象的高频且有规律的行为特征的刻画提供了可行的实现方案,满足实时的风险防控的需求。此外,对于查询时间段内目标对象的行为特征的刻画,只需要查询有限个数的子查询时段的聚合结果,在内存中进行增量归并计算,而不需要查询明细的行为数据进行累积计算,大大提高了计算效率,而且,子查询时段的聚合结果是基于实时数据流聚合得到的,具有较高的累积时效性。
实施例二
如图3所示,本说明书实施例提供一种风险防控方法,该方法的执行主体可以为服务器或终端设备,其中,该终端设备可以如笔记本电脑或台式电脑等计算机设备,还可以如手机或平板电脑等移动终端设备。该服务器可以是为某项业务(如进行交易的业务或金融业务等)或可以记录某对象的行为的后台服务器,具体如,该服务器可以是支付业务的服务器,也可以是与金融或即时通讯等相关业务的服务器等。本实施例中的执行主体以服务器为例进行说明,对于执行主体为终端设备的情况,可以参见下述相关内容,在此不再赘述。该方法具体可以包括以下步骤:
在步骤S302中,获取针对目标对象的数据聚合消息。
在实施中,实际应用中,还可以通过基于明细数据和指定时长的累积结果的方式对目标对象的高频且有规律的行为特征进行刻画,具体如,可以基于velocity的累积,具体地,该方式需要在业务处理的低峰期,基于累积的目标对象和相应的参数,对目标对象的明细的行为数据进行定时扫描,进而得到相应的累积结果,并将该累积结果存储在指定时长的累积结果中,而由于行为数据的累积结果只有在低峰期得到,则在低峰期之前就需要存储该明细的行为数据,但是指定时长的明细的行为数据必然会占用一定的存储空间,且对于上述累积结果的查询,如果指定时长内的行为数据较多,则势必会对进行累积计算的设备带来一定的处理压力,而如果限制明细的行为数据的数量,又会使得最终的累积结果存在一定的损失,而且,其累积的方式为在业务处理的低峰期执行,因此无法做到准实时累积。基于此,本实施例提供不需要存储目标对象的明细的行为数据即可实现对目标对象的高频且有规律的行为特征进行刻画的目的,同时还可以实现准实时累积或实时累积。
具体地,用户在触发执行某项业务的过程中,服务器可以记录用户在执行该项业务的过程中产生的行为数据。如果需要对某对象的行为数据进行聚合处理,则发起方可以生成针对目标对象的数据聚合消息,需要说明的是,上述处理在实际应用中可以通过多种方式实现,例如,可以向发起方提供订阅实时数据源的服务入口,发起方可以通过该服务入口向服务器发起订阅实时数据源的通知消息,该通知消息即可以为上述数据聚合消息。该数据聚合消息中可以包括目标对象的标识,此外,还可以包括如业务标识、需要进行聚合处理的时间段和订阅的数据源的相关信息(如数据源的标识或数据源所处的地址等)等,具体可以根据实际情况设定。
在步骤S304中,从预设的数据源中获取针对目标对象及每个第二单位时长采集的待聚合数据,并从待聚合数据中提取目标对象的标识和目标对象的属性信息,该属性信息中包括上述查询任务标识。
其中,第二单位时长不大于第一单位时长。数据源可以是产生针对目标对象的行为数据的数据源,该数据源可以包括一个,也可以包括多个,具体可以根据实际情况设定,本说明书实施例对此不做限定。
在实施中,当获取到订阅实时数据源的通知信息(即数据聚合消息)时,可以确定需要使用的数据源,然后,可以分别从每个订阅的数据源中获取该数据源实时产生的目标对象的行为数据,为了减小数据的处理压力以及明细的行为数据的存储压力,可以设置相对较小的第二单位时长(如1分钟、10分钟或1小时等),该第二单位时长可以根据当前所处理的业务的情况设定,也可以根据专家经验进行设定等,具体可以根据实际情况设定,本说明书实施例对此不做限定。在获取该数据源实时产生的目标对象的行为数据的过程中,可以在接收到该数据聚合消息时开始计时,每隔第二单位时长,获取该第二单位时长内从数据源采集的目标对象的行为数据(该行为数据即为待聚合数据),此时,如果从数据源实时获取到新的行为数据,可以作为下一个第二单位时长内采集的行为数据,然后,可以对当前第二单位时长内的待聚合数据进行分析,从中提取目标对象的标识和目标对象的属性信息,该属性信息中可以包括上述查询任务标识等。
在步骤S306中,基于目标对象的标识和目标对象的属性信息,通过增量式归并算法对第二单位时长采集的待聚合数据进行归并计算,得到一个或多个第一单位时长采集的待聚合数据对应的聚合结果,将一个或多个第一单位时长采集的待聚合数据对应的聚合结果存储于数据库中。
在实施中,可以以第二单位时长采集的待聚合数据作为一个整体,这样可以最先得到2个第二单位时长采集的待聚合数据,然后,可以根据数据的采集时间对2个第二单位时长采集的待聚合数据进行排序,根据排序后的顺序,并依次将排在后面的一个第二单位时长采集的待聚合数据作为增量,基于增量式归并算法分别对第二单位时长采集的待聚合数据进行归并计算得到2个第二单位时长采集的待聚合数据对应的聚合结果,具体地,最先得到的2个第二单位时长采集的待聚合数据可以分别为第一待聚合数据和第二待聚合数据,可以基于第一待聚合数据中包含的数据的数量、第二待聚合数据中包含的数据的数量、第一待聚合数据中包含的数据的特征值的和、第二子待聚合数据中包含的数据的特征值的和、第一待聚合数据中包含的数据的特征值的平均值、第二待聚合数据中包含的数据的特征值的平均值、第一待聚合数据中包含的数据的特征值的方差、第二待聚合数据中包含的数据的特征值的方差,通过增量式归并算法对第待聚合数据和第二待聚合数据进行聚合计算,得到第一待聚合数据和第二待聚合数据的聚合结果。得到第一待聚合数据和第二待聚合数据的聚合结果后,可以将第一待聚合数据和第二待聚合数据删除或丢弃,之后,可以继续从数据源中获取针对目标对象的下一个第二单位时长采集的待聚合数据,可以将该第二单位时长采集的待聚合数据作为增量,基于该增量与上述聚合结果,通过增量式归并算法对该增量与上述聚合结果进行聚合计算,得到3个第二单位时长采集的待聚合数据对应的聚合结果,删除该第二单位时长采集的待聚合数据,以此类推,直到满足需要进行聚合处理的时间段(如第一单位时长)或获取到取消订阅实时数据源的消息为止,最终数据库中没有存储大量的明细的行为数据,而仅是存储了多个第一单位时长采集的行为数据对应的聚合结果。通过上述方式得到的每个第一单位时长采集的行为数据对应的聚合结果可以与目标对象的标识和目标对象的属性信息对应存储于数据库中。
在步骤S308中,获取待查询的目标对象的标识、查询时间段和查询任务标识。
在步骤S310中,基于预设的第一单位时长,将查询时间段划分为一个或多个子查询时段,该查询时间段对应的时长不小于第一单位时长。
其中,第一单位时长可以为N小时,查询时间段对应的时长可以为KN小时,其中,K和N分别为正整数,具体如,第一单位时长为1小时,查询时间段对应的时长为1天(即24小时)。子查询时段对应的时长可以与第一单位时长相同,也可以与第一单位时长不同(例如子查询时段对应的时长可以为第一单位时长的整数倍等),具体可以根据实际情况设定,本说明书实施例对此不做限定。本实施例中可以以子查询时段对应的时长与第一单位时长相同为例进行说明。
在步骤S312中,基于目标对象的标识和查询任务标识,从数据以每个第一单位时长进行聚合存储的数据库中获取每个子查询时段对应的目标对象的行为数据的聚合结果。
在实施中,该数据库中存储的数据是上述步骤S302~步骤S306中的多个第一单位时长采集的行为数据对应的聚合结果,且多个第一单位时长采集的行为数据对应的聚合结果分别与目标对象的标识和目标对象的属性信息对应存储,因此,可以基于目标对象的标识和查询任务标识,可以在上述数据库中查找到每个子查询时段对应的目标对象的行为数据的聚合结果。
在步骤S314中,通过增量式归并算法对上述子查询时段对应的目标对象的行为数据的聚合结果进行归并计算,得到在上述查询时间段内目标对象的行为的波动性信息。
在实施中,目标对象的行为特征可以通过多种方式体现,而对于高频且有规律的行为特征的刻画也可以通过多种方式体现,本实施例中可以通过目标对象的行为的波动性信息来对目标对象的高频且有规律的行为特征进行刻画,其中,目标对象的行为的波动性信息也可以通过多种方式体现,例如方差、平均值或期望值等,具体可以根据实际情况设定,具体处理过程可以根据所采用的方式,通过该方式对应的计算过程确定目标对象的行为的波动性信息。以下提供一种可选的处理方式,具体可以参见下述步骤A2~步骤A4的处理。
在步骤A2中,通过增量式归并算法对上述子查询时段对应的目标对象的行为数据的聚合结果进行归并计算,得到上述查询时间段对应的方差。
在实施中,目标对象的行为的波动性信息可以采用方差或标准差来体现,方差的计算公式可以如下:
Figure BDA0002803538300000121
Figure BDA0002803538300000122
其中,S表示标准差,x1、x2、x3…xn分别表示行为数据或上述聚合结果等,x表示x1、x2、x3…xn的平均值。针对增量计算,如果采用上述公式(1),则获取到新的一条行为数据或获取到新的聚合结果,都需要重新计算相应的方差,且该方式需要存储每一条明细的行为数据,因此,为了便于流式计算中的增量计算,可以采用上述公式(2)的算法确定相应的方差,这样,每次获取到新的一条行为数据或获取到新的聚合结果时,只需要计算获取到新的一条行为数据或获取到新的聚合结果对应的相关数值,并与之前计算的数值进行加减运算即可得到相应的数值,从而提高计算效率。
对于增量式归并算法,可以定义中间变量:C、S、A、V,其中C表示一个集合中的元素的个数,S为该集合中的所有元素的和,A为该集合中的所有元素的均值,V为该集合中所有元素的方差。对于时长较大的查询时间段,可以将查询时间段划分为多个子查询时段,每个子查询时段内包含的目标对象的每条行为数据的聚合结果组成的集合作为一个子集,若查询时间段包括n个子查询时段,则将有n个子集,可以分别为X1,X2,X3…Xn。假设子集Xi的中间变量分别为Ci,Si,Ai,Vi,子集Xj的中间变量分别为Cj,Sj,Aj,Vj,则子集Xi和子集Xj进行归并计算后的方差计算公式如下:
Figure BDA0002803538300000123
其中,i为不大于n的正整数,j为不大于n的正整数,且i与j不相同。依据上述增量计算公式(3),可以从子查询时段维度的方差计算结果,归并计算得到查询时间段维度的方差结果。
上述步骤A2的具体处理过程可以多种多样,以下提供一种可选的处理方式具体可以包括以下内容:该子查询时段包括多个,其中包括第一子查询时段和第二子查询时段,第一子查询时段和第二子查询时段为多个子查询时段中的任意时间段相邻的两个子查询时段,则基于第一子查询时段对应的查询数据中包含的数据的数量、第二子查询时段对应的查询数据中包含的数据的数量、第一子查询时段对应的查询数据中包含的数据的特征值的和、第二子查询时段对应的查询数据中包含的数据的特征值的和、第一子查询时段对应的查询数据中包含的数据的特征值的平均值、第二子查询时段对应的查询数据中包含的数据的特征值的平均值、第一子查询时段对应的查询数据中包含的数据的特征值的方差、第二子查询时段对应的查询数据中包含的数据的特征值的方差,通过增量式归并算法对第一子查询时段对应的查询数据和第二子查询时段对应的查询数据进行归并计算,得到第一子查询时段和第二子查询时段组成的查询时段对应的方差。
在实施中,可以将上述第一子查询时段对应的查询数据中包含的数据的数量、第二子查询时段对应的查询数据中包含的数据的数量、第一子查询时段对应的查询数据中包含的数据的特征值的和、第二子查询时段对应的查询数据中包含的数据的特征值的和、第一子查询时段对应的查询数据中包含的数据的特征值的平均值、第二子查询时段对应的查询数据中包含的数据的特征值的平均值、第一子查询时段对应的查询数据中包含的数据的特征值的方差、第二子查询时段对应的查询数据中包含的数据的特征值的方差代入上述公式(3)中进行计算可以得到第一子查询时段和第二子查询时段组成的查询时段对应的方差,然后,可以将下一个子查询时段作为增量,与上述计算得到的数据通过上述公式(3)计算得到相应查询时间段对应的方差,以此类推,直到最终得到查询时间段对应的方差为止。
在步骤A4中,基于上述查询时间段对应的方差,确定在该查询时间段内目标对象的行为的波动性信息。
在实施中,可以将上述查询时间段对应的方差作为在该查询时间段内目标对象的行为的波动性信息,或者,也可以根据实际情况,通过上述查询时间段对应的方差进行指定的计算,得到的数据可以作为在该查询时间段内目标对象的行为的波动性信息,具体可以根据实际情况设定,本说明书实施例对此不做限定。
在步骤S316中,基于在上述查询时间段内目标对象的行为的波动性信息,确定目标对象在上述查询时间段内的行为特征,以进行针对目标对象的风险防控。
在实施中,可以将在上述查询时间段内目标对象的行为的波动性信息作为目标对象在上述查询时间段内的行为特征,或者,也可以根据实际情况,通过在上述查询时间段内目标对象的行为的波动性信息进行指定的计算,得到的数据可以作为目标对象在上述查询时间段内的行为特征,具体可以根据实际情况设定,本说明书实施例对此不做限定。
本说明书实施例提供一种风险防控方法,获取待查询的目标对象的标识、查询时间段和查询任务标识,基于预设的第一单位时长,将查询时间段划分为一个或多个子查询时段,该查询时间段对应的时长不小于第一单位时长,然后,可以基于目标对象的标识和查询任务标识,从数据以每个第一单位时长进行聚合存储的数据库中获取每个子查询时段对应的目标对象的行为数据的聚合结果,通过增量式归并算法对子查询时段对应的目标对象的行为数据的聚合结果进行归并计算,得到目标对象在查询时间段内的行为特征,这样,通过子查询时段的聚合结果基于归并方式得到查询时间段内目标对象的累积结果,从而可以大大降低数据存储压力和存储成本,提高累积计算效率和累积的时效性,为大数据场景下目标对象的高频且有规律的行为特征的刻画提供了可行的实现方案,满足实时的风险防控的需求。此外,对于查询时间段内目标对象的行为特征的刻画,只需要查询有限个数的子查询时段的聚合结果,在内存中进行增量归并计算,而不需要查询明细的行为数据进行累积计算,大大提高了计算效率,而且,子查询时段的聚合结果是基于实时数据流聚合得到的,具有较高的累积时效性。
实施例三
如图4所示,本说明书实施例提供一种风险防控方法,该方法的执行主体可以为服务器或终端设备,其中,该终端设备可以如笔记本电脑或台式电脑等计算机设备,还可以如手机或平板电脑等移动终端设备。该服务器可以是为某项业务(如进行交易的业务或金融业务等)或可以记录某对象的行为的后台服务器,具体如,该服务器可以是支付业务的服务器,也可以是与金融或即时通讯等相关业务的服务器等。本实施例中的执行主体以服务器为例进行说明,对于执行主体为终端设备的情况,可以参见下述相关内容,在此不再赘述。该方法具体可以包括以下步骤:
在步骤S402中,获取针对目标对象的数据聚合消息。
在步骤S404中,获取预设的数据源产生的针对目标对象的行为数据,并从获取的行为数据中提取目标对象的标识和目标对象的属性信息,该属性信息中包括上述查询任务标识。
需要说明的是,上述获取预设的数据源产生的针对目标对象的行为数据可以是数据源产生的一条针对目标对象的行为数据。
在步骤S406中,将下一次获取的上述数据源产生的针对目标对象的行为数据作为增量,基于目标对象的标识和目标对象的属性信息,通过增量式归并算法对该数据源产生的针对目标对象的行为数据进行聚合计算,得到每个第一单位时长采集的待聚合数据对应的方差,将一个或多个第一单位时长采集的待聚合数据对应的方差存储于数据库中。
在实施中,针对数据源当前产生的一条针对目标对象的行为数据,可以将该数据源产生的下一条针对目标对象的行为数据作为增量,可以通过增量式归并算法(如上述实施例二中的公式(3))对该数据源产生的针对目标对象的行为数据进行聚合计算,直到获取的行为数据的时长达到第一单位时长,从而可以得到一个第一单位时长采集的待聚合数据对应的方差,通过相同的方式,可以计算下一个第一单位时长采集的待聚合数据对应的方差,最终可以得到多个第一单位时长采集的待聚合数据对应的方差,并可以将每个第一单位时长采集的待聚合数据对应的方差存储于数据库中。
在步骤S408中,获取待查询的目标对象的标识、查询时间段和查询任务标识。
在步骤S410中,基于预设的第一单位时长,将查询时间段划分为一个或多个子查询时段,该查询时间段对应的时长不小于第一单位时长。
其中,第一单位时长可以为N小时,查询时间段对应的时长可以为KN小时,其中,K和N分别为正整数。
在步骤S412中,基于目标对象的标识和查询任务标识,从数据以每个第一单位时长进行聚合存储的数据库中获取每个子查询时段对应的目标对象的行为数据的聚合结果。
在步骤S414中,通过增量式归并算法对上述子查询时段对应的目标对象的行为数据的聚合结果进行归并计算,得到上述查询时间段对应的方差。
上述步骤S414的具体处理过程可以多种多样,以下提供一种可选的处理方式具体可以包括以下内容:该子查询时段包括多个,其中包括第一子查询时段和第二子查询时段,第一子查询时段和第二子查询时段为多个子查询时段中的任意时间段相邻的两个子查询时段,则基于第一子查询时段对应的查询数据中包含的数据的数量、第二子查询时段对应的查询数据中包含的数据的数量、第一子查询时段对应的查询数据中包含的数据的特征值的和、第二子查询时段对应的查询数据中包含的数据的特征值的和、第一子查询时段对应的查询数据中包含的数据的特征值的平均值、第二子查询时段对应的查询数据中包含的数据的特征值的平均值、第一子查询时段对应的查询数据中包含的数据的特征值的方差、第二子查询时段对应的查询数据中包含的数据的特征值的方差,通过增量式归并算法对第一子查询时段对应的查询数据和第二子查询时段对应的查询数据进行归并计算,得到第一子查询时段和第二子查询时段组成的查询时段对应的方差。
在步骤S416中,基于上述查询时间段对应的方差,确定在该查询时间段内目标对象的行为的波动性信息。
在步骤S418中,基于在上述查询时间段内目标对象的行为的波动性信息,确定目标对象在上述查询时间段内的行为特征,以进行针对目标对象的风险防控。
本说明书实施例提供一种风险防控方法,获取待查询的目标对象的标识、查询时间段和查询任务标识,基于预设的第一单位时长,将查询时间段划分为一个或多个子查询时段,该查询时间段对应的时长不小于第一单位时长,然后,可以基于目标对象的标识和查询任务标识,从数据以每个第一单位时长进行聚合存储的数据库中获取每个子查询时段对应的目标对象的行为数据的聚合结果,通过增量式归并算法对子查询时段对应的目标对象的行为数据的聚合结果进行归并计算,得到目标对象在查询时间段内的行为特征,这样,通过子查询时段的聚合结果基于归并方式得到查询时间段内目标对象的累积结果,从而可以大大降低数据存储压力和存储成本,提高累积计算效率和累积的时效性,为大数据场景下目标对象的高频且有规律的行为特征的刻画提供了可行的实现方案,满足实时的风险防控的需求。此外,对于查询时间段内目标对象的行为特征的刻画,只需要查询有限个数的子查询时段的聚合结果,在内存中进行增量归并计算,而不需要查询明细的行为数据进行累积计算,大大提高了计算效率,而且,子查询时段的聚合结果是基于实时数据流聚合得到的,具有较高的累积时效性。
实施例四
本实施例将结合具体的应用场景,对本发明实施例提供的一种风险防控方法进行详细的阐述,相应的应用场景为在线交易的应用场景,其中,数据库设置于基于HadoopDatabase的分布式存储系统中,目标对象可以为商户的账号(本实施例中以目标商户账号表示),累积可以是通过某事件相关的明细数据对目标对象制定的指标在一定时长内的统计值,例如,买家付款事件,针对某一个商户的账号,统计一天内的交易次数等,其中的明细数据可以是用户在登陆、注册、交易等过程中产生的每一条行为数据的详情信息。查询时间段为24小时(1天),第一单位时长为1小时。
如图5所示,本说明书实施例提供一种风险防控方法,该方法的执行主体可以为服务器或终端设备,其中,该终端设备可以如笔记本电脑或台式电脑等计算机设备,还可以如手机或平板电脑等移动终端设备。该服务器可以是为某项业务(如进行交易的业务或金融业务等)或可以记录某对象的行为的后台服务器,具体如,该服务器可以是支付业务的服务器,也可以是与金融或即时通讯等相关业务的服务器等。本实施例中的执行主体以服务器为例进行说明,对于执行主体为终端设备的情况,可以参见下述相关内容,在此不再赘述。该方法具体可以包括以下步骤:
在步骤S502中,获取针对目标商户账号的数据聚合消息。
在步骤S504中,从预设的数据源中获取针对目标商户账号及每个第二单位时长采集的待聚合数据,并从待聚合数据中提取目标商户账号和目标商户账号的属性信息,该属性信息中包括上述查询任务标识。
在步骤S506中,基于目标商户账号和目标商户账号的属性信息,通过增量式归并算法对第二单位时长采集的待聚合数据进行归并计算,得到每个第一单位时长采集的待聚合数据对应的方差,将一个或多个单位时长采集的待聚合数据对应的方差存储于数据库中,第二单位时长不大于第一单位时长。
基于上述步骤S502~步骤S506的处理,对于数据源实时输出的消息(该消息中可以包括目标商户账号对应的行为数据),可以将该消息转换为事件,然后,服务器可以按照配置的目标商户账号+需要聚合的属性信息进行聚合计算,得到数据流中提取出的目标商户账号在小时级别聚合时间窗口内的聚合属性的聚合结果,并将小时级别的聚合结果存储到基于Hadoop Database的分布式存储系统中。
其中,聚合窗口可以是决定进行聚合累积的时间窗口的长度的参数,如1分钟、1小时或1天等,本说明书实施例中中涉及两个聚合窗口,一个是小时(Hour)级别的聚合窗口,用于实时流数据的聚合计算,另一个是业务查询需要的天(Day)级别的聚合窗口。聚合函数可以包括如Count(数量或个数),Sum(求和),Avg或average(平均值),Var(方差),squareSum(平方和)等,或者,也可以是上述多种函数的复合方式,或者,还可以是自定义的聚合函数,用以对实时流数据在目标商户账号维度,按照设定的聚合函数进行累积计算。小时(Hour)级别方差的聚合结果,按照1小时的时间窗口,对目标商户账号进行聚合计算,每小时会最终产生一个聚合结果,1天最多24条聚合结果。在基于Hadoop Database的分布式存储系统中存储的结构模型如下表2所示:
表2
Figure BDA0002803538300000181
如上表2所示,208890923132121表示主体(即目标对象,本实施例中可以为目标商户账号),200表示任务ID(即查询任务标识)。如上表2所示,小时(Hour)级方差累积结果中,为了提高流式计算的效率,可以按照上述公式(2)进行方差的计算,获取的新的数据可以作为增量进行增量计算。
在步骤S508中,获取待查询的目标商户账号、查询时间段和查询任务标识。
其中,查询时间段对应的时长可以为24小时,具体时间段可以根据实际情况设定。查询任务标识可以为任务ID等。
在步骤S510中,基于预设的第一单位时长,将查询时间段划分为一个或多个子查询时段,该查询时间段对应的时长不小于第一单位时长。
其中,第一单位时长可以为1小时,查询时间段对应的时长可以为24小时。
在步骤S512中,基于目标商户账号和查询任务标识,从数据以每个第一单位时长进行聚合存储的数据库中获取每个子查询时段对应的目标商户账号的行为数据的聚合结果。
在步骤S514中,通过增量式归并算法对上述子查询时段对应的目标商户账号的行为数据的聚合结果进行归并计算,得到上述查询时间段对应的方差。
上述步骤S514的具体处理过程可以多种多样,以下提供一种可选的处理方式具体可以包括以下内容:包括第一子查询时段和第二子查询时段,第一子查询时段和第二子查询时段为多个子查询时段中的任意时间段相邻的两个子查询时段,则基于第一子查询时段对应的查询数据中包含的数据的数量、第二子查询时段对应的查询数据中包含的数据的数量、第一子查询时段对应的查询数据中包含的数据的特征值的和、第二子查询时段对应的查询数据中包含的数据的特征值的和、第一子查询时段对应的查询数据中包含的数据的特征值的平均值、第二子查询时段对应的查询数据中包含的数据的特征值的平均值、第一子查询时段对应的查询数据中包含的数据的特征值的方差、第二子查询时段对应的查询数据中包含的数据的特征值的方差,通过增量式归并算法对第一子查询时段对应的查询数据和第二子查询时段对应的查询数据进行归并计算,得到第一子查询时段和第二子查询时段组成的查询时段对应的方差。
基于上述步骤S508~步骤S514的处理,天(Day)级别的方差结果的计算是基于小时(Hour)级别的聚合结果计算而来。根据事件发生时间和查询窗口,可以换算成查询rowkey的日期前缀,再结合目标商户账号,查询任务标识等,可以转换成基于HadoopDatabase的分布式存储系统中的rowkey。再根据聚合函数,转换成查询基于HadoopDatabase的分布式存储系统中的column列,查询得到该方差的24个1小时的聚合结果值,以此在内存中,根据上述公式(3)逐步进行归并计算,最终得到天(Day)级别的方差计算结果。
在步骤S516中,基于上述查询时间段对应的方差,确定在该查询时间段内目标商户账号的行为的波动性信息。
在步骤S518中,基于在上述查询时间段内目标商户账号的行为的波动性信息,确定目标商户账号在上述查询时间段内的行为特征,以进行针对目标商户账号的风险防控。
本说明书实施例提供一种风险防控方法,获取待查询的目标对象的标识、查询时间段和查询任务标识,基于预设的第一单位时长,将查询时间段划分为一个或多个子查询时段,该查询时间段对应的时长不小于第一单位时长,然后,可以基于目标对象的标识和查询任务标识,从数据以每个第一单位时长进行聚合存储的数据库中获取每个子查询时段对应的目标对象的行为数据的聚合结果,通过增量式归并算法对子查询时段对应的目标对象的行为数据的聚合结果进行归并计算,得到目标对象在查询时间段内的行为特征,这样,通过子查询时段的聚合结果基于归并方式得到查询时间段内目标对象的累积结果,从而可以大大降低数据存储压力和存储成本,提高累积计算效率和累积的时效性,为大数据场景下目标对象的高频且有规律的行为特征的刻画提供了可行的实现方案,满足实时的风险防控的需求。此外,对于查询时间段内目标对象的行为特征的刻画,只需要查询有限个数的子查询时段的聚合结果,在内存中进行增量归并计算,而不需要查询明细的行为数据进行累积计算,大大提高了计算效率,而且,子查询时段的聚合结果是基于实时数据流聚合得到的,具有较高的累积时效性。
实施例五
以上为本说明书实施例提供的风险防控方法,基于同样的思路,本说明书实施例还提供一种风险防控装置,如图6所示。
该风险防控装置包括:信息获取模块601、时间拆分模块602、聚合结果获取模块603和增量计算模块604,其中:
信息获取模块601,获取待查询的目标对象的标识、查询时间段和查询任务标识;
时间拆分模块602,基于预设的第一单位时长,将所述查询时间段划分为一个或多个子查询时段,所述查询时间段对应的时长不小于所述第一单位时长;
聚合结果获取模块603,基于所述目标对象的标识和所述查询任务标识,从数据以每个所述第一单位时长进行聚合存储的数据库中获取每个所述子查询时段对应的所述目标对象的行为数据的聚合结果;
增量计算模块604,通过增量式归并算法对所述子查询时段对应的所述目标对象的行为数据的聚合结果进行归并计算,得到所述目标对象在所述查询时间段内的行为特征,以进行针对所述目标对象的风险防控。
本说明书实施例中,所述数据库设置于基于Hadoop Database的分布式存储系统中。
本说明书实施例中,所述增量计算模块604,包括:
增量计算单元,通过增量式归并算法对所述子查询时段对应的所述目标对象的行为数据的聚合结果进行归并计算,得到在所述查询时间段内所述目标对象的行为的波动性信息;
特征确定单元,基于在所述查询时间段内所述目标对象的行为的波动性信息,确定所述目标对象在所述查询时间段内的行为特征。
本说明书实施例中,所述增量计算单元,通过增量式归并算法对所述子查询时段对应的所述目标对象的行为数据的聚合结果进行归并计算,得到所述查询时间段对应的方差;基于所述查询时间段对应的方差,确定在所述查询时间段内所述目标对象的行为的波动性信息。
本说明书实施例中,所述子查询时段包括多个,其中包括第一子查询时段和第二子查询时段,所述第一子查询时段和所述第二子查询时段为多个所述子查询时段中的任意时间段相邻的两个子查询时段,
所述增量计算单元,基于所述第一子查询时段对应的查询数据中包含的数据的数量、所述第二子查询时段对应的查询数据中包含的数据的数量、所述第一子查询时段对应的查询数据中包含的数据的特征值的和、所述第二子查询时段对应的查询数据中包含的数据的特征值的和、所述第一子查询时段对应的查询数据中包含的数据的特征值的平均值、所述第二子查询时段对应的查询数据中包含的数据的特征值的平均值、所述第一子查询时段对应的查询数据中包含的数据的特征值的方差、所述第二子查询时段对应的查询数据中包含的数据的特征值的方差,通过增量式归并算法对所述第一子查询时段对应的查询数据和所述第二子查询时段对应的查询数据进行归并计算,得到所述第一子查询时段和所述第二子查询时段组成的查询时段对应的方差。
本说明书实施例中,所述装置还包括:
第一聚合消息获取模块,获取针对所述目标对象的数据聚合消息;
第一数据获取模块,从预设的数据源中获取针对所述目标对象及每个第二单位时长采集的待聚合数据,并从所述待聚合数据中提取所述目标对象的标识和所述目标对象的属性信息,所述属性信息中包括所述查询任务标识,所述第二单位时长不大于所述第一单位时长;
第一方差确定模块,基于所述目标对象的标识和所述目标对象的属性信息,通过增量式归并算法对一个或多个所述第二单位时长采集的待聚合数据进行归并计算,得到每个所述第一单位时长采集的待聚合数据对应的方差,将一个或多个所述第一单位时长采集的待聚合数据对应的方差存储于所述数据库中。
本说明书实施例中,所述装置还包括:
第二聚合消息获取模块,获取针对所述目标对象的数据聚合消息;
第二数据获取模块,获取预设的数据源产生的针对所述目标对象的行为数据,并从获取的行为数据中提取所述目标对象的标识和所述目标对象的属性信息,所述属性信息中包括所述查询任务标识;
第二方差确定模块,将下一次获取的所述数据源产生的针对所述目标对象的行为数据作为增量,基于所述目标对象的标识和所述目标对象的属性信息,通过增量式归并算法对所述数据源产生的针对所述目标对象的行为数据进行聚合计算,得到每个所述第一单位时长采集的待聚合数据对应的方差,将一个或多个所述第一单位时长采集的待聚合数据对应的方差存储于所述数据库中。
本说明书实施例中,所述第一单位时长为N小时,所述查询时间段对应的时长为KN小时,其中,K和N分别为正整数。
本说明书实施例中,所述每个所述子查询时段对应的所述目标对象的行为数据的聚合结果包括每个所述子查询时段对应的所述目标对象的行为数据的特征值的和、每个所述子查询时段对应的所述目标对象的行为数据的数量、每个所述子查询时段对应的所述目标对象的行为数据的特征值的方差、每个所述子查询时段对应的所述目标对象的行为数据的特征值的平均值中的一个或多个。
本说明书实施例提供一种风险防控装置,获取待查询的目标对象的标识、查询时间段和查询任务标识,基于预设的第一单位时长,将查询时间段划分为一个或多个子查询时段,该查询时间段对应的时长不小于第一单位时长,然后,可以基于目标对象的标识和查询任务标识,从数据以每个第一单位时长进行聚合存储的数据库中获取每个子查询时段对应的目标对象的行为数据的聚合结果,通过增量式归并算法对子查询时段对应的目标对象的行为数据的聚合结果进行归并计算,得到目标对象在查询时间段内的行为特征,这样,通过子查询时段的聚合结果基于归并方式得到查询时间段内目标对象的累积结果,从而可以大大降低数据存储压力和存储成本,提高累积计算效率和累积的时效性,为大数据场景下目标对象的高频且有规律的行为特征的刻画提供了可行的实现方案,满足实时的风险防控的需求。此外,对于查询时间段内目标对象的行为特征的刻画,只需要查询有限个数的子查询时段的聚合结果,在内存中进行增量归并计算,而不需要查询明细的行为数据进行累积计算,大大提高了计算效率,而且,子查询时段的聚合结果是基于实时数据流聚合得到的,具有较高的累积时效性。
实施例六
以上为本说明书实施例提供的风险防控装置,基于同样的思路,本说明书实施例还提供一种风险防控设备,如图7所示。
所述风险防控设备可以为上述实施例提供的终端设备或服务器等。
风险防控设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上的处理器701和存储器702,存储器702中可以存储有一个或一个以上存储应用程序或数据。其中,存储器702可以是短暂存储或持久存储。存储在存储器702的应用程序可以包括一个或一个以上模块(图示未示出),每个模块可以包括对风险防控设备中的一系列计算机可执行指令。更进一步地,处理器701可以设置为与存储器702通信,在风险防控设备上执行存储器702中的一系列计算机可执行指令。风险防控设备还可以包括一个或一个以上电源703,一个或一个以上有线或无线网络接口704,一个或一个以上输入输出接口705,一个或一个以上键盘706。
具体在本实施例中,风险防控设备包括有存储器,以及一个或一个以上的程序,其中一个或者一个以上程序存储于存储器中,且一个或者一个以上程序可以包括一个或一个以上模块,且每个模块可以包括对风险防控设备中的一系列计算机可执行指令,且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令:
获取待查询的目标对象的标识、查询时间段和查询任务标识;
基于预设的第一单位时长,将所述查询时间段划分为一个或多个子查询时段,所述查询时间段对应的时长不小于所述第一单位时长;
基于所述目标对象的标识和所述查询任务标识,从数据以每个所述第一单位时长进行聚合存储的数据库中获取每个所述子查询时段对应的所述目标对象的行为数据的聚合结果;
通过增量式归并算法对所述子查询时段对应的所述目标对象的行为数据的聚合结果进行归并计算,得到所述目标对象在所述查询时间段内的行为特征,以进行针对所述目标对象的风险防控。
本说明书实施例中,所述数据库设置于基于Hadoop Database的分布式存储系统中。
本说明书实施例中,所述通过增量式归并算法对所述子查询时段对应的所述目标对象的行为数据的聚合结果进行归并计算,得到所述目标对象在所述查询时间段内的行为特征,包括:
通过增量式归并算法对所述子查询时段对应的所述目标对象的行为数据的聚合结果进行归并计算,得到在所述查询时间段内所述目标对象的行为的波动性信息;
基于在所述查询时间段内所述目标对象的行为的波动性信息,确定所述目标对象在所述查询时间段内的行为特征。
本说明书实施例中,所述通过增量式归并算法对所述子查询时段对应的所述目标对象的行为数据的聚合结果进行归并计算,得到在所述查询时间段内所述目标对象的行为的波动性信息,包括:
通过增量式归并算法对所述子查询时段对应的所述目标对象的行为数据的聚合结果进行归并计算,得到所述查询时间段对应的方差;
基于所述查询时间段对应的方差,确定在所述查询时间段内所述目标对象的行为的波动性信息。
本说明书实施例中,所述子查询时段包括多个,其中包括第一子查询时段和第二子查询时段,所述第一子查询时段和所述第二子查询时段为多个所述子查询时段中的任意时间段相邻的两个子查询时段,
所述通过增量式归并算法对所述子查询时段对应的所述目标对象的行为数据的聚合结果进行归并计算,得到所述查询时间段对应的方差,包括:
基于所述第一子查询时段对应的查询数据中包含的数据的数量、所述第二子查询时段对应的查询数据中包含的数据的数量、所述第一子查询时段对应的查询数据中包含的数据的特征值的和、所述第二子查询时段对应的查询数据中包含的数据的特征值的和、所述第一子查询时段对应的查询数据中包含的数据的特征值的平均值、所述第二子查询时段对应的查询数据中包含的数据的特征值的平均值、所述第一子查询时段对应的查询数据中包含的数据的特征值的方差、所述第二子查询时段对应的查询数据中包含的数据的特征值的方差,通过增量式归并算法对所述第一子查询时段对应的查询数据和所述第二子查询时段对应的查询数据进行归并计算,得到所述第一子查询时段和所述第二子查询时段组成的查询时段对应的方差。
本说明书实施例中,还包括:
获取针对所述目标对象的数据聚合消息;
从预设的数据源中获取针对所述目标对象及每个第二单位时长采集的待聚合数据,并从所述待聚合数据中提取所述目标对象的标识和所述目标对象的属性信息,所述属性信息中包括所述查询任务标识,所述第二单位时长不大于所述第一单位时长;
基于所述目标对象的标识和所述目标对象的属性信息,通过增量式归并算法对一个或多个所述第二单位时长采集的待聚合数据进行归并计算,得到每个所述第一单位时长采集的待聚合数据对应的方差,将一个或多个所述第一单位时长采集的待聚合数据对应的方差存储于所述数据库中。
本说明书实施例中,还包括:
获取针对所述目标对象的数据聚合消息;
获取预设的数据源产生的针对所述目标对象的行为数据,并从获取的行为数据中提取所述目标对象的标识和所述目标对象的属性信息,所述属性信息中包括所述查询任务标识;
将下一次获取的所述数据源产生的针对所述目标对象的行为数据作为增量,基于所述目标对象的标识和所述目标对象的属性信息,通过增量式归并算法对所述数据源产生的针对所述目标对象的行为数据进行聚合计算,得到每个所述第一单位时长采集的待聚合数据对应的方差,将一个或多个所述第一单位时长采集的待聚合数据对应的方差存储于所述数据库中。
本说明书实施例中,所述第一单位时长为N小时,所述查询时间段对应的时长为KN小时,其中,K和N分别为正整数。
本说明书实施例中,所述每个所述子查询时段对应的所述目标对象的行为数据的聚合结果包括每个所述子查询时段对应的所述目标对象的行为数据的特征值的和、每个所述子查询时段对应的所述目标对象的行为数据的数量、每个所述子查询时段对应的所述目标对象的行为数据的特征值的方差、每个所述子查询时段对应的所述目标对象的行为数据的特征值的平均值中的一个或多个。
本说明书实施例提供一种风险防控设备,获取待查询的目标对象的标识、查询时间段和查询任务标识,基于预设的第一单位时长,将查询时间段划分为一个或多个子查询时段,该查询时间段对应的时长不小于第一单位时长,然后,可以基于目标对象的标识和查询任务标识,从数据以每个第一单位时长进行聚合存储的数据库中获取每个子查询时段对应的目标对象的行为数据的聚合结果,通过增量式归并算法对子查询时段对应的目标对象的行为数据的聚合结果进行归并计算,得到目标对象在查询时间段内的行为特征,这样,通过子查询时段的聚合结果基于归并方式得到查询时间段内目标对象的累积结果,从而可以大大降低数据存储压力和存储成本,提高累积计算效率和累积的时效性,为大数据场景下目标对象的高频且有规律的行为特征的刻画提供了可行的实现方案,满足实时的风险防控的需求。此外,对于查询时间段内目标对象的行为特征的刻画,只需要查询有限个数的子查询时段的聚合结果,在内存中进行增量归并计算,而不需要查询明细的行为数据进行累积计算,大大提高了计算效率,而且,子查询时段的聚合结果是基于实时数据流聚合得到的,具有较高的累积时效性。
实施例七
进一步地,基于上述图1至图5所示的方法,本说明书一个或多个实施例还提供了一种存储介质,用于存储计算机可执行指令信息,一种具体的实施例中,该存储介质可以为U盘、光盘、硬盘等,该存储介质存储的计算机可执行指令信息在被处理器执行时,能实现以下流程:
获取待查询的目标对象的标识、查询时间段和查询任务标识;
基于预设的第一单位时长,将所述查询时间段划分为一个或多个子查询时段,所述查询时间段对应的时长不小于所述第一单位时长;
基于所述目标对象的标识和所述查询任务标识,从数据以每个所述第一单位时长进行聚合存储的数据库中获取每个所述子查询时段对应的所述目标对象的行为数据的聚合结果;
通过增量式归并算法对所述子查询时段对应的所述目标对象的行为数据的聚合结果进行归并计算,得到所述目标对象在所述查询时间段内的行为特征,以进行针对所述目标对象的风险防控。
本说明书实施例中,所述数据库设置于基于Hadoop Database的分布式存储系统中。
本说明书实施例中,所述通过增量式归并算法对所述子查询时段对应的所述目标对象的行为数据的聚合结果进行归并计算,得到所述目标对象在所述查询时间段内的行为特征,包括:
通过增量式归并算法对所述子查询时段对应的所述目标对象的行为数据的聚合结果进行归并计算,得到在所述查询时间段内所述目标对象的行为的波动性信息;
基于在所述查询时间段内所述目标对象的行为的波动性信息,确定所述目标对象在所述查询时间段内的行为特征。
本说明书实施例中,所述通过增量式归并算法对所述子查询时段对应的所述目标对象的行为数据的聚合结果进行归并计算,得到在所述查询时间段内所述目标对象的行为的波动性信息,包括:
通过增量式归并算法对所述子查询时段对应的所述目标对象的行为数据的聚合结果进行归并计算,得到所述查询时间段对应的方差;
基于所述查询时间段对应的方差,确定在所述查询时间段内所述目标对象的行为的波动性信息。
本说明书实施例中,所述子查询时段包括多个,其中包括第一子查询时段和第二子查询时段,所述第一子查询时段和所述第二子查询时段为多个所述子查询时段中的任意时间段相邻的两个子查询时段,
所述通过增量式归并算法对所述子查询时段对应的所述目标对象的行为数据的聚合结果进行归并计算,得到所述查询时间段对应的方差,包括:
基于所述第一子查询时段对应的查询数据中包含的数据的数量、所述第二子查询时段对应的查询数据中包含的数据的数量、所述第一子查询时段对应的查询数据中包含的数据的特征值的和、所述第二子查询时段对应的查询数据中包含的数据的特征值的和、所述第一子查询时段对应的查询数据中包含的数据的特征值的平均值、所述第二子查询时段对应的查询数据中包含的数据的特征值的平均值、所述第一子查询时段对应的查询数据中包含的数据的特征值的方差、所述第二子查询时段对应的查询数据中包含的数据的特征值的方差,通过增量式归并算法对所述第一子查询时段对应的查询数据和所述第二子查询时段对应的查询数据进行归并计算,得到所述第一子查询时段和所述第二子查询时段组成的查询时段对应的方差。
本说明书实施例中,还包括:
获取针对所述目标对象的数据聚合消息;
从预设的数据源中获取针对所述目标对象及每个第二单位时长采集的待聚合数据,并从所述待聚合数据中提取所述目标对象的标识和所述目标对象的属性信息,所述属性信息中包括所述查询任务标识,所述第二单位时长不大于所述第一单位时长;
基于所述目标对象的标识和所述目标对象的属性信息,通过增量式归并算法对一个或多个所述第二单位时长采集的待聚合数据进行归并计算,得到每个所述第一单位时长采集的待聚合数据对应的方差,将一个或多个所述第一单位时长采集的待聚合数据对应的方差存储于所述数据库中。
本说明书实施例中,还包括:
获取针对所述目标对象的数据聚合消息;
获取预设的数据源产生的针对所述目标对象的行为数据,并从获取的行为数据中提取所述目标对象的标识和所述目标对象的属性信息,所述属性信息中包括所述查询任务标识;
将下一次获取的所述数据源产生的针对所述目标对象的行为数据作为增量,基于所述目标对象的标识和所述目标对象的属性信息,通过增量式归并算法对所述数据源产生的针对所述目标对象的行为数据进行聚合计算,得到每个所述第一单位时长采集的待聚合数据对应的方差,将一个或多个所述第一单位时长采集的待聚合数据对应的方差存储于所述数据库中。
本说明书实施例中,所述第一单位时长为N小时,所述查询时间段对应的时长为KN小时,其中,K和N分别为正整数。
本说明书实施例中,所述每个所述子查询时段对应的所述目标对象的行为数据的聚合结果包括每个所述子查询时段对应的所述目标对象的行为数据的特征值的和、每个所述子查询时段对应的所述目标对象的行为数据的数量、每个所述子查询时段对应的所述目标对象的行为数据的特征值的方差、每个所述子查询时段对应的所述目标对象的行为数据的特征值的平均值中的一个或多个。
本说明书实施例提供一种存储介质,获取待查询的目标对象的标识、查询时间段和查询任务标识,基于预设的第一单位时长,将查询时间段划分为一个或多个子查询时段,该查询时间段对应的时长不小于第一单位时长,然后,可以基于目标对象的标识和查询任务标识,从数据以每个第一单位时长进行聚合存储的数据库中获取每个子查询时段对应的目标对象的行为数据的聚合结果,通过增量式归并算法对子查询时段对应的目标对象的行为数据的聚合结果进行归并计算,得到目标对象在查询时间段内的行为特征,这样,通过子查询时段的聚合结果基于归并方式得到查询时间段内目标对象的累积结果,从而可以大大降低数据存储压力和存储成本,提高累积计算效率和累积的时效性,为大数据场景下目标对象的高频且有规律的行为特征的刻画提供了可行的实现方案,满足实时的风险防控的需求。此外,对于查询时间段内目标对象的行为特征的刻画,只需要查询有限个数的子查询时段的聚合结果,在内存中进行增量归并计算,而不需要查询明细的行为数据进行累积计算,大大提高了计算效率,而且,子查询时段的聚合结果是基于实时数据流聚合得到的,具有较高的累积时效性。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书一个或多个实施例时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本说明书的实施例可提供为方法、系统、或计算机程序产品。因此,本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书的实施例是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程欺诈案例的串并设备的处理器以产生一个机器,使得通过计算机或其他可编程欺诈案例的串并设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程欺诈案例的串并设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程欺诈案例的串并设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机程序产品。因此,本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书一个或多个实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书一个或多个实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本说明书的实施例而已,并不用于限制本说明书。对于本领域技术人员来说,本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书的权利要求范围之内。

Claims (16)

1.一种风险防控方法,所述方法包括:
获取待查询的目标对象的标识、查询时间段和查询任务标识;
基于预设的第一单位时长,将所述查询时间段划分为一个或多个子查询时段,所述查询时间段对应的时长不小于所述第一单位时长;
基于所述目标对象的标识和所述查询任务标识,从数据以每个所述第一单位时长进行聚合存储的数据库中获取每个所述子查询时段对应的所述目标对象的行为数据的聚合结果;
通过增量式归并算法对所述子查询时段对应的所述目标对象的行为数据的聚合结果进行归并计算,得到所述目标对象在所述查询时间段内的行为特征,以进行针对所述目标对象的风险防控。
2.根据权利要求1所述的方法,所述数据库设置于基于Hadoop Database的分布式存储系统中。
3.根据权利要求1或2所述的方法,所述通过增量式归并算法对所述子查询时段对应的所述目标对象的行为数据的聚合结果进行归并计算,得到所述目标对象在所述查询时间段内的行为特征,包括:
通过增量式归并算法对所述子查询时段对应的所述目标对象的行为数据的聚合结果进行归并计算,得到在所述查询时间段内所述目标对象的行为的波动性信息;
基于在所述查询时间段内所述目标对象的行为的波动性信息,确定所述目标对象在所述查询时间段内的行为特征。
4.根据权利要求3所述的方法,所述通过增量式归并算法对所述子查询时段对应的所述目标对象的行为数据的聚合结果进行归并计算,得到在所述查询时间段内所述目标对象的行为的波动性信息,包括:
通过增量式归并算法对所述子查询时段对应的所述目标对象的行为数据的聚合结果进行归并计算,得到所述查询时间段对应的方差;
基于所述查询时间段对应的方差,确定在所述查询时间段内所述目标对象的行为的波动性信息。
5.根据权利要求4所述的方法,所述子查询时段包括多个,其中包括第一子查询时段和第二子查询时段,所述第一子查询时段和所述第二子查询时段为多个所述子查询时段中的任意时间段相邻的两个子查询时段,
所述通过增量式归并算法对所述子查询时段对应的所述目标对象的行为数据的聚合结果进行归并计算,得到所述查询时间段对应的方差,包括:
基于所述第一子查询时段对应的查询数据中包含的数据的数量、所述第二子查询时段对应的查询数据中包含的数据的数量、所述第一子查询时段对应的查询数据中包含的数据的特征值的和、所述第二子查询时段对应的查询数据中包含的数据的特征值的和、所述第一子查询时段对应的查询数据中包含的数据的特征值的平均值、所述第二子查询时段对应的查询数据中包含的数据的特征值的平均值、所述第一子查询时段对应的查询数据中包含的数据的特征值的方差、所述第二子查询时段对应的查询数据中包含的数据的特征值的方差,通过增量式归并算法对所述第一子查询时段对应的查询数据和所述第二子查询时段对应的查询数据进行归并计算,得到所述第一子查询时段和所述第二子查询时段组成的查询时段对应的方差。
6.根据权利要求3所述的方法,所述方法还包括:
获取针对所述目标对象的数据聚合消息;
从预设的数据源中获取针对所述目标对象及每个第二单位时长采集的待聚合数据,并从所述待聚合数据中提取所述目标对象的标识和所述目标对象的属性信息,所述属性信息中包括所述查询任务标识,所述第二单位时长不大于所述第一单位时长;
基于所述目标对象的标识和所述目标对象的属性信息,通过增量式归并算法对一个或多个所述第二单位时长采集的待聚合数据进行归并计算,得到每个所述第一单位时长采集的待聚合数据对应的方差,将一个或多个所述第一单位时长采集的待聚合数据对应的方差存储于所述数据库中。
7.根据权利要求3所述的方法,所述方法还包括:
获取针对所述目标对象的数据聚合消息;
获取预设的数据源产生的针对所述目标对象的行为数据,并从获取的行为数据中提取所述目标对象的标识和所述目标对象的属性信息,所述属性信息中包括所述查询任务标识;
将下一次获取的所述数据源产生的针对所述目标对象的行为数据作为增量,基于所述目标对象的标识和所述目标对象的属性信息,通过增量式归并算法对所述数据源产生的针对所述目标对象的行为数据进行聚合计算,得到每个所述第一单位时长采集的待聚合数据对应的方差,将一个或多个所述第一单位时长采集的待聚合数据对应的方差存储于所述数据库中。
8.根据权利要求3所述的方法,所述第一单位时长为N小时,所述查询时间段对应的时长为KN小时,其中,K和N分别为正整数。
9.根据权利要求3所述的方法,所述每个所述子查询时段对应的所述目标对象的行为数据的聚合结果包括每个所述子查询时段对应的所述目标对象的行为数据的特征值的和、每个所述子查询时段对应的所述目标对象的行为数据的数量、每个所述子查询时段对应的所述目标对象的行为数据的特征值的方差、每个所述子查询时段对应的所述目标对象的行为数据的特征值的平均值中的一个或多个。
10.一种风险防控装置,所述装置包括:
信息获取模块,获取待查询的目标对象的标识、查询时间段和查询任务标识;
时间拆分模块,基于预设的第一单位时长,将所述查询时间段划分为一个或多个子查询时段,所述查询时间段对应的时长不小于所述第一单位时长;
聚合结果获取模块,基于所述目标对象的标识和所述查询任务标识,从数据以每个所述第一单位时长进行聚合存储的数据库中获取每个所述子查询时段对应的所述目标对象的行为数据的聚合结果;
增量计算模块,通过增量式归并算法对所述子查询时段对应的所述目标对象的行为数据的聚合结果进行归并计算,得到所述目标对象在所述查询时间段内的行为特征,以进行针对所述目标对象的风险防控。
11.根据权利要求10所述的装置,所述数据库设置于基于Hadoop Database的分布式存储系统中。
12.根据权利要求10或11所述的装置,所述增量计算模块,包括:
增量计算单元,通过增量式归并算法对所述子查询时段对应的所述目标对象的行为数据的聚合结果进行归并计算,得到在所述查询时间段内所述目标对象的行为的波动性信息;
特征确定单元,基于在所述查询时间段内所述目标对象的行为的波动性信息,确定所述目标对象在所述查询时间段内的行为特征。
13.根据权利要求12所述的装置,所述增量计算单元,通过增量式归并算法对所述子查询时段对应的所述目标对象的行为数据的聚合结果进行归并计算,得到所述查询时间段对应的方差;基于所述查询时间段对应的方差,确定在所述查询时间段内所述目标对象的行为的波动性信息。
14.根据权利要求12所述的装置,所述装置还包括:
第一聚合消息获取模块,获取针对所述目标对象的数据聚合消息;
第一数据获取模块,从预设的数据源中获取针对所述目标对象及每个第二单位时长采集的待聚合数据,并从所述待聚合数据中提取所述目标对象的标识和所述目标对象的属性信息,所述属性信息中包括所述查询任务标识,所述第二单位时长不大于所述第一单位时长;
第一方差确定模块,基于所述目标对象的标识和所述目标对象的属性信息,通过增量式归并算法对一个或多个所述第二单位时长采集的待聚合数据进行归并计算,得到每个所述第一单位时长采集的待聚合数据对应的方差,将一个或多个所述第一单位时长采集的待聚合数据对应的方差存储于所述数据库中。
15.一种风险防控设备,所述风险防控设备包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:
获取待查询的目标对象的标识、查询时间段和查询任务标识;
基于预设的第一单位时长,将所述查询时间段划分为一个或多个子查询时段,所述查询时间段对应的时长不小于所述第一单位时长;
基于所述目标对象的标识和所述查询任务标识,从数据以每个所述第一单位时长进行聚合存储的数据库中获取每个所述子查询时段对应的查询数据,并通过增量式归并算法对所述子查询时段对应的查询数据进行归并计算,得到所述目标对象在所述查询时间段内的行为特征数据,以进行针对所述目标对象的风险防控。
16.一种存储介质,所述存储介质用于存储计算机可执行指令,所述可执行指令在被执行时实现以下流程:
获取待查询的目标对象的标识、查询时间段和查询任务标识;
基于预设的第一单位时长,将所述查询时间段划分为一个或多个子查询时段,所述查询时间段对应的时长不小于所述第一单位时长;
基于所述目标对象的标识和所述查询任务标识,从数据以每个所述第一单位时长进行聚合存储的数据库中获取每个所述子查询时段对应的查询数据,并通过增量式归并算法对所述子查询时段对应的查询数据进行归并计算,得到所述目标对象在所述查询时间段内的行为特征数据,以进行针对所述目标对象的风险防控。
CN202011359371.0A 2020-11-27 2020-11-27 一种风险防控方法、装置及设备 Active CN112364264B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011359371.0A CN112364264B (zh) 2020-11-27 2020-11-27 一种风险防控方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011359371.0A CN112364264B (zh) 2020-11-27 2020-11-27 一种风险防控方法、装置及设备

Publications (2)

Publication Number Publication Date
CN112364264A true CN112364264A (zh) 2021-02-12
CN112364264B CN112364264B (zh) 2023-10-27

Family

ID=74535309

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011359371.0A Active CN112364264B (zh) 2020-11-27 2020-11-27 一种风险防控方法、装置及设备

Country Status (1)

Country Link
CN (1) CN112364264B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113344104A (zh) * 2021-06-23 2021-09-03 支付宝(杭州)信息技术有限公司 一种数据处理方法、装置、设备及介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040176994A1 (en) * 2001-10-11 2004-09-09 Fine Leslie R. System and method for finance forecasting
CN106327324A (zh) * 2016-08-23 2017-01-11 杭州同盾科技有限公司 一种网络行为特征的快速计算方法和系统
CN106657047A (zh) * 2016-12-14 2017-05-10 北京启明星辰信息安全技术有限公司 一种网络访问关系的生成方法及装置
CN106844703A (zh) * 2017-02-04 2017-06-13 中国人民大学 一种面向数据库一体机的内存数据仓库查询处理实现方法
CN108737473A (zh) * 2017-04-20 2018-11-02 贵州白山云科技有限公司 一种数据处理方法、装置及系统
CN111782872A (zh) * 2020-06-30 2020-10-16 北京百度网讯科技有限公司 查询方法、装置、电子设备以及存储介质
CN111984861A (zh) * 2020-07-30 2020-11-24 浙江邦盛科技有限公司 一种时序数据的复杂事件处理方法及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040176994A1 (en) * 2001-10-11 2004-09-09 Fine Leslie R. System and method for finance forecasting
CN106327324A (zh) * 2016-08-23 2017-01-11 杭州同盾科技有限公司 一种网络行为特征的快速计算方法和系统
CN106657047A (zh) * 2016-12-14 2017-05-10 北京启明星辰信息安全技术有限公司 一种网络访问关系的生成方法及装置
CN106844703A (zh) * 2017-02-04 2017-06-13 中国人民大学 一种面向数据库一体机的内存数据仓库查询处理实现方法
CN108737473A (zh) * 2017-04-20 2018-11-02 贵州白山云科技有限公司 一种数据处理方法、装置及系统
CN111782872A (zh) * 2020-06-30 2020-10-16 北京百度网讯科技有限公司 查询方法、装置、电子设备以及存储介质
CN111984861A (zh) * 2020-07-30 2020-11-24 浙江邦盛科技有限公司 一种时序数据的复杂事件处理方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
费沛轩: "基于大数据平台的查询优化技术研究", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》, pages 2 - 4 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113344104A (zh) * 2021-06-23 2021-09-03 支付宝(杭州)信息技术有限公司 一种数据处理方法、装置、设备及介质

Also Published As

Publication number Publication date
CN112364264B (zh) 2023-10-27

Similar Documents

Publication Publication Date Title
TWI718643B (zh) 異常群體識別方法及裝置
CN107424069B (zh) 一种风控特征的生成方法、风险监控方法及设备
CN108665143B (zh) 风控模型的评估方法及装置
CN108683692B (zh) 一种业务请求处理方法及装置
KR102522274B1 (ko) 사용자 그룹화 방법 및 장치, 컴퓨터 장비, 컴퓨터 판독가능 저장 매체 및 컴퓨터 프로그램
CN110728458B (zh) 一种目标对象的风险监测方法、装置及电子设备
CN106909495B (zh) 一种数据的窗口统计方法、装置及系统
CN111181569B (zh) 一种时序数据的压缩方法、装置以及设备
US20190114711A1 (en) Financial analysis system and method for unstructured text data
CN110020427B (zh) 策略确定方法和装置
CN111078723B (zh) 一种区块链浏览器的数据处理方法及装置
CN111104540B (zh) 图像搜索方法、装置、设备及计算机可读存储介质
CN110032582B (zh) 一种数据处理方法、装置、设备及系统
CN107451204B (zh) 一种数据查询方法、装置及设备
CN111784468B (zh) 一种账户关联方法、装置及电子设备
CN107391564B (zh) 数据转换方法、装置以及电子设备
CN112199416A (zh) 数据规则生成方法及装置
CN110781386A (zh) 信息推荐、布隆过滤器的创建方法及装置
CN112364264A (zh) 一种风险防控方法、装置及设备
CN109218211A (zh) 数据流的控制策略中阈值的调整方法、装置和设备
CN108932525B (zh) 一种行为预测方法及装置
CN111159515B (zh) 数据处理方法、装置及电子设备
CN112491816A (zh) 业务数据处理方法及装置
CN107368281B (zh) 一种数据处理方法及装置
CN107562533B (zh) 一种数据加载处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant