CN113344104A - 一种数据处理方法、装置、设备及介质 - Google Patents

一种数据处理方法、装置、设备及介质 Download PDF

Info

Publication number
CN113344104A
CN113344104A CN202110699578.0A CN202110699578A CN113344104A CN 113344104 A CN113344104 A CN 113344104A CN 202110699578 A CN202110699578 A CN 202110699578A CN 113344104 A CN113344104 A CN 113344104A
Authority
CN
China
Prior art keywords
data
subset
aggregation
target
quantile
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110699578.0A
Other languages
English (en)
Inventor
刘龙历
孙尚椿
于仰泉
朱冠胤
黄海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202110699578.0A priority Critical patent/CN113344104A/zh
Publication of CN113344104A publication Critical patent/CN113344104A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Human Resources & Organizations (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Databases & Information Systems (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Engineering & Computer Science (AREA)
  • Educational Administration (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Development Economics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Game Theory and Decision Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Computing Systems (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书实施例公开了一种数据处理方法、装置、设备及介质,数据处理方法包括:确定一个或多个数据子集;其中,每个所述数据子集对应一个时间子区间,所述数据子集包含目标对象对应的数据;对任一所述数据子集,根据该数据子集的数据量判定是否对该数据子集执行子集聚合,所述子集聚合用于使该数据子集的数据量不超过第一预设数量;确定目标时间区间,对所述目标时间区间对应的数据总集执行总集聚合,以确定所述数据总集所对应的第二预设数量个质心;其中,所述数据总集由所述目标时间区间所包含的一个或多个时间子区间所对应的数据子集组成;根据所述第二预设数量个质心确定所述目标时间区间内所述目标对象的特征数据,所述特征数据用于识别所述目标对象是否存在风险。

Description

一种数据处理方法、装置、设备及介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种数据处理方法、装置、设备及介质。
背景技术
随着互联网的发展,人们可以使用各种各样的互联网业务,同时也面临着网络风险的威胁。
有鉴于此,需要更有效和更高效的网络风险识别方案。
发明内容
本说明书实施例提供一种数据处理方法、装置、设备及介质,用以解决如何更有效和更高效地进行网络风险识别的技术问题。
为解决上述技术问题,本说明书实施例提供如下技术方案:
本说明书实施例提供一种数据处理方法,包括:
确定一个或多个数据子集;其中,每个所述数据子集对应一个时间子区间,所述数据子集包含目标对象对应的数据;
对任一所述数据子集,根据该数据子集的数据量判定是否对该数据子集执行子集聚合,所述子集聚合用于使该数据子集的数据量不超过第一预设数量;
确定目标时间区间,对所述目标时间区间对应的数据总集执行总集聚合,以确定所述数据总集所对应的第二预设数量个质心;其中,所述数据总集由所述目标时间区间所包含的一个或多个时间子区间所对应的数据子集组成;
根据所述第二预设数量个质心确定所述目标时间区间内所述目标对象的特征数据,所述特征数据用于识别所述目标对象是否存在风险。
本说明书实施例提供一种数据处理装置,包括:
数据获取模块,用于确定一个或多个数据子集;其中,每个所述数据子集对应一个时间子区间,所述数据子集包含目标对象对应的数据;以及,对任一所述数据子集,根据该数据子集的数据量判定是否对该数据子集执行子集聚合,所述子集聚合用于使该数据子集的数据量不超过第一预设数量;
数据计算模块,用于确定目标时间区间,对所述目标时间区间对应的数据总集执行总集聚合,以确定所述数据总集所对应的第二预设数量个质心;其中,所述数据总集由所述目标时间区间所包含的一个或多个时间子区间所对应的数据子集组成;
数据识别模块,用于根据所述第二预设数量个质心确定所述目标时间区间内所述目标对象的特征数据,所述特征数据用于识别所述目标对象是否存在风险。
本说明书实施例提供数据处理设备,包括:
至少一个处理器;
以及,
与所述至少一个处理器通信连接的存储器;
其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,使所述至少一个处理器能够执行上述的数据处理方法。
本说明书实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令被处理器执行时实现上述的数据处理方法。
本说明书实施例提供的上述至少一个技术方案能够达到以下有益效果:
通过对目标对象的数据进行聚合,利用聚合所得到的质心评价所述目标对象的风险,且质心能够覆盖目标对象在目标时间区间内的总体数据,既能降低计算量,又能提高风险识别效果,从而提高风险识别效率和效果。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对本说明书实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本说明书第一个实施例中的数据处理方法的执行主体示意图。
图2是本说明书第一个实施例中的数据处理方法的流程示意图。
图3是本说明书第一个实施例中的概率密度函数示意图。
图4是本说明书第二个实施例中的数据处理装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本说明书实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
随着互联网的发展,互联网可提供的业务类型以及业务量逐步增长,互联网业务涉及的网络主体也越来越丰富。例如对于电子商务业务,涉及卖家、买家以及电子商务业务服务商等主体;对于即时通讯业务,则涉及即时通讯用户以及即时通讯业务服务商等主体。人们在享受互联网便捷的同时,也面临着网络风险的威胁,例如电信诈骗风险。与此同时,也有人利用网络实施危害互联网安全的业务,例如非法交易等。如何识别网络风险,一直以来都是各方重点关注的问题。为此,有必要对各种网络主体的业务或行为进行风险识别。
由于网络主体在使用网络业务时会产生业务数据,故可以基于业务数据,采用多维特征刻画网络主体的风险,可用的特征例如网络主体在进行网络交易时的交易金额,网络主体的业务发生地址或网络主体是否经过认证,可用的刻画方式可以是交易金额求和、求均值等方式,以此识别网络主体是否存在风险。但是,求和、求均值这样的方式或指标无法对网络主体的分位数的分布这一特征进行刻画,比如对“交易金额的十分位金额是多少”这样的行为特征进行刻画。而分位数的分布对风险识别和防控具有显著作用,因为相较于求和、求均值等方式,分位数具有稳定性高,不容易受到异常值的影响的优点。
现有技术中,分位数的计算过程通常比较复杂。如果要计算某些数据的分位数,需要保留这些数据的所有具体值,然后将具体值排序,取分位位置的数作为分位数计算结果。当数据量很大的时候,分位数计算,特别是分位数计算所用到的排序算法耗费大量时间和计算资源。
具体的,现有技术对分位数的计算有两种方式:
方式一:基于SQL的统计方式。这种方式需要直接存储明细数据,通过明细数据的查询,然后在内存中计算,得到分位数累计结果。这种方式需要巨大的数据存储空间和计算资源,往往会因为数据量和计算量过大,导致计算时间过长,计算效率过低,无法满足风控防控的需求。
方式二:基于明细数据和日账层面的累计结果的方式,如基于velocity的累计。这种方式需要在业务低峰期基于网络主体和指标,对明细数据进行存储和扫描,根据一定的累计规则,将一天的数据存入日帐数据中,最后基于日账和当天的明细,计算得到最终的主体分位数累积结果,并将累计结果存储在日账中。一方面明细数据必然会占用一定的存储空间,另一方面如果明细数据数量较大,累计结果的计算同样也会需要耗费相当大的计算时间和计算资源。这种方式在碰到热点大数据量的情况下,需要采取一定的精度损失存储策略,控制明细数据的数量,只利用一部分明细数据计算累计结果,则可能遗漏部分热点数据,对最终的分位数累计结果造成损失,无法满足准确性要求。另外,这种方式需要依靠定时任务在低峰时期触发日账累积,每天在业务低峰的时候进行扫描,得到当天的累计日账,从而天级累计有一定的滞后性,无法做到准实时累计,即无法满足准确性要求。
本说明书第一个实施例(以下简称“实施例一”)提供了一种数据处理方法,实施例一的执行主体可以是终端(包括但不限于手机、计算机、pad、电视)或者服务器或者操作系统或者数据处理平台或者数据处理系统或应用程序等,即执行主体可以是多种多样的,可以根据需要设置、使用或者变换执行主体。另外,也可以有第三方应用程序协助所述执行主体执行实施例一。例如图1所示,可以由服务器来执行实施例一中的数据处理方法,并且可以在(用户所持有的)终端上安装(与所述服务器)相对应的应用程序,终端或应用程序与服务器之间可以进行数据传输,通过终端或应用程序来进行数据的采集或输入或输出或(向用户)进行页面或信息处理,从而辅助服务器执行实施例一中的数据处理方法。
如图2所示,实施例一提供的数据处理方法包括:
S101:(执行主体)确定一个或多个数据子集;其中,每个所述数据子集对应一个时间子区间,所述数据子集包含目标对象对应的数据;以及,对任一所述数据子集,根据该数据子集的数据量判定是否对该数据子集执行子集聚合,所述子集聚合用于使该数据子集的数据量不超过第一预设数量;
实施例一中所述的“对象”包括网络业务或网络活动的各类参与者,包括前述的各种网络主体,也可以包括各类用于支持网络业务运行的设备(设备也可以称为主体)等。在此基础上,所关注的对象就可以称为目标对象,目标对象可以是用户或网络业务服务商等设定的,也可以是由用户或网络业务服务商等预设规则,凡是符合预设规则的对象均被作为目标对象。例如,可以设定凡是参与某平台的电子商务业务的用户(不论买家还是商户)均作为目标对象,或者可以设定凡是某即时通讯应用程序的使用者均作为目标对象。目标对象的判定可以由实施例一的执行主体执行,也可以由其他设备进行。可见,目标对象的角色或数量以及判断方式并不固定,实施例一对如何确定目标对象不作限定。
目标对象参与各类网络业务会产生业务数据(以下简称“数据”),例如参与电子商务业务会产生交易数据,参与即时通讯业务会产生通讯数据等,这些数据可能存储于各类设备上,例如存储在业务服务器或终端上。实施例一的执行主体可以从存储数据的设备上获取各类数据,例如通过接口调用这些设备上的数据;或者,执行主体自身作为网络业务的参与设备,也可以产生并存储业务数据。
实施例一中,执行主体需要获取目标对象对应的数据,所述“目标对象对应的数据”包括因目标对象参与各类网络业务所产生的业务数据,例如交易数据、通讯数据等。根据目标对象由谁判定,获取目标对象对应的数据可能出现1.1和/或1.2所述的情况(实施例一不限于1.1和/或1.2所述的情况):
1.1、目标对象由实施例一的执行主体判定
执行主体判定了目标对象后,可以从存储有目标对象对应的数据的各设备获取目标对象对应的数据。
1.2、目标对象由除实施例一执行主体之外的设备判定
若目标对象由除实施例一执行主体之外的设备判定,则所述设备(可以称为“判定设备”)可以将目标对象对应的数据发送给实施例一的执行主体。其中,若所述判定设备本身存储有目标对象对应的数据,则所述判定设备可以将目标对象对应的数据发送给实施例一的执行主体;若所述判定设备不存储目标对象对应的数据,则所述判定设备可以使“存储目标对象对应的数据的设备”将目标对象对应的数据发送给实施例一的执行主体(例如所述判定设备可以向存储目标对象对应的数据的设备发送指令,以使其将目标对象对应的数据发送给实施例一的执行主体)。
前面已经说明,目标对象的判定可以由实施例一的执行主体执行,也可以由其他设备进行,故1.1和1.2可以同时存在,这样一来,实施例一的执行主体既可以自行判定目标对象并获取目标对象对应的数据,其他设备也可以判定目标对象,并使目标对象对应的数据被发送给实施例一的执行主体。
另外,不论目标对象是由谁确定的,只要确定了目标对象对应的数据的存储设备,执行主体就可以从所述存储设备处获取目标对象对应的数据。例如,目标对象对应的数据是由业务服务器产生并存储的,则执行主体可以获取业务服务器上所产生的对应于目标对象的数据。
通过上述内容,实施例一的执行主体可以获取目标对象对应的数据。需要说明的是,实施例一的执行主体还可能通过其他方式获取目标对象对应的数据,实施例一对其执行主体如何获取目标对象对应的数据不作限定。
以下将“目标对象对应的数据”称为“目标数据”。目标数据的计量单位可以是组或者条,实施例一对如何计量目标数据不作限定,对每一单位(例如每一条或每一组)目标数据的数据内容不作限定。例如若目标数据是交易数据,则每条交易记录可以作为一单位的目标数据;若目标数据是即时通讯数据,则每条通讯记录可以作为一单位的目标数据。
实施例一的执行主体获取目标数据后,可以将目标数据划分为一个或多个数据子集,即实施例一的执行主体可以确定或构建一个或多个数据子集,数据子集中包含目标数据。其中,实施例一的执行主体确定一个或多个数据子集可以包括:获取业务服务器上所产生的对应于目标对象的数据;将所述对应于目标对象的数据按时间维度进行划分,以确定与时间子区间对应的一个或多个数据子集。
具体的,每一单位的目标数据通常会携带时间参数或包括时间参数,时间参数用于标识每一单位目标数据的生成和/或存储时间等。实施例一的执行主体获取目标数据后,可以将每一单位的目标数据按照时间维度进行划分,从而得到一个或多个数据子集,即将每一单位的目标数据按照其生成时间划分到相应的数据子集中。其中,每个所述数据子集对应一个时间子区间。例如将一天的24小时中每个小时作为一个时间子区间,则与0时至1时这个时间子区间对应的数据子集中的目标数据的发生时间都属于该时间子区间,其他时间子区间同理。需要说明的是,每天的每个小时都单独作为一个时间子区间,从而每天的每个小时都单独对应一个数据子集。
由于目标数据可以是不断生成的,故实施例一的执行主体可以不断获取目标数据,进而将每一单位的目标数据划分至相应的数据子集中。如此一来,各个数据子集中包含的目标数据量可以是不断变化的,且各个数据子集中的目标数据量可以是不同的。例如若目标对象是某商户,目标数据是该商户的交易数据,则该商户可能在早7时至晚12时交易量比较多,晚12时至早7时交易量比较少,从而早7时至晚12时中的各个时间子区间对应的数据子集的数据量可能大于晚12时至早7时中的各个时间子区间对应的数据子集的数据量。当然,各个数据子集的数据量还是要由实际情况确定,实施例一对此不作限定。
实施例一中,对任一数据子集,根据该数据子集的数据量判定是否对该数据子集执行子集聚合,所述子集聚合用于使该数据子集的数据量不超过第一预设数量。其中,所述子集聚合是指对单一的数据子集的部分或全部数据所执行的数据聚合。实施例一中,对任一数据子集,即使是对该数据子集中的部分数据进行聚合,也可以看作对该数据子集进行聚合。
对任一数据子集,根据该数据子集的数据量判定是否对该数据子集执行子集聚合可以包括:监测该数据子集的数据量(如前述,该数据子集的数据量可以是不断变化的);若该数据子集的数据量超过第一预设数量,则对该数据子集执行子集聚合;其中,所述第一预设数量可以预设在实施例一的执行主体上,并且可以根据需要设置或变更。
实施例一中可以采用TDigest算法执行子集聚合,下面进行说明:
对任一数据集,可以用概率密度函数来表示该数据集。有了该数据集对应的概率密度函数,该数据集的百分位数就可以用概率密度函数的面积表示,如图3所示。概率密度函数曲线中的点都对应着该数据集中的数据。
对任一数据集,可以对数据集进行分组,例如相邻的数据分为一组,并可用该组数据的平均数(Mean,或者加权平均数,下同)和该组数据的数据个数(Weight,也可看作权重)来代替任一组数,平均数和个数这两个数合称为质心(Centroid),即质心包括mean和weight两个值。通过质心计算该数据集的概率密度函数,即为TDigest算法的核心思想。质心的weight值表示质心的压缩比例,一个质心的压缩比例越大,代表该质心对应或代替的数据量越大。
由于质心采用(mean,weight)两元结构,为了保持目标数据和质心的数据结构的一致性,单个单位目标数据也可以按照(value,weight)的结构进行(TreeMap形式的)存储,其中,value为目标数据的值,相当于质心的mean;weight代表数据个数。对于每个单位的目标数据,其weight值可以默认为1。采用这种数据结构,便于计算各个目标数据之间的距离以及目标数据与质心之间的距离。
采用上述数据结构,对任一数据子集,其包含的每一单位的目标数据都可以单独作为一个质心。每一单位的目标数据作为质心时,其mean为本身的value,weight为1。
对任一数据子集,对该数据子集进行子集聚合时,可以将距离相近的多个单位的数据作为一个数据组进行聚合,确定该数据组的平均数(或加权平均,下同)以及个数,从而确定该数据组对应的质心,也就是这多个单位的数据对应的质心,并用质心来表征这多个单位的数据。例如,某数据组包含两个单位的数据,分别是数据(a,1)和数据(b,1),则该数据组对应的质心为((a+b)/2,2)。实施例一中,可以使用现有的算法确定数据之间的距离。另外,将多少单位的数据或多少距离以内的数据划分为一个数据组可以根据需要设置或变换。
可见,该数据组对应的质心的平均数不超出该数据组所涵盖的范围,故该数据组对应的质心不超出该数据组所涵盖的范围(即质心的mean不超出数据组的最大value和最小value划定的范围)。例如,若该数据组内的数据为交易金额,则该数据组内的最大交易金额和最小交易金额划定了一个金额范围,而该数据组对应的质心中的平均数不超出该金额范围。
由于数据的聚合不改变数据本身的时间参数,且对数据组聚合后得到的质心不超出数据组所涵盖的范围,故对多个单位的数据聚合后得到的质心仍然属于该数据子集,进而可以将该数据子集中的该多个单位的数据用其对应的质心代替。
对任一数据子集,在对该数据子集进行子集聚合时,可能会确定一个或多个数据组,并确定各数据组对应的质心。
由上可知,对任一数据子集,将该数据子集中多个单位的数据替换为一个质心来表示,且质心仍属于该数据子集,会造成该数据子集的数据量减少。对该数据子集执行子集聚合的目的是控制该数据子集的数据量不超过第一预设数量,在实际计算中,可能不需要对该数据子集的所有数据都进行聚合,只将该数据子集的部分数据(这部分数据可能划分为一个或多个数据组)进行聚合并替换为相应的(一个或多个)质心,即可实现该数据子集的数据量不超过第一预设数量。若是对该数据子集中的部分数据进行聚合,则该部分数据可以称为被聚合的数据,该数据子集中剩余的数据即为未被聚合的数据。若该数据子集中的全部数据都要进行聚合,则该数据子集中的全部数据都为被聚合的数据。
基于上述内容,对任一所述数据子集,若判定对该数据子集执行子集聚合,则对该数据子集的部分或全部数据进行子集聚合,得到该数据子集被聚合的数据对应的质心,并将被聚合的数据用其对应的质心代替。对该数据子集执行子集聚合后,该数据子集包含“未被聚合的数据+被聚合的数据对应的质心”,且该数据子集被聚合的数据对应的质心数量与未被聚合的数据的数量之和不超过第一预设数量。
对任一数据子集,对该数据子集执行一次子集聚合后,若是由于新的目标数据的加入,该数据子集的数据量再次超过第一预设数量,则可以对该数据子集进行子集聚合。也就是说,对该数据子集执行过一次或多次子集聚合后,若该数据子集的数据量再次超过所述第一预设数据,则对该数据子集再次执行所述子集聚合。
对任一数据子集,对该数据子集执行子集聚合后,该数据子集包含“未被聚合的数据+被聚合的数据对应的质心”,若对该数据子集执行下一次子集聚合,则该数据子集所包含的质心也可能成为下一次子集聚合的被聚合数据,从而与其他目标数据进行聚合。这种情况下,可以通过以下方式判断是否可以将任一个单位的目标数据与一个质心(一般为距离该单位目标数据最近的质心,若有多个距离最近质心,则可以随机选择质心)进行聚合:由于单个单位目标数据的weight默认为1,假如将该目标数据并入该质心,则该质心的weight需要加1。可以判断该质心的weight加1后是否超出该质心的weight上限;若不超出,则将该目标数据并入该质心,并更新该质心的mean和weight,其中更新后的mean为加入该目标数据的value后重新计算得到的mean;若超出,则不将该目标数据并入该质心,该目标数据可以与其他目标数据聚合得到新的质心或该目标数据可以单独作为一个质心。
对任一数据子集,若该数据子集执行了一次或多次子集聚合,并要再次进行子集聚合,且上一次子集聚合得到的任一质心成为当前子集聚合的被聚合数据,则按照上述方式判断是否将目标数据与当前子集聚合前的已有质心进行合并。
需要说明的是,对任一数据子集,无论是目标数据还是质心,都是按照value(质心为mean)排序后再进行子集聚合的。
上面是子集聚合的具体方式,通过上述内容,实施例一的执行主体确定了一个或多个数据子集,并且将各数据子集的数据量控制在不超过第一预设数量。
S103:(执行主体)确定目标时间区间,对所述目标时间区间对应的数据总集执行总集聚合,以确定所述数据总集所对应的第二预设数量个质心;其中,所述数据总集由所述目标时间区间所包含的一个或多个时间子区间所对应的数据子集组成;
实施例一的执行主体可以确定目标时间区间,目标时间区间是由一个或多个时间子区间组成的。一般来说,目标时间区间是连续的。其中,用户可以在实施例一的执行主体设置所述目标时间区间,用户也可以在其他设备上设置所述目标时间区间,由所述其他设备向实施例一的执行主体发送指令,实施例一的执行主体根据所述指令确定目标时间区间。
由于目标时间区间包含一个或多个时间子区间,而每个时间子区间对应一个数据子集,故目标时间区间所包含的一个或多个时间子区间所对应的各个数据子集可以组成一个数据总集,这个数据总集是与目标时间区间对应的数据集。实施例一的执行主体确定目标时间区间后,就可以确定目标时间区间所包含的一个或多个时间子区间所对应的各个数据子集,也就确定了与目标时间区间对应的数据总集。
与目标时间区间包含的各个时间子区间对应的各数据子集不妨称为目标数据子集。在执行主体确定各个目标数据子集时,任一目标数据子集可能出现以下情况:
情况1:该目标数据子集仅包含目标数据,即该目标数据子集并未执行过子集聚合。由于单个单位的目标数据可以作为一个weight为1的质心,故本情况下,该目标数据子集可以看作仅包含质心,每个质心的weight为1。
情况2:该目标数据子集包含目标数据和质心,即该目标数据子集执行过一次或多次子集聚合。由于单个单位的目标数据可以作为一个weight为1的质心,故本情况下,该目标数据子集可以看作仅包含质心,有的质心的weight大于1。
情况3:该目标数据子集包含的数据全部为质心,且每个质心的weight都不为1(大于1),即每个质心都是由多个目标数据聚合或目标数据与质心的聚合得到的。
总之,不论哪种情况,任一目标数据子集都可以看作由质心组成,则数据总集相应的也由质心组成。
实施例一的目的之一是确定数据总集的分位数(或分位点),而分位数相当于将数据总集进行等分之后的数值点,故可以将数据总集的等分数(分位数的数量加1)作为第二预设数量。对数据总集执行总集聚合的目的是确定数据总集对应的质心(不妨称为目标质心),且数据总集对应的目标质心的数量符合第二预设数量,每个目标质心对应对数据总集等分后得到的一个等份(数据总集中的每个等份相当于一个数据集),该等份内的目标数据都用该质心代替。这样一来,就根据分位数的数量确定了第二预设数量。
实施例一中,计算数据总集的对应的目标质心就是将数据总集的数据(无论是目标数据还是质心)进行排序,按照前述的子集聚合所用的聚合方式对数据总集排序后的数据进行聚合(称为“总集聚合”),以得到第二预设数量各目标质心。具体的,可以先以数据总集中的各个数据子集为单位进行数据子集的一次或多次聚合,然后再将数据总集中的各个数据子集的数据综合在一起进行一次或多次聚合。
实施例一所述的总集聚合并不意味着对数据子集或数据总集中的数据只聚合一次,通过前述内容可知,对数据总集中的数据每聚合一次,就有部分数据被质心代替(质心仍属于数据总集),数据总集中的数据就减少一些。将对数据总集的每次聚合看作一轮聚合,可能需要经过多轮聚合,且上一轮聚合后数据总集中的数据再进行下一轮聚合(所述的“上一轮”和“下一轮”为相邻的两轮),最终数据总集中的所有数据都被目标质心代替。这种情况下,对所述目标时间区间对应的数据总集执行总集聚合,以确定所述数据总集所对应的第二预设数量个质心可以包括:对所述目标时间区间对应的数据总集内的数据执行逐轮聚合;其中,每一轮聚合用于确定所述数据总集对应的质心,首轮聚合基于所述数据总集内的数据,下一轮聚合基于上一轮聚合所得到的数据(并排序);若某一轮聚合后数据总集对应的质心数量符合第二预设数量,则不再进行下一轮聚合,该轮聚合后数据总集对应的质心为目标质心。
如前所述,总集聚合开始前,数据总集可以看作由质心组成,则数据总集中所有的质心都可以看作与数据总集对应的质心。数据总集每一轮聚合后,更新后的质心和未更新的质心也都是数据总集对应的质心。
下面说明如何根据目标质心确定分位数的值:如前所述,每个目标质心对应对数据总集等分后得到的一个等份,该等份内的目标数据都用该质心代替,而总集聚合过程中数据总集中的数据都是排序后聚合的,故将目标质心按照其weight值进行排序后,第1个目标质心对应“总集聚合开始前,将数据总集中的数据排序后第1个等份的数据”,第2个目标质心对应“总集聚合开始前,将数据总集中的数据排序后第2个等份的数据”,以此类推,从而用目标质心序列代替了数据总集中的数据序列。假如某质心是(mean,weight),则该质心相当于一个数据序列,数据序列中的各个数据的值均为目标质心的mean,数据个数为weight。实际上将所有的目标质心序列中的目标质心扩充为数据序列,会形成一个总数据序列,总数据序列的数据量就等于数据总集的数据量,总数据序列可以代替数据总集中的数据序列。
由于分位数也相当于对0到1进行了等分,故将0到1同样按照第二预设数量进行等分,每一个目标质心又对应一个分位数范围,并且分位数范围和数据总集各个等份是一一对应的。计算任一分位数的值就是确定该分位数落入哪个分位数范围,该分位数的值出自该分位数范围对应的数据总集的等份。由于“该分位数范围对应的数据总集的等份”可以用该等份对应的目标质心代替,相当于“该分位数范围对应的数据总集的等份”中的所有数据都变成了与该等份对应的目标质心的mean,故可以将该分位数范围对应的目标质心的mean值作为该分位数对应的值。
例如某质心是(2,3),其对应的数据总集中的等份包含三个单位的数据,假设这三个单位的数据分别为(1,1)、(2,1)、(3,1)。由于该质心相当于一个(2,1)、(2,1)、(2,1)的数据序列,故可以将这三个单位的数据用该质心代替。假设某分位数落入的分位数范围对应(1,1)、(2,1)、(3,1)所组成的等份,则该分位数的值应出自该等份。由于用质心(2,3)代替该等份,则相当于该分位数的值出自(2,1)、(2,1)、(2,1),故该分位数的值为该质心的mean值,即该分位数的值为2。
实施例一中,若要计算的某个分位数位于两个相邻分位数范围的交叉点,则可以采用两种方式:
一是将两个相邻分位数范围对应的两个目标质心的mean值做平均或加权平均,将平均值或加权平均值作为该分位数的值;
二是可以增加等分数重新总集聚合得到目标质心,也即增加了目标质心的数量并细化了分位数范围,确定要计算的分位数落入的细化后的分位数范围,将对应的目标质心的mean值作为分位数对应的值。当然,也可以减少等分数。
方式二总之就是改变等分数后,调整分位数范围的范围大小和分位数范围的数量,使要计算的分位数不再位于两个分位数范围的交叉点,这样也就改变了第二预设数量以及目标质心的数量,并通过总集聚合重新计算各个目标质心。确定分位数落入的调整后的分位数范围,将分位数落入的分位数范围对应的目标质心的平均数或加权平均数作为分位数的值。
例如,若要计算百分位数,则可以将数据总集分为100等份,第二预设数量也即为100,并将0到1也分为100等份。将得到的100个目标质心按照其weight值进行排序后,第1个目标质心对应“总集聚合开始前,将数据总集中的数据排序后第1个等份的数据”,即总集聚合开始前,数据总集中前1%的数据,同时第1个目标质心对应【0,1%】这个分位数范围;第2个目标质心对应“总集聚合开始前,将数据总集中的数据排序后第2个等份的数据”,即总集聚合开始前,数据总集中1%至2%的数据,同时第2个目标质心对应【1%,2%】这个分位数范围;以此类推,第100个目标质心对应“总集聚合开始前,将数据总集中的数据排序后第100个等份的数据”,即总集聚合开始前,数据总集中99%至100%的数据,同时第100个目标质心对应【99%,100%】这个分位数范围。如下表1所示:
目标质心序号 数据总集中的数据范围 分位数范围
1 0-1% 【0,1%】
2 1%-2% 【1%,2%】
…… …… ……
100 99%-100% 【99%,100%】
表1
假如要计算10.5%这一分位数的值,则确定10.5%落入【10%,11%】这个分位数范围,该分位数范围对应的目标质心的mean值即为10.5%这一分位数的值。
例如增加等分数,则可以将数据总集分为200等份,第二预设数量也即为200,并将0到1也分为200等份。将得到的200个目标质心按照其weight值进行排序后,第1个目标质心对应“总集聚合开始前,将数据总集中的数据排序后第1个等份的数据”,即总集聚合开始前,数据总集中前0.5%的数据,同时第1个目标质心对应【0,0.5%】这个分位数范围;第2个目标质心对应“总集聚合开始前,将数据总集中的数据排序后第2个等份的数据”,即总集聚合开始前,数据总集中0.5%至1%的数据,同时第2个目标质心对应【0.5%,1%】这个分位数范围;以此类推,第200个目标质心对应“总集聚合开始前,将数据总集中的数据排序后第200个等份的数据”,即总集聚合开始前,数据总集中99.5%至100%的数据,同时第200个目标质心对应【99.5%,100%】这个分位数范围。如下表2所示:
目标质心序号 数据总集中的数据范围 分位数范围
1 0-0.5% 【0,0.5%】
2 0.5%-1% 【0.5%,1%】
…… …… ……
200 99.5%-100% 【99.5%,100%】
表2
假如要计算10.1%这一分位数的值,则确定10.1%落入【10%,10.5%】这个分位数范围,该分位数范围对应的目标质心的mean值即为10.1%这一分位数的值。
以上仅为示例,分位数的个数依据实际情况而定,实施例一不作限定。
一般的,假如在目标时间区间内,实施例一的执行主体共获取了n个单位的目标数据,则数据总集包含的所有质心的weight总和(总权重)为n。若第二预设数量为m,则每个质心(包括目标质心)的weight上限为n/m(n/m为整数)。实际上,考虑到数据的实际分布(正态分布),1%和99%等极端分位数所属的分位数范围对应的目标质心的weight上限可以设置的小一些,从而其对应的数据量少一些;50%所属的分位数范围对应的目标质心的weight上限可以设置的大一些,从而其对应的数据量多一些。
S105:(执行主体)根据所述第二预设数量个质心确定所述目标时间区间内所述目标对象的特征数据,所述特征数据用于识别所述目标对象是否存在风险。
实施例一中,可以根据目标质心确定所述目标时间区间内所述目标对象的特征数据。其中,根据所述第二预设数量个质心确定所述目标时间区间内所述目标对象的特征数据可以包括:将所述第二预设数量个质心进行排序,得到质心序列(如上所述);根据所述质心序列确定所述数据总集的分位数的值(如上所述);将所述分位数的值作为所述目标时间区间内所述目标对象的特征数据。由于数据总集中的数据都是由于目标对象在目标时间区间内的网络行为产生的,故各分位数的值反映了目标对象在目标时间区间内的网络行为的数据分布特征,即行为分布特征,从而各分位数的值可以作为目标时间区间内所述目标对象的特征数据。
实施例一中,确定所述目标时间区间内所述目标对象的特征数据后,可以使用所述特征数据表征所述目标对象在所述目标时间区间内的行为,以识别所述目标对象是否存在风险。假如分位数的值出现异常,则可以判定所述目标对象存在风险。
例如目标数据为某商户的交易数据,目标时间区间为一天,时间子区间为一天的每个小时,则目标时间区间包含24个时间子区间,目标质心对应了一天内该商户的所有交易金额,分位数的值反映了一天内该商户的交易金额分布情况,可以作为该商户在一天内的特征数据,表征该商户在一天内的交易行为。假如某分位数的值出现异常(例如超出阈值),则可以判定该商户存在风险,例如存在刷单、洗钱等风险。
实施例一的执行主体可以是区块链上的节点,从而实施例一所得到的各个质心和特征数据都可以在区块链上进行共识和存储,提高数据安全性。另外,可以由区块链的多个节点都作为实施例一的执行主体,分别进行质心的计算,并通过共识确定各个节点计算出的质心是否一致以及选出可用的质心进行存储和用于风险识别,从而提高风险识别的准确性。
实施例一中,将数据按照数据子集进行存储,每个数据子集的部分或全部数据用质心代替,无需存储全部的目标数据明细,从而控制每个数据子集和数据总集的数据量,能够减少数据存储空间,降低数据子集和数据总集对应的质心计算的计算量,提高计算效率。实施例一中,数据子集可以随着新目标数据的注入而不断进行质心的计算,保证了数据子集和数据总集包含的质心都对应最新的目标数据,能够提高数据总集对应的质心计算的时效性。实施例一中,时间子区间和目标时间区间都可以自由设定,目标时间区间对应的数据总集的质心计算结果是基于其所包含的各个数据子集的质心计算结果,即将数据总集的计算拆分为其所包含的各个数据子集的计算,能够降低数据总集的质心计算的计算量,提高数据总集的质心计算的计算效率。实施例一中,数据总集对应的质心对应了目标对象在目标时间区间内的全体目标数据,基于数据总集对应的质心所确定的目标对象的特征数据也就涵盖了目标对象在目标时间区间内的总体数据,根据特征数据识别所述目标对象的风险,能够提高风险识别的准确性和全面性。实施例一中,数据总集作为目标对象的网络行为数据,通过数据聚合得到数据总集对应的质心,根据质心得到数据总集对应的分位数的值,利用分位数的值反映目标对象的行为分布特征数据,并基于行为分布特征数据进行风险识别,由于分位数具有稳定性特点,不易受异常值的影响,能够提高风险识别的准确性。
如图4所示,本说明书第二个实施例提供了一种数据处理装置,包括:
数据获取模块202,用于确定一个或多个数据子集;其中,每个所述数据子集对应一个时间子区间,所述数据子集包含目标对象对应的数据;以及,对任一所述数据子集,根据该数据子集的数据量判定是否对该数据子集执行子集聚合,所述子集聚合用于使该数据子集的数据量不超过第一预设数量;
数据计算模块204,用于确定目标时间区间,对所述目标时间区间对应的数据总集执行总集聚合,以确定所述数据总集所对应的第二预设数量个质心;其中,所述数据总集由所述目标时间区间所包含的一个或多个时间子区间所对应的数据子集组成;
数据识别模块206,用于根据所述第二预设数量个质心确定所述目标时间区间内所述目标对象的特征数据,所述特征数据用于识别所述目标对象是否存在风险。
可选的,确定一个或多个数据子集包括:
获取业务服务器上所产生的对应于目标对象的数据;
将所述对应于目标对象的数据按时间维度进行划分,以确定与时间子区间对应的一个或多个数据子集。
可选的,根据该数据子集的数据量判定是否对该数据子集执行子集聚合包括:
监测该数据子集的数据量;
若该数据子集的数据量超过第一预设数量,则对该数据子集执行子集聚合。
可选的,所述数据计算模块204还用于:对任一所述数据子集,若判定对该数据子集执行子集聚合,则对该数据子集的部分或全部数据进行子集聚合,得到该数据子集被聚合的数据对应的质心;
将被聚合的数据替换为所述质心;
其中,所述被聚合的数据对应的质心属于该数据子集;该数据子集被聚合的数据对应的质心数量与未被聚合的数据的数量之和不超过第一预设数量。
可选的,所述数据计算模块204还用于:对任一所述数据子集,对该数据子集执行过一次或多次子集聚合后,若该数据子集的数据量再次超过所述第一预设数据,则对该数据子集再次执行所述子集聚合。
可选的,对所述目标时间区间对应的数据总集执行总集聚合,以确定所述数据总集所对应的第二预设数量个质心包括:
对所述目标时间区间对应的数据总集内的数据执行逐轮聚合;其中,每一轮聚合用于确定所述数据总集对应的质心,首轮聚合基于所述数据总集内的数据,下一轮聚合基于上一轮聚合所得到的数据;
若某一轮聚合后数据总集对应的质心数量符合第二预设数量,则不再进行下一轮聚合。
可选的,根据所述第二预设数量个质心确定所述目标时间区间内所述目标对象的特征数据包括:
将所述第二预设数量个质心进行排序,得到质心序列;
根据所述质心序列确定所述数据总集的分位数的值;
将所述分位数的值作为所述目标时间区间内所述目标对象的特征数据。
可选的,根据所述质心序列确定所述数据总集的分位数的值包括:
每个质心序列中的质心对应一个分位数范围;
对任一分位数,确定该分位数落入的分位数范围,将该分位数落入的分位数范围对应的质心的平均数或加权平均数作为该分位数的值。
可选的,所述数据计算模块204还用于:对任一分位数,若该分位数位于相邻两个相邻分位数范围的交叉点,则将所述两个相邻分位数范围对应的两个质心的mean值做平均或加权平均,将平均值或加权平均值作为该分位数的值;
或,
调整分位数范围的大小以便调整所述第二预设数量,并通过总集聚合重新计算调整后的各分位数范围对应的质心,确定该分位数落入的分位数范围,将该分位数落入的分位数范围对应的质心的平均数或加权平均数作为该分位数的值。
可选的,所述数据识别模块206还用于:确定所述目标时间区间内所述目标对象的特征数据后,使用所述特征数据表征所述目标对象在所述目标时间区间内的行为,以识别所述目标对象是否存在风险。
可选的,所述特征数据包括所述数据总集的分位数;所述数据计算模块204还用于:
根据所述数据总集的分位数的数量确定所述第二预设数量。
本说明书第三个实施例提供一种数据处理设备,包括:
至少一个处理器;
以及,
与所述至少一个处理器通信连接的存储器;
其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,使所述至少一个处理器能够执行第一个实施例所述的数据处理方法。
本说明书第四个实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令被处理器执行时实现第一个实施例所述的数据处理方法。
上述各实施例可以结合使用,不同实施例之间或同一实施例内的名称相同的模块可以是相同可不同的模块。
上述对本说明书特定实施例进行了描述,其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,附图中描绘的过程不一定必须按照示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、设备、非易失性计算机可读存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书实施例提供的装置、设备、非易失性计算机可读存储介质与方法是对应的,因此,装置、设备、非易失性计算机存储介质也具有与对应方法类似的有益技术效果,由于上面已经对方法的有益技术效果进行了详细说明,因此,这里不再赘述对应装置、设备、非易失性计算机存储介质的有益技术效果。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本说明书实施例可提供为方法、系统、或计算机程序产品。因此,本说明书实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本说明书实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带式磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本说明书实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (14)

1.一种数据处理方法,包括:
确定一个或多个数据子集;其中,每个所述数据子集对应一个时间子区间,所述数据子集包含目标对象对应的数据;
对任一所述数据子集,根据该数据子集的数据量判定是否对该数据子集执行子集聚合,所述子集聚合用于使该数据子集的数据量不超过第一预设数量;
确定目标时间区间,对所述目标时间区间对应的数据总集执行总集聚合,以确定所述数据总集所对应的第二预设数量个质心;其中,所述数据总集由所述目标时间区间所包含的一个或多个时间子区间所对应的数据子集组成;
根据所述第二预设数量个质心确定所述目标时间区间内所述目标对象的特征数据,所述特征数据用于识别所述目标对象是否存在风险。
2.如权利要求1所述的方法,确定一个或多个数据子集包括:
获取业务服务器上所产生的对应于目标对象的数据;
将所述对应于目标对象的数据按时间维度进行划分,以确定与时间子区间对应的一个或多个数据子集。
3.如权利要求1所述的方法,根据该数据子集的数据量判定是否对该数据子集执行子集聚合包括:
监测该数据子集的数据量;
若该数据子集的数据量超过第一预设数量,则对该数据子集执行子集聚合。
4.如权利要求1所述的方法,所述方法还包括:
对任一所述数据子集,若判定对该数据子集执行子集聚合,则对该数据子集的部分或全部数据进行子集聚合,得到该数据子集被聚合的数据对应的质心;
将被聚合的数据替换为所述质心;
其中,所述被聚合的数据对应的质心属于该数据子集;该数据子集被聚合的数据对应的质心数量与未被聚合的数据的数量之和不超过第一预设数量。
5.如权利要求4所述的方法,所述方法还包括:
对任一所述数据子集,对该数据子集执行过一次或多次子集聚合后,若该数据子集的数据量再次超过所述第一预设数据,则对该数据子集再次执行所述子集聚合。
6.如权利要求1所述的方法,对所述目标时间区间对应的数据总集执行总集聚合,以确定所述数据总集所对应的第二预设数量个质心包括:
对所述目标时间区间对应的数据总集内的数据执行逐轮聚合;其中,每一轮聚合用于确定所述数据总集对应的质心,首轮聚合基于所述数据总集内的数据,下一轮聚合基于上一轮聚合所得到的数据;
若某一轮聚合后数据总集对应的质心数量符合第二预设数量,则不再进行下一轮聚合。
7.如权利要求1所述的方法,根据所述第二预设数量个质心确定所述目标时间区间内所述目标对象的特征数据包括:
将所述第二预设数量个质心进行排序,得到质心序列;
根据所述质心序列确定所述数据总集的分位数的值;
将所述分位数的值作为所述目标时间区间内所述目标对象的特征数据。
8.如权利要求7所述的方法,根据所述质心序列确定所述数据总集的分位数的值包括:
每个质心序列中的质心对应一个分位数范围;
对任一分位数,确定该分位数落入的分位数范围,将该分位数落入的分位数范围对应的质心的平均数或加权平均数作为该分位数的值。
9.如权利要求8所述的方法,对任一分位数,若该分位数位于相邻两个相邻分位数范围的交叉点,则将所述两个相邻分位数范围对应的两个质心的mean值做平均或加权平均,将平均值或加权平均值作为该分位数的值;
或,
调整分位数范围的大小以便调整所述第二预设数量,并通过总集聚合重新计算调整后的各分位数范围对应的质心,确定该分位数落入的分位数范围,将该分位数落入的分位数范围对应的质心的平均数或加权平均数作为该分位数的值。
10.如权利要求1所述的方法,确定所述目标时间区间内所述目标对象的特征数据后,所述方法还包括:
使用所述特征数据表征所述目标对象在所述目标时间区间内的行为,以识别所述目标对象是否存在风险。
11.如权利要求1所述的方法,所述特征数据包括所述数据总集的分位数;所述方法还包括:
根据所述数据总集的分位数的数量确定所述第二预设数量。
12.一种数据处理装置,包括:
数据获取模块,用于确定一个或多个数据子集;其中,每个所述数据子集对应一个时间子区间,所述数据子集包含目标对象对应的数据;以及,对任一所述数据子集,根据该数据子集的数据量判定是否对该数据子集执行子集聚合,所述子集聚合用于使该数据子集的数据量不超过第一预设数量;
数据计算模块,用于确定目标时间区间,对所述目标时间区间对应的数据总集执行总集聚合,以确定所述数据总集所对应的第二预设数量个质心;其中,所述数据总集由所述目标时间区间所包含的一个或多个时间子区间所对应的数据子集组成;
数据识别模块,用于根据所述第二预设数量个质心确定所述目标时间区间内所述目标对象的特征数据,所述特征数据用于识别所述目标对象是否存在风险。
13.一种数据处理设备,包括:
至少一个处理器;
以及,
与所述至少一个处理器通信连接的存储器;
其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,使所述至少一个处理器能够执行权利要求1至11中任一项所述的数据处理方法。
14.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令被处理器执行时实现权利要求1至11中任一项所述的数据处理方法。
CN202110699578.0A 2021-06-23 2021-06-23 一种数据处理方法、装置、设备及介质 Pending CN113344104A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110699578.0A CN113344104A (zh) 2021-06-23 2021-06-23 一种数据处理方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110699578.0A CN113344104A (zh) 2021-06-23 2021-06-23 一种数据处理方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN113344104A true CN113344104A (zh) 2021-09-03

Family

ID=77478374

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110699578.0A Pending CN113344104A (zh) 2021-06-23 2021-06-23 一种数据处理方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN113344104A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115098271A (zh) * 2022-08-25 2022-09-23 北京医百科技有限公司 一种多线程数据处理方法、装置、设备及介质

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103168303A (zh) * 2010-08-05 2013-06-19 霍夫曼-拉罗奇有限公司 用于聚合任务数据对象并且用于提供聚合视图的方法
US20130325825A1 (en) * 2012-05-29 2013-12-05 Scott Pope Systems And Methods For Quantile Estimation In A Distributed Data System
US20160246853A1 (en) * 2012-05-29 2016-08-25 Sas Institute Inc. Systems and methods for quantile determination in a distributed data system
CN107645533A (zh) * 2016-07-22 2018-01-30 阿里巴巴集团控股有限公司 数据处理方法、数据发送方法、风险识别方法及设备
EP3367260A1 (en) * 2017-02-24 2018-08-29 Nokia Solutions and Networks Oy Method and device for data analysis
US20190325514A1 (en) * 2018-04-24 2019-10-24 Alibaba Group Holding Limited Credit risk prediction method and device based on lstm model
US10505963B1 (en) * 2017-11-01 2019-12-10 EMC IP Holding Company LLC Anomaly score generation based on adaptive clustering of user location
CN110675263A (zh) * 2019-09-27 2020-01-10 支付宝(杭州)信息技术有限公司 交易数据的风险识别方法以及装置
CN111090708A (zh) * 2019-10-11 2020-05-01 支付宝(杭州)信息技术有限公司 基于数据仓库的用户特征产出方法和系统
CN111291082A (zh) * 2020-01-20 2020-06-16 北京百度网讯科技有限公司 数据聚合处理方法、装置、设备及存储介质
CN111310784A (zh) * 2020-01-14 2020-06-19 支付宝(杭州)信息技术有限公司 资源数据的处理方法及装置
CN112214535A (zh) * 2020-10-22 2021-01-12 上海明略人工智能(集团)有限公司 一种相似度计算方法、系统、电子设备及存储介质
CN112364264A (zh) * 2020-11-27 2021-02-12 支付宝(杭州)信息技术有限公司 一种风险防控方法、装置及设备
CN112446435A (zh) * 2020-12-10 2021-03-05 长春理工大学 一种城市数据分类方法及系统

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103168303A (zh) * 2010-08-05 2013-06-19 霍夫曼-拉罗奇有限公司 用于聚合任务数据对象并且用于提供聚合视图的方法
US20130325825A1 (en) * 2012-05-29 2013-12-05 Scott Pope Systems And Methods For Quantile Estimation In A Distributed Data System
US20160246853A1 (en) * 2012-05-29 2016-08-25 Sas Institute Inc. Systems and methods for quantile determination in a distributed data system
CN107645533A (zh) * 2016-07-22 2018-01-30 阿里巴巴集团控股有限公司 数据处理方法、数据发送方法、风险识别方法及设备
EP3367260A1 (en) * 2017-02-24 2018-08-29 Nokia Solutions and Networks Oy Method and device for data analysis
US10505963B1 (en) * 2017-11-01 2019-12-10 EMC IP Holding Company LLC Anomaly score generation based on adaptive clustering of user location
US20190325514A1 (en) * 2018-04-24 2019-10-24 Alibaba Group Holding Limited Credit risk prediction method and device based on lstm model
CN110675263A (zh) * 2019-09-27 2020-01-10 支付宝(杭州)信息技术有限公司 交易数据的风险识别方法以及装置
CN111090708A (zh) * 2019-10-11 2020-05-01 支付宝(杭州)信息技术有限公司 基于数据仓库的用户特征产出方法和系统
CN111310784A (zh) * 2020-01-14 2020-06-19 支付宝(杭州)信息技术有限公司 资源数据的处理方法及装置
CN111291082A (zh) * 2020-01-20 2020-06-16 北京百度网讯科技有限公司 数据聚合处理方法、装置、设备及存储介质
CN112214535A (zh) * 2020-10-22 2021-01-12 上海明略人工智能(集团)有限公司 一种相似度计算方法、系统、电子设备及存储介质
CN112364264A (zh) * 2020-11-27 2021-02-12 支付宝(杭州)信息技术有限公司 一种风险防控方法、装置及设备
CN112446435A (zh) * 2020-12-10 2021-03-05 长春理工大学 一种城市数据分类方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
TED DUNNING 等: "Computing Extremely Accurate Quantiles Using t-Digests", 《HTTPS://ARXIV.ORG/PDF/1902.04023.PDF》 *
子阳: "一种基于实时分位数计算的系统及方法", 《HTTPS://MP.WEIXIN.QQ.COM/S/GW77I4EFYITP74Z3ZNANHA》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115098271A (zh) * 2022-08-25 2022-09-23 北京医百科技有限公司 一种多线程数据处理方法、装置、设备及介质
CN115098271B (zh) * 2022-08-25 2022-12-02 北京医百科技有限公司 一种多线程数据处理方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN110020938B (zh) 交易信息处理方法、装置、设备及存储介质
CN101166159B (zh) 一种确定垃圾信息的方法及系统
CN108665143B (zh) 风控模型的评估方法及装置
CN110443618B (zh) 风控策略的生成方法及装置
CN111310784B (zh) 资源数据的处理方法及装置
CN110691082B (zh) 风险事件的处理方法及装置
TWI718379B (zh) 針對使用共享物品的使用者評估方法、裝置及設備
CN108694574B (zh) 一种资源转移渠道的处理方法、装置及设备
CN110322295B (zh) 关系强度确定方法及系统、服务器、计算机可读介质
CN111090780A (zh) 可疑交易信息的确定方法及装置、存储介质、电子设备
CN115660711A (zh) 用户id生成方法、装置、电子设备及可读存储介质
CN113344104A (zh) 一种数据处理方法、装置、设备及介质
CN107391564B (zh) 数据转换方法、装置以及电子设备
CN108984790A (zh) 一种数据分箱方法及装置
CN110969483B (zh) 一种识别商户位置的方法、装置及电子设备
CN109039695B (zh) 业务故障处理方法、装置及设备
CN112364264B (zh) 一种风险防控方法、装置及设备
CN113657635A (zh) 一种预测通信用户流失的方法及电子设备
CN116149959B (zh) 一种数据处理装置、方法、监测设备以及计算机程序产品
CN112884478B (zh) 一种数据处理方法、装置及设备
WO2024113932A1 (zh) 一种模型优化的方法、装置、设备及存储介质
CN112990966B (zh) 权益调整处理方法及装置
CN111651750A (zh) 用户账号扩展方法、装置、电子设备及介质
CN112732196B (zh) 规则数据存储方法、装置及存储介质
CN115456788B (zh) 一种风险群组的检测方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination