CN110880040A - 自动生成累积特征的方法及系统 - Google Patents

自动生成累积特征的方法及系统 Download PDF

Info

Publication number
CN110880040A
CN110880040A CN201911086011.5A CN201911086011A CN110880040A CN 110880040 A CN110880040 A CN 110880040A CN 201911086011 A CN201911086011 A CN 201911086011A CN 110880040 A CN110880040 A CN 110880040A
Authority
CN
China
Prior art keywords
feature
features
aggregation
event
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911086011.5A
Other languages
English (en)
Inventor
苗加成
李文博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN201911086011.5A priority Critical patent/CN110880040A/zh
Publication of CN110880040A publication Critical patent/CN110880040A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features

Abstract

本申请公开了一种自动生成累积特征的方法及其系统。该方法包括:预先对N种特征类型分别设置N个聚合函数集合,每个函数集合包含一种或多种聚合函数,用于对对应类型的特征进行聚合,N为正整数;对于每一个主体特征,获取与该主体特征相关的事件的各个特征,对所获取的每一个特征根据其特征类型使用对应的聚合函数集合中的聚合函数分别进行聚合,其中每一个聚合函数得到一个聚合特征;将通过聚合所得的各个聚合特征组成备选的累积特征集合。

Description

自动生成累积特征的方法及系统
技术领域
本说明书涉及人工智能技术领域。
背景技术
在机器学习领域,经常需要设计主体在历史一段时间的累积特征。常规的累积特征都是由有经验的专家进行人工设计,对专家经验强依赖,且耗时耗力,容易遗漏重要特征。
发明内容
本说明书提供了一种自动生成累积特征的方法及系统,可以自动生成有可能被使用的所有累积特征,使机器学习模型设计过程更加智能化。
本申请公开了一种自动生成累积特征的方法,包括:
预先对于N种特征类型,分别设置N个聚合函数集合,每个函数集合中包含一种或多种聚合函数,用于对对应类型的特征进行聚合,N为正整数;
对于每一个主体特征,获取与该主体特征相关的事件的各个特征,对所获取的每一个特征根据其特征类型使用对应的聚合函数集合中的聚合函数分别进行聚合,其中每一个聚合函数得到一个聚合特征;
将通过聚合所得的各个聚合特征组成备选的累积特征集合。
在一个优选例中,所述对于每一个主体特征,获取与该主体特征相关的事件的各个特征,对所获取的每一个特征根据其特征类型使用对应的聚合函数集合中的聚合函数分别进行聚合,进一步包括:
预先设置多个不同长度的时间窗口,在每一个时间窗口中,对于每一个主体特征,获取与该主体特征相关的事件的各个特征,对所获取的每一个特征根据其特征类型使用对应的聚合函数集合中的聚合函数分别进行聚合。
在一个优选例中,所述主体特征是单个的特征和/或多个特征的组合。
在一个优选例中,所述N种特征类型包括以下之一或其任意组合:
类别型,数值型,布尔型。
在一个优选例中,所述聚合函数集合包括对类别型特征的聚合函数,对数值型特征的聚合函数,和对布尔型特征的聚合函数。
在一个优选例中,所述类别型特征的聚合函数包括以下之一或其任意组合:非空值计数,特异值计数;
所述数值型特征的聚合函数包括以下之一或其任意组合:求和,求最大值,求最小值,求均值,求中位数,求标准差;
所述布尔型特征的聚合函数包括以下之一或其任意组合:求和、求平均值。
在一个优选例中,所述对于每一个主体特征,获取与该主体特征相关的事件的各个特征,对所获取的每一个特征根据其特征类型使用对应的聚合函数集合中的聚合函数分别进行聚合,其中每一个聚合函数得到一个聚合特征,进一步包括:
根据事件记录的数据生成图,其中,每一条事件记录作为一个事件节点,各事件记录中每一个主体类型的值分别作为一个主体特征节点,并与包含该值的各事件记录所对应的事件节点连接;
进行至少一次迭代操作,将各次迭代操作所得的各个主体特征向量或事件特征向量级联后得到所述图的图嵌入向量,其中第K次迭代操作的步骤如下:
对于每一个主体特征节点,使用预先设定的聚合函数集合中的各聚合函数,对于与该主体特征节点相连的所有事件节点的第K-1次迭代的事件特征向量中的特征,分别根据该特征的类型使用相应的聚合函数进行聚合,将聚合所得的各聚合特征级联,得到该主体特征节点的第K次迭代的主体特征向量;
对于每一个事件节点,将与该事件节点相连的主体特征节点的第K次迭代的主体特征向量级联,得到该事件节点的第K次迭代的事件特征向量。
在一个优选例中,所述将通过聚合所得的各个聚合特征组成备选的累积特征集合,进一步包括:
将各次迭代操作所得的各个主体特征向量级联,得到图嵌入向量,该图嵌入向量中的每一个特征对应一个累积特征,该图嵌入向量中各个特征所组成的集合就构成所述备选的累积特征集合。
在一个优选例中,所述进行至少一次迭代操作之前,还包括设定主体特征向量和事件特征向量的初始值;
所述主体特征向量和事件特征向量的初始值为空向量。
本申请还公开了一种自动生成累积特征的系统包括:
设置模块,用于对N种特征类型分别设置N个聚合函数集合,每个函数集合中包含一种或多种聚合函数,用于对对应类型的特征进行聚合,N为正整数;
聚合模块,用于对于每一个主体特征,获取与该主体特征相关的事件的各个特征,对所获取的每一个特征根据其特征类型使用对应的聚合函数集合中的聚合函数分别进行聚合,其中每一个聚合函数得到一个聚合特征;
集成模块,用于将通过聚合所得的各个聚合特征组成备选的累积特征集合。
在一个优选例中,所述聚合模块还用于,在每一个预先设置的多个不同长度的时间窗口中,对于每一个主体特征,获取与该主体特征相关的事件的各个特征,对所获取的每一个特征根据其特征类型使用对应的聚合函数集合中的聚合函数分别进行聚合。
在一个优选例中,所述主体特征是单个的特征和/或多个特征的组合。
在一个优选例中,所述N种特征类型包括以下之一或其任意组合:
类别型,数值型,布尔型。
在一个优选例中,所述聚合函数集合包括对类别型特征的聚合函数,对数值型特征的聚合函数,和对布尔型特征的聚合函数。
在一个优选例中,所述类别型特征的聚合函数包括以下之一或其任意组合:非空值计数,特异值计数;
所述数值型特征的聚合函数包括以下之一或其任意组合:求和,求最大值,求最小值,求均值,求中位数,求标准差;
所述布尔型特征的聚合函数包括以下之一或其任意组合:求和、求平均值。
在一个优选例中,所述聚合模块进一步包括:
图生成子模块,用于根据事件记录的数据生成图,其中,每一条事件记录作为一个事件节点,各事件记录中每一个主体类型的值分别作为一个主体特征节点,并与包含该值的各事件记录所对应的事件节点连接;
迭代子模块,用于对于每一个主体特征节点,使用预先设定的聚合函数集合中的各聚合函数,对于与该主体特征节点相连的所有事件节点的第K-1次迭代的事件特征向量中的特征,分别根据该特征的类型使用相应的聚合函数进行聚合,将聚合所得的各聚合特征级联,得到该主体特征节点的第K次迭代的主体特征向量,此后,对于每一个事件节点,将与该事件节点相连的主体特征节点的第K次迭代的主体特征向量级联,得到该事件节点的第K次迭代的事件特征向量。
控制子模块,用于控制所述迭代子模块进行至少一次迭代操作,将各次迭代操作所得的各个主体特征向量或事件特征向量级联后得到所述图的图嵌入向量。
在一个优选例中,还包括初始值设定子模块,用于设定主体特征向量和事件特征向量的初始值;
所述主体特征向量和事件特征向量的初始值为空向量。
本申请还公开了一种自动生成累积特征的系统包括:
存储器,用于存储计算机可执行指令;以及,
处理器,与所述存储器耦合,用于在执行所述计算机可执行指令时实现如前文描述的方法中的步骤。
本申请还公开了一种计算机可读存储介质所述计算机可读存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器执行时实现如前文描述的方法中的步骤。
本说明书实施方式只需根据业务经验,确定各个要素集合中的元素,即可自动生成有可能被使用的所有累积特征,过程简单、可控。
本说明书实施方式还公开了一种特殊的图嵌入方法,使得累积特征的自动生成完备而高效。
本说明书中记载了大量的技术特征,分布在各个技术方案中,如果要罗列出本申请所有可能的技术特征的组合(即技术方案)的话,会使得说明书过于冗长。为了避免这个问题,本说明书上述发明内容中公开的各个技术特征、在下文各个实施方式和例子中公开的各技术特征、以及附图中公开的各个技术特征,都可以自由地互相组合,从而构成各种新的技术方案(这些技术方案均应该视为在本说明书中已经记载),除非这种技术特征的组合在技术上是不可行的。例如,在一个例子中公开了特征A+B+C,在另一个例子中公开了特征A+B+D+E,而特征C和D是起到相同作用的等同技术手段,技术上只要择一使用即可,不可能同时采用,特征E技术上可以与特征C相组合,则,A+B+C+D的方案因技术不可行而应当不被视为已经记载,而A+B+C+E的方案应当视为已经被记载。
附图说明
图1是根据本说明书第一实施方式的自动生成累积特征的方法流程示意图;
图2是根据本说明书一个实施例的以图嵌入的方式获取备选的累积特征的流程示意图;
图3是根据本说明书一个实施例的异构图示意图;
图4是根据本说明书第二实施方式的自动生成累积特征的系统结构示意图。
具体实施方式
在以下的叙述中,为了使读者更好地理解本申请而提出了许多技术细节。但是,本领域的普通技术人员可以理解,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请所要求保护的技术方案。
部分概念的说明如下:
累积型变量(velocity变量),一种变量,一般包含多个参数,且这多个参数中的至少一个参数可基于一定的累积时间和累积方式累积得到。作为一个例子,这多个参数可以包括累积主体、累积时间、累积指标和累积方式,当然还可以包含其他参数。这多个参数任意组合或按一定的顺序组合即可得到一个累积型变量。例如,如果将累积主体、累积时间、累积指标和累积方式这四个参数分别用a、b、c、d表示,将其他参数用e表示,可以得到V=velocity(a,b,c,d,e)这样一个累积型变量,或者得到V=velocity(a,c,d,b,e)这样一个累积型变量,等等。其他参数e是可选的,也可以没有。其中,累积主体例如可以是设备或账户等,累积时间例如可以为过去2小时或过去7天等,累积指标例如可以为消费金额或消费次数等,累积方式例如可以为求最大值、求和或求平均值等;其他参数例如可以为是否由手机操作或是否为实物交易等等。具体的,假如a为“账户A”,b为“过去7天”,c为“消费金额”,d为“求和”,e为“实物交易场景”。累积型变量V=velocity(a,b,c,d,e)表示的含义可以为:“账户A”上“过去7天”的“消费金额”的“总和”仅限“实物交易场景”。累积型变量为V=velocity(b,a,c,d,e)表示的含义可以为:“过去7天”“账户A”上的“消费金额”的“总和”仅限“实物交易场景”。
主体特征:可以进行累积的特征。
非主体特征:特征向量中除主体特征之外的其他特征。
图嵌入:即用一个低维、稠密的向量去表示图中的点,该向量表示能反映图中的结构。
级联:将多个特征和/或向量按照次序依次填入一个新向量中,或者说按照一定的次序对特征和/或向量进行组合。
下面将结合附图对本说明书的实施方式作进一步地详细描述。
本说明书的第一实施方式涉及一种自动生成累积特征的方法,其流程如图1所示,该方法包括以下步骤:
在步骤102中,预先对于N种特征类型,分别设置N个聚合函数集合,每个函数集合中包含一种或多种聚合函数,用于对对应类型的特征进行聚合,N为正整数。
此后进入步骤104,对于每一个主体特征,获取与该主体特征相关的事件的各个特征,对所获取的每一个特征根据其特征类型使用对应的聚合函数集合中的聚合函数分别进行聚合,其中每一个聚合函数得到一个聚合特征。
此后进入步骤106,将通过聚合所得的各个聚合特征组成备选的累积特征集合。
可选地,在一个实施例中,如果需要按照多个不同长度的时间窗口分别生成累积特征,可以置多个不同长度的时间窗口,分别在每一个时间窗口中执行步骤104,如此可以得到对应不同时间窗口的各种聚合特征,再在步骤106中将所有时间窗口下得到的各种聚合特征都组合起来,得到备选的累积特征集合。
主体特征的形式有多种。可选地,主体特征是单个的特征,例如用户标识或MAC地址。可选地,主体特征是多个特征的组合,例如用户标识和MAC地址组成的一个组合特征(即一个特征中包含用户标识和MAC地址的信息)。可选地,主体特征是并存的单个特征和多个特征,例如同时使用用户标识、MAC地址、以及用户标识和MAC地址的组合这三个主体特征。
可选地,在一个实施例中,特征的类型可以是类别型,数值型,布尔型等等。在某些实施例中,类别型可以是字符串型。在某些实施例中,还可以包括其他的特征类型,例如用户自定义的特征类型。
可选地,在一个实施例中,聚合函数集合包括对类别型特征的聚合函数,对数值型特征的聚合函数,和对布尔型特征的聚合函数。类别型特征的聚合函数可以是非空值计数,特异值计数,等等。数值型特征的聚合函数可以是求和,求最大值,求最小值,求均值,求中位数,求标准差,等等。布尔型特征的聚合函数可以是:求和、求平均值。
可选地,在一个实施例中,使用图嵌入的方式获取备选的累积特征。其中,步骤104和106可以进一步通过以下子步骤实现,具体如图2所示:
子步骤202,根据事件记录的数据生成图,其中,每一条事件记录作为一个事件节点,各事件记录中每一个主体类型的值分别作为一个主体特征节点,并与包含该值的各事件记录所对应的事件节点连接。
此后进入子步骤204,对于每一个主体特征节点,使用预先设定的聚合函数集合中的各聚合函数,对与该主体特征节点相连的所有事件节点的第K-1次迭代的事件特征向量中的特征分别进行聚合(被聚合的特征不包括该主体特征节点所对应的主体特征本身以及由该主体特征生成的特征),将聚合所得的各聚合特征级联,得到该主体特征节点的第K次迭代的主体特征向量。其中K是当前迭代的次数序号。K是表示当前迭代次数的变量,取值范围是1到预定的迭代次数上限,在第一次迭代时K=1,之后每一次迭代K的值都增加1,即在第二次迭代时K=2,在第三次迭代时K=3,以此类推。
可选地,在一个实施例中,聚合函数集合中包括对类别型特征的聚合函数,对数值型特征的聚合函数,和对布尔型特征的聚合函数。在步骤104中对事件特征向量中的特征分别进行聚合时,根据特征的类型使用相应的聚合函数进行聚合,也就是说对不同类型的特征分别使用该类型对应的聚合函数进行聚合。通常一个类型的特征在聚合函数集中有多个聚合函数与之对应,那对这个类型的每一个特征需要使用对应的多个聚合函数分别进行聚合操作,得到多个聚合结果。
聚合函数可以是多种多样的。对于类别型特征的聚合函数可以是非空值计数,特异值计数,等等。对于数值型特征的聚合函数可以是求和,求最大值,求最小值,求均值,求中位数,求标准差,等等。对于布尔型特征的聚合函数可以是求和、求平均值,等等。
此后进入子步骤206,对于每一个事件节点,将与该事件节点相连的主体特征节点的第K次迭代的主体特征向量级联,得到该事件节点的第K次迭代的事件特征向量。
此后进入子步骤208,判断是否满足迭代结束条件,如果满足则进入子步骤210,否则将K的值增加1并回到子步骤204继续执行下一次迭代。
在子步骤210,将各次迭代操作所得的各个主体特征向量或事件特征向量级联后得到图的图嵌入向量。该图嵌入向量中的每一个特征对应一个累积特征,该图嵌入向量中各个特征所组成的集合就构成备选的累积特征集合。
可选地,在一个实施例中,上述各子步骤所涉及的各种级联操作都是根据预先设定的顺序进行级联的。
在子步骤202之后,子步骤204之前,还可以包括设定主体特征向量和事件特征向量的初始值的子步骤。在一个实施例中,主体特征向量和事件特征向量的初始值为空向量。在某些实施例中,主体特征向量和事件特征向量的初始值不是空向量,本领域技术人员可以根据特定应用场景的需要进行设定。
上述图嵌入方法的迭代次数决定了累积特征的“深度”,如例如,一个人每天访问了多少个IP地址,这个是一度的,而这些IP地址每天平均有多少人访问就是二度的,为了计算这个二度的累积特征,首先是要得到这所有的IP地址上每天访问的人数,然后还要再得到指定的这个人他所涉及到的IP地址上的一个平均访问人数。当迭代次数是1的时候,可以得到所有一度的累积特征,当迭代次数是2的时候,可以得到所有二度的累积特征,以此类推。只要预先设定迭代次数,就可以自动得到相应“深度”内的所有累积特征,由此可以看出本方案的优势。
上述图嵌入方式和现有的图嵌入方式是有很大区别的。上述图嵌入方式是针对异构图的,而当前关于图嵌入研究主要集中在同构图上,由于异构图节点类型复杂,节点向量不一致等原因,在异构图图嵌入方向的研究较少,在目前已知的范围内没有成功的工业案例。图嵌入领域比较成熟的算法,如deepwalk,node2vec,GCN等算法都是针对同构图,对异构图的图嵌入无法直接应用。上述图嵌入方式的一个优点是无监督且无需训练模型,不需要对数据进行预先的标定。
通过本实施方式的技术方案,可以根据事件记录的数据,一次性生成所有可以被使用的累积特征,之后可以根据业务需要在其中选择最有价值的累计特征来使用。本方案的一个优势是自动的,不要人为的干预,另一个优势是全面,通过预先设定迭代次数,可以得到所有可能的累计特征,不会遗漏任何一个有可能有意义的一个累计特征。
为了能够更好地理解本说明书的技术方案,下面结合一个具体的例子来进行说明,该例子中罗列的细节主要是为了便于理解,不作为对本申请保护范围的限制。
假设事件数据集D(N行M列),有N个事件(每个事件有唯一的event_id),每个事件的事件特征向量FE包含M个特征。根据实际场景定义,M个特征中包含M1个主体特征和M2个非主体特征,M=M1+M2。
每个主体包括主体id(subject_id)和主体类型(subject_type)和以及主体特征向量FS
FE的特征通常可分为三类:
Categorical:类别型
Numerical:数值型
Boolean:布尔型,特征值为0/1(False/True)
主体特征一般都是类别型的特征,一般具有特定的含义,是独立个体的对象,例如IP地址(简称IP)、MAC地址(简称MAC)、账户类型等等。一个特征是否要进行累积,可以通过输入参数来确定。
例如,通过移动支付购买商品的一个事件如下:
Figure BDA0002265429750000121
其中涉及的三个主体如下:
支付账号 帐龄/天 账户余额/元
U2001 100 20.00
支付ip 是否代理ip
10.0.0.0 1
Figure BDA0002265429750000122
根据以上数据,定义event_id和subject_id
Event_id F<sub>E</sub>
1001 (U2001,10.0.0.0,aa-bb-cc-dd-ee-ff,20.01,充值卡,0)
其中特征按类型分布如下:
Categorical:u2001,10.0.0.0,aa-bb-cc-dd-ee-ff,充值卡(商品类型)
Numerical:20.01(支付金额)
Boolean:0(是否免密支付)
subject_id subject_type F<sub>S</sub>
U2001 支付账号 (100,20.00)
10.0.0.0 支付ip (1)
aa-bb-cc-dd-ee-ff 支付mac None
将event_id和各个主体subject_id作为节点构建异构图,可以得到类似图3的图。其中每一条事件记录对应一个事件节点,如果第一类主体特征节点是支付IP地址,第二类主体特征节点是支付MAC地址的话,每一个特定的支付IP地址都是一个第一类的主体特征节点,每一个特定的支付MAC地址都是一个第二类主体特征节点。例如,如果两条事件记录都涉及同一个支付IP地址的话,那这两条事件记录对应的事件节点都会和代表该支付IP地址的主体特征节点有一条边连接。
该异构图的构建过程可以用伪代码表示如下:
Figure BDA0002265429750000131
其中node就是节点,edge是图中的边,Init代表初始化。
图中包含事件节点和各种主体特征节点。根据图构建过程的定义,事件节点的一度邻居都是主体特征节点。主体特征节点的一度邻居都是事件节点。
下面说明对上述例子中的异构图进行图嵌入的方法。
先定义主体聚合函数集FuncAgg的输入、函数和输出。
输入:相同类型的多个节点的特征向量构成数据集D′∈Rn*m,其中n为节点数量,m为节点特征数量。
函数:定义聚合函数集{f},p为函数数量,每个函数将一个特征的n个值聚合成一个值。为不同特征类型定义不同的聚合函数。对每个特征i,利用聚合函数集生成聚合特征{f(i)}。然后将这些聚合特征按照预定顺序级联生成特征向量。
输出:特征向量。假设Categorical、Numerical、Boolean特征的数量分别是m1,m2,m3,每类特征定义的聚合函数为t1,t2,t3,则输出的特征向量中的特征数量为m1*t1+m2*t2+m3*t3。
图嵌入的过程可以用伪代码表示如下:
初始化
迭代次数:k=1
最大迭代次数:KMAX
事件节点初始特征向量:
Figure BDA0002265429750000141
可以为空,
主体特征节点初始特征向量:
Figure BDA0002265429750000142
While k<KMAX:(当k<KMAX时进行以下循环)
步骤1:主体特征节点特征聚合。
For Si in subject_ids:(For A in B伪代码语句的含义是对于B集合中的每一个A执行下面步骤)
在图中搜索该节点所有的一度邻居(E1,…,Em),即和该节点相连的所有事件节点。
对所有事件节点,除主体特征节点Si或由Si生成的特征外,用聚合函数生成主体特征向量:
Figure BDA0002265429750000143
其中,
Figure BDA0002265429750000144
为主体特征节点在第k次迭代的聚合函数集,对于不同的迭代次数原则上可以设定不同的聚合函数集。
步骤2:事件节点特征汇总。
For Ei in event_ids:
在图中搜索该节点一度邻居中主体特征节点(S1,…,Sm1),按照主体特征节点的类型排序并级联(concatenate)成事件特征向量:
Figure BDA0002265429750000151
最后将各次迭代所得的主体特征向量和事件特征向量按照预定顺序级联起来,得到主体特征节点图嵌入后的特征向量
Figure BDA0002265429750000152
和事件节点图嵌入后的特征向量
Figure BDA0002265429750000153
用伪代码可以表示如下:
Figure BDA0002265429750000154
Figure BDA0002265429750000155
中的各个特征就构成了备选的累积特征集合。
在一个实施例中,迭代的次数上限KMAX等于2。在另一些实施例中,如果特征比较少,KMAX也可以取更大的值。
上述图嵌入的方法还可以应用到许多场景。
本说明书的第二实施方式涉及一种自动生成累积特征的系统,其结构如图4所示,该系统包括:
设置模块,用于对N种特征类型分别设置N个聚合函数集合,每个函数集合中包含一种或多种聚合函数,用于对对应类型的特征进行聚合,N为正整数。
聚合模块,用于对于每一个主体特征,获取与该主体特征相关的事件的各个特征,对所获取的每一个特征根据其特征类型使用对应的聚合函数集合中的聚合函数分别进行聚合,其中每一个聚合函数得到一个聚合特征。
集成模块,用于将通过聚合所得的各个聚合特征组成备选的累积特征集合。
可选地,在一个实施例中,如果需要按照多个不同长度的时间窗口分别生成累积特征,可以置多个不同长度的时间窗口,分别在每一个时间窗口中使用聚合模块进行聚合,如此可以得到对应不同时间窗口的各种聚合特征,再通过集成模块将所有时间窗口下得到的各种聚合特征都组合起来,得到备选的累积特征集合。
主体特征的形式有多种。可选地,主体特征是单个的特征,例如用户标识或MAC地址。可选地,主体特征是多个特征的组合,例如用户标识和MAC地址组成的一个组合特征。可选地,主体特征是并存的单个特征和多个特征,例如同时使用用户标识、MAC地址、以及用户标识和MAC地址的组合这三个主体特征。
可选地,在一个实施例中,特征的类型可以是类别型,数值型,布尔型等等。在某些实施例中,类别型可以是字符串型。在某些实施例中,还可以包括其他的特征类型,例如用户自定义的特征类型。
可选地,在一个实施例中,聚合函数集合包括对类别型特征的聚合函数,对数值型特征的聚合函数,和对布尔型特征的聚合函数。类别型特征的聚合函数可以是非空值计数,特异值计数,等等。数值型特征的聚合函数可以是求和,求最大值,求最小值,求均值,求中位数,求标准差,等等。布尔型特征的聚合函数可以是:求和、求平均值,等等。
可选地,在一个实施例中,聚合模块可以使用图嵌入的方式获取备选的累积特征。具体地说,聚合模块可以包括以下子模块:
图生成子模块,用于根据事件记录的数据生成图,其中,每一条事件记录作为一个事件节点,各事件记录中每一个主体类型的值分别作为一个主体特征节点,并与包含该值的各事件记录所对应的事件节点连接。
迭代子模块,用于对于每一个主体特征节点,使用预先设定的聚合函数集合中的各聚合函数,对于与该主体特征节点相连的所有事件节点的第K-1次迭代的事件特征向量中的特征,分别根据该特征的类型使用相应的聚合函数进行聚合,将聚合所得的各聚合特征级联,得到该主体特征节点的第K次迭代的主体特征向量,此后,对于每一个事件节点,将与该事件节点相连的主体特征节点的第K次迭代的主体特征向量级联,得到该事件节点的第K次迭代的事件特征向量。
控制子模块,用于控制迭代子模块进行至少一次迭代操作,将各次迭代操作所得的各个主体特征向量或事件特征向量级联后得到图的图嵌入向量。
初始值设定子模块,用于设定主体特征向量和事件特征向量的初始值。该子模块是可选的。在一个实施例中,主体特征向量和事件特征向量的初始值为空向量。
第一实施方式是与本实施方式相对应的方法实施方式,第一实施方式中的技术细节可以应用于本实施方式,本实施方式中的技术细节也可以应用于第一实施方式。
需要说明的是,本领域技术人员应当理解,上述自动生成累积特征的系统的实施方式中所示的各模块的实现功能可参照前述自动生成累积特征的方法的相关描述而理解。上述自动生成累积特征的实施方式中所示的各模块的功能可通过运行于处理器上的程序(可执行指令)而实现,也可通过具体的逻辑电路而实现。本说明书实施例上述自动生成累积特征的系统如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本说明书实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本说明书各个实施例所述方法的全部或部分。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。这样,本说明书实施例不限制于任何特定的硬件和软件结合。
相应地,本说明书实施方式还提供一种计算机可读存储介质,其中存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现本说明书的各方法实施方式。计算机可读存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括但不限于,相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读存储介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
此外,本说明书实施方式还提供一种自动生成累积特征的系统,其中包括用于存储计算机可执行指令的存储器,以及,处理器;该处理器用于在执行该存储器中的计算机可执行指令时实现上述各方法实施方式中的步骤。
在一个实施例中,该处理器可以是中央处理单元(Central Processing Unit,简称“CPU”),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,简称“DSP”)、专用集成电路(Application Specific Integrated Circuit,简称“ASIC”)等。前述的存储器可以是只读存储器(read-only memory,简称“ROM”)、随机存取存储器(randomaccess memory,简称“RAM”)、快闪存储器(Flash)、硬盘或者固态硬盘等。本发明各实施方式所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。在一个实施例中,该自动生成累积特征还包括总线和通信接口。处理器、存储器和通信接口都通过总线相互连接。通信接口可以是无线通信接口也可以是有线通信接口,用于使得处理器能够与其他的装置通信。
需要说明的是,在本专利的申请文件中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。本专利的申请文件中,如果提到根据某要素执行某行为,则是指至少根据该要素执行该行为的意思,其中包括了两种情况:仅根据该要素执行该行为、和根据该要素和其它要素执行该行为。多个、多次、多种等表达包括2个、2次、2种以及2个以上、2次以上、2种以上。
在本说明书提及的所有文献都被认为是整体性地包括在本说明书的公开内容中,以便在必要时可以作为修改的依据。此外应理解,以上所述仅为本说明书的较佳实施例而已,并非用于限定本说明书的保护范围。凡在本说明书一个或多个实施例的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本说明书一个或多个实施例的保护范围之内。
在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描述的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。

Claims (19)

1.一种自动生成累积特征的方法,包括:
预先对于N种特征类型,分别设置N个聚合函数集合,每个函数集合中包含一种或多种聚合函数,用于对对应类型的特征进行聚合,N为正整数;
对于每一个主体特征,获取与该主体特征相关的事件的各个特征,对所获取的每一个特征根据其特征类型使用对应的聚合函数集合中的聚合函数分别进行聚合,其中每一个聚合函数得到一个聚合特征;
将通过聚合所得的各个聚合特征组成备选的累积特征集合。
2.如权利要求1所述的自动生成累积特征的方法,其中,所述对于每一个主体特征,获取与该主体特征相关的事件的各个特征,对所获取的每一个特征根据其特征类型使用对应的聚合函数集合中的聚合函数分别进行聚合,进一步包括:
预先设置多个不同长度的时间窗口,在每一个时间窗口中,对于每一个主体特征,获取与该主体特征相关的事件的各个特征,对所获取的每一个特征根据其特征类型使用对应的聚合函数集合中的聚合函数分别进行聚合。
3.如权利要求1所述的自动生成累积特征的方法,其中,所述主体特征是单个的特征和/或多个特征的组合。
4.如权利要求1所述的自动生成累积特征的方法,其中,所述N种特征类型包括以下之一或其任意组合:
类别型,数值型,布尔型。
5.如权利要求4所述的自动生成累积特征的方法,其中,所述聚合函数集合包括对类别型特征的聚合函数,对数值型特征的聚合函数,和对布尔型特征的聚合函数。
6.如权利要求5所述的自动生成累积特征的方法,其中,
所述类别型特征的聚合函数包括以下之一或其任意组合:非空值计数,特异值计数;
所述数值型特征的聚合函数包括以下之一或其任意组合:求和,求最大值,求最小值,求均值,求中位数,求标准差;
所述布尔型特征的聚合函数包括以下之一或其任意组合:求和、求平均值。
7.如权利要求1-6中任意一项所述的自动生成累积特征的方法,其中,所述对于每一个主体特征,获取与该主体特征相关的事件的各个特征,对所获取的每一个特征根据其特征类型使用对应的聚合函数集合中的聚合函数分别进行聚合,其中每一个聚合函数得到一个聚合特征,进一步包括:
根据事件记录的数据生成图,其中,每一条事件记录作为一个事件节点,各事件记录中每一个主体类型的值分别作为一个主体特征节点,并与包含该值的各事件记录所对应的事件节点连接;
进行至少一次迭代操作,将各次迭代操作所得的各个主体特征向量或事件特征向量级联后得到所述图的图嵌入向量,其中第K次迭代操作的步骤如下:
对于每一个主体特征节点,使用预先设定的聚合函数集合中的各聚合函数,对于与该主体特征节点相连的所有事件节点的第K-1次迭代的事件特征向量中的特征,分别根据该特征的类型使用相应的聚合函数进行聚合,将聚合所得的各聚合特征级联,得到该主体特征节点的第K次迭代的主体特征向量;
对于每一个事件节点,将与该事件节点相连的主体特征节点的第K次迭代的主体特征向量级联,得到该事件节点的第K次迭代的事件特征向量。
8.如权利要求7所述的自动生成累积特征的方法,其中,所述将通过聚合所得的各个聚合特征组成备选的累积特征集合,进一步包括:
将各次迭代操作所得的各个主体特征向量级联,得到图嵌入向量,该图嵌入向量中的每一个特征对应一个累积特征,该图嵌入向量中各个特征所组成的集合就构成所述备选的累积特征集合。
9.如权利要求8所述的图嵌入方法,其中,所述进行至少一次迭代操作之前,还包括设定主体特征向量和事件特征向量的初始值;
所述主体特征向量和事件特征向量的初始值为空向量。
10.一种自动生成累积特征的系统,包括:
设置模块,用于对N种特征类型分别设置N个聚合函数集合,每个函数集合中包含一种或多种聚合函数,用于对对应类型的特征进行聚合,N为正整数;
聚合模块,用于对于每一个主体特征,获取与该主体特征相关的事件的各个特征,对所获取的每一个特征根据其特征类型使用对应的聚合函数集合中的聚合函数分别进行聚合,其中每一个聚合函数得到一个聚合特征;
集成模块,用于将通过聚合所得的各个聚合特征组成备选的累积特征集合。
11.如权利要求10所述的自动生成累积特征的系统,其中,所述聚合模块还用于,在每一个预先设置的多个不同长度的时间窗口中,对于每一个主体特征,获取与该主体特征相关的事件的各个特征,对所获取的每一个特征根据其特征类型使用对应的聚合函数集合中的聚合函数分别进行聚合。
12.如权利要求10所述的自动生成累积特征的系统,其中,所述主体特征是单个的特征和/或多个特征的组合。
13.如权利要求10所述的自动生成累积特征的系统,其中,所述N种特征类型包括以下之一或其任意组合:
类别型,数值型,布尔型。
14.如权利要求13所述的自动生成累积特征的系统,其中,所述聚合函数集合包括对类别型特征的聚合函数,对数值型特征的聚合函数,和对布尔型特征的聚合函数。
15.如权利要求14所述的自动生成累积特征的系统,其中,
所述类别型特征的聚合函数包括以下之一或其任意组合:非空值计数,特异值计数;
所述数值型特征的聚合函数包括以下之一或其任意组合:求和,求最大值,求最小值,求均值,求中位数,求标准差;
所述布尔型特征的聚合函数包括以下之一或其任意组合:求和、求平均值。
16.如权利要求10-15中任意一项所述的自动生成累积特征的系统,其中,所述聚合模块进一步包括:
图生成子模块,用于根据事件记录的数据生成图,其中,每一条事件记录作为一个事件节点,各事件记录中每一个主体类型的值分别作为一个主体特征节点,并与包含该值的各事件记录所对应的事件节点连接;
迭代子模块,用于对于每一个主体特征节点,使用预先设定的聚合函数集合中的各聚合函数,对于与该主体特征节点相连的所有事件节点的第K-1次迭代的事件特征向量中的特征,分别根据该特征的类型使用相应的聚合函数进行聚合,将聚合所得的各聚合特征级联,得到该主体特征节点的第K次迭代的主体特征向量,此后,对于每一个事件节点,将与该事件节点相连的主体特征节点的第K次迭代的主体特征向量级联,得到该事件节点的第K次迭代的事件特征向量。
控制子模块,用于控制所述迭代子模块进行至少一次迭代操作,将各次迭代操作所得的各个主体特征向量或事件特征向量级联后得到所述图的图嵌入向量。
17.如权利要求16所述的图嵌入系统,其中,还包括初始值设定子模块,用于设定主体特征向量和事件特征向量的初始值;
所述主体特征向量和事件特征向量的初始值为空向量。
18.一种自动生成累积特征的系统,包括:
存储器,用于存储计算机可执行指令;以及,
处理器,与所述存储器耦合,用于在执行所述计算机可执行指令时实现如权利要求1至9中任意一项所述的方法中的步骤。
19.一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器执行时实现如权利要求1至9中任意一项所述的方法中的步骤。
CN201911086011.5A 2019-11-08 2019-11-08 自动生成累积特征的方法及系统 Pending CN110880040A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911086011.5A CN110880040A (zh) 2019-11-08 2019-11-08 自动生成累积特征的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911086011.5A CN110880040A (zh) 2019-11-08 2019-11-08 自动生成累积特征的方法及系统

Publications (1)

Publication Number Publication Date
CN110880040A true CN110880040A (zh) 2020-03-13

Family

ID=69728937

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911086011.5A Pending CN110880040A (zh) 2019-11-08 2019-11-08 自动生成累积特征的方法及系统

Country Status (1)

Country Link
CN (1) CN110880040A (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107609147A (zh) * 2017-09-20 2018-01-19 珠海金山网络游戏科技有限公司 一种从日志流中自动提取特征的方法和系统
CN109471995A (zh) * 2018-10-26 2019-03-15 武汉大学 一种复杂网络的双曲嵌入方法
CN109635954A (zh) * 2018-11-28 2019-04-16 阿里巴巴集团控股有限公司 累积型变量特征自动生成方法及其系统
CN109726315A (zh) * 2018-10-24 2019-05-07 阿里巴巴集团控股有限公司 数据查询方法、装置、计算设备及存储介质
CN109754265A (zh) * 2017-11-01 2019-05-14 阿里巴巴集团控股有限公司 一种数据处理方法及装置
CN109840808A (zh) * 2019-01-31 2019-06-04 国网河南省电力公司经济技术研究院 一种基于改进Shapley值的负荷聚集商利润的分摊方法
CN109948641A (zh) * 2019-01-17 2019-06-28 阿里巴巴集团控股有限公司 异常群体识别方法及装置
CN110147444A (zh) * 2018-11-28 2019-08-20 腾讯科技(深圳)有限公司 神经网络语言模型、文本预测方法、装置及存储介质
CN110210227A (zh) * 2019-06-11 2019-09-06 百度在线网络技术(北京)有限公司 风险检测方法、装置、设备和存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107609147A (zh) * 2017-09-20 2018-01-19 珠海金山网络游戏科技有限公司 一种从日志流中自动提取特征的方法和系统
CN109754265A (zh) * 2017-11-01 2019-05-14 阿里巴巴集团控股有限公司 一种数据处理方法及装置
CN109726315A (zh) * 2018-10-24 2019-05-07 阿里巴巴集团控股有限公司 数据查询方法、装置、计算设备及存储介质
CN109471995A (zh) * 2018-10-26 2019-03-15 武汉大学 一种复杂网络的双曲嵌入方法
CN109635954A (zh) * 2018-11-28 2019-04-16 阿里巴巴集团控股有限公司 累积型变量特征自动生成方法及其系统
CN110147444A (zh) * 2018-11-28 2019-08-20 腾讯科技(深圳)有限公司 神经网络语言模型、文本预测方法、装置及存储介质
CN109948641A (zh) * 2019-01-17 2019-06-28 阿里巴巴集团控股有限公司 异常群体识别方法及装置
CN109840808A (zh) * 2019-01-31 2019-06-04 国网河南省电力公司经济技术研究院 一种基于改进Shapley值的负荷聚集商利润的分摊方法
CN110210227A (zh) * 2019-06-11 2019-09-06 百度在线网络技术(北京)有限公司 风险检测方法、装置、设备和存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CHUXU ZHANG 等: "Heterogeneous Graph Neural Network", 《KDD "19: PROCEEDINGS OF THE 25TH ACM SIGKDD INTERNATIONAL CONFERENCE ON KNOWLEDGE DISCOVERY & DATA MINING》 *
DA SUN HANDASON TAM 等: "Identifying Illicit Accounts in Large Scale E-payment Networks -- A Graph Representation Learning Approach", 《HTTPS://ARXIV.ORG/ABS/1906.05546》 *
SHEN WANG 等: "Heterogeneous Graph Matching Networks", 《HTTPS://ARXIV.ORG/ABS/1910.08074》 *
WILLIAM L. HAMILTON 等: "Inductive Representation Learning on Large Graphs", 《HTTPS://ARXIV.ORG/ABS/1706.02216》 *

Similar Documents

Publication Publication Date Title
US11797838B2 (en) Efficient convolutional network for recommender systems
CN103116639B (zh) 基于用户-物品二分图模型的物品推荐方法及系统
WO2017080398A1 (zh) 一种用户群体的划分方法和装置
CN105099729B (zh) 一种识别用户身份标识的方法和装置
CN107341716A (zh) 一种恶意订单识别的方法、装置及电子设备
CN107066476A (zh) 一种基于物品相似度的实时推荐方法
CN109063966A (zh) 风险账户的识别方法和装置
CN111738628A (zh) 一种风险群组识别方法及装置
CN107016569A (zh) 一种网络产品的目标用户账号获取方法及装置
CN105391594A (zh) 识别特征账号的方法及装置
CN105227352A (zh) 一种用户标识集的更新方法及装置
US20180365339A1 (en) Application classification method and apparatus
CN107592296A (zh) 垃圾账户的识别方法和装置
CN107294974A (zh) 识别目标团伙的方法和装置
CN104992348A (zh) 一种信息展示的方法和装置
CN104376083A (zh) 一种基于关注关系和多用户行为的图推荐方法
CN111260243A (zh) 风险评估方法、装置、设备及计算机可读存储介质
WO2023168856A1 (zh) 一种关联场景推荐方法、装置、存储介质及电子装置
CN105426392A (zh) 一种协同过滤推荐方法及系统
CN110929173A (zh) 同人识别方法、装置、设备及介质
CN104156468B (zh) Api推荐方法及api推荐装置
CN111625688B (zh) 一种基于异构网络的特征聚合方法、装置、设备和存储介质
US20230273924A1 (en) Trimming blackhole clusters
CN110880040A (zh) 自动生成累积特征的方法及系统
CN111611228A (zh) 一种基于分布式数据库的负载均衡调整方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200313

RJ01 Rejection of invention patent application after publication