发明内容
为了解决现有技术的问题,本发明提出了一种用户识别方法、装置、计算机设备,本方法将非主体特征关联起来生成组合特征,克服了电商环境下用户强关联特征难以获取或特征不足的问题,充分利用了非主体特征来构建精准的图模型,进而完成黄牛团伙的识别。
本发明实施例提供的具体技术方案如下:
第一方面,本发明提供一种用户识别方法,所述方法包括:
将预设时间维度内的订单数据和与订单相关的标识数据进行整合;
在整合后的数据中获取主体特征和非主体特征并对满足预设条件的至少两个所述非主体特征进行组合生成组合特征,确定所述主体特征和组合特征的特征值,其中,所述主体特征为可以直接确定订单之间具有关联的特征,所述非主体特征为无法直接确定订单之间具有关联的特征;
将所述订单抽象为订单节点,将所述主体特征和组合特征的特征值抽象为特征节点,将所述订单和对应的特征值之间的关系抽象为边,根据所述订单节点、特征节点及边建立二分图;
对所述二分图进行聚类分析得到聚类结果,根据聚类结果进行可疑用户识别。
优选的,所述方法还包括:
对历史订单数据进行特征提取及统计,识别得到历史非主体特征;
将满足预设条件的至少两个所述历史非主体特征进行组合生成历史组合特征。
优选的,所述方法还包括:
对所述整合后的数据进行数据处理,生成统一数据格式的订单。
优选的,对所述整合后的数据进行数据处理,生成统一数据格式的订单具体包括:
对所述整合后的数据进行字段映射,将不同类型的数据格式转换成相同的主键形式;
对相同主键的数据进行聚合,生成统一数据格式的订单。
优选的,根据所述订单节点、特征节点及边建立二分图具体包括:
获取所述订单的唯一标识及所述主体特征和组合特征的特征值;
对所述唯一标识及特征值进行合并去重及编码处理;
将编码后的唯一标识及特征值与编码前的唯一标识及特征值进行对应关联;
根据关联后的数据建立二分图。
优选的,获取预设时间维度内的订单数据具体包括:
获取生成所述订单所产生的第一数据;
判断在预设时间维度内所述订单的状态,获取订单状态变化时所产生的第二数据;
将所述第一数据、第二数据进行整合,生成所述订单数据。
优选的,对所述二分图进行聚类分析得到聚类结果,根据聚类结果进行可疑用户识别具体包括:
利用LPA算法,对所述订单节点、特征节点进行聚类,得到聚类结果;
根据聚类结果得到风险判断结果。
优选的,所述与订单相关的标识数据包括登录和/或注册信息。
第二方面,本发明提供一种用户识别装置,所述装置包括:
数据处理模块,用于将预设时间维度内的订单数据和与订单相关的标识数据进行整合;
特征提取模块,用于在整合后的数据中获取主体特征和非主体特征并对满足预设条件的至少两个所述非主体特征进行组合生成组合特征,确定所述主体特征和组合特征的特征值,其中,所述主体特征为可以直接确定订单之间具有关联的特征,所述非主体特征为无法直接确定订单之间具有关联的特征;
关系模型建立模块,用于将所述订单抽象为订单节点,将所述主体特征和组合特征的特征值抽象为特征节点,将所述订单和对应的特征值之间的关系抽象为边,根据所述订单节点、特征节点及边建立二分图;
识别模块,用于对所述二分图进行聚类分析得到聚类结果,根据聚类结果进行可疑用户识别。
优选的,所述特征提取模块还用于:
对历史订单数据进行特征提取及统计,识别得到历史非主体特征;
将满足预设条件的至少两个所述历史非主体特征进行组合生成历史组合特征。
优选的,所述装置还包括:
转换模块,用于对所述整合后的数据进行数据处理,生成统一数据格式的订单。
优选的,所述转换模块具体用于:
对所述整合后的数据进行字段映射,将不同类型的数据格式转换成相同的主键形式;
对相同主键的数据进行聚合,生成统一数据格式的订单。
优选的,所述关系模型建立模块具体用于:
获取所述订单的唯一标识及所述主体特征和组合特征的特征值;
对所述唯一标识及特征值进行合并去重及编码处理;
将编码后的唯一标识及特征值与编码前的唯一标识及特征值进行对应关联;
根据关联后的数据建立二分图。
优选的,所述装置还包括:
数据获取模块,用于获取生成所述订单所产生的第一数据;判断在预设时间维度内所述订单的状态,获取订单状态变化时所产生的第二数据;
数据整合模块,用于将所述第一数据、第二数据进行整合,生成所述订单数据。
优选的,所述识别模块具体包括:
聚类模块,用于利用LPA算法,对所述订单节点、特征节点进行聚类,得到聚类结果;
判断模块,用于根据聚类结果得到风险判断结果。
优选的,所述与订单相关的标识数据包括登录和/或注册信息。
第三方面,本发明提供一种计算机设备,包括:
一个或多个处理器;以及
与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行如下操作:
将预设时间维度内的订单数据和与订单相关的标识数据进行整合;
在整合后的数据中获取主体特征和非主体特征并对满足预设条件的至少两个所述非主体特征进行组合生成组合特征,确定所述主体特征和组合特征的特征值,其中,所述主体特征为可以直接确定订单之间具有关联的特征,所述非主体特征为无法直接确定订单之间具有关联的特征;
将所述订单抽象为订单节点,将所述主体特征和组合特征的特征值抽象为特征节点,将所述订单和对应的特征值之间的关系抽象为边,根据所述订单节点、特征节点及边建立二分图;
对所述二分图进行聚类分析得到聚类结果,根据聚类结果进行可疑用户识别。
本发明实施例具有如下有益效果:
1、本发明对订单生命周期内的数据进行整合,并将订单生命周期内的数据与标识数据进行关联,解决了购物环节流程复杂、数据无法统一的问题,可以更好的识别出主体特征特征及非主体特征,为构建图模型提供了充分的信息和高效的使用方式;
2、本发明将满足预设条件的非主体特征关联起来生成组合特征,克服了电商环境下用户强关联特征难以获取或特征不足的问题,充分利用了非主体特征来构建精准的图模型;
3、本发明在历史订单数据中获取历史非主体特征,并将历史非主体特征关联组合,弥补了电商环境下特征缺失的事实缺点,为挖掘更深的网络关系提供了新的方法;
4、本发明通过LPA算法对组合特征进行修正,有效的避免的过度扩散,提升了黄牛团伙发现的准确度。
当然,本发明并不一定需要同时满足上述所有效果,只需满足其一即可。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请提供一种用户识别方法,可以应用于如图1所示的应用环境中。其中,服务器12通过网络与数据库11和终端13进行通信。数据库11用于存储与订单数据以及标识数据,服务器12用于对订单数据以及标识数据进行操作计算以便识别黄牛团伙,终端13可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器12可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
实施例一
如图2所示,本申请提供了一种用户识别方法,包括如下步骤:
S21、将预设时间维度内的订单数据和与订单相关的标识数据进行整合。
本实施例中,与订单相关的标识数据包括登录和/或注册信息;预设时间维度内的订单数据包括:预设时间维度内生成订单、修改订单、支付订单等生成的数据。
其中,获取预设时间维度内的订单数据可以包括以下步骤:
a、获取生成订单所产生的第一数据;
b、判断在预设时间维度内订单的状态,获取订单状态变化时所产生的第二数据;
c、将第一数据、第二数据进行整合,生成订单数据。
其中,生成订单所产生的第一数据包括在预设时间维度内生成订单所产生的数据,如:订单地址信息等;订单状态变化所产生的第二数据包括一个订单多次提交、每次提交使用了不同的信息,订单支付时信息变更等。
本方案中,将生成订单所产生的数据与订单状态变化时所产生的数据整合,便能够得到生命周期内的所有数据。
将预设时间维度设置为一小时对步骤S21进一步解释说明:
以当前时刻为终点获取一小时内的订单,得到订单数据;将订单数据与标识数据进行整合(如:ip信息关联ip归属地、运营商等信息;会员关联注册手机、注册ip、注册设备型号、注册手机归属地、运营商等信息),生成预设数据格式的订单。
其中,整合后的订单的数据格式可以为如下形式:
本方案中,通过将订单数据与标识数据进行关联,可以使得订单数据更丰富,为后续构建图模型提供了充分的信息;并且,将整合后的数据组成特定的数据格式,解决了购物环节流程复杂、数据无法统一的问题,为构建图模型提供了高效的使用方式。
S22、在整合后的数据中获取主体特征和非主体特征并对满足预设条件的至少两个非主体特征进行组合生成组合特征,确定主体特征和组合特征的特征值。
其中,主体特征指可以直接确定订单之间具有关联的特征,如:收货信息、手机号码;非主体特征是指无法直接确定订单之间具有关联的特征,如:下单IP等。
在获取主体特征和非主体特征之前,还可以包括如下步骤:
对整合后的数据进行数据处理,生成统一数据格式的订单。
本方案中,当订单的生命周期处在不同阶段时,产生的数据格式也不同,因此需要对整合后的数据进行统一格式转化,具体可以包括:
a、对整合后的数据进行字段映射,将不同类型的数据格式转换成相同的主键形式;
b、对相同主键的数据进行聚合,生成统一数据格式的订单。
通过对数据的主键进行转换处理,便于将订单不同生命周期产生的数据进行整合,为构建图模型提供了高效的使用方式。
当得到统一数据格式的订单后,即可对其进行主体特征和非主体特征提取,并将满足预设条件的至少两个非主体特征进行组合生成组合特征,确定主体特征和组合特征的特征值。
其中,对于同一个设备,正常人在使用后可能通过出售流转到黑产中,因此如果不做时效限制则会造成网络无边界,此时,需要根据历史订单数据对主体特征进行时效分析,避免误判正常用户。
组合特征的生成过程如下:
示例性的,一个订单有非主体性特征(F1、F2、F3),另外一个订单有非主体特征(F1、F2、F3、F4),若特征F1不具备标识两个主体具有关系,因此,根据预设的条件(如:为每一个特征设定阈值),将高于阈值的特征进行关联组合,得到组合特征F1+F2+F3,此时,F1+F2+F3相同的主体(订单)之间具有关联。
本方案中,将满足预设条件的非主体特征关联起来生成组合特征,可以克服电商环境下用户强关联特征难以获取或特征不足的问题,充分利用了非主体特征来构建精准的图模型。
需要说明的是,一个订单中,由于组合特征具有多样性,因此,一个订单所对应的特征值可以有多个。具体的,参见如下数据结构:
其中,featureVertex为由不同订单的特征值组成的特征数组,featureValue为订单的特征值。
此外,为了得到更多的组合特征来确定订单之间的联系,弥补电商环境下特征缺失的事实缺点,实现更深层次的网络关系的挖掘,还可以对历史订单数据进行统计及特征提取,从而得到组合特征,具体的,对历史订单数据进行统计及特征提取生成组合特征可以包括:
a、对历史订单数据进行特征提取及统计,识别得到历史非主体特征;
具体的,通过对历史订单数据的统计得到的历史订单数据的分布情况,根据分布情况识别得到异常特征,即,历史非主体特征。
b、将满足预设条件的至少两个历史非主体特征进行组合生成历史组合特征。
示例性的,统计指标可以设置为一阈值,根据设置的阈值,将高于阈值的历史非主体特征进行关联组合,从而生成历史组合特征。
S23、将订单抽象为订单节点,将主体特征和组合特征的特征值抽象为特征节点,将订单和对应的特征值之间的关系抽象为边,根据订单节点、特征节点及边建立二分图。
本方案中的特征节点和订单节点组合构成节点集合。每一条边(i,j)由订单节点和特征节点组成,每条边两个节点分别属于两个不同的节点集(如:i属于特征节点集合,j属于订单节点集合),如此,便能构建得到一个二分图。二分图中,订单节点保留该订单对应的特征节点的全部信息。
其中,根据订单节点、特征节点及边建立二分图可以包括如下步骤:
a、获取订单的唯一标识及主体特征和组合特征的特征值;
b、对唯一标识及特征值进行合并去重及编码处理;
c、将编码后的唯一标识及特征值与编码前的唯一标识及特征值进行对应关联;
d、根据关联后的数据建立二分图。
示例性的:
1、提取订单的唯一标识和特征值数据,构建dataframe表,格式如下表1所示:
表1
2、将订单标识和特征值进行合并去重,成单列dataframe,如下表2所示:
表2
3、为订单标识和特征值分配ID,如下表3所示:
表3
4、将表1及表3进行关联,将字符串类型的对应关系转换成long数字的映射关系,如下表4所示:
表4
5、根据表4建立二分图。
S24、对二分图进行聚类分析得到聚类结果,根据聚类结果进行可疑用户识别。
其中,通过图的连通性相关的算法,对二分图中的节点和边进行聚类,输出具有相同关联的群组,从而进行可疑用户的识别,该步骤具体可以包括:
a、利用LPA算法,对订单节点、特征节点进行聚类,得到聚类结果;
其中,LPA算法可以对组合特征进行修正,有效的避免的过度扩散,提升了黄牛团伙发现的准确度。
该步骤具体包括:
1、为所有节点设置唯一标签;
2、刷新所有节点的标签直至收敛,生成社区结构。
具体的,每一个节点都向其邻居节点发送消息,同时,每一个节点接受其邻居节点发送的消息并且对接收到的群组权重进行累加,根据累加权重最大的标签更新自身的标签直至标签稳定,生成社区结构;其中,消息的权重为节点权重、边权重和分割系数的乘积。
b、根据聚类结果得到风险判断结果。
具体的,根据业务需求对聚类结果进行风险转换,识别得到可疑用户。
示例性的,当某类商品一个团伙购买超过n,则团伙风险成立,如此,即识别得到黄牛团伙。
此外,在对聚类结果进行风险转换后,得到两种数据输出。一种为订单信息,包含团伙唯一性编码等,方便快速的检索和统计;二为团伙信息,包含团伙的成员个数、涉及的设备信息、ip信息等,方便对团伙特性进行快速的感知从而快速决策。
实施例二
如图3所示,本申请提供了一种用户识别装置,包括:
数据处理模块31,用于将预设时间维度内的订单数据和与订单相关的标识数据进行整合;
特征提取模块32,用于在整合后的数据中获取主体特征和非主体特征并对满足预设条件的至少两个非主体特征进行组合生成组合特征,确定主体特征和组合特征的特征值,其中,主体特征为可以直接确定订单之间具有关联的特征,非主体特征为无法直接确定订单之间具有关联的特征;
关系模型建立模块33,用于将订单抽象为订单节点,将主体特征和组合特征的特征值抽象为特征节点,将订单和对应的特征值之间的关系抽象为边,根据订单节点、特征节点及边建立二分图;
识别模块34,用于对二分图进行聚类分析得到聚类结果,根据聚类结果进行可疑用户识别。
优选的,上述特征提取模块34还用于:
对历史订单数据进行特征提取及统计,识别得到历史非主体特征;
将满足预设条件的至少两个历史非主体特征进行组合生成历史组合特征。
优选的,上述装置还包括:
转换模块35,用于对整合后的数据进行数据处理,生成统一数据格式的订单。
优选的,上述转换模块具体用于:
对整合后的数据进行字段映射,将不同类型的数据格式转换成相同的主键形式;
对相同主键的数据进行聚合,生成统一数据格式的订单。
优选的,上述关系模型建立模块33具体用于:
获取订单的唯一标识及主体特征和组合特征的特征值;
对唯一标识及特征值进行合并去重及编码处理;
将编码后的唯一标识及特征值与编码前的唯一标识及特征值进行对应关联;
根据关联后的数据建立二分图。
优选的,上述装置还包括:
数据获取模块36,用于获取生成订单所产生的第一数据;判断在预设时间维度内订单的状态,获取订单状态变化时所产生的第二数据;
数据整合模块37,用于将第一数据、第二数据进行整合,生成订单数据。
优选的,上述识别模块34具体包括:
聚类模块341,用于利用LPA算法,对订单节点、特征节点进行聚类,得到聚类结果;
判断模块342,用于根据聚类结果得到风险判断结果。
优选的,上述与订单相关的标识数据包括登录和/或注册信息。
需要说明的是,上述实施例提供的用户识别装置在进行用户识别时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的用户识别装置与用户识别方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
实施例三
对应上述方法和装置,本申请实施例三提供一种计算机设备,包括:
一个或多个处理器;以及
与一个或多个处理器关联的存储器,存储器用于存储程序指令,程序指令在被一个或多个处理器读取执行时,执行如下操作:
将预设时间维度内的订单数据和与订单相关的标识数据进行整合;
在整合后的数据中获取主体特征和非主体特征并对满足预设条件的至少两个非主体特征进行组合生成组合特征,确定主体特征和组合特征的特征值,其中,主体特征为可以直接确定订单之间具有关联的特征,非主体特征为无法直接确定订单之间具有关联的特征;
将订单抽象为订单节点,将主体特征和组合特征的特征值抽象为特征节点,将订单和对应的特征值之间的关系抽象为边,根据订单节点、特征节点及边建立二分图;
对二分图进行聚类分析得到聚类结果,根据聚类结果进行可疑用户识别。
尽管已描述了本发明实施例中的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例中范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。