识别模型生成方法、识别方法、装置、设备及存储介质
技术领域
本说明书实施例涉及计算机技术领域,尤其涉及一种识别模型生成方法、识别方法、装置、设备及存储介质。
背景技术
随着互联网技术的快速发展,互联网公司越来越多,竞争也越来越激烈。因此,互联网公司在互联网产品上线后为了促进新用户的注册与活跃,会推出奖励策略如补贴用户购买行为等。这样会不可避免地带来一些安全隐患,某些黑产从业人员会注册大量账号(即“垃圾注册”)用于谋取不当利益如用于套取营销资源、进行虚假炒作信用、刷单等灰色行为,对互联网公司以及合法用户的利益造成了损害。因此,需要一种能够有效地对异常注册行为进行识别的方案。
发明内容
本说明书实施例提供了一种识别模型生成方法、识别方法、装置、设备及存储介质。
第一方面,本说明书实施例提供了一种识别模型生成方法,包括:获取多个注册事件对应的注册数据,所述注册数据为在用户注册目标产品的过程中得到的数据;基于所述注册数据,生成每个注册事件对应的一个以上特征的特征值;基于每个注册事件对应的一个以上特征的特征值,从所述多个注册事件中确定异常注册事件,并对所述异常注册事件进行标记;将经过标记后的所述多个注册事件对应的一个以上特征的特征值作为训练样本,对预先构建的机器学习模型进行训练,得到识别模型,其中,所述机器学习模型为半监督学习模型。。
第二方面,本说明书实施例提供了一种识别方法,包括:获取目标注册事件对应的注册数据,所述注册数据为在用户注册目标产品的过程中得到的数据;基于所述注册数据,生成所述目标注册事件对应的一个以上特征的特征值;将所述特征值输入上述识别模型生成方法生成的识别模型,得到所述目标注册事件的识别结果。
第三方面,本说明书实施例提供了一种识别模型生成装置,包括:第一数据获取模块,用于获取多个注册事件对应的注册数据,所述注册数据为在用户注册目标产品的过程中得到的数据;第一特征值生成模块,用于基于所述注册数据,生成每个注册事件对应的一个以上特征的特征值;标记模块,用于基于每个注册事件对应的一个以上特征的特征值,从所述多个注册事件中确定异常注册事件,并对所述异常注册事件进行标记;模型训练模块,用于将经过标记后的所述多个注册事件对应的一个以上特征的特征值作为训练样本,对预先构建的机器学习模型进行训练,得到识别模型,其中,所述机器学习模型为半监督学习模型。
第四方面,本说明书实施例提供了一种识别装置,包括:第二数据获取模块,用于获取目标注册事件对应的注册数据,所述注册数据为在用户注册目标产品的过程中得到的数据;第二特征值生成模块,用于基于所述注册数据,生成所述目标注册事件对应的一个以上特征的特征值;识别模块,用于将所述特征值输入上述识别模型生成装置生成的识别模型,得到所述目标注册事件的识别结果。
第五方面,本说明书实施例提供了一种电子设备,包括:存储器;一个或多个处理器;及上述的识别模型生成装置或识别装置,存储于所述存储器中并被配置成由一个或多个处理器执行。
第六方面,本说明书实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述识别模型生成方法或识别方法的步骤。
本说明书实施例有益效果如下:
本说明书实施例提供的识别模型生成方法,根据目标产品的多个注册事件对应的注册数据,生成每个注册事件对应的一个以上特征的特征值,进而根据特征值,从多个注册事件中确定异常注册事件,并对异常注册事件进行标记,此后就可以将经过标记的多个注册事件对应的特征值作为训练样本,对预先构建的半监督学习模型进行训练,得到识别模型,用于识别存在异常的注册事件。这样对于新上线的产品如应用程序或H5页面等,通过本方法能够通过学习基于注册数据得到的特征值生成识别模型,用于识别异常注册事件,有利于在新产品上线时能够及时对异常注册行为进行防控。
附图说明
图1为本说明书实施例的一种运行环境示意图;
图2为本说明书实施例第一方面提供的识别模型生成方法的流程图;
图3为本说明书实施例第二方面提供的识别方法的流程图;
图4为本说明书实施例第三方面提供的识别模型生成装置的模块框图;
图5为本说明书实施例第四方面提供的识别装置的模块框图;
图6为本说明书实施例第五方面提供的电子设备的结构示意图。
具体实施方式
对于互联网公司来讲,在新产品如新的应用程序或H5页面等上线时,为了促进新用户注册与活跃,通常会投入大量的营销资源。因此,为了能够有效地对防止黑产从业人员注册大量账号来谋取不当利益,本说明书实施例提供了一种识别模型生成方法,可以用于生成用于识别异常注册事件的识别模型,有利于在新产品上线时能够及时且有效地对异常注册行为进行防控,保证互联网公司以及其他合法用户的利益。
本说明书实施例提供的识别模型生成方法以及识别方法可以应用于图1所示的运行环境中。如图1所示,一个或多个用户端100可通过网络200与一个或多个服务器300(图1中仅示出一个)相连,以进行数据通信或交互。其中,用户端100可以是个人电脑(PersonalComputer,PC)、笔记本电脑、平板电脑、智能手机、电子阅读器、车载设备、网络电视、可穿戴设备等具有网络功能的智能设备。本说明书实施例提供的识别模型生成方法以及识别方法可以由服务器执行。当由服务器执行时,用户可以通过用户端触发目标产品的注册事件,注册目标产品的账号,并向服务器发起注册请求。服务器接收到多个用户发起的注册请求后,可以通过本说明书实施例提供的识别模型生成方法生成识别模型,以进一步用于识别异常注册事件。
需要说明的是,在本说明书的其他实施例中,本说明书实施例提供的识别模型生成方法以及识别方法也可以由用户端执行,此处不作限制。为了更好的理解上述技术方案,下面通过附图以及具体实施例对本说明书实施例的技术方案做详细的说明,应当理解本说明书实施例以及实施例中的具体特征是对本说明书实施例技术方案的详细的说明,而不是对本说明书技术方案的限定,在不冲突的情况下,本说明书实施例以及实施例中的技术特征可以相互组合。
第一方面,本说明书实施例提供了一种识别模型生成方法。请参见图2,该方法包括步骤S201-步骤S204。
步骤S201,获取多个注册事件对应的注册数据,所述注册数据为在用户注册目标产品的过程中得到的数据。
本说明书实施例中,将需要构建异常注册识别模型的产品作为目标产品,例如,可以是应用程序或H5页面等。用户在对目标产品有注册需求时,会通过用户端触发注册事件,执行相应的注册操作,从而就可以获取到用户在注册过程中涉及的数据。本说明书实施例中,将目标产品的多个注册事件作为样本,进行后续步骤S202-步骤S204的处理,得到识别模型。作为样本的注册事件数量具体可以根据实际需要设置,例如,可以为一万个、十万个或一百万个等。
在一种实施方式中,注册事件对应的注册数据可以包括但不限于:注册设备信息、注册网络信息、注册用户的身份信息、注册用户在注册过程中的操作数据中的任意一种或多种组合。当然,在本说明书其他实施方式中,注册数据还可以包括注册过程中获取到的其他数据,例如,还可以包括注册账号、注册产品信息以及注册渠道信息等。其中,注册设备信息可以是注册设备的设备ID,注册网络信息可以是注册时所使用的网络信息,例如注册网络信息可以包括WIFI名称和/或IP地址,注册渠道可以是网页注册、手机App注册、短信激活等渠道。
需要说明的是,由于不同目标产品涉及到的注册数据不完全相同,因此,注册数据具体包含的数据种类可以根据实际应用场景设置。
步骤S202,基于所述注册数据,生成每个注册事件对应的一个以上特征的特征值。
需要说明的是,同一目标产品的注册事件均对应于相同的特征,例如,可以对应于一个特征,也可以对应于两个以上特征。对于同一特征,不同注册事件对应的特征值根据该注册事件的具体注册数据得到。
在本说明书一实施例中,上述步骤S202中的一个以上特征可以包括但不限于第一类特征,第一类特征用于表征注册事件对应的注册设备的历史行为。需要说明的是,第一类特征可以包含一个或多个特征,此处不作限制,每个特征均对应有特征值。
可选的,第一类特征可以包括第一账号数量,第一账号数量为在第一预设时间段内通过注册事件对应的注册设备注册的目标产品的账号数量。其中,第一预设时间段可以根据实际情况设置,例如,可以设置为注册事件发生时刻起前一个小时,前一天、前7天或前30天等。此时,上述基于所述注册数据,生成每个注册事件对应的一个以上特征的特征值的实施过程可以包括:针对每个注册事件,基于注册数据得到注册事件对应的注册设备信息;获取注册设备信息对应的第一账号数量。在本说明书实施例的一种实施方式中,注册数据可以包含注册设备信息,可以在目标产品的历史注册数据中查找该注册设备对应的第一账号数量。
需要说明的是,在本说明书其他实施例中,第一类特征还可以包括其他特征,此处不作限制。
于本说明书一实施例中,上述步骤S202中的一个以上特征还可以包括但不限于第二类特征、第三类特征以及第四类特征中的一类或多类特征。其中,第二类特征用于表征所述注册事件对应的用户身份信息的历史行为。用户身份信息可以是手机号,或者,也可以是其他的身份信息如身份证号、邮箱等等。以用户身份信息为手机号为例,第二类特征可以包括但不限于通过该手机号注册的目标产品的账号数量、手机号的归属地、手机号的归属人身份、手机号的历史转手次数以及手机号之前是否被用于套取营销资源等。
第三类特征用于衡量注册事件对应的网络环境。例如,第三类特征可以包括但不限于通过注册事件对应的注册网络如WIFI或IP地址在过去若干个时间窗口内注册的目标产品的账号数量以及在该网络下执行的针对目标产品的不良操作记录,如在该网络下参与营销的目标产品的账号数量、在该网络下注册的目标产品账号中被确认为垃圾注册的账号数量等。
第四类特征用于表征所述注册事件对应的用户注册行为。例如,第四类特征可以包含反应用户注册速度的特征,如本次注册过程中用户点击或按键行为的平均时间间隔和操作速度。
需要说明的是,在本说明书实施例中,第二类特征、第三类特征和第四类特征均可以包含一个特征或多个特征,本实施例对此不作限制。
可选地,上述第二类特征可以包括但不限于:第二账号数量,第二账号数量为在第二预设时间段内通过所述注册事件对应的用户身份信息注册的目标产品的账号数量。其中,用户身份信息可以是手机号,或者,也可以是其他的身份信息如身份证号、邮箱等等。在本说明书实施例的一种实施方式中,注册事件对应的注册数据中可以包含用户身份信息,可以在目标产品的历史注册数据中查找该用户身份信息对应的第二账号数量。
其中,第二预设时间段可以根据实际情况设置,例如,可以设置为注册事件发生时刻起前一个小时,前一天、前7天或前30天等。需要说明的是,本实施例中,第二预设时间段可以是与上述第一预设时间段相同的时间段,也可以是不同的时间段。
可以理解的是,除了第二账号数量以外,第二类特征还可以包括其他与注册事件对应的用户身份信息相关的特征,此处不作限制。
举例来讲,当用户身份信息为手机号时,第二账号数量即为在第二预设时间段内通过该手机号注册的目标产品的账号数量。当然,除了第二账号数量以外,第二类特征还可以包括其他特征,如手机号的归属地、手机号的归属人身份、手机号的历史转手次数以及手机号之前是否被用于套取营销资源等。
可选地,上述第三类特征可以包括但不限于:第三账号数据,第三账号数量为在第三预设时间段内通过注册事件对应的网络如WIFI或IP地址注册的目标产品的账号数量。第三预设时间段可以根据实际情况设置,例如,可以设置为注册事件发生时刻起前一个小时,前一天、前7天或前30天等。需要说明的是,本实施例中,第三预设时间段可以是与上述第一预设时间段和/或第二预设时间段相同的时间段,也可以是不同的时间段。
在本说明书实施例的一种实施方式中,注册事件对应的注册数据中可以包含注册网络信息,可以在目标产品的历史注册数据中查找该网络对应的第三账号数量。
另外,在本实施例的其他实施方式中,第三类特征可以包括其他在注册事件所在的网络下发生的、与目标产品相关且满足预设条件的历史行为数据,此处不作限制。其中,预设条件用于衡量该网络下发生的针对目标产品的历史行为是否能够反映该网络的可信度。例如,在一种实施方式中,第三类特征可以包括:通过注册事件对应的网络执行预设不良操作的目标产品的账号数量和/或通过该网络注册的目标产品账号中被确认为异常账号的账号数量。其中,不良操作是指会对上线目标产品互联网公司以及目标产品的合法用户的利益造成损害的操作,如涉及营销、刷单等行为的操作。
可以理解的是,通过注册事件对应的网络执行预设不良操作的目标产品的账号数量以及通过该网络注册的目标产品账号中被确认为异常账号的账号数量均可以基于目标产品的日志数据得到。
需要说明的是,本说明书实施例中,上述第三类特征可以包括但不限于第三账号数据、通过注册事件对应的网络执行预设不良操作的目标产品的账号数量以及通过该网络注册的目标产品账号中被确认为异常账号的账号数量中的任意一种或多种组合。
可选地,上述第四类特征可以包括但不限于根据所述注册事件对应的用户操作数据得到的操作频次。其中,操作频次用于表征用户的注册速度。具体来讲,操作频次可以用本次注册过程中用户点击或按键行为的平均时间间隔、或者是操作速度表示。其中,操作速度可以通过注册事件对应的注册过程中用户执行的操作个数除以注册过程所持续的时间得到。
本说明书实施例中,注册事件对应的注册数据可以包括注册用户在注册过程中的操作数据,即用户操作数据。此时,上述基于所述注册数据,生成每个注册事件对应的一个以上特征的特征值的实施过程可以包括:针对每个所述注册事件,基于所述注册数据得到所述注册事件在注册过程中的用户操作数据;根据所述用户操作数据得到用户在注册过程中的操作频次。具体来讲,用户操作数据是指用户通过用户端对目标产品进行注册时执行的点击或按键的行为数据。
可以理解的是,除了操作频次以外,第四类特征还可以包括其他能够用于表征注册事件对应的用户注册行为的特征,此处不作限制。
步骤S203,基于每个注册事件对应的一个以上特征的特征值,从所述多个注册事件中确定异常注册事件,并对所述异常注册事件进行标记。
可以理解的是,本说明书实施例中,上述步骤S202中的一个以上特征可以是一个特征,也可以是两个以上特征。针对每个特征,每个注册事件均对应有相应的特征值。举例来讲,假设上述步骤S201获取的注册事件有N个,每个注册事件对应有M个特征,则对应于同一特征,分布有N个特征值。其中,N和M均为大于或等于1的整数。
例如,在一种具体应用场景中,目标产品的注册事件对应的一个以上特征包括:第一账号数量、第二账号数量、第三账号数量以及操作频次,分别用a、b、c和d表示,则每个注册事件均对应有相应的特征值ai、bi、ci和di。此时,对于第一账号数量,N个注册事件对应的N个特征值分别为:a1、a2、…、aN;对于第二账号数量,N个注册事件对应的N个特征值分别为:b1、b2、…、bN;对于第三账号数量,N个注册事件对应的N个特征值分别为:c1、c2、…、cN;对于操作频次,N个注册事件对应的N个特征值分别为:d1、d2、…、dN。
本说明书实施例中,可以通过比较上述步骤S201获取的多个注册事件对应的同一特征的特征值分布,确定这些注册事件中存在的异常注册事件。例如,在一种实施方式中,可以针对同一特征,按照由小到大的顺序将上述多个注册事件对应的该特征的特征值进行排序,得到每个特征对应的特征值序列。进而,根据所得到的特征值序列确定每个注册事件对应的每个特征的特征值在相应的特征值序列中所处的位置,将上述多个注册事件中,每个特征对应的特征值在相应的特征序列中的排列位置均超过预设位置的注册事件,确定为异常注册事件。其中,预设位置可以根据具体目标产品以及所获取的注册事件数量设置。
例如,在上述示例中,将a1、a2、…、aN由小到大排序,得到对应于第一账号数量的特征值序列,将b1、b2、…、bN由小到大排序,得到对应于第二账号数量的特征值序列,将c1、c2、…、cN由小到大排序,得到对应于第三账号数量的特征值序列,将c1、c2、…、cN由小到大排序,得到对应于操作频次的特征值序列。假设N个注册事件中,存在注册事件对应的第一账号数量、第二账号数量、第三账号数量以及操作频次在相应的特征值序列中的排列位置均超过预设位置,则表明该注册事件存在异常,即判定该注册事件为异常注册事件。
可选地,于本说明书一实施例中,上述基于每个注册事件对应的一个以上特征的特征值,从所述多个注册事件中确定异常注册事件的实施过程可以包括:针对每一特征,根据所述多个注册事件对应的该特征的特征值,得到特征值集合;根据所述特征值集合,确定每个注册事件对应的每个特征的异常因子;基于每个注册事件对应的每个特征的异常因子,从所述多个注册事件中确定异常注册事件。例如,注册事件对应有M个特征,则将得到M个特征值集合。
在一种实施方式中,上述根据所述特征值集合,确定每个注册事件对应的每个特征的异常因子的实施过程可以包括:根据所述特征值集合,得到每个注册事件对应的每个特征的特征值在相应特征值集合中的百分位,将所述百分位作为该特征的异常因子。具体来讲,针对每一特征,将相应特征值集合中的特征值由小到大进行排序,得到特征值序列,将特征值序列划分为100个等分,从而确定每个特征值对应的百分位。例如,某注册事件对应的某特征的特征值处于50%位置,即该特征值对应于第50百分位,则该注册事件对应的该特征的异常因子为50。
在一种实施方式中,上述基于每个注册事件对应的每个特征的异常因子,从所述多个注册事件中确定异常注册事件的实施过程可以包括:将所述多个注册事件中,每个特征的异常因子均超过第一预设阈值的注册事件,确定为异常注册事件。
可以理解的是,对于单个特征,其特征值对应的百分位取值越大越异常,对于一个对应有多个特征的注册事件,若所有特征的特征值对应的百分位都超过第一预设阈值,则说明该注册事件异常。本说明书实施例中,第一预设阈值可以根据异常因子的取值范围以及实际应用设置。例如,当异常因子为0~100%之间的数值时,第一预设阈值可以设置为80%或90%等,当异常因子为0~100之间的数值时,第一预设阈值可以设置为80或90等。
在一种实施方式中,上述基于每个注册事件对应的每个特征的异常因子,从所述多个注册事件中确定异常注册事件的实施过程可以包括:针对每个所述注册事件,基于每个特征对应的异常因子,得到该注册事件的异常分值;将所述异常分值超过第二预设阈值的注册事件确定为异常注册事件。
可以理解的是,异常分值越高,则说明该注册事件为异常注册事件的概率越大。第二预设阈值可以根据异常因子的取值范围以及实际应用设置。
在一种实施方式中,上述基于每个特征对应的异常因子,得到该注册事件的异常分值可以包括:基于所述注册事件的每个特征对应的异常因子之间的乘积,得到该注册事件的异常分值。具体来讲,可以将注册事件的每个特征对应的异常因子之间的乘积值作为该注册事件的异常分值,或者,将各个注册事件对应的乘积值进行归一化处理后将归一化结果作为相应注册事件的异常分值。
在另一种实施方式中,上述基于每个特征对应的异常因子数,得到该注册事件的异常分值可以包括:将所述注册事件的每个特征对应的异常因子分别乘以该特征对应的预设权重系数,得到所述注册事件对应的每个特征的乘积值;基于所述注册事件对应的每个特征的乘积值,得到该注册事件的异常分值。
本说明书实施例中,注册事件对应的各个特征对应的预设权重系数具体可以根据实际需要设置。在具体应用场景中,各个特征对应的预设权重系数可以相同,例如,每个特征对应的预设权重系数可以均为1,或者,各个特征对应的预设权重系数也可以不相同或不完全相同,具体可以根据实际应用场景中各个特征对注册事件异常识别结果的影响程度设置。
具体来讲,上述基于所述注册事件对应的每个特征的乘积值,得到该注册事件的异常分值的方式具体可以为:将注册事件对应的每个特征的乘积值进行累加,得到累加值,将所得到的累加值作为该注册事件的异常分值;或者,对各注册事件对应的累加值进行归一化处理,将归一化处理后的归一化值作为相应注册事件的异常分值。
进一步地,本说明书实施例中,可以将从多个注册事件中确定出的异常注册事件标记为黑样本,有效地解决了样本标签难以确定的问题。在对异常注册事件进行标记后,继续执行以下步骤S204,训练出一个用于识别异常注册事件的识别模型。
步骤S204,将经过标记后的所述多个注册事件对应的一个以上特征的特征值作为训练样本,对预先构建的机器学习模型进行训练,得到识别模型,其中,所述机器学习模型为半监督学习模型。
经过上述步骤S203后,多个注册事件中一部分注册事件被标记,另一部分注册事件未被标记。本步骤中,通过预先构建的半监督学习模型对标记的注册事件和大量未标记的注册事件对应的一个以上特征的特征值进行学习,得到识别模型。
在本说明书实施例的一种实施方式中,机器学习模型可以为正样本和待标注样本学习(Positive and Unlabeled Learning,PU Learning)模型。PU Learning是一种半监督的二元分类模型,通过标记过的黑样本和大量未标记的样本训练出一个二元分类器。具体地,可以将多个注册事件中被标记的异常注册事件作为黑样本集,其他未被标记的注册事件作为无标记样本集。
对于PU Learning机器学习算法而言,通常可以包含多种机器学习策略;例如,两阶段法(two-stage strategy)和代价敏感法(cost-sensitive strategy)两类。
两阶段法首先基于已标记的黑样本集和无标记样本集,在无标记样本集中挖掘发现潜在的可靠白样本,然后基于已知的黑样本和挖掘出来的可靠白样本,将问题转化为传统的有监督的机器学习的过程,来训练分类模型。其中,白样本为不属于异常注册事件的样本,即为正常注册事件。
而对于代价敏感的策略而言,算法假设无标记样本中黑样本的比例极低,通过直接将无标记样本看作白样本对待,为黑样本设置一个相对于白样本更高的代价敏感权重;例如,通常会在基于代价敏感的PU Learning机器学习算法的目标方程中,为与黑样本对应的损失函数,设置一个更高的代价敏感权重。通过给黑样本设置更高的代价敏感权重,使得最终训练出的分类模型分错一个黑样本的代价远远大于分错一个白样本的代价,这样,可以直接通过利用黑样本和无标记样本(当作白样本)学习一个代价敏感的分类器,来对未知的样本进行分类。
在本说明书实施例中,既可以基于代价敏感的PU Learning机器学习算法对上述训练样本进行训练,也可以采用两阶段法对上述训练样本进行训练。
以采用两阶段法为例,基于上述黑样本集和无标记样本集应用PU Learning算法,在一种实施方式中,具体可以先通过一个分类器学习黑样本集和无标记样本集,得到初版模型,并用初版模型对无标记样本进行打分,得到准确率-召回率曲线,将准确率在预设准确率阈值之上的无标记样本标记为黑样本,对更新后的黑样本集和无标记样本集再次进行学习,直至不存在准确率在预设准确率阈值之上的无标记样本,从而得到黑样本集和白样本集。其中,预设准确率阈值可以根据实际经验得到。然后,再对所得到的黑样本集和白样本集进行有监督学习,即可以得到识别模型。本说明书实施例中,适用的有监督学习算法可以包括但不限于随机森林、GBDT(Gradient Boosting Decison Tree,梯度提升树)、SVM(Support Vector Machine,支持向量机)以及逻辑回归等。
当然,在本说明书其他实施例中,机器学习模型也可以采用其他的半监督学习模型。
通过本说明书实施例提供的识别模型生成方法,无需人工干预,即能得到一个基于该目标产品的注册数据定制的识别模型,用于识别异常注册事件,有利于在新产品上线时能够及时对异常注册行为进行防控。
第二方面,基于通过第一方面提供的识别模型生成方法生成的识别模型,本说明书实施例还提供了一种识别方法,如图3所示,包括以下步骤S301至步骤S303。
步骤S301,获取目标注册事件对应的注册数据,所述注册数据为在用户注册目标产品的过程中得到的数据。
步骤S302,基于所述注册数据,生成所述目标注册事件对应的一个以上特征的特征值。
需要说明的是,步骤S301和步骤S302的具体实施方式与上述第一方面提供的步骤S201和步骤S202的实施方式类似,不同之处在于步骤S301和步骤S302是针对待识别的目标注册事件,而步骤S201和步骤S202是针对作为样本的多个注册事件,因此,步骤S301和步骤S302的具体实施方式可以参照上述步骤S201和步骤S202,此处不再赘述。
步骤S303,将所述特征值输入预设的识别模型,得到所述目标注册事件的识别结果。
本步骤中,预设的识别模型即为通过上述第一方面提供的识别模型生成方法生成的。将待测的目标注册事件对应的一个以上特征的特征值输入该识别模型,得到该目标注册事件的识别结果,即识别出该目标注册事件是否为异常注册事件。可以理解的是,目标注册事件对应的一个以上特征与上述第一方面中样本注册事件对应的一个以上特征一致。
通过本说明书实施例提供的识别方法,能够有效地对异常注册事件识别,有利于在新产品上线时能够及时对异常注册行为进行防控。
第三方面,基于与前述实施例中的识别模型生成方法同样的发明构思,本说明书实施例还提供了一种识别模型生成装置。请参见图4,该识别模型生成装置40包括:
第一数据获取模块41,用于获取多个注册事件对应的注册数据,所述注册数据为在用户注册目标产品的过程中得到的数据;
第一特征值生成模块42,用于基于所述注册数据,生成每个注册事件对应的一个以上特征的特征值;
标记模块43,用于基于每个注册事件对应的一个以上特征的特征值,从所述多个注册事件中确定异常注册事件,并对所述异常注册事件进行标记;
模型训练模块44,用于将经过标记后的所述多个注册事件对应的一个以上特征的特征值作为训练样本,对预先构建的机器学习模型进行训练,得到识别模型,其中,所述机器学习模型为半监督学习模型。
作为一种可选的实施方式,所述标记模块43包括:
获取子模块431,用于针对每一特征,根据所述多个注册事件对应的该特征的特征值,得到特征值集合;
第一确定子模块432,用于根据所述特征值集合,确定每个注册事件对应的每个特征的异常因子;
第二确定子模块433,用于基于每个注册事件对应的每个特征的异常因子,从所述多个注册事件中确定异常注册事件。
作为一种可选的实施方式,所述第一确定子模块432用于:
根据所述特征值集合,得到每个注册事件对应的每个特征的特征值在相应特征值集合中的百分位,将所述百分位作为该特征的异常因子。
作为一种可选的实施方式,所述第二确定子模块433用于:
将所述多个注册事件中,每个特征的异常因子均超过第一预设阈值的注册事件,确定为异常注册事件。
作为一种可选的实施方式,所述第二确定子模块433用于:
针对每个所述注册事件,基于每个特征对应的异常因子,得到该注册事件的异常分值;
将所述异常分值超过第二预设阈值的注册事件确定为异常注册事件。
作为一种可选的实施方式,所述第二确定子模块433用于:
基于所述注册事件的每个特征对应的异常因子之间的乘积,得到该注册事件的异常分值;或
将所述注册事件的每个特征对应的异常因子分别乘以该特征对应的预设权重系数,得到所述注册事件对应的每个特征的乘积值;
基于所述注册事件对应的每个特征的乘积值,得到该注册事件的异常分值。
作为一种可选的实施方式,所述特征包括第一类特征,所述第一类特征用于表征所述注册事件对应的注册设备的历史行为。
作为一种可选的实施方式,所述第一类特征包括:在第一预设时间段内通过所述注册事件对应的注册设备注册的目标产品的账号数量。
作为一种可选的实施方式,所述特征还包括以下几类特征中的一类或多类特征:
用于表征所述注册事件对应的用户身份信息的历史行为的第二类特征;
用于衡量所述注册事件对应的网络环境的第三类特征;以及
用于表征所述注册事件对应的用户注册行为的第四类特征。
作为一种可选的实施方式,所述第二类特征包括:在第二预设时间段内通过所述注册事件对应的用户身份信息注册的目标产品的账号数量。
作为一种可选的实施方式,所述第三类特征包括以下三个特征中的任意一个或多个组合:
在第三预设时间段内通过所述注册事件对应的网络注册的目标产品的账号数量;
通过所述注册事件对应的网络执行预设不良操作的目标产品的账号数量;
通过所述网络注册的目标产品账号中被确认为异常账号的账号数量。
作为一种可选的实施方式,所述第四类特征包括根据所述注册事件对应的用户操作数据得到的操作频次,所述操作频次用于表征用户的注册速度。
作为一种可选的实施方式,所述注册数据包括:注册设备信息、注册网络信息、注册用户的身份信息、注册用户在注册过程中的操作数据中的任意一种或多种组合。
作为一种可选的实施方式,所述机器学习模型为正样本和待标注样本学习PULearning模型。
需要说明的是,本说明书实施例所提供的识别模型生成装置40,其中各个单元执行操作的具体方式已经在上述第一方面提供的方法实施例中进行了详细描述,此处将不做详细阐述说明。
第四方面,基于与前述实施例中的识别方法同样的发明构思,本说明书实施例还提供了一种识别装置。请参见图5,该识别装置50包括:
第二数据获取模块51,用于获取目标注册事件对应的注册数据,所述注册数据为在用户注册目标产品的过程中得到的数据;
第二特征值生成模块52,用于基于所述注册数据,生成所述目标注册事件对应的一个以上特征的特征值;
识别模块53,用于将所述特征值输入上述第二方面提供的装置生成的识别模型,得到所述目标注册事件的识别结果。
需要说明的是,本说明书实施例所提供的识别装置50,其中各个单元执行操作的具体方式已经在上述第二方面提供的方法实施例中进行了详细描述,此处将不做详细阐述说明。
第五方面,基于与前述方法实施例同样的发明构思,本本说明书实施例还提供了一种电子设备,如图6所示,包括存储器604、一个或多个处理器602及存储在存储器604上并可在处理器602上运行的计算机程序,所述处理器602执行所述程序时实现前文所述识别模型生成方法或识别方法的步骤。
其中,在图6中,总线架构(用总线600来代表),总线600可以包括任意数量的互联的总线和桥,总线600将包括由处理器602代表的一个或多个处理器和存储器604代表的存储器的各种电路链接在一起。总线600还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口605在总线600和接收器601和发送器603之间提供接口。接收器601和发送器603可以是同一个元件,即收发机,提供用于在传输介质上与各种其他装置通信的单元。处理器602负责管理总线600和通常的处理,而存储器604可以被用于存储处理器602在执行操作时所使用的数据。
可以理解的是,图6所示的结构仅为示意,电子设备还可包括比图6中所示更多或者更少的组件,或者具有与图6所示不同的配置。图6中所示的各组件可以采用硬件、软件或其组合实现。
第六方面,基于与前述方法实施例同样的发明构思,本说明书实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前文所述识别模型生成方法或识别方法的步骤。
本说明书是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的设备。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令设备的制造品,该指令设备实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本说明书的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本说明书范围的所有变更和修改。
显然,本领域的技术人员可以对本说明书进行各种改动和变型而不脱离本说明书的精神和范围。这样,倘若本说明书的这些修改和变型属于本说明书权利要求及其等同技术的范围之内,则本说明书也意图包含这些改动和变型在内。