CN110995681A - 用户识别方法、装置、电子设备及存储介质 - Google Patents

用户识别方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN110995681A
CN110995681A CN201911164464.5A CN201911164464A CN110995681A CN 110995681 A CN110995681 A CN 110995681A CN 201911164464 A CN201911164464 A CN 201911164464A CN 110995681 A CN110995681 A CN 110995681A
Authority
CN
China
Prior art keywords
user data
data
sample user
black
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911164464.5A
Other languages
English (en)
Other versions
CN110995681B (zh
Inventor
赵艳杰
康林
段效晨
易帆
秦占明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN201911164464.5A priority Critical patent/CN110995681B/zh
Publication of CN110995681A publication Critical patent/CN110995681A/zh
Application granted granted Critical
Publication of CN110995681B publication Critical patent/CN110995681B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computing Systems (AREA)
  • Computer Hardware Design (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本申请实施例提供了用户识别方法、装置、电子设备、存储介质及包含指令的计算机程序产品,涉及计算机通信网络技术领域,通过采取对所述样本用户数据中的异常数据采用中位数填充,对所述样本用户数据中的字符串类型的数据通过One‑Hot编码以及基于所述样本用户数据中的枚举类型的数据的基数对所述样本用户数据中的枚举类型的数据进行拆分,得到多个特征维度的枚举类型的数据的方式对所述样本用户数据进行预处理,得到预处理后的样本用户数据,提高了深度学习网络模型的训练数据量,减少过拟合情况的出现,将所述待处理用户数据输入深度学习网络模型中,识别黑产用户,从而提高黑产用户识别的准确率和识别效率。

Description

用户识别方法、装置、电子设备及存储介质
技术领域
本申请涉及计算机通信网络技术领域,特别是涉及用户识别方法、装置、电子设备及存储介质。
背景技术
随着互联网技术的不断发展,多层面的网络安全威胁和安全风险也在不断增加,其中黑产是指以互联网为媒介,以网络技术为主要手段,为计算机信息系统安全和网络空间管理秩序,甚至国家安全、社会政治稳定带来潜在威胁的非法行为,在计算机网络上所用的用户为黑产用户。例如视频平台上传视频用户中存在大量的黑产用户,这些黑产用户可能存在以下的特征:批量上传视频行为、黑名单渠道上传过视频、同一用户多个IP(Internet Protocol,网络之间互连的协议)上传视频等,黑产用户的行为影响用户正常体验,为网站健康发展带来重大隐患。为了网站健康持续发展,改善用户网络环境体验,需要将黑产用户识别出来,以便于平台管理。
由于数据量较多,传统的识别方法将数据中的NaN(Not a Number,不明确的数值结果)值去除,导致训练数据少,传统的识别模型依赖训练数据,最终导致传统的识别模型出现过拟合情况,导致识别的准确率低,识别效率不高。
发明内容
本申请实施例的目的在于提供用户识别方法、装置、电子设备、存储介质及包含指令的计算机程序产品,以解决训练数据少,减少出现过拟合情况,提高黑产用户识别的准确率和识别效率。
具体技术方案如下:
在本申请实施的第一方面,本申请实施例提供了一种用户识别方法,包括:
获取待处理用户数据;
对所述待处理用户数据中的异常数据采用中位数填充方式进行处理,对所述待处理用户数据中的字符串类型的数据进行One-Hot编码,并基于所述待处理用户数据中的枚举类型的数据的基数对所述待处理用户数据中的枚举类型的数据进行拆分,得到预处理后的用户数据;
将所述预处理后的用户数据输入预先训练好的用于识别黑产用户的深度学习网络模型,得到所述待处理用户是否为黑产用户的识别结果;
其中,所述预先训练好的用于识别黑产用户的深度学习网络模型的训练步骤包括:
获取样本用户数据,所述样本用户数据包括黑产样本用户数据和非黑产样本用户数据;
对所述样本用户数据中的异常数据采用中位数填充方式进行处理,对所述样本用户数据中的字符串类型的数据进行One-Hot编码,并基于所述样本用户数据中的枚举类型的数据的基数对所述样本用户数据中的枚举类型的数据进行拆分,得到预处理后的样本用户数据;
将所述预处理后的样本用户数据输入用于识别黑产用户的深度学习网络模型中进行训练,得到训练好的用于识别黑产用户的深度学习网络模型。
可选的,所述用于识别黑产用户的深度学习网络模型为梯度提升决策树GBDT模型。
可选的,所述黑产样本用户数据和非黑产样本用户数据是按预设比例进行设定的。
可选的,所述将所述预处理后的样本用户数据输入用于识别黑产用户的深度学习网络模型中进行训练,得到训练好的用于识别黑产用户的深度学习网络模型,包括:
步骤A,将预处理后的样本用户数据分为K份,得到K份目标样本用户数据,其中每份所述目标样本用户数据中所述黑产样本用户数据和所述非黑产样本用户数据的数量是按所述预设比例进行设定的;
步骤B,在K份所述目标样本用户数据中选取一份未选取过的目标样本用户数据作为测试样本用户数据,并将除所述测试样本用户数据以外的其他K-1份目标样本数据作为训练样本用户数据;
步骤C,将所述训练样本用户数据输入所述GBDT模型中进行训练,得到训练后的GBDT模型;
步骤D,将所述测试样本用户数据分别输入所述训练后的GBDT模型中,得到针对所述测试样本用户数据是否为黑产用户的识别结果;
步骤E,返回上述步骤B继续执行,直至不存在未选取过的目标样本用户数据,得到K个训练后的GBDT模型及K份识别结果;
步骤F,根据K份所述识别结果及所述K个训练后的GBDT模型,确定所述GBDT模型的模型参数,得到训练好的GBDT模型。
在本申请实施的第二方面,本申请实施例提供了一种用户识别装置,包括:
获取模块,用于获取待处理用户数据;
处理模块,用于对所述待处理用户数据中的异常数据采用中位数填充方式进行处理,对所述待处理用户数据中的字符串类型的数据进行One-Hot编码,并基于所述待处理用户数据中的枚举类型的数据的基数对所述待处理用户数据中的枚举类型的数据进行拆分,得到预处理后的用户数据;
识别模块,用于将所述预处理后的用户数据输入预先训练好的用于识别黑产用户的深度学习网络模型,得到所述待处理用户是否为黑产用户的识别结果,
训练模块,用于训练所述用于识别黑产用户的深度学习网络模型,所述训练模块具体包括:
采集子模块,用于获取样本用户数据,所述样本用户数据包括黑产样本用户数据和非黑产样本用户数据;
预处理子模块,用于对所述样本用户数据中的异常数据采用中位数填充方式进行处理,对所述样本用户数据中的字符串类型的数据进行One-Hot编码,并基于所述样本用户数据中的枚举类型的数据的基数对所述样本用户数据中的枚举类型的数据进行拆分,得到预处理后的样本用户数据;
训练子模块,用于将所述预处理后的样本用户数据输入用于识别黑产用户的深度学习网络模型中进行训练,得到训练好的用于识别黑产用户的深度学习网络模型。
可选的,所述用于识别黑产用户的深度学习网络模型为梯度提升决策树GBDT模型。
可选的,所述黑产样本用户数据和非黑产样本用户数据是按预设比例进行设定的。
可选的,所述训练子模块具体用于:
步骤A,将预处理后的样本用户数据分为K份,得到K份目标样本用户数据,其中每份所述目标样本用户数据中所述黑产样本用户数据和所述非黑产样本用户数据的数量是按所述预设比例进行设定的;
步骤B,在K份所述目标样本用户数据中选取一份未选取过的目标样本用户数据作为测试样本用户数据,并将除所述测试样本用户数据以外的其他K-1份目标样本数据作为训练样本用户数据;
步骤C,将所述训练样本用户数据输入所述GBDT模型中进行训练,得到训练后的GBDT模型;
步骤D,将所述测试样本用户数据分别输入所述训练后的GBDT模型中,得到针对所述测试样本用户数据是否为黑产用户的识别结果;
步骤E,返回上述步骤B继续执行,直至不存在未选取过的目标样本用户数据,得到K个训练后的GBDT模型及K份识别结果;
步骤F,根据K份所述识别结果及所述K个训练后的GBDT模型,确定所述GBDT模型的模型参数,得到训练好的GBDT模型。
在本申请实施的第三方面,本申请实施例提供了一种电子设备,包括:处理器、通信接口、存储器和通信总线,其中:
所述处理器,通信接口,存储器通过通信总线完成相互间的通信;
所述存储器,用于存放计算机程序;
所述处理器,用于执行存储器上所存放的程序时,实现上述第一方面任一项所述的用户识别方法。
在本申请实施的第四方面,本申请实施例提供了一种存储介质,所述存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述第一方面任一所述的用户识别方法。
在本申请实施的第五方面,本申请实施例提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述第一方面任一所述的用户识别方法。
本申请实施例提供的用户识别方法、装置、电子设备、存储介质及包含指令的计算机程序产品,通过采取对所述样本用户数据中的异常数据采用中位数填充,对所述样本用户数据中的字符串类型的数据通过One-Hot编码(独热编码)以及基于所述样本用户数据中的枚举类型的数据的基数对所述样本用户数据中的枚举类型的数据进行拆分,得到多个特征维度的枚举类型的数据的方式对所述样本用户数据进行预处理,得到预处理后的样本用户数据,提高了深度学习网络模型的训练数据量,减少过拟合情况的出现,将所述待处理用户数据输入深度学习网络模型中,识别黑产用户,从而提高黑产用户识别的准确率和识别效率。当然,实施本申请的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例的用户识别方法的第一种示意图;
图2为本申请实施例的用户识别方法的第二种示意图;
图3为本申请实施例的用户识别方法的第三种示意图;
图4为本申请实施例的用户识别方法的第四种示意图;
图5为本申请实施例的用户识别装置的一种示意图;
图6为本申请实施例的电子设备的一种示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供的用户识别方法、装置、电子设备、存储介质及包含指令的计算机程序产品。
本申请实施例提供了用户识别方法,参见图1,图1为本申请实施例的用户识别方法的第一种示意图,包括如下步骤:
步骤110,获取样本用户数据,上述样本用户数据包括黑产样本用户数据和非黑产样本用户数据。
本申请实施例的用户识别方法可以通过电子设备实现,具体的,该电子设备可以为服务器。
电子设备获取样本用户数据,其中上述样本用户数据包括黑产样本用户数据和非黑产样本用户数据,其中用户数据可包括用户的用户ID(Identification,身份标识号码)、用户的身份证号、用户注册时间、用户等级、用户信用等级、用户使用的设备、网络环境、地址。设备可以为设备ID、设备MAC(Media Access Control,媒体访问控制)地址等可以表征设备的唯一标识。网络环境可以为IP(Internet Protocol Address,互联网协议)地址、所用Wi-Fi(Wireless Fidelity,无线网)的SSID(Service Set Identifier,网络服务集标识)等、地址可以为行政区域名称、经纬度坐标等。
例如,在视频网站应用场景中,用户可以上传视频。上传视频的用户中会存在黑产用户,这些黑产用户可能存在以下的特征:用户批量上传视频、通过黑名单渠道上传视频或者同一用户多个IP上传视频等。例如,电子设备获取样本用户数据,其中样本用户数据包括:用户注册时间、用户等级、用户年龄、用户信用等级、用户上传视频数据、用户上传视频渠道数、用户上传视频的IP地址,并对样本用户数据中黑产样本用户数据进行标注。
步骤120,对上述样本用户数据中的异常数据采用中位数填充方式进行处理,对上述样本用户数据中的字符串类型的数据进行One-Hot编码,并基于上述样本用户数据中的枚举类型的数据的基数对上述样本用户数据中的枚举类型的数据进行拆分,得到预处理后的样本用户数据。
上述样本用户数据的数据会有特征值为空,或者特征值不符合要求的异常数据,例如,其中样本用户数据包括:用户注册时间、用户等级、用户年龄、用户信用等级、用户上传视频数据、用户上传视频渠道数、用户上传视频的IP地址,其中用户的等级设置为P1-P3,共3个等级,样本用户数据的数据会出现非P1-P3之外的数据,或者数据为空,或者样本用户数据为NaN的数据,则对于上述异常数据,采用中位数填充的方式进行处理。例如,共有100条样本用户数据,其中有3条用户的年龄未填写,用户年龄的特征值为空,则根据其余97条样本用户数据中的年龄的中位数填充上述3条未填写年龄的样本用户数据。采用中位数填充方式填充上述样本用户数据中的异常数据,相较于传统的直接将数据删除的方式,可以提高深度学习网络模型的训练数据量,从而可以减少过拟合情况的出现,从而提高黑产用户识别的准确率和识别效率。对上述样本用户数据中的字符串类型的数据进行One-Hot编码,比如对上述用户的等级P1-P3,P1表示为100,P2表示为010,P3表示为001,通过One-Hot编码处理上述样本用户数据中的字符串类型,不仅可以解决深度学习网络模型中不好处理属性数据的问题,在一定程度上起到扩充样本用户数据特征的作用,基于上述样本用户数据中的枚举类型的数据的基数对上述样本用户数据中的枚举类型的数据进行拆分,比如对上述用户的等级有P1-P3,则将用户的等级拆分为P1等级,P2等级,P3等级,分别表示为:P1等级表示为100,P2等级表示为010,P3等级表示为001,参见图2,图2为本申请实施例的用户识别方法的第二种示意图,因为用户的等级为3种等级,则根据3个等级将用户的等级拆分为3种,这样可以提高深度学习网络模型的训练数据量,从而可以减少过拟合情况的出现,从而提高黑产用户识别的准确率和识别效率。
步骤130,将上述预处理后的样本用户数据输入用于识别黑产用户的深度学习网络模型中进行训练,得到训练好的用于识别黑产用户的深度学习网络模型。
上述预处理后的样本用户数据可以用于识别黑产用户的深度学习网络模型的训练,从而可以得到训练好的用于识别黑产用户的深度学习网络模型。
通过采取对所述样本用户数据中的异常数据采用中位数填充,对所述样本用户数据中的字符串类型的数据通过One-Hot编码以及基于所述样本用户数据中的枚举类型的数据的基数对所述样本用户数据中的枚举类型的数据进行拆分,得到多个特征维度的枚举类型的数据的方式对所述样本用户数据进行预处理,得到预处理后的样本用户数据,提高了深度学习网络模型的训练数据量,减少过拟合情况的出现,将所述待处理用户数据输入深度学习网络模型中,识别黑产用户,从而提高黑产用户识别的准确率和识别效率。
在得到训练好的用于识别黑产用户的深度学习网络模型之后,将待处理用户数据输入上述训练好的用于识别黑产用户的深度学习网络模型,得到上述待处理用户是否为黑产用户的识别结果。参见图3,图3为本申请实施例的用户识别方法的第三种示意图,包括如下步骤:
步骤S10,获取待处理用户数据。
电子设备获取待处理用户的数据,其中待处理用户数据可包括用户的用户ID、用户的身份证号、用户注册时间、用户等级、用户信用等级、用户使用的设备、网络环境、地址。设备可以为设备ID、设备MAC(Media Access Control,媒体访问控制)地址等可以表征设备的唯一标识。网络环境可以为IP(Internet Protocol Address,互联网协议)地址、所用Wi-Fi(Wireless Fidelity,无线网)的SSID(Service Set Identifier,网络服务集标识)等、地址可以为行政区域名称、经纬度坐标等。例如,在视频网站应用场景中,用户可以上传视频,则用户数据包括:用户注册时间、用户等级、用户年龄、用户信用等级、用户上传视频数据、用户上传视频渠道数、用户上传视频的IP地址。
步骤S20,对上述待处理用户数据中的异常数据采用中位数填充方式进行处理,对上述待处理用户数据中的字符串类型的数据进行One-Hot编码,并基于上述待处理用户数据中的枚举类型的数据的基数对上述待处理用户数据中的枚举类型的数据进行拆分,得到预处理后的用户数据。
上述待处理用户数据的数据会有特征值为空,或者特征值不符合要求的异常数据,例如,其中待处理用户数据包括:用户注册时间、用户等级、用户年龄、用户信用等级、用户上传视频数据、用户上传视频渠道数、用户上传视频的IP地址,其中在上述视频网站应用场景中用户的等级设置为P1-P3,共3个等级,但是待处理用户数据的等级会出现非P1-P3之外的数据,或者数据为空,或者待处理用户数据为NaN的数据,则对于上述待处理用户的等级,采用中位数填充的方式进行处理。采用中位数填充方式填充上述待处理用户数据中的异常数据,对上述待处理用户数据中的字符串类型的数据进行One-Hot编码,并基于上述待处理用户数据中的枚举类型的数据的基数对上述待处理用户数据中的枚举类型的数据进行拆分,得到预处理后的用户数据,以使预处理后的用户数据和上述预先训练好的用于识别黑产用户的深度学习网络模型中的数据特征保持一致,从而提高黑产用户识别的准确率和识别效率。
步骤S30,将上述预处理后的用户数据输入预先训练好的用于识别黑产用户的深度学习网络模型,得到上述待处理用户是否为黑产用户的识别结果。
将待处理用户数据输入上述训练好的用于识别黑产用户的深度学习网络模型,得到上述待处理用户是否为黑产用户的识别结果,例如,上述待处理用户为黑产用户,从而提高黑产用户识别的准确率和识别效率。
在一种可能的实施方式中,上述用于识别黑产用户的深度学习网络模型为梯度提升决策树GBDT模型。
GBDT模型是一种基于决策树实现的分类回归算法,其基本原理在于通过训练新的CART(Classification and Regression Trees,分类与回归树)来拟合当前一轮迭代之前得到的所有树的结论和的残差,让样本的损失尽量的小,使用GBDT模型可以减少过拟合情况的出现,从而提高黑产用户识别的准确率和识别效率。
若对黑产用户识别的准确率无较高要求,也可采用决策树模型作为待训练的模型。
在一种可能的实施方式中,上述黑产样本用户数据和非黑产样本用户数据是按预设比例进行设定的。
上述黑产样本用户数据和非黑产样本用户数据可以根据实际应用需要按预设比例进行设定的,以提高模型的训练效果,例如,黑产样本用户数据和非黑产样本用户数据各占上述样本用户数据的50%,如样本用户数据共有100条,其中黑产样本用户数据为50条,非黑产样本用户数据为50条。可选的,为了提高提高模型的识别黑产用户的准确率,可以适当增加黑产样本用户数据的数量。
在一种可能的实施方式中,上述将上述预处理后的样本用户数据输入用于识别黑产用户的深度学习网络模型中进行训练,得到训练好的用于识别黑产用户的深度学习网络模型,包括:
步骤A,将预处理后的样本用户数据分为K份,得到K份目标样本用户数据,其中每份上述目标样本用户数据中上述黑产样本用户数据和上述非黑产样本用户数据的数量是按上述预设比例进行设定的;
步骤B,在K份上述目标样本用户数据中选取一份未选取过的目标样本用户数据作为测试样本用户数据,并将除上述测试样本用户数据以外的其他K-1份目标样本数据作为训练样本用户数据;
步骤C,将上述训练样本用户数据输入上述GBDT模型中进行训练,得到训练后的GBDT模型;
步骤D,将上述测试样本用户数据分别输入上述训练后的GBDT模型中,得到针对上述测试样本用户数据是否为黑产用户的识别结果;
步骤E,返回上述步骤B继续执行,直至不存在未选取过的目标样本用户数据,得到K个训练后的GBDT模型及K份识别结果;
步骤F,根据K份上述识别结果及上述K个训练后的GBDT模型,确定上述GBDT模型的模型参数,得到训练好的GBDT模型。
GBDT模型可以基于交叉验证方法进行训练,比如K-Folder(K-折交叉验证)方法。具体的,经过对上述样本用户数据中的异常数据采用中位数填充方式进行处理,对上述样本用户数据中的字符串类型的数据进行One-Hot编码,并基于上述样本用户数据中的枚举类型的数据的基数对上述样本用户数据中的枚举类型的数据进行拆分,得到预处理后的样本用户数据,将预处理后的样本用户数据分为10份,从而得到10份目标样本用户数据,其中每份上述目标样本用户数据中上述黑产样本用户数据和上述非黑产样本用户数据的数量占比相同。然后在10份上述目标样本用户数据中选取一份未选取过的目标样本用户数据作为测试样本用户数据,并将除上述测试样本用户数据以外的其他9份目标样本数据作为训练样本用户数据,上述未选取过的目标样本用户数据是指预处理后的样本用户数据中未被选取作为测试样本用户数据的数据。交叉验证重复10次,参见图4,图4为本申请实施例的用户识别方法的第四种示意图,使得每份目标样本用户数据均可作为训练样本用户数据,又可作为测试样本数据。经过10次交叉验证,得到10个识别结果以及10个训练后的GBDT模型,然后确定上述GBDT模型的模型参数,得到训练好的GBDT模型,使得训练好的GBDT模型应用最后的模型参数,从而提高黑产用户识别的准确率和识别效率。
在一种可能的实施方式中,在得到训练好的用于识别黑产用户的深度学习网络模型步骤之后,上述方法还包括:
将待处理用户数据输入上述训练好的用于识别黑产用户的深度学习网络模型,得到上述待处理用户是否为黑产用户的识别结果。
将待处理用户数据输入上述训练好的用于识别黑产用户的深度学习网络模型,得到上述待处理用户是否为黑产用户的识别结果,从而提高黑产用户识别的准确率和识别效率,其中,待处理用户数据可以为预处理后的用户数据,预处理的方式可以包括对用户数据中的异常数据采用中位数填充方式、对用户数据中的字符串类型的数据进行One-Hot编码,还可以包括对用户数据中的枚举类型的数据进行拆分等方式。
通过采取对所述样本用户数据中的异常数据采用中位数填充,对所述样本用户数据中的字符串类型的数据通过One-Hot编码以及基于所述样本用户数据中的枚举类型的数据的基数对所述样本用户数据中的枚举类型的数据进行拆分,得到多个特征维度的枚举类型的数据的方式对所述样本用户数据进行预处理,得到预处理后的样本用户数据,提高了深度学习网络模型的训练数据量,减少过拟合情况的出现,将所述待处理用户数据输入深度学习网络模型中,识别黑产用户,从而提高黑产用户识别的准确率和识别效率。
本申请实施例还提供了用户识别装置的一种示意图,参见图5,图5为本申请实施例的用户识别装置的一种示意图,包括:
获取模块210,用于获取待处理用户数据;
处理模块220,用于对上述待处理用户数据中的异常数据采用中位数填充方式进行处理,对上述待处理用户数据中的字符串类型的数据进行One-Hot编码,并基于上述待处理用户数据中的枚举类型的数据的基数对上述待处理用户数据中的枚举类型的数据进行拆分,得到预处理后的用户数据;
识别模块230,用于将上述预处理后的用户数据输入预先训练好的用于识别黑产用户的深度学习网络模型,得到上述待处理用户是否为黑产用户的识别结果,
训练模块240,用于训练上述用于识别黑产用户的深度学习网络模型,上述训练模块240具体包括:
采集子模块,用于获取样本用户数据,上述样本用户数据包括黑产样本用户数据和非黑产样本用户数据;
预处理子模块,用于对上述样本用户数据中的异常数据采用中位数填充方式进行处理,对上述样本用户数据中的字符串类型的数据进行One-Hot编码,并基于上述样本用户数据中的枚举类型的数据的基数对上述样本用户数据中的枚举类型的数据进行拆分,得到预处理后的样本用户数据;
训练子模块,用于将上述预处理后的样本用户数据输入用于识别黑产用户的深度学习网络模型中进行训练,得到训练好的用于识别黑产用户的深度学习网络模型。
在一种可能的实施方式中,上述黑产样本用户数据和非黑产样本用户数据是按预设比例进行设定的。
在一种可能的实施方式中,上述用于识别黑产用户的深度学习网络模型为梯度提升决策树GBDT模型。
在一种可能的实施方式中,训练子模块具体用于:
步骤A,将预处理后的样本用户数据分为K份,得到K份目标样本用户数据,其中每份上述目标样本用户数据中上述黑产样本用户数据和上述非黑产样本用户数据的数量是按上述预设比例进行设定的;
步骤B,在K份上述目标样本用户数据中选取一份未选取过的目标样本用户数据作为测试样本用户数据,并将除上述测试样本用户数据以外的其他K-1份目标样本数据作为训练样本用户数据;
步骤C,将上述训练样本用户数据输入上述GBDT模型中进行训练,得到训练后的GBDT模型;
步骤D,将上述测试样本用户数据分别输入上述训练后的GBDT模型中,得到针对上述测试样本用户数据是否为黑产用户的识别结果;
步骤E,返回上述步骤B继续执行,直至不存在未选取过的目标样本用户数据,得到K个训练后的GBDT模型及K份识别结果;
步骤F,根据K份上述识别结果及上述K个训练后的GBDT模型,确定上述GBDT模型的模型参数,得到训练好的GBDT模型。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本申请实施例还提供了一种电子设备,参见图6,图6为本申请实施例的电子设备的一种示意图,包括:处理器310、通信接口320、存储器330和通信总线340,其中,处理器310,通信接口320,存储器330通过通信总线340完成相互间的通信,
上述存储器330,用于存放计算机程序;
上述处理器310,用于执行上述存储器330存放的计算机程序时,实现如下步骤:
获取待处理用户数据;
对上述待处理用户数据中的异常数据采用中位数填充方式进行处理,对上述待处理用户数据中的字符串类型的数据进行One-Hot编码,并基于上述待处理用户数据中的枚举类型的数据的基数对上述待处理用户数据中的枚举类型的数据进行拆分,得到预处理后的用户数据;
将上述预处理后的用户数据输入预先训练好的用于识别黑产用户的深度学习网络模型,得到上述待处理用户是否为黑产用户的识别结果;
其中,上述预先训练好的用于识别黑产用户的深度学习网络模型的训练步骤包括:
获取样本用户数据,上述样本用户数据包括黑产样本用户数据和非黑产样本用户数据;
对上述样本用户数据中的异常数据采用中位数填充方式进行处理,对上述样本用户数据中的字符串类型的数据进行One-Hot编码,并基于上述样本用户数据中的枚举类型的数据的基数对上述样本用户数据中的枚举类型的数据进行拆分,得到预处理后的样本用户数据;
将上述预处理后的样本用户数据输入用于识别黑产用户的深度学习网络模型中进行训练,得到训练好的用于识别黑产用户的深度学习网络模型。
可选的,处理器310,用于执行存储器330上所存放的程序时,还可以实现上述任一用户识别方法。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本申请实施例中,还提供了一种存储介质,该存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一上述的用户识别方法。
在本申请实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一上述的用户识别方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。上述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行上述计算机程序指令时,全部或部分地产生按照本发明实施例上述的流程或功能。上述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。上述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,上述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。上述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。上述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,各个可选方案中的技术特征只要不矛盾均可组合来形成方案,这些方案均在本申请公开的范围内。诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括上述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、电子设备及存储介质的实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本申请的较佳实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本申请的保护范围内。

Claims (10)

1.一种用户识别方法,其特征在于,包括:
获取待处理用户数据;
对所述待处理用户数据中的异常数据采用中位数填充方式进行处理,对所述待处理用户数据中的字符串类型的数据进行One-Hot编码,并基于所述待处理用户数据中的枚举类型的数据的基数对所述待处理用户数据中的枚举类型的数据进行拆分,得到预处理后的用户数据;
将所述预处理后的用户数据输入预先训练好的用于识别黑产用户的深度学习网络模型,得到所述待处理用户是否为黑产用户的识别结果;
其中,所述预先训练好的用于识别黑产用户的深度学习网络模型的训练步骤包括:
获取样本用户数据,所述样本用户数据包括黑产样本用户数据和非黑产样本用户数据;
对所述样本用户数据中的异常数据采用中位数填充方式进行处理,对所述样本用户数据中的字符串类型的数据进行One-Hot编码,并基于所述样本用户数据中的枚举类型的数据的基数对所述样本用户数据中的枚举类型的数据进行拆分,得到预处理后的样本用户数据;
将所述预处理后的样本用户数据输入用于识别黑产用户的深度学习网络模型中进行训练,得到训练好的用于识别黑产用户的深度学习网络模型。
2.根据权利要求1所述的方法,其特征在于,所述用于识别黑产用户的深度学习网络模型为梯度提升决策树GBDT模型。
3.根据权利要求2所述的方法,其特征在于,所述黑产样本用户数据和非黑产样本用户数据是按预设比例进行设定的。
4.根据权利要求3所述的方法,其特征在于,所述将所述预处理后的样本用户数据输入用于识别黑产用户的深度学习网络模型中进行训练,得到训练好的用于识别黑产用户的深度学习网络模型,包括:
步骤A,将预处理后的样本用户数据分为K份,得到K份目标样本用户数据,其中每份所述目标样本用户数据中所述黑产样本用户数据和所述非黑产样本用户数据的数量是按所述预设比例进行设定的;
步骤B,在K份所述目标样本用户数据中选取一份未选取过的目标样本用户数据作为测试样本用户数据,并将除所述测试样本用户数据以外的其他K-1份目标样本数据作为训练样本用户数据;
步骤C,将所述训练样本用户数据输入所述GBDT模型中进行训练,得到训练后的GBDT模型;
步骤D,将所述测试样本用户数据分别输入所述训练后的GBDT模型中,得到针对所述测试样本用户数据是否为黑产用户的识别结果;
步骤E,返回上述步骤B继续执行,直至不存在未选取过的目标样本用户数据,得到K个训练后的GBDT模型及K份识别结果;
步骤F,根据K份所述识别结果及所述K个训练后的GBDT模型,确定所述GBDT模型的模型参数,得到训练好的GBDT模型。
5.一种用户识别装置,其特征在于,所述装置包括:
获取模块,用于获取待处理用户数据;
处理模块,用于对所述待处理用户数据中的异常数据采用中位数填充方式进行处理,对所述待处理用户数据中的字符串类型的数据进行One-Hot编码,并基于所述待处理用户数据中的枚举类型的数据的基数对所述待处理用户数据中的枚举类型的数据进行拆分,得到预处理后的用户数据;
识别模块,用于将所述预处理后的用户数据输入预先训练好的用于识别黑产用户的深度学习网络模型,得到所述待处理用户是否为黑产用户的识别结果;
训练模块,用于训练所述用于识别黑产用户的深度学习网络模型,所述训练模块具体包括:
采集子模块,用于获取样本用户数据,所述样本用户数据包括黑产样本用户数据和非黑产样本用户数据;
预处理子模块,用于对所述样本用户数据中的异常数据采用中位数填充方式进行处理,对所述样本用户数据中的字符串类型的数据进行One-Hot编码,并基于所述样本用户数据中的枚举类型的数据的基数对所述样本用户数据中的枚举类型的数据进行拆分,得到预处理后的样本用户数据;
训练子模块,用于将所述预处理后的样本用户数据输入用于识别黑产用户的深度学习网络模型中进行训练,得到训练好的用于识别黑产用户的深度学习网络模型。
6.根据权利要求5所述的装置,其特征在于,所述用于识别黑产用户的深度学习网络模型为梯度提升决策树GBDT模型。
7.根据权利要求6所述的装置,其特征在于,所述黑产样本用户数据和非黑产样本用户数据是按预设比例进行设定的。
8.根据权利要求7所述的装置,其特征在于,所述训练子模块具体用于:
步骤A,将预处理后的样本用户数据分为K份,得到K份目标样本用户数据,其中每份所述目标样本用户数据中所述黑产样本用户数据和所述非黑产样本用户数据的数量是按所述预设比例进行设定的;
步骤B,在K份所述目标样本用户数据中选取一份未选取过的目标样本用户数据作为测试样本用户数据,并将除所述测试样本用户数据以外的其他K-1份目标样本数据作为训练样本用户数据;
步骤C,将所述训练样本用户数据输入所述GBDT模型中进行训练,得到训练后的GBDT模型;
步骤D,将所述测试样本用户数据分别输入所述训练后的GBDT模型中,得到针对所述测试样本用户数据是否为黑产用户的识别结果;
步骤E,返回上述步骤B继续执行,直至不存在未选取过的目标样本用户数据,得到K个训练后的GBDT模型及K份识别结果;
步骤F,根据K份所述识别结果及所述K个训练后的GBDT模型,确定所述GBDT模型的模型参数,得到训练好的GBDT模型。
9.一种电子设备,其特征在于,包括:处理器、通信接口、存储器和通信总线,其中,
所述处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-4中任一项所述的用户识别方法。
10.一种存储介质,其特征在于,所述存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-4任一所述的用户识别方法。
CN201911164464.5A 2019-11-25 2019-11-25 用户识别方法、装置、电子设备及存储介质 Active CN110995681B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911164464.5A CN110995681B (zh) 2019-11-25 2019-11-25 用户识别方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911164464.5A CN110995681B (zh) 2019-11-25 2019-11-25 用户识别方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN110995681A true CN110995681A (zh) 2020-04-10
CN110995681B CN110995681B (zh) 2022-04-22

Family

ID=70086381

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911164464.5A Active CN110995681B (zh) 2019-11-25 2019-11-25 用户识别方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN110995681B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111860299A (zh) * 2020-07-17 2020-10-30 北京奇艺世纪科技有限公司 目标对象的等级确定方法、装置、电子设备及存储介质
TWI749586B (zh) * 2020-06-11 2021-12-11 華碩電腦股份有限公司 訊號檢測方法及使用其之電子裝置
CN114610980A (zh) * 2022-03-21 2022-06-10 平安普惠企业管理有限公司 基于网络舆情的黑产识别方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107633326A (zh) * 2017-09-14 2018-01-26 北京拉勾科技有限公司 一种用户投递意愿模型的构建方法和计算设备
CN109063433A (zh) * 2018-07-09 2018-12-21 中国联合网络通信集团有限公司 虚假用户的识别方法、装置及可读存储介质
CN109165691A (zh) * 2018-09-05 2019-01-08 北京奇艺世纪科技有限公司 用于识别作弊用户的模型的训练方法、装置及电子设备
US20190303569A1 (en) * 2017-06-16 2019-10-03 Alibaba Group Holding Limited Data type recognition, model training and risk recognition methods, apparatuses and devices

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190303569A1 (en) * 2017-06-16 2019-10-03 Alibaba Group Holding Limited Data type recognition, model training and risk recognition methods, apparatuses and devices
CN107633326A (zh) * 2017-09-14 2018-01-26 北京拉勾科技有限公司 一种用户投递意愿模型的构建方法和计算设备
CN109063433A (zh) * 2018-07-09 2018-12-21 中国联合网络通信集团有限公司 虚假用户的识别方法、装置及可读存储介质
CN109165691A (zh) * 2018-09-05 2019-01-08 北京奇艺世纪科技有限公司 用于识别作弊用户的模型的训练方法、装置及电子设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
孔钦等: "大数据下数据预处理方法研究", 《计算机技术与发展》 *
章文俊等: "基于交叉验证网格寻优随机森林的黑产用户识别方法", 《科技视界》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI749586B (zh) * 2020-06-11 2021-12-11 華碩電腦股份有限公司 訊號檢測方法及使用其之電子裝置
CN111860299A (zh) * 2020-07-17 2020-10-30 北京奇艺世纪科技有限公司 目标对象的等级确定方法、装置、电子设备及存储介质
CN111860299B (zh) * 2020-07-17 2023-09-08 北京奇艺世纪科技有限公司 目标对象的等级确定方法、装置、电子设备及存储介质
CN114610980A (zh) * 2022-03-21 2022-06-10 平安普惠企业管理有限公司 基于网络舆情的黑产识别方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN110995681B (zh) 2022-04-22

Similar Documents

Publication Publication Date Title
CN112417439B (zh) 账号检测方法、装置、服务器及存储介质
CN110311902B (zh) 一种异常行为的识别方法、装置及电子设备
US20200195667A1 (en) Url attack detection method and apparatus, and electronic device
CN110995681B (zh) 用户识别方法、装置、电子设备及存储介质
CN109922032B (zh) 用于确定登录账户的风险的方法、装置、设备及存储介质
CN108399418B (zh) 一种用户分类方法及装置
CN107204956B (zh) 网站识别方法及装置
CN107305611B (zh) 恶意账号对应的模型建立方法和装置、恶意账号识别的方法和装置
US20160162794A1 (en) Decision tree data structures generated to determine metrics for child nodes
CN103546446A (zh) 一种钓鱼网站的检测方法、装置和终端
CN108366012B (zh) 一种社交关系建立方法、装置及电子设备
CN111339436A (zh) 一种数据识别方法、装置、设备以及可读存储介质
CN111260220B (zh) 群控设备识别方法、装置、电子设备和存储介质
CN111125521A (zh) 一种信息推荐方法、装置、设备及存储介质
CN113538070B (zh) 用户生命价值周期检测方法、装置和计算机设备
CN106301979B (zh) 检测异常渠道的方法和系统
CN116915442A (zh) 漏洞测试方法、装置、设备和介质
CN107735792A (zh) 软件分析系统、软件分析方法和软件分析程序
CN111783812A (zh) 违禁图像识别方法、装置和计算机可读存储介质
CN109492844B (zh) 业务策略的生成方法和装置
CN108804670B (zh) 数据推荐方法、装置、计算机设备和存储介质
CN110827078A (zh) 一种信息推荐方法、装置、设备及存储介质
CN112019642B (zh) 一种音频上传方法、装置、设备和存储介质
CN112328779B (zh) 训练样本构建方法、装置、终端设备及存储介质
JP6680472B2 (ja) 情報処理装置、情報処理方法及び情報処理プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant