CN113902039A

CN113902039A - 黑产用户识别方法、系统、电子设备及存储介质

Info

Publication number: CN113902039A
Application number: CN202111315292.4A
Authority: CN
Inventors: 高泽恺; 徐雷; 陶冶; 王智明; 边林; 张立彤
Original assignee: China United Network Communications Group Co Ltd
Current assignee: China United Network Communications Group Co Ltd
Priority date: 2021-11-08
Filing date: 2021-11-08
Publication date: 2022-01-07

Abstract

本公开提供一种黑产用户识别方法、系统、电子设备及计算机可读存储介质，以解决黑产识别准确率低的技术问题，所述方法包括：采集用户数据进行处理得到本地用户数据集；设定本地识别模型的目标函数，使用含有黑产标签的本地用户数据训练，得出目标函数的系数；将本地用户数据集中包含用户属性信息的数据进行加密后与训练后的本地识别模型上传到联邦学习平台，并与平台上其他运营商上传的识别模型和加密后的用户数据集进行联合建模，训练后得到联合模型系数；根据联合模型系数对本地识别模型目标函数的系数进行更新；再对本地用户数据进行黑产用户识别。本公开技术方案保证用户隐私和数据安全条件下为客户提供更准确的黑产用户识别。

Description

黑产用户识别方法、系统、电子设备及存储介质

技术领域

本公开涉及网络安全技术领域，具体涉及一种黑产用户识别方法，一种黑产用户识别系统，一种电子设备以及一种计算机可读存储介质。

背景技术

网络中的黑产用户包括盗取正常用户信息的用户、恶意刷赞、刷评或刷粉用户、色情交易类用户、专业养号类用户、群发链接用户以及诈骗用户，黑产用户的行为严重影响用户正常体验，为网络健康发展带来重大隐患。为了网络健康持续发展，改善用户网络环境体验，需要将黑产用户识别出来进行治理。

目前对于黑产治理主要依托情报收集、作恶信息收集、黑产信息(IP和手机号)库等技术手段；对于情报收集，也就是所谓的众标众享，主要来自于互联网厂商，准确率不高，运营商使用容易引发用户投诉；对于作恶信息收集，容易产生事后处理，及时性不高，对社会威胁伤害大；而对于黑产信息库手段来说，恶意用户具有分散性、潜伏性、复杂性等特点，单方的数据很难满足检测要求，并且由于用户隐私和数据安全也极为重要，信息库数据收集有限，识别的准确率低，识别效率不高，难以满足在保证用户隐私和数据安全条件下黑产用户的检测要求。因此，亟需一种新的黑产用户识别方法。

发明内容

为了至少解决现有技术中对黑产用户识别的准确率低，识别效率不高的技术问题，本公开提供一种黑产用户识别方法、黑产用户识别系统、电子设备及计算机可读存储介质，能够在保证用户隐私和数据安全条件下通过联合学习优化本地学习模型，为企业客户提供更准确和快捷的黑产用户识别，为运营商净化网络空间，减少财产损失。

第一方面，本公开提供一种黑产用户识别方法，所述方法包括：

采集用户固网数据，对其进行处理后得到本地用户数据集；

设定本地识别模型的目标函数，并使用本地用户数据集中含有黑产标签的本地用户数据对本地识别模型进行训练，得出本地识别模型目标函数的系数；

将本地用户数据集中包含用户属性信息的数据进行加密，将训练后的本地识别模型和加密后的本地用户数据集上传到联邦学习平台，以使联邦学习平台将所有运营商上传的训练后的识别模型和加密后的用户数据集进行联合建模得到联合模型，再通过所有运营商上传的用户数据对联合模型进行训练，得到联合模型目标函数的系数并返回给各个运营商；

获取联合模型目标函数的系数，根据联合模型目标函数的系数对本地识别模型目标函数的系数进行更新；

通过已更新的本地识别模型，对本地用户数据集中的用户数据进行黑产用户识别。

进一步的，对用户固网数据进行处理后得到本地用户数据集，包括：

对用户固网数据进行预处理后存入本地用户数据库；

对本地用户数据库中的数据进行归一化处理，得到本地用户数据集；

其中，所述用户固网数据包括：宽带账户名、绑定的手机号、在线时长、变更IP次数、平均上线时长、IP跨省数和IP省份中的任意一种或多种。

进一步的，所述对本地用户数据库中的数据进行归一化处理，包括：

对于在线时长，将在线时长与数据采集时间间隔的比值作为在线时长的归一化数值；

对于变更IP次数、平均在线时长和IP跨省数，分别计算出各自对应的全量用户的平均值，然后将各自的原值分别与各自对应的全量用户的平均值的比值作为各自的归一化数值；

对于绑定的手机号，根据已有黑产库中对应号码与所述绑定的手机号的前三位数相同的黑产用户的数量占比作为其归一化数值；

对于IP省份，根据已有黑产库中对应相同IP省份的黑产用户的数量占比作为其归一化数值。

进一步的，所述本地识别模型的目标函数为：

h_θ(x)＝θ₀+θ₁*A1+θ₂*A2+θ₃*A3+…+θ_n*An，

其中，h_θ(x)为本地识别模型的目标函数，表示疑似黑产用户可能性，A1、A2、A3…An分别为用户固网数据中各项数据的归一化数值，θ₀、θ₁、…、θ_n分别为用户固网数据中各项数据的待确定系数。

进一步的，在通过已更新的本地识别模型，对本地用户数据集中的用户数据进行黑产用户识别之后，还包括：

将识别出的疑似黑产用户与黑产用户数据库中的黑产用户进行比对，若疑似黑产用户未在黑产用户数据库中，则对所述疑似黑产用户进行验证，验证通过后将其添加至黑产用户数据库。

进一步的，所述方法还包括：

将黑产用户数据库中的黑产用户的用户属性信息按预设加密算法进行加密，所述用户属性信息包括宽带账户名；

接收外部用户发送的黑产用户查询请求，所述查询请求中包括按所述预设加密算法加密的待查询宽带账户名；

将所述查询请求中加密后的待查询宽带账户名与黑产用户数据库中对应的加密数据进行对比，识别出此外部用户是否涉及黑产，并将识别结果返回到外部用户。

进一步的，所述预设加密算法为国密椭圆曲线公钥密码算法。

第二方面，本公开提供一种黑产用户识别系统，包括：

数据采集与处理模块，其设置为采集用户固网数据，对其进行处理后得到本地用户数据集；

训练模块，其设置为设定本地识别模型的目标函数，并使用本地用户数据集中含有黑产标签的本地用户数据对本地识别模型进行训练，得出本地识别模型目标函数的系数；

联邦学习模块，其设置为将本地用户数据集中包含用户属性信息的数据进行加密，将训练后的本地识别模型和加密后的本地用户数据集上传到联邦学习平台，以使联邦学习平台将所有运营商上传的训练后的识别模型和加密后用户数据集进行联合建模得到联合模型，再通过所有运营商上传的用户数据对联合模型进行训练，得到联合模型目标函数的系数并返回给各个运营商；

更新模块，其设置为获取联合模型目标函数的系数，根据联合模型目标函数的系数对本地识别模型目标函数的系数进行更新；

识别模块，其设置为通过已更新的本地识别模型，对本地用户数据集中的用户数据进行黑产用户识别。

第三方面，本公开提供一种电子设备，包括存储器和处理器，所述存储器中存储有计算机程序，当所述处理器运行所述存储器存储的计算机程序时，所述处理器执行如第一方面中任一所述的黑产用户识别方法。

第四方面，本公开提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面中任一所述的黑产用户识别方法。

有益效果：

本公开提供的黑产用户识别方法、黑产用户识别系统、电子设备及计算机可读存储介质，通过采集用户固网数据，对其进行处理后得到本地用户数据集；设定本地识别模型的目标函数，并使用本地用户数据集中含有黑产标签的本地用户数据对本地识别模型进行训练，得出本地识别模型目标函数的系数；将本地用户数据集中包含用户属性信息的数据进行加密，将训练后的本地识别模型和加密后的本地用户数据集上传到联邦学习平台，以使联邦学习平台将所有运营商上传的训练后的识别模型和加密后的用户数据集进行联合建模得到联合模型，再通过所有运营商上传的用户数据对联合模型进行训练，得到联合模型目标函数的系数并返回给各个运营商；获取联合模型目标函数的系数，根据联合模型目标函数的系数对本地识别模型目标函数的系数进行更新；通过已更新的本地识别模型，对本地用户数据集中的用户数据进行黑产用户识别。本公开技术方案通过在采集用户固网数据后，进行归一化数值，便于建模分析，并在得到训练完的本地模型后，对用户数据进行用户属性信息加密后将加密的数据集上传到隐私计算平台，与合作方使用的数据集进行各个数据集字段的对齐拟合，一起通过联合学习建模得到联合模型系数，再分别优化各自的本地模型，解决单方的数据难以满足黑产用户检测要求，并同时保证用户隐私和数据安全的问题。

附图说明

图1为本公开实施例一提供的一种黑产用户识别方法的流程示意图；

图2为本公开实施例一提供的一种黑产用户识别过程的流程示意图；

图3为本公开实施例二提供的一种黑产用户识别系统的架构图；

图4为本公开实施例三提供的一种电子设备的架构图。

具体实施方式

为使本领域技术人员更好地理解本公开的技术方案，下面结合附图和实施例对本公开作进一步详细描述。应当理解的是，此处描述的具体实施例和附图仅仅用于解释本发明，而非对本发明的限定。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序；并且，在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互任意组合。

其中，在本公开实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本公开。在本公开实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

在后续的描述中，使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本公开的说明，其本身没有特定的意义。因此，“模块”、“部件”或“单元”可以混合地使用。

当前运营商对黑产用户的识别，由于其获取的数据有限，很难满足检测要求，并且由于用户隐私和数据安全要求，信息库数据收集有限，识别的准确率低，识别效率不高，难以满足在保证用户隐私和数据安全条件下黑产用户的检测要求。

下面以具体地实施例对本公开的技术方案以及本公开的技术方案如何解决上述问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。

图1为本公开实施例一提供的一种黑产用户识别方法的流程示意图，如图1所示，所述方法包括：

步骤S101：采集用户固网数据，对其进行处理后得到本地用户数据集；

步骤S102：设定本地识别模型的目标函数，并使用本地用户数据集中含有黑产标签的本地用户数据对本地识别模型进行训练，得出本地识别模型目标函数的系数；

步骤S103：将本地用户数据集中包含用户属性信息的数据进行加密，将训练后的本地识别模型和加密后的本地用户数据集上传到联邦学习平台，以使联邦学习平台将所有运营商上传的训练后的识别模型和加密后的用户数据集进行联合建模得到联合模型，再通过所有运营商上传的用户数据对联合模型进行训练，得到联合模型目标函数的系数并返回给各个运营商；

步骤S104：获取联合模型目标函数的系数，根据联合模型目标函数的系数对本地识别模型目标函数的系数进行更新；

步骤S105：通过已更新的本地识别模型，对本地用户数据集中的用户数据进行黑产用户识别。

电信运营商采集用户固网数据，包括宽带账户名、IP地址、上线时间、下线时间、所在省份等各项指标，为将数据用于黑产的号码的精确识别，需要将原始的用户数据进行预处理，包括获得在线时长，在线时长需要利用原始数据中的(下线时间-上线时间)得出，对于数据中的缺少的数据进行填充，将明细错误数据删除等，在对用户数据进行预处理后，再进行量纲处理将数据处理成可用于建模分析的数据，处理完成后得到本地用户数据集。然后设定本地识别模型的目标函数，目标函数是根据用户数据集中各参数确定用户为黑产用户概率的函数，设定时各参数的权重系数θ₀、θ₁、…、θ_n为待确认。在各运营商中存储有黑产用户数据库，其中包括多个识别出的黑产用户及该用户对应的固网数据，将黑产用户设置标签，使用含有黑产标签的本地用户数据对本地识别模型进行训练，得出本地识别模型目标函数的系数，通过设定疑似黑产用户目标函数的阈值，当用户计算得到目标函数超过阈值时，判定其为疑似黑产用户，通过本地识别模型可以对黑产用户进行识别，但由于其训练的数据是单一的数据库，获取的数据有限，对黑产用户的识别的准确率不高，为此，将本地用户数据集中包含用户属性信息的数据进行加密，将训练后的本地识别模型和加密后的数据集上传到联邦学习平台，并与平台上其他运营商上传的训练后的识别模型和加密后的用户数据集进行联合建模，将各个用户数据集的字段进行对齐拟合，由中心方或者协议方进行联合建模，通过所有运营商的用户数据训练后得到联合模型目标函数的系数，用于更新本地模型的系数。通过更新后的本地识别模型，对原现网数据进行识别。实现多方在不公开个人数据库的情况下的联合建模，并可以对本地模型进行优化，达到更好的黑产用户识别效果。

在本实施例的另一种实施方式中，也可以不上传训练后的本地识别模型，在联邦学习平台根据多个运营商的用户数据集，进行对齐拟合建模和训练，各个运营商的用户数据集中都包含已标签的黑产用户数据，联合模型的目标函数形式与本地模型相同。通过联邦学习可以在保证数据隐私安全及合法合规的基础上，实现共同建模，提升AI模型的效果，从而提高黑产用户识别的准确率和识别效率。在中间方或者协议方返回参数系数后，进行本地模型更新，由各运营商对其用户数据进行黑产用户识别。并不断更新黑产用户数据库。

对用户固网数据进行预处理后存入本地用户数据库；

对每一个采集的用户进行信息统计，采样的数据可以多样化，除用户基础数据外，尽量采样所有与黑产用户特征行为相关的数据，例如可以包括：宽带账户名、绑定的手机号、在线时长、变更IP次数、平均上线时长、IP跨省数和IP省份。在采集时记录本次采集时间间隔T_period，采集数据进行预处理后形成如下表数据结构。

其中在线时长由采集间隔时间段内的在线总时长(例如通话时长等)，平均在线时长为平均单次在线时长。为了便于进行建模分析，需要对数据进行归一化处理，归一化是消除指标之间的量纲影响，进行数据标准化处理，以解决数据指标之间的可比性，通过归一化处理使得预处理的数据被限定在一定的范围内，从而消除奇异样本数据导致的不良影响；数据归一化处理后，可以加快梯度下降求最优解的速度，且有可能提高精度。

在数据经过预处理后，需要对本地用户数据库中的数据进行进一步处理，给与归一化数值，便于建模分析，对于连续数值的归一化处理，如在线时长归一化数值：ID_Time`＝ID_Time/T_period；对于变更IP次数、平均在线时长、IP跨省数，首先分别计算出全量用户的平均值，然后将各自的原值与全量数据的平均值的比值作为计算值，如平均在线时长归一化数值:Time_avg`₁＝n*Time_avg₁/∑(Time_avg₁+…Time_avg_n)，变更IP次数、IP跨省数计算同平均在线时长计算方法。对于离散数值Num、IP Prov则根据已有黑产用户数据库中的同类数据占比确定，例如Num前3位为131，则其归一化数值为黑产用户数据库中号码前3位为131的黑夜用户的数量占比k％。通过归一化处理，将各不指标之间的量纲影响消除，得到标准化数据，实现数据指标之间的可比性。

所述本地识别模型的目标函数为：

h_θ(x)＝θ₀+θ₁*A1+θ₂*A2+θ₃*A3+…+θ_n*An，

其中θ₀、θ₁、…、θ_n为目标函数的待确认系数，A1、A2…An分别代表绑定的手机号、在线时长、变更IP次数、平均上线时长、IP跨省数和IP省份的归一化数值，h_θ(x)为疑似黑产用户可能性，计算得到h_θ(x)越大则该用户涉黑可能性越大。使用含有黑产标签的数据集对本地识别模型进行训练，得出符合本地模型的θ₀、θ₁、…、θ_n。

可以通过本地数据训练的识别模型和经过更新后的识别模型分别对用户数据进行识别验证，对黑产用户进行两种模型识别，可以尽可能的找出黑产用户，并且可以对比两个模型的准确率。对于已识别出的疑似黑产用户与黑产用户数据库进行比对，将对比后未在黑产用户数据库中的疑似用户进行验证，验证后若确定为黑产用户则添加至黑产用户数据库。

进一步的，所述方法还包括：

通过定期更新本地识别模型，并定期进行黑产用户识别，可以丰富黑产用户数据库；外部接入用户可以将通过国密加密的用户ID在隐私平台上与隐私平台上对外输出的黑产用户数据库中已加密的用户ID进行比对，进而识别出此用户是否涉及黑产。实现本地黑产库对外输出，为企业客户提供更准确的黑产号码识别。

使用国密SM2(256位椭圆曲线)加密算法密码复杂度高、处理速度快、机器性能消耗更小。

本公开实施例通过在采集用户固网数据后，进行归一化数值，便于建模分析，并在得到训练完的本地模型后，对用户数据进行用户属性信息加密后将加密的数据集上传到隐私计算平台，与合作方使用的数据集进行各个数据集字段的对齐拟合，一起通过联合学习建模得到联合模型系数，再分别优化各自的本地模型，解决单方的数据难以满足黑产用户检测要求，并同时保证用户隐私和数据安全的问题。

为便于理解，请结合图2所示，对于黑产用户的的识别包括四个阶段，分别为数据预处理、样本对齐、联邦学习和数据使用，运营商A和合作方B都具有黑产库，各自对采集的用户数据进行清洗，数值归一得到各自样本数据；将样本数据A和B对齐并按同样加密方式进行加密，在将各种训练的本地模型A和合作方模型B进行联邦学习得到联邦学习模型，再根据多个样本数据训练联邦学习模型，并更新各自的本地模型，数据使用时通过本地模型调用待检测数据进行识别，对用户进行分类，并更新本地黑产库，实现对外用户的检测。

图3为本公开实施例二提供的一种黑产用户识别系统的架构图，如图3所示，包括：

数据采集与处理模块11，其设置为采集用户固网数据，对其进行处理后得到本地用户数据集；

训练模块12，其设置为设定本地识别模型的目标函数，并使用本地用户数据集中含有黑产标签的本地用户数据对本地识别模型进行训练，得出本地识别模型目标函数的系数；

联邦学习模块13，其设置为将本地用户数据集中包含用户属性信息的数据进行加密，将训练后的本地识别模型和加密后的本地用户数据集上传到联邦学习平台，以使联邦学习平台将所有运营商上传的训练后的识别模型和加密后用户数据集进行联合建模得到联合模型，再通过所有运营商上传的用户数据对联合模型进行训练，得到联合模型目标函数的系数并返回给各个运营商；

更新模块14，其设置为获取联合模型目标函数的系数，根据联合模型目标函数的系数对本地识别模型目标函数的系数进行更新；

识别模块15，其设置为通过已更新的本地识别模型，对本地用户数据集中的用户数据进行黑产用户识别。

进一步的，所述数据采集与处理模块11具体设置为：

对用户固网数据进行预处理后存入本地用户数据库；以及，

进一步的，所述数据采集与处理模块11具体设置为：

进一步的，所述本地识别模型的目标函数为：

h_θ(x)＝θ₀+θ₁*A1+θ₂*A2+θ₃*A3+…+θ_n*An，

进一步的，所述识别模块15还设置为在通过已更新的本地识别模型，对本地用户数据集中的用户数据进行黑产用户识别之后，将识别出的疑似黑产用户与黑产用户数据库中的黑产用户进行比对，若疑似黑产用户未在黑产用户数据库中，则对所述疑似黑产用户进行验证，验证通过后将其添加至黑产用户数据库。

进一步的，所述系统还包括加密模块16和接收模块17；

所述加密模块16设置为将黑产用户数据库中的黑产用户的用户属性信息按预设加密算法进行加密，所述用户属性信息包括宽带账户名；

所述接收模块17设置为接收外部用户发送的黑产用户查询请求，所述查询请求中包括按所述预设加密算法加密的待查询宽带账户名；

所述识别模块15还设置为将所述查询请求中加密后的待查询宽带账户名与黑产用户数据库中对应的加密数据进行对比，识别出此外部用户是否涉及黑产，并将识别结果返回到外部用户

进一步的，所述更新模块14还设置为定期更新本地识别模型，并使所述识别模块15进行黑产用户识别。

本公开实施例的黑产用户识别系统用于实施方法实施例一中的黑产用户识别方法，所以描述的较为简单，具体可以参见前面方法实施例一中的相关描述，此处不再赘述。

此外，如图4所示，本公开实施例三还提供一种电子设备，包括存储器10和处理器20，所述存储器10中存储有计算机程序，当所述处理器20运行所述存储器10存储的计算机程序时，所述处理器20执行上述各种可能的黑产用户识别方法。

其中，存储器10与处理器20连接，存储器10可采用闪存或只读存储器或其他存储器，处理器20可采用中央处理器或单片机。

此外，本公开实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行上述各种可能的方法。

该计算机可读存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、计算机程序模块或其他数据)的任何方法或技术中实施的易失性或非易失性、可移除或不可移除的介质。计算机可读存储介质包括但不限于RAM(Random Access Memory，随机存取存储器)，ROM(Read-Only Memory，只读存储器)，EEPROM(Electrically ErasableProgrammable read only memory，带电可擦可编程只读存储器)、闪存或其他存储器技术、CD-ROM(Compact Disc Read-Only Memory，光盘只读存储器)，数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。

可以理解的是，以上实施方式仅仅是为了说明本公开的原理而采用的示例性实施方式，然而本公开并不局限于此。对于本领域内的普通技术人员而言，在不脱离本公开的精神和实质的情况下，可以做出各种变型和改进，这些变型和改进也视为本公开的保护范围。

Claims

1.一种黑产用户识别方法，其特征在于，所述方法包括：

采集用户固网数据，对其进行处理后得到本地用户数据集；

2.根据权利要求1所述的方法，其特征在于，对用户固网数据进行处理后得到本地用户数据集，包括：

对用户固网数据进行预处理后存入本地用户数据库；

3.根据权利要求2所述的方法，其特征在于，所述对本地用户数据库中的数据进行归一化处理，包括：

4.根据权利要求1所述的方法，其特征在于，所述本地识别模型的目标函数为：

h_θ(x)＝θ₀+θ₁*A1+θ₂*A2+θ₃*A3+…+θ_n*An，

其中，h_θ(x)为本地识别模型的目标函数，表示疑似黑产用户可能性，A1、A2、A3...An分别为用户固网数据中各项数据的归一化数值，θ₀、θ₁、...、θ_n分别为用户固网数据中各项数据的待确定系数。

5.根据权利要求1所述的方法，其特征在于，在通过已更新的本地识别模型，对本地用户数据集中的用户数据进行黑产用户识别之后，还包括：

6.根据权利要求1或5所述的方法，其特征在于，所述方法还包括：

7.根据权利要求6所述的方法，其特征在于，所述预设加密算法为国密椭圆曲线公钥密码算法。

8.一种黑产用户识别系统，其特征在于，包括：

9.一种电子设备，其特征在于，包括存储器和处理器，所述存储器中存储有计算机程序，当所述处理器运行所述存储器存储的计算机程序时，所述处理器执行如权利要求1-7中任一项所述的黑产用户识别方法。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的黑产用户识别方法。