CN113743963A

CN113743963A - 异常识别模型训练、异常对象识别方法、装置及电子设备

Info

Publication number: CN113743963A
Application number: CN202111146489.XA
Authority: CN
Inventors: 祝黄建; 郭德
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2021-09-28
Filing date: 2021-09-28
Publication date: 2021-12-03

Abstract

本申请实施例提供了一种异常识别模型训练、异常对象识别方法、装置及电子设备，涉及计算机技术领域。异常识别模型训练方法包括：利用异常识别模型对各识别对象的宏观统计特征进行识别，得到识别出的异常对象。以及将各识别对象的宏观统计特征输入无监督学习模型，并根据无监督学习模型输出的离群点，确定异常对象。然后生成训练集，训练集中包括训练样本和每个训练样本的人工标注结果，训练样本包括：利用异常识别模型识别出的异常对象的宏观统计特征、利用无监督学习模型确定的异常对象的宏观统计特征和预设数目个识别对象的宏观统计特征。再采用训练集对异常识别模型进行训练，得到迭代后的异常识别模型。如此可以提高识别异常对象的准确率。

Description

异常识别模型训练、异常对象识别方法、装置及电子设备

技术领域

本发明涉及计算机技术领域，特别是涉及一种异常识别模型训练、异常对象识别方法、装置及电子设备。

背景技术

互联网广告，是指通过网站、网页、互联网应用程序等互联网媒介，以文字、图片、音频、视频或者其他形式，直接或者间接地推销商品或者服务的商业广告。比如，目前的视频软件可作为广告投放平台为广告主提供广告位，从而为广告主投放广告。在投放广告后，视频软件还需统计广告的点击率，从而确定广告投放效果或者对广告主进行计费。并且视频软件还可以统计各视频的点击率，以确定各视频的播放效果。

而黑产会对广告或视频进行恶意刷量操作，导致广告或视频的点击率异常突增，会对广告主或者视频投放者的利益造成损失。所以需要对恶意刷量操作进行识别并过滤，目前一般通过固定规则识别恶意刷量操作，比如若一个广告在5秒内被点击超过3次，则认为该广告被恶意点击。然而黑产可以通过变换刷量方式来规避固定规则，比如每3秒点击一次广告，导致通过上述固定规则无法识别出恶意刷量操作，进而无法准确地识别出哪些广告或视频的点击率存在异常。

发明内容

本发明实施例的目的在于提供一种异常识别模型训练、异常对象识别方法、装置及电子设备，以解决无法准确地识别出哪些广告或视频的点击率存在异常的问题。具体技术方案如下：

第一方面，本申请实施例提供了一种异常识别模型训练方法，包括：

利用异常识别模型对各识别对象的宏观统计特征进行识别，得到识别出的异常对象；其中，所述宏观统计特征包括预设时间段内点击识别对象的用户的用户统计信息和用户观影行为数据，所述异常识别模型是通过对有监督的机器学习模型进行训练得到的；

将各识别对象的宏观统计特征输入无监督学习模型，并根据所述无监督学习模型输出的离群点，确定异常对象；

生成训练集，所述训练集中包括训练样本和每个训练样本的人工标注结果，所述训练样本包括：利用所述异常识别模型识别出的异常对象的宏观统计特征、利用所述无监督学习模型确定的异常对象的宏观统计特征和预设数目个识别对象的宏观统计特征；

采用所述训练集对所述异常识别模型进行训练，得到迭代后的异常识别模型；所述异常识别模型用于识别异常对象。

第二方面，本申请实施例提供了一种异常对象识别方法，包括：

获取识别对象的宏观统计特征，所述宏观统计特征包括预设时间段内点击识别对象的用户的用户统计信息和用户观影行为数据；

将所述识别对象的宏观统计特征输入异常识别模型，获取所述异常识别模型的识别结果；其中，所述异常识别模型为通过第一方面所述的方法得到的用于线上识别异常对象的异常识别模型；

根据所述识别结果确定所述识别对象是否为异常对象。

第三方面，本申请实施例提供一种异常识别模型训练装置，包括：

识别模块，用于利用异常识别模型对各识别对象的宏观统计特征进行识别，得到识别出的异常对象；其中，所述宏观统计特征包括预设时间段内点击识别对象的用户的用户统计信息和用户观影行为数据，所述异常识别模型是通过对有监督的机器学习模型进行训练得到的；

确定模块，用于将各识别对象的宏观统计特征输入无监督学习模型，并根据所述无监督学习模型输出的离群点，确定异常对象；

生成模块，用于生成训练集，所述训练集中包括训练样本和每个训练样本的人工标注结果，所述训练样本包括：利用所述异常识别模型识别出的异常对象的宏观统计特征、利用所述无监督学习模型确定的异常对象的宏观统计特征和预设数目个识别对象的宏观统计特征；

训练模块，用于采用所述生成模块生成的所述训练集对所述异常识别模型进行训练，得到迭代后的异常识别模型；所述异常识别模型用于识别异常对象。

第四方面，本申请实施例提供一种异常对象识别装置，包括：

获取模块，用于获取识别对象的宏观统计特征，所述宏观统计特征包括预设时间段内点击识别对象的用户的用户统计信息和用户观影行为数据；

所述获取模块，还用于将所述识别对象的宏观统计特征输入异常识别模型，获取所述异常识别模型的识别结果；其中，所述异常识别模型为通过第二方面所述的装置得到的用于线上识别异常对象的异常识别模型；

确定模块，用于根据所述获取模块获取的所述识别结果确定所述识别对象是否为异常对象。

第五方面，本申请实施例还提供一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述第一方面或者第二方面所述的方法步骤。

第六方面，本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现第一方面或者第二方面所述的方法。

第七方面，本申请实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述第一方面或者第二方面所述的方法。

本申请实施例提供的一种异常识别模型训练、异常对象识别方法、装置及电子设备，可以利用异常识别模型识别出各识别对象中的的异常对象，还可以利用无监督学习模型识别出各识别对象中的异常对象。进而将异常识别模型识别出的异常对象的宏观统计特征、无监督学习模型识别出的异常对象的宏观统计特征以及预设数目个识别对象对应的宏观统计特征作为训练样本，而不是仅仅将异常识别模型识别出的异常对象的宏观统计特征作为训练样本，可以提高召回率，进而通过上述训练样本以及训练样本的标注对异常模型进行迭代训练。如此，即使黑产通过变换刷量方式，导致异常识别模型未识别出部分异常对象，通过无监督学习模型也能够识别出一部分异常识别模型未识别出的异常对象，将这些异常对象的宏观统计特征作为迭代训练的训练样本，可以使得迭代后的异常识别模型有机会识别出更多类型的刷量操作导致的异常对象。因此本申请实施例可以提高对异常对象识别的准确率。

当然，实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明实施例提供的一种异常识别模型训练方法的流程图；

图2为本发明实施例提供的一种确定宏观统计特征的方法的流程图；

图3为本发明实施例提供的一种确定线上应用的异常识别模型的方法的流程图；

图4为本发明实施例提供的另一种异常识别模型训练方法的流程示意图；

图5为本发明实施例提供的一种异常识别模型训练过程的示例性示意图；

图6为本发明实施例提供的一种异常对象识别方法的流程图；

图7为本发明实施例提供的一种异常识别模型训练装置结构示意图；

图8为本发明实施例提供的一种异常对象识别装置结构示意图；

图9为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。

本申请实施例中所涉及的识别对象为视频网站中展示的广告或视频。由于黑产对于视频网站中展示的广告或者视频的恶意刷量操作，不但不会对广告或者视频达到推广效果，而且还会对广告主或者视频投放者的利益造成损失。所以需要对恶意刷量操作进行识别并过滤。目前一般通过固定规则识别恶意刷量操作，该方法识别出的存在异常的广告或视频的点击率不准确。

为了更准确地识别出哪些广告或视频的点击率存在异常，本申请实施例提供了一种异常识别模型训练、异常对象识别方法、装置及电子设备。

下面先对本申请实施例提供的一种异常识别模型训练方法进行说明，该方法应用于电子设备，本申请实施例对电子设备在异常识别场景中的具体设备类型无特别限制，示例性的一种实施例中，该电子设备可以为视频软件所对应的服务器。请参见图1，该方法可以包括如下步骤：

S101、利用异常识别模型对各识别对象的宏观统计特征进行识别，得到识别出的异常对象。其中，宏观统计特征包括预设时间段内点击识别对象的用户的用户统计信息和用户观影行为数据，异常识别模型是通过对有监督的机器学习模型进行训练得到的。

S102、将各识别对象的宏观统计特征输入无监督学习模型，并根据无监督学习模型输出的离群点，确定异常对象。

S103、生成训练集。其中，训练集中包括训练样本和每个训练样本的人工标注结果，训练样本包括：利用异常识别模型识别出的异常对象的宏观统计特征、利用无监督学习模型确定的异常对象的宏观统计特征和预设数目个识别对象的宏观统计特征。

S104、采用训练集对异常识别模型进行训练，得到迭代后的异常识别模型。其中，异常识别模型用于识别异常对象。

本申请实施例提供的异常识别模型训练方法，可以利用异常识别模型识别出各识别对象中的的异常对象，还可以利用无监督学习模型识别出各识别对象中的异常对象。进而将异常识别模型识别出的异常对象的宏观统计特征、无监督学习模型识别出的异常对象的宏观统计特征以及预设数目个识别对象对应的宏观统计特征作为训练样本，而不是仅仅将异常识别模型识别出的异常对象的宏观统计特征作为训练样本，可以提高召回率，进而通过上述训练样本以及训练样本的标注对异常模型进行迭代训练。如此，即使黑产通过变换刷量方式，导致异常识别模型未识别出部分异常对象，通过无监督学习模型也能够识别出一部分异常识别模型未识别出的异常对象，将这些异常对象的宏观统计特征作为迭代训练的训练样本，可以使得迭代后的异常识别模型有机会识别出更多类型的刷量操作导致的异常对象，可以提高对异常对象识别的准确率。

以下对本申请实施例提供的异常识别模型训练方法进行详细说明。

针对上述S101，利用异常识别模型对各识别对象的宏观统计特征进行识别，得到识别出的异常对象。

其中，宏观统计特征包括预设时间段内点击识别对象的用户的用户统计信息和用户观影行为数据。用户统计信息可以包括但不限于：点击同一条识别对象的用户中的新用户占比和/或登录用户占比。用户统计信息还可以包括信息完整度大于预设值的用户占比等，此处不再一一列举。其中，信息完整度是指用户在视频网站中填写的个人信息的完整度。

例如，预设时间段内100个用户点击过广告A，其中10个用户是新用户，则可确定新用户占比为10％。

登录用户为已登录视频网站的用户。例如预设时间段内点击过广告A的100个用户中，有90个用户已登录视频网站，登录用户占比为90％。

用户观影行为数据可以包括但不限于：点击同一条识别对象的用户中存在暂停视频行为的用户占比和/或各用户的观影量。比如还可以包括存在视频调节行为的用户占比，此处不再一一列举。

其中，除暂停视频行为之外，视频调节行为还可以包括但不限于如下至少一项：快进、跳过、调节播放倍速、调节清晰度、调节画布长宽比等。

S101中的异常识别模型为通过初始训练集对初始异常识别模型进行训练得到的模型。该初始异常识别模型可以为有监督的机器学习模型。有监督的机器学习模型为经过人工标注的样本训练得到的模型，利用有人工标注的训练样本训练的模型的准确率更高。

例如，异常识别模型可以但不限于是逻辑回归模型、支持向量机(Support VectorMachine)模型、朴素贝叶斯(Naive Bayes)模型或者梯度提升决策树(Gradient BoostingDecision Tree，GBDT)模型等。其他分类模型也可以作为异常识别模型，本申请实施例在此不作穷举。初始训练集中包括多个初始样本以及每个初始样本的标注，初始样本包括正样本和负样本，正样本为正常对象的宏观统计提特征，负样本为异常对象的宏观统计特征。正常对象为未被异常点击的识别对象，异常对象为被异常点击的识别对象。

通过初始训练集训练得到异常识别模型的方式包括：将初始训练集中的一个初始样本输入初始异常识别模型，获取初始异常识别模型输出的初始样本属于正常对象和异常对象的概率。基于初始异常识别模型输出的结果和初始样本的标注计算损失函数值，根据损失函数值，确认初始异常识别模型是否收敛。如果模型收敛，则将当前的初始异常识别模型作为异常识别模型，如果初始异常识别模型未收敛，则根据损失函数值调整初始异常识别模型的参数，并返回将初始训练集中的一个初始样本输入初始异常识别模型的步骤，直至初始异常识别模型收敛，训练完成。

其中，本申请实施例中的识别对象可以为视频网站中展示的广告或视频，电子设备可以通过对视频网站的日志数据进行统计，从而得到各广告或视频的宏观统计特征。参见图2，获取宏观统计特征的方式包括以下步骤：

S201、获取视频网站在预设时间段内产生的日志数据。该日志数据用于记录视频网站中各识别对象的点击记录。

S202、从日志数据中提取各识别对象的点击记录。其中，每条点击记录中包括一个用户ID。

上述日志数据为用户对视频网站中各广告或视频的点击记录，每条点击记录中都记录有产生点击行为的用户ID。

S203、通过用户ID将每条点击记录与用户画像数据关联。

电子设备获取日志数据后，可通过用户ID将每条点击记录与用户画像数据进行关联。用户画像数据中包括但不限于如下至少一种：用户ID、用户注册时间、用户观影量、打开该视频网站的频次、观看视频过程中的暂停行为频次、打开视频行为频次、是否为新用户、是否为登录用户、用户喜好的视频类型等。

S204、针对每个识别对象，基于该识别对象包括的各点击记录所关联的用户画像数据，确定该识别对象的宏观统计特征。

获取到每个识别对象对应的用户画像数据后，电子设备可以针对每个异常对象，基于S203确定的该识别对象包括的各点击记录所关联的用户画像数据，统计出预设时间段内点击过该异常对象的用户的用户统计信息和用户观影行为数据，即得到该广告或视频的宏观统计特征。

例如，一个识别对象有1000条点击记录，电子设备可以从这1000条点击记录对应的用户画像数据中，统计点击过该识别对象的用户中的新用户占比、登录用户占比、存在暂停视频行为的用户占比和/或各用户的观影量，从而将统计到的这些特征作为该识别对象的宏观统计特征。

本申请实施例能够将识别对象的点击记录与用户画像数据关联，从而基于用户画像数据确定识别对象的宏观统计特征，因用户画像数据能够体现用户对视频网站的使用情况，进而也能够反映用户是黑产用户的可能性，所以通过用户画像数据确定识别对象的宏观统计特征可以更准确地识别出异常对象。

针对上述S102，将各识别对象的宏观统计特征输入无监督学习模型，并根据无监督学习模型输出的离群点，确定异常对象。

为了扩大召回覆盖面，电子设备将各识别对象的宏观统计特征输入无监督学习模型，可以得到离群点。离群点是少数异常于正常数据集的数据对象，即各异常对象的宏观统计特征中，少数的与其他宏观统计特征差异较大的宏观统计特征。

由于离群点与各异常对象的宏观统计特征普遍差异较大，所以离群点大概率对应于异常对象。

无监督模型的训练样本无需人工标注，避免了训练模型所需要消耗的大量的人工标注成本，因此无监督模型训练过程的人工参与少，训练效率高。在本申请的一个实施例中，S102中的无监督模型可以但不限于是：K均值(K-Means)模型、自编码器(Auto-Encoder)模型、主成分分析(Principal Component Analysis)模型或者独立森林(iForest)模型等，本申请实施例在此不作穷举。

一种实施方式中，以识别对象为广告为例，电子设备可以通过iForest模型识别各广告的宏观统计特征中的离群点，识别过程包括生成树和确定离群点两个阶段：

对于生成树阶段：首先，在预设时间段内被用户点击过的n条广告的宏观统计特征中，随机选出m条，将随机选出的m条宏观统计特征放入一棵树的根结点。确定这棵树的其他结点时，每次随机选择宏观统计特征中的一个属性，作为目标属性，并基于目标属性对当前结点进行分割，以确定树的其他结点。例如目标属性为新用户占比。

具体的，确定根结点后，拆分根节点的方式包括：将根结点作为当前结点，在当前结点中随机选择目标属性的1个属性值作为分割点，例如从m条宏观统计特征中随机选择1个新用户占比值作为分割点。其中，所选择的新用户占比值在上述m条宏观统计特征包括的新用户占比的最大值与最小值之间。

假设随机选择的分割点的属性值为A，则根据属性值A对上述m条宏观统计特征进行分类，确定这棵数的根节点后的分支结点。具体地，可以将目标属性的属性值小于A的宏观统计特征放入这棵树的左分支结点，并把目标属性的属性值大于或等于A的宏观统计特征放入这棵树的右分支结点。

然后分别将左分支结点和右分支结点作为当前节点，对于左分支结点和右分支结点上的宏观统计特征，继续采用上述拆分根节点的方式进行拆分。即将左分支结点再分为左右两个子分支结点，相应地将右分支结点也分为左右两个子分支结点，直至新创建的分支结点中只有一条宏观统计特征，或最新创建的分支结点上的宏观统计特征包括的目标属性的属性值相同，或者树的高度达到预设高度阈值，停止分类递归，得到一棵树。

从上述n条广告的宏观统计特征中，再随机选出m条，利用随机选出的m条宏观统计特征，通过上述树的生成方法再生成一棵树，直到生成树的数量达到预设数量阈值。

在确定离群点阶段，对于一个广告，通过该广告的宏观统计特征包括的各属性的属性值，通过遍历每一棵树，计算该广告的宏观统计特征在每棵树中所属结点，并将该结点在树中的层数作为该广告在树中的层数。之后将计算的各层数的平均值作为该广告在每棵树中的层数平均值。

然后，将层数平均值低于预设层数阈值的广告的宏观统计特征，确定为离群点。

在一种实施方式中，可以在无监督学习模型输出的离群点中，将离群点对应的识别对象确定为异常对象。

在另一种实施方式中，因通过iForest识别出的离群点存在误差，所以可对离群点进行二次过滤，以降低对异常对象的误判率。电子设备可以在无监督学习模型输出的离群点中，基于离群点对应的宏观统计特征的均值和方差对离群点进行过滤，将过滤后的离群点对应的识别对象确定为异常对象。

其中，宏观统计特征的均值和方差可以为宏观统计特征包括的属性值的均值和方差，比如，可以计算各离群点包括的新用户占比的均值μ和方差σ²，进而得到标准差σ。将新用户占比分布在(μ-3σ,μ+3σ)范围以外的离群点过滤掉。

同理，电子设备还可以通过离群点对应的宏观统计特征的指定属性的属性值，对离群点进行过滤。例如，指定属性可以包括但不限于：登录用户占比或者观影量等属性。以指定属性为登录用户占比为例，将登录用户占比大于80％的离群点过滤掉，即保留登录用户占比小于或等于80％的离群点。

针对上述S103，生成训练集。

一种实现方式中，可以将S101利用异常识别模型识别的异常对象的宏观统计特征作为负样本，并将S102利用无监督学习模型确定的异常对象的宏观统计特征作为负样本。同时，电子设备还可以从各识别对象中选择预设数目个识别对象的宏观统计特征作为训练样本。

具体的，电子设备可以从各识别对象中随机选择预设数目个识别对象，将该预设数目个识别对象作为训练样本。其中，随机选择的识别对象包括正样本和/或负样本，但各识别对象中大部分为正样本，因此随机选择的识别对象中大概率大部分为正样本。

一种实施方式中，可以按照预设规则选择识别对象，比如，可以选择在预设时间段内被点击次数大于预设阈值预设数量个识别对象，当然也可以根据实际需求制定其他预设规则，本申请实施例对此不作限定。

另一种实施方式中，可以从各识别对象中随机选择预设数量的识别对象，并将随机选择的预设数量的识别对象的宏观统计特征作为训练样本。

其中，随机选择预设数量的识别对象的方法为：分别为每个识别对象生成一个伪随机数，按照伪随机数从大到小的顺序，选择预设数量的识别对象。

伪随机数的生成方法可以采用平方取中法或者线性同余法等，此处不做具体限定。作为示例，预设数量为100，将各识别对象按照对应的伪随机数从大到小的顺序排序，进而选择前100个识别对象，将前1000个识别对象的宏观统计特征作为训练样本。

本申请实施例通过随机选择识别对象，进一步扩大了训练集的覆盖范围，可以将异常识别模型与无监督学习模型未能成功识别的异常对象加入训练集，因此增大了召回率。而且由于异常对象的宏观统计特征实际上大概率为负样本，因此从各识别对象中随机选择预设数目个作为训练样本，可以为训练样本中增加一些正样本，以进一步保证了异常识别模型的训练效果，提高了异常识别模型识别的准确率。

针对上述S104，采用训练集对异常识别模型进行训练，得到迭代后的异常识别模型。

采用训练集对异常识别模型进行训练的具体方法与S101中记载的训练得到异常识别模型的方法类似，可参考S101的相关描述，此处不再赘述。

在通过S103获得新的训练集后，需要通过S104对异常识别模型进行训练，更新异常识别模型。通过对异常识别模型的不断迭代，可以不断提高异常识别模型识别的准确率。

在本申请一个实施例中，在上述S103获得迭代后的异常识别模型之后，电子设备还可以将迭代前和迭代后的异常识别模型中识别准确率高的异常识别模型部署到线上，以保证线上使用的异常识别模型的准确率。

或者，电子设备还可以直接将迭代后的异常识别模型部署到线上。由于直接在线上部署迭代后的异常识别模型，可以在避免测试迭代前和迭代后的异常识别模型准确率所消耗的时间和计算资源。而且由于模型的迭代一般都会提高模型的识别准确率，因此该方法还在一定程度上保证了线上使用的模型的准确率。

电子设备在得到迭代后的异常识别模型后，基于识别准确率从迭代前和迭代后的异常识别模型中择优使用，从而保证了线上应用的异常识别模型的准确率。基于此，如图3所示，将迭代前和迭代后的异常识别模型中识别准确率高的异常识别模型确定为线上应用的异常识别模型，可以实现为：

S301、通过验证集对迭代前的异常识别模型和迭代后的异常识别模型进行验证，分别确定迭代前的异常识别模型和迭代后的异常识别模型的识别准确率。在迭代后的异常识别模型的识别准确率高于迭代前的异常识别模型的识别准确率的情况下，执行S302；否则执行S303。

在一种实施方式中，可以将上述S103中的一部分训练样本加入验证集，并对这部分训练样本进行人工标注。在验证过程中，可以将验证集中的训练样本输入异常识别模型，如果异常识别模型输出的分类结果与人工标注相同，说明对该训练样本识别准确，否则认为识别不准确。通过对验证集中训练样本识别成功的比例，可以确定异常识别模型的识别准确率。

S302、在迭代后的异常识别模型的识别准确率高于迭代前的异常识别模型的识别准确率的情况下，将迭代后的异常识别模型部署到线上。

如果迭代后的异常识别模型的识别准确更高，则利用迭代后的异常识别模型换迭代前的异常识别模型，即将线上使用的模型更新为迭代后的异常识别模型。

S303、在迭代后的异常识别模型的识别准确率不高于迭代前的异常识别模型的识别准确率的情况下，将迭代前的异常识别模型部署到线上。

如果迭代前的异常识别模型的识别准确率更高，则代表此次迭代训练的效果不够好，所以可继续使用迭代前的异常识别模型。

通过加入对迭代前后模型对验证集验证效果的判断，可以确定迭代后的模型的识别效果是否优于迭代前的异常识别模型，通过对模型的不断迭代，可以防止线上应用的异常识别模型的识别准确率降低。即使黑产不断变换刷量操作方式，本申请实施例通过不断迭代异常识别模型，可以保证识别准确率维持在较高的状态。可见，本申请实施例中，在召回阶段注重召回率，在判别阶段注重异常识别模型的识别准确率，使得异常识别模型兼顾准确率与召回率。

在上述实施例中，通过异常识别模型识别出异常对象后，还可以进一步对异常对象的相关数据进行处理。

示例性的一种实施例中，在通过异常识别模型识别出异常对象后，可以删除异常对象对应的点击记录中，因黑产恶意刷量导致的异常点击记录。可选的，电子设备可以通过异常对象的每条点击记录对应的用户画像数据，对每条点击记录进行打分，进而将打分低于预设分数阈值的异常点击记录删除。

例如可以将一条点击记录对应的用户的真实观看次数，作为该点击记录的打分。如果用户观看视频时对视频进行过暂停操作，则将用户此次的观看视频行为作为一次真实观看视频行为，进而统计用户的真实观看次数。如果用户的真实观看次数小于预设阈值，则将该用户对应的点击记录作为异常点击记录并删除异常点击记录。

通过这种方式，可以实现对广告或视频的异常点击记录的删除，避免了黑产的恶意刷量操作对广告主或视频发布者造成的损失，维护了视频网站的形象，实现了效果广告的反作弊。

另一实施方式中，还可以将异常点击记录保存在异常点击记录库中，以便于后续分析黑产的刷量方式，后续可基于这些异常点击记录对应的异常对象丰富负样本。

以下结合具体流程对本申请实施例提供的异常识别模型训练方法进行说明，如图4和图5所示，该方法包括：

S401、处理日志数据，获取各识别对象的宏观统计特征。

即以广告或视频维度从日志数据中进行特征提取，以获取各广告或视频的宏观统计特征。

S402、将各识别对象的宏观统计特征，分别输入GBDT模型、iForest模型、数据随机抽样模块三个通道，以对异常对象进行多通道召回。

S403、基于通过三通道召回得到的识别对象的宏观统计特征生成训练集。

如图5所示，三通道召回表示，分别基于GBDT模型、Iforest模型和随机抽样模块，确定训练样本，从而构建训练集。

S404、通过训练集训练GBDT模型，对GBDT模型进行迭代。

S405、判断迭代后的GBDT模型的识别准确率是否高于迭代前GBDT模型的识别准确率，若是，则执行S406；若否，则执行S407。

S406、通过迭代后的GBDT模型进行后续的异常对象识别。

S407、通过迭代前的GBDT模型进行后续的异常对象识别。

通过使用本申请实施例提供的异常识别模型训练方法，无需人工通过固定规则制定限制异常流量，即可识别异常点击，提高了识别的实时性与准确率。

基于相同的发明构思，本申请实施例提供了一种异常对象识别方法，如图6所示，该方法包括如下步骤：

S601、获取识别对象的宏观统计特征。其中，宏观统计特征包括预设时间段内点击识别对象的用户的用户统计信息和用户观影行为数据。

例如，用户统计信息包括：点击该识别对象的用户中的新用户占比和/或登录用户占比。用户观影行为数据包括：点击该识别对象的用户中存在暂停视频行为的用户占比和/或各用户的观影量。

S602、将识别对象的宏观统计特征输入异常识别模型，获取异常识别模型的识别结果。其中，异常识别模型为通过上述异常识别模型训练方法得到的用于线上识别异常对象的异常识别模型。

S603、根据识别结果确定识别对象是否为异常对象。

例如，异常识别模型的输出结果包括识别对象为正常对象的概率1以及识别对象为异常对象的概率2。若概率1>概率2，则确定识别对象为正常对象，否则确定识别对象为异常对象。

本申请实施例提供的异常对象识别方法，利用上述异常识别模型训练方法训练得到的异常识别模型进行异常对象的识别。由于异常识别模型在训练过程中，将异常识别模型识别出的异常对象的宏观统计特征、无监督学习模型识别出的异常对象的宏观统计特征以及预设数目个识别对象对应的宏观统计特征作为训练样本，而不是仅仅将异常识别模型识别出的异常对象的宏观统计特征作为训练样本，可以提高召回率，进而通过上述训练样本以及训练样本的标注对异常模型进行迭代训练。如此，即使黑产通过变换刷量方式，导致异常识别模型未识别出部分异常对象，通过无监督学习模型也能够识别出一部分异常识别模型未识别出的异常对象，将这些异常对象的宏观统计特征作为迭代训练的训练样本，可以使得迭代后的异常识别模型有机会识别出更多类型的刷量操作导致的异常对象。因此本申请实施例可以提高对异常对象识别的准确率。

基于相同的发明构思，对应于上述异常识别模型训练方法实施例，本申请实施例还提供了一种异常识别模型训练装置，如图7所示，该装置包括：识别模块701、确定模块702、生成模块703和训练模块704；

识别模块701，用于利用异常识别模型对各识别对象的宏观统计特征进行识别，得到识别出的异常对象；其中，宏观统计特征包括预设时间段内点击识别对象的用户的用户统计信息和用户观影行为数据，异常识别模型是通过对有监督的机器学习模型进行训练得到的；

确定模块702，用于将各识别对象的宏观统计特征输入无监督学习模型，并根据无监督学习模型输出的离群点，确定异常对象；

生成模块703，用于生成训练集，训练集中包括训练样本和每个训练样本的人工标注结果，训练样本包括：利用异常识别模型识别出的异常对象的宏观统计特征、利用无监督学习模型确定的异常对象的宏观统计特征和预设数目个识别对象的宏观统计特征；

训练模块704，用于采用生成模块703生成的训练集对异常识别模型进行训练，得到迭代后的异常识别模型；异常识别模型用于识别异常对象。

可选的，确定模块702，具体用于：

将离群点对应的识别对象确定为异常对象；或者，

基于离群点对应的宏观统计特征的均值和方差对离群点进行过滤，将过滤后的离群点对应的识别对象确定为异常对象。

可选的，确定模块702还用于：

在采用训练集对异常识别模型进行训练，得到迭代后的异常识别模型之后，将迭代前和迭代后的异常识别模型中识别准确率高的异常识别模型确定为线上应用的异常识别模型；或者，

将迭代后的异常识别模型确定为线上应用的异常识别模型。

可选的，确定模块702，具体用于：

通过验证集对迭代前的异常识别模型和迭代后的异常识别模型进行验证，分别确定迭代前的异常识别模型和迭代后的异常识别模型的识别准确率；

在迭代后的异常识别模型的识别准确率高于迭代前的异常识别模型的识别准确率的情况下，将迭代后的异常识别模型确定为线上应用的异常识别模型；

否则，将迭代前的异常识别模型确定为线上应用的异常识别模型。

可选的，异常识别模型为梯度提升决策树GBDT模型，无监督学习模型为独立森林iForest模型。

可选的，识别对象为视频网站中展示的广告或视频；装置还包括：获取模块、提取模块和关联模块；

获取模块，用于获取视频网站在预设时间段内产生的日志数据，日志数据用于记录视频网站中的各识别对象的点击记录；

提取模块，用于从日志数据中提取各识别对象的点击记录，每条点击记录中包括一个用户ID；

关联模块，用于通过用户ID将每条点击记录与用户画像数据关联；

确定模块702，还用于针对每个识别对象，基于该识别对象包括的各点击记录所关联的用户画像数据，确定该识别对象的宏观统计特征。

可选的，用户统计信息包括：点击同一条识别对象的用户中的新用户占比和/或登录用户占比，用户观影行为数据包括：点击同一条识别对象的用户中存在暂停视频行为的用户占比和/或各用户的观影量。

基于相同的发明构思，对应于上述异常对象识别方法实施例，本申请实施例还提供了一种异常对象识别装置，如图8所示，该装置包括：获取模块801和确定模块802；

获取模块801，用于获取识别对象的宏观统计特征，宏观统计特征包括预设时间段内点击识别对象的用户的用户统计信息和用户观影行为数据；

获取模块801，还用于将识别对象的宏观统计特征输入异常识别模型，获取异常识别模型的识别结果；其中，异常识别模型为通过权利要求9的装置得到的用于线上识别异常对象的异常识别模型；

确定模块802，用于根据获取模块获取的识别结果确定识别对象是否为异常对象。

本申请实施例还提供了一种电子设备，如图9所示，包括处理器901、通信接口902、存储器903和通信总线904，其中，处理器901，通信接口902，存储器903通过通信总线904完成相互间的通信，

存储器903，用于存放计算机程序；

处理器901，用于执行存储器903上所存放的程序时，实现上述任意一种异常识别模型训练方法或异常对象识别方法的步骤。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processor，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本申请提供的又一实施例中，还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述实施例中任一所述的异常识别模型训练方法或异常对象识别方法。

在本申请提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的异常识别模型训练方法或异常对象识别方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、电子设备或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、电子设备或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的电子设备、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种异常识别模型训练方法，其特征在于，包括：

生成训练集，所述训练集中包括训练样本和每个训练样本的人工标注结果，所述训练样本包括：利用所述异常识别模型识别出的异常对象的宏观统计特征、利用所述无监督学习模型确定的异常对象的宏观统计特征，和预设数目个识别对象的宏观统计特征；

2.根据权利要求1所述的方法，其特征在于，所述根据所述无监督学习模型输出的离群点，确定异常对象，包括：

在所述无监督学习模型输出的离群点中，将离群点对应的识别对象确定为异常对象；或者，

在所述无监督学习模型输出的离群点中，基于离群点对应的宏观统计特征的均值和方差对离群点进行过滤，将过滤后的离群点对应的识别对象确定为异常对象。

3.根据权利要求1或2所述的方法，其特征在于，在采用所述训练集对所述异常识别模型进行训练，得到迭代后的异常识别模型之后，所述方法还包括：

将迭代前和迭代后的异常识别模型中识别准确率高的异常识别模型确定为线上应用的异常识别模型；或者，

将迭代后的异常识别模型确定为线上应用的异常识别模型。

4.根据权利要求3所述的方法，其特征在于，所述将迭代前和迭代后的异常识别模型中识别准确率高的异常识别模型确定为线上应用的异常识别模型，包括：

在迭代后的异常识别模型的识别准确率高于迭代前的异常识别模型的识别准确率的情况下，将迭代后的异常识别模型部署到线上；

否则，将迭代前的异常识别模型部署到线上。

5.根据权利要求1所述的方法，其特征在于，所述异常识别模型为梯度提升决策树GBDT模型，所述无监督学习模型为独立森林iForest模型。

6.根据权利要求1所述的方法，其特征在于，所述识别对象为视频网站中展示的广告或视频；所述方法还包括：

获取所述视频网站在所述预设时间段内产生的日志数据，所述日志数据用于记录所述视频网站中的各识别对象的点击记录；

从所述日志数据中提取各识别对象的点击记录，每条点击记录中包括一个用户ID；

通过用户ID将每条点击记录与用户画像数据关联；

针对每个识别对象，基于该识别对象包括的各点击记录所关联的用户画像数据，确定该识别对象的宏观统计特征。

7.根据权利要求6所述的方法，其特征在于，所述用户统计信息包括：点击同一条识别对象的用户中的新用户占比和/或登录用户占比，所述用户观影行为数据包括：点击同一条识别对象的用户中存在暂停视频行为的用户占比和/或各用户的观影量。

8.一种异常对象识别方法，其特征在于，包括：

将所述识别对象的宏观统计特征输入异常识别模型，获取所述异常识别模型的识别结果；其中，所述异常识别模型为通过权利要求1-6任一项所述的方法得到的用于线上识别异常对象的异常识别模型；

根据所述识别结果确定所述识别对象是否为异常对象。

9.一种异常识别模型训练装置，其特征在于，包括：

10.一种异常对象识别装置，其特征在于，包括：

所述获取模块，还用于将所述识别对象的宏观统计特征输入异常识别模型，获取所述异常识别模型的识别结果；其中，所述异常识别模型为通过权利要求9所述的装置得到的用于线上识别异常对象的异常识别模型；

11.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-8任一所述的方法步骤。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-8任一所述的方法步骤。