CN114581148A

CN114581148A - 用于检测广告流量的方法及装置、电子设备、存储介质

Info

Publication number: CN114581148A
Application number: CN202210237671.4A
Authority: CN
Inventors: 姜娜; 王硕; 杨康; 孙泽懿; 徐凯波
Original assignee: Beijing Mininglamp Software System Co ltd
Current assignee: Beijing Mininglamp Software System Co ltd
Priority date: 2022-03-10
Filing date: 2022-03-10
Publication date: 2022-06-03

Abstract

本申请涉及广告流量检测技术领域，公开一种用于检测广告流量的方法，包括：获取第一历史广告流量数据；将第一历史广告流量数据输入预设的广告流量数据生成模型，获得表征广告流量异常的第一广告流量样本数据；获取表征广告流量正常的第二广告流量样本数据；利用第一广告流量样本数据和第二广告流量样本数据构建广告流量异常检测模型；利用广告流量异常检测模型检测广告流量是否异常。通过利用第一广告流量样本数据与第二广告流量样本数据构建样本数据，使得样本数据类型更加平衡，使得训练出的广告流量异常检测模型对异常广告流量的检测准确率更高。本申请还公开一种用于检测广告流量的装置及电子设备、存储介质。

Description

用于检测广告流量的方法及装置、电子设备、存储介质

技术领域

本申请涉及广告流量检测技术领域，例如涉及一种用于检测广告流量的方法及装置、电子设备、存储介质。

背景技术

目前，广告流量在能够反映出广告投放的效率和效果，随着互联网广告流量地不断增长，广告流量在互联网世界具有至关重要的价值。广告流量作假产业链通过技术操作虚刷广告流量非法获利，使得广告流量的作弊现象在互联网广告行业中日益盛行，广告流量异常现象也日渐严重。然而随着广告欺诈技术迭代更新的速度越来越快，层出不穷的广告欺诈形式使得异常广告流量的检测工作的难度越来越大，准确地识别广告流量的有效性已然成为广告营销行业的巨大挑战。与此同时，随着人工智能技术与大数据技术在近几年飞速发展，人工智能技术在计算机视觉、图像、语音识别、以及自然语言处理等领域被广泛研究与应用。因此，人工智能技术也开始被广告营销行业人员应用到广告流量异常检测中来，基于人工智能技术的广告流量异常检测成为近年来研究的热点。

在实现本公开实施例的过程中，发现相关技术中至少存在如下问题：在实际广告流量监测中，往往存在广告流量数据类别不平衡的问题，即异常的广告流量数据远远少于正常的广告流量数据，导致广告流量检测模型对广告流量数据中的异常广告流量的检测准确率较低。

发明内容

为了对披露的实施例的一些方面有基本的理解，下面给出了简单的概括。所述概括不是泛泛评述，也不是要确定关键/重要组成元素或描绘这些实施例的保护范围，而是作为后面的详细说明的序言。

本公开实施例提供了一种用于检测广告流量的方法及装置、电子设备、存储介质，以提高广告流量异常检测模型对异常广告流量的检测准确率。

在一些实施例中，所述用于检测广告流量的方法包括：获取第一历史广告流量数据；将所述第一历史广告流量数据输入预设的广告流量数据生成模型，获得表征广告流量异常的第一广告流量样本数据；获取表征广告流量正常的第二广告流量样本数据；利用所述第一广告流量样本数据和所述第二广告流量样本数据构建广告流量异常检测模型；利用所述广告流量异常检测模型检测广告流量是否异常。

在一些实施例中，所述用于检测广告流量的装置包括：第一获取模块，被配置为获取第一历史广告流量数据；第二获取模块，被配置为将所述第一历史广告流量数据输入预设的广告流量数据生成模型，获得表征广告流量异常的第一广告流量样本数据；获取表征广告流量正常的第二广告流量样本数据；构建模块，被配置为利用所述第一广告流量样本数据和所述第二广告流量样本数据构建广告流量异常检测模型；检测模块，被配置为利用所述广告流量异常检测模型检测广告流量是否异常。

在一些实施例中，所述用于检测广告流量的装置包括：处理器和存储有程序指令的存储器，所述处理器被配置为在运行所述程序指令时，执行上述的用于检测广告流量的方法。

在一些实施例中，所述电子设备包括：上述的用于检测广告流量的装置。

在一些实施例中，所述存储介质，存储有程序指令，该程序指令在运行时，执行上述的用于检测广告流量的方法。

本公开实施例提供的广告流量异常检测的方法及装置、电子设备、存储介质，可以实现以下技术效果：通过利用广告流量数据生成模型获得的表征广告流量异常的第一广告流量样本数据，然后与表征广告流量正常的第二广告流量样本数据构建训练广告流量异常检测模型的样本数据，这样构成的样本数据类型更加平衡，从而使得训练出的广告流量异常检测模型对异常广告流量的检测准确率更高。

以上的总体描述和下文中的描述仅是示例性和解释性的，不用于限制本申请。

附图说明

一个或多个实施例通过与之对应的附图进行示例性说明，这些示例性说明和附图并不构成对实施例的限定，附图中具有相同参考数字标号的元件示为类似的元件，附图不构成比例限制，并且其中：

图1是本公开实施例提供的一个用于检测广告流量的方法的示意图；

图2是本公开实施例提供的一个用于构建生成式对抗编码器模型的方法的示意图；

图3是本公开实施例提供的一个生成式对抗编码器模型的构建示意图；

图4是本公开实施例提供的一个广告流量异常检测模型的构建示意图；

图5是本公开实施例提供的一个用于检测广告流量模型运用的方法的示意图；

图6本公开实施例提供的一个广告流量异常检测模型的运用示意图；

图7是本公开实施例提供的一个用于检测广告流量的装置的示意图；

图8是本公开实施例提供的另一个用于检测广告流量的装置的示意图。

具体实施方式

为了能够更加详尽地了解本公开实施例的特点与技术内容，下面结合附图对本公开实施例的实现进行详细阐述，所附附图仅供参考说明之用，并非用来限定本公开实施例。在以下的技术描述中，为方便解释起见，通过多个细节以提供对所披露实施例的充分理解。然而，在没有这些细节的情况下，一个或多个实施例仍然可以实施。在其它情况下，为简化附图，熟知的结构和装置可以简化展示。

本公开实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开实施例的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含。

除非另有说明，术语“多个”表示两个或两个以上。

本公开实施例中，字符“/”表示前后对象是一种“或”的关系。例如，A/B表示：A或B。

术语“和/或”是一种描述对象的关联关系，表示可以存在三种关系。例如，A和/或B，表示：A或B，或，A和B这三种关系。

术语“对应”可以指的是一种关联关系或绑定关系，A与B相对应指的是A与B之间是一种关联关系或绑定关系。

结合图1所示，本公开实施例提供一种用于检测广告流量的方法，包括：

步骤S101，获取第一历史广告流量数据。

步骤S102，将第一历史广告流量数据输入预设的广告流量数据生成模型，获得表征广告流量异常的第一广告流量样本数据；获取表征广告流量正常的第二广告流量样本数据。

步骤S103，利用第一广告流量样本数据和第二广告流量样本数据构建广告流量异常检测模型。

步骤S104，利用广告流量异常检测模型检测广告流量是否异常。

采用本公开实施例提供的用于检测广告流量的方法，通过利用广告流量数据生成模型获得的表征广告流量异常的第一广告流量样本数据，然后与表征广告流量正常的第二广告流量样本数据构建训练广告流量异常检测模型的样本数据，这样构成的样本数据类型更加平衡，从而使得训练出的广告流量异常检测模型对异常广告流量的检测准确率更高。

可选地，获取第一历史广告流量数据，包括：获取第一原始历史广告流量数据及其用于表征广告流量是否异常的标签；对第一原始历史广告流量数据进行预处理；对预处理后的第一原始历史广告流量数据进行标准化处理，获得带有表征广告流量是否异常的标签的第一历史广告流量数据。

可选地，第一原始历史广告流量数据为实际的广告流量监测系统回传的数据信息。

可选地，预处理包括数据对齐处理、缺失值处理、数据分桶处理、数据类型转换处理、数据编码处理或数据标注处理等。

可选地，缺失值处理包括均值补充、插补和特殊值补充中的一种或多种。

可选地，数据类型转换处理将第一原始历史广告流量数据从文本型变量数据或者类别型数据转换为数值型数据。

可选地，通过One-hot编码(独热编码)或者类别型编码数据编码处理对第一原始历史广告流量数据进行数据编码处理。

可选地，通过领域专家标注对第一原始历史广告流量数据进行数据标注处理。

这样，由于实际用户真实产生的数据异常、收集数据的权限不足、日志解析异常、网络丢包传输异常等情况的发生，最终广告流量监测系统回传的第一原始历史广告流量数据中存在缺失或噪声等，因此需要对数据进行预处理，实现对第一原始历史广告流量数据的清洗，获得需要的第一历史广告流量数据。

可选地，对预处理后的第一原始历史广告流量数据进行标准化处理，获得第一历史广告流量数据包括：通过标准差标准化算法，对预处理后的第一原始历史广告流量数据进行标准化处理，获得第一历史广告流量数据。由于各第一原始历史广告流量数据的数据量纲与数量级不同，影响了各特征在构建广告流量异常检测模型过程中的重要性与收敛速度，因此通过标准差标准化算法，对预处理后的第一原始历史广告流量数据进行标准化处理，使标准化后的数据服从均值为0，方差为1的标准正态分布，即使第一历史广告流量数据均能够落入一个特定区间，保证了构建的广告流量异常检测模型的可靠性。

在一些实施例中，通过对第一原始历史广告流量数据进行预处理与标准处理，能够实现对广告流量数据的中的特征进行选择与重构，实现了数据挖掘，使得选择与重构后的特征无缺失、且更具代表性、更有用、去冗余，提高了第一历史广告流量数据的数据能力，则构建广告流量异常检测模型的检测性能更高。可选地，广告流量数据的中的特征为广告流量数据所包含的变量。

可选地，第一广告流量样本数据包括第一广告流量样本和第一广告流量样本的标签。可选地，第一广告流量样本的标签用于表征第一广告流量样本的广告流量异常。

可选地，第二广告流量样本数据包括第二广告流量样本和第二广告流量样本的标签。可选地，第二广告流量样本的标签用于表征第二广告流量样本的广告流量正常。

可选地，广告流量数据生成模型通过以下方式获得：获取第二历史广告流量数据；利用第二历史广告流量数据对预设的生成式对抗编码器模型进行训练，获得广告流量数据生成模型。这样，通过第二历史广告流量数据对预设的生成式对抗编码器模型进行训练，相较于利用噪音对预设的生成式对抗编码器模型进行训练，能够使得训练出的生成式对抗编码器模型生成的伪流量数据能够更加贴合与实际的广告流量数据，这样构成的样本数据也更贴合于实际的广告流量数据，从而使得训练出的广告流量异常检测模型对异常广告流量的检测准确率更高。

可选地，获取第二历史广告流量数据，包括：获取第二原始历史广告流量数据及其用于表征广告流量是否异常的标签；对第二原始历史广告流量数据进行预处理；对预处理后的第二原始历史广告流量数据进行标准化处理，获得带有表征广告流量是否异常的标签的第二历史广告流量数据。

可选地，第二原始历史广告流量数据为实际的广告流量监测系统回传的数据信息。

可选地，数据类型转换处理将第二原始历史广告流量数据从文本型变量数据或者类别型数据转换为数值型数据。

可选地，通过One-hot编码或者类别型编码数据编码处理对第二原始历史广告流量数据进行数据编码处理。

可选地，通过领域专家标注对第二原始历史广告流量数据进行数据标注处理。

这样，由于实际用户真实产生的数据异常、收集数据的权限不足、日志解析异常、网络丢包传输异常等情况的发生，最终广告流量监测系统回传的第二原始历史广告流量数据中存在缺失或噪声等，因此需要对数据进行预处理，实现对第二原始历史广告流量数据的清洗，获得需要的第二历史广告流量数据。

可选地，对预处理后的第二原始历史广告流量数据进行标准化处理，获得第二历史广告流量数据包括：通过标准差标准化算法，对预处理后的第二原始历史广告流量数据进行标准化处理，获得第二历史广告流量数据。由于各第二原始历史广告流量数据的数据量纲与数量级不同，影响了各特征在构建广告流量异常检测模型过程中的重要性与收敛速度，因此通过标准差标准化算法，对预处理后的第二原始历史广告流量数据进行标准化处理，使标准化后的数据服从均值为0，方差为1的标准正态分布，即使第二历史广告流量数据均能够落入一个特定区间，提高了第二历史广告流量数据的数据能力的重要性，使得通过该第二历史广告流量数据构建的广告流量异常检测模型的可靠性更高。

可选地，预设的生成式对抗编码器模型包括编码器、生成器和判别器。

在一些实施例中，编码器由第一输入层、第一特征映射层、第一采样层组成；其中，第一特征映射层包括第一卷积层或第一感知机层。第一输入层的输入数据为标准化后的数据，即第二历史广告流量数据；第一采样层包括第一权全连接层、潜在空间层和第二采样层。第一特征映射层被配置为对输入的第二历史广告流量数据进行特征映射；第一采样层被配置为对特征映射后的第二历史广告流量数据进行采样。

在一些实施例中，生成器由第二输入层、第二特征映射层和第二输出层；其中；在需要构造的数据，为一维向量型流量数据的情况下，第二特征映射层包括第二感知机层；或，在需要构造的数据为一维向量型数据的情况下，第二特征映射层包括第二卷积层和第二全连接层。在需要构造的数据，即表征广告流量异常的第二广告流量样本数据为二维时序性流量数据的情况下，第二特征映射层包括第三卷积层。第二输入层的输入数据为编码器的第一采样层生成的采样数据及其对应的标签，采样数据对应的标签用于表征其广告流量异常；第二特征映射层被配置为对输入数据进行特征映射；第二输出层被配置为输出伪流量数据。

在一些实施例中，判别器包括第三输入层，第三特征映射层、第四全连接层和第三输出层；其中，第三特征映射层包括第三卷积层或第三感知机层。第三输入层的输入数据为具有用于表征广告流量是否异常的标签的第二历史广告流量数据、具有用于表征其流量异常的标签的伪流量数据。第三特征映射层和第四全连接层被配置为对第三输入层的输入数据进行特征映射。第三输出层被配置为输出检测出的输入的流量数据是真实广告流量数据的概率和其是伪广告流量数据的概率。

可选地，利用第二历史广告流量数据对预设的生成式对抗编码器模型进行训练，获得广告流量数据生成模型，包括：采用Adam(Adaptive moment estimation，适应性矩估计)优化算法利用第二历史广告流量数据对预设的生成式对抗编码器模型进行训练，获得广告流量数据生成模型。

可选地，在获得广告流量数据生成模型后，还包括：获取广告流量数据生成模型的损失函数；利用损失函数对广告流量数据生成模型进行优化。这样，能利用损失函数对广告流量数据生成模型进行优化，使得获得的样本数据也更贴合于实际的广告流量数据，从而使得训练出的广告流量异常检测模型对异常广告流量的检测准确率更高。

可选地，通过计算

获得广告流量数据生成模型的损失函数；其中，G用于表征生成器；D用于表征判别器；

为广告流量数据生成模型的损失函数；D(x|y)为在第二历史广告流量数据x具有用于表征其广告流量是否异常的标签y的条件下，判别器对第二历史广告流量数据是否是真实数据判别的正确率；z为编码器的第一采样层生成的采样数据；G(z|y)为生成器生成的表征广告流量异常的伪流量数据；D(G(z|y))用于表征在伪流量数据z具有用于表征其广告流量是否异常的标签y的条件下，判别器对伪流量数据是否是真实数据判别的正确率；E_x～pdata(x)[logD(x|y)]+E_z～pz(z)[log(1-D(G(z|y)))]为在具有表征广告流量是否异常的标签y的条件下，第二历史广告流量数据与伪流量数据之间的交叉熵；MSE(x,G(z|y))为第二历史广告流量数据与伪流量数据之间的均方误差；KL(x,G(z|y))为第二历史广告流量数据与伪流量数据之间KL散度。

可选地，在广告流量数据生成模型的损失函数达到收敛的情况下，确定编码器、生成器和判别器实现了纳什均衡，即生成式对抗编码器模型训练完成。

可选地，在广告流量数据生成模型的损失函数没有达到收敛的情况下，采用Adam优化算法调节生成式对抗编码器模型各参数，重新计算调节参数后的广告流量数据生成模型的损失函数，以确定该损失函数是否达到收敛。

在一些实施例中，在在广告流量数据生成模型的损失函数达到收敛的情况下，D(x|y)接近于1，D(G(z|y))接近于0，则判别器的判别效果越好。

在一些实施例中，通过粒子群优化算法获取生成式对抗编码器模型中的各超参数，然后采用Adam优化算法利用第二历史广告流量数据对预设的生成式对抗编码器模型中各参数进行训练。在对生成式对抗编码器模型的训练过程中，先确定判别器的参数，然后利用生成式对抗编码器模型的编码器将第二历史广告流量数据进行编码，利用生成式对抗编码器模型的生成器与编码后的第二历史广告流量数据生成用于表征其广告流量异常的伪流量数据，然后确定生成式对抗编码器模型中编码器与生成器的参数，并利用判别器判别生成的伪流量数据是否为真实广告流量数据，即输入的第二历史广告流量数据，以对判别器进行训练。在判别器能够准确分别生成的伪流量数据与真实广告流量数据，即在生成式对抗编码器模型的损失函数没有收敛或生成式对抗编码器模型调节各参数的次数小于预设次数的情况下，调节生成式对抗编码器模型中各参数，直至判别器能够无法区分生成的伪流量数据与真实广告流量数据，使得编码器和生成器在没有大量先验知识以及先验分布的前提下也能很好地去学习逼近真实广告流量数据，使编码器、生成器和判别器实现了纳什均衡，从而使得生成式对抗编码器模型生成的数据能够达到以假乱真的效果。

结合图2所示，本公开实施例提供一种用于构建生成式对抗编码器模型的方法，包括：

步骤S201，获取第二历史广告流量数据；

步骤S202，将第二历史广告流量数据输入预设的编码器中的第一输入层。

步骤S203，将输入的第二历史广告流量数据输入编码器中的第一特征映射层对第二历史广告流量数据进行特征映射。

步骤S204，将特征映射后的第二历史广告流量数据输入编码器中的采样层进行采样。

步骤S205，将采样后的第二历史广告流量数据及第二历史广告流量数据的标签输入生成器，生成伪流量数据。

步骤S206，给伪流量数据添加用于表征流量异常的标签。

步骤S207，将带有表征流量异常的标签的伪流量数据和第二历史广告流量数据输入判别器，判断伪流量数据和第二历史广告流量数据是否是真实数据，获得判别情况。

步骤S208，将判别情况输入编码器、生成器和判别器，触发编码器、生成器和判别器调节其对应的参数，以使编码器、生成器和判别器达到纳什均衡，获得生成式对抗编码器模型。

这样，通过将第二历史广告流量数据输入预设的编码器中的第一输入层、第一特征映射层和采样层对输入编码器中的数据采样，实现了对第二历史广告流量数据的编码，将采样后的第二历史广告流量数据输入生成器，生成伪流量数据，将伪流量数据和第二历史广告流量数据输入判别器判断伪流量数据和第二历史广告流量数据是否是真实数据，获得判别情况，并将判别情况输入编码器、生成器和判别器，触发编码器、生成器和判别器调节其对应的参数，使得编码器、生成器和判别器达到纳什均衡，从而使得生成式对抗编码器模型生成的数据能够达到以假乱真的效果。

在一些实施例中，生成式对抗编码器模型的构建示意图如图3所示。如图3所示，生成式对抗编码器模型1包括编码器2、生成器3和判别器4；其中，编码器2包括第一输入层5、第一特征映射层6和第一采样层7。如图3所示，生成式对抗编码器模型1的编码器2的第一输入层5将第二历史广告流量数据输入编码器2中的第一特征映射层6，以对第二历史广告流量数据进行特征映射，然后利用编码器2中的采样层7对特征映射后的第二历史广告流量数据进行采样，生成器3根据采样后的第二历史广告流量数据及第二历史广告流量数据的标签生成伪流量数据，并给伪流量数据添加用于表征流量异常的标签，判别器4判断伪流量数据和第二历史广告流量数据是否是真实数据，获得判别情况，然后编码器2、生成器3和判别器4根据判别情况调节其对应的参数，以使编码器2、生成器3和判别器4达到纳什均衡，获得生成式对抗编码器模型。

这样，通过将编码器中的第一输入层、第一特征映射层和采样层对输入编码器中的第二历史广告流量数据进行采样，实现了对第二历史广告流量数据的编码，生成器根据采样后的第二历史广告流量数据生成伪流量数据，判别器判断伪流量数据和第二历史广告流量数据是否是真实数据，获得判别情况，编码器2、生成器3和判别器4根据判别情况调节其对应的参数，使得编码器、生成器和判别器达到纳什均衡，从而使得生成式对抗编码器模型生成的数据能够达到以假乱真的效果。

可选地，利用第一广告流量样本数据和第二广告流量样本数据构建广告流量异常检测模型，包括：将第一广告流量样本数据和第二广告流量样本数据确定为样本广告流量数据；根据样本广告流量数据获取多个训练样本广告流量数据集及其对应的评估样本广告流量数据集；利用预设的深度学习网络模型将各训练样本广告流量数据集中的的样本广告流量数据映射为预设维度的稀疏数据，获得多个稀疏数据集；根据各稀疏数据集对预设的分类器模型进行训练，获得多个备选广告流量检测模型；根据各备选广告流量检测模型和各训练样本广告流量数据集对应的评估样本广告流量数据集获取广告流量检测模型。这样，通过根据样本广告流量数据获取多个训练样本广告流量数据集及其对应的评估样本广告流量数据集，利用训练样本广告流量数据集对预设的深度学习网络模型和预设的分类器模型进行训练，获得备选广告流量检测模型，然后利用评估样本广告流量数据集在备选广告流量检测模型中获取广告流量检测模型，从而获得了符合评估要求的广告流量检测模型，使得训练好的广告流量检测模型具有高检测性能和低漏报率，提高了广告流量检测模型检测广告流量的准确性。

在一些实施例中，广告流量异常检测模型的构建示意图如图4所示。如图4所示，广告流量异常检测模型7包括第一深度学习网络模型9和第一分类器模型10。通过第一深度学习网络模型9将根据样本广告流量数据获得的训练样本广告流量数据集中的数据映射为预设维度的稀疏数据，获得多个稀疏数据集，然后利用第一深度学习网络模型获得的稀疏数据集对第一分类器模型10进行训练，获得多个备选广告流量检测模型，并利用根据样本广告流量数据获得的评估样本广告流量数据集在备选广告流量检测模型中确定广告流量异常检测模型，实现了对广告流量异常检测模型的构建，使得该模型能够对广告流量进行异常检测。

可选地，根据样本广告流量数据获取多个训练样本广告流量数据集及其对应的评估样本广告流量数据集，包括：利用十折交叉验证的方法将样本广告流量数据均分为十份数据集；依次选取一份数据集作为评估样本广告流量数据集；将其他的九份数据集组成的数据集作为该评估样本广告流量数据集对应的训练样本广告流量数据集。

可选地，在样本广告流量数据为一维向量型流量数据的情况下，预设的深度学习网络模型为多层全感知机模型；或，在样本广告流量数据为二维时序性流量数据的情况下，预设的深度学习网络模型为CNN

(Convolutional Neural Network，卷积神经网络)或LSTM(Long Short-TermMemory，长短时记忆细胞)等学习模型。

可选地，预设的深度学习网络模型包括广告流量数据生成模型中编码器的第一输入层与第一特征映射层。这样，能够将各训练样本广告流量数据集中的的样本广告流量数据映射为预设维度的稀疏数据。

可选地，预设的分类器模型包括：Dropout层、第三全连接层和逻辑回归层。

在一些实施例中，预设的分类器模型中的Dropout层能够使分类器模型在训练时被分成多个共享部分权重且网络层数相同的子网络的Bagging(bootstrap aggregating)集成。然后将保留的特征输入第三全连接层与逻辑回归层，获得训练样本广告流量数据集中各条样本广告流量数据为异常数据的概率值和其为正常数据的概率值；概率值较大的类型即为分类器模型输出的训练样本广告流量数据集中各条样本广告流量数据的用于表征广告流量是否异常流量类型。这样，通过预设的分类器模型中的Dropout层获得Bagging集成，削弱了分类器模型中各神经元之间的联合适用性，使分类器模型对数据的细微变化不太敏感，从而降低分类器模型过拟合的风险，提高分类器模型的泛化能力。同时，通过将保留的特征输入第三全连接层与逻辑回归层获得各条样本广告流量数据为异常数据的概率值和其为正常数据的概率值，并根据各概率值确定各条样本广告流量数据的流量类型，使得通过将输入的训练样本广告流量数据集中各条样本广告流量数据的标签与分类器模型输出的各条样本广告流量数据的流量类型进行比较，就能够确定分类器模型的检测是否正确。

可选地，根据各所述稀疏数据集对预设的分类器模型进行训练，获得多个备选广告流量检测模型，包括：利用Adam优化算法根据各所述稀疏数据集对预设的分类器模型进行训练，获得多个备选广告流量检测模型。

在一些实施例中，通过粒子群优化算法获取预设的分类器模型中的超参数的值，然后采用Adam优化算法根据各所述稀疏数据集对预设的分类器模型中的参数进行训练。

可选地，根据各备选广告流量检测模型和各训练样本广告流量数据集对应的评估样本广告流量数据集获取广告流量检测模型，包括：根据各评估样本广告流量数据集获取对应的备选广告流量检测模型的评估分数；将评估分数最高的备选广告流量检测模型确定为广告流量检测模型。这样，将评估分数最高的备选广告流量检测模型确定为广告流量检测模型，使得广告流量检测模型为各备选广告流量检测模型种的最优模型，提高了利用该广告流量检测模型进行广告流量异常检测的准确性。

可选地，根据各评估样本广告流量数据集获取对应的备选广告流量检测模型的评估分数，包括：将各评估样本广告流量数据集中的各样本广告流量数据分别输入其对应的备选广告流量检测模型，获得备选广告流量检测模型输出的各样本广告流量数据的表征广告流量是否异常的流量类型；获取流量类型用于表征其广告流量异常且其标签用于表征其广告流量异常的样本广告流量数据占流量类型为用于表征其广告流量异常的样本广告流量数据的第一比例；获取流量类型用于表征其广告流量异常且其标签用于表征其广告流量异常的样本广告流量数据占标签用于表征其广告流量异常的样本广告流量数据的第二比例；根据第一比例和第二比例获取各备选广告流量检测模型的评估分数。

可选地，获取流量类型用于表征其广告流量异常且其标签用于表征其广告流量异常的样本广告流量数据占流量类型用于表征其广告流量异常的样本广告流量数据的第一比例，包括：通过计算

流量类型用于表征其广告流量异常且其标签用于表征其广告流量异常的样本广告流量数据占流量类型用于表征其广告流量异常的样本广告流量数据的第一比例；其中，P为第一比例；TP为流量类型用于表征其广告流量异常且其标签用于表征其广告流量异常的样本广告流量数据的数量；FP为流量类型用于表征其广告流量异常且其标签用于表征其广告流量正常的样本广告流量数据的数量；TP+FP为流量类型用于表征其广告流量异常的样本广告流量数据的数量。

可选地，获取流量类型用于表征其广告流量异常且其标签用于表征其广告流量异常的样本广告流量数据占标签用于表征其广告流量异常的样本广告流量数据的第二比例，包括：通过计算

获得获取流量类型用于表征其广告流量异常且其标签用于表征其广告流量异常的样本广告流量数据占标签用于表征其广告流量异常的样本广告流量数据的第二比例；其中，R为第二比例；FN为流量类型用于表征其广告流量正常且其标签用于表征其广告流量异常的样本广告流量数据的数量，TP+FN为标签用于表征其广告流量异常的样本广告流量数据的数量。

可选地，根据第一比例和第二比例获取各备选广告流量检测模型的评估分数，包括：通过计算

获得各备选广告流量检测模型的F1分数；其中；F₁为各备选广告流量检测模型的F1分数；将各备选广告流量检测模型的F1分数确定为各备选广告流量检测模型的评估分数。

可选地，利用广告流量异常检测模型检测广告流量是否异常，包括：获取待检测广告流量数据；将待检测广告流量数据输入广告流量异常检测模型中，获得待检测广告流量数据的流量类型，流量类型用于表征广告流量是否异常。这样，通过将待检测广告流量数据输入广告流量异常检测模型中，能够获得待检测广告流量数据的用于表征广告流量是否异常的流量类型，实现了对待检测广告流量数据的广告流量异常检测。

可选地，获取待检测广告流量数据，包括：获取原始待检测广告流量数据；对原始待检测广告流量数据进行预处理；对预处理后的原始待检测广告流量数据进行标准化处理，获得待检测广告流量数据。

结合图5所示，本公开实施例提供一种用于检测广告流量模型运用的方法，包括：

步骤S501，获取待检测广告流量数据；

步骤S502，将待检测广告流量数据输入训练好的广告流量异常检测模型的第二深度学习模型中，将待检测广告流量数据映射为预设维度的稀疏数据；

步骤S503，将被映射为预设维度的稀疏数据的待检测广告流量数据输入训练好的广告流量异常检测模型的第二分类器模型中，获得待检测广告流量数据的流量类型为正常的概率值及其为异常的概率值；

步骤S504，将较大的概率值对应的流量类型确定为待检测广告流量数据的流量类型。

这样，通过将待检测广告流量数据输入训练好的广告流量异常检测模型中，利用广告流量异常检测模型的第二深度学习模型将待检测广告流量数据映射为预设维度的稀疏数据，并利用第二分类器模型获取待检测广告流量数据的流量类型为正常的概率值及其为异常的概率值，以根据各概率至确定待检测广告流量数据的流量类型，实现了对待检测广告流量数据的广告流量异常检测。

可选地，广告流量异常检测模型运用示意图如图6所示，训练好的广告流量异常检测模型11包括第二深度学习模型12和第二分类器模型13。如图6所示，训练好的广告流量异常检测模型11的输入为待检测广告流量数据；第二深度学习模型12将待检测广告流量数据映射为预设维度的稀疏数据，第二分类器模型13根据被映射为预设维度的稀疏数据获得待检测广告流量数据的流量类型为正常的概率值及其为异常的概率，然后训练好的广告流量异常检测模型11输出较大的概率值对应的流量类型，以将较大的概率值对应的流量类型确定为待检测广告流量数据的流量类型。这样，通过利用广告流量异常检测模型的第二深度学习模型将待检测广告流量数据映射为预设维度的稀疏数据，并利用第二分类器模型获取待检测广告流量数据的流量类型为正常的概率值及其为异常的概率值，以根据各概率至确定待检测广告流量数据的流量类型，实现了对待检测广告流量数据的广告流量异常检测。

结合图7所示，本公开实施例提供一种用于检测广告流量的装置，包括第一获取模块14、第二获取模块15、构建模块16和检测模块17。第一获取模块14被配置为获取第一历史广告流量数据；第二获取模块15被配置为将第一历史广告流量数据输入预设的广告流量数据生成模型，获得表征广告流量异常的第一广告流量样本数据；获取表征广告流量正常的第二广告流量样本数据；构建模块16被配置为利用第一广告流量样本数据和第二广告流量样本数据构建广告流量异常检测模型；检测模块17被配置为利用广告流量异常检测模型检测广告流量是否异常。

采用本公开实施例提供的用于检测广告流量的装置，通过利用广告流量数据生成模型获得的表征广告流量异常的第一广告流量样本数据，然后与表征广告流量正常的第二广告流量样本数据构建训练广告流量异常检测模型的样本数据，这样构成的样本数据类型更加平衡，从而使得训练出的广告流量异常检测模型对异常广告流量的检测准确率更高。

可选地，该用于检测广告流量的装置还包括广告流量数据生成模型获取模块。广告流量数据生成模型获取模块被配置为获取第二历史广告流量数据；利用第二历史广告流量数据对预设的生成式对抗编码器模型进行训练，获得广告流量数据生成模型。

可选地，该用于检测广告流量的装置还包括优化模块。优化模块被配置为获取广告流量数据生成模型的损失函数；利用损失函数对广告流量数据生成模型进行优化。

可选地，构建模块被配置为通过如下方法利用第一广告流量样本数据和第二广告流量样本数据构建广告流量异常检测模型：将第一广告流量样本数据和第二广告流量样本数据确定为样本广告流量数据；根据样本广告流量数据获取多个训练样本广告流量数据集及其对应的评估样本广告流量数据集；利用预设的深度学习网络模型将各训练样本广告流量数据集中的的样本广告流量数据映射为预设维度的稀疏数据，获得多个稀疏数据集；根据各稀疏数据集对预设的分类器模型进行训练，获得多个备选广告流量检测模型；根据各备选广告流量检测模型和各训练样本广告流量数据集对应的评估样本广告流量数据集获取广告流量检测模型。

可选地，构建模块被配置为通过如下方法根据各备选广告流量检测模型和各训练样本广告流量数据集对应的评估样本广告流量数据集获取广告流量检测模型，包括：根据各评估样本广告流量数据集获取对应的备选广告流量检测模型的评估分数；将评估分数最高的备选广告流量检测模型确定为广告流量检测模型。

可选地，检测模块被配置为通过如下方法利用广告流量异常检测模型检测广告流量是否异常，包括：获取待检测广告流量数据；将待检测广告流量数据输入广告流量异常检测模型中，获得待检测广告流量数据的流量类型，流量类型用于表征广告流量是否异常。

结合图8所示，本公开实施例提供一种用于检测广告流量的装置，包括处理器(processor)100和存储器(memory)101。可选地，该装置还可以包括通信接口(Communication Interface)102和总线103。其中，处理器100、通信接口102、存储器101可以通过总线103完成相互间的通信。通信接口102可以用于信息传输。处理器100可以调用存储器101中的逻辑指令，以执行上述实施例的用于检测广告流量的方法。

此外，上述的存储器101中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。

存储器101作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序，如本公开实施例中的方法对应的程序指令/模块。处理器100通过运行存储在存储器101中的程序指令/模块，从而执行功能应用以及数据处理，即实现上述实施例中用于检测广告流量的方法。

存储器101可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端设备的使用所创建的数据等。此外，存储器101可以包括高速随机存取存储器，还可以包括非易失性存储器。

本公开实施例提供了一种电子设备，包含上述的用于检测广告流量的装置。

采用本公开实施例提供的电子设备，通过利用广告流量数据生成模型获得的表征广告流量异常的第一广告流量样本数据，然后与表征广告流量正常的第二广告流量样本数据构建训练广告流量异常检测模型的样本数据，这样构成的样本数据类型更加平衡，从而使得训练出的广告流量异常检测模型对异常广告流量的检测准确率更高。

本公开实施例提供了一种存储介质，存储有计算机可执行指令，所述计算机可执行指令设置为执行上述用于检测广告流量的方法。

本公开实施例提供了一种计算机程序产品，所述计算机程序产品包括存储在计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行上述用于检测广告流量的方法。

上述的计算机可读存储介质可以是暂态计算机可读存储介质，也可以是非暂态计算机可读存储介质。

本公开实施例的技术方案可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括一个或多个指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本公开实施例所述方法的全部或部分步骤。而前述的存储介质可以是非暂态存储介质，包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等多种可以存储程序代码的介质，也可以是暂态存储介质。

以上描述和附图充分地示出了本公开的实施例，以使本领域的技术人员能够实践它们。其他实施例可以包括结构的、逻辑的、电气的、过程的以及其他的改变。实施例仅代表可能的变化。除非明确要求，否则单独的部件和功能是可选的，并且操作的顺序可以变化。一些实施例的部分和特征可以被包括在或替换其他实施例的部分和特征。而且，本申请中使用的用词仅用于描述实施例并且不用于限制权利要求。如在实施例以及权利要求的描述中使用的，除非上下文清楚地表明，否则单数形式的“一个”(a)、“一个”(an)和“所述”(the)旨在同样包括复数形式。类似地，如在本申请中所使用的术语“和/或”是指包含一个或一个以上相关联的列出的任何以及所有可能的组合。另外，当用于本申请中时，术语“包括”(comprise)及其变型“包括”(comprises)和/或包括(comprising)等指陈述的特征、整体、步骤、操作、元素，和/或组件的存在，但不排除一个或一个以上其它特征、整体、步骤、操作、元素、组件和/或这些的分组的存在或添加。在没有更多限制的情况下，由语句“包括一个…”限定的要素，并不排除在包括所述要素的过程、方法或者设备中还存在另外的相同要素。本文中，每个实施例重点说明的可以是与其他实施例的不同之处，各个实施例之间相同相似部分可以互相参见。对于实施例公开的方法、产品等而言，如果其与实施例公开的方法部分相对应，那么相关之处可以参见方法部分的描述。

本领域技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，可以取决于技术方案的特定应用和设计约束条件。所述技术人员可以对每个特定的应用来使用不同方法以实现所描述的功能，但是这种实现不应认为超出本公开实施例的范围。所述技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本文所披露的实施例中，所揭露的方法、产品(包括但不限于装置、设备等)，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，可以仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例。另外，在本公开实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

附图中的流程图和框图显示了根据本公开实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这可以依所涉及的功能而定。在附图中的流程图和框图所对应的描述中，不同的方框所对应的操作或步骤也可以以不同于描述中所披露的顺序发生，有时不同的操作或步骤之间不存在特定的顺序。例如，两个连续的操作或步骤实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这可以依所涉及的功能而定。框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

Claims

1.一种用于检测广告流量的方法，其特征在于，包括：

获取第一历史广告流量数据；

将所述第一历史广告流量数据输入预设的广告流量数据生成模型，获得表征广告流量异常的第一广告流量样本数据；获取表征广告流量正常的第二广告流量样本数据；

利用所述第一广告流量样本数据和所述第二广告流量样本数据构建广告流量异常检测模型；

利用所述广告流量异常检测模型检测广告流量是否异常。

2.根据权利要求1所述的方法，其特征在于，广告流量数据生成模型通过以下方式获得：

获取第二历史广告流量数据；

利用所述第二历史广告流量数据对预设的生成式对抗编码器模型进行训练，获得广告流量数据生成模型。

3.根据权利要求2所述的方法，其特征在于，在获得广告流量数据生成模型后，还包括：

获取所述广告流量数据生成模型的损失函数；

利用所述损失函数对所述广告流量数据生成模型进行优化。

4.根据权利要求1所述的方法，其特征在于，利用所述第一广告流量样本数据和所述第二广告流量样本数据构建广告流量异常检测模型，包括：

将所述第一广告流量样本数据和所述第二广告流量样本数据确定为样本广告流量数据；

根据所述样本广告流量数据获取多个训练样本广告流量数据集及其对应的评估样本广告流量数据集；

利用预设的深度学习网络模型将各所述训练样本广告流量数据集中的的样本广告流量数据映射为预设维度的稀疏数据，获得多个稀疏数据集；

根据各所述稀疏数据集对预设的分类器模型进行训练，获得多个备选广告流量检测模型；

根据各所述备选广告流量检测模型和各所述训练样本广告流量数据集对应的评估样本广告流量数据集获取所述广告流量检测模型。

5.根据权利要求4所述的方法，其特征在于，根据各所述备选广告流量检测模型和各所述训练样本广告流量数据集对应的评估样本广告流量数据集获取所述广告流量检测模型，包括：

根据各所述评估样本广告流量数据集获取对应的备选广告流量检测模型的评估分数；

将评估分数最高的备选广告流量检测模型确定为广告流量检测模型。

6.根据权利要求1所述的方法，其特征在于，利用所述广告流量异常检测模型检测广告流量是否异常，包括：

获取待检测广告流量数据；

将所述待检测广告流量数据输入所述广告流量异常检测模型中，获得待检测广告流量数据的流量类型，所述流量类型用于表征广告流量是否异常。

7.一种用于检测广告流量的装置，其特征在于，包括：

第一获取模块，被配置为获取第一历史广告流量数据；

第二获取模块，被配置为将所述第一历史广告流量数据输入预设的广告流量数据生成模型，获得表征广告流量异常的第一广告流量样本数据；获取表征广告流量正常的第二广告流量样本数据；

构建模块，被配置为利用所述第一广告流量样本数据和所述第二广告流量样本数据构建广告流量异常检测模型；

检测模块，被配置为利用所述广告流量异常检测模型检测广告流量是否异常。

8.一种用于检测广告流量的装置，包括处理器和存储有程序指令的存储器，其特征在于，所述处理器被配置为在运行所述程序指令时，执行如权利要求1至6任一项所述的用于检测广告流量的方法。

9.一种电子设备，其特征在于，包括如权利要求8所述的用于检测广告流量的装置。

10.一种存储介质，存储有程序指令，其特征在于，所述程序指令在运行时，执行如权利要求1至6任一项所述的用于检测广告流量的方法。