CN115147152B

CN115147152B - 广告投放效果数据采集与统计分析系统

Info

Publication number: CN115147152B
Application number: CN202210774074.5A
Authority: CN
Inventors: 华俊
Original assignee: Zhejiang Chuhai Digital Technology Co ltd
Current assignee: Zhejiang Chuhai Digital Technology Co ltd
Priority date: 2022-07-01
Filing date: 2022-07-01
Publication date: 2023-05-02
Anticipated expiration: 2042-07-01
Also published as: CN115147152A

Abstract

本发明涉及数字信息传输技术领域，具体涉及一种广告投放效果数据采集与统计分析系统。该系统包括数据获取模块与观众判别模块，基于数据获取模块获取每个广告对应的普通观众与聚集观众，构建每个聚集观众对应的向量组合，观众判别模块用于将不同的聚集观众对应的向量组合输入训练完成的多层神经网络中，基于该多层神经网络输出该聚集观众具体的观众类别，保证了对数据分析的可靠性，提高了对虚假观众和虚假流量识别的准确度。

Description

广告投放效果数据采集与统计分析系统

技术领域

本发明涉及数字信息传输技术领域，具体涉及一种广告投放效果数据采集与统计分析系统。

背景技术

在数字广告时代，广告投放后产生的反馈数据数量庞大，而反馈数据中往往存在大量的虚假流量；每年因为虚假流量造成的社会经济损失高达几十亿元，甚至在广告还未产生收益时，就已经在遭受损失；由于虚假流量的原因使得广告投放完成得到的分析数据可信度降低，因此准确识别出反馈数据中的虚假流量是非常重要的一环。

目前对虚假流量预防的主流方法有：对动作异常的观众进行验证码图灵测试、提高投放平台的监测力度、人工鉴别以及反向侦查流量欺诈组织等方法，用于对观众的数据进行简单的分析，以阻止刷流量的程序。

但当广告主将广告外包给营销公司或者投放平台后，往往会经过很多的中间商，在此过程中产生虚假流量进行追责十分困难；并且由于如今的互联网技术的发展，刷流量的虚假观众的手段越来越高超，并且具有一定的伪随机性，增加了识别的难度，很难保证虚假流量识别的准确性。

发明内容

为了解决上述技术问题，本发明的目的在于提供一种广告投放效果数据采集与统计分析系统，该系统包括以下模块：

数据获取模块，用于在任意客户端上投放多个广告，获取每个所述广告产生的观众，将所有所述观众分为普通观众与聚集观众；基于所述普通观众对应的观众信息、所述聚集观众对应的观众信息以及所述广告对应的广告信息构建每个观众对应的向量集合，所述向量集合包括观众属性向量、观众动作向量、目标属性向量、目标动作向量、广告特征向量以及热门度向量；

观众判别模块，用于将任意所述聚集观众对应的所述向量集合输入训练完成的多层神经网络，所述多层神经网络的输出为所述聚集观众的类别，所述类别包括普通观众和虚假观众；基于所有所述普通观众的动作信息得到广告投放的效果；

其中，所述观众判别模块中所述多层神经网络包括图注意力网络和多层感知器，对所述聚集观众的类别的判别方法，包括：

将所述向量集合划分为多个维度，每个所述维度包括多层，基于多头注意力机制获取每层对应的优化矩阵，基于多层对应的所述优化矩阵的融合拼接得到每个维度对应的优化特征矩阵；

每个所述维度对应的优化特征矩阵的同一行为所述聚集观众的优化特征向量组合，所述优化特征向量组合包括优化观众属性向量、优化观众动作向量以及优化广告特征向量；

将所述优化特征向量组合输入所述多层感知器，所述多层感知器输出所述聚集观众的类别。

优选的，所述数据获取模块中所述将所有所述观众分为普通观众与聚集观众的方法，包括：

基于每个所述广告产生的观众的时间顺序构建观众序列，获取所述观众序列中每个所述观众的局域网信息，基于所述局域网信息将所有所述观众划分为普通观众与聚集观众。

优选的，所述数据获取模块中所述观众属性向量中的元素包括：性别、年龄、城市、设备信息、注册时长、关注人数、粉丝人数以及发布视频数量；所述观众动作向量中的元素包括：跳转、点赞、评论、收藏、分析、关注、暂停以及关闭；所述广告特征向量中的元素包括：商品类型、商品价格、商品品牌、视频风格、代言明星、发布时间、宣传花费以及广告时长。

优选的，所述数据获取模块中所述目标属性向量与所述目标动作向量的获取方法，包括：

选取所有所述普通观众的观众属性向量和观众动作向量，计算所有所述普通观众的观众属性向量的均值得到目标属性向量；计算所有所述普通观众的观众动作向量的均值得到目标动作向量。

优选的，所述数据获取模块中所述热门度向量的获取方法，包括：

将任意观众观看的所有广告按照时间顺序排序得到广告序列，每个所述广告对应一个播放量，基于所述播放量得到所述广告的热门度，所述广告序列中每个所述广告对应的热门度构成对应的热门度序列，所述热门度序列为热门度向量。

优选的，所述观众判别模块中所述将所述向量集合划分为多个维度，每个所述维度包括多层，基于多头注意力机制获取每层对应的优化矩阵的方法，包括：

将所述向量集合划分为三个维度分别为属性维度、动作维度以及广告维度；所述属性维度包括所述观众属性向量和所述目标属性向量，所述动作维度包括所述观众动作向量和目标动作向量；所述广告维度包括所述广告特征向量和热门度向量；

构建属性维度对应的属性矩阵和目标属性矩阵，所述属性矩阵与所述目标属性矩阵对应不同的权重矩阵，每个不同的权重矩阵组合为一层，基于每层的权重矩阵组合、属性矩阵以及目标属性矩阵获取该层对应的优化矩阵；

以此类推，构建动作维度对应的动作矩阵和目标动作矩阵，所述动作矩阵和所述目标动作矩阵对应不同的权重矩阵，每个不同的权重矩阵组合为一层，基于每层的权重矩阵组合、动作矩阵以及目标动作矩阵获取该层对应的优化矩阵；

构建广告维度对应的广告矩阵和热门度矩阵，所述广告矩阵和所述热门度矩阵对应不同的权重矩阵，每个不同的权重矩阵组合为一层，基于每层的权重矩阵组合、广告矩阵以及热门度矩阵获取该层对应的优化矩阵。

优选的，所述观众判别模块中所述基于多层对应的所述优化矩阵的融合拼接得到每个维度对应的优化特征矩阵的方法，包括：

基于所述属性维度中每层对应的优化矩阵进行横向拼接得到所述属性维度对应的优化特征矩阵；基于所述动作维度中每层对应的优化矩阵进行横向拼接得到所述动作维度对应的优化特征矩阵；基于所述广告维度中每层对应的优化矩阵进行横向拼接得到所述广告维度对应的优化特征矩阵。

本发明具有如下有益效果：本发明实施例中通过图注意力网络的多维多头注意力机制提取观众与观众、观众与广告以及广告与广告之间特征相关性，综合考虑了观众与观众之间的区别与联系和广告对观众的推荐度，基于不同特征之间的权重差异从而得到每个聚集观众对应的优化特征向量组合，进一步根据每个聚集观众对应的优化特征向量组合判断出该聚集观众为虚假观众还是普通观众，保证了数据分析的准确性，有效提高了对虚假流量识别的准确度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1为本发明一个实施例所提供的一种广告投放效果数据采集与统计分析的系统框图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的一种广告投放效果数据采集与统计分析系统，其具体实施方式、结构、特征及其功效，详细说明如下。在下述说明中，不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外，一或多个实施例中的特定特征、结构、或特点可由任何合适形式组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

本申请适用于对广告流量中的虚假流量进行分析，本系统包括数据获取模块与观众判别模块，数据获取模块用于获取每个聚集观众对应的向量集合，观众判别模块用于基于每个聚集观众对应的向量集合输入多层神经网络中得到该聚集观众的观众类别，从而准确识别出其中的虚假观众，得到其中的虚假流量，提高了分析的准确度。

下面结合附图具体的说明本发明所提供的一种广告投放效果数据采集与统计分析系统的具体方案。

请参阅图1，其示出了本发明一个实施例提供的一种广告投放效果数据采集与统计分析系统的系统框图，该系统包括以下模块：

数据获取模块10，用于在任意客户端上投放多个广告，获取每个广告产生的观众，将所有观众分为普通观众与聚集观众；基于普通观众对应的观众信息、聚集观众对应的观众信息以及广告对应的广告信息构建每个观众对应的向量集合，向量集合包括观众属性向量、观众动作向量、目标属性向量、目标动作向量、广告特征向量以及热门度向量。

假设某广告公司在任意视频客户端上投放多个广告，每个广告都会产生对应的有互动动作的感兴趣观众，基于每个广告产生的观众的时间顺序构建观众序列，获取观众序列中每个观众的局域网信息，基于局域网信息将所有观众划分为普通观众与聚集观众。

具体的，根据每个广告产生观众的时间顺序进行排序构建观众序列为：{Au₁,Au₂,…}；其中，Au₁表示该广告产生的第一个观众；Au₂表示该广告产生的第二个观众。根据现有的定位技术获取每个观众所在的局域网信息，定位技术包括：基站定位技术、WIFI小区定位、精确IP定位等方法，实施者可根据实际情况自行选择；结合GPS定位得到每个观众大致的地理位置；由此获取到每个观众的局域网信息，根据每个观众的局域网信息对该观众序列进行划分得到多个子序列，以此保留每个观众的时间信息；每个子序列中的观众属于同一个局域网信息下。统计每个子序列中的观众数量，当观众数量小于预设阈值时，将该子序列对应的局域网记为小型网，小型网中所有的观众默认为普通观众，即真实观众；当该子序列中的观众数量大于预设阈值时，将该子序列对应的局域网记为大型网，将大型网中的观众记为聚集观众，聚集观众中可能包括普通观众与虚假观众。

作为优选，本发明实施例中将预设阈值设置为3，即当子序列中观众数量小于3时，该子序列为小型网。

进一步的，根据视频客户端提供的监测SDK获取每个观众对应的个人资料信息以及每个观众观看广告的动作信息；基于每个观众对应的个人资料信息构建每个观众对应的观众属性向量；本发明实施例中将观众属性向量内元素设置为：性别、年龄、城市、设备信息、注册时长、关注人数、粉丝人数以及发布视频数量共8个元素；对每个元素值进行数字化标注，例如，对于性别元素，男性值为1，女性值为2；以此类推，对每个元素的不同情况进行数字化标注得到每个观众对应的观众属性向量。

需要说明的是，当观众未授权视频客户端获取这些信息时，将对应的元素值标记为0；每个观众对应的观众属性向量长度一致。

基于每个观众观看广告的动作信息构建每个观众对应的观众动作向量，本发明实施例中将观众动作向量内元素设置为：跳转、点赞、评论、收藏、分析、关注、暂停以及关闭共8个元素，同样的对每个元素进行数字化标注，每个元素的取值为该观众观看该广告时产生该动作的时间，即开始观看该广告的第几秒；以此构建出每个观众对应的观众动作向量。

需要说明的是，对于观众未产生的动作对应元素值标注为-1；该观众动作向量中跳转为点击购买或者点击该广告想要引导的动作；每个观众对应的观众动作向量长度一致。

进一步的，选取所有普通观众的观众属性向量和观众动作向量，计算所有普通观众的观众属性向量的均值得到目标属性向量；计算所有普通观众的观众动作向量的均值得到目标动作向量。

具体的，由上述局域网信息得到某个广告下产生的普通观众和聚集观众，选取所有普通观众对应的观众属性向量以及观众动作向量，计算所有普通观众对应观众属性向量的均值为目标观众属性向量；相应的，计算所有普通观众对应的观众动作向量的均值为目标观众动作向量。

基于该广告公司在视频客户端上投放的每个广告信息构建对应的广告特征向量，本发明实施例中设置广告特征向量中元素包括：商品类型、商品价格、商品品牌、视频风格、代言明星、发布时间、宣传花费以及广告时长共8个元素，同样对该8个元素进行数字化标注得到每个广告对应的广告特征向量，每个广告对应的广告特征向量长度一致。

将任意观众观看的所有广告按照时间顺序排序得到广告序列，每个广告对应一个播放量，基于播放量得到广告的热门度，广告序列中每个广告对应的热门度构成对应的热门度序列，热门度序列为热门度向量。

作为一个优选示例，以广告A对应的所有聚集观众中的任意一个观众为例，获取该观众观看的所有广告数量m，基于该观众观看的时间顺序将所有广告进行排序得到广告序列，获取该广告序列中每个广告的播放量，基于每个广告的播放量得到该广告对应的热门度为：

其中，θ表示该广告对应的热门度；r表示该广告的播放量；R表示超参数，代表一般广告视频的正常播放量，本发明实施例中设置R＝10⁵。

以此类推，获取该广告序列中每个广告对应的热门度，从而得到广告序列对应的热门度序列，将该热门度序列视为一个向量即得到对应的热门度向量。

综上，获取到观众属性向量、观众动作向量、目标属性向量、目标动作向量、广告特征向量以及热门度向量组成一个向量集合。

观众判别模块20，用于将任意聚集观众对应的向量集合输入训练完成的多层神经网络，多层神经网络的输出为聚集观众的类别，类别包括普通观众和虚假观众；基于所有普通观众的动作信息得到广告投放的效果。

由于聚集观众中存在普通观众与虚假观众，因此需要对大型网中所有的聚集观众进行分析，从而判断出其中的虚假观众。基于每个聚集观众对应的观众属性向量、观众动作向量以及观看广告对应的广告特征向量进行注意力分析，因为虚假流量的产生往往是由于刷流量机器人批量生产个人资料或者观看广告存在一定的规律性，因此可根据每个聚集观众与普通观众之间的差别判断每个聚集观众属于虚假观众的可疑性。

本发明实施例中通过多层神经网络对每个聚集观众的具体类别进行分析，多层神经网络的输入为数据获取模块10中得到的向量集合，多层神经网络的输出为每个聚集观众对应的具体类别。将向量集合划分为多个维度，每个维度包括多层，基于多头注意力机制获取每层对应的优化矩阵，基于多层对应的优化矩阵的融合拼接得到每个维度对应的优化特征矩阵；每个维度对应的优化特征矩阵的同一行为聚集观众的优化特征向量组合，优化特征向量组合包括优化观众属性向量、优化观众动作向量以及优化广告特征向量；将优化特征向量组合输入多层感知器，多层感知器输出聚集观众的类别。

需要说明的是，本发明实施例中的多层神经网络包括图注意力网络GAT(GraphAttention Network)和多层感知器MLP(Multi-Layer Perception)，图注意力网络GAT的输出为多层感知器MLP的输入。

整体多层神经网络的训练数据集为普通观众与虚假观众的组合数据集；真实的普通观众对应的数据可通过可靠的软件平台进行广告投放进而采集得到；虚假观众的数据可通过委托刷虚假流量的公司安排虚假观众进行操作得到，将普通观众的数据与虚假观众的数据组合得到数据集，将数据集中70％作为训练数据集，30％作为测试数据集；多层神经网络的训练过程为：

(1)多层神经网络的输入为向量集合；

(2)向量集合中的观众属性向量、观众动作向量以及广告特征向量经过图注意力网络得到对应的优化观众属性向量、优化观众动作向量以及优化广告特征向量；图注意力网络输出的优化观众属性向量、优化观众动作向量以及优化广告特征向量作为多层感知器的输入；

(3)经过多层感知器输出该聚集观众对应的类别，多层感知器的输出即为该多层神经网络的输出；

(4)多层神经网络的损失函数采用交叉熵损失函数，图注意网络的优化算法采用Adam算法。

其中，向量集合通过图注意力网络进行分析的主要核心是基于多维多头注意力机制，将向量集合划分为三个维度分别为属性维度、动作维度以及广告维度；属性维度包括观众属性向量和目标属性向量，动作维度包括观众动作向量和目标动作向量；广告维度包括广告特征向量和热门度向量；构建属性维度对应的属性矩阵和目标属性矩阵，属性矩阵与目标属性矩阵对应不同的权重矩阵，每个不同的权重矩阵组合为一层，基于每层的权重矩阵组合、属性矩阵以及目标属性矩阵获取该层对应的优化矩阵；以此类推，构建动作维度对应的动作矩阵和目标动作矩阵，动作矩阵和目标动作矩阵对应不同的权重矩阵，每个不同的权重矩阵组合为一层，基于每层的权重矩阵组合、动作矩阵以及目标动作矩阵获取该层对应的优化矩阵；构建广告维度对应的广告矩阵和热门度矩阵，广告矩阵和热门度矩阵对应不同的权重矩阵，每个不同的权重矩阵组合为一层，基于每层的权重矩阵组合、广告矩阵以及热门度矩阵获取该层对应的优化矩阵。基于属性维度中每层对应的优化矩阵进行横向拼接得到属性维度对应的优化特征矩阵；基于动作维度中每层对应的优化矩阵进行横向拼接得到动作维度对应的优化特征矩阵；基于广告维度中每层对应的优化矩阵进行横向拼接得到广告维度对应的优化特征矩阵。

具体的，基于多维多头注意力机制对该属性矩阵进行处理，本发明实施例中多维为3个维度，分别为属性维度、动作维度以及广告维度，属性维度对应观众属性向量和目标属性向量；动作维度对应观众动作向量和目标动作向量；广告维度对应广告特征向量和热门度向量；多头为4个线性分解，分别为利用4个不同权重矩阵线性变换的矩阵，记为head；将每个维度分为多层即多个head，每个head对应一个权重矩阵的组合。

由数据获取模块10中得到观众序列，对每个广告对应的聚集观众进行分析，作为一个示例，获取广告A对应的观众序列，对该观众序列进行分析得到广告A对应的聚集观众与普通观众。基于该观众序列中的顺序将所有广告A对应的聚集观众进行组合，即将广告A的每个聚集观众对应的观众属性向量组合得到对应的属性矩阵，该属性矩阵中每一行为一个聚集观众对应的观众属性向量；假设广告A对应的聚集观众的数量为n，则该属性矩阵大小为n行8列。

进一步的，将广告A对应的普通观众的目标观众属性向量进行复制组合构成目标属性矩阵，该目标属性矩阵的大小为n行8列，且目标属性矩阵中每一行均为目标观众属性向量。获取属性矩阵的复制矩阵，属性矩阵的复制矩阵即为与该属性矩阵完全相同的矩阵，且该属性矩阵的复制矩阵包括两个矩阵。

基于图神经网络GAT对多头拆分的权重矩阵进行获取，目标属性矩阵、属性矩阵以及属性矩阵的复制矩阵均对应一个权重矩阵，不同的权重矩阵为一个组合，每个权重矩阵的组合对应一个head，即：

head_i＝{QW_i ^Q,KW_i ^K,VW_i ^V,EW_i ^E}

其中，head_i表示第i个权重矩阵的组合；Q表示属性矩阵；K表示属性矩阵的第一个复制矩阵；V表示属性矩阵的第二个复制矩阵；E表示目标属性矩阵；W_i ^Q表示第i个权重矩阵的组合中属性矩阵对应的权重矩阵；W_i ^K表示第i个权重矩阵的组合中属性矩阵的第一个复制矩阵的权重矩阵；W_i ^V表示第i个权重矩阵的组合中属性矩阵的第二个复制矩阵的权重矩阵；W_i ^E表示第i个权重矩阵的组合中目标属性矩阵的权重矩阵。

需要说明的是，本发明实施例中的权重矩阵W_i ^Q、W_i ^K、W_i ^V以及W_i ^E均是用于线性变换的降维，大小均为8行2列；即将原有的属性矩阵、属性矩阵的复制矩阵以及目标属性矩阵进行不同的降维处理；每个权重矩阵中元素的取值可由多层神经网络训练过程中得到。

由于制造虚假流量的机器人的资料往往是批量生成的，因此在身份属性上存在一定的相似性；观众彼此之间的相似性越大，该观众的身份越可疑；且该观众与目标属性矩阵之间存在越小相似性时，该观众身份越可疑；因此基于不同观众之间的相似性与该观众与普通观众之间的相似性作为身份可疑性的评判系数，根据不同权重矩阵的组合得到优化矩阵为：

h′＝softmax(Q′K′^T./E′K′^T)V′

其中，h′表示当前权重矩阵的组合得到的优化矩阵；Q′表示当前权重矩阵的组合下的属性矩阵；K′表示当前权重矩阵的组合下的属性矩阵的第一个复制矩阵；E′表示当前权重矩阵的组合下的目标属性矩阵；V′表示当前权重矩阵的组合下的属性矩阵的第二个复制矩阵；K′^T表示当前权重矩阵的组合下的属性矩阵的第一个复制矩阵的转置矩阵；softmax表示归一化函数；“./”表示点除运算，即两个矩阵中对应元素相除。

以此类推，得到每个权重矩阵的组合对应的优化矩阵，将所有的优化矩阵进行融合拼接得到完整的优化属性矩阵为：

H＝Concat(h′₁,…,h′_h)W^O

其中，H表示优化属性矩阵，h′₁表示第1个权重矩阵的组合得到的优化矩阵，h′_h表示第h个权重矩阵的组合得到的优化矩阵，本发明实施例中h＝4；W^O表示投影矩阵；Concat表示融合函数。

需要说明的是，投影矩阵W^O是大小为8行8列的矩阵，由多层神经网络的训练过程得到；融合函数的融合算法即为根据不同head得到的优化矩阵进行组合拼接，得到n行8列的优化属性矩阵。该优化属性矩阵中的每一行为每个观众对应的优化观众属性向量，即该优化属性矩阵中的第一行为广告A的观众序列中第一个聚集观众的优化观众属性向量。

以此类推，得到广告A产生的观众中每个聚集观众对应的优化观众属性向量。

进一步的，基于广告A对应的聚集观众对应的观众动作向量组合得到对应的动作矩阵，该动作矩阵中每一行为一个聚集观众对应的观众动作向量，该动作矩阵的大小为n行8列。将广告A对应的普通观众的目标观众动作向量进行复制组合构成目标动作矩阵，具体组合方法与目标属性矩阵相同，该目标动作矩阵的大小为n行8列，该目标动作矩阵中每一行均为目标观众动作向量。

由于制造虚假流量的机器人的动作模式都是固定的，为了尽快的完成任务从而会尽快的完成所有的动作，而普通观众因为广告的限制，普通观众之间也会存在一定的规律性，但该种规律性与动作模式的相似大不相同，因此基于上述获取优化属性矩阵相同的步骤，将该动作矩阵进行复制得到两个相同的复制矩阵，基于该动作矩阵、目标动作矩阵以及动作矩阵的复制矩阵进行多头注意力机制计算得到最终的优化动作矩阵。

需要说明的是，该优化动作矩阵计算过程中的权重矩阵的组合为重新训练获取得到的权重矩阵，该优化动作矩阵中每一行为一个聚集观众对应的优化观众动作向量。

由上述过程得到每个聚集观众对应的优化观众属性向量以及优化观众动作向量，由于所有的聚集观众中包括虚假观众和普通观众，而正常的普通观众应具有较为明确的广告爱好，虚假观众为了完成流量任务往往是对于各种类型的广告均感兴趣。

进一步的，不同类型的广告均对应一个广告特征向量，由数据获取模块10中得到任意一个聚集观众对应的广告序列，将该广告序列中每个广告对应的广告特征向量进行组合，得到对应的广告矩阵，该广告矩阵的大小为m行8列，广告矩阵中每一行为一个广告对应的广告特征向量。数据获取模块10中由广告序列得到对应的热门度序列，进而将该热门度序列作为一个竖向的向量进行复制，得到对应的热门度矩阵，该热门度矩阵的大小为m行m列，该热门度矩阵中的每一列为一个热门度向量。

相应的，将广告矩阵进行复制得到对应的复制矩阵，基于热门度矩阵、广告矩阵以及广告矩阵的复制矩阵进行多头注意力机制的计算得到对应的优化广告矩阵。每个head对应的权重矩阵组合仍然根据神经网络训练得到，则每个对应的优化矩阵为：

h′＝softmax(Q′K′^T./E′)V′

其中，h′表示当前权重矩阵的组合对应的优化矩阵；Q′表示当前权重矩阵的组合下的广告矩阵；K′^T表示当前权重矩阵的组合下的广告矩阵的第一个复制矩阵的转置矩阵；V′表示当前权重矩阵的组合下的广告矩阵的第二个复制矩阵；E′表示当前权重矩阵的组合下的热门度矩阵；softmax表示归一化函数；“./”表示点除运算，即两个矩阵中对应元素相除。

进一步的，基于每个head对应的优化矩阵进行融合拼接得到最终的优化广告矩阵，融合拼接的过程即为按顺序进行组合，该优化广告矩阵中的每一行代表每个广告对应的优化广告特征向量。

由此获取到每个聚集观众对应的优化观众属性矩阵、优化观众动作矩阵以及每个广告对应的优化广告特征向量，由于每个聚集观众会观看不同的广告，因此每个聚集观众会对应多个优化广告特征向量，将每个聚集观众对应的优化观众属性向量、优化观众动作向量以及优化广告特征向量记为该聚集观众的优化特征向量组合。

将图注意力网络GAT输出的每个聚集观众的优化特征向量组合作为多层感知器MLP的输入，进而基于该多层感知器MLP输出该聚集观众的分类结果，即通过训练完成的感知器MLP判断每个聚集观众为普通观众还是虚假观众。

需要说明的是，本发明实施例中图注意力网络GAT的输入即为多层神经网络的输入，多层感知器MLP的输出即为多层神经网络的输出。

由多层神经网络判断出所有的普通观众与虚假观众后，可根据最终获取的数据对本次广告投放的效益进行分析，普通观众产生的经济效益大于虚假观众，本发明实施例中通过计算真人观看率、真人点击率以及真人转化率对广告投放的效益进行分析，真人观看率的计算方法为：

其中，R₁表示真人观看率；μ_t表示普通观众的广告观看量；μ_a表示所有观众的广告观看量。

真人点击率的计算方法为：

其中，R₂表示真人点击率；ε_t表示普通观众的广告点击量；ε_a表示所有观众的广告点击量。

真人转化率的计算方法为：

其中，R₃表示真人转化率；

表示普通观众的广告下单量；

表示所有观众的广告下单量。

在其他实施例中，实施者可根据实际情况增加经济效益的评判指标，例如广告的曝光量等，以此评估该广告投放平台的信用，基于实施者自行设定的标准判断该广告投放平台是否可靠，从而及时的避免经济损失。

综上所述，本发明实施例提供一种广告投放效果数据采集与统计分析系统，该系统包括数据获取模块和观众判别模块；基于数据获取模块得到每个观众对应的向量集合，将任意聚集观众的向量集合输入进多层神经网络中，根据该多层神经网络的图注意力网络可得到该聚集观众对应的优化特征向量，进一步根据优化特征向量输入多层感知器中使得多层神经网络的输出为该聚集观众对应的观众类别，有效提高了对虚假流量分析的准确性。

需要说明的是：上述本发明实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种广告投放效果数据采集与统计分析系统，其特征在于，该系统包括以下模块：

将所述优化特征向量组合输入所述多层感知器，所述多层感知器输出所述聚集观众的类别；

所述观众判别模块中所述将所述向量集合划分为多个维度，每个所述维度包括多层，基于多头注意力机制获取每层对应的优化矩阵的方法，包括：

构建广告维度对应的广告矩阵和热门度矩阵，所述广告矩阵和所述热门度矩阵对应不同的权重矩阵，每个不同的权重矩阵组合为一层，基于每层的权重矩阵组合、广告矩阵以及热门度矩阵获取该层对应的优化矩阵；

所述观众判别模块中所述基于多层对应的所述优化矩阵的融合拼接得到每个维度对应的优化特征矩阵的方法，包括：

2.根据权利要求1所述的一种广告投放效果数据采集与统计分析系统，其特征在于，所述数据获取模块中所述将所有所述观众分为普通观众与聚集观众的方法，包括：

3.根据权利要求1所述的一种广告投放效果数据采集与统计分析系统，其特征在于，所述数据获取模块中所述观众属性向量中的元素包括：性别、年龄、城市、设备信息、注册时长、关注人数、粉丝人数以及发布视频数量；所述观众动作向量中的元素包括：跳转、点赞、评论、收藏、分析、关注、暂停以及关闭；所述广告特征向量中的元素包括：商品类型、商品价格、商品品牌、视频风格、代言明星、发布时间、宣传花费以及广告时长。

4.根据权利要求1所述的一种广告投放效果数据采集与统计分析系统，其特征在于，所述数据获取模块中所述目标属性向量与所述目标动作向量的获取方法，包括：

5.根据权利要求1所述的一种广告投放效果数据采集与统计分析系统，其特征在于，所述数据获取模块中所述热门度向量的获取方法，包括：