CN116703485B

CN116703485B - 基于大数据的广告精准营销方法及系统

Info

Publication number: CN116703485B
Application number: CN202310974367.2A
Authority: CN
Inventors: 周荣富; 张道军
Original assignee: Shandong Chuangyi Intelligent Information Technology Development Co ltd
Current assignee: Shandong Chuangyi Intelligent Information Technology Development Co ltd
Priority date: 2023-08-04
Filing date: 2023-08-04
Publication date: 2023-10-20
Anticipated expiration: 2043-08-04
Also published as: CN116703485A

Abstract

本发明涉及用于商业的数据处理技术领域，具体涉及基于大数据的广告精准营销方法及系统，包括：利用用户的浏览数据中的文本数据和图片数据获取数据点之间的商品网页相似度，进一步获得数据点的局部隶属度，根据数据点的浏览时长和局部隶属度获得第一取样方向和第二取样方向，根据第一取样方向和第二取样方向中数据点的分布特征获得LOF算法的最优K值，进一步实现数据清洗和广告精准推荐。本发明能够最大程度区分用户的浏览数据中的异常数据和正常数据，结合获取的LOF算法的最优K值，得到更理想的的异常数据检测效果，进而有效的异常数据清洗，根据数据清洗后的浏览数据得到准确的用户偏好分析结果，进行更精准的广告推荐。

Description

基于大数据的广告精准营销方法及系统

技术领域

本发明涉及用于商业的数据处理技术领域，具体涉及基于大数据的广告精准营销方法及系统。

背景技术

广告营销是指企业通过广告对产品展开宣传推广，促成消费者的直接购买，扩大产品的销售，提高企业的知名度和影响力的活动。随着经济全球化的迅速发展，在企业营销中广告营销活动发挥着越来越重要的作用。尤其在当今电商领域飞速发展阶段，可以获取足量的用户消费大数据，精准优化广告营销业务，提高商品销售、推广效率。

现有广告营销是指利用数据分析和人工智能等技术手段，根据用户的行为、兴趣爱好、消费习惯等信息，将广告投放给最具有潜在购买力的用户，提高广告效果和转化率。但是在线商城的商品页面商品种类繁多，用户大多出于好奇，所浏览商品差异较大，且经常会出现误点、误触的情况，导致用户的浏览行为非常密集，不能准确描摹用户购买心理，进而无法进行针对性的广告推广，需要一种高效的数据清洗算法提高广告营销的精准度。

发明内容

本发明提供基于大数据的广告精准营销方法及系统，以解决现有的问题。

本发明的基于大数据的广告精准营销方法及系统采用如下技术方案：

本发明提供了基于大数据的广告精准营销方法及系统，该方法包括以下步骤：

获取用户的浏览数据；

获取浏览数据中文本数据和图片数据分别对应的文本特征向量和图片特征向量，根据浏览数据中任意两个数据点文本特征向量和图片特征向量，所分别对应的余弦相似度的加权融合，获得两个数据点之间的商品网页相似度；

按照时间顺序获取浏览数据对应的浏览数据序列，根据浏览数据序列在预设的滑动窗口范围内，数据点之间的商品网页相似度获得数据点的局部隶属度；利用浏览数据中数据点的浏览时长和局部隶属度构建散点图，获取各个直线方向上，所有相邻的数据点之间的欧式距离，获得对应方向上若干个相邻的数据点对应的欧式距离，根据对应方向上所有的欧式距离获得第一取样方向和第二取样方向；根据第二取样方向上最大的欧式距离所对应的两个相邻的数据点，所形成线段的中垂线，分别获得第一取样方向和第二取样方向上，所有数据点在中垂线所对应方向中所包含数据点的平均数量，分别记为第一均值和第二均值，根据第一均值和第二均值获得LOF算法的最优K值；

利用LOF算法的最优K值对浏览数据进行数据清洗，获得数据清洗后的浏览数据；

根据数据清洗后的浏览数据对用户进行广告推荐。

进一步的，所述用户的浏览数据的获取方法为：

利用平台服务器端获取用户的浏览数据，包括浏览时间、浏览时长、浏览内容以及浏览行为；浏览数据中浏览内容包含商品的文本数据和图片数据，其中文本数据为商品的名称、描述、价格以及品牌，图片数据为商品图片。

进一步的，所述商品网页相似度的获取方法为：

步骤（1），获取用户浏览数据中关于商品信息的名称、描述、价格以及品牌的文本数据，对提取到的文本数据进行预处理，包括去除特殊字符、标点符号和数字，将大写字母转换为小写字母，合并两个商品网页的所有单词，移除重复项，以创建一个词汇表；

步骤（2），利用TF-IDF方法获取每个商品信息中各个单词的权重，记为对应单词的商品信息权重，根据词汇表将任意商品信息中各个单词的商品信息权重，所形成的序列表示为向量形式，记为文本特征向量，将任意两个商品的商品特征向量的余弦相似度，记为文本余弦相似度；

步骤（3），利用训练完成的卷积神经网络，获取用户的浏览内容中商品图片的特征向量，记为图片特征向量，将任意两个商品图片对应的图片特征向量之间的余弦相似度，记为图片余弦相似度；

步骤（4），对文本余弦相似度和图片余弦相似度进行加权，以0.5为预设权重，分别赋予给文本余弦相似度和图片余弦相似度，结合预设权重将文本余弦相似度和图片余弦相似度相加，获得任意两个商品的商品网页相似度。

进一步的，所述训练完成的卷积神经网络的获取方法为：

首先，获取大量的图片，利用SIFT算法，提取图片中的稳定不变的特征点，并为每个特征点生成一个128维的特征向量，将获得的特征向量作为对应图片的标签，将带有标签的图片作为样本，则由大量带有标签的图像构成训练VGG卷积神经网络的数据集；

然后，结合交叉熵损失函数，将获取的数据集输入到VGG卷积神经网络中，对VGG卷积神经网络进行训练，获得训练完成的VGG卷积神经网络。

进一步的，所述局部隶属度的获取方法为：

获取以第o个数据点为中间点时，滑动窗口范围内所有数据点的平均余弦相似度，将所有数据点的平均余弦相似度所形成的序列记为第o个数据点的相似度序列，根据平均余弦相似度以及相似度序列获取数据点的局部隶属度，具体计算方法为：

其中，表示第o个数据点的局部隶属度，/>表示以第o个数据点为中间点时，滑动窗口范围内第o个数据点的平均余弦相似度；/>表示第o个数据点的相似度序列；/>表示获取最大值。

进一步的，所述平均余弦相似度的获取方法为：

将浏览数据序列中作为滑动窗口的中间点的数据点记o，将以数据点o为滑动窗口的中间点时，将滑动窗口中任意一个数据点记为，将滑动窗口中除数据点/>以外的数据点记为/>；

获取以第o个数据点为中间点时，滑动窗口范围内第个数据点的平均余弦相似度，具体计算方法为：

其中，表示以第o个数据点为中间点时，滑动窗口范围内第/>个数据点的平均余弦相似度；/>表示第o个数据点为中间点时，滑动窗口范围内第/>个数据点；/>表示第o个数据点为中间点时，滑动窗口范围内除第/>个数据点以外的第/>个数据点；/>表示第个数据点和第/>个数据点之间的商品网页相似度。

进一步的，所述第一取样方向和第二取样方向的获取方法为：

步骤（1），利用数据点的浏览时长和局部隶属度构建散点图，将浏览时长和局部隶属度分别作为散点图的横轴和纵轴，将浏览数据中所有数据点都映射在散点图中；

步骤（2），从散点图的坐标原点出发对散点图的第一象限内，获取任意直线方向上所有相邻数据点的欧式距离，然后获取欧式距离的方差最大时所对应的直线方向，记为散点图的最大方差方向，将最大方差方向记为第一取样方向；

步骤（3），获取所有直线方向上，所有相邻的数据点的欧氏距离的最大极差所对应的直线方向，记为第二取样方向。

进一步的，所述LOF算法的最优K值的获取方法为：

首先，当第二取样方向上相邻的两个数据点之间的欧式距离最大时，获取对应的两个相邻的数据点所形成的线段的中垂线，分别获得在第一取样方向和第二取样方向上所对应的数据点，分别记为第一数据点和第二数据点，第一取样方向和第二取样方向上所对应的数据点都存在若干个，分别获得过第一数据点和第二数据点，且与中垂线平行的直线上，所对应数据点的数量，分别记为第一数量和第二数量，将所有第一数据点的第一数量的均值记为第一均值，将所有第二数据点的第二数量的均值记为第二均值/>；

然后，根据第一均值和第二均值获得LOF算法的最优K值，则LOF算法的最优K值获取方法为：

其中，表示第一均值，/>表示第二均值，/>表示LOF算法的最优K值。

进一步的，所述根据数据清洗后的浏览数据对用户进行广告推荐，包括的具体步骤如下：

步骤（1），当浏览数据中数据点的LOF值大于预设LOF阈值时，认为对应的数据点为异常的数据点，将异常的数据点删除，实现对浏览数据的数据清洗；

步骤（2），利用TF-IDF算法获取浏览数据和商品中的文本特征向量，利用卷积神经网络获取浏览数据和商品中的图片特征向量，获取浏览数据和商品中的文本特征向量，以及图片特征向量的预选相似度；

步骤（3），结合余弦相似度计算的结果，利用基于内容的推荐算法生成推荐商品列表，利用基于CTR预测的广告投放算法，将推荐列表中的广告进行精准投放，并记录用户的点击率和成交率，以此优化推荐算法的精度和效果。

进一步的，基于大数据的广告精准营销系统包括以下模块：

数据采集模块：获取用户的浏览数据；

数据预处理模块：获取浏览数据中文本数据和图片数据分别对应的文本特征向量和图片特征向量，根据浏览数据中任意两个数据点文本特征向量和图片特征向量，所分别对应的余弦相似度的加权融合，获得两个数据点之间的商品网页相似度；

数据分析模块：按照时间顺序获取浏览数据对应的浏览数据序列，根据浏览数据序列在预设的滑动窗口范围内，数据点之间的商品网页相似度获得数据点的局部隶属度；利用浏览数据中数据点的浏览时长和局部隶属度构建散点图，获取各个直线方向上，所有相邻的数据点之间的欧式距离，获得对应方向上若干个相邻的数据点对应的欧式距离，根据对应方向上所有的欧式距离获得第一取样方向和第二取样方向；根据第二取样方向上最大的欧式距离所对应的两个相邻的数据点，所形成线段的中垂线，分别获得第一取样方向和第二取样方向上，所有数据点在中垂线所对应方向中所包含数据点的平均数量，分别记为第一均值和第二均值，根据第一均值和第二均值获得LOF算法的最优K值；

数据清洗模块：利用LOF算法的最优K值对浏览数据进行数据清洗，获得数据清洗后的浏览数据；

广告营销模块：根据数据清洗后的浏览数据对用户进行广告推荐。

本发明的技术方案的有益效果是：本发明针对大数据广告营销的用户偏好分析过程中，存在由于用户误触、误点、弹窗等导致的异常浏览数据影响用户偏好分析精确度的问题，提出利用LOF算法进行离群检测作为数据清洗方法，由于LOF算法的K值直接影响异常检测结果，本发明通过提取异常浏览数据特征，即浏览时长和局部隶属度，用其构建二维散点图，将浏览数据映射在散点图平面中，根据K值的最优期望，获取第一、第二取样方向，并从两个取样方向中分别获得取样K值，对于取样K值的获取方法，通过对第二取样方向的最大间隔做中垂线作为估测的正常数据和异常数据分割线，过所有正常数据点平行于该中垂线方向上不可能存在异常数据点干扰，因此该方向上的平均正常点数量可以视为理想的取样K值，对两个取样K值进行整合得到最终最优K值，由于该K值由两个取样方向所得，因此既适用于整个浏览数据集，且可以最大程度区别异常数据和正常数据，然后将该超参数K值代入LOF检测过程中，得到较优的异常数据检测结，进而高效清洗异常数据，得到准确的用户偏好分析结果，进行精准的广告营销推送。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明基于大数据的广告精准营销系统的模块流程图；

图2为本发明基于大数据的广告精准营销方法的步骤流程图；

图3为第一取样方向和第二取样方向的示意图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的基于大数据的广告精准营销方法及系统，其具体实施方式、结构、特征及其功效，详细说明如下。在下述说明中，不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外，一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

下面结合附图具体的说明本发明所提供的基于大数据的广告精准营销方法及系统的具体方案。

请参阅图1，其示出了本发明一个实施例提供的基于大数据的广告精准营销系统的模块流程图，该系统包括以下模块：

数据采集模块：利用电商平台的服务器获取用户在使用过程中产生的浏览数据；

数据预处理模块：获取用户浏览内容中关于商品信息的名称、描述、价格以及品牌的文本数据，对提取到的文本数据进行预处理，包括去除特殊字符、标点符号和数字，将大写字母转换为小写字母，合并两个商品网页的所有单词，移除重复项，以创建一个词汇表，并获取数据点之间的商品网页相似度；

数据分析模块：根据数据点按照所生成的时间顺序，在形成的浏览数据序列中，局部范围内数据点之间的商品网页相似度获得数据点的平均余弦相似度，进一步根据平均余弦相似度获得数据点的局部隶属度，利用数据点对应的浏览时长和局部隶属度构建散点图，将浏览时长和局部隶属度分别作为散点图的横轴和纵轴，将浏览数据中所有数据点都映射在散点图中，根据各个方向上相邻数据点之间的欧式距离，将存在欧式距离的最大方差时所对应的方向记为第一取样方向，将存在欧氏距离的最大极差所对应方向记为第二取样方向；根据第二取样方向上欧式距离最大时，对应的两个相邻的数据点所形成的线段的中垂线，获得分别在第一取样方向和第二取样方向上所对应的数据点，分别记为第一数据点和第二数据点，分别获得过第一数据点和第二数据点，且与中垂线平行的直线上，所对应数据点的数量，分别记为第一数量和第二数量，将所有第一数据点的第一数量的均值记为第一均值，将所有第二数据点的第二数量的均值记为第二均值；根据第一均值和第二均值获得LOF算法的最优K值；

数据清洗模块：利用获得的LOF算法的最优K值对浏览数据进行异常因子检测，获取每个数据点的LOF值，根据预设LOF阈值，将浏览数据中大于LOF阈值的数据点进行删除，实现数据清洗；

广告营销模块：利用现有的广告推荐算法，根据数据清洗后用户的浏览数据，向用户进行广告推荐。

进一步的，请参阅图2，其示出了本发明一个实施例提供的基于大数据的广告精准营销方法的步骤流程图，该方法包括以下步骤：

步骤S001，获取用户的相关浏览数据。

针对用户行为分析，则分析的核心数据就是用户在网络平台使用过程中的浏览数据和购买数据，而对于数据清洗而言，用户的购买数据一定是有效数据，因此仅需要对用户的浏览数据进行清洗，利用线上商城平台的服务器获取用户的历史浏览数据的日志文件，用户的浏览数据中，包括浏览时间、浏览时长、浏览内容以及浏览行为；

需要说明的是，浏览时间是指用户在浏览某一个商品时，进入商品页面时所对应的时间；浏览时长是指用户在浏览某一个商品时，从进入商品页面到退出商品页面之间所对应的时长，浏览行为是指用户在浏览某一个商品时，对某一个商品进行购买、收藏或不感兴趣的操作；

需要说明的是，用户的浏览数据中浏览内容包括商品的文本数据和图片数据，其中文本数据为商品的名称、描述、价格以及品牌，图片数据为商品图片；

即用户的浏览数据中任意数据点都对应包含了商品的文本数据和图片数据。

步骤S002，对获取的浏览数据中的商品文本数据进行预处理，并获得商品网页相似度参数。

常规的数据清洗算法是对数据中的缺失值、异常值以及重复值进行删除，或者将转化数据类型、统一数据量纲等，对于用户行为数据分析而言，鉴别真实浏览数据和伪浏览数据对用户购买心理的描摹准确度相当重要。

需要说明的是，所述的真实浏览数据和伪浏览数据为：真实浏览数据为用户自主观看浏览的商品内容所产生的浏览数据，而伪浏览数据是用户在浏览过程中误触进入的商品页面，视为没有分析价值的浏览数据，本实施例中将伪浏览数据归类为异常值，需要对其进行删除。

需要说明的是，局部异常因子算法，即为LOF算法，且LOF算法为现有算法，本实施例中不过多赘述。

常规的LOF算法的K参数存在获取困难的问题，由于没有统一的选取标准，因此常采用设置多个K参数的方法，获取最优的K参数，但同样缺乏依据，当LOF算法的K值设置不恰当，容易影响异常数据的检测结果，很可能会使大部分真实浏览数据被删除掉。

LOF算法的基本原理为：计算每个数据点与其他相邻数据点之间的欧式距离，按照欧式距离对数据点进行排序，序列中任意数据点的第K个相邻的数据点称为K近邻点，计算数据点与对应的K近邻点直线距离为半径的邻域内所有数据点之间的可达距离，然后得到该数据点的局部可达密度，即平均可达距离的倒数，然后根据该数据点的局部可达密度与其K近邻点的局部可达密度比值的平均值得到该数据点的LOF值，LOF值越大的数据点，越可能为异常点。

需要说明的是，在利用LOF算法进行异常点检测时，需要定义度量浏览数据中，数据点之间的距离的特征，由于浏览数据的数据点为离散数据，且数据点之间的时间跨度较大，因此浏览数据在时序上的总的分布特征对分析异常点没有太大意义，但是浏览数据的局部范围内的分布特征可以很好的突出由于用户由于误触和弹窗而出现的异常浏览数据，存在浏览时间短且与近期其他类型浏览商品相关性差的特点，因此对于异常浏览数据，本实施例以浏览数据中数据点所对应的浏览时长T以及局部隶属度两个特征参数来构建距离度量空间。

为了描述浏览数据中异常点相对于其他数据点的突兀性和不相关性特征，需要获取浏览数据中数据点之间的局部相似度，而计算商品网页之间的相似性可以通过文本、图片的相似度进行加权计算；

则商品网页相似度的获取方法为：

步骤（2），利用TF-IDF方法获取每个商品信息中各个单词的权重，记为对应单词的商品信息权重，根据词汇表将任意商品信息中各个单词的商品信息权重，所形成的序列表示为向量形式，记为文本特征向量，将任意两个商品的商品特征向量的余弦相似度，记为文本余弦相似度，以反映两个商品之间商品文本信息的相似性；

步骤（3），利用训练完成的VGG卷积神经网络，获取用户的浏览内容中商品图片的特征向量，记为图片特征向量，将任意两个商品图片对应的图片特征向量之间的余弦相似度，记为图片余弦相似度；

步骤（4），对文本余弦相似度和图片余弦相似度进行加权，以0.5为预设权重，分别赋予给文本余弦相似度和图片余弦相似度，结合预设权重将文本余弦相似度和图片余弦相似度相加，获得任意两个商品的商品网页相似度，记为，表示第a个商品和第b个商品之间的商品网页相似度。

需要说明的是，训练完成的VGG卷积神经网络获取方法为：

步骤S003，根据商品网页相似度获得平均余弦相似度，进一步获取浏览数据的局部隶属度。

步骤（1），将任意一个用户的浏览数据的数据点按照时间顺序进行排列，获得对应的浏览数据序列；

步骤（2），在浏览数据序列上预设一个长度为11的滑动窗口，以任意数据点为滑动窗口的中间点，对浏览数据序列进行逐个遍历，获取中间点在窗口范围内的局部隶属度，包括的步骤为：

首先，将浏览数据序列中作为滑动窗口的中间点的数据点记o，将以数据点o为滑动窗口的中间点时，将滑动窗口中任意一个数据点记为，需要说明的是，可以存在/>的情况，另外，将滑动窗口中除数据点/>以外的数据点记为/>；

获取以第o个数据点为中间点时，滑动窗口范围内第个数据点的平均余弦相似度：

其中，表示以第o个数据点为中间点时，滑动窗口范围内第/>个数据点的平均余弦相似度；/>表示第o个数据点为中间点时，滑动窗口范围内第/>个数据点；/>表示第o个数据点为中间点时，滑动窗口范围内除第/>个数据点以外的第/>个数据点；/>表示第/>个数据点和第/>个数据点之间的商品网页相似度。

平均余弦相似度反映了浏览数据序列中数据点之间在局部范围内的相似性。

然后，利用平均余弦相似度的获取方法，获取以第o个数据点为中间点时，滑动窗口范围内所有数据点的平均余弦相似度，将所有数据点的平均余弦相似度所形成的序列记为第o个数据点的相似度序列，根据平均余弦相似度获取数据点的局部隶属度：

第o个数据点的平均余弦相似度反映了在滑动窗口范围内，第o个数据点与其他浏览数据的数据点之间的相似性，则表示在滑动窗口所对应局部范围内，所有数据点之间平均余弦相似度的最大值，则/>对第o个数据点在浏览数据的局部范围内的相似度进行了量化，由于基于用户的浏览习惯而言，既存在对同类商品的连续浏览行为，即在一段时间内，用户对同一类商品连续多次浏览，也存在离散浏览行为，即用户在不同时间段内，对同一类商品进行了多次浏览，因此仅凭任意两个余弦相似度的大小，并不能直接体现浏览数据中数据点在局部范围内存在异常，故利用最大的平均余弦相似度作为数据点的局部隶属度的量化标准，得到浏览数据中第o个数据点的局部隶属度/>。

步骤S004，利用主成分分析算法获取浏览数据中最大方差方向作为第一取样方向，并根据浏览数据的分布关系获得第二取样方向。

用户的浏览数据中数据点所对应的浏览时长T和局部隶属度，均反映了异常浏览数据的核心特征；

利用数据点的浏览时长T和局部隶属度构建散点图，将浏览时长和局部隶属度分别作为散点图的横轴和纵轴，如图3所示，将浏览数据中所有数据点都映射在散点图中，由于异常的数据点对应的浏览时长T值和/>值均较小，因此必然与散点图的坐标原点之间的欧式距离越近，即聚集在散点图左下角，而浏览数据中正常的数据点分布在散点图的右上部分。

本实施例为了根据散点图中数据点在不同方向上的分布特征，获取LOF算法的最优K值，即使LOF的K值对异常的数据点和正常的数据点的检测效果实现最优化，因此根据散点图中数据点的分布特征获取取样方向：

步骤（1），利用主成分分析算法中的最大方差理论，从散点图的坐标原点出发对散点图的第一象限内，获取任意直线方向上所有相邻数据点的欧式距离，然后获取欧式距离的方差最大时所对应的直线方向，记为散点图的最大方差方向；

最大方差方向上的数据点之间差异最大，且用户的浏览数据中数据点的主成分信息最完整，即可以最大程度反映浏览数据在散点图上的分布特征，最大方差方向上所取的LOF算法的K值理论上是最契合整个浏览数据的，将最大方差方向记为第一取样方向；

第一取样方向的获取方法为：

其中，表示第一取样方向，/>表示以散点图的原点为起点，直线角度为/>时的第v个数据点；/>表示以散点图的原点为起点，直线角度为/>时的第v+1个数据点；max()表示获取最大值；/>表示直线角度为/>时第v个数据点和第v+1个数据点之间的欧式距离；/>表示直线角度为/>时所有相邻数据点欧式距离的方差；表示获取所有直线角度下对应欧式距离的方差的最大值，/>表示获取括号内数值对应的方向角度。

步骤（2），由于第一取样方向并非异常的数据点和正常的数据点之间差异最大的方向，而是所有数据点之间差异最大时所对应的方向，另外还存在一个最大极差方向，即存在一个直线方向上所有相邻数据点的欧式距离对应的极差，是所有的直线方向所对应欧氏距离的极差的最大值；最大极差方向上存在两个相邻的数据点之间的欧式距离，远大于该方向上其他相邻的数据点之间的欧式距离，且最大极差方向上两边的数据点存在各自的聚集区域，将最大极差方向记为第二取样方向；

则第二取样方向获取方法为：

首先，获取第二取样方向因子：

其中，表示第二取样方向因子，/>表示以散点图的原点为起点，直线角度为/>时的第v个数据点；/>表示以散点图的原点为起点，直线角度为/>时的第v+1个数据点；/>表示直线角度为/>时第v个数据点和第v+1个数据点之间的欧式距离；/>表示以散点图的原点为起点，直线角度为/>时，落在直线上第一个数据点到第/>个数据点之间包含数据点的数量；/>表示以散点图的原点为起点，直线角度为/>时，落在直线上第/>数据点到最后一个数据点之间包含数据点的数量；exp()表示以自然常数为底的指数函数。

第一平均距离表示从原点出发，该方向上的第一个数据点至第/>个数据点之间的平均欧式距离，第二平均距离/>表示从第个数据点至赌赢直线方向上最后一个数据点之间的平均欧式距离，第一平均距离和第二平均距离两者越小，则表示对应直线方向上，浏览数据在最大的欧式距离两侧分别聚集分布，最大的欧式距离两侧的平均欧式距离之和越小，则/>值越大。

然后，根据第二取样方向因子获得第二取样方向：

其中，表示以散点图的原点为起点，直线角度为/>时，相邻的数据点之间欧式距离的最大值；/>表示以散点图的原点为起点，直线角度为/>时，所有相邻的数据点之间欧式距离的平均值；/>表示第二取样方向因子；/>表示获取括号内数值对应的方向角度；

越大，最大的欧式距离对应相邻的数据点，在其所在直线方向上的极差相对越大；

表示存在一个直线方向上相邻的数据点之间，欧式距离的极差最大且数据点在两段聚集，该直线方向最符合异常浏览数据和正常浏览数据差异最大，称为第二取样方向。

需要说明的是，第一取样方向和第二取样方向的示意图如图3所示。

步骤S005，根据第一取样方向和第二取样方向上浏览数据的分布数量，获得LOF算法的K值，根据所获取的LOF算法的K值进行离群因子检测，实现数据清洗，并进一步根据清洗后的浏览数据对用户进行广告精准推送。

步骤（1），获取LOF算法的最优K值。

本实施例根据第一取样方向和第二取样方向获取最终取样方向，最终取样方向需要在保留浏览数据的主成分信息的同时，尽可能分割异常的数据点和正常的数据点，则从第一取样方向和第二取样方向上分别获取一个LOF算法的K值。

LOF算法的K值越符合正常数据的分布特征，则越适合用于检测异常的数据点，因此首先在第二取样方向中相邻的数据点之间最大相邻欧式距离处，获取所对应两个数据点所对应线段的中垂线，中垂线将散点图的数据点分为两个部分，其中左下部分的数据点为异常的数据点，右上部分的数据点为正常的数据点，将异常的数据点所形成的集合记为异常数据集，将正常的数据点所形成的集合记为正常数据集；

需要说明的是，利用中垂线将数据点进行分割的结果，并非实际LOF算法进行异常检测的结果，仅作为获取最优LOF算法的K值的预处理手段。

由于第二取样方向所对应的最大相邻欧式距离处的中垂线，将浏览数据大概分割为异常数据集和正常数据集，则认为过任意正常数据点的，平行于中垂线方向上不可能存在异常数据点，即过正常点的一个不存在异常点干扰的方向上，所分布的同为正常数据点数量是理想的LOF算法的K值；

当第二取样方向上相邻的两个数据点之间的欧式距离最大时，获取对应的两个相邻的数据点所形成的线段的中垂线，分别获得在第一取样方向和第二取样方向上所对应的数据点，分别记为第一数据点和第二数据点，第一取样方向和第二取样方向上所对应的数据点都存在若干个，分别获得过第一数据点和第二数据点，且与中垂线平行的直线上，所对应数据点的数量，分别记为第一数量和第二数量，将所有第一数据点的第一数量的均值记为第一均值，将所有第二数据点的第二数量的均值记为第二均值/>；

根据第一均值和第二均值获得LOF算法的最优K值，则LOF算法的最优K值获取方法为：

LOF算法的最优K值可以最大程度适用于总浏览数据集，且可以较好的区分正常、异常数据。

步骤（2），根据LOF算法的最优K值进行异常因子检测，对浏览数据进行数据清洗，根据清洗后的浏览数据，利用现有的广告推荐算法对用户进行广告精准推荐，实现智能营销。

预设LOF阈值为5，当浏览数据中数据点的LOF值大于5时，认为对应的数据点为异常的数据点，将异常的数据点删除，实现对浏览数据的数据清洗；

完成数据清洗过程，将用户浏览数据中因为误点、误触导致异常的数据点进行清除，然后利用现有的广告推荐算法，根据数据清洗后的浏览数据，对用户的购买喜好、习惯进行提取，针对用户偏好，推送相关广告，具体包括的步骤有：

首先，利用TF-IDF算法获取浏览数据和商品中的文本特征向量，利用卷积神经网络获取浏览数据和商品中的图片特征向量，获取浏览数据和商品中的文本特征向量，以及图片特征向量的预选相似度；

然后，结合余弦相似度计算的结果，利用基于内容的推荐算法生成推荐商品列表，利用基于CTR预测的广告投放算法，将推荐列表中的广告进行精准投放，并记录用户的点击率和成交率，以此优化推荐算法的精度和效果。

需要说明的是，本实施例中所用的exp(-x)模型仅用于表示负相关关系和约束模型输出的结果处于区间内，具体实施时，可替换成具有同样目的的其他模型，本实施例只是以exp(-x)模型为例进行叙述，不对其做具体限定，其中x是指该模型的输入。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于大数据的广告精准营销方法，其特征在于，该方法包括以下步骤：

获取用户的浏览数据；

根据数据清洗后的浏览数据对用户进行广告推荐；

其中，所述局部隶属度的获取方法为：

其中，表示第o个数据点的局部隶属度，/>表示以第o个数据点为中间点时，滑动窗口范围内第o个数据点的平均余弦相似度；/>表示第o个数据点的相似度序列；/>表示获取最大值；

其中，所述第一取样方向和第二取样方向的获取方法为：

步骤（3），获取所有直线方向上，所有相邻的数据点的欧氏距离的最大极差所对应的直线方向，记为第二取样方向；

其中，所述LOF算法的最优K值的获取方法为：

2.根据权利要求1所述基于大数据的广告精准营销方法，其特征在于，所述用户的浏览数据的获取方法为：

3.根据权利要求2所述基于大数据的广告精准营销方法，其特征在于，所述商品网页相似度的获取方法为：

4.根据权利要求3所述基于大数据的广告精准营销方法，其特征在于，所述训练完成的卷积神经网络的获取方法为：

5.根据权利要求1所述基于大数据的广告精准营销方法，其特征在于，所述平均余弦相似度的获取方法为：

6.根据权利要求1所述基于大数据的广告精准营销方法，其特征在于，所述根据数据清洗后的浏览数据对用户进行广告推荐，包括的具体步骤如下：

7.基于大数据的广告精准营销系统，采用如权利要求1-6中任意一项所述的基于大数据的广告精准营销方法，其特征在于，该系统包括以下模块：

数据采集模块：获取用户的浏览数据；