CN116340396A

CN116340396A - 一种多源大数据融合处理系统

Info

Publication number: CN116340396A
Application number: CN202310618603.7A
Authority: CN
Inventors: 华俊
Original assignee: Zhejiang Chuhai Digital Technology Co ltd
Current assignee: Zhejiang Chuhai Digital Technology Co ltd
Priority date: 2023-05-30
Filing date: 2023-05-30
Publication date: 2023-06-27
Anticipated expiration: 2043-05-30
Also published as: CN116340396B

Abstract

本发明涉及商业行销剖析研究领域，具体涉及一种多源大数据融合处理系统，包括数据点获取模块、离群因子获取模块、距离优化因子获取模块、异常数据点提取模块以及投放策略优化模块，其中：根据各个数据点的K距离邻域中任意两个数据点的整体趋势变化程度得到各个广告平台上各个数据点的离群因子；根据单个广告平台与其他广告平台的周期差异程度得到单个广告平台的所有相似广告平台，结合数据点的离群因子得到各个数据点的多源数据优化因子，进而得到各个数据点的距离优化因子以及对应的优化距离值，根据优化距离值得到各个异常数据点，并对广告投放策略进行优化。本发明可以更加准确的异常数据点判断结果，从而得到更好的广告投放效果。

Description

一种多源大数据融合处理系统

技术领域

本发明涉及商业行销剖析研究领域，具体涉及一种多源大数据融合处理系统。

背景技术

在广告投放策略优化的过程中，需要通过同一内容广告在不同广告平台的广告投放数据进行分析，从而在广告整体投放的数据中对投放策略进行优化。不同的广告平台提供的广告投放数据可能存在差异，那么通过多源大数据融合可以将来自不同广告平台的数据整合在一起，从而提供更加全面的数据视角。现有的多源数据采集方法为通过广告平台的API接口，将各个投放平台的广告投放数据抓取到广告商的中央数据仓库。在对中央数据仓库进行广告投放策略分析的过程中，在初步的数据清洗过程后，需要对异常的广告投放数据进行检测，通过使得多源广告投放数据具有准确性以确保数据分析和应用的效果和价值。

因为中央数据仓库具有高数据量的特征，为保证异常检测的效率，现有的对多源广告投放数据的异常数据检测通常使用CBLOF方法（即基于聚类的异常检测方法），其通过多源广告投放数据的中央数据仓库中每个数据点在“曝光量，点击量，成交金额”三个维度上对中央数据仓库中的数据点进行聚类，并通过设定阈值确定中央数据仓库中的大簇/密集区域，之后通过每个数据点与其最近簇类的中心数据点之间的距离作为数据点的异常程度衡量依据。

但是在实际场景中，广告投放数据是具有时序信息的数据，而上述的异常检测过程中，只通过数据点在空间中的分布信息进行异常检测，忽略了广告投放数据的时序信息，即使用现有方法对广告投放数据进行异常检测后，得到的异常检测存在一定的误差，因此在通过三维数值对多源广告投放数据进行异常检测的过程中，需要进一步衡量数据点的多维度时序数据的信息，此外，为了保证多源数据的一致性与准确性，还需要对于一个数据点考虑到同一日期中多个广告平台的广告投放数据，根据广告平台之间的关系对数据点的异常情况进行判断。

发明内容

本发明提供一种多源大数据融合处理系统，以解决现有的问题。

本发明的一种多源大数据融合处理系统采用如下技术方案：

本发明一个实施例提供了一种多源大数据融合处理系统，该系统包括以下模块：

数据点获取模块，获取各个广告平台对应时序数据序列，时序数据序列中的每个数据点均包含三个维度；

离群因子获取模块，以任意一个时序数据序列中的任意一个数据点为目标数据点，将目标数据点在时序数据序列中距离最近的K个数据点构成的集合称为目标数据点的K距离邻域；获取目标数据点的K距离邻域中任意两个数据点的时序跨度集合以及在单个维度上的主趋势，结合K距离邻域中所有数据点得到任意两个数据点的趋势变化程度；根据时序跨度集合中各个数据点之间的趋势变化程度得到任意两个数据点的整体趋势变化程度，结合任意两个数据点的坐标得到任意两个数据点的调整后距离值；根据任意两个数据点的调整后距离值得到目标数据点的离群因子；以各个广告平台上的各个数据点为目标数据点，得到各个广告平台上各个数据点的离群因子；

距离优化因子获取模块，获取各个时序数据序列在各个维度上的季节项；根据单个广告平台与其他广告平台在不同维度上的季节项得到单个广告平台与其他广告平台的周期差异程度；根据周期差异程度得到单个广告平台的所有相似广告平台；根据单个广告平台与所有相似广告平台中对应数据点的离群因子得到单个广告平台中各个数据点的多源数据优化因子，结合各个数据点的离群因子得到各个数据点的距离优化因子；

异常数据点提取模块，根据所有广告平台中所有数据点的坐标得到各个簇类，根据簇类中包含数据点的个数得到各个待分析簇类；根据各个数据点与各个待分析簇类得到各个数据点的异常程度衡量距离，结合各个数据点的距离优化因子得到各个数据点的优化距离值；根据各个数据点的优化距离值得到各个异常数据点；

投放策略优化模块，根据各个异常数据点对广告投放策略进行优化。

优选的，所述任意两个数据点的时序跨度集合以及在单个维度上的主趋势的获取方法为：

将任意两个数据点分别记为第m个数据点与第n个数据点，将第m个数据点、第n个数据点以及在时序数据序列中处于第m、n个数据点之间的所有数据点构成的集合称为任意两个数据点的时序跨度集合；

在单个维度上，当第m个数据点的数值大于第n个数据点的数值时，第m个数据点与第n个数据点的主趋势为“下降”；当第m个数据点的数值小于第n个数据点的数值时，第m个数据点与第n个数据点的主趋势为“上升”；当第m个数据点的数值等于第n个数据点的数值时，第m个数据点与第n个数据点的主趋势为“水平”。

优选的，所述任意两个数据点的趋势变化程度的获取表达式为：

式中，

表示第m个数据点与第n个数据点对应的趋势变化程度；

为第m个数据点与第n个数据点的时序跨度集合；

表示数据点的第j个维度；

表示在第j个维度上，时序跨度集合

内相邻数据点的主趋势与第m个数据点和第n个数据点对应的主趋势相同的组数；

表示第m个数据点与第n个数据点所处的K距离邻域包含的所有数据点在第j个维度上对应数值之间的方差，

为取绝对值。

优选的，所述任意两个数据点的整体趋势变化程度的获取方法为：

对目标数据点的K距离邻域中所有数据点两两之间的趋势变化程度进行线性归一化，将任意两个数据点的趋势变化程度的归一化结果称为任意两个数据点的整体趋势变化程度。

优选的，所述任意两个数据点的调整后距离值的获取步骤包括：

根据任意两个数据点的坐标得到任意两个数据点的距离；将任意两个数据点的整体趋势变化程度与距离之间的乘积作为任意两个数据点之间的调整后距离值。

优选的，所述单个广告平台与其他广告平台的周期差异程度的获取表达式为：

其中，

为第a个广告平台与第b个广告平台之间的周期差异程度；j表示第j个维度；

为第a个广告平台在第j个维度上的季节项；

为第b个广告平台在第j个维度上的季节项；

表示求DTW距离。

优选的，所述单个广告平台中各个数据点的多源数据优化因子的获取表达式为：

其中，

为第a个广告平台上第i个数据点的多源数据优化因子；

表示第a个广告平台对应的相似广告平台的个数；

表示第a个广告平台中的第

个数据点的离群因子；

表示第g个相似广告平台中的第

个数据点的离群因子；

表示归一化处理；

表示第a个广告平台中第i个数据点的规律程度。

优选的，所述各个数据点的距离优化因子的获取表达式为：

其中，

为第a个广告平台上第i个数据点的距离优化因子；

表示第a个广告平台上第i个数据点的多源数据优化因子；

表示第a个广告平台中的第

个数据点的离群因子；

表示归一化结果。

优选的，所述各个待分析簇类的获取方法为：

对所有广告平台的所有数据点的坐标进行聚类，得到各个簇类；根据各个簇类中包含数据点的数量从大到小进行排序，按照排序结果将各个簇类的数据点数量进行累加，当累加结果小于所有广告平台中包含数据点总数的

时，继续对各个簇类的数据点数量进行累加，直到累加结果大于等于所有广告平台中包含数据点总数的

，将参与数据点数量累加过程的各个簇类称为各个待分析簇类。

本发明的有益效果是：根据各个数据点的K距离邻域中任意两个数据点的整体趋势变化程度得到各个广告平台上各个数据点的离群因子；根据单个广告平台与其他广告平台的周期差异程度得到单个广告平台的所有相似广告平台，结合数据点的离群因子得到各个数据点的多源数据优化因子，进而得到各个数据点的距离优化因子以及对应的优化距离值，根据优化距离值得到各个异常数据点，并对广告投放策略进行优化；

相较于传统的直接通过数据点到最近簇类的距离作为异常程度衡量的标准，本发明通过中央数据仓库中各个数据点的多维时序特征对传统的CBLOF异常检测进行优化，从而使得在对原有数据点的三维信息进行的异常检测时可以进一步考虑每个数据点在时序上的异常情况，以避免将由行业趋势影响产生的数据点误识别为异常数据点，从而保证异常数据点检测的准确性，进而得到更加可靠的投放策略优化；相较于仅对单个广告投放平台的时序数据进行异常判断，本发明通过综合考虑不同广告平台，即多源数据之间存在的行业趋势影响以及时间关系影响，来获取中央数据仓库中更加准确的异常数据点判断结果，从而根据多平台广告投放之间的关联对广告投放策略进行调整，得到更好的广告投放效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的一种多源大数据融合处理系统的结构框图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的一种多源大数据融合处理系统，其具体实施方式、结构、特征及其功效，详细说明如下。在下述说明中，不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外，一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

下面结合附图具体的说明本发明所提供的一种多源大数据融合处理系统的具体方案。

请参阅图1，其示出了本发明一个实施例提供的一种多源大数据融合处理系统的结构框图，该系统包括以下模块：

S1、数据点获取模块，获取各个广告平台对应时序数据序列，时序数据序列中的每个数据点均包含三个维度。

首先需要确定需要采集的广告平台，同时需要确定需要采集的广告投放数据范围，例如时间范围、地理位置范围、广告类型等；在确定数据源之后，进一步确定对应的数据接口，由于不同广告平台的数据接口可能不同，例如API接口、FTP接口、数据库接口等，需要根据实际情况进行选择；根据确定的数据接口，编写数据采集程序，通过调用相关的数据接口获取广告投放数据；为了确保数据的准确性和一致性，需要对采集的广告投放数据进行数据清洗和转换，利用Python、R等工具，对数据进行清洗、去重、补全、转换等操作；最后将经过数据清洗和转换后的多源广告投放数据进行整合和存储，即将多源广告投放数据整合成一个中央数据仓库，从而进行数据的存储和管理。

通过确定数据源、数据接口和编写数据采集程序，可以采集不同平台的广告投放数据，形成多源广告投放数据的中央数据仓库，而后通过对多源广告投放数据进行数据清洗、转换和整合，将多源广告投放数据进行有效的管理和应用。

S2、离群因子获取模块，以任意一个时序数据序列中的任意一个数据点为目标数据点，获取目标数据点的K距离邻域中任意两个数据点的时序跨度集合以及在单个维度上的主趋势，结合K距离邻域中所有数据点得到任意两个数据点的趋势变化程度；根据时序跨度集合中各个数据点之间的趋势变化程度得到任意两个数据点的整体趋势变化程度，结合任意两个数据点的坐标得到任意两个数据点的调整后距离值；根据任意两个数据点的调整后距离值得到目标数据点的离群因子；以各个广告平台上的各个数据点为目标数据点，得到各个广告平台上各个数据点的离群因子。

对于中央数据仓库中的广告投放数据，在CBLOF对其中的异常投放数据进行检测的过程中，由于该算法只考虑到中央数据仓库中每一个数据点的“曝光量、点击量与成交金额”三个维度的数值。但是对于同一个广告平台，该广告平台上不同广告投放数据之间存在着时序关系，当该广告平台在某一天的数据低靡，虽然属于正常的数据变化，但是CBLOF会将其错误地判断为异常数据。并且，广告投放数据之间存在着关联性，例如随着曝光量的增高，点击量也会随之增高，相应的成交金额也就会越高，因此对于广告投放数据中的异常投放数据进行判断时，就需要考虑到数据点所包含的实际意义之间的异常。

在这个过程中，由于一个广告平台的广告投放数据中数据点的异常情况具有偶然性，只考虑单个平台的异常信息会导致无法进行多元化的投放策略调整，因此在对一个数据点是否异常进行判断时，需要综合多个广告平台的广告投放数据对应的时序数据序列中相应的时序区域来进行多源数据的异常判断。本实施例通过考虑多源数据之间的时序关系以及行业趋势关系，对单个数据点在其所处的时序数据序列中是否异常做出更准确的判断，即本实施例通过时序数据序列的异常情况对CBLOF中的距离做出准确的优化调整，从而准确检测出中央数据仓库中的异常数据点。

将中央数据仓库中的每个广告平台的广告投放数据对应的各个数据点按照采集时间整理为一个时序数据序列，其中每个时序数据序列中的各个数据点均包含三个维度，这三个维度分别表示广告投放数据在一天内的曝光量、点击量以及成交金额，即一个数据点的坐标可以表示为（曝光量，点击量，成交金额）；每个广告平台对应一个时序序列；需要说明的是，此处多源大数据即为多个广告平台的广告投放数据。

而后，对时序数据序列中的每一个数据点进行离群检测，但是传统的基于连通性的离群点检测的COF离群因子算法，是通过数据点之间的距离来衡量局部平均链接距离；但是在实际的广告投放数据中，一个数据点对应的是三维时序数据，且三个维度之间存在正相关的关系，因此仅根据数据点之间的距离是无法进行广告投放数据的时序异常检测的。

本实施例通过时序数据序列中数据点之间的整体趋势变化程度对数据点的之间的距离进行校正，并且在数据点寻找SBN路径过程中，对于最小距离的判断需要通过三个维度数据中的最小值来进行。其中，SBN路径为COF离群因子的现有计算过程中的路径选择方法，即从中心数据点开始在该数据点的K距离邻域中进行遍历，每一步都选择路径最小的数据点，所形成的遍历路径即为SBN路径，则以任意一个广告平台对应的时序数据序列为例，具体的分析过程如下：

对于该时序数据序列中的第

个数据点，即以该时序数据序列中的第i个数据点为目标数据点，此时该第i个数据点即对应COF离群因子算法中的“中心数据点”，首先通过设定K距离邻域来寻找广告投放数据之间的时间关系，该时间关系即为“周末效应”，因此本实施例中设置K=7，K的大小可以根据实际使用中所需考虑的时间关系进行设定，如根据季度变化来进行K距离邻域的数值调整，其中K距离邻域是指：对于一个待判断的数据点，也就是第i个数据点，将与该待判断的数据点之间在时序上距离最近的K个数据点构成的集合称为该数据点的K距离邻域，例如，对于该第i个数据点，将从第i-3个数据点到第i+3个数据点构成的集合称为该第i个数据点的K距离邻域。正常情况下，由于周末效应的存在，将K设置为7 可以及时发现数据点相对于一周内的数据的异常。

对于第i个数据点对应

距离邻域中的任意两个数据点，根据这两个数据点之间的所有数据点在同一维度上对应数值得到这两个数据点之间的趋势变化程度，然后根据趋势变化程度进行距离优化，并计算局部平均链接距离；本实施例将任意两个数据点以及这两个数据点之间的所有数据点构成的集合称为这两个数据点对应的时序跨度集合，根据该时序跨度集合中所有数据点在不同维度上对应的数值得到这两个数据点对应的趋势变化程度；

对于第i个数据点的

距离邻域中的第m个数据点与第n个数据点，本实施例将第m 个数据点与第n个数据点对应的时序跨度集合记为

，将第m个数据点与第n个数据点在同一维度上对应数值的相对大小称为第m个数据点与第n个数据点在对应维度上的主趋势，也是第m个数据点与第n个数据点形成的数据点对在对应维度上的主趋势；当该第m个数据点在该维度上对应的数值大于第n个数据点对应的数值时，认为第m个数据点与第n个数据点的主趋势为“下降”；当第m个数据点对应数值小于第n个数据点对应数值时，认为第m个数据点与第n个数据点的主趋势为“上升”；当第m个数据点对应数值等于第n个数据点对应数值时，认为第m个数据点与第n个数据点的主趋势为“水平”；

则该第m个数据点与第n个数据点的趋势变化程度

的计算方式如下：

式中，

表示第m个数据点与第n个数据点对应的趋势变化程度；

为第m个数据点与第n个数据点对应的时序跨度集合；

表示数据点的第j个维度，每个数据点的第一个维度为曝光量，第二个维度为点击量，第三个维度为交易金额；

表示在第j个维度上，时序跨度集合

内相邻数据点的主趋势与第m个数据点和第n个数据点对应的主趋势相同的组数，本实施例将相邻数据点称为一组数据点；

表示第m个数据点与第n个数据点所处的K距离邻域包含的所有数据点在第j个维度上对应数值之间的方差；

为取绝对值；

表示第m个数据点与第n个数据点对应的时序跨度集合中由相邻数据点的组数，例如，当第m个数据点与第n个数据点之间有一个数据点，对应相邻数据点的组数为2；当第m个数据点与第n个数据点之间有两个数据点，对应相邻数据点的组数为3，以此类推。

上式中，在第

个维度上，本实施例根据第

个数据点与第

个数据点对应的时序跨度集合中包含的各个数据点在不同维度上对应数值进行衡量，即当时序跨度集合

的各组相邻数据点中，与第m个数据点和第n个数据点的主趋势相同的组数越多时，则说明第m 个数据点到第n个数据点的趋势变化越正常，当第m个数据点与第n个数据点对应的主趋势不一致的组数越多，则说明第m个数据点与第n个数据点在趋势变化上存在异常的可能性越大，此时需要对第m个数据点与第n个数据点之间的距离计算进行相应的调整，即当第m个数据点与第n个数据点对应的趋势变化程度越小，表示第m个数据点与第n个数据点在趋势变化上存在异常的可能性越大，此时这两个数据点之间的距离需要调整得越大，从而在COF离群因子算法进行路径选取的选取过程中，避免对异常路径进行优先选取的现象出现，即通过对这两个数据点对应的趋势变化程度对这两个数据点之间的距离进行调整，实现对异常路径进行最后的选取，进而在局部平均距离的衡量过程中去除异常的干扰，以获取准确的 SBN路径来进行离群因子的衡量。

考虑到两个数据点的趋势变化幅度还存在大小的差异，仅根据这两个数据点的主趋势之间的差异并不能确定各个数据点的异常程度，所以进一步结合第m个数据点与第n个数据点所处的

距离邻域中所有像素点在同一维度上对应数值之间的方差进行数值差异的衡量，从而获取第m个数据点与第n个数据点在单个维度上的趋势变化程度；最后将三个维度上对应趋势变化程度的均值作为第m个数据点与第n个数据点的趋势变化程度。

同理，获取第i个数据点的K距离邻域中任意两个数据点对应的趋势变化程度；对所有趋势变化程度进行线性归一化，将任意两个数据点对应的归一化结果称为这两个数据点的整体趋势变化程度；其中，本实施例将第m个数据点与第n个数据点对应的趋势变化程度进行线性归一化后的结果称为第m个数据点与第n个数据点的整体趋势变化程度，记为

。

相较于传统的COF离群因子的计算，本实施例通过整体趋势变化程度进一步优化两个数据点之间的距离，即对于一个中心数据点与其

距离邻域中的任意一个数据点，仅通过欧氏距离进行两个数据点的距离衡量忽略了数据点的趋势变化，当一个数据点因为异常的趋势变化而导致其与中心数据点之间的距离较小时，会导致传统COF离群因子的SBN路径会优先选取该趋势异常的数据点，进而导致在判断该数据点的离群因子会由于

距离邻域中的异常数据点而得到异常的判断结果。本实施例通过对两个数据点之间整体趋势变化程度消除

距离邻域中的趋势异常的数据点的距离影响，后续通过该整体趋势变化程度对距离校正。

在获取到第i个数据点的

距离邻域中的任意两个数据点之间的整体趋势变化程度后，本实施例将任意两个数据点之间的距离称为一段路径，而后通过整体趋势变化程度对任意两个数据点之间的路径距离进行优化，例如，在第i个数据点的K距离邻域中，根据第 m个数据点与第n个数据点之间的坐标以及对应的整体趋势变化程度对第m个数据点与第n 个数据点对应路径的距离进行调整，将这两个数据点的调整后距离值记为

，则：

其中，

表示第m个数据点与第n个数据点对应的调整后距离值；

表示第m个数据点与第n个数据点坐标之间的距离；

为第m个数据点与第n个数据点对应的整体趋势变化程度，整体趋势变化程度越大，表示第m个数据点与第n个数据点存在异常的可能性越小，反之，则表示第m个数据点与第n个数据点存在异常的可能性越大。

通过上述方法，对于第i个数据点的K距离邻域中任意两个数据点，根据这两个数据点的坐标以及对应的整体趋势变化程度对这两个数据点对应路径进行调整，得到第i个数据点的K距离邻域中任意两个数据点对应的调整后距离值；

而后根据第i个数据点的K距离邻域中任意两个数据点对应的调整后距离值确定第i个数据点对应的SBN路径，具体过程为：从第i个数据点开始，在第i个数据点的K距离邻域中寻找第i个数据点之间的局部最短路径，即寻找与第i个数据点之间调整后距离值最小的数据点A形成的路径，然后从该数据点A开始，从K距离邻域中剩余的数据点中寻找与该数据点A的局部最短路径对应的数据点，依此类推，直到处理完K距离邻域中的所有数据点，此时得到第i个数据点的最小花费路径，也就是第i个数据点的SBN路径，而后根据第i个数据点的SBN路径计算第

个数据点的局部平均链接距离，进而获取到第

个数据点在该广告平台上的基于连通性的离群因子，本实施例将第a个广告平台上第i个数据点的离群因子记为

，使用离群因子表征第i个数据点在该广告平台上的离群程度；其中根据SBN路径获取局部平均链接距离，进而获取离群因子的过程为公知技术，此处不再赘述。

同理，获取各个广告平台对应的时序数据序列中各个数据点的离群因子。

S3、距离优化因子获取模块，获取各个时序数据序列在各个维度上的季节项；根据单个广告平台与其他广告平台在不同维度上的季节项得到单个广告平台与其他广告平台的周期差异程度；根据周期差异程度得到单个广告平台的所有相似广告平台；根据单个广告平台与所有相似广告平台中对应数据点的离群因子得到单个广告平台中各个数据点的多源数据优化因子，结合各个数据点的离群因子得到各个数据点的距离优化因子。

由于一个广告平台可能存在因整体行业趋势的变化而产生的异常数据点，如广告限制或是其他因素，因此仅根据单个广告平台对应的时序数据序列对各个数据点进行分析可能会存在误差，为了让异常数据点的检测更加精确，本实施例根据多个广告平台在同一天对应的数据点的

距离邻域内包含的数据点的时序信息，得到单个广告平台中的各个数据点与其他广告平台的对应数据点的周期相似程度，然后根据数据点之间的周期相似程度实现多源数据融合的异常信息判断。

由于不同广告平台之间在时间上存在着联系，如周末效应，即对于一个数据点来说，在某一特定时间段内，该数据点在其自身的广告平台的时序数据序列中是异常的，但是不同广告平台中广告投放数据具有相同的变化趋势，此时对于多源广告平台而言，该数据点可能是因为行业趋势的变化所产生的异常数据点，但实际上该数据点为正常数据点，所以对于这些数据点，还需要通过不同广告平台上对应数据点来对各个数据点的离群因子进行修正，从而对由行业趋势发生变化所导致的异常数据点的离群因子进行修正，以降低该异常数据点的异常程度。

本实施例根据中央数据仓库中全部广告平台的广告投放数据在时序上的周期信息来确定周期相似性，对于任意一个广告平台，如第a个广告平台，根据该广告平台上所有数据点在同一维度上对应的数值构成的序列进行STL时间序列分解，得到第a个广告平台在单个维度上对应的季节项，则第a个广告平台上的各个数据点所得季节项中对应的数值即为第a个广告平台上各个数据点在该维度上的周期信息分量；此时第a个广告平台上所有数据点的每个维度均对应一个季节项；

对于第a个广告平台，根据该第a个广告平台上各个数据点的周期信息分量与其他广告平台上对应数据点的周期信息之间的差异得到第a个广告平台与其他广告平台上的周期相似程度，则在对第a个广告平台上的所有数据点在不同维度上构成的序列分别进行STL 分解后，得到第a个广告平台上每一个数据点在不同维度上对应的周期分量数值，对于第

个广告平台，根据该广告平台与其它广告平台对应数据点的周期信息分量得到该广告平台与其他广告平台之间的周期相似程度，则第a个广告平台与第b个广告平台之间的周期差异程度

的计算过程如下：

其中，

为第a个广告平台在第j个维度上的季节项；

为第b个广告平台在第j个维度上的季节项；

表示求DTW距离，即季节项

与季节项

之间的DTW距离；

获取第a个广告平台与其他各个广告平台之间的周期差异程度；并对除去第a个广告平台以外的所有广告平台的周期差异程度进行线性归一化，将归一化后的结果作为第

个平台与对应的广告平台的最终周期差异程度；本实施例通过对各个广告平台分解出的季节项与其他广告平台在所有维度上对应季节项进行DTW距离的计算，将所得计算结果作为判断各个广告平台之间周期相似的衡量依据，当两个广告平台在对应维度上的季节项之间的DTW距离越小，表示两个广告平台之间的周期越相似，对应的周期差异程度越低，反之，则表示两个广告平台之间的周期越不相似，对应的周期差异程度越高；

然后设置差异程度阈值为

，认为最终周期差异程度大于差异程度阈值的广告平台认为是与第a个广告平台周期不相似的广告平台；将最终周期差异程度小于等于差异程度阈值的广告平台认为是与第a个广告平台周期相似的广告平台，以此来获取与第a个广告平台周期相似的广告平台，将与第a个广告平台周期相似的广告平台称为第a个广告平台的相似广告平台；对各个广告平台进行处理，得到各个广告平台对应的所有相似广告平台；

根据各个广告平台与对应的相似广告平台进行每个数据点的多源趋势异常判断，从而消除不同广告平台中的周末效应；当一个广告平台在某一天对应的数据点在其自身的时序数据序列中表现为异常数据点时，说明该数据点在自身时序数据序列中出现了趋势以及数值上的异常，但是在多个广告平台中对应的数据点存在着相同的异常情况时，则说明当天的广告平台受到了行业趋势的影响，该影响属于广告平台的共性事件，所以可以根据多源广告平台之间的相似性对单个数据点的离群因子进行修正，则对于第a个广告平台，该广告平台中第i个数据点的多源数据优化因子

的计算方式如下：

其中，

为第a个广告平台上第i个数据点的多源数据优化因子；

表示第a个广告平台对应的相似广告平台的个数；

表示第a个广告平台中的第

个数据点的离群因子；

表示第g个相似广告平台中的第

个数据点的离群因子；

表示归一化处理，此时

表示对第a个广告平台中所有数据点的离群因子进行线性归一化后，第i 个数据点的离群因子对应的归一化结果；

表示对第g个相似广告平台中所有数据点的离群因子进行线性归一化后，第i个数据点的离群因子对应的归一化结果；

表示第a个广告平台中第i个数据点的规律程度，该规律程度的获取方法为：首先获取第i个数据点在第a个广告平台与其对应的相似广告平台上对应的离群因子的信息熵，然后获取各个数据点在第a个广告平台与其对应的相似广告平台上对应的离群因子的信息熵，对所有信息熵进行线性归一化处理后，1.0与第a个广告平台的第i个数据点对应的归一化结果之间的差值称为该第i个数据点的规律程度，通过规律程度来衡量相似广告平台中对应数据点离群因子的规律性，此时信息熵越小，不同数据点在第a个广告平台与其对应的相似广告平台上的混乱程度越小，对应的规律程度越大，反之则规律程度越小。

本实施例通过第

个广告平台上第

个数据点与第a个广告平台对应的相似广告平台中第

个数据点的离群因子进行均值偏离的判断，从而判断第i个数据点在不同广告平台对应离群因子之间的相似性；并进一步通过第

个广告平台中的第

个数据点在多源平台数据中的熵值进行混乱程度的计算，从而确定第i个数据点是否存在由不确定因素导致的数值异常；相较于传统的通过数据点之间的均值进行衡量，本实施例可以根据实际广告投放数据中的行业整体趋势信息对中央数据仓库中的单个数据点的离群程度进行优化，从而确定各个数据点在CBLOF的距离衡量过程中的优化因子，进而获得更加准确的异常数据点判断结果；

对第a个广告平台的各个数据点分别进行处理，得到第a个广告平各个数据点的多源数据优化因子，而后通过该多源数据优化因子对各个数据点的自身离群因子进行优化，得到第a个广告平台中，第i个数据点在CBLOF异常检测中的距离优化因子

，则：

其中，

为第a个广告平台上第i个数据点的距离优化因子，

表示第a个广告平台上第i个数据点的多源数据优化因子；

表示归一化结果；

表示对第a 个广告平台中所有数据点的离群因子进行线性归一化后，第i个数据点的离群因子对应的归一化结果。

同理，获取各个广告平台中各个数据点的距离优化因子。

S4、异常数据点提取模块，根据所有广告平台中所有数据点的坐标得到各个簇类，根据簇类中包含数据点的个数得到各个待分析簇类；根据各个数据点与各个待分析簇类得到各个数据点的异常程度衡量距离，结合各个数据点的距离优化因子得到各个数据点的优化距离值；根据各个数据点的优化距离值得到各个异常数据点。

在获取到各个数据点在CBLOF异常检测中的距离优化因子后，根据现有的CBLOF方法对所有广告平台的所有数据点的三维坐标进行聚类，并将簇类数设定为

，其中簇类数为 8是CBLOF算法的默认数量，该值也可以根据实际情况对簇类数进行调整，由此得到单个广告平台上对应的8个簇类，然后将各个簇类中的数据点数量从大到小进行排序，按照排序结果将各个簇类的数据点数量进行累加，当累加结果小于所有广告平台中包含数据点总数的

，此时将参与数据点数量累加过程的各个簇类称为各个待分析簇类；

则对于第a个广告平台上的第i个数据点，当该第i个数据点属于待分析簇类时，将该数据点与待分析簇类的簇类中心点之间的距离作为异常程度衡量距离，否则将该第i个数据点与所有待分析簇类的簇类中心点之间的距离的最小值作为异常程度衡量距离；设第 a个广告平台中的第i个数据点的常程度衡量距离为

，根据该数据点的距离优化因子对该异常程度衡量距离进行优化，得到该数据点的优化距离值，则：

其中，

表示第a个广告平台中第i个数据点的优化距离值；

为第a个广告平台上第i个数据点的距离优化因子；

为第a个广告平台上第i个数据点的异常程度衡量距离。

获取各个广告平台上各个数据点的优化距离值，然后对所有广告平台上的所有数据点的优化距离值进行线性归一化，将归一化结果作为各个广告平台上各个数据点的异常程度；

设定异常程度阈值为

，并将异常程度大于异常程度阈值的数据点称为异常数据点；将异常程度小于等于异常程度阈值的数据点称为正常数据点。通过多源广告投放数据的时序联系对异常检测结果进行优化，获取到准确的异常投放数据。

S5、投放策略优化模块，根据各个异常数据点对广告投放策略进行优化。

根据异常投放数据的检测结果对广告投放策略进行优化的具体方法如下：

首先需要通过异常投放数据的检测结果，也就是根据各个异常数据点确定出现异常原因，包括投放位置、投放时间、广告素材、目标受众等；

然后根据异常原因，针对性地调整广告投放策略，例如，当异常投放数据是投放位置不合适时，可以考虑调整投放位置或增加投放平台；当异常投放数据是广告素材不吸引人时，可以考虑重新设计广告素材或增加多样化的广告素材等；

此外，异常投放数据的检测结果可以为广告预算的制定提供重要参考，从而重新制定广告预算，通过分析异常投放数据的原因，可以确定哪些广告平台或广告计划的效果不佳，以便调整广告预算的分配，从而将预算重新分配到效果更好的广告平台或广告计划，可以提高广告投放效果和ROI；

为了进一步优化广告投放策略，还可以采用A/B测试方法，其中在A/B测试中，随机选择一部分目标受众进行实验组和对照组的比较，比较两组数据的差异，从而确定哪种广告投放策略效果更好。通过A/B测试，可以快速优化广告投放策略，提高广告投放效果和ROI；

本实施例通过异常投放数据的检测结果，深入了解广告投放的实际效果和潜在问题，针对性地进行优化和调整，从而提高广告投放的效果。需要注意的是，广告投放策略的优化需要结合实际业务需求和数据特点进行选择，以实现更加准确和可靠的广告投放效果。

通过以上步骤，完成了多源大数据的融合处理。

本实施例根据各个数据点的K距离邻域中任意两个数据点的整体趋势变化程度得到各个广告平台上各个数据点的离群因子；根据单个广告平台与其他广告平台的周期差异程度得到单个广告平台的所有相似广告平台，结合数据点的离群因子得到各个数据点的多源数据优化因子，进而得到各个数据点的距离优化因子以及对应的优化距离值，根据优化距离值得到各个异常数据点，并对广告投放策略进行优化；

相较于传统的直接通过数据点到最近簇类的距离作为异常程度衡量的标准，本实施例通过中央数据仓库中各个数据点的多维时序特征对传统的CBLOF异常检测进行优化，从而使得在对原有数据点的三维信息进行的异常检测时可以进一步考虑每个数据点在时序上的异常情况，以避免将由行业趋势影响产生的数据点误识别为异常数据点，从而保证异常数据点检测的准确性，进而得到更加可靠的投放策略优化；相较于仅对单个广告投放平台的时序数据进行异常判断，本实施例通过综合考虑不同广告平台，即多源数据之间存在的行业趋势影响以及时间关系影响，来获取中央数据仓库中更加准确的异常数据点判断结果，从而根据多平台广告投放之间的关联对广告投放策略进行调整，得到更好的广告投放效果。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。