CN116340396A - 一种多源大数据融合处理系统 - Google Patents

一种多源大数据融合处理系统 Download PDF

Info

Publication number
CN116340396A
CN116340396A CN202310618603.7A CN202310618603A CN116340396A CN 116340396 A CN116340396 A CN 116340396A CN 202310618603 A CN202310618603 A CN 202310618603A CN 116340396 A CN116340396 A CN 116340396A
Authority
CN
China
Prior art keywords
data
data point
data points
distance
advertisement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310618603.7A
Other languages
English (en)
Other versions
CN116340396B (zh
Inventor
华俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Chuhai Digital Technology Co ltd
Original Assignee
Zhejiang Chuhai Digital Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Chuhai Digital Technology Co ltd filed Critical Zhejiang Chuhai Digital Technology Co ltd
Priority to CN202310618603.7A priority Critical patent/CN116340396B/zh
Publication of CN116340396A publication Critical patent/CN116340396A/zh
Application granted granted Critical
Publication of CN116340396B publication Critical patent/CN116340396B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2474Sequence data queries, e.g. querying versioned data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • Strategic Management (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Fuzzy Systems (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Data Mining & Analysis (AREA)
  • Finance (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及商业行销剖析研究领域,具体涉及一种多源大数据融合处理系统,包括数据点获取模块、离群因子获取模块、距离优化因子获取模块、异常数据点提取模块以及投放策略优化模块,其中:根据各个数据点的K距离邻域中任意两个数据点的整体趋势变化程度得到各个广告平台上各个数据点的离群因子;根据单个广告平台与其他广告平台的周期差异程度得到单个广告平台的所有相似广告平台,结合数据点的离群因子得到各个数据点的多源数据优化因子,进而得到各个数据点的距离优化因子以及对应的优化距离值,根据优化距离值得到各个异常数据点,并对广告投放策略进行优化。本发明可以更加准确的异常数据点判断结果,从而得到更好的广告投放效果。

Description

一种多源大数据融合处理系统
技术领域
本发明涉及商业行销剖析研究领域,具体涉及一种多源大数据融合处理系统。
背景技术
在广告投放策略优化的过程中,需要通过同一内容广告在不同广告平台的广告投放数据进行分析,从而在广告整体投放的数据中对投放策略进行优化。不同的广告平台提供的广告投放数据可能存在差异,那么通过多源大数据融合可以将来自不同广告平台的数据整合在一起,从而提供更加全面的数据视角。现有的多源数据采集方法为通过广告平台的API接口,将各个投放平台的广告投放数据抓取到广告商的中央数据仓库。在对中央数据仓库进行广告投放策略分析的过程中,在初步的数据清洗过程后,需要对异常的广告投放数据进行检测,通过使得多源广告投放数据具有准确性以确保数据分析和应用的效果和价值。
因为中央数据仓库具有高数据量的特征,为保证异常检测的效率,现有的对多源广告投放数据的异常数据检测通常使用CBLOF方法(即基于聚类的异常检测方法),其通过多源广告投放数据的中央数据仓库中每个数据点在“曝光量,点击量,成交金额”三个维度上对中央数据仓库中的数据点进行聚类,并通过设定阈值确定中央数据仓库中的大簇/密集区域,之后通过每个数据点与其最近簇类的中心数据点之间的距离作为数据点的异常程度衡量依据。
但是在实际场景中,广告投放数据是具有时序信息的数据,而上述的异常检测过程中,只通过数据点在空间中的分布信息进行异常检测,忽略了广告投放数据的时序信息,即使用现有方法对广告投放数据进行异常检测后,得到的异常检测存在一定的误差,因此在通过三维数值对多源广告投放数据进行异常检测的过程中,需要进一步衡量数据点的多维度时序数据的信息,此外,为了保证多源数据的一致性与准确性,还需要对于一个数据点考虑到同一日期中多个广告平台的广告投放数据,根据广告平台之间的关系对数据点的异常情况进行判断。
发明内容
本发明提供一种多源大数据融合处理系统,以解决现有的问题。
本发明的一种多源大数据融合处理系统采用如下技术方案:
本发明一个实施例提供了一种多源大数据融合处理系统,该系统包括以下模块:
数据点获取模块,获取各个广告平台对应时序数据序列,时序数据序列中的每个数据点均包含三个维度;
离群因子获取模块,以任意一个时序数据序列中的任意一个数据点为目标数据点,将目标数据点在时序数据序列中距离最近的K个数据点构成的集合称为目标数据点的K距离邻域;获取目标数据点的K距离邻域中任意两个数据点的时序跨度集合以及在单个维度上的主趋势,结合K距离邻域中所有数据点得到任意两个数据点的趋势变化程度;根据时序跨度集合中各个数据点之间的趋势变化程度得到任意两个数据点的整体趋势变化程度,结合任意两个数据点的坐标得到任意两个数据点的调整后距离值;根据任意两个数据点的调整后距离值得到目标数据点的离群因子;以各个广告平台上的各个数据点为目标数据点,得到各个广告平台上各个数据点的离群因子;
距离优化因子获取模块,获取各个时序数据序列在各个维度上的季节项;根据单个广告平台与其他广告平台在不同维度上的季节项得到单个广告平台与其他广告平台的周期差异程度;根据周期差异程度得到单个广告平台的所有相似广告平台;根据单个广告平台与所有相似广告平台中对应数据点的离群因子得到单个广告平台中各个数据点的多源数据优化因子,结合各个数据点的离群因子得到各个数据点的距离优化因子;
异常数据点提取模块,根据所有广告平台中所有数据点的坐标得到各个簇类,根据簇类中包含数据点的个数得到各个待分析簇类;根据各个数据点与各个待分析簇类得到各个数据点的异常程度衡量距离,结合各个数据点的距离优化因子得到各个数据点的优化距离值;根据各个数据点的优化距离值得到各个异常数据点;
投放策略优化模块,根据各个异常数据点对广告投放策略进行优化。
优选的,所述任意两个数据点的时序跨度集合以及在单个维度上的主趋势的获取方法为:
将任意两个数据点分别记为第m个数据点与第n个数据点,将第m个数据点、第n个数据点以及在时序数据序列中处于第m、n个数据点之间的所有数据点构成的集合称为任意两个数据点的时序跨度集合;
在单个维度上,当第m个数据点的数值大于第n个数据点的数值时,第m个数据点与第n个数据点的主趋势为“下降”;当第m个数据点的数值小于第n个数据点的数值时,第m个数据点与第n个数据点的主趋势为“上升”;当第m个数据点的数值等于第n个数据点的数值时,第m个数据点与第n个数据点的主趋势为“水平”。
优选的,所述任意两个数据点的趋势变化程度的获取表达式为:
Figure SMS_1
式中,
Figure SMS_2
表示第m个数据点与第n个数据点对应的趋势变化程度;
Figure SMS_3
为第m个数 据点与第n个数据点的时序跨度集合;
Figure SMS_4
表示数据点的第j个维度;
Figure SMS_5
表示在第j个维 度上,时序跨度集合
Figure SMS_6
内相邻数据点的主趋势与第m个数据点和第n个数据点对应的主趋 势相同的组数;
Figure SMS_7
表示第m个数据点与第n个数据点所处的K距离邻域包含的所有数据 点在第j个维度上对应数值之间的方差,
Figure SMS_8
为取绝对值。
优选的,所述任意两个数据点的整体趋势变化程度的获取方法为:
对目标数据点的K距离邻域中所有数据点两两之间的趋势变化程度进行线性归一化,将任意两个数据点的趋势变化程度的归一化结果称为任意两个数据点的整体趋势变化程度。
优选的,所述任意两个数据点的调整后距离值的获取步骤包括:
根据任意两个数据点的坐标得到任意两个数据点的距离;将任意两个数据点的整体趋势变化程度与距离之间的乘积作为任意两个数据点之间的调整后距离值。
优选的,所述单个广告平台与其他广告平台的周期差异程度的获取表达式为:
Figure SMS_9
其中,
Figure SMS_10
为第a个广告平台与第b个广告平台之间的周期差异程度;j表示第j个维 度;
Figure SMS_11
为第a个广告平台在第j个维度上的季节项;
Figure SMS_12
为第b个广告平台在第j个维度上的季 节项;
Figure SMS_13
表示求DTW距离。
优选的,所述单个广告平台中各个数据点的多源数据优化因子的获取表达式为:
Figure SMS_14
其中,
Figure SMS_16
为第a个广告平台上第i个数据点的多源数据优化因子;
Figure SMS_19
表示第a个广 告平台对应的相似广告平台的个数;
Figure SMS_21
表示第a个广告平台中的第
Figure SMS_15
个数据点的离群因 子;
Figure SMS_18
表示第g个相似广告平台中的第
Figure SMS_20
个数据点的离群因子;
Figure SMS_22
表示归一化处理;
Figure SMS_17
表示第a个广告平台中第i个数据点的规律程度。
优选的,所述各个数据点的距离优化因子的获取表达式为:
Figure SMS_23
其中,
Figure SMS_24
为第a个广告平台上第i个数据点的距离优化因子;
Figure SMS_25
表示第a个广告平 台上第i个数据点的多源数据优化因子;
Figure SMS_26
表示第a个广告平台中的第
Figure SMS_27
个数据点的离群 因子;
Figure SMS_28
表示归一化结果。
优选的,所述各个待分析簇类的获取方法为:
对所有广告平台的所有数据点的坐标进行聚类,得到各个簇类;根据各个簇类中 包含数据点的数量从大到小进行排序,按照排序结果将各个簇类的数据点数量进行累加, 当累加结果小于所有广告平台中包含数据点总数的
Figure SMS_29
时,继续对各个簇类的数据点数量 进行累加,直到累加结果大于等于所有广告平台中包含数据点总数的
Figure SMS_30
,将参与数据点 数量累加过程的各个簇类称为各个待分析簇类。
本发明的有益效果是:根据各个数据点的K距离邻域中任意两个数据点的整体趋势变化程度得到各个广告平台上各个数据点的离群因子;根据单个广告平台与其他广告平台的周期差异程度得到单个广告平台的所有相似广告平台,结合数据点的离群因子得到各个数据点的多源数据优化因子,进而得到各个数据点的距离优化因子以及对应的优化距离值,根据优化距离值得到各个异常数据点,并对广告投放策略进行优化;
相较于传统的直接通过数据点到最近簇类的距离作为异常程度衡量的标准,本发明通过中央数据仓库中各个数据点的多维时序特征对传统的CBLOF异常检测进行优化,从而使得在对原有数据点的三维信息进行的异常检测时可以进一步考虑每个数据点在时序上的异常情况,以避免将由行业趋势影响产生的数据点误识别为异常数据点,从而保证异常数据点检测的准确性,进而得到更加可靠的投放策略优化;相较于仅对单个广告投放平台的时序数据进行异常判断,本发明通过综合考虑不同广告平台,即多源数据之间存在的行业趋势影响以及时间关系影响,来获取中央数据仓库中更加准确的异常数据点判断结果,从而根据多平台广告投放之间的关联对广告投放策略进行调整,得到更好的广告投放效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的一种多源大数据融合处理系统的结构框图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种多源大数据融合处理系统,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的一种多源大数据融合处理系统的具体方案。
请参阅图1,其示出了本发明一个实施例提供的一种多源大数据融合处理系统的结构框图,该系统包括以下模块:
S1、数据点获取模块,获取各个广告平台对应时序数据序列,时序数据序列中的每个数据点均包含三个维度。
首先需要确定需要采集的广告平台,同时需要确定需要采集的广告投放数据范围,例如时间范围、地理位置范围、广告类型等;在确定数据源之后,进一步确定对应的数据接口,由于不同广告平台的数据接口可能不同,例如API接口、FTP接口、数据库接口等,需要根据实际情况进行选择;根据确定的数据接口,编写数据采集程序,通过调用相关的数据接口获取广告投放数据;为了确保数据的准确性和一致性,需要对采集的广告投放数据进行数据清洗和转换,利用Python、R等工具,对数据进行清洗、去重、补全、转换等操作;最后将经过数据清洗和转换后的多源广告投放数据进行整合和存储,即将多源广告投放数据整合成一个中央数据仓库,从而进行数据的存储和管理。
通过确定数据源、数据接口和编写数据采集程序,可以采集不同平台的广告投放数据,形成多源广告投放数据的中央数据仓库,而后通过对多源广告投放数据进行数据清洗、转换和整合,将多源广告投放数据进行有效的管理和应用。
S2、离群因子获取模块,以任意一个时序数据序列中的任意一个数据点为目标数据点,获取目标数据点的K距离邻域中任意两个数据点的时序跨度集合以及在单个维度上的主趋势,结合K距离邻域中所有数据点得到任意两个数据点的趋势变化程度;根据时序跨度集合中各个数据点之间的趋势变化程度得到任意两个数据点的整体趋势变化程度,结合任意两个数据点的坐标得到任意两个数据点的调整后距离值;根据任意两个数据点的调整后距离值得到目标数据点的离群因子;以各个广告平台上的各个数据点为目标数据点,得到各个广告平台上各个数据点的离群因子。
对于中央数据仓库中的广告投放数据,在CBLOF对其中的异常投放数据进行检测的过程中,由于该算法只考虑到中央数据仓库中每一个数据点的“曝光量、点击量与成交金额”三个维度的数值。但是对于同一个广告平台,该广告平台上不同广告投放数据之间存在着时序关系,当该广告平台在某一天的数据低靡,虽然属于正常的数据变化,但是CBLOF会将其错误地判断为异常数据。并且,广告投放数据之间存在着关联性,例如随着曝光量的增高,点击量也会随之增高,相应的成交金额也就会越高,因此对于广告投放数据中的异常投放数据进行判断时,就需要考虑到数据点所包含的实际意义之间的异常。
在这个过程中,由于一个广告平台的广告投放数据中数据点的异常情况具有偶然性,只考虑单个平台的异常信息会导致无法进行多元化的投放策略调整,因此在对一个数据点是否异常进行判断时,需要综合多个广告平台的广告投放数据对应的时序数据序列中相应的时序区域来进行多源数据的异常判断。本实施例通过考虑多源数据之间的时序关系以及行业趋势关系,对单个数据点在其所处的时序数据序列中是否异常做出更准确的判断,即本实施例通过时序数据序列的异常情况对CBLOF中的距离做出准确的优化调整,从而准确检测出中央数据仓库中的异常数据点。
将中央数据仓库中的每个广告平台的广告投放数据对应的各个数据点按照采集时间整理为一个时序数据序列,其中每个时序数据序列中的各个数据点均包含三个维度,这三个维度分别表示广告投放数据在一天内的曝光量、点击量以及成交金额,即一个数据点的坐标可以表示为(曝光量,点击量,成交金额);每个广告平台对应一个时序序列;需要说明的是,此处多源大数据即为多个广告平台的广告投放数据。
而后,对时序数据序列中的每一个数据点进行离群检测,但是传统的基于连通性的离群点检测的COF离群因子算法,是通过数据点之间的距离来衡量局部平均链接距离;但是在实际的广告投放数据中,一个数据点对应的是三维时序数据,且三个维度之间存在正相关的关系,因此仅根据数据点之间的距离是无法进行广告投放数据的时序异常检测的。
本实施例通过时序数据序列中数据点之间的整体趋势变化程度对数据点的之间的距离进行校正,并且在数据点寻找SBN路径过程中,对于最小距离的判断需要通过三个维度数据中的最小值来进行。其中,SBN路径为COF离群因子的现有计算过程中的路径选择方法,即从中心数据点开始在该数据点的K距离邻域中进行遍历,每一步都选择路径最小的数据点,所形成的遍历路径即为SBN路径,则以任意一个广告平台对应的时序数据序列为例,具体的分析过程如下:
对于该时序数据序列中的第
Figure SMS_31
个数据点,即以该时序数据序列中的第i个数据点为 目标数据点,此时该第i个数据点即对应COF离群因子算法中的“中心数据点”,首先通过设 定K距离邻域来寻找广告投放数据之间的时间关系,该时间关系即为“周末效应”,因此本实 施例中设置K=7,K的大小可以根据实际使用中所需考虑的时间关系进行设定,如根据季度 变化来进行K距离邻域的数值调整,其中K距离邻域是指:对于一个待判断的数据点,也就是 第i个数据点,将与该待判断的数据点之间在时序上距离最近的K个数据点构成的集合称为 该数据点的K距离邻域,例如,对于该第i个数据点,将从第i-3个数据点到第i+3个数据点构 成的集合称为该第i个数据点的K距离邻域。正常情况下,由于周末效应的存在,将K设置为7 可以及时发现数据点相对于一周内的数据的异常。
对于第i个数据点对应
Figure SMS_32
距离邻域中的任意两个数据点,根据这两个数据点之间的 所有数据点在同一维度上对应数值得到这两个数据点之间的趋势变化程度,然后根据趋势 变化程度进行距离优化,并计算局部平均链接距离;本实施例将任意两个数据点以及这两 个数据点之间的所有数据点构成的集合称为这两个数据点对应的时序跨度集合,根据该时 序跨度集合中所有数据点在不同维度上对应的数值得到这两个数据点对应的趋势变化程 度;
对于第i个数据点的
Figure SMS_33
距离邻域中的第m个数据点与第n个数据点,本实施例将第m 个数据点与第n个数据点对应的时序跨度集合记为
Figure SMS_34
,将第m个数据点与第n个数据点在 同一维度上对应数值的相对大小称为第m个数据点与第n个数据点在对应维度上的主趋势, 也是第m个数据点与第n个数据点形成的数据点对在对应维度上的主趋势;当该第m个数据 点在该维度上对应的数值大于第n个数据点对应的数值时,认为第m个数据点与第n个数据 点的主趋势为“下降”;当第m个数据点对应数值小于第n个数据点对应数值时,认为第m个数 据点与第n个数据点的主趋势为“上升”;当第m个数据点对应数值等于第n个数据点对应数 值时,认为第m个数据点与第n个数据点的主趋势为“水平”;
则该第m个数据点与第n个数据点的趋势变化程度
Figure SMS_35
的计算方式如下:
Figure SMS_36
式中,
Figure SMS_37
表示第m个数据点与第n个数据点对应的趋势变化程度;
Figure SMS_38
为第m个数 据点与第n个数据点对应的时序跨度集合;
Figure SMS_39
表示数据点的第j个维度,每个数据点的第一个 维度为曝光量,第二个维度为点击量,第三个维度为交易金额;
Figure SMS_40
表示在第j个维度 上,时序跨度集合
Figure SMS_41
内相邻数据点的主趋势与第m个数据点和第n个数据点对应的主趋势 相同的组数,本实施例将相邻数据点称为一组数据点;
Figure SMS_42
表示第m个数据点与第n个数 据点所处的K距离邻域包含的所有数据点在第j个维度上对应数值之间的方差;
Figure SMS_43
为取绝对 值;
Figure SMS_44
表示第m个数据点与第n个数据点对应的时序跨度集合中由相邻数据点的 组数,例如,当第m个数据点与第n个数据点之间有一个数据点,对应相邻数据点的组数为2; 当第m个数据点与第n个数据点之间有两个数据点,对应相邻数据点的组数为3,以此类推。
上式中,在第
Figure SMS_45
个维度上,本实施例根据第
Figure SMS_46
个数据点与第
Figure SMS_47
个数据点对应的时序 跨度集合中包含的各个数据点在不同维度上对应数值进行衡量,即当时序跨度集合
Figure SMS_48
的 各组相邻数据点中,与第m个数据点和第n个数据点的主趋势相同的组数越多时,则说明第m 个数据点到第n个数据点的趋势变化越正常,当第m个数据点与第n个数据点对应的主趋势 不一致的组数越多,则说明第m个数据点与第n个数据点在趋势变化上存在异常的可能性越 大,此时需要对第m个数据点与第n个数据点之间的距离计算进行相应的调整,即当第m个数 据点与第n个数据点对应的趋势变化程度越小,表示第m个数据点与第n个数据点在趋势变 化上存在异常的可能性越大,此时这两个数据点之间的距离需要调整得越大,从而在COF离 群因子算法进行路径选取的选取过程中,避免对异常路径进行优先选取的现象出现,即通 过对这两个数据点对应的趋势变化程度对这两个数据点之间的距离进行调整,实现对异常 路径进行最后的选取,进而在局部平均距离的衡量过程中去除异常的干扰,以获取准确的 SBN路径来进行离群因子的衡量。
考虑到两个数据点的趋势变化幅度还存在大小的差异,仅根据这两个数据点的主 趋势之间的差异并不能确定各个数据点的异常程度,所以进一步结合第m个数据点与第n个 数据点所处的
Figure SMS_49
距离邻域中所有像素点在同一维度上对应数值之间的方差进行数值差异 的衡量,从而获取第m个数据点与第n个数据点在单个维度上的趋势变化程度;最后将三个 维度上对应趋势变化程度的均值作为第m个数据点与第n个数据点的趋势变化程度。
同理,获取第i个数据点的K距离邻域中任意两个数据点对应的趋势变化程度;对 所有趋势变化程度进行线性归一化,将任意两个数据点对应的归一化结果称为这两个数据 点的整体趋势变化程度;其中,本实施例将第m个数据点与第n个数据点对应的趋势变化程 度进行线性归一化后的结果称为第m个数据点与第n个数据点的整体趋势变化程度,记为
Figure SMS_50
相较于传统的COF离群因子的计算,本实施例通过整体趋势变化程度进一步优化 两个数据点之间的距离,即对于一个中心数据点与其
Figure SMS_51
距离邻域中的任意一个数据点,仅 通过欧氏距离进行两个数据点的距离衡量忽略了数据点的趋势变化,当一个数据点因为异 常的趋势变化而导致其与中心数据点之间的距离较小时,会导致传统COF离群因子的SBN路 径会优先选取该趋势异常的数据点,进而导致在判断该数据点的离群因子会由于
Figure SMS_52
距离邻 域中的异常数据点而得到异常的判断结果。本实施例通过对两个数据点之间整体趋势变化 程度消除
Figure SMS_53
距离邻域中的趋势异常的数据点的距离影响,后续通过该整体趋势变化程度对 距离校正。
在获取到第i个数据点的
Figure SMS_54
距离邻域中的任意两个数据点之间的整体趋势变化程 度后,本实施例将任意两个数据点之间的距离称为一段路径,而后通过整体趋势变化程度 对任意两个数据点之间的路径距离进行优化,例如,在第i个数据点的K距离邻域中,根据第 m个数据点与第n个数据点之间的坐标以及对应的整体趋势变化程度对第m个数据点与第n 个数据点对应路径的距离进行调整,将这两个数据点的调整后距离值记为
Figure SMS_55
,则:
Figure SMS_56
其中,
Figure SMS_57
表示第m个数据点与第n个数据点对应的调整后距离值;
Figure SMS_58
表 示第m个数据点与第n个数据点坐标之间的距离;
Figure SMS_59
为第m个数据点与第n个数据点对应的 整体趋势变化程度,整体趋势变化程度越大,表示第m个数据点与第n个数据点存在异常的 可能性越小,反之,则表示第m个数据点与第n个数据点存在异常的可能性越大。
通过上述方法,对于第i个数据点的K距离邻域中任意两个数据点,根据这两个数据点的坐标以及对应的整体趋势变化程度对这两个数据点对应路径进行调整,得到第i个数据点的K距离邻域中任意两个数据点对应的调整后距离值;
而后根据第i个数据点的K距离邻域中任意两个数据点对应的调整后距离值确定 第i个数据点对应的SBN路径,具体过程为:从第i个数据点开始,在第i个数据点的K距离邻 域中寻找第i个数据点之间的局部最短路径,即寻找与第i个数据点之间调整后距离值最小 的数据点A形成的路径,然后从该数据点A开始,从K距离邻域中剩余的数据点中寻找与该数 据点A的局部最短路径对应的数据点,依此类推,直到处理完K距离邻域中的所有数据点,此 时得到第i个数据点的最小花费路径,也就是第i个数据点的SBN路径,而后根据第i个数据 点的SBN路径计算第
Figure SMS_60
个数据点的局部平均链接距离,进而获取到第
Figure SMS_61
个数据点在该广告平 台上的基于连通性的离群因子,本实施例将第a个广告平台上第i个数据点的离群因子记为
Figure SMS_62
,使用离群因子表征第i个数据点在该广告平台上的离群程度;其中根据SBN路径获取 局部平均链接距离,进而获取离群因子的过程为公知技术,此处不再赘述。
同理,获取各个广告平台对应的时序数据序列中各个数据点的离群因子。
S3、距离优化因子获取模块,获取各个时序数据序列在各个维度上的季节项;根据单个广告平台与其他广告平台在不同维度上的季节项得到单个广告平台与其他广告平台的周期差异程度;根据周期差异程度得到单个广告平台的所有相似广告平台;根据单个广告平台与所有相似广告平台中对应数据点的离群因子得到单个广告平台中各个数据点的多源数据优化因子,结合各个数据点的离群因子得到各个数据点的距离优化因子。
由于一个广告平台可能存在因整体行业趋势的变化而产生的异常数据点,如广告 限制或是其他因素,因此仅根据单个广告平台对应的时序数据序列对各个数据点进行分析 可能会存在误差,为了让异常数据点的检测更加精确,本实施例根据多个广告平台在同一 天对应的数据点的
Figure SMS_63
距离邻域内包含的数据点的时序信息,得到单个广告平台中的各个数 据点与其他广告平台的对应数据点的周期相似程度,然后根据数据点之间的周期相似程度 实现多源数据融合的异常信息判断。
由于不同广告平台之间在时间上存在着联系,如周末效应,即对于一个数据点来说,在某一特定时间段内,该数据点在其自身的广告平台的时序数据序列中是异常的,但是不同广告平台中广告投放数据具有相同的变化趋势,此时对于多源广告平台而言,该数据点可能是因为行业趋势的变化所产生的异常数据点,但实际上该数据点为正常数据点,所以对于这些数据点,还需要通过不同广告平台上对应数据点来对各个数据点的离群因子进行修正,从而对由行业趋势发生变化所导致的异常数据点的离群因子进行修正,以降低该异常数据点的异常程度。
本实施例根据中央数据仓库中全部广告平台的广告投放数据在时序上的周期信息来确定周期相似性,对于任意一个广告平台,如第a个广告平台,根据该广告平台上所有数据点在同一维度上对应的数值构成的序列进行STL时间序列分解,得到第a个广告平台在单个维度上对应的季节项,则第a个广告平台上的各个数据点所得季节项中对应的数值即为第a个广告平台上各个数据点在该维度上的周期信息分量;此时第a个广告平台上所有数据点的每个维度均对应一个季节项;
对于第a个广告平台,根据该第a个广告平台上各个数据点的周期信息分量与其他 广告平台上对应数据点的周期信息之间的差异得到第a个广告平台与其他广告平台上的周 期相似程度,则在对第a个广告平台上的所有数据点在不同维度上构成的序列分别进行STL 分解后,得到第a个广告平台上每一个数据点在不同维度上对应的周期分量数值,对于第
Figure SMS_64
个广告平台,根据该广告平台与其它广告平台对应数据点的周期信息分量得到该广告平台 与其他广告平台之间的周期相似程度,则第a个广告平台与第b个广告平台之间的周期差异 程度
Figure SMS_65
的计算过程如下:
Figure SMS_66
其中,
Figure SMS_67
为第a个广告平台与第b个广告平台之间的周期差异程度;j表示第j个维 度;
Figure SMS_68
为第a个广告平台在第j个维度上的季节项;
Figure SMS_69
为第b个广告平台在第j个维度上的季 节项;
Figure SMS_70
表示求DTW距离,即季节项
Figure SMS_71
与季节项
Figure SMS_72
之间的DTW距离;
获取第a个广告平台与其他各个广告平台之间的周期差异程度;并对除去第a个广 告平台以外的所有广告平台的周期差异程度进行线性归一化,将归一化后的结果作为第
Figure SMS_73
个平台与对应的广告平台的最终周期差异程度;本实施例通过对各个广告平台分解出的季 节项与其他广告平台在所有维度上对应季节项进行DTW距离的计算,将所得计算结果作为 判断各个广告平台之间周期相似的衡量依据,当两个广告平台在对应维度上的季节项之间 的DTW距离越小,表示两个广告平台之间的周期越相似,对应的周期差异程度越低,反之,则 表示两个广告平台之间的周期越不相似,对应的周期差异程度越高;
然后设置差异程度阈值为
Figure SMS_74
,认为最终周期差异程度大于差异程度阈值的广告 平台认为是与第a个广告平台周期不相似的广告平台;将最终周期差异程度小于等于差异 程度阈值的广告平台认为是与第a个广告平台周期相似的广告平台,以此来获取与第a个广 告平台周期相似的广告平台,将与第a个广告平台周期相似的广告平台称为第a个广告平台 的相似广告平台;对各个广告平台进行处理,得到各个广告平台对应的所有相似广告平台;
根据各个广告平台与对应的相似广告平台进行每个数据点的多源趋势异常判断, 从而消除不同广告平台中的周末效应;当一个广告平台在某一天对应的数据点在其自身的 时序数据序列中表现为异常数据点时,说明该数据点在自身时序数据序列中出现了趋势以 及数值上的异常,但是在多个广告平台中对应的数据点存在着相同的异常情况时,则说明 当天的广告平台受到了行业趋势的影响,该影响属于广告平台的共性事件,所以可以根据 多源广告平台之间的相似性对单个数据点的离群因子进行修正,则对于第a个广告平台,该 广告平台中第i个数据点的多源数据优化因子
Figure SMS_75
的计算方式如下:
Figure SMS_76
其中,
Figure SMS_77
为第a个广告平台上第i个数据点的多源数据优化因子;
Figure SMS_80
表示第a个广 告平台对应的相似广告平台的个数;
Figure SMS_82
表示第a个广告平台中的第
Figure SMS_78
个数据点的离群因 子;
Figure SMS_81
表示第g个相似广告平台中的第
Figure SMS_83
个数据点的离群因子;
Figure SMS_85
表示归一化处理, 此时
Figure SMS_79
表示对第a个广告平台中所有数据点的离群因子进行线性归一化后,第i 个数据点的离群因子对应的归一化结果;
Figure SMS_84
表示对第g个相似广告平台中所有 数据点的离群因子进行线性归一化后,第i个数据点的离群因子对应的归一化结果;
Figure SMS_86
表 示第a个广告平台中第i个数据点的规律程度,该规律程度的获取方法为:首先获取第i个数 据点在第a个广告平台与其对应的相似广告平台上对应的离群因子的信息熵,然后获取各 个数据点在第a个广告平台与其对应的相似广告平台上对应的离群因子的信息熵,对所有 信息熵进行线性归一化处理后,1.0与第a个广告平台的第i个数据点对应的归一化结果之 间的差值称为该第i个数据点的规律程度,通过规律程度来衡量相似广告平台中对应数据 点离群因子的规律性,此时信息熵越小,不同数据点在第a个广告平台与其对应的相似广告 平台上的混乱程度越小,对应的规律程度越大,反之则规律程度越小。
本实施例通过第
Figure SMS_87
个广告平台上第
Figure SMS_88
个数据点与第a个广告平台对应的相似广告平 台中第
Figure SMS_89
个数据点的离群因子进行均值偏离的判断,从而判断第i个数据点在不同广告平台 对应离群因子之间的相似性;并进一步通过第
Figure SMS_90
个广告平台中的第
Figure SMS_91
个数据点在多源平台数 据中的熵值进行混乱程度的计算,从而确定第i个数据点是否存在由不确定因素导致的数 值异常;相较于传统的通过数据点之间的均值进行衡量,本实施例可以根据实际广告投放 数据中的行业整体趋势信息对中央数据仓库中的单个数据点的离群程度进行优化,从而确 定各个数据点在CBLOF的距离衡量过程中的优化因子,进而获得更加准确的异常数据点判 断结果;
对第a个广告平台的各个数据点分别进行处理,得到第a个广告平各个数据点的多 源数据优化因子,而后通过该多源数据优化因子对各个数据点的自身离群因子进行优化, 得到第a个广告平台中,第i个数据点在CBLOF异常检测中的距离优化因子
Figure SMS_92
,则:
Figure SMS_93
其中,
Figure SMS_94
为第a个广告平台上第i个数据点的距离优化因子,
Figure SMS_95
表示第a个广告平 台上第i个数据点的多源数据优化因子;
Figure SMS_96
表示归一化结果;
Figure SMS_97
表示对第a 个广告平台中所有数据点的离群因子进行线性归一化后,第i个数据点的离群因子对应的 归一化结果。
同理,获取各个广告平台中各个数据点的距离优化因子。
S4、异常数据点提取模块,根据所有广告平台中所有数据点的坐标得到各个簇类,根据簇类中包含数据点的个数得到各个待分析簇类;根据各个数据点与各个待分析簇类得到各个数据点的异常程度衡量距离,结合各个数据点的距离优化因子得到各个数据点的优化距离值;根据各个数据点的优化距离值得到各个异常数据点。
在获取到各个数据点在CBLOF异常检测中的距离优化因子后,根据现有的CBLOF方 法对所有广告平台的所有数据点的三维坐标进行聚类,并将簇类数设定为
Figure SMS_98
,其中簇类数为 8是CBLOF算法的默认数量,该值也可以根据实际情况对簇类数进行调整,由此得到单个广 告平台上对应的8个簇类,然后将各个簇类中的数据点数量从大到小进行排序,按照排序结 果将各个簇类的数据点数量进行累加,当累加结果小于所有广告平台中包含数据点总数的
Figure SMS_99
时,继续对各个簇类的数据点数量进行累加,直到累加结果大于等于所有广告平台中 包含数据点总数的
Figure SMS_100
,此时将参与数据点数量累加过程的各个簇类称为各个待分析簇 类;
则对于第a个广告平台上的第i个数据点,当该第i个数据点属于待分析簇类时,将 该数据点与待分析簇类的簇类中心点之间的距离作为异常程度衡量距离,否则将该第i个 数据点与所有待分析簇类的簇类中心点之间的距离的最小值作为异常程度衡量距离;设第 a个广告平台中的第i个数据点的常程度衡量距离为
Figure SMS_101
,根据该数据点的距离优化因子对 该异常程度衡量距离进行优化,得到该数据点的优化距离值,则:
Figure SMS_102
其中,
Figure SMS_103
表示第a个广告平台中第i个数据点的优化距离值;
Figure SMS_104
为第a个广告平台 上第i个数据点的距离优化因子;
Figure SMS_105
为第a个广告平台上第i个数据点的异常程度衡量距 离。
获取各个广告平台上各个数据点的优化距离值,然后对所有广告平台上的所有数据点的优化距离值进行线性归一化,将归一化结果作为各个广告平台上各个数据点的异常程度;
设定异常程度阈值为
Figure SMS_106
,并将异常程度大于异常程度阈值的数据点称为异常数 据点;将异常程度小于等于异常程度阈值的数据点称为正常数据点。通过多源广告投放数 据的时序联系对异常检测结果进行优化,获取到准确的异常投放数据。
S5、投放策略优化模块,根据各个异常数据点对广告投放策略进行优化。
根据异常投放数据的检测结果对广告投放策略进行优化的具体方法如下:
首先需要通过异常投放数据的检测结果,也就是根据各个异常数据点确定出现异常原因,包括投放位置、投放时间、广告素材、目标受众等;
然后根据异常原因,针对性地调整广告投放策略,例如,当异常投放数据是投放位置不合适时,可以考虑调整投放位置或增加投放平台;当异常投放数据是广告素材不吸引人时,可以考虑重新设计广告素材或增加多样化的广告素材等;
此外,异常投放数据的检测结果可以为广告预算的制定提供重要参考,从而重新制定广告预算,通过分析异常投放数据的原因,可以确定哪些广告平台或广告计划的效果不佳,以便调整广告预算的分配,从而将预算重新分配到效果更好的广告平台或广告计划,可以提高广告投放效果和ROI;
为了进一步优化广告投放策略,还可以采用A/B测试方法,其中在A/B测试中,随机选择一部分目标受众进行实验组和对照组的比较,比较两组数据的差异,从而确定哪种广告投放策略效果更好。通过A/B测试,可以快速优化广告投放策略,提高广告投放效果和ROI;
本实施例通过异常投放数据的检测结果,深入了解广告投放的实际效果和潜在问题,针对性地进行优化和调整,从而提高广告投放的效果。需要注意的是,广告投放策略的优化需要结合实际业务需求和数据特点进行选择,以实现更加准确和可靠的广告投放效果。
通过以上步骤,完成了多源大数据的融合处理。
本实施例根据各个数据点的K距离邻域中任意两个数据点的整体趋势变化程度得到各个广告平台上各个数据点的离群因子;根据单个广告平台与其他广告平台的周期差异程度得到单个广告平台的所有相似广告平台,结合数据点的离群因子得到各个数据点的多源数据优化因子,进而得到各个数据点的距离优化因子以及对应的优化距离值,根据优化距离值得到各个异常数据点,并对广告投放策略进行优化;
相较于传统的直接通过数据点到最近簇类的距离作为异常程度衡量的标准,本实施例通过中央数据仓库中各个数据点的多维时序特征对传统的CBLOF异常检测进行优化,从而使得在对原有数据点的三维信息进行的异常检测时可以进一步考虑每个数据点在时序上的异常情况,以避免将由行业趋势影响产生的数据点误识别为异常数据点,从而保证异常数据点检测的准确性,进而得到更加可靠的投放策略优化;相较于仅对单个广告投放平台的时序数据进行异常判断,本实施例通过综合考虑不同广告平台,即多源数据之间存在的行业趋势影响以及时间关系影响,来获取中央数据仓库中更加准确的异常数据点判断结果,从而根据多平台广告投放之间的关联对广告投放策略进行调整,得到更好的广告投放效果。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种多源大数据融合处理系统,其特征在于,该系统包括以下模块:
数据点获取模块,获取各个广告平台对应时序数据序列,时序数据序列中的每个数据点均包含三个维度;
离群因子获取模块,以任意一个时序数据序列中的任意一个数据点为目标数据点,将目标数据点在时序数据序列中距离最近的K个数据点构成的集合称为目标数据点的K距离邻域;获取目标数据点的K距离邻域中任意两个数据点的时序跨度集合以及在单个维度上的主趋势,结合K距离邻域中所有数据点得到任意两个数据点的趋势变化程度;根据时序跨度集合中各个数据点之间的趋势变化程度得到任意两个数据点的整体趋势变化程度,结合任意两个数据点的坐标得到任意两个数据点的调整后距离值;根据任意两个数据点的调整后距离值得到目标数据点的离群因子;以各个广告平台上的各个数据点为目标数据点,得到各个广告平台上各个数据点的离群因子;
距离优化因子获取模块,获取各个时序数据序列在各个维度上的季节项;根据单个广告平台与其他广告平台在不同维度上的季节项得到单个广告平台与其他广告平台的周期差异程度;根据周期差异程度得到单个广告平台的所有相似广告平台;根据单个广告平台与所有相似广告平台中对应数据点的离群因子得到单个广告平台中各个数据点的多源数据优化因子,结合各个数据点的离群因子得到各个数据点的距离优化因子;
异常数据点提取模块,根据所有广告平台中所有数据点的坐标得到各个簇类,根据簇类中包含数据点的个数得到各个待分析簇类;根据各个数据点与各个待分析簇类得到各个数据点的异常程度衡量距离,结合各个数据点的距离优化因子得到各个数据点的优化距离值;根据各个数据点的优化距离值得到各个异常数据点;
投放策略优化模块,根据各个异常数据点对广告投放策略进行优化。
2.根据权利要求1所述的一种多源大数据融合处理系统,其特征在于,所述任意两个数据点的时序跨度集合以及在单个维度上的主趋势的获取方法为:
将任意两个数据点分别记为第m个数据点与第n个数据点,将第m个数据点、第n个数据点以及在时序数据序列中处于第m、n个数据点之间的所有数据点构成的集合称为任意两个数据点的时序跨度集合;
在单个维度上,当第m个数据点的数值大于第n个数据点的数值时,第m个数据点与第n个数据点的主趋势为“下降”;当第m个数据点的数值小于第n个数据点的数值时,第m个数据点与第n个数据点的主趋势为“上升”;当第m个数据点的数值等于第n个数据点的数值时,第m个数据点与第n个数据点的主趋势为“水平”。
3.根据权利要求1所述的一种多源大数据融合处理系统,其特征在于,所述任意两个数据点的趋势变化程度的获取表达式为:
Figure QLYQS_1
式中,
Figure QLYQS_2
表示第m个数据点与第n个数据点对应的趋势变化程度;/>
Figure QLYQS_3
为第m个数据点与第n个数据点的时序跨度集合;/>
Figure QLYQS_4
表示数据点的第j个维度;/>
Figure QLYQS_5
表示在第j个维度上,时序跨度集合/>
Figure QLYQS_6
内相邻数据点的主趋势与第m个数据点和第n个数据点对应的主趋势相同的组数;/>
Figure QLYQS_7
表示第m个数据点与第n个数据点所处的K距离邻域包含的所有数据点在第j个维度上对应数值之间的方差,/>
Figure QLYQS_8
为取绝对值。
4.根据权利要求1所述的一种多源大数据融合处理系统,其特征在于,所述任意两个数据点的整体趋势变化程度的获取方法为:
对目标数据点的K距离邻域中所有数据点两两之间的趋势变化程度进行线性归一化,将任意两个数据点的趋势变化程度的归一化结果称为任意两个数据点的整体趋势变化程度。
5.根据权利要求1所述的一种多源大数据融合处理系统,其特征在于,所述任意两个数据点的调整后距离值的获取步骤包括:
根据任意两个数据点的坐标得到任意两个数据点的距离;将任意两个数据点的整体趋势变化程度与距离之间的乘积作为任意两个数据点之间的调整后距离值。
6.根据权利要求1所述的一种多源大数据融合处理系统,其特征在于,所述单个广告平台与其他广告平台的周期差异程度的获取表达式为:
Figure QLYQS_9
其中,
Figure QLYQS_10
为第a个广告平台与第b个广告平台之间的周期差异程度;j表示第j个维度;
Figure QLYQS_11
为第a个广告平台在第j个维度上的季节项;/>
Figure QLYQS_12
为第b个广告平台在第j个维度上的季节项;/>
Figure QLYQS_13
表示求DTW距离。
7.根据权利要求1所述的一种多源大数据融合处理系统,其特征在于,所述单个广告平台中各个数据点的多源数据优化因子的获取表达式为:
Figure QLYQS_14
其中,
Figure QLYQS_16
为第a个广告平台上第i个数据点的多源数据优化因子;/>
Figure QLYQS_18
表示第a个广告平台对应的相似广告平台的个数;/>
Figure QLYQS_20
表示第a个广告平台中的第/>
Figure QLYQS_15
个数据点的离群因子;
Figure QLYQS_19
表示第g个相似广告平台中的第/>
Figure QLYQS_21
个数据点的离群因子;/>
Figure QLYQS_22
表示归一化处理;/>
Figure QLYQS_17
表示第a个广告平台中第i个数据点的规律程度。
8.根据权利要求1所述的一种多源大数据融合处理系统,其特征在于,所述各个数据点的距离优化因子的获取表达式为:
Figure QLYQS_23
其中,
Figure QLYQS_24
为第a个广告平台上第i个数据点的距离优化因子;/>
Figure QLYQS_25
表示第a个广告平台上第i个数据点的多源数据优化因子;/>
Figure QLYQS_26
表示第a个广告平台中的第/>
Figure QLYQS_27
个数据点的离群因子;/>
Figure QLYQS_28
表示归一化结果。
9.根据权利要求1所述的一种多源大数据融合处理系统,其特征在于,所述各个待分析簇类的获取方法为:
对所有广告平台的所有数据点的坐标进行聚类,得到各个簇类;根据各个簇类中包含数据点的数量从大到小进行排序,按照排序结果将各个簇类的数据点数量进行累加,当累加结果小于所有广告平台中包含数据点总数的
Figure QLYQS_29
时,继续对各个簇类的数据点数量进行累加,直到累加结果大于等于所有广告平台中包含数据点总数的/>
Figure QLYQS_30
,将参与数据点数量累加过程的各个簇类称为各个待分析簇类。
CN202310618603.7A 2023-05-30 2023-05-30 一种多源大数据融合处理系统 Active CN116340396B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310618603.7A CN116340396B (zh) 2023-05-30 2023-05-30 一种多源大数据融合处理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310618603.7A CN116340396B (zh) 2023-05-30 2023-05-30 一种多源大数据融合处理系统

Publications (2)

Publication Number Publication Date
CN116340396A true CN116340396A (zh) 2023-06-27
CN116340396B CN116340396B (zh) 2023-08-04

Family

ID=86880799

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310618603.7A Active CN116340396B (zh) 2023-05-30 2023-05-30 一种多源大数据融合处理系统

Country Status (1)

Country Link
CN (1) CN116340396B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116703534A (zh) * 2023-08-08 2023-09-05 申合信科技集团有限公司 一种电商订单数据智能管理方法
CN116933292A (zh) * 2023-08-17 2023-10-24 华南师范大学 一种用于职称评审的权限认证方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160117720A1 (en) * 2014-10-27 2016-04-28 Tubemogul, Inc. Systems and Methods for Planning and Executing an Advertising Campaign Targeting TV Viewers and Digital Media Viewers Across Formats and Screen Types
CN116090916A (zh) * 2023-04-10 2023-05-09 淄博海草软件服务有限公司 一种企业内部采购资金核算预警系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160117720A1 (en) * 2014-10-27 2016-04-28 Tubemogul, Inc. Systems and Methods for Planning and Executing an Advertising Campaign Targeting TV Viewers and Digital Media Viewers Across Formats and Screen Types
CN116090916A (zh) * 2023-04-10 2023-05-09 淄博海草软件服务有限公司 一种企业内部采购资金核算预警系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
朱利;邱媛媛;于帅;原盛;: "一种基于快速k-近邻的最小生成树离群检测方法", 计算机学报, no. 12 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116703534A (zh) * 2023-08-08 2023-09-05 申合信科技集团有限公司 一种电商订单数据智能管理方法
CN116703534B (zh) * 2023-08-08 2023-10-17 申合信科技集团有限公司 一种电商订单数据智能管理方法
CN116933292A (zh) * 2023-08-17 2023-10-24 华南师范大学 一种用于职称评审的权限认证方法及系统
CN116933292B (zh) * 2023-08-17 2024-01-30 华南师范大学 一种用于职称评审的权限认证方法及系统

Also Published As

Publication number Publication date
CN116340396B (zh) 2023-08-04

Similar Documents

Publication Publication Date Title
CN116340396B (zh) 一种多源大数据融合处理系统
Boschetti et al. Analysis of the conflict between omission and commission in low spatial resolution dichotomic thematic products: The Pareto Boundary
US7197414B2 (en) System and method for identifying a manufacturing tool causing a fault
US6885977B2 (en) System to identify a wafer manufacturing problem and method therefor
CN106157083B (zh) 挖掘潜在客户的方法和装置
RU2006134049A (ru) Способ и устройство для автоматического обнаружения и идентификации сигнала передаваемой аудио- или видеопрограммы
WO2012054339A1 (en) Computer-aided assignment of ratings to digital samples of a manufactured web product
KR20130139287A (ko) 웨브-기반의 재료의 가변성 검출을 위한 불균일성 심각도의 연속 차트화
CN113092981A (zh) 晶圆数据检测方法及系统、存储介质及测试参数调整方法
US7698345B2 (en) Methods and apparatus for fusing databases
US20200327598A1 (en) Method and apparatus for interacting with information distribution system
CN109977299B (zh) 一种融合项目热度和专家系数的推荐算法
US7529790B1 (en) System and method of data analysis
WO2019041764A1 (zh) 团体保费评估的方法、装置、计算机设备及存储介质
US20220129675A1 (en) Information processing apparatus, information processing method, and non-transitory computer-readable storage medium
CN104780353B (zh) 一种图像处理方法及装置
CN115600773B (zh) 一种基于序列模式挖掘的生产路径分析方法及系统
CN109828991B (zh) 一种多时空条件下查询排序方法、装置、设备和存储介质
WO2023184281A9 (zh) 一种检测参数分析方法及装置
US6944561B2 (en) Method for detection of manufacture defects
CN113642541B (zh) 一种基于深度学习的人脸属性识别系统
JP4758619B2 (ja) 問題工程特定方法および装置
CN113506144B (zh) 一种基于人工智能和大数据的服装销售预测方法及系统
US20230076241A1 (en) Object detection systems and methods including an object detection model using a tailored training dataset
CN115034005A (zh) 一种面向构件剩余使用寿命预测的模型分析可视化方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant