CN112288016B - 基于主成分分析算法的渠道反作弊方法、装置和电子设备 - Google Patents

基于主成分分析算法的渠道反作弊方法、装置和电子设备 Download PDF

Info

Publication number
CN112288016B
CN112288016B CN202011191054.2A CN202011191054A CN112288016B CN 112288016 B CN112288016 B CN 112288016B CN 202011191054 A CN202011191054 A CN 202011191054A CN 112288016 B CN112288016 B CN 112288016B
Authority
CN
China
Prior art keywords
channel
dimensional plane
data
point
coordinate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011191054.2A
Other languages
English (en)
Other versions
CN112288016A (zh
Inventor
于洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Qiyue Information Technology Co Ltd
Original Assignee
Shanghai Qiyue Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Qiyue Information Technology Co Ltd filed Critical Shanghai Qiyue Information Technology Co Ltd
Priority to CN202011191054.2A priority Critical patent/CN112288016B/zh
Publication of CN112288016A publication Critical patent/CN112288016A/zh
Application granted granted Critical
Publication of CN112288016B publication Critical patent/CN112288016B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Complex Calculations (AREA)

Abstract

本发明涉及计算机技术领域,具体涉及基于主成分分析算法的渠道反作弊方法、装置和电子设备,对渠道数据特征进行数据降维,将多维数据特征映射到二维平面上的点;对所述二维平面上的点进行转化,计算映射点和转化后的二维平面上的点之间的欧氏距离;对所述欧氏距离进行分区段频数统计,获取异常渠道扣掉的数量。本发明将复杂的数据进行中心化处理,完成高维数据到低维数据的转化,减小数据的复杂程度;通过得到数据的主要成分,舍弃次要成分,降低数据计算的难度;简化了各渠道和标准参考渠道差异化的计算过程,让结果更加显而易见,提升作弊渠道判断的准确性。

Description

基于主成分分析算法的渠道反作弊方法、装置和电子设备
技术领域
本发明涉及计算机技术领域,尤其涉及基于主成分分析算法的渠道反作弊方法、装置和电子设备。
背景技术
现在做的渠道反作弊方法基于投资回报率(return on investment)来判断渠道的欺诈行为,此方法的缺点在于ROI的计算方式需要对每一个特征进行计算,并且没有进行主要成分的提取与分析,使得计算量大,过程繁琐,不能迅速分离主要特征对结果的影响,并且对于渠道作弊数据的敏感性较小,导致不能准确地判断出渠道的作弊行为。
发明内容
本发明提供了基于主成分分析算法的渠道反作弊方法、装置和电子设备,用以降低数据计算的难度,简化了各渠道和标准参考渠道差异化的计算过程,提升作弊渠道判断的准确性。
本说明书实施例提供基于主成分分析算法的渠道反作弊方法,包括:
对渠道数据特征进行数据降维,将多维数据特征映射到二维平面上的点;
对所述二维平面上的点进行转化,计算映射点和转化后的二维平面上的点之间的欧氏距离;
对所述欧氏距离进行分区段频数统计,获取异常渠道扣掉的数量。
优选的,所述对所述二维平面上的点进行转化,包括:
保持原点不动,旋转坐标轴;
将所述二维平面上的点向所述坐标轴做正交分解,当所述二维平面上的点落到Y轴上坐标值之和最小时,停止旋转所述坐标轴;
获取所述二维平面上的点于当前坐标轴位置下X轴上的坐标值。
优选的,所述对所述欧氏距离进行分区段频数统计,包括:
对所述欧氏距离进行区段分割;
对不同区段的数值进行频数统计。
优选的,所述获取异常渠道扣掉的数量,包括:
通过正态分布确定3σ的距离值;
通过所述3σ的距离值判定所述异常渠道;
根据所述异常渠道的坐标点到所述转化后的二维平面上的点的距离,计算所述异常渠道的扣量比例;
根据所述扣量比例计算所述异常渠道扣掉的数量。
优选的,所述对渠道数据特征进行数据降维,包括:
通过主成分分析算法对渠道数据特征进行数据降维。
优选的,所述数据降维为对所述渠道数据特征进行中心化处理,去除冗余信息。
优选的,当所述数据为一维数据时,通过计算一维数据的平均值对所述一维数据进行中心化处理。
本说明书实施例还提供基于主成分分析算法的渠道反作弊装置,其特征在于,包括:
映射模块,对渠道数据特征进行数据降维,将多维数据特征映射到二维平面上的点;
转化模块,对所述二维平面上的点进行转化,计算映射点和转化后的二维平面上的点之间的欧氏距离;
统计模块,对所述欧氏距离进行分区段频数统计,获取异常渠道扣掉的数量。
优选的,所述对所述二维平面上的点进行转化,包括:
保持原点不动,旋转坐标轴;
将所述二维平面上的点向所述坐标轴做正交分解,当所述二维平面上的点落到Y轴上坐标值之和最小时,停止旋转所述坐标轴;
获取所述二维平面上的点于当前坐标轴位置下X轴上的坐标值。
优选的,所述对所述欧氏距离进行分区段频数统计,包括:
对所述欧氏距离进行区段分割;
对不同区段的数值进行频数统计。
优选的,所述获取异常渠道扣掉的数量,包括:
通过正态分布确定3σ的距离值;
通过所述3σ的距离值判定所述异常渠道;
根据所述异常渠道的坐标点到所述转化后的二维平面上的点的距离,计算所述异常渠道的扣量比例;
根据所述扣量比例计算所述异常渠道扣掉的数量。
优选的,所述对渠道数据特征进行数据降维,包括:
通过主成分分析算法对渠道数据特征进行数据降维。
优选的,所述数据降维为对所述渠道数据特征进行中心化处理,去除冗余信息。
优选的,当所述数据为一维数据时,通过计算一维数据的平均值对所述一维数据进行中心化处理。
一种电子设备,其中,该电子设备包括:
处理器以及存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行上述任一项所述的方法。
一种计算机可读存储介质,其中,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被处理器执行时,实现上述任一项所述的方法。
其有益效果在于:
本发明将复杂的数据进行中心化处理,完成高维数据到低维数据的转化,减小数据的复杂程度;通过得到数据的主要成分,舍弃次要成分,降低数据计算的难度;将实际中的渠道特征数据直接转化为二维平面中的点,增加了数据的可解释性;通过计算两点之间的距离,简化了各渠道和标准参考渠道差异化的计算过程,让结果更加显而易见;把作弊问题转化为统计问题进行剖析,确定了渠道扣量的阈值和百分比,提升作弊渠道判断的准确性。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本说明书实施例提供的基于主成分分析算法的渠道反作弊方法的原理示意图;
图2为本说明书实施例提供的基于主成分分析算法的渠道反作弊装置的结构示意图;
图3为本说明书实施例提供的一种电子设备的结构示意图;
图4为本说明书实施例提供的一种计算机可读介质的原理示意图。
具体实施方式
现在将参考附图更全面地描述本发明的示例性实施例。然而,示例性实施例能够以多种形式实施,且不应被理解为本发明仅限于在此阐述的实施例。相反,提供这些示例性实施例能够使得本发明更加全面和完整,更加便于将发明构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的元件、组件或部分,因而将省略对它们的重复描述。
在符合本发明的技术构思的前提下,在某个特定的实施例中描述的特征、结构、特性或其他细节不排除可以以合适的方式结合在一个或更多其他的实施例中。
在对于具体实施例的描述中,本发明描述的特征、结构、特性或其他细节是为了使本领域的技术人员对实施例进行充分理解。但是,并不排除本领域技术人员可以实践本发明的技术方案而没有特定特征、结构、特性或其他细节的一个或更多。
附图中所示的图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
术语“和/或”或者“及/或”包括相关联的列出项目中的任一个或多者的所有组合。
参照图1为本说明书实施例提供的基于主成分分析算法的渠道反作弊方法的原理示意图,包括:
S101:对渠道数据特征进行数据降维,将多维数据特征映射到二维平面上的点;
在本发明较佳的实施例中,通过主成分分析算法计算每一维特征对方差最大的贡献度,对渠道数据特征进行数据降维,并将多维数据特征映射到二维平面上的点。
S102:对所述二维平面上的点进行转化,计算映射点和转化后的二维平面上的点之间的欧氏距离;
在本发明较佳的实施例中,对二维平面上的点进行转化,并计算映射点和转化后的二维平面上的点之间的欧氏距离,根据欧式距离来判断数据的偏离程度,从而得出渠道是否作弊的结果。通过将计算全量的数据特征转化为计算二维平面上的点的距离,将计算量大大的简化;并且在数据降维过程中数据的主要成分被保留,抛弃非必要成分,提高对数据的敏感度。
S103:对所述欧氏距离进行分区段频数统计,获取异常渠道扣掉的数量。
在本发明较佳的实施例中,计算映射点和转化后的二维平面上的点之间的欧氏距后,利用频数统计方法将数据整理成正太分布的形式,从而判断异常渠道,然后再根据距离偏差百分比,精确的给出需要扣掉的数量。
进一步地,所述对所述二维平面上的点进行转化,包括:
保持原点不动,旋转坐标轴;
将所述二维平面上的点向所述坐标轴做正交分解,当所述二维平面上的点落到Y轴上坐标值之和最小时,停止旋转所述坐标轴;
获取所述二维平面上的点于当前坐标轴位置下X轴上的坐标值。
在本发明较佳的实施例中,通过保持原点不动,旋转坐标轴的方法,使得将各点向坐标轴做正交分解落到Y轴上的坐标值最小,这样各点落到X轴就是所需要的主成分,Y轴坐标值就是次要成分,次要成分对结果不会产生太大的影响,所以去掉次要成分,只保留主成分,即最后不保留Y轴的值;将二维平面直接坐标系中的坐标点进行降维计算,并按坐标点落在的象限进行符号的判定,转化后近似得到在坐标轴X上的值。
依照上面的转化结果,我们将各个渠道数据整理成如表1所示:
f1 f2 f3 …… fn
inner
channe 1
channe 2
……
channe n
表1
其中每行(channel)代表一个渠道,每一列是跟业务相关的特征数据,例如注册信息,贷款信息,授信信息等几十维特征。我们选取同等数据维度的内部渠道(inner)作为参考渠道,使用上述的主成分分析方法对所有渠道数据进行降维成二维平面直角坐标系中的点,并使用欧几里得计算公式计算出各点到标准参考点的距离,其中标准参考点为转化后的二维平面上的点。本发明将复杂的数据进行中心化处理,完成高维数据到低维数据的转化,减小数据的复杂程度;通过得到数据的主要成分,舍弃次要成分,降低数据计算的难度;将实际中的渠道特征数据直接转化为二维平面中的点,增加了数据的可解释性;通过计算两点之间的距离,简化了各渠道和标准参考渠道差异化的计算过程,让结果更加显而易见
进一步地,所述对所述欧氏距离进行分区段频数统计,包括:
对所述欧氏距离进行区段分割;
对不同区段的数值进行频数统计。
在本发明较佳的实施例中,根据得到的多个渠道点到标准参考点的距离值,我们再对这些距离值进行分割,对落在不同距离区间的数值进行统计,最终将结果整理成频数统计图,其在频数统计图呈正态分布。
进一步地,所述获取异常渠道扣掉的数量,包括:
通过正态分布确定3σ的距离值;
通过所述3σ的距离值判定所述异常渠道;
根据所述异常渠道的坐标点到所述转化后的二维平面上的点的距离,计算所述异常渠道的扣量比例;
根据所述扣量比例计算所述异常渠道扣掉的数量。
在本发明较佳的实施例中,根据正太分布的公式:
我们计算出该正态分布的均值μ和方差σ2,然后将上面的正态分布曲线划分成(μ-σ,μ+σ),(μ-2.58σ,μ+2.58σ),(μ-3σ,μ+3σ)三个区间,再由正态分布的3σ原则,判断出小概率事件的数值取值,结合频数统计图横坐标的含义,在0——μ-3σ区域说明渠道转化的点距标准参照点之间的距离比较近,所以这部分不应是异常的渠道,所以确定小概率事件区间(μ+3σ,+∞)是我们所要找的作弊的渠道的取值范围,其中标准参考点为转化后的二维平面上的点;我们根据确定的渠道坐标点到标准参考点的距离d(d>μ+3σ)和由正态分布3σ原则确定的小概率事件最低值μ+3σ来计算得出所要进行的渠道扣掉的数量比例,完成对各个有作弊嫌疑的渠道扣掉的数量,公式如下式:
p=(d-(μ+3σ))/d,
其中,p为渠道扣掉的数量比例,d为渠道坐标点到标准参考点的距离d,μ为正态分布的均值,σ为标准差。
本发明把作弊问题转化为统计问题进行剖析,确定了渠道扣量的阈值和百分比,提升作弊渠道判断的准确性。
进一步地,所述对渠道数据特征进行数据降维,包括:
通过主成分分析算法对渠道数据特征进行数据降维。
在本发明较佳的实施例中,使用的主成分分析算法是一种分析、简化数据集,同时保持数据集对方差贡献最大的特征。这是通过保留低阶主成分,忽略高阶主成分做到的。
进一步地,所述数据降维为对所述渠道数据特征进行中心化处理,去除冗余信息。
在本发明较佳的实施例中,通过对渠道数据特征进行中心化处理将数据特征主成分保留,抛弃非必要成分,提高数据的敏感度。
进一步地,当所述数据为一维数据时,通过计算一维数据的平均值对所述一维数据进行中心化处理。
具体的,如表2所示数据:
类别 a b c d e
数值 10 3 6 7 4
表2
对一维数据的中心化其实就是求其平均值:
计算的结果为6,那么现在以坐标6为原点,将上述表2的数值中心化转化成表3所示数据:
类别 a b c d e
数值 4 -1 0 1 -2
表3
中心化之后样本数据自然的被分为2类,一类是小于0的,一类是大于0的。
图2为本说明书实施例提供的基于主成分分析算法的渠道反作弊装置的结构示意图,包括:
映射模块201,对渠道数据特征进行数据降维,将多维数据特征映射到二维平面上的点;
在本发明较佳的实施例中,映射模块201通过主成分分析算法计算每一维特征对方差最大的贡献度,对渠道数据特征进行数据降维,并将多维数据特征映射到二维平面上的点。
转化模块202,对所述二维平面上的点进行转化,计算映射点和转化后的二维平面上的点之间的欧氏距离;
在本发明较佳的实施例中,转化模块202对二维平面上的点进行转化,并计算映射点和转化后的二维平面上的点之间的欧氏距离,根据欧式距离来判断数据的偏离程度,从而得出渠道是否作弊的结果。通过将计算全量的数据特征转化为计算二维平面上的点的距离,将计算量大大的简化;并且在数据降维过程中数据的主要成分被保留,抛弃非必要成分,提高对数据的敏感度。
映射模块201,对所述欧氏距离进行分区段频数统计,获取异常渠道扣掉的数量。
在本发明较佳的实施例中,计算映射点和转化后的二维平面上的点之间的欧氏距后,映射模块201利用频数统计方法将数据整理成正太分布的形式,从而判断异常渠道,然后再根据距离偏差百分比,精确的给出需要扣掉的数量。
进一步地,所述对所述二维平面上的点进行转化,包括:
保持原点不动,旋转坐标轴;
将所述二维平面上的点向所述坐标轴做正交分解,当所述二维平面上的点落到Y轴上坐标值之和最小时,停止旋转所述坐标轴;
获取所述二维平面上的点于当前坐标轴位置下X轴上的坐标值。
进一步地,所述对所述欧氏距离进行分区段频数统计,包括:
对所述欧氏距离进行区段分割;
对不同区段的数值进行频数统计。
进一步地,所述获取异常渠道扣掉的数量,包括:
通过正态分布确定3σ的距离值;
通过所述3σ的距离值判定所述异常渠道;
根据所述异常渠道的坐标点到所述转化后的二维平面上的点的距离,计算所述异常渠道的扣量比例;
根据所述扣量比例计算所述异常渠道扣掉的数量。
进一步地,所述对渠道数据特征进行数据降维,包括:
通过主成分分析算法对渠道数据特征进行数据降维。
进一步地,所述数据降维为对所述渠道数据特征进行中心化处理,去除冗余信息。
进一步地,当所述数据为一维数据时,通过计算一维数据的平均值对所述一维数据进行中心化处理。
本发明将复杂的数据进行中心化处理,完成高维数据到低维数据的转化,减小数据的复杂程度;通过得到数据的主要成分,舍弃次要成分,降低数据计算的难度;将实际中的渠道特征数据直接转化为二维平面中的点,增加了数据的可解释性;通过计算两点之间的距离,简化了各渠道和标准参考渠道差异化的计算过程,让结果更加显而易见;把作弊问题转化为统计问题进行剖析,确定了扣量的阈值和百分比,提升作弊渠道判断的准确性。
基于同一发明构思,本说明书实施例还提供一种电子设备。
下面描述本发明的电子设备实施例,该电子设备可以视为对于上述本发明的方法和装置实施例的具体实体实施方式。对于本发明电子设备实施例中描述的细节,应视为对于上述方法或装置实施例的补充;对于在本发明电子设备实施例中未披露的细节,可以参照上述方法或装置实施例来实现。
参照图3为本说明书实施例提供的一种电子设备的结构示意图。下面参照图3来描述根据本发明该实施例的电子设备300。图3显示的电子设备300仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图3所示,电子设备300以通用计算设备的形式表现。电子设备300的组件可以包括但不限于:至少一个处理单元310、至少一个存储单元320、连接不同装置组件(包括存储单元320和处理单元310)的总线330、显示单元340等。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元310执行,使得所述处理单元310执行本说明书上述处理方法部分中描述的根据本发明各种示例性实施方式的步骤。例如,所述处理单元310可以执行如图1所示的步骤。
所述存储单元320可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)3201和/或高速缓存存储单元3202,还可以进一步包括只读存储单元(ROM)3203。
所述存储单元320还可以包括具有一组(至少一个)程序模块3205的程序/实用工具3204,这样的程序模块3205包括但不限于:操作装置、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线330可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备300也可以与一个或多个外部设备400(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备300交互的设备通信,和/或与使得该电子设备300能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口350进行。并且,电子设备300还可以通过网络适配器360与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器360可以通过总线330与电子设备300的其它模块通信。应当明白,尽管图3中未示出,可以结合电子设备300使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID装置、磁带驱动器以及数据备份存储装置等。
通过以上的实施方式的描述,本领域的技术人员易于理解,本发明描述的示例性实施例可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本发明实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个计算机可读的存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、或者网络设备等)执行根据本发明的上述方法。当所述计算机程序被一个数据处理设备执行时,使得该计算机可读介质能够实现本发明的上述方法,即:如图1所示的方法。
参照图4为本说明书实施例提供的一种计算机可读介质的原理示意图。
实现图1所示方法的计算机程序可以存储于一个或多个计算机可读介质上。计算机可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的装置、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行装置、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
综上所述,本发明可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)等通用数据处理设备来实现根据本发明实施例中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,本发明不与任何特定计算机、虚拟装置或者电子设备固有相关,各种通用装置也可以实现本发明。以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (6)

1.基于主成分分析算法的渠道反作弊方法,其特征在于,包括:
通过主成分分析算法确定每一维特征对方差的贡献度,对渠道数据特征进行数据降维即中心化处理,在中心化处理中保留数据的主要成分,舍弃次要成分,并将多维数据特征映射到二维平面上的点;
对所述二维平面上的点进行转化,计算映射点和转化后的二维平面上的点之间的欧氏距离;其中,对所述二维平面上的点进行转化,包括:保持原点不动,旋转坐标轴;将所述二维平面上的点向所述坐标轴做正交分解,当所述二维平面上的点落到Y轴上坐标值之和最小时,停止旋转所述坐标轴;基于二维平面上的点落在的象限进行符号判定,获取所述二维平面上的点于当前坐标轴位置下X轴上的坐标值;其中,二维平面上的点于当前坐标轴位置下X轴上的坐标值为主要成分,二维平面上的点于当前坐标轴位置下Y轴上的坐标值为次要成分;
对所述欧氏距离进行分区段频数统计,通过正态分布确定3σ的距离值;
当所述3σ的距离值属于异常分区段(μ+3σ,+∞)判定为异常渠道,根据所述异常渠道的坐标点到所述转化后的二维平面上的点的距离计算渠道扣掉的数量比例,计算公式如下:
p=(d-(μ+3σ))/d,其中,p为渠道扣掉的数量比例,d为渠道坐标点到标准参考点的距离d,μ为正态分布的均值,σ为标准差;
根据所述渠道扣掉的数量比例计算所述异常渠道扣掉的数量。
2.如权利要求1所述的基于主成分分析算法的渠道反作弊方法,其特征在于,所述对所述欧氏距离进行分区段频数统计,包括:
对所述欧氏距离进行区段分割;
对不同区段的数值进行频数统计。
3.如权利要求1所述的基于主成分分析算法的渠道反作弊方法,其特征在于,当所述数据为一维数据时,通过计算一维数据的平均值对所述一维数据进行中心化处理。
4.基于主成分分析算法的渠道反作弊装置,其特征在于,包括:
映射模块,通过主成分分析算法确定每一维特征对方差的贡献度,对渠道数据特征进行数据降维即中心化处理,在中心化处理中保留数据的主要成分,舍弃次要成分,并将多维数据特征映射到二维平面上的点;
转化模块,对所述二维平面上的点进行转化,计算映射点和转化后的二维平面上的点之间的欧氏距离;其中,对所述二维平面上的点进行转化,包括:保持原点不动,旋转坐标轴;将所述二维平面上的点向所述坐标轴做正交分解,当所述二维平面上的点落到Y轴上坐标值之和最小时,停止旋转所述坐标轴;基于二维平面上的点落在的象限进行符号判定,获取所述二维平面上的点于当前坐标轴位置下X轴上的坐标值;其中,二维平面上的点于当前坐标轴位置下X轴上的坐标值为主要成分,二维平面上的点于当前坐标轴位置下Y轴上的坐标值为次要成分;
统计模块,对所述欧氏距离进行分区段频数统计,通过正态分布确定3σ的距离值;当所述3σ的距离值属于异常分区段(μ+3σ,+∞)判定为异常渠道,根据所述异常渠道的坐标点到所述转化后的二维平面上的点的距离计算渠道扣掉的数量比例,计算公式如下:
p=(d-(μ+3σ))/d,其中,p为渠道扣掉的数量比例,d为渠道坐标点到标准参考点的距离d,μ为正态分布的均值,σ为标准差;
根据所述渠道扣掉的数量比例计算所述异常渠道扣掉的数量。
5.一种电子设备,其中,该电子设备包括:
处理器以及存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行根据权利要求1-3中任一项所述的方法。
6.一种计算机可读存储介质,其中,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被处理器执行时,实现权利要求1-3中任一项所述的方法。
CN202011191054.2A 2020-10-30 2020-10-30 基于主成分分析算法的渠道反作弊方法、装置和电子设备 Active CN112288016B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011191054.2A CN112288016B (zh) 2020-10-30 2020-10-30 基于主成分分析算法的渠道反作弊方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011191054.2A CN112288016B (zh) 2020-10-30 2020-10-30 基于主成分分析算法的渠道反作弊方法、装置和电子设备

Publications (2)

Publication Number Publication Date
CN112288016A CN112288016A (zh) 2021-01-29
CN112288016B true CN112288016B (zh) 2023-10-31

Family

ID=74352470

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011191054.2A Active CN112288016B (zh) 2020-10-30 2020-10-30 基于主成分分析算法的渠道反作弊方法、装置和电子设备

Country Status (1)

Country Link
CN (1) CN112288016B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106407363A (zh) * 2016-09-08 2017-02-15 电子科技大学 一种基于信息熵的超高维数据降维算法
CN106815452A (zh) * 2015-11-27 2017-06-09 苏宁云商集团股份有限公司 一种作弊检测方法及装置
CN110348715A (zh) * 2019-06-28 2019-10-18 北京淇瑀信息科技有限公司 基于流量指标监测的渠道异常检测方法、装置和电子设备
CN111552004A (zh) * 2020-04-24 2020-08-18 中国地质科学院矿产资源研究所 一种遥感数据角度异常信息提取方法及系统
CN111581046A (zh) * 2020-03-19 2020-08-25 平安科技(深圳)有限公司 数据异常检测方法、装置、电子设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106815452A (zh) * 2015-11-27 2017-06-09 苏宁云商集团股份有限公司 一种作弊检测方法及装置
CN106407363A (zh) * 2016-09-08 2017-02-15 电子科技大学 一种基于信息熵的超高维数据降维算法
CN110348715A (zh) * 2019-06-28 2019-10-18 北京淇瑀信息科技有限公司 基于流量指标监测的渠道异常检测方法、装置和电子设备
CN111581046A (zh) * 2020-03-19 2020-08-25 平安科技(深圳)有限公司 数据异常检测方法、装置、电子设备及存储介质
CN111552004A (zh) * 2020-04-24 2020-08-18 中国地质科学院矿产资源研究所 一种遥感数据角度异常信息提取方法及系统

Also Published As

Publication number Publication date
CN112288016A (zh) 2021-01-29

Similar Documents

Publication Publication Date Title
WO2021184727A1 (zh) 数据异常检测方法、装置、电子设备及存储介质
CN104915327A (zh) 一种文本信息的处理方法及装置
EP3690676A1 (en) Method, apparatus, computer device and storage medium for verifying community question answer data
CN109787960B (zh) 异常流量数据识别方法、装置、介质及电子设备
CN110348715B (zh) 基于流量指标监测的渠道异常检测方法、装置和电子设备
CN113238922B (zh) 一种日志分析方法、装置、电子设备及介质
CN112036515A (zh) 基于smote算法的过采样方法、装置和电子设备
WO2021189830A1 (zh) 样本数据优化方法、装置、设备及存储介质
CN112445775A (zh) 一种光刻机的故障分析方法、装置、设备和存储介质
CN112612887A (zh) 日志处理方法、装置、设备和存储介质
CN110728313A (zh) 一种用于意图分类识别的分类模型训练方法及装置
CN108462624B (zh) 一种垃圾邮件的识别方法、装置以及电子设备
CN112288016B (zh) 基于主成分分析算法的渠道反作弊方法、装置和电子设备
CN116881674B (zh) 医疗器械使用量的预测方法、装置及电子设备
CN111222032B (zh) 舆情分析方法及相关设备
CN109669875B (zh) 应用崩溃测试方法、装置、电子设备及存储介质
CN111125311A (zh) 检验信息归一处理的方法、装置、存储介质及电子设备
CN113780675A (zh) 一种消耗预测方法、装置、存储介质及电子设备
CN113869455A (zh) 无监督聚类方法、装置、电子设备及介质
CN112836747A (zh) 眼动数据的离群处理方法及装置、计算机设备、存储介质
US20050204346A1 (en) Using sampling data for program phase detection
CN116303102B (zh) 测试数据的生成方法、装置、电子设备和存储介质
CN113032564B (zh) 特征提取方法、装置、电子设备以及存储介质
CN112115955A (zh) 数据处理方法、数据处理装置和电子设备
CN113762311A (zh) 一种数据聚类方法、设备和计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant