CN116760726A

CN116760726A - 一种基于编解码算法的供应商作弊检测方法

Info

Publication number: CN116760726A
Application number: CN202310473664.9A
Authority: CN
Inventors: 谭昌炼; 张青青; 张黎; 李星星
Original assignee: Pioneer Cloud Computing Shanghai Co ltd
Current assignee: Pioneer Cloud Computing Shanghai Co ltd
Priority date: 2023-04-27
Filing date: 2023-04-27
Publication date: 2023-09-15

Abstract

本发明公开了一种基于编解码算法的供应商作弊检测方法，包括：采集节点数据信息；利用互信息计算相关性，基于相关性阈值筛选组合得到组合数据特征；构建图结构，利用GCN对图结构训练得到带宽预测模型，利用模型输出和真实带宽流量的均方误差作为第一损失函数对模型优化，基于优化后的带宽预测模型获取图嵌入表示；将图嵌入表示、数据信息和组合数据特征拼接得到异常预测需求数据；基于业务和对应的折损率阈值划分数据集，利用第一损失函数更新异常检测算法的模型整体损失函数获取异常检测模型；利用异常检测模型检测，对检测结果进行人工误判确认，根据误判结果处理供应商或优化异常检测模型。本发明能应对多样化作弊行为，实现高效作弊检测。

Description

一种基于编解码算法的供应商作弊检测方法

技术领域

本发明属于边缘云技术领域，具体涉及一种基于编解码算法的供应商作弊检测方法。

背景技术

边缘云资源平台主要发挥以下作用：1，管理边缘资源池，为客户提供稳定计算和存储资源，通过分配负载提高性能和可用性；2，提供基于边缘云的数据存储和处理服务，降低延迟，保证数据安全；3，提供数据安全保障，如身份验证、访问控制、加密，确保数据机密性、完整性和可用性，防止恶意代码威胁；4，提供客户支持服务，包括技术支持、培训和咨询，确保客户充分利用资源和服务。基于这些功能，边缘云资源平台可以满足客户在边缘计算场景下的多样化需求。

边缘计算技术使得数据处理更加靠近用户和终端设备，加速了决策，降低了传输成本，增强了数据隐私和安全，随着互联网大量数据的产生，边缘计算技术更加普遍。自动驾驶、泛云游戏、AIGC(AI Generated Content)等应用对计算资源有着不同的需求。例如，自动驾驶需要实时响应，泛云游戏要求高性能图形处理，AIGC则依赖大规模并行计算。边缘云资源可以根据应用需求灵活调度，提升用户体验，优化资源利用。但是边缘设备的资源受限，为满足计算需求，边缘云资源作为资源池应运而生。边缘云通过多设备共享可以提供更大的计算能力和存储容量，满足这些应用在边缘设备的数据处理需求。

为边缘云平台提供服务的供应商，如果想要减少带宽的提供，获得高于实际带宽的收益，可能会采用以下几种方式：1、降低网络质量：供应商可以通过降低网络质量的方式来减少带宽的提供，如限制网络带宽、降低网络速度、增加网络延迟等；2、模拟数据流量：供应商可以通过模拟数据流量的方式来欺骗平台，使其误判带宽的使用情况，从而减少带宽的提供；例如，使用自动化的脚本模拟数据流量，使其看起来像是真实的用户流量，但实际上只是模拟的假数据；资源提供商通过假数据达到了虚报带宽和性能的目的，据此诱导客户购买自己的资源，进而获得更多的收益，但是这会导致客户的任务无法得到有效地处理，这不仅会影响客户的体验，也会损害整个边缘云资源市场的信誉；3、利用技术漏洞：供应商可以利用技术漏洞来绕过平台的监控和检测，从而实现低于上报的带宽。例如，利用代理服务器来隐藏真实的网络带宽，或者使用黑客技术来攻击平台的监控系统，使其无法准确地检测带宽的使用情况。综上，作弊行为可能导致资源滥用、影响服务质量、致使客户数据泄露和产生系统安全风险。供应商作弊也破坏市场公平与透明度，降低客户信任度和满意度，影响平台业务发展与竞争力。因此，边缘云平台应该采取严格的监管和控制措施，防止供应商的作弊行为。

目前，供应商作弊检测主要存在以下问题：1.现有的检测算法准确性不高，目前的作弊检测算法大多基于简单的阈值检测或规则检测，容易受到外界干扰，导致误报或漏报的情况；2.数据获取难度较大，由于供应商可能故意隐瞒数据，不愿意提供完整的资源数据，平台压测可能影响客户服务质量与计费，因此数据获取难度较大，导致检测算法的可行性和有效性受到了限制；3.攻防能力较弱，现有的检测算法在应对供应商恶意行为方面的攻防能力相对较弱，供应商可能通过修改数据或在不同时间段提交不同的数据来规避检测；为了提高攻防能力，现有的检测算法需要进一步优化，并结合实时监测和历史数据分析，以提高对异常行为的识别准确率和有效防范潜在风险；4.泛化能力不足，现有的检测算法可能在应对特定类型的作弊行为方面表现较好，但在遇到新型或未知的作弊行为时，泛化能力不足，难以有效识别和处理；因此，需要研究具有更强泛化能力的检测算法，以便更好地适应不断变化的供应商作弊手段和场景；5.智能化不足，现有的检测算法很大程度上依赖人工设计的特征和规则，这导致检测效果受限于人工经验和专业知识。在面对复杂和多变的供应商作弊行为时，过于依赖人工设计的特征可能无法完全捕捉到潜在的作弊行为。因此，需要发展更智能化的检测算法，能够自动学习和挖掘数据中的隐藏模式和信息，从而提高检测效果和适应性。

发明内容

针对以上问题，本发明提出了一种基于编解码算法的供应商作弊检测方法，可以有效地应对边缘云场景中多样化的资源节点、动态变化的服务需求和数据特征，解决当前供应商作弊检测中存在的问题，提供了一种高效、准确和智能化的作弊检测解决方案，实现了边缘云资源市场的公平和健康发展。为解决以上技术问题，本发明所采用的技术方案如下：

一种基于编解码算法的供应商作弊检测方法，包括如下步骤：

S1，采集个时间段中/>个时间节点下每个边缘云节点的数据信息，所述数据信息均包括节点数据特征和业务数据特征，对所有数据特征进行向量化；

S2，利用互信息计算每条数据信息中的数据特征和该数据特征的作弊状态间的相关性，基于相关性阈值对每条数据信息中的数据特征进行筛选后两两组合得到组合数据特征，基于组合数据特征和步骤S1中的数据信息构建带宽预测需求信息；

S3，根据带宽预测需求信息构建图结构，利用GCN对图结构进行训练得到带宽预测模型，同时利用带宽预测模型的输出和真实带宽流量的均方误差作为第一损失函数对带宽预测模型进行优化，基于优化后的带宽预测模型获取每个边缘云节点的图嵌入表示；

S4，将步骤S3中的图嵌入表示和步骤S2中的带宽预测需求信息进行对应拼接得到每个边缘云节点的异常预测需求数据；

S5，基于业务和该业务对应的折损率阈值将步骤S4中的异常预测需求数据划分为正常集和异常集，利用步骤S3中的第一损失函数对异常检测算法的模型整体损失函数进行更新，对更新模型整体损失函数后的异常检测算法进行训练获取异常检测模型；

S6，收集边缘云节点的最新数据信息利用步骤S5中的异常检测模型进行检测，对检测结果进行人工误判确认，若没有误判则对供应商进行处理，否则基于误判数据更新正常集优化异常检测模型。

所述节点数据特征包括机器ID、供应商、计费类型、节点储备带宽、单线带宽、线路条数、TCP丢包满意度、平均测试带宽、TCP丢包满意度、极限压测满意度、带宽使用率、网络延迟、在线率、在线线路数、节点真实95带宽；

所述业务数据特征包括任务ID、TCP重传率、单线带宽、网络类型、磁盘带宽比、使用率平均。

所述步骤S3包括如下步骤：

S3.1，基于边缘云节点之间信息传输状态计算连通指标，基于连通指标和步骤S2中的带宽预测需求信息构建图结构；

S3.2，利用图卷积神经网络构建训练网络模型；

S3.3，利用训练网络模型对图结构进行训练获取带宽预测模型，同时利用带宽预测模型的输出和真实带宽流量的均方误差作为第一损失函数利用Adam优化器对带宽预测模型进行优化；

S3.4，利用优化后的带宽预测模型获取每个边缘云节点的图嵌入表示。

所述图结构采用G(V，E)表示，V表示顶点也即边缘云节点，E表示边，e_ij∈E，e_ij表示边缘云节点v_i与边缘云节点v_j之间的连通指标，连通指标的计算公式为：

e_ij＝delay_ij*w₁+TCPReTrans_ij*w₂+distance_ij*w₃+ISP_ij*w₄；

式中，delay_ij表示边缘云节点v_i与边缘云节点v_j之间的网络延迟，TCPReTrans_ij表示边缘云节点v_i与边缘云节点v_j之间的TCP重传率，distance_ij表示边缘云节点v_i与边缘云节点v_j之间的距离，ISP_ij表示边缘云节点v_i与边缘云节点v_j之间是否为同一运营商的指示变量，w₁、w₂、w₃、w₄均表示权重。

所述步骤S5包括：

S5.1，基于业务计算每个时间段下每个边缘云节点的总95带宽，基于总95带宽计算边缘云节点基于业务的每个时间段下的折损率，将低于折损率阈值的异常预测需求数据划分为正常集，否则划分为异常集；

所述折损率的计算公式如下：

式中，表示在第m个时间段下边缘云节点i上基于业务c的折损率，/>表示在第m个时间段下边缘云节点i基于业务c的总95带宽，b_m，i表示第m个时间段下边缘云节点i的95带宽；

S5.2，利用人工方法对步骤S5.1中的异常集进行噪声成因分析筛选出非作弊的跑量异常情况加入正常集；

S5.3，基于更新后的正常集和异常集，利用基于第一损失函数更新模型整体损失函数后的Anomaly transformer模型进行训练获取异常检测模型。

所述步骤S6包括如下步骤：

S6.1，将边缘云节点的最新数据信息输入异常检测模型进行检测，输出对应的异常值；

S6.2，基于业务将所有边缘云节点的数据信息进行分组，基于异常值均值分别对分组后的边缘云节点的数据信息进行降序排序，将前个数据信息所对应的供应商作为有作弊风险的供应商发送给边缘云运营平台处理；

S6.3，边缘云运营平台对接收的有作弊风险的供应商进行人工确认，如果确认作弊则按照预设规定对供应商进行处理，否则对接收的有作弊风险的供应商进行误判标注，再将标注后的信息发送给异常检测模型，并执行步骤S6.4；

S6.4，异常检测模型将对应的误判样本加入正常集进行训练以对异常检测模型进行优化。

本发明的有益效果：

1.采用GCN来处理边缘云节点信息，并通过节点嵌入(Node Embedding)的方式来识别不同的资源节点，具体地，利用GCN对节点进行特征提取和表示，并将节点表示作为输入传递给编解码器进行异常检测；通过这种方式，可以在不依赖具体资源节点ID的情况下，仍然可以对不同的资源节点进行准确识别，从而避免供应商通过修改数据或在不同时间段提交不同的数据来规避检测，在提高作弊检测的精度的同时，提高了攻防能力；

2.利用人工标注和自动检测相结合的策略，动态更新训练数据集，确保训练数据的质量和多样性；通过不断加入非作弊样本，模型能够更好地学习正常行为的特征，降低对异常数据的敏感性，提高检测准确性；利用自适应学习策略，模型可以在新的数据和场景下自我调整，实现动态适应和持续优化，提高模型的泛化能力和实用性；引入质量反馈机制，根据模型在实际应用中的表现，对训练数据进行优化和调整，确保模型能够在不断迭代的过程中持续提高性能；

3.结合Anomaly Transiormer算法和关联差异机制的异常检测算法提高了对复杂时序数据的处理能力，同时采用人与数据不断迭代策略提高训练数据集质量和模型性能，可以有效适应不同的边缘云资源场景，更好地应对多样化供应商作弊行为，实现高效作弊检测，有助于提高异常检测准确性，降低误报漏报风险，确保市场公平竞争。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的流程示意图。

图2为训练网络模型的结构示意图。

图3为本申请与其它算法的误判率对比图。

图4为基于业务的带宽流量示意图。

图5为网络共享状态下的带宽流量示意图。

图6为限速情况下的带宽流量示意图。

图7为网络异常情况下的带宽流量示意图。

图8为本发明的学习率的变化过程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

边缘云场景下的供应商作弊是指在提供云计算资源时，供应商通过违反公平竞争原则的多种手段获得不正当竞争优势。网络共享是指供应商在提供虚拟机等云计算资源时，将网络连接共享给多个客户，降低网络带宽质量与稳定性，损害其他客户利益的行为。带宽虚报是指供应商在提供云计算资源时，虚报带宽容量或性能指标，欺骗客户或平台管理员，获得不正当利益的行为。限速是指供应商对某些客户或任务进行限速，以优先满足其他客户或任务的需求，或者为获取更多利润而故意限制客户或任务资源使用的行为。这些行为严重影响了边缘云计算资源市场的公平竞争，损害了其他客户或平台管理员的权益，因此需采取有效技术手段防止和检测供应商的作弊行为。

″Anomaly Transformer：Time Series Anomaly Detection with AssociationDiscrepancy″(ICLR 2022Spotlight)提出的一种基于Transformer的时间序列异常检测算法，该算法利用Transformer的自注意力机制来捕捉时序数据中的复杂模式。同时，引入关联差异度量来评估序列中元素之间的依赖关系异常程度。通过这种结合，AnomalyTransformer能够有效地识别和定位时间序列数据中的异常点。该方法广泛适用于各种领域的异常检测任务，如金融、工业、医疗等，以提高异常识别的准确性和效率。

图卷积网络(GCN)出自Kipf和Welling的论文″Semi-Supervised Classificationwith Graph Convolutional Networks″(2017)，GCN利用图结构的邻接矩阵和节点特征进行卷积操作，提取节点间的信息。应用领域包括节点分类、链接预测、图生成等，广泛应用于社交网络分析、生物信息学和推荐系统等。

异常检测算法：一种识别与正常数据模式显著不同的数据点的方法。常见的方法包括统计方法、机器学习(如聚类、分类)、深度学习(如自编码器、LSTM、Transformer等)，应用领域包括金融欺诈、网络入侵、故障检测等，旨在发现潜在问题，提高系统的安全性和稳定性。

晚95计费：节点收益＝晚95计费点*节点价格P*日有效因子。晚95计费点可以每5分钟取一个点，并记录该点的带宽使用量，因此，一天共有12*24＝288个点，其中，将20：00～23：00之间的36个点，按降序排序，去掉前14(5％*288，四舍五入)个点，取剩下点排序最高的作为晚95计费点，其带宽使用量(单位Mbps)为计费带宽量；日有效因子：有数据的点(统计时在线的点)/计费日所有点(288)；节点价格：根据节点所属价格模式判断。

一种基于编解码算法的供应商作弊检测方法，如图1所示，包括如下步骤：

S1，采集个时间段中/>个时间节点下每个边缘云节点的数据信息，所述数据信息均包括节点数据特征和业务数据特征，包括如下步骤：

S1.1，根据预设时间段和预设时间节点采集每个边缘云节点的节点数据特征以及节点上所运行业务的业务数据特征，基于数据特征构建每个边缘云节点的不同时间下的若干条数据信息；

所述节点数据特征包括节点基础特征和节点统计特征，节点基础特征包括机器ID、供应商、计费类型、节点储备带宽、单线带宽、线路条数、TCP丢包满意度、平均测试带宽、TCP丢包满意度、极限压测满意度、带宽使用率，还可以包括省份、城市、拨号类型、IP地址、CPU核数、内存、磁盘类型大小、线路条数、招募类型、流程状态、运营商、IOPS、单线IOPS；节点统计特征包括网络延迟、在线率、在线线路数、节点真实95带宽，还可以包括带宽使用率、储备带宽波动；此外，所述节点数据特征还可以包括节点监控特征节点，监控特征包括磁盘延迟、断线条数、IP变化错误数、离线次数。

所述业务数据特征包括业务统计特征和业务基础特征，业务基础特征包括任务ID、TCP重传率、单线带宽、网络类型、磁盘带宽比，还可以包括任务名、带宽要求、单线CPU数、单线内存大小、单线SSD数、单线SSD大小、单线磁盘大小；业务统计特征包括使用率平均，还可以包括真实95带宽求和、带宽求和、节点总数、平均上传95带宽。

具体收集时，可以设置为30或者20天等，每一天每隔五分钟或十分钟采集一次，比如/>并设定每天每五分钟采集一次数据，也即每天采集/>个时间节点下的数据特征，即可得到对应于每个边缘云节点的不同时间的8640条数据信息。

S1.2，对步骤S1.1每条数据信息中的所有数据特征进行异常数据清洗；

所述异常数据是指硬件故障数据、供应商异常上下机、空置低跑量时段、特征字段值缺失、特征值异常点等。在实现供应商带宽作弊检测中，通过对带宽相关数据进行专门的清洗(均值补充或删除)，可以消除带宽使用量的异常波动等，比如切换任务后起量前导致的节点无跑量的数据应该删除。

S1.3，根据数据类型对清洗后每条数据信息中的数据特征进行特征转换以使数据特征向量化；

所述数据类型包括数值型和非数值型也即类型，类型特征比如城市、运营商等可以采用one-hot编码、multi-hot编码、向量化等技术手段，数值型特征比如节点带宽、单线带宽等可以采用归一化、分桶、one-hot编码或向量化等技术手段。

S2，利用互信息计算每条数据信息中的数据特征和该数据特征的作弊状态间的相关性，基于相关性阈值对每条数据信息中的数据特征进行筛选后两两组合构建带宽预测需求信息；

S2.1，根据预设时间段内的95带宽流量对每条数据信息中的每个数据特征进行作弊状态的人工标注；

所述作弊状态是指边缘云节点的供应商在带宽提供方面是否有进行作弊，比如将预设时间段内的95带宽流量进行统计后，将采用带宽压测工具测到的带宽和统计后的带宽进行比较，若压测带宽远小于统计带宽，比如，压测带宽小于供应商上报带宽的80％，则认定该预设时间段内供应商作弊。

S2.2利用互信息计算每条数据信息中的每个数据特征与作弊状态之间的相关性，筛选出相关性大于相关性阈值的数据特征进行两两组合得到组合数据特征；

互信息计算时，对于连续型特征也即数值型特征，先分桶，对于离散特征也即类型特征则不用分桶，然后计算特征X与是否作弊目标Y的互信息，每个时间节点为一条数据(X，Y)。互信息计算公式为：

I(X，Y)＝∑∑P(X，Y)log(P(X，Y)/(P(X)P(Y)))；

本申请中所筛选出的数据特征包括供应商、节点储备带宽、单线带宽、平均测试带宽、极限压测满意度、TCP丢包满意度、节点真实95带宽、网络延迟、在线率。两两组合时连续型特征需要分桶，例如，将供应商、节点储备带宽组合成一个新的特征。

S2.3，将步骤S1得到的每条数据信息中的数据特征和步骤S2.2中的对应的组合数据特征进行特征拼接得到带宽预测需求信息；

所述带宽预测需求信息采用f_i表示，f_i＝Concat(f₁，f₂，...f_m)，f_i表示第i个边缘云节点的节点特征，m表示边缘云节点的特征总数。

S3，根据带宽预测需求信息构建图结构，利用GCN对图结构进行训练得到带宽预测模型，同时利用带宽预测模型的输出和真实带宽流量的均方误差作为第一损失函数对带宽预测模型进行优化，基于优化后的带宽预测模型获取每个边缘云节点的图嵌入表示，包括如下步骤：

图结构采用G(V，E)表示，V表示顶点也即边缘云节点，V＝{v₁，v₂，...v_n)，v_n表示第n个边缘云节点，n表示边缘云节点数目，E表示边，e_ij∈E，e_ij表示边缘云节点v_i与边缘云节点v_j之间的连通指标，所述连通指标通过加权计算得到，对应的计算公式为：

e_ij＝delay_ij*w₁+TCPReTrans_ij*w₂+distance_ij*w₃+ISP_ij*w₄；

式中，e_ij表示边缘云节点v_i与边缘云节点v_j之间的连通指标，delay_ij表示边缘云节点v_i与边缘云节点v_j之间的网络延迟，TCPReTrans_ij表示边缘云节点v_i与边缘云节点v_j之间的TCP重传率，distance_ij表示边缘云节点v_i与边缘云节点v_j之间的距离，ISP_ij表示边缘云节点v_i与边缘云节点v_j之间是否为同一运营商的指示变量，当边缘云节点v_i与边缘云节点v_j为同一运营商时其值为0，否则为1，w₁、w₂、w₃、w₄均表示权重。边缘云节点v_i与边缘云节点v_j之间的网络延迟、TCP重传率、距离通过预先数据采集得到。

S3.2，利用GCN(Graph Convolutional Network，图卷积神经网络)构建训练网络模型；

如图2所示，所述训练网络模型包括依次连接的输入层、第一图卷积层、第一激活函数层、第二图卷积层、第二激活函数层、池化层和输出层。图卷积层用于局部卷积操作以捕捉节点间的依赖关系，在图卷积层之后，添加适当的激活函数，如ReLU、tanh，以增加模型的非线性表达能力，池化层可以降低特征维度并减少计算复杂度，池化层的输入作为节点嵌入表示，用于后续的作弊检测任务。输出层输出预测的节点各时间点的带宽流量，用于计算辅助第一损失函数。此为现有技术本申请不再详述。

所述第一损失函数的计算公式为：

式中，表示真实带宽流量，U_t表示带宽预测模型输出的带宽预测值。具体地，可以设置每五分钟预测一次并测量一次真实带宽以对模型进行优化。本申请中所说的带宽流量均指95带宽流量。

S3.4，利用优化后的带宽预测模型获取每个边缘云节点的图嵌入表示；

将带宽预测需求信息重新输入优化后的带宽预测模型中，截取第二图卷积层的输出作为边缘云节点的图嵌入表示e_i，且e_i∈E^d，E^d表示d维的向量空间E。

F：f→E^d；

式中，F表示图嵌入映射函数，f表示带宽预测需求信息。

本申请首次在边缘云节点的供应商作弊检测问题中引入GCN网络，相较与已有检测算法中只使用单个节点的信息进行作弊检测的算法，GCN神经网络能够综合连通指标维度上近邻的网络节点，监测到区域类流量剧烈抖动导致的网络异常，降低异常检测算法的噪声输入。为了适用于边缘云节点，本申请重新定义了适用度量节点距离的连通指标，更加合理地定义了资源调度上的远近。如图3所示，从实验指标上可以看到，采用GCN的节点嵌入作为输入后，异常检测的误分类率(误分类率＝错误分类数/总样本数)从0.0461降低到0.0347。

S4，将步骤S3中的图嵌入表示e_i和步骤S2中的带宽预测需求信息f_i进行对应拼接得到每个边缘云节点的异常预测需求数据；

x_i＝Concat(f_i，e_i)

式中，x_i表示第i个边缘云节点的异常预测需求数据，Concat(·)表示拼接函数。

S5，基于业务和该业务对应的折损率阈值将步骤S4中的异常预测需求数据划分为正常集和异常集，利用第一损失函数对异常检测算法的模型整体损失函数进行更新，对更新模型整体损失函数后的异常检测算法(Anomaly-transformer)进行训练获取异常检测模型，包括如下步骤：

本申请设定每个时间节点下一个边缘云节点上最多只有一个业务在运行，且同一时间节点下同一个业务可能占用不同的边缘云节点，不考虑混跑情况。所述折损率的计算公式为：

式中，表示在第m个时间段下边缘云节点i上基于业务c的折损率，/>表示在第m个时间段下边缘云节点i基于业务c的总95带宽，b_m，i表示第m个时间段下边缘云节点i的95带宽。本申请将每个折损率的3/4分位数作为对应的折损率阈值，/>的3/4分位数即为边缘云节点i在第m个时间段下基于业务c的折损率阈值。

比如如图4所示，在第t1个时间段下假如业务c运行在边缘云节点a和边缘云节点b上，b_t1表示边缘云节点b在t1时间段下基于业务c的总95带宽，代表着节点b对业务c的贡献，b_t2表示边缘云节点b在t1时间段下基于所有业务的95带宽值，则边缘云节点b的折损率即为1-b_t1/b_t2。

为了减少噪声数据对模型效果的影响，本申请分析了噪声数据的成因，发现异常数据来自多个方面，比如，包括网络共享、虚报带宽、限速等作弊行为的供应商作弊问题，线路不通、网络延时异常等的网络质量异常问题，设备硬件故障等的硬件问题，客户侧调度导致跑量异常且不受平台和供应商控制的调度问题，通常由切换任务导致的上机程序异常问题，例如切换后当日晚高峰无法起量。网络质量异常问题、硬件问题、调度问题及上机程序异常问题这些均不属于作弊情况。

如图5所示，所述网络共享是指一个带宽资源被多个节点共享，多个节点的任务在晚高峰竞争流量。如图6所示，限速是指供应商自己指定限速策略，包含完全限制、部分限制、共享节点之间的交替限制。如图7所示，网络质量异常是指网络丢包、延时导致业务调度波形异常，导致业务曲线高频率波动。

S5.3，基于更新后的正常集和异常集利用Anomaly transformer模型进行训练获取异常检测模型；

异常检测算法Anomaly transformer使用了一种新颖的关联差异机制，用于度量异常时序数据与正常时序数据之间的关联性差异。不同于一般编解码异常检测算法，这种机制能够有效区分异常和正常数据，提高异常检测的准确性。而且Transformer的自注意力机制捕捉时序数据中的长距离依赖关系，提高模型的泛化能力和检测效果。这个算法具有很强的适应性，能够应对边缘云场景中多样化的时序数据和异常类型。这对于在不同边缘设备和应用场景下实现高效异常检测具有重要价值。

为了适应异常检测的特殊任务，本申请选择了Anomaly transformer，其对transformer模型进行一些优化和改进。通过关联性差异提高了供应商作弊检测的准确性。以下是模型结构，Rescale是序列层次做归一化，使得序列先验关联数值和等于1。Lay-Norm、Feed-Forward是transformer的组件，本申请未做改变。

x⁰＝Embedding(x)；

初始化：Q，K，V，

先验关联：

序列关联：

重建：

残差连接：

输出：

式中，x⁰表示初始化后的异常预测需求数据。

Anomaly transformer的损失由两部分组成，一部分是重建损失，一部分是关联性差异。模型输出为最后一层transformer的输出。传统的模型整体的损失包含作弊检测损失函数和辅助损失，本申请区别于现有技术将第一损失函数L_aux也加入模型整体损失函数中，更新后的模型整体损失函数的计算公式为：

关联性差异部分为：

相对于直接采用transformer模型做异常检测，本申请采用了适用基于关联性差异的异常检测算法Anomaly-transformer，此算法时序局部与全局的关联性，适用于边缘云场景网络设备异构导致的流量波动问题，大大提高了异常检测算法的抗干扰能力。通过实验表明，本申请采用方法GCN-Anomaly_Transformer较GCN-Transformer误分类率从0.0520降低到0.0347。

本申请首先通过网格搜索方法确定transformer维度、层数等超参数，维度取值为[16，32，48，96]、层数取值为[4，8，16，32]。利用梯度裁剪限制梯度的最大值，以防止梯度爆炸问题，同时采用自定义的学习率调度策略“warmup+cosine decay”策略，前期逐步提高学习率以加速收敛，后期逐渐降低学习率以稳定训练，设置迭代次数、最大学习率后开始训练。在深度学习中，学习率调度策略对于训练的成功至关重要。Warmup+Cosine Decay是一种常见的学习率调度策略，其结合了warmup(预热)和余弦衰减两种方法。Warmup：在训练的开始阶段，学习率会从一个较低的初始值逐渐增加到预定的最大学习率。这个预热阶段有助于防止模型在训练初期发生梯度爆炸或梯度消失，从而提高训练的稳定性。CosineDecay：在warmup阶段之后，学习率将根据余弦衰减公式逐渐减小。余弦衰减在训练后期可以帮助模型更好地收敛到一个局部最优解。warmup_steps＝100，max_learning_rate＝1e-3，initial_learning_rate＝1e-5，final_learning_rate＝1e-4，total_steps＝500。图8展示了学习率的变化过程。

S6，收集边缘云节点最新的数据信息利用步骤S5中的异常检测模型进行检测，对检测结果进行人工误判确认，根据是否误判对供应商进行处理或优化异常检测模型，包括如下步骤：

S6.1，将边缘云节点最新的数据信息输入异常检测模型进行检测，输出对应的异常值；

异常值的公式为：

这个异常值是序列，本申请采用序列均值表示序列整体的异常情况。

在本申请中，供应商作为边缘云节点的硬件设备提供商，边缘云运营平台对硬件设备进行管理，方便终端比如抖音、快手等对硬件设备的计算资源请求占用。本申请设定的计算公式为：

式中，Num_k表示第k组的数据信息条数，表示预设风险比率。

人工确认时，可以按照作弊状态的判断方法判断，也可以依据经验判断。在对供应商进行处理时，可以首先通知供应商进行整改，如果在指定时间内仍未整改好，判断节点是否处于资源稀缺区域，若不是则转晚95计费来优化问题节点，提高平台服务质量，否则，若是，则沟通整改。

S6.4，异常检测模型将对应的误判样本加入正常集中进行训练以对异常检测模型进行优化；

对于模型误判的情况整理样本，加入训练集，可以优化模型效果，兼容更多类型的非作弊异常情况。通过反复迭代，持续优化模型，提高作弊预测模型的效果，优化供需两端的体感。

本申请的使用和意义在于解决边缘云资源供应商作弊问题，通过基于编解码器的算法对资源节点进行作弊概率预测，综合了资源节点的特征、业务的特征、跑量曲线的特征、网络拓扑结构、资源使用情况、数据传输和处理速度、稳定性和可靠性指标等多方面的特征，采用编解码器的异常检测算法对边缘云资源进行监测和检测，发现有作弊嫌疑的节点，并对其进行限制或淘汰。同时，通过对历史数据的分析和人与算法的相互迭代，发现节点的使用模式和行为规律，从而提高检测算法的准确性和可靠性，有效保障计算资源的公平分配和高效利用。通过利用GCN和Anomaly Transformer模型进行自监督学习训练，该方法可以检测出供应商在提供云计算资源时存在的作弊行为，从而防止供应商虚报资源性能、提供虚假资源等情况。因此，本申请对于计算资源市场的规范化和公平竞争具有重要意义，也能够提高云计算资源的安全性和稳定性。另外，本专利中的作弊检测算法不依赖于供应商提供的完整数据，只需要获取少量的资源数据即可进行作弊检测，大大简化了数据获取的难度。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于编解码算法的供应商作弊检测方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于编解码算法的供应商作弊检测方法，其特征在于，所述节点数据特征包括机器ID、供应商、计费类型、节点储备带宽、单线带宽、线路条数、TCP丢包满意度、平均测试带宽、TCP丢包满意度、极限压测满意度、带宽使用率、网络延迟、在线率、在线线路数、节点真实95带宽；

3.根据权利要求1所述的基于编解码算法的供应商作弊检测方法，其特征在于，所述步骤S3包括如下步骤：

S3.2，利用图卷积神经网络构建训练网络模型；

4.根据权利要求3所述的基于编解码算法的供应商作弊检测方法，其特征在于，所述图结构采用G(V，E)表示，V表示顶点也即边缘云节点，E表示边，e_ij∈E，e_ij表示边缘云节点v_i与边缘云节点v_j之间的连通指标，连通指标的计算公式为：

e_ij＝delay_ij*w₁+TCPReTrans_ij*w₂+distance_ij*w₃+ISP_ij*w₄；

5.根据权利要求1所述的基于编解码算法的供应商作弊检测方法，其特征在于，所述步骤S5包括：

所述折损率的计算公式如下：

6.根据权利要求1所述的基于编解码算法的供应商作弊检测方法，其特征在于，所述步骤S6包括如下步骤：