CN114021623A - 一种异常样本确定方法、装置、设备及介质 - Google Patents

一种异常样本确定方法、装置、设备及介质 Download PDF

Info

Publication number
CN114021623A
CN114021623A CN202111208077.4A CN202111208077A CN114021623A CN 114021623 A CN114021623 A CN 114021623A CN 202111208077 A CN202111208077 A CN 202111208077A CN 114021623 A CN114021623 A CN 114021623A
Authority
CN
China
Prior art keywords
variation
coefficient
model
training sample
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111208077.4A
Other languages
English (en)
Inventor
黄海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Taikang Insurance Group Co Ltd
Taikang Online Property Insurance Co Ltd
Original Assignee
Taikang Insurance Group Co Ltd
Taikang Online Property Insurance Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Taikang Insurance Group Co Ltd, Taikang Online Property Insurance Co Ltd filed Critical Taikang Insurance Group Co Ltd
Priority to CN202111208077.4A priority Critical patent/CN114021623A/zh
Publication of CN114021623A publication Critical patent/CN114021623A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例提供了一种异常样本确定方法、装置、设备及介质,通过确定数值最大的第一变异系数对应的第一特征,以及第一特征的最大特征权重对应的第一模型的第一训练样本,和第一特征的最小特征权重对应的第二模型的第二训练样本,基于该第一训练样本和第二训练样本,得到第一目标训练样本和第二目标训练样本,并进行模型训练,根据至少一个模型和该第一目标模型,计算该第一特征的第二变异系数,并根据至少一个模型模型和该第二目标模型,计算该第一特征的第三变异系数,若该第二变异系数和第三变异系数均小于该第一变异系数,则确定不存在异常样本,实现对样本数据集中是否存在异常样本的判断。

Description

一种异常样本确定方法、装置、设备及介质
技术领域
本发明涉及数据处理技术领域,尤其涉及一种异常样本确定方法、装置、设备及介质。
背景技术
随着科学技术的发展,模型被应用于越来越多的技术领域。具体的,当人们需要实现某一功能时,会预先准备大量的样本数据集,然后从样本数据集选取多组样本数据,基于选取的每组样本数据,得到对应的每个训练完成的模型。为了从训练完成的多个模型中选取性能最优的模型投入到生产中,在模型训练完成后会采用黑盒技术对模型进行测试,将大量的数据输入到训练完成的模型中,针对模型输出的预测结果,选取预测结果最准确的模型为最优模型。
但是,在模型训练使用的样本数据集中,可能存在数据异常的异常样本,在可能的情况下该数据异常的异常样本可能会导致训练得到的模型预测不准,并且会影响最优模型的选择,但是在现有技术中,并没有如何判断样本数据集中是否存在异常样本的方法。
发明内容
本发明实施例提供了一种异常样本确定方法、装置、设备及介质,实现了对样本数据集中异常样本的确定。
本发明实施例提供了一种异常样本确定方法,所述方法包括:
针对训练完成的至少一个模型,根据每个特征在每个模型中对应的特征权重,计算每个特征的变异系数,识别数值最大的第一变异系数对应的第一特征;
识别所述第一特征的最大特征权重对应的第一模型,以及最小特征权重对应的第二模型;
识别对所述第一模型进行训练的第一训练样本和对所述第二模型进行训练的第二训练样本中不同的第一子训练样本,以及所述第一训练样本中与所述第二训练样本相同的第二子训练样本,将所述第一子训练样本分为两份,并分别于与所述第二子训练样本组合,得到第一目标训练样本和第二目标训练样本,并分别基于所述第一目标训练样本和所述第二目标训练样本进行模型训练,得到第一目标模型和第二目标模型;
根据所述至少一个模型和所述第一目标模型,计算所述第一特征的第二变异系数,并根据所述至少一个模型和所述第二目标模型,计算所述第一特征的第三变异系数,若所述第二变异系数和第三变异系数均小于所述第一变异系数,则确定不存在异常样本。
本发明实施例还提供了一种异常样本确定装置,所述装置包括:
计算模块,用于针对训练完成的至少一个模型,根据每个特征在每个模型中对应的特征权重,计算每个特征的变异系数,识别数值最大的第一变异系数对应的第一特征;
识别模块,用于识别所述第一特征的最大特征权重对应的第一模型,以及最小特征权重对应的第二模型;
异常样本确定模块,用于识别对所述第一模型进行训练的第一训练样本和对所述第二模型进行训练的第二训练样本中不同的第一子训练样本,以及所述第一训练样本中与所述第二训练样本相同的第二子训练样本,将所述第一子训练样本分为两份,并分别于与所述第二子训练样本组合,得到第一目标训练样本和第二目标训练样本,并分别基于所述第一目标训练样本和所述第二目标训练样本进行模型训练,得到第一目标模型和第二目标模型;根据所述至少一个模型和所述第一目标模型,计算所述第一特征的第二变异系数,并根据所述至少一个模型和所述第二目标模型,计算所述第一特征的第三变异系数,若所述第二变异系数和第三变异系数均小于所述第一变异系数,则确定不存在异常样本。
本发明实施例还提供了一种电子设备,所述电子设备至少包括处理器和存储器,所述处理器用于执行存储器中存储的计算机程序时实现上述任一所述的异常样本确定方法的步骤。
本发明实施例还提供了一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时实现上述任一所述的异常样本确定方法的步骤。
在本发明实施例中,确定数值最大的第一变异系数对应的第一特征,以及第一特征的最大特征权重对应的第一模型的第一训练样本,和第一特征的最小特征权重对应的第二模型的第二训练样本,基于该第一训练样本和第二训练样本,得到第一目标训练样本和第二目标训练样本,并进行模型训练,根据至少一个模型和该第一目标模型,计算该第一特征的第二变异系数,并根据至少一个模型和该第二目标模型,计算该第一特征的第三变异系数,若该第二变异系数和第三变异系数均小于该第一变异系数,则确定不存在异常样本,实现对样本数据集中是否存在异常样本的判断。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种异常样本确定过程示意图;
图2为本发明实施例提供的异常样本确定装置的结构示意图;
图3为本发明实施例提供的一种电子设备结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
为了实现对模型训练的样本数据集中是否存在异常样本的判断,本发明提供了一种异常样本确定方法、装置、设备及介质。
实施例1:
图1为本发明实施例提供的一种异常样本确定过程示意图,该过程包括以下步骤:
S101:针对训练完成的至少一个模型,根据每个特征在每个模型中对应的特征权重,计算每个特征的变异系数,识别数值最大的第一变异系数对应的第一特征。
本发明实施例提供的一种异常样本确定方法应用于电子设备,该电子设备可以是PC、服务器等设备。
在本发明实施例中,在使用一个样本数据集对每个模型进行训练,每个模型所使用的训练样本一般为该样本数据集中的部分,即使使用一个样本数据集对多个结构相同的模型进行训练,每个模型的训练结果也不同。不过,训练完成的每个模型中具有相同的特征,但是每个特征在每个模型中对应的特征权重不同,每个模型中包括至少两个特征。
在本发明实施例中,针对一个样本数据集,为了判断该样本数据集中是否存在异常样本,需要基于该样本数据集训练出的模型中离散程度最大的特征对应的最大特征权重所在的模型进行判断。
具体的,针对基于一个样本数据集中训练出来的至少一个模型,根据每个特征在每个模型中对应的特征权重,计算该每个特征的变异系数,并识别数值最大的第一变异系数对应的第一特征,使得后续根据该第一特征判断样本数据集中是否存在异常样本。
针对每个特征,根据该特征在每个模型中的特征权重,确定该特征的离散程度时,可以采用该特征的特征权重的平均值、标准差以及变异系数中的任意一个来确定该特征的离散程度。但是,若该特征的最大特征权重和最小特征权重的差值较大时,采用平均值或标准差确定的特征的离散程度的准确度和真实性将会降低。为了减少由于该特征的最大特征权重和最小特征权重差值较大,给该特征的离散程度的计算带来的影响,在本发明实施例中,在确定每个特征的离散程度时,通过该特征的变异系数确定该特征的离散程度。
S102:识别所述第一特征的最大特征权重对应的第一模型,以及最小特征权重对应的第二模型。
为了进一步缩小异常样本的范围,在本发明实施例中,在确定了变异系数数值最大的第一变异系数对应的第一特征之后,确定该第一特征中最大特征权重对应的第一模型以及最小特征权重对应的第二模型。此时,若样本数据集中存在异常样本,则该异常样本与该第一模型和第二模型的训练样本有关。
具体的,在本发明实施例中,确定了变异系数数值最大的第一变异系数对应的第一特征后,统计每个模型中该第一特征的特征权重,并对统计的特征权重进行比较,确定最大特征权重对应的第一模型以及最小特征权重对应的第二模型。
S103:识别对所述第一模型进行训练的第一训练样本和对所述第二模型进行训练的第二训练样本中不同的第一子训练样本,以及所述第一训练样本中与所述第二训练样本相同的第二子训练样本,将所述第一子训练样本分为两份,并分别于与所述第二子训练样本组合,得到第一目标训练样本和第二目标训练样本,并分别基于所述第一目标训练样本和所述第二目标训练样本进行模型训练,得到第一目标模型和第二目标模型。
在本发明实施例中,确定了第一特征中最大特征权重对应的第一模型以及最小特征权重对应的第二模型后,确定异常样本的范围为该第一模型和第二模型的训练样本。为了确定异常样本,则确定该第一模型的第一训练样本,以及该第二模型的第二训练样本,识别该第一训练样本中与该第二训练样本不同的第一子训练样本,以及该第一训练样本中与该第二训练样本相同的第二子训练样本。
在获取到第一子训练样本和第二子训练样本后,为了进一步的挑选出异常样本,则基于该第一子训练样本和第二子训练样本,构建新的目标训练样本,并基于新构建的目标训练样本进行模型训练,根据模型训练的结果对该第一子训练样本和该第二子训练样本进行分析。
具体的,在本发明实施例中,由于第一模型是第一特征的最大特征权重对应的模型,第二模型是第一特征的最小特征权重对应的模型,因此,针对第一特征而言,该第一模型和第二模型的区别最大。而第二子训练样本为第一模型对应的第一训练样本和第二模型对应的第二训练样本中均包括的训练样本,因此,认为该第二子训练样本中不存在异常样本,若样本数据集中存在异常样本,则该异常样本存在于第一子训练样本中。为了确定异常样本,则将该第一子训练样本分为两份,并分别于与第二子训练样本组合,得到第一目标训练样本和第二目标训练样本,再分别基于该第一目标训练样本和第二目标训练样本进行模型训练,得到第一目标模型和第二目标模型。
其中,在本发明实施例中,在将第一子训练样本分为两份时,可以随意的划分,但为了方便后续进行异常样本的判断,若该第一子训练样本中包含的样本数量为偶数,则将该第一子训练样本分为包含的样本数量相同的两份,若该第一子训练样本中包含的样本数量为奇数,则将该第一子训练样本分为包含的样本数量相差一个的两份。
S104:根据所述至少一个模型和所述第一目标模型,计算所述第一特征的第二变异系数,并根据所述至少一个模型和所述第二目标模型,计算所述第一特征的第三变异系数,若所述第二变异系数和第三变异系数均小于所述第一变异系数,则确定不存在异常样本。
在本发明实施例中,第一目标模型和第二目标模型训练完成后,可以根据该第一目标模型和第二目标模型确定异常样本。具体的,根据之前训练的至少一个模型和第一目标模型,计算第一特征的第二变异系数,以及根据之前训练的至少一个模型和该第二目标模型,计算第一特征的第三变异系数,根据该第二变异系数与第一变异系数的数值大小关系,以及第三变异系数和第一变异系数的数值大小关系,确定异常样本。具体的,若该第二变异系数和第三变异系数均小于该第一变异系数,则确定不存在异常样本,若该第二变异系数和第三变异系数中至少一个不小于该第一变异系数,则将继续缩小异常样本的范围。
在本发明实施例中,确定数值最大的第一变异系数对应的第一特征,以及第一特征的最大特征权重对应的第一模型的第一训练样本,和第一特征的最小特征权重对应的第二模型的第二训练样本,基于该第一训练样本和第二训练样本,得到第一目标训练样本和第二目标训练样本,并进行模型训练,根据至少一个模型和该第一目标模型,计算该第一特征的第二变异系数,并根据至少一个模型和该第二目标模型,计算该第一特征的第三变异系数,若该第二变异系数和第三变异系数均小于该第一变异系数,则确定不存在异常样本,实现对样本数据集中是否存在异常样本的判断。
实施例2:
为了计算训练完成的结构相同的模型中每个特征的变异系数,在上述实施例的基础上,在本发明实施例中,所述根据每个特征在每个模型中对应的特征权重,计算每个特征的变异系数包括:
根据所述每个特征在每个模型中对应的特征权重,确定所述每个特征的特征权重的平均值和标准差;
将所述每个特征的特征权重的标准差与平均值的比值确定为该特征的变异系数。
在本发明实施例中,针对每个特征,该特征在每个模型中的特征权重可能相同也可能不同,在计算该特征的变异系数时,需要借助该特征对应的特征权重的平均值和标准差,再将该标准差与平均值的比值确定为该特征的变异系数。
具体的,每个特征的特征权重的平均值可以使用如下公式计算:
Figure BDA0003307604050000051
其中,Qj表示特征Tj的特征权重,PQj表示特征权重Qj的平均值,X表示特征权重Qj的数量,即模型的数量,Qji表示第i个模型的特征权重。
具体的,每个特征的特征权重的标准差可以使用如下公式计算:
Figure BDA0003307604050000052
其中,σj表示特征Tj的特征权重的标准差,PQj表示特征权重Qj的平均值,Qji表示第i个模型的特征权重,X表示特征权重Qj的数量,即模型的数量。
其中,每个特征的变异系数可以使用如下公式计算:
Figure BDA0003307604050000061
其中,CVj表示特征Tj的变异系数,σj表示特征Tj的特征权重的标准差,PQj表示特征权重Qj的平均值。
实施例3:
为了缩小异常样本的范围,在上述各实施例的基础上,在本发明实施例中,若所述第二变异系数和所述第三变异系数中的至少一个不小于所述第一变异系数,所述方法还包括:
若所述第二变异系数不小于所述第一变异系数,则识别除所述第一特征外的其他特征对应的变异系数中最大的第四变异系数及所述第四变异系数对应的第二特征;识别所述第二特征的最大特征权重对应的第三模型以及最小特征权重对应的第四模型;识别对所述第三模型进行训练的第三训练样本和对所述第四模型进行训练的第四训练样本中不同的第三子训练样本,以及所述第三训练样本中与所述第四训练样本相同的第四子训练样本,将所述第三子训练样本分为两份,并分别与所述第四子训练样本组合,得到第三目标训练样本和第四目标训练样本,并分别基于所述第三目标训练样本和所述第四目标训练样本进行模型训练,得到第三目标模型和第四目标训练模型;根据所述至少一个模型和所述第三目标模型,计算所述第二特征的第五变异系数,并根据所述至少一个模型和所述第四目标模型,计算所述第二特征的第六变异系数,若所述第五变异系数和所述第六变异系数均小于所述第四变异系数,则确定不存在异常样本;或
若所述第三变异系数不小于所述第一变异系数,则识别除所述第一特征外的其他特征对应的变异系数中最大的第七变异系数及所述第七变异系数对应的第三特征;识别所述第三特征的最大特征权重对应的第五模型以及最小特征权重对应的第六模型;识别对所述第五模型进行训练的第五训练样本和对所述第六模型进行训练的第六训练样本中不同的第六子训练样本,以及所述第五训练样本中与所述第六训练样本相同的第六子训练样本,将所述第五子训练样本分为两份,并分别与所述第六子训练样本组合,得到第五目标训练样本和第六目标训练样本,并分别基于所述第五目标训练样本和所述第六目标训练样本进行模型训练,得到第五目标模型和第六目标训练模型;根据所述至少一个模型和所述第五目标模型,计算所述第三特征的第八变异系数,并根据所述至少一个模型和所述第六目标模型,计算所述第三特征的第九变异系数,若所述第八变异系数和所述第九变异系数均小于所述第七变异系数,则确定不存在异常样本;或
若所述第二变异系数和第三变异系数均不小于所述第一变异系数,且所述第五变异系数和所述第六变异系数均小于所述第四变异系数,所述第八变异系数和所述第九变异系数均小于所述第七变异系数,则确定不存在异常样本。
在本发明实施例中,若没有确定不存在异常样本,即第二变异系数和第三变异系数中存在至少一个不小于第一变异系数,则此时需要进一步缩小变异系数的范围。此时,存在三种可能情况,一种是第二变异系数不小于第一变异系数,一种是第三变异系数不小于第一变异系数,还有一种是第二变异系数和第三变异系数均不小于第一变异系数,针对每种情况,得到的异常样本的范围不同。
具体的,若第二变异系数不小于第一变异系数,则识别除第一特征外的其他特征对应的变异系数中最大的第四变异系数及该第四变异系数对应的第二特征,识别该第二特征的最大特征权重对应的第三模型以及最小特征权重对应的第四模型,识别对该第三模型进行训练的第三训练样本和对该第四模型进行训练的第四训练样本中不同的第三子训练样本,以及该第三训练样本中与该第四训练样本相同的第四子训练样本。
由于第三模型是第二特征的最大特征权重对应的模型,第四模型是第二特征的最小特征权重对应的模型,因此,在该情况下,针对第二特征而言,该第三模型和第四模型的区别最大。而第四子训练样本为第三模型对应的第三训练样本和第四模型对应的第四训练样本中均包括的训练样本,因此,认为该第四子训练样本中不存在异常样本,若样本数据集中存在异常样本,则该异常样本存在于第三子训练样本中。
为了确定异常样本,将该第三子训练样本分为两份,并将该两份分别与该第四子训练样本组合,得到第三目标训练样本和第四目标训练样本,并分别基于该第三目标训练样本和该第四目标训练样本进行模型训练,得到第三目标模型和第四目标训练模型,根据该至少一个模型和该第三目标模型,计算该第二特征的第五变异系数,并根据该至少一个模型和该第四目标模型,计算该第二特征的第六变异系数,若该第五变异系数和该第六变异系数均小于该第四变异系数,则确定不存在异常样本,若该第五变异系数和该第六变异系数中至少一个不小于该第四变异系数,将继续缩小异常样本的范围。
若第三变异系数不小于第一变异系数,则识别除该第一特征外的其他特征对应的变异系数中最大的第七变异系数及该第七变异系数对应的第三特征;识别该第三特征的最大特征权重对应的第五模型以及最小特征权重对应的第六模型;识别对该第五模型进行训练的第五训练样本和对该第六模型进行训练的第六训练样本中不同的第五子训练样本,以及该第五训练样本中与该第六训练样本相同的第六子训练样本。
由于第五模型是第三特征的最大特征权重对应的模型,第六模型是第三特征的最小特征权重对应的模型,因此,在该情况下,针对第三特征而言,该第五模型和第六模型的区别最大。而第六子训练样本为第五模型对应的第五训练样本和第六模型对应的第六训练样本中均包括的训练样本,因此,认为该第六子训练样本中不存在异常样本,若样本数据集中存在异常样本,则该异常样本存在于第五子训练样本中。
为了确定异常样本,将该第五子训练样本分为两份,并将该两份分别与该第六子训练样本组合,得到第五目标训练样本和第六目标训练样本,并分别基于该第五目标训练样本和该第六目标训练样本进行模型训练,得到第五目标模型和第六目标训练模型;根据该至少一个模型和该第五目标模型,计算该第三特征的第八变异系数,并根据该至少一个模型和该第六目标模型,计算该第三特征的第九变异系数,若该第八变异系数和该第九变异系数均小于该第七变异系数,则确定不存在异常样本,该第八变异系数和该第九变异系数中至少一个不小于该第七变异系数,将继续缩小异常样本的范围。
若第二变异系数和第三变异系数均不小于第一变异系数,则判断第五变异系数和第六变异系数是否小于第四变异系数,以及第八变异系数和第九变异系数是否小于第七变异系数,若确定该第五变异系数和第六变异系数均小于该第四变异系数,且该第八变异系数和第九变异系数均小于该第七变异系数,则确定不存在异常样本。否则,将继续缩小异常样本的范围。
实施例4:
为了缩小异常样本的范围,在上述各实施例的基础上,在本发明实施例中,若所述第五变异系数和所述第六变异系数中的至少一个不小于所述第四变异系数,所述方法还包括:
若所述第五变异系数不小于所述第四变异系数,则识别除所述第二特征外的其他特征对应的变异系数中最大的第十变异系数及所述第十变异系数对应的第四特征;识别所述第四特征的最大特征权重对应的第七模型以及最小特征权重对应的第八模型;识别对所述第七模型进行训练的第七训练样本和对所述第八模型进行训练的第八训练样本中不同的第七子训练样本,以及所述第七训练样本中与所述第八训练样本相同的第八子训练样本,将所述第七子训练样本分为两份,并分别与所述第八子训练样本组合,得到第七目标训练样本和第八目标训练样本,并分别基于所述第七目标训练样本和所述第八目标训练样本进行模型训练,得到第七目标模型和第八目标训练模型;根据所述至少一个模型和所述第七目标模型,计算所述第四特征的第十一变异系数,并根据所述至少一个模型和所述第八目标模型,计算所述第四特征的第十二变异系数,若所述第十一变异系数和所述第十二变异系数均小于所述第十变异系数,则确定不存在异常样本;或
若所述第六变异系数不小于所述第四变异系数,则识别除所述第二特征外的其他特征对应的变异系数中最大的第十三变异系数及所述第十三变异系数对应的第五特征;识别所述第五特征的最大特征权重对应的第九模型以及最小特征权重对应的第十模型;识别对所述第九模型进行训练的第九训练样本和对所述第十模型进行训练的第十训练样本中不同的第九子训练样本,以及所述第九训练样本中与所述第十训练样本相同的第十子训练样本,将所述第九子训练样本分为两份,并分别与所述第十子训练样本组合,得到第九目标训练样本和第十目标训练样本,并分别基于所述第九目标训练样本和所述第十目标训练样本进行模型训练,得到第九目标模型和第十目标训练模型;根据所述至少一个模型和所述第九目标模型,计算所述第五特征的第十四变异系数,并根据所述至少一个模型和所述第十目标模型,计算所述第五特征的第十五变异系数,若所述第十四变异系数和所述第十五变异系数均小于所述第十三变异系数,则确定不存在异常样本;或
若所述第五变异系数和第六变异系数均不小于所述第四变异系数,且所述第十一变异系数和所述第十二变异系数均小于所述第十变异系数,所述第十四变异系数和所述第十五变异系数均小于所述第十三变异系数,则确定不存在异常样本。
在本发明实施例中,若没有确定不存在异常样本,即第五变异系数和第六变异系数中存在至少一个不小于第四变异系数,则此时需要进一步缩小变异系数的范围。此时,存在三种可能情况,一种是第五变异系数不小于第四变异系数,一种是第六变异系数不小于第四变异系数,还有一种是第五变异系数和第六变异系数均不小于第四变异系数,针对每种情况,得到的异常样本的范围不同。
具体的,若第五变异系数不小于第四变异系数,则识别除该第二特征外的其他特征对应的变异系数中最大的第十变异系数及该第十变异系数对应的第四特征;识别该第四特征的最大特征权重对应的第七模型以及最小特征权重对应的第八模型;识别对该第七模型进行训练的第七训练样本和对该第八模型进行训练的第八训练样本中不同的第七子训练样本,以及该第七训练样本中与该第八训练样本相同的第八子训练样本。
由于第七模型是第四特征的最大特征权重对应的模型,第八模型是第四特征的最小特征权重对应的模型,因此,在该情况下,针对第四特征而言,该第七模型和第八模型的区别最大。而第八子训练样本为第七模型对应的第七训练样本和第八模型对应的第八训练样本中均包括的训练样本,因此,认为该第八子训练样本中不存在异常样本,若样本数据集中存在异常样本,则该异常样本存在于第七子训练样本中。
为了确定异常样本,将该第七子训练样本分为两份,并将该两份分别与该第八子训练样本组合,得到第七目标训练样本和第八目标训练样本,并分别基于该第七目标训练样本和该第八目标训练样本进行模型训练,得到第七目标模型和第八目标训练模型;根据该至少一个模型和该第七目标模型,计算该第四特征的第十一变异系数,并根据该至少一个模型和该第八目标模型,计算该第四特征的第十二变异系数,若该第十一变异系数和该第十二变异系数均小于该第十变异系数,则确定不存在异常样本,若该第十一变异系数和该第十二变异系数中至少一个小于该第十变异系数,将继续缩小异常样本的范围。
若第六变异系数不小于第四变异系数,则识别该除该第二特征外的其他特征对应的变异系数中最大的第十三变异系数及该第十三变异系数对应的第五特征;识别该第五特征的最大特征权重对应的第九模型以及最小特征权重对应的第十模型;识别对该第九模型进行训练的第九训练样本和对该第十模型进行训练的第十训练样本中不同的第九子训练样本,以及该第九训练样本中与该第十训练样本相同的第十子训练样本。
由于第九模型是第五特征的最大特征权重对应的模型,第十模型是第五特征的最小特征权重对应的模型,因此,在该情况下,针对第五特征而言,该第九模型和第十模型的区别最大。而第十子训练样本为第九模型对应的第九训练样本和第十模型对应的第十训练样本中均包括的训练样本,因此,认为该第十子训练样本中不存在异常样本,若样本数据集中存在异常样本,则该异常样本存在于第九子训练样本中。
为了确定异常样本,将该第九子训练样本分为两份,并将该两份分别与该第十子训练样本组合,得到第九目标训练样本和第十目标训练样本,并分别基于该第九目标训练样本和该第十目标训练样本进行模型训练,得到第九目标模型和第十目标训练模型;根据该至少一个模型和该第九目标模型,计算该第五特征的第十四变异系数,并根据该至少一个模型和该第十目标模型,计算该第五特征的第十五变异系数,若该第十四变异系数和该第十五变异系数均小于该第十三变异系数,则确定不存在异常样本,若该第十四变异系数和该第十五变异系数中至少一个不小于该第十三变异系数,将继续缩小异常样本的范围。
若第五变异系数和第六变异系数均不小于第四变异系数,则判断第十一变异系数和第十二变异系数是否小于第十变异系数,并判断第十四变异系数和第十五变异系数是否小于第十三变异系数,若确定该第十一变异系数和该第十二变异系数均小于该第十变异系数,该第十四变异系数和该第十五变异系数均小于该第十三变异系数,则确定不存在异常样本。否则,将继续缩小异常样本的范围。
实施例5:
为了确定异常样本,在上述各实施例的基础上,在本发明实施例中,所述方法还包括:
若所述第十一变异系数不小于所述第十变异系数,则将所述第七目标训练样本中除所述第八子训练样本外的其他训练样本确定为异常样本;或
若所述第十二变异系数不小于所述第十变异系数,则将所述第八目标训练样本中除所述第八子训练样本外的其他训练样本确定为异常样本;或
若所述第十一变异系数和所述第十二变异系数均不小于所述第十变异系数,则将所述第七子训练样本确定为异常样本。
在本发明实施例中,若第十一变异系数和第十二变异系数中存在至少一个不小于第十变异系数,则可以根据该第十一变异系数和第十二变异系数,确定异常样本。此时,存在三种可能情况,一种是第十一变异系数不小于第十变异系数,一种是第十二变异系数不小于第十变异系数,还有一种是第十一变异系数和第十二变异系数均不小于该第十变异系数。
具体的,若第十一变异系数不小于所述第十变异系数,则将第七目标训练样本中除第八子训练样本外的其他训练样本确定为异常样本。若第十二变异系数不小于第十变异系数,则将第八目标训练样本中除第八子训练样本外的其他训练样本确定为异常样本。若该第十一变异系数和该第十二变异系数均不小于该第十变异系数,则将该第七子训练样本确定为异常样本。
实施例6:
为了确定异常样本,在上述各实施例的基础上,在本发明实施例中,所述方法还包括:
若所述第十四变异系数不小于所述第十三变异系数,则将所述第九目标训练样本中除所述第十子训练样本外的其他训练样本确定为异常样本;或
若所述第十五变异系数不小于所述第十三变异系数,则将所述第十目标训练样本中除所述第十子训练样本外的其他训练样本确定为异常样本;或
若所述第十四变异系数和所述第十五变异系数均不小于所述第十三变异系数,则将所述第九子训练样本确定为异常样本。
在本发明实施例中,若第十四变异系数和第十五变异系数中存在至少一个不小于第十三变异系数,则可以根据该第十四变异系数和第十五变异系数,确定异常样本。此时,存在三种可能情况,一种是第十四变异系数不小于第十三变异系数,一种是第十五变异系数不小于第十三变异系数,还有一种是第十四变异系数和第十五变异系数均不小于该第十三变异系数。
具体的,若第十四变异系数不小于所述第十三变异系数,则将第九目标训练样本中除第十子训练样本外的其他训练样本确定为异常样本。若第十五变异系数不小于第十三变异系数,则将第十目标训练样本中除第十子训练样本外的其他训练样本确定为异常样本。若该第十四变异系数和该第十五变异系数均不小于该第十三变异系数,则将该第九子训练样本确定为异常样本。
实施例7:
为了缩小异常样本的范围,在上述各实施例的基础上,在本发明实施例中,若所述第十一变异系数和所述第十二变异系数中存在至少一个不小于所述第十变异系数,所述方法还包括:
若所述第八变异系数不小于所述第七变异系数,则识别除所述第二特征外的其他特征对应的变异系数中最大的第十六变异系数及所述第十六变异系数对应的第六特征;识别所述第六特征的最大特征权重对应的第十一模型以及最小特征权重对应的第十二模型;识别对所述第十一模型进行训练的第十一训练样本和对所述第十二模型进行训练的第十二训练样本中不同的第十一子训练样本,以及所述第十一训练样本中与所述第十二训练样本相同的第十二子训练样本,将所述第十一子训练样本分为两份,并分别与所述第十二子训练样本组合,得到第十一目标训练样本和第十二目标训练样本,并分别基于所述第十一目标训练样本和所述第十二目标训练样本进行模型训练,得到第十一目标模型和第十二目标训练模型;根据所述至少一个模型和所述第十一目标模型,计算所述第六特征的第十七变异系数,并根据所述至少一个模型和所述第十二目标模型,计算所述第六特征的第十八变异系数,若所述第十七变异系数和所述第十八变异系数均小于所述第十六变异系数,则确定不存在异常样本;或
若所述第九变异系数不小于所述第七变异系数,则识别除所述第二特征外的其他特征对应的变异系数中最大的第十九变异系数及所述第十九变异系数对应的第七特征;识别所述第七特征的最大特征权重对应的第十三模型以及最小特征权重对应的第十四模型;识别对所述第十三模型进行训练的第十三训练样本和对所述第十四模型进行训练的第十四训练样本中不同的第十三子训练样本,以及所述第十三训练样本中与所述第十四训练样本相同的第十四子训练样本,将所述第十三子训练样本分为两份,并分别与所述第十四子训练样本组合,得到第十三目标训练样本和第十四目标训练样本,并分别基于所述第十三目标训练样本和所述第十四目标训练样本进行模型训练,得到第十三目标模型和第十四目标训练模型;根据所述至少一个模型和所述第十三目标模型,计算所述第六特征的第二十变异系数,并根据所述至少一个模型和所述第十四目标模型,计算所述第六特征的第二十一变异系数,若所述第二十变异系数和所述第二十一变异系数均小于所述第十九变异系数,则确定不存在异常样本;或
若所述第八变异系数和所述第九变异系数均不小于所述第七变异系数,且所述第十七变异系数和所述第十八变异系数均小于所述第十六变异系数,所述第二十变异系数和所述第二十一变异系数均小于所述第十九变异系数,则确定不存在异常样本。
在本发明实施例中,若没有确定不存在异常样本,即第八变异系数和第九变异系数中存在至少一个不小于第七变异系数,则此时需要进一步缩小变异系数的范围。此时,存在三种可能情况,一种是第八变异系数不小于第七变异系数,一种是第九变异系数不小于第七变异系数,还有一种是第八变异系数和第九变异系数均不小于第七变异系数,针对每种情况,得到的异常样本的范围不同。
具体的,若第八变异系数不小于第七变异系数,则识别除该第二特征外的其他特征对应的变异系数中最大的第十六变异系数及该第十六变异系数对应的第六特征;识别该第六特征的最大特征权重对应的第十一模型以及最小特征权重对应的第十二模型;识别对该第十一模型进行训练的第十一训练样本和对该第十二模型进行训练的第十二训练样本中不同的第十一子训练样本,以及该第十一训练样本中与该第十二训练样本相同的第十二子训练样本。
由于第十一模型是第六特征的最大特征权重对应的模型,第十二模型是第六特征的最小特征权重对应的模型,因此,在该情况下,针对第六特征而言,该第十一模型和第十二模型的区别最大。而第十二子训练样本为第十一模型对应的第十一训练样本和第十二模型对应的第十二训练样本中均包括的训练样本,因此,认为该第十二子训练样本中不存在异常样本,若样本数据集中存在异常样本,则该异常样本存在于第十一子训练样本中。
为了确定异常样本,将该第十一子训练样本分为两份,并将该两份分别与该第十二子训练样本组合,得到第十一目标训练样本和第十二目标训练样本,并分别基于该第十一目标训练样本和该第十二目标训练样本进行模型训练,得到第十一目标模型和第十二目标训练模型;根据该至少一个模型和该第十一目标模型,计算该第六特征的第十七变异系数,并根据该至少一个模型和该第十二目标模型,计算该第六特征的第十八变异系数,若该第十七变异系数和该第十八变异系数均小于该第十六变异系数,则确定不存在异常样本,若该第十七变异系数和该第十八变异系数中至少一个不小于该第十六变异系数,将继续缩小异常样本的范围。
若第九变异系数不小于第七变异系数,则识别除该第二特征外的其他特征对应的变异系数中最大的第十九变异系数及该第十九变异系数对应的第七特征;识别该第七特征的最大特征权重对应的第十三模型以及最小特征权重对应的第十四模型;识别对该第十三模型进行训练的第十三训练样本和对该第十四模型进行训练的第十四训练样本中不同的第十三子训练样本,以及该第十三训练样本中与该第十四训练样本相同的第十四子训练样本。
由于第十三模型是第六特征的最大特征权重对应的模型,第十四模型是第六特征的最小特征权重对应的模型,因此,在该情况下,针对第六特征而言,该第十三模型和第十四模型的区别最大。而第十四子训练样本为第十三模型对应的第十三训练样本和第十四模型对应的第十四训练样本中均包括的训练样本,因此,认为该第十四子训练样本中不存在异常样本,若样本数据集中存在异常样本,则该异常样本存在于第十三子训练样本中。
为了确定异常样本,将该第十三子训练样本分为两份,并将该两份分别与该第十四子训练样本组合,得到第十三目标训练样本和第十四目标训练样本,并分别基于该第十三目标训练样本和该第十四目标训练样本进行模型训练,得到第十三目标模型和第十四目标训练模型;根据该至少一个模型和该第十三目标模型,计算该第六特征的第二十变异系数,并根据该至少一个模型和该第十四目标模型,计算该第六特征的第二十一变异系数,若该第二十变异系数和该第二十一变异系数均小于该第十九变异系数,则确定不存在异常样本,若该第二十变异系数和该第二十一变异系数中至少一个不小于该第十九变异系数,将继续缩小异常样本的范围。
若第八变异系数和第九变异系数均不小于第七变异系数,则判断该第十七变异系数和该第十八变异系数是否小于该第十六变异系数,并判断该第二十变异系数和该第二十一变异系数是否小于该第十九变异系数,若确定该第十七变异系数和该第十八变异系数均小于该第十六变异系数,该第二十变异系数和该第二十一变异系数均小于该第十九变异系数,则确定不存在异常样本。否则,将继续缩小异常样本的范围。
实施例8:
为了确定异常样本,在上述各实施例的基础上,在本发明实施例中,所述方法还包括:
若所述第十七变异系数不小于所述第十六变异系数,则将所述第十一目标训练样本中除所述第十二子训练样本外的其他训练样本确定为异常样本;或
若所述第十八变异系数不小于所述第十六变异系数,则将所述第十二目标训练样本中除所述第十二子训练样本外的其他训练样本确定为异常样本;或
若所述第十七变异系数和所述第十八变异系数均不小于所述第十六变异系数,则将所述第十一子训练样本确定为异常样本。
在本发明实施例中,若第十七变异系数和第十八变异系数中存在至少一个不小于第十六变异系数,则可以根据该第十七变异系数和第十八变异系数,确定异常样本。此时,存在三种可能情况,一种是第十七变异系数不小于第十六变异系数,一种是第十八变异系数不小于第十六变异系数,还有一种是第十七变异系数和第十八变异系数均不小于该第十六变异系数。
具体的,若第十七变异系数不小于所述第十六变异系数,则将第十一目标训练样本中除第十二子训练样本外的其他训练样本确定为异常样本。若第十八变异系数不小于第十六变异系数,则将第十二目标训练样本中除第十二子训练样本外的其他训练样本确定为异常样本。若该第十七变异系数和该第十八变异系数均不小于该第十六变异系数,则将该第十一子训练样本确定为异常样本。
实施例9:
为了确定异常样本,在上述各实施例的基础上,在本发明实施例中,所述方法还包括:
若所述第二十变异系数不小于所述第十九变异系数,则将所述第十三目标训练样本中除所述第十四子训练样本外的其他训练样本确定为异常样本;或
若所述第二十一变异系数不小于所述第十九变异系数,则将所述第十四目标训练样本中除所述第十四子训练样本外的其他训练样本确定为异常样本;或
若所述第二十变异系数和所述第二十一变异系数均不小于所述第十九变异系数,则将所述第十三子训练样本确定为异常样本。
在本发明实施例中,若第二十变异系数和第二十一变异系数中存在至少一个不小于第十九变异系数,则可以根据该第二十变异系数和第二十一变异系数,确定异常样本。此时,存在三种可能情况,一种是第二十变异系数不小于第十九变异系数,一种是第二十一变异系数不小于第十九变异系数,还有一种是第二十变异系数和第二十一变异系数均不小于该第十九变异系数。
具体的,若第二十变异系数不小于所述第十九变异系数,则将第十三目标训练样本中除第十四子训练样本外的其他训练样本确定为异常样本。若第二十一变异系数不小于第十九变异系数,则将第十四目标训练样本中除第十四子训练样本外的其他训练样本确定为异常样本。若该第二十变异系数和该第二十一变异系数均不小于该第十九变异系数,则将该第十三子训练样本确定为异常样本。
实施例10:
为了确定基于一个样本数据集训练出的至少一个模型中的最优模型,在上述各实施例的基础上,在本发明实施例中,所述方法还包括:
根据每个模型中每个特征的特征权重,计算每个模型的特征的特征权重的平均差;
识别所述平均差中数值最小的最少平均差,并将所述最小平均差对应的模型确定为最优模型。
在本发明实施例中,若确定样本数据集中不存在异常样本,则可以从该样本数据集中训练出的至少一个模型中选择最优模型。具体的,针对每个模型可以计算该模型中所有特征的特征权重的平均差,其中最小平均差对应的模型即为最优模型。
具体的,每个模型的特征权重的平均差可以使用如下公式计算:
Figure BDA0003307604050000151
其中,Qji表示第i个模型中特征Tj的特征权重,PQj表示特征权重Qj的平均值,n表示特征Tj的数量,MDji表示第i个模型的特征权重的平均差。
实施例11:
图2为本发明实施例提供的异常样本确定装置的结构示意图,如图2所示,该装置包括:
计算模块201,用于针对训练完成的至少一个模型,根据每个特征在每个模型中对应的特征权重,计算每个特征的变异系数,识别数值最大的第一变异系数对应的第一特征;
识别模块202,用于识别所述第一特征的最大特征权重对应的第一模型,以及最小特征权重对应的第二模型;
异常样本确定模块203,用于识别对所述第一模型进行训练的第一训练样本和对所述第二模型进行训练的第二训练样本中不同的第一子训练样本,以及所述第一训练样本中与所述第二训练样本相同的第二子训练样本,将所述第一子训练样本分为两份,并分别于与所述第二子训练样本组合,得到第一目标训练样本和第二目标训练样本,并分别基于所述第一目标训练样本和所述第二目标训练样本进行模型训练,得到第一目标模型和第二目标模型;根据所述至少一个模型和所述第一目标模型,计算所述第一特征的第二变异系数,并根据所述至少一个模型和所述第二目标模型,计算所述第一特征的第三变异系数,若所述第二变异系数和第三变异系数均小于所述第一变异系数,则确定不存在异常样本。
在一种可能的实施方式中,所述计算模块201,具体用于根据所述每个特征在每个模型中对应的特征权重,确定所述每个特征的特征权重的平均值和标准差;将所述每个特征的特征权重的标准差与平均值的比值确定为该特征的变异系数。
在一种可能的实施方式中,所述异常样本确定模块203,还用于若所述第二变异系数不小于所述第一变异系数,则识别除所述第一特征外的其他特征对应的变异系数中最大的第四变异系数及所述第四变异系数对应的第二特征;识别所述第二特征的最大特征权重对应的第三模型以及最小特征权重对应的第四模型;识别对所述第三模型进行训练的第三训练样本和对所述第四模型进行训练的第四训练样本中不同的第三子训练样本,以及所述第三训练样本中与所述第四训练样本相同的第四子训练样本,将所述第三子训练样本分为两份,并分别与所述第四子训练样本组合,得到第三目标训练样本和第四目标训练样本,并分别基于所述第三目标训练样本和所述第四目标训练样本进行模型训练,得到第三目标模型和第四目标训练模型;根据所述至少一个模型和所述第三目标模型,计算所述第二特征的第五变异系数,并根据所述至少一个模型和所述第四目标模型,计算所述第二特征的第六变异系数,若所述第五变异系数和所述第六变异系数均小于所述第四变异系数,则确定不存在异常样本;或若所述第三变异系数不小于所述第一变异系数,则识别除所述第一特征外的其他特征对应的变异系数中最大的第七变异系数及所述第七变异系数对应的第三特征;识别所述第三特征的最大特征权重对应的第五模型以及最小特征权重对应的第六模型;识别对所述第五模型进行训练的第五训练样本和对所述第六模型进行训练的第六训练样本中不同的第六子训练样本,以及所述第五训练样本中与所述第六训练样本相同的第六子训练样本,将所述第五子训练样本分为两份,并分别与所述第六子训练样本组合,得到第五目标训练样本和第六目标训练样本,并分别基于所述第五目标训练样本和所述第六目标训练样本进行模型训练,得到第五目标模型和第六目标训练模型;根据所述至少一个模型和所述第五目标模型,计算所述第三特征的第八变异系数,并根据所述至少一个模型和所述第六目标模型,计算所述第三特征的第九变异系数,若所述第八变异系数和所述第九变异系数均小于所述第七变异系数,则确定不存在异常样本;或若所述第二变异系数和第三变异系数均不小于所述第一变异系数,且所述第五变异系数和所述第六变异系数均小于所述第四变异系数,所述第八变异系数和所述第九变异系数均小于所述第七变异系数,则确定不存在异常样本。
在一种可能的实施方式中,所述异常样本确定模块203,还用于若所述第五变异系数不小于所述第四变异系数,则识别除所述第二特征外的其他特征对应的变异系数中最大的第十变异系数及所述第十变异系数对应的第四特征;识别所述第四特征的最大特征权重对应的第七模型以及最小特征权重对应的第八模型;识别对所述第七模型进行训练的第七训练样本和对所述第八模型进行训练的第八训练样本中不同的第七子训练样本,以及所述第七训练样本中与所述第八训练样本相同的第八子训练样本,将所述第七子训练样本分为两份,并分别与所述第八子训练样本组合,得到第七目标训练样本和第八目标训练样本,并分别基于所述第七目标训练样本和所述第八目标训练样本进行模型训练,得到第七目标模型和第八目标训练模型;根据所述至少一个模型和所述第七目标模型,计算所述第四特征的第十一变异系数,并根据所述至少一个模型和所述第八目标模型,计算所述第四特征的第十二变异系数,若所述第十一变异系数和所述第十二变异系数均小于所述第十变异系数,则确定不存在异常样本;或若所述第六变异系数不小于所述第四变异系数,则识别除所述第二特征外的其他特征对应的变异系数中最大的第十三变异系数及所述第十三变异系数对应的第五特征;识别所述第五特征的最大特征权重对应的第九模型以及最小特征权重对应的第十模型;识别对所述第九模型进行训练的第九训练样本和对所述第十模型进行训练的第十训练样本中不同的第九子训练样本,以及所述第九训练样本中与所述第十训练样本相同的第十子训练样本,将所述第九子训练样本分为两份,并分别与所述第十子训练样本组合,得到第九目标训练样本和第十目标训练样本,并分别基于所述第九目标训练样本和所述第十目标训练样本进行模型训练,得到第九目标模型和第十目标训练模型;根据所述至少一个模型和所述第九目标模型,计算所述第五特征的第十四变异系数,并根据所述至少一个模型和所述第十目标模型,计算所述第五特征的第十五变异系数,若所述第十四变异系数和所述第十五变异系数均小于所述第十三变异系数,则确定不存在异常样本;或若所述第五变异系数和第六变异系数均不小于所述第四变异系数,且所述第十一变异系数和所述第十二变异系数均小于所述第十变异系数,所述第十四变异系数和所述第十五变异系数均小于所述第十三变异系数,则确定不存在异常样本。
在一种可能的实施方式中,所述异常样本确定模块203,还用于若所述第十一变异系数不小于所述第十变异系数,则将所述第七目标训练样本中除所述第八子训练样本外的其他训练样本确定为异常样本;或若所述第十二变异系数不小于所述第十变异系数,则将所述第八目标训练样本中除所述第八子训练样本外的其他训练样本确定为异常样本;或若所述第十一变异系数和所述第十二变异系数均不小于所述第十变异系数,则将所述第七子训练样本确定为异常样本。
在一种可能的实施方式中,所述异常样本确定模块203,还用于若所述第十四变异系数不小于所述第十三变异系数,则将所述第九目标训练样本中除所述第十子训练样本外的其他训练样本确定为异常样本;或若所述第十五变异系数不小于所述第十三变异系数,则将所述第十目标训练样本中除所述第十子训练样本外的其他训练样本确定为异常样本;或若所述第十四变异系数和所述第十五变异系数均不小于所述第十三变异系数,则将所述第九子训练样本确定为异常样本。
在一种可能的实施方式中,所述异常样本确定模块203,还用于若所述第八变异系数不小于所述第七变异系数,则识别除所述第二特征外的其他特征对应的变异系数中最大的第十六变异系数及所述第十六变异系数对应的第六特征;识别所述第六特征的最大特征权重对应的第十一模型以及最小特征权重对应的第十二模型;识别对所述第十一模型进行训练的第十一训练样本和对所述第十二模型进行训练的第十二训练样本中不同的第十一子训练样本,以及所述第十一训练样本中与所述第十二训练样本相同的第十二子训练样本,将所述第十一子训练样本分为两份,并分别与所述第十二子训练样本组合,得到第十一目标训练样本和第十二目标训练样本,并分别基于所述第十一目标训练样本和所述第十二目标训练样本进行模型训练,得到第十一目标模型和第十二目标训练模型;根据所述至少一个模型和所述第十一目标模型,计算所述第六特征的第十七变异系数,并根据所述至少一个模型和所述第十二目标模型,计算所述第六特征的第十八变异系数,若所述第十七变异系数和所述第十八变异系数均小于所述第十六变异系数,则确定不存在异常样本;或若所述第九变异系数不小于所述第七变异系数,则识别除所述第二特征外的其他特征对应的变异系数中最大的第十九变异系数及所述第十九变异系数对应的第七特征;识别所述第七特征的最大特征权重对应的第十三模型以及最小特征权重对应的第十四模型;识别对所述第十三模型进行训练的第十三训练样本和对所述第十四模型进行训练的第十四训练样本中不同的第十三子训练样本,以及所述第十三训练样本中与所述第十四训练样本相同的第十四子训练样本,将所述第十三子训练样本分为两份,并分别与所述第十四子训练样本组合,得到第十三目标训练样本和第十四目标训练样本,并分别基于所述第十三目标训练样本和所述第十四目标训练样本进行模型训练,得到第十三目标模型和第十四目标训练模型;根据所述至少一个模型和所述第十三目标模型,计算所述第六特征的第二十变异系数,并根据所述至少一个模型和所述第十四目标模型,计算所述第六特征的第二十一变异系数,若所述第二十变异系数和所述第二十一变异系数均小于所述第十九变异系数,则确定不存在异常样本;或若所述第八变异系数和所述第九变异系数均不小于所述第七变异系数,且所述第十七变异系数和所述第十八变异系数均小于所述第十六变异系数,所述第二十变异系数和所述第二十一变异系数均小于所述第十九变异系数,则确定不存在异常样本。
在一种可能的实施方式中,所述异常样本确定模块203,还用于若所述第十七变异系数不小于所述第十六变异系数,则将所述第十一目标训练样本中除所述第十二子训练样本外的其他训练样本确定为异常样本;或若所述第十八变异系数不小于所述第十六变异系数,则将所述第十二目标训练样本中除所述第十二子训练样本外的其他训练样本确定为异常样本;或若所述第十七变异系数和所述第十八变异系数均不小于所述第十六变异系数,则将所述第十一子训练样本确定为异常样本。
在一种可能的实施方式中,所述异常样本确定模块203,还用于若所述第二十变异系数不小于所述第十九变异系数,则将所述第十三目标训练样本中除所述第十四子训练样本外的其他训练样本确定为异常样本;或若所述第二十一变异系数不小于所述第十九变异系数,则将所述第十四目标训练样本中除所述第十四子训练样本外的其他训练样本确定为异常样本;或若所述第二十变异系数和所述第二十一变异系数均不小于所述第十九变异系数,则将所述第十三子训练样本确定为异常样本。
在一种可能的实施方式中,所述计算模块201,还用于根据每个模型中每个特征的特征权重,计算每个模型的特征的特征权重的平均差;识别所述平均差中数值最小的最小平均差,并将所述最小平均差对应的模型确定为最优模型。
实施例12:
图3为本发明实施例提供的一种电子设备结构示意图,在上述各实施例的基础上,本发明实施例还提供了一种电子设备,如图3所示,包括:处理器301、通信接口302、存储器303和通信总线304,其中,处理器301,通信接口302,存储器303通过通信总线304完成相互间的通信;
所述存储器303中存储有计算机程序,当所述程序被所述处理器301执行时,使得所述处理器301执行如下步骤:
针对训练完成的至少一个模型,根据每个特征在每个模型中对应的特征权重,计算每个特征的变异系数,识别数值最大的第一变异系数对应的第一特征;
识别所述第一特征的最大特征权重对应的第一模型,以及最小特征权重对应的第二模型;
识别对所述第一模型进行训练的第一训练样本和对所述第二模型进行训练的第二训练样本中不同的第一子训练样本,以及所述第一训练样本中与所述第二训练样本相同的第二子训练样本,将所述第一子训练样本分为两份,并分别于与所述第二子训练样本组合,得到第一目标训练样本和第二目标训练样本,并分别基于所述第一目标训练样本和所述第二目标训练样本进行模型训练,得到第一目标模型和第二目标模型;
根据所述至少一个模型和所述第一目标模型,计算所述第一特征的第二变异系数,并根据所述至少一个模型和所述第二目标模型,计算所述第一特征的第三变异系数,若所述第二变异系数和第三变异系数均小于所述第一变异系数,则确定不存在异常样本。
在一种可能的实施方式中,所述根据每个特征在每个模型中对应的特征权重,计算每个特征的变异系数包括:
根据所述每个特征在每个模型中对应的特征权重,确定所述每个特征的特征权重的平均值和标准差;
将所述每个特征的特征权重的标准差与平均值的比值确定为该特征的变异系数。
在一种可能的实施方式中,若所述第二变异系数和所述第三变异系数中的至少一个不小于所述第一变异系数,所述方法还包括:
若所述第二变异系数不小于所述第一变异系数,则识别除所述第一特征外的其他特征对应的变异系数中最大的第四变异系数及所述第四变异系数对应的第二特征;识别所述第二特征的最大特征权重对应的第三模型以及最小特征权重对应的第四模型;识别对所述第三模型进行训练的第三训练样本和对所述第四模型进行训练的第四训练样本中不同的第三子训练样本,以及所述第三训练样本中与所述第四训练样本相同的第四子训练样本,将所述第三子训练样本分为两份,并分别与所述第四子训练样本组合,得到第三目标训练样本和第四目标训练样本,并分别基于所述第三目标训练样本和所述第四目标训练样本进行模型训练,得到第三目标模型和第四目标训练模型;根据所述至少一个模型和所述第三目标模型,计算所述第二特征的第五变异系数,并根据所述至少一个模型和所述第四目标模型,计算所述第二特征的第六变异系数,若所述第五变异系数和所述第六变异系数均小于所述第四变异系数,则确定不存在异常样本;或
若所述第三变异系数不小于所述第一变异系数,则识别除所述第一特征外的其他特征对应的变异系数中最大的第七变异系数及所述第七变异系数对应的第三特征;识别所述第三特征的最大特征权重对应的第五模型以及最小特征权重对应的第六模型;识别对所述第五模型进行训练的第五训练样本和对所述第六模型进行训练的第六训练样本中不同的第六子训练样本,以及所述第五训练样本中与所述第六训练样本相同的第六子训练样本,将所述第五子训练样本分为两份,并分别与所述第六子训练样本组合,得到第五目标训练样本和第六目标训练样本,并分别基于所述第五目标训练样本和所述第六目标训练样本进行模型训练,得到第五目标模型和第六目标训练模型;根据所述至少一个模型和所述第五目标模型,计算所述第三特征的第八变异系数,并根据所述至少一个模型和所述第六目标模型,计算所述第三特征的第九变异系数,若所述第八变异系数和所述第九变异系数均小于所述第七变异系数,则确定不存在异常样本;或
若所述第二变异系数和第三变异系数均不小于所述第一变异系数,且所述第五变异系数和所述第六变异系数均小于所述第四变异系数,所述第八变异系数和所述第九变异系数均小于所述第七变异系数,则确定不存在异常样本。
在一种可能的实施方式中,若所述第五变异系数和所述第六变异系数中的至少一个不小于所述第四变异系数,所述方法还包括:
若所述第五变异系数不小于所述第四变异系数,则识别除所述第二特征外的其他特征对应的变异系数中最大的第十变异系数及所述第十变异系数对应的第四特征;识别所述第四特征的最大特征权重对应的第七模型以及最小特征权重对应的第八模型;识别对所述第七模型进行训练的第七训练样本和对所述第八模型进行训练的第八训练样本中不同的第七子训练样本,以及所述第七训练样本中与所述第八训练样本相同的第八子训练样本,将所述第七子训练样本分为两份,并分别与所述第八子训练样本组合,得到第七目标训练样本和第八目标训练样本,并分别基于所述第七目标训练样本和所述第八目标训练样本进行模型训练,得到第七目标模型和第八目标训练模型;根据所述至少一个模型和所述第七目标模型,计算所述第四特征的第十一变异系数,并根据所述至少一个模型和所述第八目标模型,计算所述第四特征的第十二变异系数,若所述第十一变异系数和所述第十二变异系数均小于所述第十变异系数,则确定不存在异常样本;或
若所述第六变异系数不小于所述第四变异系数,则识别除所述第二特征外的其他特征对应的变异系数中最大的第十三变异系数及所述第十三变异系数对应的第五特征;识别所述第五特征的最大特征权重对应的第九模型以及最小特征权重对应的第十模型;识别对所述第九模型进行训练的第九训练样本和对所述第十模型进行训练的第十训练样本中不同的第九子训练样本,以及所述第九训练样本中与所述第十训练样本相同的第十子训练样本,将所述第九子训练样本分为两份,并分别与所述第十子训练样本组合,得到第九目标训练样本和第十目标训练样本,并分别基于所述第九目标训练样本和所述第十目标训练样本进行模型训练,得到第九目标模型和第十目标训练模型;根据所述至少一个模型和所述第九目标模型,计算所述第五特征的第十四变异系数,并根据所述至少一个模型和所述第十目标模型,计算所述第五特征的第十五变异系数,若所述第十四变异系数和所述第十五变异系数均小于所述第十三变异系数,则确定不存在异常样本;或
若所述第五变异系数和第六变异系数均不小于所述第四变异系数,且所述第十一变异系数和所述第十二变异系数均小于所述第十变异系数,所述第十四变异系数和所述第十五变异系数均小于所述第十三变异系数,则确定不存在异常样本。
在一种可能的实施方式中,所述方法还包括:
若所述第十一变异系数不小于所述第十变异系数,则将所述第七目标训练样本中除所述第八子训练样本外的其他训练样本确定为异常样本;或
若所述第十二变异系数不小于所述第十变异系数,则将所述第八目标训练样本中除所述第八子训练样本外的其他训练样本确定为异常样本;或
若所述第十一变异系数和所述第十二变异系数均不小于所述第十变异系数,则将所述第七子训练样本确定为异常样本。
在一种可能的实施方式中,所述方法还包括:
若所述第十四变异系数不小于所述第十三变异系数,则将所述第九目标训练样本中除所述第十子训练样本外的其他训练样本确定为异常样本;或
若所述第十五变异系数不小于所述第十三变异系数,则将所述第十目标训练样本中除所述第十子训练样本外的其他训练样本确定为异常样本;或
若所述第十四变异系数和所述第十五变异系数均不小于所述第十三变异系数,则将所述第九子训练样本确定为异常样本。
在一种可能的实施方式中,若所述第十一变异系数和所述第十二变异系数中存在至少一个不小于所述第十变异系数,所述方法还包括:
若所述第八变异系数不小于所述第七变异系数,则识别除所述第二特征外的其他特征对应的变异系数中最大的第十六变异系数及所述第十六变异系数对应的第六特征;识别所述第六特征的最大特征权重对应的第十一模型以及最小特征权重对应的第十二模型;识别对所述第十一模型进行训练的第十一训练样本和对所述第十二模型进行训练的第十二训练样本中不同的第十一子训练样本,以及所述第十一训练样本中与所述第十二训练样本相同的第十二子训练样本,将所述第十一子训练样本分为两份,并分别与所述第十二子训练样本组合,得到第十一目标训练样本和第十二目标训练样本,并分别基于所述第十一目标训练样本和所述第十二目标训练样本进行模型训练,得到第十一目标模型和第十二目标训练模型;根据所述至少一个模型和所述第十一目标模型,计算所述第六特征的第十七变异系数,并根据所述至少一个模型和所述第十二目标模型,计算所述第六特征的第十八变异系数,若所述第十七变异系数和所述第十八变异系数均小于所述第十六变异系数,则确定不存在异常样本;或
若所述第九变异系数不小于所述第七变异系数,则识别除所述第二特征外的其他特征对应的变异系数中最大的第十九变异系数及所述第十九变异系数对应的第七特征;识别所述第七特征的最大特征权重对应的第十三模型以及最小特征权重对应的第十四模型;识别对所述第十三模型进行训练的第十三训练样本和对所述第十四模型进行训练的第十四训练样本中不同的第十三子训练样本,以及所述第十三训练样本中与所述第十四训练样本相同的第十四子训练样本,将所述第十三子训练样本分为两份,并分别与所述第十四子训练样本组合,得到第十三目标训练样本和第十四目标训练样本,并分别基于所述第十三目标训练样本和所述第十四目标训练样本进行模型训练,得到第十三目标模型和第十四目标训练模型;根据所述至少一个模型和所述第十三目标模型,计算所述第六特征的第二十变异系数,并根据所述至少一个模型和所述第十四目标模型,计算所述第六特征的第二十一变异系数,若所述第二十变异系数和所述第二十一变异系数均小于所述第十九变异系数,则确定不存在异常样本;或
若所述第八变异系数和所述第九变异系数均不小于所述第七变异系数,且所述第十七变异系数和所述第十八变异系数均小于所述第十六变异系数,所述第二十变异系数和所述第二十一变异系数均小于所述第十九变异系数,则确定不存在异常样本。
在一种可能的实施方式中,所述方法还包括:
若所述第十七变异系数不小于所述第十六变异系数,则将所述第十一目标训练样本中除所述第十二子训练样本外的其他训练样本确定为异常样本;或
若所述第十八变异系数不小于所述第十六变异系数,则将所述第十二目标训练样本中除所述第十二子训练样本外的其他训练样本确定为异常样本;或
若所述第十七变异系数和所述第十八变异系数均不小于所述第十六变异系数,则将所述第十一子训练样本确定为异常样本。
在一种可能的实施方式中,所述方法还包括:
若所述第二十变异系数不小于所述第十九变异系数,则将所述第十三目标训练样本中除所述第十四子训练样本外的其他训练样本确定为异常样本;或
若所述第二十一变异系数不小于所述第十九变异系数,则将所述第十四目标训练样本中除所述第十四子训练样本外的其他训练样本确定为异常样本;或
若所述第二十变异系数和所述第二十一变异系数均不小于所述第十九变异系数,则将所述第十三子训练样本确定为异常样本。
在一种可能的实施方式中,所述方法还包括:
根据每个模型中每个特征的特征权重,计算每个模型的特征的特征权重的平均差;
识别所述平均差中数值最小的最小平均差,并将所述最小平均差对应的模型确定为最优模型。
由于上述电子设备解决问题的原理与异常样本确定方法相似,因此上述电子设备的实施可以参见上述实施例,重复之处不再赘述。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。通信接口302用于上述电子设备与其他设备之间的通信。存储器可以包括随机存取存储器(RandomAccess Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选地,存储器还可以是至少一个位于远离前述处理器的存储装置。上述处理器可以是通用处理器,包括中央处理器、网络处理器(Network Processor,NP)等;还可以是数字指令处理器(Digital Signal Processing,DSP)、专用集成电路、现场可编程门陈列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。
实施例13:
在上述各实施例的基础上,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有可由处理器执行的计算机程序,当所述程序在所述处理器上运行时,使得所述处理器执行时实现如下步骤:
针对训练完成的至少一个模型,根据每个特征在每个模型中对应的特征权重,计算每个特征的变异系数,识别数值最大的第一变异系数对应的第一特征;
识别所述第一特征的最大特征权重对应的第一模型,以及最小特征权重对应的第二模型;
识别对所述第一模型进行训练的第一训练样本和对所述第二模型进行训练的第二训练样本中不同的第一子训练样本,以及所述第一训练样本中与所述第二训练样本相同的第二子训练样本,将所述第一子训练样本分为两份,并分别于与所述第二子训练样本组合,得到第一目标训练样本和第二目标训练样本,并分别基于所述第一目标训练样本和所述第二目标训练样本进行模型训练,得到第一目标模型和第二目标模型;
根据所述至少一个模型和所述第一目标模型,计算所述第一特征的第二变异系数,并根据所述至少一个模型和所述第二目标模型,计算所述第一特征的第三变异系数,若所述第二变异系数和第三变异系数均小于所述第一变异系数,则确定不存在异常样本。
在一种可能的实施方式中,所述根据每个特征在每个模型中对应的特征权重,计算每个特征的变异系数包括:
根据所述每个特征在每个模型中对应的特征权重,确定所述每个特征的特征权重的平均值和标准差;
将所述每个特征的特征权重的标准差与平均值的比值确定为该特征的变异系数。
在一种可能的实施方式中,若所述第二变异系数和所述第三变异系数中的至少一个不小于所述第一变异系数,所述方法还包括:
若所述第二变异系数不小于所述第一变异系数,则识别除所述第一特征外的其他特征对应的变异系数中最大的第四变异系数及所述第四变异系数对应的第二特征;识别所述第二特征的最大特征权重对应的第三模型以及最小特征权重对应的第四模型;识别对所述第三模型进行训练的第三训练样本和对所述第四模型进行训练的第四训练样本中不同的第三子训练样本,以及所述第三训练样本中与所述第四训练样本相同的第四子训练样本,将所述第三子训练样本分为两份,并分别与所述第四子训练样本组合,得到第三目标训练样本和第四目标训练样本,并分别基于所述第三目标训练样本和所述第四目标训练样本进行模型训练,得到第三目标模型和第四目标训练模型;根据所述至少一个模型和所述第三目标模型,计算所述第二特征的第五变异系数,并根据所述至少一个模型和所述第四目标模型,计算所述第二特征的第六变异系数,若所述第五变异系数和所述第六变异系数均小于所述第四变异系数,则确定不存在异常样本;或
若所述第三变异系数不小于所述第一变异系数,则识别除所述第一特征外的其他特征对应的变异系数中最大的第七变异系数及所述第七变异系数对应的第三特征;识别所述第三特征的最大特征权重对应的第五模型以及最小特征权重对应的第六模型;识别对所述第五模型进行训练的第五训练样本和对所述第六模型进行训练的第六训练样本中不同的第六子训练样本,以及所述第五训练样本中与所述第六训练样本相同的第六子训练样本,将所述第五子训练样本分为两份,并分别与所述第六子训练样本组合,得到第五目标训练样本和第六目标训练样本,并分别基于所述第五目标训练样本和所述第六目标训练样本进行模型训练,得到第五目标模型和第六目标训练模型;根据所述至少一个模型和所述第五目标模型,计算所述第三特征的第八变异系数,并根据所述至少一个模型和所述第六目标模型,计算所述第三特征的第九变异系数,若所述第八变异系数和所述第九变异系数均小于所述第七变异系数,则确定不存在异常样本;或
若所述第二变异系数和第三变异系数均不小于所述第一变异系数,且所述第五变异系数和所述第六变异系数均小于所述第四变异系数,所述第八变异系数和所述第九变异系数均小于所述第七变异系数,则确定不存在异常样本。
在一种可能的实施方式中,若所述第五变异系数和所述第六变异系数中的至少一个不小于所述第四变异系数,所述方法还包括:
若所述第五变异系数不小于所述第四变异系数,则识别除所述第二特征外的其他特征对应的变异系数中最大的第十变异系数及所述第十变异系数对应的第四特征;识别所述第四特征的最大特征权重对应的第七模型以及最小特征权重对应的第八模型;识别对所述第七模型进行训练的第七训练样本和对所述第八模型进行训练的第八训练样本中不同的第七子训练样本,以及所述第七训练样本中与所述第八训练样本相同的第八子训练样本,将所述第七子训练样本分为两份,并分别与所述第八子训练样本组合,得到第七目标训练样本和第八目标训练样本,并分别基于所述第七目标训练样本和所述第八目标训练样本进行模型训练,得到第七目标模型和第八目标训练模型;根据所述至少一个模型和所述第七目标模型,计算所述第四特征的第十一变异系数,并根据所述至少一个模型和所述第八目标模型,计算所述第四特征的第十二变异系数,若所述第十一变异系数和所述第十二变异系数均小于所述第十变异系数,则确定不存在异常样本;或
若所述第六变异系数不小于所述第四变异系数,则识别除所述第二特征外的其他特征对应的变异系数中最大的第十三变异系数及所述第十三变异系数对应的第五特征;识别所述第五特征的最大特征权重对应的第九模型以及最小特征权重对应的第十模型;识别对所述第九模型进行训练的第九训练样本和对所述第十模型进行训练的第十训练样本中不同的第九子训练样本,以及所述第九训练样本中与所述第十训练样本相同的第十子训练样本,将所述第九子训练样本分为两份,并分别与所述第十子训练样本组合,得到第九目标训练样本和第十目标训练样本,并分别基于所述第九目标训练样本和所述第十目标训练样本进行模型训练,得到第九目标模型和第十目标训练模型;根据所述至少一个模型和所述第九目标模型,计算所述第五特征的第十四变异系数,并根据所述至少一个模型和所述第十目标模型,计算所述第五特征的第十五变异系数,若所述第十四变异系数和所述第十五变异系数均小于所述第十三变异系数,则确定不存在异常样本;或
若所述第五变异系数和第六变异系数均不小于所述第四变异系数,且所述第十一变异系数和所述第十二变异系数均小于所述第十变异系数,所述第十四变异系数和所述第十五变异系数均小于所述第十三变异系数,则确定不存在异常样本。
在一种可能的实施方式中,所述方法还包括:
若所述第十一变异系数不小于所述第十变异系数,则将所述第七目标训练样本中除所述第八子训练样本外的其他训练样本确定为异常样本;或
若所述第十二变异系数不小于所述第十变异系数,则将所述第八目标训练样本中除所述第八子训练样本外的其他训练样本确定为异常样本;或
若所述第十一变异系数和所述第十二变异系数均不小于所述第十变异系数,则将所述第七子训练样本确定为异常样本。
在一种可能的实施方式中,所述方法还包括:
若所述第十四变异系数不小于所述第十三变异系数,则将所述第九目标训练样本中除所述第十子训练样本外的其他训练样本确定为异常样本;或
若所述第十五变异系数不小于所述第十三变异系数,则将所述第十目标训练样本中除所述第十子训练样本外的其他训练样本确定为异常样本;或
若所述第十四变异系数和所述第十五变异系数均不小于所述第十三变异系数,则将所述第九子训练样本确定为异常样本。
在一种可能的实施方式中,若所述第十一变异系数和所述第十二变异系数中存在至少一个不小于所述第十变异系数,所述方法还包括:
若所述第八变异系数不小于所述第七变异系数,则识别除所述第二特征外的其他特征对应的变异系数中最大的第十六变异系数及所述第十六变异系数对应的第六特征;识别所述第六特征的最大特征权重对应的第十一模型以及最小特征权重对应的第十二模型;识别对所述第十一模型进行训练的第十一训练样本和对所述第十二模型进行训练的第十二训练样本中不同的第十一子训练样本,以及所述第十一训练样本中与所述第十二训练样本相同的第十二子训练样本,将所述第十一子训练样本分为两份,并分别与所述第十二子训练样本组合,得到第十一目标训练样本和第十二目标训练样本,并分别基于所述第十一目标训练样本和所述第十二目标训练样本进行模型训练,得到第十一目标模型和第十二目标训练模型;根据所述至少一个模型和所述第十一目标模型,计算所述第六特征的第十七变异系数,并根据所述至少一个模型和所述第十二目标模型,计算所述第六特征的第十八变异系数,若所述第十七变异系数和所述第十八变异系数均小于所述第十六变异系数,则确定不存在异常样本;或
若所述第九变异系数不小于所述第七变异系数,则识别除所述第二特征外的其他特征对应的变异系数中最大的第十九变异系数及所述第十九变异系数对应的第七特征;识别所述第七特征的最大特征权重对应的第十三模型以及最小特征权重对应的第十四模型;识别对所述第十三模型进行训练的第十三训练样本和对所述第十四模型进行训练的第十四训练样本中不同的第十三子训练样本,以及所述第十三训练样本中与所述第十四训练样本相同的第十四子训练样本,将所述第十三子训练样本分为两份,并分别与所述第十四子训练样本组合,得到第十三目标训练样本和第十四目标训练样本,并分别基于所述第十三目标训练样本和所述第十四目标训练样本进行模型训练,得到第十三目标模型和第十四目标训练模型;根据所述至少一个模型和所述第十三目标模型,计算所述第六特征的第二十变异系数,并根据所述至少一个模型和所述第十四目标模型,计算所述第六特征的第二十一变异系数,若所述第二十变异系数和所述第二十一变异系数均小于所述第十九变异系数,则确定不存在异常样本;或
若所述第八变异系数和所述第九变异系数均不小于所述第七变异系数,且所述第十七变异系数和所述第十八变异系数均小于所述第十六变异系数,所述第二十变异系数和所述第二十一变异系数均小于所述第十九变异系数,则确定不存在异常样本。
在一种可能的实施方式中,所述方法还包括:
若所述第十七变异系数不小于所述第十六变异系数,则将所述第十一目标训练样本中除所述第十二子训练样本外的其他训练样本确定为异常样本;或
若所述第十八变异系数不小于所述第十六变异系数,则将所述第十二目标训练样本中除所述第十二子训练样本外的其他训练样本确定为异常样本;或
若所述第十七变异系数和所述第十八变异系数均不小于所述第十六变异系数,则将所述第十一子训练样本确定为异常样本。
在一种可能的实施方式中,所述方法还包括:
若所述第二十变异系数不小于所述第十九变异系数,则将所述第十三目标训练样本中除所述第十四子训练样本外的其他训练样本确定为异常样本;或
若所述第二十一变异系数不小于所述第十九变异系数,则将所述第十四目标训练样本中除所述第十四子训练样本外的其他训练样本确定为异常样本;或
若所述第二十变异系数和所述第二十一变异系数均不小于所述第十九变异系数,则将所述第十三子训练样本确定为异常样本。
在一种可能的实施方式中,所述方法还包括:
根据每个模型中每个特征的特征权重,计算每个模型的特征的特征权重的平均差;
识别所述平均差中数值最小的最小平均差,并将所述最小平均差对应的模型确定为最优模型。
由于上述提供的计算机可读取介质解决问题的原理与异常样本确定方法相似,因此处理器执行上述计算机可读取介质中的计算机程序后,实现的步骤可以参见上述实施例,重复之处不再赘述。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种异常样本确定方法,其特征在于,所述方法包括:
针对训练完成的至少一个模型,根据每个特征在每个模型中对应的特征权重,计算每个特征的变异系数,识别数值最大的第一变异系数对应的第一特征;
识别所述第一特征的最大特征权重对应的第一模型,以及最小特征权重对应的第二模型;
识别对所述第一模型进行训练的第一训练样本和对所述第二模型进行训练的第二训练样本中不同的第一子训练样本,以及所述第一训练样本中与所述第二训练样本相同的第二子训练样本,将所述第一子训练样本分为两份,并分别于与所述第二子训练样本组合,得到第一目标训练样本和第二目标训练样本,并分别基于所述第一目标训练样本和所述第二目标训练样本进行模型训练,得到第一目标模型和第二目标模型;
根据所述至少一个模型和所述第一目标模型,计算所述第一特征的第二变异系数,并根据所述至少一个模型和所述第二目标模型,计算所述第一特征的第三变异系数,若所述第二变异系数和第三变异系数均小于所述第一变异系数,则确定不存在异常样本。
2.根据权利要求1所述的方法,其特征在于,若所述第二变异系数和所述第三变异系数中的至少一个不小于所述第一变异系数,所述方法还包括:
若所述第二变异系数不小于所述第一变异系数,则识别除所述第一特征外的其他特征对应的变异系数中最大的第四变异系数及所述第四变异系数对应的第二特征;识别所述第二特征的最大特征权重对应的第三模型以及最小特征权重对应的第四模型;识别对所述第三模型进行训练的第三训练样本和对所述第四模型进行训练的第四训练样本中不同的第三子训练样本,以及所述第三训练样本中与所述第四训练样本相同的第四子训练样本,将所述第三子训练样本分为两份,并分别与所述第四子训练样本组合,得到第三目标训练样本和第四目标训练样本,并分别基于所述第三目标训练样本和所述第四目标训练样本进行模型训练,得到第三目标模型和第四目标训练模型;根据所述至少一个模型和所述第三目标模型,计算所述第二特征的第五变异系数,并根据所述至少一个模型和所述第四目标模型,计算所述第二特征的第六变异系数,若所述第五变异系数和所述第六变异系数均小于所述第四变异系数,则确定不存在异常样本;或
若所述第三变异系数不小于所述第一变异系数,则识别除所述第一特征外的其他特征对应的变异系数中最大的第七变异系数及所述第七变异系数对应的第三特征;识别所述第三特征的最大特征权重对应的第五模型以及最小特征权重对应的第六模型;识别对所述第五模型进行训练的第五训练样本和对所述第六模型进行训练的第六训练样本中不同的第六子训练样本,以及所述第五训练样本中与所述第六训练样本相同的第六子训练样本,将所述第五子训练样本分为两份,并分别与所述第六子训练样本组合,得到第五目标训练样本和第六目标训练样本,并分别基于所述第五目标训练样本和所述第六目标训练样本进行模型训练,得到第五目标模型和第六目标训练模型;根据所述至少一个模型和所述第五目标模型,计算所述第三特征的第八变异系数,并根据所述至少一个模型和所述第六目标模型,计算所述第三特征的第九变异系数,若所述第八变异系数和所述第九变异系数均小于所述第七变异系数,则确定不存在异常样本;或
若所述第二变异系数和第三变异系数均不小于所述第一变异系数,且所述第五变异系数和所述第六变异系数均小于所述第四变异系数,所述第八变异系数和所述第九变异系数均小于所述第七变异系数,则确定不存在异常样本。
3.根据权利要求2所述的方法,其特征在于,若所述第五变异系数和所述第六变异系数中的至少一个不小于所述第四变异系数,所述方法还包括:
若所述第五变异系数不小于所述第四变异系数,则识别除所述第二特征外的其他特征对应的变异系数中最大的第十变异系数及所述第十变异系数对应的第四特征;识别所述第四特征的最大特征权重对应的第七模型以及最小特征权重对应的第八模型;识别对所述第七模型进行训练的第七训练样本和对所述第八模型进行训练的第八训练样本中不同的第七子训练样本,以及所述第七训练样本中与所述第八训练样本相同的第八子训练样本,将所述第七子训练样本分为两份,并分别与所述第八子训练样本组合,得到第七目标训练样本和第八目标训练样本,并分别基于所述第七目标训练样本和所述第八目标训练样本进行模型训练,得到第七目标模型和第八目标训练模型;根据所述至少一个模型和所述第七目标模型,计算所述第四特征的第十一变异系数,并根据所述至少一个模型和所述第八目标模型,计算所述第四特征的第十二变异系数,若所述第十一变异系数和所述第十二变异系数均小于所述第十变异系数,则确定不存在异常样本;或
若所述第六变异系数不小于所述第四变异系数,则识别除所述第二特征外的其他特征对应的变异系数中最大的第十三变异系数及所述第十三变异系数对应的第五特征;识别所述第五特征的最大特征权重对应的第九模型以及最小特征权重对应的第十模型;识别对所述第九模型进行训练的第九训练样本和对所述第十模型进行训练的第十训练样本中不同的第九子训练样本,以及所述第九训练样本中与所述第十训练样本相同的第十子训练样本,将所述第九子训练样本分为两份,并分别与所述第十子训练样本组合,得到第九目标训练样本和第十目标训练样本,并分别基于所述第九目标训练样本和所述第十目标训练样本进行模型训练,得到第九目标模型和第十目标训练模型;根据所述至少一个模型和所述第九目标模型,计算所述第五特征的第十四变异系数,并根据所述至少一个模型和所述第十目标模型,计算所述第五特征的第十五变异系数,若所述第十四变异系数和所述第十五变异系数均小于所述第十三变异系数,则确定不存在异常样本;或
若所述第五变异系数和第六变异系数均不小于所述第四变异系数,且所述第十一变异系数和所述第十二变异系数均小于所述第十变异系数,所述第十四变异系数和所述第十五变异系数均小于所述第十三变异系数,则确定不存在异常样本。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
若所述第十一变异系数不小于所述第十变异系数,则将所述第七目标训练样本中除所述第八子训练样本外的其他训练样本确定为异常样本;或
若所述第十二变异系数不小于所述第十变异系数,则将所述第八目标训练样本中除所述第八子训练样本外的其他训练样本确定为异常样本;或
若所述第十一变异系数和所述第十二变异系数均不小于所述第十变异系数,则将所述第七子训练样本确定为异常样本;或
若所述第十四变异系数不小于所述第十三变异系数,则将所述第九目标训练样本中除所述第十子训练样本外的其他训练样本确定为异常样本;或
若所述第十五变异系数不小于所述第十三变异系数,则将所述第十目标训练样本中除所述第十子训练样本外的其他训练样本确定为异常样本;或
若所述第十四变异系数和所述第十五变异系数均不小于所述第十三变异系数,则将所述第九子训练样本确定为异常样本。
5.根据权利要求3所述的方法,其特征在于,若所述第十一变异系数和所述第十二变异系数中存在至少一个不小于所述第十变异系数,所述方法还包括:
若所述第八变异系数不小于所述第七变异系数,则识别除所述第二特征外的其他特征对应的变异系数中最大的第十六变异系数及所述第十六变异系数对应的第六特征;识别所述第六特征的最大特征权重对应的第十一模型以及最小特征权重对应的第十二模型;识别对所述第十一模型进行训练的第十一训练样本和对所述第十二模型进行训练的第十二训练样本中不同的第十一子训练样本,以及所述第十一训练样本中与所述第十二训练样本相同的第十二子训练样本,将所述第十一子训练样本分为两份,并分别与所述第十二子训练样本组合,得到第十一目标训练样本和第十二目标训练样本,并分别基于所述第十一目标训练样本和所述第十二目标训练样本进行模型训练,得到第十一目标模型和第十二目标训练模型;根据所述至少一个模型和所述第十一目标模型,计算所述第六特征的第十七变异系数,并根据所述至少一个模型和所述第十二目标模型,计算所述第六特征的第十八变异系数,若所述第十七变异系数和所述第十八变异系数均小于所述第十六变异系数,则确定不存在异常样本;或
若所述第九变异系数不小于所述第七变异系数,则识别除所述第二特征外的其他特征对应的变异系数中最大的第十九变异系数及所述第十九变异系数对应的第七特征;识别所述第七特征的最大特征权重对应的第十三模型以及最小特征权重对应的第十四模型;识别对所述第十三模型进行训练的第十三训练样本和对所述第十四模型进行训练的第十四训练样本中不同的第十三子训练样本,以及所述第十三训练样本中与所述第十四训练样本相同的第十四子训练样本,将所述第十三子训练样本分为两份,并分别与所述第十四子训练样本组合,得到第十三目标训练样本和第十四目标训练样本,并分别基于所述第十三目标训练样本和所述第十四目标训练样本进行模型训练,得到第十三目标模型和第十四目标训练模型;根据所述至少一个模型和所述第十三目标模型,计算所述第六特征的第二十变异系数,并根据所述至少一个模型和所述第十四目标模型,计算所述第六特征的第二十一变异系数,若所述第二十变异系数和所述第二十一变异系数均小于所述第十九变异系数,则确定不存在异常样本;或
若所述第八变异系数和所述第九变异系数均不小于所述第七变异系数,且所述第十七变异系数和所述第十八变异系数均小于所述第十六变异系数,所述第二十变异系数和所述第二十一变异系数均小于所述第十九变异系数,则确定不存在异常样本。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
若所述第十七变异系数不小于所述第十六变异系数,则将所述第十一目标训练样本中除所述第十二子训练样本外的其他训练样本确定为异常样本;或
若所述第十八变异系数不小于所述第十六变异系数,则将所述第十二目标训练样本中除所述第十二子训练样本外的其他训练样本确定为异常样本;或
若所述第十七变异系数和所述第十八变异系数均不小于所述第十六变异系数,则将所述第十一子训练样本确定为异常样本;或
若所述第二十变异系数不小于所述第十九变异系数,则将所述第十三目标训练样本中除所述第十四子训练样本外的其他训练样本确定为异常样本;或
若所述第二十一变异系数不小于所述第十九变异系数,则将所述第十四目标训练样本中除所述第十四子训练样本外的其他训练样本确定为异常样本;或
若所述第二十变异系数和所述第二十一变异系数均不小于所述第十九变异系数,则将所述第十三子训练样本确定为异常样本。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据每个模型中每个特征的特征权重,计算每个模型的特征的特征权重的平均差;
识别所述平均差中数值最小的最小平均差,并将所述最小平均差对应的模型确定为最优模型。
8.一种异常样本确定装置,其特征在于,所述装置包括:
计算模块,用于针对训练完成的至少一个模型,根据每个特征在每个模型中对应的特征权重,计算每个特征的变异系数,识别数值最大的第一变异系数对应的第一特征;
识别模块,用于识别所述第一特征的最大特征权重对应的第一模型,以及最小特征权重对应的第二模型;
异常样本确定模块,用于识别对所述第一模型进行训练的第一训练样本和对所述第二模型进行训练的第二训练样本中不同的第一子训练样本,以及所述第一训练样本中与所述第二训练样本相同的第二子训练样本,将所述第一子训练样本分为两份,并分别于与所述第二子训练样本组合,得到第一目标训练样本和第二目标训练样本,并分别基于所述第一目标训练样本和所述第二目标训练样本进行模型训练,得到第一目标模型和第二目标模型;根据所述至少一个模型和所述第一目标模型,计算所述第一特征的第二变异系数,并根据所述至少一个模型和所述第二目标模型,计算所述第一特征的第三变异系数,若所述第二变异系数和第三变异系数均小于所述第一变异系数,则确定不存在异常样本。
9.一种电子设备,其特征在于,所述电子设备至少包括处理器和存储器,所述处理器用于执行存储器中存储的计算机程序时实现权利要求1-7中任一所述的异常样本确定方法的步骤。
10.一种计算机可读存储介质,其特征在于,其存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-7中任一所述的异常样本确定方法的步骤。
CN202111208077.4A 2021-10-18 2021-10-18 一种异常样本确定方法、装置、设备及介质 Pending CN114021623A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111208077.4A CN114021623A (zh) 2021-10-18 2021-10-18 一种异常样本确定方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111208077.4A CN114021623A (zh) 2021-10-18 2021-10-18 一种异常样本确定方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN114021623A true CN114021623A (zh) 2022-02-08

Family

ID=80056365

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111208077.4A Pending CN114021623A (zh) 2021-10-18 2021-10-18 一种异常样本确定方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN114021623A (zh)

Similar Documents

Publication Publication Date Title
CN108388509B (zh) 一种软件测试方法、计算机可读存储介质及终端设备
CN110334013B (zh) 决策引擎的测试方法、装置及电子设备
CN111461445B (zh) 短期风速预测方法、装置、计算机设备及存储介质
CN110969600A (zh) 一种产品缺陷检测方法、装置、电子设备及存储介质
CN111290967A (zh) 一种软件缺陷预测方法、装置、设备及存储介质
CN111507483A (zh) 返修板检测装置、方法及计算机可读存储介质
CN113569432B (zh) 一种液气密元件的模拟检测方法及系统
US20070180411A1 (en) Method and apparatus for comparing semiconductor-related technical systems characterized by statistical data
CN111047017B (zh) 一种神经网络算法的评估方法、装置及电子设备
CN116166967B (zh) 基于元学习与残差网络的数据处理方法、设备和存储介质
CN112527573B (zh) 一种接口测试方法、装置及存储介质
CN115831295B (zh) 材料本构方程参数标定方法、装置及计算机设备
CN114021623A (zh) 一种异常样本确定方法、装置、设备及介质
Zadorozhnyi et al. Methods of simulation queueing systems with heavy tails
CN115203556A (zh) 一种评分预测模型训练方法、装置、电子设备及存储介质
CN115543435A (zh) 基于开发贡献值的软件开发质量衡量方法、装置及设备
CN114240654A (zh) 基于交易链路的性能能力透视方法、系统、设备及可读存储介质
CN111382757B (zh) 深度学习分类算法中动态调节训练样本的方法及终端设备
CN108804640B (zh) 基于最大化iv的数据分组方法、装置、储存介质及设备
CN112541514A (zh) 事件发布方法、服务器、终端及存储介质
EP3518153A1 (en) Information processing method and information processing system
CN108268347B (zh) 一种物理设备性能测试方法及装置
CN113435058B (zh) 配网自愈测试模型的数据降维方法、系统、终端及介质
Agarwal Markovian software reliability model for two types of failures with imperfect debugging rate and generation of errors
Jing On parameter separation of the Wiener system identification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination