CN113554126B - 样本评估方法、装置、设备及计算机可读存储介质 - Google Patents

样本评估方法、装置、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN113554126B
CN113554126B CN202111096572.0A CN202111096572A CN113554126B CN 113554126 B CN113554126 B CN 113554126B CN 202111096572 A CN202111096572 A CN 202111096572A CN 113554126 B CN113554126 B CN 113554126B
Authority
CN
China
Prior art keywords
sample
detected
preset
value
novelty
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111096572.0A
Other languages
English (en)
Other versions
CN113554126A (zh
Inventor
冯建设
张建宇
花霖
刘桂芬
陈军
王春洲
朱瑜鑫
赵一波
刘小双
成建洪
熊皓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Xinrun Fulian Digital Technology Co Ltd
Original Assignee
Shenzhen Xinrun Fulian Digital Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Xinrun Fulian Digital Technology Co Ltd filed Critical Shenzhen Xinrun Fulian Digital Technology Co Ltd
Priority to CN202111096572.0A priority Critical patent/CN113554126B/zh
Publication of CN113554126A publication Critical patent/CN113554126A/zh
Application granted granted Critical
Publication of CN113554126B publication Critical patent/CN113554126B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

本发明公开了一种样本评估方法、装置、设备及计算机可读存储介质,该方法包括:基于预设历史样本集合和预设比例,确定检测样本集合和待检测样本;从所述检测样本集合中随机选取目标样本,基于预设核函数和所述目标样本,计算所述待检测样本的新颖度;基于预设重构度测试函数和所述目标样本,计算所述待检测样本的可重构度;基于所述待检测样本的新颖度和可重构度,确定所述待检测样本是否为高价值样本。本发明通过检测样本集合预设核函数和预设重构度测试函数,计算得到可以衡量待检测样本是否为高价值样本的新颖度和可重构度,有效筛选出高价值样本,减少低价值的相似性样本的采集。

Description

样本评估方法、装置、设备及计算机可读存储介质
技术领域
本发明涉及数据处理领域,尤其涉及样本评估方法、装置、设备及计算机可读存储介质。
背景技术
在模型训练阶段,样本集合对模型训练的效果来说至关重要,若模型集合中存在一定量的相似性样本,则会导致样本的不平衡度增高,从而致使模型训练的效率降低,因此,如何降低相似性样本的采集量便成为了亟待解决的技术问题,而现有的样本采集方法包括随机采样、周期性采样、基于规则采样、主动采样以及移动窗采样等,这些方法都无法有效降低采集到的相似性样本的数量。
发明内容
本发明的主要目的在于提供一种样本评估方法、装置、设备及计算机可读存储介质,旨在解决现有技术方案无法通过降低相似性样本的采集数量而提高模型训练效率的技术问题。
此外,为实现上述目的,本发明还提供一种样本评估方法,所述样本评估方法包括以下步骤:
基于预设历史样本集合和预设比例,确定检测样本集合和待检测样本;
从所述检测样本集合中随机选取目标样本,基于预设核函数和所述目标样本,计算所述待检测样本的新颖度;
基于预设重构度测试函数和所述目标样本,计算所述待检测样本的可重构度;
基于所述待检测样本的新颖度和可重构度,确定所述待检测样本是否为高价值样本。
可选地,所述基于预设核函数和所述目标样本,计算所述待检测样本的新颖度的步骤包括:
将所述待检测样本和所述目标样本输入预设核函数,得到新颖度;
更换所述目标样本,并循环所述将所述待检测样本和所述目标样本输入预设核函数,得到新颖度的步骤,得到多个新颖度;
将所述多个新颖度中的极值作为所述待检测样本的新颖度。
可选地,所述基于预设重构度测试函数和所述目标样本,计算所述待检测样本的可重构度的步骤包括:
将所述待检测样本和所述目标样本输入包含预设测试模型的预设重构度测试函数,得到所述待检测样本的可重构度。
可选地,所述基于预设重构度测试函数和所述目标样本,计算所述待检测样本的可重构度的步骤之后,包括:
基于第一预设检验函数、第二预设检验函数和所述检测样本集合,确定新颖度上限值和可重构度上限值;
若所述待检测样本的新颖度大于所述新颖度上限值,且所述待检测样本的可重构度大于所述可重构度上限值,则执行所述基于所述待检测样本的新颖度和可重构度,确定所述待检测样本是否为高价值样本的步骤。
可选地,所述基于所述待检测样本的新颖度和可重构度,确定所述待检测样本是否为高价值样本的步骤包括:
基于所述待检测样本的新颖度和可重构度,计算所述待检测样本的样本价值度;
若所述样本价值度大于第一预设阈值,则确定所述待检测样本是高价值样本;
若所述样本价值度小于或等于第一预设阈值,则确定所述待检测样本不是高价值样本。
可选地,所述基于所述待检测样本的新颖度和可重构度,确定所述待检测样本是否为高价值样本的步骤之后,包括:
若所述待检测样本为高价值样本,则将所述待检测样本加入目标样本集合;
当所述目标样本集合的样本数量大于第二预设阈值时,将所述目标样本集合替换所述检测样本集合;
返回所述从所述检测样本集合中随机选取目标样本的步骤,直至所述预设历史样本集合中不存在为高价值样本的待检测样本,得到高价值样本集合。
可选地,所述返回所述从所述检测样本集合中随机选取目标样本的步骤,直至所述预设历史样本集合中不存在为高价值样本的待检测样本,得到高价值样本集合的步骤之后,包括:
接收新检测样本,基于所述高价值样本集合、所述预设核函数以及所述预设重构度测试函数,确定所述新检测样本是否为高价值样本。
此外,为实现上述目的,本发明还提供一种样本评估装置,所述样本评估装置包括:
确定模块,用于基于预设历史样本集合和预设比例,确定检测样本集合和待检测样本;
新颖度计算模块,用于从所述检测样本集合中随机选取目标样本,基于预设核函数和所述目标样本,计算所述待检测样本的新颖度;
可重构度计算模块,用于基于预设重构度测试函数和所述目标样本,计算所述待检测样本的可重构度;
高价值样本确定模块,用于基于所述待检测样本的新颖度和可重构度,确定所述待检测样本是否为高价值样本。
此外,为实现上述目的,本发明还提供一种样本评估设备,所述样本评估设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的样本评估程序,所述样本评估程序被所述处理器执行时实现如上述的样本评估方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有样本评估程序,所述样本评估程序被处理器执行时实现如上述的方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述的样本评估方法的步骤。
本发明实施例提出的一种样本评估方法、装置、设备及计算机可读存储介质。在本发明实施例中,基于预设历史样本集合和预设比例,确定检测样本集合和待检测样本,然后从检测样本集合中随机选取目标样本,基于预设核函数和目标样本,计算待检测样本的新颖度,基于预设重构度测试函数和目标样本,计算待检测样本的可重构度,最终,基于待检测样本的新颖度和可重构度,确定待检测样本是否为高价值样本,通过检测样本集合预设核函数和预设重构度测试函数,计算得到可以衡量待检测样本是否为高价值样本的新颖度和可重构度,有效筛选出高价值样本,减少低价值的相似性样本的采集。
附图说明
图1为本发明实施例提供的样本评估设备一种实施方式的硬件结构示意图;
图2为本发明样本评估方法第一实施例的流程示意图;
图3为本发明样本评估方法第二实施例的流程示意图;
图4为本发明样本评估装置一实施例的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明,其本身没有特定的意义。因此,“模块”、“部件”或“单元”可以混合地使用。
本发明实施例终端设备可以是能够运行样本评估系统的设备,或者,本发明实施例终端设备还可以是具有程序编译功能的设备,该终端设备可以是PC(PersonalComputer,个人计算机)、平板电脑、便携计算机等等。
如图1所示,该终端可以包括:处理器1001,例如CPU(Central Processing Unit,中央处理器),通信总线1002,存储器1003。其中,通信总线1002用于实现这些组件之间的连接通信。存储器1003可以是高速RAM存储器,也可以是稳定的存储器(non-volatilememory),例如磁盘存储器。存储器1003可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1003中可以包括样本评估程序。
在图1所示的终端中,处理器1001可以用于调用存储器1003中存储的样本评估程序,并执行以下操作:
基于预设历史样本集合和预设比例,确定检测样本集合和待检测样本;
从所述检测样本集合中随机选取目标样本,基于预设核函数和所述目标样本,计算所述待检测样本的新颖度;
基于预设重构度测试函数和所述目标样本,计算所述待检测样本的可重构度;
基于所述待检测样本的新颖度和可重构度,确定所述待检测样本是否为高价值样本。
进一步地,处理器1001可以用于调用存储器1003中存储的样本评估程序,还执行以下操作:
将所述待检测样本和所述目标样本输入预设核函数,得到新颖度;
更换所述目标样本,并循环所述将所述待检测样本和所述目标样本输入预设核函数,得到新颖度的步骤,得到多个新颖度;
将所述多个新颖度中的极值作为所述待检测样本的新颖度。
进一步地,处理器1001可以用于调用存储器1003中存储的样本评估程序,还执行以下操作:
将所述待检测样本和所述目标样本输入包含预设测试模型的预设重构度测试函数,得到所述待检测样本的可重构度。
进一步地,处理器1001可以用于调用存储器1003中存储的样本评估程序,还执行以下操作:
基于第一预设检验函数、第二预设检验函数和所述检测样本集合,确定新颖度上限值和可重构度上限值;
若所述待检测样本的新颖度大于所述新颖度上限值,且所述待检测样本的可重构度大于所述可重构度上限值,则执行所述基于所述待检测样本的新颖度和可重构度,确定所述待检测样本是否为高价值样本的步骤。
进一步地,处理器1001可以用于调用存储器1003中存储的样本评估程序,还执行以下操作:
基于所述待检测样本的新颖度和可重构度,计算所述待检测样本的样本价值度;
若所述样本价值度大于第一预设阈值,则确定所述待检测样本是高价值样本;
若所述样本价值度小于或等于第一预设阈值,则确定所述待检测样本不是高价值样本。
进一步地,处理器1001可以用于调用存储器1003中存储的样本评估程序,还执行以下操作:
若所述待检测样本为高价值样本,则将所述待检测样本加入目标样本集合;
当所述目标样本集合的样本数量大于第二预设阈值时,将所述目标样本集合替换所述检测样本集合;
返回所述从所述检测样本集合中随机选取目标样本的步骤,直至所述预设历史样本集合中不存在为高价值样本的待检测样本,得到高价值样本集合。
进一步地,处理器1001可以用于调用存储器1003中存储的样本评估程序,还执行以下操作:
接收新检测样本,基于所述高价值样本集合、所述预设核函数以及所述预设重构度测试函数,确定所述新检测样本是否为高价值样本。
基于上述设备硬件结构,提出了本发明样本评估方法的实施例。
在工业场景中,利用模型对设备的故障进行诊断是一个非常好用的方法,而设备故障诊断建模需要对设备状态进行采样,而设备在健康状态下运行时,对设备进行的采样会得到过多的高相似度健康样本,这不仅会导致模型训练效率不高,同时也会导致样本严重,本发明提出的样本评估方法用于对低价值的相似性样本进行过滤,以得到高价值样本,有效减少低价值的相似性样本的采集,降低样本的不平衡度,提高模型训练效率,本发明通过预设的核函数和重构度测试函数对待检测样本进行计算,根据计算结果确定待检测样本是否为高价值样本。
参照图2,在本发明样本评估方法的第一实施例中,所述样本评估方法包括:
步骤S10,基于预设历史样本集合和预设比例,确定检测样本集合和待检测样本;
本发明的技术方案目标在于从大量的历史数据集合(即本实施例中的预设历史样本集合)中选择具有代表性的样本子集(即本实施例中的检测样本集合)用于更加高效的模型训练。例如,预设历史样本集合中包含十万个样本,预设比例为5%(即0.05),则基于预设历史样本集合中的样本总数及预设比例,计算出检测样本集合的样本数5000(100000×0.05),而待检测样本可以是预设历史样本集合中除检测样本集合之外的样本,即,从十万个样本中先随机选出5000个样本作为检测样本集合,然后再从剩余的95000个样本中随机选出待检测样本。
步骤S20,从所述检测样本集合中随机选取目标样本,基于预设核函数和所述目标样本,计算所述待检测样本的新颖度;
确定检测样本集合后,从检测样本集合中随机选取目标样本,基于预设核函数和目标样本,计算待检测样本的新颖度,具体地,定义Xi为目标样本(即检测样本集合B中的第i个样本),Xj为待检测样本,计算目标样本与待检测样本之间的非相似性(以数值的形式表示)的公式可以为:dis(Xj,Xi)=║φ(Xj),φ(Xi)║=
Figure 441422DEST_PATH_IMAGE001
,其中,φ(Xi)和φ(Xj)为核函数,即本申请中的预设核函数,定义检测样本集合为B,新颖度为μ,则待检测样本Xj的新颖度为:
Figure 27124DEST_PATH_IMAGE002
,新颖度测试上限为:
Figure 456969DEST_PATH_IMAGE003
,通过上式依次计算待检测样本与检测样本集合中所有样本之间的新颖度,得到多个新颖度值,从所有新颖度值中选出最小的新颖度值作为待检测样本的新颖度。
步骤S30,基于预设重构度测试函数和所述目标样本,计算所述待检测样本的可重构度;
计算得到待检测样本的新颖度后,基于预设重构度测试函数和目标样本,计算待检测样本的可重构度,具体地,定义待检测样本的可重构度为Vj,
Figure 698594DEST_PATH_IMAGE004
,目标样本的可重构度为Vi,
Figure 786767DEST_PATH_IMAGE005
,其中,Yj为样本标签,M(Xj)为样本基于训练模型M的输出值,检测样本集合中所有目标样本的可重构度构成了可重构度集合V,V={Vi},i=1,...,|B|,可重构度测试上限为:
Figure 430238DEST_PATH_IMAGE006
Figure 765404DEST_PATH_IMAGE007
为t分布在显著水平为α时的临界值。
Figure 556643DEST_PATH_IMAGE008
Figure 635457DEST_PATH_IMAGE009
分别是集合V中样本的均值与样本标准差,通过上式计算得到待检测样本的可重构度Vj。
步骤S40,基于所述待检测样本的新颖度和可重构度,确定所述待检测样本是否为高价值样本。
本实施例给出一种基于待检测样本的新颖度和可重构度,确定待检测样本是否为高价值样本的方法,具体地,若待检测样本的新颖度﹥新颖度测试上限,且待检测样本的可重构度﹥可重构度测试上限,则计算待检测样本的新颖度与待检测样本的可重构度的乘积,得到待检测样本的价值度,若待检测样本的价值度大于某个值,或者符合某个公式,则确定待检测样本为高价值样本,同理,若不符合上述任一条件,则确定待检测样本不是高价值样本。
进一步地,在一种可行的实施例中,上述步骤S20,基于预设核函数和所述目标样本,计算所述待检测样本的新颖度,细化的步骤包括:
步骤S21,将所述待检测样本和所述目标样本输入预设核函数,得到新颖度;
步骤S22,更换所述目标样本,并循环所述将所述待检测样本和所述目标样本输入预设核函数,得到新颖度的步骤,得到多个新颖度;
步骤S23,将所述多个新颖度中的极值作为所述待检测样本的新颖度。
确定检测样本集合后,可以先从检测样本集合中随机选取一个目标样本,基于预设核函数计算待检测样本与该目标样本的非相似性值,然后再从检测样本集合中随机选取一个目标样本(第一次选取的目标样本可排除),如此循环,可得到检测样本集合中所有的目标样本与待检测样本之间的非相似性值(即本实施例中的新颖度),从这些新颖度中选出一个最小的新颖度,确定这个最小的新颖度(即本实施例中的极值)为待检测样本的新颖度。进一步地,在一种可行的实施例中,上述步骤S30,基于预设重构度测试函数和所述目标样本,计算所述待检测样本的可重构度,细化的步骤包括:
步骤S31,将所述待检测样本和所述目标样本输入包含预设测试模型的预设重构度测试函数,得到所述待检测样本的可重构度。
计算得到待检测样本的新颖度后,基于预设重构度测试函数和目标样本,计算待检测样本的可重构度,具体地,定义目标样本的可重构度为Vi,
Figure 133435DEST_PATH_IMAGE010
,其中,Yi为样本标签,M(Xi)为样本基于训练模型M的输出值,检测样本集合中所有目标样本的可重构度构成了可重构度集合V,V={Vi},i=1,...,|B|,定义待检测样本的可重构度为Vj,
Figure 905082DEST_PATH_IMAGE004
,基于可重构度集合V和检测样本集合为B,计算得到可重构度测试上限为:
Figure 668769DEST_PATH_IMAGE011
Figure 551275DEST_PATH_IMAGE007
为t分布在显著水平为α时的临界值。
Figure 903759DEST_PATH_IMAGE012
Figure 908624DEST_PATH_IMAGE013
分别是集合V中样本的均值与样本标准差,基于上式得到检测样本集合中所有目标样本的可重构度和可重构度测试上限,然后确定待检测样本是否通过可重构度测试。
进一步地,在一种可行的实施例中,上述步骤S30,基于预设重构度测试函数和所述目标样本,计算所述待检测样本的可重构度,之后的步骤包括:
步骤a1,基于第一预设检验函数、第二预设检验函数和所述检测样本集合,确定新颖度上限值和可重构度上限值;
步骤a2,若所述待检测样本的新颖度大于所述新颖度上限值,且所述待检测样本的可重构度大于所述可重构度上限值,则执行所述基于所述待检测样本的新颖度和可重构度,确定所述待检测样本是否为高价值样本的步骤。
本实施例中的第一预设检验函数即为上述内容中的新颖度测试上限公式:
Figure 346558DEST_PATH_IMAGE014
,第二预设检验函数即为上述内容中的可重构度测试上限公式:
Figure 767175DEST_PATH_IMAGE015
,基于第一预设检验函数、第二预设检验函数和检测样本集合,分别确定新颖度上限值和可重构度上限值,然后,判断待检测样本的新颖度与新颖度上限值之间的大小关系,判断待检测样本的可重构度与可重构度上限值之间的大小关系,若待检测样本的新颖度大于新颖度上限值,且待检测样本的可重构度大于可重构度上限值,则执行基于待检测样本的新颖度和可重构度,确定待检测样本是否为高价值样本的步骤,即,当待检测样本的新颖度和可重构度分别通过新颖度测试和可重构度测试时,才判断待检测样本是否为高价值样本。
进一步地,在一种可行的实施例中,上述步骤S40,基于所述待检测样本的新颖度和可重构度,确定所述待检测样本是否为高价值样本,细化的步骤包括:
步骤b1,基于所述待检测样本的新颖度和可重构度,计算所述待检测样本的样本价值度;
步骤b2,若所述样本价值度大于第一预设阈值,则确定所述待检测样本是高价值样本;
步骤b3,若所述样本价值度小于或等于第一预设阈值,则确定所述待检测样本不是高价值样本。
本实施例给出一种基于待检测样本的新颖度和可重构度,确定待检测样本是否为高价值样本的方法,具体地,若待检测样本的新颖度﹥新颖度测试上限,且待检测样本的可重构度﹥可重构度测试上限,则计算待检测样本的新颖度与待检测样本的可重构度的乘积,得到待检测样本的价值度,若待检测样本的价值度大于某个值,或者符合某个公式,则确定待检测样本为高价值样本,同理,若不符合上述任一条件,则确定待检测样本不是高价值样本。
在本实施例中,基于预设历史样本集合和预设比例,确定检测样本集合和待检测样本,然后从检测样本集合中随机选取目标样本,基于预设核函数和目标样本,计算待检测样本的新颖度,基于预设重构度测试函数和目标样本,计算待检测样本的可重构度,最终,基于待检测样本的新颖度和可重构度,确定待检测样本是否为高价值样本,通过检测样本集合预设核函数和预设重构度测试函数,计算得到可以衡量待检测样本是否为高价值样本的新颖度和可重构度,有效筛选出高价值样本,减少低价值的相似性样本的采集。
进一步地,参照图3,在本发明上述实施例的基础上,提出了本发明样本评估方法的第二实施例。
本实施例是第一实施例中步骤40之后的步骤,本实施例与本发明上述实施例的区别在于:
步骤S50,若所述待检测样本为高价值样本,则将所述待检测样本加入目标样本集合;
步骤S60,当所述目标样本集合的样本数量大于第二预设阈值时,将所述目标样本集合替换所述检测样本集合;
步骤S70,返回所述从所述检测样本集合中随机选取目标样本的步骤,直至所述预设历史样本集合中不存在为高价值样本的待检测样本,得到高价值样本集合。
需要说明的是,在确定待检测样本为高价值样本后,可以将待检测样本加入目标样本集合,用于存储确定的高价值样本,当目标样本集合中的高价值样本的数量大于第二预设阈值时,将包含高价值样本的目标样本集合替换检测样本集合,再次执行确定待检测样本,以及从目标样本集合中随机选取目标样本,基于预设核函数和目标样本,计算待检测样本的新颖度等步骤,相当于上述步骤S10中,确定的检测样本集合为之前得到的包含高价值样本的目标样本集合,循环上述S10到S40的步骤,直至预设历史样本集合中不存在高价值样本,最终得到高价值样本集合。
进一步地,在一种可行的实施例中,上述步骤S70,返回所述从所述检测样本集合中随机选取目标样本的步骤,直至所述预设历史样本集合中不存在为高价值样本的待检测样本,得到高价值样本集合,之后的步骤包括:
步骤S80,接收新检测样本,基于所述高价值样本集合、所述预设核函数以及所述预设重构度测试函数,确定所述新检测样本是否为高价值样本。
上述得到高价值样本集合后,可以接收预设历史样本集合之外的新检测样本,基于上述相同的方法,判断新检测样本是否为高价值样本,这样就可以不断更新高价值样本集合,更好地筛选高价值样本。
在本实施例中,通过对高价值样本的更新,完善了高价值样本的筛选方法,有效地筛选出高价值样本,减少低价值的相似性样本的采集。
此外,参照图4,本发明实施例还提出一种样本评估装置,所述样本评估装置包括:
确定模块10,用于基于预设历史样本集合和预设比例,确定检测样本集合和待检测样本;
新颖度计算模块20,用于从所述检测样本集合中随机选取目标样本,基于预设核函数和所述目标样本,计算所述待检测样本的新颖度;
可重构度计算模块30,用于基于预设重构度测试函数和所述目标样本,计算所述待检测样本的可重构度;
高价值样本确定模块40,用于基于所述待检测样本的新颖度和可重构度,确定所述待检测样本是否为高价值样本。
可选地,所述新颖度计算模块20,包括:
新颖度计算单元,用于将所述待检测样本和所述目标样本输入预设核函数,得到新颖度;
目标样本更换单元,用于更换所述目标样本,并循环所述将所述待检测样本和所述目标样本输入预设核函数,得到新颖度的步骤,得到多个新颖度;
新颖度选择单元,用于将所述多个新颖度中的极值作为所述待检测样本的新颖度。
可选地,所述可重构度计算模块30,包括:
可重构度计算单元,用于将所述待检测样本和所述目标样本输入包含预设测试模型的预设重构度测试函数,得到所述待检测样本的可重构度。
可选地,所述样本评估装置,还包括:
上限值确定模块,用于基于第一预设检验函数、第二预设检验函数和所述检测样本集合,确定新颖度上限值和可重构度上限值;
步骤执行模块,用于若所述待检测样本的新颖度大于所述新颖度上限值,且所述待检测样本的可重构度大于所述可重构度上限值,则执行所述基于所述待检测样本的新颖度和可重构度,确定所述待检测样本是否为高价值样本的步骤。
可选地,所述高价值样本确定模块40,包括:
样本价值度计算单元,用于基于所述待检测样本的新颖度和可重构度,计算所述待检测样本的样本价值度;
高价值样本确定单元,用于若所述样本价值度大于第一预设阈值,则确定所述待检测样本是高价值样本;
确定单元,用于若所述样本价值度小于或等于第一预设阈值,则确定所述待检测样本不是高价值样本。
可选地,所述样本评估装置,还包括:
样本加入模块,用于若所述待检测样本为高价值样本,则将所述待检测样本加入目标样本集合;
样本集合替换模块,用于当所述目标样本集合的样本数量大于第二预设阈值时,将所述目标样本集合替换所述检测样本集合;
高价值样本集合获取模块,用于返回所述从所述检测样本集合中随机选取目标样本的步骤,直至所述预设历史样本集合中不存在为高价值样本的待检测样本,得到高价值样本集合。
可选地,所述样本评估装置,还包括:
确定模块,用于接收新检测样本,基于所述高价值样本集合、所述预设核函数以及所述预设重构度测试函数,确定所述新检测样本是否为高价值样本。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有样本评估程序,所述样本评估程序被处理器执行时实现上述实施例提供的样本评估方法中的操作。
上述各程序模块所执行的方法可参照本发明方法各个实施例,此处不再赘述。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体/操作/对象与另一个实体/操作/对象区分开来,而不一定要求或者暗示这些实体/操作/对象之间存在任何这种实际的关系或者顺序;术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的。可以根据实际的需要选择中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个计算机可读存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的样本评估方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (9)

1.一种样本评估方法,其特征在于,所述样本评估方法包括以下步骤:
基于预设历史样本集合和预设比例,确定检测样本集合和待检测样本,其中,所述检测样本集合中的样本数等于所述预设历史样本集合中的样本总数与所述预设比例的乘积,所述待检测样本是所述预设历史样本集合中除所述检测样本集合之外的样本;
从所述检测样本集合中随机选取目标样本,基于预设核函数和所述目标样本,计算所述待检测样本的新颖度;
基于预设重构度测试函数和所述目标样本,计算所述待检测样本的可重构度;
基于所述待检测样本的新颖度和可重构度,确定所述待检测样本是否为高价值样本;
其中,所述基于预设重构度测试函数和所述目标样本,计算所述待检测样本的可重构度的步骤包括:
将所述待检测样本和所述目标样本输入包含预设测试模型的预设重构度测试函数,得到所述待检测样本的可重构度,其中,所述待检测样本的可重构度与所述待检测样本的标签,以及所述待检测样本输入预设训练模型得到的值有关。
2.如权利要求1所述的样本评估方法,其特征在于,所述基于预设核函数和所述目标样本,计算所述待检测样本的新颖度的步骤包括:
将所述待检测样本和所述目标样本输入预设核函数,得到新颖度;
更换所述目标样本,并循环所述将所述待检测样本和所述目标样本输入预设核函数,得到新颖度的步骤,得到多个新颖度;
将所述多个新颖度中的极值作为所述待检测样本的新颖度。
3.如权利要求1所述的样本评估方法,其特征在于,所述基于预设重构度测试函数和所述目标样本,计算所述待检测样本的可重构度的步骤之后,包括:
基于第一预设检验函数、第二预设检验函数和所述检测样本集合,确定新颖度上限值和可重构度上限值;
若所述待检测样本的新颖度大于所述新颖度上限值,且所述待检测样本的可重构度大于所述可重构度上限值,则执行所述基于所述待检测样本的新颖度和可重构度,确定所述待检测样本是否为高价值样本的步骤。
4.如权利要求3所述的样本评估方法,其特征在于,所述基于所述待检测样本的新颖度和可重构度,确定所述待检测样本是否为高价值样本的步骤包括:
基于所述待检测样本的新颖度和可重构度,计算所述待检测样本的样本价值度;
若所述样本价值度大于第一预设阈值,则确定所述待检测样本是高价值样本;
若所述样本价值度小于或等于第一预设阈值,则确定所述待检测样本不是高价值样本。
5.如权利要求1所述的样本评估方法,其特征在于,所述基于所述待检测样本的新颖度和可重构度,确定所述待检测样本是否为高价值样本的步骤之后,包括:
若所述待检测样本为高价值样本,则将所述待检测样本加入目标样本集合;
当所述目标样本集合的样本数量大于第二预设阈值时,将所述目标样本集合替换所述检测样本集合;
返回所述从所述检测样本集合中随机选取目标样本的步骤,直至所述预设历史样本集合中不存在为高价值样本的待检测样本,得到高价值样本集合。
6.如权利要求5所述的样本评估方法,其特征在于,所述返回所述从所述检测样本集合中随机选取目标样本的步骤,直至所述预设历史样本集合中不存在为高价值样本的待检测样本,得到高价值样本集合的步骤之后,包括:
接收新检测样本,基于所述高价值样本集合、所述预设核函数以及所述预设重构度测试函数,确定所述新检测样本是否为高价值样本。
7.一种样本评估装置,其特征在于,所述样本评估装置包括:
确定模块,用于基于预设历史样本集合和预设比例,确定检测样本集合和待检测样本,其中,所述检测样本集合中的样本数等于所述预设历史样本集合中的样本总数与所述预设比例的乘积,所述待检测样本是所述预设历史样本集合中除所述检测样本集合之外的样本;
新颖度计算模块,用于从所述检测样本集合中随机选取目标样本,基于预设核函数和所述目标样本,计算所述待检测样本的新颖度;
可重构度计算模块,用于基于预设重构度测试函数和所述目标样本,计算所述待检测样本的可重构度;
高价值样本确定模块,用于基于所述待检测样本的新颖度和可重构度,确定所述待检测样本是否为高价值样本;
其中,所述基于预设重构度测试函数和所述目标样本,计算所述待检测样本的可重构度的步骤包括:
将所述待检测样本和所述目标样本输入包含预设测试模型的预设重构度测试函数,得到所述待检测样本的可重构度,其中,所述待检测样本的可重构度与所述待检测样本的标签,以及所述待检测样本输入预设训练模型得到的值有关。
8.一种样本评估设备,其特征在于,所述样本评估设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的样本评估程序,所述样本评估程序被所述处理器执行时实现如权利要求1至6中任一项所述的样本评估方法的步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有样本评估程序,所述程序被处理器执行时实现如权利要求1至6中任一项所述的样本评估方法的步骤。
CN202111096572.0A 2021-09-18 2021-09-18 样本评估方法、装置、设备及计算机可读存储介质 Active CN113554126B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111096572.0A CN113554126B (zh) 2021-09-18 2021-09-18 样本评估方法、装置、设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111096572.0A CN113554126B (zh) 2021-09-18 2021-09-18 样本评估方法、装置、设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN113554126A CN113554126A (zh) 2021-10-26
CN113554126B true CN113554126B (zh) 2022-01-07

Family

ID=78106582

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111096572.0A Active CN113554126B (zh) 2021-09-18 2021-09-18 样本评估方法、装置、设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN113554126B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105975994A (zh) * 2016-05-19 2016-09-28 西安电子科技大学 基于非相似性变换一类svm模型的sar目标鉴别方法
CN109344877A (zh) * 2018-08-31 2019-02-15 深圳先进技术研究院 一种样本数据处理方法、样本数据处理装置及电子设备
CN110674994A (zh) * 2019-09-26 2020-01-10 深圳前海微众银行股份有限公司 数据价值评估方法、终端、装置及可读存储介质
CN113190851A (zh) * 2021-05-26 2021-07-30 北京天融信网络安全技术有限公司 恶意文档检测模型的主动学习方法、电子设备及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11315036B2 (en) * 2018-12-31 2022-04-26 Paypal, Inc. Prediction for time series data using a space partitioning data structure
CN112732908B (zh) * 2020-12-28 2023-12-01 科大讯飞股份有限公司 试题新颖度评估方法、装置、电子设备和存储介质
CN112613036A (zh) * 2020-12-29 2021-04-06 北京天融信网络安全技术有限公司 恶意样本增强方法、恶意程序检测方法及对应装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105975994A (zh) * 2016-05-19 2016-09-28 西安电子科技大学 基于非相似性变换一类svm模型的sar目标鉴别方法
CN109344877A (zh) * 2018-08-31 2019-02-15 深圳先进技术研究院 一种样本数据处理方法、样本数据处理装置及电子设备
CN110674994A (zh) * 2019-09-26 2020-01-10 深圳前海微众银行股份有限公司 数据价值评估方法、终端、装置及可读存储介质
CN113190851A (zh) * 2021-05-26 2021-07-30 北京天融信网络安全技术有限公司 恶意文档检测模型的主动学习方法、电子设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
深度学习在图像识别中的应用研究综述;郑远攀 等;《计算机工程与应用》;20190419;第20-32页 *

Also Published As

Publication number Publication date
CN113554126A (zh) 2021-10-26

Similar Documents

Publication Publication Date Title
CN108683530B (zh) 多维度数据的数据分析方法、装置及存储介质
CN110334816B (zh) 一种工业设备检测方法、装置、设备及可读存储介质
CN111338692B (zh) 基于漏洞代码的漏洞分类方法、装置及电子设备
CN111881023B (zh) 一种基于多模型对比的软件老化预测方法及装置
CN114414935A (zh) 基于大数据的配电网馈线故障区域自动化定位方法和系统
CN115600891B (zh) 应用于水性丙烯酸树脂生产监测的大数据分析方法及系统
WO2017131669A1 (en) Recommendations based on the impact of code changes
CN114461534A (zh) 软件性能测试方法、系统、电子设备及可读存储介质
CN116126947B (zh) 应用于企业管理系统的大数据分析方法及系统
CN112799953A (zh) 一种接口测试方法及装置、计算机设备及存储介质
CN111860698A (zh) 确定学习模型的稳定性的方法和装置
CN107463486B (zh) 系统性能分析方法、装置及服务器
CN113469151A (zh) 工业制造中传感器的筛选方法、装置、设备及介质
CN113554126B (zh) 样本评估方法、装置、设备及计算机可读存储介质
CN111783883A (zh) 一种异常数据的检测方法及装置
CN116560984A (zh) 一种基于调用依赖图的测试用例聚类分组方法
CN107357703B (zh) 一种终端应用耗电检测方法及服务器
CN115344495A (zh) 批量任务测试的数据分析方法、装置、计算机设备及介质
CN112433952B (zh) 深度神经网络模型公平性测试方法、系统、设备及介质
CN111079390B (zh) 一种复选框列表的选择状态确定方法以及装置
CN111062003A (zh) 样本总体协方差判定方法、装置、设备及存储介质
CN109583590B (zh) 数据处理方法及数据处理装置
CN113312261A (zh) 测试用例筛选方法、设备、存储介质及装置
CN113553754A (zh) 存储器、火灾风险预测模型构建方法、系统和装置
CN111767938A (zh) 一种异常数据检测方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant