CN112418313A - 一种大数据在线噪声过滤系统与方法 - Google Patents

一种大数据在线噪声过滤系统与方法 Download PDF

Info

Publication number
CN112418313A
CN112418313A CN202011319187.3A CN202011319187A CN112418313A CN 112418313 A CN112418313 A CN 112418313A CN 202011319187 A CN202011319187 A CN 202011319187A CN 112418313 A CN112418313 A CN 112418313A
Authority
CN
China
Prior art keywords
data
sample
noise
density
area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011319187.3A
Other languages
English (en)
Other versions
CN112418313B (zh
Inventor
雷建军
刘志文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Dayu Chuangfu Technology Co ltd
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202011319187.3A priority Critical patent/CN112418313B/zh
Publication of CN112418313A publication Critical patent/CN112418313A/zh
Application granted granted Critical
Publication of CN112418313B publication Critical patent/CN112418313B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/30Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Image Processing (AREA)

Abstract

本发明涉及大数据、人工智能、机器学习领域,特别涉及一种大数据在线噪声过滤系统与方法,所述方法包括根据数据集中样本分布将数据划分为高密度区域和低密度区域,将低密度区域包括单一标签区域和混合标签区域;将高密度区域和低密度单一标签区域的数据通过多数投票准则判断得到噪声集;判断低密度混合标签区域数据的相异性差值是否超过设置的阈值,若超过则根据相对密度判断数据的噪声;否则将该数据划分为干净样本,从噪声集合中移除;本发明能够在线对传感器数据进行噪声过滤,提高数据质量。

Description

一种大数据在线噪声过滤系统与方法
技术领域
本发明涉及大数据、人工智能、机器学习领域,特别涉及一种大数据在线噪声过滤系统与方法。
背景技术
近年来,人工智能技术发展迅速,机器学习技术也越趋成熟。机器学习的发展得益于大数据时代的海量训练样本。而样本集的质量是影响机器学习算法效率的一个重要因素。由于数据采集异常或者数据标注人员专业水平差异等原因,数据集中或多或少包含噪声样本。标签噪声是监督学习、半监督学习中不可忽略的问题。
目前处理标签噪声的方法主要有算法级的鲁棒性建模和数据级的噪声过滤。鲁棒性建模是指从算法层面构建不易受标签噪声影响的鲁棒性模型,但很多鲁棒性模型对标签噪声并不完全鲁棒。噪声过滤一般是通过模型预测的方法对噪声数据进行检测并移除,但建立噪声预测模型所使用到的数据本身含有标签噪声,使得模型预测可靠性不强。
发明内容
针对上述问题,本发明提出一种大数据在线噪声过滤系统与方法,由多个传感器构成的数据采集端将数据实时发送到客户端,客户端将数据提交到Spark平台,Spark平台对接收的数据集进行预处理,对预处理后的数据集进行以下步骤:
根据数据集中样本分布将数据划分为高密度区域和低密度区域,将低密度区域包括单一标签区域和混合标签区域;
将高密度区域和低密度单一标签区域的数据通过多数投票准则判断得到噪声集;
判断低密度混合标签区域数据的相异性差值是否超过设置的阈值,若超过则根据相对密度判断数据的噪声;否则将该数据划分为干净样本,从噪声集合中移除。
进一步的,根据数据集中样本分布进行样本划分包括:计算样与其近邻样本之间的距离,当该距离大于设置的阈值,则该数据为低密度区域,否则为高密度区域;计算低密度区域内数据的局部标签熵,当该熵小于设置的阈值,则属于低密度单一标签区域,否则属于低密度混合标签区域。
优选的,判断数据是否为低密度区域时设置的阈值为数据集中任意两个样本最大距离的10%分位数。
进一步的,判断低密度区域内数据的局部标签熵时设置的阈值为该数据与其k个近邻数据的平均距离,其中数据的局部标签熵表示为:
Figure BDA0002792269570000021
其中,
Figure BDA0002792269570000022
为标签信息熵;Ps为待判定样本的k近邻区域内,与待判定样本标签相同的概率;Pd为待判定样本的k近邻区域内,与待判定样本标签不同的概率,k为近邻样本数。
进一步的,通过多数投票准则判断得到噪声集包括:如果待测样本的k近邻区域中同类样本的数量大于一半,则认为该样本为干净样本;否则认为该样本为噪声样本。
进一步的,根据相对密度判断数据的噪声时,若数的相对密度大于1时,将其视为噪声样本,相对密度表示为:
Figure BDA0002792269570000023
Figure BDA0002792269570000031
Figure BDA0002792269570000032
其中,Relative_density(D(xi))为数据xi的相对密度;dis(xi,xj)为样本xi与样本xj的距离;k为近邻样本数;yi为样本xi的标签。
进一步的,对获得的噪声集合进行进一步过滤,具体包括:
分别计算噪声集合中每个样本置信度和邻域信息,并构建样本噪声分数,计算每个样本的噪声分数;
当噪声分数大于零,将该样本纳入噪声集合,否则该样本为干净样本,从噪声集合中移除。
本发明还提供一种大数据在线噪声过滤系统,包括数据采集端、客服端以及Spark大数据平台,数据采集端利用传感器采集数据,并通过客服端将该数据传送到Spark大数据平台,Spark大数据平台包括数据预处理模块、第一噪声过滤模块、第二噪声过滤模块以及数据管理模块,所述第一噪声过滤模块包括数据分类单元、第一数据处理单元、第二数据处理单元;第二噪声过滤模块包括样本噪声分数计算模块以及分类模块,其中:
数据分类单元,用于将输入的数据划分为高密度区域和低密度区域,以及将低密度区域包括单一标签区域和混合标签区域;
第一数据处理单元,用于将高密度区域和低密度区域中单一标签区域的数据通过多数投票准则判断数据是否为噪声;
第二数据处理单元,用于将低密度区域中混合标签区域,根据相对密度判断数据是否为噪声样本;
噪声分数计算模块,用于根据样本的置信度和邻域信息计算其样本分数;
分类模块,用于将样本分数小于等于0的样本移出噪声集合。
本发明提供的大数据在线噪声过滤系统与方法,通过数据采集端传输数据到客户端,客户端将数据提交到Spark平台,经过Spark大数据平台预处理、噪声过滤、数据管理模块,达到在线噪声过滤的效果。
附图说明
图1是本发明实施例提供的数据区域划分示例图;
图2是本发明实施例提供的基于区域噪声过滤流程图;
图3是本发明实施例提供的样本噪声分数计算流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提出一种大数据在线噪声过滤系统与方法,如图2,由多个传感器构成的数据采集端将数据实时发送到客户端,客户端将数据提交到Spark平台,Spark平台对接收的数据集进行预处理,对预处理后的数据集进行以下步骤:
根据数据集中样本分布将数据划分为高密度区域和低密度区域,将低密度区域包括单一标签区域和混合标签区域;
将高密度区域和低密度单一标签区域的数据通过多数投票准则判断得到噪声集;
判断低密度混合标签区域数据的相异性差值是否超过设置的阈值,若超过则根据相对密度判断数据的噪声;否则将该数据划分为干净样本,从噪声集合中移除。
实施例1
本实施例提出一种大数据在线噪声过滤方法的具体实施过程。
在本实施例中,从UCI标准数据集选取12个多分类数据集,来模拟传感器采集的数据,数据集的基本信息如表1所示。
表1
Figure BDA0002792269570000051
本实施例方法可以在计算机设备中运行,即将本发明方法存储在计算机设备的存储器中,且计算机设备的处理器可以读取该方法并按照相应步骤进行处理。本实施例中使用的系统硬件环境为:处理器Intel(R)Core(TM)i5-7300HZ CPU@2.5GHz;内存16GB;显卡NAVIDIAGTX1050Ti;其开发软件环境:Linux CentOs 6.8。
客户端可以通过Spark大数据平台对数据进行预处理操作,删除缺失值较多的数据样本,对于缺失值较少的数据样本采用均值填充。此外,为了消除不同属性取值范围对噪声过滤算法中距离计算的影响,对数据集进行属性值归一化处理。
由于本实施例采用的是UCI标准数据集(不含噪声)来模拟模拟传感器采集的数据,因此需要人工随机加噪处理:为验证系统的降噪性能,在所选的数据集中人工加入噪声。加入噪声的方式为按比例随机更改每一类样本的标签。噪声比例NR值分别为5%、10%、20%、30%、40%。
本发明进行噪声过滤的步骤包括以下步骤:
1、数据区域划分
1)对于任意样本xi,其标签为yi,定义其k(k=5)近邻区域D(xi)的密度为(样本间距离度量采用欧式距离):
Figure BDA0002792269570000061
其中,dis(xi,xj)表示样本xi与其近邻样本xj的距离,当density(D(xi))大于一个给定阈值α(数据集中任意两个样本最大距离的10%分位数)时,样本xi所处区域D(xi)为低密度区,记作Dl(xi),反之,处于高密度区域,记作Dh(xi);k为近邻样本数量,该数量优选为5。
2)将低密度区域细分为单一标签区域和混合标签区域,由于低密度区域内样本标签既可能单一也可能混合,因此采用局部标签信息熵HY(yi/D(xi))来判定,其定义如下:
HY(yi/D(xi))=-Ps.log2Ps-Pd.log2Pd (2)
其中变量Y为样本标签。Ps,Pd分别表示如下:
Figure BDA0002792269570000062
Pd=1-Ps (4)
其中,I为指示函数;当HY(yi/D(xi))小于某一阈值δ时,表示该样本处于
Figure BDA0002792269570000063
(低密度单一标签区域),否则处于
Figure BDA0002792269570000064
(低密度混合标签区域)。信息熵阈值δ的计算如下:
Figure BDA0002792269570000065
对于低密度区域Dl(xi),还可以从距离分布的角度对其中的样本进行更细致的分析,相异性差值(difference of dissimilarity,DoD)用来度量区域内同类样本与异类样本的距离差异,相异性差值为样本与其属于同一个标签的数据之间的距离之和与其不属于同一个标签的数据之间的距离之和之差的绝对值,表示为:
Figure BDA0002792269570000071
此处用于判断是否要使用相对密度准则进行判断,差异小于阈值
Figure BDA0002792269570000072
则不判断,认为该样本为干净的,若大于该阈值,则采用相对密度准则判断。
其中Sd(D(xi))和Ss(D(xi))分别表示D(xi)内与样本xi标签不同的样本集合与标签相同的样本集合。
如图1给出了一种对数据划分的示意图,一般情况下,高密度区域中的样本标签相对一致,低密度区域中的样本标签既可能相对单一,也可能是混合的。区域A为高密度区域,区域B和C为低密度区域。区域A中,样本的标签是一致的,而低密度区域中,区域B样本的标签是一致的,区域C中,样本的标签是混合的。
2、噪声过滤准则
如图2,对于不同的区域,采用合适的噪声过滤规则对样本进行判断,即:
对于高密度区域和低密度单一标签区域,区域内的样本标签相对单一,采用多数投票准则较为合理。对于低密度混合标签区域,无论采用多数投票还是一致性投票都容易产生较大的误差,因此从距离分布角度来度量,如果相异性差值DoD小于阈值(该阈值表示为
Figure BDA0002792269570000073
可以理解为样本xi所处区域的平均密度),说明待测样本与同类样本和异类样本距离差异不大,所以不对该样本进行判断,将该样本视为干净样本;如果相异性差值大于阈值,则采用相对密度Relative_density来判断。
相对密度的定义如下:
Figure BDA0002792269570000074
Figure BDA0002792269570000081
Figure BDA0002792269570000082
其中,D+(xi)表示样本标签与xi相同的k近邻区域,D-(xi)表示样本标签与xi不同的k近邻区域。因此,当Relative_density(D(xi))>1时,说明xi更靠近异类样本,则可认为xi为噪声样本。
实施例2
本实施例针对实施例得到的噪声样本进行进一步过滤。
针对实施例得到的噪声集合,计算每个噪声样本的噪声分数,如图3,包括以下步骤:
每个样本的噪声分数NS(xi)是在[-1,1]之中一个值,NS的正值表示噪声样本,负值表示干净样本。噪声分数由样本的置信度confidence(xi)和邻域信息neighborhood(xi)得出;置信函数confidence(xi)用来度量样本xi与其他噪声样本的接近程度,表示为:
Figure BDA0002792269570000083
其中,t(xi)表示xi处于噪声集DPN中其他噪声近邻的次数。confidence(xi)取值范围为(0,1]。样本xi邻域的噪声样本越多,confidence(xi)值越小。当confidence(xi)=1时,则该样本提供的信息是比较可靠的(干净或噪声)。如果confidence(xi)≈0,则表示该样本提供的信息不可取。
领域信息neighbor(xi)用来度量样本xi的邻域样本的噪声量,表示为:
Figure BDA0002792269570000084
其中,differentClasses(xi,xj)用来增加NS如果xi的标签与邻域样本不同和减少NS如果与邻域样本类别相同,表示为:
Figure BDA0002792269570000091
在计算噪声得分时,干净样本应该比噪声样本有更高的权重,因此清洁度
Figure BDA0002792269570000092
最后噪声分数的计算如下:
NS(xi)=confidence(xi).neighbor(xi) (14)
在计算DPN中的每个样本的噪声分数后,分数为负值的样本视为干净样本,分数为正值的样本视为噪声样本,得到最终的噪声集DFN
实施例3
本实施例提出一种大数据在线噪声过滤系统,包括数据采集端、客服端以及Spark大数据平台,数据采集端利用传感器采集数据,并通过客服端将该数据传送到Spark大数据平台,Spark大数据平台包括数据预处理模块、第一噪声过滤模块、第二噪声过滤模块以及数据管理模块,所述第一噪声过滤模块包括数据分类单元、第一数据处理单元、第二数据处理单元;第二噪声过滤模块包括样本噪声分数计算模块以及分类模块,其中:
数据分类单元,用于将输入的数据划分为高密度区域和低密度区域,以及将低密度区域包括单一标签区域和混合标签区域;
第一数据处理单元,用于将高密度区域和低密度区域中单一标签区域的数据通过多数投票准则判断数据是否为噪声;
第二数据处理单元,用于将低密度区域中混合标签区域,根据相对密度判断数据是否为噪声样本;
噪声分数计算模块,用于根据样本的置信度和邻域信息计算其样本分数;
分类模块,用于将样本分数小于等于0的样本移出噪声集合。
数据分类单元、第一数据处理单元、第二数据处理单元在实施例1中有详细步骤,此处不再赘述;噪声分数计算模块、分类模块在实施例2中有详细步骤,此处也不再赘述。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (10)

1.一种大数据在线噪声过滤方法,由多个传感器构成的数据采集端将数据实时发送到客户端,客户端将数据提交到Spark平台,Spark平台对接收的数据集进行预处理,其特征在于,对预处理后的数据集进行以下步骤:
根据数据集中样本分布将数据划分为高密度区域和低密度区域,将低密度区域包括单一标签区域和混合标签区域;
将高密度区域和低密度单一标签区域的数据通过多数投票准则判断得到噪声集;
判断低密度混合标签区域数据的相异性差值是否超过设置的阈值,若超过则根据相对密度判断数据的噪声;否则将该数据划分为干净样本,从噪声集合中移除。
2.根据权利要求1所述的一种大数据在线噪声过滤方法,其特征在于,根据数据集中样本分布进行样本划分包括:计算样与其近邻样本之间的距离,当该距离大于设置的阈值,则该数据为低密度区域,否则为高密度区域;计算低密度区域内数据的局部标签熵,当该熵小于设置的阈值,则属于低密度单一标签区域,否则属于低密度混合标签区域。
3.根据权利要求2所述的一种大数据在线噪声过滤方法,其特征在于,判断数据是否为低密度区域时设置的阈值为数据集中任意两个样本最大距离的10%分位数。
4.根据权利要求2所述的一种大数据在线噪声过滤方法,其特征在于,判断低密度区域内数据的局部标签熵时设置的阈值为该数据与其k个近邻数据的平均距离,其中数据的局部标签熵表示为:
Figure FDA0002792269560000011
其中,
Figure FDA0002792269560000012
为标签信息熵;Ps为待判定样本的k近邻区域内,与待判定样本标签相同的概率;Pd为待判定样本的k近邻区域内,与待判定样本标签不同的概率,k为近邻样本数。
5.根据权利要求1所述的一种大数据在线噪声过滤方法,其特征在于,通过多数投票准则判断得到噪声集包括:如果待测样本的k近邻区域中同类样本的数量大于一半,则认为该样本为干净样本;否则认为该样本为噪声样本。
6.根据权利要求1所述的一种大数据在线噪声过滤方法,其特征在于,根据相对密度判断数据的噪声时,若数的相对密度大于1时,将其视为噪声样本,相对密度表示为:
Figure FDA0002792269560000021
Figure FDA0002792269560000022
Figure FDA0002792269560000023
其中,Relative_density(D(xi))为数据xi的相对密度;dis(xi,xj)为样本xi与样本xj的距离;k为近邻样本数;yi为样本xi的标签。
7.根据权利要求1所述的一种大数据在线噪声过滤方法,其特征在于,对获得的噪声集合进行进一步过滤,具体包括:
分别计算噪声集合中每个样本置信度和邻域信息,并构建样本噪声分数,计算每个样本的噪声分数;
当噪声分数大于零,将该样本纳入噪声集合,否则该样本为干净样本,从噪声集合中移除。
8.根据权利要求7所述的一种大数据在线噪声过滤方法,其特征在于,样本的噪声分数表示为:
NS(xi)=confidence(xi).neighbor(xi);
其中,NS(xi)为样本xi的噪声分数;confidence(xi)为样本的xi的置信度;neighbor(xi)为样本的xi的邻域信息。
9.根据权利要求8所述的一种大数据在线噪声过滤方法,其特征在于,样本的xi的邻域信息表示为:
Figure FDA0002792269560000031
其中,clean(xj)为样本的清洁程度;differentClasses(xi,xj)为样本xi与其领域样本xj的相似程度。
10.一种大数据在线噪声过滤系统,包括数据采集端、客服端以及Spark大数据平台,数据采集端利用传感器采集数据,并通过客服端将该数据传送到Spark大数据平台,其特征在于,Spark大数据平台包括数据预处理模块、第一噪声过滤模块、第二噪声过滤模块以及数据管理模块,所述第一噪声过滤模块包括数据分类单元、第一数据处理单元、第二数据处理单元;第二噪声过滤模块包括样本噪声分数计算模块以及分类模块,其中:
数据分类单元,用于将输入的数据划分为高密度区域和低密度区域,以及将低密度区域包括单一标签区域和混合标签区域;
第一数据处理单元,用于将高密度区域和低密度区域中单一标签区域的数据通过多数投票准则判断数据是否为噪声;
第二数据处理单元,用于将低密度区域中混合标签区域,根据相对密度判断数据是否为噪声样本;
噪声分数计算模块,用于根据样本的置信度和邻域信息计算其样本分数;
分类模块,用于将样本分数小于等于0的样本移出噪声集合。
CN202011319187.3A 2020-11-23 2020-11-23 一种大数据在线噪声过滤系统与方法 Active CN112418313B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011319187.3A CN112418313B (zh) 2020-11-23 2020-11-23 一种大数据在线噪声过滤系统与方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011319187.3A CN112418313B (zh) 2020-11-23 2020-11-23 一种大数据在线噪声过滤系统与方法

Publications (2)

Publication Number Publication Date
CN112418313A true CN112418313A (zh) 2021-02-26
CN112418313B CN112418313B (zh) 2022-09-27

Family

ID=74778308

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011319187.3A Active CN112418313B (zh) 2020-11-23 2020-11-23 一种大数据在线噪声过滤系统与方法

Country Status (1)

Country Link
CN (1) CN112418313B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113808735A (zh) * 2021-09-08 2021-12-17 山西大学 一种基于脑影像的精神疾病评估方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105261217A (zh) * 2015-10-03 2016-01-20 上海大学 一种基于密度聚类算法的城市交通拥堵状态检测方法
EP3116126A1 (en) * 2015-07-08 2017-01-11 MediaTek Singapore Pte Ltd. Receiver, communication unit, and method for down-converting a radio frequency signal
CN108415926A (zh) * 2018-01-15 2018-08-17 大连理工大学 一种消除原始评分数据评分噪声的协同过滤推荐方法
US20190095029A1 (en) * 2017-09-27 2019-03-28 Hyundai Motor Company Input device and control method of the same
CN109709474A (zh) * 2019-02-28 2019-05-03 西安太乙电子有限公司 一种射频混合信号集成电路测试系统与测试方法
CN110073301A (zh) * 2017-08-02 2019-07-30 强力物联网投资组合2016有限公司 工业物联网中具有大数据集的数据收集环境下的检测方法和系统
CN110163280A (zh) * 2019-05-17 2019-08-23 深圳前海微众银行股份有限公司 一种聚类方法及装置
CN111160391A (zh) * 2019-12-03 2020-05-15 重庆邮电大学 基于空间划分的快速相对密度噪声检测方法及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3116126A1 (en) * 2015-07-08 2017-01-11 MediaTek Singapore Pte Ltd. Receiver, communication unit, and method for down-converting a radio frequency signal
CN105261217A (zh) * 2015-10-03 2016-01-20 上海大学 一种基于密度聚类算法的城市交通拥堵状态检测方法
CN110073301A (zh) * 2017-08-02 2019-07-30 强力物联网投资组合2016有限公司 工业物联网中具有大数据集的数据收集环境下的检测方法和系统
US20190095029A1 (en) * 2017-09-27 2019-03-28 Hyundai Motor Company Input device and control method of the same
CN108415926A (zh) * 2018-01-15 2018-08-17 大连理工大学 一种消除原始评分数据评分噪声的协同过滤推荐方法
CN109709474A (zh) * 2019-02-28 2019-05-03 西安太乙电子有限公司 一种射频混合信号集成电路测试系统与测试方法
CN110163280A (zh) * 2019-05-17 2019-08-23 深圳前海微众银行股份有限公司 一种聚类方法及装置
CN111160391A (zh) * 2019-12-03 2020-05-15 重庆邮电大学 基于空间划分的快速相对密度噪声检测方法及存储介质

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
CHEN QINGQIANG等: "Label noise filtering based on the data distribution", 《JOURNAL OF TSINGHUA UNIVERSITY (SCIENCE AND TECHNOLOGY)》 *
XIA SHUYIN等: "Relative density based support vector machine", 《NEUROCOMPUTING》 *
ZHANG JING等: "Improving Crowdsourced Label Quality Using Noise Correction", 《IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS》 *
姜高霞: "近邻感知的标签噪声过滤算法", 《模式识别与人工智能》 *
秦晓明: "基于深度学习的含噪声标签图像的分类研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113808735A (zh) * 2021-09-08 2021-12-17 山西大学 一种基于脑影像的精神疾病评估方法
CN113808735B (zh) * 2021-09-08 2024-03-12 山西大学 一种基于脑影像的精神疾病评估方法

Also Published As

Publication number Publication date
CN112418313B (zh) 2022-09-27

Similar Documents

Publication Publication Date Title
US11816579B2 (en) Method and apparatus for detecting defect pattern on wafer based on unsupervised learning
CN110287932B (zh) 基于深度学习图像语义分割的道路阻断信息提取方法
CN111612038A (zh) 异常用户检测方法及装置、存储介质、电子设备
CN110928862A (zh) 数据清洗方法、数据清洗设备以及计算机存储介质
CN105225523A (zh) 一种车位状态检测方法及装置
CN115660262B (zh) 一种基于数据库应用的工程智慧质检方法、系统及介质
WO2019200739A1 (zh) 数据欺诈识别方法、装置、计算机设备和存储介质
CN114694178A (zh) 基于Faster-RCNN算法的电力作业中安全帽监测方法及系统
CN115600194A (zh) 一种基于XGBoost和LGBM的入侵检测方法、存储介质及设备
CN112418313B (zh) 一种大数据在线噪声过滤系统与方法
CN112308148A (zh) 缺陷类别识别、孪生神经网络训练方法、装置及存储介质
CN111027601B (zh) 一种基于激光传感器的平面检测方法、装置
CN117095198A (zh) 遥感图像检索网络训练方法、应用方法、电子设备及介质
CN105843930A (zh) 一种检索视频的方法及装置
CN115935160A (zh) 一种基于邻域粗糙集属性约简的空气质量数据处理方法
CN111209567B (zh) 提高检测模型鲁棒性的可知性判断方法及装置
CN114066018A (zh) 基于支持向量的配电站建设物资需求预测方法
CN113781469A (zh) 基于yolo改进模型的安全头盔佩戴检测的方法及系统
CN113139423A (zh) 一种用于场景图检测的关系图学习方法
CN117649415B (zh) 基于光流图检测的细胞均衡度分析方法
Davis et al. Automated quantitative description of spiral galaxy arm-segment structure
Stucker Semantic Point Cloud Filtering
CN117692181A (zh) 一种基于元学习框架面向物联网安全的网络流量检测方法和系统
CN116743487A (zh) 一种网络入侵检测方法、系统及电子设备
KR20240035090A (ko) 균열 이미지의 픽셀 기준 손상 정도 추출방법 및 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20230808

Address after: Room 801, 85 Kefeng Road, Huangpu District, Guangzhou City, Guangdong Province

Patentee after: Guangzhou Dayu Chuangfu Technology Co.,Ltd.

Address before: 400065 Chongwen Road, Nanshan Street, Nanan District, Chongqing

Patentee before: CHONGQING University OF POSTS AND TELECOMMUNICATIONS

TR01 Transfer of patent right