CN111639716B - 基于密度偏差抽样的数据样本选择方法及装置 - Google Patents
基于密度偏差抽样的数据样本选择方法及装置 Download PDFInfo
- Publication number
- CN111639716B CN111639716B CN202010499592.1A CN202010499592A CN111639716B CN 111639716 B CN111639716 B CN 111639716B CN 202010499592 A CN202010499592 A CN 202010499592A CN 111639716 B CN111639716 B CN 111639716B
- Authority
- CN
- China
- Prior art keywords
- original data
- sample
- total number
- grid
- sampling
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Complex Calculations (AREA)
Abstract
本申请提供一种基于密度偏差抽样的数据样本选择方法及装置,在该方法中,根据预先设定的区间个数,将设备产生的第一原始数据划分到多个网格中,统计每个网格内第二原始数据的个数,对每个网格内的第二原始数据进行抽样前,设定抽样总数,进而计算每个网格内第二原始数据的抽样概率。计算每个网格内的第二原始数据的第一样本预估值,然后计算第一原始数据的第二样本预估值,判断所述抽样总数和第二样本预估值的差值是否大于预设阈值,如果是,调整抽样总数,重新计算每个网格内第二原始数据的抽样概率,如果不是,按照各个所述网格内所述第二原始数据的抽样概率进行抽样。采用上述方法,有效解决哈希冲突降低样本质量的问题。
Description
技术领域
本申请涉及设备数据处理领域,尤其涉及一种基于密度偏差抽样的数据样本选择方法及装置。
背景技术
设备产生的原始数据是海量的,设备产生的原始数据能够反映设备原始的状态,通过对原始数据的分析达到对设备原始状态分析的目的。原始数据之间存在相似性和差异性,将原始数据划分到不同的类别中,属于同一类别的原始数据的相似性很大,但不同类别之间的原始数据相似性很小。原始数据划分到不同的类别中的过程称为聚类,对不同类别中的原始数据进行分析称为聚类分析。
聚类分析是在计算机内存的基础上运用算法进行的。如果对每个原始数据进行分析,容易出现算法运行时间过长,甚至内存溢出,导致无法聚类分析。因此,在对原始数据聚类分析之前,从海量的原始数据中抽取一部分原始数据作为样本,然后对样本数据聚类分析,通过分析样本数据反映海量的原始数据的特征,进而反映设备的运行状态。目前,主要采用随机抽样和密度偏差抽样对所有原始数据进行抽样。随机抽样是以相同的概率从所有原始数据中抽取一部分原始数据作为样本。密度偏差抽样首先将所有原始数据划分为不同的组,通过建立哈希函数将各组原始数据映射到哈希表中,根据各组原始数据的密度偏差确定各组的抽样概率。
当原始数据服从均匀分布时,随机抽样不仅能获得高质量样本,而且实现简单、运行效率高;当原始数据分布不均匀时,例如,现有两组原始数据,其中一组有50000个原始数据,另一组有1000个原始数据,假设需要的样本是1%,也就是选取510个原始数据,采用随机抽样,有1000个原始数据的组中仅19个原始数据可能被选取,在这个样本上聚类分析,则将这19个原始数据忽略或者视为孤立点。采用密度偏差抽样,有1000个原始数据的组中被选取的原始数据个数增多,有87个原始数据可能被选取。随机抽样容易丢失一些重要的原始数据,导致抽样样本不能保持所有原始数据的分布特征,有可能丢失小的类别。密度偏差抽样提高了不易被抽取到的原始数据的概率。然而,鉴于密度偏差抽样采用哈希表存储原始数据,哈希表中多组原始数据可能对应同一个地址,而一个地址只能对应一组原始数据,这样可能造成多组原始数据丢失,即产生哈希冲突,降低了样本的质量。因此,采用密度偏差抽样的同时,如何避免哈希冲突以提高样本的质量是现在亟需解决的问题。
发明内容
本申请提供一种基于密度偏差抽样的数据样本选择方法及装置,以解决采用密度偏差抽样中产生哈希冲突的问题。
在本申请的第一方面,公开了一种基于密度偏差抽样的数据样本选择方法,包括:
步骤101,获取设备产生的第一原始数据;
步骤102,根据预先设定的区间个数,将所述第一原始数据划分到多个网格中;
步骤103,统计各个所述网格内第二原始数据总数;
步骤104,根据预先设定的抽样总数,计算各个所述网格内所述第二原始数据的抽样概率;
步骤105,计算所述第二原始数据的第一样本预估值;
步骤106,根据所述第一样本预估值以及所述网格的数量,计算所述第一原始数据的第二样本预估值;
步骤107,判断所述抽样总数和第二样本预估值的差值是否大于预设阈值;
步骤108,如果不满足,调整抽样总数,返回步骤104的操作;
步骤109,如果满足,按照各个所述网格内所述第二原始数据的抽样概率进行抽样。
可选的,计算各个所述网格内所述第二原始数据的抽样概率,包括:
根据以下公式,计算各个所述网格内所述第二原始数据的抽样概率:
其中,fj(nj)为第j个网格内第二原始数据的抽样概率,G为网格数量,j为第j个网格,nj为第j个网格内第二原始数据总数,n为预先设定的抽样总数,e为常数,其中0<e<1。
可选的,计算所述第二原始数据的第一样本预估值,包括:
根据以下公式,计算所述第二原始数据的第一样本预估值:
naj=min{ceil{njfj(nj)},nj};
其中,naj为第j个网格内的第二原始数据的第一样本预估值,fj(nj)为第j个网格内第二原始数据的抽样概率,nj为第j个网格内第二原始数据总数。
可选的,计算所述第一原始数据的第二样本预估值,包括:
根据以下公式,计算所述第一原始数据的第二样本预估值:
其中,na为第一原始数据的第二样本预估值,G为网格数量,j为第j个网格,naj为第j个网格内的第二原始数据的第一样本预估值。
可选的,调整抽样总数,包括:
根据以下公式,调整抽样总数:
n1=n+(e+1)*(n-na);
其中,n1为调整后的抽样总数,n为预先设定的抽样总数,e为常数,其中0<e<1,na为第一原始数据的第二样本预估值。
在本申请的第二方面,公开了一种基于密度偏差抽样的数据样本选择装置,包括:
获取模块,用于获取设备产生的第一原始数据;
划分模块,用于根据预先设定的区间个数,将所述第一原始数据划分到多个网格中;
统计模块,用于统计各个所述网格内第二原始数据总数;
第一计算模块,用于根据预先设定的抽样总数,(n)计算各个所述网格内所述第二原始数据的抽样概率;
第二计算模块,用于计算所述第二原始数据的第一样本预估值;
第三计算模块,用于计算计算所述第一原始数据的第二样本预估值;
判断模块,用于判断所述抽样总数和第二样本预估值的差值是否大于预设阈值;
调整模块,用于在所述抽样总数和第二样本预估值的差值大于预设阈值时,调整抽样总数;
抽样模块,用于在所述抽样总数和第二样本预估值的差值不小于预设阈值时,按照各个所述网格内所述第二原始数据的抽样概率进行抽样。
可选的,所述第一计算模块包括:
第一计算单元,用于根据以下公式,计算各个所述网格内所述第二原始数据的抽样概率:
其中,fj(nj)为第j个网格内第二原始数据的抽样概率,G为网格数量,j为第j个网格,nj为第j个网格内第二原始数据总数,n为预先设定的抽样总数,e为常数,其中0<e<1。
可选的,所述第二计算模块包括:
第二计算单元,用于根据以下公式,计算所述第二原始数据的第一样本预估值:
naj=min{ceil{njfj(nj)},nj};
其中,naj为第j个网格内的第二原始数据的第一样本预估值,fj(nj)为第j个网格内第二原始数据的抽样概率,nj为第j个网格内第二原始数据总数。
可选的,所述第三计算模块包括:
第三计算单元,用于根据以下公式,计算所述第一原始数据的第二样本预估值:
其中,na为第一原始数据的第二样本预估值,G为网格数量,j为第j个网格,naj为第j个网格内的第二原始数据的第一样本预估值。
可选的,所述调整模块包括:
调整单元,用于根据以下公式,调整抽样总数:
n1=n+(e+1)*(n-na);
其中,n1为调整后的抽样总数,n为预先设定的抽样总数,e为常数,其中0<e<1,na为第一原始数据的第二样本预估值。
本申请提供一种基于密度偏差抽样的数据样本选择方法及装置,在该方法中,根据预先设定的区间个数,将设备产生的第一原始数据划分到多个网格中,统计每个网格内第二原始数据的个数,对每个网格内的第二原始数据进行抽样前,设定抽样总数,进而计算每个网格内第二原始数据的抽样概率。计算每个网格内的第二原始数据的第一样本预估值,然后计算第一原始数据的第二样本预估值,判断所述抽样总数和第二样本预估值的差值是否大于预设阈值,如果是,调整抽样总数,重新计算每个网格内第二原始数据的抽样概率,如果不是,按照各个所述网格内所述第二原始数据的抽样概率进行抽样。采用上述方法,在第一原始数据没有丢失的情况下,提高了样本的质量,从而解决了哈希冲突降低了样本质量的问题。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例公开的一种基于密度偏差抽样的数据样本选择方法的工作流程示意图;
图2为本申请实施例公开的一种基于密度偏差抽样的数据样本选择装置的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请提供一种基于密度偏差抽样的数据样本选择方法,参见图1所示的工作流程示意图,所述方法包括:
步骤S101,获取设备产生的第一原始数据。
第一原始数据为设备运行过程中产生的运行数据。
步骤S102,根据预先设定的区间个数,将所述第一原始数据划分到多个网格中。
步骤S103,统计各个所述网格内第二原始数据总数。
第二原始数据为设备运行过程中产生的运行数据被划分到多个网格后,每个网格内的运行数据。
步骤S104,根据预先设定的抽样总数,计算各个所述网格内所述第二原始数据的抽样概率。
步骤S105,计算所述第二原始数据的第一样本预估值。
第一样本预估值为每个网格内预计要抽取的第二原始数据的数量值。
步骤S106,根据所述第一样本预估值以及所述网格的数量,计算所述第一原始数据的第二样本预估值。
第二样本预估值为每个网格内预计要抽取的第二原始数据的数量值的总和。
步骤S107,判断所述抽样总数和第二样本预估值的差值是否大于预设阈值。
本步骤中的预设阈值为1。
步骤S108,如果是,调整抽样总数,返回步骤104的操作。
步骤S109,如果不是,按照各个所述网格内所述第二原始数据的抽样概率进行抽样。
本申请提供一种基于密度偏差抽样的数据样本选择方法,在该方法中,根据预先设定的区间个数,将设备产生的第一原始数据划分到多个网格中,统计每个网格内第二原始数据的个数,对每个网格内的第二原始数据进行抽样前,设定抽样总数,进而计算每个网格内第二原始数据的抽样概率。计算每个网格内的第二原始数据的第一样本预估值,然后计算第一原始数据的第二样本预估值,判断所述抽样总数和第二样本预估值的差值是否大于预设阈值,如果是,调整抽样总数,重新计算每个网格内第二原始数据的抽样概率,如果不是,按照各个所述网格内所述第二原始数据的抽样概率进行抽样。本实施例在第一原始数据没有丢失的情况下,提高了样本的质量,从而解决了哈希冲突降低了样本质量的问题。
计算各个所述网格内所述第二原始数据的抽样概率,包括:
根据以下公式,计算各个所述网格内所述第二原始数据的抽样概率:
其中,fj(nj)为第j个网格内第二原始数据的抽样概率,G为网格数量,j为第j个网格,nj为第j个网格内第二原始数据总数,n为预先设定的抽样总数,e为常数,其中0<e<1。
计算所述第二原始数据的第一样本预估值,包括:
根据以下公式,计算所述第二原始数据的第一样本预估值:
naj=min{ceil{njfj(nj)},nj};
其中,naj为第j个网格内的第二原始数据的第一样本预估值,fj(nj)为第j个网格内第二原始数据的抽样概率,nj为第j个网格内第二原始数据总数。
计算所述第一原始数据的第二样本预估值,包括:
根据以下公式,计算所述第一原始数据的第二样本预估值:
其中,na为第一原始数据的第二样本预估值,G为网格数量,j为第j个网格,naj为第j个网格内的第二原始数据的第一样本预估值。
调整抽样总数,包括:
根据以下公式,调整抽样总数:
n1=n+(e+1)*(n-na);
其中,n1为调整后的抽样总数,n为预先设定的抽样总数,e为常数,其中0<e<1,na为第一原始数据的第二样本预估值。
上述内容对本申请的方法实施例进行了介绍,下面通过装置实施例对一种基于密度偏差抽样的数据样本选择装置进行描述。对于装置实施例中未披露的细节,请参见本申请方法实施例。
本申请第二实施例公开了一种基于密度偏差抽样的数据样本选择装置,参见图2所示结构示意图,样本选择装置包括:
获取模块10,用于获取设备产生的第一原始数据;
划分模块20,用于根据预先设定的区间个数,将所述第一原始数据划分到多个网格中;
统计模块30,用于统计各个所述网格内第二原始数据总数;
第一计算模块40,用于根据预先设定的抽样总数,计算各个所述网格内所述第二原始数据的抽样概率;
第二计算模块50,用于计算所述第二原始数据的第一样本预估值;
第三计算模块60,用于计算计算所述第一原始数据的第二样本预估值;
判断模块70,用于判断所述抽样总数和第二样本预估值的差值是否大于预设阈值;
调整模块80,用于在所述抽样总数和第二样本预估值的差值大于预设阈值时,调整抽样总数;
抽样模块90,用于在所述抽样总数和第二样本预估值的差值小于预设阈值时,按照各个所述网格内所述第二原始数据的抽样概率进行抽样。
所述第一计算模块包括:
第一计算单元,用于根据以下公式,计算各个所述网格内所述第二原始数据的抽样概率:
其中,fj(nj)为第j个网格内第二原始数据的抽样概率,G为网格数量,j为第j个网格,nj为第j个网格内第二原始数据总数,n为预先设定的抽样总数,e为常数,其中0<e<1。
可选的,所述第二计算模块包括:
第二计算单元,用于根据以下公式,计算所述第二原始数据的第一样本预估值:
naj=min{ceil{njfj(nj)},nj};
其中,naj为第j个网格内的第二原始数据的第一样本预估值,fj(nj)为第j个网格内第二原始数据的抽样概率,nj为第j个网格内第二原始数据总数。
可选的,所述第三计算模块包括:
第三计算单元,用于根据以下公式,计算所述第一原始数据的第二样本预估值:
其中,na为第一原始数据的第二样本预估值,G为网格数量,j为第j个网格,naj为第j个网格内的第二原始数据的第一样本预估值。
可选的,所述调整模块包括:
调整单元,用于根据以下公式,调整抽样总数:
n1=n+(e+1)*(n-na);
其中,n1为调整后的抽样总数,n为预先设定的抽样总数,e为常数,其中0<e<1,na为第一原始数据的第二样本预估值。
以上结合具体实施方式和范例性实例对本申请进行了详细说明,不过这些说明并不能理解为对本申请的限制。本领域技术人员理解,在不偏离本申请精神和范围的情况下,可以对本申请技术方案及其实施方式进行多种等价替换、修饰或改进,这些均落入本申请的范围内。本申请的保护范围以所附权利要求为准。
Claims (8)
1.一种基于密度偏差抽样的数据样本选择方法,其特征在于,包括:
步骤101,获取设备产生的第一原始数据;
步骤102,根据预先设定的区间个数,将所述第一原始数据划分到多个网格中;
步骤103,统计各个所述网格内第二原始数据总数;
步骤104,根据预先设定的抽样总数,计算各个所述网格内所述第二原始数据的抽样概率;
步骤105,计算所述第二原始数据的第一样本预估值;
步骤106,根据所述第一样本预估值以及所述网格的数量,计算所述第一原始数据的第二样本预估值;
步骤107,判断所述抽样总数和第二样本预估值的差值是否大于预设阈值;
步骤108,如果是,调整抽样总数,返回步骤104的操作;
步骤109,如果不是,按照各个所述网格内所述第二原始数据的抽样概率进行抽样;
所述调整抽样总数,包括:
根据以下公式,调整抽样总数:
n1=n+(e+1)*(n-na);
其中,n1为调整后的抽样总数,n为预先设定的抽样总数,e为常数,其中0<e<1,na为第一原始数据的第二样本预估值。
2.根据权利要求1所述的样本选择方法,其特征在于,计算各个所述网格内所述第二原始数据的抽样概率,包括:
根据以下公式,计算各个所述网格内所述第二原始数据的抽样概率:
其中,fj(nj)为第j个网格内第二原始数据的抽样概率,G为网格数量,j为第j个网格,nj为第j个网格内第二原始数据总数,n为预先设定的抽样总数,e为常数,其中0<e<1。
3.根据权利要求2所述的样本选择方法,其特征在于,计算所述第二原始数据的第一样本预估值,包括:
根据以下公式,计算所述第二原始数据的第一样本预估值:
naj=min{ceil{njfj(nj)},nj};
其中,naj为第j个网格内的第二原始数据的第一样本预估值,fj(nj)为第j个网格内第二原始数据的抽样概率,nj为第j个网格内第二原始数据总数。
4.根据权利要求3所述的样本选择方法,其特征在于,计算所述第一原始数据的第二样本预估值,包括:
根据以下公式,计算所述第一原始数据的第二样本预估值:
其中,na为第一原始数据的第二样本预估值,G为网格数量,j为第j个网格,naj为第j个网格内的第二原始数据的第一样本预估值。
5.一种基于密度偏差抽样的数据样本选择装置,其特征在于,包括:
获取模块,用于获取设备产生的第一原始数据;
划分模块,用于根据预先设定的区间个数,将所述第一原始数据划分到多个网格中;
统计模块,用于统计各个所述网格内第二原始数据总数;
第一计算模块,用于根据预先设定的抽样总数,计算各个所述网格内所述第二原始数据的抽样概率;
第二计算模块,用于计算所述第二原始数据的第一样本预估值;
第三计算模块,用于计算计算所述第一原始数据的第二样本预估值;
判断模块,用于判断所述抽样总数和第二样本预估值的差值是否大于预设阈值;
调整模块,用于在所述抽样总数和第二样本预估值的差值大于预设阈值时,调整抽样总数;
抽样模块,用于在所述抽样总数和第二样本预估值的差值小于预设阈值时,按照各个所述网格内所述第二原始数据的抽样概率进行抽样;
所述调整模块包括:
调整单元,用于根据以下公式,调整抽样总数:
n1=n+(e+1)*(n-na);
其中,n1为调整后的抽样总数,n为预先设定的抽样总数,e为常数,其中0<e<1,na为第一原始数据的第二样本预估值。
6.根据权利要求5所述的样本选择装置,其特征在于,所述第一计算模块包括:
第一计算单元,用于根据以下公式,计算各个所述网格内所述第二原始数据的抽样概率:
其中,fj(nj)为第j个网格内第二原始数据的抽样概率,G为网格数量,j为第j个网格,nj为第j个网格内第二原始数据总数,n为预先设定的抽样总数,e为常数,其中0<e<1。
7.根据权利要求5所述的样本选择装置,其特征在于,所述第二计算模块包括:
第二计算单元,用于根据以下公式,计算所述第二原始数据的第一样本预估值:
naj=min{ceil{njfj(nj)},nj};
其中,naj为第j个网格内的第二原始数据的第一样本预估值,fj(nj)为第j个网格内第二原始数据的抽样概率,nj为第j个网格内第二原始数据总数。
8.根据权利要求5所述的样本选择装置,其特征在于,所述第三计算模块包括:
第三计算单元,用于根据以下公式,计算所述第一原始数据的第二样本预估值:
其中,na为第一原始数据的第二样本预估值,G为网格数量,j为第j个网格,naj为第j个网格内的第二原始数据的第一样本预估值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010499592.1A CN111639716B (zh) | 2020-06-04 | 2020-06-04 | 基于密度偏差抽样的数据样本选择方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010499592.1A CN111639716B (zh) | 2020-06-04 | 2020-06-04 | 基于密度偏差抽样的数据样本选择方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111639716A CN111639716A (zh) | 2020-09-08 |
CN111639716B true CN111639716B (zh) | 2023-07-18 |
Family
ID=72331287
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010499592.1A Active CN111639716B (zh) | 2020-06-04 | 2020-06-04 | 基于密度偏差抽样的数据样本选择方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111639716B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102507884A (zh) * | 2011-09-21 | 2012-06-20 | 东南大学 | 基于废水排放比例采样时刻和比例系数的确定方法 |
CN104794335A (zh) * | 2015-04-15 | 2015-07-22 | 同济大学 | 一种通用多级空间抽样方法 |
CN105930856A (zh) * | 2016-03-23 | 2016-09-07 | 深圳市颐通科技有限公司 | 基于改进dbscan-smote算法的分类方法 |
CN111274123A (zh) * | 2019-05-14 | 2020-06-12 | 上海戎磐网络科技有限公司 | 基于软件基因的安全防护软件测试集自动生成方法、架构 |
CN112579983A (zh) * | 2021-03-01 | 2021-03-30 | 深圳市城市交通规划设计研究中心股份有限公司 | 一种出行调查抽样的方法及装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1598751B1 (en) * | 2004-01-12 | 2014-06-25 | Honda Research Institute Europe GmbH | Estimation of distribution algorithm (EDA) |
JP6357594B1 (ja) * | 2015-06-08 | 2018-07-11 | コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. | 可変密度サンプリング方式mri |
-
2020
- 2020-06-04 CN CN202010499592.1A patent/CN111639716B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102507884A (zh) * | 2011-09-21 | 2012-06-20 | 东南大学 | 基于废水排放比例采样时刻和比例系数的确定方法 |
CN104794335A (zh) * | 2015-04-15 | 2015-07-22 | 同济大学 | 一种通用多级空间抽样方法 |
CN105930856A (zh) * | 2016-03-23 | 2016-09-07 | 深圳市颐通科技有限公司 | 基于改进dbscan-smote算法的分类方法 |
CN111274123A (zh) * | 2019-05-14 | 2020-06-12 | 上海戎磐网络科技有限公司 | 基于软件基因的安全防护软件测试集自动生成方法、架构 |
CN112579983A (zh) * | 2021-03-01 | 2021-03-30 | 深圳市城市交通规划设计研究中心股份有限公司 | 一种出行调查抽样的方法及装置 |
Non-Patent Citations (5)
Title |
---|
一种改进的密度偏差抽样算法;张建锦等;《计算机应用》;20070701(第07期);全文 * |
偏差抽样技术在聚类挖掘中的应用;葛继科;《万方在线》;20061231;全文 * |
密度偏差抽样及其在海量数据挖掘中的应用;张建锦等;《2006北京地区高校研究生学术交流会—通信现信息技术会议论文集(下)》;20070723;第1600-1604页 * |
证据回归建模方法研究及其在热工对象中的应用;赵阳;《万方在线》;20181231;全文 * |
证据驱动型火电机组状态预警方法及其应用研究;陈小龙;《中国优秀博硕士学位论文全文数据库(博士)工程科技Ⅰ辑》;20201231;正文第38-42页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111639716A (zh) | 2020-09-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10073906B2 (en) | Scalable tri-point arbitration and clustering | |
US11237119B2 (en) | Diagnostic methods for the classifiers and the defects captured by optical tools | |
US9471544B1 (en) | Anomaly detection in a signal | |
CN110659175A (zh) | 日志的主干提取方法、分类方法、设备及存储介质 | |
CN114997256A (zh) | 一种风电场异常功率的检测方法、设备及存储介质 | |
CN110728322A (zh) | 一种数据分类方法及相关设备 | |
CN112465020A (zh) | 训练数据集的生成方法及装置、电子设备、存储介质 | |
CN106610977B (zh) | 一种数据聚类方法和装置 | |
CN108462624B (zh) | 一种垃圾邮件的识别方法、装置以及电子设备 | |
CN111639716B (zh) | 基于密度偏差抽样的数据样本选择方法及装置 | |
CN114186518A (zh) | 一种集成电路良率估算方法及存储器 | |
CN117576823A (zh) | 一种排队叫号系统终端 | |
CN116561230B (zh) | 一种基于云计算的分布式存储与检索系统 | |
CN113052086B (zh) | 一种白细胞分类方法、装置、计算机设备和存储介质 | |
CN114577988A (zh) | 一种纯蒸汽取样方法及系统 | |
CN111986696A (zh) | 一种高效处理歌曲音量均衡的方法 | |
CN113128574A (zh) | 场景缩减方法、装置及终端设备 | |
CN118010782B (zh) | 一种基于农业废弃物的富硅生物炭检测方法及系统 | |
JP5008096B2 (ja) | 文書自動分類方法及び文書自動分類システム | |
US20190138931A1 (en) | Apparatus and method of introducing probability and uncertainty via order statistics to unsupervised data classification via clustering | |
CN110609832A (zh) | 一种面向流式数据的非重复采样方法 | |
CN111258788A (zh) | 磁盘故障预测方法、装置及计算机可读存储介质 | |
CN114647386B (zh) | 基于人工智能的大数据分布式存储方法 | |
CN111340078B (zh) | 证件信息自动归类的方法、装置、介质及电子设备 | |
KR20150074644A (ko) | 음악분류를 위한 저차의 오디오 특징 추출 장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |