CN107679550A - 一种数据集分类可用性的评估方法 - Google Patents
一种数据集分类可用性的评估方法 Download PDFInfo
- Publication number
- CN107679550A CN107679550A CN201710810498.1A CN201710810498A CN107679550A CN 107679550 A CN107679550 A CN 107679550A CN 201710810498 A CN201710810498 A CN 201710810498A CN 107679550 A CN107679550 A CN 107679550A
- Authority
- CN
- China
- Prior art keywords
- mrow
- msub
- attribute
- sample
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本文公开了一种数据集分类可用性的评估方法。数据驱动的智能系统是机器学习的重要研究课题,使用低质量的数据集作为学习样本会影响分类系统的准确性,本文的研究目标是提出一种对机器学习的训练数据集进行质量评估的方法。首先输入原始数据集进行预处理,统计其基本信息,并构造一个信息系统;其次从中选取初始的数据粒,并计算各初始数据粒的样本中心点;然后构造置信区间,并据此对该信息系统进行信息粒的划分;最后计算原始样本对所划分信息粒的命中率,从而得到数据集的分类可用性。本发明提出的一种数据集分类可用性的评估方法,不仅可以评估数据集对于机器学习分类任务的可用程度,还可以评价数据集的每个特征对于分类效果的贡献程度。
Description
技术领域
本发明主要涉及数据集的分类可用性研究,具体涉及一种对机器学习分类任务所使用的训练数据集进行质量评估的方法。
背景技术
随着经济和科技的不断发展,现实世界中各方面的数据量也急剧增长。数据已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。在大数据的时代背景下,数据驱动的智能系统就成为了人工智能和机器学习的前沿重要研究课题。从现存的数据分类算法来看,很多算法都是基于大规模的学习样本来训练得到分类参数。但当今时代下,许多学习样本存在数据量大、类别繁多、价值密度低等特点,严重制约了相应的智能数据分类系统的应用与推广,并且使用低质量的学习样本集合也会影响分类系统的准确性。为了提升机器学习分类器的性能,训练数据集的可用性评价就成为了必要的技术。在此问题的驱动下,本文的研究目标是提出一种数据集分类可用性的评估方法。
大数据普遍存在,正在成为信息社会的重要财富,同时也带来了巨大的挑战,数据可用性问题就是大数据的重要挑战之一。随着数据的爆炸性增长,劣质数据也随之而来,数据可用性受到严重影响,对信息社会形成严重威胁,引起了学术界和工业界的共同关注。一个正确的大数据集合至少应满足以下五个性质:一致性、完整性、精确性、时效性、实体同一性。评估数据是否达到预期应用场景的质量要求,就可以通过这五个方面来进行判断。
一致性:数据集合中每个信息都不包含语义错误或相互矛盾的数据。精确性:数据集合中每个数据都能准确表述现实世界中的实体。完整性:数据集合中包含足够的数据来回答各种查询和支持各种计算。时效性:信息集合中每个信息都与时俱进,不陈旧过时。实体同一性:同一实体在各种数据源中的描述统一。根据以上五个性质,我们可以如下定义数据可用性:一个数据集合满足上述五个性质的程度是该数据集合的可用性。本文提出的一种数据集分类可用性的评估方法,评价对象是应用于机器学习分类算法的训练数据集。
粒计算是信息处理的一种新的概念和计算范式,是研究基于多层次粒结构的思维方式、问题求解方法、信息处理模式及其相关理论、技术和工具的学科。粒计算方法主要用于对不确定信息的处理,强调对现实世界问题多视角、多层次的理解和描述,从而得到对问题的粒结构表示。本文提出的一种数据集分类可用性的评估方法,借鉴了粒计算的思想,从数据集的特征和类别的视角出发对其进行粒化。然后根据样本在所划分信息粒上的分布情况,来计算原始数据集的分类可用性。
发明内容
本发明的目的在于提出一种对机器学习的训练数据集进行分类可用性评估的方法。对原始数据集进行预处理并构建信息系统,计算各类别样本在各特征列上的中心点得到初始数据粒,并通过构造样本分布的置信区间来划分信息粒,根据样本对所划分信息粒的命中率来评估该数据集的分类可用性。本发明提出的分类可用性的评估方法,还可以评价每个特征对于分类效果的贡献程度。
本发明的技术方案如下:
步骤1,对输入的原始数据集X进行预处理,然后统计处理后的数据集U的基本信息。得到一个信息系统S=(U,A,V,F),记样本个数为n、特征维数为m、标识列的复杂度为k。
其中U={x1,x2,…,xn}表示样本集合,A={a1,a2,…,am}表示属性集合,V是属性A的值域,F:U×A→V是一个使得{f(x,a)∈Va|x∈U,a∈A}成立的函数,f(x,a)表示样本x在属性a上的取值。
步骤2,根据步骤1标识列的复杂度为k,即数据集有k类样本记为C={c1,c2,…,ck},作为初始的数据粒。计算每一类样本c在每个属性a上的均值即信息系统S中各初始数据粒的中心点为{O(c,a)|c∈C,a∈A}。
步骤3,对于计算样本x在属性a上取值的最大值和最小值记为和利用步骤2所得各初始数据粒的中心点O(c,a)与和可以计算每一类样本c在每个属性a上的置信区间的下确界和上确界。
由此可以构造出每一类样本c在每个属性a上的置信区间集合{N(c,a)|c∈C,a∈A},从而由信息系统S经过划分得到的k个信息粒记为N={N1(c1,a),N2(c2,a),…,Nk(ck,a)}。
步骤4,信息系统S中的样本总数为n特征维度为m,属性a上命中信息粒集合N的样本数为na,则该属性的分类可用度为原数据集X的分类可用性为
分类可用度ea代表了属性a对于分类任务的贡献程度,分类可用性E代表了数据集X作为机器学习分类任务训练数据集的可用程度。
附图说明
读者在参照附图阅读了本发明的具体实施方式以后,将会更清楚地了解本发明的各个方面。其中,
图1为本发明一种数据集分类可用性的评估方法的流程图,同时也为摘要附图;
图2为15个UCI数据集的分类可用性评估的结果图;
图3为被评数据集在3种分类器上的分类准确率与分类可用性的对比图。
具体实施方式
步骤1,对输入的原始数据集X进行预处理,然后统计处理后的数据集U的基本信息。得到一个信息系统S=(U,A,V,F)。
步骤1所述的对原始数据集X进行预处理的方法为,去除含缺失值的记录,利用箱型图分析异常值并去除,将非数值型的特征值数值化,得到处理后的数据集U。统计数据集U的基本信息,记样本个数为n、特征维数为m、标识列的复杂度为k,得到一个信息系统S=(U,A,V,F)。
信息系统S=(U,A,V,F)中,U={x1,x2,…,xn}表示样本集合,A={a1,a2,…,am}表示属性集合,V是属性A的值域,F:U×A→V是一个使得{f(x,a)∈Va|x∈U,a∈A}成立的函数,f(x,a)表示样本x在属性a上的取值。
步骤2,根据原始数据集的标识列复杂度k,可将k类样本记为C={c1,c2,…,ck},作为初始的数据粒。计算每一类样本c在每个属性a上的均值O(c,a),即信息系统S中各初始数据粒的中心点。
步骤2所述的对初始数据粒进行样本中心点计算的方法为,根据原始数据集的标识列复杂度k,即数据集有k类样本记为C={c1,c2,…,ck},c1∪c1…∪ck=U作为初始的数据粒。计算每一类样本在每个属性上的均值,即对于a∈A,都有:
其中n(c)表示类别c的样本数,f(x,a)表示样本x在属性a上的取值,则信息系统S中各初始数据粒的中心点为{O(c,a)|c∈C,a∈A}。
步骤3,根据步骤2所得各初始数据粒的中心点O(c,a),以及样本x在属性a上取值的最大值和最小值和构造每一类样本c在每个属性a上的置信区间N(c,a)。从而信息系统S可由置信区间集合划分得到k个信息粒,记为N={N1(c1,a),N2(c2,a),…,Nk(ck,a)}。
步骤3所述的根据初始数据粒中心点构造置信区间的方法为,对于计算样本x在属性a上取值的最大值和最小值,记为和如下式:
将步骤2所得到的各初始数据粒的中心点O(c,a)以及和进行排序,得到一个有序数组{OCi(a)|a∈A;i=0,1,…,k+1}。计算此数组中两两相邻元素间的均值,如下式:
得到一个新的有序数组,此数组中的相邻元素和代表了属于类别ci的样本x在属性a上的置信区间的下确界和上确界。由此可以构造出每一类样本在每个属性上的置信区间N(c,a),即对于a∈A,有下式:
置信区间Ni(ci,a)的含义是,属于类别ci的样本x在属性a上的取值分布在该区间上的期望概率最高。即对于a∈A优化目标如下式:
从而可将信息系统S=(U,A,V,F)按照置信区间划分得到k个信息粒,记为N={N1(c1,a),N2(c2,a),…,Nk(ck,a)}。
步骤4,计算信息系统S中属性a上命中信息粒集合N的样本比率为将其作为该属性的分类可用度,并将所有属性的平均分类可用度作为原数据集X的分类可用性E。
步骤4所述的根据步骤3所划分的样本信息粒进行分类可用度计算的方法为,在信息系统S=(U,A,V,F)中对于任意属性a∈A定义函数ga(x),当ga(x)=1时表示样本x命中信息粒集合N={N1(c1,a),N2(c2,a),…,Nk(ck,a)},定义如下式:
对所有的x∈U统计属性a∈A上命中信息粒集合N的样本数na,如下式:
信息系统S中的样本总数为n特征维度为m,将属性a的分类可用度记为ea,原数据集X的分类可用性记为E,计算公式如下:
分类可用度ea代表了属性a对于分类任务的贡献程度,分类可用性E代表了数据集X作为机器学习分类任务训练数据集的可用程度。
Claims (5)
1.一种数据集分类可用性的评估方法,其特征在于:对机器学习分类任务所使用的训练数据集进行可用性评估时,进行了以下步骤:
步骤1,对输入的原始数据集X进行预处理,然后统计处理后的数据集U的基本信息,得到一个信息系统S=(U,A,V,F),其中U={x1,x2,…,xn}表示样本集合,A={a1,a2,…,am}表示属性集合,V是属性A的值域,F:U×A→V是一个函数使得{f(x,a)∈Va|x∈U,a∈A};
步骤2,根据步骤1标识列的复杂度为k,即数据集有k类样本记为C={c1,c2,…,ck},作为初始的数据粒,计算每一类样本c在每个属性a上的均值即信息系统S中各初始数据粒的中心点为{O(c,a)|c∈C,a∈A};
步骤3,利用步骤2所得各初始数据粒的中心点O(c,a),构造每一类样本c在每个属性a上的置信区间的集合{N(c,a)|c∈C,a∈A},从而由信息系统S经过划分得到的k个信息粒记为N={N1(c1,a),N2(c2,a),…,Nk(ck,a)};
步骤4,信息系统S中的样本总数为n特征维度为m,属性a上命中信息粒集合N的样本数为na,则该属性的分类可用度为原数据集X的分类可用性为
2.根据权利要求1所述的机器学习训练数据集的分类可用性评估方法,其特征在于:步骤1所述的对原始数据集X进行预处理的方法为,去除含缺失值的记录,将非数值型的特征值数值化,得到处理后的数据集U,统计数据集U的基本信息,记样本个数为n、特征维数为m、标识列的复杂度为k,得到一个信息系统S=(U,A,V,F),其中:
U={x1,x2,…,xn}表示样本集合,A={a1,a2,…,am}表示属性集合,V是属性A的值域,F:U×A→V是一个使得{f(x,a)∈Va|x∈U,a∈A}成立的函数,f(x,a)表示样本x在属性a上的取值。
3.根据权利要求1所述的机器学习训练数据集的分类可用性评估方法,其特征在于:步骤2所述的对步骤1所得到的信息系统S=(U,A,V,F)进行初始数据粒划分的方法为,对于步骤1标识列的复杂度为k,即数据集有k类样本记为C={c1,c2,…,ck},c1∪c1…∪ck=U作为初始的数据粒,计算每一类样本在每个属性上的均值,即对于a∈A,都有:
<mrow>
<mi>O</mi>
<mrow>
<mo>(</mo>
<mi>c</mi>
<mo>,</mo>
<mi>a</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mn>1</mn>
<mrow>
<mi>n</mi>
<mrow>
<mo>(</mo>
<mi>c</mi>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
<munder>
<mo>&Sigma;</mo>
<mrow>
<mi>x</mi>
<mo>&Element;</mo>
<mi>c</mi>
</mrow>
</munder>
<mi>f</mi>
<mrow>
<mo>(</mo>
<mi>x</mi>
<mo>,</mo>
<mi>a</mi>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</mrow>
其中n(c)表示类别c的样本数,f(x,a)表示样本x在属性a上的取值,则信息系统S中各初始数据粒的中心点为{O(c,a)|c∈C,a∈A}。
4.根据权利要求1所述的机器学习训练数据集的分类可用性评估方法,其特征在于:步骤3所述的利用步骤2所得各初始数据粒的中心点O(c,a),构造置信区间并划分信息粒的方法为,对于计算样本x在属性a上取值的最大值和最小值,记为和如下式:
<mrow>
<msubsup>
<mi>x</mi>
<mi>a</mi>
<mo>+</mo>
</msubsup>
<mo>=</mo>
<mi>max</mi>
<mi> </mi>
<mi>f</mi>
<mrow>
<mo>(</mo>
<mi>x</mi>
<mo>,</mo>
<mi>a</mi>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>2</mn>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<msubsup>
<mi>x</mi>
<mi>a</mi>
<mo>-</mo>
</msubsup>
<mo>=</mo>
<mi>min</mi>
<mi> </mi>
<mi>f</mi>
<mrow>
<mo>(</mo>
<mi>x</mi>
<mo>,</mo>
<mi>a</mi>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>3</mn>
<mo>)</mo>
</mrow>
</mrow>
将步骤2所得到的各初始数据粒的中心点O(c,a)以及和进行排序,得到一个有序数组{OCi(a)|a∈A;i=0,1,…,k+1},计算此数组中两两相邻元素间的均值,如下式:
<mrow>
<mover>
<mrow>
<msub>
<mi>OC</mi>
<mi>i</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>a</mi>
<mo>)</mo>
</mrow>
</mrow>
<mo>&OverBar;</mo>
</mover>
<mo>=</mo>
<mfrac>
<mrow>
<msub>
<mi>OC</mi>
<mrow>
<mi>i</mi>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mi>a</mi>
<mo>)</mo>
</mrow>
<mo>+</mo>
<msub>
<mi>OC</mi>
<mi>i</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>a</mi>
<mo>)</mo>
</mrow>
</mrow>
<mn>2</mn>
</mfrac>
<mo>,</mo>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
<mo>,</mo>
<mn>2</mn>
<mo>,</mo>
<mo>...</mo>
<mo>,</mo>
<mi>k</mi>
<mo>+</mo>
<mn>1</mn>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>4</mn>
<mo>)</mo>
</mrow>
</mrow>
得到一个新的有序数组,此数组中的相邻元素和代表了属于类别ci的样本x在属性a上的置信区间的下确界和上确界,由此可以构造出每一类样本在每个属性上的置信区间N(c,a),即对于a∈A,有下式:
<mrow>
<msub>
<mi>N</mi>
<mi>i</mi>
</msub>
<mrow>
<mo>(</mo>
<msub>
<mi>c</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<mi>a</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mrow>
<mo>(</mo>
<mover>
<mrow>
<msub>
<mi>OC</mi>
<mi>i</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>a</mi>
<mo>)</mo>
</mrow>
</mrow>
<mo>&OverBar;</mo>
</mover>
<mo>,</mo>
<mover>
<mrow>
<msub>
<mi>OC</mi>
<mrow>
<mi>i</mi>
<mo>+</mo>
<mn>1</mn>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mi>a</mi>
<mo>)</mo>
</mrow>
</mrow>
<mo>&OverBar;</mo>
</mover>
<mo>)</mo>
</mrow>
<mo>,</mo>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
<mo>,</mo>
<mn>2</mn>
<mo>,</mo>
<mo>...</mo>
<mi>k</mi>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>5</mn>
<mo>)</mo>
</mrow>
</mrow>
置信区间Ni(ci,a)的含义是,属于类别ci的样本x在属性a上的取值分布在该区间上的期望概率最高,即对于a∈A优化目标如下式:
<mrow>
<mi>N</mi>
<mrow>
<mo>(</mo>
<mi>c</mi>
<mo>,</mo>
<mi>a</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mi>arg</mi>
<mi> </mi>
<mi>M</mi>
<mi>a</mi>
<mi>x</mi>
<munder>
<mo>&Sigma;</mo>
<mrow>
<mi>x</mi>
<mo>&Element;</mo>
<mi>c</mi>
</mrow>
</munder>
<mi>P</mi>
<mrow>
<mo>(</mo>
<mi>f</mi>
<mo>(</mo>
<mrow>
<mi>x</mi>
<mo>,</mo>
<mi>a</mi>
</mrow>
<mo>)</mo>
<mo>&Element;</mo>
<mi>N</mi>
<mo>(</mo>
<mrow>
<mi>c</mi>
<mo>,</mo>
<mi>a</mi>
</mrow>
<mo>)</mo>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>6</mn>
<mo>)</mo>
</mrow>
</mrow>
从而可将信息系统S=(U,A,V,F)按照置信区间划分得到k个信息粒,记为N={N1(c1,a),N2(c2,a),…,Nk(ck,a)}。
5.根据权利要求1所述的机器学习训练数据集的分类可用性评估方法,其特征在于:步骤4所述由步骤3划分的样本信息粒进行分类可用度计算的方法为,在信息系统S=(U,A,V,F)中对于任意属性a∈A定义函数ga(x),当ga(x)=1时表示样本x命中信息粒集合N={N1(c1,a),N2(c2,a),…,Nk(ck,a)},定义如下式:
<mrow>
<msub>
<mi>g</mi>
<mi>a</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>x</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfenced open = "{" close = "">
<mtable>
<mtr>
<mtd>
<mrow>
<mn>1</mn>
<mo>,</mo>
</mrow>
</mtd>
<mtd>
<mrow>
<mi>x</mi>
<mo>&Element;</mo>
<mi>c</mi>
<mi> </mi>
<mi>a</mi>
<mi>n</mi>
<mi>d</mi>
<mi> </mi>
<mi>x</mi>
<mo>&Element;</mo>
<mi>N</mi>
<mrow>
<mo>(</mo>
<mi>c</mi>
<mo>,</mo>
<mi>a</mi>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<mn>0</mn>
<mo>,</mo>
</mrow>
</mtd>
<mtd>
<mrow>
<mi>o</mi>
<mi>t</mi>
<mi>h</mi>
<mi>e</mi>
<mi>r</mi>
<mi>s</mi>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>7</mn>
<mo>)</mo>
</mrow>
</mrow>
对所有的x∈U统计属性a∈A上命中信息粒集合N的样本数na,如下式:
<mrow>
<msub>
<mi>n</mi>
<mi>a</mi>
</msub>
<mo>=</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>k</mi>
</munderover>
<munder>
<mo>&Sigma;</mo>
<mrow>
<mi>x</mi>
<mo>&Element;</mo>
<msub>
<mi>c</mi>
<mi>i</mi>
</msub>
</mrow>
</munder>
<msub>
<mi>g</mi>
<mi>a</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>x</mi>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>8</mn>
<mo>)</mo>
</mrow>
</mrow>
信息系统S中的样本总数为n特征维度为m,将属性a的分类可用度记为ea,原数据集X的分类可用性记为E,计算公式如下:
<mrow>
<msub>
<mi>e</mi>
<mi>a</mi>
</msub>
<mo>=</mo>
<mfrac>
<msub>
<mi>n</mi>
<mi>a</mi>
</msub>
<mi>n</mi>
</mfrac>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>9</mn>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mi>E</mi>
<mo>=</mo>
<mfrac>
<mn>1</mn>
<mi>m</mi>
</mfrac>
<munder>
<mo>&Sigma;</mo>
<mrow>
<mi>a</mi>
<mo>&Element;</mo>
<mi>A</mi>
</mrow>
</munder>
<msub>
<mi>e</mi>
<mi>a</mi>
</msub>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>10</mn>
<mo>)</mo>
</mrow>
</mrow>
分类可用度ea代表了属性a对于分类任务的贡献程度,分类可用性E代表了数据集X作为机器学习分类任务训练数据集的可用程度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710810498.1A CN107679550A (zh) | 2017-09-11 | 2017-09-11 | 一种数据集分类可用性的评估方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710810498.1A CN107679550A (zh) | 2017-09-11 | 2017-09-11 | 一种数据集分类可用性的评估方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107679550A true CN107679550A (zh) | 2018-02-09 |
Family
ID=61134935
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710810498.1A Pending CN107679550A (zh) | 2017-09-11 | 2017-09-11 | 一种数据集分类可用性的评估方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107679550A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110135433A (zh) * | 2019-05-07 | 2019-08-16 | 宏图物流股份有限公司 | 一种基于车辆推荐的画像数据可用性判断方法 |
CN110298709A (zh) * | 2019-07-09 | 2019-10-01 | 广州品唯软件有限公司 | 一种超大规模数据的预估方法和装置 |
CN111680905A (zh) * | 2020-06-01 | 2020-09-18 | 安徽江淮汽车集团股份有限公司 | 车辆通过性数据评估方法、设备、存储介质及装置 |
CN112257734A (zh) * | 2019-11-15 | 2021-01-22 | 北京沃东天骏信息技术有限公司 | 一种信息处理方法及装置、存储介质 |
CN115688707A (zh) * | 2022-12-08 | 2023-02-03 | 中国传媒大学 | 一种多语言混合的新闻价值排序方法 |
CN115795143A (zh) * | 2022-10-10 | 2023-03-14 | 哈尔滨菲桐匠心科技有限公司 | 一种基于计算机的信息评价系统及方法 |
-
2017
- 2017-09-11 CN CN201710810498.1A patent/CN107679550A/zh active Pending
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110135433A (zh) * | 2019-05-07 | 2019-08-16 | 宏图物流股份有限公司 | 一种基于车辆推荐的画像数据可用性判断方法 |
CN110298709A (zh) * | 2019-07-09 | 2019-10-01 | 广州品唯软件有限公司 | 一种超大规模数据的预估方法和装置 |
CN110298709B (zh) * | 2019-07-09 | 2023-08-01 | 广州品唯软件有限公司 | 一种超大规模数据的预估方法和装置 |
CN112257734A (zh) * | 2019-11-15 | 2021-01-22 | 北京沃东天骏信息技术有限公司 | 一种信息处理方法及装置、存储介质 |
CN111680905A (zh) * | 2020-06-01 | 2020-09-18 | 安徽江淮汽车集团股份有限公司 | 车辆通过性数据评估方法、设备、存储介质及装置 |
CN111680905B (zh) * | 2020-06-01 | 2023-11-10 | 安徽江淮汽车集团股份有限公司 | 车辆通过性数据评估方法、设备、存储介质及装置 |
CN115795143A (zh) * | 2022-10-10 | 2023-03-14 | 哈尔滨菲桐匠心科技有限公司 | 一种基于计算机的信息评价系统及方法 |
CN115795143B (zh) * | 2022-10-10 | 2024-02-13 | 深圳市网盾信息安全有限公司 | 一种基于计算机的信息评价系统及方法 |
CN115688707A (zh) * | 2022-12-08 | 2023-02-03 | 中国传媒大学 | 一种多语言混合的新闻价值排序方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107679550A (zh) | 一种数据集分类可用性的评估方法 | |
CN103617429A (zh) | 一种主动学习分类方法和系统 | |
CN111126488B (zh) | 一种基于双重注意力的图像识别方法 | |
CN111444247A (zh) | 一种基于kpi指标的根因定位方法、装置及存储介质 | |
CN110688502B (zh) | 一种基于深度哈希和量化的图像检索方法及存储介质 | |
CN107291723A (zh) | 网页文本分类的方法和装置,网页文本识别的方法和装置 | |
CN111160401B (zh) | 一种基于均值漂移和XGBoost的异常用电判别方法 | |
CN110379463A (zh) | 基于机器学习的海洋藻类成因分析及浓度预测方法和系统 | |
CN106991447A (zh) | 一种嵌入式多类别属性标签动态特征选择算法 | |
CN107451278A (zh) | 基于多隐层极限学习机的中文文本分类方法 | |
CN109657721A (zh) | 一种结合模糊集和随机森林树的多类别决策方法 | |
CN111506637B (zh) | 一种基于kpi指标的多维异常检测方法、装置及存储介质 | |
CN103617435A (zh) | 一种主动学习图像分类方法和系统 | |
CN104463208A (zh) | 组合标记规则的多视图协同半监督分类算法 | |
CN105740914A (zh) | 一种基于近邻多分类器集成的车牌识别方法及系统 | |
Ahmed et al. | Predicting university's students performance based on machine learning techniques | |
Trstenjak et al. | Determining the impact of demographic features in predicting student success in Croatia | |
CN103679160A (zh) | 一种人脸识别方法和装置 | |
CN105574213A (zh) | 一种基于数据挖掘技术的微博推荐方法及装置 | |
CN107273505A (zh) | 基于非参数贝叶斯模型的监督跨模态哈希检索方法 | |
CN106570076A (zh) | 一种计算机文本分类系统 | |
CN103793694A (zh) | 一种基于多特征空间稀疏分类器的人脸识别方法 | |
CN111767538A (zh) | 一种基于相关信息熵的工控入侵检测系统特征选择方法 | |
CN111709460A (zh) | 基于相关系数的互信息特征选择方法 | |
CN104537385A (zh) | 一种估计dagsvm分类准确度的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20180209 |
|
WD01 | Invention patent application deemed withdrawn after publication |