CN106156783A - 对待测数据样本进行分类的方法和装置 - Google Patents
对待测数据样本进行分类的方法和装置 Download PDFInfo
- Publication number
- CN106156783A CN106156783A CN201510136857.0A CN201510136857A CN106156783A CN 106156783 A CN106156783 A CN 106156783A CN 201510136857 A CN201510136857 A CN 201510136857A CN 106156783 A CN106156783 A CN 106156783A
- Authority
- CN
- China
- Prior art keywords
- data sample
- grader
- value
- competent
- checking data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了对待测数据样本进行分类的方法和装置。根据本发明的一个方面,对待测数据样本进行分类的方法包括:计算多个分类器中的每个分类器对所述待测数据样本的胜任值;以及根据每个分类器对所述待测数据样本的胜任值,从所述多个分类器中选取一个或一部分分类器对所述待测数据样本进行分类,其中每个分类器对所述待测数据样本的胜任值是根据已经过调整的、该分类器对所述待测数据样本的邻域空间所包含的验证数据样本的胜任值计算得出的,并且其中所述邻域空间包含类别已知的多个验证数据样本中与所述待测数据样本邻近的一部分验证数据样本。
Description
技术领域
本发明涉及模型融合领域,具体涉及对待测数据样本进行分类的方法和装置。
背景技术
随着计算机领域中机器学习技术的快速发展,涌现出了一批性能优越的分类器模型,如决策树、支持向量机、神经网络、逻辑回归、朴素贝叶斯等模型。不同的分类器模型基于不同的基本假设,适合不同的分类问题,但没有一个分类器模型在所有分类问题上都能达到性能最优。而期望的是,模式识别系统和分类系统的分类性能更优。为此,人们提出了融合多个分类器模型的预测结果来提高系统的分类性能的技术。
当多个分类器相对于各自适合的分类问题的分类精度都比较高,并且差异性比较大时(即,各个分类器的决策错误比较独立),将多个分类器的预测结果进行融合能够充分利用分类器间的互补性,取得比其中任一分类器都更优的分类性能。
将多个分类器的预测结果进行融合的过程即为,通过评估哪个或哪些分类器模型更适合当前分类问题,来选择适当的分类器模型进行分类操作。通常,在评估的过程中需要引入胜任值的概念,其代表了某个分类器模型对于当前遇到的分类问题是否胜任的程度。
在现有技术中,在一个分类器模型对一个数据样本进行分类时,如果其分类结果与该数据样本的真实类别相同,则可认为该分类器模型对该数据样本的胜任值为1,否则为0。但这种方式所遇到的问题是,某个分类器模型对比较接近的两个数据样本的胜任值可能完全相反,即,一个是1,另一个是0。但理论上,同一个分类器对比较接近的两个数据样本进行分类的胜任程度应当也是比较接近的。这就造成了在选择适当的分类器模型对数据样本进行分类时,有可能会进行错误的选择。
发明内容
有鉴于此,本发明提出了一种对待测数据样本进行分类的方法,以解决现有技术中的问题。
根据本发明的一个方面,提供了一种对待测数据样本进行分类的方法,包括:计算多个分类器中的每个分类器对所述待测数据样本的胜任值;以及根据每个分类器对所述待测数据样本的胜任值,从所述多个分类器中选取一个或一部分分类器对所述待测数据样本进行分类,其中每个分类器对所述待测数据样本的胜任值是根据已经过调整的、该分类器对所述待测数据样本的邻域空间所包含的验证数据样本的胜任值计算得出的,并且其中所述邻域空间包含类别已知的多个验证数据样本中与所述待测数据样本邻近的一部分验证数据样本。
根据本发明的另一方面,提供了一种对待测数据样本进行分类的装置,包括:多个分类器;计算单元,计算所述多个分类器中的每个分类器对所述待测数据样本的胜任值;以及选取单元,根据所述计算单元所计算出的胜任值,从所述多个分类器中选取一个或一部分分类器对所述待测数据样本进行分类,其中每个分类器对所述待测数据样本的胜任值是根据已经过调整的、该分类器对所述待测数据样本的邻域空间所包含的验证数据样本的胜任值计算得出的,并且其中所述邻域空间包含类别已知的多个验证数据样本中与所述待测数据样本邻近的一部分验证数据样本。
根据本发明所提供的技术方案,根据分类器对邻域空间中与待测数据样本相近的验证数据样本的胜任值,来实现对分类器的选择,以对待测数据样本进行分类。而且,分类器对各验证数据样本的胜任值是已经过调整的,以使得在对待测数据样本进行分类时,对分类器的选择更加准确。
附图说明
参照附图来阅读本发明的各实施方式,将更容易理解本发明的其它特征和优点,在此描述的附图只是为了对本发明的实施方式进行示意性说明的目的,而非全部可能的实施,并且不旨在限制本发明的范围。在附图中:
图1示出了根据本发明一个实施方式对待测数据样本进行分类的方法的流程图;
图2示出了根据本发明另一实施方式对待测数据样本进行分类的方法的流程图;
图3示例性地示出了预测结果矩阵的一例;
图4示出了根据本发明一个实施方式根据多个验证数据样本之间的相似度来调整每个分类器对每个验证数据样本的胜任值的流程图;
图5示意性地示出了相似性图的一例;
图6示出了根据本发明一个实施方式对待测数据样本进行分类的装置的框图;
图7示出了根据本发明另一实施方式对待测数据样本进行分类的装置的框图;
图8示出了根据本发明一个实施方式的调整单元的框图;
图9示出了根据本发明另一实施方式的调整单元的框图;以及
图10示出了可用于实施根据本发明实施例的方法和系统的计算机的示意性框图。
具体实施方式
现参照附图对本发明的实施方式进行详细描述。应注意,以下描述仅仅是示例性的,而并不旨在限制本发明。此外,在以下描述中,将采用相同的附图标号表示不同附图中的相同或相似的部件。在以下描述的不同实施方式中的不同特征,可彼此结合,以形成本发明范围内的其他实施方式。
在下文的描述中,除有相反说明外,所提及的分类器(或分类器模型)均是指已经过已知其类别的训练数据样本进行训练后得到的可用分类器。这些分类器可以是例如决策树、支持向量机、神经网络、逻辑回归、朴素贝叶斯等模型中的一种或多种。本领域技术人员可以理解,本发明所提供的方法和装置可采用任何已知的分类器模型。
图1示出了根据本发明一个实施方式对待测数据样本进行分类的方法的流程图。如图1所示,分类器的选择方法100包括步骤S110至S120。当需要对类别未知的待测数据样本进行分类时,在步骤S110中,计算多个分类器中的每个分类器对该待测数据样本的胜任值。随后,在步骤S120中,根据每个分类器对该待测数据样本的胜任值,从多个分类器中选取一个或一部分分类器对该待测数据样本进行分类。
在计算每个分类器对待测数据样本的胜任值时,本发明提出了邻域空间的概念,在待测数据样本的邻域空间中,包含已知其类别的多个验证数据样本中与该待测数据样本邻近的验证数据样本。数据样本之间的距离,可通过任何已知的方式来计算,例如,可计算两个数据样本的特征向量之间的欧式距离,以此来判断其是否邻近。
根据一个实施例,待测数据样本的邻域空间包含与该待测数据样本距离最接近的K个验证数据样本,其中K是预设的正整数。可选地,可预设一个阈值T,待测数据样本的邻域空间包含与该待测数据样本的距离小于T的验证数据样本。
每个分类器对待测数据样本的胜任值是根据该分类器对待测数据样本的邻域空间所包含的各验证数据样本的胜任值计算得出的,并且每个分类器对各验证数据样本的胜任值是已经过调整的。具体调整的方式将在以下详述。
通过本发明的上述实施方式,在选择对待测数据样本进行分类的分类器时,引入了邻域空间的概念。可以理解,邻近的数据样本的性质(例如类别以及适用的分类器)应是比较接近的。所以,根据分类器对邻域空间中与待测数据样本相近的验证数据样本的胜任值,实现了对分类器的选择,以对待测数据样本进行分类。而且,分类器对待测数据样本的胜任值是根据该分类器对待测数据样本的邻域空间所包含的各验证数据样本的胜任值计算得出的,并且分类器对各验证数据样本的胜任值是已经过调整的。调整胜任值的目的是,使得确定的分类器对于比较接近的数据样本进行分类的胜任值也比较接近,这样使得在对待测数据样本进行分类时,对分类器的选择更加准确,不会由于分类器对相近数据样本的胜任值的较大差异而造成分类结果的劣化。
根据本发明的一个实施方式,通过以下公式计算每个分类器对待测数据样本的邻域空间的胜任值:
其中,αip表示分类器i对待测数据样本p的胜任值,U(p)表示待测数据样本p的邻域空间,λs表示类别已知的验证数据样本s的权重值,αis表示分类器i对验证数据样本s的胜任值,并且分类器i对验证数据样本s的胜任值是已经过调整的。
由此可见,分类器对待测数据样本的胜任值是由该分类器对待测数据样本的邻域空间中的所有类别已知的验证数据样本的胜任值所决定的。
根据本发明的一个实施例,上述公式1中的λs可设为常量,例如1,从而可以简化计算过程。根据另一实施例,λs可根据下式来计算:
其中dis(p,s)表示验证数据样本s与待测数据样本p之间的距离,ω是大于0的可调参数。
由公式2可见,验证数据样本s与待测数据样本p之间的距离越近,则其权重值λs越大,也就是说,该验证数据样本s对αiU的贡献越大。所以,距离待测数据样本p越近的验证数据样本s对选择分类器进行分类的影响越大。
图2示出了根据本发明另一实施方式对待测数据样本进行分类的方法的流程图。如图2所示,除了上述步骤S110和S120,方法100’还包括步骤S102和S104。在步骤S102中,评估每个分类器对已知其类别的多个验证数据样本中的每个验证数据样本的胜任值。随后,在步骤S104中,根据多个验证数据样本之间的相似度,调整每个分类器对每个验证数据样本的胜任值。
在现有技术中,按如下方式评估一个分类器对类别已知的一个验证数据样本的胜任值:首先利用该分类器对该验证数据样本进行分类,然后将分类的结果与已知的该验证数据样本的真实类别相比较,如果一致,则该分类器对该验证数据样本的胜任值为1;否则,该分类器对该验证数据样本的胜任值为0。也就是说,一个分类器对任一个数据样本的胜任值非0即1。那么在数据样本空间,必然存在胜任值1和0交界之处。也就是说,分类器对于某些相似的数据样本的胜任值是完全相反的,即,对相似的数据样本的胜任值不平滑。但理论上,确定的分类器对比较接近的两个数据样本进行分类的胜任程度应当是比较接近的。
对此,根据图2所示的实施方式,根据多个验证数据样本之间的相似度来调整每个分类器对每个验证数据样本的胜任值,以使得同一个分类器对相似的数据样本进行分类的胜任程度比较接近,即,对相似的数据样本的胜任值是平滑的。从而,能够使得对分类器的选择更加准确,也增大了后续对待测数据样本进行分类的精度。
在步骤S102中,可利用已知的任何方式来评估每个分类器对每个验证数据样本的胜任值。根据一个实施例,可以为每个验证数据样本j创建预测结果矩阵V(j),在预测结果矩阵V(j)中,记录每个分类器i所预测的验证数据样本j的类别概率。图3示例性地示出了预测结果矩阵V(j)的一例。如图3所示,V(j)中的每一行代表一个分类器,每一列代表一个类别。V(j)中的每个元素Vic (j)表示分类器i计算得到的验证数据样本j属于类别c的概率。
然后,根据预测结果矩阵V(j)所记录的类别概率,获知每个分类器i对每个验证数据样本j的胜任值。分类器i计算得到的验证数据样本j的最大类别概率,即为分类器i对验证数据样本j的分类结果,如果该结果与验证数据样本j的真实类别相符,则可将胜任值记为1,否则记为0。
根据本发明的一个实施例,在上述步骤S104中,根据每个分类器对每个验证数据样本的相邻验证数据样本的胜任值来调整该分类器对该验证数据样本的胜任值。也就是说,对一个确定的分类器对一个确定的验证数据样本的胜任值的调整,是根据该分类器对该验证数据样本的相邻验证数据样本的胜任值来进行的,从而使得分类器对相邻数据样本的胜任值变得更平滑。
图4示出了根据本发明一个实施方式根据多个验证数据样本之间的相似度来调整每个分类器对每个验证数据样本的胜任值的流程图。如图4所示,上述步骤S104包括子步骤S104A和S104B。在子步骤S104A中,根据多个验证数据样本,构建验证数据样本的相似性图,在相似性图中,相似度越高的验证数据样本之间的距离越接近。图5示意性地示出了相似性图的一例。如图5所示,在相似性图中的相邻验证数据样本之间具有连接线。在子步骤S104B中,将每个分类器对每个验证数据样本在相似性图中的相邻验证数据样本的胜任值进行迭代计算,以调整每个分类器对每个验证数据样本的胜任值。
根据本发明的一个实施例,在子步骤S104B中,通过以下公式进行迭代计算:
其中,αij表示分类器i对验证数据样本j的胜任值,t表示迭代的次数,γ是大于0的可调参数,N(j)表示验证数据样本j在相似性图中的相邻验证数据样本的集合,Wjs表示验证数据样本j与其相邻验证数据样本s之间的权重值。
通过采用迭代计算的方式,能够有效地使同一分类器对相邻验证数据样本的胜任值变得更平滑。
根据本发明的一个实施例,上述公式3中的Wjs可设为常量,例如1,从而可以简化计算过程。根据另一实施例,Wjs可根据下式来计算:
其中dis(j,s)表示验证数据样本j与其相邻验证数据样本s之间的距离,μ是大于0的可调参数。
由公式4可见,相邻验证数据样本s与验证数据样本j之间的距离越近,则其权重值Wjs越大,也就是说,该相邻验证数据样本s对验证数据样本j的影响越大。
根据本发明的一个实施方式,在上述公式3中,在每次迭代计算之后,均对所有分类器对每个验证数据样本j的胜任值之和进行归一化。即,使通过归一化,可以控制分类器对验证数据样本的胜任值不会在数次迭代之后变得很大,从而影响后续的计算。
根据本发明的一个实施方式,在上述公式3中,将每个分类器对每个验证数据样本在相似性图中的相邻验证数据样本的胜任值进行预定次数的迭代计算,以调整每个分类器对每个验证数据样本的胜任值。可选地,在迭代计算的过程中,当每个分类器对每个验证数据样本的胜任值已稳定时,则停止迭代计算。
图6示出了根据本发明一个实施方式对待测数据样本进行分类的装置的框图。如图6所示,装置600可包括:多个分类器610-1至610-n、计算单元620和选取单元630。计算单元620可计算分类器610-1至610-n中的每个分类器对待测数据样本的胜任值。选取单元630可根据计算单元620所计算出的胜任值,从分类器610-1至610-n中选取一个或一部分分类器对待测数据样本进行分类。其中,邻域空间包含类别已知的多个验证数据样本中与待测数据样本邻近的一部分验证数据样本。每个分类器对待测数据样本的胜任值是根据该分类器对待测数据样本的邻域空间所包含的验证数据样本的胜任值计算得出的,并且这些胜任值已经过调整。
根据本发明的一个实施方式,计算单元620通过上述公式1计算每个分类器610-1至610-n对待测数据样本的邻域空间的胜任值。
根据本发明的一个实施例,上述公式1中的λs可设为常量,例如1,从而可以简化计算过程。根据另一实施例,λs可根据上述公式2来计算。
图7示出了根据本发明另一实施方式对待测数据样本进行分类的装置的框图。如图7所示,除了多个分类器610-1至610-n、计算单元620和选取单元630之外,装置600’还包括:评估单元640和调整单元650。评估单元640可评估每个分类器对多个验证数据样本中的每个验证数据样本的胜任值。调整单元650可根据多个验证数据样本之间的相似度,调整每个分类器对每个验证数据样本的胜任值。根据本发明的一个实施例,调整单元650根据每个分类器对每个验证数据样本的相邻验证数据样本的胜任值调整该分类器对该验证数据样本的胜任值。
图8示出了根据本发明一个实施方式的调整单元的框图。如图8所示,调整单元650可包括构建子单元651和迭代子单元652。构建子单元651可根据多个验证数据样本,构建验证数据样本的相似性图,在相似性图中,相似度越高的验证数据样本之间的距离越接近。迭代子单元652可将每个分类器对每个验证数据样本在相似性图中的相邻验证数据样本的胜任值进行迭代计算,以调整每个分类器对每个验证数据样本的胜任值。
根据本发明的一个实施例,迭代子单元652通过上述公式3进行迭代计算。
根据本发明的一个实施例,上述公式3中的Wjs可设为常量,例如1,从而可以简化计算过程。根据另一实施例,Wjs可根据上述公式4来计算。
图9示出了根据本发明另一实施方式的调整单元的框图。如图9所示,除了构建子单元651和迭代子单元652,调整单元650’还可包括归一化子单元653。归一化子单元653在迭代子单元652的每次迭代计算之后,对所有分类器对每个验证数据样本j的胜任值进行归一化。即,使
另外,这里尚需指出的是,上述系统中各个组成部件可以通过软件、固件、硬件或其组合的方式进行配置。配置可使用的具体手段或方式为本领域技术人员所熟知,在此不再赘述。在通过软件或固件实现的情况下,从存储介质或网络向具有专用硬件结构的计算机(例如图10所示的通用计算机1000)安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等。
图10示出了可用于实施根据本发明实施例的方法和系统的计算机的示意性框图。
在图10中,中央处理单元(CPU)1001根据只读存储器(ROM)1002中存储的程序或从存储部分1008加载到随机存取存储器(RAM)1003的程序执行各种处理。在RAM 1003中,还根据需要存储当CPU 1001执行各种处理等等时所需的数据。CPU 1001、ROM 1002和RAM 1003经由总线1004彼此连接。输入/输出接口1005也连接到总线1004。
下述部件连接到输入/输出接口1005:输入部分1006(包括键盘、鼠标等等)、输出部分1007(包括显示器,比如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等)、存储部分1008(包括硬盘等)、通信部分1009(包括网络接口卡比如LAN卡、调制解调器等)。通信部分1009经由网络比如因特网执行通信处理。根据需要,驱动器1010也可连接到输入/输出接口1005。可拆卸介质1011比如磁盘、光盘、磁光盘、半导体存储器等等可以根据需要被安装在驱动器1010上,使得从中读出的计算机程序根据需要被安装到存储部分1008中。
在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可拆卸介质1011安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图10所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质1011。可拆卸介质1011的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM 1002、存储部分1008中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
本发明还提出一种存储有机器可读取的指令代码的程序产品。所述指令代码由机器读取并执行时,可执行上述根据本发明实施方式的方法。
相应地,用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的范围内。所述存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。
应当注意,本发明的方法不限于按照说明书中描述的时间顺序来执行,也可以按照其他的次序顺序地、并行地或独立地执行。因此,本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。
以上对本发明各实施方式的描述是为了更好地理解本发明,其仅仅是示例性的,而非旨在对本发明进行限制。应注意,在以上描述中,针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用,与其它实施方式中的特征相组合,或替代其它实施方式中的特征。本领域技术人员可以理解,在不脱离本发明的发明构思的情况下,针对以上所描述的实施方式进行的各种变化和修改,均属于本发明的范围内。
综上,在根据本发明的实施例中,本发明提供了如下技术方案。
方案1、一种对待测数据样本进行分类的方法,包括:
计算多个分类器中的每个分类器对所述待测数据样本的胜任值;以及
根据每个分类器对所述待测数据样本的胜任值,从所述多个分类器中选取一个或一部分分类器对所述待测数据样本进行分类,
其中每个分类器对所述待测数据样本的胜任值是根据已经过调整的、该分类器对所述待测数据样本的邻域空间所包含的验证数据样本的胜任值计算得出的,并且其中所述邻域空间包含类别已知的多个验证数据样本中与所述待测数据样本邻近的一部分验证数据样本。
方案2、如方案1所述的方法,其中每个分类器对所述待测数据样本的胜任值通过以下公式计算得出:
其中,αip表示分类器i对待测数据样本p的胜任值,U(p)表示待测数据样本p的邻域空间,λs表示验证数据样本s的权重值,αis表示已经过调整的、分类器i对验证数据样本s的胜任值。
方案3、如方案2所述的方法,其中每个验证数据样本s的权重值λs均为1,或者由下式表示:
其中dis(p,s)表示验证数据样本s与待测数据样本p之间的距离,ω是大于0的可调参数。
方案4、如方案1至3中任一项所述的方法,还包括:
评估每个分类器对所述多个验证数据样本中的每个验证数据样本的胜任值;以及
根据所述多个验证数据样本之间的相似度,调整每个分类器对每个验证数据样本的胜任值。
方案5、如方案4所述的方法,其中每个分类器对每个验证数据样本的胜任值是根据该分类器对该验证数据样本的相邻验证数据样本的胜任值进行调整的。
方案6、如方案4所述的方法,其中根据所述多个验证数据样本之间的相似度,调整每个分类器对每个验证数据样本的胜任值的步骤包括:
根据所述多个验证数据样本,构建验证数据样本的相似性图,在所述相似性图中,相似度越高的验证数据样本之间的距离越接近;以及
将每个分类器对每个验证数据样本在所述相似性图中的相邻验证数据样本的胜任值进行迭代计算,以调整每个分类器对每个验证数据样本的胜任值。
方案7、如方案6所述的方法,其中迭代计算是通过以下公式进行的:
其中,αij表示分类器i对验证数据样本j的胜任值,t表示迭代的次数,γ是大于0的可调参数,N(j)表示验证数据样本j在相似性图中的相邻验证数据样本的集合,Wjs表示验证数据样本j与其相邻验证数据样本s之间的权重值。
方案8、如方案7所述的方法,其中每个验证数据样本j与其每个相邻验证数据样本s之间的权重值Wjs均为1,或者由下式表示:
其中dis(j,s)表示验证数据样本j与其相邻验证数据样本s之间的距离,μ是大于0的可调参数。
方案9、如方案7所述的方法,其中在每次迭代计算之后,均对所述多个分类器对每个验证数据样本j的胜任值之和进行归一化。
方案10、如方案7所述的方法,其中将每个分类器对每个验证数据样本在所述相似性图中的相邻验证数据样本的胜任值进行预定次数的迭代计算,以调整每个分类器对每个验证数据样本的胜任值。
方案11、如方案7所述的方法,其中当每个分类器对每个验证数据样本的胜任值已稳定时,停止迭代计算。
方案12、一种对待测数据样本进行分类的装置,包括:
多个分类器;
计算单元,计算所述多个分类器中的每个分类器对所述待测数据样本的胜任值;以及
选取单元,根据所述计算单元所计算出的胜任值,从所述多个分类器中选取一个或一部分分类器对所述待测数据样本进行分类,
其中每个分类器对所述待测数据样本的胜任值是根据已经过调整的、该分类器对所述待测数据样本的邻域空间所包含的验证数据样本的胜任值计算得出的,并且其中所述邻域空间包含类别已知的多个验证数据样本中与所述待测数据样本邻近的一部分验证数据样本。
方案13、如方案12所述的装置,其中所述计算单元通过以下公式计算每个分类器对所述待测数据样本的胜任值:
其中,αip表示分类器i对待测数据样本p的胜任值,U(p)表示待测数据样本p的邻域空间,λs表示验证数据样本s的权重值,αis表示已经过调整的、分类器i对验证数据样本s的胜任值。
方案14、如方案13所述的装置,其中每个验证数据样本s的权重值λs均为1,或者由下式表示:
其中dis(p,s)表示验证数据样本s与待测数据样本p之间的距离,ω是大于0的可调参数。
方案15、如方案12至14中任一项所述的装置,还包括:
评估单元,评估每个分类器对所述多个验证数据样本中的每个验证数据样本的胜任值;以及
调整单元,根据所述多个验证数据样本之间的相似度,调整每个分类器对每个验证数据样本的胜任值。
方案16、如方案15所述的装置,其中所述调整单元根据每个分类器对每个验证数据样本的相邻验证数据样本的胜任值调整该分类器对该验证数据样本的胜任值。
方案17、如方案15所述的装置,其中所述调整单元包括:
构建子单元,根据所述多个验证数据样本,构建验证数据样本的相似性图,在所述相似性图中,相似度越高的验证数据样本之间的距离越接近;以及
迭代子单元,将每个分类器对每个验证数据样本在所述相似性图中的相邻验证数据样本的胜任值进行迭代计算,以调整每个分类器对每个验证数据样本的胜任值。
方案18、如方案17所述的装置,其中所述迭代子单元通过以下公式进行迭代计算:
其中,αij表示分类器i对验证数据样本j的胜任值,t表示迭代的次数,γ是大于0的可调参数,N(j)表示验证数据样本j在相似性图中的相邻验证数据样本的集合,Wjs表示验证数据样本j与其相邻验证数据样本s之间的权重值。
方案19、如方案18所述的装置,其中每个验证数据样本j与其每个相邻验证数据样本s之间的权重值Wjs均为1,或者由下式表示:
其中dis(j,s)表示验证数据样本j与其相邻验证数据样本s之间的距离,μ是大于0的可调参数。
方案20、如方案18所述的装置,其中所述调整单元还包括归一化子单元,所述归一化子单元在所述迭代子单元的每次迭代计算之后,对所述多个分类器对每个验证数据样本j的胜任值之和进行归一化。
Claims (10)
1.一种对待测数据样本进行分类的方法,包括:
计算多个分类器中的每个分类器对所述待测数据样本的胜任值;以及
根据每个分类器对所述待测数据样本的胜任值,从所述多个分类器中选取一个或一部分分类器对所述待测数据样本进行分类,
其中每个分类器对所述待测数据样本的胜任值是根据已经过调整的、该分类器对所述待测数据样本的邻域空间所包含的验证数据样本的胜任值计算得出的,并且其中所述邻域空间包含类别已知的多个验证数据样本中与所述待测数据样本邻近的一部分验证数据样本。
2.如权利要求1所述的方法,其中每个分类器对所述待测数据样本的胜任值通过以下公式计算得出:
其中,αip表示分类器i对待测数据样本p的胜任值,U(p)表示待测数据样本p的邻域空间,λs表示验证数据样本s的权重值,αis表示已经过调整的、分类器i对验证数据样本s的胜任值。
3.如权利要求2所述的方法,其中每个验证数据样本s的权重值λs均为1,或者由下式表示:
其中dis(p,s)表示验证数据样本s与待测数据样本p之间的距离,ω是大于0的可调参数。
4.如权利要求1至3中任一项所述的方法,还包括:
评估每个分类器对所述多个验证数据样本中的每个验证数据样本的胜任值;以及
根据所述多个验证数据样本之间的相似度,调整每个分类器对每个验证数据样本的胜任值。
5.如权利要求4所述的方法,其中每个分类器对每个验证数据样本的胜任值是根据该分类器对该验证数据样本的相邻验证数据样本的胜任值进行调整的。
6.如权利要求4所述的方法,其中根据所述多个验证数据样本之间的相似度,调整每个分类器对每个验证数据样本的胜任值的步骤包括:
根据所述多个验证数据样本,构建验证数据样本的相似性图,在所述相似性图中,相似度越高的验证数据样本之间的距离越接近;以及
将每个分类器对每个验证数据样本在所述相似性图中的相邻验证数据样本的胜任值进行迭代计算,以调整每个分类器对每个验证数据样本的胜任值。
7.如权利要求6所述的方法,其中迭代计算是通过以下公式进行的:
其中,αij表示分类器i对验证数据样本j的胜任值,t表示迭代的次数,γ是大于0的可调参数,N(j)表示验证数据样本j在相似性图中的相邻验证数据样本的集合,Wjs表示验证数据样本j与其相邻验证数据样本s之间的权重值。
8.如权利要求7所述的方法,其中每个验证数据样本j与其每个相邻验证数据样本s之间的权重值Wjs均为1,或者由下式表示:
其中dis(j,s)表示验证数据样本j与其相邻验证数据样本s之间的距离,μ是大于0的可调参数。
9.如权利要求7所述的方法,其中在每次迭代计算之后,均对所述多个分类器对每个验证数据样本j的胜任值之和进行归一化。
10.一种对待测数据样本进行分类的装置,包括:
多个分类器;
计算单元,计算所述多个分类器中的每个分类器对所述待测数据样本的胜任值;以及
选取单元,根据所述计算单元所计算出的胜任值,从所述多个分类器中选取一个或一部分分类器对所述待测数据样本进行分类,
其中每个分类器对所述待测数据样本的胜任值是根据已经过调整的、该分类器对所述待测数据样本的邻域空间所包含的验证数据样本的胜任值计算得出的,并且其中所述邻域空间包含类别已知的多个验证数据样本中与所述待测数据样本邻近的一部分验证数据样本。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510136857.0A CN106156783A (zh) | 2015-03-26 | 2015-03-26 | 对待测数据样本进行分类的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510136857.0A CN106156783A (zh) | 2015-03-26 | 2015-03-26 | 对待测数据样本进行分类的方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106156783A true CN106156783A (zh) | 2016-11-23 |
Family
ID=57340261
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510136857.0A Pending CN106156783A (zh) | 2015-03-26 | 2015-03-26 | 对待测数据样本进行分类的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106156783A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110381456A (zh) * | 2019-07-19 | 2019-10-25 | 珠海格力电器股份有限公司 | 流量管理系统及流量阈值计算方法、空调系统 |
-
2015
- 2015-03-26 CN CN201510136857.0A patent/CN106156783A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110381456A (zh) * | 2019-07-19 | 2019-10-25 | 珠海格力电器股份有限公司 | 流量管理系统及流量阈值计算方法、空调系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Campbell et al. | Assessing colour-dependent occupation statistics inferred from galaxy group catalogues | |
EP3719704A1 (en) | Feature interpretation method and device for gbdt model | |
US20070233435A1 (en) | Boosted linear modeling of non-linear time series | |
RU2517286C2 (ru) | Классификация данных выборок | |
CN106651574A (zh) | 一种个人信用评估方法及装置 | |
CN113299346B (zh) | 分类模型训练和分类方法、装置、计算机设备和存储介质 | |
US20190129918A1 (en) | Method and apparatus for automatically determining optimal statistical model | |
CN109951468A (zh) | 一种基于f值优化的网络攻击检测方法与系统 | |
CN104077765B (zh) | 图像分割装置、图像分割方法 | |
Das et al. | Multi-objective feature selection (MOFS) algorithms for prediction of liquefaction susceptibility of soil based on in situ test methods | |
CN105335379A (zh) | 突变测试中对突变、测试用例、随机种子的组合排序的方法和设备 | |
Biswas et al. | Reducing test execution cost of integrated, heterogeneous systems using continuous test data | |
US8983816B2 (en) | Efficient evaluation of network robustness with a graph | |
US7277804B2 (en) | Method and system for performing effective resistance calculation for a network of resistors | |
CN106156783A (zh) | 对待测数据样本进行分类的方法和装置 | |
CN104091131A (zh) | 应用程序与权限的关系确定方法及确定装置 | |
EP4080789A1 (en) | Enhanced uncertainty management for optical communication systems | |
CN115758222A (zh) | 信号类别识别方法、装置、电子设备及存储介质 | |
CN107480687A (zh) | 信息处理装置和信息处理方法 | |
US11410749B2 (en) | Stable genes in comparative transcriptomics | |
Benyacoub et al. | Building classification models for customer credit scoring | |
Budić et al. | Optimizing Mobile Radio Access Network Spectrum Refarming Using Community Detection Algorithms | |
CN113112102A (zh) | 优先级确定方法、装置、设备及存储介质 | |
US20050114277A1 (en) | Method, system and program product for evaluating a data mining algorithm | |
CN107766870A (zh) | 信息处理装置和信息处理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20161123 |
|
RJ01 | Rejection of invention patent application after publication |