CN103679190B - 分类装置、分类方法以及电子设备 - Google Patents

分类装置、分类方法以及电子设备 Download PDF

Info

Publication number
CN103679190B
CN103679190B CN201210352239.6A CN201210352239A CN103679190B CN 103679190 B CN103679190 B CN 103679190B CN 201210352239 A CN201210352239 A CN 201210352239A CN 103679190 B CN103679190 B CN 103679190B
Authority
CN
China
Prior art keywords
sample
score value
classification score
cluster
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210352239.6A
Other languages
English (en)
Other versions
CN103679190A (zh
Inventor
李斐
刘汝杰
杉村昌彦
马场孝之
上原祐介
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to CN201210352239.6A priority Critical patent/CN103679190B/zh
Priority to JP2013193252A priority patent/JP6179305B2/ja
Publication of CN103679190A publication Critical patent/CN103679190A/zh
Application granted granted Critical
Publication of CN103679190B publication Critical patent/CN103679190B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了分类装置、分类方法以及电子设备,以克服利用传统的基于图的学习方法所获得的测试样本的类别分值不准确的问题。上述分类装置包括:用于对目标样本进行聚类的聚类单元;用于确定与目标样本的每个聚类相关的训练样本的确定单元;用于删除类别分值不准确的训练样本的类别分值的删除单元;以及用于将上述目标样本作为测试样本并根据每个测试样本与每个剩下的训练样本之间的相似度、以及每两个测试样本之间的相似度来计算上述测试样本的类别分值的计算单元。上述分类方法用于执行能够实现上述分类装置的功能的处理。上述电子设备包括上述分类装置。本发明的上述技术能够应用于信息处理领域。

Description

分类装置、分类方法以及电子设备
技术领域
本发明涉及信息处理领域,尤其涉及一种分类装置、分类方法以及电子设备。
背景技术
作为一种能够有效描述数据之间关系的方法,基于图的学习已经被广泛地应用于诸多领域,比如网页分类、图像检索、视频概念检测等。上述网页分类、图像检索以及视频概念检测等,从广义上都可以看成一个分类过程。需要注意的是,这里所说的图是带权图,它是一种数据关系,而并非真正意义上的图像。
传统的基于图的学习方法,通常是在某种优化的框架下利用训练样本之间的相似度,通过最优解的解析表达式或者迭代的求解方法,来为每个训练样本计算出一个能够反映其类别属性的类别分值。为了将学习结果推广到测试样本,一般需要基于平滑性约束设计另一个待优化的代价函数。
然而,在上述传统的基于图的学习方法中,在将学习结果推广到测试样本的过程中,训练样本的类别分值往往保持不变,这使得一些类别分值可能不准确的训练样本会对测试样本类别分值的计算造成负面的影响,也即,使得计算所得的测试样本的类别分值不准确。此外,为了将学习结果推广到测试样本,上述传统的基于图的学习方法通常是依次处理各个测试样本,而完全没有考虑测试样本之间的关系,这也同样有可能使得测试样本的类别分值计算不准确。
发明内容
在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
鉴于此,本发明提供了一种分类装置、分类方法以及电子设备,以至少解决利用传统的基于图的学习方法所获得的测试样本的类别分值不准确的问题。
根据本发明的一个方面,提供了一种分类装置,该分类装置包括:聚类单元,其被配置用于对目标样本进行聚类,以获得目标样本的至少一个聚类;确定单元,其被配置用于分别确定与上述目标样本的每个聚类相关的训练样本,其中,上述训练样本中的每一个均具有类别分值;删除单元,其被配置用于针对上述目标样本的每个聚类,获得与该聚类相关的训练样本的类别分值中的最大值和最小值之差,并在上述差大于第一预定阈值时,删除与该聚类相关的训练样本的类别分值;以及计算单元,其被配置用于将上述目标样本作为测试样本,根据每个测试样本与每个剩下的训练样本之间的相似度、以及每两个测试样本之间的相似度,利用剩下的训练样本的类别分值,通过求解优化问题的方法获得上述测试样本的类别分值。
根据本发明的另一个方面,还提供了一种分类方法,该分类方法包括:对目标样本进行聚类,以获得上述目标样本的至少一个聚类;分别确定与上述目标样本的每个聚类相关的训练样本,其中,上述训练样本中的每一个均具有类别分值;针对上述目标样本的每个聚类,获得与该聚类相关的训练样本的类别分值中的最大值和最小值之差,并在上述差大于第一预定阈值时,删除与该聚类相关的训练样本的类别分值;以及将上述目标样本作为测试样本,根据每个测试样本与每个剩下的训练样本之间的相似度、以及每两个测试样本之间的相似度,利用剩下的训练样本的类别分值,通过求解优化问题的方法获得上述测试样本的类别分值。
根据本发明的另一个方面,还提供了一种电子设备,该电子设备包括如上所述的分类装置。
上述根据本发明的实施例的分类装置、分类方法以及电子设备,能够至少实现以下益处之一:通过确定类别分值不准确的训练样本并删除这些训练样本的类别分值,使得训练样本能够更加准确地反映数据的真实分布信息;保证了在计算测试样本的类别分值的过程中所使用的训练样本的类别分值的准确性;以及通过在计算过程中引入测试样本之间的相似性关系,使得获得的测试样本的类别分值更加准确。
通过以下结合附图对本发明的最佳实施例的详细说明,本发明的这些以及其他优点将更加明显。
附图说明
本发明可以通过参考下文中结合附图所给出的描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分,而且用来进一步举例说明本发明的优选实施例和解释本发明的原理和优点。在附图中:
图1是示意性地示出根据本发明的实施例的分类装置的一种示例结构的框图。
图2A-2C是示意性地示出传统的分类技术在处理测试样本时的基本原理图。
图2D是示意性地示出根据本发明的实施例的分类装置在处理测试样本时的基本原理图。
图3是示意性地示出如图1所示的计算单元的一种可能的示例结构的框图。
图4是示意性地示出根据本发明的实施例的分类装置的另一种示例结构的框图。
图5是示意性地示出根据本发明的实施例的分类方法的一种示例性处理的流程图。
图6是示出了可用来实现根据本发明的实施例的分类装置和分类方法的一种可能的信息处理设备的硬件配置的结构简图。
本领域技术人员应当理解,附图中的元件仅仅是为了简单和清楚起见而示出的,而且不一定是按比例绘制的。例如,附图中某些元件的尺寸可能相对于其他元件放大了,以便有助于提高对本发明实施例的理解。
具体实施方式
在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤,而省略了与本发明关系不大的其他细节。
本发明的实施例提供了一种分类装置,该分类装置包括:聚类单元,其被配置用于对目标样本进行聚类,以获得目标样本的至少一个聚类;确定单元,其被配置用于分别确定与上述目标样本的每个聚类相关的训练样本,其中,上述训练样本中的每一个均具有类别分值;删除单元,其被配置用于针对上述目标样本的每个聚类,获得与该聚类相关的训练样本的类别分值中的最大值和最小值之差,并在上述差大于第一预定阈值时,删除与该聚类相关的训练样本的类别分值;以及计算单元,其被配置用于将上述目标样本作为测试样本,根据每个测试样本与每个剩下的训练样本之间的相似度、以及每两个测试样本之间的相似度,利用剩下的训练样本的类别分值,通过求解优化问题的方法获得上述测试样本的类别分值。
下面结合图1来详细描述根据本发明的实施例的分类装置的一个示例。
如图1所示,根据本发明的实施例的分类装置100包括聚类单元110、确定单元120、删除单元130和计算单元140。
在分类装置100中,聚类单元110用于对目标样本进行聚类,以获得目标样本的至少一个聚类。其中,这里所说的目标样本可以是图像,也可以是视频,还可以是文本、网页等对象。
在根据本发明的实施例的分类装置的一个具体实现方式中,可以通过聚类单元110对目标样本的聚类处理,来使得每个聚类中的每个目标样本与该聚类下的至少一个其他目标样本的相似度大于第四预定阈值。
例如,可以采用分级聚类算法来实现上述实现方式中的聚类处理,具体过程如下:a1)初始时构建若干个集合,使得每个集合仅包括一个目标样本;a2)计算每两个集合之间的相似度,其中,任两个集合之间的相似度可以定义为该两个集合的元素之间相似度的最大值,即其中,A和B表示任意两个集合,a和b分别表示两个集合中的任意元素,Sim(A,B)表示集合A和集合B之间的相似度;a3)在所计算的每两个集合之间的相似度中,判断其中最大的相似度是否大于第四预定阈值,若是,则将上述最大的相似度对应的两个集合(即所有集合中相似度最大的两个集合)合并为一个集合,然后返回执行a2),直至所有集合中的任意两个集合之间的相似度均小于第四预定阈值为止。
需要说明的是,第四预定阈值可以根据经验值设定,也可以通过试验的方式来确定,这里不再详述。
此外,如图1所示,确定单元120用于分别确定与目标样本的每个聚类相关的训练样本。其中,训练样本是与目标样本种类相同的对象,例如,训练样本和目标样本可以同是以下对象中的任一种:图像;视频;文本;以及网页等。
在根据本发明的实施例的分类装置的具体实现方式中,上述“与目标样本的每个聚类相关的训练样本”可以有多种不同的确定方式。
在一个实现方式中,针对目标样本的每个聚类,确定单元120可以将与该聚类中的至少一个目标样本之间的相似度高于第二预定阈值的训练样本确定为与该聚类相关的训练样本。
在上述实现方式的一个例子中,假设目标样本的聚类M是聚类单元110对目标样本进行聚类处理之后所得到的任意一个聚类,则针对聚类M,确定单元120可以首先计算每一个训练样本与聚类M中的每个目标样本之间的相似度,然后,将与聚类M中的至少一个目标样本之间的相似度高于上述第二预定阈值的那些训练样本确定为与聚类M相关的训练样本。
或者,在上述实现方式的其他例子中,针对每一个训练样本来说,确定单元120也可以不必计算这个训练样本与聚类M中的每个目标样本之间的相似度。以训练样本SB为例,当确定单元120所计算的聚类M中的某个目标样本SA与训练样本SB之间的相似度高于上述第二预定阈值时,确定单元120则可以不再计算聚类M中剩余的目标样本与训练样本SB之间的相似度,而直接将训练样本SB确定为与聚类M相关的其中一个训练样本。
需要说明的是,训练样本与目标样本之间的相似度可以根据具体情况来选择计算方法。例如,可以采用一些现有的用于计算图像相似度、文本相似度等的相似度计算方法,来分别在训练样本与目标样本是图像、文本以及其他种类对象的情况下实现上述训练样本与目标样本之间的相似度计算。
此外,需要说明的是,上述第二预定阈值可以根据经验值设定,也可以通过试验的方式来确定,这里不再详述。在一个例子中,第二预定阈值可以设定成与第四预定阈值相同的值。
在另一个实现方式中,针对目标样本的每个聚类,确定单元120不仅可以将上述与该聚类中的至少一个目标样本之间的相似度高于第二预定阈值的训练样本确定为与该聚类相关的训练样本,还可以将与上述“与该聚类中的至少一个目标样本之间的相似度高于第二预定阈值的训练样本”之间的相似度高于第三预定阈值的那些训练样本也确定为与该聚类相关的训练样本。
仍以上述目标样本的任一聚类M为例,通过与上文所说方式相类似的方式,确定单元120可以将那些与聚类M中的至少一个目标样本之间的相似度高于上述第二预定阈值的训练样本确定为与聚类M相关的训练样本。为方便起见,下文中将“与聚类M中的至少一个目标样本之间的相似度高于上述第二预定阈值的训练样本”简称为第一类训练样本。除上述第一类训练样本之外,确定单元120还可以将那些与上述第一类训练样本中的任意一个之间的相似度高于上述第三预定阈值的训练样本确定为与聚类M相关的训练样本。同样,为方便起见,下文中将上述“与上述第一类训练样本中的任意一个之间的相似度高于上述第三预定阈值的训练样本”简称为第二类训练样本。由此,在该例子中,“与聚类M相关的训练样本”可以包括第一类训练样本和第二类训练样本。需要说明的是,上述第三预定阈值可以根据经验值设定,也可以通过试验的方式来确定,这里不再详述。
此外,这里所说的训练样本中的每一个均具有类别分值。需要说明的是,这里所说的类别分值是用于描述其所属样本的类别与预定类别之间的匹配程度的一种度量。换句话说,类别分值可以描述其所属样本的类别符合预定类别的程度。一般地,可以认为类别分值越高,该类别分值所属样本符合预定类别的可能性就越大;相反地,类别分值越低,则该类别分值所属样本符合预定类别的可能性就越小。例如,类别分值通常可以在-1到1之间取值。
需要说明的是,在一些实施例中,根据训练样本的类别分值的获得方式的不同,训练样本可以分为两类。
其中,一类训练样本是一般的标注样本。这类标注样本通常具有预定的类别分值,例如,其类别分值可以是由人手工地预先标注的。然而,由于人力所限,这类具有预定类别分值的训练样本通常数量也是有限的。
此外,另一类训练样本是机器标注样本。这类机器标注样本的类别分值例如可以是在训练阶段(一般的分类器在使用前都需要利用训练样本进行训练的过程)基于上述标注样本的预定类别分值获得的。
由此,在根据本发明的实施例的分类装置的一些实现方式中,训练样本可以包括以上两类样本,也即,可以包括如上所述的标注样本和机器标注样本。其中,这两类训练样本的类别分值也可以分别采用与上文所述方式相类似的方式获得或确定,这里不再赘述。需要说明的是,在这种情况下,确定单元120所确定的“与目标样本的每个聚类相关的训练样本”可以全部是机器标注样本。
由此,通过确定单元120的处理可以分别确定与目标样本的每个聚类相关的训练样本。
根据平滑性假设可知,相似样本的类别分值不应相差太大。因此,如果某两个训练样本(特别是在这两个训练样本是机器标注样本的情况下)分别与某两个目标样本相似,而这两个目标样本彼此也很相似(例如属于如上所述的某一个聚类),那么这两个训练样本的类别分值应该不会彼此相差过大。若情况并非如此,例如,若与某一个聚类下的两个目标样本分别相似的两个训练样本的类别分值之间的差异大于第一预定阈值的话,则可以认为这两个训练样本的类别分值是不准确的,因此,去除这些类别分值来设计推广算法则可以获得更加可靠的结果。
于是,针对目标样本的每个聚类,删除单元130可以首先计算那些“与该聚类相关的训练样本”的类别分值中的最大值和最小值之差,然后,在所计算的差大于第一预定阈值时,删除这些“与该聚类相关的训练样本”的类别分值。
例如,以目标样本的任一聚类M为例,如上文所述,通过确定单元120可以确定与聚类M相关的训练样本。然后,删除单元130可以找到与聚类M相关的所有训练样本的类别分值中的最大值和最小值,并计算该最大值和最小值之差(该差大于或等于0),当该差大于上述第一预定阈值时,则将这些与聚类M相关的所有训练样本的类别分值全部删除。
特别地,在一个优选例子中,在确定单元120所确定的“与该聚类相关的训练样本”全部是机器标注样本的情况下,删除单元130所删除的是这些机器标注样本的类别分值。
需要说明的是,上述第一预定阈值可以根据经验值设定,也可以通过试验的方式来确定,这里不再详述。
这样,计算单元140可以利用剩下的训练样本(即除去那些被删除了类别分值的训练样本之外的其他训练样本)的类别分值,通过求解优化问题的方法获得上述目标样本的类别分值,进而可以基于所计算的类别分值来确定其类别。
在根据本发明的实施例的分类装置的一个实现方式中,计算单元140可以将目标样本作为测试样本,然后根据每个测试样本与每个剩下的训练样本之间的相似度、以及每两个测试样本之间的相似度,利用剩下的训练样本的类别分值,通过求解优化问题的方法获得测试样本的类别分值。
需要说明的是,传统的基于图的学习方法通常是依次处理各个测试样本,只考虑了每个测试样本与训练样本之间的关系,而完全没有利用测试样本与测试样本之间的关系。图2A-2C示意性地示出了传统的基于图的学习方法在处理测试样本时采用的基本思想。在图2A-2C以及下文中将要描述的图2D中,“○”表示训练样本(即SB1~SB5),“△”表示测试样本(即SA1~SA3),其中的连线表示所连对象之间的相似度。
由图2A-2C可以看出,传统的方法在处理测试样本时只考虑了测试样本与训练样本之间的相似度,也即,分别处理每个测试样本来对其进行分类。需要注意的是,图2A-2C中并未示出测试样本与每个训练样本之间的连线,而是仅示出了与其相似度较高的前几个训练样本与其之间的连线。
图2D示意性地示出了计算单元140对测试样本的处理思想。通过比较图2D与先前所描述的图2A-2C,可以看出,计算单元140在处理测试样本时不仅考虑了测试样本与训练样本之间的相似度,而且还考虑了测试样本与测试样本之间的相似度(如图2D中SA1与SA2、SA2与SA3之间的连线)。
需要说明的是,图2A-2D中所示出的各个训练样本之间的连线(即训练样本之间的相似度)并非是指在计算测试样本的类别分值的过程中所需要的,而是在一些实施例的训练阶段中,在获得上文所述的机器标注样本的类别分值时所使用的。
下面结合图3来描述计算单元140的一种可能的示例配置。
如图3所示,在该示例中,计算单元140可以包括代价函数构造模块310和代价函数求解模块320。
其中,代价函数构造模块310用于构造能够反映预定的约束条件的代价函数,代价函数求解模块320则用于通过求解该代价函数的最小化问题来获得测试样本的类别分值。
上述预定的约束条件例如可以包括如下两个条件:相似度越高的测试样本与训练样本的类别分值越接近;以及相似度越高的两个测试样本的类别分值越接近。
根据以上预定的约束条件,在根据本发明的实施例的分类装置的一个实现方式中,代价函数构造模块310所构造的代价函数可以包括如下函数项或者其变形:
以及
其中,在上述函数项中,M为测试样本的数量,N为剩下的训练样本的数量,fi为M个测试样本中的第i个测试样本的类别分值,Fj为上述N个训练样本中的第j个训练样本的类别分值,Wij为第i个测试样本与第j个训练样本之间的相似度,为第k个测试样本和第l个测试样本之间的相似度。
在该例子中,反映了测试样本和训练样本之间的相似性,反映了测试样本和测试样本之间的相似性。
例如,包含两个代价项的代价函数 的一个示例可以采用如下形式:
其中,α为线性组合系数,f=[f1,f2,...fM]T为所有测试样本的类别分值组成的向量。需要说明的是,α可以根据经验值设定,也可以通过试验的方式来确定,这里不再详述。
然后,通过求解优化问题minQ(f),即可获得所有测试样本的类别分值。其中,优化问题minQ(f)是一个简单的二次优化问题,本领域的技术人员能够结合公知常识和公开资料来得到其最优解的解析表达式,这里不再详述。
此外,在一些实施例中,计算单元140还可以将被删除了类别分值的训练样本与目标样本一起作为测试样本,并通过如上文所述的方式来获得测试样本的类别分值,以基于其中的目标样本的类别分值来确定分类结果。需要注意的是,在这种情况下,求解过程中的变量不只包含目标样本的类别分值,还包含了那些被删除了类别分值的训练样本的新的类别分值。此外,在获得了所有测试样本的新的类别分值之后,可以根据其中的那些目标样本的类别分值来确定最终的分类结果(分类的目的是得到目标样本的类别)。例如,假设类别分值在-1到1之间取值,若得到的结果是目标样本一、二和三的类比分值分别为1、0.8和-1,则表示目标样本一与预定类别完全符合,而目标样本二比较符合预定类别,目标样本三完全不符合预定类别。其中,这里的预定类别例如可以是训练样本中那些类别分值为1的训练样本的类别。
在许多实际的应用场合,测试样本往往是成批获得的,而传统的方法则没有考虑到这些成批获得的测试样本之间的相似性,而只是单独地考虑每一个测试样本与训练样本之间的相似性。而在本发明的实施例中,通过引入测试样本与测试样本之间的相似性关系,可以获得更高的分类精度和更好的分类结果。
下面结合图4来详细描述根据本发明的实施例的分类装置的另一个示例。
如图4所示,分类装置400除了包括聚类单元410、确定单元420、删除单元430和计算单元440之外,还包括样本更新单元450。其中,图4所示的分类装置400中的聚类单元410、确定单元420、删除单元430和计算单元440可以具有与上文中结合图1和/或图3所描述的装置100中的对应单元相同的结构和功能,并能够达到相类似的技术效果,这里不再赘述。
在该示例中,训练样本包括如上文所述的标注样本和机器标注样本。如图4所示,在分类装置400中,样本更新单元450可以将新获得类别分值的测试样本作为下次分类中的机器标注样本。其中,需要注意的是,测试样本只是作为下次分类过程中所使用的部分机器标注样本,原本存在的那些机器标注样本仍作为机器标注样本所使用。
通过以上描述可知,上述根据本发明的实施例的分类装置,其通过确定类别分值不准确的训练样本并删除这些训练样本的类别分值,使得训练样本能够更加准确地反映数据的真实分布信息,保证了在计算测试样本的类别分值的过程中所使用的训练样本的类别分值的准确性。此外,上述根据本发明的实施例的分类装置通过在计算过程中引入测试样本之间的相似性关系,能够使得获得的测试样本的类别分值更加准确。
此外,本发明的实施例还提供了一种分类方法,下面结合图5来描述上述分类方法的一种示例性处理。
如图5所示,根据本发明的实施例的分类方法的处理流程500开始于步骤S510,然后执行步骤S520。
在步骤S520中,对目标样本进行聚类,以获得目标样本的至少一个聚类。然后执行步骤S530。其中,步骤S520中所执行的处理例如可以与上文中结合图1所描述的聚类单元110的处理相同,并能够达到类似的技术效果,在此不再赘述。
在步骤S530中,分别确定与目标样本的每个聚类相关的训练样本,其中,训练样本中的每一个均具有类别分值。然后执行步骤S540。其中,步骤S530中所执行的处理例如可以与上文中结合图1所描述的确定单元120的处理相同,并能够达到类似的技术效果,在此不再赘述。
在步骤S540中,针对目标样本的每个聚类,获得与该聚类相关的训练样本的类别分值中的最大值和最小值之差,并在所计算的差大于第一预定阈值时,删除与该聚类相关的训练样本的类别分值。然后执行步骤S550。其中,步骤S540中所执行的处理例如可以与上文中结合图1所描述的删除单元130的处理相同,并能够达到类似的技术效果,在此不再赘述。
在步骤S550中,将目标样本作为测试样本,根据每个测试样本与每个剩下的训练样本之间的相似度、以及每两个测试样本之间的相似度,利用剩下的训练样本的类别分值,通过求解优化问题的方法获得测试样本的类别分值。然后执行步骤S560。其中,步骤S550中所执行的处理例如可以与上文中结合图1和/或图3所描述的计算单元140的处理相同,并能够达到类似的技术效果,在此不再赘述。
处理流程500结束于步骤S560。
此外,在一个优选实施例中,在步骤S550中,还可以将被删除了类别分值的训练样本与目标样本一起作为测试样本,并基于获得的目标样本的类别分值来确定分类结果。
通过以上描述可知,上述根据本发明的实施例的分类方法,其通过确定类别分值不准确的训练样本并删除这些训练样本的类别分值,能够使得训练样本能够更加准确地反映数据的真实分布信息,保证了在计算测试样本的类别分值的过程中所使用的训练样本的类别分值的准确性。此外,上述根据本发明的实施例的分类方法通过在计算过程中引入测试样本之间的相似性关系,能够使得获得的测试样本的类别分值更加准确。
此外,本发明的实施例还提供了一种电子设备,该电子设备包括如上所述的分类装置。
在根据本发明的实施例的电子设备的具体实现方式中,该电子设备可以是以下设备中的任意一种设备:手机;计算机;平板电脑;个人数字助理;以及多媒体播放设备等。其中,该电子设备具有上述分类装置的各种功能和技术效果,这里不再赘述。
上述根据本发明的实施例的分类装置中的各个组成单元、子单元、模块等可以通过软件、固件、硬件或其任意组合的方式进行配置。在通过软件或固件实现的情况下,可从存储介质或网络向具有专用硬件结构的机器(例如图6所示的通用机器600)安装构成该软件或固件的程序,该机器在安装有各种程序时,能够执行上述各组成单元、子单元的各种功能。
图6是示出了可用来实现根据本发明的实施例的分类装置和分类方法的一种可能的信息处理设备的硬件配置的结构简图。
在图6中,中央处理单元(CPU)601根据只读存储器(ROM)602中存储的程序或从存储部分608加载到随机存取存储器(RAM)603的程序执行各种处理。在RAM 603中,还根据需要存储当CPU 601执行各种处理等等时所需的数据。CPU 601、ROM 602和RAM 603经由总线604彼此连接。输入/输出接口605也连接到总线604。
下述部件也连接到输入/输出接口605:输入部分606(包括键盘、鼠标等等)、输出部分607(包括显示器,例如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等)、存储部分608(包括硬盘等)、通信部分609(包括网络接口卡例如LAN卡、调制解调器等)。通信部分609经由网络例如因特网执行通信处理。根据需要,驱动器610也可连接到输入/输出接口605。可拆卸介质611例如磁盘、光盘、磁光盘、半导体存储器等等可以根据需要被安装在驱动器610上,使得从中读出的计算机程序可根据需要被安装到存储部分608中。
在通过软件实现上述系列处理的情况下,可以从网络例如因特网或从存储介质例如可拆卸介质611安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图6所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质611。可拆卸介质611的例子包含磁盘(包含软盘)、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM 602、存储部分608中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
此外,本发明还提出了一种存储有机器可读取的指令代码的程序产品。上述指令代码由机器读取并执行时,可执行上述根据本发明的实施例的分类方法。相应地,用于承载这种程序产品的例如磁盘、光盘、磁光盘、半导体存储器等的各种存储介质也包括在本发明的公开中。
在上面对本发明具体实施例的描述中,针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用,与其它实施方式中的特征相组合,或替代其它实施方式中的特征。
此外,本发明的各实施例的方法不限于按照说明书中描述的或者附图中示出的时间顺序来执行,也可以按照其他的时间顺序、并行地或独立地执行。因此,本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。
此外,显然,根据本发明的上述方法的各个操作过程也可以以存储在各种机器可读的存储介质中的计算机可执行程序的方式实现。
而且,本发明的目的也可以通过下述方式实现:将存储有上述可执行程序代码的存储介质直接或者间接地提供给系统或设备,并且该系统或设备中的计算机或者中央处理单元(CPU)读出并执行上述程序代码。
此时,只要该系统或者设备具有执行程序的功能,则本发明的实施方式不局限于程序,并且该程序也可以是任意的形式,例如,目标程序、解释器执行的程序或者提供给操作系统的脚本程序等。
上述这些机器可读存储介质包括但不限于:各种存储器和存储单元,半导体设备,磁盘单元例如光、磁和磁光盘,以及其它适于存储信息的介质等。
另外,客户计算机通过连接到因特网上的相应网站,并且将依据本发明的计算机程序代码下载和安装到计算机中然后执行该程序,也可以实现本发明。
最后,还需要说明的是,在本文中,诸如左和右、第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
综上,在根据本发明的实施例中,本发明提供了如下方案但不限于此:
附记1.一种分类装置,包括:
聚类单元,其被配置用于对目标样本进行聚类,以获得所述目标样本的至少一个聚类;
确定单元,其被配置用于分别确定与所述目标样本的每个聚类相关的训练样本,其中,所述训练样本中的每一个均具有类别分值;
删除单元,其被配置用于针对所述目标样本的每个聚类,获得与该聚类相关的训练样本的类别分值中的最大值和最小值之差,并在所述差大于第一预定阈值时,删除与该聚类相关的训练样本的类别分值;以及
计算单元,其被配置用于将所述目标样本作为测试样本,根据每个测试样本与每个剩下的训练样本之间的相似度、以及每两个测试样本之间的相似度,利用剩下的训练样本的类别分值,通过求解优化问题的方法获得所述测试样本的类别分值。
附记2.根据附记1所述的分类装置,其中,所述计算单元包括:
代价函数构造模块,其被配置用于构造反映下述约束条件的代价函数:
相似度越高的测试样本与训练样本的类别分值越接近,以及
相似度越高的两个测试样本的类别分值越接近;
代价函数求解模块,其被配置用于通过求解所述代价函数的最小化问题来获得所述测试样本的类别分值。
附记3.根据附记2所述的分类装置,其中,所述代价函数包括以下函数项或者其变形:
其中,M为测试样本的数量,N为训练样本的数量,fi为M个测试样本中的第i个测试样本的类别分值,Fi为N个训练样本中的第j个训练样本的类别分值,Wij为第i个测试样本与第j个训练样本之间的相似度,为第k个测试样本和第l个测试样本之间的相似度。
附记4.根据附记1-3中任一所述的分类装置,其中,所述训练样本包括具有预定类别分值的标注样本和类别分值是在训练阶段基于所述标注样本的类别分值而获得的机器标注样本。
附记5.根据附记4所述的分类装置,其中,所述确定单元所确定的与所述目标样本的每个聚类相关的训练样本是所述机器标注样本。
附记6.根据附记1-3中任一所述的分类装置,其中,所述计算单元被配置成:
将被删除了类别分值的训练样本与所述目标样本一起作为所述测试样本,并基于获得的所述目标样本的类别分值来确定分类结果。
附记7.根据附记4或5所述的分类装置,其中,所述计算单元被配置成:
将被删除了类别分值的训练样本与所述目标样本一起作为所述测试样本,并基于获得的所述目标样本的类别分值来确定分类结果。
附记8.根据附记4、5和7中任一所述的分类装置,还包括:
样本更新单元,其被配置用于将新获得类别分值的测试样本作为下次分类中的机器标注样本。
附记9.根据附记1-8中任一所述的分类装置,其中,所述确定单元被配置成:
针对所述目标样本的每个聚类,将与该聚类中的至少一个目标样本之间的相似度高于第二预定阈值的训练样本确定为与该聚类相关的训练样本。
附记10.根据附记9所述的分类装置,其中,所述确定单元还被配置成:
针对所述目标样本的每个聚类,将和所述与该聚类中的至少一个目标样本之间的相似度高于第二预定阈值的训练样本之间的相似度高于第三预定阈值的训练样本确定为与该聚类相关的训练样本。
附记11.根据附记1-10中任一所述的分类装置,其中,所述聚类单元被配置成:
针对所述目标样本的每个聚类,使得该聚类中的每个目标样本与该聚类下的至少一个其他目标样本的相似度大于第四预定阈值。
附记12.根据附记1-11中任一所述的分类装置,其中,所述目标样本和所述训练样本同为以下对象中的任一个:
图像;视频;文本;以及网页。
附记13.一种分类方法,包括:
对目标样本进行聚类,以获得所述目标样本的至少一个聚类;
分别确定与所述目标样本的每个聚类相关的训练样本,其中,所述训练样本中的每一个均具有类别分值;
针对所述目标样本的每个聚类,获得与该聚类相关的训练样本的类别分值中的最大值和最小值之差,并在所述差大于第一预定阈值时,删除与该聚类相关的训练样本的类别分值;以及
将所述目标样本作为测试样本,根据每个测试样本与每个剩下的训练样本之间的相似度、以及每两个测试样本之间的相似度,利用剩下的训练样本的类别分值,通过求解优化问题的方法获得所述测试样本的类别分值。
附记14.根据附记13所述的分类方法,其中,所述通过求解优化问题的方法获得所述测试样本的类别分值的步骤包括:
构造反映下述约束条件的代价函数:
相似度越高的测试样本与训练样本的类别分值越接近,以及
相似度越高的两个测试样本的类别分值越接近;以及
通过求解所述代价函数的最小化问题来获得所述测试样本的类别分值。
附记15.根据附记13或14所述的分类方法,其中,所述训练样本包括具有预定类别分值的标注样本和类别分值是在训练阶段基于所述标注样本的类别分值而获得的机器标注样本。
附记16.根据附记13-15中任一所述的分类方法,还包括:
将被删除了类别分值的训练样本与所述目标样本一起作为所述测试样本,并基于获得的所述目标样本的类别分值来确定分类结果。
附记17.一种电子设备,包括如附记1-12中任一所述的分类装置。
附记18.根据附记17所述的电子设备,其中,所述电子设备是以下设备中的任意一种:
手机;计算机;平板电脑;个人数字助理;以及多媒体播放设备。
附记19.一种存储有机器可读取的指令代码的程序产品,所述程序产品在执行时能够使所述机器执行根据附记13-16中任一所述的分类方法。
附记20.一种计算机可读存储介质,其上存储有根据附记19所述的程序产品。

Claims (9)

1.一种分类装置,包括:
聚类单元,其被配置用于对目标样本进行聚类,以获得所述目标样本的至少一个聚类;
确定单元,其被配置用于分别确定与所述目标样本的每个聚类相关的训练样本,其中,所述训练样本中的每一个均具有类别分值;
删除单元,其被配置用于针对所述目标样本的每个聚类,获得与该聚类相关的所有训练样本的类别分值中的最大值和最小值之差,并在所述差大于第一预定阈值时,删除与该聚类相关的所有训练样本的类别分值;以及
计算单元,其被配置用于将所述目标样本作为测试样本,根据每个测试样本与每个剩下的训练样本之间的相似度、以及每两个测试样本之间的相似度,利用剩下的训练样本的类别分值,通过求解优化问题的方法获得所述测试样本的类别分值,
其中,所述计算单元被配置成:将被删除了类别分值的训练样本与所述目标样本一起作为所述测试样本,并基于获得的所述目标样本的类别分值来确定分类结果。
2.根据权利要求1所述的分类装置,其中,所述计算单元包括:
代价函数构造模块,其被配置用于构造反映下述约束条件的代价函数:
相似度越高的测试样本与训练样本的类别分值越接近,以及
相似度越高的两个测试样本的类别分值越接近;
代价函数求解模块,其被配置用于通过求解所述代价函数的最小化问题来获得所述测试样本的类别分值。
3.根据权利要求1或2所述的分类装置,其中,所述训练样本包括具有预定的类别分值的标注样本和类别分值是在训练阶段基于所述标注样本的类别分值而获得的机器标注样本。
4.根据权利要求3所述的分类装置,其中,所述确定单元所确定的与所述目标样本的每个聚类相关的训练样本是所述机器标注样本。
5.根据权利要求4所述的分类装置,还包括:
样本更新单元,其被配置用于将新获得类别分值的测试样本作为下次分类中的机器标注样本。
6.根据权利要求1、2、4和5中任一所述的分类装置,其中,所述确定单元被配置成:
针对所述目标样本的每个聚类,将与该聚类中的至少一个目标样本之间的相似度高于第二预定阈值的训练样本确定为与该聚类相关的训练样本。
7.根据权利要求6所述的分类装置,其中,所述确定单元还被配置成:
针对所述目标样本的每个聚类,将和所述与该聚类中的至少一个目标样本之间的相似度高于第二预定阈值的训练样本之间的相似度高于第三预定阈值的训练样本确定为与该聚类相关的训练样本。
8.一种分类方法,包括:
对目标样本进行聚类,以获得所述目标样本的至少一个聚类;
分别确定与所述目标样本的每个聚类相关的训练样本,其中,所述训练样本中的每一个均具有类别分值;
针对所述目标样本的每个聚类,获得与该聚类相关的所有训练样本的类别分值中的最大值和最小值之差,并在所述差大于第一预定阈值时,删除与该聚类相关的所有训练样本的类别分值;以及
将所述目标样本作为测试样本,根据每个测试样本与每个剩下的训练样本之间的相似度、以及每两个测试样本之间的相似度,利用剩下的训练样本的类别分值,通过求解优化问题的方法获得所述测试样本的类别分值,
其中,将被删除了类别分值的训练样本与所述目标样本一起作为所述测试样本,并基于获得的所述目标样本的类别分值来确定分类结果。
9.一种电子设备,包括如权利要求1-7中任一所述的分类装置。
CN201210352239.6A 2012-09-20 2012-09-20 分类装置、分类方法以及电子设备 Active CN103679190B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201210352239.6A CN103679190B (zh) 2012-09-20 2012-09-20 分类装置、分类方法以及电子设备
JP2013193252A JP6179305B2 (ja) 2012-09-20 2013-09-18 分類装置、分類方法及び電子設備

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210352239.6A CN103679190B (zh) 2012-09-20 2012-09-20 分类装置、分类方法以及电子设备

Publications (2)

Publication Number Publication Date
CN103679190A CN103679190A (zh) 2014-03-26
CN103679190B true CN103679190B (zh) 2019-03-01

Family

ID=50316678

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210352239.6A Active CN103679190B (zh) 2012-09-20 2012-09-20 分类装置、分类方法以及电子设备

Country Status (2)

Country Link
JP (1) JP6179305B2 (zh)
CN (1) CN103679190B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105118332B (zh) * 2015-09-30 2018-01-23 中国民用航空总局第二研究所 一种基于聚类分析法的空中交通管制模拟仿真异常检测方法和装置
CN105916032A (zh) * 2015-12-08 2016-08-31 乐视网信息技术(北京)股份有限公司 视频推荐的方法及视频推荐的终端设备
JP6366852B2 (ja) * 2016-02-29 2018-08-01 三菱電機株式会社 機器分類装置
KR20180127649A (ko) * 2016-03-31 2018-11-29 비트데펜더 아이피알 매니지먼트 엘티디 자동 장치 탐지를 위한 시스템 및 방법
CN106228188B (zh) 2016-07-22 2020-09-08 北京市商汤科技开发有限公司 聚类方法、装置及电子设备
WO2018058571A1 (zh) * 2016-09-30 2018-04-05 富士通株式会社 分类结果的融合方法、装置及电子设备
CN108133224B (zh) * 2016-12-01 2021-11-16 富士通株式会社 用于评估分类任务复杂度的方法
CN109472274B (zh) * 2017-09-07 2022-06-28 富士通株式会社 深度学习分类模型的训练装置和方法
CN110866533B (zh) * 2018-08-27 2023-09-15 富士通株式会社 训练分类模型的装置和方法、以及分类装置和方法
CN109840588B (zh) * 2019-01-04 2023-09-08 平安科技(深圳)有限公司 神经网络模型训练方法、装置、计算机设备及存储介质
CN112464966A (zh) * 2019-09-06 2021-03-09 富士通株式会社 鲁棒性估计方法、数据处理方法和信息处理设备
CN112819020A (zh) * 2019-11-15 2021-05-18 富士通株式会社 训练分类模型的方法和装置及分类方法
CN112906434A (zh) * 2019-12-03 2021-06-04 富士通株式会社 信息处理装置和信息处理方法
CN113590812B (zh) * 2020-04-30 2024-03-05 阿里巴巴集团控股有限公司 垃圾文本训练样本的筛选方法及装置、电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5590218A (en) * 1993-10-18 1996-12-31 Bayer Corporation Unsupervised neural network classification with back propagation
JP2004127238A (ja) * 2002-04-19 2004-04-22 Mitsubishi Electric Research Laboratories Inc サンプルを第1のクラスと第2のクラスとに分類する2値分類器を学習する方法
CN102147866A (zh) * 2011-04-20 2011-08-10 上海交通大学 基于训练自适应增强和支持矢量机的目标识别方法
CN102364498A (zh) * 2011-10-17 2012-02-29 江苏大学 一种基于多标签的图像识别方法
CN102637433A (zh) * 2011-02-09 2012-08-15 富士通株式会社 识别语音信号中所承载的情感状态的方法和系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009110064A (ja) * 2007-10-26 2009-05-21 Toshiba Corp 分類モデル学習装置および分類モデル学習方法
JP2009282686A (ja) * 2008-05-21 2009-12-03 Toshiba Corp 分類モデル学習装置および分類モデル学習方法
EP2323080B1 (en) * 2008-08-05 2019-05-15 Fujitsu Limited Sample attribution class estimation method, sample attribution class estimation program, and attribution class estimation apparatus

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5590218A (en) * 1993-10-18 1996-12-31 Bayer Corporation Unsupervised neural network classification with back propagation
JP2004127238A (ja) * 2002-04-19 2004-04-22 Mitsubishi Electric Research Laboratories Inc サンプルを第1のクラスと第2のクラスとに分類する2値分類器を学習する方法
CN102637433A (zh) * 2011-02-09 2012-08-15 富士通株式会社 识别语音信号中所承载的情感状态的方法和系统
CN102147866A (zh) * 2011-04-20 2011-08-10 上海交通大学 基于训练自适应增强和支持矢量机的目标识别方法
CN102364498A (zh) * 2011-10-17 2012-02-29 江苏大学 一种基于多标签的图像识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
前馈神经网络病态学习样本剔除方法;李春好等;《吉林大学学报·信息科学版》;20090930;第516-517页

Also Published As

Publication number Publication date
JP6179305B2 (ja) 2017-08-16
JP2014063494A (ja) 2014-04-10
CN103679190A (zh) 2014-03-26

Similar Documents

Publication Publication Date Title
CN103679190B (zh) 分类装置、分类方法以及电子设备
US8196066B1 (en) Collaborative gesture-based input language
US11074442B2 (en) Identification of table partitions in documents with neural networks using global document context
CN111104526A (zh) 一种基于关键词语义的金融标签提取方法及系统
CN108628971A (zh) 不均衡数据集的文本分类方法、文本分类器及存储介质
CN112069321B (zh) 用于文本层级分类的方法、电子设备和存储介质
US20210064908A1 (en) Identification of fields in documents with neural networks using global document context
CN106202518A (zh) 基于chi和分类别关联规则算法的短文本分类方法
CN106651057A (zh) 一种基于安装包序列表的移动端用户年龄预测方法
CN109241288A (zh) 文本分类模型的更新训练方法、装置及设备
CN109471944A (zh) 文本分类模型的训练方法、装置及可读存储介质
CN111475613A (zh) 案件分类方法、装置、计算机设备及存储介质
Pääkkönen et al. Humanistic interpretation and machine learning
CN109284374A (zh) 用于确定实体类别的方法、装置、设备以及计算机可读存储介质
US20220262153A1 (en) Systems and methods for processing a table of information in a document
CN112836509A (zh) 一种专家系统知识库构建方法及系统
CN111191825A (zh) 用户违约预测方法、装置及电子设备
CN105164672A (zh) 内容分类
CN111339396B (zh) 提取网页内容的方法、装置和计算机存储介质
CN111582315A (zh) 样本数据处理方法、装置及电子设备
CN110688540A (zh) 一种作弊账户筛选方法、装置、设备及介质
Escalante et al. Particle swarm model selection for authorship verification
CN111930944B (zh) 文件标签分类方法及装置
CN112347776B (zh) 医疗数据处理方法及装置、存储介质、电子设备
CN117216687A (zh) 一种基于集成学习的大语言模型生成文本检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant