CN102473298B - 提取代表特征的系统和方法 - Google Patents

提取代表特征的系统和方法 Download PDF

Info

Publication number
CN102473298B
CN102473298B CN201080029613.8A CN201080029613A CN102473298B CN 102473298 B CN102473298 B CN 102473298B CN 201080029613 A CN201080029613 A CN 201080029613A CN 102473298 B CN102473298 B CN 102473298B
Authority
CN
China
Prior art keywords
data
data group
representative feature
value
data item
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201080029613.8A
Other languages
English (en)
Other versions
CN102473298A (zh
Inventor
门田启
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of CN102473298A publication Critical patent/CN102473298A/zh
Application granted granted Critical
Publication of CN102473298B publication Critical patent/CN102473298B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2433Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/08Feature extraction

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

一种从输入数据群中选择代表特征的代表特征提取系统,包括:出现分布存储装置,存储关于预期要输入的特征量的出现分布;评估值计算装置,对于数据群中的每个数据项,基于所述出现分布计算与数据群中包括的其它数据项的距离之和,以确定针对该数据项的评估值;以及数据选择装置,选择具有最小评估值的数据项,作为数据群的代表特征。

Description

提取代表特征的系统和方法
技术领域
本发明涉及用于从多个数据项形成的数据群中提取代表该数据群的特征数据的代表特征提取系统和方法。
背景技术
用于从多个数据项形成的数据群中提取代表该数据群的特征的代表特征提取技术广泛用于图像处理、图像识别、数据挖掘等领域。例如,可以通过从图像数据中提取良好表示了图像的全体或一部分的特性的代表特征,并且通过将图像表达为代表特征以及与代表特征的差异,来压缩图像。还可以将该技术应用到海上营救或类似方面;可以通过从海洋上空拍摄的海洋表面的图像中提取代表了海洋表面的像素值的像素,作为代表特征,来检测溺水的人、海上漂流的人、漂流物等。此外,还可以将技术应用到行为挖掘(即,使用代表特征的行为分析)或类似方面,通过将连续行为模式(pattern)划分为部分模式,以形成类似行为模式,并通过从部分模式中提取代表了部分模式的特征,来执行行为挖掘。
在JP2007-142883A[专利文献1]中描述的图像处理装置中,作为执行代表特征提取的装置的示例,将运动向量划分为运动上类似的群,并且对于每个群确定平均向量,从而确定代表相应群的代表向量。在JP11-167634A[专利文献2]中描述的图像区域划分方法中,将图像像素的RGB值组合以形成直方图,从而将图像划分为颜色上类似的区域。获取平均颜色或最频繁出现的颜色,作为每个区域的代表颜色。在JP2008-065803A[专利文献3]中描述的图像处理装置中,选择颜色空间中直方图中的最大值,以获得代表颜色,并且执行以代表颜色的表达。按照这种方式,执行颜色限制处理,以减少输入图像中使用的颜色数目。
作为本发明的相关技术,JP2002-222419A[专利文献4]公开了将图像划分为区域或簇的技术。在JP2005-260588A[专利文献5]描述的运动图像编码装置中,可以在间隔中的每个帧与该间隔中的其他帧之间,逐像素地获得像素值的差的绝对值之和,以选择该间隔中的代表帧。将关于所有其它帧的这种和的总和定义为差异值,以及获取具有最小差异值的帧作为该间隔中的代表帧。JP6-209469A[专利文献6]公开了对图像数据分级地执行编码。
现有技术文献
专利文献
专利文献1:JP2007-142883A
专利文献2:JP11-167634A
专利文献3:JP2008-065803A
专利文献4:JP2002-222419A
专利文献5:JP2005-260588A
专利文献6:JP6-209469A
发明内容
要解决的技术问题
在以上描述的相关技术中的代表特征提取技术中,JP2007-142883A[专利文献1]和JP11-167634A[专利文献2]描述了通过计算特征量的平均数来确定代表特征的方法。然而,通过使用平均数来提取代表特征的技术具有的问题在于,在特征量包括异常值的情况下,该技术是无用的。异常值是由于噪声或类似因素的影响而导致远远偏离基本值的值。距离平均数较远的特征量极大地影响了平均数。当特征量包括异常值时,不可能基于特征量的平均数来获取适当的代表值。
JP11-167634A[专利文献2]和JP2008-065803A[专利文献3]描述了利用直方图获取最高值或最大值来确定代表特征的方法。然而,使用直方图的方法具有的问题在于,在数据稀疏的情况下,该方法是无用的。当数据稀疏并且只有少量数据项具有相同值时,无法准备直方图。特别是,当特征的维数较大时,数据相对稀疏。当使用维数较大的特征时,通常很难准备直方图。
因此,本发明的示例目标在于提供一种即使特征量中包括异常值时或数据稀疏时也有用的代表特征提取系统。
本发明的另一示例目标在于提供一种即使特征量中包括异常值时或数据稀疏时也有用的代表特征提取方法。
问题的解决方案
根据本发明示例方面的代表特征提取系统是从输入数据群中选择代表特征的代表特征提取系统,该系统包括:出现分布存储装置,存储关于预期要输入的特征量的出现分布;评估值计算装置,对于数据群中的每个数据项,基于出现分布计算与数据群中包括的其它数据项的距离之和,以确定针对该数据项的评估值;以及数据选择装置,将具有最小评估值的数据项选作数据群的代表特征。
根据本发明示例方面的代表特征提取方法是从输入数据中选择代表特征的代表特征提取方法,该方法包括:对于数据群中的每个数据项,基于预期要输入的特征量的出现分布,计算与数据群中包括的其它数据项的距离之和,并确定针对该数据项的评估值;以及将具有最小评估值的数据项选作数据群的代表特征。
根据本发明,例如即使当特征量中包括异常值时,也可以稳定地选择代表特征。这是因为两个数据项之间的评估值是相对于相互比较的所述两个数据项,基于从任意模式的特征量的出现分布而虚拟产生的模式的数据项更近的概率。相比于其它数据项,包括异常值的数据项更远。因此,与包括异常值的数据项相比,基于该模式的数据项更近的概率增大到接近于1的值。利用概率1的评估与相应特征不存在的情形相同。因此,异常值对其它数据项的评估值的影响较小。此外,根据本发明,即时当数据稀疏时也可以确定代表特征,因为无论数据群中包括的数据项数目如何,都可以确定与其它数据项的最小距离之和最小的数据项,而不会出现任何问题。
附图说明
图1是示出了根据第一示例实施例的代表特性提取系统的配置框图;
图2是示出了图1所示系统的操作的流程图;
图3是示出了根据第二示例实施例的代表特性提取系统的配置框图;
图4是示出了图3所示系统的操作的流程图;
图5是示出了根据第三示例实施例的代表特性提取系统的配置框图;
图6是示出了图5所示系统的操作的流程图;
图7是示出了根据第四示例实施例的代表特性提取系统的配置框图;
图8是示出了图7所示系统的操作的流程图;
图9是示出了根据另一示例实施例的代表特性提取系统的配置框图;
图10是示出了输入图像的示例的视图;
图11是示出了划分方法的示例的视图;
图12是示出了分级结构的示例的视图;
图13是示出了要处理的对象的示例的视图;
图14是示出了要处理的对象的示例的视图;
图15是示出了聚簇结果的示例的视图;
图16是示出了针对每个部分图像的代表数据的示例的视图;
图17是示出了要处理的对象的示例的图;以及
图18是示出了示例4中的代表特征提取系统的配置框图。
具体实施方式
将参考附图详细地描述用于本发明实现的示例实施例。
图1中示出的代表特征提取系统是第一示例实施例,包括:输入单元11,读取要处理的数据群;数据群存储单元12,存储所读取的数据群;评估值计算单元13,确定关于数据群存储单元12中存储的数据群中每个数据项的评估值;数据选择单元14,从数据群存储单元12中存储的数据群中的数据项中,选择具有由评估值计算单元13计算的最小评估值的数据项,作为数据群的代表特征;以及输出单元15,向系统外部输出由数据选择单元14选择的数据项,作为数据群的代表特征。对于数据群中的每个数据项,评估值计算单元13计算对与数据群中的其它数据项的相似度进行表示的距离,并且通过使用距离之和来确定针对每个数据项的评估值。输入单元11、数据群存储单元12、评估值计算单元13、数据选择单元14和输出单元15分别用作输入装置、存储装置、评估值计算装置、数据选择装置和输出装置。
对于图1中示出的代表特征提取系统的操作,描述图2的流程图。
首先,在步骤A1中,输入单元11读取要处理的数据群,并且将其存储在数据群存储单元12中。接下来,在步骤A2中,对于数据群存储单元12中的数据群中的每个数据项,评估值计算单元13计算表示了与数据群中的其它数据项的相似度的距离,并且通过使用距离之和来确定针对每个数据项的评估值。此后,在步骤A3中,数据选择单元14从数据群存储单元12中存储的数据群中的数据项中,选择具有在步骤A2中获得的最小评估值的数据项,作为数据群的代表特征。在步骤A4中,输出单元15输出在步骤A3中选择作为代表特征的数据项。如稍后所描述,确定评估值,使得例如在与其它数据项的距离之和较小的情况下,所述评估值也较小。结果,将具有较小距离之和(即,与数据群中的其它数据项的相似度较高)的数据项选为代表特征。
可以通过使用诸如个人计算机或工作站之类的计算机,并通过在计算机上执行程序,来实现在第一示例实施例中的代表特征提取系统。将摄像机等连接至计算机,作为输入单元11,以及将显示器等连接至计算机,作为输出单元15。计算机一般包括:中央处理单元(CPU);存储程序和数据的硬盘驱动;主存储器;诸如键盘或鼠标之类的用于输入命令等的输入设备;读取诸如CD-ROM之类的记录介质的读取器;用于与外部网络连接的接口;以及类似设备。通过分配主存储器或硬盘驱动上的存储区,来配置数据群存储单元12。将用于实现上述评估值计算单元13和数据选择单元14的功能的计算机程序读取到计算机并由计算机执行,以通过计算机实现根据第一示例实施例的代表特征提取系统。可以从诸如CD-ROM之类的记录介质读取程序,或经由至计算机的网络来读取程序。
接下来,将描述根据第二示例实施例的代表特征提取系统。第二示例实施例的特征在于:将数据分级地划分为多个部分数据群;将每个部分数据中具有如下与其它数据项的距离的数据项确定为该部分数据群的代表:该数据项的距离之和是数据项之间距离之和的最小值;以及通过分级地执行用于选择这种代表数据的处理,来选择代表特征。
图3中示出的第二示例实施例中的代表特征提取系统包括:输入单元21,读取要处理的数据(即,输入数据);数据划分单元22,将输入数据分级地划分为多个部分数据群;部分数据群存储单元23,将部分数据群存储在分级结构中的每个级别中;评估值计算单元24,对于分级结构中每个级别中的每个部分数据群中的每个数据项,确定评估值;数据选择单元25从分级结构中每个级别中的每个部分数据群中选择代表数据;数据聚集单元26,聚集由数据选择单元25选择的数据;以及输出单元27,向系统外部输出由数据聚集单元26确定为输入数据的代表特征的数据。对于处于要处理的分级级别中并存储于部分数据群存储单元23中的每个部分数据群中的每个数据项,评估值计算单元24计算表示了与该部分数据群中其它数据项的相似度的距离,并且通过使用距离之和来确定每个数据项的评估值。从处于要处理的分级级别中并存储于部分数据群存储单元23中的每个部分数据群中的每个数据项中,数据选择单元25选择具有由评估值计算单元24计算的最小评估值的数据项,作为来自该部分数据群的代表数据。如果数据选择单元25选择的代表数据来自分级结构中的最高级别,则数据聚集单元26将该代表数据确定为关于输入数据的代表特征。如果数据选择单元25选择的代表数据来自分级结构中非最高级别的其他级别之一,则数据聚集单元26产生在比该级别高一个等级的级别中的部分数据群,并且将产生的部分数据群存储在部分数据群存储单元23中。
在这种配置中,输入单元21、数据划分单元22、部分数据群存储单元23、评估值计算单元24、数据选择单元24、数据聚集单元26和输出单元27分别用作输入装置、划分装置、存储装置、评估值计算装置、数据选择装置、聚集装置和输出装置。
对于图3中示出的代表特征提取系统的操作,将描述图4的流程图。
首先,在步骤B1中,输入单元11读取要处理的数据(即,输入数据)。在步骤B2中,数据划分单元22将输入数据分级地划分为多个部分数据群,并将其存储在部分数据群存储单元23中。在步骤B3中,在分级结构中在当前时间点尚未处理的多个级别中,在处理分级结构中要处理的最低级别时,对于处于要处理级别中并且存储于部分数据群存储单元23中的每个部分数据群中的每个数据项,评估值计算单元24计算表示了与该部分数据群中的其它数据项的相似度的距离,并且通过使用距离之和来确定针对每个数据项的评估值。这里所指的尚未处理的级别是在当前时间点以下描述的评估值计算和数据选择处理还未完成的级别。此后,在步骤B4中,对于处于当前时间点要处理的分级级别中并且存储于部分数据存储单元23中的每个部分数据群,数据选择单元25选择具有在步骤B3中获得的最小评估值的数据项,作为该部分数据群的代表数据。在步骤B5中,数据聚集单元26确定当前处理的级别是否是分级结构中的最高级别。在步骤B5中确定当前处理的级别是分级结构的最高级别的情况下,数据聚集单元26将来自所处理的分级级别的代表数据确定为关于输入数据的代表特征。在步骤B7中,输出单元27将该代表特征输出系统。另一方面,在步骤B5中确定当前处理的级别不是分级结构中的最高级别的情况下,在步骤B6中,数据聚集单元26通过聚集来自当前处理的级别中的部分数据群的代表数据,来产生属于比当前处理的分级级别高一个等级的级别的部分数据群,并且将产生的部分数据群存储在部分数据群存储单元23中。此后,重复从步骤B3开始的处理,以对比当前处理的级别高一个等级的级别来重复以上描述的处理。由评估值计算单元24在下一评估值计算中处理的对象是由数据聚集单元26产生的高一等级的级别中的部分数据群。
因此,在第二示例实施例中,提供了将输入数据分级地划分为多个部分数据群的数据划分单元22、将部分数据群存储在分级结构中的每个级别中的部分数据群存储单元23、以及将来自分级结构中每个级别中的部分数据群的代表数据聚集在一起以准备下一级别中的部分数据群的数据聚集单元26,以能够分级地执行的针对代表数据的评估值计算和数据选择。评估值计算单元24和数据选择单元25对每个部分数据群执行的处理与第一示例实施例中的评估值计算单元13和数据选择单元14执行的处理相同,以选择针对每个部分数据群的代表数据。
在如此布置的第二示例实施例中,通过对分级结构中的每个部分数据群执行评估值计算,可以减少总计算量。此外,可以在对分级结构中的较低级别进行处理时,去除包括异常值(outlier value)的数据,使得可以减小异常值的影响,并且可以稳定地选择代表特征。
如第一示例实施例一样,可以通过在计算机上执行程序来实现第二示例实施例中的代表特征提取系统。在按照这种方式实现代表特征提取系统的情况下,可以通过分配计算机的主存储器或硬盘驱动上的存储区,来配置部分数据群存储单元23。在计算机上执行的程序是用于实现以上描述的数据划分单元22、评估值计算单元24、数据选择单元25和数据聚集单元26的功能的程序。
接下来,将描述根据第三示例实施例的代表特征提取系统。在图5所示的根据第三示例实施例的代表特征提取系统中,在根据图1所示的第一示例实施例的系统中提供了出现分布存储单元16。出现分布存储单元16存储预期要输入的特征量的出现分布。从出现分布存储单元16向评估值计算单元13供给特征量的出现分布。
在本示例实施例中,评估值计算单元13通过使用预期要输入的特征量的出现分布,来计算评估值。“预期要输入的特征量的出现分布”是指预期向输入单元12提供的数据群中的数据项会具有的值的分布。更具体地,如第一示例实施例的情况一样,对于数据群中的每个数据项,计算表示了与该数据群中的其它数据项的相似度的距离,并且通过使用距离之和来确定针对每个数据项的评估值。对于这种处理预期的是,当基于出现分布存储单元16中存储的出现分布而虚拟产生数据时,由该虚拟产生的数据来自当前被比较的两个数据项之间的概率,来表达两个数据之间的距离值。换句话说,预期的是,当根据特征量的出现分布虚拟地产生模式时,数据群中的数据项A与数据群中的另一数据项B之间的距离是如下概率:观察到相对于数据项A,该模式比数据项B更近的概率。评估值计算单元13直接地将这个距离值或距离值之和设置为评估值。备选地,评估值计算单元13通过使用如下函数,根据距离值来确定评估值:当增大距离值时,该函数会将设置较高评估值。
对于图5中示出的代表特征提取系统的操作,描述图6的流程图。
首先,在步骤A1中,输入单元11读取要处理的数据群,并且将其存储在数据群存储单元12中。接下来,在步骤A2a中,对于数据群存储单元12中的数据群中的每个数据项,评估值计算单元13通过使用如上所述的出现分布存储单元16中存储的出现分布,来计算表示了与数据群中的其它数据项的相似度的距离,并且通过使用距离之和来确定针对每个数据项的评估值。此后,在步骤A3中,数据选择单元14从数据群存储单元12中存储的数据群中的数据项中选择具有在步骤A2中获得的最小评估值的数据项,作为数据群的代表特征。在步骤A4中,输出单元15输出在步骤A3中选择的数据项,作为代表特征。
在如上所描述的第三示例实施例中,因为考虑了特征量的出现分布,所以相对于包括异常值的数据,从该出现分布虚拟地产生的模式离特定数据项更近的概率较高并接近1。即是说,当从该特定数据项来看时,包括异常值的数据比其它数据远。根据特征量的出现分布的本质含义,通过概率1的评估与不存在对应特征的情况下的评估相同。异常值对其它数据项的评估值的影响较小。因此,即使在数据的特征量包括异常值的情况下,根据本示例实施例的处理也能够执行更适当的代表特征提取。
如第一示例实施例一样,可以通过在计算机上执行程序来实现第三示例实施例中的代表特征提取系统。在这种情况下,可以通过分配计算机的主存储器或硬盘驱动上的存储区,来配置数据群存储单元12和出现分布存储单元16。
接下来,将描述根据第四示例实施例的代表特征提取系统。在图7所示的根据第四示例实施例的代表特征提取系统中,将聚簇单元28和簇代表提取单元29添加到根据图3所示的第二示例实施例的系统中。聚簇单元28和簇代表提取单元29分别用作聚簇装置和簇代表提取装置。在数据聚集单元26的输出侧提供聚簇单元28。聚簇单元28将部分数据群的选定代表特征划分为具有相似特性的多个簇。簇代表提取单元29从聚簇单元28划分的簇中提取代表了簇的代表特征,并且向输出单元29发送所提取的代表特征。结果,输出单元29输出代表了簇的代表特征,作为输入数据的代表特征。
对于图7中示出的代表特征提取系统的操作,描述图8的流程图。
按照与图4所示相同的方式执行从步骤B1至B6的处理。在步骤B5的执行之后,如果当前时间点分级结构中的级别是最高级别,则在步骤C1中,聚簇单元28将提供给聚簇单元28的数据分类(即,聚簇)为具有相似特征量的簇。在步骤C2中,簇代表提取单元29从聚簇单元28形成的每个簇中提取代表特征。此后,在步骤C3中,输出单元27将步骤C2中提取的代表特征输出系统。
在如此布置的第四示例实施例中,在输入数据由具有多个特性的数据群形成的情况下,对聚簇方法的使用使得能够与每个数据群相对应地选择代表特征。
如第一示例实施例一样,可以通过在计算机上执行程序来实现第四示例实施例中的代表特征提取系统。在按照这种方式实现代表特征提取系统的情况下,可以通过分配计算机的主存储器或硬盘驱动上的存储区,来配置部分数据群存储单元23。在计算机上执行的程序是用于实现以上描述的数据划分单元22、评估值计算单元24、数据选择单元25、数据聚集单元26、聚簇单元28和簇代表提取单元29的功能的程序。
图9是示出了根据另一示例实施例的代表特征提取系统的配置框图。
图9所示的代表特征提取系统与图5所示的第三示例实施例中的代表特征提取系统相类似,但是与图5所示系统的不同之处在于:没有提供输入单元11、数据群存储单元12和输出单元15。即,该配置包括:出现分布存储单元16,存储预期要输入的特征量的出现分布;评估值计算单元13,对数据群中的每个数据项,基于出现分布,计算与数据群中的其它数据项的距离之和,从而确定针对该数据项的评估值;以及数据选择单元14,选择具有最小评估值的数据项,作为数据群的代表特征。例如,当根据存储在出现分布存储单元16中存储的出现分布而虚拟地产生模式时,在特征量中每个分量中,评估值计算单元13确定两个数据项之间的距离为根据如下概率的值:基于该模式的数据值存在于这两个数据项的值之间的概率。此外,对于这个配置,通过与第三示例实施例中过程相同的过程来执行对代表特征的提取。
如第一至第四示例实施例中的每个系统一样,可以通过在计算机上执行用于实现以上描述的评估值计算单元13和数据选择单元24的功能的程序,来实现图9所示的第四示例实施例中的代表特征提取系统。
因此,可以通过在计算机上执行程序来实现以上描述的示例实施例中的每个代表特征提取系统。例如,这种程序是用于使计算机执行如下处理的程序:基于预期要输入的特征量的出现分布,计算与数据群中的其它数据项的距离之和,来确定输入数据群中的每个数据项的评估值;以及将具有最小评估值的数据项选作数据群的代表特征。可以配置程序,使得在用于确定评估值的处理中,例如,将两个数据项之间的距离确定为根据如下概率的值:在特征量中的每个分量中,基于根据出现分布而虚拟产生的模式的数据值存在于这两个数据项的值之间的概率。因此,还可以在示例实施例的范围中包括以上描述的计算机程序和其上存储计算机程序的计算机可读介质。
示例
将使用具体示例描述以上描述的示例实施例的操作。
示例1:
示例1与以上描述的第二示例实施例相对应。
示例1是第二示例实施例针对海上营救系统的应用,所述海上营救系统用于通过从超光谱摄像机拍摄的海表面的图像中提取表示了海表面自身的特征,并且通过检测与人、漂流物或类似物体相对应而非与海表面相对应的像素,来查找需要营救的人,例如溺水的人或在海上漂流的人。更具体地,第二示例实施例中的代表特征提取系统用于提取表示了海表面有关数据的特征。
超光谱摄像机是如下的摄像机:具有以高波长分辨率对对象的光谱进行精细测量的功能,并能够对于每个像素,例如以几纳米至几十纳米的带宽,在几十到几百个频带上测量光谱强度。如果频带的数目是D,则可以将关于每个像素的信息表达为由D个光谱强度形成的D维向量形式的数据。如果图像的像素数目是N,则可以将整个图像的信息表达为N个D维向量形式的数据项的群,即,数据数组。
在本示例中,从N个数据串中提取良好表示了总体特征的K个代表特征,而将与K个代表特征在特性上不同的数据检测为异常数据。按照这种方式,从拍摄的海表面的图像中提取与海表面不对应的像素,以检测需要营救的人,例如在海洋上漂流的人。例如,在图10所示的情况下,在海洋100上漂流的人110出现在占据了图像的几乎整个区域的要处理的海洋100的区域上,使用占据了图像的几乎整个区域的海表面的特征向量来作为参考数据,通过查找与参考向量不同的像素来检测海洋上漂流的人110,从而辅助营救行动。
在本示例中,超光谱摄像机用作输入单元21;显示器用作输出单元27;以及通过在计算机上执行程序来以软件方式实现数据划分单元22、评估值计算单元24、数据选择单元25和数据聚集单元26。将计算机中的存储设备用作部分数据群存储单元23。
由用作输入单元21的超光谱摄像机提供关于图像的信息。图像是二维的。Ii表示关于图像的每个像素i的信息,以及G={I1,I2,...,IN}表示一组完整的输入数据。作为每个像素的有关信息,认为光谱强度是特征量,并且将光谱强度表达为包括D个特征量的D维向量:Ii=(vi (1),vi (2),...,vi (D))。
数据划分单元22将输入数据G={Ii}划分为多个部分数据群。按照将输入数据划分为诸如图11所示的2维栅格配置的方式,执行将输入数据划分为部分数据群,从而形成诸如图12所示的分级结构。这是为了针对空间上彼此靠近的区域来形成一个部分数据群,因为空间上彼此靠近的区域被认为是具有彼此相近的光谱特性。
例如,在具有256×256个像素(65536个数据项)的图像是输入图像,要输出的代表特征的数目k是1的情况下,执行形成分级结构的划分,使得分级结构中每个级别中的一个数据项由低一个等级的级别中的2×2像素区域中的数据来形成,256=28,因此可以将分级划分为8个级别:
G=(G1 (1),G2 (1),G3 (1),G4 (1))
Gi (1)=(Gi,1 (2),Gi,2 (2),Gi,3 (2),Gi,4 (2))
Gi,j (2)=(Gi,j,1 (3),Gi,j,2 (3),Gi,j,3 (3),Gi,j,4 (3))
Gi,...,k (7)=(Gi,...,k,1 (8),Gi,...,k,2 (8),Gi,...,k,3 (8),Gi,...,k,4 (8))。可以将每个级别划分为具有2×2个元素的部分数据群。在完成这个划分后,可以将部分数据群存储在部分数据群存储单元23中。
接下来,在分级结构中当前时间点尚未处理的多个级别之中,在对分级结构中要处理的最低级别进行处理时,评估值计算单元24从部分数据群存储单元23取出要处理的级别中的部分数据群,并且对于取出的每个部分数据群中的每个数据项,计算与该部分数据群中的其它数据项的距离。逐个级别地执行对部分数据群的处理。然而,在开始时,评估值计算单元24对属于从数据划分单元22经由部分数据群存储单元23传递的最低级别的部分数据群,执行评估值计算的处理。
对于像素Ia和像素Ib之间的距离,可以使用诸如等式(1)所示的L2距离或等式(2)所示的L1距离之类的任何距离标准。L2距离是通常使用的距离,并且是基于二维欧氏空间中距离的定义的。
L 2 ( I a , I b ) = Σ j = 1 D ( v a ( j ) - v b ( j ) ) 2 - - - ( 1 )
L 1 ( I a , I b ) = Σ j = 1 D | v a ( j ) - v b ( j ) | - - - ( 2 )
评估值计算单元24对于每个部分数据群中的每个数据项,确定评估值为与该部分数据群中的其它数据项的距离之和。例如,在由四个数据项{(Ii,Ij,Ik,Il)}形成部分数据群的情况下,如果由Dab表示Ia和Ib之间的距离,则可由以下等式获得针对Ii的评估值Vi
Vi=Dij+Dik+Dil         (3)
类似地,将Vj,Vk和Vl中的每一个确定为与其它数据项的距离之和。
在对于要处理的级别中的每个部分数据群中的每个数据项,已经计算了评估值之后,数据选择单元25从每个部分数据群中的数据项中选择具备最小评估值的数据项。例如,如果一个部分数据群由四个数据项{(Ii,Ij,Ik,Il)}形成,针对数据项的评估值是{(Vi,Vj,Vk,Vl)},以及{(Vi,Vj,Vk,Vl)}中的最小值是Vi,则数据选择单元25将Ii选作代表该部分数据群的数据。
在对于要处理的级别中的每个部分数据群中的每个数据项,已经选择了代表数据之后,数据聚集单元26确定当前处理的级别是否是预定的最高级别。如果当前处理的级别是最高级别,则数据聚集单元26向输出单元27通知来自该级别的代表数据。如果当前处理的级别不是最高级别,则数据聚集单元26对于比当前处理的级别要高一等级的级别,来准备部分数据群。由属于当前处理的级别并且由数据选择单元25选择的一些代表数据项的集合形成高一级级别中的部分数据群。在准备了高一级级别中的部分数据群之后,数据聚集单元26通过将所准备的部分数据群存储在部分数据群存储单元22中,来向评估值计算单元24提供所准备的部分数据群。
例如,在具有256×256个像素(65536个数据项)的图像是输入图像,要输出的代表特征的数目k是1的情况下,执行形成分级结构的对输入数据的划分,使得分级结构中每个级别中的一个数据项由低一级级别中的2×2像素区域中的数据来形成,在最低级别中存在16384(=128×128)个部分数据群,其中由2×2个元素形成每个所述部分数据群。对次最低级别,基于最低级别中的128×128个代表数据,准备4096(=64×64)个部分数据群。在8个级别上执行该处理。结果,从最高级别中的2×2个部分数据群中选择一个代表数据项。据此,从最高级别中获得一个代表数据项。数据聚集单元26最终向输出单元27通知该代表数据项。
作为输出单元27而提供的显示器显示该代表数据。
在该示例1中,评估值计算单元24对于每个数据项,计算与部分数据群中的其它数据项的距离之和,以作为该数据项的评估值,以及对于每个部分数据群,数据选择单元25选择部分数据群中具有最小评估值的数据项。因此,与通过获得直方图来确定代表值的方法相反,可以可靠地确定代表数据,即使在特征的维数比数据项的数目大时。
在通过获得直方图来确定代表值的情况下,除非直方图的一个区间中存在具有足够多数据项的数据量,否则不能正确地确定代表值。例如,如果数据项的数目较少,使得来自一个区间中的数据项的数目是1或2,则其中恰好存在两个数据项的区间可能被选作代表数据,即使该区间并不表示全体。如果特征的维数增加,这将变得明显,因为区间的数目与维数的幂成比例地增大。当将一个特征划分为100个区间时,如果特征是一维的,则得到100个区间,如果特征是60维的,则得到10060(=10120)个区间。
与使用直方图的方法相反,示例1中的方法即使在特征量的维数较大的情况下,也能够成功地确定代表数据。
此外,在本示例中分级地执行如下处理:对于每个数据项,评估值计算单元24计算与部分数据群中的其它数据项的距离之和,作为评估值,以及数据选择单元25从每个部分数据群中选择具有该部分数据群中的最小评估值的数据项。因此,即使数据包括异常值,也可以稳定地提取代表特征。
相反,在将平均值识别为代表值的情况下,平均值中包括异常值的影响。在普通情况下,当计算均值时,由于获取均值的运算自身的特性,距离较远的对象的影响较大。因此,存在异常值的影响不可避免地较大的问题。
关于本示例,如图13所示,假设例如由四个数据项{(I1,I2,I3,I4)}形成最低级别中的部分数据群,以及I4包括由于噪声的影响而导致的异常值。Dij表示数据项之间的距离。因为I4包括异常值,所以距离D14,、D24和D34中的每一个均比距离D12,、D13和D23中的任何一个都大。因此,针对数据项的评估值(V1,V2,V3,V4)中的V4比其它评估值(V1,V2,V3)要大,其中每个评估值是从数据项之一到其它数据项的距离之和。因为将具备最小评估值的数据项选作代表数据,所以在这种情况下不将数据I4选作代表数据。因此,根据本示例,将包括异常值的数据项作为代表值向较高级别传送的可能性是极低的。根据示例1,分级地执行这种选择,从而避免了包括受噪声等影响的异常值在内的数据被包括在较高级别中,并且能够可靠地提取代表特征。
此外,不仅对由于噪声等导致的异常值而且对特性上不同的数目非常小的数据项,本示例具有不受它们影响的效果。例如,在提取海表面自身的光谱作为代表特征,以从海表面拍照而获得的图像中发现在海洋上漂流的人的情况下,简单的求平均导致将包括关于对象(所述对象包括海洋上漂流的人)的数据在内的数据的平均数当作代表值,而非海洋自身的表面以及海表面的有关数据。在本示例中,分级地选择数据,并且排除较低级别中的特性不相同的数据项,从而能够最终选择代表特征,而不会包括特性上不同的数据。
本发明还具有能够高速地选择代表值的效果。
例如,输入数据包括N个数据项,其中N=a×b。如果在没有分级地划部分数据的情况下确定从每个数据项至其它数据项的距离,则需要计算距离ab(ab-1)/2次。
另一方面,考虑以下情况:在分级结构的一个级别中,将n个数据项划分为a个部分数据群,每个部分数据群包括b个数据项,其中n=a×b。对于每个部分数据群中的b个数据项,计算距离的次数是b(b-1)/2。在a个部分数据群的每个部分数据群上执行该计算过程。因此,对于第一级别而言,距离计算的总次数是ab(b-1)/2。对于第二级别而言,距离计算(即,在a个数据项之间)的总次数是a(a-1)/2。因此,由于数据的分级而使得计算ab(b-1)/2+a(a-1)次距离就足够了。在没有执行分级的情况与执行了分级的情况之间,计算距离的次数之差是a(b2-1)(a-1)。因为a和b大于1,所以通过分级绝对无误地减少了计算量。尽管已经示出了在分级结构中划分一个级别的情况下的计算量,但是如果在分级结构划分多个级别,则可以获得更好的计算量减少的效果。
在以上描述的示例1中,假设的是最终获得的代表特征的数目K是1,并且一个特征代表全体。然而,可以将K设置为大于1的数目,并且可以提取特定数目的或多个代表特征。例如,可以分别从图像中4×4像素形成的每个分区中选择代表特征,以形成缩小到原始图像的1/16的压缩图像。在假设由特性上彼此不同的多个元素形成输入数据的情况下,优选的是获取多个代表特征来分别表示这些特性上不同的多个元素,而非使一个特征代表全体。
尽管已经描述了为了获取部分数据群而将二维空间划分为连续的正方形栅格配置,但是备选地,可以通过使用诸如矩形栅格、三角性栅格或六角形栅格之类的任何其它配置来分级地划分二维空间。此外,备选地,例如,可以按照与预定数目的像素相对应的间隔来进行划分,以在空间上非连续地划分二维空间。
在本示例中,在没有省略和复制的情况下进行划分。然而,备选地,可以允许发生省略或复制,来进行划分。甚至是在省略了一些数据项并且并非利用了所有数据项的情况下,或者在发生复制的情况下,也可以获得全体的特征。例如,因为以2的幂进行划分通常方便在计算机中实现,所以如果输入数据项的数目不是2的幂,则可以不包括零散部分。类似地,如果可以认为输入数据具有一定程度的均匀性,那么复制的影响(如果有的话)是无需考虑的。
在以上描述的示例1中,将超光谱摄像机用作输入装置,以及从该摄像机向计算机直接提供图像数据。然而,可以在经由网络连接不同位置处布置摄像机和计算机。例如,该布置可以是将摄像机安装在飞机上;将来自摄像机的数据经由无线网络发送到地面上的控制站;以及由地面控制站中的计算机执行代表特征提取。此外,该布置还可以是将站点处的图像直接从摄像机输入计算机,以实时处理图像或将图像保存在存储设备中,以及在不同的时间执行数据采样和代表特征提取,如同在出现问题之后的后期调查的情况下一样。
作为代表特征的输出方法,可以使用经由网络向外部设备电子通知代表特征的方法、在诸如硬盘驱动或通用串行总线(USB)存储器之类的记录介质上记录代表特征的方法、或任何其它方法,以及本示例所描述的显示器上显示代表特征的方法。
已经针对将代表特征系统用于从海表面图像中检测在海洋上漂流的人或漂流物的情况,描述了本示例。然而,还可以类似方式将本示例应用于如下系统:提供沙土的代表特征以从沙土沉积灾难场景的图像中检测与沙土不同的对象的系统,以及提取沙漠的代表特征以从沙漠的图像检测绿洲的系统。作为被执行代表特征提取处理的数据,可以使用任何数据以及本示例使用的来超光谱摄像机的光谱数据。例如,可以将本示例应用到故障检测系统或类似系统,其中通过使用诸如移动速度和停留时间之类的表示行动的多个特征量来表达行动;从行动序列的历史中提取代表行动;以及通过将异常行动与代表行动相比较来检测异常行动,以检测故障或类似问题的发生。此外,还可以如下方式来将本示例应用到犯罪检测或类似方面:将说单词的语音表达为多维向量;从一系列会话中检测普通会话中观察到的语音,作为代表特征;以及检测与代表特征不同的会话。此外,本示例不仅可以应用于通过检测异常数据来进行代表特征选择以用于异常性检测,还可以应用于选择良好表示了图像的特征的代表像素,以压缩图像。本示例还可以应用于使用代表特征的数据分类。
示例2:
示例2与以上描述的第四示例实施例相对应。该示例2与示例1类似,但是与示例1的不同之处在于:提供了如图7所示的聚簇单元28和簇代表提取单元29。此外,假设输入数据由特性上不同的多个元素形成,最终获得的代表特征的数目设置为多个。此外,将代表数据项的数目K设置为2或更大。
例如,如果从图像的由8×8像素形成的每个分区中选择代表数据,则通过执行与示例1的处理相同的处理来向聚簇单元28提供的数据是通过将输入图像压缩到1/64而形成的代表数据(即,压缩图像)。聚簇单元28将所提供的图像划分为特征量上相似的部分图像(即簇)。例如如图14所示,如果要处理的图像由海洋区域100和沙滩区域105形成,聚簇单元28对整个输入图像执行聚簇处理,以将输入图像划分为如图15所示的与海洋区域100和沙滩区域105相对应的两个部分图像1和2。对于聚簇处理,可以使用任何方法,例如k均值方法。
在图15中,在海洋区域100中示出了在海洋上漂流的人110。
当形成了这些簇时,簇代表提取单元29分别从准备好的簇中提取代表特征。例如,当准备了如图15所示的表示海洋区域100和沙滩区域105的两个簇(部分图像1和2)时,簇代表提取单元29获取表示海洋的簇的代表值和表示沙滩的簇的代表值,如图16中的光谱曲线所指示的。
作为用于获取簇的代表值的方法,如同评估值计算单元24和数据选择单元25中的处理情况一样,存在如下方法:选择与其它数据项的距离之和最小的数据项作为代表值。备选地,可以获得簇中数据的平均值,作为簇中数据的代表值。在本示例中,在执行聚簇之前分级地选择代表特征,从而预先去除异常值数据和特性上不同的少量数据。此外,按照特性上的相似将数据划分为簇。因此,只有具备实质上相同特性的数据项才存在于一个簇中,以及在这个阶段求平均的结果不会受到任何异常值或特性上不同的数据的影响。
对于聚簇,可以使用以下方法:使用空间连续性来划分成具备相似性的区域的方法,或者只根据光谱相似性而不使用空间连续性来划分成具备相似性的区域的方法。在如图16所示的由多个空间上可区分的区域形成输入图像的情况下,使用空间连续性以划分成具备相似性的区域实现了更优选的代表特征的选择。在森林中陆地部分可见的图像是输入图像的情况下,可以通过只关注光谱相似性而不使用空间连续性,来执行对输入图像中的森林的树和陆地的聚簇。
在以上描述的示例2中,将输入图像划分为具有类似特征量的簇,并且对每个簇执行代表特征提取,从而即使在由具备一定数目的不同特性的多个区域形成输入图像的情况下,也能够实现适当的处理。在示例2中,因为在聚簇之前执行分级选择,所以可以高速地处理输入图像。还可以想到的是,直接对输入数据执行聚簇,而不用执行分级选择。然而,因为重复计算的使用,所以诸如k均值之类的聚簇方法需要相当长的处理时间。因此,预先执行分级选择,以减少要聚簇的数据项的数目,从而获得速度上的显著提升。
示例3:
示例3与以上参考图5描述的第三示例实施例相对应。
出现分布存储单元16存储数据Ii的出现分布Qx=(q(1)(x),q(2)(x),...,q(D)(x)),即每个特征量vi (j)的出现分布q(j)(x)。例如,在出现分布存储单元16中存储如下信息:对于区间[min(j),max(j)],第j个分量特征量的分布是具有平均数m(j)和方差σ(j)的正态分布或者是均匀分布。假设特征量vi (j)是根据存储在出现分布存储单元16中的分布而出现的。可以根据与要拍照的对象相关的现有知识,预先给出包括诸如平均数和方差之类的参数在内的出现分布,或者可以在假设只知道分布形状时通过从实际输入的数据获得诸如平均数和方差之类的参数,来给出出现分布。此外,如果无法获得关于出现分布的现有知识,或者如果无法从任何现有知识确定出现分布,则假设是均匀分布,并且可以从实际输入的全部图像数据的第j个分量的最大值和最小值来确定该均匀分布的最大值max(j)和最小值min(j)
评估值计算单元13将数据项Ia和Ib之间的距离定义为通过使用存储在出现分布存储单元16中的出现分布Q(x)而虚拟产生的值是数据项Ia和Ib之间的值的概率P(Ia,Ib)。因为第j个分量的出现分布是q(j)(x),等式(4)示出了根据该出现分布虚拟产生的模式的第j个分量值是数据Ia的第j个分量的值va (j)与数据Ib的第j个分量的值vb (j)之间的值的概率p(va (j),Ib (j))。因此,在分量的出现分布独立的情况下,等式(5)示出了虚拟产生的值是Ia和Ib之间的值的概率P(Ia,Ib)。在普通情况下,可以看到,如果两个数据项之间距离的值增大,则两个数据项彼此之间的不同程度增大,以及如果距离的值减小,则两个数据项彼此更接近。此外,当等式(5)限定的概率的值越小时,获得两个值之间的值的情况出现得越少,即两个数据项之间的距离小,从而两个数据项彼此相似。相反,当概率值越大时,获得两个值之间的值的情况的发生率并非如此低,即两个数据项之间的距离大,并且两个数据项彼此不类似。
p ( v a ( j ) , v b ( j ) ) = | ∫ v a ( j ) v b ( j ) dxq ( j ) ( x ) | - - - ( 4 )
P ( I a , I b ) = Π j = 1 D p ( v a ( j ) , v b ( j ) ) - - - ( 5 )
通过将该概率P的对数作为Ii和IR.之间的距离D(Ii,IR),实现如等式6所示的计算。因为对数函数(log)是单调递增函数,所以距离方面的特性不会变化,甚至是当采用对数的时候。
D ( I i , I R ) = Σ j = 1 D { log ( p ( v i ( j ) , v R ( j ) ) ) } - - - ( 6 )
将参考图17描述使用本示例中定义的距离与使用等式(1)所示的普通距离相比的有益效果。
描述一种情况,其中例如,虽然数据项Ii和IR本质上彼此类似,但是由于传感器中发生了与噪声影响下获得的第d个分量或异常值对应的损失,Ii和IR之间第d分量之差(vi (d),vR (d))增大到较大值。在图17中,横坐标表示第n个分量,以及纵坐标表示第n个分量中的特征量的值。数据项IS和IR是关于共同对象的数据,但是由于IS的第d个分量中的噪声混合而导致数据项IS具有的特征量vS (d)为异常值。数据项IT和IR是关于不同对象的数据,以及数据项IT具有与IR的特征量一般不同的特征量。然而,在使用普通距离L2的情况下,因为是vS (d异常值,所以(vS (d)-vR (d))2是非常大的。距离L2(IS,IR)是大的,而非第d个分量的其他分量的特征量彼此大致相等。结果,将数据项IS和IR确定为彼此不类似。另一方面,IT和IR总体上彼此有些不同。然而,IT和IR的分量之间实质上不存在较大差异,并且距离L2(IT,IR)也不是如此之大。结果,相比于IS和IR,反而将IT和IR确定为彼此相似。
考虑本示例中使用的在等式(6)所示距离的情况下第d个分量的贡献。当vS (d)与vR (d)之差由于异常值而变大时,p(vS (d),vR (d))接近于1,等式(6)中第d个分量的对数值log(p(vS (d),vR (d)))接近于0。因此,包括异常值的第d个分量对总体的贡献是小的。对于非第d个分量的没有包括异常值的第i(i≠d)个分量,vS (i)and vR (i)之差是小的;p(vS (i),vR (i))接近于0;并且等式(6)中第i个分量的对数值log(p(vS (i),vR (i)))是小的(负值,该负值的绝对值是大的)。因为包括异常值的第d个分量是0,并且因为没有包括异常值的分量是绝对值大的负值,所以这些值之和D(IS,IR)是绝对值大的负值。对于本示例定义的距离,这是小值。结果,将数据项IS和IR确定为彼此类似。另一方面,IT和IR总体上彼此不同,因此,对于所有分量,p(vT (i),vR (i))具有接近于1的值,并且等式(6)中每个分量的对数值log(p(vT (i),vR (i)))接近于0。每个接近于0的值相加的结果还是接近于0。因此D(IT,IR)具有接近于0的值。等式(6)所示的距离的最大值是0。因此,数据项IT和IR之间距离具有大值。
因为等式(6)所示的距离具有的特点,所以不受损失或部分特征量中的异常值(如果存在的话)的影响。因此,根据示例3的技术具有这种特点,使得即使当输入数据中包括异常值时,也能够稳定地提取代表特征。
类似地,因为等式(6)所示的距离具有的特点以及该特点在于减小与总体显著不同的分量的贡献,所以根据本示例的技术具有这种特点,使得即使特征的维数较大时,也能够稳定地提取代表特征。
相反,在使用等式(1)所示普通距离L2的情况下,如果特征的维数增大,则不可能稳定地提取代表特征。一般说来,可以看到,在使用普通距离L2的情况下,当维数增大时,使数据相近度的确定不稳定。当维数增大时普通距离的方式使相近度的确定不稳定的原因在于,在普通距离的尺度上,对于虚拟是较大自然数的D而言,在D维模式的分量中,与处于大距离处的分量的贡献相比,处于小距离处的分量的贡献要小得多。与处于小距离处的分量的贡献相比,处于大距离处的分量(例如异常值)的微小变化的影响要大得多,从而使得相近度确定不稳定。此外,当增大维数D时,处于大距离处的分量的出现概率变得较高。因此,在高维模式中,这种相近度确定的不稳定性的出现概率变得较高。
相反,如本示例所述,在从任意模式下的特征量的出现分布中虚拟地产生模式的情况下,对于每个数据项,针对具有较大特征量差异的分量而言,相对于每个数据项的特征量,该模式接近于该正常数据项的概率接近于1。因为随着接近于1,影响减小,所以减少了具有较大特征量差异的分量对其它分量的影响。因此,如果其它分量彼此类似,则减少了两个模式之间的距离。因此,根据本示例的方法,即使维数增大时也可以避免距离不稳定性。
已经示出了在可以由多个特征量形成的高维向量来表示特征并且在多个特征量之一中包括异常值的情况下的有益效果。接下来将描述在多个数据项之一中包括异常数据的情况下的本发明的有益效果。
如图13所示,在从四个数据项{(I1,I2,I3,I4)}中选择代表值的情况下,假设I4是包括由于噪声的影响而导致的异常值的数据项。Dij表示数据项之间的距离。因为I4是包括异常值的数据项,所以距离D14,、D24和D34均比距离D12,、D13和D23中的任何一个都大。
如上所描述的,在使用普通距离L2的情况下,较远数据项的影响是大的。因此,例如,考虑从I2至其它数据项的距离之和,D24比D12或D23要大得多,减小了D24的影响,而增大了D12和D23的影响。因此,基于紧密存在的I1、I2和I3之间的位置关系来确定评估值,从而通过排除异常值来选择良好表示了数据特性的代表特征。
示例4:
将描述示例4。示例4与示例1类似,但是与示例1的不同之处在于还提供了示例3所示的出现分布存储单元16,并且计算距离,以及通过与示例3中的评估值计算单元13中的过程相同的过程来在评估值计算单元24中确定评估值。图18示出了示例4中的代表特征提取系统的配置。
出现分布存储单元16存储预期要输入的特征量的出现分布。如示例1的情况一样,将输入数据划分为要分级地处理的分级结构中的多个级别中的部分数据群。即,数据划分单元22将输入数据分级地划分为多个部分数据群,以能够分级地执行评估值计算和数据选择。对于分级结构中每个级别中的每个部分数据群中的每个数据项,评估值计算单元24和数据选择单元25计算表示了与部分数据群中的其它数据项的相似度的距离,并且使用该距离来确定针对每个数据项的评估值。当从出现分布存储单元16中存储的出现分布中虚拟地产生模式时,此处的距离是如下概率:该模式中的值与彼此要进行比较的两个数据项的值之间的值相符合的概率。数据聚集单元26收集来自部分数据群的代表数据,并且基于代表数据来准备分级结构中下一级别中的部分数据群,从而能够分级地执行的评估值计算和数据选择。
因此布置的示例4组合了基于示例1的分级代表特征选择和基于示例3的基于出现分布的评估值计算,因而具有这两个示例的有益效果。
更具体地,在本示例中,使用分级结构,并且包括异常值或特性上不同的少量数据项的影响不会从分级结构的较低级别传播到较高级别。因此,如示例1的情况一样,可以提取代表特征,而不会受到包括异常值或特性上不同的少量数据项的影响。当使用分级结构时,使用从出现分布虚拟地产生的模式采用当前比较的两个数据项的值之间的值的概率,从而如示例3的情况一样,提高了对包括异常值或特性上不同的少量数据项的影响的免疫力。
如示例1的情况一样,通过距离的总和的代表特征的分级计算和确定即使当数据项的数目较少时也能够实现代表特征的确定,并且还能够快速地确定代表特征。
如示例3的情况一样,使用从出现分布虚拟地产生的模式采用当前比较的两个数据项的值之间的值的概率,即使当增大特征的维数时,也能够实现代表特征的确定。
在示例4中,如示例2的情况一样,可以添加聚簇单元和簇代表提取单元。如果添加了这些单元,即使当由具有不同特性的多个区域形成输入图像的时候,也可以稳定地提取代表特征。
工业适用性:
例如,可以通过从图像、语音、光谱模式、行动模式等中提取代表特征,将本发明应用于执行异常检测、数据压缩、分类等技术领域。
已经参考示例实施例和示例描述了本发明。然而,本不发明不限于以上描述的示例实施例和示例。本领域技术人员可以根据本发明在本发明的范围内对配置和细节进行可以理解的各种修改。
本申请基于2009年7月1日提交的申请号为No.2009-156831的日本专利申请,并且要求其优先权权益,在此并入其公开的全部内容作为参考。
附图标记说明
11,21输入单元
12数据群存储单元
13,24评估值计算单元
14,25数据选择单元
15,27输出单元
16出现分布存储单元
22数据划分单元
23部分数据群存储单元
26数据聚集单元
28聚簇单元
29簇代表提取单元

Claims (17)

1.一种从输入数据群中选择代表特征的代表特征提取系统,包括:
出现分布存储装置,存储关于预期要输入的特征量的出现分布,所述出现分布是预先给出的,并且是所述数据群中的数据项预期会具有的值的分布;
评估值计算装置,对于数据群中的每个数据项,基于所述出现分布计算与数据群中包括的其它数据项的距离之和,以确定针对该数据项的评估值;以及
数据选择装置,选择具有最小评估值的数据项,作为数据群的代表特征;
其中,对于根据所述出现分布而虚拟产生的模式,所述评估值计算装置确定两个数据项之间的距离为基于如下概率的值:在所述模式上,特征量的每一个分量中的数据值存在于所述两个数据项的值之间的概率。
2.根据权利要求1的代表特征提取系统,其中,对于根据所述出现分布而虚拟产生的模式,所述评估值计算装置确定两个数据项之间的距离为基于如下各概率之积的值:在所述模式上,特征量的多个分量存在于所述两个数据项的值之间的各概率。
3.根据权利要求1的代表特征提取系统,其中,将输入数据群中的最大值与最小值之间的均匀分布用作所述特征量的出现分布。
4.根据权利要求1的代表特征提取系统,其中,预先确定一种分布形状作为所述特征量的出现分布,以及将输入数据群中的平均数和方差用作所述出现分布中的平均数和方差的值。
5.根据权利要求1的代表特征提取系统,还包括:划分装置,将数据群划分为多个部分数据群,
其中,对于每个部分数据群,所述评估值计算装置计算该部分数据群中包括的每个数据项的评估值,以及对于每个部分数据群,所述数据选择装置选择代表特征。
6.根据权利要求1的代表特征提取系统,还包括:
读取数据群的输入装置;
存储数据群的存储装置;以及
输出代表特征的输出装置。
7.根据权利要求2的代表特征提取系统,还包括:划分装置,将数据群划分为多个部分数据群,
其中,对于每个部分数据群,所述评估值计算装置计算该部分数据群中包括的每个数据项的评估值,以及对于每个部分数据群,所述数据选择装置选择代表特征。
8.根据权利要求2的代表特征提取系统,还包括:
读取数据群的输入装置;
存储数据群的存储装置;以及
输出代表特征的输出装置。
9.根据权利要求7的代表特征提取系统,还包括:
读取数据群的输入装置;
存储数据群的存储装置;以及
输出代表特征的输出装置。
10.一种从输入数据中选择代表特征的代表特征提取方法,包括:
对于数据群中的每个数据项,基于预期要输入的特征量的出现分布,计算与数据群中包括的其它数据项的距离之和,并确定针对该数据项的评估值,所述出现分布是预先给出的,并且是所述数据群中的数据项预期会具有的值的分布;以及
选择具有最小评估值的数据项,作为数据群的代表特征;
其中,当确定评估值时,对于根据所述出现分布而虚拟产生的模式,确定两个数据项之间的距离为基于如下概率的值:在所述模式上,特征量的每一个分量中的数据值存在于所述两个数据项的值之间的概率。
11.根据权利要求10的代表特征提取方法,其中,当确定评估值时,对于根据所述出现分布而虚拟产生的模式,确定两个数据项之间的距离为基于如下各概率之积的值:在所述模式上,特征量的多个分量存在于所述两个数据项的值之间的概率。
12.根据权利要求10的代表特征提取方法,其中,使用输入数据群中的最大值与最小值之间的均匀分布,作为所述特征量的出现分布。
13.根据权利要求10的代表特征提取方法,其中,预先确定一种分布形状作为所述特征量的出现分布,以及使用输入数据群中的平均数和方差作为所述出现分布中的平均数和方差的值。
14.根据权利要求10的代表特征提取方法,还包括:将数据群划分为多个部分数据群,
其中,对于每个部分数据群,计算该部分数据群中包括的每个数据项的评估值,以及对于每个部分数据群,选择代表特征。
15.根据权利要求10的代表特征提取方法,其中,提供由来自超光谱摄像机的光谱数据形成的多维数据,作为所述数据群。
16.根据权利要求10的代表特征提取方法,还包括:在从输入数据中提取代表特征之后,检测与代表特征不同的数据,作为异常数据。
17.根据权利要求11的代表特征提取方法,还包括:将数据群划分为多个部分数据群,
其中,对于每个部分数据群,计算该部分数据群中包括的每个数据项的评估值,以及对于每个部分数据群,选择代表特征。
CN201080029613.8A 2009-07-01 2010-06-15 提取代表特征的系统和方法 Active CN102473298B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2009156831 2009-07-01
JP2009-156831 2009-07-01
PCT/JP2010/060095 WO2011001817A1 (ja) 2009-07-01 2010-06-15 代表特徴抽出システムおよび方法

Publications (2)

Publication Number Publication Date
CN102473298A CN102473298A (zh) 2012-05-23
CN102473298B true CN102473298B (zh) 2015-08-19

Family

ID=43410896

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201080029613.8A Active CN102473298B (zh) 2009-07-01 2010-06-15 提取代表特征的系统和方法

Country Status (5)

Country Link
US (1) US9361517B2 (zh)
EP (1) EP2450850B1 (zh)
JP (1) JP5333589B2 (zh)
CN (1) CN102473298B (zh)
WO (1) WO2011001817A1 (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9361517B2 (en) * 2009-07-01 2016-06-07 Nec Corporation System and method for extracting representative feature
JP6053272B2 (ja) * 2011-10-19 2016-12-27 オリンパス株式会社 顕微鏡装置
US8977622B1 (en) * 2012-09-17 2015-03-10 Amazon Technologies, Inc. Evaluation of nodes
US8635225B1 (en) * 2013-03-14 2014-01-21 Purediscovery Corporation Representative document selection
US9558244B2 (en) * 2014-10-22 2017-01-31 Conversable, Inc. Systems and methods for social recommendations
US10509800B2 (en) * 2015-01-23 2019-12-17 Hewlett-Packard Development Company, L.P. Visually interactive identification of a cohort of data objects similar to a query based on domain knowledge
US10311288B1 (en) * 2017-03-24 2019-06-04 Stripe, Inc. Determining identity of a person in a digital image
JP6622430B2 (ja) * 2017-06-16 2019-12-18 日鉄ソリューションズ株式会社 情報処理装置、情報処理方法及びプログラム
JP6830414B2 (ja) * 2017-06-28 2021-02-17 株式会社日立製作所 診断装置及び診断方法
CN107992843B (zh) * 2017-12-13 2021-08-17 武汉科技大学 一种旋转机械故障信号的稀疏特征提取方法
WO2020079986A1 (ja) * 2018-10-15 2020-04-23 日本電気株式会社 推定装置、システム及び方法及びコンピュータ可読媒体並びに学習装置及び方法及びコンピュータ可読媒体
US20230012090A1 (en) * 2021-07-09 2023-01-12 Kawasaki Motors, Ltd. Periphery recognition support system and method for personal watercraft

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06209469A (ja) 1993-01-11 1994-07-26 Sony Corp 画像符号化装置、画像符号化方法、画像復号化装置、画像復号化方法、および画像記録媒体
JP3163216B2 (ja) * 1994-03-31 2001-05-08 シャープ株式会社 代表特徴量抽出方法及び代表特徴量抽出装置
US5832182A (en) * 1996-04-24 1998-11-03 Wisconsin Alumni Research Foundation Method and system for data clustering for very large databases
US5983224A (en) * 1997-10-31 1999-11-09 Hitachi America, Ltd. Method and apparatus for reducing the computational requirements of K-means data clustering
JPH11167634A (ja) 1997-12-03 1999-06-22 Omron Corp 画像の領域分割方法、画像の領域分割装置、画像の領域分割プログラムを記録した記録媒体、画像検索方法、画像検索装置および画像検索プログラムを記録した記録媒体
JP3199009B2 (ja) * 1997-12-26 2001-08-13 日本電気株式会社 画像蓄積・管理装置及び画像インデックス生成方法
US6744922B1 (en) * 1999-01-29 2004-06-01 Sony Corporation Signal processing method and video/voice processing device
US6700998B1 (en) * 1999-04-23 2004-03-02 Oki Electric Industry Co, Ltd. Iris registration unit
US6647142B1 (en) * 1999-08-19 2003-11-11 Mitsubishi Electric Research Laboratories, Inc. Badge identification system
JP3611777B2 (ja) 2000-07-10 2005-01-19 三協エンジニアリング株式会社 クラック幅測定装置
US6917884B2 (en) * 2000-12-22 2005-07-12 Paul Sammak Automated assay for identification of individual cells during kinetic assays
US7031523B2 (en) * 2001-05-16 2006-04-18 Siemens Corporate Research, Inc. Systems and methods for automatic scale selection in real-time imaging
JP4057928B2 (ja) * 2003-02-12 2008-03-05 株式会社日立ハイテクノロジーズ 半導体パターン評価システム
JP2004258750A (ja) * 2003-02-24 2004-09-16 Fuji Photo Film Co Ltd 画像の特徴ベクトルのクラスタリング方法および装置
US7639868B1 (en) * 2003-06-16 2009-12-29 Drexel University Automated learning of model classifications
JP4612797B2 (ja) 2004-03-11 2011-01-12 キヤノン株式会社 符号化装置、符号化方法
JP4652741B2 (ja) * 2004-08-02 2011-03-16 インターナショナル・ビジネス・マシーンズ・コーポレーション 異常検出装置、異常検出方法、異常検出プログラム、及び記録媒体
US7653264B2 (en) * 2005-03-04 2010-01-26 The Regents Of The University Of Michigan Method of determining alignment of images in high dimensional feature space
JP2007142883A (ja) 2005-11-18 2007-06-07 Canon Inc 画像処理装置及び画像処理方法
JP4799168B2 (ja) * 2005-12-21 2011-10-26 株式会社東芝 配水及び管路情報解析システム
EP1879149B1 (en) * 2006-07-10 2016-03-16 Fondazione Bruno Kessler method and apparatus for tracking a number of objects or object parts in image sequences
JP4835865B2 (ja) 2006-08-08 2011-12-14 富士ゼロックス株式会社 画像処理装置及び画像処理プログラム
US7979372B2 (en) * 2007-03-30 2011-07-12 Ut-Battelle, Llc Method and system for knowledge discovery using non-linear statistical analysis and a 1st and 2nd tier computer program
JP5365065B2 (ja) * 2008-05-13 2013-12-11 富士通株式会社 辞書作成装置
US8542950B2 (en) * 2009-06-02 2013-09-24 Yahoo! Inc. Finding iconic images
US9361517B2 (en) * 2009-07-01 2016-06-07 Nec Corporation System and method for extracting representative feature
JP5529571B2 (ja) * 2010-02-08 2014-06-25 キヤノン株式会社 画像符号化装置及びその制御方法
US8630490B2 (en) * 2010-10-17 2014-01-14 Canon Kabushiki Kaisha Selecting representative images for display
US8593478B2 (en) * 2010-10-19 2013-11-26 Hewlett-Packard Development Company, L.P. Extraction of a color palette model from an image of a document
US20120140987A1 (en) * 2010-12-06 2012-06-07 Haileo Inc. Methods and Systems for Discovering Styles Via Color and Pattern Co-Occurrence

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
A Methodology to Determine the Number of Clusters in Unsupervised Hyperspectral Image Classification;Axel Y. Rivera;《Proceedings of The National Conference On Undergraduate Research 2008》;20080412;第1节、第3.1.2节 *
An Efficient Approximation Scheme for Data Mining Tasks;George Kollios et al;《17th International Conference on Data Engineering》;20010406;全文 *
Detecting Clusters and Outliers for Multi-Dimensional Data;Yong Shi;《International Conference on Multimedia and Ubiquitous Engineering》;20080426;第3.1节 *
Theodoridis S. et al.Pattern Recognition.《Pattern Recognition, 4th Edition》.2008,第653-700、701-763、803-821、837、852-862页. *
Using Circular Statistics for Trajectory Shape Analysis;Andrea Prati et al;《IEEE Conference on Computer Vision and Pattern Recognition》;20080628;全文 *

Also Published As

Publication number Publication date
EP2450850A4 (en) 2013-05-01
US9361517B2 (en) 2016-06-07
JPWO2011001817A1 (ja) 2012-12-13
JP5333589B2 (ja) 2013-11-06
EP2450850A1 (en) 2012-05-09
EP2450850B1 (en) 2020-12-23
CN102473298A (zh) 2012-05-23
US20120106798A1 (en) 2012-05-03
WO2011001817A1 (ja) 2011-01-06

Similar Documents

Publication Publication Date Title
CN102473298B (zh) 提取代表特征的系统和方法
Xu et al. ℓ0-based sparse hyperspectral unmixing using spectral information and a multi-objectives formulation
Meng et al. Robust matrix factorization with unknown noise
CN108154222B (zh) 深度神经网络训练方法和系统、电子设备
GB2565401A (en) Form structure extraction network
Wang et al. DECOrrelated feature space partitioning for distributed sparse regression
Soares et al. Handling big models and big data sets in history-matching problems through an adaptive local analysis scheme
WO2015167553A1 (en) Forecasting production data for existing wells and new wells
Mahjour et al. Evaluation of unsupervised machine learning frameworks to select representative geological realizations for uncertainty quantification
Haindl et al. A compound MRF texture model
Blanchet et al. Triplet Markov fields for the classification of complex structure data
Haindl et al. Potts compound markovian texture model
Bai et al. Utilizing spatial association analysis to determine the number of multiple grids for multiple-point statistics
Wang et al. Semi-supervised multi-view clustering with weighted anchor graph embedding
Katoch et al. Fast non-linear methods for dynamic texture prediction
US10403056B2 (en) Aging profiling engine for physical systems
CN114970447A (zh) 一种汉字字体转换方法、装置、设备和存储介质
Dadashpour et al. Fast reservoir parameter estimation by using effect of principal components sensitivities and discrete cosine transform
Jiang et al. Superpixel-based robust tensor low-rank approximation for multimedia data recovery
JP2011013886A (ja) 代表特徴抽出システム、方法およびプログラム
Cheng et al. A coupled ETAS-I2GMM point process with applications to seismic fault detection
Zdunek et al. Image completion with approximate convex hull tensor decomposition
Iqbal et al. Adaptive fusion-based 3D keypoint detection for RGB point clouds
US20210374613A1 (en) Anomaly detection in high dimensional spaces using tensor networks
Zeng et al. Tensor completion using enhanced multiple modes low-rank prior and total variation

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant