CN1894703A - 模式识别方法、设备以及程序 - Google Patents

模式识别方法、设备以及程序 Download PDF

Info

Publication number
CN1894703A
CN1894703A CNA200480037618XA CN200480037618A CN1894703A CN 1894703 A CN1894703 A CN 1894703A CN A200480037618X A CNA200480037618X A CN A200480037618XA CN 200480037618 A CN200480037618 A CN 200480037618A CN 1894703 A CN1894703 A CN 1894703A
Authority
CN
China
Prior art keywords
feature
feature extraction
extraction
extract
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA200480037618XA
Other languages
English (en)
Other versions
CN1894703B (zh
Inventor
御手洗裕辅
真继优和
森克彦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Publication of CN1894703A publication Critical patent/CN1894703A/zh
Application granted granted Critical
Publication of CN1894703B publication Critical patent/CN1894703B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/165Detection; Localisation; Normalisation using facial parts and geometric relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Geometry (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Stereo-Broadcasting Methods (AREA)
  • Debugging And Monitoring (AREA)
  • Document Processing Apparatus (AREA)

Abstract

在降低识别错误的可能性的同时,以低处理成本执行能针对输入模式的差异进行鲁棒识别的模式识别。在利用分层提取特征的分层特征提取处理器(12)识别来自数据输入单元(11)的输入数据的模式的模式识别设备中,提取结果分布分析器(13)对一次特征提取处理器(121)获得的至少一个特征提取结果的分布进行分析。根据该分析结果,二次特征提取处理器(122)执行预定二次特征提取。

Description

模式识别方法、设备以及程序
技术领域
本发明涉及一种通过分层地提取例如图像识别或语音识别中的特征来识别输入信号的模式的方法、设备和程序。
背景技术
存在通过分层地提取特征来识别输入信号的模式的技术。这种方法通过使用如下特征来提取高阶特征:该特征形成要提取的特征,并具有比要提取的特征的阶低的阶。因此,该方法的特点是针对识别模式的差异(variance)可以执行鲁棒(robust)的识别。然而,为了提高对模式差异的鲁棒性,需要增加要提取的特征类型的数量,这提高了处理成本。如果不增加要提取的特征类型的数量,则识别错误的概率升高。
为了解决上述问题,提出了下面的模式识别方法。首先,各级模式的特征向量按照向量分量离差的降序排列,以形成字典模式(dictionary pattern),特征向量由输入模式生成。然后,与高达N阶的高阶的字典模式进行匹配。根据该匹配结果,进行与低阶的匹配。这样,可以降低处理成本。
还提出了下面的模式识别字典形成设备和模式识别设备。首先,从输入模式中提取特征向量,根据与每个簇(cluster)的标准向量的匹配程度将特征向量划分为簇。然后,根据输入模式的分类的簇中的类别标准向量与特征向量之间的匹配程度,进行类别分类。因此,可以降低匹配处理的成本。
发明内容
然而,希望执行能对输入模式的差异进行鲁棒识别,而且在降低识别错误的概率的同时降低处理成本的模式识别。
为了解决上述问题,根据本发明,提供一种模式识别方法,其通过分层提取输入数据的特征来识别该输入数据的模式,该包括:第一特征提取步骤,用于提取第一层的特征;分析步骤,用于对所述第一特征提取步骤的特征提取结果的分布进行分析;以及第二特征提取步骤,用于根据在所述分析步骤中分析的所述分布来提取比所述第一层高的第二层的特征。
根据本发明的另一方面,提供一种模式识别设备,其通过分层提取输入数据的特征来识别该输入数据的模式,该模式识别设备包括:第一特征提取装置,用于提取第一层的特征;分析装置,用于对所述第一特征提取装置获得的特征提取结果的分布进行分析;以及第二特征提取装置,用于根据所述分析装置分析的所述分布来提取比所述第一层高的第二层的特征。
根据本发明的另一方面,提供一种模式识别程序,用于使计算机通过分层提取输入数据的特征来识别该输入数据的模式,该模式识别程序包括:第一特征提取步骤,用于提取第一层的特征;分析步骤,用于对所述第一特征提取步骤的特征提取结果的分布进行分析;以及第二特征提取步骤,用于根据在所述分析步骤中分析的所述分布来提取比所述第一层高的第二层的特征。
根据本发明的另一方面,提供一种模式识别方法,其通过分层提取输入数据的特征来识别该输入数据的模式,该模式识别方法包括:第一特征提取步骤,用于提取第一层的特征;以及第二特征提取步骤,用于根据所述第一层中的特征提取结果和所述第一层之外的层中的特征提取结果来提取比所述第一层高一层的第二层的特征。
根据本发明的另一方面,提供一种模式识别设备,用于通过分层提取输入数据的特征来识别该输入数据的模式,该模式识别设备包括:第一特征提取单元,用于提取第一层的特征;以及第二特征提取单元,用于根据所述第一层中的特征提取结果和所述第一层之外的层中的特征提取结果来提取比所述第一层高一层的第二层的特征。
根据本发明的另一方面,提供一种模式识别程序,用于使计算机通过分层提取输入数据的特征来识别该输入数据的模式,该模式识别程序包括:第一特征提取步骤,用于提取第一层的特征;以及第二特征提取步骤,用于根据所述第一层中的特征提取结果和所述第一层之外的层中的特征提取结果来提取比所述第一层高一层的第二层的特征。
根据下面结合附图所做的说明,本发明的其他特征和优点是显而易见的,在本发明的全部附图中,相同的附图标记表示相同或者类似的部分。
附图说明
包含在本说明书中且构成本说明书的一部分的附图示出了本发明的实施例,并与说明书一起用于解释本发明的原理。
图1A是示出根据第一实施例的模式识别设备的基本配置的示意图;
图1B是示出根据第一实施例的模式识别设备的基本配置的示意图;
图2是示出根据第一实施例的模式识别设备的功能配置的示意图;
图3是示出第一实施例中的处理流程的流程图;
图4是示出第一实施例中作为识别类别的面部图像的示意图;
图5是示出四种初始特征提取结果的示意图;
图6是示出位于存在要提取的局部特征的位置处的初始特征提取结果的示意图;
图7是示出基本卷积神经网络的配置的示意图;
图8是示出根据第二实施例的模式识别设备的功能配置的示意图;
图9A和9B是示出第二实施例中的处理流程的流程图;
图10是示出根据第三实施例的模式识别设备的功能配置的示意图;
图11A和11B是示出第三实施例中的处理流程的流程图;
图12是示出用于实现本发明的计算机的方框配置的示意图;
图13是根据第四实施例的分层结构的示意图;
图14A是用于解释根据第四实施例的综合处理的示意图;以及
图14B是用于解释根据第四实施例的综合处理的示意图。
具体实施方式
现在,根据附图详细说明本发明的优选实施例。
第一实施例
作为本发明的第一实施例,下面将说明识别输入的二维图像数据是否是某个特定类别的方法。
该实施例假定图4中的i至iv表示的、每个面部中心基本上位于输入图像中心的面部图像以及图4中的v表示的、不是面部图像的非面部图像作为识别类别。下面说明识别输入图像数据是这两种类别的前者还是后者的方法。
在该实施例中,说明对输入图像数据是否是面部图像的识别。然而,本发明的应用并不局限于这种图像。即,本发明还可以应用于其他图像模式,或者应用于输入数据是语音数据的情况。此外,为了简化说明,下面将说明对输入图像数据是否落入一个类别即面部内的识别。然而,本发明不仅可以应用于识别一个类别,而且可以应用于识别多个类别。
图1A和1B示出模式识别设备的基本配置。下面将参考图1A和1B说明该模式识别设备的概要。
图1A所示的数据输入单元11输入数据作为模式识别的对象。分层特征提取处理器12分层地从该输入数据中提取特征,并识别该输入数据的模式。分层特征提取处理器12包括:一次特征提取处理器121,用于执行一次特征提取处理;以及二次特征提取处理器122,用于执行二次特征提取处理。提取结果分布分析器13对一次特征提取处理器121提取的特征的分布进行分析。
在该模式识别设备中,数据输入单元11输入要识别的数据。分层特征提取处理器12对该输入数据执行分层特征提取处理。在该分层提取处理中,一次特征提取处理器121分层地从该输入数据中提取多个一次特征。然后,提取结果分布分析器13对一次特征提取处理器121提取的至少一种一次特征的分布进行分析。此外,根据该分析结果,二次特征提取处理器122提取二次特征。
图1B示出该模式识别设备的另一种基本配置。下面将参考图1B说明该模式识别设备的概要。
参考图1B,数据输入单元11输入数据作为模式识别对象。分层特征提取处理器12分层地从该输入数据中提取特征,并识别输入数据的模式。分层特征提取单元12包括:一次特征提取处理器121,用于执行一次特征提取处理;以及二次特征提取处理器122,用于执行二次特征提取处理。提取结果分布分析器13对一次特征提取处理器121提取的特征的分布进行分析。根据提取结果分布分析器13的分析结果,类别似然性(likelihood)计算器14计算每种二次特征的似然性。
在该模式识别设备中,数据输入单元11输入要识别的数据。分层特征提取处理器12对该输入数据执行分层特征提取处理。在该分层提取处理中,一次特征提取处理器121分层地从该输入数据中提取多个一次特征。然后,提取结果分布分析器13对一次特征提取处理器121提取的至少一种一次特征的分布进行分析。根据提取结果分布分析器13的分析结果,类别似然性计算器14计算二次特征提取处理器122提取的每种二次特征的似然性。二次特征提取处理器122提取属于如下类别的二次特征:该类别中的每个的所计算的似然性等于或者大于预定值。
图2示出根据该实施例的模式识别设备的功能配置。图3示出该实施例的处理流程。下面将参考图2和图3说明该实施例的处理。参考图2,实线箭头表示实际信号数据的流动,虚线箭头表示诸如操作指令的指令信号的流动,而不是指实际信号数据。在图8和图10中采用同样的表示方法(将在后面说明)。
首先,在步骤S301,图像输入单元21输入图像数据作为识别对象。尽管在该实施例中,该输入图像数据是灰度级图像,但是也可以采用RGB彩色图像。
在步骤S302,初始特征提取器22至少提取该输入图像的一个初始特征,例如,特定方向上的边缘。在步骤S303,利用初始特征提取器22提取的初始特征,局部特征提取器23提取局部特征,例如,具有特定长度的边缘线段和该边缘线段的端点。在步骤S304,利用局部特征提取器23提取的局部特征,部分特征提取器24提取部分特征,例如,眼和嘴。
在步骤S305,部分特征分布确定器25对该图像中由部分特征提取器24提取的部分特征的分布进行分析。在步骤S306,根据该分析结果,部分特征分布确定器25对面部提取器26发送启动指令,然后,打开(on)要启动的面部提取模块的标志。
面部提取器26是利用部分特征提取器24提取的部分特征来提取面部的处理器。面部提取器26由多个分别根据指定大小或方向提取面部的模块构成,只有收到启动指令的模块才执行面部提取。在步骤S307至S309,具有ON标志的面部提取模块顺序执行面部提取处理,然后,已执行了面部提取的各面部提取模块的标志关闭(off)。如果不再存在具有ON标志的面部提取模块,则面部提取处理终止。
在步骤S310和S311,检测结果输出单元27对来自面部提取模块的面部提取结果进行综合,判断该输入图像是面部图像还是非面部图像,然后输出判断结果。
下面详细说明位于初始特征提取器22之上和之后的每个处理器对从图像输入单元21输入的图像数据执行的处理。
初始特征提取器22从输入图像提取的初始特征是要被更高层的局部特征提取器23提取的特征的期望构成元素。在该实施例中,在纵向、横向、向右上角的倾斜方向以及向左上角的倾斜方向,利用差分滤波器,在输入图像的每个位置简单地进行滤波处理,从而提取四种特征,例如,垂直边缘、水平边缘以及倾斜边缘。尽管在该实施例中执行上述滤波处理,但是,还可以通过利用准备好的表示初始特征的模板图像,在输入图像的每个位置执行模板匹配,从而提取特征。
保持所提取的特征,作为诸如特征类型、图像中的位置、要提取的特征的似然性、以及特征检测水平的信息。在该实施例中,在该阶段,从输入图像(图4中的i)中提取由图5中的a至d表示的特征。参考图5,a、b、c和d表示垂直边缘、水平边缘、向右倾斜边缘以及向左倾斜边缘的提取结果。
在图5中,对该图像各位置进行滤波的结果是0的位置是灰色的,正值表示高亮度值,而负值表示低亮度值。即,在图5所示的图像中,在具有高亮度值的位置,提取方向对应于每个滤波器的类型的边缘。在具有低亮度值的位置,呈现方向与对应于每个滤波器的类型的方向相反的边缘。具有中间亮度值的灰色部分表示没有提取到边缘的位置。
由于差分滤波器用于提取特征,所以通过滤波获得的值的绝对值表示边缘的锐度(sharpness)。即,在输入图像的每个位置,方向对应于滤波器类型的亮度值的变化越大,则该位置的亮度值越大或者越小。
与初始特征提取器22提取的特征类似,利用由初始特征提取器22获得的初始特征提取结果,局部特征提取器23提取的局部特征是作为更高层的部分特征提取器24要提取的特征的期望构成元素。
在该实施例中,部分特征提取器24提取眼和嘴。因此,局部特征提取器23提取图6的1-a至4-d内的圆所包围的部分表示的特征。也就是说,局部特征提取器23提取两种特征,即,左端点和右端点,作为对应于例如眼角或者嘴的两端的边缘线段的端点。局部特征提取器23还提取两种具有特定长度,即,具有对应于眼睛上部或者嘴唇上部的特征以及对应于眼睛下部或者嘴唇下部的特征的边缘线段。
图6中的1-a至1-d表示在左端点(图6中左眼内眼角)位置处的初始特征提取结果。即,1-a、1-b、1-c和1-d分别表示垂直边缘、水平边缘、向右倾斜边缘以及向左倾斜边缘的提取结果。2-a、2-b、2-c以及2-d表示右端点(图6所示的嘴的端点)位置处的初始特征(分别是垂直边缘、水平边缘、向右倾斜边缘以及向左倾斜边缘)的提取结果。3-a、3-b、3-c和3-d表示眼角上部或者嘴唇上部(图6中的右眼上部)位置处的初始特征(分别是垂直边缘、水平边缘、向右倾斜边缘以及向左倾斜边缘)的提取结果。4-a、4-b、4-c以及4-d表示眼角下部或者嘴唇下部(图6中嘴唇下部)位置处的初始特征(分别是垂直边缘、水平边缘、向右倾斜边缘以及向左倾斜边缘)的提取结果。
在该实施例中,提取每个特征的方法如下。首先,准备对由初始特征提取器22提取的每个特征唯一的二维掩模(mask)。然后,在如图5中的a至d表示的特征提取结果的每个位置,利用对要提取的特征唯一的二维掩模进行滤波处理(卷积算法)。通过对各初始特征提取结果执行的滤波结果进行综合(integrating)来提取每个特征。
所准备的唯一的二维掩模与存在要提取的特征(例如,诸如图6中的左端点的特征)的位置处的初始特征提取结果的分布(图6中的1-a至1-d)相对应。即,这样设置该二维掩模,使得如果在存在要提取的特征的位置附近该初始特征提取结果分布是唯一的,则滤波获得的值大。
如下设置二维掩模。首先,仅给出多个测试模式,将该二维掩模的每个元素的值调整为如果给定的测试模式是要提取的特征,则滤波结果的值大。此外,将该二维掩模的每个要素的值调整为如果给定的测试图形不是要提取的特征,则滤波结果的值小。此外,还可以利用事先获得的知识来设置该二维掩模的每个要素的值。
与在初始特征提取器22中相同,保持利用上述处理提取的每个特征,作为诸如所提取的特征的类型、图像中的位置、要提取的特征的似然性、以及特征检测水平的信息。在该实施例中,对于四种特征,即两种端点以及具有两种特定长度的边缘线段中的每一种,利用提取特征的位置以及对该特征唯一的二维掩模,对每种初始特征进行滤波。对滤波结果进行综合并进行记录,作为该特征的似然性。
部分特征提取器24执行的处理与局部特征提取器23执行的处理类似;从由局部特征提取器23获得的多个局部特征提取结果中提取部分特征,作为下层特征提取结果。在该实施例中,要提取的部分特征也是所期望的、要由作为更高层的面部提取器26提取的特征,即,面部的构成元素。
在上述实施例中,部分特征提取器24提取例如眼和嘴。该提取处理与局部特征提取器23的提取方法相同;该特征只需由利用特定二维掩模进行滤波来提取。作为一种选择,还可以根据在局部特征提取器23获得的特征提取结果中,具有预定值或者大于预定值的似然性的特征是否具有特定的空间位置关系,来简单地提取眼和嘴。
保持如上所述提取的眼和嘴中的每一个,作为诸如所提取的特征的类型、图像中的位置、要提取的特征的似然性、以及特征量的信息。在该实施例中,在该图像的每个位置,对利用对眼和嘴唯一的二维掩模对局部特征提取结果执行滤波的结果进行综合,并进行保持,作为每个部分特征位置处的似然性。
部分特征分布确定器25对部分特征提取器24获得的特征提取结果进行简单分布分析。此外,根据该分析结果,部分特征分布确定器25对面部提取器26的一个或者多个预定面部提取模块发送启动指令。
与在从初始特征提取器22到部分特征提取器24执行的处理中不同,这里提及的分析提取启动指令要被送到的每个预定面部提取模块的必要条件。例如,在该实施例中,利用部分特征提取器24的处理,该分析判断该眼部是否是在输入图像的预定坐标附近提取的。该分析还判断经部分特征提取器24处理而获得的嘴提取结果的重心位置是否在预定坐标的附近。作为一种选择,该分析判断作为部分特征提取器24的处理结果的眼部的总似然性是否等于或者大于预定值。
通过预置与构成面部提取器26而且执行对应于多种差异的面部提取的模块相对应的条件,可以执行如上所述的这些分析。在此提到的差异指特征的变化,其是由例如旋转变换和大小变换的仿射(affine)变换所获得的特征变化,以及由例如对应于使面部转向侧面的情况的变换所获得的特征变化。例如,对与顺时针平面旋转差异(planar rotational variance)相对应的面部提取模块设置的一个必要条件是:嘴提取结果的重心不位于该图像中心的左下部,而且眼部提取结果的重心不位于嘴提取结果的重心的右上部。
执行如上所述的几种分析,然后,将启动指令送到满足该分析条件的预定面部提取模块。还可以在预定范围内,例如,在预期存在眼部的位置,分析重心和总似然性。还可以将两个或者更多个特征的总似然性进行比较。由于通过具有如上所述的简单必要条件的分析来选择特征提取模块,所以可以降低处理成本,而且还可以减少识别错误。
在面部提取器26内,只有从部分特征分布确定器25收到启动指令的预定面部提取模块才通过利用部分特征提取器24获得的眼部和嘴的提取结果,来执行与部分特征提取器24同样的处理。对应于特定差异的已准备的模块的例子是大小差异(图4所示的ii)的专用模块、平面旋转(图4所示的iii)产生的差异的专用模块、面部水平振动(图4所示的iv)产生的差异的专用模块、以及面部垂直振动产生的差异的专用模块。
在该实施例中,对对应于上述差异的每个模块准备特定的二维掩模,而且只有收到启动指令的模块才利用特定二维掩模进行滤波。该二维掩模是以与对局部特征提取器23说明的方式相同的方式设置的;该二维掩模这样设置:给出具有与一个模块相对应的特定差异的面部作为测试模式,使得该模块专用于该对应差异。
该面部提取是利用该图像中心附近的面部作为目标来执行的。因此,与到部分特征提取器24为止的特征提取不同,不需要对该图像上的每个位置进行滤波,而仅需要在该图像的面部提取范围内进行滤波。
根据与差异相对应的、收到启动指令并执行面部提取处理的模块所执行的滤波的结果,检测结果输出单元27进行最终输入图像类别分类。在该实施例中,检测结果输出单元27简单地判断每个被启动的面部提取模块的输出值是否超过对该模块设置的阈值。如果至少一个模块的输出值超过该阈值,则检测结果输出单元27判断为该输入图像是面部图像;否则,检测结果输出单元27判断为该输入图像是非面部图像。
该判断并不局限于上述方法。例如,还可以通过对被启动的模块的输出值进行综合来进行最终判断。更具体地说,通过抑制具有冲突差异(conflicting variance)的模块的输出,可以减少识别错误。例如,在对与逆时针平面旋转差异相对应的模块的输出值附加了预定权重后,可以从与顺时针平面旋转差异相对应的模块的输出值中减去与逆时针平面旋转差异相对应的模块的输出值,作为相对的差异类别。
此外,通过提高对应于类似差异的模块的输出,可以提高用于识别的阈值。因此,识别错误可以减少。例如,在对与大小略大于特定大小的面部相对应的模块的输出值附加了预定权重后,可以对与特定大小面部相对应的输出模块加上与大小略大于该特定大小的面部相对应的模块的输出值,此为相似差异类别。
可以对对应于上述相似类别的两个或者两个以上模块的输出值进行加权加运算,或者简单的算术平均运算,然后,将获得的值重新设置为对应于该类别之间的中间差异的虚拟特征提取模块的输出值。因此,可以以低处理成本实现高精度识别,而没有识别错误。
利用用于识别输入的二维图像数据是否是某个特定类别的方法作为例子,对上述第一实施例进行了说明,其中,采用面部中心基本上位于输入图像中心的面部图像和不是面部图像的非面部图像作为识别类别,识别该输入图像数据是否是这两种类别之一。
第二实施例
在第二实施例中,作为对上述第一实施例的变形,说明用于检测面部在输入的二维图像数据中的位置的方法。在该实施例中,下面将说明用于检测图像中的面部的处理。然而,与在第一实施例中相同,本发明的应用并不局限于检测图像中的面部的处理。即,本发明还可以应用于检测另一种图像模式,或者从输入的语音数据中检测预定模式的处理。此外,本发明还可以应用于检测多种类别的对象。
在该实施例中,作为一种带有对差异的鲁棒性、利用分层特征提取从二维图像数据中检测指定模式的方法,卷积神经网络(下面称为CNN)的基本配置被改变。图7示出基本的CNN配置。下面将参考图7说明CNN的基本处理。在图7中,左端作为输入端,从左端到右端执行处理。
在图7中,附图标记71表示对应于例如输入图像的亮度值的像素值分布。附图标记72、74、76和78表示特征检测层。这些层中的附图标记L7-21、L7-22、L7-23、L7-24、L7-41、L7-42、L7-43、L7-44、L7-61、L7-62以及L7-81表示特征检测单元(cell)平面。附图标记73、75和77表示特征综合层。这些层中的特征编号L7-31、L7-32、L7-33、L7-34、L7-51、L7-52、L7-53、L7-54、L7-71及L7-72表示特征综合单元平面。
在该CNN中,将两层,即特征检测层和特征综合层,组合为一组,而且以分层方式排列这些层。该特征检测层中的每个特征检测单元平面具有用于检测某种特定特征的特征检测神经元。在对应于特征检测神经元的位置的局部范围内,利用对每个特征检测单元平面唯一的权重分配,每个特征检测神经元连接到位于先前级的层的特征检测结果。例如,特征检测层74中的特征检测神经元连接到来自L7-31至L7-34的特征检测结果,特征检测层72中的特征检测神经元利用对每个特征检测单元平面(例如,L7-21)唯一的权重分配,连接到输入图像71。
该权重相当于用于提取边缘的差分滤波器,或者相当于在第一实施例中描述的用于提取特定特征的二维掩模。如在第一实施例中所述,可以利用事先获得的知识,也可以利用给出多个测试模式的学习,来设置该权重。还可以利用公知的神经网络学习方法,例如,利用反向传播方法的学习或者利用Hebb学习法则的自组织学习,来设置该权重。
利用预定权重,将每个特征检测神经元附加到作为连接目的地的特征单元平面的特征检测结果上。如果该神经元位于特征检测层72,则利用预定权重将其附加到输入图像的亮度值等上。此外,利用诸如双曲线切线函数的非线性函数,来变换该运算结果的值,然后,将获得的值用作特征检测神经元的输出值,从而检测特征。
例如,如果L7-21是用于检测垂直边缘的单元平面,则L7-21中的每个特征神经元对输入图像的亮度值进行相当于差分滤波器的加权加运算。这样,在输入图像上存在垂直边缘的位置,由L7-21中的特征检测神经元进行运算的运算结果的值升高,因此,这可以提高输出值。即,检测到特征。
这同样可以应用于其他特征检测单元平面;在每个特征检测单元平面中检测到特定特征的位置,特征检测神经元输出大的值。尽管通常利用如上所述的非线性变换计算该输出值,但是其计算方法并不局限于这种变换。
特征综合层(例如,73)上的每个特征综合单元平面(例如,L7-31)具有一个特征综合神经元,该神经元连接到作为先前级的层的特征检测层(例如,72)中的一个特征检测单元平面(例如,L7-21),而且在局部范围内连接到先前级上的特征检测结果,从而扩散(集中)特征检测结果。每个特征综合神经元基本上执行与上述特征检测神经元同样的算法。该特征综合神经元的特征是相当于特定二维掩模的权重分配是高斯滤波器或者低通滤波器。
利用如上所述的分层特征检测和综合处理,从初始特征中,CNN的网络结构逐步检测高阶特征,并最终对输入进行分类。通过利用上述处理检测输入图像中的高阶特征,可以执行特定图像检测。该CNN的特征在于,通过分层特征提取和利用特征综合层进行扩散,可以对差异具有鲁棒性地进行各种模式的识别。
下面将上述CNN作为基本分层特征提取处理配置,来说明该实施例。图8示出根据该实施例的处理器的配置。图9示出根据该实施例的处理流程。下面将参考图8和图9说明该实施例的处理。
参考图8,图像输入单元801、初始特征提取器802、局部特征提取器803以及部分特征提取器804分别与第一实施例的图像输入单元21、初始特征提取器22、局部特征提取器23以及部分特征提取器24类似。此外,步骤S901至S904的处理与图3的步骤S301至S304的处理相同。
在该实施例中,在图像输入单元801内使用RGB彩色图像,将通过转换该RGB彩色图像而获得的灰度级图像输入到下一层中的初始特征提取器802。此外,上述CNN执行的处理用于特征提取,每个特征提取器对在特征检测层中检测到的特征和在特征综合层中检测到的特征进行综合。局部特征提取器803和部分特征提取器804所提取的特征类型与第一实施例中的相似。此外,与在第一实施例中描述的设置唯一的二维掩模的方法相同,通过输入多个测试模式进行学习,来设置对每个用于检测特征的特征检测单元平面唯一的权重分配。
在该实施例中,要由初始特征提取器802提取的特征并不局限于上述特征。相反,当学习由局部特征提取器803检测到的特征时,采用反向传播方法,从而学习对用于检测局部特征的每个特征检测单元平面唯一的权重分配,并自动设置对用于检测初始特征的每个特征单元平面唯一的权重分配。这样,可以自动设置与输入图像71有关的权重分配,以便初始特征提取器802提取构成由局部特征提取器803检测的局部特征的、检测局部特征所需的初始特征。
在步骤S905,第一面部提取器805对部分特征提取器804获得的眼部和嘴提取结果执行的处理与上述特征提取方法相同,从而提取该图像中的面部。
如果第一面部提取器805的输出值超过预定阈值,则面部候选对象存在判断器806判断为存在该面部的候选对象(步骤S906)。然后,在Count(计数)中,面部候选对象存在判断器806设置面部候选对象的数量(步骤S907),顺序输出被发现具有该面部候选对象的面部候选对象存在位置的坐标,并对肤色区域提取器807和部分特征分布确定器808发出启动指令(步骤S908)。
当从面部候选对象存在判断器806收到启动指令时,在基于面部候选对象存在位置坐标的范围内,肤色区域提取器807从输入图像中提取肤色区域(步骤S909)。在基于面部候选对象存在位置坐标的范围内,部分特征分布确定器808确定部分特征提取结果的分布(步骤S910)。此外,与在第一实施例中相同,部分特征分布确定器808打开(on)要激活的面部提取模块的标志(步骤S911)。
该实施例的部分特征分布确定器808与第一实施例的部分特征分布确定器25的不同之处在于,部分特征分布确定器808不仅使用部分特征提取器804的特征提取结果,而且使用肤色区域提取器807的肤色区域提取结果。部分特征分布确定器808对这些特征提取结果进行简单的分布分析,而且该部分特征分布确定器808包括对应于多个差异的面部提取模块。部分特征分布确定器808还是对第二面部提取器809发送启动指令的处理器。请注意,该实施例中的一个面部提取模块对应于该CNN中的一个特征检测单元平面。
与在第一实施例中相同,第二面部提取器809使对应于各差异的面部提取模块执行面部提取。即,第二面部提取器809顺序使具有ON标志的各面部提取模块在面部候选对象存在位置坐标处执行面部提取,然后,关闭(off)执行了面部提取的面部提取模块的标志(标志S911至S914)。
与在第一实施例中不同,该实施例中的面部提取处理不仅利用部分特征提取器804获得的眼部和嘴特征提取结果,而且利用局部特征提取器803获得的对应于眼睛上部或者嘴唇上部的特征提取结果,以及肤色区域提取器807获得的肤色区域提取结果,来提取对应于特定差异的面部。
根据来自第二面部提取器809的面部提取结果,检测结果输出单元810输出表示该面部在该输入图像上的位置的结果。即,检测结果输出单元810对来自各模块的输出结果进行综合(步骤S914),并输出面部候选对象存在位置处的检测结果(步骤S915)。然后,流程循环到在下一个面部候选对象存在位置中的检测(步骤S917和S918)。
下面详细说明在该实施例中位于第一面部提取器805之上或之后的各处理器执行的处理。
第一面部提取器805执行的面部提取处理与局部特征提取器803和部分特征提取器804执行的特征提取处理相同。尽管第一实施例的面部提取器26具有多个对应于各差异的面部提取模块,但该面部提取仅由一个模块构成。此外,与在第一实施例中不同,在该实施例中检测面部在图像中的位置。因此,面部提取不仅在该图像中心的附近,而且在该图像的不同位置执行。
根据这样的学习,即通过该学习给出具有各种差异的面部(例如,具有如图4中的i至iv所示的各种差异的面部)作为测试数据,设置在提取中使用的、连接到部分特征提取器804获得的部分特征提取结果的每个面部检测神经元的唯一权重分配。该学习提高了将非面部部分看作面部的概率,即,降低了准确性。然而,利用单个模块可以提取具有各种差异的面部。通过利用如上所述的学习到的权重分配,该处理器检测各特征,然后,特征综合层综合该结果。
对于第一面部提取器805执行的面部提取处理的结果,面部候选对象存在判断器806判断输出等于或者大于预定阈值的部分。面部候选对象存在判断器806判断出在所判断的位置存在面部候选对象,并对肤色区域提取器807和部分特征分布确定器808发送启动指令,以在该候选对象存在的范围内进行处理。
从面部候选对象存在判断器806收到启动指令后,肤色区域提取器807提取面部候选对象存在范围附近的肤色区域。在该实施例中,在提取肤色区域的区域内,将RGB彩色输入图像转换为HSV色度制,而且仅提取特定色调(H)范围内的像素作为肤色区域。提取肤色区域的方法并不局限于这种方法,因此,还可以采用其他众所周知的方法。例如,还可以利用饱和度(S)或者亮度(V)来提取肤色区域。此外,尽管在该实施例中提取肤色区域,但是也可以提取头发区域等。
部分特征分布确定器808执行与第一实施例的部分特征分布确定器25相同的处理。在该实施例中,与肤色区域提取器807类似,部分特征分布确定器806从面部候选对象存在判断器806接收启动指令,然后,对面部候选对象存在的范围附近的预定特征提取结果的分布进行分析。根据该分析结果,部分特征分布确定器808对由对应于多个特定差异的面部提取模块构成的第二面部提取器809发送启动指令,从而选择预定面部提取模块,并在面部候选对象存在位置进行面部提取。
部分特征分布确定器808分析的特征提取结果是部分特征提取器804获得的眼部和嘴提取结果,以及肤色区域提取器807获得的肤色区域提取结果。该分析与第一实施例中的相同;如果存在面部,则每个形成第二面部提取器809且对应于一个差异的模块提取要满足的必要条件。
由于与在第一实施例中不同,该实施例采用肤色区域提取结果,所以下面说明对该结果的分析的几个例子。最简单的例子是分析提取的肤色区域的面积。还可以分析提取的肤色区域的高宽比,或者分析被发现具有面部候选对象的区域的上半部分与下半部分的肤色区域的重心之间的相对位置关系。
第一个例子用作与符合该面积的特定大小相对应的面部提取模块的一个必要条件。第二个例子是对应于面部的水平振动或者垂直振动的模块的一个必要条件。可以将第三个例子设置为对应于平面旋转该面部的模块的一个必要条件。还可以利用部分特征提取器804获得的部分特征提取结果,将从其上提取眼部的区域的面积与肤色区域的面积进行比较,将未从其上提取眼部的区域的面积与该肤色区域的面积进行比较,或者将未从其上提取眼部的区域的面积与非肤色区域的面积进行比较。
甚至还可以像在第一实施例中描述的那样,仅在特定区域内执行上述对面积等的分析。例如,在估计可能是头发位置的区域内,可以分析非肤色区域的面积。像在第一实施例中一样,将该分析与对眼部和嘴提取结果进行的分析相加,可以发出更精确的启动指令。
第二面部提取器809是与第一实施例的面部提取器26类似的处理器,包括多个对应于特定差异的面部提取模块。在该实施例中,与在第一实施例中不同,不仅利用部分特征提取器804获得的眼部和嘴提取结果,而且利用肤色区域提取器807获得的肤色区域提取结果、第一面部提取器805获得的具有各种差异的面部提取结果、以及局部特征提取器803提取的其他特征中对应于眼睛上部或者嘴唇上部的特征提取结果,在面部候选对象存在位置进行面部提取。
通过这样辅助利用例如作为相同等级的特征的同一层上的特征提取结果(在该实施例中是第一面部提取结果)、从外部插入分层特征提取的框架的特征提取结果(在该实施例中是肤色区域提取结果)、位于紧接在之前的层之前的层中的特征提取结果(在该实施例中是对应于眼睛上部或者嘴唇上部的特征提取结果)、以及位于后续级上的层中的特征提取结果(将在后面说明的第三实施例中解释),可以提高特征提取的准确性。尽管该处理增加了处理成本,但是可以将处理成本的增加最小化,这是因为只有从部分特征分布确定器808收到启动指令的模块才仅在面部候选对象存在的位置执行第二面部提取器809的特征提取处理。
检测结果输出单元810是与第一实施例的检测结果输出单元27类似的处理器。即,根据形成第二面部提取器809而且对应于多种差异的面部提取模块中,来自部分特征确定器808的启动指令所启动的各面部提取模块所进行的特征提取的结果,检测结果输出单元810确定该面部在图像上的位置,并输出确定结果。正如在第一实施例中描述的那样,通过对多个模块的输出进行综合,可以提高检测精度。
在如上所述的第二实施例中,说明了在输入二维图像数据的图像中检测某个特定对象的方法中,检测面部存在位置的例子。
第三实施例
本发明的第三实施例是第二实施例的变形。与在第二实施例中相同,该实施例执行用于检测面部在图像上的位置的处理。然而,该实施例还可以应用于其他图像模式或者语音数据。此外,该实施例还可以应用于检测多个类别的对象。
图10示出该实施例的处理器的配置。图11示出该实施例的处理流程。该实施例的基本处理配置与在第二实施例中描述的相同。下面将参考图10说明该实施例的处理。
图10所示的图像输入单元1001至肤色区域提取器1007内的各部件所执行的处理(步骤S1101至S1109)与第二实施例中的步骤S901至S909完全相同,因此,省略说明它们。
部分特征分布确定器1008也执行与第二实施例中的部分特征分布确定器808相同的处理。然而,部分特征分布确定器1008对第二面部提取器1009内对应于多个差异的面部提取模块发送启动指令,以根据特征提取结果分布的分析结果,在面部候选对象存在位置执行面部提取处理,而且还对由对应于多个差异的部分特征提取模块构成的第二部分特征提取器1011给出启动指令。即,根据面部候选对象存在位置坐标,部分特征分布确定器1008确定某个范围内的部分特征提取结果的分布(步骤S1110),然后,打开要启动的面部提取模块的标志(步骤S1111)。
第二部分特征提取器1011包括多个用于提取部分特征的、对应于特定差异的模块。在从部分特征分布确定器1008收到启动指令时,第二部分特征提取器1011内的模块仅重新提取面部候选对象存在位置所确定的特定位置上的部分特征。即,对应于具有ON标志的面部提取模块的部分特征提取模块在由面部候选对象存在位置坐标所确定的位置处执行部分特征提取处理(步骤S1113和S1114)。
第二面部提取器1009是基本上与第二实施例的第二面部提取器809相同的处理器。然而,如果第二部分特征提取器1011重新提取对应于被启动的面部提取模块的部分特征,则第二面部提取器1009利用部分特征提取器1004提取的特征进行面部提取。即,利用具有ON标志的面部提取模块,第二面部提取器1009在面部候选对象存在位置进行面部提取,然后,关闭执行了面部提取的面部提取模块的标志(步骤S1115和S1116)。
检测结果输出单元1010与第二实施例的检测结果输出单元810完全相同,步骤S1117至S1120也与第二实施例的步骤S915至S918完全相同,因此,省略说明它们。
下面说明该实施例的部分特征分布确定器1008、第二部分特征提取器1011以及第二面部提取器1009中的详细处理。
如上所述,在对部分特征提取结果的分布进行分析的处理中,部分特征分布确定器1008与第二实施例相同。在第二实施例中,向对应于多个差异进行面部提取的模块发送启动指令。然而,部分特征分布确定器1008还对第二部分特征提取器1011发出启动指令,第二部分特征提取器1011对应于被发送启动指令的面部提取模块的差异来提取部分特征。更具体地说,当向对应于例如顺时针平面旋转差异的面部提取模块发出启动指令时,部分特征分布确定器1008同时向对应于同一顺时针平面旋转差异的部分特征提取模块发出启动指令。
第二部分特征提取器1011包括多个对应于多个差异提取部分特征的模块。在该第二部分特征提取器1011中,启动与从部分特征分布确定器1008收到启动指令且执行对应于多种差异的面部提取的模块相对应的部分特征提取模块,以仅在由面部候选对象存在判断器1006获得的面部候选对象存在位置所确定的特定范围内提取部分特征。该特征提取方法与在第二实施例中描述的相同。
每个部分特征提取模块与形成第二面部提取器1009且对应于多种差异的每个面部提取模块基本对应。然而,这种对应不需要是一对一对应。例如,对应于整个面部的面部提取模块的部分特征提取模块可可被省略。在这种情况下,如果对整个面部的面部提取模块发出启动指令,则第二部分特征提取器1011不需要进行任何处理。
此外,一个部分特征提取模块还可以与多种面部提取模块对应。例如,对应于15°顺时针平面旋转差异的面部提取模块和对应于30°顺时针平面旋转差异的面部提取模块可以与仅执行包括这两种差异的提取的部分特征提取模块相关。
如上所述,引入了根据从较高层输出的特征提取结果来控制较低层的特征提取模块的操作的反馈机制。即,利用部分特征提取模块重新提取低阶特征,可以进一步提高特征提取的准确性,该部分特征提取模块对应于在第二面部提取中启动的对应于特定差异的面部提取模块。尽管该重新提取特征增加了处理成本,但是可以将处理成本的增加最小化,这是因为收到启动指令的模块仅在特定位置进行处理。
在该实施例中,该处理器仅执行对应于差异的眼部提取,而不进行嘴提取。为了进一步提高特征提取准确性,还可以执行对应于差异的嘴提取,还可以提取由部分特征提取器1004提取的特征之外的特征。
此外,在该特征提取中,通过利用部分特征提取结果,例如由部分特征提取器1004获得的眼部和嘴的部分特征提取结果、以及由第一面部提取器1005获得的第一面部提取结果、以及由局部特征提取器1003获得的局部特征提取结果,来进行眼部提取。正如在第二实施例中已经说明的那样,通过辅助利用同一层中的、作为同一级的特征的特征提取结果,以及作为更高层上的特征的更高层中的特征提取结果,可以提高特征提取处理的准确性。
第二面部提取器1009与第二实施例的第二面部提取器809执行的处理基本相同。与第二实施例的第二面部提取器809的不同之处在于,如果在第二部分特征提取器1011中,根据被启动的面部提取模块执行对应于差异的部分特征提取,则不利用部分特征提取器1004获得的部分特征提取结果,而利用在第二部分特征提取器1011中执行的对应于差异的该部分特征提取的结果,来进行面部提取。
在该实施例中,第二部分特征提取器1011仅执行眼部提取,因此,利用来自部分特征提取器1004的提取结果来进行嘴提取。如上结合第二部分特征提取器1011所说明的,例如,如果没有对应于用于整个面部的面部提取模块的部分特征提取模块,则在对用于整个面部的该面部提取模块发出启动指令时,该第二部分特征提取器1011不重新提取任何特征。
在与之类似的情况下,可以直接采用来自部分特征提取器1004的特征提取结果。在该实施例中,在关于被启动的面部提取模块执行对应于差异的部分特征提取时,不采用部分特征提取器1004获得的眼部提取结果。然而,为了进一步提高准确性,也可以辅助使用该特征提取结果。
在如上所述的作为第二实施例的变形的第三实施例中,描述了利用检测输入二维图像数据的图像中的某个特定对象的方法,来检测面部的位置的例子。
第四实施例
在本发明的第四实施例中,改变了分层结构的连接形式。
图13示出根据第四实施例的模式识别设备的分层结构。将参考图13说明模式识别方法的概要。数据输入单元131输入用于识别模式的数据。在图13中,输入数据基本上按从左侧到右侧的顺序处理。从低阶特征到高阶特征逐步提取特征,从而提取最终的高阶特征。
特征提取层132至少具有一个特征提取面133。该特征提取面133包括大量特征提取器,而且利用另一相连的特征提取面的提取结果来提取预定特征。位于一个特征提取面内的特征提取器具有相同的结构,而且提取同类特征。该特征提取器主要提取局部特征。利用位于一个特征提取面内的大量特征提取器,利用拓扑方法从输入数据中提取预定特征。
在正常特征提取面中提取的特征被用于在紧接着该正常特征提取面之后的特征提取层中进行特征提取。然而,如图13所示,由再用特征提取面133a提取的特征不仅可以用于位于紧接着面133a之后的层的特征提取,而且可以用于高阶特征提取层的特征提取。
非分层结构特征面133b输入以分层方式从输入数据中提取的特征之外的特征。例如,非分层结构特征面133b从输入数据传感器之外的传感器输入信息等作为特征。
层间再用特征提取面133c提取在同一层内的另一特征提取面133d中使用的特征。在本实施例中,利用先前在同一层内提取的特征进行特征提取。然而,在高阶层中进行了特征提取后,可以利用高阶层的提取结果,在低阶层进行特征提取。
利用上述处理,以低阶特征到高阶特征的顺序,从输入数据逐渐提取特征,从而最终执行希望的特征提取,以识别该输入数据模式。
图14A和14B是示出根据该实施例的结果综合处理的概要的示意图。特征提取面133与图13所示的相同。特征提取器14是参考图13描述的特征提取器。特征提取器14产生输出(对应于各位置的特征的似然性)Output(x)作为特征提取结果。
将参考图14A说明该结果综合处理的概要。每个特征提取器14a是激励(excitation)或抑制(repression)特征提取器。在每个特征提取器14c给出抑制的同时,每个特征提取器14b给出激励。这些特征提取器14在输入数据的相同位置提取不同特征。
由激励或抑制特征提取器14a提取的特征与由激励特征提取器14b提取的特征具有较高的相似性,而与由抑制特征提取器14c提取的特征具有较低的相似性。将激励特征提取器14b的输出Output(r)乘以预定权重α而获得的值与激励或抑制特征提取器14a的输出Output(q)相加。从输出Output(q)中减去抑制特征提取器14c的输出Output(p)乘以预定权重β所获得的值。这些综合处理使得可以以低处理成本减少识别错误。
将参考图14B说明结果综合处理的概要。虚拟特征提取面15包括大量虚拟特征提取器16。图14B中的特征提取器14e和14f是用于综合的特征提取器。虚拟特征提取器16是综合虚拟特征提取器。用于综合的特征提取器14e和14f所提取的特征是同一类特征,但是具有不同的差异水平(例如,大小)。
来自综合虚拟特征提取器16的输出Output(q)是用于综合的特征提取器14e和14f的输出Output(r)和Output(p)的平均值,或者是利用预定加权系数加权的输出Output(r)和Output(p)的和。该结果综合处理使得可以以低处理成本实现对输入模式的差异的强(strong)识别。
请注意,可以适当组合和实施上述实施例。
根据上述每个实施例,可以执行能对输入模式的差异进行鲁棒地识别的模式识别,而且可以在降低识别错误的概率的同时,降低处理成本。
在如上所述的实施例中,可以执行能对输入模式的差异进行强识别的模式识别,而且可以在降低识别错误的概率的同时,降低处理成本。
利用例如软件的其他实施例
可以实现本发明作为由多个装置构成的系统的一部分(例如,主计算机、接口装置、阅读器以及打印机),或者作为单个设备的一部分(例如,复印机或者传真设备)。
此外,本发明并不局限于实现上述实施例的设备和方法,而且不局限于通过组合在各实施例中描述的方法来实现的方法。即,本发明的范围还包括如下情况:将用于实现上述实施例的软件的程序代码送到上述系统或设备的计算机(或CPU或MPU),然后,该计算机通过根据该程序代码运行上述各种装置。
在这种情况下,该软件的程序代码本身实现上述实施例的功能,而且该程序代码本身和用于将该程序代码送到该计算机的装置,更具体地说,用于存储该程序代码的存储介质落入本发明的范围内。
作为用于存储该程序代码的存储介质,可以使用例如软(floppy)盘、硬盘、光盘、磁光盘、CD-ROM、磁带、非易失性存储卡或者ROM。
程序代码在如下情况下也落入本发明的范围:通过根据提供的程序代码控制各种装备,计算机实现上述实施例的功能;以及该程序代码与例如OS(操作系统)或者运行在该计算机上的另一个应用程序软件合作实现上述实施例。
此外,本发明的范围还包括如下情况:所提供的程序存储在计算机的功能扩充板的存储器内,或者存储在连接到该计算机的功能扩充单元的存储器内,然后,通过根据该程序代码的指令实现部分或全部实际处理,该功能扩充板或者功能扩充单元的CPU等实现上述实施例。
图12是示出实现本发明的信息处理设备的方框配置例子的示意图。如图12所示,在该信息处理设备中,CPU 1201、ROM 1202、RAM 1203、HD(硬盘)1204、CD 1205、KB(键盘)1206、CRT1207、摄像机1208以及网络接口(I/F)1209通过总线1210连接在一起,因此,它们可以互相通信。
通过从HD(硬盘)1204等读出处理程序(软件程序),然后,执行读出的程序,CPU 1201控制整个信息处理设备的操作。
ROM 1202存储程序以及该程序使用的各种数据。
例如,RAM 1203用作用于临时存储处理程序以及要处理的信息的工作区,以使CPU 1201执行各种处理。
HD 1204是作为大容量存储器的例子的装置,在执行各种处理时,它用于存储诸如模型数据的各种数据以及要传送到RAM1203的处理程序等。
CD(CD驱动器)1205读出存储在作为外部存储器的例子的CD(CD-R)内的数据,而且将数据写入该CD。
键盘1206是用户利用其对该信息处理设备输入例如各种指令的操作单元。
CRT 1207对用户显示各指导信息以及诸如字符信息和图像信息的各种信息。
摄像机1208检测要识别的图像,然后,输入该检测图像。
接口1209用于从网络加载信息,以及将信息发送到网络。
由于在不脱离本发明的精神和范围的情况下,可以实现本发明的许多明显不同的实施例,因此,显然,除了在所附权利要求书中限定之外,本发明不局限于其具体实施例。
优先权要求
该专利申请要求2003年12月16日提交的第2003-417973号日本专利申请的优先权,在此引用该专利申请供参考。

Claims (20)

1.一种模式识别方法,其通过分层提取输入数据的特征来识别该输入数据的模式,其特征在于,该模式识别方法包括:
第一特征提取步骤,用于提取第一层的特征;
分析步骤,用于对所述第一特征提取步骤的特征提取结果的分布进行分析;以及
第二特征提取步骤,用于根据在所述分析步骤中分析的所述分布来提取比所述第一层高的第二层的特征。
2.根据权利要求1所述的模式识别方法,其特征在于,在所述第二特征提取步骤中,根据所述分布来计算所述第二层的多个特征的似然性,并且提取所计算的似然性不低于预定值的特征作为对象。
3.根据权利要求1所述的模式识别方法,其特征在于,在所述第一或第二特征提取步骤中,提取通过对预定特征执行预定变换而获得的特征。
4.根据权利要求1所述的模式识别方法,其特征在于,还包括重新提取步骤,用于根据所述第二特征提取步骤的较高层的特征提取结果来重新提取较低层的特征。
5.根据权利要求1所述的模式识别方法,其特征在于,在所述分析步骤中,对多个特征提取结果中的每一个的分布进行分析,并且对分析结果之间的相对关系进行分析。
6.根据权利要求1所述的模式识别方法,其特征在于,在所述分析步骤中,对至少一个所述特征提取结果的特定范围内的分布进行分析。
7.根据权利要求1所述的模式识别方法,其特征在于,在所述分析步骤中,对该特征是否是在至少一个所述特征提取结果的分布的预定范围内提取的进行分析。
8.根据权利要求1所述的模式识别方法,其特征在于,在所述分析步骤中,对至少一个所述特征提取结果的分布的重心进行分析。
9.根据权利要求1所述的模式识别方法,其特征在于,在所述分析步骤中,对在至少一个所述特征提取结果的分布中提取到或未提取到特征的范围的大小进行分析。
10.根据权利要求1所述的模式识别方法,其特征在于,在所述分析步骤中,对至少一个所述特征提取结果的似然性或总的特征检测水平进行分析。
11.根据权利要求1所述的模式识别方法,其特征在于,关于包括在所述输入数据中的面部图像的存在/不存在,进行所述模式识别。
12.根据权利要求1所述的模式识别方法,其特征在于,关于包括在所述输入数据中的面部图像的位置,进行模式识别。
13.一种模式识别设备,其通过分层提取输入数据的特征来识别该输入数据的模式,其特征在于,该模式识别设备包括:
第一特征提取装置,用于提取第一层的特征;
分析装置,用于对所述第一特征提取装置获得的特征提取结果的分布进行分析;以及
第二特征提取装置,用于根据所述分析装置分析的所述分布来提取比所述第一层高的第二层的特征。
14.一种模式识别程序,用于使计算机通过分层提取输入数据的特征来识别该输入数据的模式,其特征在于,该模式识别程序包括:
第一特征提取步骤,用于提取第一层的特征;
分析步骤,用于对所述第一特征提取步骤的特征提取结果的分布进行分析;以及
第二特征提取步骤,用于根据在所述分析步骤中分析的所述分布来提取比所述第一层高的第二层的特征。
15.一种模式识别方法,其通过分层提取输入数据的特征来识别该输入数据的模式,其特征在于,该模式识别方法包括:
第一特征提取步骤,用于提取第一层的特征;以及
第二特征提取步骤,用于根据所述第一层中的特征提取结果和所述第一层之外的层中的特征提取结果来提取比所述第一层高一层的第二层的特征。
16.根据权利要求15所述的模式识别方法,其特征在于,所述第一层之外的层是比所述第一层低的层。
17.根据权利要求15所述的模式识别方法,其特征在于,所述第一层之外的层是所述第二层。
18.根据权利要求15所述的模式识别方法,其特征在于,还包括综合步骤,用于对同一层中的多个特征提取器的特征提取结果进行综合。
19.一种模式识别设备,用于通过分层提取输入数据的特征来识别该输入数据的模式,其特征在于,该模式识别设备包括:
第一特征提取单元,用于提取第一层的特征;以及
第二特征提取单元,用于根据所述第一层中的特征提取结果和所述第一层之外的层中的特征提取结果来提取比所述第一层高一层的第二层的特征。
20.一种模式识别程序,用于使计算机通过分层提取输入数据的特征来识别该输入数据的模式,其特征在于,该模式识别程序包括:
第一特征提取步骤,用于提取第一层的特征;以及
第二特征提取步骤,用于根据所述第一层中的特征提取结果和所述第一层之外的层中的特征提取结果来提取比所述第一层高一层的第二层的特征。
CN200480037618XA 2003-12-16 2004-12-16 模式识别方法和设备 Expired - Fee Related CN1894703B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP417973/2003 2003-12-16
JP2003417973 2003-12-16
PCT/JP2004/019277 WO2005059811A1 (en) 2003-12-16 2004-12-16 Pattern identification method, apparatus, and program

Publications (2)

Publication Number Publication Date
CN1894703A true CN1894703A (zh) 2007-01-10
CN1894703B CN1894703B (zh) 2011-04-20

Family

ID=34697088

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200480037618XA Expired - Fee Related CN1894703B (zh) 2003-12-16 2004-12-16 模式识别方法和设备

Country Status (6)

Country Link
US (1) US8209172B2 (zh)
EP (1) EP1697877B1 (zh)
CN (1) CN1894703B (zh)
AT (1) ATE443297T1 (zh)
DE (1) DE602004023228D1 (zh)
WO (1) WO2005059811A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101770759A (zh) * 2008-12-17 2010-07-07 香港应用科技研究院有限公司 基于亚像素的下采样的方法和装置
CN108205701A (zh) * 2016-12-20 2018-06-26 联发科技股份有限公司 一种执行卷积计算的系统及方法
CN109376649A (zh) * 2018-10-20 2019-02-22 张彦龙 一种从眼部灰度图像缩小似然图计算识别上下眼皮的方法
WO2020147308A1 (zh) * 2019-01-15 2020-07-23 南京人工智能高等研究院有限公司 对象识别方法、对象识别装置和电子设备

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7577297B2 (en) * 2002-12-16 2009-08-18 Canon Kabushiki Kaisha Pattern identification method, device thereof, and program thereof
EP3358501B1 (en) 2003-07-18 2020-01-01 Canon Kabushiki Kaisha Image processing device, imaging device, image processing method
JP4217664B2 (ja) * 2004-06-28 2009-02-04 キヤノン株式会社 画像処理方法、画像処理装置
JP5008269B2 (ja) * 2005-04-08 2012-08-22 キヤノン株式会社 情報処理装置、情報処理方法
JP4718952B2 (ja) * 2005-09-27 2011-07-06 富士フイルム株式会社 画像補正方法および画像補正システム
JP2008059197A (ja) * 2006-08-30 2008-03-13 Canon Inc 画像照合装置、画像照合方法、コンピュータプログラム及び記憶媒体
JP4309926B2 (ja) 2007-03-13 2009-08-05 アイシン精機株式会社 顔特徴点検出装置、顔特徴点検出方法及びプログラム
JP2009086749A (ja) * 2007-09-27 2009-04-23 Canon Inc パターン識別手法、識別用パラメータ学習方法、及び装置
JP5018404B2 (ja) * 2007-11-01 2012-09-05 ソニー株式会社 画像識別装置および画像識別方法、並びに、プログラム
JP4948379B2 (ja) * 2007-12-18 2012-06-06 キヤノン株式会社 パターン識別器生成方法、情報処理装置、プログラム及び記憶媒体
JP5055166B2 (ja) 2008-02-29 2012-10-24 キヤノン株式会社 眼の開閉度判定装置、方法及びプログラム、撮像装置
US20110093419A1 (en) * 2008-06-11 2011-04-21 Lei Huang Pattern identifying method, device, and program
US8331655B2 (en) * 2008-06-30 2012-12-11 Canon Kabushiki Kaisha Learning apparatus for pattern detector, learning method and computer-readable storage medium
US8326050B2 (en) * 2008-12-02 2012-12-04 Hong Kong Applied Science and Technology Research Institute Company Limited Method and apparatus for subpixel-based down-sampling
JP5538967B2 (ja) 2009-06-18 2014-07-02 キヤノン株式会社 情報処理装置、情報処理方法、プログラム
JP5336995B2 (ja) * 2009-10-19 2013-11-06 キヤノン株式会社 特徴点位置決め装置、画像認識装置、その処理方法及びプログラム
JP5554984B2 (ja) * 2009-12-24 2014-07-23 キヤノン株式会社 パターン認識方法およびパターン認識装置
JP5588165B2 (ja) * 2009-12-24 2014-09-10 キヤノン株式会社 画像処理装置、画像処理方法およびプログラム
JP2012038106A (ja) 2010-08-06 2012-02-23 Canon Inc 情報処理装置、情報処理方法、およびプログラム
JP5675214B2 (ja) 2010-08-18 2015-02-25 キヤノン株式会社 情報処理装置、情報処理方法およびプログラム
US8768944B2 (en) 2010-08-18 2014-07-01 Canon Kabushiki Kaisha Information processing apparatus, information processing method, and storage medium
JP5110235B1 (ja) * 2011-06-27 2012-12-26 コニカミノルタホールディングス株式会社 画像処理装置、画像処理方法、およびプログラム
JP5848551B2 (ja) 2011-08-26 2016-01-27 キヤノン株式会社 学習装置、学習装置の制御方法、検出装置、検出装置の制御方法、およびプログラム
JP5896661B2 (ja) 2011-09-14 2016-03-30 キヤノン株式会社 情報処理装置、情報処理装置の制御方法、およびプログラム
JP5886616B2 (ja) 2011-11-30 2016-03-16 キヤノン株式会社 物体検出装置、物体検出装置の制御方法、およびプログラム
JP5806606B2 (ja) 2011-12-01 2015-11-10 キヤノン株式会社 情報処理装置、情報処理方法
JP5865043B2 (ja) 2011-12-06 2016-02-17 キヤノン株式会社 情報処理装置、情報処理方法
US20150032449A1 (en) * 2013-07-26 2015-01-29 Nuance Communications, Inc. Method and Apparatus for Using Convolutional Neural Networks in Speech Recognition
US9141872B2 (en) 2013-09-11 2015-09-22 Digitalglobe, Inc. Automated and scalable object and feature extraction from imagery
JP6369053B2 (ja) * 2014-02-28 2018-08-08 日本電気株式会社 マッチング装置、マッチング方法及びプログラム
JP6375920B2 (ja) 2014-12-11 2018-08-22 富士通株式会社 ベッド領域抽出方法、ベッド領域抽出装置及びベッド領域抽出プログラム
JP6208837B1 (ja) * 2016-10-12 2017-10-04 株式会社エイチアイ ユーザインタフェースを制御する方法、プログラム及び装置
CN110494890B (zh) * 2017-05-24 2023-03-10 赫尔实验室有限公司 卷积神经网络的迁移学习的系统、计算机实现方法、介质
CN109426776A (zh) 2017-08-25 2019-03-05 微软技术许可有限责任公司 基于深度神经网络的对象检测
CN109523994A (zh) * 2018-11-13 2019-03-26 四川大学 一种基于胶囊神经网络的多任务语音分类方法
US10372573B1 (en) * 2019-01-28 2019-08-06 StradVision, Inc. Method and device for generating test patterns and selecting optimized test patterns among the test patterns in order to verify integrity of convolution operations to enhance fault tolerance and fluctuation robustness in extreme situations

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE4028191A1 (de) * 1990-09-05 1992-03-12 Philips Patentverwaltung Schaltungsanordnung zum erkennen eines menschlichen gesichtes
JP4039708B2 (ja) * 1997-02-14 2008-01-30 ヒューレット・パッカード・カンパニー パターン認識方法およびパターン認識装置
CN1128423C (zh) * 1999-04-21 2003-11-19 中国科学院自动化研究所 基于纹理分析的字体和笔迹识别方法
US7054850B2 (en) * 2000-06-16 2006-05-30 Canon Kabushiki Kaisha Apparatus and method for detecting or recognizing pattern by employing a plurality of feature detecting elements
JP2002358523A (ja) * 2001-05-31 2002-12-13 Canon Inc パターン認識処理装置及びその方法、画像入力装置
JP4846924B2 (ja) * 2001-05-31 2011-12-28 キヤノン株式会社 パターン認識装置
JP4553526B2 (ja) 2001-08-15 2010-09-29 セコム株式会社 個人照合装置
EP3358501B1 (en) 2003-07-18 2020-01-01 Canon Kabushiki Kaisha Image processing device, imaging device, image processing method

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101770759A (zh) * 2008-12-17 2010-07-07 香港应用科技研究院有限公司 基于亚像素的下采样的方法和装置
CN108205701A (zh) * 2016-12-20 2018-06-26 联发科技股份有限公司 一种执行卷积计算的系统及方法
TWI639119B (zh) 2016-12-20 2018-10-21 聯發科技股份有限公司 執行卷積計算的系統及方法
US10394929B2 (en) 2016-12-20 2019-08-27 Mediatek, Inc. Adaptive execution engine for convolution computing systems
CN108205701B (zh) * 2016-12-20 2021-12-28 联发科技股份有限公司 一种执行卷积计算的系统及方法
CN109376649A (zh) * 2018-10-20 2019-02-22 张彦龙 一种从眼部灰度图像缩小似然图计算识别上下眼皮的方法
WO2020147308A1 (zh) * 2019-01-15 2020-07-23 南京人工智能高等研究院有限公司 对象识别方法、对象识别装置和电子设备

Also Published As

Publication number Publication date
CN1894703B (zh) 2011-04-20
EP1697877B1 (en) 2009-09-16
EP1697877A1 (en) 2006-09-06
ATE443297T1 (de) 2009-10-15
DE602004023228D1 (de) 2009-10-29
US8209172B2 (en) 2012-06-26
WO2005059811A1 (en) 2005-06-30
US20060074653A1 (en) 2006-04-06

Similar Documents

Publication Publication Date Title
CN1894703A (zh) 模式识别方法、设备以及程序
CN1218936A (zh) 手势识别装置
CN111401372B (zh) 一种扫描文档图文信息提取与鉴别的方法
CN1977286A (zh) 对象识别方法及其设备
CN1738426A (zh) 一种视频运动目标分割与跟踪方法
CN1174344C (zh) 数字摄像机图像中字符定位的方法及装置
CN1901672A (zh) 照相机系统、信息处理装置及方法
CN1828632A (zh) 目标检测装置、学习装置、目标检测系统及目标检测方法
CN1975759A (zh) 一种基于结构主元分析的人脸识别方法
CN1190205A (zh) 表意字符的递增输入方法
CN1924897A (zh) 图像处理装置和方法以及程序
WO2006082979A1 (ja) 画像処理装置および画像処理方法
CN101055620A (zh) 形状比较装置和方法
CN1932847A (zh) 复杂背景下彩色图像人脸检测的方法
CN1801181A (zh) 人脸与车牌自动识别机器人
CN1746901A (zh) 肺癌早期细胞涂片彩色图像信息的计算机智能化处理的方法及其处理设备
CN1162798C (zh) 基于多类支持向量机的中医舌色、苔色、舌苔厚度分析方法
CN112215847B (zh) 基于对抗学习多尺度特征的重叠染色体自动分割方法
CN1960431A (zh) 图像处理装置、方法及其程序和存储该程序的存储介质
CN1091905C (zh) 文字辨识系统数据库的组建方法
CN1973757A (zh) 基于舌象特征的病证计算机分析系统
CN1282943C (zh) 图像处理方法及装置
Chaabane et al. Color image segmentation using automatic thresholding and the fuzzy C-means techniques
CN1781122A (zh) 用于搜索被认为是面部图像的区域的方法、系统和程序
CN112650866A (zh) 一种基于图像语义深度学习的餐饮健康分析方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20110420

Termination date: 20181216