CN101937268A

CN101937268A - 基于视觉唇形识别的设备控制

Info

Publication number: CN101937268A
Application number: CN2010102133955A
Authority: CN
Inventors: 青山一美; 佐部浩太郎; 伊藤真人
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2009-06-30
Filing date: 2010-06-23
Publication date: 2011-01-05
Also published as: US20100332229A1

Abstract

本申请涉及基于视觉唇形识别的设备控制。提供了一种信息处理设备，包括：图像获取单元，用于获取图像数据帧的时间序列；检测单元，用于从图像数据的每一帧检测嘴唇区域和嘴唇图像；识别单元，用于根据所检测的嘴唇区域的嘴唇图像来识别话语；以及控制器，用于根据通过识别单元识别的话语来控制信息处理设备的操作。

Description

基于视觉唇形识别的设备控制

相关申请的交叉引用

根据美国专利法第35条119款，本申请要求于2009年6月30日提交的日本专利申请No.2009-154924以及于2009年6月30日提交的日本专利申请No.2009-154923的优先权，其全部内容通过引用合并于此。

技术领域

本发明涉及信息处理设备、信息处理方法和程序，尤其涉及能够基于通过对说话者成像而获得的活动图像来识别说话内容，即能够实现唇读技术的信息处理设备、信息处理方法和程序。

背景技术

对以下技术(在下文中称为唇读技术)的研究从二十世纪80年代末期开始已经存在：在活动图像中通过使用图像识别过程来检测作为对象的说话者的嘴唇区域的动作，并基于检测结果来识别说话者的说话内容。

与用于基于语音来识别说话内容的语音识别技术相比，基于这种图像识别过程的唇读技术具有以下优点，该技术不受环境噪声的影响，并可以对多个对象同时发声的情况进行响应。

但是，和语音识别技术相比，在当前状态下的唇读技术还不能获得针对未指明的说话者的高的识别能力。因此，目前以视听语音识别(AVSR)的形式来研究唇读技术，在视听语音识别中，唇读技术在嘈杂环境中为语音识别技术起补充的作用。换句话说，利用AVSR，基于语音和唇形的变化来推断说话内容。

在相关技术中存在各种用于从嘴唇区域的图像中提取唇形特征量的方法。

例如，在Proceedings of the IEEE，Vol.91，No.9，September，2003中由G.Potamianos等人发表的题为“Recent Advances in the Automatic Recognition of Audiovisual Speech”的文章中：公开了通过识别嘴唇位置来使用几何信息如嘴唇的纵横比的方法，通过对块形图像执行离散傅里叶变换过程来进行图像的时间序列信号建模的方法，对图像执行块的离散余弦变换过程以便将从该过程的结果中获得的特征量分类为多个口形中的任何一个的方法，等等。

在Technical Report of the Institute of Television Engineers of Japan，Vol.13，No.44，pp.7-12，1989中由K.Mase和A.Pentalnd发表的题为“Lip-reading by Optical Flow”的文章中：公开了裁剪嘴唇区域的图像以及使用光流的方法。在National Conference of the Forum on Information Technology in 2002，pp.203-204中由Ishikawa等人发表的题为“Audio-visual Large Vocabulary Continuous Speech Recognition based on Feature Integration”的文章中：公开了经历主分量分析过程的图像被制作成低维图像以便用作特征量的方法。

此外，存在其它方法，包括：通过将发光带附着于说话者的嘴上来检测具有标记的唇形以及通过利用傅里叶描述子表示唇形来指明音素的方法(例如，参考日本未经审查的专利申请公布No.2008-146268)，通过测量嘴唇区域的肌电位来指明元音的方法(例如，参考日本未经审查的专利申请公布No.2008-233438)等。

此外，在Proceedings of the IEEE，Vol.91，No.9，September，2003中由G.Potamianos等人发表的题为“Recent Advances in the Automatic Recognition of Audiovisual Speech”的文章中、在日本未经审查的专利申请公布No.2008-233438中、在日本未经审查的专利申请公布No.2008-310382等中包括：通过将唇形分成几种类型来识别说话的方法(例如，参考在Proceedings of the IEEE，Vol.91，No.9，September，2003中由G.Potamianos等人发表的题为“Recent Advances in the Automatic Recognition of Audiovisual Speech”的文章，日本未经审查的专利申请公布No.2008-233438以及日本未经审查的专利申请公布No.2008-310382)。

发明内容

如上所述，在相关技术中，唇形的特征量通过各种方法来获得，但是问题在于，在特征量空间中难以根据唇形来进行分离，另外，个体之间嘴唇区域的差异非常大，并且根据未指明的说话者来识别说话是一种挑战。

此外，在考虑实际唇读技术时，不认为以上提及的使用标记和测量肌电位的方法是合适的。

此外，通过将唇形分成几种类型来识别说话的方法仅对发出元音的嘴唇状态和嘴唇的闭合状态进行分类，并不能对话语进行区分和识别，例如具有相同元音和不同辅音的“hanashi”和“tawashi”。

本发明考虑以上情形，并且希望在使用活动图像的唇读技术中提供针对来自未指明的说话者的说话内容的高度精确的识别性能。

具体来说，本发明涉及信息处理设备，包括：图像获取部，用于获取图像数据帧的时间序列；检测单元，用于从图像数据的每一帧检测嘴唇区域和嘴唇图像；识别单元，用于根据所检测的嘴唇区域的嘴唇图像来识别话语；以及控制器，用于根据通过识别单元识别的话语来控制信息处理设备的操作。

信息处理设备可以是数字静态照相机。在这种情况下，图像获取单元是数字静态照相机的成像器件，控制器在识别单元识别预定话语时命令数字静态照相机的成像器件捕捉静止图像。

信息处理设备还可以包括脸部区域检测单元，用于在图像数据帧序列中检测多张脸，识别单元根据所存储的脸部识别数据来从多张脸中识别特定的脸，并根据所检测的该特定脸的嘴唇区域的嘴唇图像来识别话语。

信息处理设备还可以包括脸部区域检测单元，用于在图像数据帧序列中检测多张脸，识别单元根据所检测的多张脸中的任何一张脸的嘴唇区域的嘴唇图像来识别话语。

信息处理设备还可以包括脸部区域检测单元，用于在图像数据帧序列中检测多张脸，识别单元根据所检测的多张脸的子集的嘴唇区域的嘴唇图像来识别话语。

信息处理设备还可以包括登记单元，在通过识别单元识别话语时对使得控制器控制信息处理设备的操作的话语进行登记。

信息处理设备还可以包括存储器，用于存储多个视位，每个视位与特定音素相关联，其中识别单元被配置成通过将检测的嘴唇区域的嘴唇图像与存储在存储器中的多个视位进行比较来识别话语。

信息处理设备还可以包括学习功能部，该学习功能部包括：图像分离单元，配置成接收带有语音的说话活动图像，将该带有语音的说话活动图像分离成说话活动图像和说话语音，并输出该说话活动图像和说话语音；脸部区域检测单元，配置成从图像分离单元接收说话活动图像，将说话活动图像拆分成帧，从每一帧检测脸部区域，并输出说话活动图像的一帧以及所检测的脸部区域的位置信息；嘴唇区域检测单元，配置成从脸部区域检测单元接收说话活动图像的一帧以及所检测的脸部区域的位置信息，从这一帧的脸部区域检测嘴唇区域，并输出说话活动图像的一帧以及嘴唇区域的位置信息；嘴唇图像生成单元，配置成接收来自嘴唇区域检测单元的嘴唇区域的位置信息以及说话活动图像的一帧，对说话活动图像的所述一帧执行旋转校正，生成嘴唇图像，并将嘴唇图像输出到视位标签添加单元；音素标签分配单元，配置成从图像分离单元接收说话语音，将指示音素的音素标签分配给说话语音，并输出该标签；视位标签转换单元，配置成从音素标签分配单元接收标签，将分配给用于学习的说话语音的音素标签转换成指示发声期间的唇形的视位标签，并输出该视位标签；视位标签添加单元，配置成接收从嘴唇图像生成单元输出的嘴唇图像以及从视位标签转换单元输出的视位标签，将视位标签添加到嘴唇图像，并输出添加有视位标签的嘴唇图像；学习样本存储单元，配置成从视位标签添加单元接收并存储添加有视位标签的嘴唇图像，其中识别单元被配置成通过将从每个图像数据帧检测到的嘴唇区域的位置与通过学习样本存储单元存储的数据进行比较来识别话语。

附图说明

图1是示出了本发明所应用的说话识别器件的组成例子的框图；

图2A到图2C是示出了脸部图像、嘴唇区域和嘴唇图像的例子的图；

图3是示出了用于将音素标签转换成视位标签的转换表的例子的图；

图4是示出了学习样本的例子的图；

图5是示出了时间序列特征量的例子的图；

图6是说明说话识别过程的流程图；

图7是说明学习过程的流程图；

图8是说明处理用于学习的说话活动图像的流程图；

图9是说明处理用于学习的说话语音的流程图；

图10是说明AdaBoost ECOC学习过程的流程图；

图11是说明二进制分类的弱分类器的学习过程的流程图；

图12是说明登记过程的流程图；

图13是说明K维得分向量计算过程的流程图；

图14是说明识别过程的流程图；

图15是示出了用于登记的说话话语的例子的图；

图16是示出了识别能力的图；

图17是示出了本发明所应用的数字静态照相机的组成的例子的框图；

图18是示出了自动快门控制单元的组成的例子的框图；

图19是说明自动快门登记过程的流程图；

图20是说明自动快门执行过程的流程图；以及

图21是示出了计算机的组成的例子的图。

具体实施方式

下面将结合附图对用于执行本发明的示例性实施例(以下称为实施例)进行详细描述。此外将按以下顺序提供描述。

1.第一实施例

2.第二实施例

1.第一实施例

说话识别器件的组成例子

图1是示出了第一实施例的说话识别器件10的组成例子的图。说话识别器件10根据通过对作为对象的说话者进行视频捕捉而获得的活动图像来识别说话者的说话内容。

说话识别器件10包括：学习系统11，用于执行学习过程；登记系统12，用于实现登记过程；以及识别系统13，用于实现识别过程。

学习系统11包括：图像-语音分离单元21、脸部区域检测单元22、嘴唇区域检测单元23、嘴唇图像生成单元24、音素标签分配单元25、音素词典26、视位标签转换单元27、视位标签添加单元28、学习样本存储单元29、视位分类器学习单元30以及视位分类器31。

登记系统12包括：视位分类器31、脸部区域检测单元41、嘴唇区域检测单元42、嘴唇图像生成单元43、说话时期检测单元44、时间序列特征量生成单元45、时间序列特征量学习单元46以及说话识别器47。

识别系统13包括：视位分类器31、脸部区域检测单元41、嘴唇区域检测单元42、嘴唇图像生成单元43、说话时期检测单元44、时间序列特征量生成单元45以及说话识别器47。

换句话说，视位分类器31以重叠方式属于学习系统11、登记系统12和识别系统13，并且通过从登记系统12中排除时间序列特征量学习单元46而设置的系统是识别系统13。

图像-语音分离单元21接收通过对说任意话语的说话者进行视频捕捉而获得的带有语音的活动图像的输入(以下称为用于学习的带有语音的说话活动图像)，并将输入的图像分离成用于学习的说话活动图像和用于学习的说话语音。分离出的用于学习的说话活动图像被输入到脸部区域检测单元22，并且分离出的用于学习的说话语音被输入到音素标签分配单元25。

此外，可以通过用于学习的视频捕捉来准备用于学习的带有语音的说话活动图像，并例如可以使用内容，如电视节目等。

脸部区域检测单元22将用于学习的说话活动图像拆分成帧，检测每帧中包括人脸的脸部区域，如图2A所示，并将每帧的脸部区域的位置信息连同用于学习的说话活动图像输出到嘴唇区域检测单元23。

嘴唇区域检测单元23从用于学习的说话活动图像的每帧的脸部区域中检测包括嘴唇处嘴的拐角的边缘点的嘴唇区域，如图2B所示，并将每帧的嘴唇区域的位置信息连同用于学习的说话活动图像输出到嘴唇图像生成单元24。

此外，对于用来检测脸部区域和嘴唇区域的方法，可以应用任何现有技术(例如在日本未经审查的专利申请公布No.2005-284348、日本未经审查的专利申请公布No.2009-49489等中公开的技术)。

嘴唇图像生成单元24对用于学习的说话活动图像的每一帧适当执行旋转校正，使得连接嘴唇处嘴的拐角的边缘点的线是水平的。此外嘴唇图像生成单元24在旋转校正之后从每一帧提取嘴唇区域，并通过将所提取的嘴唇区域调整到预先确定的图像尺寸(例如32×32像素)来生成嘴唇图像，如图2C所示。以该方式生成的用于每一帧的嘴唇图像被提供给视位标签添加单元28。

音素标签分配单元25根据音素词典26为用于学习的说话语音分配指示音素的音素标签，并将音素标签输出到视位标签转换单元27。对于分配音素标签的方法，可以应用语音识别研究领域的方法(称为自动音素标记)。

视位标签转换单元27将分配给用于学习的说话语音的音素标签转换成指示发声过程中的唇形的视位标签，并将转换的标签输出到视位标签添加单元28。此外，预先准备的转换表用于转换。

图3示出了用于将音素标签转换成视位标签的转换表的例子。当使用图中的转换表时，分成40种的音素标签被转换成分成19种的视位标签。例如，音素标签[a]和[a：]被转换成视位标签[a]。另外，例如，音素标签[by]、[my]和[py]被转换成视位标签[py]。此外，转换表并不限于图3中所示的一种，可以使用任何转换表。

视位标签添加单元28将从视位标签转换单元27输入的分配给说话语音的视位标签添加到从嘴唇图像生成单元24输入的用于学习的说话活动图像的每一帧的嘴唇图像，并将添加有视位标签的嘴唇图像输出到学习样本存储单元29。

学习样本存储单元29存储多个带有添加的视位标签的嘴唇图像(以下称为带有视位标签的嘴唇图像)作为学习样本。

更具体地说，如图4所示，M个学习样本(xi，yk)处于这样的状态：对应于视位标签的分类标签yk(k＝1，2，...，K)被分配给M张嘴唇图像xi(i＝1，2，...，M)。此外，在该情况下，分类标签的种类的数量K为19。

视位分类器学习单元30从存储在学习样本存储单元29中的作为多个学习样本的带有视位标签的嘴唇图像获得图像特征量，通过AdaBoostECOC来学习多个弱分类器，并生成由多个弱分类器形成的视位分类器31。

作为嘴唇图像的图像特征量，例如，可以使用本发明的发明者建议的像素差特征(PixDif特征)。

此外，在由Sabe和Hidai在Proceedings of the 10th Symposium on Sensing via Image Information，pp.547-552，2004中发表的“Learning of a Real-time Arbitrary Posture and Face Detector using Pixel Difference Features”、日本未经审查的专利申请公布No.2005-157679等中公开了PixDif特征(像素差特征)。

像素差特征可以通过计算图像(在这种情况下为嘴唇图像)上的两个像素的像素值(亮度值)I1和I2的差(I1-I2)来获得。在对应于两个像素的每种组合的二进制分类的弱分类器h(x)中，如以下示出的公式(1)所示，通过像素差特征I1-I2和阈值Th来确定真(+1)或假(-1)。

h(x)＝-1，如果I1-I2≤Th

h(x)＝+1，如果I1-I2＞Th ...(1)

例如，当嘴唇图像的尺寸是32×32像素时，可以获得一组1024×1023像素的像素差特征。多组两个像素的那些组合以及阈值Th是每个二进制分类的弱分类器的参数，这些参数中的最佳的一个通过推进(boosting)学习来选择。

视位分类器31在由说话时期检测单元44通知的说话时期过程中计算对应于从嘴唇图像生成单元43输入的嘴唇图像的K维得分向量，并将结果输出到时间序列特征量生成单元45。

这里，K维得分向量是指示输入嘴唇图像对应于K(在该情况下K＝19)种视位中的哪一种的索引，且由表示与K种的每个视位对应的概率的K维得分形成。

属于登记系统12和识别系统13的脸部区域检测单元41、嘴唇区域检测单元42以及嘴唇图像生成单元43与上述属于学习系统11的脸部区域检测单元22、嘴唇区域检测单元23以及嘴唇图像生成单元24相同。

此外，向登记系统12输入通过对已经确定的说话内容(用于登记的说话话语)和通过对说出该内容的说话者进行视频捕捉而产生的活动图像(以下称为用于登记的说话活动图像)进行组合而获得的多个登记数据。

此外，向识别系统13输入通过对说出作为要被识别的对象的说话内容的说话者进行视频捕捉而产生的活动图像(以下称为用于识别的说话活动图像)。

换句话说，在登记过程中，脸部区域检测单元41将用于登记的说话活动图像拆分成帧，检测每一帧的脸部区域，并将每一帧中的脸部区域的位置信息连同用于登记的说话活动图像输出到嘴唇区域检测单元42。

嘴唇区域检测单元42从用于登记的说话活动图像的每一帧中的脸部区域中检测嘴唇区域，并将每一帧中的嘴唇区域的位置信息连同用于登记的说话活动图像输出到嘴唇图像生成单元43。

嘴唇图像生成单元43在对用于登记的说话活动图像的每一帧适当执行旋转校正之后从每一帧提取嘴唇区域，通过调整大小来生成嘴唇图像，并将该图像输出到视位分类器31和说话时期检测单元44。

此外，在识别过程中，脸部区域检测单元41将用于识别的说话活动图像(说话者的说话内容不清楚的活动图像)拆分成帧，检测每一帧的脸部区域，并将每一帧的脸部区域的位置信息连同用于识别的说话活动图像输出到嘴唇区域检测单元42。

嘴唇区域检测单元42从用于识别的说话活动图像的每一帧中的脸部区域检测嘴唇区域，并将每一帧中的嘴唇区域的位置信息连同用于识别的说话活动图像输出到嘴唇图像生成单元43。

嘴唇图像生成单元43在对用于识别的说话活动图像的每一帧适当执行旋转校正之后从每一帧提取嘴唇区域，通过调整大小来生成嘴唇图像，并将该图像输出到视位分类器31和说话时期检测单元44。

说话时期检测单元44基于从嘴唇图像生成单元43输入的用于识别的说话活动图像和用于登记的说话活动图像的每一帧中的嘴唇图像来指明说话者进行说话的时期(以下称为说话时期)，并通知视位分类器31和时间序列特征量生成单元45每一帧中的嘴唇图像是否对应于说话时期。

时间序列特征量生成单元45在由说话时期检测单元44通知的说话时间过程中通过以时间序列来安排从视位分类器31输入的K维得分向量来生成时间序列特征量。

图5示出了对应于说话者使得说话“引起注意”时的说话时期的时间序列特征量。换句话说，如果说话时期是一秒且帧速率为60帧/秒，则生成包括60K得分的时间序列特征量。所生成的时间序列特征量在登记过程中被输出到时间序列特征量学习单元46，并在识别过程中被输出到说话识别器47。

时间序列特征量学习单元46通过将特征量与在登记过程中输入的用于登记的说话话语(用于登记的说话活动图像中的说话者的说话内容)进行关联、使用隐马尔可夫模型(HMM)来针对从时间序列特征量生成单元45输入的时间序列特征量进行建模。此外，建模技术不仅限于HMM，可以用于对时间序列特征量进行建模的任何技术都是可以的。建模后的时间序列特征量被存储在内建于说话识别器47中的学习数据库48中。

说话识别器47在识别过程中在存储于学习数据库48中的时间序列特征量的模型中指明与从时间序列特征量生成单元45输入的时间序列特征量最相似的时间序列特征量。此外，说话识别器47输出与指定的模型关联的用于登记的说话话语作为对应于用于识别的说话活动图像的说话识别的结果。

操作描述

图6是说明说话识别器件10的操作的流程图。

在步骤S1中，说话识别器件10的学习系统11通过执行学习过程而生成视位分类器31。

在步骤S2中，说话识别器件10的登记系统12通过执行登记过程来生成对应于用于登记的说话活动图像的时间序列特征量，使用HMM来进行建模，并将通过把特征量与用于登记的说话话语进行关联而得到的时间序列特征量模型登记到学习数据库48中。

在步骤S3中，说话识别器件10的识别系统13通过执行识别过程而在用于识别的说话活动图像中识别说话者的说话内容。

下面将对上述从步骤S1到步骤S3的过程进行详细描述。

学习过程细节

图7是详细说明步骤S1的学习过程的流程图。

在步骤S11中，用于学习的带有语音的说话活动图像被输入到图像-语音分离单元21中。图像-语音分离单元21将用于学习的带有语音的说话活动图像分离成用于学习的说话活动图像和用于学习的说话语音，并将用于学习的说话活动图像输出到脸部区域检测单元22，而将用于学习的说话语音输出到音素标签分配单元25。

在步骤S12中，进行对用于学习的说话活动图像的处理。在步骤S13中，进行对用于学习的说话语音的处理。实际上，步骤S12和步骤S13彼此合作同时执行。此外，处理后的用于学习的说话活动图像(嘴唇图像)的输出和与之对应的经处理的用于学习的说话语音(附带有视位标签的用于学习的说话语音)的输出被同时提供给视位标签添加单元28。

图8是说明在步骤S12中处理用于学习的说话活动图像的流程图。

在步骤S21中，脸部区域检测单元22将用于学习的说话活动图像拆分成帧，并使得每一帧作为用于处理的目标。脸部区域检测单元22在步骤S22中从作为处理目标的帧中检测脸部区域，并在步骤S23中判断是否已经检测到脸部区域。当确定已经检测到脸部区域，则该过程进行到步骤S24。相反，当确定没有检测到脸部区域，则该过程进行到步骤S26。

在步骤S24中，脸部区域检测单元22将脸部区域的位置信息连同作为处理目标的用于学习的说话活动图像的一帧部分输出到嘴唇区域检测单元23。嘴唇区域检测单元23从作为处理目标的帧的脸部区域检测嘴唇区域，并在步骤S25中确定是否检测到嘴唇区域。当确定检测到嘴唇区域，则该过程进行到步骤S27。相反，当没有检测到嘴唇区域，则该过程进行到步骤S26。

此外，当该过程从步骤S23或步骤S25进行到步骤S26时，使用在作为处理目标的帧之前的一帧中的脸部区域或嘴唇区域中的至少一个的位置信息。

在步骤S27中，嘴唇区域检测单元23将嘴唇区域的位置信息连同作为处理目标的用于学习的说话活动图像的一帧部分输出到嘴唇图像生成单元24。嘴唇图像生成单元24对于作为处理目标的用于学习的说话活动图像的一帧适当进行旋转校正，使得连接嘴唇处嘴的拐角的边缘点的线是水平的。此外，嘴唇图像生成单元24在旋转校正之后从每一帧提取嘴唇区域，通过将所提取的嘴唇区域调整到预先确定的图像尺寸来生成嘴唇图像，并将该图像输出到视位标签添加单元28。

之后，该过程返回步骤S21，并且从步骤S21到步骤S27的过程被重复，直到用于学习的说话活动图像的信号输入完成。

接下来，图9是详细说明在步骤S13中处理用于学习的说话语音的流程图。

在步骤S31中，音素标签分配单元25通过参考音素词典26将指示音素的音素标签分配给用于学习的说话语音，并将该标签输出给视位标签转换单元27。

在步骤S32中，视位标签转换单元27通过使用预先存储的转换表来将分配给用于学习的说话语音的音素标签转换成指示发声过程中的唇形的视位标签，并将该标签输出到视位标签添加单元28。

之后，该处理返回步骤S31，并且从步骤S31到步骤S32的过程被重复，直到用于学习的说话语音的输入结束。

返回图7，在步骤S14中，视位标签添加单元28使用从视位标签转换单元27输入的、分配给用于学习的说话语音的视位标签并将其添加到从嘴唇图像生成单元24输入的对应于用于学习的说话活动图像的每一帧的嘴唇图像，并将添加有视位标签的嘴唇图像输出到学习样本存储单元29。学习样本存储单元29将带有视位标签的嘴唇图像存储为学习样本。在预定数量(M)的学习样本被存储到学习样本存储单元29中之后，执行步骤S15以及之后的过程。

在步骤S15中，视位分类器学习单元30获得作为存储在学习样本存储单元29中的学习样本的多个嘴唇图像的图像特征量，通过AdaBoost ECOC来学习多个弱分类器，并生成包括多个弱分类器的视位分类器31。

图10是详细说明步骤S15的过程(AdaBoost ECOC学习过程)的流程图。

在步骤S41中，视位分类器学习单元30从学习样本存储单元29中获取M个学习样本(xi，yk)，如图4所示。

在步骤S42中，视位分类器学习单元30根据以下公式(2)对由第M行及第K列表示的样本权重Pt(i，k)进行初始化。具体来说，对于样本权重Pt(i，k)的初始值P1(i，k)，对应于实际学习样本(xi，yk)的一个初始值被设置为0，而其它初始值被设置使得它们的和等于1的统一值。

P1(i，k)＝1/M(K-1)，yk≠K ...(2)

以下描述的从步骤S43到步骤S48的过程被重复任意次数T。此外，任意重复数T可以是在嘴唇图像上获得的最大数量的像素差特征，并且获得了与重复数T相同数量的弱分类器。

在步骤S43中，视位分类器学习单元30在第1行第K列生成ECOC表。此外，ECOC表的第k列中的值μt(k)是-1或+1，并且该表中的值被随机分配，使得-1的数量和+1的数量相同。

μt(k)＝{-1，+1} ...(3)

在步骤S44中，视位分类器学习单元30根据以下公式(4)计算由第M行第1列表示的二进制分类的权重Dt(i)。此外，在公式(4)中，在以下的[]中的公式是逻辑表示，1代表真，0代表假。

[表达式1]

D_{t} (i) = \frac{Σ_{k}^{K} P (i, k) [μ_{t} (y_{i}) &NotEqual; μ (k)]}{Σ_{j}^{M} Σ_{k}^{K} P (j, k) [μ_{t} (y_{j}) &NotEqual; μ (k)]} . . . (4)

在步骤S45中，视位分类器学习单元30在用于从步骤S44中获得的二进制分类的权重Dt(i)的情况下学习具有以下公式(5)中所示的加权误差率εt的二进制分类的弱分类器ht。

[表达式2]

ϵ_{t} = \underset{i : h_{t} (x_{i}) &NotEqual; μ (y_{i})}{Σ} D_{t} (i) . . . (5)

图11是详细说明步骤S45的过程的流程图。

在步骤S61中，视位分类器学习单元30从嘴唇图像的所有像素中随机选择两个像素。例如，当嘴唇图像具有32×32像素时，从1024×1023像素组中选择一个像素以用于两个像素的选择。这里，两个像素的像素位置是S1和S2，并且像素值(亮度值)是I1和I2。

在步骤S62中，视位分类器学习单元30针对所有学习样本、通过使用在步骤S61中选择的两个像素的像素值I1和I2来计算像素差特征(I1-I2)，并获得频率分布。

在步骤S63中，视位分类器学习单元30基于像素差特征的频率分布来获得使得在公式(5)中所示的加权误差率εt为最小值εmin的阈值Thmin。

在步骤S64中，视位分类器学习单元30基于像素差特征的频率分布来获得使得在公式(5)中所示的加权误差率εt为最大值εmax的阈值Thmax。此外，视位分类器学习单元30根据以下公式(6)对阈值Thmax进行反转。

ε′max＝1-εmax

S′1＝S2

S′2＝S1

Th′max＝-THmax ...(6)

在步骤65中，视位分类器学习单元30根据上述加权误差率εt的最小值εmin和最大值εmax的大小关系来确定二进制分类的弱分类器的参数：阈值Th和两个像素的位置S1和S2。

换句话说，当εmin＜ε′max时，两个像素的位置S1和S2以及阈值Thmin被用作参数。此外，当εmin≥ε′max时，两个像素的位置S′1和S′2以及阈值Th′max被用作参数。

在步骤S66中，视位分类器学习单元30判断上述从步骤S61到步骤S65的过程是否重复了预定次数，在视位分类器学习单元30确定这些过程已经重复了预定次数之前，过程返回到步骤S61，并且重复步骤S61及之后的步骤。此外，当视位分类器学习单元30确定从步骤S61到步骤S65的过程已经重复了预定次数，该过程进行到步骤S67。

在步骤S67中，最终，视位分类器学习单元30从在上述已经重复了预定次数的步骤S65的过程中确定的二进制分类的弱分类器(的参数)中，采用使得加权误差率εt为最小值的一个参数作为一个二进制分类的弱分类器ht(的参数)。

如上所述，在确定了一个二进制分类的弱分类器ht之后，过程返回到如图10所示的步骤S46。

在步骤S46中，视位分类器学习单元30基于与在步骤S45的过程中确定的二进制分类的弱分类器ht对应的加权误差率εt、根据以下公式(7)来计算置信水平αt。

[表达式3]

αt＝1/21n(1-εt/εt) ...(7)

在步骤S47中，视位分类器学习单元30通过将在步骤S45的过程中确定的二进制分类的弱分类器ht乘以在步骤S46的过程中计算的置信水平αt来获得具有置信水平的二进制分类的弱分类器ft(xi)，如以下公式(8)所示。

ft(xi)＝αt ht ...(8)

在步骤S48中，视位分类器学习单元30根据以下公式(9)对由第M行第K列表示的样本权重Pt(i，k)进行更新。

[表达式4]

Pt+1(i，k)＝Pt(i，k)exp(ft(xi)μt(k)-ft(xi)μt(yi)/2)/Zt...(9)

假设公式(9)中的Zi如以下公式(10)中所示。

[表达式5]

Z_{t} = Σ_{i}^{M} Σ_{k}^{K} P_{t} (i, k) \exp (\frac{f_{t} (x_{i}) μ_{t} (k) - f_{t} (x_{i}) μ_{t} (y_{i})}{2}) . . . (10)

在步骤S49中，视位分类器学习单元30判断从上述步骤S43到步骤S48的过程是否重复了预定次数T，在视位分类器学习单元30确定这些过程已经重复了预定次数T之前过程返回到步骤S43，并且重复步骤S43及之后的步骤。此外，当视位分类器学习单元30确定从步骤S43到步骤S48的过程已经重复了预定次数T时，该过程进行到步骤S50。

在步骤S50中，视位分类器学习单元30基于在与预定数量T相同的数量中获得的具有置信水平的二进制分类的弱分类器ft(x)和对应于它们中的每个的ECOC表、根据以下公式(11)获得最终分类器Hk(x)即视位分类器31。

[表达式6]

H_{k} (x) = Σ_{t = 1}^{T} f_{t} (x) μ_{t} (k) . . . (11)

此外，所获得的视位分类器31具有作为参数的种类数量(视位数量)K和弱分类器数量T。此外，作为每个弱分类器的参数，视位分类器31具有嘴唇图像上的两个像素的位置S1和S2、用于确定像素差特征的阈值Th、置信水平α以及ECOC表μ。

如上所述，在获得最终的分类器Hk(x)即视位分类器31之后，AdaBoost ECOC学习过程结束。

根据如上产生的视位分类器31，输入的嘴唇图像的图像特征量可以利用K维得分向量来表示。换句话说，可以通过将从用于登记的说话活动图像的每一帧产生的嘴唇图像的相似度量化为K(在这种情况下下是19)种视位中的每种来表示。此外，以相同方式，可以通过将从用于识别的说话活动图像的每一帧产生的嘴唇图像的相似度量化为K种视位中的每种来表示。

登记过程的细节

图12是详细说明步骤S2的登记过程的流程图。

在步骤S71中，登记系统12通过执行与结合图7所描述的通过学习系统11进行的对用于学习的说话活动图像的处理相同的处理来生成对应于用于登记的说话活动图像的每一帧的嘴唇图像。所产生的嘴唇图像被输入到视位分类器31和说话时期检测单元44。

在步骤S72中，说话时期检测单元44基于用于登记的说话活动图像的每一帧的嘴唇图像来指明说话时期，并通知视位分类器31和时间序列特征量生成单元45每一帧中的嘴唇图像是否对应于说话时期。视位分类器31计算与按顺序输入的嘴唇图像中的针对说话时期的嘴唇图像对应的K维得分向量。

图13是详细说明通过视位分类器31进行的K维得分向量计算过程的流程图。

在步骤S81中，视位分类器31将指示种类的参数k(k＝1，2，...，K)初始化为1。在步骤S82中，视位分类器31将每个种类的得分Hk初始化为0。

在步骤S83中，视位分类器31将用于指明弱分类器的参数t(t＝1，2，...，T)初始化为1。

在步骤S84中，视位分类器31设置二进制分类的弱分类器ht的参数，即嘴唇图像x上的两个像素的位置S1和S2、用于确定像素差特征的阈值Th、置信水平α以及ECOC表μ。

在步骤S85中，视位分类器31从嘴唇图像x上的两个像素的位置S1和S2中读取像素值I1和I2，并通过计算像素差特征(I1和I2)以及将结果和阈值Th进行比较来获得二进制分类的弱分类器ht的分类值(-1或+1)。

在步骤S86中，视位分类器31通过将在步骤S85中获得的二进制分类的弱分类器ht的分类值乘以置信水平αt并乘以ECOC表的第1行第K列的值μt(k)来获得第1行第K列中对应于参数t的种类得分Hk。

在步骤S87中，视位分类器31通过将第1行第K列中的种类得分Hk的累积值相加直到先前的一轮(即t-1)来更新已经在步骤S86中获得并对应于参数t的第1行第K列中的种类得分Hk。

在步骤S88中，视位分类器31判断参数t是否等于T，当视位分类器31确定参数t≠T时，该过程进行到步骤S89，以将参数t增加1。然后，过程返回到步骤S84以重复步骤S84和其后的步骤。之后，当在步骤S88中确定参数t＝T时，过程进行到步骤S90。

在步骤S90中，视位分类器31判断参数k是否等于K，当视位分类器31确定参数k≠K时，该过程进行到步骤S91，以将参数k增加1。然后，过程返回到步骤S83以重复步骤S83及其后的步骤。之后，当在步骤S90中确定参数k＝K时，过程进行到步骤S92。

在步骤S92中，视位分类器31使得在那一点获得的第1行第K列中的种类得分Hk作为视位分类器31的输出，换句话说，将种类得分Hk输出到下一级(在这种情况下是时间序列特征量生成单元45)作为K维得分向量。利用以上过程，K维得分向量计算过程结束。

返回图12，在步骤S73中，时间序列特征量生成单元45在由说话时期检测单元44通知的说话时期过程中，通过将从视位分类器31顺序输入的K维得分向量安排成时间序列，来生成对应于用于登记的说话活动图像的说话时期的时间序列特征量。

在步骤S74中，时间序列特征量学习单元46利用与从外部提供的用于登记的说话话语(用于登记的说话活动图像中的说话者的说话内容)连同用于登记的说话活动图像相关联的HMM，来对从时间序列特征量生成单元45输入的时间序列特征量进行建模。建模后的时间序列特征量被存储在内建于说话识别器47中的学习数据库48中。利用上述过程，登记过程结束。

识别过程的细节

图14是详细说明识别过程的流程图。

识别系统13执行与以上参考图12所描述的通过登记系统12进行的从步骤S71到步骤S73的登记过程的那些过程相同的过程，如从步骤S101到步骤S103的针对所输入的用于识别的说话活动图像的过程。结果，生成与用于识别的说话活动图像的说话时期对应的时间序列特征量。所生成的与用于识别的说话活动图像的说话时期对应的时间序列特征量被输入到说话识别器47。

在步骤S104中，说话识别器47从存储在学习数据库48中的那些模型中指明与从时间序列特征量生成单元45输入的时间序列特征量最相似的模型。此外，说话识别器47输出与指明的模型相关联的用于登记的说话话语，作为与用于识别的说话活动图像对应的说话识别结果。利用以上过程，识别过程结束。

识别试验的结果

接下来，将对通过说话识别器件10进行的识别试验的结果进行描述。

在该识别试验中，使用用于学习的带有语音的说话活动图像，其通过对发出用于学习过程的216个话语的73个个体测试对象(说话者)进行视频捕捉来产生。另外，在学习过程中发出的216个话语中，图15中显示的20个话语被选择作为用于登记过程的用于登记的说话话语，对应于这20个话语的用于学习的说话活动图像被用作用于登记的说话活动图像。此外，在使用HMM进行的建模中，转移概率被限制为从左到右，并采用40个状态的转移模型。

此外，在识别过程中，执行闭式评估和开式评估并且由此获得图16所示的识别率，其中闭式评估使用与在学习过程和登记过程中的测试对象相同的测试对象的用于识别的说话活动图像，开式评估使用与在学习过程和登记过程中的测试对象不同的测试对象的用于识别的说话活动图像，。

图16示出了当根据与对应于用于登记的20种说话话语中的每种的每个HMM的相似度来排列与用于识别的说话活动图像(其中用于登记的说话话语W被说出)对应的时间序列特征量时，正确解释(对应于用于登记的说话话语W的HMM)属于第M级(横轴)的概率(纵轴)。

根据该附图，在闭式评估的情况下可以获得96％的识别率。另外，在开式评估的情况下可以获得80％的识别率。

此外，在上述识别试验中，测试对象(说话者)在学习过程和登记过程中是相同的，并且用于学习的说话活动图像被用作用于登记的说话活动图像。但是，测试对象(说话者)在学习过程和登记过程中可以不同，此外，测试对象(说话者)在识别过程中也可以不同。

根据上述第一实施例的说话识别器件10，由于通过学习来生成用于计算输入图像(在这种情况下是嘴唇图像)的特征量的分类器，所以不必针对每种情况要识别的目标来重新设计分类器。因此，通过改变标签种类，本发明例如可以被应用于用于从活动图像识别姿势或笔迹的识别器件。

此外，可以通过学习过程针对包含显示显著个体差异的部分的图像来提取具有一般性的图像特征量。

此外，可以执行实时识别过程，这是因为具有较小计算量的像素差被用于图像特征量。

2.第二实施例

数字静态照相机的组成例子

接下来，图17示出了作为第二实施例的数字静态照相机60的组成例子。数字静态照相机60具有唇读技术所应用的自动快门功能。具体来说，当检测到作为对象的人说出预定关键词(以下称为快门关键词)如“好的，奶酪”等时，照相机应该根据该说话按下快门(对静止图像进行成像)。

数字静态照相机60包括成像单元61、图像处理单元62、记录单元63、U/I单元64、成像控制单元65以及自动快门控制单元66。

成像单元61包括镜头组和成像器件，如互补金属氧化物半导体(CMOS)(图中未示出任何镜头组和成像器件)等，其获取对象的光学图像以便转换成电信号，并将从该结果获得的图像信号输出到下一级。

换句话说，成像单元61根据成像控制单元65的控制将图像信号输出到前部成像级中的成像控制单元65和自动快门控制单元66。此外，成像单元61根据成像控制单元65的控制来进行成像，并将从结果获得的图像信号输出到图像处理单元62。

在下文中，显示在包含于U/I单元64中的显示器(图中未示出)上并被输出到成像控制单元65的用于在成像之前确定组成的活动图像被称为取景器图像。取景器图像还被输出到自动快门控制单元66。此外，从成像单元61输出到图像处理单元62的作为成像结果的图像信号被称为记录图像。

图像处理单元62对从成像单元61输入的记录图像执行预定的图像处理(例如，图像稳定性校正、白平衡校正、像素插值等)，然后利用预定的编码方式对所处理的图像进行编码，并将从结果获得的图像编码数据输出到记录单元63。另外，图像处理单元62对从记录单元63输入的图像编码数据进行解码，并将从结果获得的图像信号(以下称为重放图像)输出到成像控制单元65。

记录单元63将从图像处理单元62输入的图像编码数据记录到图中未示出的记录介质中。另外，记录单元63读取记录在记录介质中的图像编码数据并输出到图像处理单元62。

成像控制单元65控制整个数字静态照相机60。具体来说，成像控制单元65根据来自于U/I单元64的快门操作信号或来自于自动快门控制单元66的自动快门信号来控制成像单元61执行成像。

U/I(用户接口)单元64包括各种输入器件(由接收用户进行的快门操作的快门按钮来代表)以及显示取景图像、重放图像等的显示器。具体来说U/I单元64根据来自于用户的快门操作来将快门操作信号输出到成像控制单元65。

当检测到由作为对象的人说出快门关键词时，自动快门控制单元66基于从成像单元61输入的取景器图像来将自动快门信号输出到成像控制单元65。

接下来，图18详细示出了自动快门控制单元66的组成例子。

从该图和图1的对比可以清楚的看出，除了与包括图1的说话识别器件10的登记系统12和识别系统13相同的组成之外，自动快门控制单元66还包括自动快门信号输出单元71。由于自动快门控制单元66与图1的说话识别器件10的共同组成部件被赋予相同附图标记，所以将不再重复对其的描述。

但是，自动快门控制单元66中的视位分类器31已经被学习过。

在发现来自说话识别器47的说话识别结果是已经登记的快门关键词时，自动快门信号输出单元71生成自动快门信号以便输出到成像控制单元65。

性能描述

接下来，将对数字静态照相机60的性能进行描述。数字静态照相机60的性能具有标准成像模式、标准重放模式，快门关键词登记模式、自动快门执行模式等。

在标准成像模式中，根据由用户进行的快门操作来执行成像。在标准重放模式中，已经被成像的图像被重放并根据用户的重放操作而被显示。

在快门关键词登记模式中，指示说出作为快门关键词的任意话语的对象(用户等)的嘴唇活动的时间序列特征量的HMM被登记。另外，在数字静态照相机60作为产品被供应在市场上的阶段，可以预先登记快门关键词和指示与之对应的嘴唇活动的时间序列特征量的HMM。

在自动快门执行模式中，基于取景器图像来检测指示作为对象的人的嘴唇活动的时间序列特征量，并在基于检测到的时间序列特征量而识别出快门关键词被说出时执行成像。

快门关键词登记过程的细节

接下来，图19是说明快门关键词登记过程的流程图。

该快门关键词登记过程在快门关键词登记模式根据来自于用户的预定操作而开启时开始，并在快门关键词登记模式根据来自于用户的预定操作而关闭时结束。

此外，在用户指示开始快门关键词登记过程之后，该用户使得说出欲被登记为快门关键词的话语的说话者的脸显示在取景器图像中。优选的是，在自动快门执行过程中作为对象的人被用作说话者，但是可以使用其他人，例如，用户自己作为说话者。此外，在快门关键词说完之后，用户指示结束快门关键词登记过程。

在步骤S121中，成像控制单元65判断是否已经指示结束快门关键词登记过程，当未指示时，过程进行到步骤S122。

在步骤S122中，登记系统12的脸部区域检测单元41将取景器图像拆分成帧，并使得每一帧作为要被处理的目标。从作为要被处理的目标的每一帧检测脸部区域。在步骤S123中，脸部区域检测单元41判断是否从作为要被处理的目标的帧中仅检测到一个脸部区域，当检测到多个脸部区域或任何一个脸部区域未被检测到时，处理进行到步骤S124。

在步骤S124中，U/I单元64促使用户有意地仅将说出欲被登记作为快门关键词的话语一个说话者显示在取景器图像中。之后，过程返回到步骤S121，且重复步骤S121及其后的步骤。

在步骤S123中，当从作为要被处理的目标的帧中仅检测到一个脸部区域时，过程进行到步骤S125。

在步骤S125中，脸部区域检测单元41将作为要被处理的目标的一帧部分的取景器图像以及脸部区域的位置信息输出到嘴唇区域检测单元42。嘴唇区域检测单元42从作为要被处理的目标的帧中的脸部区域检测嘴唇区域，并将作为要被处理的目标的一帧部分的取景器图像和嘴唇区域的位置信息输出到嘴唇图像生成单元43。

图像生成单元43对作为要被处理的目标的取景器图像的一帧适当执行旋转校正，使得连接嘴唇处嘴的拐角的边缘点的线是水平的。此外，嘴唇图像生成单元43从已经经历了旋转校正的每一帧提取嘴唇区域，通过将所提取的嘴唇区域调整到已经确定的图像尺寸来生成嘴唇图像。所生成的嘴唇图像被输入到视位分类器31和说话时期检测单元44。

在步骤S126中，说话时期检测单元44根据作为要被处理的目标的帧的嘴唇图像来判断该帧是否处于说话时期，并将确定结果通知给视位分类器31和时间序列特征量生成单元45。此外，当该帧处于说话时期中时，处理进行到步骤S127。相反，当该帧不处于说话时期中时，步骤S127被跳过。

在步骤S127中，视位分类器31计算按顺序输入的嘴唇图像中对应于说话时期的嘴唇图像的K维得分向量并将该值输出到时间序列特征量生成单元45。之后，过程返回步骤S121，并且从步骤S121到步骤S127的过程被重复直到快门关键词登记过程结束。

此外，当在步骤S121中确定已经指示结束快门关键词登记过程时，过程进行到步骤S128。

在步骤S128中，时间序列特征量生成单元45在由说话时期检测单元44通知的说话时期过程中，通过以时间序列来安排按顺序从视位分类器31输入的K维得分向量来生成对应于所登记的快门关键词的时间序列特征量。

在步骤S129中，时间序列特征量学习单元46利用与从U/I单元64输入的快门关键词的文本数据相关联的HMM来对从时间序列特征量生成单元45输入的时间序列特征量进行建模。建模后的时间序列特征量被存储在设置于说话识别器47中的学习数据库48中。利用上述过程，快门关键词登记过程结束。

自动快门执行过程的细节

接下来，图20是说明自动快门执行过程的流程图。

该自动快门执行过程在自动快门执行模式根据来自用户的预定操作而开启时开始，并在自动快门执行模式根据来自用户的预定操作而关闭时结束。

在步骤S141中，识别系统12的脸部区域检测单元41将取景器图像拆分成帧，并使得每一帧作为要被处理的目标。从作为要被处理的目标的每一帧检测脸部区域。

在步骤S142中，脸部区域检测单元41判断是否从作为要被处理的目标的帧中检测到脸部区域，并且直到脸部区域被检测到过程才返回到步骤S141。另外，当从作为要被处理的目标的帧中检测到脸部区域时，过程进行到步骤S143。

此外，在这里，从一帧中检测到多个脸部区域也没关系，这与快门关键词登记过程的情况不同。当从一帧中检测到多个脸部区域，则对于所有检测到的脸部区域执行该过程及其后的过程。

在步骤S143中，脸部区域检测单元41将作为要被处理的目标的一帧部分的取景器图像和脸部区域的位置信息输出到嘴唇区域检测单元42。嘴唇区域检测单元42从作为要被处理的目标的帧中的脸部区域检测嘴唇区域，并将作为要被处理的目标的一帧部分的取景器图像和嘴唇区域的位置信息输出到嘴唇图像生成单元43。

嘴唇图像生成单元43对作为要被处理的目标的取景器图像的一帧适当执行旋转校正，使得连接嘴唇处的嘴的拐角的边缘点的线是水平的。此外，嘴唇图像生成单元43从已经经历了旋转校正的每一帧提取嘴唇区域，通过将所提取的嘴唇区域调整到已经确定的图像尺寸来生成嘴唇图像。所生成的嘴唇图像被输入到视位分类器31和说话时期检测单元44。

在步骤S144中，说话时期检测单元44基于作为要被处理的目标的帧的嘴唇图像来确定说话时期。换句话说，当确定作为要被处理的目标的帧处于说话时期的起始点或处于说话时期之中时，过程进行到步骤S145。

在步骤S145中，视位分类器31计算按顺序输入的嘴唇图像中对应于说话时期的嘴唇图像的K维得分向量，以将其输出到时间序列特征量生成单元45。之后，过程返回步骤S141，并且步骤S141及其后的步骤被重复。

在步骤S144中，当确定作为要被处理的目标的帧处于说话时期的结束点时，过程进行到步骤S146。

在步骤S146中，时间序列特征量生成单元45在由说话时期检测单元44通知的说话时期过程中，通过以时间序列来安排按顺序从视位分类器31输入的K维得分向量，来生成对应于对象的嘴唇活动的时间序列特征量。

在步骤S147中，时间序列特征量生成单元45将生成的时间序列特征量输入到说话识别器47中。在步骤S148中，说话识别器47通过将从时间序列特征量生成单元45输入的时间序列特征量与对应于存储在学习数据库48中的快门关键词进行比较，来判断对象的嘴唇动作是否对应于快门关键词。当确定对象的嘴唇运动对应于快门关键词时，过程进行到步骤S149。此外，当确定对象的嘴唇动作与快门关键词不对应时，过程返回步骤S141，并且重复步骤S141及其后的步骤。

在步骤S149中，说话识别器47通知自动快门信号输出单元71对象的嘴唇动作对应于快门关键词。自动快门信号输出单元71根据该信息生成自动快门信号，并将信号输出到成像控制单元65。成像控制单元65根据自动快门信号通过控制成像单元61来执行成像。此外，成像时机由用户任意设置，如在说出快门关键词等之后的预定时间(例如一秒)后。之后，过程返回到步骤S141，并且重复步骤S141及其后的步骤。

此外，在上述描述中，当从取景器图像中检测到多个(对象)脸部区域时，多个对象中的任何一个可能说出快门关键词。

但是，可以通过改变这种情况来执行成像，例如对说出快门关键词的大部分对象进行成像。在这种情况下，用户可以希望对成组照片进行成像。此外，由于对多个脸部进行识别，所以识别结果是可靠的，并且由此可以得到抑制对快门关键词等的错误检测的效果。

此外，可以结合能够实现个人脸部识别的人物识别技术、通过仅聚焦多个对象中的特定人来检测快门关键词。特定人可以是多个。如果将特定人作为测试对象(对象)来执行上述快门关键词登记过程，则可以实现更加可靠和准确的说话识别。

如上所述，根据第二实施例的数字静态照相机60，位于远处的对象可以通过在嘈杂的环境中仅说出快门关键词来指示成像时机，而不使用遥控器等。此外，快门关键词可以任意设置。

此外，本发明可以应用与数字视频照相机，而不局限于数字静态照相机。

可以通过硬件和软件来执行上述一系列过程。当这一系列过程通过软件来执行时，从程序记录介质将构成软件的程序安装到结合有专用硬件的计算机中，或者例如安装到能够通过安装各种程序来执行各种功能的个人计算机等中。

图21是示出了通过程序来执行上述一系列过程的计算机硬件组成例子的框图。

在该计算机200中，中央处理单元(CPU)201、只读存储器(ROM)202、随机存取存储器(RAM)203通过总线204彼此连接。

总线204还连接到输入/输出接口205。输入/输出接口205连接到：输入单元206，包括键盘、鼠标、麦克风等；输出单元207，包括显示器、扬声器等；存储单元208，包括硬盘、非易失性存储器等；通信单元209，包括网络接口等；以及驱动210，用于驱动可移动介质211，如磁盘、光盘、磁光盘、半导体存储器等。

如上述构成的计算机通过使得CPU 201例如将存储在存储单元208中的程序经由输入/输出接口205和总线204加载到RAM 203中并执行该程序来执行上述一系列过程。

通过计算机(CPU 201)执行的程序被记录在作为程序包介质的可移动介质211中，例如磁盘(包括软盘)、光盘(光盘只读存储器(CD-ROM)、数字通用光盘(DVD)等)、磁光盘、半导体存储器等，或通过有线或无线传输介质如局域网、因特网或数字卫星广播来提供。

另外，程序可以通过将可移动介质211加载到驱动210上、经由输入/输出接口205而被安装到存储单元208中。此外，该程序可以利用通信单元209经由有线或无线传输介质来接收，并被安装在存储单元208中。除此之外，程序可以预先被安装在ROM 202或存储单元208中。

此外，通过计算机来执行的程序可以是按遵循本说明书中描述的顺序的时间序列来执行处理的程序，以及/或者可以是在需要的时机(如当接收到调用时)执行处理的程序。

另外，程序可以通过一个计算机以及通过分布式的多个计算机来处理。此外，可以通过将程序传送到远端位置的计算机来执行该程序。

本申请包含与在2009年6月30日提交日本专利局的日本优先权专利申请JP 2009-154923以及在2009年6月30日提交日本专利局的日本优先权专利申请JP 2009-154924中公开的主题相关的主题，其全部内容通过引用合并于此。

本领域的技术人员应该理解，各种修改、合并、子合并和改变可以根据设计需要和其它因素而进行，只要它们在所附权利要求或其等同物的范围内。

Claims

1.一种信息处理设备，包括：

图像获取单元，配置成获取图像数据帧的时间序列；

检测单元，配置成从图像数据的每一帧检测嘴唇区域和嘴唇图像；

识别单元，配置成根据所检测的嘴唇区域的嘴唇图像来识别话语；以及

控制器，配置成根据通过识别单元识别的话语来控制信息处理设备的操作。

2.根据权利要求1所述的信息处理设备，其中图像处理设备是数字静态照相机，图像获取单元是数字静态照相机的成像器件。

3.根据权利要求2所述的信息处理设备，其中控制器被配置成在识别单元识别预定话语时命令数字静态照相机的成像器件捕捉静止图像。

4.根据权利要求1所述的信息处理设备，还包括：

脸部区域检测单元，配置成在图像数据帧序列中检测多张脸，其中

识别单元被配置成根据所存储的脸部识别数据来从多张脸中识别特定的脸，并根据所检测的该特定脸的嘴唇区域的嘴唇图像来识别话语。

5.根据权利要求1所述的信息处理设备，还包括：

识别单元被配置成根据所检测的多张脸中的任何一张脸的嘴唇区域的嘴唇图像来识别话语。

6.根据权利要求1所述的信息处理设备，还包括：

识别单元被配置成根据所检测的多张脸的子集的嘴唇区域的嘴唇图像来识别话语。

7.根据权利要求1所述的信息处理设备，还包括：

登记单元，配置成在通过识别单元识别话语时对使得控制器控制信息处理设备的操作的话语进行登记。

8.根据权利要求1所述的信息处理设备，还包括：

存储器，配置成存储多个视位，每个视位与特定音素相关联，其中识别单元被配置成通过将检测的嘴唇区域的嘴唇图像与存储在存储器中的多个视位进行比较来识别话语。

9.根据权利要求1所述的信息处理设备，还包括：

图像分离单元，配置成接收带有语音的说话活动图像，将该带有语音的说话活动图像分离成说话活动图像和说话语音，并输出该说话活动图像和说话语音；

脸部区域检测单元，配置成从图像分离单元接收说话活动图像，将说话活动图像拆分成帧，从每一帧检测脸部区域，并输出说话活动图像的一帧以及所检测的脸部区域的位置信息；

嘴唇区域检测单元，配置成从脸部区域检测单元接收说话活动图像的一帧以及所检测的脸部区域的位置信息，从这一帧的脸部区域检测嘴唇区域，并输出一帧说话活动图像以及嘴唇区域的位置信息；

嘴唇图像生成单元，配置成接收来自嘴唇区域检测单元的嘴唇区域的位置信息以及说话活动图像的一帧，对说话活动图像的所述一帧执行旋转校正，生成嘴唇图像，并将嘴唇图像输出到视位标签添加单元；

音素标签分配单元，配置成从图像分离单元接收说话语音，将指示音素的音素标签分配给说话语音，并输出该标签；

视位标签转换单元，配置成从音素标签分配单元接收标签，将分配给用于学习的说话语音的音素标签转换成指示发声期间的唇形的视位标签，并输出该视位标签；

视位标签添加单元，配置成接收从嘴唇图像生成单元输出的嘴唇图像以及从视位标签转换单元输出的视位标签，将视位标签添加到嘴唇图像，并输出添加有视位标签的嘴唇图像；

学习样本存储单元，配置成从视位标签添加单元接收并存储添加有视位标签的嘴唇图像，其中

识别单元被配置成通过将从每个图像数据帧检测到的嘴唇区域的位置与学习样本存储单元存储的数据进行比较来识别话语。

10.一种非暂时性计算机可读介质，包括：计算机程序指令，该计算机程序指令在通过信息处理设备执行时使得信息处理设备执行以下的方法，所述方法包括：

获取图像数据帧的时间序列；

从图像数据的每一帧检测嘴唇区域和嘴唇图像；

根据所检测的嘴唇区域的嘴唇图像来识别话语；以及

根据识别的话语来控制信息处理设备的操作。

11.根据权利要求10所述的非暂时性计算机可读介质，其中图像处理设备是数字静态照相机，并且图像数据帧的时间序列通过数字静态照相机的成像器件来获取。

12.根据权利要求11所述的非暂时性计算机可读介质，还包括：

在识别预定话语时控制数字静态照相机的成像器件捕捉静止图像。

13.根据权利要求10所述的非暂时性计算机可读介质，还包括：

在图像数据帧序列中检测多张脸；

根据所存储的脸部识别数据来从多张脸中识别特定的脸；以及

根据所检测的特定脸的嘴唇区域的嘴唇图像来识别话语。

14.根据权利要求10所述的非暂时性计算机可读介质，还包括：

在图像数据帧序列中检测多张脸；以及

根据所检测多张脸中的任何一张脸的嘴唇区域的嘴唇图像来识别话语。

15.根据权利要求10所述的非暂时性计算机可读介质，还包括：

在图像数据帧序列中检测多张脸；以及

根据所检测的多张脸的子集的嘴唇区域的嘴唇图像来识别话语。

16.根据权利要求10所述的非暂时性计算机可读介质，还包括：

对在识别话语时使得控制器控制信息处理设备的操作的话语进行登记。

17.根据权利要求10所述的非暂时性计算机可读介质，还包括：

存储多个视位，每个视位与特定音素相关联，其中识别包括通过将检测的嘴唇区域的嘴唇图像与存储在存储器中的多个视位进行比较来识别话语。

18.根据权利要求10所述的非暂时性计算机可读介质，还包括：

在信息处理设备的图像分离单元

接收带有语音的说话活动图像；

将该带有语音的说话活动图像分离成说话活动图像和说话语音；以及

输出该说话活动图像和说话语音，

在信息处理设备的脸部区域检测单元

从图像分离单元接收说话活动图像；

将说话活动图像拆分成帧；

从每一帧检测脸部区域；以及

输出说话活动图像的一帧以及所检测的脸部区域的位置信息，在信息处理设备的嘴唇区域检测单元

从脸部区域检测单元接收说话活动图像的一帧以及所检测的脸部区域的位置信息；

从所述一帧的脸部区域检测嘴唇区域；以及

输出说话活动图像的一帧以及嘴唇区域的位置信息，

在信息处理设备的嘴唇图像生成单元

接收来自嘴唇区域检测单元的嘴唇区域的位置信息以及说话活动图像的一帧；

对说话活动图像的所述一帧执行旋转校正；

生成嘴唇图像；以及

将嘴唇图像输出到视位标签添加单元，

在信息处理设备的音素标签分配单元

从图像分离单元接收说话语音；

将指示音素的音素标签分配给说话语音；以及

输出该标签，

在信息处理设备的视位标签转换单元

从音素标签分配单元接收标签；

将分配给用于学习的说话语音的音素标签转换成指示发声期间的唇形的视位标签；以及

输出该视位标签，

在信息处理设备的视位标签添加单元

接收从嘴唇图像生成单元输出的嘴唇图像以及从视位标签转换单元输出的视位标签；

将视位标签添加到嘴唇图像；以及

输出添加有视位标签的嘴唇图像，

在信息处理设备的学习样本存储单元

从视位标签添加单元接收并存储添加有视位标签的嘴唇图像，其中

所述识别通过将从每个图像数据帧检测到的嘴唇区域的位置与学习样本存储单元存储的数据进行比较来识别话语。

19.一种信息处理设备，包括：

用于获取图像数据帧的时间序列的装置；

用于从图像数据的每一帧检测嘴唇区域和嘴唇图像的装置；

用于根据所检测的嘴唇区域的嘴唇图像的位置来识别话语的装置；以及

用于根据通过用于识别的装置识别的话语来控制信息处理设备的操作的装置。