CN102207950B

CN102207950B - 电子装置和图像处理方法

Info

Publication number: CN102207950B
Application number: CN201110075556.3A
Authority: CN
Inventors: 坂口龙己; 鹿岛浩司; 江岛公志; 押领司宏
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2010-03-31
Filing date: 2011-03-24
Publication date: 2016-06-01
Anticipated expiration: 2031-03-24
Also published as: JP2011215963A; CN102207950A; US20110243452A1

Abstract

本发明公开了电子装置、图像处理方法和程序。该电子装置包括存储器、控制器和输出单元。存储器存储被分类为多个组的多个图像，指示每个事件所特有的对象的特征的多个事件特征信息项目，以及指示用于为每个组选择由图像表达的事件的代表性图像的规则的多个规则信息项目，该多个规则信息项目针对每个事件和与事件相关的每个人是不同的。控制器基于多个事件特征信息项目从每个组的多个图像中提取多个元信息项目，从提取的元信息项目中分析高级元信息，以导出表达了什么事件以及在多个图像中事件与谁相关，以及基于与导出的事件相对应的规则信息项目从多个图像中选择代表所导出的事件的代表性图像。输出单元针对每个组输出代表性图像的缩略图像。

Description

电子装置和图像处理方法

技术领域

本发明涉及能够从与某个事件(event)相关的运动图像数据项目或静止图像数据项目确定代表该事件的图像的电子装置、以及该电子装置中的图像处理方法和程序。

背景技术

目前已经存在将由多个场景组成的运动图像或静止图像分组并提取代表每个组的代表性图像的技术。

例如，日本专利申请早期公开No.2010-9608(以下，称为专利文献1)公开了如下内容：基于用户的指令，多个图像被分组，并且用户所希望的图像被从该组中包括的图像中提取，作为每个组的代表性图像。

另外，日本专利申请早期公开No.2003-203090(以下，称为专利文献2)公开了一种图像空间显示方法，其中基于从图像中所提取的特征量，将类似的图像组合在一起成为组，并且从要显示的各个组中一个接一个地提取图像。

发明内容

但是，在专利文献1所公开的技术中，用户手动确定代表性图像，其花费用户的时间和精力。

另外，在专利文献2所公开的技术中，图像的类似性通过利用特征量(信号强度，例如直方图特征、边缘特征和纹理特征)间的距离作为参考来确定。但是，在使用仅由信号强度所组成的特征量的情形中，即便当图像自身并不具有特征量的类似性时，用户也可能希望将这些图像分类为同一组。在专利文献2中公开的技术很难支持这种情形。

另外，通过利用由脸部检测/脸部识别、笑容识别等技术所检测的从属意义信息，与仅由信号强度所组成的特征量的情形相比，可执行有意义的分类处理。但是，作为严肃事件的场景的代表性图像，与微笑或大笑相对应的图像并不认为是合适的。另外，存在以下情形：即便在欢快的事件中，也可能检测到用户的完全陌生人的微笑，并且，将该场景提取作为代表性图像是不合适的。

另外，在从某个图像组检测出多个能够是代表性图像的候选者的场景的情形中，即便当使用从属意义信息时，也很难判定哪个场景将被设置为代表性图像。

鉴于上述的环境，希望提供一种电子装置、图像处理方法以及程序，其能够从与某个事件相关的多个图像中选择反映了事件的细节并适于作为代表性图像的图像。

根据本发明的实施例，提供了一种电子装置，其包括存储器、控制器和输出单元。该存储器存储被分类为多个组的多个图像；多个事件特征信息项目，该多个事件特征信息项目指示每个事件所特有的对象的特征；以及多个规则信息项目，该多个规则信息项目指示用于为每个组选择代表由多个图像表达的事件的代表性图像的规则，并且该多个规则信息项目针对每个事件和与事件相关的每个人是不同的。该控制器基于多个事件特征信息项目，从每个组的多个图像中提取多个元信息项目，从所提取的多个元信息项目中分析高级元信息，以导出所述多个图像表达了与谁有关的什么事件，以及基于与所导出的事件相对应的规则信息项目，从多个图像中选择代表所导出的事件的代表性图像。该输出单元针对每个组输出所选择的代表性图像的缩略图像。

利用这种结构，该电子装置抽象出多个元信息项目，并且导出由每个组中的多个图像所表达的事件，并且随后基于对应于该事件的规则信息项目选择代表性图像，其结果是，能够选择反映了事件的细节并适于作为代表性图像的图像。另外，由于上述规则信息项目针对与事件相关的每个人是不同的，因此例如取决于与事件相关的人与用户间的关系的深度，将被选择的代表性图像也是不同的。因此，该电子装置能够为电子装置的用户选择最佳的代表性图像。此处，图像不仅包括最初由静止相机所捕获的静止图像，还包括从运动图像提取出的静止图像(帧)。

存储器可存储个人特征信息，该个人特征信息指示与用户具有预定关系的人的特征。在这种情形中，控制器基于个人特征信息和多个事件特征信息项目来提取元信息项目。

相应地，通过识别特定的人，该电子装置能够导出与特定的人相关的事件，并且相应地选择代表性图像。

针对每个事件，多个规则信息项目可包括将被包括在代表性图像中的多个元信息项目以及多个分数信息项目，该多个分数信息项目的每一个指示与元信息项目的重要度相对应的分数。在这种情形中，控制器基于多个分数信息项目可将与多个图像的各自元信息项目相对应的分数相加，并且将具有最高分数的图像选作代表性图像。

相应地，通过针对每个事件设置与每个元信息项目的重要度相对应的分数，电子装置能够可靠地选择最佳地表达了每个事件的代表性图像。

输出单元可与缩略图像一起输出字符信息，该字符信息指示表达了什么事件以及事件和谁相关。

相应地，电子装置能够呈现代表性图像的缩略图像，并且还使得用户轻松地理解由代表性图像所表达的事件所指示的“谁的”事件和“什么”事件。

控制器可选择具有高分数的预定数目的代表性图像，并且输出预定数目的代表性图像的缩略图像，使得具有较高分数的代表性图像具有较大的可见区域。

相应地，通过根据其分数来输出代表性图像，与一个代表性图像被输出的情形相比，电子装置能够使得用户更容易地理解事件的细节。此处，短语“输出缩略图像使得具有较高分数的代表性图像具有较大的可见区域”例如包括显示多个缩略图像，同时以分数的次序来重叠部分图像，并且以分数的次序来变更缩略图像的大小。

根据本发明的另一实施例，提供了一种图像处理方法，包括：存储以下内容：被分类为多个组的多个图像；多个事件特征信息项目，该多个事件特征信息项目指示每个事件所特有的对象的特征；以及多个规则信息项目，该多个规则信息项目指示用于为每个组选择代表由多个图像表达的事件的代表性图像的规则，该多个规则信息项目针对每个事件和与事件相关的每个人是不同的。基于多个事件特征信息项目，从每个组的多个图像中提取多个元信息项目。从所提取的元信息项目中分析高级元信息，以导出表达了什么事件以及在多个图像中事件与谁相关。基于与所导出的事件相对应的规则信息项目，从多个图像中选择代表所导出的事件的代表性图像。针对每个组输出所选择的代表性图像的缩略图像。

根据本发明的又一实施例，提供了一种程序，该程序使得电子装置执行存储步骤、提取步骤、导出步骤、选择步骤以及输出步骤。在存储步骤中，存储以下内容：被分类为多个组的多个图像；多个事件特征信息项目，该多个事件特征信息项目指示每个事件所特有的对象的特征；以及多个规则信息项目，该多个规则信息项目指示用于为每个组选择代表由多个图像表达的事件的代表性图像的规则，该多个规则信息项目针对每个事件和与事件相关的每个人是不同的。在提取步骤中，基于多个事件特征信息项目，从每个组的多个图像中提取多个元信息项目。在导出步骤中，通过从所提取的元信息项目中分析高级元信息，以导出表达了什么事件以及在多个图像中事件与谁相关。在选择步骤中，基于与所导出的事件相对应的规则信息项目，从多个图像中选择代表所导出的事件的代表性图像。在输出步骤中，针对每个组输出所选择的代表性图像的缩略图像。

如上所述，根据本发明的实施例，可以从与某个事件相关的多个图像中选择反映了事件的细节并适于作为代表性图像的图像。

鉴于以下对其最佳模式实施例的详细描述(如附图中所示)，本发明的这些和其他对象、特征和优点将变得更加明显。

附图说明

图1是示出了根据本发明的实施例的PC的硬件结构的示图；

图2是示出了用于由根据本发明的实施例的PC的图像显示应用选择代表性图像的功能性框的示图；

图3是示出了图2中的代表性图像选择单元的细节的示图；

图4是示出了由根据本发明的实施例的PC的代表性图像选择处理的流程的流程图；

图5是概念性地示出了处理的示图，其中，根据本发明的实施例的PC从从属元信息导出最高级元信息；

图6是概念性地示出了在本发明的实施例中的从运动图像数据选择代表性图像的选择处理的状态的示图；

图7是示出了在本发明的实施例中的代表性图像的缩略图的显示示例的示图；

图8是示出了在本发明的另一实施例中的代表性图像的缩略图的显示示例的示图；

图9是示出了在本发明的又一实施例中的代表性图像的缩略图的显示示例的示图；以及

图10是示出了根据本发明的另一实施例的PC的代表性图像选择处理的流程的流程图。

具体实施方式

以下，将参照附图来描述本发明的实施例。

(PC的硬件结构)

图1是示出了根据本发明的实施例的PC(个人计算机)的硬件结构的示图。如图1所示，PC100设有CPU(中央处理单元)11、ROM(只读存储器)12、RAM(随机访问存储器)13、输入和输出接口15以及彼此连接以上那些组件的总线14。

当必要时，CPU11访问RAM13等，并且在执行各种类型的计算处理的同时，执行PC100的整个框的总体控制。ROM12是非易失性存储器，其中固定存储了将被CPU11执行的OS以及诸如程序的固件和多种参数。RAM13被用作CPU11的工作区域等，并且，临时存储OS、执行中的各种应用或者正被处理的各种数据项目。

显示器16、输入单元17、存储器18、通信单元19、驱动单元20等连接到输入和输出接口15。

显示器16是使用液晶、EL(电致发光)、CRT(阴极射线管)等的显示设备。显示器16可被内嵌在PC100中，或者可从外部连接到PC100。

输入单元17例如是诸如鼠标、键盘、触摸面板或另一操作装置之类的定位设备。在输入单元17包括触摸面板的情形中，触摸面板能够与显示器16集成。

存储器18是诸如HDD(硬盘驱动器)、闪存和另一固态存储器的非易失性存储器。在存储器18中，存储了OS、各种应用以及各种数据项。具体地，在此实施例中，从记录介质5载入的运动图像、静止图像等的数据以及用于显示运动图像或静止图像的缩略图的列表的图像显示应用也被存储在存储器18中。

图像显示应用能够将多个运动图像或静止图像分类为多个组，针对每个组导出由运动图像或静止图像所表达的事件，并且选择代表该事件的代表性图像。存储器18还存储个人特征信息和事件特征信息，该个人特征信息对导出事件是必要的并且指示与PC100的用户具有预定关系的人(父母、配偶、孩子、兄弟、朋友等)的特征，该事件特征信息指示某事件所特有的对象的特征。

驱动单元20驱动诸如存储卡、光记录介质、软盘(注册商标)和磁记录盘之类的可移除记录介质5，读取记录在记录介质5上的数据，并且将数据写入到记录介质5。通常，记录介质5是插入到数字相机中的存储卡，并且PC100从自数字相机中取出并插入到驱动单元20中的存储卡读取静止图像或运动图像的数据。数字相机和PC100可通过USB(通用串行总线)线缆等连接，以将静止图像或运动图像从存储卡载入到PC100，该存储卡被插入在数字相机中。

通信单元19是可与LAN(局域网)、WAN(广域网)等连接并用于与另一装置通信的NIC(网络接口卡)等。通信单元19可执行有线或无线通信。

(PC的软件结构)

如上所述，PC100能够将静止图像或运动图像分类为多个组，并且针对每个组由图像显示应用选择和显示代表性图像(最佳拍摄)。此处，在运动图像的情形中，该组指由多个帧组成的一次拍摄或一个场景，或者，在静止图像的情形中，该组例如指在相同的日期和时间或在相同的时间段内捕获的图像组。图2是示出了用于由PC100的图像显示应用选择代表性图像的功能框的示图。

如图2所示，PC100包括读取单元21、运动图像解码器22、音频解码器23、静止图像解码器24、运动图像分析单元25、音频分析单元26、静止图像分析单元27、高级(superordinate)意义信息分析单元28以及代表性图像选择单元29。

读取单元21从记录介质5中读取运动图像内容或静止图像数据。静止图像数据是针对例如对应于日期或时间段的每个组被读取的。在已读取的数据是运动图像内容的情形中，读取单元21将运动图像内容划分为运动图像数据和音频数据。然后，读取单元21将运动图像数据输出到运动图像解码器22，将音频数据输出到音频解码器23，并且将静止图像数据输出到静止图像解码器24。

运动图像解码器22对运动图像数据解码，并且将数据输出到运动图像分析单元25。音频解码器23对音频数据解码，并且将数据输出到音频分析单元26。静止图像解码器24对静止图像数据解码，并且将数据输出到静止图像分析单元27。

运动图像分析单元25从运动图像数据提取客观(objective)特征信息，并且基于特征信息提取从属(subordinate)元信息(意义信息)。以同样的方式，音频分析单元26和静止图像分析单元27分别从音频数据和静止图像数据提取客观特征信息，并且基于该特征信息提取从属元信息。为了提取从属元信息，使用了个人特征信息或事件特征信息。另外，为了提取从属元信息，还使用了描述在如下文档中的技术：UnderstandingVideoEvents：ASurveyofMethodsforAutomaticinterpretationofSemanticOccurencesinVideo，GalLavee，EhudRivlin，和MichaelRudzsky，IEEETRANSACTIONSONSYATEMS，MAN，ANDCYBERNETICS-PARTC：APPLICATIONSANDREVIEWS，VOL.39，NO.5，2009年9月。

在提取特征信息时，运动图像分析单元25执行诸如颜色和纹理特征提取、梯度(gradient)计算和边缘提取之类的基于像素的处理，或者执行诸如人体或脸部的检测和识别、对对象的识别、对人体、脸部或对象的运动检测和速度检测之类的基于对象的处理。在人体检测中，运动图像分析单元25使用指示人体形状等的特征过滤器，从而从运动图像中检测指示人体的区域。在脸部检测中，运动图像分析单元25例如使用指示眼睛、鼻子、眼睫毛、头发、脸颊等的位置关系或皮肤颜色信息的特征的特征过滤器，从而从运动图像中检测指示脸部的区域。

另外，运动图像分析单元25不仅识别人体或脸部的存在或不存在，而且，还通过利用个人特征信息识别具有与用户的预定关系的具体个人。例如，作为个人特征信息，使用了边缘强度图像特征、频度强度图像特征、更高阶自动相关特征、颜色转换图像特征等。例如，在使用边缘强度图像的情形中，运动图像分析单元25将灰度(grayscale)图像和边缘强度图像存储作为将被识别的个人(诸如父母、孩子、配偶和朋友的个人)的特征数据，以同样的方式从其脸部被检测的个人的脸部图像中提取灰度图像和边缘强度图像，并且对二者的灰度图像和二者的边缘强度图像执行模式匹配，从而识别具体个人的脸部。

在对象识别中，运动图像分析单元25使用被作为事件特征信息存储的识别模型，从而判定是否包括将被识别的对象。识别模型是通过诸如SVM(支持向量机)的机器学习预先从用于学习的图像中构建的。

另外，除了在运动图像中的个人和对象外，运动图像分析单元25还能够识别背景。例如，运动图像分析单元25使用通过诸如SVM的机器学习预先从用于学习的图像中构建的模型，以将运动图像的背景分类为诸如小镇、室内、室外、海岸、水中景、夜景、日落、雪景以及拥塞之类的场景。

音频分析单元26从音频数据检测人的语音、除了人以外的环境中的声音、以及诸如功率和音调的在特征信息的提取中的特征。为了区分人的语音和环境中的声音，例如使用预定功率的音频的持续时间等。

在提取特征信息时，静止图像分析单元27执行能够被运动图像分析单元25所执行的分析处理之外的静态处理，例如颜色和纹理特征提取、梯度计算、边缘提取、对人体、脸部或对象的检测以及对背景的识别。

另外，在诸如文本之类的标记(标签)信息被包含在每个数据项目中的情形中，分析单元25到27将标记信息提取作为特征信息。例如，指示事件的细节的信息或者拍摄图像的日期和时间的信息，以及拍摄图像的位置的信息可被用作标记信息。

基于由分析单元25到27中每一个所提取的特征信息，分析单元25到27提取添加了更具体的意义的从属元信息(意义信息)。

例如，基于所提取的人体特征或脸部特征，运动图像分析单元25将个人、人的性别、年龄、脸部表情、姿态、服装、人数、阵形等识别作为从属元信息。另外，基于运动特征，运动图像分析单元25识别活动的或非活动的运动、快速的或缓慢的运动、或者诸如站立、坐下、走路和跑步之类的人体活动，或者识别用人手表达的手势等。

音频分析单元26从例如所提取的音频特征中提取来自发言者的掌声、欢呼、声音、对应于语音的感觉、笑声、哭声、谈话的细节、基于回声所获得的特殊程度等作为从属元信息。

静止图像分析单元27从能够被运动图像分析单元25所识别的元信息中识别不与运动特征相关的元信息。

例如，针对如上所述的对从属元信息的提取，可使用一种基于诸如贝叶斯网络的状态空间代表、有限状态机、条件随机场(CRF)，以及隐藏马尔可夫模型(HMM)的方法、一种基于诸如逻辑方法的意义模型、诸如皮特里网(Petrinet)的离散事件系统，以及受限满意度模型、诸如SVM的传统模式识别/分类方法的方法、最近邻居方法，以及中性网或者多种其他方法。

高级意义信息分析单元28基于由分析单元25到27中的每一个所提取的从属元信息分析高级元信息，并且导出最高级元信息，其能够说明运动图像的一次拍摄或一组静止图像的全部，即，一个事件。为了导出事件，还使用了在如下文档中公开的技术：EventMininginMultimediaStreams：Researchonidentifyingandanalyzingeventsandactivitiesinmediacollectionshadledtonewtechnologiesandsystems，LexingXie，HariSundaran，MurrayCampbell，ProceedingsoftheIEEEVol.96，No.4，2008年4月。

具体地，基于从属元信息项目，高级意义信息分析单元28分析与谁(Who)、什么(What)、何时(When)、哪里(Where)、为什么(Why)以及如何(How)(以下，称为5W1H)相对应的多个元信息项目，逐步提高抽象的等级，并且最终将运动图像的一次拍摄或多个静止图像分类为一个事件。

例如，从运动图像或静止图像中，提取出诸如“大量孩子”、“大量父母和孩子”，以及“体育服装”之类的与人相关的元信息，诸如“活动的运动”和“跑步形式”之类的与人的动作相关的元信息，以及诸如“学校建筑物”之类的与通用对象相关的元信息。从声音中，提取出诸如“通过扬声器的人的语音”、“掌声”和“笑声”之类的元信息。另外，在获取了诸如“小学”之类的位置信息、诸如“秋季”之类的季节(日期和时间)信息等作为其他元信息的情形中，高级意义信息分析单元28通过集成这些信息项目导出可感知的一个事件，“小学中的运动会”。

另外，例如，关于5W1H的元素中的元素“谁”，高级意义信息分析单元28能够通过利用指示具体个人的文字来表达事件。换言之，在与拍摄图像的人(用户)、家庭成员等相关的从属元信息被提取作为指示“谁”的信息的情形中，高级意义信息分析单元28利用信息自身作为从属元信息，以判定“男孩A的小学中的运动会”的事件。

在事件(最高级元信息)被高级意义信息分析单元28导出之后，代表性图像选择单元29从运动图像的一次拍摄或多个静止图像中选择最好地表达(代表)事件的图像(在运动图像的情形中是帧)。图3是示出了图2中的代表性图像选择单元29的细节的图。

如图3所示，代表性图像选择单元29包括规则选择单元31、分数计算单元32、代表性图像输出单元33以及规则信息存储器34。

规则信息存储器34将规则信息存储作为用于针对每个已抽象的事件选择最佳代表性的图像的参考。换言之，针对图像显示应用能够识别的每个事件和与该事件有关的每个人，规则信息存储器34保留用于提取事件的元信息(从属意义信息或客观特征信息)的重要度。此处，重要度是当代表性图像被选择时将使用的参考的优先次序。

例如，在上述“男孩A的小学的运动会”的事件被导出的情形中，以下项目被包括作为优先项目。

(1)“男孩A出现在图像中”(脸部被聚焦并且未被模糊化)

(2)“男孩A有活动的姿势”(优选地在运动期间)

(3)“男孩A微笑了”

另一方面，在所导出的事件仅表达了“小学中的运动会”的情形中，采用以下的优先项目。

(1)“尽可能多地在图像中出现小学学生的脸”

(2)“有活动的姿势”

(3)“许多微笑的人”

但是，在此情形中，即便当事项“特定的人出现在图像中”被包括在规则信息中时(与和“男孩A的小学中的运动会”的上述事件的规则类似)，也不会有任何问题，并且结果是，包括“男孩A”的图像被选择作为代表性图像。

以这种方式，通过设置用于针对由高级意义信息分析单元28所导出的每个事件选择代表性图像的规则，可以选择更好地反映事件的细节的更合适的代表性图像。

然后，规则信息存储器34存储分数信息，该分数信息指示与被包括作为规则信息的优先项目中的每一个的重要度相对应的分数。

规则选择单元31从规则信息存储器34中读取针对每个事件的规则信息。

根据包括在上述规则信息中的分数信息，分数计算单元32计算针对每个图像(静止图像或帧)所提取的高级/从属元信息的分数。例如，在上述运动会的示例中，必要的条件是“男孩A出现的照片”。分数计算单元32针对每个元信息项目添加预定分数，例如，当在照片中“男孩A出现且其未被失焦并模糊的帧”时添加+100，当男孩A具有“活动的姿势”时+50，或者当男孩A带有“微笑”时+50，并且计算每个图像的总分。

代表性图像输出单元33将从运动图像的一次拍摄或一个组中的多个静止图像中由分数计算单元32所计算出的具有最高分数的图像选择作为代表性图像，并且输出该图像。

(PC的操作)

接下来，将给出对如上所述构造的PC100的代表性图像选择操作的描述。在以下描述中，PC100的CPU11是操作主体。但是，以下操作还与另一硬件或诸如图像显示应用之类的软件协同执行。图4是示出了PC100的代表性图像选择处理的流程的流程图。

如图4所示，CPU11首先如上所述由分析单元25到27提取从属元信息(步骤41)，然后由高级意义信息分析单元28导出最高级元信息，即，一个事件(步骤42)。图5是概念性地示出了从从属元信息中导出最高级元信息的处理的示图。

如图5所示，CPU11首先从某个组的多个照片10中提取与“谁”和“什么”相对应的从属元信息项目。例如，诸如“孩子(包括用户的孩子)”或“带有微笑的家庭成员”之类的元信息被提取作为与“谁”相对应的从属元信息，并且，诸如“体育服装”、“跑步”、“运动姿势”、或“烹饪”之类的元信息被提取作为与“什么”相对应的从属元信息。

然后，CPU11从上述与“谁”相对应的从属元信息中提取“孩子”的高级元信息，并且从上述与“什么”相对应的从属元信息中提取“体育事件”的高级元信息。

然后，CPU11从“孩子”的元信息和“体育事件”的元信息中提取“用户的孩子参与其中的孩子的体育事件”的更高级元信息。

另外，作为除了与“谁”和“什么”相对应的元信息以外的元信息，CPU11将来自照片10的提取作为GPS信息(位置信息)的“小学”的元信息、通过分析背景场景所提取的“操场”的元信息、以及提取作为日历信息(日期和时间信息)的“秋季”的元信息与“用户的孩子参与其中的孩子的体育事件”的元信息相集成，从而最终导出“用户的孩子的小学中的运动会”的最高级元信息(事件)。

返回参照图4，随后，CPU11根据所导出的事件，由代表性图像选择单元29的规则选择单元31确定用于选择代表性图像所必需的规则信息(步骤43)。

然后，CPU11基于上述规则信息，针对某个目标组的多个静止图像或者组成运动图像的一次拍摄的多个帧中的每一个计算每个元信息项目的分数，并且相加那些分数(步骤44到48)。

然后，CPU11从多个静止图像或运动图像的帧中确定具有已计算的最高分数素的静止图像或帧，将其作为代表性图像(步骤49)。

此处，将给出关于从运动图像数据中选择代表性图像的细节的描述。图6是概念性地示出了从运动图像数据中选择代表性图像的选择处理的状态的示图。

在运动图像的所有帧都是静止图像的假定下，从运动图像数据中选择代表性图像的选择处理可通过与静止图像完全相同的方法来执行。但是，在实际情况中，当处理由不同的方法执行时，效率得到提高。

如图6所示，CPU11例如基于通过诸如对运动向量的检测(摄影技术)或提取主题之类的处理所提取的客观特征信息，将原始运动图像60的一次拍摄划分成多个场景65。针对此后所执行的处理，考虑两种方法。

如在图6的左下部分所示的，在第一种方法中，例如，在由整个运动图像60所表达的事件是基于标记信息或其他元信息所指示的情形中，针对每个场景65，CPU11首先选择表达了事件的一个最佳场景65，同时考虑诸如主题的运动之类的运动图像所特有的特征。在这之后，CPU11从所选择的场景65的帧中，在与上述静止图像组相同的框架内选择代表性帧。

如在图6的右下部分所示的，在第二种方法中，CPU11首先基于客观特征从场景65的帧中缩窄代表性帧。在这之后，CPU11从已缩窄的帧中在与上述静止图像相同的框架内选择代表性帧。在这种情形中，同样在各自场景65的缩窄代表性帧的处理中，在一个场景是一个事件的假定下，CPU11可通过与选择最终代表性帧相同的处理来选择每个代表性帧。

返回参照图4，当选择了代表性图像时，CPU11创建代表性图像的缩略图(步骤50)，并且在显示器16上显示缩略图(步骤51)。

图7是示出了代表性图像的缩略图的显示示例的示图。如在图7的上部所示的，例如，在代表性图像被选择之前，照片10的缩略图10a被显示作为矩阵中的列表。缩略图10a可基于日期等针对每个组(文件夹)被显示。在图7的上部，属于多个组的照片10的缩略图10a被显示作为列表。

当上述的代表性图像选择处理在预定定时从这种状态被执行时，如图7的下部所示，该组的代表性图像的缩略图70被显示，而非照片10的缩略图10a。缩略图70中的每一个被显示，使得指示该组中的照片10的多个矩形被彼此堆叠在一起，并且缩略图70位于矩形的最上端，以便用户能够理解缩略图70表达了照片10的代表性图像。

(总结)

如上所述，根据此实施例，PC100从多个图像(静止图像/运动图像)提取从属元信息项目，并且将该从属元信息项目与PC100所导出的高级元信息的结果(即，事件)相集成，并且随后根据针对每个事件所设置的规则信息选择代表性图像。因此，PC100能够向用户呈现反映了事件的细节并且适于作为代表性图像的图像。相应地，用户能够从大量图像中轻松地理解事件并且组织图像。另外，PC100导出事件的“什么”和谁的事件(“谁”)，并且基于所导出的结果选择代表性图像，通过该结果，用户能够更容易地理解事件。

(修改例)

本发明并不限于以上的实施例，并且，在不偏离本发明的要旨的前提下，能够被以多种方式变更。

在以上实施例中，如图7所示，PC100显示在堆叠的矩形中的最上端矩形上的每个代表性图像的缩略图70，但是代表性图像的显示模式并不限于此。图8和图9是示出了代表性图像的缩略图70的其他显示模式的示图。

在第一个示例中，如图8所示，PC100可基于日期等将多个照片的缩略图10a划分成组(簇)，显示缩略图10a以便在每个簇中彼此随机重叠，并且在每个组的簇的邻近处显示每个组的代表性图像的缩略图70。

在此情形中，作为簇，可以选择具有上述更高分数的元信息的预定数量的照片，而非属于该组的所有照片的缩略图，并且可以显示具有更高分数的照片以使其位于前端。另外，可以显示具有更高分数的照片，以使得其具有更大的可见区域。此处，例如，分类为多个组的操作可以类似图像为单位而非日期为单位来执行。另外，例如，所导出的事件的名称可被显示在每个簇的邻近处，而非显示在图8中的日期。事件的名称指示事件的“什么”和谁的(“谁”)。

在第二个示例中，如图9所示，针对每个事件，PC100不仅可以分层次显示代表性图像的缩略图70，还可以分层次显示表达了事件中的子事件的子代表性图像的缩略图75。在这种情形中，还可以显示事件名71和子事件名72。

在图9的示例中，关于“女孩A的运动会”的事件，代表性图像的缩略图70和事件名71被显示在层次的顶层中。在第二层中，显示了子事件名72，该子事件名表达了对应于“家”-＞“实际运动会”-＞“家”的时间进程的第一子事件。在第三层中，针对第一子事件中的每一个，显示了子事件名72和子事件名72的子代表性图像的缩略图75，该子事件名表达了“早餐”、“入场”、“投球(其中，球被投入篮筐)、“赛跑”、“晚餐”以及“上床睡觉”的第二子事件。

为了执行这种分层次显示方法，PC100需要比上述图5中所示出的方法理解事件的更多细节。换言之，PC100需要以能够导出子事件名的程度详细识别和分类从属元信息。作为该方法的示例，例如，PC100可针对与“谁”和“什么”相对应的从属元信息项目中的每一个导出子事件，并且在图5中所示出的方法中针对每个子事件选择代表性图像。在此情形中所使用的规则信息不一定如在上述实施例的规则信息的情形中的针对每个具体个人来准备(因为可能存在不与人相关的子事件)，并且由此，仅需准备每个子事件的具体信息。

在上述的实施例中，从属元信息和高级元信息由PC100提取，但是，那些信息项目中的至少一部分可由另一设备提取，并且当图像被输入到PC100时可与图像一起被输入。例如，照片的从属元信息项目可由数字相机在照片拍摄时被提取，并且与照片一起被输入到PC100，然后，PC100可从那些从属元信息项目提取高级元信息。另外，脸部检测、夜景检测等中的从属元信息(其能够被数字相机以相对小的计算量提取)可被数字相机提取。运动检测、通用对象识别等中的元信息(其中，提取所必需的计算量变得相对较大)可被PC100提取。另外，元信息可被在网络中替代PC100的服务器提取，并且经由通信单元19被输入到PC100。

另外，在以上实施例中由PC100所执行的处理还能够被如下设备执行：电视装置、数字静止相机、数字视频相机、移动电话、智能电话、记录和再现装置、游戏机、PDA(个人数字助理)、电子图书终端、电子词典、便携AV设备以及任意其他电子装置。

在以上实施例中，如图4所示，在事件被导出之后，相应地计算元信息项目的分数。但是，可在当从图像中提取从属元信息的处理被执行的同一时刻计算分数。图10是示出这种情况下的代表性图像选择处理的过程的流程图。

如图10所示，CPU11由分析单元25到27提取从属元信息以计算每个元信息项目的分数，并且与图像相关联地存储该分数(步骤81)。然后，在事件被导出之后，CPU11载入每个图像的所存储的分数(步骤85)，并且将所存储的分数相加(步骤86)，由此选择代表性的图像(步骤88)。

在上述实施例中，分析单元25到27和高级意义信息分析单元28的从属元信息和高级元信息提取处理并不限于上述的处理。换言之，可执行任意处理，只要提取出用作用于描述各自图像的某些客观特征的从属元信息以及从从属元信息项目导出的高级元信息即可。例如，每个元数据项目可以是被个人添加作为标记信息的信息项目。

在代表性图像选择单元29的规则选择单元31中，虽然不是必须的，但是希望可以针对所有类型的事件预先对元信息项目进行排序，该事件能够被图像显示应用所识别。例如，PC100可特别仅针对具有高使用频率(导出频率)的事件组预先生成清晰的规则信息，并且关于其他事件将该规则信息用通用规则替代。通用规则指诸如“构成质量”或“波动/模糊”的程度(实际上通过学习所导出或获得)的从属元信息项目或客观特征量的优先次序。另外，在具有高使用频率的事件组的规则信息被生成的情形中，用户可主观地对各自元信息项目执行权衡，或者可采用某用类型的机器学习方法。

在上述的实施例中，分数计算单元32基于元信息的“存在或不存在”来计算总分，但是，该分数可以是连续(阶梯式的)的评估值，诸如活动的程度或微笑的程度，而非“存在”和“不存在”两个值。那些元信息项目可被分数计算单元32计算，或者可被图2的分析单元25到27计算。换言之，能够在分析单元25到27中执行处理，其不仅包括与事件的导出直接相关的元信息，还包括用于稍后选择代表性图像的信息。

另外，在上述实施例中的规则选择单元31和分数计算单元32的组合中，能够通过机器学习计算各个事件的分数。通过机器学习来确定分数，与预先针对各个事件来主观设置分数的情形相比，考虑到了许多元信息项目，其结果是事件能够被更准确地导出。

在上述实施例中，基于一次拍摄或者运动图像的一个场景，代表性图像被选择并被显示。但是，例如，代表性图像可被用于运动图像编辑处理。换言之，虽然在现有技术中帧的缩略图在由用户指定的编辑点处被显示，以便指示在一次拍摄中的场景转换，但是，代表性图像的缩略图可被显示。另外，例如，当执行场景搜索时，可显示每个场景的代表性图像，而非如在现有技术中的显示在预定帧间隔处所提取的帧。相应地，用户对场景的可访问性得到了提高。

本申请包含与在2010年3月31日向日本专利局递交的JP2010-084557号日本优先权专利申请中公开的内容相关的主题，该申请的全部内容通过引用被结合于此。

本领域技术人员应当理解，取决于设计要求和其他因素，可以发生各种修改例、组合例、子组合例和变化例，只要它们在权利要求或其等同物的范围内即可。

Claims

1.一种电子装置，包括：

存储器，所述存储器被配置用于存储

被分类为多个组的多个图像，

多个事件特征信息项目，所述多个事件特征信息项目指示每个事件所特有的对象的特征，以及

多个规则信息项目，所述多个规则信息项目指示用于为每个组选择代表由所述多个图像表达的事件的代表性图像的规则，并且所述多个规则信息项目针对每个事件和与所述事件相关的每个人是不同的；

控制器，所示控制器被配置用于

基于所述多个事件特征信息项目从每个组的多个图像中提取多个元信息项目，

从所提取的多个元信息项目中分析高级元信息，以导出所述多个图像表达了什么事件以及该事件与谁有关，以及

基于与所导出的事件相对应的规则信息项目，从所述多个图像中选择代表所导出的事件的所述代表性图像；以及

输出单元，所述输出单元被配置用于针对每个组输出所选择的代表性图像的缩略图像。

2.如权利要求1所述的电子装置，其中，

所述存储器存储个人特征信息，该个人特征信息指示与用户具有预定关系的人的特征，并且

所述控制器基于所述个人特征信息和所述多个事件特征信息项目来提取所述多个元信息项目。

3.如权利要求2所述的电子装置，其中，

针对每个事件，所述多个规则信息项目包括将被包括在所述代表性图像中的多个元信息项目以及多个分数信息项目，该多个分数信息项目的每一个指示与每个元信息项目的重要度相对应的分数，并且

所述控制器基于所述多个分数信息项目，将与所述多个图像的各自元信息项目相对应的分数相加，并且将具有最高分数的图像选作所述代表性图像。

4.如权利要求3所述的电子装置，其中，

所述输出单元与所述缩略图像一起输出字符信息，该字符信息指示所述事件表达了什么事件以及所述事件和谁相关。

5.如权利要求3所述的电子装置，其中，

所述控制器选择具有高分数的预定数目的代表性图像，并且输出所述预定数目的代表性图像的缩略图像，使得具有较高分数的所述代表性图像具有较大的可见区域。

6.一种图像处理方法，包括：

存储以下内容：

被分类为多个组的多个图像，

基于所述多个事件特征信息项目，从每个组的多个图像中提取多个元信息项目；

从所提取的多个元信息项目中分析高级元信息，以导出所述多个图像表达了什么事件以及该事件与谁有关；

针对每个组输出所选择的代表性图像的缩略图像。