CN101383935A

CN101383935A - 数据处理装置、数据处理方法及数据处理程序

Info

Publication number: CN101383935A
Application number: CNA2008101475799A
Authority: CN
Inventors: 石井利贞
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2007-09-03
Filing date: 2008-09-03
Publication date: 2009-03-11
Also published as: JP2009059445A; EP2031593A1; US20090059008A1; US8400513B2; JP4424396B2

Abstract

本发明公开了数据处理装置、数据处理方法及数据处理程序。一种数据处理装置包括：检测部分，用于从运动图像数据中检测对象的图像；表创建部分，用于基于检测部分的检测结果将指示在运动图像数据上的位置的位置信息记录在表中；转录处理部分，用于对运动图像数据执行转录处理；以及控制部分，用于控制转录处理部分，以便基于在表中记录的位置信息提取在第一记录介质上记录的运动图像数据的一部分，并对所提取的部分执行所述转录处理以将其转录到第二记录介质上。

Description

数据处理装置、数据处理方法及数据处理程序

技术领域

本发明涉及数据处理装置、数据处理方法及数据处理程序，其能够容易地从视频数据中提取预定部分。

背景技术

近年来，针对便携式摄像机等，正在开发具有内置硬盘的许多产品，所述内置硬盘用作其上记录有所捕获的运动图像数据的记录介质。例如，摄像机包括具有数十千兆字节(GB)或者数百千兆字节(GB)或更多字节的记录容量的硬盘，将通过捕获对象图像而获得的视频数据压缩编码为预定格式，并且将数据记录到硬盘中。摄像机可以对来自硬盘的所记录的视频数据进行回放和解码，以便将视频图像显示到在摄像机上布置的显示单元上。可替换地，摄像机可以将视频数据输出到外部，以便将视频图像显示在具有更大屏幕的显示单元上。

另外，诸如摄像机的内置硬盘之类的内置记录介质具有有限的记录容量。因此，为了存储所记录的视频数据，有必要将视频数据转录到可从摄像机拆下的记录介质(例如可记录DVD(数字通用光盘))上。另外，当用户将所记录的视频数据给予例如相识之人等时，用户一般将视频数据转录到可记录DVD上，然后将该DVD给予所述相识之人。

作为另一示例，当回放所记录的视频数据以供观看时，如果感兴趣的场景(例如其中出现感兴趣的人的场景)被从视频数据中提取出，然后视频数据被剪辑，并且所剪辑的视频数据被记录到可记录DVD(在下文中，“可记录DVD”被简称为“DVD”)上，那么可以高效地仅回放所要观看的视频。另外，在这种情况下，与转录包括不必要场景的视频数据的情况相比，在硬盘上记录的视频数据的转录时间优选变得更短。

日本未经审查的专利申请公开No.2004-221884已经公开了这样一种技术，其中从在记录介质上记录的视频数据中提取感兴趣的场景以供剪辑，并且采集所剪辑的视频数据以转录到另一记录介质上。

发明内容

迄今为止，从视频数据提取感兴趣的场景、进行剪辑以及转录所剪辑的视频数据仅是由用户在观看实际视频的同时手工进行的。例如，用户重复地执行通过回放视频数据并指定场景的起始位置(入点)和结束点(出点)来寻找感兴趣的场景的工作。一直存在一个问题，即这样的工作非常费力并且耗时，并且如果用户不习惯该工作的话，剪辑工作本身就会使用户感到痛苦。

因此希望提供数据处理装置、数据处理方法和数据处理程序，其能够容易地从视频数据中选择预定场景并执行转录。

为了解决上面描述的问题，根据本发明的一种实施例，提供了一种数据处理装置，包括：检测部分，用于从运动图像数据中检测对象的图像；表创建部分，用于基于检测部分的检测结果将指示在运动图像数据上的位置的位置信息记录在表中；转录处理部分，用于对运动图像数据执行转录处理；以及控制部分，用于控制转录处理部分，以便基于在表中记录的位置信息提取在第一记录介质上记录的运动图像数据的一部分，并对所提取的部分执行所述转录处理以将其转录到第二记录介质上。

根据本发明的另一实施例，提供了一种处理数据的方法，包括：从运动图像数据中检测对象的图像；基于检测步骤的检测结果将指示在运动图像数据上的位置的位置信息记录在表中；对运动图像数据执行转录处理；以及控制执行转录处理的步骤，以便提取在第一记录介质上记录的运动图像数据的一部分，并对所提取的部分执行所述转录处理以将其转录到第二记录介质上。

根据本发明的另一实施例，提供了一种用于使计算机执行处理数据的方法的程序，包括：从运动图像数据中检测对象的图像；基于检测步骤的检测结果将指示在运动图像数据上的位置的位置信息记录在表中；对运动图像数据执行转录处理；以及控制执行转录处理的步骤，以便提取在第一记录介质上记录的运动图像数据的一部分，并对所提取的部分执行所述转录处理以将其转录到第二记录介质上。

如上所述，通过本发明的实施例，基于从运动图像数据中检测对象的图像的检测结果将指示在运动图像数据上的位置的位置信息记录在表中，对运动图像数据执行转录处理，并且控制转录，以便基于在表中记录的位置信息提取要在第一记录介质上记录的运动图像数据的一部分，并对所提取的部分执行所述转录处理以将其转录到第二记录介质上。因此，可以基于表从在第一记录介质中记录的运动图像数据中提取如下部分，在所述部分中检测到对象的图像。

附图说明

图1A-B是图示根据本发明的在记录时的处理示例的示意图；

图2A-B是图示根据本发明的在记录时的处理示例的示意图；

图3A-B是图示根据本发明的在记录时的处理示例的示意图；

图4A-B是图示根据本发明的在记录时的处理示例的示意图；

图5是用于图示根据本发明的转录处理的示意图；

图6是图示根据本发明第一实施例的转录处理的示例的流程图；

图7是图示可以应用本发明的第一实施例的成像装置的配置示例的框图；

图8是用于图示脸部检测片段和流数据中的位置之间的关系的示例的示意图；

图9A-C是用于图示本发明第一实施例的第一变体的示意图；

图10是图示根据脸部图像数目的改变记录有一项的脸部检测播放列表的示例的示意图；

图11A-B是用于图示第一实施例的第二变体的设置转录范围的方法的示意图；

图12是图示在识别脸部图像的个人的情况下脸部检测播放列表的示例的示意图；以及

图13是图示根据本发明第二实施例的转录处理的示例的流程图。

具体实施方式

在下文中，将给出对本发明第一实施例的描述。在本发明中，例如在成像装置中，在基于成像信号记录运动图像数据时检测所捕获图像中包括的对象的图像，并且基于检测结果生成其中记录有用于指定运动图像数据的回放片段的信息的表。要检测的对象例如是人脸。当记录的运动数据被转录到另一记录介质上时，利用该表，只有检测到对象的片段被选择性转录。从而，可以从运动图像数据中提取出特定场景，并极其容易地执行转录工作。

将利用图1A至5给出对本发明的一般描述。图1A至4B示出了记录时的处理的示例。如图1A所示，对运动图像数据的记录根据记录开始指令而开始，并且记录根据记录停止指令而停止。这里，通过设置预定标记对运动图像数据限定了一个场景。也就是说，通过对运动图像数据设置的第一和第二标记形成了一个场景。例如，通过自动在记录开始时刻和记录停止时刻设置标记，自动形成了具有从记录开始位置到记录停止位置的片段的场景。在图1A的示例中，通过记录开始和记录停止形成了场景#1。

运动图像数据的记录是对例如内置在硬盘等中的记录介质(下文中称为内置记录介质)执行的。在这点上，指示标记位置的标记信息以预定方式被保存作为运动图像数据的管理信息。管理信息与相应的运动图像数据相联系地被记录在内置记录介质上。

场景#1的运动图像数据例如受到针对每一帧的图像分析，并且检测包括对象图像的帧。在下文中，对象假定是人脸，并且假定检测到包括人脸图像(下文中称为脸部图像)的帧。在图1A的示例中，脸部图像是在场景#1中从时刻a到时刻b的片段中检测到的。在这点上，时刻a和时刻b分别指示相对参考时间的帧的回放时刻，例如记录起始点等。

脸部图像的检测结果被记录在脸部检测播放列表中。例如，如图1B的示例所示，脸部检测播放列表是这样一个表，其中用于识别脸部图像检测场景的信息(在该示例中是场景号)和脸部图像检测片段的起始点和结束点的时间信息被分别记录。在图1A的示例中，脸部图像是在场景#1中时刻a和时刻b之间的片段中检测到的。因而，如图1B所示，场景#1作为列表号#1，并且记录了时刻a和时刻b。

在这点上，关于场景的起始点和结束点的信息被单独生成作为运动图像数据的管理信息，并且被记录。

假定在场景#1的记录停止之后，记录再次开始以形成场景#2，并且如图2A的示例所示，作为对场景#2的运动图像数据的图像分析的结果，在从时刻c到时刻d的片段中检测到了脸部图像。在这种情况下，如图2B的示例所示，场景#2以及分别指示新检测到脸部图像的片段的起始点和结束点的时刻c和时刻d被添加到脸部检测列表中基于上述对场景#1的脸部图像的检测结果的列表号#1的信息上，作为列表号#2的信息。

图3A-B图示了在场景的运动数据中未检测到脸部图像的情况下的示例。也就是说，在场景#2的记录停止之后，记录再次开始以形成场景#3。如图3A的示例所示，作为对场景#3的运动图像的图像分析的结果，在场景#3中未检测到脸部图像。在这种情况下，当然也不向脸部检测播放列表添加任何信息(参考图3B)。

图4A-B是对于一个场景有多个脸部图像检测片段的情况下的示例。也就是说，假定在场景#3的记录停止之后，记录再次开始以形成场景#4，并且如图4A的示例所示，作为对场景#4的运动图像数据的图像分析的结果，在从时刻e到时刻f的片段中以及在从时刻g到时刻h的片段中检测到了脸部图像。在这种情况下，如图4B的示例所示，与从时刻e到时刻f的片段相对应的信息和与从时刻g到时刻h的片段相对应的信息(在这些片段中新检测到脸部图像)被分别另外记录。也就是说，在图4B的示例中，场景号#4以及时刻e和f被另外记录作为列表号#3的信息，并且场景号#4以及时刻g和h被另外记录作为列表号#4的信息。

接下来，将利用图5对选择性地将检测到脸部图像的片段从如上所述记录在内置记录介质上的运动数据转录到另一记录介质的处理给出描述。图5中的A和B分别对应于上述的图4A和4B，并且示出了记录在内置记录介质上的运动图像数据，以及示出运动图像数据中脸部图像的检测结果的播放列表的示例。从图5中的B的脸部检测播放列表可以理解，在记录在内置记录介质上的运动图像数据中，在从场景#1的时刻a到时刻b的片段中、从场景#2的时刻c到时刻d的片段中、以及从场景#4的时刻e到时刻f和时刻g到时刻h的片段中分别检测到了脸部图像。

在这点上，假定指示运动图像数据上的每个场景的位置(也就是说，起始点和结束点)的信息被单独生成，并且被记录。

如图5中的C的示例所示，其中检测到脸部图像的片段被基于脸部检测播放列表从记录在内置记录介质上的运动图像数据中提取出来，并且所提取出的片段被相连以创建一节运动图像数据。通过相连所提取出的片段而产生的运动图像数据被记录到诸如可记录DVD之类的另一记录介质(下文中称为转录目的地记录介质)上，例如以执行转录。

例如，从场景#1的时刻a到时刻b的片段被基于脸部检测播放列表的列表号#1的信息从内置记录介质上的运动图像数据中读取，并且被记录到转录目的地记录介质上作为新场景#1’。以相同的方式，从场景#2的时刻c到时刻d的片段被基于脸部检测播放列表的列表号#2的信息从内置记录介质上的运动图像数据中读取，并且被记录到转录目的地记录介质上作为新场景#2’，从而使得该场景可以与场景#1’连续回放。另外，从场景#4的时刻e到时刻f的片段被基于脸部检测播放列表的列表号#3的信息从内置记录介质上的运动图像数据中读取，并且被记录到转录目的地记录介质上作为新场景#3’，从而使得该场景可以与场景#2’连续回放。此外，从场景#4的时刻g到时刻h的片段被基于脸部检测播放列表的列表号#4的信息从内置记录介质上的运动图像数据中读取，并且被记录到转录目的地记录介质上作为新场景#4’，从而使得该场景可以与场景#3’连续回放。

以这种方式，在本发明的第一实施例中，只有检测到脸部图像的片段被从记录在内置记录介质上的运动图像数据中选择性地提取出来，并且相连的运动图像数据被记录到转录目的地记录介质上。因而，可以很容易地创建记录有只包括预定场景的运动图像数据的记录介质，而不用逐一地回顾运动图像数据的场景以进行提取。

图6是图示根据本发明第一实施例的转录处理的示例的流程图。首先，在步骤S10中，脸部检测播放列表被从内置记录介质中回放，并且被读取到存储器等中。接下来，基于所读取的脸部检测播放列表判定是否有未处理的数据(步骤S11)。如果判定有未处理的数据，则处理进行到步骤S12。

在步骤S12中，一个数据项被从脸部检测播放列表中读取。例如，记录在脸部检测播放列表上的列表号#1的数据例如通过参考图5中的B来读取。接下来，在下一步S13中，由所读取的脸部检测播放列表的一个数据项指定的范围中的数据被从记录在内置记录介质上的运动图像数据中提取出来。所提取出的运动图像数据被记录到转录目的地记录介质上。例如，在图5的示例中，图5中的B所例示的脸部检测播放列表上的列表号#1的数据被参考，并且如图5中的C所示，由列表号#1的数据指定的从场景#1的时刻a到时刻b的数据范围被提取出来，以记录到转录目的地记录介质上。

在步骤S14中，生成与在上述步骤S13中记录到转录目的地记录介质上的运动图像数据相对应的管理信息。例如，对于在步骤S13中基于脸部检测播放列表从记录在内置记录介质上的运动图像数据中提取出的并且记录在转录目的地记录介质上的运动图像数据，在数据的开头和结尾分别设置预定标记以形成一个场景。管理信息例如是在存储器中生成的，并且在预定定时被记录到转录目的地记录介质上。

当管理信息的生成完成时，处理返回到步骤S11，并且对脸部检测播放列表上的下一数据执行相同的处理。当对于脸部检测播放列表上的所有数据的处理都已完成时，所生成的管理信息被记录到转录目的地记录介质上(步骤S15)，并且基于脸部检测播放列表的转录处理完成。

至此，在上文中，已对针对记录在脸部检测播放列表上的所有数据执行转录处理的情况给出了描述。然而，转录处理并不限于该示例。也就是说，所期望的数据可以从记录在脸部检测播放列表上的数据中进行选择，并且转录处理可以对选出的数据执行。

图7图示了可以应用本发明的第一实施例的成像装置1的配置示例。成像装置1具有记录和回放部分10、主控制部分11和UI(用户接口)部分12。另外，成像装置1具有作为用于记录和回放数据的内置记录介质的硬盘32以及能够记录和回放数据并安装脸部检测记录介质31的驱动单元30，其中记录在硬盘32中的数据被转录到脸部检测记录介质31。

成像装置1基于由成像器件在每个帧定时捕获的成像信号以及由麦克风拾取的基于声音信号的声音数据等等，来对运动图像数据执行预定的压缩编码和复用以产生流数据，并将该数据记录到成像装置1中包括的记录介质上。另外，成像装置1具有将记录介质上记录的流数据转录到另一可分离记录介质的功能。

可以应用于成像装置1的用于运动图像数据和音频数据的记录格式可以认为是多种的。例如，AVCHD可以应用于成像装置1的记录格式，AVCHD是一种用于以预定方式将通过复用视频数据和音频数据而产生的AV(音频/视频)流记录到可记录记录介质上的记录格式。在AVCHD中，编码是按照遵从由ITU-T(国际电信联盟-电信标准化部门)推荐规范H.264或者ISO(国际标准化组织)/IEC(国际电工委员会)国际标准14496-10(MPEG-4第10部分)高级视频编码(下文中简写为H.264/AVC)限定的编码方法的方法执行的，并且编码后的运动图像数据和音频数据根据MPEG2系统被复用到流数据中。

编码并不限于此，并且运动图像数据的编码可以遵从MPEG2(运动图片专家组2)方法，且运动图像数据和音频数据的复用可以遵从MPEG2系统。也可以使用诸如QuickTime(注册商标)等之类的编码和复用方法，该方法主要由个人计算机等使用。

在这点上，在记录到成像装置1的内置记录介质上时，不仅诸如上述AVCHD之类的标准化格式可以应用于记录格式，而且原始格式也可以应用于记录格式。另一方面，在记录到可分离的记录介质上时标准化格式被优选地用作记录格式，因为这样可以确保与另一装置的兼容性。

主控制部分11例如是运行在未在图中示出的CPU(中央处理单元)上的程序，并且基于该程序和数据控制成像装置1的每个部分，该程序和数据被预先存储在利用RAM(随机访问存储器)连接到CPU的ROM(只读存储器)中，RAM也类似地连接到CPU。在这点上，连接主控制部分11和记录和回放部分10的每个部分的路径在图7中被省略以避免复杂化。

UI部分12具有用于供用户以预定方式执行成像装置1的操作的操作器，并且根据对操作器的操作输出控制信号。主控制部分11基于根据用户的操作从UI部分12提供来的控制信号，通过程序处理来控制记录和回放部分10的每个部分的操作。另外，UI部分12具有显示部分(未在图中示出)，例如包括LCD(液晶显示器)，并且可以显示成像装置1的操作状态和用于用户操作的必要信息，等等。

例如，响应于对UI部分12执行的操作，主控制部分11控制成像装置1对硬盘32的数据记录的开始和停止操作、从硬盘32回放数据的回放操作、以及将记录在硬盘32中的数据转录到驱动单元30上安装的转录目的地记录介质31上的转录处理，等等。

记录和回放部分10具有成像部分20、声音拾取部分25、信号处理部分13、脸部检测部分23、管理信息处理部分29以及记录和回放控制部分28。成像部分20具有包括透镜系统、光圈机构、聚焦机构、变焦机构等的光学部分、用于通过光电转换将通过光学部分发射的光转换为电信号的成像器件、以及对从成像器件输出的成像信号执行降噪处理、增益控制处理等的成像信号处理部分。对于成像器件，可以使用CCD(电荷耦合器件)、CMOS(互补金属氧化物半导体)成像器等。

从成像部分20输出的成像信号被未在图中示出的A/D转换器转换为数字信号，并且被输入到信号处理部分13中，并被提供给视频信号处理部分21。视频信号处理部分21将所提供的数字信号转换为例如包括亮度数据(Y)和色差数据Cr/Cb的运动图像数据，执行预定的图像质量校正处理，例如白平衡处理、伽马校正处理等，并且还根据需要执行边缘增强处理、分辨率转换处理等。

从视频信号处理部分21输出的运动图像数据被提供给视频编码部分22和脸部检测部分23。视频编码部分22通过预定方法对所提供的运动图像数据执行压缩编码。可以应用于视频编码部分22的压缩编码方法包括MPEG2方法、由H.264|AVC限定的方法，等等。在下文中，视频编码部分22通过MPEG2方法对所提供的运动图像数据执行压缩编码。

作为示例，视频编码部分22将所提供的运动图像数据的一帧划分为具有预定大小(例如8×8像素)的编码块，并对每个编码块执行DCT。接下来，通过DCT获得的DCT系数被量化刻度量化。另外，视频编码部分22通过利用对所提供的运动图像数据的运动补偿的预测编码来执行帧间编码。此时，视频编码部分22使用I(intra-coded，内编码的)图片以及P(预测性编码的)图片和B(双向预测性编码的)图片来执行帧间编码，I图片是基于帧内编码的图片，而P图片和B图片是基于预测编码的。接下来，执行编码以使得包括可以通过自身解码的至少一片I图片的自完全群组(self-completing group，GOP：图片组)变为可独立访问的最小单位。通过利用GOP结构执行编码，可以很容易执行回放控制，例如搜索、跳跃等。

已受到帧内编码和帧间编码的数据被可变长度编码压缩。从视频编码部分22输出的经压缩的运动图像数据被提供给复用器(MUX)24。

脸部检测部分23对从视频信号处理部分21提供来的运动图像数据执行图像分析，并从运动图像数据的帧中检测脸部图像。对于检测脸部图像的方法，例如可以应用在日本未实审专利申请公布No.2004-30629和2005-157679中公开的方法。

例如，对于一帧设置预定的检测帧，并对检测帧中的预定两点的亮度数据进行比较。通过将比较结果与通过预先学习获得的模式辞典相比较，对在检测帧中是否包括脸部图像进行检测。在检测帧中设置预定两点的多个组合，并对各个组合的亮度数据进行比较。将比较结果与模式辞典相比较以获得脸部的似然性(概率)。该处理是在扫描帧中的检测帧(绝对检测帧大小被固定)、并改变帧大小的同时执行的。在以这种方式获得的多个概率中，所获得的概率是阈值或更大的检测帧例如被判定为包括脸部图像的检测帧。脸部图像的检测结果被提供给管理信息处理部分29。

脸部检测部分23的脸部图像的检测处理是对例如从几帧到几十帧(几秒)的循环执行的。当然，如果图像分析处理和脸部检测部分23的脸部图像检测处理可以以足够高的速度执行，则脸部图像的检测处理可以对每一帧执行。

在这点上，在成像装置1中，可以将从视频信号处理部分21输出的运动图像数据显示在上述UI部分12上布置的显示部分(未在图中示出)上。从而，用户可以检查由成像部分20捕获的图像。另外，可以以预定方式在显示部分上显示基于由主控制部分11生成的显示控制信号的图像。因而，可以在显示部分上显示指示成像装置1的各种状态的信息。另外，可以通过叠加显示基于从视频信号处理部分21输出的运动图像数据的视频和基于由主控制部分11生成的显示控制信号的图像。

声音拾取部分25具有麦克风，对从麦克风输出的音频信号执行诸如降噪处理之类的预定的信号处理，并执行A/D转换以输出数字音频数据。音频数据被输入到信号处理部分13中，并被提供给音频信号处理部分26。音频信号处理部分26对所提供的音频数据执行预定的信号处理，例如放大处理、声音质量校正处理。

从音频信号处理部分26输出的音频数据被提供给音频编码部分27，并且受到预定的压缩编码。可应用于音频编码部分27的压缩编码方法被认为是各种方法，例如MP3(运动图片专家组1音频层3)方法、AAC(高级音频编码)方法等。在音频编码部分27中，音频数据可以受到使用杜比数字(Dolby Digital，注册商标)方法的压缩编码。从音频编码部分27输出的音频数据被提供给复用器24。

复用器24将从视频编码部分22提供来的经压缩运动图像数据和从音频编码部分27提供来的经压缩音频数据复用为一个流数据。例如，复用器24具有缓冲存储器，并且临时将所提供的经压缩运动图像数据和经压缩音频数据存储到缓冲存储器中。存储在缓冲存储器中的经压缩运动图像数据和经压缩音频数据被分别划分为处理大小的每个数据，头部被添加到数据，并且数据被分组化。用于对由MPEG2方法的压缩编码产生的经压缩运动图像数据进行解码所必需的信息(例如指示存储在分组中的数据的回放时间的PTS(呈现时间戳)和指示解码时间的DTS(解码时间戳))被存储到头部中。该分组可被进一步划分，并且可以存储到固定长度分组中。

由复用器24根据经压缩运动图像数据和经压缩音频数据形成的复用流数据被提供给记录和回放控制部分28。记录和回放控制部分28例如具有缓冲存储器，并且将从复用器24提供来的分组临时存储到缓冲存储器中。通过以预定方式控制在缓冲存储器中读写分组的定时，在下面描述的每个记录介质的访问速度和信号处理速度(例如运动图像数据和音频数据的压缩编码等)之间进行匹配。

另外，记录和回放控制部分28控制将数据记录到多个记录介质上并回放数据的操作。在图7的示例中，驱动单元30连接到记录和回放控制部分28，并且成像装置1的内置硬盘32也连接到记录和回放控制部分28。驱动单元30假定能够例如在可记录DVD(数字通用光盘)上读写数据。

驱动单元30并不限于此，并且驱动单元30可以允许例如在蓝光光盘(注册商标)上的读写，这实现了比DVD更大的存储容量。另外，驱动单元30可以支持可记录DVD和蓝光光盘两者。另外，驱动单元30可以支持在诸如闪存之类的可分离、非易失性半导体存储器中的数据的读写。

记录和回放控制部分28例如基于来自上级(例如主控制部分11)的指令在指定记录介质上的指定地址处写数据，或者从指定地址读数据。

管理信息处理部分29的功能由上述主控制部分11和CPU上运行的程序实现。当然，可以通过不同的硬件来配置管理信息处理部分29和主控制部分11。

管理信息处理部分29与复用器24、视频编码部分22、音频编码部分27以及记录和回放控制部分28交换数据，并且生成对由记录和回放控制部分28记录在记录介质上的流数据的管理信息。同时，管理信息处理部分29基于从记录介质31和硬盘32读取的管理信息来生成用于供记录和回放控制部分28控制对记录介质31和硬盘32的流数据的读写的信息。

由管理信息处理部分29生成的管理信息例如包括管理流数据中包括的场景的信息、作为标题的管理流数据自身的信息，等等。管理场景的信息包括例如指示场景的开头和结尾的信息，诸如由PTS指示的记录开始时间和停止时间。记录开始时间和停止时间可以利用流数据的开头帧作为基点、由具有记录开始时间和停止时间的帧的帧号指示。另外，管理信息还可包括将流数据中包括的每个分组的回放时间与每个分组的流数据上的字节位置相关的映射信息。

另外，管理信息处理部分29基于脸部检测部分23的脸部图像的检测结果生成上述的脸部检测播放列表。指示脸部检测片段的脸部检测的起始点和结束点的信息例如可以由基于场景的开头帧(包括起始点和结束点)的相对帧号来指示。当然，起始点和结束点的PTS可以用于指示脸部检测播放列表上的起始点和结束点的信息。

将对具有这种配置的成像装置1在图像捕获时和记录时的操作给出一般描述。从成像部分20输出的成像信号被未在图中示出的A/D转换器转换为数字信号，并且被提供给视频信号处理部分21。数字成像信号受到视频信号处理部分21的预定信号处理，被输出为运动图像数据，并且被提供给脸部检测部分23和视频编码部分22。

例如，如果向UI部分12给出开始记录的指令，则主控制部分11根据开始记录操作的指令基于控制信号来控制整个记录和回放部分10，并且记录操作开始。视频编码部分22以预定方式对所提供的运动图像数据执行压缩编码，并且将数据输出作为具有GOP结构的运动图像数据。流被提供给复用器24。

同时，脸部检测部分23从所提供的运动图像数据中对几帧到几十帧(或者对于每一帧)检测脸部图像，并顺序将检测结果传递给管理信息处理部分29。管理信息处理部分29与信号处理部分13交换数据，识别已检测到脸部图像的帧，并且获得已检测到脸部图像的范围。管理信息处理部分29将指示检测到脸部图像的范围的信息记录在脸部检测播放列表中。脸部检测播放列表例如被存储到未在图中示出的存储器中。管理信息处理部分29彼此联系地管理脸部检测播放列表和相应的运动图像数据。

从声音拾取部分25输出的音频数据受到音频信号处理部分26的预定信号处理，受到音频编码部分27的编码，并被提供给复用器24。复用器24以预定方式对从视频编码部分22提供来的运动图像数据和从音频编码部分27提供来的音频数据的流进行分组化，执行时分复用以输出一条流数据。流数据被提供给记录和回放控制部分28。

记录和回放控制部分28将从复用器24提供来的流数据存储到未在图中示出的缓冲存储器中。当用于硬盘32的记录单位的数据被写入到缓冲存储器中时，数据被从缓冲存储器读取，并被记录到硬盘32中。

同时，由管理信息处理部分29生成的脸部检测播放列表被在预定定时传递到记录和回放控制部分28，并且被记录到硬盘32中。脸部检测播放列表例如在指示记录停止的定时被记录到硬盘32中。例如，通过基于根据在UI部分12上发出的记录停止的指令操作的控制信号而来自主控制部分11的指令，脸部检测播放列表被从存储器读取，并被记录和回放控制部分28记录到硬盘32中。定时并不限于此，并且还可以在关闭成像装置1的电源的定时将脸部检测播放列表记录到硬盘32中。

脸部检测播放列表以与包括相应运动图像数据的流数据的预定关系被记录到硬盘32中。形成脸部检测播放列表和流数据之间的关闭被认为是通过给予彼此对应的文件名来完成的。另外，认为还生成了表示硬盘32中记录的脸部检测播放列表和流数据之间的对应关系的管理文件。

接下来，将比较成像装置1的配置对利用图6的流程图所述的基于脸部检测播放列表的转录处理给出一般描述。这里，转录目的地记录介质31假定是可记录DVD(下文中，简写为DVD)，并且检测到脸部图像的片段被从硬盘32中记录的流数据中提取出来，并被转录到转录目的地记录介质31。

当转录目的地记录介质31被安装在驱动单元30上时，主控制部分11识别出记录介质31。在这点上，硬盘32中记录的管理信息例如在成像装置1的起始时刻从硬盘32读取的，并且被预先存储在管理信息处理部分29的未在图中示出的存储器中。

例如，用户操作UI部分12以给出用于从硬盘32中记录的流数据提取出脸部检测片段以将数据转录到转录目的地记录介质31上的指令。UI部分12根据该操作生成控制信号，并将信号提供给主控制部分11。主控制部分11响应于控制信号开始脸部检测片段的转录处理。

控制部分11向记录和回放控制部分28发出读取硬盘32中记录的脸部检测播放列表的指令。记录和回放控制部分28响应于该指令从硬盘32读取脸部检测播放列表，并将其传递给管理信息处理部分29。管理信息处理部分29将脸部检测播放列表存储到未在图中示出的存储器中(图6中的步骤S10)。

管理信息处理部分29按每行读取存储器中的脸部检测播放列表，并对每个播放列表数据项执行处理(图6中的步骤S12)。例如，管理信息处理部分29读取场景号、用于一个播放列表数据项的关于脸部检测片段的起始点和结束点的信息，并且获得与硬盘32中记录的流数据上的起始点和结束点相对应的位置。

将利用图8对脸部检测片段和流数据中的位置之间的关系的示例给出描述。如上所述，在该示例中，视频编码部分22利用I图片、P图片和B图片的GOP结构，通过MPEG2方法来执行运动图像数据的编码。因而，对流数据中的运动图像数据的最小访问单位是每个GOP。另一方面，脸部检测部分32的脸部检测处理是在压缩编码之前对运动图像数据执行的，因而脸部检测的起始点和结束点是对每一帧表达的。

因此，如图8的示例所示，转录位置由包括检测到脸部图像的图片的GOP设置。更具体而言，转录位置的开头被判定为是包括作为脸部检测片段的起始点的图片的GOP的开头边界，而转录位置的结尾被判定为是包括作为脸部检测片段的结束点的图片的GOP的结尾边界。管理信息处理部分29可以基于所读取的管理信息和脸部检测播放列表获得包括脸部检测片段的起始点和结束点的图片的GOP。

这里，I图片可以是独立解码的，因而认为脸部检测部分23的脸部检测处理是按I图片循环执行的。在这种情况下，如图8的示例所示，脸部检测片段变为从某一GOP的I图片到另一GOP的I图片的片段。转录位置变为从包括作为脸部检测片段的起始点的I图片的GOP的开头边界到包括作为脸部检测片段的结束点的I图片的GOP的结尾边界的片段。

转录位置的判定并不限于此，并且脸部检测部分23的脸部检测处理可以按与GOP循环无关的循环来执行。

在这点上，如果视频编码部分22通过H.264|AVC方法执行运动图像数据的编码，则可以匹配利用MPEG2的帧间编码的帧之间的参考关系。因此，可以将以上描述应用于利用H.264|AVC方法的运动图像数据的编码示例。

如上所述，管理信息处理部分29基于管理信息和脸部检测播放列表判定硬盘32中记录的流数据的转录范围，并将指示转录范围的信息与转录指令一同传递给记录和回放控制部分28。记录和回放控制部分28根据转录指令从流数据中读取由转录范围信息指示的范围内的数据，并将数据写入到例如缓冲存储器中。接下来，当用于转录目的地记录介质31的记录单位的数据被存储到缓冲存储器中时，记录和回放控制部分28从缓冲存储器读取数据并将数据提供给驱动单元30。驱动单元30以预定方式顺序将所提供的数据记录到转录目的地记录介质31上(图6中的步骤S13)。

管理信息处理部分29生成与在转录目的地记录介质31上转录的流数据相对应的管理信息(图6中的步骤S14)。例如，转录范围中开头图片的PTS和结尾图片的PTS的对被顺序记录以记录场景。记录并不限于PTS，并且例如可以使用帧号。所生成的管理信息被临时存储到例如存储器中，并且在预定定时被写入到转录目的地记录介质31上(图6中的步骤S15)。例如，管理信息在从驱动单元30弹出转录目的地记录介质31时、在转录目的地记录介质31被安装在驱动单元30上的时候关闭成像装置1的电源时等等被写入到转录目的地记录介质31中。

例如，当AVCHD被用于记录格式时，管理信息包括剪辑(clip)信息文件、电影播放列表文件和索引表文件。

当生成了对转录目的地记录介质31的管理信息时，处理返回到步骤S11，并且对于脸部检测播放列表上记录的下一播放列表数据执行转录处理。也就是说，播放列表数据被读取到管理信息处理部分29中(图6中的步骤S12)，基于所读取的播放列表数据对于硬盘32中的流数据设置转录范围，并且从硬盘32读取转录范围中的数据，该数据通过缓冲存储器被记录到转录目的地记录介质31上(图6中的步骤S13)。

接下来，另外生成与转录到转录目的地记录介质31上的流数据相对应的管理信息(图6中的步骤S14)。此时，管理信息被生成使得利用在转录目的地记录介质31上刚刚转录的流数据，连续的回放变得可能。例如，认为刚刚被转录的转录范围中的每个PTS被从管理信息进行参考，指示下一帧定时到由该PTS指示的帧的PTS被判定为是新转录的范围中的开头PTS。管理信息的生成并不限于此。或者，认为指示在刚刚转录的转录范围中的流和新转录的范围中的流的帧定时处的连续回放的信息被描述为管理信息。

以这种方式，当对于脸部检测播放列表上记录的所有播放列表数据都执行了转录处理(图6中的步骤S11)时，一系列转录处理完成。

接下来，将对本发明第一实施例的第一变体给出描述。在上文中，已对从运动图像数据中检测一幅脸部图像的情况给出了描述。然而，实际上，认为存在许多在成像装置1捕获的屏幕中有多个人物、并且从运动图像数据中检测多幅脸部图像的情况。第一变体和下面描述的第一实施例的第二变体是用于以这种方式从运动图像数据中检测出多幅脸部图像的情况下的转录处理。

在这点上，上述成像装置1的配置可以不加改变地应用于第一实施例的第一变体，因而将省略对该配置的描述。

作为示例，如图9A所示，假定三个人物，人物A、人物B和人物C被成像装置1捕获。此时，假定人物A从时刻p₁到时刻p₂进入成像装置1的成像屏幕，然后从时刻p₃到时刻p₄再次进入成像屏幕。类似地，假定人物B从时刻q₁到时刻q₂进入成像屏幕，并且人物C从时刻r₁到时刻r₂进入成像屏幕。因此，如图9B的示例所示，从由成像装置1获得的运动图像数据中，在从时刻p₁到时刻q₁、从时刻r₂到时刻q₂、以及从时刻p₃到时刻p₄的时间段期间分别检测到一幅脸部图像。另外，在从时刻q₁到时刻r₁、以及从时刻p₂到时刻r₂的时间段期间检测到两幅脸部图像，并且在从时刻r₁到时刻r₂的时间段期间检测到三幅脸部图像。

在这点上，例如当在一帧中检测到包括脸部图像的多个检测帧时，脸部检测部分23可以基于这些多个检测帧的重叠和检测帧之间的距离、检测帧的大小等等来判定检测帧是否包括彼此不同的脸部的脸部图像。如果检测到的包括脸部图像的检测帧被判定为包括彼此不同的脸部的脸部图像，则此时在一帧中包括的彼此不同的脸部的脸部图像的数目被计数。

在这种情况下，认为一帧中包括的彼此不同的脸部的脸部图像的数目改变时的时间以及改变之前和之后检测到的脸部图像的数目被彼此联系地记录在脸部检测播放列表上。在脸部检测播放列表上的记录并不限于此，并且脸部图像的检测数目和一帧中包括的脸部图像的数目可以彼此联系地记录。

图10图示了根据脸部图像的数目的改变记录有一项的脸部检测播放列表的示例。图10中的脸部检测播放列表是这样一个示例，其中指示检测到的脸部图像的数目的改变点的时间和紧接着改变点之后的脸部图像数目被彼此联系地记录。例如，参考上述图9A，时刻p₁、时刻q₁、时刻r₁、时刻p₂、时刻r₂、时刻q₂、时刻p₃和时刻p₄被分别记录为改变点，并且紧接着改变点之后的脸部图像数目是1、2、3、2、1、0、1和0，这些值分别与各个改变点彼此联系地记录。

当根据一帧中检测到的脸部图像数目的改变生成播放列表时，认为要转录到转录目的地记录介质31上的数据的转录范围是基于脸部图像数目的阈值判定的。作为示例，假定阈值是2，并且脸部检测片段是其中在一帧中检测到两幅或更多幅不同脸部的脸部图像的片段。其中检测到两幅或更多幅脸部图像的片段是基于图10中所例示的脸部检测播放列表获得的。在改变点d₁，脸部图像数目从1变为2，并且在改变点e₂，脸部图像数目从2变为1。因此，如图9C所示，可以判定在从时刻q₁到时刻r₂的片段中检测到两幅或更多幅脸部图像，并且该片段被判定为转录处理的目标。

在这点上，在转录处理的目标识别之后的转录处理自身与上述第一实施例的处理相同，并且因而省略对其的描述。

接下来，将对本发明的第一实施例的第二变体给出描述。在第一实施例的第二变体中，在检测脸部图像时针对所检测的脸部图像识别个人。在转录处理时，基于被识别为特定个人的脸部图像来判定转录目标。

在这点上，上述成像装置1的配置可以不加改变地应用于第一实施例的第二变体，并且因而将省略对配置的描述。

对于识别所检测的脸部图像的个人的方法，考虑例如对于要识别的脸部图像，从其可以识别出脸部图像的特征信息被预先记录，对从根据一帧中检测出的各个脸部图像提取出的特征信息和所记录的特征信息进行比较，并且基于比较结果来识别脸部图像。

例如，考虑上述第一实施例的情况作为示例，对于要识别的一个脸部的脸部图像设置检测帧，并且对检测帧中多个预定两点的亮度数据进行比较。比较结果被预先记录在辞典中作为脸部图像的特征信息。当脸部检测部分23检测到一帧中的脸部图像时，脸部检测部分23通过将辞典中记录的脸部图像的特征信息应用于被判定为包括脸部图像的检测帧来获得脸部之间的相似度。认为相似度例如是基于被判定为包括脸部图像的检测帧中的预定两点的亮度数据和所记录的脸部图像的特征信息的比较结果之间的差异而获得的。例如，差异越小，相似度就被定义为越高。如果相似度达到或高于阈值，则检测帧中包括的脸部图像是要识别的脸部图像。

将利用图11A-B对根据第一实施例的第二变体设置转录范围的方法给出更具体描述。在这点上，图11A对应于上述的图9A。例如，参考图11A，假定在被成像装置1捕获的人物A、人物B和人物C中，包括人物A的屏幕的一部分被选为要转录的场景。

在这种情况下，有必要将关于人物A的脸部图像的特征信息记录到脸部检测部分23。考虑这样一种方法，其中成像装置1已预先捕获人物A的脸部，并且基于所捕获的人物A的脸部图像提取出并记录特征信息。该方法并不限于此，并且还考虑一种基于被捕获的运动图像数据记录要识别的脸部图像的方法。例如，UI部分12具有用于显示部分中的位置的指定装置，并且要识别的脸部图像被位置指定装置所指定，同时在显示部分中显示被捕获的视频。

脸部检测部分23分析从视频信号处理部分21提供来的运动图像数据，检测帧中包括的脸部图像，同时例如对检测到的脸部图像和所记录的人物A的脸部图像进行比较，并且判定相似度是否等于或高于阈值。如果相似度等于或高于阈值，则脸部检测部分23将检测到脸部图像的时间记录在脸部检测播放列表上，作为脸部检测片段的起始点。另外，脸部检测部分23在脸部检测播放列表上记录未检测到脸部图像的时间作为脸部检测片段的结束点。

在图11A的示例中，人物A在时刻p₁进入捕获屏幕，在时刻p₂离开捕获屏幕，在时刻p₃再次进入捕获屏幕，并在时刻p₄离开捕获屏幕。在这种情况下，如图11B所例示，在从时刻p₁到时刻p₂的时间段期间以及从时刻p₃到时刻p₄的时间段期间检测到人物A的脸部图像，并且从时刻p₁到时刻p₂的片段以及从时刻p₃到时刻p₄的片段是转录处理的目标。

图12图示了在识别脸部图像的个人的情况下脸部检测播放列表的示例。在图12的示例中，参考图11A，人物A、人物B和人物C的脸部图像被记录，并且各条识别信息“001”、“002”和“003”被分别关联。以这种方式，可以记录多幅脸部图像，并分别识别它们。在图12的示例中，一对起始点和结束点被关联到识别信息，并且被记录在脸部检测播放列表上。例如，通过对脸部检测播放列表指定识别信息“001”，可以选择性地识别在捕获屏幕中包括人物A的片段作为要转录的片段。

接下来，将对本发明的第二实施例给出描述。在第二实施例中，对于上述第一实施例的转录处理，如果由脸部检测播放列表中的起始时刻和结束时刻指定的范围的回放时间短于预定时间段，则该范围的转录不被执行，并且处理被跳过。这样作可以限制当转录之后回放运动图像数据时场景发生频繁的改变。

图13是图示根据本发明第二实施例的转录处理的示例的流程图。在这点上，在图13中，相同的标号被赋予与上述图6的处理共同的处理(步骤)，因而将省略详细的描述。在步骤S10中，脸部检测播放列表被从内置记录介质回放以读取到存储器中，并且处理进行到步骤S101。

在步骤S101中，判定在基于脸部检测播放列表的转录时转录范围的最小长度。也就是说，如果从脸部检测播放列表的起始点到结束点的回放时间长于由所设置的最小长度指示的时间段，则从起始点到结束点的范围被转录。最小转录长度可以是固定值，或者可以是可变值。

例如，如果最小转录长度是可变的，则UI部分12具有用于键入最小转录长度的值的输入装置。用户利用输入装置来设置时间段。以这种方式设置的时间段被判定为最小转录长度的值。对于输入装置，例如，用户被允许直接通过时间(例如秒)等来键入设置值。值的判定并不限于此。例如，可以放置能够通过触觉(例如滑动条等)指定时间段的输入装置，并且可以通过该装置设置最小长度。此外，例如，UI部分12可以具有能够被手指轻触的操作器，并且可以根据对操作器的轻触间隔来设置时间段。另外，多个固定值可以预先存储在ROM等中，并且用户可以从UI部分12选择其中之一。

在这点上，如果最小转录长度是可变的，则优选地显示所设置的时间段以便允许用户在未在图中示出的显示部分中进行直观的检查。例如，认为对于所设置的时间段在显示部分上显示预定的动画。

当在步骤S101中设置了最小转录长度时，在步骤S11中判定是否有未处理的数据。如果判定有未处理的数据，则在步骤S12中从脸部检测播放列表读取一个数据项。在下一步S121中，判定对于脸部检测播放列表的所读取的一个数据项所指定的范围的回放时间是否长于在上述步骤S101中判定的最小转录长度。如果对于脸部检测播放列表的目标数据所指定的范围的回放时间被判定为短于最小转录长度，则处理进行到步骤S11，并且执行对脸部检测播放列表上的下一数据的处理。

另一方面，在步骤S121中，如果对于脸部检测播放列表的目标数据所指定的范围的回放时间被判定为长于最小转录长度，则处理进行到步骤S13。由脸部检测播放列表指定的范围被从内置记录介质上记录的运动图像数据中提取出来，并且被记录到转录目的地记录介质上。

作为示例，在上述图5中的B所例示的脸部检测播放列表的列表号#1的数据中，如果从起始点a到结束点b的时间差长于被判定为最小转录长度的时间段，则从起始点a到结束点b的片段被设置为转录范围。另一方面，如果从起始点a到结束点b的时间差短于被判定为最小转录长度的时间段，则列表号#1的处理被跳过，并且执行对脸部检测播放列表上的下一数据(也就是说，列表号#2的数据)的处理。

接下来，在步骤S14中，生成与在上述步骤S13中记录到转录目的地记录介质上的运动图像数据相对应的管理信息。

在这点上，这里，已对与第一实施例相对应的第二实施例给出了描述。然而，第二实施例并不限于此。也就是说，第二实施例可以分别应用于上述第一和第二变体。

在上文中，已对本发明被应用于成像装置(例如便携式摄像机)的情况给出了描述。然而，本发明并不限于此。例如，本发明可以应用于固定录像机。另外，认为在诸如个人计算机之类的通用信息处理装置中，图7中的主控制部分11、信号处理部分13、脸部检测部分23、管理信息处理部分29、记录和回放控制部分28等是由软件构成的。

本领域技术人员应当理解，取决于设计需求和其他因素可以进行各种修改、组合、子组合和变更，只要它们在所附权利要求书或其等同物的范围内。

本发明包含与2007年9月3日提交的日本专利申请JP2007-227454有关的主题，上述申请的全部内容通过引用而结合于此。

Claims

1.一种数据处理装置，包括：

检测部分，用于从运动图像数据中检测对象的图像；

表创建部分，用于基于所述检测部分的检测结果将指示在所述运动图像数据上的位置的位置信息记录在表中；

转录处理部分，用于对所述运动图像数据执行转录处理；以及

控制部分，用于控制所述转录处理部分，以便基于在所述表中记录的所述位置信息提取在第一记录介质上记录的所述运动图像数据的一部分，并对所提取的部分执行所述转录处理以将其转录到第二记录介质上。

2.如权利要求1所述的数据处理装置，

其中，如果从所述运动图像数据中提取的所述部分的回放时间比基于所述位置信息的阈值更短，则所述控制部分控制所述转录处理部分不执行所述转录处理。

3.如权利要求2所述的数据处理装置，还包括：

操作部分，用于接受用户的操作，

其中，所述阈值是由所述用户对所述操作部分的操作而设置的。

4.如权利要求1所述的数据处理装置，

其中，所述控制部分创建播放列表，并且控制所述转录处理部分将所创建的播放列表记录到所述第二记录介质上，所述播放列表存储在所述转录处理时将被转录的所述运动图像数据的所述部分的回放控制信息。

5.如权利要求1所述的数据处理装置，

其中，所述检测部分可以识别所述对象的个人，并且

所述表创建部分基于所述检测部分的所述检测结果，联系所述位置信息来记录识别所检测对象的个人的识别信息。

6.如权利要求5所述的数据处理装置，

其中，所述控制部分控制所述转录处理部分，以便基于在所述表中记录的所述识别信息来选择对应于所指定对象的个人的位置信息，基于所选择的位置信息来提取在所述第一记录介质上记录的所述移动图像的所述部分，并且对所提取的部分执行转录处理以将其转录到所述第二记录介质上。

7.如权利要求1所述的数据处理装置，

其中，所述对象是人脸，并且所述对象的所述图像是人脸图像。

8.如权利要求1所述的数据处理装置，

其中，所述表创建部分基于所述检测部分的检测结果来记录如下位置，在该位置处在所述运动图像数据的一个帧中检测到的所述对象的图像的数目已发生改变。

9.一种处理数据的方法，包括：

从运动图像数据中检测对象的图像；

基于所述检测步骤的检测结果将指示在所述运动图像数据上的位置的位置信息记录在表中；

对所述运动图像数据执行转录处理；以及

控制所述执行转录处理的步骤，以便提取在第一记录介质上记录的所述运动图像数据的一部分，并对所提取的部分执行所述转录处理以将其转录到第二记录介质上。

10.一种用于使计算机执行处理数据的方法的程序，包括：

从运动图像数据中检测对象的图像；

对所述运动图像数据执行转录处理；以及