CN102075680B

CN102075680B - 图像处理设备、图像处理方法和程序

Info

Publication number: CN102075680B
Application number: CN201010549989.3A
Authority: CN
Inventors: 河井哲郎; 中尾大辅
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2009-11-20
Filing date: 2010-11-15
Publication date: 2014-06-04
Anticipated expiration: 2030-11-15
Also published as: JP5526727B2; JP2011109557A; CN102075680A; US9407804B2; US20110122275A1

Abstract

提供图像处理设备及图像处理方法。该图像处理设备包括：特定声音检测部分，其检测在由包括在图像组中的目标对象进行的特定动作中在动作期间生成的特定声音，该图像组包括以时间顺序方式连续的多个图像；有效声音范围设置部分，其将在时间轴上用于基于用户操控确定由特定声音检测部分所检测到的特定声音是否有效的范围设置为有效声音范围；以及选择部分，其在所设置的有效声音范围内检测到特定声音的情况下，参考在时间轴上特定声音的检测位置，从时间轴上图像组的选择范围中选择表示特定动作的过渡的预定数量的动作过渡图像。

Description

图像处理设备、图像处理方法和程序

技术领域

本发明涉及图像处理设备，更具体地说，涉及用于处理以时间顺序方式连续的多个图像的图像处理设备和图像处理方法，以及用于允许在计算机上执行该方法的程序。

背景技术

最近几年来，广泛使用了诸如通过成像诸如人之类的对象生成图像数据并将所生成的图像数据记录为诸如图像文件、运动图像文件之类的内容的数字照相机、数字视频摄像机(例如，集成式摄录机(integrated camera recorder))之类的图像捕获设备。此外，作为内容的体育运动(例如，高尔夫球、棒球等)的图像的记录广泛使用这样的图像捕获设备。以这种方式记录的内容(例如，运动图像内容)可以用于例如检查体育运动中的动作(例如，高尔夫球挥杆或击球(棒球))。

例如，在确认体育运动动作(例如，高尔夫球挥杆或击球(棒球))的情况下，已经提出了合成图像生成方法，其生成表示动作过渡(motion transition)的图像作为合成图像，以便可以容易地抓住动作过渡。例如，提出了从以预定间隔连续拍摄的图像中选择多个图像并使用该多个图像生成合成图像的图像捕获设备(例如，参看考日本未审专利申请公开第2009-44573号(图9))。

发明内容

根据上述相关技术，例如，可以生成表示进行高尔夫球挥杆的人的动作过渡的合成图像。

在这个方面，例如，由于在比较短时间内进行高尔夫球挥杆或击球(棒球)的动作，因此当生成表示动作过渡的合成图像时，适当选择形成合成目标图像的图像很重要。然而，在上述相关技术中，参考用户的开始操控的时间确定关于用于生成合成图像的多个图像的选择的范围。因此，例如，在用户不习惯于拍摄或者是初学者的情况下，可能难以适当地进行关于在比较短时间内进行的高尔夫球挥杆或击球(棒球)的开始操控。

从而，例如，当选择表示高尔夫球挥杆或击球(棒球)的动作过渡的图像时，选择包括在适当范围内的图像很重要。

从而，有必要提供适当地选择表示目标对象进行的特定动作的过渡的图像的技术。

根据本发明的一个实施例，提供一种图像处理设备、图像处理方法以及用于允许在计算机上执行该方法的程序，该图像处理设备包括：特定声音检测部分，其检测在由包含在图像组中的目标对象进行的特定动作中在动作期间生成的特定声音，该图像组包括以时间顺序方式连续的多个图像；有效声音范围设置部分，其将在时间轴上用于基于用户操控确定由特定声音检测部分所检测到的特定声音是否有效的范围设置为有效声音范围；以及选择部分，其在所设置的有效声音范围内检测到特定声音的情况下，参考在时间轴上特定声音的检测位置，从时间轴上图像组的选择范围中选择表示特定动作的过渡的预定数量的动作过渡图像。因此，可以基于用户操控设置有效声音范围，并且在所设置的有效声音范围内检测到特定声音的情况下，参考特定声音的检测位置，从该选择范围中选择预定数量的动作过渡图像。

在该实施例中，用户操控可以是在特定动作终止时接收到的特定操控或用于使特定动作的终止时间变成时间计数器的终止时间的设置的计时器设置操控，并且有效声音范围设置部分在用户操控为特定操控的情况下可以参考时间轴上接收到特定操控的位置来设置有效声音范围，而在用户操控为计时器设置操控的情况下可以借助于计时器设置操控、参考时间计数器的终止时间来设置有效声音范围。因此，可以在用户操控为特定操控的情况下参考接收到特定操控的位置来设置有效声音范围，而在用户操控为计时器设置操控的情况下可以借助于计时器设置操控、参考时间计数器的终止时间来设置有效声音范围。

在该实施例中，与在用户操控为计时器设置操控的情况下所设置的有效声音范围相比，有效声音范围设置部分将在用户操控为特定操控的情况下所设置的有效声音范围变窄。因此，与在用户操控为计时器设置操控的情况下所设置的有效声音范围相比，在用户操控为特定操控的情况下所设置的有效声音范围变窄。

在该实施例中，该设备还可以包括确定部分，其确定在所设置的有效声音范围中检测到的特定声音在时间轴上的检测位置之前和之后的预定范围作为选择范围，并且选择部分可以在所确定的选择范围内选择动作过渡图像。因此，可以确定在所设置的有效声音范围中检测到的特定声音的检测位置之前和之后的预定范围作为选择范围，并且在所确定的选择范围内选择动作过渡图像。

在该实施例中，该设备还可以包括：对象距离计算部分，其计算到目标对象的距离；以及延迟时间计算部分，其基于所计算出的距离计算所检测到的特定声音的延迟时间，并且选择部分可以基于所计算出的延迟时间校正在时间轴上所检测到的特定声音的检测位置，并且在经校正的检测位置存在于所设置的有效声音范围内的情况下，参考经校正的检测位置，从选择范围中选择动作过渡图像。因此，可以计算到目标对象的距离，基于所计算出的距离计算所检测到的特定声音的延迟时间，基于所计算出的延迟时间校正所检测到的特定声音的检测位置，并且在经校正的检测位置存在于所设置的有效声音范围内的情况下，参考经校正的检测位置，从选择范围中选择动作过渡图像。

在该实施例中，关于选择范围中动作过渡图像的选择间隔，与其他选择间隔相比，选择部分可以压缩选择间隔在比具有在时间轴上特定声音的检测位置作为中心位置的选择范围更窄的范围内。因此，关于选择范围中动作过渡图像的选择间隔，与其他选择间隔相比，可以压缩选择间隔在比具有特定声音的检测位置作为中心位置的选择范围更窄的范围内。

在该实施例中，该设备还可以包括合成图像生成部分，其通过以时间顺序方式安排与合成多个所选择的动作过渡图像，生成表示目标对象的动作过渡的合成图像。因此，可以以时间顺序方式安排与合成多个所选择的动作过渡图像，从而生成表示目标对象的动作过渡的合成图像。

在该实施例中，该设备还包括：存储部分，其存储涉及多种类型的特定动作的特定声音和有效声音范围；操控接收部分，其接收在其中存储特定声音和有效声音范围的、用于从多种类型的特定动作之中指定想要的特定动作的指定操控。这里，特定声音检测部分可以检测涉及所指定的特定动作的特定声音，并且有效声音范围设置部分可以基于用户操控设置涉及所指定的特定动作的有效声音范围。因此，当接收到用于从多种类型的特定动作之中指定想要的特定动作的指定操控时，可以检测涉及所指定的特定动作的特定声音，并且基于用户操控设置涉及所指定的特定动作的有效声音范围。

在该实施例中，在生成图像组时，有效声音范围设置部分可以基于涉及图像捕获操作的用户操控设置有效声音范围。

根据本发明的另一实施例，提供一种图像处理设备、图像处理方法以及用于允许在计算机上执行该方法的程序，该图像处理设备包括：特定声音检测部分，其检测在包含在由图像组中的目标对象进行的特定动作中在动作期间生成的特定声音，该图像组包括以时间顺序方式连续的多个图像；特定变化检测部分，其在形成该图像组的各图像之间检测在时间轴上的特定变化；有效声音范围设置部分，其将在时间轴上用于基于在其中在时间轴上检测到特定变化的位置确定由特定声音检测部分检测到的特定声音是否有效的范围设置为有效声音范围；以及选择部分，其在所设置的有效声音范围内检测到特定声音的情况下，参考在时间轴上特定声音的检测位置，从时间轴上图像组的选择范围中选择表示特定动作的过渡的预定数量的动作过渡图像。因此，可以基于检测到特定变化的位置设置有效声音范围，并且在所设置的有效声音范围内检测到特定声音的情况下，参考特定声音的检测位置，从该选择范围中选择预定数量的动作过渡图像。

在该实施例中，特定变化检测部分可以使用从形成图像组的每个图像提取的特征量和基于涉及形成图像组的每个图像的声音而提取的特征量中至少之一来检测特定变化。因此，可以使用从形成图像组的每个图像提取的特征量和基于涉及形成图像组的每个图像的声音而提取的特征量中至少之一来检测特定变化。

根据本发明的各实施例，可以适当地选择表示目标对象进行的特定动作的过渡的图像。

附图说明

图1是说明根据本发明的第一实施例的、图像捕获设备的功能性配置的示例的方块图。

图2是说明根据本发明的第二实施例的、选择部分和图层处理部分的功能性配置的示例的方块图。

图3A、3B和3C是示意地说明根据本发明的第一实施例的、图像捕获设备与作为图像捕获目标的人之间的位置关系以及从该位置关系生成的动作图像之间的关系的图。

图4A和4B是说明根据本发明的第一实施例的、由合成目标图像选择部分选择的合成目标图像和由图层处理部分生成的合成图像的示例的图。

图5A、5B和5C是示意地说明根据本发明的第一实施例的、有效声音范围设置部分的有效声音范围的设置方法以及合成目标图像选择范围确定部分的合成目标图像选择范围的确定方法的图。

图6A和6B是说明根据本发明的第一实施例的、显示在显示部分上的显示屏幕的过渡的示例的图。

图7A、7B和7C是示意地说明根据本发明的第一实施例的、有效声音范围设置部分的有效声音范围的设置方法和合成目标图像选择范围确定部分的合成目标图像选择范围的确定方法的图。

图8A、8B、8C和8D是示意地说明根据本发明的第一实施例的、选择部分的合成目标图像的选择处理和图层处理部分的合成图像的生成处理的流程的示例的图。

图9A和9B是示意地说明根据本发明的第一实施例的、图层分离部分的合成目标图像的分离方法的图。

图10A、10B和10C是示意地说明根据本发明的第一实施例的、作为图层修改部分的修改处理的目标的图像和由图层修改设备修改了的图像的图。

图11A和11B是示意地说明根据本发明的第一实施例的、图层合成部分的合成方法的图。

图12A和12B是示意地说明根据本发明的第一实施例的、图层合成部分的合成目标图像的合成方法的图。

图13是说明根据本发明的第一实施例的、由图层处理部分生成的合成图像的示例的图。

图14是说明根据本发明的第一实施例的、图像捕获设备的合成图像生成处理的处理过程的示例的流程图。

图15是说明根据本发明的第一实施例的、图像捕获设备的合成图像生成处理的处理过程的示例的流程图。

图16A和16B是说明根据本发明的第二实施例的、图像捕获设备与目标对象之间的距离和碰撞声音的生成位置及其达到位置之间的关系的图。

图17是说明根据本发明的第二实施例的、图像捕获设备的功能性配置的示例的方块图。

图18A和18B是示意地说明根据本发明的第二实施例的、作为图像捕获部分的图像捕获目标的图像捕获范围以及显示在显示部分上的捕获图像的图。

图19是示意地说明根据本发明的第二实施例的、作为图像捕获部分的图像捕获目标的图像捕获范围与显示在显示部分上的捕获图像之间的位置关系的顶视图。

图20A和20B是示意地说明根据本发明的第二实施例的、有效声音范围设置部分的有效声音范围的设置方法和合成目标图像选择范围确定部分的合成目标图像选择范围的确定方法的图。

图21是说明根据本发明的第二实施例的、显示部分中的显示示例的图。

图22是说明根据本发明的第二实施例的、图像捕获设备的合成图像生成处理的处理过程的示例的流程图。

图23是说明根据本发明的第三实施例的、图像捕获设备的功能性配置的示例的方块图。

图24是说明根据本发明的第三实施例的、目标对象信息存储部分的存储内容的示例的图。

图25是说明根据本发明的第三实施例的、显示部分的显示示例(显示屏幕)的图。

图26A和26B是说明根据本发明的第三实施例的、由图层处理部分生成的合成图像的示例的图。

图27是说明根据本发明的第四实施例的、图像捕获设备的功能性配置的示例的方块图。

图28是说明根据本发明的第四实施例的、目标对象信息存储部分的存储内容的示例的图。

图29A和29B是示意地说明根据本发明的第四实施例的、有效声音范围设置部分的有效声音范围的设置方法和合成目标图像选择范围确定部分的合成目标图像选择范围的确定方法的图。

图30A和30B是示意地说明根据本发明的第四实施例的、有效声音范围设置部分的有效声音范围的设置方法和合成目标图像选择范围确定部分的合成目标图像选择范围的确定方法的图。

具体实施方式

在下文中，将按照以下顺序描述实现本发明的实施例：

1.第一实施例(合成图像生成控制：基于用户操控设置有效声音范围的示例)

2.第二实施例(合成图像生成控制：计算对象距离并校正碰撞声音检测位置的示例)

3.第三实施例(合成图像生成控制：从多个对象中指定想要的对象并生成涉及该对象的合成图像的示例)

4.第四实施例(合成图像生成控制：以所记录的图像内容生成合成图像的示例)

1.第一实施例

[图像捕获设备的配置示例]

图1是说明根据本发明的第一实施例的、图像捕获设备100的功能性配置的示例的方块图。图像捕获设备100包括图像捕获部分111、对象信息生成部分120、捕获图像保持部分115、声音输入部分131、特定声音检测部分132、操控接收部分140和计时器设置部分150。此外，图像捕获设备100包括有效声音范围设置部分160、选择部分170、图层处理部分180、合成图像保持部分185、显示控制部分190、显示部分191和合成图像存储部分200。例如，图像捕获设备100可以用数字视频摄像机来实现，该数字视频摄像机可以成像对象来生成捕获图像(图像数据)、通过图像分析提取关于该图像数据的每个特征量并使用每一个所提取的特征量进行各种图像处理。此外，图像捕获设备100是公开在权利要求书中的图像处理设备的示例。

图像捕获部分111包括：图像捕获元件(例如，如图19所示的图像捕获元件112)，其将通过镜头(未示出)入射的对象的光转换成电信号；以及信号处理部分(未示出)，其处理图像捕获元件的输出信号来生成捕获图像(图像数据)。也就是说，在图像捕获部分111中，通过镜头入射的对象的光学图像被形成在图像捕获元件的成像表面上，图像捕获元件在这种状态下进行图像捕获操作，而且该信号处理部分对于成像信号进行信号处理，因此，生成捕获图像。基于从操控接收部分140或计时器设置部分150输出的图像捕获操作的开始指令信息来生成捕获图像。此外，将所生成的捕获图像供应到并保持在捕获图像保持部分115中。另外，将所生成的捕获图像供应到显示控制部分190，然后显示在显示部分191上。此外，将所生成的捕获图像以及在捕获图像生成时每个镜头(例如，聚焦镜头和变焦镜头)的位置和聚焦位置供应到对象信息生成部分120。

捕获图像保持部分115是用于保持由图像捕获部分111生成的捕获图像预定时间的环形缓存器，并将所保持的捕获图像供应到选择部分170。此外，捕获图像保持部分115与图像捕获部分111生成的捕获图像相关联地保持对象信息生成部分120生成的对象信息。这里，例如，捕获图像被保持在捕获图像保持部分115中的预定时间可以是3至10秒。也就是说，将图像捕获部分111所生成的最新捕获图像和对象信息生成部分120所生成的对象信息在捕获图像保持部分115中保持3至10秒。

对象信息生成部分120基于图像捕获部分111所生成的捕获图像和在捕获图像生成时的每个信息(例如，镜头的位置和聚焦位置)，生成涉及捕获图像的对象信息。此外，对象信息生成部分120将所生成的对象信息供应到捕获图像保持部分115，并允许将其保持在其中。例如，对象信息是用于从包括在图像捕获部分111所生成的捕获图像中的对象中辨别目标对象区域和其背景区域的信息。例如，生成景深图(depth map)作为对象信息。这里，景深图是指示从图像捕获位置(例如，图像捕获设备100的位置)到包括在捕获图像中的对象的距离(对象距离)的数据。例如，可以使用诸如TOF(飞行时间(time of flight))、与散焦的景深(depth from defocus)之类的技术作为生成景深图的技术。例如，TOF技术是用于基于从对象反射从光源发射的光并到达传感器的延迟时间以及光速度计算到对象的距离的技术。

例如，声音输入部分131获得图像捕获设备100周围的声音，并将所获得的声音(声音数据)输出到特定声音检测部分132。用多个麦克风等实现声音输入部分131。

特定声音检测部分132基于从声音输入部分131输出的声音来检测特定声音，并且在检测到特定声音的情况下，将其输出到选择部分170。在本发明第一实施例中示范了在高尔夫球挥杆期间高尔夫球棒接触高尔夫球的瞬间生成的声音(碰撞声音)为特定声音的情况。例如，特定声音检测部分132预先存储涉及特定声音的特征量作为特定声音标识信息(参考数据)。然后，特定声音检测部分132从声音输入部分131输出的声音中提取特征量，并将所提取的特征量与特定声音标识信息比较以计算相似性。在所计算出的相似性超过阈值的情况下，特定声音检测部分132确定从声音输入部分131输出的声音是特定声音。具体地说，从声音输入部分131输出的声音数据通过AD(模-数)转换处理采样，并转换为数字数据。此外，以适当时间间隔对数字数据进行诸如频率分析之类的处理，以便将该数字数据转换为指示声音的谱或其他声学特征的参数。因此，提取了声音的时间顺序特征量。此外，使用所保持的参考数据进行与所提取的时间顺序特征量的匹配处理，然后将声音识别结果输出作为匹配处理的结果。可以使用各种其他现存方法进行声音分析和识别。

操控接收部分140接收由用户操控的操控内容，并将基于接收到的操控内容的操控信号输出到图像捕获部分111、计时器设置部分150、有效声音范围设置部分160和显示控制部分190。例如，当接收到指令用于生成合成图像的合成图像记录方式的设置的合成图像记录方式设置操控时，操控接收部分140将用于指令图像捕获操作的开始的控制信号输出到图像捕获部分111。然后，操控接收部分140将用于指令捕获图像的显示开始的控制信号输出到显示控制部分190。例如，通过合成图像记录方式的设置按钮的按压操控来进行合成图像记录方式的设置操控。此外，例如，当接收到用于指令合成图像记录方式的释放的合成图像记录方式释放操控时，操控接收部分140将用于停止图像捕获操作的控制信号输出到图像捕获部分111。例如，通过合成图像记录方式的释放按钮进行合成图像记录方式释放操控。此外，例如，当在设置了合成图像记录方式的情况下接收到合成图像的记录指令操控时，操控接收部分140将指示接收到合成图像的记录指令操控的控制信号输出到有效声音范围设置部分160。然后，操控接收部分140将用于停止图像捕获操作的控制信号输出到图像捕获部分111。例如，通过视频记录按钮(REC按钮)进行合成图像的记录指令操控。此外，例如，当接收到用于通过计时器设置在合成图像记录方式下进行图像捕获操作的计时器设置操控时，操控接收部分140将用于指令计时器设置的控制信号输出到计时器设置部分150。例如，通过计时器设置按钮进行计时器设置操控。此外，当按压计时器设置按钮时，可以进行计数器值(例如，8至17秒的设置)的设置操控。这些操控可以使用诸如配备在图像捕获设备100的按钮之类的操控构件输入，并且可以通过经由遥控器操控的无线通信等进行。

计时器设置部分150设置用于在合成图像记录方式下进行图像捕获操作的计时器(例如，自拍器(self timer)功能)。具体地说，如果操控接收部分140接收到计时器设置操控，则计时器设置部分150将用于指令图像捕获操作的开始的控制信号输出到图像捕获部分111。此外，计时器设置部分150将用于指令捕获图像的显示开始的控制信号以及由计时器设置引起的计数值输出到显示控制部分190。另外，在计数值的显示开始之后，计时器设置部分150顺序输出根据设置内容的计数值到显示控制部分190。因此，如图6A和6B所示，图像捕获部分111所生成的捕获图像被显示在显示部分191上，并且计数值被重叠和显示在捕获图像上。例如，将每一秒递增一地加起来的计数值显示在显示部分191上。此外，在所设置的计数器的计数值为“零”的情况下计时器设置部分150将指示该事实的控制信号输出到有效声音范围设置部分160。此外，计时器设置部分150将用于停止图像捕获操作的控制信号输出到图像捕获部分111。

在设置了合成图像记录方式的情况下，有效声音范围设置部分160设置用于确定特定声音检测部分132检测到的特定声音是否有效的有效声音范围。此外，有效声音范围设置部分160将关于所设置的有效声音范围的信息(有效声音范围和在设置该范围时用作参考的时间轴上的位置)输出到选择部分170。具体地说，在操控接收部分140接收到合成图像的记录指令操控的情况下，或者在计时器设置部分150所设置的计时器的计数值变成“零”的情况下，有效声音范围设置部分160设置有效声音范围。这里，在操控接收部分140接收到合成图像的记录指令操控的情况下，接收到合成图像的记录指令操控的时间轴上的位置变成参考位置。此外，计时器设置部分150所设置的计时器的计数值变成“零”，计数值变成“零”的时间轴上的位置变成参考位置。将参考图5A至7C等详细描述有效声音范围的这些设置方法。

选择部分170从保持在捕获图像保持部分115中的捕获图像中，选择在借助于图层处理部分180的合成图像的生成处理中使用的合成目标图像。此外，选择部分170将关于所选择的合成目标图像的信息(例如，合成目标图像、关于这些图像的对象信息以及在合成图像的生成处理中使用的坐标)输出到图层处理部分180。将参考图2详细描述选择部分170的内部配置。此外，合成目标图像是公开在权利要求书中的动作过渡图像的示例。

图层处理部分180使用选择部分170所选择的合成目标图像生成合成图像，然后将所生成的合成图像存储在合成图像存储部分200中。将参考图2详细描述图层处理部分180的内部配置。此外，图层处理部分180是公开在权利要求书中的合成图像生成部分的示例。

合成图像保持部分185在借助于图层处理部分180的合成图像的生成处理时在合成处理期间保持合成图像(历史图像)，并将所保持的合成图像供应到图层处理部分180。将参考图2详细描述合成图像保持部分185。

显示控制部分190根据操控接收部分140接收到的操控输入，将存储在合成图像存储部分200中的合成图像或从图像捕获部分111输出的捕获图像显示在显示部分191上。此外，显示控制部分190将计时器设置部分150所设置的计时器的计数值与捕获图像重叠，以显示在显示部分191上。

显示部分191在显示控制部分190的控制下显示每一个图像。

合成图像存储部分200存储图层处理部分180所生成的合成图像，并将所存储的合成图像供应到显示控制部分190。

图2是说明根据本发明的第二实施例的、选择部分170和图层处理部分180的功能性配置的示例的方块图。选择部分170包括合成目标图像选择范围确定部分171、合成目标图像选择部分172、坐标计算部分173以及计数器部分174。此外，图层处理部分180包括图层分离部分181、图层修改部分182以及图层合成部分183。

合成目标图像选择范围确定部分171确定用于在保持在捕获图像保持部分115中的捕获图像之中，选择在借助于图层处理部分180的合成图像的生成处理中使用的合成目标图像的范围(合成目标图像选择范围)。具体地说，合成目标图像选择范围确定部分171基于特定声音检测部分132所检测到的特定声音的检测位置(时间轴上的位置)以及有效声音范围设置部分160所设置的有效声音范围，确定合成目标图像选择范围。例如，在特定声音的检测位置包括在有效声音范围中的情况下，合成目标图像选择范围确定部分171基于特定声音的检测位置，确定合成目标图像选择范围。另一方面，在特定声音的检测位置不包括在有效声音范围中的情况下，合成目标图像选择范围确定部分171基于在设置有效声音范围时变成参考的时间轴上的位置，确定合成目标图像选择范围。这里，操控接收部分140接收到合成图像的记录指令操控的情况下，接收到合成图像的记录指令操控的时间轴上的位置变成参考位置。此外，在计时器设置部分150所设置的计时器的计数值变成“零”的情况下，计数值变成“零”的时间轴上的位置变成参考位置。此外，合成目标图像选择范围确定部分171将关于所确定的合成目标图像选择范围的信息(例如，合成目标图像选择范围和关于包括在该范围中的图像的对象信息)输出到合成目标图像选择部分172。合成目标图像选择范围确定部分171是公开在权利要求书中的确定部分的示例。

合成目标图像选择部分172从包括在合成目标图像选择范围确定部分171所确定的合成目标图像选择范围中的相应图像中，选择在借助于图层处理部分180的合成图像的生成处理中使用的合成目标图像。例如，合成目标图像选择部分172从包括在合成目标图像选择范围确定部分171所确定的合成目标图像选择范围中的相应图像(保持在捕获图像保持部分115中的捕获图像)中，以预定时间间隔选择图像作为合成目标图像。此外，例如，合成目标图像可以被选择成具有适合于肉眼观察目标对象的动作过渡的间隔。此外，合成目标图像选择部分172将关于所选择的合成目标图像的信息(例如，合成目标图像，关于这些图像的对象信息)输出到坐标计算部分173和图层分离部分181。

关于从合成目标图像选择部分172输出的每一个合成目标图像，坐标计算部分173计算在图层处理部分180的合成图像的生成处理中使用的坐标，并将所计算出的坐标输出到图层修改部分182。在这种坐标计算中，计算要与涉及作为计算目标的合成目标图像的合成图像合成的像素位置。也就是说，在这种坐标计算中，与最后生成的合成图像(例如，如图8D所示的合成图像402)之中、作为计算目标的合成目标图像对应地计算像素范围(包括如图8D所示的F0和F10的范围)。

计数器部分174将在合成目标图像选择范围确定部分171的合成目标图像选择范围确定时使用的计数器(碰撞声音检测计数器)的值供应到合成目标图像选择范围确定部分171。这里，计数器部分174连续地增加碰撞声音检测计数器。此外，在从特定声音检测部分132检测到特定声音的事实被输出到合成目标图像选择范围确定部分171的情况下，由合成目标图像选择范围确定部分171将碰撞声音检测计数器的值重置为“零”。类似地，在重置后，计数器部分174还连续增加碰撞声音检测计数器。此外，合成目标图像选择范围确定部分171在合成目标图像选择范围的确定时，使用碰撞声音检测计数器的值估计碰撞声音检测位置。也就是说，合成目标图像选择范围的确定时，将比确定时间在前碰撞声音检测计数器的值的位置(在时间轴上的在前位置)估计为碰撞声音检测位置。

对于合成目标图像选择部分172所选择的合成目标图像，图层分离部分181使用对应的对象信息进行图层分离。这里，术语“层”指的是通过对每一个图像(帧)分离目标对象部分和背景部分而获得的每一个图像。此外，图层分离部分181将所分离的每一图层图像输出到图层修改部分182。

图层修改部分182使用坐标计算部分173所计算出的坐标，进行用于将从图层分离部分181输出的相应图层图像生成合成图像的各种修改处理。作为这种修改处理，进行诸如剪切、缩放、旋转和坐标移动之类的几何算术处理。例如，缩放让其处理内容根据合成目标图像的数量、合成图像的尺寸等来确定。此外，作为修改处理，可以进行诸如强调目标对象的动作部分之类的图像处理。另外，图层修改部分182将经处理的图层图像输出到图层合成部分183。

图层合成部分183对从图层修改部分182输出的图层图像进行图像合成处理，并存储所生成的合成图像到合成图像存储部分200。具体地说，图层合成部分183合成相应图层图像，以便将从图层修改部分182输出的图层图像安排在对应的像素范围中。此外，图层合成部分183合成紧接在合成目标之前的图层图像，然后在合成图像保持部分185顺序保持合成图像(历史图像)。此外，当进行变成下一合成目标的图层图像合成处理时，图层合成部分183从合成图像保持部分185获得保持在合成图像保持部分185中的合成图像(历史图像)，并且在合成处理中使用它们。

合成图像保持部分185顺序保持图层合成部分183所生成的合成图像(历史图像)，并将所保持的合成图像供应到图层合成部分183。也就是说，将图层合成部分183所生成的合成图像顺序更新并保持在合成图像保持部分185中。

[合成图像生成处理的过渡的示例]

接下来，简短地描述在生成合成图像的情况下生成处理的过渡的示例。

图3A至3C是示意地说明根据本发明的第一实施例的、图像捕获设备100与作为图像捕获目标的人300的位置关系以及从该位置关系生成的动作图像的关系的图。

图3A是示意地说明图像捕获设备100与作为关于图像捕获设备100的图像捕获目标的人300之间的位置关系的图。例如，人300在高尔夫练习场中进行高尔夫球棒301的练习挥杆。当人300从如图3A所示的姿势挥动高尔夫球棒301时，人300用高尔夫球棒301打击高尔夫球302来以想要的方向驱动高尔夫球302。

图3B示意地说明由图像捕获部分111以矩形形状生成的运动图像310。此外，在图3B中，在与运动图像310对应的矩形形状中，沿着时间轴安排形成运动图像310的多帧之中的某些帧(图像311至313等)。此外，运动图像310是通过在如图3A所示的状态下通过由图像捕获设备100成像人300的高尔夫练习挥杆的样子而获得的运动图像。这里，图像311是通过成像人300准备好高尔夫球挥杆的状态而获得的图像，而图像312是通过成像人300观察高尔夫球302在高尔夫球挥杆完成之后飞行的方向的状态而获得的图像。此外，图像313是在人300进行高尔夫球挥杆时、通过成像高尔夫球棒301接触高尔夫球302的瞬间的状态而获得的图像。这里，当人300进行高尔夫球挥杆时，在高尔夫球棒301接触高尔夫球302的瞬间生成特定声音(碰撞声音)。将生成碰撞声音的运动图像310中的位置表示为碰撞声音生成位置315。

在使用这样生成的运动图像310生成指示人300的高尔夫球挥杆的过渡的合成图像的情况下，例如，选择用于选择合成目标图像的预定范围(合成目标图像选择范围)。合成目标图像选择范围是包括例如从高尔夫球挥杆开始到其结束的一系列动作过渡的范围。此外，在该预定范围内，选择并合成作为合成目标的图像。图4B示出了这种合成示例。

例如，如图3B所示，在运动图像310中确定合成目标图像选择范围320，并将包括在合成目标图像选择范围320中的相应帧之中满足预定条件的帧确定为合成目标图像。

在图3C中，沿着时间轴安排包括在如图3B所示的运动图像310中确定的合成目标图像选择范围320中的相应帧之中的某些帧(图像321至326)。这里，运动图像321是人300开始高尔夫球挥杆时捕获的图像，而图像326是人300完成高尔夫球挥杆时捕获的图像。此外，图像323是与如图3B所示的图像313对应的图像。另外，图像322、324和325是在图像321和326之间、通过以时间顺序方式顺序成像进行高尔夫球挥杆的人300的动作过渡而获得的图像。

图4A和4B是说明根据本发明的第一实施例的、由合成目标图像选择部分172选择的合成目标图像和由图层处理部分180生成的合成图像的示例的图。在图4A中，以时间顺序方式安排被选为包括在如图3B所示的运动图像310中的合成目标图像选择范围320中的相应帧之中的合成目标图像的24个图像。在如图4A所示的24个图像之中包括与如图3C所示的图像321至326相同的对象的图像被赋予相同的参考号。这里，作为合成目标图像的选择方法，例如，可以使用用于以预定间隔选择帧作为合成目标图像的选择方法。此外，例如，可以认为在某些情况下精确地确认高尔夫球棒301接触高尔夫球302的时间周围的动作过渡。在这种情况下，生成碰撞声音时的图像(例如，图像323)的邻近图像的间隔可以比其他间隔更接近，以选择合成目标图像。

图4B示意地说明图层处理部分180所生成的合成图像330。按照这种方式，确定包括从人300的高尔夫球挥杆开始到其结束的动作过渡的合成目标图像选择范围，并且在合成目标图像选择范围内选择合成目标图像以便合成。因此，可以生成指示人300的高尔夫球挥杆的动作过渡的合成图像。

如上所述，在从运动图像310生成合成图像的情况下，适当地选择用于合成目标图像的选择的合成目标图像选择范围很重要。然而，由于在比较短时间内进行高尔夫球挥杆，因此可能难以从运动图像310适当地选择合成目标图像选择范围。也就是说，可能难以从包括范围从包括人300的高尔夫球挥杆开始之前的状态的图像到包括高尔夫球挥杆结束之后的状态的图像的图像的运动图像310中选择合成目标图像选择范围。

这里，如上所述，在高尔夫球挥杆中间生成碰撞声音。按照这种方式，由于在高尔夫球挥杆期间频繁地在预定位置上生成碰撞声音，因此可以基于碰撞声音选择合成目标图像选择范围。然而，在人300在有很多其他人的高尔夫练习场中练习的情况下，当人300准备好高尔夫球挥杆等时，非常可能由人300之外的人的高尔夫球挥杆生成碰撞声音。也就是说，在适当地记录涉及引起碰撞声音的体育运动的即时(instant)动作的情况下，如果所检测到的碰撞声音总是有效，那么非常可能错误地检测到来自检测目标之外的人的碰撞声音。由此，在生成涉及人300的合成图像的情况下，在基于碰撞声音选择合成目标图像选择范围时适当地检测人300的高尔夫球挥杆所生成的碰撞声音很重要。因此，在本发明的第一实施例中，将提供有效声音范围的、在其中只有基于用户操控的拍摄触发周围的邻近定时有效的示例设置成减少碰撞声音的错误检测。仅仅使用在有效声音范围中检测到的碰撞声音设置合成目标图像选择范围，从而选择合适的合成目标图像。

[基于视频记录按钮操控的合成目标图像选择范围的确定示例]

图5A、5B和5C是示意地说明根据本发明的第一实施例的、有效声音范围设置部分160的有效声音范围的设置方法以及合成目标图像选择范围确定部分171的合成目标图像选择范围的确定方法的图。

图5A以矩形形状示意地说明图像捕获部分111所生成的运动图像350。此外，按照与如图3B所示的示例类似的方式，运动图像350是通过由图像捕获设备100成像人(例如，Koda Goro)的高尔夫练习挥杆的样子而获得的运动图像。这里，假设Koda Goro要求他的朋友(例如，Otogawa Rokuro)拍摄他的高尔夫球挥杆。在这种情况下，Otogawa Rokuro用手握住图像捕获设备100，其光轴方向朝向Koda Goro，并且按压合成图像记录方式的设置按钮。如果操控接收部分140接收到按压操控，那么图像捕获部分111生成捕获图像，并将所生成的捕获图像顺序地保持在成像图像保持部分115。此外，显示控制部分190在显示部分191上顺序显示所生成的捕获图像(所谓直接图像(through image)。按照这种方式，在Otogawa Rokuro使用设置了合成图像记录方式的图像捕获设备100进行拍摄的状态下，Koda Goro进行高尔夫球挥杆。在Koda Goro刚刚完成高尔夫球挥杆时，Otogawa Rokuro迅速按压视频记录按钮。如果操控接收部分140接收到按压操控，那么有效声音范围设置部分160设置有效声音范围。

例如，假设Otogawa Rokuro按压视频记录按钮的位置(时间轴上的位置)是如图5A所示的运动图像350的时间轴上的视频记录按钮的按压位置(视频记录按钮按压位置351)。在这种情况下，有效声音范围设置部分160基于视频记录按钮按压位置351设置有效声音范围352。具体地说，有效声音范围设置部分160设置在时间轴上领先视频记录按钮按压位置351时间L1的范围，作为有效声音范围352。在这个示例中，由于可以在一系列高尔夫球挥杆动作结束之后生成视频记录按钮的按压(拍摄触发)，因此可以在拍摄触发的定时之前存在碰撞声音的生成位置。因此，这个示例是在视频记录按钮的按压之前设置有效声音范围的示例。

这里，例如，时间L1可以是1.0秒。基于在以这种方式设置的有效声音范围检测到的碰撞声音确定合成目标图像选择范围。将参考图5B描述合成目标图像选择范围的确定方法。此外，在未在以这种方式设置的有效声音范围检测到的碰撞声音的情况下，基于视频记录按钮按压位置351确定合成目标图像选择范围。参考图5C描述合成目标图像选择范围的确定方法。

图5B示意地说明在由有效声音范围设置部分160设置的有效声音范围352中检测到碰撞声音的情况下合成目标图像选择范围的确定方法。在图5B中，将特定声音检测部分132检测到碰撞声音的位置(时间轴上的位置)表示为碰撞声音检测位置353。如图5B所示，在由有效声音范围设置部分160设置的有效声音范围352中检测到碰撞声音的情况下，合成目标图像选择范围确定部分171基于碰撞声音检测位置353确定合成目标图像选择范围。也就是说，合成目标图像选择范围确定部分171参考碰撞声音检测位置353将在时间轴上碰撞声音检测位置353之前和之后的预定范围确定为合成目标图像选择范围354。具体地说，合成目标图像选择范围确定部分171确定时间轴上的一个范围L4作为合成目标图像选择范围354，该范围L4包括领先碰撞声音检测位置353时间L2的范围和超过碰撞声音检测位置353时间L3的范围。

这里，考虑到高尔夫球棒的旋转速度，在高尔夫球棒接触高尔夫球之后的高尔夫球挥杆期间的时间短于高尔夫球棒接触高尔夫球之前的时间。也就是说，在生成碰撞声音之后的高尔夫球挥杆期间的时间短于生成碰撞声音之前的时间。因此，确定合成目标图像选择范围354，以便碰撞声音检测位置353之前的时间L2长于这以后的时间L3。例如，时间L2可以是1.5秒，而时间L3可以是0.5秒。按照这种方式，当基于在有效声音范围中检测到的碰撞声音确定合成目标图像选择范围时，可以确定合适的合成目标图像选择范围。

这里，假设在由有效声音范围设置部分160设置的有效声音范围352之外的位置(例如，由如图5B所示的箭头358和359所指示的位置)中检测碰撞声音。在有效声音范围352之外的位置中检测到碰撞声音的情况下，碰撞声音不被用于合成目标图像选择范围的确定。如图5C所示，在不使用碰撞声音的情况下，可以基于视频记录按钮的按压位置确定合成目标图像选择范围。此外，在有效声音范围352之外的位置中检测到碰撞声音的情况下，碰撞声音不被用于合成目标图像选择范围的确定，但可以用于下一合成图像的生成处理。

图5C示意地说明不在由有效声音范围设置部分160设置的有效声音范围352中检测到碰撞声音的情况下合成目标图像选择范围的确定方法。在图5C中，按照与图5A的情况类似的方式，将按压视频记录按钮的位置表示为视频记录按钮按压位置351。如图5C所示，在未在有效声音范围352中检测到碰撞声音的情况下，合成目标图像选择范围确定部分171基于视频记录按钮按压位置351确定合成目标图像选择范围。也就是说，合成目标图像选择范围确定部分171参考视频记录按钮按压位置351，将在时间轴上视频记录按钮按压位置351之前的预定范围确定为合成目标图像选择范围355。具体地说，合成目标图像选择范围确定部分171确定在时间轴上领先碰撞声音检测位置353时间L7(L5+L6)的范围，作为合成目标图像选择范围355。按照这种方式，在未在有效声音范围352中检测到碰撞声音的情况下，将在时间轴上领先视频记录按钮的按压位置时间L6的位置认为碰撞声音检测位置，以确定合成目标图像选择范围355。也就是说，时间L5和L6对应于如图5B所示的时间L2和L3。这里，例如，按照与图5B的情况类似的方式，时间L7可以是2.0秒。也就是说，时间L5为1.5秒，而时间L6为0.5秒。然而，在基于视频记录按钮按压位置确定合成目标图像选择范围的情况下，由于基于用户操控确定合成目标图像选择范围，因此与如图5B所示的合成目标图像选择范围354相比，精确度可能降低。因此，在基于视频记录按钮按压位置确定合成目标图像选择范围的情况下，例如，时间L7可以长于时间L4，以确定合成目标图像选择范围。

此外，这些时间L1至L7可以通过用户操控改变。

[基于计时器的合成目标图像选择范围的确定示例]

图6A和6B是说明根据本发明的第一实施例的、显示在显示部分191上的显示屏幕的过渡的示例的图。图6A说明其中由计时器设置部分150设置的计时器的计数值“17”(372)与人300的高尔夫球挥杆开始之前由图像捕获部分111生成的图像重叠的显示示例(显示屏幕370)。图6B说明其中由计时器设置部分150设置的计时器的计数值“0”(373)与人300的高尔夫球挥杆结束时由图像捕获部分111生成的图像重叠的显示示例(显示屏幕371)。

在这个示例中，假设人300(例如，Koda Goro)自己拍摄他的高尔夫练习挥杆的样子。在这种情况下，例如，正在练习的Koda Goro将图像捕获设备100安放成使得其光轴方向定向到他自己(如图3A所示)，然后按压计时器设置按钮。通过这种按压操控，图像捕获部分111生成捕获图像，而显示控制部分190在显示部分191上显示所生成的捕获图像(所谓直接图像)。此外，计时器设置部分150通过计时器设置按钮的按压操控设置计时器，显示控制部分190将与所设置的内容对应的计数值(例如，17秒)和直接图像重叠，以显示在显示部分191上。例如，如图6A所示，在计时器设置按钮的按压之后，显示显示屏幕370，在其中重叠了由计时器设置部分150设置的计时器的计数值“17”(372)和包括准备好高尔夫球挥杆的人300的捕获图像。之后，类似地，在显示部分191上显示一个显示屏幕，在其中计时器的计数值(以一秒为间隔从17秒减少的值)与包括人300的捕获图像重叠。人300在以这种方式观察显示在显示部分191上的显示屏幕的同时，进行高尔夫球挥杆，以便在计时器的计数值变成“0”的时间周围终止高尔夫球挥杆。此外，在计时器的计数值为“0”的情况下，有效声音范围设置部分160设置有效声音范围。然后，在预定时间之后停止成像动作。将参考图7A、7B和7C详细描述有效声音范围的设置方法。

当如上所述那样进行计时器设置时，例如，即使在朋友不进行拍摄的情况下，人300也可以容易地拍摄他自己的高尔夫球挥杆的样子。

图7A、7B和7C是示意地说明根据本发明的第一实施例的、有效声音范围设置部分160的有效声音范围的设置方法和合成目标图像选择范围确定部分171的合成目标图像选择范围的确定方法的图。这里，第一实施例提供在其中基于由计时器设置部分150设置的计时器来设置有效声音范围的示例。

图7A以矩形形状示意地说明图像捕获部分111所生成的运动图像380。按照与如图3B所示的示例类似的方式，运动图像380是通过由图像捕获设备100成像人(例如，Koda Goro)的高尔夫练习挥杆的样子而获得的运动图像。例如，如图6A和6B所示，在人300自己拍摄他的高尔夫练习挥杆的样子的情况下，假设计时器设置部分150所设置的计时器的计数值为“0”。在这种情况下，如上所述，有效声音范围设置部分160设置有效声音范围。

例如，假设在其中计时器设置部分150所设置的计时器的计数值为“0”的位置是如图7A所示的运动图像380的时间轴上的时间计数器“0”的位置(时间计数器“0”位置381)。在这种情况下，有效声音范围设置部分160基于时间计数器“0”位置381设置有效声音范围382。具体地说，有效声音范围设置部分160参考时间计数器“0”位置381，将时间轴上时间计数器“0”位置381之前和之后的预定范围设置为有效声音范围382。例如，有效声音范围设置部分160设置在时间轴上的范围L13作为有效声音范围382，该范围L13包括领先时间计数器“0”位置381时间L11的范围和超过时间计数器“0”位置381时间L12的范围。

这里，人300可能难以进行高尔夫球挥杆来在时间计数器“0”的定时处终止该系列高尔夫球挥杆动作。因此，在这个示例中，生成碰撞声音瞬间可以对应于时间计数器“0”的位置，并且有效声音范围被设置成覆盖时间计数器“0”的位置之前和之后的范围。按照这种方式，基于视频记录按钮的按压位置设置有效声音范围的情况以及基于时间计数器“0”的位置设置有效声音范围的情况可以具有不同的设置内容。当根据多个拍摄触发特征设置有效声音范围时，可以减少错误检测到要检测的碰撞声音之外的声音的危险。

在这个方面，时间L11可以是0.5秒，而时间L12可以是0.5秒，例如。也就是说，例如，有效声音范围382的时间L13可以是1.0秒。人300在观察显示在显示部分191上的显示屏幕的同时，进行高尔夫球挥杆，以便在计时器的计数值变成“0”的时间周围终止高尔夫球挥杆。由此，与基于按压视频记录按钮的位置设置有效声音范围的情况相比，可能降低精确度。因此，基于计时器设置操控的有效声音范围可以相对宽于基于视频记录按钮按压操控的有效声音范围。也就是说，基于视频记录按钮按压操控的有效声音范围可以比基于计时器设置操控的有效声音范围窄。基于在按照这种方式设置的有效声音范围中检测到的碰撞声音确定合成目标图像选择范围。将参考图7B描述合成目标图像选择范围的确定方法。此外，在未在按照这种方式设置的有效声音范围中检测到碰撞声音的情况下，基于时间计数器“0”位置381确定合成目标图像选择范围。参考图7C描述合成目标图像选择范围的确定方法。

图7B示意地说明在由有效声音范围设置部分160设置的有效声音范围382中检测到碰撞声音的情况下合成目标图像选择范围的确定方法。在图7B中，将特定声音检测部分132检测到碰撞声音的位置(时间轴上的位置)表示为碰撞声音检测位置383。如图7B所示，在由有效声音范围设置部分160设置的有效声音范围382中检测到碰撞声音的情况下，合成目标图像选择范围确定部分171基于碰撞声音检测位置383确定合成目标图像选择范围。也就是说，合成目标图像选择范围确定部分171参考碰撞声音检测位置383将在时间轴上碰撞声音检测位置383之前和之后的预定范围确定为合成目标图像选择范围354。具体地说，将时间轴上、包括领先碰撞声音检测位置383时间L14的范围和超过碰撞声音检测位置383时间L15的范围的范围L16确定为合成目标图像选择范围384。

这里，如上所述，在高尔夫球棒接触高尔夫球之后的高尔夫球挥杆期间的时间短于高尔夫球棒接触高尔夫球之前的时间。因此，确定合成目标图像选择范围384，以便碰撞声音检测位置383之前的时间L14长于这以后的时间L15。例如，时间L14可以是1.5秒，而时间L15可以是0.5秒。按照这种方式，当基于在有效声音范围中检测到的碰撞声音确定合成目标图像选择范围时，可以确定合适的合成目标图像选择范围。

假设在由有效声音范围设置部分160设置的有效声音范围382之外的位置(例如，由如图7B所示的箭头388和389所指示的位置)中检测碰撞声音。在按照这种方式在有效声音范围382之外的位置中检测到碰撞声音的情况下，以与如图5B所示的示例类似方式，不将碰撞声音用于合成目标图像选择范围的确定。如图7C所示，在不使用碰撞声音的情况下，可以基于时间计数器“0”位置确定合成目标图像选择范围。此外，在有效声音范围382之外的位置中检测到碰撞声音的情况下，碰撞声音不被用于合成目标图像选择范围的确定，但可以用于下一合成图像的生成处理。

图7C示意地说明不在由有效声音范围设置部分160设置的有效声音范围382中检测到碰撞声音的情况下合成目标图像选择范围的确定方法。在图7C中，按照与图7A的示例类似的方式，将在其中由计时器设置部分150设置的计时器的计数值为“0”的位置表示为时间计数器“0”位置381。如图7C所示，在未在有效声音范围382中检测到碰撞声音的情况下，合成目标图像选择范围确定部分171基于时间计数器“0”位置381确定合成目标图像选择范围。也就是说，合成目标图像选择范围确定部分171参考时间计数器“0”位置381，将在时间轴上在时间计数器“0”位置381之前和之后的预定范围确定为合成目标图像选择范围385。具体地说，有效声音范围设置部分160将在时间轴上的一个范围L19设置为合成目标图像选择范围385，该范围L19包括领先时间计数器“0”位置381时间L17的范围和超过时间计数器“0”位置381时间L18的范围。

这里，人300在观察显示显示部分191上的显示屏幕的同时，进行高尔夫球挥杆，以便在计时器的计数值变成“0”的时间周围终止高尔夫球挥杆。由此，如图5C所示，与基于按压视频记录按钮的位置确定合成目标图像选择范围的情况相比，可能降低精确度。因此，在未在有效声音范围382中检测到碰撞声音的情况下，将在时间轴上计时器的计数值为“0”的位置(时间计数器“0”位置381)认为碰撞声音检测位置，以确定合成目标图像选择范围385。

此外，时间L17和L18对应于如图7B所示的时间L14和L15。此外，例如，按照与图7B的示例类似的方式，时间L17可以是1.5秒，而时间L18可以是0.5秒。如上所述，在基于计时器的计数值为“0”的位置确定合成目标图像选择范围的情况下，基于由用户的感觉引起的行为确定确定合成目标图像选择范围。由此，与如图7B所示的合成目标图像选择范围384相比，精确度可能降低。因此，在基于计时器的计数值为“0”的位置确定合成目标图像选择范围的情况下，例如，时间L19可以长于时间L16，以确定合成目标图像选择范围。

此外，相应时间L11至L19可以通过用户操控改变。

[合成图像的生成示例]

接下来，将参考附图使用包括在所确定的合成目标图像选择范围中的每一帧，详细描述生成合成图像的示例。在本发明的第一实施例中，将作为示例，描述生成静止图像的合成图像的情况。

图8A、8B、8C和8D是示意地说明根据本发明的第一实施例的、选择部分170的合成目标图像的选择处理和图层处理部分180的合成图像的生成处理的流程的示例的图。

图8A示意地说明由图像捕获部分111生成的运动图像400以及运动图像400中由合成目标图像选择范围确定部分171确定的合成目标图像选择范围401。按照与如图3B所示的示例类似的方式等，运动图像400是通过由图像捕获设备100成像人的高尔夫练习挥杆的样子而获得的运动图像。此外，按照与如图5B和5C以及图7B和7C所示的示例类似的方式，假设合成目标图像选择范围401是由合成目标图像选择范围确定部分171确定的合成目标图像选择范围。

图8B示意地说明包括在运动图像400中的合成目标图像选择范围401中的相应帧。在图8B中，包括在合成目标图像选择范围401中的相应帧以矩形形状示出。这里，将指示相应帧的F1至F90给定为矩形形状。

合成目标图像选择部分172基于预定条件，从包括在合成目标图像选择范围401中的相应帧中选择合成目标图像。例如，合成目标图像选择部分172在帧F1至F90之中将预定间隔(例如，10-帧间隔)上的帧选择为合成目标图像。在这种情况下，例如，包括在检测到碰撞声音的位置周围的预定范围(例如，0.05秒)中的帧的间隔可以比其他间隔更接近，以便被选择。因此，可以使用在要观察的动作过渡周围选择的图像生成合成图像。以这种方式选择的合成目标图像示出在图8C中。在这个示例中，为了描述的简单，示范了比较少量的帧。

图8C示意地说明了从包括在合成目标图像选择范围401中的相应帧中选择为合成目标图像的多个合成目标图像(帧F0、F10等)。在图8C中，以矩形形状示出合成目标图像。这里，指示每一个合成目标图像的F0、F10或其他帧以矩形形状给出。在这个示例中，为了描述的简单，示范了比较少量的帧(例如，10帧)。

图8D示意地说明了由合成目标图像(多个帧F0、F10等)生成的合成图像402。在图8D中，按照与图8C的示例类似的方式，以矩形形状示出合成目标图像。这里，指示每一个合成目标图像的F1、F10或其他帧以矩形形状给出。

图层处理部分180通过修改处理来合成由合成目标图像选择部分172选择的合成目标图像(帧F0、F10等)，从而生成合成图像。例如，图层处理部分180对关于由合成目标图像选择范围确定部分171选择的十个合成目标图像的合成，进行修改处理(例如，相对端的剪切(cutout))，从而以时间顺序方式在修改后合成合成目标图像。例如，图层处理部分180合成要被从左上端部分起按时间顺序方式安排的五个合成目标图像(F0、F10、F20、F30和F40)，并且合成要被从左下端部分起按时间顺序方式安排的五个合成目标图像(F50、F60、F70、F80和F90)。基于坐标计算部分173的计算结果确定合成目标图像的合成位置。因此，如图4B所示，生成指示练习高尔夫球挥杆的人的动作过渡的合成图像。

在图8A、8B、8C和8D中，已经描述了在其中容易地进行图像合成的示例(在其中在合成目标图像的相对端的剪切之后进行图像合成的示例)。在下文中，将描述在其中将合成目标图像分离成目标对象图层和背景图层以生成合成图像的示例。

[合成目标图像的图层分离示例]

图9A和9B是示意地说明根据本发明的第一实施例的、图层分离部分181的合成目标图像的分离方法的图。在这个示例中，基于对象信息生成部分120所生成的对象信息，将由合成目标图像选择部分172选择的合成目标图像被分离为两个图层。

图9A说明了合成目标图像410和为合成目标图像410生成的对象信息412。合成目标图像410是包括人411的图像。此外，作为对象信息生成部分120所生成的对象信息，例如，生成指示将“1”赋予与目标对象区域对应的像素而将“0”赋予与目标对象之外的区域(背景区域)对应的像素的信息。在图9A中，与人411对应的区域(目标对象区域)是白区域413，而人411之外的区域(背景区域)是黑区域，从而示意地说明了对象信息412。

如上所述，在捕获图像保持部分115中，顺序保持图像捕获部分111所生成的捕获图像，并且与捕获图像相关联地保持对象信息生成部分120所生成的对象信息。此外，合成目标图像选择部分172将所选择的合成目标图像和为合成目标图像生成的对象信息输出到图层分离部分181。然后，图层分离部分181使用对应的对象信息，将从合成目标图像选择部分172输出的合成目标图像分离成两个图层。

图9B说明了由图层分离部分181分离出的目标对象图层420和背景图层422。目标对象图层420是通过提取如图9A所示的合成目标图像410中的目标对象区域(也就是说，被赋予“1”作为对象信息412的像素区域)而获得的图像。也就是说，提取了与包括在合成目标图像410中的人411对应的区域421。此外，背景图层422是通过提取如图9A所示的合成目标图像410中的背景区域(也就是说，被赋予“0”作为对象信息412的像素区域)而获得的图像。也就是说，提取了与包括在合成目标图像410中人411之外的区域(背景区域)对应的区域(区域423之外的区域)。

对按照这种方式分离出来的图层图像，用图层修改部分182进行各种修改处理。将参考图10A至10C详细描述这种修改示例。

[合成目标图像的修改示例]

图10A、10B和10C是示意地说明根据本发明的第一实施例的、作为图层修改部分182的修改处理的目标的图像和由图层修改设备182修改了的图像的图。这里，作为一个示例，描述了为诸如高尔夫球这样的、以站立姿势进行的体育运动生成合成图像的情况。此外，在图10A、10B和10C中，为了描述的简单，作为一个示例，示出了使用图层分离之前的状态的合成目标图像进行修改处理的情况。

图10A说明了借助于图层修改部分182的修改之前的合成目标图像430。此外，图10B和10C说明了借助于图层修改部分182的修改之后的合成目标图像432和433。进行高尔夫球挥杆的人431被包括在合成目标图像430、432和433中。

例如，如图10A所示的合成目标图像430具有宽度W1和高度H1的图像尺寸。例如，合成目标图像430的图像尺寸可以是VGA尺寸(640像素×480像素)。也就是说，宽度W1可以是640，而高度H1可以是480。

如图10B所示的合成目标图像432是与如图10A所示的合成目标图像430中的过渡动作有效区域对应的图像，并且例如具有宽度W2和高度H2的图像尺寸。这里，过渡动作有效区域是用于从包括在修改之前的合成目标图像中的对象中剪切目标对象的区域。例如，合成目标图像432的图像尺寸可以是320像素×480像素。也就是说，宽度W2可以是320，而高度H2可以是480。

如图10C所示的合成目标图像433是与如图10A所示的合成目标图像430中的剩余背景区域对应的图像，并且例如宽度W3和高度H3的图像尺寸。剩余背景区域是在合成处理中用作背景图像的区域。例如，合成目标图像433的图像尺寸可以是160像素×480像素。也就是说，宽度W3可以是160，而高度H3可以是480。

假设过渡动作有效区域与剩余背景区域之间的中心位置与合成目标图像的中心位置一致。此外，根据目标对象的过渡方向，过渡动作有效区域的尺寸(W2×H2)与剩余背景区域尺寸(W3×H3)可以在其尺寸上相同(至少宽度和高度之一)。例如，在图像被表示为动作过渡图像时，目标对象的过渡方向是在其上图像以时间方式领先的方向。

例如，如图4B所示，在为诸如高尔夫球这样的、以站立姿势进行的体育运动的动作过渡生成合成图像的情况下，很可能每一个目标对象图像在横向方向上过渡。由此，如图10B和10C所示，可能最好过渡动作有效区域的高度H2和剩余背景区域的高度H3与合成目标图像的高度H1相同。另一方面，在为水平方向状态下进行的体育运动的动作过渡生成合成图像的情况下，每一个目标对象图像都可能在纵向方向上过渡。在这种情况下，可能最好过渡动作有效区域的宽度W2和剩余背景区域的宽度W3与合成目标图像的宽度W1相同。例如，在柔道的寝技等变成目标对象的情况下，很有可能在纵向方向上进行动作过渡。

图10A、10B和10C示出了一个示例，在其中最好根据对象的尺寸或动作进行过渡动作有效区域和剩余背景区域的宽度和高度的适当设置，以便将图像剪切为用于合成处理的图像。

[图像合成示例]

图11A和11B是示意地说明根据本发明的第一实施例的、图层合成部分183的合成方法的图。这里，该实施例提供一个示例，在其中对以时间顺序方式连续的两个合成目标图像进行合成处理。

图11A示意地说明由图层分离部分181分离并由图层修改部分182修改的合成目标图像(以时间顺序方式连续的两个合成目标图像。如上所述，合成目标图像被图层分离部分181分离成目标对象图层和背景图层。此外，图层修改部分182对图层分离部分181分离出来的目标对象图层和背景图层进行修改处理。按照这种方式，当对以时间顺序方式连续的两个合成目标图像进行分离和修改时，如图11A所示，生成四个图层(第一优先级图像441至第四优先级图像444)。

假设第一优先级图像441是合成目标图像中在时间轴上来得较晚的目标对象图层，而第三优先级图像443是合成目标图像的背景图层。此外，假设第二优先级图像442是合成目标图像中在时间轴上来得较早的目标对象图层，而第四优先级图像444是合成目标图像的背景图层。而且，在合成这些图像的情况下，进行合成以便盖写具有较高优先级的图像。

图11B说明了基于相应图层图像的优先级生成的合成图像450。也就是说，图层合成部分183基于优先级合成四个图层(第一优先级图像441至第四优先级图像444)，从而生成合成图像450。合成图像450是通过合成包括在第一优先级图像441中的人像445和包括在第二优先级图像442中的人像446以被盖写在由第三优先级图像443和第四优先级图像444合成的背景区域上而获得的图像。在这种情况下，合成第三优先级图像443以盖写在第四优先级图像444上。此外，合成包括在第一优先级图像中的人像445以被盖写在包括在第二优先级图像442中的人像446上。

如图12A和12B所示，在顺序合成三个或多个合成目标图像来生成合成图像的情况下，以时间顺序方式顺序合成合成目标图像，从而生成合成图像。此外，将在以时间顺序方式连续的两个合成目标图像之中在时间轴上来得较早的合成目标图像保持在合成图像保持部分185中，到来得较晚的合成目标图像的合成处理时间为止。

图12A和12B是示意地说明根据本发明的第一实施例的、图层合成部分183的合成目标图像的合成方法的图。这里，示出了到生成如图12B所示的合成图像460为止的合成目标图像的合成示例。

图12A说明了在到生成如图12B所示的合成图像460为止的某个时间点处的合成状态。例如，假设如图12A所示的状态是对合成目标图像462(两个图层图像)进行合成处理的时间点处的状态。也就是说，图12A示出了与合成目标图像462对应的过渡动作有效区域E10，以及在其中对刚来的合成目标图像463进行合成处理的合成图像461。在这个示例中，将刚变成合成目标的相应图层图像保持在合成图像保持部分185中。

这里，在合成目标图像462的区域E11中，在邻近合成目标图像463和合成目标图像462之间不存在重叠区域。由此，在将合成目标图像462与合成图像461合成的情况下，关于合成目标图像462中的区域E11，合成合成目标图像462的过渡动作有效区域的像素以盖写在合成图像461上，作为现在示出那样的新合成图像。

然而，合成目标图像462中的区域E12与邻近合成目标图像463的一部分重叠。因此，如图11A和11B所示，根据优先级在合成目标图像462的区域E12中合成相应图层图像。

也就是说，图层合成部分183使用作为当前合成目标的合成目标图像462和保持在合成图像保持部分185中的邻近合成目标图像463的相应图层图像，根据针对区域E12的优先级合成相应图层图像。通过这样的合成，从合成目标图像462和463生成区域E11+E12的合成图像。此外，图层合成部分183将要盖写的、以这种方式生成的区域E11+E12的合成图像与保持在合成图像保持部分185中的合成图像(与邻近合成目标图像463合成的合成图像)合成。也就是说，图层合成部分183进行粘贴在与保持在合成图像保持部分185中的合成图像对应的区域E1中由这样的合成所生成的区域E11+E12的合成图像的处理。

此外，变成当前合成目标和由当前合成处理所生成的合成图像的合成目标图像462(两个图层图像)被保持在合成图像保持部分185中，并且用于下一合成处理。按照这种方式生成的合成图像被示出在图12B中。

按照这种方式，当根据优先级合成相应图层图像时，关于在合成处理中在连续图像之间重叠的区域(例如，区域E12)，可以生成合成图像，而不会损坏一部分目标对象。因此，在使用多个合成目标图像生成合成图像的情况下，也可以生成能够适当地表达目标对象的动作的动作过渡图像。

按照这种方式，由图层合成部分183生成的合成图像460被存储在合成图像存储部分200中。此外，例如，根据用户操控在显示部分191上显示合成图像460。此外，例如，只要图层合成部分183生成合成图像，它可以被自动显示在显示部分191上。图13说明了以这种方式生成的合成图像的示例。

[合成图像示例]

图13是说明根据本发明的第一实施例的、由图层处理部分180生成的合成图像的示例的图。图13所示的合成图像470指示练习高尔夫球挥杆的人的动作过渡。在合成图像470中，箭头471所指示的区域是包括与生成碰撞声音的位置对应的图像的区域。

[图像捕获设备的操作示例]

图14是说明根据本发明的第一实施例的、图像捕获设备100的合成图像生成处理的处理过程的示例的流程图。

首先，确定是否进行合成图像记录方式的设置操控(步骤S901)。例如，确定是否进行合成图像记录方式的设置按钮或计时器设置按钮的按压操控。在不进行合成图像记录方式的设置操控的情况下(步骤S901)，继续监视到进行合成图像记录方式的设置操控为止。在进行合成图像记录方式的设置操控的情况下(步骤S901)，图像捕获部分111进行捕获图像的生成处理(步骤S902)，并将所生成的捕获图像保持在捕获图像保持部分115中(步骤S903)。也就是说，进行缓存处理。

随后，确定是否进行视频记录按钮的按压操控(步骤S904)。在进行视频记录按钮的按压操控的情况下，有效声音范围设置部分160基于按压位置设置有效声音范围(步骤S905)。例如，如图5A所示，基于视频记录按钮按压位置351设置有效声音范围352。另一方面，在不进行视频记录按钮的按压操控的情况下(步骤S904)，确定由计时器设置部分150设置的计时器的计数值是否为“0”(步骤S906)。在计时器的计数值为“0”的情况下(步骤S906)，有效声音范围设置部分160基于计时器的计数值为“0”的位置设置有效声音范围(步骤S907)。例如，如图7A所示，基于时间计数器“0”位置381设置有效声音范围382。此外，在计时器的计数值不为“0”，或者不由计时器设置部分150进行计时器设置的情况下(步骤S906)，过程返回步骤S902。步骤S904至S907表示公开在权利要求书中的有效声音范围设置过程的示例。

接下来，进行缓存终止处理(步骤S908)，并确定是否在所设置的有效声音范围中检测到碰撞声音(步骤S909)。在所设置的有效声音范围中检测到碰撞声音的情况下(步骤S909)，合成目标图像选择范围确定部分171基于检测到碰撞声音的位置确定合成目标图像选择范围(步骤S910)。例如，如图5C所示，基于碰撞声音检测位置353确定合成目标图像选择范围355。此外，例如，如图7C所示，基于碰撞声音检测位置383确定合成目标图像选择范围385。步骤S909和S910表示公开在权利要求书中的选择过程的示例。

此外，在所设置的有效声音范围中未检测到碰撞声音的情况下(步骤S909)，合成目标图像选择范围确定部分171基于设置有效声音范围时作为参考的位置确定合成目标图像选择范围(步骤S911)。也就是说，在基于视频记录按钮的按压位置设置有效声音范围的情况下，基于按压位置确定合成目标图像选择范围。例如，如图5C所示，基于视频记录按钮按压位置351确定合成目标图像选择范围355。另一方面，在基于计时器的计数值为“0”的位置设置有效声音范围的情况下，基于该位置确定合成目标图像选择范围。例如，如图7C所示，基于时间计数器“0”位置381确定合成目标图像选择范围385。

随后，合成目标图像选择部分172从包括在所确定的合成目标图像选择范围中的相应图像选择合成目标图像(步骤S912)。然后，使用所选择的合成目标图像进行合成图像的生成处理(步骤S913)。

接下来，确定是否进行合成图像记录方式的释放操控(步骤S194)。在不进行合成图像记录方式的释放操控的情况下，过程返回步骤S902，随后进行涉及下一合成图像的图像合成处理。另一方面，在进行合成图像记录方式的释放操控的情况下(步骤S914)，终止合成图像生成处理的操作。

按照这种方式，在本发明的第一实施例中，将其中变成检测目标的碰撞声音可以存在的时间跨度设置为有效声音范围，因此，可以减少除了变成检测目标的碰撞声音之外的声音的错误检测。因此，生成使用诸如高尔夫球挥杆之类的、引起碰撞声音的极快速动作作为目标的合成图像的情况下，可以高精确度地检测到碰撞声音的生成位置。此外，可以生成强调在碰撞声音的精确生成位置周围的合成图像，并且生成具有高可视性(visibility)的合成图像。在这种情况下，由于碰撞声音的生成位置的检测不需要用户的手工工作，所以可以减少用户的麻烦。

此外，如上所述，可以确定是否根据是否在有效声音范围中检测到碰撞声音来生成合成图像。这种示例示出在图15中。

图15是说明根据本发明的第一实施例的、图像捕获设备100的合成图像生成处理的处理过程的示例的流程图。这个示例是图14中所示的合成图像生成处理的处理过程的修改示例，在其中省略了步骤S911。因此，将相同的参考数字赋予与图14相同的处理步骤，并省略其描述。

确定是否在步骤S905或S907所设置的有效声音范围中检测到碰撞声音(步骤S909)。在所设置的有效声音范围中未检测到碰撞声音的情况下(步骤S909)，过程转到步骤S914。也就是说，在所设置的有效声音范围中未检测到碰撞声音的情况下，使用下一视频记录按钮的按压位置或者计时器的计数值为“0”的位置，进行合成图像的生成处理，而不生成合成图像。也就是说，在有效声音范围中检测到碰撞声音的情况下，选择部分170进行控制，以便在图层处理部分180中生成使用特定声音的合成图像，并进行控制以便在未在有效声音范围中检测到碰撞声音的情况下，不在图层处理部分180生成合成图像。

按照这种方式，在不能在有效声音范围中检测到碰撞声音的情况下，通过返回到下一可拍摄状态而不生成合成图像，可以减少用户拍摄机会的损失。此外，由于可以使用精确的碰撞声音生成合成图像，因此可以生成合适的合成图像。

当按照这种方式生成合成图像时，即使不习惯图像捕获设备的操作的初学者也可以容易地生成合适的合成图像。

在图像捕获部分111所生成的捕获图像被记录为图像内容(例如，运动图像文件或连续静止图像文件)的情况下，可以将碰撞声音检测位置记录为帧的元数据。因此，例如，在显示图像内容列表的情况下，可以将与碰撞声音检测位置对应的帧用作代表性缩略图。

2.第二实施例

在本发明的第一实施例中，已经通过示例的方式描述了图像捕获设备与目标对象(练习高尔夫球挥杆的人)之间的距离比较短的情况。然而，图像捕获设备可以被定位于与目标对象的距离比较长的位置上并且可以借助于图像捕获设备的变焦功能拍摄目标对象。在图像捕获设备与目标对象之间的距离比较长的这种情况下，到碰撞声音到达图像捕获设备为止的时间根据该距离的长度变长。在这种情况下，在生成碰撞声音的时间与碰撞声音到达图像捕获设备的时间之间发生延迟。因此，本发明的第二实施例提供一个示例，在其中在图像捕获设备与目标对象之间的距离比较长的情况下，根据该距离的长度，校正时间轴上的碰撞声音的检测位置。

图16A和16B是说明根据本发明的第二实施例的、图像捕获设备500与目标对象之间的距离和碰撞声音的生成位置及其达到位置之间的关系的图。图16A示意地说明了图像捕获设备500与变成图像捕获设备500的图像捕获目标的人540之间的位置关系。这里，图像捕获设备500与人540之间的距离被称为距离d。除了距离d不同外，图像捕获设备500与人540之间的关系与图3A中所示的示例近似相同，因此省略其描述。

图16B示意地说明了形成由图17中的图像捕获部分111所生成的运动图像的相应图像与人540的动作过渡之间的关系。图像组550表示在图16A中所示的状态下人540的动作过渡，在其中以时间轴安排形成图像组550的相应图像。图像组560表示在图16A中所示的该状态下形成由图像捕获部分111所生成的运动图像的相应图像，在其中以时间轴安排形成图像组560的相应图像。这里，将通过人540的高尔夫球挥杆生成碰撞声音的位置(时间轴上的位置)表示为碰撞声音生成位置555。

在这个方面，声音在空气中的速度为大约340米/秒。因此，在图像捕获设备500与人540之间的距离d比较长的情况下。到碰撞声音到达图像捕获设备500为止的时间变长，因此在生成碰撞声音的时间与碰撞声音被输入到图像捕获设备500的时间之间发生延迟。

例如，假设形成图16B中所示的图像组550的图像之中的图像551的位置是碰撞声音生成位置555。在这种情况下，例如，如箭头552所指，在距离d比较短(例如，几米)的情况下，与生成碰撞声音的位置对应的图像551和在碰撞声音被输入到图像捕获设备500时所生成的图像561相互近似相同。另一方面，如箭头553所指，在距离d比较长(例如，340米或更长)的情况下，与生成碰撞声音的位置对应的图像551和在碰撞声音被输入到图像捕获设备500时所生成的图像562相互不同，从而引起延迟。在这个方面，即使在距离d比较长的情况下，也很可能以与距离d比较短的情况下近似相同的观察角度来观察在显示在显示部分191上的显示屏幕上的图像。由此，可能难以通过用户的手工操控来校正碰撞声音的延迟。因此，在下文中，示出校正根据图像捕获设备与目标对象之间的距离生成的碰撞声音的延迟的示例。

[图像捕获设备的配置示例]

图17是说明根据本发明的第二实施例的、图像捕获设备500的功能性配置的示例的方块图。图像捕获设备500不同于图1中所示的图像捕获设备100在于：添加了对象距离计算部分510，并且代替选择部分170安装了选择部分520。除了这些组件之外的配置几乎与图像捕获设备100中的相同。因此，将相同的参考数字赋予共用组件，并且将省略其一部分的描述。

对象距离计算部分510计算与包括在图像捕获部分111所生成的捕获图像中的对象的距离(对象距离)，并将所计算出的对象距离输出到选择部分520。例如，对象距离计算部分510检测包括在图像捕获部分111所生成的捕获图像中的人的面孔，并使用所检测到的面孔和捕获图像生成时的成像信息(例如，每个镜头的位置和聚焦位置)计算目标对象的对象距离。例如，可以将通过记录面孔的亮度分布信息的模板和内容图像的匹配的面孔检测方法(例如，参看日本未审专利申请公开第2004-133637号)用作包括在捕获图像中的面孔的检测方法。此外，可以使用基于包括在捕获图像中的肤色部分或人类面孔的特征量的面孔检测方法。通过这样的面孔检测方法，可以计算人的面孔在捕获图像中的位置和尺寸。

选择部分520基于从对象距离计算部分510输出的对象距离估计碰撞声音的延迟时间，并且在考虑到延迟时间的情况下选择合成目标图像。具体地说，选择部分520的合成目标图像选择范围确定部分171(图2中所示)基于从对象距离计算部分510输出的对象距离，校正特定声音检测部分132所检测到的特定声音的检测位置(时间轴上的位置)。此外，合成目标图像选择范围确定部分171基于校正之后的位置(校正位置)和由有效声音范围设置部分160设置的有效声音范围，确定合成目标图像选择范围。合成目标图像选择范围确定部分171是公开在权利要求书中的延迟时间计算部分的示例。

[对象距离的计算示例]

接下来，将参考附图详细描述用于计算图像捕获设备500与目标对象之间的距离的距离计算方法。这里，将描述用于使用平常人类面孔的尺寸(参考值)估计图像捕获设备500与面孔之间的距离的距离计算方法。

图18A和18B是示意地说明根据本发明的第二实施例的、作为图像捕获部分111的图像捕获目标的图像捕获范围以及显示在显示部分191上的捕获图像的图。图18A是示意地说明在成像以高尔夫球场为背景的人571的情况下的图像捕获范围570的图，而图18B是说明与图18A所示的图像捕获范围570对应的捕获图像575的、显示部分191的显示示例的图。

例如，如图18A所示，在人571以高尔夫球场为背景被成像为对象的情况下，根据图像捕获设备500的位置和变焦镜头的位置或诸如此类的信息来确定成像人571的范围(图像捕获范围570)。此外，如图18B所示，将从包括在图像捕获范围570中的对象入射的光由图像捕获部分111转换成捕获图像，并且在显示部分191上显示捕获图像(所谓直接图像)。

这里，在图18A中所示的图像捕获范围570中，将图像捕获设备500在左右方向上的宽度表示为图像捕获范围宽度WA，而将包括在图像捕获范围570中的人571的面孔572在左右方向上的宽度表示为面孔宽度Wref。面孔宽度Wref对应于平常人类面孔的尺寸，不是人571的实际面孔宽度。此外，将图18B中所示的捕获图像575的左右方向上的宽度表示为图像宽度Ww，而将包括在捕获范围575中的人576的面孔577在左右方向上的宽度表示为面孔图像宽度Wf。在这种情况下，图像捕获范围宽度Wa与面孔宽度Wref的比率通常和图像宽度Ww与面孔图像宽度Wf的比率相同。

图19是示意地说明根据本发明的第二实施例的、作为图像捕获部分111的图像捕获目标的图像捕获范围与显示在显示部分191上的捕获图像之间的位置关系的顶视图。图19所示的示例中，示意地示出了图18A中所示的人571与提供在图像捕获设备500中的图像捕获元件112和显示部分191之间的位置关系。如图19所示，将从图像捕获设备500到面孔572的距离表示为对象距离Df；将图像捕获设备500中的焦距表示为焦距f；并且将图像捕获元件112的宽度表示为图像捕获元件宽度Wi。图像捕获范围宽度WA和面孔宽度Wref与图18A中所示的那些相同。

如图19所示，如果从包括在图像捕获范围570中的对象入射的光进入图像捕获元件112，那么生成与包括在图像捕获范围570中的对象对应的捕获图像，然后在显示部分191上显示所生成的捕获图像575。此外，在从人571的面孔572入射的光进入图像捕获元件112的情况下图像捕获元件112的面孔的宽度是该图像捕获元件上的面孔宽度Wb。

这里，从具有平行线的比例关系建立以下两个等式。

Df/Wref＝f/Wb ...等式1

Wf/Ww＝Wb/Wi ...等式2

这里，将等式1改变成Df＝f×Wref/WB，而将等式2改变成Wb＝Wf×Wi/Ww。然后，将通过改变等式2所获得的Wb＝Wf×Wi/Ww代入等式1，从而计算出以下等式3。基于镜头的基本物理规律计算这个等式3。

Df＝Wref×(f/Wi)×(Ww/Wf) ... 等式3

这里，Wi(图像捕获元件宽度)和Ww(图像宽度)是常数，而平常人类面孔的尺寸被用作Wref。在这种情况下，当检测到Wf(面孔图像宽度)时，可以使用等式3计算Df(对该面孔的估计距离)。

例如，如图18A所示，在一个人的面孔572被包括在图像捕获范围570中的情况下，通过与对象距离计算部分510从与图像捕获范围570对应的捕获图像575中检测面孔577。按照这种方式，在检测到面孔的情况下，对象距离计算部分510基于等式3，使用所检测到的面孔的宽度(面孔图像宽度)计算对象距离Df。

本发明的第二实施例提供这样一个示例，在其中使用一个参考值作为平常人类面孔尺寸来计算对象距离。这里，根据人的属性(例如，年龄和性别)变成图像捕获目标的人具有不同的面孔尺寸。例如，在比较孩子面孔与成人面孔的情况下，面孔尺寸可能相互不同。此外，在比较女性面孔与男性面孔的情况下，面孔尺寸可能相互不同。因此，根据人的属性的多个参考值可以被保持在对象距离计算部分510中。然后，对象距离计算部分510可以检测关于从捕获图像中检测到的面孔的属性，并且对象距离计算部分510可以使用根据该属性的参考值计算距离d。为了检测该属性，例如，可以使用这样一种检测方法，在其中使用面孔图像中的两个点之间的亮度的差值，由弱学习器(weak learner)检测相应属性(例如，参看日本未审专利申请公开第2009-118009号)。

[延迟时间的校正示例]

图20A和20B是示意地说明根据本发明的第二实施例的、有效声音范围设置部分160的有效声音范围的设置方法和合成目标图像选择范围确定部分171的合成目标图像选择范围的确定方法的图。由于这个示例是图5A和5B的修改示例，因此将省略共用组件的描述。

图20A示意地以矩形形状说明了图像捕获部分111所生成的运动图像580。此外，假设按压视频记录按钮的位置是图20A中所示的运动图像580在时间轴上的视频记录按钮的按压位置(视频记录按钮按压位置581)。在这种情况下，有效声音范围设置部分160基于视频记录按钮按压位置581设置有效声音范围582。具体地说，有效声音范围设置部分160设置这样一个范围作为有效声音范围582，该范围在时间轴上领先视频记录按钮按压位置581时间L21。这里，例如，按照与图5A所示的时间L1类似方式，时间L21可以是1.0秒。此外，时间L21可以长于时间L1，并且可以根据对象距离计算部分510所计算出的对象距离的尺寸来改变。

图20B示意地说明了在由有效声音范围设置部分160设置的有效声音范围582中检测到碰撞声音的情况下合成目标图像选择范围的确定方法。在图20B中，将由特定声音检测部分132检测到碰撞声音的位置(时间轴上的位置)表示为碰撞声音检测位置583。

在本发明的第二实施例中，在是否在有效声音范围582中检测到碰撞声音的确定之前，合成目标图像选择范围确定部分171基于对象距离计算部分510所估计的对象距离d(m)来估计声音的延迟时间。具体地说，合成目标图像选择范围确定部分171基于对象距离计算部分510所估计的对象距离d(m)来估计声音的延迟时间。如上所述，由于声音的速度是340(米/秒)，因此可以使用以下等式4计算到碰撞声音到达图像捕获设备500为止的时间x(秒)。

x＝d/340 ... 等式4

合成目标图像选择范围确定部分171在时间轴上将碰撞声音检测位置583移动使用等式4计算出的时间x。将移动之后的位置表示为校正位置584。

随后，合成目标图像选择范围确定部分171确定该校正位置584是否被包括在由有效声音范围设置部分160设置的有效声音范围582中。如图20B所示，在校正位置584被包括在由有效声音范围设置部分160设置的有效声音范围582中的情况下，合成目标图像选择范围确定部分171基于该校正位置584确定合成目标图像选择范围。也就是说，合成目标图像选择范围确定部分171参考校正位置584，将时间轴上在校正位置584之前和之后的预定范围确定为合成目标图像选择范围585。具体地说，合成目标图像选择范围确定部分171确定时间轴上的一个范围L24作为合成目标图像选择范围585，该范围L24包括领先校正位置584时间L22的范围和超过校正位置584时间L23的范围。

这里，例如，时间L22至L24可以与图5B中所示的时间L2至L4相同。此外，时间L24可以长于时间L4，并且可以根据对象距离计算部分510计算出的对象距离的尺寸来改变。

此外，例如，在图像捕获设备500与人540之间的距离比较远的情况下，可以通过遥控器操控来进行计时器设置。因此，在基于计时器设置部分150所设置的计时器的计数值来设置有效声音范围并且使用该有效声音范围来确定合成目标图像选择范围的情况下，类似地，可以估计声音的延迟时间，并且可以基于延迟时间进行校正。

按照这种方式，即使在图像捕获设备500与人540之间的距离比较远的情况下，碰撞声音的检测位置也被校正来基于校正之后的位置确定合成目标图像选择范围。因此，可以确定合适的合成目标图像选择范围。

这里，校正位置可能不存在于由有效声音范围设置部分160设置的有效声音范围582中。在这种情况下，按照与图5C中所示的示例类似的方式，不使用碰撞声音。此外，在不使用碰撞声音的情况下，如图5C所示，可以基于视频记录按钮的按压位置确定合成目标图像选择范围。

在图18A、18B和图19中，示出了使用人的面孔的尺寸计算对象距离的示例，但如图21所示，对象距离可以用除面孔之外的部分的尺寸来计算。

[对象距离的计算示例]

图21是说明根据本发明的第二实施例的、显示部分191中的显示示例的图。在图21中所示的显示屏幕590中，将用于在适当位置安排进行高尔夫球挥杆的人591的操控支持图像592和593显示成重叠在捕获图像上。这个示例是图18A和18B以及图19中所示的对象距离的计算方法的修改示例，并且是基于在显示屏幕590上对象占据的区域的尺寸(垂直方向上的长度)计算对象距离的示例。

操控支持图像592和593表示进行高尔夫球挥杆的人591被安排在显示屏幕590中的推荐区域。操控支持图像592在显示屏幕590用黑线指示，并且表示进行高尔夫球挥杆的人591在左右方向上的推荐区域。此外，操控支持图像593在显示屏幕590用点状黑框指示，并且表示进行高尔夫球挥杆的人591在上下方向上的推荐区域。这里，用操控支持图像593指示的上下方向上的推荐区域可以是显示屏幕590在垂直方向上的长度的预定比率(例如，70％)的值H11。

例如，在使用图像捕获设备500通过设置合成图像记录方式进行拍摄的情况下，摄影师确认包括在显示屏幕590中的操控支持图像592和593，并进行调节以便将目标对象的人包括在操控支持图像592和593中。此外，在进行变焦操控等的情况下，类似地，摄影师进行调节以便将目标对象的人包括在操控支持图像592和593中。

按照这种方式，通过应用用于像以上那样基于涉及面孔和包括在捕获图像中的面孔的尺寸的参考值计算对象距离的对象距离计算方法，可以计算对象距离。也就是说，由于包括在捕获图像中的人的尺寸可以是在图21中所示的示例中的预定值H11，因此可以基于涉及打高尔夫球的人的平常高度和预定值H11的参考值(例如，170cm)来计算对象距离。

在图18A、18B、图19和图21中所示的示例中，使用了人的每个部分的尺寸来计算对象距离，但可以使用其他对象距离计算方法。例如，可以生成涉及捕获图像的景深图并使用该景深图计算对象距离。此外，可以将距离测量传感器安装在图像捕获设备500中，并且可以使用距离测量传感器所测量的对象距离。而且，可以使用聚焦位置信息计算对象距离。

此外，可以根据拍摄情形选择使用聚焦位置信息的对象距离计算方法和使用变焦位置信息的对象距离计算方法中的任何一种。例如，在焦点形成在宽边缘(wide edge)的变焦位置中的情况下，很可能聚焦位置信息具有比变焦位置信息更高的精度。由此，在焦点形成在宽边缘的变焦位置中的情况下，可以选择使用聚焦位置信息的对象距离计算方法。此外，可以用特定方法估计对象距离，并且可以确定是使用估计结果还是参考估计结果用其他方法进行重新估计。

[图像捕获设备的操作示例]

图22是说明根据本发明的第二实施例的、图像捕获设备500的合成图像生成处理的处理过程的示例的流程图。这个示例是图14中所示的合成图像生成处理的处理过程的修改示例，在其中添加了步骤S921并进行步骤S922和S923的处理过程代替步骤S910。因此，将相同的参考数字赋予与图14相同的处理过程，并省略其描述。

在进行了缓存终止处理之后(步骤S908)，对象距离计算部分510计算对象距离(步骤S921)。

此外，在所设置的有效声音范围中检测到碰撞声音的情况下(步骤S909)，合成目标图像选择范围确定部分171基于所计算出的对象距离校正碰撞声音检测位置(步骤S922)。具体地说，合成目标图像选择范围确定部分171基于对象距离计算延迟时间，并且把从计数器部分174供应的计数值减去所计算出的延迟时间来计算校正值。然后，合成目标图像选择范围确定部分171基于该校正值指定在碰撞声音检测位置的校正之后的位置。例如，如图20B所示，将碰撞声音检测位置583移动校正值x来计算校正位置584。

随后，合成目标图像选择范围确定部分171基于该校正后的位置(校正位置)确定合成目标图像选择范围(步骤S923)。例如，如图20B所示，基于校正位置584确定合成目标图像选择范围585。

按照这种方式，根据本发明的第二实施例，可以高精度地检测碰撞声音的生成位置，而不用依赖于由变焦操控引起的图像捕获设备500与目标对象之间的距离的改变。因此，可以生成具有高可视性的合成图像，而不用依赖于由变焦操控引起的图像捕获设备500与目标对象之间的距离的改变。此外，由于不需要用户的手工工作，因此可以减少用户的麻烦。

此外，例如，在将图像捕获部分111所生成的捕获图像记录为图像内容的情况下，当与内容相关联地记录元数据时，可以记录校正之后的碰撞声音检测位置。因此，由于校正之后的碰撞声音检测位置可以被用在再现图像文件的情况中，因此可以检测碰撞声音的校正生成位置。此外，例如，在显示图像内容列表的情况下，可以将与校正后的碰撞声音检测位置对应的帧用作代表性缩略图。

3.第三实施例

本发明的第一和第二实施例主要提供了将进行高尔夫球挥杆的人的动作过渡生成合成图像的示例。这里，例如，在除高尔夫球之外的体育运动(诸如球击比赛(ball hitting game)或对象碰撞比赛(object collision game))情况下，在选手击球或对象相互碰撞的瞬间生成特征声音。此外，例如，在焰火的情况下，在壮观的爆炸瞬间生成爆炸声音。当使用这些特定声音确定合成目标图像选择范围时，可以生成合适的合成图像。在这个方面，本发明的第三实施例提供了根据用户喜好容易地生成这样的合成图像的示例。

[图像捕获设备的配置示例]

图23是说明根据本发明的第三实施例的、图像捕获设备600的功能性配置的示例的方块图。图像捕获设备600不同于图17中所示的图像捕获设备500在于：添加了目标对象信息存储部分610，并且修改了一部分其他组件。也就是说，代替图像捕获设备500中的特定检测部分132、有效声音范围设置部分160和选择部分520，图像捕获设备600配备了特定声音检测部分620、有效声音范围设置部分630和选择部分640。除这些组件之外的配置几乎与图像捕获设备500相同。因此，将相同的参考数字赋予共用组件，并省略其一部分的描述。

在下文中，将描述适合于根据本发明的各实施例的合成目标图像的选择处理的特定动作(体育运动等)的条件(例如，第一条件和第二条件)的示例。该第一条件是目标对象的主体部分在整个全部动作中基本存在于相同位置。此外，该第二条件是牵涉碰撞声音的快速动作存在于一系列动作当中。作为除了高尔夫球之外满足这些条件的体育运动的示例，可以示范棒球击球、网球发球、屋瓦打碎(breaking of rooftiles，一种硬气功)等。此外，可以示范除体育运动之外的、诸如焰火之类的对象。因此，本发明的第三实施例提供这样的对象或体育运动变成目标对象的示例。

目标对象信息存储部分610关于多种类型的目标对象的特定动作存储关于特定声音和有效声音范围的信息，并将相应被存储信息供应到特定声音检测部分620、有效声音范围设置部分630和选择部分640。将参考图24详细描述目标对象信息存储部分610的所存储的内容。目标对象信息存储部分610是公开在权利要求书中的存储部分的示例。

特定声音检测部分620基于从声音输入部分131输出的声音检测特定声音，并在检测到特定声音的情况下将该事实输出到选择部分640。此外，特定声音检测部分620检测涉及网球(发球)和屋瓦打碎的特定值或更高的声音。在这个方面，本发明的第三实施例提供除了涉及高尔夫球挥杆的碰撞声音之外，在图24中的碰撞声音611中示出的每一个碰撞声音都变成特定声音的示例。例如，在棒球(击球)和网球(发球)中，在动作中球棒或球拍接触球的瞬间生成的声音变成碰撞声音。此外，例如，在屋瓦打碎中，在动作中手接触屋瓦的瞬间生成的声音变成碰撞声音。另外，在焰火中，在焰火在天空中爆炸的瞬间生成的声音变成碰撞声音。为了检测这些声音，可以使用根据本发明的第一实施例的特定声音检测方法。

此外，特定声音检测部分620、有效声音范围设置部分630和选择部分640从目标对象信息存储部分610，获取关于多种类型的目标对象的特定动作之中由用户操控指定的特定动作的目标对象信息。然后，特定声音检测部分620、有效声音范围设置部分630和选择部分640使用所获取的目标对象信息进行相应处理。在这些相应处理中，这个示例除了碰撞声音的值和有效声音范围等不同外，与本发明的第一和第二实施例中所示的示例几乎相同，因此将省略其描述。

[目标对象信息存储部分的存储示例]

图24是说明根据本发明的第三实施例的、目标对象信息存储部分610的存储内容的示例的图。在目标对象信息存储部分610中存储碰撞声音611、高速动作范围612、有效声音范围613和合成目标图像选择范围614。

将用于通过特定声音检测部分620检测特定声音(碰撞声音)的特定声音标识信息(参考数据)存储在碰撞声音611中。图24中所示的碰撞声音611仅仅公开了指示相应特定声音的文字。

在高速动作范围612中存储了在合成目标图像选择范围中、具有比用于合成目标图像的选择的其他间隔更接近的范围。例如，在由目标对象引起的特定动作是棒球(击球)的情况下，可以认为精确地确认了棒球球棒接触球的瞬间周围的动作过渡。因此，在合成目标图像选择范围中，设置在其中在该瞬间周围图像的间隔更接近用于合成目标图像的选择的其他间隔的高速动作范围。例如，在这种高速动作范围中，设置碰撞声音周围的预定范围。

有效声音范围613存储通过有效声音范围设置部分630变成设置目标的有效声音范围。本发明的第三实施例提供将视频记录按钮的按压操控用作拍摄触发的示例。按照与本发明的第一和第二实施例中所示的示例类似的方式，在高尔夫球和棒球(击球)中，可以在作为目标的动作终止之后生成拍摄触发。在焰火的情况下，可以在焰火在天空中爆炸的瞬间生成拍摄触发。此外，按照与本发明的第一和第二实施例中所示的示例类似的方式，在高尔夫球、棒球(击球)和焰火中，可以将拍摄触发之前的特定范围设置为有效声音范围。

另外，网球(发球)的情况下，可以在选手上仰(turn up)预定时间的瞬间生成拍摄触发。在屋瓦打碎中，可以在打碎屋瓦的人的面孔战斗精神饱满(full of fighting spirit)的瞬间生成拍摄触发。此外，在网球(发球)和屋瓦打碎中，可以将从拍摄触发初次检测到特定值或更高的声音之前的特定范围设置为有效声音范围。按照这种方式，在网球(发球)和屋瓦打碎的情况下，相应于检测到特定值或更高的声音的时间设置有效声音范围的后边缘。然而，在超过预定时间未检测到该声音的情况下，声音检测可以变成无效，然后可以设置新有效声音范围。对于这种新的有效声音范围，重新生成拍摄触发。因此，可以减少碰撞声音的错误检测。在这个方面，用特定声音检测部分620检测在网球(发球)和屋瓦打碎中的特定值或更高的声音。

在合成目标图像选择范围614中存储用合成目标图像选择范围确定部分171确定的合成目标图像选择范围。本发明的第三实施例提供将关于在有效声音范围中检测到的碰撞声音的特定范围设置为合成目标图像选择范围的示例。

[目标对象的指定屏幕的显示示例]

图25是说明根据本发明的第三实施例的、显示部分191的显示示例(显示屏幕660)的图。显示屏幕660配备有高尔夫球(挥杆)按钮661、棒球(击球)按钮662、网球(发球)按钮663、屋瓦打碎按钮664和焰火按钮665。此外，显示屏幕660配备有返回按钮666和确定按钮667。

按压高尔夫球(挥杆)按钮661、棒球(击球)按钮662、网球(发球)按钮663、屋瓦打碎按钮664和焰火按钮665来指定作为在为动作过渡生成合成图像时的目标的体育运动类型。例如，在显示部分191由触摸板构成的情况下，可以通过想要的按钮的按压操控进行该指定。

按压确定按钮667来确定用于指定作为合成图像的目标的体育运动类型的按压操控之后的指定。通过这种按压，设置合成目标图像记录方式。

例如，按压返回按钮666来返回紧接在之前显示的显示屏幕。

例如，在显示屏幕660中，在按压了想要的按钮(例如，网球(发球)按钮663)并按压了确定按钮667的情况下，将指示该事实的操控信号从操控接收部分140输出到相应部分。然后，特定声音检测部分620、有效声音范围设置部分630和选择部分640从目标对象信息存储部分610获取所指定的体育运动类型的目标对象信息(例如，关于网球(发球)的目标对象信息)。然后，特定声音检测部分620、有效声音范围设置部分630和选择部分640使用所获取的目标对象信息进行相应处理。

[合成图像示例]

图26A和26B是说明根据本发明的第三实施例的、由图层处理部分180生成的合成图像的示例的图。

图26A说明了在进行棒球击球的人被成像的情况下的合成图像671。也就是说，合成图像671是使用按压了在图25中所示的棒球(击球)按钮662并且按压了确定按钮667之后开始的图像捕获操作获得的运动图像生成的合成图像。

图26B说明了在进行网球发球的人被成像的情况下的合成图像672。也就是说，合成图像672是使用按压了在图25中所示的网球(发球)按钮663并且按压了确定按钮667之后开始的图像捕获操作获得的运动图像生成的合成图像。

按照这种方式，在除了高尔夫球挥杆之外的特定动作期间，将变成检测目标的碰撞声音可以存在的时间跨度设置为有效声音范围，因此可以减少除了变成检测目标的碰撞声音之外的声音的错误检测。因此，在生成使用引起作为目标的碰撞声音的极快速动作的合成图像的情况下，可以高精确度地检测碰撞声音的生成位置。此外，可以生成强调在碰撞声音的精确生成位置周围的合成图像，并生成具有高可见性的合成图像。在这种情况下，由于碰撞声音的生成位置的检测不需要用户的手工工作，因此可以减少用户的麻烦。当按照这种方式生成合成图像时，即使不习惯于图像捕获设备的操作的初学者也可以容易地根据用户喜好生成合适的合成图像。

4.第四实施例

本发明的第一至第三实施例提供在其中用图像捕获设备进行的图像捕获操作并且使用在图像捕获操作的时间生成的碰撞声音生成合成图像的示例。这里，在为图像捕获设备记录的内容(例如，运动图像内容)生成合成图像的情况下，可以使用包括在内容中的碰撞声音生成合成图像。此外，例如，在高尔夫球比赛中，可以生成除了碰撞声音之外的特征声音，诸如高尔夫球挥杆之后观众的高呼。由此，可以代替视频记录按钮的按压操控或计时器设置，使用该特征声音作为触发设置有效声音范围。因此，本发明的第四实施例提供了这样一个示例，在其中代替视频记录按钮的按压操控或计时器设置，使用该特征声音设置有效声音范围，并且为图像捕获设备所记录的运动图像内容生成合成图像。

[图像处理设备的配置示例]

图27是说明根据本发明的第四实施例的、图像捕获设备700的功能性配置的示例的方块图。图像处理设备700不同于图23中所示的图像捕获设备600在于：省略了声音输入部分131和计时器设置部分150，并且修改了某些其他组件。也就是说，代替图像捕获设备600中的目标对象信息存储部分610、图像捕获部分111和对象信息生成部分120，图像捕获设备700配备有目标对象信息存储部分710、输入部分720和对象信息生成部分730。此外，代替图像捕获设备600中的特定声音检测部分620、有效声音范围设置部分630和选择部分640，图像捕获设备700配备有特定声音检测部分740、有效声音范围设置部分750和选择部分760。除了这些组件之外的配置几乎与图像捕获设备600相同。因此，相同的参考数字被赋予共用组件，并且将省略其一部分的描述。

目标对象信息存储部分710存储关于特定声音或针对多个类型的目标对象的特定动作的有效声音范围的信息，并将相应所存储的信息供应到特定声音检测部分740、有效声音范围设置部分750和选择部分760。将参考图28详细描述目标对象信息存储部分710的存储内容。

输入部分720是这样一个输入部分，通过它输入由诸如数字摄像机之类的图像捕获设备所记录的图像内容(例如，运动图像文件)。例如，假设该图像内容是这样的内容，在其中将涉及动作图像或连续静止图像的图像捕获操作时的相应帧的元数据(例如，声音信息，变焦信息或聚焦位置信息)与相应帧相关联地进行记录。输入部分720以预定间隔，将形成输入的图像内容的相应图像(帧)供应到捕获图像保持部分115、显示控制部分190和特定声音检测部分740。此外，输入部分720将形成输入的图像内容的相应图像和关于图像的属性信息(例如，镜头位置和聚焦位置)输出到对象距离计算部分510和对象信息生成部分730。

对象信息生成部分730基于从输入部分720供应的相应图像和关于图像的属性信息，生成关于相应图像的对象信息。此外，对象信息生成部分730将所生成的对象信息供应到捕获图像保持部分115以在那里保持对象信息，还将对象信息供应到有效声音范围设置部分750和选择部分760。作为对象信息，例如，除了用于辨别目标对象的区域与其背景区域的信息之外，还生成用于检测相应图像之间在时间轴上的特定变化的信息。例如，检测包括在图像中的面孔，并且生成关于面孔的表情、方向等的属性信息。例如，可以检测诸如高兴、愤怒、悲伤或愉快的表情、紧张、面孔方向嘴巴表情(口/闭)、眼睛表情(例如，眨眼)等之类的属性，并且可以基于检测结果生成属性信息。作为属性检测方法，例如，可以使用基于从涉及变成检测目标的属性的面孔图像中提取的特征量的标识方法。也就是说，从涉及变成检测目标的属性的面孔图像中提取的特征量被事先存储为标识词典。此外，从包括所检测到的面孔的面孔图像中提取特征量，并将所提取的特征量与包括在标识词典中的特征量比较，从而计算这些特征量之间的相似性。另外，在所计算出的相似性超过阈值的情况下，确定所检测到的面孔是与变成超过阈值的相似性的计算目标的标识词典对应的属性。而且，例如，可以使用上述属性检测方法(例如，参考日本未审专利申请公开第2009-118009号)。

有效声音范围设置部分750基于按照这种方式生成的属性信息检测相应图像之间在时间轴上的特定变化。作为这种特定变化，例如，可以检测面孔变化。例如，可以将高兴、愤怒、悲伤、愉快或紧张时的表情变化、面孔方向的变化(例如在面孔方向从下面改变到正面的情况下)、开口/闭口时的变化或眨眼时的眼睛变化检测为面孔变化。此外，可以将人的面孔出现在屏幕或人的面孔离开屏幕的情况检测为相应图像之间在时间轴上的特定变化。此外，作为用于检测相应图像之间在时间轴上的特定变化的信息，可以生成指示整个图像的明亮度(brightness)的明亮度信息和指示图像中的亮度值(luminance value)的分布状态的亮度值分布信息。然后，可以将信息中的特定变化检测为相应图像之间在时间轴上的特定变化。

特定声音检测部分740基于包括在从输入部分720提供的图像内容中的声音检测特定声音，然后在检测到特定声音的情况下，将该事实输出到有效声音范围设置部分750和选择部分760。通过特定声音检测部分740变成检测目标的碰撞声音与本发明的第三实施例中的相同。此外，在本发明的第四实施例中，当检测到相应图像之间在时间轴上的特定变化时，使用通过特定声音检测部分740检测到的特定声音。例如，可以将在举行高尔夫球或棒球赛的情况下观众的高呼(狂热欢呼)或在使战斗精神注入屋瓦打碎的瞬间的喊叫检测为特定声音。此外，例如，可以将吹奏人的吹奏声(whistling sound)或泼水声(例如，在目标对象涉及水的情况下)检测为特定声音。此外，有效声音范围设置部分750检测特定声音的变化作为相应图像在时间轴上的特定变化。例如，可以将从声音刚刚存在的状态到检测到高呼的时间，或者从检测到高呼的状态到声音刚刚存在的时间，检测为相应图像之间在时间轴上的特定变化。作为特定声音检测方法，可以应用本发明的第一实施例所示的特定声音检测方法。也就是说，有效声音范围设置部分750可以使用从相应图像提取的特征量和基于与相应图像相关联的声音提取的特征量中至少之一来检测特定变化。有效声音范围设置部分750是公开在权利要求书中的特定变化检测部分的示例。

特定声音检测部分740、有效声音范围设置部分750和选择部分760从目标对象信息存储部分710，获取关于在多种类型的目标对象的特定动作之中由用户操控指定的特定动作的目标对象信息。此外，特定声音检测部分740、有效声音范围设置部分750和选择部分760使用所获取的目标对象信息进行相应处理。除了当设置了碰撞声音时的触发、碰撞声音、有效声音范围的值等不同之外，相应处理几乎与本发明的第一至第三实施例中所示的示例相同，因此将省略其描述。

[目标对象信息存储部分的存储示例]

图28是说明根据本发明的第四实施例的、目标对象信息存储部分710的存储内容的示例的图。在目标对象信息存储部分710中存储碰撞声音711、高速动作范围712、用于确定有效声音范围的触发713、有效声音范围714和合成目标图像选择范围715。碰撞声音711、高速动作范围712和合成目标图像选择范围715与图24中所示的碰撞声音611、高速动作范围612和合成目标图像选择范围614相同，因此省略其描述。

用于确定有效声音范围的触发713存储由有效声音范围设置部分750设置了有效声音范围时的触发。例如，在高尔夫球和棒球(击球)的情况下，可以在从输入部分720所输入的内容中检测到观众的高呼的瞬间生成触发。基于特定声音检测部分740所检测到的特定声音，由有效声音范围设置部分750进行观众欢呼的检测。此外，在焰火的情况下，可以在从输入部分720输入的内容中在屏幕中的黑暗状态被过渡到明亮状态的瞬间生成触发。基于由对象信息生成部分730所生成的属性信息，由有效声音范围设置部分750进行屏幕中的黑暗状态被过渡到明亮状态的瞬间的检测。此外，在网球(发球)的情况下，可以在从输入部分720输入的内容中在选手上仰预定时间的瞬间生成触发。基于由对象信息生成部分730所生成的属性信息，由有效声音范围设置部分750进行选手上仰预定时间的瞬间的检测。此外，在屋瓦打碎的情况下，可以在从输入部分720输入的内容中在进行屋瓦打碎的人的面孔战斗精神饱满的瞬间生成触发。基于由对象信息生成部分730所生成的属性信息或由特定声音检测部分740检测到的特定声音，由有效声音范围设置部分750进行进行屋瓦打碎的人的面孔战斗精神饱满的瞬间的检测。

有效声音范围714存储通过有效声音范围设置部分750变成设置目标的有效声音范围。本发明的第四实施例提供这样一个示例，在其中存储在用于确定有效声音范围的触发713中的特定变化的检测时间是有效声音范围的触发。除了存储在用于确定有效声音范围的触发713中的特定变化的检测时间是有效声音范围的触发之外，这个有效声音范围几乎与图24中所示的有效声音范围613相同，因此省略其描述。

[合成目标图像选择范围的确定示例]

图29A和29B是示意地说明根据本发明的第四实施例的、有效声音范围设置部分750的有效声音范围的设置方法和合成目标图像选择范围确定部分171的合成目标图像选择范围的确定方法的图。这是在其中在指定图28中所示的棒球(击球)的情况下确定合成目标图像选择范围的示例。此外，这个示例是图5A和5B的修改示例，因此将省略一部分共用组件的描述。

图29A以矩形形状示意地说明经由输入部分720输入的运动图像800。例如，运动图像800是记录棒球赛的样子的运动图像。此外，在形成运动图像800的相应图像中，将特定声音检测部分740检测到观众的高呼的位置表示为在图29A中所示的运动图像800在时间轴上的高呼检测位置801。在这种情况下，有效声音范围设置部分750基于高呼检测位置801设置有效声音范围802。具体地说，有效声音范围设置部分750将一个范围设置为有效声音范围802，该范围在时间轴上领先高呼检测位置801时间L31。这里，按照与图5A中所示的时间L1类似的方式，例如，时间L31可以是1.0秒。此外，时间L31可以长于时间L1。

例如，考虑到在高尔夫球赛中选手具有非常大的射程(great shot)时的碰撞声音的生成位置出现在观众的高呼之前。因此，将有效声音范围设置(时间轴上领先的位置)在观众的高呼之前，从而使得可以适当地检测碰撞声音。

图29B示意地说明在由有效声音范围设置部分750所设置的有效声音范围802中检测到碰撞声音的情况下合成目标图像选择范围的确定方法。在图29B中，将由特定声音检测部分740检测到碰撞声音的位置(时间轴上的位置)表示为碰撞声音检测位置803。

例如，合成目标图像选择范围确定部分171确定碰撞声音检测位置803是否包括在由有效声音范围设置部分750所设置的有效声音范围802中。如图29B所示，在碰撞声音检测位置803包括在有效声音范围802中的情况下，合成目标图像选择范围确定部分171基于碰撞声音检测位置803确定合成目标图像选择范围。也就是说，合成目标图像选择范围确定部分171参考碰撞声音检测位置803，将时间轴上在碰撞声音检测位置803之前和之后的特定范围确定为合成目标图像选择范围804。具体地说，将这样一个范围L34确定为合成目标图像选择范围804，该范围L34包括参考碰撞声音检测位置803在时间轴上领先时间L32的范围以及超过碰撞声音检测位置803时间L33的范围。

这里，例如，时间L32至L34可以是与图5B中所示的时间L2至L4相同的值。此外，时间L34可长于时间L4。

图30A和30B是示意地说明根据本发明的第四实施例的、有效声音范围设置部分750的有效声音范围的设置方法和合成目标图像选择范围确定部分171的合成目标图像选择范围的确定方法的图。这个示例是在其中在指定图28中的网球(发球)的情况下确定合成目标图像选择范围的示例。此外，这个示例是图5A和5B中所示的修改示例，因此将省略一部分共用组件的描述。

图30A示意地以矩形形状说明经由输入部分720输入的运动图像810。例如，运动图像810是在其中记录网球赛的样子的运动图像。此外，在用于形成运动图像810的相应图像中，将由对象信息生成部分730检测到的、网球选手的面孔上仰预定时间或更长的位置表示为时间轴上的运动图像800的面孔上仰状态检测位置811。此外，将特定声音检测部分740检测到特定值或更高的声音的位置(时间轴上的位置)表示为特定值或更高的声音检测位置812。在这种情况下，有效声音范围设置部分750基于面孔上仰状态检测位置811和特定值或更高的声音检测位置812设置有效声音范围813。具体地说，有效声音范围设置部分750参考面孔上仰状态检测位置811和特定值或更高的声音检测位置812，在时间轴上设置有效声音范围813(时间L41)。这里，例如，时间L41是面孔上仰状态检测位置811是开始点而特定值或更高的声音检测位置812是结束点的范围

在这个方面，在涉及网球(发球)的有效声音范围的端点上，特定值或更高的声音的检测是设置条件。这里，在不从有效声音范围的开始点检测到特定值或更高的声音预定时间或更长的情况下，有效声音范围设置部分750使得涉及开始点的有效声音范围失效，并且可以等待用于确定有效声音范围的新触发。因此，可以减少碰撞声音的错误检测。此外，可以类似地应用涉及屋瓦打碎的有效声音范围的端点。

图30B示意地说明在由有效声音范围设置部分750所设置的有效声音范围813中检测到碰撞声音的情况下合成目标图像选择范围的确定方法。在图30B中，将特定声音检测部分740检测到碰撞声音的位置(时间轴上的位置)表示为碰撞声音检测位置814。

例如，合成目标图像选择范围确定部分171确定碰撞声音检测位置814是否包括在由有效声音范围设置部分750所设置的有效声音范围813中。如图30B所示，在碰撞声音检测位置814包括在有效声音范围813的情况下，合成目标图像选择范围确定部分171基于碰撞声音检测位置814确定合成目标图像选择范围。也就是说，合成目标图像选择范围确定部分171参考碰撞声音检测位置814，将在时间轴上在碰撞声音检测位置814之前和之后的特定范围确定为合成目标图像选择范围815。具体地说，将这样一个范围L44确定为合成目标图像选择范围815，该范围L44包括在时间轴上领先碰撞声音检测位置814时间L42的范围和超过碰撞声音检测位置814时间L43的范围。

这里，如图28所示，时间L42可以例如是2.5秒，而时间L43可以例如是0.5秒。也就是说，时间L44可以是3.0秒。时间L42至L44的设置内容可以根据用户的喜好改变。

此外，在图29A、29B以及图30A和30B中所示的示例中，在像如本发明的第二实施例所示那样在有效声音范围中是否检测到碰撞声音的确定之前，可以估计声音的延迟时间，并且可以基于估计结果校正碰撞声音检测位置。按照这种方式，校正碰撞声音的检测位置，从而使得可以基于校正后的位置确定合成目标图像选择范围。此外，在作为有效声音范围的触发的特定声音(例如，观众的高呼)中，可以估计声音延迟时间，并且可以基于估计结果校正检测位置。例如，在特定声音为观众的高呼的情况下，使用涉及相应帧的元数据(例如，变焦信息或聚焦位置信息)计算到目标对象的背景的对象距离，并且可以基于该对象距离来估计观众的高呼的延迟时间。因此，即使在其中比较远的目标对象通过变焦功能变成图像捕获目标的运动图像内容中，也可以确定合适的合成目标图像选择范围。

此外，在图29A和29B以及图30A和30B中所示的示例中，可能不能在有效声音范围设置部分750所设置的有效声音范围中检测到碰撞声音。在这种情况下，不使用碰撞声音生成合成图像，并且可以进行下一合成图像处理。

按照这种方式，关于由诸如数字视频摄像机之类的图像捕获设备记录的图像内容，可以使用在相应图像之间在时间轴上的特定变化设置有效声音范围。因此，在生成在其中引起碰撞声音的极快速动作是目标的合成图像的情况下，可以以高水平的精度检测碰撞声音的生成位置，而不用按压视频记录按钮等。此外，可以生成强调在碰撞声音的精确生成位置周围的合成图像，并生成具有高可视性的合成图像。此外，由于碰撞声音的生成位置的检测也不需要用户的手工工作，因此可以减少用户的麻烦。当按照这种方式生成合成图像时，即使不习惯于图像捕获设备的操作的初学者也可以容易地根据用户的喜好生成合适的合成图像。

用于使用在相应图像之间在时间轴上的特定变化设置有效声音范围的设置方法可以被使用到在本发明的第一至第三实施例中所示的图像捕获设备中。

此外，在本发明的实施例中，由合成目标图像选择部分172选择的合成目标图像作为静止图像用于合成图像的生成处理。这里，例如，所选择的合成目标图像可以用于在其中将生成合成图像的处理显示为动作图像的合成图像生成处理。此外，所选择的合成目标图像可以用作合成目标，也可以用作指示特定动作的过渡的多个图像(例如，用在幻灯片中的图像)。

本实施例可以应用到诸如具有成像功能的移动电话、个人计算机、视频系统、编辑设备之类的图像处理设备。此外，本发明所呈现的实施例中的处理过程也可以以处理程序提供。

本发明的实施例示范了用于实现本发明的示例。这里，像在本发明的实施例中显然看出来的那样，本发明的实施例中的公开分别对应于权利要求书中的公开。类似地，权利要求书中的公开分别对应于具有相同参考数字的本发明的实施例中的公开。这里，本发明不限于这些实施例，可以在不脱离本发明的精神的范围内进行各种修改。

此外，本发明的实施例中描述的处理过程可以提供为具有过程序列的方法。此外，这些处理过程可以提供为程序，该程序使得过程序列在计算机和记录该程序的记录介质中执行。可以将CD(致密盘)，MD(迷你盘)，DVD(数字多功能盘)，存储器卡，蓝光盘(注册商标)等用作这种记录介质。

本申请包含涉及在于2009年11月20日在日本专利局提交的日本优先权专利申请JP 2009-264616中公开的内容的主题，该优先权专利申请的全部内容通过参考合并在这里。

本领域技术人员应该理解，依赖于设计要求和其他因素，可以发生各种修改、组合、部分组合和变更，只要它们在所附的权利要求书或其等价物的范围内。

Claims

1.一种图像处理设备，包括：

特定声音检测部分，其检测在由包括在图像组中的目标对象进行的特定动作中在动作期间生成的特定声音，该图像组包括以时间顺序方式连续的多个图像；

有效声音范围设置部分，其将在时间轴上用于基于用户操控确定由特定声音检测部分所检测到的特定声音是否有效的范围设置为有效声音范围；以及

选择部分，其在所设置的有效声音范围内检测到特定声音的情况下，以在所设置的有效声音范围中检测到的特定声音在时间轴上的检测位置之前和之后的预定范围作为选择范围，从时间轴上图像组的选择范围中选择表示特定动作的过渡的预定数量的动作过渡图像。

2.根据权利要求1的设备，

其中，用户操控是在特定动作终止时接收到的特定操控或用于使特定动作的终止时间变成时间计数器的终止时间的设置的计时器设置操控，并且

其中，有效声音范围设置部分在用户操控为特定操控的情况下，参考时间轴上接收到特定操控的位置来设置有效声音范围，而在用户操控为计时器设置操控的情况下，借助于计时器设置操控、参考时间计数器的终止时间来设置有效声音范围。

3.根据权利要求2的设备，

其中，与在用户操控为计时器设置操控的情况下所设置的有效声音范围相比，有效声音范围设置部分变窄在用户操控为特定操控的情况下所设置的有效声音范围。

4.根据权利要求1的设备，还包括确定部分，其确定在所设置的有效声音范围中检测到的特定声音在时间轴上的检测位置之前和之后的预定范围作为选择范围，

其中，选择部分在所确定的选择范围内选择动作过渡图像。

5.根据权利要求1的设备，还包括：

对象距离计算部分，其计算到目标对象的距离；以及

延迟时间计算部分，其基于所计算出的距离计算所检测到的特定声音的延迟时间，

其中，选择部分基于所计算出的延迟时间校正在时间轴上所检测到的特定声音的检测位置，并且在经校正的检测位置存在于所设置的有效声音范围内的情况下，参考经校正的检测位置，从选择范围中选择动作过渡图像。

6.根据权利要求1的设备，

其中，关于选择范围中动作过渡图像的选择间隔，与其他选择间隔相比，选择部分使得接近在一范围内的选择间隔，该范围比具有在时间轴上特定声音的检测位置作为中心位置的选择范围更窄。

7.根据权利要求1的设备，还包括合成图像生成部分，其通过以时间顺序方式安排与合成多个所选择的动作过渡图像，生成表示目标对象的动作过渡的合成图像。

8.根据权利要求1的设备，还包括：

存储部分，其存储涉及多种类型的特定动作的特定声音和有效声音范围；以及

操控接收部分，其接收在其中存储特定声音和有效声音范围的、用于从多种类型的特定动作之中指定想要的特定动作的指定操控，

其中，特定声音检测部分检测涉及所指定的特定动作的特定声音，并且

其中，有效声音范围设置部分基于用户操控设置涉及所指定的特定动作的有效声音范围。

9.根据权利要求1的设备，

其中，在生成图像组时，有效声音范围设置部分基于涉及图像捕获操作的用户操控设置有效声音范围。

10.一种图像处理设备，其包括：

特定声音检测部分，其检测在包含在由图像组中的目标对象进行的特定动作中在动作期间生成的特定声音，该图像组包括以时间顺序方式连续的多个图像；

特定变化检测部分，其在形成该图像组的各图像之间检测在时间轴上的特定变化；

有效声音范围设置部分，其将在时间轴上用于基于在其中在时间轴上检测到特定变化的位置确定由特定声音检测部分检测到的特定声音是否有效的范围设置为有效声音范围；以及

11.根据权利要求9的设备，

其中，特定变化检测部分使用从形成图像组的每个图像提取的特征量和基于涉及形成图像组的每个图像的声音而提取的特征量中至少之一来检测特定变化。

12.一种图像处理方法，其包括如下步骤：

基于用户操控，将在时间轴上用于确定在由包括在图像组中的目标对象进行的特定动作中在动作期间生成的特定声音的检测是否有效的范围设置为有效声音范围，该图像组包括以时间顺序方式连续的多个图像；以及

在所设置的有效声音范围内检测到特定声音的情况下，以在所设置的有效声音范围中检测到的特定声音在时间轴上的检测位置之前和之后的预定范围作为选择范围，从时间轴上图像组的选择范围中选择表示特定动作的过渡的预定数量的动作过渡图像。