CN103533285A

CN103533285A - 图像捕获装置、图像处理装置及其控制方法

Info

Publication number: CN103533285A
Application number: CN201310466818.8A
Authority: CN
Inventors: 河井哲郎; 中尾大辅
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2009-11-20
Filing date: 2010-11-22
Publication date: 2014-01-22
Also published as: JP2011109558A; US8896626B2; US20110122154A1; JP5515671B2; CN102075682B; CN102075682A

Abstract

一种图像处理装置，包括：特定声音检测部分，其检测在由图像组中包括的对象的特定运动期间生成的特定声音，所述图像组包括以时间序列方式连续的多个图像；合成图像生成部分，其参照在时间轴上检测到的特定声音的检测位置，使用在所述时间轴上的图像组的选择范围中包括的预定数目的图像，生成代表特定运动的转换的合成图像；以及控制部分，在预定范围中检测到特定声音的情况下，所述控制部分控制所述合成图像生成部分使用检测到的特定声音生成合成图像，并且在预定范围中没有检测到特定声音的情况下，所述控制部分控制所述合成图像生成部分不生成合成图像。

Description

图像捕获装置、图像处理装置及其控制方法

本申请是申请日为2010年11月22日、申请号为201010554066.7、发明名称为“图像捕获装置、图像处理装置及其控制方法”的专利申请的分案申请。

技术领域

本发明涉及图像捕获装置，并且更具体地，涉及用于处理以时间序列方式连续的多个图像的图像捕获装置、图像处理装置及其控制方法。

背景技术

近年来，广泛使用如数字相机、数字摄像机（例如，集成相机记录器）等的图像捕获装置，其通过成像如人的对象生成图像数据，并且将生成的图像数据记录为如图像文件、运动图像文件等的内容。此外，广泛地使用这样的图像捕获装置记录例如高尔夫、棒球等的运动的图像作为内容。以此方式记录的内容（例如，运动图像内容）可以用于例如检查运动中的动作（例如，高尔夫挥杆或击球（棒球））。

例如，在确认运动动作（例如，高尔夫挥杆或击球（棒球））的情况下，已经提出一种合成图像生成方法，其生成表示运动转变的图像作为合成图像，使得可以容易地掌握运动转变。例如，提出了一种图像捕获装置，其从以预定间隔连续拍摄的图像中选择多个图像，并且使用选择的多个图像生成合成图像（例如，参照日本未审专利申请公开No.2009-44573（图9））。

发明内容

根据上述现有技术，可能生成代表例如进行高尔夫挥杆的人的运动转变的合成图像。

在该方面中，例如，因为在相对短时间内进行高尔夫挥杆或击球（棒球）的运动，所以当生成代表运动转变的合成图像时，重要的是适当地选择形成合成图像的图像。然而，在上述现有技术中，参照由用户开始操作的时间确定用于选择生成合成图像的多个图像的范围。因此，例如，在用户不习惯于拍摄或是新手的情况下，可能难以适当地对于在相对短时间内进行的高尔夫挥杆或击球（棒球）执行开始操作。在没有以此方式适当地执行开始操作的情况下，如果使用参照开始操作时间确定的范围中包括的多个图像生成合成图像，则不可能生成适当的合成图像。在此情况下，用于生成合成图像的处理时间变长，并且可能丧失拍摄适当的合成图像的机会。

因此，希望提供一种技术，其可以适当地生成代表由目标对象进行的特定运动的转变的合成图像。

根据本发明的实施例，提供一种图像处理装置、其控制方法和用于使得该方法在计算机上执行的程序，所述图像捕获装置包括：特定声音检测部分，其检测在由图像组中包括的目标对象进行的特定运动的运动期间生成的特定声音，所述图像组包括以时间序列方式连续的多个图像；合成图像生成部分，其参照在时间轴上检测到的特定声音的检测位置，使用在所述时间轴上的图像组的选择范围中包括的预定数目的图像，生成代表特定运动的转换的合成图像；确定范围设置部分，其基于用户操作，设置用于关于所述合成图像的生成的确定的所述时间轴上的范围作为确定范围；以及控制部分，在设置的确定范围中检测到特定声音的情况下，所述控制部分控制所述合成图像生成部分使用检测到的特定声音生成合成图像，并且在设置的确定范围中没有检测到特定声音的情况下，所述控制部分控制所述合成图像生成部分不生成合成图像。因此，可能基于关于依靠图像捕获部分的图像捕获操作的用户操作，设置确定范围，并且在设置的确定范围中检测到特定声音的情况下，控制所述合成图像生成部分使用检测到的特定声音生成合成图像，并且在设置的确定范围中没有检测到特定声音的情况下，控制所述合成图像生成部分不生成合成图像。

在该实施例中，用户操作可以是当终止特定运动时接收的特定操作，或者用于特定运动的终止时间变为时间计数器的终止时间这样的设置的定时器设置操作，并且其中在用户操作是特定操作的情况下，所述确定范围设置部分可以参照接收特定操作的时间轴上的位置设置确定范围，并且在用户操作是定时器设置操作的情况下，所述确定范围设置部分可以参照依靠定时器设置操作的时间计数器的终止时间设置确定范围。因此，在用户操作是特定操作的情况下，可以参照接收特定操作的位置设置确定范围，并且在用户操作是定时器设置操作的情况下，可以参照依靠定时器设置操作的时间计数器的终止时间设置确定范围。

在该实施例中，与在用户操作是定时器设置操作的情况下设置的确定范围相比，所述确定范围设置部分可以使得在用户操作是特定操作的情况下设置的确定范围变窄。因此，与在用户操作是定时器设置操作的情况下设置的确定范围相比，可以使得在用户操作是特定操作的情况下设置的确定范围变窄。

在该实施例中，所述装置还可以包括：对象距离计算部分，其计算到目标对象的距离；以及延迟时间计算部分，其基于计算的距离计算检测到的特定声音的延迟时间，并且所述控制部分可以基于计算的延迟时间校正时间轴上检测到的特定声音的检测位置，并且根据校正的检测位置是否存在于设置的确定范围中来确定是否允许所述合成图像生成部分生成合成图像。因此，可能计算到目标对象的距离，基于计算的距离计算检测到的特定声音的延迟时间，基于计算的延迟时间校正检测到的特定声音的检测位置，并且根据校正的检测位置是否存在于设置的确定范围中确定是否允许所述合成图像生成部分生成合成图像。

在该实施例中，所述装置还可以包括确定部分，在校正的检测位置存在于设置的确定范围中的情况下，所述确定部分参照校正的检测位置确定选择范围。因此，在校正的检测位置存在于设置的确定范围中的情况下，可能参照校正的检测位置确定选择范围。

在该实施例中，所述合成图像生成部分相对于选择范围中的预定数目的图像的选择间隔，可以使得比具有时间轴上的特定声音的检测位置作为中心位置的选择范围更窄的范围中的选择间隔与其它选择间隔相比更紧密。因此，相对于选择范围中的预定数目的图像的选择间隔，可以使得比具有特定声音的检测位置作为中心位置的选择范围更窄的范围中的选择间隔与其它选择间隔相比更紧密。

在该实施例中，所述装置还可以包括：存储部分，其存储关于多个类型的特定运动的特定声音和确定范围；以及操作接收部分，其接收用于从其中存储了特定声音和确定范围的多个类型的特定运动中指定希望的特定运动的指定操作。这里，所述特定声音检测部分可以检测关于指定的特定运动的特定声音，并且所述确定范围设置部分可以基于用户操作设置关于指定的特定运动的确定范围。因此，如果接收用于从多个类型的特定运动中指定希望的特定运动的指定操作，则可以检测关于指定的特定运动的特定声音，并且可以基于用户操作设置关于指定的特定运动的确定范围。

根据本发明的另一实施例，提供一种图像捕获装置、其控制方法和用于使得方法在计算机上执行的程序，所述图像捕获装置包括：图像捕获部分，其成像对象以便生成以时间序列方式连续的多个图像；特定声音检测部分，其检测在由包括多个图像的图像组中包括的目标对象进行的特定运动的运动期间生成的特定声音；合成图像生成部分，其参照在时间轴上检测到的特定声音的检测位置，使用在所述时间轴上的图像组的选择范围中包括的预定数目的图像，生成代表特定运动的转换的合成图像；确定范围设置部分，其基于关于依靠图像捕获部分的图像捕获操作的用户操作，设置用于关于所述合成图像的生成的确定的所述时间轴上的范围作为确定范围；以及控制部分，在设置的确定范围中检测到特定声音的情况下，所述控制部分控制所述合成图像生成部分使用检测到的特定声音生成合成图像，并且在设置的确定范围中没有检测到特定声音的情况下，所述控制部分控制所述合成图像生成部分不生成合成图像。

根据本发明的另一实施例，提供一种图像处理装置、其控制方法和用于使得方法在计算机上执行的程序，所述图像处理装置包括：特定声音检测部分，其检测在由图像组中包括的目标对象进行的特定运动的运动期间生成的特定声音，所述图像组包括以时间序列方式连续的多个图像；确定改变检测部分，其在形成图像组的各个图像之间检测时间轴上的确定改变；合成图像生成部分，其参照在时间轴上检测到的特定声音的检测位置，使用在所述时间轴上的图像组的选择范围中包括的预定数目的图像，生成代表特定运动的转换的合成图像；确定范围设置部分，其基于其中检测到确定改变的时间轴上的位置，设置用于关于所述合成图像的生成的确定的所述时间轴上的范围作为确定范围；以及控制部分，在设置的确定范围中检测到特定声音的情况下，所述控制部分控制所述合成图像生成部分使用检测到的特定声音生成合成图像，并且在设置的确定范围中没有检测到特定声音的情况下，所述控制部分控制所述合成图像生成部分不生成合成图像。因此，可能基于其中检测到确定改变的位置，设置确定范围，并且在设置的确定范围中检测到特定声音的情况下，控制所述合成图像生成部分使用检测到的特定声音生成合成图像，并且在设置的确定范围中没有检测到特定声音的情况下，控制所述合成图像生成部分不生成合成图像。

根据本发明的另一实施例，提供一种图像捕获装置、其控制方法和用于使得方法在计算机上执行的程序，所述图像捕获装置包括：图像捕获部分，其成像对象以便生成以时间序列方式连续的多个图像；特定声音检测部分，其检测在由图像组中包括的目标对象进行的特定运动的运动期间生成的特定声音，所述图像组包括以时间序列方式连续的多个图像；确定改变检测部分，其在形成图像组的各个图像之间检测时间轴上的确定改变；合成图像生成部分，其参照在时间轴上检测到的特定声音的检测位置，使用在所述时间轴上的图像组的选择范围中包括的预定数目的图像，生成代表特定运动的转换的合成图像；确定范围设置部分，其基于其中检测到确定改变的时间轴上的位置，设置用于关于所述合成图像的生成的确定的所述时间轴上的范围作为确定范围；以及控制部分，在设置的确定范围中检测到特定声音的情况下，所述控制部分控制所述合成图像生成部分使用检测到的特定声音生成合成图像，并且在设置的确定范围中没有检测到特定声音的情况下，所述控制部分控制所述合成图像生成部分不生成合成图像。

在该实施例中，所述确定改变检测部分可以使用从形成图像组的每个图像提取的特征量和基于关于形成图像组的每个图像的声音提取的特征量的至少一个，检测所述确定改变。因此，可以从形成图像组的每个图像提取的特征量和基于关于形成图像组的每个图像的声音提取的特征量的至少一个，检测所述确定改变。

根据本发明的另一实施例，提供一种图像处理装置，包括：特定声音检测部分，其检测在由图像组中包括的对象的特定运动期间生成的特定声音，所述图像组包括以时间序列方式连续的多个图像；合成图像生成部分，其参照在时间轴上检测到的特定声音的检测位置，使用在所述时间轴上的图像组的选择范围中包括的预定数目的图像，生成代表特定运动的转换的合成图像；以及控制部分，在预定范围中检测到特定声音的情况下，所述控制部分控制所述合成图像生成部分使用检测到的特定声音生成合成图像，并且在预定范围中没有检测到特定声音的情况下，所述控制部分控制所述合成图像生成部分不生成合成图像。

根据本发明的另一实施例，提供一种图像捕获装置，包括：图像捕获部分，其成像对象以便生成以时间序列方式连续的多个图像；特定声音检测部分，其检测在由包括多个图像的图像组中包括的对象的特定运动期间生成的特定声音；合成图像生成部分，其参照在时间轴上检测到的特定声音的检测位置，使用在所述时间轴上的图像组的选择范围中包括的预定数目的图像，生成代表特定运动的转换的合成图像；以及控制部分，在预定范围中检测到特定声音的情况下，所述控制部分控制所述合成图像生成部分使用检测到的特定声音生成合成图像，并且在预定范围中没有检测到特定声音的情况下，所述控制部分控制所述合成图像生成部分不生成合成图像。

根据本发明的另一实施例，提供一种图像处理装置，包括：特定声音检测部分，其检测在由图像组中包括的对象进行的特定运动期间生成的特定声音，所述图像组包括以时间序列方式连续的多个图像；确定改变检测部分，其在形成图像组的各个图像之间检测时间轴上的确定改变；合成图像生成部分，其参照在时间轴上检测到的特定声音的检测位置，使用在所述时间轴上的图像组的选择范围中包括的预定数目的图像，生成代表特定运动的转换的合成图像；以及控制部分，在预定范围中检测到特定声音的情况下，所述控制部分控制所述合成图像生成部分使用检测到的特定声音生成合成图像，并且在预定范围中没有检测到特定声音的情况下，所述控制部分控制所述合成图像生成部分不生成合成图像。

根据本发明的另一实施例，提供一种图像捕获装置，包括：图像捕获部分，其成像对象以便生成以时间序列方式连续的多个图像；特定声音检测部分，其检测在由图像组中包括的对象进行的特定运动期间生成的特定声音，所述图像组包括以时间序列方式连续的多个图像；确定改变检测部分，其在形成图像组的各个图像之间检测时间轴上的确定改变；合成图像生成部分，其参照在时间轴上检测到的特定声音的检测位置，使用在所述时间轴上的图像组的选择范围中包括的预定数目的图像，生成代表特定运动的转换的合成图像；以及控制部分，在预定范围中检测到特定声音的情况下，所述控制部分控制所述合成图像生成部分使用检测到的特定声音生成合成图像，并且在预定范围中没有检测到特定声音的情况下，所述控制部分控制所述合成图像生成部分不生成合成图像。

根据本发明的另一实施例，提供一种图像处理装置的控制方法，包括以下步骤：执行控制，使得在预定范围中检测到特定声音的情况下，所述特定声音在由包括以时间序列方式连续的多个图像的图像组中包括的对象进行的特定运动期间生成，参照在时间轴上检测到的特定声音的检测位置，使用在所述时间轴上的图像组的选择范围中包括的预定数目的图像，生成代表特定运动的转换的合成图像，并且使得在预定范围中没有检测到特定声音的情况下，不生成合成图像。

根据本发明的实施例，可以适当地生成代表由目标对象进行的特定运动的转变的合成图像。

附图说明

图1是图示根据本发明的第一实施例的图像捕获装置的功能配置的示例的框图。

图2是图示根据本发明的第二实施例的选择部分和层处理部分的功能配置的示例的框图。

图3A、3B和3C是示意性图示根据本发明的第一实施例、图像捕获装置和作为图像捕获目标的人之间的位置关系以及从该位置关系生成的运动图像之间的关系的图。

图4A和4B是图示根据本发明的第一实施例、由合成目标图像选择部分选择的合成目标图像和由层处理部分生成的合成图像的示例的图。

图5A、5B和5C是示意性图示根据本发明的第一实施例、通过有效声音范围设置部分的有效声音范围的设置方法和通过合成目标图像选择范围确定部分的合成目标图像选择范围的确定方法的图。

图6A和6B是图示根据本发明的第一实施例、在显示部分上显示的显示屏幕的转换示例的图。

图7A、7B和7C是示意性图示根据本发明的第一实施例、通过有效声音范围设置部分的有效声音范围的设置方法和通过合成目标图像选择范围确定部分的合成目标图像选择范围的确定方法的图。

图8A、8B、8C和8D是示意性图示根据本发明的第一实施例、通过选择部分的合成目标图像的选择处理和通过层处理部分的合成图像的生成处理的流程的示例的图。

图9A和9B是示意性图示根据本发明的第一实施例、通过层分离部分的合成目标图像的分离方法的图。

图10A、10B和10C是示意性图示根据本发明的第一实施例、作为通过层修改部分的修改处理的目标的图像和通过层修改装置修改的图像的图。

图11A和11B是示意性图示根据本发明的第一实施例、通过层合成部分的合成方法的图。

图12A和12B是示意性图示根据本发明的第一实施例、通过层合成部分的合成目标图像的合成方法的图。

图13是图示根据本发明的第一实施例、通过层处理部分生成的合成图像的示例的图。

图14是图示根据本发明的第一实施例、通过图像捕获装置的合成图像生成处理的处理过程的示例的流程图。

图15是图示根据本发明的第一实施例、通过图像捕获装置的合成图像生成处理的处理过程的示例的流程图。

图16A和16B是图示根据本发明的第二实施例、图像捕获装置和目标对象之间的距离以及撞击声音的生成位置和其到达位置之间的关系的图。

图17是图示根据本发明的第二实施例的图像捕获装置的功能配置的示例的框图。

图18A和18B是示意性图示根据本发明的第二实施例、作为通过图像捕获部分的图像捕获目标的图像捕获范围和在显示部分上显示的捕获图像的图。

图19是示意性图示根据本发明的第二实施例、作为通过图像捕获部分的图像捕获目标的图像捕获范围和在显示部分上显示的捕获图像之间的位置关系的顶视图。

图20A和20B是示意性图示根据本发明的第二实施例、通过有效声音范围设置部分的有效声音范围的设置方法和通过合成目标图像选择范围确定部分的合成目标图像选择范围的确定方法的图。

图21是图示根据本发明的第二实施例的显示部分中的显示示例的图。

图22是图示根据本发明的第二实施例、通过图像捕获装置的合成图像生成处理的处理过程的示例的流程图。

图23是图示根据本发明的第三实施例的图像捕获装置的功能配置的示例的框图。

图24是图示根据本发明的第三实施例的目标对象信息存储部分的存储内容的示例的图。

图25是图示根据本发明的第三实施例的显示部分的显示示例（显示屏幕）的图。

图26A和26B是图示根据本发明的第三实施例、通过层处理部分生成的合成图像的示例的图。

图27是图示根据本发明的第四实施例的图像处理装置的功能配置的示例的框图。

图28是图示根据本发明的第四实施例的目标对象信息存储部分的存储内容的示例的图。

图29A和29B是示意性图示根据本发明的第四实施例、通过有效声音范围设置部分的有效声音范围的设置方法和通过合成目标图像选择范围确定部分的合成目标图像选择范围的确定方法的图。

图30A和30B是示意性图示根据本发明的第四实施例、通过有效声音范围设置部分的有效声音范围的设置方法和通过合成目标图像选择范围确定部分的合成目标图像选择范围的确定方法的图。

具体实施方式

下文中，将以以下顺序描述用于执行本发明的实施例。

1.第一实施例（合成图像生成控制：基于用户操作的有效声音范围的设置示例）

2.第二实施例（合成图像生成控制：计算对象距离和校正撞击声音检测位置的示例）

3.第三实施例（合成图像生成控制：从多个对象中指定期望的对象并且生成与该对象有关的合成图像的示例）

4.第四实施例（合成图像生成控制：在记录的图像内容中生成合成图像的示例）

1.第一实施例

[图像捕获装置的配置]

图1是图示根据本发明的第一实施例的图像捕获装置100的功能配置的示例的框图。图像捕获装置100包括图像捕获部分111、对象信息生成部分120、捕获图像保持部分115、声音输入部分131、特定声音检测部分132、操作接收部分140和定时器设置部分150。此外，图像捕获装置100包括有效声音范围设置部分160、选择部分170、层处理部分180、合成图像保持部分185、显示控制部分190、显示部分191和合成图像存储部分200。例如，图像捕获装置100可以通过数字摄像机实现，该数字摄像机可以成像对象以生成捕获图像（图像数据），通过图像分析对于图像数据提取每个特征量，并且使用每个提取的特征量执行多种图像处理。

图像捕获部分111包括图像捕获元件（例如，图19所示的图像捕获元件112）和信号处理部分（未示出），图像捕获元件将通过镜头（未示出）入射的对象的光转换为电信号，信号处理部分处理图像捕获元件的输出信号以生成捕获图像（图像数据）。也就是说，在图像捕获部分111中，在图像捕获元件的成像表面上形成通过镜头入射的对象的光学图像，图像捕获元件在此状态下执行图像捕获操作，并且信号处理部分对于成像信号执行信号处理，因此生成捕获图像。基于从操作接收部分140或定时器设置部分150输出的图像捕获操作的开始指令信息生成捕获图像。此外，生成的捕获图像提供并保持在捕获图像保持部分115中。此外，生成的捕获图像提供到显示控制部分190，然后在显示部分191上显示。此外，生成的捕获图像和在生成捕获图像时每个镜头（例如，聚焦镜头和变焦镜头）的位置和聚焦位置提供到对象信息生成部分120。

捕获图像保持部分115是用于将由图像捕获部分111生成的捕获图像保持预定时间的环形缓冲器，并且将保持的捕获图像提供到选择部分170。此外，捕获图像保持部分115保持与由图像捕获部分111生成的捕获图像相关的由对象信息生成部分120生成的对象信息。这里，当捕获图像保持在捕获图像保持部分115时的预定时间例如可以是3到10秒。也就是说，由图像捕获部分111生成的最新捕获图像和由对象信息生成部分120生成的对象信息在捕获图像保持部分115中保持3到10秒。

对象信息生成部分120基于由图像捕获部分111生成的捕获图像和在生成捕获图像时的每条信息（例如，镜头的位置和聚焦位置），生成与捕获图像有关的对象信息。此外，对象信息生成部分120将生成的对象信息提供到捕获图像保持部分115，并且允许它保持在其中。例如，对象信息例如是用于从由图像捕获部分111生成的捕获图像中包括的对象中辨别目标对象区域和其背景区域的信息。例如，生成深度图作为对象信息。这里，深度图是指示从图像捕获位置（例如，图像捕获装置100的位置）到捕获图像中包括的图像的距离的数据。作为生成深度图的技术，例如，可以使用如TOF（飞行时间）、散焦深度等的技术。例如，TOF技术是用于基于从光源发射的光从对象反射并且到达传感器期间的延迟时间和光的速度计算到对象的距离的技术。

声音输入部分131获得图像捕获装置100周围的声音，并且将获得的声音（声音数据）输出到特定声音检测部分132。例如，通过多个麦克风等实现声音输入部分131。

特定声音检测部分132基于从声音输入部分131输出的声音检测特定声音，并且在检测到特定声音的情况下，将其输出到选择部分170。在本发明的第一实施例中，示例了在高尔夫挥杆期间高尔夫球杆与高尔夫球接触的时刻生成的声音（撞击声音）的情况。例如，特定声音检测部分132将与特定声音有关的特征量预先存储为特定声音识别信息（参考数据）。然后，特定声音检测部分132从由声音输入部分131输出的声音提取特征量，并且比较提取的特征量与特定声音识别信息以计算相似度。在计算的相似度超过阈值的情况下，特定声音检测部分132确定从声音输入部分131输出的声音是特定声音。具体地，从声音输入部分131输出的声音数据通过AD（模拟到数字）转换处理采样，并且转换为数字数据。此外，以适当的时间间隔对数字数据执行如频率分析的处理，使得数字数据转换为指示声音的频谱或其它声学特征的参数。因此，提取声音的时间序列特征量。此外，使用保持的参考数据执行与提取的时间序列特征量的匹配处理，然后声音识别结果输出为匹配处理的结果。可以使用各种其它现有方法执行声音分析和识别。

操作接收部分140接收通过用户操作的操作内容，并且输出基于接收的操作内容的操作信号到图像捕获部分111、定时器设置部分150、有效声音范围设置部分160和显示控制部分190。例如，当接收指示用于生成合成图像的合成图像记录模式的设置的合成图像记录模式设置操作时，操作接收部分140输出用于指令开始图像捕获操作的控制信号到图像捕获部分111。然后，操作接收部分140输出用户指令捕获图像的显示开始的控制信号到显示控制部分190。例如，通过合成图像记录模式的设置按钮的按压操作执行合成图像记录模式的设置操作。此外，例如，当接收用于指令合成图像记录模式的解除的合成图像记录模式解除操作时，操作接收部分140输出用于停止图像捕获操作的控制信号到图像捕获部分111。例如，通过合成图像记录模式的解除按钮执行合成图像记录模式解除操作。此外，例如，当在设置合成图像记录模式的情况下接收合成图像的记录指令操作时，操作接收部分140输出指示接收到合成图像的记录指令操作的控制信号到有效声音范围设置部分160。然后，操作接收部分140输出用于停止图像捕获操作的控制信号到图像捕获部分111。例如，通过视频记录按钮（REC按钮）执行合成图像的记录指令操作。此外，例如，当接收用于通过定时器设置在合成图像记录模式中执行图像捕获操作的定时器设置操作时，操作接收部分140输出用于指令定时器设置的控制信号到定时器设置部分150。例如，通过定时器设置按钮执行定时器设置操作。此外，当按压定时器设置按钮时，可以执行计数器值（例如，8到17秒的设置）的设置操作。可以使用如提供在图像捕获装置100上的按钮的操作部件输入这些操作，并且可以通过遥控器操作等由无线通信执行这些操作。

定时器设置部分150设置用于在合成图像记录模式中执行图像捕获操作的定时器（例如，自定时器功能）。具体地，如果通过操作接收部分140接收定时器设置操作，则定时器设置部分150输出用于指令开始图像捕获操作的控制信号到图像捕获部分111。此外，定时器设置部分150输出用于指令捕获图像的显示开始的控制信号和由于定时器设置的计数值到显示控制部分190。此外，在计数值的显示开始之后，定时器设置部分150根据设置的内容顺序输出计数值到显示控制部分190。因此，如图6A和6B所示，由图像捕获部分111生成的捕获图像显示在显示部分191上，并且计数值重叠并且显示在捕获图像上。例如，对于每秒一个接一个计数的计数值显示在显示部分191上。此外，在设置的定时器的计数值是“零”的情况下，定时器设置部分150输出指示该事实的控制信号到有效声音范围设置部分160。此外，定时器设置部分150输出用于停止图像捕获操作的控制信号到图像捕获部分111。

在设置合成图像记录模式的情况下，有效声音范围设置部分160设置用于确定由特定声音检测部分132检测到的特定声音是否有效的有效声音范围。此外，有效声音范围设置部分160输出关于设置的有效声音范围（有效声音范围和在设置该范围时用作参考的时间轴上的位置）的信息到选择部分170。具体地，在通过操作接收部分140接收合成图像的记录指令操作的情况下，或者在通过定时器设置部分150设置的定时器的计数值变为“零”的情况下，有效声音范围设置部分160设置有效声音范围。这里，在通过操作接收部分140接收合成图像的记录指令操作的情况下，接收合成图像的记录指令操作的时间轴上的位置变为参考位置。此外，由定时器设置部分150设置的定时器的计数值变为“零”，计数值变为“零”的时间轴上的位置变为参考位置。将参照图5A到7C等详细描述有效声音范围的这些设置方法。此外，有效声音范围设置部分160是权利要求中公开的确定范围设置部分的示例。

选择部分170从捕获图像保持部分115中保持的捕获图像中，依靠层处理部分180选择在合成图像的生成处理中使用的合成目标图像。此外，选择部分170输出关于选择的合成目标图像的信息（例如，合成目标图像、关于这些图像的对象信息、以及在合成图像的生成处理中使用的坐标）到层处理部分180。将参照图2详细描述选择部分170的内部配置。此外，选择部分170是在权利要求中公开的控制部分的示例。

层处理部分180使用由选择部分170选择的合成目标图像生成合成图像，然后将生成的合成图像存储在合成图像存储部分200中。将参照图2详细描述层处理部分180的内部配置。此外，层处理部分180是权利要求中公开的合成图像生成部分的示例。

合成图像保持部分185在依靠层处理部分180的合成图像的生成处理时的合成处理期间保持合成图像（历史图像），并且将保持的合成图像提供到层处理部分180。将参照图2详细描述合成图像保持部分185。

显示控制部分190根据由操作接收部分140接收的操作输入，在显示部分191上显示合成图像存储部分200中存储的合成图像或从图像捕获部分111输出的捕获图像。此外，显示控制部分190将由定时器设置部分150设置的定时器的计数值与要在显示部分191上显示的捕获图像重叠。

显示部分191在显示控制部分190的控制下显示每个图像。

合成图像存储部分200存储由层处理部分180生成的合成图像，并且将存储的合成图像提供到显示控制部分190。

图2是图示根据本发明的第二实施例的选择部分170和层处理部分180的功能配置的示例的框图。选择部分170包括合成目标图像选择范围确定部分171、合成目标图像选择部分172、坐标计算部分173和计数器部分174。此外，层处理部分180包括层分离部分181、层修改部分182和层合成部分183。

合成目标图像选择范围确定部分171在捕获图像保持部分115中保持的捕获图像中，确定用于选择在依靠层处理部分180的合成图像的生成处理中使用的合成目标图像的范围（合成目标图像选择范围）。具体地，合成目标图像选择范围确定部分171基于由特定声音检测部分132检测到的特定声音的检测位置（时间轴上的位置）和由有效声音范围设置部分160设置的有效声音范围确定合成目标图像选择范围。例如，在特定声音的检测位置包括在有效声音范围内的情况下，合成目标图像选择范围确定部分171基于特定声音的检测位置确定合成目标图像选择范围。另一方面，在特定声音的检测位置不包括在有效声音范围内的情况下，合成目标图像选择范围确定部分171基于设置有效声音范围时变为参考的时间轴上的位置确定合成目标图像选择范围。这里，在由操作接收部分140接收合成图像的记录指令操作的情况下，接收合成图像的记录指令操作的时间轴上的位置变为参考位置。此外，在由定时器设置部分150设置的定时器的计数值变为“零”的情况下，计数值变为“零”的时间轴上的位置变为参考位置。此外，合成目标图像选择范围确定部分171输出关于确定的合成目标图像选择范围的信息（例如，合成目标图像选择范围和关于包括在该范围中的图像的对象信息）到合成目标图像选择部分172。合成目标图像选择范围确定部分171是权利要求中公开的确定部分的示例。

合成目标图像选择部分172从由合成目标图像选择范围确定部分171确定的合成目标图像选择范围中包括的各个图像中，选择在依靠层处理部分180的合成图像的生成处理中使用的合成目标图像。例如，合成目标图像选择部分172从由合成目标图像选择范围确定部分171确定的合成目标图像选择范围中包括的各个图像（在捕获图像保持部分115中保持的捕获图像）中，选择以预定的时间间隔的图像作为合成目标图像。此外，例如，可以选择合成目标图像以具有适于可视化目标对象的运动转变的间隔。此外，合成目标图像选择部分172输出关于选择的合成目标图像的信息（例如，合成目标图像、关于这些图像的对象信息）到坐标计算部分173和层分离部分181。

坐标计算部分173对于从合成目标图像选择部分172输出的每个合成目标图像计算在通过层处理部分180的合成图像的生成处理中使用的坐标，并且将计算的坐标输出到层修改部分182。在该坐标计算中，计算要与和作为计算目标的合成目标图像有关的合成图像合成的像素位置。也就是说，在该坐标计算中，计算对应于作为最终生成的合成图像（例如，图8D中示出的合成图像402）中的计算目标的合成目标图像的像素范围（例如，图8D中示出的包括F0和F10的范围）。

计数器部分174提供在通过合成目标图像选择范围确定部分171的合成目标图像选择范围确定时使用的计数器（撞击声音检测计数器）的值到合成目标图像选择范围确定部分171。这里，计数器部分174连续增加撞击声音检测计数器。此外，在从特定声音检测部分132检测到的特定声音输出到合成目标图像选择范围确定部分171的事实的情况下，通过合成目标图像选择范围确定部分171将撞击声音检测计数器的值重置为“零”。类似地，在重置后，计数器部分174还连续增加撞击声音检测计数器。此外，合成目标图像选择范围确定部分171在合成目标图像选择范围的确定时使用撞击声音检测计数器的值估计撞击声音检测位置。也就是说，在合成目标图像选择范围的确定时，估计领先确定时间撞击声音检测计数器的值的位置（在时间轴上的领先位置）为撞击声音检测位置。

层分离部分181对于由合成目标图像选择部分172选择的合成目标对象使用相应的对象信息执行层分离。这里，术语“层”指对于每个图像（帧）通过分离目标对象部分和背景部分获得的每个图像。此外，层分离部分181输出每个分离的层图像到层修改部分182。

层修改部分182使用通过坐标计算部分173计算的坐标，执行多种修改处理，用于生成从层分离部分181输出的各个层图像作为合成图像。作为该修改处理，执行如剪切、缩放、旋转和坐标移动的几何算术处理。例如，缩放具有根据合成目标图像的数目、合成图像的尺寸等确定的其处理内容。此外，作为修改处理，可以执行如对于目标对象的运动部分的强调的图像处理。此外，层修改部分182输出处理的层图像到层合成部分183。

层合成部分183对于从层修改部分182输出的层图像执行图像合成处理，并且将生成的合成图像存储到合成图像存储部分200。具体地，层合成部分183合成各个层图像，使得从层修改部分182输出的层图像安排在相应的像素范围内。此外，层合成部分183合成紧接在合成目标之前的层图像，然后将合成图像（历史图像）顺序保持在合成图像保持部分185中。此外，当执行变为下一个合成目标的层图像的合成处理时，层合成部分183从合成图像保持部分185获得在合成图像保持部分185中保持的合成图像（历史图像），并且在合成处理中使用它们。

合成图像保持部分185顺序保持由层合成部分183生成的合成图像（历史图像），并且将保持的合成图像提供到层合成部分183。也就是说，由层合成部分183生成的合成图像被顺序更新，并保持在合成图像保持部分185中。

[合成图像生成处理的转变的示例]

接下来，将简要描述在生成合成图像的情况下的生成处理的转变的示例。

图3A到3C是示意性图示根据本发明的第一实施例、图像捕获装置100和作为图像捕获目标的人300之间的位置关系以及以该位置关系生成的运动图像的关系的图。

图3A示意性图示图像捕获装置100和作为相对于图像捕获装置100的图像捕获目标的人300之间的位置关系。例如，人300在高尔夫练习场中练习挥杆高尔夫球杆301。随着人300从图3A所示的姿势挥动高尔夫球杆301，人300用高尔夫球杆301击打高尔夫球302以在希望的方向驱动高尔夫球302。

图3B以矩形形状示意性图示由图像捕获部分111生成的运动图像310。此外，在图3B中，以对应于运动图像310的矩形形状，沿着时间轴排列用于形成运动图像310的各帧中的一些帧（图像311到313等）。此外，运动图像310是通过由图3A所示的状态下的图像捕获装置100成像人300的高尔夫练习挥杆的外观获得的运动图像。这里，图像311是通过成像人300准备好高尔夫挥杆的状态所获得的图像，并且图像312是通过成像人300观察完成高尔夫挥杆之后高尔夫球302飞行的方向的状态所获得的图像。此外，图像313是通过成像当人300进行高尔夫挥杆时高尔夫球杆301与高尔夫球302接触时的瞬间的状态所获得的图像。这里，当人300进行高尔夫挥杆时，在高尔夫球杆301与高尔夫球302接触的瞬间生成特定声音（撞击声音）。生成撞击声音的运动图像310中的位置表示为撞击声音生成位置315。

在使用如此生成的运动图像310生成指示人300的高尔夫挥杆的转变的合成图像的情况下，例如，选择用于选择合成目标图像的预定范围（合成目标图像选择范围）。合成目标图像选择范围是这样的范围，其中包括例如从高尔夫挥杆开始到其结束的一系列运动转变。此外，在预定范围中，选择和合成作为合成目标的图像。在图4B中示出该合成示例。

例如，如图3B所示，在运动图像310中确定合成目标图像选择范围320，并且在合成目标图像选择范围320中包括的各个帧中，确定满足预定条件的帧作为合成目标图像。

在图3C中，沿着时间轴排列在图3B所示的运动图像310中确定的合成目标图像选择范围320中包括的各个帧中的一些帧（图像321到326）。这里，运动图像321是当人300开始高尔夫挥杆时成像的图像，而图像326是当人300结束高尔夫挥杆时成像的图像。此外，图像323是对应于图3B中示出的图像313的图像。此外，图像322、324和325是在图像321和326之间通过以时间序列方式成像进行高尔夫挥杆的人300的运动转变所获得的图像。

图4A和4B是图示根据本发明的第一实施例、由合成目标图像选择部分172选择的合成目标图像和由层处理部分180生成的合成图像的示例的图。在图4A中，以时间序列方式排列在图3B所示的运动图像310中的合成目标图像选择范围320中包括的各个帧中选择作为合成目标图像的24个图像。在图4A中所示的24个图像中包括与图3C中所示的图像321到326相同对象的图像给出相同的参考标号。这里，例如用于选择处于预定间隔的帧作为合成目标图像的选择方法可以用作合成目标图像的选择方法。此外，例如，在一些情况下可以考虑精密地确认在高尔夫球杆301与高尔夫球302接触时的时间左右的运动变换。在此情况下，当生成撞击声音时的图像（例如，图像323）的相邻图像的间隔可以比用于选择合成目标图像的其它间隔更紧密。

图4B示意性图示通过层处理部分180生成的合成图像330。以此方式，确定其中包括从人300的高尔夫挥杆的开始到其结束的运动转变的合成目标图像选择范围，并且在该合成目标图像选择范围中选择合成目标图像用于合成。因此，可以生成指示人300的高尔夫挥杆的运动转变的合成图像。

如上所述，在从运动图像310生成合成图像的情况下，重要的是适当地选择用于合成目标图像的选择的合成目标图像选择范围。然而，因为在相对短时间内进行高尔夫挥杆，所以可能难以从运动图像310适当地选择合成目标图像选择范围。也就是说，可能难以从运动图像310选择合成目标图像选择范围，所述运动图像310包括从人300的高尔夫挥杆的开始之前的状态的图像到包括高尔夫挥杆的结束之后的状态的图像范围内的图像。

这里，如上所述，在高尔夫挥杆中间生成撞击声音。以此方式，因为在高尔夫挥杆期间在预定位置频繁生成撞击声音，所以可以基于撞击声音选择合成目标图像选择范围。然而，在人300在存在很多其它人的高尔夫练习场练习时，在人300准备好高尔夫挥杆等时，很可能由不同于人300的人的高尔夫挥杆生成撞击声音。也就是说，在适当地记录与导致撞击声音有关的瞬时运动的情况下，如果检测到的撞击声音总是有效，则很可能错误地检测来自不同于检测目标的人的撞击声音。为此，在生成与人300有关的合成图像的情况下，重要的是当基于撞击声音选择合成目标图像选择范围时，适当地检测由人300的高尔夫挥杆生成的撞击声音。因此，在本发明的第一实施例中，提供设置有效声音范围以减少撞击声音错误检测的示例，其中仅仅基于用户操作的拍摄触发左右的邻近定时有效。仅使用在有效声音范围中检测到的撞击声音设置合成目标图像选择范围，从而选择适当的合成目标图像。

[基于视频记录按钮操作的合成目标图像选择范围的确定示例]

图5A、5B和5C是示意性图示根据本发明的第一实施例、通过有效声音范围设置部分160的有效声音范围的设置方法和通过合成目标图像选择范围确定部分171的合成目标图像选择范围的确定方法的图。

图5A以矩形形状示意性图示通过图像捕获部分111生成的运动图像350。此外，以类似于图3B所示的示例的方法，运动图像350是通过由图像捕获装置100成像人（例如，Koda Goro）的高尔夫练习挥杆所获得的运动图像。这里，假设Koda Goro要他的朋友（例如，Otogawa Rokuro）拍摄他的高尔夫挥杆。在此情况下，Otogawa Rokuro用他的手把持图像捕获装置100，其中图像捕获装置100的光轴方向朝向Koda Goro。如果通过操作接收部分140接收到按压操作，则通过图像捕获部分111生成捕获图像，并且生成的捕获图像顺序地保持在成像图像保持部分115中。此外，显示控制部分190在显示部分191上顺序显示生成的捕获图像（所谓通过图像（through image））。以此方式，在Otogawa Rokuro使用其中设置合成图像记录模式的图像捕获装置100执行拍摄的状态下，Koda Goro进行高尔夫挥杆。就在Koda Goro完成高尔夫挥杆之后，Otogawa Rokuro迅速按压视频记录按钮。如果通过操作接收部分140接收到按压操作，则有效声音范围设置部分160设置有效声音范围。

例如，假设由Otogawa Rokuro按压视频记录按钮的位置（时间轴上的位置）是图5A所示的运动图像350的时间轴上的视频记录按钮的按压位置（视频记录按钮按压位置351）。在此情况下，有效声音范围设置部分160基于视频记录按钮按压位置351设置有效声音范围352。具体地，有效声音范围设置部分160在时间轴上设置领先视频记录按钮按压位置351时间L1的范围作为有效声音范围352。在该示例中，因为可以在一系列高尔夫挥杆运动的结束之后生成视频记录按钮的按压（拍摄触发），所以撞击声音的生成位置可能存在于拍摄触发的定时之前。因此，该示例是其中在视频记录按钮的按压之前设置有效声音范围的示例。

这里，例如，时间L1可以是1.0秒。基于在以此方式设置的有效声音范围中检测到的撞击声音确定合成目标图像选择范围。将参照图5B描述合成目标图像选择范围的确定方法。此外，在以此方式设置的有效声音范围中没有检测到撞击声音的情况下，基于视频记录按钮按压位置351确定合成目标图像选择范围。将参照图5C描述合成目标图像选择范围的确定方法。

图5B示意性图示在通过有效声音范围设置部分160设置的有效声音范围352中检测到撞击声音的情况下，合成目标图像选择范围的确定方法。在图5B中，通过特定声音检测部分132检测到撞击声音的位置（时间轴上的位置）表示为撞击声音检测位置353。如图5B所示，在通过有效声音范围设置部分160设置的有效声音范围352中检测到撞击声音的情况下，合成目标图像选择范围确定部分171基于撞击声音检测位置353确定合成目标图像选择范围。也就是说，合成目标图像选择范围确定部分171参照撞击声音检测位置353，确定在时间轴上的撞击声音检测位置353前后的预定范围作为合成目标图像选择范围354。具体地，合成目标图像选择范围确定部分171在时间轴上确定范围L4，其包括领先撞击声音检测位置353时间L2的范围和超过撞击声音检测位置353时间L3的范围作为合成目标图像选择范围354。

这里，考虑高尔夫球杆的旋转速度，在高尔夫球杆与高尔夫球接触之后的高尔夫挥杆期间的时间比高尔夫球杆与高尔夫球接触之前的时间短。也就是说，在生成撞击声音之后的高尔夫挥杆期间的时间比生成撞击声音之前的时间短。因此，确定合成目标图像选择范围354，使得撞击声音检测位置353之前的时间L2比其后的时间L3长。例如，时间L2可以是1.5秒，而时间L3可以是0.5秒。以此方式，由于基于在有效声音范围中检测到的撞击声音确定合成目标图像选择范围，所以可以确定适当的合成目标图像选择范围。

这里，假设在不同于由有效声音范围设置部分160设置的有效声音范围352的位置（例如，由图5B所示的箭头358和359指示的位置）中检测到撞击声音。在不同于有效声音范围352的位置检测到撞击声音的情况下，撞击声音不用于合成目标图像选择范围的确定。在不使用撞击声音的情况下，可以基于视频记录按钮的按压位置确定合成目标图像选择范围。此外，在不同于有效声音范围352的位置检测到撞击声音的情况下，撞击声音不用于合成目标图像选择范围的确定，但是可以用于下一个合成图像的生成处理。

图5C示意性图示在通过有效声音范围设置部分160设置的有效声音范围352中没有检测到撞击声音的情况下，合成目标图像选择范围的确定方法。在图5C中，以与图5A的情况类似的方式，按压视频记录按钮的位置表示为视频记录按钮按压位置351。如图5C所示，在有效声音范围352中没有检测到撞击声音的情况下，合成目标图像选择范围确定部分171基于视频记录按钮按压位置351确定合成目标图像选择范围。也就是说，合成目标图像选择范围确定部分171参照视频记录按钮按压位置351，确定时间轴上在视频记录按钮按压位置351之前的预定范围作为合成目标图像选择范围355。具体地，合成目标图像选择范围确定部分171确定时间轴上领先撞击声音检测位置353时间L7（L5+L6）的范围作为合成目标图像选择范围355。以此方式，在有效声音范围352中没有检测到撞击声音的情况下，将时间轴上领先视频记录按钮的按压位置时间L6的位置当作撞击声音检测位置，以确定合成目标图像选择范围355。也就是说，时间L5和L6对应于图5B所示的时间L2和L3。这里，例如，以与图5B的情况类似的方式，时间L7可以是2.0秒。也就是说，时间L5是1.5秒，而时间L6是0.5秒。然而，在基于视频记录按钮按压位置确定合成目标图像选择范围的情况下，因为基于用户操作确定合成目标图像选择范围，所以与图5B所示的合成目标图像选择范围354相比可能降低了精度。因此，在基于视频记录按钮按压位置确定合成目标图像选择范围的情况下，例如，时间L7可以长于时间L4，以确定合成目标图像选择范围。

此外，可以通过用户操作改变这些时间L1到L7。

[基于定时器的合成目标图像选择范围的确定示例]

图6A和6B是图示根据本发明的第一实施例、在显示部分191上显示的显示屏幕的转换示例的图。图6A图示在人300的高尔夫挥杆开始之前的显示示例（显示屏幕370），其中由定时器设置部分150设置的定时器的计数值“17”（372）与由图像捕获部分111生成的图像重叠。图6B图示在人300的高尔夫挥杆结束时的显示示例（显示屏幕371），其中由定时器设置部分150设置的定时器的计数值“0”（373）与由图像捕获部分111生成的图像重叠。

在该示例中，假设人300（例如，Koda Goro）由他自己拍摄他的高尔夫练习挥杆的外观。在此情况下，例如，正在练习的Koda Goro安装图像捕获装置100，使得其光轴指向他自己，如图3A所示，然后按压定时器设置按钮。通过该按压操作，通过图像捕获部分111生成捕获图像，并且显示控制部分190在显示部分191上显示生成的捕获图像（所谓通过图像）。此外，定时器设置部分150通过定时器设置按钮的按压操作设置定时器，并且显示控制部分190将对应于该设置内容的计数值（例如，17秒）与要在显示部分191上显示的通过图像重叠。例如，如图6A所示，在按压定时器设置按钮之后，显示显示屏幕370，其中由定时器设置部分150设置的定时器的计数值“17”（372）与包括准备高尔夫挥杆的人300的捕获图像重叠。此后，类似地，在显示部分191上显示显示屏幕，其中定时器的计数值（例如，以一秒的间隔从17秒减小的值）与包括人300的捕获图像重叠。在观看以此方式在显示部分191上显示的显示屏幕的同时，人300进行高尔夫挥杆，使得在定时器的计数值变为“0”时的时间左右终止高尔夫挥杆。此外，在定时器的计数值是“0”的情况下，有效声音范围设置部分160设置有效声音范围。然后，在预定时间之后停止成像运动。将参照图7A、7B和7C详细描述有效声音范围的设置方法。

随着如上所述执行定时器设置，例如，即使在朋友没有执行拍摄的情况下，人300也可以容易地拍摄他自己的高尔夫挥杆的外观。

图7A、7B和7C是示意性图示根据本发明的第一实施例、通过有效声音范围设置部分160的有效声音范围的设置方法和通过合成目标图像选择范围确定部分171的合成目标图像选择范围的确定方法的图。这里，第一实施例提供其中基于由定时器设置部分150设置的定时器设置有效声音范围的示例。

图7A以矩形形状示意性图示由图像捕获部分111生成的运动图像380。以与图3B所示的示例类似的方式，运动图像380是通过由图像捕获装置100成像人300（例如，Koda Goro）的高尔夫练习挥杆的外观所获得的运动图像。例如，如图6A和6B所示，在人300（例如，Koda Goro）由他自己拍摄他的高尔夫练习挥杆的外观时，假设由定时器设置部分150设置的定时器的计数值是“0”。在此情况下，如上所述，有效声音范围设置部分160设置有效声音范围。

例如，假设由定时器设置部分150设置的定时器的计数值是“0”的位置是图7A所示的运动图像380的时间计数器“0”在时间轴上的位置（时间计数器“0”位置381）。在此情况下，有效声音范围设置部分160基于时间计数器“0”位置381设置有效声音范围382。具体地，有效声音范围设置部分160参照时间计数器“0”位置381，设置在时间轴上时间计数器“0”位置381前后的预定范围作为有效声音范围382。例如，有效声音范围设置部分160在时间轴上设置包括领先时间计数器“0”位置381时间L11的范围和超过时间计数器“0”位置381时间L12的范围的范围L13作为有效声音范围382。

这里，人300进行高尔夫挥杆以便在时间计数器“0”的定时终止该系列高尔夫挥杆运动可能是困难的。因此，在该示例中，生成撞击声音的瞬间可以对应于时间计数器“0”的位置，并且有效声音范围设为覆盖时间计数器“0”的位置前后的范围。以此方式，基于视频记录按钮的按压位置设置有效声音范围的情况和基于时间计数器“0”的位置设置有效声音范围的情况可以具有不同设置内容。随着根据多个拍摄触发特性设置有效声音范围，可能降低错误地检测不同于要检测的撞击声音的声音的风险。

在该方面，例如，时间L11可以是0.5秒，而时间L12可以是0.5秒。也就是说，例如，有效声音范围382的时间L13可以是1.0秒。在观看在显示部分191上显示的显示屏幕的同时，人300进行高尔夫挥杆，使得在定时器的计数值变为“0”时的时间附近终止高尔夫挥杆。为此，与基于按压视频记录按钮的位置设置有效声音范围的情况相比，可能降低精度。因此，基于定时器设置操作的有效声音范围可能比基于视频记录按钮按压操作的有效声音范围相对更宽。也就是说，基于视频记录按钮按压操作的有效声音范围可能比基于定时器设置操作的有效声音范围更短。基于以此方式在有效声音范围中检测到的撞击声音确定合成目标图像选择范围。将参照图7B描述合成目标图像选择范围的确定方法。此外，在以此方式没有在有效声音范围中检测到的撞击声音的情况下，基于时间计数器“0”位置381确定合成目标图像选择范围。将参照图7c描述合成目标图像选择范围的确定方法。

图7B示意性图示在由有效声音范围设置部分160设置的有效声音范围382中检测到撞击声音的情况下的合成目标图像选择范围的确定方法。在图7B中，其中由特定声音检测部分132检测到撞击声音的位置（时间轴上的位置）表示为撞击声音检测位置383。如图7B所示，在由有效声音范围设置部分160设置的有效声音范围382中检测到撞击声音的情况下，合成目标图像选择范围确定部分171基于撞击声音检测位置383确定合成目标图像选择范围。也就是说，合成目标图像选择范围确定部分171参照撞击声音检测位置383，确定在时间轴上撞击声音检测位置383前后的预定范围作为合成目标图像选择范围384。具体地，确定在时间轴上包括领先撞击声音检测位置383时间L14的范围和超过撞击声音检测位置383时间L15的范围的范围L16作为合成目标图像选择范围384。

这里，如上所述，在高尔夫球杆与高尔夫球接触之后的高尔夫挥杆期间的时间比高尔夫球杆与高尔夫球接触之前的时间短。因此，确定合成目标图像选择范围384，使得撞击声音检测位置383之前的时间L14比其后的时间L15长。例如，时间L14可以是1.5秒，而时间L15可以是0.5秒。以此方式，由于基于在有效声音范围中检测到的撞击声音确定合成目标图像选择范围，所以可以确定适当的合成目标图像选择范围。

假设在不同于由有效声音范围设置部分160设置的有效声音范围382的位置（例如，由图7B所示的箭头388和389指示的位置）中检测到撞击声音。以与图5B所示的示例类似的方式，在以此方式在不同于有效声音范围382的位置检测到撞击声音的情况下，撞击声音不用于合成目标图像选择范围的确定。在不使用撞击声音的情况下，如图7C所示，可以基于时间计数器“0”位置确定合成目标图像选择范围。此外，在不同于有效声音范围382的位置检测到撞击声音的情况下，撞击声音不用于合成目标图像选择范围的确定，但是可以用于下一个合成图像的生成处理。

图7C示意性图示在通过有效声音范围设置部分160设置的有效声音范围382中没有检测到撞击声音的情况下，合成目标图像选择范围的确定方法。在图7C中，以与图7A的情况类似的方式，其中由定时器设置部分150设置的定时器的计数值的为“0”的位置表示为时间计数器“0”位置381。如图7C所示，在有效声音范围382中没有检测到撞击声音的情况下，合成目标图像选择范围确定部分171基于时间计数器“0”位置381确定合成目标图像选择范围。也就是说，合成目标图像选择范围确定部分171参照时间计数器“0”位置381，确定时间轴上在时间计数器“0”位置381前后的预定范围作为合成目标图像选择范围385。具体地，有效声音范围设置部分160设置范围L19作为合成目标图像选择范围385，范围L19包括时间轴上领先时间计数器“0”位置381时间L17的范围和超过时间计数器“0”位置381时间L18的范围。

这里，在观看显示部分191上显示的显示屏幕的同时，人300进行高尔夫挥杆，使得在定时器的计数值变为“0”时的时间左右终止高尔夫挥杆。为此，如图5C所示，与基于按压视频记录按钮的位置确定合成目标图像选择范围的情况相比，可能降低精度。因此，在有效声音范围382中没有检测到有效声音的情况下，考虑时间轴上定时器的计数值是“0”的位置（时间计数器“0”位置381）作为撞击声音检测位置，以便确定合成目标图像选择范围385。

此外，时间L17和L18对应于图7B所示的时间L14和L15。此外，例如，以类似于图7B的示例的方式，时间L17是1.5秒，而时间L18是0.5秒。如上所述，在基于定时器的计数值是“0”的位置确定合成目标图像选择范围的情况下，基于由于用户的感觉的动作确定合成目标图像选择范围。为此，与图7B所示的合成目标图像选择范围384相比，可能降低精度。因此，在基于定时器的计数值是“0”的位置确定合成目标图像选择范围的情况下，例如，时间L19可以比时间L16更长，以便确定合成目标图像选择范围。

此外，各个时间L11到L19可以通过用户操作改变。

[合成图像的生成示例]

接下来，将参照附图详细描述使用确定的合成目标图像选择范围中包括的每个帧生成合成图像的示例。在本发明的第一实施例中，将描述生成静态图像的合成图像的情况作为示例。

图8A、8B、8C和8D是示意性图示根据本发明的第一实施例、通过选择部分170的合成目标图像的选择处理和通过层处理部分180的合成图像的生成处理的流程的示例的图。

图8A示意性图示由图像捕获部分111生成的运动图像400和在运动图像400中由合成目标图像选择范围确定部分171确定的合成目标图像选择范围401。运动图像400是以与图3B等所示的示例类似的方式，通过由图像捕获装置100成像人的高尔夫练习挥杆的外观所获得的运动图像。此外，假设合成目标图像选择范围401是以与图5B和5C以及图7B和7C所示的示例类似的方式，由合成目标图像选择范围确定部分171确定的合成目标图像选择范围。

图8B示意性图示运动图像400中的合成目标图像选择范围401中包括的各个帧。在图8B中，以矩形形状示出合成目标图像选择范围401中包括的各个帧。这里，以矩形形状给出指示各个帧的F1到F90。

合成目标图像选择部分172基于预定条件从合成目标图像选择范围401中包括的各个帧中选择合成目标图像。例如，合成目标图像选择部分172在帧F1到F90中选择处于预定间隔（例如，10帧间隔）的帧作为合成目标图像。在此情况下，例如，包括在检测到撞击声音的位置周围的预定范围（例如，0.05秒）内的各帧的间隔可以比要选择的其它间隔更紧密。因此，可以使用在要观察的运动转变周围选择的图像生成合成图像。在图8C是示出以此方式选择的合成目标图像。在该示例中，为了描述的简化，以相对少量帧为示例。

图8C示意性图示从合成目标图像选择范围401中包括的各个帧中选择作为合成目标图像的多个合成目标图像（帧F0、F10等）。在图8C中，以矩形形状示出合成目标图像。这里，以矩形形状给出指示每个合成目标图像的F0、F10等。在该示例中，为了描述的简化，以相对少量帧（例如，10帧）为示例。

图8D示意性图示由合成目标图像（多个帧F0、F10等）生成的合成图像402。在图8D中，以矩形形状示出合成目标图像。这里，以矩形形状给出指示每个合成目标图像的F0、F10等。

层处理部分180通过修改处理合成由合成目标图像选择部分172选择的合成目标图像（帧F0、F10等），从而生成合成图像。例如，层处理部分180对于由合成目标图像选择范围确定部分171选择的10个合成目标图像执行用于合成的修改处理（例如，相对端的剪切），从而以时间序列方式合成修改之后的合成目标图像。例如，层处理部分180从左上端部分起以时间序列方式合成要排列的5个合成目标图像（F0、F10、F20、F30和F40），并且从左下端部分起以时间序列方式合成要排列的5个合成目标图像（F50、F60、F70、F80和F90）。基于由坐标计算部分173的计算结果确定合成目标图像的合成位置。因此，如图4B所示，生成指示练习高尔夫挥杆的人的运动转变的合成图像。

在图8A、8B、8C和8D中，已经描述了其中容易执行图像合成的示例（其中在合成目标图像的相对端的剪切之后执行图像合成）。下文中，将描述其中合成目标图像分为目标图像层和背景层以生成合成图像的示例。

[合成目标图像的层分离示例]

图9A和9B是示意性图示根据本发明的第一实施例、通过层分离部分181的合成目标图像的分离方法的图。在该示例中，基于由对象信息生成部分120生成的对象信息，将由合成目标图像选择部分172选择的合成目标图像分为两层。

图9A图示合成目标图像410和为合成目标图像410生成的对象信息412。合成目标图像410是包括人411的图像。此外，作为由对象信息生成部分120生成的对象信息，例如，生成指示“1”给到对应于目标对象区域的像素并且“0”给到对应于不同于目标对象的区域（例如，背景区域）的像素的信息。在图9A中，对应于人411的区域（目标对象区域）是白色区域413，并且不同于人411的区域（背景区域）是黑色区域，从而示意性图示对象信息412。

如上所述，在捕获图像保持部分115中，顺序保持由图像捕获部分111生成的捕获图像，并且与捕获图像相关地存储由对象信息生成部分120生成的对象信息。此外，合成目标图像选择部分172输出选择的合成目标图像和为合成目标图像生成的对象信息到层分离部分181。然后，层分离部分181使用相应的目标信息，将从合成目标图像选择部分172输出的合成目标图像分为两层。

图9B图示由层分离部分181分离的目标对象层420和背景层422。目标对象层420通过在图9A所示的合成目标图像410中提取目标对象区域（也就是说，给出“1”作为目标信息412的像素区域）所获得的图像。也就是说，提取合成目标图像410中包括的对应于人411的区域421。此外，背景层422是通过在图9A所示的合成目标图像410中提取背景区域（也就是说，给出“0”作为目标信息412的像素区域）所获得的图像。也就是说，提取对应于不同于合成目标图像410中包括的人411的区域（背景区域）的区域（不同于区域423的区域）。

对于以此方式分离的各个层图像，通过层修改部分182执行多种修改处理。将参照图10A到10C详细描述该修改示例。

[合成目标图像的修改示例]

图10A、10B和10C是示意性图示根据本发明的第一实施例、作为通过层修改部分182的修改处理的目标的图像和通过层修改装置182修改的图像的图。这里，将描述为以站立姿势执行的运动（如高尔夫）生成合成图像的情况作为示例。此外，在图10A、10B和10C中，为了描述的简化，示出使用层分离之前的状态的合成目标图像执行修改处理的情况作为示例。

图10A图示依靠层修改部分182的修改之前的合成目标图像430。此外，图10B和10C图示依靠层修改部分182的修改之后的合成目标图像432和433。进行高尔夫挥杆的人431包括在合成目标图像430、432和433中。

图10A所示的合成目标图像430例如具有宽度W1和高度H1的图像尺寸。合成目标图像430的图像尺寸例如可以是VGA尺寸（640像素×480像素）。也就是说，宽度W1可以是640，而高度H1可以是480。

图10B所示的合成目标图像432是对应于图10A所示的合成目标图像430中的转变运动有效区域的图像，并且例如，具有宽度W2和高度H2的图像尺寸。这里，转变运动有效区域是用于从修改之前的合成目标图像中包括的对象剪切目标对象的区域。例如，合成目标图像432的图像尺寸可以是320像素×480像素。也就是说，宽度W2可以是320，而高度H2可以是480。

图10C所示的合成目标图像433是对应于图10A所示的合成目标图像430中的剩余背景区域的图像，并且例如，具有宽度W3和高度H3的图像尺寸。剩余背景区域是用作合成处理中的背景图像的区域。例如，合成目标图像433的图像尺寸可以是160像素×480像素。也就是说，宽度W3可以是160，而高度H3可以是480。

假设转变运动有效区域和剩余背景区域之间的中心位置和合成目标图像的中心位置重合。此外，转变运动有效区域的尺寸（W2×H2）和剩余背景区域的尺寸（W3×H3）可以根据目标对象的转变方向在它们的尺寸上相同（宽度和高度的至少一个）。例如，目标对象的转变方向是其中当图像表示为运动转变图像时图像以时间方式进行的方向。

例如，在对于以站立姿势执行的运动（如高尔夫）的运动转变生成合成图像的情况下，如图4B所示，很可能在横向方向转变每个目标对象。为此，如图10B和10C所示，可能优选的是转变运动有效区域和剩余背景区域的高度H2和H3是与合成目标图像的高度H1相同的。另一方面，在对于在水平方向状态下执行的运动的运动转变生成合成图像的情况下，每个目标对象图像可以在纵向方向转变。在此情况下，可能优选的是转变运动有效区域和剩余背景区域的宽度W2和W3是与合成目标图像的宽度W1相同的。例如，在柔道中的场地工作变为目标对象的情况下，很可能在纵向方向执行运动转变。

图10A、10B和10C示出的这样的示例，其中优选的根据对象的尺寸或运动对于转变运动有效区域和剩余背景区域的宽度和高度执行适当的设置，以便剪切图像作为用于合成处理的图像。

[图像合成示例]

图11A和11B是示意性图示根据本发明的第一实施例、通过层合成部分183的合成方法的图。这里，本实施例提供这样的示例，其中对于以时间序列方式连续的两个合成目标图像执行合成处理。

图11A示意性图示通过层分离部分181分离和通过层修改部分182修改的合成目标图像（以时间序列方式连续的两个合成目标图像）。如上所述，合成目标图像通过层分离部分181分离为目标对象层和背景层。此外，层修改部分182对于通过层分离部分181分离的目标对象层和背景层执行修改处理。以此方式，随着对以时间序列方式连续的两个合成目标图像执行分离和修改，如图11A所示，生成四层（第一优先级图像441到第四优先级图像444）。

假设第一优先级图像441是时间轴上较晚进入的合成目标图像的目标对象层，并且第三优先级图像443是合成目标图像的背景层。此外，假设第二优先级图像442是时间轴上较早进入的合成目标图像的目标对象层，并且第四优先级图像444是合成目标图像的背景层。此外，在合成这些图像的情况下，执行合成使得覆盖具有较高优先级的图像。

图11B图示基于各个层图像的优先级生成的合成图像450。也就是说，层合成部分183基于优先级合成四层（第一优先级图像441到第四优先级图像444），从而生成合成图像450。合成图像450是通过合成第一优先级图像441中包括的人图像445和第二优先级图像442中包括的人图像446以覆盖在通过第三优先级图像443和第四优先级图像444合成的背景区域上所获得的图像。在此情况下，合成第三优先级图像443以覆盖在第四优先级图像444上。此外，合成第一优先级图像中包括的人图像445以覆盖在第二优先级图像442中包括的人图像446上。

如图12A和12B所示，在顺序合成三个或更多合成目标图像以生成合成图像的情况下，以时间序列方式顺序合成合成目标图像，从而生成合成图像。此外，在以时间序列方式连续的两个合成目标图像中，在时间轴上较早进入的合成目标图像保持在合成图像保持部分185中，直到较晚进入的合成目标图像的合成处理时间。

图12A和12B是示意性图示根据本发明的第一实施例、依靠层合成部分183的合成目标图像的合成方法的图。这里，示出直到生成图12B所示的合成图像460的合成目标图像的合成示例。

图12A图示在直到生成图12B所示的合成图像460的某一时间点的合成状态。例如，假设图12A所示的状态是在对合成对象图像462（2个层图像）执行合成处理时的时间点的状态。也就是说，图12A示出对应于合成目标图像462的转变运动有效区域E10，以及其中对于正好之前进入的合成目标图像463执行合成处理的合成图像461。在该示例中，紧接在合成目标之前的各个层图像保持在合成图像保持部分185中。

这里，在合成目标图像462的区域E11中，在邻近合成目标图像463和合成目标图像462之间不存在重叠区域。为此，在合成目标图像462与合成图像461合成的情况下，相对于合成目标图像462中的区域E11，合成目标图像462的转变运动有效区域的像素被合成为照原样作为新的合成图像覆盖在合成图像461上。

然而，合成目标图像462的区域E12重叠有邻近合成目标图像463的一部分。因此，如图11A和11B所示，各个层图像根据优先级在合成目标图像462的区域E12中合成。

也就是说，层合成部分183使用作为当前合成目标的合成目标图像462的各个层图像和合成图像保持部分185中保持的相邻合成目标图像463，根据对于区域E12的优先级合成各个层图像。通过这样的合成，从合成目标图像462和463生成区域E11+E12的合成图像。此外，层合成部分183合成以此方式生成的区域E11+E12的合成图像，以便与合成图像保持部分185中保持的合成图像（与邻近合成目标图像463合成的合成图像）覆盖。也就是说，层合成部分183执行粘贴通过这样的合成生成的区域E11+E12的合成图像到对应于合成图像保持部分185中保持的合成图像的区域E1上的处理。

此外，变为当前合成目标的合成目标图像462（两层图像）和通过当前合成处理生成的合成图像保持在合成图像保持部分185中，并且用于下一个合成处理。以此方式生成的合成图像的示例在图12B中示出。

以此方式，随着根据优先级合成各个层图像，相对于在合成处理中连续图像之间重叠的区域（例如，区域E12），可以生成合成图像而不损害一部分目标图像。因此，在使用多个合成目标图像生成合成图像的情况下，也可能生成能够适当地表现目标图像的运动的运动转变图像。

以此方式，由层合成部分183生成的合成图像460存储在合成图像存储部分200中。此外，例如，根据用户操作在显示部分191上显示合成图像460。此外，例如，只要通过层合成部分183生成合成图像，就可以在显示部分191上自动显示。图13图示以此方式生成的合成图像的示例。

[合成图像示例]

图13是图示根据本发明的第一实施例、通过层处理部分180生成的合成图像的示例的图。图13所示的合成图像470指示练习高尔夫挥杆的人的运动转变。在合成图像470中，由箭头471指示的区域是包括对应于生成撞击声音的位置的图像的区域。

[图像捕获装置的操作示例]

图14是图示根据本发明的第一实施例、通过图像捕获装置100的合成图像生成处理的处理过程的示例的流程图。

首先，确定是否进行合成图像记录模式的设置操作（步骤S901）。例如，确定是否执行合成图像记录模式的设置按钮或定时器设置按钮的按压操作。在没有执行合成图像记录模式的操作的设置的情况下（步骤S901），继续监控直到执行合成图像记录模式的操作的设置。在执行合成图像记录模式的设置操作的情况下（步骤S901），图像捕获部分111执行捕获图像的生成处理（步骤S902），并且生成的捕获图像保持在捕获图像保持部分115中（步骤S903）。也就是说，执行缓冲处理。步骤S902是权利要求中公开的成像过程的示例。

随后，确定是否执行视频记录按钮的按压操作（步骤S904）。在执行视频记录按钮的按压操作的情况下，有效声音范围设置部分160基于按压位置设置有效声音范围（步骤S905）。例如，如图5A所示，基于视频记录按钮按压位置351设置有效声音范围352。另一方面，在没有执行视频记录按钮的按压操作的情况下（步骤S904），确定由定时器设置部分设置的定时器的计数值是否是“0”（步骤S906）。在定时器的计数值是“0”的情况下（步骤S906），有效声音范围设置部分160基于定时器的计数值是“0”的位置设置有效声音范围（步骤S907）。例如，如图7A所示，基于时间计数器“0”位置381设置有效声音范围382。此外，在定时器的计数值不是“0”或者没有通过定时器设置部分150执行定时器设置的情况下（步骤S906），过程返回到步骤S902。步骤S904到S907代表权利要求中公开的确定范围设置步骤的示例。

接下来，执行缓冲终止处理（步骤S908），并且确定在设置的有效声音范围中是否检测到撞击声音（步骤S909）。在设置的有效声音范围中检测到撞击声音的情况下（步骤S909），合成目标图像选择范围确定部分171基于检测到撞击声音的位置确定合成目标图像选择范围（步骤S910）。例如，如图5C所示，基于撞击声音检测位置353确定合成目标图像选择范围355。此外，例如，如图7C所示，基于撞击声音检测位置353确定合成目标图像选择范围385。

此外，在设置的有效声音范围中没有检测到撞击声音的情况下（步骤S909），合成目标图像选择范围确定部分171基于当设置有效声音范围时作为参照的位置确定合成目标图像选择范围（步骤S911）。也就是说，在基于视频记录按钮的按压位置设置有效声音范围的情况下，基于按压位置确定合成目标图像选择范围。例如，如图5C所示，基于视频记录按钮按压位置351确定目标图像选择范围355。另一方面，在基于定时器的计数值是“0”的位置设置有效声音范围的情况下，基于该位置确定合成目标图像选择范围。例如，如图7C所示，基于时间计数器“0”位置381确定合成目标图像选择范围385。

随后，合成目标图像选择部分172从确定的合成目标图像选择范围中包括的各个图像选择合成目标图像（步骤S912）。然后，使用选择的合成目标图像执行合成图像的生成处理（步骤S913）。

接下来，确定是否执行合成图像记录模式的解除操作（步骤S194）。在不执行合成图像记录模式的解除操作的情况下，过程返回到步骤S902，并且顺序执行与下一个合成图像有关的图像合成处理。另一方面，在执行合成图像记录模式的解除操作的情况下（步骤S194），终止合成图像生成处理的操作。

以此方式，在本发明的第一实施例中，设置其中变为检测目标的撞击声音可能存在的时间跨度作为有效时间范围，因此可能减少不同于变为检测目标的撞击声音的声音的错误检测。因此，在生成使用导致撞击声音的极快运动（如高尔夫挥杆）作为目标的合成图像的情况下，可能用高精确度检测撞击声音的生成位置。此外，可能在强调撞击声音的精确生成位置周围的情况下生成合成图像，并且生成具有高可见度的合成图像。在此情况下，因为撞击声音的生成位置的检测不需要用户的手工工作，所以可能减少对于用户的不便。

此外，如上所述，可能根据在有效声音范围中是否检测到撞击声音，确定是否生成合成图像。

图15是图示根据本发明的第一实施例、通过图像捕获装置100的合成图像生成处理的处理过程的示例的流程图。该示例是图14所示的合成图像生成处理的处理过程的修改示例，其中省略了步骤S911。因此，相同的参考标号给到如图14所示的相同处理步骤，并且将省略其描述。

确定在步骤S905或S907中设置的有效声音范围中是否检测到撞击声音（步骤S909）。在设置的有效声音范围中没有检测到撞击声音的情况下（步骤S909），过程进到步骤S914。也就是说，在设置的有效声音范围中没有检测到撞击声音的情况下，使用下一个视频记录按钮的按压位置或定时器的计数值为“0”的位置执行合成图像的生成处理，而不生成合成图像。也就是说，在有效声音范围中检测到撞击声音的情况下，选择部分170执行控制使得在层处理部分180中使用特定声音生成合成图像，并且在有效声音范围中没有检测到撞击声音的情况下，执行控制使得在层处理部分180中不生成合成图像。步骤S909、S910、S912和S913是权利要求中公开的控制步骤的示例。

以此方式，在有效声音范围中不能检测到撞击声音的情况下，通过返回到下一个可拍摄状态而不生成合成图像，可能减少用于拍摄机会的损失。此外，因为可以使用精确的撞击声音生成合成图像，所以可能生成适当的合成图像。

随着以此方式生成合成图像，即使不习惯于图像捕获装置的操作的初学者也可以容易地生成适当的合成图像。

在通过图像捕获部分111生成的捕获图像记录为图像内容（例如，运动图像文件或连续静态图像文件）的情况下，撞击声音检测位置可以记录为帧的元数据。因此，例如，在显示图像内容的列表的情况下，对应于撞击声音检测位置的帧可以用作代表性缩略图。

2.第二实施例

在本发明的第一实施例中，已经通过示例描述了图像捕获装置和目标对象（练习高尔夫挥杆的人）之间的距离相对短的情况。然而，图像捕获装置可能位于距目标对象的距离相对长的位置，并且可以依靠图像捕获装置的变焦功能拍摄目标对象。在这种图像捕获装置和目标对象之间的距离相对长的情况下，直到撞击声音到达图像捕获装置的时间根据距离的长度变长。在此情况下，在生成撞击声音的时间和撞击声音到达图像捕获装置的时间之间出现延迟。因此，本发明的第二实施例提供这样示例，其中在图像捕获装置和目标对象之间的距离相对长的情况下，根据距离的长度校正时间轴上撞击声音的检测位置。

图16A和16B是图示根据本发明的第二实施例、图像捕获装置500和目标对象之间的距离以及撞击声音的生成位置和其到达位置之间的关系的图。图16A示意性图示图像捕获装置500和变为通过图像捕获装置500的图像捕获目标的人540之间的位置关系。这里，图像捕获装置500和人540之间的距离称为距离d。图像捕获装置500和人540之间的关系与如3A所示的示例大致相同，除了距离d是不同的，因此可以省略其描述。

图16B示意性图示形成由图17所示的图像捕获部分111生成的运动图像的各个图像和人540的运动转变之间的关系。图像组550代表在图16A所示的状态下人540的运动转变，其中在时间轴上排列形成图像组550的各个图像。图像组560代表形成在图16A所示的状态下由图像捕获部分111生成的运动图像的各个图像，其中在时间轴上排列形成图像组560的各个图像。这里，通过人540的高尔夫挥杆生成撞击声音的位置（时间轴上的位置）表示为撞击声音生成位置555。

在这方面，空气中的音速为大约340米/秒。因此，在图像捕获装置500和人540之间的距离d相对长的情况下，直到撞击声音到达图像捕获装置500的时间变长，因此在生成撞击声音的时间和撞击声音输入图像捕获装置500的时间之间出现延迟。

例如，假设在形成图16B所示的图像组550的各图像中的图像551的位置是撞击声音生成位置555。在此情况下，例如，在距离d相对短（例如几米）的情况下，如由箭头552所指示的，对应于生成撞击声音的位置的图像551和当撞击声音输入图像捕获装置500时生成的图像561近似相互相同。另一方面，在距离d相对长（例如，340米或更长）的情况下，如由箭头553所指示的，对应于生成撞击声音的位置的图像551和当撞击声音输入图像捕获装置500时生成的图像562相互不同，从而导致延迟。在这方面，即使在距离d相对长的情况下，可能以与距离d相对短的情况下近似相同的视角观看在显示部分191上显示的显示屏幕上的图像。为此，可能难以通过用户的手动操作校正撞击时间的延迟。因此，下文中，示出了其中根据图像捕获装置和目标对象之间的距离校正生成的撞击声音的延迟的示例。

[图像捕获装置的配置示例]

图17是图示根据本发明的第二实施例的图像捕获装置500的功能配置的示例的框图。图像捕获装置500不同于图1所示的图像捕获装置100在于添加了对象距离计算部分510，并且安装选择部分520代替选择部分170。除了这些组件外的配置与图像捕获装置100中大致相同。因此，相同的参考标号给予共同组件，并且将省略这部分的描述。

对象距离计算部分510计算与由图像捕获部分111生成的捕获图像中包括的对象的距离（对象距离），并且将计算的对象距离输出到选择部分520。例如，对象距离计算部分510检测由图像捕获部分111生成的捕获图像中包括的人的面部，并且使用检测到的面部和生成捕获图像时的成像信息（例如，每个镜头的位置和聚焦位置）计算目标对象的对象距离。例如，通过模板和内容图像的匹配的面部检测方法（例如，见日本未审专利申请公开No.2004-133637）可以用作捕获图像中包括的面部的检测方法，在所述模板中记录面部的亮度分布信息。此外，可以使用基于捕获图像中包括的肤色部分或人面部的特征量的面部检测方法。通过这样的面部检测方法，可以计算捕获图像中的人的面部的位置和大小。

选择部分520基于从对象距离计算部分510输出的对象距离估计撞击声音的延迟时间，并且考虑延迟时间选择合成目标图像。具体地，选择部分520的合成目标图像选择范围确定部分171（图2中示出）基于从对象距离计算部分510输出的对象距离，校正由特定声音检测部分132检测到的特定声音的检测位置（时间轴上的位置）。此外，合成目标图像选择范围确定部分171基于校正之后的位置（校正的位置）和由有效声音范围设置部分160设置的有效声音范围，确定合成目标图像选择范围。选择部分520是权利要求中公开的控制部分的示例。此外，合成目标图像选择范围确定部分171是权利要求中公开的延迟时间计算部分的示例。

[对象距离的计算配置]

接下来，将参照附图详细描述用于计算图像捕获装置500和目标对象之间的距离的距离计算方法。这里，将描述用于使用普通人面部的大小（参考值）估计图像捕获装置500和面部之间的距离的距离计算方法。

图18A和18B是示意性图示根据本发明的第二实施例、作为通过图像捕获部分111的图像捕获目标的图像捕获范围和在显示部分191上显示的捕获图像的图。图18A是示意性图示以高尔夫球场为背景成像人571的情况下的图像捕获范围570的图，并且图18B是示意性图示对应于图18A所示的图像捕获范围570的捕获图像575的显示部分191的显示示例的图。

例如，如图18A所示，在以高尔夫球场为背景成像人571作为对象的情况下，根据图像捕获装置500的位置、变焦镜头的位置等确定其中成像人571的范围（图像捕获范围570）。此外，如图18B所示，从图像捕获范围570中包括的对象入射的光通过图像捕获部分111转换为捕获图像，并且在显示部分191上显示捕获图像（所谓通过图像）。

这里，在图18A所示的图像捕获范围570中，在左边和右边方向上图像捕获装置500的宽度表示为图像捕获范围宽度Wa，并且在左边和右边方向上图像捕获范围570中包括的人570的面部572的宽度表示为面部宽度Wref。面部宽度Wref对应于普通人面部的大小，而不是人571的实际面部宽度。此外，图18B所示的捕获图像575的左边和右边方向上的宽度表示为图像宽度Ww，并且左边和右边方向上捕获图像575中包括的人576的面部577的宽度表示为面部图像宽度Wf。在此情况下，图像捕获范围宽度Wa与面部宽度Wref的比率通常和图像宽度Ww与面部图像宽度Wf的比率相同。

图19是示意性图示根据本发明的第二实施例、作为通过图像捕获部分111的图像捕获目标的图像捕获范围和在显示部分上191显示的捕获图像之间的位置关系的顶视图。在图19所示的示例中，示意性示出图18A所示的人571与图像捕获装置500中提供的图像捕获元件112和显示部分191之间的位置关系。如图19所示，从图像捕获装置500到面部572的距离表示为对象距离Df；图像捕获装置500中的焦距表示为焦距f；并且图像捕获元件112的宽度表示为图像捕获元件宽度Wi。图像捕获范围宽度Wa和面部宽度Wref与图18A所示的那些相同。

如图19所示，如果从图像捕获范围570中包括的对象入射的光进入图像捕获元件112，则生成对应于图像捕获范围570中包括的对象的捕获图像，然后在显示部分191上显示生成的捕获图像575。此外，在从人571的面部572入射的光进入图像捕获元件112的情况下在图像捕获元件112上的面部宽度是在图像捕获元件上的面部宽度Wb。

这里，从具有平行线的比例关系建立以下两个等式。

Df/Wref=f/Wb 等式1

Wf/Ww=Wb/Wi 等式2

这里，等式1变为Df=f×Wref/Wb，并且等式2变为Wb=Wf×Wi/Ww。然后，将通过变化等式2获得的Wb=Wf×Wi/Ww带入等式1，从而计算以下等式3。基于镜头的基本物理定律计算该等式3。

Df=Wref×(f/Wi)×(Ww/Wf) 等式3

这里，Wi（图像捕获元件宽度）和Ww（图像宽度）是常数，并且普通人面部的大小用作Wref。在此情况下，随着检测到Wf（面部图像宽度），可以使用等式3计算Df（到面部的估计距离）。

例如，如图18A所示，在一个人的面部572包括在图像捕获范围570的情况下，通过对象距离计算部分510从对应于图像捕获范围570的捕获图像575检测到面部577。以此方式，在检测到面部的情况下，对象距离计算部分510基于等式3使用检测到的面部的宽度（面部图像宽度）计算对象距离Df。

本发明的第二实施例提供了其中使用一个参考值作为普通人面部大小计算对象距离的示例。这里，变为图像捕获对象的人可能根据人的属性（例如，年龄和性别）具有不同面部大小。例如，在儿童面部与成人面部比较的情况下，面部大小可能相互不同。此外，在女性面部与男性面部比较的情况下，面部大小可能相互不同。因此，根据人的属性的多个参考值可以保持在对象距离计算部分510中。然后，对象距离计算部分510可以检测从捕获图像检测到的面部的属性，并且对象距离计算部分510可以使用根据属性的参考值计算距离d。为了检测属性，例如，可以使用由使用面部图像中两个点之间亮度的差别值的弱学习者（weak learner）检测各个属性的检测方法（例如，见日本未审专利申请公开No.2009-118009）。

[延迟时间的校正示例]

图20A和20B是示意性图示根据本发明的第二实施例、通过有效声音范围设置部分160的有效声音范围的设置方法和通过合成目标图像选择范围确定部分171的合成目标图像选择范围的确定方法的图。因为该示例是图5A和5B的修改示例，所以将省略共同组件部分的描述。

图20A以矩形形状示意性图示由图像捕获部分111生成的运动图像580。此外，假设按压视频记录按钮的位置是图20A所示的运动图像580的时间轴上视频记录按钮的按压位置（视频记录按钮按压位置581）。在此情况下，有效声音范围设置部分160基于视频记录按钮按压位置581设置有效声音范围582。具体地，有效声音范围设置部分160设置时间轴上领先视频记录按钮按压位置581时间L21的范围作为有效声音范围582。这里，例如，以类似于图5A所示的时间L1的方式，时间L21可以是1.0秒。此外，时间L21可以长于时间L1，并且可以根据由对象距离计算部分510计算的对象距离的大小改变。

图20B示意性图示在由有效声音范围设置部分160设置的有效声音范围582中检测到撞击声音的情况下的合成目标图像选择范围的确定方法。在图20B中，由特定声音检测部分132检测到的撞击声音的位置（时间轴上的位置）表示为撞击声音检测位置583。

在本发明的第二实施例中，在确定有效声音范围582中是否检测到撞击声音之前，合成目标图像选择范围确定部分171基于由对象距离计算部分510估计的对象距离d（米）估计声音的延迟时间。具体地，合成目标图像选择范围确定部分171基于由对象距离计算部分510估计的对象距离d（米）估计声音的延迟时间。如上所述，因为声音的速度是340（米/秒），可以使用以下等式4计算直到撞击声音到达图像捕获装置500的时间x（秒）。

x=d/340 等式4

合成目标图像选择范围确定部分171在时间轴上将撞击声音检测位置583移动使用等式4计算的时间x。移动之后的位置表示为校正位置584。

随后，合成目标图像选择范围确定部分171确定校正位置584是否包括在由有效声音范围设置部分160设置的有效声音范围582中。如图20B所示，在校正位置584包括在由有效声音范围设置部分160设置的有效声音范围582中的情况下，合成目标图像选择范围确定部分171基于校正位置584确定合成目标图像选择范围。也就是说，合成目标图像选择范围确定部分171参照校正位置584确定时间轴上校正位置584前后的预定范围作为合成面部图像选择范围585。具体地，合成目标图像选择范围确定部分171确定时间轴上包括领先校正位置584时间L22的范围和超过校正位置584时间L23的范围的范围L24作为合成目标图像选择范围585。

这里，时间L22到L24例如可以是与图5B所示的时间L2到L4相同的值。此外，时间L24可以长于时间L4，并且可以根据由基于由对象距离计算部分510计算的对象距离的大小改变。

此外，例如，在图像捕获装置500和人540之间的距离相对远的情况下，可以通过遥控器操作执行定时器设置。因此，在基于通过定时器设置部分150设置的定时器计数值设置有效声音范围，并且使用有效声音范围确定合成目标图像选择范围的情况下，类似地，可以估计声音的延迟时间并且可以基于延迟时间执行校正。

以此方式，即使在图像捕获装置500和人540之间的距离相对远的情况下，也校正撞击声音的检测位置，以便基于校正之后的位置确定合成目标图像选择范围。因此，可能确定合适的合成目标图像选择范围。

这里，校正位置可能不存在于由有效声音范围设置部分160设置的有效声音范围582中。在此情况下，以类似于图5C的示例的方式，不使用撞击声音。此外，在不使用撞击声音的情况下，如图5C所示，可以基于视频记录按钮的按压位置确定合成目标图像选择范围。

在图18A、18B和图19中，示出了使用人的面部的大小计算目标距离的示例，但是如图21所示，可以通过不同于面部的部分的大小计算对象距离。

[对象距离的计算示例]

图21是图示根据本发明的第二实施例的显示部分191中的显示示例的图。在图21所示的显示屏幕590中，显示用于将进行高尔夫挥杆的人591安排在合适的位置的操作支持图像592和593，以重叠在捕获图像上。该示例是图18A、18B和图19所示的对象距离的计算方法的修改示例，并且是其中基于由显示屏幕590中的对象占据的区域的大小（垂直方法的长度）计算对象距离的示例。

操作支持图像592和593表示其中要在显示屏幕590中安排进行高尔夫挥杆的人591的推荐区域。操作支持图像592由显示屏幕590中的黑线指示，并且表示在左边和右边方向上进行高尔夫挥杆的人591的推荐区域。此外，操作支持图像593由显示屏幕590中的虚线黑框指示，表示在上面和下面方向上进行高尔夫挥杆的人591的推荐区域。这里，由操作支持图像593指定的在上面和下面方向上的推荐区域可以是在垂直方向上显示屏幕590的长度的预定比率（例如，70%）的值H11。

例如，在使用图像捕获装置500通过设置合成图像记录模式执行拍摄的情况下，拍摄者确认显示屏幕590中包括的操作支持图像592和593，并且执行调整，使得目标对象的人包括在操作支持图像592和593中。此外，在执行变焦操作等的情况下，类似地，拍摄者执行调整，使得目标对象的人包括在操作支持图像592和593中。

以此方式，通过基于如上所述的与面部有关的参考值和捕获图像中包括的面部的大小应用用于计算对象距离的对象距离计算方法，可能计算对象距离。也就是说，因为在图21所示的示例中捕获图像中包括的人的大小可能是预定值H11，所以可以基于与打高尔夫的人的普通高度有关的参考值（例如，170cm）和预定值H11计算对象距离。

在图18A、18B、图19和图21所示的示例中，使用人的每个部分的大小计算对象距离，但是可以使用其它对象距离计算方法。例如，可以生成与捕获图像有关的深度图，并且可以使用该深度图来计算对象距离。此外，在图像捕获装置500中可以安装距离测量传感器，并且可以使用由距离测量传感器测量的对象距离。此外，可以使用聚焦位置信息计算对象距离。

此外，可以根据拍摄情况选择使用聚焦位置的对象距离计算方法和使用变焦位置信息的对象距离计算方法的任一用于使用。例如，在宽边缘的变焦位置形成聚焦的情况下，可能聚焦位置信息比变焦位置信息具有更高精度。为此，在宽边缘的变焦位置中形成聚焦的情况下，可以选择使用聚焦位置信息的对象距离计算方法。此外，可以通过特定方法估计对象距离，并且可以确定是否使用估计结果或参照估计结果通过其它方法来执行重新估计。

[图像捕获装置的操作示例]

图22是图示根据本发明的第二实施例、通过图像捕获装置500的合成图像生成处理的处理过程的示例的流程图。该示例是图14所示的合成图像生成处理的处理过程的修改示例，其中添加步骤S921并且执行步骤S922和S923的处理过程代替步骤S910。因此，相同的参考标号给到如图14所示的相同处理过程，并且将省略其描述。

在执行缓冲终止处理之后（步骤S908），对象距离计算部分510计算对象距离（步骤S921）。

此外，在设置的有效声音范围中检测到撞击声音的情况下（步骤S909），合成目标图像选择范围确定部分171基于计算的对象距离校正撞击声音检测位置（步骤S922）。具体地，合成目标图像选择范围确定部分171基于对象距离计算延迟时间，并且从计数器部分174提供的计数值减去计算的延迟时间以计算校正值。然后，合成目标图像选择范围确定部分171基于校正值指定撞击声音检测位置的校正之后的位置。例如，如图20B所示，将撞击声音检测位置583运动校正值x以计算校正位置584。

随后，合成目标图像选择范围确定部分171基于校正之后的位置（校正位置）确定合成目标图像选择范围（步骤S923）。例如，如图20B所示，基于校正位置584确定合成目标图像选择范围585。

以此方式，根据本发明的第二实施例，可能用高精度检测撞击声音的生成位置，而不依赖于由于变焦操作的图像捕获装置500和目标对象之间距离的改变。因此，可能生成具有高可见度的合成图像，而不依赖于由于变焦操作的图像捕获装置500和目标对象之间距离的改变。此外，因为不需要用户的手动工作，所以可能减少用户的不便。

此外，例如，在记录通过图像捕获部分111生成的捕获图像作为图像内容的情况下，当与图像内容相关地记录元数据时，可能记录校正之后的撞击声音检测位置。因此，因为在再现图像文件的情况下可以使用校正之后的撞击声音检测位置，所以可能检测撞击声音的正确生成位置。此外，例如，在显示图像内容的列表的情况下，对应于校正之后的撞击声音检测位置的帧可以用作代表性缩略图。

3.第三实施例

本发明的第一和第二实施例主要提供其中生成进行高尔夫挥杆的人的运动转变作为合成图像的示例。这里，例如，在不同于高尔夫的运动（如击球游戏或对象碰撞游戏）的情况下，在游戏者击球或对象相互碰撞时的瞬间生成特征声音。此外，例如，在焰火的情况下，在华丽地爆炸瞬间生成爆炸声音。由于使用这些特定声音确定合成目标图像选择范围，可以生成适当的合成图像。在这方面中，本发明的第三实施例提供了根据用户的偏好容易地生成这种合成图像的示例。

[图像捕获装置的配置示例]

图23是图示根据本发明的第三实施例的图像捕获装置600的功能配置的示例的框图。图像捕获装置600不同于图17所示的图像捕获装置500在于添加了目标对象信息存储部分610，并且修改了一部分的其它组件。也就是说，代替图像捕获装置500中的特定声音检测部分132、有效声音范围设置部分160和选择部分520，图像捕获装置600提供有特定声音检测部分620、有效声音范围设置部分630和选择部分640。不同于这些组件的配置与图像捕获装置500大致相同。因此，相同的参考标号给予共同组件，并且将省略这部分的描述。

下文中，将描述适于根据本发明的实施例的合成目标图像的选择处理的特定运动（例如，体育运动等）的条件（例如，第一条件和第二条件）的示例。第一条件是目标对象的身体部分贯穿整个运动基本存在于相同位置。此外，第二条件是在一系列运动中存在涉及撞击声音的快速运动。作为不同于高尔夫的满足这些条件的体育运动的示例，可以以棒球的击球、网球发球、破瓦等为示例。此外，可以以不同于体育运动的对象（如焰火）为示例。因此，本发明的第三实施例提供其中这种对象或体育运动变为目标对象的示例。

目标对象信息存储部分610存储关于特定声音的信息和相对于多种类型的目标对象的特定运动的有效声音范围，并且将各个存储的信息提供到特定声音检测部分620、有效声音范围设置部分630和选择部分640。将参照图24详细描述目标对象信息存储部分610的存储内容。目标对象信息存储部分610是权利要求中公开的存储部分的示例。

特定声音检测部分620基于从声音输入部分131输出的声音检测特定声音，并且在检测到特定声音的情况下输出该事实到选择部分640。此外，特定声音检测部分620检测与网球（发球）和破瓦有关的特定值或更高的声音。在这方面中，本发明的第三实施例提供这样的示例，其中处理与高尔夫挥杆有关的撞击声音外，图24中的撞击声音611中所示的每个撞击声音变为特定声音。例如，在棒球（击球）和网球（发球）中，在运动中球棒或球拍与球接触时的瞬间生成的声音变为撞击声音。此外，例如，在破瓦时，在手与瓦接触时的瞬间生成的声音变为撞击声音。此外，在焰火时，在焰火在空中爆炸时的瞬间生成的声音变为撞击声音。为了检测这些声音，可以使用根据本发明的第一实施例的特定声音检测方法。

此外，在多种类型的目标对象的特定运动中，特定声音检测部分620、有效声音范围设置部分630和选择部分640从目标对象信息存储部分610获取关于由用户操作指定的特定运动的目标对象信息。然后，特定声音检测部分620、有效声音范围设置部分630和选择部分640使用获取的目标对象信息执行各个处理。在这些各个处理中，该示例与本发明的第一和第二实施例中示出的示例大致相同，除了撞击声音的值和有效声音范围等不同，因此将省略其描述。有效声音范围设置部分630是权利要求中公开的确定范围设置部分的示例。此外，选择部分640是权利要求中公开的控制部分的示例。

[目标对象信息存储部分的存储示例]

图24是图示根据本发明的第三实施例的目标对象信息存储部分610的存储内容的示例的图。在目标对象信息存储部分610中存储撞击声音611、高速运动范围612、有效声音范围613和合成目标图像选择范围614。

用于通过特定声音检测部分620检测特定声音（撞击声音）的特定声音识别信息（参考数据）存储在撞击声音611中。图24所示的撞击声音611仅仅公开了指示相应的特定声音的词语。

在高速运动范围612中，存储合成目标图像选择范围中具有比用于合成目标图像的选择的其它间隔更紧密的间隔的范围。例如，在由于目标对象是棒球（击球）的特定运动的情况下，可能考虑精密地确认当棒球棒与球接触时的瞬间左右的运动转变。因此，在合成目标图像选择范围中，设置高速运动范围，其中该瞬间左右的图像的间隔可以比用于合成目标图像的选择的其它间隔更紧密。在该高速运动范围中，例如设置撞击声音周围的预定范围。

有效声音范围613存储通过有效声音范围设置部分630变为设置目标的有效声音范围。本发明的第三实施例提供其中视频记录按钮的按压操作用作拍摄触发的示例。以与本发明的第一和第二实施例所示示例类似的方式，在高尔夫和棒球（击球）时，可以在作为目标的运动终止之后生成拍摄触发。在焰火的情况下，可以在焰火在空中爆炸时的瞬间生成拍摄触发。此外，以与本发明的第一和第二实施例所示示例类似的方式，在高尔夫、棒球（击球）和焰火中，在拍摄触发之前的特定范围可以设为有效声音范围。

此外，在网球（发球）的情况下，可以在球员抬高（turn up）预定时间时的瞬间生成拍摄触发。在破瓦时，可以在破瓦的人的面部充满战斗精神时的瞬间生成拍摄触发。此外，在网球（发球）和破瓦时，从拍摄触发最初检测到特定值或更高的声音之前的特定范围可以设为有效声音范围。以此方式，在网球（发球）和破瓦的情况下，设置有效声音范围的后边缘对应于检测到特定值或更高的声音时的时间。然而，经过预定时间没有检测到声音的情况下，声音检测可能变为无效，然后可以设置新的有效声音范围。对于该新的有效声音范围，重新生成拍摄触发。因此，可能减少撞击声音的错误检测。在这方面中，通过特定声音检测部分620检测网球（发球）和破瓦时特定值或更高的声音。

在合成目标图像选择范围614中存储通过合成目标图像选择范围确定部分171确定的合成目标图像选择范围。本发明的第三实施例提供了这样的示例，其中参照在有效声音范围中检测到的撞击声音的特定范围设为合成目标图像选择范围。

[目标对象的指定屏幕的显示示例]

图25是图示根据本发明的第三实施例的显示部分191的显示示例（显示屏幕660）的图。显示屏幕660提供有高尔夫（挥杆）按钮661、棒球（击球）按钮662、网球（发球）按钮663、破瓦按钮664和焰火按钮665。此外，显示屏幕660提供有返回按钮666和确定按钮667。

按压高尔夫（挥杆）按钮661、棒球（击球）按钮662、网球（发球）按钮663、破瓦按钮664和焰火按钮665，以便指定当对于运动转变生成合成图像时作为目标的运动类型。例如，在由触摸面板制成显示部分191的情况下，可以通过希望按钮的按压操作执行指定。

按压确定按钮667以在用于指定作为合成图像的目标的运动类型的按压操作之后确定指定。通过该按压，设置合成目标图像记录模式。

按压返回按钮666以返回例如正好之前显示的显示屏幕。

例如，在显示屏幕660中，在按压希望的按钮（例如，网球（发球）按钮663）并且按压确定按钮667的情况下，指示该事实的操作信号从操作接收部分140输出到各个部分。然后，特定声音检测部分620、有效声音范围设置部分630和选择部分640从目标对象信息存储部分610获取指定的运动类型的目标对象信息（例如，关于网球（发球）的目标对象信息）。然后，特定声音检测部分620、有效声音范围设置部分630和选择部分640使用获取的目标对象信息执行各个处理。

[合成图像示例]

图26A和26B是图示根据本发明的第三实施例、通过层处理部分180生成的合成图像的示例的图。

图26A图示成像进行棒球击球的人的情况下的合成图像671。也就是说，合成图像671是使用通过在按压图25所示的棒球（击球）按钮662和按压确定按钮667之后开始的图像捕获操作所获得的运动图像生成的合成图像。

图26B图示成像进行网球发球的人的情况下的合成图像672。也就是说，合成图像672是使用通过在按压图25所示的网球（发球）按钮663和按压确定按钮667之后开始的图像捕获操作所获得的运动图像生成的合成图像。

以此方式，在不同于高尔夫挥杆的特定运动期间，其中变为检测目标的撞击声音可能存在的时间跨度设为有效声音范围，因此，可能减少不同于变为检测目标的撞击声音的声音的错误检测。因此，在使用导致撞击声音的极快运动作为目标生成合成图像的情况下，可能用高精确度检测撞击声音的生成位置。此外，可能在强调撞击声音的精确生成位置周围的情况下生成合成图像，并且生成具有高可视性的合成图像。在此情况下，因为撞击声音的生成位置的检测不需要用户的手工工作，所以可能减少对于用户的不便。随着以此方式生成合成图像，即使不习惯于图像捕获装置的操作的初学者也可以容易地根据用户的偏好生成适当的合成图像。

4.第四实施例

本发明的第一到第三实施例提供了这样的示例，其中通过图像捕获装置执行图像捕获操作，并且使用在图像捕获操作时生成的撞击声音生成合成图像。这里，在对于由图像捕获装置记录的内容（例如，运动图像内容）生成合成图像的情况下，可以使用内容中包括的撞击声音生成合成图像。此外，例如，在高尔夫比赛的情况下，可以生成不同于撞击声音的特征声音，如高尔夫挥杆之后的巨大欢呼。为此，可以使用特征声音作为触发代替视频记录按钮的按压操作或定时器设置来设置有效声音范围。因此，本发明的第四实施例提供了这样的示例，其中使用特征声音代替视频记录按钮的按压操作或定时器设置来设置有效声音范围，并且对于由图像捕获装置记录的运动图像内容生成合成图像。

[图像捕获装置的配置示例]

图27是图示根据本发明的第四实施例的图像捕获装置700的功能配置的示例的框图。图像处理装置700不同于图23所示的图像捕获装置600在于省略了声音输入部分161和定时器设置部分150，并且修改了一些其它组件。也就是说，图像处理装置700提供有目标对象信息存储部分710、输入部分720和对象信息生成部分730，代替图像捕获装置600中的目标对象信息存储部分610、图像捕获部分111和对象信息生成部分120。此外，图像捕获装置700提供有特定声音检测部分740、有效声音范围设置部分750和选择部分760，代替图像捕获装置600中的特定声音检测部分620、有效声音范围设置部分630和选择部分640。不同于这些组件的配置与图像捕获装置600大致相同。因此，相同的参考标号给予共同组件，并且将省略这部分的描述。

目标对象信息存储部分710存储关于特定声音或多种类型的目标对象的特定运动的有效声音范围的信息，并且将各个存储的信息提供到特定声音检测部分740、有效声音范围设置部分750和选择部分760。将参照图28详细描述目标对象信息存储部分710的存储内容。

输入部分720是这样的输入部分，通过其输入由如数字摄像机的图像捕获装置记录的图像内容（例如，运动图像文件）。假设图像内容是这样的内容，例如其中与运动图像的图像捕获操作时的各个帧有关的元数据（例如，声音信息、变焦信息或聚焦位置信息）或连续静态图像与各个帧相关地记录。输入部分720以预定间隔提供用于形成输入图像内容的各个图像（帧）到捕获图像保持部分115、显示控制部分190和特定声音检测部分740。此外，输入部分720输出用于形成输入图像内容的各个图像和关于图像的属性信息（例如，镜头位置和聚焦位置）到对象距离计算部分510和对象信息生成部分730。

对象信息生成部分730基于从输入部分720提供的各个图像和关于图像的属性信息生成关于各个图像的对象信息。此外，对象信息生成部分730将生成的对象信息提供到捕获图像保持部分115，以便将对象信息保持在其中，并且还提供对象信息到有效声音范围设置部分750和选择部分760。例如，作为对象信息，除了用于辨别目标对象的区域和其背景区域的信息外，生成用于检测各个图像之间时间轴上的特定变化的信息。例如，检测图像中包括的面部，并且生成关于面部的表情、方向等的属性信息。例如，可以检测如喜、怒、哀、乐表情、紧张、面部方向、嘴部表情（张开/闭上）、眼部表情（例如，眨眼）等的属性，并且可以基于检测结果生成属性信息。作为属性检测方法，例如，可以使用基于从与变为检测目标的属性有关的面部图像提取特征量的识别方法。也就是说，预先存储从与变为检测目标的属性有关的面部图像提取的特征量作为识别库。此外，从包括检测到的面部的面部图像提取特征量，并且将提取的特征量与识别库中包括的特征量进行比较，从而计算这些特征量之间的相似度。此外，在计算的相似度超过阈值的情况下，确定检测到的面部是对应于识别库的属性，其变为超过阈值的类似度的计算目标。此外，例如，可以使用上述属性检测方法（例如，参照日本未审专利申请公开No.2009-118009）。

有效声音范围设置部分750基于以此方式生成的属性信息，检测各个图像之间时间轴上的特定改变。作为该特定改变，例如，可以检测到面部改变。例如，在喜、怒、哀、乐或紧张时表情的改变、面部方向的改变（例如，在面部方向从向下改变为前方的情况下）、在张开或闭上嘴部时的改变、或者在眨眼时眼睛的改变可以检测为面部改变。此外，人的面部出现在屏幕或人的面部离开屏幕的情况可以检测为各个图像之间时间轴上的特定改变。此外，作为用于检测各个图像之间时间轴上的特定改变的信息，可以生成指示整个图像的亮度的亮度信息和指示图像中照度值的分布状态的照度值分布信息。然后，可以检测信息中的特定改变作为各个图像之间时间轴上的特定改变。

特定声音检测部分740基于从输入部分720提供的图像内容中包括的声音检测特定声音，然后在检测到特定声音的情况下将该事实输出到有效声音范围设置部分750和选择部分760。通过特定声音检测部分740变为检测目标的撞击声音与本发明的第三实施例中的相同。此外，在本发明的第四实施例中，当检测到各个图像之间时间轴上的特定改变时，使用由特定声音检测部分740检测到的特定声音。例如，在举行高尔夫或棒球比赛的情况下的观众的巨大欢呼（疯狂鼓掌），或在战斗精神投入到破瓦时的瞬间的呼喊检测为特定声音。此外，例如，吹笛人的吹笛生或水的飞溅声（例如，在目标对象与水有关的情况下）可以检测为特定声音。此外，有效声音范围设置部分750检测特定声音中的改变作为各个图像之间时间轴上的特定改变。例如，当从几乎不存在声音的状态检测到巨大欢呼的时间，或者从检测到巨大欢呼的状态到几乎不存在声音的时间可以检测为各个图像之间时间轴上的特定改变。作为特定声音检测方法，可以使用本发明第一实施例中示出的特定声音检测方法。也就是说，有效声音范围设置部分750可以使用从各个图像提取的特征量和基于与各个图像有关的声音提取的特征量的至少一个检测特定声音。有效声音范围设置部分750是权利要求中公开的特定改变检测部分的示例。

特定声音检测部分740、有效声音范围设置部分750和选择部分760从目标对象信息存储部分710获取关于多种类型的目标对象的特定运动中由用户操作指定的特定运动的目标对象信息。此外，特定声音检测部分740、有效声音范围设置部分750和选择部分760使用获取的目标对象信息执行各个处理。各个处理与本发明的第一到第三实施例中所示的示例大致相同，除了设置撞击声音时的触发、撞击声音、有效声音范围的值等不同，因此，将省略其描述。有效声音范围设置部分750是权利要求中公开的确定范围设置部分的示例。此外，选择部分760是权利要求中公开的控制部分的示例。

[目标对象信息存储部分的存储示例]

图28是图示根据本发明的第四实施例的目标对象信息存储部分710的存储内容的示例的图。在目标对象信息存储部分710中存储撞击声音711、高速运动范围712、用于确定有效声音范围的触发713、有效声音范围714和合成目标图像选择范围715。撞击声音711、高速运动范围712和合成目标图像选择范围715与图24所示的撞击声音611、高速运动范围612和合成目标图像选择范围614大致相同，因此，将省略其描述。

用于确定有效声音范围的触发713存储当由有效声音范围设置部分750设置有效声音范围时的触发。例如，在高尔夫和棒球（击球）的情况下，触发可以是在从输入部分720输入的内容中检测到观众的巨大欢呼时的瞬间生成。基于由特定声音检测部分740检测到的特定声音，由有效声音范围设置部分750执行观众的巨大欢呼的检测。此外，在焰火的情况下，可以在屏幕中的黑暗状态转变为从输入部分720输入的内容中的明亮状态时的瞬间生成触发。基于由对象信息生成部分730生成的属性信息，通过有效声音范围设置部分750执行当屏幕中的黑暗状态转变为明亮状态时的瞬间的检测。此外，在网球（发球）的情况下，可以在从输入部分720输入的内容中球员抬高预定时间时的瞬间生成触发。基于由对象信息生成部分730生成的属性信息，通过有效声音范围设置部分750执行球员抬高预定时间时的瞬间的检测。此外，在破瓦的情况下，可以在从输入部分720输入的内容中执行破瓦的人的面部充满战斗精神时的瞬间生成触发。基于由对象信息生成部分730生成的属性信息或者由特定声音检测部分740检测到的特定声音，通过有效声音范围设置部分750执行当执行破瓦的人的面部充满战斗精神时的瞬间的检测。

有效声音范围714存储通过有效声音范围设置部分750变为设置目标的有效声音范围。本发明的第四实施例提供这样的示例，其中用于确定有效时间范围的触发713中存储的特定改变的检测时间是有效声音范围的触发。该有效声音范围与图24所示的有效声音范围613大致相同，除了用于确定有效时间范围的触发713中存储的特定改变的检测时间是有效声音范围的触发，因此，将省略其描述。

[合成目标图像的选择范围的确定示例]

图29A和29B是示意性图示根据本发明的第四实施例、通过有效声音范围设置部分750的有效声音范围的设置方法和通过合成目标图像选择范围确定部分171的合成目标图像选择范围的确定方法的图。这是在指定图28所示的棒球（击球）的情况下，确定合成目标图像选择范围的示例。此外，该示例是图5A和5B中的修改示例，因此，将省略一部分共同组件的描述。

图29A以矩形形状示意性图示通过输入部分720输入的运动图像800。例如，运动图像800是其中记录棒球比赛的外观的运动图像。此外，在用于形成运动图像800的各个图像中，由特定声音检测部分740检测到的观众的巨大欢呼的位置表示为图29A所示的运动图像800的时间轴上的巨大欢呼检测位置801。在此情况下，有效声音范围设置部分750基于巨大欢呼检测位置801设置有效声音范围802。具体地，有效声音范围设置部分750设置时间轴上领先巨大欢呼检测位置801时间L31的范围作为有效声音范围802。这里，例如，以与图5A所示的时间L1类似的方式，时间L3可以是1.0秒。此外，时间L31可以长于时间L1。

例如，考虑当球员在高尔夫锦标赛中打出漂亮一杆时的撞击声音的生成位置出现在观众的巨大欢呼之前。因此，有效声音范围设置在观众的具有欢呼之前（在时间轴上的领先位置），从而可能适当地检测撞击声音。

图29B示意性图示在通过有效声音范围设置部分750设置的有效声音范围802中检测到撞击声音的情况下的合成目标图像选择范围的确定方法。在图29B中，通过特定声音检测部分740检测到撞击声音的位置（时间轴上的位置）表示为撞击声音检测位置803。

例如，合成目标图像选择范围确定部分171确定撞击声音检测位置803是否包括在由有效声音范围设置部分750设置的有效声音范围802中。如图29B所示，在撞击声音检测位置803包括在有效声音范围802中的情况下，合成目标图像选择范围确定部分171基于撞击声音检测位置803确定合成目标图像选择范围。也就是说，合成目标图像选择范围确定部分171参照撞击声音检测位置803，确定时间轴上撞击声音检测位置803前后的特定范围作为合成目标图像选择范围804。具体地，包括在时间轴上领先撞击声音检测位置803时间L32的范围和超过撞击声音检测位置803时间L33的范围的范围L34确定为合成目标图像选择范围804。

这里，时间L32到L34例如可以是与图5B所示的时间L2到L4相同的值。此外，时间L34可以长于时间L4。

图30A和30B是示意性图示根据本发明的第四实施例、通过有效声音范围设置部分175的有效声音范围的设置方法和通过合成目标图像选择范围确定部分171的合成目标图像选择范围的确定方法的图。这是在指定图28中的网球（发球）的情况下确定合成目标图像选择范围的示例。此外，该示例是图5A和5B所示的修改示例，因此，将省略一部分共同组件的描述。

图30A以矩形形状示意性图示通过输入部分720输入的运动图像810。例如，运动图像810是其中记录网球比赛的外观的运动图像。此外，在用于形成运动图像810的各个图像中，由对象信息生成部分730检测到网球球员的面部抬高预定时间或更长的位置表示为时间轴上运动图像810的面部抬高状态检测位置811。此外，由特定声音检测部分740检测到特定值或更高的声音的位置（时间轴上的位置）表示为特定值或更高的声音检测位置812。在此情况下，有效声音范围设置部分750基于面部抬高状态检测位置811和特定值或更高的声音检测位置812设置有效声音范围813。具体地，有效声音范围设置部分750参照面部抬高状态检测位置811和特定值或更高的声音检测位置812，设置时间轴上的有效声音范围813（时间L41）。这里，时间L41例如是面部抬高状态检测位置811是起点并且特定值或更高的声音检测位置812是终点的范围。

在这方面中，在与网球（发球）有关的有效声音范围的终点，特定值或更高的声音的检测是设置条件。这里，在对于预定时间或更长从有效声音范围的期间没有检测到特定值或更高的声音的情况下，有效声音范围设置部分750使得关于起点的有效声音范围无效，并且可以等待用于确定有效声音范围的新的触发。因此，可以减少撞击声音的错误检测。此外，与破瓦有关的有效声音范围的终点可以类似地应用。

图30B示意性图示在由有效声音范围设置部分750设置的有效声音范围813中检测到撞击声音的情况下合成目标图像选择范围的确定方法。在图30B中，由特定声音检测部分740检测到撞击声音的位置（时间轴上的位置）表示为撞击声音检测位置814。

例如，合成目标图像选择范围确定部分171确定撞击声音检测位置814是否包括在由有效声音范围设置部分750设置的有效声音范围813中。如图30B所示，在撞击声音检测位置814包括在有效声音范围813中的情况下，合成目标图像选择范围确定部分171基于撞击声音检测位置814确定合成目标图像选择范围。也就是说，合成目标图像选择范围确定部分171参照撞击声音检测位置814，确定时间轴上撞击声音检测位置814前后的特定范围作为合成目标图像选择范围815。具体地，包括在时间轴上领先撞击声音检测位置814时间L42的范围和超过撞击声音检测位置814时间L43的范围的范围L44确定为合成目标图像选择范围815。

这里，如图28所示，时间L42例如可以是2.5秒；并且时间L43例如可以是0.5秒。也就是说，时间L44可以是3.0秒。时间L42到L44的设置内容可以根据用户的偏好改变。

此外，在图29A、29B和图30A和30B所示的示例中，如本发明的第二实施例所示，在有效声音范围中是否检测到撞击声音的确定之前，可以估计声音的延迟时间，并且可以基于估计结果校正撞击声音检测位置。以此方式，校正撞击声音的检测位置，从而使得可能基于校正之后的位置确定合成目标图像选择范围。此外，在作为有效声音范围的触发的特定声音（例如，观众的巨大欢呼）中，可以估计声音延迟时间，并且可以基于估计结果校正检测位置。例如，在特定声音是观众的巨大欢呼的情况下，使用与各个帧有关的元数据（例如，变焦信息或聚焦位置信息）计算到目标对象的背景的对象距离，并且可以基于对象距离估计观众的巨大欢呼的延迟时间。因此，即使在目标对象相对远的运动图像内容通过变焦功能变为图像捕获目标时，也可以确定适当的合成目标图像选择范围。

此外，在图29A、29B和图30A和30B所示的示例中，可能在由有效声音范围设置部分750设置的有效声音范围中没有检测到撞击声音。在此情况下，不使用撞击声音生成合成图像，并且可以执行下一个合成图像处理。

以此方式，对于由如数字摄像机等的图像捕获装置记录的图像内容，可以使用各个图像之间时间轴上的特定改变设置有效声音范围。因此，在生成导致撞击声音的极快运动作为目标的合成图像的情况下，可能用高精确度检测撞击声音的生成位置。此外，可能在强调撞击声音的精确生成位置周围的情况下生成合成图像，并且生成具有高可见度的合成图像。此外，因为撞击声音的生成位置的检测也不需要用户的手工工作，所以可能减少对于用户的不便。随着以此方式生成合成图像，即使不习惯于图像捕获装置的操作的初学者也可以根据用户的偏好容易地生成适当的合成图像。

用于使用各个图像之间的时间轴上的特定改变设置有效声音范围的设置方法可以用于本发明的第一到第三实施例中示出的图像捕获装置。

此外，在本发明的实施例中，由合成目标图像选择部分172选择的合成目标图像可以用于作为静态图像的合成图像的生成合理。这里，例如，选择的合成目标图像可以用于其中生成合成图像的处理显示为运动图像的合成图像生成处理。此外，选择的合成目标图像可以用作合成目标，此外，可以用作指示特定运动的转变的多个图像（例如，在幻灯片显示中使用的图像）。

本发明可以应用于图像处理装置，如具有成像功能的移动电话、个人计算机、视频系统、编辑装置等。此外，本发明的实施例中的处理过程还可以在处理程序中提供。

本发明的实施例示例了用于实现本发明的示例。这里，如在本发明的实施例中显而易见，本发明的实施例的公开内容分别对应于权利要求中的公开内容。类似地，权利要求中的公开内容分别对应于具有相同参考标号的本发明的实施例的公开内容。这里，本发明不限于实施例，可以在不背离本发明的精神的范围内进行各种修改。

此外，在本发明实施例中描述的处理过程可以提供为具有一系列过程的方法。此外，处理过程可以提供为用于允许该系列过程在计算机和记录程序的记录介质上执行的程序。CD（致密盘）、MD（迷你盘）、DVD（数字多功能盘）、存储卡、蓝光盘（注册商标）等可以用作该记录介质。

本申请包含涉及于2009年11月20日向日本专利局提交的日本优先权专利申请JP2009-264617中公开的主题，在此通过引用并入其全部内容。

本领域技术人员应当理解，依赖于设计需求和其他因素可以出现各种修改、组合、子组合和更改，只要它们在权利要求或其等效物的范围内。

Claims

1.一种图像处理装置，包括：

特定声音检测部分，其检测在由图像组中包括的对象的特定运动期间生成的特定声音，所述图像组包括以时间序列方式连续的多个图像；

合成图像生成部分，其参照在时间轴上检测到的特定声音的检测位置，使用在所述时间轴上的图像组的选择范围中包括的预定数目的图像，生成代表特定运动的转换的合成图像；以及

控制部分，在预定范围中检测到特定声音的情况下，所述控制部分控制所述合成图像生成部分使用检测到的特定声音生成合成图像，并且在预定范围中没有检测到特定声音的情况下，所述控制部分控制所述合成图像生成部分不生成合成图像。

2.如权利要求1所述的装置，还包括：

确定范围设置部分，其设置用于关于所述合成图像的生成的确定的所述时间轴上的预定范围。

3.如权利要求1所述的装置，还包括：

对象距离计算部分，其计算到目标对象的距离；以及

延迟时间计算部分，其基于计算的距离计算检测到的特定声音的延迟时间，

其中所述控制部分基于计算的延迟时间校正时间轴上检测到的特定声音的检测位置，并且根据校正的检测位置是否存在于预定范围中来确定是否允许所述合成图像生成部分生成合成图像。

4.如权利要求3所述的装置，还包括确定部分，在校正的检测位置存在于预定范围中的情况下，所述确定部分参照校正的检测位置确定选择范围。

5.如权利要求1所述的装置，

其中所述合成图像生成部分相对于选择范围中的预定数目的图像的选择间隔，使得比具有时间轴上的特定声音的检测位置作为中心位置的选择范围更窄的范围中的选择间隔，与选择范围中的预定数目的图像的选择间隔中的其它选择间隔相比更紧密。

6.如权利要求1所述的装置，还包括：

存储部分，其存储关于多个类型的特定运动的特定声音和确定范围；以及

操作接收部分，其接收用于从其中存储了特定声音和确定范围的多个类型的特定运动中指定希望的特定运动的指定操作，

其中所述特定声音检测部分检测关于指定的特定运动的特定声音，并且

其中所述确定范围设置部分基于用户操作设置关于指定的特定运动的确定范围。

7.一种图像捕获装置，包括：

图像捕获部分，其成像对象以便生成以时间序列方式连续的多个图像；

特定声音检测部分，其检测在由包括多个图像的图像组中包括的对象的特定运动期间生成的特定声音；

8.如权利要求7所述的装置，还包括：

9.一种图像处理装置，包括：

特定声音检测部分，其检测在由图像组中包括的对象进行的特定运动期间生成的特定声音，所述图像组包括以时间序列方式连续的多个图像；

确定改变检测部分，其在形成图像组的各个图像之间检测时间轴上的确定改变；

10.如权利要求9所述的装置，还包括：

11.一种图像捕获装置，包括：

12.如权利要求11所述的装置，还包括：

13.如权利要求11所述的装置，

其中所述确定改变检测部分使用从形成图像组的每个图像提取的特征量和基于关于形成图像组的每个图像的声音提取的特征量的至少一个，检测所述确定改变。

14.一种图像处理装置的控制方法，包括以下步骤：

执行控制，使得在预定范围中检测到特定声音的情况下，所述特定声音在由包括以时间序列方式连续的多个图像的图像组中包括的对象进行的特定运动期间生成，参照在时间轴上检测到的特定声音的检测位置，使用在所述时间轴上的图像组的选择范围中包括的预定数目的图像，生成代表特定运动的转换的合成图像，并且使得在预定范围中没有检测到特定声音的情况下，不生成合成图像。