CN102483928B

CN102483928B - 声音数据合成装置

Info

Publication number: CN102483928B
Application number: CN2010800387870A
Authority: CN
Inventors: 太田英史
Original assignee: Nikon Corp
Current assignee: Nikon Corp
Priority date: 2009-09-04
Filing date: 2010-09-03
Publication date: 2013-09-11
Anticipated expiration: 2030-09-03
Also published as: JP2011055409A; JP5597956B2; WO2011027862A1; CN102483928A; US20120154632A1; US20150193191A1

Abstract

该声音数据合成装置具备：拍摄部(10)，其拍摄由光学系统形成的对象的像，并输出图像数据；声音数据取得部(12)，其取得声音数据；声音数据分离部(220)，其从所述声音数据分离出所述对象产生的第一声音数据和该第一声音数据以外的第二声音数据；声音数据合成部(230)，其按向多扬声器输出的声音数据的每声道，合成通过按该每声道设定的增益以及相位调整量控制了增益和相位后的所述第一声音数据与所述第二声音数据；拍摄控制部(111)，其输出使所述光学系统移动至使焦点相对于所述对象的像对准的位置的控制信号，并且得到表示所述光学系统与所述对象的位置关系的位置信息；控制系数确定部，其基于所述位置信息计算所述增益以及所述相位调整量。

Description

声音数据合成装置

技术领域

本发明涉及具备对由光学系统形成的光学像进行拍摄的拍摄部的声音数据合成装置。

本申请基于2009年9月4日在日本申请的特愿2009-204601号并主张优先权，在此援引其内容。

背景技术

近年，已知在拍摄装置中搭载1个对声音进行录音的传声器的技术(例如参照下述专利文献1)。

专利文献1：特开2005-215079号公报

但是，从一个传声器所得的单声道的声音数据，与从二个传声器所得的立体声的声音相比，难以进行产生声音的位置和/或方向的检测。因此，在多扬声器中再现这样的声音数据的情况下，存在不能得到足够的音响效果这样的问题。

发明内容

本发明的方式，目的在于提供：在搭载传声器的小型装置中，在多扬声器中再现通过传声器所得的声音数据的情况下，生成能够使音响效果提高的声音数据的声音数据合成装置。

本发明的一方式所涉及的声音数据合成装置具备：拍摄部，其拍摄由光学系统形成的对象的像，并输出图像数据；声音数据取得部，其取得声音数据；声音数据分离部，其从所述声音数据分离出所述对象产生的第一声音数据和该第一声音数据以外的第二声音数据；声音数据合成部，其按向多扬声器输出的声音数据的每声道，合成通过按该每声道设定的增益以及相位调整量控制了增益和相位后的所述第一声音数据与所述第二声音数据；拍摄控制部，其输出使所述光学系统移动至使焦点相对于所述对象的像对准的位置的控制信号，并且得到表示所述光学系统与所述对象的位置关系的位置信息；以及控制系数确定部，其基于所述位置信息计算所述增益以及所述相位调整量。

根据本发明的方式所涉及的声音数据合成装置，能够在搭载传声器的小型装置中，在多扬声器中再现通过传声器所得的声音数据的情况下，生成能够使音响效果提高的声音数据。

附图说明

图1是表示包括本发明的一实施方式所涉及的声音数据合成装置的拍摄装置的一例的概略立体图。

图2是表示图1所示的拍摄装置的结构的一例的框图。

图3是表示本发明的一实施方式所涉及的声音数据合成装置的结构的一例的框图。

图4是对于通过本发明的一实施方式所涉及的声音数据合成装置所含的发音期间检测部检测的发音期间进行说明的概略图。

图5A是表示通过本发明的一实施方式所涉及的声音数据合成装置所含的声音数据分离部中的处理而得的频带的概略图。

图5B是表示通过本发明的一实施方式所涉及的声音数据合成装置所含的声音数据分离部中的处理而得的频带的概略图。

图5C是表示通过本发明的一实施方式所涉及的声音数据合成装置所含的声音数据分离部中的处理而得的频带的概略图。

图6是用于说明由本发明的一实施方式所涉及的声音数据合成装置所含的声音数据合成部进行的处理的一例的概念图。

图7是关于经由本发明的一实施方式所涉及的声音数据合成装置所含的光学系统将被拍摄体的光学像形成于拍摄元件时的、被拍摄体与光学像的位置关系进行说明的概略图。

图8是用于说明本发明的一实施方式所涉及的拍摄装置拍摄出的运动图像的参考图。

图9是用于说明通过本发明的一实施方式所涉及的声音数据合成装置所含的发音期间检测部检测发音期间的方法的一例的流程图。

图10是用于说明由本发明的一实施方式所涉及的声音数据合成装置所含的声音数据分离部和声音数据合成部进行的声音数据的分离和合成方法的一例的流程图。

图11是表示在图8所示的例子中所得的增益和相位调整量的参考图。

符号说明

1 拍摄装置 10 拍摄部 11 CPU

12 声音数据取得部 13 操作部 14 图像处理部

15 显示部 16 存储部 17 缓冲存储部

18 通信部 19 总线 20 存储介质

101 光学系统 102 拍摄元件 103 A/D变换部

104 透镜驱动部 105 测光传感器 111 拍摄控制部

210 发音期间检测部 220 声音数据分离部 221 FFT部

222 声音频率检测部 223 逆FFT部 230 声音数据合成部

240 距离测定部 250 偏离量检测部 260 偏离角检测部

270 多声道增益计算部 280 多声道相位计算部

具体实施方式

下面，参照附图关于本发明的一实施方式所涉及的拍摄装置进行说明。

图1是表示包含本发明的一实施方式所涉及的声音数据合成装置的拍摄装置1的一例的概略立体图。此外，拍摄装置1为能够拍摄运动图像数据的拍摄装置，作为多帧而连续拍摄多个图像数据。

如图1所示，拍摄装置1具备拍摄透镜101a、声音数据取得部12和操作部13。另外，操作部13包括接受来自于使用者的操作输入的变焦按钮131、快门按钮(release button)132和电源按钮133。

该变焦按钮131，从使用者接受使拍摄透镜101a移动以调整焦点距离的调整量的输入。另外，快门按钮132接受指示开始经由拍摄透镜101a输入的光学像的拍摄的输入和指示拍摄的结束的输入。进而，电源按钮133接受使拍摄装置1起动的电源接通的输入和切断拍摄装置1的电源的电源关断的输入。

声音数据取得部12设置于拍摄装置1的前面(即，安装有拍摄透镜101a的面)，取得在拍摄时产生的声音的声音数据。此外，在该拍摄装置1中预先确定了方向，将X轴的正方向定为左、将X轴的负方向定为右、将Z轴的正方向定为前、将Z轴的负方向定为后。

接着，使用图2关于拍摄装置1的结构例进行说明。图2是用于说明拍摄装置1的结构的一例的框图。

如图2所示，本实施方式所涉及的拍摄装置1具备：拍摄部10、CPU(Central processing unit，中央处理单元)11、声音数据取得部12、操作部13、图像处理部14、显示部15、存储部16、缓冲存储部17、通信部18和总线19。

拍摄部10包括光学系统101、拍摄元件102、A/D(模拟/数字)变换部103、透镜驱动部104和测光元件105，并按照设定的拍摄条件(例如光圈值、曝光值等)由CPU11进行控制，使由光学系统101形成的光学像成像于拍摄元件102，生成基于通过A/D变换部103变换为了数字信号的该光学像的图像数据。

光学系统101具备变焦透镜101a、焦点调整透镜(下面称为AF(AutoFocus，自动对焦)透镜)101b和分光部件101c。光学系统101将通过了变焦透镜101a、AF透镜101b以及分光部件101c的光学像引导至拍摄元件102的拍摄面。另外，光学系统101，将在AF透镜101b与拍摄元件102之间通过分光部件101c分离出的光学像引导至测光元件105的受光面。

拍摄元件102将成像于拍摄面的光学像变换为电信号，并将其向A/D变换部103输出。

另外，拍摄元件102，使在经由操作部13的快门按钮132接受到拍摄指示时所得的图像数据，作为拍摄出的运动图像的图像数据存储于存储介质20，并且向CPU11以及显示部15输出。

A/D变换部103，将通过拍摄元件102变换后的电信号数字化，输出作为数字信号的图像数据。

透镜驱动部104具有：检测表示变焦透镜101a的位置的变焦位置以及表示AF透镜101b的位置的焦点位置的检测单元；和使变焦透镜101a以及AF透镜101b移动的驱动单元。该透镜驱动部104将通过检测单元检测出的变焦位置以及焦点位置向CPU11输出。进而，若通过CPU11基于这些信息生成驱动控制信号，则透镜驱动部104的驱动单元按照该驱动控制信号控制两透镜的位置。

测光元件105，使由分光部件101c分离后的光学像成像于受光面，得到表示光学像的辉度分布的辉度信号，并将其向A/D变换部103输出。

CPU11是统括地控制拍摄装置1的主控制部，具备拍摄控制部111。

拍摄控制部111，被输入通过透镜驱动部104的检测单元检测出的变焦位置以及焦点位置，基于这些信息生成驱动控制信号。

该拍摄控制部111，例如，如果通过后面将说明的发音期间检测部210识别拍摄对象的面部，则边使AF透镜101b移动以使得焦点对准拍摄对象的面部，边基于通过透镜驱动部104所得的焦点位置，计算从焦点到拍摄元件102的拍摄面为止的焦点距离f。此外，拍摄控制部111，将该计算的焦点距离f向后面将说明的偏离角检测部260输出。

另外，CPU11，对连续地通过拍摄部10取得的图像数据与连续地通过声音数据取得部12取得的声音数据赋予同步信息，该同步信息在相互相同的时间轴上表示从开始拍摄时起的所计数的经过时间。由此，通过声音数据取得部12取得的声音数据与通过拍摄部10取得的图像数据被同步。

声音数据取得部12是取得例如拍摄装置1的周边的声音的传声器，其将所取得的声音的声音数据向CPU11输出。

操作部13如上所述包括变焦按钮131、快门按钮132和电源按钮133，其被使用者操作由此接受使用者的操作输入，并向CPU11输出信号。

图像处理部14参照存储于存储部16的图像处理条件对存储于存储介质20的图像数据进行图像处理。

显示部15例如为液晶显示器，显示通过拍摄部10所得的图像数据和/或操作画面等。

存储部16存储在通过CPU11计算增益和/或相位调整量时所参照的信息、和/或拍摄条件等信息。

缓冲存储部17暂时存储通过拍摄部10拍摄的图像数据等。

通信部18与存储卡等能够取下的存储介质20连接，进行对该存储介质20的信息的写入、读出或者删除。

总线19分别连接于拍摄部10、CPU11、声音数据取得部12、操作部13、图像处理部14、显示部15、存储部16、缓冲存储部17和通信部18，传送从各部分输出的数据等。

存储介质20是相对于拍摄装置1能够装卸地连接的存储部，存储例如通过拍摄部10取得的图像数据和通过声音数据取得部12取得的声音数据。

接下来，关于本实施方式所涉及的声音数据合成装置，使用图3进行说明。图3是表示本实施方式所涉及的声音数据合成装置的结构的一例的框图。

如图3所示，声音数据合成装置具备：拍摄部10、声音数据取得部12、CPU11所含的拍摄控制部111、发音期间检测部210、声音数据分离部220、声音数据合成部230、距离测定部240、偏离量检测部250、偏离角检测部260、多声道增益计算部270和多声道相位计算部280。

发音期间检测部210，基于通过拍摄部10拍摄到的图像数据，检测从拍摄对象发出声音的发音期间，将表示发音期间的发音期间信息向声音数据分离部220输出。

在本实施方式中，拍摄对象为人物，该发音期间检测部210，对图像数据进行面部识别处理，识别作为拍摄对象的人物的面部，进一步检测该面部的口部区域的图像数据，将该口部的形状变化的期间检测作为发音期间。

如果具体来说明，则该发音期间检测部210，具有面部识别功能，从通过拍摄部10取得的图像数据中检测拍摄到人物的面部的图像区域。例如，发音期间检测部210，对通过拍摄部10实时取得的图像数据进行特征提取的处理，提取脸形、眼和/或鼻的形状和/或位置、肤色等构成面部的特征量。该发音期间检测部210，将这些取得的特征量与预先确定的表示面部的样本的图像数据(例如表示脸形、眼和/或鼻的形状和/或位置、肤色等的信息)进行比较，从图像数据之中检测人物的面部的图像区域，并且检测在该面部中口部所处的图像区域。

该发音期间检测部210，若从图像数据中检测出人物面部的图像区域，则生成基于与该面部对应的图像数据的、表示面部的图形数据，基于该生成的面部的图形数据，跟踪在图像数据内移动的拍摄对象的面部。

首先，发音期间检测部210，将检测出的口部所处的图像区域的图像数据与预先确定的表示口部的开闭状态的样本的图像数据进行比较，以检测拍摄对象的口部的开闭状态。

如果更加详细地说明，则发音期间检测部210在内部具备存储部，该存储部存储有：表示人物的口部张开的状态的口部张开样本；表示人物的口部闭合的状态的口部闭合样本；和基于这些口部张开样本或口部闭合样本与图像数据相比较的结果、判断人物的口部为张开状态还是闭合状态的判断基准。发音期间检测部210，参照该存储部，将口部所处的图像区域的图像数据与口部张开样本进行比较，基于比较结果来判断口部是否为张开状态。在为张开状态的情况下，将包含该口部所处的图像区域的图像数据判断为口部张开状态。同样地，发音期间检测部210判断是否为口部闭合状态，在为口部闭合状态的情况下，将包含该口部所处的图像区域的图像数据判断为口部闭合状态。

发音期间检测部210，检测这样得到的图像数据的开闭状态在时间序列上变化的变化量，例如在该开闭状态持续变化一定期间以上的情况下，将该期间检测作为发音期间。

对此，以下使用图4更加详细地进行说明。图4是关于通过发音期间检测部210检测的发音期间进行说明的概略图。

如图4所示，如果通过拍摄部10取得与各帧相对应的多个图像数据，则通过发音期间检测部210如上所述那样与口部张开样本和口部闭合样本进行比较，判断图像数据为口部张开状态还是为口部闭合状态。该判断结果示于图4，这里将拍摄开始时刻设定为0秒，在0.5～1.2秒间的t1区间、1.7～2.3秒间的t2区间、3.5～4.3秒间的t3区间中，图像数据变化为口部张开状态和口部闭合状态。

发音期间检测部210，这样将该开闭状态的变化持续一定期间以上的t1、t2、t3的各个区间检测作为发音期间。

声音数据分离部220，基于通过声音数据取得部12取得的声音数据，分离出从拍摄对象发出的对象声音数据和从该对象以外发出的声音即周围声音数据。

如果详细地说明，则声音数据分离部220具备FFT部221、声音频率检测部222和逆FFT部223，基于通过发音期间检测部210检测出的发音期间信息，将从作为拍摄对象的人物发出的对象声音数据从通过声音数据取得部12取得的声音数据中分离出，将从声音数据中去除了对象声音数据后剩余的数据设为周围声音数据。

接着，关于该声音数据取得部12的各构成，使用图5A～图5C，下面详细进行说明。图5A～图5C是表示通过声音数据分离部220中的处理所得的频带的概略图。

FFT部221基于从发音期间检测部210输入的发音期间信息，将通过声音数据取得部12取得的声音数据分割为与发音期间相对应的声音数据和与此以外的期间相对应的声音数据，对于各个声音数据进行傅里叶变换。由此，得到图5A所示的与发音期间相对应的声音数据的发音期间频带和图5B所示的与发音期间以外的期间相对应的声音数据的发音期间外频带。

此外，优选，这里的发音期间频带和发音期间外频带为基于通过声音数据取得部12取得的时间的附近的时间区域的声音数据的频带，这里，作为发音期间外频带的声音数据，根据发音期间的紧邻之前或紧随之后的发音期间以外的期间的声音数据而生成。

FFT部221，将与发音期间相对应的声音数据的发音期间频带和与发音期间以外的期间相对应的声音数据的发音期间外频带向声音频率检测部222输出，并且将基于发音期间信息而从通过声音数据取得部12取得的声音数据中分割出的、与发音期间以外的期间相对应的声音数据向声音数据合成部230输出。

声音频率检测部222，基于通过FFT部221所得的声音数据的傅里叶变换的结果，对与发音期间相对应的声音数据的发音期间频带和与此以外的期间相对应的声音数据的发音期间外频带进行比较，检测发音期间中的拍摄对象的频带即声音频带。

也就是说，对图5A所示的发音期间频带与图5B所示的发音期间外频带进行比较，得到两者之差，从而检测出图5C所示的差。该差为仅在发音期间频带中出现的值。此外，声音频率检测部222，在取得两者之差时，对不足一定值的微小差将其舍弃，对一定值以上的差进行检测。

因此，可以认为：该差是在拍摄对象的口部分的开闭状态变化的发音期间所产生的频带，是由于拍摄对象发声而出现的声音的频带。

声音频率检测部222，检测与该差相对应的频带，作为发音期间中的拍摄对象的声音频带。这里，如图5C所示，932～997Hz作为该声音频带被检测出，其以外的频带作为周围频带被检测出。

这里，由于拍摄对象是人物，所以声音频率检测部222，在人们能够识别声音的方向的可指向区域(500Hz以上)的频率区域中，进行与发音期间的声音数据相对应的发音期间频带和与发音期间以外的声音数据相对应的发音期间外频带的比较。由此，即使假设在发音期间仅包含不足500Hz的声音的情况下，也能够防止误将该不足500Hz的频带的声音数据检测作为从拍摄对象发出的声音的情况。

逆FFT部223，从通过FFT部221所得的发音期间中的发音期间频带中获取通过声音频率检测部222所得的声音频带，对该获取的声音频带进行逆傅里叶变换，检测对象声音数据。另外，逆FFT部223，对从发音期间频带去除了声音频带后所剩的频带即周围频带，也进行逆傅里叶变换，检测周围声音数据。

如果具体地说明，则逆FFT部223生成使声音频带通过的带通滤波器和使周围频带通过的带阻滤波器。该逆FFT部223通过该通滤波器将声音频带从发音期间频带中提取出，另外通过带阻滤波器将周围频带从发音期间频带中提取出，分别进行逆傅里叶变换。该逆FFT部223将根据发音期间中的声音数据所得的周围声音数据和对象声音数据向声音数据合成部230输出。

声音数据合成部230，按向多扬声器输出的声音数据的每声道，基于按声道设定的增益以及相位调整量来控制对象声音数据的增益和相位，将该对象声音数据与周围声音数据合成。

这里，使用图6详细地进行说明。图6是用于说明由声音数据合成部230进行的处理的一例的概念图。

如图6所示，通过声音数据分离部220从发音期间频带的声音数据中分别分离出的周围声音数据和对象声音数据被输入至声音数据合成部230。声音数据合成部230，仅对该对象声音数据控制后面将详细说明的增益和相位调整量，并将该被进行控制后的对象声音数据与未被进行控制的周围声音数据合成，恢复与发音期间相对应的声音数据。

另外，该声音数据合成部230，将如上所述恢复的与发音期间相对应的声音数据与从逆FFT部223输入的与发音期间以外的期间相对应的声音数据，基于同步信息按时间序列合成。

接着，参照图7，关于增益以及相位的计算方法的一例进行说明。图7是关于经由光学系统101将被拍摄体的光学像形成于拍摄元件102时的被拍摄体与光学像的位置关系进行说明的概略图。

如图7所示，将从被拍摄体到光学系统101中的焦点为止的距离设为被拍摄体距离d，将从该焦点到形成于拍摄元件102的光学像为止的距离设为焦点距离f。在作为拍摄对象的人物P处于从光学系统101的焦点偏离的位置的情况下，形成于拍摄元件102的光学像，形成于从与通过焦点并相对于拍摄元件102的拍摄面垂直的轴(下面称为中心轴)正交的位置按偏离量x偏离的位置。这样，将连结形成于按偏离量x从中心轴偏离的位置的人物P的光学像P’和焦点的线与中心轴所成的角称为偏离角θ。

距离测定部240基于从拍摄控制部111输入的变焦位置和焦点位置，计算从被拍摄体到光学系统101中的焦点为止的被拍摄体距离d。

这里，基于如上所述通过拍摄控制部111所生成的驱动控制信号，透镜驱动部104沿光轴方向移动焦点透镜101b以对焦，而距离测定部240，基于该“焦点透镜101b的移动量”与“焦点透镜101b的像面移动系数(γ)”之积成为“从无限远到被拍摄体位置为止的像位置的变化量Δb”的关系，求取被拍摄体距离d。

偏离量检测部250，基于通过发音期间检测部210检测出的拍摄对象的面部的位置信息，检测偏离量x，该偏离量x表示拍摄对象的面部从通过拍摄对象102的中心的中心轴在被拍摄体的左右方向偏离的偏离量。

此外，所谓被拍摄体的左右方向，在拍摄装置1中已确定的上下左右方向与拍摄对象的上下左右方向相同的情况下，与通过拍摄元件102取得的图像数据中的左右方向一致。另一方面，在由于拍摄装置1旋转，使得在拍摄装置1中已确定的上下左右方向变得与拍摄对象的上下左右方向不相同的情况下，也可以例如基于通过拍摄装置1所具备的角速度检测装置等所得的拍摄装置1的变位量，计算被拍摄体的左右方向，计算得到所得的图像数据中的被拍摄体的左右方向。

偏离角检测部260，基于通过偏离量检测部250所得的偏离量和通过拍摄控制部111所得的焦点距离f，检测连结作为拍摄元件102的拍摄面上的拍摄对象的人物P的光学像P’和焦点的线与中心轴所成的偏离角θ。

该偏离角检测部260例如使用下式所示的运算式来检测偏离角θ。

[数学式1]

X＝f·tanθ (式1)

多声道增益计算部270，基于通过距离测定部240计算出的被拍摄体距离d，计算多扬声器的每声道的声音数据的增益(放大率)。

该多声道增益计算部270，与多扬声器的声道相应地，对于向例如配置于使用者前后的扬声器输出的声音数据赋予如下式所示的增益。

[数学式2]

Gf＝k₁·logK₂(d) (式2)

[数学式3]

Gr＝k₃·logK₄(1/d) (式3)

此外，Gf是对于向配置于使用者的前方的扬声器输出的前声道的声音数据赋予的增益，Gr是对于向配置于使用者的后方的扬声器输出的后声道的声音数据赋予的增益。另外，k₁和k₃是能够强调特定频率的效果系数，k₂和k₄表示用于改变特定频率的声源的距离感的效果系数。例如，多声道增益计算部270，对于特定频率，使用k₁和k₃的效果系数来计算式2、式3所示的Gf、Gr，并且对于特定频率外的频率，使用与针对特定频率的k₁和/或k₃不同的效果系数来计算式2、式3所示的Gf、Gr，由此能够计算出强调了特定频率的Gf、Gr。

这是利用声压的等级差进行模拟声像定位，对前方的距离感进行定位的处理。

这样，多声道增益计算部270，基于被拍摄体距离d，通过包括声音数据合成装置的拍摄装置1的前后声道的声压的等级差，计算该前后声道(前声道和后声道)的增益。

多声道相位计算部280，基于通过偏离角检测部260检测出的偏离角θ，计算对发音期间中的多扬声器的每声道的声音数据赋予的相位调整量Δt。

该多声道相位计算部280，与多扬声器的声道相应地，对于向例如配置于使用者的左右的扬声器输出的声音数据，赋予下式所示的相位调整量Δt。

[数学式4]

Δt_R＝0.65·(90/θ)/2(ms) (式4)

[数学式5]

Δt_L＝-0.65·(90/θ)/2(ms) (式5)

此外，Δt_R是对于向配置于使用者的右侧的扬声器输出的右声道的声音数据赋予的相位调整量，Δt_L是对于向配置于使用者的左侧的扬声器输出的左声道的声音数据赋予的相位调整量。通过该式4、式5，能够求出左右的相位差，并求出与该相位差相应的左右的偏差时间t_R、t_L(相位)。

这是进行基于时间差控制所实现的模拟的声像定位，利用左右的声像定位的处理。

如果具体地说明，则人由于与声音的入射角相对应地用左右耳听到的声音的到达时间有偏差，因此能够识别出从左右的哪个方向听到声音的(哈斯效应)。在这样的声音的入射角与两耳的时间差的关系中，从使用者的正面入射的声音(入射角为0度)与从使用者的正横侧入射的声音(入射角为95度)，产生约0.65ms的到达时间的偏差。而且，设为声速V＝340m/秒。

上述的式4、式5是声音的入射角即偏离角θ与声音入射于两耳的时间差的关系式，多声道相位计算部280，使用该式4、式5计算左右的每声道的要控制的相位调整量Δt_R、Δt_L。

接下来，使用图8～图11，关于具备本实施方式所涉及的声音数据合成装置的拍摄装置1的声音数据合成方法的一例进行说明。

图8是用于说明拍摄装置1拍摄出的运动图像的参考图。另外，图9是用于说明通过发音期间检测部210检测发音期间的方法的一例的流程图。进而，图10是用于说明由声音数据分离部220以及声音数据合成部230进行的声音数据的分离和合成方法的一例的流程图。图11是表示在图8所示的例子中所得的增益和相位调整量的参考图。

下面，说明如下的例子：拍摄装置1，如图8所示，跟踪并拍摄从画面进深的位置1接近画面近前的位置2的拍摄对象P，取得多个连续的图像数据。

拍摄装置1，如果通过使用者经由电源按钮133输入电源接通的操作指示，则接通电源。接着，如果快门按钮132被按下，则拍摄部10开始拍摄，将成像于拍摄元件102的光学像变换为图像数据，作为连续的帧而生成多个图像数据并将其向发音期间检测部210输出。

该发音期间检测部210，使用面部识别功能对该图像数据进行面部识别处理，识别拍摄对象P的面部。接着，作成表示所识别出的拍摄对象P的面部的图形数据，跟踪基于该图形数据的同一人即拍摄对象P。另外，发音期间检测部210，进一步检测该拍摄对象的P的面部中的口部区域的图像数据，对口部所处的图像区域的图像数据与口部张开样本以及口部闭合样本进行比较，基于比较结果判断口部为张开状态还是为闭合状态(步骤ST1)。

接着，发音期间检测部210，检测这样所得到的图像数据的开闭状态在时间序列上变化的变化量，例如在该开闭状态持续变化一定期间以上的情况下，将该期间检测作为发音期间。这里，拍摄对象P处于位置1附近的期间t11和拍摄对象P处于位置2附近的期间t12，被检测作为发音期间。

接着，该发音期间检测部210将表示发音期间t11、t12的发音期间信息向FFT部221输出。该发音期间检测部210例如将对于与该发音期间相对应的图像数据赋予的同步信息，作为表示所检测出的发音期间t11、t12的发音期间信息而输出。

该FFT部221，如果接收该发音期间信息，则基于发音期间信息即同步信息，在通过声音数据取得部12取得的声音数据中，确定与发音期间t11、t12相对应的声音数据并分割为与该发音期间t11、t12相对应的声音数据和与其以外的期间相对应的声音数据，对各个期间中的声音数据进行傅里叶变换。由此，得到与发音期间t11、t12相对应的声音数据的发音期间频带和与发音期间以外的期间相对应的声音数据的发音期间外频带。

接着，声音频率检测部222，基于通过FFT部221所得的声音数据的傅里叶变换的结果，对与发音期间t11、t12相对应的声音数据的发音期间频带和与其以外的期间相对应的声音数据的发音期间外频带相比较，检测发音期间t11、t12中的拍摄对象的频带即声音频带(步骤ST2)。

接着，逆FFT部223，从通过FFT部221所得的发音期间t11、t12中的发音期间频带获取并分离通过声音频率检测部222所得的声音频带，对该分离出的声音频带进行逆傅里叶变换，检测对象声音数据。另外，逆FFT部223，对从发音期间频带去除了声音频带后所剩的频带即周围频带也进行逆傅里叶变换，检测周围声音数据(步骤ST3)。

接着，逆FFT部223，将从发音期间t11、t12中的声音数据所得到的周围声音数据和对象声音数据向声音数据合成部230输出。

另一方面，如图8所示，如果拍摄从画面进深向画面近前移动的拍摄对象，则通过拍摄部10所取得的图像数据，如在步骤ST1中说明的那样，被输出到发音期间检测部210，通过面部识别功能被识别拍摄对象P的面部。由此，拍摄控制部111，边使AF透镜101b移动以使焦点对准于拍摄对象P的面部，边基于通过透镜驱动部104所得的焦点位置，计算从焦点到拍摄元件102的拍摄面为止的焦点距离f。而且，拍摄控制部111将该计算出的焦点位置f向偏离角检测部260输出。

另外，在步骤ST1中，如果通过发音期间检测部210进行面部识别处理，则通过发音期间检测部210检测拍摄对象P的面部的位置信息，该位置信息被向偏离量检测部250输出。该偏离量检测部250，基于该位置信息，检测偏离量x，该偏离量x表示与拍摄对象P的面部相对应的图像区域从通过拍摄元件102的中心的中心轴在被拍摄体的左右方向偏离的距离。也就是，在通过拍摄部10拍摄出的图像数据的画面内，与拍摄对象P的面部相对应的图像区域和图像中央的距离为偏离量x。

接着，偏离角检测部260，基于从偏离量检测部250所得的偏离量x和从拍摄控制部111所得的焦点距离f，检测连结拍摄元件102的拍摄面上的拍摄对象P的光学像P’和焦点的线与中心轴所成的偏离角θ。

偏离角检测部260，如果这样得到偏离角θ，则将偏离角θ向多声道相位计算部280输出。

接着，多声道相位计算部280，基于通过偏离角检测部260检测出的偏离角θ，计算对于发音期间中的多扬声器的每声道的声音数据赋予的相位调整量Δt。

也就是说，多声道相位计算部280，按照式4，计算对于向配置于使用者的右侧的扬声器FR(前方右侧)、RR(后方右侧)输出的右声道的声音数据赋予的相位调整量Δt_R，作为位置1处的相位调整量Δt_R得到+0.1ms，作为位置2处的相位调整量Δt_R得到-0.2ms。

与此同样，多声道相位计算部280，按照式5，计算对于向配置于使用者的左侧的扬声器FL(前方左侧)、RL(后方左侧)输出的左声道的声音数据赋予的相位调整量Δt_L，作为位置1处的相位调整量Δt_L得到-0.1ms，作为位置2处的相位调整量Δt_L得到+0.2ms。

此外，这样得到的相位调整量Δt_R、Δt_L的值示于图11。

另一方面，拍摄控制部111，在上述的焦点调整中将通过透镜驱动部104所得的焦点位置向距离测定部240输出。

该距离测定部240，基于从拍摄控制部111输入的焦点位置，计算从被拍摄体到光学系统101中的焦点为止的被拍摄体距离d，将其向多声道增益计算部270输出。

接着，多声道增益计算部270，基于通过距离测定部240计算出的被拍摄体距离d，计算多扬声器的每声道的声音数据的增益(放大率)。

也就是说，多声道增益计算部270，按照式2，计算对于向配置于使用者的前方的扬声器FR(前方右侧)、FL(前方左侧)输出的前声道的声音数据赋予的增益Gf，作为位置1处的增益Gf得到1.2，作为位置2处的增益Gf得到0.8。

与此同样，多声道增益计算部270，按照式3，计算对于向配置于使用者的后方的扬声器RR(后方右侧)、RL(后方左侧)输出的后声道的声音数据赋予的增益Gr，作为位置1处的增益Gr得到0.8，作为位置2处的增益Gr得到1.5。

此外，这样得到的增益Gf、Gr的值示于图11。

返回到图10，如果通过多声道增益计算部270所得的增益和通过多声道相位计算部280所得的相位调整量被输入于声音数据合成部230，则按向多扬声器输出的声音数据的每声道FR、FL、RR、RL，控制对象声音数据的增益和相位(步骤ST4)，将该对象声音数据与周围声音数据合成(步骤ST5)。由此，按每声道FR、FL、RR、RL，生成仅对对象声音数据控制增益和相位而得到的声音数据。

如上所述，本实施方式所涉及的声音数据合成装置，在图像数据中检测拍摄对象的口部的开闭状态持续变化的区间作为发音期间，根据与该图像数据同时取得的声音数据，对与该发音期间相对应的声音数据和在该发音期间以外即发音期间附近的时间区域取得的声音数据的各个进行傅里叶变换，得到发音期间频带和发音期间外频带。

而且，通过对发音期间频带和发音期间外频带进行比较，能够检测发音期间频带中的与从拍摄对象发出的声音相对应的频带。

因此，能够对与从拍摄对象发出的声音相对应的声音数据的频带控制增益和相位，能够生成再现模拟的音响效果的声音数据。

另外，本实施方式所涉及的声音数据合成装置，除多声道相位计算部280外还具备多声道增益计算部270，对声音数据赋予增益而进行修正，由此对与基于被拍摄体距离d的前后的扬声器相对应的每声道，赋予不同的增益。由此，对于听到从扬声器输出的声音的使用者，能够利用声压等级差模拟地再现拍摄时的拍摄者与被拍摄体的距离感。

假设在预先作为模拟环绕效果的方法利用了使前后扬声器的声音数据的相位偏差再现的方法的环绕系统扬声器中，仅用通过多声道相位计算部280所得的相位调整量Δt，有时会得不到足够的音响效果。另外，在基于被拍摄体距离d的头部传递函数的变化小的情况下，基于通过多声道相位计算部280所得的相位调整部Δt所进行的声音数据的修正有时会不适当。因此，如上所述，通过除了多声道相位计算部280外还具备多声道增益计算部270，能够解决上述那样的仅用多声道相位计算部280不能解决的问题。

此外，本实施方式所涉及的声音数据合成装置，只要是至少具备一个声音数据取得部12，将声音数据分解为至少二个以上的多个声道的构成即可。例如，能够设为如下的构成：在声音数据取得部12是在左右具备二个的立体声输入声音(2声道)的情况下，能够基于从该声音数据取得部12取得的声音数据，生成与4声道和/或5.1声道相对应的声音数据。

例如在声音数据取得部12具有多个传声器的情况下，FFT部221，对于每传声器的声音数据，对发音期间的声音数据和发音期间以外的声音数据的各个进行傅里叶变换，从每传声器的声音数据得到发音期间频带和发音期间外频带。

另外，声音频率检测部222按每传声器检测声音频带，逆FFT部223按每传声器对周围频带和声音频带的各个分别进行傅里叶变换，生成周围声音数据和对象声音数据。

接着，声音数据合成部230，按向多扬声器输出的声音数据的每声道，合成各传声器的周围声音数据和各传声器的对象声音数据，该各传声器的对象声音数据是通过与传声器对应地按声道设定的增益以及相位调整量控制了增益和相位后的各传声器的对象声音数据。

另外，近年，在拍摄装置中，为了使用者能够轻便携带且实现拍摄运动图像和/或静止图像等广泛的图像数据的功能，谋求装置的小型化，并且谋求使搭载于拍摄装置的显示部变得更大。

这里，假设在考虑声音的发出方向性而将二个传声器搭载于拍摄装置的情况下，存在下述问题：无法实现拍摄装置内的空间的有效运用而阻碍拍摄装置的小型化的问题、和/或因为无法足够地设置二个传声器的间隔而不能充分检测声音发生的方向和/或位置、不能得到足够的音响效果的问题。但是，即使如本实施方式所涉及的拍摄装置那样为一个传声器，根据上述构成，也能够利用声压等级差模拟地再现拍摄时的拍摄者与被拍摄体的距离感，因此能够有效地实现拍摄装置内的空间，并且再现具有现场感的声音。

Claims

1.一种声音数据合成装置，其特征在于，具备：

拍摄部，其拍摄由光学系统形成的对象的像，并输出图像数据；

声音数据取得部，其取得声音数据；

声音数据分离部，其从所述声音数据分离出所述对象产生的第一声音数据和该第一声音数据以外的第二声音数据；

声音数据合成部，其按向多扬声器输出的声音数据的每声道，合成通过按该每声道设定的增益以及相位调整量控制了增益和相位后的所述第一声音数据与所述第二声音数据；

拍摄控制部，其输出使所述光学系统移动至使焦点相对于所述对象的像对准的位置的控制信号，并且得到表示所述光学系统与所述对象的位置关系的位置信息；以及

控制系数确定部，其基于所述位置信息计算所述增益以及所述相位调整量。

2.根据权利要求1所述的声音数据合成装置，其特征在于，所述控制系数确定部进一步具备：

被拍摄体距离测定部，其基于所述位置信息测定到所述对象为止的被拍摄体距离；

偏离量检测部，其检测所述对象的像从所述拍摄部的拍摄面的中心偏离的偏离量；

偏离角检测部，其根据所述偏离量和所述拍摄部中的焦点距离，求取偏离角，所述偏离角是通过焦点并相对于所述拍摄面垂直的轴与连结所述焦点和所述拍摄面上的所述对象的像的线所成的角；

多声道相位计算部，其根据所述偏离角求取所述每声道的声音数据的所述相位调整量；以及

多声道增益计算部，其根据所述被拍摄体距离计算所述每声道的声音数据的所述增益。

3.根据权利要求2所述的声音数据合成装置，其特征在于，

所述多声道相位计算部，根据作为声音的入射角的所述偏离角与声音入射于两耳的时间差的关系式，计算所述每声道的要控制的所述相位调整量。

4.根据权利要求2或3所述的声音数据合成装置，其特征在于，

所述多声道增益计算部，基于所述被拍摄体距离，通过声音数据合成装置的前后声道的声压的等级差，计算该每声道的增益。

5.根据权利要求1～3中的任意一项所述的声音数据合成装置，其特征在于，所述声音数据分离部具备：

FFT部，其分别进行从所述对象产生声音的发音期间的所述声音数据和所述发音期间以外的期间的所述声音数据的傅里叶变换；

声音频率检测部，其对所述发音期间的频带与所述发音期间以外的频带进行比较，检测所述发音期间中的所述对象的声音的频带即第一频带；以及

逆FFT部，其从所述发音期间中的所述频带获取所述第一频带，对去除了所述第一频带后的第二频带和所述第一频带分别进行逆傅里叶变换，生成所述第一声音数据和所述第二声音数据。

6.根据权利要求1～3中的任意一项所述的声音数据合成装置，其特征在于，还具备：

发音期间检测部，其检测从所述对象产生声音的所述发音期间，

其中，该发音期间检测部，通过对于所述图像数据的图像识别的处理，识别所述对象的面部，检测该识别的面部中的口部区域，检测该口部的形状变化的期间作为所述发音期间。

7.根据权利要求6所述的声音数据合成装置，其特征在于，

所述发音期间检测部，通过与预先设定的面部的样本进行比较，检测所述识别的面部中的口部的位置。

8.根据权利要求7所述的声音数据合成装置，其特征在于，

所述发音期间检测部，通过所述面部的样本检测所述口部区域，并且具备口部张开的口部张开样本和口部闭合的口部闭合样本，通过将所述口部区域的图像与所述口部张开样本以及所述口部闭合样本进行比较，检测所述对象的口部的开闭状态。

9.根据权利要求5所述的声音数据合成装置，其特征在于，

所述声音频率检测部生成使所述第一频带通过的带通滤波器和使所述第二频带通过的带阻滤波器；

所述逆FFT部，通过所述带通滤波器将所述第一频带从所述频带提取出，另外通过所述带阻滤波器将所述第二频带从所述频带提取出。

10.根据权利要求5所述的声音数据合成装置，其特征在于，

所述声音频率检测部，在人们能够识别声音的方向的可指向区域的频率区域中，进行所述发音期间的频带与所述发音期间以外的频带的比较。

11.根据权利要求5所述的声音数据合成装置，其特征在于，

所述声音数据取得部具有多个传声器；

所述FFT部对于每个所述传声器的声音数据，分别进行所述发音期间的声音数据和所述发音期间以外的声音数据的傅里叶变换；

所述声音频率检测部按每个所述传声器检测所述第一频带；

所述逆FFT部按每个所述传声器对所述第一频带和所述第二频带分别进行逆傅里叶变换，生成所述第一声音数据和所述第二声音数据；

所述声音数据合成部，按向所述多扬声器输出的声音数据的每声道，合成所述各传声器的所述第二声音数据与通过与所述传声器相对应地按所述声道设定的所述增益以及所述相位调整量控制了所述增益和所述相位后的所述各传声器的所述第一声音数据。