CN102804060A - 音频控制图像捕捉 - Google Patents

音频控制图像捕捉 Download PDF

Info

Publication number
CN102804060A
CN102804060A CN2009801602655A CN200980160265A CN102804060A CN 102804060 A CN102804060 A CN 102804060A CN 2009801602655 A CN2009801602655 A CN 2009801602655A CN 200980160265 A CN200980160265 A CN 200980160265A CN 102804060 A CN102804060 A CN 102804060A
Authority
CN
China
Prior art keywords
images
image
sound signal
computer program
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2009801602655A
Other languages
English (en)
Other versions
CN102804060B (zh
Inventor
P·奥雅拉
R·比尔卡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Technologies Oy
Original Assignee
Nokia Oyj
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Oyj filed Critical Nokia Oyj
Publication of CN102804060A publication Critical patent/CN102804060A/zh
Application granted granted Critical
Publication of CN102804060B publication Critical patent/CN102804060B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • GPHYSICS
    • G03PHOTOGRAPHY; CINEMATOGRAPHY; ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ELECTROGRAPHY; HOLOGRAPHY
    • G03BAPPARATUS OR ARRANGEMENTS FOR TAKING PHOTOGRAPHS OR FOR PROJECTING OR VIEWING THEM; APPARATUS OR ARRANGEMENTS EMPLOYING ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ACCESSORIES THEREFOR
    • G03B15/00Special procedures for taking photographs; Apparatus therefor
    • G03B15/16Special procedures for taking photographs; Apparatus therefor for photographing the track of moving objects
    • GPHYSICS
    • G03PHOTOGRAPHY; CINEMATOGRAPHY; ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ELECTROGRAPHY; HOLOGRAPHY
    • G03BAPPARATUS OR ARRANGEMENTS FOR TAKING PHOTOGRAPHS OR FOR PROJECTING OR VIEWING THEM; APPARATUS OR ARRANGEMENTS EMPLOYING ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ACCESSORIES THEREFOR
    • G03B31/00Associated working of cameras or projectors with sound-recording or sound-reproducing means
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/64Computer-aided capture of images, e.g. transfer from script file into camera, check of taken image quality, advice or proposal for image composition or decision on when to take image
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • G01S3/802Systems for determining direction or deviation from predetermined direction
    • G01S3/8022Systems for determining direction or deviation from predetermined direction using the Doppler shift introduced by the relative motion between source and receiver

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Studio Devices (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Details Of Cameras Including Film Mechanisms (AREA)

Abstract

一种方法,包括:接收对应于覆盖用于释放快门的时刻的时间段的多个图像;使用音频捕捉装置来接收与多个图像相关联的音频信号;分析接收到的音频信号以便确定与期望的输出图像相关联的音频事件;以及基于接收到的音频信号的分析来选择多个图像中的至少一个以进行进一步处理以便获得期望的输出图像。

Description

音频控制图像捕捉
技术领域
本发明涉及成像,并且更具体地涉及根据音频信息来控制静止图像捕捉。
背景技术
在图像捕捉技术的领域中,连同保证最好的可能图像质量的目标一起,已经为许多照相机提供了所谓的连拍功能。在连拍功能中,当用户已释放了快门时,图像捕捉设备被布置为拍摄多个图像以便捕捉合适的时刻。用户然后可以稍后选择多个图像中的最好的一个或多个。在更先进的解决方案中,用户或图像捕捉设备可以将多个图像或所有捕捉图像组合成具有增强视觉质量的一个合成输出图像。
在连拍功能的另一实施例中,已知的是用不同的曝光时间拍摄多个图像并选择期望的一个或多个作为输出图像,或者用于进一步处理以导出具有增强视觉质量的合成输出图像。
然而,仍存在某些缺点。捕捉图片有时可能要求快速反应以便抓住用户想要捕捉的图片。尤其是在图片的对象正在移动的情况下,图片的时间选择可能很容易是非最佳的,对象可能已经避开图像且错过了期望的时刻。此外,在已知的连拍解决方案中,选择最好质量图像或合成增强的输出图像始终要求捕捉图像的后处理,用户可能经历麻烦和耗时。
发明内容
现在已经发明了一种改进的方法和实现该方法的技术设备,由此帮助图像捕捉设备的用户以改善的质量拍摄图片。本发明的各种方面包括方法、设备和计算机程序,其特征在于在独立权利要求中所述的内容。在从属权利要求中公开了本发明的各种实施例。
根据第一方面,根据本发明的方法是基于这样的思想,即接收对应于覆盖预定时刻的时间段的多个图像;使用音频捕捉装置来接收与所述多个图像相关联的音频信号;分析接收到的音频信号以便确定与期望的输出图像相关联的音频事件;以及基于接收到的音频信号的分析来选择所述多个图像中的至少一个以进行进一步处理,以便获得期望的输出图像。
根据实施例,该方法还包括接收所述多个图像,包括响应于图像捕捉设备的用户发出在预定时刻释放快门的命令使用图像捕捉单元在覆盖预定时刻的时段期间捕捉多个图像;以及接收音频信号包括使用音频捕捉装置来捕捉与所述多个图像相关联的音频信号。
根据实施例,该方法还包括接收对应于所述预定时刻之前的第一时刻的多个图像。
根据实施例,该方法还包括接收对应于所述预定时刻之后的第二时刻的多个图像。
根据实施例,所述音频接收装置包括一个或多个扩音器。
根据实施例,所述音频接收装置包括由两个或更多扩音器组成的扩音器阵列。
根据实施例,该方法还包括估计音频信号的到达方向,以便确定产生音频信号的对象在图像的期望部分中的时间。
根据实施例,使用基本上垂直于扩音器阵列地存在的、产生音频信号的对象来确定对象在图像的期望部分中的时间。
根据实施例,该方法还包括估计接收音频信号的能量以便确定所述多个图像内的感兴趣事件。
根据实施例,使用接收音频信号的能量的急剧变化来确定感兴趣事件的期望时刻。
根据实施例,该方法还包括估计接收音频信号的基频,以便从所述多个图像确定其中产生音频信号的对象最接近于提供所述多个图像的图像捕捉设备的至少一个图像。
根据实施例,该方法还包括使用基频的估计来选择其中产生音频信号的对象正在接近提供所述多个图像的图像捕捉设备的图像。
根据实施例,该方法还包括获得关于提供所述多个图像的图像捕捉设备与产生音频信号的对象之间的距离的信息;以及用所述距离上的由声速引起的延迟来调整音频信号的捕捉。
根据本发明的布置提供显著的优点。在一般水平上,其通过分析与多个图像相关联的音频信号以便基于所述多个图像确定最佳输出图像来使得图像捕捉设备的用户能够或帮助其以改善的质量拍摄图片。更特别地,用户可以通过从图像组自动地选择例如其中感兴趣的对象存在于取景器的中间或发生特殊音频事件(例如碰撞或爆炸)或对象正在接近照相机(前视图)的图像来捕捉质量更好的图像。在最接近于期望音频事件的时刻自动地选择输出图像。
根据第二方面,提供了一种设备,包括:图像接收单元,其用于接收对应于覆盖预定时刻的时间段的多个图像;音频接收单元,其用于使用音频捕捉装置来接收与所述多个图像相关联的音频信号;分析单元,其用于分析接收到的音频信号以便确定与期望的输出图像相关联的音频事件;以及选择单元,其用于基于接收到的音频信号的分析来选择所述多个图像中的至少一个以进行进一步处理以便获得期望的输出图像。
基于以下进一步的实施例的详细公开,本发明及其相关实施例的这些及其它方面将变得显而易见。
附图说明
下面将参考附图来更详细地描述本发明的各种实施例,在所述附图中
图1示出一系列连拍图像的示例;
图2示出布置在图像捕捉设备中的多扩音器阵列的示例;
图3示出根据本发明的实施例实现的功能单元的示例;
图4示出波束成形器构造中的由多个扩音器组成的一般扩音器阵列;
图5示出针对捕捉音频信号的声音到达方向估计的示例;
图6示出针对捕捉音频信号的声音水平估计的示例;以及
图7示出针对捕捉音频信号的基频估计的示例。
具体实施方式
下面,将通过一般地参考图像捕捉设备、偶尔参考照相机设备作为众所周知的示例来举例说明本发明。然而,应注意的是本发明不仅仅限于独立的照相机,而是可以在包括图像传感器和用于处理捕捉图像和音频信息的装置的任何图像捕捉设备中实现之。例如,可以在装配有照相机模块的移动终端、PDA设备、便携式计算机或膝上型计算机中利用本发明。因此,还必须从此类设备从图像捕捉单元接收图像和/或从音频捕捉单元接收音频信息的角度考虑本发明,该设备随后如实施例中所述地处理接收到的图像和音频信息。
下述实施例提供一种用于当图像捕捉设备在多拍操作模式下操作时控制图像捕捉设备的方法。在连拍操作模式下,例如照相机的图像捕捉设备被布置为每当快门被释放时拍摄多个图像。在连拍操作模式下拍摄的图像的数目可以是图像捕捉设备的默认设置,或者其可以是可由用户在设备设置中调整的,并且捕捉图像的数目可以在两个至几十个或者甚至几百个图像的范围内变化。以下实施例中所述的示例是基于在每个连拍系列中捕捉十个图像的设置。
在连拍操作模式下,图像捕捉设备一般被布置为在覆盖(即包括)用于释放快门的预定时刻的时段期间拍摄多个图像。优选地,拍摄一系列图像可以在快门按钮被断然按下之前就已经开始,例如当按钮被按下一半时就已经开始,这使得能够调整用于后续图像的焦点。可以将照相机布置为分别在按钮被断然地按下之前和之后存储预定数目的图像。例如,在十个图像的连拍系列中,可以将前五个图像布置为在按钮处于半途中之后但在其被完全按下之前捕捉,并且其余的五个图像是随后在按钮已被完全按下之后捕捉的。
无论在连拍系列中拍摄的图像的数目如何,图像捕捉设备仍可以包括预定余量(margin)值,其控制操作,使得可以随后丢弃在快门被完全释放之前比预定余量更早地捕捉的图像,而不进行进一步处理或将其保存在存储器中。
图1呈现了当用户已按下按钮时对对象(在这种情况下,即通过的赛车)所拍摄的一系列的前五个图片的示例。在图中未示出后五个图片。在举例说明下述实施例时利用图1的同一示例。
根据实施例,当在连拍操作模式下操作且捕捉多个图像的连拍系列时,图像捕捉设备还被布置为捕捉与连拍系列中的图像相关联的音频信号。捕捉音频信号的时间段可以是图像捕捉设备的默认设置,或者其可以是可由用户在设备设置中调整的。音频捕捉优选地基本上在图像捕捉开始的同时开始。因此,优选地将图像捕捉设备布置为分别捕捉与在用户已完全按下按钮之前的一系列图像相关联的适当时间段(例如五秒)和在用户已完全按下按钮之后的另一适当时间段。
图像捕捉设备可以将捕捉的音频信号存储在存储器中以进行后续音频分析。替换地,可以在不将完整的音频段存储在存储器中的情况下立即执行如下文详细地描述的音频分析。
分析与连拍系列中的图像相关联的捕捉音频信号的目的是识别连拍系列的一个或多个图像最有可能已捕捉到期望对象的最佳质量图像的一个或多个时刻。与所述多个图像相关联的捕捉音频信号的分析可以基于确定主要声音分量的到达方向以便确定声源(即对象)在图像中的期望部分中的时间,或者可以使用声音水平、谱分量或基频的任何不连续来调用选择算法以选择一个或多个图像以进行进一步处理。
当已识别了最有希望的时刻时,可以选择与所述时刻相关联的连拍系列的一个或多个图像作为最佳质量图像。然后可以同样地选择最佳质量图像作为输出图像,或者可以选择一个或多个图像以进行进一步处理,以便产生更好质量的输出图像。
还为用户提供了选择除作为分析所提议的最佳质量图像之外的某个其它图像作为输出图像的可能性。例如,在图1的示例中,用户可以将输出图像选择为在赛车位于取景器的合适部分中时捕捉的一个。这样,捕捉的图像可以包含对于用户而言重要的场景的某些其它部分。
可以用集成在图像捕捉设备中或在功能上被连接到图像捕捉设备或优选地存在于非常接近于图像捕捉设备处的一个或多个扩音器来捕捉音频信号。尤其是如果需要确定主要声音分量的到达方向,则可以使用优选地安装在图像捕捉设备上的由两个或更多扩音器组成的扩音器阵列。在图2中呈现了此类多扩音器阵列的示例,图2示出被跟踪对象200,其图像被图像捕捉设备的照相机模块204拍摄,该图像在设备的取景器206中显示。图像捕捉设备还包括多扩音器阵列202,优选地被布置为使得可以最不受阻碍地执行从照相机模块指向的方向进行的音频捕捉。
定向多扩音器阵列可以包括两个或更多扩音器。通常,音频源(对象)与阵列中的任何扩音器之间的最小距离大于扩音器之间的最大距离。因此,例如3、4、5个或更多个扩音器的使用可以提供改善的方向选择性。
在图3中描述了用于实现实施例的功能单元的示例。图像捕捉单元300可以包括被布置为根据从控制单元302接收到的指令来捕捉连拍系列的所述多个图像的图像传感器。控制单元302又响应于用户按下快门按钮(未示出)发出指令。以类似方式,控制单元302在用户按下快门按钮时向音频捕捉单元304发出开始捕捉的指令。音频捕捉单元304可以包括所述一个或多个扩音器或多扩音器阵列。可以将多个捕捉的图像临时存储在存储器306中,或者可以使其经受选择单元308中的即时选择过程。
由从音频分析单元310接收到的信息来控制选择单元308中的选择过程,其中,分析与多个图像相关联的捕捉音频信号以便确定关于期望输出图像的音频事件。作为此分析的结果,可以随后同样地在选择单元308中选择最可能具有最好质量的图像作为输出图像314。替换地,可以在选择单元308中选择来自连拍系列的一个或多个图像以用于在处理单元312中进行进一步处理,以便产生更好质量的输出图像314。在处理单元312中,可以向所选的一个或多个图像施加各种图像处理算法以导出具有增强视觉质量的合成输出图像,或者如果选择多个图像进行进一步处理,则可以仅仅将其组合以获得改善的输出图像。例如,然后可以将输出图像存储在存储装置(图3中未示出)中或在显示器(图3中未示出)上显示。
接下来更详细地描述用于实现图3的音频分析单元310的各种实施例,即用于分析与多个图像相关联的捕捉音频信号以便确定关于期望输出图像的音频事件的实施例。
根据第一实施例,通过估计音频信号的到达方向以便确定声源在图像的期望部分中的时间来执行分析。根据另一实施例,可以利用称为波束成形的技术,其中,使用多扩音器阵列来估计音频信号的到达方向。
可以使用波束成形算法来提取音频源的到达方向,即对象在照相机取景器内的位置。在图4中呈现了波束成形器构造中的由多个(M个)扩音器组成的一般扩音器阵列。
图4的扩音器阵列的输出被确定为
y ( n ) = Σ m = 1 M Σ k = 0 L - 1 H m ( n ) x m ( n - k ) , - - - ( 1 )
其中,Hm(n)是波束成形滤波器且L表示波束成形滤波器H1、H2、…、HM的长度。滤波器H1、H2、…、HM的最不重要的选择是延迟线,因此给出扩音器阵列的输出为
y ( n ) = Σ m = 1 M x m ( n - τ m ) , - - - ( 2 )
其中τm是对应于每个信号x1、x2、…、xM的到达方向的延迟。还可以在频率子带域中或例如在DFT(离散傅立叶变换)变换域中实现该方向性。在该情况下,用于每个扩音器的延迟可以是频率相关的。
通过搜索用于每个扩音器行的最佳延迟值来确定与垂直于取景器图像和扩音器阵列的标称轴相比较的声源(参见图2)的到达方向。将延迟τm理解为源与不同扩音器之间的距离差,如下
τm=(|s-xm|-|s-xi|)/c,(3)
其中,s是期望被跟踪音频源位置坐标,xm是扩音器m的位置,xi是“零延迟”扩音器i的位置。c是声速。应注意的是在本实施例中,扩音器i中的延迟始终被设置为零。可以将零延迟、即扩音器i分配给阵列中的任何扩音器。
根据实施例,在检测音频源位置(例如通过搜索使扩音器阵列输出能量最大化的滤波器系数)时应用多扩音器波束成形器。在最不重要的情况下,以使输出能量最大化的方式来确定用于每个扩音器行的延迟值。
τ m , opt = arg max τ m ( y ( n ) T y ( n ) ) - - - ( 4 )
例如在-π/2≤φ≤π/2的范围内,可以确定音频源的到达方向,其中,零角垂直于扩音器阵列。基于用于每个扩音器行的最佳延迟,以及使用扩音器位置(扩音器之间的距离)的知识,可以确定期望的到达方向,从以下等式求解
τm=(|xm-xi|sin(φ))/c    (5)
在这种方法中,到达方向对于每个扩音器是相同的,并且认为声源的距离明显大于扩音器之间的距离。当扩音器阵列设计是二维的时,可以沿水平和垂直两个方向完成时间延迟的类似确定。
图5示出用于对应于图1中的一系列图像的捕捉音频信号的声音到达方向估计的示例。针对捕捉到图像的每个时刻确定相应的声音到达方向。如在下文举例说明的,图5的时间轴的标度对应于图1的时间轴的标度,并且到达方向的标度是-π/2≤φ≤π/2的范围,由此,零角度近似存在于垂直轴的中点。
如可以看到的,估计音频的到达方向的曲线看起来在第三个图像的时刻达到零角点(即,对象存在于基本上垂直于多扩音器阵列处)。这最可能指示声源在拍摄第三个图片时在取景器的中间,因此,可以认为第三图像是用于最佳输出图像的最有希望的候选。
根据第二实施例,通过确定音频信号的声音水平来执行与多个图像相关联的捕捉音频信号的分析。这是相当直接的方法,其中,可以使用声音水平的急剧变化来显示将捕捉图像的期望时刻。该实施方式不要求定向扩音器阵列,而是可以在捕捉音频信号时仅使用单个扩音器。可以例如使用以下等式逐个样本地确定扩音器信号水平
e(n)=y(n)Ty(n)    (6)
由此,可以产生声音水平估计值对比花费在捕捉多个图像上的时间。
图6示出用于对应于图1中的一系列图像的捕捉音频信号的声音水平估计的示例。针对捕捉到图像的每个时刻确定相应的声音水平。如下文举例说明的,图6的时间轴的标度对应于图1的时间轴的标度。如可以看到的,在第三图像的时刻,声音水平曲线看起来具有突然变化并在第三图像的时刻达到最大水平。可以使用该突然变化作为声源在取景器的中间或大约在拍摄第三图片的同时已发生至少某个特殊事件的指示。替换地或另外,可以使用最大声音水平作为大约在拍摄第三图片的同时、声源在取景器的中间的指示。
根据第三实施例,通过确定对象的声音的基频的变化来执行与多个图像相关联的捕捉音频信号的分析。如一般从多普勒效应的物理现象已知的,与对象变得更加远离收听者相比,对象变得更接近于收听者(或扩音器)具有朝向较高频率的频移。因此,通过确定发生从较高基频到较低基频的变化的时刻,还可以显示发出声音的对象最接近于收听者(在此上下文中即图像捕捉设备)的时间。
可以将对象的声音的基频确定为与主要音频源的自相关的最大值相对应的时间延迟的倒数。因此,优选地执行主要音频源的简单相关分析,其中,如下确定使自相关最大化的候选值d的预定范围内的延迟τn
τn=arg maxdn(k,d)}    (7)
其中,Φn(d,k)是归一化相关
Φ n ( d , k ) = s n ( k - d 1 ) T s n ( k - d 2 ) ( s n ( k - d 1 ) T s n ( k - d 1 ) ) ( s n ( k - d 2 ) T s n ( k - d 2 ) ) - - - ( 8 )
其中 d 1 = max { 0 , - d } d 2 = max { 0 , d } - - - ( 9 )
并且k是采样时刻且sn是声信号。
其后,可以将对象的声音的基频确定为延迟值的倒数。
图7示出用于对应于图1中的一系列图像的捕捉音频信号的基频估计的示例。针对捕捉到图像的每个时刻确定相应的基频。再次地,如下文举例说明的,图7的时间轴的标度对应于图1的时间轴的标度。如可以看到的,在前两个图像期间,基频在较高的频率上是恒定的,指示对象正变得更接近于图像捕捉设备的扩音器。然后,在第三图像的时刻,存在基频到较低频率水平的线性变化,并且其后,基频保持在该恒定的较低频率上,指示对象正变得更加远离图像捕捉设备的扩音器。因此,第三图像期间的从较高基频到较低基频的变化指示声源那时最接近于图像捕捉设备,并且最可能在取景器的中间,或者大约在拍摄第三图片的同时,已发生至少某个特殊事件。
根据实施例,可以使用基频估计来选择其中对象正在更接近于图像捕捉设备的扩音器的图像;即对应于较高基频的图像。可以例如利用该信息来获得对象的正面图像。
根据实施例,如果对象相对远离照相机,则可能需要考虑声速的限制。如果已知到对象的距离为例如340米,则当捕捉并使音频信息与多个捕捉图像相关联时需要考虑约一秒的延迟。当然,必须依照到对象的实际或估计距离来调整延迟,例如在500m距离的情况下,延迟为约1.5秒,并且在170m距离的情况下,延迟为约0.5秒。
根据实施例,可以例如从焦点信息提取指示到对象的距离的信息。可替换地,可以用立体摄像机来估计距离信息,其中,两个成像传感器位于同一设备内的某个距离内,因此产生显示略有不同的场景视图的两个图像。然后利用此差来估计到场景的某个对象的距离。
技术人员认识到可以将上文所述的任何实施例实现为与其它实施例中的一个或多个的组合,除非明确地或隐含地说明某些实施例仅仅是彼此的替换。
可以在图像捕捉设备中将照相机模块实现为该设备的组成部分,即作为嵌入式结构,或者照相机模块可以是单独模块,其包括要求的图像和音频捕捉和/或处理功能且其可附着于各种数据处理设备。
可以优选地在图像捕捉设备中将实施例的功能实现为计算机程序,该计算机程序当在中央处理单元CPU中或在专用数字信号处理器DSP中执行时,影响设备实现本发明的程序。可以将计算机程序SW的功能分布到相互通信的多个单独程序组件。可以将计算机软件存储到任何存储器装置,诸如PC的硬盘或CD-ROM盘,可以从那里将其加载到设备的存储器中。还可以通过例如使用TCP/IP协议栈的网络来加载计算机软件。
还可以使用硬件解决方案或硬件和软件解决方案的组合以实现本发明的装置。因此,可以将上述计算机程序产品至少部分地实现为硬件解决方案,例如,作为ASIC或FPGA电路,在包括用于将模块连接到电子设备的连接装置的硬件模块中,或者作为还包括用于执行所述程序代码任务的各种装置的一个或多个集成电路IC,硬件模块或IC,可以将所述装置实现为硬件和/或软件。
显而易见的是本发明不仅限于上面提出的实施例,而是可以在所附权利要求的范围内对其进行修改。

Claims (38)

1.一种方法,包括:
接收对应于覆盖预定时刻的时间段的多个图像;
使用音频接收装置来接收与多个图像相关联的音频信号;
分析接收到的音频信号以便确定与期望的输出图像相关联的音频事件;以及
基于接收到的音频信号的分析来选择多个图像中的至少一个以进行进一步处理以便获得期望的输出图像。
2.根据权利要求1所述的方法,其中,
接收多个图像包括响应于图像捕捉设备的用户发出在预定时刻释放快门的命令使用图像捕捉单元在覆盖预定时刻的时段期间捕捉多个图像;以及
接收音频信号包括使用音频捕捉装置捕捉与多个图像相关联的音频信号。
3.根据权利要求1或2所述的方法,还包括:
接收对应于预定时刻之前的第一时刻的多个图像。
4.根据任何前述权利要求所述的方法,还包括:
接收对应于预定时刻之后的第二时刻的多个图像。
5.根据任何前述权利要求所述的方法,其中,
所述音频接收装置包括一个或多个扩音器。
6.根据任何前述权利要求所述的方法,其中,
所述音频接收装置包括由两个或更多扩音器组成的扩音器阵列。
7.根据权利要求6所述的方法,还包括:
估计音频信号的到达方向,以便确定产生音频信号的对象在图像的期望部分中的时间。
8.根据权利要求7所述的方法,其中,使用基本上垂直于扩音器阵列地存在的、产生音频信号的对象来确定对象在图像的期望部分中的时间。
9.根据权利要求1-6中的任一项所述的方法,还包括:
估计接收到的音频信号的能量以便确定多个图像内的感兴趣的事件。
10.根据权利要求9所述的方法,其中,使用接收到的音频信号的能量的急剧变化来确定感兴趣的事件的期望时刻。
11.根据权利要求1-6中的任一项所述的方法,还包括:
估计接收音频信号的基频,以便从所述多个图像确定其中产生音频信号的对象最接近于提供所述多个图像的图像捕捉设备的至少一个图像。
12.根据权利要求11所述的方法,还包括:
使用基频的估计来选择其中产生音频信号的对象正在接近提供所述多个图像的图像捕捉设备的图像。
13.根据任何前述权利要求所述的方法,还包括:
获得关于提供所述多个图像的图像捕捉设备与产生音频信号的对象之间的距离的信息;以及
用所述距离上的由声速引起的延迟来调整音频信号的接收。
14.一种设备,包括:
图像接收单元,其用于接收对应于覆盖预定时刻的时间段的多个图像;
音频接收单元,其用于使用音频捕捉装置来接收与所述多个图像相关联的音频信号;
分析单元,其用于分析接收到的音频信号以便确定与期望的输出图像相关联的音频事件;以及
选择单元,其用于基于接收到的音频信号的分析来选择所述多个图像中的至少一个以进行进一步处理以便获得期望的输出图像。
15.根据权利要求14所述的设备,还包括
快门释放装置,其用于提供在预定时刻释放快门的命令以便接收至少一个图像;其中
所述图像接收单元包括用于在覆盖预定时刻的时段期间捕捉多个图像的图像捕捉单元,该图像接收单元可对所述设备的用户发出在预定时刻释放快门的命令进行响应;以及
所述音频接收单元包括用于使用音频捕捉装置来捕捉与多个图像相关联的音频信号的音频捕捉单元。
16.根据权利要求14或15所述的设备,其中
所述图像接收单元被布置为接收对应于所述预定时刻之前的第一时刻的多个图像。
17.根据权利要求14-16中的任一项所述的设备,其中
所述图像接收单元被布置为接收对应于预定时刻之后的第二时刻的多个图像。
18.根据权利要求14-17中的任一项所述的设备,其中
所述音频接收装置包括一个或多个扩音器。
19.根据权利要求14-18中的任一项所述的设备,其中
所述音频接收装置包括由两个或更多扩音器组成的扩音器阵列。
20.根据权利要求19所述的设备,其中:
所述分析单元被布置为估计由扩音器阵列捕捉的音频信号的到达方向,以便确定产生音频信号的对象在图像的期望部分中的时间。
21.根据权利要求20所述的设备,其中
所述分析单元被布置为当产生音频信号的对象基本上垂直于扩音器阵列地存在时确定对象在图像的期望部分中。
22.根据权利要求14-19中的任一项所述的设备,其中:
所述分析单元被布置为估计接收音频信号的能量以便确定所述多个图像内的感兴趣事件。
23.根据权利要求22所述的设备,其中
所述分析单元被布置为确定感兴趣事件的期望时刻是当存在接收到的音频信号的能量的急剧变化时。
24.根据权利要求14-19中的任一项所述的设备,其中
所述分析单元被布置为估计接收到的音频信号的基频,以便从所述多个图像确定其中产生音频信号的对象最接近于提供所述多个图像的图像捕捉设备的至少一个图像。
25.根据权利要求24所述的设备,其中
所述设备被布置为使用基频的估计来选择其中产生音频信号的对象正在接近提供所述多个图像的图像捕捉设备的图像。
26.根据权利要求14-25中的任一项所述的设备,其中,所述设备被布置为
获得关于提供所述多个图像的图像捕捉设备与产生音频信号的对象之间的距离的信息;以及
用所述距离上的由声速引起的延迟来调整音频信号的接收。
27.一种计算机程序产品,被存储在计算机可读介质上并可在数据处理设备中执行,以便控制图像捕捉,计算机程序产品包括:
用于接收对应于覆盖预定时刻的时间段的多个图像的计算机程序代码部分;
用于使用音频捕捉装置来接收与所述多个图像相关联的音频信号的计算机程序代码部分;
用于分析接收到的音频信号以便确定与期望输出图像相关联的音频事件的计算机程序代码部分;以及
用于基于接收到的音频信号的分析来选择所述多个图像中的至少一个以进行进一步处理以便获得期望的输出图像的计算机程序代码部分。
28.根据权利要求27所述的计算机程序产品,还包括:
用于接收多个图像的计算机程序代码部分包括可对数据处理设备的用户给出在预定时刻释放快门的命令进行响应、以便使用图像捕捉单元在覆盖预定时刻的时段期间捕捉多个图像的计算机程序代码部分;以及
用于接收音频信号的计算机程序代码部分包括用于使用音频捕捉装置来捕捉与多个图像相关联的音频信号的计算机程序代码部分。
29.根据权利要求27或28所述的计算机程序产品,还包括:
用于接收对应于预定时刻之前的第一时刻的多个图像的计算机程序代码部分。
30.根据权利要求27-29中的任一项所述的计算机程序产品,还包括:
用于接收对应于预定时刻之后的第二时刻的多个图像的计算机程序代码部分。
31.根据权利要求27-30中的任一项所述的计算机程序产品,还包括:
用于估计从由两个或更多扩音器组成的扩音器阵列接收到的音频信号的到达方向以便确定产生音频信号的对象在图像的期望部分中的时间的计算机程序代码部分。
32.根据权利要求31所述的计算机程序产品,还包括:
用于在产生音频信号的对象基本上垂直于扩音器阵列地存在时确定对象在图像的期望部分中的计算机程序代码部分。
33.根据权利要求27-30中的任一项所述的计算机程序产品,还包括:
用于估计接收音频信号的能量以便确定所述多个图像内的感兴趣事件的计算机程序代码部分。
34.根据权利要求33所述的计算机程序产品,还包括:
用于确定感兴趣事件的期望时刻与接收到的音频信号的能量的急剧变化一致的计算机程序代码部分。
35.根据权利要求27-30中的任一项所述的计算机程序产品,还包括:
用于估计接收到的音频信号的基频、以便从所述多个图像确定其中产生音频信号的对象最接近于提供所述多个图像的图像捕捉设备的至少一个图像的计算机程序代码部分。
36.根据权利要求35所述的计算机程序产品,还包括:
用于使用基频的估计来选择其中产生音频信号的对象正在接近提供所述多个图像的图像捕捉设备的图像的计算机程序代码部分。
37.根据任何前述权利要求所述的计算机程序产品,还包括:
用于获得关于提供所述多个图像的图像捕捉设备与产生音频信号的对象之间的距离的信息的计算机程序代码部分;以及
用于用所述距离上的由声速引起的延迟来调整音频信号的接收的计算机程序代码部分。
38.一种可连接到数据处理设备的照相机模块,该照相机模块包括:
图像捕捉单元,可对数据处理设备的用户发出在预定时刻释放快门的命令进行响应,以便在覆盖用于释放快门的预定时刻的时段期间捕捉多个图像;
音频捕捉单元,其用于使用音频捕捉装置来捕捉与多个图像相关联的音频信号;
分析单元,其用于分析所捕捉的音频信号以便确定与期望的输出图像相关联的音频事件;以及
选择单元,其用于基于所捕捉的音频信号的分析来选择所述多个图像中的至少一个以进行进一步处理以便获得期望的输出图像。
CN200980160265.5A 2009-06-30 2009-06-30 音频控制图像捕捉 Active CN102804060B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/FI2009/050597 WO2011001005A1 (en) 2009-06-30 2009-06-30 Audio-controlled image capturing

Publications (2)

Publication Number Publication Date
CN102804060A true CN102804060A (zh) 2012-11-28
CN102804060B CN102804060B (zh) 2016-08-03

Family

ID=43410532

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200980160265.5A Active CN102804060B (zh) 2009-06-30 2009-06-30 音频控制图像捕捉

Country Status (6)

Country Link
US (1) US9007477B2 (zh)
EP (1) EP2449426B1 (zh)
KR (1) KR101345472B1 (zh)
CN (1) CN102804060B (zh)
RU (1) RU2531023C2 (zh)
WO (1) WO2011001005A1 (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI528163B (zh) * 2012-04-25 2016-04-01 鴻海精密工業股份有限公司 省電監控系統及方法
KR101911347B1 (ko) * 2012-09-26 2018-10-25 삼성전자주식회사 동영상 캡처 방법과 그 동영상 재생 장치
CN103237132A (zh) * 2013-04-23 2013-08-07 上海斐讯数据通信技术有限公司 移动终端摄像头调节系统及方法
KR102288060B1 (ko) * 2014-08-06 2021-08-10 삼성전자 주식회사 피사체의 소리를 수신하는 방법 및 이를 구현하는 전자장치
US10170157B2 (en) * 2015-06-07 2019-01-01 Apple Inc. Method and apparatus for finding and using video portions that are relevant to adjacent still images
JP7103353B2 (ja) * 2017-05-08 2022-07-20 ソニーグループ株式会社 情報処理装置

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4862278A (en) 1986-10-14 1989-08-29 Eastman Kodak Company Video camera microphone with zoom variable acoustic focus
JPH10178619A (ja) 1996-12-19 1998-06-30 Nikon Corp 画像再生装置および電子カメラ
US6593956B1 (en) 1998-05-15 2003-07-15 Polycom, Inc. Locating an audio source
US6813395B1 (en) * 1999-07-14 2004-11-02 Fuji Photo Film Co., Ltd. Image searching method and image processing method
JP2008159049A (ja) * 1999-07-14 2008-07-10 Fujifilm Corp 画像記録システム
US7224385B2 (en) * 2001-04-27 2007-05-29 Sony Corporation Video camera with multiple microphones and audio processor producing one signal for recording
US6980485B2 (en) * 2001-10-25 2005-12-27 Polycom, Inc. Automatic camera tracking using beamforming
AU2004205225A1 (en) 2003-09-05 2005-03-24 Canon Kabushiki Kaisha Frontal Audio Source Location Using Very Closely Spaced Stereo Microphones
US7483618B1 (en) 2003-12-04 2009-01-27 Yesvideo, Inc. Automatic editing of a visual recording to eliminate content of unacceptably low quality and/or very little or no interest
JP2005181365A (ja) * 2003-12-16 2005-07-07 Olympus Corp 撮像装置
ATE485672T1 (de) * 2003-12-19 2010-11-15 Creative Tech Ltd Digitale standbildkamera mit audio-decodierung und -codierung, einem druckbaren audioformat und verfahren
JP4027340B2 (ja) 2004-04-20 2007-12-26 キヤノン株式会社 撮像装置及び撮像方法
US20090247245A1 (en) * 2004-12-14 2009-10-01 Andrew Strawn Improvements in or Relating to Electronic Headset Devices and Associated Electronic Devices
US7483061B2 (en) 2005-09-26 2009-01-27 Eastman Kodak Company Image and audio capture with mode selection
JP4670584B2 (ja) 2005-10-25 2011-04-13 ソニー株式会社 表示制御装置および方法、プログラム並びに記録媒体
KR100685979B1 (ko) * 2006-01-24 2007-02-26 (주) 하나계전 센서와 카메라를 이용한 보안 감시 시스템 및 방법
FR2913510B1 (fr) 2007-03-07 2009-07-03 Eastman Kodak Co Procede pour determiner automatiquement une probabilite de saisie d'images avec un terminal a partir de donnees contextuelles
US7817914B2 (en) * 2007-05-30 2010-10-19 Eastman Kodak Company Camera configurable for autonomous operation
JP2009110137A (ja) * 2007-10-29 2009-05-21 Ricoh Co Ltd 画像処理装置、画像処理方法及び画像処理プログラム

Also Published As

Publication number Publication date
RU2012101497A (ru) 2013-08-10
EP2449426B1 (en) 2019-10-16
KR20120018814A (ko) 2012-03-05
EP2449426A1 (en) 2012-05-09
CN102804060B (zh) 2016-08-03
US9007477B2 (en) 2015-04-14
US20120098983A1 (en) 2012-04-26
WO2011001005A1 (en) 2011-01-06
KR101345472B1 (ko) 2014-01-15
EP2449426A4 (en) 2015-05-27
RU2531023C2 (ru) 2014-10-20

Similar Documents

Publication Publication Date Title
US9788065B2 (en) Methods and devices for providing a video
CN102804060A (zh) 音频控制图像捕捉
JP4296197B2 (ja) 音源追跡のための配置及び方法
US20160100092A1 (en) Object tracking device and tracking method thereof
CN104092936A (zh) 自动对焦方法及装置
CN105812969A (zh) 一种拾取声音信号的方法、系统及装置
JP2015514239A5 (zh)
CN104185132A (zh) 声道配置方法、智能终端及相应系统
US20140337742A1 (en) Method, an apparatus and a computer program for determination of an audio track
US20140086551A1 (en) Information processing apparatus and information processing method
US9756421B2 (en) Audio refocusing methods and electronic devices utilizing the same
CN105245811A (zh) 一种录像方法及装置
KR20110121304A (ko) 음원 위치 산출 장치 및 그 방법
JP2011041096A (ja) 携帯端末、並びにこれに用いる集音制御方法及びプログラム
JP2009239346A (ja) 撮影装置
JP2009239348A (ja) 撮影装置
RU174044U1 (ru) Аудиовизуальный многоканальный детектор наличия голоса
JP2009177480A (ja) 撮影装置
CN109116341A (zh) 测距函数的建立方法、距离检测方法及装置、电子设备
KR101542647B1 (ko) 화자 검출을 이용한 오디오 신호 처리 방법 및 장치
KR20190016683A (ko) 마이크로폰 어레이를 이용한 회의록 자동작성장치
KR101155610B1 (ko) 음원 위치 표시 장치 및 그 방법
CN116095254B (zh) 音频处理方法和装置
CN115950521A (zh) 振动频率检测方法及检测装置、计算机设备及存储介质
JP2009239349A (ja) 撮影装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20160112

Address after: Espoo, Finland

Applicant after: Technology Co., Ltd. of Nokia

Address before: Espoo, Finland

Applicant before: Nokia Oyj

C14 Grant of patent or utility model
GR01 Patent grant