CN105765964A - 基于发言人位置移动摄像机聚焦 - Google Patents
基于发言人位置移动摄像机聚焦 Download PDFInfo
- Publication number
- CN105765964A CN105765964A CN201480064820.5A CN201480064820A CN105765964A CN 105765964 A CN105765964 A CN 105765964A CN 201480064820 A CN201480064820 A CN 201480064820A CN 105765964 A CN105765964 A CN 105765964A
- Authority
- CN
- China
- Prior art keywords
- objects
- image capture
- source position
- capture device
- focal plane
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/15—Conference systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/67—Focus control based on electronic image sensor signals
- H04N23/671—Focus control based on electronic image sensor signals in combination with active ranging signals, e.g. using light or sound signals emitted toward objects
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/41—Structure of client; Structure of client peripherals
- H04N21/422—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
- H04N21/4223—Cameras
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/478—Supplemental services, e.g. displaying phone caller identification, shopping application
- H04N21/4788—Supplemental services, e.g. displaying phone caller identification, shopping application communicating with other users, e.g. chatting
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/61—Control of cameras or camera modules based on recognised objects
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/61—Control of cameras or camera modules based on recognised objects
- H04N23/611—Control of cameras or camera modules based on recognised objects where the recognised objects include parts of the human body
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/63—Control of cameras or camera modules by using electronic viewfinders
- H04N23/633—Control of cameras or camera modules by using electronic viewfinders for displaying additional information relating to control or operation of the camera
- H04N23/635—Region indicators; Field of view indicators
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/695—Control of camera direction for changing a field of view, e.g. pan, tilt or based on tracking of objects
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- General Engineering & Computer Science (AREA)
- Studio Devices (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
图像采集设备包括从麦克风阵列接收指定音源位置的距离和角方向信息的接收器。该设备还包括基于音源位置确定是否改变视场内初始焦平面的控制器。该设备包括聚焦调整器,该聚焦调整器基于控制器的确定,调整光学聚焦设置以从初始焦平面改变至视场内随后的焦平面,以聚焦位于音源位置的至少一个感兴趣对象。
Description
技术领域
本文描述的实施例一般地涉及图像采集设备中的方法、非暂时性计算机可读存储介质、以及音频辅助光学聚焦设置调整系统。更特别地,本公开的实施例涉及图像采集设备的方法、非暂时性计算机可读存储介质、以及调整光学聚焦设置的系统,以使得基于来自发言人的音频聚焦到发言人。
背景技术
在有多人出席的会议室或环境中,若干发言人可就座在围绕会议室的不同位置。确定发言人位于何处通常是困难的。特别是在采集的会议室图像被远程观察的情况下,远程观察者可能不具有亲自出席者获得的体验的相同宽度和深度,因为远程观察者可能无法确定哪位发言人正在讲话。
附图说明
当连同附图被考虑时,通过参考下列详细描述,本公开更完整的理解以及其中许多伴随的优势将被容易地获得,这些内容也将变得更好理解,其中:
图1示出了实现本文描述的发言人辅助聚焦方法的图像采集设备的示例图;
图2示出了发言人辅助聚集系统的示例图;
图3示出了对应于图2中发言人辅助聚集系统图的示例性图像帧;
图4示出了发言人辅助聚焦系统的示例性配置;
图5示出了对应于图4中发言人辅助聚焦系统图的示例性图像帧;
图6示出了发言人辅助聚焦系统的示例性配置;
图7示出了对应于图6中发言人辅助聚焦系统图的示例性图像帧;
图8示出了发言人辅助聚焦方法的示例过程流程图;
图9示出了发言人辅助聚焦方法的示例过程流程图;以及
图10示出了示例性计算机。
具体实施方式
概览
根据本公开的一个方面,图像采集设备包括接收器,该接收器从麦克风阵列接收指定音源位置的距离和角方向信息。图像采集设备还包括控制器,该控制器基于音源位置的被检测改变确定是否改变初始焦平面至图像帧视场内随后的焦平面。图像采集设备还包括聚焦调整器,该聚焦调整器基于由控制器确定的位置调整光学聚焦设置,以使得从初始焦平面改变至视场内随后的焦平面以聚焦于位于音源位置的至少一个感兴趣对象。
尽管此发明以许多不同的形式容许实施例,存在于附图中示出以及将在本文被详细描述的原理的具体示例,且不旨在将本发明限制于所示出和描述的具体示例。在下面的描述中,相同的参考标号被用于描述附图的若干视图中相同、类似或相应的部分。
如本文所使用的,术语“一”或“一个”被定义为一个或多于一个。如本文所使用的,术语“多个”被定义为两个或多于两个。如本文所使用的,术语“另一个”被定义为至少第二个或更多。如本文所使用的,术语“包括”和/或“具有”被定义为包含(也就是说,开放性语言)。如本文所使用的,术语“程序”或“计算机程序”或类似术语,被定义为被设计用于在计算机系统的电路上执行的指令序列,不论在单一机架内或分布于若干设备中。“程序”、或“计算机程序”,可包括可执行应用、小应用程序(applet)、小服务程序(servlet)、源代码、对象代码、共享库/动态加载库和/或其他被设计用于在计算机系统上执行的指令序列中的子程序、程序模块、脚本、函数、程序、对象方法、对象实现。
贯穿本文的引用“一个实施例”、“某些实施例”、“实施例”、“实现”、“示例”或类似术语意味着关于示例被描述的特定特征、结构、或特性被包括在本公开的至少一个示例内。因此,这些短语的出现或在贯穿此说明书的各处不必都指同一示例。此外,特定的特性、结构、或特性可不受限制地以任何适当方式被组合到一个或多个示例中。
如本文所使用的,术语“或”将被解释为包容性或意味着任意一个或任意组合。因此,“A、B或C”意味着“下列项的任意一个:A;B;C;A和B;A和C;B和C;A、B和C”。此定义的例外将仅发生在当元件、函数、步骤、或动作的组合是以某种内在地相互排斥的方式时。
由于摄像机限制,在一个端点的所有参与者在图像帧内可以是可见的,但这些所有参与者可能不能容纳于图像采集设备的当前光学聚焦设置指定的感兴趣区域内。例如,一个参与者可位于摄像机的第一焦平面内,但另一参与者可能位于不同的像平面。为了克服此限制,源于相关目标(例如,当前发言人)的音频数据被获取,并被用于将图像采集设备的光学聚焦设置改变为聚焦相关目标的新光学聚焦设置。因此,在另一端点的观察者将看到在第一端点正在发言的人的聚焦图像,以及当第二个人是主要发言人时,随后看到在第一端点的第二个人的聚焦图像。
图1示出了实现本文描述的发言人辅助聚焦方法的示例性图像采集设备的示图。图像采集设备100包括接收器102,该接收器102接收由麦克风阵列提取的指定音源位置的距离和角方向信息。例如,音源是诸如当前发言人的正在发言的人。图像采集设备100还包括控制器104,除其他功能外,控制器104确定是否调整图像采集设备的云台变焦(pan-tilt-zoom)设置,以及控制此设置的调整。控制器104还确定是否调整图像采集设备的光学聚焦设置以及控制此设置的调整。控制器104基于音源的位置以及可选择地基于关于音源本身做出的确定,做出这些确定并控制这些调整。控制器104可选择地使用面部检测处理和被存储的映射的任一个或二者以确定是否调整图像采集设备100的云台变焦设置或光学聚焦设置。要注意的是,面部检测处理不需必须检测完整的正面面部图像。例如,轮廓、部分面部、上身、以及步态是利用检测处理可检测的。
上面描述的映射被存储在图像采集设备100中的存储器106内。这些映射指定关于空间布置被指定的位置和(在最低限度)面部之前在该位置是否被检测的指示之间的对应关系。映射不被限制于仅指定与指示的对应关系;例如,除了该指示以外或代替该指示,检测面部的图像是可存储的。
在一个非限制性示例中,控制器104确定云台变焦设置必须被改变,并且控制图像采集设备100中的云台变焦控制器110以调整此设置。云台变焦控制器110改变云台变焦设置以使得在图像采集设备的视场(或图像帧)内包括由麦克风阵列提取的音源,例如,人。控制器104还确定光学聚焦设置必须被改变,并且控制图像采集设备100中的聚焦调整器108以调整此设置。聚焦调整器108调整光学聚焦设置以便聚焦由麦克风阵列提取的音源,例如,人。
要注意到的是,实现发言人辅助聚焦方法的图像采集设备不被限制于图1中示出的配置。例如,接收器102、控制器104、存储器106的每个在图像采集设备100中实现是不必要的。替代地或额外地,存储器106和控制器104可实现在图像采集设备100之外。
图像采集设备100通过下列一项或多项是可实现的,但不限于:摄像机、手机、数码相机、台式计算机、笔记本电脑、以及触摸屏设备。接收器102、控制器104、聚焦调整器108、以及云台变焦控制器110通过下列一项或多项被控制或是可实现的,但不限于:电路、计算机、可编程处理器。这些元件赖以被实现以及这些元件赖以被控制的硬件以及硬件/软件组合的其他示例在下面被描述。例如,存储器106通过随机访问存储器(RAM)是可实现的。存储器的其他示例在下面被描述。
图2示出了本文描述的发言人辅助聚焦系统的示例性示图。更具体地,图2示出了显示屏200、摄像机202、以及麦克风阵列204。麦克风阵列204包括取决于发言人辅助聚焦系统被部署在其中的空间或区域的尺寸和声学的可变数目的麦克风。在一个非限制性示例中,由麦克风阵列204提供的指示通过来自深度传感器或运动传感器的数据来补充或适应。当用户206a、206b、206c、206d、206e、206f、206g、206h、206i、206j、206k、以及206l中的一个开始谈话时,麦克风阵列204采集正在发言的用户的距离和角方向,并经由有线或无线链路向摄像机202提供此信息。
摄像机202通过聚焦调整器,例如基于调整光学聚焦距离,使用此信息改变其光学聚焦设置。对应于经调整的光学聚焦距离的焦平面内对象是“焦点对准的”或“聚焦其上的”。这些对象是感兴趣对象。视场208包括摄像机202可见的每件事物(也就是说,被一个或多个摄像机202“看见”的每件事物)。图2中,视场208包括所有用户206a、206b、206c、206d、206e、206f、206g、206h、206i、206j、206k、以及206l;因此,改变视场208是不必要的。在非限制性示例中,视场208通过摄像机202中的云台变焦控制器被改变以使得,或许,采集视场208中的另外未看见的用户。
图2示出的示例性配置中,用户206a开始谈话且摄像机202,当检测到用户206a发言时,调整其光学聚焦设置以使得聚焦用户206a。用户206a位于对应于经调整的聚焦距离的焦平面内。如图2所示,以这种方式,用户206a变为感兴趣对象。其余未谈话的用户206b、206c、206d、206e、206f、206g、206h、206i、206j、206k、以及206l未被聚焦于其上,且通过图2中具有圆角的形状被表示为非发言用户。图2中还示出显示屏200,该显示屏显示感兴趣对象(当前正在发言的用户206a)的图像或视频。这有助于其他用户206b、206c、206d、206e、206f、206g、206h、206i、206j、206k、以及206l确定发言人的身份以及发言人语音的内容。
图3示出了由摄像机202显示的示例性图像帧212(对应于图2中的视场208),其中,用户206a、206b、206c、206d、206e、206f、206g、206h、206i、206j、206k、以及206l是可见的。用户206a是聚焦于其上的感兴趣对象,且在图3中由黑色虚线轮廓表示。用户206b、206c、206d、206e、206f、206g、206h、206i、206j、206k、以及206l未被聚焦其上并利用模糊轮廓被表示为非发言用户。作为边注,任何其他用户也可位于与用户206a相同的焦平面并因此也可以是焦点对准的,除非可选择的模糊滤波器被用于模糊感兴趣区域之外的图像。在图3的示例中,在一个非限制性实施例中,图像帧212被显示在摄像机202的取景器上并由感兴趣区域210注释。对应于视场208的一部分的感兴趣区域210通过摄像机202的控制器被确定并包括感兴趣对象的至少一部分。控制器将图像帧212中的感兴趣区域210显示为围绕感兴趣对象的一部分的框体,也就是说,围绕用户260a的头部。
在图4中,发言人辅助聚焦系统的另一示例性配置被示出。此示例与图2示出的示例的不同之处在于视场208不包括所有用户206a、206b、206c、206d、206e、206f、206g、206h、206i、206j、206k、以及206l。图4示出用户206d和206e如何位于摄像机202的视场208之外。当用户206i和206j的一个开始发言,摄像机202的光学聚焦设置被调整以使得用户206i和206j被聚焦其上且用户206a不再被聚焦其上。
并非仅一个感兴趣对象,图4示出了两个感兴趣对象正被聚焦其上;这是因为用户206i和206j二者在对应于经调整的光学聚焦距离的焦平面内是相互邻近的。多个感兴趣对象可存在,例如,当一个用户206i开始发言并太靠近另一用户(例如,206j)而不能仅聚焦正在发言的用户206i时。作为另一示例,当用户206i和206j同时发言时,摄像机202可聚焦多个感兴趣对象。作为又另一示例,当用户206i和206j轮流发言,但快速连续地发言时,摄像机202可聚焦多个感兴趣对象以避免过快地改变感兴趣对象。进一步分析此示例,当以少于预定时间周期(例如,10秒)发生多于一个的发言人改变时,摄像机聚焦多个感兴趣对象。过于频繁地改变感兴趣对象对观察者来说可以是破坏性的并可导致“晕动病”。
图5示出了由摄像机202显示的示例性图像帧212(对应于图4),其中,用户206a、206b、206c、206f、206g、206h、206i、206j、206k、以及206l是可见的。用户206i和206j是感兴趣对象且被聚焦其上;这些感兴趣对象由黑色轮廓表示。用户206b、206c、206f、206g、206h、206k、以及206l未被聚焦其上且由模糊轮廓表示。如上面讨论的,对应于视场208的一部分的感兴趣区域210通过摄像机202中的控制器被确定,且包括感兴趣目标的至少一部分。控制器在被显示于摄像机202的取景器上的图像帧212中显示感兴趣区域210为围绕感兴趣对象的各部分的框体,也就是说,围绕用户260i和用户206j的头部。
在图6中,发言人辅助聚焦系统的另一示例性配置被示出。当用户206d开始讲话时,在调整光学聚焦设置以聚焦用户206d之前,摄像机202必须将视场208从图4中示出的视场改变至图6中示出的视场。由于用户206i和206j不再是感兴趣对象,用户206i和206j通过圆角被表示为非发言用户。摄像机202随后调整其光学聚焦设置以聚焦作为感兴趣对象的用户206d。用户206d在对应于调整的聚焦距离的焦平面中。
图7示出了由摄像机202显示的示例性图像帧212(对应于图6),其中,用户206a、206b、206c、206d、206e、206f、206g、206h、206i、206j、206k、以及206l是可见的。作为感兴趣对象的用户206d被聚集其上并由黑色轮廓表示。用户206a、206b、206c、206e、206f、206g、206h、206i、206j、206k、以及206l未被聚焦其上并通过模糊轮廓被表示为非发言用户。如上面讨论的,对应于视场208的一部分的感兴趣区域210通过摄像机202中的控制器被确定,且包括感兴趣目标的至少一部分。控制器在图像帧212中显示感兴趣区域210,图像帧212作为围绕感兴趣对象的一部分的框体(也就是说,围绕用户260d的头部),被显示于摄像机202的取景器上。
在图8中,发言人辅助聚焦方法的示例性过程流程图被示出。在步骤S800中,发言人开始讲话,且麦克风阵列从发言人的语音中提取音频并确定发言人的距离和角方向。在步骤S802中,距离和角方向信息从麦克风阵列被提供至摄像机。在步骤S804中,摄像机中的控制器关于是否改变云台变焦设置以及关于是否改变光学聚焦设置做出确定。在步骤S806中,基于步骤S804中做出的确定,摄像机中的云台变焦控制器改变云台变焦设置且聚焦调整器改变光学聚焦设置。当感兴趣对象在视场内时,云台变焦设置通常不再被改变,且焦平面被改变以与在该时刻正在发言的用户对应。
在图9中,在图8的步骤S804中描述的确定过程的示例性过程流程图被示出。初始地,在步骤S900中,关于空间布局内对应于由麦克风阵列指示的发言人(例如,图4中示出的用户206d)的距离和角方向信息的位置是否在摄像机的视场内做出确定。在步骤S902中,若此位置不在视场内,则摄像机使用云台变焦控制器调整云台变焦设置并随后使用聚焦调整器调整光学聚焦设置,以聚焦感兴趣对象,例如,如图6所示的用户206d。此步骤通过改变图4和图6之间视场208被描绘。若此位置在视场208内,例如,如图2所示的用户206i,则摄像机不需要改变视场208。随后,在步骤S904中,关于该位置是否与对应于当前光学聚焦距离的当前焦平面中的感兴趣对象相应做出确定。在步骤S906中,若此位置在视场中且此位置不对应于当前焦平面中的感兴趣对象,例如,如图2所示的用户206a,则使用聚焦调整器仅调整光学聚焦设置以包括感兴趣对象,如图4所示的用户206i(以及用户206j)。此步骤在图2和图4之间焦平面以及相应的光学聚焦距离的改变中被描绘。若此位置在视场中且对应于当前焦平面中的感兴趣对象,在步骤S908中,无调整必要的确定被做出。
面部检测
在一个非限制性示例中,在改变视场或感兴趣区域以包括感兴趣对象之前,额外的确定被做出。在一些实例中,发言人的语音可从摄像机和麦克风阵列所在空间的表面反射离开。为了确认获得的音源对应于发言人且不是话音的反射,面部检测过程被执行。在上面做出的视场和感兴趣区域以及感兴趣对象的确定之外,关于面部在麦克风阵列指示的位置是否被检测的确定被做出。在此位置检测到面部确认了发言人的存在,而不是音频反射,并增加了发言人辅助聚焦系统和方法的精度。如上面描述的,面部检测是利用使用诸如轮廓、部分面部、上身、以及步态之类检测期望音源(例如,人)的检测过程可补充的或可替代的示例性检测方法。
存储发言人位置以及面部检测映射
在另一非限制性示例中,摄像机、或其他外部存储器被使能,以存储空间布局中基于来自麦克风阵列的信息获得的位置(也就是说,发言人位置)和被检测面部的指示之间的预定数目映射。例如,当发言人开始讲话并转动头部以致其面部不可检测时,摄像机使用映射以“记忆”麦克风阵列之前指示此位置作为发言人位置以及面部之前在此位置被检测到。不管面部当前不能被检测的事实,例如,发言人被确定为可能位于此位置而不是音频反射。
面部以及语音识别
在另一非限制性示例中,在执行面部检测之后或代替执行面部检测,摄像机或外部设备执行面部识别。被采集或检测的面部与存储于摄像机可存取的数据库内预先存储的面部图像比较。在又另一非限制性示例中,使用存储于摄像机可存取的数据库内预先存储的语音序列,所提取的音频被用于执行语音识别。这些示例性和额外层次的处理为发言人辅助聚焦方法提供了提高的精度。在又另一非限制性示例中,对应于被识别面部的身份信息被显示在显示屏上,与感兴趣对象一起或代替感兴趣对象。例如,企业或政府发布的证件照片可被显示在显示屏上。
档案信息
在一个非限制性示例中,被摄像机搜索以发现匹配面部或语音序列的数据库的部分,被会议出席者约束,该会议出席者注册为日期、时间、以及空间位置的预定组合。对该数据库的约束减少了识别面部或语音所要求的处理资源。
手势检测
在一个非限制实施例中,感兴趣区域被设置以使得包括当前正在讲话的发言人,并随后基于检测发言人的手势被改变。作为非限制性示例,初始感兴趣区域可聚焦发言人的面部,以及随后的感兴趣区域可聚焦发言人正在其上书写的白板;改变感兴趣区域以包括在白板上书写的文本可被下列任意一项触发,但不限于:手臂运动、手部运动、标记人员所做的标记、依附于标记人员的识别标签(例如,射频识别标签)的移动。作为另一非限制性示例,发言人可以是使用激光笔在高射投影仪上指定某些区域的演讲者;改变感兴趣区域以包括由激光笔指定的区域可被下列任意一项触发,但不限于:与激光笔相关联的频率的检测以及与激光笔相关联的颜色的检测。
模糊滤波器
在一个非限制性实施例中,使用例如模糊滤波器,不包括感兴趣对象的一个或多个对象被示出为焦点未对准或“模糊的”。例如,参与对话的两个发言人可被示出焦点对准的,而剩下的出席者被模糊以防止分散注意力。在另一非限制性实施例中,例如,对应于头部以下用户身体的感兴趣对象的部分(不在感兴趣区域中)不被模糊。
应用环境
尽管上面描述的示例关于聚焦室内空间的发言人已被阐述,跟踪其他每个均产生音频的感兴趣对象(例如,车辆、体育运动员、以及动物)是可预见的。此外,本发明不被限制于在室内被实现;麦克风阵列的强度和精度、以及可选择的伴随传感器,使得本发明在包括室外应用的各种应用中是可实现的。
在非限制性示例中,用户206a、206b、206c、206d、206e、206f、206g、206h、206i、206j、206k、以及206l是轮流发言的会议发言人或出席者。在另一个非限制性示例中,用户206a、206b、206c、206d、206e、206f、206g、206h、206i、206j、206k、以及206l是向位于远处的教授参与以及提问问题的远程教育学生。在又另一非限制性示例中,用户206a、206b、206c、206d、206e、206f、206g、206h、206i、206j、206k、以及206l是向访问者提问的脱口秀观众。在又另一非限制性示例中,用户206a、206b、206c、206d、206e、206f、206g、206h、206i、206j、206k、以及206l是电视节目(例如,真人秀)的演员。
调整帧边缘
在非限制性实施例中,图像帧边缘基于发言人位置被动态调整以使得以指定的方式将发言人包含在图像帧中。帧边缘被调整,以通过在图像帧内以指定量向左或向右移动发言人,向发言人正在讲话的对象传送空间内发言人的位置,该指定量取决于发言人和预先定义的中心轴之间的距离。
在另一非限制性实施例中,图像帧边缘基于发言人面对的方向被动态调整。发言人头部的朝向影响发言人在图像帧中的水平影像;若发言人把目光从预先定义的中心轴移开,则发言人在图像帧中被居中,并且帧边缘被调整以包括发言人面部前面的更多空间。
在一个非限制性实施例中,帧边缘根据视频组成规则被自动调整;这有利地减少了观察者的认知负荷、更接近地符合观察者对电视和电影产品的预期、以及提高了体验的整体质量。在非限制性示例中,当发言人向摄像机发言时,组成规则可采集与白板相关联的环境,同时摄像机仍然在跟踪发言人。
图10是示出了计算机1000的硬件配置的示例的框图,计算机1000可被配置为执行摄像机202和麦克风阵列204的功能的其中一个或组合,例如,确定处理。
如图10所示,计算机1000包括经由一个或多个总线1008彼此互联的中央处理单元(CPU)1002、只读存储器(ROM)1004、以及随机访问存储器(RAM)1006。一个或多个总线1008还与输入-输出接口1010连接。输入-输出接口1010与由键盘、鼠标、麦克风、远程控制器等形成的输入部分1012连接。输入-输出接口1010还与由音频接口、视频接口、显示器、扬声器等形成的输出部分1014连接;记录部分1016由硬盘、非易失性存储器或其他非暂态计算机可读存储介质形成;通信部分1018由网络接口、调制解调器、USB接口、火线接口等形成;以及驱动诸如磁盘、光盘、磁光盘、半导体存储器等之类的可移动介质1022的驱动1020。
根据一个示例,CPU1002经由输入-输出接口1010以及总线1008将存储于记录部分1016的程序加载到RAM1006内,并然后执行被配置为提供摄像机202和麦克风阵列204的功能的其中一个或组合的功能的程序,例如,确定处理。
本领域技术人员将认识到,通过考虑上面的教导,上面示例中的某些示例(例如,使用摄像机202和麦克风阵列204)基于程序化处理器的使用。然而,本公开的示例不限于这些示例,因为使用等效硬件组件(例如,专用硬件和/或专用处理器),其他示例可被实现。类似地,通用计算机、基于微处理器的计算机、微控制器、光计算机、模拟计算机、专用处理器、专用电路和/或专用硬布线逻辑可被用于构建替代的等效示例。
本领域技术人员将认识到,通过考虑上面的教导,在不脱离本发明的某些示例的情况下,被用于实现上面描述的某些示例的操作和处理(例如,通过摄像机202和麦克风阵列204的操作和处理)以及相关联的数据,可使用磁盘存储以及其他形式的存储被实现,例如,包括例如只读存储器(ROM)设备、随机访问存储器(RAM)设备、网络存储器设备、光存储元件、磁存储元件、磁光储器元件、闪存、核心存储器和/或其他等效易失性和非易失性存储技术的非暂态存储设备。术语非暂态不表明在断电或其他动作的情况下,信息不会丢失。这些替代存储设备应被认为是等效的。
使用一个或更多执行程序指令的程序化处理器,本文描述的某些示例被实现或可被实现,这些程序指令以可被存储于任意适当电性可读存储介质或计算机可读存储介质上的流程图的形式在上面被宽泛地描述。然而,本领域技术人员将认识到,通过考虑本公开,上面描述的处理可以以任意数目的变化以及以许多适当的编程语言被实现,而不脱离本公开的示例。例如,被执行的某些操作的顺序经常可被改变、额外的操作可被添加或操作可被删除,而不脱离本公开的示例。这些变化是预期的且被认为等效的。
尽管某些说明性的示例已被描述,明显的是,根据前面的描述,许多替代、修改、置换以及变化对于本领域技术人员将变得显而易见。
Claims (20)
1.一种图像采集设备,包括:
接收器,所述接收器从麦克风阵列接收指定音源位置的距离和角方向信息;
控制器,所述控制器包括基于所述音源位置确定是否改变视场内初始焦平面的处理电路;以及
包括聚焦调整电路的聚焦调整器,所述聚焦调整器基于所述控制器做出的确定,调整光学聚焦设置以从所述初始焦平面改变至所述视场内随后的焦平面,以聚焦位于所述音源位置的至少一个感兴趣对象。
2.如权利要求1所述的图像采集设备,还包括;
存储对应于所述至少一个感兴趣对象的图像数据以及音源位置的映射的存储器。
3.如权利要求2所述的图像采集设备,其中,所述存储器基于若干感兴趣对象的至少一个存储预定数目的映射以及空间的尺寸,所述若干感兴趣对象包括所述图像采集设备位于其中的所述空间内的所述至少一个感兴趣对象。
4.如权利要求1所述的图像采集设备,还包括;
模糊滤波器,所述模糊滤波器模糊视场中不在随后的焦平面内或不包括于所述至少一个感兴趣对象中的对象。
5.如权利要求1所述的图像采集设备,其中,所述控制器确定与所述随后的焦平面相关的感兴趣区域,所述随后的焦平面包括所述至少一个感兴趣对象。
6.如权利要求5所述的图像采集设备,其中,所述感兴趣区域包括仅一个感兴趣对象,所述感兴趣对象对应于被确定与所述音源位置相关联的人。
7.如权利要求5所述的图像采集设备,其中,所述感兴趣区域仅包括所述至少一个感兴趣对象的一部分。
8.如权利要求1所述的图像采集设备,其中,所述图像采集设备是下述项中的一个:摄像机、手机、数码相机、台式计算机、笔记本电脑、以及触摸屏设备。
9.如权利要求1所述的图像采集设备,其中,当采集图像数据时,所述聚焦调整器实时调整所述光学聚焦设置。
10.一种控制图像采集设备的方法,包括:
从麦克风阵列接收指定音源位置的距离和角方向信息;
基于所述音源位置,通过所述图像采集设备中的处理电路确定是否改变视场内的初始焦平面;
基于所述确定,通过所述图像采集设备中的聚焦调整电路,调整光学聚焦设置以从所述初始焦平面改变至所述视场内随后的焦平面,以聚焦位于所述音源位置的至少一个感兴趣对象。
11.如权利要求10所述的方法,还包括:在所述音源位置检测面部。
12.如权利要求10所述的方法,还包括:在所述音源位置识别面部。
13.如权利要求10所述的方法,还包括:
基于语音识别,识别对应于所述音源位置的人的身份。
14.如权利要求13所述的方法,还包括:
在从所述图像采集设备的显示器分离的显示器上显示对应于所述人的所述身份的信息。
15.如权利要求10所述的方法,还包括:
检测邻近于所述音源位置的用户手势;以及
通过所述聚焦调整电路,调整所述光学聚焦设置以聚焦对应于所述用户手势被检测的位置的区域。
16.如权利要求10所述的方法,其中,在所述视场内且在所述随后的焦平面之外的不包括所述至少一个感兴趣对象的对象未被焦点对准。
17.如权利要求10所述的方法,还包括:
通过所述处理电路,确定与包括所述至少一个感兴趣对象的所述随后的焦平面相关的感兴趣区域,以及
在由所述图像采集设备显示的图像帧上显示所述感兴趣区域。
18.如权利要求10所述的方法,还包括:
当彼此预定距离内的多个音源位置被标识、所述多个音源位置包括所述音源位置时,通过所述聚焦调整电路,调整所述光学聚焦以聚焦包括多个感兴趣对象的另一焦平面。
19.如权利要求10所述的方法,还包括:
当所述音源位置在预定时间段结束之前改变时,通过所述聚焦调整电路,调整所述光学聚焦以聚焦包括多个感兴趣对象的另一平面。
20.在一个或多个有形介质上被编码用于执行的逻辑,以及被执行时,所述逻辑可操作于:
从麦克风阵列接收指定音源位置的距离和角方向信息;
基于所述音源位置,使用电路确定是否改变视场内的初始焦平面;以及
基于所述确定,调整光学聚焦设置以从所述初始焦平面改变至所述视场内随后的焦平面,以聚焦位于所述音源位置的至少一个感兴趣对象。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US14/092,002 US20150146078A1 (en) | 2013-11-27 | 2013-11-27 | Shift camera focus based on speaker position |
US14/092,002 | 2013-11-27 | ||
PCT/US2014/066747 WO2015080954A1 (en) | 2013-11-27 | 2014-11-21 | Shift camera focus based on speaker position |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105765964A true CN105765964A (zh) | 2016-07-13 |
Family
ID=52146687
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201480064820.5A Pending CN105765964A (zh) | 2013-11-27 | 2014-11-21 | 基于发言人位置移动摄像机聚焦 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20150146078A1 (zh) |
EP (1) | EP3075142A1 (zh) |
CN (1) | CN105765964A (zh) |
WO (1) | WO2015080954A1 (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018090825A1 (zh) * | 2016-11-15 | 2018-05-24 | 杭州海康威视数字技术股份有限公司 | 一种自动聚焦方法及ptz摄像机 |
CN109151370A (zh) * | 2018-09-21 | 2019-01-04 | 上海赛连信息科技有限公司 | 智能视频系统和智能控制终端 |
WO2019011189A1 (zh) * | 2017-07-12 | 2019-01-17 | 中兴通讯股份有限公司 | 会议电视的音视频采集方法、装置和终端设备 |
CN109819159A (zh) * | 2018-12-30 | 2019-05-28 | 深圳市明日实业有限责任公司 | 一种基于声音追踪的图像显示方法以及系统 |
CN110310642A (zh) * | 2018-03-20 | 2019-10-08 | 阿里巴巴集团控股有限公司 | 语音处理方法、系统、客户端、设备和存储介质 |
CN111602414A (zh) * | 2018-01-16 | 2020-08-28 | 谷歌有限责任公司 | 视频会议期间控制音频信号聚焦说话者 |
CN112806020A (zh) * | 2018-10-05 | 2021-05-14 | 脸谱公司 | 基于向图像捕获设备标识捕获的视频数据中的感兴趣对象修改图像捕获设备对视频数据的捕获 |
CN113315941A (zh) * | 2020-02-26 | 2021-08-27 | 株式会社理光 | 信息处理系统、装置、方法以及房间、存储介质、计算机装置 |
CN115136581A (zh) * | 2020-02-14 | 2022-09-30 | 诺基亚技术有限公司 | 多媒体内容 |
Families Citing this family (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102154528B1 (ko) * | 2014-02-03 | 2020-09-10 | 엘지전자 주식회사 | 이동 단말기 및 그 제어 방법 |
US10412342B2 (en) | 2014-12-18 | 2019-09-10 | Vivint, Inc. | Digital zoom conferencing |
US10417883B2 (en) | 2014-12-18 | 2019-09-17 | Vivint, Inc. | Doorbell camera package detection |
DE102015210879A1 (de) * | 2015-06-15 | 2016-12-15 | BSH Hausgeräte GmbH | Vorrichtung zur Unterstützung eines Nutzers in einem Haushalt |
JP6528574B2 (ja) | 2015-07-14 | 2019-06-12 | 株式会社リコー | 情報処理装置、情報処理方法、および情報処理プログラム |
JP2017028375A (ja) | 2015-07-16 | 2017-02-02 | 株式会社リコー | 映像処理装置、及びプログラム |
JP2017028633A (ja) | 2015-07-27 | 2017-02-02 | 株式会社リコー | 映像配信端末、プログラム、及び、映像配信方法 |
US20170070668A1 (en) * | 2015-09-09 | 2017-03-09 | Fortemedia, Inc. | Electronic devices for capturing images |
EP3151534A1 (en) * | 2015-09-29 | 2017-04-05 | Thomson Licensing | Method of refocusing images captured by a plenoptic camera and audio based refocusing image system |
US9769419B2 (en) | 2015-09-30 | 2017-09-19 | Cisco Technology, Inc. | Camera system for video conference endpoints |
CN105357442A (zh) | 2015-11-27 | 2016-02-24 | 小米科技有限责任公司 | 摄像头拍摄角度调整方法及装置 |
CN105812717A (zh) * | 2016-04-21 | 2016-07-27 | 邦彦技术股份有限公司 | 多媒体会议控制方法及服务器 |
US9992429B2 (en) * | 2016-05-31 | 2018-06-05 | Microsoft Technology Licensing, Llc | Video pinning |
US9866916B1 (en) | 2016-08-17 | 2018-01-09 | International Business Machines Corporation | Audio content delivery from multi-display device ecosystem |
CN108063909B (zh) * | 2016-11-08 | 2021-02-09 | 阿里巴巴集团控股有限公司 | 视频会议系统、图像跟踪采集方法及装置 |
EP3358852A1 (en) * | 2017-02-03 | 2018-08-08 | Nagravision SA | Interactive media content items |
US20180234674A1 (en) * | 2017-02-14 | 2018-08-16 | Axon Enterprise, Inc. | Systems and methods for determining a field of view |
US10433051B2 (en) * | 2017-05-29 | 2019-10-01 | Staton Techiya, Llc | Method and system to determine a sound source direction using small microphone arrays |
JP2019062448A (ja) * | 2017-09-27 | 2019-04-18 | カシオ計算機株式会社 | 画像処理装置、画像処理方法及びプログラム |
CN108513063A (zh) * | 2018-03-19 | 2018-09-07 | 苏州科技大学 | 一种自动捕捉的智能会议拍摄系统 |
US11521390B1 (en) | 2018-04-30 | 2022-12-06 | LiveLiveLive, Inc. | Systems and methods for autodirecting a real-time transmission |
US10735882B2 (en) | 2018-05-31 | 2020-08-04 | At&T Intellectual Property I, L.P. | Method of audio-assisted field of view prediction for spherical video streaming |
CN111263062B (zh) * | 2020-02-13 | 2021-12-24 | 北京声智科技有限公司 | 一种视频拍摄控制方法、装置、介质和设备 |
US11563783B2 (en) * | 2020-08-14 | 2023-01-24 | Cisco Technology, Inc. | Distance-based framing for an online conference session |
JP6967735B1 (ja) * | 2021-01-13 | 2021-11-17 | パナソニックIpマネジメント株式会社 | 信号処理装置及び信号処理システム |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070019077A1 (en) * | 2003-06-27 | 2007-01-25 | Park Sang R | Portable surveillance camera and personal surveillance system using the same |
CN101027905A (zh) * | 2004-09-27 | 2007-08-29 | 坦德伯格电信公司 | 编码区段视频图像的方法 |
US20080218582A1 (en) * | 2006-12-28 | 2008-09-11 | Mark Buckler | Video conferencing |
CN102256098A (zh) * | 2010-05-18 | 2011-11-23 | 宝利通公司 | 具有多个语音跟踪摄像机的视频会议端点 |
US20120007942A1 (en) * | 2010-07-06 | 2012-01-12 | Tessera Technologies Ireland Limited | Scene Background Blurring Including Determining A Depth Map |
US20120081551A1 (en) * | 2009-04-24 | 2012-04-05 | Yoshiro Mizuno | Monitoring System |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6192342B1 (en) * | 1998-11-17 | 2001-02-20 | Vtel Corporation | Automated camera aiming for identified talkers |
US6766035B1 (en) * | 2000-05-03 | 2004-07-20 | Koninklijke Philips Electronics N.V. | Method and apparatus for adaptive position determination video conferencing and other applications |
US6894714B2 (en) * | 2000-12-05 | 2005-05-17 | Koninklijke Philips Electronics N.V. | Method and apparatus for predicting events in video conferencing and other applications |
US7039199B2 (en) * | 2002-08-26 | 2006-05-02 | Microsoft Corporation | System and process for locating a speaker using 360 degree sound source localization |
CN100505837C (zh) * | 2007-05-10 | 2009-06-24 | 华为技术有限公司 | 一种控制图像采集装置进行目标定位的系统及方法 |
JP5109803B2 (ja) * | 2007-06-06 | 2012-12-26 | ソニー株式会社 | 画像処理装置、画像処理方法及び画像処理プログラム |
US8526632B2 (en) * | 2007-06-28 | 2013-09-03 | Microsoft Corporation | Microphone array for a camera speakerphone |
US20100085415A1 (en) * | 2008-10-02 | 2010-04-08 | Polycom, Inc | Displaying dynamic caller identity during point-to-point and multipoint audio/videoconference |
US8358328B2 (en) * | 2008-11-20 | 2013-01-22 | Cisco Technology, Inc. | Multiple video camera processing for teleconferencing |
CN101770139B (zh) * | 2008-12-29 | 2012-08-29 | 鸿富锦精密工业(深圳)有限公司 | 对焦控制系统及方法 |
US9723260B2 (en) * | 2010-05-18 | 2017-08-01 | Polycom, Inc. | Voice tracking camera with speaker identification |
US8842161B2 (en) * | 2010-05-18 | 2014-09-23 | Polycom, Inc. | Videoconferencing system having adjunct camera for auto-framing and tracking |
CN103327250A (zh) * | 2013-06-24 | 2013-09-25 | 深圳锐取信息技术股份有限公司 | 基于模式识别镜头控制方法 |
-
2013
- 2013-11-27 US US14/092,002 patent/US20150146078A1/en not_active Abandoned
-
2014
- 2014-11-21 WO PCT/US2014/066747 patent/WO2015080954A1/en active Application Filing
- 2014-11-21 EP EP14819147.1A patent/EP3075142A1/en not_active Withdrawn
- 2014-11-21 CN CN201480064820.5A patent/CN105765964A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070019077A1 (en) * | 2003-06-27 | 2007-01-25 | Park Sang R | Portable surveillance camera and personal surveillance system using the same |
CN101027905A (zh) * | 2004-09-27 | 2007-08-29 | 坦德伯格电信公司 | 编码区段视频图像的方法 |
US20080218582A1 (en) * | 2006-12-28 | 2008-09-11 | Mark Buckler | Video conferencing |
US20120081551A1 (en) * | 2009-04-24 | 2012-04-05 | Yoshiro Mizuno | Monitoring System |
CN102256098A (zh) * | 2010-05-18 | 2011-11-23 | 宝利通公司 | 具有多个语音跟踪摄像机的视频会议端点 |
US20120007942A1 (en) * | 2010-07-06 | 2012-01-12 | Tessera Technologies Ireland Limited | Scene Background Blurring Including Determining A Depth Map |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018090825A1 (zh) * | 2016-11-15 | 2018-05-24 | 杭州海康威视数字技术股份有限公司 | 一种自动聚焦方法及ptz摄像机 |
US10652452B2 (en) | 2016-11-15 | 2020-05-12 | Hangzhou Hikvision Digital Technology Co., Ltd. | Method for automatic focus and PTZ camera |
WO2019011189A1 (zh) * | 2017-07-12 | 2019-01-17 | 中兴通讯股份有限公司 | 会议电视的音视频采集方法、装置和终端设备 |
CN111602414A (zh) * | 2018-01-16 | 2020-08-28 | 谷歌有限责任公司 | 视频会议期间控制音频信号聚焦说话者 |
CN110310642A (zh) * | 2018-03-20 | 2019-10-08 | 阿里巴巴集团控股有限公司 | 语音处理方法、系统、客户端、设备和存储介质 |
CN109151370A (zh) * | 2018-09-21 | 2019-01-04 | 上海赛连信息科技有限公司 | 智能视频系统和智能控制终端 |
CN109151370B (zh) * | 2018-09-21 | 2020-10-23 | 上海赛连信息科技有限公司 | 智能视频系统和智能控制终端 |
CN112806020A (zh) * | 2018-10-05 | 2021-05-14 | 脸谱公司 | 基于向图像捕获设备标识捕获的视频数据中的感兴趣对象修改图像捕获设备对视频数据的捕获 |
CN109819159A (zh) * | 2018-12-30 | 2019-05-28 | 深圳市明日实业有限责任公司 | 一种基于声音追踪的图像显示方法以及系统 |
CN115136581A (zh) * | 2020-02-14 | 2022-09-30 | 诺基亚技术有限公司 | 多媒体内容 |
CN113315941A (zh) * | 2020-02-26 | 2021-08-27 | 株式会社理光 | 信息处理系统、装置、方法以及房间、存储介质、计算机装置 |
Also Published As
Publication number | Publication date |
---|---|
US20150146078A1 (en) | 2015-05-28 |
WO2015080954A1 (en) | 2015-06-04 |
EP3075142A1 (en) | 2016-10-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105765964A (zh) | 基于发言人位置移动摄像机聚焦 | |
US9239627B2 (en) | SmartLight interaction system | |
JP7286684B2 (ja) | 顔に基づく特殊効果発生方法、装置および電子機器 | |
US9401144B1 (en) | Voice gestures | |
JP5012968B2 (ja) | 会議システム | |
US8947349B1 (en) | Projecting content onto a display medium | |
US20170134714A1 (en) | Device and method for creating videoclips from omnidirectional video | |
US20170060828A1 (en) | Gesture based annotations | |
CN107430629A (zh) | 计算机呈现中的视觉内容的分优先级显示 | |
CN101662696B (zh) | 调节摄像系统的方法和设备 | |
CN104469256A (zh) | 沉浸式和交互式的视频会议房间环境 | |
US11595615B2 (en) | Conference device, method of controlling conference device, and computer storage medium | |
WO2019019403A1 (zh) | 一种用于k12阶段的互动情景教学系统 | |
CN105960801B (zh) | 增强视频会议 | |
US11182600B2 (en) | Automatic selection of event video content | |
US20160073029A1 (en) | Method and system for creating a video | |
CN116939364A (zh) | 通过移动相机自动生成全焦图像的方法、用户设备以及系统 | |
JP2019512177A (ja) | 装置および関連する方法 | |
CN204721476U (zh) | 沉浸式和交互式的视频会议房间环境 | |
JP2018509670A (ja) | モニタリング | |
CN111182280A (zh) | 一种投影方法、投影装置、音箱设备及存储介质 | |
CN105590106A (zh) | 一种新型人脸3d表情动作识别系统 | |
KR20180074124A (ko) | 얼굴 인식을 통해 전자 장치를 제어하는 방법 및 이를 수행하는 전자 장치 | |
JP6859641B2 (ja) | 評価システム、情報処理装置およびプログラム | |
US20220321831A1 (en) | Whiteboard use based video conference camera control |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20160713 |