CN1386371A

CN1386371A - 使设备对准声源

Info

Publication number: CN1386371A
Application number: CN01802205A
Authority: CN
Inventors: H·J·斯特鲁贝
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2000-08-01
Filing date: 2001-07-17
Publication date: 2002-12-18
Also published as: JP2004505560A; KR20020033829A; EP1308039A1; WO2002011438A1

Abstract

一种对从目标物体的各种可能的声源发射出的声音做出响应使一个设备对准该目标的系统。例如,在会议或辩论上,该系统可以被用来使摄像机(4)或灯光对准正在讲话的人(6B)。控制系统对从新声源(6A)发出的连续声音的持续时间和新的声源(6A)与目前的目标(6B)之间相差的角度做出响应。当其中任何一个超过了某一极限值,摄像机(4)被重新对准目标。声音不必完全连续,因此短暂的停顿(比如呼吸),在连续的演讲中不会被做出响应。

Description

使设备对准声源

技术领域

本发明主要涉及自动瞄准系统领域，比如用于电视会议系统中的电视追踪系统。

背景技术

摄像机自动跟踪系统基于某些判定标准，如运动、颜色、图像处理等，将目标自动捕捉、锁定在其视野中，例如，电视会议系统可以使用全景变焦摄像机跟踪所需目标。一种这样的摄像机通过自动在人群中确定一个正在讲话的人并将焦点集中在该讲话者身上来保持跟踪该讲话者。不管什么时候另外的人开始讲话时，自动系统通过音量和/或其它判定标准检测到新的讲话者并随后聚焦在新演讲者上。

迄今为止，已经提出了多种不同的确定当前讲话者的技术。虽然这些技术能够使自动摄像机确定出现新的讲话者并将焦点集中在其上，但这些技术却存在着致命的缺陷。这些系统要么从一个讲话者到另一个的转换迟缓，以致遗漏了大部分讲话内容，要么就转换过于灵敏，干扰摄像机的跟踪定位。

美国专利文献US5206721公开了一种上述缺陷的解决方法。该文献中披露了一种在一个系统中锁定一个正在讲话的人的方法，该系统中每一个发言者都单独有一个麦克风。在该系统中，输入信号从多个麦克风中对应于每个讲话者的每一个麦克风中采集。每一个讲话者总的讲话时间由其连续讲话的时间段累计得来。在一个给定的时间点，当前的讲话者被确定为累计讲话时间最长者。

上述途径的一个问题是，当前讲话者的确定需要使用大量的麦克风。使用大量麦克风，由于讲话者们的麦克风通常相互接近以及在封闭的空间或有隔墙和物体的空间中回声的相互影响和无关的噪音的影响，使区分多个讲话者很困难。此外，上述公开的方法没有有效防止摄像机在两个挨得很近的讲话者之间持续的移动带来的不必要的影响。

因此，在自动电视会议技术中需要一种方法以确定当前讲话者，利用这一方法，自动摄像机被自动确定焦点位置以克服上述现有技术中存在的缺点。

发明概述

本发明由独立权利要求说明，而从属权利要求由有利实施例说明。

简单来说，一个系统使一设备响应于由各种可能的声源发射出的声音而瞄准目标。例如，该系统可以在会议上或辩论中被用来使一个电视摄像机瞄准当前讲话者。该控制系统响应于由新的声源发射出的连续声音的持续时间和当前目标与新声源之间的角度差。当超过一个极限值，摄像机将被重新瞄准。声音不需要完全连续，因此短暂的停顿(比如换气)在连续的讲话中不会被做出反映。

系统从一组声源中确定一个当前的声源，比如讲话者，以能够控制诸如摄像机或灯光这样的设备。系统在捕捉新的声源前利用两个判定标准，首先，声源必须充分地持续一个预定的时间间隔，其次，它必须有一个完全区别于设备瞄准的当前坐标的目标位置坐标(使设备瞄准的角度)。在电话会议的环境中，总的来讲，如果新的讲话者和在先的讲话者之间的角度间隔超过一个预定值并且新的讲话者讲话持续了一个最小时间段，系统的指向将从当前讲话者转移到新的讲话者。

这一方法可以利用一个声音传感器来执行，如WO-A-99/27522中公开的声音传感器(代理人摘录PHN16.638)。上述的传感器产生一个声音功率电平信号(RMS或其它任何合适的指标)和一指示出当前声源坐标的坐标信号。实施控制来得到上述功能，可以由下述程序来完成：

1.如果由声音传感器产生的当前的声源坐标与当前目标的坐标间的差为一个最小的角度极值，把当前的坐标作为由目标获得的候选坐标。

2.如果在指定的时间间隔内当前瞬时坐标保持在一个给定的范围内(即，没有变化超出被认定为持续声源的极限)，捕获新的目标并把候选坐标作为表征当前目标的坐标保存。

为确保讲话可以有短暂中断，如可以察觉的偶尔换气和停顿，在连续的讲话中不会被当做间断而做出反应，一个低通滤波器、时间锁存器或其它的滤波器结构将被应用于提供声音功率电平值信号。

为提供所必需的时间极值，候选讲话者连续讲话期间的时间间隔，被实时累计并持续地与预定的时间极值比较。在没有停顿或方向坐标改变(在公差允许范围内)的连续的讲话中，一旦计时器达到时间极值，候选讲话者变为当前讲话者，诸如摄像机、灯光这样的设备从而被瞄准。

在选择性的应用中，本发明可以被用来使灯光，例如聚光灯，瞄准在例如演讲者或表演者这样的声源上。

附图简述

附图1示出了本申请的实施例的应用图。

附图2是本申请实施例的功能框图。

附图3示出了用来执行附图2中的实施例的控制运算的流程图。

附图的详细描述

参照附图1、2，声音传感器1从讲话者6B接收到音频信号，并产生表征声音功率电平(RMS或类似的)和方向的输出。声音功率电平信号被传送给低通滤波器19以除去瞬时短且低的电平。经过了滤波的声音功率电平信号随后被传送给极值检测器20(即比较器)以及时产生表征声源(讲话者6B)的即时声音强度是高于还是低于指定水平的单位(时间上的)信号。

极值检测器20的输出被传送给角度计算机21，该角度计算机还接收来自声音传感器1的方位信号。角度计算机输出一个表征当前声源的方向的矢量并且将其传送给位置控制器22。极值检测器20的输出被乘以由方向信号计算来的角度，因此如果极值很低的话，角度计算机21的输出是一个零向量，否则将会输出非零方向向量。

位置控制器22连续地执行一个程序，控制位置驱动元件23以使摄像机4瞄准。由位置控制器22执行的程序的效果是持续捕获指定的声源。如果讲话者6B保持一段时间的沉默而讲话者6A此时连续讲话一段时间，摄像机4将被瞄准讲话者6A，直到另一个讲话者接着发言。

注意，低通滤波器19完成一般的程序，其效果为避免在连续的讲话中出现的短暂停顿使信号产生的变化。低通滤波器是普通类型的滤波器，并可对数字或模拟信号进行数字处理。它可以是一个数字低通滤波器或延时程序或设备(即定时器锁)，以略过短暂停顿或其它相应过程。极值检测器20也是一样。后者可以是模拟设备或数字程序。低通滤波器19、极值检测器20和角度计算机21的功能可以由单一处理设备执行，该设备以单一算法或多重方法执行上述过程。那就是，上面的所说的设备是要完全地实现全部功能，而不是要把整个过程分割给分立的硬件甚至软件部分。

现在参照附图3，一个可以被用来执行本发明的控制算法开始于接收到一个新的音频信号(V)。一旦该音频信号(V)在第9步为非零值，就退出9-9循环并控制进入第10步。新音频信号的角位置会被储存在当前讲话者(S)存储器10。在第11步，摄像机对准当前讲话者(S)。当前讲话者(S)向量和瞬时声源(V)向量之间的角度差(角度计算机21的输出)在第12步中计算，如果瞬时声源非(V)零并且差值超过极值(|V-S|＜Ta)则进入第10步。否则，控制流程在循环12-12中等待。在第10步中，瞬时声源(V)向量被当做候选声源存储在一个存储器中。在第14步中计时器随之被复位并启动。随后循环流程(15-16)被调用，如果出现以下情况将退出该循环：

1.瞬时声源(V)向量为零(15步)；

2.瞬时声源(V)向量和候选(C)向量之间的差(|V-S|＞T_A)降低到极值T_K(第15步)；或

3.计时器时间到(16步)

如果计时器时间到，控制进入17步并将候选(C)向量作为当前讲话者(S)储存在存储器中，并且在17步中摄像机被重新瞄准。如果第15步中的任何一个条件都不成立，退出循环进入第12步。

上述展示和描述的详细实施例，实现在使用自动全景摄像机的电视会议中确定不同的讲话者的目的，已经被证实具有良好的效果，进一步地，本领域的熟练技术人员可以对在此公开的发明内容做出修改，并且所有这些修改都在由后附权利要求确定的本发明保护范围之内。

在权利要求书中，所有括号中的参考符号都不被解释为对权利要求的限制。词“包括”不排除那些没有在一项权利要求中指出的元件或步骤。放在元件前的词“一个”不表示没有存在多个该元件的可能。本发明可以由包括若干独立元件的硬件实现，并由一个有相应程序的计算机完成。在设备的权利要求中列举了数个方法，这些方法可以被一个硬件或硬件的相应部分具体实现。在权利要求中叙述了某些互不相同的方法，但并不表明这些方法的结合没有优点。

Claims

1.一种捕获声源的方法，该方法包括：

存储当前声源的第一坐标，通过测量由所述当前声源发出的声音确定该坐标；

在一个存储器中存储一个角度极值；

计算所述第一坐标和存储在存储器中的在先声源的第二坐标之间的角度差；并且，

根据所述的角度差和所述角度极值，捕获所述当前声源。

2.根据权利要求1所述的方法，其中所述的捕获目标的步骤包括比较所述角度差和角度极值。

3.根据权利要求1所述的方法，其中所述的捕获目标的步骤包括，只有当所述角度差超过所述角度极值时捕捉所述当前声源。

4.根据权利要求1所述的方法，其中所述的捕获目标的步骤包括，根据所述当前声源的声音功率电平捕获所述当前声源。

5.根据权利要求1所述的方法，其中所述的捕获目标的步骤包括，比较所述当前声源的声音强度和一个预定的声音强度极值。

6.根据权利要求1所述的方法，其中所述的捕获目标的步骤包括，将相应于所述当前声源的声音强度信号低通滤波。

7.根据权利要求6所述的方法，其中所述低通滤波步骤包括：

接收一个声音功率电平输入信号；

当所述输入信号降低到一个极值以下时复位并启动一个计时器；

在所述输入信号超过所述极值之前，如果所述计时器到时，输出第一输出信号；并且，

如果所述输入信号保持低于所述极值直到所述计时器到时，输出第二输出信号。

8.权利要求1所述的方法，其中所述的捕获目标的步骤包括瞄准一个设备。

9.一种捕获声源的方法，该方法包括：

在当前讲话者存储器中存储当前讲话者的坐标；

探测第一声源的坐标；

测定所述当前讲话者的已存储的坐标和所述的第一声源的所述坐标间的角度差；

根据所述的角度差捕获所述的第一声源。

10.一种捕获声源的方法，该方法包括：

探测当前声源；

测定已储存的声源坐标和所述当前声源坐标的角度差；

测量所述当前声源保持一定声音功率电平状态下的持续时间；并且，

根据所述持续时间和所述角度差捕获所述声源。

11.一种捕获声源的方法，该方法包括：

探测当前声源；

测定已储存的一声源坐标和已储存的所述当前声源坐标间的角度差；

测算所述当前声源的一个声音功率电平的持续时间的时间段；并且，

根据所述时间段和超过一个预定的角度极值的所述角度差捕获所述声源。

12.一个目标捕捉系统，包括：

一个声音传感器(1)，产生分别表征一个声源的坐标和所述声源的声音功率电平的第一和第二信号；和，

一个控制器(21，22)，被连接以接收所述第一和第二信号，所述控制器被编程以计算所述第一声音信号坐标和已储存的在前声源坐标之间的角度差，所述控制器进一步被连接以控制根据所述角度差所瞄准的一个设备的位置。

13.权利要求12的目标捕捉系统，进一步包括一个低通滤波器(19)，被连接以接收所述声源的所述声音功率电平，由此所述低通滤波器被编程以对所述声源的所述声音强度信号滤波并输出经过滤波的由所述控制器接收的声音功率电平信号。

14.一个目标捕捉系统，包括：

一个使用至少两个麦克风的声音探测器(1)以提供表征声源(1B)位置的第一信号和表征所述声源的声音功率电平的第二信号；

一个控制器(21，22)被连接以接收所述第一和第二信号，所述控制器被编程以计算所述声源的所述坐标和已存储的在前声源的坐标间的角度差，和

比较所述角度差和一个角度极值；和

控制一个与所述控制器连接的目标捕获设备(23)，当所述角度差

超过所述角度极值时，使其瞄准目标。

15.权利要求14的目标捕捉系统，其中所述控制器包括一个低通滤波器，该滤波器被编程以接收所述声源的所述声音强度信号，并输出经过滤波的所述声源的声音强度信号。

16.权利要求14的目标捕获系统，其中所述的控制器包括一个极值检测器，该极值检测器被连接以接收所述声源的所述声音功率电平信号，所述极值检测器被编程以比较所述声源的所述声音功率电平和声音极值，由此，当所述声音强度超过所述预定的极值并且所述角度差超过所述角度极值时，所述目标捕捉设备瞄准当前声源。