CN1386371A - 使设备对准声源 - Google Patents

使设备对准声源 Download PDF

Info

Publication number
CN1386371A
CN1386371A CN01802205A CN01802205A CN1386371A CN 1386371 A CN1386371 A CN 1386371A CN 01802205 A CN01802205 A CN 01802205A CN 01802205 A CN01802205 A CN 01802205A CN 1386371 A CN1386371 A CN 1386371A
Authority
CN
China
Prior art keywords
sound source
sound
coordinate
extreme value
differential seat
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN01802205A
Other languages
English (en)
Inventor
H·J·斯特鲁贝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of CN1386371A publication Critical patent/CN1386371A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/142Constructional details of the terminal equipment, e.g. arrangements of the camera and the display

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Abstract

一种对从目标物体的各种可能的声源发射出的声音做出响应使一个设备对准该目标的系统。例如,在会议或辩论上,该系统可以被用来使摄像机(4)或灯光对准正在讲话的人(6B)。控制系统对从新声源(6A)发出的连续声音的持续时间和新的声源(6A)与目前的目标(6B)之间相差的角度做出响应。当其中任何一个超过了某一极限值,摄像机(4)被重新对准目标。声音不必完全连续,因此短暂的停顿(比如呼吸),在连续的演讲中不会被做出响应。

Description

使设备对准声源
技术领域
本发明主要涉及自动瞄准系统领域,比如用于电视会议系统中的电视追踪系统。
背景技术
摄像机自动跟踪系统基于某些判定标准,如运动、颜色、图像处理等,将目标自动捕捉、锁定在其视野中,例如,电视会议系统可以使用全景变焦摄像机跟踪所需目标。一种这样的摄像机通过自动在人群中确定一个正在讲话的人并将焦点集中在该讲话者身上来保持跟踪该讲话者。不管什么时候另外的人开始讲话时,自动系统通过音量和/或其它判定标准检测到新的讲话者并随后聚焦在新演讲者上。
迄今为止,已经提出了多种不同的确定当前讲话者的技术。虽然这些技术能够使自动摄像机确定出现新的讲话者并将焦点集中在其上,但这些技术却存在着致命的缺陷。这些系统要么从一个讲话者到另一个的转换迟缓,以致遗漏了大部分讲话内容,要么就转换过于灵敏,干扰摄像机的跟踪定位。
美国专利文献US5206721公开了一种上述缺陷的解决方法。该文献中披露了一种在一个系统中锁定一个正在讲话的人的方法,该系统中每一个发言者都单独有一个麦克风。在该系统中,输入信号从多个麦克风中对应于每个讲话者的每一个麦克风中采集。每一个讲话者总的讲话时间由其连续讲话的时间段累计得来。在一个给定的时间点,当前的讲话者被确定为累计讲话时间最长者。
上述途径的一个问题是,当前讲话者的确定需要使用大量的麦克风。使用大量麦克风,由于讲话者们的麦克风通常相互接近以及在封闭的空间或有隔墙和物体的空间中回声的相互影响和无关的噪音的影响,使区分多个讲话者很困难。此外,上述公开的方法没有有效防止摄像机在两个挨得很近的讲话者之间持续的移动带来的不必要的影响。
因此,在自动电视会议技术中需要一种方法以确定当前讲话者,利用这一方法,自动摄像机被自动确定焦点位置以克服上述现有技术中存在的缺点。
发明概述
本发明由独立权利要求说明,而从属权利要求由有利实施例说明。
简单来说,一个系统使一设备响应于由各种可能的声源发射出的声音而瞄准目标。例如,该系统可以在会议上或辩论中被用来使一个电视摄像机瞄准当前讲话者。该控制系统响应于由新的声源发射出的连续声音的持续时间和当前目标与新声源之间的角度差。当超过一个极限值,摄像机将被重新瞄准。声音不需要完全连续,因此短暂的停顿(比如换气)在连续的讲话中不会被做出反映。
系统从一组声源中确定一个当前的声源,比如讲话者,以能够控制诸如摄像机或灯光这样的设备。系统在捕捉新的声源前利用两个判定标准,首先,声源必须充分地持续一个预定的时间间隔,其次,它必须有一个完全区别于设备瞄准的当前坐标的目标位置坐标(使设备瞄准的角度)。在电话会议的环境中,总的来讲,如果新的讲话者和在先的讲话者之间的角度间隔超过一个预定值并且新的讲话者讲话持续了一个最小时间段,系统的指向将从当前讲话者转移到新的讲话者。
这一方法可以利用一个声音传感器来执行,如WO-A-99/27522中公开的声音传感器(代理人摘录PHN16.638)。上述的传感器产生一个声音功率电平信号(RMS或其它任何合适的指标)和一指示出当前声源坐标的坐标信号。实施控制来得到上述功能,可以由下述程序来完成:
1.如果由声音传感器产生的当前的声源坐标与当前目标的坐标间的差为一个最小的角度极值,把当前的坐标作为由目标获得的候选坐标。
2.如果在指定的时间间隔内当前瞬时坐标保持在一个给定的范围内(即,没有变化超出被认定为持续声源的极限),捕获新的目标并把候选坐标作为表征当前目标的坐标保存。
为确保讲话可以有短暂中断,如可以察觉的偶尔换气和停顿,在连续的讲话中不会被当做间断而做出反应,一个低通滤波器、时间锁存器或其它的滤波器结构将被应用于提供声音功率电平值信号。
为提供所必需的时间极值,候选讲话者连续讲话期间的时间间隔,被实时累计并持续地与预定的时间极值比较。在没有停顿或方向坐标改变(在公差允许范围内)的连续的讲话中,一旦计时器达到时间极值,候选讲话者变为当前讲话者,诸如摄像机、灯光这样的设备从而被瞄准。
在选择性的应用中,本发明可以被用来使灯光,例如聚光灯,瞄准在例如演讲者或表演者这样的声源上。
附图简述
附图1示出了本申请的实施例的应用图。
附图2是本申请实施例的功能框图。
附图3示出了用来执行附图2中的实施例的控制运算的流程图。
附图的详细描述
参照附图1、2,声音传感器1从讲话者6B接收到音频信号,并产生表征声音功率电平(RMS或类似的)和方向的输出。声音功率电平信号被传送给低通滤波器19以除去瞬时短且低的电平。经过了滤波的声音功率电平信号随后被传送给极值检测器20(即比较器)以及时产生表征声源(讲话者6B)的即时声音强度是高于还是低于指定水平的单位(时间上的)信号。
极值检测器20的输出被传送给角度计算机21,该角度计算机还接收来自声音传感器1的方位信号。角度计算机输出一个表征当前声源的方向的矢量并且将其传送给位置控制器22。极值检测器20的输出被乘以由方向信号计算来的角度,因此如果极值很低的话,角度计算机21的输出是一个零向量,否则将会输出非零方向向量。
位置控制器22连续地执行一个程序,控制位置驱动元件23以使摄像机4瞄准。由位置控制器22执行的程序的效果是持续捕获指定的声源。如果讲话者6B保持一段时间的沉默而讲话者6A此时连续讲话一段时间,摄像机4将被瞄准讲话者6A,直到另一个讲话者接着发言。
注意,低通滤波器19完成一般的程序,其效果为避免在连续的讲话中出现的短暂停顿使信号产生的变化。低通滤波器是普通类型的滤波器,并可对数字或模拟信号进行数字处理。它可以是一个数字低通滤波器或延时程序或设备(即定时器锁),以略过短暂停顿或其它相应过程。极值检测器20也是一样。后者可以是模拟设备或数字程序。低通滤波器19、极值检测器20和角度计算机21的功能可以由单一处理设备执行,该设备以单一算法或多重方法执行上述过程。那就是,上面的所说的设备是要完全地实现全部功能,而不是要把整个过程分割给分立的硬件甚至软件部分。
现在参照附图3,一个可以被用来执行本发明的控制算法开始于接收到一个新的音频信号(V)。一旦该音频信号(V)在第9步为非零值,就退出9-9循环并控制进入第10步。新音频信号的角位置会被储存在当前讲话者(S)存储器10。在第11步,摄像机对准当前讲话者(S)。当前讲话者(S)向量和瞬时声源(V)向量之间的角度差(角度计算机21的输出)在第12步中计算,如果瞬时声源非(V)零并且差值超过极值(|V-S|<Ta)则进入第10步。否则,控制流程在循环12-12中等待。在第10步中,瞬时声源(V)向量被当做候选声源存储在一个存储器中。在第14步中计时器随之被复位并启动。随后循环流程(15-16)被调用,如果出现以下情况将退出该循环:
1.瞬时声源(V)向量为零(15步);
2.瞬时声源(V)向量和候选(C)向量之间的差(|V-S|>TA)降低到极值TK(第15步);或
3.计时器时间到(16步)
如果计时器时间到,控制进入17步并将候选(C)向量作为当前讲话者(S)储存在存储器中,并且在17步中摄像机被重新瞄准。如果第15步中的任何一个条件都不成立,退出循环进入第12步。
上述展示和描述的详细实施例,实现在使用自动全景摄像机的电视会议中确定不同的讲话者的目的,已经被证实具有良好的效果,进一步地,本领域的熟练技术人员可以对在此公开的发明内容做出修改,并且所有这些修改都在由后附权利要求确定的本发明保护范围之内。
在权利要求书中,所有括号中的参考符号都不被解释为对权利要求的限制。词“包括”不排除那些没有在一项权利要求中指出的元件或步骤。放在元件前的词“一个”不表示没有存在多个该元件的可能。本发明可以由包括若干独立元件的硬件实现,并由一个有相应程序的计算机完成。在设备的权利要求中列举了数个方法,这些方法可以被一个硬件或硬件的相应部分具体实现。在权利要求中叙述了某些互不相同的方法,但并不表明这些方法的结合没有优点。

Claims (16)

1.一种捕获声源的方法,该方法包括:
存储当前声源的第一坐标,通过测量由所述当前声源发出的声音确定该坐标;
在一个存储器中存储一个角度极值;
计算所述第一坐标和存储在存储器中的在先声源的第二坐标之间的角度差;并且,
根据所述的角度差和所述角度极值,捕获所述当前声源。
2.根据权利要求1所述的方法,其中所述的捕获目标的步骤包括比较所述角度差和角度极值。
3.根据权利要求1所述的方法,其中所述的捕获目标的步骤包括,只有当所述角度差超过所述角度极值时捕捉所述当前声源。
4.根据权利要求1所述的方法,其中所述的捕获目标的步骤包括,根据所述当前声源的声音功率电平捕获所述当前声源。
5.根据权利要求1所述的方法,其中所述的捕获目标的步骤包括,比较所述当前声源的声音强度和一个预定的声音强度极值。
6.根据权利要求1所述的方法,其中所述的捕获目标的步骤包括,将相应于所述当前声源的声音强度信号低通滤波。
7.根据权利要求6所述的方法,其中所述低通滤波步骤包括:
接收一个声音功率电平输入信号;
当所述输入信号降低到一个极值以下时复位并启动一个计时器;
在所述输入信号超过所述极值之前,如果所述计时器到时,输出第一输出信号;并且,
如果所述输入信号保持低于所述极值直到所述计时器到时,输出第二输出信号。
8.权利要求1所述的方法,其中所述的捕获目标的步骤包括瞄准一个设备。
9.一种捕获声源的方法,该方法包括:
在当前讲话者存储器中存储当前讲话者的坐标;
探测第一声源的坐标;
测定所述当前讲话者的已存储的坐标和所述的第一声源的所述坐标间的角度差;
根据所述的角度差捕获所述的第一声源。
10.一种捕获声源的方法,该方法包括:
探测当前声源;
测定已储存的声源坐标和所述当前声源坐标的角度差;
测量所述当前声源保持一定声音功率电平状态下的持续时间;并且,
根据所述持续时间和所述角度差捕获所述声源。
11.一种捕获声源的方法,该方法包括:
探测当前声源;
测定已储存的一声源坐标和已储存的所述当前声源坐标间的角度差;
测算所述当前声源的一个声音功率电平的持续时间的时间段;并且,
根据所述时间段和超过一个预定的角度极值的所述角度差捕获所述声源。
12.一个目标捕捉系统,包括:
一个声音传感器(1),产生分别表征一个声源的坐标和所述声源的声音功率电平的第一和第二信号;和,
一个控制器(21,22),被连接以接收所述第一和第二信号,所述控制器被编程以计算所述第一声音信号坐标和已储存的在前声源坐标之间的角度差,所述控制器进一步被连接以控制根据所述角度差所瞄准的一个设备的位置。
13.权利要求12的目标捕捉系统,进一步包括一个低通滤波器(19),被连接以接收所述声源的所述声音功率电平,由此所述低通滤波器被编程以对所述声源的所述声音强度信号滤波并输出经过滤波的由所述控制器接收的声音功率电平信号。
14.一个目标捕捉系统,包括:
一个使用至少两个麦克风的声音探测器(1)以提供表征声源(1B)位置的第一信号和表征所述声源的声音功率电平的第二信号;
一个控制器(21,22)被连接以接收所述第一和第二信号,所述控制器被编程以计算所述声源的所述坐标和已存储的在前声源的坐标间的角度差,和
比较所述角度差和一个角度极值;和
控制一个与所述控制器连接的目标捕获设备(23),当所述角度差
超过所述角度极值时,使其瞄准目标。
15.权利要求14的目标捕捉系统,其中所述控制器包括一个低通滤波器,该滤波器被编程以接收所述声源的所述声音强度信号,并输出经过滤波的所述声源的声音强度信号。
16.权利要求14的目标捕获系统,其中所述的控制器包括一个极值检测器,该极值检测器被连接以接收所述声源的所述声音功率电平信号,所述极值检测器被编程以比较所述声源的所述声音功率电平和声音极值,由此,当所述声音强度超过所述预定的极值并且所述角度差超过所述角度极值时,所述目标捕捉设备瞄准当前声源。
CN01802205A 2000-08-01 2001-07-17 使设备对准声源 Pending CN1386371A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US63066400A 2000-08-01 2000-08-01
US09/630,664 2000-08-01

Publications (1)

Publication Number Publication Date
CN1386371A true CN1386371A (zh) 2002-12-18

Family

ID=24528077

Family Applications (1)

Application Number Title Priority Date Filing Date
CN01802205A Pending CN1386371A (zh) 2000-08-01 2001-07-17 使设备对准声源

Country Status (5)

Country Link
EP (1) EP1308039A1 (zh)
JP (1) JP2004505560A (zh)
KR (1) KR20020033829A (zh)
CN (1) CN1386371A (zh)
WO (1) WO2002011438A1 (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101937199A (zh) * 2010-03-25 2011-01-05 中国计量学院 舞台表演人员灯光自动跟踪技术及其实现
CN103595953A (zh) * 2013-11-14 2014-02-19 华为技术有限公司 一种控制视频拍摄的方法和装置
CN103891271A (zh) * 2011-10-18 2014-06-25 统一有限责任两合公司 用于提供在会议中产生的数据的方法和设备
CN104697119A (zh) * 2015-03-24 2015-06-10 广东美的制冷设备有限公司 一种空调自适应送风方法及控制器
CN104835359A (zh) * 2015-05-14 2015-08-12 韩凤英 远程教学辅助装置
CN106205628A (zh) * 2015-05-06 2016-12-07 小米科技有限责任公司 声音信号优化方法及装置
CN109710080A (zh) * 2019-01-25 2019-05-03 华为技术有限公司 一种屏幕控制和语音控制方法及电子设备

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4829696B2 (ja) * 2006-06-19 2011-12-07 日本電信電話株式会社 会話支援システム
EP2882180A4 (en) * 2013-09-29 2015-10-14 Zte Corp CONTROL METHOD, CONTROL APPARATUS AND CONTROL DEVICE
CN113676687A (zh) * 2021-08-30 2021-11-19 联想(北京)有限公司 一种信息处理方法及电子设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2148631C (en) * 1994-06-20 2000-06-13 John J. Hildin Voice-following video system
US6593956B1 (en) * 1998-05-15 2003-07-15 Polycom, Inc. Locating an audio source

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101937199A (zh) * 2010-03-25 2011-01-05 中国计量学院 舞台表演人员灯光自动跟踪技术及其实现
CN103891271A (zh) * 2011-10-18 2014-06-25 统一有限责任两合公司 用于提供在会议中产生的数据的方法和设备
CN103891271B (zh) * 2011-10-18 2017-10-20 统一有限责任两合公司 用于提供在会议中产生的数据的方法和设备
CN103595953A (zh) * 2013-11-14 2014-02-19 华为技术有限公司 一种控制视频拍摄的方法和装置
CN103595953B (zh) * 2013-11-14 2017-06-20 华为技术有限公司 一种控制视频拍摄的方法和装置
CN104697119A (zh) * 2015-03-24 2015-06-10 广东美的制冷设备有限公司 一种空调自适应送风方法及控制器
CN104697119B (zh) * 2015-03-24 2017-07-04 广东美的制冷设备有限公司 一种空调自适应送风方法及控制器
CN106205628A (zh) * 2015-05-06 2016-12-07 小米科技有限责任公司 声音信号优化方法及装置
US10499156B2 (en) 2015-05-06 2019-12-03 Xiaomi Inc. Method and device of optimizing sound signal
CN104835359A (zh) * 2015-05-14 2015-08-12 韩凤英 远程教学辅助装置
CN109710080A (zh) * 2019-01-25 2019-05-03 华为技术有限公司 一种屏幕控制和语音控制方法及电子设备

Also Published As

Publication number Publication date
JP2004505560A (ja) 2004-02-19
KR20020033829A (ko) 2002-05-07
EP1308039A1 (en) 2003-05-07
WO2002011438A1 (en) 2002-02-07

Similar Documents

Publication Publication Date Title
JP5123373B2 (ja) 目標物の位置探索を実行する画像収集装置を制御するためのシステム及び方法
US9030520B2 (en) Automatic camera selection for videoconferencing
US6618073B1 (en) Apparatus and method for avoiding invalid camera positioning in a video conference
US7769186B2 (en) System and method facilitating acoustic echo cancellation convergence detection
US5778082A (en) Method and apparatus for localization of an acoustic source
CN1386371A (zh) 使设备对准声源
US20020140804A1 (en) Method and apparatus for audio/image speaker detection and locator
JP2005086365A (ja) 通話装置、会議装置および撮像条件調整方法
CN103581608A (zh) 发言人检测系统、发言人检测方法和音频/视频会议系统
JP2000125274A (ja) 会議内容に索引付けを行うための方法と装置
KR20060041853A (ko) 음성 집음 장치와 방법
KR20100028060A (ko) 디스플레이 장치 검출 기법
JP2004343262A (ja) マイクロフォン・スピーカ一体構成型・双方向通話装置
KR101444843B1 (ko) 영상 감시 시스템 및 그의 동작 방법
CN109155642A (zh) 回声降低装置、语音通信装置、回声降低方法及回声降低程序
CN111199751A (zh) 一种麦克风的屏蔽方法、装置和电子设备
JPH05122689A (ja) テレビ会議システム
CN108540680B (zh) 讲话状态的切换方法及装置、通话系统
JPH05244587A (ja) テレビ会議用カメラ制御装置
KR100195724B1 (ko) 화상회의 시스템에서의 영상카메라 조정방법 및 그 장치
JPH02202275A (ja) テレビ会議システム
JP2832960B2 (ja) 測距領域設定装置
JPH1032804A (ja) テレビ会議装置
JP2717966B2 (ja) カメラ制御方式
JPH01140884A (ja) 電子会議における話者自動検出方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication