JP2004505560A - Aiming the device at the sound source - Google Patents

Aiming the device at the sound source Download PDF

Info

Publication number
JP2004505560A
JP2004505560A JP2002515833A JP2002515833A JP2004505560A JP 2004505560 A JP2004505560 A JP 2004505560A JP 2002515833 A JP2002515833 A JP 2002515833A JP 2002515833 A JP2002515833 A JP 2002515833A JP 2004505560 A JP2004505560 A JP 2004505560A
Authority
JP
Japan
Prior art keywords
sound
targeting
audio source
source
threshold
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002515833A
Other languages
Japanese (ja)
Inventor
ストルビー,ヒューゴ ジェイ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of JP2004505560A publication Critical patent/JP2004505560A/en
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/142Constructional details of the terminal equipment, e.g. arrangements of the camera and the display

Abstract

システムは、様々な可能な音源から出る音に対応する標的とされる装置を目的とする。会議若しくは討論において、例えば、システムは、ビデオカメラ(4)若しくは光を現在のスピーカー(6B)に照準化する。制御システムは、音の新しい源(6A)、及び現在の標的(6B)と音の新しい源(6A)の間の角度の差からの連続的な音の発散の継続期間に反応する。各々が閾値を越える場合、カメラ(4)は再度照準化される。音は、短い一時停止(呼吸に関しては)が連続するスピーチを破壊するものとして反応されないように、完全に連続する必要性はない。The system is aimed at targeted devices that respond to sounds emanating from various possible sources. In a meeting or debate, for example, the system will aim a video camera (4) or light on a current speaker (6B). The control system is responsive to the new source of sound (6A) and the duration of continuous sound divergence from the difference in angle between the current target (6B) and the new source of sound (6A). If each exceeds the threshold, the camera (4) is aimed again. The sound need not be completely continuous, so that short pauses (in terms of breathing) are not reacted as breaking continuous speech.

Description

【0001】
本発明の分野
本発明は、一般的に、ビデオ会議システムに使用されるビデオトラッキングのような、自動照準化システムの分野に関する。
【0002】
本発明の背景
自動カメラトラッキングシステムは、動き、色、画像処理等のような数多の判定基準を基にしたカメラの視野内に標的を自動的に獲得し維持する。例えば、ビデオ会議システムは、パン−チルト−ズームカメラ(pan−tilt−zoom camera)を用いて所望の標的をトラックするかもしれない。かかる装置の一つのクラスは、グループ内の現在のスピーカーを自動的に決定すること及び現在のスピーカーに焦点化することにより現在のスピーカーのトラックを維持する。新しいスピーカーが話を始める場合は常に、自動的に騒音レベル及び/若しくは他の判定規準によって新しいスピーカーを検知し、引き続き新しいスピーカーに集中する。
【0003】
従来、現在のスピーカーを決定するための多くの異なる技術が提案されている。かかる技術では自動カメラが新しいスピーカーの存在を決定し、かつ従って新しいスピーカーに集中することを可能にする一方で、かかる技術は著しい欠点に苦しむ。かかるシステムは、スピーカーからスピーカーへと非常にゆっくりと切り替わり、それによって会話の大部分を省略し、若しくは、急速に切り替わりすぎて、カメラのトラッキングを混乱する。
【0004】
この問題の一つの解決策は、米国特許出願番号5206721によって提案されている。かかる特許は、各スピーカーが個別のマイクロホンを有するシステムにおける現在のスピーカーに照準化するための方法を記載している。このシステムにおいて、入力信号は、各スピーカーの、数多のマイクロホンの各々から集められる。話している総合時間は、連続する間隔を通して各スピーカーで累積される。与えられた時点において、最も長く累積した話す時間を伴う現在のスピーカーが決定される。
【0005】
上記のアプローチでの問題は、現在のスピーカーの決定が複数のマイクロホンを必要とすることである。複数のマイクロホンの使用は、マイクロホンの通常の相互接近、及び囲まれたスペース内若しくは分離と物体を備えた内のエコー及び外来の雑音発生により現在のスピーカーを区別することを困難にする。加えて、開示された方法は、隣接して位置している二人のスピーカー間の連続したカメラの動きの望まない影響を効果的に防げない。
【0006】
このようにして、従来技術の欠点を克服する、自動ビデオ会議技術での自動カメラが集中化し続ける現在のスピーカーを決定する方法の必要性がある。
【0007】
本発明の概要
本発明は、独立した請求項によって定義される一方で、従属の請求項は有用な実施態様を定義する。
【0008】
要約すると、システムは、様々な可能な音源から出る音に対応して標的とされる装置を目的とする。例えば、会議や討論において、システムは、ビデオカメラ若しくは光を現在のスピーカーに照準化するために使用されるであろう。制御システムは、音の新しい源、及び現在の標的と音の新しい源との間の角度差からの連続的な音の発散の継続期間に反応する。各々が閾値を超過する場合、カメラは再度照準化される。音は、短い一時停止(呼吸に関しては)が連続するスピーチを破壊するものとして反応されないように、完全に連続する必要性はない。
【0009】
システムは、カメラや光のような装置の制御を可能にする、音源のグループから、スピーカーのような、現在の音源を決定する。システムは、新しい源を獲得する以前に二つの判断基準を課してあり、第一は、供給源が、所定の間隔において実質的に連続し、第二としては、装置が照準化される現在の座標とは実質上異なる位置の座標(照準化される装置に関する角度)を有するべきである。ビデオ会議の環境において、新しいスピーカーと以前のスピーカー間の角度距離が閾値を超過する場合のみ、及び新しいスピーカーが最小時間で連続して話しをする場合のみにおいて、以前のスピーカーから新しいスピーカーへの変更になる。
【0010】
アプローチは、WO−A−99/27522(弁理士の事件要領書PHN16.638)に記載のような音の変換器を用いて実行されるであろう。上記の音の変換器は、音の出力レベル(RMS若しくは任意の他の適切な指示するもの)及び音の現在の源の座標を示唆する座標の信号を産出する。上記の機能性を達成するための制御は、下記の手順によって獲得されるであろう:
・もしも音の源の現在の座標が、現在の標的を表現する座標からの最低の角度の閾値によって異なる音の変換器によって産出される場合、現在の座標を標的獲得に対する候補であると確認する。
【0011】
・もしも現在の一時的な座標が特定の間隔において与えられた範囲(つまり、一定の音源を構成するように考慮された閾値を超過して変化しない)に留まる場合は、新しい標的を獲得し、現在の標的を表現する座標としての候補の座標を保存する。
【0012】
短い中断を備えたそのスピーチを保証するために、例えば、その伴う時々の呼吸及び休止は、連続的なスピーチ、低域フィルタ、時間ラッチあるいは音響出力レベル信号に適用されて使用される他のフィルタ・メカニズムのギャップとして応答されない。
【0013】
その後、時間閾値要求に備えるために、候補スピーカーが連続的に話す時間間隔(低域フィルタによってフィルター化されるように)は累積され、所定の時間閾値と連続的に比較される。一旦タイマーが連続的なスピーチの切れ目あるいは方向のある座標の変化のない(許容差内)時間閾値に達すれば、候補スピーカーは現在のスピーカーになり、したがって、カメラや光である装置は照準化される。
【0014】
代替としての適用において、本発明はスピーカーや俳優のような音源に照準化するスポットライトのような光として用いられるかもしれない。
【0015】
図面の詳細な記述
図1及び2に言及すると、音の変換器1は、スピーカー6Bからの音声の信号を受け取り、音の出力レベル(RMS若しくは同類の)及び方向の両者を示す出力を産出する。音の出力レベル信号は、一時的な短い低いレベルを除去するために、低域フィルタ19に適用される。フィルターを通された音の出力レベル信号は、次いで、音声源(スピーカー6B)の音の出力が与えられた瞬時における特定のレベルよりも高いか若しくは低いかを示す、単一のビット(時間とともに)信号を産出するために、閾値検出器20(つまり、コンパレーター)に適用される。
【0016】
閾値検出器20の出力は、音の変換器1からの方向信号を受け取る、角度コンピューター21に適用される。角度コンピューターは、音の現在の源の方向を示すベクトルを出力して、ベクトルを位置制御器22に適用する。閾値検出器20の出力は、方向信号から計算された角度で掛け合わせられ、もしも閾値が低く、無効でない方向ベクトルか、そうでない場合、角度コンピューター21の出力は、無効ベクトルである。
【0017】
位置制御器22は、カメラ4を向ける位置加速器23を制御する、処理を連続して実行する。位置制御器22によって実行された処理の結果は、音の設計された源の連続する獲得である。もしもスピーカー6Bが静かな期間で、スピーカー6Aが続く期間において連続的に話しをする場合、別のスピーカーが話しを取って代わるまで、カメラ4は後者6Aに向けられるであろう。
【0018】
そうでなければ連続的なスピーチの中で簡潔な休止がある場合、低域フィルタが信号の変更の回避に起因する総括的な過程であることに注意する。低域フィルタは総括的な記載として意図され、デジタル若しくはアナログ信号でのデジタル処理でありえる。それは短い休止あるいは他の適切な処理をスキップする、数字で表した低域フィルタ若しくは時間遅延処理か、若しくは装置(つまり、タイマーを伴うラッチ)でありえる。同様に閾値検出器20。後者は、アナログ装置若しくはデジタル処理である。低域フィルター、閾値検出器、及び角度コンピューター19乃至21の機能は、単一のアルゴリズム若しくは複数のスレッドによる上記の処理をすべて実行する単一のプロセッサー装置によって実行される。すなわち、上記の記載は、純粋に機能的になるように意図され、個別のハードウェア若しくはソフトウェア構成部分への分画処理を意図されない。
【0019】
図3に言及すると、本発明を実行するために使用されるであろう制御アルゴリズムは、新しい音声の信号(V)の受け取りで開始する。一旦、音声信号(V)が段階9にてノンゼロ(nonzero)になると、9−9ループ及び段階10へ通過する制御が存在する。新しい音声信号の角度の位置は、現在のスピーカー(S)メモリ10に保存される。次いで、カメラが段階11にて現在のスピーカー(S)にしたがって照準化される。現在のスピーカー(S)ベクトルと瞬間の音声源(V)ベクトル(角度コンピューター21の出力)間の角度差は、段階12にて計算され、もしも瞬時の音声源(V)がノン−ゼロで、差異が閾値(|V−S|<Ta)を超過する場合、コントロールは停止するために10に通過する。もしもそうでなければ、制御の流れはループ12−12で待機する。段階10において、瞬時の音声源(V)ベクトルは、対応する音声源の候補のメモリに保存される。次いで、タイマーはリセットされ、段階14で開始する。次いで、制御の流れのループが、
1.瞬時の音声源(V)ベクトルがゼロ(段階15);
2.瞬時の音声源(V)ベクトルと候補の(C)ベクトル(|V−S|>T)が閾値Tよりも下がる(段階15);若しくは
3.タイマーは時間切れ(段階16)。
の場合に脱出されて実施される。
【0020】
もしもタイマーが時間切れの場合、制御は段階17を通過して、候補(C)ベクトルは、現在のスピーカー(S)に対応するメモリに保存され、カメラは段階17にて再度照準化される。段階15での状況の何れも合致しない場合、ループは段階12に脱出される。
【0021】
示されて上記に記載された特定の実施態様が、パン−チルト−ズームカメラを用いるビデオ会議の目的のためのスピーカーの変化の決定に有用であることが証明され、ここに開示された本発明のさらなる修正は、本発明に関係する当業者に考えられるであろうし、また、そのような修正はすべて、添付された請求項によって確定された本発明の範囲内であると考えられる。
【0022】
請求項において、括弧間の任意の参照サイン場所も請求項の限定として解釈されないものとする。言葉としての“からなる(含んでいる・含有する)”は、請求項にリスト化されたもの以外の要素若しくは段階の存在を除外しない。要素の前に先行する言葉である“一つの”は、かかる要素の複数の存在を除外しない。本発明は、数多の個別の要素からなるハードウェアの手段及び適切にプログラムされたコンピューターの手段によって実行できる。数多の方法を数えあげる装置の請求項では、ハードウェアの全く同一のアイテムにより、これら方法の数多のものは具体化することができる。ある手段が相互に異なり依存する請求項で語られるという単なる事実は、これらの手段の組み合わせが利点として使用されることができないことを示さない。
【図面の簡単な説明】
【図1】本発明の一の実施態様の応用の比喩的な表現である。
【図2】本発明の一の実施態様の機能的なブロック図形である。
【図3】図2における実施態様を実行するために使用されるかもしれないコントロールアルゴリズムについて記述する工程図である。
[0001]
FIELD OF THE INVENTION The present invention relates generally to the field of auto-aiming systems, such as video tracking used in video conferencing systems.
[0002]
Background of the Invention Automatic camera tracking systems automatically acquire and maintain targets within the camera's field of view based on a number of criteria, such as motion, color, image processing, and the like. For example, a video conferencing system may track a desired target using a pan-tilt-zoom camera. One class of such devices maintains the current speaker track by automatically determining the current speaker in the group and focusing on the current speaker. Whenever a new speaker starts talking, it automatically detects the new speaker by noise level and / or other criteria and continues to focus on the new speaker.
[0003]
Conventionally, many different techniques for determining current speakers have been proposed. While such techniques allow automatic cameras to determine the presence of new speakers and thus focus on new speakers, they suffer from significant drawbacks. Such systems switch very slowly from speaker to speaker, thereby skipping most of the conversation, or switching too quickly, confusing camera tracking.
[0004]
One solution to this problem has been proposed by US Patent Application No. 5,206,721. Such patent describes a method for aiming at current speakers in a system where each speaker has a separate microphone. In this system, input signals are collected from each of a number of microphones on each speaker. The total talking time is accumulated for each speaker over successive intervals. At a given time, the current speaker with the longest accumulated speaking time is determined.
[0005]
The problem with the above approach is that the current speaker determination requires multiple microphones. The use of multiple microphones makes it difficult to distinguish current loudspeakers due to the normal close proximity of microphones and echoes and extraneous noise generation within enclosed spaces or with isolation and objects. In addition, the disclosed method does not effectively prevent the undesired effects of continuous camera movement between two speakers located in close proximity.
[0006]
Thus, there is a need for a method of determining the current speakers in which automatic cameras in automatic video conferencing technology continue to concentrate, overcoming the shortcomings of the prior art.
[0007]
SUMMARY OF THE INVENTION The invention is defined by the independent claims, while the dependent claims define useful embodiments.
[0008]
In summary, the system is aimed at devices that are targeted in response to sounds from various possible sources. For example, in a meeting or discussion, the system would be used to aim a video camera or light at a current speaker. The control system is responsive to the new source of sound and the duration of continuous sound divergence from the angular difference between the current target and the new source of sound. If each exceeds the threshold, the camera is aimed again. The sound need not be completely continuous so that short pauses (in terms of breathing) are not reacted as breaking continuous speech.
[0009]
The system determines the current sound source, such as a speaker, from a group of sound sources that allows control of devices such as cameras and lights. The system imposes two criteria before acquiring a new source: first, the source is substantially continuous at predetermined intervals, and second, the current Should have substantially different position coordinates (angles with respect to the device to be aimed). In a video conferencing environment, change from the old speaker to the new speaker only if the angular distance between the new speaker and the old speaker exceeds the threshold and only if the new speaker talks continuously for a minimum amount of time become.
[0010]
The approach would be implemented using a sound transducer as described in WO-A-99 / 27522 (Patent Attorney's Procedures PHN 16.638). The above sound transducer produces a signal of the sound output level (RMS or any other suitable indicator) and coordinates indicative of the coordinates of the current source of the sound. Control to achieve the above functionality will be obtained by the following procedure:
If the current coordinates of the sound source are produced by a sound transducer that differs by a minimum angle threshold from the coordinates representing the current target, confirm the current coordinates as candidates for target acquisition .
[0011]
Acquiring a new target if the current temporal coordinates remain within a given range at a particular interval (ie, do not change above a threshold considered to constitute a constant sound source); Save the coordinates of the candidate as coordinates representing the current target.
[0012]
In order to ensure that speech with short interruptions, for example, the accompanying occasional breathing and resting may be used for continuous speech, low pass filters, time latches or other filters applied and used on sound power level signals -Not responded as a gap in the mechanism.
[0013]
Thereafter, to prepare for the time threshold requirement, the time intervals at which the candidate speakers continuously speak (as filtered by a low-pass filter) are accumulated and continuously compared to a predetermined time threshold. Once the timer reaches the time threshold (within tolerance) without continuous speech breaks or certain coordinate changes in direction, the candidate speaker becomes the current speaker, and thus the camera or light device is aimed. You.
[0014]
In an alternative application, the invention may be used as a light, such as a spotlight, aiming at a sound source, such as a speaker or actor.
[0015]
Detailed Description of the Drawings Referring to Figures 1 and 2, a sound transducer 1 receives an audio signal from a speaker 6B and produces an output indicating both the sound output level (RMS or the like) and direction. . The sound output level signal is applied to a low pass filter 19 to remove temporary short low levels. The filtered sound output level signal is then a single bit (with time) indicating whether the sound output of the audio source (speaker 6B) is higher or lower than a particular level at a given instant. ) Applied to a threshold detector 20 (ie, a comparator) to produce a signal.
[0016]
The output of the threshold detector 20 is applied to an angle computer 21 which receives the direction signal from the sound transducer 1. The angle computer outputs a vector indicating the direction of the current source of the sound and applies the vector to the position controller 22. The output of the threshold detector 20 is multiplied by the angle calculated from the direction signal, and if the threshold is low and is not a non-invalid direction vector, or the output of the angle computer 21 is an invalid vector.
[0017]
The position controller 22 continuously executes processing for controlling the position accelerator 23 for pointing the camera 4. The result of the processing performed by the position controller 22 is a continuous acquisition of a designed source of sound. If the speaker 6B talks continuously during the quiet period, while the speaker 6A continues, the camera 4 will be pointed at the latter 6A until another speaker takes over.
[0018]
Note that if there are otherwise brief pauses in the continuous speech, the low pass filter is a global process due to avoiding signal changes. The low pass filter is intended as a general description and can be digital processing on digital or analog signals. It can be a numerical low pass filter or time delay processing, or a device (ie, a latch with a timer) that skips short pauses or other appropriate processing. Similarly, threshold detector 20. The latter are analog devices or digital processing. The functions of the low pass filter, threshold detector, and angle computers 19-21 are performed by a single processor unit that performs all of the above processing with a single algorithm or multiple threads. That is, the above description is intended to be purely functional and not intended to be a fractionation process into individual hardware or software components.
[0019]
Referring to FIG. 3, the control algorithm that will be used to implement the present invention begins with the receipt of a new audio signal (V). Once the audio signal (V) goes to non-zero at step 9, there is a 9-9 loop and control passing to step 10. The position of the angle of the new audio signal is stored in the current speaker (S) memory 10. The camera is then aimed according to the current speaker (S) in step 11. The angular difference between the current speaker (S) vector and the instantaneous audio source (V) vector (output of the angle computer 21) is calculated in step 12, if the instantaneous audio source (V) is non-zero, If the difference exceeds the threshold (| VS | <Ta), control passes to 10 to stop. If not, control flow waits in loop 12-12. In step 10, the instantaneous audio source (V) vector is stored in the memory of the corresponding audio source candidate. The timer is then reset and starts at step 14. Then the control flow loop:
1. The instantaneous audio source (V) vector is zero (step 15);
2. Instantaneous sound source (V) of the vector and the candidate (C) vector (| V-S |> T A) falls below the threshold value T K (step 15); or 3. The timer expires (step 16).
In the case of the escape is carried out.
[0020]
If the timer has expired, control passes to step 17 where the candidate (C) vector is stored in the memory corresponding to the current speaker (S) and the camera is again aimed at step 17. If none of the situations in step 15 match, the loop exits to step 12.
[0021]
The particular embodiment shown and described above has proven useful in determining speaker changes for videoconferencing purposes using a pan-tilt-zoom camera and the invention disclosed herein. Further modifications of the invention will occur to those skilled in the art to which the invention pertains, and all such modifications are considered to be within the scope of the invention as defined by the appended claims.
[0022]
In the claims, any reference sign location between parentheses shall not be construed as a limitation on the claim. The word "comprising" does not exclude the presence of elements or steps other than those listed in a claim. The word "one" preceding an element does not exclude the presence of a plurality of such elements. The invention can be implemented by means of a number of discrete components and by means of a suitably programmed computer. In the device claim enumerating several methods, several of these methods can be embodied by one and the same item of hardware. The mere fact that certain measures are recited in mutually different dependent claims does not indicate that a combination of these measures cannot be used to advantage.
[Brief description of the drawings]
FIG. 1 is a metaphorical representation of an application of one embodiment of the present invention.
FIG. 2 is a functional block diagram of one embodiment of the present invention.
FIG. 3 is a flowchart describing a control algorithm that may be used to implement the embodiment in FIG.

Claims (16)

音声源を標的化するための方法であって、
現在の音声源からの音の測定によって決定される該現在の音声源の第一座標の保存と、
角度閾値のメモリへの保存と、
メモリに保存された以前の音声源の前記第一座標及び第二座標との間の角度差の計算と、及び
前記角度差及び前記角度閾値に応対する前記現在の音声源の標的化と
からなることを特徴とする方法。
A method for targeting an audio source, the method comprising:
Storing a first coordinate of the current audio source as determined by measuring sound from the current audio source;
Storing the angle threshold in memory,
Calculating the angle difference between the first and second coordinates of the previous sound source stored in memory and targeting the current sound source in response to the angle difference and the angle threshold. A method comprising:
前記標的化段階が、前記角度閾値と前記角度差との比較を含むことを特徴とする請求項1に記載の方法。The method of claim 1, wherein the targeting step comprises comparing the angle threshold with the angle difference. 前記角度差が前記角度閾値を超過する場合のみ、前記標的化段階が、標的化する前記現在の音声源を含有することを特徴とする請求項1に記載の方法。The method of claim 1, wherein the targeting step includes the current audio source to be targeted only if the angle difference exceeds the angle threshold. 前記標的化段階が、前記現在の音声源の音の出力レベルに応対して標的化する前記現在の音声源を含有することを特徴とする請求項1に記載の方法。The method of claim 1, wherein the targeting step includes the current audio source targeting in response to a sound output level of the current audio source. 前記標的化段階が、所定の音の出力閾値に対する前記現在の音声源の音の出力の比較を含むことを特徴とする請求項1に記載の方法。The method of claim 1, wherein the targeting step comprises comparing a sound output of the current audio source to a predetermined sound output threshold. 前記標的化段階が、前記現在の音声源に応対する低域でフィルターする音の出力信号を含むことを特徴とする請求項1に記載の方法。The method of claim 1, wherein the targeting step comprises a low-pass filtered sound output signal corresponding to the current audio source. 前記低域でフィルターする段階が、
音の出力レベルの入力信号の受理と、
前記入力信号が閾値レベルよりも低い場合でのタイマーのリセット及び開始と、
前記入力信号が前記閾値レベルを超過する以前に、前記タイマーが時間切れ状態に達した場合の、第一出力信号の出力と、及び
前記タイマーが前記時間切れ状態に達するまでに、前記閾値レベルより低い前記入力信号を維持する場合における第二出力信号の出力と
を含有することを特徴とする請求項6に記載の方法。
The step of filtering in the low band,
Receiving the input signal of the sound output level,
Resetting and starting a timer when the input signal is below a threshold level;
Before the input signal exceeds the threshold level, if the timer has reached a time-out state, the output of the first output signal and from the threshold level before the timer reaches the time-out state. 7. The method of claim 6, including maintaining the input signal low and the output of the second output signal.
前記標的化段階が、照準化する装置を含むことを特徴とする請求項1に記載の方法。The method of claim 1, wherein the targeting step includes an aiming device. 音声源を標的化するための方法であって、
現在のスピーカーメモリでの現在のスピーカーの座標の保存と、
第一音声源の座標の検出と、
前記現在のスピーカーの保存された座標及び前記第一音声源の前記座標との間の角度差の決定と、及び
前記角度差に応対する前記第一音声源と
からなることを特徴とする方法。
A method for targeting an audio source, the method comprising:
Saving the current speaker coordinates in the current speaker memory,
Detecting the coordinates of the first audio source;
Determining the angular difference between the stored coordinates of the current speaker and the coordinates of the first audio source, and the first audio source responsive to the angular difference.
音声源を標的化するための方法であって、
現在の音声源の検出と、
音声源の保存された座標及び前記現在の音声源の座標との間の角度差の決定と、
前記現在の音声源の音の出力レベルのメンテナンスの継続期間の測定と、及び
前記継続期間及び前記角度差に応対する前記音声源の標的化と
からなることを特徴とする方法。
A method for targeting an audio source, the method comprising:
Detection of the current audio source,
Determining an angular difference between the stored coordinates of the audio source and the coordinates of the current audio source;
A method comprising: measuring a duration of maintenance of the current audio source sound output level; and targeting the audio source in response to the duration and the angle difference.
音声源を標的化するための方法であって、
現在の音声源の検出と、
音声源の保存された座標及び前記現在の音声源の保存された座標との間の角度差の決定と、
前記現在の音声源の音の出力レベルの継続期間の時間積分の測定と、及び
所定の角度閾値を超過する前記継続期間の時間積分及び前記角度差に応対する前記音声源の標的化と
からなることを特徴とする方法。
A method for targeting an audio source, the method comprising:
Detection of the current audio source,
Determining an angular difference between the stored coordinates of the audio source and the stored coordinates of the current audio source;
Measuring the time integral of the duration of the power level of the sound of the current audio source and targeting the audio source in response to the time integral of the duration and the angle difference exceeding a predetermined angle threshold. A method comprising:
標的化システムであって、
前記音源の座標及び音の出力レベルを表現する第一及び第二信号をそれぞれ産出する音の変換器と、及び
前記第一及び第二信号を受け取るために接続されたコントローラーであって、前記第一の音の信号の座標及び事前の音源の保存された座標との間の角度差を計算するためにプログラムされて、前記角度差に応対して照準化される装置の位置の制御にさらに接続されることを特徴とするコントローラーと
からなることを特徴とする標的化システム。
A targeting system,
A sound converter producing first and second signals respectively representing the coordinates of the sound source and the output level of the sound, and a controller connected to receive the first and second signals, It is further programmed to calculate the angle difference between the coordinates of the sound signal and the stored coordinates of the previous sound source and is further connected to the control of the position of the device aiming in response to said angle difference. A targeting system comprising: a controller characterized by being performed.
前記音源の前記音の出力レベルを受け取るために接続された低域フィルターをさらに含有し、前記低域フィルターが前記音源の前記音の出力レベルをフィルターするためにプログラムされて、前記コントローラーによって受け取られるフィルター化された音の出力レベル信号を出力することを特徴とする請求項12の標的化システム。A low-pass filter connected to receive the sound output level of the sound source, wherein the low-pass filter is programmed to filter the sound output level of the sound source and received by the controller. 13. The targeting system of claim 12, wherein the system outputs a filtered sound output level signal. 標的化システムであって、
音源の位置を表現する第一信号及び前記音源の音の出力レベルを表現する第二信号を提供するためにアレンジされた少なくとも二つのマイクロホンを使用する音声の検出器と、
前記第一及び第二信号を受け取るために接続されたコントローラー装置であって、該コントローラーが
前記音源の前記座標及び以前の音源の保存された座標との間の角度差を計算するために、
角度閾値に対する前記角度差を比較するために、及び
前記角度閾値を超過する前記角度差に応対して照準化する前記コントローラー装置に接続された標的化装置の制御するために
プログラムされたことを特徴とする標的化システム。
A targeting system,
A sound detector using at least two microphones arranged to provide a first signal representing the position of the sound source and a second signal representing the output level of the sound of the sound source;
A controller device connected to receive the first and second signals, the controller calculating an angular difference between the coordinates of the sound source and the stored coordinates of a previous sound source;
Programmed to compare the angle difference to an angle threshold and to control a targeting device connected to the controller device to aim in response to the angle difference exceeding the angle threshold. And targeting system.
前記コントローラー装置が、前記音源の前記音の出力レベルを受け取るためにプログラムされた低域フィルターを含み、前記音源のフィルター化された音の出力レベルを出力することを特徴とする請求項14に記載の標的化システム。15. The controller of claim 14, wherein the controller device includes a low-pass filter programmed to receive the sound output level of the sound source, and outputs a filtered sound output level of the sound source. Targeting system. 前記コントローラー装置が、前記音源の前記音の出力レベルを受け取るために接続された閾値検出器を含み、該閾値検出器が音の閾値に対する前記音源の前記音の出力レベルと比較するようにプログラムされ、それによって前記標的化装置が前記所定の閾値を超過する前記音の出力及び前記角度閾値を超過する前記角度差に応対して照準化されることを特徴とする請求項14に記載の標的化システム。The controller device includes a threshold detector connected to receive the sound output level of the sound source, the threshold detector being programmed to compare the sound output level of the sound source to a sound threshold. 15. The targeting of claim 14, whereby the targeting device is aimed in response to the output of the sound exceeding the predetermined threshold and the angle difference exceeding the angle threshold. system.
JP2002515833A 2000-08-01 2001-07-17 Aiming the device at the sound source Pending JP2004505560A (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US63066400A 2000-08-01 2000-08-01
PCT/EP2001/008295 WO2002011438A1 (en) 2000-08-01 2001-07-17 Aiming a device at a sound source

Publications (1)

Publication Number Publication Date
JP2004505560A true JP2004505560A (en) 2004-02-19

Family

ID=24528077

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002515833A Pending JP2004505560A (en) 2000-08-01 2001-07-17 Aiming the device at the sound source

Country Status (5)

Country Link
EP (1) EP1308039A1 (en)
JP (1) JP2004505560A (en)
KR (1) KR20020033829A (en)
CN (1) CN1386371A (en)
WO (1) WO2002011438A1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007336445A (en) * 2006-06-19 2007-12-27 Nippon Telegr & Teleph Corp <Ntt> Conversation support system

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101937199A (en) * 2010-03-25 2011-01-05 中国计量学院 Stage performance personnel light automatic tracking technology and implementation thereof
WO2013056721A1 (en) * 2011-10-18 2013-04-25 Siemens Enterprise Communications Gmbh & Co.Kg Method and apparatus for providing data produced in a conference
WO2015042897A1 (en) 2013-09-29 2015-04-02 中兴通讯股份有限公司 Control method, control apparatus and control device
CN103595953B (en) * 2013-11-14 2017-06-20 华为技术有限公司 A kind of method and apparatus for controlling video capture
CN104697119B (en) * 2015-03-24 2017-07-04 广东美的制冷设备有限公司 A kind of air-conditioning self adaptation air supply method and controller
CN106205628B (en) 2015-05-06 2018-11-02 小米科技有限责任公司 Voice signal optimization method and device
CN104835359A (en) * 2015-05-14 2015-08-12 韩凤英 Remote teaching auxiliary device
CN109710080B (en) * 2019-01-25 2021-12-03 华为技术有限公司 Screen control and voice control method and electronic equipment
CN113676687A (en) * 2021-08-30 2021-11-19 联想(北京)有限公司 Information processing method and electronic equipment

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2148631C (en) * 1994-06-20 2000-06-13 John J. Hildin Voice-following video system
US6593956B1 (en) * 1998-05-15 2003-07-15 Polycom, Inc. Locating an audio source

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007336445A (en) * 2006-06-19 2007-12-27 Nippon Telegr & Teleph Corp <Ntt> Conversation support system

Also Published As

Publication number Publication date
CN1386371A (en) 2002-12-18
WO2002011438A1 (en) 2002-02-07
EP1308039A1 (en) 2003-05-07
KR20020033829A (en) 2002-05-07

Similar Documents

Publication Publication Date Title
KR101125897B1 (en) Sound pickup apparatus and echo cancellation processing method
JP2003532348A (en) Method and apparatus for tracking moving objects using combined video and audio information in video conferencing and other applications
US6980485B2 (en) Automatic camera tracking using beamforming
JP2005086365A (en) Talking unit, conference apparatus, and photographing condition adjustment method
JPH0546910B2 (en)
JP2005057398A (en) Speech unit
US20020140804A1 (en) Method and apparatus for audio/image speaker detection and locator
US20050207566A1 (en) Sound pickup apparatus and method of the same
JP2004505560A (en) Aiming the device at the sound source
CN110808048A (en) Voice processing method, device, system and storage medium
JP2004343262A (en) Microphone-loudspeaker integral type two-way speech apparatus
JPH06351015A (en) Image pickup system for video conference system
WO2011033924A1 (en) Echo removal device, echo removal method, and program for echo removal device
JPS632500A (en) Sound pickup device
US20170374463A1 (en) Audio signal processing device, audio signal processing method, and storage medium
JP2004004239A (en) Voice recognition interaction system and program
KR101424911B1 (en) Real-time automatic video monitoring system including audio sensor array
JP4198915B2 (en) Spatial sonic steering system
JP2005181391A (en) Device and method for speech processing
JP2004343668A (en) Microphone-loudspeaker integral type two-way speech apparatus
CN111903194B (en) System and method for enhancing voice commands using connected lighting systems
JP2005065217A (en) Calling device
JP2005151042A (en) Sound source position specifying apparatus, and imaging apparatus and imaging method
CN208540142U (en) Audio system
JPH0556426A (en) Camera control circuit