JP3739673B2 - ズーム推定方法、装置、ズーム推定プログラム、および同プログラムを記録した記録媒体 - Google Patents

ズーム推定方法、装置、ズーム推定プログラム、および同プログラムを記録した記録媒体 Download PDF

Info

Publication number
JP3739673B2
JP3739673B2 JP2001189571A JP2001189571A JP3739673B2 JP 3739673 B2 JP3739673 B2 JP 3739673B2 JP 2001189571 A JP2001189571 A JP 2001189571A JP 2001189571 A JP2001189571 A JP 2001189571A JP 3739673 B2 JP3739673 B2 JP 3739673B2
Authority
JP
Japan
Prior art keywords
speaker
power
estimation
range
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001189571A
Other languages
English (en)
Other versions
JP2003008974A (ja
JP2003008974A5 (ja
Inventor
和則 小林
賢一 古家
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2001189571A priority Critical patent/JP3739673B2/ja
Publication of JP2003008974A publication Critical patent/JP2003008974A/ja
Publication of JP2003008974A5 publication Critical patent/JP2003008974A5/ja
Application granted granted Critical
Publication of JP3739673B2 publication Critical patent/JP3739673B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/40Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
    • H04R2201/403Linear arrays of transducers

Landscapes

  • Closed-Circuit Television Systems (AREA)
  • Studio Devices (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、通信会議、遠隔講義、監視装置等において、複数のマイクロホン等の収音手段で収集された話者音声により話者位置を推定し、テレビカメラを話者位置に向け、話者のクローズアップ映像を取得する、または話者位置を推定し、指向性を自動的に話者位置に向け、話者の音声を取得するズーム推定方法および装置に関する。
【0002】
【従来の技術】
図10は従来の話者追従撮像・収音装置の構成を示している。
【0003】
この話者追従撮像・収音装置はマイクロホン111〜11Mと話者位置推定部12と遅延量・ゲイン計算部51と指向性形成部23とカメラ方向・ズーム計算部16とテレビカメラ18とを有する。
【0004】
話者位置推定部12は複数のマイクロホン111〜11Mで収音された信号を用いて、話者19の位置を推定する。指向性形成部23は推定された話者位置に対する感度が高くなるように指向性21を形成する。指向性形成部23は、各マイクロホン111〜11Mでの収音信号を遅延させ、ゲインをかけてから加算する構成となっており、遅延量およびゲインは、遅延量・ゲイン計算部51で計算される。遅延量は、各マイクロホン111〜11Mで観測された話者音声が同位相となるように、推定話者位置とマイクロホン位置と音速より求められ、ゲインは、指向性形成部23の出力の信号対雑音のパワー比が最大となるように求められる。このようにして、推定された話者位置にテレビカメラ18が向くように、カメラ方向・ズーム計算部16はカメラ方向とズーム量を計算し、テレビカメラ18を制御する。これにより、話者位置にテレビカメラ18を追従させることが可能となる。
【0005】
また、推定された話者位置に鋭い指向性を向けることにより、低雑音で話者音声を収音することが可能となる(例えば、特開平9―261792公報「受音方法及びその装置」)。
【0006】
この公報に記載された方法では、第i番目のマイクロホンの出力信号に対して、焦点からi番目のマイクロホンまでの距離に応じて時間遅延を与えるとともに、前記距離の累乗値の逆数を乗算し、それらの乗算した信号を加算し、加算した信号に含まれる焦点位置に置かれた音源の直接音成分のパワーと残響音成分のパワーの和に応じて加算結果を正規化した後出力する。
【0007】
【発明が解決しようとする課題】
しかし、一般的な部屋で話者位置推定を行った場合、雑音や残響で推定誤差が生じるため、正確な話者位置にテレビカメラや指向性を向けることはできない。このため、従来技術では、図11に示すように話者が画面からはみ出したり、図12に示すように話者位置から指向性21がずれ、収音した話者音声に劣化が生じたりするといった問題が生じる。
【0008】
従来の話者追従撮像・収音方法では、雑音や残響のある環境において話者位置推定精度が低く、話者が画面からはみ出したり、話者位置から指向性がずれ、収音した話者音声に劣化が生じたりするという問題がある。
【0009】
本発明の目的は、話者位置が正確に分からない場合でも、話者を画面内に収め、話者音声を劣化なしで収音するズーム推定方法および装置を提供することである。
【0010】
本発明の他の目的は、音声劣化なしに話者音声を収音するズーム推定方法および装置を提供することにある。
【0011】
【課題を解決するための手段】
本発明の第1の態様によれば、ズーム推定方法は、
複数の収音手段の各々で収音された収音信号により話者音声パワーと話者位置を推定する話者位置推定段階と、
前記収音信号より雑音パワーを推定する雑音パワー推定段階と、
前記話者音声パワーと話者位置と雑音パワーより話者位置推定精度を演算する精度推定段階と、
話者位置と話者位置推定精度により、話者が存在する範囲である話者範囲を設定する話者範囲推定段階と、
前記話者範囲より、話者が画面に入るようにテレビカメラの方向およびズーム量を決定するカメラ方向・ズーム計算段階とを有する。
【0012】
本発明の第2の態様によれば、ズーム推定方法は、
複数の収音手段の各々で収音された収音信号により話者音声パワーと話者位置を推定する話者位置推定段階と、
前記収音信号より雑音パワーを推定する雑音パワー推定段階と、
話者音声パワーと話者位置と雑音パワーより、話者位置精度を演算する精度推定段階と、
話者位置と話者位置推定精度により、話者が存在する範囲である話者範囲を設定する話者範囲推定段階と、
話者範囲に対する感度が、それ以外の位置に対する感度よりも高くなるように、複数の収音手段を用いて指向性を形成するための遅延量とフィルタ係数を、前記話者範囲と各収音手段の位置より算出する遅延量・フィルタ係数計算段階と、各収音信号を遅延量とフィルタ係数を用いて処理し、音声出力を得る指向性形成段階とを有する。
【0013】
本発明は、話者位置推定精度を推定し、話者位置推定精度にあわせて、テレビカメラのズーム量、もしくは指向性の鋭さを変化させることにより、話者を画面内に収めること、もしくは話者音声の劣化を防ぐことを実現するものである。
【0014】
【発明の実施の形態】
図1を参照すると、本発明の第1の実施形態のズーム推定装置は、マイクロホン111〜11Mと話者位置推定部12と雑音パワー推定部13と精度推定部14と話者範囲設定部15とカメラ方向・ズーム計算部16とによって構成されている。
【0015】
本実施形態のズーム推定装置は、話者位置を推定し、テレビカメラ18を話者位置に向け、話者19のクローズアップ映像を取得し、また、話者位置精度を推定し、話者位置推定精度にあわせてテレビカメラ18のズーム量を変化させることで、話者位置推定精度が低い場合でも、話者を画面内に収めることを実現する装置である。
【0016】
話者位置推定部12は、マイクロホン111〜11Mで収音された信号を用いて話者19の位置と話者音声のパワーを推定する。話者位置推定部12は、例えば図2に示すように指向性走査部121とパワー分布計算部122と最大パワー位置検出部123により構成される。指向性走査部121は、各マイクロホン出力に遅延di (x, y, z)とゲインgi (x, y, z)を与え加算することにより鋭い指向性を形成し、その指向性を話者が存在可能な範囲で走査する。ここで、「走査」とは後述するように各チャネルからの音声信号から距離減衰、遅延を施して計算されたパワーが最大になる位置(x, y, z)を、予め準備された候補となる位置(x, y, z)から選ぶことである。
【0017】
走査位置(x, y, z)の場合に、i番目のマイクロホン11iに与えられる遅延量di (x, y,z)は、走査位置(x,y,z)から発せられた音が同位相となるように、走査位置(x, y, z)とi番目のマイクロホン位置(xi, yi, zi)と音速cより、式(1)および式(2)を用いて求められる。
【0018】
【数1】
Figure 0003739673
【0019】
ただし、Dは固定遅延量であり、信号を進ませることができないという因果性を満足させるために、di(x, y, z)が必ず正となるように与えられる定数であり、ri (x, y, z)は、走査位置(x, y, z)とi番目のマイクロホン位置(xi, yi, zi)間の距離である。
【0020】
また、走査位置 (x, y, z)の場合に、i番目のマイクロホン11iに与えられるゲインgi (x, y, z)は、信号対雑音比が最大となり、各走査位置に対する利得が一定となるように、式(3)で与えられる。
【0021】
【数2】
Figure 0003739673
【0022】
ただし、Vは部屋の体積(m3)であり、TRは残響時間(s)である。
【0023】
走査位置(x, y, z)に対し得られる指向性走査部121の出力y (t, x, y, z)は、各マイクロホン111〜11Mで受音された信号xi (t)に、遅延di (x,y,z)とゲインgi (x, y, z)を与え加算した信号であり、式(4)で表される。
【0024】
【数3】
Figure 0003739673
【0025】
ただし、xi (t)はi番目のマイクロホンで収音された信号であり、tは時刻である。
【0026】
次に、パワー分布計算部122は指向性走査部121の出力信号y (t, x, y, z)の短時間平均パワーを走査位置毎に計算する。走査位置毎に計算されたパワーP (x, y, z)(パワー分布)は、式(5)で表される。
【0027】
【数4】
Figure 0003739673
【0028】
ただし、Tは、短時間平均パワーを求めるための平均時間であり0.1〜1s程度の値である。
【0029】
式(5)のパワー分布は、走査位置に鋭い指向性を向けた場合に収音された音のパワーであるので、その位置にある音源のパワーの推定値となっている。すなわち、パワー分布のうち、大きいパワーを有する位置には音源があり、大きいパワーの位置を検出することにより話者位置の推定が可能となる。最大パワー位置検出部123では、最大パワーを持つ走査位置を検出し、最も大きい音を発する音源位置を検出する。以上の方法により、話者位置の検出が可能となる。ただし、パワー分布には、雑音の影響によるパワーが加算されていることにより、位置の推定誤差が生じる。
【0030】
雑音パワー推定部13では、マイクロホン111〜11Mで収音された信号より雑音パワーを推定する。雑音パワー推定部13は、例えば図3に示すように、パワー変動検出部131と長時間平均パワー計算部132により構成される。パワー変動検出部131は、マイクロホン111〜11Mで収音された信号の短時間平均パワー(0.1〜1s程度)を監視し、パワー変動が大きい場合にパワー変動ありとして検出する。パワー変動の検出は、例えば短時間平均パワーの標準偏差が、予め設定した閾値を超えた場合に、パワー変動ありと検出する。長時間平均パワー計算部132は、パワー変動検出部131による検出結果がパワー変動なしである場合に、マイクロホン111〜11Mで収音した信号の長時間平均パワー(1s〜10s程度)を計算する。このようにパワー変動のない期間の長時間平均パワーを計算することにより、雑音パワーを推定することが可能となる。
【0031】
精度推定部14では、推定された雑音パワーと推定された話者音声パワーと推定話者位置より話者位置推定精度を演算する。精度推定部14は、例えば図2に示すように、雑音パワー分布計算部142とパワー分布記憶部141と精度計算部143とにより構成される。まず、雑音パワー分布計算部142では、雑音パワー推定部13により推定された雑音パワーP'Nより、パワー分布にどの程度の雑音が含まれているか(雑音パワー分布)を計算する。各マイクロホン111〜11Mに互いに無相関で平均パワーがP'Nである雑音N1 (t)〜NM (t)が到来していると仮定すれば、雑音パワー分布PN (x, y, z)は式(6)により求めることができる。
【0032】
【数5】
Figure 0003739673
【0033】
次に、指向性走査部121とパワー分布計算部122により計算されたパワー分布P (x, y, z)は、パワー分布記憶部141に記憶される。精度計算部143では、記憶されたパワー分布P (x, y, z)と雑音パワー分布PN (x, y, z)と推定話者位置(xt, yt, zt)より精度を求める。求め方の説明は、図4を用いて行う。図4において、縦軸は線形である。パワー分布P(x, y, z)は雑音の影響を含んでおり、雑音パワー分布はPN(x, y, z)であるので、雑音がなかった場合のパワー分布Ps (x, y, z)は、式(7)の値の範囲をとり得る。
【0034】
【数6】
Figure 0003739673
【0035】
このとき、Ps (x, y, z)で最大値となる可能性のある位置は、式(8)に示す条件を満たす位置のみである。
【0036】
【数7】
Figure 0003739673
【0037】
ただし、PMAXはP (x, y, z)の最大値である。
【0038】
図4においては(最大パワー)―(雑音パワー分布)の曲線を超えるパワー分布を持つ範囲がPs (x, y, z)で最大値となる可能性のある位置であり、誤差の範囲となる。したがって、誤差の範囲のうち、推定話者位置より最も離れた位置までの距離が話者位置推定精度となる。
【0039】
話者範囲設定部15は、推定話者位置と話者位置推定精度から、話者が存在する範囲(話者範囲)を求める。具体的には、推定話者位置を中心とし、話者位置推定精度を半径rとした球内が話者範囲となる。
【0040】
この話者範囲内に話者がいるわけであるから、話者範囲全体が画面内に入るようにテレビカメラ18を制御すれば、図5に示すように画面内から話者がはみ出すことはない。
【0041】
話者範囲全体が画面内に入るようにするには、テレビカメラ方向とズーム量を適切に決定する必要がある。図6は、テレビカメラ方向とズーム量を決定する方法を説明する図であり、x, y, zの直交座標系で位置を表すものとする。テレビカメラ位置は座標(xc, yc, zc)であり、推定話者位置(xt, yt, zt)であり、話者範囲は半径rの球形である。また、話者が最も中心座標よりずれた場合でも画面からはみ出さないように、50cm〜100cm程度のマージンδを設け、その球体を画面範囲とした。
【0042】
まず、テレビカメラ方向は推定話者位置(xt, yt, zt) とカメラ位置(xc, yc, zc)より決定することが可能であり、テレビカメラ18の水平回転角θHは式(9)により求めることができ、垂直回転角θVは式(10)により求めることができる。
【0043】
【数8】
Figure 0003739673
【0044】
テレビカメラ18の視野角φは、テレビカメラ18から推定話者位置までの距離と話者範囲の半径rおよびマージンδより求められる。これは式(11)で計算される。
【0045】
【数9】
Figure 0003739673
【0046】
また、ズームの倍率が1倍であるときの視野角をφ0とすれば、ズームの倍率Zは、式(12)で表される。
【0047】
【数10】
Figure 0003739673
【0048】
以上の計算式により、話者範囲全体が画面内に入るテレビカメラ方向とズーム量を計算することができ、話者位置推定精度が低くても画面内から話者がはみ出すことなく、適切なテレビカメラ制御が可能となる。
【0049】
図7を参照すると、本発明の第2の実施形態のズーム推定装置は、マイクロホン111〜11Mと話者位置推定部12と雑音パワー推定部13と精度推定部14と話者範囲設定部15と遅延量・フィルタ係数計算部22と指向性形成部23とによって構成されている。
【0050】
本実施形態のズーム推定装置は、話者位置を推定し、指向性を自動的に話者位置に向け、話者の音声を取得する。また、話者位置推定精度を演算し、図8に示すように話者位置推定精度にあわせて指向性の鋭さを自動的に変化させることで、話者位置推定精度が低い場合でも、話者音声の劣化を防ぐことを実現する装置である。
【0051】
話者位置推定部12と雑音パワー推定部13と精度推定部14と話者範囲設定部15とは第1の実施形態と同じであるので説明を省略する。
【0052】
話者範囲全体に対して感度が高くなるように指向性を制御する方法について説明する。指向性形成部23は、図9に示すように各マイクロホン111〜11Mで収音された信号を、各遅延器2311〜231Mにより遅延し、フィルタ2321〜232Mによりフィルタリングしてから、加算器233により加算することで、話者範囲全体に対する感度が高くなるよう指向性21を形成する。遅延量およびフィルタ係数は、遅延量・フィルタ係数計算部22で計算される。
【0053】
i番目のマイクロホン11iに与えられる遅延量di (xt, yt, zt)は、各マイクロホン111〜11Mで観測された話者音声が同位相となるように、話者範囲の中心位置(xt, yt, zt)とi番目のマイクロホン位置(xi, yi, zi)と音速cより、式(13)を用いて求められる。
【0054】
【数11】
Figure 0003739673
【0055】
ただし、Dは固定遅延量であり、信号を進ませることができないという因果性を満足させるために、di(xt, yt, zt)が必ず正となるように与えられる定数である。
【0056】
フィルタ係数は、話者範囲設定部15により求められた話者範囲全体の感度が高くなるように指向性の幅を調整するように求められ、例えば、特許願2000―118069「収音方法および収音装置」の方法により求めることができる。すなわち、話者範囲に分布(一様分布、正規分布等)する音源を仮定し、音源から指向性形成部23の出力までの直接波成分の応答を求め、音声信号の劣化量と信号対雑音のパワー比を求める。劣化量が話者範囲の感度の高さの評価基準となり、信号対雑音のパワー比が話者範囲外の感度の低さの評価基準となるので、この二つの評価基準のバランスのとれたフィルタを求めることにより、話者範囲全体の感度を高くし、雑音を抑圧するフィルタ係数を求めることができる。
【0057】
以上の方法により、話者範囲全体に対する感度が高くなるような指向性が自動的に形成され、音質劣化のない音声の収音が可能となる。
【0058】
なお、以上説明したズーム装置の処理は、該処理をフロッピィ・ディスク、CD―ROM、光磁気ディスク等の可搬の記録媒体あるいはハードディスクに記録して、パソコン等のコンピュータで実行することもできる。
【0059】
【発明の効果】
以上説明したように、本発明によれば、話者位置推定精度が低くても、画面内から話者がはみ出すことなくクローズアップ映像を自動制御で得ること、もしくは、音質劣化が生じることなく話者音声を収音することができる。
【図面の簡単な説明】
【図1】本発明の第1の実施形態のズーム装置の構成を示すブロック図である。
【図2】話者位置推定部12と精度推定部14の構成を示すブロック図である。
【図3】雑音パワー推定部13の構成を示すブロック図である。
【図4】本発明の第1の実施形態のズーム装置において話者位置推定精度を求める方法を説明する図である。
【図5】ズーム装置の指向性を示す図である。
【図6】テレビカメラ方向とズーム量を決定する方法を説明する図である。
【図7】本発明の第2の実施形態のズーム装置の構成を示すブロック図である。
【図8】ズーム装置の映像を示す図である。
【図9】指向性形成部23の1つの具体例を示す図である。
【図10】従来のズーム装置の構成を示す図である。
【図11】図10のズーム装置の映像を示す図である。
【図12】図10のズーム装置の指向性を示す図である。
【符号の説明】
111〜11M マイクロホン
12 話者位置推定部
13 雑音パワー推定部
14 精度推定部
15 話者範囲設定部
16 カメラ方向・ズーム計算部
18 テレビカメラ
19 話者
21 指向性
22 遅延量・フィルタ係数計算部
23 指向性形成部
121 指向性走査部
122 パワー分布計算部
123 最大パワー位置検出部
131 パワー変動検出部
132 長時間平均パワー計算部
141 パワー分布記憶部
142 雑音パワー分布計算部
143 精度計算部
51 遅延量・ゲイン計算部
2311〜231M 遅延器
2321〜232M フィルタ
233 加算器

Claims (14)

  1. 複数の収音手段の各々で収音された収音信号により話者音声パワーと話者位置を推定する話者位置推定段階と、
    前記収音信号より雑音パワーを推定する雑音パワー推定段階と、
    前記音声パワーと前記話者位置と前記雑音パワーより話者位置推定精度を演算する精度推定段階と、
    前記話者位置と前記話者位置推定精度により、話者が存在する範囲である話者範囲を設定する話者範囲推定段階と、
    前記話者範囲より、話者が画面に入るようにテレビカメラの方向およびズーム量を決定するカメラ方向・ズーム計算段階と
    を有するズーム推定方法。
  2. 複数の収音手段の各々で収音された収音信号により話者音声パワーと話者位置を推定する話者位置推定段階と、
    前記収音信号より雑音パワーを推定する雑音パワー推定段階と、
    前記音声パワーと前記話者位置と前記雑音パワーより話者位置推定精度を演算する精度推定段階と、
    前記話者位置と前記話者位置推定精度により、話者が存在する範囲である話者範囲を設定する話者範囲推定段階と、
    前記話者範囲に対する感度が、それ以外の位置に対する感度よりも高くなるように、前記複数の収音手段を用いて指向性を形成するための遅延量とフィルタ係数を、前記話者範囲と前記収音手段の位置より算出する遅延量・フィルタ係数計算段階と、
    前記各収音信号を前記遅延量と前記フィルタ係数を用いて処理し、音声出力を得る指向性形成段階と
    を有するズーム推定方法。
  3. 前記精度推定段階は、
    前記雑音パワー推定段階により推定された雑音パワーよりパワー分布にどの程度の雑音が含まれているかを示す雑音パワー分布を計算する雑音パワー分布計算段階と、
    前記話者位置推定段階で推定された話者音声パワーの分布が、該話者音声パワーの最大値から前記雑音パワー分布を減算した分布よりも大きい範囲を誤差の範囲として求め、前記話者位置から前記誤差の範囲内の最も離れた位置までの距離を話者位置推定精度として求める精度計算段階と
    を有する、請求項1または2に記載の方法。
  4. 前記話者位置推定段階は、
    全ての収音手段で収音された収音信号が同位相となるような遅延と、信号対雑音比が最大となり、各走査位置に対する利得が一定となるようなゲインを各収音手段の出力に与え、加算する指向性走査段階と、
    前記指向性走査段階の出力信号の短時間平均パワーを、走査位置毎に計算するパワー分布計算段階と、
    最大パワーを持つ走査位置を検出することにより話者位置を推定する最大パワー位置検出段階
    を有する、請求項1から3のいずれか1項に記載の方法。
  5. 前記雑音パワー推定段階は、
    前記各収音手段で収音された信号の短時間平均パワーを監視し、パワー変動が大きい場合にパワー変動ありとして検出するパワー変動検出段階と、
    前記パワー変動検出段階による検出結果がパワー変動なしである場合に、前記複数の収音手段で収音された信号の長時間平均パワーを計算する段階
    を有する、請求項1からのいずれか1項記載の方法。
  6. 前記指向性形成段階は、各収音手段で収音された収音信号を、全ての収音信号が同位相となるようにそれぞれ遅延する遅延段階と、
    話者範囲全体に対する感度が高くなるように各遅延段階の出力をフィルタリングするフィルタリング段階と、
    複数のフィルタリング結果を加算する加算段階
    を有する、請求項2記載の方法。
  7. 複数の収音手段の各々で収音された収音信号により話者音声パワーと話者位置を推定する話者位置推定手段と、
    前記収音信号より雑音パワーを推定する雑音パワー推定手段と、
    前記音声パワーと前記話者位置と前記雑音パワーより話者位置推定精度を演算する精度推定手段と、
    前記話者位置と前記話者位置推定精度により、話者が存在する範囲である話者範囲を設定する話者範囲推定手段と、
    前記話者範囲より、話者が画面に入るようにテレビカメラの方向およびズーム量を決定するカメラ方向・ズーム計算手段と
    を有するズーム推定装置。
  8. 複数の収音手段の各々で収音された収音信号により話者音声パワーと話者位置を推定する話者位置推定手段と、
    前記収音信号より雑音パワーを推定する雑音パワー推定手段と、
    前記音声パワーと前記話者位置と前記雑音パワーより話者位置推定精度を演算する精度推定手段と、
    前記話者位置と前記話者位置推定精度により、話者が存在する範囲である話者範囲を設定する話者範囲推定段手段と、
    前記話者範囲に対する感度が、それ以外の位置に対する感度よりも高くなるように、前記複数の収音手段を用いて指向性を形成するための遅延量とフィルタ係数を、前記話者範囲と前記収音手段の位置より算出する遅延量・フィルタ係数計算手段と、
    前記各収音信号を前記遅延量と前記フィルタ係数を用いて処理し、音声出力を得る指向性形成手段と
    を有するズーム推定装置。
  9. 前記精度推定手段は、
    前記雑音パワー推定手段により推定された雑音パワーよりパワー分布にどの程度の雑音が含まれているかを示す雑音パワー分布を計算する雑音パワー分布計算手段と、
    前記話者位置推定手段で推定された話者音声パワーの分布が、該話者音声パワーの最大値から前記雑音パワー分布を減算した分布よりも大きい範囲を誤差の範囲として求め、前記話者位置から前記誤差の範囲内の最も離れた位置までの距離を話者位置推定精度として求める精度計算手段
    を有する、請求項7または8に記載の装置。
  10. 前記話者位置推定手段は、
    全ての収音手段で収音された収音信号が同位相となるような遅延と、信号対雑音比が最大となり、各走査位置に対する利得が一定となるようなゲインを各収音手段の出力に与え、加算する指向性走査手段と、
    前記指向性走査手段の出力信号の短時間平均パワーを、走査位置毎に計算するパワー分布計算手段と、最大パワーを持つ走査位置を検出することにより話者位置を推定する最大パワー位置検出手段
    を有する、請求項7から9のいずれか1項に記載の装置。
  11. 前記雑音パワー推定手段は、
    前記各収音手段で収音された信号の短時間平均パワーを監視し、パワー変動が大きい場合にパワー変動ありとして検出するパワー変動検出手段と、
    前記パワー変動検出手段による検出結果がパワー変動なしである場合に、前記複数の収音手段で収音された信号の長時間平均パワーを計算する手段
    を有する、請求項7から10のいずれか1項記載の装置。
  12. 前記指向性形成手段は、
    各収音手段で収音された収音信号を、全ての収音信号が同位相となるようにそれぞれ遅延する複数の遅延手段と、
    話者範囲全体に対する感度が高くなるように各遅延手段の出力をフィルタリングする複数のフィルタ手段と、
    複数のフィルタ手段の出力を加算する加算手段
    を有する、請求項8記載の装置。
  13. 請求項1から6のいずれか1項に記載のズーム推定方法をコンピュータに実行させるズーム推定プログラム。
  14. 請求項1から6のいずれか1項に記載のズーム推定方法をコンピュータに実させるズーム推定プログラムを記録した記録媒体。
JP2001189571A 2001-06-22 2001-06-22 ズーム推定方法、装置、ズーム推定プログラム、および同プログラムを記録した記録媒体 Expired - Fee Related JP3739673B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001189571A JP3739673B2 (ja) 2001-06-22 2001-06-22 ズーム推定方法、装置、ズーム推定プログラム、および同プログラムを記録した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001189571A JP3739673B2 (ja) 2001-06-22 2001-06-22 ズーム推定方法、装置、ズーム推定プログラム、および同プログラムを記録した記録媒体

Publications (3)

Publication Number Publication Date
JP2003008974A JP2003008974A (ja) 2003-01-10
JP2003008974A5 JP2003008974A5 (ja) 2005-11-04
JP3739673B2 true JP3739673B2 (ja) 2006-01-25

Family

ID=19028471

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001189571A Expired - Fee Related JP3739673B2 (ja) 2001-06-22 2001-06-22 ズーム推定方法、装置、ズーム推定プログラム、および同プログラムを記録した記録媒体

Country Status (1)

Country Link
JP (1) JP3739673B2 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005354223A (ja) * 2004-06-08 2005-12-22 Toshiba Corp 音源情報処理装置、音源情報処理方法、音源情報処理プログラム
JPWO2007122729A1 (ja) * 2006-04-18 2009-08-27 株式会社日立製作所 通信システム、通信装置及び音源方向特定装置
JP5028944B2 (ja) * 2006-10-17 2012-09-19 ヤマハ株式会社 音声会議装置及び音声会議システム
JP4667407B2 (ja) * 2007-02-19 2011-04-13 株式会社エヌ・ティ・ティ・ドコモ 監視システム及び監視カメラ装置
JP4458128B2 (ja) 2007-07-31 2010-04-28 ソニー株式会社 方向検出装置、方向検出方法および方向検出プログラム、ならびに、方向制御装置、方向制御方法および方向制御プログラム
JP5939341B1 (ja) * 2015-07-14 2016-06-22 パナソニックIpマネジメント株式会社 モニタリングシステム及びモニタリング方法
US10909384B2 (en) 2015-07-14 2021-02-02 Panasonic Intellectual Property Management Co., Ltd. Monitoring system and monitoring method

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09140000A (ja) * 1995-11-15 1997-05-27 Nippon Telegr & Teleph Corp <Ntt> 会議用拡聴器
JPH10145763A (ja) * 1996-11-15 1998-05-29 Mitsubishi Electric Corp 会議システム
JPH10191290A (ja) * 1996-12-27 1998-07-21 Kyocera Corp マイクロホン内蔵型ビデオカメラ
JP3795610B2 (ja) * 1997-01-22 2006-07-12 株式会社東芝 信号処理装置
JP3411475B2 (ja) * 1997-06-23 2003-06-03 日本電信電話株式会社 収音装置
JP3332143B2 (ja) * 1997-06-23 2002-10-07 日本電信電話株式会社 収音方法およびその装置
JP3541339B2 (ja) * 1997-06-26 2004-07-07 富士通株式会社 マイクロホンアレイ装置

Also Published As

Publication number Publication date
JP2003008974A (ja) 2003-01-10

Similar Documents

Publication Publication Date Title
JP4449987B2 (ja) 音声処理装置、音声処理方法およびプログラム
EP1004204B1 (en) Videoconferencing system with audio source location
JP4296197B2 (ja) 音源追跡のための配置及び方法
US8842198B2 (en) Audio signal processing device, audio signal processing method, and program
US8996367B2 (en) Sound processing apparatus, sound processing method and program
US20040037436A1 (en) System and process for locating a speaker using 360 degree sound source localization
GB2556058A (en) Distributed audio capture and mixing controlling
JP2003270034A (ja) 音情報解析方法、装置、プログラム、および記録媒体
JP3739673B2 (ja) ズーム推定方法、装置、ズーム推定プログラム、および同プログラムを記録した記録媒体
JP3435686B2 (ja) 収音装置
JPH06351015A (ja) テレビジョン会議システム用の撮像システム
JP3332143B2 (ja) 収音方法およびその装置
US11889260B2 (en) Determination of sound source direction
WO2023164814A1 (zh) 媒体设备及其控制方法和装置、目标跟踪方法和装置
JP3377167B2 (ja) 場内拡声方法およびその装置
JP2001352530A (ja) 通信会議装置
JP7245034B2 (ja) 信号処理装置、信号処理方法およびプログラム
JP3332144B2 (ja) 目的音源領域検出方法およびその装置
JPH1118191A (ja) 収音方法およびその装置
CN118102155B (zh) 麦克风的增益方法及系统
TW202336744A (zh) 收音裝置以及收音裝置的控制方法
WO2023228713A1 (ja) 音声処理装置および方法、情報処理装置、並びにプログラム
EP3566464B1 (en) Sound leveling in multi-channel sound capture system
CN116389888A (zh) 视频会议图像采集方法、电子设备及计算机存储介质
CN114339113A (zh) 视频通话方法及相关装置、设备和存储介质

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20050610

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050913

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20051020

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20051026

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20051102

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091111

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101111

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101111

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111111

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111111

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121111

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121111

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131111

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees