JP2004514359A - Automatic tuning sound system - Google Patents

Automatic tuning sound system Download PDF

Info

Publication number
JP2004514359A
JP2004514359A JP2002543259A JP2002543259A JP2004514359A JP 2004514359 A JP2004514359 A JP 2004514359A JP 2002543259 A JP2002543259 A JP 2002543259A JP 2002543259 A JP2002543259 A JP 2002543259A JP 2004514359 A JP2004514359 A JP 2004514359A
Authority
JP
Japan
Prior art keywords
user
speakers
image
sound
processing unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002543259A
Other languages
Japanese (ja)
Inventor
トライコヴィッチ,ミロスラフ
ギュッタ,スリニヴァス
コルメナレツ,アントニオ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of JP2004514359A publication Critical patent/JP2004514359A/en
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Stereophonic System (AREA)
  • Television Receiver Circuits (AREA)

Abstract

2以上のスピーカを通じて音を出力する音発生システムである。2以上のスピーカの夫々の音出力は、2以上のスピーカの位置に対するユーザの位置に基づいて調整される。システムは、視聴領域において学習可能であり画像認識ソフトウエアを有する処理部に結合される(ビデオカメラといった)少なくとも1つの画像捕捉装置を含む。処理部は、画像捕捉装置によって発生される画像中でユーザを識別するために画像認識ソフトウエアを使用する。処理部はまた、画像中のユーザの位置に基づいてユーザの位置の少なくとも1つの測定値を発生するソフトウエアを有する。This is a sound generation system that outputs sound through two or more speakers. The sound output of each of the two or more speakers is adjusted based on the position of the user with respect to the positions of the two or more speakers. The system includes at least one image capture device (such as a video camera) coupled to a processor that is learnable in the viewing area and has image recognition software. The processing unit uses image recognition software to identify a user in the image generated by the image capture device. The processing unit also has software for generating at least one measurement of the position of the user based on the position of the user in the image.

Description

【0001】
[発明の分野]
本発明は、ステレオシステム、テレビジョンオーディオシステム、及びホームシアターシステムといった音響システムに関連する。特に、本発明は音響システムを調整するシステム及び方法に関連する。
【0002】
[発明の背景]
聴取者(「ユーザ」)の位置に基づいて種々の音響システムの出力を調整する幾つかのシステムが知られている。例えば、英国特許出願GB2,228,324号は、聴取者に対するステレオ効果を維持するためにユーザが動くにつれステレオシステムのバランスを調整するシステムについて記載している。ユーザによって持ち運ばれる発信器は、2つのステレオスピーカに隣接した2つの別々の受信器へ信号を発する。発せられる信号は、超音波信号、赤外線信号、又は無線信号でありえ、開始信号に応じて発せられうる(有線の電気信号であってもよい)。システムは、ユーザとスピーカとの間の距離を決定するために、(スピーカに隣接する)受信器が発信器からの信号を受信するまでの時間を使用する。ユーザと2つのスピーカの夫々との間の距離はこのように計算される。音は音源からの距離の3乗で減少するという原理に基づき、システムは、各スピーカからユーザへ略等しい音強度が与えられるよう各スピーカを調整するために各スピーカとユーザとの間の距離を使用する。
【0003】
GB2,228,324号は、各スピーカからのユーザの距離が重なり合う点を決定することによってユーザの位置を決定するシステムについて記載しているが、位置の決定はステレオバランスの調整には必要でないとしている。
【0004】
日本国公開特許英文抄録第5−137200号は、テレビジョンの正面に対する5つの角度的なゾーンのうちの1つにいる聴取者の位置を各ゾーンにある別々の赤外線検出器を指すことにより検出する。テレビジョン画面の側面に位置するステレオスピーカのバランスは聴取者がいるゾーンに基づいて調整されると述べられている。
【0005】
日本国公開特許英文抄録第4−130900号は、聴取者と2つの発光・光検出部との間の距離を計算するために光伝送にかかる時間を使用する。ユーザと2つの部分との間の距離と、2つの部分間の距離は、聴取者の位置を計算し、オーディオ信号のバランスを調整するために使用される。
【0006】
同様に、日本国公開特許英文抄録第7−302210号は、視聴位置と一連のスピーカとの間の距離を測定し、スピーカと視聴位置との間の距離に基づいて各スピーカについての適切な遅延時間を調整するために赤外線信号を使用する。
【0007】
[発明の概要]
従来技術のシステムの1つの明らかな困難性は、ステレオシステムのバランスの自動調整を楽しむためには、(GB2,228,324号のように)ユーザが発信器を装着するか持ち運ぶこと、又は、そうでなければ、聴取者の位置の検出の信頼性が低い及び/又は粗い(赤外線センサといった)センサに依存することが必要とされることである。例えば、赤外線検出器を使用すると聴取者の検出に失敗する場合があり、結果として上述のシステムはユーザの位置に対する正しいバランス調整に失敗する。更に、センサによって他の人々(又はペットといった他のもの)が感知されることがあり、その場合は結果として聴取者ではなく他の人物又は他の物に対してバランス調整がされてしまう。
【0008】
更に、上述のシステムは、例えばホームシアターシステムといった単純なステレオシステムよりも複雑な音響システムにはあまり適していない。ホームシアターシステムは、一般的には、音響効果を含む音を聴取者に対して投射するために使用される部屋の周りに配置される多数のスピーカを有する。音は、単純にスピーカの間で「バランス調整」されるのではない。むしろ、特定のスピーカ位置の出力は、自分の場所にいる聴取者に対して与えられるべき音響効果に基づいて上下されるか又は他の方法で整合される。例えば、多数のスピーカのうちの2つのスピーカは、特定の音響効果を聴取者の位置にいる聴取者へ与えるために、位相を合わせて又は位相をずらして駆動されうる。
【0009】
従って、聴取者の位置に対する多数のスピーカの夫々の位置の正確な決定は、幾つかのエンターテインメント体験のためには非常に重要である。更に、多数のスピーカの必要とされる出力を聴取者の変化した位置又は変化している位置に対して調整するために、聴取者の位置をより高い信頼性で正確に決定することが必要とされる。
【0010】
従って、本発明は、システムの聴取者又はユーザの位置に対して自動的に調整しうる、ユーザの位置の変化を含む、音響システム(オーディオビジュアルシステムを含む)を提供する。システムは、人間の体(例えばユーザ)の輪郭の幾つか又は一部を認識する画像捕捉及び認識を用いる。視野の中のユーザの位置に基づいて、システムはユーザの位置情報を決定する。システムの1つの実施例では、例えば、ユーザの角度的な位置は、撮像捕捉装置の視野の中のユーザの画像の位置に基づいて決定され、システムは決定された角度に基づいて2つ以上のスピーカの出力を調整しうる。
【0011】
画像捕捉装置は、例えば、人間の体の形状の全て又は一部を認識するようプログラムされる画像認識ソフトウエアを有する制御ユニット又はCPUに接続されるビデオカメラでありうる。人間の体といった活動的な輪郭を検出し追跡する種々の方法が開発されてきた。例えば、人間の体(又は例えば頭部又は手)をビデオ画像中で見つけ追跡する「person finder」は、ここに参照として組み入れられるIEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 19, no. 7, pp 780−85(July 1997)で発表されたM.I.T. Media Laboratory Perceptual Computing Section Technical Report No. 353のWren外による”Pfinder: Real−Time Tracking of the Human Body”に記載されている。
【0012】
テンプレートマッチング法を用いた画像中の人(歩行者)の検出は、ここに参照として組み入れられるProceedings of the European Conference on Computer Vision, 2000(www.gravila.netで入手可能)のD.M. Gavrila (Image Understanding Systems, DaimlerChrysler Research)による”Pedestrian Detection From A Moving Vehicle”に記載されている。
【0013】
画像中の静的な対象の検出のための統計的サンプリングアルゴリズム及び対象の動きの検出の確率論的モデルは、ここに参照として組み入れられるInt. J. Computer Vision, vol. 29, 1998 (www.dai.ed.ac.uk/CVonline/LOCAL/COPIES/ISARD1/condensation.htmlで”Condensation”ソースコードと共に入手可能)のIsard及び及びBlack(Oxford Univ. Dept. of Engineering Science)による”Condensation−Conditional Density Propagation For Visual Tracking”に記載されている。
【0014】
或いは、制御ユニット又はCPUは、人間の頭部の輪郭、又は、特定のユーザの顔の輪郭を認識するようプログラムされうる。画像(ディジタル画像を含む)中の顔を認識しうるソフトウエアは市販されており、例えばVisionics社から販売されwww.faceit.comに記載されている「FaceIt」のようなものがある。人間の体、顔等を検出するために使用されうるアルゴリズムを組み込んだソフトウエアは、一般的に、以下の説明では、画像認識ソフトウエア、画像認識アルゴリズム等と称するものとする。カメラの視野に対する認識された体又は頭の位置は、例えば、カメラに対するユーザの位置の角度を決定するために使用されうる。決定された角度は、各スピーカによってユーザの位置へ与えられる音の出力及び音響効果をバランス調整又は他の方法で調整するために使用されうる。
【0015】
人間の体又は特定の顔の輪郭を識別する画像捕捉装置及び関連する画像感知ソフトウエアは、ユーザの検出をより正確で信頼性の高いものとする。
【0016】
重なり合う視野を有する2以上のかかるプログラムされた画像捕捉装置は、ユーザの位置を正確に決定するために使用されうる。例えば、上述のような2つの別個のカメラは、別々に配置されてもよく、夫々が基準座標系におけるユーザの位置を決定するために使用されうる。ユーザの位置は、例えば、ユーザの現在の場所と基準座標系における各スピーカの固定の(既知の)位置との間の距離を決定するために、また、ホームシアターシステムにおける音響効果のようにユーザの位置に対して正しいオーディオミックスを与えるためにスピーカ出力を正しく調整するために、音響システムによって使用されうる。
【0017】
従って、一般的に、本発明は2以上のスピーカを通じて音を出力する音発生システムを含む。2以上のスピーカの夫々の音出力は、2以上のスピーカの位置に対してユーザの位置に基づいて調整可能である。システムは、聴取領域に対して学習可能であり、画像認識ソフトウエアを有する処理部に結合される少なくとも1つの(ビデオカメラといった)画像捕捉装置を含む。処理部は、画像捕捉装置によって発生された画像中でユーザを認識するために画像認識ソフトウエアを使用する。処理部はまた、画像中のユーザの位置に基づいてユーザの位置の少なくとも1つの測定値を発生するソフトウエアを有する。
【0018】
[詳細な説明]
図1を参照するに、ユーザ10はホームシアターシステムのオーディオコンポーネント及びビジュアルコンポーネントの間にいるものとして示される。ホームシアターシステムは、ビデオディスプレイ画面14と、ディスプレイ画面14のための快適な視聴領域の周囲を囲む一連のオーディオスピーカ18a−eとを含む。システムは更に、図1中はディスプレイ画面14の上に載るものとして示される制御ユニット22を含む。もちろん、制御ユニット22はどの場所に置かれてもよく、ディスプレイユニット14自体の中に組み込まれてもよい。制御ユニット22、ディスプレイ画面14、及びスピーカ18a−eは、全て、電気的なワイヤ及びコネクタによって電気的に接続される。ワイヤは一般的には室内のカーペットの下側を通されるか又は隣接する壁の中を通されるため、図1には示さない。
【0019】
図1のホームシアターシステムは、ディスプレイ画面14から視覚出力を生成しスピーカ18a−eから対応する音出力を生成する電気的コンポーネントを含む。ホームシアター出力のためのオーディオ及びビデオ処理は、一般的には、プロセッサ、メモリ、及び関連する処理ソフトウエアを含みうる制御ユニット22の中で生ずる。このような制御ユニット及び関連する処理コンポーネントは公知であり種々の市販の形態で入手可能である。制御ユニット22へ与えられるオーディオ及びビデオ入力は、テレビジョン信号、ケーブル信号、衛星信号、DVD及びVCRから入来しうる。制御ユニット22は、図1Aに示すように、入力信号を処理し、ディスプレイ画面14の駆動回路への適当な信号を与え、結果としてビデオ表示を生じさせ、また、入力信号を処理し、スピーカ18a−eへの適当な駆動信号を与える。
【0020】
制御ユニット22への信号入力のオーディオ部分は、立体音響信号であってもよく、又は、制御ユニット22によって処理される音響効果といったより複雑な音響処理をサポートしてもよい。例えば、制御ユニット22は、ディスプレイの右側の部分を通過する車をまねるために重なり合うシーケンスでスピーカ18b,18c,18dを駆動しうる。各スピーカ18b,18c,18dの振幅及び位相は、制御ユニット22により受信されたオーディオ信号に基づいて、また、制御ユニット22のメモリに格納されるようにユーザ10に対するスピーカ18b,18c,18dの位置に基づいて駆動される。
【0021】
制御ユニット22は、例えば図1中で原点Oと単位ベクトル(x,y,z)によって定義されるような共通基準系に対するスピーカ18a−eの位置及びユーザ10の位置を受信し記憶しうる。基準座標系における各スピーカ18a−e及びユーザ10のx,y及びz座標は、物理的に測定されるか他の方法で決定され、制御ユニット22へ入力される。
【0022】
図1中のユーザ10の位置は、基準座標系において座標(X,Y,Z)を有するとして示される。一般的には基準座標系は、図1に示される以外の場所に配置されうる。(以下更に詳述するように、図1に示す基準座標系は、本発明によるユーザ10の自動測位を容易とするために、カメラの位置にあるよう選択される)。基準座標系におけるスピーカ18a−e及びユーザ10の座標が制御ユニット22によって受信されると、制御ユニット22は代わりに座標を内部基準座標系へ平行移動しうる。
【0023】
かかる共通基準座標系におけるユーザ10及びスピーカ18a−eの位置は、制御ユニット10が各スピーカ18a−eに対するユーザ10の位置を決定することを可能とする。(ユーザ10の座標をスピーカ18aの座標から差し引くことにより、基準座標系におけるそれらの相対的な位置が決まることは周知である)。制御ユニット22の中のソフトウエアは、受信されたオーディオ信号と、スピーカに対するユーザ10の位置とに基づいて各スピーカの音出力(例えば音量、周波数、位相)のための駆動信号を電気的に調整する。ユーザ10に対するスピーカ18a−eの相対的な位置に基づく制御ユニット22による音出力の電子的な調整は、従来技術で周知である。或いは、制御システムは、ユーザが各スピーカ18a−eの音出力を手動で調整することを可能としても良い。このような制御ユニット22を介したオーディオコンポーネントの手動制御もまた従来技術で周知である。いずれの場合も、入力は、制御ユニット22と無線でインタフェース接続されディスプレイ画面14上にメニューを投写する、例えば位置データの入力を可能とする遠隔制御器によって与えられうる。
【0024】
図1に示すホームシアターシステムは、また、基準座標系におけるユーザとユーザの位置を自動的に識別しうる。上述の説明では、原点Oに置かれる基準座標系におけるユーザ10及びスピーカ18a−eの位置は、例えばユーザによって与えられる手動入力に基づいて知られていると仮定される。ユーザ10の位置が知られていないか変化するとき、又は、ユーザの位置の自動的な検出及び決定が他の方法で所望であるとき、スピーカ18a−eの位置は、通常は配置された後は固定されたままであるため、制御ユニット22によって通常は既知のままである。従って、基準座標系におけるスピーカ18a−eの位置は、初期システムセットアップ中に制御システム22へ夫々手動で入力され、一般的にはその後は固定されたままである。(もちろんスピーカの位置は変更されえ、新しい位置が入力されうるが、これはシステムの通常の使用では生じない)。ユーザの位置がシステムによって自動的に決定されると、以下詳述するように、制御ユニット22は、上述のように手動で位置を入力する場合のように、ユーザ及びスピーカ18a−eの位置に基づいて各スピーカ18a−eへの音出力を調整する。
【0025】
図1中のユーザ10が存在するか否かを自動的に検出し、存在する場合はその位置を検出するために、システムは更にディスプレイ画面14の上に載せられ、ディスプレイ画面14の通常の視聴領域に向けられる2つのビデオカメラ26a,26bを含む。カメラ26aは、共通基準座標系の原点Oに配置される。以下の説明から明らかであるように、ビデオカメラ26a,26bは他の場所に配置されうる;基準座標系はカメラ26aの異なる場所又は他の場所へ場所を変更されうる。ビデオカメラ26a,26bは、制御ユニット22とインタフェース接続され、視聴領域中で捕捉される画像を制御ユニット22に与える。画像認識ソフトウエアは制御ユニット22にロードされ、カメラ26a,26bから受信されるビデオ画像を処理するためにその中のプロセッサによって処理される。画像認識に使用される制御ユニット22のメモリを含むコンポーネントは、別々であるか、図1Aに示すように、制御ユニット22の他の機能と共用される。或いは、画像認識は別個のユニットにおいて行われうる。
【0026】
図2Aは、図1のディスプレイ画面の一方の側のカメラ26aの視野内の画像を示す図である。図2Aの画像は、制御ユニット22へ送信され、制御ユニット22において例えばその中にロードされた周知の画像認識ソフトウエアを用いて処理される。画像認識アルゴリズムは、ユーザ10といった人間の体の輪郭を認識するために使用されうる。或いは、顔を認識する、又は、例えばユーザ10の顔といった特定の1以上の顔を認識するようプログラムされうる画像認識ソフトウエアが使用されうる。
【0027】
画像認識ソフトウエアが人間の体の輪郭又は特定の顔を識別すると、制御ユニット22は、画像中のユーザ10の頭部の中心の点P’と、画像の左上の隅の点O’に対する座標(x’,y’)とを決定するようプログラムされる。図2Aの画像中の点O’は、図1の基準座標系における点(0,0,Z)に略対応する。
【0028】
同様に、図2Bは、図1のディスプレイ画面の他方の側のカメラ26bの視野内の画像を示す図である。同様に、図2Bの画像は、制御ユニット22へ送信され、制御ユニット22においてユーザ10又はユーザの顔の画像を認識するために画像認識ソフトウエアを用いて処理される。カメラ26bはディスプレイ画面の他方の側に配置されるため、ユーザ10の画像は図2Aと比較すると視野の異なる部分に配置される。制御ユニットは、図2Bの画像中のユーザの頭部の中心の点P’’と画像の左上の隅の点O’’に対する座標(x’’,y’’)とを決定する。
【0029】
図2A及び図2Bに示すカメラ画像中でユーザ10の位置P’及びP’’が夫々画像座標(x’,y’)及び(x’’,y’’)を有するものであると識別すると、図1の基準座標系におけるユーザ10の位置Pの座標(X,Y,Z)は、「ステレオ問題」として知られるコンピュータビジョンの標準的な技術を用いて一意に決定されうる。3次元コンピュータビジョンの基本的なステレオ技術は、例えば、ここに参照として組み入れられるTrucco及び及びVerriによる”Introductory Techniques for 3−D Computer Vision” (Prentice Hall, 1998)と、特にそのうちの第7章”Stereopsis”に記載されている。このような周知の技術を用いて、図1中のユーザの位置P(未知の座標(X,Y,Z)を有する)と、図2A中のユーザの画像位置P’(既知の画像座標(x’,y’)を有する)は、以下の式、
x’=X/Z         (式1)
y’=Y/Z         (式2)
によって与えられる。同様に、図1中のユーザの位置Pと、図2B中のユーザの画像位置P’’(既知の画像座標(x’’,y’’)を有する)は、以下の式、
x’’=(X−D)/Z     (式3)
y’’=Y/Z         (式4)
によって与えられ、但し、Dはカメラ26a,26bの間の距離である。当業者は、式1乃至4で与えられる項はカメラの幾何学形状によって決められる線形変換によることを認識するであろう。
【0030】
式1乃至式4は、3つの未知の変数(座標X,Y,Z)を有するため、連立方程式の解によりX,Y及びZの値が得られ、従って、図1の基準座標系におけるユーザ10の位置が与えられる。
【0031】
必要であれば、座標(X,Y,Z)は制御ユニット22の他の内部座標系へ平行移動されうる。ユーザの位置(X,Y,Z)を決定し、必要であれば放射座標を他の基準座標へ平行移動するために必要な処理は、制御ユニット22以外の処理ユニットにおいても行われうる。例えば、この処理は、画像認識処理をサポートし、従って画像検出及び測位のタスクのみを行う別個の処理ユニットを含みうる。
【0032】
上述のように、スピーカ18a−eの固定の位置は、以前の入力に基づいて制御ユニット22において知られている。例えば、各スピーカ18a−eは図1に示すように室内に配置されると、基準座標系における各スピーカ18a−eの座標(x,y,z)、及び、カメラ26a,26bの間の距離Dは、測定され、制御ユニット22においてメモリへ入力されうる。画像認識ソフトウエアを用いて(上述のステレオ問題の後認識処理と共に)決定されるユーザ10の座標(X,Y,Z)と、各スピーカの予め記憶された座標は、各スピーカ18a−eに対するユーザ10の位置を決定するために使用されうる。上述のように、制御ユニット22の音響処理は、入力オーディオ信号及びスピーカ18a−eに対するユーザ10の位置に基づいて、各スピーカ18a−eの出力(振幅、周波数、及び位相を含む)を適当に調整しうる。
【0033】
従って、ビデオカメラ26a,26b、画像認識ソフトウエア、及び検出されたユーザの位置を決定するための後認識処理を使用することにより、図1のホームシアターシステムのユーザの位置が自動的に検出され決定されることが可能となる。ユーザが動いた場合、処理は繰り返され、ユーザの新しい位置が決定され、制御ユニット22はスピーカ18a−eによって出力されるオーディオ信号を調整するために新しい位置を使用する。
【0034】
自動検出特徴は、スピーカの出力がユーザ10の位置のデフォルト入力又はマニュアル入力に基づくようオフとされうる。画像認識ソフトウエアは、例えば多数の異なる顔を認識するようプログラムされえ、特定のユーザの顔は認識及び自動調整のために選択されうる。このように、システムは視聴領域にいる特定のユーザの位置を調整しうる。或いは、画像認識ソフトウエアは、視聴領域にある全ての顔又は人間の体を検出するために使用されえ、処理は夫々の場所を自動的に決定しうる。各スピーカ18a−eの音出力の調整は、各検出されたユーザの場所における聞き取り経験の最適化を試みるアルゴリズムによって決定されうる。
【0035】
図1の実施例はホームシアターシステムを示すが、自動検出及び調整は他のオーディオビジュアルシステム又は他の純粋な音響システムによって使用されうる。例えば、ユーザの位置において立体音響音のバランスを正しく(又は予め決められたように)維持するためにスピーカに対するユーザの決定された位置に基づいて各スピーカ位置において音量を調整するために多数のスピーカを有するステレオシステムと共に使用されうる。
【0036】
従って、図3中、2つのスピーカを有するステレオシステムに適用される本発明のより簡単な実施例を示す。ステレオシステムの基本的な構成要素は、2つのスピーカ100a,100bに取り付けられたステレオ増幅器130を含む。カメラ110は、視聴領域にいる聴取者140の画像を含む視聴領域の画像を検出するために使用される。スピーカ100a,100b、カメラ110、及びユーザ140の相対的な位置は、上から見た、又は床の平面へ投影されたものとして示される。図3はまた、平面上の簡単な基準座標系を示し、この座標系は、カメラの位置に原点Oを有し、カメラ100の軸Aに対する対象の角度から構成される。従って、角度βはスピーカ100aの角度的な位置であり、角度φはスピーカ100bの角度的な位置であり、角度θはユーザ140の角度的な位置である(図3は、ユーザの頭部の一番上を示す)。
【0037】
図3のシステムでは、ユーザ140は原点Oから適当な距離Dにおいて図3の中央領域においてステレオを聴くと想定される。スピーカ100a,100bは、視聴領域の略中央である軸Aに沿った位置Dにおいてデフォルトバランスを有する。
【0038】
スピーカ100a,100bの位置の角度β及びφは、測定され処理ユニット120の中に予め格納される。カメラ110によって捕捉される画像は、上述の実施例に記載されるように人間の体、特に顔等の輪郭を検出する画像認識ソフトウエアを含む処理ユニット120へ転送される。画像中の検出された体又は顔の位置は、基準座標系におけるユーザ140の位置に対応する角度θを決定するために処理ユニットによって使用される。例えば、図3Aを参照するに、角度θの一次の決定は、以下の式、
θ=(x/W)(P)
で表わされ、但しxは処理ユニット120によって測定される画像の中心Cからの水平方向の像距離、Wは画像の水平方向の全幅、Pは視野、又は、カメラによって固定されるシーンの角度的な幅である。
【0039】
処理ユニット120は、ユーザ140とスピーカ100a,100bの相対的な角度的な位置に基づいてスピーカ100a,100bのバランスを調整する信号を順に増幅器へ送信する。例えば、スピーカ100aの出力は係数(β−θ)を用いて調整され、スピーカ100bの出力は係数(φ+θ)を用いて調整される。このように、スピーカ100a,100bのバランスは、スピーカ100a,100bに対するユーザ140の位置に基づいて自動的に調整される。上述したように、図4のシステムでは、ユーザ140は図3の中央視聴領域にそのまま、原点Oから略距離Dにいると想定される。従って、ユーザの角度的な位置θに基づくバランスの調整は許容可能な1次の調整である。
【0040】
本発明の例示的な実施例は、添付の図面を参照して説明されたが、本発明はこれらの厳密な実施例に限られるものではなく、本発明の範囲は請求項の範囲によって決められることが意図されることが理解されるべきである。
【図面の簡単な説明】
【図1】
本発明の第1の実施例によるユーザの自動検出及び測位と出力の調整を含むホームシアターシステムを示す斜視図である。
【図1A】
図1のシステムの制御システムの部分を示す図である。
【図2A】
図1のシステムの第1のカメラによって捕捉されるユーザの画像を含む画像を示す図である。
【図2B】
図1のシステムの第2のカメラによって捕捉されるユーザの画像を含む画像を示す図である。
【図3】
本発明の第1の実施例によるユーザの自動検出及び測位と出力の調整を含むステレオシステムを示す斜視図である。
【図3A】
図3のシステムのカメラによって捕捉されるユーザの画像を含む画像を示す図である。
[0001]
[Field of the Invention]
The present invention relates to audio systems such as stereo systems, television audio systems, and home theater systems. In particular, the present invention relates to systems and methods for adjusting an acoustic system.
[0002]
[Background of the Invention]
Several systems are known that adjust the output of various acoustic systems based on the location of the listener ("user"). For example, UK Patent Application GB 2,228,324 describes a system that balances a stereo system as the user moves to maintain the stereo effect on the listener. A transmitter carried by the user emits a signal to two separate receivers adjacent to two stereo speakers. The emitted signal may be an ultrasonic signal, an infrared signal, or a wireless signal, and may be emitted in response to the start signal (or may be a wired electric signal). The system uses the time until the receiver (adjacent to the speaker) receives the signal from the transmitter to determine the distance between the user and the speaker. The distance between the user and each of the two loudspeakers is thus calculated. Based on the principle that sound decreases with the cube of the distance from the sound source, the system adjusts the distance between each speaker and the user to adjust each speaker so that each speaker has approximately equal sound intensity. use.
[0003]
GB 2,228,324 describes a system for determining the position of the user by determining the point at which the distance of the user from each speaker overlaps, but it is assumed that the determination of the position is not necessary for adjusting the stereo balance. I have.
[0004]
Japanese Published Patent Application No. 5-137200 detects the position of a listener in one of five angular zones with respect to the front of the television by pointing to separate infrared detectors in each zone. I do. It is stated that the balance of the stereo speakers located on the side of the television screen is adjusted based on the zone where the listener is.
[0005]
Japanese Patent Publication No. 4-130900 uses the time taken for light transmission to calculate the distance between the listener and the two light emitting and light detecting units. The distance between the user and the two parts and the distance between the two parts are used to calculate the position of the listener and to balance the audio signal.
[0006]
Similarly, Japanese Published Patent Application No. 7-302210 measures the distance between a listening position and a set of speakers and provides an appropriate delay for each speaker based on the distance between the speakers and the listening position. Use the infrared signal to adjust the time.
[0007]
[Summary of the Invention]
One obvious difficulty with prior art systems is that the user must wear or carry the transmitter (as in GB 2,228,324) to enjoy automatic balancing of the stereo system, or Otherwise, it may be necessary to rely on unreliable and / or coarse (such as infrared sensors) sensors to detect the location of the listener. For example, using an infrared detector may fail to detect the listener, and as a result, the above-described system will fail to properly balance the position of the user. In addition, other people (or others, such as pets) may be sensed by the sensor, which may result in a balance adjustment to another person or object rather than the listener.
[0008]
Furthermore, the above-described system is less suitable for more complex sound systems than simple stereo systems, for example home theater systems. Home theater systems typically have a number of speakers located around a room used to project sound, including sound effects, to a listener. Sound is not simply "balanced" between the speakers. Rather, the output of a particular loudspeaker position is raised or lowered or otherwise matched based on the sound effects to be provided to the listener at his location. For example, two of the many speakers may be driven in phase or out of phase to provide a particular acoustic effect to a listener at the listener's location.
[0009]
Thus, the precise determination of the position of each of a number of speakers relative to the position of the listener is very important for some entertainment experiences. Furthermore, in order to adjust the required output of a large number of loudspeakers to a changed or changing position of the listener, it is necessary to determine the position of the listener more reliably and accurately. Is done.
[0010]
Accordingly, the present invention provides acoustic systems (including audio-visual systems) that include a change in the position of the user that can automatically adjust to the position of the listener or user of the system. The system uses image capture and recognition to recognize some or part of the contours of a human body (eg, a user). Based on the user's position in the field of view, the system determines the user's location information. In one embodiment of the system, for example, the angular position of the user is determined based on the position of the user's image in the field of view of the image capture device, and the system determines two or more based on the determined angle. The output of the speaker can be adjusted.
[0011]
The image capture device may be, for example, a video camera connected to a control unit or CPU having image recognition software programmed to recognize all or part of the shape of the human body. Various methods have been developed to detect and track active contours, such as the human body. For example, "person finder", which locates and tracks a human body (or head or hand, for example) in a video image, is described in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 19, no. 7, pp 780-85 (Jully 1997). I. T. Media Laboratory Perceptual Computing Section Technical Report No. 353, "Pfinder: Real-Time Tracking of the Human Body".
[0012]
The detection of people (pedestrians) in images using the template matching method is described in the D. of Proceedings of the European Conference on Computer Vision, 2000 (available at www.gravila.net), which is incorporated herein by reference. M. Gaverilla (Image Understanding Systems, DaimlerChrysler Research) in "Pedestrian Detection From A Moving Vehicle".
[0013]
Statistical sampling algorithms for the detection of static objects in images and probabilistic models of object motion detection are described in Int. J. Computer Vision, vol. 29, 1998 (available with the “Condensation” source code at www.dai.ed.ed.ac.uk/CVonline/LOCAL/COPIES/ISARD1/condensation.html) and Black (Oxford Univ. Enforce. "Condensation-Conditional Density Propagation For Visual Tracking".
[0014]
Alternatively, the control unit or CPU can be programmed to recognize the contour of a human head or the contour of a particular user's face. Software for recognizing faces in images (including digital images) is commercially available, for example, sold by Visionics, Inc. at www. faceit. com, such as "FaceIt". Software incorporating algorithms that can be used to detect human bodies, faces, etc., will generally be referred to as image recognition software, image recognition algorithms, etc. in the following description. The recognized body or head position relative to the camera's field of view can be used, for example, to determine the angle of the user's position relative to the camera. The determined angles may be used to balance or otherwise adjust the sound output and sound effects provided by each speaker to the user's location.
[0015]
Image capture devices and associated image sensing software that identify the contours of the human body or a particular face make user detection more accurate and reliable.
[0016]
Two or more such programmed image capture devices with overlapping fields of view can be used to accurately determine the position of the user. For example, two separate cameras, as described above, may be located separately and each may be used to determine a user's position in a reference coordinate system. The user's position is determined, for example, to determine the distance between the user's current location and the fixed (known) position of each speaker in the reference coordinate system, and as in the case of home theater systems, such as acoustics. It can be used by audio systems to properly adjust speaker output to give the correct audio mix for a location.
[0017]
Thus, in general, the present invention includes a sound generation system that outputs sound through two or more speakers. The sound output of each of the two or more speakers is adjustable based on the position of the user with respect to the positions of the two or more speakers. The system includes at least one image capture device (such as a video camera) that is capable of learning on the listening area and is coupled to a processor having image recognition software. The processing unit uses image recognition software to recognize a user in the image generated by the image capture device. The processing unit also has software for generating at least one measurement of the user's position based on the user's position in the image.
[0018]
[Detailed description]
Referring to FIG. 1, a user 10 is shown as being between the audio and visual components of a home theater system. The home theater system includes a video display screen 14 and a series of audio speakers 18a-e surrounding a comfortable viewing area for the display screen 14. The system further includes a control unit 22, shown as resting on the display screen 14 in FIG. Of course, the control unit 22 may be located anywhere and may be incorporated into the display unit 14 itself. The control unit 22, the display screen 14, and the speakers 18a-e are all electrically connected by electrical wires and connectors. The wires are not shown in FIG. 1 because they are typically run under the carpet in the room or through adjacent walls.
[0019]
The home theater system of FIG. 1 includes electrical components that generate a visual output from display screen 14 and a corresponding sound output from speakers 18a-e. Audio and video processing for the home theater output typically occurs in a control unit 22, which may include a processor, memory, and associated processing software. Such control units and associated processing components are known and are available in various commercially available forms. The audio and video inputs provided to the control unit 22 can come from television signals, cable signals, satellite signals, DVDs and VCRs. The control unit 22 processes the input signal and provides the appropriate signals to the drive circuitry of the display screen 14, resulting in a video display, as shown in FIG. -E to provide an appropriate drive signal.
[0020]
The audio portion of the signal input to the control unit 22 may be a stereophonic signal or may support more complex sound processing, such as sound effects processed by the control unit 22. For example, the control unit 22 may drive the speakers 18b, 18c, 18d in an overlapping sequence to mimic a car passing through the right portion of the display. The amplitude and phase of each speaker 18b, 18c, 18d is based on the audio signal received by control unit 22 and the position of speaker 18b, 18c, 18d relative to user 10 as stored in the memory of control unit 22. It is driven based on.
[0021]
The control unit 22 may receive and store the positions of the speakers 18a-e and the position of the user 10 with respect to a common reference system, such as defined by the origin O and the unit vector (x, y, z) in FIG. The x, y and z coordinates of each speaker 18a-e and user 10 in the reference coordinate system are physically measured or otherwise determined and input to the control unit 22.
[0022]
The position of the user 10 in FIG. 1 is represented by coordinates (X P , Y P , Z P ). In general, the reference coordinate system can be located at a location other than that shown in FIG. (As will be described in further detail below, the reference coordinate system shown in FIG. 1 is selected to be at the camera position to facilitate automatic positioning of the user 10 according to the present invention). When the coordinates of the speakers 18a-e and the user 10 in the reference coordinate system are received by the control unit 22, the control unit 22 may instead translate the coordinates to the internal reference coordinate system.
[0023]
The positions of the user 10 and the speakers 18a-e in such a common reference coordinate system allow the control unit 10 to determine the position of the user 10 with respect to each speaker 18a-e. (It is well known that subtracting the coordinates of the user 10 from the coordinates of the speaker 18a determines their relative position in the reference coordinate system.) Software in the control unit 22 electrically adjusts drive signals for sound output (eg, volume, frequency, phase) of each speaker based on the received audio signal and the position of the user 10 with respect to the speakers. I do. Electronic adjustment of the sound output by the control unit 22 based on the relative positions of the speakers 18a-e with respect to the user 10 is well known in the art. Alternatively, the control system may allow a user to manually adjust the sound output of each speaker 18a-e. Manual control of audio components via such a control unit 22 is also well known in the prior art. In either case, the input may be provided by a remote controller wirelessly interfaced with the control unit 22 and projecting a menu on the display screen 14, for example, allowing entry of location data.
[0024]
The home theater system shown in FIG. 1 can also automatically identify the user and the user's position in the reference coordinate system. In the above description, it is assumed that the positions of the user 10 and the speakers 18a-e in the reference coordinate system located at the origin O are known, for example, based on manual input provided by the user. When the position of the user 10 is not known or changes, or when automatic detection and determination of the user's position is otherwise desired, the positions of the speakers 18a-e are typically Remains fixed, so that it is usually known by the control unit 22. Accordingly, the positions of the speakers 18a-e in the reference coordinate system are each manually entered into the control system 22 during initial system setup and generally remain fixed thereafter. (Of course, the position of the speaker can be changed and a new position can be entered, but this does not occur with normal use of the system). Once the position of the user is automatically determined by the system, as will be described in more detail below, the control unit 22 may adjust the position of the user and the speakers 18a-e, such as when manually entering a position as described above. The sound output to each of the speakers 18a-e is adjusted based on this.
[0025]
The system is further mounted on the display screen 14 to automatically detect if the user 10 in FIG. 1 is present and, if so, to its location, for normal viewing of the display screen 14. It includes two video cameras 26a, 26b pointed at the area. The camera 26a is arranged at the origin O of the common reference coordinate system. As will be apparent from the following description, video cameras 26a, 26b may be located elsewhere; the reference coordinate system may be relocated to a different location of camera 26a or to another location. The video cameras 26a, 26b are interfaced with the control unit 22 and provide the control unit 22 with images captured in the viewing area. Image recognition software is loaded into the control unit 22 and processed by the processor therein to process video images received from the cameras 26a, 26b. The components including the memory of the control unit 22 used for image recognition are separate or shared with other functions of the control unit 22, as shown in FIG. 1A. Alternatively, the image recognition can be performed in a separate unit.
[0026]
FIG. 2A is a diagram showing an image in the field of view of the camera 26a on one side of the display screen of FIG. The image of FIG. 2A is transmitted to the control unit 22, where it is processed using, for example, well-known image recognition software loaded therein. The image recognition algorithm can be used to recognize the contour of a human body, such as the user 10. Alternatively, image recognition software can be used that can be programmed to recognize faces or to recognize one or more specific faces, for example, the face of the user 10.
[0027]
When the image recognition software identifies the contours of the human body or a particular face, the control unit 22 proceeds to a point P at the center of the head of the user 10 in the image. i 'And point O in the upper left corner of the image i And coordinates (x ', y') for '. Point O in the image of FIG. 2A i 'Denotes a point (0, 0, Z) in the reference coordinate system of FIG. P ).
[0028]
Similarly, FIG. 2B shows an image within the field of view of the camera 26b on the other side of the display screen of FIG. Similarly, the image of FIG. 2B is transmitted to the control unit 22, where it is processed using image recognition software to recognize the image of the user 10 or the user's face. Since the camera 26b is arranged on the other side of the display screen, the image of the user 10 is arranged in a portion having a different field of view as compared with FIG. 2A. The control unit determines the point P at the center of the user's head in the image of FIG. 2B. i '' And point O in the upper left corner of the image i '' And coordinates (x '', y '').
[0029]
The position P of the user 10 in the camera images shown in FIGS. 2A and 2B i 'And P i '' Are identified as having the image coordinates (x ′, y ′) and (x ″, y ″), respectively, the coordinates (X) of the position P of the user 10 in the reference coordinate system of FIG. P , Y P , Z P ) Can be uniquely determined using standard techniques of computer vision known as the “stereo problem”. The basic stereo technology of three-dimensional computer vision is described, for example, in "Introduction Technologies for 3-D Computer Vision" by Trucco and Verri (Prentice Hall, 1998), and in particular Chapter 7 thereof. Stereoopsis ". Using such a well-known technique, the user's position P (unknown coordinates (X P , Y P , Z P )) And the image position P of the user in FIG. 2A. i '(With known image coordinates (x', y ')) is
x '= X p / Z P (Equation 1)
y '= Y p / Z P (Equation 2)
Given by Similarly, the user's position P in FIG. 1 and the user's image position P in FIG. 2B i '' (With known image coordinates (x '', y '')) is
x '' = (X p −D) / Z P (Equation 3)
y '' = Y p / Z P (Equation 4)
Where D is the distance between the cameras 26a, 26b. Those skilled in the art will recognize that the terms given in Equations 1-4 are due to a linear transformation determined by the camera geometry.
[0030]
Equations 1 through 4 represent three unknown variables (coordinates X P , Y P , Z P ), So that X P , Y P And Z P Thus, the position of the user 10 in the reference coordinate system of FIG. 1 is given.
[0031]
If necessary, the coordinates (X P , Y P , Z P ) Can be translated to another internal coordinate system of the control unit 22. User location (X P , Y P , Z P ), And if necessary, the processing required to translate the radial coordinates to other reference coordinates can be performed in a processing unit other than the control unit 22. For example, the process may include a separate processing unit that supports the image recognition process and thus performs only the image detection and positioning tasks.
[0032]
As described above, the fixed positions of the speakers 18a-e are known in the control unit 22 based on previous inputs. For example, when the speakers 18a-e are arranged indoors as shown in FIG. 1, the coordinates (x, y, z) of the speakers 18a-e in the reference coordinate system and the distance between the cameras 26a, 26b D can be measured and entered into memory at control unit 22. The coordinates (X) of the user 10 determined using the image recognition software (along with the post-recognition processing of the stereo problem described above) P , Y P , Z P ) And the pre-stored coordinates of each speaker may be used to determine the position of the user 10 with respect to each speaker 18a-e. As described above, the acoustic processing of the control unit 22 appropriately adjusts the output (including amplitude, frequency, and phase) of each speaker 18a-e based on the input audio signal and the position of the user 10 with respect to the speakers 18a-e. Can be adjusted.
[0033]
Thus, by using video cameras 26a, 26b, image recognition software, and post-recognition processing to determine the location of the detected user, the location of the user of the home theater system of FIG. 1 is automatically detected and determined. It is possible to be. If the user moves, the process is repeated, the new position of the user is determined, and control unit 22 uses the new position to adjust the audio signals output by speakers 18a-e.
[0034]
The auto-detect feature may be turned off so that the speaker output is based on a default or manual input of the location of the user 10. Image recognition software can be programmed, for example, to recognize a number of different faces, and a particular user's face can be selected for recognition and automatic adjustment. In this way, the system may adjust the position of a particular user in the viewing area. Alternatively, image recognition software may be used to detect all faces or human bodies in the viewing area, and the process may automatically determine the respective location. Adjusting the sound output of each speaker 18a-e may be determined by an algorithm that attempts to optimize the listening experience at each detected user location.
[0035]
Although the embodiment of FIG. 1 shows a home theater system, automatic detection and adjustment may be used by other audiovisual systems or other pure audio systems. For example, multiple speakers to adjust the volume at each speaker location based on the user's determined location relative to the speakers to maintain the stereophonic sound balance at the user's location correctly (or as predetermined). Can be used with a stereo system having
[0036]
Accordingly, FIG. 3 shows a simpler embodiment of the present invention applied to a stereo system having two speakers. The basic components of a stereo system include a stereo amplifier 130 mounted on two speakers 100a, 100b. Camera 110 is used to detect an image of the viewing area including an image of listener 140 in the viewing area. The relative positions of the speakers 100a, 100b, the camera 110, and the user 140 are shown as viewed from above or projected onto the floor plane. FIG. 3 also shows a simple reference coordinate system on a plane, which has an origin O at the position of the camera and consists of the angle of the object with respect to the axis A of the camera 100. Accordingly, the angle β is the angular position of the speaker 100a, the angle φ is the angular position of the speaker 100b, and the angle θ is the angular position of the user 140 (FIG. Indicates the top).
[0037]
In the system of FIG. 3, it is assumed that the user 140 listens to the stereo in the central region of FIG. The speakers 100a and 100b have a default balance at a position D along an axis A which is substantially the center of the viewing area.
[0038]
The angles β and φ of the positions of the speakers 100a and 100b are measured and stored in the processing unit 120 in advance. The image captured by the camera 110 is transferred to a processing unit 120 that includes image recognition software for detecting contours of a human body, especially a face, as described in the above-described embodiment. The position of the detected body or face in the image is used by the processing unit to determine an angle θ corresponding to the position of the user 140 in the reference coordinate system. For example, referring to FIG. 3A, the primary determination of the angle θ is given by the following equation:
θ = (x / W) (P)
Where x is the horizontal image distance from the center C of the image measured by the processing unit 120, W is the full horizontal width of the image, P is the field of view, or the angle of the scene fixed by the camera Width.
[0039]
The processing unit 120 sequentially transmits signals for adjusting the balance of the speakers 100a and 100b to the amplifier based on the relative angular positions of the user 140 and the speakers 100a and 100b. For example, the output of speaker 100a is adjusted using a coefficient (β−θ), and the output of speaker 100b is adjusted using a coefficient (φ + θ). As described above, the balance between the speakers 100a and 100b is automatically adjusted based on the position of the user 140 with respect to the speakers 100a and 100b. As described above, in the system of FIG. 4, it is assumed that the user 140 is in the center viewing area of FIG. Therefore, the adjustment of the balance based on the angular position θ of the user is an acceptable first-order adjustment.
[0040]
While exemplary embodiments of the present invention have been described with reference to the accompanying drawings, the present invention is not limited to these exact embodiments, and the scope of the present invention is defined by the appended claims. It is to be understood that this is intended.
[Brief description of the drawings]
FIG.
1 is a perspective view illustrating a home theater system including automatic detection of a user and adjustment of positioning and output according to a first embodiment of the present invention.
FIG. 1A
FIG. 2 is a diagram illustrating a part of a control system of the system of FIG. 1.
FIG. 2A
FIG. 2 shows an image including an image of a user captured by a first camera of the system of FIG. 1.
FIG. 2B
FIG. 2 shows an image including an image of a user captured by a second camera of the system of FIG. 1.
FIG. 3
1 is a perspective view showing a stereo system including automatic detection of a user and positioning and output adjustment according to a first embodiment of the present invention;
FIG. 3A
FIG. 4 shows an image including an image of a user captured by a camera of the system of FIG. 3.

Claims (14)

2つ以上のスピーカを通じて音を出力し、上記2つ以上のスピーカの夫々の音出力は上記2つ以上のスピーカの位置に対するユーザの位置に基づいて調整可能である、音発生システムであって、
上記システムは、視聴領域で学習可能であり画像捕捉装置によって発生される画像中でユーザを識別する画像認識ソフトウエアを有する処理部に結合される少なくとも1つの画像捕捉装置を含み、上記処理部は上記画像中のユーザの位置に基づいてユーザの位置の少なくとも1つの測定値を発生する追加的なソフトウエアを有する音発生システム。
A sound generating system, wherein sound is output through two or more speakers, and a sound output of each of the two or more speakers is adjustable based on a position of a user with respect to a position of the two or more speakers,
The system includes at least one image capture device coupled to a processor capable of learning in a viewing area and having image recognition software for identifying a user in an image generated by the image capture device, wherein the processor includes: A sound generation system having additional software for generating at least one measurement of the user's position based on the user's position in the image.
上記システムはオーディオビジュアルシステムの一部である、請求項1記載の音発生システム。The sound generation system according to claim 1, wherein the system is part of an audiovisual system. 上記オーディオビジュアルシステムはホームシアターシステムである、請求項2記載の音発生システム。The sound generation system according to claim 2, wherein the audiovisual system is a home theater system. 上記処理部は、上記ユーザの位置の少なくとも1つの測定値に基づいて上記スピーカのうちの少なくとも1つの音出力を調整する、請求項1記載の音発生システム。The sound generation system according to claim 1, wherein the processing unit adjusts a sound output of at least one of the speakers based on at least one measurement value of the position of the user. 上記処理部は、画像中のユーザを識別し、上記ユーザの位置の少なくとも1つの測定値を発生し、上記ユーザの位置の少なくとも1つの測定値に基づいて上記スピーカのうちの少なくとも1つの音出力を調整する単一の処理ユニットから構成される、請求項4記載の音発生システム。The processing unit identifies a user in an image, generates at least one measurement of the position of the user, and outputs a sound output of at least one of the speakers based on at least one measurement of the position of the user. 5. The sound generation system according to claim 4, comprising a single processing unit for adjusting the sound pressure. 上記処理部は、画像中のユーザを識別し、上記ユーザの位置の少なくとも1つの測定値を発生する第1の処理ユニットと、上記ユーザの位置の少なくとも1つの測定値に基づいて上記スピーカのうちの少なくとも1つの音出力を調整する第2の処理ユニットとから構成される、請求項4記載の音発生システム。A first processing unit for identifying a user in an image and generating at least one measurement of the position of the user; and a processing unit of the speaker based on at least one measurement of the position of the user. 5. The sound generation system according to claim 4, further comprising a second processing unit that adjusts at least one sound output of the second processing unit. 上記少なくとも1つの画像捕捉装置はビデオカメラである、請求項1記載の音発生システム。The sound generation system according to claim 1, wherein the at least one image capture device is a video camera. 上記ユーザの位置の少なくとも1つの測定値は基準座標系における角度である、請求項7記載の音発生システム。The sound generation system according to claim 7, wherein the at least one measurement of the position of the user is an angle in a reference coordinate system. 上記処理部は、少なくとも1つのスピーカの出力を調整するために上記角度を使用する、請求項7記載の音発生システム。The sound generating system according to claim 7, wherein the processing unit uses the angle to adjust an output of at least one speaker. 上記少なくとも1つの画像捕捉装置は2つ以上のビデオカメラである、請求項1記載の音発生システム。The sound generating system according to claim 1, wherein the at least one image capture device is two or more video cameras. 上記処理部は、上記2つ以上のビデオカメラの夫々によって発生される画像中のユーザの位置を用いて基準座標系におけるユーザの位置を決定する、請求項10記載の音発生システム。The sound generation system according to claim 10, wherein the processing unit determines a position of the user in a reference coordinate system using a position of the user in an image generated by each of the two or more video cameras. 上記処理部は、上記2以上のビデオカメラの夫々によって発生される画像中のユーザの位置を用いて上記基準座標系におけるユーザの位置を決定するために3次元コンピュータビジョンのステレオ技術を使用する、請求項11記載の音発生システム。The processing unit uses three-dimensional computer vision stereo technology to determine a user's position in the reference coordinate system using a user's position in an image generated by each of the two or more video cameras. The sound generation system according to claim 11. 上記処理部は、ユーザと上記2以上のスピーカの夫々との間の距離を決定するために上記基準座標系におけるユーザの位置と上記基準座標系における2以上のスピーカの位置とを使用する、請求項11記載の音発生システム。The processing unit uses a position of the user in the reference coordinate system and a position of the two or more speakers in the reference coordinate system to determine a distance between the user and each of the two or more speakers. Item 12. The sound generation system according to Item 11. 上記ユーザと上記2以上のスピーカの夫々との間の距離は上記2以上のスピーカのうちの少なくとも1つの音出力を調整するために使用される、請求項13記載の音発生システム。14. The sound generation system of claim 13, wherein a distance between the user and each of the two or more speakers is used to adjust a sound output of at least one of the two or more speakers.
JP2002543259A 2000-11-16 2001-11-14 Automatic tuning sound system Pending JP2004514359A (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US71389800A 2000-11-16 2000-11-16
PCT/EP2001/013304 WO2002041664A2 (en) 2000-11-16 2001-11-14 Automatically adjusting audio system

Publications (1)

Publication Number Publication Date
JP2004514359A true JP2004514359A (en) 2004-05-13

Family

ID=24867986

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002543259A Pending JP2004514359A (en) 2000-11-16 2001-11-14 Automatic tuning sound system

Country Status (3)

Country Link
EP (1) EP1393591A2 (en)
JP (1) JP2004514359A (en)
WO (1) WO2002041664A2 (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007184792A (en) * 2006-01-06 2007-07-19 Samii Kk Content reproducing device, and content reproducing program
JP2007243563A (en) * 2006-03-08 2007-09-20 Sony Corp Television apparatus
KR20120068875A (en) * 2009-09-21 2012-06-27 마이크로소프트 코포레이션 Volume adjustment based on listener position
JP2012161073A (en) * 2011-01-28 2012-08-23 Hon Hai Precision Industry Co Ltd System and method for correcting audio output

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102004004068A1 (en) * 2004-01-20 2005-08-04 Deutsche Telekom Ag Control and loudspeaker setup for multimedia installation in room in building has CD recorder-player and other equipment connected to computer via amplifying input stage
GB0415625D0 (en) * 2004-07-13 2004-08-18 1 Ltd Miniature surround-sound loudspeaker
KR101118214B1 (en) 2004-09-21 2012-03-16 삼성전자주식회사 Apparatus and method for reproducing virtual sound based on the position of listener
FR2877534A1 (en) * 2004-11-03 2006-05-05 France Telecom DYNAMIC CONFIGURATION OF A SOUND SYSTEM
US7653447B2 (en) 2004-12-30 2010-01-26 Mondo Systems, Inc. Integrated audio video signal processing system using centralized processing of signals
US8880205B2 (en) 2004-12-30 2014-11-04 Mondo Systems, Inc. Integrated multimedia signal processing system using centralized processing of signals
US8015590B2 (en) 2004-12-30 2011-09-06 Mondo Systems, Inc. Integrated multimedia signal processing system using centralized processing of signals
WO2006100644A2 (en) * 2005-03-24 2006-09-28 Koninklijke Philips Electronics, N.V. Orientation and position adaptation for immersive experiences
CN101213506B (en) 2005-06-30 2011-06-22 皇家飞利浦电子股份有限公司 Control method, control device and entertainment system and lighting system including control device
JP5254951B2 (en) 2006-03-31 2013-08-07 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ Data processing apparatus and method
KR20090022718A (en) * 2007-08-31 2009-03-04 삼성전자주식회사 Sound processing apparatus and sound processing method
US9066191B2 (en) * 2008-04-09 2015-06-23 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating filter characteristics
US8269902B2 (en) 2009-06-03 2012-09-18 Transpacific Image, Llc Multimedia projection management
CN102771141B (en) * 2009-12-24 2016-01-20 诺基亚技术有限公司 A kind of electronic installation and the method for electronic installation
EP2464127B1 (en) * 2010-11-18 2015-10-21 LG Electronics Inc. Electronic device generating stereo sound synchronized with stereoscopic moving picture
KR101874836B1 (en) 2012-05-25 2018-08-02 삼성전자주식회사 Display apparatus, hearing level control apparatus and method for correcting sound
US9591405B2 (en) * 2012-11-09 2017-03-07 Harman International Industries, Incorporated Automatic audio enhancement system
US9544679B2 (en) 2014-12-08 2017-01-10 Harman International Industries, Inc. Adjusting speakers using facial recognition
TWI603626B (en) * 2016-04-26 2017-10-21 音律電子股份有限公司 Speaker apparatus, control method thereof, and playing control system
US10255032B2 (en) 2016-12-13 2019-04-09 EVA Automation, Inc. Wireless coordination of audio sources
CN106851469A (en) * 2017-02-16 2017-06-13 深圳创维-Rgb电子有限公司 It is a kind of to adjust the method and apparatus that audio amplifier exports audio
US10171054B1 (en) 2017-08-24 2019-01-01 International Business Machines Corporation Audio adjustment based on dynamic and static rules
US10531221B1 (en) 2018-06-22 2020-01-07 EVA Automation, Inc. Automatic room filling
US10440473B1 (en) 2018-06-22 2019-10-08 EVA Automation, Inc. Automatic de-baffling
US10484809B1 (en) 2018-06-22 2019-11-19 EVA Automation, Inc. Closed-loop adaptation of 3D sound
US10708691B2 (en) 2018-06-22 2020-07-07 EVA Automation, Inc. Dynamic equalization in a directional speaker array
US10511906B1 (en) 2018-06-22 2019-12-17 EVA Automation, Inc. Dynamically adapting sound based on environmental characterization
US10524053B1 (en) 2018-06-22 2019-12-31 EVA Automation, Inc. Dynamically adapting sound based on background sound
CN111782045A (en) * 2020-06-30 2020-10-16 歌尔科技有限公司 Equipment angle adjusting method and device, intelligent sound box and storage medium
CN116736982B (en) * 2023-06-21 2024-01-26 惠州中哲尚蓝柏科技有限公司 Automatic multimedia output parameter adjusting system and method for home theater

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE4027338C2 (en) * 1990-08-29 1996-10-17 Drescher Ruediger Balance control for stereos with at least two speakers
JPH04351197A (en) * 1991-05-29 1992-12-04 Matsushita Electric Ind Co Ltd Directivity control speaker system
US6741273B1 (en) * 1999-08-04 2004-05-25 Mitsubishi Electric Research Laboratories Inc Video camera controlled surround sound

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007184792A (en) * 2006-01-06 2007-07-19 Samii Kk Content reproducing device, and content reproducing program
JP2007243563A (en) * 2006-03-08 2007-09-20 Sony Corp Television apparatus
JP4535006B2 (en) * 2006-03-08 2010-09-01 ソニー株式会社 Television equipment
US8120713B2 (en) 2006-03-08 2012-02-21 Sony Corporation Television apparatus
KR20120068875A (en) * 2009-09-21 2012-06-27 마이크로소프트 코포레이션 Volume adjustment based on listener position
JP2013505668A (en) * 2009-09-21 2013-02-14 マイクロソフト コーポレーション Volume adjustment based on viewer position
US8976986B2 (en) 2009-09-21 2015-03-10 Microsoft Technology Licensing, Llc Volume adjustment based on listener position
KR101665156B1 (en) 2009-09-21 2016-10-11 마이크로소프트 테크놀로지 라이센싱, 엘엘씨 Volume adjustment based on listener position
JP2012161073A (en) * 2011-01-28 2012-08-23 Hon Hai Precision Industry Co Ltd System and method for correcting audio output

Also Published As

Publication number Publication date
WO2002041664A3 (en) 2003-12-18
WO2002041664A2 (en) 2002-05-23
EP1393591A2 (en) 2004-03-03

Similar Documents

Publication Publication Date Title
JP2004514359A (en) Automatic tuning sound system
US9906885B2 (en) Methods and systems for inserting virtual sounds into an environment
JP5091857B2 (en) System control method
CN110036655B (en) HRTF measuring method, HRTF measuring apparatus, and storage medium
Ribeiro et al. Using reverberation to improve range and elevation discrimination for small array sound source localization
US6931596B2 (en) Automatic positioning of display depending upon the viewer's location
KR101121682B1 (en) Multi-speaker audio system and automatic control method
CN111918018B (en) Video conference system, video conference apparatus, and video conference method
CN112188368A (en) Method and system for directionally enhancing sound
TW201120469A (en) Method, computer readable storage medium and system for localizing acoustic source
CN114208209B (en) Audio processing system, method and medium
JP2023508002A (en) Audio device automatic location selection
JPH1141577A (en) Speaker position detector
US20090060235A1 (en) Sound processing apparatus and sound processing method thereof
Liu et al. Multiple speaker tracking in spatial audio via PHD filtering and depth-audio fusion
Łopatka et al. Application of vector sensors to acoustic surveillance of a public interior space
US20220210588A1 (en) Methods and systems for determining parameters of audio devices
JP2005057545A (en) Sound field controller and sound system
CN113079453A (en) Intelligent following method and system for auditory sound effect
US11337024B2 (en) Output control device, output control system, and output control method
TWI756607B (en) Automatic positioning speaker device and sound system thereof
KR20110097388A (en) System and method for detecting device
Khalidov et al. Alignment of binocular-binaural data using a moving audio-visual target
CN116261096A (en) Sound system capable of dynamically adjusting target listening point and eliminating interference of environmental objects
WO2022220182A1 (en) Information processing method, program, and information processing system