JP2011166407A - Acoustic setting device and method - Google Patents
Acoustic setting device and method Download PDFInfo
- Publication number
- JP2011166407A JP2011166407A JP2010026308A JP2010026308A JP2011166407A JP 2011166407 A JP2011166407 A JP 2011166407A JP 2010026308 A JP2010026308 A JP 2010026308A JP 2010026308 A JP2010026308 A JP 2010026308A JP 2011166407 A JP2011166407 A JP 2011166407A
- Authority
- JP
- Japan
- Prior art keywords
- listening space
- listener
- audio output
- sound
- listening
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Studio Devices (AREA)
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
Abstract
Description
本発明は、オーディオ機器などのスピーカから聴取空間に向けて出力される聴取者に聴取させるべき聴取音の、前記聴取空間に対するオーディオ出力条件の設定を行なう音響設定装置および音響設定方法に関する。 The present invention relates to a sound setting device and a sound setting method for setting an audio output condition for a listening sound to be heard by a listener output from a speaker such as an audio device to a listening space.
近年、複数のスピーカを配置して、臨場感ある音場を表現する音響システムに関する技術が各種提案されている。このような音響システムでは、特定した聴取者の聴取位置に応じてスピーカ位置、音声フィルタ処理、音圧や出力タイミングなどの聴取音に関するオーディオ出力条件の設定を行なって音場を実現させる音響設定装置を備えている。 In recent years, various technologies related to an acoustic system that arranges a plurality of speakers and expresses a realistic sound field have been proposed. In such an acoustic system, an acoustic setting device that realizes a sound field by setting audio output conditions related to listening sound such as speaker position, sound filter processing, sound pressure and output timing according to the listening position of the specified listener It has.
また、音響システムにカメラを設置し、撮像したフレームに顔が進入した際に、肌色成分を検出しその位置に応じてオーディオ出力条件設定を行なう技術も知られている(例えば、特許文献1参照)。 There is also known a technique in which a camera is installed in an acoustic system and a skin color component is detected and an audio output condition is set according to the position when a face enters a captured frame (see, for example, Patent Document 1). ).
しかしながら、上述の従来の音響設定装置では、まず、使用前に聴取音の聴取空間に対する出力状態に関するオーディオ出力条件設定を、聴取空間の環境に応じて行う必要がある。例えば、5.1chサラウンドシステムでは、聴取者位置に対するフロント、リア、サブウーハなどの複数のスピーカのそれぞれの距離を聴取者自らが測定しオーディオ出力条件設定を行なう必要があった。
また、近年では聴取者が測定する代わりに、聴取者位置にヘッドセットのような集音装置を事前に設置し、聴取空間における聴取空間環境を確認するものがある。その場合には、聴取者や障害物などの影響が無い環境にしなければならないため、その分、聴取者の手間となってしまうという問題や、集音時に音域毎に確認する必要があるため、設定時間を要するという問題がある。
However, in the above-described conventional sound setting device, first, it is necessary to set an audio output condition regarding the output state of the listening sound with respect to the listening space according to the environment of the listening space before use. For example, in the 5.1ch surround system, it is necessary for the listener himself / herself to measure the distances of a plurality of speakers such as the front, rear, and subwoofer with respect to the listener position and to set the audio output condition.
In recent years, instead of measuring by a listener, a sound collecting device such as a headset is installed in advance at the listener position to check the listening space environment in the listening space. In that case, because it must be in an environment that is not affected by the listener or obstacles, it will be troublesome for the listener, and it is necessary to check each sound range at the time of sound collection, There is a problem that setting time is required.
そして何より、その設定された聴取空間内の環境に変化が生じると、聴取者がそれに応じて各スピーカの位置などを再度設定する必要がある。例えば、聴取空間に配置された椅子が大きさの異なるものに交換され、その設置位置も変更されるといった聴取空間環境の変化が生じた場合、聴取者の位置および音響の反射度合いが変わるため、各スピーカの位置・向きその他の聴取音の聴取空間に対する出力状態に関するオーディオ出力条件を再設定する必要がある。
また、上述の特許文献1に記載の技術は、顔の進入の際にのみ肌色成分に応じてオーディオ出力条件設定を行なうため、上述のような静止物体の大きさや位置などの変動に対応することができず、加えて、聴取者が存在するのに肌色成分(顔)の検出ができなかった場合、聴取空間に対する聴取音の適正なオーディオ出力条件の設定ができなかった。
Above all, when a change occurs in the environment in the set listening space, the listener needs to set the position of each speaker again according to the change. For example, when a change in the listening space environment occurs such that the chair placed in the listening space is replaced with a different one and the installation position is changed, the listener's position and the degree of sound reflection change, It is necessary to reset the audio output conditions regarding the output state of the listening position of each speaker and other listening sound to the listening space.
In addition, since the technique described in
本発明は、上述の課題を解決することを目的とするものであり、聴取空間に配置された静止物体を検出しながら静止物体のスピーカに対する相対関係の変化に応じて聴取音の出力状態に関するオーディオ出力条件の設定が可能な音響設定装置および音響設定方法を提供することを目的とする。 An object of the present invention is to solve the above-described problems, and an audio relating to an output state of a listening sound in accordance with a change in a relative relationship between a stationary object and a speaker while detecting a stationary object arranged in the listening space. An object of the present invention is to provide a sound setting device and a sound setting method capable of setting output conditions.
上記目的を達成するために本発明の音響設定装置は、 複数のスピーカが設置された聴取空間に向けて、前記スピーカから出力される聴取者に聴取させるべき聴取音の、前記聴取空間に対する出力状態に関するオーディオ出力条件の設定を行なう音響設定装置であって、前記複数のスピーカをオーディオ信号に基づき駆動させるオーディオ出力手段と、前記聴取空間に存在する静止物体を検出する聴取空間環境検出手段と、前記聴取空間環境検出手段が、前記静止物体の前記スピーカに対する相対関係が変化したことを検出したときに、前記変化に対応したオーディオ出力条件に設定するオーディオ出力条件設定手段とを備えていることを特徴とする。 In order to achieve the above object, the sound setting device of the present invention provides an output state of a listening sound to be heard by a listener output from the speaker toward a listening space in which a plurality of speakers are installed. An audio setting device for setting audio output conditions related to audio output means for driving the plurality of speakers based on audio signals, listening space environment detecting means for detecting a stationary object existing in the listening space, and The listening space environment detecting means comprises audio output condition setting means for setting an audio output condition corresponding to the change when detecting that the relative relation of the stationary object to the speaker has changed. And
本発明の音響設定装置では、聴取空間に配置された静止物体を検出しながら静止物体体のスピーカに対する相対関係が変化したときには、聴取音の聴取空間に対する出力状態に関するオーディオ出力条件設定を、相対関係の変化に応じた設定とするため、聴取空間において静止物体とスピーカとの相対関係に変化が生じた場合にも最適なオーディオ出力条件の設定が可能である。 In the acoustic setting device of the present invention, when the relative relationship of the stationary object to the speaker changes while detecting the stationary object arranged in the listening space, the audio output condition setting relating to the output state of the listening sound to the listening space is set to the relative relationship. Therefore, the optimum audio output condition can be set even when the relative relationship between the stationary object and the speaker changes in the listening space.
以下、本発明を実施するための形態について、添付図面を参照しながら実施例を挙げて説明する。 DESCRIPTION OF EMBODIMENTS Hereinafter, embodiments for carrying out the present invention will be described with reference to the accompanying drawings.
[構成]
まず、図1〜図4に基づいて、実施例1の音響設定装置の構成について説明する。なお、図1は本発明の実施例1に係る音響設定装置を備えた音響システム100の外観を示す斜め正面から見た斜視図、図2は実施例1の音響設定装置を備えた音響システム100の外観を示す平面図、図3は音響システム100の概要を示すブロック図、図4は音響システム100に組み込まれているカメラユニット102の概要を示すブロック図である。
[Constitution]
First, based on FIGS. 1-4, the structure of the acoustic setting apparatus of Example 1 is demonstrated. 1 is a perspective view showing an external appearance of the
音響システム100は、一対のスピーカ101,101、カメラユニット102、スピーカ101を垂直方向の軸を中心に回転させる駆動ステージ103、電源スイッチ104を有している。
The
図3に示すように、音響システム100は、外部機器I/Fブロック111、D/A変換ブロック112、信号処理ブロック113、駆動ブロック114、カメラユニット102、音響出力ブロック(オーディオ出力手段)30を備えている。また、カメラユニット102は、カメラコントロールブロック21およびレンズユニットブロック22を備え、音響出力部30はアンプブロック31を備えている。
外部機器I/Fブロック111は、テレビやDVDプレーヤなどの外部機器からオーディオ信号を入力するオーディオ入力端子を有している。外部機器I/Fブロック111に入力されたオーディオ信号は、信号処理ブロック113によりデジタル出力データへ変換する信号処理が施される。信号処理ブロック113は、DSP(Digital Signal Processor)により構成されており、入力されたデータに対してノイズリダクションや、フィルタ処理などの処理を行なう。
As shown in FIG. 3, the
The external device I / F block 111 has an audio input terminal for inputting an audio signal from an external device such as a television or a DVD player. The audio signal input to the external device I / F block 111 is subjected to signal processing to be converted into digital output data by the
信号処理ブロック113で変換されたデジタル出力データは、D/A変換ブロック112によりアナログデータに変換され、そのアナログデータが音響出力部30へ入力される。音響出力部30は、アンプブロック31により、アナログデータに対して増幅処理を行うことができる。
The digital output data converted by the
駆動ブロック114は、各スピーカ101の下部にある駆動ステージ103を、それぞれ所定角度に回動可能である。この駆動ブロック114および駆動ステージ103が、スピーカ101,101の向きを変更する手段に相当する。
The
次に、図4に基づいてカメラユニット102の構成を説明する。
カメラユニット102は、聴取空間SP(図7参照)内を撮影して画像データを得る撮像手段であって、カメラコントロールブロック21とレンズユニットブロック22とを備えており、本実施例1では、後述する聴取空間環境検出手段としての機能を有する。なお、聴取空間SPとは、図7に示すように、音響システム100が配置されてスピーカ101,101によりオーディオ出力が成される空間を指しており、図7では、椅子CH1が置かれた部屋を一例として示している。
Next, the configuration of the
The
図4に戻り、カメラコントロールブロック21は、レンズユニットブロック22で得られた画像信号の処理や、レンズユニットブロック22に対して後述するオートフォーカス(以下、AFと表す)処理などを実行させる制御を行う。
Returning to FIG. 4, the
カメラコントロールブロック21は、カメラプロセッサ7(以下、単に「プロセッサ7」という)を備えている。
プロセッサ7は、CCD1信号処理ブロック72、CCD2信号処理ブロック76、CPUブロック73、ローカルSRAM77、メモリコントローラブロック71、I2Cブロック75を備えており、これらは相互にバスラインで接続されている。プロセッサ7の外部には、YUV画像データを保存するSDRAM9が配置されていて、プロセッサ7とバスラインによって接続されている。プロセッサ7の外部には、制御プログラムが格納されたROM8が配置されていて、プロセッサ7とバスラインによって接続されている。
The
The
レンズユニットブロック22は、鏡胴ユニット5を備えている。鏡胴ユニット5は、ズームレンズ51aを有するズーム光学系51、およびフォーカスレンズ52aを有するフォーカス光学系52を有する。ズーム光学系51、フォーカス光学系52は、それぞれズームモータ51b、フォーカスモータ52bによって駆動されるようになっている。これら各モータ51b,52bは、プロセッサ7のCPUブロック73によって制御されるモータドライバ55によって動作が制御される。ズームモータ51bには、DCモータを使用し、電源スイッチ104がOnされた場合に焦点距離を35mmフィルム換算で35mm相当の位置へ移動するように制御する。また、フォーカスモータ52bには、ステッピンモータを使用し、フォーカスレンズ52aの駆動範囲は、音響システム100を実際に設置した場合の聴取空間環境を考えて、音響システム100の正面方向に焦点距離を1m〜5mの範囲で移動させるようにしている。このフォーカスレンズ52aによる前記範囲の繰り出し量(パルス量)に基づいて、後述するAF処理を実行する。
The
鏡胴ユニット5は、撮像素子であるCCD10に被写体像を結ぶ撮影レンズを有する。CCD10は、上記被写体像を画像信号に変換してF/E−IC6に入力する。F/E−IC6はCDS回路61、ADC回路62、A/D変換器63を有し、画像信号にそれぞれ所定の処理を施し、デジタル信号に変換してプロセッサ7のCCD1信号処理ブロック72に入力する。これらの信号処理動作は、プロセッサ7のCCD1信号処理ブロック72から出力されるVD信号(垂直駆動信号)・HD信号(水平駆動信号)により、タイミングジェネレータ64を介して制御される。
The
次に、このカメラユニット102のAF動作について説明する。
まず、両レンズ51a,52aを通してCCD10に入射した光は、電気信号に変換されてアナログ信号のR,G,BとしてCDS回路61、A/D変換器63に送られる。A/D変換器63でデジタル信号に変換されたそれぞれの信号は、SDRAM9内のYUV変換部(図示省略)でYUV信号に変換されて、メモリコントローラブロック71によってフレームメモリに書き込まれる。このYUV信号は、VD信号毎に出力され、そのつど更新できるようにしている。また、このYUV信号は、メモリコントローラブロック71に読み出されて、画像データの合焦度合いを示すAF評価値、同データの露光状態を示すAF評価値が算出される。
Next, the AF operation of the
First, light incident on the
AF評価値データは、特徴データとしてCPUブロック73に読み出されて、AFの処理に利用される。AF評価値(フーリエ係数の高周波成分の画像面上での積分値(平均値))は合焦状態にあるとき、被写体のエッジ部分がはっきりとしているため、高周波成分が一番高くなる。これを利用して、AFによる合焦検出動作時は、それぞれのフォーカスレンズ位置におけるAF評価値を取得して、その極大になる点(ピーク位置)を検出する。また極大になる点が複数あることも考慮に入れ、複数あった場合はピーク位置の評価値の大きさや、その周辺の評価値との下降、上昇度合いを判断し、最も信頼性のある点を合焦位置としてAFを実行する。
The AF evaluation value data is read out as feature data to the
また、AF評価値は、本実施例1では、デジタルRGB信号内の細分化された複数のエリアにおいてそれぞれ算出する。図5が実施例1で用いるRGBの画像データにおける細分化されたエリアを示している。本実施例1では、水平方向、垂直方向ともに8分割されたエリアを使用している。各エリアは座標をもっており、左上なら水平1、垂直1、右下なら水平8、垂直8としている。なお、この場合のエリア分割数は、これに限定されず、さらに細分化するなどしてもよい。 In the first embodiment, the AF evaluation value is calculated in each of a plurality of subdivided areas in the digital RGB signal. FIG. 5 shows subdivided areas in the RGB image data used in the first embodiment. In the first embodiment, an area divided into eight in both the horizontal direction and the vertical direction is used. Each area has a coordinate, horizontal 1 at the upper left, vertical 1, horizontal 8 at the lower right, and vertical 8. Note that the number of area divisions in this case is not limited to this and may be further subdivided.
実施例1の音響システム100におけるオーディオ出力条件設定処理の流れを図6のフローチャートを用いて説明する。
The flow of the audio output condition setting process in the
まず、ステップS1では、音響システム100の電源スイッチ104がOnになっているどうかを確認し、Onになっていなければ処理を終了し、OnであればステップS2に進む。
First, in step S1, it is confirmed whether or not the
電源がOnの場合に進むステップS2では、外部機器I/Fブロック111に音響データが受信されているかどうかを確認し、受信されていない場合は処理を終了し、受信されている場合はステップS3に進む。
In step S2 that proceeds when the power source is On, it is confirmed whether or not acoustic data is received by the external device I /
ステップS3では、音響システム100の駆動ステージ103がすでに駆動されているかどうかを確認し、駆動していない場合は、ステップS6に進み、既に駆動されている場合はステップS4に進む。
In step S3, it is confirmed whether or not the
ステップS4では、カメラユニット102によって聴取空間SPを撮像し、聴取空間SP内において環境変動があったかどうかを確認する変動確認処理を行った後、ステップS5に進む。なお、実施例1における環境変動とは、聴取空間SPに配置された静止物体を含む空間内に存在する物体のスピーカ101,101に対する相対関係の変化をいう。また、静止物体とは、聴取空間SPに配置されて静止した物体を指し、図7に一例を示す聴取空間SPでは椅子CH1を指す。また、環境変動の確認に関しては、方法に関してはいろいろあるが、本実施例1では、カメラユニット102において現在のフレームで出力された画像データと、その1つ前のフレームの画像データとの差分による画像変動を用いて確認を行う。この画像変動の演算については後述する。
In step S4, the listening space SP is imaged by the
ステップS5では、画面変動があったか否か確認し、画像変動があった場合はステップS6に進み、画像変動が無かった場合は、ステップS8に進む。以上のように、ステップS4、S5では、静止物体のスピーカ101,101に対する相対関係の変化の有無を検出するために、空間内に存在する物体のカメラユニット102に対する相対変位を検出している。音響システム100において、この処理を行う部分が聴取空間環境検出手段に相当する。
In step S5, it is confirmed whether or not there is a screen change. If there is an image change, the process proceeds to step S6. If there is no image change, the process proceeds to step S8. As described above, in steps S4 and S5, the relative displacement of the object existing in the space with respect to the
ステップS6では、AF処理を実行し、次のステップS7に進む。なお、AF処理は、カメラユニット102が有するAF機能を用いて、カメラユニット102と聴取空間SPに存在する静止物体との距離を計測する処理である。カメラユニット102おいてこの処理を行なう部分が距離検出手段に相当するもので、その詳細については後述する。
ステップS7では、AF処理の結果に基づいて、駆動ブロック114により駆動ステージ103を駆動させる処理を実行した後、ステップS8に進む。この駆動ステージ103を駆動させる処理とは、本実施例1では、駆動ステージ103を、図示を省略した垂直方向の軸を中心に回転させる処理である。これにより、各スピーカ101,101の水平方向の向きが変化し、聴取空間SPのオーディオ出力条件設定が変化する。このオーディオ出力条件設定のパラメータは角度であり、図8に示すように、2つあるスピーカ101,101の正面方向であってカメラユニット102の光軸Oに沿う方向に対する角度θ1、θ2を決定する。なお、この角度θ1、θ2の演算は、CPUブロック73と信号処理ブロック113とのいずれかで行なう。
ステップS8では、音響出力部30により外部機器I/Fブロック111で得られた外部機器からのオーディオ信号をスピーカ101,101により再生させる音響出力処理を実行した後、処理を終了する。このステップS8の音響出力処理の詳細は後述する。
In step S6, AF processing is executed, and the process proceeds to next step S7. The AF process is a process for measuring the distance between the
In step S7, a process for driving the
In step S <b> 8, the
以上のように、ステップS7,S8の処理により、静止物体の変化に対応してスピーカ101,101の向きを変えることでオーディオ出力条件設定を行っている。音響システム100において、これらの処理を行う部分がオーディオ環境設定手段に相当する。
As described above, the audio output condition is set by changing the direction of the
次に、ステップS4の変動確認処理について説明を加える。
本実施例1では、変動確認処理に用いる画像変動確認には 、VD信号に同期したタイミングで連続的に取得された画像データをSDRAM9のバッファメモリに記憶し、次に取得された画像データと、輝度差分から算出される積算結果で比較する。例えば、まず、一つ前の画像データをバッファメモリに記憶し、この記憶された画像データと最新のタイミングで取得された画像データとの差分を演算し、この演算ののち、最新のタイミングで取得された画像データを一つ前の画像データに上書きしてバッファメモリに記憶する。そして、この上書きされた最新のタイミングの画像データと次のタイミングで取得された画像データとを用いて、差分演算を繰り返す。
Next, a description will be given of the variation confirmation processing in step S4.
In the first embodiment, the image fluctuation confirmation used for the fluctuation confirmation processing stores the image data continuously acquired at the timing synchronized with the VD signal in the buffer memory of the
最新のタイミングで取得された画像データとSDRAM9に記憶されている一つ前のタイミングで取得された画像データを用いて行う差分演算処理は、各画像データを構成する各画素の隣接する画素間の輝度差分を水平方向と垂直方向のそれぞれにおいて積算し、さらにそれを1つ前のタイミングで取得された積算結果と比較し、その水平方向の差分結果と垂直方向の差分結果を合算したものから変動確認評価値Qを算出する処理である。変動確認評価値Qは、VD信号の発生タイミングごとに算出される。
The difference calculation processing performed using the image data acquired at the latest timing and the image data acquired at the previous timing stored in the
変動確認処理における差分演算処理に用いる演算式について説明をする。
最新のタイミングにおいて水平方向の隣接する画素間での輝度差分の積算結果をH(v)とすると、その演算式は下記の式(1)で表される。
また、垂直方向の隣接する画素間での輝度差分の積算結果をV(h)とすると、その演算式は下記の式(2)で表される。
上記式(1)と式(2)によって算出されるH(v)とV(h)と、その一つ前のタイミングで算出された積分結果H’(v)とV’(h)を用いて、その差分の総和をQ(t)とすると、その演算式は下記の式(3)で表される。
Assuming that the integration result of the luminance difference between adjacent pixels in the horizontal direction at the latest timing is H (v), the calculation formula is expressed by the following formula (1).
Further, if the integration result of the luminance difference between adjacent pixels in the vertical direction is V (h), the calculation formula is expressed by the following formula (2).
Using H (v) and V (h) calculated by the above formulas (1) and (2), and integration results H ′ (v) and V ′ (h) calculated at the timing immediately before. When the sum of the differences is Q (t), the calculation formula is expressed by the following formula (3).
この評価値Q(t)を画像更新タイミング(Vdタイミング)毎に演算し、ステップS5では、その差分があらかじめ設定された判定閾値以上であった場合に、環境変動があったと判定する。なお、この判定閾値は、明暗による画像データの変化も想定されるために、ある程度の明暗変化を許容する値に設定しておくことが好ましい。また、本実施例1では、上述のように、画像データのフレーム間差分により静止物体の変動を検知しているがこの限りではなく、ヒストグラムによる差分抽出を行うことで検知したり、あるいは処理速度に問題が無いようであれば、画像差からオプティカルフローを算出したりする他の方法を用いることもできる。 This evaluation value Q (t) is calculated for each image update timing (Vd timing), and in step S5, it is determined that there has been an environmental change if the difference is equal to or greater than a preset determination threshold. Note that the determination threshold value is preferably set to a value that allows a certain level of change in light and dark because a change in image data due to light and dark is also assumed. Further, in the first embodiment, as described above, the variation of the stationary object is detected by the inter-frame difference of the image data. However, the present invention is not limited to this. If there is no problem, other methods for calculating the optical flow from the image difference can be used.
次に、ステップS6で実行するAF処理の詳細を図9のフローチャートに基づいて説明する。なお、AF処理では、測距エリアを、カメラユニット102から光軸方向に1mの位置から5mの位置までの範囲とし、AF処理の開始時点では、フォーカスレンズ52aの焦点を1mの距離に配置しておく。
まず、ステップS61では、VD信号の立ち下がりを検出するまで待ち処理を行い、VD信号の立ち下がりを検出すると、ステップS62に進む。
ステップS62では、所定パルス数に応じてフォーカスモータ52bを駆動し、フォーカスレンズ52aを焦点距離5mの位置に向けて移動を開始させた後、次のステップS63に進む。
Next, details of the AF processing executed in step S6 will be described based on the flowchart of FIG. In the AF process, the distance measurement area is a range from a position of 1 m to a position of 5 m in the optical axis direction from the
First, in step S61, a wait process is performed until the falling edge of the VD signal is detected. When the falling edge of the VD signal is detected, the process proceeds to step S62.
In step S62, the
ステップS63では、フォーカスレンズ52aを移動した後の映像信号を取得し、この映像信号に基づく画像データによってAF評価値を算出し、ステップS64に進む。ステップS64では、フォーカスレンズ52aの位置が終了位置(本実施例1では、焦点距離5mに相当する位置)まで移動したか否か判定し、終了位置に達した場合はステップS65に進み、終了位置に達していない場合は、ステップS62に戻って、フォーカス駆動とAF評価値取得とを繰り返し行う。
In step S63, a video signal after moving the
ステップS65では、ピーク位置検出処理を実行し、ステップS66に進む。このピーク位置検出処理では、まず、図5の細分化されたそれぞれのエリアにおける各画素の高周波成分の積分値によりピーク位置を検出する。そして、各エリアにおいて、ピーク位置が同距離と思われる位置をグルーピングし、その範囲が含まれる端のエリア番号を取得する。 In step S65, a peak position detection process is executed, and the process proceeds to step S66. In this peak position detection process, first, the peak position is detected by the integrated value of the high-frequency component of each pixel in each subdivided area of FIG. Then, in each area, the positions where the peak positions are considered to be the same distance are grouped, and the end area number including the range is acquired.
ここで、グルーピングについて説明を加える。
このグルーピングの説明にあたり、聴取空間SPにおける椅子CH1が取り替えられた場合を例に挙げて説明する。すなわち、音響システム100が設置されている聴取空間SPにおいて、図7に示すように複数人掛けの椅子CH1が置かれている状態から、図10に示すように、一人掛けの椅子CH2に取り替えられたというように、静止物体の変動が生じた場合のグルーピングの違いについて説明する。
Here, explanation is added about grouping.
In the description of the grouping, a case where the chair CH1 in the listening space SP is replaced will be described as an example. That is, in the listening space SP in which the
図11、図12がそれぞれ図7および図10に示す聴取空間SPに対するAF処理を行ったときの画像データとグルーピング結果を示している。すなわち、聴取空間SPが図7に示す状態である場合、図11(a)に示す画像データが得られ、同図(b)において斜線を付したエリアでグルーピングされている。この例では、グルーピングエリアは、水平方向1〜7、垂直方向6〜8のエリアとなっている。一方、聴取空間SPが図10に示す状態である場合、図12(a)に示す画像データが得られ、同図(b)において斜線を付したエリアでグルーピングされている。この例では、水平方向2〜5、垂直方向6〜8のエリアとなっている。このように聴取空間SPにおいて静止物体が変動する環境変動が生じても、グルーピングを行うことによってこの変動を検出できるとともに、聴取空間SPの空間内存在物体の存在位置を推定することが可能となる。
最後のステップS66では、フォーカスレンズ52aの焦点をピーク位置へ移動する処理を行い、AF処理を終了する。
11 and 12 show image data and grouping results when AF processing is performed on the listening space SP shown in FIGS. 7 and 10, respectively. That is, when the listening space SP is in the state shown in FIG. 7, the image data shown in FIG. 11 (a) is obtained and grouped in the hatched area in FIG. 11 (b). In this example, the grouping area is an area of 1 to 7 in the horizontal direction and 6 to 8 in the vertical direction. On the other hand, when the listening space SP is in the state shown in FIG. 10, the image data shown in FIG. 12 (a) is obtained and grouped in the hatched area in FIG. 12 (b). In this example, the area is 2 to 5 in the horizontal direction and 6 to 8 in the vertical direction. In this way, even if an environmental change in which a stationary object fluctuates occurs in the listening space SP, this change can be detected by performing grouping, and the presence position of the existing object in the listening space SP can be estimated. .
In the final step S66, a process of moving the focus of the
次に、図6のフローチャートで説明したステップS7のステージ駆動処理について説明を加える。前述のように、ステージ駆動時のパラメータは角度であるが、2つの角度θ1、θ2の演算には、図8に示すように、AF処理によるグルーピングエリアから、そのエリア番号の水平方向両端位置の検出値を用いる。本実施例1では、各スピーカ101,101を、水平方向にのみ回動させるため、グルーピングエリアの水平方向両端位置に各スピーカ101,101の正面が向くように回動させ、グルーピングエリアにおける左右のスピーカ101,101のオーディオ出力状態が均等になるようにしている。このため、グルーピングエリアの両端に相当する水平エリア位置を、焦点距離35mmの画角と聴取距離dとから算出し、画角端と水平エリア位置との差分L1,L2(図12(b)参照)を算出し、下記式(4)(5)に基づき、この差分L1,L2聴取距離dとのatan(アークタンジェント)により角度θ1,θ2を算出する。
θ1=atan(L1/d) ・・・(4)
θ2=atan(L2/d) ・・・(5)
次に、図6のフローチャートで説明したステップS8の音響出力処理について説明を加える。
音響出力処理では、デジタル変換されたオーディオ信号に対して、増幅処理などを行い各スピーカ101,101へと出力する。このとき、聴取位置により出力タイミングを変化させる必要がある場合は、フィルタ処理を行うことにより両スピーカ101,101における出力タイミングをずらす処理を行ってもよい。その際には、AF処理にて取得したグルーピングによって推定される静止物体(例えば、椅子CH1,CH2)から各スピーカ101,101までの聴取距離dを算出しフィルタをかけることになる。
Next, the stage drive process in step S7 described in the flowchart of FIG. 6 will be described. As described above, the parameter for driving the stage is an angle. However, as shown in FIG. 8, the two angles θ1 and θ2 are calculated from the grouping area by the AF process as shown in FIG. The detection value is used. In the first embodiment, since the
θ1 = atan (L1 / d) (4)
θ2 = atan (L2 / d) (5)
Next, the sound output process in step S8 described in the flowchart of FIG. 6 will be described.
In the sound output processing, the digitally converted audio signal is subjected to amplification processing or the like and output to the
次に、実施例1の作用を、音響システム100が配置された聴取空間SPにおいて、静止物体としての図7に示す椅子CH1が、図10に示す椅子CH2に取り替えられるという変動、すなわち、スピーカ101,101に対する静止物体の相対関係に変化が生じた場合を例に挙げて説明する。
Next, the operation of the first embodiment is the variation in which the chair CH1 shown in FIG. 7 as a stationary object is replaced with the chair CH2 shown in FIG. 10 in the listening space SP in which the
音響システム100では電源スイッチ104がOnされると、オーディオ出力条件設定処理が継続して実行される。ここで、オーディオ出力条件設定処理の最初の処理の時点では、駆動ステージ103が駆動されていないことから、ステップS1、S2、S3、S6の流れに基づきAF処理が実行される。このとき、聴取空間SPにおいて、図7に示す位置に2,3人掛け用の椅子CH1が置かれている場合、ステップS65のピーク位置検出処理により、図11(b)に示すように、水平方向で1〜7、垂直方向で6〜8の範囲のグルーピングが成される。そして、ステップS7のステージ駆動処理により、スピーカ101,101の正面をグルーピングエリアの水平方向両端に向かせる角度θ1,θ2(図13参照)が得られ、さらに、両角度θ1,θ2に基づいて、駆動ステージ103が回動される。これに伴い両スピーカ101,101は、駆動ステージ103と一体的に回動して図13に示すように正面が若干外側を向いた状態となり、その後、音響出力処理が実行される。
In the
なお、その後、椅子CH1がそのまま置かれている場合、ステップS5において画面変動有りの判定が成されず、スピーカ101,101の向きが維持されたままで音響出力処理が実行される。
After that, when the chair CH1 is left as it is, it is not determined in step S5 that the screen has changed, and the sound output process is executed while the orientation of the
音響システム100がこのように作動した場合、音響システム100による音場は、椅子CH1に掛けた聴取者MA(図16参照)にとって臨場感に富む最適のオーディオ出力条件に設定される。
When the
一方、聴取空間SPにおいて、図10に示す1人掛け用の椅子CH2に取り替えられて図示のように配置されて環境変動が生じた場合、ステップS5において、画面変動が有りと判定されて、再び、AF処理およびステージ駆動処理が実行され、再度オーディオ出力条件の設定が成される。 On the other hand, in the listening space SP, when it is replaced with the chair CH2 for one person shown in FIG. 10 and is arranged as shown in the figure, an environmental change occurs, it is determined in step S5 that there is a screen change, and again. The AF process and the stage drive process are executed, and the audio output condition is set again.
このとき、ステップS65のピーク位置検出処理により、図12(b)に示すように、水平方向2〜5、垂直方向6〜8の範囲がグルーピングされる。そして、ステップS7のステージ駆動処理により、グルーピングエリアの水平方向両端に対応する図14に示す角度θ1,θ2が得られる。この例では、角度θ1は、変化していないが、角度θ2が大きく変化し、これに伴って、装置右側に配置された駆動ステージ103が回動されて図14に示すように装置右側に配置されたスピーカ101が回動される。
At this time, the range of the horizontal direction 2-5 and the vertical direction 6-8 is grouped by the peak position detection process of step S65, as shown in FIG.12 (b). Then, the angles θ1 and θ2 shown in FIG. 14 corresponding to both ends in the horizontal direction of the grouping area are obtained by the stage driving process in step S7. In this example, the angle θ1 does not change, but the angle θ2 changes greatly, and accordingly, the
したがって、音響システム100による音場は、椅子CH2に掛けた聴取者MAにとって臨場感に富む最適の音場を形成するオーディオ出力条件に設定に変更される。
Therefore, the sound field by the
以上説明したように、本実施例1では、聴取空間SPに配置された静止物体の存在を検出し、これら静止物体に応じてオーディオ出力条件(音響パラメータ)を設定するとともに、聴取空間SPにおいてスピーカ101,101に対する静止物体の相対関係に変化(画像変動)が生じた場合には、静止物体の変化に伴ってオーディオ出力条件を変化させ、最適なオーディオ出力を可能とすることができる。
この場合、聴取者MAが自らスピーカ101からの距離などを測定する必要が無く、聴取者MAの手間を省くことができる。加えて、聴取空間SPにおける椅子CH1,CH2などの他動的な静止物体のスピーカ101,101に対する相対関係の変化に応じてオーディオ出力条件の設定を変更でき、聴取者MAがオーディオ出力条件の設定のために、このような静止物体など移動させる必要もなく、短時間に手間を掛けることの無い設定が可能となる。
As described above, in the first embodiment, the presence of stationary objects arranged in the listening space SP is detected, audio output conditions (acoustic parameters) are set according to these stationary objects, and the speaker in the listening space SP is set. When a change (image fluctuation) occurs in the relative relationship between the still objects 101 and 101, the audio output condition can be changed in accordance with the change of the still object, thereby enabling optimal audio output.
In this case, it is not necessary for the listener MA to measure the distance from the
そして何より、聴取空間SPにおいて静止物体の相対関係の変化が生じても、聴取者MAが再度設定し直すこと無く自動的にオーディオ出力条件設定の変更が成され、聴取者MAの手間をさらに大幅に省くことが可能である。 Above all, even if the relative relationship of the stationary object changes in the listening space SP, the listener MA automatically changes the audio output condition setting without resetting it, which further increases the labor of the listener MA. Can be omitted.
(他の実施例)
以下に、他の実施例の音響環定装置について説明する。
なお、他の実施例を説明するのにあたり、実施例1と同じ構成については同じ符号を付けて説明を省略する。作用についても、実施例1と相違する作用について説明し、実施例1と同じ作用については説明を省略する。
(Other examples)
In the following, acoustic ringing devices of other embodiments will be described.
In the description of the other embodiments, the same components as those in the first embodiment are denoted by the same reference numerals and the description thereof is omitted. Regarding the action, the action different from that of the first embodiment will be described, and the description of the same action as that of the first embodiment will be omitted.
<実施例2>
実施例2の音響設定装置は、音響システム100における処理の内容が実施例1と異なり、聴取空間SPの聴取空間環境を検出する聴取空間環境検出手段に、聴取者MAを検出する聴取者検出手段を加えた例である。
<Example 2>
The sound setting device according to the second embodiment is different from the first embodiment in the content of processing in the
この実施例2の音響システム100における処理の流れを図15のフローチャートに基づいて説明する。なお、このフローチャートにおいて、ステップS1〜S6までは実施例1と同様であるので、実施例1と同じステップ符号を付けて説明を省略し、実施例1と相違する処理ステップについて説明する。
The flow of processing in the
ステップS6のAF処理を終えると、ステップS21に進み、顔検知判定処理を実行し、ステップS22に進む。
このステップS21の顔検知判定処理では、聴取空間SPに顔が存在するか否かに基づいて、聴取者MAが存在するか否かを判定し、聴取者MAが存在する場合は、その顔が存在する位置について再度グルーピングを行う。顔検知方法に関しては、デジタルスチルカメラの技術において、既に、公知となった下記のa〜cに列挙する方法が知られており、本実施例2では、下記の技術のいずれかの方法を用いるものとする。
a)テレビジョン学会誌Vol.49、No.6、pp.787−797(1995)の「顔領域抽出に有効な修正HSV表色系の提案」に示されるように、カラー画像をモザイク画像化し、肌色領域に着目して顔領域を抽出する方法。
b)電子情報通信学会誌Vol.74−D−II、No.11、pp.1625−1627(1991)の「静止濃淡情景画像からの顔領域を抽出する手法」に示されているように、髪や目や口など正面人物像の頭部を構成する各部分に関する幾何学的な形状特徴を利用して正面人物の頭部領域を抽出する方法。
c)画像ラボ1991−11(1991)の「テレビ電話用顔領域検出とその効果」に示されるように、動画像の場合、フレーム間の人物の微妙な動きによって発生する人物像の輪郭エッジを利用して正面人物像を抽出する方法。
When the AF process in step S6 ends, the process proceeds to step S21, a face detection determination process is executed, and the process proceeds to step S22.
In the face detection determination process in step S21, it is determined whether or not the listener MA exists based on whether or not a face exists in the listening space SP. If the listener MA exists, the face is determined. Grouping is performed again for existing positions. Regarding the face detection method, the methods listed in the following a to c that have already become known in the digital still camera technology are known, and in the second embodiment, any one of the following methods is used. Shall.
a) Journal of Television Society Vol. 49, no. 6, pp. No. 787-797 (1995) “Proposal of a modified HSV color system effective for face area extraction” is a method of extracting a face area by converting a color image into a mosaic image and paying attention to a skin color area.
b) Journal of the Institute of Electronics, Information and Communication Engineers, Vol. 74-D-II, no. 11, pp. 1625-1627 (1991) “A method for extracting a face region from a still gray scene image”, the geometrical structure of each part constituting the head of a front human figure such as hair, eyes and mouth. Of extracting the head region of a frontal person using various shape features.
c) As shown in “Video phone face area detection and its effect” in Image Lab 1991-11 (1991), in the case of a moving image, the contour edge of a human image generated by a subtle movement of a person between frames is detected. A method of extracting a frontal person image using it.
ステップS22では、ステップS21の顔検知判定処理の結果に基づいて、聴取者MAの有無を判定し、聴取者MAが存在する場合はステップS23に進み、聴取者MAが不在の場合はステップS7に進む。 In step S22, the presence / absence of the listener MA is determined based on the result of the face detection determination process in step S21. If the listener MA exists, the process proceeds to step S23. If the listener MA is absent, the process proceeds to step S7. move on.
ステップS23では、再度、顔検知位置でのグルーピング処理によりその範囲を設定する顔検知範囲設定処理を行った後、ステップS7に進む。以上のように、実施例2で追加したステップS21〜S23の処理を行う部分が、聴取者検出手段に相当する。
なお、ステップS7以降の処理は、実施例1と同様であるので説明を省略する。
In step S23, the face detection range setting process for setting the range is performed again by the grouping process at the face detection position, and then the process proceeds to step S7. As described above, the part that performs the processes of steps S21 to S23 added in the second embodiment corresponds to the listener detection unit.
In addition, since the process after step S7 is the same as that of Example 1, description is abbreviate | omitted.
次に、実施例2の作用を説明する。
この作用を説明するのにあたり、聴取空間SP内の環境変化として、図16に示すように聴取者MAが椅子CH1に座った状態から、図17に示すように聴取者MAが椅子CH1に寝そべった状態に変化した場合を例に挙げて説明する。すなわち、実施例2では、スピーカ101,101に対し、静止物体としての椅子CH1の相対関係には変化がなく一定の状態であるが、聴取者MAの相対関係が変化している。
Next, the operation of the second embodiment will be described.
In describing this action, as a change in the environment in the listening space SP, the listener MA lay down on the chair CH1 as shown in FIG. 17 from the state in which the listener MA sat on the chair CH1 as shown in FIG. A case where the state is changed will be described as an example. That is, in Example 2, the relative relationship of the chair MA1 as a stationary object with respect to the
図16に示す聴取空間SPの聴取空間環境で、実施例2の音響設定装置の作動が開始されたとする。この場合、まず、ステップS1〜S3、S6、S21、S22、S23、S7、S8の順で処理が実行され、この聴取空間SPの聴取空間環境に応じて駆動ステージ103が駆動されてスピーカ101の向きが設定された後、音響出力が成される。
It is assumed that the operation of the sound setting device according to the second embodiment is started in the listening space environment of the listening space SP illustrated in FIG. In this case, first, processing is executed in the order of steps S1 to S3, S6, S21, S22, S23, S7, and S8, and the
この場合、ステップS6のAF処理において図18(a)に示す画像データが得られるとともに、図18(b)に示すグルーピング結果が得られ、この図に示すように、水平範囲で1〜7、垂直範囲で4〜8の範囲でグルーピングされている。
さらに、本実施例2では、ステップS23の顔検知範囲設定処理により、図18(c)において斜線で示すように顔が検知されるエリアが設定され、この図示の例では、顔検知範囲が、水平範囲で4〜5、垂直範囲で4〜6の範囲に設定される。
In this case, the image data shown in FIG. 18A is obtained in the AF process in step S6, and the grouping result shown in FIG. 18B is obtained. As shown in FIG. Grouped in the range of 4 to 8 in the vertical range.
Furthermore, in the second embodiment, an area in which a face is detected is set as shown by hatching in FIG. 18C by the face detection range setting process in step S23. In the illustrated example, the face detection range is The horizontal range is set to 4 to 5, and the vertical range is set to 4 to 6.
本実施例2では、ステップS7のステージ駆動処理では、実施例1と同様に、顔検知範囲の水平方向両端と画角端との差分L1,L2と聴取距離dとのatan(アークタンジェント)により角度θ1,θ2が算出され、駆動ステージ103が駆動される。その結果、両スピーカ101,101は、図20に示すように、顔検知範囲の両端を向くように、音響システム100の正面中央方向を向く。
したがって、音響システム100では、椅子CH1の幅方向中央付近に着座した聴取者MAにとって最適の臨場感にあふれた音場が得られる。
In the second embodiment, in the stage driving process in step S7, as in the first embodiment, the difference between L1 and L2 between the horizontal end and the view angle end of the face detection range and the atan (arc tangent) between the listening distance d is used. The angles θ1 and θ2 are calculated, and the
Therefore, in the
次に、聴取者MAの姿勢が、図16に示すように椅子CH1に着座した状態から、図17に示すように椅子CH1に寝転がった状態に変動した場合について説明する。 Next, the case where the posture of the listener MA changes from the state of being seated on the chair CH1 as shown in FIG. 16 to the state of lying on the chair CH1 as shown in FIG.
この場合、このような聴取者MAのスピーカ101,101に対する相対関係の変化が画面変動に現れ、ステップS5、S6、S21〜S23の流れに基づき、再びAF処理、顔検知範囲設定処理などが実行される。
In this case, such a change in the relative relationship of the listener MA with respect to the
このとき、AF処理では、図19(a)に示す画像データが得られ、さらに、図19(b)に示すようなグルーピングエリアが得られる。この場合、AF処理によるグルーピングエリアは、水平方向範囲は、図18に示す例と同様である。 At this time, in the AF process, the image data shown in FIG. 19A is obtained, and further, a grouping area as shown in FIG. 19B is obtained. In this case, the horizontal range of the grouping area by AF processing is the same as the example shown in FIG.
そこで、本実施例2では、ステップS23の顔検知範囲設定処理によって、図19(c)に示す顔検知範囲が設定され、この場合、顔検知範囲は、水平範囲で2〜4、垂直範囲で5〜8の範囲と判定され、図18に示す状態とは範囲が異なっている。 Therefore, in the second embodiment, the face detection range shown in FIG. 19C is set by the face detection range setting process in step S23. In this case, the face detection range is 2 to 4 in the horizontal range and the vertical range. It is determined that the range is 5 to 8, and the range is different from the state shown in FIG.
したがって、ステップS7のステージ駆動処理では、この顔検知範囲に基づいて、図21に示すように、角度θ1,θ2が変更され、駆動ステージ103,103の回動に基づいてスピーカ101,101の向きが変更される。
この場合も、両スピーカ101,101は、顔検知範囲の両端を向き、椅子CH1に寝転がった聴取者MAにとって最適の臨場感にあふれた音場が得られる。
Therefore, in the stage driving process in step S7, the angles θ1 and θ2 are changed based on the face detection range, as shown in FIG. 21, and the directions of the
Also in this case, both
以上のように、実施例2では、椅子CH1,CH2などの静止物体のスピーカ101,101に対する相対関係の変化に加え、聴取者MAの相対関係の変化に応じたオーディオ出力条件設定が可能となり、聴取者MAに、いっそう臨場感ある音場を提供することが可能である。
As described above, in the second embodiment, in addition to the change in the relative relationship between the stationary objects such as the chairs CH1 and CH2 with respect to the
しかも、実施例2では、顔検知だけでなく、実施例1と同様に聴取空間SPに存在する静止物体を含む空間内に存在する物体に対するAF処理も実行している。このため、顔検知時に、その特徴点、例えば目や口といった部位が隠れるなどにより顔検知できなかった場合でも、実施例1と同様に、静止物体(図16に示す例では椅子)に対するAF処理結果に基づいてオーディオ出力条件設定を行うことが可能である。したがって、顔検知が成されない場合でも、聴取空間SPに適したオーディオ出力条件設定が可能である。 Moreover, in the second embodiment, not only face detection, but also AF processing is performed on an object existing in a space including a stationary object existing in the listening space SP as in the first embodiment. For this reason, even when face detection cannot be performed due to hiding the feature points, for example, parts such as eyes and mouth, at the time of face detection, AF processing for a stationary object (a chair in the example shown in FIG. 16) is performed as in the first embodiment. It is possible to set the audio output condition based on the result. Therefore, even when face detection is not performed, it is possible to set an audio output condition suitable for the listening space SP.
<実施例3>
次に、実施例3について説明する。
この実施例3は、聴取空間SPにおいて、聴取者MAの人数を判定し、聴取者MAの人数の変動にも対応できるようにした例である。
<Example 3>
Next, Example 3 will be described.
The third embodiment is an example in which the number of listeners MA is determined in the listening space SP, and the change in the number of listeners MA can be dealt with.
図22、図23のフローチャートは、実施例3の処理の流れを示している。なお、実施例3では音響システム100における処理の流れの一部のみが、実施例2と相違しており、これら実施例2と同様の処理の部分は、実施例1,2と同じステップ符号を付して説明を省略し、相違点についてのみ説明する。
実施例1,2と相違するのは、ステップS22において聴取者MA有りと判定して顔検知範囲設定処理を行うステップS23に進むまでの間に、ステップS31において顔検知数検索処理を行っている点である。
The flowcharts of FIGS. 22 and 23 show the processing flow of the third embodiment. In the third embodiment, only a part of the processing flow in the
The difference from the first and second embodiments is that the face detection number search process is performed in step S31 until the process proceeds to step S23 in which it is determined in step S22 that the listener MA is present and the face detection range setting process is performed. Is a point.
この顔検知数検索処理は、聴取空間SPにおける聴取者MAの人数を検出するもので、顔検知可能な人数に関しては、カメラユニット102内のCPUブロック73など演算能力などにも影響されるが、少なくとも4人程度は必要と考えられる。
This face detection number search process detects the number of listeners MA in the listening space SP, and the number of faces that can be detected by the face is affected by the calculation capability of the
次に、ステップS31の顔検知数検索処理にて人数が確定された状態で、再度、顔検知範囲に対してのグルーピング処理を行う顔検知範囲設定処理を行う。この顔検知範囲設定処理自体は、実施例2のステップS23と同様であるが、図24に示すように、聴取者MAが2人存在する場合は以下のようになる。 Next, face detection range setting processing for performing grouping processing on the face detection range is performed again in a state where the number of people is determined in the face detection number search processing in step S31. This face detection range setting process itself is the same as step S23 in the second embodiment, but as shown in FIG. 24, when there are two listeners MA, the process is as follows.
すなわち、ステップS6のAF処理では、図25(a)に示す画像データに基づいてグルーピングが行われ、図25(b)に示すグルーピング結果が得られる。この場合、グルーピングエリアは、水平範囲で1〜7、垂直範囲で4〜8となっている。これに対し、ステップS23の顔検知範囲設定処理で設定される顔検知範囲は、複数の全ての顔(この例では、2人の顔)が含まれる範囲が設定され、図25(c)において斜線で示すように、水平範囲で3〜7、垂直範囲で4〜6の範囲が設定される。 That is, in the AF process in step S6, grouping is performed based on the image data shown in FIG. 25A, and the grouping result shown in FIG. 25B is obtained. In this case, the grouping area is 1 to 7 in the horizontal range and 4 to 8 in the vertical range. On the other hand, the face detection range set in the face detection range setting process in step S23 is set to a range including all of a plurality of faces (in this example, two faces). In FIG. As indicated by diagonal lines, a horizontal range of 3 to 7 and a vertical range of 4 to 6 are set.
したがって、ステップS7のステージ駆動処理では、実施例1と同様に、顔検知範囲の両端と画角端との差分L1,L2と聴取距離dとのatan(アークタンジェント)により角度θ1,θ2が算出され、駆動ステージ103が駆動される。
Therefore, in the stage driving process in step S7, as in the first embodiment, the angles θ1 and θ2 are calculated by the atan (arc tangent) between the differences L1 and L2 between the both ends of the face detection range and the view angle end and the listening distance d. Then, the
次に、実施例3の作動例について説明する。
まず、聴取空間SPの聴取空間環境が図16に示すように、椅子CH1に1人の聴取者MAが座っている状態であるときには、実施例2の説明と同様に、図18(c)に示す顔検知範囲が設定され、スピーカ101,101は、図20に示すように傾けられる。したがって、椅子CH1に座った1人の聴取者MAにとって最適なオーディオ出力条件設定を形成する。
Next, an operation example of the third embodiment will be described.
First, when the listening space environment of the listening space SP is in a state where one listener MA is sitting on the chair CH1, as shown in FIG. 16, as in the description of the second embodiment, FIG. The face detection range shown is set, and the
この聴取空間環境から、図24に示すように、椅子CH1に2人の聴取者MAが座る環境変動が生じた場合、S5において画面変動有りと判定されて、AF処理(S6)、顔検知判定処理(S21)、顔検知数検索処理(S31)、顔検知範囲設定処理(S23)が実行される。 As shown in FIG. 24, when an environmental change in which two listeners MA sit on the chair CH1 occurs from this listening space environment, it is determined in S5 that there is a screen change, and AF processing (S6), face detection determination Processing (S21), face detection number search processing (S31), and face detection range setting processing (S23) are executed.
これらの処理により、図25(c)に示すように2人の顔が含まれる顔検知範囲が設定され、前述したようにステージ駆動処理では、顔検知範囲の水平方向端縁と画角端との差分L1,L2と、聴取距離dとのatan(アークタンジェント)により角度θ1,θ2が算出され、駆動ステージ103が駆動される。したがって、スピーカ101,101は、図20に示すように、中央に傾いた状態から図26に示すように、若干外側を向くように向きが変更され、これにより、2人の聴取者MAのいずれに対しても均等で最適な音場の形成が可能となる。
By these processes, a face detection range including two faces is set as shown in FIG. 25C. In the stage driving process as described above, the horizontal edge and the angle of view of the face detection range are set. The angles θ1 and θ2 are calculated by the atan (arc tangent) of the differences L1 and L2 and the listening distance d, and the
以上説明したように、実施例3にあっては、聴取空間SPに複数の聴取者MAが存在する場合には、顔検知された複数の聴取者MAの全てが含まれるような範囲に向けてオーディオ出力することによって、複数の聴取者MAの全てに対して最適な音場を提供することができる。 As described above, in the third embodiment, when a plurality of listeners MA exist in the listening space SP, the range is such that all of the plurality of listeners MA whose faces are detected are included. By outputting audio, an optimal sound field can be provided for all of the plurality of listeners MA.
また、実施例2と同様に、顔検知できなかった場合でも、静止物体に対するAF処理結果に基づいてオーディオ出力条件設定を行って、聴取空間SPに適したオーディオ出力条件設定が可能である。 Similarly to the second embodiment, even when the face cannot be detected, the audio output condition can be set based on the AF processing result for the stationary object, and the audio output condition suitable for the listening space SP can be set.
<実施例4>
実施例4の音響設定装置は、聴取者MAが眠った場合に、最適な音響設定を行うことを可能とした例である。
<Example 4>
The sound setting device according to the fourth embodiment is an example in which the optimal sound setting can be performed when the listener MA sleeps.
図27、図28のフローチャートは、実施例4の処理の流れを示している。なお、実施例4では音響システム100における処理の流れの一部のみが、実施例3と相違しており、これら実施例3と同様の処理の部分は、実施例1〜3と同じステップ符号を付して説明を省略し、相違点についてのみ説明する。
実施例3と相違するのは、ステップS31の顔検知数検索処理と、ステップS23の顔検知範囲設定処理の間に、検知人数に応じて視線検知処理を行っている点である。
The flowcharts of FIGS. 27 and 28 show the processing flow of the fourth embodiment. In the fourth embodiment, only part of the processing flow in the
The difference from the third embodiment is that the line-of-sight detection process is performed according to the number of detected persons between the face detection number search process in step S31 and the face detection range setting process in step S23.
すなわち、ステップS31の顔検知数検索処理にて人数が確定した後に進むステップS41では、検知人数が2人以上であるか否か判定し、検知人数が1人の場合はステップS23の顔検知範囲設定処理に進み、検知人数が2人以上の場合はステップS42に進む。 That is, in step S41, which is performed after the number of persons is determined in the face detection number search process in step S31, it is determined whether or not the number of detected persons is two or more. Proceeding to the setting process, if the number of detected persons is two or more, the process proceeds to step S42.
ステップS42では、顔検知された各顔画像に対して視線検知処理を行う。この視線検知処理は、聴取者MAが開眼している(起きている)か閉眼している(眠っている)かを確認する処理である。この場合、図29(a)に示す目画像テンプレートTPを用い、この目画像テンプレートTPを拡大縮小させながら顔画像とマッチングを行って画像データGを検索し目を検出、つまり開眼している状態かどうかを検出する。なお、図29(b)は目画像テンプレートTPのマッチング状態を示している。ここで、顔が検知された聴取者MAの顔画像において開眼が検出されない場合には、この顔は検知されていないものとして聴取者MAから除外する処理を行う。 In step S42, a line-of-sight detection process is performed on each face image whose face has been detected. This line-of-sight detection process is a process for confirming whether the listener MA is open (wakes up) or closed (sleeps). In this case, the eye image template TP shown in FIG. 29A is used, and the eye image template TP is matched with the face image while being enlarged or reduced, the image data G is searched, and the eye is detected, that is, the eye is opened. Detect whether or not. Note that FIG. 29B shows a matching state of the eye image template TP. Here, when the eye opening is not detected in the face image of the listener MA whose face has been detected, a process of excluding the face from the listener MA as being not detected is performed.
したがって、複数の聴取者MAの全てが含まれる顔検知範囲を設定する際に、水平方向で端およびその隣の聴取者MAの開眼が検出されずに聴視者MAから除外された場合は、これらの聴取者MAは、複数の顔画像を含む顔検知範囲に含まれなくなる。 Therefore, when setting the face detection range including all of the plurality of listeners MA, when the eye opening of the listener MA adjacent to the end and the neighbor in the horizontal direction is not detected and excluded from the listener MA, These listeners MA are not included in the face detection range including a plurality of face images.
よって、本実施例4では、図24に示すように、聴取空間SPに2人の聴取者MA,MAが存在し、図示のように、2人の聴取者MA,MAとも開眼している場合は、実施例3と同様に、図25(c)において斜線で示す範囲のように、2人の聴取者MA,MAの顔が含まれる顔検知範囲が設定される。また、この場合、駆動ステージ103,103は、図26に示す角度θ1,θ2だけ回動し、両スピーカ101,101は、顔検知範囲の水平方向両端を向くように、中央方向に傾けられる。
Therefore, in the fourth embodiment, as shown in FIG. 24, there are two listeners MA and MA in the listening space SP, and both the listeners MA and MA are open as shown in the figure. As in the third embodiment, a face detection range including the faces of the two listeners MA and MA is set as shown by the hatched area in FIG. In this case, the drive stages 103 and 103 are rotated by angles θ1 and θ2 shown in FIG. 26, and both
一方、図30(a)の画像データに示すように、装置正面の右側の聴取者MAが閉眼している場合について説明する。この場合、AF処理によるグリーピングは、図25(b)に示す例と同様に、水平範囲で1〜7、垂直範囲で4〜8となり、また、ステップS31の顔検知数検索処理を実行した時点での顔検知範囲は、図25(c)に示す例と同様に、水平範囲で3〜7、垂直範囲で4〜6のエリアとなる。 On the other hand, as shown in the image data of FIG. 30A, the case where the listener MA on the right side of the front of the apparatus is closed will be described. In this case, the grouping by AF processing is 1 to 7 in the horizontal range and 4 to 8 in the vertical range, as in the example shown in FIG. 25B, and the face detection number search processing in step S31 is executed. The face detection range at the time is an area of 3 to 7 in the horizontal range and 4 to 6 in the vertical range, as in the example shown in FIG.
さらに、ステップS42の視線検知処理を実行し、向かって右側の聴取者MAは、閉眼していることから顔検知範囲から除外するため、ステップS23においける顔検知範囲設定処理により設定される顔検知範囲は、図30(d)において斜線で示すように、向かって左側の聴取者MAの顔のみが含まれる水平範囲で3〜4、垂直範囲で4〜6のエリアとなる。 Further, the line-of-sight detection process in step S42 is executed, and the right listener MM is excluded from the face detection range because it is closed, so the face set by the face detection range setting process in step S23 The detection range is an area of 3 to 4 in the horizontal range including only the face of the listener MA on the left side, and 4 to 6 in the vertical range, as indicated by hatching in FIG.
したがって、ステップS7のステージ駆動処理では、実施例1と同様に、図31に示すように、顔検知範囲の水平方向両端と画角端との差分L1,L2と聴取距離dとのatan(アークタンジェント)により角度θ1,θ2が算出される。これにより、駆動ステージ103が駆動され、装置左側のスピーカ101が大きく傾いた状態となる。
Therefore, in the stage driving process in step S7, as in the first embodiment, as shown in FIG. 31, the atan (arc) between the differences L1 and L2 between the horizontal ends of the face detection range and the view angle ends and the listening distance d is obtained. The angles θ1 and θ2 are calculated by (tangent). As a result, the
よって、実施例4では、聴取者MAが複数存在する場合、目が閉じているかどうかを確認し、目を開けて起きていると思われる聴取者MAのみに最適な音場を形成するオーディオ出力条件を設定することができる。 Therefore, in Example 4, when there are a plurality of listeners MA, it is confirmed whether or not the eyes are closed, and an audio output that forms an optimal sound field only for the listeners MA who are thought to be awake with their eyes open. Conditions can be set.
また、オーディオ出力条件の設定後に、顔が検知されていた聴取者MAが眠るなどして目を閉じた場合、その画像変動の検出で、顔検知範囲設定処理、視線検知処理が行われ、眠った聴取者MAは除外されて顔検知範囲が設定され、この設定に応じてオーディオ出力条件(角度θ1,θ2)の再設定が行われ、起きている聴取者MAにとって最適の音場が形成される。 In addition, after the audio output condition is set, when the listener MA who has detected the face sleeps and closes his eyes, the face detection range setting process and the line-of-sight detection process are performed by detecting the image fluctuation, and the sleeper sleeps. The listener MA is excluded and the face detection range is set, and the audio output conditions (angles θ1 and θ2) are reset according to this setting, and an optimal sound field is formed for the listener MA who is awake. The
また、実施例2と同様に、顔検知できなかった場合でも、静止物体に対するAF処理結果に基づいてオーディオ出力条件設定を行って、聴取空間SPに適したオーディオ出力条件設定が可能である。 Similarly to the second embodiment, even when the face cannot be detected, the audio output condition can be set based on the AF processing result for the stationary object, and the audio output condition suitable for the listening space SP can be set.
以上、本発明の実施の形態について実施例を用いて説明したが、本発明はこうした実施例に限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形および置換を加えることができる。 The embodiments of the present invention have been described using the examples. However, the present invention is not limited to these examples, and various modifications and substitutions may be made without departing from the scope of the present invention. Can do.
例えば、実施例では、各駆動ステージ103,103を水平方向に回動させているが、垂直方向にも回動させるようにしてもよい。
また、実施例では、AF処理において、ピーク値をスキャンするいわゆる山登りAFの採用例を示したが、距離結果がでるようなもの、例えば、レンズを2段構成にしてステレオ方式による視差画像を用いて距離を算出することができればより高速に聴取空間SPに存在する空間内存在物体との距離を捉えることが可能となる。
また、実施例では、2つのスピーカ101,101を用いた例を示したが、その数は、この限りでなく、5.1chなどの3以上のスピーカを用いてもよい。
For example, in the embodiment, the drive stages 103 and 103 are rotated in the horizontal direction, but may be rotated in the vertical direction.
In the embodiment, an example of adopting so-called hill-climbing AF that scans the peak value in the AF processing has been shown. However, a method that produces a distance result, for example, a stereo parallax image using two-stage lenses. Thus, if the distance can be calculated, the distance to the object existing in the space existing in the listening space SP can be captured at a higher speed.
Moreover, although the example which used the two
また、実施例では、静止物体として椅子CH1,CH2を示したが、静止物体としてはこれら椅子に限定されるものではない。 In the embodiments, chairs CH1 and CH2 are shown as stationary objects, but the stationary objects are not limited to these chairs.
また、実施例では、オーディオ出力条件設定処理の実行開始時のオーディオ出力条件の設定も自動的に行うようにした例を示したが、少なくとも、空間内存在物体のスピーカに対する相対関係の変化時に、この変化に応じたオーディオ出力条件設定とするものであれば、最初の設定は、他の要因に基づいて自動設定したり、手動設定したりするものでもよい。 Further, in the embodiment, the example in which the audio output condition is set automatically at the start of the execution of the audio output condition setting process is shown, but at least when the relative relationship of the object existing in the space changes, As long as the audio output condition is set according to this change, the initial setting may be automatically set based on other factors or manually set.
また、実施例では、オーディオ出力条件の設定として、スピーカを回動させるものを示したが、これに限定されるものではなく、聴取音に関するオーディオ出力条件の設定であれば、スピーカ位置、音声フィルタ処理、音圧や出力タイミングなどの聴取音に関する設定を行なうようにしてもよい。 In the embodiment, the audio output condition is set to rotate the speaker. However, the present invention is not limited to this. If the audio output condition related to the listening sound is set, the speaker position and the audio filter are set. You may make it perform the setting regarding listening sound, such as a process, a sound pressure, and an output timing.
また、実施例では、聴取空間環境検出手段における距離検出手段として、撮像手段のオートフォーカス機能を用いたものを適用したが、静止物体との距離を計測できるものであれば、音波や光の反射時間を用いて距離を計測するものなど他の手段を用いてもよい。 In the embodiment, the distance detecting means in the listening space environment detecting means is the one using the autofocus function of the imaging means. However, if the distance from the stationary object can be measured, the reflection of sound waves and light is possible. Other means such as one that measures distance using time may be used.
また、実施例では、静止物体を検出するのにあたり、画像データとして撮像され、AF処理により距離が計測された物体は全て、静止物体として処理したが、例えば、実施例において画像変動の有無を判定する手段を用いて、あらかじめ設定された画像データ間で変動が生じないものを静止物体とする処理を追加してもよい。 In the embodiment, when detecting a stationary object, all the objects captured as image data and the distances measured by the AF processing are processed as stationary objects. For example, in the embodiment, it is determined whether there is an image variation. By using this means, processing for setting a still object that does not change between preset image data may be added.
本発明は、オーディオ機器、ならびにオーディオ機器を搭載したテレビまたはプロジェクタなどに利用可能である。 The present invention can be used for an audio device and a television or a projector equipped with the audio device.
30 音響出力部(オーディオ出力手段)
100 音響システム(オーディオ出力条件設定手段)
101 スピーカ
102 カメラユニット(聴取空間環境検出手段)
CH1 椅子(静止物体)
CH2 椅子(静止物体)
SP 聴取空間
30 Sound output unit (audio output means)
100 sound system (audio output condition setting means)
101
CH1 Chair (stationary object)
CH2 Chair (stationary object)
SP listening space
Claims (12)
前記複数のスピーカをオーディオ信号に基づき駆動させるオーディオ出力手段と、
前記聴取空間に存在する静止物体を検出する聴取空間環境検出手段と、
前記聴取空間環境検出手段が、前記静止物体の前記スピーカに対する相対関係が変化したことを検出したときに、前記変化に対応したオーディオ出力条件に設定するオーディオ出力条件設定手段とを備えていることを特徴とする音響設定装置。 A sound setting device for setting an audio output condition relating to an output state of a listening sound to be heard by a listener output from the speaker toward a listening space where a plurality of speakers are installed.
Audio output means for driving the plurality of speakers based on an audio signal;
A listening space environment detecting means for detecting a stationary object existing in the listening space;
The listening space environment detecting means comprises audio output condition setting means for setting an audio output condition corresponding to the change when detecting that the relative relation of the stationary object to the speaker has changed. A characteristic sound setting device.
前記オーディオ出力条件設定手段は、前記聴取空間環境検出手段が前記静止物体と前記聴取者とのいずれかに前記スピーカに対する相対関係の変化を検出したときに、前記オーディオ出力条件設定を前記変化に対応した設定とすることを特徴とする請求項2〜請求項4のいずれか1項に記載の音響設定装置。 The listening space environment detecting means has listener detection means for detecting the listener existing in the listening space by detecting the characteristics of the listener's face using the image data,
The audio output condition setting means corresponds to the change in the audio output condition setting when the listening space environment detecting means detects a change in a relative relationship with respect to the speaker in either the stationary object or the listener. The sound setting device according to any one of claims 2 to 4, wherein the setting is performed.
前記複数のスピーカをオーディオ信号に基づき駆動させるオーディオ出力工程と、
前記聴取空間に存在する静止物体を検出する聴取空間環境検出工程と、
前記聴取空間環境検出工程で、前記静止物体の前記スピーカに対する相対関係が変化したことを検出したときに、前記変化に対応したオーディオ出力条件に設定するオーディオ出力条件設定工程とを備えていることを特徴とする音響設定方法。 A sound setting method for setting an audio output condition related to an output state of a listening sound to be heard by a listener output from the speaker toward a listening space where a plurality of speakers are installed.
An audio output step of driving the plurality of speakers based on an audio signal;
A listening space environment detection step of detecting a stationary object present in the listening space;
An audio output condition setting step for setting an audio output condition corresponding to the change when detecting that the relative relation of the stationary object to the speaker has changed in the listening space environment detection step; A characteristic sound setting method.
前記オーディオ出力条件設定工程は、前記静止物体と前記聴取者とのいずれかに前記スピーカに対する相対関係が変化したことを検出したときに、前記変化に対応したオーディオ出力条件設定とすることを特徴とする請求項10に記載の音響設定方法。 The listening space environment detection step includes a listener detection step of detecting the listener existing in the listening space by detecting the feature of the listener's face using the image data,
The audio output condition setting step includes setting an audio output condition corresponding to the change when detecting that the relative relationship with respect to the speaker has changed in either the stationary object or the listener. The sound setting method according to claim 10.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010026308A JP2011166407A (en) | 2010-02-09 | 2010-02-09 | Acoustic setting device and method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010026308A JP2011166407A (en) | 2010-02-09 | 2010-02-09 | Acoustic setting device and method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2011166407A true JP2011166407A (en) | 2011-08-25 |
Family
ID=44596579
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010026308A Pending JP2011166407A (en) | 2010-02-09 | 2010-02-09 | Acoustic setting device and method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2011166407A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8928799B2 (en) | 2011-10-13 | 2015-01-06 | Ricoh Company, Ltd. | Imaging device and imaging method to perform autofocus operation to a subject |
-
2010
- 2010-02-09 JP JP2010026308A patent/JP2011166407A/en active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8928799B2 (en) | 2011-10-13 | 2015-01-06 | Ricoh Company, Ltd. | Imaging device and imaging method to perform autofocus operation to a subject |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5870264B2 (en) | Imaging apparatus, imaging method, program, and integrated circuit | |
US9747492B2 (en) | Image processing apparatus, method of processing image, and computer-readable storage medium | |
JP6184189B2 (en) | SUBJECT DETECTING DEVICE AND ITS CONTROL METHOD, IMAGING DEVICE, SUBJECT DETECTING DEVICE CONTROL PROGRAM, AND STORAGE MEDIUM | |
JP4824586B2 (en) | Imaging device | |
JP6739064B1 (en) | Imaging device | |
JP2010278725A (en) | Image and sound processor and imaging apparatus | |
KR101710626B1 (en) | Digital photographing apparatus and control method thereof | |
US9774841B2 (en) | Stereoscopic image capture device and control method of the same | |
WO2016184131A1 (en) | Image photographing method and apparatus based on dual cameras and computer storage medium | |
JP2008233470A (en) | Diaphragm controller and image processor | |
US20130335619A1 (en) | Imaging device and imaging method | |
JP6610725B2 (en) | Sound processing apparatus and sound processing program | |
JP2014102293A (en) | Automatic focus detection device and control method of the same | |
KR20140116014A (en) | Image acquisition apparatus,image acquisition method and recording medium | |
JP2014122978A (en) | Imaging device, voice recognition method, and program | |
JP2011166407A (en) | Acoustic setting device and method | |
JP2011008579A (en) | Image processor, imaging apparatus, and reproduction device | |
JP2010283706A (en) | Video camera | |
KR20150000911A (en) | Auto mapping method and apparatus of screen and image | |
JP2014120139A (en) | Image process device and image process device control method, imaging device and display device | |
JP2022003753A (en) | Imaging apparatus | |
JP2010130403A (en) | Video control device, imaging apparatus and display apparatus which are provided with same | |
JP2009021929A (en) | Imaging apparatus and imaging method | |
JP2014179937A (en) | Imaging apparatus, imaging method and imaging program | |
JP6793369B1 (en) | Imaging device |