JP2011061461A - Imaging apparatus, directivity control method, and program therefor - Google Patents
Imaging apparatus, directivity control method, and program therefor Download PDFInfo
- Publication number
- JP2011061461A JP2011061461A JP2009208483A JP2009208483A JP2011061461A JP 2011061461 A JP2011061461 A JP 2011061461A JP 2009208483 A JP2009208483 A JP 2009208483A JP 2009208483 A JP2009208483 A JP 2009208483A JP 2011061461 A JP2011061461 A JP 2011061461A
- Authority
- JP
- Japan
- Prior art keywords
- face
- unit
- angle
- directivity
- subject
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
- Studio Devices (AREA)
Abstract
Description
本発明は、撮像装置、指向性制御方法及びそのプログラムに関し、例えば撮像装置におけるマイクロホンの指向性を制御する際に適用して好適なものである。 The present invention relates to an imaging apparatus, a directivity control method, and a program thereof, and is suitable for application when controlling the directivity of a microphone in an imaging apparatus, for example.
デジタルビデオカメラ(以下、これをDVCとも呼ぶ)などの撮像装置において、被写体が発する音声を強調して入力する撮像装置が提案されている。例えば、撮像装置から見た被写体の方向を検出し、当該方向から入力される音声を強調して入力する撮像装置が提案されている(例えば特許文献1参照)。 In an imaging apparatus such as a digital video camera (hereinafter also referred to as “DVC”), an imaging apparatus that emphasizes and inputs sound emitted from a subject has been proposed. For example, there has been proposed an imaging apparatus that detects the direction of a subject viewed from an imaging apparatus and emphasizes and inputs sound input from the direction (see, for example, Patent Document 1).
ところで、被写体から発せられる音声というのは、撮像装置から見て必ずしも被写体の中心から発せられるわけではなく、被写体の右端から発せられたり左端から発せられたりする場合もある。 By the way, the sound emitted from the subject is not necessarily emitted from the center of the subject when viewed from the imaging device, and may be emitted from the right end or the left end of the subject.
このような場合、上述した装置において、例えば被写体の中心から撮像装置に向かう方向の音声を強調して入力するようにしていると、被写体の右端から発せられる音声や左端から発せられる音声を強調して入力することはできない。 In such a case, in the above-described apparatus, for example, if the voice in the direction from the center of the subject toward the imaging device is emphasized and input, the voice emitted from the right end of the subject and the voice emitted from the left end are emphasized. Cannot be entered.
つまり上述した撮像装置では、一点から入力される音声しか強調して入力することができないので、必ずしも被写体が発する音声を強調して入力し得るとは言えなかった。 That is, in the above-described imaging apparatus, only the sound input from one point can be emphasized and input, and thus it cannot always be said that the sound emitted from the subject is emphasized and input.
本発明は以上の点を考慮してなされたもので、一段と確実に被写体が発する音声を強調して入力し得る撮像装置、指向性制御方法及びそのプログラムを提案しようとするものである。 The present invention has been made in consideration of the above points, and intends to propose an imaging apparatus, a directivity control method, and a program thereof that can emphasize and input sound emitted from a subject more reliably.
かかる課題を解決するため本発明の撮像装置においては、撮像画像を取得する撮像部と、音声を入力する音声入力部と、撮像画像における被写体を認識する認識部と、撮像画像における被写体の占める範囲に基づいて、音声入力部の指向性を制御する制御部とを設けるようにした。 In order to solve this problem, in the imaging apparatus of the present invention, an imaging unit that acquires a captured image, an audio input unit that inputs sound, a recognition unit that recognizes a subject in the captured image, and a range occupied by the subject in the captured image And a control unit for controlling the directivity of the voice input unit.
このように本発明の撮像装置は、撮像画像における被写体の占める範囲に基づいて音声入力部の指向性を制御することにより、撮像範囲のうち被写体の占める範囲から入力される音声を強調する指向性で音声を入力できる。これにより本発明の撮像装置は、撮像装置から見て被写体のどの部分から発せられたかによらず、被写体が発する音声を強調して入力することができる。 As described above, the imaging apparatus of the present invention controls the directivity of the audio input unit based on the range occupied by the subject in the captured image, thereby enhancing the directivity that emphasizes the sound input from the range occupied by the subject in the imaging range. Voice can be input with. As a result, the image pickup apparatus of the present invention can emphasize and input the sound emitted from the subject regardless of which part of the subject is emitted from the image pickup apparatus.
本発明によれば、撮像画像における被写体の占める範囲に基づいて音声入力部の指向性を制御することにより、撮像範囲のうち被写体の占める範囲から入力される音声を強調する指向性で音声を入力できる。これにより、撮像装置から見て被写体のどの部分から発せられたかによらず、被写体が発する音声を強調して入力することができる。かくして一段と確実に被写体が発する音声を強調して入力し得る撮像装置、指向性制御方法及びそのプログラムを実現できる。 According to the present invention, by controlling the directivity of the sound input unit based on the range occupied by the subject in the captured image, the sound is input with the directivity that emphasizes the sound input from the range occupied by the subject in the imaging range. it can. This makes it possible to emphasize and input the sound emitted from the subject regardless of which part of the subject is emitted from the imaging device. In this way, it is possible to realize an imaging apparatus, a directivity control method, and a program thereof that are capable of enhancing and inputting the sound emitted from the subject.
以下、発明を実施するための最良の形態(以下実施の形態とする)について説明する。尚、説明は以下の順序で行う。
1.第1の実施の形態
2.第2の実施の形態
3.第3の実施の形態
4.第4の実施の形態
5.他の実施の形態
Hereinafter, the best mode for carrying out the invention (hereinafter referred to as an embodiment) will be described. The description will be given in the following order.
1. 1.
<1.第1の実施の形態>
[1−1.第1の実施の形態の概要]
まず、第1の実施の形態の概要を説明する。この概要を説明した後、本実施の形態の具体例の説明に移る。
<1. First Embodiment>
[1-1. Outline of First Embodiment]
First, the outline of the first embodiment will be described. After the outline is described, the description moves to a specific example of the present embodiment.
図1において1は、撮像装置を示す。この撮像装置1は、撮像画像を取得する撮像部2と、音声を入力する音声入力部3と、撮像画像における被写体を認識する認識部4と、撮像画像における被写体の占める範囲に基づいて、音声入力部3の指向性を制御する制御部5とを有している。
In FIG. 1,
このような構成により撮像装置1は、撮像範囲のうち被写体の占める範囲から入力される音声を強調する指向性で音声を入力できる。これにより撮像装置1は、撮像装置1から見て被写体のどの部分から発せられたかによらず被写体が発する音声を強調して入力することができる。
With such a configuration, the
このような構成でなる撮像装置1の具体例について、以下、詳しく説明する。
A specific example of the
[1−2.DVCのハードウェア構成]
上述した撮像装置1の具体例となるデジタルビデオカメラ(DVC)のハードウェア構成について、図2を用いて説明する。
[1-2. Hardware configuration of DVC]
A hardware configuration of a digital video camera (DVC), which is a specific example of the
DVC100は、制御部101が、内蔵のフラッシュメモリ102に書き込まれたプログラムをRAM103にロードして実行することで各種処理を実行すると共に、タッチパネル104や操作部105からの入力信号に応じて各部を制御する。因みにRAMは、Random Access Memoryの略である。
In the
タッチパネル104は、液晶パネル106と共にタッチスクリーン107を構成するデバイスであり、タッチパネル104上の任意の位置が指でタッチされると、タッチされた位置を液晶パネル106に表示させる画面の座標として検出する。そしてタッチパネル104は、タッチされた位置の座標に応じた入力信号を制御部101に送る。
The
操作部105は、ズームレバー(TELE/WIDE)、シャッタボタン、電源ボタン、モード切替ボタンなどからなるデバイスであり、これらの押下操作に応じた入力信号を制御部101に送る。
The
制御部101は、タッチパネル104又は操作部105を介して、撮影モードへ切り替えるよう指示されると、動作モードを撮影モードに切り替える。
When instructed to switch to the shooting mode via the
すると撮像部108は、制御部101の制御のもと、レンズ部109を介して取り込んだ被写体からの光を撮像素子で電気信号に変換(すなわち光電変換)することで、アナログの画像信号を得る。そして撮像部108は、この画像信号をデジタルの画像信号に変換した後、制御部101に送る。
Then, under the control of the
制御部101は、撮像部108から送られてくる画像信号に所定の処理を施して液晶パネル106に送る。この結果、液晶パネル106には、被写体の画像がスルー画像として表示される。こうすることで、DVC100は、撮影者に被写体を確認させることができる。
The
またこのとき、制御部101は、撮像部108から送られてくる画像信号を顔認識処理部110に送る。顔認識処理部110は、制御部101の制御のもと、送られてきた画像信号を解析して、この画像信号に基づく画像(つまりスルー画像)から人物の顔を認識する処理(これを顔認識処理とも呼ぶ)を行う。そして顔認識処理部110は、スルー画像から人物の顔が認識されたか否か、顔と認識されたのはスルー画像のどの部分かなどを、顔認識処理の結果として、制御部101に返す。
At this time, the
制御部101は、アイコンや、顔と認識された部分を示す矩形の枠(これを顔枠とも呼ぶ)などのグラフィックス信号を生成して、これを画像信号に重畳する。この結果、液晶パネル106には、スルー画像と共にアイコンや顔枠などが表示される。
The
またこのとき、制御部101は、顔認識処理の結果に基づいて、人物の発する声を強調して入力するのに適したマイクロホン部111の指向角(これを適切指向角とも呼ぶ)を算出する。尚、この適切指向角を算出する方法については、後述する指向角制御処理の中で詳しく説明する。
At this time, the
そして制御部101は、指向角可変部112を介して、マイクロホン部111の指向角を適切指向角になるように制御する。
Then, the
ここで、マイクロホン部111及び指向角可変部112のハードウェア構成の具体例を、図3を用いて説明する。
Here, a specific example of the hardware configuration of the
例えばマイクロホン部111は、鋭指向性マイクロホン111A及び無指向性マイクロホン111Bで構成される。図4(A)に鋭指向性マイクロホン111Aの指向特性(ポーラパターン)を示し、図4(B)に無指向性マイクロホン111Bの指向特性を示す。
For example, the
ここではマイクロホンの指向角とは、例えば指向主軸を0[dB]とした場合、−6[dB]以上となる範囲の角度を示したものとする。尚ここでは、鋭指向性マイクロホン111Aの指向主軸は、撮像部108の撮像主軸(つまりDVC100の正面方向)と一致しているとする。
Here, the directivity angle of the microphone indicates an angle in a range of −6 [dB] or more when the directivity main axis is 0 [dB], for example. Here, it is assumed that the directional main axis of the
指向角可変部112(図3)は、レベル可変部112A及び112Bと、加算器112Cとから構成される。レベル可変部112Aは、制御部101の制御のもと、鋭指向性マイクロホン111Aから送られてくる音声信号のレベルを変化させるようになされている。レベル可変部112Bは、制御部101の制御のもと、無指向性マイクロホン111Bから送られてくる音声信号のレベルを変化させるようになされている。
The directivity angle variable unit 112 (FIG. 3) includes level
加算器112Cは、レベル可変部112Aから送られてくる鋭指向性マイクロホン111Aの音声信号と、レベル可変部112Bから送られてくる無指向性マイクロホン111Bの音声信号とを合成するようになされている。
The
図4(C)に、例えば鋭指向性マイクロホン111Aのレベルが50%であり、無指向性マイクロホン111Bのレベルが50%である場合のマイクロホン部111の指向特性を示す。図4(C)に示すように、マイクロホン部111の指向特性は、鋭指向性マイクロホン111A及び無指向性マイクロホン111Bの指向特性をレベル比に応じて合成したものとなる。尚、マイクロホン部111の指向主軸は、鋭指向性マイクロホン111Aの指向主軸(すなわち撮像部108の撮像主軸)と一致している。
FIG. 4C shows the directivity characteristics of the
マイクロホン部111の指向角を小さくする場合、制御部101は、レベル可変部112Aを制御して鋭指向性マイクロホン111Aのレベルを大きくし、レベル可変部112Bを制御して無指向性マイクロホン111Bのレベルを小さくする。
When the directivity angle of the
一方、マイクロホン部111の指向角を大きくする場合、制御部101は、レベル可変部112Aを制御して鋭指向性マイクロホン111Aのレベルを小さくし、レベル可変部112Bを制御して無指向性マイクロホン111Bのレベルを大きくする。
On the other hand, when the directivity angle of the
尚、マイクロホン部111の指向角の最小値は、鋭指向性マイクロホン111Aの指向角となり、マイクロホン部111の指向角の最大値は、無指向性マイクロホン111Bの指向角(つまり360度)となる。
The minimum value of the directivity angle of the
因みにマイクロホン部111の指向角を可変制御する構成としては、上述の構成に限らず、この他種々の構成を用いるようにしてもよい。またマイクロホンの指向角の定義としては、上述の定義に限らず、マイクロホンが音声を強調して入力し得る範囲の角度を示すものであれば、例えば聴感上の効果によって定義したものなど、この他種々の定義を用いるようにしてもよい。
Incidentally, the configuration for variably controlling the directivity angle of the
ここで、操作部105(図2)のシャッタボタンが押下されたとする。すると制御部101は、シャッタボタンの押下に応じて動画像の記録を開始する。すなわち制御部101は、撮像部108から送られてくる画像信号と、マイクロホン部111から指向角可変部112を介して入力される音声信号とをRAM103に一時記憶させ、画像信号を動画エンコーダ113に送る。
Here, it is assumed that the shutter button of the operation unit 105 (FIG. 2) is pressed. Then, the
動画エンコーダ113は、この画像信号を所定の動画フォーマットで圧縮することで、動画データを生成していく。尚、ここでは、所定の動画フォーマットとして、例えば、H.264フォーマットを利用することとする。
The moving
また制御部101は、RAM103に一時記憶させた音声信号を所定の音声フォーマットで圧縮することで、音声データを生成していく。そして制御部101は、この音声データと、動画エンコーダ113で生成された動画データとを多重化することで動画音声データを生成していく。
The
さらに制御部101は、この動画音声データを、RAM103に書き戻してから、フラッシュメモリ102又は記録媒体114に記録していく。
Further, the
その後、再び操作部105のシャッタボタンが押下されると、制御部101は、動画像の記録を終了する。すなわち制御部101は、このときRAM103に残存する動画音声データをフラッシュメモリ102又は記録媒体114に記録することで、撮影開始から終了までの一連の動画音声データの記録を完了する。そして制御部101は、この動画音声データに例えば撮影日時などの付帯情報を付与し、動画音声ファイルとしてフラッシュメモリ102又は記録媒体114に記録する。このようにしてDVC100は、動画像を記録する。
Thereafter, when the shutter button of the
また制御部101は、タッチパネル104又は操作部105を介して再生モードへの切換操作が行われると、再生モードに切り換わる。すると制御部101は、フラッシュメモリ102又は記録媒体114から指定された動画音声ファイルを読み出して、RAM103に一時記憶させる。
Further, the
そして制御部101は、この動画音声ファイルから、動画データと音声データとを分離して、動画データを動画デコーダ115に送る。
Then, the
動画デコーダ115は、この動画データを圧縮されたときと同一の動画フォーマットで伸張することで元の画像信号を得、この画像信号がRAM103に書き戻されていく。
The moving
また制御部101は、音声データを圧縮されたときと同一の音声フォーマットで伸張することで元の音声信号を得、これをRAM103に書き戻していく。
Further, the
そして制御部101は、画像信号をRAM103から読み出し、所定の処理を施して液晶パネル106に送る。これと共に制御部110は、音声信号をRAM103から読み出し、所定の処理を施してスピーカ116に送る。
Then, the
この結果、液晶パネル106には、画像信号に基づく動画像が表示される。またこのとき、音声信号に基づく音声がスピーカ116から出力される。このようにしてDVC100は、動画像及び音声を再生する。
As a result, a moving image based on the image signal is displayed on the
尚、このDVC100の撮像部108が、上述した撮像装置1の撮像部2に相当するハードウェアであり、DVC100のマイクロホン部111及び指向角可変部112が、上述した撮像装置1の音声入力部3に相当するハードウェアである。またDVC100の顔認識処理部110が、上述した撮像装置1の認識部4に相当するハードウェアであり、DVC100の制御部101が、上述した撮像装置1の制御部5に相当するハードウェアである。
The
[1−3.指向角制御処理]
上述したようにDVC100は、人物の発する声を強調して入力するのに適切なマイクロホン部111の指向角(適切指向角)を算出し、適切指向角となるようにマイクロホン部111の指向角を制御するようになされている。以下、このマイクロホン部111の指向角を適切指向角となるように制御する処理(以下、これを指向角制御処理とも呼ぶ)について詳しく説明する。
[1-3. Directional angle control processing]
As described above, the
まず、指向角制御処理の概要について、図5を用いて説明する。 First, the outline of the directivity control process will be described with reference to FIG.
図5(A)及び(B)は、被写体となっている人物P及びDVC100を真上から見下ろした様子を示した図である。
FIGS. 5A and 5B are views showing a state in which the person P and the
ここで、人物Pの発する声を強調して入力するためには、撮像範囲Acのうち人物Pの発する声の音源である顔Pfが占める範囲Afから入力される音声を強調するように、マイクロホン部111の指向角を制御すればよいと考えられる。
Here, in order to emphasize and input the voice uttered by the person P, the microphone is emphasized so as to emphasize the voice input from the range Af occupied by the face Pf which is the sound source of the voice uttered by the person P in the imaging range Ac. It is considered that the directivity angle of the
ゆえにDVC100は、撮像部108における撮像範囲Acの画角(これを撮像画角とも呼ぶ)θのうち顔Pfが占める範囲Afの画角(以下、これを顔画角とも呼ぶ)αに応じて、マイクロホン部111の指向角を制御するようになされている。すなわち顔画角αは、顔Pfが占める範囲Afのみが撮像されるような画角を示す。
Therefore, the
尚DVC100は、水平方向における撮像画角θ及び顔画角αを用いるようになされている。音声に対する人間の耳の指向性は、水平方向の方がより影響を受けるためである。
Note that the
例えば図5(A)に示すように人物PがDVC100から遠い場合、顔画角αは人物PがDVC100に近い場合よりも小さい。ゆえにこの場合DVC100は、指向角制御処理において、マイクロホン部111の指向角を小さくする。つまりDVC100は、図5(C)に示すようにマイクロホン部111の指向性を狭くする。
For example, as shown in FIG. 5A, when the person P is far from the
一方図5(B)に示すように人物PがDVC100に近い場合、顔画角αは、人物PがDVC100から遠い場合よりも大きい。ゆえにこの場合DVC100は、指向角制御処理において、マイクロホン部111の指向角を大きくする。つまりDVC100は、図5(D)に示すように、マイクロホン部111の指向性を広くする。
On the other hand, as shown in FIG. 5B, when the person P is close to the
このようにDVC100は、指向角制御処理において、被写体となる人物PがDVC100から遠いほどマイクロホン部111の指向角を小さくし、人物PがDVC100から近いほどマイクロホン部111の指向角を大きくするようになされている。
In this way, in the directivity angle control process, the
以上が指向角制御処理の概要である。次に指向角制御処理の具体的な処理について説明する。制御部101は、動作モードを撮影モードに切り替えるよう指示されると、動作モードを撮影モードに切り替えると共に、指向角制御処理を開始する。
The above is the outline of the directivity control process. Next, specific processing of the directivity control process will be described. When instructed to switch the operation mode to the shooting mode, the
そして制御部101は、次のようにして顔画角αを算出する。
Then, the
まず制御部101は、撮像部108における撮像画角θを算出する。図6(A)に示すように、35mmフィルムのフレームサイズは、横方向の長さが36[mm]であり、縦方向の長さが24[mm]である。
First, the
そして図6(B)に示すように、水平方向における撮像画角θは、焦点距離f(35mmフィルム換算値)が高さであり、35mmフィルムにおけるフレームの横方向の長さ36[mm]が底辺である二等辺三角形の頂角と等しい。 As shown in FIG. 6B, the imaging field angle θ in the horizontal direction is such that the focal length f (35 mm film equivalent) is the height, and the horizontal length 36 [mm] of the 35 mm film is It is equal to the apex angle of the base isosceles triangle.
ゆえに制御部101は、撮像部108から現在の焦点距離fを取得し、撮像画角θを、焦点距離fを用いて式(1)及び式(2)より算出する。尚、式(2)は、式(1)を変形したものである。
Therefore, the
次に制御部101は、顔認識処理部110から取得した顔認識処理の結果に基づいて、図7(A)に示すように、スルー画像Tpにおける顔枠Fsの位置及び大きさを検出する。
Next, the
顔枠Fsが1つ検出された場合、制御部101は、スルー画像Tpの縦方向の中心線Oから顔枠Fsの右端までの長さsR1と、中心線Oから顔枠Fsの左端までの長さsL1とを比較する。そして制御部101は、これらのうち長い方を、顔画角αを算出するための長さ(これを算出用長さとも呼ぶ)sとして設定する。
When one face frame Fs is detected, the
例えば図7(A)に示す場合は、長さsR1の方が長さsL1よりも長いので、制御部101は、長さsR1を算出用長さsとして設定する。
For example, in the case shown in FIG. 7A, since the length sR1 is longer than the length sL1, the
このように算出用長さsを算出すると、制御部101は、スルー画像Tpの横方向の半分の長さwに対する算出用長さsの比nを、式(3)より算出する。
When the calculation length s is calculated in this manner, the
図7(B)に、顔が認識された人物PとDVC100とを真上から見下ろした様子を示す。このとき制御部101は、撮像範囲において顔枠Fsに対応する顔(つまり人物Pの顔Pf)が占める範囲の画角を顔画角αとして算出する。
FIG. 7B shows a state in which the person P whose face is recognized and the
図7(B)に示すように、撮像画角θの半分の角度(θ/2)の正接であるtan(θ/2)と、顔画角αの半分の角度(α/2)の正接である(tan(α/2)との比は、長さwと算出用長さsとの比nと一致する。ゆえに制御部101は、顔画角αを、比nと撮像画角θとを用いて式(4)より算出する。
As shown in FIG. 7B, tan (θ / 2), which is a half angle (θ / 2) of the imaging field angle θ, and a tangent of a half angle (α / 2) of the face field angle α. (Tan (α / 2)) is equal to the ratio n between the length w and the calculation length s. Therefore, the
このように制御部101は、スルー画像Tpにおいて、中心線Oを中心とする、顔枠Fsが占める範囲を含む最小の範囲(つまり中心線Oから左右に算出用長さsの範囲)を検出する。そして制御部101は、当該範囲と撮像画角θとに基づいて、撮像画角θにおける人物の顔が占める範囲の画角を顔画角αとして算出するようになされている。
In this way, the
一方、顔認識処理の結果より顔枠Fsが複数検出された場合、制御部101は、当該複数の顔枠Fsのうち中心線Oから一番遠い顔枠Fsの端までの長さを、算出用長さsとして設定する。
On the other hand, when a plurality of face frames Fs are detected from the result of the face recognition process, the
例えば図8に示すように、左から順に顔枠Fs1、顔枠Fs2、顔枠Fs3が検出されたとする。ここでは、中心線Oから顔枠Fs1の左端までの長さsL2の方が、中心線Oから顔枠Fs3の右端までの長さsR2よりも長く、顔枠Fs1が中心線Oから一番遠いので、制御部101は、長さsL2を算出用長さsとして設定する。
For example, as shown in FIG. 8, it is assumed that a face frame Fs1, a face frame Fs2, and a face frame Fs3 are detected in order from the left. Here, the length sL2 from the center line O to the left end of the face frame Fs1 is longer than the length sR2 from the center line O to the right end of the face frame Fs3, and the face frame Fs1 is farthest from the center line O. Therefore, the
そして制御部101は、顔枠Fsが1つ検出された場合と同様に、式(3)及び式(4)を用いて顔画角αを算出する。
And the
このように制御部101は、スルー画像Tpにおいて、中心線Oを中心とする、複数の顔枠Fsを全て含む最小の範囲(つまり、中心線Oから左右に算出用長さsの範囲)を検出する。そして制御部101は、当該範囲と撮像画角θとに基づいて、認識された複数の顔を全て含む最小の範囲の画角を顔画角αとして算出するようになされている。
In this way, the
このようにして顔画角αを算出すると、制御部101は、顔画角αを用いて適切指向角βを算出する。
When the face angle of view α is calculated in this way, the
ここで理想的には、図9(A)に示すグラフのように、適切指向角βは顔画角αと同じ値である方が望ましい。こうすることで、マイクロホン部111が、顔Pfが占める範囲Af(図5)から入力される音声のみを強調して入力できるからである。
Here, ideally, it is desirable that the appropriate directivity angle β is the same value as the face angle of view α, as in the graph shown in FIG. This is because the
しかし、指向角を小さいところまで制御しうるマイクロホン、つまり非常に鋭い指向性に制御可能なマイクロホンは製造が困難でありコストが高いので、使用できないことも多いと考えられる。 However, a microphone that can control the directivity angle to a small level, that is, a microphone that can be controlled to have a very sharp directivity is difficult to manufacture and expensive, so it is considered that the microphone cannot be used in many cases.
ゆえにこのDVC100において、顔画角αと適切指向角βとの関係は、図9(B)に示すグラフのようになっている。すなわち顔画角αが大きくなるほど適切指向角βが大きくなり、適切指向角βはマイクロホン部111における指向角の最小値βmin以上の値をとる。
Therefore, in this
また顔画角αは、撮像部108における撮像画角θの最大値αmax以下の値をとる。ゆえに適切指向角βは、例えば撮像画角θの最大値αmaxに適した指向角であるβmax以下の値をとる。
Further, the face angle of view α takes a value that is less than or equal to the maximum value αmax of the imaging angle of view θ in the
このように顔画角αと適切指向角βとが対応付けられるよう、制御部101は、顔画角αを用いて、例えば式(5)を用いて適切指向角βを算出するようになされている。尚、係数kは0以上であり、顔画角αがαmaxのとき適切指向角βがβmaxとなるような係数である。
In this way, the
因みに顔画角αから適切指向角βを算出する式としては、顔画角αが示す範囲から入力される音声を強調するような適切指向角βを算出する式であれば、式(5)に限らず、この他種々の式を用いるようにしてもよい。 Incidentally, the expression for calculating the appropriate directivity angle β from the face angle of view α is an expression for calculating the appropriate directivity angle β that emphasizes the voice input from the range indicated by the face angle of view α. Not limited to this, various other formulas may be used.
このようにして適切指向角βを算出すると、制御部101は、指向角可変部112を介して、マイクロホン部111の指向角を適切指向角βとなるように制御し、指向角制御処理を終了する。
When the appropriate directivity angle β is calculated in this way, the
以上のようにして制御部101は、顔認識処理により認識された顔が占める範囲の画角(顔画角α)に基づいて適切指向角βを算出し、適切指向角βとなるようにマイクロホン部111の指向角を制御するようになされている。
As described above, the
[1−4.指向角制御処理手順]
次に上述した指向角制御処理の動作処理手順(これを指向角制御処理手順とも呼ぶ)について、図10に示すフローチャートを用いて説明する。
[1-4. Directional angle control processing procedure]
Next, the operation processing procedure of the directivity angle control process described above (also referred to as a directivity angle control process procedure) will be described with reference to the flowchart shown in FIG.
因みにこの指向角制御処理手順RT1は、DVC100の制御部101が、フラッシュメモリ102に書き込まれているプログラムに従って実行する処理手順である。
Incidentally, this directivity angle control processing procedure RT1 is a processing procedure executed by the
制御部101は、タッチパネル104又は操作部105を介して、撮影モードへ切り替えるよう指示されると、動作モードを撮影モードに切り替えると共に指向角制御処理手順RT1を開始して、ステップSP1に移る。
When the
ステップSP1において制御部101は、撮像部108からスルー画像Tpを取得し、顔認識処理部110に送る。そして制御部101は、顔認識処理部110から送られてきた顔認識処理の結果に基づいて、スルー画像Tpから人物の顔が認識されたか否かを判別する。
In step SP <b> 1, the
このステップSP1において否定結果が得られると、このことは、DVC100において人物が撮影されていないことを意味する。このとき制御部101は、マイクロホン部111の指向角の制御を行わず(つまり現在の指向角を変化させず)、再度ステップSP1に戻り、スルー画像Tpから人物の顔が認識されるまで待ち受ける。
If a negative result is obtained in this step SP1, this means that no person is photographed in the
一方ステップSP1において肯定結果が得られると、このことは、DVC100において人物が撮影されていることを意味し、このとき制御部101は次のステップSP2に移る。
On the other hand, if a positive result is obtained in step SP1, this means that a person is photographed in the
ステップSP2において制御部101は、撮像部108から現在の焦点距離fを取得し、次のステップSP3に移る。
In step SP2, the
ステップSP3において制御部101は、焦点距離fを用いて撮像画角θを算出する。また制御部101は、顔認識処理の結果に基づいて、スルー画像Tpにおける顔枠Fsが占める範囲を検出する。そして制御部101は、撮像画角θとスルー画像Tpにおける顔枠Fsが占める範囲とに基づいて顔画角αを算出し、次のステップSP4に移る。
In step SP3, the
ステップSP4において制御部101は、顔画角αから適切指向角βを算出して、次のステップSP5に移る。
In step SP4, the
ステップSP5において制御部101は、指向角可変部112を介して、適切指向角βと現在のマイクロホン部111の指向角とが一致するか否かを判別する。
In step SP5, the
このステップSP5において否定結果が得られると、このとき制御部101は次のステップSP6に移る。
If a negative result is obtained in step SP5, the
ステップSP6において制御部101は、指向角可変部112を介して、マイクロホン部111の指向角を適切指向角βとなるように制御して、再度ステップSP5に戻る。
In step SP6, the
一方ステップSP5において適切指向角βと現在のマイクロホン部111の指向角とが一致することより肯定結果が得られると、このとき制御部101は次のステップSP7に移る。
On the other hand, if a positive result is obtained in step SP5 that the appropriate directivity angle β matches the current directivity angle of the
ステップSP7において制御部101は、タッチパネル104又は操作部105を介して指向角制御処理を終了するよう指示されたか否かを判別する。
In step SP7, the
このステップSP7において否定結果が得られると、制御部101は再度ステップSP1に戻り、ステップSP1〜SP7を繰り返す。
If a negative result is obtained in step SP7, the
一方ステップSP7において肯定結果が得られると、制御部101は、指向角制御処理手順RT1を終了する。
On the other hand, if a positive result is obtained in step SP7, the
このような指向角制御処理手順RT1により、DVC100は、適切指向角βを算出し、適切指向角βとなるようにマイクロホン部111の指向角を制御するようになされている。
By such a directivity angle control processing procedure RT1, the
[1−5.第1の実施の形態における動作及び効果]
以上の構成において、DVC100の顔認識処理部110は、DVC100の撮像部108で撮像された画像(スルー画像Tp)から、被写体となっている人物の顔を認識する処理(顔認識処理)を行う。そして顔認識処理部110は、顔認識処理の結果をDVC100の制御部101に送る。
[1-5. Operation and Effect in First Embodiment]
In the above configuration, the face
制御部101は、撮像部108から、画像が撮像された際の焦点距離fを取得し、撮像画角θを算出する。
The
また制御部101は、顔認識処理の結果に基づいて、スルー画像Tpにおいて、人物の顔と認識された部分を示す顔枠Fsが占める範囲を検出する。
Further, the
そして制御部101は、スルー画像Tpの中心線Oを中心とする、顔枠Fsが占める範囲を含む最小の範囲を検出し、当該範囲に基づいて撮像画角θにおける人物の顔が占める範囲の画角(顔画角α)を算出する。
Then, the
そして制御部101は、この顔画角αを用いて、この顔画角αが示す範囲から入力される音声を強調するような適切指向角βを算出する。そして制御部101は、指向角可変部112を介して、適切指向角βとなるようにマイクロホン部111の指向角を制御する。
Then, the
これによりDVC100は、撮像範囲のうち人物の顔が占める範囲から入力される音声を強調する指向性で音声を入力できるので、DVC100から見て人物の顔のどの部分から発せられたかによらず人物が発する声を強調して入力することができる。
Thus, the
ゆえに例えば人物がDVC100に対して正面を向けている場合、つまりDVC100から見て人物の顔のほぼ中心から声が発せられる場合でも、DVC100は、人物が発する声を強調して入力することができる。また人物がDVC100に対して横を向けている場合、つまりDVC100から見て人物の顔のおよそ右端又は左端から声が発せられる場合でも、DVC100は、人物が発する声を強調して入力することができる。
Therefore, for example, even when a person is facing the
また制御部101は、顔認識処理により複数の顔が認識された場合、スルー画像Tpの中心線Oを中心とする、当該複数の顔を示す複数の顔枠Fsが全て含まれる最小の範囲を検出する。
In addition, when a plurality of faces are recognized by the face recognition process, the
そして制御部101は、当該範囲と撮像画角θとに基づいて、認識された複数の顔が全て含まれる範囲の画角(顔画角α)を算出し、この顔画角αに基づいて、マイクロホン部111の指向性を制御するようにした。
Then, the
これによりDVC100は、撮像範囲のうち複数の人物の顔が占める範囲から入力される音声を強調する指向性で音声を入力できるので、一人のみならず、複数の人物が発する声を強調して入力することができる。
As a result, the
ところで、被写体となる人物が移動する場合、人物の移動に合わせてマイクロホン部111の指向主軸の方向を移動させることで、人物の発する声を強調して入力することが考えられる。
By the way, when the person who becomes the subject moves, it is conceivable that the voice of the person is emphasized and inputted by moving the direction of the directional main axis of the
しかしこのようにマイクロホン部111の指向主軸の方向を移動させると、それに伴ってマイクロホン部111に入力される音声の音像定位が移動してしまうので、当該音声が再生されたときにユーザに違和感を与えてしまうこととなる。
However, if the direction of the directional main axis of the
これに対して本発明のDVC100は、顔画角αが示す範囲、強調して入力するようにマイクロホン部111の指向角の大きさを制御するようにした。つまりDVC100は、人物の顔が占める範囲を含む、撮像主軸を中心とする範囲を強調して入力するようにマイクロホン部111の指向角の大きさを制御するようにした。
On the other hand, the
これによりDVC100は、撮像主軸を中心として、つまりマイクロホン部111の指向主軸を中心として、マイクロホン部111の指向角の大きさを変化させるだけで、人物の発する声を強調して入力できる。ゆえにDVC100は、マイクロホン部111の指向主軸を変化させなくても人物の発する声を強調して入力できるので、音像定位を移動させることなく、ユーザに違和感を与えないようにできる。
As a result, the
またDVC100は、顔画角αを、マイクロホン部111において制御されうる範囲内(つまり最小指向角βmin以上)の指向角と対応付ける式(5)を用いて、顔画角αから適切指向角βを算出するようにした。そしてDVC100は、このようにして算出した適切指向角βとなるようにマイクロホン部111の指向角を制御するようにした。
In addition, the
これによりDVC100は、マイクロホン部111において指向角が制御されうる範囲によらず、顔画角αに基づいてマイクロホン部111の指向角を制御することができる。つまりDVC100において、例えば鋭指向性に制御可能なマイクロホンでなくても、指向性を可変制御しうるマイクロホンであれば、種々のマイクロホンを用いることができる。
Thereby, the
以上の構成によれば、DVC100は、スルー画像における人物の顔を認識し、スルー画像における人物の顔が占める範囲に基づいて、マイクロホン部111の指向性を制御するようにした。
According to the above configuration, the
これによりDVC100は、撮像範囲のうち人物の顔が占める範囲から入力される音声を強調する指向性で音声を入力できるので、人物の顔のどの部分から発せられたかによらず人物が発する声を強調して入力することができる。かくしてDVC100は、一段と確実に人物が発する声を強調して入力することができる。
As a result, the
<2.第2の実施の形態>
[2−1.第2の実施の形態の概要]
次に第2の実施の形態について説明する。因みにこの概要を説明した後、本実施の形態の具体例の説明に移る。
<2. Second Embodiment>
[2-1. Outline of Second Embodiment]
Next, a second embodiment will be described. By the way, after explaining this outline, it moves to the explanation of a specific example of the present embodiment.
図1と対応する部分について同様の符号を付した図11において、10は、第2の実施の形態における撮像装置を示す。この撮像装置10は、上述した第1の実施の形態と同様の撮像部2、音声入力部3及び認識部4を有している。
In FIG. 11, in which parts corresponding to those in FIG. 1 are denoted by the same reference numerals, reference numeral 10 denotes an imaging apparatus according to the second embodiment. The imaging device 10 includes the
また撮像装置10は、認識部4により認識された被写体の中から、任意の被写体を選択する選択部11を有している。
In addition, the imaging apparatus 10 includes a
さらに撮像装置10は、撮像画像において、選択部11により選択された一又は複数の被写体が全て含まれる範囲を検出し、当該範囲に基づいて音声入力部3の指向性を制御する制御部12を有している。
Furthermore, the imaging device 10 detects a range including all of one or a plurality of subjects selected by the
このような構成でなる撮像装置10の具体例であるDVC200について、以下、詳しく説明する。尚DVC200のハードウェア構成については、第1の実施の形態におけるDVC100のハードウェア構成(図2)と同様であるので第1の実施の形態を参照とする。
The
尚第2の実施の形態において、DVC200の撮像部108が、上述した撮像装置10の撮像部2に相当するハードウェアである。またDVC200のマイクロホン部111及び指向角可変部112が、上述した撮像装置10の音声入力部3に相当するハードウェアである。さらにDVC200の顔認識処理部110が、上述した撮像装置10の認識部4に相当するハードウェアである。さらにDVC200の制御部101が、上述した撮像装置10の選択部11及び制御部12に相当するハードウェアである。
In the second embodiment, the
[2−2.指向角制御処理]
第2の実施の形態におけるDVC200の制御部101は、顔認識処理部110から顔認識処理の結果を取得すると、これに基づいて、スルー画像Tpにおける顔枠Fsの位置及び大きさを検出する。
[2-2. Directional angle control processing]
When the
顔枠Fsが1つ検出された場合、制御部101は、第1の実施の形態と同様に、顔枠Fsが含まれる範囲を検出し、この範囲を用いて、顔枠Fsが示す顔が占める範囲の画角を顔画角αとして算出する。
When one face frame Fs is detected, the
一方顔枠Fsが複数検出された場合、制御部101は、それぞれの顔枠Fsの面積を算出し、最も面積の大きい顔枠Fsがどれかを判別する。最も面積の大きい顔枠Fsは、DVC200に最も距離が近い顔を示している。つまり最も面積の大きい顔枠Fsが示す顔の人物は、DVC200に向かって声を発している可能性が高いと考えられる。
On the other hand, when a plurality of face frames Fs are detected, the
ゆえに制御部101は、最も面積の大きい顔枠Fsが示す顔の人物を、声を発している人物であると予測し、当該最も面積の大きい顔枠Fsを選択する。そして制御部101は、選択した顔枠Fsにおいて、中心線Oから右端までの長さ及び中心線Oから左端までの長さを算出し、これらのうち長い方を算出用長さsとして設定する。
Therefore, the
例えば図12に示すように、顔認識処理により、左から順に顔枠Fs4、顔枠Fs5、顔枠Fs6が検出されたとする。このとき制御部101は、顔枠Fs6の面積が一番大きいと判別したとすると、顔枠Fs6を選択する。ここでは中心線Oから顔枠Fs6の左端までの長さsL3よりも、中心線Oから顔枠Fs6の右端までの長さsR3の方が長いので、制御部101は、長さsR3を算出用長さsとして設定する。
For example, as shown in FIG. 12, it is assumed that a face frame Fs4, a face frame Fs5, and a face frame Fs6 are detected in order from the left by the face recognition process. At this time, if it is determined that the area of the face frame Fs6 is the largest, the
そして制御部101は、上述した第1の実施の形態と同様に、式(3)及び式(4)を用いて顔画角αを算出する。
And the
つまり制御部101は、スルー画像Tpにおいて一番面積の大きい顔枠Fsが占める範囲を検出する。そして制御部101は、中心線Oを中心とする、当該顔枠Fsが占める範囲を含む最小の範囲(つまり中心線Oから左右に算出用長さsの範囲)を検出し、この範囲を用いて当該顔枠Fsが示す顔が占める範囲の画角を顔画角αとして算出する。
That is, the
そして制御部101は、上述した第1の実施の形態と同様に、顔画角αを用いて式(5)により適切指向角βを算出し、指向角可変部112を介して、マイクロホン部111の指向角を適切指向角βとなるように制御する。
Then, as in the first embodiment described above, the
以上の構成によればDVC200は、複数の顔が認識された場合、複数の顔枠Fsの中から最も面積の大きい顔枠Fsが示す顔の人物を、DVC200に向かって声を発している人物であると予測し、当該最も面積の大きい顔枠Fsを選択する。
According to the above configuration, when a plurality of faces are recognized, the
そしてDVC200は、選択した顔枠Fsが含まれる範囲に基づいて、当該顔枠Fsが示す人物の顔が占める範囲の画角(顔画角α)を算出し、この顔画角αに基づいて、マイクロホン部111の指向性を制御するようにした。
The
これによりDVC200は、DVC200に最も距離が近い人物、つまりDVC200に向かって声を発している可能性が高い人物の顔が占める範囲から入力される音声を強調する指向性で音声を入力できる。ゆえにDVC200は、DVC200に向かって声を発している可能性が高い人物の声を強調して入力できるので、一段と確実に人物が発する声を強調して入力することができる。
As a result, the
<3.第3の実施の形態>
次に第3の実施の形態について説明する。第3の実施の形態における撮像装置20は、上述した第2の実施の形態における撮像装置10(図11)と機能構成については同様であるので、第2の実施の形態を参照とする。
<3. Third Embodiment>
Next, a third embodiment will be described. Since the imaging apparatus 20 in the third embodiment is similar in functional configuration to the imaging apparatus 10 (FIG. 11) in the second embodiment described above, reference is made to the second embodiment.
このような撮像装置20の具体例であるDVC300について、以下、詳しく説明する。尚DVC300のハードウェア構成については、第1の実施の形態におけるDVC100のハードウェア構成(図3)と同様であるので第1の実施の形態を参照とする。
The
[3−1.指向角制御処理]
第3の実施の形態におけるDVC300の顔認識処理部110は、顔認識処理において、第1の実施の形態と同様にスルー画像Tpから人物の顔を認識すると共に、人物の口を認識する。そして顔認識処理部110は、認識された顔において口が認識されたか否かも顔認識処理の結果として制御部101に返す。
[3-1. Directional angle control processing]
In the face recognition process, the face
ここで口が認識された顔の人物は、DVC300に向かって声を発している可能性が高いと考えられる。ゆえに制御部101は、顔認識処理部110から顔認識処理の結果を取得すると、口が認識された顔枠Fsが示す顔の人物を、声を発している人物であると予測し、当該口が認識された顔枠Fsを選択する。
Here, it is considered that the face person whose mouth is recognized has a high possibility of speaking toward the
例えば図13に示すように、顔認識処理により、左から順に顔枠Fs7、顔枠Fs8、顔枠Fs9が検出されたとする。尚、顔枠Fs7においては、例えば人物が横を向いているために口が認識されていないとし、顔枠Fs8及び顔枠Fs9においては、口が認識されているとする。このとき制御部101は、口が認識されている顔枠Fs8及び顔枠Fs9を選択する。
For example, as shown in FIG. 13, it is assumed that a face frame Fs7, a face frame Fs8, and a face frame Fs9 are detected in order from the left by the face recognition process. In the face frame Fs7, for example, it is assumed that the mouth is not recognized because a person is facing sideways, and the mouth is recognized in the face frames Fs8 and Fs9. At this time, the
そして制御部101は、選択した顔枠Fsの中で、中心線Oから一番遠い顔枠Fsの端までの長さを算出用長さsとして設定する。
Then, the
図13に示す場合では、中心線Oから顔枠Fs8の左端までの長さsL4よりも、中心線Oから顔枠Fs9の右端までの長さsR4の方が長いので、制御部101は、長さsR4を算出用長さsとして設定する。 In the case illustrated in FIG. 13, the length sR4 from the center line O to the right end of the face frame Fs9 is longer than the length sL4 from the center line O to the left end of the face frame Fs8. The length sR4 is set as the calculation length s.
そして制御部101は、上述した第1の実施の形態と同様に、式(3)及び式(4)を用いて顔画角αを算出する。
And the
つまり制御部101は、スルー画像Tpにおいて、中心線Oを中心とする、口が認識された顔枠Fsを全て含む最小の範囲(つまり中心線Oから左右に算出用長さsの範囲)を検出する。そして制御部101は、この範囲と撮像画角θとに基づいて、口が認識された顔を全て含む最小の範囲の画角を顔画角αとして算出する。
That is, in the through image Tp, the
そして制御部101は、上述した第1の実施の形態と同様に、顔画角αを用いて式(5)により適切指向角βを算出し、指向角可変部112を介して、マイクロホン部111の指向角を適切指向角βとなるように制御する。
Then, as in the first embodiment described above, the
以上の構成によればDVC300は、認識された顔枠Fsの中から口が認識された一又は複数の顔枠Fsが示す顔の人物を、DVC300に向かって声を発している人物であると予測し、当該顔枠Fsを選択する。
According to the above configuration, the
そしてDVC300は、選択した顔枠Fsが全て含まれる範囲に基づいて、当該顔枠Fsが示す人物の顔が全て含まれるような範囲の画角(顔画角α)を算出し、この顔画角αに基づいて、マイクロホン部111の指向性を制御するようにした。
Then, the
これによりDVC300は、DVC300に向かって口を向けている人物、つまりDVC300に向かって声を発している可能性が高い人物の顔が占める範囲から入力される音声を強調する指向性で音声を入力できる。ゆえにDVC300は、DVC300に向かって声を発している可能性が高い一又は複数の人物の声を強調して入力できるので、一段と確実に人物が発する声を強調して入力することができる。
As a result, the
<4.第4の実施の形態>
次に第4の実施の形態について説明する。第4の実施の形態における撮像装置40は、上述した第2の実施の形態における撮像装置10(図11)と機能構成については同様であるので、第2の実施の形態を参照とする。
<4. Fourth Embodiment>
Next, a fourth embodiment will be described. Since the imaging apparatus 40 in the fourth embodiment is similar in functional configuration to the imaging apparatus 10 (FIG. 11) in the second embodiment described above, reference is made to the second embodiment.
このような撮像装置40の具体例であるDVC400について、以下、詳しく説明する。尚DVC400のハードウェア構成についても、第1の実施の形態におけるDVC100のハードウェア構成(図3)と同様であるので第1の実施の形態を参照とする。
The
[4−1.指向角制御処理]
第4の実施の形態におけるDVC100の制御部101は、顔認識処理部110から顔認識処理の結果を取得すると、これに基づいて、スルー画像Tpにおける顔枠Fsの位置及び大きさを検出する。そして制御部101は、液晶パネル106に表示されているスルー画像Tp上に顔枠Fsを表示させる。
[4-1. Directional angle control processing]
When the
そして制御部101は、ユーザ操作によりタッチパネル104又は操作部105を介して、任意の顔枠Fsが指定されると、指定された顔枠Fsを選択する。
Then, when an arbitrary face frame Fs is designated by the user operation via the
例えば図14に示すように、顔認識処理により、左から順に顔枠Fs10、顔枠Fs11、顔枠Fs12が検出されたとする。このとき、ユーザ操作によりタッチパネル104又は操作部105を介して、例えば顔枠Fs11が指定された場合、制御部101は、顔枠Fs11を選択する。
For example, as shown in FIG. 14, it is assumed that a face frame Fs10, a face frame Fs11, and a face frame Fs12 are detected in order from the left by the face recognition process. At this time, for example, when the face frame Fs11 is designated by the user operation via the
そして制御部101は、選択した顔枠Fsにおいて、中心線Oから右端までの長さ及び中心線Oから左端までの長さを算出し、これらのうち長い方を算出用長さsとして設定する。
Then, the
図14に示す場合では、中心線Oから顔枠Fs11の左端までの長さsL5の方が中心線Oから顔枠Fs11の右端までの長さsR5よりも長いので、制御部101は、長さsL5を算出用長さsとして設定する。 In the case illustrated in FIG. 14, the length sL5 from the center line O to the left end of the face frame Fs11 is longer than the length sR5 from the center line O to the right end of the face frame Fs11. sL5 is set as the calculation length s.
そして制御部101は、上述した第1の実施の形態と同様に、式(3)及び式(4)を用いて顔画角αを算出する。
And the
つまり制御部101は、スルー画像Tpにおいて、中心線Oを中心とする、ユーザ入力に基づいて選択した顔枠Fsが占める範囲を含む最小の範囲(つまり中心線Oから左右に算出用長さsの範囲)を検出する。そして制御部101は、この範囲を用いて選択した顔枠Fsに対応する顔が占める範囲の画角を顔画角αとして算出する。
That is, in the through image Tp, the
そして制御部101は、上述した第1の実施の形態と同様に、顔画角αを用いて式(5)により適切指向角βを算出し、指向角可変部112を介して、マイクロホン部111の指向角を適切指向角βとなるように制御する。
Then, as in the first embodiment described above, the
また制御部101は、図14(B)に示すように、選択している顔枠Fs11を強調して(例えば二重線などで)表示させる。これと共に制御部101は、指向角制御処理を行っていることを示す指向角制御アイコンIcをスルー画像Tp上に表示させる。
Further, as shown in FIG. 14B, the
またこれと共に制御部101は、中心線Oから左右に算出用長さsの範囲、つまりマイクロホン部111に声が強調して入力される範囲を示すマイクロホンバーBmをスルー画像Tp上に表示させる。マイクロホンバーBmは、塗りつぶされた範囲がマイクロホン部111に声が強調して入力される範囲を示すようになされている。
At the same time, the
これによりDVC400は、現在どの範囲がマイクロホン部111に声が強調して入力されるかをユーザに通知することができるようになされている。
As a result, the
以上の構成によればDVC400は、認識された顔枠Fsの中から、タッチパネル104又は操作部105を介したユーザ操作に基づいて顔枠Fsを選択する。そしてDVC400は、選択した顔枠Fsが含まれる範囲に基づいて、当該顔枠Fsが示す人物の顔が占める範囲の画角(顔画角α)を算出する。そしてDVC400は、この顔画角αに基づいてマイクロホン部111の指向性を制御するようにした。
According to the above configuration, the
これによりDVC400は、ユーザ操作に基づいて選択した人物の顔が占める範囲から入力される声を強調する指向性で声を入力できるので、ユーザの所望する人物が発する声を強調して入力することができる。
As a result, the
<5.他の実施の形態>
[5−1.他の実施の形態1]
尚上述した第1の実施の形態では、制御部101は、顔認識処理により認識された人物の顔が占める範囲の画角(顔画角α)を算出し、これに基づいてマイクロホン部111の指向性を制御するようにした。
<5. Other embodiments>
[5-1. Other Embodiment 1]
In the first embodiment described above, the
これに限らず制御部101は、顔認識処理により人物の口が認識された場合、人物の口が占める範囲の画角を算出し、これに基づいてマイクロホン部111の指向性を制御するようにしてもよい。
Not limited to this, when the person's mouth is recognized by the face recognition process, the
この場合、制御部101は、顔認識処理の結果から、図15に示すように口と認識された部分を示す矩形の枠(これを口枠とも呼ぶ)Msの位置及び大きさを検出する。
In this case, the
そして制御部101は、口枠Msにおいて、中心線Oから右端までの長さsR6及び中心線Oから左端sL6までの長さを算出し、これらのうち長い方(図15ではsL6)を算出用長さsとして設定する。つまり制御部101は、スルー画像Tpの中心線Oを中心とする、口枠Msが占める範囲を含む最小の範囲を検出する。
Then, the
そして制御部101は、上述した第1の実施の形態と同様の方法で、顔画角αの代わりに、撮像画角θにおける口が占める範囲の画角を算出し、これを用いて適切指向角βを算出する。そして制御部101は、指向角可変部112を介して、適切指向角βとなるようにマイクロホン部111の指向角を制御する。
Then, the
これによりDVC100は、撮像範囲において、人物の発する声の音源である口が占める範囲から入力される音声を強調する指向性で音声を入力できるので、一段と確実に人物の発する声を強調して入力することができる。
As a result, the
またこれに限らず制御部101は、音声を発する被写体であれば、例えば動物など、この他種々の被写体が占める範囲の画角に基づいて、マイクロホン部111の指向性を制御するようにしてもよい。
In addition, the
[5−2.他の実施の形態2]
また上述した第2の実施の形態では、制御部101は、最も面積の大きい顔枠Fsが示す顔の人物を、声を発している人物であると予測し、この人物の顔が占める範囲の画角に基づいてマイクロホン部111の指向性を制御するようにした。
[5-2. Other Embodiment 2]
In the second embodiment described above, the
これに限らず制御部101は、この他種々の方法で声を発している被写体を予測し、声を発していると予測された被写体が占める範囲の画角に基づいてマイクロホン部111の指向性を制御してもよい。
The
例えば制御部101は、最も横幅の広い顔枠Fsが示す顔の人物を、声を発している人物であると予測し、この人物の顔が占める範囲の画角に基づいてマイクロホン部111の指向性を制御してもよい。
For example, the
この場合制御部101は、顔認識処理の結果に基づいて、検出された顔枠Fsの横幅をそれぞれ算出し、最も横幅の広い顔枠Fsがどれかを判別する。最も横幅の広い顔枠Fsは、DVC200に距離が近く且つDVC200に正面を向けていると考えられる。つまり最も横幅の広い顔枠Fsが示す顔の人物は、DVC200に向かって声を発している可能性が高いと考えられる。
In this case, the
例えば図16(A)に示すように、顔認識処理により、左から順に顔枠Fs13、顔枠Fs14、顔枠Fs15が検出されたとする。このとき顔枠Fs13が示す顔の人物はDVC200から遠いために、図16(B)に示すように、顔枠Fs13の横幅L13は最も狭いとする。
For example, as shown in FIG. 16A, it is assumed that a face frame Fs13, a face frame Fs14, and a face frame Fs15 are detected in order from the left by the face recognition process. At this time, since the face person indicated by the face frame Fs13 is far from the
また顔枠Fs14が示す顔の人物は、最もDVC200に近いため顔枠Fs14の面積は最も大きいが、DVC200に対して斜めを向いているため、その横幅L14は、顔枠Fs15の横幅L15よりも狭いとする。
Since the face person indicated by the face frame Fs14 is closest to the
また顔枠Fs15が示す顔の人物は、顔枠Fs14よりも面積は小さいが、DVC200に対して正面を向いているため、その横幅L15は最も広いとする。
Further, the face person indicated by the face frame Fs15 has a smaller area than the face frame Fs14, but faces the front with respect to the
このとき制御部101は、最も横幅の広い顔枠Fs15が示す顔の人物を、声を発している人物であると予測し、顔枠Fs15を選択する。そして制御部101は、選択した顔枠Fs15において、中心線Oから右端までの長さsR7及び中心線Oから左端までの長さsL7を算出し、これらのうち長い方(図16の場合はsL7)を算出用長さsとして設定する。つまり制御部101は、スルー画像Tpの中心線Oを中心とする、選択した顔枠Fs15が占める範囲を含む最小の範囲を検出する。
At this time, the
そして制御部101は、上述した第1の実施の形態と同様に、顔画角α及び適切指向角βを算出し、指向角可変部112を介して、マイクロホン部111の指向角を適切指向角βとなるように制御する。
Then, as in the first embodiment described above, the
こうすることでDVC200は、DVC200に向かって声を発している可能性が高い人物の顔が占める範囲から入力される音声を強調する指向性で音声を入力できる。ゆえにDVC200は、声を発している可能性が高い人物が発する声を強調して入力できるので、一段と確実に人物が発する声を強調して入力することができる。
By doing so, the
またこれに限らず制御部101は、例えば口が開いていると認識された顔の人物を、声を発している人物であると予測し、この人物の顔が占める範囲の画角に基づいてマイクロホン部111の指向性を制御するようにしてもよい。
For example, the
この場合、顔認識処理部110は、顔認識処理においてスルー画像から人物の顔を認識すると共に人物の口が開いているか否かを認識し、顔認識処理の結果として制御部101に返す。
In this case, the face
例えば図17に示すように、顔認識処理により、左から順に顔枠Fs16、顔枠Fs17、顔枠Fs18が検出されたとする。尚、顔枠Fs16及びFs18においては、例えば人物が口を閉じているために口が開いていないと認識され、顔枠Fs17においては、口が開いていると認識されたとする。 For example, as shown in FIG. 17, it is assumed that a face frame Fs16, a face frame Fs17, and a face frame Fs18 are detected in order from the left by the face recognition process. In the face frames Fs16 and Fs18, for example, it is recognized that the mouth is not open because a person closes his mouth, and in the face frame Fs17, it is recognized that the mouth is open.
ここで口が開いていると認識された顔の人物は、DVC300に向かって声を発している可能性が一段と高いと考えられる。ゆえに制御部101は、顔認識処理部110から顔認識処理の結果を取得すると、口が開いていると認識された顔枠Fs17が示す顔の人物を、声を発している人物であると予測し、当該顔枠Fs17を選択する。
Here, it is considered that the person whose face is recognized as having an open mouth is more likely to be speaking toward the
そして制御部101は、選択した顔枠Fs17において、中心線Oから右端までの長さsR8及び中心線Oから左端sL8までの長さを算出し、これらのうち長い方(図17ではsL8)を算出用長さsとして設定する。つまり制御部101は、スルー画像Tpの中心線Oを中心とする、選択した顔枠Fs17が占める範囲を含む最小の範囲を検出する。
Then, the
そして制御部101は、上述した第1の実施の形態と同様に、顔画角α及び適切指向角βを算出し、指向角可変部112を介して、マイクロホン部111の指向角を適切指向角βとなるように制御する。
Then, as in the first embodiment described above, the
これによりDVC300は、口を開けている人物、つまり声を発している可能性が一段と高い人物の顔が占める範囲から入力される音声を強調する指向性で音声を入力できる。ゆえにDVC300は、声を発している可能性が一段と高い人物の発する声を強調して入力できるので、一段と確実に人物が発する声を強調して入力することができる。
As a result, the
またこれに限らず制御部101は、顔認識処理によって認識された顔の中から、主被写体(例えば構図のバランスが最もよい被写体など)を認識し、主被写体として認識された顔の人物を、声を発している人物であると予測するようにしてもよい。そして制御部101は、声を発していると予測された人物を選択し、選択した人物の顔が占める範囲の画角に基づいてマイクロホン部111の指向性を制御するようにしてもよい。
In addition, the
[5−3.他の実施の形態3]
さらに上述した第4の実施の形態では、制御部101は、ユーザ入力により指定された顔枠Fsを選択し、選択した顔枠Fsが示す顔が占める範囲の画角に基づいてマイクロホン部111の指向性を制御するようにした。
[5-3. Other Embodiment 3]
Furthermore, in the fourth embodiment described above, the
これに限らず制御部101は、認識された顔枠Fsの中からこの他種々の方法で顔枠Fsを選択し、選択した顔枠Fsが示す顔が占める範囲の画角に基づいてマイクロホン部111の指向性を制御してもよい。
Not limited to this, the
例えばDVC400は、予め各個人に優先度が設定されている場合、この優先度に基づいて顔枠Fsを選択するようにしてもよい。
For example, when a priority is set for each individual in advance, the
この場合、顔認識処理部110は、顔認識処理により検出された顔枠Fsがどの個人であるかを、予めフラッシュメモリ102等に記録されている各個人の顔の特徴量に基づいて認識する個人認識処理を行い、その結果を制御部101に送る。
In this case, the face
制御部101は、予めフラッシュメモリ102等に記録されている各個人の優先度に基づいて、認識された個人の優先度を判別し、最も優先度の高い個人の顔を示す顔枠Fsを選択する。
The
例えば図18(A)に示すように、顔認識処理により、左から順に顔枠Fs19、顔枠Fs20、顔枠Fs21が検出されたとする。またここでは、図18(B)に示すように、顔枠Fs19が示す顔の個人は優先度が1であるとし、顔枠Fs20が示す顔の個人は優先度が3であるとし、顔枠Fs21が示す顔の個人は優先度が2であるとする。 For example, as shown in FIG. 18A, it is assumed that the face frame Fs19, the face frame Fs20, and the face frame Fs21 are detected in order from the left by the face recognition process. Further, here, as shown in FIG. 18B, it is assumed that the individual of the face indicated by the face frame Fs19 has a priority of 1, the individual of the face indicated by the face frame Fs20 has a priority of 3, and the face frame The individual of the face indicated by Fs21 has a priority of 2.
このとき制御部101は、最も優先度の高い個人の顔を示す顔枠Fs20を選択して、中心線Oから右端までの長さsR9及び中心線Oから左端sL9までの長さを算出し、これらのうち長い方(図18ではsL9)を算出用長さsとして設定する。つまり制御部101は、スルー画像Tpの中心線Oを中心とする、選択した顔枠Fs20が占める範囲を含む最小の範囲を検出する。
At this time, the
そして制御部101は、上述した第1の実施の形態と同様に、顔画角α及び適切指向角βを算出し、指向角可変部112を介して、マイクロホン部111の指向角を適切指向角βとなるように制御する。
Then, as in the first embodiment described above, the
これによりDVC400は、予め設定された優先度が最も高い人物の顔が占める範囲から入力される音声を強調する指向性で音声を入力できるので、当該優先度が最も高い人物の発する声を強調して入力できる。
As a result, the
また例えば制御部101は、子供の優先度を大人の優先度よりも高く設定しておき、この優先度に基づいて顔枠Fsを選択するようにしてもよい。
For example, the
この場合、顔認識処理部110は、顔認識処理により検出された顔枠Fsが示す人物の年齢を判別する年齢判別処理を行い、その結果を制御部101に送る。
In this case, the face
制御部101は、判別した年齢に基づいて、認識された顔の優先度を判別し、最も優先度の高い人物(例えば子供)の顔を示す顔枠Fsを選択する。
The
またこれに限らず制御部101は、認識された顔枠Fsの各々に対してこの他種々の方法で設定された優先度に基づいて顔枠Fsを選択し、選択した顔枠Fsが示す顔が占める範囲の画角に基づいてマイクロホン部111の指向性を制御してもよい。
In addition, the
[5−4.他の実施の形態4]
さらに上述した第1の実施の形態では、制御部101は、スルー画像Tpから人物の顔が認識されなかった場合、マイクロホン部111の指向角の制御を行わないようにした。
[5-4. Other Embodiment 4]
Furthermore, in the first embodiment described above, the
これに限らず制御部101は、スルー画像Tpから人物の顔が認識されなかった場合、マイクロホン部111を無指向性にするようにしてもよい。
Not limited to this, the
これによりDVC100は、撮影時の状況に適した指向性で音声を入力することができる。スルー画像Tpから人物の顔が認識されなかった場合は、風景などを撮影していることが多く、様々な方向から音声が入力されると考えられるからである。
As a result, the
またこれに限らず、マイクロホン部111がサラウンドマイクロホンとしての機能を有するのであれば、制御部101は、スルー画像Tpから人物の顔が認識されなかった場合、マイクロホン部111をサラウンドマイクロホンとして機能させるようにしてもよい。
Not limited to this, if the
[5−5.他の実施の形態5]
さらに上述した第4の実施の形態では、制御部101は、ユーザ操作により指定された顔枠Fsを選択し、選択した顔枠Fsが示す顔の人物が発する声を強調するように、マイクロホン部111の指向性を制御するようにした。
[5-5. Other Embodiment 5]
Further, in the fourth embodiment described above, the
これに限らず、制御部101は、ユーザ操作により指定された顔枠Fsが示す顔の人物が発する声を強調しないように、マイクロホン部111の指向性を制御するようにしてもよい。
Not limited to this, the
具体的に、例えば図14(A)に示すように、顔枠Fs10、顔枠Fs11、顔枠Fs12が検出されたとする。このとき制御部101は、ユーザ操作により顔枠F10が指定されたと認識すると、顔枠Fs10よりも中心線Oに近い顔枠Fs(つまり顔枠Fs11及び顔枠Fs12)のみが含まれる範囲を検出する。そして制御部101は、この範囲を用いて、顔枠Fs11及び顔枠Fs12が示す顔の人物のみが含まれる範囲の画角を算出し、これに基づいてマイクロホン部111の指向角を制御する。
Specifically, for example, as shown in FIG. 14A, it is assumed that a face frame Fs10, a face frame Fs11, and a face frame Fs12 are detected. At this time, when the
これによりDVC400は、ユーザ操作により指定された顔枠Fs10が示す顔の人物が発する声は強調して入力されないようにできる。またこれと共にDVC100は、顔枠Fs10よりも中心線O寄りの顔枠Fs11及び顔枠Fs12が示す顔の人物が発する声が強調して入力されるようにすることができる。
As a result, the
[5−6.他の実施の形態6]
さらに上述した第1の実施の形態では、制御部101は、撮影モードに切り替わると共に指向角制御処理を開始するようにした。そして制御部101は、タッチパネル104又は操作部105を介して指向角制御処理を終了するよう指示されない限り、指向角制御処理を継続して実行するようにした。
[5-6. Other Embodiment 6]
Furthermore, in the first embodiment described above, the
これに限らず、制御部101は、この他種々のタイミングで指向角制御処理を開始したり終了したりするようにしてもよい。
However, the present invention is not limited to this, and the
例えば制御部101は、DVC100が通常撮影される向きから90度回転された向きで撮影されているとき(つまり縦撮りされているとき)は、指向角制御処理を実行しないようにしてもよい。この場合DVC100には、DVC100が90度回転されたことを認識できるセンサ(例えばジャイロセンサなど)が設けられているとする。
For example, the
[5−7.他の実施の形態7]
さらに上述した第4の実施の形態では、制御部101は、ユーザ操作によりスルー画像Tp上の顔枠Fsを指定させることで、マイクロホン部111に声が強調して入力される範囲を決定するようにした。
[5-7. Other Embodiment 7]
Furthermore, in the fourth embodiment described above, the
これに限らず制御部101は、この他種々のユーザ操作により、マイクロホン部111に声が強調して入力される範囲を決定するようにしてもよい。
However, the present invention is not limited to this, and the
例えば制御部101は、マイクロホンバーBm(図13(B))に対するタッチ操作によりマイクロホン部111に声が強調して入力される範囲を決定するようにしてもよい。
For example, the
この場合制御部101は、マイクロホンバーBmがタッチ操作されるごとにマイクロホンバーBmの範囲を切り替える。図13(A)に示す場合を考えると、例えば顔枠Fs11のみが含まれる範囲、顔枠Fs11及び顔枠Fs12が含まれる範囲、全ての顔枠Fsが含まれる範囲といった順に切り替える。
In this case, the
そして制御部101は、マイクロホンバーBmが示す範囲をマイクロホン部111に声が強調して入力される範囲として決定し、この範囲の画角に基づいて、マイクロホン部111の指向性を制御する。
Then, the
[5−8.他の実施の形態8]
さらに上述した第1の実施の形態では、制御部101は、認識された人物の顔が占める範囲の画角(顔画角α)を用いて式(5)により適切指向角βを算出して、適切指向角βとなるようマイクロホン部111の指向角を制御するようにした。
[5-8. Other Embodiment 8]
Furthermore, in the first embodiment described above, the
これに限らず制御部101は、顔画角αをマイクロホン部111において制御されうる範囲内の指向角と対応付け、対応付けた指向角となるようにマイクロホン部111の指向角を制御するのであれば、この他種々の方法でマイクロホン部111の指向性を制御するようにしてもよい。
Not limited to this, the
例えば制御部101は、顔画角αの値と、当該値に対応する適切指向角βとを、予め対応付けてフラッシュメモリ102等に記録しておくようにしてもよい。この場合、例えば顔画角αがx度以上y度以下の場合に、適切指向角βをz度とするといったように、顔画角αの範囲と適切指向角βとを対応付けておくようにしてもよい。
For example, the
[5−9.他の実施の形態9]
さらに上述した第1の実施の形態では、DVC100に指向角が連続的に可変であるマイクロホン部111及び指向角可変部112を設けるようにした。これに限らず、DVC100では、指向性が可変なマイクロホンであれば、この他種々のマイクロホンを用いるようにしてもよい。
[5-9. Other Embodiment 9]
Furthermore, in the above-described first embodiment, the
[5−10.他の実施の形態10]
さらに上述した第1の実施の形態では、制御部101は、スルー画像Tpにおいて人物の顔が占める範囲と撮像画角θとに基づいて、人物の顔が占める範囲の画角(顔画角α)を算出し、この顔画角αに基づいてマイクロホン部111の指向性を制御するようにした。
[5-10. Other Embodiment 10]
Furthermore, in the first embodiment described above, the
これに限らず制御部101は、スルー画像Tpにおいて被写体の占める範囲に基づいてマイクロホン部111の指向性を制御するのであれば、この他種々の方法を用いるようにしてもよい。例えば制御部101は、スルー画像Tpにおいて人物の顔が占める範囲が広くなるのに応じてマイクロホン部111の指向性を広くし、当該範囲が狭くなるのに応じてマイクロホン部111の指向性を狭くするようにしてもよい。
Not limited to this, the
[5−11.他の実施の形態11]
さらに上述した第1の実施の形態では、撮像装置1としてのDVC100に、撮像部2としての撮像部108と、音声入力部3としてのマイクロホン部111及び指向角可変部112と、認識部4としての顔認識処理部110とを設けるようにした。また撮像装置1としてのDVC100に、制御部5としての制御部101を設けるようにした。
[5-11. Other Embodiment 11]
Further, in the first embodiment described above, the
さらに上述した第2の実施の形態では、撮像装置10としてのDVC200に、撮像部2としての撮像部108と、音声入力部3としてのマイクロホン部111及び指向角可変部112と、認識部4としての顔認識処理部110とを設けるようにした。また撮像装置10としてのDVC200に、選択部11及び制御部12としての制御部101を設けるようにした。
Further, in the second embodiment described above, the
本発明はこれに限らず、同様の機能を有するのであれば、上述したDVC100又はDVC200の各機能部を、他の種々のハードウェアもしくはソフトウェアにより構成するようにしてもよい。
The present invention is not limited to this, and each functional unit of the
さらに上述した第1の実施の形態では、DVC100に本発明を適用するようにした。これに限らず、指向性を可変なマイクロホンを有する撮像装置であれば、例えばカメラを有するパーソナルコンピュータや携帯型電話機など、この他種々の撮像装置に適用するようにしてもよく、また適用することができる。
Furthermore, in the first embodiment described above, the present invention is applied to the
[5−12.他の実施の形態12]
さらに上述した実施の形態では、指向角制御処理手順RT1を実行するためのプログラムを、DVC100のフラッシュメモリ102に書き込んでおくようにした。
[5-12. Other Embodiment 12]
Furthermore, in the above-described embodiment, a program for executing the directivity angle control processing procedure RT1 is written in the
これに限らず、このプログラムを例えば記録媒体114に記録しておき、DVC100の制御部101が、このプログラムを記録媒体114から読み出して実行するようにしてもよい。また記録媒体114から読み出したプログラムを、フラッシュメモリ102にインストールするようにしてもよい。
For example, the program may be recorded on the
[5−13.他の実施の形態13]
さらに本発明は、上述した第1乃至第4の実施の形態と他の実施の形態とに限定されるものではない。すなわち本発明は、上述した第1乃至第4の実施の形態と他の実施の形態の一部または全部を任意に組み合わせた形態、もしくは一部を抽出した形態にもその適用領域が及ぶものである。
[5-13. Other Embodiment 13]
Furthermore, the present invention is not limited to the above-described first to fourth embodiments and other embodiments. That is, the present invention extends to the form in which some or all of the above-described first to fourth embodiments and other embodiments are arbitrarily combined or a part is extracted. is there.
例えば上述した第3の実施の形態と他の実施の形態4とを組み合わせるようにしてもよい。この場合制御部101は、顔認識処理の結果、口が認識されなかった場合に、マイクロホン部111を無指向性に制御する。
For example, the third embodiment described above and the
本発明は、例えばデジタルビデオカメラなど、マイクロホンを有する撮像装置で広く利用することができる。 The present invention can be widely used in an imaging apparatus having a microphone such as a digital video camera.
1、10、20、30……撮像装置。2、108……撮像部、3……音声入力部、4……認識部、5、12、101……制御部、11……選択部、100、200、300、400……DVC、110……顔認識処理部、111……マイクロホン部、112……指向角可変部、θ……撮像画角、α……顔画角、β……適切指向角。 1, 10, 20, 30... 2, 108 ... Imaging unit, 3 ... Voice input unit, 4 ... Recognition unit, 5, 12, 101 ... Control unit, 11 ... Selection unit, 100, 200, 300, 400 ... DVC, 110 ... ... face recognition processing unit, 111 ... microphone part, 112 ... directivity angle variable part, θ ... imaging field angle, α ... face field angle, β ... appropriate directivity angle.
Claims (12)
音声を入力する音声入力部と、
上記撮像画像における被写体を認識する認識部と、
上記撮像画像における上記被写体の占める範囲に基づいて、上記音声入力部の指向性を制御する制御部と
を具える撮像装置。 An imaging unit for acquiring a captured image;
A voice input unit for inputting voice;
A recognition unit for recognizing a subject in the captured image;
An imaging apparatus comprising: a control unit that controls directivity of the audio input unit based on a range occupied by the subject in the captured image.
を具え、
上記制御部は、
上記撮像画像において、上記選択部により選択された一又は複数の被写体が全て含まれる範囲を検出し、当該範囲に基づいて上記音声入力部の指向性を制御する
請求項1に記載の撮像装置。 A selection unit for selecting an arbitrary subject from the subjects recognized by the recognition unit;
The control unit
The imaging apparatus according to claim 1, wherein in the captured image, a range including all of one or a plurality of subjects selected by the selection unit is detected, and directivity of the audio input unit is controlled based on the range.
上記認識部により認識された被写体の中から上記撮像装置に向かって音声を発している被写体を予測し、上記撮像装置に向かって音声を発していると予測された被写体を選択する
請求項2に記載の撮像装置。 The selection part
The subject predicted to emit sound toward the imaging device is selected from the subjects recognized by the recognition unit, and the subject predicted to emit sound toward the imaging device is selected. The imaging device described.
上記被写体として顔を認識すると共に、当該顔における口を認識し、
上記選択部は、
上記認識部により口が認識された被写体を、上記撮像装置に向かって音声を発している被写体であると予測して、当該被写体を選択する
請求項3に記載の撮像装置。 The recognition unit
Recognize the face as the subject, recognize the mouth in the face,
The selection part
The imaging device according to claim 3, wherein the subject whose mouth is recognized by the recognition unit is predicted to be a subject that emits sound toward the imaging device, and the subject is selected.
上記撮像画像における上記被写体の占める範囲が最も大きい被写体を、上記撮像装置に向かって音声を発している被写体であると予測して、当該被写体を選択する
請求項3に記載の撮像装置。 The selection part
The imaging device according to claim 3, wherein the subject in the captured image that has the largest area occupied by the subject is predicted to be a subject that is producing sound toward the imaging device, and the subject is selected.
上記認識部により認識された被写体の中から、当該被写体の各々に対して予め設定された優先度に基づいて、被写体を選択する
請求項2に記載の撮像装置。 The selection part
The imaging device according to claim 2, wherein a subject is selected from subjects recognized by the recognition unit based on a priority set in advance for each of the subjects.
上記撮像画像における被写体として人物の顔を認識し、
上記制御部は、
上記撮像画像における上記顔の占める範囲に基づいて、上記音声入力部の指向性を制御する
請求項1に記載の撮像装置。 The recognition unit
Recognizing a human face as a subject in the captured image,
The control unit
The imaging device according to claim 1, wherein directivity of the voice input unit is controlled based on a range occupied by the face in the captured image.
上記撮像画像における被写体として人物の口を認識し、
上記制御部は、
上記撮像画像における上記口の占める範囲に基づいて、上記音声入力部の指向性を制御する
請求項1に記載の撮像装置。 The recognition unit
Recognizing a person's mouth as a subject in the captured image,
The control unit
The imaging device according to claim 1, wherein directivity of the voice input unit is controlled based on a range occupied by the mouth in the captured image.
上記撮像画像を取得した際の上記撮像部の画角と上記撮像画像における上記被写体の占める範囲とに基づいて、上記撮像部の画角における上記被写体の占める範囲の画角である被写体画角を算出し、当該被写体画角に基づいて上記音声入力部の指向性を制御する
請求項1に記載の撮像装置。 The control unit
Based on the angle of view of the imaging unit when the captured image is acquired and the range occupied by the subject in the captured image, the subject angle of view that is the angle of view of the range occupied by the subject in the angle of view of the imaging unit is determined. The imaging apparatus according to claim 1, wherein the imaging device calculates and controls the directivity of the audio input unit based on the subject field angle.
上記被写体画角を上記音声入力部において制御しうる範囲内の指向角と対応付け、対応付けた指向角となるように上記音声入力部の指向角を制御する
請求項9に記載の撮像装置。 The control unit
The imaging apparatus according to claim 9, wherein the subject angle of view is associated with a directivity angle within a range that can be controlled by the audio input unit, and the directivity angle of the audio input unit is controlled to be the associated directivity angle.
撮像装置が、上記撮像画像における被写体を認識し、
撮像装置が、上記撮像画像における上記被写体の占める範囲に基づいて、撮像装置の音声入力部の指向性を制御する
指向性制御方法。 The imaging device acquires the captured image,
The imaging device recognizes the subject in the captured image,
A directivity control method in which the imaging device controls the directivity of the audio input unit of the imaging device based on a range occupied by the subject in the captured image.
撮像画像を取得する取得ステップと、
上記撮像画像における被写体を認識する認識ステップと、
上記撮像画像における上記被写体の占める範囲に基づいて、撮像装置の音声入力部の指向性を制御する制御ステップと
を実行させるための指向性制御プログラム。 In the imaging device,
An acquisition step of acquiring a captured image;
A recognition step for recognizing a subject in the captured image;
A directivity control program for executing a control step for controlling directivity of a sound input unit of an imaging device based on a range occupied by the subject in the captured image.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009208483A JP2011061461A (en) | 2009-09-09 | 2009-09-09 | Imaging apparatus, directivity control method, and program therefor |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009208483A JP2011061461A (en) | 2009-09-09 | 2009-09-09 | Imaging apparatus, directivity control method, and program therefor |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2011061461A true JP2011061461A (en) | 2011-03-24 |
Family
ID=43948599
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009208483A Pending JP2011061461A (en) | 2009-09-09 | 2009-09-09 | Imaging apparatus, directivity control method, and program therefor |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2011061461A (en) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015513704A (en) * | 2012-03-16 | 2015-05-14 | ニュアンス コミュニケーションズ, インコーポレイテッド | User-specific automatic speech recognition |
JP2015198413A (en) * | 2014-04-03 | 2015-11-09 | 日本電信電話株式会社 | Sound collection system and sound emitting system |
JP2015535952A (en) * | 2012-09-29 | 2015-12-17 | シェンジェン ピーアールテック カンパニー リミテッド | Voice control system and method for multimedia device and computer storage medium |
JP2016178652A (en) * | 2013-07-09 | 2016-10-06 | ノキア テクノロジーズ オーユー | Audio processing apparatus |
JP2018121134A (en) * | 2017-01-23 | 2018-08-02 | 京セラドキュメントソリューションズ株式会社 | Image forming apparatus |
WO2020090322A1 (en) * | 2018-11-01 | 2020-05-07 | ソニー株式会社 | Information processing apparatus, control method for same and program |
CN113984105A (en) * | 2020-07-27 | 2022-01-28 | 丰田自动车株式会社 | Control system, control method, and computer-readable recording medium |
-
2009
- 2009-09-09 JP JP2009208483A patent/JP2011061461A/en active Pending
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015513704A (en) * | 2012-03-16 | 2015-05-14 | ニュアンス コミュニケーションズ, インコーポレイテッド | User-specific automatic speech recognition |
US10789950B2 (en) | 2012-03-16 | 2020-09-29 | Nuance Communications, Inc. | User dedicated automatic speech recognition |
JP2015535952A (en) * | 2012-09-29 | 2015-12-17 | シェンジェン ピーアールテック カンパニー リミテッド | Voice control system and method for multimedia device and computer storage medium |
US9955210B2 (en) | 2012-09-29 | 2018-04-24 | Shenzhen Prtek Co. Ltd. | Multimedia device voice control system and method, and computer storage medium |
JP2016178652A (en) * | 2013-07-09 | 2016-10-06 | ノキア テクノロジーズ オーユー | Audio processing apparatus |
JP2015198413A (en) * | 2014-04-03 | 2015-11-09 | 日本電信電話株式会社 | Sound collection system and sound emitting system |
JP2018121134A (en) * | 2017-01-23 | 2018-08-02 | 京セラドキュメントソリューションズ株式会社 | Image forming apparatus |
WO2020090322A1 (en) * | 2018-11-01 | 2020-05-07 | ソニー株式会社 | Information processing apparatus, control method for same and program |
CN113984105A (en) * | 2020-07-27 | 2022-01-28 | 丰田自动车株式会社 | Control system, control method, and computer-readable recording medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6464449B2 (en) | Sound source separation apparatus and sound source separation method | |
US20170289681A1 (en) | Method, apparatus and computer program product for audio capture | |
JP2011061461A (en) | Imaging apparatus, directivity control method, and program therefor | |
KR20180100392A (en) | Personalized real-time audio processing | |
US20100302401A1 (en) | Image Audio Processing Apparatus And Image Sensing Apparatus | |
JP2009156888A (en) | Speech corrector and imaging apparatus equipped with the same, and sound correcting method | |
JP2013106298A (en) | Imaging controller, imaging control method, program for imaging control method, and imaging apparatus | |
JP2011071702A (en) | Sound pickup processor, sound pickup processing method, and program | |
JP5886479B2 (en) | IMAGING DEVICE, IMAGING ASSIST METHOD, AND RECORDING MEDIUM CONTAINING IMAGING ASSIST PROGRAM | |
JP5155092B2 (en) | Camera, playback device, and playback method | |
JP2009065587A (en) | Voice-recording device and voice-reproducing device | |
JP2005094713A (en) | Data display system, data display method, program and recording medium | |
JP2022533755A (en) | Apparatus and associated methods for capturing spatial audio | |
JP5510559B2 (en) | Voice control device and imaging device | |
JP2017221544A (en) | Game program and game system | |
JP5214394B2 (en) | camera | |
JP2009111519A (en) | Audio signal processor and electronics | |
JP6874437B2 (en) | Communication robots, programs and systems | |
JP6295442B2 (en) | Image generating apparatus, photographing apparatus, image generating method, and program | |
JP2013168878A (en) | Recording device | |
JP6967735B1 (en) | Signal processing equipment and signal processing system | |
JP2007251355A (en) | Relaying apparatus for interactive system, interactive system, and interactive method | |
KR101391942B1 (en) | Audio steering video/audio system and providing method thereof | |
JP6314321B2 (en) | Image generating apparatus, photographing apparatus, image generating method, and program | |
WO2022224586A1 (en) | Information processing device, information processing method, program, and information recording medium |