JP2011061461A - Imaging apparatus, directivity control method, and program therefor - Google Patents

Imaging apparatus, directivity control method, and program therefor Download PDF

Info

Publication number
JP2011061461A
JP2011061461A JP2009208483A JP2009208483A JP2011061461A JP 2011061461 A JP2011061461 A JP 2011061461A JP 2009208483 A JP2009208483 A JP 2009208483A JP 2009208483 A JP2009208483 A JP 2009208483A JP 2011061461 A JP2011061461 A JP 2011061461A
Authority
JP
Japan
Prior art keywords
face
unit
angle
directivity
subject
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009208483A
Other languages
Japanese (ja)
Inventor
Tatsuya Koizumi
達哉 小泉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2009208483A priority Critical patent/JP2011061461A/en
Publication of JP2011061461A publication Critical patent/JP2011061461A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)
  • Studio Devices (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To more surely emphasize and input a voice uttered by an object. <P>SOLUTION: Since a DVC 100 recognizes a face of a person in a through image, and controls the directivity of a microphone part 111 on the basis of a range occupied by the face of the person in the through image, the voice is input by directivity for emphasizing the voice input from the range occupied by the face of the person in an imaging range. Thus, the voice uttered by the person is emphasized and input no matter from which part of the face of the person it is uttered, and the voice uttered by the person is further surely emphasized and input. <P>COPYRIGHT: (C)2011,JPO&INPIT

Description

本発明は、撮像装置、指向性制御方法及びそのプログラムに関し、例えば撮像装置におけるマイクロホンの指向性を制御する際に適用して好適なものである。   The present invention relates to an imaging apparatus, a directivity control method, and a program thereof, and is suitable for application when controlling the directivity of a microphone in an imaging apparatus, for example.

デジタルビデオカメラ(以下、これをDVCとも呼ぶ)などの撮像装置において、被写体が発する音声を強調して入力する撮像装置が提案されている。例えば、撮像装置から見た被写体の方向を検出し、当該方向から入力される音声を強調して入力する撮像装置が提案されている(例えば特許文献1参照)。   In an imaging apparatus such as a digital video camera (hereinafter also referred to as “DVC”), an imaging apparatus that emphasizes and inputs sound emitted from a subject has been proposed. For example, there has been proposed an imaging apparatus that detects the direction of a subject viewed from an imaging apparatus and emphasizes and inputs sound input from the direction (see, for example, Patent Document 1).

特開2008−193196号公報JP 2008-193196 A

ところで、被写体から発せられる音声というのは、撮像装置から見て必ずしも被写体の中心から発せられるわけではなく、被写体の右端から発せられたり左端から発せられたりする場合もある。   By the way, the sound emitted from the subject is not necessarily emitted from the center of the subject when viewed from the imaging device, and may be emitted from the right end or the left end of the subject.

このような場合、上述した装置において、例えば被写体の中心から撮像装置に向かう方向の音声を強調して入力するようにしていると、被写体の右端から発せられる音声や左端から発せられる音声を強調して入力することはできない。   In such a case, in the above-described apparatus, for example, if the voice in the direction from the center of the subject toward the imaging device is emphasized and input, the voice emitted from the right end of the subject and the voice emitted from the left end are emphasized. Cannot be entered.

つまり上述した撮像装置では、一点から入力される音声しか強調して入力することができないので、必ずしも被写体が発する音声を強調して入力し得るとは言えなかった。   That is, in the above-described imaging apparatus, only the sound input from one point can be emphasized and input, and thus it cannot always be said that the sound emitted from the subject is emphasized and input.

本発明は以上の点を考慮してなされたもので、一段と確実に被写体が発する音声を強調して入力し得る撮像装置、指向性制御方法及びそのプログラムを提案しようとするものである。   The present invention has been made in consideration of the above points, and intends to propose an imaging apparatus, a directivity control method, and a program thereof that can emphasize and input sound emitted from a subject more reliably.

かかる課題を解決するため本発明の撮像装置においては、撮像画像を取得する撮像部と、音声を入力する音声入力部と、撮像画像における被写体を認識する認識部と、撮像画像における被写体の占める範囲に基づいて、音声入力部の指向性を制御する制御部とを設けるようにした。   In order to solve this problem, in the imaging apparatus of the present invention, an imaging unit that acquires a captured image, an audio input unit that inputs sound, a recognition unit that recognizes a subject in the captured image, and a range occupied by the subject in the captured image And a control unit for controlling the directivity of the voice input unit.

このように本発明の撮像装置は、撮像画像における被写体の占める範囲に基づいて音声入力部の指向性を制御することにより、撮像範囲のうち被写体の占める範囲から入力される音声を強調する指向性で音声を入力できる。これにより本発明の撮像装置は、撮像装置から見て被写体のどの部分から発せられたかによらず、被写体が発する音声を強調して入力することができる。   As described above, the imaging apparatus of the present invention controls the directivity of the audio input unit based on the range occupied by the subject in the captured image, thereby enhancing the directivity that emphasizes the sound input from the range occupied by the subject in the imaging range. Voice can be input with. As a result, the image pickup apparatus of the present invention can emphasize and input the sound emitted from the subject regardless of which part of the subject is emitted from the image pickup apparatus.

本発明によれば、撮像画像における被写体の占める範囲に基づいて音声入力部の指向性を制御することにより、撮像範囲のうち被写体の占める範囲から入力される音声を強調する指向性で音声を入力できる。これにより、撮像装置から見て被写体のどの部分から発せられたかによらず、被写体が発する音声を強調して入力することができる。かくして一段と確実に被写体が発する音声を強調して入力し得る撮像装置、指向性制御方法及びそのプログラムを実現できる。   According to the present invention, by controlling the directivity of the sound input unit based on the range occupied by the subject in the captured image, the sound is input with the directivity that emphasizes the sound input from the range occupied by the subject in the imaging range. it can. This makes it possible to emphasize and input the sound emitted from the subject regardless of which part of the subject is emitted from the imaging device. In this way, it is possible to realize an imaging apparatus, a directivity control method, and a program thereof that are capable of enhancing and inputting the sound emitted from the subject.

第1の実施の形態の概要を示す機能ブロック図である。It is a functional block diagram which shows the outline | summary of 1st Embodiment. DVC(デジタルビデオカメラ)のハードウェア構成を示すブロック図である。It is a block diagram which shows the hardware constitutions of DVC (digital video camera). マイクロホン部及び指向角可変部のハードウェア構成の具体例を示すブロック図である。It is a block diagram which shows the specific example of the hardware constitutions of a microphone part and a directivity angle variable part. マイクロホン部の指向特性の一例の説明に供する略線図である。It is a basic diagram with which it uses for description of an example of the directional characteristic of a microphone part. 指向角制御処理の概要の説明に供する略線図である。It is a basic diagram with which it uses for description of the outline | summary of a directivity angle control process. 水平方向における撮像画角の算出方法の説明に供する略線図である。It is a basic diagram with which it uses for description of the calculation method of the imaging view angle in a horizontal direction. 顔画角の算出方法の説明に供する略線図である。It is an approximate line figure used for explanation of a calculation method of a face angle of view. 顔枠が複数検出された場合の顔画角の算出方法の説明に供する略線図である。It is an approximate line figure used for explanation of a calculation method of a face angle of view when a plurality of face frames are detected. 顔画角と適切指向角の関係の説明に供する略線図である。It is an approximate line figure used for explanation of a relation between a face angle of view and a suitable directivity angle. 指向角制御処理手順を示すフローチャートである。It is a flowchart which shows a directivity angle control processing procedure. 第2乃至第4の実施の形態の概要を示す機能ブロック図である。It is a functional block diagram which shows the outline | summary of 2nd thru | or 4th embodiment. 第2の実施の形態における指向角制御処理の説明に供する略線図である。It is a basic diagram with which it uses for description of the directivity angle control process in 2nd Embodiment. 第3の実施の形態における指向角制御処理の説明に供する略線図である。It is a basic diagram with which it uses for description of the directivity angle control process in 3rd Embodiment. 第4の実施の形態における指向角制御処理の説明に供する略線図である。It is a basic diagram with which it uses for description of the directivity angle control process in 4th Embodiment. 他の実施の形態における指向角制御処理(1)の説明に供する略線図である。It is a basic diagram with which it uses for description of the directivity angle control process (1) in other embodiment. 他の実施の形態における指向角制御処理(2)の説明に供する略線図である。It is an approximate line figure used for explanation of directivity angle control processing (2) in other embodiments. 他の実施の形態における指向角制御処理(3)の説明に供する略線図である。It is a basic diagram with which it uses for description of the directivity angle control process (3) in other embodiment. 他の実施の形態における指向角制御処理(4)の説明に供する略線図である。It is a basic diagram with which it uses for description of the directivity angle control process (4) in other embodiment.

以下、発明を実施するための最良の形態(以下実施の形態とする)について説明する。尚、説明は以下の順序で行う。
1.第1の実施の形態
2.第2の実施の形態
3.第3の実施の形態
4.第4の実施の形態
5.他の実施の形態
Hereinafter, the best mode for carrying out the invention (hereinafter referred to as an embodiment) will be described. The description will be given in the following order.
1. 1. First embodiment 2. Second embodiment 3. Third embodiment 4. Fourth embodiment Other embodiments

<1.第1の実施の形態>
[1−1.第1の実施の形態の概要]
まず、第1の実施の形態の概要を説明する。この概要を説明した後、本実施の形態の具体例の説明に移る。
<1. First Embodiment>
[1-1. Outline of First Embodiment]
First, the outline of the first embodiment will be described. After the outline is described, the description moves to a specific example of the present embodiment.

図1において1は、撮像装置を示す。この撮像装置1は、撮像画像を取得する撮像部2と、音声を入力する音声入力部3と、撮像画像における被写体を認識する認識部4と、撮像画像における被写体の占める範囲に基づいて、音声入力部3の指向性を制御する制御部5とを有している。   In FIG. 1, reference numeral 1 denotes an imaging apparatus. The imaging apparatus 1 includes an imaging unit 2 that acquires a captured image, an audio input unit 3 that inputs sound, a recognition unit 4 that recognizes a subject in the captured image, and a voice based on a range occupied by the subject in the captured image. And a control unit 5 that controls the directivity of the input unit 3.

このような構成により撮像装置1は、撮像範囲のうち被写体の占める範囲から入力される音声を強調する指向性で音声を入力できる。これにより撮像装置1は、撮像装置1から見て被写体のどの部分から発せられたかによらず被写体が発する音声を強調して入力することができる。   With such a configuration, the imaging apparatus 1 can input sound with directivity that emphasizes sound input from the range occupied by the subject in the imaging range. Thereby, the imaging device 1 can emphasize and input the sound emitted from the subject regardless of which part of the subject is emitted from the imaging device 1.

このような構成でなる撮像装置1の具体例について、以下、詳しく説明する。   A specific example of the imaging apparatus 1 having such a configuration will be described in detail below.

[1−2.DVCのハードウェア構成]
上述した撮像装置1の具体例となるデジタルビデオカメラ(DVC)のハードウェア構成について、図2を用いて説明する。
[1-2. Hardware configuration of DVC]
A hardware configuration of a digital video camera (DVC), which is a specific example of the imaging apparatus 1 described above, will be described with reference to FIG.

DVC100は、制御部101が、内蔵のフラッシュメモリ102に書き込まれたプログラムをRAM103にロードして実行することで各種処理を実行すると共に、タッチパネル104や操作部105からの入力信号に応じて各部を制御する。因みにRAMは、Random Access Memoryの略である。   In the DVC 100, the control unit 101 executes various processes by loading the program written in the built-in flash memory 102 into the RAM 103 and executing the program. The DVC 100 also sets each unit according to an input signal from the touch panel 104 or the operation unit 105. Control. Incidentally, RAM is an abbreviation for Random Access Memory.

タッチパネル104は、液晶パネル106と共にタッチスクリーン107を構成するデバイスであり、タッチパネル104上の任意の位置が指でタッチされると、タッチされた位置を液晶パネル106に表示させる画面の座標として検出する。そしてタッチパネル104は、タッチされた位置の座標に応じた入力信号を制御部101に送る。   The touch panel 104 is a device that forms a touch screen 107 together with the liquid crystal panel 106. When an arbitrary position on the touch panel 104 is touched with a finger, the touched position is detected as a screen coordinate displayed on the liquid crystal panel 106. . The touch panel 104 sends an input signal corresponding to the coordinates of the touched position to the control unit 101.

操作部105は、ズームレバー(TELE/WIDE)、シャッタボタン、電源ボタン、モード切替ボタンなどからなるデバイスであり、これらの押下操作に応じた入力信号を制御部101に送る。   The operation unit 105 is a device including a zoom lever (TELE / WIDE), a shutter button, a power button, a mode switching button, and the like, and sends an input signal corresponding to these pressing operations to the control unit 101.

制御部101は、タッチパネル104又は操作部105を介して、撮影モードへ切り替えるよう指示されると、動作モードを撮影モードに切り替える。   When instructed to switch to the shooting mode via the touch panel 104 or the operation unit 105, the control unit 101 switches the operation mode to the shooting mode.

すると撮像部108は、制御部101の制御のもと、レンズ部109を介して取り込んだ被写体からの光を撮像素子で電気信号に変換(すなわち光電変換)することで、アナログの画像信号を得る。そして撮像部108は、この画像信号をデジタルの画像信号に変換した後、制御部101に送る。   Then, under the control of the control unit 101, the imaging unit 108 obtains an analog image signal by converting light from the subject captured via the lens unit 109 into an electrical signal (that is, photoelectric conversion) by the imaging device. . Then, the imaging unit 108 converts this image signal into a digital image signal, and then sends it to the control unit 101.

制御部101は、撮像部108から送られてくる画像信号に所定の処理を施して液晶パネル106に送る。この結果、液晶パネル106には、被写体の画像がスルー画像として表示される。こうすることで、DVC100は、撮影者に被写体を確認させることができる。   The control unit 101 performs predetermined processing on the image signal sent from the imaging unit 108 and sends it to the liquid crystal panel 106. As a result, the image of the subject is displayed on the liquid crystal panel 106 as a through image. By doing so, the DVC 100 can make the photographer confirm the subject.

またこのとき、制御部101は、撮像部108から送られてくる画像信号を顔認識処理部110に送る。顔認識処理部110は、制御部101の制御のもと、送られてきた画像信号を解析して、この画像信号に基づく画像(つまりスルー画像)から人物の顔を認識する処理(これを顔認識処理とも呼ぶ)を行う。そして顔認識処理部110は、スルー画像から人物の顔が認識されたか否か、顔と認識されたのはスルー画像のどの部分かなどを、顔認識処理の結果として、制御部101に返す。   At this time, the control unit 101 sends the image signal sent from the imaging unit 108 to the face recognition processing unit 110. Under the control of the control unit 101, the face recognition processing unit 110 analyzes the transmitted image signal and recognizes a person's face from an image based on the image signal (that is, a through image) Also called recognition processing). The face recognition processing unit 110 then returns to the control unit 101 as a result of the face recognition processing whether or not a person's face has been recognized from the through image and which part of the through image has been recognized as a face.

制御部101は、アイコンや、顔と認識された部分を示す矩形の枠(これを顔枠とも呼ぶ)などのグラフィックス信号を生成して、これを画像信号に重畳する。この結果、液晶パネル106には、スルー画像と共にアイコンや顔枠などが表示される。   The control unit 101 generates a graphics signal such as an icon or a rectangular frame indicating a part recognized as a face (also referred to as a face frame), and superimposes it on the image signal. As a result, an icon, a face frame, and the like are displayed on the liquid crystal panel 106 together with the through image.

またこのとき、制御部101は、顔認識処理の結果に基づいて、人物の発する声を強調して入力するのに適したマイクロホン部111の指向角(これを適切指向角とも呼ぶ)を算出する。尚、この適切指向角を算出する方法については、後述する指向角制御処理の中で詳しく説明する。   At this time, the control unit 101 calculates a directivity angle (also referred to as an appropriate directivity angle) of the microphone unit 111 that is suitable for emphasizing and inputting a voice uttered by a person based on the result of the face recognition process. . The method for calculating the appropriate directivity angle will be described in detail in the directivity angle control process described later.

そして制御部101は、指向角可変部112を介して、マイクロホン部111の指向角を適切指向角になるように制御する。   Then, the control unit 101 controls the directivity angle of the microphone unit 111 to be an appropriate directivity angle via the directivity angle variable unit 112.

ここで、マイクロホン部111及び指向角可変部112のハードウェア構成の具体例を、図3を用いて説明する。   Here, a specific example of the hardware configuration of the microphone unit 111 and the directivity angle varying unit 112 will be described with reference to FIG.

例えばマイクロホン部111は、鋭指向性マイクロホン111A及び無指向性マイクロホン111Bで構成される。図4(A)に鋭指向性マイクロホン111Aの指向特性(ポーラパターン)を示し、図4(B)に無指向性マイクロホン111Bの指向特性を示す。   For example, the microphone unit 111 includes an acute directional microphone 111A and an omnidirectional microphone 111B. 4A shows the directivity characteristic (polar pattern) of the sharp directivity microphone 111A, and FIG. 4B shows the directivity characteristic of the omnidirectional microphone 111B.

ここではマイクロホンの指向角とは、例えば指向主軸を0[dB]とした場合、−6[dB]以上となる範囲の角度を示したものとする。尚ここでは、鋭指向性マイクロホン111Aの指向主軸は、撮像部108の撮像主軸(つまりDVC100の正面方向)と一致しているとする。   Here, the directivity angle of the microphone indicates an angle in a range of −6 [dB] or more when the directivity main axis is 0 [dB], for example. Here, it is assumed that the directional main axis of the sharp directivity microphone 111A coincides with the imaging main axis of the imaging unit 108 (that is, the front direction of the DVC 100).

指向角可変部112(図3)は、レベル可変部112A及び112Bと、加算器112Cとから構成される。レベル可変部112Aは、制御部101の制御のもと、鋭指向性マイクロホン111Aから送られてくる音声信号のレベルを変化させるようになされている。レベル可変部112Bは、制御部101の制御のもと、無指向性マイクロホン111Bから送られてくる音声信号のレベルを変化させるようになされている。   The directivity angle variable unit 112 (FIG. 3) includes level variable units 112A and 112B and an adder 112C. The level variable unit 112A is configured to change the level of the audio signal transmitted from the sharp directivity microphone 111A under the control of the control unit 101. The level variable unit 112B is configured to change the level of the audio signal transmitted from the omnidirectional microphone 111B under the control of the control unit 101.

加算器112Cは、レベル可変部112Aから送られてくる鋭指向性マイクロホン111Aの音声信号と、レベル可変部112Bから送られてくる無指向性マイクロホン111Bの音声信号とを合成するようになされている。   The adder 112C synthesizes the audio signal of the acute directional microphone 111A sent from the level variable unit 112A and the audio signal of the omnidirectional microphone 111B sent from the level variable unit 112B. .

図4(C)に、例えば鋭指向性マイクロホン111Aのレベルが50%であり、無指向性マイクロホン111Bのレベルが50%である場合のマイクロホン部111の指向特性を示す。図4(C)に示すように、マイクロホン部111の指向特性は、鋭指向性マイクロホン111A及び無指向性マイクロホン111Bの指向特性をレベル比に応じて合成したものとなる。尚、マイクロホン部111の指向主軸は、鋭指向性マイクロホン111Aの指向主軸(すなわち撮像部108の撮像主軸)と一致している。   FIG. 4C shows the directivity characteristics of the microphone unit 111 when the level of the sharp directional microphone 111A is 50% and the level of the omnidirectional microphone 111B is 50%, for example. As shown in FIG. 4C, the directivity of the microphone unit 111 is a combination of the directivity of the sharp directivity microphone 111A and the non-directive microphone 111B according to the level ratio. The directional main axis of the microphone unit 111 coincides with the directional main axis of the sharp directional microphone 111A (that is, the imaging main axis of the imaging unit 108).

マイクロホン部111の指向角を小さくする場合、制御部101は、レベル可変部112Aを制御して鋭指向性マイクロホン111Aのレベルを大きくし、レベル可変部112Bを制御して無指向性マイクロホン111Bのレベルを小さくする。   When the directivity angle of the microphone unit 111 is reduced, the control unit 101 controls the level variable unit 112A to increase the level of the sharp directivity microphone 111A and controls the level variable unit 112B to control the level of the omnidirectional microphone 111B. Make it smaller.

一方、マイクロホン部111の指向角を大きくする場合、制御部101は、レベル可変部112Aを制御して鋭指向性マイクロホン111Aのレベルを小さくし、レベル可変部112Bを制御して無指向性マイクロホン111Bのレベルを大きくする。   On the other hand, when the directivity angle of the microphone unit 111 is increased, the control unit 101 controls the level variable unit 112A to decrease the level of the sharp directivity microphone 111A and controls the level variable unit 112B to control the omnidirectional microphone 111B. Increase the level.

尚、マイクロホン部111の指向角の最小値は、鋭指向性マイクロホン111Aの指向角となり、マイクロホン部111の指向角の最大値は、無指向性マイクロホン111Bの指向角(つまり360度)となる。   The minimum value of the directivity angle of the microphone unit 111 is the directivity angle of the sharp directivity microphone 111A, and the maximum value of the directivity angle of the microphone unit 111 is the directivity angle of the omnidirectional microphone 111B (that is, 360 degrees).

因みにマイクロホン部111の指向角を可変制御する構成としては、上述の構成に限らず、この他種々の構成を用いるようにしてもよい。またマイクロホンの指向角の定義としては、上述の定義に限らず、マイクロホンが音声を強調して入力し得る範囲の角度を示すものであれば、例えば聴感上の効果によって定義したものなど、この他種々の定義を用いるようにしてもよい。   Incidentally, the configuration for variably controlling the directivity angle of the microphone unit 111 is not limited to the above-described configuration, and various other configurations may be used. In addition, the definition of the microphone directivity is not limited to the above definition, and other microphones may be used as long as they indicate angles within a range where the microphone can emphasize and input sound. Various definitions may be used.

ここで、操作部105(図2)のシャッタボタンが押下されたとする。すると制御部101は、シャッタボタンの押下に応じて動画像の記録を開始する。すなわち制御部101は、撮像部108から送られてくる画像信号と、マイクロホン部111から指向角可変部112を介して入力される音声信号とをRAM103に一時記憶させ、画像信号を動画エンコーダ113に送る。   Here, it is assumed that the shutter button of the operation unit 105 (FIG. 2) is pressed. Then, the control unit 101 starts recording a moving image in response to pressing of the shutter button. That is, the control unit 101 temporarily stores the image signal transmitted from the imaging unit 108 and the audio signal input from the microphone unit 111 via the directivity angle varying unit 112 in the RAM 103, and the image signal is stored in the moving image encoder 113. send.

動画エンコーダ113は、この画像信号を所定の動画フォーマットで圧縮することで、動画データを生成していく。尚、ここでは、所定の動画フォーマットとして、例えば、H.264フォーマットを利用することとする。   The moving image encoder 113 generates moving image data by compressing the image signal in a predetermined moving image format. Here, as a predetermined moving image format, for example, H.264 is used. The H.264 format is used.

また制御部101は、RAM103に一時記憶させた音声信号を所定の音声フォーマットで圧縮することで、音声データを生成していく。そして制御部101は、この音声データと、動画エンコーダ113で生成された動画データとを多重化することで動画音声データを生成していく。   The control unit 101 also generates audio data by compressing the audio signal temporarily stored in the RAM 103 in a predetermined audio format. Then, the control unit 101 generates moving image audio data by multiplexing the audio data and the moving image data generated by the moving image encoder 113.

さらに制御部101は、この動画音声データを、RAM103に書き戻してから、フラッシュメモリ102又は記録媒体114に記録していく。   Further, the control unit 101 writes this moving image audio data back to the RAM 103 and then records it in the flash memory 102 or the recording medium 114.

その後、再び操作部105のシャッタボタンが押下されると、制御部101は、動画像の記録を終了する。すなわち制御部101は、このときRAM103に残存する動画音声データをフラッシュメモリ102又は記録媒体114に記録することで、撮影開始から終了までの一連の動画音声データの記録を完了する。そして制御部101は、この動画音声データに例えば撮影日時などの付帯情報を付与し、動画音声ファイルとしてフラッシュメモリ102又は記録媒体114に記録する。このようにしてDVC100は、動画像を記録する。   Thereafter, when the shutter button of the operation unit 105 is pressed again, the control unit 101 ends the recording of the moving image. That is, the control unit 101 records the moving image audio data remaining in the RAM 103 at this time in the flash memory 102 or the recording medium 114, thereby completing the recording of a series of moving image audio data from the start to the end of shooting. Then, the control unit 101 adds incidental information such as shooting date and time to the moving image audio data, and records it in the flash memory 102 or the recording medium 114 as a moving image audio file. In this way, the DVC 100 records a moving image.

また制御部101は、タッチパネル104又は操作部105を介して再生モードへの切換操作が行われると、再生モードに切り換わる。すると制御部101は、フラッシュメモリ102又は記録媒体114から指定された動画音声ファイルを読み出して、RAM103に一時記憶させる。   Further, the control unit 101 switches to the reproduction mode when the switching operation to the reproduction mode is performed via the touch panel 104 or the operation unit 105. Then, the control unit 101 reads the designated moving image / audio file from the flash memory 102 or the recording medium 114 and temporarily stores it in the RAM 103.

そして制御部101は、この動画音声ファイルから、動画データと音声データとを分離して、動画データを動画デコーダ115に送る。   Then, the control unit 101 separates the moving image data and the audio data from the moving image / audio file, and sends the moving image data to the moving image decoder 115.

動画デコーダ115は、この動画データを圧縮されたときと同一の動画フォーマットで伸張することで元の画像信号を得、この画像信号がRAM103に書き戻されていく。   The moving picture decoder 115 obtains the original image signal by expanding the moving picture data in the same moving picture format as when it was compressed, and the image signal is written back to the RAM 103.

また制御部101は、音声データを圧縮されたときと同一の音声フォーマットで伸張することで元の音声信号を得、これをRAM103に書き戻していく。   Further, the control unit 101 obtains the original audio signal by decompressing the audio data in the same audio format as when it was compressed, and writes it back to the RAM 103.

そして制御部101は、画像信号をRAM103から読み出し、所定の処理を施して液晶パネル106に送る。これと共に制御部110は、音声信号をRAM103から読み出し、所定の処理を施してスピーカ116に送る。   Then, the control unit 101 reads the image signal from the RAM 103, performs a predetermined process, and sends it to the liquid crystal panel 106. At the same time, the control unit 110 reads out the audio signal from the RAM 103, performs a predetermined process, and sends it to the speaker 116.

この結果、液晶パネル106には、画像信号に基づく動画像が表示される。またこのとき、音声信号に基づく音声がスピーカ116から出力される。このようにしてDVC100は、動画像及び音声を再生する。   As a result, a moving image based on the image signal is displayed on the liquid crystal panel 106. At this time, sound based on the sound signal is output from the speaker 116. In this way, the DVC 100 reproduces moving images and sounds.

尚、このDVC100の撮像部108が、上述した撮像装置1の撮像部2に相当するハードウェアであり、DVC100のマイクロホン部111及び指向角可変部112が、上述した撮像装置1の音声入力部3に相当するハードウェアである。またDVC100の顔認識処理部110が、上述した撮像装置1の認識部4に相当するハードウェアであり、DVC100の制御部101が、上述した撮像装置1の制御部5に相当するハードウェアである。   The imaging unit 108 of the DVC 100 is hardware corresponding to the imaging unit 2 of the imaging device 1 described above, and the microphone unit 111 and the directivity angle varying unit 112 of the DVC 100 are the audio input unit 3 of the imaging device 1 described above. It is the hardware equivalent to. The face recognition processing unit 110 of the DVC 100 is hardware corresponding to the recognition unit 4 of the imaging device 1 described above, and the control unit 101 of the DVC 100 is hardware corresponding to the control unit 5 of the imaging device 1 described above. .

[1−3.指向角制御処理]
上述したようにDVC100は、人物の発する声を強調して入力するのに適切なマイクロホン部111の指向角(適切指向角)を算出し、適切指向角となるようにマイクロホン部111の指向角を制御するようになされている。以下、このマイクロホン部111の指向角を適切指向角となるように制御する処理(以下、これを指向角制御処理とも呼ぶ)について詳しく説明する。
[1-3. Directional angle control processing]
As described above, the DVC 100 calculates a directivity angle (appropriate directivity angle) of the microphone unit 111 that is appropriate for emphasizing and inputting a voice uttered by a person, and sets the directivity angle of the microphone unit 111 so as to be an appropriate directivity angle. It is made to control. Hereinafter, processing for controlling the directivity angle of the microphone unit 111 to be an appropriate directivity angle (hereinafter also referred to as directivity angle control processing) will be described in detail.

まず、指向角制御処理の概要について、図5を用いて説明する。   First, the outline of the directivity control process will be described with reference to FIG.

図5(A)及び(B)は、被写体となっている人物P及びDVC100を真上から見下ろした様子を示した図である。   FIGS. 5A and 5B are views showing a state in which the person P and the DVC 100 that are subjects are looked down from directly above.

ここで、人物Pの発する声を強調して入力するためには、撮像範囲Acのうち人物Pの発する声の音源である顔Pfが占める範囲Afから入力される音声を強調するように、マイクロホン部111の指向角を制御すればよいと考えられる。   Here, in order to emphasize and input the voice uttered by the person P, the microphone is emphasized so as to emphasize the voice input from the range Af occupied by the face Pf which is the sound source of the voice uttered by the person P in the imaging range Ac. It is considered that the directivity angle of the unit 111 may be controlled.

ゆえにDVC100は、撮像部108における撮像範囲Acの画角(これを撮像画角とも呼ぶ)θのうち顔Pfが占める範囲Afの画角(以下、これを顔画角とも呼ぶ)αに応じて、マイクロホン部111の指向角を制御するようになされている。すなわち顔画角αは、顔Pfが占める範囲Afのみが撮像されるような画角を示す。   Therefore, the DVC 100 corresponds to the angle of view (hereinafter also referred to as the face angle of view) α of the range Af occupied by the face Pf of the angle of view (also referred to as the angle of view of view) θ of the imaging range Ac in the imaging unit 108. The directivity angle of the microphone unit 111 is controlled. That is, the face angle of view α indicates a field angle at which only the range Af occupied by the face Pf is captured.

尚DVC100は、水平方向における撮像画角θ及び顔画角αを用いるようになされている。音声に対する人間の耳の指向性は、水平方向の方がより影響を受けるためである。   Note that the DVC 100 uses the imaging field angle θ and the face field angle α in the horizontal direction. This is because the directivity of the human ear with respect to voice is more affected in the horizontal direction.

例えば図5(A)に示すように人物PがDVC100から遠い場合、顔画角αは人物PがDVC100に近い場合よりも小さい。ゆえにこの場合DVC100は、指向角制御処理において、マイクロホン部111の指向角を小さくする。つまりDVC100は、図5(C)に示すようにマイクロホン部111の指向性を狭くする。   For example, as shown in FIG. 5A, when the person P is far from the DVC 100, the face angle of view α is smaller than when the person P is close to the DVC 100. Therefore, in this case, the DVC 100 reduces the directivity angle of the microphone unit 111 in the directivity angle control process. That is, the DVC 100 narrows the directivity of the microphone unit 111 as shown in FIG.

一方図5(B)に示すように人物PがDVC100に近い場合、顔画角αは、人物PがDVC100から遠い場合よりも大きい。ゆえにこの場合DVC100は、指向角制御処理において、マイクロホン部111の指向角を大きくする。つまりDVC100は、図5(D)に示すように、マイクロホン部111の指向性を広くする。   On the other hand, as shown in FIG. 5B, when the person P is close to the DVC 100, the face angle of view α is larger than when the person P is far from the DVC 100. Therefore, in this case, the DVC 100 increases the directivity angle of the microphone unit 111 in the directivity angle control process. That is, the DVC 100 widens the directivity of the microphone unit 111 as shown in FIG.

このようにDVC100は、指向角制御処理において、被写体となる人物PがDVC100から遠いほどマイクロホン部111の指向角を小さくし、人物PがDVC100から近いほどマイクロホン部111の指向角を大きくするようになされている。   In this way, in the directivity angle control process, the DVC 100 decreases the directivity angle of the microphone unit 111 as the subject person P is farther from the DVC 100, and increases the directivity angle of the microphone unit 111 as the person P is closer to the DVC 100. Has been made.

以上が指向角制御処理の概要である。次に指向角制御処理の具体的な処理について説明する。制御部101は、動作モードを撮影モードに切り替えるよう指示されると、動作モードを撮影モードに切り替えると共に、指向角制御処理を開始する。   The above is the outline of the directivity control process. Next, specific processing of the directivity control process will be described. When instructed to switch the operation mode to the shooting mode, the control unit 101 switches the operation mode to the shooting mode and starts the directivity control process.

そして制御部101は、次のようにして顔画角αを算出する。   Then, the control unit 101 calculates the face angle of view α as follows.

まず制御部101は、撮像部108における撮像画角θを算出する。図6(A)に示すように、35mmフィルムのフレームサイズは、横方向の長さが36[mm]であり、縦方向の長さが24[mm]である。   First, the control unit 101 calculates an imaging angle of view θ in the imaging unit 108. As shown in FIG. 6A, the frame size of the 35 mm film is 36 [mm] in the horizontal direction and 24 [mm] in the vertical direction.

そして図6(B)に示すように、水平方向における撮像画角θは、焦点距離f(35mmフィルム換算値)が高さであり、35mmフィルムにおけるフレームの横方向の長さ36[mm]が底辺である二等辺三角形の頂角と等しい。   As shown in FIG. 6B, the imaging field angle θ in the horizontal direction is such that the focal length f (35 mm film equivalent) is the height, and the horizontal length 36 [mm] of the 35 mm film is It is equal to the apex angle of the base isosceles triangle.

ゆえに制御部101は、撮像部108から現在の焦点距離fを取得し、撮像画角θを、焦点距離fを用いて式(1)及び式(2)より算出する。尚、式(2)は、式(1)を変形したものである。   Therefore, the control unit 101 acquires the current focal length f from the imaging unit 108, and calculates the imaging angle of view θ from the equations (1) and (2) using the focal length f. Expression (2) is a modification of Expression (1).

Figure 2011061461
Figure 2011061461

Figure 2011061461
Figure 2011061461

次に制御部101は、顔認識処理部110から取得した顔認識処理の結果に基づいて、図7(A)に示すように、スルー画像Tpにおける顔枠Fsの位置及び大きさを検出する。   Next, the control unit 101 detects the position and size of the face frame Fs in the through image Tp based on the result of the face recognition processing acquired from the face recognition processing unit 110, as shown in FIG.

顔枠Fsが1つ検出された場合、制御部101は、スルー画像Tpの縦方向の中心線Oから顔枠Fsの右端までの長さsR1と、中心線Oから顔枠Fsの左端までの長さsL1とを比較する。そして制御部101は、これらのうち長い方を、顔画角αを算出するための長さ(これを算出用長さとも呼ぶ)sとして設定する。   When one face frame Fs is detected, the control unit 101 determines the length sR1 from the vertical center line O of the through image Tp to the right end of the face frame Fs, and the center line O to the left end of the face frame Fs. The length sL1 is compared. The control unit 101 sets the longer one of these as a length s for calculating the face angle of view α (also referred to as a calculation length) s.

例えば図7(A)に示す場合は、長さsR1の方が長さsL1よりも長いので、制御部101は、長さsR1を算出用長さsとして設定する。   For example, in the case shown in FIG. 7A, since the length sR1 is longer than the length sL1, the control unit 101 sets the length sR1 as the calculation length s.

このように算出用長さsを算出すると、制御部101は、スルー画像Tpの横方向の半分の長さwに対する算出用長さsの比nを、式(3)より算出する。   When the calculation length s is calculated in this manner, the control unit 101 calculates the ratio n of the calculation length s to the half length w in the horizontal direction of the through image Tp from the equation (3).

Figure 2011061461
Figure 2011061461

図7(B)に、顔が認識された人物PとDVC100とを真上から見下ろした様子を示す。このとき制御部101は、撮像範囲において顔枠Fsに対応する顔(つまり人物Pの顔Pf)が占める範囲の画角を顔画角αとして算出する。   FIG. 7B shows a state in which the person P whose face is recognized and the DVC 100 are looked down from directly above. At this time, the control unit 101 calculates the angle of view of the range occupied by the face corresponding to the face frame Fs (that is, the face Pf of the person P) in the imaging range as the face angle of view α.

図7(B)に示すように、撮像画角θの半分の角度(θ/2)の正接であるtan(θ/2)と、顔画角αの半分の角度(α/2)の正接である(tan(α/2)との比は、長さwと算出用長さsとの比nと一致する。ゆえに制御部101は、顔画角αを、比nと撮像画角θとを用いて式(4)より算出する。   As shown in FIG. 7B, tan (θ / 2), which is a half angle (θ / 2) of the imaging field angle θ, and a tangent of a half angle (α / 2) of the face field angle α. (Tan (α / 2)) is equal to the ratio n between the length w and the calculation length s. Therefore, the control unit 101 determines the face angle of view α as the ratio n and the imaging angle of view θ. And is calculated from the equation (4).

Figure 2011061461
Figure 2011061461

このように制御部101は、スルー画像Tpにおいて、中心線Oを中心とする、顔枠Fsが占める範囲を含む最小の範囲(つまり中心線Oから左右に算出用長さsの範囲)を検出する。そして制御部101は、当該範囲と撮像画角θとに基づいて、撮像画角θにおける人物の顔が占める範囲の画角を顔画角αとして算出するようになされている。   In this way, the control unit 101 detects the minimum range including the range occupied by the face frame Fs centered on the center line O (that is, the range of the calculation length s from the center line O to the left and right) in the through image Tp. To do. Based on the range and the imaging field angle θ, the control unit 101 calculates the field angle of the range occupied by the human face at the imaging field angle θ as the face field angle α.

一方、顔認識処理の結果より顔枠Fsが複数検出された場合、制御部101は、当該複数の顔枠Fsのうち中心線Oから一番遠い顔枠Fsの端までの長さを、算出用長さsとして設定する。   On the other hand, when a plurality of face frames Fs are detected from the result of the face recognition process, the control unit 101 calculates the length from the center line O to the end of the face frame Fs farthest from the plurality of face frames Fs. This is set as the use length s.

例えば図8に示すように、左から順に顔枠Fs1、顔枠Fs2、顔枠Fs3が検出されたとする。ここでは、中心線Oから顔枠Fs1の左端までの長さsL2の方が、中心線Oから顔枠Fs3の右端までの長さsR2よりも長く、顔枠Fs1が中心線Oから一番遠いので、制御部101は、長さsL2を算出用長さsとして設定する。   For example, as shown in FIG. 8, it is assumed that a face frame Fs1, a face frame Fs2, and a face frame Fs3 are detected in order from the left. Here, the length sL2 from the center line O to the left end of the face frame Fs1 is longer than the length sR2 from the center line O to the right end of the face frame Fs3, and the face frame Fs1 is farthest from the center line O. Therefore, the control unit 101 sets the length sL2 as the calculation length s.

そして制御部101は、顔枠Fsが1つ検出された場合と同様に、式(3)及び式(4)を用いて顔画角αを算出する。   And the control part 101 calculates the face angle of view (alpha) using Formula (3) and Formula (4) similarly to the case where one face frame Fs is detected.

このように制御部101は、スルー画像Tpにおいて、中心線Oを中心とする、複数の顔枠Fsを全て含む最小の範囲(つまり、中心線Oから左右に算出用長さsの範囲)を検出する。そして制御部101は、当該範囲と撮像画角θとに基づいて、認識された複数の顔を全て含む最小の範囲の画角を顔画角αとして算出するようになされている。   In this way, the control unit 101 sets a minimum range including all of the plurality of face frames Fs around the center line O (that is, a range of the calculation length s from the center line O to the left and right) in the through image Tp. To detect. Based on the range and the imaging angle of view θ, the control unit 101 calculates the angle of view of the minimum range including all the recognized faces as the face angle of view α.

このようにして顔画角αを算出すると、制御部101は、顔画角αを用いて適切指向角βを算出する。   When the face angle of view α is calculated in this way, the control unit 101 calculates an appropriate directivity angle β using the face angle of view α.

ここで理想的には、図9(A)に示すグラフのように、適切指向角βは顔画角αと同じ値である方が望ましい。こうすることで、マイクロホン部111が、顔Pfが占める範囲Af(図5)から入力される音声のみを強調して入力できるからである。   Here, ideally, it is desirable that the appropriate directivity angle β is the same value as the face angle of view α, as in the graph shown in FIG. This is because the microphone unit 111 can emphasize and input only the sound input from the range Af occupied by the face Pf (FIG. 5).

しかし、指向角を小さいところまで制御しうるマイクロホン、つまり非常に鋭い指向性に制御可能なマイクロホンは製造が困難でありコストが高いので、使用できないことも多いと考えられる。   However, a microphone that can control the directivity angle to a small level, that is, a microphone that can be controlled to have a very sharp directivity is difficult to manufacture and expensive, so it is considered that the microphone cannot be used in many cases.

ゆえにこのDVC100において、顔画角αと適切指向角βとの関係は、図9(B)に示すグラフのようになっている。すなわち顔画角αが大きくなるほど適切指向角βが大きくなり、適切指向角βはマイクロホン部111における指向角の最小値βmin以上の値をとる。   Therefore, in this DVC 100, the relationship between the face angle of view α and the appropriate directivity angle β is as shown in the graph of FIG. That is, as the face angle of view α increases, the appropriate directivity angle β increases, and the appropriate directivity angle β takes a value equal to or greater than the minimum directivity angle βmin in the microphone unit 111.

また顔画角αは、撮像部108における撮像画角θの最大値αmax以下の値をとる。ゆえに適切指向角βは、例えば撮像画角θの最大値αmaxに適した指向角であるβmax以下の値をとる。   Further, the face angle of view α takes a value that is less than or equal to the maximum value αmax of the imaging angle of view θ in the imaging unit 108. Therefore, the appropriate directivity angle β takes a value equal to or less than βmax, which is a directivity angle suitable for the maximum value αmax of the imaging field angle θ, for example.

このように顔画角αと適切指向角βとが対応付けられるよう、制御部101は、顔画角αを用いて、例えば式(5)を用いて適切指向角βを算出するようになされている。尚、係数kは0以上であり、顔画角αがαmaxのとき適切指向角βがβmaxとなるような係数である。   In this way, the control unit 101 uses the face angle of view α to calculate the appropriate direction angle β using, for example, Equation (5) so that the face angle of view α and the appropriate directivity angle β are associated with each other. ing. The coefficient k is 0 or more, and the appropriate directivity angle β is βmax when the face angle of view α is αmax.

Figure 2011061461
Figure 2011061461

因みに顔画角αから適切指向角βを算出する式としては、顔画角αが示す範囲から入力される音声を強調するような適切指向角βを算出する式であれば、式(5)に限らず、この他種々の式を用いるようにしてもよい。   Incidentally, the expression for calculating the appropriate directivity angle β from the face angle of view α is an expression for calculating the appropriate directivity angle β that emphasizes the voice input from the range indicated by the face angle of view α. Not limited to this, various other formulas may be used.

このようにして適切指向角βを算出すると、制御部101は、指向角可変部112を介して、マイクロホン部111の指向角を適切指向角βとなるように制御し、指向角制御処理を終了する。   When the appropriate directivity angle β is calculated in this way, the control unit 101 controls the directivity angle of the microphone unit 111 to be the appropriate directivity angle β via the directivity angle variable unit 112 and ends the directivity angle control process. To do.

以上のようにして制御部101は、顔認識処理により認識された顔が占める範囲の画角(顔画角α)に基づいて適切指向角βを算出し、適切指向角βとなるようにマイクロホン部111の指向角を制御するようになされている。   As described above, the control unit 101 calculates the appropriate directivity angle β based on the view angle (face view angle α) of the range occupied by the face recognized by the face recognition process, and the microphone so that the proper directivity angle β is obtained. The directivity angle of the unit 111 is controlled.

[1−4.指向角制御処理手順]
次に上述した指向角制御処理の動作処理手順(これを指向角制御処理手順とも呼ぶ)について、図10に示すフローチャートを用いて説明する。
[1-4. Directional angle control processing procedure]
Next, the operation processing procedure of the directivity angle control process described above (also referred to as a directivity angle control process procedure) will be described with reference to the flowchart shown in FIG.

因みにこの指向角制御処理手順RT1は、DVC100の制御部101が、フラッシュメモリ102に書き込まれているプログラムに従って実行する処理手順である。   Incidentally, this directivity angle control processing procedure RT1 is a processing procedure executed by the control unit 101 of the DVC 100 according to a program written in the flash memory 102.

制御部101は、タッチパネル104又は操作部105を介して、撮影モードへ切り替えるよう指示されると、動作モードを撮影モードに切り替えると共に指向角制御処理手順RT1を開始して、ステップSP1に移る。   When the control unit 101 is instructed to switch to the shooting mode via the touch panel 104 or the operation unit 105, the control unit 101 switches the operation mode to the shooting mode and starts the directivity angle control processing procedure RT1, and proceeds to step SP1.

ステップSP1において制御部101は、撮像部108からスルー画像Tpを取得し、顔認識処理部110に送る。そして制御部101は、顔認識処理部110から送られてきた顔認識処理の結果に基づいて、スルー画像Tpから人物の顔が認識されたか否かを判別する。   In step SP <b> 1, the control unit 101 acquires the through image Tp from the imaging unit 108 and sends it to the face recognition processing unit 110. Then, the control unit 101 determines whether or not a human face has been recognized from the through image Tp based on the result of the face recognition process sent from the face recognition processing unit 110.

このステップSP1において否定結果が得られると、このことは、DVC100において人物が撮影されていないことを意味する。このとき制御部101は、マイクロホン部111の指向角の制御を行わず(つまり現在の指向角を変化させず)、再度ステップSP1に戻り、スルー画像Tpから人物の顔が認識されるまで待ち受ける。   If a negative result is obtained in this step SP1, this means that no person is photographed in the DVC 100. At this time, the control unit 101 does not control the directivity angle of the microphone unit 111 (that is, does not change the current directivity angle), returns to step SP1 again, and waits until a human face is recognized from the through image Tp.

一方ステップSP1において肯定結果が得られると、このことは、DVC100において人物が撮影されていることを意味し、このとき制御部101は次のステップSP2に移る。   On the other hand, if a positive result is obtained in step SP1, this means that a person is photographed in the DVC 100. At this time, the control unit 101 proceeds to the next step SP2.

ステップSP2において制御部101は、撮像部108から現在の焦点距離fを取得し、次のステップSP3に移る。   In step SP2, the control unit 101 acquires the current focal length f from the imaging unit 108, and proceeds to the next step SP3.

ステップSP3において制御部101は、焦点距離fを用いて撮像画角θを算出する。また制御部101は、顔認識処理の結果に基づいて、スルー画像Tpにおける顔枠Fsが占める範囲を検出する。そして制御部101は、撮像画角θとスルー画像Tpにおける顔枠Fsが占める範囲とに基づいて顔画角αを算出し、次のステップSP4に移る。   In step SP3, the control unit 101 calculates the imaging field angle θ using the focal length f. Further, the control unit 101 detects a range occupied by the face frame Fs in the through image Tp based on the result of the face recognition process. Then, the control unit 101 calculates the face angle of view α based on the imaging angle of view θ and the range occupied by the face frame Fs in the through image Tp, and proceeds to the next step SP4.

ステップSP4において制御部101は、顔画角αから適切指向角βを算出して、次のステップSP5に移る。   In step SP4, the control unit 101 calculates an appropriate directivity angle β from the face angle of view α, and proceeds to the next step SP5.

ステップSP5において制御部101は、指向角可変部112を介して、適切指向角βと現在のマイクロホン部111の指向角とが一致するか否かを判別する。   In step SP5, the control unit 101 determines whether or not the appropriate directivity angle β matches the current directivity angle of the microphone unit 111 via the directivity angle variable unit 112.

このステップSP5において否定結果が得られると、このとき制御部101は次のステップSP6に移る。   If a negative result is obtained in step SP5, the control unit 101 moves to next step SP6.

ステップSP6において制御部101は、指向角可変部112を介して、マイクロホン部111の指向角を適切指向角βとなるように制御して、再度ステップSP5に戻る。   In step SP6, the control unit 101 controls the directivity angle of the microphone unit 111 to be an appropriate directivity angle β via the directivity angle variable unit 112, and returns to step SP5 again.

一方ステップSP5において適切指向角βと現在のマイクロホン部111の指向角とが一致することより肯定結果が得られると、このとき制御部101は次のステップSP7に移る。   On the other hand, if a positive result is obtained in step SP5 that the appropriate directivity angle β matches the current directivity angle of the microphone unit 111, the control unit 101 proceeds to the next step SP7.

ステップSP7において制御部101は、タッチパネル104又は操作部105を介して指向角制御処理を終了するよう指示されたか否かを判別する。   In step SP7, the control unit 101 determines whether an instruction to end the directivity angle control process is given via the touch panel 104 or the operation unit 105.

このステップSP7において否定結果が得られると、制御部101は再度ステップSP1に戻り、ステップSP1〜SP7を繰り返す。   If a negative result is obtained in step SP7, the control unit 101 returns to step SP1 again and repeats steps SP1 to SP7.

一方ステップSP7において肯定結果が得られると、制御部101は、指向角制御処理手順RT1を終了する。   On the other hand, if a positive result is obtained in step SP7, the control unit 101 ends the directivity angle control processing procedure RT1.

このような指向角制御処理手順RT1により、DVC100は、適切指向角βを算出し、適切指向角βとなるようにマイクロホン部111の指向角を制御するようになされている。   By such a directivity angle control processing procedure RT1, the DVC 100 calculates an appropriate directivity angle β and controls the directivity angle of the microphone unit 111 so that the proper directivity angle β is obtained.

[1−5.第1の実施の形態における動作及び効果]
以上の構成において、DVC100の顔認識処理部110は、DVC100の撮像部108で撮像された画像(スルー画像Tp)から、被写体となっている人物の顔を認識する処理(顔認識処理)を行う。そして顔認識処理部110は、顔認識処理の結果をDVC100の制御部101に送る。
[1-5. Operation and Effect in First Embodiment]
In the above configuration, the face recognition processing unit 110 of the DVC 100 performs processing (face recognition processing) for recognizing the face of the person who is the subject from the image (through image Tp) captured by the imaging unit 108 of the DVC 100. . Then, the face recognition processing unit 110 sends the result of the face recognition processing to the control unit 101 of the DVC 100.

制御部101は、撮像部108から、画像が撮像された際の焦点距離fを取得し、撮像画角θを算出する。   The control unit 101 acquires the focal length f when the image is captured from the imaging unit 108 and calculates the imaging angle of view θ.

また制御部101は、顔認識処理の結果に基づいて、スルー画像Tpにおいて、人物の顔と認識された部分を示す顔枠Fsが占める範囲を検出する。   Further, the control unit 101 detects a range occupied by the face frame Fs indicating a portion recognized as a human face in the through image Tp based on the result of the face recognition process.

そして制御部101は、スルー画像Tpの中心線Oを中心とする、顔枠Fsが占める範囲を含む最小の範囲を検出し、当該範囲に基づいて撮像画角θにおける人物の顔が占める範囲の画角(顔画角α)を算出する。   Then, the control unit 101 detects the minimum range including the range occupied by the face frame Fs with the center line O of the through image Tp as the center, and the range of the range occupied by the human face at the imaging angle of view θ is based on the range. The angle of view (face angle of view α) is calculated.

そして制御部101は、この顔画角αを用いて、この顔画角αが示す範囲から入力される音声を強調するような適切指向角βを算出する。そして制御部101は、指向角可変部112を介して、適切指向角βとなるようにマイクロホン部111の指向角を制御する。   Then, the control unit 101 uses the face angle of view α to calculate an appropriate directivity angle β that enhances the voice input from the range indicated by the face angle of view α. Then, the control unit 101 controls the directivity angle of the microphone unit 111 through the directivity angle variable unit 112 so that the proper directivity angle β is obtained.

これによりDVC100は、撮像範囲のうち人物の顔が占める範囲から入力される音声を強調する指向性で音声を入力できるので、DVC100から見て人物の顔のどの部分から発せられたかによらず人物が発する声を強調して入力することができる。   Thus, the DVC 100 can input the sound with directivity that emphasizes the sound input from the range occupied by the person's face in the imaging range, so that the person can be used regardless of which part of the person's face is viewed from the DVC 100. Can be input with emphasis on the voices.

ゆえに例えば人物がDVC100に対して正面を向けている場合、つまりDVC100から見て人物の顔のほぼ中心から声が発せられる場合でも、DVC100は、人物が発する声を強調して入力することができる。また人物がDVC100に対して横を向けている場合、つまりDVC100から見て人物の顔のおよそ右端又は左端から声が発せられる場合でも、DVC100は、人物が発する声を強調して入力することができる。   Therefore, for example, even when a person is facing the DVC 100, that is, even when a voice is uttered from almost the center of the person's face as viewed from the DVC 100, the DVC 100 can input the voice uttered by the person with emphasis. . Further, even when a person faces sideways with respect to the DVC 100, that is, when a voice is uttered from the right end or the left end of the person's face as viewed from the DVC 100, the DVC 100 can input the voice uttered by the person with emphasis. it can.

また制御部101は、顔認識処理により複数の顔が認識された場合、スルー画像Tpの中心線Oを中心とする、当該複数の顔を示す複数の顔枠Fsが全て含まれる最小の範囲を検出する。   In addition, when a plurality of faces are recognized by the face recognition process, the control unit 101 sets a minimum range including all of the plurality of face frames Fs indicating the plurality of faces centered on the center line O of the through image Tp. To detect.

そして制御部101は、当該範囲と撮像画角θとに基づいて、認識された複数の顔が全て含まれる範囲の画角(顔画角α)を算出し、この顔画角αに基づいて、マイクロホン部111の指向性を制御するようにした。   Then, the control unit 101 calculates an angle of view (face angle of view α) of a range including all the recognized faces based on the range and the imaging angle of view θ, and based on the face angle of view α. The directivity of the microphone unit 111 is controlled.

これによりDVC100は、撮像範囲のうち複数の人物の顔が占める範囲から入力される音声を強調する指向性で音声を入力できるので、一人のみならず、複数の人物が発する声を強調して入力することができる。   As a result, the DVC 100 can input sound with directivity that emphasizes the sound input from the range occupied by the faces of a plurality of persons in the imaging range, so that input is performed by emphasizing not only one person but also a plurality of persons. can do.

ところで、被写体となる人物が移動する場合、人物の移動に合わせてマイクロホン部111の指向主軸の方向を移動させることで、人物の発する声を強調して入力することが考えられる。   By the way, when the person who becomes the subject moves, it is conceivable that the voice of the person is emphasized and inputted by moving the direction of the directional main axis of the microphone unit 111 in accordance with the movement of the person.

しかしこのようにマイクロホン部111の指向主軸の方向を移動させると、それに伴ってマイクロホン部111に入力される音声の音像定位が移動してしまうので、当該音声が再生されたときにユーザに違和感を与えてしまうこととなる。   However, if the direction of the directional main axis of the microphone unit 111 is moved in this way, the sound image localization of the sound input to the microphone unit 111 is moved accordingly, so that the user feels uncomfortable when the sound is reproduced. Will be given.

これに対して本発明のDVC100は、顔画角αが示す範囲、強調して入力するようにマイクロホン部111の指向角の大きさを制御するようにした。つまりDVC100は、人物の顔が占める範囲を含む、撮像主軸を中心とする範囲を強調して入力するようにマイクロホン部111の指向角の大きさを制御するようにした。   On the other hand, the DVC 100 of the present invention controls the size of the directivity angle of the microphone unit 111 so that the range indicated by the face angle of view α is input with emphasis. That is, the DVC 100 controls the size of the directivity angle of the microphone unit 111 so that the range centered on the imaging main axis including the range occupied by the person's face is emphasized.

これによりDVC100は、撮像主軸を中心として、つまりマイクロホン部111の指向主軸を中心として、マイクロホン部111の指向角の大きさを変化させるだけで、人物の発する声を強調して入力できる。ゆえにDVC100は、マイクロホン部111の指向主軸を変化させなくても人物の発する声を強調して入力できるので、音像定位を移動させることなく、ユーザに違和感を与えないようにできる。   As a result, the DVC 100 can emphasize and input a voice uttered by a person only by changing the size of the directional angle of the microphone unit 111 around the imaging main axis, that is, the directional main axis of the microphone unit 111. Therefore, the DVC 100 can emphasize and input a voice uttered by a person without changing the directional main axis of the microphone unit 111, so that the user can be prevented from feeling uncomfortable without moving the sound image localization.

またDVC100は、顔画角αを、マイクロホン部111において制御されうる範囲内(つまり最小指向角βmin以上)の指向角と対応付ける式(5)を用いて、顔画角αから適切指向角βを算出するようにした。そしてDVC100は、このようにして算出した適切指向角βとなるようにマイクロホン部111の指向角を制御するようにした。   In addition, the DVC 100 uses the expression (5) that associates the face angle of view α with the directivity angle within the range that can be controlled by the microphone unit 111 (that is, the minimum directivity angle βmin or more). Calculated. The DVC 100 controls the directivity angle of the microphone unit 111 so that the proper directivity angle β calculated in this way is obtained.

これによりDVC100は、マイクロホン部111において指向角が制御されうる範囲によらず、顔画角αに基づいてマイクロホン部111の指向角を制御することができる。つまりDVC100において、例えば鋭指向性に制御可能なマイクロホンでなくても、指向性を可変制御しうるマイクロホンであれば、種々のマイクロホンを用いることができる。   Thereby, the DVC 100 can control the directivity angle of the microphone unit 111 based on the face angle of view α regardless of the range in which the directivity angle can be controlled in the microphone unit 111. That is, in the DVC 100, various microphones can be used as long as the microphones can variably control the directivity, for example, not the microphones that can be controlled to sharp directivity.

以上の構成によれば、DVC100は、スルー画像における人物の顔を認識し、スルー画像における人物の顔が占める範囲に基づいて、マイクロホン部111の指向性を制御するようにした。   According to the above configuration, the DVC 100 recognizes the person's face in the through image and controls the directivity of the microphone unit 111 based on the range occupied by the person's face in the through image.

これによりDVC100は、撮像範囲のうち人物の顔が占める範囲から入力される音声を強調する指向性で音声を入力できるので、人物の顔のどの部分から発せられたかによらず人物が発する声を強調して入力することができる。かくしてDVC100は、一段と確実に人物が発する声を強調して入力することができる。   As a result, the DVC 100 can input the voice with directivity that emphasizes the voice input from the range occupied by the person's face in the imaging range, so the voice uttered by the person regardless of which part of the person's face is emitted. Can be input with emphasis. Thus, the DVC 100 can input a voice that a person utters more surely.

<2.第2の実施の形態>
[2−1.第2の実施の形態の概要]
次に第2の実施の形態について説明する。因みにこの概要を説明した後、本実施の形態の具体例の説明に移る。
<2. Second Embodiment>
[2-1. Outline of Second Embodiment]
Next, a second embodiment will be described. By the way, after explaining this outline, it moves to the explanation of a specific example of the present embodiment.

図1と対応する部分について同様の符号を付した図11において、10は、第2の実施の形態における撮像装置を示す。この撮像装置10は、上述した第1の実施の形態と同様の撮像部2、音声入力部3及び認識部4を有している。   In FIG. 11, in which parts corresponding to those in FIG. 1 are denoted by the same reference numerals, reference numeral 10 denotes an imaging apparatus according to the second embodiment. The imaging device 10 includes the same imaging unit 2, voice input unit 3, and recognition unit 4 as those in the first embodiment described above.

また撮像装置10は、認識部4により認識された被写体の中から、任意の被写体を選択する選択部11を有している。   In addition, the imaging apparatus 10 includes a selection unit 11 that selects an arbitrary subject from among the subjects recognized by the recognition unit 4.

さらに撮像装置10は、撮像画像において、選択部11により選択された一又は複数の被写体が全て含まれる範囲を検出し、当該範囲に基づいて音声入力部3の指向性を制御する制御部12を有している。   Furthermore, the imaging device 10 detects a range including all of one or a plurality of subjects selected by the selection unit 11 in the captured image, and controls the control unit 12 that controls the directivity of the audio input unit 3 based on the range. Have.

このような構成でなる撮像装置10の具体例であるDVC200について、以下、詳しく説明する。尚DVC200のハードウェア構成については、第1の実施の形態におけるDVC100のハードウェア構成(図2)と同様であるので第1の実施の形態を参照とする。   The DVC 200, which is a specific example of the imaging apparatus 10 having such a configuration, will be described in detail below. The hardware configuration of the DVC 200 is the same as the hardware configuration (FIG. 2) of the DVC 100 in the first embodiment, and therefore the first embodiment is referred to.

尚第2の実施の形態において、DVC200の撮像部108が、上述した撮像装置10の撮像部2に相当するハードウェアである。またDVC200のマイクロホン部111及び指向角可変部112が、上述した撮像装置10の音声入力部3に相当するハードウェアである。さらにDVC200の顔認識処理部110が、上述した撮像装置10の認識部4に相当するハードウェアである。さらにDVC200の制御部101が、上述した撮像装置10の選択部11及び制御部12に相当するハードウェアである。   In the second embodiment, the imaging unit 108 of the DVC 200 is hardware corresponding to the imaging unit 2 of the imaging apparatus 10 described above. Further, the microphone unit 111 and the directivity angle varying unit 112 of the DVC 200 are hardware corresponding to the audio input unit 3 of the imaging device 10 described above. Furthermore, the face recognition processing unit 110 of the DVC 200 is hardware corresponding to the recognition unit 4 of the imaging device 10 described above. Furthermore, the control unit 101 of the DVC 200 is hardware corresponding to the selection unit 11 and the control unit 12 of the imaging device 10 described above.

[2−2.指向角制御処理]
第2の実施の形態におけるDVC200の制御部101は、顔認識処理部110から顔認識処理の結果を取得すると、これに基づいて、スルー画像Tpにおける顔枠Fsの位置及び大きさを検出する。
[2-2. Directional angle control processing]
When the control unit 101 of the DVC 200 in the second embodiment acquires the result of the face recognition processing from the face recognition processing unit 110, the control unit 101 detects the position and size of the face frame Fs in the through image Tp based on the acquired result.

顔枠Fsが1つ検出された場合、制御部101は、第1の実施の形態と同様に、顔枠Fsが含まれる範囲を検出し、この範囲を用いて、顔枠Fsが示す顔が占める範囲の画角を顔画角αとして算出する。   When one face frame Fs is detected, the control unit 101 detects a range including the face frame Fs and uses the range to detect the face indicated by the face frame Fs, as in the first embodiment. The angle of view of the occupied range is calculated as the face angle of view α.

一方顔枠Fsが複数検出された場合、制御部101は、それぞれの顔枠Fsの面積を算出し、最も面積の大きい顔枠Fsがどれかを判別する。最も面積の大きい顔枠Fsは、DVC200に最も距離が近い顔を示している。つまり最も面積の大きい顔枠Fsが示す顔の人物は、DVC200に向かって声を発している可能性が高いと考えられる。   On the other hand, when a plurality of face frames Fs are detected, the control unit 101 calculates the area of each face frame Fs and determines which face frame Fs has the largest area. The face frame Fs having the largest area indicates the face closest to the DVC 200. That is, it is considered that there is a high possibility that the person with the face indicated by the face frame Fs having the largest area is speaking toward the DVC 200.

ゆえに制御部101は、最も面積の大きい顔枠Fsが示す顔の人物を、声を発している人物であると予測し、当該最も面積の大きい顔枠Fsを選択する。そして制御部101は、選択した顔枠Fsにおいて、中心線Oから右端までの長さ及び中心線Oから左端までの長さを算出し、これらのうち長い方を算出用長さsとして設定する。   Therefore, the control unit 101 predicts the person with the face indicated by the face frame Fs having the largest area as the person who is speaking, and selects the face frame Fs having the largest area. Then, the control unit 101 calculates the length from the center line O to the right end and the length from the center line O to the left end in the selected face frame Fs, and sets the longer one as the calculation length s. .

例えば図12に示すように、顔認識処理により、左から順に顔枠Fs4、顔枠Fs5、顔枠Fs6が検出されたとする。このとき制御部101は、顔枠Fs6の面積が一番大きいと判別したとすると、顔枠Fs6を選択する。ここでは中心線Oから顔枠Fs6の左端までの長さsL3よりも、中心線Oから顔枠Fs6の右端までの長さsR3の方が長いので、制御部101は、長さsR3を算出用長さsとして設定する。   For example, as shown in FIG. 12, it is assumed that a face frame Fs4, a face frame Fs5, and a face frame Fs6 are detected in order from the left by the face recognition process. At this time, if it is determined that the area of the face frame Fs6 is the largest, the control unit 101 selects the face frame Fs6. Here, since the length sR3 from the center line O to the right end of the face frame Fs6 is longer than the length sL3 from the center line O to the left end of the face frame Fs6, the control unit 101 calculates the length sR3. Set as length s.

そして制御部101は、上述した第1の実施の形態と同様に、式(3)及び式(4)を用いて顔画角αを算出する。   And the control part 101 calculates the face angle of view (alpha) using Formula (3) and Formula (4) similarly to 1st Embodiment mentioned above.

つまり制御部101は、スルー画像Tpにおいて一番面積の大きい顔枠Fsが占める範囲を検出する。そして制御部101は、中心線Oを中心とする、当該顔枠Fsが占める範囲を含む最小の範囲(つまり中心線Oから左右に算出用長さsの範囲)を検出し、この範囲を用いて当該顔枠Fsが示す顔が占める範囲の画角を顔画角αとして算出する。   That is, the control unit 101 detects a range occupied by the face frame Fs having the largest area in the through image Tp. Then, the control unit 101 detects a minimum range including the range occupied by the face frame Fs with the center line O as the center (that is, a range of the calculation length s from the center line O to the left and right), and uses this range. Then, the angle of view of the range occupied by the face indicated by the face frame Fs is calculated as the face angle of view α.

そして制御部101は、上述した第1の実施の形態と同様に、顔画角αを用いて式(5)により適切指向角βを算出し、指向角可変部112を介して、マイクロホン部111の指向角を適切指向角βとなるように制御する。   Then, as in the first embodiment described above, the control unit 101 calculates the appropriate directivity angle β using the face angle of view α using Equation (5), and the microphone unit 111 via the directivity angle variable unit 112. Is controlled so as to be an appropriate directivity angle β.

以上の構成によればDVC200は、複数の顔が認識された場合、複数の顔枠Fsの中から最も面積の大きい顔枠Fsが示す顔の人物を、DVC200に向かって声を発している人物であると予測し、当該最も面積の大きい顔枠Fsを選択する。   According to the above configuration, when a plurality of faces are recognized, the DVC 200 is a person who utters a person whose face is indicated by the face frame Fs having the largest area among the plurality of face frames Fs toward the DVC 200. And the face frame Fs having the largest area is selected.

そしてDVC200は、選択した顔枠Fsが含まれる範囲に基づいて、当該顔枠Fsが示す人物の顔が占める範囲の画角(顔画角α)を算出し、この顔画角αに基づいて、マイクロホン部111の指向性を制御するようにした。   The DVC 200 calculates an angle of view (face angle of view α) of a range occupied by the face of the person indicated by the face frame Fs based on the range including the selected face frame Fs, and based on the face angle of view α. The directivity of the microphone unit 111 is controlled.

これによりDVC200は、DVC200に最も距離が近い人物、つまりDVC200に向かって声を発している可能性が高い人物の顔が占める範囲から入力される音声を強調する指向性で音声を入力できる。ゆえにDVC200は、DVC200に向かって声を発している可能性が高い人物の声を強調して入力できるので、一段と確実に人物が発する声を強調して入力することができる。   As a result, the DVC 200 can input the voice with a directivity that emphasizes the voice input from the range occupied by the face of the person closest to the DVC 200, that is, the person who is likely to speak to the DVC 200. Therefore, the DVC 200 can emphasize and input the voice of a person who has a high possibility of speaking toward the DVC 200, and thus can more reliably emphasize and input the voice of the person.

<3.第3の実施の形態>
次に第3の実施の形態について説明する。第3の実施の形態における撮像装置20は、上述した第2の実施の形態における撮像装置10(図11)と機能構成については同様であるので、第2の実施の形態を参照とする。
<3. Third Embodiment>
Next, a third embodiment will be described. Since the imaging apparatus 20 in the third embodiment is similar in functional configuration to the imaging apparatus 10 (FIG. 11) in the second embodiment described above, reference is made to the second embodiment.

このような撮像装置20の具体例であるDVC300について、以下、詳しく説明する。尚DVC300のハードウェア構成については、第1の実施の形態におけるDVC100のハードウェア構成(図3)と同様であるので第1の実施の形態を参照とする。   The DVC 300 that is a specific example of such an imaging apparatus 20 will be described in detail below. Note that the hardware configuration of the DVC 300 is the same as the hardware configuration of the DVC 100 in the first embodiment (FIG. 3), so the first embodiment will be referred to.

[3−1.指向角制御処理]
第3の実施の形態におけるDVC300の顔認識処理部110は、顔認識処理において、第1の実施の形態と同様にスルー画像Tpから人物の顔を認識すると共に、人物の口を認識する。そして顔認識処理部110は、認識された顔において口が認識されたか否かも顔認識処理の結果として制御部101に返す。
[3-1. Directional angle control processing]
In the face recognition process, the face recognition processing unit 110 of the DVC 300 in the third embodiment recognizes a person's face from the through image Tp and recognizes the person's mouth in the same manner as in the first embodiment. Then, the face recognition processing unit 110 also returns to the control unit 101 as a result of the face recognition processing whether or not the mouth has been recognized in the recognized face.

ここで口が認識された顔の人物は、DVC300に向かって声を発している可能性が高いと考えられる。ゆえに制御部101は、顔認識処理部110から顔認識処理の結果を取得すると、口が認識された顔枠Fsが示す顔の人物を、声を発している人物であると予測し、当該口が認識された顔枠Fsを選択する。   Here, it is considered that the face person whose mouth is recognized has a high possibility of speaking toward the DVC 300. Therefore, when the control unit 101 acquires the result of the face recognition processing from the face recognition processing unit 110, the control unit 101 predicts the person of the face indicated by the face frame Fs whose mouth is recognized as the person who is speaking, and The face frame Fs in which is recognized is selected.

例えば図13に示すように、顔認識処理により、左から順に顔枠Fs7、顔枠Fs8、顔枠Fs9が検出されたとする。尚、顔枠Fs7においては、例えば人物が横を向いているために口が認識されていないとし、顔枠Fs8及び顔枠Fs9においては、口が認識されているとする。このとき制御部101は、口が認識されている顔枠Fs8及び顔枠Fs9を選択する。   For example, as shown in FIG. 13, it is assumed that a face frame Fs7, a face frame Fs8, and a face frame Fs9 are detected in order from the left by the face recognition process. In the face frame Fs7, for example, it is assumed that the mouth is not recognized because a person is facing sideways, and the mouth is recognized in the face frames Fs8 and Fs9. At this time, the control unit 101 selects the face frame Fs8 and the face frame Fs9 whose mouth is recognized.

そして制御部101は、選択した顔枠Fsの中で、中心線Oから一番遠い顔枠Fsの端までの長さを算出用長さsとして設定する。   Then, the control unit 101 sets the length from the center line O to the end of the face frame Fs farthest in the selected face frame Fs as the calculation length s.

図13に示す場合では、中心線Oから顔枠Fs8の左端までの長さsL4よりも、中心線Oから顔枠Fs9の右端までの長さsR4の方が長いので、制御部101は、長さsR4を算出用長さsとして設定する。   In the case illustrated in FIG. 13, the length sR4 from the center line O to the right end of the face frame Fs9 is longer than the length sL4 from the center line O to the left end of the face frame Fs8. The length sR4 is set as the calculation length s.

そして制御部101は、上述した第1の実施の形態と同様に、式(3)及び式(4)を用いて顔画角αを算出する。   And the control part 101 calculates the face angle of view (alpha) using Formula (3) and Formula (4) similarly to 1st Embodiment mentioned above.

つまり制御部101は、スルー画像Tpにおいて、中心線Oを中心とする、口が認識された顔枠Fsを全て含む最小の範囲(つまり中心線Oから左右に算出用長さsの範囲)を検出する。そして制御部101は、この範囲と撮像画角θとに基づいて、口が認識された顔を全て含む最小の範囲の画角を顔画角αとして算出する。   That is, in the through image Tp, the control unit 101 sets a minimum range including all the face frames Fs in which the mouth is recognized centered on the center line O (that is, a range of the calculation length s from the center line O to the left and right). To detect. Then, the control unit 101 calculates, based on this range and the imaging field angle θ, the minimum field angle including all the faces whose mouth is recognized as the face field angle α.

そして制御部101は、上述した第1の実施の形態と同様に、顔画角αを用いて式(5)により適切指向角βを算出し、指向角可変部112を介して、マイクロホン部111の指向角を適切指向角βとなるように制御する。   Then, as in the first embodiment described above, the control unit 101 calculates the appropriate directivity angle β using the face angle of view α using Equation (5), and the microphone unit 111 via the directivity angle variable unit 112. Is controlled so as to be an appropriate directivity angle β.

以上の構成によればDVC300は、認識された顔枠Fsの中から口が認識された一又は複数の顔枠Fsが示す顔の人物を、DVC300に向かって声を発している人物であると予測し、当該顔枠Fsを選択する。   According to the above configuration, the DVC 300 is a person who is speaking out to the DVC 300 a person whose face is indicated by one or more face frames Fs whose mouth is recognized from among the recognized face frames Fs. Predict and select the face frame Fs.

そしてDVC300は、選択した顔枠Fsが全て含まれる範囲に基づいて、当該顔枠Fsが示す人物の顔が全て含まれるような範囲の画角(顔画角α)を算出し、この顔画角αに基づいて、マイクロホン部111の指向性を制御するようにした。   Then, the DVC 300 calculates an angle of view (face angle of view α) of a range in which all the faces of the person indicated by the face frame Fs are included based on the range including all of the selected face frame Fs. The directivity of the microphone unit 111 is controlled based on the angle α.

これによりDVC300は、DVC300に向かって口を向けている人物、つまりDVC300に向かって声を発している可能性が高い人物の顔が占める範囲から入力される音声を強調する指向性で音声を入力できる。ゆえにDVC300は、DVC300に向かって声を発している可能性が高い一又は複数の人物の声を強調して入力できるので、一段と確実に人物が発する声を強調して入力することができる。   As a result, the DVC 300 inputs the voice with the directivity that emphasizes the voice inputted from the range occupied by the face of the person whose mouth is facing the DVC 300, that is, the person who is likely to speak to the DVC 300. it can. Therefore, the DVC 300 can input the voice of one or a plurality of persons who are highly likely to speak toward the DVC 300, and can input the voice generated by the person with more certainty.

<4.第4の実施の形態>
次に第4の実施の形態について説明する。第4の実施の形態における撮像装置40は、上述した第2の実施の形態における撮像装置10(図11)と機能構成については同様であるので、第2の実施の形態を参照とする。
<4. Fourth Embodiment>
Next, a fourth embodiment will be described. Since the imaging apparatus 40 in the fourth embodiment is similar in functional configuration to the imaging apparatus 10 (FIG. 11) in the second embodiment described above, reference is made to the second embodiment.

このような撮像装置40の具体例であるDVC400について、以下、詳しく説明する。尚DVC400のハードウェア構成についても、第1の実施の形態におけるDVC100のハードウェア構成(図3)と同様であるので第1の実施の形態を参照とする。   The DVC 400, which is a specific example of such an imaging apparatus 40, will be described in detail below. The hardware configuration of the DVC 400 is the same as the hardware configuration (FIG. 3) of the DVC 100 in the first embodiment, and therefore the first embodiment is referred to.

[4−1.指向角制御処理]
第4の実施の形態におけるDVC100の制御部101は、顔認識処理部110から顔認識処理の結果を取得すると、これに基づいて、スルー画像Tpにおける顔枠Fsの位置及び大きさを検出する。そして制御部101は、液晶パネル106に表示されているスルー画像Tp上に顔枠Fsを表示させる。
[4-1. Directional angle control processing]
When the control unit 101 of the DVC 100 according to the fourth embodiment acquires the result of the face recognition processing from the face recognition processing unit 110, the control unit 101 detects the position and size of the face frame Fs in the through image Tp based on this result. Then, the control unit 101 displays the face frame Fs on the through image Tp displayed on the liquid crystal panel 106.

そして制御部101は、ユーザ操作によりタッチパネル104又は操作部105を介して、任意の顔枠Fsが指定されると、指定された顔枠Fsを選択する。   Then, when an arbitrary face frame Fs is designated by the user operation via the touch panel 104 or the operation unit 105, the control unit 101 selects the designated face frame Fs.

例えば図14に示すように、顔認識処理により、左から順に顔枠Fs10、顔枠Fs11、顔枠Fs12が検出されたとする。このとき、ユーザ操作によりタッチパネル104又は操作部105を介して、例えば顔枠Fs11が指定された場合、制御部101は、顔枠Fs11を選択する。   For example, as shown in FIG. 14, it is assumed that a face frame Fs10, a face frame Fs11, and a face frame Fs12 are detected in order from the left by the face recognition process. At this time, for example, when the face frame Fs11 is designated by the user operation via the touch panel 104 or the operation unit 105, the control unit 101 selects the face frame Fs11.

そして制御部101は、選択した顔枠Fsにおいて、中心線Oから右端までの長さ及び中心線Oから左端までの長さを算出し、これらのうち長い方を算出用長さsとして設定する。   Then, the control unit 101 calculates the length from the center line O to the right end and the length from the center line O to the left end in the selected face frame Fs, and sets the longer one as the calculation length s. .

図14に示す場合では、中心線Oから顔枠Fs11の左端までの長さsL5の方が中心線Oから顔枠Fs11の右端までの長さsR5よりも長いので、制御部101は、長さsL5を算出用長さsとして設定する。   In the case illustrated in FIG. 14, the length sL5 from the center line O to the left end of the face frame Fs11 is longer than the length sR5 from the center line O to the right end of the face frame Fs11. sL5 is set as the calculation length s.

そして制御部101は、上述した第1の実施の形態と同様に、式(3)及び式(4)を用いて顔画角αを算出する。   And the control part 101 calculates the face angle of view (alpha) using Formula (3) and Formula (4) similarly to 1st Embodiment mentioned above.

つまり制御部101は、スルー画像Tpにおいて、中心線Oを中心とする、ユーザ入力に基づいて選択した顔枠Fsが占める範囲を含む最小の範囲(つまり中心線Oから左右に算出用長さsの範囲)を検出する。そして制御部101は、この範囲を用いて選択した顔枠Fsに対応する顔が占める範囲の画角を顔画角αとして算出する。   That is, in the through image Tp, the control unit 101 has the minimum range including the range occupied by the face frame Fs selected based on the user input centered on the center line O (that is, the calculation length s from the center line O to the left and right). ). Then, the control unit 101 calculates the angle of view of the range occupied by the face corresponding to the face frame Fs selected using this range as the face angle of view α.

そして制御部101は、上述した第1の実施の形態と同様に、顔画角αを用いて式(5)により適切指向角βを算出し、指向角可変部112を介して、マイクロホン部111の指向角を適切指向角βとなるように制御する。   Then, as in the first embodiment described above, the control unit 101 calculates the appropriate directivity angle β using the face angle of view α using Equation (5), and the microphone unit 111 via the directivity angle variable unit 112. Is controlled so as to be an appropriate directivity angle β.

また制御部101は、図14(B)に示すように、選択している顔枠Fs11を強調して(例えば二重線などで)表示させる。これと共に制御部101は、指向角制御処理を行っていることを示す指向角制御アイコンIcをスルー画像Tp上に表示させる。   Further, as shown in FIG. 14B, the control unit 101 emphasizes the selected face frame Fs11 and displays it (for example, with a double line). At the same time, the control unit 101 displays a directivity angle control icon Ic indicating that directivity angle control processing is being performed on the through image Tp.

またこれと共に制御部101は、中心線Oから左右に算出用長さsの範囲、つまりマイクロホン部111に声が強調して入力される範囲を示すマイクロホンバーBmをスルー画像Tp上に表示させる。マイクロホンバーBmは、塗りつぶされた範囲がマイクロホン部111に声が強調して入力される範囲を示すようになされている。   At the same time, the control unit 101 displays on the through image Tp a microphone bar Bm indicating the range of the calculation length s from the center line O to the left and right, that is, the range in which voice is emphasized and input to the microphone unit 111. In the microphone bar Bm, the filled range indicates a range where the voice is input to the microphone unit 111 with emphasis.

これによりDVC400は、現在どの範囲がマイクロホン部111に声が強調して入力されるかをユーザに通知することができるようになされている。   As a result, the DVC 400 can notify the user which range is currently input to the microphone unit 111 with the voice emphasized.

以上の構成によればDVC400は、認識された顔枠Fsの中から、タッチパネル104又は操作部105を介したユーザ操作に基づいて顔枠Fsを選択する。そしてDVC400は、選択した顔枠Fsが含まれる範囲に基づいて、当該顔枠Fsが示す人物の顔が占める範囲の画角(顔画角α)を算出する。そしてDVC400は、この顔画角αに基づいてマイクロホン部111の指向性を制御するようにした。   According to the above configuration, the DVC 400 selects the face frame Fs from the recognized face frames Fs based on a user operation via the touch panel 104 or the operation unit 105. Then, the DVC 400 calculates the angle of view (face angle of view α) of the range occupied by the face of the person indicated by the face frame Fs based on the range including the selected face frame Fs. The DVC 400 controls the directivity of the microphone unit 111 based on the face angle of view α.

これによりDVC400は、ユーザ操作に基づいて選択した人物の顔が占める範囲から入力される声を強調する指向性で声を入力できるので、ユーザの所望する人物が発する声を強調して入力することができる。   As a result, the DVC 400 can input a voice with a directivity that emphasizes the voice input from the range occupied by the face of the person selected based on the user operation. Therefore, the DVC 400 emphasizes and inputs the voice uttered by the person desired by the user. Can do.

<5.他の実施の形態>
[5−1.他の実施の形態1]
尚上述した第1の実施の形態では、制御部101は、顔認識処理により認識された人物の顔が占める範囲の画角(顔画角α)を算出し、これに基づいてマイクロホン部111の指向性を制御するようにした。
<5. Other embodiments>
[5-1. Other Embodiment 1]
In the first embodiment described above, the control unit 101 calculates the angle of view (face angle of view α) of the range occupied by the face of the person recognized by the face recognition process, and based on this, the control unit 101 calculates the angle of view. The directivity was controlled.

これに限らず制御部101は、顔認識処理により人物の口が認識された場合、人物の口が占める範囲の画角を算出し、これに基づいてマイクロホン部111の指向性を制御するようにしてもよい。   Not limited to this, when the person's mouth is recognized by the face recognition process, the control unit 101 calculates the angle of view of the range occupied by the person's mouth, and controls the directivity of the microphone unit 111 based on this. May be.

この場合、制御部101は、顔認識処理の結果から、図15に示すように口と認識された部分を示す矩形の枠(これを口枠とも呼ぶ)Msの位置及び大きさを検出する。   In this case, the control unit 101 detects the position and size of a rectangular frame (also referred to as a mouth frame) Ms indicating a portion recognized as a mouth as shown in FIG. 15 from the result of the face recognition process.

そして制御部101は、口枠Msにおいて、中心線Oから右端までの長さsR6及び中心線Oから左端sL6までの長さを算出し、これらのうち長い方(図15ではsL6)を算出用長さsとして設定する。つまり制御部101は、スルー画像Tpの中心線Oを中心とする、口枠Msが占める範囲を含む最小の範囲を検出する。   Then, the control unit 101 calculates the length sR6 from the center line O to the right end and the length from the center line O to the left end sL6 in the mouth frame Ms, and the longer one (sL6 in FIG. 15) is used for calculation. Set as length s. That is, the control unit 101 detects the minimum range including the range occupied by the mouth frame Ms, with the center line O of the through image Tp as the center.

そして制御部101は、上述した第1の実施の形態と同様の方法で、顔画角αの代わりに、撮像画角θにおける口が占める範囲の画角を算出し、これを用いて適切指向角βを算出する。そして制御部101は、指向角可変部112を介して、適切指向角βとなるようにマイクロホン部111の指向角を制御する。   Then, the control unit 101 calculates the angle of view of the range occupied by the mouth in the imaging angle of view θ instead of the face angle of view α in the same manner as in the first embodiment described above, and uses this to appropriately direct The angle β is calculated. Then, the control unit 101 controls the directivity angle of the microphone unit 111 through the directivity angle variable unit 112 so that the proper directivity angle β is obtained.

これによりDVC100は、撮像範囲において、人物の発する声の音源である口が占める範囲から入力される音声を強調する指向性で音声を入力できるので、一段と確実に人物の発する声を強調して入力することができる。   As a result, the DVC 100 can input the voice with directivity that emphasizes the voice input from the range occupied by the mouth, which is the sound source of the voice uttered by the person, in the imaging range, so that the voice uttered by the person is more reliably emphasized and input. can do.

またこれに限らず制御部101は、音声を発する被写体であれば、例えば動物など、この他種々の被写体が占める範囲の画角に基づいて、マイクロホン部111の指向性を制御するようにしてもよい。   In addition, the control unit 101 is not limited to this, and may control the directivity of the microphone unit 111 based on the angle of view of a range occupied by various other subjects such as animals, for example, as long as the subject emits sound. Good.

[5−2.他の実施の形態2]
また上述した第2の実施の形態では、制御部101は、最も面積の大きい顔枠Fsが示す顔の人物を、声を発している人物であると予測し、この人物の顔が占める範囲の画角に基づいてマイクロホン部111の指向性を制御するようにした。
[5-2. Other Embodiment 2]
In the second embodiment described above, the control unit 101 predicts that the person with the face indicated by the face frame Fs having the largest area is the person who is speaking, and the range occupied by the face of the person is The directivity of the microphone unit 111 is controlled based on the angle of view.

これに限らず制御部101は、この他種々の方法で声を発している被写体を予測し、声を発していると予測された被写体が占める範囲の画角に基づいてマイクロホン部111の指向性を制御してもよい。   The control unit 101 is not limited to this, and predicts the subject that is speaking by various other methods, and the directivity of the microphone unit 111 is based on the angle of view of the range occupied by the subject predicted to be speaking. May be controlled.

例えば制御部101は、最も横幅の広い顔枠Fsが示す顔の人物を、声を発している人物であると予測し、この人物の顔が占める範囲の画角に基づいてマイクロホン部111の指向性を制御してもよい。   For example, the control unit 101 predicts the person whose face is indicated by the widest face frame Fs as a person who is speaking, and directs the microphone unit 111 based on the angle of view of the range occupied by this person's face. Sex may be controlled.

この場合制御部101は、顔認識処理の結果に基づいて、検出された顔枠Fsの横幅をそれぞれ算出し、最も横幅の広い顔枠Fsがどれかを判別する。最も横幅の広い顔枠Fsは、DVC200に距離が近く且つDVC200に正面を向けていると考えられる。つまり最も横幅の広い顔枠Fsが示す顔の人物は、DVC200に向かって声を発している可能性が高いと考えられる。   In this case, the control unit 101 calculates the width of each detected face frame Fs based on the result of the face recognition process, and determines which face frame Fs has the widest width. It is considered that the face frame Fs having the widest width is close to the DVC 200 and faces the DVC 200 in front. That is, it is considered that there is a high possibility that the person whose face is indicated by the widest face frame Fs is speaking toward the DVC 200.

例えば図16(A)に示すように、顔認識処理により、左から順に顔枠Fs13、顔枠Fs14、顔枠Fs15が検出されたとする。このとき顔枠Fs13が示す顔の人物はDVC200から遠いために、図16(B)に示すように、顔枠Fs13の横幅L13は最も狭いとする。   For example, as shown in FIG. 16A, it is assumed that a face frame Fs13, a face frame Fs14, and a face frame Fs15 are detected in order from the left by the face recognition process. At this time, since the face person indicated by the face frame Fs13 is far from the DVC 200, the horizontal width L13 of the face frame Fs13 is assumed to be the narrowest as shown in FIG.

また顔枠Fs14が示す顔の人物は、最もDVC200に近いため顔枠Fs14の面積は最も大きいが、DVC200に対して斜めを向いているため、その横幅L14は、顔枠Fs15の横幅L15よりも狭いとする。   Since the face person indicated by the face frame Fs14 is closest to the DVC 200, the face frame Fs14 has the largest area. However, since the face person faces obliquely with respect to the DVC 200, the width L14 is larger than the width L15 of the face frame Fs15. Narrow.

また顔枠Fs15が示す顔の人物は、顔枠Fs14よりも面積は小さいが、DVC200に対して正面を向いているため、その横幅L15は最も広いとする。   Further, the face person indicated by the face frame Fs15 has a smaller area than the face frame Fs14, but faces the front with respect to the DVC 200, and therefore the width L15 is assumed to be the widest.

このとき制御部101は、最も横幅の広い顔枠Fs15が示す顔の人物を、声を発している人物であると予測し、顔枠Fs15を選択する。そして制御部101は、選択した顔枠Fs15において、中心線Oから右端までの長さsR7及び中心線Oから左端までの長さsL7を算出し、これらのうち長い方(図16の場合はsL7)を算出用長さsとして設定する。つまり制御部101は、スルー画像Tpの中心線Oを中心とする、選択した顔枠Fs15が占める範囲を含む最小の範囲を検出する。   At this time, the control unit 101 predicts the person with the face indicated by the widest face frame Fs15 as the person who is speaking, and selects the face frame Fs15. Then, the control unit 101 calculates the length sR7 from the center line O to the right end and the length sL7 from the center line O to the left end in the selected face frame Fs15, and the longer one (sL7 in the case of FIG. 16). ) Is set as the calculation length s. That is, the control unit 101 detects the minimum range including the range occupied by the selected face frame Fs15 centered on the center line O of the through image Tp.

そして制御部101は、上述した第1の実施の形態と同様に、顔画角α及び適切指向角βを算出し、指向角可変部112を介して、マイクロホン部111の指向角を適切指向角βとなるように制御する。   Then, as in the first embodiment described above, the control unit 101 calculates the face angle of view α and the appropriate directivity angle β, and sets the directivity angle of the microphone unit 111 via the directivity angle variable unit 112 to the appropriate directivity angle. Control to be β.

こうすることでDVC200は、DVC200に向かって声を発している可能性が高い人物の顔が占める範囲から入力される音声を強調する指向性で音声を入力できる。ゆえにDVC200は、声を発している可能性が高い人物が発する声を強調して入力できるので、一段と確実に人物が発する声を強調して入力することができる。   By doing so, the DVC 200 can input the voice with the directivity that emphasizes the voice input from the range occupied by the face of a person who is likely to speak to the DVC 200. Therefore, the DVC 200 can emphasize and input a voice uttered by a person who has a high possibility of uttering voice, so that the voice uttered by the person can be more reliably emphasized and input.

またこれに限らず制御部101は、例えば口が開いていると認識された顔の人物を、声を発している人物であると予測し、この人物の顔が占める範囲の画角に基づいてマイクロホン部111の指向性を制御するようにしてもよい。   For example, the control unit 101 predicts a person whose face is recognized as having an open mouth as a person who speaks, and based on the angle of view of the range occupied by the person's face. The directivity of the microphone unit 111 may be controlled.

この場合、顔認識処理部110は、顔認識処理においてスルー画像から人物の顔を認識すると共に人物の口が開いているか否かを認識し、顔認識処理の結果として制御部101に返す。   In this case, the face recognition processing unit 110 recognizes a person's face from the through image in the face recognition process, recognizes whether the person's mouth is open, and returns the result to the control unit 101 as a result of the face recognition process.

例えば図17に示すように、顔認識処理により、左から順に顔枠Fs16、顔枠Fs17、顔枠Fs18が検出されたとする。尚、顔枠Fs16及びFs18においては、例えば人物が口を閉じているために口が開いていないと認識され、顔枠Fs17においては、口が開いていると認識されたとする。   For example, as shown in FIG. 17, it is assumed that a face frame Fs16, a face frame Fs17, and a face frame Fs18 are detected in order from the left by the face recognition process. In the face frames Fs16 and Fs18, for example, it is recognized that the mouth is not open because a person closes his mouth, and in the face frame Fs17, it is recognized that the mouth is open.

ここで口が開いていると認識された顔の人物は、DVC300に向かって声を発している可能性が一段と高いと考えられる。ゆえに制御部101は、顔認識処理部110から顔認識処理の結果を取得すると、口が開いていると認識された顔枠Fs17が示す顔の人物を、声を発している人物であると予測し、当該顔枠Fs17を選択する。   Here, it is considered that the person whose face is recognized as having an open mouth is more likely to be speaking toward the DVC 300. Therefore, when the control unit 101 acquires the result of the face recognition processing from the face recognition processing unit 110, the control unit 101 predicts that the person of the face indicated by the face frame Fs17 recognized as having an open mouth is a person who is speaking. Then, the face frame Fs17 is selected.

そして制御部101は、選択した顔枠Fs17において、中心線Oから右端までの長さsR8及び中心線Oから左端sL8までの長さを算出し、これらのうち長い方(図17ではsL8)を算出用長さsとして設定する。つまり制御部101は、スルー画像Tpの中心線Oを中心とする、選択した顔枠Fs17が占める範囲を含む最小の範囲を検出する。   Then, the control unit 101 calculates the length sR8 from the center line O to the right end and the length from the center line O to the left end sL8 in the selected face frame Fs17, and the longer one (sL8 in FIG. 17) is calculated. Set as the calculation length s. That is, the control unit 101 detects the minimum range including the range occupied by the selected face frame Fs17 centered on the center line O of the through image Tp.

そして制御部101は、上述した第1の実施の形態と同様に、顔画角α及び適切指向角βを算出し、指向角可変部112を介して、マイクロホン部111の指向角を適切指向角βとなるように制御する。   Then, as in the first embodiment described above, the control unit 101 calculates the face angle of view α and the appropriate directivity angle β, and sets the directivity angle of the microphone unit 111 via the directivity angle variable unit 112 to the appropriate directivity angle. Control to be β.

これによりDVC300は、口を開けている人物、つまり声を発している可能性が一段と高い人物の顔が占める範囲から入力される音声を強調する指向性で音声を入力できる。ゆえにDVC300は、声を発している可能性が一段と高い人物の発する声を強調して入力できるので、一段と確実に人物が発する声を強調して入力することができる。   As a result, the DVC 300 can input the voice with directivity that emphasizes the voice input from the range occupied by the face of the person whose mouth is open, that is, the person who is more likely to speak. Therefore, the DVC 300 can emphasize and input a voice uttered by a person who has a higher possibility of speaking, so that the voice uttered by a person can be more surely input.

またこれに限らず制御部101は、顔認識処理によって認識された顔の中から、主被写体(例えば構図のバランスが最もよい被写体など)を認識し、主被写体として認識された顔の人物を、声を発している人物であると予測するようにしてもよい。そして制御部101は、声を発していると予測された人物を選択し、選択した人物の顔が占める範囲の画角に基づいてマイクロホン部111の指向性を制御するようにしてもよい。   In addition, the control unit 101 recognizes a main subject (for example, a subject with the best composition balance) from the faces recognized by the face recognition process, and determines the person of the face recognized as the main subject. It may be predicted that the person is speaking. Then, the control unit 101 may select a person predicted to be speaking and control the directivity of the microphone unit 111 based on the angle of view of the range occupied by the face of the selected person.

[5−3.他の実施の形態3]
さらに上述した第4の実施の形態では、制御部101は、ユーザ入力により指定された顔枠Fsを選択し、選択した顔枠Fsが示す顔が占める範囲の画角に基づいてマイクロホン部111の指向性を制御するようにした。
[5-3. Other Embodiment 3]
Furthermore, in the fourth embodiment described above, the control unit 101 selects the face frame Fs designated by the user input, and based on the angle of view of the range occupied by the face indicated by the selected face frame Fs, the control unit 101 The directivity was controlled.

これに限らず制御部101は、認識された顔枠Fsの中からこの他種々の方法で顔枠Fsを選択し、選択した顔枠Fsが示す顔が占める範囲の画角に基づいてマイクロホン部111の指向性を制御してもよい。   Not limited to this, the control unit 101 selects the face frame Fs from the recognized face frame Fs by various other methods, and the microphone unit based on the angle of view of the range occupied by the face indicated by the selected face frame Fs. The directivity of 111 may be controlled.

例えばDVC400は、予め各個人に優先度が設定されている場合、この優先度に基づいて顔枠Fsを選択するようにしてもよい。   For example, when a priority is set for each individual in advance, the DVC 400 may select the face frame Fs based on this priority.

この場合、顔認識処理部110は、顔認識処理により検出された顔枠Fsがどの個人であるかを、予めフラッシュメモリ102等に記録されている各個人の顔の特徴量に基づいて認識する個人認識処理を行い、その結果を制御部101に送る。   In this case, the face recognition processing unit 110 recognizes which individual the face frame Fs detected by the face recognition process is based on the feature amount of each individual face recorded in advance in the flash memory 102 or the like. Individual recognition processing is performed, and the result is sent to the control unit 101.

制御部101は、予めフラッシュメモリ102等に記録されている各個人の優先度に基づいて、認識された個人の優先度を判別し、最も優先度の高い個人の顔を示す顔枠Fsを選択する。   The control unit 101 determines the priority of the recognized individual based on the priority of each individual recorded in advance in the flash memory 102 or the like, and selects the face frame Fs indicating the face of the individual with the highest priority. To do.

例えば図18(A)に示すように、顔認識処理により、左から順に顔枠Fs19、顔枠Fs20、顔枠Fs21が検出されたとする。またここでは、図18(B)に示すように、顔枠Fs19が示す顔の個人は優先度が1であるとし、顔枠Fs20が示す顔の個人は優先度が3であるとし、顔枠Fs21が示す顔の個人は優先度が2であるとする。   For example, as shown in FIG. 18A, it is assumed that the face frame Fs19, the face frame Fs20, and the face frame Fs21 are detected in order from the left by the face recognition process. Further, here, as shown in FIG. 18B, it is assumed that the individual of the face indicated by the face frame Fs19 has a priority of 1, the individual of the face indicated by the face frame Fs20 has a priority of 3, and the face frame The individual of the face indicated by Fs21 has a priority of 2.

このとき制御部101は、最も優先度の高い個人の顔を示す顔枠Fs20を選択して、中心線Oから右端までの長さsR9及び中心線Oから左端sL9までの長さを算出し、これらのうち長い方(図18ではsL9)を算出用長さsとして設定する。つまり制御部101は、スルー画像Tpの中心線Oを中心とする、選択した顔枠Fs20が占める範囲を含む最小の範囲を検出する。   At this time, the control unit 101 selects the face frame Fs20 indicating the face of the individual with the highest priority, calculates the length sR9 from the center line O to the right end and the length from the center line O to the left end sL9, Of these, the longer one (sL9 in FIG. 18) is set as the calculation length s. That is, the control unit 101 detects the minimum range including the range occupied by the selected face frame Fs20 with the center line O of the through image Tp as the center.

そして制御部101は、上述した第1の実施の形態と同様に、顔画角α及び適切指向角βを算出し、指向角可変部112を介して、マイクロホン部111の指向角を適切指向角βとなるように制御する。   Then, as in the first embodiment described above, the control unit 101 calculates the face angle of view α and the appropriate directivity angle β, and sets the directivity angle of the microphone unit 111 via the directivity angle variable unit 112 to the appropriate directivity angle. Control to be β.

これによりDVC400は、予め設定された優先度が最も高い人物の顔が占める範囲から入力される音声を強調する指向性で音声を入力できるので、当該優先度が最も高い人物の発する声を強調して入力できる。   As a result, the DVC 400 can input the voice with the directivity that emphasizes the voice input from the range occupied by the face of the person with the highest priority set in advance, so that the voice uttered by the person with the highest priority is emphasized. Can be entered.

また例えば制御部101は、子供の優先度を大人の優先度よりも高く設定しておき、この優先度に基づいて顔枠Fsを選択するようにしてもよい。   For example, the control unit 101 may set the priority of the child higher than the priority of the adult, and may select the face frame Fs based on this priority.

この場合、顔認識処理部110は、顔認識処理により検出された顔枠Fsが示す人物の年齢を判別する年齢判別処理を行い、その結果を制御部101に送る。   In this case, the face recognition processing unit 110 performs an age determination process for determining the age of the person indicated by the face frame Fs detected by the face recognition process, and sends the result to the control unit 101.

制御部101は、判別した年齢に基づいて、認識された顔の優先度を判別し、最も優先度の高い人物(例えば子供)の顔を示す顔枠Fsを選択する。   The control unit 101 determines the priority of the recognized face based on the determined age, and selects the face frame Fs indicating the face of the person with the highest priority (for example, a child).

またこれに限らず制御部101は、認識された顔枠Fsの各々に対してこの他種々の方法で設定された優先度に基づいて顔枠Fsを選択し、選択した顔枠Fsが示す顔が占める範囲の画角に基づいてマイクロホン部111の指向性を制御してもよい。   In addition, the control unit 101 selects the face frame Fs based on the priorities set by various other methods for each recognized face frame Fs, and the face indicated by the selected face frame Fs. The directivity of the microphone unit 111 may be controlled based on the angle of view of the range occupied by.

[5−4.他の実施の形態4]
さらに上述した第1の実施の形態では、制御部101は、スルー画像Tpから人物の顔が認識されなかった場合、マイクロホン部111の指向角の制御を行わないようにした。
[5-4. Other Embodiment 4]
Furthermore, in the first embodiment described above, the control unit 101 does not control the directivity angle of the microphone unit 111 when a human face is not recognized from the through image Tp.

これに限らず制御部101は、スルー画像Tpから人物の顔が認識されなかった場合、マイクロホン部111を無指向性にするようにしてもよい。   Not limited to this, the control unit 101 may make the microphone unit 111 omnidirectional when a human face is not recognized from the through image Tp.

これによりDVC100は、撮影時の状況に適した指向性で音声を入力することができる。スルー画像Tpから人物の顔が認識されなかった場合は、風景などを撮影していることが多く、様々な方向から音声が入力されると考えられるからである。   As a result, the DVC 100 can input sound with directivity suitable for the situation at the time of shooting. This is because when a person's face is not recognized from the through image Tp, a landscape or the like is often photographed, and it is considered that sound is input from various directions.

またこれに限らず、マイクロホン部111がサラウンドマイクロホンとしての機能を有するのであれば、制御部101は、スルー画像Tpから人物の顔が認識されなかった場合、マイクロホン部111をサラウンドマイクロホンとして機能させるようにしてもよい。   Not limited to this, if the microphone unit 111 has a function as a surround microphone, the control unit 101 causes the microphone unit 111 to function as a surround microphone when a person's face is not recognized from the through image Tp. It may be.

[5−5.他の実施の形態5]
さらに上述した第4の実施の形態では、制御部101は、ユーザ操作により指定された顔枠Fsを選択し、選択した顔枠Fsが示す顔の人物が発する声を強調するように、マイクロホン部111の指向性を制御するようにした。
[5-5. Other Embodiment 5]
Further, in the fourth embodiment described above, the control unit 101 selects the face frame Fs specified by the user operation, and emphasizes the voice uttered by the person of the face indicated by the selected face frame Fs. 111 directivity was controlled.

これに限らず、制御部101は、ユーザ操作により指定された顔枠Fsが示す顔の人物が発する声を強調しないように、マイクロホン部111の指向性を制御するようにしてもよい。   Not limited to this, the control unit 101 may control the directivity of the microphone unit 111 so as not to emphasize the voice uttered by the face person indicated by the face frame Fs specified by the user operation.

具体的に、例えば図14(A)に示すように、顔枠Fs10、顔枠Fs11、顔枠Fs12が検出されたとする。このとき制御部101は、ユーザ操作により顔枠F10が指定されたと認識すると、顔枠Fs10よりも中心線Oに近い顔枠Fs(つまり顔枠Fs11及び顔枠Fs12)のみが含まれる範囲を検出する。そして制御部101は、この範囲を用いて、顔枠Fs11及び顔枠Fs12が示す顔の人物のみが含まれる範囲の画角を算出し、これに基づいてマイクロホン部111の指向角を制御する。   Specifically, for example, as shown in FIG. 14A, it is assumed that a face frame Fs10, a face frame Fs11, and a face frame Fs12 are detected. At this time, when the control unit 101 recognizes that the face frame F10 is designated by the user operation, the control unit 101 detects a range including only the face frame Fs closer to the center line O than the face frame Fs10 (that is, the face frame Fs11 and the face frame Fs12). To do. Then, using this range, the control unit 101 calculates the angle of view of the range including only the face person indicated by the face frame Fs11 and the face frame Fs12, and controls the directivity angle of the microphone unit 111 based on this.

これによりDVC400は、ユーザ操作により指定された顔枠Fs10が示す顔の人物が発する声は強調して入力されないようにできる。またこれと共にDVC100は、顔枠Fs10よりも中心線O寄りの顔枠Fs11及び顔枠Fs12が示す顔の人物が発する声が強調して入力されるようにすることができる。   As a result, the DVC 400 can emphasize and prevent the voice from the person whose face is indicated by the face frame Fs10 designated by the user operation from being input. At the same time, the DVC 100 can emphasize and input a voice uttered by the face person indicated by the face frame Fs11 and the face frame Fs12 closer to the center line O than the face frame Fs10.

[5−6.他の実施の形態6]
さらに上述した第1の実施の形態では、制御部101は、撮影モードに切り替わると共に指向角制御処理を開始するようにした。そして制御部101は、タッチパネル104又は操作部105を介して指向角制御処理を終了するよう指示されない限り、指向角制御処理を継続して実行するようにした。
[5-6. Other Embodiment 6]
Furthermore, in the first embodiment described above, the control unit 101 switches to the shooting mode and starts the directivity angle control process. The control unit 101 continuously executes the directivity angle control process unless instructed via the touch panel 104 or the operation unit 105 to end the directivity angle control process.

これに限らず、制御部101は、この他種々のタイミングで指向角制御処理を開始したり終了したりするようにしてもよい。   However, the present invention is not limited to this, and the control unit 101 may start and end the directivity control process at various other timings.

例えば制御部101は、DVC100が通常撮影される向きから90度回転された向きで撮影されているとき(つまり縦撮りされているとき)は、指向角制御処理を実行しないようにしてもよい。この場合DVC100には、DVC100が90度回転されたことを認識できるセンサ(例えばジャイロセンサなど)が設けられているとする。   For example, the control unit 101 may not execute the directivity control process when the DVC 100 is photographed in a direction rotated 90 degrees from the normal photographing direction (that is, when the DVC 100 is photographed vertically). In this case, it is assumed that the DVC 100 is provided with a sensor (for example, a gyro sensor) that can recognize that the DVC 100 has been rotated 90 degrees.

[5−7.他の実施の形態7]
さらに上述した第4の実施の形態では、制御部101は、ユーザ操作によりスルー画像Tp上の顔枠Fsを指定させることで、マイクロホン部111に声が強調して入力される範囲を決定するようにした。
[5-7. Other Embodiment 7]
Furthermore, in the fourth embodiment described above, the control unit 101 determines a range in which voice is emphasized and input to the microphone unit 111 by designating the face frame Fs on the through image Tp by a user operation. I made it.

これに限らず制御部101は、この他種々のユーザ操作により、マイクロホン部111に声が強調して入力される範囲を決定するようにしてもよい。   However, the present invention is not limited to this, and the control unit 101 may determine a range in which voice is emphasized and input to the microphone unit 111 by various other user operations.

例えば制御部101は、マイクロホンバーBm(図13(B))に対するタッチ操作によりマイクロホン部111に声が強調して入力される範囲を決定するようにしてもよい。   For example, the control unit 101 may determine a range in which voice is emphasized and input to the microphone unit 111 by a touch operation on the microphone bar Bm (FIG. 13B).

この場合制御部101は、マイクロホンバーBmがタッチ操作されるごとにマイクロホンバーBmの範囲を切り替える。図13(A)に示す場合を考えると、例えば顔枠Fs11のみが含まれる範囲、顔枠Fs11及び顔枠Fs12が含まれる範囲、全ての顔枠Fsが含まれる範囲といった順に切り替える。   In this case, the control unit 101 switches the range of the microphone bar Bm every time the microphone bar Bm is touched. Considering the case shown in FIG. 13A, for example, a range including only the face frame Fs11, a range including the face frame Fs11 and the face frame Fs12, and a range including all the face frames Fs are switched in this order.

そして制御部101は、マイクロホンバーBmが示す範囲をマイクロホン部111に声が強調して入力される範囲として決定し、この範囲の画角に基づいて、マイクロホン部111の指向性を制御する。   Then, the control unit 101 determines the range indicated by the microphone bar Bm as a range in which voice is emphasized and input to the microphone unit 111, and controls the directivity of the microphone unit 111 based on the angle of view of this range.

[5−8.他の実施の形態8]
さらに上述した第1の実施の形態では、制御部101は、認識された人物の顔が占める範囲の画角(顔画角α)を用いて式(5)により適切指向角βを算出して、適切指向角βとなるようマイクロホン部111の指向角を制御するようにした。
[5-8. Other Embodiment 8]
Furthermore, in the first embodiment described above, the control unit 101 calculates the appropriate directivity angle β using Equation (5) using the angle of view (face angle of view α) of the range occupied by the recognized human face. In addition, the directivity angle of the microphone unit 111 is controlled so that the proper directivity angle β is obtained.

これに限らず制御部101は、顔画角αをマイクロホン部111において制御されうる範囲内の指向角と対応付け、対応付けた指向角となるようにマイクロホン部111の指向角を制御するのであれば、この他種々の方法でマイクロホン部111の指向性を制御するようにしてもよい。   Not limited to this, the control unit 101 associates the face angle of view α with a directivity angle within a range that can be controlled by the microphone unit 111, and controls the directivity angle of the microphone unit 111 so that the correlated directivity angle is obtained. For example, the directivity of the microphone unit 111 may be controlled by various other methods.

例えば制御部101は、顔画角αの値と、当該値に対応する適切指向角βとを、予め対応付けてフラッシュメモリ102等に記録しておくようにしてもよい。この場合、例えば顔画角αがx度以上y度以下の場合に、適切指向角βをz度とするといったように、顔画角αの範囲と適切指向角βとを対応付けておくようにしてもよい。   For example, the control unit 101 may record the value of the face angle of view α and the appropriate directivity angle β corresponding to the value in the flash memory 102 or the like in advance. In this case, for example, when the face angle of view α is greater than or equal to x degrees and less than or equal to y degrees, the range of the face angle of view α is associated with the appropriate direction angle β such that the appropriate directivity angle β is set to z degrees. It may be.

[5−9.他の実施の形態9]
さらに上述した第1の実施の形態では、DVC100に指向角が連続的に可変であるマイクロホン部111及び指向角可変部112を設けるようにした。これに限らず、DVC100では、指向性が可変なマイクロホンであれば、この他種々のマイクロホンを用いるようにしてもよい。
[5-9. Other Embodiment 9]
Furthermore, in the above-described first embodiment, the DVC 100 is provided with the microphone unit 111 and the directivity angle variable unit 112 whose directivity angle is continuously variable. The DVC 100 is not limited to this, and various other microphones may be used as long as the directivity is variable.

[5−10.他の実施の形態10]
さらに上述した第1の実施の形態では、制御部101は、スルー画像Tpにおいて人物の顔が占める範囲と撮像画角θとに基づいて、人物の顔が占める範囲の画角(顔画角α)を算出し、この顔画角αに基づいてマイクロホン部111の指向性を制御するようにした。
[5-10. Other Embodiment 10]
Furthermore, in the first embodiment described above, the control unit 101 determines the field angle (face angle of view α) of the range occupied by the person's face based on the range occupied by the person's face and the imaging angle of view θ in the through image Tp. ) And the directivity of the microphone unit 111 is controlled based on the face angle of view α.

これに限らず制御部101は、スルー画像Tpにおいて被写体の占める範囲に基づいてマイクロホン部111の指向性を制御するのであれば、この他種々の方法を用いるようにしてもよい。例えば制御部101は、スルー画像Tpにおいて人物の顔が占める範囲が広くなるのに応じてマイクロホン部111の指向性を広くし、当該範囲が狭くなるのに応じてマイクロホン部111の指向性を狭くするようにしてもよい。   Not limited to this, the control unit 101 may use various other methods as long as it controls the directivity of the microphone unit 111 based on the range occupied by the subject in the through image Tp. For example, the control unit 101 increases the directivity of the microphone unit 111 in accordance with the increase of the range occupied by the human face in the through image Tp, and decreases the directivity of the microphone unit 111 in accordance with the decrease of the range. You may make it do.

[5−11.他の実施の形態11]
さらに上述した第1の実施の形態では、撮像装置1としてのDVC100に、撮像部2としての撮像部108と、音声入力部3としてのマイクロホン部111及び指向角可変部112と、認識部4としての顔認識処理部110とを設けるようにした。また撮像装置1としてのDVC100に、制御部5としての制御部101を設けるようにした。
[5-11. Other Embodiment 11]
Further, in the first embodiment described above, the DVC 100 as the imaging device 1, the imaging unit 108 as the imaging unit 2, the microphone unit 111 and the directivity angle variable unit 112 as the audio input unit 3, and the recognition unit 4 are used. The face recognition processing unit 110 is provided. Further, the control unit 101 as the control unit 5 is provided in the DVC 100 as the imaging device 1.

さらに上述した第2の実施の形態では、撮像装置10としてのDVC200に、撮像部2としての撮像部108と、音声入力部3としてのマイクロホン部111及び指向角可変部112と、認識部4としての顔認識処理部110とを設けるようにした。また撮像装置10としてのDVC200に、選択部11及び制御部12としての制御部101を設けるようにした。   Further, in the second embodiment described above, the DVC 200 as the imaging device 10, the imaging unit 108 as the imaging unit 2, the microphone unit 111 and the directivity angle variable unit 112 as the audio input unit 3, and the recognition unit 4 are used. The face recognition processing unit 110 is provided. Further, the selection unit 11 and the control unit 101 as the control unit 12 are provided in the DVC 200 as the imaging device 10.

本発明はこれに限らず、同様の機能を有するのであれば、上述したDVC100又はDVC200の各機能部を、他の種々のハードウェアもしくはソフトウェアにより構成するようにしてもよい。   The present invention is not limited to this, and each functional unit of the DVC 100 or DVC 200 described above may be configured by other various hardware or software as long as it has similar functions.

さらに上述した第1の実施の形態では、DVC100に本発明を適用するようにした。これに限らず、指向性を可変なマイクロホンを有する撮像装置であれば、例えばカメラを有するパーソナルコンピュータや携帯型電話機など、この他種々の撮像装置に適用するようにしてもよく、また適用することができる。   Furthermore, in the first embodiment described above, the present invention is applied to the DVC 100. However, the present invention is not limited to this, and any imaging device having a microphone with variable directivity may be applied to various other imaging devices such as a personal computer having a camera and a mobile phone. Can do.

[5−12.他の実施の形態12]
さらに上述した実施の形態では、指向角制御処理手順RT1を実行するためのプログラムを、DVC100のフラッシュメモリ102に書き込んでおくようにした。
[5-12. Other Embodiment 12]
Furthermore, in the above-described embodiment, a program for executing the directivity angle control processing procedure RT1 is written in the flash memory 102 of the DVC 100.

これに限らず、このプログラムを例えば記録媒体114に記録しておき、DVC100の制御部101が、このプログラムを記録媒体114から読み出して実行するようにしてもよい。また記録媒体114から読み出したプログラムを、フラッシュメモリ102にインストールするようにしてもよい。   For example, the program may be recorded on the recording medium 114 and the control unit 101 of the DVC 100 may read the program from the recording medium 114 and execute the program. Further, the program read from the recording medium 114 may be installed in the flash memory 102.

[5−13.他の実施の形態13]
さらに本発明は、上述した第1乃至第4の実施の形態と他の実施の形態とに限定されるものではない。すなわち本発明は、上述した第1乃至第4の実施の形態と他の実施の形態の一部または全部を任意に組み合わせた形態、もしくは一部を抽出した形態にもその適用領域が及ぶものである。
[5-13. Other Embodiment 13]
Furthermore, the present invention is not limited to the above-described first to fourth embodiments and other embodiments. That is, the present invention extends to the form in which some or all of the above-described first to fourth embodiments and other embodiments are arbitrarily combined or a part is extracted. is there.

例えば上述した第3の実施の形態と他の実施の形態4とを組み合わせるようにしてもよい。この場合制御部101は、顔認識処理の結果、口が認識されなかった場合に、マイクロホン部111を無指向性に制御する。   For example, the third embodiment described above and the other embodiment 4 may be combined. In this case, the control unit 101 controls the microphone unit 111 to be non-directional when the mouth is not recognized as a result of the face recognition processing.

本発明は、例えばデジタルビデオカメラなど、マイクロホンを有する撮像装置で広く利用することができる。   The present invention can be widely used in an imaging apparatus having a microphone such as a digital video camera.

1、10、20、30……撮像装置。2、108……撮像部、3……音声入力部、4……認識部、5、12、101……制御部、11……選択部、100、200、300、400……DVC、110……顔認識処理部、111……マイクロホン部、112……指向角可変部、θ……撮像画角、α……顔画角、β……適切指向角。   1, 10, 20, 30... 2, 108 ... Imaging unit, 3 ... Voice input unit, 4 ... Recognition unit, 5, 12, 101 ... Control unit, 11 ... Selection unit, 100, 200, 300, 400 ... DVC, 110 ... ... face recognition processing unit, 111 ... microphone part, 112 ... directivity angle variable part, θ ... imaging field angle, α ... face field angle, β ... appropriate directivity angle.

Claims (12)

撮像画像を取得する撮像部と、
音声を入力する音声入力部と、
上記撮像画像における被写体を認識する認識部と、
上記撮像画像における上記被写体の占める範囲に基づいて、上記音声入力部の指向性を制御する制御部と
を具える撮像装置。
An imaging unit for acquiring a captured image;
A voice input unit for inputting voice;
A recognition unit for recognizing a subject in the captured image;
An imaging apparatus comprising: a control unit that controls directivity of the audio input unit based on a range occupied by the subject in the captured image.
上記認識部により認識された被写体の中から、任意の被写体を選択する選択部
を具え、
上記制御部は、
上記撮像画像において、上記選択部により選択された一又は複数の被写体が全て含まれる範囲を検出し、当該範囲に基づいて上記音声入力部の指向性を制御する
請求項1に記載の撮像装置。
A selection unit for selecting an arbitrary subject from the subjects recognized by the recognition unit;
The control unit
The imaging apparatus according to claim 1, wherein in the captured image, a range including all of one or a plurality of subjects selected by the selection unit is detected, and directivity of the audio input unit is controlled based on the range.
上記選択部は、
上記認識部により認識された被写体の中から上記撮像装置に向かって音声を発している被写体を予測し、上記撮像装置に向かって音声を発していると予測された被写体を選択する
請求項2に記載の撮像装置。
The selection part
The subject predicted to emit sound toward the imaging device is selected from the subjects recognized by the recognition unit, and the subject predicted to emit sound toward the imaging device is selected. The imaging device described.
上記認識部は、
上記被写体として顔を認識すると共に、当該顔における口を認識し、
上記選択部は、
上記認識部により口が認識された被写体を、上記撮像装置に向かって音声を発している被写体であると予測して、当該被写体を選択する
請求項3に記載の撮像装置。
The recognition unit
Recognize the face as the subject, recognize the mouth in the face,
The selection part
The imaging device according to claim 3, wherein the subject whose mouth is recognized by the recognition unit is predicted to be a subject that emits sound toward the imaging device, and the subject is selected.
上記選択部は、
上記撮像画像における上記被写体の占める範囲が最も大きい被写体を、上記撮像装置に向かって音声を発している被写体であると予測して、当該被写体を選択する
請求項3に記載の撮像装置。
The selection part
The imaging device according to claim 3, wherein the subject in the captured image that has the largest area occupied by the subject is predicted to be a subject that is producing sound toward the imaging device, and the subject is selected.
上記選択部は、
上記認識部により認識された被写体の中から、当該被写体の各々に対して予め設定された優先度に基づいて、被写体を選択する
請求項2に記載の撮像装置。
The selection part
The imaging device according to claim 2, wherein a subject is selected from subjects recognized by the recognition unit based on a priority set in advance for each of the subjects.
上記認識部は、
上記撮像画像における被写体として人物の顔を認識し、
上記制御部は、
上記撮像画像における上記顔の占める範囲に基づいて、上記音声入力部の指向性を制御する
請求項1に記載の撮像装置。
The recognition unit
Recognizing a human face as a subject in the captured image,
The control unit
The imaging device according to claim 1, wherein directivity of the voice input unit is controlled based on a range occupied by the face in the captured image.
上記認識部は、
上記撮像画像における被写体として人物の口を認識し、
上記制御部は、
上記撮像画像における上記口の占める範囲に基づいて、上記音声入力部の指向性を制御する
請求項1に記載の撮像装置。
The recognition unit
Recognizing a person's mouth as a subject in the captured image,
The control unit
The imaging device according to claim 1, wherein directivity of the voice input unit is controlled based on a range occupied by the mouth in the captured image.
上記制御部は、
上記撮像画像を取得した際の上記撮像部の画角と上記撮像画像における上記被写体の占める範囲とに基づいて、上記撮像部の画角における上記被写体の占める範囲の画角である被写体画角を算出し、当該被写体画角に基づいて上記音声入力部の指向性を制御する
請求項1に記載の撮像装置。
The control unit
Based on the angle of view of the imaging unit when the captured image is acquired and the range occupied by the subject in the captured image, the subject angle of view that is the angle of view of the range occupied by the subject in the angle of view of the imaging unit is determined. The imaging apparatus according to claim 1, wherein the imaging device calculates and controls the directivity of the audio input unit based on the subject field angle.
上記制御部は、
上記被写体画角を上記音声入力部において制御しうる範囲内の指向角と対応付け、対応付けた指向角となるように上記音声入力部の指向角を制御する
請求項9に記載の撮像装置。
The control unit
The imaging apparatus according to claim 9, wherein the subject angle of view is associated with a directivity angle within a range that can be controlled by the audio input unit, and the directivity angle of the audio input unit is controlled to be the associated directivity angle.
撮像装置が、撮像画像を取得し、
撮像装置が、上記撮像画像における被写体を認識し、
撮像装置が、上記撮像画像における上記被写体の占める範囲に基づいて、撮像装置の音声入力部の指向性を制御する
指向性制御方法。
The imaging device acquires the captured image,
The imaging device recognizes the subject in the captured image,
A directivity control method in which the imaging device controls the directivity of the audio input unit of the imaging device based on a range occupied by the subject in the captured image.
撮像装置に、
撮像画像を取得する取得ステップと、
上記撮像画像における被写体を認識する認識ステップと、
上記撮像画像における上記被写体の占める範囲に基づいて、撮像装置の音声入力部の指向性を制御する制御ステップと
を実行させるための指向性制御プログラム。
In the imaging device,
An acquisition step of acquiring a captured image;
A recognition step for recognizing a subject in the captured image;
A directivity control program for executing a control step for controlling directivity of a sound input unit of an imaging device based on a range occupied by the subject in the captured image.
JP2009208483A 2009-09-09 2009-09-09 Imaging apparatus, directivity control method, and program therefor Pending JP2011061461A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009208483A JP2011061461A (en) 2009-09-09 2009-09-09 Imaging apparatus, directivity control method, and program therefor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009208483A JP2011061461A (en) 2009-09-09 2009-09-09 Imaging apparatus, directivity control method, and program therefor

Publications (1)

Publication Number Publication Date
JP2011061461A true JP2011061461A (en) 2011-03-24

Family

ID=43948599

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009208483A Pending JP2011061461A (en) 2009-09-09 2009-09-09 Imaging apparatus, directivity control method, and program therefor

Country Status (1)

Country Link
JP (1) JP2011061461A (en)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015513704A (en) * 2012-03-16 2015-05-14 ニュアンス コミュニケーションズ, インコーポレイテッド User-specific automatic speech recognition
JP2015198413A (en) * 2014-04-03 2015-11-09 日本電信電話株式会社 Sound collection system and sound emitting system
JP2015535952A (en) * 2012-09-29 2015-12-17 シェンジェン ピーアールテック カンパニー リミテッド Voice control system and method for multimedia device and computer storage medium
JP2016178652A (en) * 2013-07-09 2016-10-06 ノキア テクノロジーズ オーユー Audio processing apparatus
JP2018121134A (en) * 2017-01-23 2018-08-02 京セラドキュメントソリューションズ株式会社 Image forming apparatus
WO2020090322A1 (en) * 2018-11-01 2020-05-07 ソニー株式会社 Information processing apparatus, control method for same and program
CN113984105A (en) * 2020-07-27 2022-01-28 丰田自动车株式会社 Control system, control method, and computer-readable recording medium

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015513704A (en) * 2012-03-16 2015-05-14 ニュアンス コミュニケーションズ, インコーポレイテッド User-specific automatic speech recognition
US10789950B2 (en) 2012-03-16 2020-09-29 Nuance Communications, Inc. User dedicated automatic speech recognition
JP2015535952A (en) * 2012-09-29 2015-12-17 シェンジェン ピーアールテック カンパニー リミテッド Voice control system and method for multimedia device and computer storage medium
US9955210B2 (en) 2012-09-29 2018-04-24 Shenzhen Prtek Co. Ltd. Multimedia device voice control system and method, and computer storage medium
JP2016178652A (en) * 2013-07-09 2016-10-06 ノキア テクノロジーズ オーユー Audio processing apparatus
JP2015198413A (en) * 2014-04-03 2015-11-09 日本電信電話株式会社 Sound collection system and sound emitting system
JP2018121134A (en) * 2017-01-23 2018-08-02 京セラドキュメントソリューションズ株式会社 Image forming apparatus
WO2020090322A1 (en) * 2018-11-01 2020-05-07 ソニー株式会社 Information processing apparatus, control method for same and program
CN113984105A (en) * 2020-07-27 2022-01-28 丰田自动车株式会社 Control system, control method, and computer-readable recording medium

Similar Documents

Publication Publication Date Title
JP6464449B2 (en) Sound source separation apparatus and sound source separation method
US20170289681A1 (en) Method, apparatus and computer program product for audio capture
JP2011061461A (en) Imaging apparatus, directivity control method, and program therefor
KR20180100392A (en) Personalized real-time audio processing
US20100302401A1 (en) Image Audio Processing Apparatus And Image Sensing Apparatus
JP2009156888A (en) Speech corrector and imaging apparatus equipped with the same, and sound correcting method
JP2013106298A (en) Imaging controller, imaging control method, program for imaging control method, and imaging apparatus
JP2011071702A (en) Sound pickup processor, sound pickup processing method, and program
JP5886479B2 (en) IMAGING DEVICE, IMAGING ASSIST METHOD, AND RECORDING MEDIUM CONTAINING IMAGING ASSIST PROGRAM
JP5155092B2 (en) Camera, playback device, and playback method
JP2009065587A (en) Voice-recording device and voice-reproducing device
JP2005094713A (en) Data display system, data display method, program and recording medium
JP2022533755A (en) Apparatus and associated methods for capturing spatial audio
JP5510559B2 (en) Voice control device and imaging device
JP2017221544A (en) Game program and game system
JP5214394B2 (en) camera
JP2009111519A (en) Audio signal processor and electronics
JP6874437B2 (en) Communication robots, programs and systems
JP6295442B2 (en) Image generating apparatus, photographing apparatus, image generating method, and program
JP2013168878A (en) Recording device
JP6967735B1 (en) Signal processing equipment and signal processing system
JP2007251355A (en) Relaying apparatus for interactive system, interactive system, and interactive method
KR101391942B1 (en) Audio steering video/audio system and providing method thereof
JP6314321B2 (en) Image generating apparatus, photographing apparatus, image generating method, and program
WO2022224586A1 (en) Information processing device, information processing method, program, and information recording medium