JP7118746B2 - IMAGING DEVICE, CONTROL METHOD AND PROGRAM THEREOF - Google Patents
IMAGING DEVICE, CONTROL METHOD AND PROGRAM THEREOF Download PDFInfo
- Publication number
- JP7118746B2 JP7118746B2 JP2018104913A JP2018104913A JP7118746B2 JP 7118746 B2 JP7118746 B2 JP 7118746B2 JP 2018104913 A JP2018104913 A JP 2018104913A JP 2018104913 A JP2018104913 A JP 2018104913A JP 7118746 B2 JP7118746 B2 JP 7118746B2
- Authority
- JP
- Japan
- Prior art keywords
- sound
- imaging
- unit
- control unit
- movable
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
本発明は、撮像装置及びその制御方法及びプログラムに関するものである。 The present invention relates to an imaging apparatus, its control method, and program.
カメラ等の撮像装置による静止画・動画撮影においては、ユーザがファインダー等を通して撮影対象を決定し、撮影状況を自ら確認して撮影画像のフレーミングを調整することによって、画像を撮影するのが通常である。このような撮像装置では、ユーザの操作ミスを検知してユーザに通知したり、外部環境の検知を行い、撮影に適していない場合にユーザに通知したりする機能が備えられている。また、撮影に適した状態になるようにカメラを制御する仕組みが従来から存在している。 In taking still images and moving images with an image pickup device such as a camera, it is normal for the user to decide the object to be photographed through a viewfinder or the like, check the photographing conditions by himself, and adjust the framing of the photographed image, thereby photographing the image. be. Such an imaging apparatus has a function of detecting a user's operation error and notifying the user, or detecting an external environment and notifying the user when it is not suitable for photographing. In addition, conventionally, there is a mechanism for controlling a camera so that it is in a state suitable for photographing.
このようなユーザの操作により撮影を実行する撮像装置に対し、ユーザが撮影指示を与えることなく定期的および継続的に撮影を行うライフログカメラが存在する(特許文献1)。ライフログカメラは、ストラップ等でユーザの身体に装着された状態で用いられ、ユーザが日常生活で目にする光景を一定時間間隔で映像として記録するものである。ライフログカメラによる撮影は、ユーザがシャッタを切るなどの意図したタイミングで撮影するのではなく、一定の時間間隔で撮影を行うため、普段撮影しないような不意な瞬間を映像として残すことができる。 There is a lifelog camera that regularly and continuously takes pictures without the user giving an instruction to take pictures (Patent Document 1). A life log camera is used while being attached to the user's body with a strap or the like, and records scenes the user sees in daily life as images at regular time intervals. Shooting with a lifelog camera does not take pictures at the intended timing, such as when the user releases the shutter, but at regular time intervals.
しかしながら、ユーザの身に着けるタイプの、これまでのライフログカメラでは、定期的に自動撮影を行うものであるので、得られる画像は意図とは無関係なものとなる可能性が高い。マイク等の音声入力部を用いて音源の方向を検知する場合、音声入力部の数が多ければ音源の方向検知を高精度に行うことができるが、部品コストが増加する。また、装置の構造やデザイン的な制約により、多数の音声入力部を設けるのは難しい場合もある。 However, conventional lifelog cameras of the type worn by the user take pictures automatically on a regular basis, so there is a high possibility that the resulting image will be unrelated to the user's intention. When the direction of a sound source is detected using voice input units such as microphones, the direction of the sound source can be detected with high precision if the number of voice input units is large, but the cost of parts increases. Moreover, it may be difficult to provide a large number of voice input units due to restrictions on the structure and design of the device.
本発明は上記問題に鑑みなされたものであり、特別な操作を行わずとも、ユーザの意図したタイミングで意図した構図の画像を撮像する技術を提供しようとするものである。 SUMMARY OF THE INVENTION The present invention has been made in view of the above problems, and it is an object of the present invention to provide a technique for capturing an image with an intended composition at a user's intended timing without performing a special operation.
この課題を解決するため、例えば本発明の撮像装置は以下の構成を備える。すなわち、
撮像部が設けられ、前記撮像部を所定の方向に回動可能な可動撮像部と、
前記可動撮像部に設けられた複数のマイクと、
前記複数のマイクを用いて音源の方向を検出する音方向検出を行う音方向検出手段と、
前記可動撮像部を第1の方向に向けた状態で、前記音方向検出手段により検出された音方向と、前記可動撮像部を前記第1の方向から前記所定の方向に回動させて第2の方向に向けた状態で、前記音方向検出手段により検出された音方向とに基づいて、音源の方向を特定する処理を行うように制御する制御手段と、を備え、前記第2の方向は、前記第1の方向から、0度より大きく90度以下である予め定められた回転角度だけ、前記可動撮像部を前記所定の方向に回動させた方向であることを特徴とする。
In order to solve this problem, for example, the imaging device of the present invention has the following configuration. i.e.
a movable imaging unit provided with an imaging unit, the imaging unit being rotatable in a predetermined direction;
a plurality of microphones provided in the movable imaging unit;
sound direction detection means for detecting the direction of a sound source using the plurality of microphones;
With the movable imaging section directed in the first direction, the sound direction detected by the sound direction detection means and the second direction by rotating the movable imaging section from the first direction to the predetermined direction are detected. a control means for controlling to perform processing for identifying the direction of the sound source based on the sound direction detected by the sound direction detection means when the second direction is directed to the direction of , the direction in which the movable imaging section is rotated in the predetermined direction by a predetermined rotation angle greater than 0 degrees and less than or equal to 90 degrees from the first direction .
本発明によれば、特別な操作を行わずとも、ユーザの意図したタイミングで意図した構図の画像を撮像することが可能になる。 According to the present invention, it is possible to capture an image with an intended composition at a timing intended by the user without performing any special operation.
以下図面に従って本発明に係る実施形態を詳細に説明する。 Embodiments according to the present invention will be described in detail below with reference to the drawings.
[第1の実施形態]
図1は、第1の実施形態に係る撮像装置1のブロック構成図である。撮像装置1は、光学レンズユニットを含み、撮像する撮像方向が可変の可動撮像部100、及び、可動撮像部100の駆動制御および、撮像装置全体を制御する中央制御部(CPU)を含む支持部200で構成される。
[First embodiment]
FIG. 1 is a block configuration diagram of an imaging device 1 according to the first embodiment. The imaging apparatus 1 includes an optical lens unit, a
なお、支持部200は、圧電素子を含む複数の振動体11~13が可動撮像部100の面に対し接触するように設けられている。これらの振動体11~13の振動の制御により、可動撮像部100がパン、チルト動作を行うことになる。なお、パン、チルト動作はサーボモータ等で実現しても構わない。
Note that the
可動撮像部100は、レンズ部101、撮像部102、レンズアクチュエータ制御部103、及び、音声入力部104を有する。
The
レンズ部101は、ズームレンズ、絞り・シャッタ、および、フォーカレンズなどの撮影光学系で構成される。撮像部102は、CMOSセンサやCCDセンサなどの撮像素子を含み、レンズ部101により結像された光学像を光電変換して電気信号を出力する。レンズアクチュエータ制御部103は、モータドライバICを含み、レンズ部101のズームレンズ、絞り・シャッタ、および、フォーカスレンズ等の各種アクチュエータを駆動する。各種アクチュエータは、後述する支持部200内の中央制御部201より受信した、アクチュエータ駆動指示データに基づいて駆動される。音声入力部104はマイクロフォン(以降マイク)を含む音声入力部であり複数のマイク(実施形態では2つ)で構成されており、音声信号を電気信号にさらにデジタル信号(音声データ)に変換して出力する。
A
一方、支持部200は、撮像装置1の全体の制御を行うための中央制御部201を有する。この中央制御部201は、CPUと、CPUが実行するプログラムを格納したROM、及び、CPUのワークエリアとして使用されるRAMで構成される。また、支持部200は、撮像信号処理部202、映像信号処理部203、音声信号処理部204、操作部205、記憶部206、表示部207を有する。更に、支持部200は、入出力端子部208、音声再生部209、電源部210、電源制御部211、位置検出部212、回動制御部213、無線通信部214、並びに、先に説明した振動体11~13を有する。
On the other hand, the
撮像信号処理部202は、可動撮像部100の撮像部102から出力された電気信号を映像信号へ変換する。映像信号処理部203は、撮像信号処理部202から出力された映像信号を用途に応じて加工する。映像信号の加工は画像切り出し、及び、回転加工による電子防振動作や、被写体(顔)を検出する被写体検出処理も含まれる。
The imaging
音声信号処理部204は、音声入力部104からのデジタル信号に対して音声処理を行う。音声入力部104が電気アナログ出力であれば、音声信号処理部204において、電気アナログ信号からデジタル信号に変換する構成が含まれても構わない。なお、音声入力部104を含めた音声信号処理部204の詳細については図2を用いて後述する。
The audio
操作部205は、撮像装置1とユーザとの間のユーザインターフェースとして機能するものであり、各種スイッチ、ボタン等で構成される。記憶部206は、撮影により得られた映像情報などの種々のデータを記憶する。表示部207は、LCDなどのディスプレイを備え、映像信号処理部203から出力された信号に基づいて、必要に応じて画像表示を行う。また、この表示部207は、各種メニュー等を表示することで、ユーザインターフェースの一部として機能する。外部入出力端子部208は、外部装置との間で通信信号および映像信号を入出力する。音声再生部209はスピーカーを含み、音声データを電気信号に変換し、音声を再生する。電源部210は、撮像装置の全体(各要素)の駆動に必要な電力供給源であり、実施形態では充電可能なバッテリであるものとする。
An operation unit 205 functions as a user interface between the image capturing apparatus 1 and the user, and includes various switches, buttons, and the like. The
電源制御部211は、撮像装置1の状態に応じて、上記の各構成要素への電源部210からの電力の供給/遮断を制御するものである。撮像装置1の状態によっては、不使用の要素が存在する。電源制御部211は、中央制御部201の制御下で、撮像装置1の状態によって不使用な要素への電力を遮断して、電力消費量を抑制する機能を果たす。なお、電力供給/遮断については、後述する説明から明らかにする。
The power
位置検出部212はジャイロ、加速度センサ、GPSといった撮像装置1の動きを検出する。この位置検出部212は、撮像装置1がユーザに身に着ける場合にも対処するためである。回動制御部213は、中央制御部201からの指示に従って振動体11~13を駆動する信号を生成し、出力する。振動体11~13は圧電素子で構成され、回動制御部213から印加される駆動信号に応じて振動する。振動体11~13は、回動駆動部(パン・チルト駆動部)を構成する。この結果、可動撮像部100は、中央制御部201が指示した方向に、パン動作、チルト動作することになる。
A
無線通信部214はWifiやBLEなどの無線規格に準拠して画僧データ等のデータ送信を行う。
A
次に、実施形態における音声入力部104および音声信号処理部204の構成と、音方向検出処理を図2を参照して説明する。同図は、音声入力部104および音声信号処理部204の構成と、音声信号処理部204、中央制御部201及び電源制御部211の接続関係を示している。
Next, the configuration of the
音声入力部104は、2つの無指向性のマイク(マイク104a、マイク104b)で構成される。各マイクはA/Dコンバータを内蔵している。そして、予め設定されたサンプリングレート(コマンド検出・方向検出処理:16kHz、動画録音:48kHz)で音声をサンプリングし、内蔵のA/Dコンバータによりサンプリングした音声信号をデジタルの音声データとして出力する。なお、実施形態では音声入力部104は2つのデジタルマイクで構成されるものとしているが、アナログ出力のマイクで構成されても構わない。アナログマイクの場合、音声信号処理部204内に、対応するA/Dコンバータが設ければ良い。また、実施形態におけるマイクの数は2つとするが、2つ以上であれば良い。
The
マイク104aは、撮像装置1の電源がONの場合には無条件に電力が供給され、集音可能状態となる。一方、他のマイク104bは、中央制御部201の制御下での電源制御部211による電力供給/遮断の対象となっており、撮像装置1の電源がONとなった初期状態では、電力は遮断されている。
When the imaging apparatus 1 is powered on, the
音声信号処理部204は、音圧レベル検出部2041、音声用メモリ2042、音声コマンド認識部2043、音方向検出部2044、動画用音声処理部2045、及び、コマンドメモリ2046で構成される。
The audio
音圧レベル検出部2041は、マイク104aからの音声データが表す出力レベルが予め設定された閾値以上となったとき、音声検出を表す信号を電源制御部211及び音声用メモリ2042に供給する。
The sound pressure
電源制御部211は、音圧レベル検出部2041から音声検出を表す信号を受信した場合、音声コマンド認識部2043への電力供給を行う。
The
音声用メモリ2042は、中央制御部201の制御下での電源制御部211による電力供給/遮断の対象の1つである。また、この音声用メモリ2042は、マイク104aからの音声データを一時的に記憶するバッファメモリである。この音声用メモリ2042は、少なくとも、最長の音声コマンドを比較的ゆっくり発声した場合の全サンプリングデータを記憶可能な容量を有する。マイク104aによるサンプリングレートが16KHzであり、1サンプリングにつき2バイト(16ビット)の音声データを出力する。最長の音声コマンドが仮に5秒であった場合、音声用メモリ2042は、約160Kバイト(≒5×16×1000×2)の容量を有する。また、音声用メモリ2042は、マイク104aからの音声データで満たされた場合、古い音声データが新たな音声データで上書きされる。この結果、音声用メモリ2042は、直近の所定期間(上記例では約5秒)の音声データが保持されることになる。また、音声用メモリ2042は、音圧レベル検出部2041から音声検出を示す信号を受信したことをトリガにして、マイク104aからの音声データをサンプリングデータ領域に格納していく。
The
コマンドメモリ2046は不揮発性のメモリで構成され、本撮像装置が認識する音声コマンドに係る情報を予め記憶(登録)されている。詳細は後述するが、コマンドメモリ2046に格納される音声コマンドの種類は例えば図7に示す通りであり、「起動コマンド」をはじめとして、複数種類のコマンドの情報が格納されている。 A command memory 2046 is composed of a non-volatile memory, and stores (registers) in advance information relating to voice commands recognized by the imaging apparatus. Although the details will be described later, the types of voice commands stored in the command memory 2046 are, for example, as shown in FIG. 7, and information on a plurality of types of commands including "start command" is stored.
音声コマンド認識部2043は、中央制御部201の制御下での電源制御部211による電力供給/遮断の対象の1つである。なお、音声認識そのものは周知であるので、ここでの説明は省略する。この音声コマンド認識部2043は、コマンドメモリ2046を参照し、音声用メモリ2042に格納された音声データの認識処理を行う。そして、音声コマンド認識部2043は、マイク104aにより集音した音声データが、音声コマンドであるか否か、並びに、いずれの登録音声コマンドに一致するのかの判定を行う。そして、音声コマンド認識部2043は、コマンドメモリ2046に記憶されたいずれかの音声コマンドに一致する音声データを検出したとき、いずれのコマンドであるかを示す情報を中央制御部201に供給する。また、音声用メモリ2042内の、その音声コマンドを決定づけた最初と最後の音声データのアドレス(或いはタイミング)を中央制御部201に供給する。
The voice
音方向検出部2044は、中央制御部201の制御下での電源制御部211による電力供給/遮断の対象の1つである。また、音方向検出部2044は、2つのマイク104a,104bからの音声データに基づき、周期的に音源の存在する方向の検出処理を行う。音方向検出部2044は、内部にバッファメモリ2044aを有し、検出した音源方向を表す情報をバッファメモリ2044aに格納する。なお、音方向検出部2044による音方向検出処理を行う周期(例えば、16kHz)は、マイク104aのサンプリング周期に対して十分に長くて構わない。ただし、このバッファメモリ2044aは、音声用メモリ2042に格納可能な音声データの期間と同じ期間分の音方向情報を記憶するための容量を有するものとする。
The sound
動画用音声処理部2045は、中央制御部201の制御下での電源制御部211による電力供給/遮断の対象の1つである。動画用音声処理部2045は、2つのマイク104a,104bの2つの音声データをステレオ音声データとして入力する。そして、各種フィルタ処理、ウィンドカット、ステレオ感強調、駆動音除去、ALC(Auto Level Control)、圧縮処理といった動画音声用の音声処理を行う。詳細は後述する説明から明らかになるが、実施形態ではマイク104aはステレオマイクのLチャネル用マイク、マイク104bはRチャネル用マイクとして機能する。
The video
なお、図2では、音声入力部104の各マイクと音声信号処理部204に含まれる各ブロックとの接続は消費電力や回路構成を考慮し、2つのマイクにおける必要最低限で表している。しかし、電力および回路構成の許す限り、複数のマイクを音声信号処理部204に含まれる各ブロックで共有して使用しても構わない。また、本実施形態ではマイク104aを基準のマイクとして接続しているが、どのマイクを基準としても構わない。
Note that in FIG. 2, connection between each microphone of the
図3(a)乃至(e)を参照して、撮像装置1の外観図および使用例を説明する。同図(a)は、実施形態に係る撮像装置1の外観の上面及び正面図を示している。撮像装置1の可動撮像部100は、半球体形であり、水平から垂直方向の約90度の範囲の切欠き窓を有し、図示矢印Aが示す水平面にて360度に亘って回動可能な第1の筐体部150を有する。また、可動撮像部100は、この切欠き窓に沿って図示の矢印Bが示す水平から垂直の範囲内で、レンズ部101及び撮像部102と一緒に回動可能な第2の筐体部151を有する。ここで、第1の筐体部150の矢印Aの回動動作はパン動作、第2の筐体部151の矢印Bの回動動作はチルト動作に対応し、これらは振動体11~13の駆動によって実現している。
With reference to FIGS. 3A to 3E, external views and usage examples of the imaging device 1 will be described. FIG. 1(a) shows a top view and a front view of the appearance of the imaging device 1 according to the embodiment. The
マイク104a、104bは、第2の筐体部151のレンズ部101及び撮像部102のリング部102aの上方側の位置に配置されている。リング部102aは、レンズ部101を保護するためのリング状の部材であり、レンズ部101の周囲を囲うように設けられている。図示からもわかるように、第2筐体部152を固定にした状態で、第1筐体部150を矢印Aに沿ってどの方向にパン動作させたとしても、レンズ部101及び撮像部102に対する、マイク104a、104bの相対的な位置は変わらない。つまり、撮像部102の撮像方向に対して左側にマイク104aが常に位置し、右側にマイク104bが常に位置することになる。それ故、撮像部102による撮像して得た画像が表す空間と、マイク104a,104bによる取得した音場は一定の関係を維持できることになる。
The
なお、実施形態における2つのマイク104a、104bは、図3(a)に示すように、パン動作の方向を表す仮想平面上に配置されている。また、これら2つのマイクは、図3(a)における1つの水平面上に位置するものとするが、多少のずれがあっても構わない。
It should be noted that the two
マイク104aとマイク104bとの距離は、10mm~30mm程度が望ましい。また、図3(a)のマイク104a乃至104dの配置位置は一例であって、これらの配置方法は、メカ的制約やデザイン制約によって適宜変更しても構わない。
It is desirable that the distance between the
図3(b)乃至(e)は、実施形態における撮像装置1の利用形態を示している。図3(b)は、机などに撮像装置1に載置される場合で、撮影者自身やその周囲の被写体の撮影を目的とするものである。図3(c)は、撮像装置1を、撮影者の首にぶら下げる例であり、主に、撮影者の行動の前方の撮影を目的とするものである。図3(d)は、撮像装置1を撮影者の肩に固定した使用例であり、図示の場合は、撮影者の周囲の前後、及び、右側の撮影を目的とするものである。そして、図3(e)は、撮像装置1をユーザが持つ棒の端に固定する使用例であり、ユーザが望む所望の撮影位置(高所や手が届かない位置)に撮像装置1を移動させることで、撮影を行うことを目的とするものである。 FIGS. 3B to 3E show usage patterns of the imaging device 1 in the embodiment. FIG. 3(b) shows a case where the imaging apparatus 1 is placed on a desk or the like, for the purpose of photographing the photographer himself or surrounding subjects. FIG. 3(c) shows an example in which the imaging device 1 is hung around the photographer's neck, mainly for the purpose of photographing the front of the photographer's actions. FIG. 3(d) shows an example of use in which the imaging device 1 is fixed to the shoulder of the photographer. FIG. 3(e) shows a usage example in which the imaging device 1 is fixed to the end of a stick held by the user, and the imaging device 1 is moved to a desired shooting position desired by the user (a high place or a position out of reach). The purpose is to perform photography by
図4(a)乃至(c)を用いて、本実施形態の撮像装置1のパン、チルトの動作を更に詳しく説明する。ここでは図3(b)のように据え置いた使用例で前提として記載するが、そのほかの使用例においても同様である。 The panning and tilting operations of the imaging apparatus 1 of this embodiment will be described in more detail with reference to FIGS. Here, an example of use in which it is left stationary as shown in FIG.
図4(a)はレンズ部101が水平を向いている状態を示している。図4(a)を初期状態とし、第1筐体部150を、上方向から見て反時計回りに90度パン動作させると、図4(b)のようになる。一方、図4(a)の初期状態から、第2筐体部151の90度チルト動作をおこなうと、図4(c)の様になる。第1筐体部150、第2筐部体151の回動は、先に説明したように、回動制御部213により駆動される振動体11~13による振動にて実現している。
FIG. 4(a) shows a state in which the
次に、実施形態における撮像装置1の中央制御部201の処理手順を図5のフローチャートに従って説明する。同図に係る処理は、撮像装置1のメイン電源がON、もしくはリセットされた場合の中央制御部201の処理を示している。
Next, the processing procedure of the
中央制御部201は、ステップS101にて、撮像装置1の初期化処理を行う。この初期化処理にて、中央制御部201は、現在の可動撮像部100の撮像部102の撮像方向における、水平面内の方向成分をパン動作の基準角度(0度)として決定する。なお、可動撮像部100の撮像部102の撮像方向は、レンズ101の光軸方向(主軸方向)とも言い換えられる。
The
これ以降、可動撮像部100のパン動作を行った後の撮像方向のうち水平面の成分は、この基準角度からの相対的な角度で表されるものとする。また、音方向検出部2044が検出する音源方向のうちの水平面の成分は、水平面における現在の可動撮像部100の2つのマイクの位置を結ぶ直線を基準方向とし、当該基準方向に対する相対的な角度で表されるものとする。また、詳細は後述するが、音方向検出部2044は、撮像装置1の真上の方向(パン動作の回転軸の軸方向)に音源があるか否かの判定も行う。
From now on, the horizontal component of the imaging direction after the pan operation of the
なお、この段階で、音声用メモリ2042、音方向検出部2044、動画用音声処理部2045、並び、マイク104b乃至104への電力は遮断されている。
At this stage, power to the
初期化処理を終えると中央制御部201は、ステップS102にて、電源制御部211を制御して、音圧レベル検出部2041、マイク104aへの電力の供給を開始する。この結果、音圧レベル検出部2041は、マイク104aでサンプリングされた音声データに基づく音圧検出処理を実行し、予め設定された閾値を超える音圧レベルの音声データを検出したときにその旨を中央制御部に通知することになる。なお、この閾値は、例えば60dB SPL(Sound Pressure Level)とするが、撮像装置1が環境等に応じて変更しても良いし、必要な周波数帯域だけに絞るようにしても良い。
After completing the initialization process, the
中央制御部201は、ステップS103にて、音圧レベル検出部2041による閾値を超える音圧を表す音声データが検出されるのを待つ。閾値を超える音圧の音声データが検出されると、ステップS104にて、音声用メモリ2042はマイク104aからの音声データの受信、格納処理を開始する。
In step S103, the
また、ステップS105にて、中央制御部201は、電源制御部211を制御し、音声コマンド認識部2043への電力供給を開始する。この結果、音声コマンド認識部2043は、コマンドメモリ2046を参照した音声用メモリ2042に格納されていく音声データの認識処理を開始する。そして、音声コマンド認識部2043は、音声用メモリ2042に格納された音声データの認識処理を行う。コマンドメモリ2046内のいずれかの音声コマンドと一致すると音声コマンドを認識した場合、その認識された音声コマンドを特定する情報を中央制御部201に通知する。さらに、音声用メモリ2042内の、認識した音声コマンドを決定づけた最初と最後の音声データのアドレス(或いはタイミング)情報とを含む情報を中央制御部201に通知することになる。
Further, in step S105, the
ステップS106にて、中央制御部201は、電源制御部211を制御し、音方向検出部2044、マイク104bへの電力供給を開始する。この結果、音方向検出部2044は、2つのマイク104a,104bからの同時刻の音声データに基づく、音源方向の検出処理を開始することになる。音源の方向の検出処理は、所定周期で行われる。そして、音方向検出部2044は、検出した音方向を示す音方向情報を、内部のバッファメモリ2044aに格納していく。このとき、音方向検出部2044は、音方向情報の決定に利用した音声データのタイミングが、音声用メモリ2042に格納された音声データのどのタイミングであったのかを対応付くように、バッファメモリ2044aに格納する。典型的には、バッファメモリ2044aに格納するのは、音方向と、音声用メモリ2042内の音声データのアドレスとすれば良い。なお、先に説明したように、水平面における現在の可動撮像部100の2つのマイクの位置を結ぶ直線を基準方向とし、当該基準方向に対する音源の方向との差を表す検出角度が、音方向情報に含まれる。
In step S106, the
ステップS107にて、中央制御部201は、電源制御部211を制御し、撮像部102、及び、レンズアクチュエータ制御部103への電力供給を開始する。この結果、可動撮像部100は、撮像装置としての機能し始めることになる。
In step S<b>107 , the
ステップS108にて、中央制御部201は、音声コマンド認識部2043から、音声コマンドが認識されたことを示す情報を受信したか否かを判定する。否の場合、中央制御部201は、処理をステップS110に進め、音声コマンド認識部2043を起動させてからの経過時間が、予め設定された閾値を超えたか否かを判定する。そして、経過時間が閾値以内である限り、中央制御部201は、音声コマンド認識部2043による音声コマンドが認識されるのを待つ。そして、閾値が示す時間が経過しても、音声コマンド認識部2043が音声コマンドを認識しなかった場合、中央制御部201は処理をステップS111に進める。このステップS111にて、中央制御部201は、電源制御部211を制御して音声コマンド認識部2043への電力を遮断する。そして、中央制御部201は、処理をステップS102に戻す。
In step S108, the
一方、中央制御部201が、音声コマンド認識部2043から、音声コマンドが認識されたことを示す情報を受信した場合、処理をステップS109に進める。このステップS109にて、中央制御部201は、認識された音声コマンドが、図7に示される起動コマンドに対応するか否かを判定する。そして、認識された音声コマンドが起動コマンド以外のコマンドであると判定した場合、中央制御部201は処理をステップS110に進める。また、認識された音声コマンドが起動コマンドであった場合、中央制御部201は処理をステップS109からステップS112に進める。
On the other hand, when the
中央制御部201は、ステップS112にて、音声コマンド認識部2043で認識された音声コマンドに同期する音方向情報を、音方向検出部2044のバッファメモリ2044aから取得する。音声コマンド認識部2043は、先に説明したように、ステップS108にて音声コマンドを認識したとき、音声用メモリ2042内の音声コマンドを表す先頭と終端を表す2つのアドレスを中央制御部201に通知する。そこで、中央制御部201は、ステップS108にて認識された音声コマンドに同期した音方向として、この2つのアドレスが示す期間内で検出した音方向情報をバッファメモリ2044aから取得する。2つのアドレスが示す期間内に複数の音方向情報が存在することもある。その場合、中央制御部201はその中の時間的に最も後の音方向情報をバッファメモリ2044aから取得する。時間的に後の音方向情報の方が、その音声コマンドを発した人物(音源)の現在の位置を表している蓋然性が高いからである。
The
次に、S113にて、中央制御部201は、回動制御部213を制御して、可動撮像部100のパン動作を行い、現在の撮像部102の撮像方向(光軸方向)の水平面の角度を、所定の角度だけ回転させる。所定の角度とは、例えば、30度又は90度等、0度より大きく90度以下の任意の角度である。
Next, in S113, the
次に、ステップS114にて、中央制御部201は、音声コマンド認識部2043から、新たな音声コマンドが認識されたことを示す情報を受信したか否かを判定する。否の場合、中央制御部201は、処理をステップS115に進め、現在、ユーザからの指示に従った実行中のジョブがあるか否かを判定する。有の場合は、S114に戻り、否の場合は、S116に進む。詳細は図6のフローチャートの説明から明らかになるが、動画撮影記録や追尾処理等が上記ジョブに相当する。ここでは、そのような実行中のジョブは存在しないものとして説明を続ける。
Next, in step S114, the
ステップS116にて、前回の音声コマンドを認識してからの経過時間が、予め設定された閾値を超えるか否かを判定する。否の場合、中央制御部201は処理をステップS114に戻し、音声コマンドの認識を待つ。そして、実行中のジョブが無く、且つ、前回の音声コマンドを認識してから閾値を超える時間が経過しても、更なる音声コマンドが認識されない場合、中央制御部201は処理をステップS117に進める。このステップS117にて、中央制御部201は、電源制御部211を制御し、撮像部102、レンズアクチュエータ103への電力を遮断する。そして、中央制御部201は、ステップS118にて、電源制御部211を制御し、音方向検出部2044への電力も遮断し、処理をステップS108に戻す。
In step S116, it is determined whether or not the elapsed time since recognition of the previous voice command exceeds a preset threshold. If not, the
さて、中央制御部201が音声コマンド認識部2043から新たな音声コマンドが認識されたことを示す情報を受信したとする。この場合、音声コマンド認識部2043は、処理をステップS114からステップS119に進める。
Assume that the
中央制御部201は、ステップS119にて、音声コマンド認識部2043で認識された音声コマンドに同期する音方向情報を、音方向検出部2044のバッファメモリ2044aから取得する。音声コマンド認識部2043は、先に説明したように、ステップS114にて音声コマンドを認識したとき、音声用メモリ2042内の音声コマンドを表す先頭と終端を表す2つのアドレスを中央制御部201に通知する。そこで、中央制御部201は、ステップS114にて認識された音声コマンドに同期した音方向として、この2つのアドレスが示す期間内で検出した音方向情報をバッファメモリ2044aから取得する。
The
次に、ステップS120にて、中央制御部201は、音源の音方向を特定する音方向特定処理を行う。具体的には、ステップS112で取得した音方向と、ステップS119で取得した音方向とに基づいて、音源の音方向を特定し、特定した音方向を音方向特定処理の結果として内部メモリに記憶する。音方向特定処理の詳細は、後で図10を用いて説明する。なお、中央制御部201の代わりに、音方向検出部2044が音方向特定処理を行ってもよい。
Next, in step S120, the
次に、ステップS121にて、中央制御部201は、回動制御部213を制御して、可動撮像部100のパン動作を行い、現在の撮像部102の撮像方向(光軸方向)の水平面の角度を、特定した音源の音方向の水平面の角度に一致させる。
Next, in step S121, the
続いて、ステップS122にて、中央制御部201は、映像信号処理部203から撮像画像を受信し、撮像画像内に音声発生原となるオブジェクト(顔)が存在するか否かを画像認識処理により判定する。否の場合、中央制御部201は処理をステップS123に進め、回動制御部213を制御して、目標とするチルト角に向かって予め設定された角度だけ可動撮像部100のチルト動作を行う。そして、ステップS124にて、中央制御部201は、撮像部102の撮像方向のチルト角が、チルト動作の上限(実施形態では水平方向に対して90度)に到達したか否かを判定する。否の場合には、中央制御部201は処理をステップS122に戻す。こうして、中央制御部201は、チルト動作を行いながら、映像信号処理部203からの撮像画像の画角内に音声発生原となるオブジェクト(顔)が存在するか否かを画像認識処理により判定していく。そして、撮像部102の撮像方向のチルト角がチルトの上限に到達してもオブジェクトが検出されない場合、中央制御部201は処理をステップS124からステップS114に戻す。一方、撮像画像の画角内にオブジェクトが存在した場合、中央制御部201は処理をステップS125に進め、ステップS114で認識した音声コマンドに対応するジョブを実行する。
Subsequently, in step S122, the
次に、図6のフローチャート、並びに、図7に示す音声コマンドテーブルに基づいて、ステップS125の処理の詳細を説明する。図7の音声コマンドテーブルに示される“Hi, Camera”等の音声コマンドに対応する音声パターンデータはコマンドメモリ2046に格納されるものである。なお、図7には音声コマンドとして代表的な数例示しているが、この数に特に制限はない。また、以下の説明における音声コマンドは、図5のステップS114のタイミングで検出された音声コマンドである点に注意されたい。 Next, details of the processing in step S125 will be described based on the flowchart in FIG. 6 and the voice command table shown in FIG. The command memory 2046 stores voice pattern data corresponding to voice commands such as "Hi, Camera" shown in the voice command table of FIG. FIG. 7 exemplifies a typical number of voice commands, but there is no particular limit to this number. Also, note that the voice command in the following description is the voice command detected at the timing of step S114 in FIG.
まず、ステップS201にて、中央制御部201は、音声コマンドが、起動コマンドであるか否かを判定する。
First, in step S201, the
この起動コマンドは、撮像装置1に対し、撮像可能な状態に遷移させる音声コマンドである。この起動コマンドは、図5のステップS108で判定されるコマンドであり、撮像に係るジョブではない。よって、中央制御部201は、認識した音声コマンドが起動コマンドである場合には、そのコマンドについては無視し、処理をステップS114に戻す。
This activation command is a voice command that causes the imaging apparatus 1 to transition to an imaging-ready state. This activation command is a command determined in step S108 of FIG. 5, and is not a job related to imaging. Therefore, when the recognized voice command is the activation command, the
ステップS202にて、中央制御部201は、音声コマンドが、停止コマンドであるか否かを判定する。この停止コマンドは、一連の撮像可の状態から、起動コマンドの入力を待つ状態に遷移させるコマンドである。よって、中央制御部201は、認識した音声コマンドが停止コマンドである場合には、処理をステップS211に進める。ステップS211にて、中央制御部201は、電源制御部211を制御し、既に起動している撮像部102、音方向検出部2044、音声コマンド認識部2043、動画用音声処理部2045、マイク104b乃至104d等への電力を遮断し、これらを停止する。そして、中央制御部201は、処理を起動時のステップS103に戻す。
At step S202, the
ステップS203にて、中央制御部201は、音声コマンドが静止画撮影コマンドであるか否かを判定する。この静止画撮影コマンドは、撮像装置1に対して1枚の静止画の撮影・記録ジョブの実行の要求を行うコマンドである。よって、中央制御部201は、音声コマンドが静止画撮影コマンドであると判定した場合、処理をステップS212に進める。ステップS212にて、中央制御部201は、撮像部102で撮像した1枚の静止画像データを例えばJPEGファイルとして、記憶部206に格納する。なお、この静止画撮影コマンドのジョブが、1枚の静止画撮影記録により完結するので、先に説明した図5のステップS115で判定する対象のジョブとはならない。
In step S203, the
ステップS204にて、中央制御部201は、音声コマンドが動画撮影コマンドであるか否かを判定する。動画撮影コマンドは、撮像装置1に対して音声付の動画像の撮像と記録を要求するコマンドである。中央制御部201は、音声コマンドが動画撮影コマンドであると判定した場合、処理をステップS213に進める。このステップS213にて、中央制御部201は、撮像部102による動画像の撮影と記録を開始し、処理をステップS114に戻す。実施形態では、撮像した動画像は記憶部206に格納されるものとするが、外部入出力端子部208を介してネットワーク上のファイルサーバに送信しても構わない。動画撮影コマンドは、動画像の撮像、記録を継続させるコマンドであるので、このコマンドによるジョブは、先に説明したステップS115で判定する対象のジョブとなる。
In step S204, the
ステップS205にて、中央制御部201は、音声コマンドが動画撮影終了コマンドであるか否かを判定する。中央制御部201は、音声コマンドが動画撮影終了コマンドであり、尚且つ、現に動画像の撮像・記録中である場合には、その記録(ジョブ)を終了する。そして、中央制御部201は処理をステップS114に戻す。
In step S205, the
ステップS206にて、中央制御部201は、音声コマンドが追尾コマンドであるか否かを判定する。追尾コマンドは、撮像装置1に対して、撮像部102の撮像方向に、ユーザを継続して位置させることを要求するコマンドである。中央制御部201は、音声コマンドが追尾コマンドであると判定した場合、処理をステップS215に進める。そして、ステップS215にて、中央制御部201は、映像信号処理部203で得られた映像の中心位置にオブジェクトが位置し続けるように、回動制御部213の制御を開始する。そして、中央制御部201は処理をステップS114に戻す。この結果、可動撮像部100がパン動作、或いはチルト動作を行い、移動するユーザを追尾することになる。ただし、ユーザを追尾するものの、撮像した画像の記録は行わない。また、追尾している間は、先に説明した図5のステップS115で判定する対象のジョブとなる。そして、追尾終了コマンドを受信して初めて、中央制御部201はこの動画像の撮影記録を終了する。なお、追尾中に、例えば静止画撮影コマンドや動画撮影コマンドのジョブを実行しても構わない。
In step S206,
ステップS207にて、中央制御部201は、音声コマンドが追尾終了コマンドであるか否かを判定する。中央制御部201は、音声コマンドが追尾終了コマンドであり、尚且つ、現に追尾中である場合には、その記録(ジョブ)を終了する。そして、中央制御部201は処理をステップS114に戻す。
In step S207, the
以上であるが、上記以外の音声コマンドについては、ステップS207以降で実行されるが、ここでの説明は省略する。 As described above, voice commands other than the above are executed after step S207, but the description thereof is omitted here.
ここで、実施形態における撮像装置1におけるメイン電源ONからの処理のシーケンスの一例を図8に示すタイミングチャートに従って説明する。 Here, an example of the processing sequence from when the main power supply is turned on in the imaging apparatus 1 according to the embodiment will be described with reference to the timing chart shown in FIG.
撮像装置1のメイン電源がONになると、音圧レベル検出部2041はマイク104aからの音声データの音圧レベルの検出処理を開始する。タイミングT601にて、ユーザは、起動コマンド“Hi,Camera”の発声を開始したとする。この結果、音圧レベル検出部2041が閾値以上の音圧を検出する。そして、これがトリガになって、タイミングT602にて、音声用メモリ2042がマイク104aからの音声データの格納を開始し、音声コマンド認識部2043が音声コマンドの認識を開始する。また、上記トリガに応じて、タイミングT602にて、中央制御部201は、音方向検出部2044に電力供給を開始するとともに、撮像部102への電力供給も開始する。ユーザが起動コマンド“Hi,Camera”の発声を終えると、タイミングT604にて、音声コマンド認識部2043がその音声コマンドを認識し、且つ、認識した音声コマンドが起動コマンドであることを特定する。音声コマンド認識部2043は、音声用メモリ2042内の“Hi,Camera”を表す音声データの先頭と終端のアドレスと、認識結果を中央制御部201に通知する。中央制御部201は、受信した先頭と終端のアドレスが表す範囲を有効範囲として決定する。中央制御部201は、音方向検出部2044のバッファメモリ2044a内の有効範囲内から、タイミングT604~T605にて音声コマンド認識部2043で認識された音声コマンドに同期する音方向情報を取得する。
When the main power supply of the imaging device 1 is turned on, the sound pressure
中央制御部201は、この起動コマンドが認識されたことをトリガにして、タイミングT605にて、回動制御部213を制御して、可動撮像部100のパン動作を開始し、所定の角度(例えば、30度又は90度等の任意の角度)だけ回転させる。
Triggered by the recognition of this activation command, the
ユーザは、タイミングT606にて、例えば“Movie start”の発声を開始したとする。この場合、発生の開始のタイミングの音声データは、タイミングT607から順に音声用メモリ2042に格納されていく。そして、タイミングT608にて、音声コマンド認識部2043が、音声データを“Movie start”を表す音声コマンドとして認識する。音声コマンド認識部2043は、音声用メモリ2042内の“Movie start”を表す音声データの先頭と終端のアドレスと、認識結果を中央制御部201に通知する。中央制御部201は、受信した先頭と終端のアドレスが表す範囲を有効範囲として決定する。そして、中央制御部201は、音方向検出部2044のバッファメモリ2044a内の有効範囲内から、タイミングT608~T609にて音声コマンド認識部2043で認識された音声コマンドに同期する音方向情報を取得する。そして、中央制御部201は、タイミングT604~T605にて認識された音声コマンドに同期する音方向情報と、タイミングT608~T609にて認識された音声コマンドに同期する音方向情報とに基づいて、音源の音方向を特定する。音源の音方向を特定する音方向特定処理の詳細は、後で図10を用いて説明する。そして、タイミングT609にて、特定した音源の音方向に基づいて、回動制御部213を制御して、可動撮像部100のパン動作、チルト動作を開始する。
Assume that the user starts uttering, for example, "Movie start" at timing T606. In this case, the audio data at the start timing of generation are sequentially stored in the
可動撮像部100のパン動作、チルト動作中に、タイミングT610にて、撮像部102で撮像画像に被写体(オブジェクト;顔)を検出したとする。すると、中央制御部201はパン動作、チルト動作を停止する(タイミングT611)。また、タイミングT612にて、中央制御部201は、動画用音声処理部2045に電力を供給して、マイク104a、及び、104bによるステレオ音声の収音状態にする。そして、中央制御部201は、タイミングT613にて、音声付の動画像の撮像と記録を開始する。
Assume that the
次に、実施形態における音方向検出部2044による音源方向の検出処理を説明する。この処理は、図5のステップS106以降、周期的に、且つ、継続的に行われるようにしてもよい。
Next, detection processing of the sound source direction by the sound
まず、図9を用いて、マイク104aとマイク104bの2つのマイクを用いた音方向検出処理を説明する。同図は、マイク104aとマイク104bが平面上(仮想平面上)に配置されているとする。マイク104aとマイク104bの距離をd[a‐b]と表す。距離d[a‐b]に対して、撮像装置1と音源間の距離は十分に大きいと仮定する。この場合、マイク104aとマイク104bの音声を比較することによって、両者間の音声の遅延時間を特定することができる。
First, sound direction detection processing using two microphones, ie, the
到達遅延時間に音速(空気中は340m/s)を乗じることで、距離l[a‐b]を特定することができる。その結果、次式で音源方向角度θ[a‐b]を特定することができる。
θ[a‐b]=acos(l[a‐b]/d[a‐b])
By multiplying the arrival delay time by the speed of sound (340 m/s in air), the distance l[a−b] can be specified. As a result, the sound source direction angle θ[ab] can be specified by the following equation.
θ[ab]=acos(l[ab]/d[ab])
しかしながら、2つのマイクで求めた音方向は、求めた音源方向とθ[a‐b]’との区別ができない。つまり、2つの方向のいずれであるのかまでは特定できないことになる。 However, the sound direction determined by the two microphones cannot be distinguished from the sound source direction determined by θ[a−b]′. In other words, it is not possible to specify which of the two directions is.
そこで、実施形態における音方向特定処理を以下、図10(a)~(e)を用いて説明する。具体的には、2つのマイクで推定できる音源方向は2つあるので、それら2つの方向を仮方向として扱う。そして、2回のタイミングに分けて、2つのマイクで音源の方向を求め、仮方向を2つ求める。そして、これらに共通している方向が、求める音源の方向として決定される。 Therefore, sound direction identification processing in the embodiment will be described below with reference to FIGS. Specifically, since there are two sound source directions that can be estimated with two microphones, these two directions are treated as temporary directions. Then, the direction of the sound source is determined by two microphones at two timings, and two tentative directions are determined. Then, the direction common to these is determined as the desired direction of the sound source.
図10(a)において、マイク104a、マイク104bの並ぶ方向に直交する、レンズ部101の撮像方向(光軸方向)は、Y軸方向と一致している。
In FIG. 10A, the imaging direction (optical axis direction) of the
図9で説明したように、マイク104a、マイク104bより、距離d[a‐b]は既知であり、音声データより距離l[a‐b]を特定することができれば、θ[a‐b]を特定できる。
As described with reference to FIG. 9, the distance d[a-b] is known from the
音源が方向A(B)に存在する場合の音方向特定処理について、図10(a)(b)を用いて説明する。図10(a)に示すように、図5のステップS112で取得された音方向情報から、XY平面上の方向Aもしくは方向A′に音源が存在すると、中央制御部201により推定される。このとき、2つの検出角度θ1[a-b],θ1[a-b]’が、音源方向の仮方向として検出される。
Sound direction specifying processing when the sound source exists in direction A (B) will be described with reference to FIGS. As shown in FIG. 10A, from the sound direction information obtained in step S112 of FIG. 5, the
次に、ステップS113でのパン動作により、撮像装置1は30°回転したものとする。パン動作後のステップS119時点での、マイク104a、104bの配置と音源の位置関係は、図10(b)で示す通りとなり、XY平面上の方向Bもしくは方向B′に音源が存在すると、中央制御部201により推定される。このとき、2つの検出角度θ2[a-b],θ2[a-b]’が、音源方向の仮方向として検出される。
Next, it is assumed that the imaging device 1 has been rotated by 30° by the panning operation in step S113. The positional relationship between the placement of the
中央制御部201は、ステップS112で取得された検出角度θ1[a-b](又はθ1[a-b]’)、ステップS119で検出されたθ2[a-b](又はθ2[a-b]’)の変位を算出する。このとき、パン動作前後の検出角度の大小関係は、θ1[a-b](又はθ1[a-b]’)<θ2[a-b](又はθ2[a-b]’)となっている。このとき、θ1[a-b]+30度=θ2[a-b]の関係式が成立する。この場合、パン動作したことで、音源から遠ざかる方向に回転したことがわかる。したがって、パン動作の回転方向とは逆側の位置で検出された方向A(=B)に音源が存在することが特定できる。また、音源の位置が移動していない場合は、方向A,A’,B,B’のうち、共通する方向A(=B)に音源が存在することが特定できる。中央制御部201は、特定した音源の方向A(=B)を音方向特定処理の結果として内部メモリに記憶する。
The
また、音源が方向C(D)に存在する場合の音方向特定処理について、図10(c)(d)を用いて説明する。図10(c)に示すように、図5のステップS112で取得された音方向情報から、XY平面上の方向Cもしくは方向C′に音源が存在すると、中央制御部201により推定される。このとき、2つの検出角度θ1[a-b],θ1[a-b]’が、音源方向の仮方向として検出される。
Further, sound direction identification processing when the sound source exists in the direction C (D) will be described with reference to FIGS. As shown in FIG. 10(c), from the sound direction information obtained in step S112 of FIG. 5, the
次に、ステップS113でのパン動作により、撮像装置1は30°回転したものとする。パン動作後のステップS119時点での、マイク104a、104bの配置と音源の位置関係は、図10(d)で示す通りとなり、XY平面上の方向Dもしくは方向D′に音源が存在すると、中央制御部201により推定される。このとき、2つの検出角度θ2[a-b],θ2[a-b]’が、音源方向の仮方向として検出される。
Next, it is assumed that the imaging device 1 has been rotated by 30° by the panning operation in step S113. The positional relationship between the placement of the
中央制御部201は、ステップS112で取得された検出角度θ1[a-b](又はθ1[a-b]’)、ステップS119で検出されたθ2[a-b](又はθ2[a-b]’)の変位を算出する。このとき、パン動作前後の検出角度の大小関係は、θ1[a-b](又はθ1[a-b]’)>θ2[a-b](又はθ2[a-b]’)となっている。このとき、θ1[a-b]=θ2[a-b]+30度の関係式が成立する。この場合、パン動作したことで、音源に近づく方向に回転したことがわかる。したがって、パン動作の回転方向とは同じ側の位置で検出された方向C(=D)に音源が存在することが特定できる。また、音源の位置が移動していない場合は、方向C,C’,D,D’のうち、共通する方向C(=D)に音源が存在することが特定できる。中央制御部201は、特定した音源の方向C(=D)を音方向特定処理の結果として内部メモリに記憶する。
The
なお、ステップS113でのパン動作により、撮像装置1を90°回転してもよく、その場合について図10(a)(e)を用いて説明する。音源が方向A(E)に存在する場合の音方向特定処理について説明する。図10(a)の説明は上述のとおりなので、繰り返さない。 Note that the imaging apparatus 1 may be rotated by 90° by the panning operation in step S113, and this case will be described with reference to FIGS. 10A and 10E. The sound direction identifying process when the sound source exists in the direction A (E) will be described. The description of FIG. 10(a) is as described above, and will not be repeated.
ステップS113でのパン動作により、撮像装置1は90°回転する。パン動作後のステップS119時点での、マイク104a、104bの配置と音源の位置関係は、図10(e)で示す通りとなり、XY平面上の方向Eもしくは方向E′に音源が存在すると、中央制御部201により推定される。このとき、2つの検出角度θ3[a-b],θ3[a-b]’が、音源方向の仮方向として検出される。
The pan operation in step S113 rotates the imaging device 1 by 90 degrees. The positional relationship between the placement of the
中央制御部201は、ステップS112で取得された検出角度θ1[a-b](又はθ1[a-b]’)、ステップS119で検出されたθ3[a-b](又はθ3[a-b]’)の変位を算出する。このとき、パン動作前後の検出角度の大小関係は、θ1[a-b](又はθ1[a-b]’)<θ3[a-b](又はθ3[a-b]’)となっている。つまり、パン動作したことで、音源から遠ざかる方向に回転したことがわかる。このとき、θ1[a-b]+90度=θ3[a-b]の関係式が成立する。この場合、パン動作したことで、音源から遠ざかる方向に回転したことがわかる。したがって、パン動作の回転方向とは逆側の位置で検出された方向E(=A)に音源が存在することが特定できる。また、音源の位置が移動していない場合は、方向A,A’,E,E’のうち、共通する方向A(=E)に音源が存在することが特定できる。中央制御部201は、特定した音源の方向A(=E)を音方向特定処理の結果として内部メモリに記憶する。
The
マイク104a、マイク104d間の距離d[a‐d]は既知であるので、音声データから距離l[a‐d]を特定できるので、θ[a‐d]も特定できる。
Since the distance d[a−d] between the
ステップS113で、可動撮像部100のパン動作により回転させるパン回転角度は、例えば、0<パン回転角度≦90の範囲で、予め任意の値に設定可能である。パン回転角度が小さいほど、パン動作の駆動時間が短くなるので、早く音方向特定処理の結果が得られるが、特定される音源の方向の精度が低くなる。一方、パン回転角度が大きいほど、パン動作の駆動時間が長くなるので、音方向特定処理の結果が得られるのが遅くなるが、特定される音源の方向の精度が高くなる。例えば、図8の時刻T603~T607の期間に、音源の位置が30度以上移動した場合、ステップS113で可動撮像部100のパン動作により回転させるパン回転角度が30度である場合は、音方向特定処理により正確な音源の方向を特定できないことがある。しかし、図8の時刻T603~T607の期間に、音源の位置が30度以上移動した場合でも、ステップS113で可動撮像部100のパン動作により回転させるパン回転角度が90度である場合は、音方向特定処理によりある程度正確な音源の方向を特定し得る。
In step S113, the pan rotation angle rotated by the pan operation of the
なお、ステップS113で、可動撮像部100のパン動作中に、音圧レベル検出部2041による閾値を超える音圧を表す音声データが検出された場合は、そのタイミングでパン動作を停止させてもよい。また、図5のステップS103にて、音圧レベル検出部2041による閾値を超える音圧を表す音声データが検出された期間の長さに比例して大きくなるように、パン回転角度を決定してもよい。
In step S113, when the sound pressure
また、θ2[a‐b]、θ3[a-b]と検知角度を増やしていけば、方向検知の角度の精度を高めることも可能である。例えば、可動撮像部100のパン動作による回転角度が30度の場合と、90度の場合の両方の音方向検出結果を中央制御部201が取得し、2回分の音方向検出結果に基づいて、音源の方向を特定すれば、方向検知の角度の精度が高くなる。例えば、2回分の音方向特定処理の結果が異なる場合は、2回分の音方向特定処理の結果の平均値を求めることにより、音源の方向を確定してもよい。その場合のフロー図を、図11に示す。
Further, by increasing the detection angle to θ2[ab] and θ3[ab], it is possible to improve the accuracy of the direction detection angle. For example, the
図11のフロー図では、図5のフロー図からステップS301,S302が追加されている。例えば、ステップS113では、中央制御部201は、回動制御部213を制御して、可動撮像部100のパン動作を行い、現在の撮像部102の撮像方向(光軸方向)の水平面の角度を、30度だけ回転させる。
In the flowchart of FIG. 11, steps S301 and S302 are added from the flowchart of FIG. For example, in step S113, the
そして、中央制御部201は、ステップS301にて、音声コマンド認識部2043で認識された音声コマンドに同期する音方向情報を、音方向検出部2044のバッファメモリ2044aから取得する。音声コマンド認識部2043は、先に説明したように、ステップS108にて音声コマンドを認識したとき、音声用メモリ2042内の音声コマンドを表す先頭と終端を表す2つのアドレスを中央制御部201に通知する。そこで、中央制御部201は、ステップS108にて認識された音声コマンドに同期した音方向として、この2つのアドレスが示す期間内で検出した音方向情報をバッファメモリ2044aから取得する。
Then, in step S301, the
ステップS302では、中央制御部201は、回動制御部213を制御して、可動撮像部100のパン動作を行い、現在の撮像部102の撮像方向(光軸方向)の水平面の角度を、さらに60度だけ回転させる。これにより、ステップS113とステップS302により、パン回転される角度の合計は90度となる。
In step S302, the
この場合、ステップS119では、中央制御部201は、ステップS114にて認識された音声コマンドに同期した音方向として、検出した音方向情報をバッファメモリ2044aから取得する。この結果、撮像部102の撮像方向(光軸方向)の水平面の角度を、基準角度に対して30度回転させた状態で検出された音方向と、90度回転させた状態で検出された音方向とが得られる。そして、ステップS120にて、中央制御部201は、ステップS112,S301,S119で取得した3回分の音方向に基づいて、音源の音方向を特定し、特定した音方向を音方向特定処理の結果として内部メモリに記憶する。
In this case, in step S119, the
上記実施形態によれば、特別な操作を行わずとも、ユーザの意図したタイミングで意図した構図の画像を撮像することができる。この結果、音声コマンドを発声した人物(の顔)以外を誤って被写体とすることを抑制できる。また、音声コマンドを発した人物の意図したジョブを実行することも可能になる。また、少ないマイク数で音源の方向検知を高精度に行うことができる。また、少ないマイク数でよいため、部品コストが抑えられ、簡易な構造で、音源の方向検知を高精度に行うことができる。 According to the above embodiment, it is possible to capture an image with an intended composition at a timing intended by the user without performing a special operation. As a result, it is possible to prevent a person other than (the face of) the person who uttered the voice command from being mistakenly set as the subject. It also becomes possible to execute a job intended by the person who issued the voice command. Also, the direction of the sound source can be detected with high accuracy with a small number of microphones. In addition, since only a small number of microphones are required, the cost of parts can be suppressed, and the direction of the sound source can be detected with high accuracy with a simple structure.
更に、上記実施形態で説明したように、マイク104a,104b、音声信号処理部204を構成する各要素は、実際にそれらが利用する段階でなって初めて中央制御部201の制御の元で電力供給が行われる。よって、全構成要素が可動状態にある場合と比較して、電力消費量を抑制できる。
Furthermore, as described in the above embodiment, power is supplied to the
上記実施形態では、音圧レベル検出部2041、音声コマンド認識部2043、音方向検出部2044、動画用音声処理部2045等が、中央制御部201とは独立した処理部とする例を説明した。しかしながら、中央制御部201が、これらの全部或いは一部を、プログラムを実行することで代替しても構わない。
In the above embodiment, the sound pressure
(その他の実施例)
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
(Other examples)
The present invention supplies a program that implements one or more functions of the above-described embodiments to a system or apparatus via a network or a storage medium, and one or more processors in the computer of the system or apparatus reads and executes the program. It can also be realized by processing to It can also be implemented by a circuit (for example, ASIC) that implements one or more functions.
1 撮像装置
100 可動撮像部
101 レンズ部
102 撮像部
104 音声入力部
104a,104b マイク
201 中央制御部
2041 音圧レベル検出部
2042 音声用メモリ
2043 音声コマンド認識部
2044 音方向検出部
2045 動画像音声処理部
2046 コマンドメモリ
1
Claims (13)
前記可動撮像部に設けられた複数のマイクと、
前記複数のマイクを用いて音源の方向を検出する音方向検出を行う音方向検出手段と、
前記可動撮像部を第1の方向に向けた状態で、前記音方向検出手段により検出された音方向と、前記可動撮像部を前記第1の方向から前記所定の方向に回動させて第2の方向に向けた状態で、前記音方向検出手段により検出された音方向とに基づいて、音源の方向を特定する処理を行うように制御する制御手段と、を備え、
前記第2の方向は、前記第1の方向から、0度より大きく90度以下である予め定められた回転角度だけ、前記可動撮像部を前記所定の方向に回動させた方向であることを特徴とする撮像装置。 a movable imaging unit provided with an imaging unit, the imaging unit being rotatable in a predetermined direction;
a plurality of microphones provided in the movable imaging unit;
sound direction detection means for detecting the direction of a sound source using the plurality of microphones;
With the movable imaging section directed in the first direction, the sound direction detected by the sound direction detection means and the second direction by rotating the movable imaging section from the first direction to the predetermined direction are detected. a control means for controlling to perform processing for specifying the direction of the sound source based on the sound direction detected by the sound direction detection means when the sound direction is directed to the direction of
The second direction is a direction in which the movable imaging section is rotated in the predetermined direction by a predetermined rotation angle greater than 0 degrees and less than or equal to 90 degrees from the first direction. An imaging device characterized by:
前記撮像部が設けられ、チルト動作の方向に回動可能な第1の筐体部と、
前記第1の筐体部が設けられ、パン動作の方向に回動可能な第2の筐体部と、を含み、
前記複数のマイクは、前記第1の筐体部に設けられることを特徴とする請求項1から3までのいずれか1項に記載の撮像装置。 The movable imaging unit
a first housing unit provided with the imaging unit and rotatable in a tilting direction;
a second housing provided with the first housing and rotatable in a panning direction;
4. The imaging apparatus according to any one of claims 1 to 3, wherein the plurality of microphones are provided on the first casing.
前記制御手段は、前記認識手段により音声コマンドが認識された場合、認識した音声コマンドに基づく処理を実行することを特徴とする請求項4または6までのいずれか1項に記載の撮像装置。 Further comprising recognition means for recognizing a voice command represented by voice data based on voice data input from one of the plurality of microphones,
7. The imaging apparatus according to claim 4, wherein, when a voice command is recognized by said recognition means, said control means executes processing based on the recognized voice command.
前記制御手段は、
前記撮像装置の起動時では、前記複数のマイクのうち、前記音圧レベル検出手段に接続されたマイクのみを利用して、前記閾値を超える音圧レベルの音声データの検出を待ち、
前記閾値を超える音圧レベルの音声データの検出をトリガにして、前記認識手段を起動して音声認識を開始し、かつ、前記音方向検出手段への電力供給を開始することを特徴とする請求項7又は8に記載の撮像装置。 Further comprising sound pressure level detection means connected to one of the plurality of microphones and detecting audio data representing a sound pressure level exceeding a preset threshold;
The control means is
When the imaging device is activated, only the microphone connected to the sound pressure level detection means among the plurality of microphones is used to wait for detection of audio data having a sound pressure level exceeding the threshold;
Triggered by detection of audio data having a sound pressure level exceeding the threshold, the recognition means is activated to start speech recognition, and power supply to the sound direction detection means is started. Item 9. The imaging device according to item 7 or 8.
前記複数のマイクを用いて音源の方向を検出する音方向検出を行う音方向検出工程と、
前記可動撮像部を第1の方向に向けた状態で、前記音方向検出工程で検出された音方向と、前記可動撮像部を前記第1の方向から前記所定の方向に回動させて第2の方向に向けた状態で、前記音方向検出工程で検出された音方向とに基づいて、音源の方向を特定する処理を行うように制御する制御工程と、を有し、
前記第2の方向は、前記第1の方向から、0度より大きく90度以下である予め定められた回転角度だけ、前記可動撮像部を前記所定の方向に回動させた方向であることを特徴とすする撮像装置の制御方法。 A control method for an imaging device comprising: a movable imaging unit provided with an imaging unit, the imaging unit being rotatable in a predetermined direction; and a plurality of microphones provided in the movable imaging unit, comprising:
a sound direction detection step of detecting the direction of a sound source using the plurality of microphones;
With the movable imaging section directed in the first direction, the sound direction detected in the sound direction detection step and the second direction by rotating the movable imaging section from the first direction to the predetermined direction are detected. and a control step of controlling to perform processing for specifying the direction of the sound source based on the sound direction detected in the sound direction detection step in a state in which the sound direction is directed to the direction of
The second direction is a direction in which the movable imaging section is rotated in the predetermined direction by a predetermined rotation angle greater than 0 degrees and less than or equal to 90 degrees from the first direction. A method of controlling an imaging device characterized by :
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018104913A JP7118746B2 (en) | 2018-05-31 | 2018-05-31 | IMAGING DEVICE, CONTROL METHOD AND PROGRAM THEREOF |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018104913A JP7118746B2 (en) | 2018-05-31 | 2018-05-31 | IMAGING DEVICE, CONTROL METHOD AND PROGRAM THEREOF |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2019212965A JP2019212965A (en) | 2019-12-12 |
JP2019212965A5 JP2019212965A5 (en) | 2021-07-26 |
JP7118746B2 true JP7118746B2 (en) | 2022-08-16 |
Family
ID=68847044
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018104913A Active JP7118746B2 (en) | 2018-05-31 | 2018-05-31 | IMAGING DEVICE, CONTROL METHOD AND PROGRAM THEREOF |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7118746B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114325584B (en) * | 2022-03-14 | 2022-06-24 | 杭州兆华电子股份有限公司 | Synthetic aperture-based multi-array-element ultrasonic sound source three-dimensional imaging method and system |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007053513A (en) | 2005-08-17 | 2007-03-01 | Sony Corp | Camera controller and teleconference system |
JP2007069302A (en) | 2005-09-07 | 2007-03-22 | Hitachi Ltd | Action expressing device |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09222352A (en) * | 1996-02-16 | 1997-08-26 | Mitsubishi Electric Corp | Sound source position detecting method, sound source direction detecting device, and sound source position detection device |
-
2018
- 2018-05-31 JP JP2018104913A patent/JP7118746B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007053513A (en) | 2005-08-17 | 2007-03-01 | Sony Corp | Camera controller and teleconference system |
JP2007069302A (en) | 2005-09-07 | 2007-03-22 | Hitachi Ltd | Action expressing device |
Also Published As
Publication number | Publication date |
---|---|
JP2019212965A (en) | 2019-12-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11265477B2 (en) | Image capturing apparatus and non-transitory recording medium | |
JP7292853B2 (en) | IMAGING DEVICE, CONTROL METHOD AND PROGRAM THEREOF | |
US8823814B2 (en) | Imaging apparatus | |
US20200329202A1 (en) | Image capturing apparatus, control method, and recording medium | |
CN111901524B (en) | Focusing method and device and electronic equipment | |
JP2011237716A (en) | Digital camera and method for controlling the same | |
JP2023539800A (en) | Stabilizer for photography equipment | |
JP7118746B2 (en) | IMAGING DEVICE, CONTROL METHOD AND PROGRAM THEREOF | |
WO2019130909A1 (en) | Imaging device, control method therefor, and recording medium | |
US8760552B2 (en) | Shooting apparatus | |
US11490001B2 (en) | Imaging apparatus | |
WO2019130908A1 (en) | Imaging device, control method therefor and recording medium | |
WO2021140879A1 (en) | Imaging device, control method for imaging device, program | |
US20210266450A1 (en) | Image capture apparatus and control method for same, and storage medium | |
JP5712599B2 (en) | Imaging apparatus and program | |
JP7451235B2 (en) | Imaging device, control method, and program | |
CN114500790A (en) | Image pickup apparatus, control method thereof, and storage medium | |
JP2012185343A (en) | Photographing device | |
JP2021111960A (en) | Imaging apparatus, control method of the same, and program | |
JP2022030416A (en) | Imaging apparatus, method for controlling imaging apparatus, and program | |
CN107613194B (en) | Focusing method, mobile terminal and computer readable storage medium | |
JP2006166006A (en) | Image pickup apparatus and program thereof | |
US20210152733A1 (en) | Imaging apparatus | |
JP2022183848A (en) | Speech recognition device, display device, and control method and program and storage medium therefor | |
JP2024046308A (en) | Imaging device, control method, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210531 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210531 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220118 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220302 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220705 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220803 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7118746 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |