JP2019186630A - 撮像装置及びその制御方法及びプログラム - Google Patents
撮像装置及びその制御方法及びプログラム Download PDFInfo
- Publication number
- JP2019186630A JP2019186630A JP2018071918A JP2018071918A JP2019186630A JP 2019186630 A JP2019186630 A JP 2019186630A JP 2018071918 A JP2018071918 A JP 2018071918A JP 2018071918 A JP2018071918 A JP 2018071918A JP 2019186630 A JP2019186630 A JP 2019186630A
- Authority
- JP
- Japan
- Prior art keywords
- imaging
- sound
- unit
- voice command
- control unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003384 imaging method Methods 0.000 title claims abstract description 350
- 238000000034 method Methods 0.000 title claims abstract description 117
- 230000008569 process Effects 0.000 claims abstract description 93
- 238000001514 detection method Methods 0.000 claims description 116
- 238000012545 processing Methods 0.000 claims description 70
- 238000009434 installation Methods 0.000 claims description 16
- 230000003287 optical effect Effects 0.000 description 15
- 230000004913 activation Effects 0.000 description 14
- 210000003128 head Anatomy 0.000 description 12
- 230000005236 sound signal Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 9
- 238000010079 rubber tapping Methods 0.000 description 9
- 230000001133 acceleration Effects 0.000 description 8
- 238000004091 panning Methods 0.000 description 7
- 238000005070 sampling Methods 0.000 description 6
- 230000008859 change Effects 0.000 description 5
- 238000010009 beating Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 210000005252 bulbus oculi Anatomy 0.000 description 2
- 210000000887 face Anatomy 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000030808 detection of mechanical stimulus involved in sensory perception of sound Effects 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/40—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
- H04R1/406—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10K—SOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
- G10K11/00—Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
- G10K11/18—Methods or devices for transmitting, conducting or directing sound
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N1/00—Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
- H04N1/0035—User-machine interface; Control console
- H04N1/00352—Input means
- H04N1/00403—Voice input means, e.g. voice commands
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/50—Constructional details
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/64—Computer-aided capture of images, e.g. transfer from script file into camera, check of taken image quality, advice or proposal for image composition or decision on when to take image
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/65—Control of camera operation in relation to power supply
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/66—Remote control of cameras or camera parts, e.g. by remote control devices
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/68—Control of cameras or camera modules for stable pick-up of the scene, e.g. compensating for camera body vibrations
- H04N23/681—Motion detection
- H04N23/6812—Motion detection based on additional sensors, e.g. acceleration sensors
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/68—Control of cameras or camera modules for stable pick-up of the scene, e.g. compensating for camera body vibrations
- H04N23/682—Vibration or motion blur correction
- H04N23/685—Vibration or motion blur correction performed by mechanical compensation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/695—Control of camera direction for changing a field of view, e.g. pan, tilt or based on tracking of objects
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/02—Casings; Cabinets ; Supports therefor; Mountings therein
- H04R1/028—Casings; Cabinets ; Supports therefor; Mountings therein associated with devices performing functions other than acoustics, e.g. electric candles
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N2101/00—Still video cameras
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/50—Constructional details
- H04N23/51—Housings
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2430/00—Signal processing covered by H04R, not provided for in its groups
- H04R2430/20—Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
- H04R2430/23—Direction finding using a sum-delay beam-former
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Otolaryngology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Studio Devices (AREA)
- Accessories Of Cameras (AREA)
Abstract
【課題】 音声ではなく、ユーザは撮像装置を叩く操作を行うことで、その叩く位置に応じた方向に撮像方向を向けることを可能にする。【解決手段】 撮像方向が可変の撮像部を有する撮像装置であって、音源方向を特定するための複数のマイクで構成される音声入力部と、音声入力部で入力した音声データが示す音声コマンドを認識する認識部と、音声入力部から入力した音声データに基づき、音源の方向を検出する音方向検出部と、認識した音声コマンドに基づく撮像にかかる処理を行う制御部とを有する。また、撮像装置の筐体への接触による振動を検出する振動検出部を有する。そして、制御部は、振動検出部により予め設定された強度の振動を検出した場合には、接触により発生した音の方向を音方向検出部で検出させることで筐体への接触の位置を求め、当該接触の位置から特定される方向に撮像部の撮像方向を設定する。【選択図】 図1
Description
本発明は、撮像装置及びその制御方法及びプログラムに関するものである。
カメラ等の撮像装置による静止画・動画撮影では、ユーザがファインダー等を通して撮影対象を決定し、撮影状況を自ら確認して撮影画像のフレーミングを調整し、画像を撮影するのが一般的である。このような撮像装置には、ユーザの操作ミスを検知してユーザに通知したり、外部環境の検知を行い、撮影に適していない場合にユーザに通知したりする機能が備えられている。また、撮影に適した状態になるようにカメラを制御する仕組みが従来から存在している。
一方、ユーザが撮影指示を与えることなく定期的および継続的に撮影を行うライフログカメラが存在する(特許文献1)。ライフログカメラは、ストラップ等でユーザの身体に装着された状態で用いられ、ユーザが日常生活で目にする光景を一定時間間隔で映像として記録するものである。ライフログカメラによる撮影は、ユーザがシャッターを切るなどの意図したタイミングで撮影するのではなく、一定の時間間隔で撮影を行うため、普段撮影しないような不意な瞬間を映像として残すことができる。
ライフログカメラの撮影被写体の検出方法の一つとして音方向検知による探索が知られている。ライフログカメラに供えられた集音部等に入力される音声情報から音声の到来方向を検知することで、画角外に存在する被写体を検出することが可能となる。
また、ライフログカメラの制御方法の一つとして音声認識によるカメラ制御が知られている。ある特定の単語をある特定の制御に関連付けることで、釦やUIの操作なく操作者の音声で撮影開始の指示などを制御することが可能となる。
しかしながら、ライフログカメラがユーザの身体に装着された状態では、音声による撮影開始の指示を行っても、取り付け部位によっては装着者の位置関係が不正確に認識され、意図した方向の撮影が行えないという問題が起きやすい。
本発明は上述した課題に鑑みてなされたものであり、撮像装置をユーザにとって望む方向に向かうように設定可能にする技術を提供しようとするものである。
本発明は上述した課題に鑑みてなされたものであり、撮像装置をユーザにとって望む方向に向かうように設定可能にする技術を提供しようとするものである。
この課題を解決するため、例えば本発明の撮像装置は以下の構成を備える。すなわち、
撮像方向が可変の撮像手段を有する撮像装置であって、
音源方向を特定するための複数のマイクで構成される音声入力手段と、
前記音声入力手段で入力した音声データが示す音声コマンドを認識する認識手段と、
前記音声入力手段から入力した音声データに基づき、音源の方向を検出する音方向検出手段と、
認識した音声コマンドに基づく撮像にかかる処理を行う制御手段とを有し、
更に前記撮像装置の筐体への接触による振動を検出する振動検出手段を有し、
前記制御手段は、
前記振動検出手段により予め設定された強度の振動を検出した場合には、前記接触により発生した音の方向を前記音方向検出手段で検出させることで前記筐体への接触の位置を求め、当該接触の位置から特定される方向に前記撮像手段の撮像方向を設定することを特徴とする。
撮像方向が可変の撮像手段を有する撮像装置であって、
音源方向を特定するための複数のマイクで構成される音声入力手段と、
前記音声入力手段で入力した音声データが示す音声コマンドを認識する認識手段と、
前記音声入力手段から入力した音声データに基づき、音源の方向を検出する音方向検出手段と、
認識した音声コマンドに基づく撮像にかかる処理を行う制御手段とを有し、
更に前記撮像装置の筐体への接触による振動を検出する振動検出手段を有し、
前記制御手段は、
前記振動検出手段により予め設定された強度の振動を検出した場合には、前記接触により発生した音の方向を前記音方向検出手段で検出させることで前記筐体への接触の位置を求め、当該接触の位置から特定される方向に前記撮像手段の撮像方向を設定することを特徴とする。
第1の発明によれば、音声ではなく、ユーザは撮像装置を叩く操作を行うことで、その叩く位置に応じた方向に撮像方向を向けることが可能になる。
第2の発明によれば、予め設定された音声コマンドを発声して撮像装置の設置する位置を決めることで、ユーザにとっての前方となる方向を設定できるようになる。
また、第3の発明によれば、予め設定された音声コマンドを発声し、望む方向を顔を向ける操作を行うだけで、特定の音声コマンドを発しした際に撮像する方向を登録することができる。
以下図面に従って本発明に係る実施形態を詳細に説明する。
[第1の実施形態]
図1は、第1の実施形態に係る撮像装置1のブロック構成図である。撮像装置1は、光学レンズユニットを含み、撮像する撮像方向(光軸方向)が可変の可動撮像部100、及び、可動撮像部100の駆動制御および、撮像装置全体を制御する中央制御部(CPU)を含む支持部200で構成される。
図1は、第1の実施形態に係る撮像装置1のブロック構成図である。撮像装置1は、光学レンズユニットを含み、撮像する撮像方向(光軸方向)が可変の可動撮像部100、及び、可動撮像部100の駆動制御および、撮像装置全体を制御する中央制御部(CPU)を含む支持部200で構成される。
なお、支持部200は、圧電素子を含む複数の振動体11〜13が可動撮像部100の面に対し接触するように設けられている。これらの振動体11〜13の振動の制御により、可動撮像部100がパン、チルト動作を行うことになる。なお、パン、チルト動作はサーボモータ等で実現しても構わない。
可動撮像部100は、レンズ部101、撮像部102、レンズアクチュエータ制御部103、及び、音声入力部104を有する。
レンズ部101は、ズームレンズ、絞り・シャッタ、および、フォーカレンズなどの撮影光学系で構成される。撮像部102は、CMOSセンサやCCDセンサなどの撮像素子を含み、レンズ部101により結像された光学像を光電変換して電気信号を出力する。レンズアクチュエータ制御部103は、モータドライバICを含み、レンズ部101のズームレンズ、絞り・シャッタ、および、フォーカスレンズ等の各種アクチュエータを駆動する。各種アクチュエータは、後述する支持部200内の中央制御部201より受信した、アクチュエータ駆動指示データに基づいて駆動される。音声入力部104はマイクロフォン(以降マイク)を含む音声入力部であり複数のマイク(実施形態では4つ)で構成されており、音声信号を電気信号にさらにデジタル信号(音声データ)に変換して出力する。
一方、支持部200は、撮像装置1の全体の制御を行うための中央制御部201を有する。この中央制御部201は、CPUと、CPUが実行するプログラムを格納したROM、及び、CPUのワークエリアとして使用されるRAMで構成される。また、支持部200は、撮像信号処理部202、映像信号処理部203、音声信号処理部204、操作部205、記憶部206、表示部207を有する。更に、支持部200は、入出力端子部208、音声再生部209、電源部210、電源制御部211、位置検出部212、回動制御部213、無線通信部214、並びに、先に説明した振動体11〜13を有する。
撮像信号処理部202は、可動撮像部100の撮像部102から出力された電気信号を映像信号へ変換する。映像信号処理部203は、撮像信号処理部202から出力された映像信号を用途に応じて加工する。映像信号の加工は画像切り出し、及び、回転加工による電子防振動作や、被写体(顔)を検出する被写体検出処理も含まれる。
音声信号処理部204は、音声入力部104からのデジタル信号に対して音声処理を行う。音声入力部104が電気アナログ出力であれば、音声信号処理部204において、電気アナログ信号からデジタル信号に変換する構成が含まれても構わない。なお、音声入力部104を含めた音声信号処理部204の詳細については図2を用いて後述する。
操作部205は、撮像装置1とユーザとの間のユーザインターフェースとして機能するものであり、各種スイッチ、ボタン等で構成される。記憶部206は、撮影により得られた映像情報などの種々のデータを記憶する。表示部207は、LCDなどのディスプレイを備え、映像信号処理部203から出力された信号に基づいて、必要に応じて画像表示を行う。また、この表示部207は、各種メニュー等を表示することで、ユーザインターフェースの一部として機能する。外部入出力端子部208は、外部装置との間で通信信号および映像信号を入出力する。音声再生部209はスピーカーを含み、音声データを電気信号に変換し、音声を再生する。電源部210は、撮像装置の全体(各要素)の駆動に必要な電力供給源であり、実施形態では充電可能なバッテリであるものとする。
電源制御部211は、撮像装置1の状態に応じて、上記の各構成要素への電源部210からの電力の供給/遮断を制御するものである。撮像装置1の状態によっては、不使用の要素が存在する。電源制御部211は、中央制御部201の制御下で、撮像装置1の状態によって不使用な要素への電力を遮断して、電力消費量を抑制する機能を果たす。なお、電力供給/遮断については、後述する説明から明らかにする。
位置検出部212はジャイロ、加速度センサ、GPSといった撮像装置1の動きを検出する。この位置検出部212は、撮像装置1がユーザに身に着ける場合にも対処するためである。回動制御部213は、中央制御部201からの指示に従って振動体11〜13を駆動する信号を生成し、出力する。振動体11〜13は圧電素子で構成され、回動制御部213から印加される駆動信号に応じて振動する。振動体11〜13は、回動駆動部(パン・チルト駆動部)を構成する。この結果、可動撮像部100は、中央制御部201が指示した方向に、パン動作、チルト動作することになる。
無線部214はWifiやBLEなどの無線規格に準拠して画僧データ等のデータ送信を行う。
次に、実施形態における音声入力部104および音声信号処理部204の構成と、音方向検出処理を図2を参照して説明する。同図は、音声入力部104および音声信号処理部204の構成と、音声信号処理204、中央制御部201及び電源制御部211の接続関係を示している。
音声入力部104は、4つの無指向性のマイク(マイク104a、マイク104b、マイク104c、マイク104d)で構成される。各マイクはA/Dコンバータを内蔵しており、予め設定されたサンプリングレート(コマンド検出、方向検出処理:16KHz、動画録音:48Khz)で音声をサンプリングし、内蔵のA/Dコンバータによりサンプリングした音声信号をデジタルの音声データとして出力する。なお、実施形態では音声入力部104は4つのデジタルマイクで構成されるものとしているが、アナログ出力のマイクで構成されても構わない。アナログマイクの場合、音声信号処理部204内に、対応するA/Dコンバータが設ければ良い。また、実施形態におけるマイクの数は4つとするが、3つ以上であれば良い。
マイク104aは、撮像装置1の電源がONの場合には無条件に電力が供給され、集音可能状態となる。一方、他のマイク104b、マイク104c、マイク104dは、中央制御部201の制御下での電源制御部211による電力供給/遮断の対象となっており、撮像装置1の電源がONとなった初期状態では、電力は遮断されている。
音声信号処理部204は、音圧レベル検出部2041、音声用メモリ2042、音声コマンド認識部2043、音方向検出部2044、動画用音声処理部2045、及び、コマンドメモリ2046で構成される。
音圧レベル検出部2041は、マイク104aからの音声データが表す出力レベルが予め設定された閾値以上となったとき、音声検出を表す信号を電源制御部211及び音声用メモリ2042に供給する。
電源制御部211は、音圧レベル検出部2041から音声検出を表す信号を受信した場合、音声コマンド認識部2043への電力供給を行う。
音声用メモリ2043は、中央制御部201の制御下での電源制御部211による電力供給/遮断の対象の1つである。また、この音声用メモリ2043は、マイク104aからの音声データを一時的に記憶するバッファメモリである。この音声用メモリ2043は、少なくとも、最長の音声コマンドを比較的ゆっくり発声した場合の全サンプリングデータを記憶可能な容量を有する。マイク104aによるサンプリングレートが16KHzであり、1サンプリングにつき2バイト(16ビット)の音声データを出力し、最長の音声コマンドが仮に5秒であった場合、音声用メモリ2043は、約160Kバイト(≒5×16×1000×2)の容量を有する。また、音声用メモリ2043は、マイク104aからの音声データで満たされた場合、古い音声データが新たな音声データで上書きされる。この結果、音声用メモリ2043は、直近の所定期間(上記例では約5秒)の音声データが保持されることになる。また、音声用メモリ2043は、音圧レベル検出部2041から音声検出を示す信号を受信したことをトリガにして、マイク104aからの音声データをサンプリングデータ領域に格納していく。
コマンドメモリ2046は不揮発性のメモリで構成され、本撮像装置が認識する音声コマンドに係る情報を予め記憶保持(登録)されている。詳細は後述するが、コマンドメモリ2046に格納される音声コマンドの種類は例えば図8に示す通りであり、「起動コマンド」をはじめとして、複数種類のコマンドの情報が格納されている。
音声コマンド認識部2043は、中央制御部201の制御下での電源制御部211による電力供給/遮断の対象の1つである。なお、音声認識そのものは周知であるので、ここでの説明は省略する。この音声コマンド認識部2043は、コマンドメモリ2046を参照し、音声用メモリ2042に格納された音声データの認識処理を行う。そして、音声コマンド認識部2043は、マイク104aにより集音した音声データが、音声コマンドであるか否か、並びに、いずれの登録音声コマンドに一致するのかの判定を行う。そして、音声コマンド認識部2043は、コマンドメモリ2046に記憶されたいずれかの音声コマンドに一致する音声データを検出したとき、いずれのコマンドであるかを示す情報、並びに、音声用メモリ2043内の、その音声コマンドを決定づけた最初と最後の音声データのアドレス(或いはタイミング)を中央制御部201に供給する。
音方向検出部2044は、中央制御部201の制御下での電源制御部211による電力供給/遮断の対象の1つである。また、音方向検出部2044は、4つのマイク104a乃至104dからの音声データに基づき、周期的に音源の存在する方向の検出処理を行う。音方向検出部2044は、内部にバッファメモリ2044aを有し、検出した音源方向を表す情報をバッファメモリ2044aに格納する。なお、音方向検出部2044による音方向検出処理を行う周期(例えば16Khz)は、マイク104aのサンプリング周期に対して十分に長くて構わない。ただし、このバッファメモリ2044aは、音声用メモリ2042に格納可能な音声データの期間と同じ期間分の音方向情報を記憶するための容量を有するものとする。
動画用音声処理部2045は、中央制御部201の制御下での電源制御部211による電力供給/遮断の対象の1つである。動画用音声処理部2045は、4つのマイクのうち、マイク103aとマイク104bの2つの音声データをステレオ音声データとして入力し、各種フィルタ処理、ウィンドカット、ステレオ感強調、駆動音除去、ALC(Auto Level Control)、圧縮処理といった動画音声用の音声処理を行う。詳細は後述する説明から明らかになるが、実施形態ではマイク104aはステレオマイクのLチャネル用マイク、マイク104bはRチャネル用マイクとして機能する。
なお、図2では、音声入力部104の各マイクと音声信号処理部204に含まれる各ブロックとの接続は消費電力や回路構成を考慮し、4つのマイクにおける必要最低限で表している。しかし、電力および回路構成の許す限り、複数のマイクを音声信号処理部204に含まれる各ブロックで共有して使用しても構わない。また、本実施形態ではマイク104aを基準のマイクとして接続しているが、どのマイクを基準としも構わない。
図3(a)乃至(e)を参照して、撮像装置1の外観図および使用例を説明する。同図(a)は、実施形態に係る撮像装置1の外観の上面及び正面図を示している。撮像装置1の可動撮像部100は、略半球体形であり、水平を0度したとき、−20度から垂直方向を示す90度の範囲の切欠き窓を有し、図示矢印Aが示す水平面にて360度に亘って回動可能な第1の筐体150を有する。また、可動撮像部100は、この切欠き窓に沿って図示の矢印Bが示す水平から垂直の範囲内で、レンズ部101及び撮像部102と一緒に回動可能な第2の筐体151を有する。ここで、第1の筐体150の矢印Aの回動動作はパン動作、第2の筐体151の矢印Bの回動動作はチルト動作に対応し、これらは振動体11〜13の駆動によって実現している。なお、実施形態における撮像装置のチルト可能な範囲は、上記の通り、-20度から+90度の範囲であるものとする。
マイク104a、104bは、第1の筐体150の切欠き窓を挟む前面側の位置に配置されている。また、マイク104c、104dは、第1の筐体150の後方側に設けられている。図示からもわかるように、第2筐体152を固定にした状態で、第1筐体150を矢印Aに沿ってどの方向にパン動作させたとしても、レンズ部101及び撮像部102に対する、マイク104a、104bの相対的な位置は変わらない。つまり、撮像部102の撮像方向に対して左側にマイク104aが常に位置し、右側にマイク104bが常に位置することになる。それ故、撮像部102による撮像して得た画像が表す空間と、マイク104a,104bによる取得した音場は一定の関係を維持できることになる。
なお、実施形態における4つのマイク104a、104b、104c、103dは、撮像装置1の上面から見て、図3(a)に示すように長方形の各頂点の位置に配置されている。また、これら4つのマイクは、図3(a)における1つの水平面上に位置するものとするが、多少のずれがあっても構わない。
マイク104aとマイク104bとの距離は、マイク104aとマイク104cとの距離よりも大きい。なお、隣合うマイク間の距離は、10mm〜30mm程度が望ましい。また、実施形態ではマイクの数を4としているが、直線上に並ばないという条件を満たせば、マイクの数は3以上であれば構わない。また、図3(a)のマイク104a乃至104dの配置位置は一例であって、これらの配置方法は、メカ的制約やデザイン制約によって適宜変更しても構わない。
図3(b)乃至(e)は、実施形態における撮像装置1の利用形態を示している。図3(b)は、机などの固定物に撮像装置1に載置される場合で、撮影者自身やその周囲の被写体の撮影を目的とするものである。図3(c)は、撮像装置1を、撮影者の首にぶら下げる例であり、主に、撮影者の行動の前方の撮影を目的とするものである。図3(d)は、撮像装置1を撮影者の肩に固定した使用例であり、図示の場合は、撮影者の周囲の前後、及び、右側の撮影を目的とするものである。そして、図3(e)は、撮像装置1をユーザが持つ棒の端に固定する使用例であり、ユーザが望む所望の撮影位置(高所や手が届かない位置)に撮像装置1を移動させることで、撮影を行うことを目的とするものである。
図4(a)乃至(c)を用いて、本実施形態の撮像装置1のパン、チルトの動作を更に詳しく説明する。ここでは図3(b)のように据え置いた使用例で前提として記載するが、そのほかの使用例においても同様である。
図4(a)はレンズ部101が水平を向いている状態を示している。図4(a)を初期状態とし、第1筐体150を、上方向から見て反時計回りに90度パン動作させると、図4(b)のようになる。一方、図4(a)の初期状態から、第2筐体151の90度チルト動作をおこなうと、図4(c)の様になる。第1筐体150、第2筐体151の回動は、先に説明したように、回動制御部213により駆動される振動体11〜13による振動にて実現している。
次に、実施形態における撮像装置1の中央制御部201の処理手順を図5A,5Bのフローチャートに従って説明する。同図に係る処理は、撮像装置1のメイン電源がON、もしくはリセットされた場合の中央制御部201の処理を示している。
中央制御部201は、ステップS101にて、撮像装置1の初期化処理を行う。この初期化処理にて、中央制御部201は、現在の可動撮像部100の撮像部102の撮像方向における、水平面内の方向成分をパン動作の基準角度(0度)として決定する。
これ以降、可動撮像部100のパン動作を行った後の撮像方向のうち水平面の成分は、この基準角度からの相対的な角度で表されるものとする。また、音方向検出部2044が検出する音源方向のうちの水平面の成分も、上記基準角度に対する相対的な角度で表されるものとする。また、詳細は後述するが、音方向検出部2044は、撮像装置1の真上の方向(パン動作の回転軸の軸方向)に音源があるか否かの判定も行う。
なお、この段階で、音声用メモリ2042、音方向検出部2044、動画用音声処理部2045、並び、マイク104b乃至104への電力は遮断されている。
初期化処理を終えると中央制御部201は、ステップS102にて、電源制御部211を制御して、音圧レベル検出部2041、マイク104aへの電力の供給を開始する。この結果、音圧レベル検出部2041は、マイク104aでサンプリングされた音声データに基づく音圧検出処理を実行し、予め設定された閾値を超える音圧レベルの音声データを検出したときにその旨を中央制御部に通知することになる。なお、この閾値は、例えば60dB SPL(Sound Pressure Level)とするが、撮像装置1が環境等に応じて変更しても良いし、必要な周波数帯域だけに絞るようにしても良い。
中央制御部201は、ステップS103にて、音圧レベル検出部2041による閾値を超える音圧を表す音声データが検出されるのを待つ。閾値を超える音圧の音声データが検出されると、ステップS104にて、音声メモリ2042はマイク104aからの音声データの受信、格納処理を開始する。
また、ステップS105にて、中央制御部201は、電源制御部211を制御し、音声コマンド認識部2043への電力供給を開始する。この結果、音声コマンド認識部2043は、コマンドメモリ2046を参照した音声用メモリ2042に格納されていく音声データの認識処理を開始する。そして、音声コマンド認識部2043は、音声用メモリ2042に格納された音声データの認識処理を行い、コマンドメモリ2046内のいずれかの音声コマンドと一致すると認識した場合、その認識された音声コマンドを特定する情報と、音声用メモリ2043内の、認識した音声コマンドを決定づけた最初と最後の音声データのアドレス(或いはタイミング)情報とを含む情報を中央制御部201に通知することになる。
ステップS106にて、中央制御部201は、音声コマンド認識部2043から、音声コマンドが認識されたことを示す情報を受信したか否かを判定する。否の場合、中央制御部201は、処理をステップS108に進め、音声コマンド認識部2043を起動させてからの経過時間が、予め設定された閾値を超えたか否かを判定する。そして、経過時間が閾値以内である限り、中央制御部201は、音声コマンド認識部2043による音声コマンドが認識されるのを待つ。そして、閾値が示す時間が経過しても、音声コマンド認識部2043が音声コマンドを認識しなかった場合、中央制御部201は処理をステップS109に進める。このステップS109にて、中央制御部201は、電源制御部211を制御して音声コマンド認識部2043への電力を遮断する。そして、中央制御部201は、処理をステップS103に戻す。
一方、中央制御部201が、音声コマンド認識部2043から、音声コマンドが認識されたことを示す情報を受信した場合、処理をステップS107に進める。このステップS107にて、中央制御部201は、認識された音声コマンドが、図8に示される起動コマンドに対応するか否かを判定する。そして、認識された音声コマンドが起動コマンド以外のコマンドであると判定した場合、中央制御部201は処理をステップS108に進める。また、認識された音声コマンドが起動コマンドであった場合、中央制御部201は処理をステップS107からステップS110に進める。
ステップS110にて、中央制御部201は、電源制御部211を制御し、音方向検出部2044、マイク104b乃至104dへの電力供給を開始する。この結果、音方向検出部2044は、4つのマイク104a乃至104dからの同時刻の音声データに基づく、音源方向の検出処理を開始することになる。音源の方向の検出処理は、所定周期で行われる。そして、音方向検出部2044は、検出した音方向を示す音方向情報を、内部のバッファメモリ2044aに格納していく。このとき、音方向検出部2044は、音方向情報を決定に利用した音声データのタイミングが、音声メモリ2042に格納された音声データのどのタイミングであったのかを対応付くように、バッファメモリ2044aに格納する。典型的には、バッファメモリ2044aに格納するのは、音方向と、音声メモリ2042内の音声データのアドレスとすれば良い。なお、音方向情報には、水平面における、先に説明した基準角度に対する音源の方向との差を表す角度とする。また、詳細は後述するが、音源が撮像装置1の真上に位置する場合には、真上方向にあることを示す情報が音方向情報にセットされるものとする。
ステップS111にて、中央制御部201は、電源制御部211を制御し、撮像部102、及び、レンズアクチュエータ制御部103への電力供給を開始する。この結果、可動撮像部100は、撮像装置としての機能し始めることになる。
次に、ステップS151にて、中央制御部201は、音声コマンド認識部2043から、新たな音声コマンドが認識されたことを示す情報を受信したか否かを判定する。否の場合、中央制御部201は、処理をステップS152に進め、現在、ユーザからの指示に従った実行中のジョブがあるか否かを判定する。詳細は図6のフローチャートの説明から明らかになるが、動画撮影記録や追尾処理等がジョブに相当する。ここでは、そのような実行中のジョブは存在しないものとして説明を続ける。
ステップS153にて、前回の音声コマンドを認識してからの経過時間が、予め設定された閾値を超えるか否かを判定する。否の場合、中央制御部201は処理をステップS151に戻し、音声コマンドの認識を待つ。そして、実行中のジョブが無く、且つ、前回の音声コマンドを認識してから閾値を超える時間が経過しても、更なる音声コマンドが認識されない場合、中央制御部201は処理をステップS154に進める。このステップS154にて、中央制御部201は、電源制御部211を制御し、撮像部102、レンズアクチュエータ103への電力を遮断する。そして、中央制御部201は、ステップS155にて、電源制御部211を制御し、音方向検出部2044への電力も遮断し、処理をステップS106に戻す。
さて、中央制御部201が音声コマンド認識部2043から新たな音声コマンドが認識されたことを示す情報を受信したとする。この場合、音声コマンド認識部2043は、処理をステップS151からステップS156に進める。
実施形態における中央制御部201は、認識した音声コマンドに応じたジョブを実行するに先立って、音声コマンドの発生した人物を、可動撮像部100の撮像部102の視野内に入れる処理を行う。そして、撮像部102の視野内に人物が入っている状態で、認識した音声コマンドに基づくジョブを実行する。
上記を実現するため、中央制御部201は、ステップS156にて、音声コマンド認識部2043で認識された音声コマンドに同期する音方向情報を、音方向検出部2044のバッファメモリ2044aから取得する。音声コマンド認識部2043は、先に説明したように、音声コマンドを認識したとき、音声用メモリ2042内の音声コマンドを表す先頭と終端を表す2つのアドレスを中央制御部201に通知する。そこで、中央制御部201は、この2つのアドレスが示す期間内で検出した音方向情報をバッファメモリ2044aから取得する。2つのアドレスが示す期間内に複数の音方向情報が存在することもある。その場合、中央制御部201はその中の時間的に最も後の音方向情報をバッファメモリ2044aから取得する。時間的に後の音方向情報の方が、その音声コマンドを発した人物の現在の位置を表している蓋然性が高いからである。
ステップS157にて、中央制御部201は、取得した音情報が表す音源の方向が、撮像装置の真上の方向であるか否かを判定する。なお、音方向が撮像装置の真上であるか否かの判定についての詳細は項後述する。
音源が撮像装置1の真上の方向にある場合、中央制御部201は処理をステップS158に進める。このステップS158にて、中央制御部201は、回動制御部213を制御し、レンズ部101及び撮像部102の撮像方向を図4(c)に示す真上方向になるように、可動撮像部100の第2筐体151を回動させる。撮像部102の撮像方向が真上方向になった場合、中央制御部201は、ステップS159にて、映像信号処理部203から撮像画像を受信し、撮像画像内に音声発生原となるオブジェクト(人物の顔)が存在するか否かを判定する。否の場合、中央制御部201は処理をステップS151に戻す。一方、撮像画像内にオブジェクトが存在する場合、中央制御部201は処理をステップS164に進め、既に認識した音声コマンドに対応するジョブを実行する。なお、このステップS164の詳細は図6を用いて後述する。
ステップS157にて、中央制御部201が、音情報が示す方向が真上以外の方向であると判定した場合、処理をステップS160に進める。このステップS160にて、中央制御部201は、回動制御部213を制御して、可動撮像部100のパン動作を行い、現在の撮像部102の水平面の角度を、音情報が示す水平面の角度に一致させる。そして、ステップS161にて、中央制御部201は、映像信号処理部203から撮像画像を受信し、撮像画像内に音声発生原となるオブジェクト(顔)が存在するか否かを判定する。否の場合、中央制御部201は処理をステップS162に進め、回動制御部213を制御して、目標とするチルト角に向かって予め設定された角度だけ可動撮像部100のチルト動作を行う。そして、ステップS163にて、中央制御部201は、撮像部102の撮像方向のチルト角が、チルト動作の上限(実施形態では水平方向に対して90度)に到達したか否かを判定する。否の場合には、中央制御部201は処理をステップS161に戻す。こうして、中央制御部201は、チルト動作を行いながら、像信号処理部203からの撮像画像内に音声発生原となるオブジェクト(顔)が存在するか否かを判定していく。そして、撮像部102の撮像方向のチルト角がチルトの上限に到達してもオブジェクトが検出されない場合、中央制御部201は処理をステップS163からステップS151に戻す。一方、撮像画像内にオブジェクトが存在した場合、中央制御部201は処理をステップS164に進め、既に認識した音声コマンドに対応するジョブを実行する。
次に、図6のフローチャート、並びに、図7に示す音声コマンドテーブルに基づいて、ステップS164の処理の詳細を説明する。図7の音声コマンドテーブルに示される“Hi, Camera"等の音声コマンドに対応する音声パターンデータはコマンドメモリ2046に格納されるものである。なお、図7には音声コマンドとして代表的な数例示しているが、この数に特に制限はない。また、以下の説明における音声コマンドは、図5BのステップS151のタイミングで検出された音声コマンドである点に注意されたい。
まず、ステップS201にて、中央制御部201は、音声コマンドが、起動コマンドであるか否かを判定する。
この起動コマンドは、撮像装置1に対し、撮像可能な状態に遷移させる音声コマンドである。この起動コマンドは、図5AのステップS107で判定されるコマンドであり、撮像に係るジョブではない。よって、中央制御部201は、認識した音声コマンドが起動コマンドである場合には、そのコマンドについては無視し、処理をステップS151に戻す。
ステップS202にて、中央制御部201は、音声コマンドが、停止コマンドであるか否かを判定する。この停止コマンドは、一連の撮像可の状態から、起動コマンドの入力を待つ状態に遷移させるコマンドである。よって、中央制御部201は、認識した音声コマンドが停止コマンドである場合には、処理をステップS211に進める。ステップS211にて、中央制御部201は、電源制御部211を制御し、既に起動している撮像部102、音方向検出部2044、音声コマンド認識部2043、動画用音声処理部2045、マイク104b乃至104d等への電力を遮断し、これらを停止する。そして、中央制御部201は、処理を起動時のステップS103に戻す。
ステップS203にて、中央制御部201は、音声コマンドが静止画撮影コマンドであるか否かを判定する。この静止画撮影コマンドは、撮像装置1に対して1枚の静止画の撮影・記録ジョブの実行の要求を行うコマンドである。よって、中央制御部201は、音声コマンドが静止画撮影コマンドであると判定した場合、処理をステップS212に進める。ステップS212にて、中央制御部201は、撮像部102で撮像した1枚の静止画像データを例えばJPEGファイルとして、記憶部206に格納する。なお、この静止画撮影コマンドのジョブが、1枚の静止画撮影記録により完結するので、先に説明した図5BのステップS152で判定する対象のジョブとはならない。
ステップS204にて、中央制御部201は、音声コマンドが動画撮影コマンドであるか否かを判定する。動画撮影コマンドは、撮像装置1に対して動画像の撮像と記録を要求するコマンドである。中央制御部201は、音声コマンドが動画撮影コマンドであると判定した場合、処理をステップS213に進める。このステップS213にて、中央制御部201は、撮像部102による動画像の撮影と記録を開始し、処理をステップS151に戻す。実施形態では、撮像した動画像は記憶部206に格納されるものとするが、外部入出力端子部208を介してネットワーク上のファイルサーバに送信しても構わない。動画撮影コマンドは、動画像の撮像、記録を継続させるコマンドであるので、このコマンドによるジョブは、先に説明したステップS152で判定する対象のジョブとなる。
ステップS205にて、中央制御部201は、音声コマンドが動画撮影終了コマンドであるか否かを判定する。中央制御部201は、音声コマンドが動画撮影終了コマンドであり、尚且つ、現に動画像の撮像・記録中である場合には、その記録(ジョブ)を終了する。そして、中央制御部201は処理をステップS151に戻す。
ステップS206にて、中央制御部201は、音声コマンドが追尾コマンドであるか否かを判定する。追尾コマンドは、撮像装置1に対して、撮像部102の撮像方向に、ユーザを継続して位置させることを要求するコマンドである。中央制御部201は、音声コマンドが追尾コマンドであると判定した場合、処理をステップS214に進める。そして、ステップS214にて、中央制御部201は、映像信号処理部203で得られた映像の中心位置にオブジェクトが位置し続けるように、回動制御部213の制御を開始する。そして、中央制御部201は処理をステップS151に戻す。この結果、可動撮像部100がパン動作、或いはチルト動作を行い、移動するユーザを追尾することになる。ただし、ユーザを追尾するものの、撮像した画像の記録は行わない。また、追尾している間は、先に説明した図5BのステップS152で判定する対象のジョブとなる。そして、追尾終了コマンドを受信して初めて、中央制御部201はこの動画像の撮影記録を終了する。なお、追尾中に、例えば静止画撮影コマンドや動画撮影コマンドのジョブを実行しても構わない。
ステップS207にて、中央制御部201は、音声コマンドが追尾終了コマンドであるか否かを判定する。中央制御部201は、音声コマンドが追尾終了コマンドであり、尚且つ、現に追尾中中である場合には、その記録(ジョブ)を終了する。そして、中央制御部201は処理をステップS151に戻す。
ステップS208にて、中央制御部201は、音声コマンドが自動動画撮影コマンドであるか否かを判定する。中央制御部201は、音声コマンドが自動動画撮影コマンドであると判定した場合、処理をステップS217に進める。このステップS217にて、中央制御部201は、撮像部102による動画像の撮影と記録を開始し、処理をステップS151に戻す。この自動動画撮影コマンドと、先に説明した動画撮影コマンドとの違いは、この自動動画撮影コマンドのジョブが開始された場合、これ以降は、発声がある度に、その発声の音源の方向にレンズ部101の撮像方向を向けつつ動画像を撮影、記録を行う点である。例えば、複数の話者が存在するミーティングの環境下で、発言があるたびにその発言者をレンズ部101の画角内に収めるために、パン動作、チルト動作を行いながら、動画像を記録する。なお、この場合、自由な発言が許すことになるので、一旦、この自動動画撮影コマンドのジョブを終了させる音声コマンドはない。このジョブの終了は、操作部205に設けられた所定のスイッチ操作によって終了するものとする。また、このジョブを実行中、中央制御部201は、音声コマンド認識部2043は停止させる。そして、中央制御部201は、音圧レベル検出部2041により、閾値を超える音圧レベルを検出したタイミングでの、音方向検出部2044が検出した音方向情報を参照して、可動撮像部104のパン動作、チルト動作を行うことになる。
ステップS209にて、中央制御部201は、音声コマンドが間欠前方撮影コマンドであるか否かを判定する。例えば、“前方を撮影して”といった音声コマンドであるか否かを判定する。中央制御部201は、音声コマンドが間欠前方撮影コマンドであると判定した場合、処理をステップS217に進める。このステップS217にて、中央制御部201は、撮像装置1の装着者の前方を予め設定された時間間隔で静止画を撮影するジョブを実行中、前方の撮影を間欠的に継続することになるので、そのジョブを終了させるコマンドはない。このジョブの終了は、操作部205に設けられた所定のスイッチ操作によって終了するものとする。また、ステップS217における処理に移行する際には、撮像装置1は装着者の前方を判定した上で、そのジョブを実行する。その前方判定処理についての詳細は後述する。
なお、図6には示していないが、認識した音声コマンドが拡大コマンドである場合、中央制御部201はレンズアクチュエータ制御部103を制御し、予め設定された値だけ、現在の倍率を増加させる。また、認識した音声コマンドが拡大コマンドである場合、中央制御部201はレンズアクチュエータ制御部103を制御し、予め設定された値だけ、現在の倍率を減少させる。なお、レンズ部101が既にテレ端、或いは、ワイド端にあるとき、それを超えた拡大率、縮小率は設定できないので、このような音声コマンドがあった場合、中央制御部201はその音声コマンドを無視する。
以上であるが、上記以外の音声コマンドについては、ステップS207以降で実行されるが、ここでの説明は省略する。
ここで、実施形態における撮像装置1におけるメイン電源ONからの処理のシーケンスの一例を図8に示すタイミングチャートに従って説明する。
撮像装置1のメイン電源がONになると、音圧レベル検出部2041はマイク104aからの音声データの音圧レベルの検出処理を開始する。タイミングT601にて、ユーザは、起動コマンド“Hi,Camera”の発声を開始したとする。この結果、音圧レベル検出部2041が閾値以上の音圧を検出する。そして、これがトリガになって、タイミングT602にて、音声用メモリ2042がマイク104aからの音声データの格納を開始し、音声コマンド認識部2043が音声コマンドの認識を開始する。ユーザが起動コマンド“Hi,Camera”の発声を終えると、タイミングT603にて、音声コマンド認識部2043がその音声コマンドを認識し、且つ、認識した音声コマンドが起動コマンドであることを特定する。
中央制御部201は、この起動コマンドが認識されたことをトリガにして、タイミングT603にて音方向検出部2044に電力供給を開始する。また、中央制御部201は、タイミングT604にて撮像部102への電力供給も開始する。
ユーザは、タイミングT606にて、例えば“Movie start”の発声を開始したとする。この場合、発生の開始のタイミングの音声データは、タイミングT607から順に音声用メモリ2042に格納されていく。そして、タイミングT608にて、音声コマンド認識部2043が、音声データを“Movie start”を表す音声コマンドとして認識する。音声コマンド認識部2043は、音声用メモリ2042内の“Movie start”を表す音声データの先頭と終端のアドレスと、認識結果を中央制御部201に通知する。中央制御部201は、受信した先頭と終端のアドレスが表す範囲を有効範囲として決定する。そして、中央制御部201は、音方向検出部2044のバッファ2044a内の、有効範囲内から、最新の音方向情報を抽出し、タイミングT609にて、その抽出した情報に基づいて、駆動制御部213を制御して、可動撮像部100のパン動作、チルト動作を開始する。
可動撮像部100のパン動作、チルト動作中に、タイミングT612にて、撮像部102で撮像画像に被写体(オブジェクト;顔)を検出したとする。中央制御部201はパン動作、チルト動作を停止する(タイミングT613)。また、タイミングT614にて、中央制御部201は、動画用音声処理部2045に電力を供給して、マイク104a、及び、104bによるステレオ音声の収音状態にする。そして、中央制御部201は、タイミングT615にて、音声付動画像の撮像と記録を開始する。
次に、実施形態における音方向検出部2044による音源方向の検出処理を説明する。この処理は、図5AのステップS110以降、周期的に、且つ、継続的に行われるものである。
まず、図9(a)を用いて、マイク104aとマイク104bの2つのマイクを用いた簡易の音方向検知を説明する。同図は、マイク104aとマイク104bが平面上(仮想平面上)に配置されているとする。マイク104aとマイク104bの距離をd[a‐b]と表す。距離d[a‐b]に対して、撮像装置1と音源間の距離は十分に大きいと仮定する。この場合、マイク104aとマイク104bの音声を比較することによって、両者間の音声の遅延時間を特定することができる。
到達遅延時間に音速(空気中は340m/s)を乗じることで、距離l[a‐b]を特定することができる。その結果、次式で音源方向角度θ[a‐b]を特定することができる。
θ[a‐b]=acos(l[a‐b]/d[a‐b])
しかしながら、2つのマイクで求めた音方向は、求めた音源方向とθ[a‐b]’との区別ができない。つまり、2つの方向のいずれであるのかまでは特定できないことになる。
θ[a‐b]=acos(l[a‐b]/d[a‐b])
しかしながら、2つのマイクで求めた音方向は、求めた音源方向とθ[a‐b]’との区別ができない。つまり、2つの方向のいずれであるのかまでは特定できないことになる。
そこで、実施形態における音源の方向の検出方法を以下、図9(b)、(c)を用いて説明する。具体的には、2つのマイクで推定できる音源方向は2つあるので、それら2つの方向を仮方向として扱う。そして、更なる2つのマイクで音源の方向を求め、仮方向を2つ求める。そして、これらに共通している方向が、求める音源の方向として決定する。なお、図9(b)、(c)の上方向を可動撮像部100の撮像方向とする。可動撮像部100の撮像方向は、レンズ101の光軸方向(主軸方向)とも言い換えられる。
図9(b)は3つのマイクで行う方式である。マイク104a、マイク104b、マイク104cを用いて説明する。図3で示したような配置図であると、マイク104a、マイク104bの並ぶ方向に直交する方向がレンズ部101の撮像方向となる。
図9(a)で説明したように、マイク104a、マイク104bより、距離d[a‐b]は既知であり、音声データより距離l[a‐b]を特定することができれば、θ[a‐b]を特定できる。さらにマイク104a、マイク104c間の距離d[a‐c]も既知であるので、音声データより距離l[a‐c]も特定することができ、θ[a‐c]を特定できる。θ[a‐b]及びθ[a‐c]が算出できれば、マイク104a,104b、104cの配置と同一2次元平面上(仮想平面上)における、それらに共通な方角が、正確な音声発生方向として決定できる。
図9(c)を用いて、4つのマイクで音源方向を決定する方法を説明する。図3に示すマイク104a、マイク104b、マイク104c、マイク104dの配置により、マイク104a、マイク104bの並ぶ方向に直交する方向がレンズ101の撮像方向(光軸方向)となる。マイク4つを利用する場合、対角線上に位置するマイク104aと104dのペアと、マイク10bとマイク104cのペアの2つのペアを用いると精度よく音源方向を算出できる。
マイク104a、マイク104d間の距離d[a‐d]は既知であるので、音声データから距離l[a‐d]を特定できるので、θ[a‐d]も特定できる。
更にマイク104b、マイク104c間の距離d[b‐c]も既知であるので、音声データより距離l[b‐c]を特定できるので、θ[b‐c]を特定できる。
よって、θ[a‐d]及びθ[b‐c]がわかれば、マイクの配置と同一2次元平面上では正確な音声発生方向を検知することが可能である。
さらに、θ[a‐b]、θ[c‐d]と検知角度を増やしていけば、方向検知の角度の精度を高めることも可能である。
以上のよう処理を行うため、マイク104aとマイク104bとマイク104cおよびマイク104dは図3のように長方形の4つの頂点に配置した。なお、マイクの数が3つであっても、それらが直線状に並ばないのであれば、必ずしも4つである必要はない。
上記の方法のデメリットとして、同一2次元平面上の音方向しか検知しかできない。そのため、音源が撮像装置1の真上に位置する場合には、その方向を検出できず、不定となってしまう。そこで、次に、音方向検出部2044における、音源の存在する方向として真上であるか否かの判定原理を図10を参照して説明する。
図10(a)は3つのマイクで行う方式である。マイク104a、マイク104b、マイク104cを用いて説明する。図3(a)で示したような配置図であると、マイク104a、マイク104bの並び方向に直交する方向がレンズ101の撮像方向(光軸方向)である。マイク104a、マイク104bの並び方向とは、マイク104aの中心点とマイク104bの中心点とを結ぶ直線の方向である。
音声入力部104の配置されている平面に対して、垂直に交わる直線状、すなわち上方向から音声が入ってきたときについて記載する。
ここで、撮像装置1の真上に音源が位置する場合、その音源からマイク104aとマイク104bは等距離にあると見なせる。つまり、音源からこれら2つのマイク104aと104bに到達する音の時間差は無い。そのため、マイク104aとマイク104bを結ぶ直線に対して、垂直に交わる方向に音源があると認識される。
さらに、マイク104aとマイク104cも同様に音源からは等距離にあると見なせるので、やはり音源からこれら2つのマイク104aと104cに到達する音の時間差は無い。そのため、マイク104aとマイク104cを結ぶ直線に対して、垂直に交わる方向に音源があると認識される。
つまり、マイク104aとマイク104bで検出した音の時間差の絶対値をΔT1とし、マイク104aとマイク104cで検出した音の時間差の絶対値をΔT2とし、予め設定された十分に小さい閾値εとの関係が次の条件を満たす場合、音源が撮像装置1の真上に位置すると判定できる。
条件:ΔT1<ε かつ ΔT2<ε
図10(b)を参照し、4つのマイク104a、マイク104b、マイク104c、マイク104dを用いた、撮像装置1の真上に位置する音源の検出法を説明する。図3(a)に示すように、マイク104a、マイク104dのペアと、マイク104bとマイク10cのペアについて考察する。
条件:ΔT1<ε かつ ΔT2<ε
図10(b)を参照し、4つのマイク104a、マイク104b、マイク104c、マイク104dを用いた、撮像装置1の真上に位置する音源の検出法を説明する。図3(a)に示すように、マイク104a、マイク104dのペアと、マイク104bとマイク10cのペアについて考察する。
撮像装置1の真上に音源が存在する場合、その音源からマイク104aとマイク104dは等距離になるので、これらマイク104aとマイク104dで検出する音の時間差の絶対値ΔT3はゼロか、非常に小さい値となる。つまり、マイク104aとマイク104dを結ぶ直線に対して、垂直に交わる方向に音源があると認識となる。
さらに、マイク104bとマイク104cも、音源からは等距離になるため、これらマイク104bとマイク104cで検出する音の時間差の絶対値ΔT4もゼロか、非常に小さい値となる。つまり、マイク104bとマイク104cを結ぶ直線に対して、垂直に交わる方向に音源があると認識となる。故に、次の条件を満たす場合、音源が撮像装置1の真上に位置すると判定できる。
条件:ΔT3<ε 且つ ΔT4<ε
以上のように、3つ以上のマイクのうちの2つのペアについて、音の到達時間差の絶対値を求め、それら2つの絶対値が共に十分に小さい閾値以下となった場合に、音源の存在方向を真上であると決定できる。なお、2つのペアを決めるとき、それら2つのペアの向きが互いに非平行となるように決定すれば、どのような組み合わせでも良い。
条件:ΔT3<ε 且つ ΔT4<ε
以上のように、3つ以上のマイクのうちの2つのペアについて、音の到達時間差の絶対値を求め、それら2つの絶対値が共に十分に小さい閾値以下となった場合に、音源の存在方向を真上であると決定できる。なお、2つのペアを決めるとき、それら2つのペアの向きが互いに非平行となるように決定すれば、どのような組み合わせでも良い。
以上、第1の実施形態を説明した。上記実施形態によれば、音方向検出部2044が順に検出しつつある音方向情報のうち、音声コマンド認識部2043が認識した音声コマンドの元になった音声データの先頭と終端で示される期間の音方向情報が示す方向に音声コマンドを発した被写体が存在するとして判定する。この結果、音声コマンドを発声した人物(の顔)以外を誤って被写体とすることを抑制できる。また、音声コマンドを発した人物の意図したジョブを実行することも可能になる。
更に、上記実施形態で説明したように、マイク104a乃至104d、音声信号処理部204を構成する各要素は、実際にそれらが利用する段階でなって初めて中央制御部201の制御の元で電力供給が行われるので、全構成要素が可動状態にある場合と比較して、電力消費量を抑制できる。
次に、上記実施形態の説明を踏まえ、具体的な利用形態を説明する。図3(b)乃至(e)に示すように、実施形態における撮像装置1の利用形態は様々である。
ここで、例えば、図3(b)の様に、ユーザの首にぶら下げる場合について考察する。この場合、レンズ部101の撮像方向(光軸方向)がユーザの体方向に向くと、意味の無い画像を撮像してしまうのは容易に理解できよう。それ故、レンズ部101の撮像方向(光軸方向)は、ユーザにとって常に前方に向かうことが望ましい。この場合、図3(a)に示すように、4つのマイクのうち、マイク104c、194dがユーザの体に触れる可能性が高い。つまり、このマイク104c、1094dが、ユーザの衣類とのこすれ音を集音する可能性が高くなり、4つのマイクでの音方向検出部2044による音方向検出の際の支障を来す。そこで、本実施形態では、撮像装置1をユーザの首にぶら下げる利用形態の場合、中央制御部201は、マイク104c、104dへの電力を遮断すると共に、音方向検出部2044に対し、マイク104a、104bの2つのみを用いた音方向検出を行うよう指示する。この場合、図9(a)を参照して説明した、2つのマイクのみでの音源方向を求めると音源方向が2つ検出されてしまうという問題は無い。なぜなら、音源方向は、少なくともユーザの前方の範囲内にあると見なして良いからである。つまり、音方向検出部2044は、マイク104a、104bの2つのみを用い、且つ、計算上は2つの音方向を検出するものの、前方にある1つを有効な音源方向として検出する。なお、ユーザの体の有る方向の検出は、例えば首にぶら下げられていると判定した後、360度(一周)のパン動作を行い、測距した距離の最短となる方向を中心とする適当な角度(例えば180度)の範囲をユーザの存在する方向として決定すればよい。また、中央制御部201は、決定した方向を記憶部206に基準方向として保存する。
次に、図3(d)の様に、ユーザの肩に装着する場合についても考察する。この場合、4つのマイクのうち、いずれか1つがユーザの頭に近い位置になり、ユーザの頭、或いは衣類に接する可能性が高くなる。そこで、この場合には、4つのマイクのうち、ユーザの頭に近い1つを音方向検出の際に不使用(電源OFF)とし、残り3つで音源方向を検出する。一旦、ユーザの肩に撮像装置1を装着(固定)した場合、ユーザの動きとは無関係に、撮像装置1とってのユーザの頭の相対方向は変化しない。そこで、中央制御部201は、この方向をユーザの頭の方向として記憶部206に記憶する。そして、中央制御部201は、4つのマイクのうち、記憶した方向とレンズ部101の撮像方向(光軸方向)に基づき、ユーザの頭に近い側の1つのマイクを方向検出に不使用(電力を遮断)とし、且つ、音方向検出部2044には残りの3つマイクを用いて方向検出を行うように設定する。なお、ユーザの頭の有る方向の検出は、例えば肩に装着されていると判定した後、360度のパン動作を行い、測距した距離の最短となる方向を中心とする適当な角度(例えば90度)の範囲をユーザの存在する方向として決定すればよい。また、中央制御部201は、測距した距離の最短となる方向(ユーザの頭の方向)は記憶部206に基準方向として保存する。
そして、図3(b)、(e)の利用形態の場合、音方向検出部2044は4つのマイクを用いた音方向検出を行えば良い。
ここで、図3(b)乃至(e)のいずれの利用形態とするかは、ユーザが支持部200の操作部205から設定する。ただし、ユーザが操作部205により、オート検出モードを設定した場合、中央制御部201による利用形態の自動検出を行う。以下、オート検出モードが設定されている場合の中央制御部201の自動検出の処理を説明する。
実施形態における、位置検出部212はジャイロセンサ、加速度センサ、GPSセンサといった撮像装置1の動きを検出する構成を有することは既に説明した。そこで、撮像装置1のメイン電源がONになり、図5AのステップS101の初期化処理後は、基本的に図3(b)の状態、すなわち、撮像装置1は固定状態にあるとして、音方向検出部2044が音方向検出を行う。
一方、図5AのステップS101の初期化処理後に、ユーザが撮像装置1を持ってその利用形態を決める操作を行うと、当然、位置検出部212の加速度センサやジャイロ等のセンサにより閾値以上の変化を検出することになる。また、ユーザがこの操作を行うタイミングは、撮像装置1のメイン電源の投入した初期段階のタイミングとなるであろう。そこで、位置検出部212は、初期化処理後の予め設定された期間内にセンサのうちの1つでも閾値以上の変化を検出した場合、ユーザによる撮像装置1の設置操作を行っていると推定し、中央制御部201に割り込み信号を発する。
図11に示すフローチャートは、この割り込み処理(撮像装置1の設置位置の検出処理)を示している。以下、同図を参照して、中央制御部201の処理を説明する。
まず、ステップS1101にて、位置検出部212が有する各センサが出力してくるデータを、予め設定された期間分、記憶部206に保存を行う。この保存する期間は、ユーザが利用形態に係る操作を完了するまでに十分な時間が望ましい(例えば1分)。
この保存期間を終えると以下に説明するように、中央制御部201は、保存したデータに基づく、撮像装置1の設置位置判定を行い、音方向検出部2044による音方向検出法を決定する。なお、以下の説明にて、x、y軸が表す平面は、撮像装置1にとっての水平面を表し、z軸は撮像装置1のパン動作の回転軸の軸方向を表すものとして説明する。
ユーザは、撮像装置1を肩に装着する場合、x,y,z軸のいずれかの方向への移動量が図3(b)、(c)、(e)と比較し、かなり大きくなる傾向がある。それ故、中央制御部201は、ステップS1102にて、保存されたx、y、z軸それぞれの加速度のいずれかが予め設定された閾値を超えるか否かを判定する。閾値を超える角速度があった場合、中央制御部201は、撮像装置1がユーザの肩に装着されたものと推定し、ステップS1103にて、ユーザの頭部に近い1つのマイクを除く、残り3つのマイクによる音方向検出法(又はルール)に従って音源方向の検出を行うよう、音方向検出部2044に設定し、本処理を終える。
ステップS1102にて、x、y、z軸のいずれの方向の加速度も閾値以下であった場合、中央制御部201は処理をステップS1104に進める。
首にぶら下げる場合、肩載せに比べ、x、y、z、方向への移動量が小さくなる傾向がある。且つ、撮像装置1を首にかける為には、図3(c)に示す通り、上下をひっくり返す動作が必要になる。このため、首にかける動作を行う場合は、ある特定軸の角速度が大きくなる傾向がある。また、z軸回りの回転は少ない。
そこで、ステップS1104にて、中央制御部201は、x、y、z軸に沿った角速度の検出と閾値比較を行う。具体的には、z軸に対する角速度(ヨー)が予め設定された閾値以下であり、且つ、x軸、或いはy軸に対する角速度(ロール、ピッチ)が予め設定された閾値以上であるか判定を行う。
この条件を満たす場合、中央制御部201は、撮像装置1はユーザの首にぶら下げられているものと推定する。そして、中央制御部201は、4つのマイクのうち、マイク104a,104bの2つのマイクのみを用い、且つ、マイク104c,104dとは逆方向が音源の存在位置であるものと見なす音方向検出法にしたがった音源方向検出を行うよう、音方向検出部2044に設定し、本処理を終える。
一方、ステップS1104にて、ヨー方向の角速度が閾値以上である、又は、ロールまたはピッチの角速度が閾値以下であると判定された場合、中央制御部201がステップ1106にて、撮像装置1が、ユーザの手で適当な位置に固定されたものと見なす。それ故、中央制御部201は、ステップS1106にて、4つのマイクを用いた音方向検出法に従って音源方向の検出を行うよう、音方向検出部2044に設定し、本処理を終える。
固定状態は、肩載せ、首かけに見られるような移動がほとんど発生しない。このためいずれにも該当しない場合は、固定と判定できる。
なお、ユーザが撮像装置の位置決め作業を終えた場合、操作部205からのその旨の指示入力を行うことで、その作業終了を中央制御部201に通知するようにしても良い。また、設置位置の設定は、無線部214を経由し、PCや携帯端末から該設定を行ってもよい。
次に、実施形態における間欠前方撮影モード(図6のステップS216)に移行する前段階で行われる前方判定処理を図12のフローチャートに従って説明する。本処理は、図11で説明した、撮像装置1の設置位置の検出処理の後に行われるものでもある。
間欠前方撮影モードに移行した場合、これ以降は検出する音源の方向とは無関係に、中央制御部201は、撮像装置1を装着している装着者にとっての前方の静止画を例えば10秒間隔で撮影していく。このためには、中央制御部201は、可動撮像部100の撮像方向(光軸方向)を装着者の前方が示す方向と一致させるため、装着者にとっての「前方」が示す方向を判定しなければならない。そこで、実施形態の撮像装置1を装着しているユーザ(装着者)は、ユーザにとっての前方を示す方向に対応する、撮像装置1上の位置を叩く操作と、所定の音声を発生することを行う。撮像装置1の中央制御部201は、かかる叩く操作による振動とのその音、及び、音声に基づき、ユーザにとって前方の方向を判定し、その方向に可動撮像部100の撮像方向(光軸方向)を一致させる処理を行う。係る処理が中央制御部201が行う前方判定処理である。
なお、ここでは、間欠前方撮影モードに移行する場合を例示したが、装着者にとっての前方の静止画を1回だけ撮影する静止画前方撮影モード、装着者にとっての前方の動画を撮影する動画前方撮影モードに移行する場合も同様の処理を行ってもよい。例えば、“前方を静止画撮影して”、“前方を間欠撮影して”、“前方を動画撮影して”といった音声コマンドを判別できるようにしてもよい。
まず、ステップS1201にて、中央制御部201は、撮像装置1の振動検知が行われる。ここでは、撮像装置1の筐体を軽く叩くことで発生する微小な変位を位置検出部211が検知し、入力レベル(振動強度)があらかじめ設定された閾値範囲内であれば、撮像装置1を叩いた振動、すなわち叩き操作による振動であると判定する。なお、ここでは位置検出部211が振動を検出するものとしているが、別途振動検出用のセンサを用意し、それを用いて検出するようにしても良い。
ステップS1201の処理と並行して、ステップS1202にて、中央制御部201は、撮像装置1の筐体を叩いたときに発生する叩き音の発生方向の検出処理を行う。具体的には、音圧レベル検出部2041による叩いた際の音のレベルが閾値以上であり、その際の音を音方向検出部2044により検出する。叩き音は、撮像装置1の表面を想定しているので、マイク104a〜104dとの距離は非常に近い。そこで、実施形態では、マイク104aに対する音方向を検出するものとする。
そして、ステップS1203にて、中央制御部201は、ステップS1201における叩き操作有りと判定し、且つ、ステップS1202による叩き操作による音の発生方向が検出されたとき、その音方向をθ1として、内部メモリ或いは記憶部206に記録する。
続いて、ステップS1204、S1205にて、中央制御部201は、予め設定された特定のキーワードの発声検出を音声コマンド認識部2043に行わせ、そのキーワードの発声源方向の検出を音方向検出部2044により行わせる。そして、ステップS1206にて、中央制御部201は、特定のキーワードが検出され、且つ、その際に検出した音方向をθ2として、内部メモリ或いは記憶部206に記録する。
ステップS1207にて、中央制御部201は、前述のθ1、θ2が予め設定された条件を満たすか否かを判定する。そして、条件を満たしていると判定した場合、ステップS1208にて、装着者の前方を示す方向を導出する。そして、ステップS1209にて、中央制御部201は、導出した方向に、可動撮像部100の撮像方向(光軸方向)を導出した方向になるように回動制御部213を制御する。
例えば、撮像装置1が首かけの場合に、叩き音の発生した方向θ1と音声認識した方向θ2が正対していると導出されたとき、中央制御部201は、撮像装置1の筐体の中心と、叩き音の発生した方向θ1と撮像装置1の筐体の表面との交差する点とを結ぶ直線方向を、装着者の前方方向として決定する。
また、撮像装置1が肩載せの場合に、叩き音の発生した方向θ1と音声認識した方向θ2が90°ずれていると導出されたときは、中央制御部201は、撮像装置1の筐体の中心と、叩き音の発生した方向θ1と撮像装置1の筐体の表面との交差する点とを結ぶ直線方向を、装着者の前方方向として決定する。
また、撮像装置1が固定の場合に、叩き音の発生した方向θ1と音声認識した方向θ2が同じ方向であると導出されたときは、中央制御部201は、撮像装置1の筐体の中心と、叩き音の発生した方向θ1と撮像装置1の筐体の表面との交差する点とを結ぶ直線方向を、装着者の前方方向として決定する。
なお、上記のいずれの条件も満たされない場合、撮像装置1の設定位置判定に誤りがある、もしくは、叩く位置に誤りがあるものとし、中央制御部201は設置位置の設定処理や叩く操作を行わせても良い。
図13A乃至13Cは、各取り付け部位における撮影開始位置検知の処理を説明した概念図である。
図13Aを参照して、図3(c)のように撮像装置1を首かけした場合の前方判定を説明する。
まず、図13A(a)に示すように、中央制御部201はマイク104aによる叩き音方向θ1を検出すると、その叩き音方向θ1を基点とする撮像装置1の筐体の表面を示す半円形の方向範囲1101を設定する。そして、中央制御部201は、マイク104aから方向θ1に向かう線分と方向範囲1101との交点位置を叩き位置1104として推定する。そして、中央制御部201は、図13A(b)にて、方向範囲1101と正対する方向範囲1102から特定キーワードの検出方向θ2が検出された場合、図13A(c)に示す様に、撮像装置1の中心1100と、推定した叩き位置1104とを結ぶ方向1103を、装着者の前方を示す方向であると判定する。
次に図13Bを参照して、図3(d)のように撮像装置1を肩載せの場合の前方判定を説明する。
次に図13Bを参照して、図3(d)のように撮像装置1を肩載せの場合の前方判定を説明する。
図13B(a)に示すように、中央制御部201はマイク104aによる叩き音方向θ1を検出すると、その叩き音方向θ1を基点とする撮像装置1の筐体の表面を示す半円形の方向範囲1101を設定する。そして、中央制御部201は、マイク104aから方向θ1に向かう線分と方向範囲1101との交点位置を叩き位置1104として推定する。そして、中央制御部201は、図13B(b)に示すように、方向範囲1101と正対する方向範囲1102から特定キーワードの検出方向θ2が検出された場合、図13B(c)に示すように、撮像装置1の中心1100と、推定した叩き位置1104とを結ぶ方向1103を、装着者の前方を示す方向であると判定する。
次に図13Cを参照して、図3(b)のように固定の場合の前方判定を説明する。
図13C(a)に示すように、中央制御部201はマイク104aによる叩き音方向θ1を検出すると、その叩き音方向θ1を基点とする撮像装置1の筐体の表面を示す半円形の方向範囲1101を設定する。そして、中央制御部201は、マイク104aから特定メッセージの検出方向θ2が方向範囲1101と同じ方向範囲1201内にあるとき、図13C(c)に示すように、撮像装置1の中心1100と、推定した叩き位置1104とを結ぶ方向1103を、装着者の前方を示す方向であると判定する。
以上説明したように、実施形態によれば、ユーザにとって望む方向に撮像装置1の撮像方向を向けることが可能となる。なお、上記実施形態では、間欠前方撮影を示す音声コマンドを発声する例を説明したが、前方固定を行わせるコマンドを発声した場合に上記の図12の処理を行い、その上で静止画撮影コマンドや動画像撮影コマンドを発声した場合、その方向を維持したまま静止画や動画像を撮影記録を行うようにしても良い。また、元の音声発生源の在る方向に可動撮像部100の撮像方向を向けるモードに復帰する特別な音声コマンドを設けるようにしても良いし、そのモードに復帰するためのスイッチを用意しても良い。また、音声による起動コマンドを認識して起動するのではなく、位置検出部211が振動検知したことに応じて撮像装置1がスタンバイ状態から起動状態に移行して、図12のS1201以降の処理を行うようにしてもよい。
[第2の実施形態]
上記第1の実施形態では、ユーザの前方判定を、間欠前方撮影を行う音声コマンドを発声することで行ったが、撮像装置1の電源投入初期時に、撮像装置1の設置位置の判定とユーザ(撮像装置の装着者)の前方判定を同時に行うようにしても良い。この結果、間欠前方撮影を指示する音声コマンドを発声した場合には、直ちに中央制御部201は撮像装置1の撮像方向を、初期時に設定した前方に向かうように制御し、間欠撮影を開始できるようになる。
上記第1の実施形態では、ユーザの前方判定を、間欠前方撮影を行う音声コマンドを発声することで行ったが、撮像装置1の電源投入初期時に、撮像装置1の設置位置の判定とユーザ(撮像装置の装着者)の前方判定を同時に行うようにしても良い。この結果、間欠前方撮影を指示する音声コマンドを発声した場合には、直ちに中央制御部201は撮像装置1の撮像方向を、初期時に設定した前方に向かうように制御し、間欠撮影を開始できるようになる。
装置構成は第1の実施形態と同じであるものとし、以下では、異なる点について説明する。
図14は、本第2の実施形態における中央制御部201の処理を示すフローチャートである。同図は、図5AのステップS111の直後からの処理(起動コマンドを認識した場合)を示している。故に、ステップS1401以前については第1の実施形態を参照されたい。
ステップS1401にて、中央制御部201は、撮像装置1が撮影者の身に着けられているかどうかの判断を行う。撮像装置1はジャイロや加速度センサといった撮像装置1の動きを検出する位置検出部212を有している。ジャイロや、加速度センサの出力値があらかじめ決められた値よりも大きければ、撮像装置1が撮影者の身に着けられている状態であると判断し、ステップS1403に移行する。またジャイロや、加速度センサの出力値があらかじめ決められた値よりも小さければ、撮像装置1が撮影者の身に着けられておらず、撮影者以外のどこかに設置されている状態であると判断し、処理をステップS1411に移行する。
ステップS1411に移行した場合、中央制御部201は撮像装置1が固定状態であると判断し、前方の方向を特に規定しない。
ステップS1403に処理が進んだ場合、中央制御部201は、可動撮像部100を360°水平方向に回転(パン)させて、撮像装置1の周囲360°の撮影画像を得て、ステップS1404に移行する。この時、可動撮像部100の合焦距離を30cm程度に固定して周囲360°の画像を得ると、多くの場合30cmより近い撮影者の体に対してピントが合わない。このため、コントラストが低い画像が容易に得られ、コントラストが高くなる撮影可能範囲と、コントラストが低くなる撮影不可能範囲の判別が容易になる。中央制御部201は、例えば、コントラストが予め定められた閾値以上の撮影可能範囲と、閾値未満の撮影不可能範囲の判別を行う。ただし、中央制御部201は、ピントが合う撮影可能範囲と、ピントが合わない撮影不可能範囲の判別を行ってもよい。例えば、中央制御部201は、可動撮像部100からオートフォーカス制御の結果を示す情報として、ピントが被写体に合ったか否かを示す情報や、ピントがあった合焦位置を示す情報等を取得して、ピント状態を判別してもよい。
撮影可能範囲と撮影不可能範囲の判別については、上記で説明したコントラストでの判別だけではなく、位相差AF(Auto Focus)センサを利用しても良い。位相差AFセンサは、レンズから入った光を2つに分けて専用のセンサに導き、結像した2つの画像の間隔からピントの方向と量を判断することができる。被写体までの距離がわかるため、例えば被写体が30cmより遠くにいる領域を撮影可能範囲、被写体が30cmよりも近くにいる領域を撮影不か領域として判別することができる。以上のように、コントラスト方式、位相差AF方式に限らず、撮影可能範囲と撮影不可能範囲が判別できればどのような方法でも良く、特に方式は限定しない。
ステップS1404において、中央制御部201は、ステップS14033で水平方向に360°撮影した画像を分析して、撮影可能範囲の検出を行ない、ステップS1405に移行する。
ステップS1405にて、中央制御部201は、撮像装置1が首掛け状態かどうかの判断を行う。
図15は、撮影者が撮像装置1を首から提げて身に着けている状態(首掛け)の模式図である。撮影者1501が撮像装置1を首掛け状態でぶら下げているとき、第1の撮影可能範囲1502は約180°、撮影者1501が撮像装置1を起動するときに発した声の方向は、撮像装置1から見てほぼ真上である。撮像装置1から見て、ほぼ真上からの音はマイク104a、マイク104b、マイク104c、マイク104dそれぞれのマイクに同時に到達するため位相差による音方向検知を行っても音方向の情報は「無し」と判断される。
このようにして、第1の撮影可能範囲1502が約180°かつ音方向検知結果が無しである場合には、中央制御部201は、撮影者1001が撮像装置1を首掛け状態で身に着けていると判定する。本第2の実施形態における中央制御部201は、撮影可能範囲1502が180°±45°である場合に首掛け状態で身に着けていると判定し、ステップS1406に処理を移行する。
ステップS1406にて、中央制御部201は、撮影可能範囲と音方向情報から前方方向を規定する。ステップS1405で、撮影可能範囲1502が180°±45°かつ音方向検知結果が「無し」との情報を得ていた場合、撮影可能範囲1502の中央が撮影者1001の意図する前方であると考えられるため、この方向を前方として規定し、その方向を記憶部206に格納する。
ステップS1407にて、中央制御部201は、撮像装置1が右肩乗せ状態かどうかの判断を行う。
図16(a)は、撮影者が撮像装置を右肩乗せで身に着けている状態の模式図である。撮影者1501が撮像装置1を右肩乗せ状態で身に着けているとき、撮影可能範囲1601aは約315°となる。そして、撮影者1501が撮像装置1を起動するときに発した声の方向は、撮影不可能範囲1601bの中央の位置から時計回りに所定量以上にずれた方向にある。
このようにして、撮影可能範囲1601aが約315°かつ、音方向検知結果が撮影不可能範囲1601bの中央より時計回りにずれた方向になるとき、中央制御部201が、撮影者1001が撮像装置1を右肩乗せ状態で身に着けていると判定する。本第2の実施形態においては、撮影可能範囲1601aが315°±45°である場合に右肩乗せ状態で身に着けていると判定し、ステップS1608に移行する。
ステップS1608にて、中央制御部201は、撮影不可能範囲と音方向情報から正面を規定する。ステップS1607にて、撮影可能範囲1601が315°との情報を得ていた場合、残りの45°が撮影不可能領域となる。図16(a)より、撮影不可能領域が撮影者1001の頭部であると考えると、撮影不可能領域の中央から時計回りに90°の方向が撮影者1001の意図する前方であると考えられるため、この方向を前方として規定し、その方向を記憶部206に格納する。
ステップS1409にて、中央制御部201は、撮像装置1が左肩乗せ状態かどうかの判断を行う。
図16(b)は、撮影者が撮像装置を左肩乗せで身に着けている状態の模式図である。撮影者1501が撮像装置1を左肩乗せ状態で身に着けているとき、撮影可能範囲1601aは約315°、撮影者1501が撮像装置1を起動するときに発した声の方向は、撮像不可能範囲1601bの中央より反時計回りにずれた方向になるとき、中央制御部201が、撮影者1001が撮像装置1を左肩乗せ状態で身に着けていると判定する。本第2の実施形態においては、撮影可能範囲1601aが315°±45°であり、音方向が撮像不可能範囲1601bの中央から反時計回りにずれた方向になるとき、右肩乗せ状態で身に着けていると判定し、ステップS1608に移行する。
ステップS1610にて、中央制御部201は、撮影不可能範囲と音方向情報から正面を規定する。ステップS1409にて撮影可能範囲1601aが315°との情報を得ていた場合、残りの45°が撮影不可能領域となる。図16(b)より、撮影不可能領域が撮影者1001の頭部であると考えると、撮影不可能領域の中央位置から反時計回りに90°の方向が撮影者1001の意図する前方であると考えられるため、この方向を前方として規定し、その方向を記憶部206に格納する。
以上の結果、本第2の実施形態によれば、音声による起動コマンドを発声しつつ、撮像装置の位置決め操作を行うだけで、撮像装置の設置位置、並びに、ユーザにとっての前方方向を決定できることになる。従って、間欠前方撮影を指示する音声コマンドを認識した場合には、中央制御部201は可動撮像部100の撮像方向を直ちにその方向に一致するように制御し、撮像に備えることが可能になる。
なお、ステップS1411に処理が進んだ場合、或いは、ステップS1409にて左肩乗せと判定できなかった場合、前方方向が未定の状態で各種音声コマンドに応じた処理を行うことになる。それ故、ユーザが、「前方」が示す方向が必要な音声コマンドを発声し、且つ、前方が未定であった場合(記憶部206に前方を示す方向を示す情報が格納されていない場合)には、第1の実施形態で説明した図12の処理を実行しても良い。
[第3の実施形態]
先に説明した第1の実施形態では、撮像装置1の撮像方向(光軸方向)をユーザの望む方向(第1の実施形態では前方)に向けるため、そのユーザは撮像装置1の、その望む方向を示す位置を叩く操作を行った。つまり、ユーザは自身以外の方向に撮像装置1を向けるためには、撮像装置1に手が届く範囲内に居る必要がある。本第3の実施形態では、撮像方向を指示するユーザと撮像装置1との距離が、手が届く距離よりも隔てている場合にも行えるようにする例を、図17、図18を参照して説明する。なお、装置構成は第1の実施形態と同じであるものとし、その説明は省略する。
先に説明した第1の実施形態では、撮像装置1の撮像方向(光軸方向)をユーザの望む方向(第1の実施形態では前方)に向けるため、そのユーザは撮像装置1の、その望む方向を示す位置を叩く操作を行った。つまり、ユーザは自身以外の方向に撮像装置1を向けるためには、撮像装置1に手が届く範囲内に居る必要がある。本第3の実施形態では、撮像方向を指示するユーザと撮像装置1との距離が、手が届く距離よりも隔てている場合にも行えるようにする例を、図17、図18を参照して説明する。なお、装置構成は第1の実施形態と同じであるものとし、その説明は省略する。
図17は、本第3の実施形態における撮像装置の撮像方向の設定方法を示す図である。
図17(a)において、ユーザ1701は、撮影方向設定であることを示す音声コマンドを発声する。撮像装置1の中央制御部201は、図17(b)に示すように、この音声コマンドの認識、及び、音方向(発声源方向)の検出処理を行う。
さて、中央制御部201は、撮影方向設定であることを示す音声コマンドの認識、及び、音方向(発声源方向)の検出処理を行うと、図17(c)に示すように、中央制御部201は回動制御部213を制御し、可動撮像部100の撮像方向(光軸方向)を検出した音方向と一致させ、ユーザ1701を検出する。
撮像した画像からユーザ1701の存在を確認すると、中央制御部201は、次にユーザ1701の顔の向いてる方向を検出し、その検出した方向を示す情報を記憶部206に登録(記憶保持)する。ここで言う顔の向きとは、ユーザ1701が見ている方向を表す情報であり、顔の各部位の位置関係から導出される顔全体の角度である。あるいは、目頭と虹彩などの眼球周辺部位の位置関係から導出される視線の方向を顔の向きとする構成でもよい。顔の向きは、操作者が見ている方向を表す情報であればよいため、様々な導出方法を適用可能である。
例えば、図17(d)の場合、ユーザ1701の顔は前方1702を向いていたので、中央制御部201は、前方1702と平行な方向1703を記憶部206に登録する。また、図17(e)に示すように、ユーザ1701の顔を向きが斜め左前方1704を向いていた場合、中央制御部201は、斜め左前方1704と平行な方向1705を記憶部206に登録する。
以降、登録した方向の撮像を行う音声コマンド(例えば登録方向での間欠撮影を行わせる音声コマンド)が、音声コマンド認識部2043が認識したとする。この場合、中央制御部201は、その音声コマンドの音源方向に可動撮像部100の撮像方向を向けるのではなく、登録した方向に可動撮像部100の撮像方向を向けて撮影記録を行う。これを利用すると、既に説明した間欠前方撮影を行うことが可能になるだけでなく、ユーザの望む方向の間欠撮影や動画像の撮影記録も可能になる。
なお、登録した方向を削除する音声コマンドを容易しても良いし、再度、撮影方向設定であることを示す音声コマンドが認識された場合には、従前に記憶された方向を示す情報は上書きされるものとする。
次に、図18のフローチャートに従って、本第3の実施形態における撮影方向設定処理を説明する。図18に示す処理は、図6におけるステップSS209がNoと判定された直後の処理であると理解されたい。
ステップS1801にて、中央制御部201は、音声コマンド認識部2043が認識した音声コマンドが、撮影方向設定コマンドであるか否かを判定する。撮影方向設定コマンドであると判定した場合、中央制御部201は、処理をステップS1802に進める。このステップS1802にて、中央制御部201は、その音声コマンドの発声源(ユーザ)の方向を音方向検出部2044から取得する。そして、ステップS1803にて、中央制御部201は、回動制御部213を制御し、可動撮像部100の撮像方向を、取得した音方向に一致させるためにパン動作を行わせる。ステップS1804にて、中央制御部201は、被写体を検出したか否かを判定する。否の場合、中央制御部201は、ステップS1808、S1809,S1804のループにて、被写体が検出される、もしくは、チルト角の上限に到達する、のいずれかを満たすまでチルト角を所定値ずつ変化させる処理を行う。
被写体が検出された場合、中央制御部201は、処理をステップS1804からステップS1805に進める。このステップS1805にて、中央制御部201は、撮像画像を解析し、被写体の顔の向きを検出する処理を行う。そして、ステップS1806にて、中央制御部201は、検出した被写体の顔の向きを記憶部206に登録し、処理をステップS151(図5B)に戻す。
以上説明したように本第3の実施形態によれば、非接触状態で、ユーザの望む方向を撮像装置1に登録し、その登録した方向での撮像を行わせることが可能になる。
以上、本発明の好ましい実施形態について説明したが、本発明はこれらの実施形態に限定されず、その要旨の範囲内で様々の変形および変更が可能である。また、本発明の実施例においては、撮像装置としてデジタルカメラを一例として挙げているが、ビデオカメラやスマートフォン等の撮影手段、通信手段を有する各種の装置に本発明を適用することが可能である。
(その他の実施例)
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
1…撮像装置、100…可動撮像部、101…レンズ部、102…撮像部、103…レンズアクチュエータ制御部、104…音声入力部、104a乃至104d…マイク、201…中央制御部、204…音声信号処理部、211…電源制御部、2041…音圧レベル検出部、2042…音声用メモリ、2043…音声コマンド認識部、2044…音方向検出部、2045…動画像音声処理部、2046…コマンドメモリ
Claims (15)
- 撮像方向が可変の撮像手段を有する撮像装置であって、
音源方向を特定するための複数のマイクで構成される音声入力手段と、
前記音声入力手段で入力した音声データが示す音声コマンドを認識する認識手段と、
前記音声入力手段から入力した音声データに基づき、音源の方向を検出する音方向検出手段と、
認識した音声コマンドに基づく撮像にかかる処理を行う制御手段とを有し、
更に前記撮像装置の筐体への接触による振動を検出する振動検出手段を有し、
前記制御手段は、
前記振動検出手段により予め設定された強度の振動を検出した場合には、前記接触により発生した音の方向を前記音方向検出手段で検出させることで前記筐体への接触の位置を求め、当該接触の位置から特定される方向に前記撮像手段の撮像方向を設定する
ことを特徴とする撮像装置。 - 前記制御手段は、前記振動検出手段による振動を検出したことで、前記撮像手段の撮像方向を設定した後、静止画又は動画を撮像する処理を行うことを特徴とする請求項1に記載の撮像装置。
- 前記制御手段は、前記接触の位置と、前記音方向検出手段が検出した音源の方向とから特定される方向に前記撮像手段の撮像方向を設定することを特徴とする請求項1または2に記載の撮像装置。
- 前記制御手段は、前記接触の位置と、前記音方向検出手段が検出した音源の方向とから、予め設定された複数の設置位置の中のいずれの設置位置になるかを判定することを特徴とする請求項1乃至3のいずれか1項に記載の撮像装置。
- 前記特定される方向は、前記撮像装置の装着者の前方方向であることを特徴とする請求項1乃至4のいずれか1項に記載の撮像装置。
- 撮像方向が可変の撮像手段を有する撮像装置であって、
マイクから入力した音声データに基づき、音声コマンドを認識する認識手段と、
認識した音声コマンドに従って、所定の方向の映像を前記撮像手段で撮像する制御手段とを有し、
前記制御手段は、予め設定された音声コマンドを前記認識手段により認識した場合、前記撮像手段の撮像方向を変更しつつ撮像して得た複数の画像から、前記所定の方向を決定する
ことを特徴とする撮像装置。 - 前記制御手段は、前記予め設定された音声コマンドを前記認識手段により認識した際に、前記撮像手段の撮像方向を変更しつつ撮像して得た複数の画像に基づき、予め設定された複数の設置位置の中のいずれの設置位置になるかを判定することを特徴とする請求項6に記載の撮像装置。
- 前記設置位置は、人の肩、人の首に対する吊るし、固定物への設置が含まれることを特徴とする請求項7に記載の撮像装置。
- 前記制御手段は、前記撮像手段の撮像方向を変更しつつ撮像して得た複数の画像のそれぞれのコントラストに基づいて、前記所定の方向を決定することを特徴とする請求項6乃至8のいずれか1項に記載の撮像装置。
- 前記所定の方向は、前記撮像装置の装着者の前方方向であることを特徴とする請求項6乃至9のいずれか1項に記載の撮像装置。
- 撮像方向が可変の撮像手段を有する撮像装置であって、
音源方向を特定するための複数のマイクで構成される音声入力手段と、
前記音声入力手段で入力した音声データが示す音声コマンドを認識する認識手段と、
前記音声入力手段から入力した音声データに基づき、音源の方向を検出する音方向検出手段と、
前記撮像手段の撮像方向を、前記音方向検出手段が検出した音源の方向となるように制御し、認識した音声コマンドに基づく撮像にかかる処理を行う制御手段とを有し、
前記制御手段は、
前記認識手段で予め設定された第1の音声コマンドを認識した場合には、前記撮像手段の撮像方向を前記音方向検出手段が検出した音源の方向となるように制御して得た人物の顔が向く方向を判定し、該判定した方向を、第2の音声コマンドが認識した際の撮像する方向として記憶保持し、
前記第2の音声コマンドを認識した場合には、前記撮像手段の撮像方向を前記記憶保持した方向になるように制御し、撮像を行う
ことを特徴とする撮像装置。 - 撮像方向が可変の撮像手段と、音源方向を特定するための複数のマイクで構成される音声入力手段とを有する撮像装置の制御方法であって、
前記音声入力手段で入力した音声データが示す音声コマンドを認識する認識工程と、
前記音声入力手段から入力した音声データに基づき、音源の方向を検出する音方向検出工程と、
認識した音声コマンドに基づく撮像にかかる処理を行う制御工程とを有し、
前記撮像装置は、更に前記撮像装置の筐体への接触による振動を検出する振動検出手段を有し、
前記制御工程は、
前記振動検出工程により予め設定された強度の振動を検出した場合には、前記接触により発生した音の方向を前記音方向検出工程で検出させることで前記筐体への接触の位置を求め、当該接触の位置から特定される方向に前記撮像手段の撮像方向を設定する
ことを特徴とする撮像装置の制御方法。 - 撮像方向が可変の撮像手段を有する撮像装置の制御方法であって、
マイクから入力した音声データに基づき、音声コマンドを認識する認識工程と、
認識した音声コマンドに従って、所定の方向の映像を前記撮像手段で撮像する制御工程とを有し、
前記制御工程は、予め設定された音声コマンドを前記認識工程により認識した場合、前記撮像手段の撮像方向を変更しつつ撮像して得た複数の画像から、前記所定の方向を決定する
ことを特徴とする撮像装置の制御方法。 - 撮像方向が可変の撮像手段と、音源方向を特定するための複数のマイクで構成される音声入力手段とを有する撮像装置の制御方法であって、
前記音声入力手段で入力した音声データが示す音声コマンドを認識する認識工程と、
前記音声入力手段から入力した音声データに基づき、音源の方向を検出する音方向検出工程と、
前記撮像手段の撮像方向を、前記音方向検出工程で検出した音源の方向となるように制御し、認識した音声コマンドに基づく撮像にかかる処理を行う制御工程とを有し、
前記制御工程は、
前記認識工程で予め設定された第1の音声コマンドを認識した場合には、前記撮像手段の撮像方向を前記音方向検出工程で検出した音源の方向となるように制御して得た人物の顔が向く方向を判定し、該判定した方向を、第2の音声コマンドが認識した際の撮像する方向として記憶保持し、
前記第2の音声コマンドを認識した場合には、前記撮像手段の撮像方向を前記記憶保持した方向になるように制御し、撮像を行う
ことを特徴とする撮像装置の制御方法。 - コンピュータが読み込み実行することで、前記コンピュータに、請求項12乃至14のいずれか1項に記載の撮像装置の制御方法が有する各工程を実行させるためのプログラム。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018071918A JP2019186630A (ja) | 2018-04-03 | 2018-04-03 | 撮像装置及びその制御方法及びプログラム |
US16/369,015 US10715736B2 (en) | 2018-04-03 | 2019-03-29 | Image capturing apparatus and non-transitory recording medium |
CN201910266230.5A CN110351476B (zh) | 2018-04-03 | 2019-04-03 | 摄像设备和非暂时性记录介质 |
US16/893,662 US11265477B2 (en) | 2018-04-03 | 2020-06-05 | Image capturing apparatus and non-transitory recording medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018071918A JP2019186630A (ja) | 2018-04-03 | 2018-04-03 | 撮像装置及びその制御方法及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2019186630A true JP2019186630A (ja) | 2019-10-24 |
Family
ID=68054146
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018071918A Pending JP2019186630A (ja) | 2018-04-03 | 2018-04-03 | 撮像装置及びその制御方法及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (2) | US10715736B2 (ja) |
JP (1) | JP2019186630A (ja) |
CN (1) | CN110351476B (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112306445A (zh) * | 2020-10-29 | 2021-02-02 | 维沃移动通信有限公司 | 控制方法、装置及电子设备 |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11308966B2 (en) * | 2019-03-27 | 2022-04-19 | Panasonic Intellectual Property Corporation Of America | Speech input device, speech input method, and recording medium |
JP7330066B2 (ja) * | 2019-03-27 | 2023-08-21 | パナソニックホールディングス株式会社 | 音声認識装置、音声認識方法及びそのプログラム |
GB2611154A (en) | 2021-07-29 | 2023-03-29 | Canon Kk | Image pickup apparatus used as action camera, control method therefor, and storage medium storing control program therefor |
GB2611157A (en) | 2021-07-30 | 2023-03-29 | Canon Kk | Image pickup apparatus used as action camera, calibration system, control method for image pickup apparatus, and storage medium storing control program for... |
KR20230019016A (ko) | 2021-07-30 | 2023-02-07 | 캐논 가부시끼가이샤 | 액션 카메라로서 사용되는 촬상장치 |
US20230273683A1 (en) * | 2022-02-05 | 2023-08-31 | Lenovo (United States) Inc. | Computing Device |
Family Cites Families (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5959667A (en) * | 1996-05-09 | 1999-09-28 | Vtel Corporation | Voice activated camera preset selection system and method of operation |
US6005610A (en) * | 1998-01-23 | 1999-12-21 | Lucent Technologies Inc. | Audio-visual object localization and tracking system and method therefor |
US6593956B1 (en) * | 1998-05-15 | 2003-07-15 | Polycom, Inc. | Locating an audio source |
US20020140804A1 (en) * | 2001-03-30 | 2002-10-03 | Koninklijke Philips Electronics N.V. | Method and apparatus for audio/image speaker detection and locator |
US7428000B2 (en) * | 2003-06-26 | 2008-09-23 | Microsoft Corp. | System and method for distributed meetings |
US20050118990A1 (en) * | 2003-12-02 | 2005-06-02 | Sony Ericsson Mobile Communications Ab | Method for audible control of a camera |
JP4356663B2 (ja) * | 2005-08-17 | 2009-11-04 | ソニー株式会社 | カメラ制御装置および電子会議システム |
TW200822745A (en) * | 2006-11-01 | 2008-05-16 | Inventec Corp | Electronic device |
US20120083314A1 (en) * | 2010-09-30 | 2012-04-05 | Ng Hock M | Multimedia Telecommunication Apparatus With Motion Tracking |
CN203038337U (zh) * | 2012-12-21 | 2013-07-03 | 上海海达通信公司 | 桥吊无线全方位行车影像装置 |
CN103051838A (zh) * | 2012-12-25 | 2013-04-17 | 广东欧珀移动通信有限公司 | 一种摄像控制方法及装置 |
JP6529491B2 (ja) | 2013-10-14 | 2019-06-12 | サード ドット アーベー | 装着可能なライフログ装置の動作方法 |
JP6027560B2 (ja) * | 2014-02-18 | 2016-11-16 | 富士フイルム株式会社 | 自動追尾撮像装置 |
US9351118B2 (en) * | 2014-04-11 | 2016-05-24 | Keith Crutchfield | Apparatus, systems and methods for visually connecting people |
CN104092936B (zh) * | 2014-06-12 | 2017-01-04 | 小米科技有限责任公司 | 自动对焦方法及装置 |
CN104253944B (zh) * | 2014-09-11 | 2018-05-01 | 陈飞 | 基于目光连接的声音命令下达装置和方法 |
JP6503559B2 (ja) * | 2014-10-20 | 2019-04-24 | ソニー株式会社 | 音声処理システム |
JP6504808B2 (ja) * | 2014-12-22 | 2019-04-24 | キヤノン株式会社 | 撮像装置、音声コマンド機能の設定方法、コンピュータプログラム、及び記憶媒体 |
CN105812969A (zh) * | 2014-12-31 | 2016-07-27 | 展讯通信(上海)有限公司 | 一种拾取声音信号的方法、系统及装置 |
US20170070668A1 (en) * | 2015-09-09 | 2017-03-09 | Fortemedia, Inc. | Electronic devices for capturing images |
JP2017138738A (ja) * | 2016-02-02 | 2017-08-10 | 富士通テン株式会社 | 入力装置、表示装置および入力装置の制御方法 |
US9916832B2 (en) * | 2016-02-18 | 2018-03-13 | Sensory, Incorporated | Using combined audio and vision-based cues for voice command-and-control |
CN105938657B (zh) * | 2016-06-27 | 2018-06-26 | 常州加美科技有限公司 | 一种无人驾驶车辆的听觉感知与智能决策系统 |
-
2018
- 2018-04-03 JP JP2018071918A patent/JP2019186630A/ja active Pending
-
2019
- 2019-03-29 US US16/369,015 patent/US10715736B2/en active Active
- 2019-04-03 CN CN201910266230.5A patent/CN110351476B/zh active Active
-
2020
- 2020-06-05 US US16/893,662 patent/US11265477B2/en active Active
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112306445A (zh) * | 2020-10-29 | 2021-02-02 | 维沃移动通信有限公司 | 控制方法、装置及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
US20190306401A1 (en) | 2019-10-03 |
CN110351476A (zh) | 2019-10-18 |
US11265477B2 (en) | 2022-03-01 |
CN110351476B (zh) | 2021-07-13 |
US20200304718A1 (en) | 2020-09-24 |
US10715736B2 (en) | 2020-07-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2019186630A (ja) | 撮像装置及びその制御方法及びプログラム | |
US20200329202A1 (en) | Image capturing apparatus, control method, and recording medium | |
US9007464B2 (en) | Photographing apparatus, photographing system, photographing method, and program stored in non-transitory medium in photographing apparatus | |
JP7292853B2 (ja) | 撮像装置及びその制御方法及びプログラム | |
JP4449082B2 (ja) | 電子カメラ | |
WO2011013544A1 (ja) | 制御装置、制御方法、プログラム、制御システム | |
US8823814B2 (en) | Imaging apparatus | |
JP4203863B2 (ja) | 電子カメラ | |
WO2019104569A1 (zh) | 一种对焦方法、设备及可读存储介质 | |
JP2010109671A (ja) | 撮像装置 | |
JP6950793B2 (ja) | 電子機器およびプログラム | |
JP2008288745A (ja) | 映像情報処理装置 | |
JP7451235B2 (ja) | 撮像装置、制御方法、およびプログラム | |
CN111527446B (zh) | 摄像设备及其控制方法和记录介质 | |
JP7118746B2 (ja) | 撮像装置及びその制御方法及びプログラム | |
WO2019130908A1 (ja) | 撮像装置及びその制御方法及び記録媒体 | |
US11245830B2 (en) | Image capture apparatus and control method for same, and storage medium | |
WO2021140879A1 (ja) | 撮像装置、撮像装置の制御方法、プログラム | |
JP2021111960A (ja) | 撮像装置、撮像装置の制御方法、プログラム | |
JP2013251796A (ja) | 撮影装置、その制御方法、およびその制御プログラム | |
JP2012209626A (ja) | 会議装置、会議装置のプログラム、及び、制御方法 | |
JP2022030416A (ja) | 撮像装置、撮像装置の制御方法、およびプログラム | |
JP2021164060A (ja) | 撮像装置、制御方法、およびプログラム | |
JP2022183848A (ja) | 音声認識装置、表示装置、それらの制御方法、プログラム、および記憶媒体 | |
JP2013201642A (ja) | 電子機器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20210103 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210113 |