JP5053950B2 - 情報処理方法、情報処理装置、プログラムおよび記憶媒体 - Google Patents

情報処理方法、情報処理装置、プログラムおよび記憶媒体 Download PDF

Info

Publication number
JP5053950B2
JP5053950B2 JP2008194800A JP2008194800A JP5053950B2 JP 5053950 B2 JP5053950 B2 JP 5053950B2 JP 2008194800 A JP2008194800 A JP 2008194800A JP 2008194800 A JP2008194800 A JP 2008194800A JP 5053950 B2 JP5053950 B2 JP 5053950B2
Authority
JP
Japan
Prior art keywords
image data
utterance
sound
image
detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008194800A
Other languages
English (en)
Other versions
JP2010034841A (ja
JP2010034841A5 (ja
Inventor
寛樹 山本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2008194800A priority Critical patent/JP5053950B2/ja
Priority to US12/509,067 priority patent/US8564681B2/en
Priority to CN2009101622203A priority patent/CN101640042B/zh
Publication of JP2010034841A publication Critical patent/JP2010034841A/ja
Publication of JP2010034841A5 publication Critical patent/JP2010034841A5/ja
Application granted granted Critical
Publication of JP5053950B2 publication Critical patent/JP5053950B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G03PHOTOGRAPHY; CINEMATOGRAPHY; ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ELECTROGRAPHY; HOLOGRAPHY
    • G03BAPPARATUS OR ARRANGEMENTS FOR TAKING PHOTOGRAPHS OR FOR PROJECTING OR VIEWING THEM; APPARATUS OR ARRANGEMENTS EMPLOYING ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ACCESSORIES THEREFOR
    • G03B17/00Details of cameras or camera bodies; Accessories therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Studio Devices (AREA)
  • Details Of Cameras Including Film Mechanisms (AREA)
  • Television Signal Processing For Recording (AREA)

Description

本発明は、音で撮像を指示する技術に関する。
従来、一定以上の音量を検知すると撮像動作を実行する機能(以下、音量検知シャッターとする)を備えたカメラが知られている(例えば、特許文献1)。この機能を利用すると、発声のタイミングに合わせて撮像することが可能となる。
また、撮像を指示する声を認識すると撮像動作を実行する機能(以下、音声認識シャッターとする)を備えたカメラが知られている(例えば、特許文献2)。この機能を利用すると、ユーザが撮像を所望して発声した場合に撮像することが可能となる。なお、音声認識シャッターを利用して撮像する場合、ユーザが撮像を指示する声を発しても、音声コマンドの発声が完了するまではカメラの撮像動作は実行されない。よって、所望する撮像のタイミングを逃してしまうことがある。
特開平11−194392号公報 特開2006−184589号公報
従来の音量検知シャッターを利用して撮像する場合には、音の発声タイミングに連動して撮像動作を実行できる。しかし、この場合には、例えば大きな雑音等、目的の声以外を検知した場合にも撮像動作を実行してしまうため、不要な画像を保存してしまうという課題がある。
例えば、“撮影”という発声に基づいてユーザが所望するタイミングで撮像する工程と、“消去”という音声コマンドに基づいて既に撮像した画像を消去する工程を備えることにより、上記課題を解決できる。しかしながら、2種類の音声コマンドを入力する作業は効率がよくない。
本発明は係る従来例を鑑みてなされたものであり、単一の音声コマンドに基づいて、音が入力されたタイミングを反映した撮像で得られた画像であって、かつユーザが所望する画像を効率良く保存することを主な目的とする。
上記目的を達成するための情報処理方法の1つとして、情報処理装置が行う情報処理方法であって、第1の検出手段が、予め設定された基準を満たす音の開始を検出する第1の検出工程と、第1の取得手段が、前記開始の検出に応答して第1の画像データを取得する第1の取得工程と、第1の記憶手段が、前記第1の画像データをメモリに記憶する第1の記憶工程と、第2の検出手段が、前記音の終了を検出する第2の検出工程と、第2の取得手段が、前記終了の検出に応答して第2の画像データを取得する第2の取得工程と、第2の記憶手段が、前記第2の画像データを前記メモリに記憶する第2の記憶工程と、決定手段が、前記音に含まれる意味に応じて、前記第1の画像データまたは前記第2の画像データのいずれかを保存する対象のデータとして決定する決定工程とを有することを特徴とする。
本発明によれば、単一の音声コマンドに基づいて、音が入力されたタイミングを反映した撮像で得られた画像であって、かつユーザが所望する画像を効率良く得ることができる。
以下、本発明に好適な実施形態について、図面を参照しながら説明していく。
(第1の実施形態)
図1は第1の実施形態に係る情報処理装置の構成の一例であるデジタルカメラを示す機能ブロック図である。
図1においてデジタルカメラ200は、制御部101、操作部102、撮像部103、メモリ(画像記憶用)110、記憶媒体(画像記憶用)111を備える。
また、デジタルカメラ200は、マイク112、メモリ(音声認識データ用)113、メモリ(認識結果制御テーブル用)114、ディスプレイ115を備える。
(各部の説明)
制御部101は、操作部102、撮像部103、メモリ(画像記憶用)110、記憶媒体(画像記憶用)111、マイク112、メモリ(音声認識データ用)113、メモリ(認識結果制御テーブル用)114、ディスプレイ115の動作を制御する。
尚、制御部101における処理は後述する。
また、制御部101は、CPU(中央演算装置)、ROM(Read Only Memory)、RAM(Random Access Memory)等によって構成される。
また、制御部101は、ソフトウエアモジュールとして操作制御部122、撮像制御部123、画像記憶制御部104、音声入力部105、音声検出部106、音声認識部107、認識結果処理部108、表示制御部109を有する。
操作制御部122は、ユーザが操作部102に対して行った操作を検知するための部分である。
撮像制御部123は、撮像部103に撮像動作を実行させるための部分である。
画像記憶制御部104は、メモリ(画像記憶用)110および記憶媒体(画像記憶用)111へのデータの書込み、メモリ(画像記憶用)110および記憶媒体(画像記憶用)111に記憶されているデータの読み出し、消去等を制御する。
音声入力部105は、マイク112を介して入力される音をデジタルの音声信号に変換して出力する部分である。
音声検出部106は、音声入力部105が変換したデジタルの音声信号をフレーム単位で順次処理し、基準を満たす音の開始および終了を検出する。
尚、ユーザが発声した区間(時間帯)は、基準を満たす音の開始を検出してから基準を満たす音の終了を検出するまでの時間帯を発声区間とする。
尚、フレームとは、時間的に変化する音声信号をほぼ定常とみなせる固定時間長(例えば、25.6ミリ秒とする)毎に区分するために設けた処理単位である。なお、このフレーム数によって時間を表現することも可能である。
音声認識部107は、ソフトウエアモジュールとして音響分析部、探索部を有し、ユーザが発声した区間に含まれるコマンド(いわゆる音声コマンド)を認識する。
尚、コマンドとは音声認識部107が認識可能な音のまとまりであり、例えば、“Shoot”等である。
音響分析部は、音声信号をフレーム単位で分析して、例えばMFCC(Mel Frequency Cepstrum Coefficcient)等の特徴量のデータを出力する。
探索部は、例えば、Viterbiアルゴリズム等の周知のアルゴリズムを用いた探索処理を行い、所定個数のコマンドと、各々のコマンドに対応する認識スコアとを認識結果として出力する。
また、探索部は、探索処理を実行する際、メモリ(音声認識データ用)113に含まれる音響モデルと言語モデルとを用いる。
尚、音響モデル、言語モデルの詳細は後述する。
尚、認識スコアとは、音響的な類似度を示す周知の音響スコア、言語モデルから求まる周知の言語スコア、またはこれら2つの重みつき和であってもよい。また、認識結果の確からしさを示す周知の信頼度スコアでもよい。
尚、異なるスコアまたは複数のスコアの用いることで、種々の音の応じた最適な探索処理を実行することが可能となる。
認識結果処理部108は、音声認識部107が出力した認識結果のデータを取得し、メモリ(認識結果制御テーブル用)114に記憶された認識結果制御テーブルを参照して、認識結果に含まれるコマンドに対応する制御を決定する。
尚、本実施形態に利用する認識結果制御テーブルの一例は後述する。
表示制御部109は、ディスプレイ115に表示する表示内容を制御する。
操作部102は、ユーザがデジタルカメラ200を手動で操作するため部分である。
尚、操作部102は、ボタン、スイッチ等によって構成される。
撮像部103は、レンズによって結像した像の撮像信号を生成し、生成された撮像信号にA/D変換等の画像処理を施す。
尚、撮像部103は、レンズ、撮像センサ等によって構成される。
メモリ(画像記憶用)110は、撮像部103が撮像した画像の画像データを一時的に記憶する。尚、メモリ(画像記憶用)110は、RAM等である。
記憶媒体(画像記憶用)111は、撮像部103が撮像した画像の画像データを最終的に蓄積する。尚、記憶媒体(画像記憶用)111は、不揮発性メモリである。
メモリ(画像記憶用)110は第1のメモリとして機能し、記憶媒体(画像記憶用)は第2のメモリとして機能する。
マイク112は、ユーザの音声入力を受け付け、入力された音声データを音声入力部104に出力する。
尚、マイク112は、周知のモノラルマイク、ステレオマイク等である。
メモリ(音声認識データ用)113は、音声認識の実行に必要なデータと、例えばHMM(Hidden Markov Model)等の周知の音響モデルと、N−gram、形態素解析等の周知の言語モデルとを記憶する。
尚、N−gramとは、語の連鎖確率等を用いて言語の統計的な情報によって構成された言語モデルである。
また、音声認識で受理可能な特定の語や語の接続規則を記述した音声認識文法を言語モデルとして利用してもよい。尚、本実施形態に利用する音声認識文法の一例は、後述する。
また、メモリ(音声認識データ用)113は、不揮発性メモリ等である。
メモリ(認識結果制御テーブル用)114は、認識結果制御テーブルを格納する。また、メモリ(認識結果制御テーブル用)114は、不揮発性メモリである。
尚、本実施形態に利用する認識結果制御テーブルの一例は後述する。
尚、不揮発性メモリとは、周知のハードディスク、コンパクトフラッシュ(登録商標)、SD(Secure Digital)カード等でもよい。
また、不揮発性メモリとは、CD(Compact Disk)、DVD(Digital Versatile Disk)でもよい。
また、不揮発性メモリとは、LAN(Local Area Network)アダプタ、USB(Universal Serial Bus)アダプタ等のインタフェースを介して情報処理装置100と接続可能な外部の記憶媒体であってもよい。
ディスプレイ115は、撮像部103で撮像された画像、メモリ(画像記憶用)110、記憶媒体(画像記憶用)111等に記憶された画像等を表示する。
また、ディスプレイ115は、例えばLCD(Liquid Crystal Display)や有機EL(Electro−Luminescence)等である。
(カメラ本体の外観の説明)
図2は、本実施形態で想定されるデジタルカメラの外観を示す図である。尚、図2(A)はデジタルカメラ200の前面の外観、図2(B)はデジタルカメラ200の背面の外観である。
尚、図1と共通の要素には同一の符号を付し、その説明を省略する。
図2において、デジタルカメラ200は、シャッターボタン201、音声シャッター切替えスイッチ202、モードダイアル203、四方向選択ボタン204、決定ボタン205、電源ボタン206、録音ボタン207を備える。これらは、図1の操作部102に相当する。
(デジタルカメラ200の各部の説明)
201は、撮像を指示するための操作に用いるシャッターボタンである。
202は、音声指示によって撮像動作を実行する機能を使用するか否かを切り替える音声シャッター切替えスイッチである。
203は、回転することにより、デジタルカメラ200の動作モードを周知の撮影モード、再生モード等に切り替えるモードダイアルである。
204は、上下左右の任意方向の指示を入力する四方向選択ボタンである。
205は、各種の操作の確定を指示する決定ボタンである。
206は、デジタルカメラ200の電源のON/OFFを切り替えるための電源ボタンである。
207は、音声入力の開始および終了を指示する手動操作に用いる録音ボタンである。
(音声検出部106の説明)
次に、音声検出部106の機能の詳細を説明する。
音声検出部106は、所定の基準(開始条件)を満たした音を検出し、所定の基準(終了条件)を満たした音を検出する。
続いて所定の基準を満たした音を検出した時点から予め設定された時間が経過した時点で所定の基準を満たした音であることを確定する。
また、入力される音声信号の変化によっては、所定の基準を満たした音ではないと判断する、すなわち所定の基準を満たした音の検出を取り消す。
(音声検出部106によって判定される検出状態を示す図)
図3は、音声検出部106によって判定された検出状態の一例を示す図である。
音声検出部106は、音声信号の検出状況によって仮想的に4つの状態のいずれかに遷移する。
第一状態301は、音の入力を開始した直後の状態、すなわち音声信号を検出していない状態(以下、SILENCEとする)とする。
第二状態302は、所定の基準を満たす音の開始を検出し、音の開始の検出を確定していない状態(以下、POSSIBLE SPEECHとする)とする。
第三状態303は、所定の基準を満たす音の開始が確定した状態(以下、SPEECHとする)とする。
第四状態304は、音の入力を終了した直後の状態、すなわち音の開始の検出を確定していない状態(以下、POSSIBLE SILENCEとする)とする。
尚、本実施形態では音の検出状況を仮想的に4つの状態に分類する例を示すが、第二状態302と第四状態304をまとめて、3つの状態に分類して音の検出状況を判断しても本実施形態と同様の効果が得られる。
(検出状態の遷移についての説明)
第一状態301において、音の開始(マイク112からの所定の基準を満たす音の入力の開始)を検出すると第二状態302に遷移する(305)。
第二状態302において、音の開始を取り消すと第一状態301に遷移する(306)。
また、第二状態302において、音の開始を確定すると第三状態303に遷移する(307)。
第三状態303において、音の終了(マイク112からの所定の基準を満たす音の入力の終了)を検出すると第四状態304に遷移する(308)。
第四状態304において、音の終了を取り消すと第三状態303に遷移する(309)。
また、第四状態304において、所定の基準を満たす音の終了を確定すると音の検出を終了する(310)。
第四状態304から所定の基準を満たす音の終了を確定すると音の検出を終了させることで、後述する音声認識の処理の際に、音声検出の処理による計算資源、電力等の消費を抑えることが可能となる。
尚、第四状態304において所定の基準を満たす音の終了を確定した場合に、第一状態301に遷移するようにしてもよい。
第四状態304から第一状態301に遷移させることで、続けて次の発声を検出することが可能となる。
(音声検出部106による処理の概念図)
図4は、音声検出部106による処理の一例を示す概念図である。
図4は、ユーザが“Shoot”という言葉を発声した場合の様子を示している。
尚、“Shoot”は撮像を指示するコマンドの一例であり、コマンドの種類については後述する。
図4において420は音声信号である。
また、音声信号のうち421に示した区間の音声信号はユーザの発声ではなく雑音を検出したものである。
また、音声信号のうち422に示した区間の音声信号はユーザが“Shoot”と発声した音を検出したものである。
本実施形態の音声検出部106は、所定の基準を満たす音か否かの判断として、音量を検出する。
尚、音量が所定の閾値以上になると発声の開始を検出し、音量が所定の閾値未満になると発声の終了を検出する。
(図4中のパラメータの説明)
図4において、401は音声信号420から周知の方法で求めた音量(E(t))、402が発声開始を検出するための閾値(TH1)、403が発声終了を検出するための閾値(TH2)である。
尚、E(t)は時刻tを始点とするフレームにおける音量を表す。
即ち、第一状態301でE(t)≧TH1となると発声開始を検出し、第三状態303でE(t)<TH2となると発声終了を検出する。
また、発声開始の検出と発声終了の検出に同じ閾値を用いてもよい(TH1=TH2)。
また、発声開始の検出条件(E(t)≧TH1)となるフレームが所定数検出された場合に発声開始を確定する。
同様に、発声終了の検出条件(E(t)<TH2)となるフレームが所定数検出された場合に発声終了を確定する。
本実施形態では、発声開始、発声終了を確定するまでのフレーム数をそれぞれD1(例えば、4フレーム)、D2(例えば、6フレーム)とする。
したがって、第二状態302に遷移してからE(t)≧TH1となるフレームがD1回検出された場合、発声開始を確定して第三状態303に遷移する。
また、第二状態302に遷移してからのフレームがD1回検出される前に、音量がE(t)<TH1となった場合、第一状態301に遷移する。
尚、第二状態302から第一状態301に遷移する処理は発声開始を取り消す処理に相当する。
同様に、第四状態304に遷移してからE(t)<TH2となるフレームがD2回検出された場合、発声終了を確定し音声検出を終了する。
また、第四状態304に遷移してからのフレームがD2回検出される前に、音量がE(t)≧TH2となった場合、第三状態303に遷移する。
尚、第四状態304から第三状態303に遷移する処理は発声終了を取り消す処理に相当する。
尚、発声の開始を確定するまでに必要なフレーム数D1は発声の終了を確定するまでに必要なフレーム数D2よりも小さ場合いが一般的であるが、同じ数(D1=D2)であってもよい。
430は音声信号420に対する音声検出部106が判定した認識状態の様子を示している。
音声入力開始後は第一状態301である。
音量401が閾値TH1以上となる時点t1を始点とするフレームで発声開始を検出(404)して第二状態302に遷移する。
続いて、時点t2を始点とするフレームでは、第二状態302に遷移してからのフレーム数がD1回となる前に音量401が閾値TH1未満となるので発声開始を取り消し(405)、第一状態301に遷移する。
続いて、時点t3を始点とするフレームでは、再び音量401が閾値TH1以上になるので発声開始を検出(406)して、第二状態302に遷移する。
第二状態302に遷移してから音量401がTH1以上となるフレーム数がD1回となる時点t4で発声開始を確定(407)して第三状態303に遷移する。
第三状態303において、音量402が発声終了を検出するための閾値TH2未満となる時点t5を始点とするフレーム発声終了を検出(408)して第四状態304に遷移する。
続く時点t6を始点とするフレームにおいて音量401が閾値TH2以上となるので発声終了を取り消し(409)、第三状態303に遷移する。
続く時点t7を始点とするフレームで再び音量401が閾値TH2未満となるので発声終了を検出(410)して第四状態304に遷移する。
以後、第四状態304に遷移してから音量401が閾値TH2未満となるフレームの数がD2回となる時点t8で発声終了を確定する(411)。
また、発声開始の確定、および発声終了の確定は、フレームの数ではなく、音量が閾値以上あるいは閾値未満である状態が一定の時間継続するか否かで判断してもよい。
すなわち、閾値(TH1)以上の音量が、発声開始を確定するまでのフレーム数D1(例えば、4フレーム)に相当する時間S1(102.4ミリ秒間)検出された場合、発声の開始を確定する。
同様に、閾値(TH2)以下の音量が、発声終了を確定するまでのフレーム数D2(例えば、6フレーム)に相当する時間S1(153.6ミリ秒間)検出された場合、発声の終了を確定する。
尚、所定の音量が断続して検知された場合でも、継続とみなして継続時間を判断してもよい。
このような構成とすることで、音声検出部106は、検出するべき音が一瞬途切れ、対応するフレームの音量が取得できない場合があっても、音が一瞬途切れた後すぐに発声される場合には、適切な処理を実行することが可能となる。
(音声検出部106による処理動作を示すフローチャート)
図5は、音声検出部106による処理動作を示すフローチャートである。
ステップS501で、発声開始を検出した時にフレーム番号を初期化する。
以下、フレーム単位で音声の検出を行う。
即ち、音声検出部106はフレーム単位に処理を行う際に、当該フレーム毎に音量を計算する。
尚、音量は例えば、対数パワー等信号強度に係る値を周知の方法で音声信号から算出する。
尚、短時間の対数パワーは例えば次式で算出する。
E(t)=log{Σ(x(t,i)^2)/N} (1≦i≦N)・・・(数1)
ここで、Nはフレームあたりの音声信号のサンプル数、iはフレーム内の音声サンプルのインデックスである。
また、x(t,i)は時点tを始点とするフレーム内のi番目サンプルの音声信号を表している。
また、x(t,i)^2はx(t,i)の2乗を意味する。
次に、ステップS502で、第一状態301における処理を開始する。
次に、ステップS503で、時点tを始点とするフレームにおける音量E(t)が発声の開始を検出するために用いる閾値TH1以上であるか判断する。
音量E(t)がTH1以上の場合(ステップS503においてYES)、ステップS505で第二状態302に遷移する。
音量E(t)がTH1未満の場合(ステップS503においてNO)、次のフレームの処理(ステップS504)を繰り返す。
次に、ステップS506で、第二状態302に遷移したフレームを発声開始フレームTsと設定する。
次に、ステップS507で、音量E(t)がTH1未満であるか判断する。
音量E(t)がTH1未満の場合(ステップS507においてYES)、第一状態301に遷移する。
音量E(t)がTH1以上の場合(ステップS507においてNO)、ステップS508で、第二状態302に遷移してからのフレーム数がD1回未満であるか判断する。
第二状態302に遷移してからのフレーム数がD1回未満である場合(ステップS508においてYES)、次のフレームの処理(ステップS509)を繰り返す。
第二状態302に遷移してからのフレーム数がD1回以上である場合(ステップS508においてNO)、ステップS510で、第三状態303に遷移する。
次に、ステップS512で、音量E(t)が発声終了の検出に用いる閾値TH2未満であるか判断する。
音量E(t)がTH2未満の場合(ステップS512においてYES)、ステップS514で第四状態304に遷移する。
音量E(t)がTH2以上の場合(ステップS512においてNO)、ステップS513で次のフレームの処理を行う。
次に、ステップS515で、第四状態304に遷移したフレームを発声終了フレームTeと設定する。
次に、ステップS516で、音量E(t)がTH2以上であるか判断する。
音量E(t)が閾値TH2以上の場合(ステップS516においてYES)、第三状態303に遷移する。
音量E(t)がTH2未満の場合(ステップS516においてNO)、ステップS517で第四状態304に遷移してからのフレーム数がD2回未満であるか判断する。
第四状態304に遷移してからのフレーム数がD2回未満である場合(ステップS517においてYES)、ステップS518で次のフレームの処理を行う。
第四状態304に遷移してからのフレーム数がD2回以上である場合(ステップS517においてNO)、ステップS519で音声の検出を終了するか判断する。
音声の検出を終了する場合(ステップS519においてYES)、ステップS520で音声の検出を終了する。
音声検出を終了しない場合(ステップS519においてNO)、次の発声の検出に備える場合は第一状態301に遷移する。
以上の処理によって音声検出部106はフレームTsからフレームTeまでを発声区間として検出する。
音声認識部107は音声検出部106が検出した発声区間(フレームTsからフレームTeまで)の音声信号を処理して音声認識結果を求める。
尚、フローチャートと用いた上記の説明では音量の変化に基づいて音声区間を検出する場合を説明したが、これに限定しなくてもよい。
また、音声検出を行う場合、零交差回数、ピッチ、音声モデルと非音声モデルが出力する尤度比等の周知の特徴量やこれらを組み合わせた特徴量を用いてもよい。
このような特徴量を用いることで、例えば、周囲から入力される音が大きいような環境下においても発声開始および発声終了を効率良く検出することが可能となる。
尚、発声開始および発声終了を確定する条件は、以下に示すようにフレーム数以外の条件を用いてもよい。
例えば、発声開始を検出するための閾値TH1よりさらに大きな音量である所定の閾値TH3を設け、発声開始を検出後、音量が所定の閾値TH3に達したフレームで発声開始を確定してもよい。
また、発声終了の確定に対しては、発声終了を検出する閾値TH2よりも小さな音量である所定の閾値TH4を設けて、発声終了を検出後、音量が所定の閾値TH4よりも小さくなったフレームで発声終了を確定してもよい。
このような条件用いて判定することで、発声開始および発声終了を確定するまでの時間を短縮させることが可能となる。
次に、以上の構成を備えたデジタルカメラ200において、音声の指示によって撮像動作を実行する場合について説明する。
(音声検出部106、撮像制御部123、画像記憶制御部104の処理の対応関係)
図17は、音声検出部106、撮像制御部123、画像記憶制御部104の処理の一例を示す図である。
尚、図3と共通の要素には同一符号を付し、その説明を省略する。
図17において、発声開始を検出すると(305)、撮像制御部123は撮像部103に撮像動作を実行させる。
尚、発声開始を検出した場合(305)とは、図5のステップS503のYESと判断された場合に相当する。
また、発声終了を検出すると(308)、撮像制御部123は撮像部103に撮像動作を実行させる。
尚、発声終了を検出した場合(308)とは、図5のステップS512のYESと判断された場合に相当する。
即ち、撮像部103は、音声検出処理の内部状態が第一状態301から第二状態302に遷移する時点および第三状態303から第四状態304に遷移する時点で撮像する。
また、画像記憶制御部104は、一旦撮像した画像を、発声開始を取り消した場合(306)、発声終了を取り消した場合(309)で消去する。
尚、発声開始を取り消した場合(306)とは、図5のステップS507のYESと判断された場合である。
また、発声終了を取り消した場合(309)とは、図5のステップS516のYESと判断された場合である。
即ち、図17において、発声開始を取り消すと、画像制御部104は発声開始を検出した場合(305)に撮像した画像を消去する。
同様に、発声終了を取り消すと、画像制御部104は発声終了を検出した場合(308)に撮像した画像を消去する。
即ち、第二状態302から第一状態301に遷移する時、第四状態304から第三状態303に遷移する時に直前の遷移で撮像した画像を消去する。
(音声認識文法)
図9は、本実施形態で利用する音声認識文法の一例を示す図である。
この例では音声認識文法900はルールを記述する部分910と認識するコマンドおよび発音を記述する部分920で構成される。
コマンドおよび発音を記述する部分920には一行毎に単語のID921、コマンド922、発音923が記述されている。
尚、ルールを記述する部分910には、922に記載された計9語を認識するための方法が音声認識部107に読み取り可能なプログラムコードの形態で記述されている。
“Shoot”、“Go”、“チーズ(Cheese)”、“はい、ちーず(Say Cheese)”、“Five Four Three”は後述する撮像を音声で指示するためのコマンドである。
“Spot Metering”(スポット測光)、“Center Metering”(中央部重点測光)、“Use a flash”(ストロボ発光)、“No Flash”(ストロボ発光禁止)は音声で撮影条件を設定するためのコマンドである。
以下の説明において、本実施形態のデジタルカメラ200では、図9に示した音声認識文法900を言語モデルとして用いる。
なお本実施例においては、音声を好適な例として説明するが、本発明はこれに限らない。例えば、各音声コマンドの代わりに、何かしらの意味に置換できる音を適用することもできるであろう。例えば、笑い声、列車が通過する際に発生する音等を適用可能である。なお、この場合には、音声認識の技術ではなく、公知の音の種類の検知技術を代用することになるであろう。
このような構成とすることで、音声に限らず、特徴のある音がマイク112を介して入力された場合にも、ユーザは特徴のある各種の音に応答したタイミングで撮像された画像を得ることが可能となる。
(認識結果制御テーブル)
認識結果制御テーブルは、認識結果に対応する撮像、測光、ストロボ発光等の処理を記述したテーブル形式のデータであり、認識結果処理部108が認識結果に対応するカメラ制御を決定する際に参照する。
尚、認識結果制御テーブルは、認識結果処理部108が読み取り可能なプログラムコードの形態でメモリ(認識結果制御テーブル用)114に格納されている。
図10は、認識結果制御テーブルの一例を示す図である。
図10において、1000は認識結果処理データである。
910に認識に利用するコマンドが記述されており、1002に910のコマンドに対応するデジタルカメラ200の制御内容が記述されている。
(音声によって撮像を指示する場合のデジタルカメラ200における処理の一例を示すフローチャート)
図6〜図8は、音声によって撮像を指示する場合のデジタルカメラ200における処理の一例を示すフローチャートである。
まず図6のフローチャートを参照して説明する。
ステップS601で、音声シャッター機能がオンに設定されているか否か判断する。
音声シャッター機能がオンに設定されている場合(ステップS601においてYES)、ステップS602で録音ボタン207を押下されて音声入力を開始する操作が行われたか否か判断する。
音声シャッター機能がオフに設定されている場合(ステップS601においてNO)、ステップS699で音声シャッター機能以外の処理を行う。
尚、ユーザは操作部102が備える音声シャッター切替えスイッチ202を操作して、音声シャッター機能のオン・オフを切り替える。
また、音声シャッター機能のオン・オフの判断は制御部101が行う。
音声入力を開始する操作が行われた場合(ステップS602のYES)、ステップS603で音声入力部105は音声入力の処理を開始し、音声検出部106は音声を検出する処理を開始する。
音声入力を開始する操作以外の操作が行われた場合(ステップS602のNO)、ステップS699で音声シャッター機能以外の処理を行う。
尚、音声入力を開始する操作は、録音ボタン207を押下する操作以外の操作でもよい。
例えば、オートフォーカス機能を備えたデジタルカメラでは、シャッターボタン201を半押しすると、焦点を合わせる動作をするものがある。
この時、オートフォーカス機能の動作に連動して音声入力の処理を開始するようにしてもよい。即ち、ユーザがシャッターボタン201を半押しすると音声入力および音声検出の処理を開始する。
このような構成とすることで、手動作による操作が簡略化される。従って、ユーザは音声入力の処理を素早く開始することができる。
また、手動作によって音声検出の開始することなく、音声入力部105に音声信号が入力された時点で音声検出を開始するようにしてもよい。
このような構成とすることで、音声検出の処理を素早く開始することができる。また、ユーザがカメラを手動作で操作できない場合にも音声検出を開始すすることができる。従って監視カメラ、防犯カメラ、高所に据え置きされたカメラ等に利用することができる。
ステップS604で、音声検出部106が発声開始を検出したか否か判断する。
尚、ステップS604において発声開始を検出したか否かの判断は、音声検出部106が第一状態301から第二状態302に遷移させる処理を実行したか否かという判断に基づく。
発声開始を検出した場合(ステップS604においてYES)、ステップS605で撮像部103が撮像動作を実行する。
ステップS606で、画像記憶制御部104は直前のステップS605で撮像された画像の第1の画像データをメモリ110に記憶させる。
尚、ステップS605で撮像した画像、即ち音声検出部106が発声開始を検出した時点で撮像した画像を画像Aとする。
発声開始を検出しなかった場合(ステップS604においてNO)、発声開始の検出を繰り返す。
ステップS607で、音声検出部106が発声開始を取り消すか否か判断する。
尚、ステップS605において発声開始を取り消すか否かの判断は、音声検出部106が第二状態302から第一状態301に遷移させる処理を実行したか否かという判断に基づく。
発声開始を取り消す場合(ステップS607においてYES)、ステップS608で画像記憶制御部104はメモリ110に記憶した画像Aを消去する。
発声開始を取り消さない場合(ステップS607においてNO)、ステップS609で音声検出部106は発声開始を確定したか否か判断する。
尚、ステップS609において発声開始を確定したか否かの判断は、音声検出部106が第二状態302から第三状態303に遷移させる処理を実行したか否かという判断に基づく。
発声開始を確定した場合(ステップS609のYES)、ステップS610で音声認識部107が音声認識処理を開始する。
発声開始を確定しなかった場合(ステップS609のNO)、発声開始を取り消すか否かの判定を繰り返す。
以降の処理は図7のフローチャートを参照して説明する。
ステップS711で、音声検出部106は発声終了を検出したか否か判断する。
尚、ステップS711において発声終了を検出したか否かの判断は、音声検出部106が第三状態303から第四状態304に遷移させる処理を実行したか否かという判断に基づく。
発声終了を検出した場合(ステップS711においてYES)、ステップS712で撮像部103が撮像を行う。
次に、ステップS713で、画像記憶制御部104が直前のステップS712で撮像した画像の第2の画像データをメモリ110に記憶する。
尚、ステップS712で撮像した画像、即ち音声検出部106が発声終了を検出した時点で撮像した画像を画像Bとする。
尚、一般に「はい、ちーず(Say Cheese)」等の掛け声をかけてに、その発声が終了した後(「ず」を発声した後)に一拍(例えば、0.5秒間)遅延して撮像する場合がある。
これを考慮して、本実施例では、音声検出部106が「はい、ちーず(Say Cheese)」の発声終了を検出した時点から一定の遅延時間が経過してから、撮像部103が撮像を行う。
このような構成とすることで、ユーザが希望する撮像タイミングの種類を増やすことができる。
次に、ステップS715で、音声検出部106は発声の終了を取り消すか否か判断する。
尚、ステップS715において発声終了を取り消すか否かの判断は、音声検出部106の第四状態304から第三状態303に遷移したと認識したか否かという判断に基づく。
発声終了を取り消す場合(ステップS715においてYES)、ステップS714で画像記憶制御部104はメモリ110に記憶された画像Bを消去する。
次に、ステップS716で、音声検出部106が発声終了を確定するか否か判断する。
尚、ステップS716において発声終了を確定したか否かの判断は、音声検出部106の第四状態304から状態遷移を終了したか否かという判断に基づく。
発声終了を確定した場合(ステップS716においてYES)、ステップS717で音声入力部105および音声検出部106による処理を終了する。
次に、音声検出終了後のステップS718で、音声認識部107は音声検出部106が検出した発声区間の音声信号を全て処理するまで音声認識処理を行う。
音声認識の処理が終了した場合(ステップS718においてYES)、ステップS719で認識結果処理部108は音声認識部107が求めた認識結果を取得する。
以降の処理は図8のフローチャートを参照して説明する。
ステップS821で、認識結果処理部108は取得した認識結果の認識スコアに基づいて対応するコマンドを受理するか棄却するか判断する。
尚、コマンドを受理するとは、制御部101が認識されたコマンドに対応する制御を決定することをいう。また、コマンドを棄却するとは、制御部101が認識されたコマンドに対応する制御が決定されないことをいう。
取得した認識スコアが所定の閾値以上であり、対応するコマンドを受理した場合(ステップS821においてYES)、ステップS822で認識結果制御テーブルを参照して認識結果に含まれるコマンドに対応するカメラの制御を決定する。
認識されたコマンドが発声開始時点で撮像を指示する語(“Shoot”または“Go”)の場合(ステップS822においてYES)、ステップS823で画像記憶制御部104がメモリ110に記憶されている画像Aの画像データを記憶媒体111に保存する。
尚、ステップS823の処理は、認識結果処理部108の決定にしたがった処理である。
次に、ステップS824で、撮像した画像をユーザが確認できるように表示制御部109は画像Aをディスプレイ115に表示する。
認識されたコマンドが発声開始時点で撮像を指示する語(“Shoot”または“Go”)でない場合(ステップS822においてNO)、ステップS826で、発声終了時点で撮像を指示する語(“チーズ(Cheese)”)であるか否か判断する。
認識されたコマンドが発声終了時点で撮像を指示する語(“Cheese”)の場合(ステップS826においてYES)、ステップS827で画像記憶制御部104が画像Bの画像データを記憶媒体(画像記憶用)111に保存する。
尚、ステップS827の処理は、認識結果処理部108の決定にしたがった処理である。
ステップS828で、撮像した画像をユーザが確認できるように表示制御部109は画像Bをディスプレイ115に表示する。
認識されたコマンドが撮像を指示する語以外の語(“Spot Metering”等)の場合(ステップS826においてNO)、ステップS829で、認識結果処理部108が認識結果制御テーブル114を参照して、撮像以外のカメラの制御を行う。
ステップS825で画像記憶制御部104がメモリ110に記憶している全ての画像(画像Aおよび画像B)の画像データを消去する。
即ち、所定のコマンドが認識されず、認識結果が棄却されると撮像部103が撮像した画像は消去される。
この処理により、周囲の雑音や認識対象語以外の発声、ユーザ以外の話し声等カメラ操作を意図しない音声の認識結果を棄却し、これらの音を誤って検出して撮像した画像を自動的に消去する。
尚、判定に用いる閾値は、あらかじめ決めた固定値でもよいし、ガーベッジモデルが出力する認識スコアをr倍(0<r)した値を用いてもよい。
ガーベッジモデルとは、音声以外の雑音区間や想定される複数の未知語を用いて作成した音響モデルであり、音声認識用データ113に含まれる。
尚、ステップS822〜ステップS829の処理は、発声開始時点に撮像した画像と発声終了時点で撮像した画像とから認識結果に従って保存する画像を決定している。
したがって、ユーザは発声内容によって保存する画像の撮像タイミングを自由に変えることができる。
尚、上記の説明では、ステップS825の後に処理を終了するように説明したが、引き続き次の音声入力を行うため、ステップS602の処理へ進んでも良い。
このように構成し、シャッターボタン201を半押しすることで音声入力開始を操作する場合は、シャッターボタン201を半押ししている間は何度でも音声入力によるカメラ制御が可能になる。
例えば、シャッターボタン201を半押ししたまま、“Center Metering”等の発声で撮影条件を設定し、つづく発声で撮像指示を出す、といったことが可能になる。
(“Shoot”で撮像する場合の説明)
図11は本実施形態に係るデジタルカメラ200を利用して、“Shoot”という音声指示で撮像する場合の動作示す図である。
図11の横軸1150は時間軸であり、左から右に時刻が推移する。t1〜t7は時点を示している。
1110は音声入力部105がA/D変換した音声信号である。
1111はユーザが“Shoot”と発声した区間の音声信号(音声波形)である。
1120は音声信号1110に対応する音量の変化を示す。
1121は音声検出部106で用いる発声開始検出用の閾値(TH1)、1122は発声終了検出用の閾値(TH2)である。
1130は、音声検出部106が認識した状態の変化を視覚的に示したものである。
1140はデジタルカメラ200の動作の内容を示している。
続いて、時点t1から時点t7までの時間経過に沿ってデジタルカメラ200の動作を説明する。
(時点t1)
音量1120が閾値TH1以上になる時点t1を始点とするフレームで音声検出部106が発声開始を検出する。これは、上述した所定の基準(開始条件)を満たした音を検出する工程に相当する。
この時、音声検出部106は第一状態301から第二状態302に遷移させる処理を実行する(1130の時点t1の部分)。
発声開始を検出した時点で撮像部103が同時点の被写体(IMG003)を撮像し、続いて、画像記憶制御部104が撮像した画像の画像データをメモリ(画像記憶用)110に記憶する(以上、1141)。
(時点t2)
音声検出部106は、発声開始を検出した時点t1を始点とするフレームからD1番目のフレームである時点t2を始点とするフレームで発声開始を確定する。
同時に、音声認識部107による音声認識の処理を開始する(以上1142)。
この時、音声検出部106は、第二状態302から第三状態303に遷移させる処理を実行する(1130の時点t2の部分)。
(時点t3)
続いて、音量1120が閾値TH2未満になる時点t3を始点とするフレームで音声検出部106が発声終了を検出する。これは、上述した所定の基準(終了条件)を満たした音を検出する。
この時、音声検出部106は、第三状態303から第四状態304へ遷移させる処理を実行する(1130の時点t3の部分)。
音声検出部106が発声終了を検出した時点t3で、撮像部103がこの時点の被写体(IMG005)を撮像し、続いて画像記憶制御部104が撮像した画像を撮像した画像の画像データをメモリ(画像記憶用)110に記憶する(以上、1143)。
(時点t4)
音声検出部106が発声終了を検出した時点t3を始点とするフレームからD2番目のフレームとなる前の、時点t4を始点とするフレームで音量1120が閾値TH2以上になると、音声検出部106は発声終了を取り消す。
この時、音声検出部106は第四状態304から第三状態303に遷移させる処理を実行する(1130の時点t4の部分)。
発声終了が取り消された時点t4で、画像記憶制御部104は発声終了を検出した時点t3で撮像した画像IMG005の画像データをメモリ(画像記憶用)110から消去する(以上、1144)。
(時点t5)
続く時点t5を始点とするフレームで音量1120が閾値TH2未満になるので、音声検出部106が発声終了を検出する。
この時、音声検出部106は第三状態303から第四状態304に遷移させる処理を実行する(1130の時点t5の部分)。
また、撮像部103はこの時点t5の被写体(IMG006)を撮像し、画像記憶制御部104が撮像した画像の画像データをメモリ(画像記憶用)110に記憶する(以上1145)。
(時点t6)
発声終了を検出した時点t5を始点とするフレームから、音量1120が閾値TH2以上になることなくD2番目のフレームである時点t6を始点とするフレームで、音声検出部106は発声の終了を確定する(1146)。
この時、前述したように、音声検出部106は第四状態304から第1状態に遷移させる処理を実行してもよく、音声検出部106は状態を遷移させる処理を終了させてもよい。
(時点t7)
その後、音声認識部107の処理が終了した時点t7で認識結果処理部108がデジタルカメラ200の制御方法を決定する。
ここで“Shoot”が認識結果として得られた場合は、認識結果制御テーブルを参照して“Shoot”に対応する処理を決定する。
図10に示したように“Shoot”は発声の開始を検出した時点での撮像動作と対応付けられたコマンドである。
認識結果処理部108の決定にしたがって、画像記憶制御部104が発声開始を検出した時点t1で撮像した画像(IMG003)の画像データを画像記憶媒体111に保存する。
同時に、画像記憶制御部104は発声終了時点で撮像した画像(IMG006)を保存せずにメモリ(画像記憶用)110から消去する。
(“チーズ(Cheese)”で撮像する場合の説明)
図12は、本実施形態に係るデジタルカメラ200を利用して、“チーズ(Cheese)”という音声指示で撮像する場合の動作を示す図である。
図11と同様に1250は時間軸であり、1210は音声信号、1220は音量、1230は音声検出部150が認識した状態、1240はデジタルカメラ200の動作を示す。
1211はユーザの発声前に混入した雑音を検知した区間であり、1212はユーザが発した“Cheese”という音声を検知した区間である。
1221は音声検出部106で用いる発声区間を検出するための閾値(TH1)である。
尚、図12では、発声開始、発声終了の検出に同じ閾値TH1を用いる。
以下、時間経過に沿ってデジタルカメラ200の動作を説明する。
(時点t1)
時点t1を始点とするフレームで音声検出部106が発声開始を検出すると、撮像部103が時点t1を始点とするフレームに対応する被写体1202(IMG002)を撮像する。また、画像記憶制御部104が撮像した画像の画像データをメモリ(画像記憶用)110に一時的に記憶する(1241)。
(時点t2)
時点t2を始点とするフレームで、発声開始を検出してからのフレーム数がD1回となる前に音量が閾値TH1未満になるため、音声検出部106が発声開始を取り消す。
この時、画像記憶制御部104が1241で撮像したIMG002を消去する。
(時点t3)
時点t3を始点とするフレームで音声検出部106が再び発声開始を検出すると、撮像部103が時点t3を始点とするフレームに対応する被写体1203(IMG003)を撮像する。また、画像記憶制御部104が撮像した画像の画像データをメモリ(画像記憶用)110に一時的に記憶する(1243)。
(時点t4)
時点t4を始点とするフレームで音声検出部106が発声開始を確定すると、音声認識部107が音声認識の処理を開始する(1244)。
(時点t5)
時点t5を始点とするフレームで音声検出部150が発声終了を検出すると、撮像部103が時点t5始点とするフレームに対応する被写体の画像1205(IMG005)を撮像する。また、続いて画像記憶制御部104が撮像した画像の画像データをメモリ(画像記憶用)110に一時的に記憶する(1245)。
(時点t6)
時点t6を始点とするフレームで音声検出部106が発声終了を確定する(1246)。
(時点t7)
発声終了確定後、音声認識部107による音声認識処理が終了する時点t7で、認識結果処理部108が得られた認識結果に基づいてカメラの制御を決定する。
尚、図10に示したように“Cheese”は発声の終了を検知した時点での撮像動作と対応付けられたコマンドである。
したがって、画像記憶制御部104は、発声終了を検出した時点t5で撮像した画像(IMG005)の画像データを画像記憶媒体111に保存し、発声開始を検出した時点t3で撮像した画像(IMG003)の画像データは保存せずに消去する。
以上、図11、図12を用いて説明したように、本実施形態で説明したデジタルカメラ200では、発声を開始したタイミングの画像を得たい場合は“Shoot”(または“Go”)と発声すればよい。
また、本実施形態で説明したデジタルカメラ200では、発声を完了したタイミングの画像を得たい場合は“Cheese”と発声すればよい。
また、発声を開始したタイミングから一定時間後(すなわち、“Two One Zero”が発声されるべき時間後)の時間関係にあるタイミングで撮像された画像の画像データを得たい場合は“Five Four Three”と発声すればよい。
また、発声を終了したタイミングから一定時間後(例えば、0.5秒後)の画像の画像データを得たい場合は“はい、チーズ(Say Cheese)”と発声すればよい。
“Shoot”(または“Go”)と発声した場合、音声認識の終了を待たずに撮像するため、乗り物等の動いている被写体を撮影する場合に好適である。
また、“Cheese”(または、“Say Cheese”)と発声した場合、発声後に撮影するため、集合写真や記念写真等、被写体に撮影タイミングを伝えて撮影する場合に好適である。
また“Five Four Three”と発声した場合、発声を開始してから一定時間後(すなわち、“Two One Zero”が発声されるべき時間後)の所望のタイミングで撮像された画像を得ることができる。
従って、撮影シーンによって自由に撮影タイミングを変えた撮影が可能になり、ユーザの利便性が向上する。
また、撮影後にユーザが意図しないタイミングで撮影した画像を手動作によって削除する手間も必要ないという利点がある。
即ち、図12で説明したように、音声入力時に混入した周囲の雑音を発声と誤って撮像した場合でも、発声開始が確定されなければ自動的に消去する。
また、雑音や撮像を意図しない発声により撮像した場合でも、図8のS821における処理で、撮像を意図しない語が認識された場合は認識結果を棄却して誤って撮像した画像を消去する。
したがって、音声指示による撮影を行う場合に、周囲雑音による誤動作の影響を少なくするという効果がある。
(第1の実施形態の変形例1)
本実施形態においては、発声の開始を検出したタイミングさ撮像するか、発声の終了を検出したタイミングで撮像するようにしてもよい。
(フローチャート)
図13に発声開始を検出した時点でのみ撮像する場合のフローチャートを示す。
図13に示したフローチャートは図6〜図8で説明した処理と異なるフローチャートになるステップS811以降の処理のみ示している。
また、図7〜図8と同じ処理については同じ符号で示している。以下、図7〜図8と図3の相違点のみ説明する。
図13のフローチャートでは、図7のフローチャートで行っていた、発声終了を検出した時に撮像する処理(ステップS712、ステップS713)および撮像した画像を消去する処理(ステップS714)は行わない。
また図13のフローチャートでは、図8のフローチャートで行っていた、発声終了時に撮像を指示する語を認識した場合の認識結果処理部108が行う処理(ステップS826,ステップS827、ステップS828)を行わない。
その他の処理については、図6〜図8で説明した処理と同じである。
なお、発声開始を検出した時点でのみ撮像する場合は、図9に示した音声認識文法から発声開始時点に撮影を指示する語(“Cheese”、“Say Cheese”等)を削除する。
音声認識文法を変更しない場合は、図10に示した認識結果制御データを変更し、“Cheese”、“Say Cheese”等を認識した場合の処理を、発声の開始を検出した時点で撮像する処理に変更する。
これにより、ユーザが“Cheese”、“Say Cheese”と発声すると、発声開始時点で撮像した画像の画像データが画像記憶媒体111に記憶される。
同様にして、発声終了を検出した時点でのみ撮像するように変形することもできる。この場合は、発声開始を検出したときに撮像する処理(ステップS605、ステップS606)および発声開始が取り消されたときの処理(ステップS608)が省かれる。
また、認識結果処理部108が行う処理のうち、ステップS822〜ステップS824が省かれる。
このとき、ステップS821で認識結果を受理した場合(ステップS821においてYES)に、ステップS826以降の処理を行う。
また、発声開始時に撮影を指示する語を音声認識文法900から削除するか、認識結果制御データに記述された処理内容を変更する。
(第1の実施形態の変形例2)
本実施形態では、認識結果によって発声の開始を検出した時点および発声の終了を検出した時点の画像の画像データを記憶媒体(画像記憶用)111に記憶する構成してもよい。
たとえば、“Say Cheese”に対して発声開始を検出した時点および発声終了を検出した時点の両方で撮像するように認識結果制御データに記述すれば、両方時点における画像の画像データが記憶媒体(画像記憶用)111に記憶される。
このような構成とすることで、ユーザが指示することが可能な撮像タイミングの種類が増えて、ユーザの利便性が向上する。
(第1の実施形態の変形例3)
本実施形態では、認識結果処理部108が行う処理において、認識結果を棄却した場合(ステップS821においてNO)、メモリ(画像記憶用)110に記憶した画像A、画像Bを消去(ステップS825)するか否かユーザに確認させるようにしてもよい。
また、ユーザが記憶媒体(画像記憶用)111に記憶する画像を選択するようにしてもよい。
また、認識結果が棄却された場合は、画像A、画像Bの両方の画像データを記憶媒体(画像記憶用)111に記憶するようにしてもよい。
例えば、ディスプレイ115に画像A、画像Bを表示し、画像データの消去の可否を四方向ボタン204で選べるようする。
また、四方向ボタン204で記憶する画像をユーザが選択し、決定ボタン205が押された時点で選択されている画像の画像データを記憶媒体(画像記憶用)111に記憶するようにする。
撮影を指示する語以外が認識された場合(ステップS826においてNO)についても同様に、画像消去の確認、記憶媒体(画像記憶用)111に記憶する画像の選択をユーザが行えるように構成できる。
また、画像A、画像Bの画像データをともに記憶媒体(画像記憶用)111に記憶するようにしてもよい。
このように構成することで、音声認識の性能が劣化するような環境で音声指示による撮像機能を使用する場合に、音声認識の誤りによって所望の撮像画像を誤って消去することが防止でき、ユーザの利便性が向上する。
尚、メモリ(画像記憶用)110の記憶容量に応じて、1回の音声認識において保持する画像の数を決定してもよい。
このように構成することで、メモリ110が限られた記憶容量を考慮して、ユーザが希望する画像の候補をできるだけ一時的に保持しておくことができる。
(第1の実施形態の変形例4)
本実施形態の認識結果処理部170の処理において、撮像タイミングの異なる語の認識スコアの差が所定の閾値より小さい場合は、発声開始時点および発声終了時点で撮像された画像の両方を記憶媒体(画像記憶用)111に記憶するようにしてもよい。
例えば、発声開始時点での撮像を指示する“Shoot”と発声終了時点での撮像を指示する“Cheese”の認識スコアの差が所定値未満の場合に、発声開始時点および発声終了時点で撮像された画像を両方とも記憶媒体(画像記憶用)111に記憶する。
あるいは、二つの画像をディスプレイ115に表示して、ユーザが選択するようにしてもよい。
このように構成することで、音声認識の性能が劣化するような環境で音声指示によって撮像を実行する機能を使用する場合に、音声認識の認識誤りによって、所望の撮像画像を誤って消去することが防止でき、ユーザの利便性が向上する。
(第1の実施形態の変形例5)
本実施形態では、撮像した画像の画像データをメモリ(画像記憶用)110に一時的に記憶し、認識結果確定後に記憶媒体(画像記憶用)111に記憶するよう説明したが、最初から記憶媒体(画像記憶用)111に記憶するようにしてもよい。
この場合、ステップS608,ステップS714における画像データの消去の処理は、記憶媒体(画像記憶用)111に記憶された画像データを消去することになる。
また、ステップS823、ステップS827の処理は行わない。
さらに、認識結果を棄却した場合(ステップS821においてNO)および認識結果が撮影を指示する語でない場合(ステップS826においてNO)は、記憶媒体(画像記憶用)111に記憶されている画像Aおよび画像Bの画像データを消去する。
さらに、認識結果が発声開始時点で撮像を指示する語である場合には画像Bの画像データを消去し、発声終了時点で撮像を指示する語である場合には画像Aの画像データを消去する。
(第1の実施形態の変形例6)
例えば、道路脇等、周囲の雑音の影響を受け易い場所で本実施形態に係るデジタルカメラ200を使用する場合、音声検出部106の内部状態が短時間に頻繁に変化する場合がある。
短時間のうちに撮像と画像データの消去が繰り返されると、デジタルカメラ200の連写機能が画像データを消去した直後の撮像に対応しきれず、メモリ(画像記憶用)110上に画像が記憶されないということが起こりうる。
これに対処するため、例えば、ステップS108で発声開始を検出した時点では撮像した画像Aの画像データを消去せずに、次の発声開始を検出するまで画像Aの画像データをメモリ(画像記憶用)110に記憶しておいてもよい。
この場合、次に発声開始を検出した時点で画像Aの画像データを消去するか、画像Aの画像データに新たに撮像された画像の画像データを上書きするようにする。
同様に、ステップS715において発声終了を取り消した場合も、画像Bの画像データを消去せずに、次に発声終了を検出するまでメモリ(画像記憶用)110に記憶しておいてもよい。
このように構成することで、カメラの連写が音声検出の状態変化の速度に間に合わない場合でも、少なくとも最初に撮像された画像は残しておくことができる。
尚、上記各実施形態では、カメラについて説明したが、本発明はビデオカメラ等の他の撮像装置にも適用することができる。
(第1の実施形態の変形例7)
本実施形態では、マイク112として、周知ステレオマイクを用いる。
また、音声認識部107は、左右のマイク112を介して入力されるそれぞれの音声信号の音量、ピッチ等の関係を前述した特徴量として用いてもよい。
このような特徴量を用いることで、例えば、デジタルカメラ200に対して右側から迫る音源と左側から迫る音源を判別することができる。すなわち、撮像する際の状況を認識して撮像することが可能となる。
(第1の実施形態の変形例8)
本実施形態では、認識結果制御テーブルに含まれるコマンドの一例として示した“チーズ(Cheese)”に換えて“ハイ、チーズ(Say Cheese)”というコマンドに発声終了時点で撮像する処理を対応付けてもよい。
また、認識結果制御テーブルに含まれるコマンドの一例として示した“Go”に換えて“今”というコマンドに発声開始時点で撮像する処理を対応付けてもよい。
(第2の実施形態)
図16は、本発明の第2の実施形態に係る情報処理装置1600の構成の一例を示す機能ブロック図である。
尚、図1と共通の要素には同一符号を付し、その説明を省略する。
情報処理装置1600は、入力装置1602、撮像装置1603、格納装置(画像記憶用)1610、記憶装置(画像記憶用)1611、集音装置1612と接続可能であることを特徴とする。
また、情報処理装置1600は、格納装置(音声認識データ用)1613、格納装置(認識結果制御データ用)1614、表示制御装置1609と接続可能であることを特徴とする。
尚、入力装置1602は操作部102に、撮像装置1603は撮像部103に、格納装置(画像記憶用)1610はメモリ(画像記憶用)110に、記憶装置(画像記憶用)1611は記憶媒体(画像記憶用)111に対応する機能を備える。
また、集音装置1612はマイク112に、格納装置(音声認識データ用)1613はメモリ(音声認識データ用)113に対応する機能を備える。
また、格納装置(認識結果制御データ用)1614は認識結果データ用メモリ114に、表示制御装置1609は表示制御部109に対応する機能を備える。
情報処理装置1600としては、例えばマイクロプロセッサ等が想定できる。
図14、図15は、情報処理装置1600における処理動作の一例を示したフローチャートである。
まず、図14のフローチャートを参照して説明する。
ステップS1400で、音声入力部105は音声信号が入力されたか否か判断する。
音声信号が入力された場合(ステップS1400においてYES)、ステップS1401で音声検出部106はフレームfを初期化する(f=0)。
次に、ステップS1402で音声検出部106は音声信号の検出状態を第一状態301に設定する。
次に、ステップS1403で音声検出部106は検出の対象となるフレームを設定する。
次に、ステップS1404で音声検出部106は音声入力部105に入力された音声信号の特徴量データを記憶する。
尚、特徴量データとは、音声認識部107が音声認識を行う場合に使用するデータである。
次に、ステップS1405で音声検出部106は音声の検出状態が第1の状態から第4の状態のいずれであるか判断する。
ステップS1405で音声検出部106が検出状態を第一状態301であると判断した場合、ステップS1406で、第1の検出として、音声検出部106は閾値TH1以上の音量を検出したか否か判断する。
閾値TH1以上の音量を検出した場合(ステップS1406においてYES)、ステップS1407で、音声検出部106は検出状態を第二状態302に遷移させる(このタイミングを第1の時刻とする)。
次に、ステップS1408で、撮像制御部123は撮像装置1603に撮像動作を実行させる信号を出力する。
尚、ステップS1408で出力された信号によって撮像された画像を画像Aとする。
次に、ステップS1409で、画像記憶制御部104は、第1の取得として、直前のステップS1408によって撮像された画像Aを表す画像データを格納装置(画像記憶用)1610に記憶させる信号を出力する。
次に、ステップS1410で、第1の記憶として、音声検出部106は処理中のフレームfを発声開始フレームFsとして記憶する。
次に、ステップS1403に戻り、音声検出部106は次の音声検出の対象となるフレームを設定する。
また、ステップS1406で閾値TH1以上の音量を検出しなかった場合(ステップS1406においてNO)、同様にステップS1403に戻り、音声検出部106は次の音声検出の対象となるフレームを設定する。
また、ステップS1405で音声検出部106が検出状態を第二状態302であると判断した場合、ステップS1411で、処理中のフレームfが発声開始フレームFsからM1回目のフレーム以上であるか否か判断する。
また、処理中のフレームfが発声開始フレームFsからM1回目のフレーム未満である場合(ステップS1411においてYES)、ステップS1413で音声検出部106が閾値TH1より大きい音量を検出したか否か判断する。
閾値TH1より大きい音量を検出しなかった場合(ステップS1413においてNO)、ステップS1414で音声検出部106はカウンタFaの値を初期化する。
次に、ステップS1403に戻り、音声検出部106は次の音声検出の対象となるフレームを設定する。
尚、カウンタFaとは、発声開始フレームFsを設定し直すか否か判定するために使用する。
また、閾値TH1より未満の音量を検出した場合(ステップS1413においてYES)、ステップS1415で音声検出部106はカウンタFaの値を1増やす。
次に、ステップS1416で音声検出部106はカウンタFaの値がN1以上であるか判断する。
カウンタFaの値がN1以上である場合(ステップS1416においてYES)、ステップS1417で画像記憶制御部104は格納装置(画像記憶用)1610に記憶された画像Aを表す画像データを消去するための信号を出力する。
尚、ステップS1417における処理は、音声認識後に画像データを消去する処理に対して、第2の消去に相当する。
次に、ステップS1418で、発声の開始を再検出する第1の再検出をおこなうために、音声検出部106は検出状態を第一状態301に遷移させる。
次に、ステップS1403に戻り、音声検出部106は次の音声検出の対象となるフレームを設定する。
また、カウンタFaの値がN1未満である場合(ステップS1416においてNO)、同様にステップS1403に戻り、音声検出部106は次の音声検出の対象となるフレームを設定する。
また、ステップS1411で処理中のフレームfが発声開始フレームFsからM1回目のフレーム以上である場合(ステップS1411においてNO)、ステップS1412で音声検出部106は検出状態を第三状態303に遷移させる。
また、ステップS1405で音声検出部106が検出状態を第三状態303であると判断した場合、ステップS1419で、第2の検出として、音声検出部106は閾値TH2以下の音量を検出したか否か判断する。
閾値TH2以下の音量を検出した場合(ステップS1419においてYES)、ステップS1420で、音声検出部106は検出状態を第四状態304に遷移させる(このタイミングを第2の時刻とする)。
次に、ステップS1421で、撮像制御部123は撮像装置1603に撮像動作を実行させるための信号を出力する。
尚、ステップS1421で出力された信号によって撮像された画像を画像Bとする。
次に、ステップS1422で、画像記憶制御部104は、第2の取得として、直前のステップS1421で撮像された画像Bを表す画像データを格納装置(画像記憶用)1610に記憶させる信号を出力する。
次に、ステップS1423で、第2の記憶として、音声検出部106は処理中のフレームfを発声終了フレームFeとして設定する。
次に、ステップS1403に戻り、音声検出部106は次の音声検出の対象となるフレームを設定する。
また、ステップS1419で閾値TH1以上の音量を検出なかった場合(ステップS1419においてNO)、同様にステップS1403に戻り、音声検出部106は次の音声検出の対象となるフレームを設定する。
また、ステップS1405で音声検出部106が検出状態を第四状態304であると判断した場合、ステップS1424で、処理中のフレームfが発声終了フレームFeからM2回目のフレーム以上であるか否か判断する。
また、処理中のフレームfが発声終了フレームFeからM2回目のフレーム未満である場合(ステップS1424においてYES)、ステップS1426で音声検出部106が閾値TH2より大きい音量を検出したか否か判断する。
閾値TH2より大きい音量を検出しなかった場合(ステップS1426においてNO)、ステップS1427で音声検出部106はカウンタFbの値を初期化する。
次に、ステップS1403に戻り、音声検出部106は音声検出の対象となるフレームを設定する。
尚、カウンタFbとは、発声終了フレームFeを設定し直すか否か判定するために使用する。
また、閾値TH2より大きい音量を検出した場合(ステップS1426においてYES)、ステップS1428で音声検出部106はカウンタFbの値を1増やす。
次に、ステップS1429で音声検出部106はカウンタFbの値がN2以上であるか判断する。
カウンタFbの値がN2以上である場合(ステップS1429においてYES)、ステップS1430で画像記憶制御部104は格納装置(画像記憶用)1610に記憶された画像Bを表す画像データを消去するための信号を出力する。
尚、ステップS1430における処理は、音声認識後に画像データを消去する処理に対して、第3の消去に相当する。
次に、ステップS1431で音声検出部106は、発声の終了を再検出する第2の再検出をおこなうために、検出状態を第三状態303に遷移させる。
次に、ステップS1403に戻り、音声検出部106は次の音声検出の対象となるフレームを設定する。
また、カウンタFbの値がN2未満である場合(ステップS1429においてNO)、同様にステップS1403に戻り、音声検出部106は次の音声検出の対象となるフレームを設定する。
また、ステップS1424で処理中のフレームfが発声開始フレームFeからM2回目のフレーム以上である場合(ステップS1424においてNO)、ステップS1425で音声検出部106は音声検出を終了する。
次に、図15のフローチャートを参照して説明する。
ステップS1532で音声認識部107はステップS1504で取得した各フレームの特徴量データと音声認識用データとに基づいて音声認識を行う。
次に、ステップS1533で音声認識部107による音声認識を終了する。
尚、ステップS1533の処理は、音声認識部107によって音声認識の結果が得られた後に実行する。
次に、ステップS1534で、認識結果処理部108は音声認識の結果が発声開始のタイミングで撮像を指示する内容であるか否か判断する。
発声開始のタイミングで撮像を指示する内容である場合(ステップS1534のYES)、ステップS1535で画像Bを消去するための信号を出力する。
発声開始のタイミングで撮像を指示する内容でない場合(ステップS1534のNO)、ステップS1536で、認識結果処理部108は音声認識の結果が発声終了のタイミングで撮像を指示する内容であるか否か判断する。
発声終了のタイミングで撮像を指示する内容である場合(ステップS1536のYES)、ステップS1537で画像Aを消去するための信号を出力する。
発声終了のタイミングで撮像を指示する内容でない場合(ステップS1536のNO)、ステップS1538で、画像A、画像Bを消去するための信号を出力する。
次に、ステップS1539で、認識結果処理部108は音声認識の結果が発声開始のタイミングから一定時間経過後に撮像を指示する内容であるか否か判断する。
発声開始から一定時間経過後に撮像を指示する内容である場合(ステップS1539のYES)、ステップS1540で一定時間経過後(このタイミングを第3の時刻とする)に、撮像制御部123は撮像装置1603に撮像動作を実行させるための信号を出力する。
尚、ステップS1540で出力された信号によって撮像された画像を画像Cとする。
次に、ステップS1541で、画像記憶制御部104は、第3の保持として、直前のステップS1540で撮像された画像Cを表す画像データを格納装置(画像記憶用)1610に記憶させる信号を出力して、処理を終了する。
また、発声開始のタイミングから一定時間経過後に撮像を指示する意味内容でない場合(ステップS1439のNO)、処理を終了する。
このような構成とすることで、発声区間に対して、第1の関係である発声開始のタイミングで撮像された第1の画像(画像A)と、第2の関係である発声終了のタイミングで撮像された第2の画像(画像B)とを得ることができる。
また、発声区間に対して、第3の関係である発声終了から一定時間のタイミングで撮像された第3の画像(画像C)を得ることができる。
さらに、音声区間の音声の意味内容に応じて、複数の画像からユーザが所望するタイミングで撮像された画像を選択することができる。
また、このような構成とすることで、本実施形態の情報処理装置1600と、外部機器とを連動させて、ユーザが欲するタイミングで撮像された画像を効率良く取得することができる。
また、本実施形態の情報処理装置1600によると、断続的に音声が入力された場合にも、1つのコマンドとして認識することが可能であるため、発声区間が長くなるような言葉をコマンドとして利用した場合にも認識の誤りが軽減される。
(プログラムCLのサポート)
尚、本発明の目的は、前述した実施の形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータがプログラムコードを読み出し実行することによっても達成される。
尚、コンピュータは、CPU、MPU等であってもよい。
この場合、記憶媒体から読み出されたコンピュータ読み取り可能なプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。
プログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク,ハードディスク,光ディスク,光磁気ディスク,CD−ROM,CD−R,磁気テープ,不揮発性のメモリカード,ROM等を用いることができる。
また、コンピュータが読出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、OS(オペレーティングシステム)等が実際の処理の一部または全部を行ってもよい。
尚、この処理によって前述した実施形態の機能が実現される場合も含まれる。
尚、OSはコンピュータ上で稼働している。
また、まず記憶媒体から読出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれる。
その後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPU等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれる。
本発明の第1の実施形態に係る情報処理装置の構成の一例を示す機能ブロック図である。 本発明の第1の実施形態で想定されるデジタルカメラの外観を示す図である。 音声検出部106が判定した認識状態の一例を示す図である。 音声検出部106の動作の一例を示す概念図である。 音声検出部106における処理動作を示すフローチャートである。 音声によって撮像を指示する場合のデジタルカメラ200における処理の一例を示す第一のフローチャートである。 音声によって撮像を指示する場合のデジタルカメラ200における処理の一例を示す第二のフローチャートである。 音声によって撮像を指示する場合のデジタルカメラ200における処理の一例を示す第三のフローチャートである。 本発明の第1の実施形態で利用する音声認識文法の一例を示す図である。 認識結果制御テーブルの一例を示す図である。 本発明の第1の実施形態に係るデジタルカメラ200を利用して、“Shoot”という音声指示で撮像する場合の動作を示す図である。 本発明の第1の実施形態に係るデジタルカメラ200を利用して、“Cheese”という音声指示で撮像する場合の動作を示す図である。 発声開始を検出した時点でのみ撮像する場合のフローチャートである。 情報処理装置1600における処理動作の一例を示した第1のフローチャートである。 情報処理装置1600における処理動作の一例を示した第2のフローチャートである。 本発明の第2の実施形態に係る情報処理装置1600の構成の一例を示す機能ブロック図である。 音声検出部106が判定した認識状態と撮像部103、画像記憶制御部104の動作の一例を示す図である。
符号の説明
101 制御部
104 画像記憶制御部
105 音声入力部
106 音声検出部
107 音声認識部
108 認識結果処理部
109 表示制御部
122 操作制御部
123 撮像制御部

Claims (14)

  1. 情報処理装置が行う情報処理方法であって、
    第1の検出手段が、予め設定された基準を満たす音の開始を検出する第1の検出工程と、
    第1の取得手段が、前記開始の検出に応答して第1の画像データを取得する第1の取得工程と、
    第1の記憶手段が、前記第1の画像データをメモリに記憶する第1の記憶工程と、
    第2の検出手段が、前記音の終了を検出する第2の検出工程と、
    第2の取得手段が、前記終了の検出に応答して第2の画像データを取得する第2の取得工程と、
    第2の記憶手段が、前記第2の画像データを前記メモリに記憶する第2の記憶工程と、
    決定手段が、前記音に含まれる意味に応じて、前記第1の画像データまたは前記第2の画像データのいずれかを保存する対象のデータとして決定する決定工程とを有することを特徴とする情報処理方法。
  2. 情報処理装置が行う情報処理方法であって、
    第1の検出手段が、予め設定された基準を満たす音の開始を検出する第1の検出工程と、
    第2の検出手段が、前記音の終了を検出する第2の検出工程と、
    取得手段が、前記開始または前記終了の検出に応答して画像データを取得する取得工程と、
    記憶手段が、前記取得工程で取得した前記画像データをメモリに記憶する記憶工程と、
    決定手段が、前記音に含まれる意味に応じて、前記メモリに記憶した前記画像データを保存する対象のデータとして決定する決定工程とを有することを特徴とする情報処理方法。
  3. 更に、消去手段が、前記決定工程で、保存する対象のデータとして決定されなかった画像データを前記メモリから消去する消去工程を有することを特徴とする請求項1または請求項2に記載の情報処理方法。
  4. 更に、保存手段が、前記保存する対象のデータとして決定された前記画像データを第2のメモリに保存する保存工程を有することを特徴とする請求項1乃至請求項3のいずれか1項に記載の情報処理方法。
  5. 前記画像を取得する工程は、前記開始を検出した時点または前記終了を検出した時点に実行されることを特徴とする請求項1乃至請求項4のいずれか1項に記載の情報処理方法。
  6. 前記開始を検出した時点で画像データを取得し、前記開始を検出した時点から前記音が予め設定された時間継続しなかった場合、更に、前記メモリから取得した前記画像データを消去する第2の消去工程と、
    前記第2の消去工程に続いて、前記第1の検出工程に相当する、第1の再検出工程とを実行することを特徴とする請求項1乃至請求項5のいずれか1項に記載の情報処理方法。
  7. 前記終了を検出した時点で画像データを取得し、前記終了を検出した時点から予め設定された時間に再び予め設定した基準を満たす音を検出した場合、更に、前記メモリか取得したら前記画像データを消去する第3の消去工程と、
    前記第3の消去工程に続いて、前記第2の検出工程に相当する、第2の再検出工程とを実行することを特徴とする請求項1乃至請求項6のいずれか1項に記載の情報処理方法。
  8. 前記画像を取得する工程は、前記開始を検出した時点から予め設定した遅延時間が経過した時点または前記終了を検出した時点から予め設定した遅延時間が経過した時点に実行されることを特徴とする請求項1乃至請求項7のいずれか1項に記載の情報処理方法。
  9. 前記予め設定された基準とは、一定以上の音量を有するか否かであることを特徴とする請求項1乃至請求項8のいずれか1項に記載の情報処理方法。
  10. 前記音を音声認識することによって前記意味を特定することを特徴とする請求項1乃至請求項9のいずれか1項に記載の情報処理方法。
  11. 予め設定された基準を満たす音の開始を検出する第1の検出手段と、
    前記開始の検出に応答して第1の画像データを取得する第1の取得手段と、
    前記第1の画像データをメモリに記憶する第1の記憶手段と、
    前記音の終了を検出する第2の検出手段と、
    前記終了の検出に応答して第2の画像データを取得する第2の取得手段と、
    前記第2の画像データを前記メモリに記憶する第2の記憶手段と、
    前記音に含まれる意味に応じて、前記第1の画像データまたは前記第2の画像データのいずれかを保存する対象のデータとして決定する決定手段とを有することを特徴とする情報処理装置。
  12. 予め設定された基準を満たす音の開始を検出する第1の検出手段と、
    前記音の終了を検出する第2の検出手段と、
    前記開始または前記終了の検出に応答して画像データを取得する取得手段と、
    前記取得手段で取得した前記画像データをメモリに記憶する記憶手段と、
    前記音に含まれる意味に応じて、前記メモリに記憶した前記画像データを保存する対象のデータとして決定する決定手段とを有することを特徴とする情報処理装置
  13. コンピュータを、請求項11又は請求項12に記載の情報処理装置が有する各手段として機能させるためのプログラム
  14. 請求項13に記載のプログラムを記憶したコンピュータ読み取り可能な記憶媒体。
JP2008194800A 2008-07-29 2008-07-29 情報処理方法、情報処理装置、プログラムおよび記憶媒体 Expired - Fee Related JP5053950B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2008194800A JP5053950B2 (ja) 2008-07-29 2008-07-29 情報処理方法、情報処理装置、プログラムおよび記憶媒体
US12/509,067 US8564681B2 (en) 2008-07-29 2009-07-24 Method, apparatus, and computer-readable storage medium for capturing an image in response to a sound
CN2009101622203A CN101640042B (zh) 2008-07-29 2009-07-29 信息处理方法和信息处理设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008194800A JP5053950B2 (ja) 2008-07-29 2008-07-29 情報処理方法、情報処理装置、プログラムおよび記憶媒体

Publications (3)

Publication Number Publication Date
JP2010034841A JP2010034841A (ja) 2010-02-12
JP2010034841A5 JP2010034841A5 (ja) 2011-08-25
JP5053950B2 true JP5053950B2 (ja) 2012-10-24

Family

ID=41607921

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008194800A Expired - Fee Related JP5053950B2 (ja) 2008-07-29 2008-07-29 情報処理方法、情報処理装置、プログラムおよび記憶媒体

Country Status (3)

Country Link
US (1) US8564681B2 (ja)
JP (1) JP5053950B2 (ja)
CN (1) CN101640042B (ja)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
USD609714S1 (en) * 2007-03-22 2010-02-09 Fujifilm Corporation Electronic camera
US20140025385A1 (en) * 2010-12-30 2014-01-23 Nokia Corporation Method, Apparatus and Computer Program Product for Emotion Detection
JP2013128183A (ja) * 2011-12-16 2013-06-27 Samsung Electronics Co Ltd 撮像装置及び撮像方法
US9113056B2 (en) * 2012-01-06 2015-08-18 Asahi Kasei Kabushiki Kaisha Image capturing apparatus and information processing apparatus
CN103383594B (zh) * 2012-05-04 2018-01-05 富泰华工业(深圳)有限公司 电子设备及其控制方法
KR20130133629A (ko) 2012-05-29 2013-12-09 삼성전자주식회사 전자장치에서 음성명령을 실행시키기 위한 장치 및 방법
CN103578468B (zh) * 2012-08-01 2017-06-27 联想(北京)有限公司 一种语音识别中置信度阈值的调整方法及电子设备
US9785314B2 (en) * 2012-08-02 2017-10-10 Facebook, Inc. Systems and methods for displaying an animation to confirm designation of an image for sharing
JP2014086849A (ja) * 2012-10-23 2014-05-12 Sony Corp コンテンツ取得装置及びプログラム
KR101990037B1 (ko) * 2012-11-13 2019-06-18 엘지전자 주식회사 이동 단말기 및 그것의 제어 방법
KR20140075997A (ko) * 2012-12-12 2014-06-20 엘지전자 주식회사 이동 단말기 및 이동 단말기의 제어 방법
US20140247368A1 (en) * 2013-03-04 2014-09-04 Colby Labs, Llc Ready click camera control
US20150290031A1 (en) * 2013-05-16 2015-10-15 Wavelight Gmbh Touchless user interface for ophthalmic devices
KR20150030082A (ko) * 2013-09-11 2015-03-19 엘지전자 주식회사 이동 단말기 및 그 제어방법
US10776419B2 (en) * 2014-05-16 2020-09-15 Gracenote Digital Ventures, Llc Audio file quality and accuracy assessment
US9854139B2 (en) * 2014-06-24 2017-12-26 Sony Mobile Communications Inc. Lifelog camera and method of controlling same using voice triggers
JP6290827B2 (ja) * 2015-06-05 2018-03-07 リウ チン フォンChing−Feng LIU オーディオ信号を処理する方法及び補聴器システム
CN105072332B (zh) * 2015-07-20 2018-09-14 魅族科技(中国)有限公司 一种拍照方法及终端
JP6634755B2 (ja) * 2015-09-18 2020-01-22 カシオ計算機株式会社 電子機器、システム、保存制御方法及びプログラム
US10083685B2 (en) * 2015-10-13 2018-09-25 GM Global Technology Operations LLC Dynamically adding or removing functionality to speech recognition systems
CN106100771B (zh) * 2016-06-16 2018-07-03 苏州科达科技股份有限公司 一种双向时延检测方法及装置
WO2018084576A1 (en) * 2016-11-03 2018-05-11 Samsung Electronics Co., Ltd. Electronic device and controlling method thereof
CN110033502B (zh) * 2018-01-10 2020-11-13 Oppo广东移动通信有限公司 视频制作方法、装置、存储介质及电子设备
TWI672690B (zh) * 2018-03-21 2019-09-21 塞席爾商元鼎音訊股份有限公司 人工智慧語音互動之方法、電腦程式產品及其近端電子裝置
CN113129893B (zh) * 2019-12-30 2022-09-02 Oppo(重庆)智能科技有限公司 一种语音识别方法、装置、设备及存储介质
GB2600093A (en) * 2020-10-14 2022-04-27 Daimler Ag A method for capturing an image of the surroundings of a motor vehicle by an assistance system of the motor vehicle
CN112908297B (zh) * 2020-12-22 2022-07-08 北京百度网讯科技有限公司 车载设备的响应速度测试方法、装置、设备及存储介质
CN113645429B (zh) * 2021-08-23 2023-03-21 联想(北京)有限公司 一种视频获取方法及电子设备

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5027149A (en) * 1988-01-28 1991-06-25 Konica Corporation Voice-recognition camera
JPH06313838A (ja) * 1993-04-28 1994-11-08 Nikon Corp 音声入力カメラ
US5737491A (en) * 1996-06-28 1998-04-07 Eastman Kodak Company Electronic imaging system capable of image capture, local wireless transmission and voice recognition
JPH11194392A (ja) 1998-01-05 1999-07-21 Sony Corp 自動焦点カメラ
US6289140B1 (en) * 1998-02-19 2001-09-11 Hewlett-Packard Company Voice control input for portable capture devices
FR2783625B1 (fr) * 1998-09-21 2000-10-13 Thomson Multimedia Sa Systeme comprenant un appareil telecommande et un dispositif de telecommande vocale de l'appareil
US7038715B1 (en) * 1999-01-19 2006-05-02 Texas Instruments Incorporated Digital still camera with high-quality portrait mode
DE10163214A1 (de) * 2001-12-21 2003-07-10 Philips Intellectual Property Verfahren und Steuersystem zur Sprachsteuerung eines Gerätes
KR100770637B1 (ko) 2002-12-12 2007-10-29 후지필름 가부시키가이샤 디지털 카메라
US20050018057A1 (en) * 2003-07-25 2005-01-27 Bronstein Kenneth H. Image capture device loaded with image metadata
GB2405948B (en) * 2003-09-12 2006-06-28 Canon Res Ct Europ Ltd Voice activated device
US20050118990A1 (en) * 2003-12-02 2005-06-02 Sony Ericsson Mobile Communications Ab Method for audible control of a camera
JP4429081B2 (ja) * 2004-06-01 2010-03-10 キヤノン株式会社 情報処理装置及び情報処理方法
JP4904691B2 (ja) 2004-12-28 2012-03-28 カシオ計算機株式会社 カメラ装置、及び撮影方法
JP2006287749A (ja) * 2005-04-01 2006-10-19 Canon Inc 撮像装置、及びその制御方法
US7792678B2 (en) * 2006-02-13 2010-09-07 Hon Hai Precision Industry Co., Ltd. Method and device for enhancing accuracy of voice control with image characteristic
US8207936B2 (en) * 2006-06-30 2012-06-26 Sony Ericsson Mobile Communications Ab Voice remote control
US8502876B2 (en) * 2006-09-12 2013-08-06 Storz Endoskop Producktions GmbH Audio, visual and device data capturing system with real-time speech recognition command and control system
US7995106B2 (en) * 2007-03-05 2011-08-09 Fujifilm Corporation Imaging apparatus with human extraction and voice analysis and control method thereof
US20090262205A1 (en) * 2008-04-21 2009-10-22 Dana Stephen Smith Voice activated headset imaging system
JP5117280B2 (ja) * 2008-05-22 2013-01-16 富士フイルム株式会社 撮像装置、撮像方法、再生装置および再生方法

Also Published As

Publication number Publication date
JP2010034841A (ja) 2010-02-12
CN101640042B (zh) 2013-03-13
US8564681B2 (en) 2013-10-22
CN101640042A (zh) 2010-02-03
US20100026815A1 (en) 2010-02-04

Similar Documents

Publication Publication Date Title
JP5053950B2 (ja) 情報処理方法、情報処理装置、プログラムおよび記憶媒体
JP4896838B2 (ja) 撮像装置、画像検出装置及びプログラム
JP6230726B2 (ja) 音声認識装置および音声認識方法
CN108573701B (zh) 基于唇部检测的查询端点化
JP5247384B2 (ja) 撮像装置、情報処理方法、プログラムおよび記憶媒体
EP2428951A2 (en) Method and apparatus for performing microphone beamforming
US20100238323A1 (en) Voice-controlled image editing
US9792901B1 (en) Multiple-source speech dialog input
JP6844608B2 (ja) 音声処理装置および音声処理方法
JP2013545133A (ja) 録音の終了点自動検出のための方法及びシステム
JP4968346B2 (ja) 撮像装置、画像検出装置及びプログラム
JP7533472B2 (ja) 情報処理装置、及びコマンド処理方法
US20090122157A1 (en) Information processing apparatus, information processing method, and computer-readable storage medium
JP2006279111A (ja) 情報処理装置、情報処理方法およびプログラム
KR101590053B1 (ko) 음성 인식을 이용한 비상벨 장치, 이의 작동 방법 및 이 방법이 기록된 컴퓨터 판독 가능한 기록매체
JP2014122978A (ja) 撮像装置、音声認識方法、及びプログラム
US12051412B2 (en) Control device, system, and control method
JP2006184589A (ja) カメラ装置、及び撮影方法
CN104079822B (zh) 摄像装置、信号处理装置及方法
JP5279420B2 (ja) 情報処理装置及び情報処理方法及びプログラム及び記憶媒体
WO2023286775A1 (ja) 音声認識装置、音声認識方法、音声認識プログラム、撮像装置
JP7222265B2 (ja) 音声区間検出装置、音声区間検出方法及びプログラム
US20240107226A1 (en) Image pickup apparatus capable of efficiently retrieving subject generating specific sound from image, control method for image pickup apparatus, and storage medium
KR100873920B1 (ko) 화상 분석을 이용한 음성 인식 방법 및 장치
JPWO2023286775A5 (ja)

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20100201

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20100630

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110712

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110712

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120613

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120626

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120726

R151 Written notification of patent or utility model registration

Ref document number: 5053950

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150803

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees