JP5053950B2 - 情報処理方法、情報処理装置、プログラムおよび記憶媒体 - Google Patents
情報処理方法、情報処理装置、プログラムおよび記憶媒体 Download PDFInfo
- Publication number
- JP5053950B2 JP5053950B2 JP2008194800A JP2008194800A JP5053950B2 JP 5053950 B2 JP5053950 B2 JP 5053950B2 JP 2008194800 A JP2008194800 A JP 2008194800A JP 2008194800 A JP2008194800 A JP 2008194800A JP 5053950 B2 JP5053950 B2 JP 5053950B2
- Authority
- JP
- Japan
- Prior art keywords
- image data
- utterance
- sound
- image
- detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000003860 storage Methods 0.000 title claims description 150
- 230000010365 information processing Effects 0.000 title claims description 34
- 238000003672 processing method Methods 0.000 title claims description 14
- 238000001514 detection method Methods 0.000 claims description 186
- 238000000034 method Methods 0.000 claims description 59
- 230000008569 process Effects 0.000 claims description 52
- 230000004044 response Effects 0.000 claims description 11
- 238000003384 imaging method Methods 0.000 description 119
- 230000007704 transition Effects 0.000 description 50
- 230000006870 function Effects 0.000 description 32
- 235000013351 cheese Nutrition 0.000 description 26
- 230000005236 sound signal Effects 0.000 description 20
- 238000010586 diagram Methods 0.000 description 14
- 230000008859 change Effects 0.000 description 9
- 230000004048 modification Effects 0.000 description 8
- 238000012986 modification Methods 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 3
- 238000003825 pressing Methods 0.000 description 3
- 238000012790 confirmation Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005401 electroluminescence Methods 0.000 description 2
- 240000002129 Malva sylvestris Species 0.000 description 1
- 235000006770 Malva sylvestris Nutrition 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007257 malfunction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005375 photometry Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G03—PHOTOGRAPHY; CINEMATOGRAPHY; ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ELECTROGRAPHY; HOLOGRAPHY
- G03B—APPARATUS OR ARRANGEMENTS FOR TAKING PHOTOGRAPHS OR FOR PROJECTING OR VIEWING THEM; APPARATUS OR ARRANGEMENTS EMPLOYING ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ACCESSORIES THEREFOR
- G03B17/00—Details of cameras or camera bodies; Accessories therefor
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Studio Devices (AREA)
- Details Of Cameras Including Film Mechanisms (AREA)
- Television Signal Processing For Recording (AREA)
Description
図1は第1の実施形態に係る情報処理装置の構成の一例であるデジタルカメラを示す機能ブロック図である。
制御部101は、操作部102、撮像部103、メモリ(画像記憶用)110、記憶媒体(画像記憶用)111、マイク112、メモリ(音声認識データ用)113、メモリ(認識結果制御テーブル用)114、ディスプレイ115の動作を制御する。
操作部102は、ユーザがデジタルカメラ200を手動で操作するため部分である。
尚、操作部102は、ボタン、スイッチ等によって構成される。
尚、撮像部103は、レンズ、撮像センサ等によって構成される。
尚、マイク112は、周知のモノラルマイク、ステレオマイク等である。
メモリ(認識結果制御テーブル用)114は、認識結果制御テーブルを格納する。また、メモリ(認識結果制御テーブル用)114は、不揮発性メモリである。
尚、本実施形態に利用する認識結果制御テーブルの一例は後述する。
図2は、本実施形態で想定されるデジタルカメラの外観を示す図である。尚、図2(A)はデジタルカメラ200の前面の外観、図2(B)はデジタルカメラ200の背面の外観である。
201は、撮像を指示するための操作に用いるシャッターボタンである。
202は、音声指示によって撮像動作を実行する機能を使用するか否かを切り替える音声シャッター切替えスイッチである。
203は、回転することにより、デジタルカメラ200の動作モードを周知の撮影モード、再生モード等に切り替えるモードダイアルである。
204は、上下左右の任意方向の指示を入力する四方向選択ボタンである。
205は、各種の操作の確定を指示する決定ボタンである。
206は、デジタルカメラ200の電源のON/OFFを切り替えるための電源ボタンである。
207は、音声入力の開始および終了を指示する手動操作に用いる録音ボタンである。
次に、音声検出部106の機能の詳細を説明する。
図3は、音声検出部106によって判定された検出状態の一例を示す図である。
第一状態301は、音の入力を開始した直後の状態、すなわち音声信号を検出していない状態(以下、SILENCEとする)とする。
第二状態302は、所定の基準を満たす音の開始を検出し、音の開始の検出を確定していない状態(以下、POSSIBLE SPEECHとする)とする。
第三状態303は、所定の基準を満たす音の開始が確定した状態(以下、SPEECHとする)とする。
第四状態304は、音の入力を終了した直後の状態、すなわち音の開始の検出を確定していない状態(以下、POSSIBLE SILENCEとする)とする。
第一状態301において、音の開始(マイク112からの所定の基準を満たす音の入力の開始)を検出すると第二状態302に遷移する(305)。
第二状態302において、音の開始を取り消すと第一状態301に遷移する(306)。
また、第二状態302において、音の開始を確定すると第三状態303に遷移する(307)。
第三状態303において、音の終了(マイク112からの所定の基準を満たす音の入力の終了)を検出すると第四状態304に遷移する(308)。
第四状態304において、音の終了を取り消すと第三状態303に遷移する(309)。
また、第四状態304において、所定の基準を満たす音の終了を確定すると音の検出を終了する(310)。
第四状態304から所定の基準を満たす音の終了を確定すると音の検出を終了させることで、後述する音声認識の処理の際に、音声検出の処理による計算資源、電力等の消費を抑えることが可能となる。
第四状態304から第一状態301に遷移させることで、続けて次の発声を検出することが可能となる。
図4は、音声検出部106による処理の一例を示す概念図である。
また、音声信号のうち421に示した区間の音声信号はユーザの発声ではなく雑音を検出したものである。
また、音声信号のうち422に示した区間の音声信号はユーザが“Shoot”と発声した音を検出したものである。
図4において、401は音声信号420から周知の方法で求めた音量(E(t))、402が発声開始を検出するための閾値(TH1)、403が発声終了を検出するための閾値(TH2)である。
また、発声開始の検出と発声終了の検出に同じ閾値を用いてもよい(TH1=TH2)。
また、発声開始の検出条件(E(t)≧TH1)となるフレームが所定数検出された場合に発声開始を確定する。
また、第二状態302に遷移してからのフレームがD1回検出される前に、音量がE(t)<TH1となった場合、第一状態301に遷移する。
尚、第四状態304から第三状態303に遷移する処理は発声終了を取り消す処理に相当する。
音声入力開始後は第一状態301である。
続いて、時点t2を始点とするフレームでは、第二状態302に遷移してからのフレーム数がD1回となる前に音量401が閾値TH1未満となるので発声開始を取り消し(405)、第一状態301に遷移する。
続いて、時点t3を始点とするフレームでは、再び音量401が閾値TH1以上になるので発声開始を検出(406)して、第二状態302に遷移する。
続く時点t6を始点とするフレームにおいて音量401が閾値TH2以上となるので発声終了を取り消し(409)、第三状態303に遷移する。
続く時点t7を始点とするフレームで再び音量401が閾値TH2未満となるので発声終了を検出(410)して第四状態304に遷移する。
図5は、音声検出部106による処理動作を示すフローチャートである。
ステップS501で、発声開始を検出した時にフレーム番号を初期化する。
即ち、音声検出部106はフレーム単位に処理を行う際に、当該フレーム毎に音量を計算する。
尚、音量は例えば、対数パワー等信号強度に係る値を周知の方法で音声信号から算出する。
E(t)=log{Σ(x(t,i)^2)/N} (1≦i≦N)・・・(数1)
ここで、Nはフレームあたりの音声信号のサンプル数、iはフレーム内の音声サンプルのインデックスである。
また、x(t,i)^2はx(t,i)の2乗を意味する。
次に、ステップS502で、第一状態301における処理を開始する。
音量E(t)がTH1以上の場合(ステップS503においてYES)、ステップS505で第二状態302に遷移する。
音量E(t)がTH1未満の場合(ステップS503においてNO)、次のフレームの処理(ステップS504)を繰り返す。
音量E(t)がTH1未満の場合(ステップS507においてYES)、第一状態301に遷移する。
音量E(t)がTH1以上の場合(ステップS507においてNO)、ステップS508で、第二状態302に遷移してからのフレーム数がD1回未満であるか判断する。
音量E(t)がTH2未満の場合(ステップS512においてYES)、ステップS514で第四状態304に遷移する。
音量E(t)がTH2以上の場合(ステップS512においてNO)、ステップS513で次のフレームの処理を行う。
音量E(t)が閾値TH2以上の場合(ステップS516においてYES)、第三状態303に遷移する。
音量E(t)がTH2未満の場合(ステップS516においてNO)、ステップS517で第四状態304に遷移してからのフレーム数がD2回未満であるか判断する。
音声の検出を終了する場合(ステップS519においてYES)、ステップS520で音声の検出を終了する。
音声検出を終了しない場合(ステップS519においてNO)、次の発声の検出に備える場合は第一状態301に遷移する。
図17は、音声検出部106、撮像制御部123、画像記憶制御部104の処理の一例を示す図である。
尚、図3と共通の要素には同一符号を付し、その説明を省略する。
尚、発声開始を検出した場合(305)とは、図5のステップS503のYESと判断された場合に相当する。
尚、発声終了を検出した場合(308)とは、図5のステップS512のYESと判断された場合に相当する。
図9は、本実施形態で利用する音声認識文法の一例を示す図である。
認識結果制御テーブルは、認識結果に対応する撮像、測光、ストロボ発光等の処理を記述したテーブル形式のデータであり、認識結果処理部108が認識結果に対応するカメラ制御を決定する際に参照する。
図10において、1000は認識結果処理データである。
910に認識に利用するコマンドが記述されており、1002に910のコマンドに対応するデジタルカメラ200の制御内容が記述されている。
図6〜図8は、音声によって撮像を指示する場合のデジタルカメラ200における処理の一例を示すフローチャートである。
発声開始を取り消す場合(ステップS607においてYES)、ステップS608で画像記憶制御部104はメモリ110に記憶した画像Aを消去する。
発声開始を取り消さない場合(ステップS607においてNO)、ステップS609で音声検出部106は発声開始を確定したか否か判断する。
発声開始を確定した場合(ステップS609のYES)、ステップS610で音声認識部107が音声認識処理を開始する。
発声開始を確定しなかった場合(ステップS609のNO)、発声開始を取り消すか否かの判定を繰り返す。
ステップS711で、音声検出部106は発声終了を検出したか否か判断する。
尚、ステップS712で撮像した画像、即ち音声検出部106が発声終了を検出した時点で撮像した画像を画像Bとする。
尚、一般に「はい、ちーず(Say Cheese)」等の掛け声をかけてに、その発声が終了した後(「ず」を発声した後)に一拍(例えば、0.5秒間)遅延して撮像する場合がある。
認識されたコマンドが発声開始時点で撮像を指示する語(“Shoot”または“Go”)でない場合(ステップS822においてNO)、ステップS826で、発声終了時点で撮像を指示する語(“チーズ(Cheese)”)であるか否か判断する。
認識されたコマンドが発声終了時点で撮像を指示する語(“Cheese”)の場合(ステップS826においてYES)、ステップS827で画像記憶制御部104が画像Bの画像データを記憶媒体(画像記憶用)111に保存する。
図11は本実施形態に係るデジタルカメラ200を利用して、“Shoot”という音声指示で撮像する場合の動作示す図である。
1110は音声入力部105がA/D変換した音声信号である。
1111はユーザが“Shoot”と発声した区間の音声信号(音声波形)である。
1120は音声信号1110に対応する音量の変化を示す。
1121は音声検出部106で用いる発声開始検出用の閾値(TH1)、1122は発声終了検出用の閾値(TH2)である。
1130は、音声検出部106が認識した状態の変化を視覚的に示したものである。
1140はデジタルカメラ200の動作の内容を示している。
音量1120が閾値TH1以上になる時点t1を始点とするフレームで音声検出部106が発声開始を検出する。これは、上述した所定の基準(開始条件)を満たした音を検出する工程に相当する。
この時、音声検出部106は第一状態301から第二状態302に遷移させる処理を実行する(1130の時点t1の部分)。
発声開始を検出した時点で撮像部103が同時点の被写体(IMG003)を撮像し、続いて、画像記憶制御部104が撮像した画像の画像データをメモリ(画像記憶用)110に記憶する(以上、1141)。
音声検出部106は、発声開始を検出した時点t1を始点とするフレームからD1番目のフレームである時点t2を始点とするフレームで発声開始を確定する。
同時に、音声認識部107による音声認識の処理を開始する(以上1142)。
この時、音声検出部106は、第二状態302から第三状態303に遷移させる処理を実行する(1130の時点t2の部分)。
続いて、音量1120が閾値TH2未満になる時点t3を始点とするフレームで音声検出部106が発声終了を検出する。これは、上述した所定の基準(終了条件)を満たした音を検出する。
この時、音声検出部106は、第三状態303から第四状態304へ遷移させる処理を実行する(1130の時点t3の部分)。
音声検出部106が発声終了を検出した時点t3で、撮像部103がこの時点の被写体(IMG005)を撮像し、続いて画像記憶制御部104が撮像した画像を撮像した画像の画像データをメモリ(画像記憶用)110に記憶する(以上、1143)。
音声検出部106が発声終了を検出した時点t3を始点とするフレームからD2番目のフレームとなる前の、時点t4を始点とするフレームで音量1120が閾値TH2以上になると、音声検出部106は発声終了を取り消す。
この時、音声検出部106は第四状態304から第三状態303に遷移させる処理を実行する(1130の時点t4の部分)。
発声終了が取り消された時点t4で、画像記憶制御部104は発声終了を検出した時点t3で撮像した画像IMG005の画像データをメモリ(画像記憶用)110から消去する(以上、1144)。
続く時点t5を始点とするフレームで音量1120が閾値TH2未満になるので、音声検出部106が発声終了を検出する。
この時、音声検出部106は第三状態303から第四状態304に遷移させる処理を実行する(1130の時点t5の部分)。
また、撮像部103はこの時点t5の被写体(IMG006)を撮像し、画像記憶制御部104が撮像した画像の画像データをメモリ(画像記憶用)110に記憶する(以上1145)。
発声終了を検出した時点t5を始点とするフレームから、音量1120が閾値TH2以上になることなくD2番目のフレームである時点t6を始点とするフレームで、音声検出部106は発声の終了を確定する(1146)。
この時、前述したように、音声検出部106は第四状態304から第1状態に遷移させる処理を実行してもよく、音声検出部106は状態を遷移させる処理を終了させてもよい。
その後、音声認識部107の処理が終了した時点t7で認識結果処理部108がデジタルカメラ200の制御方法を決定する。
ここで“Shoot”が認識結果として得られた場合は、認識結果制御テーブルを参照して“Shoot”に対応する処理を決定する。
図10に示したように“Shoot”は発声の開始を検出した時点での撮像動作と対応付けられたコマンドである。
認識結果処理部108の決定にしたがって、画像記憶制御部104が発声開始を検出した時点t1で撮像した画像(IMG003)の画像データを画像記憶媒体111に保存する。
同時に、画像記憶制御部104は発声終了時点で撮像した画像(IMG006)を保存せずにメモリ(画像記憶用)110から消去する。
図12は、本実施形態に係るデジタルカメラ200を利用して、“チーズ(Cheese)”という音声指示で撮像する場合の動作を示す図である。
1211はユーザの発声前に混入した雑音を検知した区間であり、1212はユーザが発した“Cheese”という音声を検知した区間である。
1221は音声検出部106で用いる発声区間を検出するための閾値(TH1)である。
時点t1を始点とするフレームで音声検出部106が発声開始を検出すると、撮像部103が時点t1を始点とするフレームに対応する被写体1202(IMG002)を撮像する。また、画像記憶制御部104が撮像した画像の画像データをメモリ(画像記憶用)110に一時的に記憶する(1241)。
時点t2を始点とするフレームで、発声開始を検出してからのフレーム数がD1回となる前に音量が閾値TH1未満になるため、音声検出部106が発声開始を取り消す。
この時、画像記憶制御部104が1241で撮像したIMG002を消去する。
時点t3を始点とするフレームで音声検出部106が再び発声開始を検出すると、撮像部103が時点t3を始点とするフレームに対応する被写体1203(IMG003)を撮像する。また、画像記憶制御部104が撮像した画像の画像データをメモリ(画像記憶用)110に一時的に記憶する(1243)。
時点t4を始点とするフレームで音声検出部106が発声開始を確定すると、音声認識部107が音声認識の処理を開始する(1244)。
時点t5を始点とするフレームで音声検出部150が発声終了を検出すると、撮像部103が時点t5始点とするフレームに対応する被写体の画像1205(IMG005)を撮像する。また、続いて画像記憶制御部104が撮像した画像の画像データをメモリ(画像記憶用)110に一時的に記憶する(1245)。
時点t6を始点とするフレームで音声検出部106が発声終了を確定する(1246)。
発声終了確定後、音声認識部107による音声認識処理が終了する時点t7で、認識結果処理部108が得られた認識結果に基づいてカメラの制御を決定する。
尚、図10に示したように“Cheese”は発声の終了を検知した時点での撮像動作と対応付けられたコマンドである。
したがって、画像記憶制御部104は、発声終了を検出した時点t5で撮像した画像(IMG005)の画像データを画像記憶媒体111に保存し、発声開始を検出した時点t3で撮像した画像(IMG003)の画像データは保存せずに消去する。
また、“Cheese”(または、“Say Cheese”)と発声した場合、発声後に撮影するため、集合写真や記念写真等、被写体に撮影タイミングを伝えて撮影する場合に好適である。
また“Five Four Three”と発声した場合、発声を開始してから一定時間後(すなわち、“Two One Zero”が発声されるべき時間後)の所望のタイミングで撮像された画像を得ることができる。
本実施形態においては、発声の開始を検出したタイミングさ撮像するか、発声の終了を検出したタイミングで撮像するようにしてもよい。
図13に発声開始を検出した時点でのみ撮像する場合のフローチャートを示す。
図13に示したフローチャートは図6〜図8で説明した処理と異なるフローチャートになるステップS811以降の処理のみ示している。
図13のフローチャートでは、図7のフローチャートで行っていた、発声終了を検出した時に撮像する処理(ステップS712、ステップS713)および撮像した画像を消去する処理(ステップS714)は行わない。
また図13のフローチャートでは、図8のフローチャートで行っていた、発声終了時に撮像を指示する語を認識した場合の認識結果処理部108が行う処理(ステップS826,ステップS827、ステップS828)を行わない。
本実施形態では、認識結果によって発声の開始を検出した時点および発声の終了を検出した時点の画像の画像データを記憶媒体(画像記憶用)111に記憶する構成してもよい。
本実施形態では、認識結果処理部108が行う処理において、認識結果を棄却した場合(ステップS821においてNO)、メモリ(画像記憶用)110に記憶した画像A、画像Bを消去(ステップS825)するか否かユーザに確認させるようにしてもよい。
本実施形態の認識結果処理部170の処理において、撮像タイミングの異なる語の認識スコアの差が所定の閾値より小さい場合は、発声開始時点および発声終了時点で撮像された画像の両方を記憶媒体(画像記憶用)111に記憶するようにしてもよい。
本実施形態では、撮像した画像の画像データをメモリ(画像記憶用)110に一時的に記憶し、認識結果確定後に記憶媒体(画像記憶用)111に記憶するよう説明したが、最初から記憶媒体(画像記憶用)111に記憶するようにしてもよい。
例えば、道路脇等、周囲の雑音の影響を受け易い場所で本実施形態に係るデジタルカメラ200を使用する場合、音声検出部106の内部状態が短時間に頻繁に変化する場合がある。
本実施形態では、マイク112として、周知ステレオマイクを用いる。
本実施形態では、認識結果制御テーブルに含まれるコマンドの一例として示した“チーズ(Cheese)”に換えて“ハイ、チーズ(Say Cheese)”というコマンドに発声終了時点で撮像する処理を対応付けてもよい。
図16は、本発明の第2の実施形態に係る情報処理装置1600の構成の一例を示す機能ブロック図である。
ステップS1400で、音声入力部105は音声信号が入力されたか否か判断する。
尚、本発明の目的は、前述した実施の形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータがプログラムコードを読み出し実行することによっても達成される。
尚、OSはコンピュータ上で稼働している。
104 画像記憶制御部
105 音声入力部
106 音声検出部
107 音声認識部
108 認識結果処理部
109 表示制御部
122 操作制御部
123 撮像制御部
Claims (14)
- 情報処理装置が行う情報処理方法であって、
第1の検出手段が、予め設定された基準を満たす音の開始を検出する第1の検出工程と、
第1の取得手段が、前記開始の検出に応答して第1の画像データを取得する第1の取得工程と、
第1の記憶手段が、前記第1の画像データをメモリに記憶する第1の記憶工程と、
第2の検出手段が、前記音の終了を検出する第2の検出工程と、
第2の取得手段が、前記終了の検出に応答して第2の画像データを取得する第2の取得工程と、
第2の記憶手段が、前記第2の画像データを前記メモリに記憶する第2の記憶工程と、
決定手段が、前記音に含まれる意味に応じて、前記第1の画像データまたは前記第2の画像データのいずれかを保存する対象のデータとして決定する決定工程とを有することを特徴とする情報処理方法。 - 情報処理装置が行う情報処理方法であって、
第1の検出手段が、予め設定された基準を満たす音の開始を検出する第1の検出工程と、
第2の検出手段が、前記音の終了を検出する第2の検出工程と、
取得手段が、前記開始または前記終了の検出に応答して画像データを取得する取得工程と、
記憶手段が、前記取得工程で取得した前記画像データをメモリに記憶する記憶工程と、
決定手段が、前記音に含まれる意味に応じて、前記メモリに記憶した前記画像データを保存する対象のデータとして決定する決定工程とを有することを特徴とする情報処理方法。 - 更に、消去手段が、前記決定工程で、保存する対象のデータとして決定されなかった画像データを前記メモリから消去する消去工程を有することを特徴とする請求項1または請求項2に記載の情報処理方法。
- 更に、保存手段が、前記保存する対象のデータとして決定された前記画像データを第2のメモリに保存する保存工程を有することを特徴とする請求項1乃至請求項3のいずれか1項に記載の情報処理方法。
- 前記画像を取得する工程は、前記開始を検出した時点または前記終了を検出した時点に実行されることを特徴とする請求項1乃至請求項4のいずれか1項に記載の情報処理方法。
- 前記開始を検出した時点で画像データを取得し、前記開始を検出した時点から前記音が予め設定された時間継続しなかった場合、更に、前記メモリから取得した前記画像データを消去する第2の消去工程と、
前記第2の消去工程に続いて、前記第1の検出工程に相当する、第1の再検出工程とを実行することを特徴とする請求項1乃至請求項5のいずれか1項に記載の情報処理方法。 - 前記終了を検出した時点で画像データを取得し、前記終了を検出した時点から予め設定された時間に再び予め設定した基準を満たす音を検出した場合、更に、前記メモリか取得したら前記画像データを消去する第3の消去工程と、
前記第3の消去工程に続いて、前記第2の検出工程に相当する、第2の再検出工程とを実行することを特徴とする請求項1乃至請求項6のいずれか1項に記載の情報処理方法。 - 前記画像を取得する工程は、前記開始を検出した時点から予め設定した遅延時間が経過した時点または前記終了を検出した時点から予め設定した遅延時間が経過した時点に実行されることを特徴とする請求項1乃至請求項7のいずれか1項に記載の情報処理方法。
- 前記予め設定された基準とは、一定以上の音量を有するか否かであることを特徴とする請求項1乃至請求項8のいずれか1項に記載の情報処理方法。
- 前記音を音声認識することによって前記意味を特定することを特徴とする請求項1乃至請求項9のいずれか1項に記載の情報処理方法。
- 予め設定された基準を満たす音の開始を検出する第1の検出手段と、
前記開始の検出に応答して第1の画像データを取得する第1の取得手段と、
前記第1の画像データをメモリに記憶する第1の記憶手段と、
前記音の終了を検出する第2の検出手段と、
前記終了の検出に応答して第2の画像データを取得する第2の取得手段と、
前記第2の画像データを前記メモリに記憶する第2の記憶手段と、
前記音に含まれる意味に応じて、前記第1の画像データまたは前記第2の画像データのいずれかを保存する対象のデータとして決定する決定手段とを有することを特徴とする情報処理装置。 - 予め設定された基準を満たす音の開始を検出する第1の検出手段と、
前記音の終了を検出する第2の検出手段と、
前記開始または前記終了の検出に応答して画像データを取得する取得手段と、
前記取得手段で取得した前記画像データをメモリに記憶する記憶手段と、
前記音に含まれる意味に応じて、前記メモリに記憶した前記画像データを保存する対象のデータとして決定する決定手段とを有することを特徴とする情報処理装置。 - コンピュータを、請求項11又は請求項12に記載の情報処理装置が有する各手段として機能させるためのプログラム。
- 請求項13に記載のプログラムを記憶したコンピュータ読み取り可能な記憶媒体。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008194800A JP5053950B2 (ja) | 2008-07-29 | 2008-07-29 | 情報処理方法、情報処理装置、プログラムおよび記憶媒体 |
US12/509,067 US8564681B2 (en) | 2008-07-29 | 2009-07-24 | Method, apparatus, and computer-readable storage medium for capturing an image in response to a sound |
CN2009101622203A CN101640042B (zh) | 2008-07-29 | 2009-07-29 | 信息处理方法和信息处理设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008194800A JP5053950B2 (ja) | 2008-07-29 | 2008-07-29 | 情報処理方法、情報処理装置、プログラムおよび記憶媒体 |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2010034841A JP2010034841A (ja) | 2010-02-12 |
JP2010034841A5 JP2010034841A5 (ja) | 2011-08-25 |
JP5053950B2 true JP5053950B2 (ja) | 2012-10-24 |
Family
ID=41607921
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008194800A Expired - Fee Related JP5053950B2 (ja) | 2008-07-29 | 2008-07-29 | 情報処理方法、情報処理装置、プログラムおよび記憶媒体 |
Country Status (3)
Country | Link |
---|---|
US (1) | US8564681B2 (ja) |
JP (1) | JP5053950B2 (ja) |
CN (1) | CN101640042B (ja) |
Families Citing this family (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
USD609714S1 (en) * | 2007-03-22 | 2010-02-09 | Fujifilm Corporation | Electronic camera |
US20140025385A1 (en) * | 2010-12-30 | 2014-01-23 | Nokia Corporation | Method, Apparatus and Computer Program Product for Emotion Detection |
JP2013128183A (ja) * | 2011-12-16 | 2013-06-27 | Samsung Electronics Co Ltd | 撮像装置及び撮像方法 |
US9113056B2 (en) * | 2012-01-06 | 2015-08-18 | Asahi Kasei Kabushiki Kaisha | Image capturing apparatus and information processing apparatus |
CN103383594B (zh) * | 2012-05-04 | 2018-01-05 | 富泰华工业(深圳)有限公司 | 电子设备及其控制方法 |
KR20130133629A (ko) | 2012-05-29 | 2013-12-09 | 삼성전자주식회사 | 전자장치에서 음성명령을 실행시키기 위한 장치 및 방법 |
CN103578468B (zh) * | 2012-08-01 | 2017-06-27 | 联想(北京)有限公司 | 一种语音识别中置信度阈值的调整方法及电子设备 |
US9785314B2 (en) * | 2012-08-02 | 2017-10-10 | Facebook, Inc. | Systems and methods for displaying an animation to confirm designation of an image for sharing |
JP2014086849A (ja) * | 2012-10-23 | 2014-05-12 | Sony Corp | コンテンツ取得装置及びプログラム |
KR101990037B1 (ko) * | 2012-11-13 | 2019-06-18 | 엘지전자 주식회사 | 이동 단말기 및 그것의 제어 방법 |
KR20140075997A (ko) * | 2012-12-12 | 2014-06-20 | 엘지전자 주식회사 | 이동 단말기 및 이동 단말기의 제어 방법 |
US20140247368A1 (en) * | 2013-03-04 | 2014-09-04 | Colby Labs, Llc | Ready click camera control |
US20150290031A1 (en) * | 2013-05-16 | 2015-10-15 | Wavelight Gmbh | Touchless user interface for ophthalmic devices |
KR20150030082A (ko) * | 2013-09-11 | 2015-03-19 | 엘지전자 주식회사 | 이동 단말기 및 그 제어방법 |
US10776419B2 (en) * | 2014-05-16 | 2020-09-15 | Gracenote Digital Ventures, Llc | Audio file quality and accuracy assessment |
US9854139B2 (en) * | 2014-06-24 | 2017-12-26 | Sony Mobile Communications Inc. | Lifelog camera and method of controlling same using voice triggers |
JP6290827B2 (ja) * | 2015-06-05 | 2018-03-07 | リウ チン フォンChing−Feng LIU | オーディオ信号を処理する方法及び補聴器システム |
CN105072332B (zh) * | 2015-07-20 | 2018-09-14 | 魅族科技(中国)有限公司 | 一种拍照方法及终端 |
JP6634755B2 (ja) * | 2015-09-18 | 2020-01-22 | カシオ計算機株式会社 | 電子機器、システム、保存制御方法及びプログラム |
US10083685B2 (en) * | 2015-10-13 | 2018-09-25 | GM Global Technology Operations LLC | Dynamically adding or removing functionality to speech recognition systems |
CN106100771B (zh) * | 2016-06-16 | 2018-07-03 | 苏州科达科技股份有限公司 | 一种双向时延检测方法及装置 |
WO2018084576A1 (en) * | 2016-11-03 | 2018-05-11 | Samsung Electronics Co., Ltd. | Electronic device and controlling method thereof |
CN110033502B (zh) * | 2018-01-10 | 2020-11-13 | Oppo广东移动通信有限公司 | 视频制作方法、装置、存储介质及电子设备 |
TWI672690B (zh) * | 2018-03-21 | 2019-09-21 | 塞席爾商元鼎音訊股份有限公司 | 人工智慧語音互動之方法、電腦程式產品及其近端電子裝置 |
CN113129893B (zh) * | 2019-12-30 | 2022-09-02 | Oppo(重庆)智能科技有限公司 | 一种语音识别方法、装置、设备及存储介质 |
GB2600093A (en) * | 2020-10-14 | 2022-04-27 | Daimler Ag | A method for capturing an image of the surroundings of a motor vehicle by an assistance system of the motor vehicle |
CN112908297B (zh) * | 2020-12-22 | 2022-07-08 | 北京百度网讯科技有限公司 | 车载设备的响应速度测试方法、装置、设备及存储介质 |
CN113645429B (zh) * | 2021-08-23 | 2023-03-21 | 联想(北京)有限公司 | 一种视频获取方法及电子设备 |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5027149A (en) * | 1988-01-28 | 1991-06-25 | Konica Corporation | Voice-recognition camera |
JPH06313838A (ja) * | 1993-04-28 | 1994-11-08 | Nikon Corp | 音声入力カメラ |
US5737491A (en) * | 1996-06-28 | 1998-04-07 | Eastman Kodak Company | Electronic imaging system capable of image capture, local wireless transmission and voice recognition |
JPH11194392A (ja) | 1998-01-05 | 1999-07-21 | Sony Corp | 自動焦点カメラ |
US6289140B1 (en) * | 1998-02-19 | 2001-09-11 | Hewlett-Packard Company | Voice control input for portable capture devices |
FR2783625B1 (fr) * | 1998-09-21 | 2000-10-13 | Thomson Multimedia Sa | Systeme comprenant un appareil telecommande et un dispositif de telecommande vocale de l'appareil |
US7038715B1 (en) * | 1999-01-19 | 2006-05-02 | Texas Instruments Incorporated | Digital still camera with high-quality portrait mode |
DE10163214A1 (de) * | 2001-12-21 | 2003-07-10 | Philips Intellectual Property | Verfahren und Steuersystem zur Sprachsteuerung eines Gerätes |
KR100770637B1 (ko) | 2002-12-12 | 2007-10-29 | 후지필름 가부시키가이샤 | 디지털 카메라 |
US20050018057A1 (en) * | 2003-07-25 | 2005-01-27 | Bronstein Kenneth H. | Image capture device loaded with image metadata |
GB2405948B (en) * | 2003-09-12 | 2006-06-28 | Canon Res Ct Europ Ltd | Voice activated device |
US20050118990A1 (en) * | 2003-12-02 | 2005-06-02 | Sony Ericsson Mobile Communications Ab | Method for audible control of a camera |
JP4429081B2 (ja) * | 2004-06-01 | 2010-03-10 | キヤノン株式会社 | 情報処理装置及び情報処理方法 |
JP4904691B2 (ja) | 2004-12-28 | 2012-03-28 | カシオ計算機株式会社 | カメラ装置、及び撮影方法 |
JP2006287749A (ja) * | 2005-04-01 | 2006-10-19 | Canon Inc | 撮像装置、及びその制御方法 |
US7792678B2 (en) * | 2006-02-13 | 2010-09-07 | Hon Hai Precision Industry Co., Ltd. | Method and device for enhancing accuracy of voice control with image characteristic |
US8207936B2 (en) * | 2006-06-30 | 2012-06-26 | Sony Ericsson Mobile Communications Ab | Voice remote control |
US8502876B2 (en) * | 2006-09-12 | 2013-08-06 | Storz Endoskop Producktions GmbH | Audio, visual and device data capturing system with real-time speech recognition command and control system |
US7995106B2 (en) * | 2007-03-05 | 2011-08-09 | Fujifilm Corporation | Imaging apparatus with human extraction and voice analysis and control method thereof |
US20090262205A1 (en) * | 2008-04-21 | 2009-10-22 | Dana Stephen Smith | Voice activated headset imaging system |
JP5117280B2 (ja) * | 2008-05-22 | 2013-01-16 | 富士フイルム株式会社 | 撮像装置、撮像方法、再生装置および再生方法 |
-
2008
- 2008-07-29 JP JP2008194800A patent/JP5053950B2/ja not_active Expired - Fee Related
-
2009
- 2009-07-24 US US12/509,067 patent/US8564681B2/en active Active
- 2009-07-29 CN CN2009101622203A patent/CN101640042B/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2010034841A (ja) | 2010-02-12 |
CN101640042B (zh) | 2013-03-13 |
US8564681B2 (en) | 2013-10-22 |
CN101640042A (zh) | 2010-02-03 |
US20100026815A1 (en) | 2010-02-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5053950B2 (ja) | 情報処理方法、情報処理装置、プログラムおよび記憶媒体 | |
JP4896838B2 (ja) | 撮像装置、画像検出装置及びプログラム | |
JP6230726B2 (ja) | 音声認識装置および音声認識方法 | |
CN108573701B (zh) | 基于唇部检测的查询端点化 | |
JP5247384B2 (ja) | 撮像装置、情報処理方法、プログラムおよび記憶媒体 | |
EP2428951A2 (en) | Method and apparatus for performing microphone beamforming | |
US20100238323A1 (en) | Voice-controlled image editing | |
US9792901B1 (en) | Multiple-source speech dialog input | |
JP6844608B2 (ja) | 音声処理装置および音声処理方法 | |
JP2013545133A (ja) | 録音の終了点自動検出のための方法及びシステム | |
JP4968346B2 (ja) | 撮像装置、画像検出装置及びプログラム | |
JP7533472B2 (ja) | 情報処理装置、及びコマンド処理方法 | |
US20090122157A1 (en) | Information processing apparatus, information processing method, and computer-readable storage medium | |
JP2006279111A (ja) | 情報処理装置、情報処理方法およびプログラム | |
KR101590053B1 (ko) | 음성 인식을 이용한 비상벨 장치, 이의 작동 방법 및 이 방법이 기록된 컴퓨터 판독 가능한 기록매체 | |
JP2014122978A (ja) | 撮像装置、音声認識方法、及びプログラム | |
US12051412B2 (en) | Control device, system, and control method | |
JP2006184589A (ja) | カメラ装置、及び撮影方法 | |
CN104079822B (zh) | 摄像装置、信号处理装置及方法 | |
JP5279420B2 (ja) | 情報処理装置及び情報処理方法及びプログラム及び記憶媒体 | |
WO2023286775A1 (ja) | 音声認識装置、音声認識方法、音声認識プログラム、撮像装置 | |
JP7222265B2 (ja) | 音声区間検出装置、音声区間検出方法及びプログラム | |
US20240107226A1 (en) | Image pickup apparatus capable of efficiently retrieving subject generating specific sound from image, control method for image pickup apparatus, and storage medium | |
KR100873920B1 (ko) | 화상 분석을 이용한 음성 인식 방법 및 장치 | |
JPWO2023286775A5 (ja) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20100201 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20100630 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110712 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110712 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120613 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120626 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120726 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 5053950 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150803 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |