JP4904691B2 - Camera device and photographing method - Google Patents
Camera device and photographing method Download PDFInfo
- Publication number
- JP4904691B2 JP4904691B2 JP2004378386A JP2004378386A JP4904691B2 JP 4904691 B2 JP4904691 B2 JP 4904691B2 JP 2004378386 A JP2004378386 A JP 2004378386A JP 2004378386 A JP2004378386 A JP 2004378386A JP 4904691 B2 JP4904691 B2 JP 4904691B2
- Authority
- JP
- Japan
- Prior art keywords
- stage
- utterance
- series
- focus adjustment
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Details Of Cameras Including Film Mechanisms (AREA)
- Studio Devices (AREA)
Description
本発明は、音声シャッター機能を有するカメラ装置、及び撮影方法に関するものである。 The present invention relates to a camera device having an audio shutter function and a photographing method.
従来、カメラ装置においては、登録されている命令語(認識対象語)の音声を認識したことをトリガとしてオートフォーカスによるピント合わせ、及び露光からなる一連の撮影動作を行う音声シャッター機能を備えたものが下記の特許文献1等に記載されている。
しかしながら、上記の技術においては、例えば「ハイ、チーズ」という命令語の認識を完了した後で合焦動作と露光動作とを行うため、ユーザーが命令語を発してから、実質的な撮影動作が行われるまでの間に若干のタイムラグが発生するという問題があった。 However, in the above technique, for example, since the focusing operation and the exposure operation are performed after the recognition of the command word “high, cheese” is completed, the substantial shooting operation is performed after the user issues the command word. There was a problem that a slight time lag occurred before it was performed.
本発明は、かかる従来の課題に鑑みてなされたものであり、撮影のための命令語を発してから、実際の撮影動作が行われるまでの間のタイムラグを殆どなくすことが可能となるカメラ装置、及び撮影方法を提供することを目的とする。 The present invention has been made in view of such a conventional problem, and a camera device capable of almost eliminating a time lag between issuing a command word for shooting and performing an actual shooting operation. And an imaging method.
前記課題を解決するため請求項1の発明にあっては、所定の命令語の音声入力をトリガとして複数段階の動作からなる一連の撮影動作を行う自動焦点調整機能を備えるカメラ装置であって、入力する音声を認識する音声認識手段と、前記所定の命令語を記憶する命令語記憶手段と、この命令語記憶手段に記憶されている命令語に設定されている複数の発声段階と、前記一連の撮影動作における各段階の動作との対応関係を示す対応情報を記憶する対応情報記憶手段と、前記音声認識手段により認識された音声の認識段階が前記命令語の各発声段階に達する毎に、前記対応情報記憶手段に記憶されている段階情報により示される、当該発声段階に対応する前記一連の撮影動作における各段階の動作を順に開始させる制御手段とを備え、前記一連の撮影動作における複数段階の動作には自動焦点調整機能による合焦動作及び露光動作を含み、前記音声認識手段は、撮影動作における自動焦点調整の動作中に生じるノイズ成分を含む音響モデルと含まない音響モデルとを有し、前記一連の撮影動作における自動焦点調整を指示した命令語の認識に応答して前記ノイズ成分を含む音響モデルに、含まない音響モデルから変更して、自動焦点調整を指示した前記命令語の発声段階の次の発声段階の音声を、認識するものとした。
In order to solve the above-mentioned problem, the invention of
かかる構成においては、所定の命令語が音声入力されたとき、命令語の音声認識が完了する以前の段階から、一連の撮影動作における各段階の動作が順に開始される。 In such a configuration, when a predetermined command word is inputted by voice, the operation of each stage in a series of photographing operations is started in order from the stage before the voice recognition of the command word is completed.
また、請求項2の発明にあっては、前記一連の撮影動作におけるいずれかの段階の動作は、連続して行われる複数の動作からなるものとした。
Further, in the invention of
また、請求項4の発明にあっては、前記命令語記憶手段に複数の命令語が記憶されるとともに、前記対応情報記憶手段に、前記命令語記憶手段に記憶されている複数の命令語の各々に設定されている各発声段階と、複数の一連の撮影動作の各々における各段階の動作との対応関係を示す複数の対応情報が記憶されたものとした。
In the invention of
また、請求項5の発明にあっては、前記音声認識手段により認識された音声からなる語句を新たな命令語として前記命令語記憶手段に記憶させる登録手段と、この登録手段により前記命令語記憶手段に記憶された新たな命令語における複数の発声段階と、前記一連の撮影動作における各段階の動作との対応関係を示す新たな対応情報を生成し、前記対応情報記憶手段に記憶させる生成手段とを備えたものとした。 According to a fifth aspect of the present invention, there is provided a registration means for storing a word composed of speech recognized by the voice recognition means in the command word storage means as a new command word, and the command word storage by the registration means. Generating means for generating new correspondence information indicating a correspondence relationship between a plurality of utterance stages in the new command word stored in the means and the operations of each stage in the series of photographing operations, and storing the correspondence information in the correspondence information storage means And provided.
また、請求項5の発明にあっては、所定の命令語の音声入力をトリガとして複数段階の動作からなる一連の撮影動作を行う自動焦点調整機能を備えるカメラ装置における撮影方法であって、入力する音声を逐次認識する工程と、認識した音声の認識段階が前記命令語に設定されている複数の発声段階の各発声段階に達する毎に、各発声段階に対応付けられている前記一連の撮影動作における各段階の動作を順に開始する工程とを含み、前記一連の撮影動作における複数段階の動作には自動焦点調整機能による合焦動作及び露光動作を含み、音声を逐次認識する工程は、前記一連の撮影動作における自動焦点調整を指示した命令語の認識に応答して前記ノイズ成分を含む音響モデルに、含まない音響モデルから変更して、自動焦点調整を指示した前記命令語の発声段階の次の発声段階の音声を、認識する方法とした。
According to the invention of
かかる方法によれば、所定の命令語が音声入力されたとき、命令語の音声認識が完了する以前の段階から、一連の撮影動作における各段階の動作が順に開始される。 According to such a method, when a predetermined command word is inputted by voice, the operation of each stage in a series of photographing operations is started in order from the stage before the voice recognition of the command word is completed.
また、請求項6の発明にあっては、所定の命令語の音声入力をトリガとして複数段階の動作からなる一連の撮影動作を行う自動焦点調整機能を備えるカメラ装置が有するコンピュータに、入力する音声を音声認識手段に逐次認識させる処理と、前記音声認識手段により認識した音声の認識段階が前記命令語に設定されている複数の発声段階の各発声段階に達する毎に、各発声段階に対応付けられている前記一連の撮影動作における各段階の動作を装置各部に順に開始させる処理とを実行させ、前記一連の撮影動作における複数段階の動作には自動焦点調整機能による合焦動作及び露光動作を含み、音声を音声認識手段に逐次認識する処理は、前記一連の撮影動作における自動焦点調整を指示した命令語の認識に応答して前記ノイズ成分を含む音響モデルに、含まない音響モデルから変更して、自動焦点調整を指示した前記命令語の発声段階の次の発声段階の音声を、認識するプログラムとした。
According to the invention of
以上のように本発明においては、所定の命令語が音声入力されたとき、命令語の音声認識が完了する以前の段階から、一連の撮影動作における各段階の動作が順に開始されるようにした。よって、撮影のための命令語を発してから、実際の撮影動作が行われるまでの間のタイムラグを殆どなくすことが可能となる。 As described above, in the present invention, when a predetermined command word is inputted by voice, the operation of each stage in a series of shooting operations is started in order from the stage before the voice recognition of the command word is completed. . Therefore, it is possible to eliminate almost all the time lag between the time when the command word for shooting is issued and the time when the actual shooting operation is performed.
以下、本発明の一実施の形態を図にしたがって説明する。図1は本発明に係るデジタルカメラの電気的な概略構成を示すブロック図である。 Hereinafter, an embodiment of the present invention will be described with reference to the drawings. FIG. 1 is a block diagram showing a schematic electrical configuration of a digital camera according to the present invention.
このデジタルカメラは音声シャッター機能を備えたものであり、キー入力部1と、合焦部2、露光部3、画像入力部4、画像圧縮部5、画像記憶部6、画像表示部7、マイク8、音声入力部9、A/D変換部(A/D)10、ワークメモリ11、音声認識部12、プログラムメモリ13を含み、キー入力部1及びマイク8を除く上記各部2〜7、8〜13が制御部14によって駆動及び制御される構成である。
This digital camera has an audio shutter function, and includes a
前記キー入力部1は、電源キーやシャッターキー、撮影/再生モードのモード切替キーや、各種機能の設定に使用される操作キー等、ユーザーがデジタルカメラの操作に使用する各種のキーからなり、いずれかのキーが操作されるとそれが制御部14により検出される。前記合焦部2には、撮影モードにおいて、図示しない光学系におけるフォーカスレンズを被写体距離に応じた位置に駆動するフォーカス・モータや、その駆動回路が含まれる。
The
前記露光部3には、前記光学系により結像された被写体像を撮像するCCD等の撮像素子と、その駆動回路、撮像素子から出力されるアナログの撮像信号をデジタル信号に変換するA/D変換器等を含みデジタルの撮像信号を出力する。前記画像入力部4は、デジタルに変換された撮像信号に種々の信号処理を施すための各種の信号処理回路により構成される。前記画像圧縮部5は、画像入力部4で処理された後の画像データを圧縮し、また圧縮状態の画像データを伸張する回路により構成される。前記画像記憶部6は圧縮された画像データを記憶する各種メモリカード等により構成される。前記画像表示部7は、液晶表示器や、その駆動回路等から構成され、画像入力部4で信号処理された被写体画像や、画像記憶部6から読み出された記録画像を液晶表示器に表示させる。
The
前記音声入力部9は、マイク8から入力した音声を増幅するアンプや他の音声処理回路から構成され、処理後の音声信号を出力する。A/D変換部10は音声入力部9から出力されるアナログの音声信号をディジタル信号に変換する。ワークメモリ11は、変換後の音声信号(音声データ)を逐次記憶したり、制御部14が各部の制御に際して生成したり使用する各種のデータ等を随時記憶するRAMである。
The
前記音声認識部12は、音声シャッター機能がオン設定されているときの撮影待機状態において、ワークメモリ11に逐次記憶される入力音声に対し、そのデータの蓄積速度と同じ又はそれ以上(遅れた場合にすぐ追いつけるという意味)の速度で、前記プログラムメモリ13に記録されている音響モデルを使用し、特徴抽出とビタビアルゴリズムによる認識処理を行う。認識結果を制御部14に逐次送る。
The
制御部14は、主としてCPUや入出力インターフェイスを含む周辺回路から構成されている。前記プログラムメモリ13はEEPROM等の不揮発性のメモリであり、音声認識部12が音声認識に際して使用する前述した音響モデル等のデータや、制御部14に上記各部を制御させるための各種のプログラム、例えばAE(自動露出)、AF(自動焦点調整)等の制御プログラム、さらには制御部14を本発明の制御手段、登録手段、生成手段として機能させるためのプログラムが格納されている。
The
また、プログラムメモリ13は本発明の命令語記憶手段、対応情報記憶手段であって、プログラムメモリ13には、前述したプログラムやデータと共に図2に示した登録テーブルTを構成するデータとが格納されている。登録テーブルTは、複数種の予約語(音声パターン)101、及び各々の予約語101に設定されている複数の発声段階と、一連の撮影動作における各段階の動作との関係を示す対応情報102から構成される。予約語101は音声シャッター機能を用いた撮影時に使用可能な命令語であり、予約語101には、その内容に応じた複数の発声段階が設定されている。
The
発声段階数は、予約語101「ハイ、チーズ」が「ハイ」まで(第1の発声段階)と、「・・・チーズ」まで(第2の発声段階)の2段階である以外は3段階である。また、本実施の形態において各々の発声段階に対応して設定可能な動作は、自動焦点調整、露光、記録の3種類であり、動作の数は予約語101「ハイ、トリマス、モウイチマイ」の第3の発声段階(「・・・モウイチマイ」)に対応する記録、露光、記録の3動作が最大である。また、前述した音響モデルのうち、上記複数の予約語101に含まれる「チーズ」と「トリマス」部分の音響モデルには、自動焦点調整に伴い生じるノイズ(光学系やモータの駆動音)を重畳したPCMで学習済みのHMM(Hidden Markov Model、隠れマルコフ ・モデル)が用意されている。
The number of utterance stages is three, except that the
次に、以上の構成からなるデジタルカメラの本発明に係る動作を説明する。図3は、音声シャッター機能がオン設定されているときの音声シャッターモードによる動作を示したフローチャートである。 Next, the operation according to the present invention of the digital camera having the above configuration will be described. FIG. 3 is a flowchart showing an operation in the sound shutter mode when the sound shutter function is set to ON.
音声シャッターモードでは、例えばユーザーによるシャッターキーの押下に応じてマイク8からの音声入力処理を開始する(ステップSA1)。そして、入力される新たな音節部分を音声認識部12により逐次認識し、認識中の音声パターンを逐次蓄積する(ステップSA2)。音声認識部12における音声認識の手法は以下の通りである。
In the voice shutter mode, for example, voice input processing from the
プログラムメモリ13には前述した予約語101が図4に示したような文法でセットされている。同図は「ハイ、チーズ」である例である。「無」は無音を表すサイレントモデルであり、「ハイ、チーズ」の発話の前後と「ハイ」の後に「無音」があっても無くても対応できる文法である。ここでは、説明を簡単にするため音節を単位とした音響モデル(HMM)で説明する。なお、音響モデルは、「はいチーズ」という単語HMMであっても良いし、音素や半音素、トライフォンなどもっと細かい単位のHMMでもよい。
The
ここで、無音モデルは1状態モデル、音節モデルは3状態モデルであるとする。
例として「は」で説明すると、
「は」の第1状態とは
「は」の子音「h」の部分の音響的特徴を出力する確率が高いHMMモデル
「は」の第2状態とは
「は」の子音と母音のつなぎ部分の音響的特徴を出力する確率が高いHMMモデル
「は」の第3状態とは
「は」の母音「a」の部分の音響的特徴を出力する確率が高いHMMモデル
というように学習されたモデルである。
Here, it is assumed that the silence model is a one-state model and the syllable model is a three-state model.
As an example, “Ha” explains.
What is the first state of “ha”? The second state of the HMM model “ha”, which has a high probability of outputting the acoustic features of the “h” consonant “h” part. What is the third state of the HMM model “ha” that has a high probability of outputting acoustic features of “ha”? A model that is learned as an HMM model that has a high probability of outputting the acoustic features of the vowel “a” portion of “ha” It is.
累積尤度計算は図5のように行われる。
例えば時刻Nの「い」の第1状態の累積尤度は、
A=(時刻N−1の「は」の第3状態の累積尤度)×(時刻Nの特徴値が「い」の第1状態である出力確率)×(「は」の第3状態から「は」を終了する状態遷移確率)
B=(時刻N−1の「い」の第1状態の累積尤度)×(時刻何の特徴値が「い」の第1状態である出力確率)×(「い」の第1状態から「い」の第1状態に遷移する(ループ遷移)状態遷移確率)
として求めたA,Bを比較し、確率の大きい方を時刻Nの「い」の第1状態の累積尤度とする。
The cumulative likelihood calculation is performed as shown in FIG.
For example, the cumulative likelihood of the first state “I” at time N is
A = (cumulative likelihood of the third state of “ha” at time N−1) × (output probability that is the first state where the feature value at time N is “yes”) × (from the third state of “ha” State transition probability to end “ha”)
B = (cumulative likelihood of the first state of “I” at time N−1) × (output probability that the feature value at the time is the first state of “I”) × (from the first state of “I” Transition to the first state of “I” (loop transition) state transition probability)
A and B obtained as follows are compared, and the one with the larger probability is set as the cumulative likelihood of the first state of “I” at time N.
このようにして、全ての状態についての累積尤度を時刻毎に更新していく。例えば時刻Nが、「はいチーズ」と発話する際の「い」の発話後、「ち」を発話する直前の瞬間であったとすれば、累積尤度では「い」の第3状態か、「い」の第3状態と「ち」の第1状態の間の「無」モデルの尤度が最も高くなっている筈である。 In this way, the cumulative likelihood for all states is updated every time. For example, if the time N is the moment immediately after uttering “Chi” after uttering “I” when uttering “Yes cheese”, the cumulative likelihood is the third state of “I”, “ The likelihood of the “none” model between the third state of “I” and the first state of “Chi” should be the highest.
しかし、ここで問題となるのが、無関係な発話をした場合やノイズを拾った場合であって、その際にも累積尤度が最も高い点は存在するので、偶然「い」の最終状態の尤度が高くなってしまうことが考えられる。そこで、発話の信頼度を計算する必要がある。「はいチーズ」に使われない音節(たとえば「あ」とか「う」「ん」など)についても毎フレーム出力確率を求め、各フレームで最も出力確率の高かったモデルの値を乗算(ビタビならばlogを使うので加算しておく)する。もし発話が本当に「はい」であったならば、各フレームで最も尤度の高いモデルは「は」又は「い」のどこかの状態である可能性が高いので、「はい」の累積尤度との差は少なくなる。これを基に信頼度を求める。もちろん信頼度の計算方法は、必ずしもこの方法である必要はない。 However, the problem here is when an irrelevant utterance or noise is picked up, and there is also a point with the highest cumulative likelihood at that time. It is conceivable that the likelihood becomes high. Therefore, it is necessary to calculate the reliability of the utterance. For syllables that are not used in “yes cheese” (for example, “A”, “U”, “N”, etc.), the output probability of each frame is calculated, and the value of the model with the highest output probability in each frame is multiplied (if Viterbi) log, so add them). If the utterance was really “yes”, the model with the highest likelihood in each frame is likely to be in a state of “yes” or “yes”, so the cumulative likelihood of “yes” The difference with is less. The reliability is obtained based on this. Of course, the reliability calculation method does not necessarily need to be this method.
以上の手法により音声認識部12は、「い」の最終状態、または「い」と「ち」の間の「無」モデルの累積尤度が最も高く、かつ信頼度がしきい値以上である時、制御部14に、現時点で「はい」の発話が終わったことを示す信号を送る。同様に「ず」の最終状態の尤度、またはそれに続く「無」モデルの累積尤度が最も高く、かつ信頼度がしきい値以上となった時、「はいチーズ」の発話が終わったことを示す信号を示す信号を送る。
With the above method, the
一方、音声認識部12が音声認識を行う間に、制御部14は逐次認識された音声パターンを内部メモリに蓄積しており、音声認識部12から上記信号が送られる毎に、認識中の音声パターンと登録テーブルTの内容とを比較して、候補となる予約語101とその発声段階とを特定し(ステップSA3)、それらを示す認識状況情報を更新する(ステップSA4)。図6は、ある時点の認識状況情報103の内容を示したものであり、同図(a)は「ハイ」までが認識された時点の内容である。
On the other hand, while the
引き続き、制御部14は、予約語101の候補が残されていれば(ステップSA5でYES)、さらに次の発声段階に進んだか否かを判別する(ステップSA6)。そして、未だ次の発声段階に進んでいなければ(ステップSA6でNO)、ステップS2以降の処理を繰り返す。やがて次の発声段階に進んだら、つまり前の発声段階が終了したことが確定したら(ステップSA6でYES)、その時点での認識状況情報103に基づき、残されている予約語候補に対応する現段階の動作を行うための処理を実施する(ステップSA7)。すなわち認識状況情報103の内容が図6(a)に示した内容であり、ユーザーが「はい」までを発話した段階では自動焦点調整を開始する。以後、現在の発声段階が、認識中の予約語(候補)の最終段階となるまで(ステップSA8でNO)、ステップAS2へ戻って前述した処理を繰り返す。
If the candidate for the
その後、認識状況情報103の内容が例えば図6(b)に示したものとなり、ユーザーが「はい、撮ります」までを発話した段階では、ステップSA7において露光を行い、さらに認識状況情報103の内容が例えば図6(c)に示したものとなり、ユーザーが「ハイ、トリマス、オーケー」までを発話した段階では、ステップSA7において記録を行う。やがて上記処理を繰り返す間に予約語候補がなくなった場合や(ステップSA5でNO)、現在の発声段階が認識中の予約語101の最終段階となったら(ステップSA8でYES)、認識状況情報103の内容をクリアする(ステップSA9)。しかる後、ステップAS2へ戻り、以降の処理を初めから繰り返す。
Thereafter, the content of the
以上のように音声シャッターモードにおいては、予め登録されている予約語(命令語)を音声認識して一連の撮影動作を行うが、予約語全体の認識が完了する以前の認識途中において、その認識段階が予約語に設定されている発声段階に達する毎に、撮影に要する動作を開始する。したがって、ユーザーが予約語を発してから、実質的な撮影動作である露光が行われるまでの間のタイムラグを殆どなくすことができる。 As described above, in the voice shutter mode, a reserved word (command word) registered in advance is recognized by voice and a series of shooting operations are performed, but the recognition is performed during the recognition before the entire reserved word is recognized. Every time the stage reaches the utterance stage set as a reserved word, the operation required for shooting is started. Therefore, the time lag between when the user issues a reserved word and when exposure, which is a substantial photographing operation, is performed can be almost eliminated.
また、一連の撮影動作の内容が異なる複数の予約語が登録されているため、ユーザーは、複数の予約語を使い分けることにより、全体の動作内容が異なる撮影動作を指示することができる。しかも「チーズ」と「トリマス」部分、つまり自動焦点調整直後の露光を指示する部分の認識が、自動焦点調整に伴い生じるノイズの成分を含む音響モデルを用いて行われるため、上記部分が自動焦点調整中に発声されたとしても、その部分にも高い認識率を確保することができる。 In addition, since a plurality of reserved words having different contents of a series of shooting operations are registered, the user can instruct a shooting operation having different overall operation contents by using a plurality of reserved words. In addition, since the “cheese” and “trimus” portions, that is, the portions that indicate the exposure immediately after the autofocus adjustment are recognized by using an acoustic model including a noise component caused by the autofocus adjustment, the above portions are automatically focused. Even if it is uttered during adjustment, a high recognition rate can be ensured for that portion.
一方、図7は、前記デジタルカメラにおいて予め用意されているコマンド登録モードによる制御部14の処理手順を示すフローチャートである。
On the other hand, FIG. 7 is a flowchart showing a processing procedure of the
コマンド登録モードが設定されると制御部14は、コマンド入力方法の選択画面を画像表示部7のLCD画面に表示させ、ユーザーに入力方法を選択させる(ステップSB1)。本実施の形態では、入力方法として「選択」と「自由」の2種類が用意されている。ここでユーザーが「選択」を選ぶと(ステップSB2でYES)、既に登録されている予約語(図2参照)の各発声段階部分からいずれかの言葉をコマンド要素として選択させる(ステップSB3)。また、ユーザーが「自由を」を選ぶと(ステップSB2でNO)、所定のキー操作によって任意の言葉をコマンド要素として入力させる(ステップSB4)。なお、任意の言葉の入力方法は、例えば画像表示部7のLCD画面に50音等の文字選択画面を表示し、キー操作で複数の文字を選択させることにより行う。
When the command registration mode is set, the
引き続き、指定可能な撮影時における動作、すなわち本実施の形態では「自動焦点調整」、「露光」、「記録」の3種類を表示して、その中から選択又は入力されたコマンド要素に対応する1又は複数の動作を選択させる(ステップSB5)。そして、発声段階数をインクリメントした後(ステップSB1)、コマンド入力の終了指示がなければ(ステップSB7でNO)、ステップSB1へ戻り、前述と同様の処理によってユーザーに次の発生段階のコマンド要素を選択又は入力させ、かつそれと対応する動作を選択させる。 Subsequently, three types of operations at the time of photographing that can be designated, that is, “automatic focus adjustment”, “exposure”, and “recording” in the present embodiment are displayed, and a command element selected or input from among them is displayed. One or a plurality of operations are selected (step SB5). Then, after incrementing the number of utterance stages (step SB1), if there is no command input end instruction (NO in step SB7), the process returns to step SB1, and the command element of the next generation stage is given to the user by the same processing as described above. Select or input and select the corresponding action.
そして、ステップSB6で1又は複数の動作を選択させた後、コマンド入力の終了指示があったら(ステップSB7でYES)、選択又は入力された複数のコマンド要素の間に「、」(発声段階の区切り)を自動的に挿入し、新たな予約語を生成する(ステップSB8)。なお、図示しないが係る処理はユーザーによって選択又は入力されたコマンド要素が1つであった場合には、そのコマンド要素をそのまま予約語とする。そして、生成した新たな予約語を追加して登録テーブルTを更新する(ステップSB9)。 Then, after selecting one or a plurality of actions in step SB6, if there is a command input end instruction (YES in step SB7), “,” (in the utterance stage) between the selected or input command elements. (Separator) is automatically inserted to generate a new reserved word (step SB8). Although not shown in the figure, when there is one command element selected or input by the user, the command element is used as a reserved word as it is. Then, the registration table T is updated by adding the generated new reserved word (step SB9).
したがって、ユーザーにおいてはコマンド登録モードを選択することにより、前述した音声シャッターモードでの撮影時に使用可能な命令語を、自由に追加することができる。 Therefore, the user can freely add a command word that can be used at the time of shooting in the above-described voice shutter mode by selecting the command registration mode.
なお、以上の説明においては本発明を専用機としてのデジタルカメラに採用した場合について説明したが、これに限らず本発明は、カメラ付き携帯電話、さらには銀塩カメラ等の他のカメラ装置にも採用することができる。 In the above description, the case where the present invention is applied to a digital camera as a dedicated machine has been described. However, the present invention is not limited to this, and the present invention can be applied to other camera devices such as a camera-equipped mobile phone and a silver salt camera. Can also be adopted.
1 キー入力部
2 合焦部
3 露光部
7 画像表示部
8 マイク
9 音声入力部
10 A/D変換部
11 ワークメモリ
12 音声認識部
13 プログラムメモリ
14 制御部
101 予約語
102 対応情報
T 登録テーブル
DESCRIPTION OF
Claims (6)
入力する音声を認識する音声認識手段と、
前記所定の命令語を記憶する命令語記憶手段と、
この命令語記憶手段に記憶されている命令語に設定されている複数の発声段階と、前記一連の撮影動作における各段階の動作との対応関係を示す対応情報を記憶する対応情報記憶手段と、
前記音声認識手段により認識された音声の認識段階が前記命令語の各発声段階に達する毎に、前記対応情報記憶手段に記憶されている段階情報により示される、当該発声段階に対応する前記一連の撮影動作における各段階の動作を順に開始させる制御手段とを備え、
前記一連の撮影動作における複数段階の動作には自動焦点調整機能による合焦動作及び露光動作を含み、前記音声認識手段は、撮影動作における自動焦点調整の動作中に生じるノイズ成分を含む音響モデルと含まない音響モデルとを有し、前記一連の撮影動作における自動焦点調整を指示した命令語の認識に応答して前記ノイズ成分を含む音響モデルに、含まない音響モデルから変更して、自動焦点調整を指示した前記命令語の発声段階の次の発声段階の音声を、認識することを特徴とするカメラ装置。 A camera apparatus having an automatic focus adjustment function for performing a series of photographing operations consisting of a plurality of steps using a voice input of a predetermined command as a trigger,
Speech recognition means for recognizing input speech;
Command word storage means for storing the predetermined command word;
Correspondence information storage means for storing correspondence information indicating a correspondence relationship between a plurality of utterance stages set in the instruction word stored in the instruction word storage means and the operation of each stage in the series of photographing operations;
Each time the speech recognition stage recognized by the speech recognition means reaches each utterance stage of the command word, the series of series corresponding to the utterance stage indicated by the stage information stored in the correspondence information storage means Control means for sequentially starting the operation of each stage in the shooting operation,
The multi-stage operation in the series of photographing operations includes a focusing operation and an exposure operation by an automatic focus adjustment function, and the voice recognition unit includes an acoustic model including a noise component generated during the automatic focus adjustment operation in the photographing operation; An acoustic model that does not include, and in response to the recognition of the instruction word instructing the automatic focus adjustment in the series of shooting operations, the acoustic model that includes the noise component is changed from the acoustic model that does not include the automatic focus adjustment. A camera device characterized by recognizing a voice in a utterance stage next to a utterance stage of the command word instructing .
この登録手段により前記命令語記憶手段に記憶された新たな命令語における複数の発声段階と、前記一連の撮影動作における各段階の動作との対応関係を示す新たな対応情報を生成し、前記対応情報記憶手段に記憶させる生成手段と
を備えたことを特徴とする請求項1乃至3のいずれか1項に記載のカメラ装置。 Registration means for storing a word composed of speech recognized by the voice recognition means in the command word storage means as a new command word;
The registration unit generates new correspondence information indicating a correspondence relationship between a plurality of utterance stages in the new command word stored in the command word storage unit and each stage operation in the series of photographing operations, and the correspondence The camera device according to claim 1, further comprising a generation unit that stores the information in the information storage unit.
入力する音声を逐次認識する工程と、
認識した音声の認識段階が前記命令語に設定されている複数の発声段階の各発声段階に達する毎に、各発声段階に対応付けられている前記一連の撮影動作における各段階の動作を順に開始する工程とを含み、
前記一連の撮影動作における複数段階の動作には自動焦点調整機能による合焦動作及び露光動作を含み、音声を逐次認識する工程は、前記一連の撮影動作における自動焦点調整を指示した命令語の認識に応答して前記ノイズ成分を含む音響モデルに、含まない音響モデルから変更して、自動焦点調整を指示した前記命令語の発声段階の次の発声段階の音声を、認識することを特徴とする撮影方法。 An imaging method in a camera device having an automatic focus adjustment function for performing a series of imaging operations consisting of a plurality of steps using a voice input of a predetermined command as a trigger,
The step of recognizing the input voice sequentially,
Each time the recognized speech recognition stage reaches each utterance stage of the plurality of utterance stages set in the command word, the operation of each stage in the series of photographing operations associated with each utterance stage is started in order. Including the steps of:
The operations in a plurality of stages in the series of photographing operations include a focusing operation and an exposure operation by an automatic focus adjustment function, and the step of sequentially recognizing voice recognizes a command word instructing automatic focus adjustment in the series of photographing operations. In response to the above, the acoustic model including the noise component is changed from the acoustic model not including the noise component, and the speech of the utterance stage next to the utterance stage of the command word instructing the automatic focus adjustment is recognized. Shooting method.
入力する音声を音声認識手段に逐次認識させる処理と、
前記音声認識手段により認識した音声の認識段階が前記命令語に設定されている複数の発声段階の各発声段階に達する毎に、各発声段階に対応付けられている前記一連の撮影動作における各段階の動作を装置各部に順に開始させる処理とを実行させ、
前記一連の撮影動作における複数段階の動作には自動焦点調整機能による合焦動作及び露光動作を含み、音声を音声認識手段に逐次認識する処理は、前記一連の撮影動作における自動焦点調整を指示した命令語の認識に応答して前記ノイズ成分を含む音響モデルに、含まない音響モデルから変更して、自動焦点調整を指示した前記命令語の発声段階の次の発声段階の音声を、認識することを特徴とするプログラム。 A computer having a camera device having an automatic focus adjustment function for performing a series of photographing operations consisting of a plurality of steps using a voice input of a predetermined command as a trigger
A process for causing the voice recognition means to sequentially recognize the input voice;
Each stage in the series of photographing operations associated with each utterance stage each time the speech recognition stage recognized by the voice recognition means reaches each utterance stage of a plurality of utterance stages set in the command word Process to start each part of the device in order,
The multi-stage operation in the series of shooting operations includes a focusing operation and an exposure operation by an automatic focus adjustment function, and the process of sequentially recognizing the voice to the voice recognition means instructed the automatic focus adjustment in the series of shooting operations. Recognizing the speech in the utterance stage next to the utterance stage of the instruction word instructed to perform automatic focus adjustment by changing from the acoustic model not including the noise component to the acoustic model including the noise component in response to the recognition of the instruction word A program characterized by
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004378386A JP4904691B2 (en) | 2004-12-28 | 2004-12-28 | Camera device and photographing method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004378386A JP4904691B2 (en) | 2004-12-28 | 2004-12-28 | Camera device and photographing method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006184589A JP2006184589A (en) | 2006-07-13 |
JP4904691B2 true JP4904691B2 (en) | 2012-03-28 |
Family
ID=36737750
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004378386A Expired - Fee Related JP4904691B2 (en) | 2004-12-28 | 2004-12-28 | Camera device and photographing method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4904691B2 (en) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7697827B2 (en) | 2005-10-17 | 2010-04-13 | Konicek Jeffrey C | User-friendlier interfaces for a camera |
JP2008219450A (en) * | 2007-03-05 | 2008-09-18 | Fujifilm Corp | Imaging device and control method thereof |
JP2008219449A (en) * | 2007-03-05 | 2008-09-18 | Fujifilm Corp | Imaging device and control method thereof |
US7995106B2 (en) | 2007-03-05 | 2011-08-09 | Fujifilm Corporation | Imaging apparatus with human extraction and voice analysis and control method thereof |
KR101056511B1 (en) | 2008-05-28 | 2011-08-11 | (주)파워보이스 | Speech Segment Detection and Continuous Speech Recognition System in Noisy Environment Using Real-Time Call Command Recognition |
JP5053950B2 (en) | 2008-07-29 | 2012-10-24 | キヤノン株式会社 | Information processing method, information processing apparatus, program, and storage medium |
JP2011139498A (en) * | 2011-02-14 | 2011-07-14 | Fujifilm Corp | Imaging device and control method thereof |
JP6134803B2 (en) * | 2013-09-12 | 2017-05-24 | 日立マクセル株式会社 | Video recording apparatus and camera function control program |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000259198A (en) * | 1999-03-04 | 2000-09-22 | Sony Corp | Device and method for recognizing pattern and providing medium |
JP2001305642A (en) * | 2000-04-25 | 2001-11-02 | Fuji Photo Film Co Ltd | Imaging pickup unit |
JP2003066990A (en) * | 2001-08-28 | 2003-03-05 | Clarion Co Ltd | Voice recognition apparatus |
-
2004
- 2004-12-28 JP JP2004378386A patent/JP4904691B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2006184589A (en) | 2006-07-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4975813B2 (en) | Remote control by voice | |
JP2010219692A (en) | Image capturing apparatus and camera | |
JP4904691B2 (en) | Camera device and photographing method | |
JP6731632B2 (en) | Audio processing device, audio processing method, and audio processing program | |
JP6716300B2 (en) | Minutes generation device and minutes generation program | |
JP2006201749A (en) | Device in which selection is activated by voice, and method in which selection is activated by voice | |
JP7406874B2 (en) | Electronic devices, their control methods, and their programs | |
US20050209849A1 (en) | System and method for automatically cataloguing data by utilizing speech recognition procedures | |
WO2018135276A1 (en) | Speech and behavior control device, robot, control program, and control method for speech and behavior control device | |
JP2010283605A (en) | Video processing device and method | |
KR100567828B1 (en) | Apparatus And Method for Enhanced Voice Recognition | |
JP2004301893A (en) | Control method of voice recognition device | |
JPH06236196A (en) | Method and device for voice recognition | |
JP2006058641A (en) | Speech recognition device | |
JP2009104047A (en) | Information processing method and information processing apparatus | |
JP2005197867A (en) | System and method for conference progress support and utterance input apparatus | |
JP6772881B2 (en) | Voice dialogue device | |
JP5495612B2 (en) | Camera control apparatus and method | |
JP6851491B2 (en) | Voice dialogue control device and voice dialogue control method | |
JP2017146402A (en) | Learning support device and program | |
JP5476760B2 (en) | Command recognition device | |
JPH10326175A (en) | Voice indication device, and voice indication information storage medium | |
JP2007041302A (en) | Voice reproducing apparatus and voice reproduction processing program | |
JP2002123282A (en) | Translation device and recording medium | |
JP4672152B2 (en) | Audio output control device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20071017 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20101220 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110215 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110414 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20110712 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111011 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20111019 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20111213 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20111226 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150120 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4904691 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |