JP4197419B2 - camera - Google Patents
camera Download PDFInfo
- Publication number
- JP4197419B2 JP4197419B2 JP2002283072A JP2002283072A JP4197419B2 JP 4197419 B2 JP4197419 B2 JP 4197419B2 JP 2002283072 A JP2002283072 A JP 2002283072A JP 2002283072 A JP2002283072 A JP 2002283072A JP 4197419 B2 JP4197419 B2 JP 4197419B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- camera
- image
- dictionary
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Camera Bodies And Camera Details Or Accessories (AREA)
- Indication In Cameras, And Counting Of Exposures (AREA)
- Television Signal Processing For Recording (AREA)
- Studio Devices (AREA)
Description
【0001】
【発明の属する技術分野】
本発明は、被写体の撮影を行なうカメラに関する。
【0002】
【従来の技術】
従来より、入力された音声を認識して文字データに変換し、変換された文字列を撮影画像と合成して、その画像に対するコメントを表示することにより、多数の画像の中から所望の画像を容易に見つけ出すことができるカメラが提案されている(例えば、特許文献1参照)。
【0003】
また、入力された音声の大きさ(アナログ量)に応じた分だけパン・チルト角等を変化させるカメラが提案されており、さらにこのカメラの変形例として複数のユーザのデフォルトの発声を登録しておき、登録されたデフォルトの発声と複数のユーザそれぞれの発声とを比較することにより、音声認識を行なう技術が提案されている(例えば、特許文献2参照)。
【0004】
【特許文献1】
特開平9−252453号公報(段落番号0017、第1図)
【特許文献2】
特開2000−284794号公報(段落番号0013−段落番号0023、第1図、および段落番号0034−段落番号0037)
【0005】
【発明が解決しようとする課題】
入力された音声を認識して各種の制御を行なうカメラにおいて、そのカメラを使用するユーザの音声に適切な音声辞書を用いて音声認識を行なうと、高い精度で音声認識を行なうことができる。しかし、特許文献1には、このような技術については提案されていない。また、特許文献2には、予め登録されたデフォルトの発声と複数のユーザそれぞれの発声とを比較することにより音声認識を行なう技術が提案されているものの、どのようにして複数のユーザの中から使用するユーザ(話者)を特定しその話者の音声に適切な音声辞書を選択するかというような技術は提案されていない。
【0006】
本発明は、上記事情に鑑み、簡単な操作で話者の音声に適切な音声辞書を選択することができるカメラを提供することを目的とする。
【0007】
【課題を解決するための手段】
上記目的を達成する本発明のカメラは、被写体の撮影を行なうカメラにおいて、
音声をピックアップするマイクロホンと、
所定の単語が入力されたか否かを判定し、所定の単語が入力されたと判定された場合に上記マイクロホンから入力された複数の話者それぞれの音声に基づきその音声の話者の音声上の特徴を抽出して複数の話者それぞれの音声辞書を作成するとともに各音声辞書と各話者を認識するための各シンボル画像とを対応づける音声辞書作成部と、
画像を表示する画像表示部と、
上記画像表示部に前記シンボル画像一覧を表示させ、そのシンボル画像一覧の中のいずれかのシンボル画像を操作により選択させることにより選択されたシンボル画像に対応する音声辞書を選択する音声辞書選択部と、
上記マイクロホンから入力された音声を上記音声辞書選択部により選択された音声辞書を用いて認識して認識された音声に応じた制御を行なう音声制御部とを備えたことを特徴とする。
【0008】
本発明のカメラは、複数の話者それぞれの音声上の特徴を抽出して複数の話者それぞれの音声辞書を作成するとともに、作成された各音声辞書と各話者を認識するための各シンボル画像との対応づけを行ない、音声制御にあたり、シンボル画像一覧の中からカメラ使用者である話者の音声に対応するシンボル画像を選択すれば済む。従って、話者の音声に適切な音声辞書を簡単に選択することができる。
【0009】
【発明の実施の形態】
以下、本発明の実施形態について説明する。
【0010】
図1は、本発明の一実施形態のカメラの外観図である。図1(a)は正面図、(b)は上面図、(c)は側面図、(d)は背面図である。
【0011】
図1(a)〜(d)に示すカメラ100は、被写体を撮像素子上に結像させてその被写体を表わす画像信号を取り込む撮影を行なうデジタルカメラである。また、このカメラ100は、入力された音声を認識して種々の操作を行なうデジタルカメラである。
【0012】
図1(a)に示すように、本実施形態のカメラ100の正面には、撮影ズームレンズ101と、音声をピックアップするマイクロホン151が備えられている。このカメラ100は、詳細は後述するが、マイクロホン151から入力された音声を認識し認識された音声に応じた、例えば上記撮影ズームレンズ101のズームアップ(テレ側への移動)やズームダウン(ワイド側への移動)等の音声制御を行なう。また、このカメラ100の上部には、閃光を発光する閃光発光管105aを有する閃光発光装置105が配備されている。
【0013】
さらに、図1(d)に示すように、カメラ100の背面にはユーザがこのカメラ100を使用するときに種々の操作を行なうための操作部120が設けられている。
【0014】
この操作部120には、カメラ100を作動させるための電源投入用の電源スイッチ121、撮影と再生とを自在に切り替える撮影・再生切替レバー122、オート撮影やマニュアル撮影等を選択するための撮影モードダイヤル123、各種のメニューの設定や選択あるいはズームを行なうための十字スイッチ124、閃光発光用のスイッチ125、および十字スイッチ124で選択されたメニューの実行を行なうための実行スイッチ126a,キャンセルを行なうためのキャンセルスイッチ126bが備えられている。
【0015】
また、カメラ100の背面には、撮影画像や再生画像等を表示するための画像表示LCD102(本発明にいう画像表示部の一例に相当)と、操作の手助けを行なうための操作表示LCD103と、スピーカ152とが備えられている。
【0016】
さらに、図1(b)に示すように、このカメラ100の上面にはレリーズ釦104が配備されている。このレリーズ釦104によって撮影の開始指示がカメラ100の内部に備えられた、後述するメインCPUへと伝えられる。このカメラ100では撮影・再生切替レバー122によって撮影と再生との切り替えが自在になっていて、撮影を行なうときにはユーザによって撮影・再生切替レバー122が撮影側122aに切り替えられ、再生を行なうときには撮影・再生切替レバー122が再生側122bに切り替えられる。
【0017】
さらに、図1(c)に示すように、カメラ100の側面には、このカメラ100により撮影された被写体の画像信号をテレビやプロジェクタ等に出力するためのケーブルが接続される映像出力端子106と、このカメラ100により撮影された被写体の画像信号をUniversal Serial Bus(USB)端子が備えられたパーソナルコンピュータ等に出力し、およびこのようなパーソナルコンピュータ等からカメラ100に画像信号を入力するためのケーブルが接続されるUSB端子107と、ACアダプタからの直流電圧が入力される直流電圧入力端子108とが備えられている。
【0018】
図2は、図1に示すカメラの回路構成を示すブロック図である。
【0019】
このカメラ100には、前述した撮影ズームレンズ101と、絞り131と、それら撮影ズームレンズ101および絞り131を経由して結像された被写体像をアナログの画像信号に変換する撮像素子であるCCDセンサ132とが備えられている。CCDセンサ132は、そのCCDセンサ132に照射された被写体光により発生した電荷を可変の電荷蓄積時間の間蓄積することにより画像信号を生成するものである。
【0020】
また、このカメラ100には、CCDセンサ132からのアナログ画像信号が表わす被写体像のホワイトバランスを合わせるとともにその被写体像の階調特性における直線の傾き(γ)を調整する白バランス・γ処理部133が備えられている。
【0021】
さらに、カメラ100には、白バランス・γ処理部133からのアナログ信号をデジタルの画像データにA/D変換するA/D部134と、そのA/D部134からの画像データを格納するバッファメモリ135が備えられている。
【0022】
また、カメラ100には、CG(クロックジェネレータ)部136と、測光・測距用CPU137と、充電・発光制御部138と、YC処理部140と、電源141とが備えられている。
【0023】
CG部136は、CCDセンサ132を駆動するための駆動信号、白バランス・γ処理部133,A/D部134を制御するための制御信号を出力する。また、このCG部136には、測光・測距用CPU137からの制御信号が入力される。
【0024】
測光・測距用CPU137は、撮影ズームレンズ101,絞り131を図示しない手段で駆動することにより測光や測距を行ない、CG部136および充電・発光制御部138を制御する。さらに、この測光・測距用CPU137は、後述するメインCPU145との間でデータ通信を行なう。
【0025】
充電・発光制御部138は,閃光発光管105aを発光させるために電源141からの電力の供給を受けて図示しない閃光発光用のコンデンサを充電したり、その閃光発光管105aの発光を制御する。
【0026】
YC処理部140は、バッファメモリ135に格納された画像データをバスライン142を介して読み出し、輝度信号(Y)と色信号(C)に分離されたカラー映像信号YCを生成する。生成されたカラー映像信号YCは、映像出力端子106(図1(c)参照)から出力される。
【0027】
電源141は、このカメラ100の各部に電力を供給する。
【0028】
さらに、カメラ100には、圧縮・伸長&ID抽出部143と、I/F部144が備えられている。圧縮・伸長&ID抽出部143は、バッファメモリ135に格納された画像データを、バスライン142を介して読み出して圧縮し、I/F部144を経由してメモリカード200に格納する。また、圧縮・伸長&ID抽出部143は、メモリカード200に格納された画像データの読み出しにあたり、メモリカード200固有の識別番号(ID)を抽出し、そのメモリカード200に格納された画像データを読み出して伸長し、バッファメモリ135に格納する。
【0029】
また、カメラ100には、メインCPU145と、EEPROM146と、YC/RGB変換部147と、表示用のドライバ148とが備えられている。
【0030】
メインCPU145は、このカメラ100全体の制御を行なう。
【0031】
EEPROM146には、このカメラ100固有の固体データ等が格納されている。
【0032】
YC/RGB変換部147は、YC処理部140で生成されたカラー映像信号YCを3色のRGB信号に変換して表示用のドライバ148を経由して画像表示LCD102に出力する。
【0033】
さらに、カメラ100には、前述したマイクロホン152と、フィルタ153と、A/D部154と、音声辞書作成部155と、音声辞書メモリ156と、音声辞書選択部157と、音声制御部158とが備えられている。
【0034】
マイクロホン152には、複数のユーザ(話者)からの音声が入力される。マイクロホン152から入力された複数の話者それぞれの音声は、アナログの電気信号に変換されてフィルタ153に向けて出力される。
【0035】
フィルタ153は、マイクロホン152からのアナログの電気信号の、必要帯域以外の周波数成分を除去して、A/D部154に向けて出力する。
【0036】
A/D部154は、フィルタ153からのアナログ電気信号をデジタル信号に変換する。
【0037】
音声辞書作成部155は、A/D部154からのデジタル信号に基づいて、複数の話者の音声上の特徴を抽出して複数の話者それぞれの音声辞書を作成するとともに各音声辞書と各話者を認識するための各シンボル画像とを対応づけて、メモリカード200に記憶する。詳細については後述する。
【0038】
音声辞書選択部157は、画像表示LCD102にシンボル画像の一覧を表示させ、そのシンボル画像一覧の中のいずれかのシンボル画像を、操作部120の十字スイッチ124の操作により選択させることにより選択されたシンボル画像に対応する音声辞書を選択する。選択された音声辞書は、音声辞書メモリ156に格納される。
【0039】
音声制御部158は、マイクロホン151から入力された音声を、音声辞書選択部157により選択され音声辞書メモリ156に格納された音声辞書を用いて認識し、認識された音声に応じた制御を行なう。ここで、音声制御の例について説明する。
【0040】
本実施形態では、話者の基本的な言葉の入力による声紋が音声辞書メモリ156に格納される。ここで、基本的な言葉はカメラ100の撮影時に使用される言葉と同じでもよく、あるいは関係のない言葉(例えば「あいうえお」等)でもよい。カメラ100の撮影時に使用される言葉とカメラ100の動作の関係の例としては、以下のものがある。
【0041】
「撮影」と発音すると、カメラ100ではシャッタレリーズ動作を行なう。また、「ズームアップ」と発音すると撮影ズームレンズ101をテレ側に移動し、「ズームダウン」と発音すると撮影ズームレンズ101をワイド側に移動する。さらに、「メニューオープン」と発音すると画像表示LCD102上に設定画面を表示する。その状態で、「アップ」と発音するとメニュー選択項目をアップ(繰り上げ)し、「ダウン」と発音するとメニュー選択項目をダウン(繰り下げ)する。また、「セット」と発音するとメニュー選択項目を確定し、「キャンセル」と発音するとメニュー選択項目を取り消す。さらに、「再生」と発音すると撮影画像を再生し、「送り」と発音すると再生画像のコマ送りを行ない、「戻し」と発音すると再生画像のコマを1つ戻す。
【0042】
図3は、メモリカードに記録された画像ファイルと音声辞書とを示す図である。
【0043】
前述したように、音声辞書作成部155により、複数の話者の音声上の特徴が抽出されて複数の話者それぞれの音声辞書が作成されるとともに各音声辞書が各話者を認識するための各シンボル画像に対応づけられる。これら対応づけられた各音声辞書と各シンボル画像は、この図3に示すように、メモリカード200に記憶される。ここでは、シンボル画像としての画像ファイル1とその画像ファイル1に対応づけられた音声辞書1とのペア、シンボル画像としての画像ファイル2とその画像ファイル2に対応づけられた音声辞書2とのペア等が記憶される。
【0044】
本実施形態のカメラ100は、複数の話者それぞれの音声上の特徴を抽出して複数の話者それぞれの音声辞書を作成するとともに、作成された各音声辞書と各話者を認識するための各シンボル画像との対応づけを行なっておき、そのカメラ100の使用にあたっては、シンボル画像一覧の中からそのカメラ100を使用するユーザに対応するシンボル画像を操作により選択し、そのユーザ(話者)に対応する音声辞書を選択して音声認識するものである。以下、詳細に説明する。
【0045】
図4は、図3に示す画像ファイルからなるシンボル画像一覧を示す図である。
【0046】
このシンボル画像一覧160は、家族のシンボル画像からなるものであり、画像表示LCD102上に表示される。具体的には、「父親」のシンボル画像161(上記画像ファイル1に相当)と、「息子」のシンボル画像162(上記画像ファイル2に相当)と、「母親」のシンボル画像163と、「娘」のシンボル画像164とが表示されている。このような家族が音声でカメラ100を操作する場合、先ず音声辞書を作成する必要がある。
【0047】
図5は、本実施形態のカメラの、音声辞書作成ルーチンのフローチャートである。
【0048】
ここでは、図4に示す「息子」のシンボル画像162用の音声辞書のファイルを作成する場合について説明するが、その他のシンボル画像161,163,164用の音声辞書のファイルを作成する場合についても同様である。
【0049】
撮影・再生切替レバー122が再生側122bに切り替えられた状態で電源スイッチ121が押されてカメラ100に電源が投入され、十字スイッチ124で個人設定モードが選択されて実行スイッチ126aが操作されると、この音声辞書作成ルーチンが開始する。
【0050】
先ず、ステップS1において、音声入力が許可されてステップS2に進む。ステップS2では、所定の単語(ここでは「息子」により発声される単語)が入力されたか否かが判定される。所定の単語が入力されない場合は、所定の単語が入力されるまでこのステップS2を繰り返し実行する。所定の単語が入力されたと判定された場合はステップS3に進む。
【0051】
ステップS3では、音声の特徴を抽出してステップS4に進む。ステップS4では、音声辞書ファイルを作成する。
【0052】
次に、ステップS5において、関連付ける画像ファイルを選択する。ここでは、図4に示すように、画像表示LCD102にシンボル画像一覧160を表示しておき、「息子」のシンボル画像162を選択して、実行スイッチ126aを操作する。すると、ステップS6において、音声辞書ファイルを画像ファイルと関連付けて記録メディアとしてのメモリカード200に記録して、このルーチンを終了する。
【0053】
図6は、本実施形態のカメラの、音声辞書選択ルーチンのフローチャートである。
【0054】
ここでは、図4に示す「息子」のシンボル画像162用の音声辞書を選択する場合について説明する。
【0055】
撮影・再生切替レバー122が再生側122bに切り替えられた状態で電源スイッチ121が押されてカメラ100に電源が投入され、十字スイッチ124で個人特定モードが選択されて実行スイッチ126aが操作されると、この音声辞書選択ルーチンが開始する。
【0056】
先ず、ステップS21において、記録メディア(メモリカード200)から画像を読み込んでステップS22に進む。ステップS22では、画像一覧データ(シンボル画像一覧)を作成する。次に、ステップS23において、画像一覧を再生してステップS24に進む。
【0057】
ステップS24では、使用者の画像(ここでは「息子」の画像)が選択されたか否かが判定される。使用者の画像が選択されない場合は、使用者の画像が選択されるまでこのステップS24を繰り返し実行する(具体的には、「息子」の画像が選択されるまで十字スイッチ124を操作する)。使用者の画像が選択されたと判定された場合は実行スイッチ126aを操作することによりステップS25に進む。
【0058】
ステップS25では、画像と関連付けられた音声辞書を読み込む。次に、ステップS26において、カメラ本体の音声辞書格納場所(音声辞書メモリ156)に格納して、このルーチンを終了する。
【0059】
図7は、本実施形態のカメラの、音声辞書メモリに格納された音声辞書を使って音声を認識して、そのカメラを制御するルーチンのフローチャートである。
【0060】
撮影・再生切替レバー122が撮影側122aに切り替えられた状態で電源スイッチ121が押されてカメラ100に電源が投入されると、このルーチンが開始する。
【0061】
先ず、ステップS31において、音声入力モードが選択されたか否か(十字スイッチ124による選択)が判定される。音声入力モードが選択されない場合は、ステップS37に進み、通常の操作を実行する。音声入力モードが選択されたと判定された場合はステップS32に進む。
【0062】
ステップS32では、音声入力があるか否かが判定される。音声入力がないと判定された場合は、音声入力があるまでステップS32を繰り返し実行する。音声入力があったと判定された場合はステップS33に進む。ステップS33では、音声辞書を利用して認識を行なう。
【0063】
次に、ステップS34において、有効なコマンド、即ち前述した「撮影」,「ズームアップ」等の音声であるか否かが判定される。有効なコマンドであると判定された場合はステップS35においてそのコマンドを実行し、ステップS31に戻る。一方、有効なコマンドではないと判定された場合はステップS36において画像表示LCD102に警告表示をしてステップS31に戻る。
【0064】
尚、本実施形態では、音声辞書作成部155が各音声辞書と各シンボル画像との対応づけを行なってメモリカード200に記録する例で説明したが、本発明にいう音声辞書作成部は、各音声辞書と各シンボル画像との対応づけを行なうものであればよい。
【0065】
また、本実施形態では、音声制御部158が音声辞書メモリ156に格納された音声辞書を用いて認識する例で説明したが、本発明にいう音声制御部は、音声辞書選択部により選択された音声辞書を用いて音声を認識するものであればよい。
【0066】
【発明の効果】
以上説明したように、本発明のカメラによれば、簡単な操作で話者の音声に適切な音声辞書を選択することができる。
【図面の簡単な説明】
【図1】本発明の一実施形態のカメラの外観図である。
【図2】図1に示すカメラの回路構成を示すブロック図である。
【図3】メモリカードに記録された画像ファイルと音声辞書とを示す図である。
【図4】図3に示す画像ファイルからなるシンボル画像一覧を示す図である。
【図5】本実施形態のカメラの、音声辞書作成ルーチンのフローチャートである。
【図6】本実施形態のカメラの、音声辞書選択ルーチンのフローチャートである。
【図7】本実施形態のカメラの、音声辞書メモリに格納された音声辞書を使って音声を認識して、そのカメラを制御するルーチンのフローチャートである。
【符号の説明】
100 カメラ
101 撮影ズームレンズ
102 画像表示LCD
103 操作表示LCD
104 レリーズ釦
105 閃光発光装置
105a 閃光発光管
106 映像出力端子
107 USB端子
108 直流電圧入力端子
120 操作部
121 電源スイッチ
122 撮影・再生切替レバー
123 撮影モードダイヤル
124 十字スイッチ
125 閃光発光用スイッチ
126a 実行スイッチ
126b キャンセルスイッチ
131 絞り
132 CCDセンサ
133 白バランス・γ処理部
134,154 A/D部
135 バッファメモリ
136 CG部
137 測光・測距用CPU
138 充電・発光制御部
139 通信制御部
140 YC処理部
141 電源
142 バスライン
143 圧縮・伸長&ID抽出部
144 I/F部
145 メインCPU
146 EEPROM
147 YC/RGB変換部
148 ドライバ
151 マイクロホン
152 スピーカ
153 フィルタ
155 音声辞書作成部
156 音声辞書メモリ
157 音声辞書選択部
158 音声制御部
160 シンボル画像一覧
161,162,163,164 シンボル画像
200 メモリカード[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a camera for photographing a subject.
[0002]
[Prior art]
Conventionally, an input voice is recognized and converted into character data, the converted character string is combined with a photographed image, and a comment on the image is displayed, so that a desired image can be selected from many images. A camera that can be easily found has been proposed (see, for example, Patent Document 1).
[0003]
In addition, a camera that changes the pan / tilt angle etc. by an amount corresponding to the input sound volume (analog amount) has been proposed. Further, as a modified example of this camera, default utterances of a plurality of users are registered. A technique for performing speech recognition by comparing a registered default utterance with the utterances of each of a plurality of users has been proposed (see, for example, Patent Document 2).
[0004]
[Patent Document 1]
Japanese Patent Laid-Open No. 9-252453 (paragraph number 0017, FIG. 1)
[Patent Document 2]
JP 2000-284794 (paragraph number 0013-paragraph number 0023, FIG. 1, and paragraph number 0034-paragraph number 0037)
[0005]
[Problems to be solved by the invention]
In a camera that recognizes input voice and performs various controls, if voice recognition is performed using a voice dictionary appropriate for the voice of a user who uses the camera, voice recognition can be performed with high accuracy. However,
[0006]
In view of the above circumstances, an object of the present invention is to provide a camera that can select a speech dictionary appropriate for a speaker's voice with a simple operation.
[0007]
[Means for Solving the Problems]
The camera of the present invention that achieves the above object is a camera for photographing a subject.
A microphone that picks up the sound,
It is determined whether or not a predetermined word has been input, and when it is determined that the predetermined word has been input , the voice characteristics of the speaker based on the respective voices of the plurality of speakers input from the microphone A speech dictionary creating unit that creates a speech dictionary for each of the plurality of speakers and associates each speech dictionary with each symbol image for recognizing each speaker;
An image display unit for displaying an image;
A speech dictionary selection unit that displays the symbol image list on the image display unit and selects a speech dictionary corresponding to the selected symbol image by operating any symbol image in the symbol image list by operation; ,
And a voice control unit that performs control in accordance with the voice recognized by recognizing the voice input from the microphone using the voice dictionary selected by the voice dictionary selection unit.
[0008]
The camera of the present invention extracts voice features of each of a plurality of speakers to create a speech dictionary for each of the plurality of speakers, and each created speech dictionary and each symbol for recognizing each speaker Correspondence with images is performed, and for voice control, a symbol image corresponding to the voice of a speaker who is a camera user is selected from the symbol image list. Therefore, it is possible to easily select a speech dictionary appropriate for the speaker's voice.
[0009]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, embodiments of the present invention will be described.
[0010]
FIG. 1 is an external view of a camera according to an embodiment of the present invention. 1A is a front view, FIG. 1B is a top view, FIG. 1C is a side view, and FIG.
[0011]
A
[0012]
As shown in FIG. 1A, a photographing
[0013]
Further, as shown in FIG. 1D, an
[0014]
The
[0015]
An image display LCD 102 (corresponding to an example of an image display unit according to the present invention) for displaying a photographed image, a reproduced image, and the like on the back of the
[0016]
Further, as shown in FIG. 1B, a
[0017]
Furthermore, as shown in FIG. 1C, a
[0018]
FIG. 2 is a block diagram showing a circuit configuration of the camera shown in FIG.
[0019]
The
[0020]
The
[0021]
The
[0022]
Further, the
[0023]
The
[0024]
The photometry / ranging
[0025]
The charging / light
[0026]
The
[0027]
A
[0028]
Further, the
[0029]
The
[0030]
The
[0031]
The
[0032]
The YC /
[0033]
The
[0034]
Voices from a plurality of users (speakers) are input to the
[0035]
The
[0036]
The A /
[0037]
Based on the digital signal from the A /
[0038]
The voice
[0039]
The voice control unit 158 recognizes the voice input from the
[0040]
In the present embodiment, a voice print by inputting a basic word of a speaker is stored in the
[0041]
When “shooting” is pronounced, the
[0042]
FIG. 3 is a diagram showing an image file and an audio dictionary recorded on the memory card.
[0043]
As described above, the voice
[0044]
The
[0045]
FIG. 4 is a diagram showing a list of symbol images made up of the image files shown in FIG.
[0046]
The
[0047]
FIG. 5 is a flowchart of an audio dictionary creation routine of the camera of this embodiment.
[0048]
Here, the case of creating a speech dictionary file for the
[0049]
When the
[0050]
First, in step S1, voice input is permitted and the process proceeds to step S2. In step S2, it is determined whether or not a predetermined word (here, a word uttered by “son”) has been input. If the predetermined word is not input, this step S2 is repeatedly executed until the predetermined word is input. If it is determined that a predetermined word has been input, the process proceeds to step S3.
[0051]
In step S3, the voice feature is extracted and the process proceeds to step S4. In step S4, an audio dictionary file is created.
[0052]
Next, in step S5, an image file to be associated is selected. Here, as shown in FIG. 4, a
[0053]
FIG. 6 is a flowchart of an audio dictionary selection routine of the camera of this embodiment.
[0054]
Here, the case where the speech dictionary for the
[0055]
When the
[0056]
First, in step S21, an image is read from the recording medium (memory card 200), and the process proceeds to step S22. In step S22, image list data (symbol image list) is created. Next, in step S23, the image list is reproduced and the process proceeds to step S24.
[0057]
In step S <b> 24, it is determined whether or not the user image (here, “son” image) has been selected. If the user's image is not selected, this step S24 is repeatedly executed until the user's image is selected (specifically, the
[0058]
In step S25, the voice dictionary associated with the image is read. Next, in step S26, it is stored in the voice dictionary storage location (voice dictionary memory 156) of the camera body, and this routine is terminated.
[0059]
FIG. 7 is a flowchart of a routine for controlling the camera by recognizing the voice using the voice dictionary stored in the voice dictionary memory of the camera of the present embodiment.
[0060]
This routine starts when the
[0061]
First, in step S31, it is determined whether or not the voice input mode has been selected (selected by the cross switch 124). If the voice input mode is not selected, the process proceeds to step S37 and a normal operation is performed. If it is determined that the voice input mode has been selected, the process proceeds to step S32.
[0062]
In step S32, it is determined whether there is a voice input. If it is determined that there is no voice input, step S32 is repeatedly executed until there is a voice input. If it is determined that there is a voice input, the process proceeds to step S33. In step S33, recognition is performed using a speech dictionary.
[0063]
Next, in step S34, it is determined whether or not the command is a valid command, that is, the voice such as “shooting” and “zoom-up” described above. If it is determined that the command is valid, the command is executed in step S35, and the process returns to step S31. On the other hand, if it is determined that the command is not valid, a warning is displayed on the
[0064]
In the present embodiment, the speech
[0065]
In this embodiment, the voice control unit 158 recognizes the voice dictionary stored in the
[0066]
【The invention's effect】
As described above, according to the camera of the present invention, it is possible to select a voice dictionary appropriate for the voice of the speaker with a simple operation.
[Brief description of the drawings]
FIG. 1 is an external view of a camera according to an embodiment of the present invention.
2 is a block diagram showing a circuit configuration of the camera shown in FIG. 1. FIG.
FIG. 3 is a diagram showing an image file and an audio dictionary recorded on a memory card.
4 is a diagram showing a list of symbol images made up of the image files shown in FIG. 3. FIG.
FIG. 5 is a flowchart of an audio dictionary creation routine of the camera of the present embodiment.
FIG. 6 is a flowchart of an audio dictionary selection routine of the camera of the present embodiment.
FIG. 7 is a flowchart of a routine for recognizing voice using a voice dictionary stored in a voice dictionary memory and controlling the camera of the camera according to the present embodiment.
[Explanation of symbols]
100
103 Operation display LCD
104
138 Charging / light emission control unit 139
146 EEPROM
147 YC /
Claims (1)
音声をピックアップするマイクロホンと、
所定の単語が入力されたか否かを判定し、所定の単語が入力されたと判定された場合に前記マイクロホンから入力された複数の話者それぞれの音声に基づき該音声の話者の音声上の特徴を抽出して該複数の話者それぞれの音声辞書を作成するとともに各音声辞書と各話者を認識するための各シンボル画像とを対応づける音声辞書作成部と、
画像を表示する画像表示部と、
前記画像表示部に前記シンボル画像一覧を表示させ、該シンボル画像一覧の中のいずれかのシンボル画像を操作により選択させることにより選択されたシンボル画像に対応する音声辞書を選択する音声辞書選択部と、
前記マイクロホンから入力された音声を前記音声辞書選択部により選択された音声辞書を用いて認識して認識された音声に応じた制御を行なう音声制御部とを備えたことを特徴とするカメラ。In a camera that shoots a subject,
A microphone that picks up the sound,
It is determined whether or not a predetermined word has been input, and when it is determined that a predetermined word has been input , the voice characteristics of the speaker based on the respective voices of the plurality of speakers input from the microphone A speech dictionary creation unit that creates a speech dictionary for each of the plurality of speakers and associates each speech dictionary with each symbol image for recognizing each speaker;
An image display unit for displaying an image;
A speech dictionary selection unit that displays the symbol image list on the image display unit and selects a speech dictionary corresponding to the selected symbol image by operating any symbol image in the symbol image list by operation; ,
A camera comprising: a voice control unit that recognizes voice input from the microphone using a voice dictionary selected by the voice dictionary selection unit and performs control according to the recognized voice.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002283072A JP4197419B2 (en) | 2002-09-27 | 2002-09-27 | camera |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002283072A JP4197419B2 (en) | 2002-09-27 | 2002-09-27 | camera |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004120526A JP2004120526A (en) | 2004-04-15 |
JP4197419B2 true JP4197419B2 (en) | 2008-12-17 |
Family
ID=32277056
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002283072A Expired - Fee Related JP4197419B2 (en) | 2002-09-27 | 2002-09-27 | camera |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4197419B2 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7697827B2 (en) | 2005-10-17 | 2010-04-13 | Konicek Jeffrey C | User-friendlier interfaces for a camera |
US8467672B2 (en) | 2005-10-17 | 2013-06-18 | Jeffrey C. Konicek | Voice recognition and gaze-tracking for a camera |
-
2002
- 2002-09-27 JP JP2002283072A patent/JP4197419B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2004120526A (en) | 2004-04-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7405754B2 (en) | Image pickup apparatus | |
US7456883B2 (en) | Method for displaying image in portable digital apparatus and portable digital apparatus using the method | |
US10334336B2 (en) | Method of controlling digital photographing apparatus and digital photographing apparatus using the same | |
US7689119B2 (en) | Digital camera that stores the location of an object | |
JPH1118042A (en) | Information recording and reproducing device and recording medium | |
JP4197419B2 (en) | camera | |
JP2005184485A (en) | Imaging apparatus, operation control method for the same, and program | |
KR100548006B1 (en) | Method for controlling digital photographing apparatus, and digital photographing apparatus using the method | |
KR20080112866A (en) | Method of controlling digital image processing apparatus wherein moving-picture photographing mode is performed, and digital image processing apparatus adopting the method | |
US20060044453A1 (en) | Method of controlling digital photographing apparatus, and digital photographing apparatus adopting the method | |
US20060082661A1 (en) | Method of controlling digital photographing apparatus for classification reproduction and digital photographing apparatus using the method | |
KR100604320B1 (en) | Method of controlling digital photographing apparatus for efficient replay operation | |
US7456893B2 (en) | Method of controlling digital image processing apparatus for efficient reproduction and digital image processing apparatus using the method | |
KR20040052020A (en) | Digital camera performing re-compression, and control method thereof | |
JP2012100214A (en) | Imaging apparatus, correction program, and recording medium | |
KR101464532B1 (en) | Digital image processing apparatus and method for controlling the same | |
JP2007266661A (en) | Imaging apparatus, information processor, and imaging display system | |
JP4438332B2 (en) | ELECTRONIC DEVICE, MONITOR DISPLAY METHOD AND PROGRAM USED FOR THE ELECTRONIC DEVICE | |
JP2007174278A (en) | Image display device, and image displaying method | |
KR101156683B1 (en) | Composite imaging method for digital image processing device | |
JP2004208276A (en) | Imaging device | |
US20060152613A1 (en) | Method and apparatus for displaying digital images | |
KR101058033B1 (en) | Dividing method, reproduction method and digital image processing device | |
US7595832B2 (en) | Method of controlling digital image processing apparatus for convenient reproduction | |
KR100627056B1 (en) | Method for controlling digital portable apparatus, and digital portable apparatus adopting the method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050318 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20061206 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070508 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070706 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080924 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080926 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111010 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4197419 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121010 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121010 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131010 Year of fee payment: 5 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |