JP2004363888A - Digital camera and image editing device using the same - Google Patents

Digital camera and image editing device using the same Download PDF

Info

Publication number
JP2004363888A
JP2004363888A JP2003159350A JP2003159350A JP2004363888A JP 2004363888 A JP2004363888 A JP 2004363888A JP 2003159350 A JP2003159350 A JP 2003159350A JP 2003159350 A JP2003159350 A JP 2003159350A JP 2004363888 A JP2004363888 A JP 2004363888A
Authority
JP
Japan
Prior art keywords
data
digital camera
image
item
additional information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003159350A
Other languages
Japanese (ja)
Inventor
Seiji Nagao
征司 長尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2003159350A priority Critical patent/JP2004363888A/en
Publication of JP2004363888A publication Critical patent/JP2004363888A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Television Signal Processing For Recording (AREA)
  • Studio Devices (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a digital camera in which additional information attached to image data is quickly, easily, and accurately inputted each time a picture is taken and editing processing for image data can be easily performed. <P>SOLUTION: The digital camera is equipped with a recording part 10 which performs encoding processing of a subject into image data and records the image data, a data input part 9 which adds contents of items of the image data as additional information by the items, a recording part 10 which processes inputted audio and records audio data, a plurality of conversion dictionary files which are classified and prepared by items and convert audio data corresponding to the contents into text data, and a speech recognition processing part 8 which converts the audio data into text data. Conversion dictionary files are selected, item by item, and the audio data are converted into the text data, which are added as additional information to the image data. <P>COPYRIGHT: (C)2005,JPO&NCIPI

Description

【0001】
【発明の属する技術分野】
本発明は、デジタルカメラ及びこれを用いた画像編処理システムの改良に関する。
【0002】
【従来の技術】
近年、アナログカメラに替わり、デジタルカメラが普及してきている。デジタルカメラには、以下に説明するような利点がある。
【0003】
例えば、撮影した映像をデジタルカメラのLCD等の表示装置でその場で見ることができる。撮影に失敗した映像の消去を行うことができる。撮影した映像をパーソナルコンピュータに採り込んで、画像の加工、編集をデジタル処理で容易に行うことができる。パーソナルコンピュータを用いて印刷したり、デジタルファイルとして画像を送信したりすることができる。パーソナルコンピュータに撮影画像を転送することにより劣化しないデジタル画像を保存できる。また、動画や音声のようなマルチメディアの画像を扱うことのできるデジタルカメラもある。
【0004】
このような理由で、パーソナルコンピュータの普及に伴って、デジタルカメラを利用するケースが多い。近時は、撮像素子CCDの技術の進歩に伴って、デジタルカメラはその画素数が増大し、200万画素〜300万画素以上の高画素のものが発売され、コンシューマー市場ばかりではなく、ビジネス市場にも幅広く、デジタルカメラが使用されるようになっている。業務用として使用するためには、撮影後の後工程を考慮して、撮影時点で様々な付加情報を入力することができるようにすることが不可欠である。
【0005】
この業務用として使用する場合、従来、アナログカメラでは、撮影時に被写体の近くに黒板を設け、黒板に項目名とその内容を記載し、被写体と共に黒板を撮影して、被写体を分類するという作業を行っているが、この被写体の分類作業は面倒である。
【0006】
これに対して、デジタルカメラでは、従来から、そのセットアップモードで日時の設定、撮影者の氏名等を設定して、撮影した写真画像に日付入れ、撮影者名を入れることができるものがあり、これに、加えて、撮影画像に複数項目の内容を付加情報として添付して入力することができるようにしたものもある(例えば、特許文献1参照。)
この場合に、業務用途で使用するデジタルカメラでは、各業務で使用する付加情報の項目及びその内容は一義的に業務の内容により決まっている。例えば、自動車保険の関係では、その項目は、クレーム番号、車体番号、症状コード等である。
【0007】
また、例えば、土木関連では、図1に示すように、工事現場の撮影画像G1に、項目として、図2に示すような付加情報A1として「現場名称」、「工程名称1」、「工程名称2」、「工事担当会社」、「撮影者の氏名」を設け、各項目の内容を入力することができるようにしたデジタルカメラもある。その図2では、各項目の内容の欄に、各項目に対応させて「第3橋梁現場」、「橋梁強化」、「溶接工程」、「XX土木(株)」、「△△」のデータが入力されている。
【0008】
このように、デジタルカメラの普及に伴って、撮影された画像データに付加情報を付加してパーソナルコンピュータに転送し、付加情報A1毎に画像を分類、整理するという画像編集作業、画像管理作業が非常に容易になりつつある。
【0009】
【特許文献1】
特許第3092142号公報
【0010】
【発明が解決しようとする課題】
ところで、小型化を求められているデジタルカメラでは、撮影時に付加情報を添付するのは非常に困難である。
【0011】
例えば、撮影時にデジタルカメラの小さなキーを手で操作し、小さなLCD等の液晶画面を見ながら、付加データを入力することを強要するのは、困難である。
【0012】
また、画像データに音声データを付加情報として関連づけて音声認識することも特許文献1に記載され、音声認識には各種の手法が提案されているが、不特定話者、語彙数が増大すると認識性能は劣化する。
【0013】
すなわち、従来のデジタルカメラでは、画像データに添付される付加情報を迅速かつ手軽にしかも正確に入力し難いという不都合が残っている。
【0014】
本発明は、上記の事情に鑑みて為されたもので、その目的とするところは、画像データに添付される付加情報を撮影毎に迅速かつ手軽にしかも正確に入力することができ、画像データの編集処理が容易なデジタルカメラ及びこれを用いた画像編集処理システムを提供することを目的とする。
【0015】
【課題を解決するための手段】
請求項1に記載のデジタルカメラは、被写体を画像データとして符号化処理して該画像データを記録する記録部と、前記画像データに項目毎にその内容を付加情報として付加するデータ入力部と、入力された音声を処理して音声データを記録する記録部と、前記項目毎に分類して準備されかつその内容に対応する音声データをテキストデータに変換する複数個の変換辞書ファイルと、前記音声データをテキストデータに変換する音声認識処理部とを備え、項目毎に変換辞書ファイルを選択して前記音声データを前記テキストデータに変換して前記画像データに付加情報として添付することを特徴とする。
【0016】
請求項2に記載のデジタルカメラは、前記音声データから前記テキストデータへの変換を撮影実行後に実行することを特徴とする。
【0017】
請求項3に記載のデジタルカメラは、項目番号の入力と音声データの入力とにより自動的に音声データからテキストデータへの変換が実行されることを特徴とする。
【0018】
請求項4に記載のデジタルカメラは、前記音声データを前記テキストデータに変換後に音声データを保存するかしないかをユーザーが選択する選択手段を有することを特徴とする。
【0019】
請求項5に記載のデジタルカメラは、業務毎に分類された変換辞書ファイルを有することを特徴とする。
【0020】
請求項6に記載の画像編集処理システムは、請求項1ないし請求項4のいずれか1項に記載のデジタルカメラに、前記変換辞書ファイルの音声データとテキストデータとをユーザーが入力することを特徴とする。
【0021】
請求項7に記載の画像編集処理システムは、業務毎に分類された変換辞書ファイルを有することを特徴とする。
【0022】
【発明の実施の形態】
図3は本発明に係わるデジタルカメラのブロック回路図を示し、この図において、1はレンズ、2はメカニカルシャッター、3はCCDである。レンズ1、メカニカルシャッター2はドライバー部4によって駆動制御される。そのCCD3はCCD駆動回路部5によって駆動される。
【0023】
CCD3の映像出力信号は相関二重サンプリングを実行するCDS回路とアナログデジタル変換を実行するA/Dコンバータ部とを有する回路部6に入力され、アナログ・デジタル変換されて画像処理プロセッサ7に入力される。
【0024】
画像処理プロセッサ7は、そのデジタル信号を輝度データY、色差データU、Vデータに変換したり、そのYUVデータをJPEG圧縮したり、画像サイズを変更したり等の各種の符号化処理を実行する機能を有する。
【0025】
その画像処理プロセッサ7、ドライバー部4、CCD駆動回路部5はCPU8に接続され、このCPU8はこれらの回路を制御するのに用いられる他、このデジタルカメラを統括制御するのに用いられる。このCPU8は音声認識処理部を備えている。
【0026】
そのCPU8には操作入力部9が接続されると共に、メモリ部10、通信部11、メモリカードインターフェース部12、外部センサー部13が接続されている。外部センサー13は被写体までの距離を測距し、その測距情報はCPU8に入力され、CPU8はその測距情報に基づいてレンズ1の位置を制御する。
【0027】
メモリ部10はこのデジタルカメラによって撮像された画像データを一時的に保存すると共に、後述するメモリカード等の画像ファイルからのリードデータを一時的に保存する役割を有すると共に、画像処理プロセッサ7、CPU8のワークメモリ部としても使用される。ここでは、そのメモリ部10には複数個の変換辞書ファイルが保存されている。
【0028】
メモリカードインターフェース部12はデジタルカメラに対して着脱可能な図示を略すメモリカード(外部ストレージカードともいう)が装着されて、メモリカードとCPU8との間で画像データの授受が行われる。通信部11はパーソナルコンピュータ等の端末処理装置14に接続可能であり、この通信部11は変換辞書ファイルをパーソナルコンピュータ等の端末処理装置14から採り込んだり、デジタルカメラにより撮像された画像データを端末処理装置14に送信したりするのに用いられる。
【0029】
画像処理プロセッサ7は表示部15、音声CODEC16に接続され、表示部15は表示コントローラ部とLCD表示装置とからなり、表示コントローラ部は画像処理プロセッサ7からの映像信号をLCD表示装置が表示可能な信号に変換し、LCD表示装置はその画像を表示し、撮影時にはモニタリングの画像を表示したり、再生画像を表示したり、複数の撮影画像を表示するサムネイル画像表示モードも有する。
【0030】
音声CODEC16は、アナログデジタル変換部として機能し、入力アナログ部17、出力アナログ部18に接続され、入力アナログ部17は図示を略すマイクからの音声信号を音声CODEC16に出力し、音声CODEC16はそのアナログ信号を音声データに変換する。その音声データは画像処理プロセッサ7に画像データに付加すべき付加情報として入力され、CPU8によりメモリ部10に保存される。また、そのメモリ部10に保存されている音声データは、音声CODEC16によってアナログ信号に変換され、出力アナログ部18によってアナログ信号に変換され、マイクを通じて音声に変換される。なお、符号19はカメラの電源である。
【0031】
操作入力部9は各種のスイッチ部からなり、スイッチ部は、例えば、レリーズキー、ズーム操作キー、電源キー等の各種のキーを有し、これらの各種のキーは、変換辞書ファイルを指定するため、項目の番号を選択するため、音声データを保存するか破棄するかを選択する選択手段にも用いられる。
【0032】
その画像データに付加すべき付加情報には複数個の項目があり、その図4(a)は音声データと変換すべきテキストデータとの対応関係を示す変換辞書ファイルB1の一例であり、左側の欄が変換後の「文字」を示し、右側の欄が音声データを示している。ここでは、項目番号「3」の「工程名称2」の変換辞書ファイルが示され、例えば「いっぱんこうてい」と発音される音声データは、文字「一般工程」というテキストデータに変換されることを示している。同様に、図4(b)は、項目番号「5」の「撮影者の氏名」の変換辞書ファイルB2の例を示し、左側の欄が変換後の「文字」を示し、右側の欄が音声データを示し、例えば、「すずき」と発音された音声データは文字「鈴木」というテキストデータに変換されることを示している。
【0033】
また、静止画像G1のデータの基本構造G2は、図5に示す通りであり、この例では、静止画像データには、Exif圧縮ファイルを用い、付加情報のフォーマット(付加データ構造)F1にはアプリケーションマーカセグメント5(APP5)を使用し、その構造は、詳細には項目エリアG3と内容エリアG4とに分割され、項目エリアG3は項目番号「1」から項目番号「n」に分割され、内容エリアG4はその項目番号「1」から項目番号「n」に対応して分割されている。その項目エリアG3はテキストデータエリアとして使用され、その内容エリアG4は音声データエリアとテキストデータエリアとして使用される。
【0034】
ここでは、撮影後に音声認識変換処理を行うものとして説明する。
【0035】
撮影画像データに付加すべき付加情報としての項目には、例えば、土木関連工事では、図2に示したように、項目番号1の「現場名称」、項目番号2の「工程名称1」、項目番号3の「工程名称2」、項目番号4の「工事担当会社」、項目番号5の「撮影者の氏名」等があるが、このうち、現場名称は工事の期間中変更することはなく、工程名称1は概括名称であるので、頻繁に変更されることは少なく、工事担当会社も固定的であるので、これらについては、被写体を撮影する前にあらかじめ画像データに関連させて付加すべき付加情報として、キー等のデータ入力部を利用してその内容をテキストデータとして入力させておくものとする。これに対して、工程名称2は詳細な工程を示すもので、頻繁に変更される可能性があり、撮影者の氏名も撮影担当が変わるたびに変更されるものである。そこで、これらについては、撮影後に音声を利用して入力することにする。
【0036】
まず、音声データを入力すべき項目の欄、例えば、項目3の「工程名称2」と項目5の「撮影者の氏名」とに音声データを入力するときには、キー操作により「工程名称2」に対応する項目番号「3」を入力して、例えば、「ようせつこうてい」と発音する。すると、CPU8は付加情報として、「項目3」の「工程名称2」に対応する「内容」の欄に「ようせつこうてい」という音声に対応する「音声データ」を撮影画像データに関連づけてメモリ10に保存する。
【0037】
次に、キー操作により「撮影者の氏名」に対応する項目番号「5」を入力して、例えば、「すずき」と発音すると、CPU8は付加情報として、「項目5」の「撮影者の氏名」に対応する「内容」の欄に「すずき」という音声に対応する「音声データ」を撮影画像データに関連づけてメモリ10に保存する。
【0038】
図6(a)はその静止画像データG1に関連づけられる付加情報のうち、項目番号「3」に「ようせつこうてい」という音声データが撮影画像G1に関連づけられて保存されていると共に項目番号「5」に「すずき」という音声データが撮影画像G1に関連づけられて保存されている状態を示している。
【0039】
ついで、音声変換処理開始のキーを操作すると、図7に示すように、メモリ部10に保存されている撮影ファイルから、項目の番号とその番号に対応する音声データとが、順次CPU8の音声認識処理システムに取り込まれる(S.1)。次に、音声認識処理システムは、項目の番号に対応する変換辞書ファイルB1を選択してロードする(S.2)。ついで、その変換辞書ファイルB1の中から音声データに対応する文字を探索して音声認識モジュールを用いて音声データをテキストデータに変換する(S.3)。
【0040】
ついで、ユーザーは音声データを保存したままとするか、破棄してからテキストデータを保存するかを選択する(S.4)。音声データを保存したまま保存するを選択した場合には、音声データと共にテキストデータとが撮影ファイルに関連する付加情報として保存される(S.5)。例えば、項目番号「3」の音声変換処理の場合には、「ようせつこうてい」という音声データと共に「溶接工程」という文字がテキストデータとして項目番号「3」に対応する「工程名称2」の内容の欄に保存される。また、音声データを破棄して保存するを選択した場合には、テキストデータのみが撮影ファイルに関連する付加情報として保存される(S.6)。従って、ここでは、この場合には、「工程名称2」の内容の欄には「溶接工程」というテキストデータのみが保存されることになる。
【0041】
音声認識処理システムは、他の項目に音声データがあるかないかを自動的に判断する(S.7)。他の項目に音声データがある場合には、ステップS.1に戻って、ステップS.1からS.7までの処理を繰り返す。ここでは、項目番号「5」に対応する内容の欄に音声データが関連づけられて保存されているので、S.1からS.7までの処理が再度実行され、「鈴木」という文字がテキストデータとして項目番号「5」に対応する「撮影者の氏名」の内容の欄に保存される。
【0042】
すなわち、図6(b)に示すように、その静止画像G1のデータに関連づけられる付加情報の音声データが変換されて、「溶接工程」という文字、「鈴木」という文字がテキストデータとして静止画像G1のデータに関連づけられて保存される。
【0043】
また、図8に示すように、被写体の撮影後に、例えば、項目番号「3」をキーを操作して入力することにより、項目番号「3」に対応する変換辞書ファイルB1をCPU8にロードし、ついで、マイクを通して「ようせつこうてい」と発音することにより、その「ようせつこうてい」という音声データに対応する「溶接工程」というテキストデータを付加情報としてメモリ部10に記憶させ、ついで、項目番号「5」をキー操作入力することにより、項目番号「5」に対応する変換辞書ファイルB2をCPU8にロードし、ついで、マイクを通して「すずき」と発音することにより「すずき」という音声データに対応する「鈴木」というテキストデータを静止画像G1のデータに関連づけて付加情報としてメモリ部10に記憶させるようにしても良い。
【0044】
更に、撮影前に画像データに関連すべき付加情報を入力する構成とすることもできる。
【0045】
例えば、撮影前に、ユーザーは項目番号を選択して、マイクを通じて発音すると(S.10)、その項目番号に対応する変換辞書ファイルが音声認識処理システムにロードされる(S.11)。CPU8はそのマイクを通じて入力された音声データをテキストデータに変換し(S.12)、ついで、音声データを破棄するか否かを判断する(S.13)。音声データを保存するを選択したときには、音声データと共にテキストデータを撮影前ファイルに付加情報として関連づける(S.14)。音声データを破棄するを選択したときには、音声データを破棄してテキストデータのみが撮影前ファイルに付加情報として関連づけられる(S.15)。その後、撮影を実行すると、その撮影前ファイルに撮影画像が採り込まれ、変換辞書ファイルが自動的にロードされて、音声データがテキストデータに自動的に変換され、その撮影済み画像ファイルに付加情報がテキストデータとして関連づけられてメモリ部10に保存される。
【0046】
ここでは、項目毎に分類準備された変換辞書ファイルを、ユーザがデジタルカメラのキーを操作することにより作成することにしたが、デジタルカメラとパーソナルコンピュータを接続して画像編集処理システムを構築し、そのパーソナルコンピュータ等の画像編集処理装置(エディター)を用いて項目毎の変換辞書ファイルを作成し、パーソナルコンピュータからデジタルカメラにその変換辞書ファイルを通信手段(USBケーブル等の有線通信手段、ブルーツース等の無線通信手段)を用いて転送するようにしても良い。また、記録メディアを用いてデジタルカメラに転送しても良い。
【0047】
また、ここでは、項目毎に分類して準備された変換辞書ファイルを作成することにしたが、業務毎にかつ項目毎に変換辞書ファイルを作成するようにしても良い。
【0048】
【発明の効果】
請求項1〜3に記載の発明によれば、項目毎に分類して変換辞書を作成することにしたので、音声認識の処理劣化を回避しつつ付加情報の入力作業の容易化を図ることができる。
【0049】
請求項4に記載の発明によれば、メモリ資源の活用を図ることができる。
【0050】
請求項5に記載の発明によれば、各種の業務の付加情報の入力作業の容易化を図ることができる。
【0051】
請求項6、請求項7に記載の発明によれば、変換辞書ファイルの作成作業が容易である。
【図面の簡単な説明】
【図1】静止画像の一例を示す図である。
【図2】図1に示す静止画像に付加される付加情報の一例を示す図である。
【図3】本発明に係わるデジタルカメラの一例を示すブロック回路図である。
【図4】項目毎の変換辞書ファイルの例を示し、(a)は工程名称2の変換辞書ファイルを示し、(b)は撮影者の氏名の変換辞書ファイルを示す。
【図5】本発明に係わる静止画像のデータ構造の一例を示す説明図である。
【図6】静止画像に関連づけられる付加情報の一例を示す説明図であって、(a)は音声データが記録された付加情報の説明図であり、(b)は変換辞書ファイルを用いて(a)に示す音声データがテキストデータに変換された付加情報の説明図である。
【図7】撮影ファイルに関連づけられた音声データの音声認識処理のフローチャート図である。
【図8】音声認識システムの概要を示す説明図である。
【図9】撮影ファイルに関連づけられる音声データの音声認識処理のフローチャート図である。
【符号の説明】
8…CPU(音声認識処理部)
9…操作入力部(データ入力部)
10…メモリ部(記録部)
[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to an improvement in a digital camera and an image knitting processing system using the same.
[0002]
[Prior art]
In recent years, digital cameras have become widespread in place of analog cameras. Digital cameras have the advantages described below.
[0003]
For example, a captured image can be viewed on the spot on a display device such as an LCD of a digital camera. It is possible to delete an image for which shooting failed. The captured video is taken into a personal computer, and the image can be easily processed and edited by digital processing. Printing can be performed using a personal computer, and images can be transmitted as digital files. By transferring the captured image to a personal computer, a digital image that does not deteriorate can be stored. Some digital cameras can handle multimedia images such as moving images and audio.
[0004]
For these reasons, digital cameras are often used with the spread of personal computers. In recent years, the number of pixels of digital cameras has increased with the advancement of the technology of the image pickup device CCD, and high-resolution pixels of 2 to 3 million pixels or more have been released, and not only in the consumer market but also in the business market. Digital cameras have come to be used widely. In order to use for business use, it is indispensable to be able to input various additional information at the time of shooting in consideration of a post-process after shooting.
[0005]
Conventionally, when used for business purposes, an analog camera has a work of arranging a blackboard near the subject at the time of shooting, writing the item name and its contents on the blackboard, shooting the blackboard with the subject, and classifying the subject. However, the task of classifying the subject is troublesome.
[0006]
On the other hand, some digital cameras have been able to set the date and time, the name of the photographer, etc. in the setup mode, put the date on the photographed image, and enter the photographer's name, In addition to this, there is also a configuration in which the contents of a plurality of items can be attached to a captured image as additional information and input (for example, see Patent Document 1).
In this case, in a digital camera used for business purposes, the items and contents of the additional information used in each business are uniquely determined by the contents of the business. For example, in the case of automobile insurance, the items are a claim number, a vehicle body number, a symptom code, and the like.
[0007]
In addition, for example, as shown in FIG. 1, in the civil engineering related field, as an item in the photographed image G1 of the construction site, as the additional information A1 as shown in FIG. 2, “site name”, “process name 1”, “process name” There is also a digital camera which is provided with “2”, “company in charge of construction”, and “name of photographer” so that the contents of each item can be input. In FIG. 2, the data of “third bridge site”, “bridge strengthening”, “welding process”, “XX Civil Engineering Co., Ltd.”, and “△△” are shown in the column of the content of each item corresponding to each item. Is entered.
[0008]
As described above, with the widespread use of digital cameras, image editing work and image management work in which additional information is added to photographed image data, transferred to a personal computer, and images are classified and arranged for each additional information A1 are performed. It's getting very easy.
[0009]
[Patent Document 1]
Japanese Patent No. 3092142
[Problems to be solved by the invention]
By the way, it is very difficult to attach additional information at the time of photographing in a digital camera required to be downsized.
[0011]
For example, it is difficult to force input of additional data while operating a small key of a digital camera by hand at the time of photographing and looking at a liquid crystal screen such as a small LCD.
[0012]
Patent Document 1 also describes that speech recognition is performed by associating image data with speech data as additional information, and various methods have been proposed for speech recognition. Performance degrades.
[0013]
That is, the conventional digital camera has a disadvantage that it is difficult to input additional information attached to image data quickly, easily, and accurately.
[0014]
The present invention has been made in view of the above circumstances, and an object of the present invention is to quickly, easily, and accurately input additional information attached to image data for each photographing operation. It is an object of the present invention to provide a digital camera which can easily perform the above editing process and an image editing processing system using the same.
[0015]
[Means for Solving the Problems]
A digital camera according to claim 1, wherein a recording unit that encodes a subject as image data and records the image data, a data input unit that adds the content of the image data as additional information for each item, A recording unit that processes the input voice and records voice data, a plurality of conversion dictionary files that are prepared by classifying each item and convert voice data corresponding to the content into text data, A voice recognition processing unit for converting data into text data, selecting a conversion dictionary file for each item, converting the voice data into the text data, and attaching the text data to the image data as additional information. .
[0016]
A digital camera according to a second aspect is characterized in that the conversion from the voice data to the text data is performed after shooting is performed.
[0017]
A digital camera according to a third aspect is characterized in that conversion of voice data to text data is automatically executed by inputting an item number and inputting voice data.
[0018]
A digital camera according to a fourth aspect of the present invention is characterized in that the digital camera further comprises a selection unit for selecting whether or not to store the audio data after converting the audio data into the text data.
[0019]
A digital camera according to a fifth aspect is characterized in that it has a conversion dictionary file classified for each job.
[0020]
According to a sixth aspect of the present invention, in the image editing processing system, a user inputs voice data and text data of the conversion dictionary file to the digital camera according to any one of the first to fourth aspects. And
[0021]
An image editing processing system according to a seventh aspect is characterized by having a conversion dictionary file classified for each task.
[0022]
BEST MODE FOR CARRYING OUT THE INVENTION
FIG. 3 is a block circuit diagram of a digital camera according to the present invention. In this figure, reference numeral 1 denotes a lens, 2 denotes a mechanical shutter, and 3 denotes a CCD. The drive of the lens 1 and the mechanical shutter 2 is controlled by a driver unit 4. The CCD 3 is driven by a CCD drive circuit 5.
[0023]
The video output signal of the CCD 3 is input to a circuit section 6 having a CDS circuit for performing correlated double sampling and an A / D converter for performing analog-to-digital conversion, analog-to-digital converted, and input to an image processor 7. You.
[0024]
The image processor 7 performs various encoding processes such as converting the digital signal into luminance data Y, color difference data U and V data, JPEG compression of the YUV data, and changing the image size. Has functions.
[0025]
The image processor 7, the driver unit 4, and the CCD drive circuit unit 5 are connected to a CPU 8, which is used for controlling these circuits and for controlling the digital camera as a whole. The CPU 8 has a voice recognition processing unit.
[0026]
An operation input unit 9 is connected to the CPU 8, and a memory unit 10, a communication unit 11, a memory card interface unit 12, and an external sensor unit 13 are connected to the CPU 8. The external sensor 13 measures the distance to the subject, and the distance measurement information is input to the CPU 8, and the CPU 8 controls the position of the lens 1 based on the distance measurement information.
[0027]
The memory unit 10 has a role of temporarily storing image data captured by the digital camera and temporarily storing read data from an image file such as a memory card to be described later. Is also used as a work memory unit. Here, the memory unit 10 stores a plurality of conversion dictionary files.
[0028]
The memory card interface unit 12 is provided with a memory card (also referred to as an external storage card), which is detachable from the digital camera, and exchanges image data between the memory card and the CPU 8. The communication unit 11 can be connected to a terminal processing device 14 such as a personal computer. The communication unit 11 can import a conversion dictionary file from the terminal processing device 14 such as a personal computer, or can convert image data captured by a digital camera into a terminal. It is used for transmission to the processing device 14 or the like.
[0029]
The image processing processor 7 is connected to the display unit 15 and the audio CODEC 16, and the display unit 15 includes a display controller unit and an LCD display device. The display controller unit can display a video signal from the image processing processor 7 on the LCD display device. The LCD display device also has a thumbnail image display mode for converting the signal into a signal, displaying the image, displaying a monitoring image at the time of photographing, displaying a reproduced image, and displaying a plurality of photographed images.
[0030]
The audio CODEC 16 functions as an analog-to-digital converter, and is connected to an input analog unit 17 and an output analog unit 18. The input analog unit 17 outputs an audio signal from a microphone (not shown) to the audio CODEC 16, and the audio CODEC 16 outputs Convert signals to audio data. The audio data is input to the image processor 7 as additional information to be added to the image data, and is stored in the memory unit 10 by the CPU 8. The audio data stored in the memory unit 10 is converted into an analog signal by the audio CODEC 16, converted into an analog signal by the output analog unit 18, and converted into audio through a microphone. Reference numeral 19 denotes a power supply of the camera.
[0031]
The operation input unit 9 includes various switch units. The switch unit has various keys such as a release key, a zoom operation key, and a power key. These various keys are used to specify a conversion dictionary file. In order to select the number of the item, it is also used as a selection means for selecting whether to save or discard the audio data.
[0032]
The additional information to be added to the image data includes a plurality of items. FIG. 4A shows an example of a conversion dictionary file B1 indicating the correspondence between the audio data and the text data to be converted. The column indicates “character” after conversion, and the column on the right side indicates audio data. Here, a conversion dictionary file of “process name 2” of item number “3” is shown. For example, voice data pronounced as “Ippan Kotai” is converted to text data of characters “general process”. Is shown. Similarly, FIG. 4B shows an example of a conversion dictionary file B2 of “photographer name” of item number “5”, the left column shows “character” after conversion, and the right column shows voice. For example, it indicates that voice data pronounced “Suzuki” is converted to text data “Suzuki”.
[0033]
The basic structure G2 of the data of the still image G1 is as shown in FIG. 5. In this example, an Exif compressed file is used for the still image data, and the application information format (additional data structure) F1 is used for the additional information. The marker segment 5 (APP5) is used, and its structure is specifically divided into an item area G3 and a content area G4. The item area G3 is divided from an item number "1" to an item number "n", G4 is divided corresponding to the item numbers “1” to “n”. The item area G3 is used as a text data area, and the content area G4 is used as a voice data area and a text data area.
[0034]
Here, a description will be given assuming that voice recognition conversion processing is performed after shooting.
[0035]
The items as additional information to be added to the photographed image data include, for example, in a civil engineering-related work, as shown in FIG. 2, “site name” of item number 1, “process name 1” of item number 2, There are "process name 2" of number 3, "construction company" of item number 4, "name of photographer" of item number 5, etc. Of these, the site name does not change during the construction period. Since the process name 1 is a general name, it is rarely changed frequently, and the company in charge of the construction is also fixed. Therefore, these should be added in advance in association with the image data before photographing the subject. It is assumed that the content is input as text data using a data input unit such as a key as information. On the other hand, the process name 2 indicates a detailed process, and may be frequently changed, and the name of the photographer is also changed each time the photographing charge changes. Therefore, these will be input using voice after shooting.
[0036]
First, when inputting audio data in a column of an item to which audio data is to be input, for example, item 3 “process name 2” and item 5 “photographer's name”, key operation is performed to “process name 2”. The corresponding item number "3" is entered and, for example, "yosetsu koutei" is pronounced. Then, the CPU 8 associates “voice data” corresponding to the voice “Yoshisetsu Kotei” in the “contents” column corresponding to “process name 2” of “item 3” with the captured image data as additional information in the memory 10. To save.
[0037]
Next, an item number “5” corresponding to “photographer's name” is input by key operation, and for example, when “Suzuki” is pronounced, the CPU 8 outputs “item 5” “photographer's name” as additional information. In the "content" column corresponding to "", "voice data" corresponding to the voice of "Suzuki" is stored in the memory 10 in association with the captured image data.
[0038]
FIG. 6A shows that, among the additional information associated with the still image data G1, the voice data “Yoshisetsu Kotei” is stored in the item number “3” in association with the captured image G1 and the item number “5”. "Shows a state in which audio data" Suzuki "is stored in association with the captured image G1.
[0039]
Then, when the key for starting the voice conversion process is operated, as shown in FIG. 7, from the photographed file stored in the memory unit 10, the item numbers and the voice data corresponding to the numbers are sequentially recognized by the CPU 8 by the voice recognition. It is taken into the processing system (S.1). Next, the speech recognition processing system selects and loads the conversion dictionary file B1 corresponding to the item number (S.2). Next, a character corresponding to the voice data is searched from the conversion dictionary file B1, and the voice data is converted into text data using the voice recognition module (S.3).
[0040]
Next, the user selects whether to keep the voice data or to discard and then save the text data (S.4). If the user selects to save the audio data, the text data and the audio data are stored as additional information related to the photographed file (S.5). For example, in the case of the voice conversion process of the item number “3”, the text “welding process” is text data and the content of the “process name 2” corresponding to the item number “3” together with the voice data “Yoshisetsu Kotei” Is stored in the field. When discarding and saving the audio data is selected, only the text data is saved as additional information related to the photographed file (S.6). Therefore, in this case, in this case, only the text data of “welding process” is stored in the content column of “process name 2”.
[0041]
The voice recognition processing system automatically determines whether or not other items have voice data (S.7). If there is audio data in another item, step S. Returning to step S.1, 1 to S.N. The processing up to 7 is repeated. Here, since the audio data is stored in the column of the content corresponding to the item number “5”, 1 to S.N. The processing up to 7 is executed again, and the character "Suzuki" is stored as text data in the column of the content of "name of photographer" corresponding to item number "5".
[0042]
That is, as shown in FIG. 6B, the audio data of the additional information associated with the data of the still image G1 is converted, and the characters “welding process” and “Suzuki” are converted into text data of the still image G1. Is stored in association with the data.
[0043]
As shown in FIG. 8, after photographing the subject, for example, by operating the key to input the item number “3”, the conversion dictionary file B1 corresponding to the item number “3” is loaded into the CPU 8, Then, by pronouncing “Yoshisetsu Koite” through a microphone, text data of “welding process” corresponding to the voice data of “Yoshisetsu Koite” is stored in the memory unit 10 as additional information, and then the item number “ By inputting the key operation of "5", the conversion dictionary file B2 corresponding to the item number "5" is loaded into the CPU 8, and then "Suzuki" is pronounced through a microphone to correspond to the voice data of "Suzuki". The text data "Suzuki" is stored in the memory unit 10 as additional information in association with the data of the still image G1. It may be.
[0044]
Further, a configuration may be employed in which additional information to be associated with image data is input before photographing.
[0045]
For example, before photographing, the user selects an item number and pronounces it through a microphone (S.10), and a conversion dictionary file corresponding to the item number is loaded into the speech recognition processing system (S.11). The CPU 8 converts the voice data input through the microphone into text data (S.12), and then determines whether to discard the voice data (S.13). When the user selects to save the audio data, the text data and the audio data are associated with the pre-shooting file as additional information (S. 14). When discarding the audio data is selected, the audio data is discarded and only the text data is associated with the pre-shooting file as additional information (S.15). After that, when shooting is performed, the shot image is taken in the file before shooting, the conversion dictionary file is automatically loaded, voice data is automatically converted to text data, and additional information is added to the shot image file Are stored in the memory unit 10 as text data.
[0046]
Here, the conversion dictionary file classified and prepared for each item is created by the user operating the key of the digital camera, but the digital camera and the personal computer are connected to construct an image editing processing system, A conversion dictionary file for each item is created using an image editing processing device (editor) such as a personal computer, and the conversion dictionary file is transmitted from the personal computer to a digital camera through communication means (wired communication means such as a USB cable, Bluetooth, etc.). (Wireless communication means). Alternatively, the data may be transferred to a digital camera using a recording medium.
[0047]
Here, a conversion dictionary file prepared by classifying each item is prepared. However, a conversion dictionary file may be generated for each task and for each item.
[0048]
【The invention's effect】
According to the first to third aspects of the present invention, since the conversion dictionary is created by classifying each item, it is possible to facilitate the input operation of the additional information while avoiding the processing degradation of the voice recognition. it can.
[0049]
According to the fourth aspect of the invention, it is possible to utilize memory resources.
[0050]
According to the fifth aspect of the present invention, it is possible to facilitate the work of inputting additional information for various tasks.
[0051]
According to the sixth and seventh aspects of the invention, it is easy to create a conversion dictionary file.
[Brief description of the drawings]
FIG. 1 is a diagram illustrating an example of a still image.
FIG. 2 is a diagram showing an example of additional information added to the still image shown in FIG.
FIG. 3 is a block circuit diagram showing an example of a digital camera according to the present invention.
4A and 4B show examples of a conversion dictionary file for each item, wherein FIG. 4A shows a conversion dictionary file of process name 2 and FIG. 4B shows a conversion dictionary file of a photographer's name.
FIG. 5 is an explanatory diagram showing an example of a data structure of a still image according to the present invention.
6A and 6B are explanatory diagrams illustrating an example of additional information associated with a still image, in which FIG. 6A is an explanatory diagram of additional information in which audio data is recorded, and FIG. It is explanatory drawing of the additional information which the audio | voice data shown to a) was converted into text data.
FIG. 7 is a flowchart of a voice recognition process of voice data associated with a shooting file.
FIG. 8 is an explanatory diagram showing an outline of a speech recognition system.
FIG. 9 is a flowchart of a voice recognition process of voice data associated with a shooting file.
[Explanation of symbols]
8 CPU (speech recognition processing unit)
9 Operation input section (data input section)
10 Memory part (recording part)

Claims (7)

被写体を画像データとして符号化処理して該画像データを記録する記録部と、前記画像データに項目毎にその内容を付加情報として付加するデータ入力部と、入力された音声を処理して音声データを記録する記録部と、前記項目毎に分類して準備されかつその内容に対応する音声データをテキストデータに変換する複数個の変換辞書ファイルと、前記音声データをテキストデータに変換する音声認識処理部とを備え、項目毎に変換辞書ファイルを選択して前記音声データを前記テキストデータに変換して前記画像データに付加情報として添付することを特徴とするデジタルカメラ。A recording unit that encodes a subject as image data and records the image data; a data input unit that adds the contents of the image data as additional information to the image data for each item; A plurality of conversion dictionary files which are prepared by classifying each item and convert voice data corresponding to the content into text data, and a voice recognition process which converts the voice data into text data A digital dictionary, wherein a conversion dictionary file is selected for each item, the voice data is converted to the text data, and the text data is attached to the image data as additional information. 前記音声データから前記テキストデータへの変換を撮影実行後に実行することを特徴とする請求項1に記載のデジタルカメラ。2. The digital camera according to claim 1, wherein the conversion from the audio data to the text data is performed after photographing is performed. 項目番号の入力と音声データの入力とにより自動的に音声データからテキストデータへの変換が実行されることを特徴とする請求項1又は請求項2に記載のデジタルカメラ。3. The digital camera according to claim 1, wherein conversion of voice data to text data is automatically performed by inputting an item number and inputting voice data. 前記音声データを前記テキストデータに変換後に音声データを保存するかしないかをユーザーが選択する選択手段を有することを特徴とする請求項3に記載のデジタルカメラ。4. The digital camera according to claim 3, further comprising a selection unit configured to allow a user to select whether to store the voice data after converting the voice data into the text data. 5. 業務毎に分類された変換辞書ファイルを有することを特徴とする請求項3に記載のデジタルカメラ。The digital camera according to claim 3, further comprising a conversion dictionary file classified for each job. 請求項1ないし請求項4のいずれか1項に記載のデジタルカメラに、前記変換辞書ファイルの音声データとテキストデータとをユーザーが入力することを特徴とする画像編集処理システム。5. An image editing processing system, wherein a user inputs voice data and text data of the conversion dictionary file to the digital camera according to claim 1. 業務毎に分類された変換辞書ファイルを有することを特徴とする請求項6に記載の画像編集処理システム。7. The image editing processing system according to claim 6, comprising a conversion dictionary file classified for each task.
JP2003159350A 2003-06-04 2003-06-04 Digital camera and image editing device using the same Pending JP2004363888A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003159350A JP2004363888A (en) 2003-06-04 2003-06-04 Digital camera and image editing device using the same

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003159350A JP2004363888A (en) 2003-06-04 2003-06-04 Digital camera and image editing device using the same

Publications (1)

Publication Number Publication Date
JP2004363888A true JP2004363888A (en) 2004-12-24

Family

ID=34052436

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003159350A Pending JP2004363888A (en) 2003-06-04 2003-06-04 Digital camera and image editing device using the same

Country Status (1)

Country Link
JP (1) JP2004363888A (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006293580A (en) * 2005-04-08 2006-10-26 Casio Comput Co Ltd System for providing image with voice
JP2009141942A (en) * 2007-11-14 2009-06-25 Canon Inc Information processing apparatus, information processing method, and computer-readable storage medium
US7653303B2 (en) 2005-07-15 2010-01-26 Ricoh Company, Ltd. Digital camera and digital camera printing system applied thereon
JP2014013399A (en) * 2005-10-27 2014-01-23 Nuance Communications Austria Gmbh Method and system for processing dictated information
JP2017073184A (en) * 2015-10-05 2017-04-13 オリンパス株式会社 Control device for recording system, and recording system

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006293580A (en) * 2005-04-08 2006-10-26 Casio Comput Co Ltd System for providing image with voice
US7653303B2 (en) 2005-07-15 2010-01-26 Ricoh Company, Ltd. Digital camera and digital camera printing system applied thereon
JP2014013399A (en) * 2005-10-27 2014-01-23 Nuance Communications Austria Gmbh Method and system for processing dictated information
JP2009141942A (en) * 2007-11-14 2009-06-25 Canon Inc Information processing apparatus, information processing method, and computer-readable storage medium
JP2017073184A (en) * 2015-10-05 2017-04-13 オリンパス株式会社 Control device for recording system, and recording system

Similar Documents

Publication Publication Date Title
US20030052986A1 (en) Image processing apparatus, image processing method, program, and storage medium
JP4734679B2 (en) Image processing apparatus, method, and program
JP3747914B2 (en) Image recording apparatus, image recording method, and program
JP2008206137A (en) Photographing apparatus
JP3888354B2 (en) Imaging apparatus and mode switching operation program
JP4501739B2 (en) Imaging apparatus, imaging method, and program
JP4349288B2 (en) Imaging apparatus, image processing method, and program
JP2004363888A (en) Digital camera and image editing device using the same
JP4793049B2 (en) Imaging device, captured image display method, captured image display program, captured image deletion method, and captured image deletion program
JP4826480B2 (en) Imaging apparatus, image management method, and program
JP3985102B2 (en) Information input device
JP2006287377A (en) Image storage device, image storage method, and image storage program
JP2004312463A (en) Image regenerating method
JP2004364039A (en) Image processing apparatus, image processing method, and program
JP4211764B2 (en) Electronic camera, image recording apparatus, image recording method and program
JP4535089B2 (en) Imaging apparatus, image processing method, and program
JP4438332B2 (en) ELECTRONIC DEVICE, MONITOR DISPLAY METHOD AND PROGRAM USED FOR THE ELECTRONIC DEVICE
JP2008245071A (en) Image data deleting method, image data deleting device, image data deleting program, and imaging device
JP2006050172A (en) Digital imaging apparatus
JP2009021733A (en) Image file generating device, and image file generation program
JP4396579B2 (en) Electronic camera, zoom range display method, and program
JP4784463B2 (en) Imaging apparatus, imaging method, and program
JP2006157884A (en) Display control device and display control method
JP2006295706A (en) Image recording unit
JP2006352606A (en) Digital image recording device