JP2005057360A - Picture photographing apparatus and program - Google Patents
Picture photographing apparatus and program Download PDFInfo
- Publication number
- JP2005057360A JP2005057360A JP2003206389A JP2003206389A JP2005057360A JP 2005057360 A JP2005057360 A JP 2005057360A JP 2003206389 A JP2003206389 A JP 2003206389A JP 2003206389 A JP2003206389 A JP 2003206389A JP 2005057360 A JP2005057360 A JP 2005057360A
- Authority
- JP
- Japan
- Prior art keywords
- image
- name
- character string
- candidate
- keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
【0001】
【発明の属する技術分野】
本発明は,カメラを有する携帯型の端末における入力手段に関する技術分野に属する。
【0002】
【従来の技術】
従来より,カメラで撮った画像をデジタル化し,ファイルとして蓄積することができるデジタルスチルカメラ,カメラ付き携帯電話,カメラ付きPDAなどの装置が実用化されている。以下,これらの装置をデジタルカメラと総称する。多くのデジタルカメラは,蓄積した画像を表示する機能や,不要な画像を削除したりする機能も兼ね備えている。通常,ファイルの名称は日付,通し番号などに基づいて付けられる。また,多くの場合,デジタルカメラに蓄積した画像は,パーソナルコンピュータに転送し,整理,加工,印刷を行う。
また,特開平07−072546号公報(特許文献1)のように,カメラから撮った画像から文字を認識し,認識した結果を画像とあわせて記録する例もある。
【0003】
【特許文献1】特開平07−072546号公報
【非特許文献1】R.M.K. Sinha, B. Prasada, G.F. Houle, M. Sabourin, “Hybrid Contextual Text Recognition with String Matching,” IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 15, No. 9, December 1993
【非特許文献2】A.K. Jain, B. Yu, “Automatic Text Location in Images and Video Frames,” Pattern Recognition, Vol. 31, No. 12, pp. 2055−2076, 1998
【非特許文献3】C.−L. Liu, M. Koga and H. Fujisawa, ”Lexicon−driven Segmentation and Recognition of Handwritten Character Strings for Japanese Address Reading,” IEEE Trans. Pattern Analysis and Machine Intelligence, Vol. 24, No. 11, Nov. 2002, pp. 425−1437
【0004】
【発明が解決しようとする課題】
本発明が解決しようとする課題は,デジタルカメラで撮ったファイルの検索・利用を容易にすることである。多くの画像を装置中に格納した際には,表示したり削除したりするファイルをファイル名称のみを手がかりとして探すことは困難である。なぜなら,日付や通し番号のみからは画像にどんなものが写っているかを知ることが出来ないからである。このため,多くの場合,日付や通し番号で大まかに見当をつけた後,記憶に頼って順に画像を表示させ,所望の画像を探さざるを得ない。この過程を支援するために,縮小画像を多数画像に表示させることもある。しかし,この方法では表示される画像が小さく,画像の細部,例えば写っている文字や人の顔などを確認することが出来ない。
【0005】
【課題を解決するための手段】
上記の課題を解決するための第一の手段は,デジタルカメラに文字を認識する手段を搭載し,画像中から文字を認識した結果に基づきファイル名を決定,もしくは画像ファイルの一部にキーワードを埋め込むことである。多くの場合,画像中には文字があり,文字が撮影場所や撮影時の重要な手がかりとなっている。例えば,観光地での記念写真は名所旧跡を示す看板を撮影することが多い。このため,画像中の文字は画像を探す上での重要な手がかりである。また,最近はデジタルカメラをメモ帳代わりに用いることも多く,この場合には画像中の文字は画像を探す上での重要な手がかりである。
【0006】
上記の手段の導入に伴い,いくつかの技術的な問題が派生する.そこで,以下のような手段でそれらを解決する。
第一に,画像中に多くの文字列が存在する場合があり,どれがファイル名,あるいはキーワードとして適切かが自明でない場合がある。そこで,文字の大きさ,文字の位置などに基づきファイル名もしくはキーワードを決定する手段を設ける。
【0007】
第二に,文字の大きさや位置などでは適切なファイル名称もしくはキーワードを決定できない場合がある。そこで,予め指定したキーワードの集合を記憶する手段と,キーワードを画像中から認識する手段を設け,画像中から認識されたキーワードをファイル名もしくは画像ファイルに埋め込むキーワードに含むようにする。画像中からキーワードを認識する手段としては,文字認識結果とキーワードの集合を照合する方法,キーワードの集合を文字認識における言語辞書として用いる方法などがある。
【0008】
第三に,文字認識結果だけではファイル名称を特定できない場合がある。例えば,同じ文字認識結果が得られる画像が2つ以上ある場合などである。そこで,文字認識結果と日付もしくは通し番号を組合わせた文字列を生成する手段を設け,これにより生成したファイル名とするようにする。
【0009】
上記の課題を解決するための第二の手段は,予め指定した人物の顔や物体を認識する手段と,認識対像の顔の人名や物体名を記憶する手段とをデジタルカメラに設け,画像中から対像とする物体が認識された場合には,その顔や物体を表す文字列をファイル名,もしくは画像に埋め込むキーワードとすることである。
【0010】
上記の課題を解決するための第三の手段は,画像の特徴を表す属性を画像から抽出する手段と,画像の特徴に応じて画像を予め定められているカテゴリに分類する手段をデジタルカメラに設け,分類結果に応じてファイル名を決定,もしくはキーワードを画像ファイルに埋め込むようにすることである。ここで,カテゴリは例えば,「晴天」「雨天」「夜」「室内」など撮影状況に関するものとしておく。こうした分類に基づいて付与されたファイル名もしくはキーワードは,画像に写っている内容を表しており,ファイルを探す上での大きな手がかりとなる。
【0011】
第三の解決手段の導入に伴い,画像の撮影条件により,画像の特徴が変化し分類が困難になるという問題が生じる。例えば,通常カメラのピント,絞り,シャッター速度,ホワイトバランス,センサーの感度などは撮影時に調整するが,これに伴い,画像の明るさ,尖鋭さ,色ヒストグラムなどの特徴が変化する。そこで,分類の際にはこれらの撮影時に調整に用いたパラメータも特徴量として用いるようにする。
【0012】
【発明の実施の形態】
図1に本発明の第一の実施例における画像の入力から画像ファイルの保存に至る処理の流れをデータフロー図で示す。本実施例では,カメラで画像を入力(104)後,従来どおり通し番号(106)や日付・時刻(107)に基づきファイル名を決定し(108),画像をファイルに出力する(109)。また,従来の方式に加え,画像中からキーワードを認識(105)した結果を併用し,ファイル名を決定することもできる。また,認識されたキーワードのうち,ファイル名の決定に用いたもの以外は,画像ファイル中のタグ部に埋め込んでもより。埋め込まれたキーワードは,検索時にインデックスとして利用可能である。キーワード辞書103中の単語は,予めデジタルカメラの記憶装置に記憶しておくか,キーワード設定処理102により登録する。ここでは,入力画像の形式はRGBカラー画像とするが,他のカラー画像形式,もしくはグレー画像を用いてもよい。
【0013】
キーワードとしては,例えば,名所旧跡の名称を登録しておく。この場合は,観光地などで名所旧跡の看板が写るように撮った画像に対しては,その名所旧跡名がファイル名として付与されることとなる。また,一般的に用いられる単語全てを辞書に登録しておいてもよい。この場合は,内容に関わらず画像中の文字列が認識され,ファイル名に反映されることとなる。
本実施例では,キーワード認識処理としては,例えば,非特許文献1のような方式を用いる。図2にキーワード認識処理のデータフローの一例を示す。まず201において入力画像から文字行を切出す。文字行切出しには,例えば非特許文献2のような方式を用いる。次に202において文字行中から個々の文字を切出す。複数の文字行が切出された場合には,それらの複数の文字行を以降の処理の対像とする。次に,ステップ203において切出した個々の文字が何の文字であるかを識別する。この際,文字識別辞書206を参照する。最後にステップ204において,文字識別した結果を文字列として解釈する。この際,キーワード辞書103を参照する。最後にキーワード選択206において,認識されたキーワードの画像中での大きさ,位置,文字列認識結果の尤もらしさなどに基づき,最終的にキーワードとして相応しいものを選択し,出力する。キーワード選択206の入力は認識されたキーワードの集合であり,出力はファイル名に相応しい順に並べられたキーワード認識結果の集合である。本実施例では,文字切出し,文字識別,後処理を逐次的に実行しているが,非特許文献3にあるように,これらを統合した処理を実行してもよい。また,言語情報を用いずに文字認識を実行した後,通常のテキストマッチングのアルゴリズムを用いてキーワード辞書中の単語と文字認識結果を照合してもよい
図3に,本発明の実施例におけるハードウエアの構成を示す。画像は,レンズ,絞りなどからなる光学装置302によって撮像された後,例えばCCD素子などの光電変換素子303で電気信号に変換される。さらに得られた電気信号はアナログ・デジタル変換器304にてデジタル信号に変換し,さらに例えばDSPなどの信号処理素子305により,色空間変換,フィルタ処理などの処理を施す。この結果は,RAM309へと転送する。演算装置307は,ROM308に格納されている処理手順と文字識別辞書などのデータを参照し,RAM309に格納されている画像を入力としてキーワード認識処理105を実行する。さらに演算装置307は,ROM308に格納されている処理手順に従い,通番計数処理106を実行するとともに,時計312を参照してファイル名決定処理108を実行する。画像ファイルは入出力装置310を介して,メモリーカード311に格納する。また,入力装置313は,キーワードを入力する際に用いる。また,表示装置306は,撮影時の画像の確認,ファイル名決定処理108の結果の表示に用いる。また,通信装置314は,キーワード辞書や画像ファイルの転送などのため,パーソナルコンピュータとの接続に用いる。
【0014】
図4に,本発明の実施例における装置の外観を示す。筐体401の前面には,光学装置302のレンズ部402を配置する。上部には,入力装置313の一部であって画像入力104を指示するためのシャッター403と,電源スイッチ404を配置する。側面には,パーソナルコンピュータとの接続に用いる通信装置314の端子407と,メモリーカード311の挿入口408を配置する。背面には,入力装置313の一部である,キャンセルボタン405,カーソルキー406を配置する。さらに背面には,表示装置306の表示面409を配置する。カーソルキー406は,上下左右の端を押すと方向を指示する信号を入力装置313に送り,中央を押すと確認などの別の信号を入力装置313へ送る。なお、以上は本発明を実施するための装置の一例であって、本発明は上記の配置に限定されるものではない。例えば、従来のカメラ型の装置ではなく、PDAや携帯電話などの携帯端末で、撮像装置等の、画像データ入力手段をもつものであってもよい。これらの携帯端末においては、通信装置として、無線LANやセルラ通信の無線通信装置を備えるため、ネットワークと通信を行って画像のダウンロード・転送を行ってもよい。
【0015】
図5に本発明の第一の実施例における操作の手順を示す。まず,操作者はデジタルカメラをパーソナルコンピュータへ接続し,ダウンロード指示を行う(501)。これに応じ,パーソナルコンピュータ上に格納されていたキーワード辞書がデジタルカメラに転送される(502)。次に,操作者はパーソナルコンピュータとデジタルカメラの接続を外し,カーソルキー405により,キーワード設定102を起動する(503)。キーワード設定102においては,まず,キーワード辞書103に格納されているキーワードを一覧表示する(504)。操作者はこれらから必要なものを取捨選択し,必要に応じ,カーソルキーで新たなキーワードを登録する(505)。次に,操作者はカーソルキー406を用い撮影モードを指定する(506)。ここで撮影モードとは,画像ファイル名を従来の方法で設定するか,キーワード認識で設定するかの違いを指定する。図中507以降は,キーワード認識で画像ファイル名を設定するモードが選択されたことを前提とした操作の手順を示している。モード指定後,レンズ402を撮影対像に向け,シャッター403を押下することにより,画像入力処理104,キーワード認識105,ファイル名決定108が起動される(507)。ファイル名決定108においては,認識した結果得られたキーワードを表示し(508),必要に応じ操作者がファイル名に用いるキーワードを指定する。その結果を利用し,ファイル名決定処理108は,通番や日付などの情報を参照し,ファイル名を決定する。決定したファイル名は操作者に表示する(510).続いて,ファイル出力処理109にて,画像を符号化し,キーワード認識結果を埋め込み,ファイル名決定処理108で決定したファイル名に出力する。画像の符号化には,JPEG等の標準的な方式を用いる。また,キーワード認識結果は,JPEGなど標準的な画像ファイル形式のタグ部に格納する。再び,デジタルカメラをパーソナルコンピュータに接続後,操作者が画像ファイル転送指示511を行うことで,デジタルカメラからパーソナルコンピュータへファイルを転送する処理を起動する(512)。通信機能を用いてネットワークに接続し、キーワードのダウンロードや画像ファイルの転送のためにネットワークを介して接続可能なサーバにアクセスしてもよい。
【0016】
図6に,キーワード入力起動503およびモード指定506の操作を行う際の表示面409の状態を示す。まず,電源スイッチ404により電源が投入されている状態で,カーソルキー406のどこかを押下すると,メニュー601が表示される。メニュー中での選択項目は,操作者がカーソルキーの上下部分を押すことで変更し,確定の際にはカーソルキー406の中央を押す。いずれも選択しない場合には,キャンセルボタン405を押す。キーワード入力を起動する際には,操作者が「キーワード設定604」を選択し,カーソルキー406の中央を押す。506のモード指定を行う際には,操作者が「撮影(自動ファイル名)」603を選択し,カーソルキー406の中央を押す。通常の撮影を行う際には「撮影」602を選択する。
【0017】
図7に,キーワード表示504およびキーワード指定505を行う際の表示面409の状態を示す。まず,操作者がメニュー601でキーワード設定604を指定すると,図7(a)の701のようなメニューが表示される。701は,予めパーソナルコンピュータから転送した複数のキーワード辞書から,キーワード認識に用いるものを選択するためのものである。この例では,「名所・旧跡」と「地名」が有効になっている。ここで,操作者がカーソルキー406の上下を押すことにより,選択項目を変更し,カーソルキー406の左を押すことでキーワード辞書が有功か無効かを切り替える。操作者がカーソルキー406の中央を押すことで,変更内容を確定して元の状態に戻る。さらに,操作者がある項目を選んだ状態でカーソルキー604の右を押すと,キーワード辞書に登録されているキーワードを一覧する。
図7(a)で操作者が702の項目を選択してカーソルキー604の右を押した際には図7(b)に示すようなメニュー703が現れる。この状態で操作者がカーソルキー406の上下を押すことにより,選択項目を変更でき,さらに,カーソルキー406の左を押すことで選択したキーワードが有功か無効かを切り替える。さらに,カーソルキー406の右を押すことで,新たなキーワードを操作者がカーソルキー406を用いて入力するモードに入る。このモードでは,画面中に仮想的なキーボードを表示するなどして,文字を入力するようにする。また,図7(b)の状態で操作者がカーソルキー406の中央を押すことで,変更内容を確定して元の状態に戻る。例えば,図7(b)の状態では「××渓谷」704が選択されている。ここで,カーソルキー406の左を操作者が押すと,キーワード「××渓谷」は無効となる。
【0018】
図8に,入力画像の一例を示す。この例では,看板にかかれた「△△山頂」801と,服に印刷された「□□ウエア」802の二つの文字列が写っている。「△△山頂」801はこの写真が撮影された状況の手がかりとなり,画像ファイル名として適切である。一方,「□□ウエア」802は必ずしも撮影された状況の手がかりとはならず,画像ファイル名としては不適切である。
【0019】
図9に,キーワード選択処理205の処理手順を示す。本処理の入力は認識されたキーワードの集合であり,出力はファイル名に相応しい順に並べられたキーワード認識結果の集合である。まず,ループ901において,各キーワード認識結果について,特徴量算出902と確信度算出903を実行する。特徴量算出902は,各キーワード認識結果のファイル名としての相応しさを調べるために必要なn個の特徴量
F = (f1, f2, f3, ..., fn)
を求める処理である。ここではn=5とし,以下のような特徴量を用いる。
f1: 認識されたキーワードの中心の画像上でのX座標(画素)
f2: 認識されたキーワードの中心の画像上でのY座標(画素)
f3: 認識されたキーワードの中心の画像上での幅(画素)
f4: 認識されたキーワードの中心の画像上での高さ(画素)
f5: 後処理で得られる文字列としての尤度
確信度算出903は,得られた特徴量に基づきキーワードのファイル名としての相応しさを示す値すなわち確信度を算出する処理である。次に,ステップ904にて,確信度の値が予め定められている閾値θ以下のキーワード認識結果を削除する。これは,相応しくないキーワードを用いて誤ったファイル名をつけてしまうことを防ぐためである。次に,ステップ905にて,残ったキーワード認識結果を確信度順に並べ替える。
【0020】
図10に,認識結果表示508を実行した際の表示面409の状態を示す。ここでは,1001,1002のようなキーワードを認識した結果を,認識された文字列のすぐ下に表示する。さらに,最も確信度の高いキーワードを,1001のようにハイライトして表示する。ここで,カーソルキー406の下を押すとより確信度の低いキーワードを,上を押すと確信度の高いキーワードを順にハイライトする。最終的に,カーソルキー406の中央を押した時点でハイライトされているキーワードをファイル名の決定に用いる。
【0021】
図11に,ファイル名決定108に処理手順を示す。本処理の入力は,キーワード認識105の結果であるファイル名に相応しい順に並べられたキーワード認識結果の集合,日付・時刻管理107から得られる日付の情報,および保存済み画像ファイルの名称の集合である。まず,ステップ1101において,図10に示すようにキーワード認識結果を表示する。次に,ステップ1102において図10で説明したような方式で,操作者によるキーワード選択により,ファイル名の決定に用いるキーワードを選択する。次に,ステップ1103にて,格納済みの画像ファイルの名称を調べ,ステップ1102で確定したキーワードと同一のキーワードを用いたファイル名で,かつ,日付が新たに撮影した画像の日付と同一のものを探索する。該当する画像ファイルが見つかった場合には,さらに該当する画像ファイル名称の中で,最も通番の大きいものを選択する。次に,ステップ1104にて,ステップ1103で得られた通番を1加えたものを新たな通番とする。もし,ステップ1103で該当する画像ファイルが見出されなかった場合には,通番の値を1とし、または通番をつけないこととする。最後に,ステップ1105にて,日付とキーワードと通番よりファイル名を合成する。
【0022】
図12にファイル名決定表示510実行した際の表示面409の状態を示す。この状態では,画面中に現れたウインドウ1201上に決定したファイル名と画像ファイルに埋め込むキーワードを表示する。この例では,この画像は2002年12月17日に△△山頂で撮った2枚目の画像であるとしており,ファイル名は,日付とキーワードと通番を組合わせた「20021217△△山頂02」と決定されている。日付、時刻などの情報は装置内に内蔵される時計から入手される。
【0023】
図13に,本発明の第二の実施例における画像入力から画像ファイル出力に至る処理の流れをデータフロー図にて説明する。まず,画像入力設定1311に従い,画像を入力する(1302)。ここで画像入力設定とは,カメラのピント,絞り,シャッター速度,ホワイトバランス,センサーの感度,コントラストなど,画像入力の際に必要なパラメータの設定のことである。次に,入力画像中から顔を検出し,予め顔辞書1303に登録してある顔を認識する。また,撮影状況辞書1304に登録してある情報と画像入力設定1311の出力を参照し,入力画像がいかなる状況で撮影されたかを認識する(1306)。次に,顔認識1305,撮影状況認識1306,日付・時刻管理1307の結果,すでに格納されている画像ファイル1310を参照し,108と同じの手順で画像ファイル名を決定する(1308)。さらに,決定したファイル名に基づき,画像ファイルを出力する(1309)。
【0024】
図14に,顔認識1305の処理手順を示す。まず,ステップ1401にて入力画像中より顔領域を検出する。次にループ1402にて,ステップ1401で得られた全ての顔領域について,ステップ1403,ループ1404を繰り返す。ステップ1403は顔領域の特徴量を算出する処理である。特徴量は複数算出し,本ステップの出力は特徴ベクトルとなる。ループ1404では,顔辞書1303に登録してある全ての顔について,ステップ1403で得られた特徴ベクトルの尤度を計算する(1405)。顔辞書1303には,登録した顔の数だけ,尤度関数と顔に対応する名称(例えば氏名)の対を記憶している。この尤度関数を用い,ステップ1405で尤度を計算する。ループ1402を終了後,ステップ1406にて最も尤度の値が高い顔を検出し,さらにステップ1407にてその顔に対応する名称を出力する。この出力がファイル名決定に利用される。
【0025】
図15に,撮影状況認識1305の処理手順を示す。まず,ステップ1501にて入力画像から撮影状況の特徴量を算出する。特徴量は複数算出し,本ステップの出力は特徴ベクトルとなる。例えば,特徴量としては,各色成分ごとのヒストグラム値,自己相関係数,モーメントなどを用いる。次に,ループ1502にて,撮影状況辞書1304に登録してある全ての撮影状況について,ステップ1501で得られた特徴ベクトルの尤度を計算する(1503)。撮影状況辞書1304には,登録した撮影状況の数だけ,尤度関数と撮影状況に対応する名称(例えば「晴天」「雨天」「夜」「室内」など)の対を記憶している。この尤度関数を用い,ステップ1503では尤度を計算する。次に,ステップ1504にて,最も尤度が高いものを選択する。さらにステップ1505にて,最も尤度が高い撮影状況の名称を出力する。
【0026】
【発明の効果】
従来は困難であった画像の内容が容易に類推可能な画像ファイル名を自動的に付与することが可能となる。
【図面の簡単な説明】
【図1】第一の実施例における画像入力から画像ファイル出力に至る処理の流れを示すデータフロー図。
【図2】本発明の第一の実施例におけるキーワード認識処理の流れを示すデータフロー図。
【図3】本発明の実施例におけるハードウエアの構成図。
【図4】本発明の実施例における装置の外観図。
【図5】本発明の第一の実施例における操作の手順を示す図。
【図6】キーワード設定,撮影のモードを指定する際の表示面の状態を示す図。
【図7】キーワード辞書表示,キーワード指定の際の表示面の状態を示す図。
【図8】入力画像の模式図。
【図9】キーワード選択処理の処理手順を示す図。
【図10】キーワード認識結果表示時の表示面。
【図11】本発明の第一の実施例におけるファイル名決定の処理手順を示す図。
【図12】本発明の第一の実施例におけるファイル名表示時の表示面。
【図13】本発明の第二の実施例における画像入力から画像ファイル出力に至る処理の流れを示すデータフロー図。
【図14】本発明の第二の実施例における顔認識の処理手順を示す図。
【図15】本発明の第二の実施例における撮影状況認識の処理手順を示す図。
【符号の説明】
101・・・第一の実施例における画像入力から画像ファイル出力に至る処理,102・・・キーワード設定,103・・・キーワード辞書,104・・・画像入力,105・・・キーワード認識,106 ・・・通番計数,107・・・日付・時刻管理,108・・・ファイル名決定,109・・・ファイル出力,110・・・画像ファイル,201・・・文字行切出し,202・・・文字切出し,203・・・文字識別,204・・・後処理,205・・・キーワード選択,206・・・文字識別辞書,301・・・デジタルカメラ,302・・・光学装置,303・・・光電変換素子,304・・・アナログデジタル変換器,305・・・信号処理素子,306・・・表示装置,307・・・演算装置,308・・・ROM,309・・・RAM,310・・・入出力装置,311・・・メモリーカード,312・・・時計,313・・・入力装置,314・・・通信装置,401・・・筐体,402・・・レンズ,403・・・シャッター,404・・・電源スイッチ,405・・・キャンセルボタン,406・・・カーソルキー,407・・・通信装置端子,408・・・メモリーカード挿入口,409・・・表示面,501・・・ダウンロード支持,502・・・キーワード転送,503・・・キーワード入力起動,504・・・キーワード表示,505・・・キーワード指定,506・・・モード指定,507・・・撮影,508・・・認識結果表示,509・・・ファイル名用キーワード指定,510・・・ファイル名表示,511・・・ファイル転送指示,512・・・画像ファイル転送,601・・・モード指定メニュー,602・・・撮影,603・・・撮影(自動ファイル名),604・・・キーワード指定,701・・・キーワード辞書メニュー,702・・・選択されたキーワード辞書,703・・・キーワード一覧ウインドウ,704・・・選択されたキーワード,801・・・認識されたキーワード「△△山頂」,802・・・認識されたキーワード「□□ウエア」,901・・・各キーワード認識結果に関するループ,902・・・特長量算出するステップ,903・・・確信度算出するステップ,904・・確信度の閾値処理を行うステップ,905・・・キーワード並べ替えを行うステップ,1001,1002・・・キーワード認識結果,1101・・・キーワード認識結果を表示するステップ,1102・・・キーワードを選択するステップ,1103・・・既存の最大の通番を探索するステップ,1104・・・通番に1を加算するステップ,1105・・・ファイル名を合成するステップ,1201・・・ファイル名を表示するウインドウ,1301・・・本発明の第二の実施例における画像入力から画像ファイル出力に至る処理,1302・・・画像入力,1303・・・顔辞書,1304・・・撮影状況辞書,1305・・・顔認識,1306・・・撮影状況認識,1307・・・日付・時刻管理,1308・・・ファイル名決定,1309・・・ファイル出力,1310・・・画像ファイル,1401・・・入力画像より顔領域を検出するステップ,1402・・・全ての顔領域に関するループ,1403・・・特長量を算出するステップ,1404・・・全ての顔辞書に登録してある顔に関するループ,1405・・・尤度算出を行うステップ,1406・・・尤度値が最大のものを選択するステップ,1407・・・尤度値が最大の顔の名称を出力するステップ,1501・・・特徴量算出を行うステップ,1502・・・全ての撮影状況に関するステップ,1503・・・尤度算出を行うステップ,1504・・・最も尤度値が高い撮影状況を検出するステップ,1505・・・最も尤度値が高い撮影状況の名称を出力するステップ。[0001]
BACKGROUND OF THE INVENTION
The present invention belongs to a technical field relating to input means in a portable terminal having a camera.
[0002]
[Prior art]
2. Description of the Related Art Conventionally, devices such as a digital still camera, a camera-equipped mobile phone, and a camera-equipped PDA that can digitize images stored by a camera and store them as files have been put into practical use. Hereinafter, these devices are collectively referred to as a digital camera. Many digital cameras also have a function of displaying accumulated images and a function of deleting unnecessary images. Normally, file names are given based on date, serial number, and so on. In many cases, images stored in a digital camera are transferred to a personal computer for organizing, processing, and printing.
In addition, as disclosed in Japanese Patent Application Laid-Open No. 07-072546 (Patent Document 1), there is an example in which characters are recognized from an image taken from a camera and the recognized result is recorded together with the image.
[0003]
[Patent Document 1] Japanese Patent Application Laid-Open No. 07-072546
[Non-Patent Document 1] R.A. M.M. K. Sinha, B.H. Prasada, G.M. F. Houle, M.M. Sabourin, “Hybrid Textual Text Recognition with String Matching,” IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 15, no. 9, December 1993
[Non-Patent Document 2] A. K. Jain, B.B. Yu, “Automatic Text Location in Images and Video Frames,” Pattern Recognition, Vol. 31, no. 12, pp. 2055-2076, 1998
[Non-patent Document 3] C.I. -L. Liu, M.M. Koga and H.K. Fujisawa, "Lexicon-drive Segmentation and Recognition of Handwriting Character Strings for Japan Address Reading," IEEE Trans. Pattern Analysis and Machine Intelligence, Vol. 24, no. 11, Nov. 2002, pp. 425-1437
[0004]
[Problems to be solved by the invention]
The problem to be solved by the present invention is to facilitate the search and use of files taken with a digital camera. When many images are stored in the apparatus, it is difficult to search for a file to be displayed or deleted using only the file name as a clue. This is because it is impossible to know what is in the image from only the date and serial number. For this reason, in many cases, after roughly registering the date and serial number, it is necessary to search for a desired image by sequentially displaying images depending on the memory. In order to support this process, a number of reduced images may be displayed on the image. However, with this method, the displayed image is small, and details of the image, for example, characters and human faces that can be seen, cannot be confirmed.
[0005]
[Means for Solving the Problems]
The first means to solve the above problem is that a digital camera is equipped with means for recognizing characters, and a file name is determined based on the result of recognizing characters from the image, or a keyword is assigned to a part of the image file. Is to embed. In many cases, there are characters in the image, and the characters are an important clue at the shooting location and at the time of shooting. For example, commemorative photos at sightseeing spots often shoot signs that show historical sites. For this reason, the characters in the image are an important clue when searching for the image. Recently, a digital camera is often used instead of a memo pad. In this case, characters in the image are an important clue for searching for the image.
[0006]
With the introduction of the above means, several technical problems arise. Therefore, they are solved by the following means.
First, there may be many character strings in the image, and it may not be obvious which is appropriate as a file name or keyword. Therefore, means for determining a file name or a keyword based on the character size, the character position, etc. is provided.
[0007]
Secondly, there are cases where an appropriate file name or keyword cannot be determined based on the size and position of characters. Therefore, means for storing a set of keywords specified in advance and means for recognizing the keyword from the image are provided so that the keyword recognized from the image is included in the file name or the keyword embedded in the image file. As means for recognizing a keyword from an image, there are a method of collating a character recognition result with a set of keywords, a method of using a set of keywords as a language dictionary in character recognition, and the like.
[0008]
Third, there are cases where the file name cannot be specified only by the character recognition result. For example, there are two or more images from which the same character recognition result can be obtained. Therefore, a means for generating a character string combining the character recognition result and the date or serial number is provided, and the file name generated thereby is set.
[0009]
The second means for solving the above-mentioned problem is that a digital camera is provided with means for recognizing a face or object of a person specified in advance and means for storing a person name or object name of the face of recognition. When an object to be imaged is recognized from inside, a character string representing the face or object is set as a file name or a keyword embedded in the image.
[0010]
A third means for solving the above problems is a digital camera comprising means for extracting an attribute representing the feature of the image from the image and means for classifying the image into a predetermined category according to the feature of the image. The file name is determined according to the classification result, or the keyword is embedded in the image file. Here, the categories are related to shooting conditions such as “sunny”, “rainy”, “night”, and “indoor”. The file name or keyword assigned based on such a classification represents the content shown in the image, which is a great clue for searching for a file.
[0011]
With the introduction of the third solving means, there arises a problem that classification of images becomes difficult due to changes in image characteristics depending on image capturing conditions. For example, the camera's focus, aperture, shutter speed, white balance, sensor sensitivity, etc. are adjusted at the time of shooting. However, characteristics such as image brightness, sharpness, and color histogram change accordingly. Therefore, at the time of classification, these parameters used for adjustment at the time of shooting are also used as feature amounts.
[0012]
DETAILED DESCRIPTION OF THE INVENTION
FIG. 1 is a data flow diagram showing the flow of processing from image input to image file storage in the first embodiment of the present invention. In this embodiment, after inputting an image with a camera (104), a file name is determined based on a serial number (106) and date / time (107) as usual (108), and the image is output to a file (109). In addition to the conventional method, the file name can also be determined by using the result of the keyword recognition (105) from the image. Of the recognized keywords, those other than those used to determine the file name can be embedded in the tag portion of the image file. The embedded keyword can be used as an index when searching. The words in the
[0013]
As a keyword, for example, the name of a famous landmark is registered. In this case, the famous landmark name is given as a file name to the image taken so that the signboard of the famous landmark is reflected in a sightseeing spot or the like. Also, all commonly used words may be registered in the dictionary. In this case, the character string in the image is recognized regardless of the contents, and is reflected in the file name.
In the present embodiment, as the keyword recognition process, for example, a method as described in Non-Patent Document 1 is used. FIG. 2 shows an example of the data flow of the keyword recognition process. First, in 201, a character line is cut out from the input image. For example, a method as described in Non-Patent Document 2 is used for character line extraction. Next, in 202, individual characters are cut out from the character line. When a plurality of character lines are cut out, the plurality of character lines are used as an image of the subsequent processing. Next, what character each individual character extracted in
FIG. 3 shows a hardware configuration in the embodiment of the present invention. An image is picked up by an
[0014]
FIG. 4 shows the appearance of the apparatus in the embodiment of the present invention. The
[0015]
FIG. 5 shows an operation procedure in the first embodiment of the present invention. First, the operator connects the digital camera to a personal computer and issues a download instruction (501). In response, the keyword dictionary stored on the personal computer is transferred to the digital camera (502). Next, the operator disconnects the personal computer from the digital camera and activates the keyword setting 102 using the cursor key 405 (503). In the keyword setting 102, first, a list of keywords stored in the
[0016]
FIG. 6 shows a state of the
[0017]
FIG. 7 shows the state of the
When the operator selects the
[0018]
FIG. 8 shows an example of the input image. In this example, two character strings of “ΔΔ mountaintop” 801 written on a signboard and “□□ wear” 802 printed on clothes are shown. “ΔΔ mountaintop” 801 is a clue to the situation in which this photograph was taken, and is appropriate as an image file name. On the other hand, “□□ ware” 802 is not necessarily a clue to the situation in which the image was taken, and is inappropriate as an image file name.
[0019]
FIG. 9 shows a processing procedure of the
F = (f1, f2, f3,..., Fn)
Is a process for obtaining. Here, n = 5 and the following feature amounts are used.
f1: X coordinate (pixel) on the image of the center of the recognized keyword
f2: Y coordinate (pixel) on the image of the center of the recognized keyword
f3: width of the recognized keyword center on the image (pixels)
f4: Height of the recognized keyword center on the image (pixels)
f5: Likelihood as a character string obtained by post-processing
The
[0020]
FIG. 10 shows a state of the
[0021]
FIG. 11 shows a processing procedure for the
[0022]
FIG. 12 shows the state of the
[0023]
FIG. 13 is a data flow diagram illustrating the flow of processing from image input to image file output in the second embodiment of the present invention. First, an image is input according to the image input setting 1311 (1302). Here, the image input setting is a setting of parameters necessary for image input, such as camera focus, aperture, shutter speed, white balance, sensor sensitivity, and contrast. Next, a face is detected from the input image, and a face registered in advance in the
[0024]
FIG. 14 shows the processing procedure of
[0025]
FIG. 15 shows a processing procedure of the
[0026]
【The invention's effect】
It is possible to automatically assign an image file name that can be easily inferred from the contents of an image, which has been difficult in the past.
[Brief description of the drawings]
FIG. 1 is a data flow diagram showing a flow of processing from image input to image file output in the first embodiment.
FIG. 2 is a data flow diagram showing the flow of keyword recognition processing in the first embodiment of the present invention.
FIG. 3 is a hardware configuration diagram according to the embodiment of the present invention.
FIG. 4 is an external view of an apparatus according to an embodiment of the present invention.
FIG. 5 is a diagram showing an operation procedure in the first embodiment of the present invention.
FIG. 6 is a diagram showing a state of a display screen when specifying a keyword setting and a shooting mode.
FIG. 7 is a diagram showing a state of a display surface when displaying a keyword dictionary and specifying a keyword.
FIG. 8 is a schematic diagram of an input image.
FIG. 9 is a diagram showing a processing procedure for keyword selection processing;
FIG. 10 is a display screen when a keyword recognition result is displayed.
FIG. 11 is a diagram showing a processing procedure for determining a file name in the first embodiment of the present invention.
FIG. 12 is a display screen when a file name is displayed in the first embodiment of the present invention.
FIG. 13 is a data flow diagram showing a flow of processing from image input to image file output in the second embodiment of the present invention.
FIG. 14 is a diagram showing a face recognition processing procedure in the second embodiment of the present invention.
FIG. 15 is a diagram showing a processing procedure for photographing state recognition in the second embodiment of the present invention.
[Explanation of symbols]
101: Processing from image input to image file output in the first embodiment, 102 ... Keyword setting, 103 ... Keyword dictionary, 104 ... Image input, 105 ... Keyword recognition, 106 ..Sequence number counting, 107 ... Date / time management, 108 ... File name determination, 109 ... File output, 110 ... Image file, 201 ... Character line extraction, 202 ... Character extraction , 203 ... Character identification, 204 ... Post-processing, 205 ... Keyword selection, 206 ... Character identification dictionary, 301 ... Digital camera, 302 ... Optical device, 303 ...
Claims (16)
入力した画像中から文字を認識する手段と,文字を認識した結果得られる文字列を含む画像の名称の候補を作成し、該候補が妥当と判断された場合に該候補を上記画像の名称として決定する手段とを有することを特徴とする画像撮影装置。An image pickup device that photoelectrically converts an image and takes it in as a digital signal, and a storage device that encodes the digital signal, assigns a name, and stores it.
A means for recognizing characters from the input image and a candidate for an image name including a character string obtained as a result of recognizing the character are created, and when the candidate is determined to be valid, the candidate is used as the name of the image. And an image photographing device.
上記入力したデジタル信号中から顔領域を検出する手段と,上記検出した顔領域の特徴量を算出する手段と,上記顔領域の特徴量から尤度を算出する尤度関数と顔の名称の対の集合を記憶する手段と,上記検出した顔領域の尤度が最も高い顔の名称を含むように上記画像の名称を決定する手段とを有することを特徴とする画像撮影装置。An image pickup device that photoelectrically converts an image and takes it in as a digital signal, and a storage device that encodes the digital signal, assigns a name, and stores it.
A means for detecting a face area from the input digital signal, a means for calculating a feature quantity of the detected face area, and a likelihood function and face name pair for calculating likelihood from the feature quantity of the face area. And a means for determining the name of the image so as to include the name of the face having the highest likelihood of the detected face area.
上記入力したデジタル信号中から撮影状況の特徴量を算出する手段と,撮影状況の特徴量から尤度を算出する尤度関数と撮影状況の名称の対の集合を記憶する手段と,最も尤度が高い撮影状況の名称を含むように上記画像の名称を決定する手段とを有することを特徴とする画像撮影装置。An image pickup device that photoelectrically converts an image and takes it in as a digital signal, and a storage device that encodes the digital signal, assigns a name, and stores it.
Means for calculating a feature value of a shooting situation from the input digital signal; means for storing a set of a likelihood function and a shooting situation name pair for calculating likelihood from the feature quantity of the shooting situation; Means for determining the name of the image so as to include a name of a high photographing situation.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003206389A JP2005057360A (en) | 2003-08-07 | 2003-08-07 | Picture photographing apparatus and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003206389A JP2005057360A (en) | 2003-08-07 | 2003-08-07 | Picture photographing apparatus and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005057360A true JP2005057360A (en) | 2005-03-03 |
Family
ID=34363268
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003206389A Pending JP2005057360A (en) | 2003-08-07 | 2003-08-07 | Picture photographing apparatus and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005057360A (en) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006117968A1 (en) * | 2005-04-27 | 2006-11-09 | Fujifilm Corporation | Image capturing apparatus, image capturing method, and program |
JP2008288898A (en) * | 2007-05-17 | 2008-11-27 | Canon Inc | Motion picture imaging apparatus and method |
JP2009087394A (en) * | 2007-09-27 | 2009-04-23 | Funai Electric Co Ltd | Recording and reproducing device |
CN101170672B (en) * | 2006-10-24 | 2010-06-09 | 索尼株式会社 | Contents character information acquisition method, contents character information acquisition apparatus, and video content recording apparatus |
US8340475B2 (en) | 2006-10-24 | 2012-12-25 | Sony Corporation | Database production method, database production program, database production apparatus and image content recording apparatus |
US9239847B2 (en) | 2009-03-12 | 2016-01-19 | Samsung Electronics Co., Ltd. | Method and apparatus for managing image files |
-
2003
- 2003-08-07 JP JP2003206389A patent/JP2005057360A/en active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006117968A1 (en) * | 2005-04-27 | 2006-11-09 | Fujifilm Corporation | Image capturing apparatus, image capturing method, and program |
JP2006333443A (en) * | 2005-04-27 | 2006-12-07 | Fujifilm Holdings Corp | Imaging apparatus, method, and program |
US8111304B2 (en) | 2005-04-27 | 2012-02-07 | Fujifilm Corporation | Image capturing apparatus, image capturing method, and computer readable medium in which an image extracted in association with selected object information is displayed |
CN101170672B (en) * | 2006-10-24 | 2010-06-09 | 索尼株式会社 | Contents character information acquisition method, contents character information acquisition apparatus, and video content recording apparatus |
US8340475B2 (en) | 2006-10-24 | 2012-12-25 | Sony Corporation | Database production method, database production program, database production apparatus and image content recording apparatus |
JP2008288898A (en) * | 2007-05-17 | 2008-11-27 | Canon Inc | Motion picture imaging apparatus and method |
JP2009087394A (en) * | 2007-09-27 | 2009-04-23 | Funai Electric Co Ltd | Recording and reproducing device |
US9239847B2 (en) | 2009-03-12 | 2016-01-19 | Samsung Electronics Co., Ltd. | Method and apparatus for managing image files |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5612310B2 (en) | User interface for face recognition | |
US9930170B2 (en) | Method and apparatus for providing phonebook using image in a portable terminal | |
US8599251B2 (en) | Camera | |
JP5456159B2 (en) | Method and apparatus for separating the top of the foreground from the background | |
KR20060050729A (en) | Method and apparatus for processing document image captured by camera | |
KR100737974B1 (en) | Image extraction combination system and the method, And the image search method which uses it | |
WO2007004519A1 (en) | Search system and search method | |
WO2007105768A1 (en) | Face-image registration device, face-image registration method, face-image registration program, and recording medium | |
JP2010148052A (en) | Mobile terminal with camera | |
JP2006165821A (en) | Portable telephone | |
US7760249B2 (en) | Image recording and playing system and image recording and playing method | |
JP2010021921A (en) | Electronic camera and image processing program | |
JP2008067321A (en) | Data registration management apparatus | |
JP2006011935A (en) | Personal information management device, method for creating personal information file, and method for searching personal information file | |
JP2005234686A (en) | Expression recognition device, expression recognition method and program | |
JP2005057360A (en) | Picture photographing apparatus and program | |
JP5402026B2 (en) | Electronic camera and image processing program | |
US11049303B2 (en) | Imaging apparatus, and operation program and operation method for imaging apparatus | |
JP2006101156A (en) | Information processing device and program | |
KR101629824B1 (en) | Digital image processing apparatus and method for controlling thereof | |
US20080068483A1 (en) | Image reproducing apparatus and image reproducing method | |
JP2005135210A (en) | Portable device with character recognition function | |
CN101015201A (en) | Method and apparatus for processing document image captured by camera | |
KR101398471B1 (en) | Image processing apparatus and controlling method thereof | |
JP6712861B2 (en) | Information processing device, information processing method, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20050223 |