JP2005057360A - Picture photographing apparatus and program - Google Patents

Picture photographing apparatus and program Download PDF

Info

Publication number
JP2005057360A
JP2005057360A JP2003206389A JP2003206389A JP2005057360A JP 2005057360 A JP2005057360 A JP 2005057360A JP 2003206389 A JP2003206389 A JP 2003206389A JP 2003206389 A JP2003206389 A JP 2003206389A JP 2005057360 A JP2005057360 A JP 2005057360A
Authority
JP
Japan
Prior art keywords
image
name
character string
candidate
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003206389A
Other languages
Japanese (ja)
Inventor
Masashi Koga
昌史 古賀
Tatsuya Kameyama
達也 亀山
Kazumi Rissen
和巳 立仙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2003206389A priority Critical patent/JP2005057360A/en
Publication of JP2005057360A publication Critical patent/JP2005057360A/en
Pending legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide a mobile terminal having a digital picture input means, in which a proper file name is attached to a digital picture and the resulting digital picture is stored. <P>SOLUTION: The mobile terminal recognizes characters from a received digital picture, uses a character string including a result of character recognition for a candidate of a file name to be given to the digital picture, and decides the file name on the basis of the confirmation of a user. <P>COPYRIGHT: (C)2005,JPO&NCIPI

Description

【0001】
【発明の属する技術分野】
本発明は,カメラを有する携帯型の端末における入力手段に関する技術分野に属する。
【0002】
【従来の技術】
従来より,カメラで撮った画像をデジタル化し,ファイルとして蓄積することができるデジタルスチルカメラ,カメラ付き携帯電話,カメラ付きPDAなどの装置が実用化されている。以下,これらの装置をデジタルカメラと総称する。多くのデジタルカメラは,蓄積した画像を表示する機能や,不要な画像を削除したりする機能も兼ね備えている。通常,ファイルの名称は日付,通し番号などに基づいて付けられる。また,多くの場合,デジタルカメラに蓄積した画像は,パーソナルコンピュータに転送し,整理,加工,印刷を行う。
また,特開平07−072546号公報(特許文献1)のように,カメラから撮った画像から文字を認識し,認識した結果を画像とあわせて記録する例もある。
【0003】
【特許文献1】特開平07−072546号公報
【非特許文献1】R.M.K. Sinha, B. Prasada, G.F. Houle, M. Sabourin, “Hybrid Contextual Text Recognition with String Matching,” IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 15, No. 9, December 1993
【非特許文献2】A.K. Jain, B. Yu, “Automatic Text Location in Images and Video Frames,” Pattern Recognition, Vol. 31, No. 12, pp. 2055−2076, 1998
【非特許文献3】C.−L. Liu, M. Koga and H. Fujisawa, ”Lexicon−driven Segmentation and Recognition of Handwritten Character Strings for Japanese Address Reading,” IEEE Trans. Pattern Analysis and Machine Intelligence, Vol. 24, No. 11, Nov. 2002, pp. 425−1437
【0004】
【発明が解決しようとする課題】
本発明が解決しようとする課題は,デジタルカメラで撮ったファイルの検索・利用を容易にすることである。多くの画像を装置中に格納した際には,表示したり削除したりするファイルをファイル名称のみを手がかりとして探すことは困難である。なぜなら,日付や通し番号のみからは画像にどんなものが写っているかを知ることが出来ないからである。このため,多くの場合,日付や通し番号で大まかに見当をつけた後,記憶に頼って順に画像を表示させ,所望の画像を探さざるを得ない。この過程を支援するために,縮小画像を多数画像に表示させることもある。しかし,この方法では表示される画像が小さく,画像の細部,例えば写っている文字や人の顔などを確認することが出来ない。
【0005】
【課題を解決するための手段】
上記の課題を解決するための第一の手段は,デジタルカメラに文字を認識する手段を搭載し,画像中から文字を認識した結果に基づきファイル名を決定,もしくは画像ファイルの一部にキーワードを埋め込むことである。多くの場合,画像中には文字があり,文字が撮影場所や撮影時の重要な手がかりとなっている。例えば,観光地での記念写真は名所旧跡を示す看板を撮影することが多い。このため,画像中の文字は画像を探す上での重要な手がかりである。また,最近はデジタルカメラをメモ帳代わりに用いることも多く,この場合には画像中の文字は画像を探す上での重要な手がかりである。
【0006】
上記の手段の導入に伴い,いくつかの技術的な問題が派生する.そこで,以下のような手段でそれらを解決する。
第一に,画像中に多くの文字列が存在する場合があり,どれがファイル名,あるいはキーワードとして適切かが自明でない場合がある。そこで,文字の大きさ,文字の位置などに基づきファイル名もしくはキーワードを決定する手段を設ける。
【0007】
第二に,文字の大きさや位置などでは適切なファイル名称もしくはキーワードを決定できない場合がある。そこで,予め指定したキーワードの集合を記憶する手段と,キーワードを画像中から認識する手段を設け,画像中から認識されたキーワードをファイル名もしくは画像ファイルに埋め込むキーワードに含むようにする。画像中からキーワードを認識する手段としては,文字認識結果とキーワードの集合を照合する方法,キーワードの集合を文字認識における言語辞書として用いる方法などがある。
【0008】
第三に,文字認識結果だけではファイル名称を特定できない場合がある。例えば,同じ文字認識結果が得られる画像が2つ以上ある場合などである。そこで,文字認識結果と日付もしくは通し番号を組合わせた文字列を生成する手段を設け,これにより生成したファイル名とするようにする。
【0009】
上記の課題を解決するための第二の手段は,予め指定した人物の顔や物体を認識する手段と,認識対像の顔の人名や物体名を記憶する手段とをデジタルカメラに設け,画像中から対像とする物体が認識された場合には,その顔や物体を表す文字列をファイル名,もしくは画像に埋め込むキーワードとすることである。
【0010】
上記の課題を解決するための第三の手段は,画像の特徴を表す属性を画像から抽出する手段と,画像の特徴に応じて画像を予め定められているカテゴリに分類する手段をデジタルカメラに設け,分類結果に応じてファイル名を決定,もしくはキーワードを画像ファイルに埋め込むようにすることである。ここで,カテゴリは例えば,「晴天」「雨天」「夜」「室内」など撮影状況に関するものとしておく。こうした分類に基づいて付与されたファイル名もしくはキーワードは,画像に写っている内容を表しており,ファイルを探す上での大きな手がかりとなる。
【0011】
第三の解決手段の導入に伴い,画像の撮影条件により,画像の特徴が変化し分類が困難になるという問題が生じる。例えば,通常カメラのピント,絞り,シャッター速度,ホワイトバランス,センサーの感度などは撮影時に調整するが,これに伴い,画像の明るさ,尖鋭さ,色ヒストグラムなどの特徴が変化する。そこで,分類の際にはこれらの撮影時に調整に用いたパラメータも特徴量として用いるようにする。
【0012】
【発明の実施の形態】
図1に本発明の第一の実施例における画像の入力から画像ファイルの保存に至る処理の流れをデータフロー図で示す。本実施例では,カメラで画像を入力(104)後,従来どおり通し番号(106)や日付・時刻(107)に基づきファイル名を決定し(108),画像をファイルに出力する(109)。また,従来の方式に加え,画像中からキーワードを認識(105)した結果を併用し,ファイル名を決定することもできる。また,認識されたキーワードのうち,ファイル名の決定に用いたもの以外は,画像ファイル中のタグ部に埋め込んでもより。埋め込まれたキーワードは,検索時にインデックスとして利用可能である。キーワード辞書103中の単語は,予めデジタルカメラの記憶装置に記憶しておくか,キーワード設定処理102により登録する。ここでは,入力画像の形式はRGBカラー画像とするが,他のカラー画像形式,もしくはグレー画像を用いてもよい。
【0013】
キーワードとしては,例えば,名所旧跡の名称を登録しておく。この場合は,観光地などで名所旧跡の看板が写るように撮った画像に対しては,その名所旧跡名がファイル名として付与されることとなる。また,一般的に用いられる単語全てを辞書に登録しておいてもよい。この場合は,内容に関わらず画像中の文字列が認識され,ファイル名に反映されることとなる。
本実施例では,キーワード認識処理としては,例えば,非特許文献1のような方式を用いる。図2にキーワード認識処理のデータフローの一例を示す。まず201において入力画像から文字行を切出す。文字行切出しには,例えば非特許文献2のような方式を用いる。次に202において文字行中から個々の文字を切出す。複数の文字行が切出された場合には,それらの複数の文字行を以降の処理の対像とする。次に,ステップ203において切出した個々の文字が何の文字であるかを識別する。この際,文字識別辞書206を参照する。最後にステップ204において,文字識別した結果を文字列として解釈する。この際,キーワード辞書103を参照する。最後にキーワード選択206において,認識されたキーワードの画像中での大きさ,位置,文字列認識結果の尤もらしさなどに基づき,最終的にキーワードとして相応しいものを選択し,出力する。キーワード選択206の入力は認識されたキーワードの集合であり,出力はファイル名に相応しい順に並べられたキーワード認識結果の集合である。本実施例では,文字切出し,文字識別,後処理を逐次的に実行しているが,非特許文献3にあるように,これらを統合した処理を実行してもよい。また,言語情報を用いずに文字認識を実行した後,通常のテキストマッチングのアルゴリズムを用いてキーワード辞書中の単語と文字認識結果を照合してもよい
図3に,本発明の実施例におけるハードウエアの構成を示す。画像は,レンズ,絞りなどからなる光学装置302によって撮像された後,例えばCCD素子などの光電変換素子303で電気信号に変換される。さらに得られた電気信号はアナログ・デジタル変換器304にてデジタル信号に変換し,さらに例えばDSPなどの信号処理素子305により,色空間変換,フィルタ処理などの処理を施す。この結果は,RAM309へと転送する。演算装置307は,ROM308に格納されている処理手順と文字識別辞書などのデータを参照し,RAM309に格納されている画像を入力としてキーワード認識処理105を実行する。さらに演算装置307は,ROM308に格納されている処理手順に従い,通番計数処理106を実行するとともに,時計312を参照してファイル名決定処理108を実行する。画像ファイルは入出力装置310を介して,メモリーカード311に格納する。また,入力装置313は,キーワードを入力する際に用いる。また,表示装置306は,撮影時の画像の確認,ファイル名決定処理108の結果の表示に用いる。また,通信装置314は,キーワード辞書や画像ファイルの転送などのため,パーソナルコンピュータとの接続に用いる。
【0014】
図4に,本発明の実施例における装置の外観を示す。筐体401の前面には,光学装置302のレンズ部402を配置する。上部には,入力装置313の一部であって画像入力104を指示するためのシャッター403と,電源スイッチ404を配置する。側面には,パーソナルコンピュータとの接続に用いる通信装置314の端子407と,メモリーカード311の挿入口408を配置する。背面には,入力装置313の一部である,キャンセルボタン405,カーソルキー406を配置する。さらに背面には,表示装置306の表示面409を配置する。カーソルキー406は,上下左右の端を押すと方向を指示する信号を入力装置313に送り,中央を押すと確認などの別の信号を入力装置313へ送る。なお、以上は本発明を実施するための装置の一例であって、本発明は上記の配置に限定されるものではない。例えば、従来のカメラ型の装置ではなく、PDAや携帯電話などの携帯端末で、撮像装置等の、画像データ入力手段をもつものであってもよい。これらの携帯端末においては、通信装置として、無線LANやセルラ通信の無線通信装置を備えるため、ネットワークと通信を行って画像のダウンロード・転送を行ってもよい。
【0015】
図5に本発明の第一の実施例における操作の手順を示す。まず,操作者はデジタルカメラをパーソナルコンピュータへ接続し,ダウンロード指示を行う(501)。これに応じ,パーソナルコンピュータ上に格納されていたキーワード辞書がデジタルカメラに転送される(502)。次に,操作者はパーソナルコンピュータとデジタルカメラの接続を外し,カーソルキー405により,キーワード設定102を起動する(503)。キーワード設定102においては,まず,キーワード辞書103に格納されているキーワードを一覧表示する(504)。操作者はこれらから必要なものを取捨選択し,必要に応じ,カーソルキーで新たなキーワードを登録する(505)。次に,操作者はカーソルキー406を用い撮影モードを指定する(506)。ここで撮影モードとは,画像ファイル名を従来の方法で設定するか,キーワード認識で設定するかの違いを指定する。図中507以降は,キーワード認識で画像ファイル名を設定するモードが選択されたことを前提とした操作の手順を示している。モード指定後,レンズ402を撮影対像に向け,シャッター403を押下することにより,画像入力処理104,キーワード認識105,ファイル名決定108が起動される(507)。ファイル名決定108においては,認識した結果得られたキーワードを表示し(508),必要に応じ操作者がファイル名に用いるキーワードを指定する。その結果を利用し,ファイル名決定処理108は,通番や日付などの情報を参照し,ファイル名を決定する。決定したファイル名は操作者に表示する(510).続いて,ファイル出力処理109にて,画像を符号化し,キーワード認識結果を埋め込み,ファイル名決定処理108で決定したファイル名に出力する。画像の符号化には,JPEG等の標準的な方式を用いる。また,キーワード認識結果は,JPEGなど標準的な画像ファイル形式のタグ部に格納する。再び,デジタルカメラをパーソナルコンピュータに接続後,操作者が画像ファイル転送指示511を行うことで,デジタルカメラからパーソナルコンピュータへファイルを転送する処理を起動する(512)。通信機能を用いてネットワークに接続し、キーワードのダウンロードや画像ファイルの転送のためにネットワークを介して接続可能なサーバにアクセスしてもよい。
【0016】
図6に,キーワード入力起動503およびモード指定506の操作を行う際の表示面409の状態を示す。まず,電源スイッチ404により電源が投入されている状態で,カーソルキー406のどこかを押下すると,メニュー601が表示される。メニュー中での選択項目は,操作者がカーソルキーの上下部分を押すことで変更し,確定の際にはカーソルキー406の中央を押す。いずれも選択しない場合には,キャンセルボタン405を押す。キーワード入力を起動する際には,操作者が「キーワード設定604」を選択し,カーソルキー406の中央を押す。506のモード指定を行う際には,操作者が「撮影(自動ファイル名)」603を選択し,カーソルキー406の中央を押す。通常の撮影を行う際には「撮影」602を選択する。
【0017】
図7に,キーワード表示504およびキーワード指定505を行う際の表示面409の状態を示す。まず,操作者がメニュー601でキーワード設定604を指定すると,図7(a)の701のようなメニューが表示される。701は,予めパーソナルコンピュータから転送した複数のキーワード辞書から,キーワード認識に用いるものを選択するためのものである。この例では,「名所・旧跡」と「地名」が有効になっている。ここで,操作者がカーソルキー406の上下を押すことにより,選択項目を変更し,カーソルキー406の左を押すことでキーワード辞書が有功か無効かを切り替える。操作者がカーソルキー406の中央を押すことで,変更内容を確定して元の状態に戻る。さらに,操作者がある項目を選んだ状態でカーソルキー604の右を押すと,キーワード辞書に登録されているキーワードを一覧する。
図7(a)で操作者が702の項目を選択してカーソルキー604の右を押した際には図7(b)に示すようなメニュー703が現れる。この状態で操作者がカーソルキー406の上下を押すことにより,選択項目を変更でき,さらに,カーソルキー406の左を押すことで選択したキーワードが有功か無効かを切り替える。さらに,カーソルキー406の右を押すことで,新たなキーワードを操作者がカーソルキー406を用いて入力するモードに入る。このモードでは,画面中に仮想的なキーボードを表示するなどして,文字を入力するようにする。また,図7(b)の状態で操作者がカーソルキー406の中央を押すことで,変更内容を確定して元の状態に戻る。例えば,図7(b)の状態では「××渓谷」704が選択されている。ここで,カーソルキー406の左を操作者が押すと,キーワード「××渓谷」は無効となる。
【0018】
図8に,入力画像の一例を示す。この例では,看板にかかれた「△△山頂」801と,服に印刷された「□□ウエア」802の二つの文字列が写っている。「△△山頂」801はこの写真が撮影された状況の手がかりとなり,画像ファイル名として適切である。一方,「□□ウエア」802は必ずしも撮影された状況の手がかりとはならず,画像ファイル名としては不適切である。
【0019】
図9に,キーワード選択処理205の処理手順を示す。本処理の入力は認識されたキーワードの集合であり,出力はファイル名に相応しい順に並べられたキーワード認識結果の集合である。まず,ループ901において,各キーワード認識結果について,特徴量算出902と確信度算出903を実行する。特徴量算出902は,各キーワード認識結果のファイル名としての相応しさを調べるために必要なn個の特徴量
F = (f1, f2, f3, ..., fn)
を求める処理である。ここではn=5とし,以下のような特徴量を用いる。
f1: 認識されたキーワードの中心の画像上でのX座標(画素)
f2: 認識されたキーワードの中心の画像上でのY座標(画素)
f3: 認識されたキーワードの中心の画像上での幅(画素)
f4: 認識されたキーワードの中心の画像上での高さ(画素)
f5: 後処理で得られる文字列としての尤度
確信度算出903は,得られた特徴量に基づきキーワードのファイル名としての相応しさを示す値すなわち確信度を算出する処理である。次に,ステップ904にて,確信度の値が予め定められている閾値θ以下のキーワード認識結果を削除する。これは,相応しくないキーワードを用いて誤ったファイル名をつけてしまうことを防ぐためである。次に,ステップ905にて,残ったキーワード認識結果を確信度順に並べ替える。
【0020】
図10に,認識結果表示508を実行した際の表示面409の状態を示す。ここでは,1001,1002のようなキーワードを認識した結果を,認識された文字列のすぐ下に表示する。さらに,最も確信度の高いキーワードを,1001のようにハイライトして表示する。ここで,カーソルキー406の下を押すとより確信度の低いキーワードを,上を押すと確信度の高いキーワードを順にハイライトする。最終的に,カーソルキー406の中央を押した時点でハイライトされているキーワードをファイル名の決定に用いる。
【0021】
図11に,ファイル名決定108に処理手順を示す。本処理の入力は,キーワード認識105の結果であるファイル名に相応しい順に並べられたキーワード認識結果の集合,日付・時刻管理107から得られる日付の情報,および保存済み画像ファイルの名称の集合である。まず,ステップ1101において,図10に示すようにキーワード認識結果を表示する。次に,ステップ1102において図10で説明したような方式で,操作者によるキーワード選択により,ファイル名の決定に用いるキーワードを選択する。次に,ステップ1103にて,格納済みの画像ファイルの名称を調べ,ステップ1102で確定したキーワードと同一のキーワードを用いたファイル名で,かつ,日付が新たに撮影した画像の日付と同一のものを探索する。該当する画像ファイルが見つかった場合には,さらに該当する画像ファイル名称の中で,最も通番の大きいものを選択する。次に,ステップ1104にて,ステップ1103で得られた通番を1加えたものを新たな通番とする。もし,ステップ1103で該当する画像ファイルが見出されなかった場合には,通番の値を1とし、または通番をつけないこととする。最後に,ステップ1105にて,日付とキーワードと通番よりファイル名を合成する。
【0022】
図12にファイル名決定表示510実行した際の表示面409の状態を示す。この状態では,画面中に現れたウインドウ1201上に決定したファイル名と画像ファイルに埋め込むキーワードを表示する。この例では,この画像は2002年12月17日に△△山頂で撮った2枚目の画像であるとしており,ファイル名は,日付とキーワードと通番を組合わせた「20021217△△山頂02」と決定されている。日付、時刻などの情報は装置内に内蔵される時計から入手される。
【0023】
図13に,本発明の第二の実施例における画像入力から画像ファイル出力に至る処理の流れをデータフロー図にて説明する。まず,画像入力設定1311に従い,画像を入力する(1302)。ここで画像入力設定とは,カメラのピント,絞り,シャッター速度,ホワイトバランス,センサーの感度,コントラストなど,画像入力の際に必要なパラメータの設定のことである。次に,入力画像中から顔を検出し,予め顔辞書1303に登録してある顔を認識する。また,撮影状況辞書1304に登録してある情報と画像入力設定1311の出力を参照し,入力画像がいかなる状況で撮影されたかを認識する(1306)。次に,顔認識1305,撮影状況認識1306,日付・時刻管理1307の結果,すでに格納されている画像ファイル1310を参照し,108と同じの手順で画像ファイル名を決定する(1308)。さらに,決定したファイル名に基づき,画像ファイルを出力する(1309)。
【0024】
図14に,顔認識1305の処理手順を示す。まず,ステップ1401にて入力画像中より顔領域を検出する。次にループ1402にて,ステップ1401で得られた全ての顔領域について,ステップ1403,ループ1404を繰り返す。ステップ1403は顔領域の特徴量を算出する処理である。特徴量は複数算出し,本ステップの出力は特徴ベクトルとなる。ループ1404では,顔辞書1303に登録してある全ての顔について,ステップ1403で得られた特徴ベクトルの尤度を計算する(1405)。顔辞書1303には,登録した顔の数だけ,尤度関数と顔に対応する名称(例えば氏名)の対を記憶している。この尤度関数を用い,ステップ1405で尤度を計算する。ループ1402を終了後,ステップ1406にて最も尤度の値が高い顔を検出し,さらにステップ1407にてその顔に対応する名称を出力する。この出力がファイル名決定に利用される。
【0025】
図15に,撮影状況認識1305の処理手順を示す。まず,ステップ1501にて入力画像から撮影状況の特徴量を算出する。特徴量は複数算出し,本ステップの出力は特徴ベクトルとなる。例えば,特徴量としては,各色成分ごとのヒストグラム値,自己相関係数,モーメントなどを用いる。次に,ループ1502にて,撮影状況辞書1304に登録してある全ての撮影状況について,ステップ1501で得られた特徴ベクトルの尤度を計算する(1503)。撮影状況辞書1304には,登録した撮影状況の数だけ,尤度関数と撮影状況に対応する名称(例えば「晴天」「雨天」「夜」「室内」など)の対を記憶している。この尤度関数を用い,ステップ1503では尤度を計算する。次に,ステップ1504にて,最も尤度が高いものを選択する。さらにステップ1505にて,最も尤度が高い撮影状況の名称を出力する。
【0026】
【発明の効果】
従来は困難であった画像の内容が容易に類推可能な画像ファイル名を自動的に付与することが可能となる。
【図面の簡単な説明】
【図1】第一の実施例における画像入力から画像ファイル出力に至る処理の流れを示すデータフロー図。
【図2】本発明の第一の実施例におけるキーワード認識処理の流れを示すデータフロー図。
【図3】本発明の実施例におけるハードウエアの構成図。
【図4】本発明の実施例における装置の外観図。
【図5】本発明の第一の実施例における操作の手順を示す図。
【図6】キーワード設定,撮影のモードを指定する際の表示面の状態を示す図。
【図7】キーワード辞書表示,キーワード指定の際の表示面の状態を示す図。
【図8】入力画像の模式図。
【図9】キーワード選択処理の処理手順を示す図。
【図10】キーワード認識結果表示時の表示面。
【図11】本発明の第一の実施例におけるファイル名決定の処理手順を示す図。
【図12】本発明の第一の実施例におけるファイル名表示時の表示面。
【図13】本発明の第二の実施例における画像入力から画像ファイル出力に至る処理の流れを示すデータフロー図。
【図14】本発明の第二の実施例における顔認識の処理手順を示す図。
【図15】本発明の第二の実施例における撮影状況認識の処理手順を示す図。
【符号の説明】
101・・・第一の実施例における画像入力から画像ファイル出力に至る処理,102・・・キーワード設定,103・・・キーワード辞書,104・・・画像入力,105・・・キーワード認識,106 ・・・通番計数,107・・・日付・時刻管理,108・・・ファイル名決定,109・・・ファイル出力,110・・・画像ファイル,201・・・文字行切出し,202・・・文字切出し,203・・・文字識別,204・・・後処理,205・・・キーワード選択,206・・・文字識別辞書,301・・・デジタルカメラ,302・・・光学装置,303・・・光電変換素子,304・・・アナログデジタル変換器,305・・・信号処理素子,306・・・表示装置,307・・・演算装置,308・・・ROM,309・・・RAM,310・・・入出力装置,311・・・メモリーカード,312・・・時計,313・・・入力装置,314・・・通信装置,401・・・筐体,402・・・レンズ,403・・・シャッター,404・・・電源スイッチ,405・・・キャンセルボタン,406・・・カーソルキー,407・・・通信装置端子,408・・・メモリーカード挿入口,409・・・表示面,501・・・ダウンロード支持,502・・・キーワード転送,503・・・キーワード入力起動,504・・・キーワード表示,505・・・キーワード指定,506・・・モード指定,507・・・撮影,508・・・認識結果表示,509・・・ファイル名用キーワード指定,510・・・ファイル名表示,511・・・ファイル転送指示,512・・・画像ファイル転送,601・・・モード指定メニュー,602・・・撮影,603・・・撮影(自動ファイル名),604・・・キーワード指定,701・・・キーワード辞書メニュー,702・・・選択されたキーワード辞書,703・・・キーワード一覧ウインドウ,704・・・選択されたキーワード,801・・・認識されたキーワード「△△山頂」,802・・・認識されたキーワード「□□ウエア」,901・・・各キーワード認識結果に関するループ,902・・・特長量算出するステップ,903・・・確信度算出するステップ,904・・確信度の閾値処理を行うステップ,905・・・キーワード並べ替えを行うステップ,1001,1002・・・キーワード認識結果,1101・・・キーワード認識結果を表示するステップ,1102・・・キーワードを選択するステップ,1103・・・既存の最大の通番を探索するステップ,1104・・・通番に1を加算するステップ,1105・・・ファイル名を合成するステップ,1201・・・ファイル名を表示するウインドウ,1301・・・本発明の第二の実施例における画像入力から画像ファイル出力に至る処理,1302・・・画像入力,1303・・・顔辞書,1304・・・撮影状況辞書,1305・・・顔認識,1306・・・撮影状況認識,1307・・・日付・時刻管理,1308・・・ファイル名決定,1309・・・ファイル出力,1310・・・画像ファイル,1401・・・入力画像より顔領域を検出するステップ,1402・・・全ての顔領域に関するループ,1403・・・特長量を算出するステップ,1404・・・全ての顔辞書に登録してある顔に関するループ,1405・・・尤度算出を行うステップ,1406・・・尤度値が最大のものを選択するステップ,1407・・・尤度値が最大の顔の名称を出力するステップ,1501・・・特徴量算出を行うステップ,1502・・・全ての撮影状況に関するステップ,1503・・・尤度算出を行うステップ,1504・・・最も尤度値が高い撮影状況を検出するステップ,1505・・・最も尤度値が高い撮影状況の名称を出力するステップ。
[0001]
BACKGROUND OF THE INVENTION
The present invention belongs to a technical field relating to input means in a portable terminal having a camera.
[0002]
[Prior art]
2. Description of the Related Art Conventionally, devices such as a digital still camera, a camera-equipped mobile phone, and a camera-equipped PDA that can digitize images stored by a camera and store them as files have been put into practical use. Hereinafter, these devices are collectively referred to as a digital camera. Many digital cameras also have a function of displaying accumulated images and a function of deleting unnecessary images. Normally, file names are given based on date, serial number, and so on. In many cases, images stored in a digital camera are transferred to a personal computer for organizing, processing, and printing.
In addition, as disclosed in Japanese Patent Application Laid-Open No. 07-072546 (Patent Document 1), there is an example in which characters are recognized from an image taken from a camera and the recognized result is recorded together with the image.
[0003]
[Patent Document 1] Japanese Patent Application Laid-Open No. 07-072546
[Non-Patent Document 1] R.A. M.M. K. Sinha, B.H. Prasada, G.M. F. Houle, M.M. Sabourin, “Hybrid Textual Text Recognition with String Matching,” IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 15, no. 9, December 1993
[Non-Patent Document 2] A. K. Jain, B.B. Yu, “Automatic Text Location in Images and Video Frames,” Pattern Recognition, Vol. 31, no. 12, pp. 2055-2076, 1998
[Non-patent Document 3] C.I. -L. Liu, M.M. Koga and H.K. Fujisawa, "Lexicon-drive Segmentation and Recognition of Handwriting Character Strings for Japan Address Reading," IEEE Trans. Pattern Analysis and Machine Intelligence, Vol. 24, no. 11, Nov. 2002, pp. 425-1437
[0004]
[Problems to be solved by the invention]
The problem to be solved by the present invention is to facilitate the search and use of files taken with a digital camera. When many images are stored in the apparatus, it is difficult to search for a file to be displayed or deleted using only the file name as a clue. This is because it is impossible to know what is in the image from only the date and serial number. For this reason, in many cases, after roughly registering the date and serial number, it is necessary to search for a desired image by sequentially displaying images depending on the memory. In order to support this process, a number of reduced images may be displayed on the image. However, with this method, the displayed image is small, and details of the image, for example, characters and human faces that can be seen, cannot be confirmed.
[0005]
[Means for Solving the Problems]
The first means to solve the above problem is that a digital camera is equipped with means for recognizing characters, and a file name is determined based on the result of recognizing characters from the image, or a keyword is assigned to a part of the image file. Is to embed. In many cases, there are characters in the image, and the characters are an important clue at the shooting location and at the time of shooting. For example, commemorative photos at sightseeing spots often shoot signs that show historical sites. For this reason, the characters in the image are an important clue when searching for the image. Recently, a digital camera is often used instead of a memo pad. In this case, characters in the image are an important clue for searching for the image.
[0006]
With the introduction of the above means, several technical problems arise. Therefore, they are solved by the following means.
First, there may be many character strings in the image, and it may not be obvious which is appropriate as a file name or keyword. Therefore, means for determining a file name or a keyword based on the character size, the character position, etc. is provided.
[0007]
Secondly, there are cases where an appropriate file name or keyword cannot be determined based on the size and position of characters. Therefore, means for storing a set of keywords specified in advance and means for recognizing the keyword from the image are provided so that the keyword recognized from the image is included in the file name or the keyword embedded in the image file. As means for recognizing a keyword from an image, there are a method of collating a character recognition result with a set of keywords, a method of using a set of keywords as a language dictionary in character recognition, and the like.
[0008]
Third, there are cases where the file name cannot be specified only by the character recognition result. For example, there are two or more images from which the same character recognition result can be obtained. Therefore, a means for generating a character string combining the character recognition result and the date or serial number is provided, and the file name generated thereby is set.
[0009]
The second means for solving the above-mentioned problem is that a digital camera is provided with means for recognizing a face or object of a person specified in advance and means for storing a person name or object name of the face of recognition. When an object to be imaged is recognized from inside, a character string representing the face or object is set as a file name or a keyword embedded in the image.
[0010]
A third means for solving the above problems is a digital camera comprising means for extracting an attribute representing the feature of the image from the image and means for classifying the image into a predetermined category according to the feature of the image. The file name is determined according to the classification result, or the keyword is embedded in the image file. Here, the categories are related to shooting conditions such as “sunny”, “rainy”, “night”, and “indoor”. The file name or keyword assigned based on such a classification represents the content shown in the image, which is a great clue for searching for a file.
[0011]
With the introduction of the third solving means, there arises a problem that classification of images becomes difficult due to changes in image characteristics depending on image capturing conditions. For example, the camera's focus, aperture, shutter speed, white balance, sensor sensitivity, etc. are adjusted at the time of shooting. However, characteristics such as image brightness, sharpness, and color histogram change accordingly. Therefore, at the time of classification, these parameters used for adjustment at the time of shooting are also used as feature amounts.
[0012]
DETAILED DESCRIPTION OF THE INVENTION
FIG. 1 is a data flow diagram showing the flow of processing from image input to image file storage in the first embodiment of the present invention. In this embodiment, after inputting an image with a camera (104), a file name is determined based on a serial number (106) and date / time (107) as usual (108), and the image is output to a file (109). In addition to the conventional method, the file name can also be determined by using the result of the keyword recognition (105) from the image. Of the recognized keywords, those other than those used to determine the file name can be embedded in the tag portion of the image file. The embedded keyword can be used as an index when searching. The words in the keyword dictionary 103 are stored in advance in the storage device of the digital camera or registered by the keyword setting process 102. Here, the format of the input image is an RGB color image, but another color image format or a gray image may be used.
[0013]
As a keyword, for example, the name of a famous landmark is registered. In this case, the famous landmark name is given as a file name to the image taken so that the signboard of the famous landmark is reflected in a sightseeing spot or the like. Also, all commonly used words may be registered in the dictionary. In this case, the character string in the image is recognized regardless of the contents, and is reflected in the file name.
In the present embodiment, as the keyword recognition process, for example, a method as described in Non-Patent Document 1 is used. FIG. 2 shows an example of the data flow of the keyword recognition process. First, in 201, a character line is cut out from the input image. For example, a method as described in Non-Patent Document 2 is used for character line extraction. Next, in 202, individual characters are cut out from the character line. When a plurality of character lines are cut out, the plurality of character lines are used as an image of the subsequent processing. Next, what character each individual character extracted in step 203 is identified. At this time, the character identification dictionary 206 is referred to. Finally, in step 204, the character identification result is interpreted as a character string. At this time, the keyword dictionary 103 is referred to. Finally, in the keyword selection 206, an appropriate keyword is finally selected and output based on the size and position of the recognized keyword in the image, the likelihood of the character string recognition result, and the like. The input of the keyword selection 206 is a set of recognized keywords, and the output is a set of keyword recognition results arranged in an order appropriate to the file name. In the present embodiment, character extraction, character identification, and post-processing are sequentially performed. However, as described in Non-Patent Document 3, these integrated processing may be performed. In addition, after performing character recognition without using linguistic information, it is possible to collate the word recognition result with the words in the keyword dictionary using a normal text matching algorithm.
FIG. 3 shows a hardware configuration in the embodiment of the present invention. An image is picked up by an optical device 302 including a lens and a diaphragm, and then converted into an electric signal by a photoelectric conversion element 303 such as a CCD element. Further, the obtained electric signal is converted into a digital signal by an analog / digital converter 304 and further subjected to processing such as color space conversion and filter processing by a signal processing element 305 such as a DSP. The result is transferred to the RAM 309. The arithmetic unit 307 refers to the processing procedure stored in the ROM 308 and data such as a character identification dictionary, and executes the keyword recognition process 105 using the image stored in the RAM 309 as an input. Further, the arithmetic unit 307 executes the serial number counting process 106 according to the processing procedure stored in the ROM 308 and executes the file name determination process 108 with reference to the clock 312. The image file is stored in the memory card 311 via the input / output device 310. The input device 313 is used when inputting a keyword. The display device 306 is used to check the image at the time of shooting and to display the result of the file name determination process 108. The communication device 314 is used for connection with a personal computer for transferring a keyword dictionary or an image file.
[0014]
FIG. 4 shows the appearance of the apparatus in the embodiment of the present invention. The lens unit 402 of the optical device 302 is disposed on the front surface of the housing 401. In the upper part, a shutter 403 for instructing the image input 104 and a power switch 404 which are part of the input device 313 are arranged. On the side surface, a terminal 407 of a communication device 314 used for connection with a personal computer and an insertion port 408 of a memory card 311 are arranged. On the back side, a cancel button 405 and a cursor key 406, which are part of the input device 313, are arranged. Further, a display surface 409 of the display device 306 is disposed on the back surface. The cursor key 406 sends a signal indicating a direction to the input device 313 when the top, bottom, left, and right ends are pressed, and sends another signal such as confirmation to the input device 313 when the center is pressed. The above is an example of an apparatus for carrying out the present invention, and the present invention is not limited to the above arrangement. For example, instead of a conventional camera-type device, a portable terminal such as a PDA or a mobile phone may be provided with image data input means such as an imaging device. Since these mobile terminals include a wireless LAN or cellular communication wireless communication device as a communication device, the image may be downloaded / transferred by communicating with a network.
[0015]
FIG. 5 shows an operation procedure in the first embodiment of the present invention. First, the operator connects the digital camera to a personal computer and issues a download instruction (501). In response, the keyword dictionary stored on the personal computer is transferred to the digital camera (502). Next, the operator disconnects the personal computer from the digital camera and activates the keyword setting 102 using the cursor key 405 (503). In the keyword setting 102, first, a list of keywords stored in the keyword dictionary 103 is displayed (504). The operator selects necessary items from these, and registers new keywords with the cursor keys as necessary (505). Next, the operator designates a shooting mode using the cursor key 406 (506). Here, the shooting mode designates the difference between setting an image file name by a conventional method or by keyword recognition. In the figure, 507 and the subsequent figures show an operation procedure on the premise that a mode for setting an image file name by keyword recognition is selected. After the mode is designated, the image input processing 104, the keyword recognition 105, and the file name determination 108 are activated by pointing the lens 402 toward the image-to-image and pressing the shutter 403 (507). In the file name determination 108, the keyword obtained as a result of recognition is displayed (508), and the operator designates the keyword used for the file name as necessary. Using the result, the file name determination process 108 refers to information such as a serial number and date to determine the file name. The determined file name is displayed to the operator (510). Subsequently, in the file output process 109, the image is encoded, the keyword recognition result is embedded, and the file name determined in the file name determination process 108 is output. A standard method such as JPEG is used for image encoding. The keyword recognition result is stored in a tag portion of a standard image file format such as JPEG. Again, after the digital camera is connected to the personal computer, the operator issues an image file transfer instruction 511 to start processing for transferring the file from the digital camera to the personal computer (512). You may connect to a network using a communication function, and access a server that can be connected via the network for downloading keywords or transferring image files.
[0016]
FIG. 6 shows a state of the display screen 409 when the keyword input activation 503 and the mode designation 506 are operated. First, when the power is turned on by the power switch 404 and the cursor key 406 is pressed somewhere, a menu 601 is displayed. The selection item in the menu is changed by the operator pressing the upper and lower portions of the cursor key, and the center of the cursor key 406 is pressed when confirming. If neither is selected, the cancel button 405 is pressed. When starting the keyword input, the operator selects “keyword setting 604” and presses the center of the cursor key 406. When specifying the mode 506, the operator selects “shooting (automatic file name)” 603 and presses the center of the cursor key 406. When performing normal shooting, “shooting” 602 is selected.
[0017]
FIG. 7 shows the state of the display surface 409 when the keyword display 504 and the keyword designation 505 are performed. First, when the operator designates the keyword setting 604 using the menu 601, a menu such as 701 in FIG. 7A is displayed. Reference numeral 701 is used to select a keyword dictionary to be used for keyword recognition from a plurality of keyword dictionaries previously transferred from a personal computer. In this example, “famous place / historic site” and “place name” are valid. Here, the operator changes the selected item by pressing the cursor key 406 up and down, and switches the keyword dictionary between valid and invalid by pressing the left side of the cursor key 406. When the operator presses the center of the cursor key 406, the change content is confirmed and the original state is restored. Furthermore, when the operator presses the right side of the cursor key 604 with an item selected, the keywords registered in the keyword dictionary are listed.
When the operator selects the item 702 in FIG. 7A and presses the right of the cursor key 604, a menu 703 as shown in FIG. 7B appears. In this state, the operator can change the selection item by pressing the cursor key 406 up and down, and further, by pressing the left side of the cursor key 406, the selected keyword is switched between valid and invalid. Further, by pressing the right side of the cursor key 406, a mode is entered in which the operator inputs a new keyword using the cursor key 406. In this mode, characters are entered by displaying a virtual keyboard on the screen. Further, when the operator presses the center of the cursor key 406 in the state of FIG. 7B, the change content is confirmed and the original state is restored. For example, “xx canyon” 704 is selected in the state of FIG. Here, when the operator presses the left side of the cursor key 406, the keyword “XX valley” becomes invalid.
[0018]
FIG. 8 shows an example of the input image. In this example, two character strings of “ΔΔ mountaintop” 801 written on a signboard and “□□ wear” 802 printed on clothes are shown. “ΔΔ mountaintop” 801 is a clue to the situation in which this photograph was taken, and is appropriate as an image file name. On the other hand, “□□ ware” 802 is not necessarily a clue to the situation in which the image was taken, and is inappropriate as an image file name.
[0019]
FIG. 9 shows a processing procedure of the keyword selection processing 205. The input of this process is a set of recognized keywords, and the output is a set of keyword recognition results arranged in the order appropriate to the file name. First, in a loop 901, a feature amount calculation 902 and a certainty factor calculation 903 are executed for each keyword recognition result. The feature quantity calculation 902 includes n feature quantities necessary for checking the appropriateness of each keyword recognition result as a file name.
F = (f1, f2, f3,..., Fn)
Is a process for obtaining. Here, n = 5 and the following feature amounts are used.
f1: X coordinate (pixel) on the image of the center of the recognized keyword
f2: Y coordinate (pixel) on the image of the center of the recognized keyword
f3: width of the recognized keyword center on the image (pixels)
f4: Height of the recognized keyword center on the image (pixels)
f5: Likelihood as a character string obtained by post-processing
The certainty factor calculation 903 is a process of calculating a value indicating the appropriateness of the keyword as a file name, that is, a certainty factor, based on the obtained feature amount. Next, in step 904, keyword recognition results whose certainty values are equal to or smaller than a predetermined threshold value θ are deleted. This is to prevent incorrect file names from being used with inappropriate keywords. Next, in step 905, the remaining keyword recognition results are rearranged in order of certainty.
[0020]
FIG. 10 shows a state of the display surface 409 when the recognition result display 508 is executed. Here, the result of recognizing keywords such as 1001 and 1002 is displayed immediately below the recognized character string. Further, the keyword with the highest certainty factor is highlighted and displayed as 1001. Here, pressing down the cursor key 406 highlights keywords with lower certainty, and pressing up highlights keywords with higher certainty in order. Finally, the keyword highlighted when the center of the cursor key 406 is pressed is used to determine the file name.
[0021]
FIG. 11 shows a processing procedure for the file name determination 108. The input of this processing is a set of keyword recognition results arranged in an order appropriate to the file name as a result of keyword recognition 105, date information obtained from date / time management 107, and a set of names of saved image files. . First, in step 1101, the keyword recognition result is displayed as shown in FIG. Next, in step 1102, the keyword used for determining the file name is selected by the keyword selection by the operator by the method described with reference to FIG. Next, in step 1103, the name of the stored image file is checked. The file name uses the same keyword as the keyword determined in step 1102, and the date is the same as the date of the newly captured image. Explore. If the corresponding image file is found, the corresponding image file name having the largest serial number is selected. Next, in step 1104, the serial number obtained in step 1103 plus 1 is set as a new serial number. If no corresponding image file is found in step 1103, the serial number is set to 1 or no serial number is assigned. Finally, in step 1105, the file name is synthesized from the date, keyword, and serial number.
[0022]
FIG. 12 shows the state of the display surface 409 when the file name determination display 510 is executed. In this state, the determined file name and the keyword embedded in the image file are displayed on the window 1201 that appears on the screen. In this example, it is assumed that this image is the second image taken at the summit of △△ on December 17, 2002, and the file name is “200221217 △△ summit 02” combining date, keyword and serial number. It has been determined. Information such as date and time is obtained from a clock built in the apparatus.
[0023]
FIG. 13 is a data flow diagram illustrating the flow of processing from image input to image file output in the second embodiment of the present invention. First, an image is input according to the image input setting 1311 (1302). Here, the image input setting is a setting of parameters necessary for image input, such as camera focus, aperture, shutter speed, white balance, sensor sensitivity, and contrast. Next, a face is detected from the input image, and a face registered in advance in the face dictionary 1303 is recognized. Further, the information registered in the shooting situation dictionary 1304 and the output of the image input setting 1311 are referred to recognize the situation in which the input image was shot (1306). Next, as a result of face recognition 1305, shooting situation recognition 1306, date / time management 1307, the image file 1310 already stored is referred to, and the image file name is determined by the same procedure as 108 (1308). Further, based on the determined file name, an image file is output (1309).
[0024]
FIG. 14 shows the processing procedure of face recognition 1305. First, in step 1401, a face area is detected from the input image. Next, in a loop 1402, the steps 1403 and 1404 are repeated for all the face regions obtained in the step 1401. Step 1403 is a process of calculating the feature amount of the face area. A plurality of feature quantities are calculated, and the output of this step is a feature vector. In the loop 1404, the likelihood of the feature vector obtained in step 1403 is calculated for all the faces registered in the face dictionary 1303 (1405). The face dictionary 1303 stores pairs of likelihood functions and names (for example, names) corresponding to faces as many as the number of registered faces. Using this likelihood function, the likelihood is calculated in step 1405. After the end of the loop 1402, the face with the highest likelihood value is detected in step 1406, and the name corresponding to the face is output in step 1407. This output is used to determine the file name.
[0025]
FIG. 15 shows a processing procedure of the shooting situation recognition 1305. First, in step 1501, a feature value of the shooting situation is calculated from the input image. A plurality of feature quantities are calculated, and the output of this step is a feature vector. For example, as the feature quantity, a histogram value, autocorrelation coefficient, moment, etc. for each color component are used. Next, in the loop 1502, the likelihood of the feature vector obtained in step 1501 is calculated for all shooting situations registered in the shooting situation dictionary 1304 (1503). In the shooting situation dictionary 1304, as many as the number of registered shooting situations, pairs of likelihood functions and names corresponding to the shooting situations (for example, “sunny weather”, “rainy weather”, “night”, “indoor”, etc.) are stored. Using this likelihood function, the likelihood is calculated in step 1503. Next, at step 1504, the one with the highest likelihood is selected. In step 1505, the name of the shooting situation with the highest likelihood is output.
[0026]
【The invention's effect】
It is possible to automatically assign an image file name that can be easily inferred from the contents of an image, which has been difficult in the past.
[Brief description of the drawings]
FIG. 1 is a data flow diagram showing a flow of processing from image input to image file output in the first embodiment.
FIG. 2 is a data flow diagram showing the flow of keyword recognition processing in the first embodiment of the present invention.
FIG. 3 is a hardware configuration diagram according to the embodiment of the present invention.
FIG. 4 is an external view of an apparatus according to an embodiment of the present invention.
FIG. 5 is a diagram showing an operation procedure in the first embodiment of the present invention.
FIG. 6 is a diagram showing a state of a display screen when specifying a keyword setting and a shooting mode.
FIG. 7 is a diagram showing a state of a display surface when displaying a keyword dictionary and specifying a keyword.
FIG. 8 is a schematic diagram of an input image.
FIG. 9 is a diagram showing a processing procedure for keyword selection processing;
FIG. 10 is a display screen when a keyword recognition result is displayed.
FIG. 11 is a diagram showing a processing procedure for determining a file name in the first embodiment of the present invention.
FIG. 12 is a display screen when a file name is displayed in the first embodiment of the present invention.
FIG. 13 is a data flow diagram showing a flow of processing from image input to image file output in the second embodiment of the present invention.
FIG. 14 is a diagram showing a face recognition processing procedure in the second embodiment of the present invention.
FIG. 15 is a diagram showing a processing procedure for photographing state recognition in the second embodiment of the present invention.
[Explanation of symbols]
101: Processing from image input to image file output in the first embodiment, 102 ... Keyword setting, 103 ... Keyword dictionary, 104 ... Image input, 105 ... Keyword recognition, 106 ..Sequence number counting, 107 ... Date / time management, 108 ... File name determination, 109 ... File output, 110 ... Image file, 201 ... Character line extraction, 202 ... Character extraction , 203 ... Character identification, 204 ... Post-processing, 205 ... Keyword selection, 206 ... Character identification dictionary, 301 ... Digital camera, 302 ... Optical device, 303 ... Photoelectric conversion Elements 304, analog-digital converter, 305 signal processing element, 306 display, 307 arithmetic unit, 308 ROM, 309,. · RAM, 310 ··· input / output device, 311 ··· memory card, 312 ··· clock, 313 ··· input device, 314 ··· communication device, 401 ··· housing, 402 ··· lens 403 ... Shutter 404 ... Power switch 405 ... Cancel button 406 ... Cursor key 407 ... Communication device terminal 408 ... Memory card insertion slot 409 ... Display Surface, 501 ... Download support, 502 ... Keyword transfer, 503 ... Keyword input activation, 504 ... Keyword display, 505 ... Keyword specification, 506 ... Mode specification, 507 ... Shooting 508... Recognition result display 509... File name keyword specification 510... File name display 511. ..Image file transfer, 601... Mode designation menu, 602 .. shoot, 603 .. shoot (automatic file name), 604... Keyword designation, 701. Selected keyword dictionary, 703... Keyword list window, 704... Selected keyword, 801..., Recognized keyword ".DELTA .. Summit", 802. 901... Loop relating to each keyword recognition result 902... Feature amount calculating step 903 .. certainty factor calculating step 904 .. certainty factor threshold value processing 905. Steps for replacement, 1001, 1002... Keyword recognition result, 1101. 1102 ... Selecting a keyword 1103 ... Searching for an existing maximum serial number, 1104 ... Adding 1 to the serial number, 1105 ... Synthesizing a file name, 1201... Window for displaying file name, 1301... Processing from image input to image file output in the second embodiment of the present invention, 1302... Image input, 1303. ..Shooting situation dictionary, 1305... Face recognition, 1306 .. Shooting situation recognition, 1307... Date / time management, 1308... File name determination, 1309. File, 1401... Step for detecting face area from input image, 1402... Loop for all face areas, 1403. ..Step of calculating feature amount, 1404... Loop relating to faces registered in all face dictionaries, 1405... Step of calculating likelihood, 1406... Step 1407: Outputting the name of the face with the maximum likelihood value, 1501 ... Step for calculating the feature value, 1502 ... Step for all shooting situations, 1503 ... Calculation of likelihood 1504... Detecting the shooting situation with the highest likelihood value, 1505... Outputting the name of the shooting situation with the highest likelihood value.

Claims (16)

画像を光電変換してデジタル信号として取り込む撮像装置と,上記デジタル信号を符号化し名称を付与して格納する記憶装置とを有し,
入力した画像中から文字を認識する手段と,文字を認識した結果得られる文字列を含む画像の名称の候補を作成し、該候補が妥当と判断された場合に該候補を上記画像の名称として決定する手段とを有することを特徴とする画像撮影装置。
An image pickup device that photoelectrically converts an image and takes it in as a digital signal, and a storage device that encodes the digital signal, assigns a name, and stores it.
A means for recognizing characters from the input image and a candidate for an image name including a character string obtained as a result of recognizing the character are created, and when the candidate is determined to be valid, the candidate is used as the name of the image. And an image photographing device.
単語の集合を記憶する手段を有し,上記画像中から当該単語を認識して上記画像の名称の候補の作成に用いることを特徴とする請求項1の画像撮影装置。2. The image photographing apparatus according to claim 1, further comprising means for storing a set of words, wherein the word is recognized from the image and used to create a candidate for the name of the image. 日付もしくは時刻を取得する手段を有し,上記文字認識の結果得られる文字列と日付もしくは時刻を表す文字列を合成して画像の名称の候補の一部とすることを特徴とする請求項1の画像撮影装置。2. The image processing apparatus according to claim 1, further comprising means for acquiring a date or time, wherein the character string obtained as a result of the character recognition and a character string representing the date or time are combined to form a part of an image name candidate. Image shooting device. 上記文字認識した結果得られる文字列と通し番号を合成して画像の名称の候補の一部とすることを特徴とする請求項3の画像撮影装置。4. The image photographing apparatus according to claim 3, wherein a character string obtained as a result of character recognition and a serial number are combined to form a part of an image name candidate. 2つ以上の文字列が上記画像中から認識された場合には,認識した文字列の位置に基づき画像の名称の候補に用いる文字列を決定することを特徴とする請求項1の画像撮影装置。2. The image photographing apparatus according to claim 1, wherein when two or more character strings are recognized from the image, a character string used for an image name candidate is determined based on the position of the recognized character string. . 2つ以上の文字列が上記画像中から認識された場合には,認識した文字列の大きさに基づき画像の名称の候補に用いる文字列を決定することを特徴とする請求項1の画像撮影装置。2. The image photographing according to claim 1, wherein when two or more character strings are recognized from the image, a character string to be used as a candidate for an image name is determined based on the size of the recognized character string. apparatus. ファイルに格納されている画像中から文字を認識する処理と,文字を認識した結果得られる文字列を含むように新たな画像ファイルの名称の候補を作成し、該候補が妥当と判断された場合に該候補を上記画像の名称として決定する処理と,新たに決定したファイル名称で画像を格納する処理の手順を記述することを特徴とするプログラム。A process for recognizing characters from images stored in a file and creating a new image file name candidate that includes the character string obtained as a result of character recognition. A program for describing a procedure for determining the candidate as the name of the image and storing an image with a newly determined file name. 単語の集合を記憶する手段にアクセスし,上記画像中から当該単語を認識して上記画像の名称を決定に用いる手順を記述することを特徴とする請求項7のプログラム。8. The program according to claim 7, wherein a procedure for accessing a means for storing a set of words, recognizing the word from the image, and using the name of the image for determination is described. 日付もしくは時刻を取得する手段にアクセスし,上記文字認識の結果得られる文字列と日付もしくは時刻を表す文字列を合成して上記画像の名称の候補の一部とする処理の手順を記述することを特徴とする請求項7のプログラム。Describe the processing procedure to access the date or time acquisition means and synthesize the character string obtained as a result of the character recognition and the character string representing the date or time to become part of the image name candidate. The program according to claim 7, wherein: 上記文字認識した結果得られる文字列と通し番号を合成して上記画像の名称の一部とする処理の手順を記述することを特徴とする請求項9のプログラム。10. The program according to claim 9, wherein a processing procedure is described in which a character string obtained as a result of character recognition and a serial number are combined to form part of the name of the image. 2つ以上の文字列が上記画像中から認識された場合には,認識した文字列の位置に基づき上記画像の名称の候補に用いる文字列を決定する処理の手順を記述することを特徴とする請求項7のプログラム。When two or more character strings are recognized from the image, a processing procedure for determining a character string to be used as a candidate for the image name based on the position of the recognized character string is described. The program according to claim 7. 2つ以上の文字列が上記画像中から認識された場合には,認識した文字列の大きさに基づき上記画像の名称の候補に用いる文字列を決定する処理の手順を記述することを特徴とする請求項7のプログラム。When two or more character strings are recognized from the image, a processing procedure for determining a character string to be used as a candidate for the image name based on the size of the recognized character string is described. The program according to claim 7. 画像を光電変換してデジタル信号として取り込む撮像装置と,上記デジタル信号を符号化し名称を付与して格納する記憶装置とを有し,
上記入力したデジタル信号中から顔領域を検出する手段と,上記検出した顔領域の特徴量を算出する手段と,上記顔領域の特徴量から尤度を算出する尤度関数と顔の名称の対の集合を記憶する手段と,上記検出した顔領域の尤度が最も高い顔の名称を含むように上記画像の名称を決定する手段とを有することを特徴とする画像撮影装置。
An image pickup device that photoelectrically converts an image and takes it in as a digital signal, and a storage device that encodes the digital signal, assigns a name, and stores it.
A means for detecting a face area from the input digital signal, a means for calculating a feature quantity of the detected face area, and a likelihood function and face name pair for calculating likelihood from the feature quantity of the face area. And a means for determining the name of the image so as to include the name of the face having the highest likelihood of the detected face area.
画像中から顔領域を検出する処理と,上記検出した顔領域の特徴量を算出する処理と,上記顔領域の特徴量から尤度を算出する尤度関数と顔の名称の対の集合を記憶する手段にアクセスする処理と,上記検出した顔領域の尤度が最も高い顔の名称を含むように新たな画像ファイルの名称を決定する処理と,新たに決定したファイル名称で上記画像を格納する処理を記述すること特徴とするプログラム。Stores a process for detecting a face area from an image, a process for calculating a feature value of the detected face area, and a set of likelihood function and face name pairs for calculating likelihood from the feature value of the face area. A process for accessing a means for performing the process, a process for determining a name of a new image file so as to include a face name having the highest likelihood of the detected face area, and storing the image with the newly determined file name A program characterized by describing processing. 画像を光電変換してデジタル信号として取り込む撮像装置と,上記デジタル信号を符号化し名称を付与して格納する記憶装置とを有し,
上記入力したデジタル信号中から撮影状況の特徴量を算出する手段と,撮影状況の特徴量から尤度を算出する尤度関数と撮影状況の名称の対の集合を記憶する手段と,最も尤度が高い撮影状況の名称を含むように上記画像の名称を決定する手段とを有することを特徴とする画像撮影装置。
An image pickup device that photoelectrically converts an image and takes it in as a digital signal, and a storage device that encodes the digital signal, assigns a name, and stores it.
Means for calculating a feature value of a shooting situation from the input digital signal; means for storing a set of a likelihood function and a shooting situation name pair for calculating likelihood from the feature quantity of the shooting situation; Means for determining the name of the image so as to include a name of a high photographing situation.
画像中から撮影状況の特徴量を算出する手段と,撮影状況の特徴量から尤度を算出する尤度関数と撮影状況の名称の対の集合を記憶する手段と,最も尤度が高い撮影状況の名称を含むように新たな画像ファイルの名称を決定する処理と,新たに決定した名称で上記画像を格納する処理の手順を記述すること特徴とするプログラム。Means for calculating the feature value of the shooting situation from the image, means for storing a set of a pair of a likelihood function and a shooting situation name from the feature quantity of the shooting situation, and a shooting situation with the highest likelihood A program for describing a procedure for determining a name of a new image file so as to include the name of the image and a process for storing the image with the newly determined name.
JP2003206389A 2003-08-07 2003-08-07 Picture photographing apparatus and program Pending JP2005057360A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003206389A JP2005057360A (en) 2003-08-07 2003-08-07 Picture photographing apparatus and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003206389A JP2005057360A (en) 2003-08-07 2003-08-07 Picture photographing apparatus and program

Publications (1)

Publication Number Publication Date
JP2005057360A true JP2005057360A (en) 2005-03-03

Family

ID=34363268

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003206389A Pending JP2005057360A (en) 2003-08-07 2003-08-07 Picture photographing apparatus and program

Country Status (1)

Country Link
JP (1) JP2005057360A (en)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006117968A1 (en) * 2005-04-27 2006-11-09 Fujifilm Corporation Image capturing apparatus, image capturing method, and program
JP2008288898A (en) * 2007-05-17 2008-11-27 Canon Inc Motion picture imaging apparatus and method
JP2009087394A (en) * 2007-09-27 2009-04-23 Funai Electric Co Ltd Recording and reproducing device
CN101170672B (en) * 2006-10-24 2010-06-09 索尼株式会社 Contents character information acquisition method, contents character information acquisition apparatus, and video content recording apparatus
US8340475B2 (en) 2006-10-24 2012-12-25 Sony Corporation Database production method, database production program, database production apparatus and image content recording apparatus
US9239847B2 (en) 2009-03-12 2016-01-19 Samsung Electronics Co., Ltd. Method and apparatus for managing image files

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006117968A1 (en) * 2005-04-27 2006-11-09 Fujifilm Corporation Image capturing apparatus, image capturing method, and program
JP2006333443A (en) * 2005-04-27 2006-12-07 Fujifilm Holdings Corp Imaging apparatus, method, and program
US8111304B2 (en) 2005-04-27 2012-02-07 Fujifilm Corporation Image capturing apparatus, image capturing method, and computer readable medium in which an image extracted in association with selected object information is displayed
CN101170672B (en) * 2006-10-24 2010-06-09 索尼株式会社 Contents character information acquisition method, contents character information acquisition apparatus, and video content recording apparatus
US8340475B2 (en) 2006-10-24 2012-12-25 Sony Corporation Database production method, database production program, database production apparatus and image content recording apparatus
JP2008288898A (en) * 2007-05-17 2008-11-27 Canon Inc Motion picture imaging apparatus and method
JP2009087394A (en) * 2007-09-27 2009-04-23 Funai Electric Co Ltd Recording and reproducing device
US9239847B2 (en) 2009-03-12 2016-01-19 Samsung Electronics Co., Ltd. Method and apparatus for managing image files

Similar Documents

Publication Publication Date Title
JP5612310B2 (en) User interface for face recognition
US9930170B2 (en) Method and apparatus for providing phonebook using image in a portable terminal
US8599251B2 (en) Camera
JP5456159B2 (en) Method and apparatus for separating the top of the foreground from the background
KR20060050729A (en) Method and apparatus for processing document image captured by camera
KR100737974B1 (en) Image extraction combination system and the method, And the image search method which uses it
WO2007004519A1 (en) Search system and search method
WO2007105768A1 (en) Face-image registration device, face-image registration method, face-image registration program, and recording medium
JP2010148052A (en) Mobile terminal with camera
JP2006165821A (en) Portable telephone
US7760249B2 (en) Image recording and playing system and image recording and playing method
JP2010021921A (en) Electronic camera and image processing program
JP2008067321A (en) Data registration management apparatus
JP2006011935A (en) Personal information management device, method for creating personal information file, and method for searching personal information file
JP2005234686A (en) Expression recognition device, expression recognition method and program
JP2005057360A (en) Picture photographing apparatus and program
JP5402026B2 (en) Electronic camera and image processing program
US11049303B2 (en) Imaging apparatus, and operation program and operation method for imaging apparatus
JP2006101156A (en) Information processing device and program
KR101629824B1 (en) Digital image processing apparatus and method for controlling thereof
US20080068483A1 (en) Image reproducing apparatus and image reproducing method
JP2005135210A (en) Portable device with character recognition function
CN101015201A (en) Method and apparatus for processing document image captured by camera
KR101398471B1 (en) Image processing apparatus and controlling method thereof
JP6712861B2 (en) Information processing device, information processing method, and program

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20050223