JP2014067302A

JP2014067302A - 画像処理装置及びプログラム

Info

Publication number: JP2014067302A
Application number: JP2012213196A
Authority: JP
Inventors: Shigeki Kitani; 茂樹木谷; Takahiro Hisatoku; 大隆久徳; Akira Fujimoto; 顕藤本; Masaya Tanigawa; 昌也谷川; Masahiro Tsuchiya; 匡弘土屋; Isato Kato; 勇人加藤; Hiroaki Kawasaki; 博章川▲崎▼; 賢治 ▲高▼橋; Kenji Takahashi
Original assignee: Buffalo Inc
Current assignee: Buffalo Inc
Priority date: 2012-09-26
Filing date: 2012-09-26
Publication date: 2014-04-17
Anticipated expiration: 2032-09-26
Also published as: JP6031915B2

Abstract

【課題】撮影地の情報が記録されていない写真の画像情報に、後から撮影地の情報を追記することのできる画像処理装置を提供する。
【解決手段】処理の対象となる画像情報を取得し、当該処理の対象となる画像情報から場所を表す文字列及び距離を表す文字列を含んだ領域を認識する。この認識した領域から、場所を表す文字列と、距離を表す文字列とを文字認識し、当該文字認識結果に基づいて、処理の対象となった画像情報の撮影地を推定する画像処理装置である。
【選択図】図１

Description

本発明は、画像処理装置及びプログラムに関する。

近年では、ＧＰＳ（Global Positioning System）等、地理情報を取得する手段が普及しており、写真撮影時に、当該写真の撮影地を表す情報を含める装置がある。例えば、カメラ付のスマートフォン等では、写真撮影時に、ＧＰＳを用いて現在地の測位を行い、当該測位結果を撮影した写真の画像情報に含めて記録する。

特表２００９−５２６３０２号公報

しかしながら、例えばディジタル一眼レフ等のカメラ機能を中心とした機器では、ＧＰＳ装置はオプションとしては用意されているものの、必ずしも使用されていないのが現状である。従って、このような機器の利用者の撮影した写真の画像情報には、撮影地の情報は多くの場合含まれていない。

一方で、写真の撮影地が記録されていれば、当該写真を見る者に対して、その写真に関わる記憶を想起させるのに役立つなど、さまざまな効用が期待できる。そこで撮影地の情報が記録されていない写真の画像情報に、後から撮影地の情報を追記する技術が要望されている。

ここで人為的に追記するのでなく、写真から、ＯＣＲを用いて位置、時間、人物に関する情報を抽出し、道路標識から位置情報を抽出して、この抽出した情報をタグとしてデジタルデータに付与してデータを管理することが、特許文献１に開示されている。ところが、撮影された道路標示板が表す地名が必ずしも撮影地であるとは限らない。例えば道路標識は、「日本橋まで２０ｋｍ」などという道路利用者に目的地への経路や地点等に関する情報を提供するための表示である場合があるためである。

本発明は上記実情に鑑みて為されたもので、撮影地の情報が記録されていない写真の画像情報に、後から撮影地の情報を追記することのできる画像処理装置を提供することを、その目的の一つとする。

上記従来例の問題点を解決するための本発明は、画像処理装置であって、処理の対象となる画像情報を取得する手段と、前記取得した、処理の対象となる画像情報から場所を表す文字列及び距離を表す文字列を含んだ領域を認識する認識処理手段と、前記認識した領域から、場所を表す文字列と、距離を表す文字列とを文字認識し、当該文字認識結果に基づいて、前記処理の対象となった画像情報の撮影地を推定する推定手段と、前記推定した撮影地の情報を出力する手段と、を含むこととしたものである。

また本発明の一態様に係る画像処理装置は、処理の対象となる画像情報を取得する手段と、前記取得した、処理の対象となる画像情報から、場所を表す文字列及び距離を表す文字列の組を複数含んだ領域を認識する認識処理手段と、前記認識した領域から、各組に含まれる場所を表す文字列と距離を表す文字列とを文字認識し、当該文字認識結果に基づいて、前記処理の対象となった画像情報の撮影地の範囲を絞込み推定する推定手段と、前記推定した撮影地の情報を出力する手段と、を含むこととしたものである。

またこれらにおいて、前記認識処理手段はさらに、前記取得した、処理の対象となる画像情報から、路線を表す文字列を認識し、前記推定手段は、前記認識した路線を表す文字列の文字認識結果をさらに用いて、前記処理の対象となった画像情報の撮影地を推定してもよい。

また前記認識処理手段は場所を表す文字列及び距離を表す文字列を含んだ領域の候補として、前記処理の対象となる画像情報から柱状体が含まれる画像部分を認識し、当該認識した画像部分の内から、場所を表す文字列及び距離を表す文字列を含んだ領域を探索してもよい。

さらに前記認識処理手段はさらに、前記処理対象となる画像情報に方向を示す画像が含まれる場合には、当該画像が示す方向を認識し、当該認識処理手段により認識された方向に基づいて、撮影方角を推定する手段をさらに含むものであってもよい。

また前記処理の対象となった画像情報の撮影日時を参照し、当該撮影日時を含む予め定めた時間範囲に撮像された他の画像情報を取得する手段をさらに含み、前記認識処理手段は、当該他の画像情報から場所を表す文字列及び距離を表す文字列を含んだ領域を少なくとも一つ認識し、前記推定手段は、当該認識された領域内の文字列を文字認識し、当該文字認識結果に基づいて他の画像情報の撮影地を推定するとともに、当該他の画像情報の撮影地の推定結果を、さらに用いて、前記処理の対象となった画像情報の撮影地を推定することとしてもよい。

さらに本発明の別の態様に係るプログラムは、コンピュータを、処理の対象となる画像情報を取得する手段と、前記取得した、処理の対象となる画像情報から場所を表す文字列及び距離を表す文字列を含んだ領域を認識する認識処理手段と、前記認識した領域から、場所を表す文字列と、距離を表す文字列とを文字認識し、当該文字認識結果に基づいて、前記処理の対象となった画像情報の撮影地を推定する推定手段と、前記推定した撮影地の情報を出力する手段と、として機能させることとしたものである。

本発明によると、撮影地の情報が記録されていない写真の画像情報に、後から撮影地の情報を追記することができる。

本発明の実施の形態に係る画像処理装置の構成例を表すブロック図である。本発明の実施の形態に係る画像処理装置が保持する画像データベースの内容例を表す説明図である。本発明の実施の形態に係る画像処理装置の例を表す機能ブロック図である。本発明の実施の形態に係る画像処理装置が認識する画像部分の例を表す説明図である。本発明の実施の形態に係る画像処理装置の動作例を表すフローチャート図である。本発明の実施の形態に係る画像処理装置による地名と距離とを表す文字列を含んだ領域を取り出す処理の例を表す流れ図である。本発明の実施の形態に係る画像処理装置による撮影地の推定動作の例を説明する説明図である。本発明の実施の形態に係る画像処理装置による撮影地の推定動作の例を説明するもう一つの説明図である。

本発明の実施の形態について図面を参照しながら説明する。本発明の実施の形態に係る画像処理装置１は、図１に例示するように、制御部１１、記憶部１２、操作部１３、表示部１４、通信部１５、及び入出力インタフェース１６を含んで構成されている。ここで制御部１１は、ＣＰＵなどのプログラム制御デバイスであり、記憶部１２に格納されたプログラムに従って動作する。

具体的に本実施の形態では制御部１１は、処理の対象となる画像情報を入出力インタフェース１６を介して受け入れて、記憶部１２に蓄積して格納する。本実施の形態で処理の対象となる画像情報は、デジタルカメラ等で撮像された画像を表す画像情報であり、撮影日の情報や撮影したカメラを特定するカメラ特定情報等のメタデータを含む。ここでメタデータはいわゆるＥｘｉｆ（Exchangeable Image File Format）情報であってもよい。

本実施の形態の制御部１１は、この記憶部１２に蓄積された画像情報のうちから、処理の対象となる画像情報を取得し、取得した処理の対象となる画像情報から場所を表す文字列及び距離を表す文字列を含んだ領域を認識する。またこの認識した領域から、場所を表す文字列と、距離を表す文字列とを文字認識し、当該文字認識結果に基づいて、処理の対象となった画像情報の撮影地を推定する。この制御部１１の詳しい処理の内容は、後に述べる。

記憶部１２は、制御部１１によって実行されるプログラムを格納している。このプログラムは、ＤＶＤ−ＲＯＭ（Digital Versatile Disc Read Only Memory）等のコンピュータ可読な記録媒体に格納されて提供され、この記憶部１２に格納されたものであってもよい。また、このプログラムは、ネットワーク等を介して配信され、この記憶部１２に格納されたものであってもよい。またこの記憶部１２は制御部１１のワークメモリとしても動作する。

本実施の形態ではこの記憶部１２には、図２に例示するように、画像情報とタグ情報とを関連付けて、画像データベースとして蓄積して格納している。なおこのメタデータとしてのタグ情報には、関連する画像情報のＥｘｉｆデータから取り出されたデータが含まれてもよい。

操作部１３は、例えばマウスやキーボード等であってもよいし、赤外線リモートコントローラ等の入力インタフェースであってもよい。本実施の形態のある例では、この操作部１３は、赤外線入力インタフェースであり、利用者の指示操作を受けたリモートコントローラが発信する、利用者の指示操作の内容を表す情報を受信する。そしてこの操作部１３は、当該受信した指示操作の内容を表す情報を制御部１１に出力する。

表示部１４は、制御部１１から入力される指示に従い、内蔵ディスプレイや家庭用テレビジョン装置等の外部ディスプレイに画像を出力するインタフェースである。通信部１５は、例えばネットワークインタフェースであり、有線または無線にてネットワークに接続され、ネットワークを介して受信される情報を制御部１１に出力する。またこの通信部１５は、ネットワークを介して送信するべき情報の入力を制御部１１から受けて、当該情報をネットワークを介して送信する。

入出力インタフェース１６は、例えばＳＤカードスロットやＵＳＢ（Universal Serial Bus）インタフェース等である。この入出力インタフェース１６は、例えば制御部１１から入力される指示に従い、ここへ接続されたＳＤカードや、ＵＳＢメモリ、ＵＳＢハードディスクドライブ等から画像情報を読み出して制御部１１に出力する。

次に本実施の形態の制御部１１の処理の内容について述べる。制御部１１は、記憶部１２に格納されたプログラムを実行することにより、機能的には図３に例示するように、画像情報取得部２１と、認識処理部２２と、推定部２３と、情報出力部２４とを含むものとして動作する。

ここで画像情報取得部２１は、例えば記憶部１２に蓄積された画像情報のタグ情報を参照し、撮影地の情報が含まれていない画像情報を処理の候補として選択する。画像情報取得部２１はそして、この選択した処理の候補となった画像情報の一つを処理の対象として取得する（記憶部１２の画像データベースから読み出す）。

認識処理部２２は、画像データベースから読出した画像情報に対して、場所を表す文字列及び距離を表す文字列を含んだ領域を認識する処理を実行する。具体的には、この処理はいわゆる道路標識を認識する処理であり、一例として次のようにして行われる。

すなわち道路標識には、一般的に図４に例示するように、
（ａ１）一般道路上にあって、方面、方向及び距離を表すもの（路線表示のないもの）、
（ａ２）一般道路上にあって、方面、方向及び距離を表すもの（路線表示のあるもの）、
（ｂ）高速道路上にあって、方面及び距離を表すもの、
（ｃ）方面及び方向を予告するもの、
（ｄ）方面や車線を表示するもの、
（ｅ）高速道路上で出口やサービスエリア、料金所等を予告するもの、
（ｆ）著名ないし主要地点を表すものなどがある。これらは、例えば日本であれば道路標識、区画線及び道路標示に関する命令の別表第２に規定されており、諸国においても、例えば米国のFederal Highway Administrationにより提供されているManual on Uniform Traffic Control Devices(MUTCD)といったマニュアルに同様の規定がされたものがある。

これらの規定にあるように、道路標識の背景色は予め定められている。そこでこの認識処理部２２は、図５に示すように、処理対象として取得した画像情報に含まれる画素から、画素値Ｐが、上記予め定められた色を表す画素値（複数あってもよいので、それぞれをＱ1，Ｑ2…とする）に対して色空間上で予め定めたしきい値を下回る距離となっている画素を抽出する（Ｓ１）。この抽出結果は例えば図６の（Ｓ１）に示すようなものとなる。ここで色空間は例えばＲＧＢ（Red Green Blue）の各値で定義できる三次元空間であり、画素値間の距離は、この色空間内のユークリッド距離で定義すればよい。

また認識処理部２２は、処理対象として取得した画像情報に対してエッジ検出の画像処理を実行し、二値化された輪郭線の画像情報を得る（（Ｓ２），図６の（Ｓ２））。また認識処理部２２は、輪郭線で囲まれた領域内の画素群をラベリング処理する（（Ｓ３），図６の（Ｓ３））。このラベリング処理は、輪郭線を追跡し、輪郭線で囲まれた領域ごとに互いに異なる識別情報を関連付ける、広く知られた処理が利用できるので、ここでの詳しい説明を省略する。認識処理部２２は、ラベリングした画素群を含む領域ごとに、領域ごとに固有の識別情報と、領域を特定する情報（処理対象の画像情報と同じサイズの画像情報であって、ラベリングした画素群を有意な画素（例えば黒色）に設定し、ラベリングした画素群以外の画素を有意でない画素（例えば白色）に設定したマスク画像情報等）とを生成する（（Ｓ４），図６の（Ｓ４））。

認識処理部２２はさらに、処理（Ｓ４）で生成した領域ごとの外形状を認識する処理を実行する（Ｓ５）。この外形状を認識する処理は、例えばＳＯＭ（Self Organizing Maps）等を用いて外形状を分類して認識する処理など、広く知られた方法を採用できるので、ここでの詳しい説明を省略する。認識処理部２２は、この各領域の外形状を矩形、逆三角、六角形、矢印形状等に分類し、この分類結果を領域の外形状の認識結果とする。そして認識処理部２２は、図６の（Ｓ６）に示すように、領域ごとに固有の識別情報と、領域を特定する情報と、領域の外形状の認識結果とを互いに関連付けて領域データベースとして記憶部１２に格納する（Ｓ６）。また認識処理部２２は矩形と認識された領域については、その四隅に相当する画素の座標値を見出し、これからホモグラフィー行列を求める。

次に認識処理部２２は、処理（Ｓ４）で見出した各領域について、領域内に含まれる画素のうち、処理（Ｓ１）で抽出した画素の数をカウントする（Ｓ７）。つまり、輪郭線で囲まれた領域内で、道路標識の背景色に相当する画素値となっている画素の数を調べる。そして認識処理部２２は、この画素数が予め定めたしきい値を超えている領域を選択する（Ｓ８）。認識処理部２２は、処理対象の画像情報のうち、当該選択した領域内の画素部分について、当該領域の外形状から求めたホモグラフィー行列を用いて射影変換を行う（Ｓ９）。

認識処理部２２は、射影変換の結果として得られた画像情報の一部（処理の対象となった画像情報のうち、道路標識の背景色となっている部分に撮像された対象物の画像を、その正面から見た状態になるよう変換した画像、以下部分画像と呼ぶ，図６の（Ｓ１０））を、当該部分画像が取り出された領域の識別情報と、当該領域の外形状を表す情報とに関連付けて記憶部１２に格納しておく（Ｓ１０）。処理の対象である画像情報に、道路標識の背景色に相当する画素を上記しきい値を超えて含む領域が複数ある場合は、各領域に対応する部分画像を記憶部１２に格納する。

なお、方面、方向及び距離を表す文字列が、図４に示した（ａ１）一般道路上にあって、方面、方向及び距離を表すもの（路線表示のないもの）等のように白線によって複数の部分に区切られているような場合は、区切られた各部の画像が出力されることとなる（図６の（Ｓ１０）に示した通り）。

推定部２３は、認識処理部２２が生成した部分画像Ｐi（領域ｉ（ｉ＝１，２…）ごとの部分画像をＰiとする）に対して文字認識処理（ＯＣＲ処理）を実行する。これにより、部分画像ごとの文字認識結果が得られる。推定部２３は、部分画像Ｐiごとの文字認識結果Ｃi（ｉ＝１，２…）に、距離を表す文字列が含まれるか否かを調べる。これは文字列に数字が含まれるか否かを調べることによって行えばよい。

推定部２３は、文字認識結果Ｃiに、地名（場所）と距離とを表す文字列が含まれる部分画像Ｐiを選択して、次のような処理を実行する。まず推定部２３は、当該選択した部分画像Ｐiから認識された文字列Ｃiを用い、予め地名の文字列を列挙した地名辞書を参照して、地名部分Ｌiを取得する。また推定部２３は、文字列Ｃiから数字の部分を距離を表す文字列Ｄiとして抽出する。推定部２３は、この地名部分Ｌiと距離を表す文字列Ｄiとの組に基づいて撮影地を推定する。
なお、ここで地名辞書を参照する際には、部分画像Ｐiから認識された文字列Ｃiについて部分一致する条件で地名部分Ｌiを抽出してもよい。例えば「日比谷」全体でなくとも、「比谷」との部分一致により地名「日比谷」を地名部分Ｌiとして推定して取得してもよい。

推定部２３は、地名を表す文字列Ｌiと、地理上の座標情報とを関連付けたデータベース（地名データベースと呼ぶ）を参照して、地名を表す文字列Ｌiに関連付けられている地理上の座標情報（緯度経度の情報）Ｔiを取得する。日本であれば、このような地名データベースとしては国土交通省が提供する位置参照情報がある。

推定部２３は、この緯度経度Ｔiを中心として、距離の情報Ｄiの範囲を表す仮想円を地図上に生成する。推定部２３は地名データベースを参照し、生成した複数の仮想円の重なり合う範囲内にある緯度経度の値に関連付けられた地名の文字情報を取得する。つまり推定部２３は、複数の仮想円により、処理の対象となった画像情報の撮影地の範囲を絞り込み推定する。またここで、生成した仮想円の重なり合う範囲内にある緯度経度の値に関連付けられた地名の文字情報が複数見出された場合には、推定部２３は、当該複数の地名の文字情報を取得する。ここで取得した文字情報で表される地名が、撮影地の推定結果となる。あるいは、この推定部２３は、上記生成した仮想円の重なり合う範囲内にある緯度経度の値を、そのまま撮影地の推定結果として出力してもよい。例えば、上記生成した仮想円の重なり合う範囲の重心にある緯度経度の値を、撮影地の推定結果としてもよい。

情報出力部２４は、推定部２３が得た地名の文字情報を、処理対象となった画像情報の撮影地を表すタグ情報として、この処理対象となった画像情報に関連付けて、記憶部１２の画像データベースに記録し、画像データベースを更新する。

また推定部２３が取り出した、地名と距離とを表す文字列Ｌi，Ｄiが１つだけである場合は、一つの仮想円が得られるだけであるために、仮想円の重なり合う範囲が存在しない。この場合、推定部２３は、仮想円の円周から予め定めた範囲内にある緯度経度の値に関連付けられた地名の文字情報を、地名データベースを参照して取得することとすればよい。または、推定部２３は、仮想円の円周上に存在する緯度経度の値（円周上の複数の点での緯度経度の値としてもよい）を、そのまま画像情報の撮影地を表す情報として出力してもよい。

さらに推定部２３は、文字認識結果Ｃiに距離を表す文字列（数字）が含まれていない部分画像Ｐiについては、処理に用いず、無視することとしてもよい。

また図４の（ａ２）に例示したように路線表示（Ｒ）のあるものについては、推定部２３は、この路線表示に含まれる、路線を表す文字列を文字認識して、この路線を表す文字列の文字認識結果をさらに用いて、画像情報の撮影地を推定してもよい。

具体的にこの処理を行う場合、制御部１１は、認識処理部２２の処理として生成した領域データベースに含まれる領域のうち、外形状が路線を表す形状として予め定められているもの（例えば日本であれば逆三角形と六角形）となっている領域を選択する。そして認識処理部２２は、領域内に含まれる画素のうち、図５の処理（Ｓ１）で抽出した画素の数をカウントする。つまり、輪郭線で囲まれた領域内で、道路標識の背景色に相当する画素値となっている画素の数を調べる。そして認識処理部２２は、この画素数が予め定めたしきい値（矩形の場合のしきい値とは異なっていてよい）を超えている領域について、推定部２３が文字認識処理を実行する。日本の場合は、逆三角形状に数字を白抜きで示したものが国道の番号であり、六角形状に数字を白抜きで示したものが都道府県道など地方道の番号である。また都道府県道の場合は、都道府県名が併せて表示されている。

そこで、ここで推定部２３が文字認識した結果は、
（１）逆三角形状であることを表す情報に関連付けた領域から認識された数字の文字列と、
（２）六角形状であることを表す情報に関連付けた領域から認識された数字及び都道府県名（地方名）の文字列と、
のいずれかまたは双方となる。すなわち、国道と地方道とが重複する区間もあるので、これら（１），（２）の双方が認識されたならば、この重複区間において撮像されたこととなり、推定部２３は、これらの重複区間にある緯度経度情報を得て、当該緯度経度情報、または当該緯度経度情報から最も近い緯度経度情報に関連付けられた地名の文字列を取得して、撮影地の推定結果とする。これによると、撮影地の推定精度をより向上できる。

推定部２３は、（１）逆三角形状であることを表す情報に関連付けた領域から認識された数字の文字列については、国道の番号を表すものとし、また（２）六角形状であることを表す情報に関連付けた領域から認識された数字及び都道府県名の文字列については、当該都道府県名の文字列が表す都道府県道で、認識された数字はその番号を表すものとする。

これにより推定部２３は、画像情報から道路を特定する情報を得る。そしてこの情報で特定された道路上に撮影者が存在していたものとして、撮影地の推定を行う。すなわち推定部２３は、図７に例示するように、画像情報から認識された地名及び距離の情報を用いて、地図上に生成した複数の仮想円の円周により切り取られる、認識された国道または都道府県道の線分（曲線であってもよい）を見出す。そしてこれらの線分のうち、最も短い線分上、またはこの最も短い線分から予め定めた距離の範囲内にある緯度経度の値に関連付けられた地名の文字情報を、地名データベースを参照して取得する。ここで最も短い線分としたのは、各仮想円の中心までの距離をなるべく短くするためである。なお、複数の地名の文字情報が取得されてもよい。ここで取得した文字情報で表される地名が、撮影地の推定結果となる。具体的に図７に示した例では、「日本橋」から半径１０ｋｍとする仮想円Ａと、「日比谷」から半径７ｋｍとする仮想円Ｂとが地図上に生成されるものとしている。撮影者が存在していたとして特定される道路Ｒは、これらの仮想円Ａ，Ｂが図７のように一部で重なり合う場合、仮想円Ａの一方側と仮想円Ｂの一方側とに挟まれる部分ｒ１と、仮想円Ｂの一方側と仮想円Ａの他方側とに挟まれる部分ｒ２と、仮想円Ａの他方側と仮想円Ｂの他方側とに挟まれる部分ｒ３とにわけられる。ここで最も短い線分は、部分ｒ３となるので、推定部２３は、この部分ｒ３に含まれる点を撮影地の推定結果とする。またすでに述べたように、この線分上にある緯度経度の値（例えば線分上の中点にあたる緯度経度の値）を撮影地の推定結果としてもよい。

また制御部１１は、さらに処理対象とした画像情報に、外形状が矢印等の方向を示す画像なっている領域が含まれる場合であって、この領域内の道路標識の背景色に相当する画素値となっている画素の数が予め定めたしきい値（他の外形状の場合のしきい値とは異なっていてよい）を超えている場合に、その画像が示す方向、例えば当該画像が矢印であれば、その矢印の向きを認識して、当該方向（矢印の向きなど）に基づいて撮影方角を推定してもよい。

具体的にこの場合、制御部１１の認識処理部２２は、外形状が矢印となっている領域が含まれる場合であって、この領域内の道路標識の背景色に相当する画素値となっている画素の数が予め定めたしきい値（他の外形状の場合のしきい値とは異なっていてよい）を超えている場合に、当該領域（注目矢印領域と呼ぶ）が表す矢印の向きを次のように定める。すなわち認識処理部２２は、画像情報を撮影時の向き（回転方向）に合わせる。この処理は例えば画像情報にＥｘｉｆ情報が含まれていれば、そのOrientationの情報を参照する等の広く知られた処理を用いることができる。

認識処理部２２は、回転方向を合わせた状態で、注目矢印領域（複数あればそれぞれの注目矢印領域）の向きを例えば上方、左方、右方、下方の四方向または上方、左上方、左方、左下方、下方、右下方、右方、右上方の八方向に分類する。この分類は、学習処理によって行う等の広く知られた方法を採用できる。

認識処理部２２は、注目矢印領域に外接する矩形を生成し、上方、左方、右方、下方の四方向のいずれかに分類された向きの注目矢印領域については、当該矩形の分類された向き側にある外接矩形の辺（例えば上方に分類された向きの注目矢印領域であれば、それに外接する矩形の上側の辺）、つまり、注目矢印領域内の矢印の向いている方向にある辺の中点の座標を注目点座標として取り出す。また認識処理部２２は、左上方、左下方、右下方、右上方のいずれかに分類された向きの注目矢印領域については、当該矩形の分類された向き側にある外接矩形の頂点、つまり、注目矢印領域内の矢印の向いている方向にある頂点の座標を注目点座標として取り出す。

推定部２３は、注目矢印領域と、その注目点座標とが認識処理部２２によって取り出されているときは、領域データベースに記憶された各領域について文字認識処理した結果、得た文字列の重心座標に最も近い注目点座標の注目矢印領域を見出す。そして当該文字列と見出した注目矢印領域について分類された向きの情報とを関連付けて記憶部１２に格納する。

推定部２３は、例えば上方の向きに関連付けられた文字列が表す地名を、地名データベースを参照して取得し、当該取得した地名の方向に撮影者が向いている（撮影方角が当該取得した地名の方向である）と推定する。

この場合、情報出力部２４は、推定部２３が得た地名の文字情報とともに、撮影方角の推定結果を、処理対象となった画像情報の撮影地並びに撮影方角を表すタグ情報として、この処理対象となった画像情報に関連付けて、記憶部１２の画像データベースに記録し、画像データベースを更新する。

本実施の形態の画像処理装置１は以上の構成を基本的に備えてなり、次のように動作する。画像処理装置１は、ＳＤカード等から取込んで記憶部１２に蓄積した画像情報のうち、撮影地の情報が記録されていない写真の画像情報を選択し、選択した画像情報を処理の対象として、道路標識を認識する処理を行う。ここで道路標識が認識されると当該道路標識から、地名と距離とを表す文字列を文字認識により取得する。ここで例えば図４（ａ１）に例示した道路標識が撮影されていると、
Ｌ1：「国分寺」，Ｄ1：「４」
Ｌ2：「調布」，Ｄ2：「５」
Ｌ3：「立川」，Ｄ3：「７」
といった地名と距離とを表す文字列Ｌi，Ｄiが取得されることとなる。

画像処理装置１は、地名データベースを参照して地図上でＬ1：「国分寺」に対応する緯度経度を中心とした、半径Ｄ1：「４」キロメートルの仮想的な円形状（仮想円）を設定する。なお、各地に複数の「国分寺」がある場合は、それぞれに対応する緯度経度を中心として複数の仮想円を設定すればよい。また画像処理装置１は、他の認識結果についても同様にして、地図上でＬ2：「調布」に対応する緯度経度を中心とした、半径Ｄ2：「５」キロメートルの仮想円と、Ｌ3：「立川」に対応する緯度経度を中心とした、半径Ｄ3：「７」キロメートルの仮想円とを設定する。

そして画像処理装置１は、複数の仮想円の重なりあう領域を見出す。つまり各仮想円内の領域について他の仮想円に重なり合う領域があれば、当該領域を見出すことになる。ここでは、「国分寺」、「調布」、「立川」の各点を中心とした仮想円が互いに交わる領域を見出す（図８）。ここでは例えば「東京都」の「府中」の近傍で互いに交わる領域が存在するものとする。なお、図８では地名データベースに登録されている地名がそれぞれ表示されている。そこで画像処理装置１は、この画像情報が「東京都、府中」で撮影されたものと推定し、この推定の結果である撮影地の情報を、画像情報にタグ情報として関連付けて記憶部１２に格納する。

なお、本実施の形態は、ここまでに説明した例に限られるものではない。まず、ここまでの説明では、処理の対象とする一つの画像情報ごとに撮影地の情報を推定していたが、例えば１５分程度の間に撮影された複数の画像情報の一つについて撮影地の情報が推定できたならば、当該複数の画像情報のうちの他の画像情報についてもほぼ同じ撮影地にいることが推定できる（１５分の間に移動可能な距離は大きくないと仮定できる）。そこで本実施の形態の画像処理装置１の制御部１１は、次のような処理を行ってもよい。

すなわち制御部１１は、処理対象となる画像情報を選択した後、この選択した画像情報の撮影日時の情報を参照する。そして当該撮影日時を含む、予め定めた時間範囲に撮像された他の画像情報を記憶部１２から取得する。なお、制御部１１は、このとき、上記撮影日時を含む、予め定めた時間範囲に撮像された他の画像情報であって、かつ、処理対象となった画像情報を撮影したカメラと同じカメラで撮影された他の画像情報を取得することとしてもよい。

制御部１１は、処理対象となる画像情報と、取得した他の画像情報とのそれぞれについて、道路標識を認識する処理と、認識した道路標識から地名と距離とを表す文字列を文字認識により取得する処理とを実行する。そして制御部１１は、これら複数の画像情報から得られた、地名と距離とを表す文字列について、それぞれの地名に対応する緯度経度を中心とした仮想円を地図上に設定し、複数の仮想円の重なりあう領域を見出す。制御部１１は、見出した領域内にある緯度経度に関連付けられた地名の情報を地名データベースを参照して取得し、取得した地名が撮影地であると推定する。制御部１１は、この推定の結果である撮影地の情報を、処理対象となった画像情報にタグ情報として関連付けて記憶部１２に格納する。このとき取得された他の画像情報にも同様に、この推定の結果である撮影地の情報を、タグ情報として関連付けて記憶部１２に格納してもよい。

また制御部１１は、処理対象となる画像情報と、取得した他の画像情報とのそれぞれについて、道路標識を認識する処理と、認識した道路標識から地名と距離とを表す文字列を文字認識により取得する処理とを実行し、それぞれの画像情報ごとに取得された地名と距離とを表す情報から撮影地を推定する処理を行ってもよい。この場合、画像情報ごとに異なる撮影地が推定されることがあり得る。制御部１１は、例えば各画像情報について推定された撮影地の緯度経度の情報の平均値を算出し、当該平均値に最も近い緯度経度に関連付けられた地名の情報を地名データベースから取得し、取得した地名が撮影地であると推定してもよい。

また本実施の形態の画像処理装置１は、ここまでに例示した道路標識だけでなく、例えば電柱や、駅の駅名標示版等を認識し、それらに含まれる地名、駅名、電話番号などを認識し、撮影地の推定の処理に供してもよい。

さらに、例えば電柱に取付けられた看板には、場所を表す文字列とともに距離が明示されているものもある。一例としては「ＸＸ医院、ココから３０ｍ先」といったような文字列がそれである。そこで制御部１１は、処理の対象となる画像情報について柱状体を含む画像部分を認識し、当該認識した画像部分の内から、場所を表す文字列及び距離を表す文字列を文字認識して取得してもよい。

ここで場所を表す文字列は例えば、「ＸＸ医院」といった施設等を表す文字列であってもよいし、電話番号であってもよい。制御部１１は、これら場所を表す文字列に対応する緯度経度の情報を、例えばカーナビゲーションシステムで用いられているようなデータベースを参照して取得する。また距離を表す文字列については、その単位（メートル「ｍ」や、キロメートル「ｋｍ」）を含めて文字認識する。なお、このデータベースは、作成日時別に複数あってもよい。制御部１１は、処理の対象となる画像情報の撮影日時を参照し、当該撮影日時に作成日時が最も近いデータベースを選択して、当該選択したデータベースを参照して、場所を表す文字列に対応する緯度経度の情報を取得する。このようにすると、ランドマークとなるべき店舗の名称と、これに対応する緯度経度の情報との対応関係等が変更される場合などに配慮した処理とすることができる。

以下は道路標識から地名と距離との文字列を認識した場合と同様に、制御部１１は、当該文字認識された場所を表す文字列に対応する緯度経度を中心とし、距離を表す文字列により半径を定めた仮想円を地図上に設定すればよい。なお、この場合も、複数の仮想円が処理対象の画像情報（または処理対象の画像情報の撮影日時を含む予め定めた時間範囲に撮像された他の画像情報）から得られた場合は、当該複数の仮想円の重なり合う領域を見出してもよい。また、この場合は当該領域が地名データベースにおける地名の緯度経度の分布よりも小さいと考えられるので、この見出した領域に最も近い緯度経度に関連付けて地名データベースに登録されている地名を撮影地の推定結果として取得してもよい。また仮想円の重なりあう領域が複数見出される場合は、重なり合っている仮想円の数が最も多い領域を選択し、この選択した領域に最も近い緯度経度に関連付けて地名データベースに登録されている地名を撮影地の推定結果として取得してもよい。なお、仮想円の重なりあう領域がない場合は、各仮想円を予め定めた半径だけ拡大し、重なり合う領域ができた場合には、重なり合っている仮想円の数が最も多い領域を選択し、この選択した領域に最も近い緯度経度に関連付けて地名データベースに登録されている地名を撮影地の推定結果として取得してもよい。さらに、仮想円の重なりあう領域がない場合は、各仮想円の各中心を結ぶ線分の中点または各仮想円の各中心を結んでできる多角形の重心に最も近い緯度経度に関連付けて地名データベースに登録されている地名を撮影地の推定結果として取得してもよい。さらにこの場合も、選択した領域の重心など、選択した領域内にある緯度経度の情報をそのまま撮影地の推定結果として取得してもよいし、各仮想円の各中心を結ぶ線分の中点、または各仮想円の各中心を結んでできる多角形の重心を用いる場合は、当該重心にあたる位置の緯度経度の情報を撮影地の推定結果として取得してもよい。

また制御部１１は、処理対象の画像情報（または処理対象の画像情報の撮影日時を含む予め定めた時間範囲に撮像された他の画像情報）から仮想円が一つしか得られなかった場合は、この仮想円の円周から、予め定めた範囲内にある緯度経度に関連付けて地名データベースに登録されている地名を撮影地の推定結果として取得してもよい。

さらにここまでの説明では、処理対象の画像情報は静止画であるものとしてきたが、処理対象の画像情報は動画であってもよい。動画の画像情報は、静止画の画像情報を撮影時間順に配列したものと同じであるので、動画中の静止画の画像情報を、予め定めた時間間隔で抽出して、それぞれを処理対象の画像情報として取り出し、それぞれの画像情報について撮影地の推定結果を得ることとすればよい。あるいは、動画中の静止画の画像情報をそれぞれ処理の対象として、例えば道路標識の背景色に近い色の画素値を所定数以上含む静止画を抽出して、処理対象の画像情報として取り出し、当該取り出した画像情報について撮影地の推定結果を得ることとしてもよい。

これらの場合、動画から取り出した複数の画像情報について得た撮影地の推定結果の論理和集合を生成し、この生成した論理和集合に含まれる撮影地の情報を、動画像の画像情報に関連付けて記憶部１２に格納する。動画から処理対象として取り出した複数の画像情報のそれぞれの撮影日時の情報を用いることで、動画撮影時の移動速度を推定することもできる。この場合はさらに、動画から処理対象として取り出され、撮影地が推定された複数の画像情報（推定済み画像情報）の間にある、動画から処理対象として取り出されなかった（撮影地の推定が行われなかった）画像情報（未推定画像）について、当該未推定画像の撮影日時に対して、その前後で最も近い撮影日時である推定済み画像情報を取り出して、当該取り出した２つの推定済み画像情報のそれぞれについて推定された撮影地の情報を用いて、それら推定された撮影地の間に、未推定画像の撮影地があるものとして推定処理を行ってもよい。

例えば、未推定画像の撮影日時Ｔより前の撮影日時で、最も近い撮影日時になっている推定済み画像情報の撮影日時がＴ１、推定された緯度経度の値が（ＬＡＴ１，ＬＯＮ１）であり、また未推定画像の撮影日時より後の撮影日時で、最も近い撮影日時になっている推定済み画像情報の撮影日時がＴ２、推定された緯度経度の値が（ＬＡＴ２，ＬＯＮ２）であるとすると（Ｔ１＜Ｔ＜Ｔ２となる）、未推定画像情報についての推定される撮影地は、

として推定できる。

１画像処理装置、１１制御部、１２記憶部、１３操作部、１４表示部、１５通信部、１６入出力インタフェース、２１画像情報取得部、２２認識処理部、２３推定部、２４情報出力部。

Claims

処理の対象となる画像情報を取得する手段と、
前記取得した、処理の対象となる画像情報から場所を表す文字列及び距離を表す文字列を含んだ領域を認識する認識処理手段と、
前記認識した領域から、場所を表す文字列と、距離を表す文字列とを文字認識し、当該文字認識結果に基づいて、前記処理の対象となった画像情報の撮影地を推定する推定手段と、
前記推定した撮影地の情報を出力する手段と、
を含む画像処理装置。
処理の対象となる画像情報を取得する手段と、
前記取得した、処理の対象となる画像情報から、場所を表す文字列及び距離を表す文字列の組を複数含んだ領域を認識する認識処理手段と、
前記認識した領域から、各組に含まれる場所を表す文字列と距離を表す文字列とを文字認識し、当該文字認識結果に基づいて、前記処理の対象となった画像情報の撮影地の範囲を絞込み推定する推定手段と、
前記推定した撮影地の情報を出力する手段と、
を含む画像処理装置。
請求項１または２記載の画像処理装置であって、
前記認識処理手段はさらに、前記取得した、処理の対象となる画像情報から、路線を表す文字列を認識し、
前記推定手段は、前記認識した路線を表す文字列の文字認識結果をさらに用いて、前記処理の対象となった画像情報の撮影地を推定する画像処理装置。
請求項１から３のいずれか一項に記載の画像処理装置であって、
前記認識処理手段は場所を表す文字列及び距離を表す文字列を含んだ領域の候補として、
前記処理の対象となる画像情報から柱状体が含まれる画像部分を認識し、
当該認識した画像部分の内から、場所を表す文字列及び距離を表す文字列を含んだ領域を探索する画像処理装置。
請求項１から４のいずれか一項に記載の画像処理装置であって、
前記認識処理手段はさらに、前記処理対象となる画像情報に方向を示す画像が含まれる場合には、当該画像によって示される方向を認識し、
当該認識処理手段により認識された方向に基づいて、撮影方角を推定する手段をさらに含む画像処理装置。
請求項１から５のいずれか一項に記載の画像処理装置であって、
前記処理の対象となった画像情報の撮影日時を参照し、当該撮影日時を含む予め定めた時間範囲に撮像された他の画像情報を取得する手段をさらに含み、
前記認識処理手段は、当該他の画像情報から場所を表す文字列及び距離を表す文字列を含んだ領域を少なくとも一つ認識し、
前記推定手段は、当該認識された領域内の文字列を文字認識し、当該文字認識結果に基づいて他の画像情報の撮影地を推定するとともに、当該他の画像情報の撮影地の推定結果を、さらに用いて、前記処理の対象となった画像情報の撮影地を推定する画像処理装置。
コンピュータを、
処理の対象となる画像情報を取得する手段と、
前記取得した、処理の対象となる画像情報から場所を表す文字列及び距離を表す文字列を含んだ領域を認識する認識処理手段と、
前記認識した領域から、場所を表す文字列と、距離を表す文字列とを文字認識し、当該文字認識結果に基づいて、前記処理の対象となった画像情報の撮影地を推定する推定手段と、
前記推定した撮影地の情報を出力する手段と、
として機能させるプログラム。