JP2008039611A

JP2008039611A - 位置姿勢計測装置及び位置姿勢計測方法、複合現実感提示システム、コンピュータプログラム及び記憶媒体

Info

Publication number: JP2008039611A
Application number: JP2006214883A
Authority: JP
Inventors: Kazuhiko Kobayashi; 一彦小林
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2006-08-07
Filing date: 2006-08-07
Publication date: 2008-02-21
Anticipated expiration: 2026-08-07
Also published as: JP4958497B2; US7965904B2; US20080031490A1

Abstract

【課題】現実空間に既にある文字を利用し、広範囲においてカメラの位置姿勢の取得を可能な位置姿勢測定技術及び該位置姿勢測定技術を利用した複合現実感提示システムを提供する。
【解決手段】位置姿勢測定装置であって、現実空間に配置された文字領域について、文字領域を特定するための情報および位置情報とを保持する保持手段と、前記現実空間を撮像装置により撮像して得られた第1の撮像画像データから、前記保持手段に保持されている文字領域を特定するための情報を用いて、文字領域を検出する検出手段と、前記検出手段により検出された文字領域の前記第１の撮影画像データにおける画像位置情報と、前記保持手段に保持されている、該検出された文字領域に対応する位置情報とに基づき、前記撮像画像データ撮像時の前記撮像装置の位置姿勢を推定する推定手段とを備えることを特徴とする。
【選択図】図１

Description

本発明は、現位置姿勢計測装置及び位置姿勢計測方法、複合現実感提示システム、コンピュータプログラム及び記憶媒体に関する。

現実空間を撮像するカメラなどの撮像部（以下適宜カメラと言い換える）の位置姿勢計測は、例えば現実空間と仮想空間とを融合表示する複合現実感システムにおいて必要となる。

現実空間におけるカメラの位置姿勢を計測する方法として、三次元位置が既知の複数の指標をカメラで撮像し、撮像画像中の投影点の位置から撮像装置の位置姿勢を求める方法が提案されている（特許文献１参照。）。

ここで、画像処理により撮像画像から指標を検出するためには、背景や他の物体の画像から得られる特徴と指標が有する特徴とを分離しなければならない。そのため、実用的には色彩的に有意に異なるものを指標とすることにより、撮像画像から指標の画面投影領域の検出を可能としている。

カメラの位置姿勢を広範囲において計測可能とするためには、カメラが向けられる現実空間に、複数の指標を設置する必要がある。しかし、指標を街中や公共施設に多数設置することは困難である。更に、指標の色や彩度をに基づく指標の抽出方法では、環境照明の影響を受けやすく屋外での利用は困難である。

また、現実空間の撮像画像中に含まれる幾何学的な特徴を検出し、検出結果を多数利用してカメラの位置姿勢を計測する方法が、コンピュータビジョンの分野において提案されている。代表的な幾何学的な特徴検出手法として、Ｈａｒｒｉｓオペレータが知られている。Ｈａｒｒｉｓオペレータは画像中の隅を構成する輪郭成分の位置を検出するものである（非特許文献１を参照。）。また、検出された幾何学的な特徴を基に複数の対応候補との仮説を試行し、最も誤差が少ない仮説を採択する方法（ＲＡＮＳＡＣ）も提案されている（非特許文献２参照。）。

その一方で、街中や公共施設などでの利用を想定した場合、目的地や所在を指し示す看板や商品の広告等の掲示物が多く存在する。そこには、文字が記載されている場合が多い。また、人目につきやすいように配置、文字の配色、文字の大きさなどが適当に設定されている。

人にとっては、背景から文字領域を検出することは容易にできるが、機械が対象が文字であるかを認識するには事前の学習が必要である。このために、文字認識技術が提案され（特許文献２を参照）、産業上広く利用されており、活字文字の認識においては十分実用に耐えうる技術となっている。また、画像から文字領域を検出することは、ＯＣＲの技術を併用することで実現できる。

カメラの撮像画像から文字領域を検出し、文字情報をナビゲーションなどに利用するための手法は多く検討されている。この方法は文字列を読み取ることを目的としており、文字列が唯一であれば掲示物が撮像できる付近にカメラが存在することを推測できる。しかしながら、カメラの位置姿勢の取得は考慮されていない。しかし、単一の掲示物をカメラの撮像画面に大きく映るように撮影しない限り、複数の掲示物が撮像画面に含まれることとなる。従って、他の掲示内容や文字列との関係を正確に求めるためにもカメラの位置姿勢を求めることが必要である。

また、構内移動におけるナビゲーションなどへの応用を考えると、次へ進むべき方向を指し示すことが一般的であり、カメラの位置姿勢に関する情報は正確なナビゲーションには必須となる。更に、地下やビル内においてはＧＰＳが利用できないことから、乗用車でのナビゲーションシステムを、地下、ビル内における広範囲の構内移動に対して、人が持ち歩くカメラの位置姿勢推定にそのまま適用することは難しい。

ここで、カメラの撮像画像を利用したカメラの位置姿勢推定は、入力装置としてのカメラの汎用性から、コスト面にも優れていると言える。その一方で、広範囲の移動を可能としつつ、撮像画像を利用した位置姿勢計測を実現するためには、三次元座標の位置が既知の指標を撮像しなくてはならない。しかし、街中や公共施設などの設置に関して事前に許可が必要なエリアでは、そのような指標を多数設置することは難しい。従って、利用範囲を限定せずに広範囲での利用を考えた場合、エリア内に既に存在する特徴を用いるしかない。

以上のような観点から、画像処理を用いて構造物の幾何学的な特徴を検出し、検出された付近を指標として利用する方法は既に提案されている。その中では、非特許文献１が提案する画像処理であるＨａｒｒｉｓの隅検出が多く用いられている。

しかし、隅検出のような、画像中に含まれる不特定多数の領域に反応する検出手法では、建物が多い場所において、建物外壁の周期性のある構造に対して多数の特徴点が検出されることとなる。そして、画像処理により、検出された多数の特徴点と登録されている特徴との対応を取ることは困難であるため、多くの仮説を試行してより良い結果を選択する方法が採用されていた。

更に、該検出手法では、カメラの撮影位置に応じて検出される物体の輪郭部分の形状が大きく変化するため、検出される特徴を姿勢に応じて複数登録する必要がある。そのため、この手法は、屋外で風景が遠方に離れた状態において、初めて有用と言えるものである。

その一方、現実空間において指標となりえる特徴として、画像処理により有意に検出可能な特徴があれば、それを優先的に利用することで、事前に指標が設置できない場所や移動を伴う広範囲のカメラの位置姿勢計測が可能となる。
特開２００３−２２２５０９号公報特許第０２６４３９６０号公報 C. Harris and M.Stephens."A combined corner and edge detector."Proceedings of the 4th Alvey Vision Conference, pp. 147-151,1988 M.A.Fischler,R.C.Bolles."Random Sample Consensus:A Paradigm for Model Fitting with Applications to Image Analysys and Automated Cａｒｔｏｇｒａｐｈｙ．" Communication of the ACM.Vol.24,pp.381−395,1981

人間の利用するエリアには、一般に、文字が記載されている物体や平面が多数存在する。例えば、街中では広告文字が存在し、駅等の公共施設では出口方向を示す掲示物が存在する。更に、会社や学校等の施設においても、多数の文字を利用した掲示物が存在している。

しかしながら、これまでは、現実空間に既にある文字を利用して広範囲でのカメラの位置姿勢を求める手法は提案されていなかった。

そこで、本発明は、現実空間に既にある文字を利用し、広範囲においてカメラの位置姿勢の取得を可能な位置姿勢測定技術及び該位置姿勢測定技術を利用した複合現実感提示システムを提供することを目的とする。

上記の課題を解決するための本発明は、位置姿勢測定装置であって、
現実空間に配置された文字領域について、文字領域を特定するための情報および位置情報とを保持する保持手段と、
前記現実空間を撮像装置により撮像して得られた第１の撮像画像データから、前記保持手段に保持されている文字領域を特定するための情報を用いて、文字領域を検出する検出手段と、
前記検出手段により検出された文字領域の前記第１の撮影画像データにおける画像位置情報と、
前記保持手段に保持されている、該検出された文字領域に対応する位置情報とに基づき、前記撮像画像データ撮像時の前記撮像装置の位置姿勢を推定する推定手段と
を備える。

上記の課題を解決するための本発明は更に、複合現実感提示システムであって、
撮像装置と、
上記の位置姿勢測定装置と、
前記撮像装置において現実空間を撮像して得られた撮像画像データと、前記撮像画像データに基づいて推定された前記撮像装置の姿勢位置とに基づき、前記撮像画像データに仮想物体を合成して合成画像データを生成する仮想物体合成手段と、
前記合成画像データを表示する表示手段と
を備える。

本発明によれば、現実空間に既にある文字を利用し、広範囲においてカメラの位置姿勢の取得を可能な位置姿勢測定技術及び該位置姿勢測定技術を利用した複合現実感提示システムを提供することができる。

［実施例１］
以下、添付図面を参照して、好適な実施例について詳細に説明する。

図１は、実施例に対応する位置姿勢計測装置１００を撮像装置１０１に適用した一例示す模式図である。

図１において、撮像装置１０１は、ＣＣＤやＣＭＯＳ等の光電子変換（撮像）素子を用いた２次元画像の撮像装置により構成される。撮像装置１０１は、例えばデジタルビデオカメラ等において実現することができる。撮像装置１０１での撮像によって生成された映像信号は、位置姿勢計測装置１００に有線又は無線により伝送される。ここで、信号線の種類や伝送方式は特に限定されない。なお、撮像装置１０１と位置姿勢計測装置１００とは同一の装置に固定的に設置されていてもよいし、或いは、別々に設置されていてもよい。いずれの場合においても、撮像装置１０１が現実空間を自由に移動できれば良い。

撮像装置１０１の観測対象となる現実空間には、掲示物等の文字を含む領域１０２が少なくとも１以上存在する。図１では、撮像装置１０１により領域１０２が撮影されている様子を示している。本実施例において、掲示物には、看板、標識、ネオンサイン、出入り口表示、非常口表示、ポスター、チラシ、広告等が含まれる。また、これ以外にも、現実空間において文字情報を含めて情報提示を行うために掲示された媒体は全て掲示物に含まれる。

位置姿勢計測装置１００は、撮像装置１０１によって撮像された領域１０２を含む撮像画像から、撮像装置１０１の位置姿勢を計測して出力する。ここで得られる撮像装置１０１の位置姿勢の情報は、例えば、複合現実感技術において撮像装置から観察される仮想物体の描画に利用することができる。

次に、図２を参照して、撮像装置１０１と接続された場合の位置姿勢計測装置１００の機能構成の一例を説明する。位置姿勢計測装置１００は、撮像画像取得部１１０、画像記憶部１２０、文字指標検出部２００、指標情報記憶部３００、指標座標算出部４００、及び位置姿勢推定部５００から構成される。

まず、撮像画像取得部１１０には、撮像装置１０１で現実空間を撮像して得られた画像信号が供給される。撮像画像取得部１１０は、取得した画像信号を、後段の画像処理が処理しやすい形にサンプリング処理する。例えば、撮像装置１０１から供給されたアナログ画像信号をＡ／Ｄ変換し、圧縮符号化する等してデジタルデータとしての撮像画像データに変換する。この撮像画像データは、画像記憶部１２０に格納される。これにより、撮像装置１０１で得られた画像信号を、計算処理しやすいデータとして取扱うことができる。
指標情報記憶部３００は、文字・指標検出部２００、指標座標算出部４００及び位置姿勢推定部５００が参照可能なデータベースである。指標情報記憶部３００には、指標対象の文字領域のテンプレート画像などの文字認識処理の際に類似度計算に用いる情報および該指標の現実空間における位置情報又は配置情報（３次元座標情報）が登録されている。具体的には、検出に必要な文字情報、検出対象となる文字領域の周辺の画像情報、指標や文字領域周辺の画像情報から抽出可能な色度・彩度・明度、輪郭線、及び、幾何学的な特徴等が登録されている。さらに、文字以外の指標の指標の検出に必要な情報も予め登録されている。なお、指標情報記憶部３００の登録内容は、これらに限定されるものではない。なお、撮像画像データには、撮像装置１０１の撮影姿勢に応じて歪みが発生する。そこで、予め複数の姿勢に対応した画像を撮影しておき、該画像を文字画像のテンプレートとして指標情報記憶部３００に登録しておいてもよい。また、標準的な文字画像を、複数の撮影姿勢に対応するように演算により変形させて、複数の文字画像として指標情報記憶部３００に登録してもよい。複数の撮影姿勢に対応させてテンプレートを用意することにより、撮影姿勢にかかわらず指標の検出精度を高めることができる。

文字・指標検出部２００は、指標情報記憶部３００に記憶されている情報を用いて、撮像画像データから現実空間に存在する文字（例えば図１の領域１０２内の文字）に対応する文字領域を指標として検出する。さらに、文字・指標検出部２００は、文字領域以外の他の指標も検出する。なお、本実施例において「指標」とは、現実空間内に予め配置され、かつ、現実空間における３次元座標が予め把握された、撮像装置の位置及び姿勢を算出するために使用される目印のことをいう。

指標座標算出部４００は、文字・指標検出部２００における文字領域や指標の検出結果に基づいて、撮像画像データにおける該文字領域や指標の位置を算出する。

位置姿勢推定部５００は、指標座標算出部４００により算出された撮像画像中の文字領域或いは指標の位置と、現実空間における文字領域或いは指標の配置とを利用して、撮像装置１０１の位置姿勢６００を推定し出力する。撮像装置１０１の位置姿勢は、例えば、現実空間における三次元座標、パン値、チルト値、回転値により表すことができる。

次に、位置姿勢計測装置１００を構成する各処理部で実行される処理の具体例を説明する。

＜文字・指標検出部２００＞
文字・指標検出部２００では、撮像画像取得部１１０から供給された撮像画像データ中に含まれる文字領域及び指標の検出処理を行う。この検出処理は、例えば以下のようにして行うことができる。なお、以下では、文字領域の検出処理を説明する。

まず、指標情報記憶部３００に保存されている文字のテンプレート画像と、撮像画像データ中の所定領域とをパターンマッチングにより比較して類似度を算出する。そして、算出された類似度が予め定められた閾値以上である場合に、該所定領域を登録文字に相当する文字領域と検出する。

なお、撮像画像データには、撮像装置１０１の撮影姿勢に応じて歪みが発生する。そこで、予め複数の姿勢に対応した画像を撮影しておき、該画像を文字画像のテンプレートとして指標情報記憶部３００に登録しておいてもよい。また、標準的な文字画像を、複数の撮影姿勢に対応するように演算により変形させて、複数の文字画像として指標情報記憶部３００に登録してもよい。

文字・指標検出部２００における検出処理は、上述の手法以外に以下のような手法により実行することもできる。

一般に、文字は局所的に複数の線分が縦横に組み合わさったものである。撮像画像データから輪郭線を検出し、輪郭線の組み合わせの文字に対する類似度を算出し、類似度が予め定められた閾値以上である画像領域を文字領域として検出する。

また、文字を構成する線分には、多くの情報が含まれる。仮に文書画像から文字を検出する場合には、紙文書をスキャナ等で読み込む際に最適な撮像条件を事前に設定し、文字の歪みなどを抑制することで、該線分に含まれる情報を活用できる。しかし、現実空間を自由に移動することを前提とした撮像装置１０１で撮像した撮像画像データから文字検出を行う場合には、該線分に含まれる情報を活用し、文字を含む領域を効率的に検出するためには、相応の画像処理が必要となる。

本実施例では、撮影画像から文字領域を検出するために、撮影画像における文字の輪郭線を顕著にする処理を行い、輪郭線を検出する。検出された輪郭線を統合する処理を行って文字の字画線の分離部分を結合し、文字領域を検出する。そして、検出された文字領域に対して、ＯＣＲによる文字認識を行い、該当する領域が文字領域であるかどうかを判別する。なお、本実施例では、「ＯＣＲ」との語を、事前学習して生成した辞書を用いて、撮像データ中の文字を認識するための文字認識技術を意味する概念において使用する。ＯＣＲでは、検出対象となる言語で使用される文字が事前に登録された単語辞書を利用する。

次に、図３を参照して、ＯＣＲを利用した場合の具体的な文字検出処理の一例を説明する。まず、ステップＳ３００では、文字・指標検出部２００が撮像画像取得部１１０から撮像画像データを取得する。この撮像画像データは、撮像装置の動きやレンズの焦点距離により検出対象となる文字領域がボケている場合も少なくない。このような条件下で文字の構造を推定する場合、文字を構成する字画線の構造的な組み合わせに注目することが重要であり、字画線を構成する輪郭線の方向線分などを特徴として利用することで、高精度な文字識別を行うことができる。

そこで、顕著に輪郭線を検出するための画像処理を撮像画像データに施す。具体的には、ステップＳ３０１及びステップＳ３０２において、点の広がり関数がガウス関数で近似できるガウシアンフィルタをその分散値を互いに違えたものを用いて、ステップＳ３００において取得した撮像画像データにフィルタ処理を施す。ステップＳ３０１における第１のガウシアンフィルタ処理では、ガウシアンフィルタの分散値をσ１とする。また、ステップＳ３０２における第２のガウシアンフィルタ処理では、ガウシアンフィルタの分散値をσ２とする。ここで設定される分散値の一例として、例えば、σ１には１．０を設定し、σ２には１．４を設定する。但し、この設定値はあくまで一例であって、画像の質や解像度に応じて変化させることが望ましい。

次に、ステップＳ３０３では、ステップＳ３０１及びステップＳ３０２における処理結果として得られた撮像画像データの明度値を、引き算するフィルタ処理を行う。この処理により、輪郭線が存在する明度変化が大きい部分が強調され、人間の視覚特性と同様な輪郭線強調を撮影画像に対して行うことができる。

次に、ステップＳ３０４では、ステップＳ３０３における処理結果に対し、更に零クロス領域抽出フィルタ処理を施す。この零クロス領域抽出フィルタ処理では、濃度変化が正から負、または負から正に変化する部分、つまり濃度変化の０値を通過する領域を抽出する。これにより、輪郭線部分を更に適切に抽出することができる。

次に、ステップＳ３０５では、ステップＳ３０４における処理結果に対し、線分を構成していない部分の微少領域の誤検出を除去するためのノイズ除去フィルタ処理を施す。これにより、輪郭線部分を更に強調して、文字検出をより効率的に行うことができる。

そこで、ステップＳ３０６からステップＳ３０８では、輪郭線処理により文字領域を検出する。

現実空間には文字以外に構造物などの線分が多数含まれるため、検出された輪郭線からこれらを除外して文字を構成する線分を抽出しなくてはならない。構造物を構成する輪郭線（線分）と比較して文字を構成する輪郭線（線分）は、局所的に分布している場合が多い。建物や構造物を構成する輪郭線と、文字を構成する輪郭線とでは線分の密度が異なる。よって、線分密度の違いを利用して文字を検出することが可能である。ステップＳ３０６では、撮像画像データ中に存在する各輪郭線閉曲線に対して、外接四角形を設定する。この設定手法の具体例を図４を参照して説明する。図４は、撮像画像データ中に存在する各輪郭線閉曲線に対して、外接四角形を設定する手法説明するための図である。図４（ａ）は、「た」という平仮名を斜め方向から撮像した撮像画像データから検出された輪郭線成分の一例を示している。この検出された輪郭線成分を一文字を構成する輪郭線成分として結合するために、図４（ｂ）に示すように、検出された輪郭線の閉曲線の外接四角形を設定する。図４の例では、３つの輪郭線の閉曲線が存在し、それぞれ曲線に対して外接する四角形４０１、４０２及び４０３を設定する。このとき、外接四角形４０１乃至４０３は、４０１と４０２、４０１と４０３が互いに重複部分を有している。これは、上記のように、文字を構成する輪郭線は局所的に分布する傾向が高いためである。

一部の言語の文字を除いて文字列を構成する文字同士に僅かな隙間が存在する。したがって、この隙間を利用して、文字列中の文字同士を分離することができる。しかし、文字を構成する字画線が分離している場合もあるため、それらを文字単位で統合する必要がある。ステップＳ３０７では、このように互いに重複部分を有する隣接外接四角形同士をグループ化して、結合領域を生成する。例えば、図４（ｃ）に示すように、互いに隣接する外接四角形４０１から４０３を包含する四角形４０４を設定することにより、外接四角形同士が結合された結合領域を求める。本実施例では、この結合ルールを単純に外接四角形が重複、或いは、接触していることとしている。しかし、漢字の場合、偏と旁のように縦や横に分離し、必ずしも外接四角形が互いに重複したり接触しない場合もありえる。そこで、検出した外接四角形の縦横比に応じて係数を設定し、該係数を乗じた領域において接触判定を行っても良い。

次に、ステップＳ３０８では、ステップＳ３０７で生成された結合領域の正規化処理を行う。ここでは、例えば、図４（ｃ）のように四角形４０４により結合された領域の縦横比を正規化（例えば縦横比が１対１となるように調整）する。この正規化処理の結果、図４（ｄ）に示すような形に文字が変形される。このように正規化を行うことで、仮に撮影姿勢に基づき文字領域が歪んでいた場合であっても、当該歪みを解消することができる。このようにして、ＯＣＲの辞書との差を吸収して識別率を向上させることが可能である。

なお、以上の処理では、文字が回転している場合に対応するために必要となる文字の方向に関する補正を行っていない。ステップＳ３０７において以下の処理を追加的に行うことにより、ＯＣＲする際の文字画像の方向を補正することができる。まず、図４（ｃ）に示すような領域について、輪郭線の線分方向ヒストグラムを複数方向について求め、その中でヒストグラムが最大になる方向を文字の上部とする。そして、ＯＣＲにおける事前学習においても同様な処理を施した文字列を学習させておく。これにより、撮像装置１０１が回転した場合にも、撮影画像における文字の方向を、予め学習した文字の方向に合わせることができる。また、文字の回転に対する補正として、ある文字の近傍に位置する他の複数の文字を統合して文字列の領域を設定し、文字列のベースライン（文字下端部を結ぶ直線）を求め、そのベースラインの傾きを用いて回転を補正しても良い。

図３のステップＳ３０９では、ステップＳ３０８において正規化された結合領域について、ＯＣＲを利用した文字認識処理を行う。一般に利用できるＯＣＲは、紙原稿に記載された文字を画像処理により判読する環境を条件としている場合が多い。従って、本実施例のように撮像装置１０１の撮影方向に応じて文字の形状に歪みが発生している場合は、紙原稿と同様の辞書を用いていては識別率が低下する。そこで、上述のように文字の輪郭線に処理を施した文字に対して事前学習を行って辞書を作成しておくことで、識別率を向上できる。また、本実施例における検出対象文字は活字文字であるため、コンピュータで利用しているフォントから抽出した輪郭線情報を利用すれば、複数の文字形状を有する辞書を学習することは容易である。

ステップＳ３０９における文字認識処理では、撮像画像データ内の正規化済の各結合領域から抽出される特徴情報を順に選択し、事前学習により得られた辞書に含まれる特徴情報と比較を行う。この比較において類似度を算出し、各結合領域について最大となる類似度を算出する。

続くステップＳ３１０では、ステップＳ３０９における文字認識処理の結果として出力された類似度と、予め設定された閾値とを比較する。この比較において、類似度が閾値よりも低い場合には（ステップＳ３１０において「ＮＯ」）、ステップＳ３１２の処理に移行する。この場合、文字認識対象の結合領域が、撮像画像データに含まれる構造物を構成する輪郭線（の一部）を構成するものと考えられるため、該当結合領域を破棄して、再度ステップＳ３０９に戻って、他の結合領域についての文字認識処理を行う。

一方、類似度が閾値以上の値を有する場合には（ステップＳ３１０において「ＹＥＳ」）、ステップＳ３１１の処理に移行する。ステップＳ３１１では、文字検出結果が指標座標算出部４００へ出力される。このとき、指標座標算出部４００には、検出された文字領域に関する情報が出力される。

次に、ステップＳ３１３では、ステップＳ３０８において正規化処理された全ての結合領域について処理が完了したか否かを判定する。もし、処理が完了した場合は（ステップＳ３１３において「ＹＥＳ」）、本処理を終了する。一方、未処理の結合領域が残っている場合には（ステップＳ３１３において「ＮＯ」）、ステップＳ３０９に戻って処理を継続する。

なお、図３に示すフローチャートに対応する処理を実行するための構成は、画像処理を行う専用の集積回路とＯＣＲを行う判別回路を組み合わせることで実現できる。

上記の図３に関連する文字検出処理の説明では、結合領域の生成において、主に単一文字を扱う場合を説明したが、複数の文字の集合を文字列として扱うこともできる。

文字は１文字のみで使用されることは少ないため、複数の文字の集合、即ち文字列の単位で管理するほうが文字認識処理における識別率を向上する上で効果的である。文字列を構成する文字同士の関連は、前述の色度や輪郭線の外接する面積などが似通った近隣部位を文字列として想定することができる。この場合、人が可読できる文字列の方向（縦書き、横書き）で無い場合もあるが、指標を識別するという目的では問題ない。

さらに、撮像装置１０１が存在するエリア内で、ある文字と同一の文字が他に存在しない場合には、当該ある文字について指標情報記憶部３００の登録情報との対応づけを行うことは比較的容易である。一方、同一エリア内に同一文字が複数存在する場合には、登録情報との対応付けが困難となる。そこで、単一の文字として扱うだけでなく、複数の文字の集合としての文字列において扱うことで、登録情報との対応付けをより容易なものとすることができる。

文字に関連する特徴量をいずれか１つ以上組み合わせて検出することにより、処理時間を短縮する効果がある。以下、文字の集合を文字列として扱う場合の処理について説明する。

撮像装置１０１の撮像方向と、撮像対象となる文字列が存在する平面とが正対している場合、撮像画像データ中の文字列と、文字認識処理に使用する辞書中の参照用の文字列との比較は容易に行える。しかし、撮像装置１０１を自由に動かして撮像を行っている状況下では、撮像装置１０１の撮像方向と、撮像対象となる文字列が存在する平面との位置関係は任意なものとなり、必ずしも正対しているとは限らない。この場合、図５（ａ）に示すように文字列を斜めから撮影することとなる場合が多い。図５（ａ）は、撮像装置１０１が文字を含む領域１０２を斜めから撮影している状態を一例として示す図である。なお、図５は、撮像装置１０１が文字を含む領域１０２を斜めから撮影している場合の、文字の歪みを解消するための手法を説明するための図である。

図５（ａ）のような状態で撮像された撮像画像データの一例を図５（ｂ）に示す。図５（ｂ）では、撮像装置１０１により撮像された撮像画像データ５００には、文字を含む領域１０２が撮影位置の関係で歪んで投影されている。即ち、撮像画像データには、撮像装置１０１の近傍に位置する文字が大きく投影され、撮像装置１０１から遠くに位置する文字ほど小さく投影されている。このような歪みを補正するために、いかのような処理を行うことができる。

まず、上記の図３のフローチャートのステップＳ３０７における隣接外接四角形の結合結果を利用し、互いに接触或いは重複してはいないが、互いに距離の近い結合領域の集合を文字列として見なす。そして、結合領域の矩形に接する線を、頂点５０１と頂点５０２を結ぶ線分５０５と、頂点５０３と頂点５０４とを結ぶ線分５０６のように設定する。このとき、線分の端点、つまり頂点５０１乃至５０４の画面横方向の位置（点線５０７、５０８で示す位置）を、結合領域を含む矩形の左右の端辺と一致させることで、文字領域のみを取り扱うことができる。

次に、文字を含む領域が外接している頂点５０１乃至５０４で囲まれた四角形に対して台形歪み補正を行って、該四角形の形状を矩形形状に補正する。この台形歪み補正は、当業者には周知の技術であるので、簡単のために本明細書ではその詳細に関する説明を省略する。図５（ｃ）は、この台形歪み補正後の画像５１０を示す図である。図５（ｃ）において、画像５１０は、頂点５０１乃至５０４に対応する、頂点５１１乃至５１４で構成される長方形領域を含んでいる。長方形領域内に含まれる各文字は、撮影条件に基づく歪みが台形歪み補正により解消されている。このようにして結合領域の集合を文字列として扱うと共に、撮影姿勢に基づく文字の歪みを解消することができる。

以上の処理は、ステップＳ３０８における結合領域の正規化処理において併せて行うことができる。これにより、後段のステップＳ３０９以降の文字認識処理における識別率を更に向上させることが可能となる。

なお、図５（ｂ）の撮像画像データ５００に台形歪み補正を行って得られた図５（ｃ）のような撮像画像データ５１０を、文字認識処理の際に利用する登録画像として用いることもできる。また、元画像に画像変形を施して、複数の撮影姿勢を想定したテンプレートを画像登録時に生成し、該元画像との対応づけて登録しておくこともできる。このようにすることで、撮像装置の姿勢の変化に基づく画像の歪みによる文字認識の識別率低下を効果的に低減させることができる。なお、画像変形の手法としては、アフィン変形や平面ホモグラフィーの関係式を用いた変形を適用することができる。

＜指標情報算出部４００＞
次に、指標座標算出部４００について説明する。指標座標算出部４００は、文字指標検出部２００によって検出された文字領域から、撮像画像データ上で指標となる文字が投影された位置の情報を算出する。

図７及び図８を参照して、指標情報算出部４００における処理の一例を説明する。以下では、特に、文字・指標検出部２００において検出された文字、及び、周辺の画像情報を利用して、現実空間における指標の、撮像画像データ上での位置を算出する例を説明する。図７は、指標情報算出部４００における処理を説明するための、指標の具体例及び該指標を撮像して得られた撮像画像データの一例を示す図である。図８は、指標情報算出部４００における処理の一例を示すフローチャートである。

例えば、図７（ａ）に示すように、非常口を示す掲示物を指標として使用する場合を考える。この場合、指標情報記憶部３００には、該掲示物のテンプレート画像７０１と共に、「ＥＸＩＴ」中の４つのアルファベット文字と、該４文字を結合させた文字列及びその周辺の画像がテンプレート画像として登録される。指標情報記憶部３００はまた、テンプレート画像について、現実空間における位置情報（三次元座標）を関連づけて登録している。位置情報は、例えばテンプレート画像の重心位置である。なお、重心位置は、例えば、図７（ｃ）に示すようにテンプレート画像７０１の頂点を結んで構成される対角線の交点の位置である。

指標座標算出部４００は、ステップＳ８０１において、文字・指標検出部２００において検出された文字等の検出結果を取得する。そして、ステップＳ８０２において取得した検出結果の内容に従い、指標情報記憶部３００に登録されているテンプレート画像７０１を選択する。

続くステップＳ８０３では、選択したテンプレート画像７０１を用いて、撮像画像データとのマッチング処理を行い、類似度を算出する。この結果、類似度が閾値以上となるマッチング位置が発見できれば（ステップＳ８０４において「ＹＥＳ」）、ステップＳ８０８に移行する。ステップＳ８０８では、類似度が閾値以上となるマッチング位置に基づいて、撮像画像データにおける指標の位置情報を、位置姿勢推定部５００に出力する。現実空間における指標の位置情報と対応する撮影画像データにおける位置情報、本実施例では、指標における重心位置に対応する撮像画像上の位置情報を出力する。

一方、類似度が閾値以上となるマッチング位置が発見できない場合（ステップＳ８０４において「ＮＯ」）、ステップＳ８０５に移行する。

図７（ａ）に示すような掲示物としての領域１０２は、一般には人目に付きやすい位置に配置されているが、撮像装置１０１の姿勢位置によっては、壁や構造物により一部が隠蔽され、撮像画像データに全体が含まれない場合がある。例えば、図７（ｂ）に示すように、撮像画像データ７１０中において、非常口を示す掲示物７１１の一部が、ドア７１２によって隠蔽されてしまう場合がある。このような状態で、掲示物に係るテンプレート画像７０１を用いてマッチングを行おうとしても、撮像画像データ７１０中の掲示物７１１は、登録情報とは姿勢や大きさが異なると共に、一部が隠蔽されている点で対応付けが困難である。その結果、類似度が閾値を上回らないこととなる。

この場合、ステップＳ８０５において、撮像画像データ７１０中で、テンプレート画像７０１に対応する文字などが検出された部分領域７１１から、テンプレート画像７０１に含まれる領域を４点以上算出する。ここで、部分領域７１１には、文字が含まれるので、文字の字画線を構成する輪郭線の鋭角部分の頂点座標を用いて、テンプレート画像７０１に含まれる領域を容易に４点以上求めることができる。

次に、ステップＳ８０６では、平面ホモグラフィーの関係から撮像画像データとテンプレート画像７０１の２つの画像間の関係式を求める。

ここで、平面ホモグラフィーの関係式を求めるための手順を示す。撮像装置１０１の内部パラメータとしての焦点距離やレンズの歪みなどは既知として、焦点距離を１とした正規化カメラとする。また、対象となる指標は三次元平面の上に構成されているものとする。テンプレート画像７０１を撮影したカメラ位置における指標文字を構成する点Ｐのカメラ座標系での位置をＭ'とする。また、撮像画像データを撮影した撮像装置１０１の姿勢Ｍは、テンプレート画像７０１を撮影した姿勢から回転行列Ｒを乗じ平行移動ｔを加えたカメラ座標系において、
Ｍ＝ＲＭ’＋ｔ・・・（式１）
で表される。

ここで、点Ｐを含む平面の法線ベクトルｎと、カメラ座標系の座標原点から平面までの距離をｄとすれば、撮像画像撮影時のカメラ座標系における平面の方程式は、
ｎ^TＭ’＝ｄ・・・（式２）
となる。これを（式１）に代入すると
Ｍ＝（Ｒ＋ｔｎ^T/ｄ）Ｍ’・・・（式３）
が得られる。Ｍ、Ｍ’のかわりに２台の正規化カメラにおけるディジタル画像座標ｍ、ｍ’を用いると以下の平面ホモグラフィーの関係式が求められる。

ｓｍ＝Ｈｍ’・・・（式４）
ただし、sはスカラーとし、Hは次式のような式となる
Ｈ＝Ａ（Ｒ＋ｔｎ^T/ｄ）（Ａ’）⁻¹・・・（式５）
Ａ、Ａ’は、カメラの内部パラメータを示す行列であり、事前に求めておく。この式より、R、t、n、dの未知パラメータが８つなので、同一三次元平面上に存在する対応する４点が撮像画像に射影されている２つの撮像画像の姿勢の関係を求めることができる。

次に、ステップＳ８０７では、テンプレート画像７０１の重心位置７２１を平面ホモグラフィーの関係式により撮像画像データ７１０上に投影し、撮影画像データ７１１における指標である文字領域の重心位置７２２を求める。例えば、図７（ｃ）に示すように、テンプレート画像７０１の重心位置７２１に対応する撮像画像データ７１０中の部分領域７１１の位置７２２を求めることができる。

ステップＳ８０８では、撮像画像データ７１１上で求めた撮影画像の指標である文字領域の重心７２２の位置情報を、指標の位置情報として位置姿勢推定部５００に出力する。

なお、指標情報記憶部３００には、掲示物７０１を複数の撮影姿勢から観察した状態を想定して画像変形を施したうえで、テンプレート画像７０１を登録しておくことが望まし。この画像変形として、平面ホモグラフィーの関係式を利用した画像変形を行う場合、撮影角度と距離に相当するスケールのパラメータが得られる。そこで、これらの撮影姿勢のパラメータを変形後の画像と対応付けて登録しておくのが好ましい。画像変形にはアフィン変形で処理しても精度は落ちるが同様な効果が得られる。

＜位置姿勢推定部５００＞
位置姿勢推定部５００は、指標座標算出部４００により算出された撮像画像中の文字領域或いは指標の位置と、現実空間における文字領域或いは指標の配置とを利用して、撮像装置１０１の位置姿勢６００を推定し出力する。位置姿勢推定部５００は、撮像装置１０１の位置姿勢６００を推定し、該推定に基づき撮像画像中に投影される指標の位置と、指標座標算出部４００により得られた画像中の指標の位置との誤差が少なくなるように、推定した位置姿勢を最適化していく。

例えば、検出された複数の文字領域の図形の重心位置を指標の投影座標として特開２００３−２２２５０９号で開示されている複数の指標による撮像装置の位置姿勢推定手法を用いることにより撮像装置の位置姿勢を推定が可能である。また、指標として１文字しか検出されていない場合でも、文字の字画線を構成する端点部を４点以上対応付けができれば、同様の手法で撮像装置１０１の位置姿勢推定を行うことができる。

さらに、位置姿勢推定部５００では、現実空間での位置情報が既知の指標が撮像画像データに投影された位置との対応さえとれていれば良い。よって、利用環境が事前に指標が設置できる場所においては、他の幾何学的または色彩的に特徴を有する指標と併用することも可能である。

以上のように、本発明によれば、現実空間に既に存在している掲示物中の文字を検出し指標として利用することで、事前に指標が設置が困難な街中などの広域な場所においても撮像装置の位置姿勢を計測することが可能となる。

［実施例２］
次に、実施例２として、文字・指標検出部２００における他の処理例を説明する。なお、実施例１と同一の構成および処理については説明を割愛する。

実施例１の文字・指標検出部２００における文字認識処理では、多数の輪郭線が検出された場合には、その分だけ処理時間が増加する。また、複数の言語を用いて文字認識処理する必要がある場合には、指標情報記憶部３００における検索時間も増加する。これらの処理時間の増加は、位置姿勢計測装置１００を複合現実感技術で利用するうえで、問題となる場合もある。
例えば、複合現実感提示システムでは、撮像装置１０１から定期的に出力される画像信号に対して、次の画像信号が出力されてくる以前に位置姿勢計測装置１００内で位置姿勢を推定しなければならないという、リアルタイム性が必要である。ＯＣＲによる文字認識処理に多くの時間が費やされれば、リアルタイム性に関する要求を満たすことが困難となる。そこで、文字認識処理の高速化が必要となる。

一般に、指標対象である文字を有する掲示物は、文字が他の画像や線分等の文字周辺情報と組み合わされている場合が多く、指標を特定する際には、文字だけでなくこれらの文字周辺情報を利用できる。このような文字周辺情報は、撮像装置１０１の撮像位置及び撮像解像度の関係で撮像画像データ中の文字がつぶれてしまい、ＯＣＲによる文字認識処理が行えない場合にも有用である。

このように、文字のみならず、文字の周辺に存在する画像や線分の情報を利用することで、文字のみの情報に基づいて文字認識処理を行うよりも、より迅速に文字認識処理を行うことができる。よって、リアルタイム性の要求を満たすことができる。そこで、指標情報記憶部３００には、文字指標検出部２００により検出される文字の情報だけではなく、文字周辺情報を併せて登録しておく。これにより、文字指標検出部２００では、画像のパターンマッチングを利用した文字検出が可能となる。

以下、図６を参照して、本実施例に対応する、文字・指標検出部２００における文字検出処理の一例を説明する。図６は、本実施例に対応する文字検出処理の一例を示すフローチャートである。

図６において、ステップＳ６０１では、文字・指標検出部２００が撮像画像取得部１１０より撮像画像データを取得する。この撮像画像データには、現実空間に存在する掲示板中の文字情報を含む領域１０２が投影されているものとする。

ここで、撮像装置１０１の動きを、撮像速度（通常は、毎秒３０フレーム）に対して微少な動きであると仮定した場合、直近の撮像装置１０１と現在の撮像装置１０１とで撮像される領域は、それほど移動していないと考えられる。よって、現在の撮像位置において撮像装置１０１により撮像された撮像画像データ中の文字領域も、直近に処理された撮像画像データ中の文字領域の位置からそれほどずれていないと推測できる。

そこで、ステップＳ６０２において、直近に行われた文字検出処理における文字検出領域の情報を取得する。実施例２の文字・指標検出部２００は、文字検出領域保持部を備えており、ここには直近に処理された撮像画像データにおける検出結果に対応する文字検出領域の情報が保持されている。ステップＳ６０２では、この文字検出領域保持部から文字検出領域の情報を取得する。

続くステップＳ６０３では、文字が存在すると推定される領域（推定文字領域）を設定する。まず、位置姿勢推定部５００により取得した撮像装置１０１のそれ以前の位置姿勢の情報に基づき、撮像装置１０１の移動速度などを導出して現時点における撮像装置１０１の位置姿勢を推定する。次に、推定した位置姿勢に基づき、ステップＳ６０２において取得した直近に文字検出された領域を拡張して、推定文字領域を設定する。なお、位置姿勢の推定には、例えばカルマンフィルターを用いて誤差を含んだ状態での推定が実行できる。

次に、ステップＳ６０４では、ステップＳ６０３において設定された領域を、撮像画像データから切り出す処理を行う。これにより、撮像画像データの全体を対象として文字検出処理を行うよりも、少ない処理で済むため処理時間の短縮が期待できる。

続くステップＳ６０５では、複数の類似度算出処理を利用して類似度を総合的に算出する。具体的に、類似度算出処理として、画像パターンマッチング処理、輪郭線方向分布算出処理、色度・彩度・明度ヒストグラム算出処理、及び、フォント類似度算出処理を行うことができる。

まず、画像パターンマッチング処理では、指標情報記憶部３００に登録された登録画像と、ステップＳ６０４において切り出した推定文字領域の画像との相関を、類似度として算出する。輪郭線方向分布算出処理では、切り出された推定文字領域の画像に含まれる輪郭線の方向及び量を算出し、指標情報記憶部３００に登録された登録画像における輪郭線の方向及び量との比較を行い類似度を算出する。このとき、輪郭線を明確化するために図３のステップＳ３０１からＳ３０５までの処理を行うことができる。なお、ステップＳ３０１からステップＳ３０５までの処理は、ステップＳ６０１における撮像画像データ取得後に予め行っておいても良い。

色度・彩度・明度ヒストグラム算出処理では、切り出した推定文字領域の画像中に含まれる色彩的な特徴量を算出し、指標情報記憶部３００に登録された登録画像の特徴量との比較を行い類似度を算出する。フォント類似度算出処理では、切り出した推定文字領域の画像中の、輪郭線で構成される形状と、指標情報記憶部３００に登録された特定のフォントの文字形状との類似度を算出する。

次に、ステップＳ６０６では、ステップＳ６０５において算出された類似度を、各処理毎に予め設定されている閾値と比較する。もし、類似度が閾値以上の場合は（ステップＳ６０６において「ＹＥＳ」）、ステップＳ６０４において切り出された推定文字領域に、類似度を算出する基準となった所定の文字列が存在していると判定できる。そこで、ステップＳ６０７に移行して、文字検出結果の出力を行う。このとき併せて、文字検出領域の撮像画像データにおける位置情報を、文字検出領域保持部に登録する。

次に、ステップＳ６０８では、ステップＳ６０４において切り出された全ての推定文字領域の画像について処理が完了したか否かを判定する。もし、処理が完了した場合は（ステップＳ６０８において「ＹＥＳ」）、本処理を終了する。一方、未処理の画像が残っている場合には（ステップＳ６０８において「ＮＯ」）、ステップＳ６０５に戻って処理を継続する。

一方、類似度が閾値より小さい場合は（ステップＳ６０５において「ＮＯ」）、撮像装置１０１の姿勢が急激に変化して、推定文字領域内に文字が存在しなくなったことが考えられる。そこで、図３のステップＳ３０１以降の文字認識処理を行う。

以上のようにして、既に行われた文字検出結果を利用して効率的に文字検出を行うことができる。なお、上記では、類似度算出のために、画像パターンマッチング処理、輪郭線方向分布算出処理、色度・彩度・明度ヒストグラム算出処理、及び、フォント類似度算出処理を行う場合を説明した。これに限らず、例えば以下のような特徴量を利用して、文字領域の検出を有効に行うことも可能である。

例えば、撮像した文字が撮像画像データ中に大きく映される場合や、撮影姿勢により文字の一部が隠蔽された場合でも、文字を構成する輪郭線の部分的な特徴の適合性を判断することで、不完全な部分を補って、文字領域を検出することができる。このためには、指標情報記憶部３００に、文字検出時に使用するための文字の輪郭線の情報を登録しておく必要がある。

また、掲示板に使用される部分的な文字列は、同一のフォントが利用されている場合が多く、デザイン的な共通点も多数ある。従って、文字列のうち１文字文のフォントが特定できれば、他の文字については別のフォントの文字との類似度の算出を省略することができる。そこで、指標情報記憶部３００では、登録されている文字情報をフォント別に分類しておくことで、検索効率を効果的に向上させることができる。

さらに、文字を構成している色彩的な情報は重要である。文字の色彩は背景と分離して可読しやすい構成となっている。そこで、文字とその周辺を構成する領域の色度、彩度、明度の情報を併せて指標情報記憶部３００に登録しておくことで、同一撮像画像データ内に同一の文字列が複数存在した場合であっても、指標として利用可能な文字の区別して検出することができる。

同様に、文字に隣接して存在する線分等の情報も併せて指標情報記憶部３００に登録することで、看板やポスターなどの掲示物において、同一平面上に文字と線分などが存在する場合に、文字以外の指標として利用することができる。この場合、撮像距離が遠くなり、撮像画像データ中での文字領域が小さくなってしまい、文字に関する特徴抽出が困難な場合でも周辺の大域的な特徴を用いて、文字検出を行うことができる。

［実施例３］
上述の実施例では、撮像装置１００の位置姿勢を推定するために利用可能な文字領域を含む指標は、位置姿勢推定部５００においてカメラの位置姿勢で利用する座標系での位置が既知である必要がある。そのため、事前に測長器などにより位置を測定したものを利用するほか、印刷する時の文字の位置情報を利用することが可能である。しかし、想定したエリア以外での利用を考慮した場合、位置が既知では無い文字の取り扱いが問題になる。

図９は、文字・指標検出部２００において、未登録の文字に関する情報を登録する指標文字登録部９００を位置姿勢計測装置１００が有する場合の構成の一例を示す図である。この指標文字登録部９００は、文字や指標の三次元位置が未知の場合に、異なる視差で撮影し、検出された同一文字および指標の撮影画面上の投影位置を利用して、写真測量で用いられているバンドル調整により位置を算出する。指標文字登録部９００は、この結果得られた三次元位置の情報を指標情報記憶部３００に登録する。なお、バンドル調整は、カメラの位置姿勢と現実空間にある点の座標を投影画面上での誤差が小さくなるように最適化計算する手法であり、写真計測の分野では一般的な方法である。

この指標文字登録部９００を追加することにより、初期段階においては不定である文字指標検出の結果も、当該エリアを移動しているうちに指標として指標情報記憶部３００に記憶されて、カメラの位置姿勢推定に利用できる点で効果的である。

また、指標文字登録部９００における処理は任意の時点で実行することができるので、位置姿勢計測装置１００による位置姿勢推定を実行する前の任意の時点で行うことができる。よって、例えば複数人で利用する場合などに、事前に指標文字登録部９００による処理を行って、それまで道であった文字や指標の三次元位置情報を指標情報記憶部３００に登録しておくことができる。また、登録された結果は、所定の通信手段を利用して共有化することが可能なので、他の利用者が指標文字登録部９００による処理を実行しなくとも、位置姿勢計測装置１００を利用することができる。

［実施例４］
本実施例では、上記の実施例において説明した位置姿勢計測装置を複合現実感提示システムとしての頭部装着型装置（ＨＭＤ＝ＨｅａｄＭｏｕｎｔｅｄＤｉｓｐｌａｙ）１０００に適用した場合について説明する。図１０は、位置姿勢計測装置１００を頭部装着型装置（ＨＭＤ＝ＨｅａｄＭｏｕｎｔｅｄＤｉｓｐｌａｙ）１０００に適用した場合の一例を示す図である。

ＨＭＤ１０００は、撮像装置１０１、姿勢検出センサ１００２、及び、表示器１００１を有する。ＨＭＤ１０００を装着したユーザーは現実空間内を移動可能である。撮像装置１０１は現実空間を撮像し、撮像した画像を表す信号を位置姿勢計測装置１００へ出力する。姿勢センサ１００２も位置姿勢計測装置１００に接続されており、振動ジャイロなどの原理に基づいて、ＨＭＤ１０００の重力方向に対する傾斜角を計測する。表示器１００１は、画像を表示することのできる表示器であり、通常は右目用、左目用の２つの表示器から構成される。

位置姿勢計測装置１００には、仮想物体合成装置１００３が接続されている。この仮想物体合成装置１００３は、位置姿勢計測装置１００より出力された撮像装置１０１の位置姿勢を基に、現実空間に重畳する仮想物体の三次元的な描画を行って撮像装置１０１の撮像画像データと合成して出力する装置である。例えば、グラフィックス描画装置を有するコンピュータでも実現できる。

なお、本実施例においては、撮像装置１０１、姿勢センサ１００２及び表示器１００１が、それぞれ固定的に配置されたＨＭＤ１０００を例として説明する。但し、撮像装置１０１と姿勢センサ１００２とが固定された位置関係を有していればよく、必ずしも表示器１００１は他の２つに対して固定的に配置されていなくてもよいし、ＨＭＤ１０００内に内蔵されていなくてもよい。

図１１は、図１０に示した模式図に対応する機能構成の一例を示す図である。撮像装置１０１の姿勢を検出する姿勢計測装置１００２は、重力方向に対する傾斜角度を検出する。文字指標検出部２００と位置姿勢推定部５００とにおいて、姿勢計測装置１００２からの出力を補助的に用いることができる。これにより、例えば現実空間に配置されている掲示物の文字配列や配置の多くが、重力方向に対して垂直に設置されているという事実を処理の中で利用することにより、回転などに対する推定を容易に行える。また、上述の推定文字領域において文字検出を見失った場合でも、撮像装置１０１の姿勢の変化分を求めることにより、推定範囲を精度良く求めるのに効果的である。

仮想物体合成装置１００３は、位置姿勢推定装置１００から撮像画像データと位置姿勢に関する信号を受信する。仮想物体合成装置１００３は、仮想物体生成部１１００１と、仮想物体合成部１１０２とを有している。仮想物体生成部１１０１では、位置姿勢に合った仮想物体の描画を生成する。仮想物体合成部１１０２では、仮想物体生成部１１０１により生成された仮想物体を、撮像画像データと合成し、現実空間の画像と撮像装置の位置姿勢により観測される仮想物体の画像を合成して映像信号として出力する。仮想物体合成装置１００３から出力される映像信号は、ＨＭＤ１０００に付属する表示器１００１に表示して、画像をユーザーが観察することができる。このようにして、位置姿勢計測装置１００を利用して複合現実感による画像をユーザーに対して提示することができる。

［その他の実施例］
なお、実施の一例として上述の構成例を説明したが、撮像装置と位置姿勢計測装置を実施可能な装置があれば良く、本発明の処理構成を携帯電話や携帯型のコンピュータで実施するプログラムという形で処理を実行させても同じ効果が得られる。さらに、位置姿勢の計測結果を利用して、近隣の施設や場所に関する情報を提示するような２次的なサービスを実施することも可能である。

尚、前述した実施例の機能を実現するソフトウェアのプログラムを、記録媒体から直接、或いは有線／無線通信を用いて当該プログラムを実行可能なコンピュータを有するシステム又は装置に供給し、そのシステム或いは装置のコンピュータが該供給されたプログラムを実行することによって同等の機能が達成される場合も本発明に含む。

従って、本発明の機能処理をコンピュータで実現するために、該コンピュータに供給、インストールされるプログラムコード自体も本発明を実現するものである。つまり、本発明の機能処理を実現するためのコンピュータプログラム自体も本発明に含まれる。

その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実現されるプログラム、ＯＳに供給するスクリプトデータ等、プログラムの形態を問わない。プログラムを供給するために記録媒体としては、例えば、フレキシブルディスク、ハードディスク、磁気テープ等の磁気記録媒体、ＭＯ、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷ、ＤＶＤ−ＲＯＭ、ＤＶＤ−Ｒ、ＤＶＤ−ＲＷ等の光／光磁気記録媒体、不揮発性の半導体メモリなどがある。

有線／無線通信を用いたプログラムの供給方法としては、コンピュータネットワーク上のサーバに本発明を形成するコンピュータプログラムそのもの、もしくは圧縮され自動インストール機能を含むファイル等、クライアントコンピュータ上で本発明を形成するコンピュータプログラムとなりうるデータファイル（プログラムデータファイル）を記録し、接続のあったクライアントコンピュータにプログラムデータファイルをダウンロードする方法などが挙げられる。この場合、プログラムデータファイルを複数のセグメントファイルに分割し、セグメントファイルを異なるサーバに配置することも可能である。

つまり、本発明の機能処理をコンピュータで実現するためにプログラムデータファイルを複数のユーザに対してダウンロードさせるサーバ装置も本発明に含む。また、本発明のプログラムを暗号化してＣＤ−ＲＯＭ等の記録媒体に格納してユーザに配布し、所定の条件を満たしたユーザに対して暗号化を解く鍵情報を、例えばインターネットを介してホームページからダウンロードさせることによって供給し、その鍵情報を使用することにより暗号化されたプログラムを実行してコンピュータにインストールさせて実現することも可能である。

また、コンピュータが読み出したプログラムを実現することによって、前述した実施例の機能が実現される他、そのプログラムの指示に基づき、コンピュータ上で稼働しているＯＳなどが、実際の処理の一部または全部を行い、その処理によって前述した実施例の機能が実現され得る。

さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるＣＰＵなどが実際の処理の一部または全部を行い、その処理によっても前述した実施例の機能が実現され得る。

位置姿勢計測装置１００を撮像装置１０１に適用した一例示す模式図である。撮像装置１０１と接続された場合の位置姿勢計測装置１００の機能構成の一例を示す図である。文字検出処理の一例を示すフローチャートである。撮像画像データ中に存在する各輪郭線閉曲線に対して、外接四角形を設定する手法説明するための図である。実施例２において、撮像装置１０１が文字を含む領域１０２を斜めから撮影している場合の、文字の歪みを解消するための手法を説明するための図である。実施例２における文字検出処理の一例を示すフローチャートである。指標情報算出部４００における処理を説明するための、指標の具体例及び該指標を撮像して得られた撮像画像データの一例を示す図である。指標情報算出部４００における処理の一例を示すフローチャートである。実施例３において、未登録の文字に関する情報を登録する指標文字登録部９００を位置姿勢計測装置１００が有する場合の構成の一例を示す図である。実施例４において、位置姿勢計測装置１００を頭部装着型装置（ＨＭＤ）１０００に適用した場合の一例を示す図である。図１０に示した模式図に対応する機能構成の一例を示す図である。

Claims

現実空間に配置された文字領域について、文字領域を特定するための情報および位置情報とを保持する保持手段と、
前記現実空間を撮像装置により撮像して得られた第1の撮像画像データから、前記保持手段に保持されている文字領域を特定するための情報を用いて、文字領域を検出する検出手段と、
前記検出手段により検出された文字領域の前記第１の撮影画像データにおける画像位置情報と、前記保持手段に保持されている、該検出された文字領域に対応する位置情報とに基づき、前記撮像画像データ撮像時の前記撮像装置の位置姿勢を推定する推定手段と
を備えることを特徴とする位置姿勢測定装置。
前記検出手段は、
前記撮影画像データから文字領域を検出する文字領域検出手段と、
前記検出された文字領域から、該文字領域に対応する指標の前記画像位置情報を検出する画像位置情報検出手段と
を有することを特徴とする請求項１記載の位置姿勢測定装置。
前記文字領域検出手段は、
前記撮像画像データ中の輪郭線を抽出する輪郭線抽出手段と、
前記輪郭線から文字候補領域を設定する設定手段と、
前記文字候補領域の大きさを正規化する正規化処理手段と、
前記正規化された文字候補領域に対して文字認識処理を行う文字認識処理手段と
を備えることを特徴とする請求項２に記載の位置姿勢測定装置。
前記文字領域が、前記現実空間内に配置された掲示物に含まれる場合に、
前記保持手段は、前記文字に関連する情報として、前記掲示物における前記文字領域の周辺の画像情報を保持し、
前記検出手段は更に、前記文字領域の周辺の画像情報を利用して前記文字領域の検出を行うことを特徴とする請求項１乃至３のいずれかに記載の位置姿勢測定装置。
前記検出手段は、
前記撮像装置により直近に撮像して得られた撮像画像データにおいて検出された文字領域の位置情報を保存する保存手段と、
前記保存されている位置情報に基づいて、前記第１の撮像画像データにおける前記文字領域に対応する画像領域を推定する領域推定手段と
を有することを特徴とする請求項１乃至４のいずれかに記載の位置姿勢測定装置。
さらに、前記保持手段に未登録の文字領域に関する位置情報を、異なる視差画像を利用して算出し、該未登録の文字領域の画像データと共に前記保持手段に登録する登録手段を備えることを特徴とする請求項１乃至５のいずれかに記載の位置姿勢測定装置。
撮像装置と、
請求項１乃至６のいずれかに記載の位置姿勢測定装置と、
前記撮像装置において現実空間を撮像して得られた撮像画像データと、前記撮像画像データに基づいて推定された前記撮像装置の姿勢位置とに基づき、前記撮像画像データに仮想物体を合成して合成画像データを生成する仮想物体合成手段と、
前記合成画像データを表示する表示手段と
を備えることを特徴とする複合現実感提示システム。
現実空間に配置された文字領域について、文字領域を特定するための情報および位置情報とを保持手段に保持する保持工程と、
前記現実空間を撮像装置により撮像して得られた第1の撮像画像データから、前記保持手段に保持されている文字領域を特定するための情報を用いて、文字領域を検出する検出工程と、
前記検出工程において検出された文字領域の前記第１の撮影画像データにおける画像位置情報と、前記保持手段に保持されている、該検出された文字領域に対応する位置情報とに基づき、前記撮像画像データ撮像時の前記撮像装置の位置姿勢を推定する推定工程と
を備えることを特徴とする位置姿勢測定方法。
コンピュータを請求項１乃至６のいずれかに記載の位置姿勢測定装置として機能させるためのコンピュータプログラム。
請求項９に記載のコンピュータプログラムを記憶したコンピュータで読み取り可能な記憶媒体。