JP7231529B2

JP7231529B2 - 情報端末装置、サーバ及びプログラム

Info

Publication number: JP7231529B2
Application number: JP2019209383A
Authority: JP
Inventors: 晴久加藤
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2019-11-20
Filing date: 2019-11-20
Publication date: 2023-03-01
Anticipated expiration: 2039-11-20
Also published as: JP2021082040A

Description

本発明は、画像から語句の検索結果を得ることのできる情報端末装置、サーバ及びプログラムに関する。

語句を検索してその結果を表示することに関連した技術として例えば特許文献１，２がある。

特許文献１は、詳細な情報を所望する語句の検索において当該語句をキーボード入力ではなく、ユーザのジェスチャ認識により指定された領域から当該語句をOCR（光学文字認識）で文字認識する検索手法を開示している。また、検索結果もジェスチャ認識によって指定された領域へプロジェクタで投影することが開示されている。

特許文献２は、特許文献１と同様にジェスチャ認識によって検索語句の特定及び検索結果提示領域の特定を実現する手法を開示し、特に検索結果の表示面積に応じてプロジェクタによる提示画像を適応的に再構成する手法を開示している。

特開2008-217660号公報特開2013-046151号公報

以上のような従来技術では、現実世界において見える状態となっている語句は未知のものであることを前提とし、OCR等でこの未知の語句を特定していた。語句を記録した媒体である書籍に例示されるように、特定の書籍は特定の記載内容を有しており、現実世界において見える状態となっている語句はその媒体と関連付いていることがあるという点で必ずしも完全に未知のものとはいえないことがあるが、以上のような従来技術ではこの関連性を活用できていないという点で課題を有していた。

上記従来技術の課題に鑑み、本発明は、語句の媒体との関連性を活用して、画像から語句の検索結果を得ることのできる情報端末装置、サーバ及びプログラムを提供することを目的とする。

上記目的を達成するため、本発明は情報端末装置であって、カメラで撮像した撮像画像より撮像対象を認識し、且つ、当該撮像対象の前記カメラを基準とした位置姿勢を推定する推定部と、前記認識された撮像対象に表示されている文字列の情報および当該文字列に属する各文字のレイアウト情報を含むテキスト情報を取得し、ユーザより指定される検索語句の該当箇所を当該テキスト情報内より領域情報として求める検索部と、前記領域情報を前記推定された位置姿勢において描画した描画情報を得る描画部と、前記カメラを基準とした前記検索語句の該当箇所として、前記描画情報を表示する提示部と、を備えることを特徴とする。また、情報端末装置及びサーバを備える情報処理システムにおけるサーバであって、前記情報端末装置は推定部及び提示部を備え、前記サーバは検索部及び描画部を備え、前記推定部は、カメラで撮像した撮像画像より撮像対象を認識し、且つ、当該撮像対象の前記カメラを基準とした位置姿勢を推定し、前記検索部は、前記認識された撮像対象に表示されている文字列の情報および当該文字列に属する各文字のレイアウト情報を含むテキスト情報を取得し、ユーザより指定される検索語句の該当箇所を当該テキスト情報内より領域情報として求め、前記描画部は、前記領域情報を前記推定された位置姿勢において描画した描画情報を得て、前記提示部は、前記カメラを基準とした前記検索語句の該当箇所として、前記描画情報を表示することを特徴とする。また、コンピュータを前記情報端末装置として機能させるプログラムであることを特徴とする。

本発明によれば、撮像画像より撮像対象を認識したうえで、撮像対象に表示されている文字列の情報および当該文字列に属する各文字のレイアウト情報を含むテキスト情報を取得して当該テキスト情報より検索語句を検索し、検索結果を描画情報として提示することにより、語句の媒体との関連性を活用して、画像から語句の検索結果を得ることができる。

一実施形態に係る情報端末装置の機能ブロック図である。情報端末装置における各部の処理を説明するための、処理される各データの模式例を示す図である。第一記憶部が記憶しておく情報の模式例を示す図である。第二記憶部が上記憶しておく、１つのテキスト情報の模式例を示す図である。一部分のみのテキスト情報を検索対象とすることを説明する模式例を示す図である。撮像画像の範囲を超えた位置での描画情報の重畳の例を、図２の拡張現実表示に対応する例として示す図である。提示部において拡張現実表示を表示する画面領域の区分けの例を示す図である。別ページに検索語句のヒット箇所が存在する旨を表示する態様の例を示す図である。別ページに検索語句のヒット箇所が存在する旨を表示する態様の例を示す図である。図１の構成の変形例の一例として情報処理システムの構成を示す図である。一般的なコンピュータにおけるハードウェア構成例を示す図である。

図１は、一実施形態に係る情報端末装置の機能ブロック図である。図示されるように情報端末装置10は、撮像部1、推定部2、検索部3、描画部4、提示部5、記憶部6及び受付部7を備え、データベースである記憶部6はさらに第一記憶部61及び第二記憶部62を備える。情報端末装置10としてはスマートフォンやスマートグラス等の携帯端末を利用することができるが、撮像部1を備えたものであればどのような装置や機器等を利用してもよい。例えば、デスクトップ型、ラップトップ型またはその他のコンピュータなどでもよい。

なお、情報端末装置10のうち撮像部1及び提示部5を除いた、推定部2、検索部3、描画部4、第一記憶部61、第二記憶部62及び受付部7の全てまたはその任意の一部分を、情報端末装置10には備わらない外部構成とする、例えば、一台以上のサーバにおいてその機能を実現させる構成とすることもできる。この場合、当該外部構成で実現された各部と情報端末装置10との間で、以下説明する処理において必要となる情報の授受をネットワーク等経由によって行うようにすればよい。

図１内にも示される通り、各部の概略的な機能は以下の通りである。

撮像部1はユーザU（情報端末装置10を利用するユーザ）による撮像操作によって撮像を行い、得られた撮像画像を推定部2及び提示部5へと出力する。推定部2は、撮像部1より得た撮像画像に対して認識処理及び姿勢推定処理を適用し、撮像画像に撮像されている対象を特定した結果を対象情報として検索部3へと出力し、且つ、撮像部1を基準としたこの特定された対象の位置姿勢の情報を姿勢情報として描画部4へと出力する。推定部2ではこの撮像対象の認識処理及びその位置姿勢の推定処理を行うために、第一記憶部61に記憶されているリファレンスとしての複数の対象のそれぞれに関する特徴情報を参照して利用する。

受付部7はユーザUより検索入力を受け付けて、この検索入力で検索対象として指定された語句情報を検索部3へと出力する。検索部3では、推定部2で認識された対象情報に応じたテキスト情報を第二記憶部62より読み込み、このテキスト情報の中から受付部7より得た語句情報を検索して、検索結果としての領域情報を描画部4へと出力する。描画部4では検索部3より得た領域情報（正面で見た状態にある）に対して、推定部2で得た姿勢情報を反映することで、正面で見た状態にある領域情報を推定部2が推定した位置姿勢で見た状態において描画した描画情報を得て、この描画情報を提示部5へと出力する。提示部5では、撮像部1で得た撮像画像に描画部4で得た描画情報を重畳したものを、検索結果を表す拡張現実表示としてユーザUに対して提示する。

以上のような情報端末装置10の各部の処理によって、ユーザUの立場では次のような検索におけるユーザ体験が提供されることとなる。すなわち、ユーザUが受付部7に対して検索入力として語句を入力すると、ユーザUの撮像操作により撮像部1で撮像した撮像画像の中からこの語句が自動検索され、撮像画像内におけるこの語句の検索結果が撮像画像に対して拡張現実表示されたものとして提示部5が出力し、この検索結果をユーザUが視認により確認することが可能となる。なお後述するように一実施形態では、検索入力した語句は撮像画像に撮像されている範囲内から逸脱していたとしても（すなわち、フレームアウトしていたとしても）、検索結果としてヒットさせることが可能である。

上記のように、情報端末装置10を有するユーザUがその場（ユーザUが存在する現場）において撮像を行い、拡張現実表示としての検索結果をその場において得る用途の場合には、撮像部1及び提示部5が情報端末装置10に備わっている必要があるが、このような用途以外では撮像部1及び／又は提示部5は情報端末装置10に備わらない外部構成であってもよい。例えばネットワーク上で入手した画像を（外部構成としての撮像部1で撮像した撮像画像とみなして）推定部2及び提示部5に対して入力してもよい。

また、以上のような情報端末装置10の各部の処理は各時刻t（所定の処理レートにおける各時刻t=1,2,3,…）においてリアルタイムに実施することで、撮像部1において映像の各時刻tのフレーム画像として撮像画像を得て、提示部5においてリアルタイムの映像として検索結果を拡張現実表示させることも可能である。以下、情報端末装置10の各部の処理の詳細について説明するが、特段の断りがない限りある１つの時刻tに関する処理についての説明であるため、原則として時刻tに関連した言及は省略するものとする。なお、第一記憶部61及び第二記憶部62の詳細は、これを参照した処理を行う推定部2及び検索部3のそれぞれの説明と共に行う。

（撮像部1）
撮像部1は、所定の撮像対象を撮像して、その撮像画像を推定部2及び提示部5へと出力する。撮像部1を実現するハードウェアとしては例えば、昨今の携帯端末に標準装備されることの多いデジタルカメラを用いることができる。ユーザUによる撮像操作（カメラを撮像対象に対して向ける操作など）により、撮像対象は任意の位置姿勢から撮像部1で撮像され撮像情報が取得される。撮像対象は書籍や新聞、カタログ等といった印刷物などの、紙面上に文字を記録した物理的な媒体を想定して説明するが、撮像対象がプロジェクタによって壁面などに投影される文章や画像などである場合でも本実施形態は適用可能である。

図２は、情報端末装置10における各部の処理を説明するための、処理される各データの模式例を示す図である。図２では左下に撮像部1が撮像する撮像画像Pの例が、撮像対象として印刷物の紙面を斜めで撮影した状態にあるものとして示されている。なお、以下の説明においても適宜、この図２に示される共通の模式例を参照する。

（推定部2及び第一記憶部61）
推定部2は、撮像部1で撮像された撮像画像に認識処理を適用することによって撮像対象を特定するとともに、当該特定結果に基づいて撮像対象と撮像部1との相対的な位置姿勢を推定する。推定部2において当該特定された撮像対象の情報は対象情報として検索部3へ、当該推定された位置姿勢は姿勢情報として描画部4へと出力される。

ここで、特定対象となる撮像対象については、一つ以上の所定対象を予め設定しておき、その画像上における特徴情報を事前に抽出した上で第一記憶部61に記憶しておく。推定部2では第一記憶部61を参照して撮像対象の認識及び撮像対象の位置姿勢の推定を行う。図３は、第一記憶部61が当該記憶しておく情報の模式例を示す図であり、n個（n≧1）の所定の撮像対象について、これを撮像した画像P(1),P(2),…,P(n)よりそれぞれ、その特徴情報F(1),F(2),…,F(n)を予め抽出し、第一記憶部61ではこの各特徴情報F(1),F(2),…,F(n)を記憶しておく。また、画像P(1),P(2),…,P(n)の画像平面座標(u,v)における撮像対象の領域R(1),R(2),…,R(n)も第一記憶部61は記憶しておく。（画像P(1),P(2),…,P(n)の範囲がそのまま領域R(1),R(2),…,R(n)に一致するように画像P(1),P(2),…,P(n)を用意して特徴情報F(1),F(2),…,F(n)を抽出し、領域R(1),R(2),…,R(n)の情報と共に第一記憶部61に記憶しておけばよい。）図３では撮像対象の例として印刷物（例えば書籍の各ページ等）が模式的に示されている。このように、印刷物等の平面で構成される撮像対象を正面で撮影した画像より特徴情報を抽出し、範囲の情報と共に第一記憶部61において記憶しておけばよい。

なお、各撮像対象は、語句検索の対象となるテキスト以外のイラストや写真なども含んだ印刷物等であってよく、特徴情報F(1),F(2),…,F(n)を予め抽出するための画像P(1),P(2),…,P(n)は、こうしたテキスト以外の構成も含めて撮像されたものであってよい。

推定部2では、撮像画像Pより特徴情報Fを抽出し、当該予め登録されているn個の特徴情報F(1),F(2),…,F(n)との間で照合することにより、撮像画像Pに撮像されている撮像対象を当該n個の中から特定するとともに、相対的な位置姿勢を推定する。

推定部2で抽出する画像に対する特徴情報としては、周知のSIFT特徴量又はSURF特徴量等のような、回転及び拡大縮小あるいは射影輝度変化のいずれか又はその任意の組み合わせに不変な性質を有し、画像の局所領域における相対的な輝度勾配に基づいて算出される局所特徴量を用いることができる。SIFT特徴量は以下の非特許文献１に、SURF特徴量は以下の非特許文献２に、それぞれ開示されている。

[非特許文献１] 「D.G.Lowe, Distinctive image features from scale-invariant key points, Proc. of Int. Journal of Computer Vision (IJCV), 60(2) pp.91-110 (2004)」
[非特許文献２] 「H.Bay, T.Tuytelaars, and L.V.Gool, SURF: Speed Up Robust Features, Proc. of Int. Conf. of ECCV, (2006)」

また、推定部2において撮像対象を特定する際の当該特徴情報同士の照合についても、画像認識分野における周知の各手法（例えば幾何検証など）を利用することができ、リファレンスとして第一記憶部61が記憶するn個の撮像対象（それぞれ特徴情報F(1),F(2),…,F(n)を有する）のうち、撮像画像Pより抽出されるクエリとしての特徴情報Fに最も類似している特徴情報を有している撮像対象を、認識結果として特定することができる。さらに、予め登録しておく撮像対象の特徴情報における画像上の座標情報と、撮像情報より抽出され照合された特徴情報の撮像情報上における座標情報と、を互いに変換する平面射影変換の関係を求めることで、推定部2は撮像対象と撮像部1との間の相対的な位置姿勢を推定することができる。当該位置姿勢の推定についても、前掲の非特許文献１その他に開示された画像認識分野やコンピュータグラフィックス分野における周知の各手法を利用することができる。（例えば幾何検証であれば、特徴情報同士の照合と共に位置姿勢推定も行うことができる。）

周知のように、推定される位置姿勢は平面射影変換の行列として表現することが可能であり、この位置姿勢は撮像部1を構成するカメラの外部パラメータに相当し、撮像画像における撮像対象の位置姿勢をこのカメラの３次元カメラ座標系において表現したものに相当する。

図２の例では、左下に示す撮像画像Pに撮像されている撮像対象が、図３に示すn個の撮像対象のうちi番目（1≦i≦n）の対象であるものとして認識されたものとし、左上にこのi番目の撮像対象に関して第一記憶部61が記憶している特徴情報F(i)が示されている。（この特徴情報はi番目の撮像対象が正面の状態で撮影された画像P(i)より抽出され、i番目の撮像対象は領域R(i)を有する。）図２の左上と左下との関係に模式的に示されるように、当該認識結果に基づき、正面で見ている状態の画像P(i)を撮像画像Pの状態に変換する平面射影変換行列Hとして、推定部2では位置姿勢を推定することができる。

推定部2が推定して検索部3へと出力する対象情報は、以上のようにしてリファレンスとなるn個の撮像対象のうちi番目（1≦i≦n）の対象が認識されて特定された旨の情報に加えて、撮像画像Pにおいてこの特定された撮像対象が占める範囲Rの情報も含むものである。図２の左下に示す撮像画像Pではこの範囲Rの模式例が、カメラに正対する状態では矩形（長方形）の領域R(i)をなす形状が、カメラに対して斜めの位置姿勢にあることで歪んだ状態にあるものとして示されている。範囲Rは、撮像画像Pの２次元画像平面座標(u,v)上で定義される範囲として得ることができるものであり、後段側の検索部3及び描画部4の処理においても、この範囲Rの情報が利用される。

推定部2が範囲Rの情報を推定可能なように、図３で既に説明した通り、第一記憶部61ではリファレンスとなるn個の撮像対象を正対状態で撮像した画像P(1),P(2),…,P(n)においてそれぞれ、撮像対象である印刷物等の矩形状の紙面が占める範囲R(1),R(2),…,R(n)も記憶しておき、推定部2に対してこの範囲の情報を提供すればよい。（なお、記憶しておく特徴情報F(1),F(2),…,F(n)に含まれる各特徴点の座標はこの範囲内に位置するものとなる。）i番目の撮像対象が認識結果として特定された場合であれば、推定部2は以下の式(1)に示されるように、記憶されている正対状態での矩形状の範囲R(i)に平面射影変換行列H（推定された位置姿勢に対応する行列H）を適用して変換した範囲として範囲Rを得ることができる。
R=H・R(i) …(1)

（受付部7）
受付部7は、ユーザUが入力する検索語句を受け取り語句情報として検索部3へ出力する。一実施形態では受付部7を実現するハードウェアとしては携帯端末に標準装備（あるいは外部機器として接続）されるキーボードやタッチパネル等を用いることができる。なお、このキーボードは、タッチパネルとして構成されるディスプレイ上に表示されるソフトウェアキーボードであってもよい。あるいは、事前に検索語句をメニューから選択される項目として設定しておくことで、当該キーボード等による入力に代えてメニュー内からの選択入力で検索語句を受け取ってもよい。入力された語句をユーザUが確認できるように、提示部5に語句情報を随時提示してもよい。（なお図１では、この場合における受付部7から提示部5へと語句情報を出力する流れを表す矢印は、描くのを省略している。）

以上のようにキーボード等の入力として受付部7で検索語句を受け取る場合は、既に語句情報の形式（コンピュータが解釈可能な周知の文字コードの形式）で検索語句が得られているため、そのまま検索部3へと出力してよい。一方、別の実施形態では受付部7を実現するハードウェアとして、携帯端末に標準装備されるマイク等を用い、さらに音声認識処理を適用して語句情報を得るようにしてもよい。すなわち、受付部7ではユーザUが発する音声の録音データから検索語句を認識することで語句情報を得て、検索部3へと出力するようにしてもよい。同様に、デジタイザ（ペン入力機器）を用いたディスプレイ上への手書き入力により手書き文字として検索語句を受け取ることで受付部7を実現し、OCR等の文字認識を適用して検索語句へと変換して検索部3へと出力してもよい。その他、ユーザから語句入力を受け取るための任意の既存のインタフェースを用いて受付部7を実現してもよい。

（検索部3及び第二記憶部62）
検索部3は、推定部2から対象情報を入力し、また受付部7から語句情報を入力することで、当該入力された対象情報及び語句情報に応じたテキスト情報を第二記憶部62から読み出して領域情報を生成し、当該領域情報を描画部へ出力する。

以上の説明と同様に、推定部2においてn個のうちi番目の撮像対象が認識されたとする。第二記憶部62では、第一記憶部61がn個の特徴情報F(1),F(2),…,F(n)を記憶しているのと同一のn個の撮像対象について、それぞれの撮像対象（印刷物等）に記載されているテキスト情報T(1),T(2),…,T(n)（図２、３に不図示）を予め記憶している。これらテキスト情報T(1),T(2),…,T(n)は、第一記憶部61がその特徴情報を記憶しているn個の撮像対象（物理的な媒体）の矩形状の範囲R(1),R(2),…,R(n)内にそれぞれ印刷などの手段によって物理的に記録されたテキスト（テキスト内の各文字のフォントなどの描画表現は様々なものを取りうる）を、コンピュータが解釈可能な文字コード形式によって記憶しておくものである。

そして、第二記憶部62が記憶しておくn個の撮像対象に記載されている各テキスト情報T(k)(k=1,2,…,n)は、テキスト情報（各文字の現れる順番を含む文字列としての情報）及びこれを構成する各文字が撮像対象上に配置されているレイアウト情報を含むものとして予め用意しておき、記憶されるものである。すなわち、各テキスト情報T(k)は、これを構成するN(k)個の文字列(c_1,c_2,…,c_N(k))の情報と、そのj番目（j=1,2,…,N(k)）の文字c_j（コンピュータが解釈可能な文字コードで指定される文字c_j）が、物理媒体としての撮像対象の全体範囲R(k)（印刷物であれば紙面の範囲）内において占める範囲r(c_j)の情報と、を含んで構成され、予め第二記憶部62に記憶されている。

図４は、第二記憶部62が上記のように記憶しておく、１つのテキスト情報T(k)の模式例を示す図であり、その全体範囲R(k)は横幅W及び縦幅Hの矩形で構成され、全部でN(k)個ある文字列のうちの最初の5文字の例としてA,l,i,c,eがそれぞれ占める範囲（矩形状範囲）がr1,r2,r3,r4,r5として示されている。第二記憶部62が記憶しておく範囲R(k)は第一記憶部61で記憶しているものと同一である。（なお、模式例として6文字目以降は図４では描くのを省略しているが、6文字目以降についても同様に文字の情報とその範囲の情報とを定義しておくことができる。）これら範囲r1,r2,r3,r4,r5は、全体範囲R(k)内での相対的な位置及びサイズによって定義される範囲として、例えばその左上頂点ULを基準とした相対的な位置（例えば矩形r1,r2,r3,r4,r5の左上座標）及びその横幅W及び縦幅Hを基準とした相対的なサイズ（例えば矩形r1,r2,r3,r4,r5の横幅及び縦幅）の形式で、第二記憶部62に予め記憶しておいてもよい。

検索部3では、上記のようなテキスト情報T(1),T(2),…,T(n)を予め記憶している第二記憶部62を参照することで、推定部2で認識されたi番目の撮像対象に対応するテキスト情報T(i)を取得し、このテキスト情報T(i)の文字列の中から、受付部7より入力された検索語句に一致する箇所を検索し、当該一致する箇所の文字列に関するテキスト情報T(i)における領域情報を、描画部4へと出力する。従って、第二記憶部62に関して上記説明した通り、検索部3より描画部4へと出力される領域情報は、推定部2で認識されたi番目の撮像対象が占める範囲R(i)内において定義される範囲の情報となる。

図２の例では、検索部3が描画部4へと出力する領域情報の模式例が中央上及び右上に領域情報R1(i)及びR2(i)として、撮像対象の範囲R(i)内で定義されるものとして示されている。中央上の領域情報R1(i)は、認識されたi番目の撮像対象を正面で撮影した画像P(i)（図２の左上に示す画像P(i)）上に重畳させて、検索部3の検索結果としての領域情報に該当する箇所をグレー色で塗って示すものであり、右上の領域情報R2(i)は、画像P(i)に対して重畳させることなく、範囲R(i)内において当該グレー色で塗った部分だけを抜粋して示すものである。（検索部3が出力する領域情報としては、右上の領域情報R2(i)の方が正確であるが、テキスト情報T(i)における文字列との関連をより明確化するために、画像P(i)に対して重畳した状態で表現されるものとして中央上の領域情報R1(i)も併せて示している。）この領域情報R1(i)又はR2(i)としてグレー色で示される模式例としての領域情報は、受付部7で「Alice」という語句（人名）を検索語句として入力した場合のヒット箇所の例となっており、合計で５箇所がこの語句にヒットしていることを見て取ることができる。

（描画部4）
描画部4は、検索部3で得た領域情報を、推定部2で推定した姿勢情報を反映させた状態として描画した描画情報を得て、この描画情報を提示部5へと出力する。図２等の説明例を用いて既に説明したように、検索部3で得た領域情報R2(i)（あるいはR1(i)）は推定部2で認識されたi番目の撮像対象を正対状態で見た際の領域R(i)内において検索語句がヒットした部分領域（R2(i)⊂R(i)）であり、式(1)と同様に、推定部2で推定した姿勢情報を表す平面射影変換行列Hで領域情報R2(i)を変換することで以下の式(2)のように、描画部4において、撮像部1を構成するカメラの２次元画像座標(u,v)上での描画情報P2(i)を得ることができる。この式(2)による変換の模式例は図２の右上及び右下に示される通りである。
P2(i)=H・R2(i) …(2)

描画部4で得る描画情報P2(i)は、式(2)で定義される領域（撮像部1を構成するカメラの２次元画像座標(u,v)上の領域）の情報に加えて、次の提示部5で領域として表示する際の所定の表示態様の情報も含むものである。この表示態様は、受付部7に入力した検索語句の領域を視認可能とする任意の態様でよく、例えば、当該定義される領域でのマスク画像として、所定色の透過画像を用いることで、検索語句の領域をハイライト表示するものであってよい。

（提示部5）
提示部5は、撮像部1で得た撮像画像に描画部4で得た描画情報を重畳することにより、受付部7に入力した検索語句の領域を視認可能に表示した拡張現実表示を生成し、この拡張現実表示をユーザUに対して表示することにより、検索結果を提示する。

図２の例では中央下に、提示部5が撮像画像Pに領域情報P2(i)を重畳することで得られる拡張現実表示ARDの例が示されており、領域Rとして斜めの状態で撮像されている撮像対象の紙面上において、検索語句である「Alice」のヒット箇所がハイライト表示されている様子を見て取ることができる。

以上、本発明の一実施形態によれば、データベースとして事前に構築しておく第二記憶部62において撮像対象ごとのテキスト情報を利用して検索を実施するので、従来では活用されていなかった撮像対象とテキスト情報との関連性を活用した検索が可能となる。この際、検索部3による語句検索の前処理として推定部2で撮像対象を認識する処理には局所画像特徴情報などを用いることができ、テキスト自体を撮像画像から直接に認識する処理を用いることなく、高速にテキスト内の語句の検索結果を得ることができる。（例えば、撮像画像における撮像対象が、これに記録されているテキストをOCR等で認識するためには解像度が不足しているような状態で撮像されていたとしても、推定部2において撮像対象が認識できさえすればそのテキスト内の語句検索が可能となる。）さらにこの際、図２の拡張現実表示ARDに示されるように撮像部1の姿勢情報を反映して検索結果を拡張現実表示することで、ユーザUに対して検索結果の該当箇所を容易に直感的に把握させることが可能となる。

以下、種々の補足説明や、本発明の変形的あるいは追加的な各実施形態に関する説明を行う。

（１）以上の説明と同様に推定部2ではn個の撮像対象のうちi番目の撮像対象が認識結果として得られたものとし、検索部3でこれに対応するテキスト情報T(i)内から受付部7より得られる検索語句を検索する際には、テキスト情報T(i)の全体ではなく、撮像部1で得た撮像画像Pに撮像されている範囲内にあるテキストのみを検索対象としてもよい。

図５はこのように一部分のみのテキスト情報を検索対象とすることを説明する模式例を、図２の左上の撮像対象P(i)及び左下の撮像画像Pの場合からの変形例として示すものである。図２での撮像画像Pは撮像対象の全体範囲Rを捉えた状態にあるが、図５の下側の例ではこれを上半分領域A1及び下半分領域A2に分けており、図５の例において撮像画像が撮影している範囲は上半分領域A1を含むが、下半分領域A2は含まないものとする。

この場合、式(1)で定まる撮像対象の全体範囲Rのうち撮像範囲の上半分領域A1（撮像画像の範囲として既知となる）に該当する撮像範囲内領域R1を積集合演算「R1=R∩A1」として求め、推定部2で求めた姿勢情報を表す平面射影変換行列Hの逆行列H^-1を乗ずることによって、第二記憶部62がテキスト情報T(i)を記憶している範囲R(i)全体のうち、撮像範囲内領域R1に該当する領域B1を以下の式(3)のように求めることができる。検索部3ではテキスト情報T(i)の全体のうち、この領域B1内にある文字のみを検索対象とすればよい。（図４等で説明したようにテキスト情報T(i)内の文字列の各文字は領域情報を有するため、領域B1内にあるか否かを判定することができる。）領域B1とその外部の領域B2（B2=R(i)＼B1）との境界上にある文字は検索対象から除外してもよいし、検索対象に含めてもよい。
B1= H^-1・R1 …(3)

なお、式(3)と同様に、撮影範囲外にある下半分領域A2に含まれる撮像対象の領域R2（R2=R∩A2）に関して、以下の式(4)の関係も成立する。以上の説明は図５の例に合わせて上半分領域A1及び下半分領域A2として説明したが、上半分及び下半部という位置関係によらず同様の説明が成立する。すなわち、領域A1は撮像画像に撮像されている範囲であり、領域Rのうち領域A1内にあるものが領域R1に該当し、領域A2は撮像範囲に撮像されていない範囲であり、領域Rのうち領域A2内にあるものが領域R2に該当するとして、同様の説明が成立する。
B2= H^-1・R2 …(4)

（２）情報端末装置10を利用して語句検索を行うユーザUの体験上において上記（１）とは逆傾向となる手法として、次も可能である。すなわち、撮像部1で得た撮像画像に対して推定部2で撮像対象の認識に成功した場合、上記（１）を適用しない限りその全てのテキスト情報T(i)が検索部3による検索対象となる。ここで一般に、撮像画像の範囲内において撮像対象に記録された全てのテキスト情報T(i)の文字列が撮影されているとは限らない。（例えば、撮像対象は印刷物であってそのイラストや写真の部分のみが撮像画像に撮像されて推定部2により認識に成功したが、テキスト部分は全く撮像されていないこともありうる。）テキスト情報T(i)の文字列の全て又は一部が、撮像画像に撮像されている範囲の外部に逸脱している（フレームアウトしている）場合もありうる。ここで、描画部4における描画情報の生成は、撮像画像の画像平面座標(u,v)（撮像部1のカメラの画像平面座標）において行われるが、当該生成された描画情報は撮像画像の範囲を超えている場合もありうる。従って、描画情報が撮像画像の範囲を超えている場合は、提示部5において撮像画像に対して重畳する場合も、当該座標(u,v)において撮像画像の範囲を超えた位置に重畳させるようにして、拡張現実表示を提供するようにしてよい。

図６は上記のように撮像画像の範囲を超えた位置での描画情報の重畳の例を、図２の拡張現実表示ARDに対応する例として示す図である。図６に示す拡張現実表示ARD2は、その上側領域C1は撮像画像の範囲内であり、下側領域C2は撮像画像の範囲外であるが、撮像対象の範囲Rは上側領域C1及び下側領域C2の両方に渡っている。この場合、上側領域C1では撮像画像に描画情報h1,h2を重畳して表示し、下側領域C2では撮像画像は存在しないが、対応する位置に描画情報h3,h4,h5のみを表示すればよい。これら５つの描画情報h1～h5は図２の例で説明したように検索語句「Alice」の該当箇所である。

図７は提示部5において拡張現実表示を表示する画面領域の区分けの例を示す図である。図７に示すように、提示部5において拡張現実表示を表示するための画面領域の全体D1及びその内部領域D2を予め定義しておき、内部領域D2には撮像部1で得る撮像画像が配置されるようにして、図６の例のように描画情報の一部又は全部が内部領域D2からフレームアウトした場合は、フレームアウトした旨が明確になるようにしてもよい。（ここで、内部領域D2は撮像画像と同じアスペクト比で形成し、撮像画像を配置すればよい。この際、解像度変換がなされてもよい。）この図７のような表示態様（撮像画像を配置して表示する内部領域D2と全体領域D1を区別して表示する態様）により、提示部5では、複数の領域で構成されうる描画情報を表示するに際して、撮像画像の範囲の内部にあるか外部にあるかで、区別した表示（ユーザUが視認して区別できる表示）を行うようにしてもよい。内部領域D2の外にある枠状の領域「D1＼D2」（ここで「＼」は差集合を表す）は例えば一定色の無地の領域（各時刻tでの映像の場合、変化しない静止画の領域）とすることで、撮像画像が配置される内部領域D2と視認上明確に区別されるようにしてもよい。内部領域D2が明確に認識されるよう、内部領域D2の枠を黒線で囲むなどして明示するようにしてもよい。また、枠状の領域「D1＼D2」よりもさらに外部にフレームアウトした描画情報に関しては、描画を省略してもよい。

上記図７の手法に代えて又は加えて、描画情報は所定の透過色の重畳によりハイライト表示するものとし、撮像画像の範囲の内部か外部かで、この透過色の色を変えて描画部4において描画を行い、（例えば内部の場合は青色で描画し、外部の場合は赤色で描画することで、）これを提示部5で提示してよい。同様に例えば、映像の場合、撮像画像の内部の描画情報は点滅させず、外部の描画情報は点滅させること区別して描画し、提示してもよい。

（３）第二記憶部62に記憶しておくテキスト情報T(1),T(2),…,T(n)は、例えばn個の撮像対象が印刷物である場合の、その電子的な入稿データより自動抽出されるものであってよい。電子的な入稿データの例として、少なくとも文字情報（描画するためのフォント情報も含んでよい）を埋め込んで構成されているPDF（ポータブル文書フォーマット）ファイルによるデータが挙げられる。第二記憶部62と対応して第一記憶部61で記憶しておく特徴情報は、紙に印刷することなく当該電子的な入稿データを描画した画像より抽出してもよいし、紙に印刷した状態を撮像した画像より抽出してもよい。第二記憶部62では、テキスト情報T(1),T(2),…,T(n)が含まれる電子的な入稿データをそのまま記憶しておくことで、テキスト情報T(1),T(2),…,T(n)を検索部3に対して参照可能な状態とするようにしてもよい。

（４）上記電子的な入稿データをB冊（B≧1）の書籍b(bは書籍の識別子であり、b=1,2,…,B)の各ページp（pはページ番号であり、順番通りにp=1,2,…,C(b)（C(b)は書籍bの総ページ数）であるものとし、表紙や背表紙もページに含まれてよいものとする）に関して用意しておくことで、テキスト情報を書籍bのpページ目に関するものT(b,p)を集めたデータベース{T(b,p)}として、第二記憶部62に登録しておいてもよい。同様に、第一記憶部61も特徴情報を書籍bのpページ目の画像（当該ページ全体を画像として描画したもの）から抽出した特徴情報F(b,p)を集めたデータベース{F(b,p)}として用意しておけばよい。（この場合、以上説明してきた登録する撮像対象i=1,2,…,nの総数nは、B冊の書籍の合計ページ数としてn=ΣC(b)となる。）このようにデータベースとしての記憶部6を各書籍bの各ページpの区別を設けて用意しておく場合、当該区別して記憶部6に記憶されている情報を活用することによって次のような実施形態も可能である。（なお、この実施形態は、電子的な入稿データを利用しない場合でも同様に可能であるが、電子的な入稿データを利用する場合は、利用しない場合と比べて記憶部6のデータベースを用意する作業の手間を低減できる。）

説明のため、書籍bのpページ目の区別を問わずに推定部2において撮像対象の認識処理を行う、前述の実施形態を第一実施形態と呼ぶ。

推定部2では、撮像画像に撮像されている撮像対象に関して認識処理を適用し、撮像対象が書籍bのpページ目であることを特定し、この情報を検索部3へと出力できる。検索部3では、第二記憶部62を参照して、当該特定された書籍bのpページ目のテキスト情報T(b,p)以外にも、当該書籍bの全ページのテキスト情報{T(b,q)|q=1,2,…,C(b)}を取得し、受付部7より得られた検索語句の追加検索対象とすることができる。この追加検索対象となるページは、特定されたpページ目以外の別ページの全てとしてもよいし、その一部分のみ（例えば、特定されたpページ目から一定ページ数の範囲内にあるもののみ）としてもよい。

検索部3では、当該特定された書籍bのpページ目と当該書籍bのその他のページと、における検索語句のヒット箇所の領域情報を描画部4へと出力する。描画部4では、当該特定された書籍bのpページ目に関しては第一実施形態と同様に、推定部2で推定された姿勢情報（平面射影変換行列で表わされる）を反映して描画した描画情報を提示部5へと出力するが、pページ目以外の別ページにおける検索語句のヒット箇所の領域情報は、姿勢情報を反映することなくそのまま、提示部5へと出力する。

提示部5は、当該特定された書籍bのpページ目の描画情報を、第一実施形態と同様に、撮像部1で得た撮像画像に重畳して表示する一方、pページ目以外の別ページにおける検索語句のヒット箇所の領域情報を別途の態様で表示する。この表示は、別ページに検索語句のヒット箇所が存在する旨を表示する任意の態様でよく、例えば図８や図９のような表示を用いてよい。

図８に示される拡張現実表示ARD3の例では、図２の中央下に示す拡張現実表示ARDと同様の表示（第一実施形態と同様の表示）を行ったうえでさらに、別ページの検索語句のヒット箇所が存在する旨をテキスト通知TNとして重畳させて表示している。テキスト通知TNは当該特定されたページ（撮像画像の該当ページ）が「現ページ：１頁」であり、検索語句の「Alice」に該当する箇所が他ページの「２頁、３頁、４頁」にも存在する旨をテキストで表現している。

図９に示される拡張現実表示ARD4の例では、図８の例と同じ撮像状態（図２の中央下の拡張現実表示ARDと同じ撮像状態）での図８と同じ検索結果を図８のようにテキスト通知TNとして表示することに代えて、検索語句の「Alice」に該当する箇所が他ページの「２頁、３頁、４頁」にも存在する旨をサムネイル欄THLにおいてそれぞれ、当該各ページでの検索語句のヒット箇所である領域情報をサムネイル表示TH2,TH3,TH4（画像表示）として示している。（サムネイル欄THLを設けることなく、こうしたサムネイル表示TH2,TH3,TH4を撮像画像上の適宜の位置に直接、重畳して表示してもよい。）既に説明した通り、検索部3でテキスト情報内から検索語句の該当箇所を検索した領域情報は紙面を正面で見た状態のものであり、そのまま表示する（解像度を変えてもよい）ことにより、紙面を正面で見た状態における検索語句のヒット箇所のサムネイル表現（画像表現）を得ることができる。

図９の例において、サムネイル表示TH2,TH3,TH4は、領域情報のみを表示するのではなく、対応する他ページ「２頁、３頁、４頁」の画像上に重畳させることで表示させてもよい。この場合、第二記憶部62において各書籍bの各ページpの画像P(b,p)（当該ページ全体を描画した画像）も予め記憶しておき、この画像を検索部3で取得し、（描画部4を介して）提示部5へとそのまま供給し、ページ画像も含めてサムネイル表示させるようにすればよい。

なお、各書籍bの各ページpに関して記憶部6（第一記憶部61及び第二記憶部62）に記憶しておく場合のページpは、書籍の見開きの状態での左右に渡る２ページ分を１ページ分として記憶するようにしてもよい。

（５）受付部7でユーザUより検索語句を受け付ける場合、検索語句の全体を入力し終えた旨の指示をユーザUより受け付けて、当該検索語句の全体を検索部3に出力してもよいし、リアルタイムで検索語句における個別の文字が入力される都度、当該個別の文字を検索部3へと出力してよい。検索語句が「Alice」の５文字の場合、前者であればこの語句「Alice」を一度に検索部3へと出力し、後者であれば、検索部3では５個の各文字A,l,i,c,eが逐次的に入力されることで構成される逐次的な文字列として「A」、「Al」、「Ali」、「Alic」、「Alice」を受け取る。この場合、第二記憶部62でテキスト情報を検索する際は、逐次的に入力されている前段階でヒットした箇所に限定して、以降の段階の検索を行うようにしてよい。例えば「A」で検索してヒットした箇所を「Aヒット箇所」として記憶しておき、その次の「Al」で検索する場合は、テキスト全体ではなく「Aヒット箇所」のみに検索対象を限定することができる。

既に説明した通り、情報端末装置10ではリアルタイムで検索を行うことができるので、検索部3で上記のように「A」、「Al」、「Ali」、「Alic」、「Alice」と逐次的に検索語句を入力した場合、検索結果の領域情報は逐次的に求まり、同様にして描画部4で描画される描画情報も逐次的に求まり、提示部5で表示される結果もこれに応じて「A」、「Al」、「Ali」、「Alic」、「Alice」のヒット箇所がリアルタイムで逐次的に表示されるものとなる。なお、図８や図９で説明したように書籍及びページを特定して、当該書籍に関して現在の撮像画像に撮像されているページ以外に関する検索結果のテキスト通知TNやサムネイルリストTHLに関しても同様に、検索語句を構成する各文字が検索部3に入力される都度、逐次的に更新してリアルタイムで表示することができる。

上記の逐次的な入力及び表示によれば、情報端末装置10が提供するリアルタイムの拡張現実表示を活用して、効率的な検索のユーザ体験を提供することが可能である。例えば、「Alice」を検索したい場合に、「Al」まで入力した段階で検索結果が描画情報等として表示されなくなれば、ユーザUは検索語句「Alice」の全文字を入力する前に当該検索語句がヒットしないことを速やかに知ることができる。

（６）提示部5では、描画部4から得られる描画情報を撮像部1から得られる撮像画像に対して重畳することで拡張現実表示を得るものとした。これは、情報端末装置10が透過型でない通常のディスプレイ（提示部5をハードウェアとして実現するディスプレイ）を備えるスマートフォンやビデオシースルー型HMD（ヘッドマウントディスプレイ）として実装される場合に適用可能な拡張現実表示の例である。情報端末装置10が光学シースルー型HMDとして実装される場合、提示部5をハードウェアとして実現するディスプレイを当該光学シースルー型HMDにおける透過型ディスプレイとすることで、撮像部1から得られる撮像画像を用いることなく、描画部4から得られる描画情報のみを拡張現実表示として表示するようにしてもよい。この場合、ユーザUが当該透過型ディスプレイを介して見る景色が撮像部1によって撮像画像として撮像されるように、提示部5を構成する透過型ディスプレイと撮像部1を構成するカメラとの位置合わせを予め行っておけばよい。

（７）例えば前述のように撮像対象をPDFファイル等の電子的な入稿データの形で記憶部6に記憶しておく場合であれば、撮像部1によって撮像され認識される実際の撮像対象は、同一の書籍bの同一のページpに関して、当該電子データを物理媒体としての紙に印刷した書籍であってもよいし、当該書籍と同内容を電子表示として与えるものとして、当該電子データをタブレット端末等のディスプレイに表示したものであってもよいし、当該電子データをプロジェクタの光学系を用いて壁面やスクリーンなどに投影したものであってもよい。また、書籍は説明上の例示に過ぎず、新聞、カタログ、パンフレット等であっても同様の認識（対象物b及びそのページpの認識）及び認識結果に基づく拡張現実表示が、その印刷物又は電子表示に対して可能である。

（８）書籍等を印刷又は電子表示する際には、印刷対象となる紙等や表示対象となるディスプレイ等のサイズに合わせて印刷又は表示することにより、電子的な入稿データで定義されている所定のアスペクト比（縦幅及び横幅のサイズの比）から変更されたアスペクト比となることもありうる。従って、推定部2では追加処理として、撮像対象の認識の際に、所定のアスペクト比（第一記憶部61に記憶しておく特徴情報におけるアスペクト比、図３の矩形領域R(1),R(2),…,R(n)のアスペクト比）からの変更割合も認識するようにして、描画部4においても同様に、当該変更割合を反映したアスペクト比において描画情報を描画することにより、提示部5で撮像画像（シースルー型の場合、実世界）に対して位置が整合した描画情報を重畳するようにしてもよい。

推定部2において認識処理の際にアスペクト比の推定も行う手法には以下の非特許文献３に開示されるような任意の既存手法を用いてもよいし、第一記憶部61（及び第二記憶部62）において、n個の撮像対象の各々についてそのアスペクト比を複数通りに渡って変えた特徴情報（及びテキスト情報）を区別して記憶しておくことで、以上の説明における同一の撮像対象の認識をそのアスペクト比の認識と共に行うようにしてもよい。
[非特許文献３] Zhang, Z., & He, L. W. (2007). Whiteboard scanning and image enhancement. Digital Signal Processing, 17(2), 414-432.

（９）図１を参照した説明では、情報端末装置10に図１に示される通りの各機能部1～7が全て備わるものとし（説明のため、これを第二実施形態と呼ぶものとする）、且つ、この第二実施形態の変形例として任意の一部の機能部を情報端末装置10とは別途の１つ以上のサーバにおいて実装してもよいものとして説明した。図１０はこの図１の構成の変形例の一例として第三実施形態の情報処理システム100の構成を示す図である。第三実施形態において、情報処理システム100は情報端末装置10、第一サーバ20及び第二サーバ30を備える。第二実施形態の情報端末装置10（図１）に備わる各機能部1～7は、第三実施形態において、情報処理システム100（図１０）全体内に備わっている。具体的に図１０に示されるように第三実施形態において、情報端末装置10は撮像部1、推定部2、提示部5及び受付部7のみを備えることでユーザUからの各種の入力や操作を受け付けて拡張現実表示を提示し、第一サーバ20は検索部3及び描画部4を備え、第二サーバ30は記憶部6（第一記憶部61及び第二記憶部62）を備える。

第二実施形態の情報端末装置10の各機能部において送受する情報を、第三実施形態の情報処理システム100においても同様に、インターネット等のネットワークを経由して情報端末装置10、第一サーバ20及び第二サーバ30の間でも送受することで、第三実施形態においても第二実施形態と同様の拡張現実表示を実現することができる。なお、既に説明している通り、第三実施形態は第二実施形態の変形例の１つに過ぎず、その他も種々の変形が可能である。例えば第三実施形態の変形として、推定部2が情報端末装置10ではなく第一サーバ20に備わるようにしてもよいし、記憶部6の全体を１つの第二サーバ30として実装するのではなく、第一記憶部61と第二記憶部62とで別のサーバとして実装するようにしてもよい。

（１０）図１１は、一般的なコンピュータ装置70におけるハードウェア構成を示す図であり、第二実施形態の情報端末装置10や第三実施形態の情報端末装置10、第一サーバ20及び第二サーバ30の各々は、このような構成を有する１つ以上のコンピュータ装置70として実現可能である。コンピュータ装置70は、所定命令を実行するCPU（中央演算装置）71、CPU71の実行命令の一部又は全部をCPU71に代わって又はCPU71と連携して実行する専用プロセッサ72（GPU（グラフィック演算装置）や深層学習専用プロセッサ等）、CPU71や専用プロセッサ72にワークエリアを提供する主記憶装置としてのRAM73、補助記憶装置としてのROM74、通信インタフェース75、ディスプレイ76、カメラ77、マウス、キーボード、タッチパネル等によりユーザ入力を受け付ける入力インタフェース78、マイク79と、これらの間でデータを授受するためのバスBSと、を備える。撮像部1はカメラ77により、受付部7は入力インターフェース78やマイク79（音声入力の場合）により、提示部5はディスプレイ76（通常のディスプレイ又は透過型ディスプレイ）により実現することができる。

情報端末装置10等の各部は、各部の機能に対応する所定のプログラムをROM74から読み込んで実行するCPU71及び／又は専用プロセッサ72によって実現することができる。ここで、撮影関連の処理が行われる場合にはさらに、カメラ77が連動して動作し、表示関連の処理が行われる場合にはさらにディスプレイ76が連動して動作し、データ送受信に関する通信関連の処理が行われる場合にはさらに通信インタフェース75が連動して動作する。

10…情報端末装置、1…撮像部、2…推定部、3…検索部、4…描画部、5…提示部、6…記憶部、61…第一記憶部、62…第二記憶部、7…受付部
100…情報処理システム、20…第一サーバ、30…第二サーバ

Claims

カメラで撮像した撮像画像より撮像対象を認識し、且つ、当該撮像対象の前記カメラを基準とした位置姿勢を推定する推定部と、
前記認識された撮像対象に表示されている文字列の情報および当該文字列に属する各文字のレイアウト情報を含むテキスト情報を取得し、ユーザより指定される検索語句の該当箇所を当該テキスト情報内より領域情報として求める検索部と、
前記領域情報を前記推定された位置姿勢において描画した描画情報を得る描画部と、
前記カメラを基準とした前記検索語句の該当箇所として、前記描画情報を表示する提示部と、を備え、
前記撮像対象は書籍、新聞、カタログ、パンフレットその他の印刷又は電子表示される対象物におけるページであり、
前記推定部は、対象物及びページを特定することによって前記撮像対象を認識し、
前記検索部では、前記特定された対象物における前記特定されたページのテキスト情報を取得し、ユーザより指定される検索語句の該当箇所を当該テキスト情報内より領域情報として求め、
前記検索部ではさらに、前記特定された対象物における前記特定されたページ以外の別ページのテキスト情報も取得し、ユーザより指定される検索語句の該当箇所を当該別ページのテキスト情報内より検索した結果を別ページ検索結果として取得し、
前記提示部ではさらに、前記別ページ検索結果を表示することを特徴とする情報端末装置。
カメラで撮像した撮像画像より撮像対象を認識し、且つ、当該撮像対象の前記カメラを基準とした位置姿勢を推定する推定部と、
前記認識された撮像対象に表示されている文字列の情報および当該文字列に属する各文字のレイアウト情報を含むテキスト情報を取得し、ユーザより指定される検索語句の該当箇所を当該テキスト情報内より領域情報として求める検索部と、
前記領域情報を前記推定された位置姿勢において描画した描画情報を得る描画部と、
前記カメラを基準とした前記検索語句の該当箇所として、前記描画情報を表示する提示部と、を備え、
前記描画部では前記描画情報を、前記撮像画像の範囲の内部にあるか外部にあるかに応じて区別した態様で描画することを特徴とする情報端末装置。
カメラで撮像した撮像画像より撮像対象を認識し、且つ、当該撮像対象の前記カメラを基準とした位置姿勢を推定する推定部と、
前記認識された撮像対象に表示されている文字列の情報および当該文字列に属する各文字のレイアウト情報を含むテキスト情報を取得し、ユーザより指定される検索語句の該当箇所を当該テキスト情報内より領域情報として求める検索部と、
前記領域情報を前記推定された位置姿勢において描画した描画情報を得る描画部と、
前記カメラを基準とした前記検索語句の該当箇所として、前記描画情報を表示する提示部と、を備え、
前記検索部では、ユーザより指定される検索語句の入力を、当該検索語句を構成する文字列の各文字の入力を逐次的に取得することによって受け付けることで、検索語句の該当箇所を当該逐次的に入力される文字列に関して逐次的な領域情報として求め、
前記描画部では前記逐次的に求まる領域情報を描画することで前記描画情報を逐次的に求め、
前記提示部では前記逐次的に求まる描画情報を逐次的に提示し、
前記検索部では、前記逐次的に入力される文字列に関して逐次的な領域情報を求める際に、前記テキスト情報において既に検索された文字列の該当箇所に、以降の時点で入力される文字列の検索対象を限定することを特徴とする情報端末装置。
前記推定部は、複数のリファレンスとしての撮像対象の各々について当該撮像対象の画像より抽出されるリファレンスとしての特徴情報を記憶しているデータベースを参照することにより、複数のリファレンスとしての撮像対象のうち、対応する特徴情報が、前記撮像画像より抽出されるクエリとしての特徴情報と合致すると判定されるような撮像対象を認識結果とすることを特徴とする請求項１ないし３のいずれかに記載の情報端末装置。
前記検索部は、複数のリファレンスとしての撮像対象の各々について当該撮像対象に表示されている文字列の情報及び当該文字列に属する各文字のレイアウト情報を含むテキスト情報を記憶しているデータベースを参照することにより、前記認識された撮像対象に対応するテキスト情報を取得することを特徴とする請求項１ないし４のいずれかに記載の情報端末装置。
前記推定部では平面射影変換行列で表現されるものとして前記位置姿勢を推定し、
前記描画部では、前記位置姿勢を表現する平面射影変換行列を用いて前記描画情報を得ることを特徴とする請求項１ないし５のいずれかに記載の情報端末装置。
前記提示部は、前記描画情報を前記撮像画像に対して重畳して表示することを特徴とする請求項１ないし６のいずれかに記載の情報端末装置。
前記カメラをさらに備えることを特徴とする請求項１ないし７のいずれかに記載の情報端末装置。
前記検索部では、前記推定された位置姿勢を用いることにより、前記テキスト情報に含まれる文字列に関して前記撮像画像の範囲の内部にあるか外部にあるかを判定し、内部にあると判定されたテキスト情報のみを検索語句の該当箇所の探索対象とすることを特徴とする請求項３に記載の情報端末装置。
情報端末装置及びサーバを備える情報処理システムにおけるサーバであって、
前記情報端末装置は推定部及び提示部を備え、前記サーバは検索部及び描画部を備え、
前記推定部は、カメラで撮像した撮像画像より撮像対象を認識し、且つ、当該撮像対象の前記カメラを基準とした位置姿勢を推定し、
前記検索部は、前記認識された撮像対象に表示されている文字列の情報および当該文字列に属する各文字のレイアウト情報を含むテキスト情報を取得し、ユーザより指定される検索語句の該当箇所を当該テキスト情報内より領域情報として求め、
前記描画部は、前記領域情報を前記推定された位置姿勢において描画した描画情報を得て、
前記提示部は、前記カメラを基準とした前記検索語句の該当箇所として、前記描画情報を表示し、
前記撮像対象は書籍、新聞、カタログ、パンフレットその他の印刷又は電子表示される対象物におけるページであり、
前記推定部は、対象物及びページを特定することによって前記撮像対象を認識し、
前記検索部では、前記特定された対象物における前記特定されたページのテキスト情報を取得し、ユーザより指定される検索語句の該当箇所を当該テキスト情報内より領域情報として求め、
前記検索部ではさらに、前記特定された対象物における前記特定されたページ以外の別ページのテキスト情報も取得し、ユーザより指定される検索語句の該当箇所を当該別ページのテキスト情報内より検索した結果を別ページ検索結果として取得し、
前記提示部ではさらに、前記別ページ検索結果を表示することを特徴とするサーバ。
情報端末装置及びサーバを備える情報処理システムにおけるサーバであって、
前記情報端末装置は推定部及び提示部を備え、前記サーバは検索部及び描画部を備え、
前記推定部は、カメラで撮像した撮像画像より撮像対象を認識し、且つ、当該撮像対象の前記カメラを基準とした位置姿勢を推定し、
前記検索部は、前記認識された撮像対象に表示されている文字列の情報および当該文字列に属する各文字のレイアウト情報を含むテキスト情報を取得し、ユーザより指定される検索語句の該当箇所を当該テキスト情報内より領域情報として求め、
前記描画部は、前記領域情報を前記推定された位置姿勢において描画した描画情報を得て、
前記提示部は、前記カメラを基準とした前記検索語句の該当箇所として、前記描画情報を表示し、
前記描画部では前記描画情報を、前記撮像画像の範囲の内部にあるか外部にあるかに応じて区別した態様で描画することを特徴とするサーバ。
情報端末装置及びサーバを備える情報処理システムにおけるサーバであって、
前記情報端末装置は推定部及び提示部を備え、前記サーバは検索部及び描画部を備え、
前記推定部は、カメラで撮像した撮像画像より撮像対象を認識し、且つ、当該撮像対象の前記カメラを基準とした位置姿勢を推定し、
前記検索部は、前記認識された撮像対象に表示されている文字列の情報および当該文字列に属する各文字のレイアウト情報を含むテキスト情報を取得し、ユーザより指定される検索語句の該当箇所を当該テキスト情報内より領域情報として求め、
前記描画部は、前記領域情報を前記推定された位置姿勢において描画した描画情報を得て、
前記提示部は、前記カメラを基準とした前記検索語句の該当箇所として、前記描画情報を表示し、
前記検索部では、ユーザより指定される検索語句の入力を、当該検索語句を構成する文字列の各文字の入力を逐次的に取得することによって受け付けることで、検索語句の該当箇所を当該逐次的に入力される文字列に関して逐次的な領域情報として求め、
前記描画部では前記逐次的に求まる領域情報を描画することで前記描画情報を逐次的に求め、
前記提示部では前記逐次的に求まる描画情報を逐次的に提示し、
前記検索部では、前記逐次的に入力される文字列に関して逐次的な領域情報を求める際に、前記テキスト情報において既に検索された文字列の該当箇所に、以降の時点で入力される文字列の検索対象を限定することを特徴とするサーバ。
コンピュータを請求項１ないし９のいずれかに記載の情報端末装置として機能させることを特徴とするプログラム。