JP2016025625A - Information processor, information processing method, and program - Google Patents
Information processor, information processing method, and program Download PDFInfo
- Publication number
- JP2016025625A JP2016025625A JP2014150865A JP2014150865A JP2016025625A JP 2016025625 A JP2016025625 A JP 2016025625A JP 2014150865 A JP2014150865 A JP 2014150865A JP 2014150865 A JP2014150865 A JP 2014150865A JP 2016025625 A JP2016025625 A JP 2016025625A
- Authority
- JP
- Japan
- Prior art keywords
- content
- electronic document
- positional relationship
- information
- specifying
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Image Processing (AREA)
- Editing Of Facsimile Originals (AREA)
- Studio Devices (AREA)
Abstract
Description
本発明は、情報処理装置、情報処理方法及びプログラムに関する。 The present invention relates to an information processing apparatus, an information processing method, and a program.
従来、タブレット端末やスマートフォン(以降、スマート端末とも記載する)を用いて、カメラで撮影した被写体に関連する情報を検索し、検索された関連情報をスマート端末の画面に表示する技術が知られている。例えば、Augmented Reality(以降、AR)と呼ばれる拡張現実技術では、カメラで撮影された被写体に関連する情報を検索し、検索結果をカメラで撮影された実世界の物体に重畳表示することができる。さらに、当該技術における被写体を紙文書とし、紙文書を撮影すると、紙文書上に関連情報が重畳表示されるサービスも展開されている。紙媒体に動画等のコンテンツを表現することができないが、紙文書に印刷されている静止画の関連情報として動画を検索し、得られた動画を重畳表示することが可能になる。
また、カメラで撮影された被写体を特定するための技術として、特許文献1には、複数ページから構成される印刷物をページ単位で読み取り、読み取った情報からオリジナルの電子文書を検索する技術が開示されている。
2. Description of the Related Art Conventionally, there has been known a technique for searching for information related to a subject photographed by a camera using a tablet terminal or a smartphone (hereinafter also referred to as a smart terminal) and displaying the searched related information on the screen of the smart terminal. Yes. For example, in augmented reality technology called Augmented Reality (hereinafter referred to as AR), information related to a subject photographed by a camera can be retrieved, and the retrieval result can be superimposed on a real-world object photographed by the camera. Furthermore, a service has been developed in which the subject in the technology is a paper document, and when the paper document is photographed, related information is superimposed and displayed on the paper document. Although content such as a moving image cannot be expressed on a paper medium, it is possible to search for a moving image as related information of a still image printed on a paper document and display the obtained moving image in a superimposed manner.
Further, as a technique for specifying a subject photographed by a camera,
上述のように、被写体と関連する情報を検索する際には、被写体を正確に認識することが必要となる。例えば、被写体の認識精度が低いために、複数の被写体候補が検出された場合には、これに対応し、被写体に対する関連情報を一意に特定することができない。
例えば、スマート端末による撮影対象が、街頭のポスター等のように大きな紙面や、微修正が繰り返された仕様書である場合に、被写体の認識が困難となり、適切な関連情報を特定できない可能性がある。このように関連情報を一意に特定できない場合に複数の関連情報をユーザに提示することも考えられるが、この場合、ユーザが必要な関連情報を選択する必要があり、操作が煩雑になるという問題があった。
As described above, when searching for information related to a subject, it is necessary to accurately recognize the subject. For example, when a plurality of subject candidates are detected because the subject recognition accuracy is low, it is not possible to uniquely identify related information for the subject corresponding to this.
For example, if the subject to be photographed by a smart terminal is a large paper such as a street poster or a specification with repeated fine corrections, it may be difficult to recognize the subject, and appropriate related information may not be identified. is there. In this way, when related information cannot be uniquely identified, it may be possible to present a plurality of related information to the user. In this case, however, the user needs to select necessary related information, and the operation becomes complicated. was there.
本発明はこのような問題点に鑑みなされたもので、撮影画像の被写体を精度よく特定することを目的とする。 The present invention has been made in view of such problems, and an object thereof is to accurately specify a subject of a captured image.
そこで、本発明は、情報処理システムであって、1枚の紙媒体の一部が撮影された複数の撮影画像から、複数のコンテンツ領域を抽出する領域抽出手段と、前記コンテンツ領域の特徴量を算出する特徴量算出手段と、前記複数のコンテンツ領域間の位置関係を特定する位置特定手段と、1枚の紙媒体に対応する電子文書に対応付けて、1つの電子文書に含まれる複数のコンテンツの特徴量を記憶し、さらに1つの電子文書に含まれる複数のコンテンツ間の位置関係を示す位置情報を記憶する記憶手段を参照し、前記特徴量算出手段により算出された複数のコンテンツ領域それぞれの特徴量と、前記位置特定手段により特定された複数のコンテンツ領域間の位置関係とに基づいて、前記複数の撮影画像に対応する電子文書を特定する電子文書特定手段とを有することを特徴とする。 Therefore, the present invention is an information processing system, and includes an area extraction unit that extracts a plurality of content areas from a plurality of captured images obtained by capturing a part of one paper medium, and a feature amount of the content area. A feature amount calculating means for calculating, a position specifying means for specifying a positional relationship between the plurality of content areas, and a plurality of contents included in one electronic document in association with the electronic document corresponding to one paper medium And a storage unit that stores positional information indicating a positional relationship between a plurality of contents included in one electronic document, and stores each of the plurality of content areas calculated by the feature amount calculation unit. An electronic document feature that specifies an electronic document corresponding to the plurality of captured images based on the feature amount and the positional relationship between the plurality of content areas specified by the position specifying means. And having a means.
本発明によれば、撮影画像の被写体を精度よく特定することができる。 According to the present invention, the subject of the captured image can be specified with high accuracy.
以下、本発明の実施形態について図面に基づいて説明する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings.
図1は、情報処理システムとしてのAR(Augmented Reality)処理システムの全体構成を示す図である。AR処理システムは、携帯端末100と、情報処理装置としての管理サーバ装置110とを有している。携帯端末100と管理サーバ装置110は、ネットワーク120を介して通信を行うことができる。AR処理システムにおいて、携帯端末100は、紙媒体としての紙文書を撮影し、撮影画像を表示装置101に表示すると共に、管理サーバ装置110に送信する。ここで、撮影画像は動画像であるものとする。管理サーバ装置110は、撮影画像を受信すると、撮影画像に関連付けられた電子文書を関連情報として特定し、これを携帯端末100に送信する。携帯端末100は、撮影画像の撮影中は、表示画面上に撮影画像を表示し、関連情報を受信すると、撮影画像上に関連画像を重畳して表示する。
図2は、携帯端末100の撮影対象となる紙文書200の一例を示す図である。本実施形態において、撮影対象とする紙文書200は、図2に示すように、複数のコンテンツを含むものとする。図2に示す紙文書200には、文字列コンテンツ201と、写真コンテンツ202と、図形コンテンツ203と、文字列コンテンツ204が表示されている。このように、1枚の紙文書は、複数のコンテンツを含み、各コンテンツの種類は同一の場合もあれば、異なる場合もある。
本実施形態においては、撮影対象の紙文書200として、比較的大きいサイズのものを想定しており、このため、撮影画像中の各フレームには、紙文書200の一部のみが含まれるものとする。すなわち、撮影画像中の各フレームには、紙文書200に含まれる一部のコンテンツのみが含まれる。
FIG. 1 is a diagram showing an overall configuration of an AR (Augmented Reality) processing system as an information processing system. The AR processing system includes a
FIG. 2 is a diagram illustrating an example of a
In the present embodiment, the
図3は、携帯端末100のハードウェア構成を示す図である。撮影部300は、画像を撮影する。加速度センサ301は、携帯端末100の位置や傾きの変化を検出する。CPU(Central Processing Unit)302は、各種処理のための演算や論理判断等を行い、バス310に接続された各種要素を制御する。なお、携帯端末100は、加速度センサ301に替えて、方位センサを有してもよい。
携帯端末100には、プログラムメモリとデータメモリを含むメモリが搭載されている。プログラムメモリは、フローチャートにより後述する各種処理手順を含むCPU302による制御のためのプログラムを格納する。このメモリは、ROM(Read−Only Memory)303、外部記憶装置等からプログラムがロードされるRAM(Random Access Memory)304、またはこれらの組み合わせで実現される。
FIG. 3 is a diagram illustrating a hardware configuration of the
The
記憶装置305は、データやプログラムを記憶しておくためのハードディスク等の装置である。記憶装置305は、例えば写真や文書等を保持しておくためにも利用される。なお、写真や文書等を保持しておく装置としは、外部接続やネットワークに接続された不図示のデータ保持装置が用いられてもよい。ここで、外部記憶装置306は、例えば、メディア(記録媒体)と、当該メディアへのアクセスを実現するための外部記憶ドライブとにより実現される。このようなメディアとしては、例えば、フレキシブルディスク(FD)、CD−ROM、DVD、USBメモリ、MO、フラッシュメモリ等が挙げられる。
なお、後述する携帯端末100の機能や処理は、CPU302がROM303等に格納されているプログラムを読み出し、このプログラムを実行することにより実現されるものである。
The
Note that the functions and processes of the
入力装置307は、ユーザからの指示を入力するための装置である。ユーザは入力装置307を介して、AR処理システムに対する指示を入力する。入力装置307は、例えば、キーボードやポインティングデバイスにより実現することができる。
表示装置101は、処理結果等を表示出力する装置である。表示装置101は、例えば、出力のための回路を含むCRT(Cathode−Ray Tube)や液晶表示器等のディスプレイ装置により実現することができる。本実施形態においては、表示装置101は、写真や文書等を表示する。
インタフェース(以下、I/Fという)309は、情報の仲介を行う装置であり、携帯端末100は、I/F309を介して外部装置とのデータのやり取りを行う。
なお、管理サーバ装置110のハードウェア構成は、図2を参照しつつ説明した携帯端末100のハードウェア構成と同様である。但し、管理サーバ装置110は、撮影部300、加速度センサ301等を備えなくともよい。
The
The
An interface (hereinafter referred to as I / F) 309 is a device that mediates information, and the
The hardware configuration of the
図4は、携帯端末100のソフトウェア構成を示す図である。通信部400は、ネットワーク120を介して外部装置と情報の送受信を行う。通信部400は、例えば管理サーバ装置110に撮影画像を送信し、また、管理サーバ装置110から、撮影画像に関連する関連情報を受信する。受付部401は、ユーザにより入力された指示を受け付ける。撮影制御部402は、ユーザによる指示に従い、撮影を行い、動画像を得る。
位置関連情報生成部403は、動画像を構成する各フレームの位置関連情報を生成する。本実施形態においては、位置関連情報は、各フレームが撮影された時点における加速度センサ301による検出結果と、撮影部300のズーム状態を示す情報とを含むものとする。なお、撮影画像及び位置情報は、通信部400を介して、管理サーバ装置110に送信される。表示部404は、撮影制御部402により得られた撮影画像としての動画像を表示装置101に表示する。さらに、表示部404は、通信部400が管理サーバ装置110から、関連情報を受信した場合には、撮影画像上に関連情報を重畳して表示する。
FIG. 4 is a diagram illustrating a software configuration of the
The position related
図5は、管理サーバ装置110のソフトウェア構成を示す図である。通信部500は、ネットワーク120を介して外部装置と情報の送受信を行う。通信部500は例えば、携帯端末100から撮影画像を受信し、また、携帯端末100に対し、関連情報を送信する。
解析部501は、撮影画像を解析し、撮影画像としての動画像を構成する各フレームの特徴量を抽出する。なお、解析処理には、既存の文書解析技術を用いることができる。解析処理については後述する。
電子文書DB502は、電子文書を記憶している。ここで、電子文書は、例えば図4に示す紙文書200に対応する電子データである。電子文書DB502は、撮影対象となる紙文書に対応する電子文書を記憶している。なお、撮影対象の紙文書が複数存在する場合には、電子文書DB502は、複数の紙文書それぞれに対応する電子文書を記憶する。なお、電子文書DB502は、外部記憶装置306等に記憶されているものとする。
FIG. 5 is a diagram illustrating a software configuration of the
The
The
電子文書DB502はさらに、特徴量テーブルを記憶している。図6(a)は、特徴量テーブル600のデータ構成の一例を示す図である。特徴量テーブル600は、文書IDに対応付けて、コンテンツID、属性、特徴量、位置情報、関連情報を記憶している。なお、図6(a)に示す文書ID「001」の電子文書は、紙文書200に対応している。
文書IDは、電子文書の識別情報である。コンテンツIDは、電子文書に含まれる各コンテンツの識別情報である。コンテンツは、例えば図2に示すコンテンツ201〜204に対応する情報である。属性は、コンテンツの種別を示す。図6(a)において属性「1」は文字列、「2」は写真、「3」は図形の種別を意味する。位置情報は、各コンテンツの文書における位置(X,Y)と、コンテンツの幅Wと、コンテンツの高さHを含んでいる。
関連情報は、コンテンツに関連する情報として、管理者等により設定された情報である。本実施形態においては、関連情報は、電子文書であるものとするが、関連情報の種類はこれに限定されるものではない。他の例としては、関連情報は、対応付けられている紙文書に対するUI画面であってもよい。また、特徴量テーブルに登録されている、すべてのコンテンツに対し関連情報が対応付けられている必要はない。
The
The document ID is identification information of the electronic document. The content ID is identification information of each content included in the electronic document. The content is information corresponding to the
The related information is information set by an administrator or the like as information related to the content. In the present embodiment, the related information is an electronic document, but the type of related information is not limited to this. As another example, the related information may be a UI screen for the associated paper document. Further, it is not necessary that the related information is associated with all the contents registered in the feature amount table.
なお、位置情報は、同一文書に含まれる複数のコンテンツ間の位置関係を示す情報であればよく、具体的な情報の内容は実施形態に限定されるものではない。図6(b)は、特徴量テーブル610の他の例を示す図である。図6(b)に示す例においては、位置情報は、対象とするコンテンツに隣接するコンテンツを示す情報である。すなわち、位置情報は、各コンテンツに対し、上下左右それぞれの方向に隣接するコンテンツのコンテンツIDを示す情報である。
また、関連情報を提示する対象となる文書が1つのみの場合には、関連情報テーブルは、文書IDを記録しなくともよい。
Note that the position information only needs to be information indicating the positional relationship between a plurality of contents included in the same document, and the specific information content is not limited to the embodiment. FIG. 6B is a diagram illustrating another example of the feature amount table 610. In the example shown in FIG. 6B, the position information is information indicating content adjacent to the target content. That is, the position information is information indicating the content ID of content that is adjacent to each content in each of the vertical and horizontal directions.
In addition, when there is only one document for which related information is presented, the related information table may not record the document ID.
図5に戻り、文書検索部503は、電子文書DB502を参照し、解析部501により得られた、コンテンツの特徴量に基づいて、撮影画像に対応する電子文書の検索処理を行う。関連情報抽出部504は、電子文書DB502を参照し、特定された電子文書のうち、処理時点において携帯端末100の表示部404に表示されているコンテンツに対応する関連情報を抽出する。抽出された関連情報は、通信部500を介して携帯端末100に送信される。
Returning to FIG. 5, the
図7は、AR処理システムによる、AR処理を示すシーケンス図である。S700において、携帯端末100の撮影制御部402は、ユーザからの指示に従い、紙文書の撮影を開始する。なお、撮影制御部402は、ユーザからの開始指示が入力されるまで、撮影を継続する。次に、S701において、表示部404は、撮影制御部402により撮影された撮影画像としての動画の表示装置101への表示を開始する。なお、撮影及び撮影画像の表示は、ユーザからの終了指示が入力されるまで継続する。
さらに、S702において、位置関連情報生成部403は、撮影画像に含まれる各フレームに対する位置関連情報を生成する。次に、S703において、通信部400は、撮影画像と位置関連情報とを管理サーバ装置110に送信する。
FIG. 7 is a sequence diagram showing AR processing by the AR processing system. In step S700, the
Further, in S702, the position related
一方、管理サーバ装置110においては、S703において、通信部500が、撮影画像及び位置情報を受信すると、S704において、解析部501は、撮影画像に対する解析処理を行い、各フレームの特徴量を抽出する。なお、S703における画像解析処理については、図8を参照しつつ後述する。S705において、文書検索部503は、S704において抽出された特徴量に基づいて、特徴量テーブル600を参照し、撮影画像の被写体としての紙文書に対応する電子文書を検索する。文書検索部503はさらに、電子文書に対する撮影画像の角度(回転角度)を特定する。
次に、S706において、文書検索部503は、紙文書に対応する電子文書を特定できたか否かを確認する。文書検索部503は、電子文書を特定できた場合には(S706でYes)。処理をS707へ進める。文書検索部503は、電子文書を特定できなかった場合には(S706でNo)、S703において、再び後続のフレームの受信を待つ。
S707において、関連情報抽出部504は、特徴量テーブル600を参照し、撮影画像のうち最後のフレームに表示されているコンテンツに対応付けられている関連情報を抽出する(関連情報抽出処理)。さらに、関連情報抽出部504は、最後のフレームのうち、関連情報に対応するコンテンツが表示されているコンテンツ領域(対象コンテンツ領域と称する)の位置に基づいて、関連情報を表示すべき位置を特定する。次に、S708において、通信部500は、関連情報と、関連情報の表示位置と、S705において特定された対象コンテンツ領域の回転角度とを携帯端末100に送信する。
On the other hand, in the
In step S <b> 706, the
In step S <b> 707, the related
携帯端末100においては、S708において、通信部400が関連情報等を受信すると、S709において、表示部404は、関連情報と、関連情報の表示位置と、回転角度とに基づいて、重畳すべきデータを生成する。そして、表示部404は、表示中の撮影画像上に生成したデータを重畳表示する(重畳表示処理)。
なお、紙画像は様々な角度で撮影される可能性がある。そこで、本実施形態においては、携帯端末100は、回転角度を用いることにより、表示装置101に表示中の撮影画像中の紙文書の上下方向と重畳対象の関連情報の上下方向を合わせることとした。これにより、携帯端末100は、関連情報をより見やすい状態で関連情報を表示することができる。以上の処理により、ユーザは撮影した紙文書に関連する関連情報を携帯端末100上で閲覧することが可能になる。
In
Note that paper images may be taken at various angles. Therefore, in the present embodiment, the
図8は、図7を参照しつつ説明した画像解析処理(S704)における詳細な処理を示すフローチャートである。S800において、解析部501は、撮影画像の各フレームから意味のあるブロック(領域)を塊として認識して、ブロック各々に表示されるコンテンツの属性を判定する。
図9は、処理対象のフレームの一例を示す図である。図9(a)に示すフレーム900からは、解析部501は、3つのコンテンツ領域901〜903を抽出する(領域抽出処理)。ここで、コンテンツ領域901は、コンテンツ201を表示する領域である。コンテンツ領域902は、コンテンツ202を表示する領域である。コンテンツ領域903は、コンテンツ203を表示する領域である。解析部501はさらに、各コンテンツ領域の属性を特定する。図9に示すコンテンツ領域901〜903に対しては、それぞれテキスト、写真及び図形の属性が特定される。
また、図9(b)に示すフレーム910からは、解析部501は、1つのコンテンツ領域911のみを抽出し、コンテンツ領域911の属性をテキストと特定する。
FIG. 8 is a flowchart showing detailed processing in the image analysis processing (S704) described with reference to FIG. In S800, the
FIG. 9 is a diagram illustrating an example of a frame to be processed. The
Also, from the
以下、コンテンツ領域を抽出し、属性を特定する処理をより具体的に説明する。解析部501は、フレームを受け取ると、これを白黒画像に二値化する。そして、解析部501は、輪郭線追跡を行い黒画素輪郭で囲まれる画素のかたまりを抽出する。解析部501は、一定面積以上の黒画素が抽出された場合には、内部にある白画素に対しても輪郭線追跡を行い白画素のかたまりを抽出する。解析部501は、抽出した白画素のかたまりが一定面積以上であれば、さらに黒画素のかたまりを抽出する。解析部501は、抽出されたかたまりが一定面積以上であれば、この抽出処理を再帰的に実行する。
そして、解析部501は、抽出処理で得られた黒画素のかたまりを大きさ及び形状により様々な属性を持つブロックとして分類する。解析部501は、例えば、縦横比が1に近いブロックは文字相当の画素のかたまりとし、隣接する文字相当の画素のかたまりが整列されていてグループ化可能な場合はテキストブロックとする。また、解析部501は、不定形の画素のかたまりが散在する場合は、写真ブロック、それ以外は図形ブロック等に分類する。
Hereinafter, the process of extracting the content area and specifying the attribute will be described more specifically. Upon receiving the frame, the
Then, the
S800において、解析部501は、さらに撮影画像中において既に処理済みの他のフレームと処理対象のフレームそれぞれの位置関連情報に基づいて、フレーム間の位置関係を特定する。そして、解析部501は、フレーム間の位置関係に基づいて、複数のフレームから得られた複数のコンテンツ領域間の位置関係を特定する(位置特定処理)。
なお、図9に示すフレーム900のように、1フレーム内に複数のコンテンツ領域が含まれている場合には、フレーム内の複数のコンテンツ領域間の位置関係を特定する。図9に示すフレーム900においては、コンテンツ領域901の右にコンテンツ領域902が存在する、コンテンツ領域902の下にコンテンツ領域903が存在するという位置関係が特定される。
In S800, the
When a plurality of content areas are included in one frame as in a
解析部501は、さらにブロックとして得られたコンテンツ領域に対し領域IDを付与する。ここで、領域IDは、コンテンツ領域の識別情報である。解析部501は、領域IDと、領域に対して特定された属性と、位置関係を示す位置情報を撮影画像テーブルに記録する。ここで、撮影画像テーブルは、例えば、RAM304又は外部記憶装置306に記憶されているものとする。
図10は、撮影画像テーブル1000のデータ構成の一例を示す図である。撮影画像テーブル1000は、領域IDと、属性と、位置情報と、特徴量とを対応付けて記憶する。図10に示す各行が1つのレコードに相当する。S800においては、解析部501は、領域ID、属性と、位置情報とを対応付けて、1つのレコードとして撮影画像テーブル1000に記録する。なお、特徴量は、後述のS802において、領域IDに対応付けて、追加して記録される。
The
FIG. 10 is a diagram illustrating an example of a data configuration of the photographed image table 1000. The captured image table 1000 stores a region ID, an attribute, position information, and a feature amount in association with each other. Each row shown in FIG. 10 corresponds to one record. In S800, the
図8に戻り、S800の処理の後、S801において、解析部501は、S800において得られた各コンテンツ領域の特徴量を算出する(特徴量算出処理)。次に、S802において、解析部501は、コンテンツ領域に対応付けて、特徴量を撮影画像テーブル1000に記録する。
Returning to FIG. 8, after the process of S800, in S801, the
ここで、撮影画像テーブル1000に情報が記録される処理について、具体的に説明する。例えば、図11(a)に示すように、携帯端末100において紙文書200の撮影が開始され、表示装置101に、撮影画像として、コンテンツ201の画像が表示されているとする。
その後、ユーザが携帯端末100の傾きを変える等して、撮影方向を紙文書200の右方向(矢印Aの方向)に移動すると、表示装置101には、図11(b)に示すように、撮影画像として、コンテンツ202の画像が表示される。さらに、撮影方向が紙文書200の下方向(矢印Bの方向)に移動すると、表示装置101には、図11(c)に示すように、撮影画像として、コンテンツ203の画像が表示される。
Here, a process for recording information in the captured image table 1000 will be specifically described. For example, as illustrated in FIG. 11A, it is assumed that photographing of a
Thereafter, when the user moves the photographing direction to the right of the paper document 200 (the direction of the arrow A) by changing the tilt of the
以上のような撮影方向の変化を伴う撮影画像を処理対象とする場合、まず図11(a)に示すフレーム1111が解析部501に入力され、フレーム1111に対する領域解析処理(S704)が実行される。領域解析処理(S800)において、解析部501は、コンテンツ201の画像の領域をコンテンツ領域1101として抽出し、このコンテンツ領域1101に対し、コンテンツID「a001」を発行する。解析部501はさらに、コンテンツ領域1101の属性をテキストと特定する。
なお、この時点では、他のフレームの解析は行われておらず、フレーム1111のみからは、他のコンテンツ領域との位置関係は分からない。そこで、この時点では、解析部501は、撮影画像テーブル1000に、領域ID「a001」を記録し、これに対応付けて、属性「1」を記録する。その後、解析部501は、S801において、コンテンツ領域1101の特徴量を算出し、S802において、これを領域ID「a001」に対応付けて記録する。
When a captured image with a change in shooting direction as described above is to be processed, a
At this time, the analysis of other frames has not been performed, and the positional relationship with other content areas is not known only from the
続いて、フレーム1112が解析部501に入力されると、フレーム1112に対し、画像解析処理(S704)が実行される。すなわち、領域解析処理(S800)において、解析部501は、コンテンツ202の画像の領域をコンテンツ領域1102として抽出し、このコンテンツ領域1101に対し、コンテンツID「a002」を発行する。解析部501はさらに、コンテンツ領域1102の属性を写真と特定する。
さらに、解析部501は、処理済みのフレーム1111からフレーム1112までの間に撮影方向が紙文書200の右方向に移動したことを位置関連情報と、各フレーム1111,1111中の画素変化から特定する。そして、解析部501は、撮影方向の変化から、コンテンツ領域1102の左方向に、コンテンツ領域1101が存在することを特定する。
Subsequently, when the
Further, the
そして、解析部501は、撮影画像テーブル1000に、領域ID「a002」を記録し、これに対応付けて、属性「2」を記録し、さらに、左方向に「a001」で特定されるコンテンツ領域1101が存在することを示す位置情報を記録する。解析部501はまた、このとき、領域ID「a001」に対応付けて、右方向に「a002」で特定されるコンテンツ領域1102が存在することを示す位置情報を記録する。その後、S801において、コンテンツ領域1102の特徴量を算出し、S802において、これを領域ID「a002」に対応付けて記録する。
さらに図10に示す撮影画像テーブル1000には、コンテンツ領域1103が登録されている。図10に示す撮影画像テーブル1000の位置情報から、領域ID「a001」のコンテンツ領域1101の左に領域ID「a002」のコンテンツ領域1102が存在することがわかる。さらに、この位置情報から、領域ID「a002」のコンテンツ領域1102の下に領域ID「a003」のコンテンツ領域1103が存在することがわかる。
Then, the
Further, a
なお、S802において抽出された特徴量に対応付けられた領域IDが既に撮影画像テーブル1000に登録されている場合には、撮影画像テーブル1000への新たなコンテンツ領域の登録は行わない。なお、抽出された特徴量に対応する領域IDが既に登録されている場合とは、処理済みの他のフレームに同一のコンテンツが表示されており、この他のフレームの処理において、コンテンツ領域が既に撮影画像テーブル1000に登録されている場合である。
また、1つのフレームに複数のコンテンツ領域が含まれている場合には、解析部501は、コンテンツ領域間の位置関係を特定し、これを位置情報として撮影画像テーブル1000に登録する。
If the area ID associated with the feature amount extracted in S802 is already registered in the captured image table 1000, no new content area is registered in the captured image table 1000. Note that the case where the area ID corresponding to the extracted feature amount is already registered means that the same content is displayed in another processed frame, and the content area has already been displayed in the processing of this other frame. This is a case where it is registered in the photographed image table 1000.
When a plurality of content areas are included in one frame, the
図12は、図8を参照しつつ説明した特徴量抽出処理(S801)における詳細な処理を示すフローチャートである。特徴量抽出処理は、画像の局所的な特徴量(局所特徴量)を抽出する処理である。局所特徴量は、回転不変、拡大・縮小不変という性質を持つ。この特徴により、画像を回転、拡大又は縮小させた場合であっても特徴量を使った検索処理が可能となる。局所特徴量抽出処理は、既存の局所特徴量抽出処理技術を用いて行うことが可能である。
S1200において、解析部501は、処理対象のフレームを読み込む。次に、S1201において、解析部501は、入力フレームに対し輝度成分を抽出し、輝度成分画像を作成する。次に、S1202において、解析部501は、輝度成分画像から縮小画像を生成する。具体的には、解析部501は、緯度成分画像を、倍率pに従って順次縮小し、縮小画像をn枚生成する。ここで、倍率p及び縮小画像の枚数nは予め規定され、ROM303等に格納されているものとする。
FIG. 12 is a flowchart showing detailed processing in the feature amount extraction processing (S801) described with reference to FIG. The feature amount extraction processing is processing for extracting a local feature amount (local feature amount) of an image. A local feature has a property of rotation invariance and enlargement / reduction invariance. With this feature, even when the image is rotated, enlarged or reduced, a search process using the feature amount is possible. The local feature quantity extraction processing can be performed using an existing local feature quantity extraction processing technique.
In step S1200, the
図13は、縮小画像生成処理(S1202)を説明するための図である。図13には、倍率pに2の−(1/4)乗、縮小画像の枚数nに9が設定されている場合の例を示す。ただし、この例では、倍率pを面積比ではなく辺の長さの比としている。
図13において、1301は、S1201において作成された輝度成分画像である。1302は、輝度成分画像1001から倍率pに従って4回縮小された縮小画像であり、輝度成分画像1301を1/2に縮小した画像に相当する。また、1303は、輝度成分画像1301から倍率pに従って8回縮小された縮小画像であり、輝度成分画像1301を1/4に縮小した画像に相当する。なお、スケール番号1310は、縮小画像のサイズが大きい順に付与される番号である。
なお、画像を縮小する方法の他の例としては、単純に画素を間引く方法、線形補間を用いる方法、低域フィルタ適用後にサンプリングする方法等が挙げられる。
FIG. 13 is a diagram for explaining the reduced image generation processing (S1202). FIG. 13 shows an example where the magnification p is set to 2 to the power of-(1/4) and the number n of reduced images is set to 9. However, in this example, the magnification p is not the area ratio but the side length ratio.
In FIG. 13,
Other examples of the method of reducing the image include a method of simply thinning out pixels, a method of using linear interpolation, a method of sampling after applying a low-pass filter, and the like.
図12に戻り、S1202の後、S1203において、解析部501は、S1202において得られたn枚の縮小画像のそれぞれから局所的な特徴点(局所特徴点)を抽出する。ここで抽出される局所特徴点は、画像に回転や縮小等の画像処理を施しても同じ場所から安定的に抽出されるようなロバストな局所特徴点である。このような局所特徴点を抽出する方法として、Harris作用素等が挙げられる。
具体的には、解析部501は、Harris作用素を作用させて得られた画像の画素それぞれについて、着目画素とその周辺8近傍にある画素(合計9画素)の画素値を調べる。そして、解析部501は、着目画素の画素値が閾値以上、かつ局所極大になる(9画素の中で画素値が最大になる)場合に、着目画素が位置する点を局所特徴点として抽出する。なお、解析部501がロバストな局所特徴点を抽出す処理は、実施形態に限定されるものではない。
Returning to FIG. 12, after S1202, in S1203, the
Specifically, the
次に、S1204において、解析部501は、S1203において得られた局所特徴点それぞれについて、画像の回転があっても不変となるように定義された特徴量(局所特徴量)を算出する。解析部501は、この局所特徴量の算出方法として、以下に示す文献のLocal Jet及びそれらの導関数の組み合わせを用いる。
J.J.Koenderink and A.J.van Doorn, "Representation of local geometry in the visual system," Riological Cybernetics, vol.55, pp.367−375, 1987
Next, in S1204, the
J. et al. J. et al. Koenderink and A.K. J. et al. van Doorn, "Representation of local geometry in the visual system," Riologic Cybernetics, vol. 55, pp. 367-375, 1987
この手法により算出される局所特徴量は、拡大縮小、回転に対して、比較的高い耐性を持つような特性を持たせることができる。具体的には、解析部501は、式(1)に示す局所的な特徴量vを算出する。
図14は、図7を参照しつつ説明した電子文書検索処理(S705)における詳細な処理を示すフローチャートである。電子文書検索処理では、前述のように、特徴量に基づいて、撮影画像に対応する電子文書を検索し、さらに、撮影画像に対する関連情報の回転角度の特定を行う。S1400において、文書検索部503は、撮影画像テーブル1000に登録されているコンテンツ領域の中から、後述の特徴量照合処理(S1401)が行われていない、未処理のコンテンツ領域を1つ選択する。
なお、未処理のコンテンツ領域を特定すべく、撮影画像テーブル1000の各領域IDに対応付けて処理済みか否かを示すフラグを記憶しておくこととしてもよい。また、未処理のコンテンツ領域を順次選択する処理としては、撮影画像テーブル1000の先頭から順番にサーチしてもよく、また他の例としては、ランダムにサーチしてもよい。
FIG. 14 is a flowchart showing detailed processing in the electronic document search processing (S705) described with reference to FIG. In the electronic document search process, as described above, the electronic document corresponding to the captured image is searched based on the feature amount, and the rotation angle of the related information with respect to the captured image is specified. In step S <b> 1400, the
In order to specify an unprocessed content area, a flag indicating whether or not the process has been performed may be stored in association with each area ID of the captured image table 1000. Further, as a process of sequentially selecting unprocessed content areas, a search may be performed in order from the top of the captured image table 1000, or as another example, a search may be performed randomly.
次に、S1401において、文書検索部503は、S1400において選択したコンテンツ領域の特徴量と、特徴量テーブル600に登録されている電子文書のコンテンツの特徴量とを照合する。さらに、両者が一致すると判定した場合には、判定家庭で算出された値を利用して、コンテンツ領域に重畳して表示する関連情報の回転角度を算出する。なお、特徴量照合処理については、図15を参照しつつ後に詳述する。
S1402において、文書検索部503は、撮影画像テーブル1000に等登録されているすべてのコンテンツ領域に対しS1401の処理が完了したか否かを確認する。文書検索部503は、未処理のコンテンツ領域が存在する場合には(S1402でYes)、処理をS1400へ進め、未処理のコンテンツ領域を選択し、処理を継続する。文書検索部503はまた、未処理のコンテンツ領域が存在しない場合には(S1402でNo)、処理をS1403へ進める。
なお、S1400〜S1402の処理は、特徴量テーブル600において、コンテンツ領域それぞれに対応するコンテンツを特定するコンテンツ特定処理の一例である。
In step S <b> 1401, the
In step S <b> 1402, the
Note that the processing of S1400 to S1402 is an example of content specifying processing for specifying content corresponding to each content area in the feature amount table 600.
S1403において、文書検索部503は、S1400及びS1401の繰り返し処理において得られた、撮影画像テーブル1000に登録されているすべてのコンテンツ領域に対応するコンテンツを含む電子文書を特定する。そして、文書検索部503は、これを撮影画像に対応する電子文書の候補とする。
次に、S1404において、文書検索部503は、撮影画像テーブル1000に登録されているすべてのコンテンツ領域間の位置関係が、特徴量テーブル600に登録されている位置情報に示される位置関係を満たすか否かを判断する。文書検索部503は、位置情報に示される位置関係を満たさない場合には(S1404でNo)、処理をS1405へ進める。S1405において、文書検索部503は、電子文書の候補は、撮影画像に対応する電子文書ではなく、電子文書の特定ができないと判断し、電子文書検索処理を終了する。
In step S1403, the
In step S <b> 1404, the
一方、文書検索部503は、位置情報に示される位置関係を満たす場合に(S1404でYes)、処理をS1406へ進める。S1406において、文書検索部503は、位置情報に示される位置関係を満たす電子文書の候補が複数存在するか否かを判断する。文書検索部503は、複数存在する場合には(S1406でYes)、処理をS1405へ進め、電子文書を特定できないと判断し、電子文書検索処理を終了する。
一方、文書検索部503は、位置情報に示される位置関係を満たす電子文書の候補が1つのみ存在する場合には(S1406でNo)、処理をS1407へ進める。S1407において、文書検索部503は、得られた電子文書の候補を、撮影画像に対応する電子文書として特定する(電子文書特定処理)。
なお、文書検索部503は、抽出されたコンテンツ領域の特徴量と、コンテンツ領域間の位置関係とに基づいて撮影画像に対応する電子文書を特定すればよく、そのための具体的な処理は、実施形態に限定されるものではない。
On the other hand, when the positional relationship indicated by the positional information is satisfied (Yes in S1404), the
On the other hand, when there is only one electronic document candidate that satisfies the positional relationship indicated by the positional information (No in S1406), the
Note that the
図15は、図14に示す特徴量照合処理(S1401)における詳細な処理を示すフローチャートである。特徴量照合処理においては、撮影画像において得られたコンテンツ領域に表示される画像と、電子文書のコンテンツの類似度を算出し、算出した類似度に基づいて、コンテンツ領域に対応するコンテンツを特定する。文書検索部503は、具体的には、閾値以上かつ最大の類似度を示すコンテンツをコンテンツ領域の画像に対応するコンテンツとして特定する。
特徴量照合処理の説明に先立ち、特徴量照合処理において使用される記号について説明する。撮影画像から抽出された局所特徴点をQ、座標をQ(x',y')とし、その局所特徴点の局所特徴量をVqとする。また、照合相手の電子文書の1つのコンテンツ上の局所特徴点をS、座標をS(x,y)とし、その局所特徴点の局所特徴量をVsとする。
FIG. 15 is a flowchart showing detailed processing in the feature amount matching processing (S1401) shown in FIG. In the feature amount matching process, the similarity between the image displayed in the content area obtained in the captured image and the content of the electronic document is calculated, and the content corresponding to the content area is specified based on the calculated similarity. . Specifically, the
Prior to the description of the feature amount matching process, symbols used in the feature amount matching process will be described. The local feature point extracted from the captured image is Q, the coordinate is Q (x ′, y ′), and the local feature amount of the local feature point is Vq. Further, a local feature point on one content of the electronic document to be collated is S, a coordinate is S (x, y), and a local feature amount of the local feature point is Vs.
S1500において、文書検索部503は、VqとVsとの局所特徴量間距離を全ての組み合わせについて計算し、最小距離対応点リストを作成する。具体的には、文書検索部503は、まず、VqとVsとの全ての組み合わせについて特徴量間距離を計算する。次に、文書検索部503は、計算した特徴量間距離が閾値Tv以下となり、かつ、最小距離となるようなVqとVsとの組み合わせ(対応点)を抽出する。そして、文書検索部503は、抽出した対応点をリストに登録することで、最小距離対応点リストを作成する。ここで、k番目の最小距離対応点をそれぞれQk、Skと表わし、これらの座標をQk(x'k,y'k)、Sk(xk,yk)等と、添え字を合わせて記載することとする。Qk、Skの局所特徴量をそれぞれVq(k)、Vs(k)と記載する。
なお、1つの局所特徴点に対応付けられる局所特徴量は2つ以上あってもよいが、ここでは簡単のため、1つの局所特徴点に対応付けられる局所特徴量が1つだけの場合について説明する。また、最小距離対応点リストに登録されている対応点の組の数をmとする。
In step S1500, the
Note that there may be two or more local feature quantities associated with one local feature point, but here, for simplicity, a case where only one local feature quantity is associated with one local feature point will be described. To do. Also, let m be the number of pairs of corresponding points registered in the minimum distance corresponding point list.
S1500の処理の後、S1501において、文書検索部503は、mが3以上か否かを確認する。文書検索部503は、mが3未満の場合は(S1501でNo)、類似度を算出できないとして、特徴量照合処理を終了する。文書検索部503は、mが3以上の場合には(S1501でYes)、処理をS1503へ進める。S1503において、文書検索部503は、最終投票数を表す変数VoteMaxを0に初期化する。次に、S1504において、文書検索部503は、類似度算出処理の反復カウント数を表す変数Countを0に初期化する。
次に、S1505において、文書検索部503は、反復カウント数Countと予め定められた最大反復処理回数Rnとを比較する。文書検索部503は、反復カウント数Countが最大反復処理回数Rn以上の場合には(S1505でNo)、処理をS1506へ進める。S1506において、文書検索部503は、最終投票数VoteMax及び回転角度を出力し、特徴量照合処理を終了する。
After the processing of S1500, in S1501, the
In step S <b> 1505, the
文書検索部503は、反復カウント数Countが最大反復処理回数Rn未満の場合は(S1505でYes)、処理をS1507へ進める。S1507において、文書検索部503は、投票数を表す変数Voteを0に初期化する。次に、S1508において、文書検索部503は、最小距離対応点リストから対応点の組の座標をランダムに2組抽出する。ここで、抽出した2組の座標をQ1(x'1,y'1)とS1(x1,y1)、Q2(x'2,y'2)とS2(x2,y2)とする。
次に、S1509において、文書検索部503は、変換行列Mを算出する。ここで、変換行列Mは式(8)で示される。なお、本実施形態においては、簡略化のため相似変換だけを考えるものとする。
In step S1509, the
次に、S1510において、文書検索部503は、S1508において選択された2組の点以外の点を選択すべく、対応点選択変数kを3に初期化する。次に、S1511において、文書検索部503は、対応点選択変数kが最短距離対応点リストに登録されている対応点の組の数m以下か否かを確認する。文書検索部503は、kがm以下の場合には(S1511でYes)、処理をS1512へ進める。文書検索部503は、kがmよりも大きい場合には(S1511でNo)、処理をS1517へ進める。
S1512において、文書検索部503は、最小距離対応点リストから新たな対応点の組を1組抽出する。ここで抽出した座標をSk(xk,yk)、Qk(x'k,y'k)とする。次に、S1513において、文書検索部503は、S1512において抽出された座標Sk(xk,yk)が式(8)により移される先の座標Sk(x'k,y'k)を求める。
In step S1510, the
In step S1512, the
次に、S1514において、文書検索部503は、座標Sk(x'k,y'k)と座標Qk(x'k,y'k)の間の幾何学的距離としてユークリッド距離Dを計算し、ユークリッド距離Dと閾値Tdとを比較する。文書検索部503は、ユークリッド距離Dが閾値Td以下の場合には(S1514でYes)、処理をS1515へ進める。
S1515において、文書検索部503は、投票数Voteをインクリメントし、処理をS1516へ進める。なお、文書検索部503は、ユークリッド距離Dが閾値Tdよりも大きい場合には(S1514でNo)、S1515の処理を行うことなく、処理をS1516へ進める。S1516において、文書検索部503は、対応点選択変数kをインクリメントする。その後、処理をS1511へ進める。そして、対応点選択変数kが当該最短距離対応点リストに登録されている対応点の組数mを超えるまで、上述の処理を繰り返す。
In step S1514, the
In step S1515, the
次に、S1511において、対応点選択変数kが対応点リストに登録されている対応点の組数mを超えた場合の処理について説明する。S1517において、文書検索部503は、投票数Voteの値と最終投票数VoteMaxの値とを比較する。文書検索部503は、投票数Voteの値が最終投票数VoteMaxの値よりも大きい場合には(S1517でYes)、処理をS1518へ進める。文書検索部503は、投票数Voteの値が最終投票数VoteMaxの値以下の場合には(S1517でNo)、処理をS1519へ進める。
S1518において、文書検索部503は、最終投票数VoteMaxの値を投票数Voteの値で置き換えるとともに、その時の変換行列Mを変数Mmaxに保存する。その後、S1519において、文書検索部503は、反復カウント数Countをインクリメントし、上述のS1505へ処理を進める。
Next, a process when the corresponding point selection variable k exceeds the number m of corresponding points registered in the corresponding point list in S1511 will be described. In step S1517, the
In step S1518, the
なお、S1509において、式(8)に示す変換行列以外の変換行列を用いることにより、アフィン変換等その他の幾何学変換に対応可能である。アフィン変換の場合には、S1508においてランダムに選択する対応点の組の座標数を3とする。また、S1509において式(8)に替えて、式(13)を用いることとし、S1508において選択した3組の対応点(合計6点)を使って変数a〜fを求めればよい。
以上の処理により、文書検索部503は、最終投票数VoteMaxを類似度として算出することができる(類似度算出処理)。そして、文書検索部503は、算出された類似度が予め定められた閾値よりも大きく、類似度が一番高くなるコンテンツを処理対象のコンテンツ領域に対応するコンテンツとして特定することができる。
なお、本実施形態においては、S1506において、最終投票数VoteMaxを類似度として出力することとしたが、類似度の算出方法は、実施形態に限定されるものではない。他の例としては、文書検索部503は、S1503以降の処理を行うことなく、対応点の組数mを類似度として出力してもよい。
また、上記説明では、局所特徴点/局所特徴量の比較に基づく画像の照合方法としてRANSACを利用した方法を説明した。しかしながら、特徴量照合処理は、2つの画像間の類似度が算出でき、類似度算出の過程において処理負荷の低い方法で回転角度を推定できる方法があれば、他の方法であってもよい。
Through the above processing, the
In the present embodiment, the final vote number VoteMax is output as the similarity in S1506, but the method of calculating the similarity is not limited to the embodiment. As another example, the
In the above description, a method using RANSAC as an image matching method based on the comparison of local feature points / local feature amounts has been described. However, the feature amount matching process may be another method as long as there is a method that can calculate the similarity between two images and can estimate the rotation angle by a method with a low processing load in the process of calculating the similarity.
以上のように、本実施形態に係るAR処理システムは、撮影画像から得られたコンテンツと、特徴量テーブル600に登録されているコンテンツとの単なる比較ではなく、周囲のコンテンツとの位置関係を考慮してコンテンツを特定する。したがって、AR処理システムは、より精度よくコンテンツの特定を行うことができ、これにより、ユーザが閲覧中のコンテンツに対応付けられた関連情報を精度よく提示することができる。
また、AR処理システムは、撮影時の撮影方向の変化等から、各フレーム間の位置関係を特定し、これに基づいてコンテンツ間の位置関係を特定する。したがって、AR処理システムは、1つの紙文書に配置された複数のコンテンツが1フレームに収まりきらない場合においても、精度よく各コンテンツの位置関係を特定することができる。
As described above, the AR processing system according to the present embodiment considers the positional relationship between the content obtained from the photographed image and the content registered in the feature amount table 600, not the simple content. To identify the content. Therefore, the AR processing system can specify the content with higher accuracy, and thereby can present the related information associated with the content being browsed by the user with high accuracy.
Further, the AR processing system specifies the positional relationship between the frames based on the change in the shooting direction at the time of shooting, and specifies the positional relationship between the contents based on the positional relationship. Therefore, the AR processing system can accurately specify the positional relationship of each content even when a plurality of contents arranged in one paper document cannot be accommodated in one frame.
第1の実施形態に係るAR処理システムの第1の変更例としては、撮影画像中のすべてのフレームを処理対象とする必要はない。例えば、所定間隔毎のフレームを処理対象とし、このフレームに対して、図7に示す位置関連情報の生成(S702)、撮影画像等の送信(S703)、画像解析(S704)を行い、これらの結果に基づいて、S705以降の処理を行ってもよい。これにより、処理回数を削減することができ、処理負担を軽減することができる。
また、撮影画像は静止画であってもよい。この場合には、AR処理システムは、連続撮影又は異なるタイミングで撮影された撮影画像を処理対象としてもよい。具体的には、AR処理システムは、S702において、位置関連情報を生成し、さらに撮影画像が得られたタイミングも特定する。そして、撮影画像としての静止画に対し、S703以降の処理を行ってもよい。
また、第2の変更例としては、図7に示すS704〜S706の処理は、管理サーバ装置110に替えて、携帯端末100が行ってもよい。また、他の例としては、管理サーバ装置110は、複数の装置で構成されており、S704〜S706の処理を複数の装置が分担して実行してもよい。
As a first modification of the AR processing system according to the first embodiment, it is not necessary to set all frames in a captured image as a processing target. For example, a frame at a predetermined interval is set as a processing target, and position related information generation (S702), transmission of a photographed image, etc. (S703) and image analysis (S704) shown in FIG. Based on the result, the processing after S705 may be performed. As a result, the number of processes can be reduced, and the processing load can be reduced.
Further, the captured image may be a still image. In this case, the AR processing system may process continuously captured images captured at different timings. Specifically, in step S702, the AR processing system generates position related information and further specifies the timing at which the captured image is obtained. And you may perform the process after S703 with respect to the still image as a picked-up image.
As a second modification, the processing of S704 to S706 illustrated in FIG. 7 may be performed by the
(第2の実施形態)
次に、第2の実施形態に係るAR処理システムについて説明する。第1の実施形態に係るAR処理システムは、撮影画像から対応する電子文書を特定できなかった場合には、後続のフレームが入力されるのを待ち、後続のフレームから得られた情報に基づいて再度電子文書の特定を試みる。
これに対し、第2の実施形態に係るAR処理システムは、撮影画像から対応する電子文書を特定できなかった場合には、特定するために必要な画像を撮影するための支援情報を携帯端末100の表示装置101に表示する。以下、第2の実施形態に係るAR処理システムの具体的な処理のうち、第1の実施形態に係るAR処理システムの処理と異なる部分について説明する。
(Second Embodiment)
Next, an AR processing system according to the second embodiment will be described. When the AR processing system according to the first embodiment cannot identify the corresponding electronic document from the captured image, the AR processing system waits for the subsequent frame to be input, and based on the information obtained from the subsequent frame. Try to identify the electronic document again.
On the other hand, the AR processing system according to the second embodiment, when the corresponding electronic document cannot be identified from the captured image, provides support information for capturing an image necessary for specifying the
図16は、管理サーバ装置110による、支援情報送信処理を示すフローチャートである。管理サーバ装置110は、図7を参照しつつ説明したAR処理のS706においてNoと判断された場合に、処理をS703へ進めるのに替えて、支援情報送信処理を実行する。S1601において、管理サーバ装置110の文書検索部503は、電子文書検索処理(S705)において、位置情報を満たす電子文書の候補が複数得られたか否かを確認する。文書検索部503は、電子文書の候補が複数得られた場合には(S1601でYes)、処理をS1603へ進める。文書検索部503は、位置情報を満たす電子文書の候補が得られなかった場合には(S1601でNo)、処理をS1602へ進める。
S1602において、通信部500は、は、関連情報がない旨を示す提示情報を携帯端末100に送信する。これに対応し、携帯端末100の通信部400は、提示情報を受信する。そして、携帯端末100の表示部404は、表示装置101に提示情報を表示する。これにより、携帯端末100のユーザは、閲覧中の紙文書に対する関連情報が存在しないと把握することができる。
FIG. 16 is a flowchart showing support information transmission processing by the
In S1602, the
S1603において、文書検索部503は、特徴量テーブル600を参照し、複数の候補に対応付けられているコンテンツの中から、撮影画像に対応する1つの電子文書に絞り込むために必要なコンテンツを特定する(コンテンツ特定処理)。ここで、複数の候補は、電子文書検索処理(S705)において得られたものである。
次に、S1604において、文書検索部503は、S1603において特定したコンテンツに基づいて、支援情報を作成する(支援情報作成処理)。具体的には、文書検索部503は、特定したコンテンツが撮影されるように、携帯端末100の撮影部300による撮影方向を変更するための指示を支援情報として作成する。
次に、S1605において、通信部500は、支援情報を携帯端末100に送信し、その後、処理をS704(図7)へ進める。これに対応し、携帯端末100の通信部400は、支援情報を受信する。そして、携帯端末100の表示部404は、表示装置101に支援情報を表示する(支援情報表示処理)。これにより、携帯端末100のユーザは、撮影方向を変更することにより関連情報を見ることができる、ということを把握することができる。
In step S <b> 1603, the
In step S1604, the
Next, in S1605, the
図17を参照しつつ、支援情報送信処理を具体的に説明する。前提として、図17(a)に示すように、特徴量テーブル1700には、文書ID「011」,「012」の電子文書が登録されているものとする。また、AR処理において、3つのコンテンツ領域が抽出され、図17(b)に示すように、撮影画像テーブル1710には、3つのコンテンツ領域に対応するレコードが記録されているものとする。
図17に示すように、領域ID「a011」のコンテンツ領域の特徴量は、文書ID「011」のコンテンツID「A」のコンテンツの特徴量と一致するものとする。また、図17に示すように、領域ID「a012」のコンテンツ領域の特徴量は、文書ID「012」のコンテンツID「C」のコンテンツの特徴量と一致するものとする。この場合、文書検索部503は、文書ID「011」,「012」により識別される2つの電子文書が候補として特定され、撮影画像がいずれの候補に対応するのか特定することができない。
The support information transmission process will be specifically described with reference to FIG. As a premise, as shown in FIG. 17A, it is assumed that electronic documents having document IDs “011” and “012” are registered in the feature amount table 1700. In the AR process, it is assumed that three content areas are extracted, and records corresponding to the three content areas are recorded in the captured image table 1710 as shown in FIG.
As illustrated in FIG. 17, it is assumed that the feature amount of the content area with the region ID “a011” matches the feature amount of the content with the content ID “A” of the document ID “011”. Also, as shown in FIG. 17, the feature amount of the content area with the region ID “a012” is assumed to match the feature amount of the content with the content ID “C” of the document ID “012”. In this case, the
したがって、S1603において、文書検索部503は、電子文書の候補に対応付けられているコンテンツのうち、撮影画像テーブル1000に記録されているコンテンツ領域と一致するコンテンツとの位置関係が登録されたコンテンツを特定する。すなわち、このとき特定されるコンテンツは、コンテンツ領域と一致するコンテンツ以外のコンテンツである。図17の例においては、文書検索部503は、文書ID「011」のコンテンツID「D」のコンテンツと、文書ID「012」のコンテンツID「E」のコンテンツを特定する。
Therefore, in step S1603, the
そして、S1604において、文書検索部503は、S1603において特定されたコンテンツID「D」,「E」のコンテンツそれぞれを撮影するための撮影方向を決定する。例えば、S1604の処理時点において携帯端末100の表示装置101に表示されているフレームに、領域ID「a013」のコンテンツ領域が表示されているとする。この場合、文書検索部503は、撮影方向をより下又は左上に向けることを指示する支援情報を作成する。これにより、コンテンツID「E」のコンテンツを表示するコンテンツ領域が撮影されれば、撮影画像に対応する電子文書は、文書ID「012」の文書であるということがわかる。また、コンテンツID「D」のコンテンツを表示するコンテンツ領域が撮影されれば、撮影画像に対応する電子文書は、文書ID「011」の文書であるということがわかる。
In step S <b> 1604, the
図18は、支援情報の表示例を示す図である。このように、携帯端末100の表示部404は、支援情報から撮影方向を示す矢印画像1800を作成し、これを表示装置101に表示する。なお、支援情報の出力形態は実施形態に限定されるものではない。他の例としては、表示装置101は、テキスト形式で支援情報を表示してもよい。また、他の例としては、携帯端末100がスピーカ(不図示)を備える場合には、支援情報を音声として出力してもよい。
なお、第2の実施形態にかかるAR処理システムのこれ以外の構成及び処理は、第1の実施形態にかかるAR処理システムの構成及び処理と同様である。
以上のように、第2の実施形態に係るAR処理システムにおいては、撮影画像に対応する電子文書を一意に特定できない場合に、ユーザに対し必要な操作を求めることにより、より早く、また確実に電子文書を特定し、適切な関連情報を提示することができる。
FIG. 18 is a diagram illustrating a display example of support information. As described above, the
The remaining configuration and processing of the AR processing system according to the second embodiment are the same as the configuration and processing of the AR processing system according to the first embodiment.
As described above, in the AR processing system according to the second embodiment, when the electronic document corresponding to the photographed image cannot be uniquely specified, the user is requested to perform a necessary operation, thereby more quickly and reliably. An electronic document can be identified and appropriate relevant information can be presented.
<その他の実施形態>
また、本発明の目的は、以下のようにすることによって達成されることは言うまでもない。すなわち、前述した実施形態の機能を実現するソフトウェアのプログラムコード(コンピュータプログラム)を記録した記録媒体(または記憶媒体)を、システムあるいは装置に供給する。係る記憶媒体は言うまでもなく、コンピュータ読み取り可能な記憶媒体である。
そして、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記憶媒体に格納されたプログラムコードを読み出し実行する。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。また、ソフトウェアのプログラムコードは、ネットワークを介して、そのシステムあるいは装置に供給されてもよい。
<Other embodiments>
Needless to say, the object of the present invention can be achieved as follows. That is, a recording medium (or storage medium) that records a program code (computer program) of software that implements the functions of the above-described embodiments is supplied to the system or apparatus. Needless to say, such a storage medium is a computer-readable storage medium.
Then, the computer (or CPU or MPU) of the system or apparatus reads and executes the program code stored in the storage medium. In this case, the program code itself read from the storage medium realizes the functions of the above-described embodiments, and the storage medium storing the program code constitutes the present invention. Moreover, the program code of software may be supplied to the system or apparatus via a network.
また、コンピュータが読み出したプログラムコードの指示に基づき、コンピュータ上で稼働しているオペレーティングシステム(OS)等が実際の処理の一部または全部を行う。その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。 An operating system (OS) operating on the computer performs part or all of the actual processing based on the instruction of the program code read by the computer. Needless to say, the process includes the case where the functions of the above-described embodiments are realized.
さらに、記憶媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれたとする。その後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPU等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
本発明を上記記憶媒体に適用する場合、その記憶媒体には、先に説明したフローチャートに対応するプログラムコードが格納されることになる。
Furthermore, it is assumed that the program code read from the storage medium is written in a memory provided in a function expansion board inserted into the computer or a function expansion unit connected to the computer. After that, based on the instruction of the program code, the CPU of the function expansion board or function expansion unit performs part or all of the actual processing, and the processing of the above-described embodiment is realized by the processing. Needless to say.
When the present invention is applied to the storage medium, the storage medium stores program codes corresponding to the flowcharts described above.
以上、上述した各実施形態によれば、撮影画像の被写体を精度よく特定することができる。 As mentioned above, according to each embodiment mentioned above, the photographic subject can be specified accurately.
以上、本発明の好ましい実施形態について詳述したが、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。 The preferred embodiments of the present invention have been described in detail above, but the present invention is not limited to such specific embodiments, and various modifications can be made within the scope of the gist of the present invention described in the claims.・ Change is possible.
100 携帯端末
101 表示装置
110 管理サーバ装置
300 撮影部
301 加速度センサ
302 CPU
DESCRIPTION OF
Claims (11)
前記コンテンツ領域の特徴量を算出する特徴量算出手段と、
前記複数のコンテンツ領域間の位置関係を特定する位置特定手段と、
1枚の紙媒体に対応する電子文書に対応付けて、1つの電子文書に含まれる複数のコンテンツの特徴量を記憶し、さらに1つの電子文書に含まれる複数のコンテンツ間の位置関係を示す位置情報を記憶する記憶手段を参照し、前記特徴量算出手段により算出された複数のコンテンツ領域それぞれの特徴量と、前記位置特定手段により特定された複数のコンテンツ領域間の位置関係とに基づいて、前記複数の撮影画像に対応する電子文書を特定する電子文書特定手段と
を有することを特徴とする情報処理システム。 Area extracting means for extracting a plurality of content areas from a plurality of photographed images obtained by photographing a part of one paper medium;
A feature amount calculating means for calculating a feature amount of the content area;
Position specifying means for specifying a positional relationship between the plurality of content areas;
A position that stores feature quantities of a plurality of contents included in one electronic document in association with an electronic document corresponding to one paper medium, and further indicates a positional relationship between the plurality of contents included in one electronic document With reference to the storage means for storing information, based on the feature amounts of each of the plurality of content areas calculated by the feature amount calculation means and the positional relationship between the plurality of content areas specified by the position specifying means, An information processing system comprising electronic document specifying means for specifying an electronic document corresponding to the plurality of photographed images.
前記類似度に基づいて、前記領域抽出手段により抽出された複数のコンテンツ領域それぞれに対応するコンテンツを特定する第1のコンテンツ特定手段と
をさらに有し、
前記電子文書特定手段は、前記位置特定手段により特定された位置関係が、前記第1のコンテンツ特定手段により特定された複数の前記コンテンツに対して前記記憶手段に記憶されている前記位置情報に示される位置関係を満たす場合に、前記位置情報に対応する電子文書を、前記撮影画像に対応する電子文書として特定することを特徴とする請求項1又は2に記載の情報処理システム。 Similarity calculation means for calculating the similarity based on the feature quantities of the plurality of content regions extracted by the area extraction means and the feature quantities of the content;
First content specifying means for specifying content corresponding to each of the plurality of content areas extracted by the area extracting means based on the similarity;
The electronic document specifying means indicates the positional relationship specified by the position specifying means in the position information stored in the storage means for the plurality of contents specified by the first content specifying means. 3. The information processing system according to claim 1, wherein an electronic document corresponding to the position information is specified as an electronic document corresponding to the photographed image when the positional relationship is satisfied.
前記領域抽出手段により抽出されたコンテンツ領域に対応し、前記電子文書特定手段により特定された前記電子文書に含まれるコンテンツに対応付けて前記記憶手段に記憶されている関連情報を抽出する関連情報抽出手段をさらに有することを特徴とする請求項3又は4に記載の情報処理システム。 The storage means further stores related information in association with the content,
Related information extraction for extracting the related information stored in the storage means in association with the content included in the electronic document specified by the electronic document specifying means, corresponding to the content area extracted by the area extracting means The information processing system according to claim 3 or 4, further comprising means.
前記第2のコンテンツに基づいて、ユーザに撮影方向の変更を促す支援情報を作成する支援情報作成手段と、
前記支援情報を表示する支援情報表示手段と
をさらに有することを特徴とする請求項3乃至6何れか1項に記載の情報処理システム。 Second content specification that specifies content necessary for narrowing down based on the positional information when the positional relationship specified by the position specifying means satisfies the positional relationship indicated by each of the positional information of a plurality of electronic documents. Means,
Support information creating means for creating support information that prompts the user to change the shooting direction based on the second content;
The information processing system according to claim 3, further comprising support information display means for displaying the support information.
前記コンテンツ領域の特徴量を算出する特徴量算出手段と、
前記複数のコンテンツ領域間の位置関係を特定する位置特定手段と、
1枚の紙媒体に対応する電子文書に対応付けて、1つの電子文書に含まれる複数のコンテンツの特徴量を記憶し、さらに1つの電子文書に含まれる複数のコンテンツ間の位置関係を示す位置情報を記憶する記憶手段を参照し、前記特徴量算出手段により算出された複数のコンテンツ領域それぞれの特徴量と、前記位置特定手段により特定された複数のコンテンツ領域間の位置関係とに基づいて、前記複数の撮影画像に対応する電子文書を特定する電子文書特定手段と
を有することを特徴とする情報処理装置。 Area extracting means for extracting a plurality of content areas from a plurality of photographed images obtained by photographing a part of one paper medium;
A feature amount calculating means for calculating a feature amount of the content area;
Position specifying means for specifying a positional relationship between the plurality of content areas;
A position that stores feature quantities of a plurality of contents included in one electronic document in association with an electronic document corresponding to one paper medium, and further indicates a positional relationship between the plurality of contents included in one electronic document With reference to the storage means for storing information, based on the feature amounts of each of the plurality of content areas calculated by the feature amount calculation means and the positional relationship between the plurality of content areas specified by the position specifying means, An information processing apparatus comprising: an electronic document specifying unit that specifies an electronic document corresponding to the plurality of captured images.
1枚の紙媒体の一部が撮影された複数の撮影画像から、複数のコンテンツ領域を抽出する領域抽出ステップと、
前記コンテンツ領域の特徴量を算出する特徴量算出ステップと、
前記複数のコンテンツ領域間の位置関係を特定する位置特定ステップと、
1枚の紙媒体に対応する電子文書に対応付けて、1つの電子文書に含まれる複数のコンテンツの特徴量を記憶し、さらに1つの電子文書に含まれる複数のコンテンツ間の位置関係を示す位置情報を記憶する記憶手段を参照し、前記特徴量算出ステップにおいて算出された複数のコンテンツ領域それぞれの特徴量と、前記位置特定ステップにおいて特定された複数のコンテンツ領域間の位置関係とに基づいて、前記複数の撮影画像に対応する電子文書を特定する電子文書特定ステップと
を含むことを特徴とする情報処理方法。 An information processing method executed by an information processing system,
A region extracting step of extracting a plurality of content regions from a plurality of captured images obtained by capturing a part of one paper medium;
A feature amount calculating step for calculating a feature amount of the content area;
A position specifying step for specifying a positional relationship between the plurality of content areas;
A position that stores feature quantities of a plurality of contents included in one electronic document in association with an electronic document corresponding to one paper medium, and further indicates a positional relationship between the plurality of contents included in one electronic document With reference to storage means for storing information, based on the feature amounts of each of the plurality of content areas calculated in the feature amount calculation step and the positional relationship between the plurality of content areas specified in the position specifying step, And an electronic document specifying step of specifying an electronic document corresponding to the plurality of photographed images.
1枚の紙媒体の一部が撮影された複数の撮影画像から、複数のコンテンツ領域を抽出する領域抽出ステップと、
前記コンテンツ領域の特徴量を算出する特徴量算出ステップと、
前記複数のコンテンツ領域間の位置関係を特定する位置特定ステップと、
1枚の紙媒体に対応する電子文書に対応付けて、1つの電子文書に含まれる複数のコンテンツの特徴量を記憶し、さらに1つの電子文書に含まれる複数のコンテンツ間の位置関係を示す位置情報を記憶する記憶手段を参照し、前記特徴量算出ステップにおいて算出された複数のコンテンツ領域それぞれの特徴量と、前記位置特定ステップにおいて特定された複数のコンテンツ領域間の位置関係とに基づいて、前記複数の撮影画像に対応する電子文書を特定する電子文書特定ステップと
を含むことを特徴とする情報処理方法。 An information processing method executed by an information processing apparatus,
A region extracting step of extracting a plurality of content regions from a plurality of captured images obtained by capturing a part of one paper medium;
A feature amount calculating step for calculating a feature amount of the content area;
A position specifying step for specifying a positional relationship between the plurality of content areas;
A position that stores feature quantities of a plurality of contents included in one electronic document in association with an electronic document corresponding to one paper medium, and further indicates a positional relationship between the plurality of contents included in one electronic document With reference to storage means for storing information, based on the feature amounts of each of the plurality of content areas calculated in the feature amount calculation step and the positional relationship between the plurality of content areas specified in the position specifying step, And an electronic document specifying step of specifying an electronic document corresponding to the plurality of photographed images.
1枚の紙媒体の一部が撮影された複数の撮影画像から、複数のコンテンツ領域を抽出する領域抽出手段と、
前記コンテンツ領域の特徴量を算出する特徴量算出手段と、
前記複数のコンテンツ領域間の位置関係を特定する位置特定手段と、
1枚の紙媒体に対応する電子文書に対応付けて、1つの電子文書に含まれる複数のコンテンツの特徴量を記憶し、さらに1つの電子文書に含まれる複数のコンテンツ間の位置関係を示す位置情報を記憶する記憶手段を参照し、前記特徴量算出手段により算出された複数のコンテンツ領域それぞれの特徴量と、前記位置特定手段により特定された複数のコンテンツ領域間の位置関係とに基づいて、前記複数の撮影画像に対応する電子文書を特定する電子文書特定手段と
として機能させるためのプログラム。 Computer
Area extracting means for extracting a plurality of content areas from a plurality of photographed images obtained by photographing a part of one paper medium;
A feature amount calculating means for calculating a feature amount of the content area;
Position specifying means for specifying a positional relationship between the plurality of content areas;
A position that stores feature quantities of a plurality of contents included in one electronic document in association with an electronic document corresponding to one paper medium, and further indicates a positional relationship between the plurality of contents included in one electronic document With reference to the storage means for storing information, based on the feature amounts of each of the plurality of content areas calculated by the feature amount calculation means and the positional relationship between the plurality of content areas specified by the position specifying means, A program for functioning as electronic document specifying means for specifying an electronic document corresponding to the plurality of captured images.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014150865A JP2016025625A (en) | 2014-07-24 | 2014-07-24 | Information processor, information processing method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014150865A JP2016025625A (en) | 2014-07-24 | 2014-07-24 | Information processor, information processing method, and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2016025625A true JP2016025625A (en) | 2016-02-08 |
Family
ID=55272006
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014150865A Pending JP2016025625A (en) | 2014-07-24 | 2014-07-24 | Information processor, information processing method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2016025625A (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018028714A (en) * | 2016-08-15 | 2018-02-22 | 富士ゼロックス株式会社 | Information processing apparatus and program |
JP2019028700A (en) * | 2017-07-28 | 2019-02-21 | 日本電信電話株式会社 | Verification device, method, and program |
JP2021005417A (en) * | 2020-10-02 | 2021-01-14 | 日本電信電話株式会社 | Verification device, method, and program |
-
2014
- 2014-07-24 JP JP2014150865A patent/JP2016025625A/en active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018028714A (en) * | 2016-08-15 | 2018-02-22 | 富士ゼロックス株式会社 | Information processing apparatus and program |
JP2019028700A (en) * | 2017-07-28 | 2019-02-21 | 日本電信電話株式会社 | Verification device, method, and program |
JP2021005417A (en) * | 2020-10-02 | 2021-01-14 | 日本電信電話株式会社 | Verification device, method, and program |
JP7016130B2 (en) | 2020-10-02 | 2022-02-04 | 日本電信電話株式会社 | Verification equipment, methods, and programs |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101706793B (en) | Method and device for searching picture | |
CN107885430B (en) | Audio playing method and device, storage medium and electronic equipment | |
US20170032551A1 (en) | Image Distractor Detection and Processing | |
RU2631765C1 (en) | Method and system of correcting perspective distortions in images occupying double-page spread | |
US11113998B2 (en) | Generating three-dimensional user experience based on two-dimensional media content | |
JP2019215647A (en) | Information processing device, control method of the same and program | |
JP6061502B2 (en) | Image processing apparatus, image processing method, and program | |
CN107085699B (en) | Information processing apparatus, control method of information processing apparatus, and storage medium | |
JP2016025625A (en) | Information processor, information processing method, and program | |
US10699145B1 (en) | Systems and methods for augmented reality assisted form data capture | |
JP6171660B2 (en) | Information processing apparatus, information processing system, and program | |
JP6669390B2 (en) | Information processing apparatus, information processing method, and program | |
US20220269396A1 (en) | Dynamic targeting of preferred objects in video stream of smartphone camera | |
JPH10254901A (en) | Method and device for retrieving image | |
JP5278093B2 (en) | Article related information providing method, apparatus, program, and recording medium | |
JP2015060421A (en) | Similar image search method, and similar image search device | |
JP6419560B2 (en) | Search device, method and program | |
US9330310B2 (en) | Methods and devices for obtaining card information | |
JP6115673B2 (en) | Apparatus and program | |
US10762344B2 (en) | Method and system for using whiteboard changes as interactive directives for vectorization software | |
US20180189602A1 (en) | Method of and system for determining and selecting media representing event diversity | |
WO2015100070A1 (en) | Presenting information based on a video | |
JP2021501432A (en) | Image classification device and method | |
KR102599525B1 (en) | Method, device and system for displaying screen by improving visibility of image of interest | |
CN114120016B (en) | Character string extraction method, device, equipment and storage medium |