JP2014203347A - 文書検索システム、文書検索装置、文書検索方法及びプログラム - Google Patents

文書検索システム、文書検索装置、文書検索方法及びプログラム Download PDF

Info

Publication number
JP2014203347A
JP2014203347A JP2013080492A JP2013080492A JP2014203347A JP 2014203347 A JP2014203347 A JP 2014203347A JP 2013080492 A JP2013080492 A JP 2013080492A JP 2013080492 A JP2013080492 A JP 2013080492A JP 2014203347 A JP2014203347 A JP 2014203347A
Authority
JP
Japan
Prior art keywords
page
document
search
electronic
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2013080492A
Other languages
English (en)
Inventor
茂雄 福岡
Shigeo Fukuoka
茂雄 福岡
池田 裕章
Hiroaki Ikeda
裕章 池田
金田 北洋
Kitahiro Kaneda
北洋 金田
耕二 原田
Koji Harada
耕二 原田
田頭 信博
Nobuhiro Tagashira
信博 田頭
一也 岸
Kazuya Kishi
一也 岸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2013080492A priority Critical patent/JP2014203347A/ja
Publication of JP2014203347A publication Critical patent/JP2014203347A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Processing Or Creating Images (AREA)

Abstract

【課題】ユーザによる面倒な操作を要することなく、効率的にオリジナルの電子文書を検索することを目的とする。【解決手段】文書検索システムであって、ページ単位で撮影された文書の撮影画像を受け付ける受付手段と、記憶手段に記憶される複数の電子文書のページの中から撮影画像に類似するページを含む電子文書を検索する検索手段と、検索手段により、文書に対応する複数の電子文書が得られた場合に、複数の電子文書間のページ毎の特徴量の差分に基づいて、撮影対象とする対象ページを特定するページ特定手段と、対象ページを指定する撮影指示情報を出力する出力手段とを有することによって課題を解決する。【選択図】図1

Description

本発明は、文書検索システム、文書検索装置、文書検索方法及びプログラムに関する。
オフィスで使用される文書は、複数ページから構成されている場合が多い。また、1つの電子文書を電子的にコピーした上で改変し、新たな電子文書が作成される場合が多い。このため、システム内に類似する電子文書が数多く存在する場合がある。
このような電子文書は印刷され、印刷物として、会議等において参加者等に配布される。ユーザは、手元にある印刷物に対応する、オリジナルの電子文書を所望する場合がある。このような要望に対応し、例えば特許文献1には、ドキュメントフィーダを備えるMFPを用いて、複数ページからなる紙文書に対応するオリジナルの電子文書を取得する技術が開示されている。
特許第4047222号
印刷物からオリジナルの電子文書を検索する方法として、デジタルカメラやスマートフォン、タブレットデバイス等に備えられた撮影装置で印刷物を撮影し、得られた撮影画像に類似する電子文書を検索する方法が考えられる。しかしながら、電子文書が複数ページを有する場合は、ユーザは、印刷物の各ページを撮影しなければならず、手間がかかるという問題があった。また、複数ページそれぞれに類似するページを検索するため、検索処理の演算量が多くなるという問題があった。
本発明はこのような問題点に鑑みなされたもので、ユーザによる面倒な操作を要することなく、効率的にオリジナルの電子文書を検索することのできる仕組みを提供することを目的とする。
そこで、本発明は、文書に対応する電子文書を検索する文書検索システムであって、ページ単位で撮影された前記文書の撮影画像を受け付ける受付手段と、記憶手段に記憶される複数の電子文書のページの中から前記撮影画像に類似するページを含む電子文書を検索する検索手段と、前記検索手段により、前記文書に対応する複数の前記電子文書が得られた場合に、前記複数の電子文書間のページ毎の特徴量の差分に基づいて、撮影対象とする対象ページを特定するページ特定手段と、前記対象ページを指定する撮影指示情報を出力する出力手段とを有することを特徴とする。
本発明によれば、ユーザによる面倒な操作を要することなく、効率的にオリジナルの電子文書を検索することができる。
文書検索システムを示す図である。 検索依頼処理を示すフローチャートである。 検索結果表示画面の一例を示す図である。 DBの一例を示す図である。 検索処理を示すフローチャートである。 文書候補リストの一例を示す図である。 検索処理を説明するための図である。 検索処理を示すフローチャートである。 検索処理を説明するための図である。 検索処理を説明するための図である。 検索処理を説明するための図である。 検索処理を説明するための図である。 検索処理を説明するための図である。
以下、本発明の実施形態について図面に基づいて説明する。
(第1の実施形態)
図1は、第1の実施形態にかかる文書検索システムを示す図である。文書検索システムは、タブレット端末10と、検索装置としての検索サーバ装置20とを備えている。タブレット端末10と検索サーバ装置20とは、インターネット等のネットワーク30で接続されている。
文書検索システムにおいては、ユーザは、タブレット端末10を用いて、オリジナル文書の入手を希望する紙文書を撮影し、撮影画像を得る。そして、タブレット端末10は、撮影画像を検索サーバ装置20に送信する。検索サーバ装置20は、複数の電子文書を格納している。検索サーバ装置20は、撮影画像と各電子文書のページ画像とを比較し、撮影画像に類似するページ画像を検索することにより、紙文書に対応するオリジナルの電子文書(オリジナル文書)を検索する。
なお、本実施形態においては、オリジナル文書を特定する元となる元文書として紙文書を例に説明するが、元文書は紙媒体に限定されるものではない。他の例としては、元文書は、表示装置に表示される電子文書であってもよい。この場合には、文書検索システムは、表示装置に表示される文書を撮影することにより得られた撮影画像に基づいて、表示装置に表示される電子文書に対応するオリジナルの電子文書を検索すればよい。
タブレット端末10の撮影部101は、カメラ等の撮影装置である。撮影部101は、紙文書を撮影し、撮影画像を得る。ここで、紙文書は、検索サーバ装置20に登録されている電子文書の印刷物であり、複数のページを有している。撮影部101は、ページ単位で紙文書を撮影する。すなわち、撮影画像は、紙文書の任意の1ページを示す画像である。
通信部102は、ネットワークIFであり、検索サーバ装置20との間で各種情報を送受信する。通信部102は、例えば撮影画像を検索サーバ装置20に送信する。検索サーバ装置20は、撮影画像に対応する電子文書、すなわちオリジナル文書を検索し、検索結果をタブレット端末10に送信する。これに対応し、通信部102は、検索結果を受信する。
表示部103は、撮影画像や検索結果等、各種情報を表示する。操作部104は、オペレータによる指示を受け付ける。なお、表示部103及び操作部104は、タッチパネルとして一体に設けられていてもよい。制御部105は、CPUであり、タブレット端末10全体を制御する。記憶部106は、例えばROMやRAM、HDD等であり、各種情報を記憶する。
次に、検索サーバ装置20について説明する。検索サーバ装置20の通信部200は、ネットワークIFであり、タブレット端末10との間で各種情報を送受信する。通信部200は、例えば撮影画像を受信し、検索結果を送信する。画像処理部201は、受信した撮影画像に対し、補正等の画像処理を施し、特徴量を抽出可能な画像に変換する。ここで、特徴量は、例えば撮影画像が文字及び画像のいずれを示すかを、撮影画像内のブロック単位で示す情報である。特徴量については、後に詳述する。
制御部202は、CPUであり、検索サーバ装置20全体を制御する。記憶部203は、ROMやRAM、HDD等であり、撮影画像や検索結果を格納する。電子文書DB204は、検索サーバ装置20に登録されている電子文書の情報を蓄積するデータベースである。特徴量DB205は、電子文書DB204に蓄積されている電子文書の各ページの特徴量を蓄積するデータベースである。
なお、後述するタブレット端末10の機能や処理は、制御部105が記憶部106に格納されているプログラムを読み出し、このプログラムを実行することにより実現されるものである。また、後述する検索サーバ装置20の機能や処理は、制御部202が記憶部203に格納されているプログラムを読み出し、このプログラムを実行することにより実現されるものである。制御部202は、プログラムの実行により、例えば撮影画像の特徴量抽出処理、撮影画像に基づく電子文書検索処理、特徴量DB205に格納されている特徴量の差分算出処理等を行う。なお、各処理については後に詳述する。
図2は、タブレット端末10による検索依頼処理を示すフローチャートである。タブレット端末10は、検索依頼処理により、検索サーバ装置20に対し、紙文書に対応する電子文書の検索を依頼する。ステップS201において、制御部105は、通信部102を介して、検索サーバ装置20に対し文書候補リストの初期化要求を送信する。これに対応し、検索サーバ装置20においては、文書候補リストの初期化処理が行われる。なお、文書候補リスト及び検索サーバ装置20における文書候補リストの初期化処理については後述する。
次に、ステップS202において、制御部105は、撮影部101から撮影画像を受け付ける(受付処理)。具体的には、ユーザは、表示部103に表示された撮影対象を参照しつつ、操作部104を操作することにより、オリジナル文書の入手を希望する紙文書の任意のページの撮影指示を入力する。これに対応し、撮影部101は、撮影指示に従い、オリジナル文書の入手を希望する紙文書の任意のページを撮影し、撮影画像を得る。そして、制御部105は、撮影部101により得られた撮影画像を受け付ける。
次に、ステップS203において、制御部105は、通信部102を介して、撮影画像を検索サーバ装置20に送信する。これに対応し、検索サーバ装置20は、撮影画像に基づいて、オリジナル文書を検索し、検索結果をタブレット端末10に送信する。検索サーバ装置20はまた、適宜撮影指示情報をタブレット端末10に送信する。
ここで、撮影指示情報とは、タブレット端末10のユーザに対し、撮影画像と異なるページの撮影を指示する情報である。検索サーバ装置20は、撮影画像に類似するページを含む電子文書が複数存在する場合など、オリジナル文書を特定できない場合に、検索により得られたオリジナル文書の候補と共に撮影指示情報を送信する。なお、撮影指示情報には、次に撮影対象とすべき対象ページを指定する情報が含まれている。
検索サーバ装置20により検索結果等が送信されるのに対応し、ステップS204において、制御部105は、通信部102を介して検索サーバ装置20から検索結果等を受信する。次に、ステップS205において、制御部105は、検索結果表示画面を表示部103に表示する。ここで、検索結果表示画面は、ステップS204において検索サーバ装置20から受信した情報を表示する画面である。制御部105は、具体的には、検索結果表示画面に検索結果を表示する。制御部105はさらに、撮影指示情報を受信した場合には、検索結果と共に撮影指示情報を表示する。
次に、ステップS206において、検索結果が1つのオリジナル文書を特定するものである場合には(ステップS206でYes)、制御部105は、処理をステップS207へ進める。ステップS206において、検索結果が複数のオリジナル文書の候補を示すものである場合には(ステップS206でNo)、制御部105は、処理をS202に進める。
ステップS207において、制御部105は、検索によりヒットしたオリジナル文書としての電子文書を検索サーバ装置20から受信する。具体的には、ユーザが操作部104を操作して、表示部103に検索結果として表示されているオリジナル文書を選択すると、これに対応し、制御部105は、電子文書の取得要求を受け付ける。そして、制御部105は、通信部102を介して、検索サーバ装置20に電子文書の取得要求を送信し、取得要求に対する応答として、電子文書を受信する。次に、ステップS208において、制御部105は、通信部102を介して検索サーバ装置20に処理終了を通知することにより、検索サーバ装置20を開放し処理を終了する。
図3は、検索結果表示画面の一例を示す図である。図3に示す検索結果表示画面300には、複数のオリジナル文書の一覧310と、撮影指示情報320とが含まれている。なお、検索結果として1つのオリジナル文書が特定された場合には、検索結果表示画面300には、1つのオリジナル文書のみが表示され、撮影指示情報320は表示されない。
検索結果表示画面300に撮影指示情報320が示されている場合には、ユーザは、撮影指示情報320において指定される対象ページの撮影画像を得るべく、操作部104を操作する。そして、S202において、撮影部101は、対象ページを撮影し、新たな撮影画像を得る。なお、この場合には、制御部105は、対象ページの撮影画像を処理対象として、ステップS203以降の処理を進める。
次に、検索サーバ装置20について説明する。図4(A)は、電子文書DB204の一例を示す図である。電子文書DB204は、検索サーバ装置20に登録されているすべての電子文書の文書IDと、バージョン番号と、電子ファイル名とを対応付けて格納している。
図4(B)は、特徴量DB205の一例を示す図である。特徴量DB205は、電子文書の文書IDと、バージョン番号と、ページ番号と、ブロックIDと、属性と、サイズと、位置と、文字列とを対応付けて格納している。ブロックIDは、ページ内における各ブロックを識別するための情報である。属性は、各ブロックが画像及び文字のいずれを表示する領域かを示す情報である。サイズは、ブロックサイズを示す情報である。位置は、ページ内におけるブロックの位置を示す情報である。文字列は、ブロック内において特定された文字列を示す情報である。ここで、属性、サイズ、位置及び文字列は、対応するページ番号で識別されるページ画像の特徴量の一例である。
制御部202は、電子文書DB204に新たに電子文書が登録されるタイミングにおいて、登録対象の電子文書に含まれる各ページの特徴量を抽出する。そして、制御部202は、得られた特徴量を特徴量DB205に登録する。
具体的には、制御部202は、処理対象のページ画像に対しレイアウト解析を行い、文字・画像・線画・線・表等の属性毎の領域(ブロック)に分割する。次に、制御部202は、各領域の位置及び大きさを特徴量として抽出する。制御部202はさらに、文字領域や表領域等文字が含まれる領域については文字認識を行い、文字列情報を特徴量として生成する。なお特徴量を抽出する処理の詳細については、特許第4047222号を参照することができる。
制御部202は、さらに電子文書DB204においてチェックアウトされた電子文書を再度チェックインすることにより、電子文書のバージョンを更新する。さらに、制御部202は、更新後の電子文書から特徴量を生成し、特徴量DB205に新たなバージョンの電子文書の特徴量を蓄積する。
図5は、検索サーバ装置20による1回目の検索処理を示すフローチャートである。1回目の検索処理は、タブレット端末10から初期化要求を受信した場合に実行される。ステップS501において、制御部202は、タブレット端末10から初期化要求を受信すると、文書候補リストを初期化する。なお、文書候補リストは、記憶部203等に格納されているものとする。
図6は、文書候補リストの一例を示す図である。文書候補リストは、検索処理によって検索された電子文書を管理するリストである。検索によりオリジナル文書の候補が得られると、制御部202は、オリジナル文書の候補としての電子文書の文書IDと、バージョン番号と、類似度合計と、類似度詳細とを対応付けて文書候補リストに書き込む。
ここで、類似度詳細は、電子文書中の対象となるページ番号及び類似度の情報である。類似度合計は、類似度詳細に示される各ページに対する類似度の加算値である。
図5に戻り、ステップS501における文書候補リストの初期化処理においては、制御部105は、電子文書DB204に格納されているすべての電子文書の文書IDとバージョン番号とを対応受けて文書候補リストに書き込む。なお、制御部105は、初期化の状態においては、類似度合計の値に「0」を設定し、類似度詳細をクリアする。
次に、ステップS502において、制御部202は、通信部200を介してタブレット端末10から撮影画像を受信する(受付処理)。なお、撮影画像は、ラスタ画像である。制御部202は、さらに受信した撮影画像を記憶部203に格納する。
次に、ステップS503において、制御部202は、記憶部203に格納されている撮影画像としてのラスタ画像に対し画像処理を施す。撮影画像は、撮影部101により撮影された紙文書の任意のページの画像である。このため、撮影画像は、透視投影変換による歪みのある画像となっている。そこで、制御部202は、紙の4辺を検出する等の方法により、歪みの形状を検出し、検出結果に基づいて、オリジナルの電子文書中のページ画像と同様の形状に補正する処理を行う。
次に、ステップS504において、制御部202は、記憶部203に格納されている補正後の撮影画像(ラスタ画像)から特徴量を抽出する。なお、特徴量を抽出する処理は、上述の通りである。次に、ステップS505において、制御部202は、電子文書DB204に格納されているすべての電子文書の各ページから、撮影画像に類似するページを含む電子文書を検索する(検索処理)。具体的には、制御部202は、ステップS504において得られた撮影画像の特徴量と、文書候補リストに登録されているすべての電子文書、すなわち電子文書DB204に登録されているすべての電子文書の各ページ画像の特徴量とを比較する。
そして、制御部202は、撮影画像とすべてのページ画像との類似度を算出し(類似度算出処理)、算出した類似度を文書候補リストの類似度合計に累積加算する。具体的には、制御部202は、各ブロックの位置やサイズの比較により、類似度を算出する。制御部202はまた、文字や表の属性のブロックに対しては、文字列の比較により、類似度を算出する。制御部202は、例えば、文字の挿入や削除、置換によって、比較元の文字列を比較先の文字列に変形するために必要な手順の最小回数である編集距離を用いて、「100×比較元文字数/編集距離」として類似度を算出する。
制御部202は、すべてのページ画像との類似度を類似度合計に累積加算した後、類似度合計の値が予め設定された第1閾値未満の電子文書を、文書候補リストから削除する。これにより、類似度合計が第1閾値以上の電子文書群を含む文書候補リストが得られる。ここで、第1閾値は、記憶部203等に予め登録されているものとする。
続いて、制御部202は、類似度合計値の降順に文書候補リストのレコードをソーティングする。なお、ステップS505における処理の詳細については、特許第4047222号を参照することができる。
次に、ステップS506において、制御部202は、ステップS505において得られた文書候補リストに基づいて、紙文書に対応するオリジナル文書を特定できたか否かを判定する。具体的には、制御部202は、ソート後の文書候補リストの先頭に登録されている電子文書の類似度合計から1ページ当たりの平均類似度を算出する。そして、制御部202は、平均類似度が予め設定された第2閾値よりも高く、かつ文書候補リストの2番目に登録されている電子文書の平均類似度との差が、予め設定された第3閾値以上である場合に、この電子文書をオリジナル文書として特定する。ここで、第2閾値及び第3閾値は、記憶部203等に予め登録されているものとする。
そして、ステップS506において、オリジナル文書が特定された場合には(ステップS506でYes)、制御部202は、処理をステップS510へ進める。S510において、制御部202は、検索サーバ装置20を介して、ステップS506において特定されたオリジナル文書を検索結果としてタブレット端末10に送信する。
ステップS506において、オリジナル文書が特定されなかった場合には(ステップS506でNo)、制御部202は、処理をステップS507へ進める。ステップS507において、制御部202は、文書候補リストに含まれる電子文書間のページ毎の特徴量の差分を算出する。すなわち、制御部202は、第2閾値未満の類似度が得られた複数の電子文書間の特徴量の差分を算出する。
次に、ステップS508において、制御部202は、ステップS507において算出した差分に基づいて、対象ページを特定する。ここで、対象ページとは、検索サーバ装置20がオリジナル文書を特定するために次に比較対象とすべき、紙文書のページである。すなわち、対象ページとは、タブレット端末10において次に撮影対象とすべきページである。
類似する複数の電子文書が存在する場合には、同一又は類似するページを含む場合がある。このような場合、検索サーバ装置20は、電子文書間において特徴量の大きく異なるページの撮影画像を用いることにより、効率的に検索を行うことができる。そこで、ステップS508において、制御部202は、特徴量の差分の大きいページを対象候補ページとして特定する。制御部202はさらに、対象候補ページのうち、ページ番号の最も小さいページを対象ページとして特定し(ページ特定処理)、特定した対象ページを指定する撮影指示情報を生成する。なお、特徴量の差分が生じるページが1つのみである場合には、制御部202は、対象候補ページから対象ページを特定する必要はなく、差分が生じるページを対象ページとして特定すればよい。
次に、ステップS509において、制御部202は、検索結果及び撮影指示情報をタブレット端末10に送信する。なお、検索結果には、文書候補リストに含まれる電子文書がオリジナル文書の候補として示されている。ステップS509は、撮影指示情報を出力する出力処理の一例である。
以下、図7(A)に示す検索結果が得られた場合を例に、ステップS507,S508の処理について具体的に説明する。ステップS507において、制御部202は、各電子文書のヒットしたページの位置を「0」とし、各ページの特徴量を並べる処理を行う。これにより、図7(B)に示す表のような結果が得られる。なお、図7(B)において、各四角形は、ページを表している。また、四角形内の文字及び記号は特徴量を表している。なお、同一文字及び同一記号は、同一の特徴量であることを示している。
制御部202はさらに、図7(B)に示す複数の電子文書それぞれの、ヒットしたページ位置を「0」とした相対ページ番号が一致するページ毎の電子文書間における特徴量の差分を算出する。
ステップS508においては、制御部202は、特徴量の差分が生じるページを対象ページとして特定する。なお、本実施形態においては、制御部202は、特徴量の差分が生じるページのうちページ番号が小さいページを優先的に対象ページとして特定する。
具体的には、制御部202は、ページ先頭から順番に特徴量を比較し、差分が生じるページを特定する。図7(B)に示す例においては、ページ位置「−2」すなわち、ヒットしたページの2ページ前のページにおいて差分が生じる。ここで、2ページ前のページは文書ID「00000009」のバージョン3,4,5のみに存在し、文書ID「00000005」のバージョン2,3,4と文書ID「00000012」のバージョン5,6,7とには存在しない。そこで、制御部202は、ページ番号の昇順に沿って、次に差分が生じるページをさらに検索する。
図7(B)に示す例においては、ページ位置「1」すなわち、ヒットしたページの1ページ先のページにおいて差分が生じる。1ページ先のページは、文書ID「00000005」のバージョン2,3,4と文書ID「00000012」のバージョン5,6,7とを含んでいる。したがって、2ページ前と1ページ先の両方のページを合わせることにより、図7(B)に示す、すべての文書、すなわち文書候補リストに含まれるすべての文書が網羅される。
そこで、制御部202は、撮影画像の2ページ前及び1ページ先を対象ページとして特定し、ページ特定処理を終了する。これにより、図7(C)に示す撮影指示情報が生成される。
図8は、検索サーバ装置20による2回目以降の検索処理を示すフローチャートである。2回目以降の検索処理は、タブレット端末10から同一の紙文書に対する2枚目以降の撮影画像を受信した場合に実行される。以下、図8を参照しつつ2回目の検索処理について説明する。
制御部202は、1回目の検索処理(図5)のステップS509において撮影指示情報を送信する。これに対応し、タブレット端末10は、検索依頼処理(図2)のステップS203において、撮影指示情報に示される対象ページの撮影画像を検索サーバ装置20に送信する。
ステップS801において、制御部202は、この対象ページの撮影画像を受信する。次に、ステップS802において、制御部202は、撮影画像を補正し、ステップS803において、撮影画像の特徴量を抽出する。なお、ステップS802及びステップS803における処理は、図5を参照しつつ説明したステップS503及びS504の処理と同様である。
次に、ステップS804において、制御部202は、文書候補リストに登録されているすべての電子文書の各ページから、ステップS801において受信した撮影画像に類似するページを含む電子文書を検索する(検索処理)。制御部202は、具体的には、撮影画像の特徴量と文書候補リストに登録されている電子文書の特徴量とを比較する。
そして、制御部202は、撮影画像とすべてのページ画像との類似度を算出し(類似度算出処理)、算出した類似度を文書候補リストの類似度合計に累積加算する。なお、このとき、文書候補リストの類似度合計に、1回目の検索処理において処理対象となった撮影画像に対して得られた類似度の値が既に登録されている。
そこで、制御部202は、今回得られた類似度を前回までに得られた類似度(類似度合計)の値に加算した値を新たな類似度合計として登録する。なお、ステップS804において、類似度を算出する処理は、ステップS505において類似度を算出する処理と同様である。
制御部202は、類似度を類似度合計に累積加算した後、類似度合計の値が予め設定された第4閾値未満となる電子文書を、文書候補リストから削除する。これにより、類似度合計が第4閾値以上の電子文書群を含む文書候補リストが得られる。続いて、制御部202は、類似度合計値の降順に文書候補リストのレコードをソーティングする。
なお、第4閾値は、前述の第1閾値の値とは異なる値であり、記憶部203等に予め登録されているものとする。なお、記憶部203には、第4閾値として、同一紙文書に対する検索回数に応じて異なる複数の値を格納しているものとする。例えば、2回目の検索処理における第4閾値には第1値が設定されており、3回目の検索処理における第4閾値には第2値、4回目の検索処理における第4閾値には第3値が設定される。ここで、第1値、第2値、第3値は、この順に大きい値であるものとする。
以降ステップS805〜ステップS809の処理は、1回目の検索処理(図5)のステップS506〜ステップS510の処理と同様である。また、3回目以降の検索処理においては、ステップS801において、制御部202は、ステップS808において送信した撮影指示情報に対応する対象ページの撮影画像を受信する。また、ステップS804においては、文書候補リストにこれまでの検索処理において処理対象となった撮影画像に対して得られた類似度の合計の値が登録されている。そして、制御部202は、類似度合計の登録値に新たに得られた類似度を加算した値を新たな類似度合計として登録する。なお、3回目以降の検索処理におけるこれ以外の処理は、2回目の検索処理と同様である。
以下、図9及び図10を参照しつつ、2回目以降の検索処理について具体的に説明する。1回目の検索処理において、図7(A)に示す検索結果が得られ、図7(C)に示す撮影指示情報が送信されたとする。この場合には、制御部202は、図7(A)に示す9個の電子文書を検索対象として、検索処理を行う。これにより、ステップS804において、図9(A)に示すような類似度合計の累積結果が得られる。
さらに、2回目の処理における第4閾値として、「70」が設定されているものとする。この場合、制御部202は、閾値処理により類似度合計が「70」未満の電子文書を、文書候補リストから削除する。これにより、図9(B)に示すように、文書候補リストが更新される。
ステップS805において、オリジナル文書が特定されない場合、ステップS806において、制御部202は、図9(C)に示すように、ヒットしたページ位置を「0」とした相対ページ番号が一致するページにおける特徴量の差分を算出する。図9(C)に示す例において、制御部202は、ヒットしたページの1ページ先を対象ページとして特定する。そして、ステップS807において、図9(D)に示す撮影指示情報を生成する。
さらに、撮影指示にしたがい、ユーザが1ページ先のページを撮影し、検索サーバ装置20がこの撮影画像を受信すると、制御部202は、受信した撮影画像に対して、3回目の検索処理を行う。
3回目の検索処理のステップS806において、図10(A)に示す特徴量の差分が算出される。図10(A)に示す例において特徴量の差分が生じるのは3ページ先である。したがって、制御部202は、ヒットしたページの3ページ先を対象ページとして特定する。そして、制御部202は、ステップS807において、図10(B)に示す撮影指示情報を生成する。以上のように、検索サーバ装置20は、検索処理を繰り返すことにより、オリジナル文書を特定することができる。
第1の実施形態にかかる文書検索システムにおいては、オリジナル文書を効率的に検索するための撮影画像を取得するために、撮影指示情報を送信する。これに対し、ユーザは、撮影指示に示されるページを撮影することにより、検索サーバ装置20は、撮影指示情報に指定したページの撮影画像に基づいて、オリジナル文書の検索を行うことができる。これにより、文書検索システムは、ユーザによる面倒な操作を要することなく、効率的にオリジナルの電子文書を検索することができる。
(第2の実施形態)
次に、第2の実施形態にかかる文書検索システムについて説明する。第1の実施形態において、次に撮影すべき対象ページを特定する処理(図5のステップS508及び図8のステップS807)においては、ページ番号の小さいページが優先的に対象ページとして特定された。これに対し、第2の実施形態にかかる文書検索システムにおいては、対象ページを特定する処理において、オリジナル文書の候補の数がより少なくなるように、対象ページを特定する。この点で、第2の実施形態にかかる文書検索システムは、第1の実施形態にかかる文書検索システムと異なっている。
図11は、各特徴量と、特徴量を示す文書数とを対応付けた文書数DBの一例を示す図である。文書数DBは、例えば記憶部203等に格納されているものとする。制御部202は、電子文書DB204に新たに電子文書が登録されるタイミグにおいて特定された特徴量に基づいて、文書数DBに特徴量と文書数を登録し、適宜文書数を更新する。
以下、図7(B)に示す結果が得られた場合を例に、第2の実施形態にかかる検索サーバ装置20による対象ページを特定する処理(図5のS508及び図8のS807)について説明する。
制御部202は、文書数DBに格納されている各特徴量に対する文書数に基づいて、図7(B)に示す結果から、各ページの撮影画像に対する検索処理後に得られるオリジナル文書の候補の数の平均値を算出する。
ページ位置「−2」に対する平均値を算出する場合について説明する。ページ位置「−2」における特徴量は、「A」、「D」及び「F」の3種類である。さらに、各特徴量を示す撮影画像に対する検索処理が行われた場合のオリジナル文書の候補としての残りの電子文書の数はそれぞれ「1」である。したがって、(式1)により平均値「1.0」が得られる。
(1+1+1)/3種=1.0 ・・・(式1)
同様に、ページ位置「−1」における特徴量は、1種類である。さらに、この特徴量に対応する残りの電子文書の数は、「1」である。したがって、(式2)により平均値「6.0」が得られる。
6/1種=6.0 ・・・(式2)
図12(A)は、図7(B)の結果から得られた各ページの平均値を示す図である。制御部202は、このように、各ページ位置に対する、残りの電子文書の数の平均値を算出する。
続いて、制御部202は、平均値の小さい順に対象ページを特定していき、図7(B)に含まれる全文書を網羅する対象ページを特定し終わった時点で対象ページ特定処理を終了する。
図12(A)に示す例においては、制御部202は、まず平均値の最小値「1.0」を特定し、これに対応する2ページ前を対象ページとして特定する。ここで、2ページ前は文書ID「00000009」のバージョン3,4,5のみに存在し、文書ID「00000005」のバージョン2,3,4と文書ID「00000012」のバージョン5,6,7とには存在しない。このため、2ページ前のみでは全電子文書を網羅できない。
したがって、制御部202は、処理を継続し、続いて、平均値「1.0」の次に小さい平均値「1.75」を特定し、これに対応する4ページ先を特定する。ここで、4ページ先は、文書ID「00000005」のバージョン2,3,4と文書ID「00000012」のバージョン5,6,7とを含む。すなわち、2ページ前と4ページ先とを合わせることにより、図7(B)に示すすべての文書を網羅することができる。
したがって、制御部202は、この時点で、対象ページ特定処理を終了する。そして、制御部202は、図12(B)に示すように、以上の処理により得られた2ページ前及び3ページ先を対象ページとして指定する撮影指示情報を生成する。
続いて、図12(B)に示す撮影指示情報に対応して検索サーバ装置20が新たな撮影画像を受信し、2回目の検索処理(図8)が実行される。2回目の検索処理のステップS806において、図13(A)に示す結果が得られたとする。さらに、図13(B)に示す各ページの撮影画像に対する検索処理後の残りの電子文書の数の平均値が得られたとする。
この場合、制御部202は、平均値が最小の「1.0」に対応する3ページ前を対象ページとして特定する。ここで、3ページ前を対象ページとすることにより、図13(A)に示す、すべての文書を網羅することができる。したがって、制御部202は、この時点で、対象ページ特定処理を終了する。そして、制御部202は、図13(C)に示すように、3ページ前を対象ページとして指定する撮影指示情報を生成する。
以上のように、第2の実施形態にかかる検索サーバ装置20は、撮影回数が少なく、すなわち検索処理の回数が少なくなるように対象ページを特定することができる。これにより、ユーザは、より少ない撮影回数で、オリジナル文書を得ることができる。
なお、第2の実施形態にかかる文書検索システムのこれ以外の構成及び処理は、第1の実施形態にかかる文書検索システムの構成及び処理と同様である。
次に、第1の変更例について説明する。以上のように、検索サーバ装置20が対象ページを選択する場合に、優先的に対象ページとして特定するための条件は、実施の形態に限定されるものではない。他の例としては、対象ページを特定する処理において、ページ番号の大きいページが優先的に対象ページとして特定されることとしてもよい。この場合には、制御部202は、ページの末尾から順番に特徴量を比較し、差分が生じるページを特定することとする。
また、第2の変更例としては、文書検索システムのタブレット端末10及び検索サーバ装置20それぞれが備える機能は、文書検索システム内のいずれかの装置が備えていればよい。すなわち、各装置が備える構成は、実施形態に限定されるものではない。
例えば、タブレット端末10の処理性能が高い場合には、画像補正処理及び特徴抽出処理を、タブレット端末10が実行することとしてもよい。この場合には、検索サーバ装置20は、タブレット端末10から特徴量を受信し、特徴量に基づいて、検索を行い、適宜撮影指示情報を生成する。
また、他の例としては、電子文書DB204及び特徴量DB205は、検索サーバ装置20と異なる他の装置が記憶していることとしてもよい。この場合には、検索サーバ装置20は、検索処理において、通信部200を介して電子文書DB204及び特徴量DB205にアクセスすることとする。
また、他の例としては、文書検索システムのすべての構成を1つの装置が有することとしてもよい。この場合には、この装置が撮影画像を得て、この撮影画像に基づいて、オリジナル文書を検索すればよい。
<その他の実施形態>
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア(プログラム)を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給する。そして、そのシステム或いは装置のコンピュータ(又はCPUやMPU等)がプログラムを読み出して実行する処理である。
以上、上述した各実施形態によれば、文書検索システムは、面倒な操作を要することなく、効率的にオリジナルの電子文書を検索することができる。
以上、本発明の好ましい実施形態について詳述したが、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
10 タブレット端末、20 検索サーバ装置、101 撮影部、102 通信部、103 表示部、104 操作部、105 制御部、106 記憶部、200 通信部、201 画像処理部、202 制御部、203 記憶部、204 電子文書DB、205 特徴量DB

Claims (11)

  1. 文書に対応する電子文書を検索する文書検索システムであって、
    ページ単位で撮影された前記文書の撮影画像を受け付ける受付手段と、
    記憶手段に記憶される複数の電子文書のページの中から前記撮影画像に類似するページを含む電子文書を検索する検索手段と、
    前記検索手段により、前記文書に対応する複数の前記電子文書が得られた場合に、前記複数の電子文書間のページ毎の特徴量の差分に基づいて、撮影対象とする対象ページを特定するページ特定手段と、
    前記対象ページを指定する撮影指示情報を出力する出力手段と
    を有することを特徴とする文書検索システム。
  2. 前記記憶手段は、複数の電子文書それぞれに対応付けて、各電子文書のページ毎の前記特徴量をさらに記憶し、
    前記検索手段は、前記記憶手段に記憶される前記特徴量に基づいて、前記撮影画像に類似するページを検索すること特徴とする請求項1に記載の文書検索システム。
  3. 前記撮影画像と前記ページとの類似度を算出する類似度算出手段をさらに有し、
    前記ページ特定手段は、前記類似度が閾値未満である場合に、前記対象ページを特定することを特徴とする請求項1又は2に記載の文書検索システム。
  4. 前記受付手段は、前記撮影指示情報に示される前記対象ページの撮影画像をさらに受け付け、
    前記検索手段は、前記対象ページの前記撮影画像に類似するページを含む前記電子文書をさらに検索することを特徴とする請求項1乃至3何れか1項に記載の文書検索システム。
  5. 前記ページ特定手段は、前記差分に基づいて得られる複数の対象候補ページのうち、ページ番号のより小さいページを前記対象ページとして特定することを特徴とする請求項1乃至4何れか1項に記載の文書検索システム。
  6. 前記ページ特定手段は、前記差分に基づいて得られる複数の対象候補ページのうち、ページ番号のより大きいページを前記対象ページとして特定することを特徴とする請求項1乃至4何れか1項に記載の文書検索システム。
  7. 前記ページ特定手段は、前記差分に基づいて得られる複数の対象候補ページのうち、前記文書に対応する前記電子文書が検出されるまでに要する検索回数がより少ないページを前記対象ページとして特定することを特徴とする請求項1乃至4何れか1項に記載の文書検索システム。
  8. 文書に対応する電子文書を検索する文書検索装置であって、
    ページ単位で撮影された前記文書の撮影画像を受け付ける受付手段と、
    記憶手段に記憶される複数の電子文書のページの中から前記撮影画像に類似するページを含む電子文書を検索する検索手段と、
    前記検索手段により、前記文書に対応する複数の前記電子文書が得られた場合に、前記複数の電子文書間のページ毎の特徴量の差分に基づいて、撮影対象とする対象ページを特定するページ特定手段と、
    前記対象ページを指定する撮影指示情報を出力する出力手段と
    を有することを特徴とする文書検索装置。
  9. 文書検索システムが実行する文書検索方法であって、
    ページ単位で撮影された文書の撮影画像を受け付ける受付ステップと、
    記憶手段に記憶される複数の電子文書のページの中から前記撮影画像に類似するページを含む電子文書を検索する検索ステップと、
    前記検索ステップにおいて、前記文書に対応する複数の前記電子文書が得られた場合に、前記複数の電子文書間のページ毎の特徴量の差分に基づいて、撮影対象とする対象ページを特定するページ特定ステップと、
    前記対象ページを指定する撮影指示情報を出力する出力ステップと
    を含むことを特徴とする文書検索方法。
  10. 文書検索装置が実行する文書検索方法であって、
    ページ単位で撮影された文書の撮影画像を受け付ける受付ステップと、
    記憶手段に記憶される複数の電子文書のページの中から前記撮影画像に類似するページを含む電子文書を検索する検索ステップと、
    前記検索ステップにおいて、前記文書に対応する複数の前記電子文書が得られた場合に、前記複数の電子文書間のページ毎の特徴量の差分に基づいて、撮影対象とする対象ページを特定するページ特定ステップと、
    前記対象ページを指定する撮影指示情報を出力する出力ステップと
    を含むことを特徴とする文書検索方法。
  11. コンピュータを、
    ページ単位で撮影された文書の撮影画像を受け付ける受付手段と、
    記憶手段に記憶される複数の電子文書のページの中から前記撮影画像に類似するページを含む電子文書を検索する検索手段と、
    前記検索手段により、前記文書に対応する複数の前記電子文書が得られた場合に、前記複数の電子文書間のページ毎の特徴量の差分に基づいて、撮影対象とする対象ページを特定するページ特定手段と、
    前記対象ページを指定する撮影指示情報を出力する出力手段と
    して機能させるためのプログラム。
JP2013080492A 2013-04-08 2013-04-08 文書検索システム、文書検索装置、文書検索方法及びプログラム Pending JP2014203347A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013080492A JP2014203347A (ja) 2013-04-08 2013-04-08 文書検索システム、文書検索装置、文書検索方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013080492A JP2014203347A (ja) 2013-04-08 2013-04-08 文書検索システム、文書検索装置、文書検索方法及びプログラム

Publications (1)

Publication Number Publication Date
JP2014203347A true JP2014203347A (ja) 2014-10-27

Family

ID=52353712

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013080492A Pending JP2014203347A (ja) 2013-04-08 2013-04-08 文書検索システム、文書検索装置、文書検索方法及びプログラム

Country Status (1)

Country Link
JP (1) JP2014203347A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111737500A (zh) * 2020-06-22 2020-10-02 广东小天才科技有限公司 电子页面的检索方法及装置、学习设备、可读存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111737500A (zh) * 2020-06-22 2020-10-02 广东小天才科技有限公司 电子页面的检索方法及装置、学习设备、可读存储介质

Similar Documents

Publication Publication Date Title
KR102403964B1 (ko) 화상 처리 장치, 화상 처리 방법, 및 저장 매체
US9076069B2 (en) Registering metadata apparatus
WO2016127478A1 (zh) 一种图像处理方法、装置和终端
US11037265B2 (en) Information processing method, information processing apparatus, and storage medium
JP7207908B2 (ja) 情報処理システム、情報処理装置、プログラム、および情報処理方法
JP6171660B2 (ja) 情報処理装置、情報処理システム及びプログラム
US8872954B2 (en) Image processing apparatus having feature extraction and stored image selection capability, method of controlling the apparatus, program thereof, and storage medium
JP6669390B2 (ja) 情報処理装置、情報処理方法、及びプログラム
US20140205194A1 (en) Information processing apparatus and computer-readable medium
JP2014203347A (ja) 文書検索システム、文書検索装置、文書検索方法及びプログラム
JP6789175B2 (ja) 画像認識装置、方法、及びプログラム
JP2015032248A (ja) 画像検索装置、データ検索システム及びプログラム
JP6761243B2 (ja) 画像処理装置、画像処理方法、及びプログラム
JP2016025625A (ja) 情報処理装置、情報処理方法及びプログラム
JP2007183858A (ja) 画像検索システム、画像検索装置、及び、コンピュータプログラム
JP2017028407A (ja) 撮影指示プログラム、撮影指示装置、および撮影指示方法
EP3152701A1 (en) Method of and system for determining and selecting media representing event diversity
JP2007011762A (ja) 領域抽出装置及び領域抽出方法
KR20150096552A (ko) 사진 앨범 또는 사진 액자를 이용한 온라인 사진 서비스 시스템 및 방법
JP5967036B2 (ja) 画像検索システム、情報処理装置及びプログラム
JP2020052785A (ja) 画像データ格納装置、画像データ格納方法、及び、プログラム
WO2015159417A1 (ja) 撮影映像による文書検索システム
JP6610192B2 (ja) 情報処理装置、情報処理システム及びプログラム
JP5353299B2 (ja) 画像検索システム、画像検索装置、及び画像検索方法
JP5582924B2 (ja) 画像処理装置、画像処理方法及びプログラム