JP5514002B2

JP5514002B2 - 検索装置及び方法及びプログラム

Info

Publication number: JP5514002B2
Application number: JP2010135605A
Authority: JP
Inventors: 章裕宮田; 考藤村
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2010-06-14
Filing date: 2010-06-14
Publication date: 2014-06-04
Anticipated expiration: 2030-06-14
Also published as: JP2012003355A

Description

本発明は、検索装置及び方法及びプログラムに係り、特に、改ページや改行位置が確定しているドキュメント内の部分領域の撮影画像を検索クエリとして、該領域が出現するドキュメント及び該ドキュメント内における位置を取得する検索要求に応えるための、ドキュメント及びドキュメント内の各位置のインデックスを作成する検索装置及び方法及びプログラムに関する。

詳しくは、改ページや改行位置が確定しているドキュメント内の該領域を含む可能性があるドキュメント及びドキュメント内における位置を網羅的に取得するのではなく、位置を一意に特定したい場合に適用される検索装置及び方法及びプログラムに関する。

ドキュメントの一部領域から、該領域がどのドキュメントに含まれているか、あるいは、どのドキュメントのどの位置に含まれているか一意に特定することが必要なシーンは少なくない。

例えば、手元に雑誌の切り抜きがある場合、切り抜いた元の雑誌を探して、切り抜きの続きを読みたいことがある。この場合、該切り抜きがどの雑誌の一部であったか一意に特定する必要がある。

上記の事例は、ドキュメントの一部領域をクエリとし、膨大な量のドキュメント群の中から、該領域を含むドキュメント名、あるいはドキュメント名及びドキュメントにおける位置を問い合わせる検索システムと捉えることができる。

そして、ドキュメント群の中から情報を取得する検索要求に応えるシステムを構築するためには、ドキュメント群を事前に分析して検索インデックスを作成する必要がある。

例えば、図２５のように、ドキュメント内に登場するＮ文字の連続した文字列を抽出し、該文字列を検索インデックスのキーとし、該文字列を含むドキュメント名、あるいは、ドキュメント名及びドキュメント中において該文字列が登場する位置を検索インデックスの値とする方式が挙げられる。

また、N-gram方式は幅広い場面で有用性が認められており、現在でも多くの拡張手法が提案されている。また、通常のN-gram方式に加え、状況に応じてＮの値を変動させる方式も実施されている（例えば、非特許文献１参照）。

「Unicodeを用いたN-gram索引の一実現方式とその評価」情報処理学会研究会報告、2000-NL-136-17,pp.135-142.

しかしながら、ドキュメントの一部領域をクエリとして上記方式で作成した検索インデックスに検索問い合わせを行う場合、検索精度を下げずにインデックスサイズは減らすことは難しい。

例えば、図２６のように、「ドキュメント１」の２ページの部分領域を撮影し、撮影した部分画像をOCR （光学文字認識）処理して部分テキストに変換し、該部分テキストから検索キーを抽出し、該キーをもとに検索インデックスに対して検索問い合わせを行う場合について考える。なお、検索インデックス作成時、検索問い合わせ時のキー抽出方法は、上述のＮ文字の連続した文字列を抽出する方法とし、Ｎ＝２とする。また、図２７のように、各検索キーの検索問い合わせ結果を集計して件数が最多である元ドキュメント名及び元ドキュメントにおける位置を特定する。

まず、図２５のように読む方向に１文字ずつずらしながらキー抽出を行って検索インデックスを作成する場合について考える。この場合、図２８のように部分テキストの左上端から読む方向に１文字ずつずらしながら抽出した全ての検索キーに対して、正しい検索結果（この場合は「ドキュメント１」の２ページ）を含む問い合わせ結果が得られるため、検索問い合わせ結果を集計して件数が最多であるドキュメント・ドキュメントにおける位置を求めると（この場合は「ドキュメント１」の２ページ）、それは正しい元ドキュメント・元ドキュメントにおける位置である。しかし、この方法は、１文字ずつずらしながらキー抽出を行って検索インデックスを作成するため、検索インデックスのデータ量が膨大になり、検索問い合わせ速度低下、検索インデックス格納ハードディスク容量の増大という問題がある。

一方で、検索インデックスのデータ量を削減するために図２９のように読む方向に２文字ずつずらしながらキー抽出を行って検索インデックスを作成する場合について考える。この場合、図３０のように部分テキストの左上端から読む方向に１文字ずつずらしながら抽出した全ての検索キーに対して、正しい検索結果（この場合は「ドキュメント１」の２ページ）を含む問い合わせ結果が得られないことがある。すなわち、検索問い合わせに用いたキーのうち「アッ」、「プで」、「を電」、「気信」、「を通」、「じて」はそもそもドキュメント1の２ページに対する検索インデックスが作成されていないので、これらのキーの問い合わせ結果には正しい問い合わせ結果である「ドキュメント１」の２ページが含まれない。このため、検索問い合わせ結果を集計して件数が最多であるドキュメント・ドキュメントにおける位置を求めると（この場合は「ドキュメント５」の４３ページ）、それは正しい元ドキュメント・元ドキュメントにおける位置にならない場合がある。

このとき、図３１のように部分テキストの左上端から読む方向に２文字ずつずらしながらキー抽出を行えば正しい問い合わせ結果が得られることもある。しかし、部分テキストから２文字ずつずらしながらキー抽出を行う場合、必ずしも図３１のように正しく検索問い合わせができるとは限らない。すなわち、元のドキュメントの部分領域を撮影したものを入力とする場合、どの領域が撮影されるか既定することは難しく、撮影される部分領域が１文字分ずれただけで正しい検索が行えなくなってしまう。つまり、図３２のように図３１から1文字分ずれた部分テキストの左上端からキー抽出を行うと、検索問い合わせに用いたキー「アッ」、「プで」、「を電」、「気信」、「を通」、「じて」はそもそも「ドキュメント１」の２ページに対する検索インデックスが作成されていないので、検索キーに対して正しい検索結果（この場合は「ドキュメント１」の２ページ）を含む問い合わせ結果がまったく得られない。

このように、検索インデックスのデータ量を削減するために２文字ずつずらしながらキー抽出を行うと（図２９）、部分テキストからキー抽出する方法によっては正しく検索が行えない場合（図３０、図３２）があり、検索精度は低下していると言える。ここでは２文字ずつずらしてキー抽出する例で説明したが、Ｍ文字ずつ（Ｍ＞２）ずらしてキー抽出する場合も本質的に問題は同じである。

本発明は、上記の点に鑑みなされたもので、ドキュメント群の中から特定ドキュメントの特定位置を一意に取得する検索要求に応じるための検索インデックス作成時に、検索精度を低下させることなく、検索インデックスのサイズを減らすことが可能な検索装置及び方法及びプログラムを提供することを目的とする。

上記の課題を解決するために、本発明（請求項１）は、改ページや改行位置が確定しているドキュメント内の一部領域を検索クエリとして、該領域が出現するドキュメント及び該ドキュメント内における位置を取得する検索要求に応えるための検索インデックスを作成し、検索を行う検索装置であって、
インデックス作成対象のドキュメントの入力を受け付けるドキュメント入力手段と、
前記ドキュメントの全体または一部領域から、インデックスキーを抽出する位置を、該ドキュメントの全体または一部領域の各文字を数値的に表現された文字コードに変換したデータと予め定められた数値的比較条件に基づいて決定するインデックスキー抽出位置決定手段と、
インデックスキー抽出位置決定手段と、
前記ドキュメントの全体または一部領域から、前記位置にある１文字以上の文字の組み合わせからなるインデックスキーを抽出するインデックスキー抽出手段と、
前記インデックスキーと該インデックスキーが出現するドキュメントにおける出現位置を関連付けてインデックス記憶手段に出力するインデックス出力手段と、を有する。

また、本発明（請求項２）は、請求項１の前記インデックスキー抽出位置決定手段において、
ドキュメントの全体または一部領域から、1文字以上の文字の組み合わせからなるインデックスキーを抽出する位置を、文字とその近傍に存在する文字の文字コードの関係に基づいて決定する手段を含む。

また、本発明（請求項３）は、あるドキュメント内の一部領域を検索クエリとして受け付けるクエリ入力手段と、
前記検索クエリから、クエリキーを抽出する位置を、文字を表現する文字コードの特徴に基づいて決定するクエリキー抽出位置決定手段と、
前記検索クエリから、１文字以上の文字の組み合わせからなるクエリキーを抽出するクエリキー抽出手段と、
前記クエリキーに基づいて、前記インデックス記憶手段を検索し、その検索結果を出力する検索手段と、を更に有する。

また、本発明（請求項４）は、請求項３の前記クエリキー抽出位置決定手段において、
検索クエリから、１文字以上の文字の組み合わせからなるクエリキーを抽出する位置を、文字とその近傍に存在する文字の文字コードの関係に基づいて決定する手段を含む。
また、本発明（請求項５）は、請求項１乃至４のいずれか１項において、前記文字コードを、Unicodeとする。

また、本発明（請求項６）は、改ページや改行位置が確定しているドキュメント内の一部領域を検索クエリとして、該領域が出現するドキュメント及び該ドキュメント内における位置を取得する検索要求に応えるための検索インデックスを作成し、検索を行う検索方法であって、
入力手段が、インデックス作成対象のドキュメントの入力を受け付けるドキュメント入力ステップと、
インデックスキー抽出位置決定手段が、前記ドキュメントの全体または一部領域から、インデックスキーを抽出する位置を、該ドキュメントの全体または一部領域の各文字を数値的に表現された文字コードに変換したデータと予め定められた数値的比較条件に基づいて決定するインデックスキー抽出位置決定手段と、
インデックスキー抽出位置決定ステップと、
インデックスキー抽出手段が、前記ドキュメントの全体または一部領域から、前記位置にある１文字以上の文字の組み合わせからなるインデックスキーを抽出するインデックスキー抽出ステップと、
インデックス出力手段が、前記インデックスキーと該インデックスキーが出現するドキュメントにおける出現位置を関連付けてインデックス記憶手段に出力するインデックス出力ステップと、を行う。

また、本発明（請求項７）は、請求項６の前記インデックスキー抽出位置決定ステップにおいて、
ドキュメントの全体または一部領域から、1文字以上の文字の組み合わせからなるインデックスキーを抽出する位置を、文字とその近傍に存在する文字の文字コードの関係に基づいて決定する。

また、本発明（請求項８）は、クエリ入力手段が、あるドキュメント内の一部領域を検索クエリとして受け付けるクエリ入力ステップと、
クエリキー抽出位置決定手段が、前記検索クエリから、クエリキーを抽出する位置を、文字を表現する文字コードの特徴に基づいて決定するクエリキー抽出位置決定ステップと、
クエリキー抽出手段が、前記検索クエリから、１文字以上の文字の組み合わせからなるクエリキーを抽出するクエリキー抽出ステップと、
検索手段が、前記クエリキーに基づいて、前記インデックス記憶手段を検索し、その検索結果を出力する検索ステップと、を更に行う。

また、本発明（請求項９）は、請求項８の前記クエリキー抽出位置決定ステップにおいて、
検索クエリから、１文字以上の文字の組み合わせからなるクエリキーを抽出する位置を、文字とその近傍に存在する文字の文字コードの関係に基づいて決定する。
また、本発明（請求項１０）は、請求項６乃至９のいずれか１項において、前記文字コードを、Unicodeとする。

また、本発明（請求項１１）は、請求項１乃至５のいずれか１項に記載の検索装置を構成する各手段としてコンピュータを機能させるプログラムである。

上記のように、本発明によれば、キー抽出位置特定の際に、文字コードのパターンというクエリ位置および言語に非依存の情報を用いることにより、ドキュメント群の中から特定ドキュメントの特定位置を一意に取得する検索要求に応じるための検索インデックス作成時に、検索精度を低下させることなく、検索インデックスのサイズを減らすことができる。

特に、文字コードのパターンでキー抽出位置を決定した場合、クエリ位置（第1の実施の形態で撮影した書籍内の位置）に依らず、検索インデックスキーが作成されている位置から検索キーを抽出することができるため、書籍内に網羅的に検索インデックスが作成されていなくても精度良く検索を実行できる。

また、文字コードのパターンでキー抽出位置を決定した場合、各国の言語特徴の違いを気にすることなく本手法の効果を発揮できる。

本発明の第１の実施の形態におけるサーバ部の構成図である。本発明の第１の実施の形態におけるドキュメントの例である。本発明の第１の実施の形態における検索インデックス作成処理のフローチャートである。本発明の第１の実施の形態における関連付けデータの例である。本発明の第１の実施の形態におけるキー抽出位置決定処理を示す図（その１）である。本発明の第１の実施の形態におけるキー抽出位置のデータの例である。本発明の第１の実施の形態における抽出されたキーの例である。本発明の第１の実施の形態における検索インデックスＤＢの例である。本発明の第１の実施の形態における検索問い合わせ処理のフローチャートである。本発明の第１の実施の形態における撮影した部分領域の例である。本発明の第１の実施の形態におけるキー抽出決定処理を示す図（その２）である。本発明の第１の実施の形態における検索問い合わせ作成処理で決定されたキー抽出位置を示す図である。本発明の第１の実施の形態における検索問い合わせ処理で抽出されたキーの例である。本発明に第１の実施の形態における検索問い合わせ結果の集計例である。本発明の第１の実施の形態におけるコンテンツＤＢの例である。本発明の第１の実施の形態におけるＷｅｂブラウザの表示例である。本発明の第２の実施の形態における検索インデックス作成処理のフローチャートである。本発明の第２の実施の形態における検索インデックス作成時のキー抽出位置決定処理を示す図である。本発明の第２の実施の形態における検索問い合わせ処理のフローチャートである。本発明の第２の実施の形態における検索問い合わせ作成時のキー抽出位置を決定処理を示す図である。本発明の第３の実施の形態における検索インデックス作成処理のフローチャートである。本発明の第３の実施の形態における検索インデックス作成時のキー抽出位置決定処理を示す図である。本発明の第３の実施の形態における検索問い合わせ処理のフローチャートである。本発明の第３の実施の形態における検索問い合わせ時のキー抽出位置決定処理を示す図である。従来技術による検索インデックス作成例である。従来技術による検索問い合わせの例である。従来技術による検索問い合わせ時のキー抽出方法を示す図である。従来技術による読む方向に１文字ずつずらしながらキー抽出を行う例である。従来技術による読む広報に２文字ずつずらしながらキー抽出を行う例である。従来技術による部分テキストの左上端から読む方向に１文字ずつずらしながらキー抽出を行う例である。従来技術による部分テキストの左上端から読む方向に２文字ずつずらしながらキー抽出を行う例（その１）である。従来技術による部分テキストの左上端から読む方向に２文字ずつずらしながらキー抽出を行う例（その２）である。

以下図面と共に、本発明の実施の形態を説明する。

［第１の実施の形態］
図１は、本発明の第１の実施の形態におけるサーバの構成を示す。

同図に示すサーバ３００部は、本発明の検索装置として利用されるものである。

サーバ部３００はＰＣサーバ等の機器で実現でき、データ入力部３０１、キー抽出位置決定部３０２、キー抽出部３０３、検索インデックス出力部３０４、検索インデックスＤＢ３０５、サーバ側データ送受信部３０６、検索問い合わせ部３０７、コンテンツＤＢ３０８から構成される。

同図におけるクライアント部４００はカメラ付き携帯電話等で実現でき、ドキュメント撮影部４０１、クライアント側データ送受信部４０２、コンテンツ表示部４０３から構成される。

同図におけるドキュメント読み取り装置２００は、サーバ部３００のデータ入力部３０１、及び、サーバ側データ送受信部３０６に接続され、一般的なスキャナ等の外部装置であり、文字が記載された紙媒体の文書を入力とし、文書をスキャンして電子的な画像ファイルに変換したものを出力とする。光学文字認識装置２０１は一般的なOCRソフトウェア等の外部装置であり、文字が写っている画像ファイルを入力とし、写っている文字を電子的なテキストデータに変換したものを出力とする。

同図におけるドキュメント１００は、図２のような文章を含む紙媒体書籍の１ページである。なお、図２は文章のみからなるページの例であるが、ページには図や表等の文字以外の情報が含まれていてもよい。また、ドキュメントは１ページの一部分から構成されても構わないし、複数ページから構成されても構わない。

以下に、上記の構成における処理を説明する。

本発明は、検索インデックス作成処理と検索問い合わせ作成処理に分けられる。

＜検索インデックス作成処理＞
図３は、本発明の第１の実施の形態における検索インデックス作成処理のフローチャートである。

ステップ１）インデックス作成時入力ステップ：データ入力部３０１において、インデックス作成対象となるドキュメントをテキストデータとして入力する。

ステップ１０）ドキュメント読み取り装置２００は、ドキュメント１００を入力として受け付け、ドキュメント100を画像ファイルに変換したものを出力する。

ステップ１１）光学文字認識装置２０１は、ステップ１０の出力を入力として受け付け、画像ファイルをテキストデータに変換したものを出力する。テキストデータは画像ファイルに写っているテキストの改行位置も保持している。

ステップ１２）データ入力部３０１は、ドキュメント１００のドキュメント名、ドキュメントにおける位置、ステップ１１の出力を入力として受け付け、これらを図４のように関連付けてキー抽出位置決定部３０２に出力する。ここではドキュメント名は書籍名、ドキュメントにおける位置はページとする。

ステップ２）インデックス作成時キー抽出ステップ：キー位置抽出位置決定部３０２、キー抽出部３０３は、一定のルールに従ってテキストデータからキーを抽出する。

ステップ１３）キー抽出位置決定部３０２は、ステップ１２におけるデータ入力部３０１からの出力を入力として受け付け、キー抽出位置を決定する。キー抽出位置は文字コードのパターンを用いて決定する。ここでは図５のように、元のテキストデータ（図５（ａ））の各文字をUnicodeコードに変換し（図５（ｂ））、「文字Ａのコード＜文字Ａの右隣に出現する文字のコード」となる文字Ａをキー抽出位置とし（図５（ｃ））、キー抽出位置を（左上端から右方向へ数えた場合の文字数、左上端から下方向へ数えた場合の文字数）という座標形式で表現して、図４のデータにキー抽出位置の情報を付加して図６のように出力する。

ステップ１４）キー抽出部３０３は、ステップ１３の出力を入力として受け付け、一定ルールに基づきキー抽出を行う。ここでは、キー抽出位置にある文字と該文字の右隣にある文字を連結した２文字をキーとして図７のように出力する。図７では、抽出されたキーと当該キーの抽出対象となったドキュメント名、ドキュメント内における位置（ページ）を検索インデックス出力部３０４に出力する。

ステップ３）インデックス作成時キー出力ステップ：抽出されたキーを検索インデックスとして出力する。

ステップ１５）検索インデックス出力部３０４は、ステップ１４の出力を入力として受け付け、図７の形式のまま検索インデックスＤＢ３０５に格納する。ここでは、複数のドキュメントに対してステップ１０〜１５の処理を繰り返し行い、検索インデックスＤＢ３０５には図８のようなデータが格納されたものとする。

＜検索問い合わせ作成処理＞
図９は、本発明の第１の実施の形態における検索問い合わせ作成処理のフローチャートである。

ステップ４）問い合わせ時入力ステップ：問い合わせ対象となるドキュメントをテキストデータとして入力する。

ステップ１６）クライアント部４００のドキュメント撮影部４０１は、ドキュメント１００の部分領域を撮影して図１０のように画像ファイルとして出力する。

ステップ１７）クライアント側データ送受信部４０２は、ステップ１６で出力された部分領域の画像ファイルを入力として受け付け、画像ファイルのままネットワーク等を通じてサーバ部３００に出力する。

ステップ１８）サーバ側データ送受信部３０６は、ステップ１７において、クライアント部４００から出力された画像ファイルを入力として受け付け、光学文字認識装置201を用いて画像ファイルをテキストデータに変換したものを出力する。テキストデータは画像ファイルに写っているテキストの改行位置も保持している。

ステップ５）問い合わせ時キー抽出ステップ：、一定のルールに従ってテキストデータからキーを抽出する。

ステップ１９）キー抽出位置決定部３０２は、ステップ１８において出力されたテキストデータを入力として受け付け、キー抽出位置を決定する。キー抽出位置はステップ１３と同一の方法を用いて決定する。すなわち、図１１のように各文字をUnicodeコードに変換し（図１１（ｂ））、「文字Ａのコード＜文字Ａの右隣に出現する文字のコード」となる文字Ａをキー抽出位置とし（図１１（ｃ））、キー抽出位置を（左上端から右方向へ数えた場合の文字数、左上端から下方向へ数えた場合の文字数）という座標形式で表現して図１２のように出力する。

ステップ２０）キー抽出部３０３は、ステップ１９の出力を入力として受け付け、ステップ１４と同一の方法を用いてキー抽出を行う。すなわち、キー抽出位置にある文字と該文字の右隣にある文字を連結した２文字をキーとして図１３のように出力する。

ステップ６）問い合わせ時問い合わせステップ：抽出されたキーを用いて問い合わせを行う。

ステップ２１）検索問い合わせ部３０７は、ステップ２０で出力されたキーを入力として受け付け、各キーに対応するドキュメント名、ドキュメントにおける位置を検索インデックスＤＢ３０５に問い合わせる。

ステップ２２）図１４のように各検索キーの検索問い合わせ結果を集計して件数が最多である元ドキュメント名および元ドキュメントにおける位置を特定する。検索インデックス作成時（ステップ１３）と検索問い合わせ時（ステップ１９）のキー抽出位置決定方法が同一であるため、検索問い合わせ時に「ドキュメント１」の２ページから抽出した検索キーは、すべて「ドキュメント１」の２ページと関連付けられて検索インデックス内に含まれているため、問い合わせ結果を集計して最多件数の結果を求めると、これは常に正しい検索結果（この場合は「ドキュメント１」の２ページ）になる。

ステップ２３）検索問い合わせ部３０７は、コンテンツＤＢ３０８に問い合わせを行い、ステップ２２で特定した元ドキュメント名および元ドキュメントにおける位置に対応するコンテンツ（ここではhttp://content_1_2.html）を取得して出力する。ここでは、コンテンツＤＢ３０８には事前に図１５に示すデータが格納されていたとする。

ステップ７）問い合わせ時結果出力ステップ：問い合わせ結果を表示する。

ステップ２４）サーバ側データ送受信部３０６は、ステップ２３の出力を入力として受け付け、ネットワークを通じてクライアント部３００に出力する。

ステップ２５）クライアント側データ送受信部４０２は、ステップ２４の出力を入力として受け付け、出力する。

ステップ２６）コンテンツ表示部４０３は、ステップ２５の出力を入力として受け付け、コンテンツとして表示する。ここではコンテンツ表示部４０３は携帯電話のディスプレイであるとし、コンテンツであるhttp://content_1_2.htmlの内容を図１６のようにWebブラウザで表示する。

［第２の実施の形態］
本実施の形態は第１の実施の形態から、検索インデックス作成時におけるキー抽出位置決定（ステップ１３）、検索問い合わせ時におけるキー抽出位置決定（ステップ１９）のみを変更したものであり、その他の処理方法は第１の実施の形態と同様である。

図１７は、本発明の第２の実施の形態における検索インデックス作成処理のフローチャートである。ここではステップ１３を変更したステップ１０１３、ステップ１９を変更したステップ１０１９についてのみ説明する。

ステップ１０１３）キー抽出位置決定部３０２は、ステップ１２の出力を入力として受け付け、キー抽出位置を決定する。キー抽出位置は文字コードのパターンを用いて決定する。ここでは図１７のように各文字をUnicodeコードに変換し（図１８（ｂ））、「文字Ａのコード×2 ＜文字Ａの右隣に出現する文字のコード」となる文字Ａをキー抽出位置として特定する（図１８（ｃ））。以降はステップ１３と同様の出力を行う。

図１９は、本発明の第２の実施の形態における検索問い合わせ処理のフローチャートである。

ステップ１０１９）キー抽出位置決定部３０２は、ステップ１８の出力を入力として受け付け、キー抽出位置を決定する。キー抽出位置はステップ１０１３と同一の方法を用いて決定する。すなわち、図１８のように各文字をUnicodeコードに変換し（図２０（ｂ））、「文字Ａのコード×２＜文字Ａの右隣に出現する文字のコード」となる文字Ａをキー抽出位置として特定する（図２０（ｂ））。以降はステップ１９と同様の出力を行う。

［第３の実施の形態］
本実施の形態は第１の実施の形態から、検索インデックス作成時におけるキー抽出位置決定（ステップ１３）、検索問い合わせ時におけるキー抽出位置決定（ステップ１９）のみを変更したものであり、その他の処理方法は第１の実施の形態と同様である。

図２１は、本発明の第３の実施の形態における検索インデックス作成処理のフローチャートである。

ここではステップ１３を変更したステップ2013についてのみ説明する。

ステップ２０１３）キー抽出位置決定部３０２は、ステップ１２の出力を入力として受け付け、キー抽出位置を決定する。キー抽出位置は文字コードのパターンを用いて決定する。ここでは図２２のように各文字をUnicodeコードに変換し（図２２（ｂ））、「文字Ａのコードが奇数」となる文字Ａをキー抽出位置として特定する（図２２（ｃ））。以降はステップ１３と同様の出力を行う。

図２３は、本発明の第３の実施の形態における検索問い合わせ処理のフローチャートえある。ここでは、ステップ１９を変更したステップ２０１９についてのみ説明する。

ステップ２０１９）キー抽出位置決定部３０２は、ステップ１８の出力を入力として受け付け、キー抽出位置を決定する。キー抽出位置はステップ２０１３と同一の方法を用いて決定する。すなわち、図２４のように各文字をUnicodeコードに変換し（図２４（ｂ））、「文字Ａのコードが奇数」となる文字Ａをキー抽出位置として特定する（図２４（ｃ））。以降はステップ１９と同様の出力を行う。

なお、本発明は、上記の第１〜第３の実施の形態におけるサーバ部３００の動作をプログラムとして構築し、サーバ部として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。

また、本発明は、構築されたプログラムを、ハードディスクや、フレキシブルディスク、ＣＤ−ＲＯＭ等の可搬記憶媒体に格納し、コンピュータにインストールする、または、配布することが可能である。

なお、本発明は、上記の点に限定されることなく、特許請求の範囲内において、種々変更・応用が可能である。

１００ドキュメント
２００ドキュメント読み取り装置
２０１光学文字認識装置
３００サーバ部
３０１データ入力部
３０２キー抽出位置決定部
３０３キー抽出部
３０４検索インデックス出力部
３０５検索インデックスＤＢ
３０６サーバ側データ送受信部
３０７検索問い合わせ部
３０８コンテンツＤＢ
４００クライアント部
４０１ドキュメント撮影部
４０２クライアント側データ送受信部
４０３コンテンツ表示部

Claims

改ページや改行位置が確定しているドキュメント内の一部領域を検索クエリとして、該領域が出現するドキュメント及び該ドキュメント内における位置を取得する検索要求に応えるための検索インデックスを作成し、検索を行う検索装置であって、
インデックス作成対象のドキュメントの入力を受け付けるドキュメント入力手段と、
前記ドキュメントの全体または一部領域から、インデックスキーを抽出する位置を、該ドキュメントの全体または一部領域の各文字を数値的に表現された文字コードに変換したデータと予め定められた数値的比較条件に基づいて決定するインデックスキー抽出位置決定手段と、
前記ドキュメントの全体または一部領域から、前記位置にある１文字以上の文字の組み合わせからなるインデックスキーを抽出するインデックスキー抽出手段と、
前記インデックスキーと該インデックスキーが出現するドキュメントにおける出現位置を関連付けてインデックス記憶手段に出力するインデックス出力手段と、
を有することを特徴とする検索装置。
前記インデックスキー抽出位置決定手段は、
ドキュメントの全体または一部領域から、１文字以上の文字の組み合わせからなるインデックスキーを抽出する位置を、文字とその近傍に存在する文字の文字コードの関係に基づいて決定する手段を含む、
請求項１記載の検索装置。
あるドキュメント内の一部領域を検索クエリとして受け付けるクエリ入力手段と、
前記検索クエリから、クエリキーを抽出する位置を、文字を表現する文字コードの特徴に基づいて決定するクエリキー抽出位置決定手段と、
前記検索クエリから、１文字以上の文字の組み合わせからなるクエリキーを抽出するクエリキー抽出手段と、
前記クエリキーに基づいて、前記インデックス記憶手段を検索し、その検索結果を出力する検索手段と、
を更に有する請求項１記載の検索装置。
前記クエリキー抽出位置決定手段は、
検索クエリから、１文字以上の文字の組み合わせからなるクエリキーを抽出する位置を、文字とその近傍に存在する文字の文字コードの関係に基づいて決定する手段を含む、
請求項３記載の検索装置。
前記文字コードを、Unicodeとする
請求項１乃至４のいずれか１項に記載の検索装置。
改ページや改行位置が確定しているドキュメント内の一部領域を検索クエリとして、該領域が出現するドキュメント及び該ドキュメント内における位置を取得する検索要求に応えるための検索インデックスを作成し、検索を行う検索方法であって、
入力手段が、インデックス作成対象のドキュメントの入力を受け付けるドキュメント入力ステップと、
インデックスキー抽出位置決定手段が、前記ドキュメントの全体または一部領域から、インデックスキーを抽出する位置を、該ドキュメントの全体または一部領域の各文字を数値的に表現された文字コードに変換したデータと予め定められた数値的比較条件に基づいて決定するインデックスキー抽出位置決定手段と、
インデックスキー抽出位置決定ステップと、
インデックスキー抽出手段が、前記ドキュメントの全体または一部領域から、前記位置にある１文字以上の文字の組み合わせからなるインデックスキーを抽出するインデックスキー抽出ステップと、
インデックス出力手段が、前記インデックスキーと該インデックスキーが出現するドキュメントにおける出現位置を関連付けてインデックス記憶手段に出力するインデックス出力ステップと、
を行うことを特徴とする検索方法。
前記インデックスキー抽出位置決定ステップにおいて、
ドキュメントの全体または一部領域から、1文字以上の文字の組み合わせからなるインデックスキーを抽出する位置を、文字とその近傍に存在する文字の文字コードの関係に基づいて決定する
請求項６記載の検索方法。
クエリ入力手段が、あるドキュメント内の一部領域を検索クエリとして受け付けるクエリ入力ステップと、
クエリキー抽出位置決定手段が、前記検索クエリから、クエリキーを抽出する位置を、文字を表現する文字コードの特徴に基づいて決定するクエリキー抽出位置決定ステップと、
クエリキー抽出手段が、前記検索クエリから、１文字以上の文字の組み合わせからなるクエリキーを抽出するクエリキー抽出ステップと、
検索手段が、前記クエリキーに基づいて、前記インデックス記憶手段を検索し、その検索結果を出力する検索ステップと、
を更に行う請求項６記載の検索方法。
前記クエリキー抽出位置決定ステップにおいて、
検索クエリから、１文字以上の文字の組み合わせからなるクエリキーを抽出する位置を、文字とその近傍に存在する文字の文字コードの関係に基づいて決定する
請求項８記載の検索方法。
前記文字コードを、Unicodeとする
請求項６乃至９のいずれか１項に記載の検索方法。
請求項１乃至５のいずれか１項に記載の検索装置を構成する各手段としてコンピュータを機能させるためのプログラム。