JP5514002B2 - 検索装置及び方法及びプログラム - Google Patents

検索装置及び方法及びプログラム Download PDF

Info

Publication number
JP5514002B2
JP5514002B2 JP2010135605A JP2010135605A JP5514002B2 JP 5514002 B2 JP5514002 B2 JP 5514002B2 JP 2010135605 A JP2010135605 A JP 2010135605A JP 2010135605 A JP2010135605 A JP 2010135605A JP 5514002 B2 JP5514002 B2 JP 5514002B2
Authority
JP
Japan
Prior art keywords
search
document
query
key
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010135605A
Other languages
English (en)
Other versions
JP2012003355A (ja
Inventor
章裕 宮田
考 藤村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2010135605A priority Critical patent/JP5514002B2/ja
Publication of JP2012003355A publication Critical patent/JP2012003355A/ja
Application granted granted Critical
Publication of JP5514002B2 publication Critical patent/JP5514002B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、検索装置及び方法及びプログラムに係り、特に、改ページや改行位置が確定しているドキュメント内の部分領域の撮影画像を検索クエリとして、該領域が出現するドキュメント及び該ドキュメント内における位置を取得する検索要求に応えるための、ドキュメント及びドキュメント内の各位置のインデックスを作成する検索装置及び方法及びプログラムに関する。
詳しくは、改ページや改行位置が確定しているドキュメント内の該領域を含む可能性があるドキュメント及びドキュメント内における位置を網羅的に取得するのではなく、位置を一意に特定したい場合に適用される検索装置及び方法及びプログラムに関する。
ドキュメントの一部領域から、該領域がどのドキュメントに含まれているか、あるいは、どのドキュメントのどの位置に含まれているか一意に特定することが必要なシーンは少なくない。
例えば、手元に雑誌の切り抜きがある場合、切り抜いた元の雑誌を探して、切り抜きの続きを読みたいことがある。この場合、該切り抜きがどの雑誌の一部であったか一意に特定する必要がある。
上記の事例は、ドキュメントの一部領域をクエリとし、膨大な量のドキュメント群の中から、該領域を含むドキュメント名、あるいはドキュメント名及びドキュメントにおける位置を問い合わせる検索システムと捉えることができる。
そして、ドキュメント群の中から情報を取得する検索要求に応えるシステムを構築するためには、ドキュメント群を事前に分析して検索インデックスを作成する必要がある。
例えば、図25のように、ドキュメント内に登場するN文字の連続した文字列を抽出し、該文字列を検索インデックスのキーとし、該文字列を含むドキュメント名、あるいは、ドキュメント名及びドキュメント中において該文字列が登場する位置を検索インデックスの値とする方式が挙げられる。
また、N-gram方式は幅広い場面で有用性が認められており、現在でも多くの拡張手法が提案されている。また、通常のN-gram方式に加え、状況に応じてNの値を変動させる方式も実施されている(例えば、非特許文献1参照)。
「Unicodeを用いたN-gram索引の一実現方式とその評価」情報処理学会研究会報告、2000-NL-136-17,pp.135-142.
しかしながら、ドキュメントの一部領域をクエリとして上記方式で作成した検索インデックスに検索問い合わせを行う場合、検索精度を下げずにインデックスサイズは減らすことは難しい。
例えば、図26のように、「ドキュメント1」の2ページの部分領域を撮影し、撮影した部分画像をOCR (光学文字認識)処理して部分テキストに変換し、該部分テキストから検索キーを抽出し、該キーをもとに検索インデックスに対して検索問い合わせを行う場合について考える。なお、検索インデックス作成時、検索問い合わせ時のキー抽出方法は、上述のN文字の連続した文字列を抽出する方法とし、N=2とする。また、図27のように、各検索キーの検索問い合わせ結果を集計して件数が最多である元ドキュメント名及び元ドキュメントにおける位置を特定する。
まず、図25のように読む方向に1文字ずつずらしながらキー抽出を行って検索インデックスを作成する場合について考える。この場合、図28のように部分テキストの左上端から読む方向に1文字ずつずらしながら抽出した全ての検索キーに対して、正しい検索結果(この場合は「ドキュメント1」の2ページ)を含む問い合わせ結果が得られるため、検索問い合わせ結果を集計して件数が最多であるドキュメント・ドキュメントにおける位置を求めると(この場合は「ドキュメント1」の2ページ)、それは正しい元ドキュメント・元ドキュメントにおける位置である。しかし、この方法は、1文字ずつずらしながらキー抽出を行って検索インデックスを作成するため、検索インデックスのデータ量が膨大になり、検索問い合わせ速度低下、検索インデックス格納ハードディスク容量の増大という問題がある。
一方で、検索インデックスのデータ量を削減するために図29のように読む方向に2文字ずつずらしながらキー抽出を行って検索インデックスを作成する場合について考える。この場合、図30のように部分テキストの左上端から読む方向に1文字ずつずらしながら抽出した全ての検索キーに対して、正しい検索結果(この場合は「ドキュメント1」の2ページ)を含む問い合わせ結果が得られないことがある。すなわち、検索問い合わせに用いたキーのうち「アッ」、「プで」、「を電」、「気信」、「を通」、「じて」はそもそもドキュメント1の2ページに対する検索インデックスが作成されていないので、これらのキーの問い合わせ結果には正しい問い合わせ結果である「ドキュメント1」の2ページが含まれない。このため、検索問い合わせ結果を集計して件数が最多であるドキュメント・ドキュメントにおける位置を求めると(この場合は「ドキュメント5」の43ページ)、それは正しい元ドキュメント・元ドキュメントにおける位置にならない場合がある。
このとき、図31のように部分テキストの左上端から読む方向に2文字ずつずらしながらキー抽出を行えば正しい問い合わせ結果が得られることもある。しかし、部分テキストから2文字ずつずらしながらキー抽出を行う場合、必ずしも図31のように正しく検索問い合わせができるとは限らない。すなわち、元のドキュメントの部分領域を撮影したものを入力とする場合、どの領域が撮影されるか既定することは難しく、撮影される部分領域が1文字分ずれただけで正しい検索が行えなくなってしまう。つまり、図32のように図31から1文字分ずれた部分テキストの左上端からキー抽出を行うと、検索問い合わせに用いたキー「アッ」、「プで」、「を電」、「気信」、「を通」、「じて」はそもそも「ドキュメント1」の2ページに対する検索インデックスが作成されていないので、検索キーに対して正しい検索結果(この場合は「ドキュメント1」の2ページ)を含む問い合わせ結果がまったく得られない。
このように、検索インデックスのデータ量を削減するために2文字ずつずらしながらキー抽出を行うと(図29)、部分テキストからキー抽出する方法によっては正しく検索が行えない場合(図30、図32)があり、検索精度は低下していると言える。ここでは2文字ずつずらしてキー抽出する例で説明したが、M文字ずつ(M>2)ずらしてキー抽出する場合も本質的に問題は同じである。
本発明は、上記の点に鑑みなされたもので、ドキュメント群の中から特定ドキュメントの特定位置を一意に取得する検索要求に応じるための検索インデックス作成時に、検索精度を低下させることなく、検索インデックスのサイズを減らすことが可能な検索装置及び方法及びプログラムを提供することを目的とする。
上記の課題を解決するために、本発明(請求項1)は、改ページや改行位置が確定しているドキュメント内の一部領域を検索クエリとして、該領域が出現するドキュメント及び該ドキュメント内における位置を取得する検索要求に応えるための検索インデックスを作成し、検索を行う検索装置であって、
インデックス作成対象のドキュメントの入力を受け付けるドキュメント入力手段と、
前記ドキュメントの全体または一部領域から、インデックスキーを抽出する位置を、該ドキュメントの全体または一部領域の各文字を数値的に表現された文字コードに変換したデータと予め定められた数値的比較条件に基づいて決定するインデックスキー抽出位置決定手段と、
インデックスキー抽出位置決定手段と、
前記ドキュメントの全体または一部領域から、前記位置にある1文字以上の文字の組み合わせからなるインデックスキーを抽出するインデックスキー抽出手段と、
前記インデックスキーと該インデックスキーが出現するドキュメントにおける出現位置を関連付けてインデックス記憶手段に出力するインデックス出力手段と、を有する。
また、本発明(請求項2)は、請求項1の前記インデックスキー抽出位置決定手段において、
ドキュメントの全体または一部領域から、1文字以上の文字の組み合わせからなるインデックスキーを抽出する位置を、文字とその近傍に存在する文字の文字コードの関係に基づいて決定する手段を含む。
また、本発明(請求項3)は、あるドキュメント内の一部領域を検索クエリとして受け付けるクエリ入力手段と、
前記検索クエリから、クエリキーを抽出する位置を、文字を表現する文字コードの特徴に基づいて決定するクエリキー抽出位置決定手段と、
前記検索クエリから、1文字以上の文字の組み合わせからなるクエリキーを抽出するクエリキー抽出手段と、
前記クエリキーに基づいて、前記インデックス記憶手段を検索し、その検索結果を出力する検索手段と、を更に有する。
また、本発明(請求項4)は、請求項3の前記クエリキー抽出位置決定手段において、
検索クエリから、1文字以上の文字の組み合わせからなるクエリキーを抽出する位置を、文字とその近傍に存在する文字の文字コードの関係に基づいて決定する手段を含む。
また、本発明(請求項5)は、請求項1乃至4のいずれか1項において、前記文字コードを、Unicodeとする。
また、本発明(請求項)は、改ページや改行位置が確定しているドキュメント内の一部領域を検索クエリとして、該領域が出現するドキュメント及び該ドキュメント内における位置を取得する検索要求に応えるための検索インデックスを作成し、検索を行う検索方法であって、
入力手段が、インデックス作成対象のドキュメントの入力を受け付けるドキュメント入力ステップと、
インデックスキー抽出位置決定手段が、前記ドキュメントの全体または一部領域から、インデックスキーを抽出する位置を、該ドキュメントの全体または一部領域の各文字を数値的に表現された文字コードに変換したデータと予め定められた数値的比較条件に基づいて決定するインデックスキー抽出位置決定手段と、
インデックスキー抽出位置決定ステップと、
インデックスキー抽出手段が、前記ドキュメントの全体または一部領域から、前記位置にある1文字以上の文字の組み合わせからなるインデックスキーを抽出するインデックスキー抽出ステップと、
インデックス出力手段が、前記インデックスキーと該インデックスキーが出現するドキュメントにおける出現位置を関連付けてインデックス記憶手段に出力するインデックス出力ステップと、を行う。
また、本発明(請求項)は、請求項の前記インデックスキー抽出位置決定ステップにおいて、
ドキュメントの全体または一部領域から、1文字以上の文字の組み合わせからなるインデックスキーを抽出する位置を、文字とその近傍に存在する文字の文字コードの関係に基づいて決定する。
また、本発明(請求項)は、クエリ入力手段が、あるドキュメント内の一部領域を検索クエリとして受け付けるクエリ入力ステップと、
クエリキー抽出位置決定手段が、前記検索クエリから、クエリキーを抽出する位置を、文字を表現する文字コードの特徴に基づいて決定するクエリキー抽出位置決定ステップと、
クエリキー抽出手段が、前記検索クエリから、1文字以上の文字の組み合わせからなるクエリキーを抽出するクエリキー抽出ステップと、
検索手段が、前記クエリキーに基づいて、前記インデックス記憶手段を検索し、その検索結果を出力する検索ステップと、を更に行う。
また、本発明(請求項)は、請求項の前記クエリキー抽出位置決定ステップにおいて、
検索クエリから、1文字以上の文字の組み合わせからなるクエリキーを抽出する位置を、文字とその近傍に存在する文字の文字コードの関係に基づいて決定する。
また、本発明(請求項10)は、請求項6乃至9のいずれか1項において、前記文字コードを、Unicodeとする。
また、本発明(請求項11)は、請求項1乃至のいずれか1項に記載の検索装置を構成する各手段としてコンピュータを機能させるプログラムである。

上記のように、本発明によれば、キー抽出位置特定の際に、文字コードのパターンというクエリ位置および言語に非依存の情報を用いることにより、ドキュメント群の中から特定ドキュメントの特定位置を一意に取得する検索要求に応じるための検索インデックス作成時に、検索精度を低下させることなく、検索インデックスのサイズを減らすことができる。
特に、文字コードのパターンでキー抽出位置を決定した場合、クエリ位置(第1の実施の形態で撮影した書籍内の位置)に依らず、検索インデックスキーが作成されている位置から検索キーを抽出することができるため、書籍内に網羅的に検索インデックスが作成されていなくても精度良く検索を実行できる。
また、文字コードのパターンでキー抽出位置を決定した場合、各国の言語特徴の違いを気にすることなく本手法の効果を発揮できる。
本発明の第1の実施の形態におけるサーバ部の構成図である。 本発明の第1の実施の形態におけるドキュメントの例である。 本発明の第1の実施の形態における検索インデックス作成処理のフローチャートである。 本発明の第1の実施の形態における関連付けデータの例である。 本発明の第1の実施の形態におけるキー抽出位置決定処理を示す図(その1)である。 本発明の第1の実施の形態におけるキー抽出位置のデータの例である。 本発明の第1の実施の形態における抽出されたキーの例である。 本発明の第1の実施の形態における検索インデックスDBの例である。 本発明の第1の実施の形態における検索問い合わせ処理のフローチャートである。 本発明の第1の実施の形態における撮影した部分領域の例である。 本発明の第1の実施の形態におけるキー抽出決定処理を示す図(その2)である。 本発明の第1の実施の形態における検索問い合わせ作成処理で決定されたキー抽出位置を示す図である。 本発明の第1の実施の形態における検索問い合わせ処理で抽出されたキーの例である。 本発明に第1の実施の形態における検索問い合わせ結果の集計例である。 本発明の第1の実施の形態におけるコンテンツDBの例である。 本発明の第1の実施の形態におけるWebブラウザの表示例である。 本発明の第2の実施の形態における検索インデックス作成処理のフローチャートである。 本発明の第2の実施の形態における検索インデックス作成時のキー抽出位置決定処理を示す図である。 本発明の第2の実施の形態における検索問い合わせ処理のフローチャートである。 本発明の第2の実施の形態における検索問い合わせ作成時のキー抽出位置を決定処理を示す図である。 本発明の第3の実施の形態における検索インデックス作成処理のフローチャートである。 本発明の第3の実施の形態における検索インデックス作成時のキー抽出位置決定処理を示す図である。 本発明の第3の実施の形態における検索問い合わせ処理のフローチャートである。 本発明の第3の実施の形態における検索問い合わせ時のキー抽出位置決定処理を示す図である。 従来技術による検索インデックス作成例である。 従来技術による検索問い合わせの例である。 従来技術による検索問い合わせ時のキー抽出方法を示す図である。 従来技術による読む方向に1文字ずつずらしながらキー抽出を行う例である。 従来技術による読む広報に2文字ずつずらしながらキー抽出を行う例である。 従来技術による部分テキストの左上端から読む方向に1文字ずつずらしながらキー抽出を行う例である。 従来技術による部分テキストの左上端から読む方向に2文字ずつずらしながらキー抽出を行う例(その1)である。 従来技術による部分テキストの左上端から読む方向に2文字ずつずらしながらキー抽出を行う例(その2)である。
以下図面と共に、本発明の実施の形態を説明する。
[第1の実施の形態]
図1は、本発明の第1の実施の形態におけるサーバの構成を示す。
同図に示すサーバ300部は、本発明の検索装置として利用されるものである。
サーバ部300はPCサーバ等の機器で実現でき、データ入力部301、キー抽出位置決定部302、キー抽出部303、検索インデックス出力部304、検索インデックスDB305、サーバ側データ送受信部306、検索問い合わせ部307、コンテンツDB308から構成される。
同図におけるクライアント部400はカメラ付き携帯電話等で実現でき、ドキュメント撮影部401、クライアント側データ送受信部402、コンテンツ表示部403から構成される。
同図におけるドキュメント読み取り装置200は、サーバ部300のデータ入力部301、及び、サーバ側データ送受信部306に接続され、一般的なスキャナ等の外部装置であり、文字が記載された紙媒体の文書を入力とし、文書をスキャンして電子的な画像ファイルに変換したものを出力とする。光学文字認識装置201は一般的なOCRソフトウェア等の外部装置であり、文字が写っている画像ファイルを入力とし、写っている文字を電子的なテキストデータに変換したものを出力とする。
同図におけるドキュメント100は、図2のような文章を含む紙媒体書籍の1ページである。なお、図2は文章のみからなるページの例であるが、ページには図や表等の文字以外の情報が含まれていてもよい。また、ドキュメントは1ページの一部分から構成されても構わないし、複数ページから構成されても構わない。
以下に、上記の構成における処理を説明する。
本発明は、検索インデックス作成処理と検索問い合わせ作成処理に分けられる。
<検索インデックス作成処理>
図3は、本発明の第1の実施の形態における検索インデックス作成処理のフローチャートである。
ステップ1)インデックス作成時入力ステップ:データ入力部301において、インデックス作成対象となるドキュメントをテキストデータとして入力する。
ステップ10)ドキュメント読み取り装置200は、ドキュメント100を入力として受け付け、ドキュメント100を画像ファイルに変換したものを出力する。
ステップ11)光学文字認識装置201は、ステップ10の出力を入力として受け付け、画像ファイルをテキストデータに変換したものを出力する。テキストデータは画像ファイルに写っているテキストの改行位置も保持している。
ステップ12)データ入力部301は、ドキュメント100のドキュメント名、ドキュメントにおける位置、ステップ11の出力を入力として受け付け、これらを図4のように関連付けてキー抽出位置決定部302に出力する。ここではドキュメント名は書籍名、ドキュメントにおける位置はページとする。
ステップ2)インデックス作成時キー抽出ステップ:キー位置抽出位置決定部302、キー抽出部303は、一定のルールに従ってテキストデータからキーを抽出する。
ステップ13)キー抽出位置決定部302は、ステップ12におけるデータ入力部301からの出力を入力として受け付け、キー抽出位置を決定する。キー抽出位置は文字コードのパターンを用いて決定する。ここでは図5のように、元のテキストデータ(図5(a))の各文字をUnicodeコードに変換し(図5(b))、「文字Aのコード < 文字Aの右隣に出現する文字のコード」となる文字Aをキー抽出位置とし(図5(c))、キー抽出位置を(左上端から右方向へ数えた場合の文字数、左上端から下方向へ数えた場合の文字数)という座標形式で表現して、図4のデータにキー抽出位置の情報を付加して図6のように出力する。
ステップ14)キー抽出部303は、ステップ13の出力を入力として受け付け、一定ルールに基づきキー抽出を行う。ここでは、キー抽出位置にある文字と該文字の右隣にある文字を連結した2文字をキーとして図7のように出力する。図7では、抽出されたキーと当該キーの抽出対象となったドキュメント名、ドキュメント内における位置(ページ)を検索インデックス出力部304に出力する。
ステップ3)インデックス作成時キー出力ステップ:抽出されたキーを検索インデックスとして出力する。
ステップ15)検索インデックス出力部304は、ステップ14の出力を入力として受け付け、図7の形式のまま検索インデックスDB305に格納する。ここでは、複数のドキュメントに対してステップ10〜15の処理を繰り返し行い、検索インデックスDB305には図8のようなデータが格納されたものとする。
<検索問い合わせ作成処理>
図9は、本発明の第1の実施の形態における検索問い合わせ作成処理のフローチャートである。
ステップ4)問い合わせ時入力ステップ:問い合わせ対象となるドキュメントをテキストデータとして入力する。
ステップ16)クライアント部400のドキュメント撮影部401は、ドキュメント100の部分領域を撮影して図10のように画像ファイルとして出力する。
ステップ17)クライアント側データ送受信部402は、ステップ16で出力された部分領域の画像ファイルを入力として受け付け、画像ファイルのままネットワーク等を通じてサーバ部300に出力する。
ステップ18)サーバ側データ送受信部306は、ステップ17において、クライアント部400から出力された画像ファイルを入力として受け付け、光学文字認識装置201を用いて画像ファイルをテキストデータに変換したものを出力する。テキストデータは画像ファイルに写っているテキストの改行位置も保持している。
ステップ5)問い合わせ時キー抽出ステップ:、一定のルールに従ってテキストデータからキーを抽出する。
ステップ19)キー抽出位置決定部302は、ステップ18において出力されたテキストデータを入力として受け付け、キー抽出位置を決定する。キー抽出位置はステップ13と同一の方法を用いて決定する。すなわち、図11のように各文字をUnicodeコードに変換し(図11(b))、「文字Aのコード < 文字Aの右隣に出現する文字のコード」となる文字Aをキー抽出位置とし(図11(c))、キー抽出位置を(左上端から右方向へ数えた場合の文字数、左上端から下方向へ数えた場合の文字数)という座標形式で表現して図12のように出力する。
ステップ20)キー抽出部303は、ステップ19の出力を入力として受け付け、ステップ14と同一の方法を用いてキー抽出を行う。すなわち、キー抽出位置にある文字と該文字の右隣にある文字を連結した2文字をキーとして図13のように出力する。
ステップ6)問い合わせ時問い合わせステップ:抽出されたキーを用いて問い合わせを行う。
ステップ21)検索問い合わせ部307は、ステップ20で出力されたキーを入力として受け付け、各キーに対応するドキュメント名、ドキュメントにおける位置を検索インデックスDB305に問い合わせる。
ステップ22)図14のように各検索キーの検索問い合わせ結果を集計して件数が最多である元ドキュメント名および元ドキュメントにおける位置を特定する。検索インデックス作成時(ステップ13)と検索問い合わせ時(ステップ19)のキー抽出位置決定方法が同一であるため、検索問い合わせ時に「ドキュメント1」の2ページから抽出した検索キーは、すべて「ドキュメント1」の2ページと関連付けられて検索インデックス内に含まれているため、問い合わせ結果を集計して最多件数の結果を求めると、これは常に正しい検索結果(この場合は「ドキュメント1」の2ページ)になる。
ステップ23)検索問い合わせ部307は、コンテンツDB308に問い合わせを行い、ステップ22で特定した元ドキュメント名および元ドキュメントにおける位置に対応するコンテンツ(ここではhttp://content_1_2.html)を取得して出力する。ここでは、コンテンツDB308には事前に図15に示すデータが格納されていたとする。
ステップ7)問い合わせ時結果出力ステップ:問い合わせ結果を表示する。
ステップ24)サーバ側データ送受信部306は、ステップ23の出力を入力として受け付け、ネットワークを通じてクライアント部300に出力する。
ステップ25)クライアント側データ送受信部402は、ステップ24の出力を入力として受け付け、出力する。
ステップ26)コンテンツ表示部403は、ステップ25の出力を入力として受け付け、コンテンツとして表示する。ここではコンテンツ表示部403は携帯電話のディスプレイであるとし、コンテンツであるhttp://content_1_2.htmlの内容を図16のようにWebブラウザで表示する。
[第2の実施の形態]
本実施の形態は第1の実施の形態から、検索インデックス作成時におけるキー抽出位置決定(ステップ13)、検索問い合わせ時におけるキー抽出位置決定(ステップ19)のみを変更したものであり、その他の処理方法は第1の実施の形態と同様である。
図17は、本発明の第2の実施の形態における検索インデックス作成処理のフローチャートである。ここではステップ13を変更したステップ1013、ステップ19を変更したステップ1019についてのみ説明する。
ステップ1013)キー抽出位置決定部302は、ステップ12の出力を入力として受け付け、キー抽出位置を決定する。キー抽出位置は文字コードのパターンを用いて決定する。ここでは図17のように各文字をUnicodeコードに変換し(図18(b))、「文字Aのコード×2 < 文字Aの右隣に出現する文字のコード」となる文字Aをキー抽出位置として特定する(図18(c))。以降はステップ13と同様の出力を行う。
図19は、本発明の第2の実施の形態における検索問い合わせ処理のフローチャートである。
ステップ1019)キー抽出位置決定部302は、ステップ18の出力を入力として受け付け、キー抽出位置を決定する。キー抽出位置はステップ1013と同一の方法を用いて決定する。すなわち、図18のように各文字をUnicodeコードに変換し(図20(b))、「文字Aのコード×2 < 文字Aの右隣に出現する文字のコード」となる文字Aをキー抽出位置として特定する(図20(b))。以降はステップ19と同様の出力を行う。
[第3の実施の形態]
本実施の形態は第1の実施の形態から、検索インデックス作成時におけるキー抽出位置決定(ステップ13)、検索問い合わせ時におけるキー抽出位置決定(ステップ19)のみを変更したものであり、その他の処理方法は第1の実施の形態と同様である。
図21は、本発明の第3の実施の形態における検索インデックス作成処理のフローチャートである。
ここではステップ13を変更したステップ2013についてのみ説明する。
ステップ2013)キー抽出位置決定部302は、ステップ12の出力を入力として受け付け、キー抽出位置を決定する。キー抽出位置は文字コードのパターンを用いて決定する。ここでは図22のように各文字をUnicodeコードに変換し(図22(b))、「文字Aのコードが奇数」となる文字Aをキー抽出位置として特定する(図22(c))。以降はステップ13と同様の出力を行う。
図23は、本発明の第3の実施の形態における検索問い合わせ処理のフローチャートえある。ここでは、ステップ19を変更したステップ2019についてのみ説明する。
ステップ2019)キー抽出位置決定部302は、ステップ18の出力を入力として受け付け、キー抽出位置を決定する。キー抽出位置はステップ2013と同一の方法を用いて決定する。すなわち、図24のように各文字をUnicodeコードに変換し(図24(b))、「文字Aのコードが奇数」となる文字Aをキー抽出位置として特定する(図24(c))。以降はステップ19と同様の出力を行う。
なお、本発明は、上記の第1〜第3の実施の形態におけるサーバ部300の動作をプログラムとして構築し、サーバ部として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。
また、本発明は、構築されたプログラムを、ハードディスクや、フレキシブルディスク、CD−ROM等の可搬記憶媒体に格納し、コンピュータにインストールする、または、配布することが可能である。
なお、本発明は、上記の点に限定されることなく、特許請求の範囲内において、種々変更・応用が可能である。
100 ドキュメント
200 ドキュメント読み取り装置
201 光学文字認識装置
300 サーバ部
301 データ入力部
302 キー抽出位置決定部
303 キー抽出部
304 検索インデックス出力部
305 検索インデックスDB
306 サーバ側データ送受信部
307 検索問い合わせ部
308 コンテンツDB
400 クライアント部
401 ドキュメント撮影部
402 クライアント側データ送受信部
403 コンテンツ表示部

Claims (11)

  1. 改ページや改行位置が確定しているドキュメント内の一部領域を検索クエリとして、該領域が出現するドキュメント及び該ドキュメント内における位置を取得する検索要求に応えるための検索インデックスを作成し、検索を行う検索装置であって、
    インデックス作成対象のドキュメントの入力を受け付けるドキュメント入力手段と、
    前記ドキュメントの全体または一部領域から、インデックスキーを抽出する位置を、該ドキュメントの全体または一部領域の各文字を数値的に表現された文字コードに変換したデータと予め定められた数値的比較条件に基づいて決定するインデックスキー抽出位置決定手段と、
    前記ドキュメントの全体または一部領域から、前記位置にある1文字以上の文字の組み合わせからなるインデックスキーを抽出するインデックスキー抽出手段と、
    前記インデックスキーと該インデックスキーが出現するドキュメントにおける出現位置を関連付けてインデックス記憶手段に出力するインデックス出力手段と、
    を有することを特徴とする検索装置。
  2. 前記インデックスキー抽出位置決定手段は、
    ドキュメントの全体または一部領域から、1文字以上の文字の組み合わせからなるインデックスキーを抽出する位置を、文字とその近傍に存在する文字の文字コードの関係に基づいて決定する手段を含む、
    請求項1記載の検索装置。
  3. あるドキュメント内の一部領域を検索クエリとして受け付けるクエリ入力手段と、
    前記検索クエリから、クエリキーを抽出する位置を、文字を表現する文字コードの特徴に基づいて決定するクエリキー抽出位置決定手段と、
    前記検索クエリから、1文字以上の文字の組み合わせからなるクエリキーを抽出するクエリキー抽出手段と、
    前記クエリキーに基づいて、前記インデックス記憶手段を検索し、その検索結果を出力する検索手段と、
    を更に有する請求項1記載の検索装置。
  4. 前記クエリキー抽出位置決定手段は、
    検索クエリから、1文字以上の文字の組み合わせからなるクエリキーを抽出する位置を、文字とその近傍に存在する文字の文字コードの関係に基づいて決定する手段を含む、
    請求項3記載の検索装置。
  5. 前記文字コードを、Unicodeとする
    請求項1乃至4のいずれか1項に記載の検索装置。
  6. 改ページや改行位置が確定しているドキュメント内の一部領域を検索クエリとして、該領域が出現するドキュメント及び該ドキュメント内における位置を取得する検索要求に応えるための検索インデックスを作成し、検索を行う検索方法であって、
    入力手段が、インデックス作成対象のドキュメントの入力を受け付けるドキュメント入力ステップと、
    インデックスキー抽出位置決定手段が、前記ドキュメントの全体または一部領域から、インデックスキーを抽出する位置を、該ドキュメントの全体または一部領域の各文字を数値的に表現された文字コードに変換したデータと予め定められた数値的比較条件に基づいて決定するインデックスキー抽出位置決定手段と、
    インデックスキー抽出位置決定ステップと、
    インデックスキー抽出手段が、前記ドキュメントの全体または一部領域から、前記位置にある1文字以上の文字の組み合わせからなるインデックスキーを抽出するインデックスキー抽出ステップと、
    インデックス出力手段が、前記インデックスキーと該インデックスキーが出現するドキュメントにおける出現位置を関連付けてインデックス記憶手段に出力するインデックス出力ステップと、
    を行うことを特徴とする検索方法。
  7. 前記インデックスキー抽出位置決定ステップにおいて、
    ドキュメントの全体または一部領域から、1文字以上の文字の組み合わせからなるインデックスキーを抽出する位置を、文字とその近傍に存在する文字の文字コードの関係に基づいて決定する
    請求項6記載の検索方法。
  8. クエリ入力手段が、あるドキュメント内の一部領域を検索クエリとして受け付けるクエリ入力ステップと、
    クエリキー抽出位置決定手段が、前記検索クエリから、クエリキーを抽出する位置を、文字を表現する文字コードの特徴に基づいて決定するクエリキー抽出位置決定ステップと、
    クエリキー抽出手段が、前記検索クエリから、1文字以上の文字の組み合わせからなるクエリキーを抽出するクエリキー抽出ステップと、
    検索手段が、前記クエリキーに基づいて、前記インデックス記憶手段を検索し、その検索結果を出力する検索ステップと、
    を更に行う請求項6記載の検索方法。
  9. 前記クエリキー抽出位置決定ステップにおいて、
    検索クエリから、1文字以上の文字の組み合わせからなるクエリキーを抽出する位置を、文字とその近傍に存在する文字の文字コードの関係に基づいて決定する
    請求項8記載の検索方法。
  10. 前記文字コードを、Unicodeとする
    請求項6乃至9のいずれか1項に記載の検索方法。
  11. 請求項1乃至5のいずれか1項に記載の検索装置を構成する各手段としてコンピュータを機能させるためのプログラム。
JP2010135605A 2010-06-14 2010-06-14 検索装置及び方法及びプログラム Active JP5514002B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010135605A JP5514002B2 (ja) 2010-06-14 2010-06-14 検索装置及び方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010135605A JP5514002B2 (ja) 2010-06-14 2010-06-14 検索装置及び方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2012003355A JP2012003355A (ja) 2012-01-05
JP5514002B2 true JP5514002B2 (ja) 2014-06-04

Family

ID=45535287

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010135605A Active JP5514002B2 (ja) 2010-06-14 2010-06-14 検索装置及び方法及びプログラム

Country Status (1)

Country Link
JP (1) JP5514002B2 (ja)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06309382A (ja) * 1993-04-26 1994-11-04 Kayaba Ind Co Ltd 画像情報処理装置
JP2000259673A (ja) * 1999-01-06 2000-09-22 Matsushita Electric Ind Co Ltd 単語分割方法と装置
JP3696745B2 (ja) * 1999-02-09 2005-09-21 株式会社日立製作所 文書検索方法及び文書検索システム及び文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2003132078A (ja) * 2001-10-25 2003-05-09 Toppan Printing Co Ltd データベース構築装置、データベース構築方法、データベース構築プログラム、記録媒体

Also Published As

Publication number Publication date
JP2012003355A (ja) 2012-01-05

Similar Documents

Publication Publication Date Title
JP5353148B2 (ja) 画像情報検索装置、画像情報検索方法およびそのコンピュータプログラム
US8107727B2 (en) Document processing apparatus, document processing method, and computer program product
US7669148B2 (en) System and methods for portable device for mixed media system
US8064727B2 (en) Adaptive image maps
US8838657B1 (en) Document fingerprints using block encoding of text
US20070171482A1 (en) Method and apparatus for managing information, and computer program product
US20070180471A1 (en) Presenting digitized content on a network using a cross-linked layer of electronic documents derived from a relational database
JP2010073114A6 (ja) 画像情報検索装置、画像情報検索方法およびそのコンピュータプログラム
US7359896B2 (en) Information retrieving system, information retrieving method, and information retrieving program
CN105637509A (zh) 在图像内搜索和注释
US9310971B2 (en) Document viewing device for display document data
EP1917637A4 (en) DATA ORGANIZATION AND ACCESS FOR A MIXED MEDIA DOCUMENT SYSTEM
US20060167899A1 (en) Meta-data generating apparatus
KR100917458B1 (ko) 추천검색어 제공 방법 및 시스템
JP2008269069A (ja) 情報処理システム及び情報処理方法
JP5484113B2 (ja) 文書画像関連情報提供装置、及び文書画像関連情報取得システム
JP5384315B2 (ja) 検索装置及び方法及びプログラム
JP2010092383A (ja) 電子文書ファイル検索装置、電子文書ファイル検索方法及びコンピュータプログラム
JP2007011973A (ja) 情報検索装置及び情報検索プログラム
US8566366B2 (en) Format conversion apparatus and file search apparatus capable of searching for a file as based on an attribute provided prior to conversion
US9135517B1 (en) Image based document identification based on obtained and stored document characteristics
JP5514002B2 (ja) 検索装置及び方法及びプログラム
JP2016018279A (ja) 文書ファイル検索プログラム、文書ファイル検索装置、文書ファイル検索方法、文書情報出力プログラム、文書情報出力装置及び文書情報出力方法
JP2000020549A (ja) 文書データベースシステムへの入力支援装置
JP5223293B2 (ja) 位置表現抽出装置、方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20121204

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20131001

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131010

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131112

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140114

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140325

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140328

R150 Certificate of patent or registration of utility model

Ref document number: 5514002

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150