JP2009020567A

JP2009020567A - 文書検索装置

Info

Publication number: JP2009020567A
Application number: JP2007180727A
Authority: JP
Inventors: Yasuhiro Okada; 康裕岡田; Takashi Hirano; 敬平野
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2007-07-10
Filing date: 2007-07-10
Publication date: 2009-01-29

Abstract

【課題】全文検索の文書検索装置で、登録時に検索索引を作成、検索時は文書データ走査をせず索引から検索するNグラム方式は、文字認識誤りを許容する検索の場合、候補文字の組合せ数索引が必要でN値で増加で、索引サイズが増大する。また、キーワードの照合では誤認識候補文字の組合せとが成立し、キーワードとマッチしない箇所が抽出される。
【解決手段】文書画像の文字認識をし、その結果の第1位の認識候補文字で構成する第１の検索索引と、第２位以降の認識候補文字で構成する第２の検索索引を作成する索引作成手段と、検索キーワードが入力されるキーワード入力手段と、キーワードが構成される文字列と第１の検索索引および第２の検索索引を照合して照合度合いのスコアを算出する検索スコア算出手段と、検索スコア算出手段から得られた検索スコアをもとに検索結果を出力する出力手段を備える。
【選択図】図１

Description

本発明は文書画像に対する文字認識結果を利用して、文書画像内の情報を検索する文書検索装置に関する。

近年、企業内の情報共有のため、文書を電子化して自由に検索できる文書管理システムの利用が進んでいる。蓄積される文書は、ワープロ文書、プレゼンテーション文書など既に電子化されたものが主流であるが、そのままではテキスト検索できない画像のままの文書も使用される。

文書画像を文書管理システムに登録する方法としては、文書画像を文字認識して検索可能なテキストに変換して画像とともに蓄積する手法が一般的である。

しかし、文字認識の精度は１００％ではなく、認識結果には誤認識が含まれる。このため、文書中にキーワードの文字列があるにも関わらず、その文字列がキーワードと一致せず、検索できないケースがある。

これを防止するため、特開２００１−３３７９９３号公報における従来技術の説明に記載されたような文字認識の特性を利用した検索用データの作成方法と、文字認識した後のデータに対する検索方法が開発されている。その中の１つの手法として、文字認識候補とキーワードとの照合を行う手法が提案されており、文字認識時に認識候補を生成し、検索時に候補を用いて複数の可能性を考慮しながら検索する。

一方、大量の文書の全文検索を行う手法は、特開平７−１０５２３７号公報の従来技術の説明に示すように、文書を登録する際に検索索引を作成しておき、検索時には索引から検索対象を絞り込むことで検索毎に文書データを走査することなく、高速に検索する手法が主流となっている。この検索索引の１つの形態として、連続するN文字（Nは２以上の自然数）の出現位置を保持するNグラム方式が広く用いられている。

例えば、N=2のNグラム方式といえば、「明後日の天候は」という文章を2文字ごとに分解して、その出現位置を記憶しておく。この場合は、「(1)明後」、「(2)後日」、「(3)日の」、「(4)の天」、「(5)天候」、「(6)候は」「(7)は」と分解して、索引に登録しておく（カッコ内の数字は出現位置）。ここで「天候」という単語を探す場合は、索引から、「天候」という単語が含まれている文書を探せばよく、「明後日」ならば、「明後」と「後日」の両方が含まれている部分を探し、かつその出現位置が１ずれているもの（この場合は(1)と(2)）を探す。

特開２００１−３３７９９３号公報特開平７−１０５２３７号公報

このように、文字認識誤りを許容した検索を行う場合には複数の認識候補文字を保持する必要があるため、これにNグラム方式の索引作成手法を適用すると、候補文字の組合せの数だけ索引を生成する必要があり、索引のサイズが爆発的に増大する。例えば、N=3で、各文字あたり５個の認識候補文字を保持する場合、認識候補文字を１個の場合に比べ、５^３＝125倍の索引サイズとなり、Nの値の増大に伴い、指数関数的に索引サイズが増大する課題があった。

また、認識候補文字の全て組合せが索引データに含まれるため、キーワードと照合する際に誤った認識候補文字の組合せと照合が成立し、実際にはキーワードとマッチしない箇所が抽出され、適合率（正しい検索結果数／全検索結果数）が低下する課題があった。

本発明はかかる問題点を解決するためになされたものであり、複数の認識候補文字を持つ検索データをNグラム方式で検索する際に、適合率の低下を防止しつつ、索引サイズの増大を抑えて、大量の文書画像を高速に検索する文書検索装置を提供する。

本発明に係る文書検索装置は、文書画像中の文字を認識した結果を用いて該文書画像を検索する文書検索装置であって、前記文書画像の文字認識をし、その結果の第１位の認識候補文字で構成される第１の検索索引と、文字認識結果の第２位以降の認識候補文字で構成される第２の検索索引を作成する索引作成手段と、検索するキーワードが入力されるキーワード入力手段と、キーワード入力手段で入力されたキーワードが構成される文字列と前記第１の検索索引および前記第２の検索索引を照合して照合の度合いを示すスコアを算出する検索スコア算出手段と、検索スコア算出手段から得られた検索スコアをもとに検索結果を出力する出力手段を備える。

本発明に係る文書検索装置によれば、索引作成手段が検索用のキーワードと照合される検索索引を文字認識の候補の順位によって複数に分けて作成し、保持することで、１つの索引で保持し、照合する方法に比較して、検索結果の順位付けができ、正確な検索結果が出力できる。

実施の形態１．
図１は実施の形態１による文書検索装置の全体構成図であり、図中の１０１はキーワード入力手段、１０２は第１の検索索引、１０３は第２の検索索引、１０４は検索スコア算出手段、１０５は出力手段、１０６は索引作成手段である。

実施の形態１の動作は、文書画像から索引を作成する処理と、作成した索引からキーワードに該当する位置を検索する処理の２つに大別できる。
以下では、まず索引を作成する処理について図面を参照しながら実施の形態を詳細に説明する。

本実施の形態の文書検索装置は、まず、索引作成手段１０６が入力された文書画像の領域識別と文字認識を行い、検索に必要な認識結果を含む索引を生成する。

図２は文書画像から検索索引を作成する索引作成手段の動作説明図であり、２０１は文書画像中の文字列、２０２は文字列内の文字を認識した結果得られる候補文字、２０３は文字認識結果２０２から得られた第１位候補文字から作成した第１の検索索引の例、２０４は文字認識結果２０２からの第２位以降の候補文字から作成した第２の検索索引の例である。

索引作成手段１０６では、文書画像を走査し、公知の技術で領域識別を行って、文字領域を抽出する。ここでは画像全体をラベリングして黒画素連結領域の外接矩形を抽出し、一定サイズ以上の矩形を図形・表領域候補として抽出する。次に、図・表領域候補の各矩形の内部を対象として罫線抽出を行い、縦横の罫線が抽出されれば、その矩形を表領域と識別する。また、罫線が抽出されなければ、その矩形を図領域と識別する。そして、図・表領域以外の領域、即ち、一定サイズ未満の矩形を文字領域として抽出する。

次に、文字領域から文字列２０１を抽出し、各行を対象として文字認識を行い、認識候補文字２０２を生成する。

その後、索引作成手段１０６は、認識候補文字２０２の中の第１位候補文字に対してN個の連続する文字列とその出現位置を抽出し、Nグラム方式の索引を作成する。その結果得られる第１の検索索引の例２０３を第１の検索索引１０２に格納する（本実施例ではN=3の場合の例を示す）。

同様に、認識候補文字２０２の中の第２位以降の候補文字に対して、N個の連続する文字列とその出現位置を抽出し、Nグラム方式の索引を作成する。この時、第２位以降の候補文字が複数個存在する場合は、候補文字を組合せた文字列を生成し、索引を作成する。例えば、図２のように１文字目から３文字目までの候補文字数がそれぞれ1文字、３文字、３文字の場合には、候補文字の全組合せの９種類から第１位の候補文字による組合せの１種類を除いた８種類を索引に登録する。
上記の結果得られる第２の検索索引の例２０４を第２の検索索引１０３に格納する。

次に作成した索引からキーワードに該当する位置を検索する処理について図面を参照しながら実施の形態を詳細に説明する。

図３は作成した索引から指定されたキーワードを検索し、図２で示した文字列中の該当位置を抽出する動作説明図であり、３００はキーワード「プロッタ」、３０１は第１の検索索引の文字列「プロッ」、３０２は第１の検索索引の文字列例「ロッタ」、３０３は第２の検索索引の文字列例「プロッ」、３０４は第２の検索索引の文字列例「ロッタ」である。

検索スコア算出手段１０４は、キーワード入力手段１０１より入力されたキーワード「プロッタ」３００と、第１の検索索引を照合してプロッタの存在箇所を探索する。具体的には、Nグラム方式に従い、キーワード「プロッタ」の１文字目から３文字を、第１の検索索引の中から探索する。図３の例の場合、第１の検索索引の文字列「プロッ」３０１がヒットする。次にキーワード「プロッタ」の２文字目から３文字を、第１の検索索引の中から探索する。図３の例の場合、第１の検索索引の文字列「ロッタ」３０２がヒットする。

次に、検索スコア算出手段１０４は、第２の検索索引に対して同様の探索を行う。その結果、第２の検索索引の文字列「プロッ」３０３と第２の検索索引の文字列「ロッタ」３０４がヒットする。

次に、「プロッ」と「ロッタ」の両方が含まれている部分を探し、かつその出現位置が１ずれているものを抽出する。図３の例の場合、第１の検索索引の１文字目から４文字目、第２の検索索引の１０文字目から１３文字目が該当する。

最後に、キーワード照合結果のスコアを計算する。スコアの計算は文字認識した結果の候補文字の上位の組合せで構成されるものを優先させる。例えば、第１の検索索引とヒットした場合は３点、第２の検索索引とヒットした場合は１点と点数付けし、キーワード全体の合算値でスコアを算出する。上記算法に従えば、図３の場合、第１の検索索引の１文字目から４文字目は６点、第２の検索索引の１０文字目から１３文字目は２点となり、検索結果は、図２入力文字列の１文字目から４文字目が第１位検索候補、図２入力文字列の１０文字目から１３文字目が第２位検索候補となる。

このように、検索索引を文字認識の候補の順位によって分けて保持することで、１つの索引で保持する方法に比較して、検索結果の順位付けができ、正確な検索結果を出力できる。

また、索引作成手段１０６は、検索索引を作成する際に、検索索引を構成する文字列を文書の統計情報を利用して取捨選択するように構成することができる。その処理について図面を参照しながら実施の形態を詳細に説明する。

図４は、文書画像から検索索引を作成する索引作成手段の動作説明図であり、４０１、４０２、４０３、４０４は文書の統計情報で出現頻度が低い文字列である。

文書画像を解析し、第１の検索索引を作成する処理は図２の例と同一の動作をし、同一の検索索引を出力するが、第２の検索索引を作成する最後段で、文書の統計情報を利用して索引登録を取捨選択する。

具体的には、あらかじめ大量の文書をもとに文書に出現するNグラム（本実施の形態ではN=3）の頻度を計測しておき、頻度の低いNグラムが出現した場合には、その文字列の登録を抑止する。例えば、図４の第２の検索索引の、「プ口（漢字）ッ」４０１、「プ口（漢字）ツ」４０２、「プ０ッ」４０３、「プ０ツ」４０４は、文書中に出現する割合がゼロもしくは極小であり、登録を抑止する。

これにより、ムダな検索索引の生成を防止、検索容量の削減、検索速度・精度の改善を実現できる。

また、索引作成手段１０６は、検索索引を作成する際に、検索索引を構成する文字列を、単語辞書を利用して取捨選択するように構成することができる。その処理について図面を参照しながら実施の形態を詳細に説明する。

図５は、文書画像から検索索引を作成する索引作成手段の動作説明図であり、５０１、５０２、５０３、５０４、５０５、５０６、５０７、５０８は、単語辞書に登録されていない文字列である。

文書画像を解析し、第１の検索索引を作成する処理は図２の例と同一の動作をし、同一の検索索引を出力するが、第２の検索索引を作成する最後段で、単語辞書を利用して索引登録を取捨選択する。

具体的には、事前の単語辞書から登録を許可するNグラム（本実施の形態ではN=3）を抽出しておき、検索対象の文字列に対して周辺文字列を含めた解析を行って、単語辞書に該当しないNグラムが出現した場合には、その文字列の登録を抑止する。例えば、図５の第２の検索索引では、先頭が、「プロツ」５０１、「プ口（漢字）ッ」５０２、「プ口（漢字）ツ」５０３、「プ口（漢字）シ」５０４、「プ０ッ」５０５、「プ０ツ」５０６、「プ０シ」５０７で始まる単語がないことから登録を抑止し、２文字目から４文字目が「ロツタ」５０８という単語がないことから登録を抑止する。「プロシ」はプロシージャという単語、「ロック」は単独でロックという単語が存在するため、登録を行う。

また、索引作成手段１０６は、検索索引を作成する際に、検索索引を構成する文字列を、文書画像中の文字の大きさが大きく異なることを利用して取捨選択するように構成することができる。その処理について図面を参照しながら実施の形態を詳細に説明する。

図８は、文字の大きさが大きく異なる文字を含む文書画像の例を示す説明図であり、８０１は大きな文字列の例、８０２は小さな文字列の例である。図９は、図８の文書画像から検索索引を作成する索引作成手段の動作説明図であり、９０１は文書画像中の文字列、９０２は文字列内の文字を認識した結果得られる候補文字、９０３は文字認識結果９０２の第１位候補文字から作成した第１の検索索引の例、９０４、９０５は登録が抑止される検索索引の例である。なお、動作の説明に関係しないため、第２の検索索引の表記は省略している。

文書画像を解析し、第１の検索索引を作成する処理は図２の例と同一の動作をするが、索引を作成する際に、文書画像中の文字の大きさが大きく異なるものは文字の連続性がないものとみなし、索引文字列の登録を抑止する。

具体的には、文字領域から文字列９０１を抽出し、各行を対象として文字認識を行い、認識候補文字９０２を生成する際に、文字の大きさが大きく異なる箇所に区切りをつけ、文字の大きさが異なる文字間の索引作成を行わないように制御する。

図９の例で登録抑止を行わない場合、認識候補文字９０２に対して機械的に第１の検索索引が生成される。そのため、「執務用ワープロ」８０１に対する文字認識結果と、「汐留支社」８０２に対する文字認識結果が連続文字列として扱われ、両単語に跨る部分でも索引される。この索引に対して、「プロッタ」という単語でキーワード検索すると、図８の「プロ」と「汐」の間でキーワードがヒットし、誤った結果が出力される。

図９の例で登録抑止を行う場合、「執務用ワープロ」８０１と「汐留支社」８０２の間で文字サイズに大きな違いがあるため、「執務用ワープロ」８０１に対する文字認識結果と、「汐留支社」８０２に対する文字認識結果に間に区切りをつけて、両単語に跨る索引の作成を抑止する。その結果、「プロッ」９０４、「ロッタ」９０５の索引が生成されず、「プロッタ」という単語でのキーワード検索での、誤った結果出力を防止できる。

また、索引作成手段１０６は、検索索引を作成する際に、検索索引を構成する文字列を、文書画像中の文字の位置が大きく異なることを利用して取捨選択するように構成することができる。この処理について図面を参照しながら実施の形態を詳細に説明する。

図６は、文字の位置が大きく異なる文字を含む文書画像の例を示す説明図であり、６０１は文書の上部に記載された文字列の例、６０２は文書の下部に記載された文字列の例である。図７は、図６の文書画像から検索索引を作成する索引作成手段の動作説明図であり、７０１は文書画像中の文字列、７０２は文字列内の文字を認識した結果得られる候補文字、７０３は文字認識結果７０２の第１位候補文字から作成した第１の検索索引の例、７０４、７０５は登録が抑止される検索索引の例である。なお、動作の説明に関係しないため、第２の検索索引の表記は省略している。

文書画像を解析し、第１の検索索引を作成する処理は図２の例と同一の動作をするが、索引を作成する際に、文書画像中の文字の位置が大きく異なるものは文字の連続性がないものとみなし、索引文字列の登録を抑止する。

具体的には、文字領域から文字列７０１を抽出し、各行を対象として文字認識を行い、認識候補文字７０２を生成する際に、文字の位置が大きく異なる箇所に区切りをつけ、文字の位置が異なる文字間の索引作成を行わないように制御する。

図７の例で登録抑止を行わない場合、認識候補文字７０２に対して機械的に第１の検索索引が生成される。そのため、「執務用ワープロ」６０１に対する文字認識結果と、「汐留支社」６０２に対する文字認識結果が連続文字列として扱われ、両単語に跨る部分でも索引が生成される。この索引に対して、「プロッタ」という単語でキーワード検索すると、図６の「プロ」と「汐」の間でキーワードがヒットし、誤った結果が出力される。

図７の例で登録抑止を行う場合、「執務用ワープロ」６０１と「汐留支社」６０２の間で記載位置に大きな違いがあるため、「執務用ワープロ」６０１に対する文字認識結果と、「汐留支社」６０２に対する文字認識結果に間に区切りをつけて、両単語に跨る索引の作成を抑止する。その結果、「プロッ」７０４、「ロッタ」７０５の索引が生成されず、「プロッタ」という単語でのキーワード検索で、誤った結果出力を防止できる。

本発明は、必要に応じ文書情報を検索するデータベース検索システムなどの文書管理システムに適用され、認識順位の異なる文字認識候補で検索索引を２種類作成することにより検索キーワードとの適合率が向上し、かつこれらの検索索引に索引を登録する際に所定の基準を満たすもののみを登録するようにすると、索引のサイズの増大を防止でき、検索速度・精度の改善を実現でき文書管理システムが提供できる。

文書検索装置の全体構成図である。索引作成手段の動作説明図である。検索スコア算出手段の動作説明図である。索引作成手段の動作説明図である。索引作成手段の動作説明図である。記入位置が大きく異なる文字を含む文書画像の例を示す説明図である。図６の文書画像から検索索引を作成する索引作成手段の動作説明図である。大きさが大きく異なる文字を含む文書画像の例を示す説明図である。図８の文書画像から検索索引を作成する索引作成手段の動作説明図である。

符号の説明

１０１；キーワード入力手段、１０２；第１の検索索引、１０３；第２の検索索引、１０４；検索スコア算出手段、１０５；出力手段、１０６；索引作成手段、２０１；文書画像中の文字列、２０２；文字認識結果の候補文字、２０３；第１の検索索引の例、２０４；第２の検索索引の例、３００；キーワード、３０１、３０２；第１の検索索引の文字列例、３０３、３０４；第２の検索索引の文字列例、４０１、４０２、４０３、４０４；出現頻度が低い文字列例、５０１、５０２、５０３、５０４、５０５、５０６、５０７、５０８；単語辞書に登録されていない文字列例、６０１；文書の上部に記載された文字列例、６０２；文書の下部に記載された文字列例、７０１；文書画像中の文字列、７０２；文字認識結果の候補文字、７０３；第１の検索索引の例、７０４、７０５；登録抑止検索索引の例、８０１；大きな文字列の例、８０２；小さな文字列の例、９０１；文書画像中の文字列、９０２；文字認識結果の候補文字、９０３；第１の検索索引の例、９０４、９０５；登録抑止検索索引の例。

Claims

文書画像中の文字を認識した結果を用いて該文書画像を検索する文書検索装置であって、前記文書画像の文字認識をし、その結果の第１位の認識候補文字で構成される第１の検索索引と、文字認識結果の第２位以降の認識候補文字で構成される第２の検索索引を作成する索引作成手段と、検索するキーワードを入力するキーワード入力手段と、キーワード入力手段で入力されたキーワードが構成される文字列と前記第１の検索索引および前記第２の検索索引を照合して照合の度合いを示すスコアを算出する検索スコア算出手段と、検索スコア算出手段から得られた検索スコアをもとに検索結果を出力する出力手段を備えることを特徴とする文書検索装置。
前記検索スコア算出手段は、前記第１の検索索引及び前記第２の検索索引と照合する際に、検索索引の種別に応じて照合の度合いを変化させるように構成されたことを特徴とする請求項１記載の文書検索装置。
前記索引作成手段は、予め文書データから取得した連続するN文字（Nは２以上の自然数）の発生頻度をもとに、第１の検索索引及び第２の検索索引への登録可否を判定するように構成されたことを特徴とする請求項１又は請求項２記載の文書検索装置。
前記索引作成手段は、予め用意された単語辞書から取得した連続するN文字（Nは２以上の自然数）の組合せをもとに、第1の検索索引及び第２の検索索引への登録可否を判定するように構成されたことを特徴とする請求項１又は請求項２記載の文書検索装置。
前記索引作成手段は、前記文書画像中の文字の大きさの変化をもとに、第１の検索索引及び第２の検索索引への登録可否を判定するように構成されたことを特徴とする請求項１又は請求項２記載の文書検索装置。
前記索引作成手段は、前記文書画像中の文字の位置の変化をもとに、第１の検索索引及び第２の検索索引への登録可否を判定するように構成されたことを特徴とする請求項１又は請求項２記載の文書検索装置。