JP2009020567A - 文書検索装置 - Google Patents

文書検索装置 Download PDF

Info

Publication number
JP2009020567A
JP2009020567A JP2007180727A JP2007180727A JP2009020567A JP 2009020567 A JP2009020567 A JP 2009020567A JP 2007180727 A JP2007180727 A JP 2007180727A JP 2007180727 A JP2007180727 A JP 2007180727A JP 2009020567 A JP2009020567 A JP 2009020567A
Authority
JP
Japan
Prior art keywords
index
search
document
retrieval
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007180727A
Other languages
English (en)
Inventor
Yasuhiro Okada
康裕 岡田
Takashi Hirano
敬 平野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2007180727A priority Critical patent/JP2009020567A/ja
Publication of JP2009020567A publication Critical patent/JP2009020567A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Character Discrimination (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】全文検索の文書検索装置で、登録時に検索索引を作成、検索時は文書データ走査をせず索引から検索するNグラム方式は、文字認識誤りを許容する検索の場合、候補文字の組合せ数索引が必要でN値で増加で、索引サイズが増大する。また、キーワードの照合では誤認識候補文字の組合せとが成立し、キーワードとマッチしない箇所が抽出される。
【解決手段】文書画像の文字認識をし、その結果の第1位の認識候補文字で構成する第1の検索索引と、第2位以降の認識候補文字で構成する第2の検索索引を作成する索引作成手段と、検索キーワードが入力されるキーワード入力手段と、キーワードが構成される文字列と第1の検索索引および第2の検索索引を照合して照合度合いのスコアを算出する検索スコア算出手段と、検索スコア算出手段から得られた検索スコアをもとに検索結果を出力する出力手段を備える。
【選択図】図1

Description

本発明は文書画像に対する文字認識結果を利用して、文書画像内の情報を検索する文書検索装置に関する。
近年、企業内の情報共有のため、文書を電子化して自由に検索できる文書管理システムの利用が進んでいる。蓄積される文書は、ワープロ文書、プレゼンテーション文書など既に電子化されたものが主流であるが、そのままではテキスト検索できない画像のままの文書も使用される。
文書画像を文書管理システムに登録する方法としては、文書画像を文字認識して検索可能なテキストに変換して画像とともに蓄積する手法が一般的である。
しかし、文字認識の精度は100%ではなく、認識結果には誤認識が含まれる。このため、文書中にキーワードの文字列があるにも関わらず、その文字列がキーワードと一致せず、検索できないケースがある。
これを防止するため、特開2001−337993号公報における従来技術の説明に記載されたような文字認識の特性を利用した検索用データの作成方法と、文字認識した後のデータに対する検索方法が開発されている。その中の1つの手法として、文字認識候補とキーワードとの照合を行う手法が提案されており、文字認識時に認識候補を生成し、検索時に候補を用いて複数の可能性を考慮しながら検索する。
一方、大量の文書の全文検索を行う手法は、特開平7−105237号公報の従来技術の説明に示すように、文書を登録する際に検索索引を作成しておき、検索時には索引から検索対象を絞り込むことで検索毎に文書データを走査することなく、高速に検索する手法が主流となっている。この検索索引の1つの形態として、連続するN文字(Nは2以上の自然数)の出現位置を保持するNグラム方式が広く用いられている。
例えば、N=2のNグラム方式といえば、「明後日の天候は」という文章を2文字ごとに分解して、その出現位置を記憶しておく。この場合は、「(1)明後」、「(2)後日」、「(3)日の」、「(4)の天」、「(5)天候」、「(6)候は」「(7)は」と分解して、索引に登録しておく(カッコ内の数字は出現位置)。ここで「天候」という単語を探す場合は、索引から、「天候」という単語が含まれている文書を探せばよく、「明後日」ならば、「明後」と「後日」の両方が含まれている部分を探し、かつその出現位置が1ずれているもの(この場合は(1)と(2))を探す。
特開2001−337993号公報 特開平7−105237号公報
このように、文字認識誤りを許容した検索を行う場合には複数の認識候補文字を保持する必要があるため、これにNグラム方式の索引作成手法を適用すると、候補文字の組合せの数だけ索引を生成する必要があり、索引のサイズが爆発的に増大する。例えば、N=3で、各文字あたり5個の認識候補文字を保持する場合、認識候補文字を1個の場合に比べ、5=125倍の索引サイズとなり、Nの値の増大に伴い、指数関数的に索引サイズが増大する課題があった。
また、認識候補文字の全て組合せが索引データに含まれるため、キーワードと照合する際に誤った認識候補文字の組合せと照合が成立し、実際にはキーワードとマッチしない箇所が抽出され、適合率(正しい検索結果数/全検索結果数)が低下する課題があった。
本発明はかかる問題点を解決するためになされたものであり、複数の認識候補文字を持つ検索データをNグラム方式で検索する際に、適合率の低下を防止しつつ、索引サイズの増大を抑えて、大量の文書画像を高速に検索する文書検索装置を提供する。
本発明に係る文書検索装置は、文書画像中の文字を認識した結果を用いて該文書画像を検索する文書検索装置であって、前記文書画像の文字認識をし、その結果の第1位の認識候補文字で構成される第1の検索索引と、文字認識結果の第2位以降の認識候補文字で構成される第2の検索索引を作成する索引作成手段と、検索するキーワードが入力されるキーワード入力手段と、キーワード入力手段で入力されたキーワードが構成される文字列と前記第1の検索索引および前記第2の検索索引を照合して照合の度合いを示すスコアを算出する検索スコア算出手段と、検索スコア算出手段から得られた検索スコアをもとに検索結果を出力する出力手段を備える。
本発明に係る文書検索装置によれば、索引作成手段が検索用のキーワードと照合される検索索引を文字認識の候補の順位によって複数に分けて作成し、保持することで、1つの索引で保持し、照合する方法に比較して、検索結果の順位付けができ、正確な検索結果が出力できる。
実施の形態1.
図1は実施の形態1による文書検索装置の全体構成図であり、図中の101はキーワード入力手段、102は第1の検索索引、103は第2の検索索引、104は検索スコア算出手段、105は出力手段、106は索引作成手段である。
実施の形態1の動作は、文書画像から索引を作成する処理と、作成した索引からキーワードに該当する位置を検索する処理の2つに大別できる。
以下では、まず索引を作成する処理について図面を参照しながら実施の形態を詳細に説明する。
本実施の形態の文書検索装置は、まず、索引作成手段106が入力された文書画像の領域識別と文字認識を行い、検索に必要な認識結果を含む索引を生成する。
図2は文書画像から検索索引を作成する索引作成手段の動作説明図であり、201は文書画像中の文字列、202は文字列内の文字を認識した結果得られる候補文字、203は文字認識結果202から得られた第1位候補文字から作成した第1の検索索引の例、204は文字認識結果202からの第2位以降の候補文字から作成した第2の検索索引の例である。
索引作成手段106では、文書画像を走査し、公知の技術で領域識別を行って、文字領域を抽出する。ここでは画像全体をラベリングして黒画素連結領域の外接矩形を抽出し、一定サイズ以上の矩形を図形・表領域候補として抽出する。次に、図・表領域候補の各矩形の内部を対象として罫線抽出を行い、縦横の罫線が抽出されれば、その矩形を表領域と識別する。また、罫線が抽出されなければ、その矩形を図領域と識別する。そして、図・表領域以外の領域、即ち、一定サイズ未満の矩形を文字領域として抽出する。
次に、文字領域から文字列201を抽出し、各行を対象として文字認識を行い、認識候補文字202を生成する。
その後、索引作成手段106は、認識候補文字202の中の第1位候補文字に対してN個の連続する文字列とその出現位置を抽出し、Nグラム方式の索引を作成する。その結果得られる第1の検索索引の例203を第1の検索索引102に格納する(本実施例ではN=3の場合の例を示す)。
同様に、認識候補文字202の中の第2位以降の候補文字に対して、N個の連続する文字列とその出現位置を抽出し、Nグラム方式の索引を作成する。この時、第2位以降の候補文字が複数個存在する場合は、候補文字を組合せた文字列を生成し、索引を作成する。例えば、図2のように1文字目から3文字目までの候補文字数がそれぞれ1文字、3文字、3文字の場合には、候補文字の全組合せの9種類から第1位の候補文字による組合せの1種類を除いた8種類を索引に登録する。
上記の結果得られる第2の検索索引の例204を第2の検索索引103に格納する。
次に作成した索引からキーワードに該当する位置を検索する処理について図面を参照しながら実施の形態を詳細に説明する。
図3は作成した索引から指定されたキーワードを検索し、図2で示した文字列中の該当位置を抽出する動作説明図であり、300はキーワード「プロッタ」、301は第1の検索索引の文字列「プロッ」、302は第1の検索索引の文字列例「ロッタ」、303は第2の検索索引の文字列例「プロッ」、304は第2の検索索引の文字列例「ロッタ」である。
検索スコア算出手段104は、キーワード入力手段101より入力されたキーワード「プロッタ」300と、第1の検索索引を照合してプロッタの存在箇所を探索する。具体的には、Nグラム方式に従い、キーワード「プロッタ」の1文字目から3文字を、第1の検索索引の中から探索する。図3の例の場合、第1の検索索引の文字列「プロッ」301がヒットする。次にキーワード「プロッタ」の2文字目から3文字を、第1の検索索引の中から探索する。図3の例の場合、第1の検索索引の文字列「ロッタ」302がヒットする。
次に、検索スコア算出手段104は、第2の検索索引に対して同様の探索を行う。その結果、第2の検索索引の文字列「プロッ」303と第2の検索索引の文字列「ロッタ」304がヒットする。
次に、「プロッ」と「ロッタ」の両方が含まれている部分を探し、かつその出現位置が1ずれているものを抽出する。図3の例の場合、第1の検索索引の1文字目から4文字目、第2の検索索引の10文字目から13文字目が該当する。
最後に、キーワード照合結果のスコアを計算する。スコアの計算は文字認識した結果の候補文字の上位の組合せで構成されるものを優先させる。例えば、第1の検索索引とヒットした場合は3点、第2の検索索引とヒットした場合は1点と点数付けし、キーワード全体の合算値でスコアを算出する。上記算法に従えば、図3の場合、第1の検索索引の1文字目から4文字目は6点、第2の検索索引の10文字目から13文字目は2点となり、検索結果は、図2入力文字列の1文字目から4文字目が第1位検索候補、図2入力文字列の10文字目から13文字目が第2位検索候補となる。
このように、検索索引を文字認識の候補の順位によって分けて保持することで、1つの索引で保持する方法に比較して、検索結果の順位付けができ、正確な検索結果を出力できる。
また、索引作成手段106は、検索索引を作成する際に、検索索引を構成する文字列を文書の統計情報を利用して取捨選択するように構成することができる。その処理について図面を参照しながら実施の形態を詳細に説明する。
図4は、文書画像から検索索引を作成する索引作成手段の動作説明図であり、401、402、403、404は文書の統計情報で出現頻度が低い文字列である。
文書画像を解析し、第1の検索索引を作成する処理は図2の例と同一の動作をし、同一の検索索引を出力するが、第2の検索索引を作成する最後段で、文書の統計情報を利用して索引登録を取捨選択する。
具体的には、あらかじめ大量の文書をもとに文書に出現するNグラム(本実施の形態ではN=3)の頻度を計測しておき、頻度の低いNグラムが出現した場合には、その文字列の登録を抑止する。例えば、図4の第2の検索索引の、「プ口(漢字)ッ」401、「プ口(漢字)ツ」402、「プ0ッ」403、「プ0ツ」404は、文書中に出現する割合がゼロもしくは極小であり、登録を抑止する。
これにより、ムダな検索索引の生成を防止、検索容量の削減、検索速度・精度の改善を実現できる。
また、索引作成手段106は、検索索引を作成する際に、検索索引を構成する文字列を、単語辞書を利用して取捨選択するように構成することができる。その処理について図面を参照しながら実施の形態を詳細に説明する。
図5は、文書画像から検索索引を作成する索引作成手段の動作説明図であり、501、502、503、504、505、506、507、508は、単語辞書に登録されていない文字列である。
文書画像を解析し、第1の検索索引を作成する処理は図2の例と同一の動作をし、同一の検索索引を出力するが、第2の検索索引を作成する最後段で、単語辞書を利用して索引登録を取捨選択する。
具体的には、事前の単語辞書から登録を許可するNグラム(本実施の形態ではN=3)を抽出しておき、検索対象の文字列に対して周辺文字列を含めた解析を行って、単語辞書に該当しないNグラムが出現した場合には、その文字列の登録を抑止する。例えば、図5の第2の検索索引では、先頭が、「プロツ」501、「プ口(漢字)ッ」502、「プ口(漢字)ツ」503、「プ口(漢字)シ」504、「プ0ッ」505、「プ0ツ」506、「プ0シ」507で始まる単語がないことから登録を抑止し、2文字目から4文字目が「ロツタ」508という単語がないことから登録を抑止する。「プロシ」はプロシージャという単語、「ロック」は単独でロックという単語が存在するため、登録を行う。
これにより、ムダな検索索引の生成を防止、検索容量の削減、検索速度・精度の改善を実現できる。
また、索引作成手段106は、検索索引を作成する際に、検索索引を構成する文字列を、文書画像中の文字の大きさが大きく異なることを利用して取捨選択するように構成することができる。その処理について図面を参照しながら実施の形態を詳細に説明する。
図8は、文字の大きさが大きく異なる文字を含む文書画像の例を示す説明図であり、801は大きな文字列の例、802は小さな文字列の例である。図9は、図8の文書画像から検索索引を作成する索引作成手段の動作説明図であり、901は文書画像中の文字列、902は文字列内の文字を認識した結果得られる候補文字、903は文字認識結果902の第1位候補文字から作成した第1の検索索引の例、904、905は登録が抑止される検索索引の例である。なお、動作の説明に関係しないため、第2の検索索引の表記は省略している。
文書画像を解析し、第1の検索索引を作成する処理は図2の例と同一の動作をするが、索引を作成する際に、文書画像中の文字の大きさが大きく異なるものは文字の連続性がないものとみなし、索引文字列の登録を抑止する。
具体的には、文字領域から文字列901を抽出し、各行を対象として文字認識を行い、認識候補文字902を生成する際に、文字の大きさが大きく異なる箇所に区切りをつけ、文字の大きさが異なる文字間の索引作成を行わないように制御する。
図9の例で登録抑止を行わない場合、認識候補文字902に対して機械的に第1の検索索引が生成される。そのため、「執務用ワープロ」801に対する文字認識結果と、「汐留支社」802に対する文字認識結果が連続文字列として扱われ、両単語に跨る部分でも索引される。この索引に対して、「プロッタ」という単語でキーワード検索すると、図8の「プロ」と「汐」の間でキーワードがヒットし、誤った結果が出力される。
図9の例で登録抑止を行う場合、「執務用ワープロ」801と「汐留支社」802の間で文字サイズに大きな違いがあるため、「執務用ワープロ」801に対する文字認識結果と、「汐留支社」802に対する文字認識結果に間に区切りをつけて、両単語に跨る索引の作成を抑止する。その結果、「プロッ」904、「ロッタ」905の索引が生成されず、「プロッタ」という単語でのキーワード検索での、誤った結果出力を防止できる。
また、索引作成手段106は、検索索引を作成する際に、検索索引を構成する文字列を、文書画像中の文字の位置が大きく異なることを利用して取捨選択するように構成することができる。この処理について図面を参照しながら実施の形態を詳細に説明する。
図6は、文字の位置が大きく異なる文字を含む文書画像の例を示す説明図であり、601は文書の上部に記載された文字列の例、602は文書の下部に記載された文字列の例である。図7は、図6の文書画像から検索索引を作成する索引作成手段の動作説明図であり、701は文書画像中の文字列、702は文字列内の文字を認識した結果得られる候補文字、703は文字認識結果702の第1位候補文字から作成した第1の検索索引の例、704、705は登録が抑止される検索索引の例である。なお、動作の説明に関係しないため、第2の検索索引の表記は省略している。
文書画像を解析し、第1の検索索引を作成する処理は図2の例と同一の動作をするが、索引を作成する際に、文書画像中の文字の位置が大きく異なるものは文字の連続性がないものとみなし、索引文字列の登録を抑止する。
具体的には、文字領域から文字列701を抽出し、各行を対象として文字認識を行い、認識候補文字702を生成する際に、文字の位置が大きく異なる箇所に区切りをつけ、文字の位置が異なる文字間の索引作成を行わないように制御する。
図7の例で登録抑止を行わない場合、認識候補文字702に対して機械的に第1の検索索引が生成される。そのため、「執務用ワープロ」601に対する文字認識結果と、「汐留支社」602に対する文字認識結果が連続文字列として扱われ、両単語に跨る部分でも索引が生成される。この索引に対して、「プロッタ」という単語でキーワード検索すると、図6の「プロ」と「汐」の間でキーワードがヒットし、誤った結果が出力される。
図7の例で登録抑止を行う場合、「執務用ワープロ」601と「汐留支社」602の間で記載位置に大きな違いがあるため、「執務用ワープロ」601に対する文字認識結果と、「汐留支社」602に対する文字認識結果に間に区切りをつけて、両単語に跨る索引の作成を抑止する。その結果、「プロッ」704、「ロッタ」705の索引が生成されず、「プロッタ」という単語でのキーワード検索で、誤った結果出力を防止できる。
本発明は、必要に応じ文書情報を検索するデータベース検索システムなどの文書管理システムに適用され、認識順位の異なる文字認識候補で検索索引を2種類作成することにより検索キーワードとの適合率が向上し、かつこれらの検索索引に索引を登録する際に所定の基準を満たすもののみを登録するようにすると、索引のサイズの増大を防止でき、検索速度・精度の改善を実現でき文書管理システムが提供できる。
文書検索装置の全体構成図である。 索引作成手段の動作説明図である。 検索スコア算出手段の動作説明図である。 索引作成手段の動作説明図である。 索引作成手段の動作説明図である。 記入位置が大きく異なる文字を含む文書画像の例を示す説明図である。 図6の文書画像から検索索引を作成する索引作成手段の動作説明図である。 大きさが大きく異なる文字を含む文書画像の例を示す説明図である。 図8の文書画像から検索索引を作成する索引作成手段の動作説明図である。
符号の説明
101;キーワード入力手段、102;第1の検索索引、103;第2の検索索引、104;検索スコア算出手段、105;出力手段、106;索引作成手段、201;文書画像中の文字列、202;文字認識結果の候補文字、203;第1の検索索引の例、204;第2の検索索引の例、300;キーワード、301、302;第1の検索索引の文字列例、303、304;第2の検索索引の文字列例、401、402、403、404;出現頻度が低い文字列例、501、502、503、504、505、506、507、508;単語辞書に登録されていない文字列例、601;文書の上部に記載された文字列例、602;文書の下部に記載された文字列例、701;文書画像中の文字列、702;文字認識結果の候補文字、703;第1の検索索引の例、704、705;登録抑止検索索引の例、801;大きな文字列の例、802;小さな文字列の例、901;文書画像中の文字列、902;文字認識結果の候補文字、903;第1の検索索引の例、904、905;登録抑止検索索引の例。

Claims (6)

  1. 文書画像中の文字を認識した結果を用いて該文書画像を検索する文書検索装置であって、前記文書画像の文字認識をし、その結果の第1位の認識候補文字で構成される第1の検索索引と、文字認識結果の第2位以降の認識候補文字で構成される第2の検索索引を作成する索引作成手段と、検索するキーワードを入力するキーワード入力手段と、キーワード入力手段で入力されたキーワードが構成される文字列と前記第1の検索索引および前記第2の検索索引を照合して照合の度合いを示すスコアを算出する検索スコア算出手段と、検索スコア算出手段から得られた検索スコアをもとに検索結果を出力する出力手段を備えることを特徴とする文書検索装置。
  2. 前記検索スコア算出手段は、前記第1の検索索引及び前記第2の検索索引と照合する際に、検索索引の種別に応じて照合の度合いを変化させるように構成されたことを特徴とする請求項1記載の文書検索装置。
  3. 前記索引作成手段は、予め文書データから取得した連続するN文字(Nは2以上の自然数)の発生頻度をもとに、第1の検索索引及び第2の検索索引への登録可否を判定するように構成されたことを特徴とする請求項1又は請求項2記載の文書検索装置。
  4. 前記索引作成手段は、予め用意された単語辞書から取得した連続するN文字(Nは2以上の自然数)の組合せをもとに、第1の検索索引及び第2の検索索引への登録可否を判定するように構成されたことを特徴とする請求項1又は請求項2記載の文書検索装置。
  5. 前記索引作成手段は、前記文書画像中の文字の大きさの変化をもとに、第1の検索索引及び第2の検索索引への登録可否を判定するように構成されたことを特徴とする請求項1又は請求項2記載の文書検索装置。
  6. 前記索引作成手段は、前記文書画像中の文字の位置の変化をもとに、第1の検索索引及び第2の検索索引への登録可否を判定するように構成されたことを特徴とする請求項1又は請求項2記載の文書検索装置。
JP2007180727A 2007-07-10 2007-07-10 文書検索装置 Pending JP2009020567A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007180727A JP2009020567A (ja) 2007-07-10 2007-07-10 文書検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007180727A JP2009020567A (ja) 2007-07-10 2007-07-10 文書検索装置

Publications (1)

Publication Number Publication Date
JP2009020567A true JP2009020567A (ja) 2009-01-29

Family

ID=40360180

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007180727A Pending JP2009020567A (ja) 2007-07-10 2007-07-10 文書検索装置

Country Status (1)

Country Link
JP (1) JP2009020567A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010211470A (ja) * 2009-03-10 2010-09-24 Ricoh Co Ltd 文書データ生成装置と文書データ生成方法
JP2011034232A (ja) * 2009-07-30 2011-02-17 Rakuten Inc インデックス生成方法
JP2011054148A (ja) * 2009-08-04 2011-03-17 Nippon Telegr & Teleph Corp <Ntt> 検索装置及び方法及びプログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002063197A (ja) * 2000-06-06 2002-02-28 Matsushita Electric Ind Co Ltd 検索装置、記録媒体およびプログラム
JP2005209193A (ja) * 2004-01-20 2005-08-04 Microsoft Corp ドキュメントインデックスのための低頻度ワードインデックス

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002063197A (ja) * 2000-06-06 2002-02-28 Matsushita Electric Ind Co Ltd 検索装置、記録媒体およびプログラム
JP2005209193A (ja) * 2004-01-20 2005-08-04 Microsoft Corp ドキュメントインデックスのための低頻度ワードインデックス

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010211470A (ja) * 2009-03-10 2010-09-24 Ricoh Co Ltd 文書データ生成装置と文書データ生成方法
JP2011034232A (ja) * 2009-07-30 2011-02-17 Rakuten Inc インデックス生成方法
JP2011054148A (ja) * 2009-08-04 2011-03-17 Nippon Telegr & Teleph Corp <Ntt> 検索装置及び方法及びプログラム

Similar Documents

Publication Publication Date Title
JP5716328B2 (ja) 情報処理装置、情報処理方法、および情報処理プログラム
JP3143079B2 (ja) 辞書索引作成装置と文書検索装置
Sakuntharaj et al. Use of a novel hash-table for speeding-up suggestions for misspelt Tamil words
Fernández-Mota et al. Bh2m: The barcelona historical, handwritten marriages database
Choudhury et al. Figure metadata extraction from digital documents
Thompson et al. Customised OCR correction for historical medical text
JP5449521B2 (ja) 検索装置及び検索プログラム
US20140298168A1 (en) System and method for spelling correction of misspelled keyword
Volk et al. Strategies for reducing and correcting OCR errors
Boschetti et al. Improving OCR accuracy for classical critical editions
Wemhoener et al. Creating an improved version using noisy OCR from multiple editions
Keskustalo et al. Non-adjacent digrams improve matching of cross-lingual spelling variants
JP4865526B2 (ja) データマイニングシステム、データマイニング方法及びデータ検索システム
JP2007122403A (ja) 文書タイトルおよび関連情報の自動抽出装置、抽出方法および抽出プログラム
Noaman et al. Automatic Arabic spelling errors detection and correction based on confusion matrix-noisy channel hybrid system
Uthayamoorthy et al. Ddspell-a data driven spell checker and suggestion generator for the tamil language
Alves et al. A strategy for automatically extracting references from PDF documents
JP2009020567A (ja) 文書検索装置
CN115994199A (zh) 一种利用上下文将文本中实体关联到知识库的方法
KR20200073524A (ko) 특허 문서의 키프레이즈 추출 장치 및 방법
KR101359039B1 (ko) 복합명사 분석장치 및 복합명사 분석 방법
Lehal Design and implementation of Punjabi spell checker
JP2008059389A (ja) 語彙候補出力システム、語彙候補出力方法及び語彙候補出力プログラム
Soo A non-learning approach to spelling correction in web queries
Raja et al. Exploring Edit Distance for Normalising Out-of-Vocabulary Malay Words on Social Media

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100412

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120327

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120717