JP2004171316A

JP2004171316A - Ｏｃｒ装置及び文書検索システム及び文書検索プログラム

Info

Publication number: JP2004171316A
Application number: JP2002337369A
Authority: JP
Inventors: Takeshi Eisaki; 健永崎; Katsumi Marukawa; 勝美丸川; Shigeyuki Fujiwara; 茂之藤原
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2002-11-21
Filing date: 2002-11-21
Publication date: 2004-06-17
Also published as: CN100351847C; TW200409046A; CN1503193A; TWI285849B

Abstract

【課題】紙文書及び文書画像に対する文書検索手段として、文字認識技術を応用して所与のキーワードをを含む文書群を検索する方法を提案する。
【解決手段】ＯＣＲと検索装置を分離し、ＯＣＲの出力形態として、文字行抽出及び文字切出及び文字識別の多重仮説を恒久的に保持するファイル（ＯＣＲ読取仮説ファイル）を採用し、このＯＣＲ読取仮説ファイルを元にキーワードを検索する機能を構成することで、必要な文書の検索及び文書分類を行うシステムを提供する。
【選択図】図３

Description

【０００１】
【発明の属する技術分野】
本発明は、紙文書群または文書画像群の中から、文字認識技術を応用して所与の検索キーを含む文書群を検索し、必要とする情報を取得する文書検索・処理方法、その装置及び文書検索処理プログラムに関する。
【０００２】
【従来の技術】
コンピュータによるデジタル情報技術が普及した現在でも、紙文書は情報伝達の媒体として広く使われている。しかし、多量の文書の中から必要な情報をあるキーワードで検索したい、あるいは特定のキーワード群を含む文書を検索及び自動分類したい等の要求に対しては、紙文書はデジタルデータに比べて扱いが著しく難しいという問題がある。この問題を解決するために、紙文書の検索及び自動処理のための様々な手法が提案されている。
紙文書または文書画像から必要なキーワードを検索する手段としては、検索が必要となるたびにＯＣＲ（光学的読取装置）で紙文書を認識して検索するオンライン的処理と、最初にＯＣＲで読取を行い、その読取結果を恒久的に保持して検索を行うというオフライン的な処理がある。例えば、郵便区分機等の装置はオンライン的な処理に属すると言える。このオンライン的な処理では、検索したいキーワードが指定されているので、キーワードに含まれる文字の特性（全角、半角、漢字、英数字など）によって文字切出のパラメータを変更する、あるいは文字識別の際に字種限定を掛けるなどの処理を施すことで検索の精度を上げることができる。その半面、検索のたびごとに画像解析及び文字識別を行わなければならないため、検索が繰り返し行われるような運用形態では計算時間の点で実用的ではない。本発明で提案する手法はオフライン的な処理に基づく。
紙文書からのオフライン的キーワード検索における最も基本的な手法は、ＯＣＲによって紙文書をテキストファイルに変換し、テキストファイルに対して検索を行うことである。しかし、一般にＯＣＲで変換されたテキストコードには誤りが含まれるため、単純なテキスト検索では対処できないケースが生じる。無論、ＯＣＲによって変換されたテキストコードを人手で修正し、その修正結果に対して検索を行うことも可能である。しかし、人間が介在しての修正は、その処理速度及びコストの面から実用的とは言い難い。
ＯＣＲの読取精度を向上する手段としてはＯＣＲの認識結果に形態素解析を適用する手法が知られている（例えば、特許文献１参照。）。確かに形態素解析等の知識処理を行うことで誤読を訂正することは可能であるが、それでも１００％の訂正は不可能である。また、通常の形態素解析で用いる辞書は新聞等の一般文章を対象としており、特殊な業務用途の文書を精度良く校正するためには、その分野に適合した特殊辞書を追加定義する必要がある。このため保守性や計算量の面で問題が残る。
また、文字誤読が検索に与える悪影響を回避するために、ＯＣＲで誤読しやすい類似文字の情報を利用して単語検索を行う手法が提案されている（例えば、特許文献２参照。）。また、ＯＣＲの読取結果に複数の文字識別候補を許し、その中から文字コードを選択して単語を検出する手法が提案されている（例えば、特許文献３参照。）。確かに、これらの技術を使えば１文字単位の誤読が単語検索に与える悪影響を回避することができる。
しかし、上記手法では分離文字や文字間接触等によって文字パタンの境界が明確に定まらないが故に誤って文字パタンが切り出されたケースに対処できない。例えば、「ハル」と書かれた文字を、ＯＣＲが「ヘル」と読んだケースには上記特許の手法で対処できるが、「ハノレ」と読んだケースには対処できない。更に、図や表が入り組んだ文書や帳票形式で罫線が多く混在する文書等に対しては、そもそも文字読取の以前に文字行の検出・同定が困難であるケースが多い。この問題に対しても上記手法では対処できない。
【特許文献１】
特開平０５−１０８８９１号公報
【特許文献２】
特開平１０−７４２５０号公報
【特許文献３】
特開平９−１３４３６９号公報
【０００３】
【発明が解決しようとする課題】
本発明の目的は、文字認識の結果を元に、紙文書群の中から必要なキーワードを検索する単語検索手法と、その結果を用いて文書検索・文書分類等の処理を行う文書検索処理システム、その装置及び検索処理プログラムを記録した記録媒体を提供することにある。
従来の手法では、紙文書群からの文書検索はＯＣＲ読取の結果であるテキストに対して検索を行っていたが、文字潰れやかすれ等に起因するＯＣＲの文字識別誤りや、文字パタン境界の曖昧性に起因するＯＣＲの文字切出誤りや、文書−図版−罫線混在に起因するＯＣＲの文字行抽出誤りに対処することが困難であった。本発明の第１の目的はＯＣＲ読取に起こり得る文字識別、文字切出、文字行抽出の誤りが単語検索に与える悪影響を回避する方法を提案することである。
また、キーワード群を使った文書検索・文書分類処理では特定キーワードとその結合ルール（ＡＮＤやＯＲ）を使って処理を行うのが一般的である。例えば「ＯＣＲ」と「検索」という単語が共に（ＡＮＤ）見つかる文書を検索するといった例である。従来のテキスト文書に対する検索ではキーワードの有無が１か０の二値で定まるので、結合ルールの適用は単純な処理で行えるが、本手法は文字認識が関係するため、キーワードの有無が０から１の間の連続値を取る尤度として解釈される。このため、尤度が低いキーワードに対して一律に結合ルールを適用して文書検索を行うと検索で十分な絞込みが行えなかったり、あるいは尤度が低いキーワードを一律に無視するように文書検索を行うと必要な文書が検索できなかったりといった問題が生じ得る。本発明の第２の目的は、文字識別の尤度を利用して単語検索の尤度及び結合ルールの尤度を導出し、自動学習によって文書検索の精度をコントロールする手法を提案することである。
【０００４】
【課題を解決するための手段】
上記第１の目的を達成するため、本発明は、ＯＣＲと検索装置を分離し、ＯＣＲの出力形態として、文字行抽出及び文字切出及び文字識別の多重仮説を恒久的に保持するファイル（ＯＣＲ読取仮説ファイル）を採用し、このＯＣＲ読取仮説ファイルを元にキーワードを検索する機能を構成することで、必要な文書の検索及び文書分類を行うシステムを提供する。
上記第２の目的を達成するため、ＯＣＲ読取仮説ファイルに文字識別の類似度、文字パタンの位置情報等を含み得るようにし、検索されたキーワードの尤度及びキーワードをルール結合した際の尤度を計算する情報として利用し、これら尤度を元に文書検索結果の受理・棄却を決定できる機構を提供する。
【０００５】
【発明の実施の形態】
第１図を例として、従来手法と本提案手法の違いを概説する。第１図は、従来の単語検索手法及び文書検索手法と、本発明で提案する手法との違いを模式図化したものである。
まず従来のフローでは、１０１に示す紙文書群があり、これを１０２に示すＯＣＲに掛けて読取りを行う。読取結果は１０３に示すようなテキストファイルとして出力される。次に、１０４に示す装置にテキストファイルを入力して、単語検索を行う。このフローでは検索対象となる単語を、単語ＤＢ（１１３）から参照している。しかし、本来「血液化学検査」と書かれていたものが、ＯＣＲの読取の結果「皿液イヒ学検査」と読まれた場合、テキストファイルを元に「血液化学検査」という単語を検索することは困難であり、この場合一般的には検索が失敗する。このため１０５に示す装置で、検索された単語に対して文書検索ルール（１１４）を適用して処理を行おうとしても、ルールを適用するべき単語が存在しないため、これに失敗する。そのため最終的な文書の検索・絞込みができない。これに対し、本発明で提案する処理フローでは、まず１０７に示す紙文書群があり、これを１０８に示すＯＣＲに掛けて読取を行う。読取結果は１０９に示すようなＯＣＲ読取仮説ファイルとして出力される。次に、１１０に示す装置にＯＣＲ読取仮説ファイルを入力して、単語検索を行う。検索するべき単語は１１３に示す単語ＤＢに定義されているとする。ＯＣＲ読取仮説ファイルでは、さまざまな文字行抽出候補、文字切出候補、文字識別候補が保持されているため、「皿液イヒ学検査」という結果以外にも、正しい識別結果である「血」「化」という結果が保持できるため、単語検索が容易にできる。次に１１１に示す装置で、検出された単語と単語間の関係を記述する文書検索ルールにより、文書の検索・絞込みを行う。文書検索ルールは１１４に示すルールＤＢに記されているとする。文書検索ルールの例としては、「「ＯＣＲ」と「検索」という単語が共に存在する文書」というように、複数の単語をＯＲまたはＡＮＤで結んだ構造などが考えられる。ＯＣＲ読取仮説ファイルを使うことで単語検索の精度が高まり、結果として文書検索ルールが適用でき、１１２に示すような文書検索・絞込みが可能となる。
ＯＣＲ読取仮説ファイルは、対応する紙文書または文書画像を一意的に同定する文書ＩＤコードを持ち、磁気記憶装置などに恒久的に保存できる。ＯＣＲ読取仮説ファイルを用いた検索システムは、文書検索の要求が起きたときに、予め蓄えておいたＯＣＲ読取仮説ファイルから必要なキーワードを検索し、文書検索ルールと照らし合わせて、適合する文書の文書ＩＤコードを記憶する。検索結果は、文書ＩＤコードにより同定される紙文書または文書画像などと共に表示できる。これにより、ＯＣＲ装置と検索装置が分離した形態においても文書画像と読取データを統一して扱える文書処理システムが構成できる。
第２図について説明する。本発明の実施例である帳票認識装置では、初めに、ＯＣＲ装置が紙文書を撮像して、これを電子的画像データに変換する（２０１）。本処理は、元々の文書が電子的画像データである場合は省略可能である。次に、電子的画像データを元にして、罫線抽出、枠構造解析、読取り対象枠の位置推定等の文書構造解析を行う（２０２）。このとき使う認識処理には公知技術（特開平０９−３１９８２４、特開２０００−２５１０１２等）を利用する。次に、文書構造解析の結果を受けて、読取り対象である文字行候補を抽出する（２０３）。次に、文字行画像から文字パタン候補の切出し（２０４）、更に各文字パタン候補を識別する（２０５）。これら文字行候補、文字パタン候補、文字識別候補は対象文書から複数抽出され、多重仮説を構成する。最後に、文字行候補、文字切出パタン候補及びその識別結果をファイルに出力する（２０６）。この出力ファイルをＯＣＲ読取仮説ファイルと称する。ＯＣＲ読取仮説ファイルの詳細については後述する。上記処理２０１から２０６は、光学的読取装置などの専用装置を使って紙文書からＯＣＲ読取仮説ファイルに変換する過程を示したものである。これに対して電子画像データが与えられた場合は、処理２０１の代わりに画像読込み（２０７）を行うことで、ＯＣＲ読取仮説ファイルに変換することができる。この場合は変換プログラム及びプログラムを動かすための汎用演算装置があれば、処理を遂行できる。
上記に述べた各々の情報は、第１０図に示すＯＣＲ装置において次の場所に格納される。紙文書から変換された画像データ、または処理対象として既に用意されている画像データは外部記憶装置１００４またはメモリ１００５に蓄えられる。ＯＣＲプログラムは外部記憶装置１００４またはメモリ１００５に蓄えられており、中央演算装置１００６によって処理が遂行される。画像データを解析した結果得られた枠情報、行情報、候補パタンネットワーク、候補文字ネットワークは主にメモリ１００５上に展開される。本処理の出力であるＯＣＲ読取仮説ファイルは、外部記憶装置１００４またはメモリ１００５または通信装置１００７を通して外部の装置に格納される。
第３図について説明する。第３図は、ＯＣＲ読取仮説ファイルを使った文書検索エンジンの処理フローを示した図である。初めに、検索対象である紙文書群（または文書画像群）に対応するＯＣＲ読取仮説ファイル群を読み込み、各々のＯＣＲ読取仮説に対して候補文字ネットワークを作成する（３０１）。次に、候補文字ネットワークと検索対象である単語群を入力として単語検索を行う（３０２）。ＯＣＲ読取仮説ファイルには、様々な文字行候補、文字切出候補、文字識別候補が含まれるので、検索された単語が正しいかどうかを判定する処理が必要となる。そこで最後に検索した結果を、文字識別の尤度や順位、及びパタンの並びなどの情報を使って検索された単語の尤度を計算し、単語検索結果を受理するか棄却するかを決定する（３０３）。これら文字識別の尤度や順位、及び文字パタンの並びに関する情報はＯＣＲ読取仮説ファイルに含まれている。ＯＣＲ読取仮説ファイルの詳細については後述する（第１２図〜第１６図が関連）。次に検索された単語群を含む文書に対して文書検索ルールを適用して文書検索を行う（３０４）。最後に、検索された文書に対して、ルールの適用された検出単語の尤度や、適用したルールの重要性を勘案して、文書検索結果を受理するか棄却するかを決定する（３０５）。
第４図について説明する。第４図は、上記処理３０３を詳述したものである。この処理では、検索した単語に対して、文字識別の尤度、文字パタンの配置情報、単語の文書画像中に対する配置情報などを使って、検出単語の尤度を計算する。検出単語の尤度計算では、初めに文字列パス（検索された単語は文字コード列と文字パタン列の組として表される。これをパスと称する。詳細は第５図の説明で述べる）上にある文字パタンの識別尤度を勘案して単語の識別尤度を計算する（４０１）。次に文字パタンの配置に関するペナルティを計算する（４０２）。例えば、パス全体の高さに対する文字の高さ比や、パス全体の中心線に対する文字の中心線のずれ、平均的な文字幅、隣接する文字パタンの間隔などが、統計的な平均値からどの程度外れるかの度合いをペナルティとする方法がある。さらに、検出した単語全体の位置を勘案したぺナルティを計算する（４０３）。例えば、検出単語が文書画像中の所定領域内に有るか否かの情報などが使われる。但し、ＯＣＲ読取仮説ファイルに保持される情報には何段階かのレベルがあり（後述）、そのレベルに応じて処理４０２及び処理４０３は省略できるとする。ＯＣＲ読取仮説ファイルの詳細については後述する。
第５図及び第６図について説明する。第５図は、単語検索の過程を概念図で示したものである。また、第６図は、候補文字ネットワークの概念図とデータの詳細を示した図である。第５図を元に単語検索の流れを説明する。読取り対象文字行（ａ）から、文字パタンと思われる部分を様々に切出して候補文字パタンを作り、各候補文字パタンを文字識別して作られたのが、候補文字ネットワーク（ｂ）である。候補文字ネットワークは、文字パタン、文字識別の結果得られた順位付けされた識別コード群、候補文字ネットワーク中での文字パタン間の接続関係の情報、を最低限持つものとする。ＯＣＲ読取仮説ファイルは、これらの情報の一部分が含まれる。その形態としてはバイナリ形態、またはＸＭＬ等の表記を使ったテキスト形態がある。本発明で提案する手法はＯＣＲ読取仮説ファイルを用いるため、候補文字ネットワークはファイルから読取った情報を元に作る。次に文字列表記知識（ｃ）を使って、候補文字ネットワークから文字列パス（ｄ）を計算する。例では文字列表記知識をＯＲ記号（｜）で単語を並べて表現されている。すなわち、記号｜の間に挟まれた単語群が検索対象として指定されることを意味する。文字列表記としては、この表記以外にもトライ、文脈自由文法などを使った方法がある（特開２００１−０１４３１１等に記載）。文字候補ネットワークの詳細は第６図に詳しい。文字候補ネットワークは、文字パタンの候補をアーク（６０１）とし、文字パタンの境界をノード（６０２）とする有向グラフとして表現される。各文字パタンには、左右（縦書きであれば上下）のノード（パタン境界）を表す境界ＩＤ番号と、文字識別候補（６０３）及び識別類似度（６０４）の情報が含まれる。単語検索処理は、この候補文字ネットワークと文字列表記知識を入力として、候補文字ネットワークに含まれ得る単語とそのパタン列を見つける処理である。例えば文字列表記知識にある「血液化学検査」という単語は、第６図の候補文字ネットワーク中に、６０５のような黒丸で示される文字コード及び文字パタンを辿ることで見つけることができる。文字コード及び文字パタンを辿るアルゴリズムについては、公知技術（特願平１０−２８０７７、特願平１１−１８７５３等）を利用する。単語検索の結果、文字列パスが確定する。文字列パスとは、文字コード列（つまり文字列）と、各文字コードに対応する文字パタンから構成される情報のことである。
上記に述べた各々の情報は、第１０図に示す検索装置において次の場所に格納される。ＯＣＲ読取仮説ファイルは外部記憶装置１０１２またはメモリ１０１３に蓄えられる。単語検索プログラムは外部記憶装置１０１２またはメモリ１０１３に蓄えられており、中央演算装置１０１４によって処理が遂行される。読取仮説ファイルから作られた候補文字ネットワークはメモリ１０１３上に展開される。これに対して単語の検索が行われ、検索結果の情報は外部記憶装置１０１２またはメモリ１０１３または通信装置１０１５を通して外部の装置に格納される。
第７図について説明する。第７図は、本発明で提案する手法を用いた文書検索システムの一画面構成例を示したものである。ここでは、レセプト文書の検索システムを例としている。まず初めに、入力欄７０１に検索したいキーワードを指定し、入力欄７０２に検索キーをどのようなルールで取り扱うかを指定する。この図では指定した全キーワードのいずれかを見つけることを意味するＯＲルールが選択されている。上記２項目を入力として、ＯＣＲ読取仮説ファイルを蓄えたデータベースから、レセプト文書検索を行う。表示欄７０３には、検索の結果得られたレセプト名を表示する。表示欄７０４は、検索された文書の中で現在表示している文書に関するデータを表示する。表示欄７０５には検索結果を視覚的に表示する。ＯＣＲ読取仮説ファイルは、元の紙文書または文書画像と一意的な対応が取れる文書ＩＤコードを持つため、文書画像と検索結果の同時表示が可能である。また、検索された単語は７０６に示すような下線で場所を示している。文書検索結果を表示する際には、ＯＣＲ読取仮説ファイルを用いることで計算できる検出単語尤度及び検索文書尤度を使って、優先付けをすることが可能である。
第８図について説明する。第８図は、ＯＣＲ読取仮説ファイルを用いた検索システムにおける文字切出及び文字識別の多重仮説化による効果を示した図である。図（ａ）は読取対象の文書（の部分画像）であり、太枠で括った部分が１つの行仮説に相当する。図（ｂ）は、この部分を通常のＯＣＲで特別な知識無しに読ませると、本来「ルリッド錠」と書かれているものが、「ノレリソド症」と読まれることを示している。これは、「ル」が２つの文字パタンの合成であるため分離して読まれたこと、「ツ」がかすれにより識別第一位の結果が誤読されたこと、同様に「錠」の一部が潰れて識別第一位の結果が誤読されたことに因る。これに対して、ＯＣＲ読取仮説上では、図（ｃ）のような候補文字ネットワークが保持されている。すなわち、「ル」を「ノ」と「レ」に読む仮説も存在するが、「ル」と読む仮説も存在すること、更に「ッ」「錠」などでは１位の文字識別結果は「ソ」「症」と誤っているものの、より解の識別候補に正しい識別結果である「ツ」「錠」が含まれることを示している。ＯＣＲのテキスト読取結果に対して単語検索を行った場合は、「ノレリソド症」から「ルリッド錠」という単語を検索しなければならないが、この場合２つの文字列の距離は編集距離で測った場合、１文字挿入２文字不読ということになり、単語として類似しているとは言えない。一方、ＯＣＲ読取仮説ファイルを使っての検索では文字挿入及び不読が無いことになり、単語検索が容易にできる。その結果、図（ｄ）に示すような正しい単語が検索される。
第９図について説明する。第９図は、ＯＣＲ読取仮説ファイルを用いた検索システムにおける文字行の多重仮説化による効果を示した図である。図（ａ）は読取対象の文書（の部分画像）である。図（ｂ）は、この中から単一仮説による文字行の抽出を行った際の結果である。この図では、図（ａ）中の真中３行がまとめて１行として抽出されている。これは、文字行を横方向に射影して切り分ける際に、行が印活行の間に挟まる形で、手書行及び判子行があるため、射影時に十分な切れ目ができずに、まとめて一行と判断してしまうのである。これに対して、上記単一仮説のみでなく複数の行仮説を許すことで、図（ｂ）の太い文字行を更に細かく切断した文字行も仮説として加えて図（ｃ）のような文字行仮説群を構成する。これら複数の行仮説に対してＯＣＲ読取仮説ファイルを展開し、それらに対して単語検索を行うことで、結果として図（ｄ）に示すような正しい単語が検索される。ＯＣＲ読取仮説ファイルには、文字切出、文字識別の情報だけでなく文字行仮説情報が格納される。ＯＣＲ読取仮説ファイルに含まれる情報の詳細については後述（第１２図〜第１６図が関連）する。
第１０図について説明する。第１０図は、これは本発明で提案する手法によってＯＣＲ装置と検索装置を分離する形で文書検索システムを構成した場合の一構成例である。第１０図上段にはＯＣＲ装置の一構成例を、第１０図下段には検索装置の一構成例を示した。
まず上段のＯＣＲ装置では、画像入力装置（１００１）により文書を電子データに変換し、それを外部記憶装置（１００４）及びメモリ（１００５）に蓄えて、中央演算装置（１００６）により読取を行う。文書形式の定義などは外部記憶装置（１００４）に蓄えられており、文書構造解析にはここに蓄えた定義を参照する。これらの処理は操作端末装置（１００２）を通して人間が操作可能であり、処理結果等は表示端末装置（１００３）を通して表示され、外部記憶装置に蓄積または通信装置（１００７）を通して外部装置にデータが送られる。ＯＣＲが読取った結果は、従来の装置のようにテキストファイルとしても出力できるが、ＯＣＲ読取仮説ファイルとしても出力できる。ＯＣＲ読取仮説ファイルは外部記憶装置に蓄えられるか、または通信装置を通して外部の装置に送られる。その際、ＯＣＲ読取仮説ファイルにはＯＣＲで読取った文書（あるいは画像）に対応する文書ＩＤコードが振られるとする。この文書ＩＤコードを利用することで、紙文書または文書画像とＯＣＲ読取仮説ファイルとの対応が取れる。読取仮説ファイルとの対応が取れることにより、検索した単語を元の文書画像上で表示するといった人間にとって親しみやすいＧＵＩ機能の提供や、目的とする単語を含む文書画像を選別するなどの、文書検索機能が実現できる。例えば第７図は単語検索におけるＧＵＩの一構成例を示したものだが、ここでは文書画像（７０５）と検索された単語（７０６）が同時に表示されている。この表示機能は、ＯＣＲ読取仮説ファイル上で検索した単語の位置情報と、ＯＣＲ読取仮説ファイルのＩＤに対応する画像ファイルを利用することで実現されている。
第１０図下段の検索装置は、上記ＯＣＲ機能装置から出力されたＯＣＲ読取仮説ファイルを用いて検索を行うもので、一旦ＯＣＲ読取仮説ファイルが生成された文書に対しては何度でも繰り返し（仮説ファイルが存在する限り）検索できる機能を有する。この検索装置は、通信装置（１０１５）及び外部記憶装置（１０１２）よりＯＣＲ読取仮説ファイルを読み、これをメモリ（１０１３）にロードして、中央演算装置（１０１４）により検索処理を行う。検索したい単語及び文書検索ルールは、外部記憶装置に蓄えられているか、または操作端末装置（１０１０）から入力することができる。単語の検索結果は表示端末装置（１０１１）を通して表示され、また通信装置を通して外部機器にデータを送信する、または外部記憶装置に検索結果を蓄積することができる。これらの装置は内部バス（１００８、１００９、１０１６）によってつながれている。
第１１図について説明する。第１１図は文書検索システムを実業務に適合させる自動学習機構の模式図である。初めに、文書検索システムに多量の紙文書・文書画像群（１１０１）が入力され、各文書に対応するＯＣＲ読取仮説ファイル（１１０２）が作られる。次にＯＣＲ読取仮説ファイルを使って単語検索を行う（１１０３）。その際、検索対象である単語はデータベース（１１１０）に蓄えられており、各単語には、その単語の重要度や検索時の尤度閾値を表す学習可能なパラメータ（１１１１）が付随するとする。次に、検索された単語（１１０４）に対して文書検索ルールを適用する（１１０５）。その際、文書検索ルールはデータベース（１１１２）に蓄えられており、各ルールには、そのルールの重要度や適用時の尤度閾値を表す学習パラメータ（１１１３）が付随するとする。次に対象文書群の中から検索尤度などにより検索の受理・棄却が決定され、検索文書群（あるいはその補集合である検索条件に適合しなかった文書群＝非検索文書群）が確定し、その結果がディスプレイ等の表示装置を通してユーザに表示される（１１０６）。ユーザは提示された結果を判断材料として、検索結果の中で必要な文書はそのまま利用し（１１０７）、検索結果の中のゴミ（意味のない検索結果）や、検索結果に上がらなかった文書に関してシステムにフィードバックを掛ける（１１０８）。学習機構（１１０９）は文書検索の結果に対して、検索ゴミと判断されたものに対しては、その検索尤度を下げるようにパラメータ（１１１１、１１１３）を調整し、検索候補に上がらなかった文書に対してはその検索尤度を上げるようにパラメータを調整する。
学習についてもう少し詳しく述べる。本発明で提案する手法は、検出した単語に対して、識別尤度、文字配置の尤度などから、検出単語の尤度が計算できる。この検出単語尤度を使うことで、検索ルールに関しても、その尤度（適合度）が計算できる。例えば、検索対象の単語とｉｆ−ｔｈｅｎルールによって文書検索ルールが定められているとする。このとき、ｉｆ−ｔｈｅｎルールの真偽値は、検出した単語の尤度を用いて、ファジー論理値として表すことができる。一般にＩｆ−ｔｈｅｎルールは、次の論理演算に分解できる：
論理積Ａ∩Ｂ、論理和Ａ∪Ｂ、否定〜Ａ
それぞれ、Ａ及びＢには検出した単語を当てはめるとするならば、単語の識別尤度をファジー論理値と考え、上記各要素に対するファジー演算子を
尤度（Ａ∩Ｂ）＝ＭＩＮ（尤度（Ａ）、尤度（Ｂ））
尤度（Ａ∪Ｂ）＝ＭＡＸ（尤度（Ａ）、尤度（Ｂ））
尤度（〜Ａ）＝１−尤度（Ａ）
という置き換えが可能である。ここで尤度（Ｘ）とは、単語Ｘまたは論理式Ｘに対する尤度を計算する関数を指すとする。これにより、文書検索ルールに対しても文字識別の尤度が反映できるため、例えば重要なルールに対しては、特定単語の識別尤度が多少低くても、それを重視してルールを適用して文書を検索するというように、文書検索に対して重み付けが可能となる。また、単語検索のミス（精度の低い単語として棄却した場合）、あるいはルール適合のミス（ルールを精度が低いとして棄却）が起こり、それにより本来検出するべき情報が抽出できなかった場合においては、単語検索時の閾値及びルール適合時の尤度パラメータを調整し、共に尤度（検出尤度、ルール適合尤度）が高くなるようにパラメータを微調整することで、より実運用に適応した検索システムへと学習することが可能となる。
【０００６】
一般に文書検索においては検索の性能を測る上で再現率と適合率という２つの尺度が使われる。再現率とは本来検索したかった文書が、当該検索エンジンによって何割見つかったかを測る尺度である。また、適合率とは当該検索エンジンによって検出された文書のうち、何割が本来欲しかった文書であったかを測る尺度である。上記学習プロセスは、ユーザのフィードバックを使うことにより再現率と適合率を高めることを目的とする。適合率を高めるためには、ユーザからのフィードバックである「どの文書をユーザが選択したか」という情報を使って、ユーザが選択した文書群に対して検出尤度を挙げるようにパラメータを調整する。また、再現率を高めるためには、第１１図の１１０６に挙がった非検索文書群の中から、ランダムサンプリングなどにより「検索漏れの文書群」を見つけ出し、これらに対して検出尤度を上げるようパラメータを調整する。
具体的な学習のアルゴリズムとしては最急降下法などが考えられる。検索する単語のリストがあるとする｛Ｗ１，Ｗ２，・・・，Ｗｎ｝。また、これら単語に対して検索時の尤度閾値が定まっているとする｛Ｔ１，Ｔ２，・・・，Ｔｎ｝。つまり、単語及びその検索尤度閾値のペア｛（Ｗ１，Ｔ１），・・・，（Ｗｎ，Ｔｎ）｝が検索システムへの入力と仮定する。ＯＣＲ読取仮説ファイルを使い単語を検索した結果、ある単語Ｗｋが、識別尤度Ｌｋで見つかったとする（当然、この尤度の計算には、単純に文字識別の尤度のみを考慮するのではなく、文字パタンの配置情報なども考えてよい）。この時、単語の尤度は、尤度閾値Ｔｋと、識別尤度Ｌｋの関数として表すことができる。これを単語の検出尤度Ｆｋ＝Ｆ（Ｔｋ，Ｌｋ）とする。例えば単語の検出尤度としては、識別尤度Ｌｋが閾値尤度Ｔｋを下回る場合は０、逆に上回る場合は１とするような離散的な関数を考えることができるし、また識別尤度と閾値尤度の差分Ｌｋ−Ｔｋに対するシグモイド関数またはそれに類似した連続関数を考えることができる。
上で述べたとおり、ルールに対しても、元となる論理演算子の尤度関数定義を元に論理式の尤度が計算できる。すなわち、単語Ｗｋを含むあるルールの尤度は、単語Ｗｋの尤度に対する関数と考えられるので、これをＲ（Ｆｋ）と表せる。更には、これをパラメータＴｋの関数と見るならば、ＦｋがパラメータＴｋの関数であるので、Ｒ（Ｆｋ）＝Ｒ´（Ｔｋ）と表せる。
学習は、どのルール適用を強化するべきか、どのルール適用を無視するべきかを指定する教師付き学習により行われる。例えば、強化するべきルールがあるならば、そのルールの尤度Ｒ＝Ｒ（Ｆｋ）を大きくするよう、単語Ｗｋに関するパラメータを調整すればよい。例えば、上記に述べた尤度閾値Ｔｋを学習したいパラメータとするならば、パラメータＴｋの関数として捉えたルール尤度Ｒ´（Ｔｋ）の、パラメータＴｋに関する偏導関数δＲ／δＴｋに比例した摂動を元のパラメータＴｋに与えるならば、ルール尤度Ｒ´（Ｔｋ）の値を大きくすることができる。
無論、これはルール尤度Ｒ´がパラメータＴｋに対して滑らかである場合に使える学習方法である。しかし、ここで述べたような最急降下法的な手法以外にも、ＧＡ（遺伝的アルゴリズム）、ＳＡ（焼きなまし法）、シンプレックス法のように、離散的な関数でも使えるパラメータ学習法が存在する。これらの学習方法は、対象データの判別の良否を表す何らかの評価尺度を、対象データ群全体に対して最適化するように、判別アルゴリズムに関するパラメータ群を調整する機構に基づく。本発明で述べた検出単語の尤度からルールの尤度を計算するという枠組みは、上記評価尺度の定義をルールの尤度を使った明示的な関数として表現でき、かつ検出単語の精度などをパラメータで調節できるため、連続・離散に関係なく学習が可能となる。
【０００７】
ＯＣＲ読取仮説ファイルの構造について詳述する。ＯＣＲ読取仮説ファイルは、元となる紙文書または文書画像と一意的に対応が取れる文書ＩＤコードと、複数の行仮説情報及び各文字行候補における複数の文字切出仮説及び文字識別仮説を最低限持つものとする。行仮説情報、文字切出仮説、文字識別仮説については下記に記す。
初めに、文字行の多重仮説を保持するために必要な情報について述べる。文字行多重仮説は、第１２図に示す単一文字行の仮説情報が複数集まって構成される。文字行仮説を構成する情報は幾つかのレベルに分けて考えることができる。この図では３段階に分けている。レベル１は、多重行仮説を保持するために必要な最低限の情報である。これは、文字行を表す行ＩＤと、当該文字行に含まれる文字切出及び文字識別仮説と、及び当該文字行の座標情報からなる。行ＩＤは行仮説のまとまりを表す区切り記号でも代用できる。この行ＩＤを用いて文字行単位での情報のまとまりを識別し、文字切出及び文字識別仮説によって当該文字行から単語を検出し、行座標情報を用いて過剰検索の問題（同じ検索キーが複数の行仮説で検出される問題）を防ぐ。レベル２は、単語検索を文字行間に跨って行う場合に必要な情報であり、文字行間の連結構造を表す情報である。これはレセプトや帳票文書のように、殆どの文章が箇条書きのように一行単位でまとまっているケースでは不要な情報だが、学術文書や一般文書のように長いまとまりを持つ文書に対して検索を行う場合は必要となる。レベル３は、多重行仮説を保持する上では本質的な情報ではないが、画像情報を元に再文字切出及び再文字識別を行いたい場合には有用な情報である。
【０００８】
次に、各文字行仮説にある文字切出及び文字識別の多重仮説を保持するために必要な情報について述べる。各行における文字切出及び文字識別の多重仮説は、第１３図に示す単一文字パタンの仮説情報が複数集まって構成される。文字切出仮説を構成する情報もまた上記と同様に幾つかのレベルに分けて考えることができる。この図では３段階に分けている。レベル１は、多重切出仮説及び多重識別仮説を保持するために必要な最低限の情報である。即ち、文字切出及び文字識別の多重仮説は、文字パタン間の接続関係を示す境界ＩＤ番号ｃｎ、ｎｎによって示され、文字識別の多重仮説は複数の識別コードｄｔから構成される。文字パタン間の接続関係は第６図で示したようにネットワークとして捉えることができる。文字パタンの切断位置はネットワーク上のノード（第６ａ図の白丸の点）で表され、上記の境界ＩＤ番号ｃｎ、ｎｎはこのノードに振られた一意的な番号である。レベル２は、単語の検索結果に対して尤度を計算する際に使える情報である。例えば文字パタンの配置や文字識別の類似度ｄｋによって単語の尤度にペナルティを掛ける場合は、この情報が必要になる。レベル３は、検索後の処理において、より詳細な文字パタンの解析が必要な場合に要求される情報である。
【０００９】
ＯＣＲ読取仮説ファイルには上で述べた情報が含まれる。ＯＣＲ装置は上記情報を必要なレベルに応じてＯＣＲ読取仮説ファイルに出力し、検索装置はＯＣＲ読取仮説ファイルから候補文字ネットワークを復元した上で単語の検索を行う。ＯＣＲ読取仮説ファイルに吐き出す情報のレベルを何段階かに分けることで、システムに応じてファイルの容量と単語検索の精度を調整することができる。ＯＣＲ読取仮説ファイルの形態は、バイナリファイルまたはテキストファイルのいずれも可能である。ここではＯＣＲ読取仮説ファイルをＸＭＬ表記を用いてテキストで記す場合の一実施例について述べる。
ＯＣＲ読取仮説ファイルのＸＭＬ表記例を述べる前に、現在ＪＥＩＴＡで提唱されている文字識別多重仮説に対するＸＭＬ規格を記す。この規格では、多重文字コード用のタグ＜ｍｃ＞、及びタグ内属性ｖを使ったＸＭＬ構造が提案されている。タグｍｃは複数の文字識別コードを表し、タグ内属性ｖは識別類似度を表す。タグ内属性ｖは省略可能である。ＸＭＬ表記例を次に示す（第１４図に文字パタン例を図示する）。
例１）
「文字」という文字行があり、各文字パタンが次のように識別された場合：
「文」に対して識別結果が「文交大」、類似度が０．８０、０．７１、０．６０
「字」に対して識別結果が「字宇学」、類似度が０．８９、０．００、０．００。
表記例１：文＜ｍｃ＞交大＜／ｍｃ＞字＜ｍｃ＞宇学＜／ｍｃ＞
表記例２：文＜ｍｃｖ＝”０．８００．７１０．６０”＞交大＜／ｍｃ＞
字＜ｍｃｖ＝”０．８９０．０００．００”＞宇学＜／ｍｃ＞
本発明では上記規格の枠組みに沿ったＯＣＲ読取仮説ファイルの表記例を記す。まず、文字切出の多重仮説化に向けて、タグ内属性ｃｎ、ｎｎを追加して文字間の連結関係を表せるようにする。ここでｃｎ、ｎｎは第１３図に示した文字パタンの境界を示す境界ＩＤ番号である。ＸＭＬ表記例を次に示す（第１５図に文字パタン例を図示する）。
例２）
「文字」という文字行があり、各文字パタンが次のように識別された場合：
「文」に対して識別結果が「文交大」で、類似度が０．８０、０．７１、０．６０
「字」に対して識別結果が「字宇学」で、類似度が０．８９、０．００、０．００
「文字」を跨ったパタンがあり、識別結果が「対効」で、類似度が０．６０、０．５７

次に文字行切出の多重仮説化に向けて、行情報タグ＜ｍｌ＞を追加して文字行仮説を表せるようにする。タグ間の階層関係としては、ｍｃタグはｍｌタグに包含され得るとする。即ち＜ｍｌ＞タグから＜／ｍｌ＞タグの間には、＜ｍｃ＞タグから＜／ｍｃ＞タグで括られるまとまりを複数挟むことができると規定する。ＸＭＬ表記例を次に示す（第１６図に文字パタン例を図示する）。
例３）
行切出仮説１で「文字」が行として抽出され、次の文字パタンを含み：
「文」に対して、識別結果が「文交大」で、類似度が０．８０、０．７１、０．６０
「字」に対して、識別結果が「字宇学」で、類似度が０．８９、０．００、０．００
「文字」を跨ったパタンがあり、識別結果が「対効」で、類似度が０．６０、０．５７かつ、行切出仮説２で「多重」が行として抽出され、次の文字パタンを含む：「多」に対して、文字コード「多名」で、類似度が０．８０、０．７１の場合
「重」に対して、文字コード「重乗」で、類似度が０．８９、０．７０の場合
表記例１：＜ｍｌ＞文＜ｍｃｃｎ＝１ｎｎ＝２＞交大＜／ｍｃ＞
字＜ｍｃｃｎ＝２ｎｎ＝３＞宇学＜／ｍｃ＞
対＜ｍｃｃｎ＝１ｎｎ＝３＞効＜／ｍｃ＞＜／ｍｌ＞
＜ｍｌ＞多＜ｍｃｃｎ＝１ｎｎ＝２＞多名＜／ｍｃ＞
重＜ｍｃｃｎ＝２ｎｎ＝３＞重乗＜／ｍｃ＞＜／ｍｌ＞
第１２図の説明で述べた通り、文字行仮説を構成する情報は幾つかのレベルに分けて考えることができる。特に多重行仮説を保持するために必要な最低限の情報としては、文字行を表す行ＩＤと、当該文字行に含まれる文字切出及び文字識別仮説と、及び当該文字行の座標情報が考えられる。行ＩＤは行仮説のまとまりを表す区切り記号で代用できる。上記表記例１では＜ｍｌ＞タグがこの区切り記号に該当し、＜ｍｌ＞タグと＜／ｍｌ＞タグに挟まれた部分が文字切出及び文字識別仮説を表現している。次に、上記表記例を行の矩形座標が表現できるよう拡張する。行の座標情報は過剰検索の問題（同じ検索キーが複数の行仮説で検出される問題）を防ぐために有効な情報である。行の矩形座標を表現するためにタグ内属性ｌ、ｒ、ｔ、ｂを使う。ｌｒｔｂは其々、各行を包含する外接矩形の左端Ｘ座標、右端Ｘ座標、上Ｙ座標、下Ｙ座標を表す。座標の表し方は他にも考えられる。行の中心座標及びサイズで表すやり方や、行矩形四隅の点座標を使うやり方などがある。次に外接矩形座標を使った場合のＸＭＬ表記例を示す（第１６図に文字パタン例を図示する）。
例４）

同様に、上記表記例に対して行間の繋がり方を記述できるよう拡張できる。この場合はタグ内属性ｌｃ、ｌｎを使い、文字パタンと同様に行同士の繋がりかたを規定する。ＸＭＬ表記例を次に示す（第１６図に文字パタン例を図示する）。例５）

【００１０】
【発明の効果】
従来の手法では、紙文書群からの文書検索はＯＣＲ読取の結果であるテキストに対して検索を行っていたが、文字潰れやかすれ等に起因するＯＣＲの文字識別誤りや、文字パタン境界の曖昧性に起因するＯＣＲの文字切出誤りや、文書−図版−罫線混在に起因するＯＣＲの文字行抽出誤りに対処することが困難であった。本発明によれば、文字識別、文字切出、文字行抽出方法を保持するＯＣＲ読取仮説ファイルを用いて単語検索及び文書検索を行うことにより、上記問題が回避できる。
また、本発明によれば、従来手法において調整困難であった文書検索性能と単語検索性能のトレードオフ関係（文字識別的に信頼度の高いキーワードのみを使って文書検索を行うと必要な文書が検索できない、信頼度の低いキーワードも使って文書検索を行うと文書検索で余計な検索結果が生じる）についても、ＯＣＲ読取仮説ファイルに含まれる文字識別順位・類似度・パタン配置尤度などの情報を使うことで個々の単語検索結果に対する尤度及び単語検索尤度に基づく文書検索尤度が計算できるため、検索結果の良否に対するユーザフィードバックを利用して文書検索結果の精度を高めるよう自動パラメータ学習を行うことで、ユーザの検索意図に適合した文書検索システムの自動構築が可能となる。
【図面の簡単な説明】
【図１】ＯＣＲ読取仮説ファイルを使った検索と従来手法の比較概念図。
【図２】ＯＣＲ読取仮説ファイルを出力する迄のフロー図。
【図３】ＯＣＲ読取仮説ファイルを使った検索処理のフロー図。
【図４】検索された単語パスの検定のフロー図。
【図５】候補文字ネットワークからの単語抽出処理の概念図。
【図６】候補文字ネットワークの概念図。
【図７】文書検索システムの一画面構成例。
【図８】ＯＣＲ読取仮説ファイルの効果を示す図１。
【図９】ＯＣＲ読取仮説ファイルの効果を示す図２。
【図１０】文書検索システムの一構成例。
【図１１】文書検索システムにおける学習フローの概念図。
【図１２】ＯＣＲ読取仮説ファイルのデータ構造図１。
【図１３】ＯＣＲ読取仮説ファイルのデータ構造図２。
【図１４】ＯＣＲ読取仮説ファイルで表現される文字列パタンの概念図１。
【図１５】ＯＣＲ読取仮説ファイルで表現される文字列パタンの概念図２。
【図１６】ＯＣＲ読取仮説ファイルで表現される文字列パタンの概念図３。
【符号の説明】
１０１…従来の文書検索システムに入力される紙文書
１０２…従来の文書検索システムでのＯＣＲ部
１０３…従来の文書検索システムのＯＣＲ出力形態
１０４…従来の文書検索システムでの単語検索部
１０５…従来の文書検索システムでの文書検索部
１０６…従来の文書検索システムでの文書検索結果
１０７…本発明で提案する文書検索システムに入力される紙文書
１０８…本発明で提案する文書検索システムでのＯＣＲ部
１０９…本発明で提案する文書検索システムのＯＣＲ出力形態
１１０…本発明で提案する文書検索システムでの単語検索部
１１１…本発明で提案する文書検索システムでの文書検索部
１１２…本発明で提案する文書検索システムでの文書検索結果
１１３…単語検索で用いる単語データベース部
１１４…文書検索で用いる文書検索ルールデータベース部
２０１…ＯＣＲ装置における画像入力部
２０２…ＯＣＲ装置における文書構造解析部
２０３…ＯＣＲ装置における文字行抽出部
２０４…ＯＣＲ装置における文字パタン生成部
２０５…ＯＣＲ装置における文字識別部
２０６…ＯＣＲ装置におけるＯＣＲ読取仮説ファイル出力部
２０７…ＯＣＲ装置において文書画像を入力とした場合の流れ
３０１…文書検索装置におけるＯＣＲ読取仮説ファイル入力部
３０２…文書検索装置における単語検索部
３０３…文書検索装置における検索単語検定部
３０４…文書検索装置における検索ルール適用部
３０５…文書検索装置における検索文書検定部
４０１…文書検索装置におけるパス識別尤度計算部
４０２…文書検索装置における文字配置尤度計算部
４０３…文書検索装置におけるパス配置尤度計算部
６０１…候補文字ネットワーク上の文字パタン
６０２…候補文字ネットワーク上のパタン境界
６０３…候補文字ネットワーク上の文字識別結果
６０４…候補文字ネットワーク上の文字識別類似度
６０５…候補文字ネットワーク上から検索された単語
７０１…文書検索システム画面のキーワード入力欄
７０２…文書検索システム画面の検索ルール指定欄
７０３…文書検索システム画面の検索文書表示欄
７０４…文書検索システム画面の検索文書の詳細情報表示欄
７０５…文書検索システム画面の検索画像表示欄
７０６…文書検索システム画面の単語検索結果
１００１…ＯＣＲ装置部における画像入力装置
１００２…ＯＣＲ装置部における操作端末装置
１００３…ＯＣＲ装置部における表示端末装置
１００４…ＯＣＲ装置部における外部記憶装置
１００５…ＯＣＲ装置部におけるメモリ
１００６…ＯＣＲ装置部におけるＣＰＵ
１００７…ＯＣＲ装置部における通信装置
１００８…ＯＣＲ装置部における通信バス
１００９…ネットワーク部
１０１０…検索装置部における操作端末装置
１０１１…検索装置部における表示端末装置
１０１２…検索装置部における外部記憶装置
１０１３…検索装置部におけるメモリ
１０１４…検索装置部におけるＣＰＵ
１０１５…検索装置部における通信装置
１０１６…検索装置部における通信バス
１１０１…文書検索システムに入力される紙文書
１１０２…文書検索システムで作られたＯＣＲ読取仮説ファイル
１１０３…文書検索システムの単語検索部
１１０４…文書検索システムで得られた単語検索の結果
１１０５…文書検索システムの文書検索ルール適用部
１１０６…文書検索システムで得られた検索文書・非検索文書
１１０７…検索文書の利用
１１０８…検索文書の良否を指定する教師信号
１１０９…文書検索システムの学習部
１１１０…文書検索システムの検索対象単語
１１１１…文書検索システムの検索対象単語パラメータ
１１１２…文書検索システムの文書検索ルール
１１１３…文書検索システムの文書検索ルールパラメータ。

Claims

文字が記載された画像の入力を受付ける画像入力装置と、中央演算装置と、外部記憶装置を備えたＯＣＲ装置であって、
上記中央演算装置では、
上記入力された画像から文字行候補と文字切り出し候補を抽出し、
さらに上記文字切り出し候補を文字識別し、
該文字識別の結果、該文字行候補および該文字切り出し候補を併せて読取仮説ファイルとして上記外部記憶手段に記憶することを特徴とするＯＣＲ装置。
上記中央演算装置ではさらに、
上記文字切り出し候補間の関係の抽出、および上記文字識別結果の類似度の抽出を行い、
抽出された上記文字切り出し候補間の関係、および上記文字識別結果の類似度をさらに併せて上記読取仮説ファイルとして記憶手段に記憶することを特徴とする請求項１記載のＯＣＲ装置。
上記中央演算装置ではさらに、
上記文字切り出し候補の上下左右の座標値うち少なくともいずれか一つを抽出し、
抽出された上記文字切り出し候補の座標値をさらに併せて上記読取仮説ファイルとして上記記憶手段に記憶することを特徴とする請求項１または２記載のＯＣＲ装置。
上記中央演算装置ではさらに、
上記文字行候補の外接矩形の上下左右の頂点の座標値のうち少なくともいずれか一つを抽出し、
抽出された上記頂点の座標値をさらに併せて上記読取仮説ファイルとして上記記憶手段に記憶することを特徴とする請求項１乃至３のいずれかに記載のＯＣＲ装置。
操作端末装置、外部記憶装置、中央演算装置、表示端末装置、および通信装置の各装置を備えた検索装置と、
通信装置を備え、該検索装置に接続された請求項１乃至４のいずれかに記載のＯＣＲ装置によって構成される文書検索システムであって、
上記ＯＣＲ装置の中央演算装置では、
上記読取仮説ファイルを上記ＯＣＲ装置側の上記通信装置から送信し、
上記検索装置の中央演算装置では、
上記ＯＣＲ装置から送信された上記読取仮説ファイルを上記検索装置側の通信装置で受信し、
受信した上記読取仮説ファイル中の上記各情報を用いて、上記画像に記載された上記文字から、上記操作端末装置に入力された検索キーに一致する上記文字列を検索し、
上記検索の結果を上記外部記憶装置または上記表示端末装置に出力することを特徴とする文書検索システム。
上記検索装置の中央演算装置ではさらに、
上記検索キーに重みを設定し、
入力された上記検索キーの検索精度を上記重みに応じて変更することを特徴とする請求項５記載の文書検索システム。
上記検索キーを用いた検索履歴における過去の再現率と適合率を用いて上記検索キーの重みを設定することを特徴とする請求項６記載の文書検索システム。
上記ＯＣＲ装置の画像入力装置ではさらに、
複数の画像の入力を受付け、
上記ＯＣＲ装置の中央演算装置では、
上記入力された複数の画像の各々について、上記画像と一意的な対応がとれる文書ＩＤをさらに併せて読取仮説ファイルとして上記記憶手段に記憶し、
上記検索装置の中央演算装置ではさらに、
上記検索で上記検索キーに一致するとされた文字列が記載された上記画像を上記文書ＩＤを用いて同定し、上記表示端末装置に出力することを特徴とする請求項５乃至７のいずれかに記載の文書検索システム。
操作端末装置と、記憶装置と、表示端末装置を備えたコンピュータで実行されるプログラムであって、
文字が記載された画像の入力を受付けるステップと、
上記画像から文字行候補を抽出するステップと、
上記画像から文字切り出し候補を抽出するステップと、
上記文字切り出し候補を文字識別するステップと、
上記文字識別の結果、上記文字行候補および上記文字切り出し候補を含むファイルを読取仮説ファイルとして上記記憶手段に記憶するステップと、
上記操作端末装置から検索キーの入力を受付けるステップと、
上記記憶手段から上記読取仮説ファイルを読み出すステップと、
上記読取仮説ファイル中の上記文字切り出し候補及び上記行抽出候補を用いて上記画像に記載された文字から上記検索キーに一致する文字列を検索するステップと、
上記検索の結果を上記記憶手段または上記表示端末装置に出力するステップとを有することを特徴とする検索方法を上記コンピュータで実現するためのプログラム。
上記画像の入力を受付けるステップでは、複数の上記画像の入力を受付け、
上記読取仮説ファイルを記憶するステップでは、上記入力された複数の画像の各々について、上記画像と一意的な対応がとれる文書ＩＤをさらに併せて読取仮説ファイルとして上記記憶手段に記憶し、
さらに、上記検索で上記検索キーに一致するとされた文字列が記載された上記画像を上記文書ＩＤを用いて同定し、上記表示端末装置に出力するステップを有することを特徴とする請求項９記載の検索方法を上記コンピュータで実現するためのプログラム。