JP4466241B2

JP4466241B2 - 文書処理手法及び文書処理装置

Info

Publication number: JP4466241B2
Application number: JP2004205361A
Authority: JP
Inventors: 健永崎; 真理子山本; 勝美丸川; 裕之栗山; 茂之藤原
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2004-07-13
Filing date: 2004-07-13
Publication date: 2010-05-26
Anticipated expiration: 2024-07-13
Also published as: JP2006031129A

Description

本発明は、文字認識を用いた対話的文書処理手法及び文書処理プログラムを記録した記録媒体に関する。

コンピュータによるデジタル情報技術が普及した現在でも、紙文書は情報伝達の媒体として広く使われている。このため多量の紙文書を対象とした文書処理を効率良く行いたいという要求は社会的に根強いが、紙文書はデジタル文書に比べて参照・検索・改変の処理に時間を要するという問題がある。特に、許認可や点検に関する文書処理業務においては、申請書の記載内容に関する業務ノウハウを素早く検索できることや、必要な情報だけを手早くデジタルデータ化することが、業務効率を上げる意味で重要である。これらの問題を解決するために、紙文書処理のための様々な手法が提案されている。

デジタル文書と同等の文書処理を紙文書で実現するための手段としては、ＯＣＲ（光学的読取装置）を用いて紙文書を認識し、紙文書の記載内容をすべてデジタルデータ化するというバッチ的業務処理が一般的である。あらかじめＯＣＲによって紙文書を全てデジタルデータ（テキスト）に変換しておけば、以降の処理ではテキストを使って関連業務ノウハウを検索する、またはテキストをコード化することで、上述した文書処理業務が効率良く遂行できる。しかし、一般にＯＣＲで変換されたテキストには誤りが含まれるため、単純なバッチ的読取処理だけでは対処できないケースが生じる。

上記課題の対応策の一つは認識精度の向上、特に文字列の表記知識を用いた精度向上がある。一般に、文字列認識における文字切出及び文字認識の不確定さを補い、文字列画像を文字列テキストに変換するために、文字列表記解析処理は広く利用されている。そのアルゴリズムとしては形態素解析を用いたものや、ＲＴＮ照合（再帰遷移ネットワーク照合）、上昇型構文解析アルゴリズムを用いたものが一般的である。

例えば、特開平０５−１０８８９１号公報（特許文献1）では、ＯＣＲの読取精度を向上する手段としてＯＣＲの認識結果に形態素解析を適用する手法が記されている。形態素解析等の知識処理を行うことで誤読を訂正することは可能であるが、通常の形態素解析で用いる辞書は新聞等の一般文章を対象としており、特殊な業務用途の文書を精度良く校正するためには、その分野に適合した特殊辞書を追加定義する必要がある。このため保守性や計算量の面で問題が残る。更には、形態素解析という幅広い表記知識を対象とするため、表記知識の解析に時間が掛ったり、また表記解析において膨大な記憶容量を必要とするという問題がある。

また、特開２００２−１１７３７４号公報（特許文献２）では、手書き数字列に対して上昇型構文解析を使った文字列表記解析処理が提案されている。一般に上昇型構文解析は下降型構文解析に比べて計算量が削減できるとされており、数字列等の表記が単純な規則で表現できるものに対して多く適用されている。しかし、文字列認識において起こり得る文字の誤不読、ノイズ混入等の問題に対してのロバスト性には、そのアルゴリズムが最適性を保証するものではないため、限界がある。また、ＯＣＲによって変換されたテキストコードを人手で修正し、その修正結果に対して検索を行うことも可能である。しかし、人間が介在しての修正は、その処理速度及びコストの面から実用的とは言い難い。たとえ人手による修正を省いたとしても、数百万もの紙文書をＯＣＲによってテキスト化することは、処理時間やシステム構築コストが膨大に掛る処理である。

一方、文字認識を対話的に行う文書処理では、文書処理システムの利用者が認識したい対象である文字列を、部分的に指定してテキスト化するため処理時間の軽減を図ることができる。そのため大規模なシステム構築が不要となる。本発明で提案する手法は、対話的に文字認識を行う処理に基づく文書処理手法であり、かつ文書に記された文字列の配置構造を解析することで、認識対象として指示された文字列の記載内容のカテゴリ（年月日か、金額数字か、業務単語か、等）を推定し、これに合致する表記知識を用いて文字列を読み取ることで認識精度の向上を図る。

特開平０５−１０８８９１号公報

特開２００２−１１７３７４号公報特開平０９−３１９８２４号公報特開２０００−２５１０１２号公報特開２００１−０１４３１１号公報

本発明の目的は、文書画像を画面上に表示して処理を行う文書処理装置において、利用者の対話的な操作を元に文字認識を行い、その結果を元に業務データベース中から関連する項目を検索して表示する文書処理システム、または当該文書のデータ化を行う文書処理システム、その装置及び文書処理プログラムを記録した記録媒体を提供することにある。

従来の手法では、ＯＣＲ装置を用いてバッチ処理で文書画像群を一括してテキストに変換し、これに対して文書処理業務を行っていたが、文書画像を全面で読み取ることによる処理時間の増大や、文書−図版−罫線混在に起因するＯＣＲの文字行抽出誤りや、該文書画像に適した汎用的な表記知識を整備することの難しさによる読取精度低下に対処することが困難であった。本発明の目的は、ＯＣＲ読取に起因する処理時間増大、及びＯＣＲ読取誤りが文書処理業務に与える悪影響を回避する方法を提案することである。

上記の目的を達成するため、本発明は、文書表示・操作装置において利用者の対話的な操作に応じて、文字認識処理を要求のあった時点で起動し、必要な部分のみを即時に認識し、当該認識結果を用いた業務データベースからの情報検索及び処理対象文書の部分的なデータ化を行うシステムを提供する。また、処理対象である文書画像から、文字列ブロックを抽出し、その二次元的配置構造を解析することで、当該文字列ブロックの記載内容カテゴリ（年月日か、金額数字か、業務単語か、等）を推定し、利用者の対話的操作によって、認識対象である文字列ブロックを選択し、推定された当該文字列ブロックの記載内容カテゴリに応じて、表記知識を切り替えて文字列を読取ることで、読取精度を向上する機構を提供する。

従来の手法では、ＯＣＲ装置を用いたバッチ処理により紙文書群及び文書画像群を一括してテキストに変換し、これに対して文書処理業務を行っていたが、文書画像を全面で読み取ることによる処理時間の増大や、文書−図版−罫線混在に起因するＯＣＲの文字行抽出の誤りや、該文書画像に適した汎用的な表記知識を整備することの困難さによる読取精度低下に対処することが困難であった。一方、本発明によれば、文書処理業務において文字認識処理を対話的に起動し、文書処理において必要となる部分のみに限定してテキスト化するため処理時間の軽減を図ることができる。また、文書に記された文字列の二次元的な配置構造を解析することで、認識対象として指示された文字列の記載内容のカテゴリ（年月日か、金額数字か、業務単語か、等）を推定し、これに合致する表記知識を用いて文字列認識を行うことで認識精度向上を図ることが可能となる。

始めに、図１をもとにクリック認識を用いた文書処理のフローの概説する。本発明の実施例である文書処理装置では、ＯＣＲ装置、スキャナ装置、文書カメラ等を用いて紙文書を撮像して、これを電子画像データに変換した文書画像を扱う。まず始めに、処理対象とする文書画像を外部記憶装置や通信線を通して外部装置からデータを読み込む（０１０１）。次に、文書画像データから罫線抽出、枠構造解析、読取対象枠の位置推定等の文書構造解析を行う（０１０２）。このとき使う認識処理には公知技術（特開平０９−３１９８２４号公報（特許文献３）、特開２０００−２５１０１２号公報（特許文献４）等）を利用する。一般に文書構造解析を行うためには、対象とする文書の枠配置情報などを記憶した文書構造辞書を使用する（０１０８）。この文書構造辞書は一般に外部記憶装置に記憶されている。文書構造解析では、メモリ若しくは外部記憶装置に記録された、文書画像データ及び文書構造辞書を入力とし、罫線の位置情報と、枠の配置情報と、推定された枠の属性情報とを組にして、メモリ若しくは外部記憶装置へと出力する。

次に、文書構造解析の結果を受けて、認識対象候補である文字列ブロックを抽出する（０１０３）。一般に文字列ブロックとは、空白などの切れ目が無く、意味的に同一のまとまりを表すと思われる文字の塊を意味し、例えば単語の塊が文字列ブロックに該当する。文字列ブロックが複数集まって文字行が構成される。次に、抽出した文字列ブロック情報から、その二次元的な配置構造を解析することで、当該文字列ブロックがどのような属性を持つかを推定する。二次元的な配置構造とは、文字列ブロックの文書画像中における位置、サイズ、上下左右に存在する罫線の情報、及び文字列ブロック相互間の配置関係情報などである。これを配置構造解析と称し（０１０４）、文字列ブロックの属性のことを記載内容カテゴリとも称する。この記載内容カテゴリには、例えば、年月日文字列、金額文字列、ＩＤ数字文字列、一般単語文字列等の分類がある。一般に配置構造解析では、外部記憶装置に蓄えられた配置構造定義情報を使う（０１０９）。配置構造定義情報には、文書種別ごとに、二次元的な配置構造の情報と、その配置構造をもつ文字列ブロックの記載内容カテゴリとが対応付けられて記憶されている。配置構造情報には、例えば座標情報、サイズ情報、属性情報、上下や左右などの隣接関係を表す情報、記載内容カテゴリ情報などの情報が少なくとも含まれる。
ここまでで説明した処理は、以下の手順においてユーザが選択する領域・認識モードなどに基づく認識処理のいわば前処理であり、ユーザが選択する可能性のある領域全体に対して非選択的に行われる。

以上述べた、文書構造解析、文字列ブロック抽出、配置構造解析が終了した後に、当該文書画像を表示装置（０１１０）を通じて文書処理システムのユーザに表示する。ユーザは、キーボード（０１１１）、マウス（０１１２）、電子ペン（０１１３）、あるいはタッチパッド（０１１０）などの情報入力装置を通して、当該文書に対する業務処理（検索、点検、データ登録）を行う。人間との対話的な処理を行い、文書処理や文字認識処理との仲介をするのが文書表示・操作制御部（０１０５）である。文書表示・操作制御部では、マウスクリック、ペンドラッグ、カーソル移動などのイベント（ユーザアクション）に応じて、当該文書の必要な箇所の文字認識（０１０６）、並びに業務データベース検索と結果表示などの文書処理（０１０７）を行う。文字認識部（０１０６）については図２に、文書処理部（０１０７）については図３で説明する。

図２は文字認識部の内部フローを示した図である。文字認識部の上位には文書表示・操作制御部（０１０５）があり、ここから文書画像、配置構造情報、認識要求情報が出力される。認識要求情報とは、認識をどのようなモードで行うか等を記したデータである。次に、これらの入力データを元に画像領域選択部で、認識対象となる領域（文字列ブロック群）を確定する（０２０１）。次に確定した認識領域内の文字行について、文字切出を行う（０２０２）。更に、切り出された各文字パタンについて識別を行う（０２０３）。この結果、図８、図９で後述するような候補文字ネットワークが得られる。候補文字ネットワークとは、認識対象となる文字行画像を、文字パタン及びその識別結果をエッジとし、文字パタンの切断点をノードとする有向グラフとして表したものである。文字識別部では一般に外部記憶装置またはメモリ上に蓄えられた文字識別辞書（０２０６）を用いて、文字パタンの識別を行う。次に、文字切出部（０２０２）と文字識別部（０２０３）の処理の結果として得られた候補文字ネットワークについて表記解析を行う（０２０４）。表記解析では一般に、外部記憶装置またはメモリ上に蓄えられた表記知識辞書（０２０７）を用いて、当該文字列がどのような単語で構成されるか、単語の並びはどうかなどを確かめて、候補文字ネットワークからテキストである文字列を確定する。

このとき上位の文書表示・操作制御部（０１０５）から入力された配置構造情報に含まれる、認識対象となった文字列ブロックの記載内容カテゴリ情報を用いて、表記知識辞書（０２０７）の切り替えを行う。表記知識辞書は、それぞれの記載内容カテゴリに対応して用意されるものとする。これにより、当該文字列ブロックの文字列認識精度を向上する。記載内容カテゴリには複数のカテゴリ候補がある場合もあり、その場合は、各記載内容カテゴリの候補に対応した表記知識辞書を用いて文字列認識を行い、その結果を尤度順に複数出力することになる。最後に、文字識別の結果得られたテキストコード、及び配置構造情報を用いて認識結果統合部の処理で、得られた認識結果群を確定する（０２０５）。以上が文字認識部のフローとなり、その処理結果は読取結果として上位の処理（０１０５）に戻される。

図３は、文書処理部の内部フローを示した図である。文書処理部の上位には文書表示・操作制御部（０１０５）がある。文書表示・操作制御部は文書画像を表示装置を通じてユーザに表示し、制御入力装置を通して当該文書の処理、画像データのコード化、文書検索、業務データ閲覧などを行う。その中で、文字認識が必要となる場合は、文字認識部（０１０６、詳細は０２０１〜０２０５に記述）に、認識するべき領域に関する情報を出力して、認識結果の入力を受け取る。更に、この認識結果を受けて検索や業務データ閲覧などの文書処理を行う場合は、文書処理部（０１０７）に必要なデータを入力して処理を任せる。文書処理部では上位より、文書画像、配置構造情報、認識結果、文書処理要求情報が入力される。文書画像は画像そのままのデータでなくとも、画像を一意的に特定するＩＤ番号でも良い。また文書処理要求情報とは、認識結果を用いて、どのような文書処理を行いたいのか、ユーザの要求を特定するために必要十分な情報を含んでいる。以上の入力を受けて、業務関連処理制御部が稼動する（０３０１）。

文書処理制御部は、ユーザの要求に応じて、文書データベースからの検索や業務データベースの検索などを行う。例えば認識した単語を含む文書を検索したいという場合、まず認識結果の不確定性・不安定性を吸収する曖昧性対応処理（０３０２）を行い、次に文書データベース（０３０４）の中に蓄えられたデータの中から、要求された文書検索を行う（０３０３）。また、認識した単語について付随するデータを検索したい場合（例えば医療関連文献であれば、同時に併用してはいけない薬品名などを知りたい場合）、先程と同様に認識結果の不確定性・不安定性を吸収する曖昧性対応処理（０３０５）を行った後に、認識したキーワードを元に業務データベース（０３０７）の中から必要な情報の検索を行う（０３０６）。以上の、文書検索、情報検索の結果は上位の文書処理制御部に戻され、ここから更に上位の文書表示・操作制御部（０１０５）へと、文書検索結果または情報検索結果として戻される。

図４は上述した文書処理装置の具体的な構成例を示したものである。図４上段の文書表示装置では、画像入力装置（０４０１）により紙文書を電子データに変換し、それを外部記憶装置（０４０４）及びメモリ（０４０５）に蓄えて、中央演算装置（０４０６）により読取を行う。中央演算装置（０４０６）では、図１から３に示す処理のうち、０１０１から０１０９までの処理、及び０２０１から０２０７までの処理、及び０３０１から０３０７までの処理を行う。図４に示すように文書処理装置が外部に存在する場合は、中央演算装置（０４０６）が、０１０１から０１０５までの文書画像関連処理を行う、または０１０５の表示・操作関連処理のみを行い、その他の処理を外部文書処理装置で分担することで、高速な文書処理機能を提供することが可能である。文書形式の定義などは外部記憶装置（０４０４）に蓄えられており、文書構造解析にはここに蓄えた定義を参照する。これらの処理は操作端末装置（０４０２）を通して人間が操作可能であり、処理結果等は表示端末装置（０４０３）を通して表示される。

処理結果や認識起動などのイベント情報は、必要に応じて外部記憶装置に蓄積または通信装置（０４０７）を通して外部装置にデータが送られる。ユーザは表示端末装置（０４０３）及び操作端末装置（０４０２）を通して、文書画像の閲覧及び業務処理を行う。業務処理の際に文字認識結果が必要となる場合は、当該箇所をマウスのクリックなどにより指定することで、文字認識プログラムが起動する。文字認識プログラムは外部記憶装置（０４０４）若しくはメモリ（０４０５）上に蓄えられており、ユーザの対話的な入力アクションによって動作する。これによりバッチ処理で必要となる大量の計算時間を削減し、小規模のシステム構成で文字認識機能を利用した文書画像処理が実現できる。上記装置群は内部バス（０４０８）によってつながれている。

図４下段の業務処理装置は、上記文書表示装置から出力された認識結果を用いて文書検索・業務データベース検索を行うものである。この業務処理装置は、通信装置（０４１３）及び外部記憶装置（０４１０）より認識結果を受け取り、これをメモリ（０４１１）にロードして、中央演算装置（０４１２）により文書の検索や、業務処置に必要なデータを検索し、その結果を文書表示装置に通信装置（０４１３）及び外部通信線（０４０９）を通して通知する。中央演算装置（０４１２）で行う処理は、図１から３に示す処理のうち、例えば０２０１から０２０７までの処理、及び０３０１から０３０７までの処理が該当する。また、中央演算装置（０４０６）が０１０５の表示・操作関連処理のみを専念的に行う場合は、上記に加えて０１０１から０１０４、および０１０６から０１０９の処理を中央演算装置（０４１２）が行う。これらの装置は内部バス（０４１４）によってつながれている。尚、この例では対話的な操作を行う文書表示装置と、業務データベースの検索を行う業務処理装置を分離して記しているが、これらが一体となった装置でも良い。

図５は、クリック認識のコンセプトを述べた図である。まず文書画像（ａ、０５０１）がある。ここでは医療関連文献を例とする。まず、この文書画像から文字列ブロックの抽出を行う（ｂ）。０５０２は抽出された罫線、０５０３は文字列ブロックを表す外接矩形である。次に、この文字列ブロックの配置情報を使って、配置構造解析を行う（ｃ）。この医療関連文献では、配置構造解析によって大きく４つのカテゴリに分類されている。０５０４はその中の１つのカテゴリを表している。この解析は一般に配置構造定義を用いて行う。ユーザクションで特定箇所をマウスなどでクリックした場合（０５０５）、配置構造解析情報を使って、クリックされた付近の文字列ブロックを、そのカテゴリに合わせた表記知識を使って認識するのがクリック認識である。配置構造解析が利用できない場合は、文字列ブロックを用いて認識するべき文字列を特定し、これに対して、汎用的な表記知識を用いた、または表記知識を用いない文字列認識を行うことになる。一般に、配置構造解析を利用すると、業務カテゴリに限定した表記知識を使えるため、文字列認識の誤不読を低減することが可能となる。

図６は、認識を起動するためのユーザの様々なアクション（ユーザインタフェース）を示した図である。認識指定インタフェース１（ａ）では、０６０１で示す箇所でのマウスのクリック、または電子ペンのタップ動作により認識を行うことを示す。認識指定インタフェース２（ｂ）では、マウスを横方向（０６０２に示すの方向）にドラッグまたは移動、または電子ペンを横方向にスライドすることにより、その横方向への移動量で指定された幅分の文字列（文字列ブロック）を認識する動作を示す。その際、動作のフィードバックとして、ＧＵＩ上に０６０３で示すような指定範囲を示す下線を表示する。認識指定インタフェース３（ｃ）では、同様にマウスまたは電子ペンを下方向にドラッグ・移動・スライドすることにより、指定した上下範囲内の行に属する文字列（または文字列ブロック）を認識する処理を示している。

認識指定インタフェース４（ｄ）は、マウスまたは電子ペンを斜め方向にドラッグ・スライドすることにより、矩形状に領域を括り、その中の文字列・文字列ブロックを認識する処理である。０６０５には、括った矩形領域をＧＵＩで表示している。認識指定インタフェース５（ｅ）は、マウスまたは電子ペンで丸囲みで領域を指定することにより、当該領域内または当該領域にほぼ重なる文字列ブロックを認識する処理を示している。０６０６は、括った領域をＧＵＩで表示する場合の表示線を表している。認識指定インタフェース６（ｆ）は、ジェスチャにより認識領域を指定する方法を示している。例えば０６０７に示すようなチェックマークで、当該マークが書かれた縦方向のすべての文字列ブロックを認識するとした場合、０６０８に示すような領域内が全て認識対象となる。これは、帳票認識において特定欄を全て認識するような場合に使うことができ、領域すべてを囲うための手間を省くことができる。これは配置情報を事前に解析されていることにより可能となるインタフェースである。

上記インタフェースによって指定された対象の認識結果は、その場でポップアップウィンドウで表示する、または業務データベースから検索した関連情報を表示するなどの手段により、文書処理システムのユーザにフィードバックされる。認識結果が複数ある場合は、例えばマウスや電子ペンの停留（停止）状態によって、時間毎に認識結果を違えて表示し、その中から正しい認識結果を選択する入力をしてもらう、あるいは業務データベースから検索した関連情報を複数の認識結果について並べて表示するなどのフィードバック方法が考えられる。

図７は、配置構造情報を利用して、同じアクションが認識モードの違いによって、異なる認識結果につながることを示した図である。ここでは配置構造情報（ａ）として、０７０１に示す４種類があるとする。配置構造解析が既に済んだ画像に対して、クリック認識による領域指定を行った場合（ｂ）、認識モードの指定を替えることによって、認識結果が変わる。例えば領域選択１（ｂ１）では、０７０７に示すように認識モードとして「Ｇｅｔ（Ｃｏｌｕｍｎ（ｘ）、Ｒｏｗ（ｘ））」と指定されている。この指定文の中のｘとはクリックされた当該箇所（０７０６の場所）を表す。また、Ｃｏｌｕｍｎとは当該箇所の列、Ｒｏｗは当該箇所の行を表し、Ｇｅｔにより引数に指定した箇所を取得・認識せよという指令文を構成している。この場合、図中の網がけ部分が選択され、認識に掛けられる。

また、領域選択２（ｂ２）では、０７０８に示すように、認識モードが「Ｇｅｔ（ＡＢＣＤ、Ｒｏｗ（ｘ））」と指定されている。これは列としてカテゴリＡ、Ｂ、Ｃ、Ｄを選択し、行としてクリックされた当該箇所の行を選択するという指定である。カテゴリＡ、Ｂ、Ｃ、Ｄは０７０１にある配置構造情報であり、各々が０７０２、０７０３、０７０４、０７０５に示される縦の系列が相当する。従って（ｂ２）では、網がけに示す領域が選択され、各々のブロック毎に認識が行われる。

また、領域選択３（ｂ３）では、０７０９に示すように、認識モードとして、クリック箇所の列と、全ての行が選択されている。従って、この場合、網がけに示すＢの系列（０７０３の部分）がすべて選択され、これらが認識対象となることを示している。同様に、クリックによる領域指定だけでなく、ドラッグ・スライドなどによる領域指定でも同じ動作が起こる（ｃ）。０７１０ではライン指定で２つのブロックを指定している。認識モードが０７１１に示すような場合は、指定した当該行群、当該列群が認識対象領域として選択されることを示している（ｃ１）。このような認識モードは、文書処理の業務形態に応じて、予め選択することができる。例えば、特定項目の縦計を行いたい場合は、認識モードとして０７０９を選んでおけば、簡単な操作で、ユーザの所望する項目の縦方向の認識が一括して行えることになる。
文字列表記解析処理と文字列仮説については、図８及び図９に概要がある。図８は文字列仮説と表記知識を使った文字列認識の流れを説明した図である。また、図９は、文字列仮説の概念とデータの詳細を示した図である。

図８を説明する。読取対象文字行（ａ）から、文字パタンと推定される部分を様々に切出して文字パタン候補を作り、各文字パタン候補を文字識別したものが、文字列仮説（ｂ）である。文字列仮説は、文字パタン候補、文字識別の結果得られた順位付けされた識別文字コード群、文字列仮説中での文字パタン候補間の接続関係の情報、を最低限持つものとする。このように文字列仮説はグラフ形式による表現で表され、それ故に候補文字ネットワークとも称される。次に文字列表記知識（ｃ）を使って、文字列仮説（候補文字ネットワーク）から文字列パス（ｄ）を計算する。文字列パスとは、一意的に確定した文字コード列（テキスト）と、各文字コードに対応する文字パタンの並びを意味する。この例では文字列表記知識をＯＲ記号（｜）で単語を並べて表現している。すなわち、記号｜の間に挟まれた単語群が表記知識として指定されたことを意味する。文字列表記知識を表現するとしては、この表現以外にもトライ、文脈自由文法などを使った方法がある（特開２００１−０１４３１１号公報（特許文献５）等に記載）。

文字列仮説（候補文字ネットワーク）の詳細は図９にある。文字列仮説は、文字パタンの候補をアーク（０９０１）とし、文字パタンの境界をノード（０９０２）とする有向グラフとして表現される。各文字パタンには、左右（縦書きであれば上下）のノード（パタン境界）を表す境界ＩＤ番号と、文字識別候補（０９０３）及び識別類似度（０９０４）の情報が含まれる。知識処理は、この文字列仮説と文字列表記知識を入力として、文字列仮説に含まれ得る単語とそのパタン列を見つける処理である。例えば文字列表記知識にある「血液化学検査」という単語は、図３（ｂ）の文字列仮説中に、丸で示される文字コード及び文字パタン（０９０５）を辿ることで見つけることができる。当該欄に書かれる文字列の表記が事前に定まっている場合、本処理を行うことで文字列コードが確定する。

以上に述べた処理により、文書処理業務において文字認識処理を対話的に起動し、文書処理において必要となる部分のみに限定してテキスト化するため処理時間の軽減を図ることができる。また、文書に記された文字列の二次元的な配置構造を解析することで、認識対象として指示された文字列の記載内容のカテゴリ（年月日か、金額数字か、業務単語か、等）を推定し、これに合致する表記知識を用いて文字列認識を行うことで認識精度向上を図ることが可能となる。

クリック認識を用いた文書処理フロー図。文字認識部の処理フロー図。文書処理部の処理フロー図。文書表示装置と文書処理装置の構成例。配置構造解析を用いたクリック認識の概念図。クリック認識のインタフェース。クリック認識範囲のモード指定。文字列仮説を使った表記知識処理の概念図。文字列仮説の概念図。

符号の説明

０１０１…画像入力部、０１０２…文書構造解析部、０１０３…文字行・文字ブロック抽出部、０１０４…配置構造解析部、０１０５…文書表示・操作制御部、０１０６…文字認識部、０１０７…文書処理部、０１０８…文書構造辞書、０１０９…配置構造定義、０１１０…表示装置、０１１１…キーボード、０１１２…マウス、０１１３…電子ペン、
０２０１…認識対象領域（文字列ブロック群）選択部、０２０２…文字切出部、０２０３…文字識別部、０２０４…表記解析部、０２０５…認識結果統合部、０２０６…文字識別辞書、０２０７…表記知識辞書、
０３０１…業務関連処理制御部、０３０２…曖昧性対応部、０３０３…文書検索部、０３０４…文書データベース、０３０５…曖昧性対応部、０３０６…情報検索部、０３０７…業務データベース、
０４０１…文書表示装置における画像入力装置、０４０２…文書表示装置における操作端末装置、０４０３…文書表示装置における表示端末装置、０４０４…文書表示装置における外部記憶装置、０４０５…文書表示装置におけるメモリ、０４０６…文書表示装置における中央演算装置、０４０７…文書表示装置における通信装置、０４０８…文書表示装置における内部バス、０４０９…データ通信線、０４１０…業務処理装置における外部記憶装置、０４１１…業務処理装置におけるメモリ、０４１２…業務処理装置における中央演算装置、０４１３…業務処理装置における通信装置、０４１４…業務処理装置における内部バス、
０５０１…処理対象とする文書画像の例、０５０２…文書画像から抽出された罫線、０５０３…文書画像から抽出された文字列ブロック、０５０４…配置構造解析の結果タグが付けられた文字列ブロック、０５０５…マウス・電子ペン等のカーソル、０５０６…クリック認識の結果、
０６０１…マウス・電子ペン等のカーソル、０６０２…カーソルの動きを表す矢印、０６０３…選択領域をＧＵＩで表示した横線、０６０４…選択領域をＧＵＩで表示した縦線、０６０５…選択領域をＧＵＩで外接矩形として表示した囲み線、０６０６…選択領域をＧＵＩで丸として表示した囲み線、０６０７…ジェスチャを行った場合の動線、０６０８…ジェスチャの結果選択された領域を示す囲み線、
０７０１…配置構造情報、０７０２…配置構造情報のＡカテゴリ、０７０３…配置構造情報のＢカテゴリ、０７０４…配置構造情報のＣカテゴリ、０７０５…配置構造情報のＤカテゴリ、０７０６…カーソルの動き（当該場所でクリック）、０７０７…認識モード指定とカーソルのクリック位置による領域選択１、０７０８…認識モード指定とカーソルのクリック位置による領域選択２、０７０９…認識モード指定とカーソルのクリック位置による領域選択３、０７１０…カーソルの動き（当該場所でのドラッグ・ライン）、０７１１…認識モード指定とカーソルのドラッグ・ライン位置による領域選択、
０９０１…切り出された文字パタン及び識別候補（グラフアーク）、０９０２…文字切出の境界（グラフノード）、０９０３…文字識別候補群、０９０４…文字識別候補に対応する識別類似度群、０９０５…知識処理の結果選択された文字識別候補。

Claims

文字が記載された文書画像の入力を受付ける画像入力装置と、中央演算装置と、配置構造定義および記載内容カテゴリに対応して用意される表記知識を保持する記憶装置と、表示デバイスとユーザ入力デバイスとを有する操作端末装置と、通信装置とを備えた対話型の文書処理装置であって、上記中央演算装置では、入力された文書画像から複数の文字列ブロックを抽出し、各文字列ブロックの文書上における二次元的な配置構造を解析して該配置構造をもとに上記配置構造定義を参照することで該文字列ブロックの記載内容を表す記載内容カテゴリを推定し、更に上記操作端末装置の入力部において上記対話型文書処理装置の利用者から認識処理の起動を指示する操作の入力を受けた場合に、指定対象である文字列ブロックを選択し、該文字列ブロックより文字の切出候補を抽出し、さらに上記文字切出候補を文字識別し、該文字識別結果および該文字切出候補に対して、上記に選択した該文字列ブロックに対応する記載内容カテゴリに関連する表記知識を参照して該文字列ブロックの認識を行うことを特徴とする文書処理装置であって、
上記中央演算装置ではさらに、マウス、電子ペン、及びタッチパッドなどのユーザ入力デバイスと、および、ブラウン管ディスプレイ、液晶ディスプレイ、携帯表示端末などの表示デバイスから成る上記表示操作端末装置を通して、カーソル移動、クリック、ドラッグ、ジェスチャ等のイベントを認識処理の起動指示として受理し、更に上記記憶装置に記憶された認識モードの指定状況によって、認識対象とする文字列ブロックの選択方法の切り替えを行い、選択された該文字列ブロックに対応する表記知識を該文字列ブロックの記載内容カテゴリに応じて切り替えて文字列の認識を行い、上記表示デバイスによる読取結果の出力形式を上記認識モードに応じて切り替えることを特徴とする文書処理装置。
文字が記載された文書画像の入力を受付ける画像入力装置と、中央演算装置と、配置構造定義および記載内容カテゴリに対応して用意される表記知識を保持する記憶装置と、表示デバイスとユーザ入力デバイスとを有する操作端末装置と、通信装置とを備えた対話型の文書処理装置であって、上記中央演算装置では、入力された文書画像から複数の文字列ブロックを抽出し、各文字列ブロックの文書上における二次元的な配置構造を解析して該配置構造をもとに上記配置構造定義を参照することで該文字列ブロックの記載内容を表す記載内容カテゴリを推定し、更に上記操作端末装置の入力部において上記対話型文書処理装置の利用者から認識処理の起動を指示する操作の入力を受けた場合に、指定対象である文字列ブロックを選択し、該文字列ブロックより文字の切出候補を抽出し、さらに上記文字切出候補を文字識別し、該文字識別結果および該文字切出候補に対して、上記に選択した該文字列ブロックに対応する記載内容カテゴリに関連する表記知識を参照して該文字列ブロックの認識を行うことを特徴とする文書処理装置であって、
上記中央演算装置ではさらに、上記文字列ブロックの記載内容の推定により記載内容カテゴリの候補を複数列挙し、該記載内容カテゴリの尤度を計算し、上記文字切出候補を抽出し、上記文字識別により文字識別結果及び当該識別結果の類似度の計算を行い、推定された該文字列ブロックの該記載内容カテゴリの尤度、および該文字識別結果の類似度、及び該記載内容カテゴリに対応する表記知識を適用することにより得られた文字列ブロックの読取結果であるテキストを併せて文字列ブロックの読取結果とし、該文字列ブロックの該読取結果を尤度の順に整列し、複数の読取結果として上記記憶装置に記憶する、もしくは上記通信装置を通して別の文書処理装置に読取結果をデータ送付することを特徴とする文書処理装置。