JP4466241B2 - 文書処理手法及び文書処理装置 - Google Patents

文書処理手法及び文書処理装置 Download PDF

Info

Publication number
JP4466241B2
JP4466241B2 JP2004205361A JP2004205361A JP4466241B2 JP 4466241 B2 JP4466241 B2 JP 4466241B2 JP 2004205361 A JP2004205361 A JP 2004205361A JP 2004205361 A JP2004205361 A JP 2004205361A JP 4466241 B2 JP4466241 B2 JP 4466241B2
Authority
JP
Japan
Prior art keywords
character string
character
document
recognition
string block
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004205361A
Other languages
English (en)
Other versions
JP2006031129A (ja
Inventor
健 永崎
真理子 山本
勝美 丸川
裕之 栗山
茂之 藤原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2004205361A priority Critical patent/JP4466241B2/ja
Publication of JP2006031129A publication Critical patent/JP2006031129A/ja
Application granted granted Critical
Publication of JP4466241B2 publication Critical patent/JP4466241B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、文字認識を用いた対話的文書処理手法及び文書処理プログラムを記録した記録媒体に関する。
コンピュータによるデジタル情報技術が普及した現在でも、紙文書は情報伝達の媒体として広く使われている。このため多量の紙文書を対象とした文書処理を効率良く行いたいという要求は社会的に根強いが、紙文書はデジタル文書に比べて参照・検索・改変の処理に時間を要するという問題がある。特に、許認可や点検に関する文書処理業務においては、申請書の記載内容に関する業務ノウハウを素早く検索できることや、必要な情報だけを手早くデジタルデータ化することが、業務効率を上げる意味で重要である。これらの問題を解決するために、紙文書処理のための様々な手法が提案されている。
デジタル文書と同等の文書処理を紙文書で実現するための手段としては、OCR(光学的読取装置)を用いて紙文書を認識し、紙文書の記載内容をすべてデジタルデータ化するというバッチ的業務処理が一般的である。あらかじめOCRによって紙文書を全てデジタルデータ(テキスト)に変換しておけば、以降の処理ではテキストを使って関連業務ノウハウを検索する、またはテキストをコード化することで、上述した文書処理業務が効率良く遂行できる。しかし、一般にOCRで変換されたテキストには誤りが含まれるため、単純なバッチ的読取処理だけでは対処できないケースが生じる。
上記課題の対応策の一つは認識精度の向上、特に文字列の表記知識を用いた精度向上がある。一般に、文字列認識における文字切出及び文字認識の不確定さを補い、文字列画像を文字列テキストに変換するために、文字列表記解析処理は広く利用されている。そのアルゴリズムとしては形態素解析を用いたものや、RTN照合(再帰遷移ネットワーク照合)、上昇型構文解析アルゴリズムを用いたものが一般的である。
例えば、特開平05−108891号公報(特許文献1)では、OCRの読取精度を向上する手段としてOCRの認識結果に形態素解析を適用する手法が記されている。形態素解析等の知識処理を行うことで誤読を訂正することは可能であるが、通常の形態素解析で用いる辞書は新聞等の一般文章を対象としており、特殊な業務用途の文書を精度良く校正するためには、その分野に適合した特殊辞書を追加定義する必要がある。このため保守性や計算量の面で問題が残る。更には、形態素解析という幅広い表記知識を対象とするため、表記知識の解析に時間が掛ったり、また表記解析において膨大な記憶容量を必要とするという問題がある。
また、特開2002−117374号公報(特許文献2)では、手書き数字列に対して上昇型構文解析を使った文字列表記解析処理が提案されている。一般に上昇型構文解析は下降型構文解析に比べて計算量が削減できるとされており、数字列等の表記が単純な規則で表現できるものに対して多く適用されている。しかし、文字列認識において起こり得る文字の誤不読、ノイズ混入等の問題に対してのロバスト性には、そのアルゴリズムが最適性を保証するものではないため、限界がある。また、OCRによって変換されたテキストコードを人手で修正し、その修正結果に対して検索を行うことも可能である。しかし、人間が介在しての修正は、その処理速度及びコストの面から実用的とは言い難い。たとえ人手による修正を省いたとしても、数百万もの紙文書をOCRによってテキスト化することは、処理時間やシステム構築コストが膨大に掛る処理である。
一方、文字認識を対話的に行う文書処理では、文書処理システムの利用者が認識したい対象である文字列を、部分的に指定してテキスト化するため処理時間の軽減を図ることができる。そのため大規模なシステム構築が不要となる。本発明で提案する手法は、対話的に文字認識を行う処理に基づく文書処理手法であり、かつ文書に記された文字列の配置構造を解析することで、認識対象として指示された文字列の記載内容のカテゴリ(年月日か、金額数字か、業務単語か、等)を推定し、これに合致する表記知識を用いて文字列を読み取ることで認識精度の向上を図る。
特開平05−108891号公報
特開2002−117374号公報 特開平09−319824号公報 特開2000−251012号公報 特開2001−014311号公報
本発明の目的は、文書画像を画面上に表示して処理を行う文書処理装置において、利用者の対話的な操作を元に文字認識を行い、その結果を元に業務データベース中から関連する項目を検索して表示する文書処理システム、または当該文書のデータ化を行う文書処理システム、その装置及び文書処理プログラムを記録した記録媒体を提供することにある。
従来の手法では、OCR装置を用いてバッチ処理で文書画像群を一括してテキストに変換し、これに対して文書処理業務を行っていたが、文書画像を全面で読み取ることによる処理時間の増大や、文書−図版−罫線混在に起因するOCRの文字行抽出誤りや、該文書画像に適した汎用的な表記知識を整備することの難しさによる読取精度低下に対処することが困難であった。本発明の目的は、OCR読取に起因する処理時間増大、及びOCR読取誤りが文書処理業務に与える悪影響を回避する方法を提案することである。
上記の目的を達成するため、本発明は、文書表示・操作装置において利用者の対話的な操作に応じて、文字認識処理を要求のあった時点で起動し、必要な部分のみを即時に認識し、当該認識結果を用いた業務データベースからの情報検索及び処理対象文書の部分的なデータ化を行うシステムを提供する。また、処理対象である文書画像から、文字列ブロックを抽出し、その二次元的配置構造を解析することで、当該文字列ブロックの記載内容カテゴリ(年月日か、金額数字か、業務単語か、等)を推定し、利用者の対話的操作によって、認識対象である文字列ブロックを選択し、推定された当該文字列ブロックの記載内容カテゴリに応じて、表記知識を切り替えて文字列を読取ることで、読取精度を向上する機構を提供する。
従来の手法では、OCR装置を用いたバッチ処理により紙文書群及び文書画像群を一括してテキストに変換し、これに対して文書処理業務を行っていたが、文書画像を全面で読み取ることによる処理時間の増大や、文書−図版−罫線混在に起因するOCRの文字行抽出の誤りや、該文書画像に適した汎用的な表記知識を整備することの困難さによる読取精度低下に対処することが困難であった。一方、本発明によれば、文書処理業務において文字認識処理を対話的に起動し、文書処理において必要となる部分のみに限定してテキスト化するため処理時間の軽減を図ることができる。また、文書に記された文字列の二次元的な配置構造を解析することで、認識対象として指示された文字列の記載内容のカテゴリ(年月日か、金額数字か、業務単語か、等)を推定し、これに合致する表記知識を用いて文字列認識を行うことで認識精度向上を図ることが可能となる。
始めに、図1をもとにクリック認識を用いた文書処理のフローの概説する。本発明の実施例である文書処理装置では、OCR装置、スキャナ装置、文書カメラ等を用いて紙文書を撮像して、これを電子画像データに変換した文書画像を扱う。まず始めに、処理対象とする文書画像を外部記憶装置や通信線を通して外部装置からデータを読み込む(0101)。次に、文書画像データから罫線抽出、枠構造解析、読取対象枠の位置推定等の文書構造解析を行う(0102)。このとき使う認識処理には公知技術(特開平09−319824号公報(特許文献3)、特開2000−251012号公報(特許文献4)等)を利用する。一般に文書構造解析を行うためには、対象とする文書の枠配置情報などを記憶した文書構造辞書を使用する(0108)。この文書構造辞書は一般に外部記憶装置に記憶されている。文書構造解析では、メモリ若しくは外部記憶装置に記録された、文書画像データ及び文書構造辞書を入力とし、罫線の位置情報と、枠の配置情報と、推定された枠の属性情報とを組にして、メモリ若しくは外部記憶装置へと出力する。
次に、文書構造解析の結果を受けて、認識対象候補である文字列ブロックを抽出する(0103)。一般に文字列ブロックとは、空白などの切れ目が無く、意味的に同一のまとまりを表すと思われる文字の塊を意味し、例えば単語の塊が文字列ブロックに該当する。文字列ブロックが複数集まって文字行が構成される。次に、抽出した文字列ブロック情報から、その二次元的な配置構造を解析することで、当該文字列ブロックがどのような属性を持つかを推定する。二次元的な配置構造とは、文字列ブロックの文書画像中における位置、サイズ、上下左右に存在する罫線の情報、及び文字列ブロック相互間の配置関係情報などである。これを配置構造解析と称し(0104)、文字列ブロックの属性のことを記載内容カテゴリとも称する。この記載内容カテゴリには、例えば、年月日文字列、金額文字列、ID数字文字列、一般単語文字列等の分類がある。一般に配置構造解析では、外部記憶装置に蓄えられた配置構造定義情報を使う(0109)。配置構造定義情報には、文書種別ごとに、二次元的な配置構造の情報と、その配置構造をもつ文字列ブロックの記載内容カテゴリとが対応付けられて記憶されている。配置構造情報には、例えば座標情報、サイズ情報、属性情報、上下や左右などの隣接関係を表す情報、記載内容カテゴリ情報などの情報が少なくとも含まれる。
ここまでで説明した処理は、以下の手順においてユーザが選択する領域・認識モードなどに基づく認識処理のいわば前処理であり、ユーザが選択する可能性のある領域全体に対して非選択的に行われる。
以上述べた、文書構造解析、文字列ブロック抽出、配置構造解析が終了した後に、当該文書画像を表示装置(0110)を通じて文書処理システムのユーザに表示する。ユーザは、キーボード(0111)、マウス(0112)、電子ペン(0113)、あるいはタッチパッド(0110)などの情報入力装置を通して、当該文書に対する業務処理(検索、点検、データ登録)を行う。人間との対話的な処理を行い、文書処理や文字認識処理との仲介をするのが文書表示・操作制御部(0105)である。文書表示・操作制御部では、マウスクリック、ペンドラッグ、カーソル移動などのイベント(ユーザアクション)に応じて、当該文書の必要な箇所の文字認識(0106)、並びに業務データベース検索と結果表示などの文書処理(0107)を行う。文字認識部(0106)については図2に、文書処理部(0107)については図3で説明する。
図2は文字認識部の内部フローを示した図である。文字認識部の上位には文書表示・操作制御部(0105)があり、ここから文書画像、配置構造情報、認識要求情報が出力される。認識要求情報とは、認識をどのようなモードで行うか等を記したデータである。次に、これらの入力データを元に画像領域選択部で、認識対象となる領域(文字列ブロック群)を確定する(0201)。次に確定した認識領域内の文字行について、文字切出を行う(0202)。更に、切り出された各文字パタンについて識別を行う(0203)。この結果、図8、図9で後述するような候補文字ネットワークが得られる。候補文字ネットワークとは、認識対象となる文字行画像を、文字パタン及びその識別結果をエッジとし、文字パタンの切断点をノードとする有向グラフとして表したものである。文字識別部では一般に外部記憶装置またはメモリ上に蓄えられた文字識別辞書(0206)を用いて、文字パタンの識別を行う。次に、文字切出部(0202)と文字識別部(0203)の処理の結果として得られた候補文字ネットワークについて表記解析を行う(0204)。表記解析では一般に、外部記憶装置またはメモリ上に蓄えられた表記知識辞書(0207)を用いて、当該文字列がどのような単語で構成されるか、単語の並びはどうかなどを確かめて、候補文字ネットワークからテキストである文字列を確定する。
このとき上位の文書表示・操作制御部(0105)から入力された配置構造情報に含まれる、認識対象となった文字列ブロックの記載内容カテゴリ情報を用いて、表記知識辞書(0207)の切り替えを行う。表記知識辞書は、それぞれの記載内容カテゴリに対応して用意されるものとする。これにより、当該文字列ブロックの文字列認識精度を向上する。記載内容カテゴリには複数のカテゴリ候補がある場合もあり、その場合は、各記載内容カテゴリの候補に対応した表記知識辞書を用いて文字列認識を行い、その結果を尤度順に複数出力することになる。最後に、文字識別の結果得られたテキストコード、及び配置構造情報を用いて認識結果統合部の処理で、得られた認識結果群を確定する(0205)。以上が文字認識部のフローとなり、その処理結果は読取結果として上位の処理(0105)に戻される。
図3は、文書処理部の内部フローを示した図である。文書処理部の上位には文書表示・操作制御部(0105)がある。文書表示・操作制御部は文書画像を表示装置を通じてユーザに表示し、制御入力装置を通して当該文書の処理、画像データのコード化、文書検索、業務データ閲覧などを行う。その中で、文字認識が必要となる場合は、文字認識部(0106、詳細は0201〜0205に記述)に、認識するべき領域に関する情報を出力して、認識結果の入力を受け取る。更に、この認識結果を受けて検索や業務データ閲覧などの文書処理を行う場合は、文書処理部(0107)に必要なデータを入力して処理を任せる。文書処理部では上位より、文書画像、配置構造情報、認識結果、文書処理要求情報が入力される。文書画像は画像そのままのデータでなくとも、画像を一意的に特定するID番号でも良い。また文書処理要求情報とは、認識結果を用いて、どのような文書処理を行いたいのか、ユーザの要求を特定するために必要十分な情報を含んでいる。以上の入力を受けて、業務関連処理制御部が稼動する(0301)。
文書処理制御部は、ユーザの要求に応じて、文書データベースからの検索や業務データベースの検索などを行う。例えば認識した単語を含む文書を検索したいという場合、まず認識結果の不確定性・不安定性を吸収する曖昧性対応処理(0302)を行い、次に文書データベース(0304)の中に蓄えられたデータの中から、要求された文書検索を行う(0303)。また、認識した単語について付随するデータを検索したい場合(例えば医療関連文献であれば、同時に併用してはいけない薬品名などを知りたい場合)、先程と同様に認識結果の不確定性・不安定性を吸収する曖昧性対応処理(0305)を行った後に、認識したキーワードを元に業務データベース(0307)の中から必要な情報の検索を行う(0306)。以上の、文書検索、情報検索の結果は上位の文書処理制御部に戻され、ここから更に上位の文書表示・操作制御部(0105)へと、文書検索結果または情報検索結果として戻される。
図4は上述した文書処理装置の具体的な構成例を示したものである。図4上段の文書表示装置では、画像入力装置(0401)により紙文書を電子データに変換し、それを外部記憶装置(0404)及びメモリ(0405)に蓄えて、中央演算装置(0406)により読取を行う。中央演算装置(0406)では、図1から3に示す処理のうち、0101から0109までの処理、及び0201から0207までの処理、及び0301から0307までの処理を行う。図4に示すように文書処理装置が外部に存在する場合は、中央演算装置(0406)が、0101から0105までの文書画像関連処理を行う、または0105の表示・操作関連処理のみを行い、その他の処理を外部文書処理装置で分担することで、高速な文書処理機能を提供することが可能である。文書形式の定義などは外部記憶装置(0404)に蓄えられており、文書構造解析にはここに蓄えた定義を参照する。これらの処理は操作端末装置(0402)を通して人間が操作可能であり、処理結果等は表示端末装置(0403)を通して表示される。
処理結果や認識起動などのイベント情報は、必要に応じて外部記憶装置に蓄積または通信装置(0407)を通して外部装置にデータが送られる。ユーザは表示端末装置(0403)及び操作端末装置(0402)を通して、文書画像の閲覧及び業務処理を行う。業務処理の際に文字認識結果が必要となる場合は、当該箇所をマウスのクリックなどにより指定することで、文字認識プログラムが起動する。文字認識プログラムは外部記憶装置(0404)若しくはメモリ(0405)上に蓄えられており、ユーザの対話的な入力アクションによって動作する。これによりバッチ処理で必要となる大量の計算時間を削減し、小規模のシステム構成で文字認識機能を利用した文書画像処理が実現できる。上記装置群は内部バス(0408)によってつながれている。
図4下段の業務処理装置は、上記文書表示装置から出力された認識結果を用いて文書検索・業務データベース検索を行うものである。この業務処理装置は、通信装置(0413)及び外部記憶装置(0410)より認識結果を受け取り、これをメモリ(0411)にロードして、中央演算装置(0412)により文書の検索や、業務処置に必要なデータを検索し、その結果を文書表示装置に通信装置(0413)及び外部通信線(0409)を通して通知する。中央演算装置(0412)で行う処理は、図1から3に示す処理のうち、例えば0201から0207までの処理、及び0301から0307までの処理が該当する。また、中央演算装置(0406)が0105の表示・操作関連処理のみを専念的に行う場合は、上記に加えて0101から0104、および0106から0109の処理を中央演算装置(0412)が行う。これらの装置は内部バス(0414)によってつながれている。尚、この例では対話的な操作を行う文書表示装置と、業務データベースの検索を行う業務処理装置を分離して記しているが、これらが一体となった装置でも良い。
図5は、クリック認識のコンセプトを述べた図である。まず文書画像(a、0501)がある。ここでは医療関連文献を例とする。まず、この文書画像から文字列ブロックの抽出を行う(b)。0502は抽出された罫線、0503は文字列ブロックを表す外接矩形である。次に、この文字列ブロックの配置情報を使って、配置構造解析を行う(c)。この医療関連文献では、配置構造解析によって大きく4つのカテゴリに分類されている。0504はその中の1つのカテゴリを表している。この解析は一般に配置構造定義を用いて行う。ユーザクションで特定箇所をマウスなどでクリックした場合(0505)、配置構造解析情報を使って、クリックされた付近の文字列ブロックを、そのカテゴリに合わせた表記知識を使って認識するのがクリック認識である。配置構造解析が利用できない場合は、文字列ブロックを用いて認識するべき文字列を特定し、これに対して、汎用的な表記知識を用いた、または表記知識を用いない文字列認識を行うことになる。一般に、配置構造解析を利用すると、業務カテゴリに限定した表記知識を使えるため、文字列認識の誤不読を低減することが可能となる。
図6は、認識を起動するためのユーザの様々なアクション(ユーザインタフェース)を示した図である。認識指定インタフェース1(a)では、0601で示す箇所でのマウスのクリック、または電子ペンのタップ動作により認識を行うことを示す。認識指定インタフェース2(b)では、マウスを横方向(0602に示すの方向)にドラッグまたは移動、または電子ペンを横方向にスライドすることにより、その横方向への移動量で指定された幅分の文字列(文字列ブロック)を認識する動作を示す。その際、動作のフィードバックとして、GUI上に0603で示すような指定範囲を示す下線を表示する。認識指定インタフェース3(c)では、同様にマウスまたは電子ペンを下方向にドラッグ・移動・スライドすることにより、指定した上下範囲内の行に属する文字列(または文字列ブロック)を認識する処理を示している。
認識指定インタフェース4(d)は、マウスまたは電子ペンを斜め方向にドラッグ・スライドすることにより、矩形状に領域を括り、その中の文字列・文字列ブロックを認識する処理である。0605には、括った矩形領域をGUIで表示している。認識指定インタフェース5(e)は、マウスまたは電子ペンで丸囲みで領域を指定することにより、当該領域内または当該領域にほぼ重なる文字列ブロックを認識する処理を示している。0606は、括った領域をGUIで表示する場合の表示線を表している。認識指定インタフェース6(f)は、ジェスチャにより認識領域を指定する方法を示している。例えば0607に示すようなチェックマークで、当該マークが書かれた縦方向のすべての文字列ブロックを認識するとした場合、0608に示すような領域内が全て認識対象となる。これは、帳票認識において特定欄を全て認識するような場合に使うことができ、領域すべてを囲うための手間を省くことができる。これは配置情報を事前に解析されていることにより可能となるインタフェースである。
上記インタフェースによって指定された対象の認識結果は、その場でポップアップウィンドウで表示する、または業務データベースから検索した関連情報を表示するなどの手段により、文書処理システムのユーザにフィードバックされる。認識結果が複数ある場合は、例えばマウスや電子ペンの停留(停止)状態によって、時間毎に認識結果を違えて表示し、その中から正しい認識結果を選択する入力をしてもらう、あるいは業務データベースから検索した関連情報を複数の認識結果について並べて表示するなどのフィードバック方法が考えられる。
図7は、配置構造情報を利用して、同じアクションが認識モードの違いによって、異なる認識結果につながることを示した図である。ここでは配置構造情報(a)として、0701に示す4種類があるとする。配置構造解析が既に済んだ画像に対して、クリック認識による領域指定を行った場合(b)、認識モードの指定を替えることによって、認識結果が変わる。例えば領域選択1(b1)では、0707に示すように認識モードとして「Get(Column(x)、Row(x))」と指定されている。この指定文の中のxとはクリックされた当該箇所(0706の場所)を表す。また、Columnとは当該箇所の列、Rowは当該箇所の行を表し、Getにより引数に指定した箇所を取得・認識せよという指令文を構成している。この場合、図中の網がけ部分が選択され、認識に掛けられる。
また、領域選択2(b2)では、0708に示すように、認識モードが「Get(ABCD、Row(x))」と指定されている。これは列としてカテゴリA、B、C、Dを選択し、行としてクリックされた当該箇所の行を選択するという指定である。カテゴリA、B、C、Dは0701にある配置構造情報であり、各々が0702、0703、0704、0705に示される縦の系列が相当する。従って(b2)では、網がけに示す領域が選択され、各々のブロック毎に認識が行われる。
また、領域選択3(b3)では、0709に示すように、認識モードとして、クリック箇所の列と、全ての行が選択されている。従って、この場合、網がけに示すBの系列(0703の部分)がすべて選択され、これらが認識対象となることを示している。同様に、クリックによる領域指定だけでなく、ドラッグ・スライドなどによる領域指定でも同じ動作が起こる(c)。0710ではライン指定で2つのブロックを指定している。認識モードが0711に示すような場合は、指定した当該行群、当該列群が認識対象領域として選択されることを示している(c1)。このような認識モードは、文書処理の業務形態に応じて、予め選択することができる。例えば、特定項目の縦計を行いたい場合は、認識モードとして0709を選んでおけば、簡単な操作で、ユーザの所望する項目の縦方向の認識が一括して行えることになる。
文字列表記解析処理と文字列仮説については、図8及び図9に概要がある。図8は文字列仮説と表記知識を使った文字列認識の流れを説明した図である。また、図9は、文字列仮説の概念とデータの詳細を示した図である。
図8を説明する。読取対象文字行(a)から、文字パタンと推定される部分を様々に切出して文字パタン候補を作り、各文字パタン候補を文字識別したものが、文字列仮説(b)である。文字列仮説は、文字パタン候補、文字識別の結果得られた順位付けされた識別文字コード群、文字列仮説中での文字パタン候補間の接続関係の情報、を最低限持つものとする。このように文字列仮説はグラフ形式による表現で表され、それ故に候補文字ネットワークとも称される。次に文字列表記知識(c)を使って、文字列仮説(候補文字ネットワーク)から文字列パス(d)を計算する。文字列パスとは、一意的に確定した文字コード列(テキスト)と、各文字コードに対応する文字パタンの並びを意味する。この例では文字列表記知識をOR記号(|)で単語を並べて表現している。すなわち、記号|の間に挟まれた単語群が表記知識として指定されたことを意味する。文字列表記知識を表現するとしては、この表現以外にもトライ、文脈自由文法などを使った方法がある(特開2001−014311号公報(特許文献5)等に記載)。
文字列仮説(候補文字ネットワーク)の詳細は図9にある。文字列仮説は、文字パタンの候補をアーク(0901)とし、文字パタンの境界をノード(0902)とする有向グラフとして表現される。各文字パタンには、左右(縦書きであれば上下)のノード(パタン境界)を表す境界ID番号と、文字識別候補(0903)及び識別類似度(0904)の情報が含まれる。知識処理は、この文字列仮説と文字列表記知識を入力として、文字列仮説に含まれ得る単語とそのパタン列を見つける処理である。例えば文字列表記知識にある「血液化学検査」という単語は、図3(b)の文字列仮説中に、丸で示される文字コード及び文字パタン(0905)を辿ることで見つけることができる。当該欄に書かれる文字列の表記が事前に定まっている場合、本処理を行うことで文字列コードが確定する。
以上に述べた処理により、文書処理業務において文字認識処理を対話的に起動し、文書処理において必要となる部分のみに限定してテキスト化するため処理時間の軽減を図ることができる。また、文書に記された文字列の二次元的な配置構造を解析することで、認識対象として指示された文字列の記載内容のカテゴリ(年月日か、金額数字か、業務単語か、等)を推定し、これに合致する表記知識を用いて文字列認識を行うことで認識精度向上を図ることが可能となる。
クリック認識を用いた文書処理フロー図。 文字認識部の処理フロー図。 文書処理部の処理フロー図。 文書表示装置と文書処理装置の構成例。 配置構造解析を用いたクリック認識の概念図。 クリック認識のインタフェース。 クリック認識範囲のモード指定。 文字列仮説を使った表記知識処理の概念図。 文字列仮説の概念図。
符号の説明
0101…画像入力部、0102…文書構造解析部、0103…文字行・文字ブロック抽出部、0104…配置構造解析部、0105…文書表示・操作制御部、0106…文字認識部、0107…文書処理部、0108…文書構造辞書、0109…配置構造定義、0110…表示装置、0111…キーボード、0112…マウス、0113…電子ペン、
0201…認識対象領域(文字列ブロック群)選択部、0202…文字切出部、0203…文字識別部、0204…表記解析部、0205…認識結果統合部、0206…文字識別辞書、0207…表記知識辞書、
0301…業務関連処理制御部、0302…曖昧性対応部、0303…文書検索部、0304…文書データベース、0305…曖昧性対応部、0306…情報検索部、0307…業務データベース、
0401…文書表示装置における画像入力装置、0402…文書表示装置における操作端末装置、0403…文書表示装置における表示端末装置、0404…文書表示装置における外部記憶装置、0405…文書表示装置におけるメモリ、0406…文書表示装置における中央演算装置、0407…文書表示装置における通信装置、0408…文書表示装置における内部バス、0409…データ通信線、0410…業務処理装置における外部記憶装置、0411…業務処理装置におけるメモリ、0412…業務処理装置における中央演算装置、0413…業務処理装置における通信装置、0414…業務処理装置における内部バス、
0501…処理対象とする文書画像の例、0502…文書画像から抽出された罫線、0503…文書画像から抽出された文字列ブロック、0504…配置構造解析の結果タグが付けられた文字列ブロック、0505…マウス・電子ペン等のカーソル、0506…クリック認識の結果、
0601…マウス・電子ペン等のカーソル、0602…カーソルの動きを表す矢印、0603…選択領域をGUIで表示した横線、0604…選択領域をGUIで表示した縦線、0605…選択領域をGUIで外接矩形として表示した囲み線、0606…選択領域をGUIで丸として表示した囲み線、0607…ジェスチャを行った場合の動線、0608…ジェスチャの結果選択された領域を示す囲み線、
0701…配置構造情報、0702…配置構造情報のAカテゴリ、0703…配置構造情報のBカテゴリ、0704…配置構造情報のCカテゴリ、0705…配置構造情報のDカテゴリ、0706…カーソルの動き(当該場所でクリック)、0707…認識モード指定とカーソルのクリック位置による領域選択1、0708…認識モード指定とカーソルのクリック位置による領域選択2、0709…認識モード指定とカーソルのクリック位置による領域選択3、0710…カーソルの動き(当該場所でのドラッグ・ライン)、0711…認識モード指定とカーソルのドラッグ・ライン位置による領域選択、
0901…切り出された文字パタン及び識別候補(グラフアーク)、0902…文字切出の境界(グラフノード)、0903…文字識別候補群、0904…文字識別候補に対応する識別類似度群、0905…知識処理の結果選択された文字識別候補。

Claims (2)

  1. 文字が記載された文書画像の入力を受付ける画像入力装置と、中央演算装置と、配置構造定義および記載内容カテゴリに対応して用意される表記知識を保持する記憶装置と、表示デバイスとユーザ入力デバイスとを有する操作端末装置と、通信装置とを備えた対話型の文書処理装置であって、上記中央演算装置では、入力された文書画像から複数の文字列ブロックを抽出し、各文字列ブロックの文書上における二次元的な配置構造を解析して該配置構造をもとに上記配置構造定義を参照することで該文字列ブロックの記載内容を表す記載内容カテゴリを推定し、更に上記操作端末装置の入力部において上記対話型文書処理装置の利用者から認識処理の起動を指示する操作の入力を受けた場合に、指定対象である文字列ブロックを選択し、該文字列ブロックより文字の切出候補を抽出し、さらに上記文字切出候補を文字識別し、該文字識別結果および該文字切出候補に対して、上記に選択した該文字列ブロックに対応する記載内容カテゴリに関連する表記知識を参照して該文字列ブロックの認識を行うことを特徴とする文書処理装置であって、
    上記中央演算装置ではさらに、マウス、電子ペン、及びタッチパッドなどのユーザ入力デバイスと、および、ブラウン管ディスプレイ、液晶ディスプレイ、携帯表示端末などの表示デバイスから成る上記表示操作端末装置を通して、カーソル移動、クリック、ドラッグ、ジェスチャ等のイベントを認識処理の起動指示として受理し、更に上記記憶装置に記憶された認識モードの指定状況によって、認識対象とする文字列ブロックの選択方法の切り替えを行い、選択された該文字列ブロックに対応する表記知識を該文字列ブロックの記載内容カテゴリに応じて切り替えて文字列の認識を行い、上記表示デバイスによる読取結果の出力形式を上記認識モードに応じて切り替えることを特徴とする文書処理装置。
  2. 文字が記載された文書画像の入力を受付ける画像入力装置と、中央演算装置と、配置構造定義および記載内容カテゴリに対応して用意される表記知識を保持する記憶装置と、表示デバイスとユーザ入力デバイスとを有する操作端末装置と、通信装置とを備えた対話型の文書処理装置であって、上記中央演算装置では、入力された文書画像から複数の文字列ブロックを抽出し、各文字列ブロックの文書上における二次元的な配置構造を解析して該配置構造をもとに上記配置構造定義を参照することで該文字列ブロックの記載内容を表す記載内容カテゴリを推定し、更に上記操作端末装置の入力部において上記対話型文書処理装置の利用者から認識処理の起動を指示する操作の入力を受けた場合に、指定対象である文字列ブロックを選択し、該文字列ブロックより文字の切出候補を抽出し、さらに上記文字切出候補を文字識別し、該文字識別結果および該文字切出候補に対して、上記に選択した該文字列ブロックに対応する記載内容カテゴリに関連する表記知識を参照して該文字列ブロックの認識を行うことを特徴とする文書処理装置であって、
    上記中央演算装置ではさらに、上記文字列ブロックの記載内容の推定により記載内容カテゴリの候補を複数列挙し、該記載内容カテゴリの尤度を計算し、上記文字切出候補を抽出し、上記文字識別により文字識別結果及び当該識別結果の類似度の計算を行い、推定された該文字列ブロックの該記載内容カテゴリの尤度、および該文字識別結果の類似度、及び該記載内容カテゴリに対応する表記知識を適用することにより得られた文字列ブロックの読取結果であるテキストを併せて文字列ブロックの読取結果とし、該文字列ブロックの該読取結果を尤度の順に整列し、複数の読取結果として上記記憶装置に記憶する、もしくは上記通信装置を通して別の文書処理装置に読取結果をデータ送付することを特徴とする文書処理装置。
JP2004205361A 2004-07-13 2004-07-13 文書処理手法及び文書処理装置 Expired - Fee Related JP4466241B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004205361A JP4466241B2 (ja) 2004-07-13 2004-07-13 文書処理手法及び文書処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004205361A JP4466241B2 (ja) 2004-07-13 2004-07-13 文書処理手法及び文書処理装置

Publications (2)

Publication Number Publication Date
JP2006031129A JP2006031129A (ja) 2006-02-02
JP4466241B2 true JP4466241B2 (ja) 2010-05-26

Family

ID=35897440

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004205361A Expired - Fee Related JP4466241B2 (ja) 2004-07-13 2004-07-13 文書処理手法及び文書処理装置

Country Status (1)

Country Link
JP (1) JP4466241B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6038215B2 (ja) * 2015-03-25 2016-12-07 株式会社リクルートホールディングス コンピュータプログラム、情報検索システム、及びその制御方法
US11494588B2 (en) 2020-03-06 2022-11-08 International Business Machines Corporation Ground truth generation for image segmentation
US11361146B2 (en) 2020-03-06 2022-06-14 International Business Machines Corporation Memory-efficient document processing
US11495038B2 (en) * 2020-03-06 2022-11-08 International Business Machines Corporation Digital image processing
US11556852B2 (en) 2020-03-06 2023-01-17 International Business Machines Corporation Efficient ground truth annotation

Also Published As

Publication number Publication date
JP2006031129A (ja) 2006-02-02

Similar Documents

Publication Publication Date Title
US20070098263A1 (en) Data entry apparatus and program therefor
US5669007A (en) Method and system for analyzing the logical structure of a document
US5850490A (en) Analyzing an image of a document using alternative positionings of a class of segments
KR102473543B1 (ko) 디지털 잉크 상호작용을 위한 시스템 및 방법
US8015203B2 (en) Document recognizing apparatus and method
NO20161728A1 (en) Written text transformer
US8224090B2 (en) Apparatus and method for analyzing and determining correlation of information in a document
US20080025618A1 (en) Form processing method, form processing device, and computer product
KR20180077152A (ko) 핸드라이팅 입력을 가이드하는 시스템 및 방법
CN112434691A (zh) 基于智能解析识别的hs编码匹配、展示方法、系统及存储介质
JP2005135041A (ja) 文書検索・閲覧手法及び文書検索・閲覧装置
US10699112B1 (en) Identification of key segments in document images
JP2021043478A (ja) 情報処理装置、その制御方法及びプログラム
He et al. User-assisted archive document image analysis for digital library construction
US20110013806A1 (en) Methods of object search and recognition
Hoffswell et al. Interactive repair of tables extracted from pdf documents on mobile devices
JP4466241B2 (ja) 文書処理手法及び文書処理装置
Dölek et al. A deep learning model for Ottoman OCR
RU2398276C2 (ru) Альтернативы анализа в контекстных деревьях
JP2022035594A (ja) 表構造認識装置及び表構造認識方法
US20230023636A1 (en) Methods and systems for preparing unstructured data for statistical analysis using electronic characters
WO2014068770A1 (ja) データ抽出方法、データ抽出装置及びそのプログラム
Alzuru et al. Cooperative human-machine data extraction from biological collections
US20220198127A1 (en) Enhancement aware text transition
Wu et al. Automatic semantic knowledge extraction from electronic forms

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20060424

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070629

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20091022

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091117

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100107

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100202

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100215

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130305

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130305

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees