JPH06274680A - 文書認識方法およびシステム - Google Patents

文書認識方法およびシステム

Info

Publication number
JPH06274680A
JPH06274680A JP5057441A JP5744193A JPH06274680A JP H06274680 A JPH06274680 A JP H06274680A JP 5057441 A JP5057441 A JP 5057441A JP 5744193 A JP5744193 A JP 5744193A JP H06274680 A JPH06274680 A JP H06274680A
Authority
JP
Japan
Prior art keywords
character
layout
correction
text data
character line
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5057441A
Other languages
English (en)
Inventor
Masashi Koga
昌史 古賀
Katsumi Marukawa
勝美 丸川
Yoshihiro Shima
好博 嶋
Kazuki Nakajima
和樹 中島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP5057441A priority Critical patent/JPH06274680A/ja
Publication of JPH06274680A publication Critical patent/JPH06274680A/ja
Priority to US08/725,477 priority patent/US5717794A/en
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/98Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns
    • G06V10/987Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns with the intervention of an operator

Abstract

(57)【要約】 【目的】レイアウト解析、文字行抽出、文字分離、文字
認識および言語処理など、多くの処理段階を有する文書
認識処理において効率良く認識結果を修正する。 【構成】マウス125等の入力装置から一括認識モード
が指定されると、前処理部127、修正部116、検出
部103、修正部111、解析部104、修正部11
2、分離部105、修正部113、認識部106、修正
部114、処理部107、修正部115が自動的に順次
起動され、領域の設定・修正、文字行抽出・修正、レイ
アウト解析・修正、文字分離・修正、文字認識・修正、
言語処理・修正という文書認識処理を、次の処理の起動
を指示することなく一連の処理の流れの中で行なうこと
ができる。入力装置から再認識モードが指定されると、
その時点までの処理の次以降に行なわれるべき文書認識
処理が自動的に順次起動され、次以降の処理を一連の処
理の流れの中で行なうことができる。

Description

【発明の詳細な説明】
【0001】文書や図面中に記載された文字を認識する
ための文書認識システムに関する。
【0002】
【産業上の利用分野】
【0003】
【従来の技術】近年、印刷技術の進歩や複写装置やワー
ドプロセッサの普及により、大量の文書が流通してお
り、それらをテキストデータとして計算機に格納する需
要が高まっている。これに応じ、パターン認識や知識処
理技術をもちい、電子計算機によって文書画像中の文字
を認識してテキストデータとして出力するシステム、即
ち文書認識システムが開発されている。現状では文書認
識技術は十分な認識率を得るまでには至らず、認識前に
様々なパラメータをオペレータが入力したり、認識後に
認識結果をオペレータが修正する作業が不可欠である。
したがってテキストデータの入力作業の効率を高めるた
めには、文書認識システムの処理速度を高めると同時
に、こうしたオペレータの作業の効率を加味する必要が
ある。
【0004】文書認識の結果を修正する手段としては、
認識結果のテキストコードをCRT上に表示し、マウ
ス、キーボードを用いて修正位置の指定、削除、テキス
トコードの入力を行い修正する方式が知られている。
【0005】この際、認識結果と同時に認識対象の画像
を隣接して表示し、作業効率を向上させる方式が知られ
ている。また、文字認識の2位以下の候補文字を表示し
てオペレータに正解を選択させる用いる方式が知られて
いる。
【0006】また、文字認識の結果を言語処理(単語照
合や形態素解析、意味解析などにより、文字認識の誤り
を修正する処理)で修正するシステムにおいて、言語処
理の結果一つの文中で複数の文字に誤りがある場合に、
誤りの一部をオペレータが修正した後に再度言語処理を
起動することにより、他の誤りをも自動的に修正する方
法が知られている。
【0007】図31を用いて、上記単語照合による言語
処理について説明する。たとえば、文書認識システム3
102が文書を認識した結果“中文留米市”という語句
が認識され、この認識結果がCRT等の出力装置に表示
された場合、オペレータがキーボード等の入力装置から
“中文留米市”の“中”を“東”に修正した後言語処理
を実行させる。文書認識システム3102は、言語辞書
3101を参照し、“東文留米市”を“東久留米市”と
認識する。
【0008】形態素解析による言語処理とは、単語の並
びを文法的に日本語として正しいかどうかを判別し、正
しくないものを正しく修正する処理である。この処理に
よれば、たとえば、“日本語として正しく言葉”は“日
本語として正しい言葉”に修正される。
【0009】意味解析による言語処理とは、日本語の文
字列を意味的に正しいかどうかを判別し、正しくないも
のを正しく修正する処理である。この処理によれば、た
とえば、“ボートをこる”は“ボートをこぐ”に修正さ
れる。
【0010】また、認識処理に先立ちマウスなどで画像
中の処理領域を指定し、合わせて領域のパラメータ(縦
書き、横書き、文字サイズ、文字種類等)を指定するこ
とにより、文字行抽出、文字分離、文字認識等の各処理
の精度を向上させる方式が知られている。
【0011】また、特開平4ー155482号公報のよ
うに、文字の分離の仕方をユーザにより指定される方法
もある。
【0012】
【発明が解決しようとする課題】テキストリーダーに於
ては、レイアウト解析、文字行抽出、文字分離、文字認
識、言語処理など処理が多段階に渡り、認識誤りは文字
認識だけでなく、上記のようなレイアウト解析、文字行
抽出、文字分離や言語処理の各段階で発生する可能性が
ある。
【0013】上記従来の技術によれば、レイアウト解
析、文字行抽出、文字分離等の各段階で発生する誤りに
対して、効率良く修正を行なうことができなかった。
【0014】本発明は上記の問題点を考慮して、これら
のレイアウト解析、文字行抽出、文字分離等の各段階で
発生する誤りに対して、効率良く修正を行なう方法およ
びシステムの仕様を詳細に呈示することを目的とする。
【0015】
【課題を解決するための手段】認識対象である文書内の
文字を2値画像として入力する入力手段と、画像から文
字行を抽出する文字行抽出手段と、画像中のレイアウト
を解析するレイアウト解析手段と、文字行およびレイア
ウトに基づき各文字の文字パターンを切り出す文字分離
手段と、文字パターンを認識しテキストデータに変換す
る文字認識手段と、認識されたテキストデータに言語処
理を行なう言語処理手段と、言語処理を行なわれたテキ
ストデータを解析されたレイアウトに従って表示する表
示手段とを有する文書認識システムにおいて、文字行抽
出手段として、画像中から各文字行を特定する座標を検
出する文字行検出手段と、文字行検出手段により検出さ
れた各文字行の領域を、画像と共に表示手段に表示させ
る表示制御手段と、表示された文字行を特定する座標を
外部から変更するための変更手段と、変更された座標に
基づき抽出された文字行の領域を修正する文字行修正手
段と、修正された文字行を表示手段に表示させる表示制
御手段とを備えることができる。
【0016】また、前記レイアウト解析手段として、画
像中のレイアウトを検出するレイアウト検出手段と、こ
のレイアウト検出手段により検出されたレイアウトに従
い、レイアウトの段組を画像と共に表示手段に表示させ
る表示制御手段と、表示されたレイアウトを外部から変
更するための変更手段と、変更されたレイアウトに基づ
き画像中のレイアウトを修正するレイアウト修正手段
と、修正されたレイアウトを前記表示手段に表示させる
表示制御手段とを備えることもできる。
【0017】さらに、前記文字分離手段として、文字行
に含まれる文字の各文字パターンを特定する座標を検出
する文字分離検出手段と、この文字分離検出手段により
検出された各文字パターンの領域を、表示手段に表示さ
せる表示制御手段と、表示された文字パターンを特定す
る座標を外部から変更するための変更手段と、変更され
た座標に基づき、検出された文字パターンの領域を修正
する文字分離修正手段と、修正された文字パターンを表
示手段に表示させる表示制御手段とを備えることもでき
る。
【0018】さらに、前記言語処理手段として、認識さ
れたテキストデータの語句認識を行なう語句認識手段
と、語句認識手段により語句認識を行なわれたテキスト
データを表示手段に表示させる表示制御手段と、表示さ
れたテキストデータの語句の一部を外部から変更するた
めの変更手段と、語句認識手段に前記変更されたテキス
トデータの語句認識を行なわせる語句修正手段と、この
語句修正手段を経たテキストデータを前記表示手段に表
示させる表示制御手段とを備えることもできる。
【0019】さらに、前記文字行抽出手段、レイアウト
解析手段、文字分離手段、文字認識手段および言語処理
手段のうち、起動すべき手段および起動すべき順序を、
外部から設定するための設定手段と、この設定手段によ
り設定された手段を設定された順序で起動するモード
を、外部から指定されるモード指定手段と、このモード
指定手段により前記モードが指定されると、設定された
手段を設定された順序で起動するための起動制御手段と
を備えることもできる。
【0020】さらに、前記文字行抽出手段により抽出さ
れた文字行の傾きを検出する傾き検出手段と、この傾き
検出手段により検出された傾きを示す指標と共に文字行
を表示手段に表示させる表示制御手段と、表示された文
字行の傾きを外部から変更するための変更手段と、変更
された傾きに基づき指標を修正する傾き修正手段と、修
正された指標と共に文字行を表示手段に表示させる表示
制御手段とを備えることもできる。
【0021】
【作用】少なくとも入力装置、演算装置および表示装置
を備え、認識対象である文書内の文字を前記入力装置に
より2値画像として入力し、前記演算装置により前記画
像から文字行を抽出し、前記画像中のレイアウトを解析
し、前記文字行およびレイアウトに基づき各文字の文字
パターンを切り出し、前記文字パターンを認識してテキ
ストデータに変換し、前記認識されたテキストデータに
言語処理を行ない、前記言語処理を行なわれたテキスト
データを前記解析されたレイアウトに従って前記表示装
置に表示する文書認識システムにおいて、表示装置に表
示されたテキストデータの文字行の領域を修正し、修正
された文字行を前記表示手段に表示し、演算装置によ
り、修正された文字行から各文字の文字パターンを切り
出し、文字パターンを認識してテキストデータに変換
し、認識されたテキストデータに言語処理を行ない、言
語処理を行なわれたテキストデータを解析されたレイア
ウトに従って表示装置に表示することができる。
【0022】また、表示装置に表示されたテキストデー
タのレイアウトの段組を修正し、修正されたレイアウト
に基づき文字行から各文字の文字パターンを切り出し、
文字パターンを認識してテキストデータに変換し、認識
されたテキストデータに言語処理を行ない、言語処理を
行なわれたテキストデータを解析されたレイアウトに従
って表示装置に表示することもできる。
【0023】さらに、表示装置に表示されたテキストデ
ータの文字パターンの領域を修正し、修正された文字パ
ターンを表示手段に表示し、演算装置により、文字パタ
ーンを認識してテキストデータに変換し、認識されたテ
キストデータに言語処理を行ない、言語処理を行なわれ
たテキストデータを解析されたレイアウトに従って表示
装置に表示することもできる。
【0024】さらに、文字行抽出手段、レイアウト解析
手段、文字分離手段、文字認識手段および言語処理手段
うち、起動すべき手段および起動すべき順序を設定し、
設定された手段を設定された順序で起動するモードを外
部から指定し、このモードが指定されると、設定された
手段を設定された順序で起動して、修正処理及び認識処
理が適切に連係するように処理の流れを制御して、不要
な認識処理や修正を行なうことなく効率良く文書データ
入力作業を行なうことができる。
【0025】
【実施例】図1に、本発明を実現するためのシステムの
構成を示す。
【0026】全体制御部101は、システムにおける入
出力および認識処理などを制御する。ユーザーインタフ
ェース部102は、CRT124を介した画像の表示
と、マウス125やキーボード126を介した入力等を
管理する。スキャナ120、画像蓄積装置121、通信
端末122は、文書画像を入力するための機構である。
【0027】文字行検出部103は、文書画像中の処理
領域に関する情報を格納する領域データを入力とし、そ
の領域中の文字行に関する情報を格納する文字行データ
を出力する手段である。
【0028】レイアウト解析部104は、領域データお
よび文字行データを入力とし、レイアウト辞書108に
格納したレイアウトに関する知識を参照して文書のレイ
アウトを解析し、段組情報および文字行の読み順をブロ
ックデータとして出力する手段である。
【0029】文字分離部105は、文字行データを入力
とし当該文字行より文字パターンを切り出して、文字デ
ータとして出力する手段である。文字認識部106は、
認識辞書109に格納した文字パターンの特徴量を参照
し、文字データに格納された文字パターンを認識し、候
補文字を文字コードとして文字データに格納する手段で
ある。
【0030】言語処理部107は、言語辞書110に格
納した単語や文法に関する知識を参照し、文字認識部1
06の出力としてえられた文字列を言語的に検定して誤
りを修正する手段である。
【0031】文字行修正部111は、マウス125やキ
ーボード126により文字行の座標や属性を入力・修正
する手段である。レイアウト修正部112は、マウス1
25やキーボード126により段組等の文字行の集合
(文字行ブロック)の座標、属性、読み順等を入力・修
正する手段である。文字分離修正手段113は、マウス
125やキーボード126により文字パターンを文字行
中より切り出したり、切り出し結果を修正したりする手
段である。
【0032】文字修正部114は、文字認識処理の過程
で得られる認識候補文字等を利用して、マウス125や
キーボード126により文字認識部106の出力を修正
するための手段である。この際、キーボード126など
を用いて認識候補等に拠らない文字を入力することも可
能である。
【0033】語句修正部115は、マウス125やキー
ボード126により言語処理の過程で得られる認識候補
文字列等を利用し、言語処理部107の出力を修正する
ための手段である。この際、キーボード126などを用
いて言語処理候補文字列等に拠らない文字を入力するこ
とも可能である。
【0034】処理条件修正部116は、マウス125や
キーボード126を介して処理領域、スキャナ入力条
件、認識条件、出力条件等を設定・修正する手段であ
る。スキャナ入力条件は、スキャナの解像度、スキャン
の範囲、読み取り濃度等の入力条件である。認識条件
は、認識文書の文字サイズ、文字ピッチ、文字種類(手
書き/活字、漢字/仮名/記号/数字/英字)、フォン
ト種(明朝/ゴシック/楷書)、縦横書きなどの条件で
ある。出力条件は、空白文字出力の有無、改行出力の有
無、出力ファイル形式(テキスト/ワープロ/TEX)
等の条件である。
【0035】一括認識(一括処理)制御部117は、文
字行検出、レイアウト解析、文字分離、文字認識、およ
び言語処理を一括して処理する際に、各処理を起動する
順序を制御する手段である。逐次認識制御手段118
は、各処理を逐次に実行し、必要なら修正を施す際に各
処理を起動する順序を制御する手段である。再認識制御
部119は、文字行検出、文字分離などの処理の途中過
程の結果を文字行修正部111や文字分離修正部113
によって修正した後、認識結果を得るために必要な他の
処理を一括して実行するための処理を起動する順序を制
御する。
【0036】図2は文書画像上での領域、ブロック、文
字行、文字の関係を示す。領域202は文書画像201
中に設定された処理の対象とする領域である。203、
204、205は領域202中のブロックである。20
6、207、208はブロック203中の文字行であ
る。209、210は文字行206中の文字である。領
域、ブロック、文字行、文字はオペレータが設定する場
合とシステムが自動的に設定する場合とがある。
【0037】図3に従来の文書認識システムにおける処
理の流れを示す。図中の矢印は、処理の進行する順序を
示す。また、図中の白丸は、オペレータの操作により処
理が分岐することを示す。
【0038】まず、ステップ301において、画像をイ
メージスキャナあるいは光ディスクなどの画像蓄積装置
より入力する。次に、認識対象となる画像の領域を設定
する。この領域は、ステップ302において自動的に設
定される場合と、ステップ303においてオペレータに
よってマウスなどを介して指定される場合とがある。こ
の際、縦書き・横書きの区別や図表の有無などの処理領
域の属性を合わせて指定される場合もある。
【0039】領域が指定された後は、通常、ステップ3
04の文字行抽出、ステップ305のレイアウト解析、
ステップ306の文字分離、ステップ307の文字認
識、ステップ309の言語処理の順で処理を実行する。
レイアウト解析を先に行い次に文字行の抽出をトップダ
ウン的に行う方式、また、言語処理の手段を具備せず文
字認識の結果を出力とする方式としてもよい。
【0040】言語処理の結果はオペレータに表示され、
オペレータはその誤りをステップ308の文字修正で修
正する。また、誤りが文字行抽出や文字分離等で生じた
場合には、ステップ303に戻り、領域の座標や属性の
修正をオペレータが行い、再度文字行抽出から言語処理
に至る処理をシステムが実行する。システムによって
は、オペレータにより文字分離の修正を行なうステップ
(図3には図示せず)を備え、この修正の後ステップ3
07以降を行なうことができるものもある。
【0041】図4は本発明における処理の流れである。
従来の方式と同様に領域自動設定(ステップ402)、
領域修正(ステップ403)、文字行抽出(ステップ4
04)、レイアウト解析(ステップ408)、文字分離
(ステップ410)、文字認識(ステップ412)、言
語処理(ステップ414)、文字修正(ステップ41
3)の各処理を実行することが可能である。さらに、オ
ペレータの指示により、文字行修正(ステップ40
5)、レイアウト修正(ステップ407)、文字分離修
正(ステップ409)、語句修正(ステップ413)の
各ステップを随時起動できる。
【0042】また、領域修正(ステップ403)、文字
行修正(ステップ405)、レイアウト修正(ステップ
407)、文字分離修正(ステップ409)、文字修正
(ステップ411)、語句修正(ステップ413)の各
修正処理を実行した後に、オペレータの指示により文字
行抽出(ステップ404)、レイアウト解析(ステップ
406)、文字分離(ステップ408)、文字認識(ス
テップ410)、言語処理(ステップ412)の各処理
を逐次実行すること、他の修正処理を逐次実行するこ
と、および再認識(ステップ415)を実行することが
可能である。
【0043】ステップ415における再認識は、各修正
処理の完了後、出力テキストデータを得るために必要な
処理を自動的に判別し、自ら実行する処理である。ま
た、画像入力(ステップ401)の後に一括認識(ステ
ップ416)を実行することができる。ステップ416
の一括認識は、出力テキストデータを得るために必要な
処理および予め必要に応じて登録された修正処理等を順
次自動的に実行する処理である。
【0044】図5に再認識処理(ステップ415)の流
れを示す。このステップ415においては、再認識が起
動された直前の状態に応じたステップ501、502、
503、504、505の各処理の流れが起動される。
例えば、文字行修正の後に再認識が起動された場合には
処理の流れ504が起動され、レイアウト解析、文字分
離、文字認識、言語処理の順に処理が起動される。
【0045】図6に本発明における処理の流れの別の例
を示す。この例では、まず、領域自動設定(ステップ6
02)、文字行抽出(ステップ604)を実行し、次に
抽出した文字行の傾きをもとにステップ606で画像を
補正した後、レイアウト解析(ステップ608)、文字
分離(ステップ610)、文字認識(ステップ61
2)、言語処理(ステップ614)を実行する。さらに
オペレータの指示により、領域修正603、文字行修正
605、傾き修正607、レイアウト修正609、文字
分離修正611、文字修正613、語句修正615の各
ステップを随時起動できる。画像回転は、図1の前処理
部127の機能の一部である。傾き修正(ステップ60
7)を実行した場合には、新たに指定された傾きをもと
に傾き補正(ステップ606)を実行した後、他の処理
を実行する。
【0046】また、領域修正603、文字行修正60
5、傾き修正607、レイアウト修正609、文字分離
修正611、文字修正613、語句修正615の各ステ
ップの修正処理を実行した後に、オペレータの指示によ
り、文字行抽出604、レイアウト解析608、傾き補
正606、文字分離610、文字認識612、言語処理
614の各ステップの処理を逐次実行すること、他の修
正処理を逐次実行すること、および再認識(ステップ6
17)を実行することが可能である。このステップ61
7の再認識は、各修正処理の完了後、出力テキストデー
タを得るために必要な処理を自動的に判別し、自ら実行
する処理である。
【0047】また、画像入力(ステップ601)の後に
一括認識(ステップ618)を実行することが出きる。
このステップ618の一括認識は、出力テキストデータ
をえるために必要な処理および予め必要に応じて登録さ
れた修正処理等を順次自動的に実行する処理である。
【0048】図7に、図6の例における再認識処理の流
れを示す。再認識が起動された直前の状態に応じて70
1、702、703、704、705の各処理の流れが
起動される。例えば、文字行修正の後に再認識が起動さ
れた場合には処理の流れ705が起動され、傾き補正、
レイアウト解析、文字分離、文字認識、言語処理の順に
処理が起動される。また、傾き修正の後に再認識が起動
された場合には処理の流れ704が起動され、文字行抽
出、レイアウト解析、文字分離、文字認識、言語処理の
順に処理が起動される。
【0049】図8に、図6の例における再認識処理にお
ける処理の起動を制御するテーブルを示す。縦の項目は
再認識処理の直前に行なった修正処理を表し、横の項目
は再認識処理で起動する処理を表す。修正処理の名称の
右側の丸印は、当該修正処理後にその欄の処理を実行す
ることを示す。例えば、傾き修正後に再認識処理を実行
した場合には、表中の傾き修正の右側に丸印のついてい
る文字行抽出、レイアウト解析、文字分離、文字認識、
言語処理を実行する(これは、図7の処理704に該当
する)。
【0050】図9に、再認識処理を制御するテーブルの
別の例を示す。この例では図6の各処理に加えて、文書
のレイアウトや属性などをファイルへ入出力するフォー
マット入出力、ファイルから画像を入力するファイル入
力、スキャナから画像を入力するスキャナ入力、スキャ
ナの作動条件を指定するスキャナ設定、指定した処理領
域の種類、文字行、文字、文字方向等の属性を指定する
領域属性設定、文書画像中のノイズを孤立点除去などの
画像処理の手法を用いて除去するノイズ除去、文書中の
網かけ印刷の網点を除去する網点除去、文書の縦横の向
きを判別する文書方向判別等の処理が実行可能である。
これらは図1の処理条件修正部116および前処理部1
27の機能である。また、文書方向の判別は、抽出した
文字行の座標より行うものとする。この例では、、領域
の文字行の属性を変更した後には文字行の抽出を再度行
う必要があること、文字行修正を行った後には文書方向
の判別を再度行う必要があることなどの制約を、このテ
ーブルで管理している。
【0051】図10に再認識の作用の例を示す。100
1と1003の中の矩形は文字行の抽出結果を示し、1
002と1004はそれぞれ1001と1003に対応
した文字認識結果を示す。文字行抽出結果1001にお
いては、抽出した文字行1005に誤りがあり、そのた
め認識結果1002には×で示す不読文字が連続してい
る。ここで文字行1005を、文字行抽出結果1003
中の文字行1006および1007のように分離させて
正しく修正し、文字行1006と1007より文字パタ
ーンを分離し文字認識を行い、その結果を文字認識結果
1002における文字行1005に対応する認識結果と
おきかえれば、文字認識結果1004のように正しい認
識結果が得られる。また、置き換えることにより、文書
全体にわたって認識処理を繰り返す必要がなく、作業の
効率を高められる。
【0052】図11に再認識の作用の別の例を示す。1
101と1103の中の矩形は文字パターンの分離結果
を示し、1102と1104は、それぞれ1101と1
103に対応した文字認識結果を示す。
【0053】文字分離結果1101においては、分離し
た文字パターン1105、1106に誤りがあり、この
ため認識結果1102では「認」の文字を誤って「言」
「忍」と認識した結果が示されている。ここで、文字パ
ターンを文字分離結果1103中の文字パターン110
7のように正しく修正し、文字パターン1107により
文字認識を行い、この結果を文字認識結果1102にお
ける文字パターン1105、1106に対応する認識結
果とおきかえれば、文字認識結果1104のように正し
い認識結果が得られる。また、置き換えることにより、
文書全体にわたって認識処理を繰り返す必要がなく、作
業の効率を高めることができる。
【0054】図12に、本発明において用いられるデー
タ形式を示す。データは画像データ、領域データ、ブロ
ックデータ、文字行データ、文字データの順の階層的な
木構造をとる。
【0055】文書画像のスキャナ条件などの情報は、画
像データに格納される。画像データには、他に領域デー
タポインタを格納する。領域データポインタは領域デー
タを参照するためのポインタである。例えば、図12中
の画像データ1201に格納された領域データポインタ
1211は、画像内の領域データ1202を参照するた
めのものである。
【0056】領域データは、その画像中に指定した領域
の座標、属性などを格納する。領域データは、他に次領
域データポインタを格納する。次領域データポインタ
は、当該領域データの他に当該画像中に指定された領域
に対応する領域データを参照するためのポインタであ
る。例えば、図中の領域データ1202の次領域データ
ポインタ1212は、他のもう一つの領域データ120
3を参照するためのものである。画像中に複数指定され
た領域データは、次領域データポインタを用いてチェー
ン状に参照される。チェーンの末尾の領域データの次領
域データポインタにはヌル値(通常、システムにより固
有の値がヌル値として定まっている)を格納しておくこ
とにより、末尾であることが識別される。
【0057】領域データには、他にブロックデータポイ
ンタを格納する。ブロックデータポインタは、ブロック
データを参照するためのポインタである。例えば、図中
の領域データ1202に格納されたブロックデータポイ
ンタ1213は、ブロックデータ1204を参照するた
めのものである。
【0058】ブロックデータは、その領域中にある段組
などの文字行の集合であるブロックの座標、属性、読み
順などを格納する。ブロックデータは、他に次ブロック
データポインタを格納する。次ブロックデータポインタ
は、当該ブロックデータの他に当該領域中に指定された
ブロックに対応するブロックデータを参照するためのポ
インタである。例えば、図中のブロックデータ1204
の次ブロックデータポインタ1214は、他のもう一つ
のブロックデータ1205を参照するためのものであ
る。領域中のブロックデータは次ブロックデータポイン
タを用いてチェーン状に参照され、チェーンの末尾のブ
ロックデータの次ブロックデータポインタにはヌル値を
格納する。
【0059】ブロックデータには、他に文字行データポ
インタを格納する。文字行データポインタは、文字行デ
ータを参照するためのポインタである。例えば、図中の
ブロックデータ1204に格納した文字行データポイン
タ1215は、文字行データ1206を参照するための
ものである。
【0060】文字行データは、そのブロック中の文字行
の座標、属性などを格納する。文字行データは、他に次
文字行データポインタを格納する。次文字行データポイ
ンタは、当該文字行データの他に当該ブロック中に指定
された文字行に対応する文字行データを参照するための
ポインタである。例えば、図中の文字行データ1206
の次文字行データポインタ1216は、他のもう一つの
文字行データ1207を参照するためのものである。ブ
ロック中の複数の文字行データは、次文字行データポイ
ンタを用いてチェーン状に参照され、チェーンの末尾の
文字行データの次文字行データポインタにはヌル値を格
納する。
【0061】文字行データには、他に文字データポイン
タを格納する。文字データポインタは、文字データを参
照するためのポインタである。例えば、図中の文字行デ
ータ1206に格納した文字データポインタ1217
は、文字データ1208を参照するためのものである。
【0062】文字データは、その文字行中の文字の座
標、属性、認識結果などを格納する。文字データは、他
に次文字データポインタを格納する。次文字データポイ
ンタは、当該文字データの他に当該文字行中に指定され
た文字に対応する文字データを参照するためのポインタ
である。例えば、図中の文字データ1208の次文字デ
ータポインタ1218は、他のもう一つの文字データ1
209を参照するためのものである。文字行中の複数の
文字データは、次文字データポインタを用いてチェーン
状に参照され、チェーンの末尾の文字データの次文字デ
ータポインタにはヌル値を格納する。
【0063】上記の各領域データ、ブロックデータ、文
字行データ、文字データには再認識フラグが格納され
る。再認識フラグは、修正処理により修正されるか、当
該データより末端側のデータが生成されていない場合に
値1を持ち、当該データより末端側のデータが既に生成
されており当該データが修正されていない場合には値0
を持つ。再認識を起動した場合には、再認識フラグの値
が1のデータを対象に、再認識を制御するテーブルにし
たがって処理を実行する。
【0064】図13に、図6の例における一括認識処理
の流れを示す。図中の白丸は、図1の一括処理制御部1
19により処理を分岐させることを示す。分岐の仕方は
オペレータが予め指定しておく。一括処理制御部119
は、認識結果のテキストコードを得るために必要な順序
で領域自動設定、文字行抽出、傾き補正、レイアウト解
析、文字分離、文字認識、言語処理を起動する。予めオ
ペレータの指定した内容に従い、傾き補正、言語処理と
いった必ずしも必要でない処理を割愛することができ
る。また予めオペレータの指定した内容に従い領域修
正、文字行修正、傾き修正、レイアウト修正、文字分離
修正、文字修正、語句修正といった処理を起動し、オペ
レータによる修正を受け付ける。
【0065】図14に、図6の例における一括処理を制
御するテーブルを示す。テーブル中の欄1401、14
02、1403の値は予めシステムにより決定されてお
り、欄1404の値はオペレータにより随時指定され
る。
【0066】欄1401には、各処理に対するid値が格
納される。テーブル中の欄1404には、当該処理を実
行するか否かをオペレータが指定した結果を表す実行指
定フラグが格納される。テーブル中の欄1402には当
該処理が割愛可能かどうかを表す不可欠処理フラグが格
納される。不可欠処理フラグの値が“1”の場合には当
該処理は割愛不可で、“0”の場合には割愛可能であ
る。テーブル中の1403の欄には、当該処理が割愛不
可であるが他の処理で代用できるか否かを表す同等処理
値を格納する。同等処理値が同じ処理が2つ以上ありか
つ割愛不可であるにもかかわらず実行してフラグがそれ
ら処理のいずれに対しても値“0”である場合には、そ
れらの処理のうちで本テーブル中で最も上部に格納され
ている処理を起動するよう一括処理制御部119は処理
の流れを制御する。
【0067】図15に、本発明を実施するシステムにお
ける表示画面の一例を示す。この画面は、文書認識を起
動するための画面である。画面上に表示した操作パネル
1501上に配置したボタン1502、1503、15
04、1505、1506、1507、1508をマウ
スカーソルでクリックすることにより、各処理を起動す
る。操作パネルの代わりにプルダウンメニュー、ポップ
アップメニュー等を用いてもよい。
【0068】1502は、入力をファイルにするかスキ
ャナにするかの処理モードを切り替える操作画面を呼び
出すためのボタンである。1503は、一括認識におけ
る処理の手順を設定する画面を呼び出すためのボタンで
ある。1504は、認識を1ページ毎に行うか自動原稿
搬送機等を用いて連続して行うかを設定する画面を呼び
出すためのボタンである。
【0069】1505は、文字サイズ、文字種、フォン
ト種、文字間隔、行間隔、縦横書き等の認識に必要なパ
ラメータを設定する画面を呼び出すためのボタンであ
る。1506は、スキャナの解像度、二値化の閾値など
画像の入力に必要なパラメータを設定するための画面を
呼び出すボタンである。1507は、全半角の区別、空
白の出力形式、改行の出力形式などの認識結果の出力に
必要な設定をする画面を呼び出すボタンである。150
8は、逐次認識(従来と同様の処理)および(本発明に
よる)再認識を操作する画面を呼び出す画面である。
【0070】図16は、本発明を実施するシステムにお
ける表示画面の一例である。この画面は、認識処理およ
び修正の操作をするための画面である。この画面中の操
作パネル1601において、領域自動設定および修正、
文字行抽出および修正、ノイズ除去、傾き修正、傾き補
正、文字分離および修正、文字認識および文字修正、言
語処理および語句修正、フォーマット入出力、文書方向
自動設定および修正、スキャナ環境設定、一括認識、再
認識をボタンにより起動できる。
【0071】1602は、入力した画像を表示するウイ
ンドウである。1604、1605は、表示された画像
を拡大または縮小する処理を起動するボタンである。1
603は、認識結果のテキストデータを表示するための
画面である。1603は編集機能を持っていてもよい。
1607は、画像の1行分に相当する部分を拡大して表
示するウインドウであり、1608は、1607に表示
した部分の認識結果のテキストを文字毎に対応させて表
示するウインドウである。
【0072】図17に、本発明を実施するシステムにお
ける表示画面の一例を示す。この画面は、一括処理を制
御するテーブルに実行指定フラグの値を入力するための
画面である。図16の操作パネル1601において、一
括認識と表示されたボタンを指定することにより、図1
7の画面が表示される。
【0073】画面中の処理手順設定用操作パネル170
1上には、処理名称を表示したボタン(1703等)を
配置する。操作パネルの代わりにプルダウンメニュー、
ポップアップメニュー等を用いてもよい。上記ボタンを
マウスカーソルでクリックすることにより、ボタンに表
示した処理名称に対応する処理の実行指定フラグの値を
“1”、“0”と交互に変更する。実行指定フラグの値
が“1”の場合には、ボタンの左の余白に当該処理が実
行される順序が数字で表示される。
【0074】図18に、本発明を実施するシステムにお
ける表示画面の一例を示す。この画面は、文書画像の傾
きを修正するための画面である。ウインドウ1801
は、入力された画像を表示するウインドウである。18
02は、傾き修正用操作パネルである。1803は、シ
ステムにおいて自動的に検出された画像の傾きを表示す
る検出傾き表示フィールドである。傾きが予め検出され
ていない場合には、検出傾き表示フィールド1803に
はなにも表示されない。
【0075】1804は、オペレータが傾きをキーボー
ドで入力するためのフィールドである傾き入力フィール
ドである。オペレータは、ステッパボタン1805をマ
ウスカーソルで操作することにより傾きを入力すること
もできる。
【0076】1806は、傾き表示バーである。傾き表
示バー1806は、適当な幅と長さを持つ長方形で、こ
の長方形の傾きが検出された傾きあるいはオペレータに
より入力された傾きと等しくなるように、グラフィック
を用いて表示される。傾き表示バー1806の傾きは、
オペレータが傾き入力フィールド1804やステッパボ
タン1805を操作すると、連動して変化する。180
7は、表示した画像の拡大・縮小を操作するためのボタ
ンである。
【0077】図19に、本発明を実施するシステムにお
ける表示画面の一例を示す。この画面は、領域の座標お
よび属性を指定する画面を起動するための画面である。
ウインドウ1901は、入力された画像を表示するウイ
ンドウである。1902は、操作パネルである。操作パ
ネルの代わりに、プルダウンメニュー、ポップアップメ
ニュー等を用いてもよい。1903は、領域の座標を指
定する画面を起動するためのボタンである。1904
は、領域の属性を設定する画面を起動するためのボタン
である。
【0078】図20に、本発明を実施するシステムにお
ける表示画面の一例を示す。この画面は、領域の座標を
指定するための画面である。ウインドウ2001は、入
力された画像を表示するウインドウである。2002
は、領域座標設定用操作パネルである。操作パネルの代
わりに、プルダウンメニュー、ポップアップメニュー等
を用いてもよい。2003は、設定された座標で指定さ
れる領域をグラフィックを用いて多角形で表して、この
多角形を文書画像と重ねて表示したものである。
【0079】2004は、二つ以上の領域を融合するた
めの融合ボタンである。オペレータがウインドウ200
1上で2つ以上の領域をマウスで選択した後融合ボタン
2004をクリックすると、処理条件修正部116(図
1参照)は選択された領域に対応するデータを削除し、
選択された領域を連結した新たな領域データを生成す
る。
【0080】2005は、分離ボタンである。オペレー
タが、ウインドウ2001上で1つの領域を選択した後
分離ボタン2005をクリックすると、処理条件修正部
116(図1参照)は選択した領域に対応するデータを
削除し、その領域を等分した二つの領域データを生成す
る。
【0081】2006は、変形ボタンである。オペレー
タが、ウインドウ2001上で1つの領域を選択した後
変形ボタン2006をクリックすると、当該領域の外形
を変形するための操作画面が起動される。
【0082】2007は、新規ボタンである。オペレー
タが、新規ボタン2007をクリックすると、処理条件
修正部116は新たな領域データを生成し、生成した領
域データはウインドウ2001に表示される。
【0083】2008は、削除ボタンである。オペレー
タによりウインドウ2001上で1つ以上の領域が選択
された後削除ボタン2008がクリックされると、処理
条件修正部116は、選択された領域に対応する領域デ
ータを削除する。
【0084】2009は、拡大縮小ボタンである。ウイ
ンドウ2001上で1つ以上の領域が選択された後拡大
縮小ボタン2009がクリックされると、選択された領
域をマウスを用いて拡大または縮小することができる。
なお、同様の画面を、レイアウト修正部112(図1参
照)を制御して、ブロックデータの修正を行うためのユ
ーザーインタフェースとして用いることもできる。
【0085】図21に、本発明を実施するシステムにお
ける表示画面の一例を示す。この画面は、図20に示し
た領域座標設定の操作パネルにおいて、変形ボタンおよ
び新規ボタンをクリックした場合に、領域座標の指定に
おいて非矩形の領域を指定するための画面である。
【0086】ウインドウ2101は、入力した画像を表
示するウインドウである。2102は、領域の座標を多
角形で表示したものである。オペレータは、マウスカー
ソル2103を用いて多角形の頂点をドラッグすること
により、領域の座標を変形できる。また、多角形の辺上
の任意の箇所をクリックした後ドラッグすることによ
り、新たな頂点を生成することができる。
【0087】図22に、本発明を実施するシステムにお
ける表示画面の一例を示す。この画面は、領域の属性を
指定するための画面である。図19において属性設定1
904が指定されると、図22の画面が表示される。オ
ペレータは、操作パネル2202上で領域に罫線が含ま
れるか、図や写真が含まれるかなどの属性を修正するこ
とができる。
【0088】図23に、本発明を実施するシステムにお
ける表示画面の一例を示す。この画面は、領域中の文字
の属性を指定するための画面である。この画面は、図2
2の領域属性設定画面において、文字ボタン2204を
指定することにより表示される。オペレータは、操作パ
ネル2301で文字種、フォント種、文字サイズ、文字
ピッチ等の文字の属性を設定できる。
【0089】図24に、本発明を実施するシステムにお
ける表示画面の一例を示す。この画面は、領域中の文字
行の属性を指定するための画面である。この画面は、図
22の領域属性設定画面において、文字行ボタン220
3を指定することにより表示される。オペレータは、操
作パネル2401で文字行の方向、段組の有無、行ピッ
チ等の文字行の属性を設定できる。
【0090】図25に、本発明を実施するシステムにお
ける表示画面の一例を示す。この画面は、ブロックの読
み順を指定するための画面である。この画面は、図24
の操作パネル2401において段組が有ると指定された
場合に表示される。
【0091】2501は、ブロックを2502等のよう
に多角形で表示する。また2501にはブロックのID
番号も同時に表示する。2503は、ブロックの読み順
を表示・修正するためのリストボックスである。このリ
ストボックスにはブロックのID番号およびブロック名
称を表示し、読み順に上から配置する。リストボックス
内の順序はブロックデータのチェーンの順序に対応して
おり、以下の操作によりリストボックスの内容が変更さ
れると、これに応じてレイアウト修正部112(図1参
照)がチェーンの配列を修正する。
【0092】ブロック名称は、オペレータがキーボード
などによって入力するが、必ずしも名称を設定する必要
はない。リストボックス上でブロック名称またはIDを
マウスで指定した後上下にドラッグすることにより、指
定したブロックをリスト上の任意の位置に移動できる。
【0093】2505は、挿入ボタンである。ウインド
ウ2501上で1つのブロックを選択した後挿入ボタン
2505をクリックすると、選択したブロックがリスト
ボックス2504に挿入される。2506は、削除ボタ
ンである。リストボックス上で1つ以上のブロックを指
定後削除ボタン2506をクリックすると、当該ブロッ
クがリストボックスから削除される。
【0094】図26に、本発明を実施するシステムにお
ける表示画面の一例を示す。この画面は、文字行の座標
および属性を修正するための画面である。
【0095】ウインドウ2601は、入力した画像を表
示するウインドウである。2602は、設定された文字
行の座標をグラフィックを用いて多角形で文書画像と重
ねて表示したものである。2603は、文字行修正用操
作パネルである。操作パネルの代わりにプルダウンメニ
ュー、ポップアップメニュー等を用いてもよい。
【0096】2604は、以下に示す2605乃至26
12のボタンを含むボタン群である。2605は、二つ
以上の文字行を融合するための融合ボタンである。オペ
レータがウインドウ2601上で2つ以上の文字行をマ
ウスで選択した後融合ボタン2605をクリックする
と、文字行修正部111(図1参照)はそれら文字行に
対応するデータを削除し、それら文字行を連結した新た
な文字行データを生成する。
【0097】2606は、分離ボタンである。オペレー
タがウインドウ2601上で1つの文字行を選択した後
分離ボタン2606をクリックすると、文字行修正部1
11は選択した文字行に対応するデータを削除し、その
文字行を等分した二つの文字行データを生成する。
【0098】2607は、読み取り指定ボタンである。
2608は、不読指定ボタンである。読み取り指定ボタ
ン2607および不読指定ボタン2608により、オペ
レータが当該文字行を認識の対象とするか否かを指定で
きる。
【0099】2609は、新規ボタンである。新規ボタ
ン2609をクリックすると文字行修正部111は新た
な文字行データを生成し、生成された文字行データはウ
インドウ2601に表示される。
【0100】2610は、削除ボタンである。ウインド
ウ2601上で1つ以上の文字行を選択した後削除ボタ
ン2610をクリックすると、文字行修正部111はそ
れら文字行に対応する文字行データを削除する。
【0101】2611は、拡大縮小ボタンである。ウイ
ンドウ2601上で1つ以上の文字行を選択した後拡大
縮小ボタン2611をクリックすると、選択された文字
行をマウスを用いて拡大または縮小することができる。
【0102】2612は、傾き修正ボタンである。ウイ
ンドウ2601上で1つ以上の文字行を選択した後傾き
修正ボタン2612をクリックすると、選択された文字
行の傾きをマウスを用いて修正することができる。
【0103】2613は、全読み取りボタンである。ウ
インドウ2601上で1つ以上の文字行を選択した後全
読み取りボタン2613をクリックすると、選択された
文字行全てを認識の対象とすることができる。
【0104】2614は、全不読ボタンである。ウイン
ドウ2601上で1つ以上の文字行を選択した後全不読
ボタン2614をクリックすると、選択された文字行全
てを認識の対象からはずすことができる。
【0105】2615は、自動ボタンである。自動ボタ
ン2615をクリックすると文字行検出部103(図1
参照)が起動され、新たに生成された文字行データが修
正中のデータに置き代わる。
【0106】図27に、本発明を実施するシステムにお
ける表示画面の一例を示す。この画面は文字分離結果を
修正するための画面である。2701は、認識結果のテ
キストを表示するフィールドである。2702は、文字
行の画像を拡大して表示するフィールドである。270
3は、文字分離結果を切り出した文字パターンを外接す
る長方形と共に表示したものである。
【0107】2704は、文字の分離位置を矢印で示す
もので、確からしい切り出し位置を黒い矢印で、確から
しさが低い切り出し位置を白い矢印で表示する。オペレ
ータは、マウスを用いて2703の矩形の座標を修正し
たり、2704の切り出し位置を修正できる。
【0108】2705は、分離ボタンである。2702
上で文字パターンをマウスでクリックして指定した後分
離ボタン2705をクリックすると、文字分離修正部1
13(図1参照)は選択した文字に対応するデータを削
除し、その文字パターンを等分した二つの文データを生
成する。
【0109】2706は、融合ボタンである。2702
上で2つ以上の文字パターンをマウスでクリックして指
定した後融合ボタン2706をクリックすると、文字分
離修正部113はそれら文字パターンに対応する文字デ
ータを削除し、それら文字パターンを連結した新たな文
字データを生成する。
【0110】2710は、属性ボタンである。2702
上で2つ以上の文字パターンをマウスでクリックして指
定した後属性ボタン2710をクリックすると、当該文
字パターンの文字種、フォント種などの属性を変更でき
る。
【0111】2707は次行ボタン、2708は前行ボ
タンである。次行ボタン2707、前行ボタン2708
により修正対象の文字行を文書中の直前の行や直後の行
に変更できる。
【0112】2709は、再認識ボタンである。オペレ
ータが文字分離や文字属性を修正した後再認識ボタン2
709をクリックすると、再認識制御部117(図1参
照)が再認識処理を起動する。なお再認識ボタンを設け
ずに、修正が施される度に再認識を起動し、その結果を
表示して、繰り返し修正を受け付けるようにしてもよ
い。
【0113】図28に、本発明を実施するシステムにお
ける表示画面の一例を示す。図16に示す画面において
文字認識結果のテキストデータを修正することができる
が、本図は文字認識結果を修正するための画面の別の例
である。
【0114】ウインドウ2804には、文字行毎の拡大
画像を表示するフィールド2801と、認識結果のテキ
ストコードを表示するフィールド2802が交互に配置
される。現在表示中の文字行は、ウインドウ2803に
おいて全体画像に重ねて表示した黒太線で表示される。
文字の修正のために、認識の過程で得られる候補文字を
表示し、この候補文字の中からオペレータにより選択さ
れた文字を、修正後の文字とできるようにしてもよい。
【0115】図29に、本発明を実施するシステムにお
ける表示画面の一例を示す。この画面は、言語処理の結
果を修正するための語句修正画面である。2901は、
入力した画像を表示するウインドウである。2902
は、認識結果のテキストデータを表示する画面である。
2902上の任意の文字をマウスカーソルでダブルクリ
ックすると、2903に示すような言語処理の過程で得
られた候補語句をポップアップメニューで表示する。表
示された候補語句をクリックすることにより、当該語句
が指定した語句に置換される。
【0116】図30に、本発明を実施するシステムにお
ける表示画面の一例を示す。この画面は、言語処理の結
果を修正するための語句修正画面の他の例である。図2
9における説明と同様に、3002上の任意の文字をマ
ウスカーソルでダブルクリックすると、3001に示す
ような言語処理の過程で得られた候補語句をポップアッ
プメニューで表示する。表示された候補語句のなかより
正しいものを、キーボード上のテンキーを用いて指定す
ることができる。
【0117】
【発明の効果】テキストリーダーにおけるレイアウト解
析、文字行抽出、文字分離、文字認識、言語処理など、
多段階におよぶ処理における認識誤りに対応して効率良
く認識結果を修正することができる。
【図面の簡単な説明】
【図1】本発明を実現するためのシステムの構成を示す
図である。
【図2】領域、ブロック、文字行、文字の関係を示す図
である。
【図3】従来の文書認識システムにおける処理の流れを
示す図である。
【図4】本発明における処理の流れを示す図である。
【図5】再認識処理の流れを示す図である。
【図6】本発明における処理の流れの別の例を示す図で
ある。
【図7】図5の例における再認識処理の流れを示す図で
ある。
【図8】図5の例における再認識処理を制御するテーブ
ルを示す図である。
【図9】再認識処理を制御するテーブルの別の例を示す
図である。
【図10】再認識の作用の例を示す図である。
【図11】再認識の作用の別の例を示す図である。
【図12】本発明において用いられるデータ形式を示す
図である。
【図13】図6の例における一括処理の流れを示す図で
ある。
【図14】図6の例における一括処理を制御するテーブ
ルを示す図である。
【図15】文書認識を起動する画面を示す図である。
【図16】認識処理および修正の操作をするための画面
を示す図である。
【図17】一括処理を制御するテーブルの実行指定フラ
グの値を入力するための画面を示す図である。
【図18】文書画像の傾きを入力するための画面を示す
図である。
【図19】領域の座標および属性を指定する画面を起動
するための画面を示す図である。
【図20】領域の座標を指定するための画面を示す図で
ある。
【図21】領域座標の指定において非矩形の領域を指定
するための画面を示す図である。
【図22】領域の属性を指定するための画面を示す図で
ある。
【図23】領域の文字の属性を指定するための画面を示
す図である。
【図24】領域の文字行の属性を指定するための画面を
示す図である。
【図25】ブロックの読み順を指定するための画面を示
す図である。
【図26】文字行の座標および属性を修正するための画
面を示す図である。
【図27】文字分離結果を修正するための画面を示す図
である。
【図28】文字認識結果を修正するための画面を示す図
である。
【図29】言語処理の結果を修正するための画面を示す
図である。
【図30】言語処理の結果を修正するための他の画面を
示す図である。
【図31】言語処理を説明するための図である。
【符号の説明】
101…全体制御部、102…ユーザーインタフェース
部、103…文字行検出部、104…レイアウト解析
部、105…文字分離部、106…文字認識部、107
…言語処理部、108…レイアウト辞書、109…認識
辞書、110…言語辞書、111…文字行修正部、11
2…レイアウト修正部、113…文字分離修正部、11
4…文字修正部、115…語句修正部、116…処理条
件修正部、117…再認識制御部、118…逐次認識制
御部、119…一括認識制御部、120…スキャナ、1
21…画像蓄積装置、122…通信端末、123…プリ
ンタ、124…CRT、125…マウス、126…キー
ボード、127…前処理部。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 中島 和樹 東京都国分寺市東恋ケ窪一丁目280番地 株式会社日立製作所中央研究所内

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】認識対象である文書内の文字を2値画像と
    して入力する入力手段と、前記画像から文字行を抽出す
    る文字行抽出手段と、前記画像中のレイアウトを解析す
    るレイアウト解析手段と、前記文字行およびレイアウト
    に基づき各文字の文字パターンを切り出す文字分離手段
    と、前記文字パターンを認識しテキストデータに変換す
    る文字認識手段と、前記認識されたテキストデータに言
    語処理を行なう言語処理手段と、前記言語処理を行なわ
    れたテキストデータを前記解析されたレイアウトに従っ
    て表示する表示手段とを有する文書認識システムにおい
    て、 前記文字行抽出手段として、 前記画像中から各文字行を特定する座標を検出する文字
    行検出手段と、 前記文字行検出手段により検出された各文字行の領域
    を、前記画像と共に前記表示手段に表示させる表示制御
    手段と、 前記表示された文字行を特定する座標を外部から変更す
    るための変更手段と、 前記変更された座標に基づき前記抽出された文字行の領
    域を修正する文字行修正手段と、 前記修正された文字行を前記表示手段に表示させる表示
    制御手段と、 を備えることを特徴とする文書認識システム。
  2. 【請求項2】請求項1において、 前記レイアウト解析手段として、 前記画像中のレイアウトを検出するレイアウト検出手段
    と、 前記レイアウト検出手段により検出されたレイアウトに
    従い、該レイアウトの段組を前記画像と共に前記表示手
    段に表示させる表示制御手段と、 前記表示されたレイアウトを外部から変更するための変
    更手段と、 前記変更されたレイアウトに基づき前記画像中のレイア
    ウトを修正するレイアウト修正手段と、 前記修正されたレイアウトを前記表示手段に表示させる
    表示制御手段と、 を備えることを特徴とする文書認識システム。
  3. 【請求項3】請求項2において、 前記文字分離手段として、 前記文字行に含まれる文字の各文字パターンを特定する
    座標を検出する文字分離検出手段と、 前記文字分離検出手段により検出された各文字パターン
    の領域を、前記表示手段に表示させる表示制御手段と、 前記表示された文字パターンを特定する座標を外部から
    変更するための変更手段と、 前記変更された座標に基づき前記検出された文字パター
    ンの領域を修正する文字分離修正手段と、 前記修正された文字パターンを前記表示手段に表示させ
    る表示制御手段と、 を備えることを特徴とする文書認識システム。
  4. 【請求項4】請求項3において、 前記言語処理手段として、 前記認識されたテキストデータの語句認識を行なう語句
    認識手段と、 前記語句認識手段により語句認識を行なわれたテキスト
    データを、前記表示手段に表示させる表示制御手段と、 前記表示されたテキストデータの語句の一部を外部から
    変更するための変更手段と、 前記語句認識手段に、前記変更されたテキストデータの
    語句認識を行なわせる語句修正手段と、 前記語句修正手段を経たテキストデータを、前記表示手
    段に表示させる表示制御手段と、 を備えることを特徴とする文書認識システム。
  5. 【請求項5】請求項4において、 前記文字行抽出手段、レイアウト解析手段、文字分離手
    段、文字認識手段および言語処理手段うち、起動すべき
    手段および起動すべき順序を、外部から設定するための
    設定手段と、 前記設定手段により設定された手段を、設定された順序
    で起動するモードを、外部から指定されるモード指定手
    段と、 前記モード指定手段により前記モードが指定されると、
    前記設定された手段を、設定された順序で起動するため
    の起動制御手段と、 を備えることを特徴とする文書認識システム。
  6. 【請求項6】請求項1において、 前記文字行抽出手段により抽出された文字行の傾きを検
    出する傾き検出手段と、 前記傾き検出手段により検出
    された傾きを示す指標と共に、前記文字行を前記表示手
    段に表示させる表示制御手段と、 前記表示された文字行の傾きを外部から変更するための
    変更手段と、 前記変更された傾きに基づき前記指標を修正する傾き修
    正手段と、 前記修正された指標と共に、前記文字行を前記表示手段
    に表示させる表示制御手段と、 を備えることを特徴とする文書認識システム。
  7. 【請求項7】少なくとも入力装置、演算装置および表示
    装置を備え、認識対象である文書内の文字を前記入力装
    置により2値画像として入力し、前記演算装置により前
    記画像から文字行を抽出し、前記画像中のレイアウトを
    解析し、前記文字行およびレイアウトに基づき各文字の
    文字パターンを切り出し、前記文字パターンを認識して
    テキストデータに変換し、前記認識されたテキストデー
    タに言語処理を行ない、前記言語処理を行なわれたテキ
    ストデータを前記解析されたレイアウトに従って前記表
    示装置に表示する文書認識システムにおける文書認識方
    法であって、 前記表示装置に表示されたテキストデータの文字行の領
    域を修正し、 前記修正された文字行を前記表示手段に表示し、 前記演算装置により、前記修正された文字行から各文字
    の文字パターンを切り出し、前記文字パターンを認識し
    てテキストデータに変換し、前記認識されたテキストデ
    ータに言語処理を行ない、前記言語処理を行なわれたテ
    キストデータを前記解析されたレイアウトに従って前記
    表示装置に表示することを特徴とする文書認識方法。
  8. 【請求項8】請求項7において、 前記表示装置に表示されたテキストデータのレイアウト
    の段組を修正し、 前記修正されたレイアウトに基づき、前記文字行から各
    文字の文字パターンを切り出し、 前記文字パターンを認識してテキストデータに変換し、 前記認識されたテキストデータに言語処理を行ない、 前記言語処理を行なわれたテキストデータを前記解析さ
    れたレイアウトに従って前記表示装置に表示することを
    特徴とする文書認識方法。
  9. 【請求項9】請求項7または8において、 前記表示装置に表示されたテキストデータの文字パター
    ンの領域を修正し、 前記修正された文字パターンを前記表示手段に表示し、 前記演算装置により、前記文字パターンを認識してテキ
    ストデータに変換し、 前記認識されたテキストデータに言語処理を行ない、 前記言語処理を行なわれたテキストデータを前記解析さ
    れたレイアウトに従って前記表示装置に表示することを
    特徴とする文書認識方法。
JP5057441A 1993-03-17 1993-03-17 文書認識方法およびシステム Pending JPH06274680A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP5057441A JPH06274680A (ja) 1993-03-17 1993-03-17 文書認識方法およびシステム
US08/725,477 US5717794A (en) 1993-03-17 1996-10-04 Document recognition method and system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5057441A JPH06274680A (ja) 1993-03-17 1993-03-17 文書認識方法およびシステム

Publications (1)

Publication Number Publication Date
JPH06274680A true JPH06274680A (ja) 1994-09-30

Family

ID=13055752

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5057441A Pending JPH06274680A (ja) 1993-03-17 1993-03-17 文書認識方法およびシステム

Country Status (2)

Country Link
US (1) US5717794A (ja)
JP (1) JPH06274680A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10162098A (ja) * 1996-12-02 1998-06-19 Nec Corp 文書電子化装置及び文書電子化方法
JP2013045436A (ja) * 2011-08-26 2013-03-04 Fuji Xerox Co Ltd 文字認識装置、文字認識結果処理システム及びプログラム
JP2014146091A (ja) * 2013-01-28 2014-08-14 Fuji Xerox Co Ltd 画像処理装置及び画像処理プログラム
JP2016082357A (ja) * 2014-10-15 2016-05-16 富士通株式会社 画像処理装置、画像処理プログラムおよび画像処理方法
JP2017204270A (ja) * 2016-05-10 2017-11-16 凸版印刷株式会社 文字列領域・文字矩形抽出装置、文字列領域・文字矩形抽出方法、およびプログラム

Families Citing this family (62)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH082181A (ja) * 1994-06-24 1996-01-09 Kenji Okayasu 図形描画装置の制御方法及び図形描画装置及び波形記録装置
US6456739B1 (en) * 1995-06-19 2002-09-24 Canon Kabushiki Kaisha Apparatus for recognizing characters and a method therefor
JP3427692B2 (ja) * 1996-11-20 2003-07-22 松下電器産業株式会社 文字認識方法および文字認識装置
JP4071328B2 (ja) * 1997-11-18 2008-04-02 富士通株式会社 文書画像処理装置および方法
JP4338155B2 (ja) * 1998-06-12 2009-10-07 キヤノン株式会社 画像処理装置及びその方法、コンピュータ可読メモリ
DE69926699T2 (de) * 1998-08-31 2006-06-08 International Business Machines Corp. Unterscheidung zwischen Formularen
JP2001137788A (ja) * 1999-11-12 2001-05-22 Hitachi Ltd 地名表記辞書作成方法および地名表記辞書作成装置
JP3756719B2 (ja) * 2000-01-20 2006-03-15 理想科学工業株式会社 文書修飾装置及び画像処理装置
JP3962891B2 (ja) * 2000-08-09 2007-08-22 富士ゼロックス株式会社 文書画像処理装置、文書画像処理方法、及び記憶媒体
US7411593B2 (en) 2001-03-28 2008-08-12 International Business Machines Corporation Image rotation with substantially no aliasing error
JP2002342710A (ja) * 2001-05-16 2002-11-29 Nec Corp 文字切出し装置及びそれに用いる文字切出し方法並びにそのプログラム
JP2003016216A (ja) * 2001-06-29 2003-01-17 Oki Electric Ind Co Ltd コンテンツの不正流用検知システム,及び,コンピュータプログラム
US7499602B2 (en) * 2001-07-12 2009-03-03 International Business Machines Corporation Efficiency and speed in verification of recognition results
US7039256B2 (en) * 2001-07-12 2006-05-02 International Business Machines Corporation Efficient verification of recognition results
US6768816B2 (en) 2002-02-13 2004-07-27 Convey Corporation Method and system for interactive ground-truthing of document images
RU2234734C1 (ru) * 2002-12-17 2004-08-20 Аби Софтвер Лтд. Способ многоэтапного анализа информации растрового изображения
JP4272015B2 (ja) * 2003-08-27 2009-06-03 パナソニック株式会社 ネットワークスキャナ装置及びこれを備えた複合機
DE10345526A1 (de) * 2003-09-30 2005-05-25 Océ Document Technologies GmbH Verfahren und System zum Erfassen von Daten aus maschinell lesbaren Dokumenten
JP4574235B2 (ja) * 2004-06-04 2010-11-04 キヤノン株式会社 画像処理装置、及びその制御方法、プログラム
US20060164682A1 (en) * 2005-01-25 2006-07-27 Dspv, Ltd. System and method of improving the legibility and applicability of document pictures using form based image enhancement
US20060206792A1 (en) * 2005-03-10 2006-09-14 Kabushiki Kaisha Toshiba Document file management apparatus, document file management method and document file management program
US9769354B2 (en) 2005-03-24 2017-09-19 Kofax, Inc. Systems and methods of processing scanned data
US9137417B2 (en) 2005-03-24 2015-09-15 Kofax, Inc. Systems and methods for processing video data
US8749839B2 (en) * 2005-03-24 2014-06-10 Kofax, Inc. Systems and methods of processing scanned data
JP4900640B2 (ja) * 2005-03-30 2012-03-21 京セラ株式会社 携帯端末装置およびその文書表示制御方法
US20070217692A1 (en) * 2006-03-17 2007-09-20 Data Trace Information Services, Llc Property record document data verification systems and methods
US7720316B2 (en) * 2006-09-05 2010-05-18 Microsoft Corporation Constraint-based correction of handwriting recognition errors
JP2009193356A (ja) * 2008-02-14 2009-08-27 Canon Inc 画像処理装置、画像処理方法、プログラム、及び記憶媒体
US8620080B2 (en) * 2008-09-26 2013-12-31 Sharp Laboratories Of America, Inc. Methods and systems for locating text in a digital image
US9767354B2 (en) 2009-02-10 2017-09-19 Kofax, Inc. Global geographic information retrieval, validation, and normalization
US9576272B2 (en) 2009-02-10 2017-02-21 Kofax, Inc. Systems, methods and computer program products for determining document validity
US8774516B2 (en) 2009-02-10 2014-07-08 Kofax, Inc. Systems, methods and computer program products for determining document validity
US9349046B2 (en) 2009-02-10 2016-05-24 Kofax, Inc. Smart optical input/output (I/O) extension for context-dependent workflows
US8958605B2 (en) 2009-02-10 2015-02-17 Kofax, Inc. Systems, methods and computer program products for determining document validity
US8903173B2 (en) * 2011-12-21 2014-12-02 Ncr Corporation Automatic image processing for document de-skewing and cropping
KR20130080515A (ko) * 2012-01-05 2013-07-15 삼성전자주식회사 디스플레이 장치 및 그 디스플레이 장치에 표시된 문자 편집 방법.
US9058515B1 (en) 2012-01-12 2015-06-16 Kofax, Inc. Systems and methods for identification document processing and business workflow integration
US8989515B2 (en) 2012-01-12 2015-03-24 Kofax, Inc. Systems and methods for mobile image capture and processing
US10146795B2 (en) 2012-01-12 2018-12-04 Kofax, Inc. Systems and methods for mobile image capture and processing
US9058580B1 (en) 2012-01-12 2015-06-16 Kofax, Inc. Systems and methods for identification document processing and business workflow integration
US9483794B2 (en) 2012-01-12 2016-11-01 Kofax, Inc. Systems and methods for identification document processing and business workflow integration
JP6119952B2 (ja) * 2012-05-15 2017-04-26 富士ゼロックス株式会社 画像処理装置及び画像処理プログラム
US9256592B1 (en) * 2012-11-07 2016-02-09 Amazon Technologies, Inc. System for detecting and correcting broken words
US20140282139A1 (en) * 2013-03-13 2014-09-18 Outright, Inc. System for mobile content management
US9208536B2 (en) 2013-09-27 2015-12-08 Kofax, Inc. Systems and methods for three dimensional geometric reconstruction of captured image data
US9355312B2 (en) 2013-03-13 2016-05-31 Kofax, Inc. Systems and methods for classifying objects in digital images captured using mobile devices
WO2014160426A1 (en) 2013-03-13 2014-10-02 Kofax, Inc. Classifying objects in digital images captured using mobile devices
US20140316841A1 (en) 2013-04-23 2014-10-23 Kofax, Inc. Location-based workflows and services
DE202014011407U1 (de) 2013-05-03 2020-04-20 Kofax, Inc. Systeme zum Erkennen und Klassifizieren von Objekten in durch Mobilgeräte aufgenommenen Videos
JP6286866B2 (ja) * 2013-05-20 2018-03-07 オムロン株式会社 画像処理装置および画像処理方法
JP2016538783A (ja) 2013-11-15 2016-12-08 コファックス, インコーポレイテッド モバイル映像データを用いて長尺文書の合成画像を生成するためのシステムおよび方法
US9760788B2 (en) 2014-10-30 2017-09-12 Kofax, Inc. Mobile document detection and orientation based on reference object characteristics
US9361536B1 (en) * 2014-12-16 2016-06-07 Xerox Corporation Identifying user marks using patterned lines on pre-printed forms
US9501853B2 (en) * 2015-01-09 2016-11-22 Adobe Systems Incorporated Providing in-line previews of a source image for aid in correcting OCR errors
JP2016181057A (ja) * 2015-03-23 2016-10-13 株式会社東芝 画像処理装置、画像処理方法及び画像処理プログラム
CN106293431A (zh) * 2015-05-26 2017-01-04 富泰华工业(深圳)有限公司 手写输入识别方法、系统与电子装置
US10242285B2 (en) 2015-07-20 2019-03-26 Kofax, Inc. Iterative recognition-guided thresholding and data extraction
US9779296B1 (en) 2016-04-01 2017-10-03 Kofax, Inc. Content-based detection and three dimensional geometric reconstruction of objects in image and video data
US10803350B2 (en) 2017-11-30 2020-10-13 Kofax, Inc. Object detection and image cropping using a multi-detector approach
US10241992B1 (en) 2018-04-27 2019-03-26 Open Text Sa Ulc Table item information extraction with continuous machine learning through local and global models
US11017258B2 (en) * 2018-06-05 2021-05-25 Microsoft Technology Licensing, Llc Alignment of user input on a screen
JP2022097138A (ja) * 2020-12-18 2022-06-30 富士フイルムビジネスイノベーション株式会社 情報処理装置及び情報処理プログラム

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07104909B2 (ja) * 1987-03-04 1995-11-13 シャープ株式会社 文字認識方法
US5233672A (en) * 1987-12-11 1993-08-03 Kabushiki Kaisha Toshiba Character reader and recognizer with a specialized editing function
US5129012A (en) * 1989-03-25 1992-07-07 Sony Corporation Detecting line segments and predetermined patterns in an optically scanned document
JPH032979A (ja) * 1989-05-31 1991-01-09 Toshiba Corp 画像修正方法及び装置
US5369716A (en) * 1989-08-31 1994-11-29 Kabushiki Kaisha Toshiba Document reader and reading processing method therefor
US5187753A (en) * 1989-12-08 1993-02-16 Xerox Corporation Method and apparatus for identification and correction of document skew
JPH0475185A (ja) * 1990-07-17 1992-03-10 Mitsubishi Electric Corp 入力装置
JPH0475184A (ja) * 1990-07-17 1992-03-10 Mitsubishi Electric Corp 入力装置
JPH04155482A (ja) * 1990-10-19 1992-05-28 Fujitsu Ltd 誤認識文字の訂正方法
JP2835178B2 (ja) * 1990-11-28 1998-12-14 株式会社東芝 文書読取装置
US5282052A (en) * 1992-03-20 1994-01-25 Xerox Corporation Techniques for automatic form creation by combining partial operations

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10162098A (ja) * 1996-12-02 1998-06-19 Nec Corp 文書電子化装置及び文書電子化方法
JP2013045436A (ja) * 2011-08-26 2013-03-04 Fuji Xerox Co Ltd 文字認識装置、文字認識結果処理システム及びプログラム
JP2014146091A (ja) * 2013-01-28 2014-08-14 Fuji Xerox Co Ltd 画像処理装置及び画像処理プログラム
JP2016082357A (ja) * 2014-10-15 2016-05-16 富士通株式会社 画像処理装置、画像処理プログラムおよび画像処理方法
JP2017204270A (ja) * 2016-05-10 2017-11-16 凸版印刷株式会社 文字列領域・文字矩形抽出装置、文字列領域・文字矩形抽出方法、およびプログラム

Also Published As

Publication number Publication date
US5717794A (en) 1998-02-10

Similar Documents

Publication Publication Date Title
JPH06274680A (ja) 文書認識方法およびシステム
EP0439951B1 (en) Data processing
JP3427692B2 (ja) 文字認識方法および文字認識装置
US4933979A (en) Data reading apparatus for reading data from form sheet
JPH11120293A (ja) 文字認識/修正方式
JPH0554073A (ja) デジタル翻訳装置
US6504540B1 (en) Method and apparatus for altering one or more attributes of one or more blocks of image data in a document
JPH08166865A (ja) 画面生成方法及びその装置
EP0519713B1 (en) Character input method and apparatus
JP2006277149A (ja) 文字画像切出装置、文字画像切出方法およびプログラム
JPH10134141A (ja) 文書照合装置および方法
JPS60217483A (ja) 文字認識装置
JP2662404B2 (ja) 光学文字読取装置における辞書作成方法
JPH08137987A (ja) 光学式文字読取装置
JP3077580B2 (ja) 文字読取装置
JPH0689330A (ja) 画像ファイリングシステム
JP3717971B2 (ja) 認識文字とイメージデータの対応的表示方法及び文字認識装置
JPH06223221A (ja) 文字認識装置
JP2931485B2 (ja) 文字切出し装置及び方法
JPH06333083A (ja) 光学式文字読取装置
JPH07239901A (ja) 光学式読み取り装置における文字修正方法
JP2829186B2 (ja) 光学的文字読取装置
JP3022790B2 (ja) 手書き文字入力装置
JPH04293185A (ja) ファイリング装置
JPH07134750A (ja) 文書画像認識装置