JP4071328B2

JP4071328B2 - 文書画像処理装置および方法

Info

Publication number: JP4071328B2
Application number: JP31684997A
Authority: JP
Inventors: 洋鎌田; 克仁藤本; 浩司黒川
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1997-11-18
Filing date: 1997-11-18
Publication date: 2008-04-02
Anticipated expiration: 2017-11-18
Also published as: US6466694B2; JPH11149520A; US20010014176A1; CN1217512A; CN1120442C

Description

【０００１】
【発明の属する技術分野】
本発明は、文書画像を入力として、文字、表、図、枠などの文書画像構成要素の画像を決定し、文書画像構成要素の認識によるコード化処理を行う文書画像処理装置に関する。
【０００２】
【従来の技術】
近年のパーソナルコンピュータの普及と通信ネットワークの整備により、電子化文書が多く流通するようになっている。しかし、情報流通の主要媒体は依然として紙文書であり、既存の紙文書も多く存在する。そこで、紙文書から電子化文書への変換を行い、変換結果を編集する文書画像認識・編集装置の需要が拡大している。
【０００３】
文書画像認識・編集装置とは、文書画像を入力として、文字、表、図、枠などの文書画像構成要素の画像を決定し、文書画像構成要素の認識によるコード化処理を行う装置である。コード化処理では、特に、文字画像が文字コードに変換される。
【０００４】
しかし、文書画像処理装置における認識処理では、正解率が１００％にならないため、正解でない認識結果の扱いが課題であり、特に、効率的に修正作業が行える仕組みが望まれている。
【０００５】
図３８は、従来の文書画像認識・編集装置の構成図である。文書画像入力部１は、処理対象の文書画像を入力し、領域識別部２は、画像中の個別領域を識別して、その結果を領域識別結果格納部３に格納する。ここで、表示部８が、領域識別結果を画面に表示し、必要に応じて、ユーザがそれを修正する。このとき、第１の修正部６により、領域識別結果格納部３内のデータが修正される。
【０００６】
次に、個別領域認識部４は、個別領域内の文字を認識し、その結果を認識結果格納部５に格納する。そして、表示部８が、認識結果を画面に表示し、必要に応じて、ユーザがそれを修正する。このとき、第２の修正部７により、認識結果格納部５内のデータが修正される。
【０００７】
このような文書画像認識・編集装置においては、正解率が１００％にならない認識結果に対する扱いと修正作業を、次のように処理している。
（１）領域識別部２による領域識別処理として、個別領域の文書画像構成要素の文章、表、図、枠などの属性を、必要であれば修正して決定した後、個別領域認識部４が、属性に応じた個別の文書画像構成要素の認識を行う。文章領域であれば、個別の文字画像を決定し、文字認識する。表領域であれば、罫線抽出を行い、各セル内の文字領域を決定し、文字認識する。認識結果は、必要に応じて修正される。
【０００８】
（２）文字認識処理の結果は、図３９に示すように、確からしい順に並んだ候補文字コードの列を含んでいる。第１位の候補文字コードが認識結果の初期値である。第２の修正部７は、第２位以下の候補文字コードを表示し、ユーザはそれらのうちの１つを選択することができる。文字認識結果の修正時には、対応する文字画像は、入力画像中の元の位置Ｐ１に表示される。
【０００９】
【発明が解決しようとする課題】
しかしながら、従来の文書画像認識・編集装置においては、次に述べるように、認識結果の修正に多大な労力を要するという問題がある。
【００１０】
（１）従来の文書画像処理は、領域識別と領域内認識という２段階から成っており、各段階でユーザの修正処理を含む構成である。このように、ユーザにとっては、２度の修正操作が必要となり、操作が煩わしい。また、領域識別の段階で識別誤りがなくても、識別誤りの有無を確認する必要があり、この確認を省略した場合、領域内認識の後で識別誤りのあった箇所を修正することはできない。この場合、正しい処理結果を得るには、最初から処理をやり直し、領域識別の段階で識別誤りを修正する必要がある。
【００１１】
（２）文書画像構成要素の認識結果表示に含まれる情報は、図３９に示したように、コード情報のみである。このため、文字認識結果が正解であるかどうかを確かめるには、認識結果表示において対象となる文字が指示された場合に、入力画像中の対応する文書画像構成要素の位置Ｐ１を枠で囲って表示するなどしていた。しかし、認識結果表示のコード情報と入力画像中の文字画像を比較照合する際に、ユーザの視点の移動が大きく、照合作業はユーザにとって負担になる。
【００１２】
また、候補文字コードの修正選択では、候補文字中に正しい文字がない場合がある。この場合、正しい文字コードを最初から入力する必要があり、入力作業がユーザにとって負担になる。
【００１３】
本発明の課題は、文書画像認識・編集装置による処理結果の確認・修正作業において、ユーザの負担を軽減し、効率の良い操作を実現する文書画像処理装置およびその方法を提供することである。
【００１４】
【課題を解決するための手段】
図１は、本発明の文書画像処理装置の構成図である。図１の文書画像処理装置は、識別手段１１、認識手段１２、出力手段１３、修正手段１４、抽出手段１５、コード付加手段１６、および編集手段１７を備え、入力された画像の認識処理を行う。
【００１５】
本発明の第１の原理によれば、識別手段１１、認識手段１２、出力手段１３、および修正手段１４は、次のように動作する。
識別手段１１は、入力画像のパターン領域を識別して、パターン領域の種類を決定する。
【００１６】
認識手段１２は、パターン領域内に含まれるパターンの認識処理を行う。
出力手段１３は、パターン領域の種類を表す種類情報とパターンを表す個別情報とを、入力画像を構成する画像構成要素の認識結果候補として出力する。
【００１７】
修正手段１４は、認識結果候補を修正する。
パターン領域とは、入力された画像に含まれる、文章、表、図、囲み枠、文字などの画像領域を指し、あるパターン領域が他のパターン領域を含む場合もあり得る。例えば、文章のパターン領域は、通常、複数の文字のパターン領域から構成される。また、画像構成要素とは、入力画像の部分画像を指し、パターン領域またはパターン領域内のパターンに対応する。
【００１８】
識別手段１１は、認識すべきパターン領域の種類が、文章、表、図、囲み枠、文字などのうちどれに対応するかを決定し、認識手段１２は、文章、表、囲み枠などの内部構造を持つパターン領域について、文字認識や罫線認識などの認識処理を行う。
【００１９】
そして、出力手段１３は、パターン領域の種類情報と認識されたパターンを表す文字フォントなどの個別情報とを認識結果候補として、一括して出力する。ユーザは、出力結果を見ながら、修正手段１４を用いて、種類情報や個別情報を一括して修正することができる。
【００２０】
このように、第１の原理によれば、文書画像の領域識別と領域内認識を一括して行い、その結果を一括して修正できる。このため、従来のような２段階の修正作業を行わなくてもよくなり、修正作業におけるユーザの負担が軽減される。
【００２１】
また、本発明の第２の原理によれば、出力手段１３、抽出手段１５、コード付加手段１６、および編集手段１７は、次のように動作する。
抽出手段１５は、入力画像から、それを構成する画像構成要素を抽出する。
【００２２】
コード付加手段１６は、画像構成要素に新たなコード情報を付加する。
出力手段１３は、画像構成要素に対応する画像データと既存のコード情報に対応する文字パターンが混在した文書情報を出力する。
【００２３】
編集手段１７は、新たなコード情報と既存のコード情報を用いて文書情報を編集する。
入力画像から抽出された画像構成要素にコード情報を付加することで、それを既存のコード情報に対応する文字パターンと同様に扱うことが可能となる。したがって、入力画像の部分画像と、コード情報として与えられた文字パターンとが混在した文書を表示して、編集することができる。
【００２４】
第２の原理によれば、画像構成要素に付加されたコード情報を用いて、文字認識結果の候補の近くに元の画像を表示することもでき、認識結果と入力画像の比較確認のための視点移動が低減される。
【００２５】
また、本発明の第３の原理によれば、認識手段１２、出力手段１３、および抽出手段１５は、次のように動作する。
抽出手段１５は、入力画像から、それを構成する画像構成要素を抽出する。
【００２６】
認識手段１２は、画像構成要素の認識処理を行う。
出力手段１３は、画像構成要素に対応する画像データを、入力画像から分離して、画像構成要素の認識結果における１つ以上の候補とともに出力する。
【００２７】
第３の原理によれば、入力画像から抽出された画像構成要素の画像を、その認識結果候補の近くに画面表示することができ、認識結果と入力画像の比較確認のための視点移動が低減される。また、認識結果候補中に正解がない場合は、元の画像を選択して修正できるため、修正用の文字コードを入力し直す必要がなくなる。
また、本発明の第４の原理によれば、識別手段１１、認識手段１２、出力手段１３、および修正手段１４は、次のように動作する。識別手段１１は、入力画像内の文章、表、図、囲み枠、および文字のうちの１つに対応する領域であるパターン領域を識別して、パターン領域の種類を決定する。認識手段１２は、内部構造をもつパターン領域内に含まれるパターンの認識処理を行う。出力手段１３は、文章、表、図、囲み枠、および文字のうちの１つに対応するパターン領域の種類を表す種類情報を、入力画像を構成する画像構成要素の認識結果候補として画面表示し、その種類情報が文字を表す場合には、種類情報と対応する文字パターンを表す個別情報とを画像構成要素の認識結果候補として画面表示する。修正手段１４は、画面表示された認識結果候補を修正する。
識別手段１１が、パターン領域の種類の第１位の候補を文字と決定したとき、認識手段１２は、そのパターン領域内に含まれるパターンの文字認識処理を行い、出力手段１３は、認識結果の１つ以上の候補文字の個別情報を上位の認識結果候補として画面表示し、文字以外の種類情報を下位の認識結果候補として画面表示する。識別手段１１が、パターン領域の種類の第１位の候補を文字以外の特定の種類と決定したとき、出力手段１３は、その特定の種類の種類情報を上位の認識結果候補として画面表示し、他の種類情報を下位の認識結果候補として画面表示する。
修正手段１４が、画面表示された認識結果候補の種類情報を文字に修正したとき、認識手段１２は、必要に応じて、パターン領域内に含まれるパターンの文字認識処理を行い、出力手段１３は、認識結果の１つ以上の候補文字の個別情報を上位の認識結果候補として画面表示する。修正手段１４が、画面表示された認識結果候補の種類情報を文字以外の特定の種類に修正したとき、認識手段１２は、その特定の種類に応じて、パターン領域内に含まれるパターンの認識処理を行う。
【００２８】
例えば、図１の識別手段１１、認識手段１２、修正手段１４は、それぞれ、後述する図２の領域識別部２２、個別領域認識部２３、修正部２６に対応し、図１の抽出手段１５、コード付加手段１６、編集手段１７は、それぞれ、後述する図１５の文書画像構成要素抽出部４２、コード付加部４３、編集部４９に対応する。また、例えば、図１の出力手段１３は、図２の表示部２５および図１５の表示部４６に対応する。
【００２９】
【発明の実施の形態】
以下、図面を参照しながら、本発明の実施の形態を詳細に説明する。
本発明では、上述した従来の問題点（１）、（２）に対応して、次のような対策を施す。
【００３０】
（１）領域識別の識別結果候補を領域内認識段階でも保持しておき、識別結果候補と領域内認識結果候補を同時に修正選択できるようにする。これにより、領域識別と領域内認識を一括して行うことができ、処理結果を一括して修正できるようになる。
【００３１】
文書画像処理装置は、文書画像を入力とし、文章、表、図、囲み枠などの領域を識別し、文章、表、囲み枠などの内部構造をもつ領域については、文字認識や罫線認識など領域内部の認識処理を行う。このとき、領域および領域内部の領域からなる文書画像構成要素の認識結果候補コードとして、「文章」、「表」、「図」、「枠」などの領域の種類コードと、「文字コード」などの個別コードを合わせて含むことにより、領域識別と領域内認識の結果を一括して修正できるようにする。
【００３２】
認識コードを修正するには、文書画像構成要素を指示する手段が必要である。文書画像構成要素とは、文書画像の部分画像であり、文字などの文書画像を構成する要素を意味する。通常は、文書画像領域の座標位置により、文書画像構成要素を指示するが、このために、文書画像構成要素の領域を下記の（ａ）、（ｂ）のいずれかの方法で定義する。
（ａ）文書画像構成要素の領域は、文書画像構成要素の文字・図形に対応する画素領域と定義する。
（ｂ）文書画像構成要素の領域は、文書画像構成要素の文字・図形の外接矩形内と定義する。
【００３３】
上記に定義した文書画像構成要素の領域と文書画像領域の指示座標位置により、文書画像構成要素を最初に指示する手段として、下記の（ａ）、（ｂ）、（ｃ）が考えられる。
（ａ）文書画像の指示座標を含む最も内側の文書画像構成要素を、指示対象とする。
（ｂ）文書画像の指示座標を含む最大の文書画像構成要素を、指示対象とする。（ｃ）文書画像の指示座標に外接枠が最も近い文書画像構成要素を、指示対象とする。
【００３４】
上記の（ａ）、（ｂ）の方法では、指定できない文書画像構成要素が生ずる場合があるが、それらの文書画像構成要素は、上記の（ｃ）の場合も含めて、既に指定した文書画像構成要素との関係から、下記（ａ）、（ｂ）のように指示することができる。
（ａ）既に指示した文書画像構成要素を含む最も内側の文書画像構成要素を、指示対象とする。
（ｂ）既に指示した文書画像構成要素内で文書画像の指示座標を含む最大の文書画像構成要素を、指示対象とする。
【００３５】
文書画像構成要素の認識結果候補コードのユーザへの呈示方法は、例えば、下記（ａ）、（ｂ）のようになる。
（ａ）認識結果候補第１位が「文字」の場合、文字認識を行い、文字認識結果の候補文字コードを上位の認識結果候補コードとし、「文字」以外の「表」、「図」、「枠」などの文書画像構成要素の種類コードを、下位の認識結果候補コードとする。
（ｂ）認識結果候補第１位が「文字」以外の「文章」、「表」、「図」、「枠」などの文書画像構成要素の種類の場合、その文書画像構成要素の種類コードを第１位の認識結果候補コードとし、これ以外の文書画像構成要素の種類コードを下位の認識結果候補コードとする。
【００３６】
また、修正指示時の動作は下記（ａ）、（ｂ）のようになる。
（ａ）認識結果候補コードとして「文字」の種類コードを修正指示した場合、該当する入力文字画像の文字認識を行い、単数あるいは複数の文字認識結果候補文字コードで、認識結果候補コードの「文字」を置き換える。
（ｂ）認識結果候補コードとして「文字」以外の「表」、「図」、「枠」などの文書画像構成要素の種類コードを修正指示した場合、該当する入力文字画像に対して、指示された種類の文書画像構成要素としての認識を行う。
【００３７】
（２）文字認識結果の候補文字表示領域内に、文字画像を表示するようにして、認識結果と入力画像の比較確認のための視点移動を低減する。
文書画像処理装置は、文書画像を入力とし、文字、表、図、枠などの文書画像構成要素の画像を決定し、文書画像構成要素の認識によるコード化処理を行う。このとき、認識結果候補表示として、認識結果候補コードと共に、文書画像構成要素の画像を表示する。これにより、認識結果と入力画像の比較確認のための視点移動を低減する。
【００３８】
また、文書画像構成要素の認識結果候補表示における文書画像構成要素画像を修正指示可能とし、修正指示した場合は、文書画像構成要素画像に新コードを対応させ、編集可能とする。これにより、認識結果候補文字中に正解文字がない場合でも、文字画像を修正選択することにより、必ず正しく修正でき、かつ編集できるようになる。
【００３９】
文書画像構成要素画像を修正指示し、文書画像構成要素画像に新コードを対応させて編集するために、新コードの表示情報を表示部に表示することにより、既存のコードと新コードが混在した文書を編集可能とする。より一般には、文書画像を入力とし、文書画像構成要素の画像を決定する際に、文書画像構成要素画像に新コードを対応させて、新コードの表示情報を表示部に表示することにより、既存のコードと新コードが混在した文書を編集可能とする。
【００４０】
文書画像構成要素画像に対応させた新コードの表示情報としては、下記（ａ）、（ｂ）のようなものがある。
（ａ）文書画像構成要素画像の等倍画像を含む縮小または拡大画像を用いる。
（ｂ）文書画像構成要素画像の輪郭をベクトル化したデータを用いる。
【００４１】
修正指示した文書画像構成要素画像に新コードを対応させ、編集可能とした場合、さらに、文書画像構成要素画像に「文字」、「表」、「図」、「枠」などの文書画像構成要素の種類属性を持たせれば、後段の編集処理に付加価値をつけることができる。この種類属性として、認識候補第１位のコードの属性を自動的に付与する方法が考えられる。この文書画像構成要素画像の種類属性を修正指示するインタフェース部を設ければ、さらに柔軟な修正を行うことができる。
【００４２】
既存のコードと新コードが混在した文書を編集する際に、認識結果候補コードに確信度（信頼度）を付与することも考えられる。この場合、文書画像構成要素画像を認識結果候補として扱うために、文書画像構成要素画像にも一定値の確信度を与えて、確信度の大きい認識結果候補コードもしくは文書画像構成要素画像から順に順位付けする。文書画像構成要素画像を認識結果候補として扱うと、修正操作が一段と円滑になる効果がある。
【００４３】
また、文書画像構成要素画像に与える確信度の値を外部から入力できるインタフェース部を持つと、認識結果をユーザの用途に適応させることができる効果がある。すなわち、文書画像構成要素画像に与える確信度が高いと、認識結果の中で文書画像構成要素画像が第１位となる比率が高くなり、結果が既存コード化される比率は低くなるが、誤認識率も低くなる。文書画像構成要素画像に与える確信度が低いと、認識結果の中で文書画像構成要素画像が第１位となる比率が低くなり、既存コード化される比率も高くなるが、誤認識率も高くなる。
【００４４】
さらに、対話的に文書画像構成要素画像の確信度を入力し、認識結果候補第１位のみを表示するウィンドウを持ち、認識結果候補第１位表示を逐次変更する手段を設けると、認識対象文書ごとの対話的な調整が可能になる。
【００４５】
次に、文書画像処理装置の構成と上述したような処理の具体例について、順に説明する。
図２は、本発明の文書画像処理装置の第１の構成図である。図２の文書画像処理装置は、文書画像入力部２１、領域識別部２２、個別領域認識部２３、認識結果格納部２４、表示部２５、および修正部２６を備え、図３に示すような処理を行う。
【００４６】
まず、文書画像入力部２１は、文書を電子化したディジタル画像を入力する（ステップＳ１）。文書画像入力部２１としては、例えば、紙文書をディジタル化するスキャナ装置が使用される。次に、領域識別部２２は、文書画像を入力とし、文章、表、図、囲み枠などの個別領域を識別する（ステップＳ２）。次に、個別領域認識部２３は、文章、表、囲み枠などの内部構造をもつ領域について、文字認識や罫線認識など領域内部の認識処理を行う（ステップＳ３）。
【００４７】
領域識別部２２および個別領域認識部２３による処理結果は、認識結果格納部２４に格納される。すなわち、領域および領域内部の領域からなる文書画像構成要素の認識結果候補コードとして、「文章」、「表」、「図」、「囲み枠」などの領域の種類コードと、「文字コード」などの個別コードとが合わせて格納される。
【００４８】
図４は、領域の種類コードと個別コードの例を示している。図４において、「文章」、「表」、「図」、「囲み枠」、および「文字」は種類コードを表し、「文字コード」は「文字」に対応する個別コードを表す。ここでは、「文章」、「表」、「図」、および「囲み枠」に対応する個別コードは定義されていない。
【００４９】
認識結果格納部２４に格納されたデータは、表示部２５の画面上に表示される（ステップＳ４）と同時に、修正部２６から入力されるユーザの修正指示に従って修正される（ステップＳ５）。具体的には、文書画像構成要素の認識結果候補コードのデータが修正される。
【００５０】
修正部２６による認識結果候補コードのデータの修正においては、修正対象の文書画像構成要素を選択する操作が必要である。文書画像構成要素の選択は、一般に、表示画面上でのポインティングデバイスなどを用いた座標指示により行われる。このため、文書画像構成要素の画像範囲（領域）をあらかじめ決めておく必要がある。
【００５１】
文書画像構成要素の画像範囲としては、文書画像構成要素の黒画素連結領域を用いることができる。例えば、図５のような文書画像構成要素の場合、画像「メ」を構成する黒画素部分が画像範囲となる。
【００５２】
また、文書画像構成要素の画像範囲として、文書画像構成要素の外接矩形を用いることもできる。例えば、図５のような文書画像構成要素の場合、図６に示すように、画像「メ」の黒画素連結領域の外接矩形が画像範囲となる。このような画像範囲を用いれば、黒画素部分の周囲の白画素部分を指示した場合でも、対応する文書画像構成要素が指定可能であり、黒画素部分よりも指示しやすいという利点がある。
【００５３】
文書画像構成要素の中には、文章領域とこれに含まれる文字領域のように、概念的に階層上下関係にあるものが含まれるため、画像上の１つの指示座標により、対応する文書画像構成要素が一意に定まらない場合がある。一般に、２つの文書画像構成要素が概念的な階層上下関係にある場合、それらの領域は包含関係にある。例えば、図７に示す文書画像構成要素の場合、文章領域は文字領域を含み、表領域は罫線領域や文字領域を含んでいる。
【００５４】
このような場合に、１つの指示座標により文書画像構成要素を一意に定めるために、指示座標を含む複数の文書画像構成要素のうち、最も内側の文書画像構成要素が指示されたものとみなすことにする。
【００５５】
例えば、図８のような画像において、文書画像構成要素である文章「メディア」の中には、さらに４つの文書画像構成要素「メ」、「デ」、「ィ」、および「ア」が包含されている。ここで、各文書画像構成要素の画像範囲は、その外接矩形により定義されるものとする。この例において、ユーザが文書画像構成要素「メ」の外接矩形３１内の点の座標を指示した場合は、文書画像構成要素「メ」が指示対象として検出される。
【００５６】
また、指示座標を含む最も外側の文書画像構成要素が指示されたものとみなすこともできる。図８の例では、ユーザが文章「メディア」の外接矩形３２内のどの点を指示しても、「メディア」が指示対象として検出される。したがって、「メ」の外接矩形３１内の点が指示された場合でも、「メディア」が指示対象となる。
【００５７】
また、指示座標に外接枠が最も近い文書画像構成要素が指示されたものとみなすこともできる。図８の例では、「メディア」、「メ」などの５つの文書画像構成要素の各外接矩形の辺上に指示点から垂線が引かれ、その長さが指示点と各外接矩形の間の距離として求められる。そして、指示点までの距離が最も短い外接矩形に対応する文書画像構成要素が、指示対象として検出される。この方法によれば、包含関係の制約を受けることなく、いずれの文書画像構成要素も指示対象となる可能性がある。
【００５８】
ところで、上述のような指示方法では、領域が包含関係にある複数の文書画像構成要素から、１つの文書画像構成要素を選択することができるが、その他の文書画像構成要素を直接選択することはできない。したがって、既に選択した文書画像構成要素から間接的に他の文書画像構成要素を選択する処理を提供する必要がある。
【００５９】
そこで、既に指定した文書画像構成要素を含む他の文書画像構成要素のうちで、最も内側のものを指示する選択操作を設けることにする。図８の例では、「メ」が既に指示されている状態で、ユーザがこの選択操作を行うと、その外側の「メディア」が指示される。
【００６０】
また、既に指定した文書画像構成要素内の他の文書画像構成要素のうちで、既に指示した座標を含む最大の文書画像構成要素を指示する選択操作を設けてもよい。図８の例では、まず、「メ」の領域内の座標が指示されることにより、文書画像構成要素「メディア」が指示されたとする。この状態において、ユーザがこの選択操作を行うと、「メ」の領域内の指示座標を含む最大の文書画像構成要素である「メ」が指示される。
【００６１】
次に、文書画像構成要素の領域の種類コードと個別コードを、認識結果候補として表示する方法としては、図９に示すように、種類コードと個別コードを個別に表示する２元表示法が考えられる。図９において、認識結果候補の第１位が「文字」であるため、文字認識が行われ、文字認識結果の個別コードが表示されている。しかし、この表示法では、種類コードと個別コードの関連性が直観的に分かりにくいことが多い。
【００６２】
そこで、個別領域認識部２３による文書画像構成要素の種類の認識において、認識結果候補の第１位が「文字」の場合、文字認識を行い、その結果得られた候補文字コードを、図１０に示すように、上位の認識結果候補コードとして表示する。そして、「文字」以外の「表」、「図」、「枠」などの文書画像構成要素の種類コードを、下位の認識結果候補コードとして表示する。このように、種類コードと個別コードを１つのリストとして１元表示することで、認識結果候補が一目で分かるようになる。
【００６３】
このような１元表示法では、認識結果候補の第１位が「文字」以外の「表」、「図」、「枠」などの種類の場合、図１１に示すように、文字認識により得られた候補文字コードは下位の認識結果候補コードとして表示される。この場合、認識結果が「文字」である可能性は低く、正解度の低い文字認識結果を求めるための処理が実行されることになる。
【００６４】
そこで、認識結果候補の第１位が「文字」以外の種類の場合、その文書画像構成要素の種類を第１位の認識結果候補コードとし、これ以外の文書画像構成要素の種類コードのみを下位の認識結果候補コードとしてもよい。この方法では、図１２に示すように、文書画像構成要素の種類のみが候補として表示され、文字認識の候補文字は表示されない。
【００６５】
このような表示を採用するのは、第２位以下の詳細情報を表示せず、表示を見やすくするためである。一般に、認識候補の第１位が正解である確率が高いため、結果的に、第２位以下の詳細情報は不要となることが多い。さらに、この方法では、「文字」などの第２位以下の認識結果候補に対応する認識処理が不要になり、処理が高速化される。
【００６６】
ユーザは、こうして表示された認識結果候補を見て、それらを修正することができる。例えば、図１３に示すように、第１位の種類コードである「表」を「文字」に修正指示した場合、「文字」以外の種類コードの順位が１つずつ下方にシフトする。そして、必要に応じて、該当する入力文字画像の文字認識が行われ、その結果得られる単数あるいは複数の候補文字コードにより、認識結果候補コードの「文字」が置き換えられる。
【００６７】
また、認識結果候補コードとして「文字」以外の「表」、「図」、「枠」などの種類コードを修正指示した場合も、必要に応じて、該当する入力文字画像に対し、指示された文書画像構成要素としての認識処理が行われる。
例えば、図１４に示すように、第１位の種類コードである「図」を、内部構造を持つ「表」や「囲み枠」に修正指示した場合、指示された種類コードである「表」や「囲み枠」の内部構造に関する認識が行われる。「表」の内部構造の認識処理では、罫線の抽出およびベクトル化、罫線により囲まれたセルの抽出、セル内の文字の認識などが行われる。また、「囲み枠」の内部構造の認識処理では、枠の抽出およびベクトル化、枠内の領域識別などが行われる。
【００６８】
図１５は、本発明の文書画像処理装置の第２の構成図である。図１５の文書画像処理装置は、文書画像入力部４１、文書画像構成要素抽出部４２、コード付加部４３、編集データ格納部４４、文書データ格納部４５、表示部４６、コード文書入力部４７、編集操作入力部４８、および編集部４９を備え、図１６および図１７に示すような処理を行う。
【００６９】
まず、文書画像入力部４１は、文書を電子化したディジタル画像を入力する（ステップＳ１１）。文書画像入力部４１は、例えば、デジタルスキャナ装置である。次に、文書画像構成要素抽出部４２は、文書画像を構成する文書画像構成要素を抽出する（ステップＳ１２）。
【００７０】
コード付加部４３は、抽出された文書画像構成要素に新コードを付加し（ステップＳ１３）、新コードが付加された文書画像構成要素を編集データ格納部４４に格納する（ステップＳ１４）。また、必要であれば、コード文書入力部４７が、既存の電子文書（電子コード文書）を編集データ格納部４４に入力する（ステップＳ１５）。既存の電子文書のデータは、既存コードの集合であり、既存の文字パターンに対応している。したがって、編集データ格納部４４に格納される編集データには、図１８に示すような２種類のデータが含まれる。
【００７１】
編集データ格納部４４において、文書画像構成要素は、ビットマップなどの画像データで表され、新コードとしては、外字コードなどが用いられる。新コードは文書画像構成要素のビットマップデータに自動的に付加されるため、ユーザは、通常の外字登録の場合のように、文字の形状などをデザインする必要がない。また、既存の文字パターンは、フォントデータなどで表される。
【００７２】
さらに、必要であれば、既に編集されて文書データ格納部４５に格納されている文書データを、編集データ格納部４４に読み出して使用することもできる（ステップＳ１６）。
【００７３】
次に、表示部４６は、編集データ格納部４４内のデータを用いて、編集対象の文書を画面に表示する（ステップＳ１７）。文書画像構成要素の表示には、画像データが用いられ、既存の文字パターンの表示には、フォントデータが用いられる。
【００７４】
編集操作入力部４８から、ユーザによる文書の編集操作が編集部４９に入力されると（ステップＳ１８）、編集部４９は、編集データ格納部４４内のデータを編集する（ステップＳ１９）。このとき、新コードと既存コードの集合が編集処理の直接の対象となり、表示処理には、画像データおよびフォントデータが使用される。
【００７５】
文書画像構成要素のコピー操作や移動操作の際には、ユーザは、ポインティングデバイスなどを用いて、表示された画像上で指示を行う。これを受けて、編集部４９は、指示された文書画像構成要素に対応する新コードに対して、指示された編集処理を行う。このように、文書画像構成要素に対応する新コードは、システムにより自動的に処理されるため、ユーザはそれを直接扱う必要がない。
【００７６】
編集操作を完了した文書データは、編集データ格納部４４から文書データ格納部４５に格納されて（ステップＳ２０）、処理が終了する。文書データ格納部４５に格納された文書データは、編集データ格納部４４に読み込んで、再編集することもできる。
【００７７】
例えば、図１９に示すようなコード文書が紙媒体に印刷され、何回かコピーやＦＡＸ（ファクシミリ）送信された後に、文書画像入力部４１から画像として入力されたとする。この課程で印字品質が劣化するため、入力画像は、図２０に示すような文書画像となる。
【００７８】
文書画像構成要素抽出部４２は、この文書画像から、図２１に示すような文書画像構成要素を抽出する。ここでは、抽出された各文書画像構成要素が、外接矩形を用いて画面に表示されている。各文書画像構成要素には、コード付加部４３により新コードが付与され、文書画像構成要素の単位で編集ができるようになる。
【００７９】
ユーザは、表示された画像に含まれる文書画像構成要素の順番を変えて、図２２に示すような画像を作成することができる。ここでは、「マルチメディアシステム」の画像が「メディアマルチシステム」に編集されている。
【００８０】
さらに、コード文書入力部４７から入力されたコード文書と文書画像構成要素の混在編集もできる。例えば、文書画像構成要素「マルチ」をコード文書「統合」に置き換える編集を行うと、図２３に示すような文書が生成される。すべての編集が終了した後、図２４に示すように、外接矩形による文書画像構成要素の表示は解除される。編集後の文書は、ユーザの指示に応じて、印刷されたり、認識処理されたりする。
【００８１】
このように、文書画像構成要素画像に新たなコードを対応させて、そのコードの表示情報を表示部４６に表示することにより、既存のコードと新コードが混在した文書を編集することが可能になる。
【００８２】
表示部４６は、文書画像構成要素画像に対応させた新コードの表示情報として、文書画像構成要素画像の等倍画像を含む縮小または拡大画像を用いる。文書画像構成要素画像の大きさは様々であるため、既存の文書データと混在して編集するためには、大きさを変更して表示した方が便利である。
【００８３】
文書画像構成要素画像として最も一般的な文字画像については、既存の文字パターンと大きさを同一にして表示する。このために、文字画像を縮小または拡大して表示する。図２４では、この方法により、文字画像である「メディア」および「システム」の大きさと、既存の文字パターンである「統合」の大きさが統一されて表示されている。
【００８４】
また、この既存の文字パターンの大きさと整合性を保ったままで、文字画像を縮小表示すると、図２５に示すようになり、さらに縮小すると、図２６に示すようになる。
【００８５】
しかし、文書画像構成要素画像を、画像データのままで拡大・縮小すると、形状が崩れて表示される場合がある。そこで、文書画像構成要素の表示に、文書画像構成要素画像の輪郭をベクトル化したアウトライン・データ（アウトライン・フォント）を用いると、拡大・縮小した場合でも形状が崩れるのを防ぐことができる。
【００８６】
例えば、文字画像「メ」をベクトル化したアウトライン・データを拡大・縮小すると、図２７のような表示が得られる。図２７では、いずれの文字の形状も相似であることが分かる。
【００８７】
ところで、編集された文書画像の認識処理を行う場合は、文書データを図２の文書処理装置に入力する。そして、上述したような領域識別と認識処理を行った後、認識結果候補の表示・修正を行う。
【００８８】
従来の認識結果表示方法では、図３９に示したように、認識結果候補コードの文字パターンと、対応する文字画像とが別々に表示される。このため、確認のための視線移動が大きく、ユーザにとって負担になるという問題がある。
【００８９】
そこで、本実施形態では、図２８に示すように、認識結果候補の表示領域（表示ウィンドウ）５１内に、認識結果候補の文字パターンとともに、対応する文書画像構成要素画像を表示する。このように、文書画像構成要素を入力文書画像から分離して認識結果候補の近くに表示すれば、視線移動が大幅に削減され、ユーザは、認識結果の妥当性を容易に確認することができる。
【００９０】
文書画像構成要素が文字以外の場合も、同様にして、認識結果候補の表示領域内に元の画像を表示することができる。例えば、図２９に示すような認識結果５２の場合、認識結果候補の種類コードを表す「表」、「囲み枠」などとともに、表示領域５１内に文書画像構成要素画像５３が表示される。これにより、ユーザは、認識結果５２の妥当性を容易に確認することができる。
【００９１】
また、このようにして表示された文書画像構成要素画像を修正に用いることもできる。通常の文字認識の認識結果表示においては、候補中に正解が含まれない場合もある。このような場合に、ユーザが文書画像構成要素画像を選択すると、認識結果中の候補文字コードが文書画像構成要素のコードに置き換えられ、画面上には、部分的に画像データを用いた妥当な文書が表示される。
【００９２】
例えば、図３０の左側に示すような認識結果において、表示された候補文字中に正解の「情」が含まれていない場合、ユーザは文書画像構成要素画像５４を選択して、修正指示を行う。これにより、認識結果は、右側に示すように、画像５４を用いて修正表示される。
【００９３】
また、図３１の左側に示すような表の認識結果において、表示された認識結果５２が正しくない場合、ユーザは文書画像構成要素画像５５を選択して、修正指示を行う。これにより、認識結果は、右側に示すように、画像５５を用いて修正表示される。
【００９４】
このように、認識結果候補表示における文書画像構成要素画像を修正指示可能とし、ユーザがそれを選択した場合は、文書画像構成要素画像に対応するコードを用いて編集処理が行われる。したがって、少なくとも表示上では、常に、妥当な認識結果候補が含まれていることになる。
【００９５】
また、文書画像構成要素画像に「文字」、「表」、「図」、「枠」などの文書画像構成要素の種類属性を保持させることにより、種類属性に応じた取り扱いが可能となる。種類属性は、文書画像構成要素画像のコードとともに、図２の認識結果格納部２４に格納される。認識結果においては、通常、第１位の認識候補が最も確度が高いため、そのコードの種類に対応する属性が、種類属性として文書画像構成要素画像に自動的に付加される。
【００９６】
例えば、図３２の左側に示すような認識結果においては、第１位の「惰」の種類属性が「文字」であるため、文書画像構成要素画像５４の属性も「文字」になっている。
【００９７】
ユーザは、このような認識結果表示において、文書画像構成要素画像を選択して、その種類属性に応じた再認識処理を行わせることもできる。図３２の例では、ユーザが文書画像構成要素画像５４を選択して修正指示すると、右側に示すように、対応する文字パターンが文書画像構成要素画像５４に置き換えられて、再度、文字認識が行われる。
【００９８】
ところで、第１位の認識候補に対応する種類属性を文書画像構成要素画像に与えたとしても、それが誤っていることも考えられる。そこで、文書画像構成要素画像の種類属性を修正指示するための外部インタフェース部を、図２の修正部２６内に設けておく。この外部インタフェース部は、ユーザの指示に応じて、文書画像構成要素画像の種類属性を変更する。例えば、図３３においては、文書画像構成要素画像である「情」の属性が、「表」から「文字」に変更されている。
【００９９】
また、認識処理においては、認識結果の各候補コードと認識辞書との距離値などを計算して、各候補コードに確信度を与える場合が多い。そこで、本実施形態では、文書画像構成要素画像にも一定値の確信度を与えて、確信度の高い候補コードもしくは文書画像構成要素画像から順に順位付けを行う。元来の認識結果候補である候補コードの確信度が低い場合でも、このような順位付けを行うと、文書画像構成要素画像が第１位の認識結果候補となるため、認識結果の文書が適切に表示される。
【０１００】
図３４および図３５は、認識結果候補を確信度とともに表示した例を示している。図３４においては、文書画像構成要素画像である「情」の確信度は６０であり、これは第２位の候補として表示されている。これに対して、図３５においては、「情」の確信度は７０であり、これは第１位の候補として表示されている。
【０１０１】
このように、文書画像構成要素画像とその他の候補コードとの相対的な確信度の差によって、順位付けが異なってくる。このため、文書画像構成要素画像の確信度を、元来の認識結果候補を文書画像構成要素画像により置き換えるためのしきい値として用いることができる。そこで、文書画像構成要素画像の確信度を入力する外部インタフェース部を、図２の修正部２６内に設けておき、ユーザがこのしきい値を調整できるようにする。
【０１０２】
修正部２６は、文書画像構成要素画像の確信度が入力される度に、それを他の候補の確信度と比較し、必要であれば、認識結果候補の第１位の表示を更新する。これにより、ユーザは、結果を確認しながら、確信度のしきい値を対話的に調整することができる。
【０１０３】
このとき、図２の表示部２５は、図３４および図３５に示したように、所定数の認識結果候補を表示してもよいが、第１位の候補のみを表示するウィンドウを設定してもよい。第１位の候補のみを表示することで、ユーザの視線移動が軽減されるため、しきい値の調整作業が効率化される。
【０１０４】
本実施形態の文書画像処理装置は、例えば、図３６に示すような情報処理装置（コンピュータ）を用いて構成することができる。図３６の情報処理装置は、ＣＰＵ（中央処理装置）６１、メモリ６２、入力装置６３、出力装置６４、外部記憶装置６５、媒体駆動装置６６、ネットワーク接続装置６７、および光電変換装置６８を備え、それらはバス６９により互いに接続されている。
【０１０５】
メモリ６２には、上述したような文書画像処理に用いられるプログラムとデータが格納される。メモリ６２としては、例えばＲＯＭ（read only memory）、ＲＡＭ（random access memory）などが用いられる。ＣＰＵ６１は、メモリ６２を利用してプログラムを実行することにより、必要な処理を行う。
【０１０６】
入力装置６３は、例えば、キーボード、ポインティングデバイス、タッチパネルなどであり、ユーザからの指示や必要な情報の入力に用いられる。出力装置６４は、例えば、ディスプレイやプリンタなどであり、処理結果などの出力に用いられる。
【０１０７】
外部記憶装置６５は、例えば、磁気ディスク装置、光ディスク装置、光磁気ディスク（magneto-optical disk）装置などである。この外部記憶装置６５に、上述のプログラムとデータを保存しておき、必要に応じて、それらをメモリ６２にロードして使用することもできる。
【０１０８】
媒体駆動装置６６は、可搬記録媒体７０を駆動し、その記録内容にアクセスする。可搬記録媒体７０としては、メモリカード、フロッピーディスク、ＣＤ−ＲＯＭ（compact disk read only memory ）、光ディスク、光磁気ディスクなど、任意のコンピュータ読み取り可能な記録媒体が用いられる。この可搬記録媒体７０に上述のプログラムとデータを格納しておき、必要に応じて、それらをメモリ６２にロードして使用することもできる。
【０１０９】
ネットワーク接続装置６７は、ＬＡＮ（local area network）などの任意のネットワーク（回線）を介して外部の装置と通信し、通信に伴うデータ変換を行う。これにより、文書画像処理装置は、必要に応じて、上述のプログラムとデータを外部の装置から受け取り、それらをメモリ６２にロードして使用することができる。
【０１１０】
光電変換装置６８は、例えば、デジタルスキャナであり、紙媒体に記述された文書の画像を入力する。
図３７は、図３６の情報処理装置にプログラムとデータを供給することのできるコンピュータ読み取り可能な記録媒体を示している。可搬記録媒体７０や外部のデータベース７１に保存されたプログラムとデータは、メモリ６２にロードされる。そして、ＣＰＵ６１は、そのデータを用いてそのプログラムを実行し、必要な処理を行う。
【０１１１】
【発明の効果】
本発明によれば、文書画像の領域識別と領域内認識を一括して行い、その結果を一括して修正できるため、修正作業におけるユーザの負担が軽減される。従来の２段階の修正作業では、１段目と２段目の修正作業の間、ユーザが拘束されていたが、この拘束時間がなくなることになる。
【０１１２】
また、領域内認識における認識結果候補の１つとして元の画像が表示されるため、認識結果と入力画像の比較確認のための視点移動が低減され、ユーザの負担が軽くなる。また、認識結果候補中に正解がない場合は、元の画像を選択して修正できるため、修正用の文字コードを入力し直す必要がなくなる。
【図面の簡単な説明】
【図１】本発明の文書画像処理装置の原理図である。
【図２】文書画像処理装置の第１の構成図である。
【図３】第１の文書画像処理のフローチャートである。
【図４】種類コードと個別コードを示す図である。
【図５】第１の画像範囲を示す図である。
【図６】第２の画像範囲を示す図である。
【図７】文書画像構成要素の階層を示す図である。
【図８】包含関係にある文書画像構成要素を示す図である。
【図９】認識結果の第１の表示を示す図である。
【図１０】認識結果の第２の表示を示す図である。
【図１１】認識結果の第３の表示を示す図である。
【図１２】認識結果の第４の表示を示す図である。
【図１３】第１の修正指示を示す図である。
【図１４】第２の修正指示を示す図である。
【図１５】文書画像処理装置の第２の構成図である。
【図１６】第２の文書画像処理のフローチャート（その１）である。
【図１７】第２の文書画像処理のフローチャート（その２）である。
【図１８】編集データを示す図である。
【図１９】コード文書を示す図である。
【図２０】文書画像を示す図である。
【図２１】抽出された文書画像構成要素を示す図である。
【図２２】編集結果の第１の表示を示す図である。
【図２３】編集結果の第２の表示を示す図である。
【図２４】編集結果の第３の表示を示す図である。
【図２５】第１の縮小表示を示す図である。
【図２６】第２の縮小表示を示す図である。
【図２７】アウトライン表示を示す図である。
【図２８】認識結果の第５の表示を示す図である。
【図２９】認識結果の第６の表示を示す図である。
【図３０】第３の修正指示を示す図である。
【図３１】第４の修正指示を示す図である。
【図３２】第５の修正指示を示す図である。
【図３３】第６の修正指示を示す図である。
【図３４】認識結果の第７の表示を示す図である。
【図３５】認識結果の第８の表示を示す図である。
【図３６】情報処理装置の構成図である。
【図３７】記録媒体を示す図である。
【図３８】従来の文書画像認識・編集装置の構成図である。
【図３９】従来の認識結果表示を示す図である。
【符号の説明】
１、２１、４１文書画像入力部
２、２２領域識別部
３領域識別結果格納部
４、２３個別領域認識部
５、２４認識結果格納部
６第１の修正部
７第２の修正部
８、２５、４６表示部
１１識別手段
１２認識手段
１３出力手段
１４修正手段
１５抽出手段
１６コード付加手段
１７編集手段
２６修正部
３１、３２外接矩形
４２文書画像構成要素抽出部
４３コード付加部
４４編集データ格納部
４５文書データ格納部
４７コード文書入力部
４８編集操作入力部
４９編集部
５１表示領域
５２認識結果
５３、５４、５５文書画像構成要素画像
６１ＣＰＵ
６２メモリ
６３入力装置
６４出力装置
６５外部記憶装置
６６媒体駆動装置
６７ネットワーク接続装置
６８光電変換装置
６９バス
７０可搬記録媒体
７１データベース

Claims

入力画像の認識処理を行う画像処理装置であって、
前記入力画像内の文章、表、図、囲み枠、および文字のうちの１つに対応する領域であるパターン領域を識別して、該パターン領域の種類を決定する識別手段と、
内部構造をもつパターン領域内に含まれるパターンの認識処理を行う認識手段と、
文章、表、図、囲み枠、および文字のうちの１つに対応する前記パターン領域の種類を表す種類情報を、前記入力画像を構成する画像構成要素の認識結果候補として画面表示し、該種類情報が文字を表す場合には、該種類情報と対応する文字パターンを表す個別情報とを該画像構成要素の認識結果候補として画面表示する出力手段と、
画面表示された前記認識結果候補を修正する修正手段とを備え、
前記識別手段が、前記パターン領域の種類の第１位の候補を文字と決定したとき、前記認識手段は、該パターン領域内に含まれるパターンの文字認識処理を行い、前記出力手段は、認識結果の１つ以上の候補文字の個別情報を上位の認識結果候補として画面表示し、文字以外の種類情報を下位の認識結果候補として画面表示し、
前記識別手段が、前記パターン領域の種類の第１位の候補を文字以外の特定の種類と決定したとき、前記出力手段は、該特定の種類の種類情報を上位の認識結果候補として画面表示し、他の種類情報を下位の認識結果候補として画面表示し、
前記修正手段が、画面表示された認識結果候補の種類情報を文字に修正したとき、前記認識手段は、必要に応じて、前記パターン領域内に含まれるパターンの文字認識処理を行い、前記出力手段は、認識結果の１つ以上の候補文字の個別情報を上位の認識結果候補として画面表示し、
前記修正手段が、画面表示された認識結果候補の種類情報を文字以外の特定の種類に修正したとき、前記認識手段は、該特定の種類に応じて、前記パターン領域内に含まれるパターンの認識処理を行うことを特徴とする画像処理装置。
前記修正手段は、修正すべき画像構成要素を、対応する画素領域により指定することを特徴とする請求項１記載の画像処理装置。
前記修正手段は、修正すべき画像構成要素を、対応する画素領域の外接矩形により指定することを特徴とする請求項１記載の画像処理装置。
前記出力手段は、前記画像構成要素を画面表示する表示手段を含み、前記修正手段は、画面上で指示された位置を含む最も内側の画像構成要素を、指示された画像構成要素とすることを特徴とする請求項１記載の画像処理装置。
前記出力手段は、前記画像構成要素を画面表示し、前記修正手段は、画面上で指示された位置を含む最大の画像構成要素を、指示された画像構成要素とすることを特徴とする請求項１記載の画像処理装置。
前記出力手段は、前記画像構成要素を画面表示し、前記修正手段は、画面上で指示された位置に最も近い外接枠を有する画像構成要素を、指示された画像構成要素とすることを特徴とする請求項１記載の画像処理装置。
前記出力手段は、前記画像構成要素を画面表示し、前記修正手段は、画面上で画像構成要素を指示する指示手段を含み、既に指示された画像構成要素を含む最も内側の画像構成要素を、新たに指示された画像構成要素とすることを特徴とする請求項１記載の画像処理装置。
前記出力手段は、前記画像構成要素を画面表示し、前記修正手段は、画面上で画像構成要素を指示する指示手段を含み、既に指示された画像構成要素内の画像構成要素のうち、指示された座標を含む最大の画像構成要素を、新たに指示された画像構成要素とすることを特徴とする請求項１記載の画像処理装置。
入力画像の認識処理を行うコンピュータのためのプログラムを記録した記録媒体であって、
前記入力画像内の文章、表、図、囲み枠、および文字のうちの１つに対応する領域であるパターン領域を識別して、該パターン領域の種類を決定する機能と、
前記パターン領域の種類の第１位の候補を文字と決定したとき、該パターン領域内に含まれるパターンの文字認識処理を行い、文字を表す種類情報と認識結果の１つ以上の候補文字に対応する文字パターンを表す個別情報を、前記入力画像を構成する画像構成要素の上位の認識結果候補として画面表示し、文字以外の文章、表、図、または囲み枠を表す種類情報を下位の認識結果候補として画面表示する機能と、
前記パターン領域の種類の第１位の候補を文字以外の特定の種類と決定したとき、該特定の種類の種類情報を上位の認識結果候補として画面表示し、他の種類情報を下位の認識結果候補として画面表示する機能と、
画面表示された認識結果候補を修正する機能と、
画面表示された認識結果候補の種類情報を文字に修正したとき、必要に応じて、前記パターン領域内に含まれるパターンの文字認識処理を行い、認識結果の１つ以上の候補文字の個別情報を上位の認識結果候補として画面表示する機能と、
画面表示された認識結果候補の種類情報を文字以外の特定の種類に修正したとき、該特定の種類に応じて、前記パターン領域内に含まれるパターンの認識処理を行う機能と
を前記コンピュータに実現させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
画像をコンピュータに入力し、
入力画像内の文章、表、図、囲み枠、および文字のうちの１つに対応する領域であるパターン領域を識別して、該パターン領域の種類を決定し、
前記パターン領域の種類の第１位の候補を文字と決定したとき、該パターン領域内に含まれるパターンの文字認識処理を行い、文字を表す種類情報と認識結果の１つ以上の候補文字に対応する文字パターンを表す個別情報を、前記入力画像を構成する画像構成要素の上位の認識結果候補として画面表示し、文字以外の文章、表、図、または囲み枠を表す種類情報を下位の認識結果候補として画面表示し、
前記パターン領域の種類の第１位の候補を文字以外の特定の種類と決定したとき、該特定の種類の種類情報を上位の認識結果候補として画面表示し、他の種類情報を下位の認識結果候補として画面表示し、
画面表示された認識結果候補を修正し、
画面表示された認識結果候補の種類情報を文字に修正したとき、必要に応じて、前記パターン領域内に含まれるパターンの文字認識処理を行い、認識結果の１つ以上の候補文字の個別情報を上位の認識結果候補として画面表示し、
画面表示された認識結果候補の種類情報を文字以外の特定の種類に修正したとき、該特定の種類に応じて、前記パターン領域内に含まれるパターンの認識処理を行う
ことを特徴とする画像処理方法。