JP4071328B2 - 文書画像処理装置および方法 - Google Patents

文書画像処理装置および方法 Download PDF

Info

Publication number
JP4071328B2
JP4071328B2 JP31684997A JP31684997A JP4071328B2 JP 4071328 B2 JP4071328 B2 JP 4071328B2 JP 31684997 A JP31684997 A JP 31684997A JP 31684997 A JP31684997 A JP 31684997A JP 4071328 B2 JP4071328 B2 JP 4071328B2
Authority
JP
Japan
Prior art keywords
image
recognition result
candidate
character
screen
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP31684997A
Other languages
English (en)
Other versions
JPH11149520A (ja
Inventor
洋 鎌田
克仁 藤本
浩司 黒川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP31684997A priority Critical patent/JP4071328B2/ja
Priority to US09/060,712 priority patent/US6466694B2/en
Priority to CN98108703A priority patent/CN1120442C/zh
Publication of JPH11149520A publication Critical patent/JPH11149520A/ja
Application granted granted Critical
Publication of JP4071328B2 publication Critical patent/JP4071328B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/98Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns
    • G06V10/987Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns with the intervention of an operator
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99936Pattern matching access

Description

【0001】
【発明の属する技術分野】
本発明は、文書画像を入力として、文字、表、図、枠などの文書画像構成要素の画像を決定し、文書画像構成要素の認識によるコード化処理を行う文書画像処理装置に関する。
【0002】
【従来の技術】
近年のパーソナルコンピュータの普及と通信ネットワークの整備により、電子化文書が多く流通するようになっている。しかし、情報流通の主要媒体は依然として紙文書であり、既存の紙文書も多く存在する。そこで、紙文書から電子化文書への変換を行い、変換結果を編集する文書画像認識・編集装置の需要が拡大している。
【0003】
文書画像認識・編集装置とは、文書画像を入力として、文字、表、図、枠などの文書画像構成要素の画像を決定し、文書画像構成要素の認識によるコード化処理を行う装置である。コード化処理では、特に、文字画像が文字コードに変換される。
【0004】
しかし、文書画像処理装置における認識処理では、正解率が100%にならないため、正解でない認識結果の扱いが課題であり、特に、効率的に修正作業が行える仕組みが望まれている。
【0005】
図38は、従来の文書画像認識・編集装置の構成図である。文書画像入力部1は、処理対象の文書画像を入力し、領域識別部2は、画像中の個別領域を識別して、その結果を領域識別結果格納部3に格納する。ここで、表示部8が、領域識別結果を画面に表示し、必要に応じて、ユーザがそれを修正する。このとき、第1の修正部6により、領域識別結果格納部3内のデータが修正される。
【0006】
次に、個別領域認識部4は、個別領域内の文字を認識し、その結果を認識結果格納部5に格納する。そして、表示部8が、認識結果を画面に表示し、必要に応じて、ユーザがそれを修正する。このとき、第2の修正部7により、認識結果格納部5内のデータが修正される。
【0007】
このような文書画像認識・編集装置においては、正解率が100%にならない認識結果に対する扱いと修正作業を、次のように処理している。
(1)領域識別部2による領域識別処理として、個別領域の文書画像構成要素の文章、表、図、枠などの属性を、必要であれば修正して決定した後、個別領域認識部4が、属性に応じた個別の文書画像構成要素の認識を行う。文章領域であれば、個別の文字画像を決定し、文字認識する。表領域であれば、罫線抽出を行い、各セル内の文字領域を決定し、文字認識する。認識結果は、必要に応じて修正される。
【0008】
(2)文字認識処理の結果は、図39に示すように、確からしい順に並んだ候補文字コードの列を含んでいる。第1位の候補文字コードが認識結果の初期値である。第2の修正部7は、第2位以下の候補文字コードを表示し、ユーザはそれらのうちの1つを選択することができる。文字認識結果の修正時には、対応する文字画像は、入力画像中の元の位置P1に表示される。
【0009】
【発明が解決しようとする課題】
しかしながら、従来の文書画像認識・編集装置においては、次に述べるように、認識結果の修正に多大な労力を要するという問題がある。
【0010】
(1)従来の文書画像処理は、領域識別と領域内認識という2段階から成っており、各段階でユーザの修正処理を含む構成である。このように、ユーザにとっては、2度の修正操作が必要となり、操作が煩わしい。また、領域識別の段階で識別誤りがなくても、識別誤りの有無を確認する必要があり、この確認を省略した場合、領域内認識の後で識別誤りのあった箇所を修正することはできない。この場合、正しい処理結果を得るには、最初から処理をやり直し、領域識別の段階で識別誤りを修正する必要がある。
【0011】
(2)文書画像構成要素の認識結果表示に含まれる情報は、図39に示したように、コード情報のみである。このため、文字認識結果が正解であるかどうかを確かめるには、認識結果表示において対象となる文字が指示された場合に、入力画像中の対応する文書画像構成要素の位置P1を枠で囲って表示するなどしていた。しかし、認識結果表示のコード情報と入力画像中の文字画像を比較照合する際に、ユーザの視点の移動が大きく、照合作業はユーザにとって負担になる。
【0012】
また、候補文字コードの修正選択では、候補文字中に正しい文字がない場合がある。この場合、正しい文字コードを最初から入力する必要があり、入力作業がユーザにとって負担になる。
【0013】
本発明の課題は、文書画像認識・編集装置による処理結果の確認・修正作業において、ユーザの負担を軽減し、効率の良い操作を実現する文書画像処理装置およびその方法を提供することである。
【0014】
【課題を解決するための手段】
図1は、本発明の文書画像処理装置の構成図である。図1の文書画像処理装置は、識別手段11、認識手段12、出力手段13、修正手段14、抽出手段15、コード付加手段16、および編集手段17を備え、入力された画像の認識処理を行う。
【0015】
本発明の第1の原理によれば、識別手段11、認識手段12、出力手段13、および修正手段14は、次のように動作する。
識別手段11は、入力画像のパターン領域を識別して、パターン領域の種類を決定する。
【0016】
認識手段12は、パターン領域内に含まれるパターンの認識処理を行う。
出力手段13は、パターン領域の種類を表す種類情報とパターンを表す個別情報とを、入力画像を構成する画像構成要素の認識結果候補として出力する。
【0017】
修正手段14は、認識結果候補を修正する。
パターン領域とは、入力された画像に含まれる、文章、表、図、囲み枠、文字などの画像領域を指し、あるパターン領域が他のパターン領域を含む場合もあり得る。例えば、文章のパターン領域は、通常、複数の文字のパターン領域から構成される。また、画像構成要素とは、入力画像の部分画像を指し、パターン領域またはパターン領域内のパターンに対応する。
【0018】
識別手段11は、認識すべきパターン領域の種類が、文章、表、図、囲み枠、文字などのうちどれに対応するかを決定し、認識手段12は、文章、表、囲み枠などの内部構造を持つパターン領域について、文字認識や罫線認識などの認識処理を行う。
【0019】
そして、出力手段13は、パターン領域の種類情報と認識されたパターンを表す文字フォントなどの個別情報とを認識結果候補として、一括して出力する。ユーザは、出力結果を見ながら、修正手段14を用いて、種類情報や個別情報を一括して修正することができる。
【0020】
このように、第1の原理によれば、文書画像の領域識別と領域内認識を一括して行い、その結果を一括して修正できる。このため、従来のような2段階の修正作業を行わなくてもよくなり、修正作業におけるユーザの負担が軽減される。
【0021】
また、本発明の第2の原理によれば、出力手段13、抽出手段15、コード付加手段16、および編集手段17は、次のように動作する。
抽出手段15は、入力画像から、それを構成する画像構成要素を抽出する。
【0022】
コード付加手段16は、画像構成要素に新たなコード情報を付加する。
出力手段13は、画像構成要素に対応する画像データと既存のコード情報に対応する文字パターンが混在した文書情報を出力する。
【0023】
編集手段17は、新たなコード情報と既存のコード情報を用いて文書情報を編集する。
入力画像から抽出された画像構成要素にコード情報を付加することで、それを既存のコード情報に対応する文字パターンと同様に扱うことが可能となる。したがって、入力画像の部分画像と、コード情報として与えられた文字パターンとが混在した文書を表示して、編集することができる。
【0024】
第2の原理によれば、画像構成要素に付加されたコード情報を用いて、文字認識結果の候補の近くに元の画像を表示することもでき、認識結果と入力画像の比較確認のための視点移動が低減される。
【0025】
また、本発明の第3の原理によれば、認識手段12、出力手段13、および抽出手段15は、次のように動作する。
抽出手段15は、入力画像から、それを構成する画像構成要素を抽出する。
【0026】
認識手段12は、画像構成要素の認識処理を行う。
出力手段13は、画像構成要素に対応する画像データを、入力画像から分離して、画像構成要素の認識結果における1つ以上の候補とともに出力する。
【0027】
第3の原理によれば、入力画像から抽出された画像構成要素の画像を、その認識結果候補の近くに画面表示することができ、認識結果と入力画像の比較確認のための視点移動が低減される。また、認識結果候補中に正解がない場合は、元の画像を選択して修正できるため、修正用の文字コードを入力し直す必要がなくなる。
また、本発明の第4の原理によれば、識別手段11、認識手段12、出力手段13、および修正手段14は、次のように動作する。識別手段11は、入力画像内の文章、表、図、囲み枠、および文字のうちの1つに対応する領域であるパターン領域を識別して、パターン領域の種類を決定する。認識手段12は、内部構造をもつパターン領域内に含まれるパターンの認識処理を行う。出力手段13は、文章、表、図、囲み枠、および文字のうちの1つに対応するパターン領域の種類を表す種類情報を、入力画像を構成する画像構成要素の認識結果候補として画面表示し、その種類情報が文字を表す場合には、種類情報と対応する文字パターンを表す個別情報とを画像構成要素の認識結果候補として画面表示する。修正手段14は、画面表示された認識結果候補を修正する。
識別手段11が、パターン領域の種類の第1位の候補を文字と決定したとき、認識手段12は、そのパターン領域内に含まれるパターンの文字認識処理を行い、出力手段13は、認識結果の1つ以上の候補文字の個別情報を上位の認識結果候補として画面表示し、文字以外の種類情報を下位の認識結果候補として画面表示する。識別手段11が、パターン領域の種類の第1位の候補を文字以外の特定の種類と決定したとき、出力手段13は、その特定の種類の種類情報を上位の認識結果候補として画面表示し、他の種類情報を下位の認識結果候補として画面表示する。
修正手段14が、画面表示された認識結果候補の種類情報を文字に修正したとき、認識手段12は、必要に応じて、パターン領域内に含まれるパターンの文字認識処理を行い、出力手段13は、認識結果の1つ以上の候補文字の個別情報を上位の認識結果候補として画面表示する。修正手段14が、画面表示された認識結果候補の種類情報を文字以外の特定の種類に修正したとき、認識手段12は、その特定の種類に応じて、パターン領域内に含まれるパターンの認識処理を行う。
【0028】
例えば、図1の識別手段11、認識手段12、修正手段14は、それぞれ、後述する図2の領域識別部22、個別領域認識部23、修正部26に対応し、図1の抽出手段15、コード付加手段16、編集手段17は、それぞれ、後述する図15の文書画像構成要素抽出部42、コード付加部43、編集部49に対応する。また、例えば、図1の出力手段13は、図2の表示部25および図15の表示部46に対応する。
【0029】
【発明の実施の形態】
以下、図面を参照しながら、本発明の実施の形態を詳細に説明する。
本発明では、上述した従来の問題点(1)、(2)に対応して、次のような対策を施す。
【0030】
(1)領域識別の識別結果候補を領域内認識段階でも保持しておき、識別結果候補と領域内認識結果候補を同時に修正選択できるようにする。これにより、領域識別と領域内認識を一括して行うことができ、処理結果を一括して修正できるようになる。
【0031】
文書画像処理装置は、文書画像を入力とし、文章、表、図、囲み枠などの領域を識別し、文章、表、囲み枠などの内部構造をもつ領域については、文字認識や罫線認識など領域内部の認識処理を行う。このとき、領域および領域内部の領域からなる文書画像構成要素の認識結果候補コードとして、「文章」、「表」、「図」、「枠」などの領域の種類コードと、「文字コード」などの個別コードを合わせて含むことにより、領域識別と領域内認識の結果を一括して修正できるようにする。
【0032】
認識コードを修正するには、文書画像構成要素を指示する手段が必要である。文書画像構成要素とは、文書画像の部分画像であり、文字などの文書画像を構成する要素を意味する。通常は、文書画像領域の座標位置により、文書画像構成要素を指示するが、このために、文書画像構成要素の領域を下記の(a)、(b)のいずれかの方法で定義する。
(a)文書画像構成要素の領域は、文書画像構成要素の文字・図形に対応する画素領域と定義する。
(b)文書画像構成要素の領域は、文書画像構成要素の文字・図形の外接矩形内と定義する。
【0033】
上記に定義した文書画像構成要素の領域と文書画像領域の指示座標位置により、文書画像構成要素を最初に指示する手段として、下記の(a)、(b)、(c)が考えられる。
(a)文書画像の指示座標を含む最も内側の文書画像構成要素を、指示対象とする。
(b)文書画像の指示座標を含む最大の文書画像構成要素を、指示対象とする。(c)文書画像の指示座標に外接枠が最も近い文書画像構成要素を、指示対象とする。
【0034】
上記の(a)、(b)の方法では、指定できない文書画像構成要素が生ずる場合があるが、それらの文書画像構成要素は、上記の(c)の場合も含めて、既に指定した文書画像構成要素との関係から、下記(a)、(b)のように指示することができる。
(a)既に指示した文書画像構成要素を含む最も内側の文書画像構成要素を、指示対象とする。
(b)既に指示した文書画像構成要素内で文書画像の指示座標を含む最大の文書画像構成要素を、指示対象とする。
【0035】
文書画像構成要素の認識結果候補コードのユーザへの呈示方法は、例えば、下記(a)、(b)のようになる。
(a)認識結果候補第1位が「文字」の場合、文字認識を行い、文字認識結果の候補文字コードを上位の認識結果候補コードとし、「文字」以外の「表」、「図」、「枠」などの文書画像構成要素の種類コードを、下位の認識結果候補コードとする。
(b)認識結果候補第1位が「文字」以外の「文章」、「表」、「図」、「枠」などの文書画像構成要素の種類の場合、その文書画像構成要素の種類コードを第1位の認識結果候補コードとし、これ以外の文書画像構成要素の種類コードを下位の認識結果候補コードとする。
【0036】
また、修正指示時の動作は下記(a)、(b)のようになる。
(a)認識結果候補コードとして「文字」の種類コードを修正指示した場合、該当する入力文字画像の文字認識を行い、単数あるいは複数の文字認識結果候補文字コードで、認識結果候補コードの「文字」を置き換える。
(b)認識結果候補コードとして「文字」以外の「表」、「図」、「枠」などの文書画像構成要素の種類コードを修正指示した場合、該当する入力文字画像に対して、指示された種類の文書画像構成要素としての認識を行う。
【0037】
(2)文字認識結果の候補文字表示領域内に、文字画像を表示するようにして、認識結果と入力画像の比較確認のための視点移動を低減する。
文書画像処理装置は、文書画像を入力とし、文字、表、図、枠などの文書画像構成要素の画像を決定し、文書画像構成要素の認識によるコード化処理を行う。このとき、認識結果候補表示として、認識結果候補コードと共に、文書画像構成要素の画像を表示する。これにより、認識結果と入力画像の比較確認のための視点移動を低減する。
【0038】
また、文書画像構成要素の認識結果候補表示における文書画像構成要素画像を修正指示可能とし、修正指示した場合は、文書画像構成要素画像に新コードを対応させ、編集可能とする。これにより、認識結果候補文字中に正解文字がない場合でも、文字画像を修正選択することにより、必ず正しく修正でき、かつ編集できるようになる。
【0039】
文書画像構成要素画像を修正指示し、文書画像構成要素画像に新コードを対応させて編集するために、新コードの表示情報を表示部に表示することにより、既存のコードと新コードが混在した文書を編集可能とする。より一般には、文書画像を入力とし、文書画像構成要素の画像を決定する際に、文書画像構成要素画像に新コードを対応させて、新コードの表示情報を表示部に表示することにより、既存のコードと新コードが混在した文書を編集可能とする。
【0040】
文書画像構成要素画像に対応させた新コードの表示情報としては、下記(a)、(b)のようなものがある。
(a)文書画像構成要素画像の等倍画像を含む縮小または拡大画像を用いる。
(b)文書画像構成要素画像の輪郭をベクトル化したデータを用いる。
【0041】
修正指示した文書画像構成要素画像に新コードを対応させ、編集可能とした場合、さらに、文書画像構成要素画像に「文字」、「表」、「図」、「枠」などの文書画像構成要素の種類属性を持たせれば、後段の編集処理に付加価値をつけることができる。この種類属性として、認識候補第1位のコードの属性を自動的に付与する方法が考えられる。この文書画像構成要素画像の種類属性を修正指示するインタフェース部を設ければ、さらに柔軟な修正を行うことができる。
【0042】
既存のコードと新コードが混在した文書を編集する際に、認識結果候補コードに確信度(信頼度)を付与することも考えられる。この場合、文書画像構成要素画像を認識結果候補として扱うために、文書画像構成要素画像にも一定値の確信度を与えて、確信度の大きい認識結果候補コードもしくは文書画像構成要素画像から順に順位付けする。文書画像構成要素画像を認識結果候補として扱うと、修正操作が一段と円滑になる効果がある。
【0043】
また、文書画像構成要素画像に与える確信度の値を外部から入力できるインタフェース部を持つと、認識結果をユーザの用途に適応させることができる効果がある。すなわち、文書画像構成要素画像に与える確信度が高いと、認識結果の中で文書画像構成要素画像が第1位となる比率が高くなり、結果が既存コード化される比率は低くなるが、誤認識率も低くなる。文書画像構成要素画像に与える確信度が低いと、認識結果の中で文書画像構成要素画像が第1位となる比率が低くなり、既存コード化される比率も高くなるが、誤認識率も高くなる。
【0044】
さらに、対話的に文書画像構成要素画像の確信度を入力し、認識結果候補第1位のみを表示するウィンドウを持ち、認識結果候補第1位表示を逐次変更する手段を設けると、認識対象文書ごとの対話的な調整が可能になる。
【0045】
次に、文書画像処理装置の構成と上述したような処理の具体例について、順に説明する。
図2は、本発明の文書画像処理装置の第1の構成図である。図2の文書画像処理装置は、文書画像入力部21、領域識別部22、個別領域認識部23、認識結果格納部24、表示部25、および修正部26を備え、図3に示すような処理を行う。
【0046】
まず、文書画像入力部21は、文書を電子化したディジタル画像を入力する(ステップS1)。文書画像入力部21としては、例えば、紙文書をディジタル化するスキャナ装置が使用される。次に、領域識別部22は、文書画像を入力とし、文章、表、図、囲み枠などの個別領域を識別する(ステップS2)。次に、個別領域認識部23は、文章、表、囲み枠などの内部構造をもつ領域について、文字認識や罫線認識など領域内部の認識処理を行う(ステップS3)。
【0047】
領域識別部22および個別領域認識部23による処理結果は、認識結果格納部24に格納される。すなわち、領域および領域内部の領域からなる文書画像構成要素の認識結果候補コードとして、「文章」、「表」、「図」、「囲み枠」などの領域の種類コードと、「文字コード」などの個別コードとが合わせて格納される。
【0048】
図4は、領域の種類コードと個別コードの例を示している。図4において、「文章」、「表」、「図」、「囲み枠」、および「文字」は種類コードを表し、「文字コード」は「文字」に対応する個別コードを表す。ここでは、「文章」、「表」、「図」、および「囲み枠」に対応する個別コードは定義されていない。
【0049】
認識結果格納部24に格納されたデータは、表示部25の画面上に表示される(ステップS4)と同時に、修正部26から入力されるユーザの修正指示に従って修正される(ステップS5)。具体的には、文書画像構成要素の認識結果候補コードのデータが修正される。
【0050】
修正部26による認識結果候補コードのデータの修正においては、修正対象の文書画像構成要素を選択する操作が必要である。文書画像構成要素の選択は、一般に、表示画面上でのポインティングデバイスなどを用いた座標指示により行われる。このため、文書画像構成要素の画像範囲(領域)をあらかじめ決めておく必要がある。
【0051】
文書画像構成要素の画像範囲としては、文書画像構成要素の黒画素連結領域を用いることができる。例えば、図5のような文書画像構成要素の場合、画像「メ」を構成する黒画素部分が画像範囲となる。
【0052】
また、文書画像構成要素の画像範囲として、文書画像構成要素の外接矩形を用いることもできる。例えば、図5のような文書画像構成要素の場合、図6に示すように、画像「メ」の黒画素連結領域の外接矩形が画像範囲となる。このような画像範囲を用いれば、黒画素部分の周囲の白画素部分を指示した場合でも、対応する文書画像構成要素が指定可能であり、黒画素部分よりも指示しやすいという利点がある。
【0053】
文書画像構成要素の中には、文章領域とこれに含まれる文字領域のように、概念的に階層上下関係にあるものが含まれるため、画像上の1つの指示座標により、対応する文書画像構成要素が一意に定まらない場合がある。一般に、2つの文書画像構成要素が概念的な階層上下関係にある場合、それらの領域は包含関係にある。例えば、図7に示す文書画像構成要素の場合、文章領域は文字領域を含み、表領域は罫線領域や文字領域を含んでいる。
【0054】
このような場合に、1つの指示座標により文書画像構成要素を一意に定めるために、指示座標を含む複数の文書画像構成要素のうち、最も内側の文書画像構成要素が指示されたものとみなすことにする。
【0055】
例えば、図8のような画像において、文書画像構成要素である文章「メディア」の中には、さらに4つの文書画像構成要素「メ」、「デ」、「ィ」、および「ア」が包含されている。ここで、各文書画像構成要素の画像範囲は、その外接矩形により定義されるものとする。この例において、ユーザが文書画像構成要素「メ」の外接矩形31内の点の座標を指示した場合は、文書画像構成要素「メ」が指示対象として検出される。
【0056】
また、指示座標を含む最も外側の文書画像構成要素が指示されたものとみなすこともできる。図8の例では、ユーザが文章「メディア」の外接矩形32内のどの点を指示しても、「メディア」が指示対象として検出される。したがって、「メ」の外接矩形31内の点が指示された場合でも、「メディア」が指示対象となる。
【0057】
また、指示座標に外接枠が最も近い文書画像構成要素が指示されたものとみなすこともできる。図8の例では、「メディア」、「メ」などの5つの文書画像構成要素の各外接矩形の辺上に指示点から垂線が引かれ、その長さが指示点と各外接矩形の間の距離として求められる。そして、指示点までの距離が最も短い外接矩形に対応する文書画像構成要素が、指示対象として検出される。この方法によれば、包含関係の制約を受けることなく、いずれの文書画像構成要素も指示対象となる可能性がある。
【0058】
ところで、上述のような指示方法では、領域が包含関係にある複数の文書画像構成要素から、1つの文書画像構成要素を選択することができるが、その他の文書画像構成要素を直接選択することはできない。したがって、既に選択した文書画像構成要素から間接的に他の文書画像構成要素を選択する処理を提供する必要がある。
【0059】
そこで、既に指定した文書画像構成要素を含む他の文書画像構成要素のうちで、最も内側のものを指示する選択操作を設けることにする。図8の例では、「メ」が既に指示されている状態で、ユーザがこの選択操作を行うと、その外側の「メディア」が指示される。
【0060】
また、既に指定した文書画像構成要素内の他の文書画像構成要素のうちで、既に指示した座標を含む最大の文書画像構成要素を指示する選択操作を設けてもよい。図8の例では、まず、「メ」の領域内の座標が指示されることにより、文書画像構成要素「メディア」が指示されたとする。この状態において、ユーザがこの選択操作を行うと、「メ」の領域内の指示座標を含む最大の文書画像構成要素である「メ」が指示される。
【0061】
次に、文書画像構成要素の領域の種類コードと個別コードを、認識結果候補として表示する方法としては、図9に示すように、種類コードと個別コードを個別に表示する2元表示法が考えられる。図9において、認識結果候補の第1位が「文字」であるため、文字認識が行われ、文字認識結果の個別コードが表示されている。しかし、この表示法では、種類コードと個別コードの関連性が直観的に分かりにくいことが多い。
【0062】
そこで、個別領域認識部23による文書画像構成要素の種類の認識において、認識結果候補の第1位が「文字」の場合、文字認識を行い、その結果得られた候補文字コードを、図10に示すように、上位の認識結果候補コードとして表示する。そして、「文字」以外の「表」、「図」、「枠」などの文書画像構成要素の種類コードを、下位の認識結果候補コードとして表示する。このように、種類コードと個別コードを1つのリストとして1元表示することで、認識結果候補が一目で分かるようになる。
【0063】
このような1元表示法では、認識結果候補の第1位が「文字」以外の「表」、「図」、「枠」などの種類の場合、図11に示すように、文字認識により得られた候補文字コードは下位の認識結果候補コードとして表示される。この場合、認識結果が「文字」である可能性は低く、正解度の低い文字認識結果を求めるための処理が実行されることになる。
【0064】
そこで、認識結果候補の第1位が「文字」以外の種類の場合、その文書画像構成要素の種類を第1位の認識結果候補コードとし、これ以外の文書画像構成要素の種類コードのみを下位の認識結果候補コードとしてもよい。この方法では、図12に示すように、文書画像構成要素の種類のみが候補として表示され、文字認識の候補文字は表示されない。
【0065】
このような表示を採用するのは、第2位以下の詳細情報を表示せず、表示を見やすくするためである。一般に、認識候補の第1位が正解である確率が高いため、結果的に、第2位以下の詳細情報は不要となることが多い。さらに、この方法では、「文字」などの第2位以下の認識結果候補に対応する認識処理が不要になり、処理が高速化される。
【0066】
ユーザは、こうして表示された認識結果候補を見て、それらを修正することができる。例えば、図13に示すように、第1位の種類コードである「表」を「文字」に修正指示した場合、「文字」以外の種類コードの順位が1つずつ下方にシフトする。そして、必要に応じて、該当する入力文字画像の文字認識が行われ、その結果得られる単数あるいは複数の候補文字コードにより、認識結果候補コードの「文字」が置き換えられる。
【0067】
また、認識結果候補コードとして「文字」以外の「表」、「図」、「枠」などの種類コードを修正指示した場合も、必要に応じて、該当する入力文字画像に対し、指示された文書画像構成要素としての認識処理が行われる。
例えば、図14に示すように、第1位の種類コードである「図」を、内部構造を持つ「表」や「囲み枠」に修正指示した場合、指示された種類コードである「表」や「囲み枠」の内部構造に関する認識が行われる。「表」の内部構造の認識処理では、罫線の抽出およびベクトル化、罫線により囲まれたセルの抽出、セル内の文字の認識などが行われる。また、「囲み枠」の内部構造の認識処理では、枠の抽出およびベクトル化、枠内の領域識別などが行われる。
【0068】
図15は、本発明の文書画像処理装置の第2の構成図である。図15の文書画像処理装置は、文書画像入力部41、文書画像構成要素抽出部42、コード付加部43、編集データ格納部44、文書データ格納部45、表示部46、コード文書入力部47、編集操作入力部48、および編集部49を備え、図16および図17に示すような処理を行う。
【0069】
まず、文書画像入力部41は、文書を電子化したディジタル画像を入力する(ステップS11)。文書画像入力部41は、例えば、デジタルスキャナ装置である。次に、文書画像構成要素抽出部42は、文書画像を構成する文書画像構成要素を抽出する(ステップS12)。
【0070】
コード付加部43は、抽出された文書画像構成要素に新コードを付加し(ステップS13)、新コードが付加された文書画像構成要素を編集データ格納部44に格納する(ステップS14)。また、必要であれば、コード文書入力部47が、既存の電子文書(電子コード文書)を編集データ格納部44に入力する(ステップS15)。既存の電子文書のデータは、既存コードの集合であり、既存の文字パターンに対応している。したがって、編集データ格納部44に格納される編集データには、図18に示すような2種類のデータが含まれる。
【0071】
編集データ格納部44において、文書画像構成要素は、ビットマップなどの画像データで表され、新コードとしては、外字コードなどが用いられる。新コードは文書画像構成要素のビットマップデータに自動的に付加されるため、ユーザは、通常の外字登録の場合のように、文字の形状などをデザインする必要がない。また、既存の文字パターンは、フォントデータなどで表される。
【0072】
さらに、必要であれば、既に編集されて文書データ格納部45に格納されている文書データを、編集データ格納部44に読み出して使用することもできる(ステップS16)。
【0073】
次に、表示部46は、編集データ格納部44内のデータを用いて、編集対象の文書を画面に表示する(ステップS17)。文書画像構成要素の表示には、画像データが用いられ、既存の文字パターンの表示には、フォントデータが用いられる。
【0074】
編集操作入力部48から、ユーザによる文書の編集操作が編集部49に入力されると(ステップS18)、編集部49は、編集データ格納部44内のデータを編集する(ステップS19)。このとき、新コードと既存コードの集合が編集処理の直接の対象となり、表示処理には、画像データおよびフォントデータが使用される。
【0075】
文書画像構成要素のコピー操作や移動操作の際には、ユーザは、ポインティングデバイスなどを用いて、表示された画像上で指示を行う。これを受けて、編集部49は、指示された文書画像構成要素に対応する新コードに対して、指示された編集処理を行う。このように、文書画像構成要素に対応する新コードは、システムにより自動的に処理されるため、ユーザはそれを直接扱う必要がない。
【0076】
編集操作を完了した文書データは、編集データ格納部44から文書データ格納部45に格納されて(ステップS20)、処理が終了する。文書データ格納部45に格納された文書データは、編集データ格納部44に読み込んで、再編集することもできる。
【0077】
例えば、図19に示すようなコード文書が紙媒体に印刷され、何回かコピーやFAX(ファクシミリ)送信された後に、文書画像入力部41から画像として入力されたとする。この課程で印字品質が劣化するため、入力画像は、図20に示すような文書画像となる。
【0078】
文書画像構成要素抽出部42は、この文書画像から、図21に示すような文書画像構成要素を抽出する。ここでは、抽出された各文書画像構成要素が、外接矩形を用いて画面に表示されている。各文書画像構成要素には、コード付加部43により新コードが付与され、文書画像構成要素の単位で編集ができるようになる。
【0079】
ユーザは、表示された画像に含まれる文書画像構成要素の順番を変えて、図22に示すような画像を作成することができる。ここでは、「マルチメディアシステム」の画像が「メディアマルチシステム」に編集されている。
【0080】
さらに、コード文書入力部47から入力されたコード文書と文書画像構成要素の混在編集もできる。例えば、文書画像構成要素「マルチ」をコード文書「統合」に置き換える編集を行うと、図23に示すような文書が生成される。すべての編集が終了した後、図24に示すように、外接矩形による文書画像構成要素の表示は解除される。編集後の文書は、ユーザの指示に応じて、印刷されたり、認識処理されたりする。
【0081】
このように、文書画像構成要素画像に新たなコードを対応させて、そのコードの表示情報を表示部46に表示することにより、既存のコードと新コードが混在した文書を編集することが可能になる。
【0082】
表示部46は、文書画像構成要素画像に対応させた新コードの表示情報として、文書画像構成要素画像の等倍画像を含む縮小または拡大画像を用いる。文書画像構成要素画像の大きさは様々であるため、既存の文書データと混在して編集するためには、大きさを変更して表示した方が便利である。
【0083】
文書画像構成要素画像として最も一般的な文字画像については、既存の文字パターンと大きさを同一にして表示する。このために、文字画像を縮小または拡大して表示する。図24では、この方法により、文字画像である「メディア」および「システム」の大きさと、既存の文字パターンである「統合」の大きさが統一されて表示されている。
【0084】
また、この既存の文字パターンの大きさと整合性を保ったままで、文字画像を縮小表示すると、図25に示すようになり、さらに縮小すると、図26に示すようになる。
【0085】
しかし、文書画像構成要素画像を、画像データのままで拡大・縮小すると、形状が崩れて表示される場合がある。そこで、文書画像構成要素の表示に、文書画像構成要素画像の輪郭をベクトル化したアウトライン・データ(アウトライン・フォント)を用いると、拡大・縮小した場合でも形状が崩れるのを防ぐことができる。
【0086】
例えば、文字画像「メ」をベクトル化したアウトライン・データを拡大・縮小すると、図27のような表示が得られる。図27では、いずれの文字の形状も相似であることが分かる。
【0087】
ところで、編集された文書画像の認識処理を行う場合は、文書データを図2の文書処理装置に入力する。そして、上述したような領域識別と認識処理を行った後、認識結果候補の表示・修正を行う。
【0088】
従来の認識結果表示方法では、図39に示したように、認識結果候補コードの文字パターンと、対応する文字画像とが別々に表示される。このため、確認のための視線移動が大きく、ユーザにとって負担になるという問題がある。
【0089】
そこで、本実施形態では、図28に示すように、認識結果候補の表示領域(表示ウィンドウ)51内に、認識結果候補の文字パターンとともに、対応する文書画像構成要素画像を表示する。このように、文書画像構成要素を入力文書画像から分離して認識結果候補の近くに表示すれば、視線移動が大幅に削減され、ユーザは、認識結果の妥当性を容易に確認することができる。
【0090】
文書画像構成要素が文字以外の場合も、同様にして、認識結果候補の表示領域内に元の画像を表示することができる。例えば、図29に示すような認識結果52の場合、認識結果候補の種類コードを表す「表」、「囲み枠」などとともに、表示領域51内に文書画像構成要素画像53が表示される。これにより、ユーザは、認識結果52の妥当性を容易に確認することができる。
【0091】
また、このようにして表示された文書画像構成要素画像を修正に用いることもできる。通常の文字認識の認識結果表示においては、候補中に正解が含まれない場合もある。このような場合に、ユーザが文書画像構成要素画像を選択すると、認識結果中の候補文字コードが文書画像構成要素のコードに置き換えられ、画面上には、部分的に画像データを用いた妥当な文書が表示される。
【0092】
例えば、図30の左側に示すような認識結果において、表示された候補文字中に正解の「情」が含まれていない場合、ユーザは文書画像構成要素画像54を選択して、修正指示を行う。これにより、認識結果は、右側に示すように、画像54を用いて修正表示される。
【0093】
また、図31の左側に示すような表の認識結果において、表示された認識結果52が正しくない場合、ユーザは文書画像構成要素画像55を選択して、修正指示を行う。これにより、認識結果は、右側に示すように、画像55を用いて修正表示される。
【0094】
このように、認識結果候補表示における文書画像構成要素画像を修正指示可能とし、ユーザがそれを選択した場合は、文書画像構成要素画像に対応するコードを用いて編集処理が行われる。したがって、少なくとも表示上では、常に、妥当な認識結果候補が含まれていることになる。
【0095】
また、文書画像構成要素画像に「文字」、「表」、「図」、「枠」などの文書画像構成要素の種類属性を保持させることにより、種類属性に応じた取り扱いが可能となる。種類属性は、文書画像構成要素画像のコードとともに、図2の認識結果格納部24に格納される。認識結果においては、通常、第1位の認識候補が最も確度が高いため、そのコードの種類に対応する属性が、種類属性として文書画像構成要素画像に自動的に付加される。
【0096】
例えば、図32の左側に示すような認識結果においては、第1位の「惰」の種類属性が「文字」であるため、文書画像構成要素画像54の属性も「文字」になっている。
【0097】
ユーザは、このような認識結果表示において、文書画像構成要素画像を選択して、その種類属性に応じた再認識処理を行わせることもできる。図32の例では、ユーザが文書画像構成要素画像54を選択して修正指示すると、右側に示すように、対応する文字パターンが文書画像構成要素画像54に置き換えられて、再度、文字認識が行われる。
【0098】
ところで、第1位の認識候補に対応する種類属性を文書画像構成要素画像に与えたとしても、それが誤っていることも考えられる。そこで、文書画像構成要素画像の種類属性を修正指示するための外部インタフェース部を、図2の修正部26内に設けておく。この外部インタフェース部は、ユーザの指示に応じて、文書画像構成要素画像の種類属性を変更する。例えば、図33においては、文書画像構成要素画像である「情」の属性が、「表」から「文字」に変更されている。
【0099】
また、認識処理においては、認識結果の各候補コードと認識辞書との距離値などを計算して、各候補コードに確信度を与える場合が多い。そこで、本実施形態では、文書画像構成要素画像にも一定値の確信度を与えて、確信度の高い候補コードもしくは文書画像構成要素画像から順に順位付けを行う。元来の認識結果候補である候補コードの確信度が低い場合でも、このような順位付けを行うと、文書画像構成要素画像が第1位の認識結果候補となるため、認識結果の文書が適切に表示される。
【0100】
図34および図35は、認識結果候補を確信度とともに表示した例を示している。図34においては、文書画像構成要素画像である「情」の確信度は60であり、これは第2位の候補として表示されている。これに対して、図35においては、「情」の確信度は70であり、これは第1位の候補として表示されている。
【0101】
このように、文書画像構成要素画像とその他の候補コードとの相対的な確信度の差によって、順位付けが異なってくる。このため、文書画像構成要素画像の確信度を、元来の認識結果候補を文書画像構成要素画像により置き換えるためのしきい値として用いることができる。そこで、文書画像構成要素画像の確信度を入力する外部インタフェース部を、図2の修正部26内に設けておき、ユーザがこのしきい値を調整できるようにする。
【0102】
修正部26は、文書画像構成要素画像の確信度が入力される度に、それを他の候補の確信度と比較し、必要であれば、認識結果候補の第1位の表示を更新する。これにより、ユーザは、結果を確認しながら、確信度のしきい値を対話的に調整することができる。
【0103】
このとき、図2の表示部25は、図34および図35に示したように、所定数の認識結果候補を表示してもよいが、第1位の候補のみを表示するウィンドウを設定してもよい。第1位の候補のみを表示することで、ユーザの視線移動が軽減されるため、しきい値の調整作業が効率化される。
【0104】
本実施形態の文書画像処理装置は、例えば、図36に示すような情報処理装置(コンピュータ)を用いて構成することができる。図36の情報処理装置は、CPU(中央処理装置)61、メモリ62、入力装置63、出力装置64、外部記憶装置65、媒体駆動装置66、ネットワーク接続装置67、および光電変換装置68を備え、それらはバス69により互いに接続されている。
【0105】
メモリ62には、上述したような文書画像処理に用いられるプログラムとデータが格納される。メモリ62としては、例えばROM(read only memory)、RAM(random access memory)などが用いられる。CPU61は、メモリ62を利用してプログラムを実行することにより、必要な処理を行う。
【0106】
入力装置63は、例えば、キーボード、ポインティングデバイス、タッチパネルなどであり、ユーザからの指示や必要な情報の入力に用いられる。出力装置64は、例えば、ディスプレイやプリンタなどであり、処理結果などの出力に用いられる。
【0107】
外部記憶装置65は、例えば、磁気ディスク装置、光ディスク装置、光磁気ディスク(magneto-optical disk)装置などである。この外部記憶装置65に、上述のプログラムとデータを保存しておき、必要に応じて、それらをメモリ62にロードして使用することもできる。
【0108】
媒体駆動装置66は、可搬記録媒体70を駆動し、その記録内容にアクセスする。可搬記録媒体70としては、メモリカード、フロッピーディスク、CD−ROM(compact disk read only memory )、光ディスク、光磁気ディスクなど、任意のコンピュータ読み取り可能な記録媒体が用いられる。この可搬記録媒体70に上述のプログラムとデータを格納しておき、必要に応じて、それらをメモリ62にロードして使用することもできる。
【0109】
ネットワーク接続装置67は、LAN(local area network)などの任意のネットワーク(回線)を介して外部の装置と通信し、通信に伴うデータ変換を行う。これにより、文書画像処理装置は、必要に応じて、上述のプログラムとデータを外部の装置から受け取り、それらをメモリ62にロードして使用することができる。
【0110】
光電変換装置68は、例えば、デジタルスキャナであり、紙媒体に記述された文書の画像を入力する。
図37は、図36の情報処理装置にプログラムとデータを供給することのできるコンピュータ読み取り可能な記録媒体を示している。可搬記録媒体70や外部のデータベース71に保存されたプログラムとデータは、メモリ62にロードされる。そして、CPU61は、そのデータを用いてそのプログラムを実行し、必要な処理を行う。
【0111】
【発明の効果】
本発明によれば、文書画像の領域識別と領域内認識を一括して行い、その結果を一括して修正できるため、修正作業におけるユーザの負担が軽減される。従来の2段階の修正作業では、1段目と2段目の修正作業の間、ユーザが拘束されていたが、この拘束時間がなくなることになる。
【0112】
また、領域内認識における認識結果候補の1つとして元の画像が表示されるため、認識結果と入力画像の比較確認のための視点移動が低減され、ユーザの負担が軽くなる。また、認識結果候補中に正解がない場合は、元の画像を選択して修正できるため、修正用の文字コードを入力し直す必要がなくなる。
【図面の簡単な説明】
【図1】本発明の文書画像処理装置の原理図である。
【図2】文書画像処理装置の第1の構成図である。
【図3】第1の文書画像処理のフローチャートである。
【図4】種類コードと個別コードを示す図である。
【図5】第1の画像範囲を示す図である。
【図6】第2の画像範囲を示す図である。
【図7】文書画像構成要素の階層を示す図である。
【図8】包含関係にある文書画像構成要素を示す図である。
【図9】認識結果の第1の表示を示す図である。
【図10】認識結果の第2の表示を示す図である。
【図11】認識結果の第3の表示を示す図である。
【図12】認識結果の第4の表示を示す図である。
【図13】第1の修正指示を示す図である。
【図14】第2の修正指示を示す図である。
【図15】文書画像処理装置の第2の構成図である。
【図16】第2の文書画像処理のフローチャート(その1)である。
【図17】第2の文書画像処理のフローチャート(その2)である。
【図18】編集データを示す図である。
【図19】コード文書を示す図である。
【図20】文書画像を示す図である。
【図21】抽出された文書画像構成要素を示す図である。
【図22】編集結果の第1の表示を示す図である。
【図23】編集結果の第2の表示を示す図である。
【図24】編集結果の第3の表示を示す図である。
【図25】第1の縮小表示を示す図である。
【図26】第2の縮小表示を示す図である。
【図27】アウトライン表示を示す図である。
【図28】認識結果の第5の表示を示す図である。
【図29】認識結果の第6の表示を示す図である。
【図30】第3の修正指示を示す図である。
【図31】第4の修正指示を示す図である。
【図32】第5の修正指示を示す図である。
【図33】第6の修正指示を示す図である。
【図34】認識結果の第7の表示を示す図である。
【図35】認識結果の第8の表示を示す図である。
【図36】情報処理装置の構成図である。
【図37】記録媒体を示す図である。
【図38】従来の文書画像認識・編集装置の構成図である。
【図39】従来の認識結果表示を示す図である。
【符号の説明】
1、21、41 文書画像入力部
2、22 領域識別部
3 領域識別結果格納部
4、23 個別領域認識部
5、24 認識結果格納部
6 第1の修正部
7 第2の修正部
8、25、46 表示部
11 識別手段
12 認識手段
13 出力手段
14 修正手段
15 抽出手段
16 コード付加手段
17 編集手段
26 修正部
31、32 外接矩形
42 文書画像構成要素抽出部
43 コード付加部
44 編集データ格納部
45 文書データ格納部
47 コード文書入力部
48 編集操作入力部
49 編集部
51 表示領域
52 認識結果
53、54、55 文書画像構成要素画像
61 CPU
62 メモリ
63 入力装置
64 出力装置
65 外部記憶装置
66 媒体駆動装置
67 ネットワーク接続装置
68 光電変換装置
69 バス
70 可搬記録媒体
71 データベース

Claims (10)

  1. 入力画像の認識処理を行う画像処理装置であって、
    前記入力画像内の文章、表、図、囲み枠、および文字のうちの1つに対応する領域であるパターン領域を識別して、該パターン領域の種類を決定する識別手段と、
    内部構造をもつパターン領域内に含まれるパターンの認識処理を行う認識手段と、
    文章、表、図、囲み枠、および文字のうちの1つに対応する前記パターン領域の種類を表す種類情報を、前記入力画像を構成する画像構成要素の認識結果候補として画面表示し、該種類情報が文字を表す場合には、該種類情報と対応する文字パターンを表す個別情報とを該画像構成要素の認識結果候補として画面表示する出力手段と、
    画面表示された前記認識結果候補を修正する修正手段とを備え
    前記識別手段が、前記パターン領域の種類の第1位の候補を文字と決定したとき、前記認識手段は、該パターン領域内に含まれるパターンの文字認識処理を行い、前記出力手段は、認識結果の1つ以上の候補文字の個別情報を上位の認識結果候補として画面表示し、文字以外の種類情報を下位の認識結果候補として画面表示し、
    前記識別手段が、前記パターン領域の種類の第1位の候補を文字以外の特定の種類と決定したとき、前記出力手段は、該特定の種類の種類情報を上位の認識結果候補として画面表示し、他の種類情報を下位の認識結果候補として画面表示し、
    前記修正手段が、画面表示された認識結果候補の種類情報を文字に修正したとき、前記認識手段は、必要に応じて、前記パターン領域内に含まれるパターンの文字認識処理を行い、前記出力手段は、認識結果の1つ以上の候補文字の個別情報を上位の認識結果候補として画面表示し、
    前記修正手段が、画面表示された認識結果候補の種類情報を文字以外の特定の種類に修正したとき、前記認識手段は、該特定の種類に応じて、前記パターン領域内に含まれるパターンの認識処理を行うことを特徴とする画像処理装置。
  2. 前記修正手段は、修正すべき画像構成要素を、対応する画素領域により指定することを特徴とする請求項1記載の画像処理装置。
  3. 前記修正手段は、修正すべき画像構成要素を、対応する画素領域の外接矩形により指定することを特徴とする請求項1記載の画像処理装置。
  4. 前記出力手段は、前記画像構成要素を画面表示する表示手段を含み、前記修正手段は、画面上で指示された位置を含む最も内側の画像構成要素を、指示された画像構成要素とすることを特徴とする請求項1記載の画像処理装置。
  5. 前記出力手段は、前記画像構成要素を画面表示し、前記修正手段は、画面上で指示された位置を含む最大の画像構成要素を、指示された画像構成要素とすることを特徴とする請求項1記載の画像処理装置。
  6. 前記出力手段は、前記画像構成要素を画面表示し、前記修正手段は、画面上で指示された位置に最も近い外接枠を有する画像構成要素を、指示された画像構成要素とすることを特徴とする請求項1記載の画像処理装置。
  7. 前記出力手段は、前記画像構成要素を画面表示し、前記修正手段は、画面上で画像構成要素を指示する指示手段を含み、既に指示された画像構成要素を含む最も内側の画像構成要素を、新たに指示された画像構成要素とすることを特徴とする請求項1記載の画像処理装置。
  8. 前記出力手段は、前記画像構成要素を画面表示し、前記修正手段は、画面上で画像構成要素を指示する指示手段を含み、既に指示された画像構成要素内の画像構成要素のうち、指示された座標を含む最大の画像構成要素を、新たに指示された画像構成要素とすることを特徴とする請求項1記載の画像処理装置。
  9. 入力画像の認識処理を行うコンピュータのためのプログラムを記録した記録媒体であって、
    前記入力画像内の文章、表、図、囲み枠、および文字のうちの1つに対応する領域であるパターン領域を識別して、該パターン領域の種類を決定する機能と
    前記パターン領域の種類の第1位の候補を文字と決定したとき、該パターン領域内に含 まれるパターンの文字認識処理を行い、文字を表す種類情報と認識結果の1つ以上の候補文字に対応する文字パターンを表す個別情報を、前記入力画像を構成する画像構成要素の上位の認識結果候補として画面表示し、文字以外の文章、表、図、または囲み枠を表す種類情報を下位の認識結果候補として画面表示する機能と、
    前記パターン領域の種類の第1位の候補を文字以外の特定の種類と決定したとき、該特定の種類の種類情報を上位の認識結果候補として画面表示し、他の種類情報を下位の認識結果候補として画面表示する機能と、
    画面表示された認識結果候補を修正する機能と、
    画面表示された認識結果候補の種類情報を文字に修正したとき、必要に応じて、前記パターン領域内に含まれるパターンの文字認識処理を行い、認識結果の1つ以上の候補文字の個別情報を上位の認識結果候補として画面表示する機能と、
    画面表示された認識結果候補の種類情報を文字以外の特定の種類に修正したとき、該特定の種類に応じて、前記パターン領域内に含まれるパターンの認識処理を行う機能と
    を前記コンピュータに実現させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
  10. 画像をコンピュータに入力し、
    入力画像内の文章、表、図、囲み枠、および文字のうちの1つに対応する領域であるパターン領域を識別して、該パターン領域の種類を決定し、
    前記パターン領域の種類の第1位の候補を文字と決定したとき、該パターン領域内に含まれるパターンの文字認識処理を行い、文字を表す種類情報と認識結果の1つ以上の候補文字に対応する文字パターンを表す個別情報を、前記入力画像を構成する画像構成要素の上位の認識結果候補として画面表示し、文字以外の文章、表、図、または囲み枠を表す種類情報を下位の認識結果候補として画面表示し、
    前記パターン領域の種類の第1位の候補を文字以外の特定の種類と決定したとき、該特定の種類の種類情報を上位の認識結果候補として画面表示し、他の種類情報を下位の認識結果候補として画面表示し、
    画面表示された認識結果候補を修正し、
    画面表示された認識結果候補の種類情報を文字に修正したとき、必要に応じて、前記パターン領域内に含まれるパターンの文字認識処理を行い、認識結果の1つ以上の候補文字の個別情報を上位の認識結果候補として画面表示し、
    画面表示された認識結果候補の種類情報を文字以外の特定の種類に修正したとき、該特定の種類に応じて、前記パターン領域内に含まれるパターンの認識処理を行う
    ことを特徴とする画像処理方法。
JP31684997A 1997-11-18 1997-11-18 文書画像処理装置および方法 Expired - Fee Related JP4071328B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP31684997A JP4071328B2 (ja) 1997-11-18 1997-11-18 文書画像処理装置および方法
US09/060,712 US6466694B2 (en) 1997-11-18 1998-04-16 Document image processing device and method thereof
CN98108703A CN1120442C (zh) 1997-11-18 1998-05-29 文件图象处理设备及其方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP31684997A JP4071328B2 (ja) 1997-11-18 1997-11-18 文書画像処理装置および方法

Related Child Applications (2)

Application Number Title Priority Date Filing Date
JP2007260129A Division JP4633773B2 (ja) 2007-10-03 2007-10-03 文書画像処理装置および方法
JP2007260130A Division JP4589370B2 (ja) 2007-10-03 2007-10-03 文書画像処理装置および方法

Publications (2)

Publication Number Publication Date
JPH11149520A JPH11149520A (ja) 1999-06-02
JP4071328B2 true JP4071328B2 (ja) 2008-04-02

Family

ID=18081611

Family Applications (1)

Application Number Title Priority Date Filing Date
JP31684997A Expired - Fee Related JP4071328B2 (ja) 1997-11-18 1997-11-18 文書画像処理装置および方法

Country Status (3)

Country Link
US (1) US6466694B2 (ja)
JP (1) JP4071328B2 (ja)
CN (1) CN1120442C (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210240977A1 (en) * 2020-02-03 2021-08-05 Fuji Xerox Co., Ltd. Document processing apparatus and non-transitory computer readable medium storing program

Families Citing this family (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6687879B1 (en) * 1998-07-09 2004-02-03 Fuji Photo Film Co., Ltd. Font retrieval apparatus and method using a font link table
JP3913985B2 (ja) * 1999-04-14 2007-05-09 富士通株式会社 文書画像中の基本成分に基づく文字列抽出装置および方法
US7000186B1 (en) * 1999-05-03 2006-02-14 Amicas, Inc. Method and structure for electronically transmitting a text document and linked information
US6799204B1 (en) * 1999-10-22 2004-09-28 Telcordia Technologies, Inc. Method and system for dynamic registration and configuration protocol
JP4178697B2 (ja) * 1999-11-18 2008-11-12 ソニー株式会社 携帯型情報処理端末、情報入出力システム及び情報入出力方法
FR2801997A1 (fr) * 1999-12-02 2001-06-08 Itesoft Technologie adaptative d'analyse automatique de document
DE10000839C1 (de) 2000-01-12 2001-05-10 Schott Glas Alkalifreies Aluminoborosilicatglas und dessen Verwendungen
JP3756719B2 (ja) * 2000-01-20 2006-03-15 理想科学工業株式会社 文書修飾装置及び画像処理装置
US6760490B1 (en) * 2000-09-28 2004-07-06 International Business Machines Corporation Efficient checking of key-in data entry
JP4261783B2 (ja) * 2001-09-11 2009-04-30 キヤノン株式会社 文書登録システム、方法、プログラム及び記憶媒体
WO2004055697A1 (ja) * 2002-12-13 2004-07-01 Fujitsu Limited 処理方法、処理装置及びコンピュータプログラム
JP4006333B2 (ja) * 2002-12-26 2007-11-14 キヤノン株式会社 画像圧縮方法、画像処理装置、コンピュータプログラム、コンピュータ可読記憶媒体
JP4251629B2 (ja) * 2003-01-31 2009-04-08 キヤノン株式会社 画像処理システム及び情報処理装置、並びに制御方法及びコンピュータプログラム及びコンピュータ可読記憶媒体
JP4012140B2 (ja) * 2003-11-20 2007-11-21 キヤノン株式会社 画像処理装置、情報処理装置及びそれらの制御方法、プログラム
JP3997198B2 (ja) * 2003-12-05 2007-10-24 キヤノン株式会社 画像処理システム及び画像処理方法
JP2006023944A (ja) * 2004-07-07 2006-01-26 Canon Inc 画像処理システム及び画像処理方法
JP2006023945A (ja) * 2004-07-07 2006-01-26 Canon Inc 画像処理システム及び画像処理方法
JP4208780B2 (ja) * 2004-07-07 2009-01-14 キヤノン株式会社 画像処理システム及び画像処理装置の制御方法並びにプログラム
JP4227569B2 (ja) * 2004-07-07 2009-02-18 キヤノン株式会社 画像処理システム、画像処理装置の制御方法、プログラム及び記録媒体
JP4817624B2 (ja) * 2004-08-06 2011-11-16 キヤノン株式会社 画像処理システム、画像改ざん鑑定方法、コンピュータプログラム、及びコンピュータ読み取り可能な記憶媒体
WO2006033283A1 (ja) 2004-09-21 2006-03-30 Nissan Chemical Industries, Ltd. 五酸化アンチモンの製造方法
FR2894352A1 (fr) * 2006-03-27 2007-06-08 France Telecom Procede de saisie adaptative et entites associees.
JP4544315B2 (ja) * 2008-02-29 2010-09-15 富士ゼロックス株式会社 紙文書処理装置及びプログラム
US8321422B1 (en) 2009-04-23 2012-11-27 Google Inc. Fast covariance matrix generation
US8611695B1 (en) 2009-04-27 2013-12-17 Google Inc. Large scale patch search
US8396325B1 (en) * 2009-04-27 2013-03-12 Google Inc. Image enhancement through discrete patch optimization
US8391634B1 (en) 2009-04-28 2013-03-05 Google Inc. Illumination estimation for images
US8385662B1 (en) 2009-04-30 2013-02-26 Google Inc. Principal component analysis based seed generation for clustering analysis
JP2011060268A (ja) * 2009-08-10 2011-03-24 Fuji Xerox Co Ltd 画像処理装置及び画像処理プログラム
US8798393B2 (en) 2010-12-01 2014-08-05 Google Inc. Removing illumination variation from images
JP2012191386A (ja) * 2011-03-10 2012-10-04 Fuji Xerox Co Ltd パターン生成装置、画像形成装置及びプログラム
JP2012221095A (ja) * 2011-04-06 2012-11-12 Sony Corp 情報処理装置および方法、プログラム、並びに撮像装置
JP5665125B2 (ja) * 2011-04-07 2015-02-04 株式会社日立製作所 画像処理方法、及び、画像処理システム
US9712847B2 (en) * 2011-09-20 2017-07-18 Microsoft Technology Licensing, Llc Low-complexity remote presentation session encoder using subsampling in color conversion space
US8938119B1 (en) 2012-05-01 2015-01-20 Google Inc. Facade illumination removal
US8824772B2 (en) * 2012-10-23 2014-09-02 Ensenta Inc. System and method for improved remote deposit image handling
CN104427337B (zh) * 2013-08-21 2018-03-27 杭州海康威视数字技术股份有限公司 基于目标检测的感兴趣区域视频编码方法及其装置
CN106354277A (zh) * 2016-09-21 2017-01-25 成都创慧科达科技有限公司 一种词组语句快速输入的方法及系统
US10275646B2 (en) 2017-08-03 2019-04-30 Gyrfalcon Technology Inc. Motion recognition via a two-dimensional symbol having multiple ideograms contained therein
JP7075770B2 (ja) * 2018-02-07 2022-05-26 グローリー株式会社 文字認識システム、文字鮮明化システム、文字鮮明化プログラム、文字鮮明化方法、及び文字鮮明化画像の表示装置
JP7226136B2 (ja) * 2019-06-25 2023-02-21 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5113492A (en) * 1987-09-16 1992-05-12 Canon Kabushiki Kaisha Apparatus for processing character and image data
JPH0727543B2 (ja) * 1988-04-28 1995-03-29 インターナシヨナル・ビジネス・マシーンズ・コーポレーション 文字認識装置
WO1991006057A1 (en) * 1989-10-20 1991-05-02 Hitachi, Ltd. Image display/processing method of formatted document and apparatus therefor
JPH03214378A (ja) * 1990-01-19 1991-09-19 Sony Corp 文字認識装置
JPH05346970A (ja) * 1991-04-04 1993-12-27 Fuji Xerox Co Ltd 文書認識装置
JP3131287B2 (ja) * 1992-05-27 2001-01-31 株式会社日立製作所 パターン認識装置
JP2979109B2 (ja) * 1992-12-03 1999-11-15 日本アイ・ビー・エム 株式会社 認識文字の情報作成方法及び装置
GB9226137D0 (en) * 1992-12-15 1993-02-10 Ibm Data entry system
JPH06274680A (ja) * 1993-03-17 1994-09-30 Hitachi Ltd 文書認識方法およびシステム
JP3504054B2 (ja) * 1995-07-17 2004-03-08 株式会社東芝 文書処理装置および文書処理方法
US5917942A (en) * 1995-12-28 1999-06-29 Motorla, Inc. Device and method for handwriting recognition with adaptive weighting of recognition data
US5933531A (en) * 1996-08-23 1999-08-03 International Business Machines Corporation Verification and correction method and system for optical character recognition
US5889897A (en) * 1997-04-08 1999-03-30 International Patent Holdings Ltd. Methodology for OCR error checking through text image regeneration

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210240977A1 (en) * 2020-02-03 2021-08-05 Fuji Xerox Co., Ltd. Document processing apparatus and non-transitory computer readable medium storing program
US11875588B2 (en) * 2020-02-03 2024-01-16 Fujifilm Business Innovation Corp. Document processing apparatus and non-transitory computer readable medium storing program

Also Published As

Publication number Publication date
CN1120442C (zh) 2003-09-03
US6466694B2 (en) 2002-10-15
JPH11149520A (ja) 1999-06-02
US20010014176A1 (en) 2001-08-16
CN1217512A (zh) 1999-05-26

Similar Documents

Publication Publication Date Title
JP4071328B2 (ja) 文書画像処理装置および方法
EP0439951B1 (en) Data processing
JP3425408B2 (ja) 文書読取装置
JP3822277B2 (ja) 文字テンプレートセット学習マシン動作方法
JP4742404B2 (ja) 画像認識装置、画像形成装置、画像認識方法および画像認識プログラムを記憶したコンピュータ読取り可能な記録媒体
EP0690415B1 (en) Editing scanned document images using simple interpretations
US20040223197A1 (en) Image processing method
US20090226090A1 (en) Information processing system, information processing apparatus, information processing method, and storage medium
JPH05151254A (ja) 文書処理方法およびシステム
WO1990015386A1 (en) Document identification by characteristics matching
JP4633773B2 (ja) 文書画像処理装置および方法
JP3319203B2 (ja) 文書ファイリング方法及び装置
JP4589370B2 (ja) 文書画像処理装置および方法
JPH10207981A (ja) 帳票認識方法
JP4213558B2 (ja) 文書レイアウト解析プログラム、文書レイアウト解析プログラムを記憶したコンピュータ読み取り可能な記憶媒体、文書レイアウト解析方法および文書レイアウト解析装置
JP4297815B2 (ja) 情報処理装置および処理方法およびプログラムおよび記録媒体
JP2874815B2 (ja) 日本語文字読取装置
JP2976990B2 (ja) 文字認識装置
JP2000123116A (ja) 文字認識結果修正方法
JP2002014981A (ja) 文書ファイリング装置
JPH01292587A (ja) 画像処理方法
JPH06251187A (ja) 文字認識誤り修正方法及び装置
JPH1069494A (ja) 画像検索方法とその装置
JP3077580B2 (ja) 文字読取装置
JP2001357342A (ja) 情報処理方法および装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040302

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070807

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071003

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071030

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071217

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080115

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080117

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110125

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees