JP4031189B2

JP4031189B2 - 文書認識装置及び文書認識方法

Info

Publication number: JP4031189B2
Application number: JP2000296832A
Authority: JP
Inventors: 康人石谷; 明弘宇田
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2000-09-28
Filing date: 2000-09-28
Publication date: 2008-01-09
Anticipated expiration: 2020-09-28
Also published as: JP2002108847A

Description

【０００１】
【発明の属する技術分野】
この発明は、文書を認識するための文書認識装置及び文書認識方法に係り、特に印刷された文書に記載されている内容を抽出し、その抽出した内容を所定の工程で構造化して、コンピュータに入力するための文書認識装置及び文書認識方法である。
【０００２】
【従来の技術】
コンピュータに、新聞記事、書籍、オフィス文書、公文書などの印刷された文書の内容を取り込んで、その内容をコンピュータで利用可能な電子情報として利用するための文書認識装置がある。特に近年、書類形態として蓄積されている大量の情報を高い精度でコンピュータに自動入力できる高精度の文書認識装置の実現に対する要求が非常に高まっている。
【０００３】
この文書認識装置においては、印刷された文書がコンピュータにディジタル画像として読み込まれる。文書が認識される際には、文書の意味的、幾何的性質から、テキスト領域、写真領域、図形領域などの質の異なる領域を自動的に分離するレイアウト解析機能が重要となる。この機能により得られた各々の領域では、その性質に基づいた認識処理が実行されることによって、利用価値の高い情報が計算機に入力され、活用されることが可能となる。
【０００４】
これまでに提案されているレイアウト解析方式では、「Ｐｒｏｃ．１２ｔｈＩＣＰＲ，ｐｐ３４５−３４９，（１９９４）」、「信学論Ｄ−１１，Ｖｏｌ．Ｊ７５−Ｄ−ＩＩ，Ｎｏ．２，ｐｐ２４６−２５６，（１９９２）」のように、文書画像を同質のテクスチャを持つ領域に分割することにより上記３つの文字、写真、図形領域をそれぞれ抽出する方式がある。
【０００５】
またに、「Ｐｒｏｃ．ｌｓｔＩＣＤＡＲ，ｐｐ９４５−９６２，（１９９１）」、「信学論Ｄ−１１，Ｖｏｌ．Ｊ７２−Ｄ−ＩＩ，Ｎｏ．１，ｐｐ９３−１０４，（１９８９）」のように文書の背景部（白地部分）に着目して文書画像を分割する方式がある。
【０００６】
さらに、「信学論Ｄ−１１，Ｖｏｌ．Ｊ７８−Ｄ−ＩＩ，Ｎｏ．３，ｐｐ４６５−４７３，（１９９５）」、「ＭａｃｈｉｎｅＶｉｓｉｏｎａｎｄＡｐｐｌｉｃａｔｉｏｎｓ，Ｖｏｌ．７，ｐｐ．２３７−２４６，（１９９４）」、「ＩＥＥＥＴｒａｎｓ．ＰａｔｔｅｒｎＡｎａｌｙｓｉｓａｎｄＭａｃｈｉｎｅＩｎｔｅｌｌｉｇｅｎｃｅＶｏｌ．１５，Ｎｏ．１１，ｐｐ．１１６２−１１７３（１９９３）」のように文字成分にのみ着目して文字列とその集合であるテキストブロックを抽出し、それ以外を非テキスト領域として棄却する方式がある。
【０００７】
【発明が解決しようとする課題】
上記第１の方式では、処理に用いた幾何特徴が文字、写真、図形の各々の領域の幾何的性質を適切に表現しているものでなければならない。しかし、現状ではそのような表現手段が見出されているとは認識しがたい。したがって、この方式が十分な分離能力を備えてはおらず、また、テキスト領域から文字行やカラムに相当する部分領域を適切に抽出することも困難である。
【０００８】
また、上記第２の方式では、レイアウトオブジェクトが密に分布している場合の空白領域と、レイアウトオブジェクトがまばらに分布している場合の空白領域とを厳密に区別することが困難である。また、レイアウトが複雑な場合には画質が異なる複数の領域を一つの領域として抽出したり、文字配置が疎な場合には画質が同質の領域を分離してしまうという欠点もある。
【０００９】
さらに、上記第３の方式では、文字らしきものを文書画像から抽出し、隣接するものを順次統合することで文字列を抽出するので、そのような条件が非文章領域（非文字領域）でも満たされる場合にはその領域をテキスト領域とみなしてしまう。
【００１０】
このように従来では、単一の手法のみを用いてレイアウト解析を行うため文字配置や書式（フォーマット）の多様性、文書内容の多様性に対応することができず、広範囲の文書を自動処理する場合に処理誤りが生じることがある。また、特定のレイアウト条件下の印刷文書について処理できるといった程度にとどまり、印刷された多様な文書全般にわたって、詳細に解析して所望の画像情報を柔軟に抽出することは困難である。
【００１１】
さらには、従来の文書認識装置においては、たとえば、文字部分と非文字部分とが混在している文書、または、縦書きと横書きの行が混在している文書などが高精度に処理されることも困難である。また、抽出した情報を所望の順序または形式で出力することも困難である。
【００１２】
また、シンボルマーク等のいわゆるロゴ又は写真等の非文字部分が画像データに含まれる場合、非文字部分を抽出するための画像処理が画像データに適用される。しかし、非文字部分を抽出するための最適な画像処理と、文字部分を抽出するための最適な画像処理とは異なるため、画像データに文字部分と非文字部分との両方が含まれる場合、その両方の部分を的確に抽出することが困難であるという問題もある。
【００１３】
本発明は上記事情に鑑みてなされたものであり、この発明の目的は、レイアウトが未知な文書画像において、高精度なレイアウト処理結果を出力する文書認識装置および文書認識方法を提供することである。
【００１４】
この発明の別の目的は、得られたレイアウト解析結果に対して複数の読み順決定処理を適用し、その結果を統合することにより高精度な読み順処理結果を抽出する文書認識装置および文書認識方法を提供することである。
【００１５】
この発明の別の目的は、文字部分及び非文字部分に適切な画像処理を文書画像に適用し、レイアウト解析が実行されることにより高精度な処理結果を出力する文書認識装置および文書認識方法を提供することである。
【００１６】
【課題を解決するための手段】
本発明の文書認識装置は、文書画像から文字を抽出する手段と、文字をまとめて部分領域を抽出する手段と、文字の整列性から縦書きの部分領域と横書きの部分領域とを抽出する手段とから構成される第１解析手段と、前記文書画像を縦書きと仮定して、前記文書画像から縦書きの部分領域を抽出する第２解析手段と、前記文書画像を横書きと仮定して、前記文書画像から横書きの部分領域を抽出する第３解析手段と、前記第１、第２、及び第３解析手段によるそれぞれの解析結果内で、抽出された部分領域間の配置関係を計測する領域計測手段と、第１、第２、及び第３解析手段によって抽出された各部分領域におけるすべての文字を外接する矩形で囲まれる閉領域を、それぞれ第１、第２、及び第３部分領域として抽出する領域抽出手段と、前記各部分領域において、第１部分領域と、第２及び第３のいずれかの部分領域とが同一の文字配列方向、かつ同一の位置、かつ同一面積である場合に、この第１部分領域と、この第２又は第３部分領域とを同一部分領域として抽出する同一部分領域抽出手段と、前記各部分領域において、第２及び第３のいずれかの部分領域を含む第１部分領域がある場合に、この第１部分領域と、この第２又は第３部分領域とを安定部分領域として抽出する安定部分領域抽出手段と、前記各部分領域において、第１部分領域を含む第２及び第３のいずれかの部分領域がある場合に、この第１部分領域と、この第２又は第３部分領域とを不安定部分領域として抽出する不安定部分領域抽出手段と、前記各部分領域において、第１部分領域のうち、前記同一部分領域、前記安定部分領域、及び前記不安定部分領域として抽出されない部分領域を未対応部分領域として抽出する未対応部分領域抽出手段と、第１部分領域において抽出された同一部分領域、安定部分領域、及び未対応部分領域を確定部分領域として確定する第１確定手段と、第２又は第３部分領域において抽出された不安定部分領域を、それに対応する第１部分領域において抽出された不安定部分領域に置き換えて、該不安定部分領域を確定部分領域として確定する第２確定手段と、前記確定部分領域以外の部分領域を棄却し、確定部分領域で形成される解析結果を生成する生成手段と、を具備することを特徴とする。
【００１７】
本発明の文書認識装置は、処理対象画像となる文字または非文字を複数個含む文書画像を認識するための文書認識装置において、前記文書画像に対して、濃度変換処理、鮮鋭化処理、２値化処理、及びエッジ強調処理から異なる複数の処理の組み合わせを組み合わせごとに実行することで複数通りの文書画像を生成する画像処理手段と、文書画像から文字を抽出する手段と、文字をまとめて部分領域を抽出する手段と、文字の整列性から縦書きの部分領域と横書きの部分領域とを抽出する手段とから構成される第１解析手段と、前記文書画像を縦書きと仮定して、前記文書画像から縦書きの部分領域を抽出する第２解析手段と、前記文書画像を横書きと仮定して、前記文書画像から横書きの部分領域を抽出する第３解析手段と、前記第１、第２、及び第３解析手段によるそれぞれの解析結果内で、抽出された部分領域間の配置関係を計測する領域計測手段と、第１、第２、及び第３解析手段によって抽出された各部分領域におけるすべての文字を外接する矩形で囲まれる閉領域を、それぞれ第１、第２、及び第３部分領域として抽出する領域抽出手段と、前記各部分領域において、第１部分領域と、第２及び第３のいずれかの部分領域とが同一の文字配列方向、かつ同一の位置、かつ同一面積である場合に、この第１部分領域と、この第２又は第３部分領域とを同一部分領域として抽出する同一部分領域抽出手段と、前記各部分領域において、第２及び第３のいずれかの部分領域を含む第１部分領域がある場合に、この第１部分領域と、この第２又は第３部分領域とを安定部分領域として抽出する安定部分領域抽出手段と、前記各部分領域において、第１部分領域を含む第２及び第３のいずれかの部分領域がある場合に、この第１部分領域と、この第２又は第３部分領域とを不安定部分領域として抽出する不安定部分領域抽出手段と、前記各部分領域において、第１部分領域のうち、前記同一部分領域、前記安定部分領域、及び前記不安定部分領域として抽出されない部分領域を未対応部分領域として抽出する未対応部分領域抽出手段と、第１部分領域において抽出された同一部分領域、安定部分領域、及び未対応部分領域を確定部分領域として確定する第１確定手段と、第２又は第３部分領域において抽出された不安定部分領域を、それに対応する第１部分領域において抽出された不安定部分領域に置き換えて、該不安定部分領域を確定部分領域として確定する第２確定手段と、前記確定部分領域以外の部分領域を棄却し、確定部分領域で形成される解析結果を生成する生成手段と、を具備することを特徴とする。
【００１８】
本発明の文書認識方法は、第１抽出手段、第２抽出手段、第３抽出手段、第１解析手段、第２解析手段、領域計測手段、領域抽出手段、同一部分領域抽出手段、安定部分領域抽出手段、不安定部分領域抽出手段、未対応部分領域抽出手段、第１確定手段、第２確定手段、及び、生成手段を具備する文書認識装置で使用する文書認識方法において、前記第１抽出手段が文書画像から文字を抽出し、前記第２抽出手段が文字をまとめて部分領域を抽出し、前記第３抽出手段が文字の整列性から縦書きの部分領域と横書きの部分領域とを抽出し、前記第１解析手段が、前記文書画像を縦書きと仮定して、前記文書画像から縦書きの部分領域を抽出し、前記第２解析手段が、前記文書画像を横書きと仮定して、前記文書画像から横書きの部分領域を抽出し、前記領域計測手段が、前記第１、第２、及び第３抽出手段とからなる解析手段と、前記第１解析手段と、前記第２解析手段とによるそれぞれの解析結果内で、抽出された部分領域間の配置関係を計測し、前記領域抽出手段が、前記第１、第２、及び第３抽出手段と、第１解析手段と、第２解析手段とによって抽出された各部分領域におけるすべての文字を外接する矩形で囲まれる閉領域を、それぞれ第１部分領域と、第２部分領域と、第３部分領域として抽出し、前記同一部分領域抽出手段が、前記各部分領域において、第１部分領域と、第２及び第３のいずれかの部分領域とが同一の文字配列方向、かつ同一の位置、かつ同一面積である場合に、この第１部分領域と、この第２又は第３部分領域とを同一部分領域として抽出し、前記安定部分領域抽出手段が、前記各部分領域において、第２及び第３のいずれかの部分領域を含む第１部分領域がある場合に、この第１部分領域と、この第２又は第３部分領域とを安定部分領域として抽出し、前記不安定部分領域抽出手段が、前記各部分領域において、第１部分領域を含む第２及び第３のいずれかの部分領域がある場合に、この第１部分領域と、この第２又は第３部分領域とを不安定部分領域として抽出し、前記未対応部分領域抽出手段が、前記各部分領域において、第１部分領域のうち、前記同一部分領域、前記安定部分領域、及び前記不安定部分領域として抽出されない部分領域を未対応部分領域として抽出し、前記第１確定手段が、第１部分領域において抽出された同一部分領域、安定部分領域、及び未対応部分領域を確定部分領域として確定し、前記第２確定手段が、第２又は第３部分領域において抽出された不安定部分領域を、それに対応する第１部分領域において抽出された不安定部分領域に置き換えて、該不安定部分領域を確定部分領域として確定し、前記生成手段が、前記確定部分領域以外の部分領域を棄却し、確定部分領域で形成される解析結果を生成する、ことを特徴とする。
【００１９】
本発明の文書認識方法は、画像処理手段、第１抽出手段、第２抽出手段、第３抽出手段、第１解析手段、第２解析手段、領域計測手段、領域抽出手段、同一部分領域抽出手段、安定部分領域抽出手段、不安定部分領域抽出手段、未対応部分領域抽出手段、第１確定手段、第２確定手段、及び、生成手段を具備する文書認識装置で使用し、処理対象画像となる文字または非文字を複数個含む文書画像を認識するための文書認識方法において、前記画像処理手段が、前記文書画像に対して、濃度変換処理、鮮鋭化処理、２値化処理、及びエッジ強調処理から異なる複数の処理の組み合わせを組み合わせごとに実行することで複数通りの文書画像を生成し、前記第１抽出手段が文書画像から文字を抽出し、前記第２抽出手段が文字をまとめて部分領域を抽出し、前記第３抽出手段が文字の整列性から縦書きの部分領域と横書きの部分領域とを抽出し、前記第１解析手段が、前記文書画像を縦書きと仮定して、前記文書画像から縦書きの部分領域を抽出し、前記第２解析手段が、前記文書画像を横書きと仮定して、前記文書画像から横書きの部分領域を抽出し、前記領域計測手段が、前記第１、第２、及び第３抽出手段とからなる解析手段と、前記第１解析手段と、前記第２解析手段とによるそれぞれの解析結果内で、抽出された部分領域間の配置関係を計測し、前記領域抽出手段が、前記第１、第２、及び第３抽出手段と、第１解析手段と、第２解析手段とによって抽出された各部分領域におけるすべての文字を外接する矩形で囲まれる閉領域を、それぞれ第１部分領域と、第２部分領域と、第３部分領域として抽出し、前記同一部分領域抽出手段が、前記各部分領域において、第１部分領域と、第２及び第３のいずれかの部分領域とが同一の文字配列方向、かつ同一の位置、かつ同一面積である場合に、この第１部分領域と、この第２又は第３部分領域とを同一部分領域として抽出し、前記安定部分領域抽出手段が、前記各部分領域において、第２及び第３のいずれかの部分領域を含む第１部分領域がある場合に、この第１部分領域と、この第２又は第３部分領域とを安定部分領域として抽出し、前記不安定部分領域抽出手段が、前記各部分領域において、第１部分領域を含む第２及び第３のいずれかの部分領域がある場合に、この第１部分領域と、この第２又は第３部分領域とを不安定部分領域として抽出し、前記未対応部分領域抽出手段が、前記各部分領域において、第１部分領域のうち、前記同一部分領域、前記安定部分領域、及び前記不安定部分領域として抽出されない部分領域を未対応部分領域として抽出し、前記第１確定手段が、第１部分領域において抽出された同一部分領域、安定部分領域、及び未対応部分領域を確定部分領域として確定し、前記第２確定手段が、第２又は第３部分領域において抽出された不安定部分領域を、それに対応する第１部分領域において抽出された不安定部分領域に置き換えて、該不安定部分領域を確定部分領域として確定し、前記生成手段が、前記確定部分領域以外の部分領域を棄却し、確定部分領域で形成される解析結果を生成する、ことを特徴とする。
【００２４】
【発明の実施の形態】
以下、図面を参照しながらこの発明の文書認識装置の一実施例を説明する。
【００２５】
この発明の一実施例に係る文書認識装置及び文書認識方法の具体例について、図１から図１４までを参照して説明する。
【００２６】
この発明のシステム全体を図１を参照して説明する。図１は、この発明の文書認識装置のシステム全体を示すブロック図である。
【００２７】
まず文書画像入力部１において、紙媒体に文字が記載された文書は、画像がデータ化された画像データとしてコンピュータに読み込まれる。このように文書が画像データ化されると、文書をコンピュータ上で操作することができる。
【００２８】
そして、この文書画像入力部１において処理された結果が、画面上に表示される。文書認識装置の使用者が、この画面上に表示された画像を参照しながら、再度、その表示された画像を修正することができる。つぎに、使用者が文書画像入力結果を修正することができる処理結果修正ＧＵＩ（Graphical User Interface）５が起動される。この処理結果修正ＧＵＩ５においては、文書画像入力部１にて変換された画像が表示される。文書が画像として正確に表示されていない場合は、文書がコンピュータに読み込まれるときの条件を変更する。その後再び、文書をコンピュータに読み込ませる。
【００２９】
つぎに、画像処理部２において、文書画像入力部１によってコンピュータに読み込まれた画像データが処理される。画像データは、２値化処理される。２値化処理以外の処理が適用されてもよい。
レイアウト解析部３においては、この２値化処理された画像データから、テキスト部分（文字部分）と非テキスト部分（非文字部分）とが分離される。さらに、テキスト部分から近隣の文字間隔に比較して、文字間隔が小さい文字どうしがグルーピングされる。文字間隔が比較される際、縦書き方向で比較される場合と、横書き方向で比較される場合とがある。
【００３０】
このレイアウト解析部３において処理された結果が、画面上に表示され、そのレイアウト解析結果を使用者が修正することができる処理結果修正ＧＵＩ５が起動される。この処理結果修正ＧＵＩ５においては、文書の読み順が誤っているため誤認識されている部分と、文書から誤って抽出された文字行とを修正するツールが用いられて使用者が望むレイアウトに編集することができる。
読み順決定部４においては、レイアウト解析部３で抽出された複数の確定部分領域の間で読み順が決定される。ここでも、上述と同様に処理結果修正ＧＵＩ５が起動されて、確定部分領域の間での読み順を使用者が変更することも可能である。
【００３１】
レイアウト解析部３の構成とその構成の各部における動作を図２を参照して説明する。図２は、図１におけるレイアウト解析部３を詳細に示した機能ブロック図である。
【００３２】
画像処理部２において２値化された画像データは、Ｎ個の第１から第Ｎのレイアウト解析手段（３−１，３−２，３−３，…，３−Ｎ）に入力される。このＮ個のレイアウト解析手段では、それぞれレイアウト解析の方法が異なる。例えば、第１のレイアウト解析手段３−１では、縦書き及び横書き方向に対して文字の間隔が計測される。その計測結果に基づいて、文字の周辺の間隔が比較されて、文字間隔の小さい文字どうしがグルーピングされる。その結果、１つの画像データにおいて、同一文字方向を有するグループがいくつか形成される。また、第２のレイアウト解析手段３−２では、例えば、縦書き方向に対して文字の間隔が計測される。第３のレイアウト解析手段３−３では、例えば、横書き方向に対して文字の間隔が計測される。そして、第１のレイアウト解析手段３−１における工程と同様に、文字どうしがグルーピングされて同一文字方向を有するグループが形成される。第１のレイアウト解析手段３−１での結果と異なることは、第２及び第３のレイアウト解析手段（３−２，３−３）では、それぞれ文字方向は縦のみ及び横のみだけである点である。
【００３３】
他にも異なったレイアウト解析手段が実行されてもよい。例えば、画像データの上端部及び下端部では、横書き方向に限定して、それ以外の画像データ部分では、縦及び横書き方向に対して文字間隔が測定されるように設定されていてもよい。さらに、画像データの側端部では、縦書き方向に限定して、それ以外の画像データ部分では、縦及び横書き方向に対して文字間隔が測定されるようになっていてもよい。このように、レイアウト解析手段の工程は、多様に変形されることが可能であり、多くのレイアウト解析手段を設定することができる。また、文字間の相関関係等が基にされたレイアウト解析手段が実行されてもよい。
【００３４】
これらのＮ個のレイアウト解析手段によって得られたレイアウト解析結果は、レイアウト解析結果対応付け部２１に出力される。ここでは、一の画像データに対するＮ個のレイアウト解析手段の結果の間で、グルーピングされたグループの領域が重複しているものどうしが対応付けられる。この対応付けでは、まず、各レイアウト解析手段においてグルーピングされたグループに含まれるすべての文字に外接する矩形で囲まれる閉領域が生成される。この各閉領域の画像データ中の位置に基づいて、各閉領域が重なっているかどうかが判定される。
【００３５】
レイアウト解析結果分類部２２においては、このレイアウト解析結果対応付け部２１における対応付けられた重複したグループ間で、閉領域どうしが重複する態様によって、種類が分類される。閉領域間では、一方が他方に包含される、互いに一致するものがある。また、他の閉領域と対応付くものがない閉領域もこのレイアウト解析結果分類部２２において、他の閉領域と対応付くものがない閉領域として、分類される。具体的には、これら重複したグループ間で重複する態様は、以下の４種類に分類される。閉領域どうしが同じ性質を有する場合、各閉領域は同一部分領域と呼ばれる。ここで、閉領域どうしが同じ性質とは、閉領域どうしの文字行方向が等しい、閉領域どうしの画像データ内に閉領域が位置する場所が等しい、及び閉領域どうしの大きさが等しいことを示す。また、第１のレイアウト解析手段３−１による閉領域が他のレイアウト解析手段による閉領域を包含している場合、各閉領域は、安定部分領域と呼ばれる。さらに、第１のレイアウト解析手段３−１による閉領域が他のレイアウト解析手段による閉領域に包含されている場合、各閉領域は、不安定部分領域と呼ばれる。さらにまた、第１のレイアウト解析手段３−１による閉領域が他のレイアウト解析手段による閉領域に対応付く閉領域がない場合、第１のレイアウト解析手段３−１による閉領域は、未対応部分領域と呼ばれる。
【００３６】
レイアウト解析結果集計部２３においては、レイアウト解析結果分類部２２において分類された各部分領域ごとに点数が付与される。そして、その点数に基づいて部分領域が選択される。その結果として、各部分領域から画像データから文字情報が的確に抽出された部分領域である確定部分領域が抽出される。確定部分領域以外の部分領域は棄却される。
レイアウト解析結果出力部２４においては、確定部分領域で形成されるレイアウト解析結果が生成される。これによって、最終的なレイアウト解析結果が出力される。
【００３７】
一方、このレイアウト解析結果が得られる前に、各レイアウト解析手段において上記の閉領域が得られた段階で、各レイアウト解析手段による閉領域が画面上に表示されてもよい。この表示された閉領域から確定部分領域が使用者によって選択されることも可能である。使用者は、ポインティングデバイス等を使用して、それぞれの処理結果から任意の部分領域の任意の組み合わせを選択することができる。この処理は、処理結果修正ＧＵＩ５によってなされる。
【００３８】
レイアウト解析部３による処理を例を示すことによって、図３及び図４を参照して具体的に説明する。図３は、図２に示されるＮが３である場合において、それぞれのレイアウト解析結果及びレイアウト解析結果が対応づけられた結果と、そのレイアウト解析がなされた、図１に示される画像処理部２からの入力画像とを示す図である。図４は、図２に示されるレイアウト解析部３への入力画像と、図３に示される第１から第３のレイアウト解析結果から得られた最終のレイアウト解析結果とを示す図である。
【００３９】
図３に示される例では、レイアウト解析手段は３種類、設定されている。第１のレイアウト解析手段３−１では、縦書き及び横書き方向に対して文字の間隔が計測される。その計測結果に基づいて、ある選択される文字の縦書き及び横書き方向の近隣において、文字間隔が参照される。そして、縦書き方向と横書き方向とのうち、文字間隔が小さい方の方向がその文字が配置される方向として選択される。それと同時に、その文字間隔が小さい方の方向に存在する文字と、前述の選択された文字とが同一グループとしてグルーピングされる。この場合においては、文字間隔が小さくない方に存在する文字がある場合は、この文字と上述の選択された文字とは、別のグループに属することになる。この工程を画像データのすべての文字について繰り返して、一画像データにおいて、いくつかのグループが生成されることになる。これらの各グループは、縦書き又は横書きとして認識されることになる。
【００４０】
第２のレイアウト解析手段３−２では、縦書き方向に対して文字の間隔が計測される。その計測結果に基づいて、ある選択される文字の縦書き方向の近隣において、文字間隔が参照される。そして、その文字間隔が小さい方の文字と、前述の選択された文字とが同一グループとしてグルーピングされる。さらに、文字間隔が小さくない方に存在する文字がある場合は、この文字と上述の選択された文字とは、別のグループに属することになる。この工程が画像データのすべての文字について繰り返されて、一画像データにおいて、いくつかのグループが生成されることになる。これらの各グループは、縦書きとして認識されることになる。
【００４１】
第３のレイアウト解析手段３−３では、横書き方向に対して文字の間隔が計測される。その計測結果に基づいて、ある選択される文字の横書き方向の近隣において、文字間隔が参照される。そして、その文字間隔が小さい方の文字と、前述の選択された文字とが同一グループとしてグルーピングされる。この場合においては、文字間隔が小さくない方に存在する文字がある場合は、この文字と上述の選択された文字とは、別のグループに属することになる。この工程を画像データのすべての文字について繰り返して、一画像データにおいて、いくつかのグループが生成されることになる。これらの各グループは、横書きとして認識されることになる。
【００４２】
これらの３個のレイアウト解析手段によって得られたレイアウト解析結果は、レイアウト解析結果対応付け部２１に出力される。ここでは、一の画像データから生成される３個のレイアウト解析手段の結果の間で、グルーピングされたグループの領域が重複しているものどうしが対応付けられる。この対応付けでは、まず、各レイアウト解析手段においてグルーピングされたグループに含まれるすべての文字に外接する矩形で囲まれる閉領域が生成される。この各閉領域の画像データ中の位置に基づいて、各閉領域が重なっているかどうかが判定される。
【００４３】
以下、各閉領域が重なっているかどうかが判定される工程を、具体例を挙げて詳細に説明する。各レイアウト解析手段の結果における画像データ上の閉領域は、矩形で表されている。したがって、閉領域の左上端部座標値と右下端部座標値とによって矩形の位置が特定される。ここでは、閉領域の左上端部座標値（ａｘ１，ａｙ１）、右下端部座標値（ａｘ２，ａｙ２）を有する閉領域Ａと、閉領域の左上端部座標値（ｂｘ１，ｂｙ１）、右下端部座標値（ｂｘ２，ｂｙ２）を有する閉領域Ｂとが重なっているかどうかが判定される方法を説明する。この場合は、不等式ｍｉｎ（ａｘ２，ｂｘ２）−ｍａｘ（ａｘ１，ｂｘ１）＋１＞０、かつ不等式ｍｉｎ（ａｙ２，ｂｙ２）−ｍａｘ（ａｙ１，ｂｙ１）＋１＞０を閉領域Ａ及び閉領域Ｂが満たすときに、閉領域Ａと閉領域Ｂとが重複していると判定される。ただし、２次元座標は、画面の左上端部を原点として、Ｘ座標を右向きに、Ｙ座標を下向きに設定するものとする。ここで説明した方法によれば、レイアウト解析手段間における画像データ中のすべての閉領域間において、閉領域が重複しているかどうかが判定されることが可能になる。だだし、この実施例では、第１のレイアウト解析結果における閉領域が基準とされて、この閉領域と重複する第２又は第３のレイアウト解析結果における閉領域との間において重複している閉領域が確定される。この判定結果によって、第１のレイアウト解析結果による閉領域と、この閉領域と重複している第２又は第３のレイアウト解析結果による閉領域とが対応付けられる。図３に示された第１のレイアウト解析結果による閉領域から第２又は第３のレイアウト解析結果による閉領域への矢印は、閉領域どうしが対応付けられている例である。
【００４４】
レイアウト解析結果分類部２２においては、このレイアウト解析結果対応付け部２１における対応付けられた重複したグループ間で、閉領域どうしが重複する態様によって、４種類に分類される。すなわち、上述した同一部分領域、安定部分領域、不安定部分領域、及び未対応部分領域である。それぞれの部分領域を抽出する方法を以下に詳細に説明する。
【００４５】
同一部分領域の抽出では、まず第１のレイアウト解析結果の部分領域と文字行方向が同一な部分領域が抽出される。つぎに、その抽出された部分領域どうしが同一な大きさを有しているかが判定される。すなわち、部分領域の左上端部座標値（ａｘ１，ａｙ１）、右下端部座標値（ａｘ２，ａｙ２）を有する部分領域Ａと、部分領域の左上端部座標値（ｂｘ１，ｂｙ１）、右下端部座標値（ｂｘ２，ｂｙ２）を有する部分領域Ｂとの大きさが等しい場合は、
ａｘ１＝ｂｘ１、かつａｙ１＝ｂｙ１、かつａｘ２＝ｂｘ２、かつａｙ２＝ｂｙ２、
かつ（ａｘ２−ａｘ１＋１）×（ａｙ２−ａｙ１＋１）＝（ｂｘ２−ｂｘ１＋１）×（ｂｙ２−ｂｙ１＋１）
を満たす。これら等式を満たした部分領域どうしの大きさは、等しいとする。つぎに、抽出された各部分領域を構成するそれぞれの文字行（一般に各部分領域は、複数の文字行を有する）が互いに一対一に対応しているかが判定される。換言すれば、部分領域Ａを構成する文字行を要素とする集合から部分領域Ｂを構成する文字行を要素とする集合への写像を想定した場合、この写像が全単射かつ一対一であるかが判定される。これら３条件を満たす部分領域どうしの場合、各部分領域は同一部分領域であるとされる。図３では、（ｂ）と（ｂ’）、（ｅ）と（ｅ’）、（ｄ３）と（ｈ１）、及び（ｄ４）と（ｈ２）のそれぞれが同一部分領域である。
【００４６】
安定部分領域の抽出では、第１のレイアウト解析手段３−１による部分領域が他のレイアウト解析手段による部分領域を包含している場合の各部分領域が抽出される。すなわち、上述した部分領域Ａ、Ｂにくわえて、部分領域の左上端部座標値（ｃｘ１，ｃｙ１）、右下端部座標値（ｃｘ２，ｃｙ２）を有する部分領域Ｃの間で、以下に示される不等式が満たされた場合に、部分領域ＢとＣは、部分領域Ａに包含されているとする。この不等式とは、
ａｘ１≦ｂｘ１≦ａｘ２、かつａｘ１≦ｂｘ２≦ａｘ２、
かつａｘ１≦ｃｘ１≦ａｘ２、かつａｘ１≦ｃｘ２≦ａｘ２、かつ
ａｙ１≦ｂｙ１≦ａｙ２、かつａｙ１≦ｂｙ２≦ａｙ２、
かつａｙ１≦ｃｙ１≦ａｙ２、かつａｙ１≦ｃｙ２≦ａｙ２、かつ
（ａｘ２−ａｘ１＋１）×（ａｙ２−ａｙ１＋１）≧（ｂｘ２−ｂｘ１＋１）×（ｂｙ２−ｂｙ１＋１）、かつ
（ａｘ２−ａｘ１＋１）×（ａｙ２−ａｙ１＋１）≧（ｃｘ２−ｃｘ１＋１）×（ｃｙ２−ｃｙ１＋１）
である。図３では、（ｃ）と（ｃ’）、及び（ｃ）と（ｊ）のそれぞれが安定部分領域である。ここでは、２つの部分領域が包含される場合を説明したが、２つでなく、一般には、３つ以上の部分領域に包含される場合も抽出される。部分領域が３つ以上の場合には、上述した不等式が一般化された不等式が使用される。
【００４７】
不安定部分領域の抽出では、第１のレイアウト解析手段３−１による部分領域が他のレイアウト解析手段による部分領域に包含されている場合の各部分領域が抽出される。すなわち、安定部分領域の抽出で説明した部分領域Ａが第２又は第３のレイアウト解析結果における部分領域であり、Ｂ及びＣが、第１のレイアウト解析結果における部分領域である場合、部分領域Ａ，Ｂ，及びＣが不安定部分領域であるとする。図３では、（ｄ）と（ｄ’）、及び（ｄ１）と（ｄ２）と（ｅ）と（ｇ）のそれぞれが不安定部分領域である。包含される部分領域が３つ以上の場合は、安定部分領域において説明したように、一般化された不等式が使用される。
【００４８】
未対応部分領域の抽出では、第１のレイアウト解析結果における部分領域において、ほかの第２又は第３のレイアウト解析結果と対応付けられていない部分領域が抽出される。図３では、（ｆ）が未対応部分領域である。
【００４９】
レイアウト解析結果集計部２３における集計方法を詳細に説明する。ここでは、抽出された部分領域から、確定部分領域を選択する。すなわち、上述のように抽出された同一部分領域、安定部分領域、不安定部分領域、及び未対応部分領域の各部分領域に所定の規則に基づき点数を付与する。そして、その点数に応じて各部分領域から確定部分領域を選択する。具体的な方法を以下に説明する。
【００５０】
第１のレイアウト解析結果における部分領域において、同一部分領域に３点、安定部分領域に２点、不安定部分領域に１点、未対応部分領域に０点がそれぞれ付与される。１つの部分領域が複数種類の部分領域に分類されている場合は、点数の多い方の部分領域の種類が選択される。また、点数が同点である場合は、優先度の高い部分領域の種類が選択される。ここで、部分領域の種類の優先度は、同一部分領域、安定部分領域、不安定部分領域、及び未対応部分領域の順に付けられている。
【００５１】
図３を参照して、確定部分領域が選択される態様を具体的に説明する。図３に示される（ｄ１）と（ｄ２）とは、２通りの不安定部分領域に分類される。すなわち、（ｄ’）及び（ｇ）の不安定部分領域である。（ｄ１）と（ｄ２）とが、（ｄ’）の不安定部分領域であると見なすと、さらに（ｄ３）及び（ｄ４）とを合わせて（ｄ’）と対応付けられている。したがって、（ｄ１）、（ｄ２）、（ｄ３）、及び（ｄ４）に付与される点数により、（ｄ’）には、４点が付与される。一方、（ｄ１）と（ｄ２）とが、（ｅ）の不安定部分領域であると見なすと、さらに（ｅ）と合わせて（ｄ’）と対応付けられている。したがって、（ｄ１）、（ｄ２）、及び（ｅ）に付与される点数により、（ｇ）には、３点が付与される。この結果、（ｄ’）は、点数の高い（ｄ１）、（ｄ２）、（ｄ３）、及び（ｄ４）との対応付けが選択され、（ｄ１）、（ｄ２）、及び（ｅ）の対応付けは棄却される。また、図３に示される（ｄ３）及び（ｄ４）は、それぞれ（ｈ１）及び（ｈ２）と対応している。その上、これらの部分領域は、同一部分領域に対応付けられていて、それぞれ３点が付与されている。しかし、上述の（ｄ１）、（ｄ２）、（ｄ３）、及び（ｄ４）との対応付けにより、４点が付与されているので、（ｄ３）と（ｈ１）及び（ｄ４）と（ｈ２）のそれぞれの対応づけは棄却される。また、（ｅ）は、（ｅ’）と対応付けられることにより、同一部分領域として３点が付与されている。この点数は、（ｄ１）、（ｄ２）、及び（ｅ）と（ｇ）の対応付けによる上述の３点と同点である。そして、この（ｄ１）、（ｄ２）、及び（ｅ）と（ｇ）との対応付けは、不安定部分領域である。また、（ｅ）と（ｅ’）との対応付けは、同一部分領域であり、同一部分領域は不安定部分領域よりも優先度が高いので、（ｄ１）、（ｄ２）、及び（ｅ）と（ｇ）との対応付けが棄却され、（ｅ）と（ｅ’）との対応付けが選択される。
【００５２】
上記のように部分領域間の対応付けが確定した後、確定部分領域が所定の規則に基づき抽出される。この第１の規則は、第１のレイアウト解析結果における同一部分領域、安定部分領域、未対応部分領域を確定部分領域とすることである。第２は、第２又は第３のレイアウト解析結果における不安定部分領域を、それに対応する第１のレイアウト解析結果における不安定部分領域に置き換えて、その不安定部分領域を確定部分領域とすることである。図３を参照して説明すると、第１の規則により、同一部分領域である（ｂ）と（ｅ）、安定部分領域である（ｃ）、及び未対応部分領域である（ｆ）が確定部分領域とされる。また、第２の規則により、不安定部分領域である（ｄ）が確定部分領域とされる。
レイアウト解析部３の最後の工程として、図４に示されるように確定部分領域のみで形成される最終レイアウト解析結果が出力される。
【００５３】
処理結果修正ＧＵＩ５が起動されることによって、レイアウト解析手段による解析結果を使用者が参照して、レイアウト解析結果が得られる場合を図５を参照して説明する。図５は、図３に示される第１及び第２のレイアウト解析結果を基にして、図１に示される処理結果修正ＧＵＩ５が起動されて、使用者により選択されたレイアウト結果と、選択されたレイアウト結果によって新しく生成されたレイアウト解析結果とを示す図である。
この処理結果修正ＧＵＩ５によって、レイアウト解析結果による部分領域から、使用者が意図するように確定部分領域を決定することが可能になる。レイアウト解析部３によるレイアウト解析結果が使用者が所望するものでない場合、レイアウト解析結果を変更することができる。
【００５４】
以上のようなレイアウト解析結果が使用されて、入力された文書画像から論理構造が的確に抽出されることが可能になる。したがって、オリジナルの文書に忠実な認識がされた文書画像を得ることが可能になる。
【００５５】
読み順決定部４による読み順決定の動作を図６を参照して説明する。図６は、図１に示される読み順決定部４の一般的な動作を示した流れ図である。
【００５６】
レイアウト解析部３から出力された画像データである最終レイアウト解析結果が読み順決定部４に入力される。まず、この画像データは、読み順決定部４内の複数の読み順決定手段に入力される。この各読み順決定手段よって、画像データ中の確定部分領域の間における読み順が決定される。各読み順決定手段においては、それぞれ独自の解析方法があり、一般には、読み順決定手段による読み順は、ほとんどすべて異なる読み順になる。この読み順決定手段には、確定部分領域を有する画像データが入力されて、その確定部分領域の間で所定の規則により読み順を決定するものであれば、どんな読み順決定手段でもよい。例えば、確定部分領域に接触しないように、画像データに分割線がいくつか引かれて、分割された領域間で順位づけがなされる。この分割線が画像データ中に引かれる際、引かれた分割線によって生成された２つの領域間での順位が付けられる。さらに、各領域間で分割線が引かれた場合、その分割線によって生成された２つの領域間での順位が付けられる。この分割動作が、分割された領域に１つの確定部分領域が存在するようになるまで繰り返し実行される。ここで、分割された２つの領域間で順位付けが実行される方法では、領域が分割された際、例えば画像データ中の左側及び上部にある確定部分領域に優先して小さい順位を付与する。優先度の付け方は、画像データが日本文である場合は、右側及び上部にある確定部分領域に高い優先度を付与する等の設定の変更が可能である。このように順序付けが実行されると、画像データを分割する分割線の引き方によって、一般には異なる順位付けがなされた画像データが得られることになる。つぎに、画像データ中の各確定部分領域が、各読み順決定手段によって、何番目の読み順が付与されたかが計算される。そして、この各確定部分領域の読み順番に基づいて、各確定部分領域の平均読み順番が算出される。つぎに、この各確定部分領域の平均読み順番に基づいて、各確定部分領域が読み順にしたがって順序づけられる。そして、異なる確定部分領域に、同一な読み順が付与されてしまった場合、所定の規則により、同一な読み順になる確定部分領域間に読み順を付ける。
【００５７】
読み順決定部４によって確定部分領域を有する画像データから、各部分領域の読み順を決定する具体的な手順を図７から図１４を参照して説明する。図７は、図１に示される読み順決定部４を示した図６をより具体化した動作を示した流れ図である。図８は、図１に示される読み順決定部４に入力されるレイアウト解析結果の一例を示す図である。ここでは、３種類の読み順決定手段を使用する。各読み順決定手段には、図８に示されるレイアウト解析部３による最終レイアウト解析結果が入力されるものとする。また、図９から図１１は、それぞれ図７に示される第１から第３読み順決定手段（４１，４２，４３）でのレイアウト解析結果が分割線によって分割された態様を示す図である。
【００５８】
第１読み順決定手段４１では、図９に示されるように水平分割線１及び水平分割線２が画像データ中に引かれる。この２つの分割線により、最終レイアウト解析結果は、（Ａ，Ｂ）、（Ｃ，Ｄ）、及びＥに組分けされる。つぎに、垂直分割線３が画像データ中に引かれる。この分割線により、（Ａ，Ｂ）がＡとＢとに分割される。また、垂直分割線４が画像データ中に引かれ、（Ｃ，Ｄ）がＣとＤとに分割される。ここでは、左にある確定部分領域、上部にある確定部分領域に優先して、小さい順位が付与されるものとする。この規定によって、第１読み順決定手段４１では、読み順が、Ａ、Ｂ、Ｃ、Ｄ、Ｅの順で順序づけられる。
【００５９】
第２読み順決定手段４２では、図１０に示されるように垂直分割線５が画像データ中に引かれる。この分割線により、最終レイアウト解析結果は、（Ａ，Ｃ，Ｅ）、及び（Ｂ，Ｄ）に組分けされる。つぎに、水平分割線６及び水平分割線７が画像データ中に引かれる。この２つの分割線により、（Ａ，Ｃ，Ｅ）がＡとＣとＥとに分割される。また、水平分割線８が画像データ中に引かれ、（Ｂ，Ｄ）がＢとＤとに分割される。結果として、上述の規定によって、第２読み順決定手段４２では、読み順が、Ａ、Ｃ、Ｅ、Ｂ、Ｄの順で順序づけられる。
【００６０】
第３読み順決定手段４３では、図１１に示されるように水平分割線９が画像データ中に引かれる。この分割線により、最終レイアウト解析結果は、（Ａ，Ｂ，Ｃ，Ｄ）、及びＥに組分けされる。つぎに、垂直分割線１０が画像データ中に引かれて、この分割線により（Ａ，Ｂ，Ｃ，Ｄ）が（Ａ，Ｃ）と（Ｂ，Ｄ）とに分割される。つぎに、水平分割線１１及び水平分割線１２が画像データ中に引かれる。この２つの分割線により、（Ａ，Ｃ）がＡとＣとに分割され、（Ｂ，Ｄ）がＢとＤとに分割される。結果として、上述の規定によって、第３読み順決定手段４３では、読み順が、Ａ、Ｃ、Ｂ、Ｄ、Ｅの順で順序づけられる。この第３読み順決定手段４３では、画像データ内の確定部分領域間での論理的な構造が認識され、確定部分領域Ｅが脚注である可能性が高いと認識された結果、水平分割線９が引かれる。ほかの分割線も、確定部分領域間での論理的な構造が認識されて引かれてもよい。この際は、どのような論理構造が認識されるかによって、分割線の引き方が設定される。
【００６１】
つぎに、各確定部分領域ごとに各読み順決定手段によって付与された順位の総和が計算される（４４）。この各読み順決定手段による計算結果およびこの計算結果に基づく各確定部分領域ごとの順位の総和を、図１２を参照して説明する。図１２（Ａ）から（Ｃ）は、図７に示される第１から第３読み順決定手段での処理結果を示した図である。図１２（Ｄ）は、図１２（Ａ）から（Ｃ）までの確定部分領域の読み順の総和の算出での結果を示した図である。
第１、第２、及び第３読み順決定手段４３による読み順序は、確定部分領域（Ａ，Ｂ，Ｃ，Ｄ，Ｅ）に対して、それぞれ（１，２，３，４，５）、（１，４，２，５，３）、及び（１，３，２，４，５）である。この読み順結果に基づく各確定部分領域ごとの順位の総和は、確定部分領域（Ａ，Ｂ，Ｃ，Ｄ，Ｅ）に対して、（３，９，７，１３，１３）となる。したがって、読み順は、第３番目まで決定され、Ａ，Ｃ，Ｂの順になる。
【００６２】
同一の総和値を有する確定部分領域において順位付けをする（４６）方法を、図１３を参照して説明する。図１３（Ａ）は、図７に示される読み順の総和に基づく確定部分領域の順序付けの処理結果を示した図である。図１３（Ｂ）は、図７に示される同一読み順番号を持つ確定部分領域の順序付けの処理結果の一例を示した図である。図１３（Ｃ）は、図７に示される同一読み順番号を持つ確定部分領域の順序付けの処理結果の（Ｂ）と異なる別の例を示した図である。
【００６３】
同一の総和値を有する確定部分領域の順序づけは、その確定部分領域において最も頻度が大きい順番が選択される。図１２に示されるように、確定部分領域Ｄでは、第１から第３の読み順決定手段により、それぞれ４，５，４番目の読み順を有する。したがって、確定部分領域Ｄの最も頻度が大きい順番は、４番目の読み順になる。同様に、図１２に示されるように、確定部分領域Ｅでは、第１から第３の読み順決定手段により、それぞれ５，３，５番目の読み順を有する。したがって、確定部分領域Ｅの最も頻度が大きい順番は、５番目の読み順になる。この結果として、画像データ中において確定部分領域には、図１３（Ｂ）に示されるような読み順番が付与されることになる。
【００６４】
この番号選択方法とは異なる方法として、その確定部分領域において最も小さい読み順番が選択される方法もある。この方法では、図１２を参照すると、確定部分領域Ｄは、４番目の読み順を有し、確定部分領域Ｅは３番目の確定部分領域を有することになる。この結果として、画像データ中において確定部分領域には、図１３（Ｃ）に示されるような読み順番が付与されることになる。
【００６５】
これらの図１３（Ｂ）及び（Ｃ）に示される読み順結果が画面上に提示される。使用者は、これらの読み順結果から適切なものを選択して読み順を決定する。
また、読み順結果の異なる選択方法を図１４を参照して説明する。図１４は、図１２に示される（Ａ）、（Ｂ）、及び（Ｃ）の処理結果における各確定部分領域の読み順番号が、各確定部分領域ごとに明示された態様を示した図である。この図１４に示されるように、各確定部分領域が読み順決定手段によって、読み順決定された読み順番が読み順候補として、各確定部分領域ごとに示されていてもよい。使用者は、示されたこれらの読み順候補を参照して、適切な読み順を各確定部分領域ごとに選択することが可能になる。
【００６６】
この発明の別の実施例を以下に説明する。
この実施例では、ロゴ又は写真等の非テキスト部分とテキスト部分との双方が画像データに含まれる場合に、その非テキスト部分とテキスト部分とを的確に抽出するための発明を説明する。
【００６７】
テキスト部分が高精度に抽出されるためには、テキスト部分が含まれる画像データに対して、エッジ強調処理が実行される。エッジ強調処理においては、画素の明るさが激しく変化する位置が検出され、その位置でエッジ部分が強調される演算が実行される。このエッジ強調処理によって、テキスト部分の文字が明確に際立つことが可能になる。その後、２値化処理が実行される。エッジ強調処理によって明確に際立った文字に２値化処理が実行されるため、文字又は文字の一部分が欠落することが少なく、テキスト部分を確実に抽出することができる。
【００６８】
一方、非テキスト部分が高精度に抽出されるためには、非テキスト部分が含まれる画像データに対して、濃淡補正処理又は鮮鋭化処理が実行される。濃度補正処理においては、非テキスト部分のコントラストが調整されたり、濃度特性が正規化される。鮮鋭化処理においては、空間的な繰返しを表わす量である空間周波数（例えば、単位長内や単位視角内に存在する白黒縞の組数のこと）の高周波成分が強調される。高周波成分は、画像の細密な部分の鮮明度を決定する成分であるため、高周波成分が強調されると、画像の細かい部分が鮮明になり、非テキスト部分が高精度に抽出される。
【００６９】
この発明では、上述したテキスト部分を高精度に抽出することが可能な画像処理と、非テキスト部分を高精度に抽出することが可能な画像処理とを段階的に画像データに適用する。さらに、それぞれ処理方法が異なる画像処理を複数用意して、１つの画像データに対して、性質の異なる複数の画像処理が実行される。その後、各画像処理結果が、上記の実施例で説明されたように、レイアウト解析部３に入力される。その後の処理では、上記の実施例と同様に、レイアウト解析部３によって決定される確定部分領域の間で読み順が算出される。
【００７０】
どのように複数の画像処理が実行されるかを、図１５及び図１６を参照して説明する。図１５は、この発明の文書認識装置の文書画像入力部１、複数の画像処理部２、及びレイアウト解析部３の機能ブロック図を示した図である。図１６は、図１５に示されたレイアウト解析手段を複数具備した、文書認識装置の文書画像入力部１、複数の画像処理部２、及びレイアウト解析部３の機能ブロック図を示した図である。
【００７１】
図１５に示される画像処理部２は、３種類設けられている。第１画像処理５１においては、濃度変換処理、鮮鋭化処理、及び２値化処理が実行される。これら一連の処理によって、画像データ中の非テキスト部分において、良好な画像が得られる。また、第２画像処理５２においては、エッジ強調処理、及び２値化処理が実行される。これら一連の処理によって、画像データ中のテキスト部分において、良好な画像が得られる。またさらに、第３画像処理５３においては、第１及び第２画像処理５２で実行された濃度変換処理、鮮鋭化処理、エッジ強調処理、及び２値化処理が実行される。これら３種類の画像処理によって、３種類の画像処理結果が得られることになる。その後は、これら３種類の画像処理結果に上述した実施例での第１のレイアウト解析手段３−１が実行されて、レイアウト解析結果が得られる。この処理によると３種類のレイアウト解析結果が得られることになる。また、図１６に示されるように上述した実施例での第１から第３のレイアウト解析手段（３−１，３−２，３−３）がそれぞれの画像処理結果に対して実行され、レイアウト解析結果が得られてもよい。この処理によると、（画像処理の数）×（レイアウト解析手段の数）に対応する９種類のレイアウト解析結果が得られることになる。これらの複数のレイアウト解析結果は、上述した実施例のように、レイアウト解析結果は、レイアウト解析結果対応付け部２１、レイアウト解析結果分類部２２、付け部レイアウト解析結果集計部２３、及びレイアウト解析結果出力部２４において処理されて、１つの最終的なレイアウト解析結果が出力される。もちろん、上記実施例のように、各レイアウト解析手段において上記の閉領域が得られた段階で、各レイアウト解析手段による閉領域が画面上に表示されてもよい。この表示された閉領域から確定部分領域が使用者によって選択されることも可能である。使用者は、ポインティングデバイス等を使用して、それぞれの処理結果から任意の部分領域の任意の組み合わせを選択することができる。この処理は、処理結果修正ＧＵＩ５によってなされる。
【００７２】
【発明の効果】
この発明の文書認識装置及びその文書認識方法によれば、複数のレイアウト解析が文書画像に適用されることにより、単一のレイアウト解析が実行された場合よりも的確なレイアウト解析結果を抽出することが可能になる。
【００７３】
また、複数の読み順決定手段が文書画像に適用されることにより、単一の読み順決定手段が実行された場合よりも的確な読み順を抽出することができる。
【００７４】
さらに、複数の画像処理が文書画像に適用されて、レイアウト解析が実行されることにより、文字部分領域及び非文字部分領域を的確に抽出することができる。したがって、入力された文書に忠実な文書画像を得ることができる。
【００７５】
また、レイアウト解析結果を使用者が修正することができるので、適切なレイアウト解析結果を最終的に得ることができる。したがって、入力された文書に忠実な文書画像を得ることができる。
【００７６】
さらに、文書の読み順が誤っているため誤認識されている部分と、文書から誤って抽出された文字行とを修正するツールが用いられて適切なレイアウトに使用者の意図に基づき編集することができる。
【図面の簡単な説明】
【図１】この発明の一実施例における文書認識装置の全体の構成を示す機能ブロック図である。
【図２】図１におけるレイアウト解析部を詳細に示した機能ブロック図である。
【図３】図２に示されるＮが３である場合において、それぞれのレイアウト解析結果及びレイアウト解析結果が対応づけられた結果と、そのレイアウト解析がなされた、図１に示される画像処理部からの入力画像とを示す図である。
【図４】図２に示されるレイアウト解析部への入力画像と、図３に示される第１から第３のレイアウト解析結果から得られた最終のレイアウト解析結果とを示す図である。
【図５】図３に示される第１及び第２のレイアウト解析結果を基にして、図１に示される処理結果修正ＧＵＩが起動されて、使用者により選択されたレイアウト結果とと、選択されたレイアウト結果によって新しく生成されたレイアウト解析結果とを示す図である。
【図６】図１に示される読み順決定部の一般的な動作を示した流れ図である。
【図７】図１に示される読み順決定部を示した図６をより具体化した動作を示した流れ図である。
【図８】図１に示される読み順決定部に入力されるレイアウト解析結果の一例を示す図である。
【図９】図７に示される第１読み順決定手段でのレイアウト解析結果が分割線によって分割された態様を示す図である。
【図１０】図７に示される第２読み順決定手段でのレイアウト解析結果が分割線によって分割された態様を示す図である。
【図１１】図７に示される第３読み順決定手段でのレイアウト解析結果が分割線によって分割された態様を示す図である。
【図１２】（Ａ）図７に示される第１読み順決定手段での処理結果を示した図である。
（Ｂ）図７に示される第２読み順決定手段での処理結果を示した図である。
（Ｃ）図７に示される第３読み順決定手段での処理結果を示した図である。
（Ｄ）（Ａ）から（Ｃ）までの確定部分領域の読み順の総和の算出での結果を示した図である。
【図１３】（Ａ）図７に示される読み順の総和に基づく確定部分領域の順序付けの処理結果を示した図である。
（Ｂ）図７に示される同一読み順番号を持つ確定部分領域の順序付けの処理結果の一例を示した図である。
（Ｃ）図７に示される同一読み順番号を持つ確定部分領域の順序付けの処理結果の（Ｂ）と異なる別の例を示した図である。
【図１４】図１２に示される（Ａ）、（Ｂ）、及び（Ｃ）の処理結果における各確定部分領域の読み順番号が、各確定部分領域ごとに明示された態様を示した図である。
【図１５】この発明の別の実施例における文書認識装置の文書画像入力部、複数の画像処理部、及びレイアウト解析部の機能ブロック図を示した図である。
【図１６】図１５に示されたレイアウト解析手段を複数具備した、文書認識装置の文書画像入力部、複数の画像処理部、及びレイアウト解析部の機能ブロック図を示した図である。
【符号の説明】
１文書画像入力部
２画像処理部
３レイアウト解析部
４読み順決定部
５処理結果修正ＧＵＩ
３−１，…，３−Ｎレイアウト解析手段
２１レイアウト解析結果対応付け部
２２レイアウト解析結果分類部
２３レイアウト解析結果集計部
２４レイアウト解析結果出力部

Claims

文書画像から文字を抽出する手段と、文字をまとめて部分領域を抽出する手段と、文字の整列性から縦書きの部分領域と横書きの部分領域とを抽出する手段とから構成される第１解析手段と、
前記文書画像を縦書きと仮定して、前記文書画像から縦書きの部分領域を抽出する第２解析手段と、
前記文書画像を横書きと仮定して、前記文書画像から横書きの部分領域を抽出する第３解析手段と、
前記第１、第２、及び第３解析手段によるそれぞれの解析結果内で、抽出された部分領域間の配置関係を計測する領域計測手段と、
第１、第２、及び第３解析手段によって抽出された各部分領域におけるすべての文字を外接する矩形で囲まれる閉領域を、それぞれ第１、第２、及び第３部分領域として抽出する領域抽出手段と、
前記各部分領域において、第１部分領域と、第２及び第３のいずれかの部分領域とが同一の文字配列方向、かつ同一の位置、かつ同一面積である場合に、この第１部分領域と、この第２又は第３部分領域とを同一部分領域として抽出する同一部分領域抽出手段と、
前記各部分領域において、第２及び第３のいずれかの部分領域を含む第１部分領域がある場合に、この第１部分領域と、この第２又は第３部分領域とを安定部分領域として抽出する安定部分領域抽出手段と、
前記各部分領域において、第１部分領域を含む第２及び第３のいずれかの部分領域がある場合に、この第１部分領域と、この第２又は第３部分領域とを不安定部分領域として抽出する不安定部分領域抽出手段と、
前記各部分領域において、第１部分領域のうち、前記同一部分領域、前記安定部分領域、及び前記不安定部分領域として抽出されない部分領域を未対応部分領域として抽出する未対応部分領域抽出手段と、
第１部分領域において抽出された同一部分領域、安定部分領域、及び未対応部分領域を確定部分領域として確定する第１確定手段と、
第２又は第３部分領域において抽出された不安定部分領域を、それに対応する第１部分領域において抽出された不安定部分領域に置き換えて、該不安定部分領域を確定部分領域として確定する第２確定手段と、
前記確定部分領域以外の部分領域を棄却し、確定部分領域で形成される解析結果を生成する生成手段と、
を具備することを特徴とする文書認識装置。
前記第１部分領域において、前記同一部分領域、前記安定部分領域、前記不安定部分領域、及び前記未対応部分領域それぞれに、この順に高い点数を付与する点数付与手段と、
前記第１部分領域が、前記第２及び第３部分領域それぞれについて、前記同一部分領域、前記安定部分領域、前記不安定部分領域、及び前記未対応部分領域いずれかに分類される場合に、分類される前記同一部分領域、前記安定部分領域、前記不安定部分領域、及び前記未対応部分領域いずれかとして前記第２及び第３部分領域それぞれに対応付けられた第１部分領域に付与された点数を、前記第２及び第３部分領域それぞれについて合計し、点数の高い対応付けを選択する選択手段と、
をさらに含み、
前記第１及び第２確定手段は、前記選択手段によって選択された対応付けにおいて、確定部分領域の確定を行うことを特徴とする請求項１記載の文書認識装置。
前記第１から第３の部分領域が画面上に表示され、使用者がこの画面を参照して部分領域を選択し確定することで、確定部分領域を抽出する確定部分領域選択手段をさらに具備することを特徴とする請求項１又は請求項２記載の文書認識装置。
処理対象画像となる文字または非文字を複数個含む文書画像を認識するための文書認識装置において、
前記文書画像に対して、濃度変換処理、鮮鋭化処理、２値化処理、及びエッジ強調処理から異なる複数の処理の組み合わせを組み合わせごとに実行することで複数通りの文書画像を生成する画像処理手段と、
文書画像から文字を抽出する手段と、文字をまとめて部分領域を抽出する手段と、文字の整列性から縦書きの部分領域と横書きの部分領域とを抽出する手段とから構成される第１解析手段と、
前記文書画像を縦書きと仮定して、前記文書画像から縦書きの部分領域を抽出する第２解析手段と、
前記文書画像を横書きと仮定して、前記文書画像から横書きの部分領域を抽出する第３解析手段と、
前記第１、第２、及び第３解析手段によるそれぞれの解析結果内で、抽出された部分領域間の配置関係を計測する領域計測手段と、
第１、第２、及び第３解析手段によって抽出された各部分領域におけるすべての文字を外接する矩形で囲まれる閉領域を、それぞれ第１、第２、及び第３部分領域として抽出する領域抽出手段と、
前記各部分領域において、第１部分領域と、第２及び第３のいずれかの部分領域とが同一の文字配列方向、かつ同一の位置、かつ同一面積である場合に、この第１部分領域と、この第２又は第３部分領域とを同一部分領域として抽出する同一部分領域抽出手段と、
前記各部分領域において、第２及び第３のいずれかの部分領域を含む第１部分領域がある場合に、この第１部分領域と、この第２又は第３部分領域とを安定部分領域として抽出する安定部分領域抽出手段と、
前記各部分領域において、第１部分領域を含む第２及び第３のいずれかの部分領域がある場合に、この第１部分領域と、この第２又は第３部分領域とを不安定部分領域として抽出する不安定部分領域抽出手段と、
前記各部分領域において、第１部分領域のうち、前記同一部分領域、前記安定部分領域、及び前記不安定部分領域として抽出されない部分領域を未対応部分領域として抽出する未対応部分領域抽出手段と、
第１部分領域において抽出された同一部分領域、安定部分領域、及び未対応部分領域を確定部分領域として確定する第１確定手段と、
第２又は第３部分領域において抽出された不安定部分領域を、それに対応する第１部分領域において抽出された不安定部分領域に置き換えて、該不安定部分領域を確定部分領域として確定する第２確定手段と、
前記確定部分領域以外の部分領域を棄却し、確定部分領域で形成される解析結果を生成する生成手段と、
を具備することを特徴とする文書認識装置。
前記第１から第３の部分領域が画面上に表示され、使用者がこの画面を参照して部分領域を選択し確定することで、確定部分領域を抽出する確定部分領域選択手段をさらに具備することを特徴とする請求項４記載の文書認識装置。
複数の部分領域について、該部分領域を読む順番である読み順を複数通り出力する読み順決定手段と、
前記部分領域ごとに各前記読み順における順番の総和を計算し、部分領域ごとの該総和の小さい順番に読み順を確定する読み順確定手段と、
をさらに具備することを特徴とする請求項４又は請求項５記載の文書認識装置。
第１抽出手段、第２抽出手段、第３抽出手段、第１解析手段、第２解析手段、領域計測手段、領域抽出手段、同一部分領域抽出手段、安定部分領域抽出手段、不安定部分領域抽出手段、未対応部分領域抽出手段、第１確定手段、第２確定手段、及び、生成手段を具備する文書認識装置で使用する文書認識方法において、
前記第１抽出手段が文書画像から文字を抽出し、前記第２抽出手段が文字をまとめて部分領域を抽出し、前記第３抽出手段が文字の整列性から縦書きの部分領域と横書きの部分領域とを抽出し、
前記第１解析手段が、前記文書画像を縦書きと仮定して、前記文書画像から縦書きの部分領域を抽出し、
前記第２解析手段が、前記文書画像を横書きと仮定して、前記文書画像から横書きの部分領域を抽出し、
前記領域計測手段が、前記第１、第２、及び第３抽出手段とからなる解析手段と、前記第１解析手段と、前記第２解析手段とによるそれぞれの解析結果内で、抽出された部分領域間の配置関係を計測し、
前記領域抽出手段が、前記第１、第２、及び第３抽出手段と、第１解析手段と、第２解析手段とによって抽出された各部分領域におけるすべての文字を外接する矩形で囲まれる閉領域を、それぞれ第１部分領域と、第２部分領域と、第３部分領域として抽出し、
前記同一部分領域抽出手段が、前記各部分領域において、第１部分領域と、第２及び第３のいずれかの部分領域とが同一の文字配列方向、かつ同一の位置、かつ同一面積である場合に、この第１部分領域と、この第２又は第３部分領域とを同一部分領域として抽出し、
前記安定部分領域抽出手段が、前記各部分領域において、第２及び第３のいずれかの部分領域を含む第１部分領域がある場合に、この第１部分領域と、この第２又は第３部分領域とを安定部分領域として抽出し、
前記不安定部分領域抽出手段が、前記各部分領域において、第１部分領域を含む第２及び第３のいずれかの部分領域がある場合に、この第１部分領域と、この第２又は第３部分領域とを不安定部分領域として抽出し、
前記未対応部分領域抽出手段が、前記各部分領域において、第１部分領域のうち、前記同一部分領域、前記安定部分領域、及び前記不安定部分領域として抽出されない部分領域を未対応部分領域として抽出し、
前記第１確定手段が、第１部分領域において抽出された同一部分領域、安定部分領域、及び未対応部分領域を確定部分領域として確定し、
前記第２確定手段が、第２又は第３部分領域において抽出された不安定部分領域を、それに対応する第１部分領域において抽出された不安定部分領域に置き換えて、該不安定部分領域を確定部分領域として確定し、
前記生成手段が、前記確定部分領域以外の部分領域を棄却し、確定部分領域で形成される解析結果を生成する、
ことを特徴とする文書認識方法。
画像処理手段、第１抽出手段、第２抽出手段、第３抽出手段、第１解析手段、第２解析手段、領域計測手段、領域抽出手段、同一部分領域抽出手段、安定部分領域抽出手段、不安定部分領域抽出手段、未対応部分領域抽出手段、第１確定手段、第２確定手段、及び、生成手段を具備する文書認識装置で使用し、処理対象画像となる文字または非文字を複数個含む文書画像を認識するための文書認識方法において、
前記画像処理手段が、前記文書画像に対して、濃度変換処理、鮮鋭化処理、２値化処理、及びエッジ強調処理から異なる複数の処理の組み合わせを組み合わせごとに実行することで複数通りの文書画像を生成し、
前記第１抽出手段が文書画像から文字を抽出し、前記第２抽出手段が文字をまとめて部分領域を抽出し、前記第３抽出手段が文字の整列性から縦書きの部分領域と横書きの部分領域とを抽出し、
前記第１解析手段が、前記文書画像を縦書きと仮定して、前記文書画像から縦書きの部分領域を抽出し、
前記第２解析手段が、前記文書画像を横書きと仮定して、前記文書画像から横書きの部分領域を抽出し、
前記領域計測手段が、前記第１、第２、及び第３抽出手段とからなる解析手段と、前記第１解析手段と、前記第２解析手段とによるそれぞれの解析結果内で、抽出された部分領域間の配置関係を計測し、
前記領域抽出手段が、前記第１、第２、及び第３抽出手段と、第１解析手段と、第２解析手段とによって抽出された各部分領域におけるすべての文字を外接する矩形で囲まれる閉領域を、それぞれ第１部分領域と、第２部分領域と、第３部分領域として抽出し、
前記同一部分領域抽出手段が、前記各部分領域において、第１部分領域と、第２及び第３のいずれかの部分領域とが同一の文字配列方向、かつ同一の位置、かつ同一面積である場合に、この第１部分領域と、この第２又は第３部分領域とを同一部分領域として抽出し、
前記安定部分領域抽出手段が、前記各部分領域において、第２及び第３のいずれかの部分領域を含む第１部分領域がある場合に、この第１部分領域と、この第２又は第３部分領域とを安定部分領域として抽出し、
前記不安定部分領域抽出手段が、前記各部分領域において、第１部分領域を含む第２及び第３のいずれかの部分領域がある場合に、この第１部分領域と、この第２又は第３部分領域とを不安定部分領域として抽出し、
前記未対応部分領域抽出手段が、前記各部分領域において、第１部分領域のうち、前記同一部分領域、前記安定部分領域、及び前記不安定部分領域として抽出されない部分領域を未対応部分領域として抽出し、
前記第１確定手段が、第１部分領域において抽出された同一部分領域、安定部分領域、及び未対応部分領域を確定部分領域として確定し、
前記第２確定手段が、第２又は第３部分領域において抽出された不安定部分領域を、それに対応する第１部分領域において抽出された不安定部分領域に置き換えて、該不安定部分領域を確定部分領域として確定し、
前記生成手段が、前記確定部分領域以外の部分領域を棄却し、確定部分領域で形成される解析結果を生成する、
ことを特徴とする文書認識方法。