JP4031189B2 - 文書認識装置及び文書認識方法 - Google Patents

文書認識装置及び文書認識方法 Download PDF

Info

Publication number
JP4031189B2
JP4031189B2 JP2000296832A JP2000296832A JP4031189B2 JP 4031189 B2 JP4031189 B2 JP 4031189B2 JP 2000296832 A JP2000296832 A JP 2000296832A JP 2000296832 A JP2000296832 A JP 2000296832A JP 4031189 B2 JP4031189 B2 JP 4031189B2
Authority
JP
Japan
Prior art keywords
partial
partial region
area
region
partial area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2000296832A
Other languages
English (en)
Other versions
JP2002108847A (ja
Inventor
康人 石谷
明弘 宇田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2000296832A priority Critical patent/JP4031189B2/ja
Publication of JP2002108847A publication Critical patent/JP2002108847A/ja
Application granted granted Critical
Publication of JP4031189B2 publication Critical patent/JP4031189B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Character Input (AREA)
  • Processing Or Creating Images (AREA)
  • Document Processing Apparatus (AREA)
  • Image Analysis (AREA)

Description

【0001】
【発明の属する技術分野】
この発明は、文書を認識するための文書認識装置及び文書認識方法に係り、特に印刷された文書に記載されている内容を抽出し、その抽出した内容を所定の工程で構造化して、コンピュータに入力するための文書認識装置及び文書認識方法である。
【0002】
【従来の技術】
コンピュータに、新聞記事、書籍、オフィス文書、公文書などの印刷された文書の内容を取り込んで、その内容をコンピュータで利用可能な電子情報として利用するための文書認識装置がある。特に近年、書類形態として蓄積されている大量の情報を高い精度でコンピュータに自動入力できる高精度の文書認識装置の実現に対する要求が非常に高まっている。
【0003】
この文書認識装置においては、印刷された文書がコンピュータにディジタル画像として読み込まれる。文書が認識される際には、文書の意味的、幾何的性質から、テキスト領域、写真領域、図形領域などの質の異なる領域を自動的に分離するレイアウト解析機能が重要となる。この機能により得られた各々の領域では、その性質に基づいた認識処理が実行されることによって、利用価値の高い情報が計算機に入力され、活用されることが可能となる。
【0004】
これまでに提案されているレイアウト解析方式では、「Proc.12th ICPR,pp345−349,(1994)」、「信学論D−11,Vol.J75−D−II,No.2,pp246−256,(1992)」のように、文書画像を同質のテクスチャを持つ領域に分割することにより上記3つの文字、写真、図形領域をそれぞれ抽出する方式がある。
【0005】
またに、「Proc.lst ICDAR,pp945−962,(1991)」、「信学論D−11,Vol.J72−D−II,No.1,pp93−104,(1989)」のように文書の背景部(白地部分)に着目して文書画像を分割する方式がある。
【0006】
さらに、「信学論D−11,Vol.J78−D−II,No.3,pp465−473,(1995)」、「Machine Vision and Applications,Vol.7,pp.237−246,(1994)」、「IEEE Trans.Pattern Analysis and Machine Intelligence Vol.15,No.11,pp.1162−1173(1993)」のように文字成分にのみ着目して文字列とその集合であるテキストブロックを抽出し、それ以外を非テキスト領域として棄却する方式がある。
【0007】
【発明が解決しようとする課題】
上記第1の方式では、処理に用いた幾何特徴が文字、写真、図形の各々の領域の幾何的性質を適切に表現しているものでなければならない。しかし、現状ではそのような表現手段が見出されているとは認識しがたい。したがって、この方式が十分な分離能力を備えてはおらず、また、テキスト領域から文字行やカラムに相当する部分領域を適切に抽出することも困難である。
【0008】
また、上記第2の方式では、レイアウトオブジェクトが密に分布している場合の空白領域と、レイアウトオブジェクトがまばらに分布している場合の空白領域とを厳密に区別することが困難である。また、レイアウトが複雑な場合には画質が異なる複数の領域を一つの領域として抽出したり、文字配置が疎な場合には画質が同質の領域を分離してしまうという欠点もある。
【0009】
さらに、上記第3の方式では、文字らしきものを文書画像から抽出し、隣接するものを順次統合することで文字列を抽出するので、そのような条件が非文章領域(非文字領域)でも満たされる場合にはその領域をテキスト領域とみなしてしまう。
【0010】
このように従来では、単一の手法のみを用いてレイアウト解析を行うため文字配置や書式(フォーマット)の多様性、文書内容の多様性に対応することができず、広範囲の文書を自動処理する場合に処理誤りが生じることがある。また、特定のレイアウト条件下の印刷文書について処理できるといった程度にとどまり、印刷された多様な文書全般にわたって、詳細に解析して所望の画像情報を柔軟に抽出することは困難である。
【0011】
さらには、従来の文書認識装置においては、たとえば、文字部分と非文字部分とが混在している文書、または、縦書きと横書きの行が混在している文書などが高精度に処理されることも困難である。また、抽出した情報を所望の順序または形式で出力することも困難である。
【0012】
また、シンボルマーク等のいわゆるロゴ又は写真等の非文字部分が画像データに含まれる場合、非文字部分を抽出するための画像処理が画像データに適用される。しかし、非文字部分を抽出するための最適な画像処理と、文字部分を抽出するための最適な画像処理とは異なるため、画像データに文字部分と非文字部分との両方が含まれる場合、その両方の部分を的確に抽出することが困難であるという問題もある。
【0013】
本発明は上記事情に鑑みてなされたものであり、この発明の目的は、レイアウトが未知な文書画像において、高精度なレイアウト処理結果を出力する文書認識装置および文書認識方法を提供することである。
【0014】
この発明の別の目的は、得られたレイアウト解析結果に対して複数の読み順決定処理を適用し、その結果を統合することにより高精度な読み順処理結果を抽出する文書認識装置および文書認識方法を提供することである。
【0015】
この発明の別の目的は、文字部分及び非文字部分に適切な画像処理を文書画像に適用し、レイアウト解析が実行されることにより高精度な処理結果を出力する文書認識装置および文書認識方法を提供することである。
【0016】
【課題を解決するための手段】
本発明の文書認識装置は、文書画像から文字を抽出する手段と、文字をまとめて部分領域を抽出する手段と、文字の整列性から縦書きの部分領域と横書きの部分領域とを抽出する手段とから構成される第1解析手段と、前記文書画像を縦書きと仮定して、前記文書画像から縦書きの部分領域を抽出する第2解析手段と、前記文書画像を横書きと仮定して、前記文書画像から横書きの部分領域を抽出する第3解析手段と、前記第1、第2、及び第3解析手段によるそれぞれの解析結果内で、抽出された部分領域間の配置関係を計測する領域計測手段と、第1、第2、及び第3解析手段によって抽出された各部分領域におけるすべての文字を外接する矩形で囲まれる閉領域を、それぞれ第1、第2、及び第3部分領域として抽出する領域抽出手段と、前記各部分領域において、第1部分領域と、第2及び第3のいずれかの部分領域とが同一の字配列方向、かつ同一の位置、かつ同一面積である場合に、この第1部分領域と、この第2又は第3部分領域とを同一部分領域として抽出する同一部分領域抽出手段と、前記各部分領域において、第2及び第3のいずれかの部分領域を含む第1部分領域がある場合に、この第1部分領域と、この第2又は第3部分領域とを安定部分領域として抽出する安定部分領域抽出手段と、前記各部分領域において、第1部分領域を含む第2及び第3のいずれかの部分領域がある場合に、この第1部分領域と、この第2又は第3部分領域とを不安定部分領域として抽出する不安定部分領域抽出手段と、前記各部分領域において、第1部分領域のうち、前記同一部分領域、前記安定部分領域、及び前記不安定部分領域として抽出されない部分領域を未対応部分領域として抽出する未対応部分領域抽出手段と、第1部分領域において抽出された同一部分領域、安定部分領域、及び未対応部分領域を確定部分領域として確定する第1確定手段と、第2又は第3部分領域において抽出された不安定部分領域を、それに対応する第1部分領域において抽出された不安定部分領域に置き換えて、該不安定部分領域を確定部分領域として確定する第2確定手段と、前記確定部分領域以外の部分領域を棄却し、確定部分領域で形成される解析結果を生成する生成手段と、を具備することを特徴とする。
【0017】
本発明の文書認識装置は、処理対象画像となる文字または非文字を複数個含む文書画像を認識するための文書認識装置において、前記文書画像に対して、濃度変換処理、鮮鋭化処理、2値化処理、及びエッジ強調処理から異なる複数の処理の組み合わせを組み合わせごとに実行することで複数通りの文書画像を生成する画像処理手段と、文書画像から文字を抽出する手段と、文字をまとめて部分領域を抽出する手段と、文字の整列性から縦書きの部分領域と横書きの部分領域とを抽出する手段とから構成される第1解析手段と、前記文書画像を縦書きと仮定して、前記文書画像から縦書きの部分領域を抽出する第2解析手段と、前記文書画像を横書きと仮定して、前記文書画像から横書きの部分領域を抽出する第3解析手段と、前記第1、第2、及び第3解析手段によるそれぞれの解析結果内で、抽出された部分領域間の配置関係を計測する領域計測手段と、第1、第2、及び第3解析手段によって抽出された各部分領域におけるすべての文字を外接する矩形で囲まれる閉領域を、それぞれ第1、第2、及び第3部分領域として抽出する領域抽出手段と、前記各部分領域において、第1部分領域と、第2及び第3のいずれかの部分領域とが同一の字配列方向、かつ同一の位置、かつ同一面積である場合に、この第1部分領域と、この第2又は第3部分領域とを同一部分領域として抽出する同一部分領域抽出手段と、前記各部分領域において、第2及び第3のいずれかの部分領域を含む第1部分領域がある場合に、この第1部分領域と、この第2又は第3部分領域とを安定部分領域として抽出する安定部分領域抽出手段と、前記各部分領域において、第1部分領域を含む第2及び第3のいずれかの部分領域がある場合に、この第1部分領域と、この第2又は第3部分領域とを不安定部分領域として抽出する不安定部分領域抽出手段と、前記各部分領域において、第1部分領域のうち、前記同一部分領域、前記安定部分領域、及び前記不安定部分領域として抽出されない部分領域を未対応部分領域として抽出する未対応部分領域抽出手段と、第1部分領域において抽出された同一部分領域、安定部分領域、及び未対応部分領域を確定部分領域として確定する第1確定手段と、第2又は第3部分領域において抽出された不安定部分領域を、それに対応する第1部分領域において抽出された不安定部分領域に置き換えて、該不安定部分領域を確定部分領域として確定する第2確定手段と、前記確定部分領域以外の部分領域を棄却し、確定部分領域で形成される解析結果を生成する生成手段と、を具備することを特徴とする。
【0018】
本発明の文書認識方法は、第1抽出手段、第2抽出手段、第3抽出手段、第1解析手段、第2解析手段、領域計測手段、領域抽出手段、同一部分領域抽出手段、安定部分領域抽出手段、不安定部分領域抽出手段、未対応部分領域抽出手段、第1確定手段、第2確定手段、及び、生成手段を具備する文書認識装置で使用する文書認識方法において、前記第1抽出手段が文書画像から文字を抽出し、前記第2抽出手段が文字をまとめて部分領域を抽出し、前記第3抽出手段が文字の整列性から縦書きの部分領域と横書きの部分領域とを抽出し、前記第1解析手段が、前記文書画像を縦書きと仮定して、前記文書画像から縦書きの部分領域を抽出し、前記第2解析手段が、前記文書画像を横書きと仮定して、前記文書画像から横書きの部分領域を抽出し、前記領域計測手段が、前記第1、第2、及び第3抽出手段とからなる解析手段と、前記第1解析手段と、前記第2解析手段とによるそれぞれの解析結果内で、抽出された部分領域間の配置関係を計測し、前記領域抽出手段が、前記第1、第2、及び第3抽出手段と、第1解析手段と、第2解析手段とによって抽出された各部分領域におけるすべての文字を外接する矩形で囲まれる閉領域を、それぞれ第1部分領域と、第2部分領域と、第3部分領域として抽出し、前記同一部分領域抽出手段が、前記各部分領域において、第1部分領域と、第2及び第3のいずれかの部分領域とが同一の字配列方向、かつ同一の位置、かつ同一面積である場合に、この第1部分領域と、この第2又は第3部分領域とを同一部分領域として抽出し、前記安定部分領域抽出手段が、前記各部分領域において、第2及び第3のいずれかの部分領域を含む第1部分領域がある場合に、この第1部分領域と、この第2又は第3部分領域とを安定部分領域として抽出し、前記不安定部分領域抽出手段が、前記各部分領域において、第1部分領域を含む第2及び第3のいずれかの部分領域がある場合に、この第1部分領域と、この第2又は第3部分領域とを不安定部分領域として抽出し、前記未対応部分領域抽出手段が、前記各部分領域において、第1部分領域のうち、前記同一部分領域、前記安定部分領域、及び前記不安定部分領域として抽出されない部分領域を未対応部分領域として抽出し、前記第1確定手段が、第1部分領域において抽出された同一部分領域、安定部分領域、及び未対応部分領域を確定部分領域として確定し、前記第2確定手段が、第2又は第3部分領域において抽出された不安定部分領域を、それに対応する第1部分領域において抽出された不安定部分領域に置き換えて、該不安定部分領域を確定部分領域として確定し、前記生成手段が、前記確定部分領域以外の部分領域を棄却し、確定部分領域で形成される解析結果を生成する、ことを特徴とする。
【0019】
本発明の文書認識方法は、画像処理手段、第1抽出手段、第2抽出手段、第3抽出手段、第1解析手段、第2解析手段、領域計測手段、領域抽出手段、同一部分領域抽出手段、安定部分領域抽出手段、不安定部分領域抽出手段、未対応部分領域抽出手段、第1確定手段、第2確定手段、及び、生成手段を具備する文書認識装置で使用し、処理対象画像となる文字または非文字を複数個含む文書画像を認識するための文書認識方法において、前記画像処理手段が、前記文書画像に対して、濃度変換処理、鮮鋭化処理、2値化処理、及びエッジ強調処理から異なる複数の処理の組み合わせを組み合わせごとに実行することで複数通りの文書画像を生成し、前記第1抽出手段が文書画像から文字を抽出し、前記第2抽出手段が文字をまとめて部分領域を抽出し、前記第3抽出手段が文字の整列性から縦書きの部分領域と横書きの部分領域とを抽出し、前記第1解析手段が、前記文書画像を縦書きと仮定して、前記文書画像から縦書きの部分領域を抽出し、前記第2解析手段が、前記文書画像を横書きと仮定して、前記文書画像から横書きの部分領域を抽出し、前記領域計測手段が、前記第1、第2、及び第3抽出手段とからなる解析手段と、前記第1解析手段と、前記第2解析手段とによるそれぞれの解析結果内で、抽出された部分領域間の配置関係を計測し、前記領域抽出手段が、前記第1、第2、及び第3抽出手段と、第1解析手段と、第2解析手段とによって抽出された各部分領域におけるすべての文字を外接する矩形で囲まれる閉領域を、それぞれ第1部分領域と、第2部分領域と、第3部分領域として抽出し、前記同一部分領域抽出手段が、前記各部分領域において、第1部分領域と、第2及び第3のいずれかの部分領域とが同一の字配列方向、かつ同一の位置、かつ同一面積である場合に、この第1部分領域と、この第2又は第3部分領域とを同一部分領域として抽出し、前記安定部分領域抽出手段が、前記各部分領域において、第2及び第3のいずれかの部分領域を含む第1部分領域がある場合に、この第1部分領域と、この第2又は第3部分領域とを安定部分領域として抽出し、前記不安定部分領域抽出手段が、前記各部分領域において、第1部分領域を含む第2及び第3のいずれかの部分領域がある場合に、この第1部分領域と、この第2又は第3部分領域とを不安定部分領域として抽出し、前記未対応部分領域抽出手段が、前記各部分領域において、第1部分領域のうち、前記同一部分領域、前記安定部分領域、及び前記不安定部分領域として抽出されない部分領域を未対応部分領域として抽出し、前記第1確定手段が、第1部分領域において抽出された同一部分領域、安定部分領域、及び未対応部分領域を確定部分領域として確定し、前記第2確定手段が、第2又は第3部分領域において抽出された不安定部分領域を、それに対応する第1部分領域において抽出された不安定部分領域に置き換えて、該不安定部分領域を確定部分領域として確定し、前記生成手段が、前記確定部分領域以外の部分領域を棄却し、確定部分領域で形成される解析結果を生成する、ことを特徴とする。
【0024】
【発明の実施の形態】
以下、図面を参照しながらこの発明の文書認識装置の一実施例を説明する。
【0025】
この発明の一実施例に係る文書認識装置及び文書認識方法の具体例について、図1から図14までを参照して説明する。
【0026】
この発明のシステム全体を図1を参照して説明する。図1は、この発明の文書認識装置のシステム全体を示すブロック図である。
【0027】
まず文書画像入力部1において、紙媒体に文字が記載された文書は、画像がデータ化された画像データとしてコンピュータに読み込まれる。このように文書が画像データ化されると、文書をコンピュータ上で操作することができる。
【0028】
そして、この文書画像入力部1において処理された結果が、画面上に表示される。文書認識装置の使用者が、この画面上に表示された画像を参照しながら、再度、その表示された画像を修正することができる。つぎに、使用者が文書画像入力結果を修正することができる処理結果修正GUI(Graphical User Interface)5が起動される。この処理結果修正GUI5においては、文書画像入力部1にて変換された画像が表示される。文書が画像として正確に表示されていない場合は、文書がコンピュータに読み込まれるときの条件を変更する。その後再び、文書をコンピュータに読み込ませる。
【0029】
つぎに、画像処理部2において、文書画像入力部1によってコンピュータに読み込まれた画像データが処理される。画像データは、2値化処理される。2値化処理以外の処理が適用されてもよい。
レイアウト解析部3においては、この2値化処理された画像データから、テキスト部分(文字部分)と非テキスト部分(非文字部分)とが分離される。さらに、テキスト部分から近隣の文字間隔に比較して、文字間隔が小さい文字どうしがグルーピングされる。文字間隔が比較される際、縦書き方向で比較される場合と、横書き方向で比較される場合とがある。
【0030】
このレイアウト解析部3において処理された結果が、画面上に表示され、そのレイアウト解析結果を使用者が修正することができる処理結果修正GUI5が起動される。この処理結果修正GUI5においては、文書の読み順が誤っているため誤認識されている部分と、文書から誤って抽出された文字行とを修正するツールが用いられて使用者が望むレイアウトに編集することができる。
読み順決定部4においては、レイアウト解析部3で抽出された複数の確定部分領域の間で読み順が決定される。ここでも、上述と同様に処理結果修正GUI5が起動されて、確定部分領域の間での読み順を使用者が変更することも可能である。
【0031】
レイアウト解析部3の構成とその構成の各部における動作を図2を参照して説明する。図2は、図1におけるレイアウト解析部3を詳細に示した機能ブロック図である。
【0032】
画像処理部2において2値化された画像データは、N個の第1から第Nのレイアウト解析手段(3−1,3−2,3−3,…,3−N)に入力される。このN個のレイアウト解析手段では、それぞれレイアウト解析の方法が異なる。例えば、第1のレイアウト解析手段3−1では、縦書き及び横書き方向に対して文字の間隔が計測される。その計測結果に基づいて、文字の周辺の間隔が比較されて、文字間隔の小さい文字どうしがグルーピングされる。その結果、1つの画像データにおいて、同一文字方向を有するグループがいくつか形成される。また、第2のレイアウト解析手段3−2では、例えば、縦書き方向に対して文字の間隔が計測される。第3のレイアウト解析手段3−3では、例えば、横書き方向に対して文字の間隔が計測される。そして、第1のレイアウト解析手段3−1における工程と同様に、文字どうしがグルーピングされて同一文字方向を有するグループが形成される。第1のレイアウト解析手段3−1での結果と異なることは、第2及び第3のレイアウト解析手段(3−2,3−3)では、それぞれ文字方向は縦のみ及び横のみだけである点である。
【0033】
他にも異なったレイアウト解析手段が実行されてもよい。例えば、画像データの上端部及び下端部では、横書き方向に限定して、それ以外の画像データ部分では、縦及び横書き方向に対して文字間隔が測定されるように設定されていてもよい。さらに、画像データの側端部では、縦書き方向に限定して、それ以外の画像データ部分では、縦及び横書き方向に対して文字間隔が測定されるようになっていてもよい。このように、レイアウト解析手段の工程は、多様に変形されることが可能であり、多くのレイアウト解析手段を設定することができる。また、文字間の相関関係等が基にされたレイアウト解析手段が実行されてもよい。
【0034】
これらのN個のレイアウト解析手段によって得られたレイアウト解析結果は、レイアウト解析結果対応付け部21に出力される。ここでは、一の画像データに対するN個のレイアウト解析手段の結果の間で、グルーピングされたグループの領域が重複しているものどうしが対応付けられる。この対応付けでは、まず、各レイアウト解析手段においてグルーピングされたグループに含まれるすべての文字に外接する矩形で囲まれる閉領域が生成される。この各閉領域の画像データ中の位置に基づいて、各閉領域が重なっているかどうかが判定される。
【0035】
レイアウト解析結果分類部22においては、このレイアウト解析結果対応付け部21における対応付けられた重複したグループ間で、閉領域どうしが重複する態様によって、種類が分類される。閉領域間では、一方が他方に包含される、互いに一致するものがある。また、他の閉領域と対応付くものがない閉領域もこのレイアウト解析結果分類部22において、他の閉領域と対応付くものがない閉領域として、分類される。具体的には、これら重複したグループ間で重複する態様は、以下の4種類に分類される。閉領域どうしが同じ性質を有する場合、各閉領域は同一部分領域と呼ばれる。ここで、閉領域どうしが同じ性質とは、閉領域どうしの文字行方向が等しい、閉領域どうしの画像データ内に閉領域が位置する場所が等しい、及び閉領域どうしの大きさが等しいことを示す。また、第1のレイアウト解析手段3−1による閉領域が他のレイアウト解析手段による閉領域を包含している場合、各閉領域は、安定部分領域と呼ばれる。さらに、第1のレイアウト解析手段3−1による閉領域が他のレイアウト解析手段による閉領域に包含されている場合、各閉領域は、不安定部分領域と呼ばれる。さらにまた、第1のレイアウト解析手段3−1による閉領域が他のレイアウト解析手段による閉領域に対応付く閉領域がない場合、第1のレイアウト解析手段3−1による閉領域は、未対応部分領域と呼ばれる。
【0036】
レイアウト解析結果集計部23においては、レイアウト解析結果分類部22において分類された各部分領域ごとに点数が付与される。そして、その点数に基づいて部分領域が選択される。その結果として、各部分領域から画像データから文字情報が的確に抽出された部分領域である確定部分領域が抽出される。確定部分領域以外の部分領域は棄却される。
レイアウト解析結果出力部24においては、確定部分領域で形成されるレイアウト解析結果が生成される。これによって、最終的なレイアウト解析結果が出力される。
【0037】
一方、このレイアウト解析結果が得られる前に、各レイアウト解析手段において上記の閉領域が得られた段階で、各レイアウト解析手段による閉領域が画面上に表示されてもよい。この表示された閉領域から確定部分領域が使用者によって選択されることも可能である。使用者は、ポインティングデバイス等を使用して、それぞれの処理結果から任意の部分領域の任意の組み合わせを選択することができる。この処理は、処理結果修正GUI5によってなされる。
【0038】
レイアウト解析部3による処理を例を示すことによって、図3及び図4を参照して具体的に説明する。図3は、図2に示されるNが3である場合において、それぞれのレイアウト解析結果及びレイアウト解析結果が対応づけられた結果と、そのレイアウト解析がなされた、図1に示される画像処理部2からの入力画像とを示す図である。図4は、図2に示されるレイアウト解析部3への入力画像と、図3に示される第1から第3のレイアウト解析結果から得られた最終のレイアウト解析結果とを示す図である。
【0039】
図3に示される例では、レイアウト解析手段は3種類、設定されている。第1のレイアウト解析手段3−1では、縦書き及び横書き方向に対して文字の間隔が計測される。その計測結果に基づいて、ある選択される文字の縦書き及び横書き方向の近隣において、文字間隔が参照される。そして、縦書き方向と横書き方向とのうち、文字間隔が小さい方の方向がその文字が配置される方向として選択される。それと同時に、その文字間隔が小さい方の方向に存在する文字と、前述の選択された文字とが同一グループとしてグルーピングされる。この場合においては、文字間隔が小さくない方に存在する文字がある場合は、この文字と上述の選択された文字とは、別のグループに属することになる。この工程を画像データのすべての文字について繰り返して、一画像データにおいて、いくつかのグループが生成されることになる。これらの各グループは、縦書き又は横書きとして認識されることになる。
【0040】
第2のレイアウト解析手段3−2では、縦書き方向に対して文字の間隔が計測される。その計測結果に基づいて、ある選択される文字の縦書き方向の近隣において、文字間隔が参照される。そして、その文字間隔が小さい方の文字と、前述の選択された文字とが同一グループとしてグルーピングされる。さらに、文字間隔が小さくない方に存在する文字がある場合は、この文字と上述の選択された文字とは、別のグループに属することになる。この工程が画像データのすべての文字について繰り返されて、一画像データにおいて、いくつかのグループが生成されることになる。これらの各グループは、縦書きとして認識されることになる。
【0041】
第3のレイアウト解析手段3−3では、横書き方向に対して文字の間隔が計測される。その計測結果に基づいて、ある選択される文字の横書き方向の近隣において、文字間隔が参照される。そして、その文字間隔が小さい方の文字と、前述の選択された文字とが同一グループとしてグルーピングされる。この場合においては、文字間隔が小さくない方に存在する文字がある場合は、この文字と上述の選択された文字とは、別のグループに属することになる。この工程を画像データのすべての文字について繰り返して、一画像データにおいて、いくつかのグループが生成されることになる。これらの各グループは、横書きとして認識されることになる。
【0042】
これらの3個のレイアウト解析手段によって得られたレイアウト解析結果は、レイアウト解析結果対応付け部21に出力される。ここでは、一の画像データから生成される3個のレイアウト解析手段の結果の間で、グルーピングされたグループの領域が重複しているものどうしが対応付けられる。この対応付けでは、まず、各レイアウト解析手段においてグルーピングされたグループに含まれるすべての文字に外接する矩形で囲まれる閉領域が生成される。この各閉領域の画像データ中の位置に基づいて、各閉領域が重なっているかどうかが判定される。
【0043】
以下、各閉領域が重なっているかどうかが判定される工程を、具体例を挙げて詳細に説明する。各レイアウト解析手段の結果における画像データ上の閉領域は、矩形で表されている。したがって、閉領域の左上端部座標値と右下端部座標値とによって矩形の位置が特定される。ここでは、閉領域の左上端部座標値(ax1,ay1)、右下端部座標値(ax2,ay2)を有する閉領域Aと、閉領域の左上端部座標値(bx1,by1)、右下端部座標値(bx2,by2)を有する閉領域Bとが重なっているかどうかが判定される方法を説明する。この場合は、不等式min(ax2,bx2)−max(ax1,bx1)+1>0、かつ不等式min(ay2,by2)−max(ay1,by1)+1>0を閉領域A及び閉領域Bが満たすときに、閉領域Aと閉領域Bとが重複していると判定される。ただし、2次元座標は、画面の左上端部を原点として、X座標を右向きに、Y座標を下向きに設定するものとする。ここで説明した方法によれば、レイアウト解析手段間における画像データ中のすべての閉領域間において、閉領域が重複しているかどうかが判定されることが可能になる。だだし、この実施例では、第1のレイアウト解析結果における閉領域が基準とされて、この閉領域と重複する第2又は第3のレイアウト解析結果における閉領域との間において重複している閉領域が確定される。この判定結果によって、第1のレイアウト解析結果による閉領域と、この閉領域と重複している第2又は第3のレイアウト解析結果による閉領域とが対応付けられる。図3に示された第1のレイアウト解析結果による閉領域から第2又は第3のレイアウト解析結果による閉領域への矢印は、閉領域どうしが対応付けられている例である。
【0044】
レイアウト解析結果分類部22においては、このレイアウト解析結果対応付け部21における対応付けられた重複したグループ間で、閉領域どうしが重複する態様によって、4種類に分類される。すなわち、上述した同一部分領域、安定部分領域、不安定部分領域、及び未対応部分領域である。それぞれの部分領域を抽出する方法を以下に詳細に説明する。
【0045】
同一部分領域の抽出では、まず第1のレイアウト解析結果の部分領域と文字行方向が同一な部分領域が抽出される。つぎに、その抽出された部分領域どうしが同一な大きさを有しているかが判定される。すなわち、部分領域の左上端部座標値(ax1,ay1)、右下端部座標値(ax2,ay2)を有する部分領域Aと、部分領域の左上端部座標値(bx1,by1)、右下端部座標値(bx2,by2)を有する部分領域Bとの大きさが等しい場合は、
ax1=bx1、かつay1=by1、かつax2=bx2、かつay2=by2、
かつ(ax2−ax1+1)×(ay2−ay1+1)=(bx2−bx1+1)×(by2−by1+1)
を満たす。これら等式を満たした部分領域どうしの大きさは、等しいとする。つぎに、抽出された各部分領域を構成するそれぞれの文字行(一般に各部分領域は、複数の文字行を有する)が互いに一対一に対応しているかが判定される。換言すれば、部分領域Aを構成する文字行を要素とする集合から部分領域Bを構成する文字行を要素とする集合への写像を想定した場合、この写像が全単射かつ一対一であるかが判定される。これら3条件を満たす部分領域どうしの場合、各部分領域は同一部分領域であるとされる。図3では、(b)と(b’)、(e)と(e’)、(d3)と(h1)、及び(d4)と(h2)のそれぞれが同一部分領域である。
【0046】
安定部分領域の抽出では、第1のレイアウト解析手段3−1による部分領域が他のレイアウト解析手段による部分領域を包含している場合の各部分領域が抽出される。すなわち、上述した部分領域A、Bにくわえて、部分領域の左上端部座標値(cx1,cy1)、右下端部座標値(cx2,cy2)を有する部分領域Cの間で、以下に示される不等式が満たされた場合に、部分領域BとCは、部分領域Aに包含されているとする。この不等式とは、
ax1≦bx1≦ax2、かつax1≦bx2≦ax2、
かつax1≦cx1≦ax2、かつax1≦cx2≦ax2、かつ
ay1≦by1≦ay2、かつay1≦by2≦ay2、
かつay1≦cy1≦ay2、かつay1≦cy2≦ay2、かつ
(ax2−ax1+1)×(ay2−ay1+1)≧(bx2−bx1+1)×(by2−by1+1)、かつ
(ax2−ax1+1)×(ay2−ay1+1)≧(cx2−cx1+1)×(cy2−cy1+1)
である。図3では、(c)と(c’)、及び(c)と(j)のそれぞれが安定部分領域である。ここでは、2つの部分領域が包含される場合を説明したが、2つでなく、一般には、3つ以上の部分領域に包含される場合も抽出される。部分領域が3つ以上の場合には、上述した不等式が一般化された不等式が使用される。
【0047】
不安定部分領域の抽出では、第1のレイアウト解析手段3−1による部分領域が他のレイアウト解析手段による部分領域に包含されている場合の各部分領域が抽出される。すなわち、安定部分領域の抽出で説明した部分領域Aが第2又は第3のレイアウト解析結果における部分領域であり、B及びCが、第1のレイアウト解析結果における部分領域である場合、部分領域A,B,及びCが不安定部分領域であるとする。図3では、(d)と(d’)、及び(d1)と(d2)と(e)と(g)のそれぞれが不安定部分領域である。包含される部分領域が3つ以上の場合は、安定部分領域において説明したように、一般化された不等式が使用される。
【0048】
未対応部分領域の抽出では、第1のレイアウト解析結果における部分領域において、ほかの第2又は第3のレイアウト解析結果と対応付けられていない部分領域が抽出される。図3では、(f)が未対応部分領域である。
【0049】
レイアウト解析結果集計部23における集計方法を詳細に説明する。ここでは、抽出された部分領域から、確定部分領域を選択する。すなわち、上述のように抽出された同一部分領域、安定部分領域、不安定部分領域、及び未対応部分領域の各部分領域に所定の規則に基づき点数を付与する。そして、その点数に応じて各部分領域から確定部分領域を選択する。具体的な方法を以下に説明する。
【0050】
第1のレイアウト解析結果における部分領域において、同一部分領域に3点、安定部分領域に2点、不安定部分領域に1点、未対応部分領域に0点がそれぞれ付与される。1つの部分領域が複数種類の部分領域に分類されている場合は、点数の多い方の部分領域の種類が選択される。また、点数が同点である場合は、優先度の高い部分領域の種類が選択される。ここで、部分領域の種類の優先度は、同一部分領域、安定部分領域、不安定部分領域、及び未対応部分領域の順に付けられている。
【0051】
図3を参照して、確定部分領域が選択される態様を具体的に説明する。図3に示される(d1)と(d2)とは、2通りの不安定部分領域に分類される。すなわち、(d’)及び(g)の不安定部分領域である。(d1)と(d2)とが、(d’)の不安定部分領域であると見なすと、さらに(d3)及び(d4)とを合わせて(d’)と対応付けられている。したがって、(d1)、(d2)、(d3)、及び(d4)に付与される点数により、(d’)には、4点が付与される。一方、(d1)と(d2)とが、(e)の不安定部分領域であると見なすと、さらに(e)と合わせて(d’)と対応付けられている。したがって、(d1)、(d2)、及び(e)に付与される点数により、(g)には、3点が付与される。この結果、(d’)は、点数の高い(d1)、(d2)、(d3)、及び(d4)との対応付けが選択され、(d1)、(d2)、及び(e)の対応付けは棄却される。また、図3に示される(d3)及び(d4)は、それぞれ(h1)及び(h2)と対応している。その上、これらの部分領域は、同一部分領域に対応付けられていて、それぞれ3点が付与されている。しかし、上述の(d1)、(d2)、(d3)、及び(d4)との対応付けにより、4点が付与されているので、(d3)と(h1)及び(d4)と(h2)のそれぞれの対応づけは棄却される。また、(e)は、(e’)と対応付けられることにより、同一部分領域として3点が付与されている。この点数は、(d1)、(d2)、及び(e)と(g)の対応付けによる上述の3点と同点である。そして、この(d1)、(d2)、及び(e)と(g)との対応付けは、不安定部分領域である。また、(e)と(e’)との対応付けは、同一部分領域であり、同一部分領域は不安定部分領域よりも優先度が高いので、(d1)、(d2)、及び(e)と(g)との対応付けが棄却され、(e)と(e’)との対応付けが選択される。
【0052】
上記のように部分領域間の対応付けが確定した後、確定部分領域が所定の規則に基づき抽出される。この第1の規則は、第1のレイアウト解析結果における同一部分領域、安定部分領域、未対応部分領域を確定部分領域とすることである。第2は、第2又は第3のレイアウト解析結果における不安定部分領域を、それに対応する第1のレイアウト解析結果における不安定部分領域に置き換えて、その不安定部分領域を確定部分領域とすることである。図3を参照して説明すると、第1の規則により、同一部分領域である(b)と(e)、安定部分領域である(c)、及び未対応部分領域である(f)が確定部分領域とされる。また、第2の規則により、不安定部分領域である(d)が確定部分領域とされる。
レイアウト解析部3の最後の工程として、図4に示されるように確定部分領域のみで形成される最終レイアウト解析結果が出力される。
【0053】
処理結果修正GUI5が起動されることによって、レイアウト解析手段による解析結果を使用者が参照して、レイアウト解析結果が得られる場合を図5を参照して説明する。図5は、図3に示される第1及び第2のレイアウト解析結果を基にして、図1に示される処理結果修正GUI5が起動されて、使用者により選択されたレイアウト結果と、選択されたレイアウト結果によって新しく生成されたレイアウト解析結果とを示す図である。
この処理結果修正GUI5によって、レイアウト解析結果による部分領域から、使用者が意図するように確定部分領域を決定することが可能になる。レイアウト解析部3によるレイアウト解析結果が使用者が所望するものでない場合、レイアウト解析結果を変更することができる。
【0054】
以上のようなレイアウト解析結果が使用されて、入力された文書画像から論理構造が的確に抽出されることが可能になる。したがって、オリジナルの文書に忠実な認識がされた文書画像を得ることが可能になる。
【0055】
読み順決定部4による読み順決定の動作を図6を参照して説明する。図6は、図1に示される読み順決定部4の一般的な動作を示した流れ図である。
【0056】
レイアウト解析部3から出力された画像データである最終レイアウト解析結果が読み順決定部4に入力される。まず、この画像データは、読み順決定部4内の複数の読み順決定手段に入力される。この各読み順決定手段よって、画像データ中の確定部分領域の間における読み順が決定される。各読み順決定手段においては、それぞれ独自の解析方法があり、一般には、読み順決定手段による読み順は、ほとんどすべて異なる読み順になる。この読み順決定手段には、確定部分領域を有する画像データが入力されて、その確定部分領域の間で所定の規則により読み順を決定するものであれば、どんな読み順決定手段でもよい。例えば、確定部分領域に接触しないように、画像データに分割線がいくつか引かれて、分割された領域間で順位づけがなされる。この分割線が画像データ中に引かれる際、引かれた分割線によって生成された2つの領域間での順位が付けられる。さらに、各領域間で分割線が引かれた場合、その分割線によって生成された2つの領域間での順位が付けられる。この分割動作が、分割された領域に1つの確定部分領域が存在するようになるまで繰り返し実行される。ここで、分割された2つの領域間で順位付けが実行される方法では、領域が分割された際、例えば画像データ中の左側及び上部にある確定部分領域に優先して小さい順位を付与する。優先度の付け方は、画像データが日本文である場合は、右側及び上部にある確定部分領域に高い優先度を付与する等の設定の変更が可能である。このように順序付けが実行されると、画像データを分割する分割線の引き方によって、一般には異なる順位付けがなされた画像データが得られることになる。つぎに、画像データ中の各確定部分領域が、各読み順決定手段によって、何番目の読み順が付与されたかが計算される。そして、この各確定部分領域の読み順番に基づいて、各確定部分領域の平均読み順番が算出される。つぎに、この各確定部分領域の平均読み順番に基づいて、各確定部分領域が読み順にしたがって順序づけられる。そして、異なる確定部分領域に、同一な読み順が付与されてしまった場合、所定の規則により、同一な読み順になる確定部分領域間に読み順を付ける。
【0057】
読み順決定部4によって確定部分領域を有する画像データから、各部分領域の読み順を決定する具体的な手順を図7から図14を参照して説明する。図7は、図1に示される読み順決定部4を示した図6をより具体化した動作を示した流れ図である。図8は、図1に示される読み順決定部4に入力されるレイアウト解析結果の一例を示す図である。ここでは、3種類の読み順決定手段を使用する。各読み順決定手段には、図8に示されるレイアウト解析部3による最終レイアウト解析結果が入力されるものとする。また、図9から図11は、それぞれ図7に示される第1から第3読み順決定手段(41,42,43)でのレイアウト解析結果が分割線によって分割された態様を示す図である。
【0058】
第1読み順決定手段41では、図9に示されるように水平分割線1及び水平分割線2が画像データ中に引かれる。この2つの分割線により、最終レイアウト解析結果は、(A,B)、(C,D)、及びEに組分けされる。つぎに、垂直分割線3が画像データ中に引かれる。この分割線により、(A,B)がAとBとに分割される。また、垂直分割線4が画像データ中に引かれ、(C,D)がCとDとに分割される。ここでは、左にある確定部分領域、上部にある確定部分領域に優先して、小さい順位が付与されるものとする。この規定によって、第1読み順決定手段41では、読み順が、A、B、C、D、Eの順で順序づけられる。
【0059】
第2読み順決定手段42では、図10に示されるように垂直分割線5が画像データ中に引かれる。この分割線により、最終レイアウト解析結果は、(A,C,E)、及び(B,D)に組分けされる。つぎに、水平分割線6及び水平分割線7が画像データ中に引かれる。この2つの分割線により、(A,C,E)がAとCとEとに分割される。また、水平分割線8が画像データ中に引かれ、(B,D)がBとDとに分割される。結果として、上述の規定によって、第2読み順決定手段42では、読み順が、A、C、E、B、Dの順で順序づけられる。
【0060】
第3読み順決定手段43では、図11に示されるように水平分割線9が画像データ中に引かれる。この分割線により、最終レイアウト解析結果は、(A,B,C,D)、及びEに組分けされる。つぎに、垂直分割線10が画像データ中に引かれて、この分割線により(A,B,C,D)が(A,C)と(B,D)とに分割される。つぎに、水平分割線11及び水平分割線12が画像データ中に引かれる。この2つの分割線により、(A,C)がAとCとに分割され、(B,D)がBとDとに分割される。結果として、上述の規定によって、第3読み順決定手段43では、読み順が、A、C、B、D、Eの順で順序づけられる。この第3読み順決定手段43では、画像データ内の確定部分領域間での論理的な構造が認識され、確定部分領域Eが脚注である可能性が高いと認識された結果、水平分割線9が引かれる。ほかの分割線も、確定部分領域間での論理的な構造が認識されて引かれてもよい。この際は、どのような論理構造が認識されるかによって、分割線の引き方が設定される。
【0061】
つぎに、各確定部分領域ごとに各読み順決定手段によって付与された順位の総和が計算される(44)。この各読み順決定手段による計算結果およびこの計算結果に基づく各確定部分領域ごとの順位の総和を、図12を参照して説明する。図12(A)から(C)は、図7に示される第1から第3読み順決定手段での処理結果を示した図である。図12(D)は、図12(A)から(C)までの確定部分領域の読み順の総和の算出での結果を示した図である。
第1、第2、及び第3読み順決定手段43による読み順序は、確定部分領域(A,B,C,D,E)に対して、それぞれ(1,2,3,4,5)、(1,4,2,5,3)、及び(1,3,2,4,5)である。この読み順結果に基づく各確定部分領域ごとの順位の総和は、確定部分領域(A,B,C,D,E)に対して、(3,9,7,13,13)となる。したがって、読み順は、第3番目まで決定され、A,C,Bの順になる。
【0062】
同一の総和値を有する確定部分領域において順位付けをする(46)方法を、図13を参照して説明する。図13(A)は、図7に示される読み順の総和に基づく確定部分領域の順序付けの処理結果を示した図である。図13(B)は、図7に示される同一読み順番号を持つ確定部分領域の順序付けの処理結果の一例を示した図である。図13(C)は、図7に示される同一読み順番号を持つ確定部分領域の順序付けの処理結果の(B)と異なる別の例を示した図である。
【0063】
同一の総和値を有する確定部分領域の順序づけは、その確定部分領域において最も頻度が大きい順番が選択される。図12に示されるように、確定部分領域Dでは、第1から第3の読み順決定手段により、それぞれ4,5,4番目の読み順を有する。したがって、確定部分領域Dの最も頻度が大きい順番は、4番目の読み順になる。同様に、図12に示されるように、確定部分領域Eでは、第1から第3の読み順決定手段により、それぞれ5,3,5番目の読み順を有する。したがって、確定部分領域Eの最も頻度が大きい順番は、5番目の読み順になる。この結果として、画像データ中において確定部分領域には、図13(B)に示されるような読み順番が付与されることになる。
【0064】
この番号選択方法とは異なる方法として、その確定部分領域において最も小さい読み順番が選択される方法もある。この方法では、図12を参照すると、確定部分領域Dは、4番目の読み順を有し、確定部分領域Eは3番目の確定部分領域を有することになる。この結果として、画像データ中において確定部分領域には、図13(C)に示されるような読み順番が付与されることになる。
【0065】
これらの図13(B)及び(C)に示される読み順結果が画面上に提示される。使用者は、これらの読み順結果から適切なものを選択して読み順を決定する。
また、読み順結果の異なる選択方法を図14を参照して説明する。図14は、図12に示される(A)、(B)、及び(C)の処理結果における各確定部分領域の読み順番号が、各確定部分領域ごとに明示された態様を示した図である。この図14に示されるように、各確定部分領域が読み順決定手段によって、読み順決定された読み順番が読み順候補として、各確定部分領域ごとに示されていてもよい。使用者は、示されたこれらの読み順候補を参照して、適切な読み順を各確定部分領域ごとに選択することが可能になる。
【0066】
この発明の別の実施例を以下に説明する。
この実施例では、ロゴ又は写真等の非テキスト部分とテキスト部分との双方が画像データに含まれる場合に、その非テキスト部分とテキスト部分とを的確に抽出するための発明を説明する。
【0067】
テキスト部分が高精度に抽出されるためには、テキスト部分が含まれる画像データに対して、エッジ強調処理が実行される。エッジ強調処理においては、画素の明るさが激しく変化する位置が検出され、その位置でエッジ部分が強調される演算が実行される。このエッジ強調処理によって、テキスト部分の文字が明確に際立つことが可能になる。その後、2値化処理が実行される。エッジ強調処理によって明確に際立った文字に2値化処理が実行されるため、文字又は文字の一部分が欠落することが少なく、テキスト部分を確実に抽出することができる。
【0068】
一方、非テキスト部分が高精度に抽出されるためには、非テキスト部分が含まれる画像データに対して、濃淡補正処理又は鮮鋭化処理が実行される。濃度補正処理においては、非テキスト部分のコントラストが調整されたり、濃度特性が正規化される。鮮鋭化処理においては、空間的な繰返しを表わす量である空間周波数(例えば、単位長内や単位視角内に存在する白黒縞の組数のこと)の高周波成分が強調される。高周波成分は、画像の細密な部分の鮮明度を決定する成分であるため、高周波成分が強調されると、画像の細かい部分が鮮明になり、非テキスト部分が高精度に抽出される。
【0069】
この発明では、上述したテキスト部分を高精度に抽出することが可能な画像処理と、非テキスト部分を高精度に抽出することが可能な画像処理とを段階的に画像データに適用する。さらに、それぞれ処理方法が異なる画像処理を複数用意して、1つの画像データに対して、性質の異なる複数の画像処理が実行される。その後、各画像処理結果が、上記の実施例で説明されたように、レイアウト解析部3に入力される。その後の処理では、上記の実施例と同様に、レイアウト解析部3によって決定される確定部分領域の間で読み順が算出される。
【0070】
どのように複数の画像処理が実行されるかを、図15及び図16を参照して説明する。図15は、この発明の文書認識装置の文書画像入力部1、複数の画像処理部2、及びレイアウト解析部3の機能ブロック図を示した図である。図16は、図15に示されたレイアウト解析手段を複数具備した、文書認識装置の文書画像入力部1、複数の画像処理部2、及びレイアウト解析部3の機能ブロック図を示した図である。
【0071】
図15に示される画像処理部2は、3種類設けられている。第1画像処理51においては、濃度変換処理、鮮鋭化処理、及び2値化処理が実行される。これら一連の処理によって、画像データ中の非テキスト部分において、良好な画像が得られる。また、第2画像処理52においては、エッジ強調処理、及び2値化処理が実行される。これら一連の処理によって、画像データ中のテキスト部分において、良好な画像が得られる。またさらに、第3画像処理53においては、第1及び第2画像処理52で実行された濃度変換処理、鮮鋭化処理、エッジ強調処理、及び2値化処理が実行される。これら3種類の画像処理によって、3種類の画像処理結果が得られることになる。その後は、これら3種類の画像処理結果に上述した実施例での第1のレイアウト解析手段3−1が実行されて、レイアウト解析結果が得られる。この処理によると3種類のレイアウト解析結果が得られることになる。また、図16に示されるように上述した実施例での第1から第3のレイアウト解析手段(3−1,3−2,3−3)がそれぞれの画像処理結果に対して実行され、レイアウト解析結果が得られてもよい。この処理によると、(画像処理の数)×(レイアウト解析手段の数)に対応する9種類のレイアウト解析結果が得られることになる。これらの複数のレイアウト解析結果は、上述した実施例のように、レイアウト解析結果は、レイアウト解析結果対応付け部21、レイアウト解析結果分類部22、付け部レイアウト解析結果集計部23、及びレイアウト解析結果出力部24において処理されて、1つの最終的なレイアウト解析結果が出力される。もちろん、上記実施例のように、各レイアウト解析手段において上記の閉領域が得られた段階で、各レイアウト解析手段による閉領域が画面上に表示されてもよい。この表示された閉領域から確定部分領域が使用者によって選択されることも可能である。使用者は、ポインティングデバイス等を使用して、それぞれの処理結果から任意の部分領域の任意の組み合わせを選択することができる。この処理は、処理結果修正GUI5によってなされる。
【0072】
【発明の効果】
この発明の文書認識装置及びその文書認識方法によれば、複数のレイアウト解析が文書画像に適用されることにより、単一のレイアウト解析が実行された場合よりも的確なレイアウト解析結果を抽出することが可能になる。
【0073】
また、複数の読み順決定手段が文書画像に適用されることにより、単一の読み順決定手段が実行された場合よりも的確な読み順を抽出することができる。
【0074】
さらに、複数の画像処理が文書画像に適用されて、レイアウト解析が実行されることにより、文字部分領域及び非文字部分領域を的確に抽出することができる。したがって、入力された文書に忠実な文書画像を得ることができる。
【0075】
また、レイアウト解析結果を使用者が修正することができるので、適切なレイアウト解析結果を最終的に得ることができる。したがって、入力された文書に忠実な文書画像を得ることができる。
【0076】
さらに、文書の読み順が誤っているため誤認識されている部分と、文書から誤って抽出された文字行とを修正するツールが用いられて適切なレイアウトに使用者の意図に基づき編集することができる。
【図面の簡単な説明】
【図1】この発明の一実施例における文書認識装置の全体の構成を示す機能ブロック図である。
【図2】図1におけるレイアウト解析部を詳細に示した機能ブロック図である。
【図3】図2に示されるNが3である場合において、それぞれのレイアウト解析結果及びレイアウト解析結果が対応づけられた結果と、そのレイアウト解析がなされた、図1に示される画像処理部からの入力画像とを示す図である。
【図4】図2に示されるレイアウト解析部への入力画像と、図3に示される第1から第3のレイアウト解析結果から得られた最終のレイアウト解析結果とを示す図である。
【図5】図3に示される第1及び第2のレイアウト解析結果を基にして、図1に示される処理結果修正GUIが起動されて、使用者により選択されたレイアウト結果とと、選択されたレイアウト結果によって新しく生成されたレイアウト解析結果とを示す図である。
【図6】図1に示される読み順決定部の一般的な動作を示した流れ図である。
【図7】図1に示される読み順決定部を示した図6をより具体化した動作を示した流れ図である。
【図8】図1に示される読み順決定部に入力されるレイアウト解析結果の一例を示す図である。
【図9】図7に示される第1読み順決定手段でのレイアウト解析結果が分割線によって分割された態様を示す図である。
【図10】図7に示される第2読み順決定手段でのレイアウト解析結果が分割線によって分割された態様を示す図である。
【図11】図7に示される第3読み順決定手段でのレイアウト解析結果が分割線によって分割された態様を示す図である。
【図12】(A)図7に示される第1読み順決定手段での処理結果を示した図である。
(B)図7に示される第2読み順決定手段での処理結果を示した図である。
(C)図7に示される第3読み順決定手段での処理結果を示した図である。
(D)(A)から(C)までの確定部分領域の読み順の総和の算出での結果を示した図である。
【図13】(A)図7に示される読み順の総和に基づく確定部分領域の順序付けの処理結果を示した図である。
(B)図7に示される同一読み順番号を持つ確定部分領域の順序付けの処理結果の一例を示した図である。
(C)図7に示される同一読み順番号を持つ確定部分領域の順序付けの処理結果の(B)と異なる別の例を示した図である。
【図14】図12に示される(A)、(B)、及び(C)の処理結果における各確定部分領域の読み順番号が、各確定部分領域ごとに明示された態様を示した図である。
【図15】この発明の別の実施例における文書認識装置の文書画像入力部、複数の画像処理部、及びレイアウト解析部の機能ブロック図を示した図である。
【図16】図15に示されたレイアウト解析手段を複数具備した、文書認識装置の文書画像入力部、複数の画像処理部、及びレイアウト解析部の機能ブロック図を示した図である。
【符号の説明】
1 文書画像入力部
2 画像処理部
3 レイアウト解析部
4 読み順決定部
5 処理結果修正GUI
3−1,…,3−N レイアウト解析手段
21 レイアウト解析結果対応付け部
22 レイアウト解析結果分類部
23 レイアウト解析結果集計部
24 レイアウト解析結果出力部

Claims (8)

  1. 文書画像から文字を抽出する手段と、文字をまとめて部分領域を抽出する手段と、文字の整列性から縦書きの部分領域と横書きの部分領域とを抽出する手段とから構成される第1解析手段と、
    前記文書画像を縦書きと仮定して、前記文書画像から縦書きの部分領域を抽出する第2解析手段と、
    前記文書画像を横書きと仮定して、前記文書画像から横書きの部分領域を抽出する第3解析手段と、
    前記第1、第2、及び第3解析手段によるそれぞれの解析結果内で、抽出された部分領域間の配置関係を計測する領域計測手段と、
    第1、第2、及び第3解析手段によって抽出された各部分領域におけるすべての文字を外接する矩形で囲まれる閉領域を、それぞれ第1、第2、及び第3部分領域として抽出する領域抽出手段と、
    前記各部分領域において、第1部分領域と、第2及び第3のいずれかの部分領域とが同一の文字配列方向、かつ同一の位置、かつ同一面積である場合に、この第1部分領域と、この第2又は第3部分領域とを同一部分領域として抽出する同一部分領域抽出手段と、
    前記各部分領域において、第2及び第3のいずれかの部分領域を含む第1部分領域がある場合に、この第1部分領域と、この第2又は第3部分領域とを安定部分領域として抽出する安定部分領域抽出手段と、
    前記各部分領域において、第1部分領域を含む第2及び第3のいずれかの部分領域がある場合に、この第1部分領域と、この第2又は第3部分領域とを不安定部分領域として抽出する不安定部分領域抽出手段と、
    前記各部分領域において、第1部分領域のうち、前記同一部分領域、前記安定部分領域、及び前記不安定部分領域として抽出されない部分領域を未対応部分領域として抽出する未対応部分領域抽出手段と、
    第1部分領域において抽出された同一部分領域、安定部分領域、及び未対応部分領域を確定部分領域として確定する第1確定手段と、
    第2又は第3部分領域において抽出された不安定部分領域を、それに対応する第1部分領域において抽出された不安定部分領域に置き換えて、該不安定部分領域を確定部分領域として確定する第2確定手段と、
    前記確定部分領域以外の部分領域を棄却し、確定部分領域で形成される解析結果を生成する生成手段と、
    を具備することを特徴とする文書認識装置。
  2. 前記第1部分領域において、前記同一部分領域、前記安定部分領域、前記不安定部分領域、及び前記未対応部分領域それぞれに、この順高い点数を付与する点数付与手段と、
    前記第1部分領域が、前記第2及び第3部分領域それぞれについて、前記同一部分領域、前記安定部分領域、前記不安定部分領域、及び前記未対応部分領域いずれかに分類される場合に、分類される前記同一部分領域、前記安定部分領域、前記不安定部分領域、及び前記未対応部分領域いずれかとして前記第2及び第3部分領域それぞれに対応付けられた第1部分領域に付与された点数を、前記第2及び第3部分領域それぞれについて合計し、点数高い対応付けを選択する選択手段と、
    をさらに含み、
    前記第1及び第2確定手段は、前記選択手段によって選択された対応付けにおいて、確定部分領域の確定を行うことを特徴とする請求項1記載の文書認識装置。
  3. 前記第1から第3の部分領域が画面上に表示され、使用者がこの画面を参照して部分領域を選択し確定することで、確定部分領域を抽出する確定部分領域選択手段をさらに具備することを特徴とする請求項1又は請求項2記載の文書認識装置。
  4. 処理対象画像となる文字または非文字を複数個含む文書画像を認識するための文書認識装置において、
    前記文書画像に対して、濃度変換処理、鮮鋭化処理、2値化処理、及びエッジ強調処理から異なる複数の処理の組み合わせを組み合わせごとに実行することで複数通りの文書画像を生成する画像処理手段と、
    文書画像から文字を抽出する手段と、文字をまとめて部分領域を抽出する手段と、文字の整列性から縦書きの部分領域と横書きの部分領域とを抽出する手段とから構成される第1解析手段と、
    前記文書画像を縦書きと仮定して、前記文書画像から縦書きの部分領域を抽出する第2解析手段と、
    前記文書画像を横書きと仮定して、前記文書画像から横書きの部分領域を抽出する第3解析手段と、
    前記第1、第2、及び第3解析手段によるそれぞれの解析結果内で、抽出された部分領域間の配置関係を計測する領域計測手段と、
    第1、第2、及び第3解析手段によって抽出された各部分領域におけるすべての文字を外接する矩形で囲まれる閉領域を、それぞれ第1、第2、及び第3部分領域として抽出する領域抽出手段と、
    前記各部分領域において、第1部分領域と、第2及び第3のいずれかの部分領域とが同一の文字配列方向、かつ同一の位置、かつ同一面積である場合に、この第1部分領域と、この第2又は第3部分領域とを同一部分領域として抽出する同一部分領域抽出手段と、
    前記各部分領域において、第2及び第3のいずれかの部分領域を含む第1部分領域がある場合に、この第1部分領域と、この第2又は第3部分領域とを安定部分領域として抽出する安定部分領域抽出手段と、
    前記各部分領域において、第1部分領域を含む第2及び第3のいずれかの部分領域がある場合に、この第1部分領域と、この第2又は第3部分領域とを不安定部分領域として抽出する不安定部分領域抽出手段と、
    前記各部分領域において、第1部分領域のうち、前記同一部分領域、前記安定部分領域、及び前記不安定部分領域として抽出されない部分領域を未対応部分領域として抽出する未対応部分領域抽出手段と、
    第1部分領域において抽出された同一部分領域、安定部分領域、及び未対応部分領域を確定部分領域として確定する第1確定手段と、
    第2又は第3部分領域において抽出された不安定部分領域を、それに対応する第1部分領域において抽出された不安定部分領域に置き換えて、該不安定部分領域を確定部分領域として確定する第2確定手段と、
    前記確定部分領域以外の部分領域を棄却し、確定部分領域で形成される解析結果を生成する生成手段と、
    を具備することを特徴とする文書認識装置。
  5. 前記第1から第3の部分領域が画面上に表示され、使用者がこの画面を参照して部分領域を選択し確定することで、確定部分領域を抽出する確定部分領域選択手段をさらに具備することを特徴とする請求項4記載の文書認識装置。
  6. 複数の部分領域について、該部分領域を読む順番である読み順を複数通り出力する読み順決定手段と、
    前記部分領域ごとに前記読み順における順番の総和を計算し、部分領域ごとの該総和の小さい順番に読み順を確定する読み順確定手段と、
    をさらに具備することを特徴とする請求項4又は請求項5記載の文書認識装置。
  7. 第1抽出手段、第2抽出手段、第3抽出手段、第1解析手段、第2解析手段、領域計測手段、領域抽出手段、同一部分領域抽出手段、安定部分領域抽出手段、不安定部分領域抽出手段、未対応部分領域抽出手段、第1確定手段、第2確定手段、及び、生成手段を具備する文書認識装置で使用する文書認識方法において、
    前記第1抽出手段が文書画像から文字を抽出し、前記第2抽出手段が文字をまとめて部分領域を抽出し、前記第3抽出手段が文字の整列性から縦書きの部分領域と横書きの部分領域とを抽出し、
    前記第1解析手段が、前記文書画像を縦書きと仮定して、前記文書画像から縦書きの部分領域を抽出し、
    前記第2解析手段が、前記文書画像を横書きと仮定して、前記文書画像から横書きの部分領域を抽出し、
    前記領域計測手段が、前記第1、第2、及び第3抽出手段とからなる解析手段と、前記第1解析手段と、前記第2解析手段とによるそれぞれの解析結果内で、抽出された部分領域間の配置関係を計測し、
    前記領域抽出手段が、前記第1、第2、及び第3抽出手段と、第1解析手段と、第2解析手段とによって抽出された各部分領域におけるすべての文字を外接する矩形で囲まれる閉領域を、それぞれ第1部分領域と、第2部分領域と、第3部分領域として抽出し、
    前記同一部分領域抽出手段が、前記各部分領域において、第1部分領域と、第2及び第3のいずれかの部分領域とが同一の文字配列方向、かつ同一の位置、かつ同一面積である場合に、この第1部分領域と、この第2又は第3部分領域とを同一部分領域として抽出し、
    前記安定部分領域抽出手段が、前記各部分領域において、第2及び第3のいずれかの部分領域を含む第1部分領域がある場合に、この第1部分領域と、この第2又は第3部分領域とを安定部分領域として抽出し、
    前記不安定部分領域抽出手段が、前記各部分領域において、第1部分領域を含む第2及び第3のいずれかの部分領域がある場合に、この第1部分領域と、この第2又は第3部分領域とを不安定部分領域として抽出し、
    前記未対応部分領域抽出手段が、前記各部分領域において、第1部分領域のうち、前記同一部分領域、前記安定部分領域、及び前記不安定部分領域として抽出されない部分領域を未対応部分領域として抽出し、
    前記第1確定手段が、第1部分領域において抽出された同一部分領域、安定部分領域、及び未対応部分領域を確定部分領域として確定し、
    前記第2確定手段が、第2又は第3部分領域において抽出された不安定部分領域を、それに対応する第1部分領域において抽出された不安定部分領域に置き換えて、該不安定部分領域を確定部分領域として確定し、
    前記生成手段が、前記確定部分領域以外の部分領域を棄却し、確定部分領域で形成される解析結果を生成する、
    ことを特徴とする文書認識方法。
  8. 画像処理手段、第1抽出手段、第2抽出手段、第3抽出手段、第1解析手段、第2解析手段、領域計測手段、領域抽出手段、同一部分領域抽出手段、安定部分領域抽出手段、不安定部分領域抽出手段、未対応部分領域抽出手段、第1確定手段、第2確定手段、及び、生成手段を具備する文書認識装置で使用し、処理対象画像となる文字または非文字を複数個含む文書画像を認識するための文書認識方法において、
    前記画像処理手段が、前記文書画像に対して、濃度変換処理、鮮鋭化処理、2値化処理、及びエッジ強調処理から異なる複数の処理の組み合わせを組み合わせごとに実行することで複数通りの文書画像を生成し、
    前記第1抽出手段が文書画像から文字を抽出し、前記第2抽出手段が文字をまとめて部分領域を抽出し、前記第3抽出手段が文字の整列性から縦書きの部分領域と横書きの部分領域とを抽出し、
    前記第1解析手段が、前記文書画像を縦書きと仮定して、前記文書画像から縦書きの部分領域を抽出し、
    前記第2解析手段が、前記文書画像を横書きと仮定して、前記文書画像から横書きの部分領域を抽出し、
    前記領域計測手段が、前記第1、第2、及び第3抽出手段とからなる解析手段と、前記第1解析手段と、前記第2解析手段とによるそれぞれの解析結果内で、抽出された部分領域間の配置関係を計測し、
    前記領域抽出手段が、前記第1、第2、及び第3抽出手段と、第1解析手段と、第2解析手段とによって抽出された各部分領域におけるすべての文字を外接する矩形で囲まれる閉領域を、それぞれ第1部分領域と、第2部分領域と、第3部分領域として抽出し、
    前記同一部分領域抽出手段が、前記各部分領域において、第1部分領域と、第2及び第3のいずれかの部分領域とが同一の文字配列方向、かつ同一の位置、かつ同一面積である場合に、この第1部分領域と、この第2又は第3部分領域とを同一部分領域として抽出し、
    前記安定部分領域抽出手段が、前記各部分領域において、第2及び第3のいずれかの部分領域を含む第1部分領域がある場合に、この第1部分領域と、この第2又は第3部分領域とを安定部分領域として抽出し、
    前記不安定部分領域抽出手段が、前記各部分領域において、第1部分領域を含む第2及び第3のいずれかの部分領域がある場合に、この第1部分領域と、この第2又は第3部分領域とを不安定部分領域として抽出し、
    前記未対応部分領域抽出手段が、前記各部分領域において、第1部分領域のうち、前記同一部分領域、前記安定部分領域、及び前記不安定部分領域として抽出されない部分領域を未対応部分領域として抽出し、
    前記第1確定手段が、第1部分領域において抽出された同一部分領域、安定部分領域、及び未対応部分領域を確定部分領域として確定し、
    前記第2確定手段が、第2又は第3部分領域において抽出された不安定部分領域を、それに対応する第1部分領域において抽出された不安定部分領域に置き換えて、該不安定部分領域を確定部分領域として確定し、
    前記生成手段が、前記確定部分領域以外の部分領域を棄却し、確定部分領域で形成される解析結果を生成する、
    ことを特徴とする文書認識方法。
JP2000296832A 2000-09-28 2000-09-28 文書認識装置及び文書認識方法 Expired - Lifetime JP4031189B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000296832A JP4031189B2 (ja) 2000-09-28 2000-09-28 文書認識装置及び文書認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000296832A JP4031189B2 (ja) 2000-09-28 2000-09-28 文書認識装置及び文書認識方法

Publications (2)

Publication Number Publication Date
JP2002108847A JP2002108847A (ja) 2002-04-12
JP4031189B2 true JP4031189B2 (ja) 2008-01-09

Family

ID=18779041

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000296832A Expired - Lifetime JP4031189B2 (ja) 2000-09-28 2000-09-28 文書認識装置及び文書認識方法

Country Status (1)

Country Link
JP (1) JP4031189B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006092091A (ja) * 2004-09-22 2006-04-06 Nec Corp 文書構造化装置および文書構造化方法
US7756871B2 (en) * 2004-10-13 2010-07-13 Hewlett-Packard Development Company, L.P. Article extraction
JP4443443B2 (ja) 2005-03-04 2010-03-31 富士通株式会社 文書画像レイアウト解析プログラム、文書画像レイアウト解析装置、および文書画像レイアウト解析方法
JP4771804B2 (ja) * 2005-12-20 2011-09-14 富士通株式会社 レイアウト解析プログラム、レイアウト解析装置、レイアウト解析方法
JP2014149563A (ja) * 2013-01-31 2014-08-21 Akita Univ コマ分割装置及びコマ分割プログラム
JP7187377B2 (ja) * 2019-04-23 2022-12-12 株式会社日立製作所 物体情報登録装置及び物体情報登録方法

Also Published As

Publication number Publication date
JP2002108847A (ja) 2002-04-12

Similar Documents

Publication Publication Date Title
US10846553B2 (en) Recognizing typewritten and handwritten characters using end-to-end deep learning
US8442319B2 (en) System and method for classifying connected groups of foreground pixels in scanned document images according to the type of marking
CN111507251B (zh) 试题图像中作答区域的定位方法、装置、电子设备及计算机存储介质
US5664027A (en) Methods and apparatus for inferring orientation of lines of text
WO2007022460A2 (en) Post-ocr image segmentation into spatially separated text zones
CN111461122B (zh) 一种证件信息检测与提取方法
JPH11238098A (ja) 文字列抽出装置及びパターン抽出装置
CN112464781A (zh) 基于图神经网络的文档图像关键信息提取及匹配方法
TW200540728A (en) Text region recognition method, storage medium and system
CN112541922A (zh) 基于数字图像的试卷布局分割方法、电子设备及存储介质
US7929772B2 (en) Method for generating typographical line
CN111460782A (zh) 一种信息处理方法、装置及设备
CN112801084A (zh) 图像处理方法及装置、电子设备和存储介质
CN111192346B (zh) 电子菜单生成方法、装置和设备
CN109685061A (zh) 适用于结构化的数学公式的识别方法
JP4031189B2 (ja) 文書認識装置及び文書認識方法
JP2008108114A (ja) 文書処理装置および文書処理方法
Park et al. A method for automatically translating print books into electronic Braille books
JP7384603B2 (ja) 文書フォームの識別
JP2007241355A (ja) 画像処理装置及び画像処理プログラム
JP3898645B2 (ja) 帳票書式編集装置および帳票書式編集プログラム
JP7365835B2 (ja) 構造認識システム、構造認識装置、構造認識方法、及びプログラム
CN111241955B (zh) 一种票据信息提取方法及系统
Gupta et al. Table detection and metadata extraction in document images
JP3091278B2 (ja) 文書認識方式

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040915

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20061002

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061017

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061218

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070320

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070521

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070904

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070919

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20071016

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20071018

R151 Written notification of patent or utility model registration

Ref document number: 4031189

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101026

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111026

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111026

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121026

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121026

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131026

Year of fee payment: 6