JP3546553B2

JP3546553B2 - 文書画像解析装置

Info

Publication number: JP3546553B2
Application number: JP21280695A
Authority: JP
Inventors: 潔田代
Original assignee: Fuji Xerox Co Ltd; Fujifilm Business Innovation Corp
Current assignee: Fujifilm Business Innovation Corp
Priority date: 1995-07-28
Filing date: 1995-07-28
Publication date: 2004-07-28
Anticipated expiration: 2015-07-28
Also published as: JPH0944605A

Description

【０００１】
【産業上の利用分野】
本発明は、様々なレイアウトをもつ文書画像を対象とする、文書画像解析装置に関するものである。
【０００２】
【従来の技術】
従来文書画像のレイアウトを解析する方法としては、例えば、画像電子学会誌Ｖｏｌ．１７Ｎｏ．５ｐｐ２５８〜２６６「文書画像処理技術の動向」に示されるように、様々な画像的特徴を利用して文字行や文字ブロックを抽出する方法が考案されている。また、同書籍、ｐｐ２６７〜２７７「書式定義言語を用いた文書画像の理解」に示されるように、予め対象とする特定の文書のレイアウトに関する知識を記憶しておき、入力画像にそれを適用していく方法も考案されている。
【０００３】
前者の方法は幅広い種類の文書に対応できる半面、文字行間や段組の間隔が狭い場合などに、文字行や文字ブロックの推定を誤り、その後に実行される文字認識処理において文字が正しい順序で認識できない等の欠点がある。また、図の中に存在する文字などに関しては文字認識処理の対象にできないか、あるいは文字図形分離処理等の処理を更に実行する必要がある。
【０００４】
後者の方法は、文字行や文字ブロックの抽出精度は向上し、また題名部分等の論理的な構造も抽出できるが、対象とする文書の種類が予め記憶されている知識の範囲内に限定されてしまう。
【０００５】
図２１に、これらの従来の文書画像解析装置の動作を表すフローチャートを示す。
（Ｓ２１０）画像中のすべての連続黒画素塊に対してその外接矩形を求める。
（Ｓ２１１）１つ以上の外接矩形の集合として文字列を推定する。
（Ｓ２１２）１つ以上の文字列の集合として文字ブロックを推定する。
（Ｓ２１３）各文字のコード情報が必要な場合には、文字列または文字ブロック内を対象に文字認識を行なう。
（Ｓ２１４）文書構造の推定結果を出力して処理を終了する。
【０００６】
このように、両者の方法あるいは従来の他の文書画像解析の方法は何れも、文字ブロックなどの構造の抽出が終了してから文字認識処理が行なわれるので、構造の抽出には画像から得られる情報しか用いることができず、個々の部分的な画像が文字画像として適切であるかという情報や、文章の意味のつながり等の文字の内容から得られる情報は用いることができない。
【０００７】
また、文字認識装置の前処理としても、例えばオペレータが文字ブロックの範囲を指定したり、文字ブロック間の順序を指定する必要があったり、または、上記の技術を用いて認識対象とする文字ブロックを自動的に抽出する試みがなされているが、精度の問題などから実用には至っていない。
【０００８】
【発明が解決しようとする課題】
本発明は様々なレイアウトをもつ文書画像から、文字部分とその他の部分を精度良く分離し、また、文字行、文字ブロックなどの構造を精度良く抽出し、更に、文字ブロック間の順序を精度良く推定することができる文書画像解析装置を提供することを目的とする。
【０００９】
また、オペレータの指示なしに文書画像中の文字を認識し、正しい順序で文字コードを出力する文字認識機能を提供することを目的とする。
【００１０】
【課題を解決するための手段】
本発明の文書画像解析装置は、以下の手段からなる。
（１）画像中の連結黒画素塊を取り出す画素塊抽出手段
（２）前記画素塊抽出手段により取り出された連結黒画素塊に対して文字認識処理を行い、少なくとも１つの文字コードを出力する第１の文字認識手段
（３）単語間の接続情報を保持する文法辞書
（４）前記文字認識手段の決定した文字コード、前記文法辞書の保持する単語間の接続情報に基づいて文字コードの並びの中の文節として成り立つ並びを検出して、該並びの長さに関する情報を少なくとも用いて文字列の方向を推定する文字列推定手段。
【００１１】
また、
（５）分離文字候補を抽出する分離文字候補抽出手段
（２’）分離文字候補に対して文字認識処理を行い、少なくとも１つの文字コードを決定する第２の文字認識手段
（６）分離文字候補から分離文字を決定する分離文字統合手段
とを更に有する構成とすることもできる。
【００１２】
更に、
（７）接触文字候補を抽出する接触文字候補抽出手段
（８）接触文字候補から接触文字を決定し、該接触文字を分割して複数の画像に分割する接触文字分割手段
（２’’）前記接触文字分割手段により得られる画像に対して文字認識処理を行い、少なくとも１つ以上の文字コードを出力する第３の文字認識手段
とを更に有する構成とすることもできる。
【００１３】
また、本発明の文書画像解析装置は、前記構成に加えて、
（９）前記文字列推定手段の推定した文字列、前記文字認識手段の出力した文字コード、及び前記文法辞書の保持する単語間の接続情報に基づいて、文字ブロックを推定する文字ブロック推定手段
を更に有する。
【００１４】
また、本発明の文書画像解析装置は、前記構成に加えて、
（１０）前記連結黒画素塊の位置及び形状、前記文字認識手段の出力する少なくとも確信度に基づいて文字ではない非文字矩形を推定する非文字推定手段を更に有する。
【００１５】
更に、本発明の文書画像解析装置は、前記（１０）を含む構成に加えて、
（１１）前記文字ブロック推定手段の推定した文字ブロック、該文字ブロックに含まれる前記文字列、前記文字認識手段の出力した文字コード、及び前記文法辞書の保持する単語間の接続情報に基づいて、文字ブロックの順序を推定する文字ブロック連続性推定手段
（１２）前記文字ブロック推定手段の推定した文字ブロック、該文字ブロックに含まれる前記文字列、前記文字認識手段の出力した文字コード、及び前記文字ブロック連続性推定手段の推定した文字ブロックの順序から、前記文字ブロックに含まれる文字コードを前記順序で出力する文字コード出力手段を備える。
【００１６】
また、本発明の文書画像解析装置は、前記（１０）を含む構成に加えて、
（１３）前記文字ブロック推定手段の推定した文字ブロック、該文字ブロックに含まれる各文字列、及び該文字列に含まれて前記文字認識手段の出力した文字コードと、文法辞書内の情報を用いて、前記各ブロックに論理的な構造を付与して出力する第１の論理構造解析手段
を備えることができる。
【００１７】
また、本発明の文書画像解析装置は、前記（１０）を含む構成に加えて、
（１３’）前記非文字矩形に関して、その近傍に存在する前記文字ブロック推定手段の推定した文字ブロック、該文字ブロックに含まれる各文字列、及び該文字列に含まれて前記文字認識手段の出力した文字コードと、文法辞書内の情報を用いて、前記非文字矩形に論理的な構造を付与して出力する第２の論理構造解析手段を備えることができる。
【００１８】
【作用】
入力された文書画像に対して、連結黒画素塊が抽出される。続いて、各々の黒画素塊が認識され、その認識候補として少なくとも１つの文字コードが得られる。次に、既に文字認識を行った黒画素塊の形状及び位置、黒画素塊に対する文字コード、文法辞書の保持する単語間の接続情報等を用いて、文字列を推定する。
【００１９】
また、推定された文字列、文字コード、及び前記文法辞書の保持する単語間の接続情報に基づいて、文字ブロックを推定する。
【００２０】
また、推定された少なくとも確信度に基づいて、非文字矩形の推定も精度よく行える。
【００２１】
更に、文字認識の結果を利用して、文字ブロックの順序を決定したり、文書画像の論理構造解析を行うことができる。
【００２２】
このように、文字列、文字ブロック、文字ブロックの順序、論理構造の推定に先だって文字認識を行うことにより、文字列、文字ブロック、文字ブロックの順序、論理構造の推定時にはその情報を用いることができる。
【００２３】
また、分離文字や接触文字に対する認識も行って、より正確な文字認識を得ることにより、非文字矩形、文字列、文字ブロック、文字ブロックの順序、論理構造の推定はより正確なものとなる。
【００２４】
【実施例】
図１は、本発明の一実施例である文書画像解析装置の構成を示す図である。入力された画像中の連結黒画素塊の外接矩形を求める外接矩形生成手段１０１、外接矩形生成手段１０１で求められた外接矩形に対して文字認識を行う第１の文字認識手段１０２−１、後述の分離文字候補抽出手段により得られる分離文字候補画像に対して文字認識を行う第２の文字認識手段１０２−２、後述の接触文字分割手段により得られる画像に対して文字認識を行う第３の文字認識手段１０２−３、単語及び単語間の接続情報を保持する文法辞書１０３、分離文字候補抽出手段１０４、分離文字統合手段１０５、非文字矩形指定手段１０６、文字列指定手段１０７、文字ブロック推定手段１０８、接触文字候補抽出手段１０９、接触文字分割手段１１０、文字ブロック順序推定手段１１１、文字コード出力手段１１２、論理構造解析手段１１３からなる。１０４から１１３までの手段はアプリケーションの要求により、適宜組み合せて接続、削除が可能である。また、ここでは文字認識手段を３つの部分に分離して記載しているが、これらは、入力が異なるのみで同じ処理を行うものと考えられる。従って、これらを１つの手段、１つのソフトウェア・モジュールとして構成してももちろん良い。以下では１０２−１、１０２−２、１０２−３を「第１の」、「第２の」、「第３の」を省略して、いずれも文字認識手段と呼ぶことにする。
【００２５】
まず、文法辞書１０３の構成の一例を図２に示す。２０１は自立語をその品詞とともに記憶する自立語表である。２０２は付属語をその前接続、後接続とともに記憶する付属語表である。２０３は各活用種類についてその活用語尾を後接続とともに記憶する活用表である。２０４は後接続と前接続間の接続スコアを記憶する接続表である。表中の０−、１−等は前接続、−０、−１等は後接続となる見出し語の番号を表しており、例えば０−１の接続スコアは１００になっている。高い接続スコアは両見出し語が接続可能性が高いことを示している。以下の説明においては、このような表を用いることにより、文字コードの並びから自立語表を参照して単語を検出したり、形態素解析を行ない文節などを検出するものとする。形態素解析の技術については、例えば産業図書株式会社『自然言語解析の基礎』の１４０ページから１４２ページに示されているような、従来の技術を用いることができる。例えば文節を検出する場合には、隣接した２つの見出し語のうち、前側の語の後接続、後側の語の前接続を自立語表、付属語表、活用表から得る。得られた後接続及び前接続を接続スコアを参照して検査して２つの見出し語が接続可能かどうかを調べる。接続スコアが０以外であればその２つの見出し語は１文節に含まれるものとみなす。
【００２６】
図３は本発明による文書画像解析装置の一実施例の動作を示すフローチャートである。
【００２７】
（Ｓ３０）外接矩形生成手段１０１により、画像中のすべての連続黒画素塊に対してその外接矩形を求める。
【００２８】
（Ｓ３１）生成された外接矩形に対して文字認識手段１０２−１により文字コードと、認識された画像が標準パターンとどの程度近く認識されたかを示す確信度を得る。確信度を用いて認識された画像が文字画像であるか否かが推定できる。その結果、リジェクトされなかった矩形，または確信度が所定値より大きい矩形を文字矩形として確定する。得られた文字コードと確信度は各矩形と対応して記憶される。処理内容の具体例を図４、図５、図６を用いて後述する。
【００２９】
（Ｓ３２）分離文字候補抽出手段１０４と分離文字統合手段１０５とにより分離文字の推定、統合を行ない、分離文字として統合された矩形を文字矩形として確定する。本ステップについての処理内容の詳細は図７を用いて後述する。
【００３０】
（Ｓ３３）接触文字候補抽出手段１０９と接触文字分割手段１１０とにより接触文字の推定、分割を行ない、接触文字として分割された矩形を文字矩形として確定する。本ステップについての処理内容の詳細は図９、図１０を用いて後述する。
【００３１】
（Ｓ３４）文字列推定手段１０７により１つ以上の文字矩形の集合として文字列を推定する。詳細なフローチャートの一例を図１２に示し、具体的な処理の説明は、図１１、図１３を用いて後述する。
【００３２】
（Ｓ３５）文字ブロック推定手段１０８により１つ以上の文字列の集合として文字ブロックを推定する。詳細なフローチャートの一例を図１５に示すとともに、詳細な説明は図１５を用いて後述する。
【００３３】
（Ｓ３６）非文字矩形推定手段１０６により、１つ以上の文字矩形でない矩形の集合として非文字矩形を推定する。
【００３４】
（Ｓ３７）文字矩形、非文字矩形のどちらにも確定していない矩形があるか否かを調べる。
【００３５】
（Ｓ３８）確定していない矩形がある場合には、確定していない矩形を対象に、分離文字候補抽出手段１０４と分離文字統合手段１０５、または接触文字候補抽出手段１０９と接触文字分割手段１１０により再推定する。この際、既に推定されている文字列、文字ブロック、非文字矩形との位置関係などを推定に用い、また文字矩形として確定する条件を変更するので、前回の推定で文字矩形として確定しなかった矩形の一部も文字矩形として確定される場合がある。この再推定の詳細な例は図１９を用いて後述する。新たに文字矩形として確定した矩形も含めて、再び（Ｓ３４）の文字列の推定から処理を繰り返す。
【００３６】
（Ｓ３９）確定していない矩形が無い場合には、文字ブロック順序推定手段１１１、文字コード出力手段１１２、論理構造解析手段１１３などにより、必要な文字コードや文書構造の推定結果を出力して処理を終わる。
【００３７】
図４は、図３の（Ｓ３０）で外接矩形生成手段１０１により得られる外接矩形の例を示す図である。４０１は文書画像の一部分であり、４１１〜４２０が生成された外接矩形を示す。画像中の連結黒画素塊を検出してその外接矩形を得る方法は、既に様々な方法が提案されており、それらの何れを用いても構わない。例えばコロナ社『画像工学』（１９８９年８月２５日初版第１冊発行）１１５ページから１１６ページに連結黒画素塊を検出する技術が示されている。
【００３８】
図５は、文字認識手段１０２−１、１０２−２、及び１０２−３の構成の一例である。これらの文字認識手段に入力された画像は、まず画像正規化部５０１により大きさが正規化され、特徴抽出部４０２により特徴が抽出され、距離計算部５０３により各文字に対応する標準特徴との距離が計算され、結果出力部５０４により距離が小さい順にソートされた少なくとも１つの文字に対応する文字コードと確信度が出力される。例えば確信度として、最も小さい距離の逆数を用いることができる。
【００３９】
外接矩形生成手段１０１により得られた外接矩形の各々に対して文字認識手段１０２−１により得られる文字コードと確信度の例を図６に示す。得られた確信度があらかじめ定められた値より小さい場合は、矩形内の画像がどの文字とも似ていないことを示すので、分離文字の一部であるか、図形など文字ではない画像であると推測することができる。従って、そのような矩形はリジェクトされる。それ以外の矩形、すなわち、あらかじめ定められた値より大きい値の確信度を持つ矩形は、得られた文字コードを持つ文字矩形であるとして確定される。
【００４０】
図７は、（Ｓ３２）において分離文字候補抽出手段１０４が、隣接する複数の外接矩形を統合することにより一文字に相当する画像になる可能性がある候補を抽出する例を示す図である。この例では、確信度が１００未満である２つ以上の矩形を統合して得られる矩形が、近傍の矩形の幅・高さのそれぞれ３倍以内であり、かつ他の外接矩形に重ならないかまたは完全に包含されるという条件で分離文字候補が抽出されるものとする。図６の例では、外接矩形４１３と４１４を統合して得られる矩形は、近傍の矩形の幅・高さのそれぞれ３倍以内という条件は満たしているが、矩形４１２と重なっているため分離文字候補とはならない。この条件は、文字矩形は他の文字矩形または非文字矩形とは重ならないという仮定を用いて、不要な分離文字候補の生成を避けるための条件である。ただし、表の中の文字のように、他の非文字矩形に完全に包含される場合はあるので、他の外接矩形に完全に包含されるものは分離文字候補として抽出する。また、英文のイタリック体の文字のように文字矩形どうしが重なる場合のある文書画像を対象とするときには、他の外接矩形に重ならないという条件は用いなくても良い。図７に示すように、図６中の外接矩形４１２、４１３、４１４から分離文字候補７１１が得られる。同様に４１７、４１８から７１２が、４１８、４１９から７１３が、４１９、４２０から７１４が分離文字候補として得られる。
【００４１】
７０１は、本実施例において、分離文字候補抽出手段１０４により得られた分離文字候補の各々に対して、文字認識手段１０２−２により得られる文字コードと確信度の例を示す図である。
【００４２】
図８は、分離文字統合手段１０５が、分離文字候補の中から実際に分離文字であるものを推定し、複数の外接矩形を統合する例を示す図である。
【００４３】
統合の例として、矩形の幅・高さの一様性、矩形間の距離の一様性、矩形に対応する確信度の大小、また文法辞書を用いることにより、各矩形に対応する文字コード間の単語内・単語間の接続性等を基に最も適切な分離文字の組み合わせが決定される。
【００４４】
この例では、図４の矩形４１２、図７の７１１、７１２、７１４の幅がほぼ等しく、図４の矩形４１５、４１６、４１９、４２０、図７の７１４の高さがほぼ等しい。また、矩形４１２または７１１、４１５、４１６、７１２、７１４の中心間の距離がほぼ等しい。更に、矩形４１２または７１１、４１５、４１６、７１２に対応する文字コードは、文法辞書内に記憶されている名詞“ベクトル”の単語内の順序に一致し、名詞と接尾語“化”が接続することから、矩形７１４に対応する文字コードも矩形４１２または７１１、４１５、４１６、７１２に対応する文字コードとの接続性を満たす。
【００４５】
また、例えば矩形４１２と４１３と４１４、矩形７１２と７１３、矩形７１３と７１４は互いに重なっており、文字として同時に成り立つ可能性は低い。これらの情報から、分離文字統合手段１０５は、分離文字候補７１１、７１２、７１４が分離文字であると推定して統合し、結果として、図８に示すような分離文字統合後の矩形８１１〜８１６が得られる。
【００４６】
複数の分離文字候補から適切な分離文字の組み合わせを決定するのに十分な情報が得られない部分がある場合には、その部分に関して分離文字統合手段１０５による処理を保留して分離文字候補を記憶しておき、例えば文字列推定手段１０７による処理を行なった後で文字列内の文字の大きさや文字列の方向を用いて、分離文字統合手段１０５による処理を再度行なうことにより、分離文字を統合する精度を更に向上できる。
【００４７】
次に、図３の（Ｓ３３）の処理、すなわち、図１の接触文字候補抽出手段１０９及び接触文字分割手段１１０の動作について説明する。接触文字候補抽出手段１０９により、各外接矩形の位置および形状、対応する文字コード、確信度、文法辞書内の情報から、外接矩形を分割して得られる複数の矩形のそれぞれが一文字に相当する画像または分離文字候補になる可能性がある接触文字候補が抽出される。
【００４８】
図９は、接触文字候補抽出手段１０９が、接触文字候補を抽出する例を示す図である。９０１は文書画像の一部、９１１〜９１７は外接矩形生成手段により得られる外接矩形、９０２は外接矩形の各々に対して文字認識手段１０２−１により得られる文字コードと確信度である。例として、接触文字候補は、対応する確信度が１００未満である矩形を分割して得られる矩形が、近傍の矩形の幅・高さのいずれかが１．５倍以上であるという条件で抽出される。この例では、外接矩形９１７が接触文字候補として得られる。
【００４９】
図１０は、接触文字分割手段１１０が、接触文字候補の中から実際に接触文字であるものを推定し、複数の矩形に分割し、分割して得られる矩形の各々に対して、文字認識手段１０２−３により認識を行なう例を示す図である。接触文字において分割すべき位置を推定し分割する技術は、例えば、特許出願公開「特開平５−１２８３０８」に示されているように、様々なものが公知になっており、それらを用いることができる。１０１１および１０１２は、接触文字候補抽出手段１０９により接触文字候補として得られた９１７を分割して得られる矩形である。分割して得られた矩形の各々に対して、文字認識手段により得られる文字コードと確信度を１００１に示す。接触文字分割手段１１０は、矩形１０１１と１０１２の幅が近傍の矩形とほぼ等しいこと、矩形１０１１および１０１２に対応する確信度が大きいこと、矩形１０１１および１０１２に対応する文字コードの並びが文法辞書内にある名詞“年代”の並びと一致することから、接触文字候補９１７は実際に接触文字であると推測し、矩形１０１１および１０１２を文字矩形として登録する。
【００５０】
また、実施例では（Ｓ３６）において、矩形４１１は対応する確信度が小さいこと、接触文字候補を構成しないこと、矩形の幅が近傍の矩形の平均に比べて大きいことから、非文字矩形推定手段１０６により非文字矩形であると推定される。これらの条件は、（Ｓ３６）の処理が繰り返される毎に、初めは厳しい条件にしておき、徐々に緩くしていくことにより、推定の精度を高くすることができる。例えば確信度が小さいという条件では、１度目の推定では閾値を１０とし、その後の推定で閾値を１０ずつ増加させる。推定の精度が高くなる理由は、図１９を用いて後述するように、文字矩形にも非文字矩形にも確定されていない矩形に対して文字矩形の再推定が行なわれ、例えば１度目の推定で確信度が低くて文字矩形として確定されなかった矩形が、文字矩形として確定される場合があるためである。初期の条件を厳しくすることにより、本来文字である矩形を誤って非文字矩形として確定してしまう誤りを減らすことができる。
【００５１】
次に、文字列推定手段１０７の処理について説明する。図１１は、文字列推定手段１０７が文字列を推定する過程の一例を示す図である。１１０１は文書画像の一部分である。１１０２は分離文字統合後の矩形を示す。この例では、矩形の形状や位置のみの情報を用いると縦方向にも横方向にも統合が可能であるが、文字列推定手段１０７は、各矩形に対応する文字コードを用い、文法辞書を参照して文字行の方向を推定する。即ち、禁則ルール、“、”や“。”の文字コードが対応する矩形の文字列中の位置、文字コードの並びに現れる文節数などにより、縦書きの文字列であることが推定できる。この推定の過程の詳細は、図１２、図１３を用いて後述する。結果として１１０３に示すような文字列が得られる。
【００５２】
図１２は、本発明の文字列推定手段１０７の一実施例の動作を示すフローチャートであって、図３の（Ｓ３４）を詳細化したものである。フローチャートの概要を次に示し、各ステップの詳細については後述する。
【００５３】
（Ｓ１２０）文書画像中の文字矩形として確定している各矩形を対象に、縦横それぞれの方向の文字列候補を生成する。
【００５４】
（Ｓ１２１）各文字列候補に対してスコアを計算する。
【００５５】
（Ｓ１２２）互いに矛盾する文字列候補の組があるか否かを調べる。ここで、互いに矛盾する文字列候補の組とは、同一の文字矩形を含む複数の文字列候補、互いに交差する文字列候補などである。
【００５６】
（Ｓ１２３）互いに矛盾する文字列候補の組がある場合には、それらの文字列候補の中から、スコアの低い候補を削除する。その後、矛盾する文字列候補の検査へ戻り、互いに矛盾する文字列候補の組が無くなるまで繰り返す。
【００５７】
（Ｓ１２４）互いに矛盾する文字列候補の組が無い場合は、文字列候補を文字列推定結果として出力して処理を終わる。
【００５８】
（Ｓ１２０）の文字列候補の生成には、従来の技術を用いることができる。例えば、各矩形の大きさや形状の類似性や、矩形間の距離や位置関係が予め定められた条件を満たすものを文字列候補として抽出する。この処理においては従来技術を用いるものの、本発明の一実施例である文書画像解析装置においては、文字認識手段等の結果を利用することにより、より高精度、高効率に文字列候補を生成できる。
【００５９】
従来の文書画像解析装置においては、単なる連結黒画像塊の外接矩形を対象に文字列候補の生成を行なっている。従って、例えば、「川」のような分離文字や、複数の文字が接触している文字に関しては、複数の矩形が１文字に対応したり、１つの矩形が複数の文字に対応することがある。このため、大きさや形状が類似している矩形の並びを文字列候補として生成しようとしても、１文字に対応する大きさや形状が正確には分からないという問題がある。従って、生成条件を厳しくすれば、本来の文字列が文字列候補として抽出できず、また生成条件を緩やかにすれば、余分な文字列候補を多数生成することになり、精度や効率が悪くなる。
【００６０】
一方、本発明の一実施例である文書画像解析装置では、図３に示すように、（Ｓ３１）の文字認識手段１０２−１、（Ｓ３２）の分離文字統合手段１０５、（Ｓ３３）の接触文字分割手段１１０等により、（Ｓ３４）の文字列候補の生成に先だって文字矩形を確定する。そして、文字列推定手段１０７は文字矩形として確定した矩形を対象に文字列候補の生成を行なう。各矩形が１文字に対応しているため、大きさや形状が類似している文字の並びを正確に検出することができる。従って、文字列候補の生成条件の設定も容易になり、余分な文字列候補の生成を減少でき、かつ本来の文字列を確実に候補の中に含めることができる。
【００６１】
図１３は図１２の（Ｓ１２１）における、文字列候補に対するスコア計算の一例を示す図である。図１１の１１０２に示された文字矩形に対して、縦横それぞれの方向の文字列候補を生成したものが、図１３中の（１）から（２２）である。（１）から（１２）が横方向の文字列候補、（１３）から（２２）が縦方向の文字列候補である。各々の文字列候補に含まれる文字矩形に対応した文字コードで文字列候補を示している。
【００６２】
表中の列Ｓ１は、各文字列候補の文字数に対応したスコアである。文字数が多いほど大きなスコアを与える。
【００６３】
Ｓ２は、禁則文字に係わるスコアである。“。”や“」”などの文字が文字列の先頭にある場合や、“「”などの文字が文字列の最後尾にある場合は、文字列として不自然であるので、マイナスのスコアを与える。この例の場合、文字列候補（８）と（１１）がこれに該当し、スコア−１０が与えられている。禁則文字および禁則ルールは、文字列推定手段中に記憶しておいても良いし、または文法辞書中に記憶しておいても良い。
【００６４】
Ｓ３は、文字列の縦横によって、向きや位置の異なる文字に係わるスコアである。例えば、句点を示す文字“。”は文字列の縦横によって文字列中に配置される位置が異なる。また鍵括弧を示す文字“」”は文字列の縦横によって、向きが異なる。図１３の例の場合、横の文字列候補（３）、（８）、（９）、（１１）にはそれぞれ“。”または“、”が含まれているが、対応するそれぞれの文字矩形は、横の文字列候補中の上部に位置しており、横書き中の位置としては不自然であるため、（３）、（８）、（９）、（１１）にはそれぞれスコア−５が与えられる。
【００６５】
Ｓ４は文法的な検定に係わるスコアである。各文字列候補に含まれる文字矩形に対応する文字コードの並びに対して、検出された単語数などに応じて文章として自然であるほど高いスコアを与える。文章として自然であることの基準の例として、文字コードの並びの中に文節として成り立つ２文字以上の並びがあれば、スコア５を与える。図１３の例では（３）の“もし”、（１４）の“込んだ”などがこれに相当する。更に、上記文節の中で、文節の長さが５文字以上であるか、漢字が３文字以上含まれる場合にはスコア５を加える。図１３の例では（１３）の“戦闘機に”、（１７）の“パイロットの”などがこれに相当する。また、文字コードの並びの先頭に、文節の前部が欠けたものと見なせる２文字以上の並びがあれば、スコア５を与える。同様に、文字コードの並びの後尾に、文節の後部が欠けたものと見なせる２文字以上の並びがあれば、スコア５を与える。図１３の例では（１３）の“地で”、（１６）の“ンディなど”などがこれに相当する。
【００６６】
Ｔ１は、Ｓ１からＳ４までのスコアの第１の合計値である。
【００６７】
Ｓ５は、各文字列候補において、その候補と矛盾する他の文字列候補に係わるスコアである。例えば、文字列候補（１）は、文字列候補（１３）、（１４）、（１６）から（２２）のそれぞれに対して、互いに同一の文字矩形を含んでおり、矛盾している。文字列候補（１３）、（１４）、（１６）から（２２）までの第１の合計値Ｔ１の総和に重み−０．１を乗じて、文字列候補（１）に対するスコアＳ５として与える。
【００６８】
Ｔ２は、第１の合計値Ｔ１とスコアＳ５を足した第２の合計値である。このＴ２を各文字列候補の最終的なスコアとして、文字列候補の削除に用いる。
【００６９】
図１１および図１３を用いて説明した例では、矛盾する文字列候補の組のうち、スコアの小さい文字列候補を順次削除していく処理を繰り返す結果、文字列候補（１３）から（２２）が残り、これらが文字列推定結果として出力される。以上に述べたスコアの重みの配分や閾値の値は、対象として想定する文書画像に対して適切な推定ができるように実験的に求めればよく、本実施例に述べた数値と異なるものを用いてもよい。
【００７０】
図１４は、文字ブロック推定手段１０８が文字ブロックを推定する一例を示す図である。この例では、文字列推定手段１０７の結果得られた文字列の並び１１０３に対して、１０行すべてについて文字行の幅および上辺の高さ、横に隣接する文字行間の距離がほぼ一定であること、文字行中に含まれる矩形の形状・大きさと縦に隣接する矩形間の距離が各行に共通してほぼ一定であること、さらに“ハンディなど”“ロシアの”“舞い上がり”“見事な”など各行にまたがって日本語の文節として成り立つ文字コードの並びがあることなどから、１０行は１つの文字ブロックに統合できることが推定できる。結果として１４０１に示すような文字ブロックが得られる。
【００７１】
図１５は、本発明における文字ブロック推定手段の一実施例の動作を示すフローチャートである。
【００７２】
（Ｓ１５０）まず、文書画像中の文字列を対象に、接続する可能性のある２つの文字列の組である文字列間接続候補を生成する。
【００７３】
（Ｓ１５１）各接続候補についてスコアを計算する。
【００７４】
（Ｓ１５２）予め定められた閾値と各接続候補のスコアを比較し、スコアが閾値未満である接続候補を削除する。
【００７５】
（Ｓ１５３）残っている接続候補に従って、文字列どうしを統合して文字ブロックを生成する。
【００７６】
（Ｓ１５４）最後に、生成された文字ブロックを推定結果として出力して処理を終わる。
【００７７】
この動作フローは、従来の技術でも用いられることがある。本発明の一実施例における文字ブロック推定手段１０８の主な特徴は各候補のスコアの計算方法にある。次にこのスコアの計算方法を中心に、従来手法と比較しながら、各ステップの詳細を説明する。
【００７８】
文字列間接続候補の生成には、従来の技術を用いることができる。例えば、２つの文字列の組の間に接続候補を生成する条件として、以下の条件を用いる。
【００７９】
（ａ）２つの文字列の縦または横の方向が同一である。
（ｂ１）横方向の文字列の場合、２つの文字列のそれぞれの縦方向の斜影の共通部分が存在する。
（ｂ２）縦方向の文字列の場合、２つの文字列のそれぞれの横方向の斜影の共通部分が存在する。
（ｃ１）横方向の文字列の場合、以下の条件をすべて満たす他の文字列が存在しない。
（ｃ１−１）一方の文字列より上に位置し、もう一方の文字列より下に位置する。
（ｃ１−２）縦方向の斜影が、２つの文字列のそれぞれの縦方向の斜影の共通部分と共通部分を持つ。
（ｃ２）縦方向の文字列の場合、以下の条件をすべて満たす他の文字列が存在しない。
（ｃ２−１）一方の文字列より右に位置し、もう一方の文字列より左に位置する。
（ｃ２−２）横方向の斜影が、２つの文字列のそれぞれの横方向の斜影の共通部分と共通部分を持つ。
【００８０】
図１６に文字列間接続候補の例と、その文字列間接続候補に対し、従来技術と本発明の実施例の接続候補のスコアの例、そして本発明の実施例による文字ブロック推定結果の例を示す。図中、１６０１は文書画像の一部分、１６０２は非文字矩形、１６０３、１６０４、１６０５、１６０６、１６０７はそれぞれ文字列（１）、（２）、（３）、（４）、（５）である。この例では、文字列（１）は非文字矩形のキャプション、文字列（２）から（５）は本文であり、これらは別の文字ブロックとするのが望ましい。
【００８１】
文字列間接続候補として、前記の条件を用いて、文字列（１）と文字列（２）の間の接続（以下（１）−（２）のように略記する）、（２）−（３）、（３）−（４）、（４）−（５）が得られる。
【００８２】
１６０８は、従来技術による接続候補のスコアの例である。
【００８３】
表中の列Ｓ１は、２つの文字列にそれぞれ含まれる文字の大きさの類似性に関するスコアである。２つの文字列に含まれる文字の大きさが近いほど、その接続候補に大きなスコアが与えられる。この例の場合、文字列（１）から（５）に含まれる文字の大きさは全てほぼ等しいので、各接続候補には等しくスコア１０が与えられる。
【００８４】
Ｓ２は、文字列の間隔に関するスコアである。横方向の文字列の場合、文字列間の縦方向の間隔が小さいほど大きなスコアが与えられる。この例の場合、各文字列は当間隔に並んでおり、各接続候補には等しくスコア６が与えられる。
【００８５】
Ｓ３は、文字列の両端の位置に関するスコアである。横方向の文字列の場合、２つの文字列の両端の横方向の位置が、それぞれ近いほど大きなスコアが与えられる。この例の場合、接続候補（１）−（２）と接続候補（３）−（４）では、文字列の先頭、後尾の位置が離れており、スコア−１０が与えられる。接続候補（２）−（３）では、先頭の位置はほぼ等しく、後尾の位置が離れており、スコア−５が与えられる。接続候補（４）−（５）では、後尾の位置はほぼ等しく、先頭の位置が離れており、スコア−２が与えられる。
【００８６】
Ｔは、Ｓ１からＳ３のスコアの合計値である。従来技術の一例ではこのＴを接続候補の削除に用いる。しかしながら、例えば閾値を０としたとき、削除される接続候補は無く、文字列（１）から（５）は全て統合される。本来は文字列（１）は非文字矩形に付随するキャプションであり、同じ文字ブロックに含まれるべきではない。一方文字列（１）が独立した文字ブロックとなるように、閾値を接続候補（１）−（２）のスコア６より大きな値、例として７としたときは、接続候補（１）−（２）とともに接続候補（３）−（４）も削除されて、文字列（１）、文字列（２）と（３）、文字列（４）と（５）の３つの文字ブロックが生成される。この結果は本来同じ文字ブロックとなるべき文字列（２）から（５）が別々になってしまい好ましくない。
【００８７】
従来技術による問題点は、１６０８に例として挙げたように、文字列の位置や形状、文字列に含まれる文字の位置や形状のみでは、接続すべき文字列と接続すべきでない文字列を正確に区別できない場合が多いことである。
【００８８】
１６０９は、本発明の一実施例における文字ブロック推定手段１０８による接続候補のスコアの一例である。
【００８９】
Ｓ１、Ｓ２は従来技術１５０８で説明したＳ１、Ｓ２と同じものである。
【００９０】
Ｓ３は、従来技術１５０８と同じく文字列の両端の位置に関するスコアであるが、本発明では、先に文字認識を行っているので、その結果を利用することによりスコアの付け方が異なる。例えば、横方向の文字列の場合、２つの文字列の両端の横方向の位置が、それぞれ近いほど大きなスコアが与えられる。これは、１５０８と同様である。更に、文字列の後尾の文字矩形に対応する文字コードが“。”または“．”である場合は、例外として、接続するもう一方の文字列より後尾の位置が左であれば大きなスコアを与える。この例の場合、文字列（３）は後尾の文字矩形に対応する文字コードが“。”であり、文字列（３）の後尾の位置は文字列（２）、（４）の後尾より左であるので、接続候補（２）−（３）、接続候補（３）−（４）に対して、１５０８で従来技術の場合に与えられたスコアより大きなスコア０が与えられる。
【００９１】
Ｓ４は、文字列間の文法的な連続性に関するスコアである。２つの文字列に含まれる文字矩形に対応する文字コードを文法的に検定し、文法的な連続性が高いほど大きなスコアが与えられる。例として、接続候補に対応する２つの文字列に含まれる文字矩形に対応する文字コードに対して形態素解析を行ない、文字列間にまたがって単語が検出される場合はスコア２０を与える。図１６の例の場合、接続候補（２）−（３）、（４）−（５）における“意味”、“レベル”がこれに相当する。また、文字列間にまたがって文節が検出されるが、単語は文字列間にまたがって検出されない場合にはスコア１０を与える。図１６の例にはこれに相当するものはないが、例えば、“…意味”−“がなく…”という接続がこれに相当する。また、文節の切れ目と文字列の接続位置がちょうど一致する場合にはスコア５を与える。図１６の例の場合、接続候補（３）−（４）における、“…できない。”−“そこで…”という接続がこれに相当する。更に、文字列の接続位置において、解析不能であったり、未知語が検出された場合にはスコア−１０が与えられる。図１６の例の場合、接続候補（１）−（２）において、“…分類る」といった…”の解析で“る”という未知語が検出されるので、この場合に相当する。
【００９２】
Ｔは、Ｓ１からＳ３のスコアの合計値である。閾値を０に設定することにより、接続候補（１）−（２）が削除され、残っている接続に従って文字列を統合すれば、文字ブロック１６１０および１６１１が得られる。以上に述べたスコアの重みの配分や閾値の値は、対象として想定する文書画像に対して適切な推定ができるように実験的に求めればよく、本実施例に述べた数値と異なるものを用いてもよい。
【００９３】
図１７は、文字ブロック順序推定手段１１１が文字ブロックの順序を推定する一例を示す図である。１７０１は文書画像の一部分である。１７１１〜１７１９は非文字矩形推定手段１０６、文字ブロック推定手段１０８による処理の結果得られる非文字矩形および文字ブロックの例である。この例では、１７０２に示すように、１７１２、１７１５、１７１９は非文字矩形、１７１１、１７１３、１７１４、１７１６、１７１７、１７１８は縦書きの文字ブロックとして推定されている。
【００９４】
文字ブロック順序推定手段が用いるルールの例として、構成する文字の幅・高さの平均が他の文字ブロックを構成する文字矩形の面積の平均の２倍より大きい文字ブロックは、大見出しとして順序を最初とし、非文字矩形の上または下に隣接する横書きの文字ブロック、あるいは非文字矩形の左または右に隣接する縦書きの文字ブロックで、他に隣接する文字ブロックと文字行の方向や文字矩形の大きさの平均が異なるものを図形等に付属するキャプションとして順序を最後とし、その他の文字ブロックを本文として、縦書きの場合は上から下、右から左の順序に、横書きの場合は左から右、上から下の順序に並べる、というルールを用いる。このルールに従えば文字ブロック１７１３は順序が最初に決定される。また残りの文字ブロックについては、１７１７、１７１６、１７１１、１７１８、１７１４という順序と、１７１７、１７１６、１７１８、１７１１、１７１４という順序の２通りの可能性がある。
【００９５】
次に各文字ブロックに含まれる各文字矩形に対応する文字コードを調べる。文字ブロック間の文法的連続性の評価には、前に述べた文字列間の文法的連続性の評価と同様の技術を用いることができる。即ち、図１７の例では、１７１６から１７１１への接続と１７１８から１７１４への接続にはスコア２０、１７１７から１７１６への接続と１７１１から１７１８への接続にはスコア５、１７１６から１７１８への接続と１７１８から１７１１への接続と１７１１から１７１４への接続にはスコア−１０が与えられる。１７１７、１７１６、１７１１、１７１８、１７１４の文字ブロックの並びにおいては、スコアの合計は５０、１７１７、１７１６、１７１８、１７１１、１７１４の文字ブロックの並びにおいては、スコアの合計は−２５となる。このことから、１７１１、１７１８、１７１７、１７１６、１７１５という順序が正しい順序として推定され、最終的には、１７１２、１７１１、１７１８、１７１７、１７１６、１７１５、１７１４という順序が得られる。
【００９６】
図１８は、文字コード出力手段１１２による文字コード出力結果の例である。
【００９７】
図１９は、図３中のステップＳ３８で行なわれる文字矩形の再推定の一例である。１９０１は文書画像の一部、１９０２は、図３中のステップＳ３８の一度目の実行がなされる前の、文字矩形および文字列の推定結果を示したものである。１９０２において、文字「超」に相当する矩形１９１１は、図３中のステップＳ３１における文字認識の結果、２１０３に示すように確信度「８２」が得られるが、確信度が十分に大きくないために、文字矩形として確定されなかったものである。ステップＳ３８で行なわれる再推定において、例えば、ある未確定の矩形が、以下の条件を満たしたときには、その矩形に対応する確信度に２０を加算するものとする。
（１）２つの縦方向の文字列、または、２つの横方向の文字列の間にある。
（２）２つの文字列の中心線がほぼ一致する。
（３）２つの文字列中の文字間隔がほぼ等しい。
（４）２つの文字列中の文字の大きさの平均がほぼ等しい。
（５）その未確定の矩形と各文字列中の最近の文字矩形との間隔のそれぞれが、両文字列中の文字間隔とほぼ等しい。
（６）その未確定の矩形の大きさが、両文字列中の文字の大きさの平均とほぼ等しい。
【００９８】
図１９の例では、矩形１９１１はこれらの条件を満たすため、１９０４に示されるように、確信度に２０が加算され「１０２」となる。その結果、矩形１９１１は文字矩形として確定される。この後、図３中のステップＳ３４からの処理が再び実行され、１９０５に示されるように、正しく文字矩形および文字列が推定される。
【００９９】
次に、論理構造解析手段１１３について説明する。レイアウト構造から論理構造を解析する手法は様々に提案されており、例えば画像電子学会誌Ｖｏｌ．１７Ｎｏ．５ｐｐ２６７〜２７７『書式定義言語を用いた文書画像の理解』に示されている手法を用いることができる。
【０１００】
本発明では、先に文字認識を行い、その文字認識の結果を利用してブロックを推定し、論理構造の解析時には、レイアウト要素の１つである文字ブロックに関して、各々に含まれる文字の文字コードおよびそのブロック内における順序が明らかになっているため、文法情報あるいは単語に関する情報を用いて、より正確に論理構造を決定できる点を特徴とする。
【０１０１】
この例では、文字ブロック順序推定手段の実施例の説明で記述したものと同様の推定方法により、１７１１、１７１８、１７１７の各ブロックは、この順序で連続する本文領域であることが推定され、大段落の１つの一部を構成するブロックであることが推定できる。
【０１０２】
文字ブロック順序推定手段の推定の結果、図２０の２００１に示すような論理構造解析が得られる。
【０１０３】
論理構造を推定する他の例として、例えば、著者名が記述される論理ブロックを判定する際には、文字ブロック内に人名に用いられる単語があるか否かを検査することにより、判定の精度を向上することができる。また、図に付随する図見出しが記述される論理ブロックを判定する際には、非文字矩形からある閾値以内の近傍にあるというような位置関係や、文字ブロック内に“図”、“Ｆｉｇ．”などの文字の並びがあるか否かを検査することにより、該非文字矩形の論理構造が明確になり、判定の精度を向上することができる。
【０１０４】
【発明の効果】
本発明による文書画像解析装置では、先に、各矩形にたいして文字認識を行ない、その認識結果として得られる文字コードを利用し、また文法辞書を備えて文字コードの並びを利用することによって、文字行や文字ブロックなどの構造を推定するので、解析精度を向上でき、かつ、より複雑な構造を持つ文書画像を解析できる。
【図面の簡単な説明】
【図１】本発明による文書画像解析装置の一実施例の構成を示す図である。
【図２】文法辞書の一例を示す図である。
【図３】本発明の実施例における文書画像解析装置の動作の一例を示すフローチャートである。
【図４】外接矩形生成手段１０１により得られる外接矩形の例を示す図である。
【図５】本実施例における文字認識手段１０２−１、１０２−２、１０２−３の構成の一例を示す図である。
【図６】外接矩形生成手段１０１により得られた外接矩形の各々に対して、文字認識手段１０２により得られる文字コードと確信度の例を示す図である。
【図７】分離文字候補抽出手段１０４により得られる分離文字候補の例と、得られた分離文字候補の各々に対して、文字認識手段１０２−２により得られる文字コードと確信度の例を示す図である。
【図８】分離文字統合手段１０５が、分離文字候補の中から分離文字を決定し、複数の外接矩形を統合した例を示す図である。
【図９】接触文字候補抽出手段１０９により得られる接触文字候補を含む画像の一例を示す図である。
【図１０】接触文字分割手段１１０が、接触文字候補の中から接触文字を決定し、複数の外接矩形に分割した例を示す図である。
【図１１】文字列推定手段１０７のよる文字列の推定の例を示す図である。
【図１２】図３の（Ｓ３４）を詳細化した、文字列推定手段１０７の動作の一例を示すフローチャートである。
【図１３】文字列推定手段１０７において、文字列の推定のためのスコアの一例を示す図である。
【図１４】文字ブロック推定手段１０８による文字ブロックの推定の例を示す図である。
【図１５】図３の（Ｓ３５）を詳細化した、文字ブロック推定手段１０８の動作の一例を示すフローチャートである。
【図１６】従来技術、及び本発明の文字ブロック推定手段１０８において、文字ブロックの推定に用いるスコアの一例を示す図である。
【図１７】文字ブロック順序推定手段１１１による文字ブロックの順序の推定の一例を示す図である。
【図１８】文字コード出力手段１１２による文字コード出力結果の例である。
【図１９】図３の（Ｓ３８）文字矩形の再推定の一例を示す図である。
【図２０】論理構造解析手段１１３によって、各文字ブロック及び非文字矩形に対して論理的な構造を付与した例を示す図である。
【図２１】従来技術における文書画像解析装置の動作の一例を示すフローチャートである。
【符号の説明】
１０１：外接矩形生成手段；１０２−１、１０２−２、１０２−３：文字認識手段；１０３：文法辞書；１０４：分離文字候補抽出手段；１０５：分離文字統合手段；１０６：非文字矩形推定手段；１０７：文字列推定手段；１０８：文字ブロック推定手段；１０９：接触文字候補抽出手段；１１０：接触文字分割手段；１１１：文字ブロック順序推定手段；１１２：文字コード出力手段；１１３：論理構造解析手段；２０１：自立語表；２０２：付属語表；２０３：活用表；２０４：接続表；４０１：文書画像の一部分；４１１〜４２０：外接矩形；５０１：画像正規化部；５０２：特徴抽出部；５０３：距離計算部；５０４：結果出力部；６０１：文字コードと確信度；７０１：分離文字候補に対する文字コードと確信度；７１１〜７１４：分離文字候補；８１１〜８１６：分離文字統合後の矩形；９０１：文書画像の一部分；９０２：文字コードと確信度；９１１〜９１７：外接矩形；１００１：文字コードと確信度；１０１１，１０１２：接触文字候補を分割して得られる矩形；１１０１：文書画像の一部分；１１０２：文字矩形；１１０３：文字行推定結果；１４０１：文字ブロック推定結果；１６０１：文書画像の一部分；１６０２：非文字矩形；１６０３〜１６０７：文字列；１６０８：従来技術のスコアの一例；１６０９：本発明のスコアの一例；１６１０，１６１１：文字ブロック；１７０１：文書画像の一部分；１７０２：文字ブロック推定結果及び非文字矩形推定結果：１７１１，１７１２，１７１４〜１７１８：文字ブロック：１７１３：非文字矩形；１８０１：文字コード出力結果；１９０１：文字画像の一部；１９０２，１９０３：文字矩形及び文字列の推定結果；１９０３，１９０４：文字コードと確信度；１９１１：文字矩形の一部の拡大図；２００１：論理構造推定結果．

Claims

画像中の連結黒画素塊を取り出す画素塊抽出手段と、前記画素塊抽出手段により取り出された連結黒画素塊に対して文字認識処理を行い、少なくとも１つの文字コードを決定する第１の文字認識手段と、単語間の接続情報を保持する文法辞書と、前記文字認識手段の決定した文字コード、前記文法辞書の保持する単語間の接続情報に基づいて文字コードの並びの中の文節として成り立つ並びを検出して、該並びの長さに関する情報を少なくとも用いて文字列の方向を推定する文字列推定手段と、を備えることを特徴とする文書画像解析装置。
請求項１に記載の文書画像解析装置であって、複数個の前記連結黒画素塊を統合して１文字になる可能性を持つ分離文字候補を抽出する分離文字候補抽出手段と、該分離文字候補に対して文字認識処理を行い、少なくとも１つの文字コードを決定する第２の文字認識手段と、該分離文字候補から分離文字を決定する分離文字統合手段とを有することを特徴とする文書画像解析装置。
請求項１に記載の文書画像解析装置であって、１つの前記連結黒画素塊を分割して複数の文字または文字の一部を形成する可能性を持つ接触文字候補を抽出する接触文字候補抽出手段と、該接触文字候補から接触文字を決定し、該接触文字を複数の画像に分割する接触文字分割手段と、前記接触文字分割手段により得られる画像に対して文字認識処理を行い、少なくとも１つ以上の文字コードを出力する第３の文字認識手段を特徴とする文書画像解析装置。
請求項１乃至３に記載の文書画像解析装置であって、前記連結黒画素塊に対して前記第１の文字認識手段の出力する少なくとも確信度に基づいて文字ではない非文字矩形を推定する非文字推定手段を更に有することを特徴とする文書画像解析装置。
請求項１乃至４に記載の文書画像解析装置であって、更に、前記文字列推定手段の推定した文字列、前記第１、第２または第３の文字認識手段の出力した文字コード、及び前記文法辞書の保持する単語間の接続情報に基づいて、文字列の集合としての文字ブロックを推定する文字ブロック推定手段を有することを特徴とする文書画像解析装置。
請求項５に記載の文書画像解析装置であって、更に前記文字ブロック推定手段の推定した文字ブロック、該文字ブロックに含まれる前記文字列、及び前記第１、第２または第３の文字認識手段の出力した文字コードと前記文法辞書の保持する単語間の接続情報とに基づいて、文字ブロックの順序を推定する文字ブロック順序推定手段と、前記文字ブロック推定手段の推定した文字ブロック、該文字ブロックに含まれる前記文字列、前記第１、第２または第３の文字認識手段の出力した文字コード、及び前記文字ブロック順序推定手段の推定した文字ブロックの順序から、前記文字ブロックに含まれる文字コードを前記順序で出力する文字コード出力手段とを備えることを特徴とする文書画像解析装置。
請求項５に記載の文書画像解析装置であって、前記文字ブロック推定手段の推定した文字ブロック、該文字ブロックに含まれる各文字列、及び該文字列に含まれて前記第１、第２または第３の文字認識手段の出力した文字コードと、文法辞書内の単語間の接続情報に基づいて、前記文字ブロックに論理的な構造を付与して出力する第１の論理構造解析手段を備えることを特徴とする文書画像解析装置。
請求項５に記載の文書画像解析装置であって、前記非文字矩形に関して、その近傍に存在する前記文字ブロック推定手段の推定した文字ブロック、該文字ブロックに含まれる各文字列、及び該文字列に含まれて前記第１、第２または第３の文字認識手段の出力した文字コードと、文法辞書内の単語間の接続情報に基づいて、前記非文字矩形に論理的な構造を付与して出力する第２の論理構造解析手段を備えることを特徴とする文書画像解析装置。