JP3546553B2 - 文書画像解析装置 - Google Patents

文書画像解析装置 Download PDF

Info

Publication number
JP3546553B2
JP3546553B2 JP21280695A JP21280695A JP3546553B2 JP 3546553 B2 JP3546553 B2 JP 3546553B2 JP 21280695 A JP21280695 A JP 21280695A JP 21280695 A JP21280695 A JP 21280695A JP 3546553 B2 JP3546553 B2 JP 3546553B2
Authority
JP
Japan
Prior art keywords
character
block
rectangle
document image
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP21280695A
Other languages
English (en)
Other versions
JPH0944605A (ja
Inventor
潔 田代
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP21280695A priority Critical patent/JP3546553B2/ja
Publication of JPH0944605A publication Critical patent/JPH0944605A/ja
Application granted granted Critical
Publication of JP3546553B2 publication Critical patent/JP3546553B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Description

【0001】
【産業上の利用分野】
本発明は、様々なレイアウトをもつ文書画像を対象とする、文書画像解析装置に関するものである。
【0002】
【従来の技術】
従来文書画像のレイアウトを解析する方法としては、例えば、画像電子学会誌Vol.17 No.5 pp258〜266「文書画像処理技術の動向」に示されるように、様々な画像的特徴を利用して文字行や文字ブロックを抽出する方法が考案されている。また、同書籍、pp267〜277「書式定義言語を用いた文書画像の理解」に示されるように、予め対象とする特定の文書のレイアウトに関する知識を記憶しておき、入力画像にそれを適用していく方法も考案されている。
【0003】
前者の方法は幅広い種類の文書に対応できる半面、文字行間や段組の間隔が狭い場合などに、文字行や文字ブロックの推定を誤り、その後に実行される文字認識処理において文字が正しい順序で認識できない等の欠点がある。また、図の中に存在する文字などに関しては文字認識処理の対象にできないか、あるいは文字図形分離処理等の処理を更に実行する必要がある。
【0004】
後者の方法は、文字行や文字ブロックの抽出精度は向上し、また題名部分等の論理的な構造も抽出できるが、対象とする文書の種類が予め記憶されている知識の範囲内に限定されてしまう。
【0005】
図21に、これらの従来の文書画像解析装置の動作を表すフローチャートを示す。
(S210)画像中のすべての連続黒画素塊に対してその外接矩形を求める。
(S211)1つ以上の外接矩形の集合として文字列を推定する。
(S212)1つ以上の文字列の集合として文字ブロックを推定する。
(S213)各文字のコード情報が必要な場合には、文字列または文字ブロック内を対象に文字認識を行なう。
(S214)文書構造の推定結果を出力して処理を終了する。
【0006】
このように、両者の方法あるいは従来の他の文書画像解析の方法は何れも、文字ブロックなどの構造の抽出が終了してから文字認識処理が行なわれるので、構造の抽出には画像から得られる情報しか用いることができず、個々の部分的な画像が文字画像として適切であるかという情報や、文章の意味のつながり等の文字の内容から得られる情報は用いることができない。
【0007】
また、文字認識装置の前処理としても、例えばオペレータが文字ブロックの範囲を指定したり、文字ブロック間の順序を指定する必要があったり、または、上記の技術を用いて認識対象とする文字ブロックを自動的に抽出する試みがなされているが、精度の問題などから実用には至っていない。
【0008】
【発明が解決しようとする課題】
本発明は様々なレイアウトをもつ文書画像から、文字部分とその他の部分を精度良く分離し、また、文字行、文字ブロックなどの構造を精度良く抽出し、更に、文字ブロック間の順序を精度良く推定することができる文書画像解析装置を提供することを目的とする。
【0009】
また、オペレータの指示なしに文書画像中の文字を認識し、正しい順序で文字コードを出力する文字認識機能を提供することを目的とする。
【0010】
【課題を解決するための手段】
本発明の文書画像解析装置は、以下の手段からなる。
(1)画像中の連結黒画素塊を取り出す画素塊抽出手段
(2)前記画素塊抽出手段により取り出された連結黒画素塊に対して文字認識処理を行い、少なくとも1つの文字コードを出力する第1の文字認識手段
(3)単語間の接続情報を保持する文法辞書
(4)前記文字認識手段の決定した文字コード、前記文法辞書の保持する単語間の接続情報に基づいて文字コードの並びの中の文節として成り立つ並びを検出して、該並びの長さに関する情報を少なくとも用いて文字列の方向を推定する文字列推定手段。
【0011】
また、
(5)分離文字候補を抽出する分離文字候補抽出手段
(2’)分離文字候補に対して文字認識処理を行い、少なくとも1つの文字コードを決定する第2の文字認識手段
(6)分離文字候補から分離文字を決定する分離文字統合手段
とを更に有する構成とすることもできる。
【0012】
更に、
(7)接触文字候補を抽出する接触文字候補抽出手段
(8)接触文字候補から接触文字を決定し、該接触文字を分割して複数の画像に分割する接触文字分割手段
(2’’)前記接触文字分割手段により得られる画像に対して文字認識処理を行い、少なくとも1つ以上の文字コードを出力する第3の文字認識手段
とを更に有する構成とすることもできる。
【0013】
また、本発明の文書画像解析装置は、前記構成に加えて、
(9)前記文字列推定手段の推定した文字列、前記文字認識手段の出力した文字コード、及び前記文法辞書の保持する単語間の接続情報に基づいて、文字ブロックを推定する文字ブロック推定手段
を更に有する。
【0014】
また、本発明の文書画像解析装置は、前記構成に加えて、
(10)前記連結黒画素塊の位置及び形状、前記文字認識手段の出力する少なくとも確信度に基づいて文字ではない非文字矩形を推定する非文字推定手段を更に有する。
【0015】
更に、本発明の文書画像解析装置は、前記(10)を含む構成に加えて、
(11)前記文字ブロック推定手段の推定した文字ブロック、該文字ブロックに含まれる前記文字列、前記文字認識手段の出力した文字コード、及び前記文法辞書の保持する単語間の接続情報に基づいて、文字ブロックの順序を推定する文字ブロック連続性推定手段
(12)前記文字ブロック推定手段の推定した文字ブロック、該文字ブロックに含まれる前記文字列、前記文字認識手段の出力した文字コード、及び前記文字ブロック連続性推定手段の推定した文字ブロックの順序から、前記文字ブロックに含まれる文字コードを前記順序で出力する文字コード出力手段を備える。
【0016】
また、本発明の文書画像解析装置は、前記(10)を含む構成に加えて、
(13)前記文字ブロック推定手段の推定した文字ブロック、該文字ブロックに含まれる各文字列、及び該文字列に含まれて前記文字認識手段の出力した文字コードと、文法辞書内の情報を用いて、前記各ブロックに論理的な構造を付与して出力する第1の論理構造解析手段
を備えることができる。
【0017】
また、本発明の文書画像解析装置は、前記(10)を含む構成に加えて、
(13’)前記非文字矩形に関して、その近傍に存在する前記文字ブロック推定手段の推定した文字ブロック、該文字ブロックに含まれる各文字列、及び該文字列に含まれて前記文字認識手段の出力した文字コードと、文法辞書内の情報を用いて、前記非文字矩形に論理的な構造を付与して出力する第2の論理構造解析手段を備えることができる。
【0018】
【作用】
入力された文書画像に対して、連結黒画素塊が抽出される。続いて、各々の黒画素塊が認識され、その認識候補として少なくとも1つの文字コードが得られる。次に、既に文字認識を行った黒画素塊の形状及び位置、黒画素塊に対する文字コード、文法辞書の保持する単語間の接続情報等を用いて、文字列を推定する。
【0019】
また、推定された文字列、文字コード、及び前記文法辞書の保持する単語間の接続情報に基づいて、文字ブロックを推定する。
【0020】
また、推定された少なくとも確信度に基づいて、非文字矩形の推定も精度よく行える。
【0021】
更に、文字認識の結果を利用して、文字ブロックの順序を決定したり、文書画像の論理構造解析を行うことができる。
【0022】
このように、文字列、文字ブロック、文字ブロックの順序、論理構造の推定に先だって文字認識を行うことにより、文字列、文字ブロック、文字ブロックの順序、論理構造の推定時にはその情報を用いることができる。
【0023】
また、分離文字や接触文字に対する認識も行って、より正確な文字認識を得ることにより、非文字矩形、文字列、文字ブロック、文字ブロックの順序、論理構造の推定はより正確なものとなる。
【0024】
【実施例】
図1は、本発明の一実施例である文書画像解析装置の構成を示す図である。入力された画像中の連結黒画素塊の外接矩形を求める外接矩形生成手段101、外接矩形生成手段101で求められた外接矩形に対して文字認識を行う第1の文字認識手段102−1、後述の分離文字候補抽出手段により得られる分離文字候補画像に対して文字認識を行う第2の文字認識手段102−2、後述の接触文字分割手段により得られる画像に対して文字認識を行う第3の文字認識手段102−3、単語及び単語間の接続情報を保持する文法辞書103、分離文字候補抽出手段104、分離文字統合手段105、非文字矩形指定手段106、文字列指定手段107、文字ブロック推定手段108、接触文字候補抽出手段109、接触文字分割手段110、文字ブロック順序推定手段111、文字コード出力手段112、論理構造解析手段113からなる。104から113までの手段はアプリケーションの要求により、適宜組み合せて接続、削除が可能である。また、ここでは文字認識手段を3つの部分に分離して記載しているが、これらは、入力が異なるのみで同じ処理を行うものと考えられる。従って、これらを1つの手段、1つのソフトウェア・モジュールとして構成してももちろん良い。以下では102−1、102−2、102−3を「第1の」、「第2の」、「第3の」を省略して、いずれも文字認識手段と呼ぶことにする。
【0025】
まず、文法辞書103の構成の一例を図2に示す。201は自立語をその品詞とともに記憶する自立語表である。202は付属語をその前接続、後接続とともに記憶する付属語表である。203は各活用種類についてその活用語尾を後接続とともに記憶する活用表である。204は後接続と前接続間の接続スコアを記憶する接続表である。表中の0−、1−等は前接続、−0、−1等は後接続となる見出し語の番号を表しており、例えば0−1の接続スコアは100になっている。高い接続スコアは両見出し語が接続可能性が高いことを示している。以下の説明においては、このような表を用いることにより、文字コードの並びから自立語表を参照して単語を検出したり、形態素解析を行ない文節などを検出するものとする。形態素解析の技術については、例えば産業図書株式会社『自然言語解析の基礎』の140ページから142ページに示されているような、従来の技術を用いることができる。例えば文節を検出する場合には、隣接した2つの見出し語のうち、前側の語の後接続、後側の語の前接続を自立語表、付属語表、活用表から得る。得られた後接続及び前接続を接続スコアを参照して検査して2つの見出し語が接続可能かどうかを調べる。接続スコアが0以外であればその2つの見出し語は1文節に含まれるものとみなす。
【0026】
図3は本発明による文書画像解析装置の一実施例の動作を示すフローチャートである。
【0027】
(S30)外接矩形生成手段101により、画像中のすべての連続黒画素塊に対してその外接矩形を求める。
【0028】
(S31)生成された外接矩形に対して文字認識手段102−1により文字コードと、認識された画像が標準パターンとどの程度近く認識されたかを示す確信度を得る。確信度を用いて認識された画像が文字画像であるか否かが推定できる。その結果、リジェクトされなかった矩形,または確信度が所定値より大きい矩形を文字矩形として確定する。得られた文字コードと確信度は各矩形と対応して記憶される。処理内容の具体例を図4、図5、図6を用いて後述する。
【0029】
(S32)分離文字候補抽出手段104と分離文字統合手段105とにより分離文字の推定、統合を行ない、分離文字として統合された矩形を文字矩形として確定する。本ステップについての処理内容の詳細は図7を用いて後述する。
【0030】
(S33)接触文字候補抽出手段109と接触文字分割手段110とにより接触文字の推定、分割を行ない、接触文字として分割された矩形を文字矩形として確定する。本ステップについての処理内容の詳細は図9、図10を用いて後述する。
【0031】
(S34)文字列推定手段107により1つ以上の文字矩形の集合として文字列を推定する。詳細なフローチャートの一例を図12に示し、具体的な処理の説明は、図11、図13を用いて後述する。
【0032】
(S35)文字ブロック推定手段108により1つ以上の文字列の集合として文字ブロックを推定する。詳細なフローチャートの一例を図15に示すとともに、詳細な説明は図15を用いて後述する。
【0033】
(S36)非文字矩形推定手段106により、1つ以上の文字矩形でない矩形の集合として非文字矩形を推定する。
【0034】
(S37)文字矩形、非文字矩形のどちらにも確定していない矩形があるか否かを調べる。
【0035】
(S38)確定していない矩形がある場合には、確定していない矩形を対象に、分離文字候補抽出手段104と分離文字統合手段105、または接触文字候補抽出手段109と接触文字分割手段110により再推定する。この際、既に推定されている文字列、文字ブロック、非文字矩形との位置関係などを推定に用い、また文字矩形として確定する条件を変更するので、前回の推定で文字矩形として確定しなかった矩形の一部も文字矩形として確定される場合がある。この再推定の詳細な例は図19を用いて後述する。新たに文字矩形として確定した矩形も含めて、再び(S34)の文字列の推定から処理を繰り返す。
【0036】
(S39)確定していない矩形が無い場合には、文字ブロック順序推定手段111、文字コード出力手段112、論理構造解析手段113などにより、必要な文字コードや文書構造の推定結果を出力して処理を終わる。
【0037】
図4は、図3の(S30)で外接矩形生成手段101により得られる外接矩形の例を示す図である。401は文書画像の一部分であり、411〜420が生成された外接矩形を示す。画像中の連結黒画素塊を検出してその外接矩形を得る方法は、既に様々な方法が提案されており、それらの何れを用いても構わない。例えばコロナ社『画像工学』(1989年8月25日初版第1冊発行)115ページから116ページに連結黒画素塊を検出する技術が示されている。
【0038】
図5は、文字認識手段102−1、102−2、及び102−3の構成の一例である。これらの文字認識手段に入力された画像は、まず画像正規化部501により大きさが正規化され、特徴抽出部402により特徴が抽出され、距離計算部503により各文字に対応する標準特徴との距離が計算され、結果出力部504により距離が小さい順にソートされた少なくとも1つの文字に対応する文字コードと確信度が出力される。例えば確信度として、最も小さい距離の逆数を用いることができる。
【0039】
外接矩形生成手段101により得られた外接矩形の各々に対して文字認識手段102−1により得られる文字コードと確信度の例を図6に示す。得られた確信度があらかじめ定められた値より小さい場合は、矩形内の画像がどの文字とも似ていないことを示すので、分離文字の一部であるか、図形など文字ではない画像であると推測することができる。従って、そのような矩形はリジェクトされる。それ以外の矩形、すなわち、あらかじめ定められた値より大きい値の確信度を持つ矩形は、得られた文字コードを持つ文字矩形であるとして確定される。
【0040】
図7は、(S32)において分離文字候補抽出手段104が、隣接する複数の外接矩形を統合することにより一文字に相当する画像になる可能性がある候補を抽出する例を示す図である。この例では、確信度が100未満である2つ以上の矩形を統合して得られる矩形が、近傍の矩形の幅・高さのそれぞれ3倍以内であり、かつ他の外接矩形に重ならないかまたは完全に包含されるという条件で分離文字候補が抽出されるものとする。図6の例では、外接矩形413と414を統合して得られる矩形は、近傍の矩形の幅・高さのそれぞれ3倍以内という条件は満たしているが、矩形412と重なっているため分離文字候補とはならない。この条件は、文字矩形は他の文字矩形または非文字矩形とは重ならないという仮定を用いて、不要な分離文字候補の生成を避けるための条件である。ただし、表の中の文字のように、他の非文字矩形に完全に包含される場合はあるので、他の外接矩形に完全に包含されるものは分離文字候補として抽出する。また、英文のイタリック体の文字のように文字矩形どうしが重なる場合のある文書画像を対象とするときには、他の外接矩形に重ならないという条件は用いなくても良い。図7に示すように、図6中の外接矩形412、413、414から分離文字候補711が得られる。同様に417、418から712が、418、419から713が、419、420から714が分離文字候補として得られる。
【0041】
701は、本実施例において、分離文字候補抽出手段104により得られた分離文字候補の各々に対して、文字認識手段102−2により得られる文字コードと確信度の例を示す図である。
【0042】
図8は、分離文字統合手段105が、分離文字候補の中から実際に分離文字であるものを推定し、複数の外接矩形を統合する例を示す図である。
【0043】
統合の例として、矩形の幅・高さの一様性、矩形間の距離の一様性、矩形に対応する確信度の大小、また文法辞書を用いることにより、各矩形に対応する文字コード間の単語内・単語間の接続性等を基に最も適切な分離文字の組み合わせが決定される。
【0044】
この例では、図4の矩形412、図7の711、712、714の幅がほぼ等しく、図4の矩形415、416、419、420、図7の714の高さがほぼ等しい。また、矩形412または711、415、416、712、714の中心間の距離がほぼ等しい。更に、矩形412または711、415、416、712に対応する文字コードは、文法辞書内に記憶されている名詞“ベクトル”の単語内の順序に一致し、名詞と接尾語“化”が接続することから、矩形714に対応する文字コードも矩形412または711、415、416、712に対応する文字コードとの接続性を満たす。
【0045】
また、例えば矩形412と413と414、矩形712と713、矩形713と714は互いに重なっており、文字として同時に成り立つ可能性は低い。これらの情報から、分離文字統合手段105は、分離文字候補711、712、714が分離文字であると推定して統合し、結果として、図8に示すような分離文字統合後の矩形811〜816が得られる。
【0046】
複数の分離文字候補から適切な分離文字の組み合わせを決定するのに十分な情報が得られない部分がある場合には、その部分に関して分離文字統合手段105による処理を保留して分離文字候補を記憶しておき、例えば文字列推定手段107による処理を行なった後で文字列内の文字の大きさや文字列の方向を用いて、分離文字統合手段105による処理を再度行なうことにより、分離文字を統合する精度を更に向上できる。
【0047】
次に、図3の(S33)の処理、すなわち、図1の接触文字候補抽出手段109及び接触文字分割手段110の動作について説明する。接触文字候補抽出手段109により、各外接矩形の位置および形状、対応する文字コード、確信度、文法辞書内の情報から、外接矩形を分割して得られる複数の矩形のそれぞれが一文字に相当する画像または分離文字候補になる可能性がある接触文字候補が抽出される。
【0048】
図9は、接触文字候補抽出手段109が、接触文字候補を抽出する例を示す図である。901は文書画像の一部、911〜917は外接矩形生成手段により得られる外接矩形、902は外接矩形の各々に対して文字認識手段102−1により得られる文字コードと確信度である。例として、接触文字候補は、対応する確信度が100未満である矩形を分割して得られる矩形が、近傍の矩形の幅・高さのいずれかが1.5倍以上であるという条件で抽出される。この例では、外接矩形917が接触文字候補として得られる。
【0049】
図10は、接触文字分割手段110が、接触文字候補の中から実際に接触文字であるものを推定し、複数の矩形に分割し、分割して得られる矩形の各々に対して、文字認識手段102−3により認識を行なう例を示す図である。接触文字において分割すべき位置を推定し分割する技術は、例えば、特許出願公開「特開平5−128308」に示されているように、様々なものが公知になっており、それらを用いることができる。1011および1012は、接触文字候補抽出手段109により接触文字候補として得られた917を分割して得られる矩形である。分割して得られた矩形の各々に対して、文字認識手段により得られる文字コードと確信度を1001に示す。接触文字分割手段110は、矩形1011と1012の幅が近傍の矩形とほぼ等しいこと、矩形1011および1012に対応する確信度が大きいこと、矩形1011および1012に対応する文字コードの並びが文法辞書内にある名詞“年代”の並びと一致することから、接触文字候補917は実際に接触文字であると推測し、矩形1011および1012を文字矩形として登録する。
【0050】
また、実施例では(S36)において、矩形411は対応する確信度が小さいこと、接触文字候補を構成しないこと、矩形の幅が近傍の矩形の平均に比べて大きいことから、非文字矩形推定手段106により非文字矩形であると推定される。これらの条件は、(S36)の処理が繰り返される毎に、初めは厳しい条件にしておき、徐々に緩くしていくことにより、推定の精度を高くすることができる。例えば確信度が小さいという条件では、1度目の推定では閾値を10とし、その後の推定で閾値を10ずつ増加させる。推定の精度が高くなる理由は、図19を用いて後述するように、文字矩形にも非文字矩形にも確定されていない矩形に対して文字矩形の再推定が行なわれ、例えば1度目の推定で確信度が低くて文字矩形として確定されなかった矩形が、文字矩形として確定される場合があるためである。初期の条件を厳しくすることにより、本来文字である矩形を誤って非文字矩形として確定してしまう誤りを減らすことができる。
【0051】
次に、文字列推定手段107の処理について説明する。図11は、文字列推定手段107が文字列を推定する過程の一例を示す図である。1101は文書画像の一部分である。1102は分離文字統合後の矩形を示す。この例では、矩形の形状や位置のみの情報を用いると縦方向にも横方向にも統合が可能であるが、文字列推定手段107は、各矩形に対応する文字コードを用い、文法辞書を参照して文字行の方向を推定する。即ち、禁則ルール、“、”や“。”の文字コードが対応する矩形の文字列中の位置、文字コードの並びに現れる文節数などにより、縦書きの文字列であることが推定できる。この推定の過程の詳細は、図12、図13を用いて後述する。結果として1103に示すような文字列が得られる。
【0052】
図12は、本発明の文字列推定手段107の一実施例の動作を示すフローチャートであって、図3の(S34)を詳細化したものである。フローチャートの概要を次に示し、各ステップの詳細については後述する。
【0053】
(S120)文書画像中の文字矩形として確定している各矩形を対象に、縦横それぞれの方向の文字列候補を生成する。
【0054】
(S121)各文字列候補に対してスコアを計算する。
【0055】
(S122)互いに矛盾する文字列候補の組があるか否かを調べる。ここで、互いに矛盾する文字列候補の組とは、同一の文字矩形を含む複数の文字列候補、互いに交差する文字列候補などである。
【0056】
(S123)互いに矛盾する文字列候補の組がある場合には、それらの文字列候補の中から、スコアの低い候補を削除する。その後、矛盾する文字列候補の検査へ戻り、互いに矛盾する文字列候補の組が無くなるまで繰り返す。
【0057】
(S124)互いに矛盾する文字列候補の組が無い場合は、文字列候補を文字列推定結果として出力して処理を終わる。
【0058】
(S120)の文字列候補の生成には、従来の技術を用いることができる。例えば、各矩形の大きさや形状の類似性や、矩形間の距離や位置関係が予め定められた条件を満たすものを文字列候補として抽出する。この処理においては従来技術を用いるものの、本発明の一実施例である文書画像解析装置においては、文字認識手段等の結果を利用することにより、より高精度、高効率に文字列候補を生成できる。
【0059】
従来の文書画像解析装置においては、単なる連結黒画像塊の外接矩形を対象に文字列候補の生成を行なっている。従って、例えば、「川」のような分離文字や、複数の文字が接触している文字に関しては、複数の矩形が1文字に対応したり、1つの矩形が複数の文字に対応することがある。このため、大きさや形状が類似している矩形の並びを文字列候補として生成しようとしても、1文字に対応する大きさや形状が正確には分からないという問題がある。従って、生成条件を厳しくすれば、本来の文字列が文字列候補として抽出できず、また生成条件を緩やかにすれば、余分な文字列候補を多数生成することになり、精度や効率が悪くなる。
【0060】
一方、本発明の一実施例である文書画像解析装置では、図3に示すように、(S31)の文字認識手段102−1、(S32)の分離文字統合手段105、(S33)の接触文字分割手段110等により、(S34)の文字列候補の生成に先だって文字矩形を確定する。そして、文字列推定手段107は文字矩形として確定した矩形を対象に文字列候補の生成を行なう。各矩形が1文字に対応しているため、大きさや形状が類似している文字の並びを正確に検出することができる。従って、文字列候補の生成条件の設定も容易になり、余分な文字列候補の生成を減少でき、かつ本来の文字列を確実に候補の中に含めることができる。
【0061】
図13は図12の(S121)における、文字列候補に対するスコア計算の一例を示す図である。図11の1102に示された文字矩形に対して、縦横それぞれの方向の文字列候補を生成したものが、図13中の(1)から(22)である。(1)から(12)が横方向の文字列候補、(13)から(22)が縦方向の文字列候補である。各々の文字列候補に含まれる文字矩形に対応した文字コードで文字列候補を示している。
【0062】
表中の列S1は、各文字列候補の文字数に対応したスコアである。文字数が多いほど大きなスコアを与える。
【0063】
S2は、禁則文字に係わるスコアである。“。”や“」”などの文字が文字列の先頭にある場合や、“「”などの文字が文字列の最後尾にある場合は、文字列として不自然であるので、マイナスのスコアを与える。この例の場合、文字列候補(8)と(11)がこれに該当し、スコア−10が与えられている。禁則文字および禁則ルールは、文字列推定手段中に記憶しておいても良いし、または文法辞書中に記憶しておいても良い。
【0064】
S3は、文字列の縦横によって、向きや位置の異なる文字に係わるスコアである。例えば、句点を示す文字“。”は文字列の縦横によって文字列中に配置される位置が異なる。また鍵括弧を示す文字“」”は文字列の縦横によって、向きが異なる。図13の例の場合、横の文字列候補(3)、(8)、(9)、(11)にはそれぞれ“。”または“、”が含まれているが、対応するそれぞれの文字矩形は、横の文字列候補中の上部に位置しており、横書き中の位置としては不自然であるため、(3)、(8)、(9)、(11)にはそれぞれスコア−5が与えられる。
【0065】
S4は文法的な検定に係わるスコアである。各文字列候補に含まれる文字矩形に対応する文字コードの並びに対して、検出された単語数などに応じて文章として自然であるほど高いスコアを与える。文章として自然であることの基準の例として、文字コードの並びの中に文節として成り立つ2文字以上の並びがあれば、スコア5を与える。図13の例では(3)の“もし”、(14)の“込んだ”などがこれに相当する。更に、上記文節の中で、文節の長さが5文字以上であるか、漢字が3文字以上含まれる場合にはスコア5を加える。図13の例では(13)の“戦闘機に”、(17)の“パイロットの”などがこれに相当する。また、文字コードの並びの先頭に、文節の前部が欠けたものと見なせる2文字以上の並びがあれば、スコア5を与える。同様に、文字コードの並びの後尾に、文節の後部が欠けたものと見なせる2文字以上の並びがあれば、スコア5を与える。図13の例では(13)の“地で”、(16)の“ンディなど”などがこれに相当する。
【0066】
T1は、S1からS4までのスコアの第1の合計値である。
【0067】
S5は、各文字列候補において、その候補と矛盾する他の文字列候補に係わるスコアである。例えば、文字列候補(1)は、文字列候補(13)、(14)、(16)から(22)のそれぞれに対して、互いに同一の文字矩形を含んでおり、矛盾している。文字列候補(13)、(14)、(16)から(22)までの第1の合計値T1の総和に重み−0.1を乗じて、文字列候補(1)に対するスコアS5として与える。
【0068】
T2は、第1の合計値T1とスコアS5を足した第2の合計値である。このT2を各文字列候補の最終的なスコアとして、文字列候補の削除に用いる。
【0069】
図11および図13を用いて説明した例では、矛盾する文字列候補の組のうち、スコアの小さい文字列候補を順次削除していく処理を繰り返す結果、文字列候補(13)から(22)が残り、これらが文字列推定結果として出力される。以上に述べたスコアの重みの配分や閾値の値は、対象として想定する文書画像に対して適切な推定ができるように実験的に求めればよく、本実施例に述べた数値と異なるものを用いてもよい。
【0070】
図14は、文字ブロック推定手段108が文字ブロックを推定する一例を示す図である。この例では、文字列推定手段107の結果得られた文字列の並び1103に対して、10行すべてについて文字行の幅および上辺の高さ、横に隣接する文字行間の距離がほぼ一定であること、文字行中に含まれる矩形の形状・大きさと縦に隣接する矩形間の距離が各行に共通してほぼ一定であること、さらに“ハンディなど”“ロシアの”“舞い上がり”“見事な”など各行にまたがって日本語の文節として成り立つ文字コードの並びがあることなどから、10行は1つの文字ブロックに統合できることが推定できる。結果として1401に示すような文字ブロックが得られる。
【0071】
図15は、本発明における文字ブロック推定手段の一実施例の動作を示すフローチャートである。
【0072】
(S150)まず、文書画像中の文字列を対象に、接続する可能性のある2つの文字列の組である文字列間接続候補を生成する。
【0073】
(S151)各接続候補についてスコアを計算する。
【0074】
(S152)予め定められた閾値と各接続候補のスコアを比較し、スコアが閾値未満である接続候補を削除する。
【0075】
(S153)残っている接続候補に従って、文字列どうしを統合して文字ブロックを生成する。
【0076】
(S154)最後に、生成された文字ブロックを推定結果として出力して処理を終わる。
【0077】
この動作フローは、従来の技術でも用いられることがある。本発明の一実施例における文字ブロック推定手段108の主な特徴は各候補のスコアの計算方法にある。次にこのスコアの計算方法を中心に、従来手法と比較しながら、各ステップの詳細を説明する。
【0078】
文字列間接続候補の生成には、従来の技術を用いることができる。例えば、2つの文字列の組の間に接続候補を生成する条件として、以下の条件を用いる。
【0079】
(a)2つの文字列の縦または横の方向が同一である。
(b1)横方向の文字列の場合、2つの文字列のそれぞれの縦方向の斜影の共通部分が存在する。
(b2)縦方向の文字列の場合、2つの文字列のそれぞれの横方向の斜影の共通部分が存在する。
(c1)横方向の文字列の場合、以下の条件をすべて満たす他の文字列が存在しない。
(c1−1)一方の文字列より上に位置し、もう一方の文字列より下に位置する。
(c1−2)縦方向の斜影が、2つの文字列のそれぞれの縦方向の斜影の共通部分と共通部分を持つ。
(c2)縦方向の文字列の場合、以下の条件をすべて満たす他の文字列が存在しない。
(c2−1)一方の文字列より右に位置し、もう一方の文字列より左に位置する。
(c2−2)横方向の斜影が、2つの文字列のそれぞれの横方向の斜影の共通部分と共通部分を持つ。
【0080】
図16に文字列間接続候補の例と、その文字列間接続候補に対し、従来技術と本発明の実施例の接続候補のスコアの例、そして本発明の実施例による文字ブロック推定結果の例を示す。図中、1601は文書画像の一部分、1602は非文字矩形、1603、1604、1605、1606、1607はそれぞれ文字列(1)、(2)、(3)、(4)、(5)である。この例では、文字列(1)は非文字矩形のキャプション、文字列(2)から(5)は本文であり、これらは別の文字ブロックとするのが望ましい。
【0081】
文字列間接続候補として、前記の条件を用いて、文字列(1)と文字列(2)の間の接続(以下(1)−(2)のように略記する)、(2)−(3)、(3)−(4)、(4)−(5)が得られる。
【0082】
1608は、従来技術による接続候補のスコアの例である。
【0083】
表中の列S1は、2つの文字列にそれぞれ含まれる文字の大きさの類似性に関するスコアである。2つの文字列に含まれる文字の大きさが近いほど、その接続候補に大きなスコアが与えられる。この例の場合、文字列(1)から(5)に含まれる文字の大きさは全てほぼ等しいので、各接続候補には等しくスコア10が与えられる。
【0084】
S2は、文字列の間隔に関するスコアである。横方向の文字列の場合、文字列間の縦方向の間隔が小さいほど大きなスコアが与えられる。この例の場合、各文字列は当間隔に並んでおり、各接続候補には等しくスコア6が与えられる。
【0085】
S3は、文字列の両端の位置に関するスコアである。横方向の文字列の場合、2つの文字列の両端の横方向の位置が、それぞれ近いほど大きなスコアが与えられる。この例の場合、接続候補(1)−(2)と接続候補(3)−(4)では、文字列の先頭、後尾の位置が離れており、スコア−10が与えられる。接続候補(2)−(3)では、先頭の位置はほぼ等しく、後尾の位置が離れており、スコア−5が与えられる。接続候補(4)−(5)では、後尾の位置はほぼ等しく、先頭の位置が離れており、スコア−2が与えられる。
【0086】
Tは、S1からS3のスコアの合計値である。従来技術の一例ではこのTを接続候補の削除に用いる。しかしながら、例えば閾値を0としたとき、削除される接続候補は無く、文字列(1)から(5)は全て統合される。本来は文字列(1)は非文字矩形に付随するキャプションであり、同じ文字ブロックに含まれるべきではない。一方文字列(1)が独立した文字ブロックとなるように、閾値を接続候補(1)−(2)のスコア6より大きな値、例として7としたときは、接続候補(1)−(2)とともに接続候補(3)−(4)も削除されて、文字列(1)、文字列(2)と(3)、文字列(4)と(5)の3つの文字ブロックが生成される。この結果は本来同じ文字ブロックとなるべき文字列(2)から(5)が別々になってしまい好ましくない。
【0087】
従来技術による問題点は、1608に例として挙げたように、文字列の位置や形状、文字列に含まれる文字の位置や形状のみでは、接続すべき文字列と接続すべきでない文字列を正確に区別できない場合が多いことである。
【0088】
1609は、本発明の一実施例における文字ブロック推定手段108による接続候補のスコアの一例である。
【0089】
S1、S2は従来技術1508で説明したS1、S2と同じものである。
【0090】
S3は、従来技術1508と同じく文字列の両端の位置に関するスコアであるが、本発明では、先に文字認識を行っているので、その結果を利用することによりスコアの付け方が異なる。例えば、横方向の文字列の場合、2つの文字列の両端の横方向の位置が、それぞれ近いほど大きなスコアが与えられる。これは、1508と同様である。更に、文字列の後尾の文字矩形に対応する文字コードが“。”または“.”である場合は、例外として、接続するもう一方の文字列より後尾の位置が左であれば大きなスコアを与える。この例の場合、文字列(3)は後尾の文字矩形に対応する文字コードが“。”であり、文字列(3)の後尾の位置は文字列(2)、(4)の後尾より左であるので、接続候補(2)−(3)、接続候補(3)−(4)に対して、1508で従来技術の場合に与えられたスコアより大きなスコア0が与えられる。
【0091】
S4は、文字列間の文法的な連続性に関するスコアである。2つの文字列に含まれる文字矩形に対応する文字コードを文法的に検定し、文法的な連続性が高いほど大きなスコアが与えられる。例として、接続候補に対応する2つの文字列に含まれる文字矩形に対応する文字コードに対して形態素解析を行ない、文字列間にまたがって単語が検出される場合はスコア20を与える。図16の例の場合、接続候補(2)−(3)、(4)−(5)における“意味”、“レベル”がこれに相当する。また、文字列間にまたがって文節が検出されるが、単語は文字列間にまたがって検出されない場合にはスコア10を与える。図16の例にはこれに相当するものはないが、例えば、“…意味”−“がなく…”という接続がこれに相当する。また、文節の切れ目と文字列の接続位置がちょうど一致する場合にはスコア5を与える。図16の例の場合、接続候補(3)−(4)における、“…できない。”−“そこで…”という接続がこれに相当する。更に、文字列の接続位置において、解析不能であったり、未知語が検出された場合にはスコア−10が与えられる。図16の例の場合、接続候補(1)−(2)において、“…分類る」といった…”の解析で“る”という未知語が検出されるので、この場合に相当する。
【0092】
Tは、S1からS3のスコアの合計値である。閾値を0に設定することにより、接続候補(1)−(2)が削除され、残っている接続に従って文字列を統合すれば、文字ブロック1610および1611が得られる。以上に述べたスコアの重みの配分や閾値の値は、対象として想定する文書画像に対して適切な推定ができるように実験的に求めればよく、本実施例に述べた数値と異なるものを用いてもよい。
【0093】
図17は、文字ブロック順序推定手段111が文字ブロックの順序を推定する一例を示す図である。1701は文書画像の一部分である。1711〜1719は非文字矩形推定手段106、文字ブロック推定手段108による処理の結果得られる非文字矩形および文字ブロックの例である。この例では、1702に示すように、1712、1715、1719は非文字矩形、1711、1713、1714、1716、1717、1718は縦書きの文字ブロックとして推定されている。
【0094】
文字ブロック順序推定手段が用いるルールの例として、構成する文字の幅・高さの平均が他の文字ブロックを構成する文字矩形の面積の平均の2倍より大きい文字ブロックは、大見出しとして順序を最初とし、非文字矩形の上または下に隣接する横書きの文字ブロック、あるいは非文字矩形の左または右に隣接する縦書きの文字ブロックで、他に隣接する文字ブロックと文字行の方向や文字矩形の大きさの平均が異なるものを図形等に付属するキャプションとして順序を最後とし、その他の文字ブロックを本文として、縦書きの場合は上から下、右から左の順序に、横書きの場合は左から右、上から下の順序に並べる、というルールを用いる。このルールに従えば文字ブロック1713は順序が最初に決定される。また残りの文字ブロックについては、1717、1716、1711、1718、1714という順序と、1717、1716、1718、1711、1714という順序の2通りの可能性がある。
【0095】
次に各文字ブロックに含まれる各文字矩形に対応する文字コードを調べる。文字ブロック間の文法的連続性の評価には、前に述べた文字列間の文法的連続性の評価と同様の技術を用いることができる。即ち、図17の例では、1716から1711への接続と1718から1714への接続にはスコア20、1717から1716への接続と1711から1718への接続にはスコア5、1716から1718への接続と1718から1711への接続と1711から1714への接続にはスコア−10が与えられる。1717、1716、1711、1718、1714の文字ブロックの並びにおいては、スコアの合計は50、1717、1716、1718、1711、1714の文字ブロックの並びにおいては、スコアの合計は−25となる。このことから、1711、1718、1717、1716、1715という順序が正しい順序として推定され、最終的には、1712、1711、1718、1717、1716、1715、1714という順序が得られる。
【0096】
図18は、文字コード出力手段112による文字コード出力結果の例である。
【0097】
図19は、図3中のステップS38で行なわれる文字矩形の再推定の一例である。1901は文書画像の一部、1902は、図3中のステップS38の一度目の実行がなされる前の、文字矩形および文字列の推定結果を示したものである。1902において、文字「超」に相当する矩形1911は、図3中のステップS31における文字認識の結果、2103に示すように確信度「82」が得られるが、確信度が十分に大きくないために、文字矩形として確定されなかったものである。ステップS38で行なわれる再推定において、例えば、ある未確定の矩形が、以下の条件を満たしたときには、その矩形に対応する確信度に20を加算するものとする。
(1)2つの縦方向の文字列、または、2つの横方向の文字列の間にある。
(2)2つの文字列の中心線がほぼ一致する。
(3)2つの文字列中の文字間隔がほぼ等しい。
(4)2つの文字列中の文字の大きさの平均がほぼ等しい。
(5)その未確定の矩形と各文字列中の最近の文字矩形との間隔のそれぞれが、両文字列中の文字間隔とほぼ等しい。
(6)その未確定の矩形の大きさが、両文字列中の文字の大きさの平均とほぼ等しい。
【0098】
図19の例では、矩形1911はこれらの条件を満たすため、1904に示されるように、確信度に20が加算され「102」となる。その結果、矩形1911は文字矩形として確定される。この後、図3中のステップS34からの処理が再び実行され、1905に示されるように、正しく文字矩形および文字列が推定される。
【0099】
次に、論理構造解析手段113について説明する。レイアウト構造から論理構造を解析する手法は様々に提案されており、例えば画像電子学会誌Vol.17No.5 pp267〜277『書式定義言語を用いた文書画像の理解』に示されている手法を用いることができる。
【0100】
本発明では、先に文字認識を行い、その文字認識の結果を利用してブロックを推定し、論理構造の解析時には、レイアウト要素の1つである文字ブロックに関して、各々に含まれる文字の文字コードおよびそのブロック内における順序が明らかになっているため、文法情報あるいは単語に関する情報を用いて、より正確に論理構造を決定できる点を特徴とする。
【0101】
この例では、文字ブロック順序推定手段の実施例の説明で記述したものと同様の推定方法により、1711、1718、1717の各ブロックは、この順序で連続する本文領域であることが推定され、大段落の1つの一部を構成するブロックであることが推定できる。
【0102】
文字ブロック順序推定手段の推定の結果、図20の2001に示すような論理構造解析が得られる。
【0103】
論理構造を推定する他の例として、例えば、著者名が記述される論理ブロックを判定する際には、文字ブロック内に人名に用いられる単語があるか否かを検査することにより、判定の精度を向上することができる。また、図に付随する図見出しが記述される論理ブロックを判定する際には、非文字矩形からある閾値以内の近傍にあるというような位置関係や、文字ブロック内に“図”、“Fig.”などの文字の並びがあるか否かを検査することにより、該非文字矩形の論理構造が明確になり、判定の精度を向上することができる。
【0104】
【発明の効果】
本発明による文書画像解析装置では、先に、各矩形にたいして文字認識を行ない、その認識結果として得られる文字コードを利用し、また文法辞書を備えて文字コードの並びを利用することによって、文字行や文字ブロックなどの構造を推定するので、解析精度を向上でき、かつ、より複雑な構造を持つ文書画像を解析できる。
【図面の簡単な説明】
【図1】本発明による文書画像解析装置の一実施例の構成を示す図である。
【図2】文法辞書の一例を示す図である。
【図3】本発明の実施例における文書画像解析装置の動作の一例を示すフローチャートである。
【図4】外接矩形生成手段101により得られる外接矩形の例を示す図である。
【図5】本実施例における文字認識手段102−1、102−2、102−3の構成の一例を示す図である。
【図6】外接矩形生成手段101により得られた外接矩形の各々に対して、文字認識手段102により得られる文字コードと確信度の例を示す図である。
【図7】分離文字候補抽出手段104により得られる分離文字候補の例と、得られた分離文字候補の各々に対して、文字認識手段102−2により得られる文字コードと確信度の例を示す図である。
【図8】分離文字統合手段105が、分離文字候補の中から分離文字を決定し、複数の外接矩形を統合した例を示す図である。
【図9】接触文字候補抽出手段109により得られる接触文字候補を含む画像の一例を示す図である。
【図10】接触文字分割手段110が、接触文字候補の中から接触文字を決定し、複数の外接矩形に分割した例を示す図である。
【図11】文字列推定手段107のよる文字列の推定の例を示す図である。
【図12】図3の(S34)を詳細化した、文字列推定手段107の動作の一例を示すフローチャートである。
【図13】文字列推定手段107において、文字列の推定のためのスコアの一例を示す図である。
【図14】文字ブロック推定手段108による文字ブロックの推定の例を示す図である。
【図15】図3の(S35)を詳細化した、文字ブロック推定手段108の動作の一例を示すフローチャートである。
【図16】従来技術、及び本発明の文字ブロック推定手段108において、文字ブロックの推定に用いるスコアの一例を示す図である。
【図17】文字ブロック順序推定手段111による文字ブロックの順序の推定の一例を示す図である。
【図18】文字コード出力手段112による文字コード出力結果の例である。
【図19】図3の(S38)文字矩形の再推定の一例を示す図である。
【図20】論理構造解析手段113によって、各文字ブロック及び非文字矩形に対して論理的な構造を付与した例を示す図である。
【図21】従来技術における文書画像解析装置の動作の一例を示すフローチャートである。
【符号の説明】
101:外接矩形生成手段; 102−1、102−2、102−3:文字認識手段; 103:文法辞書; 104:分離文字候補抽出手段; 105:分離文字統合手段; 106:非文字矩形推定手段; 107:文字列推定手段;108:文字ブロック推定手段; 109:接触文字候補抽出手段; 110:接触文字分割手段; 111:文字ブロック順序推定手段; 112:文字コード出力手段; 113:論理構造解析手段; 201:自立語表; 202:付属語表; 203:活用表; 204:接続表; 401:文書画像の一部分; 411〜420:外接矩形; 501:画像正規化部; 502:特徴抽出部; 503:距離計算部; 504:結果出力部; 601:文字コードと確信度; 701:分離文字候補に対する文字コードと確信度; 711〜714:分離文字候補; 811〜816:分離文字統合後の矩形; 901:文書画像の一部分; 902:文字コードと確信度; 911〜917:外接矩形; 1001:文字コードと確信度; 1011,1012:接触文字候補を分割して得られる矩形; 1101:文書画像の一部分; 1102:文字矩形;1103:文字行推定結果; 1401:文字ブロック推定結果; 1601:文書画像の一部分; 1602:非文字矩形; 1603〜1607:文字列; 1608:従来技術のスコアの一例; 1609:本発明のスコアの一例; 1610,1611:文字ブロック; 1701:文書画像の一部分; 1702:文字ブロック推定結果及び非文字矩形推定結果: 1711,1712,1714〜1718:文字ブロック: 1713:非文字矩形; 1801:文字コード出力結果; 1901:文字画像の一部; 1902,1903:文字矩形及び文字列の推定結果; 1903,1904:文字コードと確信度; 1911:文字矩形の一部の拡大図; 2001:論理構造推定結果.

Claims (8)

  1. 画像中の連結黒画素塊を取り出す画素塊抽出手段と、前記画素塊抽出手段により取り出された連結黒画素塊に対して文字認識処理を行い、少なくとも1つの文字コードを決定する第1の文字認識手段と、単語間の接続情報を保持する文法辞書と、前記文字認識手段の決定した文字コード、前記文法辞書の保持する単語間の接続情報に基づいて文字コードの並びの中の文節として成り立つ並びを検出して、該並びの長さに関する情報を少なくとも用いて文字列の方向を推定する文字列推定手段と、を備えることを特徴とする文書画像解析装置。
  2. 請求項1に記載の文書画像解析装置であって、複数個の前記連結黒画素塊を統合して1文字になる可能性を持つ分離文字候補を抽出する分離文字候補抽出手段と、該分離文字候補に対して文字認識処理を行い、少なくとも1つの文字コードを決定する第2の文字認識手段と、該分離文字候補から分離文字を決定する分離文字統合手段とを有することを特徴とする文書画像解析装置。
  3. 請求項1に記載の文書画像解析装置であって、1つの前記連結黒画素塊を分割して複数の文字または文字の一部を形成する可能性を持つ接触文字候補を抽出する接触文字候補抽出手段と、該接触文字候補から接触文字を決定し、該接触文字を複数の画像に分割する接触文字分割手段と、前記接触文字分割手段により得られる画像に対して文字認識処理を行い、少なくとも1つ以上の文字コードを出力する第3の文字認識手段を特徴とする文書画像解析装置。
  4. 請求項1乃至3に記載の文書画像解析装置であって、前記連結黒画素塊に対して前記第1の文字認識手段の出力する少なくとも確信度に基づいて文字ではない非文字矩形を推定する非文字推定手段を更に有することを特徴とする文書画像解析装置。
  5. 請求項1乃至4に記載の文書画像解析装置であって、更に、前記文字列推定手段の推定した文字列、前記第1、第2または第3の文字認識手段の出力した文字コード、及び前記文法辞書の保持する単語間の接続情報に基づいて、文字列の集合としての文字ブロックを推定する文字ブロック推定手段を有することを特徴とする文書画像解析装置。
  6. 請求項5に記載の文書画像解析装置であって、更に前記文字ブロック推定手段の推定した文字ブロック、該文字ブロックに含まれる前記文字列、及び前記第1、第2または第3の文字認識手段の出力した文字コードと前記文法辞書の保持する単語間の接続情報とに基づいて、文字ブロックの順序を推定する文字ブロック順序推定手段と、前記文字ブロック推定手段の推定した文字ブロック、該文字ブロックに含まれる前記文字列、前記第1、第2または第3の文字認識手段の出力した文字コード、及び前記文字ブロック順序推定手段の推定した文字ブロックの順序から、前記文字ブロックに含まれる文字コードを前記順序で出力する文字コード出力手段とを備えることを特徴とする文書画像解析装置。
  7. 請求項5に記載の文書画像解析装置であって、前記文字ブロック推定手段の推定した文字ブロック、該文字ブロックに含まれる各文字列、及び該文字列に含まれて前記第1、第2または第3の文字認識手段の出力した文字コードと、文法辞書内の単語間の接続情報に基づいて、前記文字ブロックに論理的な構造を付与して出力する第1の論理構造解析手段を備えることを特徴とする文書画像解析装置。
  8. 請求項5に記載の文書画像解析装置であって、前記非文字矩形に関して、その近傍に存在する前記文字ブロック推定手段の推定した文字ブロック、該文字ブロックに含まれる各文字列、及び該文字列に含まれて前記第1、第2または第3の文字認識手段の出力した文字コードと、文法辞書内の単語間の接続情報に基づいて、前記非文字矩形に論理的な構造を付与して出力する第2の論理構造解析手段を備えることを特徴とする文書画像解析装置。
JP21280695A 1995-07-28 1995-07-28 文書画像解析装置 Expired - Fee Related JP3546553B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP21280695A JP3546553B2 (ja) 1995-07-28 1995-07-28 文書画像解析装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP21280695A JP3546553B2 (ja) 1995-07-28 1995-07-28 文書画像解析装置

Publications (2)

Publication Number Publication Date
JPH0944605A JPH0944605A (ja) 1997-02-14
JP3546553B2 true JP3546553B2 (ja) 2004-07-28

Family

ID=16628685

Family Applications (1)

Application Number Title Priority Date Filing Date
JP21280695A Expired - Fee Related JP3546553B2 (ja) 1995-07-28 1995-07-28 文書画像解析装置

Country Status (1)

Country Link
JP (1) JP3546553B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000036530A1 (fr) * 1998-12-15 2000-06-22 Matsushita Electric Industrial Co., Ltd. Methode de recherche et dispositif correspondant, support enregistre
JP5853495B2 (ja) * 2011-08-26 2016-02-09 富士ゼロックス株式会社 画像処理装置及び画像処理プログラム
JP5997808B1 (ja) 2015-06-18 2016-09-28 株式会社Pfu 画像処理装置、日付識別装置、画像処理方法、および、プログラム
CN112000901B (zh) * 2020-08-26 2023-01-13 北京百度网讯科技有限公司 一种提取地理位置点空间关系的方法和装置

Also Published As

Publication number Publication date
JPH0944605A (ja) 1997-02-14

Similar Documents

Publication Publication Date Title
Sabbour et al. A segmentation-free approach to Arabic and Urdu OCR
JP4181310B2 (ja) 数式認識装置および数式認識方法
JP3647518B2 (ja) コード化したワードトークンを使用して文書画像をハイライトで強調する装置
Shen et al. A large dataset of historical japanese documents with complex layouts
JP3919617B2 (ja) 文字認識装置および文字認識方法、プログラムおよび記憶媒体
JPH08305803A (ja) 文字テンプレートセット学習マシン動作方法
US7099507B2 (en) Method and system for extracting title from document image
Tensmeyer et al. Training full-page handwritten text recognition models without annotated line breaks
CN103902993A (zh) 文档图像识别方法和设备
US20140297253A1 (en) Translation support apparatus, translation support system, and translation support program
US20230177266A1 (en) Sentence extracting device and sentence extracting method
RU2259592C2 (ru) Способ распознавания графических объектов с использованием принципа целостности
KR101118628B1 (ko) 지능형 인식 라이브러리 및 관리 도구를 활용한 고문서 이미지 데이터 인식 및 처리 방법
JP2023043910A (ja) 文字列抽出装置、文字列抽出方法、および文字列抽出プログラム
JP3546553B2 (ja) 文書画像解析装置
CN115050025A (zh) 基于公式识别的知识点抽取方法及装置
Ymin et al. On the segmentation of multi-font printed Uygur scripts
Rathnasena et al. Summarization based approach for old sinhala text archival search and preservation
KR102673900B1 (ko) 표 데이터 추출 시스템 및 그 방법
CN115410207B (zh) 一种针对竖排文本的检测方法及装置
Trenkle et al. Arabic character recognition
JP2002056357A (ja) 文字認識装置、その方法および記録媒体
JP4001605B2 (ja) 翻訳パターン作成装置
JP3783053B2 (ja) 負の例予測処理方法、処理プログラムおよび処理装置、負の例予測処理を用いた日本語表記誤り検出処理プログラムおよび処理装置、ならびに負の例予測処理を用いた外の関係検出処理プログラムおよび処理装置
JPH09245120A (ja) 文字切出し方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040119

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040323

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040405

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080423

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090423

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100423

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110423

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120423

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees