JP3525997B2

JP3525997B2 - 文字認識方法

Info

Publication number: JP3525997B2
Application number: JP33018297A
Authority: JP
Inventors: 勝利小原; 真一江口; 義博永野; 秀樹松野; 亘一千葉; 裕勝又
Original assignee: Fujitsu Ltd; Fujitsu Frontech Ltd
Current assignee: Fujitsu Ltd; Fujitsu Frontech Ltd
Priority date: 1997-12-01
Filing date: 1997-12-01
Publication date: 2004-05-10
Anticipated expiration: 2017-12-01
Also published as: US6549662B1; JPH11161736A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、帳票の文字列のレ
イアウトを検出して、データ部分の文字列の認識を行う
文字認識方法に関する。

【０００２】データの自動入力のため、帳票上の文字を
認識する文字認識方法が用いられている。この文字認識
においては、指定された位置のイメージを取り出し、文
字認識する。

【０００３】帳票上の文字の文字種類は、漢字、数字、
英字の種類があり、文字の文字フォントは、活字、手書
き文字がある。これらの文字を正確に認識するには、文
字の位置、種類やフォント名という文字の定義を定めて
おく必要がある。

【０００４】

【従来の技術】図３１は、帳票の説明図、図３２は、従
来技術の説明図である。

【０００５】図３１は、帳票として振込依頼書を示す。
この振込依頼書は、２９の文字列Ｃ１〜Ｃ２９を有す
る。振込人は、Ｃ２に示すように、株式会社「あいうシ
ステム」である。そして、振込指定日は、Ｃ３、Ｃ４に
示すように、平成９年７月２０日である。

【０００６】次に、見出し部分として、振込先（Ｃ
５）、科目（Ｃ６）、口座番号（Ｃ７）受取人名（Ｃ
８）、振込金額（Ｃ９）が並ぶ。振込先の見出しに対応
するデータ分は、Ｃ１０、Ｃ１１、Ｃ１６、Ｃ１７、Ｃ
２２、Ｃ２３である。科目の見出しに対応するデータ部
分は、Ｃ１２、Ｃ１８、Ｃ２４である。口座番号の見出
しに対応するデータ部分は、Ｃ１３、Ｃ１９、Ｃ２５で
ある。

【０００７】受取人名の見出しに対応するデータ部分
は、Ｃ１４、Ｃ２０、Ｃ２６である。振込金額の見出し
に対応するデータ部分は、Ｃ１５、Ｃ２１、Ｃ２７であ
る。最後に、見出し「振込合計」（Ｃ２８）と、そのデ
ータ部分（Ｃ２９）が記入されている。

【０００８】このような帳票において、データ部分を認
識するには、データ部分の位置、データ名を定義してお
く必要がある。又、データ部分の文字種が判っていれ
ば、そのデータ部分の文字認識範囲を限定でき、高い精
度の文字認識が可能となる。この文字認識範囲を限定す
るため、データ部分の文字カテゴリー、文字フォント種
類を定義する必要がある。

【０００９】図３２に示すように、例えば、文字列Ｃ１
０に対し、位置、データ名（振込先）、文字カテゴリー
（漢字）、文字フォント（活字）が定義される。従来
は、帳票毎に、文字を読み取る位置等を定義した定義情
報を事前に作成して、認識装置に登録する。

【００１０】そして、登録された定義情報に従い、帳票
上のイメージを切り出し、文字認識していた。

【００１１】

【発明が解決しようとする課題】しかしながら、従来技
術では、定義情報を登録する必要があるため、予め定義
情報を登録した帳票しか、文字認識できない。例えば、
金融機関において、振込の自動入力を行う場合に、企業
が作成する振込依頼書のフォーマットは、様々である。
このような各帳票の定義情報を予め作成しておくこと
は、手間がかかるという問題がある。

【００１２】又、帳票の定義情報を登録したとしても、
その帳票のフォーマットが変更になった場合に、定義情
報を変更する必要があるという問題もある。

【００１３】本発明の目的は、帳票の文字の定義情報を
予め作成する必要のない文字認識方法を提供するにあ
る。

【００１４】本発明の他の目的は、帳票の文字列の並び
から帳票の文字のレイアウトを自動的に検出する文字認
識方法を提供することにある。

【００１５】本発明の更に他の目的は、帳票の文字の定
義情報を自動的に検出して、帳票のデータ部分を文字認
識するための文字認識方法を提供することにある。

【００１６】本発明は、見出し部分の文字とデータ部分
の文字とを有する罫線を有しない帳票の文字を認識する
文字認識方法である。そして、本発明は、帳票のイメー
ジデータを走査し、黒画素が連続する部分をラベルとし
て抽出し、抽出したラベル間の位置関係から各文字列を
抽出するステップと、前記抽出した文字列の行及び列方
向の位置関係から前記罫線を有しない帳票の見出し部分
とデータ部分とを判別するステップと、前記見出し部分
の文字列を見出し辞書を用いて認識して、前記データ部
分の文字属性を決定するステップと、前記文字属性に従
い、前記データ部分の文字列を認識するステップとを有
し、前記判別するステップは、前記文字列の抽出により
得た前記文字列の開始座標の比較による位置関係から同
一の論理行を構成する文字列を抽出するステップと、前
記文字列の開始座標又は終了座標から、前記文字列の並
びが同じ論理行をブロックとして抽出するステップと、
前記各ブロックにおいて、前記文字列の開始又は終了座
標から、同じ列を構成する文字列を論理列として抽出す
るステップと、前記論理列の位置関係から前記論理列間
の対応関係を決定するステップと、前記ブロックの位置
関係から前記論理列の見出し部分を決定するステップと
を有する。

【００１７】本発明では、見出し部分の文字とデータ部
分の文字とを有する罫線を有しない帳票の文字を認識す
る際に、帳票のイメージデータを走査し、黒画素が連続
する部分をラベルとして抽出し、抽出したラベル間の位
置関係から各文字列を抽出して、抽出した文字列の行及
び列方向の位置関係から罫線を有しない帳票の見出し部
分を判別する。そして、予め登録した見出し認識辞書を
用いて、見出し部分の文字列を認識して、データ部分の
文字属性を決定する。その文字属性に従い、データ部分
の文字列を認識する。更に、罫線を有しない帳票から文
字列の位置関係から、論理行及び論理列を構成する単位
に分類するため、文字列の抽出結果としての文字列自体
の開始、終了座標を使用している。このため、文字列自
体から論理行及び論理列、ブロックの分類という複雑な
表構造解析が可能となる。

【００１８】帳票の見出し部分とデータ部分とを判別し
て、見出しの文字認識を行うため、自動的にデータ部分
の文字属性を決定できる。しかも、見出し部分は、汎用
性があり、文字種類も限られているため、容易に見出し
部分の文字認識ができる。更に、データ部分は、決定さ
れた文字属性に応じて、文字認識するため、文字認識の
精度が向上する。

【００１９】

【発明の実施の形態】図１は、本発明の一実施の形態の
文字認識装置の構成図、図２は、本発明の一実施の形態
の全体処理フロー図である。

【００２０】図１に示すように、スキャナー１は、帳票
を光学的に読み取る。キーボード２は、オペレータが各
種の入力を行うためのものである。ディスプレイ３は、
認識結果等を表示する。プロセッサ（ＣＰＵ）４は、文
字認識を行う。記憶ユニット５は、ＣＰＵ４の処理に必
要なデータ等を格納するものである。

【００２１】記憶ユニット５は、見出し文言辞書５０
と、カテゴリー／フォント別辞書５１〜５ｎを格納す
る。見出し文言辞書５０は、予め定められた見出し文言
とそのイメージデータを格納する。カテゴリー／フォン
ト別辞書５１〜５ｎは、データ部分の文字認識のため、
文字認識カテゴリー／文字フォント別の辞書を格納す
る。

【００２２】ＣＰＵ４は、文字列を抽出する文字列抽出
部４０と、文字列の並びから見出し部分を判別する見出
し判別部４１と、見出し部分の文字認識を行う見出し認
識部４２と、データ部分の文字認識を行うデータ認識部
４３とを有する。尚、後述するように、これら各部は、
ＣＰＵ４が行う処理をブロックで表現したものである。

【００２３】図２に従い、文字認識処理を説明する。

【００２４】（Ｓ１）ＣＰＵ４は、帳票のイメージデー
タから文字列を抽出する。

【００２５】（Ｓ２）ＣＰＵ４は、行方向に同一の並び
の文字列を抽出して、論理行構成部を抽出する。

【００２６】（Ｓ３）ＣＰＵ４は、同じ行構造を持つ論
理行を抽出して、表構成部を抽出する。

【００２７】（Ｓ４）ＣＰＵ４は、同じ列構造を持つ論
理列を抽出する。

【００２８】（Ｓ５）ＣＰＵ４は、表構造部を構成する
ブロックを統合して、各論理列間のリンクを設定する。
各ブロックに、所定のルールでブロック属性を付与す
る。

【００２９】（Ｓ６）ＣＰＵ４は、ブロック属性から見
出し部分を抽出する。

【００３０】（Ｓ７）ＣＰＵ４は、見出し辞書５０を用
いて、見出し部分を文字認識して、データ部分の文字の
属性（データ名、位置、文字カテゴリー、文字フォン
ト）を決定する。

【００３１】（Ｓ８）ＣＰＵ４は、データ部分の属性に
従い、カテゴリー／フォント別辞書５１〜５ｎを選択し
て、データ部分の文字認識を行う。

【００３２】以下、図３乃至図３０を用いて、各処理を
説明する。尚、図３１に示した振込依頼書を帳票の例と
して使用する。

【００３３】図３は、図２の文字列抽出処理の説明図、
図４は、図２の論理行抽出処理の説明図、図５は、論理
行抽出処理のフロー図、図６は、図５の抽出処理の動作
説明図、図７は、他の論理行抽出処理のフロー図、図８
は、別の論理行抽出処理の説明図、図９は、各処理に使
用されるテーブルの説明図である。

【００３４】先ず、文字列抽出処理について、図３及び
図９により説明する。

【００３５】図３に示すように、帳票のイメージデータ
を走査して、黒画素が連続する部分をラベルとして抽出
する。図では、文字「１」、「２」、「３」、「４」の
４つのラベルが抽出される。抽出したラベルの内、しき
い値以内の距離にあるラベルを、同じ文字列を構成する
ラベルとして抽出する。図３では、文字「１」と文字
「２」とが、同一の文字列を構成する。文字「３」と文
字「４」とが、同一の文字列を構成する。そして、図の
四角で囲まれた部分が、文字列部分として、抽出され
る。

【００３６】図９に示すように、抽出された文字列は、
文字列テーブルＴ１で示される。文字列テーブルＴ１
は、文字列データ番号と、開始座標（Ｘ、Ｙ）、終了座
標（Ｘ、Ｙ）、入れ子情報、論理行リンク先アドレス、
論理列リンク先アドレスとで構成される。

【００３７】図３１の例では、２９の文字列が抽出され
る。そして、文字列テーブルＴ１に、各文字列のデータ
番号と開始座標と終了座標が格納される。

【００３８】次に、論理行抽出処理について、図４乃至
図９により説明する。

【００３９】論理行抽出処理は、各文字列の位置関係を
判定して、横方向に並ぶ項目データ（文字列）を論理行
を構成するグループとして抽出する処理である。図３１
の例では、図４に示すように、７つの論理行Ｌ１〜Ｌ７
が抽出される。

【００４０】この処理を、図５、図６、図９で説明す
る。

【００４１】（Ｓ１０）文字列テーブルＴ１から、隣り
合う２つの文字列を抽出する。

【００４２】（Ｓ１１）文字列テーブルＴ１の全文字列
を参照したかを判定する。全文字列を参照した場合に
は、処理を終了する。

【００４３】（Ｓ１２）全文字列を参照していない場合
には、Ｙ座標の許容値ＹＡを算出する。これは、帳票が
斜行して、読み取られた場合を想定している。

【００４４】（Ｓ１３）比較する２つの文字列の開始Ｙ
座標の差ΔＹを算出する。そして、その差が許容値以内
かを判定する。

【００４５】（Ｓ１４）その差が許容値以内なら、ステ
ップＳ１５に進む。その差が許容値を越えていれば、ス
テップＳ１６に進む。

【００４６】図６に示すように、文字列が水平に並んで
いても、帳票の斜行のために、それぞれの文字列全体が
斜行している。このため、この斜行を考慮して、文字列
が水平に並んでいるかを判定する。

【００４７】例えば、図６に示す様に、最大斜度θを５
度とした場合に、ｔａｎθ＝０．０８７である。最大斜
度の範囲内で、同じＹ座標を持つと判断できるＹ座標の
範囲（許容値）ＹＡは、文字列間の開始Ｘ座標の差ΔＸ
を用いて、下記のように、算出できる。

【００４８】ＹＡ＝ΔＸ×０．０８７図６の例では、ΔＸは、（Ｘ２ーＸ１）であるから、
「１００」である。従って、許容値ＹＡは、８．７とな
る。この結果から、開始Ｘ座標がＸ１、Ｘ２である２つ
の文字列は、Ｙ座標の差ΔＹが、８ドット以内ならば、
同じ論理行を構成する文字列と判断できる。逆に、Ｙ座
標の差ΔＹが８ドットを越えるならば、同じ論理行を構
成しない文字列と判断する。

【００４９】（Ｓ１５）２つの文字列が同一の論理行を
構成すると判断した場合には、両文字列をリンクする論
理行テーブルを作成する。図９に示すように、論理行テ
ーブルＴ２は、論理行番号と開始座標（Ｘ、Ｙ）と終了
座標（Ｘ、Ｙ）と文字列数と先頭文字列アドレスとで構
成される。

【００５０】例えば、図３１及び図４の例では、論理行
Ｌ２には、文字列Ｃ２と文字列Ｃ３を含む開始座標、終
了座標が設定され、文字列数は「２」が設定され、先頭
アドレスとして、文字列２のアドレスが設定される。そ
して、文字列テーブルＴ１の文字列２の論理行リンク先
アドレスに、文字列３のアドレスが設定される。

【００５１】同様に、論理行Ｌ７には、文字列Ｃ２８と
文字列Ｃ２９を含む開始座標、終了座標が設定され、文
字列数は「２」が設定され、先頭アドレスとして、文字
列２８のアドレスが設定される。

【００５２】そして、ステップＳ１０に戻る。

【００５３】（Ｓ１６）２つの文字列が同一の論理行を
構成しないと判断した場合には、両文字列をリンクしな
い論理行テーブルを作成する。例えば、図３１及び図４
の例では、論理行Ｌ１には、文字列Ｃ１の開始座標、終
了座標が設定され、文字列数は「１」が設定され、先頭
アドレスとして、文字列１のアドレスが設定される。そ
して、ステップＳ１０に戻る。

【００５４】このようにして、図４に示すように、各文
字列を論理行に分類して、論理行テーブルＴ２を作成す
る。

【００５５】図７は、他の論理行抽出処理のフロー図で
ある。

【００５６】（Ｓ２０）帳票全体の傾きを、イメージデ
ータから計算する。例えば、帳票の外接矩形をイメージ
データから求める。そして、外接矩形の傾きを計算す
る。

【００５７】（Ｓ２１）求めた傾きを補正するように、
帳票のイメージデータを回転する。そして、前述の文字
列抽出処理を行う。

【００５８】（Ｓ２２）文字列テーブルＴ１から、隣り
合う２つの文字列を抽出する。

【００５９】（Ｓ２３）文字列テーブルＴ１の全文字列
を参照したかを判定する。全文字列を参照した場合に
は、処理を終了する。

【００６０】（Ｓ２４）全文字列を参照していない場合
には、比較する２つの文字列の開始Ｙ座標の差ΔＹを算
出する。そして、その差が誤差範囲以内かを判定する。
その差が誤差範囲以内なら、両文字列は、同一の論理行
を構成すると判断して、ステップＳ２５に進む。その差
が誤差範囲を越えていれば、両文字列は、同一の論理行
を構成しないと判断して、ステップＳ２６に進む。

【００６１】（Ｓ２５）２つの文字列が同一の論理行を
構成すると判断した場合には、両文字列をリンクする論
理行テーブルを作成する。そして、ステップＳ２２に戻
る。

【００６２】（Ｓ２６）２つの文字列が同一の論理行を
構成しないと判断した場合には、両文字列をリンクしな
い論理行テーブルを作成する。そして、ステップＳ２２
に戻る。

【００６３】このように、帳票全体の傾きを検出して、
傾きを補正する。その後、論理行の抽出処理を行う。

【００６４】図８は、別の論理行抽出処理の説明図であ
る。

【００６５】図８に示すように、イメージデータのビッ
トマップを、水平方向に投影する。そして、水平方向の
ビット列毎に、黒画素をカウントする。このようにする
と、水平投影されたビット列の黒画素数は、図８のグラ
フのように、文字列の存在する部分で、山を形成する。

【００６６】そこで、ビット列の山が存在する位置（Ｙ
座標）に、論理行が存在すると判定する。そして、論理
行が存在する位置（Ｙ座標）を有する文字列を、１ツの
論理行を構成する文字列として抽出する。このようにし
ても、論理行を構成する文字列を抽出することができ
る。

【００６７】次に、表構成部の抽出処理について、図１
０乃至図１４を用いて説明する。

【００６８】図１０は、表構造部抽出処理の説明図、図
１１は、表構造部抽出処理の動作説明図、図１２は、表
構造部抽出処理のフロー図、図１３は、ブロックテーブ
ルの説明図、図１４は、他の表構造部抽出処理の説明図
である。

【００６９】表構造部の抽出処理は、上下に隣り合う論
理行が、同じ行構造を持つか判定する。図１１に示すよ
うに、上下に隣り合う論理行の間で、左側に位置する文
字列から順に参照する。そして、両文字列の開始Ｘ座標
又は終了Ｘ座標が、一致するかを判定する。即ち、両文
字列の開始Ｘ座標又は終了Ｘ座標の差が、誤差範囲にあ
るかを判定する。そして、２つの論理行の全ての文字列
の開始Ｘ座標又は終了Ｘ座標が一致する場合に、同じ行
構造を持つと判断する。そして、同じ行構造を持つ論理
行をブロックに纏める。

【００７０】図１１では、上下に隣り合う論理行Ｌ４、
Ｌ５の間で、論理行Ｌ４の文字列Ｃ１０、Ｃ１１、Ｃ１
２、Ｃ１３、Ｃ１４の開始Ｘ座標が、論理行Ｌ５の文字
列Ｃ１６、Ｃ１７、Ｃ１８、Ｃ１９、Ｃ２０の開始Ｘ座
標と一致し、且つ論理行Ｌ４の文字列Ｃ１５の終了Ｘ座
標が、論理行Ｌ５の文字列Ｃ２１の終了Ｘ座標と一致す
る。従って、２つ論理行Ｌ４、Ｌ５は、同じ行構造を持
つため、１つのブロックに分類される。

【００７１】同様に、論理行Ｌ６も、論理行Ｌ５と同一
の行構造を持つため、１つのブロックに分類される。こ
のようにして、図３１の例では、図１０に示すように、
論理行Ｌ４、Ｌ５、Ｌ６が、１つのブロックＢ４に分類
される。他の各論理行は、各々１つブロックを構成す
る。

【００７２】図１２により、詳細に説明する。

【００７３】（Ｓ３０）論理行テーブルＴ２から上下に
隣り合う２つの論理行を抽出する。

【００７４】（Ｓ３１）全論理行を参照したかを調べ
る。全論理行を参照した場合には、処理を終了する。

【００７５】（Ｓ３２）全論理行を参照していない場合
には、各論理行を構成する文字列を左側から抽出する。
そして、各論理行間の２つ文字列の開始Ｘ座標又は終了
Ｘ座標のいずれかが一致するかを判定する。２つの論理
行間において、全文字列が一致するか判定する。

【００７６】（Ｓ３３）２つ論理行間において、全文字
列が一致する場合には、２つの論理行をリンクするブロ
ックテーブルＴ３を作成する。そして、ステップＳ３０
に戻る。

【００７７】図１３に示すように、ブロックテーブルＴ
３は、ブロック番号、開始座標、終了座標、文字列数、
論理行数、論理列数、先頭論理行アドレス、先頭論理列
アドレス、属性を有する。

【００７８】図１０に示した例で説明すると、ブロック
番号４のブロックＢ４は、３つの論理行Ｌ４〜Ｌ６をリ
ンクするため、開始座標は、３つの論理行の先頭座標に
設定され、終了座標は、３つの論理行の終了座標に設定
される。又、文字列数は、「１８」に設定され、論理行
数は、「３」に設定される。先頭論理行アドレスは、論
理行４のアドレスに設定される。

【００７９】（Ｓ３４）２つ論理行間において、文字列
のいずれかが一致しない場合には、２つの論理行をリン
クしないブロックテーブルＴ３を作成する。そして、ス
テップＳ３０に戻る。

【００８０】図１０に示した例で説明すると、ブロック
番号３のブロックＢ３は、１つの論理行Ｌ３で構成され
ているため、開始座標は、１つの論理行Ｌ３の先頭座標
に設定され、終了座標は、１つの論理行Ｌ３の終了座標
に設定される。又、文字列数は、論理行Ｌ３の文字列数
である「５」に設定され、論理行数は、「１」に設定さ
れる。先頭論理行アドレスは、論理行３のアドレスに設
定される。

【００８１】このようにして、図１０の例では、図１３
のようなブロックテーブルが作成される。そして、後述
するように、最も論理行数の多いブロックと、その上側
のブロックと、その下側のブロックとを、表構造部とし
て抽出する。

【００８２】図１４は、他の表構造部抽出処理の説明図
である。

【００８３】この実施の形態では、図１４に示すよう
に、イメージデータのビットマップを、水平方向に投影
する。そして、水平方向のビット列毎に、黒画素をカウ
ントする。このようにすると、水平投影されたビット列
の黒画素数は、図１４のグラフのように、論理行の存在
する部分で、山を形成する。

【００８４】そして、表構造を構成する部分は、行の構
造が等間隔で規則的な並びを持つ。そこで、等間隔で同
じ黒画素数を持つ部分Ｂを、表構造を構成する部分とし
て判断する。この部分を構成している論理行を抽出す
る。このようにしても、表構造部を構成する論理行を抽
出することができる。

【００８５】次に、論理列抽出処理について、図１５乃
至図１８をもちいて説明する。

【００８６】図１５は、論理列抽出処理の説明図、図１
６は、論理列抽出処理のフロー図、図１７は、論理列テ
ーブルの説明図、図１８は、更新された文字列テーブル
の説明図である。

【００８７】論理列抽出処理は、ブロック単位に、同じ
構造の文字列を論理列として分類する。図１５に示すよ
うに、上下に隣り合うブロックにおいて、文字列が、同
じ列構造を持つか判定する。上下に隣り合うブロックの
間で、左側に位置する文字列から順に参照する。そし
て、両文字列の開始Ｘ座標又は終了Ｘ座標が、一致する
かを判定する。即ち、両文字列の開始Ｘ座標又は終了Ｘ
座標の差が、誤差範囲にあるかを判定する。そして、２
ツの文字列の開始Ｘ座標又は終了Ｘ座標が一致する場合
に、同じ列構造を持つと判断する。そして、同じ列構造
を持つ文字列を論理列に纏める。

【００８８】図１５では、ブロックＢ４内において、論
理行Ｌ４の文字列Ｃ１０、Ｃ１１、Ｃ１２、Ｃ１３、Ｃ
１４の開始Ｘ座標が、論理行Ｌ５の文字列Ｃ１６、Ｃ１
７、Ｃ１８、Ｃ１９、Ｃ２０の開始Ｘ座標と一致する。
論理行Ｌ４の文字列Ｃ１５の終了Ｘ座標が、論理行Ｌ５
の文字列Ｃ２１の終了Ｘ座標と一致する。

【００８９】同様に、論理行Ｌ５の文字列Ｃ１６、Ｃ１
７、Ｃ１８、Ｃ１９、Ｃ２０の開始Ｘ座標が、論理行Ｌ
６の文字列Ｃ２２、Ｃ２３、Ｃ２４、Ｃ２５、Ｃ２６の
開始Ｘ座標と一致する。論理行Ｌ５の文字列Ｃ２１の終
了Ｘ座標が、論理行Ｌ６の文字列Ｃ２７の終了Ｘ座標と
一致する。

【００９０】従って、ブロックＢ４の文字列Ｃ１０〜Ｃ
２７は、６ツの論理列Ｒ１０〜Ｒ１５に分類される。

【００９１】図１６により、詳細に説明する。

【００９２】（Ｓ４０）ブロックテーブルＴ３から各ブ
ロック情報を抽出する。

【００９３】（Ｓ４１）全ブロックを参照したかを調べ
る。全ブロックを参照した場合には、処理を終了する。

【００９４】（Ｓ４２）全ブロックを参照していない場
合には、抽出したブロックの論理行数が「１」であるか
を調べる。

【００９５】（Ｓ４３）抽出したブロック内の各文字列
の開始Ｘ座標又は終了Ｘ座標が一致するかを判定する。
そして、一致する場合には、論理列テーブルＴ４を、一
致内容に従い、作成する。そして、ステップＳ４０に戻
る。

【００９６】図１７に示すように、論理列テーブルＴ４
は、論理列番号、開始座標、終了座標、文字列数、先頭
文字列アドレスを有する。

【００９７】図１５に示した例で説明すると、全部で１
７の論理列が設定される。そしてブロックＢ４の論理列
Ｒ１０は、３つの文字列Ｃ１０、Ｃ１６、Ｃ２２を纏め
るため、開始座標は、３つの論理列の先頭座標に設定さ
れ、終了座標は、３つの論理列の終了座標に設定され
る。又、文字列数は、「３」に設定され、先頭論理列ア
ドレスは、文字列１０のアドレスに設定される。そし
て、図１８に示すように、文字列テーブルＴ１の文字列
Ｃ１０の論理列リンク先アドレス欄に、文字列１６のア
ドレスが設定される。論理列Ｒ１１においても、同様に
設定される。

【００９８】（Ｓ４４）論理行数が１ツの場合、１つの
文字列の論理列テーブルＴ４を作成する。そして、ステ
ップＳ４０に戻る。

【００９９】図１５に示した例で説明すると、論理列番
号３の論理列Ｒ３は、１つの文字列Ｃ３で構成されてい
るため、開始座標は、１つの文字列Ｃ３の先頭座標に設
定され、終了座標は、１つの文字列Ｃ３の終了座標に設
定される。又、文字列数は、「１」に設定され、先頭文
字列アドレスは、文字列３のアドレスに設定される。

【０１００】このようにして、図１５の例では、図１７
のような論理列テーブルＴ４が作成される。

【０１０１】次に、ブロック統合及び属性付与処理につ
いて、図１９乃至図２４を用いて説明する。

【０１０２】図１９は、ブロック統合処理の説明図、図
２０は、入れ子処理の説明図、図２１は、更新された文
字列テーブルの説明図、図２２は、更新された論理列テ
ーブルの説明図、図２３は、ブロック統合及び属性付与
処理のフロー図、図２４は、グループテーブルの説明図
である。

【０１０３】ブロック統合処理は、論理列間のリンクを
設定するため行われる。ブロック統合処理は、表構造部
として抽出した部分について、最も論理行数の多いブロ
ックと、その上側に位置するブロックとが、同じ論理列
構造を持つかを判定する。同じ論理列構造を持つ場合に
は、２つのブロックを纏めて、１つの論理列構造となる
ように、論理列を再作成する。

【０１０４】図１９に示すように、最も論理行数の多い
ブロックＢ４と、その上側のブロックＢ３とが、同じ論
理列構造をもつか判定する。Ｄ部分において、ブロック
Ｂ４の４ツの論理列Ｒ１２〜Ｒ１５と、ブロックＢ３の
４ツの論理列Ｒ６〜Ｒ９は、同じＸ位置を持つ。従っ
て、Ｄ部分は、同じ論理列構造を持つと判断される。Ｃ
部分では、ブロックＢ３が、１つの論理列Ｒ５を持つの
に対し、ブロックＢ４が、２つの論理列Ｒ１０、Ｒ１１
を持つ。このため、列構造が異なる。

【０１０５】しかし、Ｄ部分の列構造が同じであるた
め、ブロックＢ３とブロックＢ４とは、同一の論理列構
造を持つと判断する。そして、ブロックＢ３の論理列と
ブロックＢ４の論理列とを統合する。即ち、論理列Ｒ１
０、Ｒ１１は、論理列Ｒ５と統合され、論理列Ｒ１２
は、論理列Ｒ６と統合され、論理列Ｒ１３は、論理列Ｒ
７と統合され、論理列Ｒ１４は、論理列Ｒ８と統合さ
れ、論理列Ｒ１５は、論理列Ｒ９に統合される。これに
より、両ブロックの論理列のリンク関係が設定される。

【０１０６】図２２に示すように、論理列テーブルＴ４
は、この統合に従い、更新される。例えば、論理列Ｒ５
（論理列番号５）の終了座標は、論理列Ｒ１１の終了座
標に更新され、論理列Ｒ５の文字列数は、論理列Ｒ１
０、Ｒ１１の文字列を含むように、「７」に更新され
る。論理列Ｒ１０、Ｒ１１は、統合されたため、論理列
Ｒ１０，Ｒ１１の文字列数は、「０」に更新される。

【０１０７】又、文字列のリンク関係が、この統合に従
い、設定される。図２１の文字列テーブルＴ１におい
て、文字列Ｃ５の論理列リンク先アドレスは、文字列１
０のアドレスに設定される。

【０１０８】ここで、複数の文字列で、１つの意味のデ
ータを定義するため、入れ子情報を設定する。図１９の
場合には、図２０に示すように、文字列Ｃ５は、文字列
Ｃ１０と文字列Ｃ１１に対し意味を持つ。従って、２つ
の文字列Ｃ１０、Ｃ１１間に入れ子情報を設定する。こ
れにより、２つの文字列が、１列を構成することを示
す。

【０１０９】図２１では、文字列Ｃ１０とＣ１１を同一
の列と見なすため、両文字列Ｃ１０、Ｃ１１に、入れ子
フラグ（ＯＮ）を設定し、且つ枝番を付与する。これに
より、２つの文字列がペアとなっていることを示す。
又、文字列Ｃ１０とＣ１１を同一の列とするため、文字
列Ｃ１０の論理列リンク先アドレスに、文字列Ｃ１１の
アドレスを設定する。同様に、文字列Ｃ１１の論理列リ
ンク先アドレスに、文字列Ｃ１６のアドレスを設定す
る。

【０１１０】次に、抽出した表構造部を構成する各ブロ
ックに属性を設定する。帳票上で最も多くの論理行を持
つブロックを、ボディブロック属性に設定する。ボディ
ブロックの上に位置するブロックを、ヘッダブロック属
性に設定する。ボディブロックの下に位置するブロック
を、フッタブロック属性に設定する。

【０１１１】図２３のフローに従い、説明する。

【０１１２】（Ｓ５０）ブロックテーブルＴ３を参照し
て、論理行数の最も多いブロックを抽出する。そして、
そのブロックに、ボディブロック属性（＝２）を設定す
る。図１３に示すように、ブロックＢ４に、ボディブロ
ック属性（＝２）を設定する。

【０１１３】（Ｓ５１）図１９で説明したように、ボデ
ィブロックと、その上のブロックとを参照し、同じ論理
列構造を持つかを判定する。同じ列構造の場合には、上
のブロックにヘッダブロック属性（＝１）を設定する。
図１３に示すように、ブロックＢ３に、ヘッダブロック
属性（＝１）を設定する。そして、両ブロックの論理列
間の統合を行う。

【０１１４】（Ｓ５２）ボディブロックの下に位置する
ブロックに、フッタブロック属性（＝３）を設定する。
図１３に示すように、ブロックＢ５に、フッタブロック
属性（＝３）を設定する。

【０１１５】（Ｓ５３）ヘッダブロック、ボディブロッ
ク、フッタブロックをグループに纏める。図２４に示す
ように、グループテーブルＴ５を作成する。グループテ
ーブルＴ５に、グループ番号、開始座標、終了座標、ブ
ロック数、先頭ブロックアドレスが設定される。図２４
に示すように、図１３の例では、グループ番号３に、ブ
ロック数が「３」に設定され、先頭ブロックアドレス
が、ブロック３のアドレスに設定される。

【０１１６】（Ｓ５４）それ以外のブロックに、グルー
プ情報を設定する。図２４に示すように、図１３の例で
は、グループ番号１に、ブロック数が「１」に設定さ
れ、先頭ブロックアドレスが、ブロック１のアドレスに
設定される。グループ番号２に、ブロック数が「１」に
設定され、先頭ブロックアドレスが、ブロック２のアド
レスに設定される。そして、終了する。

【０１１７】このようにして、ブロックの論理列を統合
し、ブロックに属性を付与する。

【０１１８】次に、見出し部分の抽出処理を、図２５及
び図２６により説明する。

【０１１９】図２５は、見出し部分の抽出処理の説明
図、図２６は、更新される文字列テーブルの説明図であ
る。

【０１２０】見出し部分の抽出処理は、文字列の見出し
として可能性のある部分を抽出する。見出し部分は、前
の処理で設定したブロック属性を利用して、以下のルー
ルで抽出する。

【０１２１】（Ａ）ヘッダブロックは、見出しの可能性
がある。

【０１２２】（Ｂ）フッタブロックは、最も右に位置す
る文字列を除き、見出しの可能性がある。

【０１２３】（Ｃ）それ以外のブロックは、全て見出し
の可能性がある。

【０１２４】図２５に示すように、図３１の帳票例で
は、点線で囲んだ文字列Ｃ１〜Ｃ９、Ｃ２８が、見出し
の可能性のある部分として抽出される。そして、図２６
に示すように、文字列テーブルＴ１において、見出しの
可能性のある文字列Ｃ１〜Ｃ９、Ｃ２８に、見出しフラ
グ「１」が設定される。

【０１２５】このようにして、文字列は、見出しとデー
タとに区別される。

【０１２６】次に、見出し認識処理を、図２７乃至図２
９により説明する。

【０１２７】図２７は、見出し認識処理のフロー図、図
２８は、見出し認識辞書の説明図、図２９は、見出し認
識処理の説明図である。

【０１２８】図２７の処理フローに従い説明する。

【０１２９】（Ｓ６０）文字列テーブルＴ１から文字列
を抽出する。全文字列を参照したかを調べる。全文字列
を参照した場合には、終了する。

【０１３０】（Ｓ６１）全文字列を参照していない場合
には、その文字列の見出しフラグがオン（「１］）かを
調べる。見出しフラグがオンでないと、ステップＳ６０
に戻る。見出しフラグがオンであると、その文字列を見
出し辞書５０を用いて文字認識する。見出し辞書５０ー
１は、図２８に示すように、予め定められた文言のイメ
ージデータと、その見出し識別コードとを有する。例え
ば、識別コード「振込先」に対し、振込先の漢字のイメ
ージデータを格納する。見出し部分の文字列のイメージ
データは、見出し辞書５０ー１と照合され、見出し認識
が行われる。

【０１３１】（Ｓ６２）見出し辞書５０ー１に、一致す
る見出しを見つけると、その見出し識別コードを得る。
そして、図２８に示す見出し識別テーブル５０ー２を用
いて、データ部分の文字の定義（カテゴリー、フォント
名）を得る。見出し識別テーブル５０ー２は、各見出し
識別コードに対応した文字認識カテゴリー、文字フォン
ト名を格納する。これにより、見出し部分の識別コード
（機能名）、文字認識カテゴリー（漢字、数字、英
字）、文字フォント名（活字、手書き文字）が判る。

【０１３２】そして、その見出しに対応するデータの文
字列は、文字列テーブルＴ１のその見出しの文字列の論
理列リンク先アドレスにより判る。従って、図２９に示
すように、論理列リンク先アドレスの示す文字列の機能
名、認識カテゴリー、フォント名欄に、認識により得た
機能名、認識カテゴリー、フォントを設定する。そし
て、ステップＳ６０に戻る。

【０１３３】（Ｓ６３）見出し部分と判定され、見出し
辞書５０ー１に一致した見出しパターンが無い文字列
は、データ部分である。このため、予め定めた認識カテ
ゴリー、フォントを、文字列テーブルＴ１に設定する。
そして、ステップＳ６０に戻る。

【０１３４】図２９では、見出し文字列Ｃ５の論理列リ
ンク先は、文字列Ｃ１０であるため、文字列Ｃ１０に、
文字列Ｃ５の認識結果である機能名、認識カテゴリー、
フォントが設定される。又、文字列Ｃ２は、見出しと判
定されたが、見出し辞書に一致するパターンがないた
め、データ部と判定される。そして、予め定めた認識カ
テゴリー（漢字）、フォント（活字）が、文字列テーブ
ルＴ１に設定される。

【０１３５】このようにして、見出し辞書を用いて、見
出し認識を行う。そして、対応するデータ部の文字属性
を得る。

【０１３６】図３０は、データ認識処理のフロー図であ
る。

【０１３７】（Ｓ７０）文字列テーブルＴ１から文字列
を抽出する。全文字列を参照したかを調べる。全文字列
を参照した場合には、終了する。

【０１３８】（Ｓ７１）全文字列を参照していない場合
には、その文字列の見出しフラグがオン（「１］）かを
調べる。見出し部分は、見出しフラグがオンである。見
出しフラグがオンであることは、データでないことを示
す。従って、見出しフラグがオンの場合には、ステップ
Ｓ６０に戻る。

【０１３９】（Ｓ７２）見出しフラグがオンでないと、
その文字列は、データ部分である。従って、その文字列
の認識カテゴリー、フォント名を文字列テーブルＴ１か
ら抽出する。そして、その認識カテゴリー、フォント名
に従い、辞書５１〜５ｎ（図１参照）を選択して、その
文字列を文字認識する。そして、ステップＳ７０に戻
る。

【０１４０】このようにして、データ部分を見出しの内
容に対応した最適の文字認識方式を用いて文字認識する
ことが出来る。このため、高い精度の文字認識が可能と
なる。又、文字列の並びから見出し部分とデータ部分と
を自動判別しているため、データ部分の属性を自動認識
できる。

【０１４１】上述の実施の形態では、各帳票毎に、文字
の位置関係から、見出し部分とデータ部分を判別してい
るが、判別した結果を登録しておき、次回からは、この
判別結果を使用して、帳票のデータ部分を文字認識して
も良い。

【０１４２】以上、本発明の実施の形態により説明した
が、本発明の主旨の範囲内で種々の変形が可能であり、
これらを本発明の範囲から排除するものではない。

【０１４３】

【発明の効果】以上説明したように、本発明によれば、
次の効果を奏する。

【０１４４】（１）帳票のイメージデータを走査し、黒
画素が連続する部分をラベルとして抽出し、抽出したラ
ベル間の位置関係から各文字列を抽出して、抽出した文
字列の行及び列方向の位置関係から罫線を有しない帳票
の見出し部分を判別して、見出しの認識を行うため、罫
線を有しない帳票でも、自動的にデータ部分の文字属性
を決定できる。又、罫線を有しない帳票から文字列の位
置関係から、論理行及び論理列を構成する単位に分類す
るため、文字列の抽出結果としての文字列自体の開始、
終了座標を使用しているため、文字列自体から論理行及
び論理列、ブロックの分類という複雑な表構造解析が可
能となる。

【０１４５】(2) しかも、見出し部分は、汎用性があ
り、文字種類も限られているため、容易に見出し部分の
文字認識ができる。

【０１４６】(3) 更に、データ部分は、決定された文字
属性に応じて、文字認識するため、文字認識の精度が向
上する。

【図面の簡単な説明】

【図１】本発明の一実施の形態の構成図である。

【図２】本発明の一実施の形態の処理フロー図である。

【図３】図２の文字列抽出処理の説明図である。

【図４】図２の論理行抽出処理の説明図である。

【図５】図４の論理行抽出処理のフロー図である。

【図６】図５の論理行抽出処理の動作説明図である。

【図７】図２の他の論理行抽出処理のフロー図である。

【図８】図２の別の論理行抽出処理のフロー図である。

【図９】図３の処理のテーブルの説明図である。

【図１０】図２の表構造部抽出処理の説明図である。

【図１１】図１０の表構造部抽出処理の動作説明図であ
る。

【図１２】図１０の表構造部抽出処理のフロー図であ
る。

【図１３】図１２の処理のためのブロックテーブルの説
明図である。

【図１４】図２の他の表構造部抽出処理の説明図であ
る。

【図１５】図２の論理列抽出処理の説明図である。

【図１６】図１５の論理列抽出処理のフロー図である。

【図１７】図１６の処理のための論理列テーブルの説明
図である。

【図１８】図１６の処理のための文字列テーブルの説明
図である。

【図１９】図２のブロック統合処理の説明図である。

【図２０】図２の入れ子処理の説明図である。

【図２１】図１９の処理のための文字列テーブルの説明
図である。

【図２２】図１９の処理のための論理列テーブルの説明
図である。

【図２３】図２のブロック統合及び属性付与処理のフロ
ー図である。

【図２４】図２３の処理のためのグループテーブルの説
明図である。

【図２５】図２の見出し部分の抽出処理の説明図であ
る。

【図２６】図２５の処理のための文字列テーブルの説明
図である。

【図２７】図２の見出し認識処理のフロー図である。

【図２８】図２の処理のための見出し認識辞書の説明図
である。

【図２９】図２７の見出し認識処理の説明図である。

【図３０】図２のデータ認識処理のフロー図である。

【図３１】従来技術を説明するための帳票の説明図であ
る。

【図３２】従来技術の説明図である。

【符号の説明】

１スキャナー４プロセッサ５記憶ユニット５０見出し辞書５１〜５ｎカテゴリー・フォント別辞書Ｃ１〜Ｃ２９文字列Ｌ１〜Ｌ７論理行Ｂ１〜Ｂ５ブロックＲ１〜Ｒ１７論理列

───────────────────────────────────────────────────── フロントページの続き (72)発明者永野義博神奈川県川崎市中原区上小田中４丁目１番１号富士通株式会社内 (72)発明者松野秀樹神奈川県川崎市中原区上小田中４丁目１番１号富士通株式会社内 (72)発明者千葉亘一神奈川県川崎市中原区上小田中４丁目１番１号富士通株式会社内 (72)発明者勝又裕神奈川県川崎市中原区上小田中４丁目１番１号富士通株式会社内 (56)参考文献特開平７−152859（ＪＰ，Ａ) 特開平４−23185（ＪＰ，Ａ) 特開平５−67189（ＪＰ，Ａ) 特開平８−55184（ＪＰ，Ａ) 特開平８−30718（ＪＰ，Ａ) 特開平８−221510（ＪＰ，Ａ) 特開平８−315069（ＪＰ，Ａ) 特開平９−62859（ＪＰ，Ａ) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06K 9/00 - 9/82

Claims

(57)【特許請求の範囲】

【請求項１】見出し部分の文字とデータ部分の文字とを
有する罫線を有しない帳票の文字を認識する文字認識方
法において、前記帳票のイメージデータを走査し、黒画素が連続する
部分をラベルとして抽出し、抽出したラベル間の位置関
係から各文字列を抽出するステップと、前記抽出した文字列の行及び列方向の位置関係から前記
罫線を有しない帳票の見出し部分とデータ部分とを判別
するステップと、前記見出し部分の文字列を見出し辞書を用いて認識し
て、前記データ部分の文字属性を決定するステップと、前記文字属性に従い、前記データ部分の文字列を認識す
るステップとを有し、前記判別するステップは、前記文字列の抽出により得た前記文字列の開始座標の比
較による位置関係から同一の論理行を構成する文字列を
抽出するステップと、前記文字列の開始又は終了座標から、前記文字列の並び
が同じ論理行をブロックとして抽出するステップと、前記各ブロックにおいて、前記文字列の開始又は終了座
標から、同じ列を構成する文字列を論理列として抽出す
るステップと、前記論理列の位置関係から前記論理列間の対応関係を決
定するステップと、前記ブロックの位置関係から前記論理列の見出し部分を
決定するステップとを有することを特徴とする文字認識方法。
【請求項２】請求項１の文字認識方法において、前記ブロックを抽出するステップは、前記文字列の並びが同じ論理行の数を抽出するステップ
であり、前記見出し部分を決定するステップは、前記論理行数が最大であるブロックをデータ部分として
決定し、そのブロックの上及び下に位置するブロックを
見出し部分として決定するステップを含むことを特徴と
する文字認識方法。
【請求項３】請求項１の文字認識方法において、前記ブロックを抽出するステップは、上下に位置する前記論理行の位置関係から、２つの論理
行が同一の行構造を有するかを判断して、ブロックにま
とめるステップを含むことを特徴とする文字認識方法。
【請求項４】請求項１の文字認識方法において、前記論理列を抽出するステップは、前記各ブロックの論理行を構成する文字列が上下に位置
するかを判断して、論理列にまとめるステップを含むこ
とを特徴とする文字認識方法。
【請求項５】請求項４の文字認識方法において、前記論理列を抽出するステップは、前記論理行数が最も多いブロックと、そのブロックの上
に位置する論理行を有するブロックが同じ列構造を持つ
かを判定して、論理列にまとめるステップを含むことを
特徴とする文字認識方法。
【請求項６】請求項１の文字認識方法において、前記論理列の対応関係を決定するステップは、各論理列が上下に対応位置に位置するかを判断して、各
論理列の対応関係を判定するステップを含むことを特徴
とする文字認識方法。