JPH11219407A

JPH11219407A - 文書画像認識装置および文書画像認識プログラムの記憶媒体

Info

Publication number: JPH11219407A
Application number: JP10146926A
Authority: JP
Inventors: Katsuto Fujimoto; 克仁藤本; Hiroshi Kamata; 洋鎌田; Koji Kurokawa; 浩司黒川
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1997-11-28
Filing date: 1998-05-28
Publication date: 1999-08-10
Anticipated expiration: 2018-05-28
Also published as: JP4170441B2; US6332046B1; US20020031264A1; US6577763B2

Abstract

(57)【要約】【課題】文書画像の傾き検出および行と段の抽出機能を
持つ文書画像認識装置に関し，横行と縦行が混在する文
書画像の傾き検出および行・段の抽出を高速かつ高精度
に行うことができるようにすることを目的とする。【解決手段】文書画像傾き検出部１は，文書画像を参照
して文字を構成する成分の集合を抽出し，これをもとに
横および縦の行候補を抽出し，それらの各々の行候補に
対して信頼度を推定し，推定した行信頼度に基づいて確
度の高い行の集合を抽出する。その結果をもとに確度の
高い行の集合の文字成分の配置を用いて傾きを推定す
る。レイアウト解析部５は，文書画像を構成する基礎要
素の集合から行方向の確定した行集合を抽出し，行同士
の関連付けによる段抽出と段を制約とした行抽出とを相
互に実行して行と段を抽出する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は，例えばイメージス
キャナで読み取った文書やファクシミリ装置で受信した
文書などの文書画像の傾きを検出してその傾きを補正
し，また文書画像中文字行および段を抽出して文書画像
を認識するための文書画像認識装置および文書画像認識
プログラムの記憶媒体に関する。

【０００２】文書光学式読取り（ＯＣＲ）エンジンの対
象文書の拡大のためには，新聞等に見られるような縦行
横行混在文書のレイアウト解析機能の搭載が必須であ
る。本発明は，この縦行横行混在文書のレイアウト解析
のために必要な要素技術として，文書画像の傾き補正の
ための傾き検出処理，さらに文書画像認識のための行抽
出処理および段抽出処理の新たな技術を提供するもので
ある。

【０００３】

【従来の技術】（１）文書画像傾き検出一般の印刷文書を読み取るためには，まず，イメージス
キャナなどの画像入力装置を用いて文書画像として取り
込む必要があるが，通常は原稿設置の際に多少傾きが生
じる。電子ファイリングあるいは文書認識の使用に供す
るためには，その文書画像の傾き量を検出し，補正する
必要がある。

【０００４】従来の傾き検出技術においては，文書画像
中の主要な構成要素であるテキスト領域では文字が規則
正しく並んでいることを利用している。例えば，中野ら
は「文書画像の傾き補正のための一方式」と題して電子
情報通信学会論文誌Ｄ，vol.J69-Ｄ，No.1, pp.1833-18
34に記載されているように，文字列の基準線がほぼ一定
に存在することに着目し，文字ブロックの下端座標値を
ハフ変換し，ハフ空間上でのピーク値を検出することに
よって文字列の傾きを推定する第１の方式を提案してい
る。

【０００５】また，水野らは「文書画像傾き検出装置」
と題して特開平７−１９２０８５号公報に記載されてい
るように，文字を構成する連結成分を抽出し，近接する
連結成分同士を結合し仮の文字行を生成し，仮の文字行
に接する直線を求めることによって文字列の傾きを推定
する第２の方式を提案している。

【０００６】また，斎藤らは「文書傾き補正装置」と題
して特開平２−１７０２８０号公報に記載されているよ
うに，傾き角度θを順次変更しながら文書画像を仮に補
正し，補正画像中の全黒画素を含む外接矩形の面積が最
小となる角度θを傾き角度として求める第３の方式を提
案している。

【０００７】（２）レイアウト解析（行・段の抽出）従来，ＯＣＲ装置などにおいて，横行縦行の混在した文
書画像中の文字行および段を抽出する方法としては以下
のような方法が提案されている。

【０００８】例えば，辻本らは，「文書画像処理装置」
と題して特開平１−１８３７８３号公報に記載されてい
るように，入力文書の文字行をある方向に射影し，その
周辺分布を作成することにより，入力文書から自動的に
その段組を決定する第４の方式を提案している。

【０００９】また，水谷らは，「文書画像処理装置」と
題して特開平５−１７４１７９号公報に記載されている
ように，入力文書の構成要素の空白領域を用いて段抽出
を行う第５の方式を提案している。

【００１０】また，平本らは，「文字行抽出方法および
装置」と題して特開平１０−３１７１６号公報に記載さ
れているように，文字行方向が混在しており，文字の大
きさやピッチの異なる領域が混在する文書からの文字行
抽出を行う第６の方式を提案している。

【００１１】

【発明が解決しようとする課題】一般の印刷文書には縦
書き，横書きが混在した文書も多く，文書認識する際に
は，文字行および段落を適切に抽出する必要がある。

【００１２】しかしながら，上記の従来の方式では，以
下のような問題がある。（１）文書画像傾き検出に関する問題上記第１の方式では，行方向一定を前提としているた
め，新聞のように横行と縦行の混在する文書に適用する
ことができない。また，行方向一定の文書に対しても，
すべての文字の下端が基準線上に存在するとは限らない
ため，誤差が含まれることが避けられない。さらに，ハ
フ変換処理には膨大な計算量を要するという問題があ
る。

【００１３】また，上記第２の方式では，新聞のように
横行と縦行の混在する文書の場合に，縦行の段組から誤
って横の仮行を抽出する場合が発生するために，傾き推
定の大きな誤差を生じてしまう可能性がある。

【００１４】また，上記第３の方式では，横行縦行混在
文書の傾き検出を目的として設計されてはいるが，文書
画像の黒画素を含む外接矩形の面積という少量の情報を
もとに角度検出を行っているため，検出した傾きの精度
が不安定であるという問題点がある。また，画像自体を
回転させて矩形領域を抽出する処理を何度も繰り返す必
要があるため，膨大な計算量となる。

【００１５】（２）レイアウト解析に関する問題文字行と段を抽出するための上記第４の方式では，文字
行をあらかじめ抽出しておき，それをもとに段抽出を行
うため，段中の文字行が細分化されている不定形の段が
細分化されてしまうという問題がある。

【００１６】また，第５の方式では，空白領域を用いて
段を抽出するために，行間より段間が狭い箇所がある文
書の場合には誤った段抽出がされてしまうおそれがあ
る。この問題は，縦行横行の文章が密に混在するような
文書画像では大きな問題となる。例えば図２６に示す新
聞紙面の左上側の写真領域の下に矩形の枠で示すよう
に，縦書の記事本文と横書の写真のキャプションの間が
狭い文書画像の場合には，これらを一つの段落として，
横書キャプションの各行の文字を縦書記事本文の先頭２
文字と認識してしまうという問題が起こる。

【００１７】また，第６の方式では，高精度な行抽出を
行う前処理として段領域の抽出を行っているため，段中
の文字行が細分化されている不定形の段が細分化されて
しまい，結果として誤った行抽出をしてしまうという問
題がある。

【００１８】すなわち，従来技術では，（基礎要素集
合）→行抽出処理→段抽出処理→（レイアウト解析結
果），または（基礎要素集合）→段抽出処理→行抽出
処理→（レイアウト解析結果）のいずれかの手順をと
り，ボトムアップ処理あるいはトップダウン処理を基本
としている。これらの従来技術は，どれも行抽出処理，
段抽出処理を独立したものと捉え，逐次的に両者を実行
することにより，行および段抽出を達成しようとしてい
るところが共通しており，ここに問題点発生の主要な原
因が存在する。

【００１９】このような技術的背景を踏まえて，本発明
は，横行縦行が混在した複雑な文書構造を持つ文書画像
を認識するような場合にも，横行縦行混在文書の傾き検
出を高速かつ高精度に行うことができ，また行および段
の抽出を高精度に行うことができる文書画像認識装置を
提供することを目的とする。

【００２０】

【課題を解決するための手段】図１は，本発明の基本構
成例を示す。縦行横行が混在することがある認識対象の
文書画像２が，文書画像認識装置１００に入力される
と，まず，文書画像傾き検出部１は，傾き補正のための
傾き角度３を検出する。レイアウト解析部５は，この傾
き角度３によって補正した補正後の文書画像から抽出し
た基礎要素の集合４について，基本行を抽出し，行およ
び段抽出を相互に繰り返し行うことで，横行縦行が混在
する文書画像２の段構造を認識し，レイアウト解析結果
６を出力する。

【００２１】（１）文書画像傾き検出文書画像傾き検出部１は，文書画像２を参照し文字を構
成する成分の集合を抽出する文字成分抽出手段と，文字
成分の集合を参照し横および縦の行候補を抽出する行候
補抽出手段と，各々の行候補に対して信頼度を推定する
行信頼度推定手段と，行信頼度に基づいて確度の高い行
の集合を抽出する行抽出手段と，確度の高い行の集合の
文字成分の配置を用いて傾きを推定する傾き推定手段と
を備える。

【００２２】文字成分抽出手段で抽出した文字成分の集
合を用いて後段の処理を行い，文書画像の回転など画像
を直接操作しないため，計算量を大幅に削減できる。行
候補抽出手段によって横方向および縦方向の行の候補を
抽出し，行信頼度推定手段および行抽出手段により確度
の高い横および縦方向の行の集合を抽出するため，横行
縦行混在文書に対しても傾き検出を行うことができる。
さらに，傾き推定手段では，確度の高い行を構成する文
字成分のみを用いて傾きを推定するために，ノイズに対
して強く高精度の傾き推定を実現することができる。

【００２３】本発明を用いると，従来技術では難しかっ
た横行縦行混在文書の傾き検出を，高速かつ高精度に行
うことができるようになる。（２）レイアウト解析（行・段の抽出）レイアウト解析部５は，文書を構成する基礎要素の集合
４から方向の確定した行集合を抽出する基本行抽出手段
と，行同士の関連付けによる段抽出および段を制約とし
た行抽出を相互に実行して行と段とを抽出する行・段相
互抽出手段とを備える。ここで入力となる基礎要素の集
合４としては，例えば文書画像中の黒画素連結成分，あ
るいは文書画像中の黒画素の連結成分の外接矩形の重な
り矩形を用いることができる。

【００２４】従来技術との大きな違いは，従来技術では
行抽出処理後に段抽出処理，または段抽出処理後に行抽
出処理というように，行抽出処理と段抽出処理とを独立
に行っていたのに対し，本発明では，行の抽出と段の抽
出とを関連付けて，行の抽出結果を段の抽出処理に反映
させ，また段の抽出結果を行の抽出に反映させる手段を
持つことである。

【００２５】本発明を用いると，行方向の確定した行を
基本としつつ，行抽出と段抽出の相互作用によりお互い
の結果を高めあうことによって，従来技術ではなし得な
かった横行縦行が混在し，さらに段中の文字行が細分化
されている不定形の段や行間よりも段間が狭い部分が存
在するような複雑に入り組んだ文書構造を持つ文書画像
に対しても，行および段の抽出を高精度に行うことがで
きる。

【００２６】以上の各処理手段を計算機によって実現す
るためのプログラムは，計算機が読み取り可能な可搬媒
体メモリ，半導体メモリ，ハードディスクなどの適当な
記憶媒体に格納することができる。

【００２７】

【発明の実施の形態】以下，図面を参照して本発明の実
施の形態を詳しく説明する。［１］ハードウェア構成図２は，本発明を適用するハードウェア構成例を示す。
図１に示す文書画像認識装置１００は，ハードウェアと
しては，例えば図２に示すようなＣＰＵ２０，メモリ２
１，キーボードその他の入力装置２２，ディスプレイそ
の他の出力装置２３，ハードディスクその他の外部記憶
装置２４，画像を読み取るイメージスキャナ２５および
これらを接続するバス２６等から構成される。図１に示
す各処理手段の機能は，図２に示すメモリ２１に格納さ
れたプログラムをＣＰＵ２０が実行することにより実現
される。

【００２８】［２］文書画像傾き検出部図３は，本発明に係る文書画像傾き検出部１の基本構成
例を示す。本発明による文書画像傾き検出部１では，文
書画像２を入力し，傾きを検出して傾き角度３を出力す
る。文書画像傾き検出部１は，文字成分抽出手段１１，
行候補抽出手段１２，行信頼度推定手段１３，行抽出手
段１４，傾き推定手段１５を持つ。

【００２９】図４は文書画像傾き検出部１の処理フロー
チャート，図５は文字成分の抽出を説明する図，図６お
よび図７は行候補の抽出を説明する図，図８は行信頼度
の推定を説明する図である。

【００３０】図４に示すフローチャートに従って，文書
画像傾き検出部１の処理を詳しく説明する。まず，図４
に示すステップＳ１で文書画像２を入力すると，文字成
分抽出手段１１は，文書画像２を参照し，文字を構成す
る成分の集合を抽出する。文字成分の抽出では，文書画
像２中の黒画素の連結成分の集合をラベリングなどの手
法により抽出する（ステップＳ２）。このときに，各連
結成分の外接矩形を求め保持しておき，以下の処理では
外接矩形の座標値のみを用いることにし，計算量の削減
を図る。

【００３１】次に，連結成分の外接矩形で互いに重なっ
ているものを統合する。この処理を重なり矩形統合と呼
ぶ。重なり矩形統合の結果，重なり矩形の集合が得られ
る。次に，重なり矩形の大きさのヒストグラムを取るな
どして，図，表などの領域に対応した極端に大きな重な
り矩形を除去することにより，文字成分に対応した文字
成分外接矩形の集合を出力する。

【００３２】図５（Ａ）に示すように，例えば「日」と
いう文字は，黒画素の一つの連結成分４０が一つの文字
成分として抽出される。図５（Ｂ）に示すように，
「旧」という文字は，二つの黒画素の連結成分４１，４
２から構成されるため，二つの文字成分として抽出され
る。図５（Ｃ）に示すように「お」という文字は，二つ
の黒画素の連結成分４３ａ，４３ｂから構成されるが，
これらの外接矩形４４ａ，４４ｂをそれぞれ求めると，
これらは互いに重なっている矩形であることが分かる。
そこで，重なり矩形統合を行うことにより，二つの連結
成分４３ａ，４３ｂが一つの文字成分として抽出され
る。

【００３３】行候補抽出手段１２は，図６に示す文書イ
メージ中の文字成分の配置５０の例のような文字成分の
集合を参照し，横および縦の行候補の集合を抽出する
（ステップＳ３，Ｓ４）。なお，文字成分５１のよう
に，一つの文字成分が横行および縦行の二つの行候補に
属することもある。

【００３４】行候補抽出手段１２は，具体的には，文字
成分外接矩形同士の隣接関係から横行および縦行の候補
集合を出力する。横行の場合について説明すると，横行
に含まれている文字成分の一部は，下辺が行の基準線に
ほぼ沿っていることを考慮し，文字成分の外接矩形の下
辺が横方向の一定の範囲内に存在するかを順次探索する
ことにより，横行候補を抽出する。

【００３５】今，図７（Ａ）に示す文字成分の外接矩形
６０に隣接する横方向の文字成分を探索する場合を考え
る。文字成分の外接矩形６０の下辺６２に着目して，こ
の下辺６２の右端から右方向へ所定の角度（例えば±５
度）の範囲内で，かつ，ある距離ｋ・Ｘ_Wの範囲内（た
だし，ｋは所定値，Ｘ_Wは外接矩形のＸ方向の幅）に，
隣接する文字成分の外接矩形６１の下辺６３が存在する
かどうかを調べる。もし，この範囲内に文字成分の外接
矩形６１の下辺６３が存在すれば，外接矩形６０から外
接矩形６１へ右リンクを張る。この探索を各外接矩形に
対して繰り返す。なお，各外接矩形からの右リンクは，
０本か１本のいずれかとし，右リンクが一つの外接矩形
から枝分かれしないようにする。この結果，例えば図７
（Ｂ）に示すように，横方向への右リンクが張られた外
接矩形群が求まるので，右リンクを辿ることにより，横
行候補の集合を抽出する。

【００３６】縦行候補についても同様に，それぞれの文
字成分外接矩形に対して右辺が下隣にある文字成分に下
リンクを張り，下リンクを辿ることにより求める。行信
頼度推定手段１３は，各々の行候補に対して信頼度を推
定する（ステップＳ５）。まず，各々の行候補に対して
行らしさを定量的に計算する。例えば，その行候補に含
まれている文字成分の数が一定数以上あるという行の長
さによる量，文字成分同士が比較的密に配置されている
という近接性による量，文字成分の大きさがほぼ同じく
らいであるなどの同質性による量などから行らしさを定
量化できる。

【００３７】次に，それぞれの文字成分外接矩形に対し
て，属する横行候補および縦行候補が一つずつ存在する
可能性があるが，横行の行らしさと縦行の行らしさを比
較してより行らしい方向の行に属する可能性が高いとし
て，その文字成分の方向フラグを横または縦にセットす
る。この結果から，それぞれの行候補に対して，その行
候補に属する文字成分のうち，その行候補の行方向と一
致する方向フラグを持つものの比率を求め，その行候補
の信頼度とする。

【００３８】例えば，図８（Ａ）〜（Ｄ）に示すよう
に，各文字成分には，行候補抽出手段１２の処理におい
て，隣接する文字成分が見つからなかった文字成分７
０，縦行候補にのみ含まれる文字成分７１，横行候補に
のみ含まれる文字成分７２，横行の縦行のいずれにも含
まれる文字成分７３等が存在する。これらの各文字成分
に対して，前述した行らしさの尺度を利用して，行らし
さを定量的に計算し，「横」または「縦」の方向フラグ
をセットする。なお，単なるフラグではなく，不明のも
のについて，縦０．５，横０．５というように確率的な
数値を付与してもよい。この結果から，方向一致の比率
を計算し，それを行信頼度とする。例えば，横行として
の行信頼度は，図８（Ｅ）に示すように，着目している
横行候補に対して，「横」の方向フラグがセットされて
いる文字成分の比率を計算することにより求められる。

【００３９】行抽出手段１４は，行信頼度に基づいて確
度の高い行の集合を抽出する（ステップＳ６）。ここで
は，一定の信頼度以上の行信頼度を持つ行候補を確度の
高い行として出力する。

【００４０】傾き推定手段１５は，確度の高い行の集合
の文字成分の配置を用いて傾きを推定する（ステップＳ
７）。確度の高い行の集合に属する文字成分外接矩形の
基準辺（横行の場合は下辺，縦行の場合は右辺）の座標
値から，複数直線の当てはめによる最小自乗法を用いて
傾きの推定を行う。

【００４１】以上のような文書画像傾き検出部１を用い
ると，横行と縦行とが混在する文書に対しても高速かつ
高精度に傾きを検出することができる。検出した傾き角
度３によって，文書画像２の傾き補正を行い，次のレイ
アウト解析処理に進む。

【００４２】［３］レイアウト解析部図９は，本発明に係るレイアウト解析部５の基本構成例
を示す。本発明による文書画像認識装置１００における
レイアウト解析部５では，補正後の文書画像の基礎要素
の集合４を入力とし，行抽出および段抽出をしてレイア
ウト解析結果６を出力する。このため，レイアウト解析
部５は，基本行抽出手段８と行・段相互抽出手段９とを
持つ。

【００４３】さらに，基本行抽出手段８は，基礎要素集
合の関連付けをもとに，横方向および縦方向の行方向を
持つ行要素を生成する行要素生成手段８１と，各々の行
要素に対して信頼度を推定し，信頼度に基づいて行要素
を淘汰する行要素淘汰手段８２と，整合性のとれた行お
よび文字集合を得るための行要素整合手段８３とを持
つ。また，行・段相互抽出手段９は，互いに関連付けら
れた段同士の統合を行う段要素統合手段９１と，整合性
のとれた段および行集合を得るための段要素整合手段９
２と，整合性のとれた行および文字集合を得るための行
要素整合手段９３とを持つ。

【００４４】（１）基本行抽出手段図１０は，基本行抽出手段の処理概要を示す。基本行抽
出手段８の入力は，例えば文書画像中の黒画素連結成
分，あるいは文書画像中の黒画素の連結成分の外接矩形
の重なり矩形というような，文書を構成する基礎要素の
集合４であり，出力は，行要素，文字要素，基礎要素が
互いに包含関係により関連付けられた木構造の集合であ
る。

【００４５】まず，ステップＳ１０で，基礎要素の集合
４を入力すると（ステップＳ１０），行要素生成手段８
１は，各基礎要素を唯一含む文字要素を生成し（ステッ
プＳ１１），さらに文字要素の関連付けによる行要素を
生成する（ステップＳ１２）。具体的には，行要素生成
手段８１は，基礎要素の集合同士の関連付けをもとに，
横方向および縦方向の行方向を持つ行要素を生成する。
この基礎要素集合同士の関連付けは，近接性あるいは同
質性に基づいて行う。

【００４６】続いて，行要素淘汰手段８２は，各々の行
要素に対して信頼度を推定し，この信頼度に基づいて行
要素を淘汰する（ステップＳ１３）。さらに，行要素整
合手段８３は，整合性のとれた行集合と文字集合を得る
ための行要素集合の整合処理を行い（ステップＳ１
４），行要素，文字要素，基礎要素（重なり矩形要素）
が互いに包含関係により関連付けられた木構造の集合を
出力する。具体的には，以下のような条件を満たす行要
素集合および行要素の内部構造を得る。

【００４７】１）すべての文字成分は唯一の行要素に属
する。２）各々の行要素の行領域は互いに重ならない。ここ
で，行領域は各々の行要素に属する文字成分の外接矩形
で定義される領域である。

【００４８】３）行方向の確定した行要素に属する文字
要素は，行方向順に順序付けされ，行と垂直方向に重な
る文字要素が存在しないように互いに統合されている。
以下，具体例に従って基本行抽出手段８による行抽出に
ついてさらに詳しく説明する。

【００４９】図１１に示すような文書画像の行・段抽出
を行うものとする。図１１に示す文書画像について，ラ
ベリングによる黒画素連結成分の抽出処理および重なり
矩形統合処理により，重なり矩形集合を基礎要素の集合
として抽出したものを入力する（図１０のステップＳ１
０）。入力した重なり矩形集合のそれぞれ一つを子とし
て持つ文字要素の集合を生成し，これを基本文字要素の
集合とする（ステップＳ１１）。

【００５０】図１２は，このようにして生成された文書
画像の基本文字要素の集合の例を示している。図１２中
に示す各矩形が文字要素を表している。次に，文字要素
の関連付け（例えば近接性）による行要素の生成を行う
（ステップＳ１２）。ここでは，入力された基本文字要
素の集合のそれぞれの文字要素に対して，横方向および
縦方向に文字要素自身の大きさのしきい値倍以下の距離
にあり，かつ，最も近接している文字要素を探索してリ
ンクを張り，横方向および縦方向に近接した文字要素の
列を，行要素として生成する。行要素には，横の行方向
を持つもの（横行要素）と，縦の行方向を持つもの（縦
行要素）の両方が存在する。多くの文字要素は，横行要
素と縦行要素の両方の子となって，要素同士の干渉が多
く発生する。

【００５１】図１３は，文字要素の近接性により生成し
た横行要素の外接矩形を表示した文書画像の例を示す。
また，図１４は，文字要素の近接性により生成した縦行
要素の外接矩形を表示した文書画像の例を示す。

【００５２】前処理として行われる文書画像傾き検出部
１による傾き補正のために，傾きがほぼ０である文書画
像を前提にできるため，近接条件に傾きによる広がりを
持たせないことにする。また，近接条件の距離のしきい
値は，異なる段に属するであろう行が統合されてしまわ
ないために，傾き検出による傾き補正の場合より厳しく
小さな値を採用する。

【００５３】次に，行信頼度を用いた行要素の淘汰を行
う（ステップＳ１３）。文書画像傾き検出部１による処
理と同様の手法を用いる。まず，生成した行要素の行信
頼度を，属する文字要素の平均間隔，属する文字要素の
数，属する文字要素のすべてを含む外接矩形による行領
域の縦横比率をもとに算出する。次に，それぞれの文字
要素に対して，関連する行要素の方向を文字要素の方向
とする。関連する行要素が，横行要素と縦行要素の２種
類存在する場合には，行信頼度の大きな行要素の方向を
文字要素の方向とする。さらに，生成した行要素の強度
を，その行要素に含まれる文字要素のうち，行要素の行
方向と同一の方向を持つ文字要素の比率とし，強度がし
きい値未満の行要素を淘汰し，しきい値以上のものを信
頼度の高い基本行要素として残す。

【００５４】図１５は，淘汰により生き残った信頼度の
高い基本行要素を，外接矩形でもって表示した文書画像
の例を示す。図１５では，本来の横行および縦行の一部
が，それぞれ正しい行方向を持つ行要素として生き残っ
ており，かつ，異なる段に属する行の誤った統合が存在
しないことがわかる。

【００５５】次に，行要素整合手段８３による行要素集
合の整合処理（ステップＳ１４）を行う。この行要素整
合手段８３の処理フローチャートを図１６に示す。ま
ず，行要素同士の領域干渉を解消する（ステップＳ３
１）。行要素同士の外接矩形は互いに接触している可能
性がある。ここで，行要素の外接矩形とは，その行要素
に含まれている文字要素の外接矩形を含む最小の矩形を
意味する。行要素同士の外接矩形が接触している場合に
は，行要素間の干渉とみなされるので，それを解消す
る。

【００５６】次に，行要素と領域干渉している文字要素
の吸収仮説を生成する（ステップＳ３２）。行要素の外
接矩形と接触しているが，行要素の子として属していな
い文字要素が存在する可能性がある。そこで，それぞれ
の行要素に対してこのような文字要素を探索して，子と
して吸収する。ここでは，文字要素を子として吸収した
行要素を，吸収仮説と呼んでいる。

【００５７】続いて，文字要素の吸収仮説の要素干渉を
検証することにより淘汰を行う（ステップＳ３３）。上
記のステップＳ３２の処理の場合に，複数の行要素に接
触している文字要素はノイズである可能性が高いので，
行要素の子とせずに削除するのが望ましい場合もあるた
め，この検証を行う。

【００５８】次に，行要素同士の領域干渉を解決する
（ステップＳ３４）。上記ステップＳ３２およびＳ３３
の処理により，結果的にある行要素の新たな子となった
文字要素が存在する場合には，行要素の外接矩形が膨張
する可能性がある。したがって，この場合には，行要素
に対し，ステップＳ３１〜Ｓ３３の処理を再度繰り返
す。

【００５９】さらに，行要素に属する文字要素の整頓を
行う（ステップＳ３５）。それぞれの行要素の外接矩形
に含まれる文字要素がすべて子となった状態を構成でき
たならば，次に行方向と垂直方向に重なっている文字要
素は一つにまとめ，テキスト認識実行時の文字切り出し
候補の可能性を限定するのが望ましい。このときに，ま
とめられた複数の文字要素の子となっている重なり矩形
要素の基礎要素集合を一つに統合して，新たな統合され
た文字要素の子とする。

【００６０】以上の行要素の整合処理を，図１７に示す
画像例の１行のイメージに注目して説明する。図１７の
画像Ａ中の矩形は，行要素淘汰後に得られた信頼度の高
い基本縦行要素である。図１７の画像Ｂ中の矩形列は，
画像Ａの縦行要素の子となっている文字要素である。行
要素の外形矩形に含まれていない文字要素が二つ存在す
ることが分かる。画像中の「や」と「し」の文字要素で
ある。

【００６１】その後，画像の行要素同士の領域干渉の解
消・行要素と領域干渉している文字要素の吸収仮説を生
成／淘汰し，図１７の画像Ｃのように，行要素の外形矩
形と接触している文字要素をすべて子として取り込む。
さらに行要素同士の領域干渉の解決を経て，行要素に属
する文字要素の整頓を行った結果が，図１７の画像Ｄで
ある。画像Ｄにより，行方向に垂直な方向（この場合に
は横方向）に射影した場合に重なっている文字要素が統
合されて，まとめられたことが分かる。

【００６２】次に，行要素と近接した文字要素の行要素
への統合処理を行った結果が，図１７の画像Ｅである。
この場合，全体が一つの行として統合されている。ここ
で，図１７の画像Ｆは，統合後の行要素の子となってい
る文字要素集合を示している。

【００６３】以上の処理を行った結果を図１８に示す。
この段階で，すべての文字要素がある行要素の子とな
り，行要素，文字要素，基礎要素が互いに包含関係によ
り関連付けられた木構造の集合が，中間的文書構造とし
て構築できたことになる。

【００６４】以上の行抽出技術を用いた結果得られた行
要素の集合には，図１８の例からも明らかなように，段
を構成した場合に行方向に近接している複数の行要素が
含まれている。この意味で，この段階で得られた行要素
は，段の構成要素としての完全な行には対応していな
い。完全な行を構成するためには，段抽出との連携を経
て，同一の段に属する行要素をさらに統合するという，
行抽出と段抽出との連携した処理を行うことが必要であ
る。

【００６５】（２）行・段相互抽出手段行・段相互抽出手段９は，互いに関連付けられた段同士
の統合と，整合性のとれた段および行集合を得るための
段要素集合の整合と，整合性のとれた行および文字集合
を得るための行要素集合の整合処理を実行する。さら
に，行・段相互抽出手段９が，段同士の統合を繰り返し
実行することにより，行抽出結果と段抽出結果が互いに
影響を与えあい，徐々に高精度な行・段抽出処理が行わ
れるようにする。

【００６６】図１９は，行・段相互抽出手段９の処理の
流れの概要を示す。行・段相互抽出手段９の入力は，基
本行抽出手段８により得られた行要素を頂点とする木構
造の集合（行要素，文字要素，基礎要素が互いに包含関
係により関連付けられた木構造の集合）であり，出力
は，段要素を頂点とする木構造の集合（段要素，行要
素，文字要素，基礎要素が互いに包含関係により関連付
けられた木構造の集合）である。

【００６７】行要素を頂点とする木構造の集合を入力す
ると（ステップＳ４０），まず各行要素を唯一含む段要
素の生成を行う（ステップＳ４１）。この段要素につい
て，以下のステップＳ４２〜Ｓ４６を繰り返し実行する
ことにより，段要素を統合していく。段要素間の関連付
け（ステップＳ４２），関連付けられた段要素の統合
（ステップＳ４３）は，基本的には，基本行抽出手段８
において，行要素の生成のため文字要素と行要素の集合
を対象に行っていた処理と同様であり，この処理を，行
要素と段要素の集合を対象にして行う。

【００６８】次に，段要素集合の整合処理を行う（ステ
ップＳ４４）。この段要素集合の整合処理は，以下の条
件を満たす段要素集合および段要素の内部構造を得るこ
とを目的とした処理である。

【００６９】１）すべての行成分は唯一の段要素に属す
る。２）各々の段要素の段領域は互いに重ならない。ここ
で，段領域は各々の段要素に属する行成分の外接矩形で
定義される領域である。

【００７０】３）段方向の確定した段要素に属する行要
素は，段方向順に順序付けされ，段方向と垂直方向に重
なる行要素が存在しないように互いに統合されている。
この段要素集合の整合処理を行った後に，再度，基本行
抽出手段８において説明した行要素集合の整合処理を行
う（Ｓ４５）。これにより，段抽出結果が行抽出結果に
フィードバックされ，行および段の抽出の精度が高めら
れる。以上のステップＳ４２〜Ｓ４５の処理を，新たな
関連付けが発生しなくなるまで繰り返す（ステップＳ４
６）。

【００７１】以上の処理において，段要素間の関連付け
を，行方向，行垂直方向とそれぞれ変化させて繰り返し
実行することにより，２次元方向の関連付けを回避し，
整合などの計算量を削減することもできる。また，段要
素間の関連付けを，関連付けの対象となる段要素の内部
構造により動的に決定することもでき，これにより文書
構造に応じた高精度な行・段抽出を促進できる。例え
ば，大きな段が少数存在する整頓された段を持つ文書構
造の場合には，パラメータを固定しても十分である。し
かし，少数の行からなる小さな段が多数存在する不定形
の段を持つ文書構造，あるいは空白がセパレータの役割
を果たす表形式の文書構造の場合には，状況に応じた仮
説生成を行う手法が有効である。状況に応じた段要素同
士の関連付けとして，以下の３種類が考えられる。

【００７２】１）関連付け対象となる段の大きさ（含む
行の数）により，近接性判定距離の標準サイズとの比較
を変化させる。これにより，大きな安定した段同士の過
統合を防止しつつ，細分化された小さな段同士あるいは
大きな段と小さな段との適切な統合を促進できる。

【００７３】２）関連付け対象となる段に含まれている
行のサイズに比例して，近接性判定距離を設定する。こ
れにより，含む文字要素の大きさに応じて適切な統合を
行えるため，行サイズの大きい段同士の未統合，行サイ
ズの小さい段同士の過統合，行サイズの大きく異なる段
同士の過統合を大幅に削減することができる。

【００７４】３）段の拡張処理の段階に応じて，近接性
判定距離の標準サイズとの比率を変化させる。行方向の
段の拡張処理は２回繰り返されるが，１回目は段が未だ
細分化されており統合を促進する必要がある一方，２回
目はある程度安定した段が生成できているため，むしろ
過統合を抑制する必要がある。そこで，１回目は標準サ
イズとの比率を高く設定して統合しやすくし，２回目は
標準サイズとの比率を小さく設定して統合しにくくし
た。

【００７５】具体的には，近接性判定距離Ｄは，ｋＳで
与えられる。ここで，Ｓは，上記２）の処理で適応的に
決定される標準サイズ，ｋは，上記１）および３）の処
理で決定される係数である。上記１）および３）の処理
を実現するために，例えば，段の統合を行垂直方向，行
方向，行垂直方向，行方向と，計４回繰り返し，行方向
の段統合において，図２０に示すような係数ｋを用いる
と，高精度な段抽出が可能となり，段集合の整合処理の
結果として高精度な行抽出も行うことができる。なお，
図２０では，「小さい段」は，それに含む行が１行のみ
の段，「中くらいの段」は，それに含む行が２行で，含
む文字総数が１００文字以内の段，「大きい段」は，そ
れに含む行が２行で，含む文字総数が１０１文字以上，
あるいは３行以上の段と，定義している。

【００７６】また，段要素集合同士の関連付けは，近接
性あるいは同質性に基づいて行うことができる。同質性
を用いることにより，段間の方が行間よりも狭い場合で
も精度よく段を分離することが可能となる。

【００７７】さらに，段要素集合同士の関連付けに用い
る要素関連付けパラメータを，処理回数に応じて変化さ
せることにより，行・段の統合を進め，後半においては
段の過統合を抑制するといった柔軟な処理を行い，行・
段抽出の一層の高精度化を進めることができる。

【００７８】文書画像例の段抽出結果を図２１に示す。
図２２は，行・段相互抽出手段９により得られた段中の
行要素を示している。これにより，同じ段に属する行
は，行方向の射影に対して互いに重なりのない完全な行
要素が抽出できていることが分かる。

【００７９】

【実施例】以下に，図２３ないし図２５を用いて，本発
明の実施例を説明する。横行縦行が混在する文書である
新聞文書の文書画像を対象事例として，図２３に示すよ
うな，新聞紙面から４００ｄｐｉで画像取り込みを行っ
た二値化文書画像を対象とする。なお，図２３の文書画
像は縮小表示している。また，左上部分には，写真が印
刷されているが，ここでは認識対象にはならないので空
白で置き換えている。

【００８０】図２４は，図２３の文書画像についての行
抽出処理の結果の例を示す。この文書画像についての行
抽出処理の抽出精度は１００％であった。図２５は，最
終的な段抽出処理の結果の例を示す。この文書画像につ
いての段抽出処理の抽出精度も１００％であった。

【００８１】

【発明の効果】以上説明したように，本発明によれば，
従来技術では困難であった横書き（横行），縦書き（縦
行）が混在した文書画像の傾きを高速かつ高精度に検出
することができ，さらに段中の文字行が細分化されてい
る不定形の段や，行間よりも段間が狭い部分が存在する
複雑に入り組んだ文書構造を持つ文書画像中の文字行お
よび段の抽出を高精度に行うことができるようになる。

【図面の簡単な説明】

【図１】本発明の基本構成例を示す図である。

【図２】本発明を適用するハードウェア構成例を示す図
である。

【図３】本発明に係る文書画像傾き検出部の基本構成例
を示す図である。

【図４】文書画像傾き検出部の処理フローチャートであ
る。

【図５】文字成分の抽出を説明する図である。

【図６】行候補の抽出を説明する図である。

【図７】行候補の抽出を説明する図である。

【図８】行信頼度の推定を説明する図である。

【図９】本発明に係るレイアウト解析部の基本構成例を
示す図である。

【図１０】基本行抽出手段の処理概要を示す図である。

【図１１】処理対象の文書画像の例を示す図である。

【図１２】基本文字要素の集合の例を示す図である。

【図１３】横行要素の外接矩形を表示した文書画像の例
を示す図である。

【図１４】縦行要素の外接矩形を表示した文書画像の例
を示す図である。

【図１５】淘汰により生き残った信頼度の高い行要素を
外接矩形表示した文書画像の例を示す図である。

【図１６】行要素整合手段の処理フローチャートであ
る。

【図１７】行要素の整合処理により処理した画像の例を
説明する図である。

【図１８】基本行抽出手段により抽出した結果の例を示
す図である。

【図１９】行・段相互抽出手段の処理の流れの概要を示
す図である。

【図２０】近接性判定距離の標準サイズとの比率を変化
させる係数ｋの例を示す図である。

【図２１】行・段相互抽出手段により抽出した結果の段
要素の例を示す図である。

【図２２】行・段相互抽出手段により抽出した結果の行
要素の例を示す図である。

【図２３】本発明の実施例の評価を説明するための図で
ある。

【図２４】本発明の実施例の評価を説明するための図で
ある。

【図２５】本発明の実施例の評価を説明するための図で
ある。

【図２６】従来技術の問題を説明するための図である。

【符号の説明】

１００文書画像認識装置１文書画像傾き検出部１１文字成分抽出手段１２行候補抽出手段１３行信頼度推定手段１４行抽出手段１５傾き推定手段２文書画像３傾き角度４基礎要素の集合５レイアウト解析部６レイアウト解析結果８基本行抽出手段８１行要素生成手段８２行要素淘汰手段８３行要素整合手段９行・段相互抽出手段９１段要素統合手段９２段要素整合手段９３行要素整合手段

Claims

【特許請求の範囲】

【請求項１】電子化された文書画像の傾きを検出し，
その傾きを補正して文書画像を認識する文書画像認識装
置において，傾き検出対象の文書画像を参照し，文字を
構成する成分の集合を抽出する文字成分抽出手段と，前
記抽出した文字成分の集合を参照し，横および縦の行候
補を抽出する行候補抽出手段と，各々の行候補に対して
信頼度を推定する行信頼度推定手段と，前記推定した行
信頼度に基づいて確度の高い行の集合を抽出する行抽出
手段と，確度の高い行の集合の文字成分の配置を用いて
傾きを推定する傾き推定手段とを備えることを特徴とす
る文書画像認識装置。
【請求項２】前記文字成分抽出手段は，文書画像中の
黒画素の連結成分を文字成分の候補として，または文書
画像中の黒画素の各連結成分に対する外接矩形を求め，
これらの外接矩形の重なり矩形を文字成分の候補として
用いることを特徴とする請求項１記載の文書画像認識装
置。
【請求項３】前記行信頼度推定手段は，各々の行候補
に対して行らしさを定量的に計算し，それぞれの文字成
分外接矩形に対して，それが属する横行候補および縦行
候補の行らしさを比較し，より行らしい方向を文字方向
として求め，それぞれの行候補に対してその行候補に属
する文字成分のうちその行候補の行方向と一致する文字
方向を持つものの比率をその行候補の信頼度とすること
を特徴とする請求項１記載の文書画像認識装置。
【請求項４】前記傾き推定手段は，確度の高い行に属
する文字成分外接矩形の基準辺の座標値から，複数直線
の当てはめによる最小自乗法を用いて傾きの推定を行う
ことを特徴とする請求項１記載の文書画像認識装置。
【請求項５】認識対象となる文書画像の傾きを検出
し，その傾きを補正して文書画像を認識する文書画像認
識装置に用いるプログラムを格納したプログラム記憶媒
体であって，入力した文書画像を参照し文字を構成する
成分の集合を抽出する文字成分抽出処理と，前記抽出し
た文字成分の集合を参照し，横および縦の行候補を抽出
する行候補抽出処理と，各々の行候補に対して信頼度を
推定する行信頼度推定処理と，前記推定した行信頼度に
基づいて確度の高い行の集合を抽出する行抽出処理と，
確度の高い行の集合の文字成分の配置を用いて傾きを推
定する傾き推定処理とを計算機に実行させるプログラム
を格納したことを特徴とする文書画像認識プログラムの
記憶媒体。
【請求項６】電子化された文書画像の認識にあたっ
て，文書画像のレイアウトを解析する文書画像認識装置
において，文書を構成する基礎要素集合から行方向の確
定した行集合を抽出する基本行抽出手段と，行同士の関
連付けによる段抽出と，段を制約とした行抽出とを相互
に実行して，行と段を抽出する行・段相互抽出手段とを
備えることを特徴とする文書画像認識装置。
【請求項７】前記基礎要素集合として，文書画像中の
黒画素連結成分または文書画像中の黒画素の連結成分の
外接矩形の重なり矩形を用いることを特徴とする請求項
６記載の文書画像認識装置。
【請求項８】前記基本行抽出手段は，前記基礎要素集
合の関連付けをもとに，横方向および縦方向の行方向を
持つ行要素を生成する行要素生成手段と，各々の行要素
に対して信頼度を推定し，信頼度に基づいて行要素を淘
汰する行要素淘汰手段と，整合性のとれた行および文字
集合を得るための行要素整合手段とを備えることを特徴
とする請求項６記載の文書画像認識装置。
【請求項９】前記基礎要素集合の関連付けを，要素間
の距離などの近接性，または要素の大きさもしくは要素
間隔がほぼ均等であるなどの同質性に基づいて行うこと
を特徴とする請求項８記載の文書画像認識装置。
【請求項１０】前記行要素淘汰手段は，各々の行要素
に対して行信頼度を定量的に計算し，それぞれの文字要
素の属する横方向行要素および縦方向行要素の行信頼度
の高い方向を文字要素の方向として，それぞれの行要素
に対してその行候補に属する文字要素のうち，その行要
素の行方向と一致する文字方向を持つものの比率をその
行要素の信頼度とすることを特徴とする請求項８記載の
文書画像認識装置。
【請求項１１】前記行要素の信頼度が，その行要素に
含まれている文字要素の数が一定数以上あるという行の
長さによる量，文字要素同士が密に配置されているとい
う近接性による量，または文字要素の大きさもしくは間
隔がほぼ同じくらいであるなどの同質性による量を用い
て定量化されることを特徴とする請求項８記載の文書画
像認識装置。
【請求項１２】前記行・段相互抽出手段は，互いに関
連付けられた段同士の統合を行う段要素統合手段と，整
合性のとれた段および行集合を得るための段要素整合手
段と，整合性のとれた行および文字集合を得るための行
要素整合手段とを備えることを特徴とする請求項６記載
の文書画像認識装置。
【請求項１３】前記行・段相互抽出手段は，段同士の
統合を繰り返し実行することを特徴とする請求項６記載
の文書画像認識装置。
【請求項１４】前記行・段相互抽出手段における段同
士の関連付けを，行方向，行垂直方向とそれぞれ変化さ
せて繰り返し実行することを特徴とする請求項１２記載
の文書画像認識装置。
【請求項１５】前記行・段相互抽出手段における段同
士の関連付けの条件を，関連付けの対象となる段要素の
内部構造により動的に変化させることを特徴とする請求
項６記載の文書画像認識装置。
【請求項１６】前記行・段相互抽出手段における段同
士の関連付けを，要素間の距離などの近接性，または要
素の大きさもしくは要素間隔がほぼ均等であるなどの同
質性に基づいて行うことを特徴とする請求項１２記載の
文書画像認識装置。
【請求項１７】前記行・段相互抽出手段における段同
士の関連付けに用いるパラメータを，処理回数に応じて
変化させることを特徴とする請求項１２記載の文書画像
認識装置。
【請求項１８】前記行・段相互抽出手段における関連
付けの対象となる段要素の内部構造として，段の外接矩
形の大きさ，段に含まれる行数もしくは文字数，または
段の外接矩形の位置を用いることを特徴とする請求項１
２記載の文書画像認識装置。
【請求項１９】前記基本行抽出手段における行要素整
合手段または前記行・段相互抽出手段における行要素整
合手段は，行要素に属する文字要素の集合から，その行
の標準の文字の幅，高さ，間隔などの行の属性となる情
報を計算して保持しておき，要素間の関連付けのために
活用することを特徴とする請求項８または請求項１２記
載の文書画像認識装置。
【請求項２０】前記行・段相互抽出手段における段要
素整合手段は，段要素に属する行要素の集合から，その
段の標準の行の幅，高さ，間隔などの段の属性となる情
報を計算して保持しておき，要素間の関連付けのために
活用することを特徴とする請求項１２記載の文書画像認
識装置。
【請求項２１】電子化された文書画像の認識にあたっ
て，文書画像のレイアウトを解析する文書画像認識装置
に用いるプログラムを格納したプログラム記憶媒体であ
って，文書を構成する基礎要素集合から行方向の確定し
た行集合を抽出する基本行抽出処理と，行同士の関連付
けによる段抽出と，段を制約とした行抽出とを相互に実
行して，行と段を抽出する行・段相互抽出処理とを計算
機に実行させるプログラムを格納したことを特徴とする
文書画像認識プログラムの記憶媒体。