JPH0728940A

JPH0728940A - 文書処理のためのイメージ・セグメント化およびイメージ要素分類の方法

Info

Publication number: JPH0728940A
Application number: JP6104202A
Authority: JP
Inventors: Klaus Rindtorff; クラウス・リンドトルフ
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1993-06-30
Filing date: 1994-05-18
Publication date: 1995-01-31
Anticipated expiration: 2013-09-21
Also published as: DE69329380T2; KR0131279B1; CA2113751A1; KR950001551A; EP0632402B1; ES2150926T3; EP0632402A1; JP2802036B2; CA2113751C; ATE196205T1; DE69329380D1; BR9402595A; US5751850A

Abstract

(57)【要約】【目的】手書き情報の文字認識を行う前、特に署名を
分析し認識する前に、文書から書式要素、線、印刷され
た文字などの不要な情報を除去すること。【構成】イメージをセグメント化し、分類し、クリー
ニングする方法を提供する。この方法は、異なるクラス
の要素を含むイメージ・データを入力として有する適用
業務に使用することができる。以後の処理には有効な要
素だけを維持すればよいので、処理するデータの量を大
幅に削減することができる。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、文書処理のためのイメ
ージ・セグメント化およびイメージ要素分類の方法に関
し、特に、手書き情報の文字認識を行う前、特に署名を
分析し認識する前に、文書から書式要素、線、印刷され
た文字などの不要な情報を除去する方法に関する。

【０００２】

【従来の技術】イメージを処理する場合、通常、カメラ
またはスキャナを使用してピクチャを捕捉する。その結
果得られるイメージは、それぞれ特定の位置でのイメー
ジの強度を表す個々のピクセルの二次元アレイとして記
憶される。

【０００３】大抵の場合、結果として得られるイメージ
には不要な情報が含まれている。ごみや不要な背景情報
は、捕捉プロセスを操作することによって削減すること
ができる。不要な情報が有効な情報とは異なる周波数帯
域に属する場合は、捕捉中に単に濾過するだけでよい。

【０００４】捕捉プロセス後のイメージ品質は、まだ十
分良好なものとは言えない。メジアン・フィルタ、高域
および低域フィルタ、ラプラス演算子など、イメージ情
報を濾過する複数の方法が存在する。これらの解決法
は、イメージ品質を大幅に向上することができるが、き
わめて時間がかかる。

【０００５】パターン認識適用業務の場合、イメージ品
質は、背景と前景のコントラストを良くするための要件
によって規定される。たとえば、典型的な文字認識適用
業務に使用される白黒イメージは、白い背景と前景の黒
い文字から構成される。線、図面、スタンプ、および認
識プロセスに入力されない捕捉されたイメージのその他
の部分は除去しなければならない。これを、前述のよう
なフィルタ操作によって行うことはできない。

【０００６】署名確認や手書き認識などのその他のパタ
ーン認識プロセスには、はっきりした入力も必要であ
る。これらのプロセスは通常、イメージからの特徴値の
抽出に基づいており、したがって、不要なイメージ情報
によって認識プロセスが阻害される。有効特徴の抽出お
よび比較に基づく技術の一例は、自動署名確認に関する
ＩＢＭの公開欧州特許出願EP-A-0 483 339号に記載され
ている。

【０００７】前述のイメージまたはパターン認識の適用
業務にはもう１つの問題領域がある。典型的なイメージ
内容および要素の位置が捕捉の前に分かっている場合、
その位置に関する情報を使用して所望の情報を分離する
ことができる。複数のクラスのイメージ内容が存在する
場合、最初に、正しいクラスを認識しなければならな
い。たとえば、文書処理の場合、位置が定義されている
ならば、文字情報をイメージから抽出することができ
る。そのために、文書の種類を最初に知っておくか、あ
るいは適切な技術を使用して認識しておかねばならな
い。

【０００８】

【発明が解決しようとする課題】本発明の目的は、前述
の周知のプロセスの欠点を解消することであり、特に、
イメージ要素において文書のイメージを柔軟かつ安全に
分離することができ、認識プロセスの前に、走査される
文書内の不要なイメージを除去しておけるようにイメー
ジ要素を見つけて分類することができる方法を提供する
ことである。

【０００９】

【課題を解決するための手段】本発明によれば、上記そ
の他の目的は、独立請求項１で定義されるステップを適
用することによって基本的に解決することができる。請
求項１に記載された基本的な解決法の、その他の利点を
もつ実施例は、従属請求項で定義されている。これらの
利点は、特に説明を要しないものもあるが、そうでない
ものは以下の具体的説明で定義し説明する。

【００１０】本発明の方法は、イメージ要素を見つけて
分類することができる。これは基本的に４つのステップ
で行われる。第１のステップでは、イメージ要素をセグ
メント化する。このステップでは、イメージ要素を探索
し、さらに処理するために記憶する。第２のステップで
は、イメージ要素から特徴情報を抽出する。第３のステ
ップでは、第２のステップで得られた特徴情報に基づ
き、第１のステップで得られた各イメージ要素を分類す
る。第４のステップでは、不要な情報として分類された
要素を除去する。

【００１１】

【実施例】以下では、基本的に４つのステップを含む本
発明の方法を、図１ないし５に関して詳細に説明する。

【００１２】＜セグメント化＞第１のステップでは、ピ
クセル・アレイを水平および垂直方向に走査する。アレ
イ中の各ピクセルを検査し、単一のイメージ要素に属す
る近隣ピクセル群を探索する。

【００１３】イメージ要素は、同じあるいはほぼ同じ強
度を有し、共通の境界をもつ複数のピクセルから構成さ
れる。境界は、水平、垂直、または斜めの近隣ピクセル
によって与えられる。強度値の合致が必要かどうかは、
静的しきい値、または各ピクセルの近隣ピクセルでの強
度情報から算出した動的しきい値に依存することができ
る。図１には、このプロセス中に見つかったイメージか
ら得られる典型的なイメージ要素を示す。図１に示すイ
メージは、小文字"ｅ"の強度マトリックスである。この
小文字"ｅ"は、符号１０で示してある。ピクセル強度値
は、矢印１１の方向の複数の列と、矢印１２で示される
複数の行によって与えられる。強度値は、番号０、１、
２、３、４、５で示してある。依然として文字"ｅ"１０
に属する強度のしきい値として、領域１４に示す値２を
選択する。２を上回るすべての値は、線１３によって囲
まれ、文字"ｅ"１０の外周を示している。

【００１４】この段階でに見つかった要素は、依然とし
て、分離する必要がある複数の論理部分を構成する可能
性がある。これらの部分の接続部を見つけて、除去しな
ければならない。線の場合、好ましい方向、すなわち線
に沿った方向を使用することができる。この方向が急激
に変化する場合、近隣ピクセル間の接続部が除去される
ので、線は複数のイメージ要素に分解される。

【００１５】イメージの各線を見つけて追従する方法の
他に、接続されたピクセルの数も使用することができ
る。そのためには、イメージを平行ランで走査し、その
ような２つのランの間の境界を計算する。この長さを、
そのイメージにおける前のランおよび次のランの長さと
比較する。この長さが特定のしきい値を下回る場合、ピ
クセル間の接続部は切断される。図２に、ピクセル・ラ
ンへの分解の一例を示す。図２に示すイメージ要素は、
矢印２０の方向に沿ってランに分解されている。ラン２
１、ラン２２、ラン２３、およびラン２４が示されてい
る。ラン２２とラン２３の間の接続部は破線で示し、矢
印２９で指してある。この場合、ラン２２とラン２３の
間の接続は、ラン２１とラン２２の間の長さおよびラン
２３とラン２４の間の長さに比べて短すぎる。さらに、
他のラン２５、２６、２７でも、同様な接続部を破線で
示し、矢印２８で指してある。したがって、ラン２５と
ラン２６の間の接続部は、前のランおよび後のランと比
較して短すぎると計算される。したがって、図の領域２
８および２９で、ピクセル接続部が切断される。要約す
ると、ピクセル接続部が単一のイメージ要素を構成する
のに十分でない位置が、矢印２８および２９で示されて
いる。

【００１６】単一のイメージ要素を構成するピクセル群
を見つけるために、前述の両方の条件を組み合わせて使
用する。必要な最小サイズを使用すると、有効な情報を
含むのに十分な大きさのイメージ要素だけを選択し、他
のイメージ要素をただちに廃棄することができる。これ
によって、イメージ中の背景雑音が除去され、イメージ
要素の数が少なく維持される。このプロセス中に見つか
った各イメージ要素の位置は、さらに処理するために記
憶される。

【００１７】＜特徴抽出＞各イメージ要素ごとに、１組
の特徴値を算出する。大部分の特徴値は、セグメント化
プロセス中にただちに算出される。これは特に有益であ
り、また場合によっては、２つの異なるイメージ要素
が、交差する周囲領域をもつので重要である。特徴計算
中にこれらの領域を使用する場合、一方のイメージ要素
の各部分が他方のイメージ要素の特徴値に影響を及ぼす
可能性がある。説明を簡単にするために、周囲イメージ
要素領域として矩形を使用する。図３に、３つのイメー
ジ要素３４、３５、３６の矩形の周囲領域３１、３２、
３３の例を示す。イメージ要素３４および３５は、周囲
領域３１および３２の交差部を有する。周囲領域３３を
有するイメージ要素３６は、イメージ要素３４の周囲領
域３１の完全に内側に位置している。

【００１８】ローカル特徴と近隣特徴という２つの特徴
クラスがある。ローカル特徴は、イメージ要素自体の特
性を記述する。近隣特徴は、イメージ要素と、その近隣
イメージ要素の関係を記述する。

【００１９】＜ローカル特徴＞ローカル特徴の１つは密
度特徴である。特徴は、イメージ要素の最大水平および
垂直エクステンションによって表される矩形領域中の前
景ピクセルの数と背景ピクセルの数の比として算出され
る。この比率は、垂直または水平直線の場合、かなり高
くなる。もう１つのローカル特徴は複雑度特徴である。
この特徴は、垂直および水平方向で計算され、特定の方
向についての高強度と低強度の間の変化の平均数によっ
て与えられる。この特徴は、イメージ要素に属する線分
の数を表す。もう１つのローカル特徴としてイメージ要
素の包絡線の幅と高さの商から縦横比特徴を算出するこ
とが可能である。ここで説明した以外のローカル特徴も
存在し得る。

【００２０】＜近隣特徴＞特定の方向での近隣イメージ
要素の数も、特徴値として使用することができる。この
特徴値を、ほぼ同じサイズ特性をもつイメージだけをカ
ウントする条件と組み合わせると、印刷されたテキスト
用の良好な標識が得られる。他の近隣特徴も存在し得
る。

【００２１】図４に、典型的なテキスト行に見られるイ
メージ要素の一例を示す。この例は、それぞれ単一のワ
ードを囲む２つの大きな矩形領域４１および４２を示し
ている。各文字はそれ自体の周囲領域を有する。したが
って、ワード"the"４１には"ｔ"を表す内部領域４１
１、"ｈ"を表す内部領域４１２、および"ｅ"を表す内部
領域４１３がある。同様に、領域４２中のワード"quic
k"は、それぞれ文字"ｑ"、"ｕ"、"ｉ"、"ｃ"、"ｋ"を表
す矩形形状の５つの内部領域４２１、４２２、４２３、
４２４、４２５を有する。

【００２２】最後に、各ローカル特徴は、近隣特徴の等
価物をもつことができる。そのために、固定半径によっ
て与えられる領域の内部にある各イメージ要素からロー
カル特徴値の平均を算出することができる。これらの特
徴値は、それぞれの距離で加重される。

【００２３】＜分類＞イメージ要素の分類は、算出され
た特徴セットに基づいて行われる。そのために、人工ニ
ューラル・ネット手法を使用することができる。１つの
クラスに属するイメージ要素だけを見つけねばならない
場合、単一の出力ノードをもつ単純フィードフォワード
・ネットで十分である。各イメージ要素の特徴値がニュ
ーラル・ネットに送られる。特徴値は、ニューラル・ネ
ット内部で加重され、その特徴セットのイメージ要素が
特定のクラスに属する確率として解釈される値を与える
出力が算出される。十分に訓練されたニューラル・ネッ
トは、訓練中に使用されたイメージ要素だけでなく、初
めて表示されたイメージ要素も分類することができる。
マルチレイヤ・フィードフォワード・ネットなどの最新
の人工ニューラル・ネットワークを使用して、極めて良
好な認識率が達成されている。

【００２４】複数の出力を備えた他のネットワーク・ア
ーキテクチャを使用して、訓練プロセス中に提示された
各イメージ要素クラスの確率値を算出することができ
る。クラス・メンバシップが、イメージ要素と共に記憶
され、以後の処理中に使用される。認識されるクラスは
たとえば、線、スタンプ、署名、手書きテキスト、印刷
テキストなどの文書部分である。

【００２５】＜分類フィードバック＞この時点で、フィ
ードバック・ループを組み込むことができる。各イメー
ジ要素ごとに特定のクラス・メンバシップの確率が分か
っている場合、この値を追加特徴として使用することが
できる。そのために、固定半径によって与えられる領域
の内部にある各イメージ要素から、特定のクラスの確率
値の平均が算出される。これらの特徴も、使用されたニ
ューラル・ネットに送られ、認識率を大幅に改善する。
分類ステップは、安全な結果が達成されるまでの、前述
のステップの複数回の繰返しを含むことができる。

【００２６】結果として得られるイメージ要素は、この
ステップまたは前のステップの後に再びグループ化する
ことができる。この組合せは、イメージ要素のサイズ、
位置、または特徴に基づいて行われる。対応するイメー
ジ要素のグループをイメージ・クラスタと呼ぶ。図４
に、多数のイメージ要素４１１、４１２、４１３、４２
１、４２２、４２３、４２４、４２５、およびそれらに
対応するクラスタ４１、４２の例を示す。

【００２７】＜クリーニング＞最終ステップは、希望し
ないクラス・メンバシップをもつイメージ要素の除去で
ある。１つのイメージ要素が別のイメージ要素で完全に
囲まれる、あるいは２つの異なるイメージ要素が、図３
に示すようにその周囲領域に交差部をもつことがある。
そのため、除去するすべてのイメージ要素を、除去され
ない他のイメージ要素との交差部があるか否か検査す
る。周囲領域の間に交差部をもつ各イメージ要素対が、
いくつかの新しいイメージ要素と置き換えられる。それ
らのイメージ要素の合計は元のイメージ要素対を構成す
るが、新しい要素は周囲領域に交差部をもたない。交差
領域自体は、両方のイメージ要素のうち一方の一部とし
て残る。図５および６に、このプロセスの例を示す。図
５には、矩形５１と、交差部５１２を有する別の矩形５
２を示す。矩形５１は、図６に示すように２つの矩形５
１１と５１３に分割される。交差領域５１２は矩形５２
２に追加され、前の矩形５５１の一部ではなくなる。こ
れは、図６の矩形５２２内の領域５１２を囲む破線５２
３で示されている。これらの作成中に、新しいイメージ
要素５１１、５１３、５２２が、元の要素の分類を継承
する。見つかったすべての交差部についてこのプロセス
を繰り返した後、結果として得られる１組のイメージ要
素を探索し、希望しないすべてのイメージ要素を除去す
ることができる。

【００２８】＜応用側＞前述の本発明の方法を使用し
て、イメージを明確な多数のイメージ要素にセグメント
化することが可能である。このプロセス中に小さな要素
が破棄されることを利用して、イメージから背景雑音を
削除することができる。

【００２９】イメージ要素サイズに関する情報に基づ
き、垂直または水平線などの単純な形の要素を見つける
ことができる。この情報を使用すると、文書から他の部
分を抽出する前に、基本文書タイプを認識し線を除去し
ておくことができる。

【００３０】特徴に基づく分類を使用して、イメージ要
素の数およびクラスなどイメージ内容に関する情報を計
算することができる。この機能を使用して、イメージの
あらゆる部分とイメージ全体を分類することが可能であ
る。適用業務はこの方法を使用し、印刷物、手書きした
もの、図面、または写真などの複雑なイメージを区別す
ることができる。

【００３１】分類されたイメージ要素は、光学式文字認
識や手書き認識など以後の処理のために抽出することが
可能である。イメージ要素の位置が分かっているので、
基礎文書構造に関する必要な情報は少なくなる。

【００３２】自動署名確認システムは、この方法を使用
して、１つまたは複数の署名を見つけ、文書イメージか
ら抽出することができる。クラスタ化を使用して、各署
名のイメージ要素を分離する。

【図面の簡単な説明】

【図１】小文字"ｅ"の強度ピクセル・マトリックスを示
す図である。

【図２】値が小さすぎるイメージ要素接続部を検出する
ための方式の概略図である。

【図３】相互に貫通する矩形イメージ領域の例を示す概
略図である。

【図４】典型的なテキスト行で見られるイメージ要素の
典型的な例を示す図である。

【図５】交差する矩形とその記録を示す図である。

【図６】交差する矩形とその記録を示す図である。

【符号の説明】

１０文字"ｅ" １３線１４領域２１ラン２２ラン２３ラン２４ラン２５ラン２６ラン２７ラン２８領域２９領域３１周囲領域３２周囲領域３３周囲領域３４イメージ要素３５イメージ要素３６イメージ要素４１矩形領域４２矩形領域５１矩形５２矩形

Claims

【特許請求の範囲】

【請求項１】特に、手書き情報の文字認識を行う前、特
に署名を分析し認識する前に、書式要素、線、印刷文字
などの不要な情報を文書から除去するための、文書処理
用のイメージ・セグメント化およびイメージ要素分類方
法であって、１）イメージをイメージ要素にセグメント化するステッ
プと、２）各イメージ要素から特徴情報を抽出するステップ
と、３）ステップ１）で得られた各イメージ要素を分類する
ステップと、４）不要な情報として分類されたイメージ要素を除去す
るステップとを含むことを特徴とする方法。
【請求項２】ステップ１）のセグメント化が、各イメー
ジ要素を探索し、見つかった各イメージ要素を、以後の
処理のために記憶することによって実行されることを特
徴とする、請求項１に記載の方法。
【請求項３】前記分類が、請求項１のステップ２で生成
された特徴情報に基づいて行われ、文脈に対応して実行
されることを特徴とする、請求項１または２に記載の方
法。
【請求項４】セグメント化ステップについて、文書の完
全なイメージのピクセル・アレイが水平および垂直方向
に走査され、通常はほぼ同じ強度をもつ複数のピクセル
から構成される各イメージ要素が、同じイメージ要素に
属する場合に探索されることを特徴とする、請求項１、
２、または３に記載の方法。
【請求項５】ピクセルが、ａ）線の方向に検査され、急激な方向の変化および該変
化の位置が、記憶され、ピクセル接続部が切断される破
断点として認識され、あるいはｂ）平行ランで検査され、そのような２つのランのピク
セル間の境界が計算され、その長さが一定のしきい値を
下回る場合、ピクセル接続部が切断され、あるいはｃ）前記のステップａ）とｂ）の両方の組合せで検査さ
れ、同じ要素に属していないイメージ要素を分離するこ
とを特徴とする、請求項４に記載の方法。
【請求項６】必要最小サイズを下回るか、あるいは有効
な情報を含んでいないイメージ要素が、好ましくはただ
ちに廃棄され、したがってイメージ中の背景雑音が除去
され、イメージ要素の数が少なめに維持されることを特
徴とする、前記いずれかの請求項に記載の方法。
【請求項７】各イメージ要素からの前記特徴抽出が、大
抵の場合はセグメント化プロセス中にただちに実行され
ることを特徴とする、前記いずれかの請求項に記載の方
法。
【請求項８】単一のイメージ要素とその近隣イメージ要
素の関係を記述する近隣特徴値と、イメージ要素自体の
特性を記述するローカル特徴値を計算することを特徴と
する、請求項７に記載の方法。
【請求項９】近隣特徴値として、特定の方向の近隣イメ
ージ要素の数が計算され、該近隣イメージ要素の数が、
ほぼ同じサイズ特性をもつイメージ要素だけのカウント
と組み合わせて、印刷テキストを示すことができること
を特徴とする、請求項８に記載の方法。
【請求項１０】ローカル特徴として、イメージ要素の最大水平および垂直エクステンションに
よって記述される矩形領域中の前景ピクセルの数と背景
ピクセルの数の比である密度特徴、または特定の方向に
ついての高強度と低強度の間の変化の平均数によって与
えられ、イメージ要素に属する線分の数を表す、垂直お
よび水平方向の複雑度特徴、またはイメージ要素の包絡
線の幅と高さの商である縦横比特徴あるいはそれらの組
合せが計算されることを特徴とする、請求項８または９
に記載の方法。
【請求項１１】各ローカル特徴値が対応する近隣特徴値
等価物を有し、前記等価物が、固定半径によって与えら
れる領域の内部の各イメージ要素のローカル特徴値の平
均として算出され、前記の算出された特徴値がその固有
距離で加重されることを特徴とする、請求項８、９、ま
たは１０に記載の方法。
【請求項１２】分類ステップが、人工ニューラル・ネッ
トワーク、好ましくはマルチレイヤ・フィードフォワー
ド・ネットによって実行されることを特徴とする、前記
いずれかの請求項に記載の方法。
【請求項１３】前記分類ステップにおいて、各イメージ
要素の特徴値が人工ニューラル・ネットに送られ、内部
で加重され、その特徴・セットのイメージ要素が特定の
クラスに属する確率を示す値を与える出力が算出される
ことを特徴とする、前記いずれかの請求項に記載の方
法。
【請求項１４】複数の出力をもつ人工ニューラル・ネッ
トワークを使用する前記分類において、ニューラル・ネ
ットワークの訓練中に提示された各イメージ要素クラス
の確率値が算出され、各イメージ要素のクラス・メンバ
シップがイメージ要素と共に、以後の処理のために記憶
され、その際に、認識され記憶されるクラスが、線、ス
タンプ、署名、手書きテキスト、印刷テキストなどの文
書部分であることを特徴とする、前記いずれかの請求項
に記載の方法。
【請求項１５】前記分類ステップが、好ましくは安定し
た結果が達成されるまで、複数回繰り返されることを特
徴とする、請求項１３または１４に記載の方法。
【請求項１６】好ましくは、固定半径によって与えられ
る領域の内部にある各イメージ要素の特定のクラスの確
率値の平均値を算出することによって、各イメージ要素
の特定のクラス・メンバシップの既知の確率値を追加特
徴値として使用することによってフィードバックを組み
込み、これらの特徴値も前記ニューラル・ネットワーク
に送って、認識率をさらに改善することを特徴とする、
請求項１３、１４、または１５に記載の方法。
【請求項１７】分類されたイメージ要素が、対応するイ
メージ要素のクラスタにグループ化され、前記グループ
化が、好ましくはサイズ、位置、または関連する特徴値
に関する情報に基づいて行われることを特徴とする、請
求項１２ないし１６のいずれかに記載の方法。
【請求項１８】不要なイメージ要素を除去する前に、そ
れらの要素が、除去されない他のイメージ要素との交差
について検査されることを特徴とする、前記いずれかの
請求項に記載の方法。
【請求項１９】交差するイメージ要素の対が、交差部を
もたないいくつかの新しいイメージ要素で置き換えら
れ、交差する領域自体が元のイメージ要素の対の一部と
されることを特徴とする、請求項１８に記載の方法。