JPH04114560A

JPH04114560A - 自動文書入力装置

Info

Publication number: JPH04114560A
Application number: JP2234952A
Authority: JP
Inventors: Yasushi Ishizuka; 康司石塚
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 1990-09-04
Filing date: 1990-09-04
Publication date: 1992-04-15

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】【産業上の利用分野】

この発明は、読み取った文書画像領域を分割して得られ
た各領域の属性を識別し、各領域における画像情報に対
して属性に応じた処理を行って外部装置へ入力する自動
文書入力装置に関する。

【従来の技術】

文書に記載された内容をコンピュータに入力する際に、
上記文書から得られた文書画像中における文字の画像と
写真および線図形等の画像とを識別する必要かある。そ
して、文字の画像であると識別した場合には、入力され
た文字に係る画像情報に基づいて文字認識を実行し、得
られた文字認識結果（文字コード）をコンピュータに入
力する。一方、写真および線図形等の画像であると識別した場合
には、入力された写真および線図形等の画像情報を圧縮
してコノピユータに入力する。こうして、コンピュータ
に対して効率的に文書画像情報を入力するのである。従来、上述のような文書入力処理を実施するものとして
第９図に示すような自動文言入力装置かある。画像入力部ｌは例えばスキャナ等から成り、文書紙面に
記載された文字、写真および線図形等を読み取って文書
画像情報に変換して入力する。ａ酸分割部２は、画像入
力部ｌからの文書画像情報に基づいて複数種の画像特徴
量を抽出する。そして、抽出された画像特徴量に基づい
て、文書画像領域をある一つの属性（例えば、文字領域
および写真領域等）を有すると推定される小領域に分割
する。領域識別部３は、領域分割部２によって分割され
た小領域における画像情報から、その小領域の属性を識
別するための特徴量を抽出し、この特徴量に基づいて小
領域の属性を識別する。上記領域分割部２によって分割された小領域の属性が領
域識別部３によって“文字領域”であると識別された場
合には、その小領域の画像情報を文字Ｊ１部４に送出す
る。そうすると、文字認識部４は、入力された上記小領
域における画像情報を１文字型位に切り出し、この切り
出された１文字型位の文字画像情報に基づいて文字認識
を実行して個々の文字を認識する。一方、領域分割部２
によって分割された小領域の属性か領域識別部３によっ
て例えば写真領域であると識別された場合には、その小
領域の画像情報を画像処理部５に送出する。そうすると
、画像処理部５は、入力された上記小領域の画像情報の
圧縮等の処理を実施する。統合部６は、上記文字認識部４から出力される文字コー
ド列からなる本文情報と上記画像処理部５から出力され
る圧縮された画像情報とを、位置情報等に基づいて原文
書に再現可能なように統合して、文書フォーマットに編
集する。こうして、原文書の文書フォーマットに編集さ
れた文書画像情報は記憶部７に格納され、必要に応じて
コンピュータ等に入力される。上記領域識別部３によって小領域の属性を識別する方法
として、特徴量としてヒストグラム（周辺分布特徴量）
を用いる方法かある。この方法においては、文書画像領
域を分割して得られた小領域における黒情報の縦方向お
よび横方向のヒストグラムを求める。そして、例えば縦
方向のヒストグラムに周期的な山が見られる場合には、
その小領域の属性は縦方向に文字列を有する文字領域で
あると識別するのである。また、小領域の属性を識別する他の方法としてラベリン
グ法がある。この方法においては、小領域の画像情報に
おける一つの集団を形成する黒画素には同し番号を付加
（ラベリング）し、ラベリングされた画像情報に基づい
て最小矩形（同じ番号が付加された黒画素を囲む長方形
の領域）を特徴量として抽出し、抽出された最小矩形の
大きさの分布を調べる。そして、最も多く存在する矩形
の大きさが、予め定められた文字を表す矩形の大きさの
閾値の範囲内であれば、その矩形が存在する小領域は文
字領域であると識別するのである。

【発明が解決しようとする課題】

しかしｔから、上記従来の自動文書入力装置における領
域識別部３によって実行される小領域の属性を識別する
方法には、次のような問題がある。すなわち、特徴量としてヒストグラムを用いる方法にお
いては、上記画像入力部１におＬｌて文書紙面の文字、
写真および線図形等を読み取る際に、文書画像か傾いて
いる場合には、文書画像における文字列の方向とヒスト
グラムを求める方向とにずれが生ずる。その１こめに、
得られるヒストグラムには周期的な山が見られず、その
小領域の属性は文字領域であると正しく識別することが
できない場合か生ずるという問題かある。また、ラベリング法においては、上記画像入力部ｌから
入力された文書画像情報に対するラベリングと、ラベリ
ングされた画像情報に基づく最小矩形の抽出とを行わな
ければならない。ところか、このラベリング時および抽
出時における演算には逐次処理を行なうアルゴリズムを
用いるたぬ、ラベリング処理と最小矩形の抽出処理とを
並列処理できない。したがって、処理に時間が掛かって
高速化か困難であるという問題かある。３らに、例えば
写真内に同し大きさの物体の写像つ・多数存在する場合
にはその物体に係る矩形の分布か大きくなり、しかしそ
の人きな分布を示す矩形の大きさか文字に係る矩形の大
きさの閾値の範囲内にある場合には、上記小領域は本釆
写頁領域であるにし拘わらず文字領域であると誤識別さ
れてしまう二いう問題かある。さらに、領域識別部３においては、小領域の属性の識別
に失敗して一つの小領域に複数の属性（例えば、文字領
域と写真領域）か混在していると識別された場合には、
何等かの方法によって当該小領域の属性をいずれかの属
性に特定してしまう。そのため、こうして特定された当該小領域の属性が誤っ
ている場合には、マニュアル修正の必要が生ずる。した
かって、従来の自動文書入力装置によって多くの文書の
内容を一度にコンピュータ等に入力する際には、−括処
理かできないという欠点かある。そこで、このような欠点に対処するｆこめに、領域分割
部２て、文書画像領域を一つの属性を何すると推定され
る小領域に分割する際に用いる画像特徴量がある条件を
満たすか否かを判別する。そして、上記条件を満たす場
合には、上記文書画像領域を小領域に分割する際に、再
帰的にそれ以上分割できない最小限度（この最小限度は
パラメータによって設定する）まで分割する方法かある
。しかしなから、この方法によって文書画像領域を小領域
に分割した場合には、分割された小領域における画像情
報が適切であるか否か、すなわち、当該小領域に複数の
属性が存在するか否かを、パラメータの変更等を行なう
ことなく総ての小領域に対して適確に判別する方法がな
いのである。そのため、従来は、上記文書画像領域を誤った小領域に
分割されることを防止するため、次のようにして領域識
別処理を行っている。すなわち、当初、できるだけ小さ
い小領域に分割してその小領域の属性を識別する。そう
した後、各小領域における位置情報等を用いて、同じ属
性を有する小領域を統合するのである。し１こかって、上記領域識別部３による領域分割処理か
繁雑で時間か掛かり、高速処理に不向きであるという問
題もある。そこで、この発明の目的は、入力されｆ二叉書画像領域
を小領域に分割する領域分割処理を、一つの小領域に複
数の属性が存在しないように精度良く、かつ、高速に実
行できる自動文書入力装置を提供することにある。

【課題を解決する１こめの手段】上記目的を達成するにめ、第１の発明は、入力された文
書画像領域を一つの属性を有するような小額域に領域分
割部によって分割し、この領域分割部によって得られた
小領域の属性を領域識別部によって識別し、上記小額域
における画像情報に対して上記識別の結果に応じた処理
を実施した後にこの処理後の画像情報を外部装置に入力
する自動文書入力装置において、上記領域識別部は、上
記領域分割部によって得られｆ二当該小領域における画
像情報の特徴量を抽出する特徴量抽出部と、上記特徴量
抽出部によって抽出された当該小領域に係る特徴量に基
つし・て当該小領域の属性か何であるかを識別し、識別
結果を表す識別信号を出力する属性識別ニューラルネッ
トワークと、上記属性識別ニューラルネットワークから
出力される識別信号に基づいて当該小領域の属性を判定
し、その結果当該小領域は複数の属性か混在している混
在領域であると判定し几場合には当該小領域の再分割を
指示する指示信号を上記領域分割部に送出する属性判定
部を備えて、当該小領域か上記混在領域である場合には
、上記属性判定部からの上記指示信号に基づいて上記領
域分割部によって当該小領域を再分割することを特徴と
している。また、第２の発明は、第１の発明の自動文書入力装置に
おいて、上記領域分割部によって得られた当該小領域に
おける画像情報の特徴量を抽出する特重量抽出ニューラ
ルネットワークを備えて、上記属性識別ニューラルネッ
トワークによって当該小領域の属性を識別する際に用い
る特徴量の少なくとも一つを、上記特徴量抽出ニューラ
ルネットワークによって抽出することを特徴としている
。まｆ二、第３の発明は、第１の発明まには第２の発明の
自動文書入力装置にお０て、上記属性識別ニューラルネ
ットワー々を文書画像の特性に応じて複数個設ｊ十にこ
とを特徴としている。

【作用】

第１の発明では、入力されｆ二叉書画像領域か一つの属
性を何するような小領域に領域分割部によって分割され
、得られた当該小領域における画像情報の特＠量か特徴
量抽出部によって抽出される。そして、この特徴量抽出部によって抽出された当該小領
域に係る特徴量に基ついて、属性識別ニューラルネット
ワークによって当該小領域の属性が何であるかが識別さ
れて識別結果を表す識別信号が出力される。こうして、上記属性識別ニューラルネットワークから出
力された識別信号に基づいて属性判定部によって当該小
領域の属性が判定される。その結果、当該小領域は複数
の属性か混在している混在領域であると判定された場合
には、上記属性判定部から当該小領域の再分割を指示す
る指示信号か上記領域分割部に送出される。そして、上
記属性判定部から送出され１ニ指示信号に基ついて上記
領域分割部によって当該小領域か再分割される。したかって、一つの小領域に複数の属性か存在しなＬ）
ように、入力された文書画像領域か正確に小領域に分割
される。まｒニ、第２の発明では、小領域の属性を識別する際に
用いる特徴量のうち、少なくとも一つの特徴量は特徴量
抽出ニューラルネットワークによって抽出される。そし
て、上記特＠量抽出ニューラルネットワークによって抽
出された非解析的かつ広範囲な特徴量を含む特徴量に基
ついて、上記属性識別ニューラルネットワークによって
当該小領域の属性がより正確に識別される。したがって、入力された文書画像領域がより正確に小領
域に分割される。また、第３の発明では、上記特徴量抽出部によって抽出
された特徴量あるいは特徴量抽出ニューラルネットワー
クによって抽出された特徴量が、文書画像の特性に応じ
て複数個設けられた属性識別ニューラルネットワークに
入力される。そうすると、上述のように複数個設けられ
た夫々の属性識別ニューラルネットワークは入力された
当該小領域に係る特徴量に基ついて当該小領域の属性を
識別する。その際に、上記各属性識別ニューラルネットワークは文
書画像の特性に応じて設けられているので、属性識別ニ
ューラルネットワークによる小領域の属性識別機能か文
盲画像の特性に応じて分担されている。そこで、当該文
書画像の特性に応した属性識別ニューラルネットワーク
によって、更に正確に当該小領域の属性が識別されるの
である。したがって、入力された文書画像領域かより一層正確に
小領域に分割される。

【実施例】

以下、この発明を図示の実施例により詳細に説明する。以下に述べる各実施例は、入力された文字、写真、線図
形等を表す文書画像情報から成る文書画像領域を、ニュ
ーラルネットワークを用し・て、文字画像情報によって
構成される文字領域と写真および線図形等の文字以外の
画像情報によって構成される図形領域との２種類の属性
の小領域に正しく分割するものである。第１実施例第１図は第１実施例に係る自動文書入力装置の一例を示
すブロック図である。この自動文書入力装置は画像入力
部１】、＠酸分割部１２．領域識別部１３１文字認識部
１４１画像処理部】５および統合部１６から概略構成さ
れている。ここで、上記画像入力部１１．佃域分割部１
２２文字認識部１４画像処理部１５および統合部１６の
処理動作は、第９図に示す自動文書入力装置における画
像入力部１．領域分割部２１文字認識部４９画像処理部
５および統合部６とほぼ同じ処理動作であるから処理動
作の説明を省略する。本実施例における上記領域識別部１３は、特徴量抽出部
２１．属性識別ニューラルネットワーク２２および属性
判定部２３によって概略構成されている。上記特＠量抽出部２１は、上記領域分割部Ｉ２によって
文書画像領域を分割して得られた小領域における画像情
報から、ヒストグラム特微量と線密度特徴量との２種類
の特徴量を抽出する。上記ヒストクラム特微量は次のようにして抽出する。す
なわち、当該小領域におけろ画像情報（白黒画素列）を
縦方向および横方向に走査して黒画素数のヒストグラム
を算出する。そして、得られた黒画素数分布曲線を６４
等分し、得られた６４個の区間毎に平均濃度を算出する
。こうして得られた２走査方向×６４個の平均濃度値を
ヒストグラム特微量とするのである。また、上記線密度特徴量は次のようにして抽出する。す
なわち、当該小領域における画像情報を縦方向および横
方向に走査して白画素から黒画素に反転する回数のヒス
トグラムを算出する。そして、得られた反転回数分布曲
線を６４等分し、得られた６４個の区間毎に平均反転回
数を算出する。こうして得られた２走査方向×６４個の平均反転回数値
を線密度特徴量とするのである。ここで、上記ヒストグラム特微量七線密廣特微量との差
異は次のよってある。例えば、市松模様の画像情報から
特徴量を抽出する場合、ヒストグラム特微量では市松模
様を構成するメツツユの大きさの差異を抽出できない。これに対して、線密度特徴量では、メツツユの大きさか
大きい場合には線密度特徴量の値は小さい値を示す一方
、メツツユの大きさか小さい場合には線密度特徴量の値
は大きい値を示すのでメツツユの大きさの差異を抽出で
きる。つまり、線密度特徴量は、ある領域内の画像の図
形の複雑さを抽出する特徴量であると言える。すなわち、ヒストグラム特微量を用いることによって、
文字領域内の文字列は周期的な配列を示すという性質を
利用して文字領域を識別する。また、線密度特徴量を用
いることによって、文字の線密度は図形の線密度に比べ
て小さいという性質を利用して文字領域と図形領域とを
区別するのである。上述のようにして抽出された２×６４次元のヒストグラ
ム特微量と２×６４次元の線密度特徴量とから成る合計
２５６次元の持＠童の値を、［属性識別ニューラルネッ
トワーク２２の入力データとオろのである。上記属性識別ニューラルネットワーク２２は、上記特徴
量抽出部２１によって抽出されに当該小領域の特徴量に
基づいて、当該小頭域の画像情報か属するカテゴリか“
文字領域”であるが“図形領域”であるか文字領域と図
形領域とが混在した”混在領域”であるかを識別する。第２図は上記属性識別ニューラルネットワーク２２の構
造概念の一例を示す。この属性識別ニューラルネットワ
ーク２２は、入力層２５．中間層２６および出力層２７
の３層から成る３層パーセブトロン型ニューラルネット
ワークである。上記入力層２５は２５６個のノードを有
する一方、出力層２７は３個のノードを育する。中間層
２６のノーＦ数は、識別処理の時間や精度等に応じて最
適に設定すればよい。上記入力層２５における各ノード
は中間層２６の全ノートと結合され、中間層２６の各ノ
ートは出力層２７の全ノートと結合されてＬ・る。上記
出力層２７における７ノート２８には識別カテゴリ“文
字領域”を割り付け、ノート２９には識別カテゴリ“混
在領域“を割り付け、ノー）”３０には識別カテゴリ“
図形領域”を割り付ける。上記構造の属性識別ニューラルネットワーク２２は、次
のような学習データを用いて誤差逆伝播学習間によって
学習する。すなわち、種々の文書画像情報から得られた
文字領域１図形領域および混在領域の画像情報（学習サ
ンプル）に基づいて、上記特徴量抽出ｖＩ２＋によって
２×６４次元のヒストグラム特微量と２×６４次元の線
密度特徴量とを抽出する。そして、この２×６４次元の
ヒストグラム特微量と２×６４次元の線密度特徴量とか
ら成る２５６次元のデータを学Ｈデータとするのである
。その際に、上記学習サンプルは多種に渡った（すなわ
ち、種々の文字の大きさ１文字列の配列方向１文字間隔
１文字頌域と図形領域との配置写真や線図形の種類等を
有する）学習サンプルを用いて学習することによって、
より識別能力の高い属性識別ニューラルネットロー々２
２を横築てきるのである。上記種々の学習サンプルに係る学習データを用いて、次
のようにして属性識別ニューラルネットワーク２２の学
習を実行する。まず、２５６次元の学習データの各要素
値を属性識別ニューラルイ、ノドワーク２２の入力層２
５における対応するノ°−ドに入力する。一方、入力し
た学習データか属するカテゴリか割り付けられた出力層
２７におけるノートへの入力値が“ビてあり他のノート
への入力値か“０”である教師データを出力層２７の各
ノート２８．２９．３０に入力する。そうすると、出力ｙｍ２７の各ノード２８，２９３０に
入力された教師データの要素値と学習データを入力した
際に実際に得られた出力層２７の各ノード２８．２９．
３０からの出力値との誤差の値が“０”に近付くように
、出力層２７および中間層２６の全ノートは各ノート間
の結合に付加された結合の強さを表すウェイトの値を更
新する。こうして学習か繰り返され、出力、ｇ２７の各
ノート２８．２９．３０におけろ入力されＬ二教師デー
タの要素値と上記実際の出力値との誤差の二乗和の値か
、予め設定され１こ閾値より小さくなるとその学習デー
タに基づく学習を終了する。このようにして、種々の学とデータによって学習されｆ
二属性識別ニューラルネットワーク２２は、属するカテ
ゴリが“文字領域”である学習データを入力すると、出
力層２７におけるカテゴリ“文字領域”が割り付けられ
たノート２８からの出力値が“ばてあり、他のノート２
９．３０カ＼らの出力値が“０°であるような出力デー
タを出力するように各ウェイトの値が設定される。また
、属するカテゴリが“図形領域“である学Ｈデータを入
力すると、出力層２７におけるカテゴリ“図形領域′が
割り付けられたノード３０からの出力値が“１°であり
、他のノード２ｇ、２９からの出力値が“０”であるよ
うな出力データを出力するように各ウェイトの値か設定
される。まに、属するカテゴリが“混在領域”である学
習データを入力すると、出力層２７におけるカテゴリ“
混在領域”か割り付けられたノート２９からの出力値か
“ビてあり、他のノート２８．３０からの出力値か”０
”であるような出力データを出力するように各ウェイト
の値か設定されるのである。上記学習済みの属性識別ニューラルネットワーク２２は
、領域分割部１２によって分割された当該小領域に係る
入力データか属するカテゴリを次のようにして識別する
。すなわち、上記特徴量抽出部２１から出力された当該
小領域に係る上記２５６次元の入力データを属性識別ニ
ューラルネットワーク２２の入力層２５に入力する。そ
うすると、各ノードは学習によって設定されたウェイト
の値に基づく出力値を結合された上層のノードに出力す
る。その結果、出力層２７の各ノード２８２９．３０か
らは当該小領域に係る入力データが属するカテゴリの識
別結果を表す識別信号を出力するのである。ここで、ニューラルネットワークによる識別とは、上述
のような学習において、入力された学習データに基つい
て得られＬ出力データの内容が教師データと同じになる
ように各ノード間の結合９重みを自ら設定する二とによ
って構築され几識別ルールに基ついて、入力データか属
オるカテゴリを識別するものである。その際に、上記識
別ルールは、学習データにおける局所的な特徴量の分布
に囚われず大局的な特徴に基づいて構築されるのである
。しにかって、ニューラルネットワークを用いた属性の
識別によれば、今まで困難であった文字領域と図形領域
とが混在した混在領域の識別を高精度で実施できるので
ある。まｆこ、その際に、中間層あるいは出力層内の各ノード
における処理は平行に処理される。したかって、属性識
別ニューラルネットワーク２２によれば属性の識別の高
速処理か可能となり、文書入力時間を大幅に短縮できる
のである。上記属性判定部２３は、上記属性識別ニューラルネット
ワーク２２の出力層２７から出力される当該小領域の属
性の識別結果を表す識別信号に基づいて、当該小領域の
属性を判定する。そして、その判定結果か”文字領域”
である場合には、上記領域分割部１２によ−て文書画像
領域を分割−で得られ１こ当該小領域にお１する画像情
報を上記文字認識部１４に送出する。そうすると、文字
認識部１４は、入力された属性“文字領域°である当該
小領域における画像情報に基つし）て、所定の文字認識
方法で当該小領域内、′）個々の文字を認識する。また、上記判定結果が“図形領域°である場合には、上
記領域分割部Ｉ２からの当該小領域における画像情報を
上記画像処理部１５に送出する。そうすると、画像処理
部１４は入力された属性“図形領域“である当該小領域
における画像情報を、所定の画像圧縮方法で圧縮する。また、上記判定結果が“混在領域”である場合には、上
記領域分割部１２に当該小領域の再分割を指示するため
の混在信号を出力する。その後、上記領域分割部Ｉ２か
らの当該小領域における画像情報を再度領域分割部１２
に送出する。そうすると、領域分割部１２は画像入力部
１１から出力される次の文書画像情報の読み込みを中止
し、属性判定部２３から出力される当該小領域に係る画
像情報を再度読み込む。そして、上記混在信号に従って
、画像領域を分割する際におけるそれ以上分割てきない
最小限度を決定する上記パラメータの値を、更に小さい
領域に分割可能に変更する。そして、この変更後のパラ
メータを用いて、上記読み込んだ当該小領域の画像情報
に基ついて当該小領域を更に複数の領域に分割するので
ある。その際における、属性判定部２３による当該小領域の属
性の判定は、例えば次のようにして実施する。すなわち
、属性識別ニューラルネットワーク２２の出力層２７に
おけるカテゴリ“文字領域”が割り付けられたノード２
８からの出力値が予め定められた閾値以上であり、その
他のノード２９３０からの出力値が閾値以下である場合
には、当該小領域の属性は“文字領域”であると判定す
る。以下、同様にして、ある属性が割り付けられたノードか
らの出力値が閾値以上であり、その他のノードからの出
力値が閾値以下である場合に、当該小領域の属性は上記
閾値以上の出力値を出力しているノートに割り付けられ
ｆ二属性であると判定するのである。上述のようにして、当該小領域に対する複数の領域への
再分割処理か終了すると、領域分割部１２は、上記パラ
メータの値を再び元の値に戻して、次の文書画像情報に
対する処理に備える。こうして、属性か“混在領域”であると判定された小領
域を再分割することによって、２つの属性“文字領域”
と“図形領域”とか混在していに小領域か属性“文字領
域”の領域と属性“図形領域”の領域とに正しく分割さ
れるのである。したがって、その後は、再分割された一
方の領域の属性は属性識別ニューラルネットワーク２２
と属性判定部２３によって“文字領域”であると正しく
判定されて、その領域に係る画像情報に基づいて文字認
識部１４て文字認識処理か実行されるようになる。一方
、再分割された他方の領域の属性は属性識別ニューラル
ネットワーク２２と属性判定部２３によって“図形領域
°であると正しく判定されて、その領域に係る画像情報
に基づいて画像処理部１５て画像情報の圧縮か実行され
るようになるのである。つまり、本実施例によれば、文書画像領域を属性“文字
領域“の小領域と属性“図形領域”の小領域とに正しく
かつ高速に分割できるのである。上述のような本実施例にお１する効果は、以下に述へる
ような領域分割処理の際に大いに発揮されるのである。すなわち、第３図（ａ）、（ｂ）に示すような図形領域
３１とその図形の説明文である文字領域３２とが混在す
る入力画像の画像情報が入力されたとする。そのような
場合には、文書画像領域の小領域への分割を比較的に高
速に実施できる従来の自動文書入力装置では図形領域と
文字領域とを分離できず、第４図（ａ）、（ｂ）に示す
ように図形と文字とか混在した領域として分割される。そして、分割された領域は文字領域よりも図形領域が圧
倒的に広いため全体が図形領域であると見なされてしま
うのである。その結果、文字領域に対する文字認識処理
は実行されないことになる。しかしなから、本実施例においては、属性識別ニューラ
ルネットワーク２２による小領域の属性識別の結果か”
混在領域°である場合には、そＤ情報およびそ・）小領
域にお（トる画像情報を領域分割部１２にフィードバッ
クして再分割するようにしているので、第５図（ａ）　
、　（ｂ’）に示すように図形領域３３と文字領域３４
とに正しく分割されるのである。その結果、説明文であ
る文字領域３４に対しては文字認識処理か行われ、図形
領域３３に対しては画像匣縮か行われることになる。したかって、本実施例によれば、従来に実施していたよ
うに、予め上記領域分割部１２においてできるだけ小さ
な小領域に分割した後に、各小領域の属性を識別して隣
接する同し属性を有する小領域を統合するという繁雑な
処理の必要がないのである。つまり、必要な小領域のみ
に対して再分割を実施すればよいので、小領域への分割
処理が非常に簡単になり領域分割処理を高速に実施でき
るのである。このように、本実施例においては、自動文書入力装置の
領域識別部１３を、特徴量抽出部２１属性識別ニューラ
ルネットワーク２２および属性判定部２３て構成する。そして、上記特徴量抽出部２１におＬ）ては、領域分割
部１２て文書画像領域を分割して得られた当該小領域に
係る画像情報に基づいて、上述のようにしてヒストグラ
ム特微量と線密度時ｍｕとを求める。そして、このヒス
トグラム特微量と線密度特徴量とから成る２５６次元の
特徴量を上記属性識別ニューラルネットワーク２２の入
力データとする。上記属性識別ニューラルネットワーク２２は、入力され
た２５６次元の入力データに基ついて、当該小領域にお
ける属性を識別して識別信号を出力する。そうすると、
上記属性判定部２３は、属性識別ニューラルネットワー
ク２２からの識別信号に基づいて当該小領域の属性を判
定し、その判定結果が“文字領域”である場合には、領
域分割部Ｉ２で分割された当該小領域の画像情報を文字
認識部１４に送出し、当該小領域に属する各文字を認識
する。また、判定結果か“図形領域“である場合には、
領域分割部１２で分割され１こ当該小領域の画像情報を
画像処理部１５に送出し、当該小領域の画像情報を圧縮
する。さらに、上記判定結果か“混在領域“である場合には、
領域分割部１２に対して混在信号を送出しｌこ後当該小
領域に係る画像情報を出力する。そうすると、領域分割
部１２は上記混在信号に従って上記パラメータの値を変
更した後、当該小領域に係る画像情報を再度取り込んで
当該小領域を複数の領域に分割するのである。したがって、属性“文字領域”と属性“図形領域”とか
混在している小領域が、属性“文字領域”の領域と属性
“図形領域″の領域とに正しく分割できるのである。ま
た、その際に必要な小領域に対してのみ再分割を行うの
で処理が簡単であり、領域分割処理を高速に実施できる
。上記実施例においては、領域分割部１２で小領域を再分
割する際に、分割の限度を設定するためノハラメータの
値を変更することによって行っている。しかしながら、
この発明Ｊこおいてはこれに限定されるものではなく、
領域分割部を種々のパラメータ値に応じて複数個設け、
最適な領域分割部を選択して用（することによって小領
域の再分割を実施するようにしてもよし）。上記実施例においては、文書画像領域を２つの属性”文
字傾城”および“図形領域”の小領域に分割するように
している。しかしながら、この発明はこれに限定される
しのではなく、３以上の属性の小領域への分割を対象と
してもよい。その際には、属性識別ニューラルネットワ
ーク２２の出力層２７のノート数は識別したい属性数に
応したノート数に設定すればよい。上記実施例においては、文書画像領域を小額域に分割す
る際に用いる画像特徴量を領域分割部１２で抽出する一
方、小領域の属性を識別する際に用いる特徴量を領域識
別部１３における特徴量抽出部２１で抽出している。こ
の場合、上記画像特徴量と特徴量とは必ずしも異なる必
要はなく、領域分割部１２によって抽出された画像特徴
量で属性識別用の特徴量を兼ねても何等差し支えない。上記実施例においては、属性識別ニューラルネットワー
ク２２を３層パーセプトロン型ニューラルネットワーク
で＋Ｒ岐してＬするか、この発明：ユニれに限ｆされる
しのではζＬ゛。第２実施例本実施例は、文書画像領域を分割して得られｒ二小領域
の属性を識別部ろ際に用し・る特徴量をニュラルネット
ワークによって抽出するしの・である。第６図は第２実施例に係る自動文書入力装置の一例を示
すブロック図である。本実施例にお１＋る画像入力ＫＩ
１１．領域分割部１２、文字認識部１４画像処理部Ｉ５
および統合部１６の処理動作は、第１実施例の場合と同
しである。以下、主に領域識別部４０について詳細に説
明する。本実施例における領域識別部４０は、特ａｔ抽出ニュー
ラルネットワーク４１．特ｉｌ！抽出部４２、属性識別
ニューラルネットワーク４３および属性判定部４４によ
って概略構成している。上記特徴量抽出ニューラルネットワーク４１は、上記領
域分割部１２によって文書画像領域を分割して得られた
小領域における画像情報から、上記小領域の属性を識別
する際に用いる特ａｔを以下に述べるようにして抽出す
る。第７図は上記特徴量抽出ニューラルネットワーク４１の
構造概念の一例を示す。本実施例において特徴量抽出ニ
ューラルネットワーク４１として用いられるニューラル
ネットワークは、自己組織化特徴写像によって学習か行
われるコホーネン型ニューラルネットワークである。この特徴量抽出ニューラルネットワーク４１は、入力層
４５と出力層４６の２層構造になっている。上記入力層４５は６４Ｘ６４（＝４０９６）個の入力ノ
ードを有する一方、出力層４６は１２８個の自己組織化
ノードを有する。そして、総ての自己組織化ノードか各
入力ノードに対して結合された構造になっており、各結
合には結合の強さを表すウェイトが付加されている。そ
の結果、各自己組織化ノードには、その自己組織化ノー
ドと全入力ノードとの結合に付加された４０９６個のウ
ェイトから成るウェイトベクトルが対応付けられること
になる。上記６４ｘ６４個の入力ノードには、次のようにして求
ぬられる入力データを入力する。すなわち、上記領域分
割部１２によって文書画像領域を分割して得られた小領
域を所定の大きさに規格化した後６４Ｘ６４のメソツユ
に分割する。そして、各メソツユの濃度を求め、この６
４ｘ６４個のメツツユの濃度を表す４０９６次元のパタ
ーノＩ＼クトルを特徴量抽出ニューラルネットワーク４
１の入力ｔ＼クトルとするのである。上記特徴量抽出ニューラルネットワーク４１に対する自
己組織化特徴特徴写像による学習は教師無し学習であり
、次のように実施する。すなわち、種々の文書から文字
領域１図形領域および混在領域の学習サンプルを得、各
学習サンプルを規格化した後６４ｘ６４のメソツユに分
割した際の各メツツユの濃度を求め、この各メソツユ濃
度に基づいて４０９６次元の学習ベクトルを作成る。こ
うして作成された学習ベクトルの各要素値を特徴量抽出
ニューラルネットワーク４１の４０９６個の入力ノード
に入力する。そうすると、所定の方法によって、入力さ
れた学習ベクトルの内容の特徴を写像するようにこの学
習へタトルに応じた特定のウェイトベクトルの内容か設
定される。こうして、学習サンプルの特徴をよく表すよ
うなウェイトベクトルか自己組織されるのである。上記学と済みの特徴量抽出ニューラルネットワーク４１
は、領域分割部Ｉ２よって分割された小領域に係る画像
情報の特徴を次のようにして抽出する。すなわち、領域
分割部１２て分割された当該小領域から上述のようにし
て得られた４０９６次元の入力ベクトルを入力ノートに
入力する。そうすると、各自己組織化ノートに係るウェ
イトベクトルと入力ヘクトルとの内積が算出され、算出
結果が自己組織化ノードから出力される。したがって、
当該入力ベクトルの内容の特徴を最も良く写像している
ウェイトベクトルに対応じている自己組織化ノードから
は最大値が出力され、他の自己組織化ノートからは、対
応するウェイトベクトルが当該学習ベクトルの内容を写
像している程度に応じｆ二値が出力されるのである。換
言すれば、出力層４６からは画像情報の特徴に応した１
２８次元のパターンベクトル（以下、特徴ベクトルと言
う）を出力するのでカる。上記特徴量抽出部４２は、上記領域分割部１２によって
文書画像領域を分割して得られｒ二小領域におｌする画
像情報から、第１実施例で述べ１こ方法によって２走査
方向×６４次元のｉ密度特徴量を抽出する。上述のようにして抽出されに１２８次元の特徴ヘクトル
と２×６４次元の線密度時ＩＩとから成る合計２５６次
元の特徴量の値を、属性識別ニューラルネットワーク４
３の入力データとするのである。上記属性識別ニューラルネットワーク４３は、上記特徴
量抽出ニューラルネットワーク４１および特徴量抽出部
４２によって抽出された当該小領域の特徴量に基づいて
、当該小領域の画像情報が属するカテゴリが“文字領域
”であるか“図形領域”であるか文字領域と画像領域と
か混在した“混在領域”であるかを識別する。この属性
識別ニューラルネットワーク４３の構造概念は第１実施
例における属性識別ニューラルネットワーク２２と同し
である。但し、入力データとして、特徴量抽出ニューラ
ルネットワーク４１からの特徴ヘクトルを用いろ点にお
いて異なる。ここで、上述のヒストグラム特ｆｆ１ｌのように、特徴
量抽出部４２を構築する人によって予め設定されたアル
ゴリズムに従って求められた特徴量は、そのアルゴリズ
ムに基つく特徴しか表さない。したかって、例えばヒス
トグラム特ａｋｔの場合ｊこは、画像情報を一方向へ走
査した場合における黒画素のヒストグラムか同してあれ
ば、対象としている画像情報が文字列に係る画像情報で
あるか図形に係る画像情報であるかを識別できないので
ある。これに対して、特徴量抽出ニューラルネットワーク４１
による特徴量抽出の場合には、各自己組織化ノードに対
応した各ウェイトベクトルは、画像情報から得られる非
解析的かつ広範囲な異なった特徴を写像している。つま
り、極端に言えば自己組織化ノードの数だけの特徴を表
すことができると言えるのである。したかって、属性識別の際に用いる特徴量として特Ｉｌ
！抽出ニューラルネットワーク４Ｉからの特徴ベクトル
を用いることによって、特徴量抽出部４２を構築する人
にも予測できなかったような特徴量を用いて当該小領域
の属性をより正確に識別できるのである。上記属性識別ニューラルネットワーク４３は、次のよう
な学習データを用いて誤差逆伝播学習則によって学習す
る。すなわち、種々の文書画像領域から得られた文字領
域１図形領域および混在領域の学習サンプルに基づいて
、６４ｘ６４のメツシュの濃度を求めて４０９６次元の
入力ベクトルを作成する。そして、この入力ベクトルを
上記学習済みの特徴量抽出ニューラルネットワーク４１
の入力層４５に入力した際における出力層４６から出力
される１２８次元の特徴ベクトルを求める。また、上記学習サンプルに基づいて、特徴量抽出部４２
で２×６４次元の線密度特徴量を求ぬる。そして、この１２８次元の特徴パターンと２×６４次元
の線密度特徴量とから成る２５６次元のデ−タを学習デ
ータとするのである。こうして種々の学習サンプルから
得られた学習データを用いて、上述のようにして属性識
別ニューラルネットワーク４３の学習を実行する。こうして学習された属性識別ニューラルネットワーク４
３は、上述のように特徴量抽出ニューラルネットワーク
４１によって当該小領域に係る画像情報から抽出された
非解析的かつ広範囲な種々の特徴を表す特徴量と特徴量
抽出部４２で抽出された解析的かつ画像の複雑さを表す
特徴量とに基づいて小領域の属性を識別するので、より
正しく特徴小領域の属性を識別できるのである。このように、本実施例においては、領域識別部４０にお
いて当該小領域の属性を識別する際に用いる当該小領域
の特徴量として、特徴量抽出ニューラルネットワーク４
１で抽出した特徴ベクトルと特徴量抽出部４２で抽出し
た線密度特徴量とを用いる。したがって、属性識別ニューラルネットワーク４３は、
自己組織化ニューラルネットワーつて構成されｆこ特徴
量抽出ニューラルネットワーク４Ｉで抽出される非解析
的かつ広範囲な特徴量に基ついて、より正確に当該小領
域の属性を識別できるようになるのである。上記実施例にお（１ては、上記特徴量抽出ニューラルネ
ットワーク４１によって抽出される特徴ベクトルの他に
特徴量抽出部４２によって線密変特微量を抽出し、特徴
ベクトルと線密度特徴量とに基づいて当該小領域の属性
を識別するようにしている。しかしながら、この発明は
これに限定されるものではなく、特徴量抽出部４２で他
の特徴量を抽出してもよい。また、特徴量抽出ニューラ
ルネットワーク４１からの特徴ベクトルのみによって当
該小領域の属性を識別するようにしてもよい。上記実施例においては、特徴量抽出ニューラルネットワ
ーク４１を自己組織化ニューラルネットワークによって
構成しているが、この発明はこれに限定されるものでは
ない。第３実施例本実施例は、第２実施例における属性識別ニューラルネ
ットワーク４３を文書画像の特性に応じて複数設け、入
力された文書画像情報の特性に対応した属性識別ニュー
ラルネットワークによって当該小領域の属性を識別する
ものである。第８図は第３実施例に係る自動文書入力装置の一実施例
を示すブロック図である。本実施例における領域識別部
５０は、特徴量抽出ニューラルネットワーク５１．特徴
量抽出部５２．縦書用属性識別ニューラルネットワーク
５３．横書用属性識別ニューラルネットワーク５４およ
び属性判定部５５によって概略構成している。ここで、
本実施例における上記特徴量抽出ニューラルネットワー
ク５１゜特徴量抽出部５２および属性判定部５５は、第
２実施例における特徴量抽出ニューラルネットワーク４
１．特徴量抽出部４２および属性判定部４４と構成およ
び処理動作は同じである。上記縦書用属性識別ニューラルネットワーク５３と横書
用属性識別ニューラルネットワーク５４とは、夫々第２
実施例における属性識別ニューラルネットワーク４３と
同じ構造を有している。また、入力データも第２実施例
と同様に特＠量抽出ニューラルネットワーク５１および
特徴量抽出部５２によって抽出されｒ二特微量を用いる
。但し、雨漏性識別ニューラルネットワーク５３５４の
学習は次のようにして実施する。すなわち、種々の文書から、本文か縦書きである文書に
おける文字領域１図形領域および混在領域の画像情報（
縦学習サンプル）と、本文か横書きである文書における
文字領域１図形領域および混在領域の画像情報（横学旨
サンプル）とを得る。こうして、得られた縦学習サンプ
ルおよび横学習サンプルに基づいて、６４Ｘ６４のメツ
シュの濃度を求めて４０９６次元の縦入力ベクトルおよ
び横入力ベクトルを作成する。そして、この縦入力ベク
トルおよび横入力ベクトルを学習済みの特徴量抽出ニュ
ーラルネットワーク５１に入力して１２８次元の縦特徴
ベクトルおよび横特徴ベクトルを求める。また、上記縦
学習サンプルおよび横学習サンプルに基づいて、特＠量
抽出部５２で２×６４次元の縦線密度特徴量および横線
密度特徴量を求める。そして、この１２８次元の縦特徴
ベクトルと２×６４次元の縦線密度特徴量とから成る２
５６次元のデータを縦学習データとする。同様に、１２
８次元の横特徴ヘクトルと２×６４次元の横線密変特微
量とから成る２５６次元のデータを横学習データとする
のである。学習に際しては、例えば、縦学習データを上記縦書用属
性識別ニューラルネットワーク５３および横書用属性識
別ニューラルネットワーク５４に入力したとする。この
場合には、縦書用属性識別ニューラルネットワーク５３
の出力層には入力された縦学習データが属するカテゴリ
を表す教師データを入力する一方、横書用属性識別ニュ
ーラルネットワーク５４の出力層のノードには入力され
た縦学習データが横書用属性識別ニューラルネットワー
ク５４の識別対象とするカテゴリには属していないこと
を表す総て′０“の要素値から成る教師データを入力す
る。同様に、横学習データを上記縦書用属性識別ニュー
ラルネットワーク５３および横書用属性識別ニューラル
ネットワーク５４に入力した場合には、横書用属性識別
ニューラルネットワーク５４には当該横学習データか属
するカテゴリを表す教師データを入力する一方、縦書用
属性識別ニューラルネットワーク５３の出力層のノード
には総て°０”の要素値から成る教師データを入力する
のである。こうして、縦書用属性識別ニューラルネットワーク５３
および横書用属性識別ニューラルネットワーク５４の学
習が正しく行われると、例えば本文が縦書き（横書き）
である文書の文書画像領域から分割された小領域の画像
情報が領域識別部５０に入力された場合には、縦書用属
性識別ニューラルネットワーク５３（横書用属性識別ニ
ューラルネットワーク５４）からは当該小領域か属する
カテゴリの識別結果を表す識別信号を出力する一方、横
書用属性識別ニューラルネットワーク５４（縦書用属性
識別ニューラルネットワーク５３）からは“０”の識別
信号を出力するのである。すわなち、縦書用属性識別ニューラルネットワーク５３
を本文か縦書きである文書画像領域から分割されに小領
域の属性を識別するように学習する。一方、横書用属性
識別ニューラルネットワーク５４を本文が横書きである
文書画像領域から分割された小領域の属性を識別するよ
うに学習するのである。こうして、属性識別用ニューラ
ルネットワークにおける属性識別機能を縦書用の属性識
別ニューラルネットワーク５３と横書用の属性識別ニュ
ーラルネットワーク５４とに分担することによって、更
に正確に小領域の属性を識別するのである。このように、本実施例においては、自動文書入力装置の
領域識別部５０において当該小領域の属性を識別する属
性識別ニューラルネットワークを、文書画像には縦書き
と横書きとの２つの特性があることに注目して、縦書用
属性識別ニューラルネットワーク５３と横書用属性識別
ニューラルネットワーク５４との２つの属性識別ニュー
ラルネットワークによって構成する。そして、本文が縦
書きである文書画像領域から分割した小領域の属性を縦
書用属性識別ニューラルネットワーク５３で識別する一
方、本文が横書きである文書画像を分割し１こ小領域の
属性を横目用属性識別ニューラルネットワーク５４で識
別するように、夫々の属性識別ニューラルネットワーク
５３．５４を学習している。したがって、本文が縦書きである文書画像領域から分割
した小領域の属性を識別する機能と本文か横書きである
文書画像を分割した小領域の属性を識別する機能とを、
夫々専用の属性識別ニューラルネットワークで分担する
ことかでき、更に正確に当該小領域の属性を識別できる
のである。上記実施例においては、文書画像の特性を縦書きと横書
きとの２つの特性に分けているが、この発明はこれに限
定されるものではない。例えば外国文と日本文等の２つ
の特性であってもよいし、極端な場合には文字と図形と
混在との３つの特性であってもよい。上記実施例においては、特徴量抽出ニューラルネットワ
ーク５１によって抽出した１２８次元の特徴ベクトルと
特徴量抽出部５２によって抽出した２×６４次元の特徴
量とから成る２５６次元のベクトルを属性識別ニューラ
ルネットワークの入力データとしている。しかしながら
、この発明においてはこれに限定されるものではなく、
特徴量抽出部で抽出される解析的な特徴量のみ又は特徴
量抽出ニューラルネットワークで抽出される非解析的な
特徴量のみに基ついて当該小領域の属性を識別するよう
にしてもよい。

【発明の効果】

以上より明らかなように、第１の発明の自動文書入力装
置は、領域分割部によって文書画像領域を分割して得ら
れた当該小領域に係る特徴量を特徴量抽出部によって抽
出し、抽出された特徴量に基づいて当該小領域の属性を
属性識別ニューラルネットワークによって識別して識別
信号を出力し、この識別信号に基づいて当該小領域の属
性を属性判定部によって判定する。そして、当該小領域
の属性は複数の属性が混在した混在領域であると判定し
た場合には、上記属性判定部から送出された指示信号に
基づいて当該小領域を上記領域分割部によって再分割す
るようにしｆこので、入力された文書画像領域を小領域
に分割する領域分割処理を、一つの小領域に複数の属性
か存在しないように精度良く実行できる。その際に、上述のように再分割か必要ｆ、１　／ＩＸ領
域についてのみ再分割し、かつ、平？子処理か可能ｔニ
ューラルネットワークを用いて属性識別処理を実行する
ので、上記領域分割処理を高速に実行できる。まｆ二、第２の発明の自動文書入力装置は、上記属性識
別ニューラルネットワークによって当該小領域の属性を
識別する際に用いる特徴量の少なくとも一つを特徴量抽
出ニューラルネットワークによって抽出するので、上記
特ＩＩＩ抽出ニューラルネットワークによって抽出され
る非解叶的かつ広範囲な特徴量に基づいて、当該小領域
の属性がより正確に識別できる。したがって、上記領域
分割処理をより精度良く実行できる。また、第３の発明の自動文書入力装置は、上記属性識別
ニューラルネットワークを文書画像の特性に応じて複数
個設けたので、当該小頭域の属性を識別する機能を文書
画像の特性に応じて分担することができ、上記領域分割
処理を更に精度良く実行てきる。

【図面の簡単な説明】

第１図はこの発明の自動入力装置における一実施例のブ
ロック図、第２図は第１図における属性識別ニューラル
ネットワークの構造概念図、第３図は入力画像の一例を
示す図、第４図は第３図の入力画像を従来の方法によっ
て小領域に分割した際における分割結果の一例を示す図
、第５図は第３図の入力画像を第１図に示す自動入力装
置によって小領域に分割した際における分割結果の一例
を示す図、第６図は上記実施例とは異なる他の実施例の
ブロック図、第７図は第６図における特徴量抽出ニュー
ラルネットワークの構造概念図、第８図は上記各実施例
とは異なる他の実施例のブロック図、第９図は従来の自
動入力装置のブロック図である。１１・・画像入力部、　　　１２・・領域分割部、１３
．４０．５０・領域識別部、１４　・文字認識部、　　　　１５　画像処理部、１６
・統合部、　２１，４２．５２　　特徴量抽出部、２２
．４３．・・属性識別ニューラルネットワーク、２３．
４４．５５−・属性判定部、　２５　入力層、２６・・
中間層、　　　　　　　　　２７　出力層、４１．５１
　・・特徴量抽出ニューラルネットワーク、４５・・・
入力層、　　　　　　　　　４６・出力層、５３　縦書
用属性識別ニューラルネットワーク、５４・・・横書用
属性識別ニューラルネットワーク。

Claims

【特許請求の範囲】（１）入力された文書画像領域を一つの属性を有するよ
うな小領域に領域分割部によって分割し、この領域分割
部によって得られた小領域の属性を領域識別部によって
識別し、上記小領域における画像情報に対して上記識別
の結果に応じた処理を実施した後にこの処理後の画像情
報を外部装置に入力する自動文書入力装置において、上
記領域識別部は、上記領域分割部によって得られた当該小領域における画
像情報の特徴量を抽出する特徴量抽出部と、上記特徴量抽出部によって抽出された当該小領域に係る
特徴量に基づいて当該小領域の属性が何であるかを識別
し、識別結果を表す識別信号を出力する属性識別ニュー
ラルネットワークと、上記属性識別ニューラルネットワ
ークから出力される識別信号に基づいて当該小領域の属
性を判定し、その結果当該小領域は複数の属性が混在し
ている混在領域であると判定した場合には当該小領域の
再分割を指示する指示信号を上記領域分割部に送出する
属性判定部を備えて、当該小領域が上記混在領域である場合には、上記属性判
定部からの上記指示信号に基づいて上記領域分割部によ
って当該小領域を再分割することを特徴とする自動文書
入力装置。（２）請求項１に記載の自動文書入力装置に
おいて、上記領域分割部によって得られた当該小領域における画
像情報の特徴量を抽出する特徴量抽出ニューラルネット
ワークを備えて、上記属性識別ニューラルネットワークによって当該小領
域の属性を識別する際に用いる特徴量の少なくとも一つ
を、上記特徴量抽出ニューラルネットワークによって抽
出することを特徴とする自動文書入力装置。（３）請求項１または請求項２に記載の自動文書入力装
置において、上記属性識別ニューラルネットワークを文書画像の特性
に応じて複数個設けたことを特徴とする自動文書入力装
置。