JPH04105186A - 自動文書入力装置 - Google Patents

自動文書入力装置

Info

Publication number
JPH04105186A
JPH04105186A JP2224015A JP22401590A JPH04105186A JP H04105186 A JPH04105186 A JP H04105186A JP 2224015 A JP2224015 A JP 2224015A JP 22401590 A JP22401590 A JP 22401590A JP H04105186 A JPH04105186 A JP H04105186A
Authority
JP
Japan
Prior art keywords
area
window
region
document image
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2224015A
Other languages
English (en)
Inventor
Yasushi Ishizuka
康司 石塚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2224015A priority Critical patent/JPH04105186A/ja
Publication of JPH04105186A publication Critical patent/JPH04105186A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Image Processing (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】
【産業上の利用分野】
この発明は、読み取つ1こ文書画像領域を分割して得ら
れた各小領域の属性を識別し、各小領域における画像情
報に対して属性に応しfコ処理を行って外部装置へ入力
する自動文書入力装置に関する。
【従来の技術】
文書に記載された内容をコンピュータに入力する際に、
上記文書から得られた文書画像中における文字の画像と
写真および線図形等の画像とを識別する必要かある。す
なわち、文字の画像であると識別した場合には、入力さ
れた文字に係る画像情報に基づいて文字認識を実行し、
得られた文字認識結果(文字コード)をコンピュータに
入力する。 一方、写真および線図形等の画像であると識別した場合
には、入力された写真および線図形等の画像情報を圧縮
してコンピュータに入力する。こうして、コンピュータ
に対して効率的に文書画像情報を入力するのである。 従来、上述のような文書入力処理を実施するものとして
第8図に示すような自動文書入力装置がある。 画像入力部lは例えばスキャナ等から成り、文書紙面に
記載された文字、写真および線図形等を読み取って文書
画像情報に変換して人力する。領域分割部2は、画像入
力部1からの文書画像情報に基づいて複数種の画像特徴
量を抽出する。そして、抽出された画像特徴量に基づい
て、文書画像領域をある一つの属性(例えば、文字領域
および写真領域等)を有すると推定される小領域に分割
する。領域識別部3は、領域分割部2によって分割され
た小領域における画像情報からその小領域の属性を識別
するための特徴量を抽出し、この特徴量に基づいて小領
域の属性を識別する。 上記領域分割部2によって分割された小領域の属性が傾
城識別部3によって“文字領域”であると識別された場
合には、その小領域の画像情報を文字認識部4に送出す
る。そうすると、文字認識部4は、入力された上記小領
域における画像情報を1文字単位に切り出し、この切り
出されfこ1文字単位の文字画像情報に基ついて文字認
識を実行して個々の文字を認識する。一方、領域分割部
2によって分割された小領域の属性が領域識別部3によ
って例えば写真領域であると識別された場合には、その
小領域の画像情報を画像処理部5に送出する。そうする
と、画像処理部5は、入力された上記小領域の画像情報
の圧縮等の処理を実施する。 統合部6は、上記文字認識部4から出力される文字コー
ド列からなる本文情報と上記画像処理部5から出力され
る圧縮された画像情報とを、位置情報等に基づいて原文
書に再現可能なように統合して、文書フォーマットに編
集する。こうして、原文書の文書フォーマットに編集さ
れた文書画像情報は記憶部7に格納され、必要に応して
コンピュータ等に入力される。 上記領域分割部2によって文書画像情報に基づいて複数
種の画像特徴量を抽出して小領域に分割する方法として
、画像特徴量としてヒストグラム(周辺分布特徴量)を
用いる方法かある。この方法こおいては、文書画像領域
にお1する黒情報の縦方向および横方向のヒストクラム
を求める。そして、例えば縦方向のヒストクラムに所定
の閾値よりも大きな幅の谷を示している箇所があれば、
その箇所を小領域に分割する際の分割候補位置であると
推定してその箇所で文書画像領域を小領域に分割する。 また、小領域に分割する他の方法として一旦小さな領域
に分割し、同し属性を何すると推定される上記傾城同士
を統合して小領域を生成する方法がある。この方法には
ラベリング法と矩形抽出法とがある。 上記ラベリング法においては、文書画像領域の画像情報
における一つの集団を形成する黒画素に同し番号を付加
(ラベリング)し、ラベリングされた画像情報に基つい
て最小矩形(同し番号が付加された黒画素を囲む長方形
の領域)を特徴量として抽出し、抽出された複数の最小
矩形のうち所定値以内のマージンを有する最小矩形同士
を一つの属性を有する小領域に属する最小矩形であると
推定して統合する。また、矩形抽出法において:i、文
書画像領域の画像情報における図杉の外接矩形を抽出し
、抽出され1−複数の外接矩形のらち所定値以内のマー
ノンを有する外接矩形同士を一つの属性を有する小領域
に属する外接矩形であると推定して統合するのである。
【発明か解決しようとする課題】
しかしながら、上記従来の自動文書入力装置における領
域分割部2によって実行される小領域への分割方法には
、次のような問題かある。 すなわち、特1!31としてヒストクラムを用いる方法
においては、上述のように、ヒストクラム上において所
定の閾値よりも大きな幅の谷を示している箇所で領域を
分割するようにしている。その際に、ヒストグラム上に
おける谷部を識別するために用いる閾値の大きさは経験
的に設定している。 ところが、入力される文書は多種(すなわち、種々の文
字の大きさ1文字列の配列方向1文字間隔文字佃域と図
形佃域との配置等)に渡っている。 また、」二記画像入力部1におし)で文書紙面の文字写
真および線図形等を読み取る際に、文書画像の傾きの度
合いによっては、文字の大きさ、文字列の配列方向1文
字間隔等が変化する。 したがって、ヒストグラム上の谷部を識別する際の閾値
を予め一定値に設定しておくと、実際に入力される文書
画像を常に正確に領域を分割できない場合か生ずるとい
う問題がある。 さらに、上述のようにして抽出された特徴量を用いて文
書画像領域を小領域へ分割する際に、文書画像領域を一
旦幾つかの領域に予備分割し、その予備分割された領域
内の画像情報に応じて上記抽出された特徴量を正規化し
て用いる方法がある。 しかしながら、この方法でも、特徴量を正規化する場合
には、文字や写真の多い文書と文字が少なく文字間が大
きく空いている文書とが混在している領域であっても、
その領域内における一箇所の画像情報のみに注目して正
規化するたぬに、その領域全体の特徴量としてふされし
い値への正規化が実行されないという問題がある。 一方、上記ラベリング法においては、上記画像入力部l
から人力された文書画像情報に対するラベリングと、ラ
ベリングされた画像情報に基づく最小矩形の抽出とを行
わなければならない。また、上記矩形抽出法においては
外接矩形の抽出を行わなければならない。ところか、こ
のラベリング時および抽出時における演算には逐次処理
を行なうアルゴリズムを用いるため、夫々の処理におい
て並列処理ができない。したがって、処理に時間か掛か
って高速化が困難であるという問題かある。 さらに、上記ラベリング法や矩形抽出法においては、抽
出された上記最小矩形や外接矩形を上述のようにして同
じ属性を有する小領域(たとえば、文字領域や線図形領
域等)に統合するか、あるいは、後に統合可能なように
同じ属性を有する最小矩形や外接矩形にはその旨を表示
する必要がある。 こうすることによって、例えば上記最小矩形や外接矩形
が文字領域である場合に、文字認識部4によって認識し
て得られた文字コードの位置や配列順序が不明になって
しまい、原文に再現できなくなることか防止できるので
ある。ところか、」二連の最小矩形や外接矩形の統合処
理の際にも、総ての最小矩形や外接矩形について平行処
理かできケ、統合の方法ら複雑であるため、処理に時間
か掛かるという問題かある。 そこで、この発明の目的は、人力された文書画像領域を
小領域に分割する領域分割処理を、複数の小領域の境界
となる区域を精度良くかつ高速に識別して正確に効率良
く実行できる自動文書入力装置を提供することにある。
【課題を解決するための手段】
上記目的を達成するため、第1の発明は、入力された文
書画像領域を一つの属性を有するような小領域に領域分
割部によって分割し、この領域分割部によって得られた
小領域の属性を領域識別部によって識別し、上記小領域
における画像情報に対して上記識別の結果に応した処理
を実施した後にこの処理後の画像情報を外部装置に入力
する自動文書入力装置において、上記領域分割部は、上
記文書画像領域における特徴量を抽出する範囲を指定干
ろ窓を」−記文方向像領域上に設定−」−ると共に、上
記窓を所定;・手順によ−て所定3つ・方向に移動ミ什
て上記文書画像領域3つ総てを上記窓にょ−て走査する
窓設定部と、上記窓設定部によって上記文書画像領域上
を移動される窓内の画像情報の特徴量を所定○手順によ
って抽出才ろ特徴量抽出部と、上記特徴量抽出部によっ
て抽出されf二上記窓内の画像情報の特徴量に基づし)
で、」1記窓内に設けられた判定区域は上記文書画像領
域を小領域に分割する際における領域分割候補区域であ
るが否かを識別して上記文書画像領域を分割する領域分
割ニューラルネットワークと、上記領域分割ニューラル
ネットワークによって識別された領域分割候補区域で囲
まれた領域を一つの小領域として確定する小領域確定部
を備えたことを特徴としている。 また、第2の発明は、第1の発明の自動文書入力装置に
おいて、上記窓設定部、特徴量抽出部および領域分割ニ
ューラルネットワークを互いに対応付けて複数組設ける
と共に、複数の領域分割ニューラルネットワークによる
識別結果を一つに統合する領域分割候補区域統合部を備
えて、夫々の窓設定部によって上記文書画像領域上に設
定された窓内の画像情報から各窓設定部に対応付けられ
た特徴量抽出部によって個別に抽出された各恵与の特徴
量に基づいて、各窓内に設けられた判定区域が領域分割
候補区域であるか否かを各特徴量抽出部に対応付けられ
た領域分割ニューラルネットワークによって個別に識別
し、上記小領域確定部は、上記領域分割候補区域統合部
によって一つに統合された識別結果に基づいて上記小領
域を確定することを特徴としている。 また、第3の発明は、第2の発明の自動文書入力装置に
おいて、上記複数の窓設定部は、夫々文書画像の特性に
応じた形状の窓を上記文書画像領域上に設定すると共に
、この設定した窓を上記特性が上記特徴量に良く表れる
ような方向へ走査することを特徴としている。 また、第4の発明は、第1の発明乃至第3の発明のいず
れかの発明の自動文書入力装置において、上記領域分割
ニューラルネットワークにおける出力層の各ノードから
の出力値を遅延素子を介して自ノードにフィードバック
するように成したことを特徴としている。
【作用】
第1の発明では、入力された文書画像領域における画像
情報の特徴量を抽出する範囲を指定する窓が窓設定手段
によって上記文書画像領域上に設定されると共に、上記
窓が所定の手順によって所定の方向に移動される。そし
て、上記窓設定手段によって文書画像領域上を移動され
る窓内の画像情報の特徴量が特徴量抽出部によって所定
の手順によって抽出される。そうすると、上記特徴量抽
出部によって抽出された上記窓内の画像情報の特徴量に
基づいて、上記窓内に設けられた判定区域は上記文書画
像領域を小領域に分割する際における領域分割候補区域
であるか否かが領域分割ニクーラルネットワークによっ
て識別され、上記文書画像領域か分割される。 こうして、上記領域分割ニューラルネットワーりによる
文書画像領域・つ分割か終了すると、領域分割ニューラ
ルネットワークによって識別されr二領域分割候補区域
で囲まれに領域か小領域確定部によって一つの小領域と
して確定される。 すなわち、上記文書画像領域を小領域に分割する際に、
上記窓内に設けられに判定区域か上記領域分割候補区域
であるか否かか、この判定区域よりも広く設定された窓
に係る特徴量に基ついて大局的に識別される。こうする
ことによって、小額域の境界候補となる領域分割候補区
域が精度良く識別される。 以後、こうして分割された小領域の属性か領域識別部に
よって識別され、上記小領域にお7する画像情報に対し
て上記識別の結果に応じ1こ処理か実施された後にこの
処理後の画像情報が外部装置に入力される。 まに、第2の発明では、複数の窓設定部によって上記文
書画像領域上に設定された複数の窓内に設定された判定
区域が領域分割候補区域であるか否かか、各窓設定部に
対応付けられた特徴量抽出部によって抽出されに特徴量
に括りL)で各特徴量抽出部に対応付(→られL領域分
割部、−ラル不ノトワークによって個別に識別される。 そして、上記複数の領域分割ニューラルネットワークか
らの識別結果が領域分割候補区域統合部によって一つに
統合され、この一つに統合されに識別結果に基づいて小
領域確定部によって小領域か確定さメ−る。 したかって、上記文書画像領域上に設定され1こ複数の
窓内の画像情報から平行処理によって多数の特徴量が抽
出され、」1記領域分割候補区域かさらに精度良くかつ
高速に識別される。 また、第3の発明では、上記文書画像領域上に複数の窓
設定部によって文書画像の特性に応じ1こ形状に設定さ
れた複数の窓が、夫々上記特性が」二記特微量に良く表
れるような方向へ走査される。 そのため、各特徴量抽出部によって抽出される上記各窓
内の画像情報の特徴量は文書画像の特性を良く表すこと
になる。したがって、上記領域分割候補区域が上記文書
画像の特性に応して更に精度良く識別される。 まL、第4の発明では、上記領域分割ニューラルネット
ワークにおける出力層の各ノードがらの出力値は遅延素
子によって遅延されて、次の識別時に自ノードにフィー
ドバックされる。したがって、萌回の識別結果が”領域
分割候補区域”である場合には次の出力値が高められて
、一方向に連なって存在する領域分割候補区域がより適
確に識別される。
【実施例] 以下、この発明を図示の実施例により詳細jこ説明する
。 以下に述べる各実施例は、入力された文字、写真1図形
等を表す文書画像情報から成る文書画像領域を、ニュー
ラルネットワークを用いて、例えば文字領域、写真領域
および線図形領域等の複数の小領域に分割するものであ
る。 第1実施例 本実施例においては、縦長のA4サイズの入力文書を3
00dpiの解像度で2値化して入力する場合を考える
。その際の入力画像の大きさは、入力の余裕を見て少し
大きめに3584画素×2560画素となるようにする
。 第1図は第1実施例に係る自動文書入力装置の一例を示
すブロック図である。この自動文書人力装置は画像入力
部11.領域分割部12.領域識別部13.文字認識部
+4.画像処理部15および統合部16から概略構成さ
れている。ここで、上記画像入力部11.領域識別部1
31文字認識部14画像処理部15および統合部16の
処理動作は、第8図に示す自動文書入力装置における画
像入力部!、領領域識別31文字認識部41画像処理部
5および統合部6と同じ処理動作であるから説明を省略
する。 本実施例における上記領域分割部I2は、窓設定部21
.特徴量抽出部22.領域分割ニューラルネットワーク
23.バッファ24および小領域確定部25によって概
略構成されている。 上記窓設定部21は、第2図に示すように、入力された
文書画像領域26を小領域に分割する際に用いられる画
像枠微量を抽出する範囲を指定するfコぬの窓27を設
定し、設定した窓27を文書画像領域26上で移動させ
る。 その際に、上記827を、288画素×288画素の大
きさに設定する。そして、窓27を文書画像領域26に
おける図中左上の位置27aから右下の位置27dまて
32画素すつ水平方向に移動させて全文書画像領域26
上を走査するのである。上記窓27の中央には、後に詳
述するようにして窓27内の画像情報から抽出された画
像枠微量に基ついて領域分割候補となる区域であるか否
かが判定される32画素×32画素の区域(以下、単に
判定区域と言う)28を設定しておく。 ここで、上記領域分割候補区域とは各小領域の境界区域
の候補であり、いずれの属性をも有さないような区域の
ことである。 その際に、上記窓27の走査開始位置は、第2図に示す
ように、判定区域28の位置が文書画像領域26の左上
隅を完全に含む位置28aになるような位置27aにす
ればよい。同様に、窓27の走査終了位置は、判定区域
28の位置が文書画像領域263)右下隅を完全に含乙
゛位置28(Iにするよ一′1な位置27dにオイ−ば
よい。 上記特徴量抽出部22は、上記窓設定部2Iによ−、て
設定されに窓27内にお()る画像情報から、ヒストグ
ラム特微量と線衝度特微量と92種類の画像枠微量を抽
出する。 上記ヒストグラム特微量は次のようにして抽出する。す
なわち、ある位置にお(Jる窓27内の画像情報(白黒
画素列)を縦方向および横方向に走査して黒画素数のヒ
ストクラムを算出する。そして、得ら君f二黒画素数分
布曲線を166画素つ18等分し、得られた18個の区
間毎に平均濃度を算出する。こうして得られた2走査方
向×18個の平均濃度値をヒストクラム特atとオろの
である。 まfこ、上記線密度特徴量は次のようにして抽出する。 すなわち、当該位置における窓27内の画像情報を縦方
向および横方向に走査して白画素から黒画素に反転する
回数のヒストグラムを算出する。そして、得られた反転
回数分布曲線を166画素つ18等分し、得られ?18
個の区間毎に平均反転回数を算出する。こうして得られ
fコ2走査方向x18個の平均反転回数値を線密度特徴
量とするのである。 ここで、上記ヒストグラム特微量と線密度特徴量との差
異は次のよってある。例えば、市松模様の画像情報から
特徴量を抽出する場合、ヒストグラム特微量では市松模
様を構成するメツツユの大きさの差異を抽出てきない。 これに対して、線密度特徴量では、メツツユの大きさか
大きい場合には線密度特徴量の値は小さい値を示す一方
、メツツユの大きさが小さい場合には線密度特徴量の値
は大きい値を示すのでメツツユの大きさの差異を抽出で
きる。つまり、線密度特徴量は、ある領域内の画像の図
形の複雑さを抽出する特徴量であると言える。 すなわち、ヒストグラム特微量を用いることによって、
文字領域内の文字列は周期的な配列を示すという性質を
利用して属性“文字領域”を識別する。また、線密度特
徴量を用いることによって、文字の線密度は図形の線密
度に比べて小さいという性質を利用して周期的な配列を
有するような図形であってもその属性を正しく“図形領
域”であると識別するのである。こうして、画像枠微量
として2種の特徴量を用いて、判定区域28か領域分割
候補区域であるか否かを精度良く識別するのである。 その際に、上記窓27か第2図における位置27a(あ
るいは位置27d)にある場合には、窓27におし)で
文書画像領域26に掛からない領域29a(あるいは2
9d)が存在する。そのような場合には、文書画像領域
26に掛からない領域29a(あるいは29d)におけ
る画像情報は、文書画像領域26における背景と同じ画
像情報とするのである。 上述のようにして抽出された2×18次元のヒストグラ
ム特微量と2×18次元の線密度特徴量とから成る合計
72次元の画像枠微量の値を、領域分割ニューラルネッ
トワーク23の入力データとするのである。 上記領域分割ニューラルネットワーク23は、上記特徴
量抽出部22によって抽出された当該位置にわ、する窓
27内・つ画象特微量に括ついて、窓27内の判定区域
28にお1する画像情報か属イ”る力子ゴリか”領域分
割候補区域”であるか”非領域分割候補区域”であるか
を識別する。そして、窓27を32画素ずつ移動させる
ことによって上記判定区域28て文書画像情報26上に
区分されて行く個々の判定区域を“領域分割候補区域”
と“Jl−領域分割候補区域”とに識別する二とによっ
て文書画像領域26を小領域に分割するのである。 第3区は上記領域分割ニューラルネットワーク23の構
造概念の一例を示す。この領域分割ニューラルネットワ
ーク23は、入力層31.中間層32および出力層33
の3層から成る3層バーセプトロン型ニューラルネット
ワークである。上記入力層3Iは72個のノードを有し
、中間層32は100個のノードを有し、出力層33は
4個のノードを有する。上記入力層31における各ノー
ド;よ中間層32の全7ノードと結合され、中間層32
の各ノードは出力層33、)全ノードと結合されて0る
。上記出力層33にt〕ける!−ド34には、上記窓2
7にお:廿る判定区域28を、1分割してiIIらi−
、rンtつQつ小区域30a、30b、30c、3 o
a=−。 うち、小区域30aを割り付ける。同様に、ノード35
には小区域30bを割り付(+、ソノ−’ 36には小
区域30cを割り付け、ノード37には小区域30dを
割り付(する。 上記構造の領域分割ニューラルネットワーツフ23は、
次のような学習データを用いて誤差逆伝播学習間によっ
て学習する。すなわち、種々の文書画像情報から得られ
1こ文書画像情報(学習サンプル)に基づいて、上記窓
設定部2Iによって上述のように窓27を学習サンプル
に係る文書画像領域26の左上の位置27aから右下の
位置27dへ32画素ずつ移動しながら、上記特徴抽出
部22によって2×18次元のヒストクラム特微量と2
×18次元の線密度特徴量とを抽出する。そして、この
2×18次元のヒストグラム特微量と2XI3次元の線
密度特徴量とから成る72次元のデータを学習データと
するのである。その際に、F記学習サンプルは多種に渡
った(すなわち、種々の文字の大きさ9文字列の配列方
向1文字間隔1文字領域と図形領域との配置、写真や線
図形の種類等を存する)学習サンプルを用いて学習する
ことによって、より領域分割能力の高い領域分割ニュー
ラルネットワーク23を構築できるのである。 」二記種々の学習サンプルに係る学習データを用いて、
次のようにして領域分割ニューラルネットワーク23の
学習を実行する。まず、上記位置27aにおける窓27
内の画像情報から得られた72次元の学習データの各要
素値を領域分割ニューラルネットワーク23の入力層3
1における対応するノードに入力する。一方、領域分割
ニューラルネットワーク23の出力層33における各ノ
ー1”34.35,36.37へは、割り付けられた当
該位置27aにおける窓27内の小区域における学習サ
ンプルの画像情報が上記領域分割候補区域を表す(すな
わち、いずれの属性をも有しない背景画素からなる)場
合には入力値が“じであり、非領域分割候補区域を表す
場合には入力値か“0”である教師データを入力する。 そうすると、出力層33の各ノーt”34,3536.
37に入力された教師データの要素値と学習データを入
力しfこ際に実際に得られた出力層33の各ノード34
.35,36.37からの出力値との誤差の値か“0”
に近付くように、出力層33および中間層32の全ノー
ドは各ノード間の結合に付加された結合の強さを表すウ
ェイトの値を更新する。こうして学習か繰り返され、出
力層33の各ノード34.35,36.37における入
力された教師データの要素値と上記実際の出力値との誤
差の二乗和の値か、予め設定された閾値(本実施例にお
いては、経験的に求めた値“03”を用いる)より小さ
くなると、その学習データに基つく学習を終了する。 次に、上記窓27の位置を位置27aから32画素だけ
右方へ移動後の位置における学習データと教師データを
用いて学習を実行する。こうして、次々に窓27の位置
を移動しながら領域分割ニューラルネットワーク23の
学習を行うのである。 このようにして、種々の学習サンプルから得られf学習
データによって学習さワf二領域分割ニューラル不ント
ワーク23は、ある位置における窓26内の各小区域3
0a、30b、30c、30dの画像情報が属するカテ
ゴリか既知の学習データを入力すると、出力層33にお
ける各ノード34,35.36,37からは割C)付け
られた夫々の小区域の画像情報が属するカテゴリか”領
域分割候補区域”である場合には“ビか出力され、“非
領域分割候補区域”である場合には“0”が出力される
ように、各ウェイトの値が設定されるのである。−上記
学習済みの領域分割ニューラルネットワーク23は、文
書画像領域26上に窓設定部2Iによって設定された窓
27内の各小区域30a、30b 30c、30dに係
る画像情報が属するカテゴリを次のようにして識別して
、上記文書画像領域26を小領域に分割する。すなわち
、上記特徴量抽出部22から出力されたある位置におけ
る窓27に係る上記72次元の入力データを領域分割ニ
ューラルネットワーク23の入力層31に入力する。 そうすると、各ノードは学習によって設定されたウェイ
ト、つ値に基つく出力値を結合さ、t′、、・口上層、
゛・・°−トに出力オる、その結果、出力層31’)、
4−ト34.35,36,377)sらは当該位置にお
、埼る窓27内の各小区域30a、30b、3 (1c
、30Jに係る画像情報が属するカテゴリの識別結果を
表す出力値か出力されるのである。 ここで、ニューラルネットワークによる識別とよ、上述
のような学習において、入力された学習データに基づい
て得られた出力データの内容か教師データと同しにする
ように各2ノ一ト間の結合の重みを自ら設定することに
よって構築されf、:識別ルールに基づいて、入力デー
タか属するカテゴを識別するものである。その際に、上
記識別ルールは、カテゴリ識別の対象となる判定区域2
8における局所的な特徴に囚われず判定区域28の周辺
領域を含めたより広い窓27内から得られた学習データ
における大局的な特徴に基づいて構築されるのである。 したがって、ニューラルネットワークを用いた領域分割
によれば、今まで困難であった特定の部分にノイズがあ
るような文書画像領域の小領域への分割を高精度で実施
できるのである。 また、上記領域分割ニューラルネットワーク23を学習
する際には、窓設定部21によって文書画像領域26上
を走査される所定の大きさの窓27内の画像情報から得
られた学習データに基づいて、自ら識別ルールを構築す
るようにしている。 つまり、走査に連れて、例えば文字の大小や文字間隔等
か種々変化する窓27内の画像情報に応して、ダイナミ
ックな識別ルールが構築される。したがって、一定の閾
値によって領域分割候補区域を判定する場合のような微
妙な閾値の設定を必要とせず、精度の高い領域分割が可
能となる。 さらに、その際に、中間層32あるいは出力層33内の
各ノードにおける処理は平行に処理される。したがって
、領域分割ニューラルネットワーク23によれば小領域
への分割の高速処理が可能となり、文書入力時間を大幅
に短縮できるのである。 こうして文書画像領域26上を窓27が走査されて、窓
27の中央に位置する各小区域30a、3Ob、30c
、30dか領域識別候補区域であるが否かを表す“ビま
たは“0”を表す識別信号か領域分割ニューラルネット
ワーク23の出力層33から出力される。そして、この
領域分割ニューラルネットワーク23から出力された上
記識別信号の内容(識別情報)が上記バッファ24に格
納されるのである。 第4図はある英語文書に基つく文書画像情報から、窓設
定部2+、特徴量抽出部22および領域分割ニューラル
ネットワーク23によって、上述のようにして得られて
バッファ24に格納された上記識別情報の一例を示す。 図中数字が書き込まれている一つ一つの区域が窓28内
の小区域30の箇所に対応し、“ビはその小区域が領域
分割候補区域であることを表す一方、“0”は非領域分
割候補区域であることを表す。 すなわち、第4図において数字“0′の小区域から成る
領域は何等かの属性(例えば、文字領域や線図形領域等
)を有する小領域を表し、数字“ビの小区域から成る領
域は属性を有しない小領域(すなわち、背景)を表すこ
とになる。Lf二かつて、領域分割ニューラルネットワ
ーク23によ、て文書画像領域を各小区域単位に領域識
別候補区域であるか否かを識別して識別情報をバッファ
24に書き込むことか、取りも直さす文書画像領域26
をある何等か、7)属性を有すると推定される小領域に
分割オろ二とにするDであろ1なお、数字か書き込まれ
て1,1ろ互いに隣接する4)の区域か上記判定区域2
8の箇所に対応するのである。 L記小領域確定部25は、L述のようにしてバッファ2
4に書き込まれた識別情報(すなわち、領域分割候補区
域か否かを表す“0′あるいは”ビのラベル)12−基
づいて、領域分割候補区域(すなわち、ラベル“ビ)ご
囲まれた領域を独存した小領域として確定するのである
。 以後、二・5 +、、て分割された小領域の属性か領域
識別部13が識別され、その識別結果に応じて属性′文
字領域”の小領域に対1−では文字認識部14ご文字認
識処理が実行され乙一方、属性°図形領域゛等J)“文
字領域”以7t、′)小領域し対しては画像処理部15
て画像情報、−)圧縮か実行32−るのてめ′85 このよつに、本実施例におし)て:ま、自動文書人力装
置の領域分別部I2を、窓設定部2+、特徴量抽出部2
2.領域分が1ニユーラルネツト・−21−り23、バ
ッファ2・1および小領域(ii、i、’部2,3で構
成する。そして、上記窓設定部21にお0て:ま、28
8画素×288画素の犬きざ一窓2″7文書画像領域2
6上を走査し、特微量抽田部22においては、上記走査
される窓27内の画像情報に基づいて、上述のようにし
てヒストクラム特微量と線密度特徴量とを順次求める。 そして、このヒストグラム特微量と線密度特徴量とから
成る72次元の特徴量を領域分割二1−ラルネ:l h
 ’−,’−り23の入力データとする 上記領域分割ニューラルネットワーク2,3は、入力さ
れた72次元の人力データに基づいて、前位置における
窓27内の各小区域30a、30b、30c、30dは
領域分割候補区域か否かを識別j7、識別情報をバッフ
ァ24に格納する。、こうしこ、文書画像領域26:)
小領域・\の分割を終γする。 そうすると、上記小領域確定部25は、5\ゾフア24
に格納された各小区域か領域分割候補区域か否かを表す
“0”あるいは“ビのラベルに基づいて、領域分割候補
区域で囲まれた領域を独立した小領域として確定するの
である。 したがって、本実施例によれば、窓設定部21によって
走査される窓27内の画像情報の変化に応じて領域分割
ニューラルネットワーク23によってダイナミックに構
築される識別ルールに基づいて、文書画像領域が精度良
く小領域へ分割される。 また、上記領域分割ニューラルネットワーク23によっ
て、カテゴリ識別の対象となる判定区域28における局
所的な画像特徴量に囚われず、周辺領域を含めたより広
い窓27から得られた大局的な画像特徴量に基づいて、
文書画像領域が容易にかつ正しく小領域に分割されるの
である。 さらに、上記文書画像領域の分割処理は領域分割ニュー
ラルネットワーク23内において平行に処理される。し
たがって、本実施例によれば精度の高し・分割処理を高
速に実行できるのである。 つまり、本実施例によれば、文書画像領域をある一つの
属性を有すると推定される小領域に正確にかつ効率良く
分割できるのである。 上記実施例においては、窓設定部2Iによる窓27の移
動方法は、文書画像領域26における左上の位置27a
から右下の位置27dまて水平方向に移動するようにし
ている。しかしながら、この発明における窓27の移動
方向はこれに限定されるものではない。要は、文書画像
領域26上を窓27によって満遍なく走査できれば良い
のである。 第2実施外 本実施例は、文書画像領域から画像特徴量を抽出する範
囲を指定する窓を文書画像の特性に応して2個設け、夫
々上記特性か画像特徴量に良く表れる方向へ走査される
窓内の画像情報から抽出された異なる画像情報に基づい
てニューラルネットワークによって小領域への分割を実
施するものである。 本実施例においては、第1実施例の場合と同様に、縦長
の、へ4+イズの入力文書を300dpiの解像度で2
値化して入力する場合を考える。その際の人力画像の大
きさは3584画素x2S60画素である。 第5図は第2実施例に係る自動文書入力装置の一例を示
すブロック図である。本実施例における画像入力部11
.領域識別部131文字認識部14画像処理部15およ
び統合部16の処理動作は、第1実施例の場合と同しで
ある。以下、主に領域分割部40について詳細に説明す
る。 本実施例における領域分割部40は、第1窓設定部41
.第2窓設定部42.第1特徴量抽出部43、第2特徴
量抽出部44.第1領域分割ニューラルネットワーク4
5.第2領域分割ニューラルネットワーク46.第1バ
ッファ47.第2バツフア48、領域分割候補区域統合
部49および小領域確定部50によって概略構成されて
いる。 本実施例における窓は上記2つの窓設定部4I42によ
って2つ設け、夫々別々に走査させるようにしている。 そして、こうして走査される2つの窓内における画像情
報から両持微量抽出部4344で抽出さメ′、に画像特
徴量1こ基っし)で、文書画1g!領域を小領域に分割
するのである、上記第1窓設定部41は、第6図に示す
ように、第1窓52を文書画像領域5I、)縦方向全幅
、′こ渡る3584画素×96画素のスリット状に設定
する。そして、この第1窓52を文書画像領域51にお
ける左端の位置から右端の位置まて32画素すつ水平方
向にに移動させて文書画像領域51上を走査するのであ
る。その際に、第1窓52の幅方向中央には、全長に渡
って幅32画素の第1判定区域53を設定しておく。そ
して、上記第1窓52の走査開始位置は、第1判定区域
53の位置が文書画像領域5Iの左端部を完全に含むよ
うな位置にする。同様に、第1窓52の走査終了位置は
、第1判定区域53の位置が文書画像領域51の右端部
を完全に含む位置にするのである。 一方、上記第2窓設定部42は、第6図に示すように、
第2窓54を文書画像領域51の横方向全幅に渡る96
画素X2560画素のスワン)・状に設定する。また、
第2窓54の幅方向中央には、全長に渡って幅32画素
の第2判定区域55を設定しておく。そして、上記第2
窓54の走査開始位置は、第2判定区域55の位置か文
書画像領域51の上端部を完全に含むような位置にする
。同様に、第2窓54の走査終了位置は、第2判定区域
55の位置が文書画像領域51の下端部を完全に含む位
置にするのである。 文書画像には縦書きと横書きとの2つの特性がある。こ
のことは、各小領域の境界領域は縦方向あるいは横方向
にスリット状に延在することを意味する。そこで、本実
施例においては、文書画像領域5Iの縦方向全幅に渡っ
てスリット状Iこ設定した第1窓52を横方向へ走査す
るのである。こうすることによって、第1窓52が移動
しても、第1窓52と略直行して横方向に延在する境界
領域は第1窓52における同じ箇所で捕らえることがで
きる。その結果、境界領域が横方向に連なるという横書
き文書の特性が第1窓52に係る画像特徴量によって良
く表されることになるのである。 二のことは、文書画像領域51の横方向全幅に渡ってス
リット状に設定されて縦方向へ走査される第2窓54に
ついてら言える。つまり、横方向に連なる領域分割候補
区域を第1窓52て適確に識別する一方、縦方向に連な
る領域分割候補区域を第2窓54て適確に識別するので
ある。 上記第1特徴量抽出部43は、上記第1窓設定部41に
よって設定されfこ第1窓52における画像情報から、
ヒストグラム特微量とメツツユ特微量との2種類の画像
特徴量を抽出する。 上記ヒストグラム特微量は次のようにして抽出する。す
なわち、ある位置における第1窓52内の画像情報を水
平方向に走査して黒画素数のヒストグラムを算出する。 そして、得られた黒画素数分布曲線を垂直方向に32画
素ずつ112等分し、得られた112個の区間毎に平均
濃度を算出する。 こうして得られた112個の平均濃度値をヒストグラム
特微量とするのである。 また、上記メツツユ特微量は次のようにして抽出する。 すなわち、当該位置における第1窓52にお(する画像
情報を32画素×32画素のメツツユ状に分割し、得ら
れにl12x3個のメツシュ内の黒画素数を求める。こ
うして求められ?l12×3個の黒画素数をメノンユ特
微量とするのである。その際に、上記第1窓52および
第2窓54か、文書画像領域の周端部の位置にある場合
には、両窓52.54内の領域のうち文書画像領域51
に掛からない領域における画像情報は、文書画像領域5
1における背景と同じ画像情報とする。 上述のようにして抽出された112次元のヒストグラム
特微量と1I2x3次元のメツシュ特微量とから成る合
計448次元の画像枠微量の値を、第1領域分割ニュー
ラルネットワーク45の入力データとするのである。 一方、上記第2特徴量抽出部44は、上記第2窓設定部
42によって設定された第2窓54における画像情報か
ら、線密度特徴量とメツンユ特微量との2種類の画像枠
微量を抽出する。 上記線密度特徴量は次のようにして抽出する。 すなわち、ある位置における第2窓54内の画像情報を
垂直方向に走査して白画素から黒画素に反転する回数の
ヒストクラムを算出する。そして、得られ1こ反転回数
分布曲線を水平方向に32画素ずつ80等分し、得られ
?=80個の区間毎に平均反転回数を算出する。こうし
て得られf二80個の平均反転回数を線密度特徴量とす
るのである。 また、上記メツツユ特微量は上述と同様にして、当該位
置における第2窓54における画像情報を32画素×3
2画素のメツツユ状に分割し、得られrコ80 x 3
個の黒画素数をメソツユ特微量とするのである。 こうして抽出された80次元の線密度特徴量と80×3
次元のメツツユ特微量とから成る合計320次元の画像
枠微量の値を、第2領域分割ニューラルネットワーク4
6の入力データとするのである。 このように、第1窓52と第2窓54の2つの窓を用い
て、文書画像領域51から画像枠微量としてヒストグラ
ム特徴量、線密度特微量および2つのメツシュ特微量の
合計4種の特mf4を抽出することによって、多くの画
像枠微量に基づいてより精度良く領域分割候補区域を識
別できるのである。また、その際における総ての画像時
amは2つの窓52.54内の画像情報から同時に抽出
されるのて、多くの画像枠微量を効率良く抽出できる。 上記両領域分割ニューラルネットワーク4556は、夫
々対応する第1特徴量抽出部43あるいは第2特徴量抽
出部44によって抽出された画像枠微量に基づいて、当
該位置における第1窓52内の第1判定区域53の画像
情報が属するカテゴリあるいは第2窓54内の第2判定
区域55の画像情報が属するカテゴリが“領域分割候補
区域”であるか否かを識別する。この両領域分割ニュー
ラルネットワーク45.46の構造は第1実施例におけ
る領域分割ニューラルネットワーク23と大略同じであ
り、3層パーセブトロン型ニューラルネットワークによ
って構成されている。但し、以下に述べる点において、
第1実施例における領域分割ニューラルネットワーク2
3の構造とは異なるのである。 第7図は第1領域分割ニューラルネットワーク45の構
造概念図である。この第1領域分割ニューラルネットワ
ーク45の入力層56は448個のノードを有し、中間
層57は200個のノードを存し、出力層58は112
個のノードを有する。 上記出力層58における112個の夫々のノードには、
上記第1窓52内の第1判定区域53における上記メソ
ツユ特微量を抽出した際におけるl12個のメッツユの
いずれかを割り付ける。また、上記出力層58の各ノー
ドにおいては、夫々のノードの出力側を同じノードの入
力側と遅延素子59を介して結合(以下、このような結
合をフィードバック結合と言う)するようにしている。 このフィードバック結合の重みの値は経験により“02
″とする。 上記第1領域分割ニューラルネットワーク45は、次の
ような学習データを用いて誤差逆伝播学習量によって学
習する。種々の学習サンプルに基づいて、上記第1窓設
定部41によって第1窓52を文書画像領域51上で走
査しながら、上記第1特徴量抽出部43によって112
次元のヒズトダラム特微量と112x3次元のメソツユ
特微量とを抽出する。そして、このl12次元のヒスト
クラム特微量とll2X3次元のメッンユ特微量七から
成る448次元の画像特徴量を学習データとずろ。一方
、出力層58における夫々:)、/ −トに割り付けら
れた第1判定区域53の各メッンクにおけろ学習サンプ
ルの画像情報が属するカテゴリが領域分割候補区域の場
合にはそのノードへの人力値が“ビであり、非領域分割
候補区域の場合にはそのノードへの入力値が“0”であ
るような要素値から成る112次元のデータを教師デー
タとする。こうして、第1窓52を順次移動して得られ
た半合データと教師データとに基づいて、第1領域分割
ニューラルネットワーク45の学習が第1実施例と同様
にして実行される。 こうして種々の学習サンプルによって学習され1こ第1
領域分割ニューラルネットワーク45は、ある位置にお
ける第1判定区域53内の各メツツユの画像情報の属す
るカテゴリか既知の学習データを入力すると、出力層5
8の各ノードからは、割り付けられに夫々C)メツツユ
の画像情報か属するカテゴリか“領域分割候補区域”で
ある場合には“ビか出力され、”非領域分割候補区域”
である場合には”0”が出力されるように、各ウェイト
の値か設定されるのである。 第2領域分割ニューラルネットワーク46は第1領域分
割ニューラルネットワーク45と大略同じ構造を有する
。但し、各層のノード数や入力データの内容において第
1領域分割ニューラルネットワーク45とは異なる。 すなわち、第2領域分割ニューラルネットワーク46の
入力層は320個のノードを有し、中間層は160個の
ノードを有し、出力層は80個のノードを有する。そし
て、この出力層における80個の夫々のノードには、上
記第2窓54内の第2判定区域55における80個のメ
ツツユのいずれかを割り付けるのである。また、第2領
域分割ニューラルネットワーク46の学習の際に用いる
学習データは、種々の学習サンプルから上記第2特徴量
抽出部44によって抽出された80次元の線密度特徴量
と80×3次元のメッンユ特微量とから成る320次元
の画像特徴量である。 上記学習済みの第1領域分割ニューラルネットワーク4
5および第2領域分割ニューラルネットワーク46は、
次のようにして文書画像領域51を小領域に分割する。 すなわち、第1領域分割ニューラルネットワーク45に
おいては、文書画像領域5I上のある位置における第1
窓52に係る上記448次元の入力データを入力層56
に入力する。そうすると、出力層58の各ノードからは
当該位置における第1判定区域53の各メツシュに係る
画像情報が属するカテゴリの識別結果を表す出力値を出
力して、文書画像領域51を小領域に分割する。そして
、上記出力層5Bからの出力値が上記第1実施例の場合
と同様に第1識別情報として上記第1バツフア47に格
納される。一方、第2領域分割ニューラルネットワーク
46においては、文書画像領域51上をのある位置にお
ける第2窓54に係る上記320次元の入力データを入
力層に入力する。そうすると、出力層の各ノードからは
当該位置における第2判定区域55の各メツツユに係る
画像情報が属するカテゴリの識別結果を表す出力値を出
力して、文書画像領域51を小領域に分割する。 そして、上記出力層からの出力値が第2識別情報として
上記第2バツフア48に格納される。 その際に、上記両領域分割ニューラルネットワーク45
.46における夫々の出力層における各ノードは、中間
層の総てのノードからの出力値と上記遅延素子59に保
持された前回の識別時における自ノードからの出力値と
に基づいて出力値を算出するようにしている。つまり、
前の判定区域に係る識別結果が“領域分割候補区域”で
あれば次の判定区域に係る出力値を大きくするのである
。 換言すれば、過去の履歴を識別に反映するのである。 このように過去の履歴を識別に反映させるのは次の理由
による。すなわち、上述のように、上記第1窓52は文
書画像領域51の縦方向全幅に渡ってスリット状に設定
されて横方向へ走査されるので、小領域の境界領域のう
ち横方向に延在する境界領域の画像情報は第1窓52の
走査に伴って第1判定区域53の同しメソツユによって
走査されることになる。しf二かって、−旦第1窓52
内の第1判定区域53のあるメツツユに係る識別結果が
“領域分割候補区域“となると、そのメソツユに係る識
別結果が連続して“領域分割候補区域”となる場合が多
い。そこで、前の判定区域に係る識別結果が“領域分割
候補区域”であれば次の判定区域に係る識別結果が確実
に“領域分割候補区域″となるように出力値を大きくす
る。こうして、横方向に延在する境界領域を識別し易く
するのである。 ここて、上記遅延素子59に保持された前回の識別結果
の内容は、画像入力部+1によって次の文書画像情報が
入力されるとクリアされるのである。 上記領域分割候補区域統合部49は、次のようにして上
記第1バツフア57に書き込まれた第1識別情報と第2
バツフア58に書き込まれ1こ第2識別情報とを統合す
る。すなわち、上記第1バツフア47に書き込まれ1こ
第1識別情報および第2バツフア48に書き込まれた第
2識別情報における同しメソツユに係る識別情報を読み
出す。そして、両識別情報のうち少なくともし・すれか
一方が“1”であればそのメソツユに係る識別情報は“
ドとして、当該文書画像領域51における総てのメツシ
ュに係る識別情報を再設定する。そして、上記小領域確
定部50は、こうして統合された識別情報に基づいて、
領域分割候補区域で囲まれた領域を独立した小領域とし
て確定するのである。 このように、本実施例においては、自動文章入力装置の
領域分割部40を、第1.第2窓設定部41.42、第
1.第2特徴量抽出部43.44、第1.第2領域分割
ニューラルネントワーク4546、第1.第2バッファ
47.48、領域分割候補区域統合部49および小領域
確定部50て構成する。そして、上記第1窓設定部41
によって文書画像領域51の縦方向全幅に渡ってスリッ
ト状に設けられた第1窓52を横方向に走査する一方、
上記第2窓設定部42によって文書画像領域51の横方
向全幅に渡ってスリット状に設けられた第2窓54を縦
方向に走査する。そして、第1特徴量抽出部43で第1
窓52内の画像情報から抽出した112次元のヒストグ
ラム特微量と112×3次元のメツシュ特徴景から成る
448次元の画像特徴量を第1領域分割ニューラルネッ
トワーク45に入力する。一方、第2特徴量抽出部44
で第2窓54内の画像情報から抽出した80次元の線密
度特徴量と80×3次元のメツツユ特微量から成る32
0次元の画像特徴量を第2領域分割ニューラルネットワ
ーク46に入力する。 そうすると、上記第1領域分割ニューラルネットワーク
45は、第1窓52における第1判定区域5゛3を構成
する各メツシュ内の画像情報が属するカテゴリが“領域
分割候補区域“であるか否かを識別し、第1識別情報を
第1バツフア47に格納する。同様に、第2領域分割ニ
ューラルネットワーク46は、第2窓54における第2
判定区域55を構成する各メソツユ内の画像情報が属す
るカテゴリが“領域分割候補区域”であるか否かを識別
し、第2識別情報を第2バツフア48に格納する。 こうして、文書画像領域51の小領域への分割が終了す
る。そうすると、領域分割候補区域統合部49は、第1
バツフア47に格納された第1識別情報と第2バツフア
48に格納された第2識別情報とを統合する。そして、
統合された識別情報に基づいて、小領域確定部50によ
って領域分割候補区域で囲まれた領域を独立した小領域
として確定するのである。 このように、本実施例によれば、文書画像には縦書きと
横書きとの2つの特性があることに注目して、文書画像
の特性に応じた形状を有すると共に上記特性が画像特徴
量に良く表されるような方向に走査される第1窓52と
第2窓54の2つの窓を設定する。そして、第1窓52
で横方向に連なる領域分割候補区域を適確に識別する一
方、第2窓54で縦方向に連なる領域分割候補区域を適
確に識別するようにしているので、文書画像領域51、
hに存在する領域分割候補区域を適確に識別できる。 まfこ、本実施例におし)ては、ヒストグラム特徴量、
線密度特微量および2つのメノンユ特微量の合計4種の
特徴量に基ついて領域分割候補区域であるか否かの識別
を実施するので、多くの特徴量に基づいてより正確に領
域分割候補区域を識別できる。その際に、上記ヒストグ
ラム特徴量、線密度特微量およびメツツユ特微量は、2
つの窓5254内の画像情報から別々の特徴量抽出部4
344による平行処理によって抽出されるので、つの文
書画像領域51から多数の特atを抽出する場合であっ
ても短時間に効率良く処理できるのである。 また、上述のように、第1領域分割ニューラルネットワ
ーク45および第2領域分割ニューラルネットワーク4
6は、評価時においては、出力層の各ノードは前回の識
別結果が領域分割候補区域である場合にはその程度に応
して出力値を高めるようにしている。したがって、一方
向に連続する領域分割候補区域をより適確に識別できる
のである。 上記実施例においては、文書画像領域51の縦方向全幅
に渡ってスリット状の形状を有する筆意52と、文書画
像領域5Iの横方向全幅に渡ってスリット状の形状を有
する第2窓54とから成る2つの窓を設定し、第1窓5
2は水平方向へ走査する一方、第2窓54は垂直方向へ
走査するようにしている。しかしながら、この発明にお
1子る窓の数や形状およびその走査方向はこれに唱定さ
れるものではない。要は、文書画像の特性に応した形状
の窓を、その特性が画像特徴量に良く表れるような方向
へ走査すればよいのである。 上記実施例においては、第1窓設定部41と第2窓設定
部42によって設定される2つの窓5254からの特徴
量に基つく領域分割候補区域の識別と、第1.第2領域
分割ニューラルネソ)・ワーク45.46におけるフィ
ードバック結合よる出力値の活性化とを同時に実施して
いる。しかしながら、この発明においては、複数窓によ
る領域分割候補区域の識別と、領域分割ニューラルネッ
トワークにおけるフィードバック結合による出力値の活
性化を別々に実施しても何等差し支えない。 上記各実施例においては、領域分割ニューラルネットワ
ークを3層バーセプトロン型ニューラルネゾトワークで
構成しているが、この発明はこれに限定されるものでは
ない。 上記各実施例における画像特徴量の種類や文書画像領域
および窓の大きさはあくまでも一例であり、本発明にお
いてはこれらに限定されるものではない。 この発明の自動文書人力装置における特1kl抽出部の
構成は上記各実施例に限定されるものではない。例えば
、自己組織化ニューラルネットワークによって抽出され
る非解析的かつ広範囲な画像特徴量に基づいて領域分割
候補区域を識別するようにしてもよい。 【発明の効果】 以上より明らかなように、第1の発明の自動文書入力装
置は、領域分割部を、窓設定部、特徴量抽出部、領域分
割ニューラルネットワークおよび小領域確定部によって
構成し、入力された文書画像領域上を上記窓設定部によ
って設定された窓で走査し、この走査される窓内の画像
情輯がら抽出された特徴量に基づいて上記窓内に設けら
れた判定区域が領域分割候補区域であるが否かの識別を
上記領域分割ニューラルネットワークによって実施して
上記文書画像領域を分割し、上記領域分割ニューラルネ
ットワークによって識別された領域分割候補区域で囲ま
れた領域を小領域として確定するようにしたので、上記
判定区域が領域分割候補区域であるか否かの識別を、そ
の周辺領域を含めたより広い窓から得られる画像特徴量
に基づいて大局的に実施できる。したがって、画像情報
の局所的な特徴に囚われず正しく領域分割候補区域を識
別できる。 その際に、上記識別を平行処理可能なニューラルネット
ワークを用いて実施するので、領域分割候補区域の識別
を高速にできる。 また、上記窓の走査によって、上記領域分割ニュラルネ
ノトワークには窓の走査に基つく画像情報の変゛化に応
して識別ルールがグイナミソクに構築される。し1ニか
って、文書画像情報における文字の大きさ9文字間隔1
文字の配列方向9文字と線図形との配置等が変化しても
、領域分割処理区域を精度良く識別できる。 すなわち、この発明によれば、精度の高い領域分割処理
を効率良く実行できる。 また、第2の発明の自動文書入力装置は、第1の発明に
おける窓設定部、特徴量抽出部および領域分割ニューラ
ルネットワークを互いに対応付けて複数組設けているの
で、複数の窓内の画像情報から多くの特徴量を平行処理
によって抽出できる。 したかって、この発明によれば、多くの特徴量に基つく
更に精度の高い領域分割処理を効率良く実行できる。 また、第3の発明の自動文書入力装置は、第2の発明に
おける複数の窓を夫々文書画像の特性に応した形状に成
すと共に、その特性が上記特徴量に良く表れる方向へ走
査するので、窓内の画像情報に拮つし)で抽出される特
徴量、′よ文書画像の特性を良く表すことになる。しf
二かへて、領域分割候補区域の識別を文書画像の特性に
応して適確にできる。 ま1こ、第4の発明の自動文書入力装置は、第1の発明
乃至第3の発明における領域分割ニューラルネットワー
クを、その出力層からの出力値を遅延素子を介して自ノ
ードにフィードバックするようにしたので、上記領域分
割ニューラルネットワークによる前回の識別結果が“領
域分割候補区域”である場合には次の出力値を高めて、
一方向に連なって存在する領域分割候補区域を適確に識
別できる。したがって、この発明によれば、更に精度の
高い領域分割処理を実行できる。
【図面の簡単な説明】
第1図はこの発明の自動入力装置における一実施例のブ
ロック図、第2図は第1図における窓設定部によって実
施される窓の設定と移動の説明図、第3図は第1図にお
ける領域分割ニューラルネットワークの構造概念図、第
4図は第1図におけるバッファに格納された識別情報の
一例を示す図、第5図は上記実施例とは異なる他の実施
例のブロック図、第6図は第5図における第1窓設定部
によって設定される第1窓および第2窓設定部によって
設定される第2窓の説明図、第7図は第5図における第
1領域分割ニューラルネットワークの構造型合図、第8
図は従来の自動入力装置のブロック図である。 +1・・画像入力部、  I 2,40・・・領域分割
部、13 ・領域識別部、  ′  14 ・文字認識
部、15 ・画像処理部、     16・・・統合部
、21.41.42・−窓設定部、 22.43.44・・特徴量抽出部 領域分割ニューラルネットワーク、 24.47.48・・バッファ、 25.50・・小領域確定部、 27.52,54・窓 28.53.55・・・判定区域 30・小区域、      31.56・・入力層、3
2.57・中間層、   33.58・・出力層、49
 領域分割候補区域統合部、 59・遅延素子。

Claims (4)

    【特許請求の範囲】
  1. (1)入力された文書画像領域を一つの属性を有するよ
    うな小領域に領域分割部によって分割し、この領域分割
    部によって得られた小領域の属性を領域識別部によって
    識別し、上記小領域における画像情報に対して上記識別
    の結果に応じた処理を実施した後にこの処理後の画像情
    報を外部装置に入力する自動文書入力装置において、上
    記領域分割部は、 上記文書画像領域における特徴量を抽出する範囲を指定
    する窓を上記文書画像領域上に設定すると共に、上記窓
    を所定の手順によって所定の方向に移動させて上記文書
    画像領域の総てを上記窓によって走査する窓設定部と、 上記窓設定部によって上記文書画像領域上を移動される
    窓内の画像情報の特徴量を所定の手順によって抽出する
    特徴量抽出部と、 上記特徴量抽出部によって抽出された上記窓内の画像情
    報の特徴量に基づいて、上記窓内に設けられた判定区域
    は上記文書画像領域を小領域に分割する際における領域
    分割候補区域であるか否かを識別して、上記文書画像領
    域を分割する領域分割ニューラルネットワークと、 上記領域分割ニューラルネットワークによって識別され
    た領域分割候補区域で囲まれた領域を一つの小領域とし
    て確定する小領域確定部を備えたことを特徴とする自動
    文書入力装置。
  2. (2)請求項1に記載の自動文書入力装置において、 上記窓設定部、特徴量抽出部および領域分割ニューラル
    ネットワークを互いに対応付けて複数組設けると共に、 複数の領域分割ニューラルネットワークによる識別結果
    を一つに統合する領域分割候補区域統合部を備えて、 夫々の窓設定部によって上記文書画像領域上に設定され
    た窓内の画像情報から各窓設定部に対応付けられた特徴
    量抽出部によって個別に抽出された各窓毎の特徴量に基
    づいて、各窓内に設けられた判定区域が領域分割候補区
    域であるか否かを各特徴量抽出部に対応付けられた領域
    分割ニューラルネットワークによって個別に識別し、 上記小領域確定部は、上記領域分割候補区域統合部によ
    って一つに統合された識別結果に基づいて上記小領域を
    確定することを特徴とする自動文書入力装置。
  3. (3)請求項2に記載の自動文書入力装置において、 上記複数の窓設定部は、夫々文書画像の特性に応じた形
    状の窓を上記文書画像領域上に設定すると共に、この設
    定した窓を上記特性が上記特徴量に良く表れるような方
    向へ走査することを特徴とする自動文書入力装置。
  4. (4)請求項1乃至請求項3のいずれかに記載の自動文
    書入力装置において、 上記領域分割ニューラルネットワークにおける出力層の
    各ノードからの出力値を遅延素子を介して自ノードにフ
    ィートバックするように成したことを特徴とする自動文
    書入力装置。
JP2224015A 1990-08-24 1990-08-24 自動文書入力装置 Pending JPH04105186A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2224015A JPH04105186A (ja) 1990-08-24 1990-08-24 自動文書入力装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2224015A JPH04105186A (ja) 1990-08-24 1990-08-24 自動文書入力装置

Publications (1)

Publication Number Publication Date
JPH04105186A true JPH04105186A (ja) 1992-04-07

Family

ID=16807254

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2224015A Pending JPH04105186A (ja) 1990-08-24 1990-08-24 自動文書入力装置

Country Status (1)

Country Link
JP (1) JPH04105186A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5884296A (en) * 1995-03-13 1999-03-16 Minolta Co., Ltd. Network and image area attribute discriminating device and method for use with said neural network
JP2019079347A (ja) * 2017-10-25 2019-05-23 ネットスマイル株式会社 文字種推定システム、文字種推定方法、および文字種推定プログラム
JP2020144636A (ja) * 2019-03-07 2020-09-10 セイコーエプソン株式会社 情報処理装置、学習装置及び学習済モデル

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5884296A (en) * 1995-03-13 1999-03-16 Minolta Co., Ltd. Network and image area attribute discriminating device and method for use with said neural network
JP2019079347A (ja) * 2017-10-25 2019-05-23 ネットスマイル株式会社 文字種推定システム、文字種推定方法、および文字種推定プログラム
JP2020144636A (ja) * 2019-03-07 2020-09-10 セイコーエプソン株式会社 情報処理装置、学習装置及び学習済モデル
US11436816B2 (en) 2019-03-07 2022-09-06 Seiko Epson Corporation Information processing device, learning device, and storage medium storing learnt model

Similar Documents

Publication Publication Date Title
US6738154B1 (en) Locating the position and orientation of multiple objects with a smart platen
US6839466B2 (en) Detecting overlapping images in an automatic image segmentation device with the presence of severe bleeding
JP3950777B2 (ja) 画像処理方法、画像処理装置および画像処理プログラム
Shafait et al. Performance comparison of six algorithms for page segmentation
JP6139396B2 (ja) 文書を表す二値画像を圧縮する方法及びプログラム
JP5379085B2 (ja) スキャンされた文書画像内の前景画素群の連結グループをマーキング種類に基づき分類する方法及びシステム
US7016536B1 (en) Method and apparatus for automatic cleaning and enhancing of scanned documents
DE60303202T2 (de) System und verfahren zum identifizieren und extrahieren von zeichenketten aus erfassten bilddaten
US5892854A (en) Automatic image registration using binary moments
US6704456B1 (en) Automatic image segmentation in the presence of severe background bleeding
US9965871B1 (en) Multi-binarization image processing
NL9301004A (nl) Inrichting voor het bewerken en reproduceren van digitale beeldinformatie.
JPH03122773A (ja) 画像形成装置
CN110598566A (zh) 图像处理方法、装置、终端和计算机可读存储介质
US20030012438A1 (en) Multiple size reductions for image segmentation
CN115761773A (zh) 基于深度学习的图像内表格识别方法及系统
JPH05166002A (ja) ソース画像を分析する方法
EP1439486A1 (en) Segmenting an image via a graph
JPH04105186A (ja) 自動文書入力装置
EP0975146B1 (en) Locating the position and orientation of multiple objects with a smart platen
JP3172498B2 (ja) イメージ認識用特徴値抽出方法、およびその装置、イメージ解析プログラムを格納する記憶媒体
JPH10222688A (ja) 画像処理方法
JPH04114560A (ja) 自動文書入力装置
JP2004094427A (ja) 帳票画像処理装置及び該装置を実現するためのプログラム
Ha et al. A novel method for automatic detection of basic shapes on whiteboard images using faster RCNN