JPH0713995A - 自動テキスト特徴決定装置 - Google Patents

自動テキスト特徴決定装置

Info

Publication number
JPH0713995A
JPH0713995A JP6070294A JP7029494A JPH0713995A JP H0713995 A JPH0713995 A JP H0713995A JP 6070294 A JP6070294 A JP 6070294A JP 7029494 A JP7029494 A JP 7029494A JP H0713995 A JPH0713995 A JP H0713995A
Authority
JP
Japan
Prior art keywords
text
line
vertical
bounding box
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP6070294A
Other languages
English (en)
Inventor
A Lawrence Spitz
ローレンス スピッツ エイ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xerox Corp
Original Assignee
Xerox Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xerox Corp filed Critical Xerox Corp
Publication of JPH0713995A publication Critical patent/JPH0713995A/ja
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/158Segmentation of character regions using character size, text spacings or pitch estimation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Abstract

(57)【要約】 【目的】 文書のテキストの行、ワード、および文字セ
ルの空間的特徴を自動的に決定する装置を提供すること
である。 【構成】 本装置の連結構成要素生成手段は、テキスト
イメージを構成する画素から連結構成要素を生成する。
境界ボックス生成手段は各連結構成要素を取り囲む境界
ボックスを生成する。1つまたはそれ以上の連結構成要
素を構成する文字セルを捜し出す文字セル決定手段は、
行間および連結構成要素間のホワイトスペースを確認す
るための垂直拡張手段と水平拡張手段、行の垂直位置を
決定するための垂直プロフィール手段、2つまたはそれ
以上の連結構成要素の合字を分割する手段、および1つ
またはそれ以上の連結構成要素を一緒にまとめる文字セ
ルを生成する手段から成っている。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、自動文書認識装置、よ
り詳細には文書内のテキストの行、ワード、および文字
セルの空間的特徴を自動的に決定する装置に関するもの
である。
【0002】
【従来の技術】光学式文字認識や、光学式文字認識を使
用して、走査したイメージデータをディジタルコンピュ
ータにおいて使用するのに適したテキストデータへ変換
することはよく知られている。さらに、走査したイメー
ジデータをテキストデータに変換する方法や、その変換
方法によって生じるエラーの種類もよく知られている。
走査したイメージデータをテキストデータに変換する際
の1つの問題は、テキストの個々の行を相互に区別でき
ること、テキストの1つの行内のグループをなしている
ワードを区別できること、テキストの1つの行内の文字
セルの垂直長さと水平長さを決定すること、およびテキ
ストの1つの行内の関連構成要素間の合字( ligature)
または飾りひげ(kern) を適切に分離することにある。
【0003】
【発明が解決しようとする課題】従って、本発明の第1
の目的は、テキストの行、ワード、および文字セルの空
間的特徴を認識する能力を備えた改良型の光学式文字認
識装置を提供することである。
【0004】本発明の第2の目的は、文書のテキストの
行、ワード、および文字セルの空間的特徴を自動的に決
定することである。
【0005】
【課題を解決するための手段】本発明の第1の好ましい
実施例に従って、文書のイメージのテキスト部分の複数
の関連構成要素を取り囲む複数の境界ボックスが生成さ
れる。次に、現在行の境界ボックスと現在行に垂直方向
に隣接する行の境界ボックスとのすべての重複を分離す
るため、境界ボックスと関連構成要素が垂直方向に拡張
される。トップピークとボトムピークを捜し出すため、
各行の関連構成要素の垂直プロフィールが生成される。
ベースラインとx−ラインの位置を決定するため(もし
可能ならば)、関連構成要素のボトム位置とトップ位置
の個別の垂直プロフィールが生成される。テキスト部分
の各行が識別されたら、境界ボックスのすべての重複を
除去するため、境界ボックスと関連構成要素が水平方向
に拡張される。次に、各行について行の関連構成要素の
最頻値のストローク幅が決定される。この最頻値のスト
ローク幅と関連構成要素の実際のストローク幅とが比較
される。もし関連構成要素の実際のストローク幅が最頻
値のストローク幅の所定の倍数より大きければ、その関
連構成要素は2つまたはそれ以上の独立した関連構成要
素の考えられる合字(ligature) とみなされる。この場
合には、関連構成要素を分割することができる。そのよ
うな合字はそれ以上分割できなくなるまで繰り返して分
割される。考えられるすべての分割が行われたら、隣接
する関連構成要素間の間隔が分析されて、各行のワード
間隔と文字間隔が決定される。
【0006】本発明の第2の好ましい実施例において
は、文書のテキスト部分を対応するディジタルデータ信
号へ変換する必要がある場合には、文書が走査され、す
べての非テキスト情報が除去される。続いて、得られた
テキストイメージからスキュー、その他の走査時人工産
物が修正される(必要であれば)。文書のイメージが走
査され、クリーンアップされたら、イメージは位置とイ
メージ濃度をもつ画素のビットマップから複数の関連構
成要素へ変換される。関連構成要素が生成されたら、各
関連構成要素について境界ボックスが生成される。
【0007】
【実施例】図1に示すように、本発明の光学式文字認識
装置は電荷結合素子(CCD)または同種の素子を含む
スキャナ110を備えている。スキャナ110は、未知
のスクリプトと言語のテキスト部分104を含むイメー
ジ102をもつ文書100を走査し、イメージ102を
構成する複数の画素の位置とイメージ濃度を表すディジ
タルデータ信号を出力する。ディジタルデータ信号はメ
モリ112へ送られ、そこに一時的または無期限に保存
される。ディジタルデータ信号は、メモリ112から出
力されると、汎用ディジタルコンピュータ114へ入力
される。コンピュータ114へ入力されると、ディジタ
ルデータ信号は、最初に、イメージ102のすべての非
テキスト部分を除去し、テキスト部分を残すことによっ
てクリーンアップされる。さらに、ディジタルデータ信
号内のすべてのスキャナ人工産物、たとえばスキューま
たは同種の物が除去される。そのあと、クリーンアップ
されたディジタルデータ信号はメモリ112に再び保存
されるか、コンピュータ114のメモリに保存される。
代わりに、スキャナによって一部の前処理たとえばスキ
ャナ人工産物の除去を実施することができる。
【0008】図1に示すように、本発明の汎用ディジタ
ルコンピュータ114は、制御プログラムを保存するメ
モリ22と、メモリ112からディジタルデータ信号を
入力し、テキスト部分104の決定した文字セルを表す
信号を出力する入出力手段24を含んでいる。汎用コン
ピュータ114は、さらに、ディジタルデータ信号を保
存するイメージメモリ26、ディジタルデータ信号から
関連構成要素を生成する関連構成要素生成手段28、各
関連構成要素について境界ボックスの座標と、境界ボッ
クス内のディジタルイメージの画素の座標を決定する境
界ボックス生成手段30、テキスト部分104を垂直方
向に拡張する垂直拡張手段32、非拡張テキスト部分1
04の垂直プロフィールを生成する垂直プロフィール手
段34、テキスト部分104を水平方向に拡張するワー
ド空間的特徴決定手段36、および関連構成要素をまと
めて文字セルにし、文字区分とワード区分を識別する文
字セル生成手段38を含んでいる。垂直プロフィール手
段34は、テキスト部分104、テキスト部分の各行、
および各行の部分の垂直プロフィール生成する垂直プロ
フィール生成手段340と、各行の少なくともトップ、
ボトム、ベースライン、およびことによるとx−ライン
の各位置を決定する垂直位置決定手段342から成って
いる。ワード空間的特徴決定手段36は、テキスト部分
104の各行を水平方向に拡張する水平拡張手段36
0、テキスト部分104の各行内のワード間の間隔とワ
ード内の間隔を決定するワード間隔決定手段362、テ
キスト部分104の各関連構成要素について各行の最頻
値のストローク幅と実際のストローク幅を決定するスト
ローク幅決定手段364、およびテキスト部分104の
各行にどの関連構成要素が属しているかを決定する行内
容決定手段366から成っている。制御プログラムを保
存するメモリ22はROM22aまたはRAM22bの
どちらでもよい。
【0009】動作中、図1に示すように、スキャナ11
0にイメージ102をもつ文書100が挿入され、スキ
ャナ110によって走査され、直列または並列ディジタ
ルデータ信号が生成される。ディジタルデータ信号は、
各信号部分が原イメージ102の対応する画素を表す複
数の信号部分から成っている。イメージ102の各画素
はイメージ102内の位置とイメージ濃度を有してい
る。従って、ディジタルデータ信号の各信号部分は、対
応する画素の位置とイメージ濃度を表すデータを含んで
いる。
【0010】そのあと、スキャナ110によって出力さ
れたディジタルデータ信号はメモリ112に保存され
る。メモリ112はRAM、フラッシュメモリ、ディス
クメモリ、または同種の装置でもよい。メモリ112の
形式に関係なく、ディジタルデータ信号は、各信号部分
内の位置とイメージ濃度のデータに応じて、メモリ11
2に保存される。中間メモリ112に入力する代わり
に、ディジタルデータ信号を汎用コンピュータ114へ
直かに入力してもよいことはもちろん理解されるであろ
う。代案として、メモリ112を汎用ディジタルコンピ
ュータ114に組み入れることもできる。いずれにせ
よ、メモリ112がイメージ102を長期間保存するた
めに使用されることは理解されるであろう。
【0011】オペレータによるスキャナ110への文書
の入力が終了したら、あるいは装置が別のやり方でメモ
リ112に保存されているイメージ102を表すディジ
タルデータ信号をテキストデータへ変換することを決定
すると、または命令されると、イメージ102がメモリ
112から汎用ディジタルコンピュータ114へ出力さ
れる。汎用ディジタルコンピュータ114の代わりに、
専用コンピュータまたはハードワイヤード論理回路を使
用してもよいことはもちろん理解されるであろう。
【0012】メモリ112に保存されたディジタルデー
タ信号は汎用コンピュータ114へ出力され、そこで入
出力手段24によってイメージメモリ26へ入力され
る。ディジタルデータ信号がイメージメモリ26に完全
に保存されたら、ディジタルデータ信号は関連構成要素
生成手段28にとって利用可能になる。関連構成要素生
成手段28はイメージ102を表すディジタルデータ信
号を、各関連構成要素が1つまたはそれ以上の信号部分
から成る複数の関連構成要素に分割する。各関連構成要
素は、一定の最小イメージ濃度を有し、連続する経路を
作っている原イメージ102の画素に対応する信号部分
から成っている。各文字は、一般に、“Fuji”の“F ”
のように1つの関連構成要素、または“Fuji”の“j”
または“i”のように1つより多い関連構成要素に対応
している。関連構成要素生成手段28によって生成され
た関連構成要素のリストは、イメージメモリ26と(ま
たは)メモリ112に保存される。
【0013】関連構成要素生成手段28がイメージ10
2についてディジタルデータ信号から複数の関連構成要
素を生成すると、イメージメモリ26に保存されたイメ
ージ102に対応するディジタルデータ信号と関連構成
要素生成手段28によって生成された関連構成要素のリ
ストが、境界ボックス生成手段30へ出力される。
【0014】境界ボックス生成手段30はイメージ10
2を表すディジタルデータ信号を複数の境界ボックスに
再分割する。各境界ボックスには、1つの関連構成要素
と、その関連構成要素を構成している信号部分に隣接し
て、またはその近くに置かれたディジタルデータ信号の
信号部分が零、1つまたはそれ以上入っている。テキス
ト部分の画素に対応するこれらの追加信号部分は各関連
構成要素を取り囲んでいる。各境界ボックスの寸法は、
対応する関連構成要素を構成している一番左と一番右、
および一番上と一番下の信号部分の位置データによって
決定される。従って、境界ボックス内の信号部分は、イ
メージ濃度データに関係なく、関連構成要素を構成して
いる信号部分と、それらを境界ボックスの境界の中に置
く位置データをもつ信号部分である。境界ボックス生成
手段30によって境界ボックスのリストと各境界ボック
スを構成する信号部分が生成されたら、境界ボックスの
リストがイメージメモリ26またはメモリ112へ入力
される。そして関連構成要素および境界ボックスの各リ
ストと、複数の信号部分が垂直拡張手段32へ出力され
る。
【0015】垂直拡張手段32は、垂直方向の拡張が必
要であってもなくても、テキスト部分104の各境界ボ
ックスの起点を動かすことによってテキスト部分104
を垂直方向に拡張し、垂直方向に並んだ関連構成要素の
間に正常からはずれた大きな量のホワイトスペース(空
白の間隔)すなわちインテルを生み出す。一般に、文書
のテキスト部分の行は、さまざまな量のホワイトスペー
スすなわちインテルだけ間隔があいている。インテル
は、現在行の文字と垂直方向に隣接する行の文字の間の
直線の水平なホワイトパス(空白の通路)と定義され
る。
【0016】一般に、アジアスクリプトタイプは行儀が
よく、関連構成要素のアセンダ(x−ハイトより上に延
びた部分)またはデセンダ(ベースラインより下に延び
た部分)を持っていない。従って、通常、拡張しなくと
も、アジアスクリプトタイプ文書内のテキストの行を明
白に捜し出すことが可能である。対照的に、ヨーロッパ
スクリプトタイプはは行儀が悪く、通常、アセンダとデ
センダを持っている。これらのアセンダとデセンダは水
平方向に接触したり、あるいは単に重複することが多い
ので、最初に垂直方向に拡張しなければ、ヨーロッパス
クリプトタイプ文書のテキストの行を明白に捜し出すこ
とが難しいことが時々ある。
【0017】しかし、消費時間と必要な処理電力の面
で、拡張の費用は非常に少ないので、拡張を必要とする
スクリプトタイプおよび(または)それらの個々の行を
決定しようとするよりも、スクリプトタイプに関係なく
(そして最初にスクリプトタイプを決定せずに)、すべ
てを垂直方向に拡張するほうが簡単である。もちろん、
拡張の費用が高くなれば、テキスト部分104の拡張が
必要かどうかを決定する手段を含むように、本発明を簡
単に改造することができる。図2に示すように、テキス
ト部分104はアセンダとデセンダを有しているので、
垂直プロフィールは行間のホワイトスペースを示してい
ない。関連構成要素を取り囲んでいる境界ボックスの起
点の原境界ボックスy軸位置をCy 、拡張後の境界ボッ
クスの起点の最終の境界ボックスy軸位置をCy ′とす
れば、 Cy ′=f(Cy +Ch /2)−Ch /2 (1) である。ここで、Ch は関連構成要素の高さ、f( )
は拡張関数である。この実施例の場合、f( )はあら
かじめ選択した一定の拡張係数f(1<f<5)であ
る。しかし、文字“i”の2つの部分など、垂直方向に
隣接する関連構成要素間の間隔が行間のインテルと間違
われるほどfを大きくすべきでなく、f= 1.2 が好ま
しい。
【0018】図2は、見本テキスト部分104、見本テ
キスト部分の各関連構成要素を取り囲んでいる境界ボッ
クス、および境界ボックスの垂直プロフィールを示す。
垂直プロフィールから、“Fuji”の“j”のまわりの境
界ボックスが“3400”の最初の“0”と接触しているこ
とは明らかである。しかし、上記の垂直拡張係数を適用
して、“j”および“0”関連構成要素の起点を垂直方
向に動かすと、図3に示すように、垂直方向に隣接する
各対の行の間に、連続するホワイトスペースが生じる。
【0019】図2のテキストの各行の境界ボックスの垂
直分布プロフィールを比較すると判るように、垂直方向
に、ある行のトップまたはボトムと、前の行または次の
行のボトムまたはトップとを区別することができない。
しかし、図3では、ある行のトップとボトムと、隣接す
る行のボトムとトップの輪郭を確実に定めることができ
る。注目すべき重要なことは、拡張は、ある行の境界ボ
ックスと垂直方向に隣接する行の境界ボックスとの間の
相対的垂直位置を移動させるけれども、境界ボックスの
原寸法を変えないことである。
【0020】テキスト部分104を垂直方向に拡張した
後、垂直拡張手段32はどの関連構成要素と境界ボック
スがテキストの各行を構成しているかを決定する。その
あと、行および対応する関連構成要素の各リストがイメ
ージメモリ26および(または)メモリ112に保存さ
れる。
【0021】次に、行および対応する関連構成要素の各
リスト、テキスト部分104を構成する関連構成要素と
原非拡張信号部分のリストが、垂直プロフィール手段3
4へ出力される。垂直プロフィール手段34は、非拡張
テキスト部分104について、テキストの各行のトップ
位置とボトムの位置、一番左の位置と一番右の位置を決
定する。垂直プロフィール手段34は、最初に、テキス
トの各行の関連構成要素の垂直分布プロフィールを生成
する。この垂直分布プロフィールから、図5に示すよう
に、テキストの行のトップ位置とボトム位置を確実に得
ることができる。次に、垂直プロフィール手段34は、
テキストの各行について垂直プロフィールの最も高い点
と最も低い点を決定する。図5に示すように、テキスト
の行のボトム位置は垂直分布プロフィールの最も低い点
であるのに対し、テキストの行のトップ位置は垂直分布
プロフィールの最も高い点である。次に、垂直プロフィ
ール手段34は、テキストの各行について2つの追加垂
直プロフィール、すなわち行の関連構成要素のボトム位
置のみの垂直プロフィールと、行の関連構成要素のトッ
プ位置のみの垂直プロフィールを生成する。一般に、ベ
ースラインおよびx−ラインの位置は、それぞれボトム
およびトップ位置垂直分布プロフィールのピークの垂直
位置になるはずである。アセンダ付き関連構成要素また
はデセンダ付き関連構成要素を含まないテキスト行の場
合は、トップとx−ライン、またはボトムとベースライ
ンが一致することがある。さらに、高いパーセントで大
文字またはアセンダ付き文字が存在するテキスト行の場
合は、x−ラインの位置を正確に決定できないかも知れ
ない。すべての行が垂直プロフィール手段34によって
処理されたら、行のリストと、各行に対応するボトム、
トップ、ベースライン、およびx−ラインの位置がイメ
ージメモリ26へ出力される。テキストのある行に対応
する関連構成要素は、トップ位置とボトム位置の間に完
全に入る関連構成要素である。これは、もちろん、下向
きに正の座標系では多くの関連構成要素に対し負のy起
点をもたらすであろう。
【0022】次に、複数の信号部分と、テキスト部分1
04の各行に対応する関連構成要素と境界ボックスの各
リストがワード空間的特徴決定手段36へ出力される。
ワード空間的特徴決定手段36の水平拡張手段360
は、2つまたはそれ以上の関連構成要素、または2つま
たはそれ以上の独立した関連構成要素に対応する境界ボ
ックスのすべての重複または合字を除去するため、1つ
の行の個々の関連構成要素と境界ボックスを水平方向に
拡張する。
【0023】一般に、テキストの行内の文字は、さまざ
まな量のホワイトスペースで隔てられている。「ホワイ
トスペース」は、現在行の文字間の直線の垂直ホワイト
パス(空白の通路)と定義される。ところが、アジアス
クリプトタイプはたいてい行儀が良いので、一般に、文
字間のホワイトスペースの存在を確かめるため、アジア
スクリプトタイプ文書の行を水平方向に拡張する必要が
ない。対照的に、比例して間隔をおいて配置されたヨー
ロッパスクリプトタイプの場合は、文字およびワードは
たいていホワイトスペースで隔てられているが、ワード
内およびワード間のホワイトスペースの量および分布は
非常にまちまちである。ホワイトスペースは使用したフ
ォントによって決まることが多く、人が認識するのに正
確に垂直である必要はなく、故意に省くこともできる。
ところが、拡張の費用は少ないので、一般に、テキスト
部分104のスクリプトタイプを決定すること、または
個々の行の拡張が必要かどうかを決定することは必要な
いし、望ましくない。しかし、前に述べたように、もし
拡張の費用が高くなれば、上記の情報を得ることになろ
う。
【0024】たとえば、図5の見本テキストの“Fuji”
の“ uj ”または“Avenue”の“Av”など、対の飾りひ
げ(境界ボックスの重複を起こす)がときどき出現す
る。また、あるフォントの場合、図5の“confidence”
の“fi”など、意図的な合字または関連構成要素の重複
が出現する。本発明の好ましい実施例では、水平拡張手
段360がテキスト部分の各行を水平方向に拡張して、
隣接する境界ボックス間の重複を除去する。そのあと、
水平方向に拡張された行が分析され、行内にある残りの
合字が捜し出される。捜し出された合字は、識別された
後、分析され、多くて1個の分割点が捜し出される。も
し関連構成要素内の分割点が捜し出されたならば、その
合字は2つの関連構成要素に分割される。捜し出された
合字が拡張された後、現在行の関連構成要素が再点検さ
れ、合字が残っているかどうか決定される。
【0025】水平拡張手段360は垂直拡張手段32と
同様に作用するが、テキストの各行の各境界ボックスの
水平(垂直でなく)位置に関して作用する。テキスト部
分104のテキストの各行を水平方向に拡張するため、
水平拡張手段360はテキストの現在行の各境界ボック
スの起点を動かし、水平方向に隣接する各対の関連構成
要素間に比較的大きな量のホワイトスペースを生み出
す。ここで、原境界ボックスのx軸位置をCx とし、拡
張後の最終境界ボックスのx軸位置をCx ′とすれば、 Cx ′=f(Cy +Cbu/2)−Cw /2 (2) である。ここで、Cw は現在の関連構成要素の幅、f
( )は拡張関数である。この実施例の場合、fはあら
かじめ選定した一定の拡張係数f(5>f>1)であ
る。しかし、ワード内の水平方向に隣接した関連構成要
素間の間隔がワード間の間隔と間違えられるほどfを大
きくすべきでなく、f= 1.2 が好ましい。
【0026】図6に、図2の垂直方向に拡張した後の、
水平方向に拡張する前のテキスト見本を示す。“seize
d”の“iz”や“international ”の“in”と“rn”の
非意図的な合字や、“confidence”の“fi”の意図的な
合字と同様に、“Fuji”の“u”と“u”や、“Avenu
e”の“A”と“v”の境界ボックス間の重複は明らか
である。図7に、水平方向に拡張したテキスト部分10
4を示す。
【0027】境界ボックスの非意図的な重複は単に拡張
するだけで除去されるが、意図的または非意図的な合字
は水平拡張によって除去できない。これらの合字は単一
関連構成要素として識別されるので、単一境界ボックス
で表される。
【0028】合字を分離するため、ストローク幅決定手
段364は、テキストの各行について、その行の代表的
なストローク幅Sw を決定する。個々のテキスト行に関
連する複数の関連構成要素内に存在するランレングスの
最頻値を検出することによって、平均ストローク幅が決
定される。ストローク幅決定手段364は、所定の幅に
わたる広幅関連構成要素を捜し出す広幅関連構成要素探
索手段3640、各広幅関連構成要素の費用分布を生成
する費用分布生成手段3642、費用分布内の極小点を
捜し出す費用極小点探索手段3644、および探索した
極小点の所で単一関連構成要素を2つの関連構成要素に
分割する関連構成要素分割手段3646から成ってい
る。
【0029】動作中、代表的なストローク幅Sw の3倍
以上の幅Cw をもつ行内の各関連構成要素が識別され、
処理される。ストローク幅Sw の少なくとも3倍の幅C
w をもつ関連構成要素を処理するために、その接続構成
要素の各カラムと、隣接する各カラムがAND演算され
る。AND演算されたカラムの“on”画素の数が決定さ
れ、その関連構成要素より狭い1画素の費用分布が生成
される。次に、その費用分布が分析され、極小点が捜し
出される。代表的ストローク幅Sw より小さい値を有
し、対応する境界ボックスの左境界の右と右境界の左
に、ストローク幅S w の 1.5 倍以上の所に置かれた多
くて1個の極小点について(同じ値をもつ極小点が2ま
たはそれ以上あれば、一番左の極小点を優先する)、関
連構成要素が2つの関連構成要素に分割される。この分
割は、もし必要ならば、すべての断片が再点検され、再
分割されてしまうまで、得られた各断片に繰り返して適
用される。図10に示すように、もし合字が“confiden
ce”の“fi”のように意図的なものであれば、極小点が
見つからないことが多い。その場合には、合字は単一文
字として取り扱われる。
【0030】テキスト部分104の各行が決定された
後、ワード間隔決定手段362がテキスト部分104の
テキストの各行の文字間隔とワード間隔を決定する。ワ
ード間隔決定手段362は、各行の左縁と右縁を決定す
る行長さ決定手段3620、決定した間隔幅の分布を生
成する間隔幅分布生成手段3622、および間隔幅分布
を分析する間隔幅分布分析手段3624、から成ってい
る。間隔幅分布分析手段3624は、間隔幅分布内のピ
ークを捜し出す分布ピーク探索手段3626と、ワード
間の間隔またはワード内の間隔を表すピークを決定する
分布ピーク分析手段3628から成っている。
【0031】動作中、行の始端と終端は、ワードの始端
および終端であると仮定する。次に、行内の水平方向に
拡張したテキスト内の関連構成要素間の間隔が捜し出さ
れ、間隔幅の分布曲線が生成される。間隔幅は、左隣の
関連構成要素の一番右の縁と右隣の関連構成要素の一番
左の縁の間の距離として測定される。一般に、分布曲線
は、ワード内の文字間の狭い間隔と、ワード間の広い間
隔を表す2つのピークがある。もちろん、1つまたは2
つのピークが欠けていることはあり得る。ワード間の間
隔を表す低いピークが欠けている場合には、テキストは
「詰め打ち」されているかも知れない。非拡張テキスト
部分の分布曲線の最も高いピークと水平方向に拡張した
テキスト部分の分布曲線とが比較される。そのピークが
文字セル間の間隔に対応していなければ、それはワード
間の間隔である。もしより高いピークが欠けていたり、
ワード間の間隔に対応していれば、それはテキストの行
が単一ワードから成ることを意味する。
【0032】本発明は統計に基づいているので、非常に
頑強であり、非常に不完全に印刷された、または走査さ
れた、またはその両方の文書にも耐えることができる。
すなわち、ディジタルデータ信号、またはそのディジタ
ルデータ信号から生成された関連構成要素は、文書のす
べての文字を完璧に表している必要がない。それどころ
か、本発明は、1つの関連構成要素文字を2つまたはそ
れ以上の関連構成要素に分割したり、あるいは2つまた
はそれ以上の独立した関連構成要素を1つの関連構成要
素に併合するなど、普通の走査エラーにも耐えることが
できる。
【0033】次に、水平方向に拡張したテキストが、テ
キストの各行の文字セルを生成する文字セル生成手段3
8へ出力される。文字セル生成手段38は、各組の1つ
またはそれ以上の垂直方向に並んだ(すなわち、水平方
向に重複している)関連構成要素について、関連構成要
素を取り囲む文字セルを生成する。各文字セルの寸法
は、図8に示すように、テキストの対応する行のトップ
位置からボトム位置まで、そして文字セルの関連構成要
素の一番左の位置から一番右の位置まで延びるであろ
う。
【0034】図9に、上に述べた空間的特徴決定装置の
動作の簡単なフローチャートを示す。ステップS100
において、装置は処理を開始し、ステップS110にお
いて、文書を走査し、ディジタルデータ信号を生成す
る。次に、ステップS120において、ディジタルイメ
ージデータ信号に必要な前処理アルゴリズムを適用して
クリーンアップする。ステップS130において、ディ
ジタルイメージデータ信号の関連構成要素を識別し、ス
テップS140において、決定した各関連構成要素につ
いて境界ボックスを生成する。
【0035】次に、ステップS150において、テキス
ト部分を垂直方向に拡張する。ステップS160におい
て、拡張したテキストからテキストの行を識別する。ス
テップS170において、各行の垂直プロフィールを生
成し、行のトップ、ボトム、ベースライン、およびx−
ライン(ことによると)の位置を決定する。ステップS
180Iおいて、各行に対応する関連構成要素と境界ボ
ックスを識別する。
【0036】次に、ステップS190において、テキス
ト部分の各行を水平方向に拡張する。ステップS200
において、各行について、最頻値のストローク幅を決定
し、ステップS210において、テキスト部分内の考え
られる合字を捜し出す。ステップS220において、捜
し出した合字を繰り返して分割して、それらの成分を構
成する独立した関連構成要素にする。ステップS230
において、各行内の文字間隔とワード間隔を識別する。
ステップS240において、各行の文字セルを識別し、
それらの寸法を決定する。ステップS250において、
文字セルおよび対応する境界ボックスの各リストおよび
関連構成要素のリストを出力し、ステップS260にお
いて、処理を終了する。
【図面の簡単な説明】
【図1】光学式文字認識装置のブロック図である。
【図2】垂直拡張前のテキスト見本および垂直プロフィ
ールを示す図である。
【図3】垂直拡張後のテキスト見本および垂直プロフィ
ールを示す図である。
【図4】図2に示した文書の各関連構成要素の境界ボッ
クスを示す図である。
【図5】テキスト行の相対的位置を示すテキストの文字
列の図である。
【図6】水平拡張前の垂直拡張された図2のテキスト見
本を示す図である。
【図7】水平拡張後の垂直拡張された図2のテキスト見
本を示す図である。
【図8】関連構成要素分割後の図2のテキスト見本を示
す図である。
【図9】本発明の空間的特徴決定装置の動作のフローチ
ャートである。
【図10】文字セルと境界ボックスを示す、図2のテキ
スト見本の図である。
【符号の説明】
22 メモリ 24 入出力手段 26 イメージメモリ 28 関連構成要素生成手段 30 境界ボックス決定手段 32 言語決定手段 34 垂直プロフィール手段 36 ワード空間的特徴決定手段 38 文字セル生成手段 100 文書 102 イメージ 104 テキスト部分 110 スキャナ 112 メモリ 114 汎用ディジタルコンピュータ 340 垂直位置決定手段 342 垂直プロフィール生成手段 360 水平拡張手段 362 ワード間隔決定手段 364 ストローク幅決定手段 366 行内容決定手段 3620 間隔幅決定手段 3622 間隔幅分布決定手段 3624 間隔幅分布分析手段 3626 分布ピーク探索手段 3628 分布ピーク分析手段 3640 広幅関連構成要素探索手段 3642 費用分布生成手段 3644 費用極小点探索手段 3646 広幅関連構成要素分割手段

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 文書のイメージの非拡張テキスト部分の
    テキスト特徴を決定するための自動テキスト特徴決定装
    置であって、 各信号部分が1つの画素に対応している複数の信号部分
    から成る、非拡張テキスト部分を表すディジタルデータ
    信号を入力する入力手段、 複数の信号部分から複数の関連構成要素を生成する関連
    構成要素生成手段、 各境界ボックスが複数の関連構成要素の対応する1つを
    取り囲んでいる複数の境界ボックスを生成する境界ボッ
    クス生成手段、および各行が複数の関連構成要素の少な
    くとも1つを含んでいる、非拡張テキスト部分のテキス
    トの各行の空間的特徴を決定する行空間的特徴決定手
    段、から成ることを特徴とする装置。
JP6070294A 1993-04-19 1994-04-08 自動テキスト特徴決定装置 Withdrawn JPH0713995A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US08/047514 1993-04-19
US08/047,514 US5384864A (en) 1993-04-19 1993-04-19 Method and apparatus for automatic determination of text line, word and character cell spatial features

Publications (1)

Publication Number Publication Date
JPH0713995A true JPH0713995A (ja) 1995-01-17

Family

ID=21949404

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6070294A Withdrawn JPH0713995A (ja) 1993-04-19 1994-04-08 自動テキスト特徴決定装置

Country Status (5)

Country Link
US (1) US5384864A (ja)
EP (1) EP0621554B1 (ja)
JP (1) JPH0713995A (ja)
KR (1) KR970002420B1 (ja)
DE (1) DE69425084T2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5683586A (en) * 1996-02-05 1997-11-04 Harcourt; Gregory A. Method and apparatus for magnetically treating a fluid

Families Citing this family (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0898240B1 (en) * 1993-01-11 2003-03-05 Canon Kabushiki Kaisha Image processing method and apparatus
US5513304A (en) * 1993-04-19 1996-04-30 Xerox Corporation Method and apparatus for enhanced automatic determination of text line dependent parameters
US5517578A (en) * 1993-05-20 1996-05-14 Aha! Software Corporation Method and apparatus for grouping and manipulating electronic representations of handwriting, printing and drawings
US7203903B1 (en) 1993-05-20 2007-04-10 Microsoft Corporation System and methods for spacing, storing and recognizing electronic representations of handwriting, printing and drawings
JP3042945B2 (ja) * 1993-07-07 2000-05-22 富士通株式会社 画像抽出装置
EP0634704B1 (en) * 1993-07-16 2000-04-26 Sharp Kabushiki Kaisha Image processor
DE69525401T2 (de) * 1994-09-12 2002-11-21 Adobe Systems Inc Verfahren und Gerät zur Identifikation von Wörtern, die in einem portablen elektronischen Dokument beschrieben sind
CA2154952A1 (en) * 1994-09-12 1996-03-13 Robert M. Ayers Method and apparatus for identifying words described in a page description language file
JP3805005B2 (ja) * 1994-11-09 2006-08-02 キヤノン株式会社 画像処理装置及び光学的文字認識装置及びそれらの方法
ES2140825T3 (es) * 1995-01-31 2000-03-01 United Parcel Service Inc Procedimiento y aparato para separar el primer plano del fondo en imagenes que contienen texto.
US5999647A (en) * 1995-04-21 1999-12-07 Matsushita Electric Industrial Co., Ltd. Character extraction apparatus for extracting character data from a text image
MY121607A (en) * 1995-07-10 2006-02-28 Hyundai Curitel Inc Grid moving method of object image and apparatus using the same and compaction/motion estimation method using the same and apparatus thereof
US5867597A (en) * 1995-09-05 1999-02-02 Ricoh Corporation High-speed retrieval by example
US5737442A (en) * 1995-10-20 1998-04-07 Bcl Computers Processor based method for extracting tables from printed documents
US5850476A (en) * 1995-12-14 1998-12-15 Xerox Corporation Automatic method of identifying drop words in a document image without performing character recognition
US5848191A (en) * 1995-12-14 1998-12-08 Xerox Corporation Automatic method of generating thematic summaries from a document image without performing character recognition
US5892842A (en) * 1995-12-14 1999-04-06 Xerox Corporation Automatic method of identifying sentence boundaries in a document image
US5909510A (en) * 1997-05-19 1999-06-01 Xerox Corporation Method and apparatus for document classification from degraded images
US6687404B1 (en) 1997-06-20 2004-02-03 Xerox Corporation Automatic training of layout parameters in a 2D image model
JP4320064B2 (ja) * 1998-07-10 2009-08-26 富士通株式会社 画像処理装置及び記録媒体
JP3897272B2 (ja) * 1999-09-28 2007-03-22 富士フイルム株式会社 画像解析装置
US8682077B1 (en) 2000-11-28 2014-03-25 Hand Held Products, Inc. Method for omnidirectional processing of 2D images including recognizable characters
WO2003063067A1 (en) * 2002-01-24 2003-07-31 Chatterbox Systems, Inc. Method and system for locating positions in printed texts and delivering multimedia information
US7263227B2 (en) 2002-04-25 2007-08-28 Microsoft Corporation Activity detector
US7392472B2 (en) * 2002-04-25 2008-06-24 Microsoft Corporation Layout analysis
US7024039B2 (en) 2002-04-25 2006-04-04 Microsoft Corporation Block retouching
US7110596B2 (en) 2002-04-25 2006-09-19 Microsoft Corporation System and method facilitating document image compression utilizing a mask
US7164797B2 (en) 2002-04-25 2007-01-16 Microsoft Corporation Clustering
US7043079B2 (en) 2002-04-25 2006-05-09 Microsoft Corporation “Don't care” pixel interpolation
US7120297B2 (en) 2002-04-25 2006-10-10 Microsoft Corporation Segmented layered image system
JP2004038321A (ja) * 2002-06-28 2004-02-05 Fujitsu Ltd 文書レイアウト解析プログラム、文書レイアウト解析装置および文書レイアウト解析方法
US7302098B2 (en) * 2004-12-03 2007-11-27 Motorola, Inc. Character segmentation method and apparatus
JP5008572B2 (ja) * 2004-12-21 2012-08-22 キヤノン株式会社 画像処理方法、画像処理装置およびコンピュータ可読媒体
US7602972B1 (en) * 2005-04-25 2009-10-13 Adobe Systems, Incorporated Method and apparatus for identifying white space tables within a document
US7650041B2 (en) 2006-02-24 2010-01-19 Symbol Technologies, Inc. System and method for optical character recognition in an image
WO2009094446A1 (en) * 2008-01-22 2009-07-30 Digital Business Processes, Inc. Method and apparatus for cropping images
US8620080B2 (en) * 2008-09-26 2013-12-31 Sharp Laboratories Of America, Inc. Methods and systems for locating text in a digital image
EP2275972B1 (en) * 2009-07-06 2018-11-28 AO Kaspersky Lab System and method for identifying text-based spam in images
US9003531B2 (en) 2009-10-01 2015-04-07 Kaspersky Lab Zao Comprehensive password management arrangment facilitating security
US8526732B2 (en) * 2010-03-10 2013-09-03 Microsoft Corporation Text enhancement of a textual image undergoing optical character recognition
US8571270B2 (en) * 2010-05-10 2013-10-29 Microsoft Corporation Segmentation of a word bitmap into individual characters or glyphs during an OCR process
US9237255B1 (en) 2014-08-25 2016-01-12 Xerox Corporation Methods and systems for processing documents
CN106446896B (zh) * 2015-08-04 2020-02-18 阿里巴巴集团控股有限公司 一种字符分割方法、装置及电子设备
US20170068868A1 (en) * 2015-09-09 2017-03-09 Google Inc. Enhancing handwriting recognition using pre-filter classification
US9842251B2 (en) * 2016-01-29 2017-12-12 Konica Minolta Laboratory U.S.A., Inc. Bulleted lists
KR101999549B1 (ko) 2017-07-25 2019-07-12 주식회사 한글과컴퓨터 셀 자동 분할 장치

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3613080A (en) * 1968-11-08 1971-10-12 Scan Data Corp Character recognition system utilizing feature extraction
US4206442A (en) * 1974-07-03 1980-06-03 Nippon Electric Co., Ltd. Letter segmenting apparatus for OCR comprising multi-level segmentor operable when binary segmenting fails
US4173015A (en) * 1978-08-16 1979-10-30 Recognition Equipment Incorporated System and method for character presence detection
JPS56129981A (en) * 1980-03-14 1981-10-12 Toshiba Corp Optical character reader
US4377803A (en) * 1980-07-02 1983-03-22 International Business Machines Corporation Algorithm for the segmentation of printed fixed pitch documents
DE3480667D1 (de) * 1983-03-01 1990-01-11 Nec Corp System zum bestimmen des zeichenabstandes.
US4918740A (en) * 1985-10-01 1990-04-17 Palantir Corporation Processing means for use in an optical character recognition system
US4899394A (en) * 1986-05-09 1990-02-06 Prodigy Systems Corporation Apparatus and method for image compression
US5001766A (en) * 1988-05-16 1991-03-19 At&T Bell Laboratories Apparatus and method for skew control of document images
US5062141A (en) * 1988-06-02 1991-10-29 Ricoh Company, Ltd. Method of segmenting characters in lines which may be skewed, for allowing improved optical character recognition
JPH0816918B2 (ja) * 1989-04-18 1996-02-21 シャープ株式会社 行抽出方法
US5253307A (en) * 1991-07-30 1993-10-12 Xerox Corporation Image analysis to obtain typeface information

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5683586A (en) * 1996-02-05 1997-11-04 Harcourt; Gregory A. Method and apparatus for magnetically treating a fluid

Also Published As

Publication number Publication date
EP0621554A2 (en) 1994-10-26
EP0621554B1 (en) 2000-07-05
EP0621554A3 (en) 1995-05-24
US5384864A (en) 1995-01-24
KR970002420B1 (ko) 1997-03-05
KR940024625A (ko) 1994-11-18
DE69425084D1 (de) 2000-08-10
DE69425084T2 (de) 2000-11-09

Similar Documents

Publication Publication Date Title
JPH0713995A (ja) 自動テキスト特徴決定装置
US6754385B2 (en) Ruled line extracting apparatus for extracting ruled line from normal document image and method thereof
JP3308032B2 (ja) スキュー補正方法およびスキュー角検出方法およびスキュー補正装置およびスキュー角検出装置
US8571270B2 (en) Segmentation of a word bitmap into individual characters or glyphs during an OCR process
JPH0721319A (ja) 自動アジア言語決定装置
JPH0721320A (ja) 自動スクリプト決定装置
US5455871A (en) Detecting function words without converting a scanned document to character codes
JP2002015280A (ja) 画像認識装置、画像認識方法および画像認識プログラムを記録したコンピュータ読取可能な記録媒体
JP4810853B2 (ja) 文字画像切出装置、文字画像切出方法およびプログラム
JP2917427B2 (ja) 図面読取装置
JP3187895B2 (ja) 文字領域抽出方法
JPH07225812A (ja) 自動テキスト特徴決定システム
JP3100825B2 (ja) 線認識方法
JPH0728934A (ja) 文書画像処理装置
KR910007032B1 (ko) 한글 문서 인식장치의 문자열과 개별문자 절출방법
JP2003030585A (ja) 画像処理装置、方法、プログラム及び記憶媒体
JP3024234B2 (ja) 文書画像の罫線抽出装置
JPH06259597A (ja) ドキュメントイメージ処理方法並びに文字認識システムおよびドキュメントイメージ処理装置
JP2001143076A (ja) 画像処理装置
JPH02125389A (ja) スペース検出方法
JPH0535914A (ja) 画像傾き検出方法
JP2000196882A (ja) 二値画像変換装置
JPS62169285A (ja) 文書処理装置
JPH10134147A (ja) フォント識別装置およびそのフォント識別処理を記憶した記憶媒体
JPH0728930A (ja) 文字認識装置

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20010703