JP2697790B2 - 文字タイプ決定方法 - Google Patents

文字タイプ決定方法

Info

Publication number
JP2697790B2
JP2697790B2 JP61231347A JP23134786A JP2697790B2 JP 2697790 B2 JP2697790 B2 JP 2697790B2 JP 61231347 A JP61231347 A JP 61231347A JP 23134786 A JP23134786 A JP 23134786A JP 2697790 B2 JP2697790 B2 JP 2697790B2
Authority
JP
Japan
Prior art keywords
character
subline
information
type
characters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP61231347A
Other languages
English (en)
Other versions
JPS62187988A (ja
Inventor
ジャスチン ロス デイビット
Original Assignee
ザ パランチール コーポレーション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ザ パランチール コーポレーション filed Critical ザ パランチール コーポレーション
Publication of JPS62187988A publication Critical patent/JPS62187988A/ja
Application granted granted Critical
Publication of JP2697790B2 publication Critical patent/JP2697790B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Description

【発明の詳細な説明】 本発明は文字認識技術に関するものである。 多種のパターン認識方式が従来公知である。この様な
各方式は、認識されるべきパターンを描写するデータを
光学的に受け取り、且つその入力パターンを「認識」す
る為にそれを既知のパターンと比較する為にこのパター
ンに関して或る操作を行う。パターン認識方式を示した
基本的なフローチャートを第1図に示してある。入力パ
ターンは認識されることを所望するパターンである。デ
ジタイザ12は、入力パターン11をシステムメモリ13内に
格納する為の一連のバイトに変換する。入力パターン11
が基本的に白黒の図である場合、これらのバイトは典型
的に二進的な性質である。デジタイザは公知であり、典
型的に、ファクシミリ装置、電子的複写装置(光学的複
写装置に対して)及び従来技術の光学的文字認識装置に
おいて使用されている。メモリ13は、任意の適宜のメモ
リ装置を有することが可能であり、公知の構成のランダ
ムアクセスメモリを包含する。セグメンテーション14
は、メモリ13内に格納された画像データを個々の文字に
分割すべく機能する。この様なセグメンテーション即ち
文字切り出しは従来公知であり、例えば、Azriel Rosen
feld及びAvinash C.Kak共著の「デジタル画像処理(Dig
ital Picture Processing)」、第2版、第2巻、アカ
デミックプレス出版、1982年、特に「セグメンテーショ
ン」と題した第10章に記載されている。 特徴抽出手段15は、セグメンテーション手段14から受
けとられたデータ(即ち、各文字)の各一部を変換すべ
く機能し、そのデータを識別手段16によって使用する標
準の予め定めた形態へ変換し、該識別手段は各文字を既
知の文字の組の1つとして識別する。出力手段17は、外
部回路(不図示)へデータ出力(典型的には、ASCII
等)を供給すべく機能する。 識別手段16は、パターン認識方式において典型的に使
用されている、更に詳細には、光学的文字認識方式を包
含する多数の従来の識別手段の何れか1つとすることが
可能である。本発明に基づいて使用するのに適したその
様な識別手段の1つは、Toddに対して1981年3月31日に
発行された米国特許第4,259,661号「パターンを認識す
る装置及び方法(Apparatus and Method for Recognizi
ng a Pattern)」に記載されている。識別手段16は又、
K.S.Fu著の「統語法的パターン認識及び適用(Syntacti
c Pattern Recognition and Applications)」、プレン
ティスホールインコーポレイテッド、1982年、の特にセ
クション1.6,アペンディクスA及びBに記載されてい
る。 本発明は以上の点に鑑みてなされたものであって、上
述した如き従来技術の欠点を解消した新規な文字認識方
法を提供することを目的とする。本発明に拠れば、光学
的文字認識方法は、後述する2つの副部品を、即ち文字
選択及び分解を持った識別手段を有している。文字選択
は、未知の入力文字を1つ又はそれ以上の候補文字とし
て識別し且つ該候補文字を包含する「可能性の組」を提
供する。分解は、主にサブライン(subline)情報に基
づいて、与えられた未知入力文字と関連する候補文字を
更に絞り込む機能をする。本発明の1実施例において
は、該分解手段も、該可能性の組に付加的な文字を付加
する。本発明の別の実施例においては、分解手段は又各
文字に対してのポイント寸法を決定すべく機能する。分
解手段が、与えられたサブライン情報が誤っている場合
には、分解手段がこのサブライン情報を補正して、その
補正したサブライン情報を、例えば、大文字「S」と小
文字「s」との間を分解するのに使用することを可能と
し、文字のポイント寸法を確立する。 以下、添付の図面を参照に、本発明の具体的実施例の
態様に付いて詳細に説明する。 第2図は、本発明の1実施例を示したフローチャート
図である。第1ステップはデータを採取することであ
る。前述した如く、このデータは文字選択手段から得ら
れる。本発明の1実施例においては、幾何学的形状及び
可能性の組として、40個の文字が入力バッファ(不図
示)内にロードされる。この明細書において使用される
如く、幾何学的形状は、読み取られる未知の文字に関す
る情報、例えば頁上のX及びY位置、文字の幅、文字の
高さ、文字の頂部から4つのサブライン(例えば、第4
図に示した如くアセンダー、小文字、ベース、ディセン
ダーサブライン)への距離、読み取られた文字が1つ以
上の分離した部分を有しているかどうかを示すフラッ
グ、サブラインの各々がこの文字に対して決定されたか
否かを画定するフラッグ、及び読み取られてい頁のどの
文書領域がこの文字を有しているかを画定する情報等の
情報のことを意味している。可能性の組は、文字選択手
段によって与えられ且つ、それに対する確信値と共に、
多分読み取られている未知の文字であるかも知れない文
字を有しており、且つ、付加的に、可能性の組の要素の
数を表す番号を有している。 データのブロックが入力バッファに得られると、その
データは読取中の頁上の文書領域によって格納される。
入力バッファ内に収納されたデータが文書領域によって
ソート即ち類分けされた後に、最初の番号領域が作業バ
ッファへ転送される。作業バッファ内のデータは、次い
で、X位置によってソート即ち類分けされ、文字は可及
的に読み取られた頁上の元の順番に近くに並べられる。
このことは、データ採取中に得られるデータ列における
文字は、文字選択ステップにおいて、又は本発明方法の
前に行われるその他の処理ステップにおいて順番が狂っ
てしまっている場合があるので、必要がある。この様
に、本発明方法は、単一の文書領域内に包含される文字
に関して、且つ単一文書文字領域内において、左から右
へ、実施される。 チェックサブライン 次に、作業バッファ内のデータのサブラインが文字毎
に解析されて、各文字に関連するサブラインが正確であ
るか否かを決定する。重要なことであるが、或る文字の
みを使用して、それらのサブライン情報が正確であるか
否か、以下の如く、決定することが可能である。 これらの文字は明確(大文字は小文字と極めて異なっ
て見える)であり且つ事実上常に同一の2つのサブライ
ン間を延在する。それらの行動は十分に規則的であり、
不明確(「C」と「c」)又は不規則(「t」)である
かの何れかの文字に対してのサブラインを設定する為に
使用されることを保証する。 本発明の1実施例においては、それらの可能性の組に
おいて単一の要素を持った未知の文字のみを使用して、
サブライン情報をチェックし(且つ後述する如く、ヒス
トグラムを形成し)、別の実施例においては、この様な
単一の文字は、特定した確信度を持った未知の文字であ
ると考えられる場合にのみ使用され、更に別の実施例に
おいては、単一の文字のタイプの文字のみを有する可能
性の組を持った未知の文字をこの目的の為に使用する。 第3図はこのサブラインをチェック即ち検査する操作
を示している。「The KINGS」という分節が読み取られ
ると仮定し、ここで、「KINGS」の単語は「The」よりも
小さなポイントの寸法であるとする。第3図に示した如
く、サブライン情報(アセンダーサブライン、小文字サ
ブライン、ベースサブライン、ディセンダーサブライ
ン)の精度が各文字に対して順次チェックされる。第3
図において、チェックマークは、サブライン情報が正確
であることを示しており、「X」は、サブライン情報が
不正確であることを示しており、且つ疑問符は、その文
字に対してサブライン情報が正確か不正確かを決定する
ことが出来ないことを示している。第3図に示した如
く、大文字「T」及び小文字「h」は、それらの頂部及
び底部が、夫々、アセンダーサブライン及びベースサブ
ラインに十分に近接(1実施例においては、±2ピクセ
ル即ち画素)しているので、正確なサブライン情報を持
っているものと決定される。小文字「e」は、その頂部
が小文字サブラインに十分に近く、且つその底部がベー
スラインに十分に近いので、正確なサブライン情報を持
っているものと決定される。小さなポイント寸法の
「K」、「N」、「G」は、それらの頂部はアセンダー
サブラインに十分に近く無いので、不正確なサブライン
情報を持っているものと決定される。小さなポイント寸
法における「I」及び「S」は不明確な文字であって、
サブライン情報を設定することが不可能である。何故な
らば、例えば、大文字「S」及び小文字「s」は、異な
ったポイント寸法である場合には、同一であることがあ
るからである。同様に、大文字「I」は異なったポイン
ト寸法のドットの無い小文字「i」又はそれに類似した
文字と同一であることがある。重要なことであるが、文
字は高々2つのサブラインに対するサブライン情報を検
証することが可能であるが、与えられた文字に対しての
2つのサブラインの検証と共に、数学的演算を実行して
残存するサブラインが公差以内であるか否かを決定す
る。そうであると、全て4つのサブラインがその文字に
対して検証される。本発明の1実施例においては、サブ
ラインを検証する為に使用される数学的関係は、小文字
サブラインとベースサブラインとの間の距離はアセンダ
ーサブラインとベースサブラインとの間の距離の50乃至
85%の範囲内でなければならないというものである。同
様に、アセンダーサブラインからベースサブラインへの
距離は、小文字サブラインとディセンダーサブラインと
の間の距離、典型的には数個の画素内、と略等しいもの
でなければならない。 サブライン設定文字のサブライン固定 次のステップは、誤っていると分かっているサブライ
ン設定用文字のサブラインを固定することである。第3
図に示した例においては、誤っていると知られているサ
ブラインは、K、N、Gに関連したサブラインである。
従って、2つの新しいサブラインを、表1に示したこれ
らの文字に対して確立する、即ちこれらのK、N、Gの
文字の各々に対するアセンダーサブラインはその文字の
頂部に対応し、且つこれらの文字の各々に対するベース
サブラインはその文字の底部に対応する。各々の文字に
対する2つの残りのサブラインは以下の如くにして数学
的に確立される。 1頁のデータの読取中にヒストグラムが形成される。
これらは、「a」タイプ文字のヒストグラム及び「A」
タイプ文字のヒストグラムである。「a」タイプ文字ヒ
ストグラムが形成され、それはサブラインの情報が確認
されているか又は補正されている「a」タイプ文字に対
する小文字サブラインとベースサブラインとの間の各距
離「d」(第4図)の発生数を示している。 同様に、「A」タイプ文字ヒストグラムが形成され、
それは、アセンダー及びベースサブライン対(「A」タ
イプ文字に対して)又は小文字及びディセンダーサブラ
イン対(「q」タイプ文字に対して)の何れかの間の各
距離「h」(第4図)の発生数を示している。「A」タ
イプ文字ヒストグラム及び「a」タイプヒストグラムは
多数のピークを持つことが可能であり、例えば、各ピー
クは読み取られた頁上の異なったポイント寸法を表して
いる。これらのピークにおいて表されるサブライン間隔
は、「A」及び「a」タイプ文字における欠落するサブ
ライン間隔を設定するのに使用される。 文字が、既知の小文字サブライン及びベースサブライ
ンを持った「a」タイプ文字である場合、アセンダーサ
ブライン及びディセンダーサブラインは、以下の如く態
様によって、「A」タイプ文字ヒストグラムにおける適
宜のピークを選択することによって計算される。 適切なピークを選択する為に、「A」タイプヒストグ
ラムをh最小からh最大の範囲に渡って検査し、尚h最
小はd/0.70に等しく且つh最大はd/0.6に等しく、又d
は解析中の未知の「a」タイプ文字に対してのベースサ
ブラインと小文字サブラインとの間の距離に等しい。こ
の範囲内のヒストグラムピークの位置は、アセンダーサ
ブライン−ベースサブライン距離及び小文字サブライン
−アセンダーサブライン距離を確立する値「h」として
選択される。この範囲内にヒストグラムピークが無い場
合、h最小はd/0.85に設定され且つh最大はd/0.5に設
定され、且つ「A」タイプヒストグラムは再度検査され
る。この第2走査においてピークが発見されなかった場
合、hはd/0.67と等しく設定される。 サブラインが設定される文字が「A」タイプ文字であ
る場合、アセンダーサブライン及びベースサブラインが
既知であると、その小文字サブライン及びディセンダー
サブラインは、「a」タイプ文字ヒストグラムの使用し
て計算される。このことは、ここで使用される比はヒス
トグラムの最初の走査に対してはd最小=0.6hで、d最
大=0.7hであって、第2走査(最初の走査の間にピーク
が発見されなかった場合に使用される)に対してはd最
小=0.5hでありd最大=0.85hであり、且つデフォルト
(第1又は第2のパスの間にピークが発見されなかった
場合に使用される)に対してはd=0.67hである。その
様に選択されたdの値は、小文字サブライン−ベースサ
ブライン距離を設定する。小文字サブライン−ディセン
ダーサブライン距離はhに等しく設定される。 既知の小文字サブライン及びディセンダーサブライン
を持っている「q」タイプ文字は、それらのアセンダー
サブライン及びベースサブラインを、「A」タイプ文字
に対して使用されたヒストグラム及び走査限界を使用し
て、同様に決定される。 これらの比0.7,0.6,0.85,0.5、0.67が選択されてい
る。何故ならば、これらは小文字「a」と大文字「A」
の高さの間の市販されているタイプフォントの比におけ
る典型的な範囲だからである。当然、所望により、その
他の値を使用することも可能である。これらの比によっ
て計算される高さは最も近い画素数の整数に丸められ
る。 その他の文字のサブラインの固定 次いで、不定のサブライン(第3図の「I」及び
「S」のサブライン)を表2に示した如くに補正する。 表2において使用した如く、「間隙」は2つの隣接す
る文字間の空間を形成する画素数に等しいか、又は隣接
する文字の間で測定されるその他の任意の距離(例え
ば、これに限定するわけではないが、中心間距離)に等
しい。本発明の1実施例においては、サブラインが既知
の有効なサブラインを持った隣接の文字から伝播される
態様は、新しいベースサブラインを、古いベースサブラ
イン+頁のスキューに基づく調節と等しく、且つベース
サブラインと残りのサブラインとの間の距離を古い文字
と新しい文字の両方に対して等しく設定する。表2に示
される如く、サブラインが設定される文字を包含してい
る文書領域内に既知の有効なサブラインを持った文字が
1つ以上存在する場合、有効なサブラインを持った2つ
の文字の間の最大の間隙の同一の側上で、既知の有効な
サブラインを持った最も近い文字と関連したサブライン
を使用して、処理中の文字に対してサブラインを設定す
る。この様に、処理中の文字のポイント寸法に類似した
ポイント寸法をもつ蓋然性の最も高い文字を使用してサ
ブラインを確立する。 代替候補の配置 サブライン情報はこれで可及的に正確に与えられたの
で、作業バッファ内に格納されている幾つかの文字に対
して可能性の組内に代替候補を配置させる。寸法及び配
置の他に、他の文字と同一か又は略同一に見える多数の
文字が存在する。これらを表3に示してある。 表3 可能性の組 代替 1 I及びl c C j J m M o O及び0 p P s S u U v V w W x X y Y z Z , ’ − _ 表4 可能性の組 代替候補 / イタリックの1 イタリックのI イタリックの1 ! I,l,1 I ドット無しi 9 Я 「代替候補配置」操作の間、可能性の組が検査され、
且つ表3中のこれらの文字の1つが可能性の組内に包含
されていると、その1つ又はそれ以上の代替候補が、可
能性の組内の元の文字に割り当てられた確信度の値と共
に、可能性の組に付加される。このことは、可能性の組
の中に既に存在するかもしれない文字を二重とすること
の無い様に注意してなされる。 表3に示した文字に加えて、表4は、全く同一である
ことはまれであるけれども、光学的文字認識プロセスの
間のテキスト入力の光学的読取の間に屡々混乱を起すこ
とのある幾つかの文字を示している。サブライン情報は
表4における文字対のどの文字が実際に適切であるかを
付加的に提供するので、可能性の組内の文字が代替候補
列における文字に適したサブラインを持っている場合、
代替候補は可能性の組に付加される。重要なことである
が、第1図の文字選択手段の1形態において、表3にお
ける文字はそれらの第替候補に対して同一でなくとも非
常に類似して見えるので、文字選択手段は表3の左側の
列内に包含される文字を提供するのみである。然し乍
ら、文字選択手段は、それらが類似している為に、それ
らは誤りである場合があり1つを別のものと混乱する場
合もあるが、表4内に包含される文字の何れかを可能性
の組へ与えることが可能である。例えば、可能性の組が
「1」を有している場合、表3内に示されている代替候
補(「I」及び「1」)が可能性の組に付加される。然
し乍ら、サブライン情報も解析されて、表4内に包含さ
れる文字が可能性の組に付加されるべきであるか否かを
決定する。与えられた例において、可能性の組が「1」
を包含する場合、文字の底部がベースラインの上又は近
傍に位置しており、且つ文字の頂部が小文字サブライン
の上又は近傍に位置していると、「i」が可能性の組に
付加され、解析中の未知の文字は「ドットの無いi」で
あると仮定する。同様に、可能性の組が「9」を包含し
ており且つ文字の底部がディセンダーサブライン上又は
近傍に位置しており、且つ文字の頂部が小文字サブライ
ン上又は近傍に位置している場合には、「g」が可能性
の組に付加される。この様に、表4中の文字は、それら
が解析中の未知の文字である蓋然性がある場合にのみ可
能性の組に付加される。表3中の文字は、後の分解(re
solution)の為に可能性の組に常に付加される。 分解 作業バッファ内の各文字に対して、補正した現在のサ
ブラインデータに整合しないことを決定することが可能
であり、従って読取中の未知の文字である蓋然性のない
文字を可能性の組から出来れば除去する為に、その可能
性の組を分解させる。然し乍ら、この分解ステップの間
に、可能性の組内に元もと包含されていた全ての文字候
補が除去されると、この分解ステップは読み取られた未
知の文字の識別を援助することにはならず、従って可能
性の組の全ての要素は、所望により、その他の装置(不
図示)によって後の解析の為に可能性の組内に残存す
る。 可能性の組における各文字に対して、テーブルルック
アップ即ち表参照が行われて(表5に示した如く)、そ
の文字が有効な候補である場合、文字の頂部及び底部に
おいて又は近傍において夫々存在せねばならない許可さ
れた上部サブライン及び許可された下部サブラインを決
定する。例えば、可能性の組が「A」を包含しており、
且つ読み取った未知の文字に対応するデータが、その文
字の頂部はアセンダーサブライン又はその近傍にはなく
又はその文字の底部はベースサブライン又はその近傍に
ないことを表すものではない場合、未知の文字は「A」
であるはずかない。同様に、未知の文字の処理のこの段
階において屡々見受けられることであるが、可能性の組
が「C」と「c」の両方を包含していることがある。こ
れらの両方の文字のテーブルルックアップを行うことに
よって、サブライン情報に基づいて、これらの文字の少
なくとも1つは不可能であることが決定され、且つこの
様な文字は、従って、可能性の組から除去される(全て
の候補としての資格を失った文字が除去された後に少な
くとも1個の文字が可能性の組に残ることが条件であ
る)。この様に、サブライン情報に基づいて、可能性の
組が最大限減少されたことになる。 本発明の1実施例において、文字が構成されている分
離した部分の数は何れかの前の処理ステップで決定され
ている。この情報も、屡々サブライン情報と共に使用さ
れて、可能性の組から文字を排除する。例えば、文字が
「i」又は「l」の何れかであると考えられ且つ2つの
分離した部分から構成されていることが分かっている
と、「l」が除外され「i」が保持される。文字の頂部
がアセンダーサブラインに最も近く、且つ文字の底部が
ベースラインに最も近く、且つ文字が1つの部分を持つ
ものであると、「i」を除外し且つ「l」を保持する。
一方、文字の頂部が小文字サブラインに最も近いと、文
字は1つの部分からなる「ドット無し」iであると仮定
され、「l」を除外し「i」を保持する。 ポイント寸法設定 本発明の1実施例において、処理中の各文字を識別す
るデータへその文字のポイント寸法の表示を付与するプ
ロセスが実行される。多くの場合に、確認されたアセン
ダーサブライン及び確認されたベースサブラインが文書
領域内に位置されている。これはケースIと呼ぶ。そう
でない場合には、文書領域中に位置されているものは確
認された小文字サブラインとディセンダーサブラインで
ある蓋然性がある。(ケースII)。ケースIもケースII
も存在しない場合には、確認された小文字サブラインと
ベースサブラインとが存在する可能性がある(ケースII
I)。残りのケース(ケースIV)は、文書領域中に、何
れのタイプの確認されたサブラインが存在しない場合で
ある。ケースI乃至IVを表6に示してある。 表6 ケース 確認済みサブライン I アセンダー及びベース II 小文字及びディセンダー III 小文字及びベース IV なし ポイント寸法に関する限り、ケースI及びケースIIは
同一である。何故ならば、市販のタイプフォントにおい
ては、アセンダーサブラインとベースサブラインとの間
の距離h(第4図)は、小文字サブラインとディセンダ
ーサブラインとの間の距離に実質的に等しいからであ
る。この場合、この距離hを使用し、前述した如くに準
備されている「A」文字タイプ高さヒストグラムを使用
して、テーブルルックアップを行う。このルックアップ
は、サブライン間隔の或る所定の変化内のヒストグラム
ピークを見つけ出す為に行われる。換言すると、処理中
の未知の文字がアセンダーサブラインとベースサブライ
ンとの間に29画素のサブライン間隔hを持っていると、
テーブルルックアップは、例えば、27−31画素の範囲に
渡って行われ、且つこの領域内に位置されているヒスト
グラムピークは、ポイント寸法の計算に関する限り、こ
の処理中の文字に対してのサブライン間隔として使用さ
れる。 ケースIIIにおいて、「A」文字タイプ高さヒストグ
ラムは、小文字−ベースサブライン間隔であるd/0.6乃
至d/0.7の範囲に渡って最初にアクセスされ、且つ、次
いで、ピークが発見されると、「A」文字タイプ高さヒ
ストグラムは、ポイント寸法を決定する目的の為に、d/
0.5乃至d/0.85の範囲に渡ってアクセスされ、発見され
たヒストグラムピークは処理中のこの文字に対してのサ
ブライン間隔として使用される。何等ピークが発見され
ない場合、d/0.67に最も近い整数が処理中の文字に対し
てのサブライン間隔として使用される。 ケースIVにおいて、サブライン情報は確認されていな
いが、サブライン情報は処理中の各文字に対して存在す
る。全ての文字はそれと、アセンダーサブラインとベー
スサブライン、又は小文字サブラインとディセンダーサ
ブライン情報、又は両方と関連していたので、この情報
は、ケースI及びIIにおける如く、「A」文字タイプ高
さヒストグラムをアクセスする為に使用される。未知の
文字が、小文字及びディセンダーサブライン情報のみな
らず、アセンダー及びベースサブライン情報を包含して
いると、「A」文字タイプ高さヒストグラムにアクセス
する為にアセンダー及びベースサブライン情報を使用す
ることが望ましい。何故ならば、一般的に、小文字及び
ディセンダサブラインを確立する為に使用される文字の
数と比較して、かなり多数の文字を使用してアセンダー
及びベースサブラインを確立しており、その際にそれら
の精度を向上させている。 ケースI乃至IVのどれが発生するかに拘らず、「A」
文字タイプ高さヒストグラムを使用してテーブルルック
アップを一度行うと、その結果得られるサブライン間隔
は定数によって割られて、ポイント寸法を決定する。本
発明の1実施例においては、この定数は2.9に等しく、
それはポイント寸法が歴史的に表現されてきた独特の態
様に対応している。昔の場合には、ポイント寸法は、
「T」の頂部肩部(鉛のブロックの端部)の頂部と
「p」の底部肩部の底部との間の距離として定義されて
おり、0.996インチの72分の1で測定しており、0.996は
低温と高温鉛の尺度の比を表す定数である。従って、定
数2.9は、1画素が1/300インチに等しい場合にサブライ
ン間隔を画素数からポイント寸法へ最も正確に変換す
る。尚、1インチは2.54cmである。 本発明の1実施例においては、処理時間を節約する為
に、サブライン間隔からポイント寸法への変換は、浮動
小数点割り算操作ではなくテーブルルックアップによっ
て行われる。 本発明の1実施例においては、ポイント寸法における
変動を滑らかにし、未知の文字の読取中のノイズの影響
を最小とする為に、ヒステリシスが使用される。即ち、
ポイント寸法において変化を発生させる前に、逐次の文
字間のポイント寸法における許容可能な変化は所定数よ
りあも大きくなければならない。本発明の1実施例にお
いて、上述したケースI及びケースIIにおいて、それら
のサブライン情報は比較的正確であるから、上述した如
く決定されたポイント寸法は、ポイント寸法における変
化が有効であると考えられる為には、逐次の文字の間で
1つのポイント寸法を越えて変化せねばならない。ケー
スIII及びIVにおいて、サブライン情報はケースI及びI
Iにおける程正確ではないので、前のポイント寸法の値
の1/4に等しいポイント寸法変化が、新しいポイント寸
法が有効であると考えられる前に発生せねばならない。
その他のポイント寸法平滑化基準を使用可能であること
は勿論である。 データ出力 第2図に示した最終ステップとして、新たに計算され
たサブラインとポイント寸法と変更された可能性の組と
共に、作業バッファ内に包含されるデータは、必要に応
じ、その後に処理の為に付加的な回路(不図示)へ出力
される。次いで、第2図に示した如く、処理の為に更に
データが与えられると、それは入力バッファ内にロード
される。入力バッファ内のデータは領域によって格納さ
れ且つ前述した如く処理される。採取すべきデータが無
い場合には、入力バッファ内のデータが前述した如く領
域毎に処理される。 以上、本発明の具体的実施の態様に付いて詳細に説明
したが、本発明はこれら具体例にのみ限定されるべきも
のでは無く、本発明の技術的範囲を逸脱すること無しに
種々の変形が可能であることは勿論である。
【図面の簡単な説明】 第1図は従来の光学的文字認識方式のブロック線図、第
2図は本発明の1実施例の動作を示したフローチャート
図、第3図は本発明に基づく光学的文字認識方式によっ
て読み取られたテキストのサンプルを示した説明図、第
4図は本発明に基づいて使用されるアセンダーサブライ
ン、小文字サブライン、ベースサブライン、ディセンダ
ーサブラインとの間の関係を示した説明図、である。 (符号の説明) 11:入力パターン 12:デジタイザ 13:システムメモリ 14:セグメンテーション 16:識別手段 17:出力手段
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 昭55−112687(JP,A) 特開 昭59−109979(JP,A) 特開 昭59−109980(JP,A)

Claims (1)

  1. (57)【特許請求の範囲】 1.複数個の未知の文字の画素データ及びアセンダーサ
    ブラインと、小文字サブラインと、ベースサブライン
    と、ディセンダーサブラインとを含むサブライン情報か
    らなる文字情報を解析して前記複数個の未知の文字の各
    々に対し前記サブライン情報の内の二つの特定のサブラ
    インによって定義される2つ又はそれ以上の文字タイプ
    のいずれか一つを決定する文字タイプ決定方法におい
    て、 各々が1個の文字を表しており且つ前記サブライン情報
    を有している複数個を文字情報を得、 前記複数個の文字情報の内の選択した一つの文字情報の
    サブライン情報が前記複数個の文字情報の別の文字情報
    のサブライン情報との比較に基づいて正確であるか否か
    を決定し、 不正確である場合には、隣接する文字に対応する文字情
    報のサブライン情報を変更すること無しに、前記選択し
    た一つの文字情報のサブライン情報を再設定することに
    よって前記選択した一つの文字情報に対して正確なサブ
    ライン情報を与え、 前記正確なサブライン情報を使用して前記選択した一つ
    の文字情報の文字の文字タイプを決定する、 上記各ステップを有することを特徴とする文字タイプ決
    定方法。 2.特許請求の範囲第1項において、前記サブライン情
    報を再設定するステップが、文字の高さ及び文字タイプ
    に関する情報を使用して実施することを特徴とする文字
    タイプ決定方法。 3.特許請求の範囲第2項において、文字タイプは、 (1)文字の最も上側の画素がアセンダーサブラインに
    対応し且つ文字の最も下側の画素がベースサブラインに
    対応する「A」タイプ文字と、 (2)文字の最も上側の画素が小文字サブラインに対応
    し且つ文字の最も下側の画素がベースサブラインに対応
    する「a」タイプ文字と、 (3)文字の最も上側の画素が小文字サブラインに対応
    し且つ文字の最も下側の画素がディセンダーサブライン
    に対応する「q」タイプ文字と、 からなる文字タイプのグループから選択されるものであ
    ることを特徴とする文字タイプ決定方法。
JP61231347A 1985-10-01 1986-10-01 文字タイプ決定方法 Expired - Fee Related JP2697790B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US78274285A 1985-10-01 1985-10-01
US782742 1985-10-01

Publications (2)

Publication Number Publication Date
JPS62187988A JPS62187988A (ja) 1987-08-17
JP2697790B2 true JP2697790B2 (ja) 1998-01-14

Family

ID=25127033

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61231347A Expired - Fee Related JP2697790B2 (ja) 1985-10-01 1986-10-01 文字タイプ決定方法

Country Status (1)

Country Link
JP (1) JP2697790B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2788506B2 (ja) * 1989-10-11 1998-08-20 沖電気工業株式会社 文字認識装置
JP2918363B2 (ja) * 1991-09-17 1999-07-12 沖電気工業株式会社 文字分類方法及び文字認識装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS55112687A (en) * 1979-02-22 1980-08-30 Nec Corp Character recognition system
JPS59109979A (ja) * 1982-12-15 1984-06-25 Ricoh Co Ltd 文字分類処理方式

Also Published As

Publication number Publication date
JPS62187988A (ja) 1987-08-17

Similar Documents

Publication Publication Date Title
KR100339446B1 (ko) 주소 인식 장치 및 주소 인식 방법
US5664027A (en) Methods and apparatus for inferring orientation of lines of text
JP3427692B2 (ja) 文字認識方法および文字認識装置
JP3139521B2 (ja) 自動言語決定装置
US5119437A (en) Tabular document reader service
JP3452774B2 (ja) 文字認識方法
US5046114A (en) Method and structure for separating joined patterns for use in pattern and character recognition system
KR100582039B1 (ko) 문자 인식 장치
US6549662B1 (en) Method of recognizing characters
JP2697790B2 (ja) 文字タイプ決定方法
Spitz Generalized line, word and character finding
JPH0333990A (ja) マスク処理を用いる光学式文字認識装置及び方法
JP2917427B2 (ja) 図面読取装置
EP1010128B1 (en) Method for performing character recognition on a pixel matrix
JP2788506B2 (ja) 文字認識装置
JP3128357B2 (ja) 文字認識処理装置
JPH07319880A (ja) キーワード抽出・検索装置
JP2993533B2 (ja) 情報処理装置及び文字認識装置
JP2582611B2 (ja) マルチフオント辞書の作成法
JP2918363B2 (ja) 文字分類方法及び文字認識装置
JP2963474B2 (ja) 類似文字識別方法
JP2977244B2 (ja) 文字認識方法及び文字認識装置
JPH01201789A (ja) 文字読取装置
JPS63136286A (ja) オンライン文字認識方式
JP2931485B2 (ja) 文字切出し装置及び方法

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees