JP2570703B2 - 文字読取装置 - Google Patents

文字読取装置

Info

Publication number
JP2570703B2
JP2570703B2 JP61235940A JP23594086A JP2570703B2 JP 2570703 B2 JP2570703 B2 JP 2570703B2 JP 61235940 A JP61235940 A JP 61235940A JP 23594086 A JP23594086 A JP 23594086A JP 2570703 B2 JP2570703 B2 JP 2570703B2
Authority
JP
Japan
Prior art keywords
character
block
sub
blocks
line
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP61235940A
Other languages
English (en)
Other versions
JPS6389990A (ja
Inventor
善丈 辻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
Nippon Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Electric Co Ltd filed Critical Nippon Electric Co Ltd
Priority to JP61235940A priority Critical patent/JP2570703B2/ja
Publication of JPS6389990A publication Critical patent/JPS6389990A/ja
Application granted granted Critical
Publication of JP2570703B2 publication Critical patent/JP2570703B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は、記載書式の制限のない文字行を読み取る光
学的文字読取装置等の文字読取方式に関し、特に郵便物
上に記載されている住所等の特定分野において、記載書
式の制限のない文字行から個々の文字を識別するのに適
した文字読取方式に係わる。
(従来技術とその問題点) 従来、印字あるいは手書き文字を光学的に読取る装置
(以下、OCRと呼ぶ)において、英数字及びカタカナを
対象とするものはすでに実用化されており、最近では手
書き漢字を読み取ることも実用化されつつある。このよ
うなOCRを用いて文字を読み取る場合、例えば、電子通
信学会論文誌(D),J68−D,No.8.p1497−1504(1985年
8月)に示されているように、文字行から個々の文字を
取り出した後、例えば、電子通信学会論文誌(D),J65
−D.No.9p1167〜1174(1982年9月)に示されているよ
うな手書き漢字認識などの技術を用いて、個々の文字を
所定のカテゴリに識別できる。しかしながら、従来技術
では、1つの文字行内に、例えば、縦書きと横書きなど
が混在しないという仮定を設けて行われる。ところが、
郵便物の宛て名などのように、縦書きの宛て名住所に対
して丁目や番地などが省略形を用いた横書きで記載され
ることがあり、このような場合には従来技術では読み取
りが困難となる。この場合、省略形で記載された丁目や
番地は、県名、市名に用いられる漢字などとは異なり、
アラビア数字や特殊記号などが用いられる。そこで、省
略形により記載文字ブロツク候補をアラビア数字等を仮
定して再分割し、再度、字種を限定して文字読み取りを
行えば良いが、処理高速及び文字読取精度の観点から再
分割し、文字読み取りを行うべき文字ブロックを選択す
ることが必要となる。
本発明の目的は、上記従来の問題点を解決すべく、例
えば、省略形記載による丁目や番地のように、行方向と
異なる向きに書かれた文字ブロック候補などをその文字
ブロツクの形状と文字行内の相対位置により選択し、所
定の文字種を有する標準パタンと照合することによつ
て、効率的にしかも精度良く文字読み取りが行えるよう
にした文字読取装置を提供することにある。
(問題点を解決するための手段) 前述の問題点を解決するために本発明が提供する文字
読取装置は:文字行を予め測定又は設定された文字サイ
ズに従って複数個の文字ブロックに分割する文字分離手
段と; 予め複数の字種毎に分類された標準パタンを記憶した
認識辞書と; 認識辞書から予め設定された字種に分類された複数個
の標準パタンを取り出し、複数個の文字ブロックと照合
して所定の文字カテゴリに識別する文字ブロック照合手
段と; 前記文字行の後半部に位置する複数個文字ブロックの
うち、前記文字行と異なる方向に2つ以上の文字サブブ
ロックに分割できる文字ブロックを検出して、分割した
複数個の文字サブブロックを記憶する手段と: 文字サブブロックに対して前記認識辞書から特定の字
種として記憶された複数個の標準パタンを選択し、前記
複数個の文字サブブロックと順次照合して所定の文字カ
テゴリに識別する文字サブブロック照合手段とを具備す
ることを特徴とするものである。
(作 用) 本発明において、行方向と異なる向きに書かれた文字
ブロツクが存在しても、その文字ブロツクの形状と文字
行内の相対位置により選択し、所定の文字種を有する標
準パタンと照合することによつて、効率的で精度の良い
文字読取処理が可能となる。
(実施例) 以下、本発明における具体的実施例について図面を参
照しつつ説明する。図1は縦書きと横書きが混在する郵
便物上の住所の一例を示し、本発明の原理を説明するた
めのものである。
図において、斜線で示した文字は、住所の一部を示し
ており、図中点線で示す文字ブロックは、公知の文字分
離装置を用いて得ることができる。また、図1(a)及
び図1(b)は、縦書きの文字行の例であり、図1
(c)及び図1(d)は、横書きの文字行の例である。
図1(a)に示した文字行は、文字分離装置により個々
の文字ブロツクに切り出され、予め用意された認識辞書
と照合して、図1(a)に示すような、所定の文字カテ
ゴリ(図中川、崎、谷、?。但し、?は文字読取不能を
表わす)に識別される。尚、文字分離装置は、公知の技
術であり、投影分布や黒画素の輪郭追跡等により実現さ
れるものでも良い。ここで、文字分離装置において、例
えば、文字ブロック“川”の要素数(即ち、上記公知技
術によって、文字ブロックを背景の白地と分離される文
字部の塊として検出できる文字サブブロックの数)が3
個あるという情報は容易に抽出できる。
次に、前述した文字分離装置により抽出された個々の
文字ブロツクの形状及び各文字ブロツクの相対位置情報
に従つてその文字ブロツクを再分割するか否かを決め
る。具体的には、文字ブロツクの形状として、文字ブロ
ツク内に含まれる要素数を用いる。また、各文字ブロッ
クの相対位置情報として、郵便物上の住所名の場合に
は、省略表現は市名や区名以降に用いることが多いた
め、“文字行の後半部に存在する”という条件が適用で
きる。
以上述べた文字ブロックの形状(即ち、文字ブロック
内の要素数)及び文字ブロックの相対位置情報(即ち、
文字行の後半部)を用いることによって、図1(a)で
示した丁目番地名“3",“−",“1",“−",“1"の各文字
サブブロックが検出でき、各文字サブブロックを切り出
して数字と記号のみを対象にした文字読取が実現でき
る。
更に、上に記した各文字ブロックの形状及び相対位置
情報は、図1(c)で示す横書き住所の例の場合にも同
様に適用でき、丁目名である数字“1"、“2"の各文字サ
ブブロックを求めることができる。
尚、本発明では、文字、ブロツクの形状や相対位置情
報として、更に、例えば、文字ブロツクの縦横比や文字
ブロツクの相対番号などのようなものを追加して用いる
こともできる。
そこで、上述した文字ブロツクの形状及び相対位置情
報を用いると、対象となる文字ブロツクは、図1(a)
で示す一例では、文字ブロツク“3−1−1"のみが選択
され、図1(b)で示すように5つの文字サブブロツク
に再分割される。更に、所定の文字種として、10個の数
字と特殊記号を文字カテゴリとする複数個の標準パタン
が、認識辞書から取り出され、照合されると、例えば、
図1(b)の下方に示すような文字カテゴリ列“3−1
−1"が得られる。
また、図1(c)の横書きの住所例の場合には、文字
ブロツク“12"が再分割の対象となり、同様にして、2
つの文字サブブロツク“1",“2"に対して文字カテゴリ
列“12"が得られる。
尚、図1(c)及び図1(d)でしたように、文字ブ
ロツク“12"に対して、所定の文字カテゴリ“ロ”が得
られ、その2つの文字サブブロツク“1",“2"に対し
て、所定の文字カテゴリ“1",“2"が得られる。図1
(c)の横書きの住所のように、文字ブロック又は文字
サブブロック群が文字行に対して同一方向の並びを持
ち、どちらを選択するかの判断がつかない場合には、住
所情報を記憶した単語辞書を用いた単語認識によって識
別することができる。例えば、図1(c)及び(d)に
おいて、川崎が市名として認識されると、市名に続く丁
名として□が選択されずに、12即ち12丁名が選択される
ことになる。このような単語認識は、本発明の対象であ
る文字読取装置の結果に対して適用されるものであり、
公知の技術によって実現できる。
図2は、本発明の一実施例を示す論理ブロツク図であ
る。図において、1は行イメージ記憶部であり、文字行
イメージを記憶する。2は、文字分離部であり、行イメ
ージ記憶部1に格納された文字行イメージを個々の文字
ブロツクに切り出し、順次、文字ブロツク記憶部3に格
納する。尚、文字分離部2では、図1で示したように、
各文字ブロツクの形状及び相対位置情報も同時に抽出さ
れ、文字ブロツク記憶部3に格納されているとする。文
字ブロツク照合部4において、文字ブロツク記憶部3に
格納された文字ブロツクが順次取り出されると、認識辞
書記憶部8に格納された複数個の標準パタンが字種選択
部9を介して順次転送され、前述の文字ブロツクと照合
して、所定の文字カテゴリを文字ブロツク照合結果記憶
部5に格納する。尚、字種選択部9では、文字ブロツク
記憶部3に格納された文字ブロツクが文字ブロツク照合
部4に入力された場合、すべての字種が選択されるもの
とする。
次に、文字ブロツク記憶部3に格納された各文字ブロ
ツクの形状及び相対位置情報が文字ブロツク判定部10に
転送されると、文字ブロツク判定部では、予め与えられ
た文字ブロツクの形状及び相対位置情報に関する閾値と
比較し、各文字ブロツクを複数個の文字サブブロツクに
再分割するか否かを判定する。入力された文字ブロツク
が文字ブロツク判定部10において再分割可能であると判
定されると、文字ブロツク分割部11により文字ブロツク
が再分割され、文字ブロツク記憶部12に順次格納され
る。
文字サブブロツク記憶部12に再分割可能な文字ブロツ
クに対応する複数個の文字サブブロツクが格納される
と、順次、文字サブブロツク照合部6に転送される。文
字サブブロツク照合部6に、文字サブブロツクが転送さ
れると、字種選択部9では、所定の字種(例えば数字と
特殊記号)を有する複数個の標準パタンを認識辞書記憶
部8より選択し、文字サブブロツク照合部6に順次転送
し、文字サブブロツクと照合することによつて、所定の
文字カテゴリが得られ、文字サブブロツク照合結果記録
部7に格納される。
尚、文字サブブロツク照合部6として、文字サブブロ
ツク照合部4を併用して用いても良い。
以上の動作により文字ブロツク照合結果記憶部5及び
文字サブブロツク照合結果記憶部6が、例えば、従来の
単語認識装置などに転送され、所定の単語(住所など)
に識別される。
(発明の効果) 以上、説明したように、本発明によれば、縦書き、横
書きの混在する等の記載書式制限のない文字行であつて
も、処理速度を低下させることなく、しかも精度良く文
字読取りを可能とする文字読取方式を容易に提供するこ
とが可能となる。
【図面の簡単な説明】
図1は、郵便物上の住所の一例を用いて本発明の原理を
示す図である。図2は、本発明の一実施例を示す論理ブ
ロツク図である。 図において、1は行イメージ記憶部、2は文字分離部、
3は文字ブロツク記憶部、4は文字ブロツク照合部、5
は文字ブロツク照合結果記憶部、6は文字サブブロツク
照合部、7は文字サブブロツク照合結果記憶部、8は認
識辞書記憶部、9は字種選択部、10は文字ブロツク判定
部、11は文字ブロツク分割部、12は文字サブブロツク記
憶部である。

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】紙面上に記載された文字を読取る文字読取
    装置において、文字行を予め測定又は設定された文字サ
    イズに従って複数個の文字ブロックに分割する文字分離
    手段と;予め複数の字種毎に分類された複数個の標準パ
    タンを記憶する認識辞書と;前記認識辞書から予め設定
    された字種に分類された複数個の標準パタンを取り出
    し、前記複数個の文字ブロックと照合して所定の文字カ
    テゴリに識別する文字ブロック照合手段と;前記文字行
    の後半部に位置する複数個の文字ブロックのうち、前記
    文字行と異なる方向に2つ以上の文字サブブロックに分
    割できる文字ブロックを検出し分割した複数個の文字サ
    ブブロックを記憶する手段と;前記文字サブブロックに
    対して前記認識辞書から特定の字種として記憶された複
    数個の標準パタンを選択し、前記複数個の文字ザブブロ
    ックと順次照合して所定の文字カテゴリに識別する文字
    サブブロック照合手段 とを具備することを特徴とする文字読取装置。
JP61235940A 1986-10-03 1986-10-03 文字読取装置 Expired - Lifetime JP2570703B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP61235940A JP2570703B2 (ja) 1986-10-03 1986-10-03 文字読取装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61235940A JP2570703B2 (ja) 1986-10-03 1986-10-03 文字読取装置

Publications (2)

Publication Number Publication Date
JPS6389990A JPS6389990A (ja) 1988-04-20
JP2570703B2 true JP2570703B2 (ja) 1997-01-16

Family

ID=16993477

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61235940A Expired - Lifetime JP2570703B2 (ja) 1986-10-03 1986-10-03 文字読取装置

Country Status (1)

Country Link
JP (1) JP2570703B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3088038B2 (ja) * 1991-12-26 2000-09-18 株式会社東芝 郵便物区分装置と郵便物区分方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60153574A (ja) * 1984-01-23 1985-08-13 Nippon Telegr & Teleph Corp <Ntt> 文字読取方法
JPS60153575A (ja) * 1984-01-23 1985-08-13 Nippon Telegr & Teleph Corp <Ntt> 文字読取方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60153574A (ja) * 1984-01-23 1985-08-13 Nippon Telegr & Teleph Corp <Ntt> 文字読取方法
JPS60153575A (ja) * 1984-01-23 1985-08-13 Nippon Telegr & Teleph Corp <Ntt> 文字読取方法

Also Published As

Publication number Publication date
JPS6389990A (ja) 1988-04-20

Similar Documents

Publication Publication Date Title
US6778703B1 (en) Form recognition using reference areas
US7106904B2 (en) Form identification method
CN110458014A (zh) 答题卡识读方法、装置和计算机可读存储介质
US6549662B1 (en) Method of recognizing characters
JP2570703B2 (ja) 文字読取装置
JPH0430070B2 (ja)
JPH04502526A (ja) 像認識
JPH06124366A (ja) 住所読取装置
JP3090070B2 (ja) 帳票識別方法及び装置
JPH1078997A (ja) 文字認識装置及びその方法並びにその方法を記録した記録媒体
JP3292595B2 (ja) 文字認識装置
JP3151866B2 (ja) 英文字認識方法
JPH0433082A (ja) 文書認識装置
JPH0646421B2 (ja) 文字読取方式
JPH0567189A (ja) 帳票書式定義方法および装置
JP2000210624A (ja) 郵便宛名認識装置
JPH07116606A (ja) 郵便物あて名認識装置及びあて名認識方法
JPH0762860B2 (ja) 文字分離装置
JPH01209586A (ja) 倍角文字・半角文字混在文章の文字認識方式
JPH09190507A (ja) 住所読取装置
JPS58105385A (ja) 文字読取り認識装置
JPH05282487A (ja) 文字認識装置
JPH1196290A (ja) 帳票識別装置、帳票識別方法および帳票識別プログラムを記録した媒体
JPH10124610A (ja) 光学式文字読取装置
JPS58222381A (ja) 文字切出し方式

Legal Events

Date Code Title Description
EXPY Cancellation because of completion of term