JPS60153575A - 文字読取方法 - Google Patents

文字読取方法

Info

Publication number
JPS60153575A
JPS60153575A JP59009832A JP983284A JPS60153575A JP S60153575 A JPS60153575 A JP S60153575A JP 59009832 A JP59009832 A JP 59009832A JP 983284 A JP983284 A JP 983284A JP S60153575 A JPS60153575 A JP S60153575A
Authority
JP
Japan
Prior art keywords
character
pattern
turn
data
identification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP59009832A
Other languages
English (en)
Other versions
JPH0614373B2 (ja
Inventor
Sueji Miyahara
末治 宮原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP59009832A priority Critical patent/JPH0614373B2/ja
Publication of JPS60153575A publication Critical patent/JPS60153575A/ja
Publication of JPH0614373B2 publication Critical patent/JPH0614373B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (技術分野) 本発明は文字ピッチが一定でない文書、全角や半角など
の文字が混在した文書などを高精度でかつ高速に読取る
ことができる文字読取方式%式% ) 本発明者は先に、帳票上の文章を走査光電変換し得られ
た文字行の・ξターンから一文字ずつ切出して文字認識
を行なう文字読取方式において1文字行上の予め定めら
れた一定区間内に存在する点列の塊の個数を調べ、−個
の場合はその区間を一文字のパターンとみなして切出し
、複数個の場合は該点列の塊を順次適宜に組合わせた複
数の組合わせノミターンをそれぞれ一文字の/ぞターン
とみなして切出し、該切出したパターンとその切出しに
関する情報を出力する切出し工程と、該切出した・ξタ
ーンの識別結果とその切出しに関する情報とより一文字
の・ξターンとみなされている場合はその識別結果をそ
のまま出力し、複数個のパターンとみなされている場合
はその複数の組合わせパターンの各々の識別結果の中か
ら最もノミターフ幅の長い組合わせノミターンに対応す
る識別結果を出力する文字決定工程とを有する文字読取
方式を発明した。この発明は、本出願人によって特許出
願(特願昭57−222489号)中である。こめ先願
発明(1文字ピッチが一定でない文書、全角や半角など
の文字が混在した文書などを精度よく、かつ高速に読取
ることができる利点を有するものの、一定区間内で複数
個の組合せ)ξターンが識別できたとき、識別結果に優
先度を付けずに、最良一致のものを読取結果として出力
していたので、目的とする文字読取結集が得られない場
合も生ずるおそれがあった。
(発明の目的) 本発明の目的は前述の問題点に鑑み、文字ピッチが一定
でない文書、全角や半角などの文字が混在しない文書な
どを、より一層高精度でかつ高速に読取ることができる
文字読取方式を提供することにある。
(発明の構成) 本発明に前述の目的を達成するため、帳票上の文字を走
査光電変換して得られた白黒2値の文字行パターンから
一文字ずつ切出して文字認識を行なう文字読取方式にお
いて、文字行上の予め定められた一定区間内に存在する
点列の塊の飼数を調べ、−個の場合はその区間を一文字
のノミターンとしてみなして切出し、−1固も存在しな
い場合はスペースとみなして切出し、複数個の場合は該
点列の塊の各々を順次パターン順に組合せた複数の組合
せノミターンをそれぞれ一文字のノミターンとみなして
切出し、該切出しノミターンとその切出しに関する情報
とを出力する文字切出し工程と、該切出しタノξターン
の識別結果とその切出しに関する情報とにより一文字の
ノミターンとみなされている場合はその結果をそのまま
出力し、複数個のノミターンとみなされている場合はそ
の組合せノミターンの各々の識別結果を互いに比較シ゛
、最も確度の高い文字・々ターンあるいは組合せ・ξタ
ーンに対応する識別結果を出力する文字決定工程とを有
することを特徴とする。
(実施例) 図面は本発明の実施例を示すものであって、図中11は
入力端子、12はノミターンメモリ、13は文字切出し
部、14は特徴抽出部、15は識別部、16は識別辞書
部、17は文字決定部、18は出力端子である。
前述の構成における各部の動作を以下に説明する。まず
、帳票上の文字を光電変換装置(図示せず〕により白黒
2値のノミターンデータに変換し、これを入力端子11
を介してノミターンメモリ12に一旦蓄える。文字切出
し部13は眩ノξターンメモリ12より第2図に示すよ
うな一行分の文字を含む行パターン20を切出し、次に
、注目点を行方向(図中、矢印X方向〕に移動しつつ、
列方向(図中矢印Y方向)の走査を行い、パターンが存
在する部分を黒画素の個数で表わし、存在しない部分を
0として光示したデータ(以下、これを点列データと称
す)30を取シ出す。更に、該文字切出し部13は点列
データ30に基づいて文字切出し処理を実行し。
行パターン20より、組合せパターン(点列の塊が存在
しないスペースや1個あるいは複数の塊から成る文字)
ξターン)21を切出し、文字切出しに関する情報(行
・ξターン20における文字切出し位置、一定区間α内
の点列の塊数N1黒列の塊を検出するための動作を伺回
繰9返したかを弄す動作番号DNO,一定区間α定区間
列内塊を組合せて作成した。aターン番号P N O)
と識別用の文字ノミターンとを一対のデータとして特徴
抽出部14に順次送出する。
特徴抽出部14では送られた文字ノミターンから文字の
特徴を抽出し、そのデータと文字切出しに関する情報と
を識別部15に送出する。識刷部15では識別辞書部1
6との照合をとシ識別用の文字・ぞターンを順次文字識
別し、その識別結果(たとえば、文字コードと類似度な
ど)と文字切出しに関する情報とを一対のデータとして
文字決定部17に順次送出する。文字決定部17は送ら
れてきた該データに後述する処理を施して文字読取結果
として出力端子18に出力する。
文字切出し部13における組合せノミターフ21を作成
する文字切出しの処理は、第3図に示すようになってい
る。第3図ば行Aターフ′20において、一定区間α内
に点列の塊が1個も存在しない場合や、1個存在する場
合あるいは複数個存在する場合を示したものであるがこ
の場合の文字切出しの処理は前記特願昭57−2224
89号に詳述されているのでここでは言及しない。
識別部15′における処理は、特徴抽出部14で抽出さ
れた文字・ξターンの特徴と識別辞書部16に用意され
た文字特徴とを照合し、類似度の大きいものを選択して
識別結果とし、文字切出しに関する情報とともに、文字
コード、類似度などを文字決定部17へ送出するもので
ある。
このとき文字決定部17では識別部15から送られてき
た文字切出しに関する情報と識別結果から第4図に示す
文字決定の処理を行う。
第4図では識別部15から送られて来た文字切出しに関
する情報から、識別結果が個別ノミターンなのか組合せ
iRパターンのか強制分離ノミターンなのかを判定し、
Ila別・ξターンであれば識別結果をそのまま出力し
、組合せパターンであれば、識別結果を一次的にバッフ
ァメモリに格納して、連続する組合せ・ぞターンの最終
識別結果が送られて来た時点で選択処理を行ない、バッ
ファメモリの中から確度の高いものを選択して読取結果
どして出力する。また強制分離パターンであれば、この
場合も識別結果を一次的にバッファメモリに格納して強
制分離ノミターンが途切れた時点でバッファメモリの中
から確度の高い識別結果が得られる文字切出し方法を採
用して、その方法で得られた識別結果を読取結果として
出力する。
次に第2図の行ノξターン20を例にとって文字切出し
の工程と文字決定の過程について説明する。文字決定部
17における選択処理は識別結果の類似度や優先度(ラ
ンク)を用いる方法などが考えられるが、ここでは類似
度を用いて説明する。行ノ々ターン20のノにターン「
ぺ」。
[りJ、rトJについてはその点列データ30中の一定
区間α内における点列の株数が一個であることから、そ
れぞれ−文字の個別・(ターン21として切出され、そ
の識別結果が読取結果としてそのまま出力端子18に送
出される。次ツバターン「ル」を含む一定区間α(ここ
では対象区間のと称す。)には点列の塊が2個存在する
ため、文字切出し部13に該2silのノミターンを順
次組合せた貼別ノξターン「ノ」及び「ル」とその切出
しに関する情報を特徴抽出部14に送出するとともに該
対象区間のにおける点列の塊のうち先頭の塊「ノ」を除
いた位置を次の対象区間■の基準位置として設定する。
ここでは該対象区間■においても2sの点列の塊が検出
され、上記同様に組合せパターンとその切出しに関する
情報が送出され、以下対象区間■、■においても同様と
なる。識別部15では第5図に示すように対象区間■の
・ξターン「ノ」に対して「ノ」の文字コードと類似度
とを識別結果として出力し、・ξターン「ル」に対して
「ル」の文字コードと類似度とを送出する。対象区間■
の・ξターン「し」に対して「し」の文字コードと類似
度とを識別結果として出力し、・ξターン「し3」に対
して識別できないというリジェクトコードを出力する。
以下対象区間■■においても同様となる。文字決定部1
7ではこの区間が組合せツクターンの区間であることを
検知し、識別結果の中から最も確度の高いものを選択す
る選択処理を行なう。ここでの選択処理は対象区間のを
例にとると文字/ξターン「ル」とそれを構成する文字
・ぞターン「ノ」「し」の識別結果および「し」を文字
パターンの一部に含む対象区間■の文字パターン「し3
」の識別結果とを比較し、確度の高い識別結果を採用す
る。すなわち識別結果「ノ」および「ル」の類似度と識
別結果rノ」、「し」の類似度の平均値、あるいは識別
結果rノu、F(リジェクト)jとの類似度の平均値と
を比較し、類似度の太きいものを採用する。この処理で
は、文字ノミターンの幅によって類似度に重み伺けを行
なって比較することも読取対象によっては適することが
ある。
このようにして対象区間■では「ル」を読取結果として
出力し、同時に・Qターン「し」を含む対象区間■の識
別結果を排除し、対象区間■の識別結果から次の文字決
定の処理を行なう。対象区間■からは個々の文字・ξタ
ーン「3」。
「31」の識別結果が「3」「引」となり上記と同様に
互いの識別結果の類似度を比較し、「3」が読取結果と
して選択され出力される。
次の対象区間■、■については、パターン「1」「を」
が個別・ξターンとみなされ一文字として読取られる。
第5図に上記説明した第2図の行ノξターン20の文字
切出し、識別、文字決定の各処理のようすを示すもので
、また第6図にその処理の流れを示したものである。こ
のように上記実施例によれば、一定区間α内の点列の株
数に基づいて一文字の・ξターンか、そうでないかを区
別するようになしたため、−文字として一切出す区間と
、複数の組合せ・ξターンを構成すべき区間とを確実に
区別することができ、また複数個の点列の塊が一定区間
α内に存在した場合は先頭の塊を除いた位置を次の区間
の基準位置となし7’nUめ、考え得る全ての組合せノ
ミターンを取り出すことができ読取精度を上げることが
できる。f、た文字切出し部13では点列の株数に従っ
て機械的にパターンを切出すのみでよいから、装置を構
成する際に処理をノミイブライ ン構成とすることもで
き処理の高速化かにかれる。
(発明の効果) 以上説明したように本発明によれば、帳票上の文書を走
査光電変換して得られた文字行の・ξターンから一文字
ずつ切出して文字認識を行なう文字読取方式において、
文字行上の予め定められた一定区間内に存在する点列の
塊の個数を調べ、−個の場合はその区間を1文字のノミ
ターンとみなして切出し、−個も存在しない場合はスペ
ースとみなして切出し、複数個の場合は該点列の塊の各
々を順次パターン順に組合せた複数個の組合せノミター
ンをそれぞれ一文字のノミターンとみなして切出し、該
切出しfc /’ターンとその切出しに関する情報とを
出力する文字切出し工程と、該切出した・ξターンの識
別結果とその切出しに関する情報とより、−文字とみな
されている場合はその識別結果を読取結果としてそのま
捷出力し、複数個のノミターンとみなされている場合に
はその複数個の組合せノミターンの各々の識別結果を互
いに比較し、最も確度の高い文字ノミターンあるいは組
合せ・ξターンX対応する読取結果を出力する文字決定
工程とを有するため、分離文字や半角文字、文字線切れ
の生じた文字などが混在する、文字ピッチが一定でない
文書からの文字切出しを複雑な処理を必要とすることな
く一義的な処理で行うことができ処理の高速化かにかれ
る。また、複数個の点列の塊が一定区間内に存在する場
合に連続する点列の塊を順次−個ずつ増して組合せタノ
ξターンをそれぞれ一文字のノミターンとみなして切出
すとともに該複数個の点列の塊のうち先頭の塊を除いた
位置を次の一定区間の基準位置とみなして文字切出しを
行う如く、考え得る全ての組合せノミターンを取出すこ
とができ、また文字決定においては一定区間内に点列の
塊を保有する全ての組合せノミターンの識別結果の中か
ら最も確度の高いものを読取結果として出力できるため
、文字の読取精度を、より一層向上させることができる
【図面の簡単な説明】
図面は本発明の説明に供するもので、第1図は本発明方
式を適用した文字読取装置の一実施例を示すブロック図
、第2図は行ノqターンおよびその点列データの一例を
示す説明図、第3図は文字切出し部13のフローチャー
ト、第4図は文字決定部15のフローチャート、第5図
は行ノξターン20に対する文字切出し、識別、文字決
定の処理のようすを示す説明図、第6図は第5図の処理
の流れを示す説明図である。 11・・・入力端子、12・・・ノぞターンメモリ13
・・・文字切出し部、14・・・特徴抽出部15・・・
識別部、16・・・識別辞書部、17・・・文字決定部
、18・・・出力端子 特許出願人 日本電信電話公社 代理人 弁理士 吉 1)精 孝 第1図 第2図

Claims (1)

    【特許請求の範囲】
  1. 帳票上の文字を走査光電変換して得られた白黒2値の文
    字行ノミターンから一文字ずつ切出して文字認識を行な
    う文字読取方式において、文字行上の予め定められた一
    定区間内に存在する点列の塊の個数を調べ、−個の場合
    はその区間を一文字のノミターンとしてみなして切出し
    、−個も存在しない場合はスペースとみなして切出し、
    複数個の場合は該点列の塊の各々を順次Aターン順に組
    合せた複数の組合せパターンをそれぞれ一文字のノミタ
    ーンとみなして切出し、該切出しノeターンとその切出
    しに関する情報とを出力する文字切出し工程と、該切出
    し7’Cパターンの識別結果とその切出しに関する情報
    とにより一文字の/ぐターンとみなされている場合はそ
    の結果をそのまま出力し、複数個のノミターンとみなさ
    れている場合はその組合せノミターンの各々の識別結果
    を互いに比較し、最も確度の高い文字、パターンあるい
    は組合せ7々ターンに対応する識別結果を出力する文字
    決定工程とを有することを特徴とする文字読取方式。
JP59009832A 1984-01-23 1984-01-23 文字読取方法 Expired - Lifetime JPH0614373B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP59009832A JPH0614373B2 (ja) 1984-01-23 1984-01-23 文字読取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59009832A JPH0614373B2 (ja) 1984-01-23 1984-01-23 文字読取方法

Publications (2)

Publication Number Publication Date
JPS60153575A true JPS60153575A (ja) 1985-08-13
JPH0614373B2 JPH0614373B2 (ja) 1994-02-23

Family

ID=11731099

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59009832A Expired - Lifetime JPH0614373B2 (ja) 1984-01-23 1984-01-23 文字読取方法

Country Status (1)

Country Link
JP (1) JPH0614373B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62190575A (ja) * 1986-02-18 1987-08-20 Mitsubishi Electric Corp 文字パタ−ン切り出し装置
JPS62226288A (ja) * 1986-03-27 1987-10-05 Alps Electric Co Ltd 画像分割方式
JPS6389990A (ja) * 1986-10-03 1988-04-20 Nec Corp 文字読取装置
JPS6482287A (en) * 1987-09-25 1989-03-28 Nippon Telegraph & Telephone Character segmenting, discriminating, and deciding system
JPH02139686A (ja) * 1988-11-21 1990-05-29 Fuji Electric Co Ltd 文字読取方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5991582A (ja) * 1982-11-16 1984-05-26 Nec Corp 文字読取装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5991582A (ja) * 1982-11-16 1984-05-26 Nec Corp 文字読取装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62190575A (ja) * 1986-02-18 1987-08-20 Mitsubishi Electric Corp 文字パタ−ン切り出し装置
JPH0476159B2 (ja) * 1986-02-18 1992-12-02 Mitsubishi Electric Corp
JPS62226288A (ja) * 1986-03-27 1987-10-05 Alps Electric Co Ltd 画像分割方式
JPS6389990A (ja) * 1986-10-03 1988-04-20 Nec Corp 文字読取装置
JP2570703B2 (ja) * 1986-10-03 1997-01-16 日本電気株式会社 文字読取装置
JPS6482287A (en) * 1987-09-25 1989-03-28 Nippon Telegraph & Telephone Character segmenting, discriminating, and deciding system
JPH02139686A (ja) * 1988-11-21 1990-05-29 Fuji Electric Co Ltd 文字読取方法

Also Published As

Publication number Publication date
JPH0614373B2 (ja) 1994-02-23

Similar Documents

Publication Publication Date Title
US4903312A (en) Character recognition with variable subdivisions of a character region
Congedo et al. Segmentation of numeric strings
US4757551A (en) Character recognition method and system capable of recognizing slant characters
Wakahara et al. Binarization of color character strings in scene images using k-means clustering and support vector machines
JPH04298162A (ja) 近隣ブロック予測ビット圧縮法
JPH05225378A (ja) 文書画像の領域分割システム
Vijay Kumar et al. Machine recognition of printed Kannada text
JPS60153575A (ja) 文字読取方法
JPS60153574A (ja) 文字読取方法
US5940533A (en) Method for analyzing cursive writing
KR102064974B1 (ko) 블럽 기반의 문자 인식 방법 및 이를 위한 장치
US20030152270A1 (en) Image encoding device, decoding device and encoding method, decoding method, and recorded program on which programs of the methods are recorded
Sarkar Word spotting in cursive handwritten documents using modified character shape codes
Zaw et al. Character Extraction and Recognition For Myanmar Script Signboard Images using Block based Pixel Count and Chain Codes
KR100200871B1 (ko) 이항 인식에 기반한 문자 인식 방법 및 장치
JPS63118993A (ja) 文字認識方法
Bremananth et al. Tamil numerals identification
JPH11120291A (ja) パタン認識システム
JPS59112367A (ja) 文字読取方式
Fethi et al. A Progressive Approach to Arabic Character Recognition Using a Modified Freeman Chain Code Algorithm
Leishman Shape-free statistical information in optical character recognition
JPH08161432A (ja) 文字切り出し方法および文字切り出し装置
Yarmohammadi et al. Clustering low quality Farsi sub-words for word recognition
JP2924192B2 (ja) パターン認識装置
JPS6095690A (ja) 文字読取装置