JP2570311B2 - 文字列認識装置 - Google Patents

文字列認識装置

Info

Publication number
JP2570311B2
JP2570311B2 JP62197677A JP19767787A JP2570311B2 JP 2570311 B2 JP2570311 B2 JP 2570311B2 JP 62197677 A JP62197677 A JP 62197677A JP 19767787 A JP19767787 A JP 19767787A JP 2570311 B2 JP2570311 B2 JP 2570311B2
Authority
JP
Japan
Prior art keywords
character
character string
image
word
determination
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP62197677A
Other languages
English (en)
Other versions
JPS6441979A (en
Inventor
慎治 佐瀬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP62197677A priority Critical patent/JP2570311B2/ja
Publication of JPS6441979A publication Critical patent/JPS6441979A/ja
Application granted granted Critical
Publication of JP2570311B2 publication Critical patent/JP2570311B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は光学的に文書を読み取る認識装置に関し、特
に漢字を含む手書き文字列を読み取る文書読み取り装置
に関する。
〔従来の技術〕
従来、文字認識装置は、データ入力の有効な手段とし
て数多く開発されている。特に、一文字に正しく分離さ
れた手書き文字を読み取る文字認識の手法が中心になっ
て開発されている。この種の文字認識の例としては、文
献、岡隆一著“セル特徴をもちいた手書き漢字認識の研
究”、電子総合研究所研究報告第834号(1983)等があ
げられる。しかし、比較的自由に書かれた文字列より予
じめ各文字を正しく分離することは、困難であり、文字
列より正しく文字を分離するためには、文字を読んでお
く必要がある。文字列画像の内部で文字の位置が読まず
にわかるのは、先頭の文字のはじまりの位置と最終の文
字の終わりの位置である。そこで、文字の先頭より文字
を読み取ることにより、文字を抽出し、次の文字のはじ
まりの位置を求める操作を繰り返すことにより、上記文
字認識と文字切り出しのジレンマを解決しようとする方
式が提案されている。この際、文字によって、文字のお
わりの位置が異なるので、文字単位で判定するのには困
難さが伴なう。例えば、縦書きの文字列内に文字“台”
がある場合、これがカタカナの“ム",“ロ”であるのか
漢字の“台”であるのかは、判断がつかない。従って判
定は、抽出結果である文字列を、あらかじめ付与された
単語情報を用いて単語単位で判定する手法がとられてい
る。この種の文字列認識装置の例として、同一出願人に
よる特願昭62−011630号明細書“文字列認識装置”(以
下引例−1とする)等があげられる。
〔発明が解決しようとする問題点〕
文字列の中には、単語では判断のつかない文字列が存
在する。このような文字列の例としては、数字例があげ
られる。第2図にこのような数字列画像の例を示す。こ
のような文字列は、たとえ、文字がうまく抽出されても
複数の文字列候補があがった場合には、単語による判定
は困難であるという欠点がある。第2図を例にとると、
単語,文脈処理により、例えこの部分が2桁以下の数字
列を含んでいることがわかっても、これが“二三番であ
るか“三二番”であるかを判定することは困難である。
〔問題を解決するための手段〕
文字列画像を入力とし、該文字列画像の先頭より、文
字を抽出し、抽出結果をもとに次の文字切り出しをする
ことを繰り返すことにより文字列の候補を作成し、前記
文字列の候補に対してあらかじめ付与された単語情報を
用いて単語単位で最終判定をする文字列判定手段と、前
記文字列判定手段の単語単位での最終判定結果が一意に
確定しない文字列部分に該当する文字列画像を分断する
空白の大きさを測定し、該測定結果をもとに文字の区切
りを推定し、該文字の区切り目により前記文字列部分の
単語を確定する文字列判定手段とを有する。
〔作用〕
本発明の原理を説明する。
前述のごとく文字列を読み取った結果単語列の判定が
つかない場合には、必ず候補ごとに各文字の抽出位置が
異なっている。なぜならば全く同じ抽出位置であれば、
どちらの文字により似ているかは判断がつくはずであ
る。このような抽出位置の異なる画像間で文字形の比較
をするのは困難であり無理がある。従って、このような
文字列候補より文字の配置関係により、文字の切れ目を
みつけて、これをもとに、最終判定をするのがもっとも
得策であると言える。
文字列より文字の切れ目を推定する方法としては、文
字サイズによるもの、文字ピッチによるものが一般的で
あるが、比較的自由に書かれた文字列では、文字サイ
ズ、ピッチは変動が大きく特に数字列を含む箇所ではこ
れらの変動が著しい。そこで、ここでは、該当する画像
内で最も大きな空白の部分をみつけ、この大きさを規準
に文字の切れ目位置をみつける方法をとる。
一般的に言って、単語・文脈などの意味論的に判断の
つかない文字列では、文字背景の大きさを利用した書き
方により、読み手にわかりやすいように書いてある。実
際の文書でも例外は非常に少なかった。
〔実施例〕
次に本発明について図面を参照して説明する。
第1図は本発明の文字認識装置の一実施例のブロック
図である。第1図において文字列画像メモリ1に入力文
字列画像が記憶されている。入力文字列画像は量子化さ
れた2次元画像である。ブロック2は文字列判定部であ
って、文字辞書・単語辞書をもとに文字列画像メモリ1
からの文字列を先頭から順次読み取り、文字列の読み取
り結果を出力する。この読み取り判定方法は、前述の引
例−1“文字列認識装置”に述べられているように、ま
ず、文字列画像の先頭より文字を抽出する。抽出とは、
読み取られた文字列画像の特徴と予め登録されている各
文字特徴を比較して文字候補と、その文字の位置すなわ
ち文字の終端位置を文字列の中で確定することであり、
その結果として前の文字の終端位置をその文字の開始位
置とし、開始位置と終端位置の間で文字を切り出すこと
が可能になる。この抽出結果をもとに、文字の切り出し
を繰り返し、文字列の候補を作成する。次に、この文字
列の候補と予め登録してある単語辞書における単語候補
と比較することにより、辞書における単語と適合する文
字列を抽出し、最終的に文字列全体を単語の並びの候補
として出力する。
文字列判定部2により判定され、得られた単語の並び
の候補について文字列判定候補数チェック部3により候
補数をチェックし、単語の並びの候補が1つの時はこれ
を読取結果として処理を終了する。複数個であれば、空
白の位置の大きさ測定部4により単語の並びの候補が一
意に確定できない部分に相当する入力画像の部分画像を
取り出し、文字列を分割する箇所を走査し、その大きさ
を測定する処理がなされる。文字の切れ目推定部5は、
空白の位置大きさ測定部4で測定された空白のうち、文
字列判定部2で得られる各文字の終端位置をもとにその
前後の予め決められた範囲内で最も大きいものを基準と
して選択し、その文字の終端位置の空白の大きさと比較
するという処理を各単語列の判定候補のすべての文字に
対して行う。この推定結果について読取判定結果出力部
6は、各文字の切れ目はその前後で最も大きな空白であ
る可能性が高いという性質を利用して、前述の比較結果
を各判定候補ごとに合計して、その合計が最大の値を与
える判定候補の単語列を判定結果として出力する。もの
を判定結果として出力する。
ブロック3〜ブロック5の処理を第2図を用いて具体
的に説明する。文字列判定部2の処理において、図に示
される部分は、数字と番が文字列となっているものであ
り、更に文脈処理により数字の部分は2桁以下であると
いう条件が加えられて判定され、“二三番”あるいは三
二番”のいずれかであったとする。前述のごとく、文字
列判定部2は各文字を読んで切り出す処理を繰り返すた
め各文字の抽出終端位置を位置情報として出力する。こ
の場合、“二三番”の各抽出終端位置は第3図のそれぞ
れ2,5,6の位置であり“三二番”の各抽出終端位置はそ
れぞれ3,5,6の位置である。文字列判定部2で2つの単
語として確定できない判定候補が得られたので、次に空
白の位置大きさ測定部4を実行する。空白の位置大きさ
測定部4ではまず2つの単語候補から一意に候補を確定
できない文字列部分の画像を文字列画像より抽出する。
抽出された画像が第2図の画像である。そして、この画
像より文字列を分断する空白の位置と大きさを求める。
これを求めた結果が第3図に示されている。第3図の1
〜5は各空白の位置を示し、a〜eは対応する空白の大
きさを表わす。空白の位置及び大きさの測定は、文字列
をその方向と垂直な方向に走査しすべてが背景となる文
字方向の位置を記憶し、連続する箇所を1つの空白とし
て統合することにより得られる。こうして、該当する画
像の位置及び大きさが得られると、次に文字の切れ目推
定部5の処理を実行する。
求められた各空白の大きさは、a>b>e>d>cで
ある。空白の大きさを評価するためにまず評価の基準と
なる基準値を求める。この基準値は、抽出文字毎に求め
られる。基準値はその文字が存在すると思われる領域の
うちで最も大きな空白の大きさとする。領域の定め方
は、任意であるがここでは1つ前の抽出文字の終端から
文字列方向に文字列幅の2倍の大きさとする。
判定結果が“二三番”の時の“二”の存在可能領域は
第4図の点線枠内の領域、“三”の存在可能領域は、第
5図の点線枠内の領域となる。この時、“二",“三”の
空白基準値はそれぞれa,eとなる(“三”の基準値を求
める場合空白bは、文字列の分断領域とはならな
い。)。
判定結果が“三二番”の時の“三”の存在可能領域は
第4図の点線枠内、“二”のそれは第6図の点線枠内と
なり、それぞれ空白基準値はa,eとなる。この場合文字
“番”の抽出位置は双方同じであるので評価対象外であ
る。
上記求められた各文字の空白基準値と実際の文字抽出
時に得られた文字区切りの空白の大きさとの比を比較
し、値の大きい方を判定結果とする。判定結果“二三
番”では“二”の終端位置が、2であるのでこの場合の
文字間空白の大きさはbであり“三”ではeとなる。同
様に“三二番”では“三",“二”に対して、文字間空白
の大きさはそれぞれc,eとなる。そこでこれらの比を比
較すると、 となるので、“二三番”と判定される。この結果は読取
判定結果出力部6より出力される。
〔発明の効果〕
以上実施例を用いて詳細に説明した如く、本発明によ
ると、文字認識,文字切り出し,単語・文脈による知識
処理では困難であった比較的自由に書かれた数字例のよ
うな文字列をも、上記の処理後の結果をもとに文字の配
置を調べることにより、読み取りが期待でき、より広い
範囲の文書認識が、容易な処理を追加するだけで実現で
きる。
【図面の簡単な説明】
第1図は本発明の一実施例を示すブロック図、第2図は
入力される文字列画像の一部の例を示す図であり、第3
図は第2図における空白の位置及び大きさの測定状態を
示す概念図、第4図〜第6図はそれぞれ各文字の存在可
能領域を示す概念図である。 1……文字列画像メモリ、2……文字列判定部、3……
文字列判定候補数チェック部、4……空白の位置大きさ
測定部、5……文字の切れ目推定部、6……読取判定結
果出力部。

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】文字列画像を入力とし、該文字列画像の先
    頭より、文字を抽出し、抽出結果をもとに次の文字切り
    出しをすることを繰り返すことにより文字列の候補を作
    成し、前記文字列の候補に対してあらかじめ付与された
    単語情報を用いて単語単位で最終判定をする文字列判定
    手段と、前記文字列判定手段の単語単位での最終判定結
    果が一意に確定しない文字列部分に該当する文字列画像
    を分断する空白の大きさを測定し、該測定結果をもとに
    文字の区切りを推定し、該文字の区切り目により前記文
    字列部分の単語を確定する文字列判定手段とを有するこ
    とを特徴とする文字列認識装置。
JP62197677A 1987-08-07 1987-08-07 文字列認識装置 Expired - Lifetime JP2570311B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP62197677A JP2570311B2 (ja) 1987-08-07 1987-08-07 文字列認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62197677A JP2570311B2 (ja) 1987-08-07 1987-08-07 文字列認識装置

Publications (2)

Publication Number Publication Date
JPS6441979A JPS6441979A (en) 1989-02-14
JP2570311B2 true JP2570311B2 (ja) 1997-01-08

Family

ID=16378502

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62197677A Expired - Lifetime JP2570311B2 (ja) 1987-08-07 1987-08-07 文字列認識装置

Country Status (1)

Country Link
JP (1) JP2570311B2 (ja)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5246729A (en) * 1975-10-09 1977-04-13 Fujitsu Ltd Type character discrimination system
JPS58139281A (ja) * 1982-02-10 1983-08-18 Ricoh Co Ltd 光学的文字読取装置
JPS62169283A (ja) * 1986-01-22 1987-07-25 Nec Corp 文字列抽出方式

Also Published As

Publication number Publication date
JPS6441979A (en) 1989-02-14

Similar Documents

Publication Publication Date Title
US8908961B2 (en) System and methods for arabic text recognition based on effective arabic text feature extraction
KR100249055B1 (ko) 문자인식장치및방법
JP3919617B2 (ja) 文字認識装置および文字認識方法、プログラムおよび記憶媒体
KR100412317B1 (ko) 문자인식/수정방법및장치
JP2001283152A (ja) 帳票類判別装置、帳票類判別方法、およびこれらの方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2000181993A (ja) 文字認識方法および装置
Okamoto et al. Performance evaluation of a robust method for mathematical expression recognition
JP4280355B2 (ja) 文字認識装置
JPS63182793A (ja) 文字切り出し方式
JPH0430070B2 (ja)
JP2570311B2 (ja) 文字列認識装置
JPS60153574A (ja) 文字読取方法
CN115050025A (zh) 基于公式识别的知识点抽取方法及装置
US11361529B2 (en) Information processing apparatus and non-transitory computer readable medium
JPH0614373B2 (ja) 文字読取方法
JP2788506B2 (ja) 文字認識装置
JP2977244B2 (ja) 文字認識方法及び文字認識装置
JP2993533B2 (ja) 情報処理装置及び文字認識装置
JP2902097B2 (ja) 情報処理装置及び文字認識装置
JPH1166230A (ja) 文書認識装置、文書認識方法及び媒体
JP3151866B2 (ja) 英文字認識方法
JPH01201789A (ja) 文字読取装置
KR910007032B1 (ko) 한글 문서 인식장치의 문자열과 개별문자 절출방법
JP2578767B2 (ja) 画像処理方法
Hwang et al. Segmentation of a text printed in Korean and English using structure information and character recognizers