JPH076213A - 文字列認識装置 - Google Patents

文字列認識装置

Info

Publication number
JPH076213A
JPH076213A JP5145899A JP14589993A JPH076213A JP H076213 A JPH076213 A JP H076213A JP 5145899 A JP5145899 A JP 5145899A JP 14589993 A JP14589993 A JP 14589993A JP H076213 A JPH076213 A JP H076213A
Authority
JP
Japan
Prior art keywords
word
character string
character
candidate
area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5145899A
Other languages
English (en)
Inventor
Masami Oguro
雅己 小黒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP5145899A priority Critical patent/JPH076213A/ja
Publication of JPH076213A publication Critical patent/JPH076213A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】 【目的】自由手書き文字列を認識する文字列認識装置に
おいて,1つの文字列内に単語文字列と否単語文字列が
存在した場合に対しても,精度良く認識できるようにす
ることを目的すとる。 【構成】単語認識手段101 により,文字列を認識し,そ
の結果から単語候補を複数抽出する。そして,各単語候
補毎に,単語領域抽出手段102 および否単語領域認識手
段103 により,文字列との照合による否単語部分の抽
出,および否単語部分に対する否単語文字列固有の構成
知識による評価を行い,最終的に評価値で確からしい候
補を決定する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は,自由手書きで記入され
た文字列を認識する文字列認識装置に関する。本発明
は,例えば住所等のように単語文字列(住所の町名ま
で)と否単語文字列(住所の丁目番地部分)が混在して
いる文字列の認識において,高い認識率を得ることがで
きる。
【0002】
【従来の技術】従来,住所の文字列の認識に対し,住所
の知識(住所単語辞書,単語間の接続知識)を用いて文
字認識率を高める知識処理が行われている。さらに,こ
の手法を利用して,文字間ピッチが任意の自由手書き文
字列で生じる文字切り出しの誤りも,住所辞書で補正す
ることにより,高い正読率を実現している。
【0003】参考文献(A):仲林他,“あいまい用語
検索を用いた高速枠なし手書き文字列読取り方式”,信
学論,D-II,Vol.J74-D-II,No.11 ,pp.1528-1537,19
91この方式の概要は次の通りである。自由手書き文字列
から,黒画素の連結部分からできる基本矩形の形状的特
徴により1文字範囲を決定し,該範囲内のイメージの認
識を行う。各認識で得られた全ての文字候補と,予め用
意した住所辞書とを照合し文字候補を多く含む住所候補
を抽出する。住所辞書との照合については,完全一致だ
けでなく,部分一致であっても住所候補を抽出する方式
をとる。これにより,記入された文字列に近い単語候補
を精度良く抽出できる。
【0004】
【発明が解決しようとする課題】従来行っていた方法で
は,記入される全文字列が辞書に存在していることを前
提としている。このため,辞書化できない文字列は知識
処理対象外として区別する必要があった。
【0005】例えば,帳票等に住所を記入する場合,記
入項目を2つにわけ,1つの項目には辞書化が容易な住
所の町名までの部分(以降,本体部と呼ぶ),他の1つ
の項目には辞書化が困難な丁目番地部分(以降,番地部
と呼ぶ)を記入することとし,本体部にのみ知識処理を
行うという情報をシステムに予め定義し,単語辞書との
照合を実施するかどうかを制御していた。しかし,住所
等の記入においては,本体部と番地部を1項目に記入す
るのがより自然なインタフェースである。この場合,番
地部の辞書化が困難なため,従来法の前提が適用できな
くなり,新たに辞書化が困難な文字列(以降,否単語文
字列と呼ぶ)と単語文字列が混在することを前提にした
方式が必要とされる。
【0006】本発明の目的は,上述のように,1つの文
字列内に単語文字列と否単語文字列が存在した場合に対
しても,精度良く認識できる文字列認識装置を提供する
ことにある。
【0007】
【課題を解決するための手段】上記課題を解決するため
に,文字コードと該文字の特徴を対応付けた文字辞書,
および単語として存在する文字列を登録した単語辞書を
持ち,文字列イメージから文字を切り出し,各文字イメ
ージと文字辞書とを照合し,その照合の結果得られた文
字候補と単語辞書を照合することにより,単語候補を任
意の数だけ検索する単語認識手段を備える。そして,単
語認識手段で得られた単語候補の各々に対し,文字列内
の各文字候補とその単語候補とを照合し,文字列内にお
いてその単語候補が占有する領域を抽出する手段と,同
様に単語候補の各々に対し,非占有領域を否単語文字列
と仮定し,否単語文字列固有の構成知識を適用して評価
値を求める手段と,それらの手段で得られた各単語候補
に対する評価値をソートする手段とを備えた構成とす
る。
【0008】
【作用】本発明では,文字列の認識結果から,単語候補
を複数抽出し,各単語候補毎に,文字列との照合により
否単語部分の抽出,および否単語部分に対する知識によ
る評価を行い,最終的に評価値で確からしい候補を決定
しているため,精度の良い単語部分,否単語部分の抽出
が可能で,知識適用により否単語部分に対しては精度の
高い認識が可能となる。
【0009】
【実施例】以下図面を用いて本発明の実施例を説明す
る。図1は本発明の構成を示すブロック図,図2は単語
認識手段の構成例および動作例を示す図,図3は単語領
域抽出手段の動作例を示す図,図4は否単語領域認識手
段の動作例を示す図,図5はソート手段の動作例を示す
図,図6は本発明の実施例での処理の流れを表すフロー
チャートである。
【0010】本発明は図1に示す構成で実現できる。単
語認識手段101は,入力された文字列から1文字単位
に文字を切り出し,切り出した文字毎に文字を認識し,
文字候補と単語辞書とを照合し,最も文字候補に近い単
語を検索する手段である。本手段は,例えば前記の参考
文献(A)で述べられる方式で実現できる。
【0011】ここでは,図2に,本手段の一構成例を示
し,概要を以下に述べる。本例では『東京市西町12
7』という自由手書き入力文字列201が入力された場
合の動作を示す。単語認識手段101は,まず文字切り
出し処理202により,入力文字列201から1文字に
相当するイメージを切り出す。次に,文字認識処理20
3により,各文字イメージ毎に文字の形状的特徴を抽出
し,該特徴と,予め各文字毎に形状的特徴の標準パタン
を記述した文字辞書105とを照合して,類似した特徴
を持つ文字コードを選択する。これにより,文字候補2
07として示すような文字認識の処理結果が得られる。
これは,類似性の高い文字を上位3位まで抽出した例で
ある。
【0012】最後に,単語照合処理204では,該文字
候補207と,予め入力が想定される文字列を登録した
単語辞書106とを照合し,対応する文字位置の文字候
補が1つ以上含まれている単語を検索する。単語照合処
理204の結果,単語候補208のような候補が得られ
る。本単語認識手段101は,この単語照合の結果を複
数出力し,後段の処理へ渡す。
【0013】図1に示す単語領域抽出手段102は,単
語認識手段101で得られた各単語候補を,入力文字列
の文字領域と対応させ,各単語候補毎に,最も一致数が
多い領域を検出する。
【0014】図3に,本手段の動作例を示す。本図で
は,『東京市西北町』の単語候補302と『東京市西
町』の単語候補303についての処理を示す。まず,単
語候補302については,文字候補301との先頭から
の照合により,4文字目までが文字候補内に含まれてい
る。従って,単語候補302の不一致部分は2文字分
で,文字候補301に対する不一致部分は文字候補30
4に示す4文字分である。ここで,処理306により,
単語候補302での不一致文字を強制的に文字候補の不
一致部分と対応させることにより単語領域を確定し,否
単語領域307を得る。この結果,単語候補302に対
する評価値を4とする。但し,本例では,評価値として
一致文字数を用いる。
【0015】同様に,単語候補303では,全文字が文
字候補に含まれているため,単語候補に対する不一致部
分の文字数は0であり,文字候補に対する不一致部分は
文字候補305に示す3文字分である。ここで,処理3
06により,否単語領域308を得る。単語候補303
では評価値は5である。
【0016】このようにして,単語認識手段101で得
られた全単語候補について,本単語領域抽出手段102
を繰り返し,単語領域/否単語領域を検出する。なお,
ここでは,先頭を固定で説明したが,文字列の途中から
単語部分が始まっても,DPマッチングを用いることに
より,文字列の途中に最も一致数が多い領域を抽出でき
る。
【0017】否単語領域認識手段103では,単語領域
抽出手段102で抽出された否単語領域について,否単
語文字列固有の構成知識107を用いた処理を行う。具
体例で示すように,否単語部分であっても構成に規則性
がある場合には,この規則を用いて認識精度の向上が可
能である。例えば,否単語領域が番地であれば,数字列
で記入される,ハイフォンや丁目番地等の文字(以降,
特殊番地文字と呼ぶ)で数字が区切られる,各区切られ
た部分は4文字以内の数字列が大半である,等の規則が
ある。このため,規則による検定を否単語領域認識手段
103で行う。
【0018】図4は,番地の規則を適用するための否単
語領域認識手段の構成例を示す。処理401では,直前
の文字が数字か特殊番地文字であるかの判定をし,数字
であれば,特殊番地文字の検定処理402を行う。数字
でなければ(特殊番地文字であれば),検定処理402
を無視し,数字検定処理404による検定を行う。これ
は,特殊番地文字が連続しないという番地専用の知識で
ある。特殊番地文字の検定処理402では,隣合う2文
字が“丁目”か“番地”の組であるか,または,1文字
が“号”“−”“の”“番”等の区切り文字かを探索す
る。処理404では,番地の文字で特殊番地文字以外は
数字であるという知識に基づき,文字候補の中から数字
以外の文字を除去する処理を行う。
【0019】これにより,図3で示した否単語領域30
7から『27』,否単語領域308から『127』を得
ることができる。この場合,各文字列は文字候補内に含
まれているため,評価値は,それぞれ2,3となる。こ
の結果,単語候補302に対する評価値は6,単語候補
303に対する評価値は8と出力される。
【0020】単語領域抽出手段102および否単語領域
認識手段103に対する処理を全単語候補について行っ
たあと,最後に,ソート手段104で,評価値によるソ
ートを行い,確からしい順に文字列を並べる。図5にソ
ート手段の動作例を示す。本例では,『東京市西町12
7』が1位として選択されている。
【0021】本発明の実施例による全体の処理フロー
は,図6に示すようになる。ステップS1では,単語認
識手段101により,文字辞書105および単語辞書1
06を用いて,単語を認識する。ステップS2では,単
語領域抽出手段102により,各単語候補毎に単語領域
を抽出する。ステップS3では,文字列内の単語領域を
取り除いた否単語領域について否単語文字列固有の構成
知識107を適用して評価値を求める。このステップS
2,S3を全単語候補に対して繰り返し,最後に,ステ
ップS4で評価値によるソートを行い,確からしい順に
認識結果の文字列を並べる。
【0022】
【発明の効果】以上説明したように,本発明によれば,
文字列の認識結果から,まず部分一致で単語候補を抽出
し,単語候補と一致しない部分に対しては,適用可能な
否単語文字列固有の構成知識を用いた後,総合的な評価
値で判定しているため,単語領域および否単語領域の両
方が最も確からしくなる文字列を抽出できる。
【0023】また,単語辞書,否単語部分の知識を変更
することにより,住所以外の他文字列への適用も容易に
行うことができる。
【図面の簡単な説明】
【図1】本発明の構成を示すブロック図である。
【図2】単語認識手段の構成例および動作例を示す図で
ある。
【図3】単語領域抽出手段の動作例を示す図である。
【図4】否単語領域認識手段の動作例を示す図である。
【図5】ソート手段の動作例を示す図である。
【図6】本発明の実施例での処理の流れを表すフローチ
ャートである。
【符号の説明】
10 文字列認識装置 101 単語認識手段 102 単語領域抽出手段 103 否単語領域認識手段 104 ソート手段 105 文字辞書 106 単語辞書 107 否単語文字列固有の構成知識

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 単語文字列と否単語文字列で構成される
    自由手書き文字列の2値パタンを読み取りコード情報へ
    変換する文字列認識装置であって,文字コードと文字の
    特徴とを対応づけた文字辞書と,単語として存在する文
    字列を登録した単語辞書と,入力した自由手書き文字列
    の2値パタンから文字を切り出し,切り出した各文字イ
    メージと前記文字辞書とを照合し,その照合の結果得ら
    れた文字候補と前記単語辞書とを照合することにより,
    単語候補を検索する単語認識手段と,該単語候補毎に,
    前記自由手書き文字列内の文字候補と当該単語候補とを
    照合し,前記自由手書き文字列内において当該単語候補
    が占有する領域を抽出する単語領域抽出手段と,前記自
    由手書き文字列内における前記単語候補の非占有領域の
    部分を否単語文字列と仮定し,否単語文字列固有の構成
    知識を適用して評価値を求める否単語領域認識手段と,
    前記単語領域抽出手段と前記否単語領域認識手段とを各
    単語候補に対して適用して得られた評価値をソートする
    ソート手段とを備えたことを特徴とする文字列認識装
    置。
JP5145899A 1993-06-17 1993-06-17 文字列認識装置 Pending JPH076213A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5145899A JPH076213A (ja) 1993-06-17 1993-06-17 文字列認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5145899A JPH076213A (ja) 1993-06-17 1993-06-17 文字列認識装置

Publications (1)

Publication Number Publication Date
JPH076213A true JPH076213A (ja) 1995-01-10

Family

ID=15395638

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5145899A Pending JPH076213A (ja) 1993-06-17 1993-06-17 文字列認識装置

Country Status (1)

Country Link
JP (1) JPH076213A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE112016006711T5 (de) 2016-04-05 2018-12-20 Sumitomo Electric Industries, Ltd. Sensormodul und drahtlose Sensorvorrichtung

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE112016006711T5 (de) 2016-04-05 2018-12-20 Sumitomo Electric Industries, Ltd. Sensormodul und drahtlose Sensorvorrichtung

Similar Documents

Publication Publication Date Title
JP2726568B2 (ja) 文字認識方法及び装置
US5161245A (en) Pattern recognition system having inter-pattern spacing correction
JPH10207988A (ja) 文字認識方法および文字認識装置
Kim et al. Bankcheck recognition using cross validation between legal and courtesy amounts
Koga et al. Lexical search approach for character-string recognition
Saiga et al. An OCR system for business cards
JPH076213A (ja) 文字列認識装置
JP2681663B2 (ja) 日本文訂正候補文字抽出方法
JPH0256086A (ja) 文字認識の後処理方法
JP3151866B2 (ja) 英文字認識方法
JP2746345B2 (ja) 文字認識の後処理方法
JP2827066B2 (ja) 数字列混在文書の文字認識の後処理方法
JPH06195508A (ja) 文字切り出し方法
JP2845463B2 (ja) パターン認識装置
KR100473660B1 (ko) 단어인식방법
JPS62180462A (ja) 音声入力かな漢字変換装置
JPH06119497A (ja) 文字認識方法
JP2001043318A (ja) 住所読取装置
JPH01191992A (ja) 文字認識装置
JPS62285189A (ja) 文字認識後処理方式
JPS6059487A (ja) 手書文字認識装置
JP2000288478A (ja) 宛先特定装置
JPS6081688A (ja) 情報認識方式
JPH06180767A (ja) 文字認識装置
Radeva Third Int. Workshop on GNs, Sofia, 1 Oct. 2002, 7-13