JPH05233877A - 単語読み取り方法 - Google Patents

単語読み取り方法

Info

Publication number
JPH05233877A
JPH05233877A JP3125831A JP12583191A JPH05233877A JP H05233877 A JPH05233877 A JP H05233877A JP 3125831 A JP3125831 A JP 3125831A JP 12583191 A JP12583191 A JP 12583191A JP H05233877 A JPH05233877 A JP H05233877A
Authority
JP
Japan
Prior art keywords
character
word
candidate
character string
pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3125831A
Other languages
English (en)
Inventor
Kiyoshi Nakabayashi
清 仲林
Masami Oguro
雅己 小黒
Tadashi Kitamura
正 北村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP3125831A priority Critical patent/JPH05233877A/ja
Publication of JPH05233877A publication Critical patent/JPH05233877A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

(57)【要約】 (修正有) 【目的】 単語読み取りにおいて、文字が極端に分離な
いし接触して記入されていても正しい候補単語を得る。 【構成】 入力帳票の画像データは画像メモリ22に格納
され文字列パターン42から周辺分布43と外接矩形44を算
出し、文字切出し手段25で複数の切り出し方で文字パタ
ーン45を切出す。切り出された文字パターンから個々の
文字パターンに対する候補文字列46が得られる。単語検
索手段27は候補文字列をキーとして単語検索を行い、複
数の候補単語47とそれ等に対する候補文字列との不一致
部分48と一致文字数51を出力する。不一致部分48に対応
する候補単語の文字数に応じて文字列パターンの再切り
出しを行い、その文字パターン49の再文字識別結果50は
評価手段29で候補単語47の対応する部分の文字と一致す
るか否かを調べ、一致部分文字数51と再文字識別結果の
一致文字数を加えてその候補単語の評価値を決定する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、文字読み取り装置にお
いて、帳票等に記入された単語文字列を読み取る単語読
み取り方法に関し、特に個々の文字の記入間隔が不定
で、分離して複数のパターンとして記入された単独文字
や、接触して1つのパターンとして記入された複数文字
を含む単語文字列を読み取る単語読み取り方法に関する
ものである。
【0002】
【従来の技術】従来の文字読み取り装置では、装置が個
々の文字パターンの位置を同定して文字パターンの識別
を行うために、予め用紙中の位置を指定した文字枠内に
1文字毎に文字を記入する必要があり、利用者の大きな
負担となっていた。
【0003】このような負担を軽減するためには、文字
毎の枠の無い用紙に任意の文字間隔で記入された文字列
パターンを読み取る技術が必要となる。この任意の文字
間隔で記入された、文字列パターンを読み取るために
は、文字列パターン中の文字パターンの位置を自動的に
同定して、個々の文字パターンを切り出す必要がある。
【0004】そのための方法として、文字パターンを構
成する黒画素の連結性や、文字列パターンの記入方向と
垂直の方向への黒画素の投影などの形状情報を用いて文
字パターンを切り出す方法が考えられる。しかし、形状
情報のみを用いた方法では、例えば「知」のように偏と
旁から成る文字を、「矢口」のように偏と旁の間隔を空
けて記入した場合、これが1文字であるか2文字である
かを正しく判断することができない。
【0005】このような問題点を解決するため、文字列
パターンから形状情報を用いて文字パターンを切り出し
て文字識別を行った後、予め記入される文字列(以下単
語と呼ぶ)を登録した単語辞書と文字識別結果の照合を
行い、これによって、文字切り出し結果を補正して再度
文字識別を行う方法が提案されており、“用語あいまい
検索を用いた手書き文字列入力方式”(昭和62年度人工
知能学会全国大会論文集435-438ページ)に記載されてい
る。
【0006】図4は、上記従来技術による単語読み取り
方法の動作を説明するための図である。
【0007】同図において、1は帳票に記入された入力
文字列パターンである。2は文字切出し手段で、入力文
字列パターン1の形状情報により個々の文字パターン3
を切り出す。4は文字識別手段で、切り出された個々の
文字パターン3に対して文字識別処理を行い、候補文字
列5を出力する。6は単語検索手段で、候補文字列5を
キーとして単語辞書7に格納されている単語を検索し、
候補文字列5から想起される候補単語8を出力する。
【0008】9は文字列/単語比較手段で、候補文字列
5と候補単語8のひとつを文字毎に比較し、両者の不一
致部分10を検出する。11は再文字切出し手段で、不一致
部分10に対応する候補単語8中の文字数に応じて入力文
字列パターン1中の対応する部分の再文字切り出しを行
い、再切り出し文字パターン12を出力する。再切り出し
文字パターン12は、再度文字識別手段4に送られる。評
価手段14は、再切り出し文字パターン12に対する再文字
識別結果13と、上記不一致部分10に対応する候補単語8
中の文字を、比較し、候補単語に対する最終的な評価値
を決定する。
【0009】上記の処理を候補単語8すべてについて行
い、もっとも評価値の高い候補単語を最終的な読み取り
結果とする。
【0010】
【発明が解決しようとする課題】ところで上記従来技術
では以下に述べるような問題点がある。
【0011】図5は上記従来技術の問題点を説明するた
めの図である。入力文字列パターン1は形状情報により
文字パターン3に分割される。しかし、この例では入力
文字列パターン1中の各文字の偏と旁が分離しており、
また、分離した旁と隣り合う文字の接触(図中「里」と
「入」)が含まれているため、ほとんどすべての文字が
正しく切り出されておらず、候補文字列5に正解文字が
含まれないため、単語検索において正解単語を得ること
ができない。
【0012】すなわち、従来技術においては、入力文字
列パターン1から文字パターン3を切り出す際に、文字
の切り出し方を一通りに限定していたため、文字が極端
に分離ないし接触して記入された場合に単語検索のキー
となる文字が得られず、正しい読み取りができないとい
う問題点があった。
【0013】本発明は、このような問題点を解決し、文
字が極端に分離ないし接触して記入されていても正しい
候補単語を得ることを目的とする。
【0014】
【課題を解決するための手段】本発明は、帳票等に記入
された単語文字列パターンから1文字毎のパターンを切
り出して文字識別処理を行い、得られた候補文字列を予
め用意した単語辞書と比較して候補単語を出力する単語
読み取り方法において、該単語文字列パターンの形状情
報に基づいて複数通りの切り出し方で個々の文字パター
ンを切り出す文字切出し手段を有することを特徴とす
る。
【0015】
【作用】本発明によれば、文字列パターンから形状情報
によって文字の切り出しを行う際に、可能性のある複数
の切り出し方によって文字を切り出すことによって、文
字が極端に分離ないし接触して記入されていても正しく
切り出された文字パターンが得られるようにし、これに
よって正解単語を検索するために必要な候補文字が高い
確率で得られるようにしている。
【0016】
【実施例】以下、図面を使用して本発明の実施例につい
て説明する。
【0017】図1は本発明方法を実施する一実施例の構
成図を示し、図中、21は入力帳票を走査して白/黒画素
の集合からなるデジタル画像データに変換する画像入力
手段、22は入力された画像データを格納する画像メモ
リ、23は画像データ中の文字列パターン領域について文
字列と垂直の方向に画像データを走査して黒画素数の分
布を算出する周辺分布算出手段、24は同様に文字列パタ
ーン領域中の連結した黒画素集合の外接矩形を算出する
外接矩形算出手段、25は黒画素数分布および外接矩形デ
ータを用いて文字列パターンから複数の切り出し方で文
字を切り出す文字切出し手段、26は切り出された各文字
パターンについて文字識別を行い候補文字列を出力する
文字識別手段、27は候補文字をキーとして単語を検索す
る単語検索手段、28は候補文字列と候補単語の不一致部
分の文字数に応じて文字列パターンの再切り出しを行う
再文字切出し手段、29は最終的な候補単語の評価値を決
定する評価手段である。
【0018】次に本実施例の動作について、図2を用い
て説明する。
【0019】図示しない入力帳票の画像データは画像入
力手段21を経由して画像メモリ22に格納される。画像デ
ータ中の予め指定された位置に記入された図2に示す文
字列パターン42は周辺分布算出手段23および外接矩形算
出手段24に転送され、図2に示すような周辺分布43およ
び外接矩形44が算出される。文字切出し手段25は上記周
辺分布43および外接矩形44のデータを用いて複数の切り
出し方で図2に示す文字パターン45を切り出す。
【0020】ここで文字切出し手段25の動作について詳
細に述べる。
【0021】図3は文字切出し手段25の動作を説明する
ための図であり、図2に示した文字列パターン42に対す
る入力文字列パターンの周辺分布43及び外接矩形44を例
示してある。
【0022】まず、文字列と垂直方向(図の場合上下方
向)に分離した文字成分の外接矩形を統合するため、あ
る矩形の水平方向の中心座標が他の矩形の幅の範囲内に
含まれている場合はこれらを統合してひとつの矩形とす
る。この処理を行った結果が矩形61である。
【0023】次にこの矩形の横幅と全矩形の高さの平均
の比が一定値(例えば1)以上の場合、その矩形は複数文
字を含む可能性があるものとして矩形を分割する。矩形
の分割はその矩形の中心付近で、周辺分布43が極小とな
る位置で行う。この処理を行った結果が矩形62である。
これらの矩形61,62を基本矩形と呼ぶ。
【0024】次に基本矩形61,62を複数通りに組み合わ
せて文字切り出し結果とする。このとき、すべての組み
合わせを切り出し結果として文字認識別以降の処理に用
いることは処理量の極端な増加を招くため、文字とみな
しうる可能性の高い組み合わせを選択する。これは例え
ば以下のように行う。
【0025】まず基本矩形の組み合わせ方63のようにす
べての基本矩形の組み合わせ方を生成する。次にこれら
の組み合わせ方のそれぞれについて以下の評価値Fを算
出する。
【0026】
【数1】
【0027】ここで、iは当該の組み合わせを構成する
矩形の番号であり、fiはその矩形が1文字とみなせる
度合を表す評価値である。評価値fiとしては、例え
ば、その矩形の横幅wiと全矩形の高さの平均Hによっ
て定義される矩形の正方形らしさを表す関数、
【0028】
【数2】
【0029】を用いる。この関数は横幅wと高さの平均
Hが等しい時に0となり、両者の値が異なると正の値を
とる。従って評価値Fはその組み合わせ方を構成する矩
形が正方形に近い、すなわち1文字とみなせる度合が高
いほど小さい値をとるから、基本矩形の組み合わせ方63
から、評価値Fが小さい順に一定個数の組み合わせ方64
を選択し、さらにこれらの組み合わせ方64から重複する
矩形を取り除いて文字パターン45とする。
【0030】切り出された文字パターン45は、図1の文
字認識手段26に転送され、個々の文字パターンに対する
候補文字からなる図2に示す候補文字列46が得られる。
【0031】なお、文字識別処理については従来より種
々の方式が提案されており、任意のものを用いることが
できる。
【0032】単語検索手段27は候補文字列46をキーとし
て単語検索を用い、複数の候補単語47および各々の候補
単語に対する候補文字列との不一致部分48及び一致文字
数51を出力する。
【0033】検索の方法は、例えば公知のDPマッチン
グ法を用いて、単語辞書中の全単語について候補文字列
46との照合を行い、一致する文字数の多い順に候補単語
とする。ここですべての文字が一致した単語が得られた
場合は以降の処理は行われず、一致部分文字数51のみが
評価手段29に送られる。
【0034】再文字切出し手段28は不一致部分48に対応
する候補単語の文字数に応じて文字列パターンの再切り
出しを行う。例えば、図2の例では、不一致部分48に対
応する候補単語の文字数が1であるので、対応する文字
列パターンの部分の2つの矩形を統合して1つの文字パ
ターン49を切り出す。
【0035】次に再切り出しされた文字パターン49は文
字識別手段26に転送され、再文字識別結果50が得られ
る。評価手段29は、再文字識別結果50が候補単語47の対
応する部分の文字と一致するか否かを調べる。そして、
単語検索手段27から得られる一致部分文字数51と再文字
識別結果の一致文字数を加えて、その候補単語に対する
最終的な評価値52とする。
【0036】上記の文字列/単語比較以降の動作は、複
数の候補単語について繰り返され、各候補単語に評価値
が与えられる。これによって最終的に評価値のもっとも
高い候補単語を読み取り結果と決定する。
【0037】
【発明の効果】以上説明したように、本発明の単語読み
取り方法によれば、文字列パターンから形状情報によっ
て文字の切り出しを行う際に、切り出された矩形が1文
字とみなせる度合を考慮して複数の切り出し法によって
文字を切り出し、これに対する文字認識結果を用いて単
語検索を行うように構成したので、文字が極端に分離な
いし接触して記入されていても正しい候補単語を得るこ
とが可能となる。
【図面の簡単な説明】
【図1】本発明方法を実施する一実施例の構成図であ
る。
【図2】図1の動作を説明するための図である。
【図3】図1の文字切出し手段の動作を説明するための
図である。
【図4】従来の単語読み取り方法の動作を説明するため
の図である。
【図5】従来の技術の問題点を説明するための図であ
る。
【符号の説明】
21…画像入力手段、 22…画像メモリ、 23…周辺分布
算出手段、 24…外接矩形算出手段、 25…文字切出し
手段、 26…文字識別手段、 27…単語検索手段、 28
…再文字切出し手段、 29…評価手段。

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 帳票等に記入された単語文字列パターン
    から1文字毎のパターンを切り出して文字識別処理を行
    い、得られた候補文字列を予め用意した単語辞書と比較
    して候補単語を出力する単語読み取り方法において、 該単語文字列パターンの形状情報に基づいて複数通りの
    切り出し方で個々の文字パターンを切り出す文字切出し
    手段を有することを特徴とする単語読み取り方法。
  2. 【請求項2】 文字切出し手段は、単語文字列パターン
    を形状情報に基づいて基本矩形に分割し、該基本矩形の
    すべての組み合わせ方についてその組み合わせ方を構成
    する各々の矩形が1文字とみなせる度合を加え合わせた
    値をその組み合わせ方の評価値とし、その評価値の順に
    基本矩形の組み合わせ方を選択して、複数通りの切り出
    し方を決定することを特徴とする請求項1記載の単語読
    み取り方法。
  3. 【請求項3】 文字切出し手段は、矩形の横幅と全矩形
    の高さの平均の差分を算出しその値をその矩形が1文字
    とみなせる度合とすることを特徴とする請求項2記載の
    単語読み取り方法。
  4. 【請求項4】 文字切出し手段は、文字列パターン中の
    連結する黒画素の集合の外接矩形、および、該外接矩形
    のうち文字列パターン方向の長さが一定値以上のものを
    文字列パターン方向と垂直の方向に黒画素数を計数した
    値が極小となる位置で分割して得られる基本矩形とする
    ことを特徴とする請求項2記載の単語読み取り方法。
JP3125831A 1991-05-29 1991-05-29 単語読み取り方法 Pending JPH05233877A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3125831A JPH05233877A (ja) 1991-05-29 1991-05-29 単語読み取り方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3125831A JPH05233877A (ja) 1991-05-29 1991-05-29 単語読み取り方法

Publications (1)

Publication Number Publication Date
JPH05233877A true JPH05233877A (ja) 1993-09-10

Family

ID=14920022

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3125831A Pending JPH05233877A (ja) 1991-05-29 1991-05-29 単語読み取り方法

Country Status (1)

Country Link
JP (1) JPH05233877A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6876765B2 (en) 2000-03-30 2005-04-05 Ricoh Company, Ltd. Character recognition method and computer-readable storage medium

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6876765B2 (en) 2000-03-30 2005-04-05 Ricoh Company, Ltd. Character recognition method and computer-readable storage medium

Similar Documents

Publication Publication Date Title
US5539841A (en) Method for comparing image sections to determine similarity therebetween
US5410611A (en) Method for identifying word bounding boxes in text
US6975762B2 (en) Ruled line extracting apparatus for extracting ruled line from normal document image and method thereof
US6621941B1 (en) System of indexing a two dimensional pattern in a document drawing
JP3452774B2 (ja) 文字認識方法
JPH05242292A (ja) 分離方法
US6917708B2 (en) Handwriting recognition by word separation into silhouette bar codes and other feature extraction
KR20010093764A (ko) 어근 모델에 근거한 초서체 한자 주석의 검색법
JPH1166238A (ja) 手書き文字認識方法
JPH05233877A (ja) 単語読み取り方法
CN110727820B (zh) 一种为图片获得标签的方法和系统
JPH09274645A (ja) 文字認識方法および装置
JPH0728935A (ja) 文書画像処理装置
JPH1166230A (ja) 文書認識装置、文書認識方法及び媒体
JP2728086B2 (ja) 文字切り出し方法
JP2746345B2 (ja) 文字認識の後処理方法
JPH05120483A (ja) 文字認識装置
JPH0713994A (ja) 文字認識装置
JP3100786B2 (ja) 文字認識後処理方式
JP3345469B2 (ja) 単語間隔度演算方法、単語間隔度演算装置、及び文字読取り方法、文字読取り装置
JPH07319998A (ja) 文字切り出し方法
JP2728085B2 (ja) 文字切り出し方法
JP2851102B2 (ja) 文字切出し方法
JPH04163681A (ja) 情報処理装置及び文字認識装置
JPH0353392A (ja) 文字認識装置