JPH05120483A - 文字認識装置 - Google Patents

文字認識装置

Info

Publication number
JPH05120483A
JPH05120483A JP3279120A JP27912091A JPH05120483A JP H05120483 A JPH05120483 A JP H05120483A JP 3279120 A JP3279120 A JP 3279120A JP 27912091 A JP27912091 A JP 27912091A JP H05120483 A JPH05120483 A JP H05120483A
Authority
JP
Japan
Prior art keywords
character
candidate
feature
characters
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3279120A
Other languages
English (en)
Inventor
Mitsuru Kubota
満 久保田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seiko Epson Corp
Original Assignee
Seiko Epson Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seiko Epson Corp filed Critical Seiko Epson Corp
Priority to JP3279120A priority Critical patent/JPH05120483A/ja
Publication of JPH05120483A publication Critical patent/JPH05120483A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 特徴辞書中に記述されている文字の属性情報
をもとに、類似文字を識別することにより、高速かつ精
度の高い文字認識装置を提供する。 【構成】 入力文字パターンに対して複数の候補文字が
選択されたとき、文字の属性情報を比較する。属性が異
なる部分領域について特徴ベクトルの比較を行い、認識
候補文字を出力する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は日本語文字等の多くの類
似カテゴリを分類する文字認識装置に関する。
【0002】
【従来の技術】従来、漢字を含む日本語文字装置では、
入力文字パターンより特徴を抽出し、あらかじめ蓄えら
れている特徴辞書中の各文字カテゴリの標準ベクトルと
の相違度を計算し、相違度が最も小さい標準ベクトルの
カテゴリを候補文字として選択していた。この際、入力
パターンと選択された1位候補文字との相違度と2位以
下の候補文字との相違度が接近している場合、複数の文
字カテゴリを候補文字として出力していた。ここで最終
的には、候補文字を1文字に決定しなければならない。
このための類似文字を識別する方法の一つとして、候補
文字について各標準ベクトル同志の比較を行い、候補文
字間の差異を見つけ、その差異が生じた部分について、
入力パターンの特徴ベクトルと候補文字の標準ベクトル
を比較し、この部分の相違度の大きさにより類似文字を
識別する方法が用いられていた。
【0003】
【発明が解決しようとする課題】しかし、候補文字とし
て出力された複数の候補文字は、形状的にも非常に類似
した文字である。例えば、「開」と「間」のように微小
な差異を候補文字の標準ベクトル同志のマッチングによ
り見つけることは困難である。また、手書き文字につい
て標準ベクトル同志の差異を見つける場合を考える。例
えば、「体」と「休」の比較において、標準ベクトル同
志の比較を行い差異を見つける場合を考える。同じ「に
んべん」でも字種によって形状が異なることが起こり有
るため、「にんべん」の部分の差異を検出してしまうこ
とがある。また、本来検出すべき「つくり」の部分の差
異を検出できない場合も起こり有る。そこで本発明は、
このような問題を解決するためのものであり、複数の候
補文字が選択された場合でも高速かつ高精度に識別する
文字認識装置を提供することである。
【0004】
【課題を解決するための手段】本発明は、2値化された
文書画像に対して、入力文字パターンを文字枠により切
り取る文字枠切り取り手段と、文字枠切り取り手段によ
り得られた文字パターンから特徴ベクトルを抽出する特
徴ベクトル抽出手段と、あらかじめ各字種ごとの特徴を
格納している特徴辞書格納手段と、入力パターンの特徴
ベクトルと前記特徴辞書中の各字種ごとの標準ベクトル
との相違度を求める相違度計算手段と、前記相違度計算
手段により得られた相違度の大きさにより候補文字を選
択する候補文字選択手段と、候補文字選択手段により選
択された候補文字が複数であった場合、さらに詳細な識
別を行う類似文字識別手段からなる文字認識装置におい
て、前記各字種ごとの特徴を格納している特徴辞書格納
手段は、文字パターンから特徴抽出することにより得ら
れる文字の標準ベクトル及び文字の部分的な構成を表わ
す文字属性が格納されていることを特徴とする。
【0005】また、前記特徴辞書に格納されている文字
属性は、文字を構成する偏部分、冠部分、つくり部分等
の情報が格納されていることを特徴とする。
【0006】また、前記候補文字が複数であった場合、
詳細な識別を行う類似文字識別手段は、選択された複数
の候補文字について前記特徴辞書を用いて属性を比較
し、属性が異なる部分に対応する特徴ベクトルを用いて
識別することを特徴とする。
【0007】
【実施例】
(実施例1)以下に、本発明を図面を用いて説明する。
【0008】図1は、本発明における文字認識方法を示
すブロック図である。2値化された文字画像に対して、
文字枠による切り取り処理101を行い、文字枠を切り
取る。このようにして得られた入力パターンより特徴ベ
クトルを抽出102する。次に入力パターンの特徴ベク
トルとあらかじめ蓄えられている特徴辞書103中の各
文字の標準ベクトルとの相違度を計算104する。次に
相違度の大きさにより候補文字を選択105する。ここ
で、候補文字選択手段により選択された候補文字が複数
であった場合類似文字の識別106を行い、候補文字を
出力107する。
【0009】次に本発明における文字の分類方法を詳細
に説明する。
【0010】図2は、文字の特徴抽出方法を示した一例
である。この場合の特徴ベクトルは文字の外接矩形をそ
れぞれn等分して得られた(n×n)の各小領域におい
て、黒画素の濃度を計数したものである。このように、
本発明では各小領域の文字情報を反映するような特徴ベ
クトルを抽出することが望ましい。次に、文字パターン
から抽出された特徴ベクトルを用いて、特徴辞書中の標
準ベクトルとの相違度を計算する。標準ベクトルとの相
違度を計算した結果、入力パターンの特徴ベクトルと、
1位候補文字カテゴリの標準ベクトルとの相違度が、2
位候補カテゴリの標準ベクトルとの相違度より非常に小
さい場合、1位候補文字を認識文字として出力する。こ
のような場合、認識候補文字を1文字に特定することが
できる。しかし、日本語文字では、構造的に類似した文
字パターンが数多く存在するため、辞書中の標準ベクト
ルと比較した結果、複数の候補文字が選択される場合が
多い。図3は、辞書中の標準ベクトルとの比較により、
複数の候補文字が生じた例を示したものである。このよ
うに候補文字は入力パターンに対して構造的に類似した
文字群である。
【0011】次に、複数の候補文字に対して類似文字の
識別を行う。図4は、本発明における類似文字識別過程
を説明したフローチャートである。類似文字識別は、辞
書中に標準ベクトルとともに記述されている文字属性の
情報をもとに行う。図5は、本発明における特徴辞書の
構成を示したものであり、文字コード、標準ベクトル及
び文字属性情報が記述されている。文字属性情報は、日
本語を構成する偏、つくり及び冠、あし等の各部分別に
記述されている。部分ごとに共通の構造を持つものに対
しては同じ符号、また、異なる構造を持つものに対して
は互いに区別する符号が与えられている。
【0012】図6は、文字パターンにおける各部分の存
在領域を示したものである。このように偏部分601、
つくり部分602、冠部分603及びあし部分604
は、文字パターンにおいて、それぞれ左半分、右半分、
上半分、下半分の領域に相当する。例えば、図5の特徴
辞書において「池」と「地」においてつくり部分は同一
の構造であるから同じ符号、この場合{4}が割り当て
られる。また偏部分は構造が違うので、異なる符号
{1}及び{2}が割り当てられる。この場合、冠部分
とあし部分は特に構造的に分けることができないので、
属性がないという意味で、符号{*}が記述されてい
る。また「哀」と「衰」のように、あし部分に相当する
領域に共通の構造を持つものは、同一の符号が割り当て
られる。また、冠部分は、他に構造的に類似した文字が
存在しないので、{0}が割り当てられている。ここで
符号{0}は、各字種ごとに異なる構造を持つことを意
味している。従って、字種が異なれば、それぞれ違う構
造を持つことになる。このように、属性情報は基本的に
は漢字固有の部首の情報が記述されており、部首を持た
ない文字に対しても、他のカテゴリと共通な特徴がある
場合には符号を与える。
【0013】類似文字集合に対して、まず最初に特徴辞
書中の属性情報を用いて、属性の比較を行う。ここで、
文字の特徴抽出において抽出した特徴量は各小領域にお
ける特徴を反映していることから、類似文字集合につい
て属性が異なる部分に相当する特徴ベクトルを比較する
ことにより類似文字の識別を行う。例えば、入力パター
ン「池」に対する候補文字群「池」、「地」及び「他」
301における識別方法を示す。属性情報から、これら
3つの候補文字について共通部分はつくり部分であるこ
とがわかる。従って属性の異なる偏部分について入力パ
ターンと候補文字の標準パターンとの相違度を計算す
る。この結果、相違度が最も小さい「池」が認識文字と
して出力される。
【0014】また「村」に対する候補文字群「材」
「対」「村」302について示す。この場合、例えば、
偏部分については「材」と「村」が共通であり、つくり
部分では「対」と「村」が共通である。まず最初に、属
性情報により「材」と「村」が偏部分が共通しているこ
とがわかるため、つくり部分の比較を行い「村」が候補
文字として残る。次に「村」と「対」においてつくり部
分に共通部分を持っているので、偏部分の比較を行い、
この結果認識候補文字「村」を出力する。このように、
候補文字が複数であっても属性情報により共通部分を見
つけ出し、共通部分以外の領域において相違度を計算
し、逐次候補文字を絞ることにより1文字を出力でき
る。
【0015】以上、文字領域を4つの部分にわけて、各
部分の属性に基づいて類似文字の識別を行ったが、図7
に示すように「にょう」701、「もんかまえ」702
及び「くにがまえ」703等の属性を区別する情報を記
述してもよい。また、さらに多くの領域に分けて、その
部分の文字属性を記述してもよい。これにより、候補文
字間の差異が生じる部分をさらに細かく特定でき、正確
に識別を行うことができる。
【0016】
【発明の効果】以上述べたように本発明によれば、特徴
辞書中に文字の標準ベクトル及び文字の構成を示す文字
属性情報を記述しておくことにより、複数の候補文字が
生じた場合、辞書中の文字属性情報を用いて候補文字間
の差異を容易に検出できる。そして差異が生じた部分の
特徴ベクトルを比較することにより、正確かつ高速に類
似文字を識別できる文字認識装置を提供できる。
【図面の簡単な説明】
【図1】 本発明における文字の分類方法を示したブロ
ック図。
【図2】 文字の特徴抽出方法を示した図。
【図3】 入力文字に対する候補文字を示した図。
【図4】 本発明における類似文字識別過程を説明した
フローチャート。
【図5】 本発明における特徴辞書の構成を示した図。
【図6】 文字パターンの部分領域を示した図。
【図7】 文字パターンの部分領域を示した図。
【符号の説明】
101 文字枠切り取り手段 102 特徴ベクトル抽出手段 103 特徴辞書格納手段 104 相違度計算手段 105 候補文字選択手段 106 類似文字識別手段 107 候補文字出力 301 類似候補文字群 302 類似候補文字群 601 偏部分領域 602 つくり部分領域 603 冠部分領域 604 あし部分領域 701 「にょう」部分領域 702 「もんがまえ」部分領域 703 「くにがまえ」部分領域

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 2値化された文書画像に対して、入力文
    字パターンを文字枠により切り取る文字枠切り取り手段
    と、文字枠切り取り手段により得られた文字パターンか
    ら特徴ベクトルを抽出する特徴ベクトル抽出手段と、あ
    らかじめ各字種ごとの特徴を格納している特徴辞書格納
    手段と、入力パターンの特徴ベクトルと前記特徴辞書中
    の各字種ごとの標準ベクトルとの相違度を求める相違度
    計算手段と、前記相違度計算手段により得られた相違度
    の大きさにより候補文字を選択する候補文字選択手段
    と、候補文字選択手段により選択された候補文字が複数
    であった場合、さらに詳細な識別を行う類似文字識別手
    段からなる文字認識装置において、 前記各字種ごとの特徴を格納している特徴辞書格納手段
    は、文字パターンから特徴抽出することにより得られる
    文字の標準ベクトル及び文字の部分的な構成を表わす文
    字属性が格納されていることを特徴とする文字認識装
    置。
  2. 【請求項2】 前記特徴辞書に格納されている文字属性
    は、文字を構成する偏部分、冠部分、つくり部分等の情
    報が格納されていることを特徴とする請求項1記載の文
    字認識装置。
  3. 【請求項3】 前記候補文字が複数であった場合、詳細
    な識別を行う類似文字識別手段は、選択された複数の候
    補文字について前記特徴辞書を用いて属性を比較し、属
    性が異なる部分に対応する特徴ベクトルを用いて識別す
    ることを特徴とする請求項1記載の文字認識装置。
JP3279120A 1991-10-25 1991-10-25 文字認識装置 Pending JPH05120483A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3279120A JPH05120483A (ja) 1991-10-25 1991-10-25 文字認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3279120A JPH05120483A (ja) 1991-10-25 1991-10-25 文字認識装置

Publications (1)

Publication Number Publication Date
JPH05120483A true JPH05120483A (ja) 1993-05-18

Family

ID=17606712

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3279120A Pending JPH05120483A (ja) 1991-10-25 1991-10-25 文字認識装置

Country Status (1)

Country Link
JP (1) JPH05120483A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009175800A (ja) * 2008-01-21 2009-08-06 Denso Corp 文字認識装置、そのような装置を備えた燃料ポンプモジュールの組み付け装置及び文字認識方法
US7949187B2 (en) 2006-03-30 2011-05-24 Nidec Sankyo Corporation Character string recognition method and device
US8467608B2 (en) 2007-03-30 2013-06-18 Nidec Sankyo Corporation Method and apparatus for character string recognition

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7949187B2 (en) 2006-03-30 2011-05-24 Nidec Sankyo Corporation Character string recognition method and device
US8467608B2 (en) 2007-03-30 2013-06-18 Nidec Sankyo Corporation Method and apparatus for character string recognition
JP2009175800A (ja) * 2008-01-21 2009-08-06 Denso Corp 文字認識装置、そのような装置を備えた燃料ポンプモジュールの組み付け装置及び文字認識方法

Similar Documents

Publication Publication Date Title
JP2973944B2 (ja) 文書処理装置および文書処理方法
JP3452774B2 (ja) 文字認識方法
Sobottka et al. Text extraction from colored book and journal covers
EP0649113A2 (en) Multifont optical character recognition using a box connectivity approach
Liang et al. Document layout structure extraction using bounding boxes of different entitles
JPH11203415A (ja) 類似パターンカテゴリ識別辞書作成装置および方法
JP2926066B2 (ja) 表認識装置
JPH05120483A (ja) 文字認識装置
Heutte et al. Combining structural and statistical features for the recognition of handwritten characters
Tehsin et al. A caption text detection method from images/videos for efficient indexing and retrieval of multimedia data
JPH05225394A (ja) 文字認識システムの候補文字分類方法
Han et al. Coarse classification of Chinese characters via stroke clustering method
JP2917427B2 (ja) 図面読取装置
Li An implementation of ocr system based on skeleton matching
JPH09274645A (ja) 文字認識方法および装置
JP2000322514A (ja) パターン抽出装置及び文字切り出し装置
KR100473660B1 (ko) 단어인식방법
JPH07160824A (ja) 文字認識装置
JPH0785221A (ja) 図面自動認識装置の文字とシンボルの分離・認識方法
JP2976445B2 (ja) 文字認識装置
JPH05233877A (ja) 単語読み取り方法
JPH0262682A (ja) 文字認識方法
JPH03126188A (ja) 文字認識装置
JPH04286087A (ja) 文字認識装置
JPS63269267A (ja) 文字認識方法