JPS5827281A - 包含整合法による文字認識方式 - Google Patents
包含整合法による文字認識方式Info
- Publication number
- JPS5827281A JPS5827281A JP56125527A JP12552781A JPS5827281A JP S5827281 A JPS5827281 A JP S5827281A JP 56125527 A JP56125527 A JP 56125527A JP 12552781 A JP12552781 A JP 12552781A JP S5827281 A JPS5827281 A JP S5827281A
- Authority
- JP
- Japan
- Prior art keywords
- pattern
- character
- unknown
- patterns
- partial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 claims description 20
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000007635 classification algorithm Methods 0.000 description 3
- 241000282412 Homo Species 0.000 description 1
- 241001233037 catfish Species 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
Landscapes
- Character Discrimination (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
本発明は9文字を11算機にて認識する方式に係り、特
に漢字を偏、傍1部0首で分類しながら認識する文字認
識方式に関するものである、従来日本における漢字を別
算機で認識する研究では、2000字種程度の印刷体漢
”字について、華−字体ではほぼ実用化の域に達してお
りマルチフォント印刷体漢字認識についてもよく研究さ
れている。
に漢字を偏、傍1部0首で分類しながら認識する文字認
識方式に関するものである、従来日本における漢字を別
算機で認識する研究では、2000字種程度の印刷体漢
”字について、華−字体ではほぼ実用化の域に達してお
りマルチフォント印刷体漢字認識についてもよく研究さ
れている。
しかし、実際に使用されている漢字は日本では4000
字種程度あり、中国では日本の常用漢字に相当するもの
が約6000字種あり、認識速度を上げるには、漢字を
分類して、探索の対象となる文字数をへらすことが重要
である。
字種程度あり、中国では日本の常用漢字に相当するもの
が約6000字種あり、認識速度を上げるには、漢字を
分類して、探索の対象となる文字数をへらすことが重要
である。
現在までの研究では常用漢字2000字種についてなさ
れ、複雑指数、四辺コード、粗いメツシュパターン、m
い周辺パターンなどによる(3) 分類が提案されているが、これらの分類方法は四辺コー
ド法を除いては9文字パターンがさの類に属するか人間
にはわからない。
れ、複雑指数、四辺コード、粗いメツシュパターン、m
い周辺パターンなどによる(3) 分類が提案されているが、これらの分類方法は四辺コー
ド法を除いては9文字パターンがさの類に属するか人間
にはわからない。
人間のl・力字分Vlt1は偏、傍−r+l+−首によ
る分類法と、四辺コードによる分類法であるから、 ?
)’4字認識の出合でも偏、傍0部0首パターンを用い
て分類する方法が試られた(Jf究があったが。
る分類法と、四辺コードによる分類法であるから、 ?
)’4字認識の出合でも偏、傍0部0首パターンを用い
て分類する方法が試られた(Jf究があったが。
本発明によるような、1画素の太さの線から4i’19
成された標帖パターンを使用しなかったため。
成された標帖パターンを使用しなかったため。
分力7が安定に行われなかった。
人間の文字認識に対して重要なのは文字の字画の相対位
置関係であって0字0■lの太さや1字画の位置の移動
にzJシて文字の認識が影響されてはならない。
置関係であって0字0■lの太さや1字画の位置の移動
にzJシて文字の認識が影響されてはならない。
この点に基いて字画の相対位置を考え、適当な位1m乙
1両累の太さの線から構成された標準パターンを作り、
これが未知文字パターンに含まれる割合を調べる新しい
認識方法として包含整合法を考案した。
1両累の太さの線から構成された標準パターンを作り、
これが未知文字パターンに含まれる割合を調べる新しい
認識方法として包含整合法を考案した。
以下0図面により本発明の実施例として印刷(71)
体漢字の認識方法について説明すると、第1図は包含整
合法の原理の説明図、第2図は明朝体漢字の横線を太め
て整合をとる説明図、第3図は分類のアルゴリズム、第
4図は同一文字が岸辺。水辺の二つの分類に入る例、第
5図は余白上にインクの汚れがあっても正確に分類でき
る例である。
合法の原理の説明図、第2図は明朝体漢字の横線を太め
て整合をとる説明図、第3図は分類のアルゴリズム、第
4図は同一文字が岸辺。水辺の二つの分類に入る例、第
5図は余白上にインクの汚れがあっても正確に分類でき
る例である。
第1図の中でAIはイ辺の標準パターンで、B+、 C
1,DIは未知パターンであり、 AIとB】の重なる
部分をとればElとなり、B1はA1を全部含んでいる
から、AIとElは全く同じパターンである。
1,DIは未知パターンであり、 AIとB】の重なる
部分をとればElとなり、B1はA1を全部含んでいる
から、AIとElは全く同じパターンである。
FlはAIとCIの重なる部分をとった図形で、G1は
AIとDIの重なる部分をとった図形であるが。
AIとDIの重なる部分をとった図形であるが。
CIとr)1はいづれもAIの全部と重なっていないの
で、FIとG1はいづれもA1と違うパターンとなる
)。
で、FIとG1はいづれもA1と違うパターンとなる
)。
から、+31の未知パターンだけイ辺に属することがわ
かる。
かる。
未知パターンと標率パターンとの重なる部分をとって、
標準パターンと比較し1文字の認識と分類をするのが本
方式の原理である。
標準パターンと比較し1文字の認識と分類をするのが本
方式の原理である。
(5)
次に角゛I似度を定義する。
文字パターンをM X Nメツシュで=値化して8文字
1−は1.余白−にはOとすると、標へfコバターンを
f、未知パターンをpとして 1≦1≦M、 l’yj≦N 類似度をSとし 未知パターンp が標準パターンrを全部含めば S−
1,そうでなければ S<1 となるので、この類似
度 S を尺度として未知パターンの分類と認識をする
。
1−は1.余白−にはOとすると、標へfコバターンを
f、未知パターンをpとして 1≦1≦M、 l’yj≦N 類似度をSとし 未知パターンp が標準パターンrを全部含めば S−
1,そうでなければ S<1 となるので、この類似
度 S を尺度として未知パターンの分類と認識をする
。
第2図ではA2は1辺の標準パターンで、B2と02は
同じ部分パターン戸を持っているが、A2がパターンB
2又はC2に全部含まれることはない。
同じ部分パターン戸を持っているが、A2がパターンB
2又はC2に全部含まれることはない。
その理由はパターンn2とC2は同じrを持っているが
0図形rの下の横線の位置が重ならないから(6) であるから、できるだけ標準パターンA2を含むように
するために、横線の太め処理をする。
0図形rの下の横線の位置が重ならないから(6) であるから、できるだけ標準パターンA2を含むように
するために、横線の太め処理をする。
線を太めれば槽重パターンを含む確率が増加するが、別
のfIr市iの標準パターンを含む確率も増加するので
、横線のみを上下に各1画素だけ太め処理をする。
のfIr市iの標準パターンを含む確率も増加するので
、横線のみを上下に各1画素だけ太め処理をする。
第2図のF12とF2はそれぞれ口2とC2に太め処理
をした図形である。
をした図形である。
第2図のF2と62は、それぞれD2. F2と鯰との
重なる部分をとった図形で、まだ完全に重なってはいな
いが8標朋パターンA2を下に1画素だけ移動すると、
D2と移動した槽重パターンとの重なる部分は+12と
なり、完全に重なり、積重パターンA2を上に1画素だ
け移動すれば、 F2と移動した標準パターンとの重な
る部分はI2となり。
重なる部分をとった図形で、まだ完全に重なってはいな
いが8標朋パターンA2を下に1画素だけ移動すると、
D2と移動した槽重パターンとの重なる部分は+12と
なり、完全に重なり、積重パターンA2を上に1画素だ
け移動すれば、 F2と移動した標準パターンとの重な
る部分はI2となり。
完全に重なる。
第3図は分類のアルゴリズムで、前処理として中心位置
をあわせ、横線を」二、下に各1画素太める。
をあわせ、横線を」二、下に各1画素太める。
整合を調べるには、標準パターンはそのまま(・7)
で未知パターンとの類似度Sを求め、S−1ならば未知
パターンはその分類に属するとし、Sキ1ならば標れt
!パターンを1画素十に移動して未知パターンとの類似
度Sを求め、S=1ならば未知パターンはその分類に属
するとし。
パターンはその分類に属するとし、Sキ1ならば標れt
!パターンを1画素十に移動して未知パターンとの類似
度Sを求め、S=1ならば未知パターンはその分類に属
するとし。
SKI ならば標咽パターンを1画素下に移動して未
知パターンとの類似度 Sを求め、S= 1ならばその
分類に属するとし、S−j+ならば次の標準パターンに
対して同じような比較)2する。
知パターンとの類似度 Sを求め、S= 1ならばその
分類に属するとし、S−j+ならば次の標準パターンに
対して同じような比較)2する。
分類用の標準パターンは図形の大きさと字画の位置によ
って各種類とも4つ用意したので。
って各種類とも4つ用意したので。
未知パターンがどの分類にbusするかをきめるには4
つの積重パターンとの類似度S を計算するから7合1
i12回引算することになる。
つの積重パターンとの類似度S を計算するから7合1
i12回引算することになる。
この方式の有効性を調べるために中国の漢字6000文
字の中の5659文字を198種の分類用標邸パターン
を使用して実験してみた結果、97.29%が正確に分
類できたが、第4図の八4のような未知パターンネ疹よ
、 nAの岸辺の(8) 標準パターンに分類されるべきであるが、C4のオ辺の
標準パターンにも属する結果となった。
字の中の5659文字を198種の分類用標邸パターン
を使用して実験してみた結果、97.29%が正確に分
類できたが、第4図の八4のような未知パターンネ疹よ
、 nAの岸辺の(8) 標準パターンに分類されるべきであるが、C4のオ辺の
標準パターンにも属する結果となった。
このような文字は5659文字中1z1文字あり、この
121文字は二つの分類に入れることにより正確分類率
は99.43%となった。
121文字は二つの分類に入れることにより正確分類率
は99.43%となった。
本方式では1番目の分類の中の1番目の文字の場合には
1分類をきめるのに1回1文字をきめるのに1回で合計
2字種の標準パターンとを比較すればよい。
1分類をきめるのに1回1文字をきめるのに1回で合計
2字種の標準パターンとを比較すればよい。
分類できる文字数は5659であるから、分類できない
文字の数は6000−5659−341字で0分類でき
ない文字の中の最後の文字を認識するのに必要な比較字
種の数は6分類に198M、文字をきめるのに341種
で合Tl539種で、これが認識するのに一番時間のか
かる場合であるから、最悪の場合でも6000字種全部
の標準パターンとの類似度を求めるのに比較して10分
の1以下の時間ですむ利点がある。又余白」二のインク
の汚れに対しては、汚れが字画の結合駅部に影響しなけ
れば、原理上舌(9) れの影響は消されので、従来の整合法と比較して汚れに
強い利点がある。
文字の数は6000−5659−341字で0分類でき
ない文字の中の最後の文字を認識するのに必要な比較字
種の数は6分類に198M、文字をきめるのに341種
で合Tl539種で、これが認識するのに一番時間のか
かる場合であるから、最悪の場合でも6000字種全部
の標準パターンとの類似度を求めるのに比較して10分
の1以下の時間ですむ利点がある。又余白」二のインク
の汚れに対しては、汚れが字画の結合駅部に影響しなけ
れば、原理上舌(9) れの影響は消されので、従来の整合法と比較して汚れに
強い利点がある。
第5図は汚れのあるパターンでも正確に分類できる伊1
である。
である。
本方式は文字の大きさを正視化する前処理をして一定の
大きさとし、形を整理し、1字種あたりの標準パターン
の数を増加すれば0手書きの文字に対しても適用できる
。
大きさとし、形を整理し、1字種あたりの標準パターン
の数を増加すれば0手書きの文字に対しても適用できる
。
図は本発明を印刷体漢字の認識装fmへ適用した場合の
実施例を示すもので、第1図は包含整合法の原理の説明
図、第2図は明朝体漢字の横線を太めて整合をとる説明
図、第3図は分類のアルゴリズム、第1図は同一文字が
岸辺とオ辺の二つの分類に入る例、第5図は余白十にイ
ンクの汚れがあっても正確に分類できる例である。 A1・・イ辺の標準パターン、 r]l、 CI、 D
I・・メ七知パターン、EI・・A1と01の重なる部
分のパターン、FT・・AIとCIの重なる部分のパタ
ーン。 (10) G1・・A1と111の重なる部分のパターン、A2・
・1辺の標準パターン、 +12. C2・・未知パタ
ーン。 +12. F2・・それぞれn2. C2の横線を1画
素太めたパターン、 F2. G2・・それぞれA2と
1]2および仙とF2の重なる部分のパターン、 +1
2・・A2を1画素下に移動した図形とI)2との重な
る部分のパターン、 T2・・A2を1画素子に移動し
た図形とF2との重なる部分のパターン、 A4・・未
知パターン、B4・・岸辺の標べaパターン、C4・・
オ辺の標轄パターン。 出願人 郭宝蘭 出願人 松本欣二 (11) 四li′li(’+4G’+’(内γf1ンQ、+す1
なし)1 81 EICI
FIDI
G11 i、l+件の表示 昭和5
6イI゛特;Y1願第1.25汐、!7号2 発明の名
称 包含整合法による文字認識方式3 補汀°をする者 事件との関係 持前出願人 5 補正の対象 / 図面 ! 外国人登録済HIE明書 6 補IFの内容 / 全図面の浄書 内容に変更なし
! 外国人登録済証明書
実施例を示すもので、第1図は包含整合法の原理の説明
図、第2図は明朝体漢字の横線を太めて整合をとる説明
図、第3図は分類のアルゴリズム、第1図は同一文字が
岸辺とオ辺の二つの分類に入る例、第5図は余白十にイ
ンクの汚れがあっても正確に分類できる例である。 A1・・イ辺の標準パターン、 r]l、 CI、 D
I・・メ七知パターン、EI・・A1と01の重なる部
分のパターン、FT・・AIとCIの重なる部分のパタ
ーン。 (10) G1・・A1と111の重なる部分のパターン、A2・
・1辺の標準パターン、 +12. C2・・未知パタ
ーン。 +12. F2・・それぞれn2. C2の横線を1画
素太めたパターン、 F2. G2・・それぞれA2と
1]2および仙とF2の重なる部分のパターン、 +1
2・・A2を1画素下に移動した図形とI)2との重な
る部分のパターン、 T2・・A2を1画素子に移動し
た図形とF2との重なる部分のパターン、 A4・・未
知パターン、B4・・岸辺の標べaパターン、C4・・
オ辺の標轄パターン。 出願人 郭宝蘭 出願人 松本欣二 (11) 四li′li(’+4G’+’(内γf1ンQ、+す1
なし)1 81 EICI
FIDI
G11 i、l+件の表示 昭和5
6イI゛特;Y1願第1.25汐、!7号2 発明の名
称 包含整合法による文字認識方式3 補汀°をする者 事件との関係 持前出願人 5 補正の対象 / 図面 ! 外国人登録済HIE明書 6 補IFの内容 / 全図面の浄書 内容に変更なし
! 外国人登録済証明書
Claims (5)
- (1)文字を構成する各字画のほぼ中心線上に1画素の
太さの細線をつくり、この細線の組合せで各字種毎に数
個の標準パターンを作成し未知文字とこれらの標朋パタ
ーンとを重ね。 これらの標準パターンの中で、それぞれの画素が、未知
パターンに含まれる割合いの一番多い標準パターンをさ
がし、この標準パターンの字種を未知パターンの字種と
して認識することを特徴とする文字認識方式。 - (2)7%字においては個、傍1部1首において。 数種類の字種に共通の部分パターンが存在するから、こ
の共通の部分パターンのみの部分標準パターンを作成し
、未知文字パターンがどの部分標準パタ−ンを含む割合
が一番多いかを調べ、含む割合の一番名いf$部分標準
パターン分類に未知パターンを分類することを(1) 特徴とする文字認識方式6 - (3)部分標準パターンは同一分類に属する文字でも字
種により少しの変形があるため数種類用意し、未知パタ
ーンと部分標準パターンとの整合をとる11h合に0部
分標準パターンを少し」1下左右に移動させながら、未
知パターンに含まれる割合の一番多きな部分標tilt
パターンをさがして、未知パターンを分類することを特
徴とする第一項または第二項記載の文字認識方式。 - (4)未知文字パターンの字画の細い部分を太める前処
理をしたtaに6部分標準パターンが含まれる割合の一
番多い部分標準パターンをさがして、未知パターンを分
類することを特徴とする第一項または第二項記載の文字
認識方式。 - (5)未知文字パターンの字画の細い部分を太める前処
理のために、別の2種類の部分標準パターンが、未知文
字の部分パターンに全部会まれることになる場合には、
同一文字をこれ(2) らの二つの分類に入れることにより正値分類率を上げる
ことを特徴とする第一項または第二項記載の文字認識方
式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP56125527A JPS5827281A (ja) | 1981-08-10 | 1981-08-10 | 包含整合法による文字認識方式 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP56125527A JPS5827281A (ja) | 1981-08-10 | 1981-08-10 | 包含整合法による文字認識方式 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPS5827281A true JPS5827281A (ja) | 1983-02-17 |
Family
ID=14912377
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP56125527A Pending JPS5827281A (ja) | 1981-08-10 | 1981-08-10 | 包含整合法による文字認識方式 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS5827281A (ja) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS4844054A (ja) * | 1971-10-08 | 1973-06-25 | ||
JPS5080732A (ja) * | 1973-11-14 | 1975-07-01 | ||
JPS5099636A (ja) * | 1973-12-30 | 1975-08-07 | ||
JPS54126431A (en) * | 1978-03-24 | 1979-10-01 | Nec Corp | Character recognition system |
-
1981
- 1981-08-10 JP JP56125527A patent/JPS5827281A/ja active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS4844054A (ja) * | 1971-10-08 | 1973-06-25 | ||
JPS5080732A (ja) * | 1973-11-14 | 1975-07-01 | ||
JPS5099636A (ja) * | 1973-12-30 | 1975-08-07 | ||
JPS54126431A (en) * | 1978-03-24 | 1979-10-01 | Nec Corp | Character recognition system |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Madhvanath et al. | The role of holistic paradigms in handwritten word recognition | |
JP5522408B2 (ja) | パターン認識装置 | |
Pal et al. | Handwriting recognition in indian regional scripts: a survey of offline techniques | |
EP0114250B1 (en) | Confusion grouping of strokes in pattern recognition method and system | |
Garg et al. | A new method for line segmentation of handwritten Hindi text | |
JPS60217477A (ja) | 手書き文字認識装置 | |
Aouadi et al. | Word extraction and recognition in arabic. handwritten Text | |
Garg et al. | Segmentation of handwritten Hindi text | |
Hull et al. | Combination of segmentation-based and wholistic handwritten word recognition algorithms | |
Adak et al. | Writer identification from offline isolated Bangla characters and numerals | |
CN108921006A (zh) | 手写签名图像真伪鉴别模型建立方法及真伪鉴别方法 | |
Cheriet et al. | Extraction of key letters for cursive script recognition | |
Saabni | Efficient recognition of machine printed Arabic text using partial segmentation and Hausdorff distance | |
Darma | Implementation of Zoning and K-Nearest Neighbor in Character Recognition of Wrésastra Script | |
Wang et al. | Multi-experts for touching digit string recognition | |
Xu et al. | Low resolution handwritten digit string recognition based on object detection network | |
JPS5827281A (ja) | 包含整合法による文字認識方式 | |
Mashiyat et al. | Bangla off-line handwritten character recognition using superimposed matrices | |
Sajedi et al. | Persian handwritten number recognition using adapted framing feature and support vector machines | |
Han et al. | An off-line cursive handwritten word recognition system and its application to legal amount interpretation | |
Paquet et al. | Automatic reading of the literal amount of bank checks | |
Tou et al. | Automatic recognition of handwritten characters via feature extraction and multi-level decision | |
Sas | Handwriting recognition accuracy improvement by author identification | |
Madhvanath et al. | Empirical design of a multi-classifier thresholding/control strategy for recognition of handwritten street names | |
Madhvanath et al. | The HOVER system for rapid holistic verification of off-line handwritten phrases |