JPS5827281A - 包含整合法による文字認識方式 - Google Patents

包含整合法による文字認識方式

Info

Publication number
JPS5827281A
JPS5827281A JP56125527A JP12552781A JPS5827281A JP S5827281 A JPS5827281 A JP S5827281A JP 56125527 A JP56125527 A JP 56125527A JP 12552781 A JP12552781 A JP 12552781A JP S5827281 A JPS5827281 A JP S5827281A
Authority
JP
Japan
Prior art keywords
pattern
character
unknown
patterns
partial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP56125527A
Other languages
English (en)
Inventor
郭宝蘭
松本欣二
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to JP56125527A priority Critical patent/JPS5827281A/ja
Publication of JPS5827281A publication Critical patent/JPS5827281A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 本発明は9文字を11算機にて認識する方式に係り、特
に漢字を偏、傍1部0首で分類しながら認識する文字認
識方式に関するものである、従来日本における漢字を別
算機で認識する研究では、2000字種程度の印刷体漢
”字について、華−字体ではほぼ実用化の域に達してお
りマルチフォント印刷体漢字認識についてもよく研究さ
れている。
しかし、実際に使用されている漢字は日本では4000
字種程度あり、中国では日本の常用漢字に相当するもの
が約6000字種あり、認識速度を上げるには、漢字を
分類して、探索の対象となる文字数をへらすことが重要
である。
現在までの研究では常用漢字2000字種についてなさ
れ、複雑指数、四辺コード、粗いメツシュパターン、m
い周辺パターンなどによる(3) 分類が提案されているが、これらの分類方法は四辺コー
ド法を除いては9文字パターンがさの類に属するか人間
にはわからない。
人間のl・力字分Vlt1は偏、傍−r+l+−首によ
る分類法と、四辺コードによる分類法であるから、 ?
)’4字認識の出合でも偏、傍0部0首パターンを用い
て分類する方法が試られた(Jf究があったが。
本発明によるような、1画素の太さの線から4i’19
成された標帖パターンを使用しなかったため。
分力7が安定に行われなかった。
人間の文字認識に対して重要なのは文字の字画の相対位
置関係であって0字0■lの太さや1字画の位置の移動
にzJシて文字の認識が影響されてはならない。
この点に基いて字画の相対位置を考え、適当な位1m乙
1両累の太さの線から構成された標準パターンを作り、
これが未知文字パターンに含まれる割合を調べる新しい
認識方法として包含整合法を考案した。
以下0図面により本発明の実施例として印刷(71) 体漢字の認識方法について説明すると、第1図は包含整
合法の原理の説明図、第2図は明朝体漢字の横線を太め
て整合をとる説明図、第3図は分類のアルゴリズム、第
4図は同一文字が岸辺。水辺の二つの分類に入る例、第
5図は余白上にインクの汚れがあっても正確に分類でき
る例である。
第1図の中でAIはイ辺の標準パターンで、B+、 C
1,DIは未知パターンであり、 AIとB】の重なる
部分をとればElとなり、B1はA1を全部含んでいる
から、AIとElは全く同じパターンである。
FlはAIとCIの重なる部分をとった図形で、G1は
AIとDIの重なる部分をとった図形であるが。
CIとr)1はいづれもAIの全部と重なっていないの
で、FIとG1はいづれもA1と違うパターンとなる 
)。
から、+31の未知パターンだけイ辺に属することがわ
かる。
未知パターンと標率パターンとの重なる部分をとって、
標準パターンと比較し1文字の認識と分類をするのが本
方式の原理である。
(5) 次に角゛I似度を定義する。
文字パターンをM X Nメツシュで=値化して8文字
1−は1.余白−にはOとすると、標へfコバターンを
f、未知パターンをpとして 1≦1≦M、   l’yj≦N 類似度をSとし 未知パターンp が標準パターンrを全部含めば S−
1,そうでなければ S<1  となるので、この類似
度 S を尺度として未知パターンの分類と認識をする
第2図ではA2は1辺の標準パターンで、B2と02は
同じ部分パターン戸を持っているが、A2がパターンB
2又はC2に全部含まれることはない。
その理由はパターンn2とC2は同じrを持っているが
0図形rの下の横線の位置が重ならないから(6) であるから、できるだけ標準パターンA2を含むように
するために、横線の太め処理をする。
線を太めれば槽重パターンを含む確率が増加するが、別
のfIr市iの標準パターンを含む確率も増加するので
、横線のみを上下に各1画素だけ太め処理をする。
第2図のF12とF2はそれぞれ口2とC2に太め処理
をした図形である。
第2図のF2と62は、それぞれD2. F2と鯰との
重なる部分をとった図形で、まだ完全に重なってはいな
いが8標朋パターンA2を下に1画素だけ移動すると、
D2と移動した槽重パターンとの重なる部分は+12と
なり、完全に重なり、積重パターンA2を上に1画素だ
け移動すれば、 F2と移動した標準パターンとの重な
る部分はI2となり。
完全に重なる。
第3図は分類のアルゴリズムで、前処理として中心位置
をあわせ、横線を」二、下に各1画素太める。
整合を調べるには、標準パターンはそのまま(・7) で未知パターンとの類似度Sを求め、S−1ならば未知
パターンはその分類に属するとし、Sキ1ならば標れt
!パターンを1画素十に移動して未知パターンとの類似
度Sを求め、S=1ならば未知パターンはその分類に属
するとし。
SKI  ならば標咽パターンを1画素下に移動して未
知パターンとの類似度 Sを求め、S= 1ならばその
分類に属するとし、S−j+ならば次の標準パターンに
対して同じような比較)2する。
分類用の標準パターンは図形の大きさと字画の位置によ
って各種類とも4つ用意したので。
未知パターンがどの分類にbusするかをきめるには4
つの積重パターンとの類似度S を計算するから7合1
i12回引算することになる。
この方式の有効性を調べるために中国の漢字6000文
字の中の5659文字を198種の分類用標邸パターン
を使用して実験してみた結果、97.29%が正確に分
類できたが、第4図の八4のような未知パターンネ疹よ
、 nAの岸辺の(8) 標準パターンに分類されるべきであるが、C4のオ辺の
標準パターンにも属する結果となった。
このような文字は5659文字中1z1文字あり、この
121文字は二つの分類に入れることにより正確分類率
は99.43%となった。
本方式では1番目の分類の中の1番目の文字の場合には
1分類をきめるのに1回1文字をきめるのに1回で合計
2字種の標準パターンとを比較すればよい。
分類できる文字数は5659であるから、分類できない
文字の数は6000−5659−341字で0分類でき
ない文字の中の最後の文字を認識するのに必要な比較字
種の数は6分類に198M、文字をきめるのに341種
で合Tl539種で、これが認識するのに一番時間のか
かる場合であるから、最悪の場合でも6000字種全部
の標準パターンとの類似度を求めるのに比較して10分
の1以下の時間ですむ利点がある。又余白」二のインク
の汚れに対しては、汚れが字画の結合駅部に影響しなけ
れば、原理上舌(9) れの影響は消されので、従来の整合法と比較して汚れに
強い利点がある。
第5図は汚れのあるパターンでも正確に分類できる伊1
である。
本方式は文字の大きさを正視化する前処理をして一定の
大きさとし、形を整理し、1字種あたりの標準パターン
の数を増加すれば0手書きの文字に対しても適用できる
【図面の簡単な説明】
図は本発明を印刷体漢字の認識装fmへ適用した場合の
実施例を示すもので、第1図は包含整合法の原理の説明
図、第2図は明朝体漢字の横線を太めて整合をとる説明
図、第3図は分類のアルゴリズム、第1図は同一文字が
岸辺とオ辺の二つの分類に入る例、第5図は余白十にイ
ンクの汚れがあっても正確に分類できる例である。 A1・・イ辺の標準パターン、 r]l、 CI、 D
I・・メ七知パターン、EI・・A1と01の重なる部
分のパターン、FT・・AIとCIの重なる部分のパタ
ーン。 (10) G1・・A1と111の重なる部分のパターン、A2・
・1辺の標準パターン、 +12. C2・・未知パタ
ーン。 +12. F2・・それぞれn2. C2の横線を1画
素太めたパターン、 F2. G2・・それぞれA2と
1]2および仙とF2の重なる部分のパターン、 +1
2・・A2を1画素下に移動した図形とI)2との重な
る部分のパターン、 T2・・A2を1画素子に移動し
た図形とF2との重なる部分のパターン、 A4・・未
知パターン、B4・・岸辺の標べaパターン、C4・・
オ辺の標轄パターン。 出願人 郭宝蘭 出願人 松本欣二 (11) 四li′li(’+4G’+’(内γf1ンQ、+す1
なし)1 81                 EICI  
             FIDI        
        G11  i、l+件の表示 昭和5
6イI゛特;Y1願第1.25汐、!7号2 発明の名
称 包含整合法による文字認識方式3 補汀°をする者 事件との関係 持前出願人 5 補正の対象 / 図面 ! 外国人登録済HIE明書 6 補IFの内容 / 全図面の浄書 内容に変更なし
! 外国人登録済証明書

Claims (5)

    【特許請求の範囲】
  1. (1)文字を構成する各字画のほぼ中心線上に1画素の
    太さの細線をつくり、この細線の組合せで各字種毎に数
    個の標準パターンを作成し未知文字とこれらの標朋パタ
    ーンとを重ね。 これらの標準パターンの中で、それぞれの画素が、未知
    パターンに含まれる割合いの一番多い標準パターンをさ
    がし、この標準パターンの字種を未知パターンの字種と
    して認識することを特徴とする文字認識方式。
  2. (2)7%字においては個、傍1部1首において。 数種類の字種に共通の部分パターンが存在するから、こ
    の共通の部分パターンのみの部分標準パターンを作成し
    、未知文字パターンがどの部分標準パタ−ンを含む割合
    が一番多いかを調べ、含む割合の一番名いf$部分標準
    パターン分類に未知パターンを分類することを(1) 特徴とする文字認識方式6
  3. (3)部分標準パターンは同一分類に属する文字でも字
    種により少しの変形があるため数種類用意し、未知パタ
    ーンと部分標準パターンとの整合をとる11h合に0部
    分標準パターンを少し」1下左右に移動させながら、未
    知パターンに含まれる割合の一番多きな部分標tilt
    パターンをさがして、未知パターンを分類することを特
    徴とする第一項または第二項記載の文字認識方式。
  4. (4)未知文字パターンの字画の細い部分を太める前処
    理をしたtaに6部分標準パターンが含まれる割合の一
    番多い部分標準パターンをさがして、未知パターンを分
    類することを特徴とする第一項または第二項記載の文字
    認識方式。
  5. (5)未知文字パターンの字画の細い部分を太める前処
    理のために、別の2種類の部分標準パターンが、未知文
    字の部分パターンに全部会まれることになる場合には、
    同一文字をこれ(2) らの二つの分類に入れることにより正値分類率を上げる
    ことを特徴とする第一項または第二項記載の文字認識方
    式。
JP56125527A 1981-08-10 1981-08-10 包含整合法による文字認識方式 Pending JPS5827281A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP56125527A JPS5827281A (ja) 1981-08-10 1981-08-10 包含整合法による文字認識方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP56125527A JPS5827281A (ja) 1981-08-10 1981-08-10 包含整合法による文字認識方式

Publications (1)

Publication Number Publication Date
JPS5827281A true JPS5827281A (ja) 1983-02-17

Family

ID=14912377

Family Applications (1)

Application Number Title Priority Date Filing Date
JP56125527A Pending JPS5827281A (ja) 1981-08-10 1981-08-10 包含整合法による文字認識方式

Country Status (1)

Country Link
JP (1) JPS5827281A (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS4844054A (ja) * 1971-10-08 1973-06-25
JPS5080732A (ja) * 1973-11-14 1975-07-01
JPS5099636A (ja) * 1973-12-30 1975-08-07
JPS54126431A (en) * 1978-03-24 1979-10-01 Nec Corp Character recognition system

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS4844054A (ja) * 1971-10-08 1973-06-25
JPS5080732A (ja) * 1973-11-14 1975-07-01
JPS5099636A (ja) * 1973-12-30 1975-08-07
JPS54126431A (en) * 1978-03-24 1979-10-01 Nec Corp Character recognition system

Similar Documents

Publication Publication Date Title
Madhvanath et al. The role of holistic paradigms in handwritten word recognition
JP5522408B2 (ja) パターン認識装置
Pal et al. Handwriting recognition in indian regional scripts: a survey of offline techniques
EP0114250B1 (en) Confusion grouping of strokes in pattern recognition method and system
Garg et al. A new method for line segmentation of handwritten Hindi text
JPS60217477A (ja) 手書き文字認識装置
Aouadi et al. Word extraction and recognition in arabic. handwritten Text
Garg et al. Segmentation of handwritten Hindi text
Hull et al. Combination of segmentation-based and wholistic handwritten word recognition algorithms
Adak et al. Writer identification from offline isolated Bangla characters and numerals
CN108921006A (zh) 手写签名图像真伪鉴别模型建立方法及真伪鉴别方法
Cheriet et al. Extraction of key letters for cursive script recognition
Saabni Efficient recognition of machine printed Arabic text using partial segmentation and Hausdorff distance
Darma Implementation of Zoning and K-Nearest Neighbor in Character Recognition of Wrésastra Script
Wang et al. Multi-experts for touching digit string recognition
Xu et al. Low resolution handwritten digit string recognition based on object detection network
JPS5827281A (ja) 包含整合法による文字認識方式
Mashiyat et al. Bangla off-line handwritten character recognition using superimposed matrices
Sajedi et al. Persian handwritten number recognition using adapted framing feature and support vector machines
Han et al. An off-line cursive handwritten word recognition system and its application to legal amount interpretation
Paquet et al. Automatic reading of the literal amount of bank checks
Tou et al. Automatic recognition of handwritten characters via feature extraction and multi-level decision
Sas Handwriting recognition accuracy improvement by author identification
Madhvanath et al. Empirical design of a multi-classifier thresholding/control strategy for recognition of handwritten street names
Madhvanath et al. The HOVER system for rapid holistic verification of off-line handwritten phrases