JP2582611B2 - マルチフオント辞書の作成法 - Google Patents

マルチフオント辞書の作成法

Info

Publication number
JP2582611B2
JP2582611B2 JP63083772A JP8377288A JP2582611B2 JP 2582611 B2 JP2582611 B2 JP 2582611B2 JP 63083772 A JP63083772 A JP 63083772A JP 8377288 A JP8377288 A JP 8377288A JP 2582611 B2 JP2582611 B2 JP 2582611B2
Authority
JP
Japan
Prior art keywords
character
dictionary
fonts
font
creating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP63083772A
Other languages
English (en)
Other versions
JPH01255986A (ja
Inventor
克己 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP63083772A priority Critical patent/JP2582611B2/ja
Publication of JPH01255986A publication Critical patent/JPH01255986A/ja
Application granted granted Critical
Publication of JP2582611B2 publication Critical patent/JP2582611B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Description

【発明の詳細な説明】 〔概要〕 単一の辞書で複数の文字フォントを認識するためのマ
ルチフォント辞書の作成法に関し、 単一の辞書であっても多種類のフォントを高認識率で
認識することができるような辞書の作成方法を提供する
ことを目的とし、 認識対象の文字をM個(Mは整数)の2値化閾値で読
み込み、該2値化された画素からなる文字の輪郭を抽出
する工程と、1文字の領域をN×N(Nは整数)区分に
分割する工程と、各区分内の輪郭線を構成する画素を順
次辿ったときの次隣接画素に対する方向を基準方向から
45゜おきの4方向に対応して指数付けすることによって
各文字の1段階毎にN×N×4次元の特徴量を作成する
工程と、複数の文字フォント毎に対応して得られた複数
の特徴量を平均化した特徴量を作成する工程と、を具え
所定数の異なる文字からなる文字サンプルによって得ら
れた特徴量グループを該複数の文字フォントに対する共
通の辞書とすることによって構成する。
〔産業上の利用分野〕
本発明は単一の辞書で複数の文字フォントを認識する
ためのマルチフォント辞書の作成法に関するものであ
る。
〔従来の技術〕
活字認識装置においてはスキャナを介して文書を読み
込み、印刷されている文字を辞書を参照して1文字づつ
識別してコード化することによって文書ファイルを作成
する。さらにこれによって表示を行ったり、あるいはワ
ープロ機能と結合して文書の加工を行う等の各種の作業
を行うシステムを構成することができる。
このような活字認識装置において使用される辞書は、
認識すべき活字の文字フォントが多種類である場合に
も、高認識率で識別を行うことができるものであること
が要望される。
活字認識(ここで“活字”とはJISで定められている
漢字コードを指すものとする)を行う場合、対象とする
文字フォントに対してはJISで規格が定められている。
しかしながら現実には、新聞、雑誌等における印刷字体
やワードプロセッサ、プリンタ等における印字字体等
は、それぞれの字体はJISで定められているフォントと
似てはいるが、細部においては製造元によってそれぞれ
異なっている。
そのため従来の活字認識装置においては、このような
各種のフォントに対応してそれぞれ専用の辞書を有し、
これによって活字認識を行うようにしていた。
活字認識装置においては、各種の異なるフォントから
なる文書を共通的に扱うことができるようにすることが
望ましいが、この場合各フォントごとに辞書を用意する
ことはデータ量が膨大になって実用的でない。
そこで単一の辞書を用いて多種類のフォントを認識さ
せるようにすることが考えられるが、このようにした場
合は上述のように各フォントによって字体の相違がある
ため、ある文字フォントに対応して作成した辞書を用い
て異なる文字フォントを認識させようとすると、認識率
が悪化する場合が生じる。そのため従来は単一の辞書を
用いて多種類のフォントの認識を行うことは困難である
という問題があった。
〔発明が解決しようとする課題〕
本発明はこのような従来技術の課題を解決しようとす
るものであって、単一の辞書であっても多種類のフォン
トを高認識率で認識することができるような辞書の作成
方法を提供することを目的としている。
〔課題を解決するための手段〕
本発明のマルチフォント辞書の作成法は、第1図にそ
の原理的構成を示されるように、認識対象の文字をM階
調(Mは整数)の濃淡で2値化した画素を読み込み、該
2値化された画素からなる文字の輪郭を抽出する工程
(ステップS2,S3,S4)と、1文字の領域をN×N(Nは
整数)区分に分割する工程(ステップS5)と、各区分内
の輪郭線を構成する画素を順次辿ったときの次隣接画素
に対する方向を基準方向から45゜おきの4方向に対応し
て指数付けすることによって各文字の1階調ごとにN×
N×4次元の特徴量を作成する工程(ステップS6、S7)
と、複数の文字フォント毎に対応して得られた複数の特
徴量を平均化した特徴量を作成する工程(ステップS8)
とを具え、所定数の異なる文字からなる文字サンプルに
よって得られた特徴量グループを該複数の文字フォント
に対する共通の辞書とするものである。
従って、本発明の構成は以下に示す通りである。即
ち、認識対象の文字をM個(Mは整数)の2値化閾値で
読み込み、該2値化された画素からなる文字の輪郭を抽
出する工程と、 1文字の領域をN×N(Nは整数)区分に分割する工
程と、 各区分内の輪郭線を構成する画素を順次辿ったときの
次隣接画素に対する方向を基準方向から45゜おきの4方
向に対応して指数付けすることによって各文字の1段階
毎にN×N×4次元の特徴量を作成する工程と、 複数の文字フォント毎に対応して得られた複数の特徴
量を平均化した特徴量を作成する工程と を具え所定数の異なる文字からなる文字サンプルによっ
て得られた特徴量グループを該複数の文字フォントに対
する共通の辞書とすることを特徴とするマルチフォント
辞書の作成法としての構成を有する。
〔作用〕
本発明のマルチフォント辞書作成法においては、第1
図に示されるように、まずスキャナ等の読み込み装置か
ら辞書とすべき文章を1画面として読み込み(ステップ
S1)、次にこれを適当な閾値を用いて画像の濃淡に対応
する黒白の2値の画素の集合からなる画面に変換する
(ステップS2)。次にこのような文章イメージを文字の
行ごとに分割して切り出し、さらに各行をそれを構成す
る文字ごとに分割して切り出す(ステップS3)。
このようにして分離された各文字イメージについて文
字輪郭の抽出を行う(ステップS4)。文字輪郭の抽出は
画面を一定方向に走査した際における、画素の白→黒お
よび黒→白の変化の境界の検出等周知の方法で行うこと
ができる。
次に1文字の領域をN×N個のマス目に等分割する
(ステップS5)。そして各マス目内にある輪郭線上の画
素を、上部から輪郭線に沿って順次辿ったときの次隣接
画素に対する方向が、基準方向からの角度の大きさに対
応する45゜おきの4方向のいずれであるかを示す指数に
よって表す4方向の指数付けを行う(ステップS6)。
第2図は本発明のマルチフォント辞書の作成法のステ
ップS6における4方向の指数を示したものであって、右
水平方向を0とし、それから左回りに45゜おきに1,2,3
とした4方向の指数を定義するものとする。従って例え
ば次隣接画素に対する方向が垂直下向きのときは、指数
は2である。
このようにしてあるマス目内の輪郭線上のすべての画
素について指数付けが終了したとき、同じ指数成分ごと
にその数を加算して、基準方向からの角度が小さい順に
配列して4次元の特徴量とする。例えば特徴量が(2,0,
0,3)と表された場合は、指数“0"の数が2個、指数
“1"の数が0個、指数“2"の数が0個、指数“3"の数が
3個であることを示している。また従ってマス目内に画
素が存在しないときの特徴量は(0,0,0,0)によって示
される。
このような操作を文字イメージを構成する各マス目ご
とに行って各マス目ごとに4次元の特徴量を作成するこ
とによって、全体としてN×N×4次元からなる特徴量
を文字ごとに作成する(ステップS7)。
このような処理を濃度等の読み込み条件を変えながら
M回行う。すなわち読み込み回数i=0ら開始してi>
Mになるまで、iを+1しながら順次繰り返して行い、
これによって特徴量グループaを作成する。
さらに特徴量aの作成法に従って、K種類のフォント
の同一の文章を読み込み同様の処理を行う。すなわちフ
ォントの番号j=1から開始してj>Kになるまで、j
を+1しながら順次繰り返して行うことによって、特徴
量グループb、特徴量グループc,…を得る。
K種類の特徴量グループa,b,…の作成を終了したと
き、全グループの特徴量を平均化することによって、所
望の辞書を得る。すなわち各グループの特徴量を加算し
てK×Mで割ることによって各文字ごとの特徴量を平均
化したデータが得られるので、これをそれぞれの文字の
辞書データとする。
第3図は第1図に示された本発明のマルチフォント辞
書の作成法の原理的構成に対応するマルチフォント辞書
作成部10の構成例を示したものである。すなわち文書入
力は2値化されて一旦イメージメモリ11に格納される。
次に文字輪郭抽出部12はイメージメモリ11に格納された
データによって、行切り出し、文字切り出しおよび文字
輪郭抽出等の処理を行う。特徴量生成部13はイメージメ
モリ11に格納されたデータおよび文字輪郭抽出部12で作
成された文字輪郭のデータによって、N×Nのマス目分
割、マス目内の文字輪郭を構成する各画素と次隣接画素
との方向に対する4方向の指数付けによるN×N×4次
元の特徴量作成等の処理を行って各文字フォントに対応
する複数個の特徴量グループを作成し、さらに各グルー
プの特徴量の平均化を行って辞書データを作成する。作
成された辞書は外部記憶装置に出力されて格納される。
〔実施例〕 第4図は本発明の一実施例としてのマルチフォント辞
書の作成法の処理フローを示したものである。
また第5図はこの場合において対象とする文字フォン
トの例を示したものである。
第4図の実施例においては、スキャナから読み込む文
書としてJIS漢字コードの3303文字をコード順に配列し
た文章(文字サンプル)を用い、M=10とした場合を示
している。この場合に用いられる文字フォントの種類は
K=3すなわち第5図に示されるように、FM16β用プリ
ンタ(富士通製)に使用されているフォントA(JIS旧
字体)、FMR用プリンタ(富士通製)に使用されている
フォントB(JIS新字体)および岩田細明朝体(写植用
標準字体)のフォントCの3種類であって、従って合計
K×M=30回の処理を行って平均化して辞書を作成す
る。
処理は第4図に示すフローに従って行われる。この場
合の各ステップは第1図に示された各処理ステップに対
応して同じ番号で示されている。すなわち読み込み文字
の2値化、行切り出し、文字切り出し、文字輪郭抽出等
を行って8×8のマス目に分割して8×8×4=256次
元の特徴量を作成する。さらにこのような処理を読み込
み濃度等を変えて10回繰り返して行って特徴量グループ
を得、さらに3種類のフォントについて同様の処理を行
うことによって、合計30回の処理を行う。
すべてのデータが得られたとき、各特徴量グループを
加算して30で割って平均化することによって各文字の辞
書データを作成する。さらにこのような処理を文字サン
プルを構成する各文字について行うことによって、文字
コードと各文字の辞書データとを対応させた辞書を作成
する。
この辞書は文字サンプルを構成する各文字とそれぞれ
の文字の平均化された特徴量とを対応させたものであ
り、活字認識を行う際には、読み込まれた文字から第4
図に示されたと同様の処理によって文字輪郭抽出、特徴
量生成等の処理を行って得られた各文字の特徴量を、上
述の辞書と照合して同一または最も近い特徴量を選出
し、この特徴量に対応する文字コードを辞書から読み出
すことによって活字認識を行うことができる。
この辞書を用いて上述の各文字サンプルを評価したと
ころ、99%前後の認識率が得られた。この認識率は、各
フォントごとにそれぞれ辞書を作成して評価した場合の
認識率を上回る場合もあるものであった。
第6図は、本発明のマルチフォント辞書の作成法を適
用した活字認識装置の構成例を示したものであって、10
は第3図に示されたマルチフォント辞書作成部、14はス
キャナである。15はパソコンであって中央処理装置(CP
U)16とCPU16の動作プログラムおよび演算データ等を記
憶する主記憶装置17とを具えている。18は外部記憶装置
である。
第6図において、スキャナ14はマルチフォント辞書作
成部10に対して文書の読み込みを行い、これによってマ
ルチフォント辞書作成部10において、第3図について説
明したようにして文字輪郭抽出、特徴量作成等の処理が
行われる。パソコン15はマルチフォント辞書作成部10に
おいて、文字サンプルを構成する各文字について特徴量
が作成されるごとに、これを取り出して外部記憶装置18
に記憶させる。
このようにしてある文字フォントについてM回の処理
を行い、さらに同一文字サンプルのK個の文字フォント
について同様の処理を繰り返すことによってK×M回の
処理が終了したとき、パソコン15は外部記憶装置18から
すべての特徴量グループのデータを取り出して、加算し
てK×Mで平均化することによって各文字の辞書データ
を作成する。作成された辞書データは外部記憶装置18に
出力されて格納される。このような処理を文字サンプル
を構成する各文字について行うことによって、その文字
サンプルに対する辞書が作成される。
〔発明の効果〕
以上説明したように本発明によれば、複数の文字フォ
ントから抽出した特徴量を平均化して活字の認識を行う
場合の辞書を作成するようにしたので、各文字フォント
の共通部分を強調した辞書を得ることができ、従って単
一の辞書を用いて多種類の文字フォントからなる活字を
高い認識率で認識することができるようになる。
【図面の簡単な説明】
第1図は本発明のマルチフォント辞書の作成法の原理的
構成を示す図、 第2図は本発明のマルチフォント辞書の作成法のステッ
プS6における4方向指数を示す図 第3図は第1図に示された本発明のマルチフォント辞書
の作成法の原理的構成に対応するマルチフォント辞書作
成部の構成例を示す図、 第4図は本発明の一実施例としてのマルチフォント辞書
の作成法の処理フローを示す図、 第5図は本発明の実施例としてのマルチフォント辞書の
作成法における文字フォントの例を示す図、 第6図は本発明のマルチフォント辞書の作成法を適用し
た活字認識装置の構成例を示す図である。 10……マルチフォント辞書作成部 11……イメージメモリ 12……文字輪郭抽出部 13……特徴量生成部 14……スキャナ 15……パソコン 16……CPU 17……主記憶装置 18……外部記憶装置 S1〜S8……ステップ

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】認識対象の文字をM個(Mは整数)の2値
    化閾値で読み込み、該2値化された画素からなる文字の
    輪郭を抽出する工程と、 1文字の領域をN×N(Nは整数)区分に分割する工程
    と、 各区分内の輪郭線を構成する画素を順次辿ったときの次
    隣接画素に対する方向を基準方向から45゜おきの4方向
    に対応して指数付けすることによって各文字の1段階毎
    にN×N×4次元の特徴量を作成する工程と、 複数の文字フォント毎に対応して得られた複数の特徴量
    を平均化した特徴量を作成する工程と を具え所定数の異なる文字からなる文字サンプルによっ
    て得られた特徴量グループを該複数の文字フォントに対
    する共通の辞書とすることを特徴とするマルチフォント
    辞書の作成法。
JP63083772A 1988-04-05 1988-04-05 マルチフオント辞書の作成法 Expired - Lifetime JP2582611B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63083772A JP2582611B2 (ja) 1988-04-05 1988-04-05 マルチフオント辞書の作成法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63083772A JP2582611B2 (ja) 1988-04-05 1988-04-05 マルチフオント辞書の作成法

Publications (2)

Publication Number Publication Date
JPH01255986A JPH01255986A (ja) 1989-10-12
JP2582611B2 true JP2582611B2 (ja) 1997-02-19

Family

ID=13811895

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63083772A Expired - Lifetime JP2582611B2 (ja) 1988-04-05 1988-04-05 マルチフオント辞書の作成法

Country Status (1)

Country Link
JP (1) JP2582611B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03135598A (ja) * 1989-10-20 1991-06-10 Matsushita Electric Ind Co Ltd 文字フォント出力装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6095690A (ja) * 1983-10-31 1985-05-29 Nippon Telegr & Teleph Corp <Ntt> 文字読取装置
JPS62192886A (ja) * 1986-02-20 1987-08-24 Ricoh Co Ltd 文字認識装置における特徴量生成方法

Also Published As

Publication number Publication date
JPH01255986A (ja) 1989-10-12

Similar Documents

Publication Publication Date Title
RU2631168C2 (ru) Способы и устройства, которые преобразуют изображения документов в электронные документы с использованием trie-структуры данных, содержащей непараметризованные символы для определения слов и морфем на изображении документа
US5664027A (en) Methods and apparatus for inferring orientation of lines of text
JP2713622B2 (ja) 表形式文書読取装置
RU2643465C2 (ru) Устройства и способы, которые используют иерархически упорядоченную структуру данных, содержащую непараметризованные символы, для преобразования изображений документов в электронные документы
US20040213458A1 (en) Image processing method and system
JPH0727543B2 (ja) 文字認識装置
US20030012438A1 (en) Multiple size reductions for image segmentation
JP5538812B2 (ja) 画像処理装置、画像処理方法及びプログラム
Shanjana et al. Offline recognition of malayalam handwritten text
JP2005043990A (ja) 文書処理装置および文書処理方法
RU2625533C1 (ru) Устройства и способы, которые строят иерархически упорядоченную структуру данных, содержащую непараметризованные символы, для преобразования изображений документов в электронные документы
Kar et al. A three-phase noise removal approach to achieve accuracy in line segmentation of Odia text
JP2008108114A (ja) 文書処理装置および文書処理方法
JP2582611B2 (ja) マルチフオント辞書の作成法
Bushofa et al. Segmentation of Arabic characters using their contour information
RU2625020C1 (ru) Устройства и способы, которые порождают параметризованные символы для преобразования изображений документов в электронные документы
JPH0333990A (ja) マスク処理を用いる光学式文字認識装置及び方法
JPS62224870A (ja) 文書画像処理方法
Tsai et al. Efficiently extracting and classifying objects for analyzing color documents
Kar et al. Line reconstruction and segmentation of words and characters using measures of central tendency and measures of dispersion
Rao et al. Script identification of telugu, english and hindi document image
Kar et al. An approach for word segmentation from a line segment in Odia text using quartiles
Sarkar Word spotting in cursive handwritten documents using modified character shape codes
JP2918363B2 (ja) 文字分類方法及び文字認識装置
JP2697790B2 (ja) 文字タイプ決定方法