JP2582611B2 - How to create a multi-font dictionary - Google Patents

How to create a multi-font dictionary

Info

Publication number
JP2582611B2
JP2582611B2 JP63083772A JP8377288A JP2582611B2 JP 2582611 B2 JP2582611 B2 JP 2582611B2 JP 63083772 A JP63083772 A JP 63083772A JP 8377288 A JP8377288 A JP 8377288A JP 2582611 B2 JP2582611 B2 JP 2582611B2
Authority
JP
Japan
Prior art keywords
character
dictionary
fonts
font
creating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP63083772A
Other languages
Japanese (ja)
Other versions
JPH01255986A (en
Inventor
克己 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP63083772A priority Critical patent/JP2582611B2/en
Publication of JPH01255986A publication Critical patent/JPH01255986A/en
Application granted granted Critical
Publication of JP2582611B2 publication Critical patent/JP2582611B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Description

【発明の詳細な説明】 〔概要〕 単一の辞書で複数の文字フォントを認識するためのマ
ルチフォント辞書の作成法に関し、 単一の辞書であっても多種類のフォントを高認識率で
認識することができるような辞書の作成方法を提供する
ことを目的とし、 認識対象の文字をM個(Mは整数)の2値化閾値で読
み込み、該2値化された画素からなる文字の輪郭を抽出
する工程と、1文字の領域をN×N(Nは整数)区分に
分割する工程と、各区分内の輪郭線を構成する画素を順
次辿ったときの次隣接画素に対する方向を基準方向から
45゜おきの4方向に対応して指数付けすることによって
各文字の1段階毎にN×N×4次元の特徴量を作成する
工程と、複数の文字フォント毎に対応して得られた複数
の特徴量を平均化した特徴量を作成する工程と、を具え
所定数の異なる文字からなる文字サンプルによって得ら
れた特徴量グループを該複数の文字フォントに対する共
通の辞書とすることによって構成する。
DETAILED DESCRIPTION OF THE INVENTION [Summary] Regarding a method for creating a multi-font dictionary for recognizing a plurality of character fonts with a single dictionary, it recognizes many types of fonts with a high recognition rate even with a single dictionary It is an object of the present invention to provide a dictionary creation method that can read a character to be recognized with M (M is an integer) binarization thresholds and obtain a contour of a character composed of the binarized pixels. , A step of dividing a one-character area into N × N (N is an integer) sections, and a step in which pixels constituting a contour line in each section are sequentially traced with respect to a next adjacent pixel as a reference direction. From
A process of creating an N × N × 4 dimensional feature amount for each stage of each character by indexing corresponding to four directions at intervals of 45 °, and a plurality of features obtained for each of a plurality of character fonts. And generating a feature amount obtained by averaging the feature amounts of the character fonts. A feature amount group obtained by character samples including a predetermined number of different characters is used as a common dictionary for the plurality of character fonts.

〔産業上の利用分野〕[Industrial applications]

本発明は単一の辞書で複数の文字フォントを認識する
ためのマルチフォント辞書の作成法に関するものであ
る。
The present invention relates to a method for creating a multi-font dictionary for recognizing a plurality of character fonts with a single dictionary.

〔従来の技術〕[Conventional technology]

活字認識装置においてはスキャナを介して文書を読み
込み、印刷されている文字を辞書を参照して1文字づつ
識別してコード化することによって文書ファイルを作成
する。さらにこれによって表示を行ったり、あるいはワ
ープロ機能と結合して文書の加工を行う等の各種の作業
を行うシステムを構成することができる。
In the type recognition apparatus, a document is read via a scanner, and printed characters are identified and coded one by one with reference to a dictionary to create a document file. Further, a system for performing various operations such as displaying a document or processing a document in combination with a word processing function can be configured.

このような活字認識装置において使用される辞書は、
認識すべき活字の文字フォントが多種類である場合に
も、高認識率で識別を行うことができるものであること
が要望される。
The dictionary used in such a type recognition device is:
It is desired that even if there are many types of character fonts of the type to be recognized, the type can be identified at a high recognition rate.

活字認識(ここで“活字”とはJISで定められている
漢字コードを指すものとする)を行う場合、対象とする
文字フォントに対してはJISで規格が定められている。
しかしながら現実には、新聞、雑誌等における印刷字体
やワードプロセッサ、プリンタ等における印字字体等
は、それぞれの字体はJISで定められているフォントと
似てはいるが、細部においては製造元によってそれぞれ
異なっている。
When performing type recognition (here, “type” refers to a kanji code defined by JIS), standards are defined by JIS for target character fonts.
However, in reality, print fonts in newspapers, magazines, etc., and print fonts in word processors, printers, etc., are similar to the fonts specified in JIS, but differ in detail depending on the manufacturer. .

そのため従来の活字認識装置においては、このような
各種のフォントに対応してそれぞれ専用の辞書を有し、
これによって活字認識を行うようにしていた。
Therefore, the conventional type recognition device has a dedicated dictionary corresponding to each of these various fonts,
Thus, type recognition was performed.

活字認識装置においては、各種の異なるフォントから
なる文書を共通的に扱うことができるようにすることが
望ましいが、この場合各フォントごとに辞書を用意する
ことはデータ量が膨大になって実用的でない。
In a type recognition device, it is desirable to be able to handle documents composed of various different fonts in common. In this case, however, preparing a dictionary for each font requires a huge amount of data and is practical. Not.

そこで単一の辞書を用いて多種類のフォントを認識さ
せるようにすることが考えられるが、このようにした場
合は上述のように各フォントによって字体の相違がある
ため、ある文字フォントに対応して作成した辞書を用い
て異なる文字フォントを認識させようとすると、認識率
が悪化する場合が生じる。そのため従来は単一の辞書を
用いて多種類のフォントの認識を行うことは困難である
という問題があった。
Therefore, it is conceivable to use a single dictionary to recognize many types of fonts.However, in this case, there is a difference in fonts between the fonts as described above. If the user tries to recognize different character fonts using the dictionary created in this way, the recognition rate may deteriorate. Therefore, conventionally, there was a problem that it was difficult to recognize many types of fonts using a single dictionary.

〔発明が解決しようとする課題〕[Problems to be solved by the invention]

本発明はこのような従来技術の課題を解決しようとす
るものであって、単一の辞書であっても多種類のフォン
トを高認識率で認識することができるような辞書の作成
方法を提供することを目的としている。
SUMMARY OF THE INVENTION The present invention is to solve such a problem of the prior art, and provides a dictionary creation method that can recognize a variety of fonts at a high recognition rate even with a single dictionary. It is intended to be.

〔課題を解決するための手段〕[Means for solving the problem]

本発明のマルチフォント辞書の作成法は、第1図にそ
の原理的構成を示されるように、認識対象の文字をM階
調(Mは整数)の濃淡で2値化した画素を読み込み、該
2値化された画素からなる文字の輪郭を抽出する工程
(ステップS2,S3,S4)と、1文字の領域をN×N(Nは
整数)区分に分割する工程(ステップS5)と、各区分内
の輪郭線を構成する画素を順次辿ったときの次隣接画素
に対する方向を基準方向から45゜おきの4方向に対応し
て指数付けすることによって各文字の1階調ごとにN×
N×4次元の特徴量を作成する工程(ステップS6、S7)
と、複数の文字フォント毎に対応して得られた複数の特
徴量を平均化した特徴量を作成する工程(ステップS8)
とを具え、所定数の異なる文字からなる文字サンプルに
よって得られた特徴量グループを該複数の文字フォント
に対する共通の辞書とするものである。
As shown in FIG. 1, the method of creating a multi-font dictionary according to the present invention reads pixels obtained by binarizing a character to be recognized with M gradations (M is an integer). A step of extracting a contour of a character composed of binarized pixels (steps S2, S3, S4); and a step of dividing an area of one character into N × N (N is an integer) sections (step S5). By indexing the direction with respect to the next adjacent pixel when sequentially tracing the pixels constituting the contour line in the segment in correspondence with four directions at 45 ° intervals from the reference direction, N × N × 1 for each gradation of each character
Step of creating N × 4 dimensional features (steps S6 and S7)
And a step of creating a feature amount by averaging a plurality of feature amounts obtained for each of a plurality of character fonts (step S8)
And a feature dictionary obtained by a character sample composed of a predetermined number of different characters is used as a common dictionary for the plurality of character fonts.

従って、本発明の構成は以下に示す通りである。即
ち、認識対象の文字をM個(Mは整数)の2値化閾値で
読み込み、該2値化された画素からなる文字の輪郭を抽
出する工程と、 1文字の領域をN×N(Nは整数)区分に分割する工
程と、 各区分内の輪郭線を構成する画素を順次辿ったときの
次隣接画素に対する方向を基準方向から45゜おきの4方
向に対応して指数付けすることによって各文字の1段階
毎にN×N×4次元の特徴量を作成する工程と、 複数の文字フォント毎に対応して得られた複数の特徴
量を平均化した特徴量を作成する工程と を具え所定数の異なる文字からなる文字サンプルによっ
て得られた特徴量グループを該複数の文字フォントに対
する共通の辞書とすることを特徴とするマルチフォント
辞書の作成法としての構成を有する。
Accordingly, the configuration of the present invention is as described below. That is, a character to be recognized is read with M (M is an integer) binarization thresholds, and a contour of a character composed of the binarized pixels is extracted. Is an integer) by dividing the image into sections, and by indexing the directions to the next adjacent pixel when sequentially tracing the pixels constituting the contour line in each section, corresponding to four directions at 45 ° intervals from the reference direction. A step of creating an N × N × 4 dimensional feature for each stage of each character; and a step of creating a feature by averaging a plurality of features obtained for each of a plurality of character fonts. It has a feature as a method for creating a multi-font dictionary, wherein a feature amount group obtained by a character sample including a predetermined number of different characters is used as a common dictionary for the plurality of character fonts.

〔作用〕[Action]

本発明のマルチフォント辞書作成法においては、第1
図に示されるように、まずスキャナ等の読み込み装置か
ら辞書とすべき文章を1画面として読み込み(ステップ
S1)、次にこれを適当な閾値を用いて画像の濃淡に対応
する黒白の2値の画素の集合からなる画面に変換する
(ステップS2)。次にこのような文章イメージを文字の
行ごとに分割して切り出し、さらに各行をそれを構成す
る文字ごとに分割して切り出す(ステップS3)。
In the multi-font dictionary creation method of the present invention, the first
As shown in the figure, first, a sentence to be a dictionary is read as one screen from a reading device such as a scanner (step
S1) Then, this is converted into a screen composed of a set of binary pixels of black and white corresponding to the shading of the image using an appropriate threshold value (step S2). Next, such a sentence image is divided and cut out for each character line, and each line is further divided and cut out for each character constituting the line (step S3).

このようにして分離された各文字イメージについて文
字輪郭の抽出を行う(ステップS4)。文字輪郭の抽出は
画面を一定方向に走査した際における、画素の白→黒お
よび黒→白の変化の境界の検出等周知の方法で行うこと
ができる。
A character outline is extracted from each character image thus separated (step S4). Extraction of a character outline can be performed by a known method such as detection of a boundary of white-to-black or black-to-white change of a pixel when a screen is scanned in a certain direction.

次に1文字の領域をN×N個のマス目に等分割する
(ステップS5)。そして各マス目内にある輪郭線上の画
素を、上部から輪郭線に沿って順次辿ったときの次隣接
画素に対する方向が、基準方向からの角度の大きさに対
応する45゜おきの4方向のいずれであるかを示す指数に
よって表す4方向の指数付けを行う(ステップS6)。
Next, the area of one character is equally divided into N × N squares (step S5). When the pixels on the contour line in each cell are sequentially traced from the top along the contour line, the direction with respect to the next adjacent pixel is four directions of 45 ° every 45 degrees corresponding to the angle from the reference direction. Indexing is performed in four directions, each of which is indicated by an index indicating the index (Step S6).

第2図は本発明のマルチフォント辞書の作成法のステ
ップS6における4方向の指数を示したものであって、右
水平方向を0とし、それから左回りに45゜おきに1,2,3
とした4方向の指数を定義するものとする。従って例え
ば次隣接画素に対する方向が垂直下向きのときは、指数
は2である。
FIG. 2 shows indices in four directions in step S6 of the method for creating a multi-font dictionary according to the present invention, where the right horizontal direction is set to 0, and then 1,2,3 every 45 degrees counterclockwise.
It is assumed that an index in four directions is defined. Therefore, for example, when the direction to the next adjacent pixel is vertically downward, the exponent is 2.

このようにしてあるマス目内の輪郭線上のすべての画
素について指数付けが終了したとき、同じ指数成分ごと
にその数を加算して、基準方向からの角度が小さい順に
配列して4次元の特徴量とする。例えば特徴量が(2,0,
0,3)と表された場合は、指数“0"の数が2個、指数
“1"の数が0個、指数“2"の数が0個、指数“3"の数が
3個であることを示している。また従ってマス目内に画
素が存在しないときの特徴量は(0,0,0,0)によって示
される。
When indexing is completed for all pixels on the contour line in a certain grid in this way, the number is added for each of the same index components, and the numbers are arranged in ascending order from the reference direction to form a four-dimensional feature. Amount. For example, if the feature value is (2,0,
When expressed as (0,3), the number of exponent "0" is 2, the number of exponent "1" is 0, the number of exponent "2" is 0, and the number of exponent "3" is 3 Is shown. Therefore, the feature amount when no pixel exists in the cell is indicated by (0,0,0,0).

このような操作を文字イメージを構成する各マス目ご
とに行って各マス目ごとに4次元の特徴量を作成するこ
とによって、全体としてN×N×4次元からなる特徴量
を文字ごとに作成する(ステップS7)。
By performing such an operation for each square constituting the character image and creating a four-dimensional feature amount for each square, a feature amount of N × N × 4 dimensions as a whole is created for each character. (Step S7).

このような処理を濃度等の読み込み条件を変えながら
M回行う。すなわち読み込み回数i=0ら開始してi>
Mになるまで、iを+1しながら順次繰り返して行い、
これによって特徴量グループaを作成する。
Such processing is performed M times while changing reading conditions such as density. That is, starting from the reading number i = 0, i>
Iteratively repeats while incrementing i by 1 until it reaches M,
Thus, a feature amount group a is created.

さらに特徴量aの作成法に従って、K種類のフォント
の同一の文章を読み込み同様の処理を行う。すなわちフ
ォントの番号j=1から開始してj>Kになるまで、j
を+1しながら順次繰り返して行うことによって、特徴
量グループb、特徴量グループc,…を得る。
Further, in accordance with the method of creating the feature amount a, the same sentence of the K fonts is read and the same processing is performed. That is, starting from the font number j = 1 until j> K, j
Are sequentially repeated while adding +1 to obtain feature amount group b, feature amount group c,.

K種類の特徴量グループa,b,…の作成を終了したと
き、全グループの特徴量を平均化することによって、所
望の辞書を得る。すなわち各グループの特徴量を加算し
てK×Mで割ることによって各文字ごとの特徴量を平均
化したデータが得られるので、これをそれぞれの文字の
辞書データとする。
When the creation of the K types of feature amount groups a, b,... Has been completed, a desired dictionary is obtained by averaging the feature amounts of all groups. That is, data obtained by averaging the feature amounts of each character is obtained by adding the feature amounts of each group and dividing the sum by K × M. This is used as dictionary data of each character.

第3図は第1図に示された本発明のマルチフォント辞
書の作成法の原理的構成に対応するマルチフォント辞書
作成部10の構成例を示したものである。すなわち文書入
力は2値化されて一旦イメージメモリ11に格納される。
次に文字輪郭抽出部12はイメージメモリ11に格納された
データによって、行切り出し、文字切り出しおよび文字
輪郭抽出等の処理を行う。特徴量生成部13はイメージメ
モリ11に格納されたデータおよび文字輪郭抽出部12で作
成された文字輪郭のデータによって、N×Nのマス目分
割、マス目内の文字輪郭を構成する各画素と次隣接画素
との方向に対する4方向の指数付けによるN×N×4次
元の特徴量作成等の処理を行って各文字フォントに対応
する複数個の特徴量グループを作成し、さらに各グルー
プの特徴量の平均化を行って辞書データを作成する。作
成された辞書は外部記憶装置に出力されて格納される。
FIG. 3 shows an example of the configuration of the multi-font dictionary creating unit 10 corresponding to the principle configuration of the method for creating the multi-font dictionary of the present invention shown in FIG. That is, the document input is binarized and temporarily stored in the image memory 11.
Next, the character outline extraction unit 12 performs processing such as line extraction, character extraction, and character outline extraction based on the data stored in the image memory 11. The feature amount generation unit 13 divides N × N squares into squares based on the data stored in the image memory 11 and the character outline data created by the character outline extraction unit 12 to calculate each pixel constituting the character outline in the square. A plurality of feature amount groups corresponding to each character font are created by performing processing such as N × N × 4 dimensional feature amount creation by indexing in four directions with respect to the direction of the next adjacent pixel, and furthermore, the feature of each group The dictionary data is created by averaging the quantities. The created dictionary is output and stored in the external storage device.

〔実施例〕 第4図は本発明の一実施例としてのマルチフォント辞
書の作成法の処理フローを示したものである。
Embodiment FIG. 4 shows a processing flow of a method for creating a multi-font dictionary as one embodiment of the present invention.

また第5図はこの場合において対象とする文字フォン
トの例を示したものである。
FIG. 5 shows an example of a target character font in this case.

第4図の実施例においては、スキャナから読み込む文
書としてJIS漢字コードの3303文字をコード順に配列し
た文章(文字サンプル)を用い、M=10とした場合を示
している。この場合に用いられる文字フォントの種類は
K=3すなわち第5図に示されるように、FM16β用プリ
ンタ(富士通製)に使用されているフォントA(JIS旧
字体)、FMR用プリンタ(富士通製)に使用されている
フォントB(JIS新字体)および岩田細明朝体(写植用
標準字体)のフォントCの3種類であって、従って合計
K×M=30回の処理を行って平均化して辞書を作成す
る。
In the embodiment shown in FIG. 4, a document (character sample) in which 3303 JIS kanji codes are arranged in code order as a document to be read from the scanner is used, and M = 10 is shown. The kind of character font used in this case is K = 3, that is, as shown in FIG. 5, font A (JIS old font) used for FM16β printer (Fujitsu), FMR printer (Fujitsu) Fonts B (JIS new fonts) and Iwata Hoshimitsu (standard typesetting fonts) are used for fonts C. Therefore, a total of K × M = 30 times are processed and averaged. Create a dictionary.

処理は第4図に示すフローに従って行われる。この場
合の各ステップは第1図に示された各処理ステップに対
応して同じ番号で示されている。すなわち読み込み文字
の2値化、行切り出し、文字切り出し、文字輪郭抽出等
を行って8×8のマス目に分割して8×8×4=256次
元の特徴量を作成する。さらにこのような処理を読み込
み濃度等を変えて10回繰り返して行って特徴量グループ
を得、さらに3種類のフォントについて同様の処理を行
うことによって、合計30回の処理を行う。
The processing is performed according to the flow shown in FIG. In this case, each step is indicated by the same number corresponding to each processing step shown in FIG. That is, binarization of read characters, line segmentation, character segmentation, character outline extraction, and the like are performed to divide into 8 × 8 squares to create 8 × 8 × 4 = 256-dimensional feature amounts. Further, such a process is repeated 10 times while changing the reading density or the like to obtain a feature amount group, and a similar process is performed on three types of fonts, thereby performing a total of 30 processes.

すべてのデータが得られたとき、各特徴量グループを
加算して30で割って平均化することによって各文字の辞
書データを作成する。さらにこのような処理を文字サン
プルを構成する各文字について行うことによって、文字
コードと各文字の辞書データとを対応させた辞書を作成
する。
When all the data is obtained, dictionary data of each character is created by adding each feature amount group, dividing by 30 and averaging. Further, by performing such processing for each character constituting the character sample, a dictionary is created in which the character code is associated with the dictionary data of each character.

この辞書は文字サンプルを構成する各文字とそれぞれ
の文字の平均化された特徴量とを対応させたものであ
り、活字認識を行う際には、読み込まれた文字から第4
図に示されたと同様の処理によって文字輪郭抽出、特徴
量生成等の処理を行って得られた各文字の特徴量を、上
述の辞書と照合して同一または最も近い特徴量を選出
し、この特徴量に対応する文字コードを辞書から読み出
すことによって活字認識を行うことができる。
This dictionary associates each character constituting a character sample with an averaged feature amount of each character. When performing type recognition, a fourth character is read from the read character.
Character outlines extracted by the same processing as shown in the figure, the characteristic amount generation and the like, and the characteristic amount of each character obtained are collated with the above-described dictionary to select the same or closest characteristic amount. Type recognition can be performed by reading a character code corresponding to the feature amount from the dictionary.

この辞書を用いて上述の各文字サンプルを評価したと
ころ、99%前後の認識率が得られた。この認識率は、各
フォントごとにそれぞれ辞書を作成して評価した場合の
認識率を上回る場合もあるものであった。
When the above-mentioned character samples were evaluated using this dictionary, a recognition rate of around 99% was obtained. This recognition rate sometimes exceeded the recognition rate when a dictionary was created for each font and evaluated.

第6図は、本発明のマルチフォント辞書の作成法を適
用した活字認識装置の構成例を示したものであって、10
は第3図に示されたマルチフォント辞書作成部、14はス
キャナである。15はパソコンであって中央処理装置(CP
U)16とCPU16の動作プログラムおよび演算データ等を記
憶する主記憶装置17とを具えている。18は外部記憶装置
である。
FIG. 6 shows a configuration example of a type recognition apparatus to which the multi-font dictionary creation method of the present invention is applied.
Is a multi-font dictionary creating unit shown in FIG. 3, and 14 is a scanner. 15 is a personal computer, a central processing unit (CP
U) 16 and a main storage device 17 for storing an operation program of the CPU 16, operation data, and the like. Reference numeral 18 denotes an external storage device.

第6図において、スキャナ14はマルチフォント辞書作
成部10に対して文書の読み込みを行い、これによってマ
ルチフォント辞書作成部10において、第3図について説
明したようにして文字輪郭抽出、特徴量作成等の処理が
行われる。パソコン15はマルチフォント辞書作成部10に
おいて、文字サンプルを構成する各文字について特徴量
が作成されるごとに、これを取り出して外部記憶装置18
に記憶させる。
In FIG. 6, the scanner 14 reads a document into the multi-font dictionary creator 10, whereby the multi-font dictionary creator 10 extracts character outlines, creates feature amounts, etc. as described with reference to FIG. Is performed. The personal computer 15 takes out the feature amount for each character constituting the character sample and extracts it from the external storage device
To memorize.

このようにしてある文字フォントについてM回の処理
を行い、さらに同一文字サンプルのK個の文字フォント
について同様の処理を繰り返すことによってK×M回の
処理が終了したとき、パソコン15は外部記憶装置18から
すべての特徴量グループのデータを取り出して、加算し
てK×Mで平均化することによって各文字の辞書データ
を作成する。作成された辞書データは外部記憶装置18に
出力されて格納される。このような処理を文字サンプル
を構成する各文字について行うことによって、その文字
サンプルに対する辞書が作成される。
In this way, when the processing is performed M times for a certain character font, and the same processing is repeated for K character fonts of the same character sample, K × M times of processing is completed, the personal computer 15 becomes an external storage device. The dictionary data of each character is created by taking out the data of all the feature amount groups from 18 and adding and averaging them by K × M. The created dictionary data is output to the external storage device 18 and stored. By performing such processing for each character constituting the character sample, a dictionary for the character sample is created.

〔発明の効果〕〔The invention's effect〕

以上説明したように本発明によれば、複数の文字フォ
ントから抽出した特徴量を平均化して活字の認識を行う
場合の辞書を作成するようにしたので、各文字フォント
の共通部分を強調した辞書を得ることができ、従って単
一の辞書を用いて多種類の文字フォントからなる活字を
高い認識率で認識することができるようになる。
As described above, according to the present invention, a dictionary for performing type recognition by averaging feature amounts extracted from a plurality of character fonts is created, so that a dictionary emphasizing the common part of each character font is created. Can be obtained, so that a single dictionary can be used for recognizing printed characters composed of various types of character fonts at a high recognition rate.

【図面の簡単な説明】[Brief description of the drawings]

第1図は本発明のマルチフォント辞書の作成法の原理的
構成を示す図、 第2図は本発明のマルチフォント辞書の作成法のステッ
プS6における4方向指数を示す図 第3図は第1図に示された本発明のマルチフォント辞書
の作成法の原理的構成に対応するマルチフォント辞書作
成部の構成例を示す図、 第4図は本発明の一実施例としてのマルチフォント辞書
の作成法の処理フローを示す図、 第5図は本発明の実施例としてのマルチフォント辞書の
作成法における文字フォントの例を示す図、 第6図は本発明のマルチフォント辞書の作成法を適用し
た活字認識装置の構成例を示す図である。 10……マルチフォント辞書作成部 11……イメージメモリ 12……文字輪郭抽出部 13……特徴量生成部 14……スキャナ 15……パソコン 16……CPU 17……主記憶装置 18……外部記憶装置 S1〜S8……ステップ
FIG. 1 is a diagram showing a basic configuration of a method for creating a multi-font dictionary of the present invention. FIG. 2 is a diagram showing 4-directional indices in step S6 of the method for creating a multi-font dictionary of the present invention. FIG. 4 is a diagram showing a configuration example of a multi-font dictionary creation unit corresponding to the principle configuration of the multi-font dictionary creation method of the present invention shown in FIG. 4; Fig. 5 is a diagram showing a processing flow of the method, Fig. 5 is a diagram showing an example of a character font in a method for creating a multi-font dictionary as an embodiment of the present invention, and Fig. 6 is an application of the method for creating a multi-font dictionary of the present invention. It is a figure showing the example of composition of a type recognition device. 10 Multi-font dictionary creation unit 11 Image memory 12 Character contour extraction unit 13 Feature generation unit 14 Scanner 15 Personal computer 16 CPU 17 Main storage device 18 External storage Equipment S1 ~ S8 …… Step

Claims (1)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】認識対象の文字をM個(Mは整数)の2値
化閾値で読み込み、該2値化された画素からなる文字の
輪郭を抽出する工程と、 1文字の領域をN×N(Nは整数)区分に分割する工程
と、 各区分内の輪郭線を構成する画素を順次辿ったときの次
隣接画素に対する方向を基準方向から45゜おきの4方向
に対応して指数付けすることによって各文字の1段階毎
にN×N×4次元の特徴量を作成する工程と、 複数の文字フォント毎に対応して得られた複数の特徴量
を平均化した特徴量を作成する工程と を具え所定数の異なる文字からなる文字サンプルによっ
て得られた特徴量グループを該複数の文字フォントに対
する共通の辞書とすることを特徴とするマルチフォント
辞書の作成法。
A step of reading a character to be recognized with M (M is an integer) binarization thresholds and extracting a contour of a character composed of the binarized pixels; Dividing into N (N is an integer) sections; indexing the direction to the next adjacent pixel when sequentially tracing the pixels forming the contour line in each section in correspondence with four directions at 45 ° intervals from the reference direction A step of creating an N × N × 4 dimensional feature for each stage of each character, and creating a feature by averaging a plurality of features obtained for each of a plurality of character fonts. A method for creating a multi-font dictionary, wherein a feature amount group obtained by a character sample composed of a predetermined number of different characters is used as a common dictionary for the plurality of character fonts.
JP63083772A 1988-04-05 1988-04-05 How to create a multi-font dictionary Expired - Lifetime JP2582611B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63083772A JP2582611B2 (en) 1988-04-05 1988-04-05 How to create a multi-font dictionary

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63083772A JP2582611B2 (en) 1988-04-05 1988-04-05 How to create a multi-font dictionary

Publications (2)

Publication Number Publication Date
JPH01255986A JPH01255986A (en) 1989-10-12
JP2582611B2 true JP2582611B2 (en) 1997-02-19

Family

ID=13811895

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63083772A Expired - Lifetime JP2582611B2 (en) 1988-04-05 1988-04-05 How to create a multi-font dictionary

Country Status (1)

Country Link
JP (1) JP2582611B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03135598A (en) * 1989-10-20 1991-06-10 Matsushita Electric Ind Co Ltd Character font output device

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6095690A (en) * 1983-10-31 1985-05-29 Nippon Telegr & Teleph Corp <Ntt> Character reader
JPS62192886A (en) * 1986-02-20 1987-08-24 Ricoh Co Ltd Feature quantity generating method in character recognizing device

Also Published As

Publication number Publication date
JPH01255986A (en) 1989-10-12

Similar Documents

Publication Publication Date Title
RU2631168C2 (en) Methods and devices that convert images of documents to electronic documents using trie-data structures containing unparameterized symbols for definition of word and morphemes on document image
US5664027A (en) Methods and apparatus for inferring orientation of lines of text
JP2713622B2 (en) Tabular document reader
RU2643465C2 (en) Devices and methods using a hierarchially ordered data structure containing unparametric symbols for converting document images to electronic documents
US20040213458A1 (en) Image processing method and system
JPH0727543B2 (en) Character recognition device
US20030012438A1 (en) Multiple size reductions for image segmentation
RU2625533C1 (en) Devices and methods, which build the hierarchially ordinary data structure, containing nonparameterized symbols for documents images conversion to electronic documents
JP5538812B2 (en) Image processing apparatus, image processing method, and program
Shanjana et al. Offline recognition of malayalam handwritten text
JP2005043990A (en) Document processor and document processing method
Kar et al. A three-phase noise removal approach to achieve accuracy in line segmentation of Odia text
JP2008108114A (en) Document processor and document processing method
JP2582611B2 (en) How to create a multi-font dictionary
Bushofa et al. Segmentation of Arabic characters using their contour information
RU2625020C1 (en) Devices and methods, which prepare parametered symbols for transforming images of documents into electronic documents
JPH0333990A (en) Optical character recognition instrument and method using mask processing
JPS62224870A (en) Document picture processing system
Tsai et al. Efficiently extracting and classifying objects for analyzing color documents
Kar et al. Line reconstruction and segmentation of words and characters using measures of central tendency and measures of dispersion
Rao et al. Script identification of telugu, english and hindi document image
Kar et al. An approach for word segmentation from a line segment in Odia text using quartiles
Sarkar Word spotting in cursive handwritten documents using modified character shape codes
JP2918363B2 (en) Character classification method and character recognition device
JP2697790B2 (en) Character type determination method