JPH01255986A - Preparation of multi-font dictionary - Google Patents

Preparation of multi-font dictionary

Info

Publication number
JPH01255986A
JPH01255986A JP63083772A JP8377288A JPH01255986A JP H01255986 A JPH01255986 A JP H01255986A JP 63083772 A JP63083772 A JP 63083772A JP 8377288 A JP8377288 A JP 8377288A JP H01255986 A JPH01255986 A JP H01255986A
Authority
JP
Japan
Prior art keywords
character
dictionary
font
fonts
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP63083772A
Other languages
Japanese (ja)
Other versions
JP2582611B2 (en
Inventor
Katsumi Tanaka
克己 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP63083772A priority Critical patent/JP2582611B2/en
Publication of JPH01255986A publication Critical patent/JPH01255986A/en
Application granted granted Critical
Publication of JP2582611B2 publication Critical patent/JP2582611B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Abstract

PURPOSE:To prepare a single dictionary at a high recognition ratio for the multiple types of character fonts by averaging the feature quantities extracted from the plural character fonts, and preparing the dictionary to recognize types. CONSTITUTION:An inputted document is binarization-processed and division- processed at every character, and it is judged by a character contour extracting part 12 which the direction of lines constituting the character is out of the four directions set at every 45 deg.. Further, based on the said decision result, a character generating part 13 generates the number of the lines for the respective four directions as the feature quantity, and while the reading conditions are being changed, the said series of the processings are executed for the characters in a K number respectively for M times. In addition, the feature quantities in a KXM numbers are averaged by a feature quantity generating part 13, and it is made into the dictionary data of the character.

Description

【発明の詳細な説明】 〔概 要〕 単一の辞書で複数の文字フォントを認識するためのマル
チフォント辞書の作成法に関し、単一の辞書であっても
多種類のフォントを高認識率で認識することができるよ
うな辞書の作成方法を提供することを目的とし、 2値化された画素からなる文字の輪郭を抽出するステッ
プと、1文字の領域をNXN(Nは整数)区分に分割す
るステップと、各区分内の輪郭線を構成する画素を順次
辿ったときの次隣接画素に対する方向を基準方向から4
5”おきの4方向に対応して指数付けすることによって
各文字ごとにN×N×4次元の特徴量を作成するステッ
プと、複数の文字フォントに対応して得られた複数の特
徴量を平均化した特徴量を作成するステップと、を具え
所定数の異なる文字からなる文字サンプルによって得ら
れた特徴量グループを該複数の文字フォントに対する〕
(通の辞書とすることによって構成する。
[Detailed Description of the Invention] [Summary] Regarding a method for creating a multi-font dictionary for recognizing multiple character fonts with a single dictionary, even a single dictionary can recognize many types of fonts at a high recognition rate. The purpose is to provide a method for creating a dictionary that can be recognized, and includes the steps of extracting the outline of a character made of binarized pixels, and dividing the area of one character into NXN (N is an integer) sections. step, and the direction to the next adjacent pixel when tracing the pixels constituting the contour line in each section sequentially is 4 from the reference direction.
A step of creating an N×N×4-dimensional feature amount for each character by indexing it in four directions at 5” intervals, and a step of creating a feature amount of N×N×4 dimensions for each character by indexing the feature amount corresponding to the multiple character fonts. creating an averaged feature amount;
(Constructed by making it a dictionary for connoisseurs.

〔産業上の利用分野〕[Industrial application field]

本発明は単一の辞書で複数の文字フォントを認識するだ
めのマルチフォント辞書の作成法に関するものである。
The present invention relates to a method for creating a multi-font dictionary that allows a single dictionary to recognize multiple character fonts.

活字認識装置においてはスキャナを介して文書を読み込
み、印刷されている文字を辞書を参照して1文字づつ識
別してコード化することによっ°ζ文書ファイルを作成
する。さらにこれによって表示を行ったり、あるいはワ
ープロ機能と結合して文書の加工を行う等の各種の作業
を行うシステムを構成することができる。
In a type recognition device, a document is read through a scanner, the printed characters are identified and coded one by one with reference to a dictionary, and a °ζ document file is created. Furthermore, this makes it possible to configure a system that performs various operations such as display, or combining with a word processing function to process documents.

このような活字認識装置において使用される辞書は、認
識すべき活字の文字フォントが多種類である場合にも、
高認識率で識別を行うことができるものであることか要
望される。
The dictionaries used in such type recognition devices can be
It is desired that it be able to perform identification with a high recognition rate.

〔従来の技術〕[Conventional technology]

活字認識(ここで“活字”とはJISで定められている
漢字コートを詣ずものとする)を行う場合、対象とする
文字フォントに対してはJISで規格が定められている
。しかしながら現実には、新聞、雑誌等における印刷字
体やワードプロセッサ、プリンタ等における印字字体等
は、それぞれの字体はJISで定められているフォント
と似てはいるが、細部においては製造元によってそれぞ
れ異なっている。
When recognizing printed characters (here, "printed characters" refers to the kanji code defined by JIS), standards are set by JIS for target character fonts. However, in reality, the fonts printed in newspapers, magazines, etc., and the fonts printed in word processors, printers, etc., are similar to the fonts specified by JIS, but the details differ depending on the manufacturer. .

そのため従来の活字認識装置におい“ζは、このような
各種のフォントに対応してそれぞれ専用の辞書を有し、
これによって活字認識を行うようにしていた。
Therefore, in conventional type recognition devices, "ζ" has its own dictionary corresponding to these various fonts.
This was used to recognize printed characters.

〔発明が解決しようとする課題〕[Problem to be solved by the invention]

活字認識装置においては、各種の異なるフォントからな
る文書を共通的に扱うことができるようにすることが望
ましいが、この場合各フオン1−ごとに辞書を用意する
ことはデータ量が膨大になって実用的でない。
It is desirable for a print recognition device to be able to commonly handle documents consisting of various different fonts, but in this case, preparing a dictionary for each font would result in an enormous amount of data. Not practical.

そこで単一の辞書を用いて多種類のフォノI・を認識さ
せるようにすることが考えられるが、このようにした場
合は上述のように各フォントによって字体の相違がある
ため、ある文字フォントに対応して作成した辞書を用い
て異なる文字フォントを認識させようとすると、認識率
が悪化する場合が生じる。そのため従来は、単一の辞書
を用いて多種類のフォントの認識を行うことは困難であ
るという問題があった。
Therefore, it is conceivable to use a single dictionary to recognize many types of phono I, but in this case, as mentioned above, each font has different fonts. If an attempt is made to recognize different character fonts using a correspondingly created dictionary, the recognition rate may deteriorate. Therefore, conventionally, there has been a problem that it is difficult to recognize many types of fonts using a single dictionary.

本発明はこのような従来技術の課題を解決しようとする
ものであって、単一の辞書であっても多種類のフォント
を高認識率で認識することができるような辞書の作成方
法を提供することを目的とし′ζいる。
The present invention aims to solve the problems of the prior art, and provides a dictionary creation method that can recognize many types of fonts with a high recognition rate even with a single dictionary. The purpose is to

〔課題を解決するための手段〕[Means to solve the problem]

本発明のマルチフォント辞書の作成法は、第1図にその
原理的構成を示されるように、2値化された画素からな
る文字の輪郭を抽出するステップS2.S3.S4と、
1文字の領域をN×N (Nは整数)区分に分割するス
テップS5と、各区分内の輪郭線を構成する画素を順次
辿ったときの次隣接画素に対する方向を基準方向から4
5°おきの4方向に対応して指数付けすることによって
各文字ごとにN×N× 4次元の特徴間を作成するステ
ップS6.S7と、複数の文字フォントに対応して得ら
れた複数の特徴間を平均化した特徴間を作成するステッ
プS8とを具え、所定数の異なる文字からなる文字サン
プルによって得られた特徴量グループを該複数の文字フ
ォントに対する共通の辞書とするものである。
The method for creating a multi-font dictionary according to the present invention, as shown in the principle structure in FIG. S3. S4 and
Step S5 of dividing the region of one character into N×N (N is an integer) sections, and determining the direction to the next adjacent pixel when sequentially tracing the pixels forming the outline in each section from the reference direction.
Step S6. Create a N×N×4-dimensional feature interval for each character by indexing corresponding to four directions at 5° intervals. S7, and step S8 of creating a feature set by averaging a plurality of features obtained corresponding to a plurality of character fonts, and forming a feature value group obtained by a character sample consisting of a predetermined number of different characters. This is a common dictionary for the plurality of character fonts.

〔作 用〕[For production]

本発明のマルチフォント辞書作成法においては、第1図
に示されるように、まずスキャナ等の読み込み装置から
辞書とすべき文章を1画面として読み込み(ステップS
l)、次にこれを適当な闇値を用いて画像の濃淡に対応
する黒白の2値の画素の集合からなる画面に変換する(
ステップS2)。
In the multi-font dictionary creation method of the present invention, as shown in FIG.
l), then convert this into a screen consisting of a set of black and white binary pixels corresponding to the shading of the image using an appropriate darkness value (
Step S2).

次にこのような文章イメージを文字の行ごとに分割して
切り出し、さらに各行をそれを構成する文字ごとに分割
して切り出す(ステ・ノブS3)。
Next, such a text image is divided and cut out for each line of characters, and each line is further divided and cut out for each character constituting it (Ste Nobu S3).

このようにして分離された各文字イメージについて文字
輪郭の抽出を行う(ステップS4)。文字輪郭の抽出は
画面を一定方向に走査した際における、画素の白−黒お
よび黒−白の変化の境界の検出等周知の方法で行うこと
ができる。
Character contours are extracted for each character image separated in this way (step S4). Character contours can be extracted by a well-known method such as detecting boundaries between white and black pixels and black and white changes when scanning a screen in a certain direction.

次に1文字の領域をNXN個のマス目に等分割する(ス
テップS5)。そして各マス口内にある輪郭線上の画素
を、上部から輪郭線に沿って順次辿ったときの次隣接画
素に対する方向が、基準方向からの角度の大きさに対応
する45°おきの4方向のいずれであるかを示す指数に
よって表す4方向の指数付けを行う(ステップS6)。
Next, the region of one character is equally divided into NXN squares (step S5). Then, when the pixels on the contour line in each cell opening are sequentially traced from the top along the contour line, the direction to the next adjacent pixel is one of four directions at 45° intervals corresponding to the angle from the reference direction. Indexing in four directions is performed using indexes indicating whether or not (step S6).

第2図は4方向の指数を示したものであって、右水平方
向をOとし、それから左回りに45゛おきに1,2.3
とした4方向の指数を定義するものとする。従って例え
ば次隣接画素に対する方向が垂直下向きのときは、指数
は2である。
Figure 2 shows indexes in four directions, with O being the right horizontal direction, and 1, 2.3 at every 45° counterclockwise.
Let us define the indices in four directions. Therefore, for example, when the direction to the next adjacent pixel is vertically downward, the index is 2.

このようにしであるマス口内の輪郭線上のすべての画素
について指数付けが終了したとき、同じ1旨数成分ごと
にその数を加算して、基準方向からの角度が小さい順に
配列して4次元の特徴量とする。例えば特徴量が(2,
0,0,3)と表された場合は、指数“O“の数が2個
、指数“I”の数が01囚、指数“2”の数が0111
1.指数“3”の数が3個であることを示している。ま
た従ってマス口内に画素が存在しないときの特徴量は(
0゜0.0.0)によって示される。
In this way, when indexing is completed for all pixels on the contour line within a certain square opening, the numbers are added for each same number component, and the numbers are arranged in descending order of the angle from the reference direction to form a four-dimensional Let it be a feature quantity. For example, the feature amount is (2,
0,0,3), the number of exponents “O” is 2, the number of exponents “I” is 01, and the number of exponents “2” is 0111.
1. This indicates that the number of index "3" is three. Therefore, when there are no pixels within the square mouth, the feature amount is (
0°0.0.0).

このような操作を文字イメージを構成する各マス目ごと
に行って各マス目ごとに4次元の特徴■を作成すること
によって、全体としてN×N× 4次元からなる特徴量
を文字ごとに作成する(ステップS7)  。
By performing these operations for each square that makes up the character image and creating a 4-dimensional feature ■ for each square, a total of N x N x 4-dimensional features can be created for each character. (Step S7).

このような処理を濃度等の読み込み条件を変えながらM
回行う。すなわち読み込み回数i=0から開始してi>
Mになるまで、iを+1しながら順次繰り返して行い、
これによって特徴量グループaを作成する。
M
Do it twice. In other words, starting from the number of reads i=0, i>
Repeat this step by adding 1 to i until M is reached.
As a result, a feature group a is created.

さらに特徴量aの作成法に従って、K種類のフォントの
同一の文章を読み込み同様の処理を行う。
Furthermore, in accordance with the method for creating the feature amount a, the same text in K types of fonts is read and the same processing is performed.

すなわちフォントの番号j=1から開始してj〉Kにな
るまで、jを+1しながら順次繰り返して行うことによ
って、特徴量グループb、特微量グループC2−を得る
That is, by starting from the font number j=1 and repeating the process while incrementing j by 1 until j>K, a feature amount group b and a feature amount group C2- are obtained.

K種類の特徴量グループa、  b、−の作成を終了し
たとき、全グループの特徴量を平均化することによって
、所望の辞書を得る。すなわち各グループの特徴量を加
算し°ζKXMで割ることによって各文字ごとの特徴量
を平均化したデータが得られるので、これをそれぞれの
文字の辞書データとする。
When the creation of K types of feature groups a, b, - is completed, the desired dictionary is obtained by averaging the feature amounts of all groups. That is, by adding the feature amounts of each group and dividing by °ζKXM, data obtained by averaging the feature amounts of each character can be obtained, and this is used as dictionary data for each character.

第3図は第1図に示された原理的構成に対応するマルチ
フォント辞書作成部の構成例を示したものである。すな
わち文書入力は2値化されて一旦イメージメモリ11に
格納される。次に文字輪郭抽出部12はイメージメモリ
11に格納されたデータによって、行切り出し1文字切
り出しおよび文字輪郭抽出等の処理を行う。特微量生成
部13は−イメージメモリIIに格納されたデータおよ
び文字輪郭抽出部12で作成された文字輪郭のデータに
よって、NXNのマス目分割、マスロ内の文字輪郭を構
成する各画素と次隣接画素との方向に対する4方向の指
数付けによるN×N×4次元の特徴量作成等の処理を行
って各文字フォントに対応する複数個の特徴量グループ
を作成し、さらに各グループの特徴量の平均化を行って
辞書データを作成する。
FIG. 3 shows an example of the configuration of a multi-font dictionary creation section corresponding to the basic configuration shown in FIG. That is, the document input is binarized and temporarily stored in the image memory 11. Next, the character contour extracting section 12 performs processing such as line cutting, single character cutting, and character contour extraction based on the data stored in the image memory 11. The feature amount generation unit 13 uses the data stored in the image memory II and the character contour data created by the character contour extraction unit 12 to divide N Processes such as creating N×N×4-dimensional feature quantities by indexing in four directions relative to the pixel direction are performed to create multiple feature quantity groups corresponding to each character font, and furthermore, the feature quantity of each group is Create dictionary data by averaging.

作成された辞書は外部記憶装置に出力されて格納される
The created dictionary is output to and stored in an external storage device.

〔実施例〕〔Example〕

第4図は本発明の一実施例の処理フローを示したもので
ある。
FIG. 4 shows a processing flow of an embodiment of the present invention.

また第5図はこの場合におい°ζ対象とする文字フォン
トの例を示したものである。
Further, FIG. 5 shows an example of a character font to be used as the target in this case.

第4図の実施例においては、スキャナから読み込む文書
としてJIS漢字コードの3303文字をコート順に配
列した文章(文字サンプル)を用い、M=10とした場
合を示している。この場合に用いられる文字フォノ1−
の種類はに=3ずなわち第5図に示されるように、FM
 16β用プリンタ(富士通型)に使用されているフォ
ントA (JIS旧字体)、FMF用プリンタ(富士通
V)に使用されているフォノ1−B(JIS新字体)お
よび岩田細明朝体(写植用標準字体)のフォノl−Cの
3種類であって、従って合計KxM=30回の処理を行
って平均化して辞書を作成する。
In the embodiment shown in FIG. 4, a sentence (character sample) in which 3303 characters of the JIS Kanji code are arranged in code order is used as a document to be read from a scanner, and M=10. Character phono 1 used in this case
The type of is = 3, that is, as shown in Figure 5, FM
Font A (old JIS font) used in the 16β printer (Fujitsu type), Phono 1-B (new JIS font) used in the FMF printer (Fujitsu V), and Iwata Hoso Mincho font (for phototypesetting). There are three types of phono l-c (standard font), and therefore a total of K x M = 30 processes are performed and averaged to create a dictionary.

処理は第4図に示すフローに従7.て行われる。7. Processing follows the flow shown in FIG. will be carried out.

この場合の各ステップは第1図に示された各処理ステッ
プに対応して同し番号で示されている。すなわら読み込
み文字の2値化1行切り出し5文字切り出し8文字輪郭
抽出等を行って8×8のマス口に分割して8X8x4=
256次元の特徴量を作成する。さらにこのような処理
を読み込み濃度等を変えて10回繰り返して行って特徴
量グループを得、さらに3種類のフォントについて同様
の処理を行うことによって、合計30回の処理を行う。
Each step in this case is indicated by the same number corresponding to each processing step shown in FIG. In other words, we binarize the read characters, cut out 1 line, cut out 5 characters, extract the contours of 8 characters, etc., and divide them into 8 x 8 grids to create 8 x 8 x 4 =
Create 256-dimensional features. Further, such a process is repeated 10 times while reading and changing the density etc. to obtain a feature group, and the same process is performed for three types of fonts, for a total of 30 times.

すべてのデータが得られたとき、各特ff1rfグル−
プを加算して30で割って平均化すること番こc長って
各文字の辞書データを作成する。さらにこのような処理
を文字サンプルを構成する各文字について行うことによ
って、文字コードと各文字の辞書データとを対応させた
辞書を作成する。
When all data is obtained, each special ff1rf group
Create dictionary data for each character by adding the numbers, dividing by 30, and averaging. Further, by performing such processing on each character constituting the character sample, a dictionary is created in which the character code is associated with the dictionary data of each character.

この辞書は文字サンプルを構成する各文字とそれぞれの
文字の平均化された特徴量とを対応させたものであり、
活字認識を行う際には、読み込まれた文字から第4図に
示されたと同様の処理によって文字輪郭抽出、特徴量生
成等の処理を行って得られた各文字の特徴量を、上述の
辞書と照合して同一または最も近い特徴量を選出し、こ
の特徴量に対応する文字コードを辞書から読み出すこと
によって活字認識を行うことができる。
This dictionary associates each character that makes up a character sample with the averaged feature amount of each character,
When performing printed character recognition, the features of each character obtained by performing processing similar to that shown in Figure 4 such as character outline extraction and feature generation from the read characters are used in the dictionary described above. Print recognition can be performed by selecting the same or closest feature amount by comparing the two characters, and reading out the character code corresponding to this feature amount from the dictionary.

この辞書を用いて上述の各文字サンプルを評価したとこ
ろ、99%前後の認識率が得られた。この認識率は、各
フォントごとにそれぞれ辞書を作成して評価した場合の
認識率を上回る場合もあるものであった。
When each of the above-mentioned character samples was evaluated using this dictionary, a recognition rate of around 99% was obtained. This recognition rate sometimes exceeded the recognition rate when a dictionary was created and evaluated for each font.

第6図は、本発明のマルチフォント辞書作成法を通用し
た活字認識装置の構成例を示したものであっ′ζ、10
は第3図に示されたマルチフォント辞書作成部、14は
スキャナである。15はパソコンであって中央処理装置
(CPU)16とCPUl6の動作プログラムおよび演
算データ等を記憶する主記憶装置17とを具えている。
FIG. 6 shows an example of the configuration of a printed character recognition device using the multi-font dictionary creation method of the present invention.
1 is a multi-font dictionary creation section shown in FIG. 3, and 14 is a scanner. Reference numeral 15 denotes a personal computer, which includes a central processing unit (CPU) 16 and a main storage device 17 that stores operating programs and calculation data for the CPU 16.

18は外部記憶装置である。18 is an external storage device.

第6図において、スキャナ14はマルチフォント辞書作
成部10に対して文書の読み込みを行い、これによって
マルチフォント辞書作成部10において、第3図につい
て説明したようにして文字輪郭抽出。
In FIG. 6, the scanner 14 reads a document into the multi-font dictionary creation unit 10, and the multi-font dictionary creation unit 10 extracts character outlines as described with reference to FIG.

特徴量作成等の処理が行われる。パソコン15はマルチ
フォント辞書作成部10におい°ζ、文字サンプルを構
成する各文字について特m1itが作成されるごとに、
これを取り出して外部記憶装置18に記12gさせる。
Processing such as creation of feature quantities is performed. The personal computer 15 uses the multi-font dictionary creation unit 10 to create a special m1it for each character constituting the character sample.
This is taken out and recorded 12g in the external storage device 18.

このようにしである文字フォントについでM回の処理を
行い、さらに同一文字サンプルのに個の文字フォントに
ついて同様の処理を繰り返すことによってKXM回の処
理が終了したとき、パソコン15は外部記憶装置18か
らすべての特徴■グループのデータを取り出して、加算
してKXMで平均化することによって各文字の辞書デー
タを作成する。作成された辞書データは外部記憶装置】
8に出力されて格納される。このような処理を文字サン
プルを構成する各文字について行うことによって、その
文字サンプルに対する辞書が作成される。
In this way, the process is performed M times for a certain character font, and the same process is repeated for another character font of the same character sample. When KXM processes are completed, the personal computer 15 stores Dictionary data for each character is created by extracting all feature ■ group data from , adding them together, and averaging them using KXM. The created dictionary data is stored in an external storage device]
8 and stored. By performing such processing on each character constituting a character sample, a dictionary for that character sample is created.

〔発明の効果〕〔Effect of the invention〕

以上説明したように本発明によれば、複数の文字フォン
トから抽出した特徴量を平均化して活字の認識を行う場
合の辞書を作成するようにしたので、各文字フォントの
共通部分を強調した辞書を得ることができ、従って単一
の辞書を用いて多種類の文字フォノI・からなる活字を
高い認識率で認識することができるようになる。
As explained above, according to the present invention, a dictionary for recognizing printed characters is created by averaging feature values extracted from a plurality of character fonts, so a dictionary that emphasizes the common parts of each character font is created. Therefore, it becomes possible to recognize printed characters consisting of many types of characters phono I with a high recognition rate using a single dictionary.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図は原理的構成を示す図、 第2図は4方向指数を示す図、 第3図はマルチフォント辞書作成部の構成例を示す図、 第4図は本発明の一実施例の処理フローを示す図、 第5図は文字フォノI−の例を示す図、第6図は本発明
を通用した活字認識装置の構成例を示す図である。 10・−マルチフォント辞署作へ部 11−  イメージメモリ 12−文字輪9μ抽出部 13−特徴猾生成部 14−スキャナ 15−パソコン 18−外部記憶装置
FIG. 1 is a diagram showing the basic configuration, FIG. 2 is a diagram showing four-direction indexes, FIG. 3 is a diagram showing an example configuration of a multi-font dictionary creation section, and FIG. 4 is a process of an embodiment of the present invention. FIG. 5 is a diagram showing an example of a character phono I-, and FIG. 6 is a diagram showing an example of the configuration of a printed character recognition device to which the present invention is applied. 10.--Multi-font dictionary creation section 11--Image memory 12--Character ring 9μ extraction section 13--Feature box generation section 14--Scanner 15--PC 18--External storage device

Claims (1)

【特許請求の範囲】  2値化された画素からなる文字の輪郭を抽出するステ
ップ(S2、S3、S4)と、 1文字の領域をN×N(Nは整数)区分に分割するステ
ップ(S5)と、 各区分内の輪郭線を構成する画素を順次辿ったときの次
隣接画素に対する方向を基準方向から45゜おきの4方
向に対応して指数付けすることによって各文字ごとにN
×N×4次元の特徴量を作成するステップ(S6、S7
)と、 複数の文字フォントに対応して得られた複数の特徴量を
平均化した特徴量を作成するステップ(S8)と を具え所定数の異なる文字からなる文字サンプルによっ
て得られた特徴量グループを該複数の文字フォントに対
する共通の辞書とすることを特徴とするマルチフォント
辞書の作成法。
[Claims] Steps of extracting the outline of a character consisting of binarized pixels (S2, S3, S4), and a step of dividing one character area into N×N (N is an integer) sections (S5). N
Steps of creating ×N × 4-dimensional features (S6, S7
), and a step (S8) of creating a feature amount by averaging a plurality of feature amounts obtained corresponding to a plurality of character fonts. A method for creating a multi-font dictionary, characterized in that a common dictionary for the plurality of character fonts is used.
JP63083772A 1988-04-05 1988-04-05 How to create a multi-font dictionary Expired - Lifetime JP2582611B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63083772A JP2582611B2 (en) 1988-04-05 1988-04-05 How to create a multi-font dictionary

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63083772A JP2582611B2 (en) 1988-04-05 1988-04-05 How to create a multi-font dictionary

Publications (2)

Publication Number Publication Date
JPH01255986A true JPH01255986A (en) 1989-10-12
JP2582611B2 JP2582611B2 (en) 1997-02-19

Family

ID=13811895

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63083772A Expired - Lifetime JP2582611B2 (en) 1988-04-05 1988-04-05 How to create a multi-font dictionary

Country Status (1)

Country Link
JP (1) JP2582611B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03135598A (en) * 1989-10-20 1991-06-10 Matsushita Electric Ind Co Ltd Character font output device

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6095690A (en) * 1983-10-31 1985-05-29 Nippon Telegr & Teleph Corp <Ntt> Character reader
JPS62192886A (en) * 1986-02-20 1987-08-24 Ricoh Co Ltd Feature quantity generating method in character recognizing device

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6095690A (en) * 1983-10-31 1985-05-29 Nippon Telegr & Teleph Corp <Ntt> Character reader
JPS62192886A (en) * 1986-02-20 1987-08-24 Ricoh Co Ltd Feature quantity generating method in character recognizing device

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03135598A (en) * 1989-10-20 1991-06-10 Matsushita Electric Ind Co Ltd Character font output device

Also Published As

Publication number Publication date
JP2582611B2 (en) 1997-02-19

Similar Documents

Publication Publication Date Title
EP0434930B1 (en) Editing text in an image
US5430808A (en) Image segmenting apparatus and methods
Parhami et al. Automatic recognition of printed Farsi texts
RU2631168C2 (en) Methods and devices that convert images of documents to electronic documents using trie-data structures containing unparameterized symbols for definition of word and morphemes on document image
RU2643465C2 (en) Devices and methods using a hierarchially ordered data structure containing unparametric symbols for converting document images to electronic documents
JP3452774B2 (en) Character recognition method
JPH07152867A (en) Method and device for pattern recognition
JPH04298162A (en) Method for compressing neighboring-block estimating bit
JPH0798765A (en) Direction-detecting method and image analyzer
US20120250048A1 (en) Image processing apparatus and image processing method
JP4227432B2 (en) Image processing method
RU2625533C1 (en) Devices and methods, which build the hierarchially ordinary data structure, containing nonparameterized symbols for documents images conversion to electronic documents
JP2005043990A (en) Document processor and document processing method
JP2008108114A (en) Document processor and document processing method
US6094484A (en) Isomorphic pattern recognition
Al-Sadoun et al. A new structural technique for recognizing printed Arabic text
Chen et al. Analysis, Understanding and Representation of Chinese newspaper with complex layout
JPH08320914A (en) Table recognition method and device
JPH01255986A (en) Preparation of multi-font dictionary
Amin OCR of Arabic texts
JPH0333990A (en) Optical character recognition instrument and method using mask processing
RU2625020C1 (en) Devices and methods, which prepare parametered symbols for transforming images of documents into electronic documents
KR100315428B1 (en) Character Feature Extraction Apparatus And Method For Recognition Of Multi-Language Printed Document
Burge et al. Extracting words and multi-part symbols in graphics rich documents
Pratt et al. Block character coding