JPH11250183A - Method for discriminating style of printed character, character image processing system and recording medium - Google Patents

Method for discriminating style of printed character, character image processing system and recording medium

Info

Publication number
JPH11250183A
JPH11250183A JP10053887A JP5388798A JPH11250183A JP H11250183 A JPH11250183 A JP H11250183A JP 10053887 A JP10053887 A JP 10053887A JP 5388798 A JP5388798 A JP 5388798A JP H11250183 A JPH11250183 A JP H11250183A
Authority
JP
Japan
Prior art keywords
image
typeface
character
character image
processing system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10053887A
Other languages
Japanese (ja)
Inventor
Masateru Yamaoka
正輝 山岡
Tadahiro Kitahashi
忠宏 北橋
Isamu Ake
偉 明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Data Group Corp
Original Assignee
NTT Data Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Data Corp filed Critical NTT Data Corp
Priority to JP10053887A priority Critical patent/JPH11250183A/en
Publication of JPH11250183A publication Critical patent/JPH11250183A/en
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide a character image processing system capable of improving a character recognition ratio by accurately and quickly discriminating the style of a character image to be discriminated. SOLUTION: In the system 1, an image conversion part 12 receives a character image and generates a reference style image similar to a Gothic style having almost fixed stroke width. A style discrimination part 14 compares the pixel distribution of the reference style image with that of the inputted character image, and when the mean value of overlapped parts between both the images is >=0.8 and dispersion is <=100, judges the input character image as the Gothic style, but judges it as a Ming style in other cases. A character recognition part 15 selects a dictionary 151 or 152 corresponding to the discrimianated style so as to execute character recognition.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、文字画像処理シス
テムに係り、より詳しくは、文字画像の処理に先だって
印刷文字の書体を迅速かつ正確に判別する手法に関す
る。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a character image processing system, and more particularly, to a method for quickly and accurately determining the typeface of a printed character before processing a character image.

【0002】[0002]

【従来の技術】文字画像処理システムの例として、電子
ファイリングシステムやそれに類似するシステムが実用
化されている。電子ファイリングシステムは、文字が印
刷された文書(以下、印刷文書)をイメージスキャナで
取り込み、これをイメージデータのまま保持したり、あ
るいは文字認識処理を施した後にファイル化して保持す
るものである。文字認識処理は、具体的には、イメージ
データから切り出された文字画像の特徴と予め用意され
た文字認識用辞書の各カテゴリ(文字コード)とを照合
し、特徴が最も一致する文字コードを辞書から取り出す
処理である。この文字認識処理を行う場合、一つの印刷
文書内にゴシック体や明朝体のような複数種類の書体の
文字が混在すると、誤認識が生じやすくなる。そのた
め、最近は、書体の相違を考慮した文字認識処理を行う
ことも試みられている。
2. Description of the Related Art As an example of a character image processing system, an electronic filing system or a system similar thereto has been put to practical use. The electronic filing system captures a document on which characters are printed (hereinafter, a print document) by an image scanner and holds the image data as it is, or holds it as a file after performing a character recognition process. Specifically, the character recognition process compares the characteristics of a character image cut out from image data with each category (character code) of a character recognition dictionary prepared in advance, and determines a character code having the best match in the dictionary. This is the process of extracting from. In performing the character recognition process, if a single print document contains characters of a plurality of types of fonts such as Gothic font and Mincho font, erroneous recognition is likely to occur. Therefore, recently, attempts have been made to perform character recognition processing in consideration of the difference in typeface.

【0003】[0003]

【発明が解決しようとする課題】書体の相違を考慮した
文字認識処理を行う場合、従来は、画像特徴の照合後に
書体判別用の辞書を使用して書体判別を行う第1方式
と、個々の書体に対応した辞書を複数用意しておき、画
像特徴の照合と書体判別とを同時に行う第2方式のいず
れかが採用されていた。
Conventionally, when performing character recognition processing in consideration of the difference in typefaces, a first method in which typeface discrimination is performed using a dictionary for typeface discrimination after image feature collation, A plurality of dictionaries corresponding to typefaces are prepared, and one of the second methods for simultaneously performing matching of image features and discrimination of typeface has been adopted.

【0004】しかし、第1方式のように照合を先行させ
る場合には文字認識率を向上させることができず、ま
た、辞書は、どのような書体でも対応できるように汎用
のものを使用していたため、書体判別率を向上させるこ
とができないという問題があった。一方、第2方式の場
合は、個々の文字について画像特徴の照合と書体判別と
を同時に行うため、処理速度が遅くなるという問題があ
った。
However, when collation is performed in advance as in the first method, the character recognition rate cannot be improved, and a general dictionary is used so that any typeface can be used. Therefore, there is a problem that the typeface discrimination rate cannot be improved. On the other hand, in the case of the second method, there is a problem that the processing speed is reduced because the collation of the image feature and the typeface determination are performed simultaneously for each character.

【0005】そこで本発明の課題は、明朝体やゴシック
体などの書体の判別を正確且つ迅速に行うことができる
印刷文字の書体判別方法を提供することにある。本発明
の他の課題は、上記書体判別方法の実施に適した文字画
像処理システム、及び上記書体判別方法をコンピュータ
装置上で実現するための記録媒体を提供することにあ
る。
SUMMARY OF THE INVENTION An object of the present invention is to provide a method for determining the typeface of printed characters, which can accurately and quickly determine the typeface such as Mincho and Gothic. Another object of the present invention is to provide a character image processing system suitable for implementing the above typeface discrimination method, and a recording medium for implementing the above typeface discrimination method on a computer device.

【0006】[0006]

【課題を解決するための手段】上記課題を解決する本発
明の印刷文字の書体判別方法は、書体が不明な文字画像
から特定形状の基準書体画像を生成する過程と、前記文
字画像と前記生成された基準書体画像との画素分布を比
較することにより当該文字画像の書体を判別する過程と
を含むことを特徴とする。前記基準書体画像は、例え
ば、すべてのストローク幅がほぼ一定の文字画像であ
る。前記書体を判別した文字画像のうち特定のものに対
して、他の文字画像と異なる特定処理を施すようにして
もよい。
According to the present invention, there is provided a method for determining the typeface of a printed character, comprising the steps of: generating a reference typeface image having a specific shape from a character image whose typeface is unknown; Comparing the pixel distribution with the reference font image thus determined to determine the font of the character image. The reference typeface image is, for example, a character image in which all stroke widths are substantially constant. A specific process different from that of other character images may be performed on a specific one of the character images for which the typeface has been determined.

【0007】上記他の課題を解決する本発明の文字画像
処理システムは、書体別に用意された複数の文字認識用
辞書と、書体が不明な文字画像から特定形状の基準書体
画像を生成する画像変換手段と、前記文字画像と前記生
成された基準書体画像との画素分布を比較することによ
り当該文字画像の書体を判別する書体判別手段と、判別
された書体に応じた文字認識用辞書を選択して前記文字
画像の文字認識を行う手段と、を備えてなる。
A character image processing system according to the present invention for solving the above-mentioned other problems includes a plurality of character recognition dictionaries prepared for each typeface and an image conversion for generating a reference typeface image having a specific shape from a character image whose typeface is unknown. Means, a font discriminating means for discriminating the font of the character image by comparing the pixel distribution between the character image and the generated reference font image, and a character recognition dictionary corresponding to the discriminated font. Means for performing character recognition of the character image.

【0008】本発明の他の文字画像処理システムは、前
記画像変換手段と、前記書体判別手段と、前記書体を判
別した文字画像のうち特定のものに対して強調処理を施
す手段と、を備えてなる。
[0008] Another character image processing system of the present invention includes the image conversion means, the typeface discriminating means, and means for performing emphasis processing on a specific one of the character images whose typefaces have been discriminated. It becomes.

【0009】本発明の他の文字画像処理システムは、前
記画像変換手段と、前記書体判別手段と、前記書体を判
別した文字画像のうち特定のものを抽出して再配列する
手段と、備えてなる。
[0009] Another character image processing system of the present invention includes the image conversion means, the typeface discriminating means, and a means for extracting and rearranging a specific one of the character images for which the typeface has been discriminated. Become.

【0010】各文字画像処理システムにおいて、前記画
像変換手段は、例えば、前記文字画像にスケルトン処理
を施して、すべてのストローク幅がほぼ一定の文字画像
を生成し、この文字画像を前記基準書体画像とするよう
に構成される。
In each of the character image processing systems, the image conversion means performs, for example, a skeleton process on the character image to generate a character image having a substantially constant stroke width, and converts the character image to the reference font image. It is constituted so that.

【0011】上記他の課題を解決する本発明の記録媒体
は、少なくとも下記の処理をコンピュータ装置に実行さ
せるためのプログラムを記録したコンピュータ読み取り
可能な記録媒体である。 (1)書体が不明な文字画像にスケルトン処理を施して
すべてのストローク幅がほぼ一定となる基準書体画像を
生成する処理、 (2)前記文字画像と前記生成された基準書体画像との
画素分布とを比較することにより当該文字画像の書体を
判別する処理。
A recording medium according to the present invention for solving the above-mentioned other problems is a computer-readable recording medium in which a program for causing a computer device to execute at least the following processing is recorded. (1) a process of performing a skeleton process on a character image whose font is unknown to generate a reference font image in which all stroke widths are substantially constant; and (2) a pixel distribution between the character image and the generated reference font image. And determining the typeface of the character image by comparing

【0012】[0012]

【発明の実施の形態】以下、図面を参照して本発明の実
施の形態を説明する。 (第1実施形態)図1は、本発明の第1実施形態に係る
文字画像処理システムの構成図である。この実施形態で
は、明朝体とゴシック体とが混在する可能性のある文字
画像をイメージスキャナで取り込み、この文字画像に基
づいて文字認識を行う場合の例を示す。
Embodiments of the present invention will be described below with reference to the drawings. (First Embodiment) FIG. 1 is a configuration diagram of a character image processing system according to a first embodiment of the present invention. In this embodiment, an example is shown in which a character image in which a Mincho font and a Gothic font may be mixed is captured by an image scanner, and character recognition is performed based on this character image.

【0013】文字画像処理システム1は、例えばイメー
ジスキャナ11が接続されたコンピュータ装置によって
実現されるもので、このコンピュータ装置が所定のプロ
グラムを読み込んで自装置のオペレーティング(OS)
と協働で実行することにより形成される、画像変換部1
2、基準書体画像格納部13、書体判別部14、文字認
識部15、書体毎のカテゴリを格納した辞書151,1
52,・・・、出力制御部16の各機能ブロックを備え
て構成される。
The character image processing system 1 is realized by, for example, a computer device to which an image scanner 11 is connected, and the computer device reads a predetermined program and executes its own operating system (OS).
Image conversion unit 1 formed by executing in cooperation with
2. Reference font image storage unit 13, font discriminating unit 14, character recognition unit 15, dictionary 151 storing categories for each font type
, 52,... Are provided with respective functional blocks of the output control unit 16.

【0014】画像変換部12は、イメージスキャナ11
で取り込んだ文字画像から特定形状の基準書体画像を生
成するものであり、基準書体画像格納部13は、基準書
体画像の生成過程での作業用メモリとして機能するとと
もに生成後の基準書体画像を後続処理用に格納するもの
である。書体判別部14は、文字画像と基準書体画像の
画素分布を文字単位に比較して文字画像毎に書体を判別
するものである。文字認識部15は、該当する書体の辞
書を用いて文字認識を行うものである。出力制御部16
は、文字認識部15の処理結果を図示しない表示装置や
印刷装置へ出力するものである。
The image conversion unit 12 includes an image scanner 11
The reference font image storage unit 13 functions as a working memory in the process of generating the reference font image and generates the reference font image after the generation. It is stored for processing. The typeface determination unit 14 compares the pixel distributions of the character image and the reference typeface image on a character-by-character basis to determine the typeface for each character image. The character recognition unit 15 performs character recognition using a dictionary of a corresponding typeface. Output control unit 16
Outputs the processing result of the character recognition unit 15 to a display device or a printing device (not shown).

【0015】なお、上記プログラムは、通常は、コンピ
ュータ装置の内部記録装置または外部記録装置に記録さ
れ、後述する処理の過程で随時読み出されて使用される
ようになっているが、コンピュータ装置上に上記各機能
ブロック12〜15、151,152を形成できれば足
りるので、プログラムの記録形態は任意であってもよ
い。例えばコンピュータ装置とは分離された状態で流通
する可搬性記録媒体にコンピュータ読み取り可能な形態
で記録され、あるいはコンピュータ装置に接続されたネ
ットワークを通じて取り込まれ、使用時に上記内部記録
装置等にインストールされるものであってもよい。
The above-mentioned program is usually recorded in an internal recording device or an external recording device of the computer device, and is read and used as needed in the course of processing described later. It is sufficient that the functional blocks 12 to 15, 151, and 152 can be formed in the above-described manner, and the recording form of the program may be arbitrary. For example, those recorded in a computer-readable form on a portable recording medium distributed in a state separated from the computer device, or taken in through a network connected to the computer device, and installed in the internal recording device or the like at the time of use It may be.

【0016】画像変換部12における基準書体画像の生
成手法としては種々のものがあるが、ここでは、文字画
像にスケルトン処理(骨格線を求める処理)を施して、
ストローク幅がほぼ一定の文字画像、つまりゴシック体
に近似する書体の文字画像を生成する場合の例を説明す
る。
Although there are various methods for generating a reference typeface image in the image conversion unit 12, here, skeleton processing (processing for obtaining a skeleton line) is performed on a character image.
An example will be described in which a character image having a substantially constant stroke width, that is, a character image in a font similar to Gothic is generated.

【0017】図2は、文字画像処理システム1における
書体判別の処理手順図、図3及び図4は、基準書体画像
の生成処理の概念図である。以下、図2〜図4を参照し
て上記文字画像処理システム1の処理手順を説明する。
まず、イメージスキャナ11を用いて文字画像を取り込
む(ステップS101)。文字画像は、背景が白画素
(画素値“0”)、文字部分が黒画素(画素値“25
5”)のものである。ここで、図3(a)に示すよう
に、文字画像の左上端点を原点とし、右方向をX軸、下
方向をY軸とする座標系を想定する。文字画像の右下端
点の座標は(X,Y)となる。また、図3(b)に示す
ように、複数の画素から構成される文字画像において、
個々の画素のX方向の座標をi、Y方向の座標をjとす
る。
FIG. 2 is a flowchart showing the process of determining the typeface in the character image processing system 1, and FIGS. 3 and 4 are conceptual diagrams showing the process of generating a reference typeface image. Hereinafter, a processing procedure of the character image processing system 1 will be described with reference to FIGS.
First, a character image is captured using the image scanner 11 (step S101). In the character image, the background is a white pixel (pixel value “0”), and the character portion is a black pixel (pixel value “25”).
5 "). Here, as shown in FIG. 3A, a coordinate system is assumed in which the origin is at the upper left point of the character image, the X axis is rightward, and the Y axis is downward. The coordinates of the lower right point of the image are (X, Y), and in a character image composed of a plurality of pixels, as shown in FIG.
Let i be the coordinate in the X direction and j be the coordinate in the Y direction of each pixel.

【0018】画像変換部12は、図3(b)の文字画像
を第1方向、すなわち、(1,1)座標点から(X,1)座標点、
(X,1)座標点から(1,2)座標点、(1,2)座標点から(X,2)座
標点、以後、順次(X,Y)座標点の方向へ走査してスケル
トンデータを作成する(ステップS102)。具体的に
は、画素値“255”をもつ画素(i,j)に対して、g(i,
j)を(i,j)に対する画素値とし、g(i-1,j)とg(i,j-1)
の小さい方がg(i,j)未満の場合、g(i,j)を、g(i-1,
j)とg(i,j-1)の小さい方の値に1を足したものとす
る。この結果、図3(b)の文字画像は、図3(c)の
ようなスケルトンデータに変換される。
The image converter 12 converts the character image shown in FIG. 3B in the first direction, that is, from the (1,1) coordinate point to the (X, 1) coordinate point,
Scan from the (X, 1) coordinate point to the (1,2) coordinate point, from the (1,2) coordinate point to the (X, 2) coordinate point, and then sequentially scan in the direction of the (X, Y) coordinate point to obtain skeleton data Is created (step S102). Specifically, for a pixel (i, j) having a pixel value “255”, g (i,
j) is the pixel value for (i, j), g (i-1, j) and g (i, j-1)
Is smaller than g (i, j), g (i, j) is replaced by g (i-1,
It is assumed that 1 is added to the smaller value of j) and g (i, j-1). As a result, the character image in FIG. 3B is converted into skeleton data as shown in FIG.

【0019】次に、図3(c)のスケルトンデータを第
2方向へ走査してデータ補正を行う(ステップS10
3)。すなわち、(X-1,Y-1)座標点から(1,Y-1)座標点
へ、更に、(X-1,Y-2)座標点から(1,Y-2)座標点へと、順
に(0,0)点まで走査する。そして、“0”以外の画素値
をもつ画素(i,j)に対して、g(i+1,j)とg(i,j+1)の小
さい方がg(i,j)未満の場合、g(i,j)を、g(i+1,j)と
g(i,j+1)の小さい方の値に1を足したものとする。こ
の結果、図3(c)のスケルトンデータは、図3(d)
のように補正される。
Next, data correction is performed by scanning the skeleton data in FIG. 3C in the second direction (step S10).
3). That is, from the (X-1, Y-1) coordinate point to the (1, Y-1) coordinate point, and further from the (X-1, Y-2) coordinate point to the (1, Y-2) coordinate point Are sequentially scanned to the point (0,0). Then, for a pixel (i, j) having a pixel value other than “0”, the smaller of g (i + 1, j) and g (i, j + 1) is smaller than g (i, j). In this case, it is assumed that g (i, j) is obtained by adding 1 to the smaller value of g (i + 1, j) and g (i, j + 1). As a result, the skeleton data of FIG.
Is corrected as follows.

【0020】更に、図3(d)のスケルトンデータを第
1方向に走査して再補正を行う(ステップS104)。
すなわち、(1,1)座標点から(X,1)座標点へ、更に、(1,
2)座標点から(X,2)座標点へと、順に(X,Y)点まで走査す
る。そして、“0”以外の画素値をもつ画素(i,j)に対
し、g(i-1,j),g(i,j-1),g(i+1,j),g(i,j+1))の
最大値をとるものがg(i,j)以下の場合、そのときの新
たな値s(i,j)を“1”、それ以外の値s(i,j)を“0”
とする。このs(i,j)=“1”となっている点(i,j)がス
ケルトンを構成する座標系であり、g(i,j)が点(i,j)か
ら白画素までの最小距離値を表している。図3(e)
は、再補正後のスケルトンデータs(i,j)の例を示した
ものである。
Further, the skeleton data shown in FIG. 3D is scanned in the first direction to perform re-correction (step S104).
That is, from the (1,1) coordinate point to the (X, 1) coordinate point,
2) Scan from the coordinate point to the (X, Y) point in order from the (X, 2) coordinate point. Then, for a pixel (i, j) having a pixel value other than “0”, g (i-1, j), g (i, j−1), g (i + 1, j), g (i , j + 1)) is less than or equal to g (i, j), the new value s (i, j) at that time is “1”, and the other values s (i, j) To “0”
And The point (i, j) where s (i, j) = “1” is the coordinate system forming the skeleton, and g (i, j) is the minimum point from the point (i, j) to the white pixel. Represents a distance value. FIG. 3 (e)
Shows an example of the skeleton data s (i, j) after re-correction.

【0021】このようにして、スケルトンを構成する全
座標系に対するg(i,j)のヒストグラムを作成し、最頻
出値Mを求める(ステップS105)。最頻出値Mの確
率密度は60%以上であるものとし、該当するものがな
い場合には、累積確率密度が70%に相当するg(i,j)
をMとする。その後、g(i,j)=Mとなる全(i,j)に対し
て、(i,j)を中心とする半径Mの円を描き、これらの円
に内包される画素から形成される画像を基準書体画像と
する(ステップS106)。
In this way, a histogram of g (i, j) for all coordinate systems constituting the skeleton is created, and the most frequent value M is obtained (step S105). The probability density of the most frequent value M is assumed to be 60% or more, and if there is no corresponding value, g (i, j) corresponding to a cumulative probability density of 70%
Is M. Then, for all (i, j) where g (i, j) = M, draw a circle with a radius M centered at (i, j), formed from the pixels contained in these circles The image is used as a reference typeface image (step S106).

【0022】書体判別部14は、この基準書体画像と対
象文字画像の画素分布を比較する(ステップS10
7)。そして、両者が重なる部分の割合D(i,j)を求
め、このD(i,j)の分散と平均値により、文書に印刷さ
れた文字がゴシック体か明朝体かを判別する(ステップ
S108)。上述のように、基準書体画像はゴシック体
に近似しているので、判別対象となる文字画像がゴシッ
ク体のものであれば、重なる部分が相対的に多くなる。
そこで、例えば平均値“0.8”以上かつ分散“10
0”以下であればゴシック体とし、それ以外は明朝体と
する。
The typeface discriminating unit 14 compares the pixel distribution between the reference typeface image and the target character image (step S10).
7). Then, the ratio D (i, j) of the overlapping portion is obtained, and it is determined whether the character printed on the document is Gothic or Mincho based on the variance and average value of D (i, j) (step S108). As described above, since the reference typeface image is similar to the Gothic type, if the character image to be discriminated is of the Gothic type, the overlapping portion becomes relatively large.
Therefore, for example, an average value “0.8” or more and a variance “10”
If it is 0 "or less, it will be Gothic, otherwise it will be Mincho.

【0023】以上の処理をより具体的に示したのが、図
4である。すなわち、図4(a)に示す線分領域に対し
て、画像変換部12が図4(b)のようなスケルトンを
作成し、スケルトンを構成する全座標系に対する画素の
ヒストグラムを作成する。この場合の最頻出値M(頻出
値を円の内径で表している)は、図4(c)に示すよう
に、n3となる。このn3の部分について図4(e)の
ような円を描き、この円に内包される画素から構成され
る領域の画像を、基準書体画像とする。図4(d)は、
図4(a)の線分領域に対する基準書体画像であり、ス
トローク幅がほぼ一定となるため、ゴシック体に近いも
のとなる。
FIG. 4 shows the above processing more specifically. That is, the image conversion unit 12 creates a skeleton as shown in FIG. 4B for the line segment area shown in FIG. 4A, and creates a histogram of pixels for all coordinate systems constituting the skeleton. In this case, the most frequent value M (the frequent value is represented by the inner diameter of the circle) is n3 as shown in FIG. A circle as shown in FIG. 4E is drawn for the portion of n3, and an image of a region including pixels included in the circle is set as a reference typeface image. FIG. 4 (d)
This is a reference typeface image corresponding to the line segment area in FIG. 4A, and since the stroke width is substantially constant, it is close to a Gothic type.

【0024】文字画像と書体情報(ゴシック体/明朝
体:座標込み)は、書体判別部14から文字認識部15
に渡される。文字認識部15は、判別された書体に対応
する辞書151,152,・・・を用いて照合を行い、
文字認識を行う。認識結果は、出力制御部16を通じて
ディスプレイ表示され、必要に応じて印刷される。
The character image and the font information (Gothic / Mincho: including coordinates) are sent from the font discriminating unit 14 to the character recognizing unit 15.
Passed to. The character recognition unit 15 performs matching using the dictionaries 151, 152,... Corresponding to the determined typeface,
Perform character recognition. The recognition result is displayed on the display through the output control unit 16 and printed as needed.

【0025】ここで、学術論文誌、雑誌、及びカタログ
の中から選んだ、異なるサイズの文字を含む印刷文書を
対象とした書体判別の実験結果例を挙げる。印刷文書に
は、漢字、英文字、ひらがな、カタカナ等、3021文
字が含まれていた。このような印刷文書を解像度400
dpiと300dpiでイメージスキャナで取り込み、
上述の書体判別処理を行った結果、明朝体2035文字
のうち、明朝体と判定されたものは、400dpiで9
6.1%、300dpiで95.6%であった。また、
ゴシック体986文字のうち、ゴシック体と判定された
ものは400dpiで94.5%、300dpiで9
3.2%であった。
Here, examples of experimental results of typeface discrimination for printed documents containing characters of different sizes selected from academic journals, magazines, and catalogs will be described. The printed document contained 3021 characters such as kanji, English characters, hiragana, katakana, and the like. Such a printed document has a resolution of 400
Scan with an image scanner at 300 dpi and dpi
As a result of performing the above-described typeface discrimination processing, of the 2035 characters in the Mincho font, those determined to be the Mincho font are 9 characters at 400 dpi.
6.1% and 95.6% at 300 dpi. Also,
Of the 986 Gothic characters, 94.5% were determined to be Gothic at 400 dpi and 9 at 300 dpi.
It was 3.2%.

【0026】この実験結果から明らかなように、本実施
形態の手法は、簡便な手法でありながら、実用上十分な
精度で書体が正しく判別できる。そのため、従来型の文
字画像処理システムの負荷を増大させることなく書体判
別を行うことが可能となり、しかも書体判別結果を文字
認識に応用できるため、認識精度を従来よりも格段に向
上させることができた。
As is evident from the experimental results, the method of the present embodiment is a simple method, but can correctly determine a font with sufficient accuracy for practical use. As a result, it is possible to perform typeface discrimination without increasing the load of the conventional character image processing system, and since the typeface discrimination result can be applied to character recognition, recognition accuracy can be significantly improved. Was.

【0027】(第2実施形態)本発明は、書体判別結果
を利用して、文字画像のうち特定のものに対して他の文
字画像と異なる処理を施すことも可能である。例えば文
字画像のディスプレイ表示時に、特定書体の表示形態を
他の書体のものと異なるようにしたり、特定書体のもの
のみを抽出して再配列することができる。
(Second Embodiment) In the present invention, it is also possible to perform processing different from that of other character images on a specific character image by using the typeface discrimination result. For example, when a character image is displayed on a display, the display style of a specific font may be different from that of another font, or only specific fonts may be extracted and rearranged.

【0028】図5は、この場合の文字画像処理システム
の構成図であり、第1実施形態のものと同一要素につい
ては同一符号を付してある。この文字画像処理システム
2は、文字認識部15の後段に、各種パラメータを設定
するための設定部22と、設定部22に設定されたパラ
メータに基づいて文字編集(文字書体や再配列等)を行
う編集部23が付加されている。これらの付加された機
能ブロック22,23もまた、コンピュータ装置が所定
のプログラムを読み込んで自装置のOSと協働で実行す
ることにより形成されるものである。
FIG. 5 is a block diagram of the character image processing system in this case, and the same elements as those of the first embodiment are denoted by the same reference numerals. The character image processing system 2 includes a setting unit 22 for setting various parameters and a character editing (character typeface, rearrangement, etc.) based on the parameters set in the setting unit 22 at a subsequent stage of the character recognition unit 15. An editing unit 23 for performing the editing is added. These added functional blocks 22 and 23 are also formed by the computer device reading a predetermined program and executing it in cooperation with the OS of the own device.

【0029】図6は、この文字画像処理システム2にお
いて、文字強調処理を行う場合の処理手順を示した図で
ある。図6において、書体判別結果に基づく文字認識処
理までは第1実施形態の場合と同様である(ステップS
201)。ここでは、設定部22に設定された強調パラ
メータ、すなわちどの書体をどのような態様で強調させ
るかを表すパラメータを編集部23で取得し(ステップ
S202)、該当書体文字及びその位置を検出した後
(ステップS203)、強調パラメータに基づく強調処
理を実行する(ステップS204)。強調処理の形態と
しては、例えばゴシック体と判別された文字のサイズを
相対的に大きくしたり、赤色等に着色したり、点滅表示
させたりする。強調処理の結果データは、出力制御部1
6を通じて表示装置等に出力され、該当する形態で表示
される。
FIG. 6 is a diagram showing a processing procedure when performing character emphasis processing in the character image processing system 2. In FIG. 6, up to the character recognition processing based on the typeface determination result is the same as in the first embodiment (step S
201). Here, the emphasis parameter set in the setting unit 22, that is, a parameter indicating which typeface is to be emphasized in what manner is acquired by the editing unit 23 (step S202), and after the corresponding typeface character and its position are detected. (Step S203), an emphasis process based on the emphasis parameter is executed (Step S204). As a form of the emphasis processing, for example, the size of a character determined to be Gothic is made relatively large, colored in red or the like, or blinking. The result data of the emphasis processing is output to the output control unit 1.
6 and output to a display device or the like, and displayed in an appropriate form.

【0030】図7は、文字の再配列を行う場合の処理手
順を示した図である。図7において、書体判別結果に基
づく文字認識処理までは第1実施形態の場合と同様であ
る(ステップS301)。ここでは、設定部22に設定
された配列パラメータ、すなわちどの書体をどのような
順序でどのように配列させるかを表すパラメータを編集
部23で取得し(ステップS302)、該当書体文字及
びその位置を抽出した後(ステップS303)、配列パ
ラメータに基づく文字再配列処理を実行する(ステップ
S304)。例えば明朝体とゴシック体とが混在する文
書の場合、ゴシック体は、文書作成者が目立たせたい場
合に使用される場合が多い。そこで、このような場合
に、ゴシック体のみを抽出して再配列するようにすれ
ば、文書作成者の意図や要点を迅速に把握できるように
なる。再配列された文字群は、出力制御部16を通じて
表示装置等に出力されて表示される。
FIG. 7 is a diagram showing a processing procedure when rearranging characters. In FIG. 7, up to the character recognition processing based on the typeface determination result is the same as in the first embodiment (step S301). Here, the arrangement parameter set in the setting unit 22, that is, a parameter indicating which typeface should be arranged in what order and how, is acquired by the editing unit 23 (step S302), and the corresponding typeface character and its position are obtained. After the extraction (step S303), a character rearrangement process based on the arrangement parameters is executed (step S304). For example, in the case of a document in which Mincho and Gothic are mixed, the Gothic is often used when the document creator wants to stand out. Therefore, in such a case, if only the Gothic body is extracted and rearranged, the intention and the main point of the document creator can be quickly grasped. The rearranged character group is output to a display device or the like through the output control unit 16 and displayed.

【0031】なお、図6及び図7に示した処理は、編集
部23で択一的に行ってもよく、あるいは両者を併用し
て行ってよい。例えば、文字の再配列の際に、表示態様
を変更したり、色を変えたりしてもよい。
The processing shown in FIGS. 6 and 7 may be performed alternatively by the editing unit 23, or may be performed using both of them. For example, when rearranging characters, the display mode may be changed or the color may be changed.

【0032】また、第1及び第2実施形態では、基準書
体としてゴシック体に近似したものを採用したが、基準
書体として明朝体その他の書体を採用できるものであ
る。
In the first and second embodiments, the reference typeface is similar to the Gothic typeface. However, the reference typeface may be Mincho typeface or any other typeface.

【0033】[0033]

【発明の効果】以上の説明から明らかなように、本発明
によれば、書体の判別を正確且つ迅速に行うことがで
き、文字認識や文字編集等を行う場合の実用的価値を高
められるという、特有の効果がある。
As is apparent from the above description, according to the present invention, it is possible to accurately and quickly determine a typeface, and to enhance the practical value in performing character recognition and character editing. , Has a unique effect.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の第1実施形態に係る文字画像処理シス
テムの機能ブロック構成図であり、文字認識を行う場合
の例を示したものである。
FIG. 1 is a functional block configuration diagram of a character image processing system according to a first embodiment of the present invention, illustrating an example of performing character recognition.

【図2】第1実施形態の文字画像処理システムによる、
書体判別方法の手順説明図。
FIG. 2 illustrates a character image processing system according to a first embodiment.
FIG. 4 is an explanatory diagram of a procedure of a typeface determination method.

【図3】(a)はイメージデータに設定される座標系の
説明図、(b)は実際のイメージデータの例、(c)は
スケルトンデータ、(d)は補正後のスケルトンデー
タ、(e)は再補正後のスケルトンデータの例を示した
図。
3A is an explanatory diagram of a coordinate system set in image data, FIG. 3B is an example of actual image data, FIG. 3C is skeleton data, FIG. 3D is skeleton data after correction, and FIG. () Is a diagram showing an example of skeleton data after re-correction.

【図4】(a)は文字を構成する線分の領域、(b)は
線分のスケルトン、(c)はスケルトンにおける画素の
最頻出値M(頻出値:円の内径)、(d)は基準書体画
像、(e)は基準書体画像を求める場合の画素領域を示
した図。
4A is a line segment area forming a character, FIG. 4B is a skeleton of a line segment, FIG. 4C is a most frequent pixel value M (frequent value: inner diameter of a circle) in the skeleton, and FIG. FIG. 4A is a diagram illustrating a reference font image, and FIG. 4E is a diagram illustrating a pixel region when a reference font image is obtained.

【図5】 本発明の第2実施形態に係る文字画像処理シ
ステムの機能ブロック構成図。
FIG. 5 is a functional block configuration diagram of a character image processing system according to a second embodiment of the present invention.

【図6】第2実施形態による強調処理の手順説明図。FIG. 6 is an explanatory diagram of a procedure of an emphasis process according to the second embodiment.

【図7】第2実施形態による文字再配列処理の手順説明
図。
FIG. 7 is an explanatory diagram of a procedure of a character rearrangement process according to the second embodiment.

【符号の説明】[Explanation of symbols]

1,2 文字画像処理システム 11 イメージスキャナ 12 画像変換部 13 基準書体画像格納部 14 書体判別部 15 文字認識部 151,152 書体別の文字認識用辞書 16 出力制御部 22 設定部 23 編集部 1, 2 Character image processing system 11 Image scanner 12 Image conversion unit 13 Reference type image storage unit 14 Type identification unit 15 Character recognition unit 151, 152 Character recognition dictionary for each type 16 Output control unit 22 Setting unit 23 Editing unit

───────────────────────────────────────────────────── フロントページの続き (72)発明者 北橋 忠宏 大阪府豊中市上野西3丁目1−47 (72)発明者 明 偉 大阪府吹田市藤白台1−1030−203 ──────────────────────────────────────────────────続 き Continuing on the front page (72) Inventor Tadahiro Kitahashi 3-1-47 Ueno Nishi, Toyonaka-shi, Osaka (72) Inventor Akira Wei 1-130-203 Fujishirodai, Suita-shi, Osaka

Claims (8)

【特許請求の範囲】[Claims] 【請求項1】 書体が不明な文字画像から特定形状の基
準書体画像を生成する過程と、 前記文字画像と前記生成された基準書体画像との画素分
布を比較することにより当該文字画像の書体を判別する
過程とを含む、 印刷文字の書体判別方法。
1. A step of generating a reference type face image having a specific shape from a character image whose typeface is unknown, and comparing the pixel distribution between the character image and the generated reference type face image to change the typeface of the character image. Determining the typeface of the printed characters.
【請求項2】 前記基準書体画像は、すべてのストロー
ク幅がほぼ一定の文字画像であることを特徴とする請求
項1記載の書体判別方法。
2. The typeface discriminating method according to claim 1, wherein the reference typeface image is a character image in which all stroke widths are substantially constant.
【請求項3】 前記書体を判別した文字画像のうち特定
のものに対して、他の文字画像と異なる特定処理を施す
過程をさらに含む請求項1または2記載の書体判別方
法。
3. The typeface discriminating method according to claim 1, further comprising a step of performing a specific process different from other character images on a specific one of the character images whose typefaces have been discriminated.
【請求項4】 書体別に用意された複数の文字認識用辞
書と、 書体が不明な文字画像から特定形状の基準書体画像を生
成する画像変換手段と、 前記文字画像と前記生成された基準書体画像との画素分
布を比較することにより当該文字画像の書体を判別する
書体判別手段と、 判別された書体に応じた文字認識用辞書を選択して前記
文字画像の文字認識を行う手段と、を備えてなる文字画
像処理システム。
4. A plurality of character recognition dictionaries prepared for each typeface, image converting means for generating a reference typeface image having a specific shape from a character image whose typeface is unknown, said character image and said generated reference typeface image And a means for selecting a character recognition dictionary corresponding to the determined typeface and performing character recognition on the character image by comparing the pixel distribution of the character image and the typeface of the character image. Character image processing system.
【請求項5】 書体が不明な文字画像から特定形状の基
準書体画像を生成する画像変換手段と、 前記文字画像と前記生成された基準書体画像との画素分
布を比較することにより当該文字画像の書体を判別する
書体判別手段と、 前記書体を判別した文字画像のうち特定のものに対して
強調処理を施す手段と、 を備えてなる文字画像処理システム。
5. An image conversion means for generating a reference typeface image having a specific shape from a character image whose typeface is unknown, and comparing the pixel distribution between the character image and the generated reference typeface image by comparing the pixel distribution of the character image. A character image processing system comprising: a typeface determining unit that determines a typeface; and a unit that performs emphasis processing on a specific one of the character images whose typefaces have been determined.
【請求項6】 書体が不明な文字画像から特定形状の基
準書体画像を生成する画像変換手段と、 前記文字画像と前記生成された基準書体画像との画素分
布を比較することにより当該文字画像の書体を判別する
書体判別手段と、 前記書体を判別した文字画像のうち特定のものを抽出し
て再配列する手段と、を備えてなる文字画像処理システ
ム。
6. An image conversion means for generating a reference typeface image having a specific shape from a character image whose typeface is unknown, and comparing the pixel distribution between the character image and the generated reference typeface image to obtain a reference type image. A character image processing system comprising: a typeface determining unit that determines a typeface; and a unit that extracts and rearranges a specific one of the character images that have determined the typeface.
【請求項7】 前記画像変換手段は、前記文字画像にス
ケルトン処理を施して、すべてのストローク幅がほぼ一
定の文字画像を生成し、この文字画像を前記基準書体画
像とすることを特徴とする請求項3乃至6のいずれかの
項記載の文字画像処理システム。
7. The image conversion unit according to claim 1, wherein the character image is subjected to a skeleton process to generate a character image having a substantially constant stroke width, and the character image is used as the reference typeface image. The character image processing system according to claim 3.
【請求項8】 書体が不明な文字画像にスケルトン処理
を施してすべてのストローク幅がほぼ一定となる基準書
体画像を生成する処理、 前記文字画像と前記生成された基準書体画像との画素分
布とを比較することにより当該文字画像の書体を判別す
る処理、 をコンピュータ装置に実行させるためのプログラムを記
録したコンピュータ読み取り可能な記録媒体。
8. A process of performing a skeleton process on a character image whose font type is unknown to generate a reference font image in which all stroke widths are substantially constant; and a pixel distribution between the character image and the generated reference font image. A computer-readable recording medium storing a program for causing a computer device to execute a process of determining the typeface of the character image by comparing
JP10053887A 1998-03-05 1998-03-05 Method for discriminating style of printed character, character image processing system and recording medium Pending JPH11250183A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10053887A JPH11250183A (en) 1998-03-05 1998-03-05 Method for discriminating style of printed character, character image processing system and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10053887A JPH11250183A (en) 1998-03-05 1998-03-05 Method for discriminating style of printed character, character image processing system and recording medium

Publications (1)

Publication Number Publication Date
JPH11250183A true JPH11250183A (en) 1999-09-17

Family

ID=12955251

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10053887A Pending JPH11250183A (en) 1998-03-05 1998-03-05 Method for discriminating style of printed character, character image processing system and recording medium

Country Status (1)

Country Link
JP (1) JPH11250183A (en)

Similar Documents

Publication Publication Date Title
US8355578B2 (en) Image processing apparatus, image processing method, and storage medium
US8428356B2 (en) Image processing device and image processing method for generating electronic document with a table line determination portion
US6563949B1 (en) Character string extraction apparatus and pattern extraction apparatus
JP2001297303A (en) Method and device for recognizing document image and computer readable recording medium
JP2002063215A (en) Method and system for displaying document, computer program and recording medium
JP2004046315A (en) Device and method for recognizing character, program and storage medium
CN112069991A (en) PDF table information extraction method and related device
EP0933719B1 (en) Image processing method and apparatus
US6535652B2 (en) Image retrieval apparatus and method, and computer-readable memory therefor
US8229214B2 (en) Image processing apparatus and image processing method
JP2002015280A (en) Device and method for image recognition, and computer- readable recording medium with recorded image recognizing program
JP5335581B2 (en) Image processing apparatus, image processing method, and program
JPH11338974A (en) Document processing method and device therefor, and storage medium
JP2008028716A (en) Image processing method and apparatus
JP4281236B2 (en) Image recognition apparatus, image recognition method, and computer-readable recording medium storing image recognition program
JP2022090469A (en) Format defining device, format defining method, and program
JPH11250183A (en) Method for discriminating style of printed character, character image processing system and recording medium
JP2002279351A (en) Character recognition device, method, and program, and recording medium computer-readable the program recorded
JP7497620B2 (en) Document data generation device, image forming device, and document data generation program
JP4109738B2 (en) Image processing method and apparatus and storage medium therefor
JPH08237404A (en) Selection of optical character recognition mode
JP2002049890A (en) Device and method for recognizing picture and computer- readable recording medium where picture recognizing program is recorded
JPH0830725A (en) Device and method for processing image
JPH08123904A (en) Character style classification processing device
JPH08147314A (en) Recognition type document filing device and control method thereof