JPH0484380A - 文字認識装置 - Google Patents

文字認識装置

Info

Publication number
JPH0484380A
JPH0484380A JP2199601A JP19960190A JPH0484380A JP H0484380 A JPH0484380 A JP H0484380A JP 2199601 A JP2199601 A JP 2199601A JP 19960190 A JP19960190 A JP 19960190A JP H0484380 A JPH0484380 A JP H0484380A
Authority
JP
Japan
Prior art keywords
character
font
dictionary
standard
characters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2199601A
Other languages
English (en)
Inventor
Masayuki Ishigami
正之 石上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2199601A priority Critical patent/JPH0484380A/ja
Publication of JPH0484380A publication Critical patent/JPH0484380A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [産業上の利用分野〕 本発明は、パターンマツチングによる認識結果として、
認識文字コードと共にフォント情報を出力するようにし
た文字認識装置に関する。
〔従来技術〕
最近、ワードプロセッサ、デスク・トップ・パブリッシ
ングシステム(DTP、卓上印刷装置)等の普及によっ
て、印刷文書を利用する機会が多くなったが、その印刷
文書を再び電子化することにより文書を再編集したいと
いうニーズがある。
このような電子化の際の入力手段として、日本語文字認
識装置が用いられるようになり、ワードプロセッサの文
字あるいは既存の文書を読むために、数種類の文体を読
むマルチフォントOCR(文字認識装置)が開発されて
いる。
[発明が解決しようとする課題] そのようなりTPにおいては、日本語文字認識装置の認
識出力として認識文字コードだけでなく、フォント情報
、文字サイズ情報も出力することが望まれている。即ち
、DTPにおいて明朝体の文字列中の特定の文字につい
て、ゴシック体によってその部分を強調したい場合にフ
ォント情報が必要となる。
一方、パターンマツチングによる認識結果の訂正処理と
して、種々の訂正方法があるが、例えば単語辞書の各犀
語の距離の和が最短の単語を選択するようにした装置(
特開昭58−48181号公報)、あるいは類似度が等
しい複数の文字種に対して、出力頻度を考慮して単語を
選択するようにした装置(特開昭58−203578号
公報)があるにの従来の訂正方法は何れもフォント情報
を積極的にパターンマツチングによる認識結果の訂正処
理に用いるものではなかった。
本発明の目的は、フォント情報、文字サイズ情報を出力
することができ、更にフォント情報を用いることによっ
て訂正能率を向上させた文字認識装置を提供することに
ある。
[課題を解決するための手段] 前記目的を達成するために、量子化された文書イメージ
から文字を切り出して正規化する文字切り出し・正規化
処理手段と、該正規化された文字から特徴を抽出する特
徴抽出手段と、標準の文字の特徴と該文字のコードが記
憶されている標準パターン辞書と、前記抽出された特徴
パターンと該辞書の標準特徴パターンとを照合すること
により複数の候補文字コードを出力するマツチング処理
手段と、該マツチング処理手段からの候補文字に対して
、単語辞書を用いて訂正処理を行う後処理手段とを備え
た文字認識装置において、複数のフォントに対応した標
準特徴パターンと該フォントを識別する識別コードとを
記憶する標準パターン辞書と、抽出された特徴パターン
と該辞書のS準特徴パターンとを照合することにより複
数の候補文字コードとそのフォント識別コードとを出力
するマツチング処理手段とを設けている。
[作 用] 与えられた文字イメージから特徴を抽出し、その特徴パ
ターンと標準特徴パターンとのマツチングによって、候
補文字コードと共にそのフォント識別コードとを出力す
る。更にフォント識別コードに加えて文字サイズも出力
する。従って、印字処理においてそのフォント情報を用
いることにより、オリジナルの文書に忠実な文書を作成
することができる。また、認識結果の訂正にフォント情
報を用いて訂正能力を向上させている。
〔実施例〕
以下、本発明の一実施例を図面を用いて具体的に説明す
る。第1図は、本発明の一実施例に係る文字認識装置の
ブロック構成図である。1は、図示しない半導体イメー
ジセンサ等によって文書(例えば、ワードプロセッサに
よって作成された文書)が読み取られ、図示しない光電
変換・量子化部で文字像の濃淡を白黒の2値あるいは多
値に量子化された量子化信号中から認識の単位となる1
文字分のパターンを切り出して、この切り出された文字
パターンに対して各種の正規化処理(位置、大きさ、傾
き等を正規化する)をする文字切り出し/正規化処理部
である。2は、正規化されたパターンから特徴を抽出す
る特徴抽出部、3は、標準の特徴パターンが記憶されて
いる辞書、4は、抽出された特徴パターンと、標準パタ
ーン辞書3内に記憶されている標準の特徴パターンとを
照合し、より一致している上位n個の候補文字コードを
出力するマツチング処理部である。5は、後処理のため
の辞書、例えば単語辞書であり、6は、マツチング処理
部4からの認識結果文字に対して、単語辞書5を用いて
言語知識に基づく後処理を行い、類似文字等を弁別処理
し、図示しないデスク・トップ・パブリッシングシステ
ム等に文字コードを出力する後処理部である。また、オ
リジナルの文字パターンサイズは文字切り出し/正規化
処理部1で検出され、ライン7を介して、後処理部6、
更には図示しないデスク・トップ・パブリッシングシス
テムに入力される。8は上記処理部を制御する制御部で
ある。
第2図は、本発明の標準パターン辞書の構成を示す図で
ある。21はフォント数を記憶した領域で1例えば標準
の特徴パターンとして明朝体とゴシック体のパターンが
記憶されていれば、フォント数は2となる。22.23
はそれぞれ明朝体とゴシック体に割り当てられているコ
ード領域で、221はそのフォントを識別するためのフ
ォント識別コードが記憶された領域、222はそのフォ
ント内の文字コードの数(文字数)が記憶された領域、
223は文字コードが順番に(例えばアイウェオ順)記
憶されている領域である。領域23の構成も同様である
領域24には、各フォント毎に、前述した文字コード順
に標準特徴パターンが記憶されている。
そして、これらフォント数、フォント識別コード、フォ
ント内文字数が、動作時にそれぞれ制御部8内のフォン
トカウンタ81、フォントレジスタ82、文字カウンタ
83に設定される。
以下、本発明の標準パターン辞書を用いたマツチング処
理動作を第3図のフローチャートを参照しつつ詳細に説
明する。制御部8は標準パターン辞書3からフォント数
を読み出してフォントカウンタ81に設定する(ステッ
プ31)。次いで、制御部8は標準パターン辞書3から
第1のグループ(すなわち明朝体)のフォント識別コー
ド22Jとフォント内文字数222をそれぞれ読み出し
てフォントレジスタ82、文字カウンタ83に設定する
(ステップ32)。
続いて、制御部8は図示しないイメージセンサを動作さ
せ、文書を読み取る。読み取られた文書のイメージは前
述したように量子化され、文字切り出し/正規化処理部
1で1文字分の文字が切り出され、正規化される。正規
化処理された文字パターンは特徴抽出部2で特徴が抽出
され、抽出された特徴パターンがマツチング処理部4に
入力される。マツチング処理部4では、入力特徴バタン
と標準パターン辞書3内の標準特徴パターン24との距
離を計算しくステップ33)、その距離が所定の閾値以
下の場合は、その文字コード、距離値、フォントレジス
タ82内のフォント識別コドをマツチング処理部4のソ
ーティング回路に出力するように制御部8が制御する(
ステップ34)。このソーティング回路は、マツチング
結果の内、距離値の小さい順に、上位n個の文字コドが
保持されるような構成になっている。
そして、制御部8は文字カウンタ83の値を1だけデイ
グリメントしくステップ35)、文字カウンタ83の値
がOになるまで、つまり第1のグループ内の全ての標準
特徴パターンとのマツチング処理を行う(ステップ36
)。
入力特徴パターンと第1のグループ内の全ての標準特徴
パターンとのマツチング処理が終了すると、制御部8は
フォントカウンタ81の値を1だけディクリメントしく
ステップ37)、制御部8は入力特徴パターンと第2の
グループ内の全ての標準特徴パターンとのマツチング処
理を行うために、標準パターン辞書3から第2のグルー
プ(すなわちゴシック体)のフォント識別コード221
とフォント内文字数222をそれぞれ読み出してフォン
トレジスタ82、文字カウンタ83に設定し、前述した
と同様にマツチング処理を行い、フォントカウンタ8】
の値がOになるまで上記処理を繰返す(ステップ38)
フォントカウンタ81の値がOになると、制御部8はマ
ツチング処理部3に対して、マツチング処理の終了を指
示し、マツチング処理部3内のソーティング回路に保持
されている上位n個の候補(文字コード、距離値、フォ
ント識別コードの組)を後処理部6に出力する(ステッ
プ39)。このマツチング処理と並行しであるいはそれ
に先立って制御部8は、文字切り出し/正規化処理部1
から後処理部6にオリジナルの文字パターンサイズを渡
すように制御する。
後処理部6では、マツチング処理部4からの候補文字に
対して、単語辞書5を°用いて類似文字等の訂正処理を
行うが、その際前後の文字のフォント識別コードを参照
することによって誤認文字を容易に訂正することができ
る。
なお、上記実施例では、標準パターン辞!3の第1のグ
ループの特徴パターン、次いで第2のグループの特徴パ
ターンを読み出すように制御しているが、認識された前
の文字が第2のグループの特徴パターンに属している場
合には、標準バタン辞書3の第2のグループの特徴パタ
ーンから先に読み出すようにしてもよい。
[発明の効果] 以上、説明したように、本発明によれば、認識された文
字コートと共にフォント情報と文字サイズを出力するこ
とができるので、文字uR後の印字処理においてそのフ
ォント情報を用いることによって、元の文書に忠実な文
書を作成することができる。また、認識結果の訂正にフ
ォント情報を用いることによって、認識率が格段に向上
する。
【図面の簡単な説明】
第1図は本発明の一実施例に係る文字認識装置のブロッ
ク構成図、第2図は本発明の標準パターン辞書の構成を
示す図、第3図は本発明の標準パターン辞書を用いたマ
ツチング処理動作のフローチャートである。 1・・・文字切り出し/正規化処理部、2・・・特徴抽
出部、  3・・・標準パターン辞書、4・・・マツチ
ング処理部、  5・・・単語辞書、6・・後処理部、
  8・・制御部、 81・・・フォントカウンタ、 82・・フォントレジスタ、 83・・・文字カウンタ。 第2図 第3図

Claims (3)

    【特許請求の範囲】
  1. (1)量子化された文書イメージから文字を切り出して
    正規化する文字切り出し・正規化処理手段と、該正規化
    された文字から特徴を抽出する特徴抽出手段と、標準の
    文字の特徴と該文字のコードが記憶されている標準パタ
    ーン辞書と、前記抽出された特徴パターンと該辞書の標
    準特徴パターンとを照合することにより複数の候補文字
    コードを出力するマッチング処理手段と、該マッチング
    処理手段からの候補文字に対して、単語辞書を用いて訂
    正処理を行う後処理手段とを備えた文字認識装置におい
    て、複数のフォントに対応した標準特徴パターンと該フ
    ォントを識別する識別コードとを記憶する標準パターン
    辞書と、抽出された特徴パターンと該辞書の標準特徴パ
    ターンとを照合することにより複数の候補文字コードと
    そのフォント識別コードとを出力するマッチング処理手
    段とを備えてなることを特徴とする文字認識装置。
  2. (2)前記文字切り出し・正規化処理手段は前記文書イ
    メージから文字サイズを検出し、該検出された文字サイ
    ズを前記後処理手段に入力することを特徴とする請求項
    (1)記載の文字認識装置。
  3. (3)前記後処理手段は前記フォント識別コードを参照
    することによって前記候補文字を訂正処理することを特
    徴とする請求項(1)記載の文字認識装置。
JP2199601A 1990-07-27 1990-07-27 文字認識装置 Pending JPH0484380A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2199601A JPH0484380A (ja) 1990-07-27 1990-07-27 文字認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2199601A JPH0484380A (ja) 1990-07-27 1990-07-27 文字認識装置

Publications (1)

Publication Number Publication Date
JPH0484380A true JPH0484380A (ja) 1992-03-17

Family

ID=16410571

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2199601A Pending JPH0484380A (ja) 1990-07-27 1990-07-27 文字認識装置

Country Status (1)

Country Link
JP (1) JPH0484380A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7472348B2 (en) 1998-11-05 2008-12-30 Canon Kabushiki Kaisha Image processing apparatus, image processing method and storage medium using character size and width for magnification
JP2012048711A (ja) * 2010-08-02 2012-03-08 Celartem Inc フォントマッチング

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7472348B2 (en) 1998-11-05 2008-12-30 Canon Kabushiki Kaisha Image processing apparatus, image processing method and storage medium using character size and width for magnification
JP2012048711A (ja) * 2010-08-02 2012-03-08 Celartem Inc フォントマッチング

Similar Documents

Publication Publication Date Title
US5881172A (en) Hierarchical character recognition system
JPH0772906B2 (ja) 文書認識装置
JPH087033A (ja) 情報処理方法及び装置
JPS63216189A (ja) 文字認識方法
JPH0484380A (ja) 文字認識装置
JPS6336389A (ja) 文字読取装置
JP2899377B2 (ja) 文字認識装置
JP2746345B2 (ja) 文字認識の後処理方法
JPS6095689A (ja) 光学的文字読取装置
JP2677271B2 (ja) 文字認識装置
JPS61114388A (ja) 文字入力装置
JPH0713999A (ja) 表認識装置
JPS60138689A (ja) 文字認識方法
JPH01311390A (ja) 文字置換制御方式
JPS62262194A (ja) 光学式文字読取装置
JPS6081688A (ja) 情報認識方式
JP3595081B2 (ja) 文字認識方法
JPH04119488A (ja) 文字認識装置
JPH07117995B2 (ja) 文字認識装置
JPS60110089A (ja) 文字認識装置
JPS6215682A (ja) 文字入力方式
JPH06195521A (ja) 文字認識方法
JPS6143383A (ja) 文字認識装置
JPH01161592A (ja) 文字認識装置
JPH02278392A (ja) 文字認識装置