JPH1083433A - 光学式文字読取装置の文字辞書作成方法 - Google Patents

光学式文字読取装置の文字辞書作成方法

Info

Publication number
JPH1083433A
JPH1083433A JP8237638A JP23763896A JPH1083433A JP H1083433 A JPH1083433 A JP H1083433A JP 8237638 A JP8237638 A JP 8237638A JP 23763896 A JP23763896 A JP 23763896A JP H1083433 A JPH1083433 A JP H1083433A
Authority
JP
Japan
Prior art keywords
column
row
rows
character
dots
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP8237638A
Other languages
English (en)
Inventor
Naoto Aoki
直人 青木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP8237638A priority Critical patent/JPH1083433A/ja
Publication of JPH1083433A publication Critical patent/JPH1083433A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【課題】 光学式文字読取装置の文字辞書作成におい
て、帳票に文字を印字せず印字用のフォントデータから
生成されたイメージデータを使用して、文字辞書を作成
する。 【解決手段】 ステップS11で、辞書作成対象の文字
コードが入力され、ステップS12で、フレキシブルデ
ィスク等からドットフォントデータ(又はアウトライン
フォントデータ)が読み出される。ステップS13で、
フォントデータが解析され、ステップS14で、メモリ
上にドットパターンとして展開される。ステップS15
で、文字辞書に対応するドット数を有するマトリックス
状のイメージデータが生成される。ステップS16で、
イメージデータから文字の特徴情報が抽出され、ステッ
プS17で、抽出された文字の特徴情報に文字コードが
付されて辞書ファイルに登録される。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、光学式文字読取装
置(以下、「OCR」という)で文字認識を行うため
に、登録文字毎に文字コードとその文字の特徴情報とを
登録した文字辞書を作成するOCRの文字辞書作成方法
に関するものである。
【0002】
【従来の技術】図2は、従来のOCRの概略を示す構成
図である。このOCRは、読取り対象の帳票1のイメー
ジを光学的に読取り、読取った光信号を電気信号に変換
し、量子化してディジタル信号に変換する光電変換部2
を有している。光電変換部2の出力側は、メモリ3の入
力側に接続されている。メモリ3は、ディジタル信号に
変換されたイメージを認識処理のためにイメージデータ
として一時的に蓄積するものである。メモリ3は、OC
R全体の制御及び文字認識処理を行うための中央処理装
置(以下、「CPU」という)4に接続されている。C
PU4には、文字認識処理に用いる文字辞書5が接続さ
れている。文字辞書5は、文字毎にその文字を判別する
ための特徴となる情報を登録したファイルである。OC
Rでは、文字読取り処理に先立って、文字辞書5を作成
しておく必要がある。
【0003】図3は、図2のOCRを使用して文字辞書
5を作成する従来の文字辞書作成方法の処理手順を示す
フローチャートである。先ず、辞書作成対象となる文字
をプリンタ等で印字した帳票1を準備する。図3のステ
ップS1において、光電変換部2は帳票1上に印字され
た文字の画像読取り処理を行い、メモリ3にその読取っ
たイメージデータが蓄積される。ステップS2におい
て、OCRの図示しないキーボードから、ステップS1
で読取ったイメージデータに対応する文字の文字コード
を入力する。ステップS2で文字コードが入力される
と、ステップS3〜S5の辞書作成処理へ進む。ステッ
プS3において、メモリ3に蓄積されているイメージデ
ータから文字パターン部分を切り出す文字切出処理が行
われる。次のステップS4において、ステップS3で切
り出された文字パターンに対して辞書作成のための解析
処理が行われる。この解析処理において、文字パターン
の特徴抽出が行われ、ここで抽出された特徴に基づいて
判別のための情報、即ち、辞書データが作成される。ス
テップS4で辞書データが作成されると、次のステップ
S5における登録処理によって、この辞書データは、文
字辞書5に文字コードとともに登録される。
【0004】
【発明が解決しようとする課題】しかしながら、従来の
OCRの文字辞書作成方法では、次の(1)〜(5)の
ような課題があった。 (1) 文字のイメージデータを収集するため、帳票1
に文字を印字する必要がある。文字の印字には、帳票1
の仕様、印字するためのプリンタ、及びその帳票1を読
取るOCRの条件を考慮して印字のサイズや位置を決定
する必要があり、そのために多くの作業量を必要とす
る。 (2) 帳票1上の印字位置のずれや、OCRでの文字
の読取り位置のずれを平均化するため、同じ文字につい
て複数の帳票1を用意しなければならず、コストが増大
する。 (3) OCRでの文字の読取り位置のずれを平均化す
るため、帳票1を複数回OCRで読取る必要があり、そ
のために多くの作業量を必要とする。 (4) 入力した文字コードと、入力した帳票1上の文
字とが入力ミスにより不一致となるおそれがあり、特に
多数の文字を一括して入力する場合には、チェックのた
めの作業量が増加する。 (5) プリンタ及びOCRの公差等による装置の個体
差のため、例えば読み取ったドットパターンのサイズが
異なり、同一機種のOCRであっても作成した文字辞書
5を流用することができずに、再度そのOCRで作成し
直す必要が生ずる場合がある。このような場合、繰り返
しの作成処理のための作業量が大きくなる。本発明は、
前記従来技術が持っていた課題を解決し、プリンタで帳
票に印字を行わずに、印字用のフォントデータから直接
OCRの文字辞書作成用のイメージデータを生成して文
字辞書作成を行うOCRの文字辞書作成方法を提供する
ものである。
【0005】
【課題を解決するための手段】前記課題を解決するた
め、本発明のうち第1の発明は、帳票上に記載された文
字の画像データを光学的に読み取り、登録文字の文字コ
ード及び文字特徴情報を有する文字辞書を参照して、そ
の読み取った画像データを認識し、該読み取った文字の
該文字コードを出力するOCRの該文字辞書を作成する
OCRの文字辞書作成方法において、次のような処理を
行っている。先ず、マトリックス状に配列された複数の
ドットから構成され、前記帳票上の文字とは別個の文字
パターンを有する印字用文字のパターンデータと、該パ
ターンデータの構成を示すデータ構成情報と、前記文字
コードに対応する検索用の文字コードとを有するドット
フォントデータを入力し、該データ構成情報に基づいて
該パターンデータをM行N列(但し、M、Nは複数)の
ドットパターンに変換してメモリ上に展開するパターン
展開処理を行う。次に、前記メモリ上に展開されたドッ
トパターンから、前記文字特徴情報によって決められた
P行Q列(但し、P、Qは複数)の前記登録文字のイメ
ージデータを生成するデータ生成処理を行う。そして、
前記イメージデータから前記文字特徴情報を抽出し、そ
の抽出された文字特徴情報に前記文字コードを付して辞
書ファイルに登録する登録処理を行う。
【0006】第2の発明は、OCRの文字辞書作成方法
において、2次元座標上に始点及び終点を有する複数の
直線素を用いて、前記帳票上の文字とは別個の文字パタ
ーンを有する印字用文字の輪郭を記述したパターンデー
タと、該パターンデータの構成を示すデータ構成情報
と、前記文字コードに対応する検索用の文字コードとを
有するアウトラインフォントデータを入力し、該データ
構成情報に基づいて該パターンデータをM行N列のドッ
トパターンに変換してメモリ上に展開するパターン展開
処理と、第1の発明と同様のデータ生成処理と、登録処
理とを行っている。第3の発明は、第1または第2の発
明において、前記パターン展開処理で展開されるM行N
列のドットパターンのドット数と、前記データ生成処理
で生成されるP行Q列のイメージデータのドット数と
が、行及び列とも同一のドット数であるものを対象にし
て処理を行っている。第4の発明は、第1または第2の
発明において、前記パターン展開処理で展開されるM行
N列のドットパターンのドット数と、前記データ生成処
理で生成されるP行Q列のイメージデータのドット数と
の関係が、M>P、かつN>Qであるものを対象にして
処理を行っている。
【0007】第5の発明は、第1または第2の発明にお
いて、前記パターン展開処理で展開されるM行N列のド
ットパターンのドット数と、前記データ生成処理で生成
されるP行Q列のイメージデータのドット数との関係
が、M<P、かつN<Qであるものを対象にして処理を
行っている。第6の発明では、第4の発明における前記
データ生成処理において、前記メモリ上に展開されたM
行のドットパターンのうち、(M−P)行のドットパタ
ーンを等間隔に削除する行削除処理と、前記メモリ上に
展開されたN列のドットパターンのうち、(N−Q)列
のドットパターンを等間隔に削除する列削除処理とを行
い、P行Q列の前記登録文字のイメージデータを生成し
ている。第7の発明では、第4の発明における前記デー
タ生成処理において、前記メモリ上に展開されたM行の
ドットパターンに対して各行のドット数の周辺分布ヒス
トグラムを作成する行ヒストグラム処理と、前記メモリ
上に展開されたN列のドットパターンに対して各列のド
ット数の周辺分布ヒストグラムを作成する列ヒストグラ
ム処理と、前記行ヒストグラム処理で得られた周辺分布
ヒストグラムに基づき、ドット数変化の少ない行から順
に、(M−P)行のドットパターンを削除する行削除処
理と、前記列ヒストグラム処理で得られた周辺分布ヒス
トグラムに基づき、ドット数変化の少ない列から順に、
(N−Q)列のドットパターンを削除する列削除処理と
を行い、P行QN列の前記登録文字のイメージデータを
生成している。
【0008】第8の発明では、第4の発明における前記
データ生成処理において、前記第7の発明と同様の行ヒ
ストグラム処理及び列ヒストグラム処理と、前記行ヒス
トグラム処理で得られた周辺分布ヒストグラムに基づ
き、ドット数変化の大きい箇所から順に、該箇所の前後
の行のうちドット数の多い側の行を削除する行削除処理
と、前記列ヒストグラム処理で得られた周辺分布ヒスト
グラムに基づき、ドット数変化の大きい箇所から順に、
該箇所の前後の列のうちドット数の多い側の列を削除す
る列削除処理とを行い、P行QN列の前記登録文字のイ
メージデータを生成している。第9の発明では、第4の
発明における前記データ生成処理において、前記第7の
発明と同様の行ヒストグラム処理及び列ヒストグラム処
理と、前記行ヒストグラム処理で得られた周辺分布ヒス
トグラムに基づき、ドット数変化の大きい箇所から順
に、該箇所の前後の行のうちドット数の少ない側の行を
削除する行削除処理と、前記列ヒストグラム処理で得ら
れた周辺分布ヒストグラムに基づき、ドット数変化の大
きい箇所から順に、該箇所の前後の列のうちドット数の
少ない側の列を削除する列削除処理とを行い、P行Q列
の前記登録文字のイメージデータを生成している。
【0009】第10の発明では、第4の発明における前
記データ生成処理において、前記第7の発明と同様の行
ヒストグラム処理及び列ヒストグラム処理と、前記行ヒ
ストグラム処理で得られた周辺分布ヒストグラムに対し
て行毎に重み付けを行い加重周辺分布ヒストグラムを算
出する行加重処理と、前記列ヒストグラム処理で得られ
た周辺分布ヒストグラムに対して列毎に重み付けを行い
加重周辺分布ヒストグラムを算出する列加重処理と、前
記行加重処理で得られた加重周辺分布ヒストグラムに基
づき、加重周辺分布数変化の大きい箇所から順に、該箇
所の前後の行のうちドット数の多い側の行を削除する行
削除処理と、前記列加重処理で得られた加重周辺分布ヒ
ストグラムに基づき、加重周辺分布数変化の大きい箇所
から順に、該箇所の前後の列のうちドット数の多い側の
列を削除する列削除処理とを行い、P行Q列の前記登録
文字のイメージデータを生成している。第11の発明で
は、第4の発明における前記データ生成処理において、
前記第10の発明と同様の行ヒストグラム処理、列ヒス
トグラム処理、行加重処理及び列加重処理とを行ってい
る。更に、前記行加重処理で得られた加重周辺分布ヒス
トグラムに基づき、加重周辺分布数変化の大きい箇所か
ら順に、該箇所の前後の行のうちドット数の少ない側の
行を削除する行削除処理と、前記列加重処理で得られた
加重周辺分布ヒストグラムに基づき、加重周辺分布数変
化の大きい箇所から順に、該箇所の前後の列のうちドッ
ト数の少ない側の列を削除する列削除処理とを行い、P
行Q列の前記登録文字のイメージデータを生成してい
る。
【0010】第12の発明では、第4の発明における前
記データ生成処理において、前記メモリ上に展開された
ドットパターンの各ドットとその左右のドットとの間で
の変化を緩和して横方向平滑パターンを生成する横方向
平滑化処理と、前記メモリ上に展開されたドットパター
ンの各ドットとその上下のドットとの間での変化を緩和
して縦方向平滑パターンを生成する縦方向平滑化処理
と、前記ドットパターンと前記横方向平滑パターンとの
相違箇所、及び該ドットパターンと前記縦方向平滑パタ
ーンとの相違箇所を抽出する相違抽出処理と、前記相違
抽出処理において抽出された相違箇所を含まない(M−
P)行を前記M行のドットパターンから削除する行削除
処理と、前記相違抽出処理において抽出された相違箇所
を含まない(N−Q)列を前記N列のドットパターンか
ら削除する列削除処理とを行い、P行Q列の前記登録文
字のイメージデータを生成している。第13の発明で
は、第4の発明における前記データ生成処理において、
前記第6の発明と同様の行削除処理及び列削除処理と、
前記行削除処理及び前記列削除処理を行った後のドット
パターンに対して、乱数に基づいて特定される単数また
は複数の位置のドットを反転する反転処理とを行い、P
行Q列の前記登録文字のイメージデータを生成してい
る。
【0011】第14の発明では、第5の発明における前
記データ生成処理において、前記メモリ上に展開された
M行のドットパターンに、(P−M)行のドットパター
ンを等間隔に補間する行補間処理と、前記メモリ上に展
開されたN列のドットパターンに、(Q−N)列のドッ
トパターンを等間隔に補間する列補間処理とを行い、P
行Q列の前記登録文字のイメージデータを生成してい
る。第15の発明では、第5の発明における前記データ
生成処理において、前記第7の発明と同様の行ヒストグ
ラム処理及び列ヒストグラム処理と、前記行ヒストグラ
ム処理で得られた周辺分布ヒストグラムに基づき、ドッ
ト数変化の少ない行から順に、(P−M)行のドットパ
ターンを補間する行補間処理と、前記列ヒストグラム処
理で得られた周辺分布ヒストグラムに基づき、ドット数
変化の少ない列から順に、(Q−N)列のドットパター
ンを補間する列補間処理とを行い、P行Q列の前記登録
文字のイメージデータを生成している。第16の発明で
は、第5の発明における前記データ生成処理において、
前記第7の発明と同様の行ヒストグラム処理及び列ヒス
トグラム処理と、前記行ヒストグラム処理で得られた周
辺分布ヒストグラムに基づき、ドット数変化の大きい箇
所から順に、該箇所の前後の行のうちドット数の多い側
の行のドットパターンを補間する行補間処理と、前記列
ヒストグラム処理で得られた周辺分布ヒストグラムに基
づき、ドット数変化の大きい箇所から順に、該箇所の前
後の列のうちドット数の多い側の列のドットパターンを
補間する列補間処理とを行い、P行Q列の前記登録文字
のイメージデータを生成している。
【0012】第17の発明では、第5の発明における前
記データ生成処理において、前記第7の発明と同様の行
ヒストグラム処理及び列ヒストグラム処理と、前記行ヒ
ストグラム処理で得られた周辺分布ヒストグラムに基づ
き、ドット数変化の大きい箇所から順に、該箇所の前後
の行のうちドット数の少ない側の行のドットパターンを
補間する行補間処理と、前記列ヒストグラム処理で得ら
れた周辺分布ヒストグラムに基づき、ドット数変化の大
きい箇所から順に、該箇所の前後の列のうちドット数の
少ない側の列のドットパターンを補間する列補間処理と
を行い、P行Q列の前記登録文字のイメージデータを生
成している。第18の発明では、第5の発明における前
記データ生成処理において、前記第10の発明と同様の
行ヒストグラム処理、列ヒストグラム処理、行加重処
理、及び列加重処理とを行っている。更に、前記行加重
処理で得られた加重周辺分布ヒストグラムに基づき、加
重周辺分布数変化の大きい箇所から順に、該箇所の前後
の行のうちドット数の多い側の行のドットパターンを補
間する行補間処理と、前記列加重処理で得られた加重周
辺分布ヒストグラムに基づき、加重周辺分布数変化の大
きい箇所から順に、該箇所の前後の列のうちドット数の
多い側の列のドットパターンを補間する列補間処理とを
行い、P行Q列の前記登録文字のイメージデータを生成
している。
【0013】第19の発明では、第5の発明における前
記データ生成処理において、前記第10の発明と同様の
行ヒストグラム処理、列ヒストグラム処理、行加重処
理、及び列加重処理とを行っている。更に、前記行加重
処理で得られた加重周辺分布ヒストグラムに基づき、加
重周辺分布数変化の大きい箇所から順に、該箇所の前後
の行のうちドット数の少ない側の行のドットパターンを
補間する行補間処理と、前記列加重処理で得られた加重
周辺分布ヒストグラムに基づき、加重周辺分布数変化の
大きい箇所から順に、該箇所の前後の列のうちドット数
の少ない側の列のドットパターンを補間する列補間処理
とを行い、P行Q列の前記登録文字のイメージデータを
生成している。第20の発明では、第5の発明における
前記データ生成処理において、前記第12の発明と同様
の横方向平滑化処理、縦方向平滑化処理、及び相違抽出
処理と、前記相違抽出処理において抽出された相違箇所
を含まない(P−M)行を前記M行のドットパターンに
補間する行補間処理と、前記相違抽出処理において抽出
された相違箇所を含まない(P−N)列を前記N行のド
ットパターンに補間する列補間処理とを行い、P行Q列
の前記登録文字のイメージデータを生成している。第2
1の発明では、第5の発明における前記データ生成処理
において、前記第14の発明と同様の行補間処理、及び
列補間処理と、前記行補間処理及び前記列補間処理を行
った後のドットパターンに対して、乱数に基づいて特定
される単数または複数の位置のドットを反転する反転処
理とを行い、P行Q列の前記登録文字のイメージデータ
を生成している。
【0014】第1、第3、第4及び第5の発明によれ
ば、以上のようにOCRの文字辞書作成方法を構成した
ので、次のような作用が行われる。先ず、パターン展開
処理において、マトリックス状に配列された複数のドッ
トから構成された印字用文字のパターンデータと、該パ
ターンデータの構成を示すデータ構成情報と、文字コー
ドとを有するドットフォントデータがフレキシブルディ
スク(以下、「FD」という)等から入力され、該デー
タ構成情報に基づいて該パターンデータからM行N列の
ドットパターンがメモリ上に展開される。次に、データ
生成処理において、メモリ上に展開されたドットパター
ンから、P行Q列の登録文字のイメージデータが生成さ
れる。そして、登録処理において、イメージデータから
文字特徴情報が抽出され、その抽出された文字特徴情報
に文字コードが付されて辞書ファイルに登録される。
【0015】第2、第3、第4及び第5の発明によれ
ば、次のような作用が行われる。先ず、パターン展開処
理において、2次元座標上に始点及び終点を有する複数
の直線素を用いて印字用文字の輪郭を記述したパターン
データと、該パターンデータの構成を示すデータ構成情
報と、文字コードとを有するアウトラインフォントデー
タが、FD等から入力され、該データ構成情報に基づい
て該パターンデータがM行N列のドットパターンに変換
されてメモリ上に展開される。そして、第1の発明と同
様のデータ生成処理と、登録処理とが行われる。第6の
発明によれば、第4の発明におけるデータ生成処理にお
いて、メモリ上に展開されたM行N列のドットパターン
のうち、(M−P)行及び(N−Q)列が等間隔に削除
されて、P行Q列のイメージデータが生成される。第7
の発明によれば、第4の発明におけるデータ生成処理に
おいて、メモリ上に展開されたM行N列のドットパター
ンから、行及び列ヒストグラム処理によって、周辺分布
ヒストグラムが作成される。そして、周辺分布ヒストグ
ラムに基づいて、ドット数変化の少ない行と列が削除さ
れ、P行Q列のイメージデータが生成される。
【0016】第8の発明によれば、第4の発明における
データ生成処理において、メモリ上に展開されたM行N
列のドットパターンから、行及び列ヒストグラム処理に
よって、周辺分布ヒストグラムが作成される。そして、
行及び列削除処理によって、周辺分布ヒストグラムに基
づいて、ドット数変化の大きい箇所が選択され、選択さ
れた箇所の前後の行及び列のうち、ドット数の多い側の
行と列が削除され、P行Q列のイメージデータが生成さ
れる。第9の発明によれば、第4の発明におけるデータ
生成処理において、メモリ上に展開されたM行N列のド
ットパターンから、行及び列ヒストグラム処理によっ
て、周辺分布ヒストグラムが作成される。そして、行及
び列削除処理によって、周辺分布ヒストグラムに基づい
て、ドット数変化の大きい箇所が選択され、選択された
箇所の前後の行及び列のうち、ドット数の少ない側の行
と列が削除され、P行Q列のイメージデータが生成され
る。第10の発明によれば、第4の発明におけるデータ
生成処理において、メモリ上に展開されたM行N列のド
ットパターンから、行及び列ヒストグラム処理によっ
て、周辺分布ヒストグラムが作成される。更に、行及び
列加重処理により、周辺分布ヒストグラムの重み付けが
行われ、加重周辺ヒストグラムが算出される。そして、
行及び列削除処理によって、加重周辺分布ヒストグラム
に基づいて、加重周辺分布数の変化の大きい箇所が選択
され、選択された箇所の前後の行及び列のうち、ドット
数の多い側の行と列が削除され、P行Q列のイメージデ
ータが生成される。
【0017】第11の発明によれば、第4の発明におけ
るデータ生成処理において、メモリ上に展開されたM行
N列のドットパターンから、行及び列ヒストグラム処理
によって、周辺分布ヒストグラムが作成される。更に、
行及び列加重処理により、周辺分布ヒストグラムの重み
付けが行われ、加重周辺ヒストグラムが算出される。そ
して、行及び列削除処理によって、加重周辺分布ヒスト
グラムに基づいて、加重周辺分布数の変化の大きい箇所
が選択され、選択された箇所の前後の行及び列のうち、
ドット数の少ない側の行と列が削除され、P行Q列のイ
メージデータが生成される。第12の発明によれば、第
4の発明におけるデータ生成処理において、先ず、平滑
化処理によって、メモリ上に展開されたドットパターン
の各ドットとその左右または上下のドットとの間での変
化を緩和した横方向及び縦方向平滑パターンが生成され
る。次に、相違抽出処理によって、ドットパターンと横
方向平滑パターンとの相違箇所、及び該ドットパターン
と縦方向平滑パターンとの相違箇所が抽出される。そし
て、行及び列削除処理によって、相違抽出処理において
抽出された相違箇所を含まない行と列とがドットパター
ンから削除され、P行Q列のイメージデータを生成され
る。
【0018】第13の発明では、第4の発明における前
記データ生成処理において、先ず、第6の発明と同様に
行削除処理と列削除処理が行われる。そして、削除され
たドットパターンに対して、乱数に基づいて特定される
単数または複数の位置のドットを反転する反転処理が行
われ、P行Q列のイメージデータが生成される。第14
の発明によれば、第5の発明におけるデータ生成処理に
おいて、メモリ上に展開されたM行N列のドットパター
ンに対して、(P−M)行及び(Q−N)列が等間隔に
補間されて、P行Q列のイメージデータが生成される。
第15の発明によれば、第5の発明におけるデータ生成
処理において、メモリ上に展開されたM行N列のドット
パターンから、行及び列ヒストグラム処理によって、周
辺分布ヒストグラムが作成される。そして、周辺分布ヒ
ストグラムに基づいて、ドット数変化の少ない行と列が
補間され、P行Q列のイメージデータが生成される。第
16の発明によれば、第5の発明におけるデータ生成処
理において、メモリ上に展開されたM行N列のドットパ
ターンから、行及び列ヒストグラム処理によって、周辺
分布ヒストグラムが作成される。そして、行及び列補間
処理によって、周辺分布ヒストグラムに基づいて、ドッ
ト数変化の大きい箇所が選択され、選択された箇所の前
後の行及び列のうち、ドット数の多い側の行と列が補間
され、P行Q列のイメージデータが生成される。
【0019】第17の発明によれば、第5の発明におけ
るデータ生成処理において、メモリ上に展開されたM行
N列のドットパターンから、行及び列ヒストグラム処理
によって、周辺分布ヒストグラムが作成される。そし
て、行及び列補間処理によって、周辺分布ヒストグラム
に基づいて、ドット数変化の大きい箇所が選択され、選
択された箇所の前後の行及び列のうち、ドット数の少な
い側の行と列が補間され、P行Q列のイメージデータが
生成される。第18の発明によれば、第5の発明におけ
るデータ生成処理において、メモリ上に展開されたM行
N列のドットパターンから、行及び列ヒストグラム処理
によって、周辺分布ヒストグラムが作成される。更に、
行及び列加重処理により、周辺分布ヒストグラムの重み
付けが行われ、加重周辺ヒストグラムが算出される。そ
して、行及び列補間処理によって、加重周辺分布ヒスト
グラムに基づいて、加重周辺分布数の変化の大きい箇所
が選択され、選択された箇所の前後の行及び列のうち、
ドット数の多い側の行と列が補間され、P行Q列のイメ
ージデータが生成される。
【0020】第19の発明によれば、第5の発明におけ
るデータ生成処理において、メモリ上に展開されたM行
N列のドットパターンから、行及び列ヒストグラム処理
によって、周辺分布ヒストグラムが作成される。更に、
行及び列加重処理により、周辺分布ヒストグラムの重み
付けが行われ、加重周辺ヒストグラムが算出される。そ
して、行及び列補間処理によって、加重周辺分布ヒスト
グラムに基づいて、加重周辺分布数の変化の大きい箇所
が選択され、選択された箇所の前後の行及び列のうち、
ドット数の少ない側の行と列が補間され、P行Q列のイ
メージデータが生成される。第20の発明によれば、第
5の発明におけるデータ生成処理において、先ず、平滑
化処理によって、メモリ上に展開されたドットパターン
の各ドットとその左右または上下のドットとの間での変
化を緩和した横方向及び縦方向平滑パターンが生成され
る。次に、相違抽出処理によって、ドットパターンと横
方向平滑パターンとの相違箇所、及び該ドットパターン
と縦方向平滑パターンとの相違箇所が抽出される。そし
て、行及び列補間処理によって、相違抽出処理において
抽出された相違箇所を含まない行と列とが補間され、P
行Q列のイメージデータを生成される。第21の発明で
は、第5の発明における前記データ生成処理において、
先ず、第14の発明と同様に行補間処理と列補間処理が
行われる。そして、補間されて得られたドットパターン
に対して、乱数に基づいて特定される単数または複数の
位置のドットを反転する反転処理が行われ、P行Q列の
イメージデータが生成される。
【0021】
【発明の実施の形態】第1の実施形態 図4は、本発明の第1の実施形態の方法で用いられるO
CRの文字辞書作成装置の構成図である。この文字辞書
作成装置は、装置全体の制御及び文字辞書作成処理を実
行するためのCPU11を有している。CPU11に
は、制御及び処理用のプログラムが格納されたリードオ
ンリメモリ(以下、「ROM」という)12、作業用の
データを格納するためのランダムアクセスメモリ(以
下、「RAM」という)13、文字辞書作成の対象とな
る文字を指定するためのキーボード等の入力装置14、
FD等に格納されたフォントデータを読み取るためのF
Dリーダ15、フォントデータをマトリックス状のドッ
トパターンに展開するためのメモリ16、及び文字辞書
作成処理で作成された文字辞書を登録するための辞書フ
ァイル17が接続されている。
【0022】図1は本発明の第1の実施形態を示す文字
辞書作成方法の処理手順を示すフローチャート、図5
(1)〜(3)はドットフォントデータからドットパタ
ーンが生成される過程を示す説明図である。以下、これ
らの図1、図4及び図5を参照して、第1の実施形態の
文字辞書作成方法を説明する。文字辞書作成処理が開始
されると、図1のステップS11において、文字コード
の入力処理が行われる。ステップS11では、図4の入
力装置14から、文字辞書作成対象の文字(例えば、文
字「H」)に対応する文字コードが入力され、ステップ
S12のドットフォントデータ読み出し処理へ進む。ス
テップS12において、FDリーダ15にセットされた
FDから、文字「H」のドットフォントデータが読み出
され、CPU11に入力される。ドットフォントデータ
は、OCRで読み取られる帳票上の文字とは別個の文字
パターンを有する印字用の文字パターンの情報であり、
例えば図5(1)に示すように、検索用の文字コード、
データ構成情報、ドット形式のパターンデータ、プリン
タの解像度、プリンタの印字サイズ等のデータで構成さ
れている。データ構成情報は、文字を構成するドットマ
トリックスの構成形態とパターンデータの読み方を示す
情報である。パターンデータは、図5(2)に示すよう
に、黒画素と白画素とで構成されるドットパターンを、
それぞれ論理値“1”と論理値“0”とで表示したデー
タである。ステップS12でドットフォントデータが読
み出された後、ステップS13のフォントデータ解析処
理へ進む。
【0023】ステップS13において、データ構成情報
が解析されドットマトリックスのサイズ等の情報が取得
されて、ステップS14のドットパターン展開処理へ進
む。ステップS14において、図5(2)のパターンデ
ータは、データ構成情報に基づいてドットパターンに変
換され、図4のメモリ16上に展開される。図5(3)
は、メモリ16上に展開されたドットパターンの一例を
示すもので、例えば縦10ドット×横9ドットのマトリ
ックス状のドットパターンとなっている。ステップS1
4の後、ステップS15のイメージデータ生成処理へ進
む。ステップS15において、メモリ16からOCRで
読み取り対象とする文字サイズ(例えば、縦10ドット
×横9ドット)のドットパターンが切り出され、イメー
ジデータが生成され、ステップS16の特徴抽出処理へ
進む。ステップS16において、イメージデータから文
字特徴情報が抽出され、文字「H」に対応する文字コー
ドとこの文字特徴情報とで構成される辞書データが作成
される。ステップS16の後、ステップS17の辞書登
録処理へ進む。ステップS17において、ステップS1
6で作成された文字「H」の辞書データが辞書ファイル
16に登録され、文字「H」についての文字辞書作成処
理が終了する。以上の説明のように、この第1の実施形
態の文字辞書作成方法は、次の(1),(2)のような
利点がある。 (1) FD等に格納された印字用のフォントデータ
を、メモリ16上に展開してOCRのイメージデータを
生成し、直接OCRの文字辞書作成用データとしている
ので、帳票上に文字を印字する必要がなく、作業の省力
化が可能である。 (2) 文字コードとパターンデータとが一体となった
フォントデータを使用するので、入力時に文字コードと
パターンデータが不一致になるというような人為的入力
誤りが回避される。
【0024】第2の実施形態 図6は、本発明の第2の実施形態を示す文字辞書作成方
法の処理手順を示すフローチャートであり、図1中の要
素と共通の要素には共通の符号が付されている。図7
(1)〜(4)は、アウトラインフォントデータからド
ットパターンを生成する過程の説明図であり、同図
(1)はアウトラインフォントデータ、同図(2)はパ
ターンデータ、同図(3)はアウトラインの構成図、同
図(4)は印字用に展開されたドットパターンである。
この第2の実施形態の方法では、イメージデータ生成の
元になるデータとして、ドットフォントデータに代え
て、アウトラインフォントデータを使用している。この
ため、図6では、図1のステップS12〜S14に代え
て、アウトラインフォントデータからドットパターンを
展開するためのステップS12A,S13A,S14A
を設けている。図6のステップS12Aにおいて、FD
等からアウトラインフォントデータの読み出しが行わ
れ、図7(1)のアウトラインフォントデータが図4の
CPU11に入力される。アウトラインフォントデータ
は、OCRで読み取られる帳票上の文字とは別個の文字
パターンを有する印字用文字の輪郭を示す情報であり、
ドットフォントデータと同様に、文字コード、データ構
成情報、パターンデータ、プリンタの解像度、プリンタ
の印字サイズ等の情報で構成されている。ステップS1
2Aの後、ステップS13Aのフォントデータ解析処理
へ進むステップS13Aにおいて、データ構成情報が解
析され、ドットマトリックスのサイズ等の情報が取得さ
れて、ステップS14Aのドットパターン展開処理へ進
む。ステップS14Aにおいて、アウトラインデータか
らドットパターンへの展開処理が行われる。アウトライ
ンフォントデータのパターンデータは、縦軸を行、横軸
を列とする2次元座標上に始点と終点を有する複数の直
線素(線分)を用いて文字の輪郭を記述したデータであ
り、図7(2)に示すように、複数の線分の始点及び終
点a,b,c,…を示す一連の座標の組み合わせで構成
されている。ドットパターン展開処理では、先ずこれら
の各点a,b,c,…をメモリ16上に配置する。次
に、これらの各点a,b,c,…を順次直線で接続し、
図7(3)に示すようなアウトラインが構成される。更
にこの接続された直線で囲まれた内側を塗りつぶす処理
が行われ、メモリ16上に図7(4)に示すような印字
用のドットパターンが展開される。ステップS14Aの
後、ステップS15のイメージデータ生成処理へ進む。
ステップS15以降の処理は、図1と同様である。以上
のように、この第2の実施形態の文字辞書作成方法で
は、アウトラインフォントデータをメモリ16上に展開
し、この展開されたドットパターンからOCR用のイメ
ージデータを生成し、直接OCRの文字辞書作成用デー
タとしているので、第1の実施形態と同様の利点があ
る。
【0025】第3の実施形態 前記第1及び第2の実施形態は、フォントデータのドッ
トパターンのドット数(例えば、縦10ドット×横9ド
ット)とOCRのイメージデータのドット数が同一であ
る。しかし、フォントデータのドット数とOCRのイメ
ージデータのドット数は必ずしも一致するものではな
い。そこで、この第3の実施形態の文字辞書作成方法で
は、フォントデータのドットパターンのドット数がOC
Rのイメージデータのドットパターンのドット数よりも
大きい場合に、図8(1)〜(3)のようなイメージデ
ータ生成処理を行うようにしている。ここで、例えば、
フォントデータから展開されたドットパターンは縦12
ドット×横10ドット、OCRのイメージデータは縦1
0ドット×横9ドットとする。図8(1)〜(3)は、
本発明の第3の実施形態を示す文字辞書作成方法におけ
るイメージデータ生成処理の説明図であり、同図(1)
は処理手順を示すフローチャート、同図(2)はフォン
トデータから展開されたドットパターン、及び同図
(3)は同図(1)の処理手順に従って生成されたイメ
ージデータである。この図8(1)の処理手順は、図1
または図6の文字辞書作成方法中のステップS15に代
えて実行される処理手順である。
【0026】図8(1)のステップS21の削除行数算
出処理において、ドットパターンとイメージデータの行
数(縦方向のドット数)の差が算出される。この場合、
ドットパターンは12行、イメージデータは10行であ
るから、削除行数は2行となる。ステップS21の後、
ステップS22の削除列数算出処理に進む。ステップS
22において、ドットパターンとイメージデータの列数
(横方向のドット数)の差が算出される。この場合、ド
ットパターンは10列、イメージデータは9列であるか
ら、削除列数は1列となる。ステップS22の後、ステ
ップS23の削除行決定処理へ進む。ステップS23に
おいて、12行のドットパターンのうちの削除対象の行
位置が決定される。ここでは、12行に対して2行、即
ち6行毎に1行が削除位置として決定される。これによ
り、例えば6行目と12行目が行削除の対象となる。ス
テップS23の後、ステップS24の削除列決定処理へ
進む。ステップS24において、10列のドットパター
ンのうちの削除対象の列位置が決定される。ここでは、
10列に対して1列、即ち10列毎に1列が削除位置と
して決定される。これにより、例えば10列目が列削除
の対象となる。ステップS24の後、ステップS25の
イメージデータ生成処理へ進む。ステップS25におい
て、図8(2)のドットパターンから削除対象となった
行及び列が削除され、図8(3)に示すようなイメージ
データが生成される。以上のように、この第3の実施形
態のイメージデータ生成処理では、フォントデータのド
ットパターンがOCRのイメージデータよりも大きい場
合に、ドットパターンの行と列を削除して、イメージデ
ータと同じサイズになるように調整するので、第1及び
第2の実施形態の利点に加えて、効率良く文字辞書の作
成ができるという利点がある。
【0027】第4の実施形態 前記第3の実施形態のイメージデータ生成方法では、フ
ォントデータのサイズがOCRのイメージデータのサイ
ズよりも大きい場合に、一定の間隔でドットパターンの
行及び列を削除して、イメージデータを生成している。
このため、フォントデータのパターンによっては、削除
によって文字の特徴となる部分が欠落して文字の特徴抽
出が不可能になるというおそれがある。これを防止する
ため、この第4の実施形態のイメージデータ生成方法で
は、図9(1)〜(3)のようにドットパターンの特徴
に応じて削除する行及び列を決定するようにしている。
図9(1)〜(3)は、本発明の第4の実施形態を示す
文字辞書作成方法におけるイメージデータ生成処理の説
明図であり、同図(1)は処理手順を示すフローチャー
ト、同図(2)はフォントデータから展開されたドット
パターンとその周辺分布ヒストグラム、及び同図(3)
は同図(1)の処理手順に従って生成されたイメージデ
ータである。
【0028】この図9(1)の処理手順は、図1または
図6の文字辞書作成方法中のステップS15に代えて実
行される処理手順である。図9(1)のステップS31
の行ヒストグラム処理において、各行毎に黒画素のドッ
ト数がカウントされ、図9(2)に示す様な行周辺分布
ヒストグラムHLが作成される。ステップS31の後、
ステップS32の列ヒストグラム処理へ進む。ステップ
S32において、各列毎に黒画素のドット数がカウント
され、図9(2)に示すような列周辺分布ヒストグラム
HRが作成される。ステップS32の後、ステップS3
3の削除行数算出処理に進む。ステップS33におい
て、ドットパターンとイメージデータの行数の差が算出
され、削除行数は2行となる。ステップS33の後、ス
テップS34の削除列数算出処理に進む。ステップS3
4において、ドットパターンとイメージデータの列数の
差が算出され、削除列数は1列となる。ステップS34
の後、ステップS35の削除行決定処理へ進む。ステッ
プS35において、12行のドットパターンのうちの削
除対象の行位置が決定される。ここでは、ステップS3
1で作成された行周辺分布ヒストグラムHLに基づい
て、ドット数変化の少ない行が選択される。例えば、2
行目と10行目は、それぞれ両隣の行との間でのドット
数の変化は0となっている。これにより、2行目と10
行目とが削除対象の行に決定される。ステップS35の
後、ステップS36の削除列決定処理へ進む。
【0029】ステップS36において、10列のドット
パターンのうちの削除対象の列位置が決定される。ここ
では、ステップS32で作成された列周辺分布ヒストグ
ラムHRに基づいて、ドット数変化の少ない列が選択さ
れる。例えば、4列目は、両隣の列との間でのドット数
の変化は0となっている。これにより、4列目が削除対
象の列に決定される。ステップS36の後、ステップS
37のイメージデータ生成処理へ進む。ステップS37
において、図9(3)のドットパターンから削除対象と
なった行及び列が削除され、図9(3)に示すようなイ
メージデータが生成される。以上のように、この第4の
実施形態のイメージデータ生成処理では、ドットパター
ンの行と列を削除して、イメージデータと同じサイズに
なるように調整する場合に、周辺分布ヒストグラムH
L,HRに基づいて、ドット数変化の少ない行と列を削
除するので、文字の特徴を損なうことなくイメージデー
タを得ることが出来る。これにより、第1及び第2の実
施形態の利点に加えて、第3の実施形態よりも更に効率
良く文字辞書の作成ができるという利点がある。
【0030】第5の実施形態 前記第4の実施形態のイメージデータ生成方法では、フ
ォントデータのサイズがOCRのイメージデータのサイ
ズよりも大きい場合に、行及び列に対して周辺分布ヒス
トグラムHL,HRを作成し、ドット変化数の少ない行
と列を削除している。これは実際のOCRが均一に文字
パターンを読み取ることが出来る場合に得られるイメー
ジデータを想定した処理である。しかし、実際のOCR
から得られるイメージデータは、例えば、文字の印刷濃
度が薄くなると、パターンの線が細くなる。この第5の
実施形態では、このような場合を想定したイメージデー
タを、文字辞書作成用のデータとして生成するようにし
ている。図10(1)〜(3)は、本発明の第5の実施
形態を示す文字辞書作成方法におけるイメージデータ生
成処理の説明図であり、同図(1)は処理手順を示すフ
ローチャート、同図(2)はフォントデータから展開さ
れたドットパターンとその周辺分布ヒストグラム、及び
同図(3)は同図(1)の処理手順に従って生成された
イメージデータである。
【0031】この図10(1)の処理手順は、図1また
は図6の文字辞書作成方法中のステップS15に代えて
実行される処理手順である。また、第4の実施形態を示
す図9中の要素と共通の要素には共通の符号が付されて
いる。図10(1)の処理手順では、図9(1)の処理
手順におけるステップS35,S36に代えて、処理内
容の異なる削除行決定処理のステップS35Aと、削除
列決定処理のステップS36Aとを設けている。図10
(1)のステップS31〜S34で、図9(1)と同様
の行ヒストグラム処理、列ヒストグラム処理、削除行数
算出処理、及び削除列数算出処理が行われた後、ステッ
プS35Aの削除行決定処理へ進む。ステップS35A
において、12行のドットパターンのうちの削除対象の
行位置が決定される。ここでは、ステップS31で作成
された行周辺分布ヒストグラムHLに基づいて、隣り合
う行との間でドット数変化の大きい箇所が選択される。
更に、それらの隣り合う2つの行のうち、ドット数の多
い方の行が削除対象の行に決定される。例えば、4行目
はドット数4、5行目はドット数10であり、ドット数
変化は6である。また、8行目はドット数10、9行目
はドット数10であり、ドット数変化は6である。これ
により、5行目と8行目が削除対象の行に決定される。
ステップS35Aの後、ステップS36Aの削除列決定
処理へ進む。
【0032】ステップS36Aにおいて、10列のドッ
トパターンのうちの削除対象の列位置が決定される。こ
こでは、ステップS32で作成された列周辺分布ヒスト
グラムHRに基づいて、隣り合う列との間でドット数変
化の大きい箇所が選択される。更に、それらの隣り合う
2つの列のうち、ドット数の多い方の列が削除対象の列
に決定される。例えば、2列目はドット数12、3列目
はドット数4であり、ドット数変化は8である。また、
8列目はドット数4、9列目はドット数12であり、ド
ット数変化は8である。これにより、削除対象の列は、
2列目または9列目であり、ここでは、例えば9列目が
削除対象の列に決定される。ステップS36Aの後、ス
テップS37のイメージデータ生成処理へ進み、図10
(2)のドットパターンから削除対象となった行及び列
が削除され、図10(3)に示すようなイメージデータ
が生成される。以上のように、この第5の実施形態のイ
メージデータ生成処理では、ドットパターンの行と列を
削除して、イメージデータと同じサイズになるように調
整する場合に、周辺分布ヒストグラムHL,HRに基づ
いて、ドット変化数の大きい箇所で、ドット数の多い方
の行と列を削除するので、線の細いイメージデータを得
ることが出来る。これにより、第1及び第2の実施形態
の利点に加えて、実際のOCRの特性を加味した文字辞
書の作成ができるという利点がある。
【0033】第6の実施形態 前記第5の実施形態のイメージデータ生成方法では、フ
ォントデータのサイズがOCRのイメージデータのサイ
ズよりも大きい場合に、行及び列に対して周辺分布ヒス
トグラムHL,HRを作成し、ドット数変化の大きい箇
所で、ドット数の多い方の行と列を削除することによ
り、線の細いイメージデータを生成している。しかし、
線を細くすることにより文字の特徴となる部分が欠落し
て文字の特徴の抽出が不可能になるというおそれがあ
る。また、例えば文字の印刷濃度が濃くなると、実際の
OCRから得られるイメージデータは、パターンの線が
太くなる。この第6の実施形態では、このような場合を
想定したイメージデータを、文字辞書作成用のデータと
して生成するようにしている。図11(1)〜(3)
は、本発明の第6の実施形態を示す文字辞書作成方法に
おけるイメージデータ生成処理の説明図であり、同図
(1)は処理手順を示すフローチャート、同図(2)は
フォントデータから展開されたドットパターンとその周
辺分布ヒストグラム、及び同図(3)は同図(1)の処
理手順に従って生成されたイメージデータである。
【0034】この図11(1)の処理手順は、図1また
は図6の文字辞書作成方法中のステップS15に代えて
実行される処理手順である。また、第5の実施形態を示
す図10中の要素と共通の要素には共通の符号が付され
ている。図11(1)の処理手順では、図10(1)の
処理手順におけるステップS35A,S36Aに代え
て、処理内容の異なる削除行決定処理のステップS35
Bと、削除列決定処理のステップS36Bとを設けてい
る。図11(1)のステップS31〜S34で、図10
(1)と同様の行ヒストグラム処理、列ヒストグラム処
理、削除行数算出処理、及び削除列数算出処理が行われ
た後、ステップS35Bの削除行決定処理へ進む。ステ
ップS35Bにおいて、12行のドットパターンのうち
の削除対象の行位置が決定される。ここでは、ステップ
S31で作成された行周辺分布ヒストグラムHLに基づ
いて、隣り合う行との間でドット数変化の大きい箇所が
選択される。更に、それらの隣り合う2つの行のうち、
ドット数の少ない方の行が削除対象の行に決定される。
例えば、5行目はドット数4、6行目はドット数10で
あり、ドット数変化は6である。また、7行目はドット
数10、8行目はドット数10であり、ドット数変化は
6である。これにより、5行目と8行目が削除対象の行
に決定される。ステップS35Bの後、ステップS36
Bの削除列決定処理へ進む。
【0035】ステップS36Bにおいて、10列のドッ
トパターンのうちの削除対象の列位置が決定される。こ
こでは、ステップS32で作成された列周辺分布ヒスト
グラムHRに基づいて、隣り合う列との間でドット数変
化の大きい箇所が選択される。更に、それらの隣り合う
2つの列のうち、ドット数の少ない方の列が削除対象の
列に決定される。例えば、2列目はドット数12、3列
目はドット数4であり、ドット数変化は8である。ま
た、8列目はドット数4、9列目はドット数12であ
り、ドット変化数は8である。これにより、削除対象の
列は、3列目または8列目であり、ここでは、8列目が
削除対象の列に決定される。ステップS36Bの後、ス
テップS37のイメージデータ生成処理へ進み、図11
(2)のドットパターンから削除対象となった行及び列
が削除され、図11(3)に示すようなイメージデータ
が生成される。以上のように、この第6の実施形態のイ
メージデータ生成処理では、ドットパターンの行と列を
削除して、イメージデータと同じサイズになるように調
整する場合に、周辺分布ヒストグラムHL,HRに基づ
いて、ドット数変化の大きい箇所で、ドット数の少ない
方の行と列を削除するので、線の太いイメージデータを
得ることが出来る。これにより、第1及び第2の実施形
態の利点に加えて、実際のOCRの特性を加味した文字
辞書の作成ができるという利点がある。
【0036】第7の実施形態 前記第5の実施形態のイメージデータ生成方法では、フ
ォントデータのサイズがOCRのイメージデータのサイ
ズよりも大きい場合に、行及び列に対して周辺分布ヒス
トグラムHL,HRを作成し、ドット数変化の大きい箇
所で、ドット数の多い方の行と列を削除することによ
り、線の細いイメージデータを生成している。これは、
例えば文字の印刷濃度が薄くなった場合に、OCRから
得られるイメージデータを想定したものである。しか
し、印刷濃度は均一ではなく、文字中に濃淡の偏りが生
ずることがある。この第7の実施形態では、このような
場合を想定したイメージデータを、文字辞書作成用のデ
ータとして生成するようにしている。図12(1)〜
(4)は、本発明の第7の実施形態を示す文字辞書作成
方法におけるイメージデータ生成処理の説明図である。
図12(1)は処理手順を示すフローチャート、同図
(2)はフォントデータから展開されたドットパターン
とその周辺分布ヒストグラム、同図(3)は列周辺分布
ヒストグラムに重み付けを行った列加重周辺分布ヒスト
グラム、及び同図(4)は同図(1)の処理手順に従っ
て生成されたイメージデータである。
【0037】この図12(1)の処理手順は、図1また
は図6の文字辞書作成方法中のステップS15に代えて
実行される処理手順である。また、第6の実施形態を示
す図11中の要素と共通の要素には共通の符号が付され
ている。図12(1)のステップS31〜S34で、図
11(1)と同様の行ヒストグラム処理、列ヒストグラ
ム処理、削除行数算出処理、及び削除列数算出処理が行
われた後、ステップS41の行加重処理へ進む。ステッ
プS41において、行周辺分布ヒストグラムHLの各行
の値に行番号に相当する重み付け係数が乗算されて、行
加重周辺分布ヒストグラムWHLが算出される。行周辺
分布ヒストグラムHLは、図12(2)に示すように、
上から下へ順に、8,6,6,6,6,8,8,6,
6,6,6,8となっている。従って、これらの値に、
それぞれ、1,2,3,4,5,6,7,8,9,1
0,11,12の重み付け係数が乗算されて、行加重周
辺分布ヒストグラムWHLは、上から下へ順に、8,1
2,18,24,30,48,56,48,54,6
0,66,96となる。ステップS43の後、ステップ
S42の列加重処理へ進む。
【0038】ステップS42において、列周辺分布ヒス
トグラムHRの各列の値に列番号に相当する重み付け係
数が乗算されて、列加重周辺分布ヒストグラムWHRが
算出される。図12(3)は、算出された列加重周辺分
布ヒストグラムWHRを示しており、左から右へ順に、
2,24,36,48,10,12,84,96,10
8,20となっている。ステップS42の後、ステップ
S43の削除行決定処理に進む。ステップS43におい
て、12行のドットパターンのうちの削除対象の行位置
が決定される。ここでは、ステップS41で算出された
行加重周辺分布ヒストグラムWHLに基づいて、隣り合
う行との間で加重分布ヒストグラム数変化の大きい箇所
が選択される。更に、それらの隣り合う2つの行のう
ち、ドット数の多い方の行が削除対象の行に決定され
る。この場合、11行目と12行目の差は30で最大で
あり、5行目と6行目の差は18で2番目に大きい。こ
れにより、12行目と6行目が削除対象の行に決定され
る。ステップS43の後、ステップS44の削除列決定
処理へ進む。
【0039】ステップS44において、10列のドット
パターンのうちの削除対象の列位置が決定される。ここ
では、ステップS42で算出された列加重周辺分布ヒス
トグラムWHRに基づいて、隣り合う列との間で加重分
布ヒストグラム数変化の大きい箇所が選択される。更
に、それらの隣り合う2つの列のうち、ドット数の多い
方の列が削除対象の列に決定される。この場合、9列目
と10列目の差は88で最大であるので、9列目が削除
対象の列に決定される。ステップS44の後、ステップ
S45のイメージデータ生成処理へ進み、図12(2)
のドットパターンから削除対象となった行及び列が削除
され、図12(4)に示すようなイメージデータが生成
される。以上のように、この第7の実施形態のイメージ
データ生成処理では、ドットパターンの行と列を削除し
て、イメージデータと同じサイズになるように調整する
場合に、加重周辺分布ヒストグラムWHL,WHRに基
づいて、加重周辺分布ヒストグラム変化数の大きい箇所
で、ドット数の多い方の行と列を削除するので、印字濃
度の不均一なドットパターンを想定して、線の細いイメ
ージデータを得ることが出来る。これにより、第1及び
第2の実施形態の利点に加えて、実際のOCRの特性を
加味した文字辞書の作成ができるという利点がある。
【0040】第8の実施形態 前記第7の実施形態のイメージデータ生成方法では、フ
ォントデータのサイズがOCRのイメージデータのサイ
ズよりも大きい場合に、行及び列に対して加重周辺分布
ヒストグラムWHL,WHRを作成し、加重周辺分布ヒ
ストグラム数変化の大きい箇所で、ドット数の多い方の
行と列を削除することにより、線の細いイメージデータ
を生成している。これは、例えば文字の印刷濃度が薄
く、かつ不均一な場合に、OCRから得られるイメージ
データを想定したものである。これに対し、この第8の
実施形態では、印刷濃度が濃くなる場合を想定したイメ
ージデータを、文字辞書作成用のデータとして生成する
ようにしている。図13(1)〜(4)は、本発明の第
8の実施形態を示す文字辞書作成方法におけるイメージ
データ生成処理の説明図である。図13(1)は処理手
順を示すフローチャート、同図(2)はフォントデータ
から展開されたドットパターンとその周辺分布ヒストグ
ラム、同図(3)は周辺分布ヒストグラムに重み付けを
行った加重周辺ヒストグラム、及び同図(4)は同図
(1)の処理手順に従って生成されたイメージデータで
ある。
【0041】この図13(1)の処理手順は、図1また
は図6の文字辞書作成方法中のステップS15に代えて
実行される処理手順である。また、図12(1)中の要
素と共通の要素には共通の符号が付されている。図13
(1)の処理手順では、図12(1)の処理手順におけ
るステップS43,S44に代えて、異なる処理内容を
有する削除行決定処理のステップS43Aと、削除列決
定処理のステップS44Aを設けている。ステップS4
3Aにおいて、12行のドットパターンのうちの削除対
象の行位置が決定される。ここでは、ステップS41で
算出された行加重周辺分布ヒストグラムWHLに基づい
て、隣り合う行との間で加重分布ヒストグラム数変化の
大きい箇所が選択される。更に、それらの隣り合う2つ
の行のうち、ドット数の少ない方の行が削除対象の行に
決定される。この場合、11行目と12行目の差は30
で最大であり、5行目と6行目の差は18で2番目に大
きい。これにより、11行目と5行目が削除対象の行に
決定される。ステップS43Aの後、ステップS44A
の削除列決定処理へ進む。
【0042】ステップS44Aにおいて、10列のドッ
トパターンのうちの削除対象の列位置が決定される。こ
こでは、ステップS42で算出された列加重周辺分布ヒ
ストグラムWHRに基づいて、隣り合う列との間で加重
分布ヒストグラム数変化の大きい箇所が選択される。更
に、それらの隣り合う2つの列のうち、ドット数の多い
方の列が削除対象の列に決定される。この場合、9列目
と10列目の差は88で最大であるので、10列目が削
除対象の列に決定される。ステップS44Aの後、ステ
ップS45のイメージデータ生成処理へ進み、図13
(2)のドットパターンから削除対象となった行及び列
が削除され、図13(4)に示すようなイメージデータ
が生成される。以上のように、この第8の実施形態のイ
メージデータ生成処理では、ドットパターンの行と列を
削除して、イメージデータと同じサイズになるように調
整する場合に、加重周辺分布ヒストグラムWHL,WH
Rに基づいて、加重周辺分布ヒストグラム変化数の大き
い箇所で、ドット数の少ない方の行と列を削除するの
で、印字濃度の不均一なドットパターンを想定して、線
の太いイメージデータを得ることが出来る。これによ
り、第1及び第2の実施形態の利点に加えて、実際のO
CRの特性を加味した文字辞書の作成ができるという利
点がある。
【0043】第9の実施形態 前記第5〜第8の実施形態のイメージデータ生成方法で
は、フォントデータのサイズがOCRのイメージデータ
のサイズよりも大きい場合に、行及び列に対して周辺分
布ヒストグラムHL,HRを作成し、ドット数変化の大
きい箇所を特徴情報の存在する箇所と見なして、特徴情
報が欠落しないように行と列を削除することにより、ド
ットパターンのサイズをイメージデータのサイズに合わ
せている。しかし、活字の上下に細いひげ飾りとして付
けられたセリフのように、周辺分布ヒストグラムでは、
見落とされるような特徴情報も存在する。この第9の実
施形態では、このような場合を想定して、セリフ等の細
かな特徴情報を残したイメージデータを、文字辞書作成
用のデータとして生成するようにしている。図14
(1)〜(6)は、本発明の第9の実施形態を示す文字
辞書作成方法におけるイメージデータ生成処理の説明図
である。図14(1)は処理手順を示すフローチャー
ト、同図(2)はフォントデータから展開されたドット
パターン、同図(3)は横方向に平滑化した横方向平滑
パターン、同図(4)縦方向に平滑化した縦方向平滑パ
ターン、同図(5)はドットパターンと横方向及び縦方
向平滑化パターンとの相違箇所を示した相違箇所抽出パ
ターン、及び同図(6)は同図(1)の処理手順に従っ
て生成されたイメージデータである。
【0044】この図14(1)の処理手順は、図1また
は図6の文字辞書作成方法中のステップS15に代えて
実行される処理手順である。図14(1)のステップS
51の削除行数算出処理において、フォントデータとイ
メージデータの行数の差が算出され、削除行数は2行と
なる。次に、ステップS52の削除列数算出処理におい
て、ドットパターンとイメージデータの列数の差が算出
され、削除列数は1列となる。ステップS52の後、ス
テップS53の横方向平滑化処理へ進む。ステップS5
3において、図14(2)のドットパターンにおける縦
12ドット×横10ドットの各ドットに対して、その右
側のドットと左側のドットとを合わせた3ドットのうち
の2ドット以上が黒画素であれば、その中央のドットを
黒画素と見なし、黒画素が1ドット以下であれば、その
中央のドットを白画素と見なす横方向の平滑化処理が行
われる。図14(3)は、ステップS53で得られた横
方向平滑パターンである。ステップS53の後、ステッ
プS54の縦方向平滑化処理へ進む。
【0045】ステップS54において、図14(2)の
ドットパターンにおける縦12ドット×横10ドットの
各ドットに対して、その上側のドットと下側のドットと
を合わせた3ドットのうちの2ドット以上が黒画素であ
れば、その中央のドットを黒画素と見なし、黒画素が1
ドット以下であれば、その中央のドットを白画素と見な
す縦方向の平滑化処理が行われる。図14(4)は、ス
テップS54で得られた横方向平滑パターンである。ス
テップS54の後、ステップS55の相違抽出処理へ進
む。ステップS55において、図14(2)のドットパ
ターンとステップS53で得られた図14(3)の横方
向平滑パターンとの相違箇所の抽出が行われ、更に、図
14(2)のドットパターンとステップS54で得られ
た図14(4)の縦方向平滑パターンとの相違箇所の抽
出が行われる。これにより、図14(5)に示す相違箇
所抽出パターンが得られる。ステップS55の後、ステ
ップS56の削除行決定処理へ進む。
【0046】ステップS56において、図14(2)の
ドットパターンのうちの削除対象の行位置が決定され
る。ここでは、ステップS55で得られた相違箇所抽出
パターンに基づいて、相違箇所のない行から削除対象の
行が決定される。例えば、ここでは、2行目と11行目
が削除対象の行に決定される。ステップS56の後、ス
テップS57の削除列決定処理へ進む。ステップS57
において、図14(2)のドットパターンのうちの削除
対象の列位置が決定される。ここでは、ステップS55
で得られた相違箇所抽出パターンに基づいて、相違箇所
のない列から削除対象の行が決定される。例えば、ここ
では、2列目が削除対象の列に決定される。ステップS
57の後、ステップS58のイメージデータ生成処理へ
進み、図14(2)のドットパターンから削除対象とな
った行及び列が削除され、図14(6)に示すようなイ
メージデータが生成される。以上のように、この第9の
実施形態のイメージデータ生成処理では、ドットパター
ンの行と列を削除して、イメージデータと同じサイズに
なるように調整する場合に、ステップS53,S54の
平滑化処理を行い、相違箇所の無い行と列を削除するの
で、セリフを有する文字等の細部に特徴のあるイメージ
データを生成することが出来る。これにより、第1及び
第2の実施形態の利点に加えて、細部に特徴のある文字
辞書が作成できるという利点がある。
【0047】第10の実施形態 前記第3の実施形態のイメージデータ生成方法では、フ
ォントデータのサイズがOCRのイメージデータのサイ
ズよりも大きい場合に、一定の間隔でドットパターンの
行及び列を削除して、イメージデータを生成している。
しかし、実際にOCRで文字を読み取る場合、帳票上の
細かなごみや印刷むらにより、ドットパターン中のドッ
トが反転してイメージデータとして読み込まれることが
ある。この第10の実施形態では、このようなイメージ
データをもとに文字認識する場合を想定して、文字辞書
作成用のデータを生成するようにしている。図15
(1)〜(3)は、本発明の第10の実施形態を示す文
字辞書作成方法におけるイメージデータ生成処理の説明
図であり、同図(1)は処理手順を示すフローチャー
ト、同図(2)はフォントデータから展開されたドット
パターン、及び同図(3)は同図(1)の処理手順に従
って生成されたイメージデータである。
【0048】この図15(1)の処理手順は、図1また
は図6の文字辞書作成方法中のステップS15に代えて
実行される処理手順である。また、図8(1)中の要素
と共通の要素には、共通の符号が付されている。図15
(1)では、図8(1)のステップS24の後に、新た
な処理内容を有するステップS24Xを設けている。図
15(1)のステップS21〜S24において、図15
(2)のドットパターンから削除する行と列が決定され
た後、ステップS24Xのドット反転処理が行われる。
ステップS24Xにおいて、単数または複数の乱数が発
生され、この乱数によって、対応するドット位置の行番
号と列番号が求められる。例えば、1つのドット位置を
求めるために、行番号用の乱数と、列番号用の乱数をそ
れぞれ発生する。このようにして求められたドット位置
のドットが、白画素から黒画素へ、或いは黒画素から白
画素へ反転される。図15(3)は、このようにして反
転されたイメージパターンの一例を示している。ステッ
プS24Xの後、ステップS25のイメージデータ生成
処理へ進み、図15(2)のドットパターンから削除対
象となった行及び列が削除され、図15(3)に示すよ
うなイメージデータが生成される。以上のように、この
第10の実施形態のイメージデータ生成処理では、ドッ
トパターンの行と列を削除して、イメージデータと同じ
サイズになるように調整し、更に乱数に基づいて指定さ
れた位置のドットを反転するので、第1及び第2の実施
形態の利点に加えて、実際のOCRから得られるイメー
ジデータを想定して文字辞書が作成できるという利点が
ある。
【0049】第11の実施形態 前記第3〜第10の実施形態では、フォントデータのド
ットパターンのサイズ(例えば、縦12ドット×横10
ドット)がOCRのイメージデータのドットパターンの
サイズ(例えば、縦10ドット×横9ドット)よりも大
きい場合についての処理方法を説明した。しかし、フォ
ントデータのサイズはOCRのイメージデータのサイズ
よりも必ずしも大きいとは限らない。そこで、この第1
1の実施形態では、フォントデータのサイズがOCRの
イメージデータのサイズよりも小さい場合に、図16
(1)〜(3)のようなイメージデータ生成処理を行う
ようにしている。ここで、例えば、フォントデータから
展開されたドットパターンは縦12ドット×横10ドッ
ト、OCRのイメージデータのサイズは縦14ドット×
横11ドットとする。図16(1)〜(3)は、本発明
の第11の実施形態を示す文字辞書作成方法におけるイ
メージデータ生成処理の説明図であり、同図(1)は処
理手順を示すフローチャート、同図(2)はフォントデ
ータから展開されたドットパターン、及び同図(3)は
同図(1)の処理手順に従って生成されたイメージデー
タである。
【0050】この図16(1)の処理手順は、図1また
は図6の文字辞書作成方法中のステップS15に代えて
実行される処理手順である。図16(1)のステップS
61の補間行数算出処理において、イメージデータとド
ットパターンの行数の差が算出される。この場合、イメ
ージデータは14行、ドットパターンは12行であるか
ら、補間行数は2行となる。ステップS61の後、ステ
ップS62の補間列数算出処理に進む。ステップS62
において、イメージデータとドットパターンの列数の差
が算出される。この場合、イメージデータは11列、ド
ットパターンは10列であるから、補間列数は1列とな
る。ステップS62の後、ステップS63の補間行決定
処理へ進む。ステップS63において、12行のドット
パターンのうちの補間対象の行位置が決定される。ここ
では、12行に対して2行、即ち、6行毎に1行が補間
位置として決定される。これにより、例えば6行目と1
2行目が補間対象の行に決定される。ステップS63の
後、ステップS64の補間列決定処理へ進む。ステップ
S64において、10列のドットパターンのうちの補間
対象の列位置が決定される。ここでは、10列に対して
1列、即ち10列毎に1列が補間位置として決定され
る。これにより、例えば10列目が補間対象の列に決定
される。ステップS64の後、ステップS65のイメー
ジデータ生成処理へ進む。ステップS65において、図
16(2)のドットパターンに対して、補間対象となっ
た行及び列のドットパターンがその補間対象の行及び列
の直後に挿入され、図16(3)に示すようなイメージ
データが生成される。以上のように、この第11の実施
形態のイメージデータ生成処理では、ドットパターンの
行と列を補間して、イメージデータと同じサイズになる
ように調整するので、第1及び第2の実施形態の利点に
加えて、効率良く文字辞書の作成ができるという利点が
ある。
【0051】第12の実施形態 前記第11の実施形態のイメージデータ生成方法では、
フォントデータのサイズがOCRのイメージデータのサ
イズよりも小さい場合に、一定の間隔でドットパターン
の行及び列を補間して、イメージデータを生成してい
る。このため、フォントデータのパターンによっては、
補間によって文字の特徴となる部分が不明確になるとい
うおそれがある。これを防止するために、この第12の
実施形態のイメージデータ生成方法では、ドットパター
ンの特徴に応じて補間する行及び列を決定するようにし
ている。図17(1)〜(3)は、本発明の第12の実
施形態を示す文字辞書作成方法におけるイメージデータ
生成処理の説明図であり、同図(1)は処理手順を示す
フローチャート、同図(2)はフォントデータから展開
されたドットパターンとその周辺分布ヒストグラム、及
び同図(3)は同図(1)の処理手順に従って生成され
たイメージデータである。
【0052】この図17(1)の処理手順は、図1また
は図6の文字辞書作成方法中のステップS15に代えて
実行される処理手順である。図17(1)のステップS
71の行ヒストグラム処理において、各行毎に黒画素の
ドット数がカウントされ、図17(2)に示すような行
周辺分布ヒストグラムHLが作成される。ステップS7
1の後、ステップS72の列ヒストグラム処理へ進む。
ステップS72において、各列毎に黒画素のドット数が
カウントされ、図17(2)に示すような列周辺分布ヒ
ストグラムHRが作成される。ステップS72の後、ス
テップS73の補間行数算出処理に進む。ステップS7
3において、ドットパターンとイメージデータの行数の
差が算出され、補間行数は2行となる。ステップS73
の後、ステップS74の補間列数算出処理に進む。ステ
ップS74において、ドットパターンとイメージデータ
の列数の差が算出され、補間列数は1列となる。ステッ
プS74の後、ステップS75の補間行決定処理へ進
む。
【0053】ステップS75において、12行のドット
パターンのうちの補間対象の行位置が決定される。ここ
では、ステップS71で作成された行周辺分布ヒストグ
ラムHLに基づいて、ドット数変化の少ない行が選択さ
れる。例えば、2行目と10行目は、それぞれ両隣の行
との間でのドット数の変化は0となっている。これによ
り、2行目と10行目が補間対象の行に決定される。ス
テップS75の後、ステップS76の補間列決定処理へ
進む。ステップS76において、10列のドットパター
ンのうちの補間対象の列が決定される。ここでは、ステ
ップS72で作成された列周辺分布ヒストグラムHRに
基づいて、ドット数変化の少ない列が選択される。例え
ば、4列目は、両隣の列との間でのドット数の変化は0
となっている。これにより、4列目が補間対象の列に決
定される。ステップS76の後、ステップS77のイメ
ージパターン生成処理へ進む。ステップS77におい
て、補間対象となった行及び列のドットパターンがその
直後の行及び列に挿入され、図17(3)に示すような
イメージパターンが生成される。以上のように、この第
12の実施形態のイメージパターン生成処理では、ドッ
トパターンの行と列を補間して、イメージパターンと同
じサイズになるように調整する場合に、周辺分布ヒスト
グラムHL,HRに基づいて、ドット数変化の少ない行
と列を補間するので、文字の特徴を損なうこと無くイメ
ージパターンを得ることが出来る。これにより、第1及
び第2の実施形態の利点に加えて、第11の実施形態よ
りも更に効率良く文字辞書の作成ができるという利点が
ある。
【0054】第13の実施形態 前記第12の実施形態のイメージデータ生成方法では、
フォントデータのサイズがOCRのイメージデータのサ
イズよりも小さい場合に、行及び列に対して周辺分布ヒ
ストグラムHL,HRを作成し、ドット変化数の少ない
行と列を補間している。これは実際のOCRが均一に文
字パターンを読み取ることが出来る場合に得られるイメ
ージデータを想定した処理である。しかし、実際のOC
Rから得られるイメージパターンは、例えば、文字の印
刷濃度が濃くなると、パターンの線が太くなる。この第
13の実施形態では、このような場合を想定したイメー
ジデータを、文字辞書作成用のデータとして生成するよ
うにしている。図18(1)〜(3)は、本発明の第1
3の実施形態を示す文字辞書作成方法におけるイメージ
パターン生成処理の説明図であり、同図(1)は処理手
順を示すフローチャート、同図(2)はフォントデータ
から展開されたドットパターンとその周辺分布ヒストグ
ラム、及び同図(3)は同図(1)の処理手順に従って
生成されたイメージパターンである。
【0055】この図18(1)の処理手順は、図1また
は図6の文字辞書作成方法中のステップS15に代えて
実行される処理手順である。また、第13の実施形態を
示す図17(1)中の要素と共通の要素には共通の符号
が付されている。図18(1)の処理手順では、図17
(1)の処理手順におけるステップS75,S76に代
えて、処理内容の異なる補間行決定処理のステップS7
5Aと、補間列決定処理のステップS76Aとを設けて
いる。ステップS75Aにおいて、10行のドットパタ
ーンのうちの補間対象の行位置が決定される。ここで
は、ステップS71で作成された行周辺分布ヒストグラ
ムHLに基づいて、隣り合う行との間でドット数変化の
大きい箇所が選択される。更に、それらの隣り合う2つ
の行のうち、ドット数の多い方の行が補間対象の行に決
定される。例えば、5行目はドット数4、6行目はドッ
ト数10であり、ドット数変化は6である。また、7行
目はドット数10、8行目はドット数10であり、ドッ
ト数変化は6である。これにより、6行目と7行目が補
間対象の行に決定される。ステップS75Aの後、ステ
ップS76Aの補間列決定処理へ進む。
【0056】ステップS76Aにおいて、9列のドット
パターンのうちの補間対象の列位置が決定される。ここ
では、ステップS72で作成された列周辺分布ヒストグ
ラムHRに基づいて、隣り合う列との間でドット数変化
の大きい箇所が選択される。更に、それらの隣り合う2
つの列のうち、ドット数の多い方の列が補間対象の列に
決定される。例えば、2列目はドット数12、3列目は
ドット数4であり、ドット数変化は8である。また、8
列目はドット数4、9列目はドット数12であり、ドッ
ト数変化は8である。これにより、補間対象の列は、2
列目または9列目であり、ここでは、例えば2列目が補
間対象の列に決定される。ステップS76Aの後、ステ
ップS77のイメージパターン生成処理へ進み、補間対
象となった行及び列のドットパターンがその行及び列の
直後に挿入され、図18(3)に示すようなイメージデ
ータが生成される。以上のように、この第13の実施形
態のイメージデータ生成処理では、ドットパターンの行
と列を補間して、イメージデータと同じサイズになるよ
うに調整する場合に、周辺分布ヒストグラムHL,HR
に基づいて、ドット数変化の大きい箇所で、ドット数の
多い方の行と列を補間するので、線の太いイメージデー
タを得ることが出来る。これにより、第1及び第2の実
施形態の利点に加えて、実際のOCRの特性を加味した
文字辞書の作成ができるという利点がある。
【0057】第14の実施形態 前記第13の実施形態のイメージデータ生成方法では、
フォントデータのサイズがOCRのイメージデータのサ
イズよりも小さい場合に、行及び列に対して周辺分布ヒ
ストグラムHL,HRを作成し、ドット数変化の大きい
箇所で、ドット数の多い方の行と列を補間することによ
り、線の太いイメージデータを生成している。しかし、
線を太くすることにより文字の特徴が不明瞭になり、文
字の特徴抽出が不可能になるというおそれがある。ま
た、例えば文字の印刷濃度が薄くなると、実際のOCR
から得られるイメージデータは、パターンの線が細くな
る。この第14の実施形態では、このような場合を想定
したイメージデータを、文字辞書作成用のデータとして
生成するようにしている。図19(1)〜(3)は、本
発明の第14の実施形態を示す文字辞書作成方法におけ
るイメージデータ生成処理の説明図であり、同図(1)
は処理手順を示すフローチャート、同図(2)はフォン
トデータから展開されたドットパターンとその周辺分布
ヒストグラム、及び同図(3)は同図(1)の処理手順
に従って生成されたイメージデータである。
【0058】この図19(1)の処理手順は、図1また
は図6の文字辞書作成方法中のステップS15に代えて
実行される処理手順である。また、第13の実施形態を
示す図18中の要素と共通の要素には共通の符号が付さ
れている。図19(1)の処理手順では、図18(1)
の処理手順におけるステップS75A,S76Aに代え
て、処理内容の異なる補間行決定処理のステップS75
Bと、補間列決定処理のステップS76Bとを設けてい
る。ステップS75Bにおいて、12行のドットパター
ンのうちの補間対象の行位置が決定される。ここでは、
ステップS71で作成された行周辺分布ヒストグラムH
Lに基づいて、隣り合う行との間でドット数変化の大き
い箇所が選択される。更に、それらの隣り合う2つの行
のうち、ドット数の少ない方の行が補間対象の行に決定
される。例えば、5行目はドット数4、6行目はドット
数10であり、ドット数変化は6である。また、7行目
はドット数10、8行目はドット数10であり、ドット
数変化は6である。これにより、5行目と8行目とが補
間対象の行に決定される。ステップS75Bの後、ステ
ップS76Bの補間列決定処理へ進む。
【0059】ステップS76Bにおいて、10列のドッ
トパターンのうちの補間対象の列位置が決定される。こ
こでは、ステップS72で作成された列周辺分布ヒスト
グラムHRに基づいて、隣り合う列との間でドット数変
化の大きい箇所が選択される。更に、それらの隣り合う
2つの列のうち、ドット数の少ない方の列が補間対象の
列に決定される。例えば、2列目はドット数12、3列
目はドット数4であり、ドット数変化は8である。ま
た、8列目はドット数4、9列目はドット数12であ
り、ドット数変化は8である。これにより、補間対象の
列は、3列目または8列目であり、ここでは、例えば3
列目が補間対象の列に決定される。ステップS76Bの
後、ステップS77のイメージデータ生成処理へ進み、
補間対象となった行及び列のドットパターンがその直後
の行及び列に挿入され、図19(3)に示すようなイメ
ージデータが生成される。以上のように、この第14の
実施形態のイメージデータ生成処理では、ドットパター
ンの行と列を補間して、イメージデータと同じサイズに
なるように調整する場合に、周辺分布ヒストグラムH
L,HRに基づいて、ドット数変化の大きい箇所で、ド
ット数の少ない方の行と列を補間するので、線の細いイ
メージデータを得ることが出来る。これにより、第1及
び第2の実施形態の利点に加えて、実際のOCRの特性
を加味した文字辞書を作成できるという利点がある。
【0060】第15の実施形態 前記第14の実施形態のイメージデータ生成方法では、
フォントデータのサイズがOCRのイメージデータのサ
イズよりも小さい場合に、行及び列に対して周辺分布ヒ
ストグラムHL,HRを作成し、ドット数変化の大きい
箇所で、ドット数の大きい方の行と列を補間することに
より、線の細いイメージデータを生成している。これ
は、例えば文字の印刷濃度が薄くなった場合に、OCR
から得られるイメージデータを想定したものである。し
かし、印刷濃度は均一ではなく、文字中に濃淡の偏りが
生ずることがある。この第15の実施形態では、このよ
うな場合を想定したイメージデータを、文字学習用のデ
ータとして生成するようにしている。図20(1)〜
(4)は、本発明の第15の実施形態を示す文字辞書作
成方法におけるイメージデータ生成処理の説明図であ
る。図20(1)は処理手順を示すフローチャート、同
図(2)はフォントデータから展開されたドットパター
ンとその周辺分布ヒストグラム、同図(3)は列周辺分
布ヒストグラムに重み付けを行った列加重周辺分布ヒス
トグラム、及び同図(4)は同図(1)の処理手順に従
って生成されたイメージデータである。
【0061】この図20(1)の処理手順は、図1また
は図6の文字辞書作成方法中のステップS15に代えて
実行される処理手順である。また、第14の実施形態を
示す図19(1)中の要素と共通の要素には、共通の符
号が付されている。図20(1)のステップS71〜S
74において、第14の実施形態と同様に、行ヒストグ
ラム処理、列ヒストグラム処理、補間行数算出処理、及
び補間列数算出処理が行われる。ここで、図20(2)
に示すような行周辺分布ヒストグラムHL及び列周辺分
布ヒストグラムHRが作成され、ステップS81の行加
重処理へ進む。ステップS81において、図12(1)
のステップS41と同様の行加重処理が行われ、行加重
周辺分布ヒストグラムWHLが算出される。ステップS
81の後、ステップS82の列加重処理へ進む。ステッ
プS82において、図12(1)のステップS42と同
様の列加重処理が行われ、図20(3)に示すような列
加重周辺分布ヒストグラムWHRが算出される。ステッ
プS82の後、ステップS83の補間行決定処理へ進
む。
【0062】ステップS83において、12行のドット
パターンのうちの補間対象の行位置が決定される。ここ
では、ステップS81で算出された行加重周辺分布ヒス
トグラムWHLに基づいて、隣り合う行との間で加重分
布ヒストグラム数変化の大きい箇所が選択される。更
に、それらの隣り合う2つの行のうち、ドット数の多い
方の行が補間対象の行に決定される。この場合、第7の
実施形態で説明したように、11行目と12行目の差は
30で最大であり、5行目と6行目の差は18で2番目
に大きい。この結果、12行目と6行目が補間対象の行
に決定される。ステップS83の後、ステップS84の
補間列決定処理へ進む。ステップS84において、10
列のドットパターンのうちの補間対象の列位置が決定さ
れる。ここでは、ステップS82で算出された列加重周
辺分布ヒストグラムWHRに基づいて、隣り合う列との
間で加重分布ヒストグラム数変化の大きい箇所が選択さ
れる。更に、それらの隣り合う2つの列のうち、ドット
数の多い方の列が補間対象の列に決定される。この場
合、9列目と10列目の差は88で最大であるので、9
列目が補間対象の列に決定される。
【0063】ステップS84の後、ステップS85のイ
メージデータ生成処理へ進み、補間対象となった行及び
列のドットパターンがその行及び列の直後に挿入され、
図20(4)に示すようなイメージデータが生成され
る。以上のように、この第15の実施形態のイメージデ
ータ生成処理では、ドットパターンの行と列を補間し
て、イメージパターンと同じサイズになるように調整す
る場合に、加重周辺分布ヒストグラムWHL,WHRに
基づいて、加重周辺分布ヒストグラム数変化の大きい箇
所で、ドット数の多い方の行と列を補間するので、印字
濃度の不均一なドットパターンを想定して、線の太いイ
メージデータを得ることが出来る。これにより、第1及
び第2の実施形態の利点に加えて、実際のOCRの特性
を加味した文字辞書の作成ができるという利点がある。
【0064】第16の実施形態 前記第15の実施形態のイメージデータ生成方法では、
フォントデータのサイズがOCRのイメージデータのサ
イズよりも小さい場合に、行及び列に対して加重周辺分
布ヒストグラムWHL,WHRを作成し、加重周辺分布
ヒストグラム変化数の大きい箇所で、ドット数の多い側
の行と列を補間することにより、線の太いイメージデー
タを生成している。これは、例えば文字の印刷濃度が濃
く、かつ不均一な場合に、OCRから得られるイメージ
データを想定したものである。これに対し、この第16
の実施形態では、印刷濃度が薄くなる場合を想定したイ
メージデータを、文字辞書作成用のデータとして生成す
るようにしている。図21(1)〜(4)は、本発明の
第16の実施形態を示す文字辞書作成方法におけるイメ
ージデータ生成処理の説明図である。図12(1)は処
理手順を示すフローチャート、同図(2)はフォントデ
ータから展開されたドットパターンとその周辺分布ヒス
トグラム、同図(3)は周辺分布ヒストグラムに重み付
けを行った加重周辺ヒストグラム、及び同図(4)は同
図(1)の処理手順に従って生成されたイメージデータ
である。
【0065】この図21(1)の処理手順は、図1また
は図6の文字辞書作成方法中のステップS15に代えて
実行される処理手順である。また、図20中の要素と共
通の要素には共通の符号が付されている。図21(1)
の処理手順では、図20(1)の処理手順におけるステ
ップS83,S84に代えて、異なる処理内容を有する
補間行決定処理のステップS83Aと、補間列決定処理
のステップS84Aとを設けている。ステップS83A
の補間行決定処理において、12行のドットパターンの
うちの補間対象の行位置が決定される。ここでは、ステ
ップS81で算出された行加重周辺分布ヒストグラムW
HLに基づいて、隣り合う行との間で加重分布ヒストグ
ラム数変化の大きい箇所が選択される。更に、それらの
隣り合う2つの行のうち、ドット数の少ない方の行が補
間対象の行に決定される。この場合、11行目と12行
目の差は30で最大であり、5行目と6行目の差は18
で2番目に大きい。これにより、11行目と5行目が補
間対象の行に決定される。ステップS83Aの後、ステ
ップS84Aの補間列決定処理へ進む。
【0066】ステップS84Aにおいて、10列のドッ
トパターンのうちの補間対象の列位置が決定される。こ
こでは、ステップS82で算出された列加重周辺分布ヒ
ストグラムWHRに基づいて、隣り合う列との間で加重
分布ヒストグラム数変化の大きい箇所が選択される。更
に、それらの隣り合う2つの列のうち、ドット数の少な
い方の列が補間対象の列に決定される。この場合、9列
目と10列目の差は88で最大であるので、10列目が
補間対象の列に決定される。ステップS84Aの後、ス
テップS85のイメージパターン生成処理へ進み、補間
対象となった行及び列のドットパターンがその行及び列
の直後に挿入され、図21(4)に示すようなイメージ
データが生成される。以上のように、この第16の実施
形態のイメージデータ生成処理では、ドットパターンの
行と列を補間して、イメージデータと同じサイズになる
ように調整する場合に、加重周辺分布ヒストグラムWH
L,WHRに基づいて、加重周辺ヒストグラム数変化の
大きい箇所で、ドット数の少ない方の行と列を補間する
ので、線の細いイメージパターンを得ることが出来る。
これにより、第1及び第2の実施形態の利点に加えて、
実際のOCRの特性を加味した文字辞書の作成ができる
という利点がある。
【0067】第17の実施形態 前記第12〜第16の実施形態のイメージデータ生成方
法では、フォントデータのサイズがOCRのイメージデ
ータのサイズよりも小さい場合に、行及び列に対して周
辺分布ヒストグラムHL,HRを作成し、ドット変化数
の大きい箇所を特徴パターンの存在する箇所と見なし
て、特徴パターンが不明確にならないように行と列を補
間することにより、ドットパターンのサイズをイメージ
データのサイズに合わせている。しかし、活字の上下に
細いひげ飾りとして付けられたセリフのように、周辺分
布ヒストグラムでは、見落とされるような特徴情報も存
在する。この第17の実施形態では、このような場合を
想定して、セリフ等の細かな特徴パターンを残したイメ
ージデータを文字辞書作成用のデータとして生成するよ
うにしている。図22(1)〜(6)は、本発明の第1
7の実施形態のOCRの文字辞書作成方法におけるイメ
ージデータ生成処理の説明図である。図22(1)は処
理手順を示すフローチャート、同図(2)はフォントデ
ータから展開されたドットパターン、同図(3)は横方
向に平滑化した横方向平滑パターン、同図(4)縦方向
に平滑化した縦方向平滑パターン、同図(5)はドット
パターンと横方向及び縦方向平滑化パターンとの相違箇
所を示した相違箇所抽出パターン、及び同図(6)は同
図(1)の処理手順に従って生成されたイメージデータ
である。
【0068】この図22(1)の処理手順は、図1また
は図6の文字辞書作成方法中のステップS15に代えて
実行される処理手順である。また、第9の実施形態を示
す図14(1)中の要素と共通の要素には、共通の符号
が付されている。図22(1)のステップS51〜S5
3において、第9の実施形態と同様に、図22(3)の
横方向平滑パターンと、図22(4)の縦方向平滑パタ
ーンとが生成され、更に、これらと図22(2)のドッ
トパターンとの相違箇所が抽出されて、図22(5)の
相違箇所抽出パターンが生成される。図22(1)のス
テップS91の補間行数算出処理において、フォントデ
ータとイメージデータの行数の差が算出され、補間行数
は2行となる。次に、ステップS92の補間列数算出処
理において、ドットパターンとイメージデータの列数の
差が算出され、補間列数は1列となる。ステップS92
の後、ステップS93の補間行決定処理へ進む。ステッ
プS93において、図22(2)のドットパターンのう
ちの補間対象の行位置が決定される。ここでは、ステッ
プS53で得られた相違箇所抽出パターンに基づいて、
相違箇所の無い行から補間対象の行が決定される。例え
ば、ここでは、2行目と11行目が補間対象の行に決定
される。ステップS93の後、ステップS94の補間列
決定処理へ進む。
【0069】ステップS94において、図22(2)の
ドットパターンのうちの補間対象の列位置が決定され
る。ここでは、ステップS53で得られた相違箇所抽出
パターンに基づいて、相違箇所の無い列から補間対象の
列が決定される。例えば、ここでは、2列目が補間対象
の列に決定される。ステップS94の後、ステップS9
5のイメージパターン生成処理へ進み、補間対象となっ
た行及び列のドットパターンがその行及び列の直後に挿
入され、図22(6)に示すようなイメージデータが生
成される。以上のように、この第17の実施形態のイメ
ージデータ生成処理では、ドットパターンの行と列を補
間して、イメージデータと同じサイズになるように調整
する場合に、ステップS51,S52の平滑化処理を行
い、相違箇所の無い行と列を補間するので、セリフ等の
細部に特徴のあるイメージパターンをそのまま残すこと
が出来る。これにより、第1及び第2の実施形態の利点
に加えて、細部に特徴のある文字辞書の作成ができると
いう利点がある。
【0070】第18の実施形態 前記第11の実施形態のイメージデータ生成方法では、
フォントデータのサイズがOCRのイメージデータのサ
イズよりも小さい場合に、一定の間隔でドットパターン
の行及び列を補間して、イメージデータを生成してい
る。しかし、実際にOCRで文字を読み取る場合、帳票
上の細かなごみや印刷むらにより、ドットパターン中の
ドットが反転してイメージデータとして読み込まれるこ
とがある。この第18の実施形態では、このようなイメ
ージデータをもとに文字認識する場合を想定して、文字
辞書作成用の文字パターンを生成するようにしている。
図23(1)〜(3)は、本発明の第18の実施形態を
示す文字辞書作成方法におけるイメージデータ生成処理
の説明図であり、同図(1)は処理手順を示すフローチ
ャート、同図(2)はフォントデータから展開されたド
ットパターン、及び同図(3)は同図(1)の処理手順
に従って生成されるイメージデータである。
【0071】この図23(1)の処理手順は、図1また
は図6の文字辞書作成方法中のステップS15に代えて
実施される処理手順である。また、前記第11の実施形
態を示す図16(1)中の要素と共通の要素には、共通
の符号が付されている。図23(1)のステップS61
〜S64において、図23(2)のドットパターンから
補間する行と列が決定された後、ステップS64Xのド
ット反転処理が行われる。ステップS64Xにおいて、
単数または複数の乱数が発生され、この乱数によって、
対応するドット位置の行番号と列番号が求められる。例
えば、1つのドット位置を求めるために、行番号用の乱
数と、列番号用の乱数をそれぞれ発生する。この様にし
て求められたドット位置のドットが反転される。ステッ
プS64Xの後、ステップS65のイメージデータ生成
処理へ進み、補間対象となった行及び列のドットパター
ンがその行及び列の直後に挿入され、図23(3)に示
すようなイメージデータが生成される。以上のように、
この第18の実施形態のイメージデータ生成処理では、
フォントデータのドットパターンがOCRのイメージデ
ータよりも小さい場合に、ドットパターンの行と列を補
間して、イメージデータと同じサイズになるように調整
し、更に乱数に基づいて指定された位置のドットを反転
するので、第1及び第2の実施形態の利点に加えて、実
際のOCRから得られるイメージデータを想定して文字
辞書の作成ができるという利点がある。
【0072】なお、本発明は、上記実施形態に限定され
ず、種々の変形が可能である。この変形例としては、例
えば、次の(a)〜(f)のようなものがある。 (a) 図4の文字辞書作成装置では、FDリーダ15
を用いて、FDに記録された印刷用文字のフォントデー
タを入力しているが、例えば、通信回線を介してデータ
ベースシステムから入力するようにしてもよい。 (b) フォントデータのドットサイズは、縦12ドッ
ト×横10ドットと仮定して説明したが、このサイズに
限定するものではなく、実際に入手可能なフォントデー
タのサイズを使用することができる。 (c) イメージデータのドットサイズは、縦10ドッ
ト×横9ドット、または縦14ドット×横11ドットと
仮定して説明したが、このサイズに限定するものではな
く、実際に適用するOCRのイメージデータのサイズに
あわせて処理を行う必要がある。 (d) 第3〜第10の実施形態では、フォントデータ
のドット数がイメージデータのドット数より行及び列と
も多い場合の、行及び列の削除処理について説明した
が、行または列のドット数が等しい場合には、等しい行
または列に対して削除処理を行う必要はない。 (e) 第11〜第18の実施形態では、フォントデー
タのドット数がイメージデータのドット数より行及び列
とも少ない場合の、行及び列の補間処理について説明し
たが、行または列のドット数が等しい場合には、等しい
行または列に対して補間処理を行う必要はない。 (f) 第3〜第18の実施形態では、フォントデータ
のドット数がイメージデータのドット数より行及び列と
も多い場合または少ない場合の、行及び列の削除処理及
び補間処理について説明した。しかし、例えば、行のド
ット数が多く、列のドット数が少ない場合には、行に対
して削除処理、列に対して補間処理を行うようにするこ
とができる。これにより、行と列のドット数のいかなる
組み合わせに対しても対応することが出来る。
【0073】
【発明の効果】以上詳細に説明したように、第1、第
3、第4及び第5の発明によれば、帳票上の文字とは別
個の文字パターンを有する印字用のドットフォントデー
タを用いてメモリ上にドットパターンを展開し、展開さ
れたドットパターンからOCRの文字辞書作成用のイメ
ージデータを生成し、これに基づいて文字辞書を作成す
るので、実際に帳票に文字を印刷する作業を行う必要が
なく、作業の省力化ができる。第2、第3、第4及び第
5の発明によれば、帳票上の文字とは別個の文字パター
ンを有する印字用のアウトラインフォントデータを用い
てメモリ上にドットパターンを展開し、展開されたドッ
トパターンからOCRの文字辞書作成用のイメージデー
タを生成し、これに基づいて文字辞書を作成するので、
実際に帳票に文字を印刷する作業を行う必要がなく、作
業の省力化ができる。第6及び第14の発明によれば、
メモリ上の展開されたドットパターンに対して、等間隔
に行及び列を削除または補間し、イメージデータを生成
するので、文字辞書作成用のデータが簡単に得られる。
第7及び第15の発明によれば、メモリ上に展開された
ドットパターンの周辺分布ヒストグラムを作成し、分布
数変化の少ない行及び列を対象として、削除または補間
を行ってイメージデータを生成するので、特徴情報の欠
落しないイメージデータを生成できる。
【0074】第8、第9、第16及び第17の発明によ
れば、メモリ上に展開されたドットパターンの周辺分布
ヒストグラムを作成し、分布数変化の大きい箇所におけ
る前後の行及び列を対象として、削除または補間を行っ
てイメージデータを生成する。これにより、印字濃度が
標準から外れた場合を想定したイメージデータが得ら
れ、認識率の高い文字辞書の作成が可能になる。第1
0、第11、第18及び第19の発明によれば、メモリ
上に展開されたドットパターンの周辺分布ヒストグラム
に対して重み付けを行い、加重周辺分布ヒストグラムを
算出する。この加重分布数変化の大きい箇所における前
後の行及び列を対象として、削除または補間を行ってイ
メージデータを生成する。これにより、印字濃度が不均
一な場合を想定したイメージデータが得られ、認識率の
高い文字辞書の作成が可能になる。第12及び第20の
発明によれば、メモリ上に展開されたドットパターンの
平滑化処理を行い、平滑化処理によって得られた平滑パ
ターンと元のドットパターンとの相違のない行及び列を
対象として、削除または補間を行ってイメージデータを
生成する。これにより、微細部分の特徴を残したイメー
ジデータが得られ、認識率の高い文字辞書の作成が可能
になる。第13及び第21の発明によれば、削除または
補間によって得られたイメージパターンに対して、乱数
に基づいて特定される位置のドットを反転する。これに
より、ごみや印刷むらのある帳票を想定したイメージデ
ータが得られ、認識率の高い文字辞書の作成が可能にな
る。
【図面の簡単な説明】
【図1】本発明の第1の実施形態を示す文字辞書作成方
法のフローチャートである。
【図2】従来のOCRの概略の構成図である。
【図3】従来の文字辞書作成方法のフローチャートであ
る。
【図4】本発明の第1の実施形態で用いられる文字辞書
作成装置の構成図である。
【図5】ドットフォントデータからドットパターンを生
成する過程の説明図である。
【図6】本発明の第2の実施形態を示す文字辞書作成方
法のフローチャートである。
【図7】アウトラインフォントデータからドットパター
ンを生成する過程の説明図である。
【図8】本発明の第3の実施形態を示すイメージデータ
生成処理の説明図である。
【図9】本発明の第4の実施形態を示すイメージデータ
生成処理の説明図である。
【図10】本発明の第5の実施形態を示すイメージデー
タ生成処理の説明図である。
【図11】本発明の第6の実施形態を示すイメージデー
タ生成処理の説明図である。
【図12】本発明の第7の実施形態を示すイメージデー
タ生成処理の説明図である。
【図13】本発明の第8の実施形態を示すイメージデー
タ生成処理の説明図である。
【図14】本発明の第9の実施形態を示すイメージデー
タ生成処理の説明図である。
【図15】本発明の第10の実施形態を示すイメージデ
ータ生成処理の説明図である。
【図16】本発明の第11の実施形態を示すイメージデ
ータ生成処理の説明図である。
【図17】本発明の第12の実施形態を示すイメージデ
ータ生成処理の説明図である。
【図18】本発明の第13の実施形態を示すイメージデ
ータ生成処理の説明図である。
【図19】本発明の第14の実施形態を示すイメージデ
ータ生成処理の説明図である。
【図20】本発明の第15の実施形態を示すイメージデ
ータ生成処理の説明図である。
【図21】本発明の第16の実施形態を示すイメージデ
ータ生成処理の説明図である。
【図22】本発明の第17の実施形態を示すイメージデ
ータ生成処理の説明図である。
【図23】本発明の第18の実施形態を示すイメージデ
ータ生成処理の説明図である。
【符号の説明】
11 CPU 15 FD(フレキシブルディスク)リーダ 16 メモリ 17 辞書ファイル S11 文字コード入力処理 S12 ドットフォントデータ読み出し処理 S13 フォントデータ解析処理 S14 ドットパターン展開処理 S15 イメージデータ生成処理 S16 特徴抽出処理 S17 辞書登録処理

Claims (21)

    【特許請求の範囲】
  1. 【請求項1】 帳票上に記載された文字の画像データを
    光学的に読み取り、登録文字の文字コード及び文字特徴
    情報を有する文字辞書を参照して、その読み取った画像
    データを認識し、該読み取った文字の該文字コードを出
    力する光学式文字読取装置の該文字辞書を作成する光学
    式文字読取装置の文字辞書作成方法において、 マトリックス状に配列された複数のドットから構成さ
    れ、前記帳票上の文字とは別個の文字パターンを有する
    印字用文字のパターンデータと、該パターンデータの構
    成を示すデータ構成情報と、前記文字コードに対応する
    検索用の文字コードとを有するドットフォントデータを
    入力し、該データ構成情報に基づいて該パターンデータ
    をM行N列(但し、M、Nは複数)のドットパターンに
    変換してメモリ上に展開するパターン展開処理と、 前記メモリ上に展開されたドットパターンから、前記文
    字特徴情報によって決められたP行Q列(但し、P、Q
    は複数)の前記登録文字のイメージデータを生成するデ
    ータ生成処理と、 前記イメージデータから前記文字特徴情報を抽出し、そ
    の抽出された文字特徴情報に前記文字コードを付して辞
    書ファイルに登録する登録処理とを、 行うことを特徴とする光学式文字読取装置の文字辞書作
    成方法。
  2. 【請求項2】 帳票上に記載された文字の画像データを
    光学的に読み取り、登録文字の文字コード及び文字特徴
    情報を有する文字辞書を参照して、その読み取った画像
    データを認識し、該読み取った文字の該文字コードを出
    力する光学式文字読取装置の該文字辞書を作成する光学
    式文字読取装置の文字辞書作成方法において、 2次元座標上に始点及び終点を有する複数の直線素を用
    いて、前記帳票上の文字とは別個の文字パターンを有す
    る印字用文字の輪郭を記述したパターンデータと、該パ
    ターンデータの構成を示すデータ構成情報と、前記文字
    コードに対応する検索用の文字コードとを有するアウト
    ラインフォントデータを入力し、該データ構成情報に基
    づいて該パターンデータをM行N列(但し、M、Nは複
    数)のドットパターンに変換してメモリ上に展開するパ
    ターン展開処理と、 前記メモリ上に展開されたドットパターンから、前記文
    字特徴情報によって決められたP行Q列(但し、P、Q
    は複数)の前記文字のイメージデータを生成するデータ
    生成処理と、 前記イメージデータから前記文字特徴情報を抽出し、そ
    の抽出された文字特徴情報に前記登録文字コードを付し
    て辞書ファイルに登録する登録処理とを、 行うことを特徴とする光学式文字読取装置の文字辞書作
    成方法。
  3. 【請求項3】 前記パターン展開処理で展開されるM行
    N列のドットパターンのドット数と、前記データ生成処
    理で生成されるP行Q列のイメージデータのドット数と
    は、行及び列とも同一のドット数であることを特徴とす
    る請求項1または2記載の光学式文字読取装置の文字辞
    書作成方法。
  4. 【請求項4】 前記パターン展開処理で展開されるM行
    N列のドットパターンのドット数と、前記データ生成処
    理で生成されるP行Q列のイメージデータのドット数と
    の関係は、M>P、かつN>Qであることを特徴とする
    請求項1または2記載の光学式文字読取装置の文字辞書
    作成方法。
  5. 【請求項5】 前記パターン展開処理で展開されるM行
    N列のドットパターンのドット数と、前記データ生成処
    理で生成されるP行Q列のイメージデータのドット数と
    の関係は、M<P、かつN<Qであることを特徴とする
    請求項1または2記載の光学式文字読取装置の文字辞書
    作成方法。
  6. 【請求項6】 前記データ生成処理は、 前記メモリ上に展開されたM行のドットパターンのう
    ち、(M−P)行のドットパターンを等間隔に削除する
    行削除処理と、 前記メモリ上に展開されたN列のドットパターンのう
    ち、(N−Q)列のドットパターンを等間隔に削除する
    列削除処理とを行い、 P行Q列の前記登録文字のイメージデータを生成するこ
    とを特徴とする請求項4記載の光学式文字読取装置の文
    字辞書作成方法。
  7. 【請求項7】 前記データ生成処理は、 前記メモリ上に展開されたM行のドットパターンに対し
    て各行のドット数の周辺分布ヒストグラムを作成する行
    ヒストグラム処理と、 前記メモリ上に展開されたN列のドットパターンに対し
    て各列のドット数の周辺分布ヒストグラムを作成する列
    ヒストグラム処理と、 前記行ヒストグラム処理で得られた周辺分布ヒストグラ
    ムに基づき、ドット数変化の少ない行から順に、(M−
    P)行のドットパターンを削除する行削除処理と、 前記列ヒストグラム処理で得られた周辺分布ヒストグラ
    ムに基づき、ドット数変化の少ない列から順に、(N−
    Q)列のドットパターンを削除する列削除処理とを行
    い、 P行QN列の前記登録文字のイメージデータを生成する
    ことを特徴とする請求項4記載の光学式文字読取装置の
    文字辞書作成方法。
  8. 【請求項8】 前記データ生成処理は、 前記メモリ上に展開されたM行のドットパターンに対し
    て各行のドット数の周辺分布ヒストグラムを作成する行
    ヒストグラム処理と、 前記メモリ上に展開されたN列のドットパターンに対し
    て各列のドット数の周辺分布ヒストグラムを作成する列
    ヒストグラム処理と、 前記行ヒストグラム処理で得られた周辺分布ヒストグラ
    ムに基づき、ドット数変化の大きい箇所から順に、該箇
    所の前後の行のうちドット数の多い側の行を削除する行
    削除処理と、 前記列ヒストグラム処理で得られた周辺分布ヒストグラ
    ムに基づき、ドット数変化の大きい箇所から順に、該箇
    所の前後の列のうちドット数の多い側の列を削除する列
    削除処理とを行い、 P行QN列の前記登録文字のイメージデータを生成する
    ことを特徴とする請求項4記載の光学式文字読取装置の
    文字辞書作成方法。
  9. 【請求項9】 前記データ生成処理は、 前記メモリ上に展開されたM行のドットパターンに対し
    て各行のドット数の周辺分布ヒストグラムを作成する行
    ヒストグラム処理と、 前記メモリ上に展開されたN列のドットパターンに対し
    て各列のドット数の周辺分布ヒストグラムを作成する列
    ヒストグラム処理と、 前記行ヒストグラム処理で得られた周辺分布ヒストグラ
    ムに基づき、ドット数変化の大きい箇所から順に、該箇
    所の前後の行のうちドット数の少ない側の行を削除する
    行削除処理と、 前記列ヒストグラム処理で得られた周辺分布ヒストグラ
    ムに基づき、ドット数変化の大きい箇所から順に、該箇
    所の前後の列のうちドット数の少ない側の列を削除する
    列削除処理とを行い、 P行Q列の前記登録文字のイメージデータを生成するこ
    とを特徴とする請求項4記載の光学式文字読取装置の文
    字辞書作成方法。
  10. 【請求項10】 前記データ生成処理は、 前記メモリ上に展開されたM行のドットパターンに対し
    て各行のドット数の周辺分布ヒストグラムを作成する行
    ヒストグラム処理と、 前記メモリ上に展開されたN列のドットパターンに対し
    て各列のドット数の周辺分布ヒストグラムを作成する列
    ヒストグラム処理と、 前記行ヒストグラム処理で得られた周辺分布ヒストグラ
    ムに対して行毎に重み付けを行い加重周辺分布ヒストグ
    ラムを算出する行加重処理と、 前記列ヒストグラム処理で得られた周辺分布ヒストグラ
    ムに対して列毎に重み付けを行い加重周辺分布ヒストグ
    ラムを算出する列加重処理と、 前記行加重処理で得られた加重周辺分布ヒストグラムに
    基づき、加重周辺分布数変化の大きい箇所から順に、該
    箇所の前後の行のうちドット数の多い側の行を削除する
    行削除処理と、 前記列加重処理で得られた加重周辺分布ヒストグラムに
    基づき、加重周辺分布数変化の大きい箇所から順に、該
    箇所の前後の列のうちドット数の多い側の列を削除する
    列削除処理とを行い、 P行Q列の前記登録文字のイメージデータを生成するこ
    とを特徴とする請求項4記載の光学式文字読取装置の文
    字辞書作成方法。
  11. 【請求項11】 前記データ生成処理は、 前記メモリ上に展開されたM行のドットパターンに対し
    て各行のドット数の周辺分布ヒストグラムを作成する行
    ヒストグラム処理と、 前記メモリ上に展開されたN列のドットパターンに対し
    て各列のドット数の周辺分布ヒストグラムを作成する列
    ヒストグラム処理と、 前記行ヒストグラム処理で得られた周辺分布ヒストグラ
    ムに対して行毎に重み付けを行い加重周辺分布ヒストグ
    ラムを算出する行加重処理と、 前記列ヒストグラム処理で得られた周辺分布ヒストグラ
    ムに対して列毎に重み付けを行い加重周辺分布ヒストグ
    ラムを算出する列加重処理と、 前記行加重処理で得られた加重周辺分布ヒストグラムに
    基づき、加重周辺分布数変化の大きい箇所から順に、該
    箇所の前後の行のうちドット数の少ない側の行を削除す
    る行削除処理と、 前記列加重処理で得られた加重周辺分布ヒストグラムに
    基づき、加重周辺分布数変化の大きい箇所から順に、該
    箇所の前後の列のうちドット数の少ない側の列を削除す
    る列削除処理とを行い、 P行Q列の前記登録文字のイメージデータを生成するこ
    とを特徴とする請求項4記載の光学式文字読取装置の文
    字辞書作成方法。
  12. 【請求項12】 前記データ生成処理は、 前記メモリ上に展開されたドットパターンの各ドットと
    その左右のドットとの間での変化を緩和して横方向平滑
    パターンを生成する横方向平滑化処理と、 前記メモリ上に展開されたドットパターンの各ドットと
    その上下のドットとの間での変化を緩和して縦方向平滑
    パターンを生成する縦方向平滑化処理と、 前記ドットパターンと前記横方向平滑パターンとの相違
    箇所、及び該ドットパターンと前記縦方向平滑パターン
    との相違箇所を抽出する相違抽出処理と、 前記相違抽出処理において抽出された相違箇所を含まな
    い(M−P)行を前記M行のドットパターンから削除す
    る行削除処理と、 前記相違抽出処理において抽出された相違箇所を含まな
    い(N−Q)列を前記N列のドットパターンから削除す
    る列削除処理とを行い、 P行Q列の前記登録文字のイメージデータを生成するこ
    とを特徴とする請求項4記載の光学式文字読取装置の文
    字辞書作成方法。
  13. 【請求項13】 前記データ生成処理は、 前記メモリ上に展開されたM行のドットパターンのう
    ち、(M−P)行のドットパターンを等間隔に削除する
    行削除処理と、 前記メモリ上に展開されたN列のドットパターンのう
    ち、(N−Q)列のドットパターンを等間隔に削除する
    列削除処理と、 前記行削除処理及び前記列削除処理を行った後のドット
    パターンに対して、乱数に基づいて特定される単数また
    は複数の位置のドットを反転する反転処理とを行い、 P行Q列の前記登録文字のイメージデータを生成するこ
    とを特徴とする請求項4記載の光学式文字読取装置の文
    字辞書作成方法。
  14. 【請求項14】 前記データ生成処理は、 前記メモリ上に展開されたM行のドットパターンに、
    (P−M)行のドットパターンを等間隔に補間する行補
    間処理と、 前記メモリ上に展開されたN列のドットパターンに、
    (Q−N)列のドットパターンを等間隔に補間する列補
    間処理とを行い、 P行Q列の前記登録文字のイメージデータを生成するこ
    とを特徴とする請求項5記載の光学式文字読取装置の文
    字辞書作成方法。
  15. 【請求項15】 前記データ生成処理は、 前記メモリ上に展開されたM行のドットパターンに対し
    て各行のドット数の周辺分布ヒストグラムを作成する行
    ヒストグラム処理と、 前記メモリ上に展開されたN列のドットパターンに対し
    て各列のドット数の周辺分布ヒストグラムを作成する列
    ヒストグラム処理と、 前記行ヒストグラム処理で得られた周辺分布ヒストグラ
    ムに基づき、ドット数変化の少ない行から順に、(P−
    M)行のドットパターンを補間する行補間処理と、 前記列ヒストグラム処理で得られた周辺分布ヒストグラ
    ムに基づき、ドット数変化の少ない列から順に、(Q−
    N)列のドットパターンを補間する列補間処理とを行
    い、 P行Q列の前記登録文字のイメージデータを生成するこ
    とを特徴とする請求項5記載の光学式文字読取装置の文
    字辞書作成方法。
  16. 【請求項16】 前記データ生成処理は、 前記メモリ上に展開されたM行のドットパターンに対し
    て各行のドット数の周辺分布ヒストグラムを作成する行
    ヒストグラム処理と、 前記メモリ上に展開されたN列のドットパターンに対し
    て各列のドット数の周辺分布ヒストグラムを作成する列
    ヒストグラム処理と、 前記行ヒストグラム処理で得られた周辺分布ヒストグラ
    ムに基づき、ドット数変化の大きい箇所から順に、該箇
    所の前後の行のうちドット数の多い側の行のドットパタ
    ーンを補間する行補間処理と、 前記列ヒストグラム処理で得られた周辺分布ヒストグラ
    ムに基づき、ドット数変化の大きい箇所から順に、該箇
    所の前後の列のうちドット数の多い側の列のドットパタ
    ーンを補間する列補間処理とを行い、 P行Q列の前記登録文字のイメージデータを生成するこ
    とを特徴とする請求項5記載の光学式文字読取装置の文
    字辞書作成方法。
  17. 【請求項17】 前記データ生成処理は、 前記メモリ上に展開されたM行のドットパターンに対し
    て各行のドット数の周辺分布ヒストグラムを作成する行
    ヒストグラム処理と、 前記メモリ上に展開されたN列のドットパターンに対し
    て各列のドット数の周辺分布ヒストグラムを作成する列
    ヒストグラム処理と、 前記行ヒストグラム処理で得られた周辺分布ヒストグラ
    ムに基づき、ドット数変化の大きい箇所から順に、該箇
    所の前後の行のうちドット数の少ない側の行のドットパ
    ターンを補間する行補間処理と、 前記列ヒストグラム処理で得られた周辺分布ヒストグラ
    ムに基づき、ドット数変化の大きい箇所から順に、該箇
    所の前後の列のうちドット数の少ない側の列のドットパ
    ターンを補間する列補間処理とを行い、 P行Q列の前記登録文字のイメージデータを生成するこ
    とを特徴とする請求項5記載の光学式文字読取装置の文
    字辞書作成方法。
  18. 【請求項18】 前記データ生成処理は、 前記メモリ上に展開されたM行のドットパターンに対し
    て各行のドット数の周辺分布ヒストグラムを作成する行
    ヒストグラム処理と、 前記メモリ上に展開されたN列のドットパターンに対し
    て各列のドット数の周辺分布ヒストグラムを作成する列
    ヒストグラム処理と、 前記行ヒストグラム処理で得られた周辺分布ヒストグラ
    ムに対して行毎に重み付けを行い加重周辺分布ヒストグ
    ラムを算出する行加重処理と、 前記列ヒストグラム処理で得られた周辺分布ヒストグラ
    ムに対して列毎に重み付けを行い加重周辺分布ヒストグ
    ラムを算出する列加重処理と、 前記行加重処理で得られた加重周辺分布ヒストグラムに
    基づき、加重周辺分布数変化の大きい箇所から順に、該
    箇所の前後の行のうちドット数の多い側の行のドットパ
    ターンを補間する行補間処理と、 前記列加重処理で得られた加重周辺分布ヒストグラムに
    基づき、加重周辺分布数変化の大きい箇所から順に、該
    箇所の前後の列のうちドット数の多い側の列のドットパ
    ターンを補間する列補間処理とを行い、 P行Q列の前記登録文字のイメージデータを生成するこ
    とを特徴とする請求項5記載の光学式文字読取装置の文
    字辞書作成方法。
  19. 【請求項19】 前記データ生成処理は、 前記メモリ上に展開されたM行のドットパターンに対し
    て各行のドット数の周辺分布ヒストグラムを作成する行
    ヒストグラム処理と、 前記メモリ上に展開されたN列のドットパターンに対し
    て各列のドット数の周辺分布ヒストグラムを作成する列
    ヒストグラム処理と、 前記行ヒストグラム処理で得られた周辺分布ヒストグラ
    ムに対して行毎に重み付けを行い加重周辺分布ヒストグ
    ラムを算出する行加重処理と、 前記列ヒストグラム処理で得られた周辺分布ヒストグラ
    ムに対して列毎に重み付けを行い加重周辺分布ヒストグ
    ラムを算出する列加重処理と、 前記行加重処理で得られた加重周辺分布ヒストグラムに
    基づき、加重周辺分布数変化の大きい箇所から順に、該
    箇所の前後の行のうちドット数の少ない側の行のドット
    パターンを補間する行補間処理と、 前記列加重処理で得られた加重周辺分布ヒストグラムに
    基づき、加重周辺分布数変化の大きい箇所から順に、該
    箇所の前後の列のうちドット数の少ない側の列のドット
    パターンを補間する列補間処理とを行い、 P行Q列の前記登録文字のイメージデータを生成するこ
    とを特徴とする請求項5記載の光学式文字読取装置の文
    字辞書作成方法。
  20. 【請求項20】 前記データ生成処理は、 前記メモリ上に展開されたドットパターンの各ドットと
    その左右のドットとの間での変化を緩和して横方向平滑
    パターンを生成する横方向平滑化処理と、 前記メモリ上に展開されたドットパターンの各ドットと
    その上下のドットとの間での変化を緩和して縦方向平滑
    パターンを生成する縦方向平滑化処理と、 前記ドットパターンと前記横方向平滑パターンとの相違
    箇所、及び該ドットパターンと前記縦方向平滑パターン
    との相違箇所を抽出する相違抽出処理と、 前記相違抽出処理において抽出された相違箇所を含まな
    い(P−M)行を前記M行のドットパターンに補間する
    行補間処理と、 前記相違抽出処理において抽出された相違箇所を含まな
    い(P−N)列を前記N行のドットパターンに補間する
    列補間処理とを行い、 P行Q列の前記登録文字のイメージデータを生成するこ
    とを特徴とする請求項5記載の光学式文字読取装置の文
    字辞書作成方法。
  21. 【請求項21】 前記データ生成処理は、 前記メモリ上に展開されたM行のドットパターンに、
    (P−M)行のドットパターンを等間隔に補間する行補
    間処理と、 前記メモリ上に展開されたN列のドットパターンに、
    (Q−N)列のドットパターンを等間隔に補間する列補
    間処理と、 前記行補間処理及び前記列補間処理を行った後のドット
    パターンに対して、乱数に基づいて特定される単数また
    は複数の位置のドットを反転する反転処理とを行い、 P行Q列の前記登録文字のイメージデータを生成するこ
    とを特徴とする請求項5記載の光学式文字読取装置の文
    字辞書作成方法。
JP8237638A 1996-09-09 1996-09-09 光学式文字読取装置の文字辞書作成方法 Withdrawn JPH1083433A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8237638A JPH1083433A (ja) 1996-09-09 1996-09-09 光学式文字読取装置の文字辞書作成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8237638A JPH1083433A (ja) 1996-09-09 1996-09-09 光学式文字読取装置の文字辞書作成方法

Publications (1)

Publication Number Publication Date
JPH1083433A true JPH1083433A (ja) 1998-03-31

Family

ID=17018298

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8237638A Withdrawn JPH1083433A (ja) 1996-09-09 1996-09-09 光学式文字読取装置の文字辞書作成方法

Country Status (1)

Country Link
JP (1) JPH1083433A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007304899A (ja) * 2006-05-12 2007-11-22 Nippon Telegr & Teleph Corp <Ntt> 識別辞書生成装置及び識別辞書生成方法
JP2008117037A (ja) * 2006-11-01 2008-05-22 Fujitsu Ltd 文字認識辞書作成プログラム及び文字認識辞書作成方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007304899A (ja) * 2006-05-12 2007-11-22 Nippon Telegr & Teleph Corp <Ntt> 識別辞書生成装置及び識別辞書生成方法
JP2008117037A (ja) * 2006-11-01 2008-05-22 Fujitsu Ltd 文字認識辞書作成プログラム及び文字認識辞書作成方法

Similar Documents

Publication Publication Date Title
JPS62221785A (ja) パタ−ン認識方式において使用する特徴抽出技術
US5796410A (en) Generation and use of defective images in image analysis
KR20070115908A (ko) 인공 지능을 이용한 외부 어플리케이션 사용자인터페이스로부터의 정보의 지능형 임포테이션
EA000271B1 (ru) Способ и устройство для обработки таблицы
EP0689153A2 (en) Character recognition
US5027304A (en) Character multifont compression and restoration device
KR100242458B1 (ko) 패턴인식 방법 및 장치와 패턴인식 사전을 작성하는 방법
US6240209B1 (en) Method for deriving character features in a character recognition system
JPH1083433A (ja) 光学式文字読取装置の文字辞書作成方法
JPH0385597A (ja) 画像処理装置及び方法
JP3569138B2 (ja) 単語認識装置および方法
JPS5922179A (ja) 文字認識方法
JPH05265429A (ja) 文字フォント作成処理方式
JP2861816B2 (ja) パターン認識辞書生成装置とパターン認識装置
JPH08237404A (ja) 光学文字認識モードの選択方法
JP3486246B2 (ja) 文字認識装置
JP3961730B2 (ja) 帳票処理装置、帳票識別方法及び記録媒体
JPH0461396B2 (ja)
JP2827288B2 (ja) 文字認識装置
JP3760040B2 (ja) 文字認識方法、文字認識装置及び情報記録媒体
JP2740506B2 (ja) 画像認識方法
Monjel et al. Optical character recognition for Bangla documents using HMM
JP2990734B2 (ja) 文字認識装置の認識候補文字出力制御方法
JP2749946B2 (ja) 文字認識方法
JP2765617B2 (ja) 文字認識装置

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20031202