JP2623292B2 - 辞書データの作成方法 - Google Patents

辞書データの作成方法

Info

Publication number
JP2623292B2
JP2623292B2 JP63111520A JP11152088A JP2623292B2 JP 2623292 B2 JP2623292 B2 JP 2623292B2 JP 63111520 A JP63111520 A JP 63111520A JP 11152088 A JP11152088 A JP 11152088A JP 2623292 B2 JP2623292 B2 JP 2623292B2
Authority
JP
Japan
Prior art keywords
character
dictionary data
data
read
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP63111520A
Other languages
English (en)
Other versions
JPH01282693A (ja
Inventor
篤 霜山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP63111520A priority Critical patent/JP2623292B2/ja
Publication of JPH01282693A publication Critical patent/JPH01282693A/ja
Application granted granted Critical
Publication of JP2623292B2 publication Critical patent/JP2623292B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Description

【発明の詳細な説明】 〔概要〕 辞書データの作成方法に係り、特に読み取った文字デ
ータと格納している辞書データとを比較して相違度の最
も少ない辞書データの内容を読み取った文字データの内
容と認識して出力するOCRの当該辞書データの作成方法
に関し、 有限のメモリ領域を効率よく使用して格納することが
でき、且つ認識エラー率の低い辞書データを作成するこ
とができるようにすることを目的とし、 読み取った文字データと格納している辞書データとを
比較して相違度の最も少ない辞書データの内容を読み取
った文字データの内容と認識して出力するOCRの当該辞
書データの作成方法において、予め用意した全ての文字
カテゴリを含む文字データ群の中から辞書データとして
採用する文字データを抽出する際に、読み取り対象とす
る媒体内データの各文字カテゴリ毎の文字発生頻度の予
想値を予め求め、この予想値を仮に作成した辞書データ
による読み取りエラー率に掛算し、各文字カテゴリ毎の
読み取りエラー率を変更すると共に、この変更された読
み取りエラー率の高い文字カテゴリから仮に作成した辞
書データを読み取りエラー率が低くなるように順次置換
え、また、読み取りエラー率のうち他の文字をその文字
として読み取りエラーしてくる読み取りエラー率が低
く、その文字を他の文字として読み取る読み取りエラー
率が高い状態になった場合には辞書データを追加するこ
とを繰返し行なうように構成する。
〔産業上の利用分野〕
本発明は、辞書データの作成方法に係り、特に読み取
った文字データと格納している辞書データとを比較して
相違度の最も少ない辞書データの内容を読み取った文字
データの内容と認識して出力するOCRの当該辞書データ
の作成方法に関する。
〔従来の技術〕
OCR(optical Character Reader:光学式文字読取装
置)は紙面に記載された文字を読み取り符号化するに際
して、内蔵した辞書データを参照して、読み取った文字
等を特定するようにしている。この辞書データは読取の
対象となる文字の特徴を記録したものであり、この際、
読取の対象とする文字に漢字を含むような場合には、辞
書については、膨大な種類の辞書データを有する必要が
ある。また文字中には同一の文字であっても、明朝体、
ゴシック体、教科書体等のように多種の字体があり、こ
れらに対応して全ての文字の全ての字体について辞書デ
ータを準備することとすれば、辞書データを格納するメ
モリの容量は膨大なものとなる。そのため、全ての文字
の全ての字体に対して辞書を用意するのではなく、全て
の文字からの1または複数の代表を辞書データとしてサ
ンプリングし、この辞書データによって文字認識を行う
ようにしている。
このような辞書データを作成する方法としてこのよう
な認識対象のなかから代表的なものを一旦サンプリング
して仮辞書データとして、そのサンプリングされた仮辞
書データとの相違度が一定値以下の範囲を除き、これら
除かれた認識対象から新たなサンプリングを行なって新
たな辞書データとして採用するようにし、このような手
順を繰返し行うことにより辞書データを作成するものが
あった。
〔発明が解決しようとする課題〕
ところで、上述のような辞書データの作成方法にあっ
ては、作成した辞書データは必ずしも認識率が高くな
く、また効率的に使用できるものではないという問題が
あった。
これは辞書データの作成時に他の辞書データとの関連
で発生するエラー、即ち認識した文字を他の文字として
認識したり、他の文字をその文字と認識する場合につい
て考慮がされていなかったり、文字による出現頻度のフ
ァクターを考慮していなかったからである。
そこで本発明は、有限のメモリ領域を効率よく使用し
て格納することができ、且つ認識エラー率の低い辞書デ
ータを作成することができる辞書データの作成方法を提
供することを目的とする。
〔課題を解決するための手段〕
本発明にあって、上記の課題を解決するための手段
は、第1図に示すように、読み取った文字データと格納
している辞書データとを比較して相違度の最も少ない辞
書データの内容を読み取った文字データの内容と認識し
て出力するOCRの当該辞書データの作成方法において、
予め用意した全ての文字カテゴリを含む文字データ群の
中から辞書データとして採用する文字データを抽出する
際に、読み取り対象とする媒体内データの各文字カテゴ
リ毎の文字発生頻度の予想値を予め求め、この予想値を
仮に作成した辞書データによる読み取りエラー率に掛算
し、各文字カテゴリ毎の読み取りエラー率を変更する
(ST1)と共に、この変更された読み取りエラー率の高
い文字カテゴリから仮に作成した辞書データを読み取り
エラー率が低くなるように順次置換え、(ST2)、ま
た、読み取りエラー率のうち他の文字をその文字として
読み取りエラーしてくる読み取りエラー率が低く、その
文字を他の文字として読み取る読み取りエラー率が高い
状態になった場合には辞書データを追加すること(ST
3)を繰返し行なうことである。
〔作用〕
本発明によれば、辞書データの作成時に、各文字カテ
ゴリ毎の文字発生頻度を参照するとともに他の文字をそ
の文字と認識する場合を考慮して文字パターンを採用す
るようにしているから、認識率の良好な辞書データを作
成することができる。
〔実施例〕
以下本発明に係る辞書データ作成方法の実施例を図面
に基づいて説明する。
第2図乃至第4図は本発明に係る第一の実施例を示す
ものである。本実施例において、辞書データの作成は第
2図に示すような辞書データ作成装置によってなされ
る。同図において1はこの辞書作成装置を制御するマイ
クロプロセッサ、2は認識の対象となる大量の文字情報
を格納したデータベースを格納したマイクロディスク装
置、3は各文字の発生頻度を格納した発生頻度テーブル
メモリ、3は各字体毎の認識率を格納する認識率メモ
リ、4は読出した文字の特徴を抽出する特徴抽出装置、
5は辞書データを格納した辞書、6は辞書の内容と上記
特徴抽出装置の抽出した特徴とを比較する照合装置、7
は辞書データを作成する際に用いる辞書データ作成用の
ワークメモリ、8はこの辞書データ作成装置を外部から
操作するためのキーボード及び表示装置を示している。
ここでデータベースには、第3図に示すように、各字体
の各文字について辞書の対象とするか否かを表示するフ
ラグ部10と当該文字の正規化されたイメージを格納する
イメージ部11(例えば48ドット×48ドット)と、格納し
た文字の種類を表示するコード番号を格納する文字表示
部12と、認識率等を格納する認識率格納部13とから構成
した格納部を夫々の字体の各文字について有するものと
している。
また本実施例によれば、辞書データの作成は第2図に
示すフローチャートに従って行われる。
先ず、仮辞書の作成を行う。これは予め人手等で代表
パターンを抽出して作成しておくもので(ST11、ST1
2)、この仮辞書を基として辞書の作成を行うものであ
る。これは、1種類の字体、例えばゴシック体の全部の
文字を仮辞書の対象とすればよく、上記のデータベース
のフラグ部にフラグを立てるようにして設定する。この
設定は予め作成したプログラムによって行ってもよい。
そしてフラグの立っているパターンについてその文字の
イメージを特徴に変換してその特徴を基に辞書の形式に
変換して辞書部に格納する。これで仮辞書の作成は終了
する。
そしてこの仮辞書を基に自動的に辞書の作成を行な
う。先ず、全ての字体毎に正しく認識できた文字数c、
他の文字として認識した文字数b、及び他の文字をその
文字として認識した数aを求める(ST13)。これは、マ
イクロディスクに格納したデータベースから文字のイメ
ージと文字の種類とを読取り、このイメージから特徴抽
出装置で特徴を抽出して一旦ワークメモリに格納したの
ち、照合装置にセットした仮辞書で文字認識を行い、そ
の認識結果をワークメモリに出力してその文字表示部に
格納したコード番号と認識結果とを比較して上記の各種
の文字数を求めるものである。この照合はデータベース
に格納した全ての種類の字体の全ての文字(カテゴリ)
について行うものとする。
次に、エラー文字数a及びbに各文字の発生頻度hi
掛ける(ST14)。この発生頻度hiは予め調査し、設定し
ておいたもので、発生頻度テーブルメモリ3に格納され
たものである。この値は、例えば発生頻度が多い文字
「の」で100.0とし、最も発生頻度の少ない文字につい
て1.0とする。そして上記の他の文字として認識した文
字数b、及び他の文字をその文字として認識した数aを
変換する。
即ち a=a*hi b=b*hi とするのである。
そして各文字についてエラー率eを求める(ST15)。
本実施例ではエラー率eを で求めるようにしている。ここでkは定数で例えば2を
採用する。
更に、aとbとの比とaの値とが所定の値以下である
かどうかを判定する(ST16)。これは他の文字へエラー
する数bが相対的に多い辞書パターンの場合には辞書の
パターンを追加し(ST17)、そうでない場合は辞書パタ
ーンを変更することによりエラー率の低下を図るように
するものである。この走査は実際には、データベースに
おける同一文字、すなわち同一のコード番号を有するパ
ターンのフラグ部にフラフを立てることにより行う。
そしてこの処理により全てのパターンについて、上記
の条件を満たす場合には、各パターンについてのエラー
率のうち、最大のものとなったパターンについては、こ
れを採用せず新しいパターンを採用する(ST18)。これ
はデータベースの既存のパターンのフラグを降ろし、新
たなパターンのフラグ部にフラグを立てるにより行う。
尚、本実施例において、一度辞書パターンとして用い
たパターンにはデータベースの認識率記録部に認識率を
記録するものとしており、新たにパターンを採択すると
きには認識率が記録されていないものを採択するものと
し、全てのパターンに認識率が記録されている場合に
は、認識率が最も良好なものを採用するものとしてい
る。
このようにして採用したパターン、即ちデータベース
のフラグ部にフラグが立っているパターンのイメージを
特徴に変換して、その特徴を基に辞書形式に変換してそ
の文字のコードに対応させて辞書部に格納する(ST1
9)。
このような処理を所定回数実行することにより、辞書
の作成は終了する。
従って本実施例によれば、辞書の作成に際して、文字
の発生頻度を考慮にいれ、且つ他の文字をその文字と認
識する場合を考慮して文字パターンを採用するようにし
ているから、認識率の良好な辞書データを作成すること
ができる。
〔発明の効果〕
以上説明したように、本発明によれば辞書データの作
成方法を上記のように構成したので、辞書の作成時に文
字の発生頻度を考慮にいれ、且つ他の文字をその文字と
認識する場合を考慮して文字パターンを採用することが
できるので、認識率が良好な辞書を自動的に作成するこ
とができるという効果を奏する。
【図面の簡単な説明】
第1図は本発明の原理図、第2図は本発明を適用する辞
書データ作成装置を示すブロック図、第3図は本発明の
実施例を示すフローチャート、第4図は第2図に示した
辞書データ作成装置のデータベースの格納内容を示す図
である。

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】読み取った文字データと格納している辞書
    データとを比較して相違度の最も少ない辞書データの内
    容を読み取った文字データの内容と認識して出力するOC
    Rの当該辞書データの作成方法において、 予め用意した全ての文字カテゴリを含む文字データ群の
    中から辞書データとして採用する文字データを抽出する
    際に、読み取り対象とする媒体内データの各文字カテゴ
    リ毎の文字発生頻度の予想値を予め求め、この予想値を
    仮に作成した辞書データによる読み取りエラー率に掛算
    し、各文字カテゴリ毎の読み取りエラー率を変更すると
    共に、この変更された読み取りエラー率の高い文字カテ
    ゴリから仮に作成した辞書データを読み取りエラー率が
    低くなるように順次置換え、 また、読み取りエラー率のうち他の文字をその文字とし
    て読み取りエラーしてくる読み取りエラー率が低く、そ
    の文字を他の文字として読み取る読み取りエラー率が高
    い状態になった場合には辞書データを追加することを繰
    返し行なうことを特徴とする辞書データの作成方法。
JP63111520A 1988-05-10 1988-05-10 辞書データの作成方法 Expired - Lifetime JP2623292B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63111520A JP2623292B2 (ja) 1988-05-10 1988-05-10 辞書データの作成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63111520A JP2623292B2 (ja) 1988-05-10 1988-05-10 辞書データの作成方法

Publications (2)

Publication Number Publication Date
JPH01282693A JPH01282693A (ja) 1989-11-14
JP2623292B2 true JP2623292B2 (ja) 1997-06-25

Family

ID=14563409

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63111520A Expired - Lifetime JP2623292B2 (ja) 1988-05-10 1988-05-10 辞書データの作成方法

Country Status (1)

Country Link
JP (1) JP2623292B2 (ja)

Also Published As

Publication number Publication date
JPH01282693A (ja) 1989-11-14

Similar Documents

Publication Publication Date Title
JP2726568B2 (ja) 文字認識方法及び装置
KR100412317B1 (ko) 문자인식/수정방법및장치
JPH03161873A (ja) データベース構築機能を有する電子フアイリング装置
JP2005173730A (ja) 帳票ocrプログラム、方法及び装置
US10963717B1 (en) Auto-correction of pattern defined strings
JPH0772906B2 (ja) 文書認識装置
JP2623292B2 (ja) 辞書データの作成方法
JP4347675B2 (ja) 帳票ocrプログラム、方法及び装置
JPS6262388B2 (ja)
JP2784004B2 (ja) 文字認識装置
JPH06103402A (ja) 名刺認識装置
Clarke et al. Coping with some really rotten problems in automatic music recognition
JP2931485B2 (ja) 文字切出し装置及び方法
KR950004219B1 (ko) 조합형 폰트의 저장 영역 개선방법 및 장치
JPH0575143B2 (ja)
JP2993533B2 (ja) 情報処理装置及び文字認識装置
JP2529421B2 (ja) 文字認識装置
JP2544589B2 (ja) 文書処理方法及び装置
JPS63223987A (ja) 文字検索方法
JP2990734B2 (ja) 文字認識装置の認識候補文字出力制御方法
JPH09259225A (ja) 文字認識変換方法及び文字データ処理装置
JPS6054708B2 (ja) 手書文字/図形認識装置
JPH04293185A (ja) ファイリング装置
KR920006874A (ko) 소정의 포맷을 갖는 문서의 인식방법
JP3257160B2 (ja) 情報管理装置