JPH0318986A - 文字認識装置 - Google Patents

文字認識装置

Info

Publication number
JPH0318986A
JPH0318986A JP1152734A JP15273489A JPH0318986A JP H0318986 A JPH0318986 A JP H0318986A JP 1152734 A JP1152734 A JP 1152734A JP 15273489 A JP15273489 A JP 15273489A JP H0318986 A JPH0318986 A JP H0318986A
Authority
JP
Japan
Prior art keywords
characters
dictionary
frequency
character
order
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP1152734A
Other languages
English (en)
Inventor
Osamu Adachi
修 足立
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP1152734A priority Critical patent/JPH0318986A/ja
Publication of JPH0318986A publication Critical patent/JPH0318986A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は文字認識装置に係り、特に辞書検索効率を上げ
るために辞書内の文字の並び順を適応的に制御する文字
認識装置に関する。
〔従来の技術〕
文字認識装置においては、認識対象文字の特徴量と、予
め#書として用意された標準文字の特徴量とのマツチン
グ(辞書検索)を行うことで、認識候補文字を決定して
いる。このマツチングは辞書内の先頭の文字より順番に
行われる。
認識候補文字決定の一般的な方法は、次の通りである。
認識対象文字の特徴量と、辞書内の標準文字の特徴量と
の距離を算出する。この距離が小さいほど、認識結果と
しての確度が高い。そして、距離の小さい文字から順に
、例えば10候補が選ばれ、距離をキーとしてソートさ
れる。10候補が得られた後、さらに距離が小さな文字
が見つかったときには、その文字が最も距離が大きな一
つの候補と入れ替えられ、候補は再ソートされる。
なお、無駄な距離計算時間を減らすために、距離計算の
途中値が予め定めた一定値を越えたとき、あるいは、そ
のときの10位候補の距離値を越えたときに、距離計算
を途中で打ち切り、該当文字を候補の対象から除外する
ことも多い。
ここまでの説明から明らかなように、早い時点で距離が
小さい候補が出揃うほど、距離計算の打ち切りが頻繁に
かつ早く起こるので、辞書検索処理時間が短くなり、装
置のトータルのスループットが増大する。
しかるに、従来は一般に、そのような条件についての考
慮が十分になされておらず、辞書内の標準文字の並び順
は文字コート類となっており、またIW書の実アドレス
に一定のオフセット値を加えた値を文字コードとしてい
るのが一般的である。
〔発明が解決しようとする課題〕
前述のような距離計算の途中打ち切りによる利益を十分
に得る方法として、辞書内の文字の並び順を文字の出現
頻度順とし、その順にマツチングを行う方法が考案され
ている。これは出現頻度が高い文字は、認識対象文書に
おいても出現する可能性が高いという考えによっている
。もし、辞書作成時に採用された文字の出現頻度順位が
、認識対象文書における文字の出現頻度順位に十分に近
いならば、確かに早い段階で確度の高い候補が出揃い、
距離計算の途中打ち切りによる時間節約の効果は大きく
なるであろう。
しかし1文書の種類もしくは対象分野、あるいは文書の
執筆者の文字使いの癖等によって、文字の出現頻度は相
当の違いがあり、あらゆる文書に共通するような出現頻
度順位を決定することは不可能である。仮に、そのよう
な出現頻度順位を決定できたとしても、特定の分野の文
書を処理対象とした場合には、違った出J3.!頻度順
位となってしまい、所期の処理効率が得られない。
本発明の目的は、このような辞書内の文字の並び順に関
する問題点を解決した文字認識装置を提供することにあ
る。
〔課題を解決するための手段〕
本発明は、辞書内の文字の並びを文字の出現頻度順とし
た文字認識装置において、認識結果候補となった頻度を
文字毎に測定する手段と、該8+1定の結果に応じて辞
書内の文字の並び順を修正する手段を設けることを特徴
とするものである。
〔作 用〕
辞書内の文字の並び順が認識結果により適応的に修正さ
れるため、個々の文字認識装置で実際に対象となる文書
に対し処理効率が上がるように辞書が最適化される。
〔実施例〕
以下、図面を用い本発明の一実施例について説明する。
第1図は文字認識装置の辞書制御部分の概略ブロック図
である。1は辞書メモリであり、ここに文字の並び順を
文字の出現頻度順とした辞書が格納される。2は辞書検
索を行って認識結果候補を得る辞書検索部であり、その
処理内容は従来と同様である。この辞書検索部2には、
認識対象文字(未知文字)より抽出された特徴量が入力
するが、この特徴抽出等の手段は図示されていない。
辞書内の各文字のデータは、小さいアドレスより文字の
出現頻度が大きい順に格納される。第2図に示すように
、辞書内の各文字のデータは、標準文字特徴量を表す1
28バイトと文字コートの2バイト、それに該当文字と
1つ並び順が後の文字(次位の出現頻度の文字)との出
現頻度の差を示す4バイトよりなっている。出現頻度差
の範囲は、最小Oから最大FFFFFFFF (16進
)までである、出現頻度差がFFFFFFFF (16
進)すなわちオール1となっている場合、そのインクリ
メントは行わない。ある2文字の間の出現頻度差が、そ
のデクリメントによりOになった時に、その2文字のデ
ータの並び順を入れ替えることにより、辞書内の文字の
並び順の適応的修正を行う。
次に、辞書内の文字の並び順の適応的修正のための構成
と修正動作を説明する。
辞非検索部2は、辞書検索によって新しい認識結果候補
を得ると、その文字の辞書アドレスをアドレス発生回路
3へ出力する。ここでは、第2図に示した文字(i+1
)が候補となって、その辞書アドレスAD (i +1
)が出力されたとする。
アドレス発生回路3は、文字(i+1)の出現頻度差N
 (i+1)のアドレスと、並び順が一つ前の文字(i
)の出現頻度差N (i)のアドレスを発生する。その
結果、辞書メモリ1より出現頻度差N (i+1)、N
 (i)が読み出される。
INC回路4は、N (i+1)に1を加算する。
その結果値は、辞書メモリ1の元のアドレスに書き込ま
れる。すなわち、辞書内のN (i+1)の値が1だけ
インクリメントされる。ただし、辞書メモリ1より読み
出されたN (i+1)がFFFFFFFF (16進
)のときは、オール1検出回路5より検出信号が出るた
め、INC回路4は入力したN (i+1)をそのまま
出力する。すなわち、N (i+1)のインクリメント
は抑止され、その値はF F F F F FF F 
(16進)のまま保存される。
他方、DEC回路6は#書メモリ1より読み出されたN
 (i)から1を減算する。その結果値は。
辞書メモリ1の元のアドレスに書き込まれる。すなわち
、辞書内のN (i)は1だけデクリメントされる。
ただし、DEC回路6による減算後のN (i)の値が
Oとなり、0検出回路7よりO検出信号が送出されたと
きは、文字(i)と文字(i+1)のデータの並び順の
入れ替えが行われる。この2文字のデータの入れ替えの
ためのデータバッファとして、入れ替えバッファ8が使
用される。
なお、前述の出現頻度差の更新のためのタイミング、文
字入れ替えのためのタイミングとアドレス制御は、制御
回路9によって行われる。
ここまでの説明から明らかなように、本実施例において
は、辞書の内容の一部である出現頻度差のインクリメン
ト/デクリメントによって、認識結果候補となった頻度
のdIg定を前後の文字との頻度順位関係も含めて行い
、その値がOになったことをもって、文字並び順の入れ
替えが必要な頻度測定結果となったと判断し、入れ替え
を行っている。
このような辞書内の文字の並び順の修正により、実際に
処理した文書において出現頻度が高い文字の辞書内の並
び順が順次繰り上がり、辞書内の文字の並び順が処理対
象文書における文字の出現頻度に適応化されるため、辞
書検索において早い時点で距離の小さなL!識結果候補
が出揃い、距離計算の途中打ち切りによる時間節約の効
果を十分に発揮できるようになる。
(発明の効果〕 以上の説明から明らかな如く、本発明によれば、辞書内
の文字並び順を、実際に処理対象となる文字における文
字の出現頻度に適合化させることができるため、辞書検
索処理効率を上げて文字認識装置のトータル・スループ
ットを増大させることができる。
【図面の簡単な説明】
第1図は本発明の一実施例に係る文字認識装置の辞書制
御部分の概略ブロック図、第2図は辞書の内容を示す図
である。 1・・・辞書メモリ、 2・・辞書検索部、3・・・ア
ドレス発生回路、 4・・・INC回路、5・・オール
1検出回路、 6・・・DEC回路、7 ・0検出回路
、 8・・入れ替えバッファ。 9・・制御回路。

Claims (1)

    【特許請求の範囲】
  1. (1)一文字の並び順を出現頻度の大きい順とする辞書
    を備えた文字認識装置において、認識結果候補となった
    頻度を文字毎に測定する手段と、該測定の結果に応じて
    辞書内の文字の並び順を修正する手段を有することを特
    徴とする文字認識装置。
JP1152734A 1989-06-15 1989-06-15 文字認識装置 Pending JPH0318986A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1152734A JPH0318986A (ja) 1989-06-15 1989-06-15 文字認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1152734A JPH0318986A (ja) 1989-06-15 1989-06-15 文字認識装置

Publications (1)

Publication Number Publication Date
JPH0318986A true JPH0318986A (ja) 1991-01-28

Family

ID=15546996

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1152734A Pending JPH0318986A (ja) 1989-06-15 1989-06-15 文字認識装置

Country Status (1)

Country Link
JP (1) JPH0318986A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5079423A (en) * 1989-04-18 1992-01-07 Seiko Instruments Inc. X-ray image sensor
US5109159A (en) * 1989-04-18 1992-04-28 Seiko Instruments Inc. X-ray image sensor
US6618504B1 (en) 1996-11-15 2003-09-09 Toho Business Management Center Business management system
US7397952B2 (en) 2002-04-25 2008-07-08 Microsoft Corporation “Don't care” pixel interpolation
US7764834B2 (en) 2002-04-25 2010-07-27 Microsoft Corporation System and method facilitating document image compression utilizing a mask

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5079423A (en) * 1989-04-18 1992-01-07 Seiko Instruments Inc. X-ray image sensor
US5109159A (en) * 1989-04-18 1992-04-28 Seiko Instruments Inc. X-ray image sensor
US6618504B1 (en) 1996-11-15 2003-09-09 Toho Business Management Center Business management system
US7397952B2 (en) 2002-04-25 2008-07-08 Microsoft Corporation “Don't care” pixel interpolation
US7764834B2 (en) 2002-04-25 2010-07-27 Microsoft Corporation System and method facilitating document image compression utilizing a mask

Similar Documents

Publication Publication Date Title
JPH0630066B2 (ja) テーブル型言語翻訳方法
CN112016319A (zh) 预训练模型获取、疾病实体标注方法、装置及存储介质
JPH0318986A (ja) 文字認識装置
JPH0619962A (ja) テキスト分割装置
CN113919371B (zh) 一种翻译语料库的匹配方法
JP2868127B2 (ja) 字句解析における空白読み飛ばし装置
JPH02157985A (ja) 文字特徴マッチング方式
JP2590698B2 (ja) 文字列データ検索装置
Yushi et al. Combine CRF and MMSEG to boost Chinese word segmentation in social media
JPH06290272A (ja) 高速マッチング方式
JPH07121665A (ja) 文字認識辞書の構成方法及び検索方法
JPH0259884A (ja) 文字認識装置
JP2908132B2 (ja) 文字認識結果の後処理方法
JPS61114388A (ja) 文字入力装置
JPH0198094A (ja) 文字認識回路
JPH06274701A (ja) 単語照合装置
JP2923295B2 (ja) パターン同定処理方式
JPS63121990A (ja) 文字認識装置の辞書検索方式
JPH03198180A (ja) 文字認識の後処理方法
JPH05216863A (ja) データ自動分類処理方法
JPH07200571A (ja) 文書処理方法及びその装置
JPS63263591A (ja) 文字認識回路
JPS63103393A (ja) 単語認識装置
JPS62285189A (ja) 文字認識後処理方式
JPS5975377A (ja) 文字選択方式