JPH0424784A - 文字処理方法 - Google Patents

文字処理方法

Info

Publication number
JPH0424784A
JPH0424784A JP2125937A JP12593790A JPH0424784A JP H0424784 A JPH0424784 A JP H0424784A JP 2125937 A JP2125937 A JP 2125937A JP 12593790 A JP12593790 A JP 12593790A JP H0424784 A JPH0424784 A JP H0424784A
Authority
JP
Japan
Prior art keywords
word
character
information
recognition
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2125937A
Other languages
English (en)
Other versions
JP2935533B2 (ja
Inventor
Kazuyuki Saito
和之 齋藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2125937A priority Critical patent/JP2935533B2/ja
Publication of JPH0424784A publication Critical patent/JPH0424784A/ja
Application granted granted Critical
Publication of JP2935533B2 publication Critical patent/JP2935533B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [産業上の利用分野コ 本発明は単語照合を用いて、認識文字候補の修正を行う
文字認識装置に関するものである。
[従来の技術] 従来、文字認識装置における認識文字候補の修正処理と
して、認識文字候補を辞書の先頭の単語から1つ1つ比
較して修正するものはあった。
[発明か解決しようとしている課題] しかしなから、上記従来例ては、単語照合辞書から単語
を検索する際に、辞書の内容を、先頭から1つ1つ検索
するため、むだか多く、単語照合処理に費やす詩間か長
くなるという欠点かあった。
[課題を解決する為の手段] 本発明によれば、従来技術の欠点を解決する為に画像デ
ータを入力する入力手段、入力した画像データから文字
情報を識別する識別手段とを有する文字認識装置におい
て、複数の単語情報を記憶する記憶手段、前記識ヌq手
段により識別された文字情報から、該文字情報を先頭文
字とする単語情報を前記記憶手段から導出する導土手段
、前記導出手段により導出された少なくとも1つの単語
情報と前記識別手段により識別された文字情報からなる
単語情報を照合し、照合した単語情報を認識結果として
決定する決定手段を有する。
[実施例工] 第6図は本発明の実施例における基本構成を示す図てあ
り100は第4図及び第5図におけるフローチャート等
の演算を行う中央演算装置(CPU)、101は文字・
記号等の入力や、誤認識した時に修正する際の指示等を
行うためのキーボード(KB)、102はポインティン
クチハイス(PD)、103は文字を認識する際に用い
る辞書等を記憶しているリートオンリーメモリ(ROM
)、104はスキャナ108により読みとられたデータ
を記憶するメモリ、105はスキャナ108により読み
とられたデータから候補となる単語等をみつけ、各々の
相違度を計算する識別計算部、106はCRT、107
はスキャナ108のインターフェイス(SCAN  I
/F)108は画像情報を読みとるスキャナである。
第1図は本発明の特徴を最もよく表わす図面であり、同
図においてlでスキャナ108より文書を入力し、2て
入力された文書を2値の画像データとしてメモリ104
に格納し、3て画像メモリ2に格納された画像データか
らc p u 1o。
により1つ1つの文字の画像データを切り出し、4てC
P U 100により文字の画像データの特徴を数値化
して描出し、5てROM 103内にあらかしめ文字種
ごとの特徴を数値化した特徴データを認識辞書部として
格納し、6て識別計算部105により特徴抽出部4て得
られた入力文字の特徴データと認識辞書部5に格納され
ている各種文字の特徴データを比較し複数の認識文字候
補選出及び相違度の算出を行い、7てROM 10:l
内に単語を例えばJISコート等文字を表わす数値・記
号の順に格納した本体部と同一の先頭文字コートを持つ
単語群の本体部先頭からのオフセットアドレスを格納し
たインデックス部と単語照合辞書の基本情報を格納した
ヘッダ部を単語照合辞書部として記憶し、8てCP U
 100により特定のJISコートを先頭文字とする単
語群の各単語か格納されている領域を順序付けて示すリ
ンクチーフルと特定のJISコートとリンク・チーフル
によって順序付けられた単語群の先頭単語の格納領域先
頭からのオフセット・アドレスを対応付けたインデック
ス・チーツルとを設けた単語照合辞書を検索し、9てC
P U 100により単語照合辞書検索部8て検索され
た単語と、識別部6によって得られた認識文字候補とを
比較して一致する単語を認識文字候補として修正する。
ここて、第2図に示す例を用いて、第4図のフローチャ
ートに示した本実施例の処理の流れを詳細に説明する。
スキャナ108から入力された文書は、2値の画像デー
タとしてメモリ104に格納される。そして、文字切り
出し部3て、1つ1つの文字の画像データか切り出され
、特徴抽出部4て各文字の画像データの特徴を数値化す
る。
次に、識別部6は特徴抽出部4によって得られた入力文
字に対する特徴データと認識辞書5に格納されている各
種文字の特徴データを比較し認識文字候補の選出と相違
度の算出を行う(Sl)。
次に単語照合検索部8て、例えば先頭文字か「検」であ
る単語を検索するとすると(第2図)、「検」のJIS
コートはr3821Jであるのてインデックスチーフル
(第2図の11)を参照する(S2)。インデックス・
チーフル(第2図の11)においてJISコートr38
21J、はリンク・チーフル(第2図の12)の15番
を指しており、リンクチーフルの15番を参照すると(
S2)第3図の16に示すようなインデックス部を参照
しくS4)単語照合辞書の本体部に先頭文字か「検」で
ある単語群の先頭単語「検定」が格納されていることか
わかる(S5)。
さらにリンク・チーフル(第2図の12)を参照すると
(S6)、 リンクチーフルの15番はリンクチーフル
(第2図の12)の16番を指し示しており、15番と
同様にして先頭文字か「検」である単語群の2番目の単
語「検定室」か格納されている領域のアドレスか単語照
合辞書7のインデックス部(第3図の16)の16番目
の領域に格納されていることかわかる。以下同様にして
リンク・チーフル(第2図の12)の188番目て参照
すると、リンクの最後を示す「−1」か現われ、同一文
字コートを先頭文字とする単語群かおわりとなる(S7
)。これて「検」を先頭文字とする単語を複数導出する
ことかてきる。
また、単語を持たないJISコートはリンク・テーブル
(第2図の12)か「−1」となる(S8)。
このように、単語照合辞書の内容を先頭から1つ1つ検
索する必要かないので、単語照合の処理をむだなく、高
速化することかてきる。
[実施例2] 単語の登録、削除の例を第5図に示すようなCP U 
100て行われる処理をフローチャートに従って詳細に
説明する。
先頭文字か「検」である単語を登録する例として、SI
Oて登録を選択し、登録単語の文字コートをKBIOI
 、 PD102により入力し、新たに登録された領域
のアドレスを単語照合辞書7のインデックス部(第3図
の16)の100番に格納しく512) 、第2図の1
2のようなリンク・チーフルは第2図の13に示すよう
に、リンク・チーブ1118番目の「−1」をrloo
Jに変更しく513)かつ、ioo番目か「−1」に変
更する(S14)。
また、単語を削除する例として、例えばインテックス部
の17番に格納されている「検討」を削除するときは、
510て削除を選択し、KBIOI 、 PD102に
より削除する単語を指示しく515) 、第2図の12
のようなリンク・チーフル第2図の14に示すようにリ
ンク・テーブル、16番目の指し示す番号を「17」か
ら「18」へと変更する(516)。
このように、辞書への登録削除か、容易にかつ高速に行
うことかてきる。
[発明の効果] 以上説明したように、本発明によれば、認識文字候補の
修正を行う為に認識語と照合する単語を辞書から検索す
る際に、認識文字候補を先頭文字とする単語のみを取り
出すことを可能とする記憶方法て単語を記憶することに
より、単語照合辞書の内容を先頭から1つ1つ検索する
必要かなくなり、単語照合の処理のむだをなくし、処理
の高速化を計るという効果かある。
【図面の簡単な説明】
第1図は本発明を実施した文字認識装置のフロック図 第2図は単語照合辞書の検索手段を表わす図 第3図は単語照合辞書を表わす図 第4図は単語照合辞書の検索を表わすフローチャート 第5図は単語照合辞書への登録及び削除を表わすフロー
チャート 第6図は本発明の基本となる構成図である。 1はスキャナ 2は画像メモリ 3は文字切り出し部 4は特徴抽出部 5は認識辞書部 6は識別部 7は単語照合辞書部 8は単語照合辞書検索部 9は単語照合部 IOは単語照合辞書本体部における同一・文字コートを
先頭文字とする単2g群 11はインデック・チーフル 12はリンク・チーフル 13は単語の登録か行われた時のリンク・チーフル 14は単語の削除か行われた時のリンク・チーフル 15は単語照合辞書におけるヘッダ部 6は単語照合辞書におけるインデックス部7は単語照合
辞書における本体部 を 図 第4図

Claims (1)

  1. 【特許請求の範囲】 画像データを入力する入力手段、入力した 画像データから文字情報を識別する識別手段とを有する
    文字認識装置において、 複数の単語情報を記憶する記憶手段、 前記識別手段により識別された文字情報か ら、該文字情報を先頭文字とする単語情報を前記記憶手
    段から導出する導出手段、 前記導出手段により導出された少なくとも 1つの単語情報と前記識別手段により識別された文字情
    報からなる単語情報を照合し、照合した単語情報を認識
    結果として決定する決定手段を有することを特徴とする
    文字認識装置。
JP2125937A 1990-05-15 1990-05-15 文字処理方法 Expired - Fee Related JP2935533B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2125937A JP2935533B2 (ja) 1990-05-15 1990-05-15 文字処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2125937A JP2935533B2 (ja) 1990-05-15 1990-05-15 文字処理方法

Publications (2)

Publication Number Publication Date
JPH0424784A true JPH0424784A (ja) 1992-01-28
JP2935533B2 JP2935533B2 (ja) 1999-08-16

Family

ID=14922660

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2125937A Expired - Fee Related JP2935533B2 (ja) 1990-05-15 1990-05-15 文字処理方法

Country Status (1)

Country Link
JP (1) JP2935533B2 (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61267885A (ja) * 1984-11-21 1986-11-27 Nec Corp 単語辞書照合装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61267885A (ja) * 1984-11-21 1986-11-27 Nec Corp 単語辞書照合装置

Also Published As

Publication number Publication date
JP2935533B2 (ja) 1999-08-16

Similar Documents

Publication Publication Date Title
JP3689455B2 (ja) 情報処理方法及び装置
US6687697B2 (en) System and method for improved string matching under noisy channel conditions
US5774588A (en) Method and system for comparing strings with entries of a lexicon
JP3427692B2 (ja) 文字認識方法および文字認識装置
JP2713622B2 (ja) 表形式文書読取装置
JP3602596B2 (ja) ドキュメントファイリング装置および方法
JPH11316800A (ja) 文字認識方法及び装置
JPH087033A (ja) 情報処理方法及び装置
JPH0772906B2 (ja) 文書認識装置
JP3803219B2 (ja) 全文検索装置及び全文検索方法
JP3589007B2 (ja) 文書ファイリングシステムおよび文書ファイリング方法
JPH0424784A (ja) 文字処理方法
Lu et al. Word searching in document images using word portion matching
CN115376152A (zh) 一种流程图的查重方法
JP2586372B2 (ja) 情報検索装置及び情報検索方法
JP3975825B2 (ja) 文字認識誤り訂正方法、装置及びプログラム
JPH06215184A (ja) 抽出領域のラベリング装置
JPS6262388B2 (ja)
JP2998054B2 (ja) 文字認識方法及び文字認識装置
KR950001061B1 (ko) 문서인식 수정장치
JP2000259847A (ja) 情報検索方法、装置および記録媒体
JPH0441388B2 (ja)
JP4584507B2 (ja) 住所認識装置、記録媒体及びプログラム
JP2002183667A (ja) 文字認識装置及び記録媒体
JPH05128159A (ja) キーワード抽出方法及び装置

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees