JP2935533B2 - 文字処理方法 - Google Patents
文字処理方法Info
- Publication number
- JP2935533B2 JP2935533B2 JP2125937A JP12593790A JP2935533B2 JP 2935533 B2 JP2935533 B2 JP 2935533B2 JP 2125937 A JP2125937 A JP 2125937A JP 12593790 A JP12593790 A JP 12593790A JP 2935533 B2 JP2935533 B2 JP 2935533B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- character
- dictionary
- stored
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Character Discrimination (AREA)
Description
【発明の詳細な説明】 [産業上の利用分野] 本発明は、文字認識の結果を単語照合する文字処理方
法に関するものである。
法に関するものである。
[従来の技術] 従来、文字認識装置における認識文字候補の修正処理
として、認識文字候補を辞書の先頭の単語から1つ1つ
比較して修正するものはあった。
として、認識文字候補を辞書の先頭の単語から1つ1つ
比較して修正するものはあった。
[発明が解決しようとしている課題] しかしながら、上記従来例では、単語照合辞書から単
語を検索する際に、辞書の内容を、先頭から1つ1つ検
索するため、むだが多く、単語照合処理に費やす時間が
長くなるという欠点があった。
語を検索する際に、辞書の内容を、先頭から1つ1つ検
索するため、むだが多く、単語照合処理に費やす時間が
長くなるという欠点があった。
[課題を解決する為の手段] 上記課題を解決する為に、本発明は、複数の単語情報
を格納した単語辞書と、文字と単語の所定位置に該文字
を有する単語情報が記憶されている前記単語辞書におけ
る位置を特定する特定情報とを対応付けるテーブルとを
利用して、入力文字列と単語辞書との単語照合を行う文
字処理方法であって、入力画像に含まれる文字列の各々
の文字を認識し、前記テーブルを参照して、前記入力画
像の文字列の所定位置の認識結果の文字に対応付けて記
憶されている特定情報を検出し、前記検出される特定情
報が、対応する単語が前記単語辞書に格納されていない
ことを示す情報であった場合には、該認識した文字列の
単語照合を行わないよう制御する文字処理方法を提供す
る。
を格納した単語辞書と、文字と単語の所定位置に該文字
を有する単語情報が記憶されている前記単語辞書におけ
る位置を特定する特定情報とを対応付けるテーブルとを
利用して、入力文字列と単語辞書との単語照合を行う文
字処理方法であって、入力画像に含まれる文字列の各々
の文字を認識し、前記テーブルを参照して、前記入力画
像の文字列の所定位置の認識結果の文字に対応付けて記
憶されている特定情報を検出し、前記検出される特定情
報が、対応する単語が前記単語辞書に格納されていない
ことを示す情報であった場合には、該認識した文字列の
単語照合を行わないよう制御する文字処理方法を提供す
る。
[実施例1] 第6図は本発明の実施例における基本構成を示す図で
あり100は第4図及び第5図におけるフローチヤート等
の演算を行う中央演算装置(CPU)、101は文字・記号等
の入力や、誤認識した時に修正する際の指示等を行うた
めのキーボード(KB)、102はポインテイングデバイス
(PD)、103は文字を認識する際に用いる辞書等を記憶
しているリードオンリーメモリ(ROM)、104はスキヤナ
108により読みとられたデータを記憶するメモリ、105は
スキヤナ108により読みとられたデータから候補となる
単語等をみつけ、各々の相違度を計算する識別計算部、
106はCRT、107はスキヤナー108のインターフエイス(SC
AN I/F)108は画像情報を読みとるスキヤナである。
あり100は第4図及び第5図におけるフローチヤート等
の演算を行う中央演算装置(CPU)、101は文字・記号等
の入力や、誤認識した時に修正する際の指示等を行うた
めのキーボード(KB)、102はポインテイングデバイス
(PD)、103は文字を認識する際に用いる辞書等を記憶
しているリードオンリーメモリ(ROM)、104はスキヤナ
108により読みとられたデータを記憶するメモリ、105は
スキヤナ108により読みとられたデータから候補となる
単語等をみつけ、各々の相違度を計算する識別計算部、
106はCRT、107はスキヤナー108のインターフエイス(SC
AN I/F)108は画像情報を読みとるスキヤナである。
第1図は本発明の特徴を最もよく表わす図面であり、
同図において1でスキヤナ108より文書を入力し、2で
入力された文書を2値の画像データとしてメモリ104に
格納し、3で画像メモリ2に格納された画像データから
CPU100により1つ1つの文字の画像データを切り出し、
4でCPU100により文字の画像データの特徴を数値化して
描出し、5でROM103内にあらかじめ文字種ごとの特徴を
数値化した特徴データを認識辞書部として格納し、6で
識別計算部105により特徴抽出部4で得られた入力文字
の特徴データと認識辞書部5に格納されている各種文字
の特徴データを比較し複数の認識文字候補選出及び相違
度の算出を行い、7でROM103内に単語を例えばJISコー
ド等文字を表わす数値・記号の順に格納した本体部と同
一の先頭文字コードを持つ単語群の本体部先頭からのオ
フセツトアドレスを格納したインデツクス部と単語照合
辞書の基本情報を格納したヘツダ部を単語照合辞書部と
して記憶し、8でCPU100により特定のJISコードを先頭
文字とする単語群の各単語が格納されている領域を順序
付けて示すリンクテーブルと特定のJISコードとリンク
・テーブルによって順序付けられた単語群の先頭単語の
格納領域先頭からのオフセツト・アドレスを対応付けた
インデツクス・テーブルとを設けた単語照合辞書を検索
し、9でCPU100により単語照合辞書検索部8で検索され
た単語と、識別部6によって得られた認識文字候補とを
比較して一致する単語を認識文字候補として修正する。
同図において1でスキヤナ108より文書を入力し、2で
入力された文書を2値の画像データとしてメモリ104に
格納し、3で画像メモリ2に格納された画像データから
CPU100により1つ1つの文字の画像データを切り出し、
4でCPU100により文字の画像データの特徴を数値化して
描出し、5でROM103内にあらかじめ文字種ごとの特徴を
数値化した特徴データを認識辞書部として格納し、6で
識別計算部105により特徴抽出部4で得られた入力文字
の特徴データと認識辞書部5に格納されている各種文字
の特徴データを比較し複数の認識文字候補選出及び相違
度の算出を行い、7でROM103内に単語を例えばJISコー
ド等文字を表わす数値・記号の順に格納した本体部と同
一の先頭文字コードを持つ単語群の本体部先頭からのオ
フセツトアドレスを格納したインデツクス部と単語照合
辞書の基本情報を格納したヘツダ部を単語照合辞書部と
して記憶し、8でCPU100により特定のJISコードを先頭
文字とする単語群の各単語が格納されている領域を順序
付けて示すリンクテーブルと特定のJISコードとリンク
・テーブルによって順序付けられた単語群の先頭単語の
格納領域先頭からのオフセツト・アドレスを対応付けた
インデツクス・テーブルとを設けた単語照合辞書を検索
し、9でCPU100により単語照合辞書検索部8で検索され
た単語と、識別部6によって得られた認識文字候補とを
比較して一致する単語を認識文字候補として修正する。
ここで、第2図に示す例を用いて、第4図のフローチ
ヤートに示した本実施例の処理の流れを詳細に説明す
る。
ヤートに示した本実施例の処理の流れを詳細に説明す
る。
スキヤナ108から入力された文書は、2値の画像デー
タとしてメモリ104に格納される。そして、文字切り出
し部3で、1つ1つの文字の画像データが切り出され、
特徴抽出部4で各文字の画像データの特徴を数値化す
る。
タとしてメモリ104に格納される。そして、文字切り出
し部3で、1つ1つの文字の画像データが切り出され、
特徴抽出部4で各文字の画像データの特徴を数値化す
る。
次に、識別部6は特徴抽出部4によって得られた入力
文字に対する特徴データと認識辞書5に格納されている
各種文字の特徴データを比較し認識文字候補の選出と相
違度の算出を行う(S1)。
文字に対する特徴データと認識辞書5に格納されている
各種文字の特徴データを比較し認識文字候補の選出と相
違度の算出を行う(S1)。
次に単語照合検索部8で、例えば先頭文字が「検」で
ある単語を検索するとすると(第2図)、「検」のJIS
コードは「3821」であるのでインデツクステーブル(第
2図の11)を参照する(S2)。インデツクス・テーブル
(第2図の11)においてJISコード「3821」、はリンク
・テーブル(第2図の12)の15番を指しており、リンク
テーブルの15番を参照すると(S2)第3図の16に示すよ
うなインデツクス部を参照し(S4)単語照合辞書の本体
部に先頭文字が「検」である単語群の先頭単語「検定」
が格納されていることがわかる(S5)。
ある単語を検索するとすると(第2図)、「検」のJIS
コードは「3821」であるのでインデツクステーブル(第
2図の11)を参照する(S2)。インデツクス・テーブル
(第2図の11)においてJISコード「3821」、はリンク
・テーブル(第2図の12)の15番を指しており、リンク
テーブルの15番を参照すると(S2)第3図の16に示すよ
うなインデツクス部を参照し(S4)単語照合辞書の本体
部に先頭文字が「検」である単語群の先頭単語「検定」
が格納されていることがわかる(S5)。
さらにリンク・テーブル(第2図の12)を参照すると
(S6)、リンクテーブルの15番はリンクテーブル(第2
図の12)の16番を指し示しており、15番と同様にして先
頭文字が「検」である単語群の2番目の単語「検定室」
が格納されている領域のアドレスが単語照合辞書7のイ
ンデツクス部(第3図の16)の16番目の領域に格納され
ていることがわかる。以下同様にしてリンク・テーブル
(第2図の12)の18番目まで参照すると、リンクの最後
を示す「−1」が現われ、同一文字コードを先頭文字と
する単語群がおわりとなる(S7)。これで「検」を先頭
文字とする単語を複数導出することができる。
(S6)、リンクテーブルの15番はリンクテーブル(第2
図の12)の16番を指し示しており、15番と同様にして先
頭文字が「検」である単語群の2番目の単語「検定室」
が格納されている領域のアドレスが単語照合辞書7のイ
ンデツクス部(第3図の16)の16番目の領域に格納され
ていることがわかる。以下同様にしてリンク・テーブル
(第2図の12)の18番目まで参照すると、リンクの最後
を示す「−1」が現われ、同一文字コードを先頭文字と
する単語群がおわりとなる(S7)。これで「検」を先頭
文字とする単語を複数導出することができる。
また、単語を持たないJISコードはリンク・テーブル
(第2図の12)が「−1」となる(S8)。
(第2図の12)が「−1」となる(S8)。
このように、単語照合辞書の内容を先頭から1つ1つ
検索する必要がないので、単語照合の処理をむだなく、
高速化することができる。
検索する必要がないので、単語照合の処理をむだなく、
高速化することができる。
[実施例2] 単語の登録、削除の例を第5図に示すようなCPU100で
行われる処理をフローチヤートに従って詳細に説明す
る。
行われる処理をフローチヤートに従って詳細に説明す
る。
先頭文字が「検」である単語を登録する例として、S1
0で登録を選択し、登録単語の文字コードをKB101、PD10
2により入力し、新たに登録された領域のアドレスを単
語照合辞書7のインデツクス部(第3図の16)の100番
に格納し(S12)、第2図の12のようなリンク・テーブ
ルは第2図の13に示すように、リンク・テーブル18番目
の「−1」を「100」に変更し(S13)かつ、100番目が
「−1」に変更する(S14)。
0で登録を選択し、登録単語の文字コードをKB101、PD10
2により入力し、新たに登録された領域のアドレスを単
語照合辞書7のインデツクス部(第3図の16)の100番
に格納し(S12)、第2図の12のようなリンク・テーブ
ルは第2図の13に示すように、リンク・テーブル18番目
の「−1」を「100」に変更し(S13)かつ、100番目が
「−1」に変更する(S14)。
また、単語を削除する例として、例えばインデツクス
部の17番に格納されている「検討」を削除するときは、
S10で削除を選択し、KB101、PD102により削除する単語
を指示し(S15)、第2図の12のようなリンク・テーブ
ル第2図の14に示すようにリンク・テーブル、16番目の
指し示す番号を「17」から「18」へと変更する(S1
6)。
部の17番に格納されている「検討」を削除するときは、
S10で削除を選択し、KB101、PD102により削除する単語
を指示し(S15)、第2図の12のようなリンク・テーブ
ル第2図の14に示すようにリンク・テーブル、16番目の
指し示す番号を「17」から「18」へと変更する(S1
6)。
このように、辞書への登録削除が、容易にかつ高速に
行うことができる。
行うことができる。
[発明の効果] 以上説明したように本発明によれば、文字と、単語の
所定位置に該文字を有する単語情報とを対応付けて記憶
するテーブルに、単語照合する単語がない文字について
は対応する単語が前記単語辞書に格納されていないこと
を示す情報を対応付けて記憶することにより、不要な単
語まで無理に単語照合することなく、単語照合を行わな
い処理を選択的に行うことにより、効率的な単語照合を
可能とするという効果がある。
所定位置に該文字を有する単語情報とを対応付けて記憶
するテーブルに、単語照合する単語がない文字について
は対応する単語が前記単語辞書に格納されていないこと
を示す情報を対応付けて記憶することにより、不要な単
語まで無理に単語照合することなく、単語照合を行わな
い処理を選択的に行うことにより、効率的な単語照合を
可能とするという効果がある。
第1図は本発明を実施した文字認識装置のブロツク図、 第2図は単語照合辞書の検索手段を表わす図、 第3図は単語照合辞書を表わす図、 第4図は単語照合辞書の検索を表わすフローチヤート 第5図は単語照合辞書への登録及び削除を表わすフロチ
ヤート 第6図は本発明の基本となる構成図である。 1はスキヤナ 2は画像メモリ 3は文字切り出し部 4は特徴抽出部 5は認識辞書部 6は識別部 7は単語照合辞書部 8は単語照合辞書検索部 9は単語照合部 10は単語照合辞書本体部における同一文字コードを先頭
文字とする単語群 11はインデツク・テーブル 12はリンク・テーブル 13は単語の登録が行われた時のリンク・テーブル 14は単語の削除が行われた時のリンク・テーブル 15は単語照合辞書におけるヘッダ部 16は単語照合辞書におけるインデツクス部 17は単語照合辞書における本体部
ヤート 第6図は本発明の基本となる構成図である。 1はスキヤナ 2は画像メモリ 3は文字切り出し部 4は特徴抽出部 5は認識辞書部 6は識別部 7は単語照合辞書部 8は単語照合辞書検索部 9は単語照合部 10は単語照合辞書本体部における同一文字コードを先頭
文字とする単語群 11はインデツク・テーブル 12はリンク・テーブル 13は単語の登録が行われた時のリンク・テーブル 14は単語の削除が行われた時のリンク・テーブル 15は単語照合辞書におけるヘッダ部 16は単語照合辞書におけるインデツクス部 17は単語照合辞書における本体部
Claims (1)
- 【請求項1】複数の単語情報を格納した単語辞書と、 文字と、単語の所定位置に該文字を有する単語情報が記
憶されている前記単語辞書における位置を特定する特定
情報とを対応付けるテーブルとを利用して、入力文字列
と単語辞書との単語照合を行う文字処理方法であって、 入力画像に含まれる文字列の各々の文字を認識し、 前記テーブルを参照して、前記入力画像の文字列の所定
位置の認識結果の文字に対応付けて記憶されている特定
情報を検出し、 前記検出される特定情報が、対応する単語が前記単語辞
書に格納されていないことを示す情報であった場合に
は、該認識した文字列の単語照合を行わないよう制御す
ることを特徴とする文字処理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2125937A JP2935533B2 (ja) | 1990-05-15 | 1990-05-15 | 文字処理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2125937A JP2935533B2 (ja) | 1990-05-15 | 1990-05-15 | 文字処理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH0424784A JPH0424784A (ja) | 1992-01-28 |
JP2935533B2 true JP2935533B2 (ja) | 1999-08-16 |
Family
ID=14922660
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2125937A Expired - Fee Related JP2935533B2 (ja) | 1990-05-15 | 1990-05-15 | 文字処理方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2935533B2 (ja) |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4771385A (en) * | 1984-11-21 | 1988-09-13 | Nec Corporation | Word recognition processing time reduction system using word length and hash technique involving head letters |
-
1990
- 1990-05-15 JP JP2125937A patent/JP2935533B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPH0424784A (ja) | 1992-01-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPH09198398A (ja) | パターン検索装置 | |
JPH06266900A (ja) | 連続パターンからパターン群を認識する方法およびパターン認識装置 | |
US6978044B2 (en) | Pattern string matching apparatus and pattern string matching method | |
JPH087033A (ja) | 情報処理方法及び装置 | |
JP2001175661A (ja) | 全文検索装置及び全文検索方法 | |
JP2935533B2 (ja) | 文字処理方法 | |
JPH06215184A (ja) | 抽出領域のラベリング装置 | |
JP2998054B2 (ja) | 文字認識方法及び文字認識装置 | |
JP2586372B2 (ja) | 情報検索装置及び情報検索方法 | |
JP3812719B2 (ja) | 文書検索装置 | |
JPH06274701A (ja) | 単語照合装置 | |
JP2894305B2 (ja) | 認識装置の候補修正方式 | |
JPS59229683A (ja) | 認識処理装置 | |
JPH0441388B2 (ja) | ||
JP2918380B2 (ja) | 文字認識結果の後処理方法 | |
JP2982244B2 (ja) | 文字認識後処理方式 | |
JP2996823B2 (ja) | 文字認識装置 | |
JP6024118B2 (ja) | 文字読取装置及び文字認識方法 | |
JP4584507B2 (ja) | 住所認識装置、記録媒体及びプログラム | |
JP2827066B2 (ja) | 数字列混在文書の文字認識の後処理方法 | |
JPS63138479A (ja) | 文字認識装置 | |
JP3720405B2 (ja) | 領域識別装置及び方法 | |
JPH03278194A (ja) | 文字認識処理方式 | |
JP2002014981A (ja) | 文書ファイリング装置 | |
JPH11143983A (ja) | 文字認識装置、文字認識方法及び文字認識プログラムを記録したコンピュータ読み取り可能な記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
LAPS | Cancellation because of no payment of annual fees |