JPH0318987A - 辞書登録方法 - Google Patents
辞書登録方法Info
- Publication number
- JPH0318987A JPH0318987A JP1152735A JP15273589A JPH0318987A JP H0318987 A JPH0318987 A JP H0318987A JP 1152735 A JP1152735 A JP 1152735A JP 15273589 A JP15273589 A JP 15273589A JP H0318987 A JPH0318987 A JP H0318987A
- Authority
- JP
- Japan
- Prior art keywords
- character
- dictionary
- image
- characters
- ligature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 12
- 238000000926 separation method Methods 0.000 abstract description 5
- 238000000605 extraction Methods 0.000 abstract description 4
- 238000006165 Knowles reaction Methods 0.000 abstract 1
- 230000000875 corresponding effect Effects 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 4
- 238000013500 data storage Methods 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 230000006866 deterioration Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
Landscapes
- Character Discrimination (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
〔産業上の利用分野〕
本発明は、文字認識装置の辞書登録方法に係り、特に接
続した状態で切り出された文字の辞書登録方法に関する
。
続した状態で切り出された文字の辞書登録方法に関する
。
文字認識装置においては、入力原稿画像より文字を切り
出して認識を行うが、雑誌のように文字が小さく文字間
スペースが小さな原稿の場合、2以上の文字が接続した
状態で切り出されてしまうことがあり、このような接続
した文字は、通常。
出して認識を行うが、雑誌のように文字が小さく文字間
スペースが小さな原稿の場合、2以上の文字が接続した
状態で切り出されてしまうことがあり、このような接続
した文字は、通常。
リジェクトされる。
従来、このようなりジェクトとなった接続した文字のパ
ターン認識を可能とするために、接続した文字のパター
ンを一つの文字として辞書に追加したり、あるいは特開
昭58−197578号公報に述へられている光学的文
字読取装置におけるように、リジェクトされたパターン
の学習を行わせて辞書を改良することが考えられている
。
ターン認識を可能とするために、接続した文字のパター
ンを一つの文字として辞書に追加したり、あるいは特開
昭58−197578号公報に述へられている光学的文
字読取装置におけるように、リジェクトされたパターン
の学習を行わせて辞書を改良することが考えられている
。
しかし、文字が接続するパターンは原稿側の条件や文字
切出しアルゴリズムの特性等によって。
切出しアルゴリズムの特性等によって。
実に様々であるため、分離に失敗した文字のパターンを
全て無条件に辞書に追加登録したり、学習させたりする
と、辞書の汎用性が失われたり、性能が低下する恐れが
ある。このような不利益を招かないように、利用者が接
続した文字の辞書登録を適切に判断するには、装置の文
字切出しアルゴリズム等について開発者レベルの知識を
要求され、一般の利用者には無理がある。
全て無条件に辞書に追加登録したり、学習させたりする
と、辞書の汎用性が失われたり、性能が低下する恐れが
ある。このような不利益を招かないように、利用者が接
続した文字の辞書登録を適切に判断するには、装置の文
字切出しアルゴリズム等について開発者レベルの知識を
要求され、一般の利用者には無理がある。
よって本発明の目的は、接続した状態で切り出された文
字の的確な辞書登録を、専門的な知識のない利用者でも
簡単にできるようにするための方法を提供することにあ
る。
字の的確な辞書登録を、専門的な知識のない利用者でも
簡単にできるようにするための方法を提供することにあ
る。
文字の接続は次の二つに大別できる。第1は、様々な条
件の重なりによって、本来は接続しないはずの2以上の
文字が接続した状態で切り出される場合である。第2は
、もともと分離が不可能な2以上の文字の接続の場合で
ある。この明細書においては、前者の接続した文字を″
′接続文字′″後者の接続した文字を゛合掌″と区別し
て呼ぶものとする。
件の重なりによって、本来は接続しないはずの2以上の
文字が接続した状態で切り出される場合である。第2は
、もともと分離が不可能な2以上の文字の接続の場合で
ある。この明細書においては、前者の接続した文字を″
′接続文字′″後者の接続した文字を゛合掌″と区別し
て呼ぶものとする。
“接続文字″は採用している文字切出し技術や原稿の種
類等に依存するので、同じ2以上の文字の並びであって
も、ある装置や原稿の種類では分離できすに゛′接続文
字″となるが、別の装置や原稿種類では分離に成功し″
接続文字′″にはならない。しかし、特定の装置あるい
は原稿種類等によって、″接続文字″となる可能性が高
い文字の並びを予想できる。
類等に依存するので、同じ2以上の文字の並びであって
も、ある装置や原稿の種類では分離できすに゛′接続文
字″となるが、別の装置や原稿種類では分離に成功し″
接続文字′″にはならない。しかし、特定の装置あるい
は原稿種類等によって、″接続文字″となる可能性が高
い文字の並びを予想できる。
他方、“合掌′″となる文字の並びは限られており、こ
れは装置や原稿種類に殆ど依存せず、はぼ常に分離が不
可能である。1合字”の例としては、“’fi”や“f
fi”等がある。
れは装置や原稿種類に殆ど依存せず、はぼ常に分離が不
可能である。1合字”の例としては、“’fi”や“f
fi”等がある。
以上のことに着目し、本発明にあっては、特定の合掌お
よび接続文字を登録したテーブルを用意し、このテーブ
ルと入力した文字コードとを照合することにより、接続
した文字を非分離のまま辞書登録するか否かを判定する
。
よび接続文字を登録したテーブルを用意し、このテーブ
ルと入力した文字コードとを照合することにより、接続
した文字を非分離のまま辞書登録するか否かを判定する
。
非分離のまま辞書登録される接続した文字は、合掌・接
続文字テーブルに登録された合掌または接続文字に自動
的に限定され、その際に利用者の判断は入らない。した
がって、専門的知識を持たない一般的な利用者でも、接
続文字や合掌の認識が可能な辞書を、その汎用性や性能
を損なうことなく容易に獲得することできるようになる
。
続文字テーブルに登録された合掌または接続文字に自動
的に限定され、その際に利用者の判断は入らない。した
がって、専門的知識を持たない一般的な利用者でも、接
続文字や合掌の認識が可能な辞書を、その汎用性や性能
を損なうことなく容易に獲得することできるようになる
。
第1図は本発明の一実施例に係る光学文字認識装置のハ
ード構成図である。1は原稿の画像を入力するスキャナ
、2はスキャナ1より入力された原稿画像を記憶する画
像保存メモリ、3は処理を実行する中央演算処理装置、
4は中央演算処理装置3上で動作する各種処理のプログ
ラムを格納したプログラム格納ROM、5は処理の中間
データや結果データ等を一時的に格納するためのデータ
格納RA Mである。6は文字認識用の辞書、7は接続
した文字の辞書登録のために本発明により導入された合
掌・接続文字テーブルである。8はキーボード9が付属
したデイスプレィである。
ード構成図である。1は原稿の画像を入力するスキャナ
、2はスキャナ1より入力された原稿画像を記憶する画
像保存メモリ、3は処理を実行する中央演算処理装置、
4は中央演算処理装置3上で動作する各種処理のプログ
ラムを格納したプログラム格納ROM、5は処理の中間
データや結果データ等を一時的に格納するためのデータ
格納RA Mである。6は文字認識用の辞書、7は接続
した文字の辞書登録のために本発明により導入された合
掌・接続文字テーブルである。8はキーボード9が付属
したデイスプレィである。
通常の文字認識の場合、中央演算処理装置3の処理によ
り、原稿画像から文字画像を切り出し、文字画像より抽
出した特徴量と辞書6に登録された各文字の特徴量との
距離を算出し、距離が小さい候補文字を求める。また、
所定の閾値より距離が小さい候補が得られない文字等を
リジェク1〜する。
り、原稿画像から文字画像を切り出し、文字画像より抽
出した特徴量と辞書6に登録された各文字の特徴量との
距離を算出し、距離が小さい候補文字を求める。また、
所定の閾値より距離が小さい候補が得られない文字等を
リジェク1〜する。
次に本発明に係わる#書登録処理について説明するが、
この処理の対象を例えばリジェクトされた文字に限定す
ることもできるし、画像保存メモリ2内の原稿画像上の
任意の文字を対象とすることもできる。
この処理の対象を例えばリジェクトされた文字に限定す
ることもできるし、画像保存メモリ2内の原稿画像上の
任意の文字を対象とすることもできる。
第2図に辞書登録処理のフローを示す。また、合掌・接
続文字テーブル7の登録内容の例を第3図に示す。
続文字テーブル7の登録内容の例を第3図に示す。
まず、切り出された文字の画像(1文字の画像または接
続した2以上の文字の画像)をデイスプレィ8に表示す
る。
続した2以上の文字の画像)をデイスプレィ8に表示す
る。
オペレータはキーボード9より、辞書登録をするか否か
を入力する。
を入力する。
辞書登録をしない旨が入力された場合、次の切出し画像
の処理へ移る。
の処理へ移る。
辞書登録をする旨の入力があった場合、オペレータは表
示された画像に対応する文字コード(1文字画像であれ
ば1文字のコード、接続した文字の画像であれば複数の
文字コード)をキーボード9より入力する。
示された画像に対応する文字コード(1文字画像であれ
ば1文字のコード、接続した文字の画像であれば複数の
文字コード)をキーボード9より入力する。
この入力された文字コードと、合掌・接続文字テーブル
7に登録された文字コードとの照合をtう。
7に登録された文字コードとの照合をtう。
この照合により、入力文字コードと一致するニードが見
つかった場合、現在表示されている文1画像は分離不可
能な合掌または接続文字であり、非分離のまま、その特
徴抽出を行って辞書6に鷺録し、次の画像の処理に移る
。
つかった場合、現在表示されている文1画像は分離不可
能な合掌または接続文字であり、非分離のまま、その特
徴抽出を行って辞書6に鷺録し、次の画像の処理に移る
。
合掌・接続文字テーブル7と入力文字コードとの照合で
一致がとれない場合、当該画像は分1sT3能な接続し
た文字であるので、1文字毎に分Mしてから特徴抽出を
し、辞書6に登録する。第4]鱗に接続した文字の画像
、それに対する入力文字ニードおよび分離画像の例を示
す。
一致がとれない場合、当該画像は分1sT3能な接続し
た文字であるので、1文字毎に分Mしてから特徴抽出を
し、辞書6に登録する。第4]鱗に接続した文字の画像
、それに対する入力文字ニードおよび分離画像の例を示
す。
この分離・辞書登録の処理内容としては、次シような例
が考えられる。
が考えられる。
(ア)入力された文字コード数に等しい個数の慎字に分
離し辞l?登録をする処理を自動的に吠行する。
離し辞l?登録をする処理を自動的に吠行する。
(イ) 分離された画像を表示しくインタラブト力かか
る)、辞書登録をするか否かをキーボード9より指示さ
せ、登録を指示された文字についてのみ辞lif登録を
行う6 (つ)分離された画像の文字認識を行い、その結果の信
頼度が低いか、候補が見つからなかった画像のみを表示
し、辞−t!!:登録をするか否かをキーボード9より
指示させ、登録を指示された文字についてだけ辞書登録
をする。
る)、辞書登録をするか否かをキーボード9より指示さ
せ、登録を指示された文字についてのみ辞lif登録を
行う6 (つ)分離された画像の文字認識を行い、その結果の信
頼度が低いか、候補が見つからなかった画像のみを表示
し、辞−t!!:登録をするか否かをキーボード9より
指示させ、登録を指示された文字についてだけ辞書登録
をする。
実際的には、辞書登録の仕方(辞書の無の状態からの辞
書作成か、既存の辞書を利用しての辞書学習)や処理の
形態(バッチ、リアルタイム)によって、上記の処理方
法の一つを選び、あるいは2以上の方法を組合せて採用
する。
書作成か、既存の辞書を利用しての辞書学習)や処理の
形態(バッチ、リアルタイム)によって、上記の処理方
法の一つを選び、あるいは2以上の方法を組合せて採用
する。
以上説明した如く、本発明によれば、文字分離技術等に
関して高度の知識を持たない利用者であっても、接続し
た文字の認識性能が高い辞書を容易に獲得することがで
き、しかも不適切な辞書べ〉録による辞書の汎用性や性
能の悪化を回避することができる。
関して高度の知識を持たない利用者であっても、接続し
た文字の認識性能が高い辞書を容易に獲得することがで
き、しかも不適切な辞書べ〉録による辞書の汎用性や性
能の悪化を回避することができる。
第1図は本発明の一実施例に係る光学文字認識装置のハ
ード構成図、第2図は辞書登録の概略フローチャート、
第3図は合掌・接続文字テーブルの登録内容の例を示す
図、第4図は接続した文字の分離・辞書登録の説明図で
ある。 1・・・スキャナ、 2・・・画像保存メモリ、3・・
・中央演算処理装置、 4・・・プログラム格納メモリ、 5・・・データ格納RAM、 6・・・辞書、7・・
・合掌・接続文字テーブル。 8・・・デイスプレィ、 9・・キーボード。 第2図 wiハ 入力 −574−
ード構成図、第2図は辞書登録の概略フローチャート、
第3図は合掌・接続文字テーブルの登録内容の例を示す
図、第4図は接続した文字の分離・辞書登録の説明図で
ある。 1・・・スキャナ、 2・・・画像保存メモリ、3・・
・中央演算処理装置、 4・・・プログラム格納メモリ、 5・・・データ格納RAM、 6・・・辞書、7・・
・合掌・接続文字テーブル。 8・・・デイスプレィ、 9・・キーボード。 第2図 wiハ 入力 −574−
Claims (1)
- (1)文字認識装置における辞書登録方法において、特
定の合字および接続文字を登録したテーブルを用意し、
接続した文字の辞書登録の際に、入力した文字コードと
該テーブルとを照合することにより、該接続した文字を
非分離のまま辞書登録をするか否かを判定することを特
徴とする辞書登録方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP1152735A JPH0318987A (ja) | 1989-06-15 | 1989-06-15 | 辞書登録方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP1152735A JPH0318987A (ja) | 1989-06-15 | 1989-06-15 | 辞書登録方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH0318987A true JPH0318987A (ja) | 1991-01-28 |
Family
ID=15547016
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP1152735A Pending JPH0318987A (ja) | 1989-06-15 | 1989-06-15 | 辞書登録方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH0318987A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5537522A (en) * | 1994-01-31 | 1996-07-16 | Fuji Xerox Co., Ltd. | Document processing device for improving image quality |
US5802535A (en) * | 1995-02-03 | 1998-09-01 | Fuji Xerox Co., Ltd. | Document processing apparatus for editing and generating documents |
-
1989
- 1989-06-15 JP JP1152735A patent/JPH0318987A/ja active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5537522A (en) * | 1994-01-31 | 1996-07-16 | Fuji Xerox Co., Ltd. | Document processing device for improving image quality |
US5802535A (en) * | 1995-02-03 | 1998-09-01 | Fuji Xerox Co., Ltd. | Document processing apparatus for editing and generating documents |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPH0318987A (ja) | 辞書登録方法 | |
JPH06215184A (ja) | 抽出領域のラベリング装置 | |
JPH09134410A (ja) | 認識結果の確信度決定方法及び文字認識装置 | |
KR950001061B1 (ko) | 문서인식 수정장치 | |
JP2812391B2 (ja) | パターン処理方法 | |
JPS6142083A (ja) | 文字認識装置 | |
JP2003099709A (ja) | 誤読文字修正方法及び光学的文字認識装置 | |
JPH0830734A (ja) | 文字列認識装置 | |
JPH0520490A (ja) | 光学的文字読取修正システム | |
JPS62281082A (ja) | 文字認識装置 | |
JPH10269311A (ja) | 帳票処理単位指定方法 | |
JP2851865B2 (ja) | 文字認識装置 | |
JPH06251187A (ja) | 文字認識誤り修正方法及び装置 | |
JP2622004B2 (ja) | 文字認識装置 | |
JPH0492973A (ja) | イメージ情報登録検索装置 | |
JPH0944606A (ja) | 文字認識処理方法 | |
JPH0496882A (ja) | 全角/半角判定方法 | |
JPS60138689A (ja) | 文字認識方法 | |
JPS6318483A (ja) | 光学的情報入力装置用文字認識方法 | |
JP2003162689A (ja) | 類似文字認識プログラムおよび類似文字認識方法 | |
JPH07210623A (ja) | 文書画像処理装置 | |
JPH10134150A (ja) | 文字認識結果の後処理方法 | |
JPH041882A (ja) | 文字認識方法およびその装置 | |
JPH09319825A (ja) | 文字認識装置 | |
JPH06231311A (ja) | 文字列切り分け方法 |