JPH03214377A - 文字認識装置 - Google Patents

文字認識装置

Info

Publication number
JPH03214377A
JPH03214377A JP2009989A JP998990A JPH03214377A JP H03214377 A JPH03214377 A JP H03214377A JP 2009989 A JP2009989 A JP 2009989A JP 998990 A JP998990 A JP 998990A JP H03214377 A JPH03214377 A JP H03214377A
Authority
JP
Japan
Prior art keywords
character
recognition
characters
signal
section
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009989A
Other languages
English (en)
Inventor
Takayuki Fujikawa
藤川 孝之
Keiko Abe
阿部 惠子
Susumu Takasaki
高崎 進
Katsumasa Sakai
酒井 勝正
Hiromichi Aoki
青木 宏導
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Toppan Inc
Original Assignee
Sony Corp
Toppan Printing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp, Toppan Printing Co Ltd filed Critical Sony Corp
Priority to JP2009989A priority Critical patent/JPH03214377A/ja
Publication of JPH03214377A publication Critical patent/JPH03214377A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 口産業上の利用分野− 本発明:ま、例えば印刷文書の文字を認識して文字コー
ドに変換する場合に使用して好適な文字認識装置に関す
る。
〔発明の概要〕
本発明は、例えば印刷文書の文字を認識して文字コード
に変換する場合に使用して好適な文字認識装置に関し、
原文書のイメージに対応する原文字信号から1文字分の
切出し文字信号を順次切出す文字切出し部と、文字コー
ドに対応したイメージデータを記憶したS忍識辞書部と
、その切出し文字信号に対応する文字コードをその認識
辞書部を用いて認識する認識部と、その切出し文字信号
のイメージデータをその認識辞書部に随時登録する辞書
作成部と、その認識結果を表示する表示部とを有し、そ
の認識結果の内で正確に認識できなかった文字の内の1
つの文字のイメージデータをその認識辞書部に登録し、
それろ正確に認識できなかった文字だけを再び認識する
ことにより、正確に認識できなかった特定の文字・つ修
正作業の迅速を図ると共に、その認識辞書部の内容を学
習効果により充実できるようにしたものである。
〔従来の技術〕
例えば活版印刷において作業者が活字を拾う工程を自動
化するためには、タイプ印刷等で作成された原稿の各文
字を認識して文字コードに変換する文字認識装置が必要
である。
第6図は特開昭62 −74181 号公報で開示され
ている従来の文字認識装置を示し、この第6図において
、(1)は原稿読取部であり、この原稿読取部(1)か
ら原稿の1ページ分の濃淡に対応する原文字信号Slが
文字列切出し部(2) +:供給される。この原文字信
号S1は原稿を所定の密度でドノト分解し、黒いドット
をハイレベル“1″、白いドノトを口−レベル“0”で
表わしたものであるが、各ドットの濃度を複数ビットの
2進数で表わす場合もある。
文字列切出し部(2):ま第1段前処理部(3)、第2
Pl前処理部(4)及び第3段前処理部(5)より構成
され、原文字信号S1に:ま第1段前処理部(3)にお
いて雑音の除去及び原稿の回転補正がなされ、第2段前
処理部(4)において文字領域、へR(第7図参照)が
その他の領域(写真、図面等の領域)から区分されてそ
の文字領域ARに含まれるイメージデータだけが抽出さ
れ、第3段前処理部(5)においてその抽出された文字
領域ARに含まれる文字列API,AR2,・・・・に
対応する文字列信号S4が抽出される。
この文字列信号S4の抽出を行なうには、第7図で示す
如く、文字領域ARの各ドットの位置を水平方向にとっ
たX軸と垂直方向にとったY軸とより?:る(X,Y)
座標で表わし、各ド7}の“1”又は”0”の値をY軸
上に投影して和をとることによりY投影信号Sy を生
成する。そして、このY投影信号Sy を所定の閾値レ
ベルで2値化すると、二の2値化した信号の内のハイレ
ベル“1”の区間が夫々文字列、へRl,AR2,・・
・・に対応する如くなり、文字列信号S4は後続の文字
切出し邦(6)i二供給される。
文字切出し部(6)において:よ、例えば第8図.へに
示す1番目の文字列、へRi の文字列信号S4をX軸
上j二投影してX投影信号SXを生成し、このX投影信
号SXを最小レベル(値が1)の閾値THIで2値化す
ることにより粗切出し信号DTI(第8図C)を得て、
このX投影信号Sxを中程度のレベルの間値TH2(第
8図D)で2値化することにより細切出し信号DT2(
第8図E)を得る。同様に粗切出し信号DTI がハイ
レベル“1”の区間だけで個々にY投影信号Syを生成
することにより、Y方向の切出し信号を生成することが
できる。
そして、最終的に第8図Aに示す如く、例えば文字「て
.についてはこの文字に外接する外接枠(9)の内部で
ハイレベル“1”となると共に、分離文字である「い」
については分離されている各部に外接する外接枠(II
L (12)  の内部でハイレベル“1”となる切出
し信号が得ちれ、入力される文字列信号S4かろその切
出し信号がハイレベル“1”となる部分だけを順次切出
した信号が基本矩形切出し文字1言号S7とi;る。
尚、第8図Eの細切出し信号DT2 は各文字のより微
細な構造を調べる場合に使用される。また、第8図、へ
の分離文字である−5)一について:ま外接?(11)
, (12)  が2個あるため、後に文字識別の段階
で統合を行なう必要がある。
(7)は文字識別部を示し、この文字識別部(7)は基
本矩形切出し文字信号S7を各外接枠毎に取込んで文字
認識を行なう。具体的には、先ず位置による分類を行な
い、第8図Aの文字例AR1 に対して上半分の範囲に
存在する文字(r’」,r”」,「゜」など)及び下半
分:ご存在する文字(・゛。」,「」,「,」など)を
第1特徴文字としてパターンマッチングを行って、対応
する文字コード(J I Sコードなど〉を付与する。
これで識別ができない場合には、外接枠の幅をW、高さ
をhとして、縦横比h/w及び相対的大きさによる分類
を行なう。即ち、縦横比h / wが0<h/w<0.
5の範囲に入るか、1.5<h/wの範囲に入るかによ
って分顛を行なう。更に、平均的な大きさの外接枠の幅
を・〃■、高さをh,として、縦t目対比h/ha及び
漢相対比W/WRの壇が夫々0くh/hQ<0.5及び
0 < w / WR <0.0 の範囲に入るか否か
によって分頚を行ない。・上述の範囲に入る文字を第2
特徴文字としてパターンマッチングを行なう。
また、第1及び第2特徴文字に分類されない文字に対し
ては個別に記憶されているドットパターンとのパターン
マッチングを行ない、所定の合致度が得られた場合には
その文字コードを付与する。
それでも認識できない文字が残った場合には、その外接
枠を更に複数の微少外接枠に分離する再切出し及び後に
続く外接枠と合体させる統合の動作が実効される。尚、
最終的に認識できない文字が残った場合には、その文字
には認識できない文字である二とを示すリジェクトコー
ドが付与される。
その文字識別部(7)で生成された原稿の1ページ分の
文字コードは文字の位置や大きさを示す情報と共に所定
の記憶装置に記憶される。更に、認識結果が正し一)か
どうかをオペレータが判定できる様j=、その文字コー
ドjこ対応する文字のビデオ信号が陰極線管等の表示部
(8)に供給され、この表示部(8)の表示画面には原
稿に対応した形式で認識結果としての一群の文字が表示
される。この場合、認識できなかった文字の部分には高
輝度の矩形のブランクが表示される。従って、修正対象
文字や認識できない文字が存在する場合には、オペレー
タはワードプロセッサと同じ要領でその部分に所望の文
字を打込むことができる。
上述のように、原稿の濃淡に対応する原文字信号S1を
生成し、この信号S1を1個の文字に外接する外接枠で
切出して切出し文字信号S7を生成し、この切出し文字
信号S7に対応する文字を特定するという文字認識のア
ルゴリズム自体は基本的には確立しているということが
できる。
〔発明が解決しようとする課題〕
しかしながら、その文字認識のアルゴリズムを用いた文
字認識装置を実際にオフィスに設定してオペレータが使
用した結果、操作性において種々の不都合があることが
判明した。
その不都合の1つは、認識対象としての原稿の文字の中
に特殊なパターンの文字(変則文字)が存在するような
場合に、認識結果においてその変則文字に対応する部分
が全部認識誤りとなり修正作業に長時間を要することで
ある。
本発明は斯かる点に鑑み、認識結果において或る特定の
文字だけが全て正確に認識されていないような場合に、
修正作業を迅速にできるようにすることを目的とする。
〔課題を解決するための手段〕
本発明による文字認識装置は、原文書(14)のイメー
ジに対応する原文字信号S1から1文字分の切出し文字
信号S7を順次切出す文字切出し部(24. 25)と
、文字コードに対応するイメージデータを記憶した認識
辞書部(30)と、その切出し文字信号S7に対応する
文字コードをその認識辞書部(30)を用いて認識する
認識部(28)と、その切出し文字信号S7のイメージ
データ(例えばドットパターン)をその認識辞書部(3
0)に随時登録する辞書作成FA(29)と、その認識
結果を表示する表示部(20)とを有し、その認識結果
の内で正確に認識できなかった文字の内の1つの文字の
イメージヂー夕をその認識辞書部(30)に登録し、そ
れら正確に認識できなかった文字だけを再び認識するよ
うにしたものである。
〔作用〕
斯かる本発明によれば、その認識結果の内で或る特定の
文字だけが全て正確に認識できなかったような場合には
、それら正確に認識できなかった文字の内の1つの文字
のイメージデータをその認識辞書部(3G)に登録し、
それら正確に認識できかなった文字だけを選んで再び文
字認識を行なうことにより、極めて迅速に修正作業を実
行することができる。
また、その正確に認識できなかった文字のイメージデー
タをその認識辞書部(30)に登録すると、学習効果に
よりその認識辞書部(30)の内容がより充実される。
〔実施例〕
以下、本発明による文字認識装置の一実施例につき第1
図〜第5図を参照して説明しよう。
第1図は本例の文字認識装置のシステム構成を示し、こ
の第1図において、(13)はドキュメントフィダーと
イメージリーグとよりなるスキャナー(14)はこのス
キャナーにセットされた原稿であり、スキャナー(13
)は原稿(14)の1ページ全体を例えば400 x4
00dpi (ドット/インチ)の読取り密度でドット
分解し、各ドットの濃淡に対応した原文字信号S1を生
成する。
(15)はイメージデータ入出力ボード、(16)はホ
ストコンピュータ、(21)はプリンターを示し、イメ
ージデータ入出力ボート責15)は原文字信号S1の所
定部分をホストコンピュータ(16)に供給すると共に
、ホストコンピュータ(16)から出力される印字用の
信号をプリンター(16)に供給する。(17)はホス
トコンピュータ(16)を操作するためのキーボード、
(18)はホストコンピュータ(l6)に各種座標を入
力するための座標人力ユニット、(19)はキャラクタ
識別ボードを示し、ホストコンピュータ(16)が原文
字信号S1から1個の文字の外接枠の内部でハイレベル
“1″となる切出し信号を用いて切出した基本矩形切出
し文字信号S7を順次そのキャラクタ識別ボート責19
)に供給すると、キャラクタ識別ボード(19)はその
切出し文字信号S7に対応する文字の文字コードC(そ
の文字の認識ができない場合にはりジエクトコード)を
ホストコンピュータ(16)に供給する。
(20)は陰極線管よりなる表示装置を示し、この表示
装置(20)の表示画面の所定領域には原稿(14)の
1ページ分の文字を認識した結果を原稿(14)に対応
した形式で表示する如くなす。また、この表示装置(2
0)の表示画面には必要に応じて原稿(14)の1ペー
ジ分又は所定部分のドットパターンそのものをも表示で
きる如くなす。
第2図は第1図例のプリンター(21)に関する処理部
分を除くより詳細な構成を示し、この第2図のイメージ
データ入出力ボード(15)において、(22)は原稿
(14)の1ページ分以上のドントパターンを記憶でき
るメモリを有するイメージデータ入力部、(23)は同
じく原稿(14>の1ページ分以上のドットパターンを
記憶できるバックアップメモリであり、スキャナー(1
3)より出力された原稿(14)の1ページ分の原文字
信号S1をイメージデータ入力部(22)に記憶する。
また、このイメージデータ入力部(22)に記憶されて
いる原文字信号S1の所望の部分を随時バックアップメ
モ!J (23)に移送すると共に、その所望の部分は
文字がない白紙状体に対応する(例えばゼロレベル“0
”の)原文字信号で置換する如くなし、この所望の部分
が置換えられた原文字信号S1を原文字信号S2と称し
、この原文字信号S2の所定部分を原文字信号S3と称
する。
ホストコンビュータ(16)において、(24)は中央
処理ユニット(以下r C. P U.と称す) 、(
25)はメインメモIJ、(26)は表示装置(20)
用のビデオ信号用RAM(以下rVRAMjと称す) 
、(27)は文字,コードを人力してこの文字コードに
対応する所定の字体のドノトパターン即ちフォントを出
力するキャラクタROMよりなるフォントテーブルを示
し、オペレータがキーボード(17)及び座標入カユニ
ッ} (18)を介してC P U(24)に各種コマ
ンド、データ及び座標データを供給すると、CPU(2
4)はこれに対応して本例の文字認識装置の全体の動作
を制御する。
また、原文字信号S2及びS3を夫々随時メインメモU
(25)及びV R A M(26)に供給する。この
場合、C P U(24)及びメインメモリ(25)が
第6図例の文字列切出し部(2)及び文字切出し部(6
):こ対応し、メインメモ!J (25)から読出され
た1文字の外接枠の内部に対応する基本矩形切出し文字
信号S7を順次キャラクタ識別ボード(19)に供給し
、キャラクタ識別ボード(19)より送信されて来る文
字コードCをメインメモリ(25)を介してフォントテ
ーブル(27)のアドレスバスに洪給し、このフォント
テーブル(27)のデータノ1スに現われるフォントデ
ータをV R A M (26)の所定領域に書込む如
くなす。また、本例のホストコンピュータ(16)、キ
ーボード(l7)、座標人カユ二ノ}(11)lび表示
装置(20)よりなるンステムはフードプロセソサとし
ての機能をも具えている。
キャラクタ識別ボード(19)において、(28)は文
字のS忍識部、(30)は各種字体のフォントデータを
文字コード(本例ではJISコード)に対応させて記憶
しているδ忍識辞書部を示し、認識部(28)及び認識
辞書部(30)が基本的に第6図の文字識別部(7)に
対応する。本例の認識辞書部(30)は大分類文字用の
大分順辞書部と細分類文字用の細分類辞書部とに分かれ
、大分頚辞書部には前述した如く位置によって分類され
た東1特徴文字並びに外接枠の相対的大きさ(縦嘆比h
/W)、縦相対比h/h,及び横相対比w / w ,
の値によって分類された第2特徴文字の例えば縦24ド
ン+−xi24ドノトに正規化されたフォントデータが
夫々格納されてし)る。尚、一般に文字の大まかな特徴
は文字の外接枠Q各辺の近傍のド7}パターンによって
も表わさ.れるため、各文字の外接枠の四辺の近傍のド
ットパターンを四辺データ(又は周辺データ)として数
1直1ヒして、この四辺データが所定の範囲に収まった
文字(大分類文字)のフォントデータを大分類辞書部に
格納する如くなしてもよい。
一方、細分類辞書部には大分類辞書部に含まれない他の
全ての文字(細分類文字)の正規化されたフォントデー
タが文字コードに対応して格納されている。
(29)は辞書作成部を示し、この辞書作成部(29)
はオペレータによって辞書作成モードが設定された場合
には、供給されて来る1文字分の基本矩形切出し文字信
号によって表わされるフォントデータが大分類文字に対
応するか細分類文字に対応するかを判別し、大分類文字
に対応するときはそのフォントデータを正規化して認識
辞書部(30)の大分類辞書部の所定の文字コードの領
域に書込み、細分類文字に対応するときにはそのフォン
トデータを正規化して認識辞書部(30)の細分類辞書
部の所定の文字コードの領域に書込む如くなす。これに
よって、ユーザ側で簡便に種々の字体に対応できるAE
m辞書部(30)を作成することができる。
キマラクタ識別ボード(19)の認識部(28)はオペ
レータによって文字ll&モードが設定された場合、供
給されて来る基本矩形切出し文字信号S7が大分頚文字
に対応するときには認識辞書部(30)の大分類文字部
のフォントデータを順次第1の先入れ先出し(FIF○
)レジスタに書込み、細分類文字に対応するときには細
分類文字部のフォントデータを順次第2のFIF○レジ
スタに書込む。また、この動作と平行して認識部(28
)はその基本矩形切出し文字信号S7に対応するドット
パターンを正規化して順次第3のFIF○レジスタに書
込む。そして、認識部(28)は第3のFIF○レジス
タ中の認識対象となる文字のドットパターンと第1のF
IF○レジスタ中の一連のフォントデータ及び第2のF
IF○レジスタ中の一連のフォントデータとを順次比較
することにより、その認識対象となる文字のドントパタ
ーンに最も近いフォントデータに対応する文字コードを
優先順位の高い順に10個生成し、この文字コードをホ
ストコンピュータ(16)のメインメモリの所定領域に
書込む如くなす。
その(愛先順位を決定するには、例えば24 X24ド
ットの個々のドントについて認識対象となる文字のドッ
トパターンと認識辞書部(30)より読出したフォント
データとを比較して、両者の値が異なっているドットの
総和を評価値となし、この評価値が小さい順に優先順位
を高く設定する。またこの最も優先順位の高い文字コー
ドの評価値が所定値以下の場合には、文字認識が行なわ
れたものとみなしてその最も優先順位の高い文字コード
を認識対象となる文字の文字コードCとしてメインメモ
リ(25)の原稿(14)に対応して定められた領域に
書込む。同時に認識部(28)はその文字コードCと共
にその文字の大きさを示すデータ及びその文字の平均的
な外接枠の中での位置を示すデータをメインメモU(2
5)に書込む如くなす。一方、最も優先順位の高い文字
コードの評価埴が所定値を超える場合には、認識部(2
8) j;!文字g12識ができなかったものとみなし
ててリジエクトコードをそのメインメモU(25)の原
稿(14)に対応して定められた領域に書込む如くなす
。上述の文字認識の動作はパイプライン方式で高速に実
行される。
第3図は本例の表示装置(20)の表示画面(2OA)
を示し、この表示画面(2OA)  には、原稿(14
)の1ページ分の文字を参照した認識結果を表示する認
識結果表示領域(31)及び修正対象となる文字の文字
情報等を表示する文字情報表示領域(32)を設ける。
(33)は修正対象となる文字を指示するためのカーソ
ルを示し、このカーソル(33)はキーボード(17)
又は座標人力ユニ7}(18)によって認識結果の任意
の文字の上に移動することができる。
第3図例ではカーソル〈33)がリジエクトされた文字
を示すブランク(45C)  の上に在るので、表示画
面(2OA)  の文字情報表示領域(32)の領域(
35)及び(36)に夫々「対象文字fの語及びブラン
クが表示される。(37)はカーソル(33)を次の同
じ文字コードを有する部分に移すためのnent釦、(
38)は力−ソル(33)を前の同じ文字コードを有す
る部分に移すだめのprev釦、(39)は機能釦領域
を示し、二の領域(39)に:ま″埃浦(39A)  
一、一コードー・、「外字登録(39F)  J  及
び一学習削除(39G>  一等の文字が表示されてお
り、これろの機能釦は座標入力ユニット(18)によっ
て選択することができる。
例えば「候補(39A)  Jが選択されると、表示画
面(2OA)  の一部に修正対象となる文字に最も近
いと認識された10個の文字のパターン(候補文字群(
43))が優先7111位の高いj@に表示され、「コ
ード」が選択されるとその修正対象文字を文字コードで
直接指定できるようになり、口学習削除(39G)  
Jが選択されるとその修正対象文字のドットパターン等
のイメージを登録できるようになる。その候補文字群(
43)において、O〜9の数11NAは優先順位、0以
上の数値NBは修正対象文字のド.7 }パターンと候
補文字のドットパターンとのミスマッチ量を示す値(評
価値) 、(44)は候補文字である。
また、(41)は再認識釦を示し、この再認識釦(4l
)を座標入力ユニ7}(18)で選択することにより、
修正対象文字と同じ文字コードの文字だ)ナを選んで再
4i1kが行なわれるっ 本例ではその文字情報表示領域(32)の一邪に面積が
W x Wの周辺イメージ表示領域(34)を設け、こ
の周辺イメージ表示領域(34)には修正対象となる文
字に対応する原!(14)上の文字「子」を中心として
幅170ドントX高さ170  ドットの領域のドット
パターンをそのまま表示する。具体的には第2図におい
て、C P U(24)はイメージデータ入力部(22
)に記憶されている1ページ分の原文字信号52(本例
では原文字信号S1そのもの)の内で補正対象となる文
字を中心として170 X170ドットの領域の原文字
信号S3を読出して、この原文字信号S3を拡大(補間
)又は縮小(間引き)してV R A M(26)の所
定領域に書込む如くなす。従って、第3図の表示画面(
2OA)  中の周辺イメージ表示領域(34)には修
正対象となる文字に対応する原稿(14)上の文字7子
一及びこの文字の周辺の例えば8個の文字のイメージが
ドットパターンとしてそのまま表示される。また、この
周辺イメージ表示領域(34)の近くの切出し文字イメ
ージ表示領域(42)には、その怪正対象となる文字:
子,・だけを切出して正規化したドノトパターンが表示
される。また、この周辺イメージ表示領域(34)の近
くの切出し文字イメージ表示領域(42) !こは、そ
の修正対象となる文字「子」だけを切出して正規化した
ドットパターンが表示される。
このように修正対象の文字及びその周辺の文字のイメー
ジが表示されると、オペレータは原稿(14)を参照す
ることなく修正対象となる文字を前後の文字等に合わせ
て修正することができるので、修正の効率が改善される
利益がある。
本例の文字認識装置で認識結果を修正する場合の動作に
つき第4図のフローチアートを参照して説明するに、修
正対象とするのは評価値NBが所定値を超えて認識でき
ないと判定された文字(リジェクトコードを付された文
字)であるとする。
先ずオペレータは原稿(14)の認識結果を認識結果表
示領域(31)に表示させる(第4図のステップ(10
1))。第3図の場合、この表示領域(31)にはリジ
ェクトされた文字であることを示すブランク(45A)
. (45B),・・・・が5箇所に表示されているの
で、この内のブランク(45C)  の上:ご修正対象
を指示するカーソル(33)を移動して座標人カスイン
チを摸作することにより、そのブラ,ンク(45C) 
 に対応する原稿(14)上の文字を修正対象文字に指
定する。
これに応じて文字情報表示領域(32)にはそのブラン
ク(45C)  に対応する「子」の文字情報が表示さ
れる。次にオペレータは機能釦領域(39)の口学習削
除」の文字即ち学習削除釦(39G)  を選択するこ
とによりその文字のドットパターン等のイメージデータ
を第2図の認識辞書部(30)に追加登録する(ステッ
プ(102))。具体的には学習削除釦(39G)を選
択することにより、候補文字群(43)の代わりに登録
対象となる文字の文字コードを人力するのに使用する情
報が表示されるので、オペレータはJISコードによる
直接人力又はかな漢字変換による特定などの方法でその
文字″子,・の文字コードを入力する。続いて、第2図
の辞書作成部(29)にその文字の切出し文字信号S7
を供給することにより、認識辞書部(30)のJfSコ
ードのテーブル(30A)  の文字1子一・のフォン
ト領域jこは第5ズAに示す如く原稿(14)に使用さ
れて゛.)る文字J子Eの正規化されたフォントヂータ
F3 が記録される。
この外に、その登録対象となる文字の大分頚用のデータ
なども登録される。また、そのテーブル(30A)  
のフォント領域に記録したフォントデータが不必要にな
ったときには、随時そのフォントデータを削除すること
もできる如くなされている。
第5図A,Bを参照して本例の学習登録と従来から使用
されている外字登録との相違につき説明する。従来の外
字登録においては、第5図已に示す如く認識辞書部(3
0)内の本来のJISコードのテーブル(30A)  
とは別に外字登録用のテーブル(30B)  を設け、
このテーブル(30B)  に登録対象となる文字のコ
ード及び1種類のフォントデータを記録する。これに対
して本例の学習登録は、本来のJISコードのテーブル
(30^)のフォント領域に変則文字などのフォントデ
ータを新たに追加して登録していくものであり、本例に
よれば認識辞書部(30)の本来の内容を順次充実させ
ていくことができる利益がある。
上述の登録が疼了した後に、オペレータが再S忍識釦(
41)を選択することにより再認識動作が開始される。
即ち、第2図のC?.U(24>は認識結果表示領域(
31)の認識結果に対応するファイルの中からブランク
 (45A)〜(45E)  に対応するりジヱクトコ
ードを付された文字の内で再認識されていないものをサ
ーチして(ステップ(103), (104))、リジ
ェクトコードを付され且つ再Lllkされていないもの
が存在しないときはステップ(109)  に移行して
再認識結果を認識結果表示領域(31)に表示する。
また、リジエクトコードを付され且つ再認識されてし1
ない文字が存在するときには、C P U (24)は
その文字に対応する切出し文字信号S7を認識部(28
)に供給して、その前回リジエクトされた文字のドット
パターンの再認識を行なう(ステップ(105) )。
認識部(28) iはその認識辞書部(30)を用いて
その文字の再認識を行ない、第O位から第9位までの1
(Hlliiの候補文字の文字コードをメインメモリ(
25)に供給すると共に、対象となる文字に最も近′ハ
第O位の文字の評1[NBが所定宣を超えた場合にはり
ジエクトコード、評gfi渣NBが所定笈以内である場
合にはその第O位の文字の文字コードを最終的に得られ
た文字コードCとしてメインメモリ(25)に供給する
C P U(24)は認識結果がリジエクトコードでな
い場合であっても、最終的に得られた第0位の文字がス
テップ(102)  で登録した文字であるか否かを判
断しくステップ(106))、肯定結果が得られたとき
はその第O位の文字をそのまま再認識対象の文字である
として(ステップ(107))、否定結果が得られたと
きはその再認識結果をリジェクトコードであるとして処
理する(ステップ(108))。その後、C P U(
24)はステップ(103)  に戻り、リジェクトコ
ードを付され且つ再認識されていない文字のサーチを行
なう。
最終的にリジエクトコードを付され且つ再δ忍識されて
いない文字が尽きるとC P U(24)の動作はステ
ソプ(109)  に移り、第3図の認識結果表示領域
(31)に{ま再認識の結果が表示される。例えばブラ
ンク(45A), (45B), (45D), (4
5E)  に対応する文字の字体が全てブランク(45
C)  !こ対応する文字1一子」の字体と等しい場合
には、再認識結果はそれろブランク(45八)〜(45
E)  が全郎文字「子一j=よって置換えられた文面
となる。一方、ブランク(45A) .(45B), 
(45D), (45B)  に対応する文字の中に文
字「子」と異なる文字又はブランク(45C)  に対
応する文字「子」の字体とは異なる別の変則字体の文字
「子」がある場合には、その部分には依然としてブラン
クが表示される。従って、オペレータはリジエクトして
残されている文字の1つを辞書登録することによって、
再度第4図に示した再認識移動を繰返す如くなす。
上述のように本例によれば、認識結果の内でリジエクト
コードを付された文字を全て修正するには、それらリジ
エクトコードを付された文字の1つのイメージデータを
認識辞書部(30)に登録した後に、それらリジェクト
コードを付された文字だけをサーチして再認識を行なえ
ばよいだけであるため、リジリエクトコードを付された
文字が多数存在する場合であっても修正作業を極めて迅
速に実行できる利益がある。更に、再認識の作業を繰返
すに従って認識辞書部(30)の本来の内容を徐々に充
実させていくことができる利益がある。
尚、上述実施例では修正対象をリジエクトコードを付さ
れた文字となしていたが、修正対象として例えば文字認
識装置が誤って認識した文字を指定することもできる。
即ち、原稿(l4)に使用される文字によっては原稿(
l4)上の文字「羅」が常に文字「罹」であると認識さ
れるような場合が生じ得る。このような場合、認識結果
の内の文字「罹」は大部分が修正対象となるが、その文
字「罹」だけを再認識対象とすることによって修正作業
を迅速に実行することができる。
尚、本発明は上述実施例に限定されず、本発明の要旨を
逸脱しない範囲で種々の構成を採り得ることは勿論であ
る。
〔発明の効果〕
本発明によれば、或る特定の文字だけが全て正確に認識
されていなし)ような場合に、それら特定の文字だけを
再認識の対象とすることjこより修正作業を迅速に実行
できる利益がある。また、再認識の際にそれら特定の文
字の内の1つの文字のイメージデータが認識辞書部に追
加登録されるので、認識辞書部の内容を次第に充実させ
ることができる利益がある。
【図面の簡単な説明】
第1図は本発明の一実施例の文字認識装置のシステム構
成を示す一部斜視図を含む正面図、第2図は第1図例の
要部のより詳細な構成を示す一部斜視図を含む構成図、
第3図は一実施例の表示画面(2OA)  の構成例を
示す正面図、第4図は一実施例の再認識動作を示すフロ
ーチャート図、第5図は一実施例の認識辞書部のデータ
構造を示す線図、第6面は従来の文字認識装置の全体構
成を示すブロック図、第7図及び第8図は夫々従来の文
字列及び原矩形の切出し動作の説明に供する線図である
。 (13)はスキ〒ナー、ク14)は原稿、(15)はイ
メージデータ入出力ボート、(16) jまホストコン
ピュータ、(19) iまキアラクタ識別ボート、(2
0)は表示装置、(24)は中央処理ユニソト、(25
)はメインメモリ、(28)は認識部、(29)は認識
辞書部、(41)は再認識釦である。 代 理 人 松 隈 秀 盛 −突汗例のA誌1銭動作 萬4図 菖1色言族舌牟害音Pのテ゜′−夕4i4L第5図

Claims (1)

  1. 【特許請求の範囲】 原文書のイメージに対応する原文字信号から1文字分の
    切出し文字信号を順次切出す文字切出し部と、文字コー
    ドに対応したイメージデータを記憶した認識辞書部と、
    上記切出し文字信号に対応する文字コードを上記認識辞
    書部を用いて認識する認識部と、上記切出し文字信号の
    イメージデータを上記認識辞書部に随時登録する辞書作
    成部と、上記認識結果を表示する表示部とを有し、 上記認識結果の内で正確に認識できなかった文字の内の
    1つの文字のイメージデータを上記認識辞書部に登録し
    、上記正確に認識できなかった文字だけを再び認識する
    ようにしたことを特徴とする文字認識装置。
JP2009989A 1990-01-19 1990-01-19 文字認識装置 Pending JPH03214377A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009989A JPH03214377A (ja) 1990-01-19 1990-01-19 文字認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009989A JPH03214377A (ja) 1990-01-19 1990-01-19 文字認識装置

Publications (1)

Publication Number Publication Date
JPH03214377A true JPH03214377A (ja) 1991-09-19

Family

ID=11735283

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009989A Pending JPH03214377A (ja) 1990-01-19 1990-01-19 文字認識装置

Country Status (1)

Country Link
JP (1) JPH03214377A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014125658A1 (ja) * 2013-02-13 2014-08-21 株式会社ピーエスシー 文字認識システム、文字認識プログラム及び文字認識方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014125658A1 (ja) * 2013-02-13 2014-08-21 株式会社ピーエスシー 文字認識システム、文字認識プログラム及び文字認識方法
JP2014154066A (ja) * 2013-02-13 2014-08-25 Psc:Kk 文字認識システム、文字認識プログラム及び文字認識方法
US9639970B2 (en) 2013-02-13 2017-05-02 Findex Inc. Character recognition system, character recognition program and character recognition method

Similar Documents

Publication Publication Date Title
EP1052593B1 (en) Form search apparatus and method
JP3294995B2 (ja) 帳票読取装置
US6937762B2 (en) Image processing device and program product
JPS63155386A (ja) 帳票デ−タ読取装置
US20090324080A1 (en) Image processing device, image processing method and storage medium
WO1990001198A1 (en) Character recognition apparatus
JPH03214378A (ja) 文字認識装置
JP2002015280A (ja) 画像認識装置、画像認識方法および画像認識プログラムを記録したコンピュータ読取可能な記録媒体
JP4181328B2 (ja) 数式認識装置および数式認識方法
JPH03214377A (ja) 文字認識装置
JP2893781B2 (ja) 文字認識装置
JPH11219409A (ja) 文書読取装置
JPH11259597A (ja) フォーマット認識装置及び文字読み取り装置
JPH03214281A (ja) 文字認識装置
JPH03214379A (ja) 文字認識装置
JP2918666B2 (ja) 文字画像切出し方法
JP3345246B2 (ja) 文字認識装置及び文字認識方法
JP2995818B2 (ja) 文字切り出し方法
JP2755299B2 (ja) 画像処理方法
JP2887823B2 (ja) 文書認識装置
JPH03214350A (ja) 部首検索方法
JP2972443B2 (ja) 文字認識装置
JP2687902B2 (ja) 文書画像認識装置
JPH01292586A (ja) 文字認識支援装置
JPH0296887A (ja) 文字認識装置