JPH03214287A

JPH03214287A - 文字認識装置

Info

Publication number: JPH03214287A
Application number: JP2009625A
Authority: JP
Inventors: Keiko Abe; 阿部　惠子; Takayuki Fujikawa; 藤川　孝之
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1990-01-19
Filing date: 1990-01-19
Publication date: 1991-09-19

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔産業上の利用分野〕本発明は、例えば印刷文書の文字を認識して文字コード
に変換する場合に使用して好適な文字認識装置に関する
。

〔発明の概要〕

本発明は、例えば印刷文書の文字を１２　ｉ１ｆｋして
文字コードに変換する場合に使用して好適な文字認識装
置において、文字コードに対応させてイメージデータを
記憶する認識辞書部と、原文書のイメージに対応する原
文字信号より抽出したイメージデータをその認識辞書部
に登録する辞書作成部とを有し、その原文書として所定
の字体の文字が所定のフォーマットに従って配された辞
書作成シートを設定し、その辞書作成部を介してその辞
書作成シートに配された文字のイメージデータをその認
識辞書部へ登録することにより、原文書の字体が変則的
な場合であっても、ユーザ側でその字体と同じ字体の辞
書作成シートを用意するだけでその療文書の文字認識が
できるようにしたものである。

また、本発明は、例えば印刷文書の文字を認識して文字
コードに変換する場合に使用して好適な文字認識装置に
おいて、文字コードに対応させてイメージデータを記憶
する認識辞書部と、文字コードに対応させて夫々所定の
字体のイメージデータを記憶した複数の専用辞書部とを
有し、原文書の字体に応じてそれら複数の内の所定の専
用辞書部のイメージデータをその認識辞書部へ統合する
ことにより、その原文書の字体に応じて効率的に文字言
忍識ができる様にしたものである。

〔従来の技術〕

例えば活゛版印刷において作業者が活字を拾う工程を自
動化するためには、タイプ印刷等で作成された原稿の各
文字を認識して文字コードに変換する文字認識装置が必
要である。

第６図は特開昭６２−７４１８１号公報で開示されてい
る従来の文字認識装置を示し、この第６図において、（
１）は原稿読取部であり、この原稿読取部（１）から原
稿の１ページ分の濃淡に対応する原文字信号５ｌが文字
列切出し部（２）に供給される。この原文字信号Ｓ１は
原稿を所定の密度でド７｝分解し、黒いドットをハイレ
ベル“１′、白いドットをローレベル“０”で表わした
ものであるが、各ドットの濃度を複数ビットの２進数で
表わす場合もある。

文字列切出し部（２）は第１段前処理部（３）、第２段
前処理部（４）及び第３段前処理部（５）より構成され
、原文字信号Ｓ１には第１段前処理部（３）において雑
音の除去及び原稿の回転補正がなされ、第２段前処理部
（４）において文字領域ＡＲ（第７図参照）がその他の
領域（写真、図面等の領域）から区分されてその文字領
域ＡＲに含まれるイメージデータだけが抽出され、第３
段前処理部（５）においてその抽出された文字領域ＡＲ
に含まれる文字列ＡＰＩ，ＡＲ２，・・・・に対応する
文字列信号Ｓ４が抽出される。

この文字列信号Ｓ４の抽出を行なうには、第７図で示す
如く、文字領域４へＲの各ドットの位置を水平方向にと
ったＸ軸と垂直方向にとったＹ軸とよりなる（Ｘ，Ｙ）
座標で表わし、各ドットの“１″又は“Ｏ”の値をＹ軸
上に投影して和をとることによりＹ投影信号ｓｙを生成
する。そして、このＹ投影信号Ｓｙ　を所定の閾値レベ
ルで２値化すると、この２値化した信号の内のハイレベ
ル“１“の区間が夫々文字列、へＲｌ，ＡＲ２，・・・
・に対応する如くなり、文字列信号Ｓ４は後続の文字切
出し部（６）に供給される。

文字切出し部（６）におり）では、例えば第８図Ａに示
す１番目の文字列ＡＲｉ　の文字列信号Ｓ４をＸ軸上に
投影してＸ投影信号Ｓ×を生成し、このＸ投影信号Ｓｘ
を最小レベル（値が１）の閾値ＴＨＩで２値化すること
により粗切出し信号ＤＴＩ（第８図Ｃ）を得て、このＸ
投影信号ＳＸを中程度のレベルの閾値ＴＨ２（第８図Ｄ
）で２値化することにより細切出し信号ＤＴ２（第８図
Ｅ）を得る。同様に粗切出し信号ＤＴＩ　がハイレベル
”１”の区間だけで個々にＹ投影信号Ｓｙを生成するこ
とにより、Ｙ方向の切出し信号を生成することができる
。

そして、最終的に第８１ｍＡに示す如く、例えば文字「
て」についてはこの文字に外接する外接枠（９）の内部
でハイレベル“１″となると共に、分離文字である「い
」については分離されている各部に外接する外接枠（１
１），　（１２＞　　の内部でハイレベル“１″となる
切出し信号が得ちれ、入力される文字列信号Ｓ４からそ
の切出し信号がハイレベル“１”となる部分だけを順次
切出した信号が基本矩形切出し文字信号Ｓ７となる。

尚、第８図Ｅの細切出し信号ＤＴ２　は各文字のより微
細な構造を調べる場合に使用される。また、第８図Ａの
分離文字である「い」については外接枠（１１）．　（
１２）　　が２個あるため、後に文字識別の段階で統合
を行なう必要がある。

（７）は文字識別部を示し、この文字識別部（７）は基
本矩形切出し文字信号Ｓ７を各外接枠毎に取込んで文字
認識を行なう。具体的には、先ず位置による分類を行な
い、第８図Ａの文字例ＡＲｉ　　に対して上半分の範囲
に存在する文字（ｒ’　Ｊ，　ｒ”」「゜゜」など）及
び下半分に存在する文字（「。」，ｊ　　Ｊ，　ｒ，　
　Ｊなど）を第１特徴文字としてパターンマノチングを
行って、対応する文字コード（ＪＩＳコードなど）を付
与する。これで識別ができない場合には、外接粋の幅を
Ｗ、高さをｈとして、縦横比ｈ／ｗ及び相対的大きさに
よる分類を行なう。即ち、縦横比ｈ　／　ｗがＱ＜ｈ／
ｗ＜０．５の範囲に入るか、ｌ，５＜ｈ／ｗの範囲に入
るかによって分類を行なう。更に、平均的な大きさの外
接枠の幅をＷＲ、高さをｈＲ　として、縦相対比ｈ／ｈ
ａ及び横相対比ｗ　／　ｗ　，の値が夫々０くｈ／ｈａ
＜０．５及びＱ　＜　ｗ　／　ＷＲ　＜Ｑ，　５　の範
囲に入るか否かによって分類を行ない。上述の範囲に入
る文字を第２特徴文字としてパターンマッチングを行な
う。

また、第１及び第２特徴文字に分類されない文字に対し
ては個別に記憶されているドットパターンとのパターン
マッチングを行ない、所定の合致度が得られた場合には
その文字コードを付与する。

それでも認識できない文字が残った場合には、その外接
枠を更に複数の微少外接枠に分離する再切出し及び後に
続く外接枠と合体させる統合の動作が実効される。尚、
最終的に認識できない文字が残った場合には、その文字
には認識できない文字であることを示すリジエクトコー
ドが付与される。

その文字識別部（７）で生成された原稿の１ページ分の
文字コードｊま文字の位置や大きさを示す情報と共に所
定の記憶装置に記憶される。更に、認識結果が正しし１
かどうかをオペレータが判定できる様に、その文字コー
ドに対応する文字のビデオ信号が陰極線管等の表示部（
８）に供給され、この表示部（８）の表示画面には原稿
に対応した形式で認識結果としての一群の文字が表示さ
れる。この場合、認識できなかった文字の部分には高輝
度の矩形のブランクが表示される。従って、修正対象文
字や認識できない文字が存在する場合には、オペレータ
はワードプロセッサと同じ要領でその部分に所望の文字
を打込むことができる。

上述のように、原稿の濃淡に対応する原文字信号Ｓ１を
生成し、この信号Ｓ１を１個の文字に外接する外接枠で
切出して切出し文字信号ｓ７を生成し、この切出し文字
信号Ｓ７に対応する文字を特定するという文字認識のア
ルゴリズム自体は基本的には確立しているということが
できる。

口発明が解決しようとする課題〕しかしながら、その文字認識のアルゴリズムを用いた文
字認識装置を実際にオフィスに設定してオペレータが使
用した結果、摸作性において種々の不都合があることが
判明した。

その不都合の１つは、原稿に使用されている文字の字体
が変則的な場合に、ユーザ側でその原稿の文字認識がで
きるように対処することが困難であることである。即ち
、第６図例においては文字識別部（７）が識別できない
ような字体の文字に対しては、その文字識別部（７）を
そのような字体のイメージデータが予めメーカ側で書込
まれている文字識別部と交換する外に識別する方法がな
く、対処するのに長い時間と多大の費用を要していた。

これに関して、その原稿に使用されている文字の中で或
る数種類の特定の文字だけが変則字体である場合には、
学習機能によって対処することも考えられる。しかしな
がら、学習対象となる文字が多くなると学習のための時
間が長くなり過ぎると共に複雑な作業を繰返すことにな
り実用的ではない。特に、個別に学習対象となる文字と
文字コードとを対応付けて行く作業が煩雑である。

従来の文字認識装置における他の不都合は、第６図例の
文字識別部（７）の中のイメージデータを記憶した部分
を認識辞書部と称した場合、この認識辞書部をユーザ側
で作成する環境がなし１ために、例えば識別対象となる
原稿が２種類の字体の文字だけを使用しているような場
合にも汎用性を考慮して多種類の字体のイメージデータ
が記録された認識辞書部を使用せざるを得す、識別効率
が悪かったことである。即ち、一般に使用される文字の
字体には明朝体く更に細明朝体、中明朝体、新聞明朝体
に分かれる）、ゴシック体（更に大ゴンック体、中ゴン
ンク体、細ゴシック体に分かれる）、教科書体等の１０
種類程度があるが、例えば２種類の字体だけを使用する
原稿に対してｌＯ種類の字体のイメージデータが記録さ
れた認識辞書部を使用すると、２種類の字体のイメージ
データが記録された認識辞書部を使用する場合に比べて
サーチに要する時間が５倍になるため、識別に要する時
間も５倍になり識別効率が極めて悪い。

本発明は斯かる点に鑑み、原稿の字体が変則的な場合で
あってもユーザ側でその原稿の文字認識ができるように
容易に対処できるようにすることを目的とする。

また、本発明は、原稿の字体に応じて効率的に文字認識
ができるようにすることを目的とする。

〔課題を解決するための手段〕

本発明による文字認識装置は、原文書（１４）のイメー
ジに対応する原文字信号Ｓ１を生成する原稿読取部（１
３）と、文字コードに対応させてイメージデータを記憶
する認識辞書部（３０〉と、その原文字信号Ｓｌよりそ
の認識辞書部（３０）を用いて一連の文字を識別する文
字識別部（２Ｂ）とその原文字信号Ｓ１より抽出したイ
メージデータを文字コードに対応させてその認識辞書部
に登録する辞書作成部（２９）とを有し、その原文書（
１４）として所定の字体の文字が所定のフォーマット（
例えばＪＩＳコード順の配列）に従って配された辞書作
成シート（第３図）を設定し、その辞書作成部（２９）
を介してその辞書作成シートに配された文字のイメージ
データをその認識辞書部（３０）へ登録するようにした
ものである。

また、本発明による文字認識装置は、原文書（１４）の
イメージに対応する原文字信号Ｓ１から１個の文字分の
切出し文字信号Ｓ７を順次生成する文字切出し部（２４
．　２５）と、文字コードに対応させてイメージデータ
を記憶する認識辞書部（３０）と、その切出し文字信号
Ｓ７よりその認識辞書部（３０）を用いて文字を識別す
る文字識別部（２８）と、文字コードに対応させて夫々
所定の字体のイメージデータを記憶した複数の専用辞書
Ｂ　（３４Ａ，３４Ｂ．３４Ｃ，・・・・）とを有し、
その原文書（１４）の字体に応じてそれろ複数の内の所
定の専用辞書部（例えば（３Ａ）及び（３Ｂ））　　の
イメージをその認識辞書部（３０）へ統合するようにし
たものである。

二作用：斯かる第１の発明によれば、識別対象とする原文書の字
体が変則的なものである場合には、この変則的な字体の
文字が所定のフォーマ−／　トに従って配された辞書作
ｆｉ’ｉ　’ｙ　−　トを用意する。そして、この辞書
作成ノートを原稿読取Ｂ（１３）に設定してこ・．７）
辞．１乍成ンートの文字のイメージデータをその辞邊作
成部（２９）を介してその認識辞書部（３０）へ登録し
た後に、その変則的な字体の原文書を識別することがで
きる。

また、斯かる第２の発明によれば、識別対象とする原文
書に例えば２種類の字体が使用されている場合には、そ
れら複数の専用辞書部（３４Ａ，　３４８，３４０，・
・・・）の中でその２種類の字体に対応する専用辞書部
のイメージデータをその認識辞書部（３０）へ統合する
ことにより、その原文書の文字認識を効率的に実行する
ことができる。

〔実施例〕

以下、本発明による文字認識装置の一実施例につき第１
図〜第５図を参照して説明しよう。

第１図は本例の文字認識装置のシステム構成を示し、こ
の第１図において、（１３）はドキュメントフィダーと
イメージリーグとよりなるスキャナー（１４）はこのス
キャナーにセットされた原稿であり、スキ，ナー（ｌ３
）は原稿（１４）の１ページ全体を例えば４００　Ｘ４
００（ｌｐｉ　（ドノト／インチ）の読取り密度でド７
｝分解し、各ドットの濃淡に対応した原文字信号Ｓ１を
生成する。

（１５）はイメージデータ入出力ボード、（１６）はホ
ストコンビュータ、（２１）はプリンターを示し、イメ
ージデータ入出力ボード（１５）は原文字信号Ｓ１の所
定部分をホストコンビュータク１６）に供給すると共に
、ホストコンピュータ（１６）から出力される印字用の
信号をプリンター（１６）に供給する。（１７）はホス
トコンビュータ（１６）をＩｆ乍するためのキーボード
、（１８）はホストコンビ二−タ（１６〉に各種座標を
゛入力するための座標人カユニ７｝、（１９）はキャラ
クタ識別ボードを示し、ホストコンピュータ（１６）が
原文字信号Ｓ１から１個の文字の外接枠の内部でハイレ
ベル“１”となる切出し信号を用いて切出した基本矩形
切出し文字信号Ｓ７を順次そのキャラクタ識別ボート責
１９）に供給すると、キャラクタ識別ボード（１９）は
その切出し文字信号Ｓ７に対応する文字の文字コードＣ
（その文字の認識ができない場合にはりジエクトコード
）をホストコンビュータ（１６）に供給する。また、そ
のキャラクタ識別ボード（１９）に入出力部（３１）を
介して後述の専用辞書群（３２）を接続する。

（２０）は陰極線管よりなる表示装置を示し、この表示
装置（２０）の表示画面の所定領域には原稿（１４）の
１ページ分の文字をＳ忍識した結果を原稿（１４）に対
応した形式で表示する如くなす。また、この表示装置（
２０）の表示画面には必要に応じて原稿（１４）の１ペ
ージ分又は所定部分のドットパターンそのものをも表示
できる如くなす。

第２図は第１図例のプリンターク２１）に関する処理部
分を除くより詳細な構成を示し、この第２図のイメージ
データ入出力ボード（１５）において、（２２）は原稿
（１４）の１ページ分以上のドットパターンを記憶でき
るメモリを有するイメージデータ入力部、（２３）は同
じく原稿（１４）の１ページ分以上のドットパターンを
記憶できるバックアンプメモリであり、スキャナー（１
３）より出力された原稿（１４）の１ページ分の原文字
信号Ｓ１をイメージデータ人力部（２２）に記憶する。

また、このイメージデータ人力部（２２）に記憶されて
いる原文字信号Ｓ１の所望の部分を随時ハンクアップメ
モＩＪ（２３）に移送すると共に、その所望の部分は文
字がない白紙状体に対応する（例えばゼロレベル“０″
の）原文字信号で置換する如くなし、この所望の部分が
置換えられた原文字信号Ｓ１を原文字信号Ｓ２と称し、
この原文字信号Ｓ２の所定部分を原文字信号Ｓ３と称す
る。

ホストコンピュータ（１６）において、（２４）は中央
処理ユニット（以下ｒＣＰＵＪと称す）　、（２５）は
メインメモ’Ｊ　、（２６）は表示装置（２０）用のビ
デオ信号用ＲＡＭ（以下「ＶＲＡＭＪと称す）　、（２
７）は文字コードを入力してこの文字コードに対応する
所定の字体のドットパターン即ちフォントを出力するキ
ャラクタＲＯＭよりなるフォントテーブルを示し、オペ
レータがキーボート責１７）及び座標人カユニソ｝（１
８）を介してＣ　Ｐ　Ｕ（２４）に各種コマンド、デー
タ及び座標データを供給すると、ＣＰＵ（２４）はこれ
に対応して本例の文字認識装置の全体の動作を制御する
。

また、原文字信号Ｓ２及びＳ３を夫々随時メインメモ’
Ｊ　（２５）及びＶ　Ｒ　Ａ　Ｍ（２６）に供給する。

二の場合、Ｃ　Ｐ　Ｕ（２４）及びメインメモリ（２５
）が第６図例の文字列切出し部（２）及び文字切出し部
（６）に対応し、メインメモＩＪ（２５）から読出され
た１文字の外接枠の内部に対応する基本矩形切出し文字
信号Ｓ７を順次キャラクタ識別ボード（１９）に供給し
、キャラクタ識別ボード（１９）より送信されて来る文
字コードＣをメインメモリ（２５）を介してフォントテ
ーブル（２７）のアドレスバスに供給し、このフォント
テーブル（２７）のデータパスに現われるフォントデー
タをＶ　Ｒ　Ａ　Ｍ（２６＞の所定領域に書込む如くな
す。また、本例のホストコンピュータ（１６）、キーボ
ード（１７）、座標入カユニッ｝　（１８）及び表示装
置（２０）よりなるシステムはワードプロセッサとして
の機能をも具えている。

キャラクタ識別ボード（１９）において、（２８）は文
字の認識部、（３０）は各種字体のフォントデータ等を
文字コード（本例ではＪＩＳコード）に対応させて記憶
してし）るＲ．八Ｍ又は磁気ディスク装置等よりなる認
識辞書部を示し、認識部（２８）及び認識辞書部（３０
）が基本的に第６図の文字識別部（７）に対応する。本
例の認識辞書部（３０）は大分類文字用の大分類辞書部
と細分類文字用の細分類辞書部とに分かれ、大分類辞書
部には前述した如く位置によって分類された第１特徴文
字並びに外接枠の相対的大きさ（縦横比ｈ／ｗ）、縦相
対比ｈ／ｈ．及び横相対比ｗ　／　ｗ　，の値によって
分類された第２特徴文字の例えば縦２４ドット×横２４
ドットに正規化されたフォントデータが夫々格納されて
いる。

尚、一般に文字の大まかな特徴は文字の外接枠の各辺の
近傍のドントパターンによっても表わされるため、各文
字の外接枠の四辺の近傍のドットパターンを四辺データ
（又は周辺データ）として数値化して、この四辺データ
が所定の範囲に収まった文字（大分類文字）のフォント
データを大分類辞書部に格納する如くなしてもよい。

一方、細分類辞書部に：′ｉ大分類辞書部に含まれない
他の全ての文字（細分類文字）の正規化されたフォント
データが文字コードに対応して格納されてし）る。

（２９）は辞書作成部を示し、この辞書作成部（２９）
はオペレータによって辞書作成モードが設定された場合
には、供給されて来る１文字分の基本矩形切出し文字信
号によって表わされるフォントデータが大分類文字に対
応するか細分類文字に対応するかを判別し、大分類文字
に対応するときはそのフォントデータを正規化して認識
辞書部（３０）の大分類辞書部の所定の文字コードの領
域に書込み、細分類文字に対応するときにはそのフォン
トデータを正規化して認識辞書部（３０）の細分類辞書
部の所定の文字コードの領域に書込む如くなす。これに
よって、ユーザ側で簡便に種々の字体に対応できる認識
辞書部（３０）を作成することができる。

キャラクタ識別ボード（１９）の認識部（２８）はオペ
レータによって文字認識モードが設定された場合、供給
されて来る基本矩形切出し文字信号Ｓ７が大分類文字に
対応するときには認識辞書部（３０）の大分順文字部の
フォントデータを順次第１の先入れ先出し（ＦＩＦ○）
レジスタに書込み、細分類文字に対応するときには細分
類文字部のフォントデータを順次第２のＦＩＦＯレジス
タに書込む。また、この動作と平行してＤ［Ｂ（２ｇ＞
はその基本矩形切出し文字信号Ｓ７に対応するドットパ
ターンを正規化して順次第３のＦＩＦＯレジスタに書込
む。そして、認識部（２８）は第３のＦＩＦＯレジスタ
中の認識対象となる文字のドットパターンと第１のＦＩ
ＦＯレジスタ中の一連のフォントデータ及び第２のＦＩ
Ｆ○レジスタ中の一連のフォントデータとを順次比較す
ることにより、その認識対象となる文字のドットパター
ンに最も近いフォントテ′一夕に対応する文字コードを
優先順位の高い順に１０個生成し、この文字コードをホ
ストコンビュータ（１６）のメインメモリの所定領域に
書込む如くなす。

その優先順位を決定するには、例えば２４　Ｘ２４ドノ
トＯ個々のドットについて認識対象となる文字のドット
パターンと認識辞書部（３０）より読出したフォントデ
ータとを比較して、両者の値が異なっているド７｝の総
和を評価値となし、この評価値が小さい順に優先順位を
高く設定する。また二の最も優先順位の高い文字コード
の評価値が所定値以下の場合には、文字認識が行なわれ
たものとみなしてその最も優先順位の高い文字コードを
認識対象となる文字の文字コードＣとしてメインメモリ
（２５）の原稿（１４）に対応して定められた領域に書
込む。同時に認識部（２８）はその文字コードＣと共に
その文字の大きさを示すデータ及びその文字の平均的な
外接粋の中での位置を示すデータをメインメモＩＪ（２
５）に書込む如くなす。一方、最も優先順位の高い文字
コードの評価値が所定値を超える場合には、認識ｌ　（
２８）は文字認識ができなかったものとみなしててリジ
エクトコードをそのメインメモ’Ｊ（２５）の原稿（１
４）に対応して定められた領域に書込む如くなす。上述
の文字認識の動作はバイブライン方式で高速に実行され
る。

専用辞書群（３２）において、（３４Ａ）．　（３４Ｂ
）．　（３４Ｃ）は夫々明朝体用、ゴシック体用及び教
科書体用の磁気ディスク装置等よりなる専用辞書部を示
し、これろの専用辞書部（３４Ａ）〜（３４Ｃ）　　に
は夫々対応する字体のイメージデータ（フォントデータ
等）を文字コードに対応して記憶させる。（３４Ｄ）　
　は変則字体用の専用辞書部を示し、この専用辞書部（
３４Ｄ）　　にはユーザ側で所望の字体のイメージデー
タを文字コードに対応させて記憶できる如くなす。

この専用辞書群（３２）にはこの外にも種々の（例えば
明朝体及びゴシノク体兼用のような）専用辞書部を設け
ることができる如くなす。

また、（３３Ａ），　（３３Ｂ）．・・・・は夫々スイ
ッチ回路を示し、専用辞書部（３４Ａ），　（３４Ｂ）
，・・・・を夫々スイッチ回路（３３＾）．　（３３Ｂ
），・・・・を介して人出力Ｂ（３１）の一方の入出力
ボートに接続し、この入出力部（３１）の他方の入出力
ポートを認識辞書部（３０）の入出力ボートに接続する
。

専用辞書群（３２）における明朝体〜教科書体の一般的
な字体の専用辞書部（３４＾）〜（３４Ｃ）　　は、メ
ーカ側で作成された磁気記録媒体等を装着するだけで容
易に実現することができるが、本例においては辞書作成
シートを用いることによってユーザ側でも容易に実現す
ることができる。

第３図はその辞書作成ソートを示し、この第３図におい
て、（３５Ａ），　（３５Ｂ）　及び（３５Ｃ）　　は
夫々明朝体用、ゴシック体用及び教科書体用の辞書作成
ソートである。この辞書作成シートの主な仕様を以下の
■〜■にまとめて示す。

■　文字並びは縦書き、横書きの何れかとする。

■　文字列はＪＩＳコード順に配列する。

■　文字行及び文字列は略定ピッチに配列し、文字同士
は互いに接触していないものとする。

■　例えばＪＩＳコード（区点コード）の４７５２番〜
４８００番の如く現時点で文字が定義されていなコード
については、空白にするか又は次のコード文字で詰めて
おく。

現在ＪＩＳの第一水準漢字については、代表的な音又は
訓の「あいうえお」順にＪＩＳコードの１６０１番〜４
７５１番に定義されており、ＪＩＳの第二水準漢字につ
いては、ほぼ部首の画数順に４８０１番〜９４０４番に
定義されている。従って、第３図の明朝体用の辞書作成
ンー｝　（３５Ａ）　がＪＩＳの第一水準漢字に対応す
るものであるとすれば、この辞書作成シー｝　（３５Ａ
）　　には始点（３６）の漢字が亜（ＪＩＳコードの１
６０１番）で終点（３７）の漢字が腕（ＪＩＳコードの
４７５１番）となるようにＪＩＳコード順に明朝体の漢
字を規則的に配列する。ゴシック体用及び教科書体用の
辞書作成シー｝　（３５１３）．　（３５Ｃ）も同様に
形成する。

そして、明朝体用の専用辞書部（３４Ａ）　　を作成す
るには、オペレータは第２図のスキャナー（１３）に原
稿（１４）の代わりにその明朝体用の辞書作成シー｝　
（３５Ａ）　　を設定した後に、キーボード（１７）又
は座標人カユニッ｝　（１８）を摸作してＣ　Ｐ　Ｕ（
２４＞に辞書作震用のコマンドを供給する。このコマン
ドと共に例えば文字列数、文字行列、先頭の文字のＪＩ
Ｓコード（本例では１６０１番）等の辞書作成用シー｝
　（３５Ａ）　　のデータをもＣＰＵ（２４）に供給す
る。

これに応じてＣ　Ｐ　Ｕ（２４）は、そのスキャナー（
１３）かみ出力されるその辞書作成シー｝　（３５Ａ）
　　の１ページ分の原文字信号Ｓ１をイメージデータ人
力部（２２）を介して原文字信号Ｓ２としてメインメモ
Ｊ　（２５）の所定領域に書込むと共に、辞書作成部（
２９）を起動してこの辞書作成部（２９）に辞書作成シ
ー　ト（３５Ａ）　の先頭の文字のＪＩＳコードを供給
する。その後Ｃ　Ｐ　Ｕ（２４）は、メインメモリ（２
５）中の原文字信号Ｓ２より１文字分づつの原矩形切出
し文字信号Ｓ７を切出して順次辞書作成部（２９）に供
給し、この辞書作成部（２９）はそれら個々の切出し文
字信号Ｓ７より２４　Ｘ２４ドットの正規化データ（フ
ォトデータ）等のイメージデータを抽出し、それら個々
のイメージデータを認識辞書部（３０）の対応するＪＩ
Ｓコードの欄に格納して行く如くなす。

この動作と並行してＣ　Ｐ　Ｕ　（’２４）は、それら
１文字分づつの原矩形切出し文字信号Ｓ７に対応するド
ットパターンを割当てられたＪＩＳコードに対応してメ
インメモＵ（２５＞の所定領域に書込み、第２図に示す
如くこの書込んだデータをＲＡＭ（２６）を介して表示
装置（２０）の表示画面（２ＯＡ）　　に表示させる。

これによってオペレータは、辞書作成シート（３５Ａ）
　　から読出された文字信号がＪＩＳコードに正確に対
応して辞書作成部（２９）へ供給されているか否かを確
認できる利益があるっそして、例えばＪＩＳコードに対
して誤った文字パターンが表示されて′．）る場合には
、そのＪＩＳコードに関する認識辞書部（３０）のイメ
ージヂータを削除できる如くなす。

上述の手順で認識辞書部（３０）に明朝体用の辞書作成
シー｝　（３５Ａ）　　のイメージデータを全部登録（
記録）シた後に、このイメージデータを人出力部（３１
）及びスイノチ回路（３３Ａ）　　を介して明朝体用の
専用辞書部（３４Ａ）　　の磁気記録媒体に転送するこ
とにより、専用辞書部（３４Ａ）　　が作成される。同
様にゴンソタ体用及び教科書体用の辞書作成シート（３
５Ｂ’）．　（３４Ｃ）　　を順次スキャナー（ｌ３）
に設定することにより、専用辞書部＜３４Ｃ）　　及び
（３４Ｄ）　　も作成される。

また、原稿（１４）で使用されている文字の字体が変則
的なものである場合には、ユーザ側でその変則的な字体
を用いてＪＩＳコード順に文字を上述のフォーマントに
従って配列することによりその変則字体の辞書作成ンー
トを作成する。そして、この辞書作成シートをスキャナ
ー（１３）に設定して変則字体用の専用辞書部（３４Ｄ
）　　を作成し、必要に応じてこの変則字体用の専用辞
書部（３４Ｄ）　　のフォントデータ等のイメージデー
タを第４図に示す如く認識辞書部（３０）に移すことに
より、その変則的な字体の文字を使用した原稿（１４）
の文字認識を容易に行なうことができる。

上述のように本例によれば、認識対象となる原稿（１４
）の字体がどのように変則的なものであっても、その変
則的な字体の文字がＪＩＳコード順に配列された辞書作
成用ノートをユーザ側で用意するだけで、その原稿（ｌ
４）の文字認識を容易に実行できる利益がある。

次に、原稿（１４）に例えばゴシック体及び教科書体の
２種類の字体の文字が使用されている場合の動作につき
説明するに、この場合オペレータはＣＰＵ（２４）を制
御することによって、専用辞書群（３２）中のゴンック
体用の専用辞書部（３４Ｂ）　　のイメージデータをス
イッチ回路（３３Ｂ）　　及び入出力部（３１）を介し
て認識辞書Ｐ（３０）に転送した後に、教科書体用の専
用辞書部（３４Ｃ）　　のイメージデータをスイッチ回
路（３３Ｄ）　　及び人出力部（３１）を介して認識辞
書部（３０）に転送する。これによって認識辞書部（３
０）には第５図Ａに示す如く各ＪＩＳコードに対して夫
々ゴシック体及び教科書体用の２種類のイメージデータ
が記憶されるため、その原稿（１４）にそれら２種類の
字体の文字が混在していてもその原稿（１４）の文字認
識を誤りなく実行することができる。

これに関して、専用辞書群（３２）中のゴシック体用及
び教科書体用を含む例えば４個の専用辞書部のイメージ
データを認識辞書部（３０）に転送することによって、
第５図已に示す如く、認識辞書部（３０）の各ＪＩＳコ
ードに対して夫々４種類のイメージデータを記憶させた
場合には、ゴシック体及び教科書体の２種類のみならず
計４種順の字体の識別ができるようになる。しかしなが
ら、第５図Ｂの認識辞書部（２０）を使用した場合には
第５図Ａの場合に比べてイメージデータが２倍になるた
め、個・セの文字を識別するのに要する時間（サーチ時
間）も２倍となり認識の効率（速度）が悪化する。

従って、認識の効率を重視した場合には、できるだけ原
１（１４）に使用されている文字の字体だけのイメージ
データを記憶した認識辞書部（３０）を用いる事が望ま
しい。

上述のように本例によれば、専用辞書部（３４＾），（
３４Ｂ＞，・・・・の中から原稿＜１４）に使用されて
いる字体用のものを統合することにより、その原稿（１
４）だけに対応できる無駄のない認識辞書部（３０）を
形成することができるので、文字認識の効率を最善にで
きる利益がある。

また、例えば２種類の字体のイメージデータを認識辞書
部（３０）で統合した後に、この認識辞書部（３０）の
イメージデータを専用辞書群（３２）中の別の専用辞書
部に転送することにより、２種類のイメージデータが統
合化されたいわば統合化辞書部と言ったものを作成する
ことができる。そして、次にその２種類の字体を使用し
た原稿が認識対象となった場合には、その統合化辞書部
のイメージデータを認識辞書部（３０）に転送するだけ
で直ぐにその原稿の文字ｌ１１ｋを行なうことができる
。

尚、本発明は上述実施例に限定されず本発明の要旨を逸
脱しない範囲で種々の構成を採り得ることは勿論である
。

〔発明の効果〕

第１の発明によれば、原文書の字体が変則的なものであ
ってもユーザ側で辞書作成シートを用意するだけで容易
にその原文書の文字認識ができる利益がある。

第２の発明によれば、原文書の字体に応じて効率的に文
字認識ができる利益がある。

【図面の簡単な説明】

第１図は本発明の一実施例の文字６Ｅ　ａ装置のンステ
ム構成を示す一部斜視図を含む正面図、第２図は第１図
例の要部のより詳細な構成を示す一部斜視図を含む構成
図、第３図は一実施例の辞書作成／一トを示す線図、第
４図は認識辞書部（３０）のデータ構造の一例を示す線
図、第５図は認識辞書部（３０）のデータ構造の他の例
を示す線図、第６図は従来の文字認識装置の全体構成を
示すブロノク図、第７図及び第８図は夫々従来の文字列
及び原矩形の切出し動作の説明に供する線図である。ク１３）はスキャナー、（１４）は原稿、（ｌ５）はイ
メージデータ入出力ボート、（１６）はホストコンピュ
ータ、（１９）はキャラクタ識別ボート、（２０）は表
示装置、（２４）は中央処理ユニソ｝、（２５＞はメイ
ンメモリ、（２Ｂ）は認識部、（２９）は認識辞書部、
（３４．Ａ）〜（３４Ｄ）　　は夫々専用辞書部、（３
５Ａ）〜（３５Ｃ）　　は夫々辞書作成シートである。代理人松隈秀盛

Claims

【特許請求の範囲】１、原文書のイメージに対応する原文字信号を生成する
原稿読取部と、文字コードに対応させてイメージデータ
を記憶する認識辞書部と、上記原文字信号より上記認識
辞書部を用いて一連の文字を識別する文字識別部と、上
記原文字信号より抽出したイメージデータを文字コード
に対応させて上記認識辞書部に登録する辞書作成部とを
有し、上記原文書として所定の字体の文字が所定のフォーマッ
トに従って配された辞書作成シートを設定し、上記辞書
作成部を介して上記辞書作成シートに配された文字のイ
メージデータを上記認識辞書部へ登録するようにしたこ
とを特徴とする文字認識装置。２、原文書のイメージに対応する原文字信号から１個の
文字分の切出し文字信号を順次生成する文字切出し部と
、文字コードに対応させてイメージデータを記憶する認
識辞書部と、上記切出し文字信号より上記認識辞書部を
用いて文字を識別する文字識別部と、文字コードに対応
させて夫々所定の字体のイメージデータを記憶した複数
の専用辞書部とを有し、上記原文書の字体に応じて上記複数の内の所定の専用辞
書部のイメージデータを上記認識辞書部へ統合するよう
にしたことを特徴とする文字認識装置。