JP2662404B2 - 光学文字読取装置における辞書作成方法 - Google Patents

光学文字読取装置における辞書作成方法

Info

Publication number
JP2662404B2
JP2662404B2 JP62318598A JP31859887A JP2662404B2 JP 2662404 B2 JP2662404 B2 JP 2662404B2 JP 62318598 A JP62318598 A JP 62318598A JP 31859887 A JP31859887 A JP 31859887A JP 2662404 B2 JP2662404 B2 JP 2662404B2
Authority
JP
Japan
Prior art keywords
character
dictionary
characters
line
image data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP62318598A
Other languages
English (en)
Other versions
JPS63265377A (ja
Inventor
顕司 安島
政雄 橋本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP62318598A priority Critical patent/JP2662404B2/ja
Publication of JPS63265377A publication Critical patent/JPS63265377A/ja
Application granted granted Critical
Publication of JP2662404B2 publication Critical patent/JP2662404B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Description

【発明の詳細な説明】 技術分野 この発明は、一般に「OCR」と略称される光学文字読
取装置における文字認識用の辞書作成方法に関する。 従来技術 紙に文字を含む画情報が印刷あるいは手書きされた原
稿をイメージスキヤナでスキヤンして、原稿の画情報を
イメージデータとして取り込み、そのイメージデータか
ら文字を認識して文字コードデータに変換する光学文字
読取装置が種々開発されている。 この光学文字読取装置をワードプロセツサや自動翻訳
装置、あるいは帳票集計装置や検索用データフアイル作
成装置などの文字を扱う処理システムや文字データを伝
送するデータ通信などの通信システムへの文字情報の入
力手段として使用すれば、キーボード入力に比べて入力
効率を大幅に向上させることが可能である。 この光学文字読取装置には、文字フオントのイメージ
データが基準画情報としてあらかじめ登録された文字認
識用辞書が設けられており、文字認識手段がその文字認
識用辞書を参照して、入力された文字のイメージデータ
を辞書のイメージデータと比較してパターンマツチング
をとることによつて、これを特定の文字として認識しそ
れに対応する文字コードデータを発生する。 一般に使用される活字等の文字種のデザイン、すなわ
ちフオントには様々な種類のものがある。そのため、通
常用いられる複数の文字種についてそのセツトごとに文
字認識用辞書を備える必要がある。 しかしながら、従来はこのような文字認識用の辞書を
作成したり、それを修正あるいは変更するなどの保守を
行なうには、別に辞書作成保守用のマシーンを使用しな
ければならなかつたので、誰でも容易に新たな辞書を作
成したり修正したりすることはできなかった。 また、手書き文字用の辞書を作成する場合には、制約
条件が多く、個人個人のくせ字をそのまま辞書に登録す
ることはできなかつた。 目 的 この発明は、このような従来の文字認識用辞書作成方
法における問題点を解消し、光学文字読取装置自体を使
用して、活字用の辞書のみならず手書きのくせ字用の辞
書でも容易に作成できるようにすることを目的とする。 構 成 この発明は上記の目的を達成するため、上述のような
光学文字読取装置において、第1図に示すように、1行
に同一文字を多数列記すると共にその行の文字の高さを
示すマークMを付した原稿(A)をスキヤナによつてス
キヤンさせてそのイメージデータを読み込み(B)、マ
ークMによつて規制された高さ内の各文字のドツトパタ
ーンを重ね合わせるか平均化する文字パターンデータ処
理(C)を行なつて1つの文字パターンを作成し、その
文字パターン又は読み込んだ1行の何れかの文字を表示
(D)して、上記文字パターンに対応する文字コードを
与えて(E)、文字認識用の辞書フアイルに登録(F)
する。 以下、この発明の一実施例に基づいて具体的に説明す
る。 第2図は、この発明を実施した光学文字読取装置の機
能を備えたワードプロセツサ,オフイスコンピュータ,
自動翻訳装置,帳票処理装置等に使用できる文書処理シ
ステムの一例を示す外観斜視図である。 この文書処理システムは、入力装置として、英数字キ
ー,カナキーなどの文字キー及びカーソル移動キーや各
種フアンクシヨンキー等を有し、操作者を入力するキー
ボード1と、原稿を光学的にスキヤンして文字を含む画
情報をイメージデータとして入力するイメージスキヤナ
2とを備えている。 また、出力装置として、操作者に対するガイダンスを
含む各種文字及び画情報を表示するための表示装置であ
るCRTデイスプレイ装置(以下単に「CRT」という)3
と、このシステムで処理した各種情報をプリントアウト
するためのレーザ等のプリンタ4とを備えている。 そして、本体5にはデータ記憶装置であるフロツピデ
イスク装置(FDD)6とハードデイスク装置(HDD)7と
を備えており、さらに第3図に示すように、このシステ
ム電対の動作を統括制御するマイクロコンピュータ等か
らなる制御部(CPU)10と、プログラムメモリであるROM
11,データメモリであるRAM(256Kbit以上)12,キーボー
ドインターフエース13,スキヤナインターフエース14,CR
Tコントローラ15,FDDコントローラ16,HDDコントローラ1
7,及びプリンタコントローラ18等が設けられている。 このシステムにより、イメージスキヤナ2が読み取つ
た原稿画像のイメージデータをスキヤナインターフエー
ス14を介して本体5に取り込み、それを直接あるいは一
旦FDD6又はHDD7のイメージデータフアイルに格納して、
CRT3に表示したり、そのデータを用いてこの発明による
書体判別及び文字コード判定等の処理を行なう。 各種書体ごとに各文字のイメージデータが基準画情報
として登録されている文字認識用の複数の辞書は、通常
HDD7に格納されている。 なお、手書きのくせ字(フオーマツト化されていない
書体)についても、後述するようにして辞書を作成する
ことができ、それを登録して活字用の辞書と同様に使用
することが可能である。 そこで、この発明による辞書作成方法の説明に先立つ
て、それによつて作成された辞書を使用するこの光学文
字読取装置の作用を第4図のフローチヤート及びその他
の図によつて説明する。 イメージスキヤナ2から原稿のイメージデータを直接
取り込んで文字を認識する場合には、まずステツプ1で
原稿に書かれている文字の濃度を判定し、ステツプ2で
その判定結果に応じてイメージスキヤナ2の原稿照明用
蛍光灯の明るさを設定する。 文字濃度反応は、オペレータによる濃度指定によつて
判定するか、あるいはイメージスキヤナにより原稿を部
分的にスキヤンしてその検出レベルから自動的に判定す
ることもできる。 蛍光灯の明るさの設定は、原稿の文字が濃く書かれて
いたら暗めに点灯するように設定し、薄く書かれていた
ら明るめに点灯するように設定する。それによつて、文
字の潰れや欠けを防ぐ。 そして、ステツプ3でイメージスキヤナ2により原稿
の全面を予め設定された読取密度でスキヤンして、その
イメージデータを本体5へ取り込んでメモリ(RAM12)
へ書き込む。 一方、HDD7等のイメージデータフアイルに格納してあ
るイメージデータから文字認識を行う場合には、そのイ
メージデータフアイルからのデータを読み込んでメモリ
(RAM12)へ書き込む。 この場合は、予めイメージスキヤナ2によつて読み取
つたイメージデータをイメージデータフアイルに格納し
ておく必要がある。 その時、イメージデータフアイルには、第5図に示す
ようにヘツダ部を設け、読取密度と、読み込んだ文書の
縦と横の長さの情報を入れておく。 文字認識するに当り、行切り出しと文字切り出しを行
なう時にこの縦と横の長さが必要になり、文字コード判
定時に読取密度の情報が必要になる。 次に、ステツプ3又はステツプ4からステツプ5へ進
んで自動行切り出しを行ない、続いてステツプ6で文字
切り出しを行なう。 ところで、イメージスキヤナ2は原稿を横方向に走査
してイメージデータを取つてくるので、イメージデータ
フアイルあるいはRAM12のイメージデータ格納領域に
は、第6図に示すようにイメージデータが順にバイト単
位で入つている。 そこで、行切り出しと文字切り出しを行なう場合に、
縦と横の長さの情報がないと、文字部分のイメージの切
り出しができない。 また、読取密度が高くなると、一文字分の高さと幅が
大きくなるので、当然マツチングのデータも変わる。 第6図(A)と(B)は、同じ文字を読取密度200dpi
と300dpiで読み込んだ時のイメージデータの状態を示
す。 また、行切り出しを行なう際には、水平射影をとつ
て、行間のスペースからスペースまでを行として切り出
すが、イメージスキヤナに原稿が若干斜めにセツトされ
たりすると、読み込んだイメージデータが第7図に示す
ようになり、全体で水平射影をとつても行と行の間のス
ペースがなくなつてしまう場合がある。 そこで、このような場合には第7図に細線で囲んで示
すように、数並射影により行と行の間にスペースができ
るようなブロツクに行を分割して、行切り出しを行な
う。 次に、この実施例では手書きの文字も読み取れるよう
にするため、第4図のステツプ7で文字タイプの判別を
行なつている。 この判定は、手書き文字の場合には認識率を高めるた
めに、例えば第8図に示すように文書を複数のフイール
ドに区切つて、その各フイールドの長さの情報とその各
フイールド内にある文字の種類(アルフアベツト,数
字,記号,ひらがな,漢字,など)の指定情報を与えて
おく。 したがつて、これらの情報が有るか否かによつて、手
書文字か活字文字かを判別することができる。 そして、活字文字の場合には、ステツプ8へ進んで文
字フオント判別(活字書体判別)を行なつて文字認識に
使用する文字フオント辞書を決定し、ステツプ12でその
辞書を用いて文字コード判定の処理を行なうが、その詳
細は後述する。 手書文字の場合には、ステツプ9へ進んでスムージン
グ処理を行なつて凹凸を修正し、ステツプ10で正規化に
より文字の大きさを修正する。 この場合、例えば大文字と小文字が同じ状態のアルフ
アベツトの識別ができなくならない範囲で、文字の拡大
あるいは縮小を行なつて大きさを揃える。 そして、ステツプ11で手書き書体の判別を行なつて、
文字認識に用いる手書き書体用の辞書を決定し、ステツ
プ12でその辞書を用いて文字コード判定の処理を行な
う。 次に、ステツプ13で文字認識終りか否かを判断して、
終りでなければステツプ5へ戻つて、次の行の切り出し
から文字コード判定までの処理を繰り返す。 そして、最終行までの文字認識を終了すればこの処理
を終る。 ここで、上述した文字フオント(活字書体)判別と文
字コード判定の処理について、第9図及び第10図によつ
て詳細に説明する。 文字フオント判別処理は、複数の文字フオント辞書を
用いて第9図のフローチヤートに示すようにして行なう
が、その際用意されている複数の文字フオント辞書に、
例えば次表に示すような可変の優先順位をつけておく。 そして、1行分の文字のイメージデータについて、一
番優先順位の高い辞書からマツチングを行ない、あるレ
ベル以上のマツチング結果が得られるまで、次々に優先
順位の低い辞書とマツチングを行なう。 その時、ある辞書とのマツチングの結果が不合格の場
合には、その辞書の優先順位を一番低くして、それ以外
の辞書の優先順位を1つずつ繰り上げる。 一通りの複数の辞書とのマツチングの結果、あるレベ
ル以上のマツチング結果が得られれば、その時の辞書を
選び、それが得られない場合には一番互いマツチングが
得られた辞書を選ぶことによつて文字フオントを判別す
る。 通常、一文書は同一文字フオントで印刷されているの
で、このように辞書に優先順位をつけることにより、次
の行からの文字認識(文字フオント判別及び文字コード
判定)の高速化を計るこができる。 この文字フオント判別処理を第9図によつて説明する
と、最初は第1優先順位の辞書(前記表ではA辞書)を
読み込み、まず1行の第1文字を読み込んでパターンマ
ツチング(あるいは特徴マツチング)を行ない、マツチ
ングがとれて認識可能(OK)であればレジスタの値X
(最初は「0」)からある一定値αを減じ、マツチング
がとれなければレジスタの値Xにある一定値β(α<
β)を加える。 そして、行末か否かを判断して、行末でなければ次の
文字を読み込んで同様の処理を行なう。 これを1行の最後の文字まで行なうと、その時のXの
値を記憶し、次にX<0か否かの判断を行なつて、YES
であればその時使用した辞書(A辞書)に決定する。 X<0でなければ、未使用の辞書が有るか否かを判断
して、有れば辞書の優先順位を例えば前記表の第2判定
時のように変更して、新らたな第1優先順位の辞書(B
辞書)を読み込んで、1行の第1文字から行末の文字ま
で順次マツチングをとつて前述と同様な処理を行なつた
後、X<0の判断を行ない、YESであればその時使用し
た辞書(B辞書)に決定する。 この時もX<0でなければ、また未使用の辞書が有る
か否かを判断して、有れば再び辞書の優先順位を例えば
前記表の第3判定時のように変更し、新らたな第1優先
順位の辞書(C辞書)を読み込んで同様な処理を行な
う。 そして、X<0になればその時使用した辞書(C辞
書)に決定するが、この時もX<0にならず、未使用の
辞書がなくなつた場合には、記憶している各辞書使用辞
書のXの値を比較して、それが最小の辞書に決定する。 次に、文字コード判定処理は、第10図のフローチヤー
トに従つてなされ、まず文字フオント判別によつて決定
した辞書を読み込むが、第9図の文字フオント判別処理
に続けてこの文字コード判定処理を行なう場合で、x<
0になつて辞書を決定した時にはその辞書が読み込まれ
ているので、このステツプは省略できる。 そして、1行の第1文字を読み込んで辞書とのパター
ンマツチング(例えば24次元マツチング)を行ない、マ
ツチングがとれて文字コードが判定が可能(OK)であれ
ば文字コードを出力し、コード判定が不能(NG)であれ
ば次に他の方法によるパターンマツチング(4×4×8
次元マツチング,3×3×8次元マツチング,多層方向ヒ
ストグラム法によるパターンマツチング等)を行なつ
て、文字コードの判定が可能になれば文字コードを出力
し、それでも文字コードの判定が不能であれば、読み取
り不能のコードを出力する。 このような処理を1行の最後の文字まで順次行なつて
1行分のコード判定処理を行なう。 このようにして1行ずつ文字フオント判別と文字コー
ド判定を続けて行なつて、全文書を読み取る。その読み
取つた文字データを表示あるいは印刷する場合には、読
み取り不能のコードがある部分には読み取り不能の文字
があることを示すマークを表示又は印字する。 このように、原稿に使用されている活字のフオントを
指定しなくても、複数の文字フオント辞書を用いて自動
的にそのフオントを判別して辞書読取を行なう機能を以
後「マルチフオント」と称する。 手書き書体の判別及び文字コード判定処理も、この活
字の場合とほぼ同様にして行なうが、この場合には第8
図に示したフイールドの長さと文字種の情報も利用して
パターンマツチングを行なう。なお、そこで使用する手
書きのくせ字用辞書の作成方法については後述する。 また、第4図における文字フオント判別と手書き書体
の判別を、まとめて書体判別処理として行なうことも可
能である。 〔この発明による辞書作成及び保守について〕 次に、上述の光学文字読取装置に使用する辞書の作成
及び保守方法について説明する。 第2図及び第3図に示した光学文字読取装置の機能を
有する文書処理装置において、キーボード1からのキー
入力により「辞書の作成保守」が指令されると、まず第
11図のフローチヤートに示すユーテイリテイ選択の処理
を開始し、処理の種類を示すメインメニューを表示す
る。 そして、キー入力により処理の選択がなされると、そ
れを判別して「単一辞書作成保守ユーテイリテイ」「マ
ルチフオント辞書作成保守ユーテイリテイ」「辞書フア
イル名一覧」「手書き辞書作成保守ユーテイリテイ」及
び「終了」のいずれかの処理を行なう。 <単一辞書作成保守ユーテイリテイ> 文字認識に使用する活字用の単一辞書を作成するプロ
グラムであり、第12図に示すように、各辞書フアイルへ
のフアイル名の登録,文字の登録及び追加,削除,登録
文字リスト印刷の各機能があつて、それぞれ辞書フアイ
ルとの読み書きを行なう。 “フアイル名登録”は、第13図に示すフローチヤート
に従つて実行され、フアイルの領域取り及びフアイル名
のデイレクトリへの登録を行なう。 “文字登録・追加”は、第14図に示すフローチヤート
に従つて実行され、文字作成機能の中心となるものであ
る。 ここで、1行の文字数と読取濃度を入力し、作業許可
がなされて原稿をセツトすると、スキヤナが1行の文字
を読み取り、画像処理によりその各パターンを重ねるか
平均化して1つの文字パターンを作成し、その文字パタ
ーン又は1行の何れかの文字をCRTに表示する。 そのパターンをオペレータが見て、それに対応する文
字をキヤラクタキーによつて入力すると、その文字コー
ドと表示中の文字パターンのデータとを対応付けて辞書
フアイルに書き込む。 なお、この文字登録に関しては後でより詳細に説明す
る。 “文字削除”は、第15図のフローチヤートに従つて実
行され、辞書フアイル内の登録文字を削除する処理であ
る。 “登録文字リスト印刷”は、第16図のフローチヤート
に従つて実行され、辞書フアイルに登録してある文字を
CRT3あるいはプリンタ4(第2図,第3図)へ出力し
て、表示あるは印刷する処理である。 <マルチフオント辞書作成保守ユーテイリテイ> マルチフオント機能によつて、前述したように、フオ
ント指定がなくても文字認識ができるように、使用する
辞書フアイル名を登録しておくフアイルの作成保守プロ
グラムである。 このプログラムは第17図に示すように、マルチフオン
ト・フアイル名登録,辞書フアイル名登録,辞書フアイ
ル名削除,辞書フアイル内登録文字印刷,辞書フアイル
名追加,辞書フアイル名入れ替えの各処理プログラムか
らなる。 そして、各処理はそれぞれ第18図乃至第23図に示すフ
ローチヤートに従つて実行される。 この例では、マルチフオント・フアイルには6個の辞
書フアイル名を登録することができ、その登録された辞
書フアイル名には前述したように優先順位を付けてあ
る。 例えば、最初に辞書フアイル名を全て新しく登録する
場合には登録順に優先順位をつけ、それを使用すると前
述のように優先順位が入れ替わり、辞書フアイル名を通
追加登録した時はその辞書の優先順位を最も低くし、辞
書フアイル名を削除した時はその辞書より低い優先順位
の辞書フアイル名の優先順位を繰り上げて付け直す。 また、辞書フアイル名を入れ替えた時にも同様に優先
順位を付け直す。 <辞書フアイル名一覧> カレントデイスク(今仕事中のデイスク)内にある文
字認識用辞書のフアイル名の一覧表を表示するプログラ
ムであり、第24図に示すフローチヤートに従つて実行さ
れる。 この例では、一画面(1頁)に8個の辞書フアイル名
を表示することができるが、登録されている辞書フアイ
ルの総数が8個以上の場合には、N(ネクスト)キーを
押すことによつて次の頁の辞書フアイル名を表示させる
ことができ、B(バツク)キーを押すことによつて前の
頁の辞書フアイル名の表示に戻すことができる。そし
て、E(エンド)キーを押すとこの処理を終了する。 <手書き辞書作成保守ユーテイリテイ> 文字認識に使用する手書き辞書を作るプログラムであ
り、第25図に示すように、辞書フアイルへのフアイル名
登録,文字の登録及び追加,文字削除,登録文字リスト
印刷の各機能がある。 この機能は第12図に示した単一辞書作成保守ユーテイ
リテイの機能と同じであり、その各処理内容を示す第26
図乃至第29図のフローチヤートも、単一辞書作成保守ユ
ーテイリテイにおける第13図乃至第16図の処理と略同様
である。 但し、第28図に示す文字削除処理において、「削除文
字種類入力」を設けており、削除できる文字の種類(活
字のみ,手書きのみ,両方の3種類)の指定ができるよ
うになつている。 次に、活字あるいは手書の辞書作成方法について、第
30図以降によつて具体的に説明する。 所望の文字(記号等も含ものとする)を辞書登録する
際には、1行にその同一文字を多数列記した原稿をイメ
ージスキヤナによつてスキヤンさせてそのイメージデー
タを取り込み、その水平射影を取る。 これは、第31図に示すように、スキヤン方向Sに直交
する水平方向(矢印H方向)から各文字を見て、その文
字の始まり(白い部分から文字の影である黒い部分にか
かる所)から文字の終り(文字の影である黒い部分から
白い部分に変化する所)を判断し、それによつて文字の
高さを決定して行切り出しを行なうために取るのであ
る。 そして、この水平射影はある程度の高さを予め持つて
おり、例えば少しかすれた文字を読み取つた時に、その
かすれの部分で水平射影がなくなつても文字の終りと誤
認するようなことを防止するようにしている。 したがつて、この水平射影が始めに持つ高さを高くし
ておけば、“i"や“j"あるいは“:"などの上下に分離し
た部分からなる文字を1つの文字と判断することができ
る。 しかしながら、そのようにすると小さな文字を登録し
ようとした時、隣接する他の文字の一部まで1文字と判
断してしまう恐れがあるので、必要最小限の範囲でしか
高さを持つことはできない。 そこで、以下に説明する例では第32図に示すように、
原稿の1行に登録しようとする文字(図示の例では
“i")を横方向に間隔を置いて例えば10文字列記し、そ
の最後の文字から少し離れた位置にこの行の文字の高さ
を示すマークM(この例では縦線)を付記しておく。 この原稿をイメージスキヤナでスキヤンさせてそのイ
メージデータを取り込めば、マークMが検出されてから
それが検出されなくなるまでを1つの文字の高さとして
正確に判断して、行切り出しを行なうことができるの
で、“i"や“j"のように上下に分離した2部分からなる
文字でも全体で1つの文字として、文字パターンデータ
を正しく切り出すことができる。 そして、小さい文字の場合にも、その文字の高さに合
わせたマークMを付記することによつて、その文字のパ
ターンデータのみを正しく切り出すことができる。 また、このようにすることによつて、手書き文字を登
録する場合にも、例えば“i"の点を離して書きすぎるよ
うな、くせのある字でも制約なく登録することが可能に
なる。 なお、ごみや点状のノイズをマークと誤認しないよう
に、マークMをある程度太くして横方向のスキヤン時に
数ドツト分の黒レベルのデータが得られるようにしてお
くのが望ましい。 この方法を用いて辞書登録を行なう際の処理を、第30
図のフローチヤートによつて説明する。 第32図に示したように、登録しようとする文字を1行
に10文字列記(印刷でも手書きでもよい)して、その最
後の文字から少し離して文字の高さを示すマークMを付
記した原稿をスキヤナにセツトして、第14図あるいは第
27図の「読み取り」を開始すると、この第30図の処理が
スタートする。 まず、スキヤナを始動させて原稿のスキヤンを開始
し、横方向の1スキヤン中に予め定めたドツト数(マー
クMを検出した時のドツト数より少ない)以上黒レベル
が検出されない間は原稿の白い部分(スペース部分)を
スキヤンしていると判断して何もせずにスキヤンを続け
る。 そして、横方向の1スキヤン中に所定ドツト数以上の
黒レベルが検出されると、マークMの黒い部分を検出し
たと判断して1行のイメージデータの切り出しを開始
し、その黒い、部分が検出されなくなるまで1行の切り
出しを続け、黒い部分が検出されなくなると1行の切り
出しを終了する。 そして、切り出した1行分のイメージデータから文字
切り出しを行つて、その1行に含まれている各文字(こ
の例では同一文字10文字)の文字パターン(ドツトパタ
ーン)データをそれぞれ切り出す。 手書き文字の場合には、ここで文字パターンの凹凸を
修正するスムージング処理と、大きさを統一するために
文字パターン全体を若干拡大又は縮小する正規化処理を
行なうのが望ましい。 次いで、その各文字パターンのそれぞれ対応するドツ
トのデータ(“1"か“0")のORをとつて重ね合わせる重
畳処理を行なう。その際各ドツト位置毎に黒レベルのデ
ータが予め設定した数以下の場合は白レベルとみなすよ
うにすれば、ノイズの影響を除去できると共に、手書き
文字の場合には書体のバラツキの影響を少なくして平均
化した文字パターンを得ることができる。 このようにして得た文字パターン又は1行の何れか文
字を、例えば第33図に示すようにCRT3の画面に表示す
る。 この表示を作成者が確認して、この文字パターンに対
応する文字(この例では「i」)をキーボード1のキヤ
ラクタキーによつて入力すると、その文字を示す文字コ
ードを発生し、それを前述のようにして得た文字コード
を発生し、それを前述のようにして得た文字パターンの
データに付与してHDD7の文字認識用辞書フアイルに登録
する。 このキーボードからの文字入力に代えて直接文字コー
ドを入力して登録することも可能である。 この辞書登録方法によれば、活字は勿論のことである
が、手書きのくせ字であっても簡単に辞書登録すること
ができる。 1行の文字数は、多い方が精度が向上するが文字パタ
ーンデータの処理時間が長くなるので、10文字程度が適
当である。 効 果 以上説明してきたように、この発明によれば、光学文
字読取装置に使用する文字認識用辞書を作成するために
専用の装置を必要とせず、光学文字読取装置自体を使用
して誰でも容易に辞書の作成や保守を行なうことができ
る。しかも、手書きのくせ字も特別な制約なく辞書登録
することが可能になる。 そして、読み取られた1行の文字から作成された文字
パターン又は1行の何れかの文字が表示されるので、オ
ペレータは文字の認識を容易にすることができる。
【図面の簡単な説明】 第1図はこの発明による辞書作成方法の手順を示すフロ
ー図、 第2図はこの発明の一実施例である文書処理システムの
外観斜視図、 第3図は同じくブロツク構成図 第4図は同じくその文字読取に関する動作を示すフロー
図、 第5図乃至第8図は第4図による動作説明に共する説明
図、 第9図は第4図における文字フオント判別処理の詳細を
示すフロー図、 第10図は第4図における文字コード判定処理の詳細を示
すフロー図、 第11図乃至第30図は文字認識用辞書の作成保守に関する
各種の処理を説明するためのフロー図、 第31図乃至第33図は第30図による辞書登録処理の説明に
共する説明図である。 A……原稿、1……キーボード 2……イメージスキヤナ 3……CRTデイスプレイ装置、4……プリンタ 5……本体、6……フロツピデイスク装置 7……ハードデイスク装置 10……制御部(CPU)

Claims (1)

  1. (57)【特許請求の範囲】 1.スキヤナによつて原稿をスキヤンして文字を含む画
    情報をイメージデータとして取り込み、そのイメージデ
    ータから文字を認識して文字コードデータに変換する光
    学文字読取装置において、 1行に同一文字を多数列記すると共にその行の文字の高
    さを示すマークを付した原稿を前記スキヤナによつてス
    キヤンさせてそのイメージデータを取り込み、前記マー
    クによつて規制された高さ内の各文字のドツトパターン
    を重ね合わせるか平均化して1つの文字パターンを作成
    し、その文字パターン又は1行の何れかの文字を表示し
    て、上記文字パターンに対応する文字コードを与えて文
    字認識用の辞書フアイルに登録することを特徴とする辞
    書作成方法。
JP62318598A 1986-12-19 1987-12-18 光学文字読取装置における辞書作成方法 Expired - Fee Related JP2662404B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP62318598A JP2662404B2 (ja) 1986-12-19 1987-12-18 光学文字読取装置における辞書作成方法

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP30290086 1986-12-19
JP61-302900 1986-12-19
JP62318598A JP2662404B2 (ja) 1986-12-19 1987-12-18 光学文字読取装置における辞書作成方法

Publications (2)

Publication Number Publication Date
JPS63265377A JPS63265377A (ja) 1988-11-01
JP2662404B2 true JP2662404B2 (ja) 1997-10-15

Family

ID=26563304

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62318598A Expired - Fee Related JP2662404B2 (ja) 1986-12-19 1987-12-18 光学文字読取装置における辞書作成方法

Country Status (1)

Country Link
JP (1) JP2662404B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5150035B2 (ja) * 2004-09-16 2013-02-20 Necカシオモバイルコミュニケーションズ株式会社 携帯端末、情報処理方法及び情報処理プログラム
WO2019049294A1 (ja) 2017-09-07 2019-03-14 ヤマハ株式会社 コード情報抽出装置、コード情報抽出方法およびコード情報抽出プログラム

Also Published As

Publication number Publication date
JPS63265377A (ja) 1988-11-01

Similar Documents

Publication Publication Date Title
US4944022A (en) Method of creating dictionary for character recognition
US6208744B1 (en) Document image processor and method for setting a document format conforming to a document image
US4933979A (en) Data reading apparatus for reading data from form sheet
US7664321B2 (en) Image processing method, system, program, program storage medium and information processing apparatus
JP4181892B2 (ja) 画像処理方法
US7391917B2 (en) Image processing method
US5717794A (en) Document recognition method and system
EP0439951B1 (en) Data processing
JP2713622B2 (ja) 表形式文書読取装置
US7783108B2 (en) Document management method and apparatus
JP3727974B2 (ja) 画像処理装置及び方法
JPH08305731A (ja) 文書格納等の方法及び文書サーバ
JP2662404B2 (ja) 光学文字読取装置における辞書作成方法
US20020181779A1 (en) Character and style recognition of scanned text
JP2018142066A (ja) 文字認識装置、文字認識方法、文字認識プログラム、及び文字認識プログラムを記録したコンピューター読み取り可能な記録媒体
JPH10171920A (ja) 文字認識装置、その文字認識方法およびその記録媒体
JP4310176B2 (ja) 画像処理装置、画像処理方法およびプログラム
JPS63155390A (ja) 光学文字読取装置
JP2023046687A (ja) 情報処理装置、情報処理方法、およびプログラム
JP3083171B2 (ja) 文字認識装置及び方法
EP0692768A2 (en) Full text storage and retrieval in image at OCR and code speed
JPS63155385A (ja) 光学文字読取装置
JPH07262317A (ja) 文書処理装置
JPH0757040A (ja) Ocr付きファイリング装置
JP2993533B2 (ja) 情報処理装置及び文字認識装置

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees