JPH02118786A - 文字認識方法 - Google Patents

文字認識方法

Info

Publication number
JPH02118786A
JPH02118786A JP63270896A JP27089688A JPH02118786A JP H02118786 A JPH02118786 A JP H02118786A JP 63270896 A JP63270896 A JP 63270896A JP 27089688 A JP27089688 A JP 27089688A JP H02118786 A JPH02118786 A JP H02118786A
Authority
JP
Japan
Prior art keywords
character
dictionary
characters
character string
registered
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP63270896A
Other languages
English (en)
Inventor
Hiroshi Okamoto
博 岡本
Ryuichi Hamada
竜一 浜田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Home Electronics Ltd
NEC Corp
Original Assignee
NEC Home Electronics Ltd
Nippon Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Home Electronics Ltd, Nippon Electric Co Ltd filed Critical NEC Home Electronics Ltd
Priority to JP63270896A priority Critical patent/JPH02118786A/ja
Publication of JPH02118786A publication Critical patent/JPH02118786A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野] この発明は、帳票上を走査し得られる文字列画像から検
索対象単語を抽出し、その文字認識を行なった結果を検
索キーとしてデータベースを検索し、上記検索キーに対
応したデータを出力する情報処理装置において、上記デ
ータベースに入っているデータを取り出すための上記検
索キーを得るための文字認識方法に関する。
[従来の技術] 一般文書の文字列を走査して得られる文字列画像上の単
語の文字認識を行ない、それを検索キーとする情報処理
装置では、まず検索対象単語を抽出する必要がある。従
来は、単語間の空白や句読点等を判別し単語を抽出して
いた。
[発明が解決しようとする課題] しかしながら、単語の前後にカッコや数字がある場合に
はこれらが検索キーに含まれてしまったり、そのために
誤認識されたりすることにより。
正しい検索ができず、必要とするデータを取り出すこと
ができなかった。このため、検索キーの前後に不要な文
字が含まれている場合にはオペレ−夕がキー人力等によ
りこれを削除する等の作業が必要であった。
この発明は、抽出単語の前後にカッコや数字などの不要
な文字が含まれている場合にも所望の検索キーを得るこ
とができる文字認識方法を提供することにある。
[課題を解決するための手段] この発明は、帳票上を走査し得られる文字列画像から検
索対象単語を抽出し、その文字認識を行なった結果を検
索キーとしてデータベースを検索し、上記検索キーに対
応したデータを出力する情報処理装置において、認識に
用いる辞書として。
検索キーに含まれる文字を登録した第1の辞書と、検索
キーから排除すべき文字(記号を含む)を登録した第2
の辞書とをあらかじめ用意しておき、上記文字列画像か
ら抽出した単語の構成文字を上記第1および第2の辞書
に登録されている文字と比較することにより、抽出した
単語の前後にある第2の辞書に登録されている文字を削
除することを特徴とする。
[作 用] この発明は、検索対象単語として抽出された文字列に対
して文字列の先頭の文字から順次第2の辞書の文字と比
較し、該当する文字があれば排除する。同じように文字
列の末尾の文字についても文字列の末尾の文字から順次
第2の辞書に登録されている文字があればこれを排除す
る。その後残った文字列の文字を第1の辞書を用いて認
識し、検索キーを得る。
したがって、抽出された文字列の前後に不要な文字があ
る場合でも、正しい検索キーが認識でき2表示データ、
意味データ等の所望のデータを確実に得ることができる
[実施例] 以下、この発明を実施例に従って説明する。
第1図はこの発明の一実施例の情報処理装置のブロック
図であり、先ずこの情報処理装置の概要を説明する。
情報処理装置は、処理部IAとメモリIBとを含み、処
理部IAに対する入出力装置として。
スキャナ(画像入力手段)2と、CRTまたはLCD 
(液晶表示装置)を含む表示装置(表示手段)6とが接
続されている。画像人力手段としては光学的読取装置の
みならず磁気的に走査して読取る装置等も含む。
処理部IAは主にCPUから構成され、その機能の観点
からみると、制御手段1と文字認識手段3とデータベー
ス検索手段5とを含んでいる。
メモリIBは、半導体メモリ、ディスク・メモリ等を含
むもので、認識結果記憶エリア4.データベース7およ
び認識用辞書8を含んでいる。認識用辞書8は、検索キ
ーに含まれる文字を登録した第1の辞書81と、検索キ
ーに含まれないが文章表現等で用いられる文字(記号を
含む)、すなわち検索キーから排除すべき文字を登録し
た第2の辞!i82とから構成される。第1の辞書81
にはこの実施例では第2図(A)に示すようにアルファ
ベットの大文字と小文字とが登録されている。第2の辞
8B2には、第2図(B)に示すように、カッコ。
数字等が登録されている。
スキャナ2は帳票上を光学的に走査して得られる1文字
列分の映像信号をディジタル信号に変換し、処理部IA
に与える。
制御手段1はスキャナ2から与えられるディジタル画像
を文字画像として文字認識手段3に転送し7文字認識手
段3は認識用辞書8を用いて文字認識を行ない認識結果
を出力する。制御手段1は文字認識手段3が出力した認
識結果を検索キーとして認識結果記憶エリア4に転送し
、認識結果記憶エリア4にこの転送された認識結果が記
憶される。データベース検索手段5は認識結果記憶エリ
ア4から検索キーを読み出しデータベース7から所望の
データ(表示データ、意味データ等)を取り出し出力す
る。
制御手段1は認識結果記憶エリア4から読み出した検索
キーと前記データベース検索手段5から出力されたデー
タを表示装置6に転送し2表示装置6は転送されたデー
タに対応する文字画像を表示する。
第5図は上記処理装置の動作手順を示すフロー・チャー
ト、第6図は先頭文字のチエツク処理のフロー・チャー
ト、第7図は末尾文字のチエツク処理のフロー・チャー
トである。
第3図には帳票上の文字列の一例が示されている。長方
形aはハンド・スキャナの読取範囲を示している。
以下、第3図に示す文字列からlmPPという検索キー
を認識する場合を例にとって、第5図から第7図を参照
して、情報処理装置の動作について説明する。
制御手段1はスキャナ2から与えられる一列分の文字列
画像を入力しくステップlO)、単語の抽出を行なう(
ステップ20)。すなわち、スキャナ2からは、第3図
に示す文章の第1列の文字列sser(1mPP)が制
御手段1に与えられ、制御手段1はこの文字列から特定
の単語(ImPP)を抽出する。
次に抽出された単語の先頭文字から順に、検索キーに含
まれない文字のチエツクを行なう(ステップ30)。第
6図を参照してこの処理を詳細に説明すると、先ず制御
手段1は先頭文字を文字認識手段3に転送し1文字認識
手段3は第2の辞書82を使って認識を行なう(ステッ
プ31)。先頭文字が第2の辞書82に登録されている
文字である場合(ステップ32)には、先頭文字を削除
(ステップ33) L、次の文字の認識(ステップ31
)に進む。ステップ31〜33の処理は第2の辞書82
に登録されている文字が現われなくなるまで繰返し行な
われる。これにより(ImPP)中の(が削除される。
先頭文字が第2の辞書82に登録されていない文字にな
った場合には、末尾文字のチエツク(ステップ40)に
進む。第7図を参照して、先ず末尾文字を文字認識手段
3に転送し1文字認識手段3は第2の辞書82を使って
認識を行なう(ステップ41)。末尾文字が第2の辞書
82に登録されている文字である場合(ステップ42)
には、末尾文字を削除(ステップ43) L、次の文字
の認識(ステップ41)に進む。ステップ41〜43の
処理もまた。第2の辞書82に登録されている文字以外
の文字が現われるまで、末尾の文字から順次先頭に向っ
て一文字ずつ行なわれる。これにより、(ImPP)中
の)が削除される。
末尾文字が第2の辞書82に含まれていない文字になる
と、検索キーの認識(ステップ50)に進む。ここでは
1文字認識手段3は第1の辞書81を使って認識し検索
キーを出力し、認識結果記憶エリア4に記憶する。すな
わち、残ったlmPPのすべての文字が第1の辞書81
に登録されていることを確認し、この単語1mPPを検
索キーとしてエリア4にストアする。
この後制御手段1は、前記認識結果記憶エリア4に記憶
されている検索キーに基づいてデータベース検索手段5
がデータベース7から読出したデータを表示装置t6に
転送し表示する(ステップ60)。
ステップ20で抽出された単語から不要文字が削除され
ることにより形成された検索キーの他の例が第4図に示
されている。
この発明を実施可能な情報処理装置として電子辞書やス
ペルコレクタが含まれることはいうまでもない。
[発明の効果] この発明によれば、抽出された文字列の前後に不要な文
字がある場合でも、所望のデータを確実に得ることがで
きる。
また、検索キーに含まれる文字が変更された場合または
他の文字を含む帳票を認識する場合でも第1.第2の辞
書のいずれかを変更するのみでよい。
さらに、認識用辞書を検索キーに含まれる文字を登録し
た第1の辞書と、含まれない文字を登録した第2の辞書
とに分けることにより認識速度および認識率が向上する
【図面の簡単な説明】
第1図は情報処理装置の構成を示すブロック図、第2図
は認識用辞書の例を示すもので 第2図(A)は第1の
辞書に登録された文字を、第2図([3)は第2の辞書
に登録された文字をそれぞれ示しており、第3図は帳票
上の文字列を示す図、第4図は抽出単語と処理後の検索
キーの例を示す図、第5図は文字認識方法の処理手順を
示すフロー・チャート、第6図は先頭文字のチエツク処
理ルーチンを示すフロー・チャート、第7図は末尾文字
のチエツク処理ルーチンを示すフロー・チャートである
。 1・・・制御手段。 IA・・・処理部。 1B・・・メモリ。 3・・・文字認識手段。 4・・・認識文字記憶エリア。 5・・・データベース検索手段。 6・・・表示装置。 7・・・データベース。 8・・・認識用辞書。 81・・・第1の辞書。 82・・・第2の辞書。 以 上 (A) (B) 刀 図 Abstract−An Image Pipelin
ed proceMwith high−speed 
processing capability has
 been図 抽出単語 検索キー Phasell: =:枠 hase (character) :=沙 character 第 図

Claims (1)

    【特許請求の範囲】
  1. 帳票上を走査し得られる文字列画像から検索対象単語を
    抽出し、その文字認識を行なった結果を検索キーとして
    データベースを検索し、上記検索キーに対応したデータ
    を出力する情報処理装置において、認識に用いる辞書と
    して、検索キーに含まれる文字を登録した第1の辞書と
    、検索キーから排除すべき文字を登録した第2の辞書と
    をあらかじめ用意しておき、上記文字列画像から抽出し
    た単語の構成文字を上記第1および第2の辞書に登録さ
    れている文字と比較することにより、抽出した単語の前
    後にある第2の辞書に登録されている文字を削除するこ
    とを特徴とする文字認識方法。
JP63270896A 1988-10-28 1988-10-28 文字認識方法 Pending JPH02118786A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63270896A JPH02118786A (ja) 1988-10-28 1988-10-28 文字認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63270896A JPH02118786A (ja) 1988-10-28 1988-10-28 文字認識方法

Publications (1)

Publication Number Publication Date
JPH02118786A true JPH02118786A (ja) 1990-05-07

Family

ID=17492484

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63270896A Pending JPH02118786A (ja) 1988-10-28 1988-10-28 文字認識方法

Country Status (1)

Country Link
JP (1) JPH02118786A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011513849A (ja) * 2008-03-07 2011-04-28 ジェイエル ホールディングス エーピーエス スキャンの方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011513849A (ja) * 2008-03-07 2011-04-28 ジェイエル ホールディングス エーピーエス スキャンの方法

Similar Documents

Publication Publication Date Title
US4985863A (en) Document storage and retrieval system
JPH10207988A (ja) 文字認識方法および文字認識装置
US5265171A (en) Optical character reading apparatus for performing spelling check
JPH02118786A (ja) 文字認識方法
JPH10162098A (ja) 文書電子化装置及び文書電子化方法
JPH08180068A (ja) 電子ファイリング装置
JP2560656B2 (ja) 文書ファイリングシステム
JP3083171B2 (ja) 文字認識装置及び方法
JPS6190282A (ja) 光学文字読取装置を使つた入力装置
JPH06149888A (ja) 電子ファイリングシステム
JPH06139277A (ja) 電子辞書装置
JPH02136970A (ja) 英単語検索装置
JP3880116B2 (ja) 電子ファイリングシステム、電子ファイリング方法及び記録媒体
JP2746345B2 (ja) 文字認識の後処理方法
JP3045886B2 (ja) 手書き入力機能付き文字処理装置
JP2990905B2 (ja) 辞書登録支援装置
JP2957211B2 (ja) 日本語文書校正支援装置
JPH03176786A (ja) 手書き文字の認識装置
JPH03273361A (ja) 電子辞書
JPH06149889A (ja) 電子ファイリングシステム
JPS60247785A (ja) 翻訳装置
JPH05108703A (ja) 機械翻訳機
JPH06342483A (ja) 文書ファイリングシステム
JPH06161995A (ja) 氏名データ整形方法および装置
JPH0433079A (ja) 表処理方式