JPH0554199A - 光学式文字読取装置における文書認識方法 - Google Patents

光学式文字読取装置における文書認識方法

Info

Publication number
JPH0554199A
JPH0554199A JP3244654A JP24465491A JPH0554199A JP H0554199 A JPH0554199 A JP H0554199A JP 3244654 A JP3244654 A JP 3244654A JP 24465491 A JP24465491 A JP 24465491A JP H0554199 A JPH0554199 A JP H0554199A
Authority
JP
Japan
Prior art keywords
document
kanji
kana
word
recognition method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3244654A
Other languages
English (en)
Inventor
Masahiro Iwazawa
正宏 岩沢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP3244654A priority Critical patent/JPH0554199A/ja
Publication of JPH0554199A publication Critical patent/JPH0554199A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

(57)【要約】 【目的】 かな文書やかな・漢字混じり文書であって
も、正しい漢字文書として自動認識が可能な文書認識方
法を提供する。 【構成】 認識対象の文書をかな部分と漢字部分に分割
し(ステップS1)、かな部分及び漢字部分それぞれに
予め単語照合を行い(ステップS2〜S5)、分割状態
の各単語を合成して元の文書の単語配列に戻し(ステッ
プS6)、しかる後合成した文書を再度単語照合し(ス
テップS7)、かな・漢字混じり文書の認識を行う。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、文書認識方法に関し、
特に光学式文字読取装置(以下、OCR装置と称する)
における後処理の文書認識方法に関するものである。
【0002】
【従来の技術】帳票等の被読取媒体から読み取りかつ文
字認識して得られる文書を、辞書に登録されている単語
と単語単位で照合(以下、単語照合と称する)しつつ認
識するOCR装置では、従来、読取対象となる例えば帳
票には、「漢字フィールド」、「かなフィールド」とい
うように「漢字」ならば漢字のみ、「かな」ならばかな
のみで記入されていることを前提としていた。換言すれ
ば、「かな」と「漢字」が混在している文章について
は、認識処理が不可能であった。ここに、「かな」と
は、「ひらがな」及び「カタカナ」の総称を言う。
【0003】
【発明が解決しようとする課題】ところで、帳票の「漢
字フィールド」に記入する漢字が、難しかったり、その
漢字を忘れたり、あるいは記入者が子供の場合にあって
はまだ習っていない等の理由で、漢字で記入できないと
いうような場合がある。しかしながら、このような場合
であっても、「漢字フィールド」には原則として漢字記
入を前提とした従来の文書認識方法では、理由のいかん
を問わず漢字での記入を強いることになるという問題点
があった。
【0004】そこで、本発明は、かな文書やかな・漢字
混じり文書であっても、正しい漢字文書として自動認識
が可能な文書認識方法を提供することを目的とする。
【0005】
【課題を解決するための手段】上記目的を達成するため
に、本発明による文書認識方法は、被読取媒体から読み
取りかつ文字認識して得られる文書をかな部分と漢字部
分に分割し、この分割されたかな部分及び漢字部分それ
ぞれに辞書に登録されている単語と予め単語照合を行
い、この単語照合によって得られる分割状態の各単語を
合成して元の文書の単語配列に戻し、この合成後の文書
を再度単語照合してかな・漢字混じり文書の認識を行う
ようにしている。
【0006】
【作用】本発明による文書認識方法によれば、認識対象
の文書がかな・漢字混じり文書の場合、その文書をかな
部分と漢字部分に分割してそれぞれに予め単語照合し、
それらを合成して元の文書の単語配列に戻して再度単語
照合することで、OCR帳票上、漢字記入が必要な領域
にかな混じり、あるいはかなのみで記入されていても、
正しい漢字文書として認識できる。
【0007】
【実施例】以下、本発明の実施例を図面に基づいて詳細
に説明する。図2は、本発明による文書認識方法が適用
されるOCR装置の構成の一例を示すブロック図であ
る。図において、帳票等の被読取媒体に記入された住所
は光学式読取部1によって読み取られる。この読取部1
で読み取られた住所情報は文字認識部2に供給される。
この文字認識部2では、周知のパターンマッチング手法
等を用いて文字の認識処理が行われ、候補文字データが
データバッファに格納される。
【0008】単語辞書3には、帳票等に記入される氏名
や住所等に用いられる単語が登録されており、例えば住
所に関しては、都道府県毎に住所表現上の小字レベルま
での住所データが単語単位で登録される。また、単語辞
書3は、文字認識によって得られる「漢字」に対して単
語照合を行うための単語照合辞書と、「かな」に対して
単語照合を行うためのかな単語変換辞書とを有してい
る。
【0009】照合部4は、例えばマイクロコンピュータ
により構成されており、読取部1で読み取られかつ文字
認識部2で文字認識して得られる文書を、単語辞書3に
登録されている単語と照合するとともに、認識対象の文
書がかな・漢字混じり文書の場合には、後述するように
文書をかな部分と漢字部分に分割してそれぞれに予め単
語照合を行い、それらを合成して元の文書の単語配列に
戻して再度単語照合する処理を行う。
【0010】単語照合によって認識された単語列からな
る例えば住所はディスプレイ5に表示される。オペレー
タは、ディスプレイ5に表示された住所を確認し、文字
の誤認識等によって住所表示に誤りがあれば、キーボー
ド等からなる入力部6での修正入力によって誤り箇所を
修正し、修正後もしくは誤りがなければ、キー入力等に
よって入力部6から格納指令を発することにより、その
住所を正しいものとしてファイル7に格納する。
【0011】次に、本発明による文書認識方法の処理手
順につき、図1のフローチャートにしたがって説明す
る。なお、本例では、読取部1で読み取られかつ文字認
識部2で文字認識されて入力された文書が、かな・漢字
混じり文書であることを前提とする。このときの文書の
一例として、住所表示の「さいたま県」なるかな漢字文
書が入力された場合を示す。
【0012】先ず、入力されたかな・漢字混じり文書
を、かな部分と漢字部分に分割し(ステップS1)、続
いて分割された部分が「かな」なのか、「漢字」なのか
を判別する(ステップS2)。かな部分と漢字部分との
分割は、一例として、「ひらがな」には“829F〜8
2F1”、「カタカナ」には“8340〜8393”の
文字コードが割り当てられているため、この文字コード
値を用いることによって行われる。例えば、「さいたま
県」の場合には、図3に示すように、各文字毎に所定の
文字コードが割り当てられており、文字コードが“82
9F〜82F1”又は“8340〜8393”内かそれ
以外かによって、かな部分「さいたま」と漢字部分
「県」とに分割できるのである。
【0013】ステップS2における判別結果が、「か
な」であれば、「かな部分」を単語辞書3中のかな単語
変換辞書によって最適な単語を抽出することにより、か
な→漢字変換を行い(ステップS3)、「漢字」であれ
ば、「漢字部分」を単語辞書3中の単語照合辞書によっ
て最適な単語を抽出する(ステップS4)。
【0014】次に、分割部分がもうないか否かを判断し
(ステップS5)、まだ残っていれば、ステップS2に
戻って上述した処理を繰り返し、残っていなければ、ス
テップS3,S4で抽出された分割状態の各単語部分を
合成して元の文書の単語の配列に戻して1つの文書とす
る(ステップS6)。そして、元に戻した文書に対して
再度単語照合処理を行って最適な、即ち実在の住所に最
も近い単語を抽出する(ステップS7)。以上により、
かな・漢字混じり文書が入力された場合の一連の文字認
識処理を終了する。
【0015】なお、ステップS7の単語照合処理におい
ては、文書が例えば住所の場合、都道府県レベル、市区
郡レベル、区町レベル及び字(大字、小字、番地等)レ
ベルの各レベル単位で単語照合を行うことによって1つ
の文書である住所の認識処理が行われることになる。
【0016】
【発明の効果】以上詳細に説明したように、本発明によ
れば、被読取媒体から読み取りかつ文字認識して得られ
る文書をかな部分と漢字部分に分割してそれぞれに予め
単語照合し、それらを合成して元の文書の単語配列に戻
して再度単語照合するようにしたので、OCR帳票上、
漢字記入が必要な領域にかなを混ぜたり、あるいはかな
のみで記入されていても、正しい漢字文書として認識で
きることになる。
【0017】その結果、帳票の「漢字フィールド」に記
入する漢字が、難しかったり、その漢字を忘れた等の理
由で、漢字で記入できないというような顧客に対して漢
字での記入を強いる必要がなくなるため、顧客に対する
サービス向上に寄与できることになる。
【図面の簡単な説明】
【図1】本発明による文書認識方法の処理手順を示すフ
ローチャートである。
【図2】本発明による文書認識方法が適用されるOCR
装置の構成の一例を示すブロック図である。
【図3】かな・漢字混じり文書と文字コードとの対応関
係を示す図である。
【符号の説明】
1 光学式読取部 2 文字認識部 3 単語辞書 4 照合部 5 ディスプレイ

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 被読取媒体から読み取りかつ文字認識し
    て得られる文書をかな部分と漢字部分に分割し、 この分割されたかな部分及び漢字部分それぞれに辞書に
    登録されている単語と予め単語照合を行い、 この単語照合によって得られる分割状態の各単語を合成
    して元の文書の単語配列に戻し、 この合成後の文書を再度単語照合してかな・漢字混じり
    文書の認識を行うことを特徴とする光学式文字読取装置
    における文書認識方法。
JP3244654A 1991-08-29 1991-08-29 光学式文字読取装置における文書認識方法 Pending JPH0554199A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3244654A JPH0554199A (ja) 1991-08-29 1991-08-29 光学式文字読取装置における文書認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3244654A JPH0554199A (ja) 1991-08-29 1991-08-29 光学式文字読取装置における文書認識方法

Publications (1)

Publication Number Publication Date
JPH0554199A true JPH0554199A (ja) 1993-03-05

Family

ID=17121966

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3244654A Pending JPH0554199A (ja) 1991-08-29 1991-08-29 光学式文字読取装置における文書認識方法

Country Status (1)

Country Link
JP (1) JPH0554199A (ja)

Similar Documents

Publication Publication Date Title
EP0844583A2 (en) Method and apparatus for character recognition
JPS6262387B2 (ja)
JPH0554199A (ja) 光学式文字読取装置における文書認識方法
JPH064717A (ja) 漢字住所補正処理方法
JPH08263587A (ja) 文書入力方法および文書入力装置
JP4054453B2 (ja) 文字認識装置およびプログラム記録媒体
JPS592191A (ja) 手書き日本語文の認識処理方式
JPH0256086A (ja) 文字認識の後処理方法
JP2000090192A (ja) 住所および郵便番号の文字列修正方法
JP2922365B2 (ja) Ocr処理システムにおける漢字住所データ処理方法
JPH10198688A (ja) 定型文書読み取り装置
JPH0546815A (ja) 光学式文字読取装置における住所単語照合方法
JP3007697B2 (ja) 単語照合装置及び単語照合方法
JPS63282586A (ja) 文字認識装置
JPH08241314A (ja) 文書ファイリングシステム
JPS61133487A (ja) 文字認識装置
JPH01293463A (ja) 文字処理装置
JPH02151984A (ja) 画像認識システム
JPH0816729A (ja) 文字認識後処理方式
JPH0589291A (ja) 文字列認識装置
JP2639314B2 (ja) 文字認識方式
JPH10328624A (ja) 文書理解装置および郵便区分機
JPH07120396B2 (ja) 文書読み取り装置
JPH06103404A (ja) 名刺認識装置
JPH0520300A (ja) 文書処理装置