JP2680311B2 - 文字認識方式 - Google Patents

文字認識方式

Info

Publication number
JP2680311B2
JP2680311B2 JP62163101A JP16310187A JP2680311B2 JP 2680311 B2 JP2680311 B2 JP 2680311B2 JP 62163101 A JP62163101 A JP 62163101A JP 16310187 A JP16310187 A JP 16310187A JP 2680311 B2 JP2680311 B2 JP 2680311B2
Authority
JP
Japan
Prior art keywords
word
character
recognition
knowledge
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP62163101A
Other languages
English (en)
Other versions
JPS647279A (en
Inventor
和司 清野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP62163101A priority Critical patent/JP2680311B2/ja
Publication of JPS647279A publication Critical patent/JPS647279A/ja
Application granted granted Critical
Publication of JP2680311B2 publication Critical patent/JP2680311B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Description

【発明の詳細な説明】 [発明の目的] (産業上の利用分野) 本発明は、特に各文字記入領域に階層構造をもつ文字
列が所定のまとまりをもって記入されている帳票を読み
取るための文字認識方式に関する。 (従来の技術) 従来から、文字読取装置では、帳票上に記入された文
字の認識正読率を向上させるために、知識辞書を用いた
認識単語候補の妥当性チェック(以下、知識処理と称
す)を行っている。 この知識処理は、認識部により得られた認識単語候補
をあらかじめ前記知識辞書に格納された意味的に正当な
単語と比較し、類似度が最大であると判定された単語を
最終的な認識結果として得るものである。 ところで、第4図に示すように、あらかじめ記入され
るべき合成語の属性が設定された帳票1上の各文字記入
領域2a、2bに、たとえば「○X銀行」のような企業名等
の合成語Aとこの企業名の下位に属するたとえば「新宿
支店」のような支店名等の合成語Aがそれぞれ記入され
たものにおける各合成語Aに対しての知識処理は次のよ
うになされている。 すなわち、まず前記認識部により得られた企業名の認
識合成語候補と文字記入領域2aに設定された属性に対応
する知識辞書3aに格納された合成語情報との比較により
前記企業名の合成語Aの認識結果を得る。 次に、この認識結果に基づいて前記企業名の下位階層
の属性に対応する知識辞書3bを取り出し、この知識辞書
3bに格納された合成語情報と前記支店名の認識合成語候
補とを比較することにより前記支店名すなわち前記企業
名の合成語Aの下位階層の合成語Aの認識結果を得る。 しかしながら、このような知識処理の方法では、各文
字記入領域2a、2bに、それぞれ知識辞書3a、3bに登録さ
れた合成語情報と等しい文字列からなる合成語Aが記入
されていなければ知識処理を実行することができない。 したがって、上位階層側の文字記入領域2aに、たとえ
ば「○X」のような前記企業名の合成語Aの一部の単語
のみを記入した場合における知識処理を可能とするため
には、前記知識辞書3aに上記した単語を加えて同じ内容
の情報を複数登録しなければならなかった。 また、第5図に示すように、あらかじめ記入されるべ
き単語の属性が位置により設定された1つの文字記入領
域2cに階層構造をもつ連続した単語列Bが記入されたも
のにおいての各単語に対しての知識処理は、前記位置ご
と設定された属性に対応する知識辞書3c、3d、3eをそれ
ぞれ用いて各単語ごとに認識結果を得るようになされて
いる。 しかし、このような処理方法では、下位階層の単語の
知識処理を上位階層の単語との関連から導くことができ
ないので、正当な認識結果を得るうえで難点があった。 (発明が解決しようとする問題点) 本発明はこのような問題点を解決するためのもので、
記憶容量の小さな知識辞書で、帳票上の各文字記入領域
に階層構造をもちかつ所定のまとまりをもって記入され
た文字列から各階層ごとの正当な認識結果を得ることが
できる文字認識方式を提供することを目的としている。 [発明の構成] (問題点を解決するための手段) 本発明はこのような目的を達成するために、複数の文
字記入領域が設定され、各領域に階層構造をもつ文字列
が所定のまとまりをもって記入されている帳票を読み取
って認識し、この認識結果として得られる文字認識候補
の妥当性チェックを認識辞書に格納された単語情報との
比較により行って正当な認識結果を得るようにした文字
認識方式において、前記所定のまとまりの文字列を一方
の端から順に抽出しつつ結合し、合成語としての第一の
妥当性チェックを行い、前記所定のまとまりの文字列を
他方の端から順に抽出しつつ結合し、合成語としての第
二の妥当性チェックにより得られた合成語の下位階層の
属性を得るためのキーワードを探し出し、このキーワー
ドに基づいて前記下位階層の属性に対応する認識辞書を
選択し、各階層ごとに正当な認識結果を得る処理を順次
行うことを特徴としている。 (作用) 本発明の文字認識方式は、文字記入領域上における所
定のまとまりの文字列を端から順に抽出しつつ結合し、
その都度妥当性チェックを行い、その結果に基づいて階
層ごとに正当な認識結果を得る処理を順次行うので、記
憶容量の小さな知識辞書で、帳票上の各文字記入領域に
階層構造をもちかつ所定のまとまりをもって記入された
前記文字列から各階層ごとの正当な認識結果を得ること
ができる。 (実施例) 以下、本発明の実施例を図面に基づいて詳細に説明す
る。 第1図は本発明の一実施例の文字認識方式により知識
処理されるべき文字列が記入された帳票を示す図であ
る。 同図において11は帳票を示している。この帳票11上に
はあらかじめ記入されるべき合成語Aの属性が判明して
いる複数の各文字記入領域12a、12bが設定されている。
また、各文字記入領域12a、12bには、たとえば企業名と
支店名等の階層構造をもつ文字列が各階層ごとに分割し
てそれぞれ記入されており、また前記各階層ごとの文字
列はたとえば「○X銀行」、「新宿支店」のように複数
の単語からなる合成語Aとなっている。 第2図はこの実施例の文字認識方式を採用した文字読
取装置の構成を示すブロック図である。 同図において13は帳票11から各文字記入領域12a、12b
ごとの合成語Aのイメージを読み取るスキャナ部、14は
スキャナ部13で得られたイメージから1文字毎の認識を
行ってそれぞれの文字候補を選択し、さらに各文字候補
を1つの領域分にまとめていくつかの認識合成語候補の
データを出力する認識部である。また、15は認識部14よ
り出力された認識合成語候補が合成語処理を必要とする
か否かを判断する部分であり、かつ後述する合成語認識
結果に基づいてその下位階層における知識処理を制御す
る知識処理制御部である。さらに、16…はあらかじめ1
つの属性に対応する単語情報が格納された知識辞書、17
は合成語処理を実行するのに必要な知識辞書16…を選択
する知識処理管理部、18は知識処理制御部15より与えら
れた認識合成語候補と知識処理管理部17により選択され
た知識辞書16における単語情報とを順次比較し、類似度
が最大の単語候補のつながりを最終的な合成語認識結果
として出力する合成語処理部、そして19は帳票11上の各
文字記入領域12a、12bが合成語処理を必要とする領域で
あるか否かを示す情報と、各文字記入領域12a、12bにお
ける属性を示す情報がテーブルとしてあらかじめ格納さ
れている知識処理情報記憶部である。 次に、以上のように構成された文字読取装置の動作に
ついて説明する。 まず、スキャナ部13により帳票11上の上位階層側の文
字記入領域12aに記入された合成語Aから前記領域分の
文字のイメージが読み取られ、そのイメージ信号が認識
部14へ出力される。 認識部14ではこのイメージ信号から1文字毎の認識を
所定の認識規則にしたがい行ってそれぞれの文字候補を
得た後、これらを1つの領域分にまとめて認識合成語候
補のデータとして知識処理制御部15へ出力する。 この後、知識処理制御部15は知識処理情報記憶部部19
を検索し、前記認識合成語候補に対応する領域が合成語
処理を必要とするか否かを判断する。 ここで、対象領域が合成語処理を必要としない設定で
あると判断された場合は、認識部14で得られた第1位の
認識文字列候補が第1階層の認識結果として出力され
る。 そして、この処理が最下位階層の認識合成語候補まで
同様に行われる。 一方、対象領域が合成語処理を必要とする設定である
と判断された場合は、知識処理制御部15が知識処理情報
記憶部19に格納されたテーブルの先頭から合成語処理さ
れるべきそれぞれの単語の属性に対応する知識辞書名を
順次取り出し、これらを知識処理管理部17に渡す。 この知識処理管理部17では渡された知識辞書名にした
がって各知識辞書16…からいずれか1つの知識辞書16を
順次選択し、合成語処理部18へ渡すとともに、同時に知
識処理制御部15から合成語処理部18へ1領域分の認識合
成語候補が出力される。 そして、合成語処理部18では、第3図に示すように、
先ず認識合成語候補における各文字候補を上位側のもの
から順に抽出して結合し、その都度知識処理管理部17に
より最初に選択された知識辞書16aにおける単語情報と
の比較を行い、類似度が最大と判定された文字列候補C
を前記認識合成語候補における上位側の単語の最終的な
認識結果とする。続いて、今度は前記各文字候補を下位
側のものから順に抽出して結合し、知識処理管理部17に
より次に選択された知識辞書16bにおける単語情報との
比較を行い、類似度が最大と判定された文字列候補Dを
下位側の単語の最終的な認識結果とする。 そして、これら2つの認識結果を合成して最終的な合
成語認識結果として知識処理制御部15へ渡す。 次に、知識処理制御部15は前記合成語認識結果に基づ
いてこの合成語の下位階層の属性を得るためのキーワー
ドEを捜し出し、これを知識処理情報記憶部19へ渡す。 知識処理情報記憶部19は受け取ったキーワードEに基
づいて前記下位階層の属性に対応する知識辞書名を用意
し、知識処理制御部15がこれを取り出して知識処理管理
部17へ渡す。 この後、知識処理管理部17により前記知識辞書名にし
たがって、前記合成語認識結果の下位階層の属性に対応
する知識辞書16cが選択される。 そしてこの知識辞書16cを基にして、下位階層側の文
字記入領域12bに記入された合成語に対しての合成語処
理を前述と同様に行い、全ての階層における合成語処理
が終ると各合成語の最終的な認識結果が出力される。 かくして、この実施例の文字認識方式によれば、一般
的な単語情報だけが格納された知識辞書16を用いて、帳
票11上の各文字記入領域12a、12bに記入された各階層お
けるそれぞれの合成語Aの知識処理が可能となる。 また、文字記入領域12a、12bに下位階層側の属性を得
るためのキーワードEとなる単語を記入するだけで、下
位階層側の合成語Aの認識処理を実行することが可能と
なり、帳票11上に文字を記入する際の制限緩和が図れ
る。 ところで、この実施例の文字認識方式では、知識処理
の対象となるべき合成語Aが企業名であるものを例にと
って説明したが、本発明はこれに限定されるものではな
く、たとえば住所、組織名等の他の合成語についても同
様に応用することができる。 [発明の効果] 以上説明したように本発明の文字認識方式によれば、
記憶容量の小さな知識辞書で、帳票上の各文字記入領域
に階層構造をもちかつ所定のまとまりをもって記入され
た文字列から各階層ごとの正当な認識結果を得ることが
できる。
【図面の簡単な説明】 第1図は本発明の一実施例の文字認識方式により知識処
理されるべき文字列が記入された帳票を示す平面図、第
2図は本発明の一実施例の文字認識方式を採用した文字
読取装置の構成を説明するためのブロック図、第3図は
その合成語処理を説明するための図、第4図は従来の知
識処理方法により処理されるべき帳票を示す図、第5図
は同じく他の知識処理方法により処理されるべき帳票を
示す図である。 11…帳票 12a、12b…文字記入領域 13…スキャナ部 14…認識部 15…知識処理制御部 16…知識辞書 17…知識処理管理部 18…合成語処理部 19…知識処理情報記憶部

Claims (1)

  1. (57)【特許請求の範囲】 1.複数の文字記入領域が設定され、各領域に階層構造
    をもつ文字列が所定のまとまりをもって記入されている
    帳票を読み取って認識し、この認識結果として得られる
    文字認識候補の妥当性チェックを認識辞書に格納された
    単語情報との比較により行って正当な認識結果を得るよ
    うにした文字認識方式において、 前記所定のまとまりの文字列を一方の端から順に抽出し
    つつ結合し、合成語としての第一の妥当性チェックを行
    い、 前記所定のまとまりの文字列を他方の端から順に抽出し
    つつ結合し、合成語としての第二の妥当性チェックを行
    い、 前記第一および第二の妥当性チェックにより得られた合
    成語の下位階層の属性を得るためのキーワードを探し出
    し、このキーワードに基づいて前記下位階層の属性に対
    応する認識辞書を選択し、各階層ごとに正当な認識結果
    を得る処理を順次行うことを特徴とする文字認識方式。
JP62163101A 1987-06-30 1987-06-30 文字認識方式 Expired - Lifetime JP2680311B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP62163101A JP2680311B2 (ja) 1987-06-30 1987-06-30 文字認識方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62163101A JP2680311B2 (ja) 1987-06-30 1987-06-30 文字認識方式

Publications (2)

Publication Number Publication Date
JPS647279A JPS647279A (en) 1989-01-11
JP2680311B2 true JP2680311B2 (ja) 1997-11-19

Family

ID=15767191

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62163101A Expired - Lifetime JP2680311B2 (ja) 1987-06-30 1987-06-30 文字認識方式

Country Status (1)

Country Link
JP (1) JP2680311B2 (ja)

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57146380A (en) * 1981-03-04 1982-09-09 Nec Corp Address reader

Also Published As

Publication number Publication date
JPS647279A (en) 1989-01-11

Similar Documents

Publication Publication Date Title
US5774588A (en) Method and system for comparing strings with entries of a lexicon
US5745745A (en) Text search method and apparatus for structured documents
US5687384A (en) Parsing system
JPH0664631B2 (ja) 文字認識装置
US6978044B2 (en) Pattern string matching apparatus and pattern string matching method
JP2693914B2 (ja) 検索システム
KR100288144B1 (ko) 한글로 표기된 외래어 코드화 방법 및 그를 이용한 검색 방법
JP2680311B2 (ja) 文字認識方式
JP3902825B2 (ja) 文書検索システムおよび方法
JPH08272813A (ja) ファイリング装置
JPH09147055A (ja) 文字処理装置
JP2839515B2 (ja) 文字読取システム
WO2022025216A1 (ja) 圧縮データ検索エンジンを用いた情報処理装置及びその情報処理方法
EP0178651B1 (en) Data retrieving apparatus
JPH0438026B2 (ja)
JPH0454270B2 (ja)
JPH01199263A (ja) キーワード抽出装置
JPH05258100A (ja) 文字認識装置
JPS63138479A (ja) 文字認識装置
JP3720405B2 (ja) 領域識別装置及び方法
JPH0340434B2 (ja)
JPH06274701A (ja) 単語照合装置
JPH09120436A (ja) 単語照合方法
JPH07129621A (ja) 画像情報記憶装置
JPH0576675B2 (ja)

Legal Events

Date Code Title Description
EXPY Cancellation because of completion of term