JPH06301822A - 文字認識後処理方式 - Google Patents

文字認識後処理方式

Info

Publication number
JPH06301822A
JPH06301822A JP5088886A JP8888693A JPH06301822A JP H06301822 A JPH06301822 A JP H06301822A JP 5088886 A JP5088886 A JP 5088886A JP 8888693 A JP8888693 A JP 8888693A JP H06301822 A JPH06301822 A JP H06301822A
Authority
JP
Japan
Prior art keywords
collation
character recognition
information
dictionary
matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5088886A
Other languages
English (en)
Inventor
Shinji Sase
慎治 佐瀬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP5088886A priority Critical patent/JPH06301822A/ja
Publication of JPH06301822A publication Critical patent/JPH06301822A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】 【目的】 文字認識の後処理において、日本語のべた書
き文字列と欧米単語による文字列とこれらが混在する文
字列を同時に取扱う場合でも、安定した矛盾の少ない文
字認識後処理を行う。 【構成】 照合範囲抽出11は、文字認識結果20よ
り、空白情報・句読点/括弧情報をもとに、照合範囲テ
ーブル21を作成する。辞書22には、登録単語毎にそ
の単語の直前が区切目であるという情報、その直後が区
切目であるという情報が記述されている。照合可否判定
13で、この辞書情報と照合範囲テーブル21とを比較
し、読出した辞書の妥当性を事前にチェックする。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、文字認識装置に関し、
特に、読取結果を確認/補正する文字認識の後処理方式
に関する。
【0002】
【従来の技術】文字認識の後処理は、文字認識の不完全
さを補助する手段として、広く活用されている。以前
は、照合対象が単語単位であったものが、現在では文字
列を照合単位とするまでに至っている。
【0003】入力文字列の性質としては、欧米では単語
単位で区切って書かれるのに対して、日本語では単語間
に区切目を挿入せずに続けて書く(以後べた書きと称
す)のが慣例となっている。
【0004】このために、欧米字列では、まず照合範囲
を空白情報等で区切り、その間を一単語として照合を行
う方法が一般的となっている。一方、日本語文はべた書
きであるので区切目情報間を一単語とは想定せずに照合
する方法をとっている。
【0005】
【発明が解決しようとする課題】現状の日本語には英単
語が併用されることが多々ある。また、日本語において
も出現位置が文字列の区切目に特定できる場合がある。
【0006】従来の欧米文方式の文字認識後処理方式で
は日本語のべた書きに対処できないという課題があり、
日本語べた書対応の文字認識後処理方式では、欧米の単
語が区切目情報なしに連続して抽出されたり、日本語に
おいてもべた書の途中で、一続きの意味が終了したり、
途中から開始したりするという課題があった。
【0007】一例として、べた書対応の文字認識後処理
を「NOWHERE」という入力文字に対して実施する
と、「NOWHERE」という一語単語と「NOW」
「HERE」という二語単語が同じ確からしさで抽出さ
れてしまうという課題がある。
【0008】本発明は従来の上記実情に鑑みてなされた
ものであり、従って本発明の目的は、従来の技術に内在
する上記諸課題を解決することを可能とした新規な文字
認識後処理方式を提供することにある。
【0009】
【課題を解決するための手段】上記目的を達成する為
に、本発明に係る文字認識後処理方式は、空白等の区切
目情報をもとに入力文字列の照合範囲を定める照合範囲
抽出手段と、文字認識結果およびそれまでの照合結果に
応じて照合する単語を辞書より選択して読出す辞書読出
手段と、読出した単語と単語毎に付帯された区切目情報
をもとに照合可否を判定する照合可否判定手段と、照合
可となる単語に対して文字認識結果との類似度を求める
照合手段と、すべての照合結果より入力文字列に対する
後処理結果を判定する判定手段とを具備して構成され
る。
【0010】
【実施例】次に本発明をその好ましい一実施例につい
て、図面を参照して具体的に説明する。
【0011】図1は本発明の一実施例を示すブロック構
成図であり、処理の全体の流れを示す。
【0012】図1を参照するに、処理開始10により、
照合範囲抽出11が起動され、文字認識結果20をもと
に、照合範囲テーブル21を作成する。次に辞書読出1
2で文字認識結果20と照合範囲テーブル21と照合中
間結果23をもとに辞書22より照合に必要な情報を読
み出す。
【0013】必要な情報を読出した場合には照合可否判
定13に、該当する情報がなくなった場合には判定15
に処理をうつす。照合可否判定13は、照合範囲テーブ
ル21を利用して、読出した情報の区切目情報の妥当性
をチェックする。区切目情報が妥当な場合には、照合1
4に処理をうつし、妥当でない場合には辞書読出12に
戻る。
【0014】照合14は、辞書22から読出した情報と
文字認識結果20の類似性を確認し、その結果を照合位
置等と共に照合中間結果23に格納し、辞書読出12に
戻る。
【0015】判定15は、照合中間結果23より文字列
全体の判定結果24を作成し、処理を終了する。
【0016】本処理は、処理を実行する中央演算処理装
置(CPU)と処理プログラム10〜16と各種データ
20〜24を格納する記憶媒体(RAMとハードディス
ク、フロッピーディスク等)により構成することができ
る。
【0017】以下に処理11〜13について詳細に説明
する。なお処理14、15に関しては周知の技術で実現
可能であるために、詳細な説明は省略する。
【0018】図2は文字認識結果20の一例を示す図で
あり、本実施例では文字認識結果として各文字位置に3
つの候補が出力されている。照合範囲抽出処理11で
は、文字認識結果20を基にして、まず空白文字を抽出
し、照合範囲テーブル21の該当位置を“1”にセット
し、次に句読点、括弧等の区切位置を文字認識結果20
より抽出し、照合範囲テーブル21の該当位置を“2”
にセットする。その他の照合範囲テーブル21の位置は
“0”とされる。本照合範囲抽出処理を図2の文字認識
結果20に対して施した結果を図3に示す。
【0019】辞書読出処理12では、辞書照合範囲テー
ブル21の空白間の長さをもとに単語の長さ上限値を設
定し、照合中間結果23をもとに単語の接続条件を設定
し、文字認識結果20の候補文字を検索キー文字とし
て、条件をみたす単語を検索して読み出す。辞書22に
は単語とその単語に関する情報が図4のような形式で格
納されている。接続条件は図4の接続情報を、単語の長
さは図4の単語長を、キー文字検索は図4の検索情報を
それぞれ利用する。
【0020】照合可否判定処理13では、図4のフラッ
グエリアが使用される。図5はフラッグエリアの中身を
取出したものである。図の前区切は必ずその単語の直前
に区切文字がある場合に“1”、そうでない場合には
“0”が、後区切の場合には直後に区切文字がある場合
には“1”が、そうでない場合には“0”がそれぞれセ
ットされている。
【0021】例えば、英単語では多くの場合前区切/後
区切共に“1”が、住所辞書の場合には日本住所の都道
府県名には前区切に“1”が後区切に“0”がセットさ
れている。
【0022】照合可否判定13は、辞書22の単語に関
するこれらの情報を読出し、前区切フラッグか後区切フ
ラッグが“1”の場合には、照合範囲テーブル21の該
当位置を参照し、テーブル21の該当位置が“0”でな
ければ照合可能と判定する。例えば、英単語「NOWH
ERE」は照合可能とされるが、「NOW」は照合不可
とされる。
【0023】
【発明の効果】以上説明したように、本発明によれば、
単語毎に区切文字の情報を利用して、区切文字の必要の
有無を確認しながら照合を行う構造を有しているので、
日本語のべた書文字列と欧米文の混在する可能性のある
文字列に対しても安定して矛盾のない文字認識照合を行
う効果が得られる。
【図面の簡単な説明】
【図1】本発明の一実施例を示すブロック図である。
【図2】図1に示した文字認識結果20の一例を示す図
である。
【図3】図1に示した照合範囲テーブル21の一例を示
す図である。
【図4】図1に示した辞書22の一部分の例を示す図で
ある。
【図5】図4に示した辞書のフラッグエリアの一部分の
例を示す図である。
【符号の説明】
11…照合範囲抽出 12…辞書読出 13…照合可否判定 14…照合 15…判定 20…文字認識結果 21…照合範囲テーブル 22…辞書 23…照合中間結果 24…判定結果

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 文字の並びに関する情報を記載した辞書
    をもとに、文字認識の結果を確認/補正する文字認識後
    処理方式において、空白等の情報をもとに入力文字列の
    照合範囲を定める照合範囲抽出手段と、文字認識結果お
    よびそれまでの照合結果に応じて照合する情報を辞書よ
    り選択して読出す辞書読出手段と、読出した情報と情報
    毎に付帯された区切目情報をもとに照合可否を判定する
    照合可否判定手段と、照合可となる情報に対して文字認
    識結果との類似度を求める照合手段と、すべての照合結
    果より入力文字列に対する後処理結果を判定する判定手
    段とを有することを特徴とする文字認識後処理方式。
  2. 【請求項2】 前記照合範囲抽出手段は、文字認識結果
    を基にして、まず空白文字を抽出して照合範囲テーブル
    の該当位置を“1”にセットし、次に句読点、括弧等の
    区切位置を抽出して該当位置を“2”にセットし、その
    他の前記照合範囲テーブルの位置を“0”にセットし、
    前記照合可否判定手段は、辞書の単語に関する情報を基
    にして、前区切フラッグか後区切フラッグが“1”の場
    合には前記照合範囲テーブルの該当位置を参照し、該該
    当位置が“0”でなければ照合可能と判定することを更
    に特徴とする請求項1に記載の文字認識後処理方式。
JP5088886A 1993-04-15 1993-04-15 文字認識後処理方式 Pending JPH06301822A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5088886A JPH06301822A (ja) 1993-04-15 1993-04-15 文字認識後処理方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5088886A JPH06301822A (ja) 1993-04-15 1993-04-15 文字認識後処理方式

Publications (1)

Publication Number Publication Date
JPH06301822A true JPH06301822A (ja) 1994-10-28

Family

ID=13955470

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5088886A Pending JPH06301822A (ja) 1993-04-15 1993-04-15 文字認識後処理方式

Country Status (1)

Country Link
JP (1) JPH06301822A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7162086B2 (en) 2002-07-09 2007-01-09 Canon Kabushiki Kaisha Character recognition apparatus and method

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62184586A (ja) * 1986-02-07 1987-08-12 Matsushita Electric Ind Co Ltd 文字認識装置
JPS63150788A (ja) * 1986-12-16 1988-06-23 Canon Inc 文字認識装置
JPH03150691A (ja) * 1989-11-08 1991-06-27 Canon Inc 文字処理装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62184586A (ja) * 1986-02-07 1987-08-12 Matsushita Electric Ind Co Ltd 文字認識装置
JPS63150788A (ja) * 1986-12-16 1988-06-23 Canon Inc 文字認識装置
JPH03150691A (ja) * 1989-11-08 1991-06-27 Canon Inc 文字処理装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7162086B2 (en) 2002-07-09 2007-01-09 Canon Kabushiki Kaisha Character recognition apparatus and method

Similar Documents

Publication Publication Date Title
Grefenstette Tokenization
JP3022539B1 (ja) 文書検索装置
JPH06215184A (ja) 抽出領域のラベリング装置
JPH06301822A (ja) 文字認識後処理方式
JP3616126B2 (ja) 特殊範囲抽出装置および文抽出装置
JP2560959B2 (ja) 文字認識後処理方式
JP2839515B2 (ja) 文字読取システム
JPS6394365A (ja) 日本文文書誤り検定装置
JP3151866B2 (ja) 英文字認識方法
JP2874199B2 (ja) 単語辞書照合装置
JPH0256086A (ja) 文字認識の後処理方法
JP2746345B2 (ja) 文字認識の後処理方法
JPS63782A (ja) パタ−ン認識装置
JP2000029877A (ja) 文書構造解析方法及び装置及び文書構造解析プログラムを格納した記憶媒体
JPH0773188A (ja) 情報抽出方法
JP2969751B2 (ja) 文字認識処理方式
JPS63282586A (ja) 文字認識装置
JPH04330565A (ja) 自然言語処理システム
JPS6366665A (ja) 文書解析整形装置
JP2917310B2 (ja) 単語照合における単語辞書検索方式
JP3116453B2 (ja) 英文字認識装置
JPS61161588A (ja) 文字認識後処理方式
JPH0576666B2 (ja)
JPH05225183A (ja) 日本文単語誤り自動検出装置
JPH01281561A (ja) 日本文訂正候補文字抽出方法

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 19970114