JPH0765130A - 文字認識装置 - Google Patents

文字認識装置

Info

Publication number
JPH0765130A
JPH0765130A JP5180334A JP18033493A JPH0765130A JP H0765130 A JPH0765130 A JP H0765130A JP 5180334 A JP5180334 A JP 5180334A JP 18033493 A JP18033493 A JP 18033493A JP H0765130 A JPH0765130 A JP H0765130A
Authority
JP
Japan
Prior art keywords
character
characters
recognition device
trigger
lattice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5180334A
Other languages
English (en)
Inventor
Shiori Ooaku
志緒理 大阿久
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP5180334A priority Critical patent/JPH0765130A/ja
Publication of JPH0765130A publication Critical patent/JPH0765130A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】 【目的】 文字列の最も区切り誤りの少ない適当な言語
解析範囲(トリガー)を定め、誤解析を少なくする。 【構成】 画像入力部1によりイメージ画像を入力し、
文字認識部2において各文字の正解候補となる複数の認
識文字を含んだ文字ラティスを出力する。後処理部3
は、日本語としてより適当な文とするため、文字ラティ
スから形態素解析処理を行う言語処理部5と、適切なト
リガー位置(文字ラティスが区切られた位置)を出力す
るトリガー検出部4を有する。このような構成により、
あらかじめ設定しておいた文字および文字列を文字ラテ
ィスより検索し、その前後の文字位置および着目文字位
置の候補文字中の文字種と候補文字数によって、その文
字位置で区切るかどうかを決定し、区切れた範囲を1単
位として言語解析を行なう。

Description

【発明の詳細な説明】
【0001】
【技術分野】本発明は、文字認識装置に関し、より詳細
には、文字認識装置における言語解析を行なううえで、
区切り誤りの少ない単位で形態素解析を行うようにし、
誤解析を少なくすることができるようにした文字認識装
置に関する。
【0002】
【従来技術】一般に、文字認識装置は、認識された文字
列よりも、もっともらしい日本語文とするために、言語
処理部を有する。言語処理部は、認識結果の第1候補文
字で生成された文字列に形態素解析を行ない、不具合が
あれば第2候補以降の文字と入れ換えなどの処理を行な
っている。形態素解析の主な手法としては、2つの手法
がある。文頭から順次、単語辞書を検索、単語を確定し
ていく方法とある範囲を定めその範囲内で形態素解析を
行ない単語を確定する方法である。本発明は、後者の手
法を用いた場合に適用するものである。ある範囲を定め
るという手法は、範囲を区切る位置を一般的に、句読点
もしくは助詞としている。しかし、文字認識の場合は、
誤認識文字も含まれている場合が多いので、誤った位置
で区切ってしまい、誤読の修正ができない場合がある。
例えば、句点「。」は、[0][〇]などと類似してい
るので、[〇]であるべき文字が、誤って句点に認識さ
れている場合も多い。そのため、第一候補文字が句読点
と認識されている文字で区切ることは一概にはできな
い。また、文字ラティスすべてを形態素解析を行うと、
検索した単語候補が爆発し、解析処理も膨大なものとな
るため、文字ラティスを適切な位置で区切り、解析処理
に渡す必要がある。
【0003】本発明に係る従来技術を認識した公知文献
としては、例えば、特開平3−156589号公報に
「誤読文字の検出、修正方法」が提案されている。この
公報のものは、入力された文字の特徴パターンと、予め
記憶されている各文字の標準パターンとを比較して文字
を認識した後、認識された文字列を句読点で区切り、該
句読点で区切られた文字列の中からひらがな1文字助詞
を抽出し、該抽出された文字の前後の文字を予め記憶さ
れているひらがな1文字助詞を含む単語から抽出した前
後2文字の連接表と比較して抽出された文字が助詞であ
るかどうかを確定し、助詞と確定された文字でさらに文
字列を分割し、分割された文字列内で最長一致法によ
り、単語辞書と照合しながら誤読文字の検出,修正を行
なうものである。
【0004】すなわち、認識された文字列をまず句読点
で区切り、該句読点で区切られた文字列の中からひらが
な1文字助詞を抽出し、その抽出された文字を含む単語
から抽出した2文字の連接表を用い、該連接表と比較し
て助詞であるかどうかを判別し、助詞と確定された文字
でさらに文字列を分割するというものである。
【0005】しかし、前記公報に記載された発明は、句
読点で区切る際に句読点検出手法にまで至っていない。
また、助詞で区切る際には、前記助詞を含む単語から抽
出した前後2文字の連接表を作成しなければならず、さ
らに、この連接表のサイズは大きいものとなると推測で
きる。更に、1文字動詞語尾および頻出ひらがな2文字
単語なども文字列分割の対象となされているが、それら
の語の抽出手法にまでは至っていない。
【0006】
【目的】本発明は、上述のごとき実情に鑑みてなされた
もので、文字認識装置として最も区切り誤りの少ない適
当な言語解析範囲を定め、文字認識結果の誤読の検出修
正を行なうための言語処理部を有する文字認識装置を提
供することを目的としてなされたものである。
【0007】
【構成】本発明は、上記目的を達成するために、(1)
文字画像データに基づいて文字を認識する認識手段と、
あるしきい値以上の複数の認識文字を候補文字とした文
字ラティスを出力する出力手段と、言語処理手段と、該
言語処理手段によって認識文字列の文字列を修正する修
正手段を有する文字認識装置において、あらかじめ設定
しておいた文字および文字列を文字ラティスより検索す
る検索手段と、その前後の文字位置および着目文字位置
の候補文字中の文字種と候補文字数によって、その文字
位置で区切るかどうかを決定する決定手段と、該決定手
段により区切れた範囲を1単位として言語解析を行なう
言語解析手段とを有すること、更には、(2)前記着目
文字の候補文字数が2以上である文字位置では、区切ら
ないこと、更には、(3)前記区切り位置の決定をあら
かじめ設定しておいた助詞、句読点・カンマ・ピリオド
・閉じ括弧をキーとして行なうこと、更には、(4)前
記区切り位置を決定するのに必要な助詞および句読点・
カンマ・ピリオド・閉じ括弧を記述したトリガー表を有
することを特徴としたものである。以下、本発明の実施
例に基づいて説明する。
【0008】図1は、本発明による文字認識装置の一実
施例を説明するための構成図で、図中、1は画像入力
部、2は文字認識部、3は後処理部、4はトリガー検出
部、5は言語解析部、6は出力部である。画像入力部1
によりイメージ画像を入力し、文字認識部2において、
各文字の正解候補となる複数の認識文字を含んだ文字ラ
ティス(図2)を出力する。後処理部3は、日本語とし
てより適切な文とするため、文字ラティスから形態素解
析処理を行なう言語解析部5を有する。ここで、ある基
準で文字ラティスを区切り、その単位で形態素解析処理
をおこなう手法が一般的に使用されている。
【0009】本発明では、文字ラティスが区切られた位
置をトリガーと呼び、適切なトリガー位置を出力するト
リガー検出部4を有する。文字ラティスは、トリガー検
出部4に渡される。該トリガー検出部4は、トリガー表
照合部と判定部に分かれる。トリガー表照合部では、図
3に示すトリガー表と照合させ、トリガーとなる可能性
がある位置を検出して判定部に渡す。照合は、最長一致
法による。すなわち、トリガー表の文字列の中で、最も
長く一致した位置を検出する。
【0010】このトリガー表は、図3に示すように、ト
リガー位置を決定するのに必要な文字列を記述したもの
である。すなわち、助詞および助詞相当句・句読点・カ
ンマ・ピリオド・閉じ括弧を記述しておく。前記判定部
では、前後文字位置および着目文字位置の候補文字中の
文字種と候補文字数から、トリガー位置として妥当かど
うかを判定する。ここで、妥当と判断されたら、図4に
示すように、トリガーとみなされた位置までの文字ラテ
ィスを言語解析部5に渡す。妥当でないと判断された
ら、前記トリガー表照合部にもどる。これを文字ラティ
スの末尾まで繰り返す。
【0011】候補文字は、文字認識部2で得た評価値を
もとに、あるしきい値以上の文字を選出したものである
ので、候補文字数が多い場合は、認識では文字の確定が
難しいものであり、候補文字が1文字の場合は、より確
からしい文字である。
【0012】そこで、前記トリガー表照合部で検出した
文字列の確からしさを候補文字数で決定する。つまり、
候補文字がほかにない場合のみをトリガーの対象とす
る。さらに、後接文字の文字種によって確定するかどう
かを決める。後接文字の文字種の条件は、前記トリガー
表照合部で検出した文字列によって相違がある。助詞お
よび助詞相当句の場合は、次文字位置の候補文字の中に
ひらがながある場合は区切らない。こうすることで、誤
った位置で区切られてしまうことを防ぐ。
【0013】トリガーとみなすのは、以下の条件を満た
す場合である。 句読点・カンマ・ピリオド・「を」の場合 ・その文字に対する候補文字がほかになく、 ・次文字位置の候補文字の中に句読点・カンマ・ピリオ
ド・「を」・閉じ括弧がない。 閉じ括弧の場合 ・その文字に対する候補文字がほかになく、 ・次文字位置の候補文字の中に句読点・カンマ・ピリオ
ド・ひらがな・閉じ括弧がない。 助詞および助詞相当句の場合 ・次文字位置の候補文字の中にひらがながある場合はト
リガーとしない。 ・次文字位置の候補文字の中に句読点・カンマ・ピリオ
ド・ひらがな・閉じ括弧がない。
【0014】図5は、本発明による文字認識装置におけ
るトリガー判定を行うためのフローチャートである。以
下、各ステップに従って順に説明する。まず、句読点あ
るいはカンマ・ピリオド・「を」があり、候補文字数が
1であるかどうかを判断し(step1)、句読点・カンマ
・ピリオド・「を」のいずれかがあり、候補文字数が1
であれば、次に、次文字の候補文字中に句読点あるいは
カンマ・ピリオド・「を」がないかどうかを判断する
(step2)。句読点・カンマ・ピリオド・「を」のいず
れもないなら、その位置をトリガー位置とし(step
3)、前トリガー位置から現在位置までを言語解析部に
渡す。
【0015】前記step2において、句読点・カンマ
・ピリオド・「を」のいずれかがあれば、その位置は、
トリガー位置ではないので、初期化する(step4)。前
記step1において、句読点・カンマ・ピリオド・「を」
のいずれもなく、候補文字数が1でなければ、次に、ひ
らがな文字があるかどうかを判断し、ひらがな文字かつ
候補文字数が1であれば(step5)、次文字の候補文字
中に句読点、あるいはカンマ・ピリオド・「を」・ひら
がな・閉じ括弧がないかどうかを判断する(step6)。
いずれもなければ、前記step3へ行く。
【0016】step6において、いずれかがあれば、前記
step4へ行く。前記step5において、ひらがな文字がな
ければ、次に、閉じ括弧があり、候補文字数が1である
かどうかを判断し(step7)、Noであれば、前記step
4へ行き、Yesであれば、次に、次文字の候補文字中
に句読点・カンマ・ピリオド・「を」・「ひらがな」・
「閉じ括弧」がないかどうかを判断し(step8)、No
であれば、前記step4へ行き、Yesであれば前記step
3へ行く。
【0017】
【効果】以上の説明から明らかなように、本発明による
と、以下のような効果がある。 (1)請求項1においては、文字ラティスは、各文字の
候補文字中に字種が混在しており、文字認識装置におけ
る言語解析を行なう上で、区切り誤りの少ない単位で形
態素解析が行なえるので、誤解析を少なくすることがで
き、より日本語文として正しい結果が得られる。 (2)請求項2においては、不確定要素の多い文字位置
では区切らないことで、区切り誤りを防ぐことができ
る。 (3)請求項3においては、区切りの対象となる文字お
よび文字列を、助詞および助詞相当句、句読点・カンマ
・ピリオド・閉じ括弧とすることで、指定範囲の先頭を
文字頭になり得る語、末尾を文節末になりうる語と統一
することができ、形態素解析が容易となる。 (4)請求項4は、請求項1,2,3を実現するための
必須構成要素である。また、調整が必要な場合には、こ
の表に記述した区切りの対象となる文字および文字列を
追加削除することで対応できるので、チューニングも容
易に行なえる。
【図面の簡単な説明】
【図1】 本発明による文字認識装置の一実施例を説明
するための構成図である。
【図2】 本発明における文字ラティスを示す図であ
る。
【図3】 本発明におけるトリガー表を示す図である。
【図4】 本発明におけるトリガーの位置を説明するた
めの図である。
【図5】 本発明による文字認識装置におけるトリガー
判定を行うためのフローチャートを示す図である。
【符号の説明】
1…画像入力部、2…文字認識部、3…後処理部、4…
トリガー検出部、5…言語解析部、6…出力部。

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 文字画像データに基づいて文字を認識す
    る認識手段と、あるしきい値以上の複数の認識文字を候
    補文字とした文字ラティスを出力する出力手段と、言語
    処理手段と、該言語処理手段によって認識文字列の文字
    列を修正する修正手段を有する文字認識装置において、
    あらかじめ設定しておいた文字および文字列を文字ラテ
    ィスより検索する検索手段と、その前後の文字位置およ
    び着目文字位置の候補文字中の文字種と候補文字数によ
    って、その文字位置で区切るかどうかを決定する決定手
    段と、該決定手段により区切れた範囲を1単位として言
    語解析を行なう言語解析手段とを有することを特徴とす
    る文字認識装置。
  2. 【請求項2】 前記着目文字の候補文字数が2以上であ
    る文字位置では、区切らないことを特徴とする請求項1
    記載の文字認識装置。
  3. 【請求項3】 前記区切り位置の決定をあらかじめ設定
    しておいた助詞、句読点・カンマ・ピリオド・閉じ括弧
    をキーとして行なうことを特徴とする請求項1記載の文
    字認識装置。
  4. 【請求項4】 前記区切り位置を決定するのに必要な助
    詞および句読点・カンマ・ピリオド・閉じ括弧を記述し
    たトリガー表を有することを特徴とする請求項1記載の
    文字認識装置。
JP5180334A 1993-06-14 1993-07-21 文字認識装置 Pending JPH0765130A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5180334A JPH0765130A (ja) 1993-06-14 1993-07-21 文字認識装置

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP5-141909 1993-06-14
JP14190993 1993-06-14
JP5180334A JPH0765130A (ja) 1993-06-14 1993-07-21 文字認識装置

Publications (1)

Publication Number Publication Date
JPH0765130A true JPH0765130A (ja) 1995-03-10

Family

ID=26474066

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5180334A Pending JPH0765130A (ja) 1993-06-14 1993-07-21 文字認識装置

Country Status (1)

Country Link
JP (1) JPH0765130A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115587215A (zh) * 2022-10-18 2023-01-10 河南大学 一种基于语句通顺性的残断汉简图像缀合方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115587215A (zh) * 2022-10-18 2023-01-10 河南大学 一种基于语句通顺性的残断汉简图像缀合方法
CN115587215B (zh) * 2022-10-18 2023-10-20 河南大学 一种基于语句通顺性的残断汉简图像缀合方法

Similar Documents

Publication Publication Date Title
CN111859921A (zh) 文本纠错方法、装置、计算机设备和存储介质
CN110147546B (zh) 一种英语口语的语法校正方法及装置
KR100561227B1 (ko) 한-중 기계번역시스템의 용언구 패턴 자동 확장 및 검증장치 및 방법
EP2138959B1 (en) Word recognizing method and word recognizing program
US20110229036A1 (en) Method and apparatus for text and error profiling of historical documents
JP2000089786A (ja) 音声認識結果の修正方法および装置
JPH0765130A (ja) 文字認識装置
Mohapatra et al. Spell checker for OCR
JPH08166966A (ja) 辞書検索装置、データベース装置、文字認識装置、音声認識装置、および文章修正装置
JP2004264464A (ja) 特定分野辞書を利用した音声認識誤り訂正システム
JPH06215184A (ja) 抽出領域のラベリング装置
JP4047895B2 (ja) 文書校正装置およびプログラム記憶媒体
JPH09134410A (ja) 認識結果の確信度決定方法及び文字認識装置
JPH0619962A (ja) テキスト分割装置
JPH10240736A (ja) 形態素解析装置
JPH09185674A (ja) 誤認識文字検出装置、誤認識文字訂正装置、誤認識文字検出方法、および、誤認識文字訂正方法
JP4318223B2 (ja) 文書校正装置およびプログラム記憶媒体
JP2007226359A (ja) 読み評価方法、読み評価装置および読み評価用プログラム
JP3350127B2 (ja) 文字認識装置
JP4047894B2 (ja) 文書校正装置およびプログラム記憶媒体
JP3157557B2 (ja) 文字認識装置
JP3085107B2 (ja) 文字認識装置
JP2827066B2 (ja) 数字列混在文書の文字認識の後処理方法
JPH07152877A (ja) 英文字認識装置
JPH03156589A (ja) 誤読文字の検出,修正方法