JPH01134587A - 最良優先探索による文字認識後処理方式 - Google Patents

最良優先探索による文字認識後処理方式

Info

Publication number
JPH01134587A
JPH01134587A JP62292897A JP29289787A JPH01134587A JP H01134587 A JPH01134587 A JP H01134587A JP 62292897 A JP62292897 A JP 62292897A JP 29289787 A JP29289787 A JP 29289787A JP H01134587 A JPH01134587 A JP H01134587A
Authority
JP
Japan
Prior art keywords
character
node
candidate
post
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP62292897A
Other languages
English (en)
Inventor
Fumito Nishino
文人 西野
Noriyasu Takao
高尾 哲康
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP62292897A priority Critical patent/JPH01134587A/ja
Publication of JPH01134587A publication Critical patent/JPH01134587A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔概要〕 文書リーグの文字認識部が認識した文字候補の中から1
文法等を考慮した計算機による言語的処理に基づいて、
最も確からしい候補文字を選出する最良優先探索による
文字認識後処理方式に関し。
人工知能等で用いられる最良優先探索手法を文字認識の
後処理に応用することにより、精度よく効率的に候補文
字を確定することを目的とし。
文字認識によって得られた文字候補集合の列に対して、
単語照合検査と文法的制約を満足する文字列を検索する
単語検索手段を含むノード生成処理手段と、生成された
ノードについて文字候補の評価値および言語的評価値か
らノードの評価値を計算する評価値算出手段と、上記ノ
ードの評価値の高いものを優先して探索を進める探索制
御手段とを備えるように構成する。
〔産業上の利用分野〕
本発明は1文書リーグの文字認識部が認識した文字候補
の中から1文法等を考慮した計算機による言語的処理に
基づいて、最も確からしい候補文字を選出する最良優先
探索による文字認識後処理方式に関する。
印刷文字または手書き文字の文書を入力する文書リーグ
装置が用いられている0例えば1日本語では9片板名の
「口」と漢字の「口」1片板名の「り」と漢字の「夕」
など、類偵文字が多くあるので2日本語文書リーグ装置
において1文字パターンの分析だけによる文字認識では
、その精度がいくら高くなっても、認識率に限界が生じ
る。そのため1文字構成による文字認識の後に、言語的
処理が必要であり、性能のよい後処理装置が望まれる。
〔従来の技術〕
第4図は従来方式の例、第5図は従来技術による認識例
を示す。
従来9日本語の文字認識では9例えば住所1氏名、商品
名等といった文字または単語単位の枠を設定し、その枠
内に記入された文字または文字列を認識対象の単位とす
るのが普通であった。
このように、予め設定された枠内の日本語または欧米語
の文書では、単語ごとの区切りがはっきりしているので
、単純に単語辞書との照合検査による文字認識の後処理
が行われ、各単語の処理は。
独立に行われていた。
しかし、このような枠などの制限がない、もっと−船釣
な日本語文書等を入力する装置も実用化され始めている
。第4図に示す装置は、その従来の文書リーグ装置の例
である。第4図において。
IOは文書リーグ装置、12は文字認識部、13は後処
理部を表す。
文字認識部12では、スキャナで読み取った2値画像情
報を解析し、まず2文字ブロックの切出しを行う0次に
9行切出しを行い3文字単位の文字切出しを行う。そし
て、切出した各文字について特徴を抽出し、標準バクー
ンの特徴との照合により2文字認識を行う。この文字認
識結果は、1つに確定できない場合、第1候補、第2候
補、・・・というように順位を付けて、後処理部13に
通知する。
後処理部13では、従来方式によれば、まず。
文字認識結果である一連の文字列を2例えば文節で区切
ることにより、単語辞書との照合範囲を決定する。この
文節を認定する場合9例えば平仮名から漢字または片仮
名というような文字種の変化点および句読点で2文節の
区切りをつけるようにしている。そして、照合範囲を決
定したうえで。
単語辞書との照合を行い、さらに文法的な接続可否の照
合を行うことによって、最良の認識結果を選択するよう
にしている。
しかし、このような方式では1例えば「は生類」、「ま
新しい」というように、“平板名士漢字”の単語等では
、最初の文節を認定するところでうまくいかない場合が
あった。
第5図は、その認識の具体例であって1文字認識部12
による文字認識結果についての後処理により、最終出力
が[電話のシグマホンはヒジキズの・・・」となってい
る。
最初に文節を認定しない方式では、仮名漢字変換などで
利用されている最長一致法等を利用して。
前から順番に単語を確定していくやり方が使われている
〔発明が解決しようとする問題点〕
従来方式によれば1文字種などの情報により。
照合範囲を決定したうえで、言語的評価を行うようにし
ている。従って、照合範囲の決定に誤りがある場合には
、正しい評価ができないという問題があった。また、最
長−敗法等を利用した従来の方式では、精度よく最終出
力を得ることができない場合があるという問題があった
本発明は上記問題点の解決を図り1人工知能等で用いら
れる最良優先探索手法を文字認識の後処理に応用するこ
とにより、精度よく効率的に候補文字を確定する手段を
提供することを目的としている。
c問題点を解決するための手段〕 第1図は本発明の原理説明図である。
第1図において、10は日本語文書等の文書リーグ装置
、11は文書のパターンを2値画像情報として読み取る
スキャナ、12はパターンの特徴を抽出して照合するこ
とにより文字認識を行う文字認識部、13は文字候補の
中から正しい文字を選出する後処理部、14は最良優先
探索による探索制御を行う探索制御部、15は探索の対
象となるノードを動的に生成するノード生成処理部、1
6は各ノードについての評価値を計算する評価値算出処
理部、17は文法的な単語の隣接規則が予め登録された
隣接規則記憶部、18は各単語およびその品詞等の種別
情報が登録された単語辞書。
N1〜N4はノードを表す。
文字認識部12は、パターンの解析のみでは。
例えば片仮名の「口」と漢字の「口」というように、1
つの候補に絞れない場合がある。このような場合1文字
認識部12は、複数の文字候補を。
それらの認識における各評価値と共に、11を処理部1
3に通知する。文字認識部12による文字U2識方式は
1例えば多元圧縮法など種々の方式が知られているが、
どのような方式を採用してもよい。
本発明は、特に後処理部13における処理に関連してお
り、後処理部13は1文字認識部12から各文字に対す
る候補文字と、それぞれの文字に対する評価値を入力と
して受は取ると1人工知能の分野等で用いられている最
良優先探索手法を利用することにより、候補文字群の列
から言語的に正しい文字列の並びを決定する。
探索制御部14は、探索空間における初期状態のノード
を出発点として、各ノードの評価値の高いものを優先し
て探索を進める制御手段である。
ノード生成処理部15は1次に処理すべき文字位置と、
これまでに処理して確定した単語のリストとを含む情報
によって定義される状態空間からなるノードを生成する
処理を行うものである。評価値算出処理部16は、生成
されたノードについて文字候補の評価値および言語的評
価値から各ノードの評価値を計算する処理を行うもので
ある。
〔作用〕
本発明では、後処理部13の課題を1次のような探索問
題として定義する。
+a+  状態空間は2次に処理すべき文字の位置と。
これまでに処理して確定した単語のリストの対で与えら
れる。例えば、この状態空間は。
(7,[(、一般的、な、意志]) と表される。これは、ここまでの処理の結果の単語リス
トが、[(、一般的、な、意志]であり1次に7文字目
から処理が行われる状態を示す。なお、′(”は9文頭
を示すために、付加した記号である。
Tbl  初期状態は1文字の位置が1で1文頭記号の
みからなるリストを、確定単語リストとする状態、すな
わち、  (1,[、、<  1)で与えられる。
tel  最終状態は1文字の位置が(文字の最後の位
置+1)で、言語的に正しい言語列を確定単語リストと
する状態である。
例:  (12,[、(、一般的、な、意志、疎通。
の2手段]) (dl  各状態で適用できる作用は、その状態が与え
る文字の位置を起点として1文字認識結果の候補文字列
群の中から、確定単語リストに言語的に接続可能な単語
を選ぶことである。この作用を適用して得られる新しい
状態は9文字の位置を単語の文字数分だけ移動し2選ば
れた単語を元の確定単語リストに追加したものである。
例えば、第1図(ロ)に示すノードN1の状態で、4文
字目以降に続く文字候補に、「在」。
「な」、「を」などの候補があったとする。このノード
Nlの状態において適用できる作用として。
単語「を」を選らぶことは、形容動詞「一般的」に、格
助詞「を」が接続不可能であるという言語知識によって
排除される。単語「在」ないしは「な」を選ぶことによ
り、それぞれ新しい状態のノードN2.N3が生成され
る。
これらの新しい状態に対する評価値は、各文字候補の評
価値、単語の出現頻度等による評価値。
単語の接続の評価値から計算される。ここでは。
ノードN2に対する評価値が11で、ノードN3に対す
る評価値が18となっている。そこで、最も有望そうな
ノードN3を優先して選び、探索を進める。
最良優先探索(best4irst 5earch)を
利用した探索のブロシジ中は、以下のとおりである。
但1μmμm−探索 ■ 初期状態を候補リスト(openlist)に入れ
る。
■ 画 ■  if  openlist”空リスト then
 exit(fail)■   n : xpop(o
penlist)(openlistの先頭要素(最も
評価値の高いノード)をnに代入し、 openlis
tからは、その要素を取り除く)■   ■ 終了(n
) then  exit(success)o   
nを展開し、すべての子ノードを生成し。
その各々からnへ向かうポインタを付けて。
0p6611sLに加え、 openlistを評価値
の高い順にソートする。
■ 剋…並り 上記処理■は、現在の候補リストのうちで最も有望そう
なものを選ぶ処理である。処理■で、もし取り出した要
素が2文章の終わりまたは句読点を認識したならば、処
理を終了する。句読点を認識しても、まだ文章の終了位
置まで達していないならば、その句読点の終了位置の次
の文字から。
再び探索を始める。すなわち9句読点の認識をもって探
索のカットを行う。これは句読点の認識に関する精度の
高さを仮定してのことである。
処理■では、そのノードの次の文字候補を選び。
その文字候補で始まって候補となり得る単語(文字認識
結果の候補の組み合わせで作られ、前の単語に接続可能
なもの)を作り、評価値を計算することによって新しい
ノードを作り、これまでに生成したノードの集合を追加
する。■から■へ戻るループにより、それまでに生成さ
れたノードのうち最も有望そうなノードを選び出し、こ
の過程を続行する。
〔実施例〕
第2図は本発明による実施例、第3図は本発明の一実施
例処理説明図を示す。
例えば第2図に示すように2文書リーグ装置への入力文
章が、「電話のシグマホンはビジネスの・・・」であっ
たとする0文字認識部12による認識結果は、後処理部
13に入力され、単語照合検査と接続検定により言語的
処理が行われる。
後処理部13において1例えば第2図に示す■の状態ま
で処理が進んだとする。ここでは、「電話のシグマホン
は」までが確定している。この評価値は10.0である
次に、「は」に続く文字候補の組み合わせで作られる言
葉であって、単語辞書に登録され、かつ格助詞「は」に
接続可能なものを検索する6例えば、第1候補「ヒ」で
始まる単語として、「ヒザ」、「ヒジ」、「ヒール」、
・・・などがある場合。
「ジ」が「ヒ」に読(認識候補内に存在するので。
「ヒジ」が選ばれることになる。
「ヒジ」という単語がみつかると、第2図■の状態にな
り、この結果を評価する。ここで評価値は、候補文字の
評価値(「ヒ」の評価値と「ジ」の評価値)、単語「ヒ
ジ」の評価値、および単語「ヒジ」が格助詞「は」に接
続するときの評価値から計算される。この計算結果では
、評価値が。
12.0となっている。単語接続に関する接続可否およ
び評価値計算の基礎情報は、第1図に示す隣接規則記憶
部17に予め記憶されている。これには1名詞、動詞、
助詞等の品詞をさらに詳細に分類した単位で、マトリッ
クス状の関係情報として。
前後の結び付きの評価情報が登録されている。例えば、
普通名詞に動詞の語幹が直接続く確率は小さいので、そ
の評価値は小さい、格助詞「力月の後に9名詞、動詞が
続くことは普通にあるので。
これらの評価値は大きい。
第2図■の評価終了時点で、この評価値12.0の結果
が一番評価が高いので2次の■では、■に続(単語を検
索して、ここでは「キズ」を得ている。ここで評価値を
計算するのであるが、この場合、「ヒジ」と「キズ」と
いう片仮名同士の接続であり、このような接続にはマイ
ナスの評価が与えられているので、■の結果の評価値は
、9.0と低いものになる。
最良優先探索を用いない手法では、■の続きが実行され
ることになるが1本発明では、最良優先探索を用いるの
で、第2図■では、■の続きではなく、まだ候補が存在
する一番評価値が高いもの。
すなわち、■の別候補を探す。そして「キス」を得る。
しかし、これも片仮名の単語の接続なので。
評価値が下がり1次の■では、さらに別の候補を検索す
る。しかし、ここでは別候補が存在しないので2次の■
では、■を除く一番裔い評価を持つ■の別候補を検索し
、「ビジネス」という候補を得る。第2図■では、未展
開で一番評価の高い■の続きを検索する。
以上のような処理の結果、「電話のシグマホンはビジネ
スの・・・」といった最終出力が得られることになる。
第3図は9本発明の一実施例に係る処理を、フローチャ
ートの形で表したものである。以下の説明における■〜
■は、第3図に示す処理■〜■に対応する。
■ 初期状態を候補リストに入れる。
■ 候補リスト中に状態空間の要素があるかどうかを調
べる。候補リスト中に要素がない場合。
探索失敗とする。
■ 候補リストの先頭要素(一番評価の高い1つの状態
空間)を取り出す。
■ 取り出した要素が1句読点などの区切り記号である
かどうかを調べる。区切り記号である場合、探索成功と
して、それまでの確定単語リストの結果を、後処理によ
る候補選択結果とする。
■ 区切り記号でない場合、取り出した先頭要素で指定
される文字位置にある候補文字集合の各候補文字から始
まる単語を検索する。
■ 検索された単語と候補文字集合列とを突き合わせて
、候補文字集合列中の文字だけで構成される単語以外の
ものをふるい落とす。
■ 確定単語リストに言語的に接続不可能なものをふる
い落とす。
■ 残った単語のそれぞれに対して、状態空間(次に処
理すべき文字位置と確定単語リストの対)を作成し、評
価値を計算する。
■ 候補リストに新しい状態空間を追加し、候補リスト
が状態空間の評価の高いものから順になるようにソート
する。
以下、処理■へ制御を戻し、同様に処理を繰り返す。
〔発明の効果〕
以上説明したように9本発明によれば、最良優先探索に
より文字認識の後処理を行うことにより。
効率的に精度のよい後処理結果を得ることができるよう
になる。
【図面の簡単な説明】
第1図は本発明の原理説明図。 第2図は本発明による実施例。 第3図は本発明の一実施例処理説明図。 第4図は従来方式の例。 第5図は従来技術による認識例を示す。 図中、10は文書リーグ装置、11はスキャナ。 12は文字認識部、13は後処理部、14は探索制御部
、15はノード生成処理部、16は評価値算出処理部、
17は隣接規則記憶部、18は単語辞書、Nl〜N4は
ノードを表す。

Claims (1)

  1. 【特許請求の範囲】 文書リーダの文字認識部が認識した文字候補の中から、
    正しい文字を選出する文字認識後処理方式において、 文字認識によって得られた文字候補集合の列に対して、
    単語照合検査と文法的制約を満足する文字列を検索する
    単語検索手段を含むノード生成処理手段(15)と、 生成されたノードについて文字候補の評価値および言語
    的評価値からノードの評価値を計算する評価値算出処理
    手段(16)と、 上記ノードの評価値の高いものを優先して探索を進める
    探索制御手段(14)とを備えたことを特徴とする最良
    優先探索による文字認識後処理方式。
JP62292897A 1987-11-19 1987-11-19 最良優先探索による文字認識後処理方式 Pending JPH01134587A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP62292897A JPH01134587A (ja) 1987-11-19 1987-11-19 最良優先探索による文字認識後処理方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62292897A JPH01134587A (ja) 1987-11-19 1987-11-19 最良優先探索による文字認識後処理方式

Publications (1)

Publication Number Publication Date
JPH01134587A true JPH01134587A (ja) 1989-05-26

Family

ID=17787804

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62292897A Pending JPH01134587A (ja) 1987-11-19 1987-11-19 最良優先探索による文字認識後処理方式

Country Status (1)

Country Link
JP (1) JPH01134587A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04296989A (ja) * 1990-02-02 1992-10-21 Internatl Business Mach Corp <Ibm> 文字認識方法及び装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04296989A (ja) * 1990-02-02 1992-10-21 Internatl Business Mach Corp <Ibm> 文字認識方法及び装置

Similar Documents

Publication Publication Date Title
TW448381B (en) Automatic segmentation of a text
US20130096911A1 (en) Normalisation of noisy typewritten texts
JP3765799B2 (ja) 自然言語処理装置、自然言語処理方法及び自然言語処理プログラム
CN112860896A (zh) 语料泛化方法及用于工业领域的人机对话情感分析方法
US20220019737A1 (en) Language correction system, method therefor, and language correction model learning method of system
JP3992348B2 (ja) 形態素解析方法および装置、並びに日本語形態素解析方法および装置
Uthayamoorthy et al. Ddspell-a data driven spell checker and suggestion generator for the tamil language
US20020152246A1 (en) Method for predicting the readings of japanese ideographs
JP3309174B2 (ja) 文字認識方法及び装置
JP5203324B2 (ja) 誤字脱字対応テキスト解析装置及び方法及びプログラム
US20110106849A1 (en) New case generation device, new case generation method, and new case generation program
CN113330430A (zh) 语句结构向量化装置、语句结构向量化方法及语句结构向量化程序
CN115455986A (zh) 一种西班牙语地名翻译方法、装置、设备及介质
Naseem A hybrid approach for Urdu spell checking
JPH01134587A (ja) 最良優先探索による文字認識後処理方式
CN111428475A (zh) 分词词库的构建方法、分词方法、装置及存储介质
JP3952964B2 (ja) 読み情報決定方法及び装置及びプログラム
KR100420474B1 (ko) 부분문틀을 이용한 장문 번역 장치 및 그 방법
Minghu et al. Segmentation of Mandarin Braille word and Braille translation based on multi-knowledge
Mon Spell checker for Myanmar language
JP2020004157A (ja) 分類方法、装置、及びプログラム
CN114661917B (zh) 文本扩增方法、系统、计算机设备及可读存储介质
KR102717117B1 (ko) 사용자의 의도를 반영한 코드 생성 장치 및 방법
US20240160839A1 (en) Language correction system, method therefor, and language correction model learning method of system
JPH01134585A (ja) 分離文字処理機能を持つ文書リーダ装置