JPH0433186A - 単語読取装置 - Google Patents

単語読取装置

Info

Publication number
JPH0433186A
JPH0433186A JP2140473A JP14047390A JPH0433186A JP H0433186 A JPH0433186 A JP H0433186A JP 2140473 A JP2140473 A JP 2140473A JP 14047390 A JP14047390 A JP 14047390A JP H0433186 A JPH0433186 A JP H0433186A
Authority
JP
Japan
Prior art keywords
word
words
character
entry
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2140473A
Other languages
English (en)
Inventor
Yasuhiro Okada
康裕 岡田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2140473A priority Critical patent/JPH0433186A/ja
Publication of JPH0433186A publication Critical patent/JPH0433186A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 この発明は、住所、氏名などの単語を読み取って認識す
る単語読取装置、特に単語を構成する文字を1文字毎に
認識し、その認識結果を用いて単語を修正する単語読取
装置に関するものである。
(従来の技術) 近年、計算機などへ大量かつ高速にデータをエントリす
るデータエントリ手段として単語読取装置が注目されて
おり、日本語においては漢字やカナや英数字などが複雑
に混在していることから、高精度に単語の読み取りがで
きる単語読取装置の開発が望まれている。このような単
語読取装置としては、光学式文字読取装置(OCR)が
知られている。
第11図は例えばr OCRのための知識処理方式」(
研究実用化報告Vo1.32.No、4.1983年)
に示された従来の単語読取装置の構成図を示し、図にお
いて、(1)は文字が記載されている帳票、(2)は上
記帳票(1)をイメージリーダ等により走査して帳票上
の濃度情報を電気信号に変換してディジタル化したパタ
ーンの文字イメージ情報信号を出力する走査手段、(3
)は入力文字を1文字毎に切り出して認識し、順位付け
られた認識候補文字を出力する文字認識手段で、例えば
第12図に示すように、上記走査手段(2)による光電
変換で得られる文字イメージ情報信号に対して、文字の
生成過程で生じる変動成分を除去して特徴抽出・識別の
処理を容易かつ安定に行わせるよう、位置(文字の重心
を基準の位置に合せるなど)・濃淡(文字領域の平均濃
度を基準値に合せるなど)・大きさ(文字の外接方形の
縦・横の長さの大きい方を基準値に合せるなど)等の正
規化を行う正規化手段(3a)と、文字を認識する上で
文字カテゴリの本質的な特徴であり、未知人力文字がい
ずれの文字カテゴリに属するかを判定する上で有効な特
徴を取り出す操作を行う特徴抽出手段(3b)と、抽出
した特徴値を、予め多量の文字パターンに対して特徴抽
出を行い、特徴値を文字カテゴリ毎に格納した識別辞書
(3d)と比較し、距離もしくは類似度を算出し、確か
らしいものから順位付けられた認識候補文字を出力する
識別手段(3C)及び上記識別辞書(3d)を有する。
また、第11図において、(4)は読み取りの対象であ
り記入形態が固定される単語を格納した固定記入単語辞
書、(5)は上記文字認識手段(3)から出力された認
識候補文字と上記固定記入単語辞書(4)内の単語とを
照合して単語を決定する固定記入単語読取手段であり、
認識候補文字のうち順位が上位で、かつ固定記入単語辞
書(4)に登録された単語を優先的に選択したものを単
語読み取りの結果として出力するようになされている。
第13図は上記構成の単語読取装置にて読み取られる帳
票(1)の−例を示す説明図で、図において、(6)は
入力文字列“福岡県福岡市東区箱崎1−1−1めぞん一
刻5号室”である。また、第14図はこの帳票上の文字
に対して、文字認識手段(3)から出力される認識候補
文字(7)の−例であり、入力文字列第1文字目の“福
”に対しては、“福”、“幅”の2個の認識候補文字が
、入力文字列第2文字目の”岡”に対しては、“岡”、
“間”、“間”、“関”の4個の認識候補文字が、人力
文字列第3文字目の“県”に対して、“具”、“県”、
“貝”の3個の認識候補文字が、以下、人力文字列第4
ないし第23文字目にはそれぞれ図示の如く認識候補文
字が存在する。
また、′!J15図と第16図は漢字住所の階層関係を
持フた単語辞書(4)内単語の一例を示す説明図で図示
の如く、(8)〜(32)に各単語が格納され、住所を
構成するこれら各単語(階層最下位の単語を除く)にr
lJから順に付し、1つ上位の単語のコードをキーとし
て単語を参照するようになされ、単語表記にはコードを
付して格納し、次の階層のキーとする。なお、文の先頭
から第1階暦車語とマツチングする時のコードはrQJ
とする。
さらに、第17図ないし第21図は文字認識手段(3)
から認識候補文字が受は渡されたことにより行われた処
理結果を示し、第17図は、第14図に示す認識候補文
字と第15図に示す漢字住所の固定記入単語辞書(4)
内の第1階層までの単語との照合結果を示す図である。
第17図において、(33)〜(36)は各単語と積算
距離を示す。なお、積算距離とは、n階層(n=1〜4
)までの照合が終了したときの最下位階層単語から最上
位階層単語までの距離の和である。
また、第18図は第14図に示す認識候補文字と第15
図に示す漢字住所の固定記入単語辞書(4)の第2階層
までの単語との照合結果を示す図で、(37)〜(41
)は各単語と積算距離を示す。
また、第19図は′tS14図に示す認識候補文字と第
15図に示す漢字住所の固定記入単語辞書(4)の第3
階層までの単語との照合結果を示す図で、(42)〜(
43)は各単語と積算距離を示す。
また、第20図は第14図に示す認識候補文字と第15
図に示す漢字住所の固定記入単語辞書(4)の第4階層
までの単語との照合結果を示す図で、(44)〜(45
)は各単語と積算距離を示す。
また、第21図は候補単語順位決定の一例を示す説明図
で、(46)〜(51)は各単語列と積算距離の平均で
ある。
ここで、上述のように、第17図、第18図、第19図
、第20図、第21図は、第1wI層から第4階層まで
の照合操作の結果を示しており、第17図から第18図
への処理切り替えは第1階暦車語に対する照合操作が終
了したこと(11語辞書の第1階暦車語のすべてと照合
が終了したこと)により行われ、第18図から第19図
への処理切り替えは、同様に第2階層重語に対する照合
操作が終了したこと、第19図から第20図への処理切
り替えは、同様に第3階層重語に対する照合操作が終了
したこと、第20図から821図への処理切り替えは、
同様に第4階層重語に対する照合操作が終了したことに
より処理切り替えが行われる。
さらに、第22図は候補単語抽出の一例を示す説明図で
、(53)〜(67)は候補単語として抽出される各単
語を示し、また、第23図は候補単語格納の一例を示す
説明図である。
次に、従来装置の動作について説明する。
第13図中の帳票に記入された人力単語文字列(6)と
第15図に示す固定記入単語辞書(4)内の単語との照
合を固定記入単語読取手段(5)にて行う。単語決定は
下記の手法で行う。
〈単語決定手法〉 人力文字列S =”l +S2 +・・・、s、と単語
辞書内の単語T=tl、t2.・・・tjllとの照合
を行うとき、文字s1とtlとの距離の概念を導入し、
これをd、とすると、SとTとの距11Dは次の式で表
わされる。
m:単語長 dl=・文字S1に対する認識候補文字中に文字1.が
あるとき認識候補文字中 の1.の順位 ・文字s1に対する認識候補文字中に 文字tlがない時P(定数) SとTとの距離を単語辞書内の全単語に対して求め、距
離の小さい順に並べ換え、候補単語を出力する。
次に第11図に示した従来装置で、上記固定記入車語決
定手法を用いて、P = 100とした場合について説
明する。
第13図中の帳票上に記入された入力文字列“福岡県福
岡市東区箱崎1−1−1めぞん一刻5号室”(6)と第
15図に示す固定記入単語辞書(4)内のjlL語との
照合を固定記入単語読取手段(5)にて行う。
まず、人力文字列“福岡県福岡市東区箱崎1−1−1め
ぞん一刻5号室”(6)の先頭文字から単語辞書内の第
1階層重語“福島県”(8)と照合をとる。上記単語決
定手法に従い、人力文字列の先頭3文字“福岡県“をS
とし、単語辞書内の単語Tを“福島県”(8)とすると
、 s、=“福”、 tl=“福”間の距離S、の第1位認
識候補文字にtlが存在するので、d、= 1 。
S2=“岡”、t、=”島”間の距離 S2の認識候補文字にt2が存在しないので、d2=S
3=“県”、t、=”県”間の距離 s3の第2位認識候補文字にt3が存在するので、d、
=2゜ となり、D = d、+ 62+ 63= 103とな
る。
次に、単語辞書内の単語“東京都”(9)と照合をとる
。前記単語決定手法に従い、入力文字列の先頭3文字“
福岡県”をSとし、単語辞書内の単語Tを“東京都”(
9)とすると、 sl=’“福”、t、=“東“間の距離s1の認識候補
文字にtlが存在するので、d、=100゜ S2=”岡”、t2=“京“間の距離 s2の認識候補文字にt2が存在しないので、d2=S
3=“県“、t3=“都“間の距離 s3の認識候補文字にt3が存在しないので、d3=と
なり、D = dl+ d2+ d3= 300 とな
る。
次に、単語辞書内の単語“静岡系”(10)と照合をと
る。前記単語決定手法に従い入力文字列の先頭3文字“
福岡県”をSとし、単語辞書内の単語Tを“静岡系”(
10)とすると、 sl=“福”、t1=“静”間の距離 S、のU識候補文字にtlが存在しないので、d、=S
2=“岡”、t2=“岡”間の距離 s2の第1位認識候補文字にt2が存在するので、d2
= 1 。
s3=“県”、 t3−“県”間の距離S、の第2位認
識候補文字にt、が存在するので、d、=2゜ となり、D = d、+ d、+ d3= 103 と
なる。
次に、単語辞書内の単語“福井系”(11)と照合をと
る。前記単語決定手法に従い入力文字列の先頭3文字“
福岡県”をSとし、単語辞書内の単語Tを“福井系“(
11)とすると、 s、=“福”、 tl=“福”間の距離s1の第1位認
識候補文字にtlが存在するので、d、= 1 。
s2=“岡”、t2=“井“間の距離 S、の認識候補文字にt2が存在しないので、d2=1
00゜ s3=“県”、t、=“県”間の距離 S、の第2位認識候補文字にt3が存在するので、d!
=2゜ となり、D=d、+d2+d、±103 となる。
次に、単語辞書内の単語“福岡県”(12)と照合をと
る。前記単語決定手法に従い入力文字列の先頭3文字“
福岡県”をSとし、単語辞書内の単語Tを“福岡県”(
12)とすると、 S、=“福”、t、=“福”間の距離 S1の第1位認識候補文字に1.が存在するので、d、
= 1 。
s2=“岡”、t2=“岡”間の距離 S2の第1位認識候補文字にt2が存在するので、d2
= 1 。
s3=“県”、t3=“県”間の距離 s3の第2位認識候補文字にt3が存在するので、d、
=2゜ となり、D = d+ + dz+d3= 4となる。
この結果、単語辞書内の単語“福島系”(8)に対して
D = 103、“東京都”(9)に対してD=300
、“静岡県”(10)に対してD = 103、“福井
系”(11)に対してD=103、“福岡県”(12)
に対してD゛=4となる。辞書との単語照合時間短縮の
ため距離が(単語長)×60より大きい値を持つ単語を
除外するとした場合、第17図に示す積算処理=4の“
福岡県”(33)、積算距離=103の“福島系”(3
4)、積算距離=103の“静岡県”(35)、積算距
Im = 103の“福井系”(36)が候補単語とし
て選ばれる。
次に、入力候補文字列“福岡県福岡市東区箱崎1−1−
1めぞん一刻5号室′″(6)と第15図に示す固定記
入単語辞書(4)内の第2va層単語との照合を行う。
′tS2階層以降の単語に対しては、上位階層が存在す
る単語のみが照合対象となる。つまり、第1階層の候補
単語とならない“東京都”(9)の下位階層の“千代田
区”(15)、”八王子布″’ (18)は照合対象と
はならない。
まず、“福岡県”(12)を上位階層とする単語照合を
行う。入力文字列の先頭4文字目から6文字目までの“
福岡布”をS、単語辞書内の“福岡県”(12)に下位
単語“福岡布”(19)をTとし、前記単語決定手法で
第1階層と同様に照合すると、単語辞書内の単語“福岡
布”(19)に対してD=5となる。同様に単語辞書内
の単語“中間車”(19)に対してD = 103とな
る。
次に“福島系”(8)を上位階層とする単語照合を行う
。単語辞書内の“福島布”(13)に対してD = 1
03となる。同様に単語辞書内の単語“会津若松布″(
14)に対してD=500となる。
次に“静岡県”(10)を上位階層とする単語照合を行
う。単語辞書内の“静岡布”(17)に対してD = 
104 となる。
次に“福井系”(11)を上位階層とする単語照合を行
う。単語辞書内の“福井布”(18)に対してD = 
103となる。
第1階層と同様に、距離が(単語長)×60より大きい
値を持つ単語を除外するので第2階層では、“会津若松
布”(14)が除外され、第18図に示す候補単語と積
算距離が得られる。また、第18図に示すように単語間
の接続情報も合せて保持する。なお、接続情報は最終的
に候補単語を抽出するとのに、候補単語と共にメモリに
格納され、上位階層と下位階層単語の接続関係を表す。
次に、人力文字列“福岡県福岡市東区箱崎1−1−1め
ぞん−M5号室″(6)と第15図に示す固定記入単語
辞書(4)内の第3階暦車語との照合を行う。“福岡市
”(19)、“中間車”(20)、“福島市”(13)
、“静岡市”(17)、“福井市”(18)の下位に属
する単語と照合する。
まず、“福岡市”(19)を上位階層とする単語と照合
を行う。入力文字列の先頭7文字目から8文字目までの
“東区”をS、単語辞書内の“福岡市”(19)の下位
単語“東区“(26)をTとし、前記単語決定手法で照
合すると、単語辞書内の単語“東区″(26)に対して
D = 101となる。同様に単語辞書内の単語“西区
”(27)に対してD = 200となる。
次に“中間車”(20)を上位階層とする単語と照合を
行う。単語辞書内の単語“東田町”(28)に対してD
 = 103となる。
次に“福島市”(13)を上位階層とする単語と照合を
行う。単語辞書内の単語“飯坂町”(21)に対してD
 = 300となる。同様に単語辞書内の単語“上湯温
泉町”(22)に対してD=500となる。
次に“静岡市”(17)を上位階層とする単語と照合を
行う。単語辞書内の単語“東新田”(24)に対してD
冨201 となる。
次に“福井市”(18)を上位階層とする単語と照合を
行う。単語辞書内の単語“太田町”(25)に対してD
 = 202となる。
距離が(単語長)×60より大きい値を持つ単語を除外
するので第3階層では、“西区”(27)、“飯坂町”
(21)、“上湯温泉町”(22)、“東新田”(24
)、“太田町”(25)が除外され、第19図に示す候
補単語と積算距離が得られる。また、第19図に示すよ
うに単語間の接続情報も合せて保持する。
次に人力文字列“福岡県福岡市東区箱崎1−1−1めぞ
ん一刻5号室”(6)と第15図に示す固定記入単語辞
書(4)内の第4階層重語との照合を行う。“東区”(
26)の下位に属する単語と照合する。“東田町”(2
8)は下位の階層を持たない最下位階層の単語なので、
照合する単語が存在しない。
゛東区”(26)を上位階層とする単語と照合を行う。
入力文字列の先頭9文字目から10文字目までの゛箱崎
”をS、単語辞書内の“東区”(26)の下位!#語“
箱崎”(29)をTとし、前記単語決定手法で照合する
と、単語辞書内の単語“箱崎”(29)に対してD=3
となる。同様に単語辞書内の単語“箱崎ふ頭″(30)
に対してD=203となる。
距離が(JIL語長)×60より大きい値を持つ単語は
ないので、第4階層で除外される単語はなく、第20図
に示す候補単語と積算距離が得られる。また、第20図
に示すように単語間の接続情報も合せて保持する。
第4階層で抽出されたすべての単語が、下位の階層を持
たない最下位階層の単語なので、単語照合はここで打ち
切られる。
次に、第20図に示す候補単語の中から下位階層の候補
単語を保持しない候補単語を抽出し、バックトラッキン
グすることにより、候補単語列を得る。
第20図の場合、“箱崎”(44)、“箱崎“(45)
、“東田町“(43)、”福島市”(39)、“静岡市
”(40)、“福井市”(41)の6個の単語が下位階
層を保持しない。
これらの単語について、バックトラッキングにより候補
単語列を抽出すると第21図のようになる。また、それ
ぞれのパスの積算距離は単語照合時に求められており、
積算距離をそれぞれのパスの文字数で割ると積算距離の
平均が求められる。
第21図は積算距離の平均の小さい順に配列したもので
ある。
次に、最終候補単語を決定する。最終候補単語は積算距
離の平均の最小値を与えるパスの単語の切れ目を基準に
選択する。第22図の場合、第1階層重語の単語長は3
、第2階層重語の単語長は3、第3階暦車語の単語長は
2、第4階層重語の単語長は2であり、第3階層の候補
単語“東田町”(66)の単語長は3、第4階層重語の
単語長“箱崎ふ頭”(6)はちの単語長は4であるので
、“東田町”(66)、“箱崎ふ頭”(68)は候補単
語から除外する。
また、同一階層内の同一表記も除外する。第1階層では
“福岡県”(53)と“福岡県”(54)、′s2階層
では“福岡市”(59)、$3階層では“東区”(65
)とを除外する。
その結果、第23図に示す最終候補単語が得られる。
このように、住所の都道府県や町名などの単語を読み取
る場合は、記入される単語が国定されており、記入され
る単語を網羅した単語辞書を容易に作成することができ
る。また、記入される単語が固定されることを利用して
、認識候補文字中に単語辞書内の単語を構成するすべて
の文字が入っていなくとも、ある程度の割合で、認識候
補文字中に単語を構成する文字が入っていれば、正解単
語を得ることができる。さらに、認識候補が候補単語で
得られ、修正も容易に行うことができる。
〔発明が解決しようとするvIA題〕
従来の単語読取装置は以上のように構成され、記入され
る単語が固定されている場合に効果的な単語読取を行う
ことができる。しかしながら、住所の町名以下の部分で
は記入形態は固定されず、“アパート”マンション“等
の一般語に加えて、“鎌倉寮”、“井の頭ハイツ”等の
地名、“三に電機第2寮”日鉱社宅”などの会社名、“
関口荘”藤田アパート”などの人名など、種々雑多な単
語が使用され、都道府県名−市区群名といりた明確な階
層関係もない。そのため、住所の町名以下の部分の読取
に使用する辞書で、表記を網羅するのは非常に困難であ
る。
また、記入される単語を網羅した単語辞書の作成ができ
ない場合に、住所の都道府県名や町名などの単語の読取
に適用した単語照合を行うと、辞書未登録語が記入され
た場合に、辞書未登録記入部分の認識候補文字と単語辞
書内の他の単語とを照合し、誤った単語を抽出してしま
うなどの問題があった。
この廃明は上記のような問題点を解消するためになされ
たもので、住所の町名より前の部分のように記入形態が
固定されている単語に対しては、従来通りの候補単語を
求めることにより単語読取を行う手法を取り、住所の町
名以下のように記入形態が固定されず単語の表記も多岐
にわたフている車w1読取では、誤った単語の抽出を防
止するようにできる単語読取装置を得ることを目的とす
る。
〔課題を解決するための手段〕
この発明に係る単語読取装置は、入力単語を1文字毎に
認識し、各文字に対する複数の認識候補文字を出力する
文字認識手段と、記入形態が固定される単語を格納した
固定記入単語辞書と、記入形態が自由な単語と単語間の
接続情報を格納した自由記入単語辞書と、上記文字認識
手段から得られる認識候補文字と固定記入単語辞書及び
自由記入単語辞書に格納された411語を照合し、記入
形態が固定される単語に対しては候補単語を、記入形態
が自由な単語に対しては最尤の結果を文字単位で出力す
る固定・自由記入混在単語読取手段とを備えたものであ
る。
〔作用〕
この発明においては、記入形態が固定され記入される単
語が網羅できる固定記入単語に対しては単語照合を積極
的に行い候補単語で結果を出力し、記入形態が自由で未
登録語が多く存在する自由記入単語に対しては認識候補
文字のみで構成される単語を抽出して確実に照合できた
単語だけを抽出し結果は文字単位で出力することにより
、記入される単語の記入形態の性質により、単語読取の
手法を切り替えて、正読率のよい単語読取結果を得る。
〔実施例〕
以下、この発明の一実施例を図について説明する。第1
図はこの発明の一実施例である単語読取装置の構成を示
すブロック図であり、第2図に示す従来装置のものと同
一または相当部分は同一符号を用いて示す。第1図にお
いて、(52)は記入形態が固定されず、記入単語の表
記も多岐にわたっている単語を読取るためには単語表記
と単語属性と単語属性間の接続情報を格納した自由記入
単語辞書、’(53)は記入形態が固定される単語に対
しては、固定記入単語辞書(4)に格納された単語と文
字認識手段(3)から得られる認識候補文字とを照合し
候補単語を、記入形態が自由な単語に対しては、自由記
入単語辞書(5)に格納された単語と文字認識手段(3
)から得られる認識候補文字とを照合し、最尤の結果を
文字単位で出力する固定・自由記入混在単語読取手段で
ある。
また、第2図は自由記入単語辞書(52)の単語表記と
単語属性の一例を示す説明図である。第2図において、
(54)は“数字”の単語属性を持つ単語表示rIJ、
(55)は“英字”の単語属性を持つ単語表記rI4、
(56)は“漢数字”の単語属性を持つ単語表記rJ、
(57)は“記号”の単語属性を持つ単語表記rJ、(
58)は“住所用語”の単語表記rめぞんJ、(59)
は“数字”の単語属性を持つ単語表記r54、(60)
は“数字”の単語属性を持つ単語表記「31、(61)
は“後置助数詞”の単語属性を持つ単語表記1号J、(
62)は、“後置助数詞”の単語属性を持つ単語表記r
分室1である。
また、第3図は自由記入単語辞書(52)の単語属性間
の接続情報の一例を示す説明図である。第3図において
、(63)は先頭から単語属性“英字”への接続情報、
(64)は先頭から単語属性“数字”への接続情報、(
65)は単語属性“数字”から単語属性“記号”への接
続情報、(66)は単語属性“英字”から単語属性“記
号”への接続情報、(67)は単語属性”数字”から単
語属性“漢数字”への接続情報、(68)は単語属性“
英字”から単語属性“漢数字”への接続情報、(69)
は単語属性“漢数字”から単語属性“数字“への接続情
報、(70)は単語属性“漢数字”から単語属性“英字
“への接続情報、(71)は単語属性“記号”から単語
属性“数字”への接続情報、(72)は単語属性“記号
”から単語属性“英字”への接続情報、(73)は単語
属性“数字”から単語属性“住所用語”への接続情報、
(74)は単語属性“住所用語”から単語属性“漢数字
”への接続情報、(57)は単語属性“数字”から単語
属性“後置助数詞”への接続情報である。
また、第4図は認識候補文字の町名以下の部分の説明図
、第5図は記入形態が固定されず記入単語の表記も多岐
にわたっている単語を読み取る自由記入単語辞書の動作
を説明する説明図で、太線は前後の単語属性間の接続が
あること、細線は前後の単語属性間の接続がないことを
示す。
第6図は、第5図の接続関係が成立したものの中から最
尤の結果を選択する方法を説明する説明図、図において
、太線で示されたバスが最尤のパスである。
第7図は住所の町名以下のように記入形態が固定されず
単語の表記も多岐にわたっている自由記入単語辞書の結
果の一例を説明する説明図である。
また、第8図は第7図で得られた単語読取結果の格納過
程の一例を説明する説明図で、図において、(76)は
単語読取結果が1文字車位の認識における第1位認識候
補文字と異なるものである。
第9図は、第7図で得られた単語読取結果の格納の一例
を説明する説明図である。
第1O図は、固定麗人単語読取結果と自由記入単語読取
結果とを統合した単語読取結果を示す図である。
次に、この発明の一実施例動作を、第13図に示す人力
単語文字列“福岡県福岡市東区箱崎1−1−1めぞん一
刻5号室”(6)の各文字に対して文字認識手段(3)
で出力される認識候補文字(7)の例について説明する
人力単語文字列の町名部分までは従来方式を適用し、第
23図に示す候補単語を得る。その後、第4図に示す町
名以下の部分に対して、記入形態が固定されず単語の表
記も多岐にわたっている自由犯人単語読取を行う。
まず、第4図に示す認識候補文字と第2図に示す単語表
記とを照合する。町名以下の部分の先頭の文字から照合
を行い、第1文字目”1”の認識候補文字のみで構成さ
れる単語を第2図に示す単語表記から選択する。照合に
より、第1位候補文字“I”と第3位候補文字“1”が
照合される。
次に、第1文字目“1”と第2文字目“−”の認識候補
文字で構成される単語を検索する。この例の場合、すべ
ての認識候補文字の組み合わせをとっても自由記入単語
辞書(52)内の表記と一致しない0次に、″i%1文
字目“1“と第2文字目と′s3文字目“1”の認識候
補文字で構成される単語を検案する。以下順次、文字数
を増加し、入力文字数が尽きるか単語辞書登録単語の最
大長に達するまで照合処理を継続することにより、第1
文字目を先頭とした照合を終了する。
第1文字目を先頭とした照合を終了後、第2文字目を先
頭とした照合を行う。342文字目を先頭とした照合は
、先頭位置が異なるだけで、照合手法は同一である。
以下、入力文字が尽きるまで、先頭位置を移動させ照合
を行う。
第5図に、第4図の認識候補文字に対して単語照合を行
った結果を示す。第1文字目を先頭とした単語として“
I”、“1”、第2文字目を先頭とした単語として“−
、−〇、第3文字目を先頭とした単語として“1”、“
I”、第4文字目を先頭とした単語として“−、−”、
第5文字目を先頭とした単語として“1”、第6文字目
を先頭とした単語として“めぞん”、第9文字目を先頭
とした単語として“−”、第1文字目を先頭とした単語
として“5″、“3”、第12文字目を先頭とした単語
として“号”、“苦辛“が抽出される。
次に、第2図に示す表で与えられる単語表記に付された
単語属性をもとに単語間の接続検定を行う。接続検定に
は第3図に示す単語属性接続表を用いる。
接続検定は、2つの単語属性間の接続可否を検定する。
$1文字目で抽出された単語表記“I”の単語属性は第
2図(55)より“英字”となる。また、単語属性“英
字”と“漢数字”との間の接続は第3図の(68)によ
り接続が成立しないので、第1文字目で抽出された単語
表記“I”と第2文字目で抽出された単語表記“−”の
間の接続は成立しない。
一方、第2文字目で抽出された単語表記“の単語属性は
第2図(57)より“記号”となり、単語属性“英字”
と”記号”との間の接続は第3図の(66)により成立
するので、第1文字目で抽出された単語表記”I”と第
2文字目で抽出された単語表記“−”の間の接続は成立
する。
上記の接続検定をすべての単語に対して実施し、第5図
に示す接続検定結果を得る。第5図において、太線は接
続が成立し、細線は接続が成立しないことを示す。
次に、第5図で接続関係が設立したものの中から最尤の
結果を選択する。最尤パスの選択は認識候補文字の順位
の和で行う。第5図で接続するパスが最長になるように
パスを選択し、長さが同のものは認識候補文字の順位の
和の小さいものを選択する。
第5図の場合、r t −−−i −−−tめぞん1な
るパスとr1→−→I→−→1めぞんjなるパスが存在
するが、rl−−→1→−→1めぞん」なるパスの順位
の和が14、r1→−→I→−→1めぞん1なるパスの
順位の和が15となるので、順位の和が小さい「1→−
→1→−→1めぞん」なるパスが選択される。
r5−、号J、r3−号J、r5−号J、r3−。
号Jなる複数のパスも存在するが、接続するパスが最長
になるようにパスを選択するので、「5−号」、’3−
号」のパスが残り、さらに順位の和の小さいものを選択
すると「5−号Jが選択される。
第6図において、太線で示されたパスが最尤のパスであ
る。
単語辞書によって照合された部分の表記はそのまま出力
するが、辞書未登録単語の記入等により単語照合が成立
しなかった部分に対しては、1文字車位の第1位認識候
補文字をそのまま採用する。第7図に単語読取結果の例
を示す。
単語読取結果が決定した後、認識候補文字に単語読取結
果を埋め込む。埋め込みは文字単位で行い、単一読取結
果と1文字車位の認識における第1位候補文字が異なる
とき、単語読取結果を第1位候補文字の位置に配し、他
の認識候補文字は1文字繰り下げて配置する。
第8図は、半語知識処理結果の格納過程を示しており、
(7B)は単語読取結果のうちで1文字車位の認識の第
1位候補文字と異なるものを示す。
第9図は、自由記入単語読取の最終結果格納の一例であ
る。
最後に、固定記入単語読取と自由記入単語読取の結果を
統合し、最終結果を出力する。
第10図に、固定記入単語読取と自由記入単語読取の結
果を統合した最終結果を示す。第10図に示すように、
記入形態が固定され記入される単語が網羅できる固定記
入単語に対しては単語照合を積極的に行い候補単語で結
果を出力し、記入形態が自由で未登録語が多く存在する
自由証人RI−語に対しては認識候補文字のみで構成さ
れる単語を抽出し確実に照合できた単語だけを抽出し結
果は文字単位で出力するので、単語の記入形態に通した
単語読取方式が適用でき、単語の記入形態に通した修正
方式も提供できる。
なお、上記実施例では自由記入単語読取に単語属性の前
後の接続関係を用いたが、これに限らず、前後関係以外
の情報を用いて単語表記を絞ることもできる。また、上
記実施例では自由記入単語読取の結果を1つに絞る時に
、認識候補文字の順位の和を用いたが、これに限らず、
文字を認識したときに得られる入力文字に対する類似性
を示す類似度の和などを用いてもよい。また、上記実施
例では住所を例に上げて説明したが、他の単語に対して
も適用できる。
〔発明の効果〕
以上説明したとおり、この発明によれば、単語読取装置
において、記入形態が固定され記入される単語が網羅で
きる固定記入単語に対しては単語照合を積極的に行い候
補単語で結果を出力し、記入形態が自由で未登録語が多
く存在する自由記入単語に対しては認識候補文字のみで
構成される単語を抽出して確実に照合できた単語だけを
抽出し結果は文字単位で出力するようにしたので、単語
の記入形態に適した単語読取方式が適用できる上、単語
の記入形態に適した修正方式が提供できるようになり、
正読率が高く結果の修正が容易な単語読取装置が得られ
る。
【図面の簡単な説明】
第1図ないし第1O図はこの発明を説明するもので、第
1図はこの発明の一実施例である単語読取装置の構成を
示すブロック線図、N2図は自由記入j1−語読取に用
いる単語辞書の、!#語表記および単語属性の一例を示
す説明図、5iS3図は自由記入単語読取に用いる単語
辞書の単語属性接続表の一例を示す説明図、第4図は自
由記入単語読取部分の認識候補文字を示す説明図、第5
図は自由記入単語読取の単語照合結果および単語接続検
定結果の例を示す説明図、第6図は自由記入単語読取の
最尤パス選択を説明する説明図、第7図は自由記入単語
読取結果の一例を説明する説明図、第8図は自由記入単
語読取結果の認識候補文字への埋込みを説明する説明図
、第9図は自由記入単語読取結果の一例を示す図、第1
0図は固定記入単語読取結果と自由記入単語読取結果を
統合した最終読取結果の一例を示す説明図である。 また、第11図ないし第23図は従来例を説明するもの
で、第11図は従来の単語読取装置の一実施例の構成を
示すブロック線図、第12図は第11図の文字認識手段
(3)の構成図、第13図は帳票に記入された入力単語
文字列の一例を示す説明図、第14図は単語辞書の一例
を示す説明図、第15図は文字認識手段から出力される
認識候補文字の一例を示す説明図、第16図は第15図
の内容を格納する辞書(4)の構成の一例を示す説明図
、第17図は固定記入単語読取の第1階暦車語照合まで
の途中結果を示す説明図、第18図は固定記入単語読取
の第2階暦車語照合までの途中結果を示す説明図、第1
9図は固定記入単語読取の第3階暦年語照合までの途中
結果を示す説明図、第20図は固定記入単語読取の第4
階暦年語照合までの途中結果を示す説明図、第21図は
固定記入単語読取の最尤単語列抽出を説明する説明図、
第22図は固定記入単語読取の候補選択を説明する説明
図、第23図は固定記入単語読取の候補単語格納を説明
する説明図である。 図において、(3)は文字認識手段、(4)は固定記入
単語辞書、(52)は固定記入単語辞書、(53)は固
定・自由記入混在単語読取手段である。 尚、 各図中、 同一符号は同−又は相当部分を示 第 図 第 図 箪 図 第 図 第 図 第 図 ロモ那ンロロ→10口 刻 叶旧7 第 図 第 図 第 図 1めぞん一刻5号室 第 図 1めぞん一刻 5号室 ノーノー◆ぬ◆入−◆3孝至 /φ◆へ争ね◆◆◆◆φφ◆ 第 図 第 図 第 図 第 図 第 図 第 図 第 図

Claims (1)

    【特許請求の範囲】
  1. 入力単語を1文字毎に認識し、各文字に対する複数の認
    識候補文字を出力する文字認識手段と、記入形態が固定
    される単語を格納した固定記入単語辞書と、記入形態が
    自由な単語と単語間の接続情報を格納した自由記入単語
    辞書と、上記文字認識手段から得られる認識候補文字と
    固定記入単語辞書及び自由記入単語辞書に格納された単
    語を照合し、記入形態が固定される単語に対しては候補
    単語を、記入形態が自由な単語に対しては最尤の結果を
    文字単位で出力する固定・自由記入混在単語読取手段と
    を備えたことを特徴とする単語読取装置。
JP2140473A 1990-05-30 1990-05-30 単語読取装置 Pending JPH0433186A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2140473A JPH0433186A (ja) 1990-05-30 1990-05-30 単語読取装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2140473A JPH0433186A (ja) 1990-05-30 1990-05-30 単語読取装置

Publications (1)

Publication Number Publication Date
JPH0433186A true JPH0433186A (ja) 1992-02-04

Family

ID=15269421

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2140473A Pending JPH0433186A (ja) 1990-05-30 1990-05-30 単語読取装置

Country Status (1)

Country Link
JP (1) JPH0433186A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002157553A (ja) * 2000-09-11 2002-05-31 Fujitsu Ltd 住所認識装置、記録媒体及びプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002157553A (ja) * 2000-09-11 2002-05-31 Fujitsu Ltd 住所認識装置、記録媒体及びプログラム

Similar Documents

Publication Publication Date Title
CN110188362B (zh) 文本处理方法及装置
US8364470B2 (en) Text analysis method for finding acronyms
US7428487B2 (en) Semi-automatic construction method for knowledge base of encyclopedia question answering system
CN1029170C (zh) 语言翻译系统
Bobrow Syntactic analysis of English by computer: a survey
CN111401058B (zh) 一种基于命名实体识别工具的属性值抽取方法及装置
CN110866089A (zh) 基于同义多语境分析的机器人知识库构建系统及方法
US6373985B1 (en) E-mail signature block analysis
CN109635125B (zh) 一种词汇图谱搭建方法及电子设备
CN108932233A (zh) 翻译文生成方法、翻译文生成装置以及翻译文生成程序
CN113254814A (zh) 网络课程视频打标签方法、装置、电子设备及介质
CN111523299B (zh) 一种面向国际汉语教学的句子难度等级评定方法及系统
JPH0433186A (ja) 単語読取装置
CN115455969A (zh) 一种医学文本命名实体识别方法、装置、设备及存储介质
Plath Automatic sentence diagramming
RU2000129197A (ru) Способ упорядочения данных, представленных в текстовых информационных блоках данных
JP5583230B2 (ja) 情報検索装置及び情報検索方法
JP4382634B2 (ja) 住所解析装置、住所解析方法及び住所解析プログラム
JPH09305716A (ja) 入力文字列推測認識装置
CN110008307B (zh) 一种基于规则和统计学习的变形实体识别方法和装置
KR950001059B1 (ko) 한글주소 인식방법 및 장치
JP3045886B2 (ja) 手書き入力機能付き文字処理装置
JPS62175863A (ja) 帳票処理装置
CN118013970A (zh) 一种词汇增强方法、装置、设备及存储介质
JPS5892064A (ja) 電子辞書の構成方式