JPH0576675B2 - - Google Patents

Info

Publication number
JPH0576675B2
JPH0576675B2 JP60003062A JP306285A JPH0576675B2 JP H0576675 B2 JPH0576675 B2 JP H0576675B2 JP 60003062 A JP60003062 A JP 60003062A JP 306285 A JP306285 A JP 306285A JP H0576675 B2 JPH0576675 B2 JP H0576675B2
Authority
JP
Japan
Prior art keywords
word
words
candidate
column
degree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP60003062A
Other languages
English (en)
Other versions
JPS61161588A (ja
Inventor
Akizo Kadota
Toshihiro Hananoi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP60003062A priority Critical patent/JPS61161588A/ja
Publication of JPS61161588A publication Critical patent/JPS61161588A/ja
Publication of JPH0576675B2 publication Critical patent/JPH0576675B2/ja
Granted legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Description

【発明の詳細な説明】 〔発明の利用分野〕 本発明は、文字認識後処理方式に関し、特に文
字認識装置により読み取られた認識結果に対し
て、単語辞書とのマツチングを行うことにより、
正確に認識することが可能な文字認識後処理方式
に関するものである。
〔発明の背景〕
従来より、漢字OCRの認識精度を向上させる
方法として、単語辞書との照合を利利用すること
が考えられているが、照合する前にあらかじめ単
語に分割しなければならず、もし分割できないと
きには役に立たない。単語辞書とのマツチングに
より認識率を向上させる方法として、例えば、特
公昭59−4071号公報、特開昭57−25074号公報、
特開昭58−4490号公報、特開昭58−39377号公報、
特開昭58−39378号、特開昭58−48181号公報、特
開昭58−56189号公報に記載された発明もある。
しかし、これらの方法は、第7図に示すように、
帳票上のフオーマツトに制限を加えたり、第8図
に示すように、単語間にスペースを設けるもので
ある。すなわち、第7図では、姓と名と都道府県
と市郡区と区町村との間にあらかじめスペースを
設けたフオーマツトを用いて、入力文字列が単語
単位に分割されていることを仮定している。ま
た、第8図では、単語間に必ず1つ空欄を設けて
書くように、記述者に対して強制するもので、単
語分割部分を抽象的に表現しているのみで、実体
が明確ではない。このように、帳票あるいは記入
方法に制限を設けることは、記入者に負担を掛け
るばかりで、単語辞書との照合を実用化する場合
に障害となるものであつた。
〔発明の目的〕
本発明の目的は、このような従来の問題を解決
し、たとえ入力文字が単語単位に分割されていな
くても、単語照合を行うことができる文字認識後
処理方式を提供することにある。
〔発明の概要〕
上記目的を達成するために、本発明の文字認識
後処理方式は、読取文字を認識する文字認識手段
と、単語群を保持する単語辞書と、上記文字認識
手段により認識された文字が上記単語辞書中に保
持されている単語と一致するか否かを照合する単
語照合手段とを具備する文字認識後処理方式にお
いて、上記文字認識手段から出力された1フイー
ルド分の候補文字列を格納する候補文字テーブル
と、該候補文字テーブルの各カラムで最小の相違
度を与える候補単語およびその相違度を登録した
整合度テーブルとを設け、上記候補文字テーブル
の各カラムの候補文字をキーとして、上記単語辞
書中から単語を選択的に取り出し、該単語と上記
候補文字列との相違度を計算した後、上記整合度
テーブルの中から相違度が最小の単語をたどつて
出力単語列を得ることに特徴がある。
〔発明の実施例〕
以下、本発明の実施例を、図面により説明す
る。先ず、本発明の動作原理を説明する。
第2図は、本発明に用いられる候補テーブルの
説明図である。
候補テーブルの一部、例えばカラム数11の欄
に、第2図に示すような候補単語群が存在する。
このテーブルには、候補数と第1位、第2位、第
3位の各単語列が配置されている。第1カラムか
ら始まる単語は、神、初、杉のいずれかを先頭に
して始まる。したがつて、神、初、杉をカーにし
て単語辞書の中から単語を検索することにより、
複数の単語が抽出される。神、初、杉を先頭とす
る単語としては、次のものがある。
神が丘、神岡、神、神楽坂、…… 初音、初野、…… 杉崎、杉谷、…… 上記の単語のうち、第2図で示された候補文字
を組み合せて作られるものとしては、次の4つだ
けに絞られる 神、神奈、神奈川、神奈川県。
同じようにして、第2カラムから始まる単語
は、余、奈、糸を先頭として始まり、単語辞書中
の単語群中で、第2図で示された候補文字を組み
合せて作られるものは、次の3つに絞られる。
余川、奈川、糸川。
同じようにして、各カラムを先頭とする単語で
可能なものを列挙すると、第3図に示すように整
理される。
これらの候補単語のうち、どの組み合せが正解
かを見付け出すために、整合度を以下の式により
定義し、全体としての整合度が最小になる組み合
せを求める。
g(O)=0 g(I)= min J=1,n{g(I−J)+d(I,J)} ……(1) ここで、g(I)はI番目のカラムまでの整合度、
d(I,J)はカラムI−Jから長さJの単語の
重みを表わす。nは、許される単語の長さであ
る。
重みd(I,J)とは、単語のもつともらしさ
を与える量で、前記の特開昭58−39378号公報に
おいて使用されているように、候補順位により重
み付けを行つてもよいし、また前記特開昭58−
48181号公報で使用されているように、認識装置
から出力された各候補の類似度(あるいは距離)
を使用してもよい。
当該フイールドの長さをKとすると、当該フイ
ールドの整合度は、g(K)で与えられる。
各カラムでで得られた最小の重みd(I,J)
を与える単語を最小の重みが得られるたびにセイ
ブしておくと、第4図に示すように単語群が得ら
れる。この場合、カラムを逆にたどると、最も整
合度のよい単語の組み合せが得られる。
第4図の例を用いて、最も整合度のよい単語の
抽出法の説明を行う。カラム11において最小の
重みを与える単語は、“国府津”でる。この単語
の長さは3であるため、これに接続する単語はカ
ラム8で終る。カラム8で最小の重みを与える単
語は、“市”でる。この単語の長さは1であるた
め、これに接続する単語は、カラム7で終る。カ
ラム7で最小の重みを与える単語は、“小田原”
である。この単語の長さは3であるから、これに
接続する単語はカラム4で終る。カラム4で最小
の重みを与える単語は、“神奈測県”であり、こ
の単語の長さは4であつて、当該フイールドでの
カラムはこれで終了する。
したがつて、上記の例においては、“神奈川
県”、“小田原”、“市”、“国府津”が最もよく整合
する単語群として選択されたことになる。
以上が、本発明の後処理の動作原理であるが、
処理の容易さから言えば、第1カラムから順に求
めるよりは、最後のカラムから逆方向に求めた方
がやり易い。この場合を式で示すと、最後のカラ
ムをKとして、次の式を使用する。
g(K+1)=0 (I)= min J=1,n{g(I+J)+d(I,J)} ……(2) ただし、d(I,J)は、カラムIから長さの
Jの単語の重みである。
第1図は、本発明の一実施例を示す文字認識後
処理システムの全体ブロツク図である。
この実施例では、記述はすべて前記(2)式、すな
わちフイールドの最後のカラムから逆方向に処理
する方法を用いる。
システムは、文字認識装置1、重み計算回路
2、単語辞書3、整合度計算回路4、および単語
抽出回路5より構成される。
文字認識装置1からは、1フイールド分の文字
列が出力される。
文字認識装置1から出力された1フイールド分
の認識結果は、重み計算回路2内の候補テーブル
に格納される。候補テーブルは、第2図に示した
ように、フイールドのカラム数、各カラムごとの
候補数、および候補カテゴリから構成されてい
る。
重み計算回路2は、候補テーブルを入力とし
て、第3図に示したような候補単語を単語辞書3
から選択して、それぞれの単語の最もらしさを表
わす重みを計算する。
重み計算回路2では、第4図において説明した
ように、候補テーブルの最後のカラムから逆方向
に、候補数だけ、候補カテゴリをキーとして単語
辞書3から単語を検索する。単語辞書3は、単語
をベタに詰めていてもよいが、単語数が多いとき
には、カテゴリごとに分類しておき、各カテゴリ
の先端を示すアドレス表を作つておいた方が、検
索し易くなる。
単語は、単語の長さと、個の漢字コードか
ら構成されている。
本発明では、重み計算回路2と整合度計算回路
4と単語抽出回路5とが、入力文字列から構成さ
れる単語のあらゆる組み合せを考慮し、単語列の
接合度の最もよいものを選択することにより、単
語に分割することなく、単語照合を行う。最良の
接合度を得るために、ダイナミツク・プログラミ
ングの手法を利用する。
重み計算回路2は、第2図に示すフイールド分
の文字列が入力されたものと仮定して処理を行
う。なお、各カラムは、単一候補に絞れなかつた
場合には、複数の候補が出力される。第2図の例
では、最後のカラムは、候補数が1で、候補カテ
ゴリは“津”である。単語辞書3から、“津”を
先頭とする単語をすべて読み出す。“津”から始
まる単語は、“津”、“津山”、“津島”、……等多数
存在するが、単語のカラムであるため長さ1の単
語しか許されず、“津”のみが残される。
カラム10は、候補数が3で、候補カテゴリ
は、府、廊、舟であるが、これらをキーとする単
語のうち、長さが2で最後が津で終る単語は存在
しない。
次に、カラム9は候補数が3で、候補カテゴリ
は、国、固、図であるが、これらをキーとする単
語のうち、候補テーブルを満足する単語は、“国
府”と“国府津”のみである。以下同じようにし
て、第1カラムまで逆にたどつて行くと、第3図
に示すような単語群が得られる。
これらの単語の重みを計算する方法としては、
種々のものがあるが、ここでは特開昭58−39378
号公報に使用された重みを用いることにする。上
記公報で示された記号により書き表わすと、次の
ようになる。
d(I,J)=−〓d(Si,Li) ……(3) 上記(3)式を使つて第3図に示された単語の重み
を計算すると、第5図に示すようになる。候補カ
テゴリの下に記載された数字が、それぞれの重み
である。
次に、整合計計算回路4では、第5図に示した
ような候補単語を組み合わせて、最もよい整合度
のものを選び出す。このとき、整合度の計算に
は、(2)式を使用する。
カラム11における候補単語は、“津”だけで
ある。長さ、重みd、整合度gとともに、単語
“津”を登録する(第6図のカラム11参照)。
カラム10における候補単語は存在しないの
で、 d=∞,g=∞を登録する(第6図のカラム10
参照)。
カラム9における候補単語は、“国府津”と
“国府”が得られる。
g(12)+d(9,3)と g(11)+d(9,2)を比較し、小さい方を選
択する。ここでは、“国府津”の方が小さいので、
長さ,重みd、整合度gとともに、単語“国府
津”を登録する。以下、同じようにして、先頭カ
ラムまで遡つて上記手順を繰り返えすと、第6図
に示すような整合度テーブルが得られる。
単語抽出回路5では、整合度計算回路4で得ら
れた第6図の整合度テーブルから単語を取り出
し、出力する。先ず、整合度テーブルの第1カラ
ムから単語“神奈川県”を取り出す。この単語の
長さは4であるため、次の単語を取り出す位置
は、第5カラムからである。第5カラムから単語
“小田原”を取り出す。この単語の長さは3であ
るため、次の単語を取り出す位置は、第8カラム
からである。同じようにして、第8カラムから
“市”が、次に第9カラムから“国府津”が、そ
れぞれ取り出される。このようにして、最もよく
入力候補と整合する単語群“神奈川県”、“小田
原”、“市”、“国府津”が得られる。
以上の説明では、候補単語を最後のカラムから
先頭のカラムまで、すべて求めておいてから、整
合度の計算をするように述べているが、整合度の
計算は各カラムごとに出来るので、必ずしも全部
終つた後に行う必要はない。
また、以上の説明においては、認識装置1から
カラムごとに1つ以上の候補が出力されることを
前提にしている。しかし、実際の装置において
は、帳票上の塵埃や、汚れ等のために認識できな
い場合が少なくない。候補なしが存在すると、こ
のカラムを含む単語で一致するものがなくなるた
め、単語の重みが無限大になつてしまい、それ以
後の単語照合結果が信用できなくなる。
候補なしの場合の不都合をなくすため、以下に
述べる方法が有効である。すなわち、各カラム
で、最も一致する単語が見付かつたとき、その重
みdがある定められた閾値よりも小さいとき、g
を0にしてしまう方法である。整合度テーブルか
ら単語を取り出すには、gが定められた閾値より
も小さいときには、単語を出力し、閾値より大き
いときには、リジエクトして、入力候補文字を出
力する。このようにすると、候補なしのカラムの
近傍のみがリジエクトされ、十分よく整合した単
語がその後見付かれば、正常に復帰することがで
きる。なお、実施例では、住所の例を挙げて説明
したが、住所欄に限定する必要はない。例えば、
日本文の入力では、単語単位に分割するために単
語ごとにスペースを入れる等の方法が用いられて
いるが、本発明では、このような不便をなくし
て、通常の日本文のままで入力が可能となる。
また、項目入力の場合にも、本発明をそのまま
使用することができ、項目の中に複合語が含まれ
ていても、辞書を拡張することなく、自然に複合
語処理ができる。
〔発明の効果〕
以上説明したように、本発明によれば、単語単
位にあらかじめ分割しておく必要がなく、単語照
合を使用して認識後処理を行うことができる。し
たがつて、本発明によれば、帳票設計時に単語単
位にフイールド分けする必要がなく、通常使用さ
れているものを同じフオーマツトの帳票を使用す
ることができ、記入者の心理的負担を大幅に軽減
することが可能である。
【図面の簡単な説明】
第1図は本発明の一実施例を示す単語後処理シ
ステムの全体ブロツク図、第2図は第1図に用い
られる候補テーブルの一例図、第3図は第2図の
テーブルから選択された候補単語群を示す図、第
4図は整合度テーブルから最もよい整合度の単語
を選び出す手順を示す図、第5図は第3図の候補
単語群に重みを付した図、第6図は第2図の候補
テーブルから作られた整合度テーブルを示す図、
第7図,第8図はそれぞれ従来のフイールド分け
した帳票、および単語間にスペースが入つた日本
語文を示す図である。 1……文字認識装置、2……重み計算回路、3
……単語辞書、4……整合度計算回路、5……単
語抽出回路。

Claims (1)

    【特許請求の範囲】
  1. 1 読取文字を認識する文字認識手段と、単語群
    を保持する単語辞書と、上記文字認識手段により
    認識された文字が上記単語辞書中に保持されてい
    る単語と一致するか否かを照合する単語照合手段
    とを具備する文字認識後処理方式において、上記
    文字認識手段から出力された1フイールド分の候
    補文字列を格納する候補文字テーブルと、該候補
    文字テーブルの各カラムで最小の相違度を与える
    候補単語およびその相違度を登録した整合度テー
    ブルとを設け、上記候補文字テーブルの各カラム
    の候補文字をキーとして、上記単語辞書中から単
    語を選択的に取り出し、該単語と上記候補文字列
    との相違度を計算した後、上記整合度テーブルの
    中から相違度が最小の単語をたどつて出力単語列
    を得ることを特徴とする文字認識後処理方式。
JP60003062A 1985-01-11 1985-01-11 文字認識後処理方式 Granted JPS61161588A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP60003062A JPS61161588A (ja) 1985-01-11 1985-01-11 文字認識後処理方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP60003062A JPS61161588A (ja) 1985-01-11 1985-01-11 文字認識後処理方式

Publications (2)

Publication Number Publication Date
JPS61161588A JPS61161588A (ja) 1986-07-22
JPH0576675B2 true JPH0576675B2 (ja) 1993-10-25

Family

ID=11546836

Family Applications (1)

Application Number Title Priority Date Filing Date
JP60003062A Granted JPS61161588A (ja) 1985-01-11 1985-01-11 文字認識後処理方式

Country Status (1)

Country Link
JP (1) JPS61161588A (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2570784B2 (ja) * 1988-01-18 1997-01-16 富士通株式会社 文書リーダ後処理装置
JP2886868B2 (ja) * 1988-09-07 1999-04-26 株式会社日立製作所 文字認識の後処理方法

Also Published As

Publication number Publication date
JPS61161588A (ja) 1986-07-22

Similar Documents

Publication Publication Date Title
Cotterell et al. CoNLL-SIGMORPHON 2017 shared task: Universal morphological reinflection in 52 languages
JP6813591B2 (ja) モデル作成装置、テキスト検索装置、モデル作成方法、テキスト検索方法、及びプログラム
US20040267737A1 (en) Database search system
KR100288144B1 (ko) 한글로 표기된 외래어 코드화 방법 및 그를 이용한 검색 방법
CN116595970A (zh) 语句同义改写方法、装置和电子设备
JPH0576675B2 (ja)
CN113468307A (zh) 文本处理方法、装置、电子设备及存储介质
CN109727591B (zh) 一种语音搜索的方法及装置
CN110956962A (zh) 车载机器人的答复信息确定方法、装置及设备
CN110928982A (zh) 机器阅读理解方法、设备和存储介质
CN111177316A (zh) 一种基于主题词过滤的智能问答方法及系统
JP4511274B2 (ja) 音声データ検索装置
KR102278288B1 (ko) 음소 기반 텍스트 검색 장치 및 방법
JPS60225273A (ja) 単語検索方式
JP3548372B2 (ja) 文字認識装置
JPH0340434B2 (ja)
JPH01114976A (ja) 文書処理装置の辞書構造
JP2947832B2 (ja) 単語照合方法
CN116701963A (zh) 一种字符串模糊匹配的方法及系统
JPH0259513B2 (ja)
JPH0226268B2 (ja)
JPS6116367A (ja) テキスト分割方式
JPS62284481A (ja) 文字認識後処理方式
JPH067351B2 (ja) 候補列作成装置
JPS62285189A (ja) 文字認識後処理方式

Legal Events

Date Code Title Description
EXPY Cancellation because of completion of term