JPH02121078A - 用語辞書検索装置 - Google Patents

用語辞書検索装置

Info

Publication number
JPH02121078A
JPH02121078A JP63275224A JP27522488A JPH02121078A JP H02121078 A JPH02121078 A JP H02121078A JP 63275224 A JP63275224 A JP 63275224A JP 27522488 A JP27522488 A JP 27522488A JP H02121078 A JPH02121078 A JP H02121078A
Authority
JP
Japan
Prior art keywords
character
term
score
characters
frequently used
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP63275224A
Other languages
English (en)
Inventor
Osamu Nakamura
修 中村
Tadashi Kitamura
正 北村
Masami Oguro
雅己 小黒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP63275224A priority Critical patent/JPH02121078A/ja
Publication of JPH02121078A publication Critical patent/JPH02121078A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [発明の目的] (産業上の利用分野) 本発明は、用語辞書に登録された多数の用語から文字認
識結果などの曖昧な入力記号列に最も類似した用語を検
索する用語辞書検索装置に関する。
(従来の技術) 手書ぎまたは印刷の文字を機械によって読み取るための
技術においては、読み取り精度の向上が最重要課題とな
っている。精度を向上されるための一つの技術として、
文字辞書を用いる1文字毎の文字認識と、この文字認識
結果の組合せから生成される用語候補の妥当性をチエツ
クする用語辞書検索とを組み合わせる方法が一般的であ
る。
すなわち、現状では完全とは言えない1文字毎の文字認
識精度を用語辞書検索によって補う方法である。上記方
法においては、用語辞書検索時に正解用語候補が生成さ
れる確率を高めるため、文字認識結果どして1文字領域
当り複数の、すなわち通常は数十の文字候補を出力させ
る必要がある。
方、前述し1=文字読み取り技術を活用した実用装置の
開発に対する要求として読み取り速度が重要な評価尺度
と考えられる場合が多いが、前記読み取り精度を向上さ
せる技術を導入すると、般に読み取り速度を低下させる
ことになるため、処理の高効率化も併せて実現する必要
がある。特に、上述したように文字認識結果として1文
字領域当り複数の文字候補を出力する場合、これらの組
合せから生成される用語候補が膨大な量となり、用語辞
書検索時間が増大する。
そこで、上記問題を解決するため、文字認識結果の組合
せから生成される文字列を検索キーとして用語辞書検索
を直接実行するのでなく、例えば松尾他による「単語認
識装置」という名称の特願昭61−248415に記載
されているように、文字字種とその文字が含まれるべき
文字の用語内の位置を指定することによって用語候補を
出力する選択テーブルを用いて演算量を削減しようと覆
る方法がある。更に詳細には、文字認識結果として与え
られる文字候補1ylij(i  :入力文字列中の文
字認識順位(1≦jsra、  m:入力文字列長)、
j :文字位置iにおける複数文字候補の文字認識順位
(1≦j≦n、  n:任意の定数))の1文字ずつを
参照キーとして前記選択テーブルをmX0回参照し、文
字Mijをi文字目に含む用語の集合をm個求め、これ
らの集合間の論理積を求めるとともに、該論理積の結果
ぐある各用語候補が包含する文字Mijに付された文字
認識スコアsijの和Ti  (1≦i≦W、  W:
前記論理積としての用語候補個数)を求め、前記用Ti
が所定のしきい値以上であった用語候補を出力している
上述した従来の方法は、文字候補Mijの組合せ(最大
n″個)をキーとして用語辞書検索を実行する方法に対
して、選択テーブルの参照による演算量をほぼmxnま
で低減するという利点がある。
(発明が解決しようとする課題) 上述した従来の方法においては、読み取り対象データと
して例えば住所を想定し、「東京都武蔵野市緑町」のよ
うに都道府県名から町村名までを一括して1用語として
登録している住所辞書を用いる場合、高頻度で使用され
る文字、例えば「市」や「町jなどが文字候補MIJに
含まれていて、これらの高頻度出現文字をキーとして前
記選択テーブルを参照すると、極めて多数の用語、場合
によっては住所辞書中の半分以上の多数の用語が出力さ
れ、以降の各用語に対する演算量を増大させてしまうと
ともに、正解用語の識別率を低下させるという問題があ
る。具体的には、例えば「市」をキーとして用語を選択
すると、例えば「秋用市」、「入間市」、1所沢市」、
「川越布」・・・・・・・・・等のように多数の用語が
出力され演算量が増大するばかりでなく、不要用語を処
理対象とさせるため、正解用語の識別率を著しく低下さ
せる可能性がある。
本発明は、上記に鑑みてなされtcもので、その目的と
するところは、用語辞書検索の高速化および用語辞書の
高識別化を図った用語辞書検索装置を提供することにあ
る。
[発明の構成] (課題を解決するための手段) 上記目的を達成する1こめ、本発明の用語辞書検索装置
は、少なくとも1文字からなる文字列の各文字に対して
少なくとも1文字以上の候補文字を該候補文字の確から
しさを示すスコアとともに有する入力文字候補から最も
確からしい用語を検索する用語辞書検索装置であって、
前記入力文字候補のうち所定の高頻度使用文字を除去し
た各候補文字について該各候補文字の前記文字列の中の
文字位置が同じでかつ文字列の文字数が同じ用語を選択
する用語選択手段と、該用語選択手段で選択した各用語
において各用語を構成する各文字のうち前記候補文字と
同じ文字に対する前記スコアを加算して各用語の合計ス
コアを算出するスコア算出手段と、前記用語選択手段で
選択された各用語に含まれる高頻度使用文字を識別し、
該高頻度使用文字を含む各用語の前記合計スコアに高頻
度使用文字に対応する所定のスコアを加算して各用語の
スコアを補正するスコア補正手段とを有することを要旨
と覆る。
(作用) 本発明の用語辞書検索装置では、入力文字候補のうち所
定の高頻度使用文字を除去した各候補文字について文字
位置が同じで文字列の文字数が同じ用語を選択し、この
各用語に含まれるスコアを加算して各用語の合計スコア
を算出するとともに、該各用語が高頻度使用文字を含む
場合、該高頻度使用文字に対応Jる所定のスコアを前記
合計スコアに加算してスコアを補正している。
(実施例) 以下、図面を用い−C本発明の詳細な説明する。
第1図は本発明の一実施例に関わる用語辞書検索装置の
機能的構成および動作原理を示す説明図である。同図に
示す用語辞書検索装置は、例えば文字認識装置等で認識
された複数の文字候補からなる文字マトリックス21が
入力され、この文字マトリックス21は選択処理部1に
供給されるようになっている。同図に示す文字マトリッ
クス21は、−例として1横方向に配列された3文字が
らなり、この3文字の各文字位置に対してそれぞれ2文
字ずつの候補を有する。具体的に説明すると、3文字の
うちの第1文字に対する文字候補としては、第1候補の
「立」と第2候補の1日」があり、第2文字に対する文
字候補としては、同様に「山」と「川」があり、第3文
字に対する文字候補としては、「市」と「原」がある。
また、各文字候補には、文字認識時に判定した文字の「
確からしさ」を示すスコアが各文字の後の括弧内に、例
えば2.1のような数字で示されている。
前記選択処理部1は選択テーブル1aを有する。
選択テーブル1aは、文字7トリツクス21を構成する
例えば3文字等のような複数の文字からなる各文字候補
が該複数の文字の組合せどし−ri度の高い用語候補を
得るために用語辞書内の各用語についてi文字目にいず
れの文字が含まれるかを示すように各用語および各用語
に対する構成文字をテーブル化したものである。選択処
理部1は、墜選択テーブル1aを参照することにより文
字マトリックス21を含まれる各候補文字を指定位置に
含む候補用語、具体的には該候補用語に対する用語コー
ドを選択するものである。例えば、文字マトリックス2
1の第1文字にある文字「立」に対しては第1文字目に
1立」を有する「立用市」に対する用語コードC53が
選択され、第1文字の「日」に対しては同様に第1文字
目に「日」を有する「日野市」および「日立市」に対す
るコードC50,C51がそれぞれ選択されている。
選択処理部1で選択された前記用語コードC50、C5
1,・・・・・・・・・、C10等は累積加算処理部3
に供給され、該累積加算処理部3内の累積加算テーブル
3aに各用語コードの各文字が有している各用語スコア
が各用語コードに対応して累積加算される。例えば、用
語コードC53で示される「立用市」の場合には、第1
文字目の「立」のスコアの2点と、第2文字目の「川」
のスコアの1点とが累積加算され、合計のスコアは3点
となる。
なお、この場合は、該用語「立用市」の第3文7目の高
頻度使用文字「市」によって選択テーブル1aを参照し
ても用語候補コードを出力せず、またこの高頻度使用文
字「市」に対するスコアを累積加算テーブル3aに加算
しない点が従来と巽なっている。従って、「立用市」の
ように高頻度使用文字「市」を含む用語候補の累積加算
テーブル3a上のスコアは「市」の文字認識スコアであ
る2点だけ本来の累積スコア値よりも低くなっている。
累積加算処理部3の累積加算テーブル3aに加算された
各用語コードおよび用語スコアは、スコア補正部5に供
給される。スコア補正部5は、用語辞書中に含まれる各
用語について包含する高頻度使用文字の種類と位置を示
す用語対応テーブル5aおよびスコアの累積加算結果を
待避する作業テーブル5bを有し、該文字用語対応テー
ブル5aを使用して各候補用語がスコア補正すべき高頻
度使用文字を含んでいるか否かの判定を行う。更に詳し
くは、前記累積加算テーブル3aにスコアを累積加算さ
れた用語が高頻度使用文字、例えば[市J等を含む場合
、該用語のスコアに対して高頻度使用文字「市」のスコ
アの2点を累積加算してスコアの補正処理を行う。すな
わち、文字用語対応テーブル5aは各用語コードに対応
して高頻度使用文字「市」およびその位置、例えば3が
示されているが、累積加算テーブル3aからの各用語が
この高頻度使用文字「市」を文字用語対応テブル5aに
示す所定位置に有する場合、該高頻度使用文字「市」の
スコアの2点が加算され、作業テーブル5bのように用
語スコアが補正される。
具体的には、用語コードC50,C51,C53゜C6
2の「日野市」、「日立市」、「立川市」、「狭山市」
は累積加算テーブル3aにおける用語スコアはそれぞれ
1点、1点、3点、2点であるが、高頻度使用文字「市
」の2点が加算され、作業テーブル5bではそれぞれ3
点、3点、5点、4点に補正されている。
文字用語対応テーブル5aは高頻度使用文字を含む辞書
中の全用語について用語コードC1、同用語コードCi
が含む高頻度使用文字種別、および高頻度使用文字が締
める用語内の位置を示し、作業テーブル5bにある用語
候補のコードから高頻度使用文字の種類と位置を出力し
、入力文字71−リックス中の高頻度使用文字と種類、
位置共に致したことを検出することによりスコア補正処
理の実施判定を可能とする。なお、例えば「化1市」の
ように高頻度使用文字「市」を2個含む場合でも、先頭
の「市」の3文字目の「市」とを区別し、3文字目の「
市]のみを高頻度使用文字として処理するようになって
いる。
上述したように、選択処理部1においては、1市」のよ
うな住所辞書中の1/2以上の用語に含まれる高頻度使
用文字の用語候補コードの出力を抑制し、後に高頻度使
用文字以外の文字から出力され少量の用語候補に対して
のみスコア補正処理を行うことによって、演算量を少な
くすることができることは明らかである。
スコア補正部5で補正されIC用語コードおよび対応覆
る用語スコアは、選別処理部7に供給される。選別処理
部7は、作業用テーブル7aを有し、スコア補正部5で
補正された用語スコアから最終累積スコアが高い任意個
数の用語補正を選別して出力する。この選別に当たつ−
Cは、各種の方法が考えられるが、−殻内にはソーティ
ングを用いる。
すなわち、作業用テーブル7a上において、各用語候補
を累積スコアの高いものから順に並べ直し、その後に上
位から任意個数の用語候補を抽出する方法である。第1
図では、上位から2位までの用語候補例「立川市」、「
狭山市」を出力している。
第2図は第1図の用語辞書検索装置の具体的な構成を示
すブロック図である。同図に示すように、用語辞書検索
装置は、図示しない文字認識装置等から転送路9aを介
して前記入力文字マトリックス21が供給され、前記用
語候補列を転送路9bを介して出力するプロセッサ9と
、該プロセッサ9に転送路11bを介して接続され、前
述した選択処理部1、累積加韓処理部3、スコア補正部
5および選別処理部7の機能を実現するためのプログラ
ムを記憶しているプログラムメモリ11と、プロセッサ
9に転送路13bを介して接続され、前記累積加算テー
ブル3a、作業テーブル5b、作業用テーブル78等を
構成する作業用メモリ13と、プロセッサ9に転送路1
5bを介して接続されているテーブルメモリ15とを有
する。また、テーブルメモリ15は、前記選択テーブル
1a1文字用語対応テーブル5a、および用語コードか
ら実際の文字列を得るためのコード文字列変換テーブル
15aを有する。
このように構成される用語辞書検索装置は、入力される
文字マトリックス21の中の候補用語の組合せとして最
も確からしい用語候補を選別するものであるが、プロセ
ッサ9は、転送路9aを介して外部の例えば文字認識装
置等から供給される文字マトリックス21を受信すると
、この文字マトリックス21を転送路13bを介して作
業用メモリ13の所定の記憶領域に書ぎ込む。次に、プ
ロセッサ9は、作業用メモリ13上の文字マトリックス
21から順に1文字ずつ読み出しながら転送路15bを
介して選択テーブル1aを参照し、着目文字を指定の位
置に含む用語コードを選択し、この用語コードで示され
る作業用メモリ13」二の累積加算テーブル3aの該当
位置に着目文字に付された文字認識スコアを加算する。
なお、前記累積加算テーブル3aへのスコアの加算にお
いては、旦、1加算値を読み出し、プロセッサ9におい
て加算を施した後に同じ記憶領域に書き戻す2動作が必
要となる。
前述したスコア加算動作を文字マトリックス21中のす
べての文字について実行する。次に、プロセッサ9は、
作業用メモリ13中に記憶した累積加算テーブル3a中
のスコアが付されている用語コードに関するデータのみ
を作業用メモリ13の作業テーブル5bに転送し、それ
から作業テーブル5b内の用語コードを順に読み出し、
この読み出した用語コードから高頻度使用文字が含まれ
ているか否かを識別する。高頻度使用文字を含むと識別
された用語コードに対しては、テーブルメモリ15内の
文字用語対応テーブル5aを該用語コードで参照し、高
頻度使用文字の種別と位置を入手し、これらの結果と文
字マトリックス21中に含まれている高頻度使用文字の
種別と位置が致するか否かを識別する。一致した高頻度
使用文字については、該高頻度使用文字に付された文字
認識スコアを着目の用語コードに付随するスコア領域に
加算してスコア補正処理を行う。このスコア補正処理を
作業テーブル5b上のすべての用語コードについて行う
次に、作業テーブル5b上の各用語コードの中から付随
する累積スコアの高い候補を任意個数選別し、この選別
した用語コードに対して前記テーブルメモリ15のコー
ド文字列変換テーブル15aを参照しながら、選別され
た用語コードを実際の文字列、すなわち漢字仮名列に変
換し、作業用メモリ13中の所定の記憶領域、すなわち
作業用テーブル7aに記憶する。このように記憶されl
〔最終処理結果の文字列、例えば前述した第1図に示す
「立川布」、「狭山市」などの文字列は転送路9bを介
してプロセッサ9から外部の例えば表示装置、ファイル
記憶装置等に出力されることになる。
−15= [発明の効果] 以上説明したように、本発明によれば、入力文字候補の
うち所定の高頻度使用文字を除去した各候補文字につい
°C文字位置が同じで文字列の文字数が同じ用語を選択
し、この各用語に含まれるスコアを加算して各用語の合
計スコアを算出するとともに、該各用語が高頻度使用文
字を含む場合、該高頻度使用文字に対応する所定のスコ
アを前記合計スコアに加算してスコアを補正しているの
で、極めて高頻度で多数の用語中に使用される高頻度使
用文字を用語の選択から除去しているため、演算量が大
幅に削減され、高速化が図れるとともに、また正確用語
の識別率を向上させることができる。
【図面の簡単な説明】
第1図は本発明の一実施例に関わる用語辞書検索装置の
機能的構成および動作原理を示す説明図、第2図は第1
図の用語辞書検索装置の構成を示すブロック図である。 1・・・選択処理部 1a・・・選択テーブル 3・・・累積加算処理部 3a・・・累積加算テーブル 5・・・スコア補正部 5a・・・文字用語対応テーブル 7・・・選別処理部 9・・・プロセッサ 11・・・プログラムメモリ 13・・・作業用メモリ 15・・・テーブルメモリ

Claims (1)

    【特許請求の範囲】
  1. 少なくとも1文字からなる文字列の各文字に対して少な
    くとも1文字以上の候補文字を該候補文字の確からしさ
    を示すスコアとともに有する入力文字候補から最も確か
    らしい用語を検索する用語辞書検索装置であって、前記
    入力文字候補のうち所定の高頻度使用文字を除去した各
    候補文字について該各候補文字の前記文字列の中の文字
    位置が同じでかつ文字列の文字数が同じ用語を選択する
    用語選択手段と、該用語選択手段で選択した各用語にお
    いて各用語を構成する各文字のうち前記候補文字と同じ
    文字に対する前記スコアを加算して各用語の合計スコア
    を算出するスコア算出手段と、前記用語選択手段で選択
    された各用語に含まれる高頻度使用文字を識別し、該高
    頻度使用文字を含む各用語の前記合計スコアに高頻度使
    用文字に対応する所定のスコアを加算して各用語のスコ
    アを補正する補正手段とを有することを特徴とする用語
    辞書検索装置。
JP63275224A 1988-10-31 1988-10-31 用語辞書検索装置 Pending JPH02121078A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63275224A JPH02121078A (ja) 1988-10-31 1988-10-31 用語辞書検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63275224A JPH02121078A (ja) 1988-10-31 1988-10-31 用語辞書検索装置

Publications (1)

Publication Number Publication Date
JPH02121078A true JPH02121078A (ja) 1990-05-08

Family

ID=17552435

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63275224A Pending JPH02121078A (ja) 1988-10-31 1988-10-31 用語辞書検索装置

Country Status (1)

Country Link
JP (1) JPH02121078A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018041329A (ja) * 2016-09-08 2018-03-15 株式会社日立ビルシステム 文字認識装置、及び、文字認識方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018041329A (ja) * 2016-09-08 2018-03-15 株式会社日立ビルシステム 文字認識装置、及び、文字認識方法

Similar Documents

Publication Publication Date Title
JP2726568B2 (ja) 文字認識方法及び装置
JP3077765B2 (ja) 語彙辞書の検索範囲を削減するシステム及び方法
US6978044B2 (en) Pattern string matching apparatus and pattern string matching method
JPH02121078A (ja) 用語辞書検索装置
JP3975825B2 (ja) 文字認識誤り訂正方法、装置及びプログラム
JPS6262388B2 (ja)
JP2801602B2 (ja) 単語認識装置
JP3115459B2 (ja) 文字認識辞書の構成方法及び検索方法
JPS63103393A (ja) 単語認識装置
JPS62285189A (ja) 文字認識後処理方式
JPH06274701A (ja) 単語照合装置
JPH07271920A (ja) 文字認識装置
JP2939945B2 (ja) ローマ字住所認識装置
JPH053631B2 (ja)
JPS6059487A (ja) 手書文字認識装置
JPH10105578A (ja) 点数を利用した類似単語検索方法
JPH0757059A (ja) 文字認識装置
JP2746899B2 (ja) 文字認識装置
JP2006209298A (ja) 文字認識後処理装置、文字認識後処理方法およびコンピュータプログラム
JPH0355874B2 (ja)
JPS6174086A (ja) 単語認識装置
JPH04111186A (ja) 住所文字列に対する文字認識結果修正方法
JPS6368989A (ja) 文書読み取り装置
JPH03189890A (ja) 複合語照合方法
JPH02166588A (ja) 認識方法