JPH11213097A - 単語認識装置および単語認識方法,並びに単語認識方法をコンピュータに実行させるプログラムを記録した機械読み取り可能な記録媒体 - Google Patents

単語認識装置および単語認識方法,並びに単語認識方法をコンピュータに実行させるプログラムを記録した機械読み取り可能な記録媒体

Info

Publication number
JPH11213097A
JPH11213097A JP10025233A JP2523398A JPH11213097A JP H11213097 A JPH11213097 A JP H11213097A JP 10025233 A JP10025233 A JP 10025233A JP 2523398 A JP2523398 A JP 2523398A JP H11213097 A JPH11213097 A JP H11213097A
Authority
JP
Japan
Prior art keywords
word
candidate
words
character string
input character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10025233A
Other languages
English (en)
Inventor
Yukihisa Uchiyama
幸央 内山
Shinsuke Ono
伸輔 小野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP10025233A priority Critical patent/JPH11213097A/ja
Publication of JPH11213097A publication Critical patent/JPH11213097A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】 【課題】 階層性を有する単語を認識処理する際に,候
補文字補完が行われても高速な認識処理を実現するこ
と。 【解決手段】 外部より入力された入力文字列を格納す
る入力文字列格納部101と,認識対象の単語があらか
じめ登録された単語辞書103と,入力文字列に対し,
単語辞書103を参照し,現時点で作成されている他の
階層と上位−下位の関係にある単語を抽出し,1つの階
層単語を作成する階層単語作成部102と,上記作成さ
れた階層ごとの候補単語を保存する階層単語格納部10
4と,所定の階層について作成された候補単語があらか
じめ設定した上限数を超える場合に,階層の候補単語を
上限数まで絞り込み,次の階層の候補単語の作成範囲を
制御する次階層制御部105と,すべての階層について
の候補単語を統合して入力文字列全体に対する候補単語
を決定する候補単語決定部106とを備えた。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は,住所情報などよう
な階層性を有する単語を認識する単語認識装置および単
語認識方法,並びに単語認識方法をコンピュータに実行
させるプログラムを記録した機械読み取り可能な記録媒
体に関する。
【0002】
【従来の技術】従来,郵便物表面に記載されているあて
名を文字認識処理により読み取り,その結果に基づいて
個々の郵便物を区分する,いわゆる郵便あて名自動読取
区分機に用いられる郵便物記載住所認識装置が特開平5
−324899号公報に開示されている。
【0003】特に,上記公報では,住所の読み取りにお
いて,その階層性に着目し,各階層において候補単語を
作成する範囲を,それ以前に作成された他の階層の候補
単語と上位−下位関係にあるものに限定する方法をとっ
ている。この方法によって,不適切な階層間の組み合わ
せを生じる候補単語が作成されなくなるので,処理時間
の短縮化が実現される。
【0004】
【発明が解決しようとする課題】しかしながら,上記に
示されるような従来の技術にあっては,すでに作成され
た階層,特に最初に作成された階層の候補単語の数が多
い場合,以後の階層に対する単語作成範囲を適切に限定
することができないため,的確な単語認識が得られない
ケースが生じるという問題点があった。このようなケー
スは,一般に単語認識システムの候補文字補完能力,つ
まり,入力文字列の一部の文字位置に正解候補が含まれ
ない場合,正解候補を入力文字列に追加する機能が高い
ほど発生頻度が多くなる。
【0005】さらに詳述する。たとえば,図4に示すよ
うに,「横浜市港北区新横浜」に対する候補文字並びが
与えられ,文字列先頭から順に階層ごとの候補単語を作
成する例について述べる。まず,最初の階層についてみ
ると,「積浜市」や「積沼市」なる住所は存在しないの
で,文字列先頭に「長」,「小」,「横」,「高」,
「岩」,「鹿」などが候補補完され,最初の階層の候補
単語として「長浜市」,「小浜市」,「横浜市」,「高
浜市」,「岩沼市」,「鹿沼市」などが作成される。す
ると以後の階層の候補単語を作成する際に,作成範囲が
「横浜市」以外の多くの市を含むため,あまり効率的で
なくなる。
【0006】本発明は,上記に鑑みてなされたものであ
って,階層性を有する単語を認識処理する際に,候補文
字補完が行われても高速な認識処理を実現することを目
的とする。
【0007】
【課題を解決するための手段】上記の目的を達成するた
めに,請求項1に係る単語認識装置にあっては,階層性
を有する入力文字列の単語を認識し,候補単語を決定・
出力する単語認識装置において,外部より入力された入
力文字列を格納する入力文字列格納手段と,認識対象の
単語があらかじめ登録された単語辞書と,前記入力文字
列に対し,前記単語辞書を参照し,現時点で作成されて
いる他の階層と上位−下位の関係にある単語を抽出し,
1つの階層単語を作成する階層単語作成手段と,前記階
層単語作成手段により作成された階層ごとの候補単語を
保存する階層単語格納手段と,所定の階層について作成
された候補単語があらかじめ設定した上限数を超える場
合に,階層の候補単語を上限数まで絞り込み,次の階層
の候補単語の作成範囲を制御する次階層制御手段と,す
べての階層についての候補単語を統合して前記入力文字
列全体に対する候補単語を決定する候補単語決定手段
と,を備えたものである。
【0008】すなわち,本発明の単語認識装置(請求項
1)によれば,所定の階層の候補単語が多くなると,一
定の上限数まで候補単語を絞り込むことにより,従来の
ように正解単語以外の候補単語を多く含まないので,単
語認識における処理効率が向上する。
【0009】また,請求項2に係る単語認識方法にあっ
ては,階層性を有する単語に対する候補文字の並びを入
力文字列として入力し,一つの階層の候補単語を作成す
る際に,現時点で作成されている他の階層の候補単語と
上位−下位の関係にある単語のみを作成する単語認識方
法であって,所定の階層について作成された候補単語が
あらかじめ設定した上限数を超えた場合に,階層の候補
単語を上限数まで絞り込み,次の階層の候補単語を作成
する第1の候補単語作成工程を含むものである。
【0010】すなわち,本発明の単語認識方法(請求項
2)によれば,所定の階層の候補単語が多くなると,一
定の上限数まで候補単語を絞り込むことにより,従来の
ように正解単語以外の候補単語を多くを含まないので,
単語認識における処理効率が向上する。
【0011】また,請求項3に係る単語認識方法にあっ
ては,さらに,前記入力文字列に対する候補単語を求め
たのち,該候補単語と前記入力文字列との相違度を算出
する相違度算出工程と,すべての候補単語に対し,前記
相違度算出工程で算出した相違度があらかじめ定めたし
きい値を超える場合に,所定の階層における候補単語の
上限数を増加させ,該上限数内で再度認識を実行する第
2の候補単語作成工程と,を含むものである。
【0012】すなわち,本発明の単語認識方法(請求項
3)によれば,上記請求項2に加え,誤った単語候補を
作成したとみなされる場合についてのみ,上限数を増や
して単語認識を再実行することにより,単語認識の速度
向上を図ることが可能となり,かつ,認識精度を向上さ
せることも可能となる。
【0013】また,請求項4に係る単語認識方法にあっ
ては,前記相違度は,候補単語の各文字の入力文字列に
おける候補順位と候補単語の階層数とに基づいて算出す
るものである。
【0014】すなわち,本発明の単語認識方法(請求項
4)によれば,請求項2または3において,候補単語の
各文字の入力文字列における候補順位と候補単語の階層
数とに基づいて相違度を算出することにより,より的確
な単語認識が実現する。
【0015】また,請求項4に係る機械読み取り可能な
記録媒体にあっては,前記請求項2ないし3のいずれか
1つに記載された単語認識方法をコンピュータに実行さ
せるプログラムを記録したものである。
【0016】すなわち,請求項2ないし3のいずれか1
つに記載された単語認識方法をコンピュータに実行させ
るプログラムを記録したことにより,請求項2ないし3
のいずれか1つの動作をコンピュータによって実現する
ことが可能となる。
【0017】
【発明の実施の形態】以下,本発明の単語認識装置およ
び単語認識方法,並びに単語認識方法をコンピュータに
実行させるプログラムを記録した機械読み取り可能な記
録媒体について添付図面を参照し,詳細に説明する。
【0018】〔実施の形態1〕 (単語認識装置の構成)図1は,実施の形態に係る単語
認識装置の構成を示すブロック図である。図において,
101は候補文字の並びが保存される入力文字列格納手
段としての入力文字列格納部,102は1つの階層単語
を作成する階層単語作成手段としての階層単語作成部,
103は認識対象の単語があらかじめ登録された単語辞
書,104は階層ごとの候補単語を保存する階層単語格
納手段としての階層単語格納部,105は階層単語格納
部104の候補単語を参照して次の階層の候補単語の作
成範囲を制御する次階層制御手段としての次階層制御
部,106はすべての階層についての候補単語を統合し
て入力文字列全体に対する候補単語を決定する候補単語
決定手段としての候補単語決定部である。
【0019】(単語認識装置の動作)次に,以上のよう
に構成された単語認識装置の特徴となる動作について説
明する。
【0020】最初に,図4に示すような文字列,つま
り,階層性を有する単語に対する候補文字の並びの文字
列が入力され,これを入力文字列格納部101に格納す
る。まず,図4の文字列に対して最初の階層についてみ
ると,先に述べたように,「積浜市」や「積沼市」なる
住所は存在しないので,文字列先頭に「長」,「小」,
「横」,「高」,「岩」,「鹿」などが候補補完され,
最初の階層の候補単語として「長浜市」,「小浜市」,
「横浜市」,「高浜市」,「岩沼市」,「鹿沼市」など
が階層単語作成部102により多数作成される。
【0021】ここで,上述の如く単語候補の多数作成を
回避するために候補単語の上限数をあらかじめ定めてお
き,これを超える場合には候補単語を上限数まで絞り込
む。たとえば,上限数を4とすると,この場合,候補単
語数が4を超えているので,何らかの方法で候補単語を
4つに絞り込む。
【0022】この実施の形態では,候補単語の各文字の
入力文字列における候補順位の和を算出し,これが小さ
い順に4つまで採用する。なお,補完文字は20点とし
て計算する。
【0023】すなわち,この例では, 長浜市 20+1+1=22 小浜市 20+1+1=22 横浜市 20+1+1=22 高浜市 20+1+1=22 岩沼市 20+3+1=23 鹿沼市 20+3+1=23 となるので,次の階層の候補単語を作成する際には,
「長浜市」,「小浜市」,「横浜市」,「高浜市」のい
ずれかの市に属する地名だけを認識対象とすればよい。
【0024】〔実施の形態2〕ところで,ある階層の候
補単語を絞り込むことによって処理の高速化が実現する
が,一方で正解の単語が絞り込みの際に除外されてしま
うという可能性が考えられる。たとえば,上述の実施の
形態1において,もし上限数が2に設定されているとし
た場合,順位和22点の4市のうち2市のみが採用され
ることになるので,同点の場合その扱いによっては,正
解の「横浜市」が除外されてしまう可能性がある。
【0025】そこで,この実施の形態2では図2に示す
ようなフローチャートに基づく動作を行う。まず,上限
数を2に設定し(S201),いったん上限数2の条件
で候補単語を作成する(S202)。ここで,絞り込み
で残った候補単語が「長浜市」や「小浜市」,「高浜
市」ならば,第2階層以降の候補単語をうまく作成する
ことができないので,入力文字列全体に対する候補単語
も「〜市」までとなる(これ以降の「港北区新横浜」は
非単語部であるとみなされる)。また,「横浜市」が絞
り込みで残った場合は,「横浜市港北区新横浜」が入力
文字列全体の候補単語となる。
【0026】続いて,候補単語の各文字の入力文字列に
おける候補順位と候補単語の階層数とを用い,各候補単
語と各入力文字列との相違度を計算する(S203)。
ここでは,候補順位の和Sが小さいほど,単語長Wが長
いほど,階層数Lが多いほど相違度が小さくなるよう
に,下記の式を用いる。
【0027】相違度 D=A/B ただし,A=S+(P−W)×20+(4−L)×80 B=P×20+4×80 (Pは入力文字列の長さ)
【0028】この例における相違度を上記式に基づいて
計算すると,「小浜市」「長浜市」「高浜市」+非単語
部の場合は, D={22+(9−3)×20+(4−1)×80}/(9×20+4×80) =0.764 となる。
【0029】また,「横浜市港北区新横浜」の場合は, D={22+(9−9)×20+(4−3)×80}/(9×20+4×80) =0.204 となる。
【0030】次に,上記ステップS203で相違度の計
算を行った後,すべての候補単語についてあらかじめ設
定したしきい値以下の相違度があるか否かを判断する
(S204)。なお,この場合,しきい値=0.6とす
る。ここで,しきい値以下の相違度を示す候補単語があ
ると判断したならば,その候補単語を出力する(S20
7)。
【0031】一方,上記ステップS204において,す
べての候補単語がしきい値を超えていると判断したなら
ば,さらに上限数を4つに増やし(S205),上限数
4における候補単語を作成し(S206),その候補単
語を出力する(S207)。
【0032】付言すれば,もし「横浜市」が絞り込み段
階で残っているとすれば,その相違度0.204はしき
い値(=0.6)以下であるであるので,候補単語とし
て出力されて処理が完了する。一方,もし「横浜市」が
除外されているとすれば,どの候補単語も相違度が0.
764であり,しきい値(=0.6)を超えているの
で,絞り込みの上限数を4に増やして再度認識処理を実
行することにより,上述の実施の形態1と同様の結果が
得られる。
【0033】〔実施の形態3〕さて,本発明は上述した
実施の形態の他にソフトウェアによっても実現すること
ができる。本発明をソフトウェアによって実現する場合
におけるコンピュータシステムの構成例を図3に示す。
【0034】図3において,301は制御プログラムに
基づいて装置全体を制御するCPU,302は制御プロ
グラムが格納されているROM,303はたとえばワー
クメモリとして使用されるRAM,304はコンピュー
タの入力・出力状態などを表示する表示装置,305は
ハードディスク,306は認識対象の文字列などを入力
するために用いられるキーボード,307はCD−RO
Mドライブ,308はコンピュータ読み取り可能な記録
媒体としてのCD−ROMであり,本発明の単語認識方
法を実現するプログラムが記録されている。
【0035】以上のように構成されたコンピュータシス
テムにおいて,CD−ROM308に本発明の単語認識
方法を実現するプログラムを記録しておく。CPU30
1により,上記プログラムが読み込まれ,プログラムが
起動されると,入力文字列がハードディスク305やR
AM303から読み込まれて,上述と同様の単語認識処
理を実行し,その結果を表示装置304などに出力す
る。
【0036】
【発明の効果】以上説明したように,本発明に係る単語
認識装置(請求項1)によれば,所定の階層の候補単語
が多くなると,一定の上限数まで候補単語を絞り込むこ
とにより,従来のように正解単語以外の候補単語を多く
を含まないため,単語認識における処理効率の向上を図
ることができる。
【0037】また,本発明に係る単語認識方法(請求項
2)によれば,所定の階層の候補単語が多くなると,一
定の上限数まで候補単語を絞り込むことにより,従来の
ように正解単語以外の候補単語を多く含まないので,単
語認識における処理効率を向上させることができる。
【0038】また,本発明に係る単語認識方法(請求項
3)によれば,上記請求項2に加え,誤った単語候補を
作成したとみなされる場合についてのみ,上限数を増や
して単語認識を再実行するため,単語認識の速度向上を
図ることができ,かつ,認識精度を向上させることもで
きる。
【0039】また,本発明に係る単語認識方法(請求項
4)によれば,請求項2または3において,候補単語の
各文字の入力文字列における候補順位と候補単語の階層
数とに基づいて相違度を算出するため,より的確な単語
認識が実現する。
【0040】また,本発明に係る機械読み取り可能な記
録媒体(請求項5)によれば,請求項2ないし3のいず
れか1つに記載された単語認識方法をコンピュータに実
行させるプログラムを記録したことにより,請求項2な
いし3のいずれか1つの動作をコンピュータによって実
現することができる。
【図面の簡単な説明】
【図1】実施の形態に係る単語認識装置の構成を示すブ
ロック図である。
【図2】実施の形態2に係る動作処理例を示すフローチ
ャートである。
【図3】実施の形態3に係るコンピュータシステムの構
成例を示すブロック図である。
【図4】入力文字列の例を示す図表である。
【符号の説明】
101 入力文字列格納部 102 階層単語作成部 103 単語辞書 104 階層単語格納部 105 次階層制御部 106 候補単語決定部

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 階層性を有する入力文字列の単語を認識
    し,候補単語を決定・出力する単語認識装置において,
    外部より入力された入力文字列を格納する入力文字列格
    納手段と,認識対象の単語があらかじめ登録された単語
    辞書と,前記入力文字列に対し,前記単語辞書を参照
    し,現時点で作成されている他の階層と上位−下位の関
    係にある単語を抽出し,1つの階層単語を作成する階層
    単語作成手段と,前記階層単語作成手段により作成され
    た階層ごとの候補単語を保存する階層単語格納手段と,
    所定の階層について作成された候補単語があらかじめ設
    定した上限数を超える場合に,階層の候補単語を上限数
    まで絞り込み,次の階層の候補単語の作成範囲を制御す
    る次階層制御手段と,すべての階層についての候補単語
    を統合して前記入力文字列全体に対する候補単語を決定
    する候補単語決定手段と,を備えたことを特徴とする単
    語認識装置。
  2. 【請求項2】 階層性を有する単語に対する候補文字の
    並びを入力文字列として入力し,一つの階層の候補単語
    を作成する際に,現時点で作成されている他の階層の候
    補単語と上位−下位の関係にある単語のみを作成する単
    語認識方法であって,所定の階層について作成された候
    補単語があらかじめ設定した上限数を超えた場合に,階
    層の候補単語を上限数まで絞り込み,次の階層の候補単
    語を作成する第1の候補単語作成工程を含むことを特徴
    とする単語認識方法。
  3. 【請求項3】 さらに,前記入力文字列に対する候補単
    語を求めたのち,該候補単語と前記入力文字列との相違
    度を算出する相違度算出工程と,すべての候補単語に対
    し,前記相違度算出工程で算出した相違度があらかじめ
    定めたしきい値を超える場合に,所定の階層における候
    補単語の上限数を増加させ,該上限数内で再度認識を実
    行する第2の候補単語作成工程と,を含むことを特徴と
    する請求項2に記載の単語認識方法。
  4. 【請求項4】 前記相違度は,候補単語の各文字の入力
    文字列における候補順位と候補単語の階層数とに基づい
    て算出することを特徴とする請求項2または3に記載の
    単語認識方法。
  5. 【請求項5】 前記請求項2ないし3のいずれか1つに
    記載された単語認識方法をコンピュータに実行させるプ
    ログラムを記録したことを特徴とする機械読み取り可能
    な記録媒体。
JP10025233A 1998-01-23 1998-01-23 単語認識装置および単語認識方法,並びに単語認識方法をコンピュータに実行させるプログラムを記録した機械読み取り可能な記録媒体 Pending JPH11213097A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10025233A JPH11213097A (ja) 1998-01-23 1998-01-23 単語認識装置および単語認識方法,並びに単語認識方法をコンピュータに実行させるプログラムを記録した機械読み取り可能な記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10025233A JPH11213097A (ja) 1998-01-23 1998-01-23 単語認識装置および単語認識方法,並びに単語認識方法をコンピュータに実行させるプログラムを記録した機械読み取り可能な記録媒体

Publications (1)

Publication Number Publication Date
JPH11213097A true JPH11213097A (ja) 1999-08-06

Family

ID=12160271

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10025233A Pending JPH11213097A (ja) 1998-01-23 1998-01-23 単語認識装置および単語認識方法,並びに単語認識方法をコンピュータに実行させるプログラムを記録した機械読み取り可能な記録媒体

Country Status (1)

Country Link
JP (1) JPH11213097A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009199256A (ja) * 2008-02-20 2009-09-03 Toshiba Corp パターン認識方法、文字認識方法、パターン認識プログラムおよび文字認識プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009199256A (ja) * 2008-02-20 2009-09-03 Toshiba Corp パターン認識方法、文字認識方法、パターン認識プログラムおよび文字認識プログラム

Similar Documents

Publication Publication Date Title
US6973446B2 (en) Knowledge finding method
CN111666442B (zh) 一种图像检索方法、装置及计算机设备
CN106980665A (zh) 数据字典实现方法、装置及数据字典管理系统
JPH05189490A (ja) 関数結果をセーブし検索する方法と装置
JPH11184894A (ja) 論理要素抽出方法および記録媒体
JPH11213097A (ja) 単語認識装置および単語認識方法,並びに単語認識方法をコンピュータに実行させるプログラムを記録した機械読み取り可能な記録媒体
CN110781292A (zh) 文本数据多层次分类方法、装置、电子设备和存储介质
JP2000353159A (ja) 表記・読み対応付け装置、表記・読み対応辞書作成方法、テキスト読み振り装置、テキスト読み振り方法および記録媒体
JPH05113964A (ja) 電子辞書
JPH05314320A (ja) 認識距離の差と候補順を利用した認識結果の評価方式
JP2019215660A (ja) 処理プログラム、処理方法および情報処理装置
JP5544693B2 (ja) データ処理装置、データ処理プログラムおよびデータ処理方法
JPH10240729A (ja) データベース作成装置および方法
JP3847836B2 (ja) 文字列検索方法とその装置
JPH10134084A (ja) データ処理装置
JPH103518A (ja) 文字認識方法,記憶媒体および文字認識装置
JP2006221047A (ja) 地図情報システムを異なる電子地図に移行する方法
JP2947832B2 (ja) 単語照合方法
JP2000222408A (ja) 情報処理装置
JP2894736B2 (ja) 文章検査方法
JP4144601B2 (ja) 演算処理回路、データ格納回路、演算処理装置、演算処理方法、データ格納方法、および、演算結果格納読み出し方法
JP2811916B2 (ja) データフアイルアクセス方式
JP2000099635A (ja) 文字列予測装置及び文字列予測方法
JP2003178262A (ja) 単語列認識方法、記憶媒体及び単語列認識装置
JPH11191143A (ja) 情報処理装置及びその方法、コンピュータ可読メモリ

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050930

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20051004

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051205

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20060411