JPS58201129A - 同音語処理方式 - Google Patents

同音語処理方式

Info

Publication number
JPS58201129A
JPS58201129A JP57085517A JP8551782A JPS58201129A JP S58201129 A JPS58201129 A JP S58201129A JP 57085517 A JP57085517 A JP 57085517A JP 8551782 A JP8551782 A JP 8551782A JP S58201129 A JPS58201129 A JP S58201129A
Authority
JP
Japan
Prior art keywords
word
tolerance
kana
homophone
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP57085517A
Other languages
English (en)
Inventor
Ryoichi Sugimura
領一 杉村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP57085517A priority Critical patent/JPS58201129A/ja
Publication of JPS58201129A publication Critical patent/JPS58201129A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 本発明は、カナ漢字変換処理、日本語辞書検索処理等に
おける同音語処理方式に関するものである。
カナ漢字変換処理、日本語辞書検索処理等においては、
カナ漢字変換用辞書、日本語辞書より、必要である。゛
同音語処理において、最適な単語の選択を行なう処理を
同音語同定処理という。同音語処理の最大の目的は、同
音語同定処理に依って得られた単語が、同音語処理へカ
ナ列を与えたユーザ又は同音語処理を含むシステムの必
要とする単語である率、同音語同定率を上げる事にある
従来、同音語同定率を上げる手法として、単語毎に種々
の頻度情報を設定する方法がとられている。頻度情報と
して、一般使用頻度情報、直前使用情報などが主に用い
られている。
一般使用頻度情報を用いる同音語処理方式は、広い分野
に渡って各々の分野毎に使用されている単語を集計した
ものである。この方法に依れば、特定の分野で頻繁に使
用される単語の一般使用頻度は大きいものになる。かつ
、分野を問わず多く使われる単語の一般使用頻度情報も
大きいものになる。一般使用頻度情報の本来の使用目的
は、分野の別を問わず、頻繁に用いられる単語を示す事
にある。しかし法分野に渡って単語の使用頻度を調べて
設定された一般使用頻度情報は、分野別の使用頻度の偏
りを反映しない。成る分野では頻繁に用いられる為に一
般使用頻度情報の値が大きくなった単語を、分野別の偏
差を持たずに一般使用頻度情報の値が大きくなった単語
と区別する事が出来ない。この偏差を反映させる為に、
分野別の辞書を用意する手法があるが、単語検索時に毎
回同音語処理を行なっているシステム又はユーザが分野
を確認し、辞書を入゛れ替えねばならない。そこで分野
別の辞書を用意せずかつ一般使用頻度情報に分野別の偏
りを反映させる方法が望まれている。
直前使用情報は、文章作成時に、同音語群より前回ユー
ザ又はシステムから最適な単語として選ばれた単語を示
すものであるため、ユーザ又はシステムの扱っている文
章などの使用単語の偏りを反映する。歯科分野で「ハ」
の音に対応する単語は「歯」である可能性が高い。従っ
て一旦「ハ」に対応する単語として「歯」が選択されれ
ば、次に「ハ」が同音語処理へ与えられた場合、「歯」
が最適な単語である確率は、「葉」が最適な単語である
確率より高い。逆に言えば、「歯」が選択された事は、
ユーザ又はシステムが扱っている文章が歯に関連のある
分野に属している事を暗に示している。しかし「ハ」と
同様に全ての単語について考える事は不都合である。例
えば、「ワタリ」の音に対応する単語として、「渡し」
が選ばれたとする。この場合法に「ワタリ」が来た時、
「渡し」が最適である確率と「私」が最適である確率は
、「私」が最適である確率の方が高い、つまり、単語に
依っては、直前使用情報が余り意味を持たないものも多
々存在する。
以上の理由により、一般使用頻度情報は、分野の別を問
わず、頻繁に用いられる単語を示し、直前使用情報は、
分野別に偏差の大きい単語を示す。
そこで頻度情報の適切な同音語処理方式が望まれる。
本発明は、前文章作成者等の意図に適した単語を同音語
群より速かに選択する事を、一般使用頻度情報、直前使
用頻度情報など従来用いられて来た頻度情報をより適切
に採用して各々の情報の性格を反映させる事により、実
現し、文章作成者の同音語選択操作の負担を軽減する事
を目的とするものである。
すなわち、本発明は、単語の一般使用頻度情報を読み出
し、計算し、格納する手段と、単語の文章内出現頻度情
報を読み出し、計算し、格納する手段と、単語の直前使
用情報を読み出し、計算し、格納する手段を備え、同音
語群内の単語毎に一般使用頻度情報と文章内頻度情報と
直前使用情報とのそれぞれに対応してあらかじ、設定さ
れた重みを用いて尤度を計算し、該尤度に基づいて単語
の優先順位を決定する構成にする鵠嫡≠→→ことによっ
て所期の目的を達成したものである。
以下本発明の一実施例を図面に基づいて説明する。図面
は本発明の同音語処理方式によるカナ漢字変換装置の構
成例を示すブロック図であり、(1)は入カパッファ、
(2)は単語辞書、(3)は尤度計算部、(4)は順位
付は部、(5)は出力バッファ、(6)は使用頻度更新
部である。
次表は本発明の同音語処理方式における単語辞書(2)
内のデータの一部分を示しており、各単語について、読
み(ト)、漢字頓等の情報に加えて、一般使用頻度(財
)、一般使用頻度重み(Hw )、文章内頻度(B)、
文章内頻度重み(BW)、直前使用度(C)、直前使用
情報重み(Cw博の情報が記憶されている。(J)は上
記単語辞書(2)内の単語情報の(H) 、 (Hw)
、 (B)、 (Bw) 。
(C)、(Cw)を用い、尤度計算関数f (f =H
−Hw+B−Bw+C−Cw)によって算出された尤度
であり、(P)は該尤度(J)より決定された優先順位
である。
まず、尤度計算部(3)は、入カパッファ(1)より入
力されたカナ列を読み出し、単語辞書(2)を参照しな
がら入力カナ列に対応した同音語群の各単語の尤度(J
)を尤度計算関数fに従って算出する。その結果を受け
て、順位付は部(4)は同音語群の各単語を尤度0)に
従ってソートし、順位の一番高いカナ列及びその付属情
報を単語辞書(2)を参照しなから出力バッファ(5)
へ転送する。
出力バッファ(5)へ転送されたカナ系列などの単語情
報(ここでは「トウキj)は、カナ漢字変換部(7)を
通して表示装置(8)により文章作成者に漢字又は平カ
ナ等の形で表示される。文章作成者は、表示された単語
が意に適ったものであるかどうかを判断し、カナ漢字変
換部(7)へ判断を伝え、カナ漢字変換部(7)は出力
バッファ(5)を通して使用頻度更新部(6)へこの判
断を伝える。
使用頻度更新部(6)は、この判断が肯定つまり出力バ
ッフ1(5)へ転送した単語(「冬期」)が使用者の意
図に適合したものであるという場合は、単語辞書(2)
内の出力バッファ(5)の単語(「冬期」)に対応した
単語データの付加情報の一般使用頻度σJ)、文章内頻
度(+3)へ1を加算し、直前使用度C)を該単語(「
冬期」)へ設定する。判断が否定の場合は、使用頻度更
新部(6)は順位付は部(4)を駆動し、出力バッファ
(5)へ転送した単語の次に尤度の高い単語の情報を出
力する。
単語への付加情報の一般使用頻度■は広い分野に渡って
単語の使用された数を算出したものであり、重み(Hw
)は分野別の使用偏差が高い場合は小さく、偏差の低い
場合は大きく値が設定されている。文章内頻度(+3)
は文章作成開始時には全て零であり、単語が選定される
度に1ずつ加算される。
重み(Bw)は分野別の使用偏差が高い場合は大きく、
偏差の低い場合は小さく値が設定されている。直前使用
度(C)は同音語群内で最後に選定されtこ所、例えば
表のように「冬期」の所が1になる。重み(Cw)は分
野別偏差が高く、かつ一般使用頻度α1)の高いものに
ついては大きく、偏差が低くかつ一般使用頻度卸の低い
ものについては小さく、上記以外のものについては、中
間的な値が設定されている。以上の重み付けを各単語毎
に行ない、尤度計算関数fにより算出されtコ尤度によ
り順位付けを行なう。
表の場合、「騰貴」は、種々の分野における出現回数の
合計つまり頻度(6)は一番大きいが、経済分野におい
て頻出する単語であり、一般的に使われるという意味で
は、「冬期」が「騰貴」にまさる。よって、「冬期」の
重みを「騰貴」より大きく取っである。「陶器」は、他
の単語の「冬期」「騰貴」 「投棄」に比べて、一般使
用頻度卸も小さく、分野偏差も弱い。但し、−文章内で
、短い範囲で続けて使われる可能性は他の単語より大き
い。例えば「陶器の色は、陶器への釉薬によって決まる
。」という文章に見られるようにである。
以上のように単語毎に、その性質を反映させた重み付け
を行なって後、総合的な頻度情報の尤度(J)を算出す
る。該尤度(J)を算出する尤度計算関数としては、−
例としてfl(f=H−Hw+B−Bw+c−Cw)が
あるが、この尤度計算関数flは、一般使用頻度情報H
−Hwと文章内頻度情報B−BWと直前使用情報CCw
が各々同程度に重要であり、かつ一般使用頻度(6)と
文章内使用頻度([3)と直前使用度(0の間には、関
°数は存在し得ないとした場合の関数である。他に例を
挙げるならば、一般使用頻度(6)と文章内頻度(B)
との間に、(H−B = Con5t )という関係が
常に成立するようであるならば、文章内頻度情報B−B
wは(Con5 t/Hj Bwで決定され、度計算関
数f2は、ConsiBw f 2 = H−Hw + −+C−Cwとなる。
このように尤度計算関数は、一般使用頻度情報、文章内
頻度情報、直前使用情報の間の関係を示す事が可能であ
る。
又、辞書内の03) 、 (C)は特に辞書内へ設定し
ておく必要はなく、別にレジスタなどを用意して同音語
処理毎にこれを格納する方法をとることも可能である。
以上の説明でわかる通り、本発明の同音語処理により、
単語使用偏差の高い分野の文章作成時において、同音語
同定の必要が生じた場合も、文章作成者の意図に適した
同音語選択が速かに行なわれ、文章作成者の同音語選択
操作の負担を軽減する事ができる。
【図面の簡単な説明】
図は本発明による同音語処理方式を用いたカナ漢字変換
装置の構成例を示すブロック図である。 (1)・・・入力バッファ、(2)・・・単語辞書、(
3)・・・尤度計算部、(4)・・・順位付は部、(5
)・・・出力バッフ1、(6)・・・使用頻度更新部、
(7)・・・カナ漢字変換部、(8)・・・表示装置 代理人 森本義弘

Claims (1)

    【特許請求の範囲】
  1. 1、単語の一般使用頻度情報を読み出し、計算し、格納
    する手段と、単語の文章内出現頻度情報を読み出し、計
    算し、格納する手段と、単語の直前使用情報を読み出し
    、計算し、格納する手段を備え、同音語群内の単語毎に
    一般使用頻度情報と文章力頻度情報と直前使用情報との
    それぞれに対応して、あらかじめ設定された重みを用い
    て尤度を計算し、該尤度に基づいて単語の優先順位を決
    定する事を特徴とする同音語処理方式。
JP57085517A 1982-05-19 1982-05-19 同音語処理方式 Pending JPS58201129A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP57085517A JPS58201129A (ja) 1982-05-19 1982-05-19 同音語処理方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP57085517A JPS58201129A (ja) 1982-05-19 1982-05-19 同音語処理方式

Publications (1)

Publication Number Publication Date
JPS58201129A true JPS58201129A (ja) 1983-11-22

Family

ID=13861098

Family Applications (1)

Application Number Title Priority Date Filing Date
JP57085517A Pending JPS58201129A (ja) 1982-05-19 1982-05-19 同音語処理方式

Country Status (1)

Country Link
JP (1) JPS58201129A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61235019A (ja) * 1985-04-10 1986-10-20 Toshiba Corp 1スタンド多パス圧延機の板厚制御装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61235019A (ja) * 1985-04-10 1986-10-20 Toshiba Corp 1スタンド多パス圧延機の板厚制御装置
JPH0234246B2 (ja) * 1985-04-10 1990-08-02 Toshiba Kk

Similar Documents

Publication Publication Date Title
JPS58201129A (ja) 同音語処理方式
JPS6010349B2 (ja) 文書作成装置
JPH08185396A (ja) 中国語漢字検索方式
JP3329476B2 (ja) かな漢字変換装置
JPS63136252A (ja) 文書作成装置
JPH04290158A (ja) 文書作成装置
JPS641821B2 (ja)
JPH0844723A (ja) 文書作成装置または文書作成方法
JP2744241B2 (ja) 文字処理装置
JPS61210473A (ja) 文書作成装置
JPS6081639A (ja) 項目整列方式
JPS6039228A (ja) カナ漢字変換処理装置
JPH10143502A (ja) 文章入力装置
JPH03209556A (ja) かな対漢字変換装置の辞書格納方式
JPS6128159A (ja) 複合語の学習機能を持つかな漢字変換装置
JPH0131229B2 (ja)
JPS6258364A (ja) カナ漢字変換装置
JPS60134961A (ja) 符号列変換装置
JPH10307842A (ja) 情報処理装置及びその方法
JPH02244271A (ja) 英単語検索装置
JPS60124772A (ja) 文書作成装置
JPS60136863A (ja) カナ漢字変換装置における短縮変換方式
JPH02244269A (ja) 英単語検索装置
JPH0520303A (ja) 日本語文書処理装置
JPH05290081A (ja) 辞書作成装置及び言語解析装置