JP2958044B2 - かな漢字変換方法及び装置 - Google Patents

かな漢字変換方法及び装置

Info

Publication number
JP2958044B2
JP2958044B2 JP2090631A JP9063190A JP2958044B2 JP 2958044 B2 JP2958044 B2 JP 2958044B2 JP 2090631 A JP2090631 A JP 2090631A JP 9063190 A JP9063190 A JP 9063190A JP 2958044 B2 JP2958044 B2 JP 2958044B2
Authority
JP
Japan
Prior art keywords
word
kana
suffix
semantic information
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2090631A
Other languages
English (en)
Other versions
JPH03288260A (ja
Inventor
佳三 斎藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Consejo Superior de Investigaciones Cientificas CSIC
Original Assignee
Consejo Superior de Investigaciones Cientificas CSIC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Consejo Superior de Investigaciones Cientificas CSIC filed Critical Consejo Superior de Investigaciones Cientificas CSIC
Priority to JP2090631A priority Critical patent/JP2958044B2/ja
Publication of JPH03288260A publication Critical patent/JPH03288260A/ja
Application granted granted Critical
Publication of JP2958044B2 publication Critical patent/JP2958044B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)

Description

【発明の詳細な説明】 (イ)産業上の利用分野 この発明は、入力されたかな文字列を漢字かな交じり
文に変換するかな漢字変換機能を備えたかな漢字変換方
法及び装置に関する。
(ロ)従来の技術 一般にこの種のかな漢字変換方法及び装置において
は、かな漢字変換における変換効率の向上を図るため
に、用例辞書を用意し、変換の処理過程においてそれを
参照するようにしている。
用例辞書とは、一般社会で実際に通用している文章、
例えば企業内で作成された通達文、手紙文などの業務文
書あるいは出版物等を大量に収集し、それらのデータか
ら単語間の結びつきに関する情報を抽出して、それらの
情報を目的とする言語処理に適する形成にまとめあげ、
メモリに記憶させたデータファイルのことである。例え
ばある文章に「化学繊維」という言葉があったとする。
これは「化学」と「繊維」の2個の単語が連続して用い
られた場合であり、このことから「化学」という単語の
あとに「繊維」という単語が連続する可能性が大きいと
いう情報が得られる。これを上記用例辞書に蓄えておけ
ば、かな漢字変換などの処理で「(化学,科学,価額)
+(繊維,戦意,船医)」のような同音異議語の組合わ
せが発生した場合、「(化学)+(繊維)」を最も妥当
性のある解析結果とする判断が下せるわけである。
上記の例は、国文法的に言う「自立語」の連続に関す
るものであるが、「自立語」+「接尾語」,「接頭語」
+「自立語」に関するものも同様に考えられる。例えば
「新年度」という用例から接頭語「新」と自立語「年
度」の結びつきを用例辞書に収容し、これを利用するこ
とにより「(新,真)+(年度,粘度,粘土)の同音異
議語群から「(新)+(年度)」を迅速に選び出すこと
ができる。また、この場合「シンネンド」の読みに対し
て「(信念)+(度)」という「自立語」+「接尾語」
の解析も成立するが、用例辞書を使うことにより、これ
を解析結果としては妥当性の低いものとする判断も合わ
せて可能となる(参照、特開昭59−109939号公報)。
用例辞書としては上記の様な用い方をするのである
が、この登録方法としては「子供が泣く」や「彼女が泣
く」、また「子犬が鳴く」や「猫が鳴く」のように、個
々の共起関係を辞書に登録しておくよりも、「子供、彼
女=人間」,「子犬、猫=ペット」のように自立語単語
をグループに分類して意味コードをつけ、「人間+泣
く」,「ペット+鳴く」というような意味コードの用例
を設定すれば、自立語辞書の単語どうしを個別に組み合
わせるより、少ない容量で同等の効果が得られる(以
下、これを意味用例という)。
第7図にこのような意味用例のための分類の一例を示
す。このように、かな漢字変換辞書に登録されている各
単語を図に示すような体系に基づいて分類しておく。こ
れによれば大分類としては、自然,文化…等に分類さ
れ、中分類としては、例えば大分類が自然であれば、天
文、地勢、植物、…等に、大分類が文化であれば、社
会、学芸…等に分類されている。また中分類の項目はさ
らに小分類にわけられ、例えば中分類が学芸であれば、
小分類としては、文学、音楽、美術…等に分類されてい
る。
各分類項目に付したかっこ“( )”付きの数字は各
自立語単語の意味属性を示すための分類コードであり、
大分類に付した数字は先頭桁のコードを、中分類の数字
は先頭の次桁のコードを、小分類の数字は先頭の次々桁
のコードを、それぞれ表している。
この例に従えば、「犬」、「猫」、「魚」、「牛」…
という単語は“動物”という意味属性を有し、「人」、
「大人」、「子供」、「男」、「女」…という単語は
“人”の意味属性を有している。
第8図はかな漢字変換辞書に登録された意味コードの
一例を示す説明図であり、図に示すように、かな漢字変
換辞書の各単語については、各単語の意味属性を示す分
類コードが、意味コードとして登録されている。例え
ば、第7図に示した「牛」の場合には、自然(0)、動
物(3)であるので先頭コードは“0"、次コードは“3"
となり、意味コードは“03…”となる。またトランペッ
トの場合には、文化(1)、学芸(1)、音楽(1)で
あるので意味コードは先頭から、“111…”となる。
このように意味コードを決めて登録しておき、この意
味コードによって単語の用例を設定しておくようにす
る。
(ハ)発明が解決しようとする課題 しかしながら、このような意味用例を設定してかな漢
字変換を行った場合、「技術者に会う」、「栄養士が聞
く」、「結婚式を挙げる」のように、「自立語」+「接
尾語」で1単語が構成されているときには(技術/者、
栄養/士、結婚/式)、誤変換になる例が多い。なぜな
らば、「栄養士が聞く」を例に挙げれば、当然「(栄
養)+(聞く、効く、聴く)」では「栄養」+「効く」
の連結データが用例辞書に入っている為、「栄養」の自
立語に「士」の接尾語を連結して「栄養士」という単語
を生成した場合には、「効く」がそのままはたらいて、
「栄養士が聞く」ではなく「栄養士が効く」と変換する
可能性が高い。同じように「結婚式を挙げる」の場合、
「結婚式」は自立語「結婚」+接尾語「式」から生成さ
れる。しかし、用例では「結婚」+「挙げる」という組
合わせは登録していない可能性が高いので、「あげる」
は「(上げる、挙げる、揚げる)」の中から一番よく使
われる「上げる」が第1候補となり、「結婚式を上げ
る」が第1変換候補となる可能性が高い。
接尾語を含めた形で用例を登録すればこの問題は解決
するが、その為には、相当容量の辞書領域が必要とな
る。
本発明は、上記問題点に鑑みてなされたもので、接尾
語データに意味コードをつけ、用例処理を行うことによ
り同音語選択の精度を向上させるものである。
(ニ)課題を解決するための手段 この発明は、漢字かな交じりの多数の単語及び接尾語
をその読み情報及び意味情報と共に記憶した変換辞書部
と、単語の有効な組み合わせ形態を意味情報との組み合
わせとして記憶した用例辞書部とを用いて、入力される
かな文字列をかな漢字変換するにあたり、かな文字列を
入力し、入力されたかな文字列を文節単位に分割し、分
割されたかな文字列に対応する単語をその意味情報と共
に変換辞書部から検索し、検索された単語が接尾語を含
む単語である場合は接尾語が有する意味情報を当該単語
の意味情報として用例辞書部を参照し、用例辞書部に記
憶された意味的に有効な単語を接尾語の後続候補として
出力するようにしたことを特徴とするかな漢字変換方法
である。
また、この発明は、第1図に示すように、漢字かな交
じりの多数の単語及び接尾語をその読み情報及び意味情
報と共に記憶した変換辞書部101と、単語の有効な組み
合わせ形態を意味情報との組み合わせとして記憶した用
例辞書部102と、かな文字列を入力する入力手段103と、
入力されたかな文字列を文節単位に分割する分割手段10
4と、分割されたかな文字列に対応する単語をその意味
情報と共に変換辞書部101から検索する変換手段105と、
検索された単語が接尾語を含む単語である場合は接尾語
が有する意味情報を当該単語の意味情報として用例辞書
部102を参照する参照手段106と、用例辞書部102に記憶
された意味的に有効な単語を接尾語の後続候補として出
力する出力手段107を備えたことを特徴とするかな漢字
変換装置である。
この発明における変換辞書部101及び用例辞書部102
は、大容量のROM、又はフロッピーディスクやハードデ
ィスクなどの磁気記憶媒体とその駆動装置などで構成さ
れる。
入力手段103及び出力手段107は、当該分野で公知のも
のが使用できる。例えば入力手段103としては、かな文
字列を入力できるものであればよく、キーボード装置、
タブレット装置等、手力手段107としては、CRT,LCDなど
の表示装置がそれぞれ用いられる。
分割手段104,検索手段105及び参照手段106としては、
CPU、ROM、RAM、I/Oポート等を備えたマイクロコンピュ
ータを用いるのが便利である。
(ホ)作用 この発明によれば、入力されたかな文字列に対応する
単語が、その意味情報と共に変換辞書部から検索された
とき、その検索された単語が接尾語を含む単語である場
合には、接尾語が有する意味情報が当該単語の意味情報
とされて用例辞書部が参照され、用例辞書部に記憶され
た意味的に有効な単語が候補として出力される。
従って、接尾語の付加された単語については、接尾語
部分の用例が優先されるので、従来のような誤変換が防
止され、同音語選択の精度が向上する。
(ヘ)実施例 以下、図面に示す実施例に基づいてこの発明を詳述す
る。なお、これによってこの発明が限定されるものでは
ない。
第2図はこの発明の一実施例の構成を示すブロック図
である。
この図において、1は制御部であり、マイクロプロセ
ッサ、制御プログラムや各種テーブルを記憶したROM及
び外部記憶装置などを含んでいる。2はCRTまたはLCD等
からなる表示部、3はキーボードからなる入力部であ
る。4は意味コードを含んだ自立語、接尾語等の単語辞
書、5は文節間の共起関係を蓄えた共起関係辞書(複合
用例辞書)である。6はバッファメモリであり、文字バ
ッファ61、学習バッファ62、同音語バッファ63から構成
されている。文字バッファ61は入力部3から入力された
文字を備えておくバッファである。学習バッファ62は単
語の学習処理を行うバッファ、同音語バッファ63はかな
漢字変換の際の同音語の候補を蓄えておくバッファであ
る。
入力部3から入力された仮名文字列は、文字バッファ
61に蓄えられる。次に使用者によって変換が指示される
か、あるいは変換のタイミングになった時、制御部1は
単語辞書4、共起関係辞書5及びその他のテーブル等を
参照してかな漢字変換を行い、同音語バッファ63に変換
結果を蓄え、その第1候補を表示部2に表示する。第1
候補以外の候補も入力部3の操作により表示部2に表示
して選択することができる。入力部3の操作によって同
音語の選択が行われると、その結果を学習バッファ62に
蓄える。
第3図は共起関係辞書5に記憶された意味用例の一例
を示す説明図であり、図に示すように、共起関係辞書5
には、単語の属性を示す意味コードと、例えば用言など
が、 属性(意味コード)+用言 のペアのような意味コードの用例として登録されてい
る。
第4図は単語辞書4に記憶された接尾語テーブルの一
例を示す説明図であり、図に示すように、各接尾語は、
読み、表記と共に、意味上の分類である意味コードが付
されて記憶されている。
制御部1は、例えば「けっこんしきをあげる」という
かな文字列が入力された場合、その入力かな文字列に対
して、先行及び後続文節の同音語バッファ63にそれぞれ
「けっこんしきを」「あげる」の同音語を格納する。先
頭文節「けっこんしきを」は「自立語(結婚)+接尾語
(式)」から生成される。この場合「結婚」と「挙げ
る」は用例として結び付かないが接尾語に意味コードが
割り付けられており、接尾語「式」の意味コードは、第
4図に示したように、764(社会−習俗−儀式)、825
(学芸−記号−式)が登録されている。自立語に接尾語
がついた場合で、その接尾語に意味コードがあれば、生
成された単語の意味コードをその接尾語の意味コードに
置き換える。この場合には、「結婚」の意味コードを、
例えば774(処世−結婚)としていた場合には、それを
接尾語の「式」の意味コード764又は825に置き換える。
そして、共起関係辞書5に意味用例として「(社会−習
俗−儀式)を(挙げる)」が登録されていれば、「結婚
式を」に結び付く単語は「上げる」ではなく「挙げる」
になり、結婚式を挙げる」を出力することができる。こ
の場合、自立語自身に意味コードがなくて、意味コード
のある接尾語がつく場合もある。
なお、自立語+接尾語の組合わせは全てに適用するの
ではなく、例えば「(結婚)+(式)」のように接尾語
用例にあるものは意味コードを置き換えるが、例えば
「(賛成)+(式)」のように接尾語用例になく、無理
やり組み合わせたデータは例え接尾語に意味コードがあ
ったとしても意味コードを置き換えない。
次に、制御部1の処理動作の内容を第5図及び第6図
に示すフローチャートに従い説明する。
第5図はかな漢字変換の処理動作を示すフローチャー
トである。
以下、読み「けっこんしきをあげる」が入力された場
合を例にして説明する。
まず、「けっこんしきをあげる」のかな列を文字バッ
ファ61に取り込み(ステップ201)、入力かな列に対し
て先行文節の抽出を行う(ステップ202)。ここでは
「けっこんしきを」、「けっこんしき」、「けっこん」
を先行文節として抽出する。
そして、抽出した先行文節に続くかな文字列で始まる
文節の抽出を行う(ステップ203)。
先行、後続文節の抽出が終了すると、次に先行後続の
二文節での処理を行い、先行及び後続文節を決定する
(ステップ204)。ここでは、先行、文節が「けっこん
しきを」、後続文節が「あげる」となる。
そして、文が終了したかどうかを判断して(ステップ
205)、終了していなければステップ203へ戻り、終了し
ていればステップ206の同音語選択を行う。
LOOP1の処理を繰り返すことで、入力されたかな文字
列を文節にわける処理が終了する。
文節にわけた候補は、各文節毎にその結果を同音語バ
ッファ63に蓄える。同音語バッファ63には各文節毎の個
別のバッファが設定されている。
入力かな列を文節文かちした語、同音語選択処理とし
て、各文節毎に分けた同音語候補の絞り込みを行う(ス
テップ206)。ここでは、「けっこんしきを」、「あげ
る」の二文節について同音語選択を行い、以上の処理を
文章の終わりまで続ける(ステップ207)。
第6図は同音語選択の処理動作を示すフローチャート
である。
まず、文節間用例処理として、共起関係辞書5の複合
用例を参照して文節間の確からしさを調べ(ステップ30
1)、助詞、用言処理を行う(ステップ302)。先行文節
「けっこんしきを」は「けっこん(自立語)+しき(接
尾語)+を(付属語)」から構成されているので、「け
っこん」→「あげる」の共起関係はない。
次に、接尾語処理として、接尾語「しき」の意味コー
ドは儀式の分類になっている為、「けっこん」の意味コ
ード(社会−処世−結婚)を「しき」の意味コード(社
会−習俗−儀式)に置き換える(ステップ303)。
これにより、意味用例処理として、意味用例をひいた
場合、従来なら「結婚(社会−処世−結婚)」と「あげ
る」とは結びつかないが、結婚式ということで意味コー
ドが(社会−習俗−儀式)となり、「あげる」を「上げ
る」ではなく「挙げる」として結びつけることができる
(ステップ304)。
その後、固有名詞処理(ステップ305)、文節形パタ
ーン処理(ステップ306)、頻度処理(ステップ307)及
び学習処理(ステップ308)を行う。
このようにして、従来からある共起関係辞書や意味用
例辞書を使用するだけでなく、自立語+接尾語の単語に
ついては、接尾語に意味コードがあればそれを置き換え
ることにより、新たに単語を追加登録(この場合では
「結婚式」)する必要をなくして、辞書容量の増大を防
ぎながら同音語選択の精度を向上させることができる。
(ト)発明の効果 入力されたかな文字列に対応する単語を、その意味情
報と共に変換辞書部から検索したとき、検索された単語
が接尾語を含む単語である場合には、接尾語が有する意
味情報を当該単語の意味情報として用例辞書部を参照
し、用例辞書部に記憶された意味的に有効な単語を接尾
語の後続候補として出力するようにしたので、辞書容量
の増大を防止して、同音語選択の精度を向上させること
ができる。
【図面の簡単な説明】
第1図はこの発明の構成を示すブロック図、第2図はこ
の発明の一実施例を構成を示すブロック図、第3図は意
味用例の一例を示す説明図、第4図は接尾語テーブルの
一例を示す説明図、第5図及び第6図は実施例の動作を
示すフローチャート、第7図は意味コード分類の一例を
示す説明図、第8図はかな漢字変換辞書に登録された意
味コードの一例を示す説明図である。 1……制御部、2……表示部、 3……入力部、4……単語辞書、 5……共起関係辞書、6……バッファメモリ、 61……文字バッファ、62……学習バッファ、 63……同音語バッファ。

Claims (2)

    (57)【特許請求の範囲】
  1. 【請求項1】漢字かな交じりの多数の単語及び接尾語を
    その読み情報及び意味情報と共に記憶した変換辞書部
    と、単語の有効な組み合わせ形態を意味情報との組み合
    わせとして記憶した用例辞書部とを用いて、入力される
    かな文字列をかな漢字変換するにあたり、 かな文字列を入力し、 入力されたかな文字列を文節単位に分割し、 分割されたかな文字列に対応する単語をその意味情報と
    共に変換辞書部から検索し、 検索された単語が接尾語を含む単語である場合は接尾語
    が有する意味情報を当該単語の意味情報として用例辞書
    部を参照し、 用例辞書部に記憶された意味的に有効な単語を接尾語の
    後続候補として出力するようにしたことを特徴とするか
    な漢字変換方法。
  2. 【請求項2】漢字かな交じりの多数の単語及び接尾語を
    その読み情報及び意味情報と共に記憶した変換辞書部
    と、 単語の有効な組み合わせ形態を意味情報との組み合わせ
    として記憶した用例辞書部と、 かな文字列を入力する入力手段と、 入力されたかな文字列を文節単位に分割する分割手段
    と、 分割されたかな文字列に対応する単語をその意味情報と
    共に変換辞書部から検索する変換手段と、 検索された単語が接尾語を含む単語である場合は接尾語
    が有する意味情報を当該単語の意味情報として用例辞書
    部を参照する参照手段と、 用例辞書部に記憶された意味的に有効な単語を接尾語の
    後続候補として出力する出力手段を備えたことを特徴と
    するかな漢字変換装置。
JP2090631A 1990-04-04 1990-04-04 かな漢字変換方法及び装置 Expired - Lifetime JP2958044B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2090631A JP2958044B2 (ja) 1990-04-04 1990-04-04 かな漢字変換方法及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2090631A JP2958044B2 (ja) 1990-04-04 1990-04-04 かな漢字変換方法及び装置

Publications (2)

Publication Number Publication Date
JPH03288260A JPH03288260A (ja) 1991-12-18
JP2958044B2 true JP2958044B2 (ja) 1999-10-06

Family

ID=14003839

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2090631A Expired - Lifetime JP2958044B2 (ja) 1990-04-04 1990-04-04 かな漢字変換方法及び装置

Country Status (1)

Country Link
JP (1) JP2958044B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7672829B2 (en) 1997-03-04 2010-03-02 Hiroshi Ishikura Pivot translation method and system
CN1332340C (zh) * 1997-03-04 2007-08-15 石仓博 语言分析系统及方法

Also Published As

Publication number Publication date
JPH03288260A (ja) 1991-12-18

Similar Documents

Publication Publication Date Title
Jacquemin Spotting and discovering terms through natural language processing
US6275789B1 (en) Method and apparatus for performing full bidirectional translation between a source language and a linked alternative language
US5895446A (en) Pattern-based translation method and system
JP2783558B2 (ja) 要約生成方法および要約生成装置
EP0562818A2 (en) System for pattern based text translation
CN102272755A (zh) 使用图形国际语对自然语言进行语义处理的方法
JPH03172966A (ja) 類似文書検索装置
JP2006004399A (ja) 情報抽出プログラムおよびその記録媒体、情報抽出装置ならびに情報抽出規則作成方法
JPH0484271A (ja) 文書内情報検索装置
JP2958044B2 (ja) かな漢字変換方法及び装置
Chan Concordancers and concordances: Tools for Chinese language teaching and research
Hlava et al. Cross-language retrieval-English/Russian/French
Sebeok The computer as a tool in folklore research
Walker Computational linguistic techniques in an on-line system for textual analysis
Reeve Integrating hidden markov models into semantic web annotation platforms
JP2819766B2 (ja) 外国語電子辞書検索方式
JPH0410052A (ja) 外国語電子辞書検索方法及び装置
Chelamet A Text Summarization System for Faster Data Access
Bird et al. Web‐based Dictionaries for Languages of the South‐west USA
WO2018228101A1 (zh) 基于汉语含义的汉语编码方法及系统和介质设备
Rajendran A SURVEY OF THE STATE OF THE ART IN TAMIL LANGUAGE TECHNOLOGY.
Smith Cross Language Retrieval–English/Russian/French
Xiong et al. A Computer-assisted dictionary-making system for Chinese English learner's dictionary
Kuznetsov Cross Language Retrieval-English/Russian/French A Working Paper for presentation at
McCOY INFORMATION ACQUISITION WITH MACHINE TRANSLATION