JP3258079B2 - 複合語辞書登録装置 - Google Patents

複合語辞書登録装置

Info

Publication number
JP3258079B2
JP3258079B2 JP21693792A JP21693792A JP3258079B2 JP 3258079 B2 JP3258079 B2 JP 3258079B2 JP 21693792 A JP21693792 A JP 21693792A JP 21693792 A JP21693792 A JP 21693792A JP 3258079 B2 JP3258079 B2 JP 3258079B2
Authority
JP
Japan
Prior art keywords
dictionary
word
compound word
compound
evaluation value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP21693792A
Other languages
English (en)
Other versions
JPH0668070A (ja
Inventor
学 颯々野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP21693792A priority Critical patent/JP3258079B2/ja
Publication of JPH0668070A publication Critical patent/JPH0668070A/ja
Priority to US08/615,082 priority patent/US5867812A/en
Application granted granted Critical
Publication of JP3258079B2 publication Critical patent/JP3258079B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は日本語かな漢字変換装置
や機械翻訳装置などにおいて、適切な複合語を辞書に登
録しておくことによって、辞書の大きさを適切にし、自
然言語解析処理の精度を向上させることができる複合語
辞書登録装置に関する。
【0002】
【従来の技術】従来、複合語辞書登録装置においては、
次のようにして複合語を処理していた。 未知語であって、既知の語から構成されている場合
には、複合語辞書に登録しない。 未知語の場合には、すべて登録する。
【0003】しかしながら、上記の場合には、本来一
語として処理した方がいい語まで分割してしまうので、
誤って仮名漢字変換したり、また機械語翻訳装置におい
ては、適切な表現が選択できないという不都合が生じて
いた。また、上記の場合には、未知語をすべて登録す
るので、辞書の大きさが大きくなりすぎるという欠点が
あった。
【0004】
【発明が解決しようとする課題】以上のように、従来の
複合語辞書登録装置においては、複合語辞書に登録すべ
き複合語を自動判定できなかったり、また、本来一語と
して処理したほうがいいものでも、既知の単語から構成
されるものは複合語として認識されないという問題点
や、辞書の大きさが大きくなりすぎるという問題点があ
り、複合語を適切に処理することができなかった。
【0005】本発明は上記した従来技術の欠点を解決す
るためになされたものであって、文字列の組合せ、ある
いは、単語列を一つの複合語として登録すべきか否かを
自動判定することができ、辞書の大きさを適切に抑え、
自然言語解析処理の精度を向上することができる複合語
辞書登録装置を提供することを目的とする。
【0006】
【課題を解決するための手段】図1は本発明の原理説明
図である。上記課題を解決するため、本発明の請求項1
の発明は、文字列の組み合わせを格納した辞書を作成す
る複合語辞書登録装置において、文字列の組み合わせを
格納する辞書2と、入力された文字列の組み合わせを各
文字列に分割する文字列分割部4と、辞書2を参照する
ことにより、分割された各文字列の出現頻度を求める文
字列出現頻度計算部5と、求めた出現頻度等に基づき入
力された文字列の組み合わせについての評価値を求める
評価値計算部6と、入力された文字列の組み合わせを辞
書2に登録するか否かを決定する登録決定部7とを備え
ている。
【0007】そして、登録決定部7が、評価値計算部6
により計算された評価値に基づき文字列の組み合わせを
上記辞書に登録することにより、登録すべき適切な文字
列の組み合わせ列を自動的に判定して複合語辞書を作成
する。本発明の請求項2の発明は、請求項1の発明を単
語の組合せからなる複合語の登録に適用したものであ
り、単語の組み合わせを格納した辞書を作成する複合語
辞書登録装置において、複合語を格納する辞書2と、入
力された複合語を各単語に分割する単語分割部4と、辞
書2を参照することにより、分割された各単語の出現頻
度を求める単語出現頻度計算部5と、求めた出現頻度等
に基づき入力された複合語についての評価値を求める評
価値計算部6と、入力された複合語を上記辞書に登録す
るか否かを決定する登録決定部7とを備えている。
【0008】そして、登録決定部7が、評価値計算部6
により計算された評価値に基づき複合語を上記辞書に登
録することにより、登録すべき適切な複合語を自動的に
判定して複合語辞書を作成する本発明の請求項3の発明
は、請求項1の発明を機械翻訳における複合語の登録に
適用したものであり、異なった言語の複合語を格納した
辞書2に複合語を登録する複合語辞書登録装置におい
て、異なった言語の複合語を格納する辞書2と、入力さ
れた複合語を各単語に分割する単語分割部4と、辞書2
を参照することにより、分割された各単語の出現頻度を
求める単語出現頻度計算部5と、求めた出現頻度等に基
づき入力された複合語についての評価値を求める評価値
計算部6と、入力された異なった言語の複合語を辞書2
に登録するか否かを決定する登録決定部7とを備えてい
る。
【0009】そして、登録決定部7が、評価値計算部6
により計算された評価値に基づき異なった言語の複合語
を上記辞書に登録することにより、登録すべき適切な複
合語を自動的に判定して複合語辞書に登録する本発明の
請求項4の発明は、請求項1の発明を仮名漢字変換にお
ける複合語の登録に適用したものであり、同一言語内で
表記の異なる複合語を辞書2に登録する複合語辞書登録
装置において、同一言語内で表記の異なる複合語を格納
する辞書2と、入力された複合語を各単語に分割する単
語分割部4と、辞書2を参照することにより、分割され
た各単語の出現頻度を求める単語出現頻度計算部5と、
求めた出現頻度等に基づき入力された複合語についての
評価値を求める評価値計算部6と、入力された複合語を
上記辞書2に登録するか否かを決定する登録決定部7と
を備えている。
【0010】そして、登録決定部7が、評価値計算部6
により計算された評価値に基づき同一言語内で表記の異
なる複合語を上記辞書に登録することにより、登録すべ
き適切な複合語を自動的に判定して複合語辞書に登録す
る。
【0011】
【作用】本発明の請求項1の発明において、キーボード
10やファイル11から入力部9を介して入力される文
字列の組合せを読み取り、文字列分割部4により各文字
列に分割し、分割された文字列について、辞書2を参照
することにより、その出現頻度を求める。
【0012】評価値計算部6は、その出現頻度に基づき
評価値を計算し、登録決定部6は計算された評価値に基
づき登録すべき文字列の組合せを決定し、文字列の組み
合わせを上記辞書2に登録する。評価値計算部6におい
て、出現頻度に基づき評価値を計算し、計算された評価
値に基づき登録すべき文字列の組合せを決定しているの
で、登録すべき文字列の組合せを自動判定することがで
き、辞書の大きさを抑えることが可能となる。
【0013】本発明の請求項2の発明においては、請求
項1の発明を単語の組合せからなる複合語の登録に適用
したので、請求項1の発明と同様な効果を得ることがで
きるとともに、自然言語処理の精度を向上することがで
きる。本発明の請求項3の発明においては、請求項1の
発明を機械翻訳における複合語の登録に適用したので、
請求項1の発明と同様な効果を得ることができるととも
に、正しい訳語を得ることができる。
【0014】本発明の請求項の発明においては、請求
項1の発明を仮名漢字変換における複合語の登録に適用
したので、請求項1の発明と同様な効果を得ることがで
きるとともに、正しい仮名漢字変換結果を得ることがで
きる。
【0015】
【実施例】図2は本発明の第1の実施例を示す図であ
り、同図は日英機械翻訳の辞書において、「トルコ語」
を複合語として登録するか否かを決定する実施例を示し
ており、同図(a)はその構成を示し、同図(b)は
「トルコ語」複合語として辞書に登録する前および登録
した後の翻訳結果を示している。
【0016】同図(a)において、11は日英の単語を
登録した日英単語辞書、12は日英の複合語を登録した
日英複合語辞書、13は日英単語辞書11および日英複
合語辞書12から構成される辞書、14は対象となる複
合語を単語に分割する単語分割部、15は対象となる複
合語を構成する単語が複合語辞書12に出現する頻度を
求める頻度計算部、16は頻度計算部15において求め
た頻度情報および複合語の構成から評価値を求める評価
値計算部、17は評価値計算部16において求めた評価
値に基づき対象となる複合語を複合語辞書12に登録す
る登録決定部、18は上記、単語分割部14、頻度計算
部15、評価値計算部16、登録決定部17から構成さ
れる複合語登録部である。
【0017】図3は辞書13の内容を示す図であり、同
図(a)は単語辞書11の内容を示し、同図(b)は複
合語辞書12の内容を示している。同図(a),(b)
に示すように、単語辞書には各単語の「表記」と「読
み」と「品詞名」とそれらに対応した訳語等が格納さ
れ、また、複合語辞書12には、「表記」と「読み」と
それらに対応した訳語等が登録されている。
【0018】図4は評価値計算部16により生成される
複合語の中の「単語」の頻度テーブルを示す図であり、
頻度テーブルには同図に示すように、「単語」とその単
語が複合語辞書12に出現する出現頻度がその頻度順に
記録される。次に図2(a)により、「トルコ語」を複
合語として登録すべきか否かを決定する実施例について
説明する。
【0019】図示しない、キーボード、ファイル等の入
力手段から「トルコ語」という複合語が複合語登録部1
8に入力されると、単語分割部14は辞書部13の日英
単語辞書11(図3(a)参照)を参照して、そこに登
録されている単語に基づき「トルコ語」を「トルコ」と
「語」という単語に分割する。頻度計算部15は、日英
複合語辞書12より評価値計算部16が生成した図4に
示す頻度テーブルを参照して、単語分割部14において
分割された「トルコ語」を構成する単語「トルコ」と
「語」が日英複合語辞書12(図3(b)参照)に出現
する頻度を求める。
【0020】評価値計算部16は頻度計算部15におい
て求めた「トルコ語」を構成する単語「トルコ」と
「語」の出現頻度に基づき、「トルコ語」という複合語
を登録するか否かを決定する評価値を求める。登録決定
部17は評価値計算部16において求めた評価値により
複合語を日英複合語辞書12に登録するか否かを決定し
て複合語を日英複合語辞書12に登録する。
【0021】上記のような処理を行った結果「トルコ
語」という複合語が日英複合語辞書12に登録される
と、登録語の辞書を用いた日英翻訳では、同図(b)に
示すように、登録前には「トルコ語」が「Turkey
word」として翻訳されていたものが、登録後は
「Turkish」という正しい訳語を得ることができ
る。図5は本発明の第2の実施例を示す図であり、同図
は仮名漢字変換辞書において、「国際破産」を登録する
か否かを決定する実施例を示しており、本実施例は仮名
漢字変換において通常使用されている、最も長い文節を
区切りとして優先的に変換する方式を用いて変換する例
を示したものである。
【0022】同図(a)はその構成を示し、同図(b)
は上記方式により変換した「国際破産」複合語として辞
書に登録する前および登録した後の仮名漢字変換結果を
示している。同図(a)において、11’は単語を登録
した単語辞書、12’は複合語を登録した複合語辞書で
あり、その他の構成は第1の実施例に示したものと同一
であり、同一の符号が付されている。
【0023】次に図3(a)により、「国際破産」を複
合語として登録すべきか否かを決定する実施例について
説明する。図示しない、キーボード、ファイル等の入力
手段から「国際破産」という複合語が複合語登録部18
に入力されると、単語分割部14は辞書部13’の単語
辞書11(図3(a)参照)を参照して、そこに登録さ
れている単語に基づき「国際破産」を「国際」と「破
産」という単語に分割する。
【0024】頻度計算部15は、第1の実施例の場合と
同様、図4に示す頻度テーブルを参照して、単語分割部
14において分割された「国際破産」を構成する単語
「国際」と「破産」が複合語辞書12’(図3(b)参
照)に出現する頻度を求める。評価値計算部16は頻度
計算部15において求めた「国際破産」を構成する単語
「国際」と「破産」の出現頻度に基づき、「国際破産」
という複合語を登録するか否かを決定するための評価値
を求める。
【0025】登録決定部17は評価値計算部16におい
て求めた評価値により複合語を複合語辞書12’に登録
するか否かを決定して複合語を複合語辞書12’に登録
する。上記のような処理を行った結果「国際破産」とい
う複合語が複合語辞書12’に登録されると、登録語の
辞書を用いた仮名漢字変換では、同図(b)に示すよう
に、登録前には「国際は三」と変換されていたものが、
登録後は「国際破産」という正しい変換結果を得ること
ができる。
【0026】なお、上記実施例においては、複合語辞書
に登録するか否かを複合語を構成する単語の複合語辞書
における出現頻度より求めているが、上記のような出現
頻度に加えて例えば、下記の点を加味して複合語辞書に
登録するか否かを決定することもできる。 複合語を構成する構成語の文法的な情報を加味して
評価値を求める。 複合語における単語の位置を加味して評価値を計算
する。 複合語の長さ、構成単語数等を加味して評価値を計
算する。
【0027】また、上記実施例においては、日英機械翻
訳および仮名漢字変換についての実施例を示したが、本
発明の適用対象は上記実施例に限定されるものではな
く、その他、例えば、計算機へのコマンド列を複合語と
して登録する場合等、種々のシステムに適用できること
は言うまでもない。
【0028】
【発明の効果】以上説明したことから明らかなように、
本発明においては、複合語を構成する文字列もしくは単
語の出現頻度に基づき評価値を計算し、計算された評価
値に基づき登録すべき文字列の組合せを決定しているの
で、登録すべき文字列の組合せを自動判定することがで
き、辞書の大きさを抑えることが可能となり、自然言語
解析処理の精度を上げることができる。
【0029】また、機械翻訳処理あるいは仮名漢字変換
処理に適用することにより、正しい訳語や正しい変換結
果を得ることが可能となる。
【図面の簡単な説明】
【図1】本発明の原理説明図である。
【図2】本発明の第1の実施例を示す図である。
【図3】辞書の内容を示す図である。
【図4】頻度テーブルを示す図である。
【図5】本発明の第2の実施例を示す図である。
【符号の説明】
1,11’ 単語辞書 2,12’ 複合語辞書 4,14 単語分割部 5,15 頻度計算部 6,16 評価値計算部 7,17 登録決定部 11 日英単語辞書 12 日英複合語辞書

Claims (4)

    (57)【特許請求の範囲】
  1. 【請求項1】 文字列の組み合わせを格納した辞書を作
    成する複合語辞書登録装置において、 文字列の組み合わせを格納する辞書と、 入力された文字列の組み合わせを各文字列に分割する文
    字列分割部と、 上記辞書を参照することにより、分割された各文字列の
    出現頻度を求める文字列出現頻度計算部と、 求めた出現頻度等に基づき入力された文字列の組み合わ
    せについての評価値を求める評価値計算部と、 入力された文字列の組み合わせを上記辞書に登録するか
    否かを決定する登録決定部とを備え、 登録決定部が、評価値計算部により計算された評価値に
    基づき文字列の組み合わせを上記辞書に登録することに
    より、登録すべき適切な文字列の組み合わせ列を自動的
    に判定して複合語辞書を作成することを特徴とする複合
    語辞書登録装置。
  2. 【請求項2】 単語の組み合わせを格納した辞書を作成
    する複合語辞書登録装置において、 複合語を格納する辞書と、 入力された複合語を各単語に分割する単語分割部と、 上記辞書を参照することにより、分割された各単語の出
    現頻度を求める単語出現頻度計算部と、 求めた出現頻度等に基づき入力された複合語についての
    評価値を求める評価値計算部と、 入力された複合語を上記辞書に登録するか否かを決定す
    る登録決定部とを備え、 登録決定部が、評価値計算部により計算された評価値に
    基づき複合語を上記辞書に登録することにより、登録す
    べき適切な複合語を自動的に判定して複合語辞書を作成
    することを特徴とする複合語辞書登録装置。
  3. 【請求項3】 異なった言語の複合語を格納した辞書に
    複合語を登録する複合語辞書登録装置において、 異なった言語の複合語を格納する辞書と、 入力された複合語を各単語に分割する単語分割部と、 上記辞書を参照することにより、分割された各単語の出
    現頻度を求める単語出現頻度計算部と、 求めた出現頻度等に基づき入力された複合語についての
    評価値を求める評価値計算部と、 入力された複合語を上記辞書に登録するか否かを決定す
    る登録決定部とを備え、 登録決定部が、評価値計算部により計算された評価値に
    基づき異なった言語の複合語を上記辞書に登録すること
    により、登録すべき適切な複合語を自動的に判定して複
    合語辞書に登録することを特徴とする複合語辞書登録装
    置。
  4. 【請求項4】 同一言語内で表記の異なる複合語を辞書
    に登録する複合語辞書登録装置において、 同一言語内で表記の異なる複合語を格納する辞書と、 入力された複合語を各単語に分割する単語分割部と、 上記辞書を参照することにより、分割された各単語の出
    現頻度を求める単語出現頻度計算部と、 求めた出現頻度等に基づき入力された複合語についての
    評価値を求める評価値計算部と、 入力された複合語を上記辞書に登録するか否かを決定す
    る登録決定部とを備え、 登録決定部が、評価値計算部により計算された評価値に
    基づき同一言語内で表記の異なる複合語を上記辞書に登
    録することにより、登録すべき適切な複合語を自動的に
    判定して複合語辞書に登録することを特徴とする複合語
    辞書登録装置。
JP21693792A 1992-08-14 1992-08-14 複合語辞書登録装置 Expired - Lifetime JP3258079B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP21693792A JP3258079B2 (ja) 1992-08-14 1992-08-14 複合語辞書登録装置
US08/615,082 US5867812A (en) 1992-08-14 1996-03-14 Registration apparatus for compound-word dictionary

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP21693792A JP3258079B2 (ja) 1992-08-14 1992-08-14 複合語辞書登録装置

Publications (2)

Publication Number Publication Date
JPH0668070A JPH0668070A (ja) 1994-03-11
JP3258079B2 true JP3258079B2 (ja) 2002-02-18

Family

ID=16696269

Family Applications (1)

Application Number Title Priority Date Filing Date
JP21693792A Expired - Lifetime JP3258079B2 (ja) 1992-08-14 1992-08-14 複合語辞書登録装置

Country Status (1)

Country Link
JP (1) JP3258079B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5867812A (en) * 1992-08-14 1999-02-02 Fujitsu Limited Registration apparatus for compound-word dictionary
JP3272288B2 (ja) * 1997-12-24 2002-04-08 日本アイ・ビー・エム株式会社 機械翻訳装置および機械翻訳方法
WO1999063456A1 (fr) 1998-06-04 1999-12-09 Matsushita Electric Industrial Co., Ltd. Dispositif de preparation de regles de conversion du langage, dispositif de conversion du langage et support d'enregistrement de programme

Also Published As

Publication number Publication date
JPH0668070A (ja) 1994-03-11

Similar Documents

Publication Publication Date Title
JP2765665B2 (ja) タイポグラフィカル情報付き文書の翻訳装置
JP3258079B2 (ja) 複合語辞書登録装置
JPH03260766A (ja) 括弧生成判定機能付翻訳装置
JPS59103171A (ja) 機械翻訳装置
JP2812511B2 (ja) キーワード抽出装置
JP3131432B2 (ja) 機械翻訳方法及び機械翻訳装置
JP3236027B2 (ja) 機械翻訳装置
JP2830097B2 (ja) 文章検索方式
JP2715875B2 (ja) 多言語要約生成装置
JPS6170663A (ja) 住所翻訳装置
JPH06325082A (ja) 機械翻訳装置
JP3244286B2 (ja) 翻訳処理装置
JP2838850B2 (ja) 仮名漢字変換装置
JP4021813B2 (ja) 複合語登録プログラムおよび登録装置
JPH06289890A (ja) 自然言語処理装置
JPS62247451A (ja) 日本語処理装置の単語辞書構成法
JPH10105552A (ja) 機械翻訳システム
JP2608384B2 (ja) 機械翻訳装置及びその方法
JP3269083B2 (ja) 自然語処理装置
JPH11224250A (ja) 辞書装置
JPH05197752A (ja) 機械翻訳装置
JP2002108859A (ja) 対訳表現自動抽出装置および記録媒体
JPH04153878A (ja) 機械翻訳装置における前編集支援処理装置
JPH03145700A (ja) 単語標準パタン登録方式
JPH052604A (ja) 外部制御機構による部分訳処理装置

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20011127

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071207

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081207

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091207

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091207

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101207

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111207

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111207

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121207

Year of fee payment: 11

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121207

Year of fee payment: 11