JP3258079B2 - 複合語辞書登録装置 - Google Patents
複合語辞書登録装置Info
- Publication number
- JP3258079B2 JP3258079B2 JP21693792A JP21693792A JP3258079B2 JP 3258079 B2 JP3258079 B2 JP 3258079B2 JP 21693792 A JP21693792 A JP 21693792A JP 21693792 A JP21693792 A JP 21693792A JP 3258079 B2 JP3258079 B2 JP 3258079B2
- Authority
- JP
- Japan
- Prior art keywords
- dictionary
- word
- compound word
- compound
- evaluation value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
や機械翻訳装置などにおいて、適切な複合語を辞書に登
録しておくことによって、辞書の大きさを適切にし、自
然言語解析処理の精度を向上させることができる複合語
辞書登録装置に関する。
次のようにして複合語を処理していた。 未知語であって、既知の語から構成されている場合
には、複合語辞書に登録しない。 未知語の場合には、すべて登録する。
語として処理した方がいい語まで分割してしまうので、
誤って仮名漢字変換したり、また機械語翻訳装置におい
ては、適切な表現が選択できないという不都合が生じて
いた。また、上記の場合には、未知語をすべて登録す
るので、辞書の大きさが大きくなりすぎるという欠点が
あった。
複合語辞書登録装置においては、複合語辞書に登録すべ
き複合語を自動判定できなかったり、また、本来一語と
して処理したほうがいいものでも、既知の単語から構成
されるものは複合語として認識されないという問題点
や、辞書の大きさが大きくなりすぎるという問題点があ
り、複合語を適切に処理することができなかった。
るためになされたものであって、文字列の組合せ、ある
いは、単語列を一つの複合語として登録すべきか否かを
自動判定することができ、辞書の大きさを適切に抑え、
自然言語解析処理の精度を向上することができる複合語
辞書登録装置を提供することを目的とする。
図である。上記課題を解決するため、本発明の請求項1
の発明は、文字列の組み合わせを格納した辞書を作成す
る複合語辞書登録装置において、文字列の組み合わせを
格納する辞書2と、入力された文字列の組み合わせを各
文字列に分割する文字列分割部4と、辞書2を参照する
ことにより、分割された各文字列の出現頻度を求める文
字列出現頻度計算部5と、求めた出現頻度等に基づき入
力された文字列の組み合わせについての評価値を求める
評価値計算部6と、入力された文字列の組み合わせを辞
書2に登録するか否かを決定する登録決定部7とを備え
ている。
により計算された評価値に基づき文字列の組み合わせを
上記辞書に登録することにより、登録すべき適切な文字
列の組み合わせ列を自動的に判定して複合語辞書を作成
する。本発明の請求項2の発明は、請求項1の発明を単
語の組合せからなる複合語の登録に適用したものであ
り、単語の組み合わせを格納した辞書を作成する複合語
辞書登録装置において、複合語を格納する辞書2と、入
力された複合語を各単語に分割する単語分割部4と、辞
書2を参照することにより、分割された各単語の出現頻
度を求める単語出現頻度計算部5と、求めた出現頻度等
に基づき入力された複合語についての評価値を求める評
価値計算部6と、入力された複合語を上記辞書に登録す
るか否かを決定する登録決定部7とを備えている。
により計算された評価値に基づき複合語を上記辞書に登
録することにより、登録すべき適切な複合語を自動的に
判定して複合語辞書を作成する本発明の請求項3の発明
は、請求項1の発明を機械翻訳における複合語の登録に
適用したものであり、異なった言語の複合語を格納した
辞書2に複合語を登録する複合語辞書登録装置におい
て、異なった言語の複合語を格納する辞書2と、入力さ
れた複合語を各単語に分割する単語分割部4と、辞書2
を参照することにより、分割された各単語の出現頻度を
求める単語出現頻度計算部5と、求めた出現頻度等に基
づき入力された複合語についての評価値を求める評価値
計算部6と、入力された異なった言語の複合語を辞書2
に登録するか否かを決定する登録決定部7とを備えてい
る。
により計算された評価値に基づき異なった言語の複合語
を上記辞書に登録することにより、登録すべき適切な複
合語を自動的に判定して複合語辞書に登録する本発明の
請求項4の発明は、請求項1の発明を仮名漢字変換にお
ける複合語の登録に適用したものであり、同一言語内で
表記の異なる複合語を辞書2に登録する複合語辞書登録
装置において、同一言語内で表記の異なる複合語を格納
する辞書2と、入力された複合語を各単語に分割する単
語分割部4と、辞書2を参照することにより、分割され
た各単語の出現頻度を求める単語出現頻度計算部5と、
求めた出現頻度等に基づき入力された複合語についての
評価値を求める評価値計算部6と、入力された複合語を
上記辞書2に登録するか否かを決定する登録決定部7と
を備えている。
により計算された評価値に基づき同一言語内で表記の異
なる複合語を上記辞書に登録することにより、登録すべ
き適切な複合語を自動的に判定して複合語辞書に登録す
る。
10やファイル11から入力部9を介して入力される文
字列の組合せを読み取り、文字列分割部4により各文字
列に分割し、分割された文字列について、辞書2を参照
することにより、その出現頻度を求める。
評価値を計算し、登録決定部6は計算された評価値に基
づき登録すべき文字列の組合せを決定し、文字列の組み
合わせを上記辞書2に登録する。評価値計算部6におい
て、出現頻度に基づき評価値を計算し、計算された評価
値に基づき登録すべき文字列の組合せを決定しているの
で、登録すべき文字列の組合せを自動判定することがで
き、辞書の大きさを抑えることが可能となる。
項1の発明を単語の組合せからなる複合語の登録に適用
したので、請求項1の発明と同様な効果を得ることがで
きるとともに、自然言語処理の精度を向上することがで
きる。本発明の請求項3の発明においては、請求項1の
発明を機械翻訳における複合語の登録に適用したので、
請求項1の発明と同様な効果を得ることができるととも
に、正しい訳語を得ることができる。
項1の発明を仮名漢字変換における複合語の登録に適用
したので、請求項1の発明と同様な効果を得ることがで
きるとともに、正しい仮名漢字変換結果を得ることがで
きる。
り、同図は日英機械翻訳の辞書において、「トルコ語」
を複合語として登録するか否かを決定する実施例を示し
ており、同図(a)はその構成を示し、同図(b)は
「トルコ語」複合語として辞書に登録する前および登録
した後の翻訳結果を示している。
登録した日英単語辞書、12は日英の複合語を登録した
日英複合語辞書、13は日英単語辞書11および日英複
合語辞書12から構成される辞書、14は対象となる複
合語を単語に分割する単語分割部、15は対象となる複
合語を構成する単語が複合語辞書12に出現する頻度を
求める頻度計算部、16は頻度計算部15において求め
た頻度情報および複合語の構成から評価値を求める評価
値計算部、17は評価値計算部16において求めた評価
値に基づき対象となる複合語を複合語辞書12に登録す
る登録決定部、18は上記、単語分割部14、頻度計算
部15、評価値計算部16、登録決定部17から構成さ
れる複合語登録部である。
図(a)は単語辞書11の内容を示し、同図(b)は複
合語辞書12の内容を示している。同図(a),(b)
に示すように、単語辞書には各単語の「表記」と「読
み」と「品詞名」とそれらに対応した訳語等が格納さ
れ、また、複合語辞書12には、「表記」と「読み」と
それらに対応した訳語等が登録されている。
複合語の中の「単語」の頻度テーブルを示す図であり、
頻度テーブルには同図に示すように、「単語」とその単
語が複合語辞書12に出現する出現頻度がその頻度順に
記録される。次に図2(a)により、「トルコ語」を複
合語として登録すべきか否かを決定する実施例について
説明する。
力手段から「トルコ語」という複合語が複合語登録部1
8に入力されると、単語分割部14は辞書部13の日英
単語辞書11(図3(a)参照)を参照して、そこに登
録されている単語に基づき「トルコ語」を「トルコ」と
「語」という単語に分割する。頻度計算部15は、日英
複合語辞書12より評価値計算部16が生成した図4に
示す頻度テーブルを参照して、単語分割部14において
分割された「トルコ語」を構成する単語「トルコ」と
「語」が日英複合語辞書12(図3(b)参照)に出現
する頻度を求める。
て求めた「トルコ語」を構成する単語「トルコ」と
「語」の出現頻度に基づき、「トルコ語」という複合語
を登録するか否かを決定する評価値を求める。登録決定
部17は評価値計算部16において求めた評価値により
複合語を日英複合語辞書12に登録するか否かを決定し
て複合語を日英複合語辞書12に登録する。
語」という複合語が日英複合語辞書12に登録される
と、登録語の辞書を用いた日英翻訳では、同図(b)に
示すように、登録前には「トルコ語」が「Turkey
word」として翻訳されていたものが、登録後は
「Turkish」という正しい訳語を得ることができ
る。図5は本発明の第2の実施例を示す図であり、同図
は仮名漢字変換辞書において、「国際破産」を登録する
か否かを決定する実施例を示しており、本実施例は仮名
漢字変換において通常使用されている、最も長い文節を
区切りとして優先的に変換する方式を用いて変換する例
を示したものである。
は上記方式により変換した「国際破産」複合語として辞
書に登録する前および登録した後の仮名漢字変換結果を
示している。同図(a)において、11’は単語を登録
した単語辞書、12’は複合語を登録した複合語辞書で
あり、その他の構成は第1の実施例に示したものと同一
であり、同一の符号が付されている。
合語として登録すべきか否かを決定する実施例について
説明する。図示しない、キーボード、ファイル等の入力
手段から「国際破産」という複合語が複合語登録部18
に入力されると、単語分割部14は辞書部13’の単語
辞書11(図3(a)参照)を参照して、そこに登録さ
れている単語に基づき「国際破産」を「国際」と「破
産」という単語に分割する。
同様、図4に示す頻度テーブルを参照して、単語分割部
14において分割された「国際破産」を構成する単語
「国際」と「破産」が複合語辞書12’(図3(b)参
照)に出現する頻度を求める。評価値計算部16は頻度
計算部15において求めた「国際破産」を構成する単語
「国際」と「破産」の出現頻度に基づき、「国際破産」
という複合語を登録するか否かを決定するための評価値
を求める。
て求めた評価値により複合語を複合語辞書12’に登録
するか否かを決定して複合語を複合語辞書12’に登録
する。上記のような処理を行った結果「国際破産」とい
う複合語が複合語辞書12’に登録されると、登録語の
辞書を用いた仮名漢字変換では、同図(b)に示すよう
に、登録前には「国際は三」と変換されていたものが、
登録後は「国際破産」という正しい変換結果を得ること
ができる。
に登録するか否かを複合語を構成する単語の複合語辞書
における出現頻度より求めているが、上記のような出現
頻度に加えて例えば、下記の点を加味して複合語辞書に
登録するか否かを決定することもできる。 複合語を構成する構成語の文法的な情報を加味して
評価値を求める。 複合語における単語の位置を加味して評価値を計算
する。 複合語の長さ、構成単語数等を加味して評価値を計
算する。
訳および仮名漢字変換についての実施例を示したが、本
発明の適用対象は上記実施例に限定されるものではな
く、その他、例えば、計算機へのコマンド列を複合語と
して登録する場合等、種々のシステムに適用できること
は言うまでもない。
本発明においては、複合語を構成する文字列もしくは単
語の出現頻度に基づき評価値を計算し、計算された評価
値に基づき登録すべき文字列の組合せを決定しているの
で、登録すべき文字列の組合せを自動判定することがで
き、辞書の大きさを抑えることが可能となり、自然言語
解析処理の精度を上げることができる。
処理に適用することにより、正しい訳語や正しい変換結
果を得ることが可能となる。
Claims (4)
- 【請求項1】 文字列の組み合わせを格納した辞書を作
成する複合語辞書登録装置において、 文字列の組み合わせを格納する辞書と、 入力された文字列の組み合わせを各文字列に分割する文
字列分割部と、 上記辞書を参照することにより、分割された各文字列の
出現頻度を求める文字列出現頻度計算部と、 求めた出現頻度等に基づき入力された文字列の組み合わ
せについての評価値を求める評価値計算部と、 入力された文字列の組み合わせを上記辞書に登録するか
否かを決定する登録決定部とを備え、 登録決定部が、評価値計算部により計算された評価値に
基づき文字列の組み合わせを上記辞書に登録することに
より、登録すべき適切な文字列の組み合わせ列を自動的
に判定して複合語辞書を作成することを特徴とする複合
語辞書登録装置。 - 【請求項2】 単語の組み合わせを格納した辞書を作成
する複合語辞書登録装置において、 複合語を格納する辞書と、 入力された複合語を各単語に分割する単語分割部と、 上記辞書を参照することにより、分割された各単語の出
現頻度を求める単語出現頻度計算部と、 求めた出現頻度等に基づき入力された複合語についての
評価値を求める評価値計算部と、 入力された複合語を上記辞書に登録するか否かを決定す
る登録決定部とを備え、 登録決定部が、評価値計算部により計算された評価値に
基づき複合語を上記辞書に登録することにより、登録す
べき適切な複合語を自動的に判定して複合語辞書を作成
することを特徴とする複合語辞書登録装置。 - 【請求項3】 異なった言語の複合語を格納した辞書に
複合語を登録する複合語辞書登録装置において、 異なった言語の複合語を格納する辞書と、 入力された複合語を各単語に分割する単語分割部と、 上記辞書を参照することにより、分割された各単語の出
現頻度を求める単語出現頻度計算部と、 求めた出現頻度等に基づき入力された複合語についての
評価値を求める評価値計算部と、 入力された複合語を上記辞書に登録するか否かを決定す
る登録決定部とを備え、 登録決定部が、評価値計算部により計算された評価値に
基づき異なった言語の複合語を上記辞書に登録すること
により、登録すべき適切な複合語を自動的に判定して複
合語辞書に登録することを特徴とする複合語辞書登録装
置。 - 【請求項4】 同一言語内で表記の異なる複合語を辞書
に登録する複合語辞書登録装置において、 同一言語内で表記の異なる複合語を格納する辞書と、 入力された複合語を各単語に分割する単語分割部と、 上記辞書を参照することにより、分割された各単語の出
現頻度を求める単語出現頻度計算部と、 求めた出現頻度等に基づき入力された複合語についての
評価値を求める評価値計算部と、 入力された複合語を上記辞書に登録するか否かを決定す
る登録決定部とを備え、 登録決定部が、評価値計算部により計算された評価値に
基づき同一言語内で表記の異なる複合語を上記辞書に登
録することにより、登録すべき適切な複合語を自動的に
判定して複合語辞書に登録することを特徴とする複合語
辞書登録装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP21693792A JP3258079B2 (ja) | 1992-08-14 | 1992-08-14 | 複合語辞書登録装置 |
US08/615,082 US5867812A (en) | 1992-08-14 | 1996-03-14 | Registration apparatus for compound-word dictionary |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP21693792A JP3258079B2 (ja) | 1992-08-14 | 1992-08-14 | 複合語辞書登録装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH0668070A JPH0668070A (ja) | 1994-03-11 |
JP3258079B2 true JP3258079B2 (ja) | 2002-02-18 |
Family
ID=16696269
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP21693792A Expired - Lifetime JP3258079B2 (ja) | 1992-08-14 | 1992-08-14 | 複合語辞書登録装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3258079B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5867812A (en) * | 1992-08-14 | 1999-02-02 | Fujitsu Limited | Registration apparatus for compound-word dictionary |
JP3272288B2 (ja) * | 1997-12-24 | 2002-04-08 | 日本アイ・ビー・エム株式会社 | 機械翻訳装置および機械翻訳方法 |
WO1999063456A1 (fr) | 1998-06-04 | 1999-12-09 | Matsushita Electric Industrial Co., Ltd. | Dispositif de preparation de regles de conversion du langage, dispositif de conversion du langage et support d'enregistrement de programme |
-
1992
- 1992-08-14 JP JP21693792A patent/JP3258079B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JPH0668070A (ja) | 1994-03-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2765665B2 (ja) | タイポグラフィカル情報付き文書の翻訳装置 | |
JP3258079B2 (ja) | 複合語辞書登録装置 | |
JPH03260766A (ja) | 括弧生成判定機能付翻訳装置 | |
JPS59103171A (ja) | 機械翻訳装置 | |
JP2812511B2 (ja) | キーワード抽出装置 | |
JP3131432B2 (ja) | 機械翻訳方法及び機械翻訳装置 | |
JP3236027B2 (ja) | 機械翻訳装置 | |
JP2830097B2 (ja) | 文章検索方式 | |
JP2715875B2 (ja) | 多言語要約生成装置 | |
JPS6170663A (ja) | 住所翻訳装置 | |
JPH06325082A (ja) | 機械翻訳装置 | |
JP3244286B2 (ja) | 翻訳処理装置 | |
JP2838850B2 (ja) | 仮名漢字変換装置 | |
JP4021813B2 (ja) | 複合語登録プログラムおよび登録装置 | |
JPH06289890A (ja) | 自然言語処理装置 | |
JPS62247451A (ja) | 日本語処理装置の単語辞書構成法 | |
JPH10105552A (ja) | 機械翻訳システム | |
JP2608384B2 (ja) | 機械翻訳装置及びその方法 | |
JP3269083B2 (ja) | 自然語処理装置 | |
JPH11224250A (ja) | 辞書装置 | |
JPH05197752A (ja) | 機械翻訳装置 | |
JP2002108859A (ja) | 対訳表現自動抽出装置および記録媒体 | |
JPH04153878A (ja) | 機械翻訳装置における前編集支援処理装置 | |
JPH03145700A (ja) | 単語標準パタン登録方式 | |
JPH052604A (ja) | 外部制御機構による部分訳処理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20011127 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20071207 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081207 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091207 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091207 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101207 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111207 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111207 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121207 Year of fee payment: 11 |
|
EXPY | Cancellation because of completion of term | ||
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121207 Year of fee payment: 11 |