JPH11259482A - 複合名詞の機械翻訳方式 - Google Patents

複合名詞の機械翻訳方式

Info

Publication number
JPH11259482A
JPH11259482A JP10078542A JP7854298A JPH11259482A JP H11259482 A JPH11259482 A JP H11259482A JP 10078542 A JP10078542 A JP 10078542A JP 7854298 A JP7854298 A JP 7854298A JP H11259482 A JPH11259482 A JP H11259482A
Authority
JP
Japan
Prior art keywords
word
language expression
expression
source language
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10078542A
Other languages
English (en)
Inventor
Naoki Inoue
直己 井ノ上
Masami Suzuki
雅実 鈴木
Kazuo Hashimoto
和夫 橋本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDD Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDD Corp filed Critical KDD Corp
Priority to JP10078542A priority Critical patent/JPH11259482A/ja
Publication of JPH11259482A publication Critical patent/JPH11259482A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【課題】入力表現に対して構文構造を求めることなく翻
訳を実現することができる複合名詞の機械翻訳方式を提
供する。 【解決手段】原言語(例えば、日本語)表現による複合
名詞である入力表現と言語表現による用例が最も類似し
た最尤用例を求め、入力表現の構文構造に関係なく単語
列だけを情報源として、この最尤用例の目的言語(例え
ば、英語)表現を構成する単語を入力表現に基づいて置
き換えることで翻訳を行うことを特徴とする構成を有し
ている。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、機械翻訳方式に関
するもので、特に、複合名詞の機械翻訳方式に関するも
のである。
【0002】
【従来の技術】機械翻訳とは、入力表現を目的言語表現
に翻訳する処理のことであり、一般には、図6に示すよ
うに、入力表現Aに対して、形態素解析処理,構文構造
生成処理,構文構造選択処理,単語変換処理,用例探索
処理,単語置換処理,英単語列生成処理,英語表現生成
処理の8つの処理を、それぞれ形態素解析部11,構文
解析部12,変換処理部13,生成処理部14で順々に
行い、変換辞書部15,用例データベース16内の情報
を参照して目的言語表現へ翻訳している。人間はそれま
で一度も聞いたことがない文を無限に作り出したり理解
する能力を持っている。このことは、人間は自分が持っ
ている文法法則を組み合わせることにより今までにない
新しい文を作り出したり、また、新しい文を聞いた時も
既に持っている文法法則を当てはめて文構造を組み立て
てこれに基づいて理解していると考えられてきた。構文
解析部12において、このような人間と同様の処理を行
う目的で入力表現Aの構文構造を求める処理が行われて
きた。変換処理部13においては、オンラインドキュメ
ントの増加,計算機の記憶媒体の大容量化,CPUの高
速化に伴って、翻訳用例を大量に蓄積した用例データベ
ース16から入力表現Aに最も類似した原言語表現を持
つ用例を求め、求めた用例の目的言語表現を構成する単
語を入力表現Aに基づいて置き換えることで翻訳を行う
方式の研究が進んでおり、翻訳性能は改善されてきてい
る。従来方式では、変換処理部13への入力は入力表現
Aの構文構造であったため、出力もそれに対応した英語
構文構造Iであった。
【0003】次に、図7に従って従来の翻訳処理の動作
を説明する。以下では、依存関係という言葉を用いる
が、これは1つの構文構造内の単語間の関係を指してお
り、依存関係が複数組合わさって1つの構文構造とな
る。まず形態蓄積解析部11で形態素解析を行い(ステ
ップS11)、単語列Bを生成し、次に構文解析部12
で単語間の依存関係を調べて考えられる構文構造候補G
を生成し(ステップS12)、考えられる構文構造候補
Gから正しいと思われる最適構文構造Hを選択する(ス
テップS13)。別の手法として、構文構造の選択は次
の変換処理部13における変換処理を行った後に行う手
法もある。その際、変換処理は考えられる全ての構文構
造に対して行われる。変換処理部13では、求めた最適
構文構造Hを構成する単語間の依存関係毎に、依存関係
を構成する英単語Cを変換辞書15を参照して求め(ス
テップS14)、依存関係の表現と最も類似した最尤用
例Dをデータベース16を参照して求める(ステップS
15)。さらに、求めた最尤用例Dの英語表現をステッ
プS14で求めた英単語Cで適切に置き換えて、依存関
係に対する英語表現を作成する(ステップS16)。上
記ステップS14からステップS16までをすべての依
存関係に対して繰り返し、生成処理部14で入力表現A
に対する英語構文構造Iから英単語列Eを生成した(ス
テップS17)後、複数形や ing構文など英語表現とし
て適切な表現を作成して翻訳結果Fとして出力する(ス
テップS18)。
【0004】
【発明が解決しようとする課題】即ち、従来は、何らか
の方式により入力表現Aの構文構造を求める必要があっ
た。そのため、構文構造を正しく求めることができなか
った場合、翻訳誤りが生じることになる。構文構造は、
一般に複数個が存在し、しかも全ての構文構造の中から
正しい構文構造を選択することは困難であるため、決定
された構文構造が誤っていることは頻繁に生じていた。
このように、従来の機械翻訳方式では、解析処理におい
て入力表現の構文構造を1つに決定していたため、翻訳
性能の劣化が生じている。これは、複合名詞の機械翻訳
方式においても同様である。
【0005】本発明は、入力表現に対して構文構造を求
めることなく翻訳を実現することができる複合名詞の機
械翻訳方式を提供することを目的とする。
【0006】
【課題を解決するための手段】この目的を達成するため
に、本発明による複合名詞の機械翻訳方式は、原言語表
現による複合名詞である入力表現Aは単語単位に分割さ
れて原言語表現単語列Bに変換され、前記原言語表現単
語列B内の各単語に対する目的言語表現への翻訳である
目的言語表現単語Cは変換辞書部から求められ、用例デ
ータベースに蓄積された各用例の原言語表現のうちから
前記原言語表現単語列Bと最も類似度の高い最尤用例D
が選択され、該最尤用例Dの原言語表現の各単語を前記
目的言語表現単語Cのうちの対応する単語に置換した目
的言語表現単語列Eに変換され、該目的言語表現単語列
Eに必要な構文上の修正をして目的言語表現の翻訳結果
Fを生成することを特徴とする構成を有している。
【0007】
【発明の実施の形態】上記目的を達成する本発明の第1
の形態に係る機械翻訳方式は、原言語表現単語列Bと原
言語表現用例間の類似度をそれぞれの表現を構成する単
語間の類似度の総和として計算することを特徴とする。
上記目的を達成する本発明の第2の形態に係る機械翻訳
方式は、DPマッチングアルゴリズムを用いることで原
言語表現単語列Bの単語数と原言語表現用例の単語数が
異なっても、類似度の計算が行えるこを特徴とする。上
記目的を達成する本発明の第3の形態に係る機械翻訳方
式は、原言語表現単語列Bと最も類似する目的言語表現
単語列Eを構成する単語から、前記原言語表現単語列B
にない単語を削除することを特徴とする。上記目的を達
成する本発明の第4の形態に係る機械翻訳方式は、原言
語表現およびその翻訳結果である目的言語表現単語列E
を構成する単語間の対応付けが予め行われて用例データ
ベースに蓄積されていることを特徴とする。
【0008】
【実施例】本発明による複合名詞の機械翻訳方式は、図
1に示すように、形態素解析部1,変換処理部2および
生成処理部3により構成される。形態素解析部1は、入
力表現Aを単語単位に分割し、単語列Bを変換処理部2
へ出力する。ここで、単語列Bを構成する各単語には、
品詞などの単語に関する属性情報が含まれている。変換
処理部2は、まず、単語列Bの各単語に対する英単語C
は変換辞書部4を探索して求める。次に、入力表現Aに
対する単語列Bと、用例データベース5に蓄積された各
用例の原言語表現との類似度を計算し、最も類似度の高
い用例を最尤用例Dとして求める。さらに、変換処理部
2は、最尤用例Dの目的言語表現内の単語を先に求めて
おいた英単語Cと置換し、英単語列Eとして生成処理部
3へ出力する。上記置換において、用例の原言語表現内
に入力表現A中の単語と対応する単語が無い場合、その
単語に対する用例の目的言語表現内の単語をnullという
特別な単語に置換する。生成処理部3は、入力された英
単語列Eから、例えば前記nullを削除したり、ing 形や
過去分詞表現にするなど英語構文上正しい表現を生成し
て翻訳結果Fを出力する。
【0009】前記変換処理部2において、最尤用例Dを
求めるに際して、入力表現Aおよび用例の原言語表現を
構成する単語間の類似度の総和としてこれら表現間の類
似度を求める。最尤用例Dはこの類似度の最も高い用例
である。例えば、入力表現Aに対する単語列Bが「日本
橋」「一丁目」「略図」であり、原言語表現の用例の単
語列Bが「浅草」「一丁目」「略図」である場合、これ
ら単語列間の類似度は「日本橋」と「浅草」間の類似
度、「一丁目」と「一丁目」間の類似度、「略図」と
「略図」間の類似度の総和として求める。
【0010】また、前記変換処理部2において、最尤用
例Dを求めるに際して、入力表現の単語数と原言語表現
の用例の単語数が異なる場合でも、考えられる全ての単
語間の対応の中で最も高い類似度を求める。例えば、入
力表現Aの単語列Bが「日本橋」「一丁目」「略図」と
3単語からなり、用例の原言語表現の単語列Bが「銀
座」「一丁目」「通り」「略図」と4単語からなってい
る場合、考えられ単語間の対応は図2に示すように、
(「日本橋」−「銀座」,「一丁目」−「一丁目」,な
し−「通り」,「略図」−「略図」)という対応パター
ン1の他に、(「日本橋」−「銀座」,なし−「一丁
目」,「一丁目」−「通り」,「略図」−「略図」の対
応パターン2),(「日本橋」−「銀座」,「一丁目」
−「一丁目」,「略図」−「通り」,なし−「略図」の
対応パターン3)及び(なし−「銀座」,「日本橋」−
「一丁目」,「一丁目」−「通り」,「略図」−「略
図」の対応パターン4)という全部で4通りの対応が考
えられる。入力表現と用例の原言語表現間の類似度は、
これら全ての対応に対する単語間の類似度の総和の中で
最も高い類似度として求める。ここで、単語間の対応が
交さすることは考慮外である。
【0011】前記変換処理部2において、入力表現Aと
の類似度を計算する用例とは、原言語表現とその翻訳で
ある目的言語表現とが単語単位で対応付けされたデータ
のことである。例えば、「銀座一丁目通り略図」とその
翻訳である“View of GinzaDoori 1-choume”は図3に
示すように、日本語の「銀座」が英語の“Ginza " に対
応し、さらに「一丁目」が“1-choume”に、「通り」が
“Doori ”に、「略図」が“View”に対応付けされてい
る。また、英語の“of”に対応する日本語がないことも
示されている。
【0012】本発明の機械翻訳方式は、図4に示すフロ
ーチャートに従い、次のように実施される。まず、形態
素解析部1に日本語表現Aが入力されると形態素解析を
行い単語列Bを出力する(ステップS1)。次に変換処
理部2では、単語列Bの全ての単語に対して変換辞書部
4を参照して英単語Cを求める(ステップS2)。さら
に、変換処理部2では、用例データベース5を参照して
単語列Bと最も類似した最尤用例Dを求め(ステップS
3)、引き続き、求めた最尤用例Dの原言語表現の単語
列と入力表現Aの単語列Bとの対応を求める(ステップ
S4)。ここで、前記の単語列Bと用例の原言語表現と
の類似度の計算において、DP(Dynamic Programing)
マッチングアルゴリズムを用いて類似度を計算する。D
Pマッチングアルゴリズムを用いることにより、単語列
Bと用例の原言語表現との対応関係も求めることができ
る。
【0013】例えば、単語列Bが「日本橋」「一丁目」
「略図」の場合の実施例を図5に従い説明する。図5で
は、単語「日本橋」,「一丁目」,「略図」はxi (i
=1,2,3)で示され、別の単語列「銀座」「一丁
目」「通り」「略図」の単語はyj (j=1,2,3,
4)で示されている。まず、図5中の格子点(i,0)
(i=0,1,2,3)における類似度S(i,0)を
初期値0に設定する。次に、j=1に対し、i=0,
1,2,3の順にS(i,j)を式1に従って求める。
【0014】
【数1】
【0015】ここで、s(xi ,yi )は単語xi とy
i の間の類似度であり、s(xi ,0)は単語xi が削
除されるコスト、s(0,yj )は単語yj が挿入され
るコストである。同様に、j=2,3,4に対してi=
0,1,2,3の順にS(i,j)を求め、最終的にS
(3,4)が求める2つの単語列間の類似度となる。式
1は繰り返し関数の形をしているため、類似度S(i,
j)は格子点(0,0)から(i,j)までの全てのパ
スの中で最も高い類似度となる。S(3,4)を計算し
た後、格子点(3,4)に至った1つ手前の格子点(図
5では、格子点(2,3)を順次(0,0)まで遡るこ
とで、格子点(0,0)から(3,4)までのパスがた
だ一つ求まり、そのパスが類似度S(3,4)を得る時
の単語間の対応を表す。
【0016】例えば、格子点(3,4)に至るパスが図
5の通りであった場合、縦軸に配列された単語列「日本
橋」「一丁目」「略図」と横軸に配列された単語列「銀
座」「一丁目」「通り」「略図」の間の全ての対応の中
で最も類似度の高い対応は「日本橋」−「銀座」,「一
丁目」−「一丁目」,「略図」−「略図」であることを
表している。このように、DPマッチングアルゴリズム
を用いることにより、最も類似度の高い単語間の対応関
係とその時の類似度を求めることができる。
【0017】さらに、変換処理部2は、前記ステップS
3で求めた最尤用例Dの目的言語表現をステップS2で
求めた英単語で適切に置き換える(ステップS5)こと
を単語列Bの全ての単語に対して繰り返す。次に最尤用
例Dの目的言語表現中に入力表現Aに対応する単語がな
い単語はnullという特別な単語に置換し(ステップS
6)、英語単語列Eを作成する。このnullという単語
は、後の生成処理部3において削除されることになる。
例えば、入力表現Aが「日本橋一丁目略図」で、用例デ
ータベース5中の用例のうち最も言語表現が類似した用
例が図3に示した「銀座一丁目通り略図」−“View of
Ginza Doori 1-choume”であり、単語列Bと用例の原言
語表現との対応が「日本橋」−「銀座」,「一丁目」−
「一丁目」,「略図」−「略図」であった場合、単語
「銀座」に対する英語“Ginza " を単語列Bの単語「日
本橋」の英語“Nihonbashi”で置き換える。同様の処理
を用例の原言語表現の単語「一丁目」「通り」「略図」
に対して行うが、ここで、「通り」に対する入力表現中
の単語がないので、英語“Doori ”に変わってnullとい
う特別な単語を代入する。その結果、入力表現「日本橋
一丁目略図」に対する変換結果として“View of Nihonb
ashi null 1-choume”を英単語列Eとして得る。
【0018】次に、生成処理部3では、変換処理部2か
らの出力である英単語列Eに対し、英語表現として正し
い表現を翻訳結果Fとして出力する。上記の例では英単
語列Eからnullを削除して、“View of Nihonbashi 1-c
houme ”を翻訳結果Fとして出力する。
【0019】
【発明の効果】以上、実施例に基づいて具体的に説明し
たように、本発明では、入力表現と用例の原言語表現と
の類似度を計算する段階で、DPマッチングアルゴリズ
ムを用いて入力表現の単語列のみから計算しているの
で、入力表現の構文構造を求める必要がない。本発明
を、原言語表現と目的言語表現の対応関係を前述した用
例を蓄積した用例データベースから、入力表現と用例の
原言語表現とが最も類似した用例を求め、この用例の目
的言語表現を構成する単語を入力表現に対する英単語で
置き換えることで翻訳を行う機械翻訳方式に用いること
により、翻訳性能の向上を期待することができる。
【図面の簡単な説明】
【図1】本発明を用いた機械翻訳方式の構成例図であ
る。
【図2】入力表現と用例の原言語表現との対応関係の一
例を示す図である。
【図3】本発明において用例データベースに蓄積された
用例を示す図である。
【図4】本発明の実施例を説明するためのフローチャー
トである。
【図5】本発明に用いるるDPマッチングアルゴリズム
を説明するための図である。
【図6】従来の機械翻訳方式例を示すブロック図であ
る。
【図7】図6の従来例の動作を説明するためのフローチ
ャートである。
【符号の説明】
1 形態素解析部 2 変換処理部 3 生成処理部 4 変換辞書部 5 用例データベース 11 形態素解析部 12 構文解析部 13 変換処理部 14 生成処理部 15 変換辞書部 16 用例データベース

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 原言語表現による複合名詞である入力表
    現Aは単語単位に分割されて原言語表現単語列Bに変換
    され、 前記原言語表現単語列B内の各単語に対する目的言語表
    現への翻訳である目的言語表現単語Cは変換辞書部から
    求められ、 用例データベースに蓄積された各用例の原言語表現のう
    ちから前記原言語表現単語列Bと最も類似度の高い最尤
    用例Dが選択され、 該最尤用例Dの原言語表現の各単語を前記目的言語表現
    単語Cのうちの対応する単語に置換した目的言語表現単
    語列Eに変換され、 該目的言語表現単語列Eに必要な構文上の修正をして目
    的言語表現の翻訳結果Fを生成する複合名詞の機械翻訳
    方式。
  2. 【請求項2】 前記原言語表現単語列と各用例の前記原
    言語表現との類似度は、それぞれの表現を構成する単語
    間の類似度の総和として計算されることを特徴とする請
    求項1に記載の複合名詞の機械翻訳方式。
  3. 【請求項3】 前記原言語表現単語列の単語数と前記の
    用例の原言語表現の単語数が異なっても、DPマッチン
    グアルゴリズムを用いて類似度の計算が行われることを
    特徴とする請求項1に記載の複合名詞の機械翻訳方式。
  4. 【請求項4】 前記原言語表現単語列の単語数と最も類
    似する用例の前記原言語表現の単語数が異なり、かつ前
    記の用例の原言語表現の単語数が多い場合には、対応し
    ない単語を前記目的言語表現単語列Eから削除すること
    で前記翻訳結果Fを求めることを特徴とする請求項1に
    記載の複合名詞の機械翻訳方式。
  5. 【請求項5】 前記用例データベースに蓄積される用例
    は原言語表現およびその翻訳結果である目的言語表現単
    語列Eを構成する単語間で予め対応付けが行われている
    ことを特徴とする請求項1に記載の複合名詞の機械翻訳
    方式。
JP10078542A 1998-03-12 1998-03-12 複合名詞の機械翻訳方式 Pending JPH11259482A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10078542A JPH11259482A (ja) 1998-03-12 1998-03-12 複合名詞の機械翻訳方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10078542A JPH11259482A (ja) 1998-03-12 1998-03-12 複合名詞の機械翻訳方式

Publications (1)

Publication Number Publication Date
JPH11259482A true JPH11259482A (ja) 1999-09-24

Family

ID=13664812

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10078542A Pending JPH11259482A (ja) 1998-03-12 1998-03-12 複合名詞の機械翻訳方式

Country Status (1)

Country Link
JP (1) JPH11259482A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001016794A1 (fr) * 1999-08-31 2001-03-08 Sony Corporation Procede et dispositif informatique et support d'enregistrement
JP2007072594A (ja) * 2005-09-05 2007-03-22 Sharp Corp 翻訳装置、翻訳方法および翻訳プログラム、媒体
JP2008262587A (ja) * 2002-06-28 2008-10-30 Microsoft Corp 用例ベースの機械翻訳システム
KR100923936B1 (ko) 2008-03-14 2009-10-29 엔에이치엔(주) 일본어 사전 서비스에 있어서 2개 단어 이상의 쿼리, 한글쿼리 또는 일반적인 쿼리의 입력 시 검색 결과를 제공하는방법 및 시스템

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001016794A1 (fr) * 1999-08-31 2001-03-08 Sony Corporation Procede et dispositif informatique et support d'enregistrement
US7010477B1 (en) 1999-08-31 2006-03-07 Sony Corporation Information processing device information processing method, and recording medium
JP2008262587A (ja) * 2002-06-28 2008-10-30 Microsoft Corp 用例ベースの機械翻訳システム
JP2007072594A (ja) * 2005-09-05 2007-03-22 Sharp Corp 翻訳装置、翻訳方法および翻訳プログラム、媒体
KR100923936B1 (ko) 2008-03-14 2009-10-29 엔에이치엔(주) 일본어 사전 서비스에 있어서 2개 단어 이상의 쿼리, 한글쿼리 또는 일반적인 쿼리의 입력 시 검색 결과를 제공하는방법 및 시스템

Similar Documents

Publication Publication Date Title
CN111090461B (zh) 一种基于机器翻译模型的代码注释生成方法
US6778949B2 (en) Method and system to analyze, transfer and generate language expressions using compiled instructions to manipulate linguistic structures
JP5377889B2 (ja) 言語処理装置およびプログラム
JP2745370B2 (ja) 機械翻訳方法及び機械翻訳装置
US20080059146A1 (en) Translation apparatus, translation method and translation program
JP2007226729A (ja) 訳語情報出力処理プログラム,処理方法および処理装置
JPS62163173A (ja) 機械翻訳方法
JP2004199427A (ja) 対訳依存構造対応付け装置、方法及びプログラム、並びに、対訳依存構造対応付けプログラムを記録した記録媒体
JPH11259482A (ja) 複合名詞の機械翻訳方式
CN116306594A (zh) 一种医学ocr识别纠错方法
JP4940606B2 (ja) 翻訳システム、翻訳装置、翻訳方法及びプログラム
JP2004348552A (ja) 音声文書検索装置および方法およびプログラム
JP4435144B2 (ja) データ検索システム及びプログラム
JP2009295101A (ja) 音声データ検索システム
JP3326646B2 (ja) 機械翻訳システム用辞書・ルール学習装置
JP5302784B2 (ja) 機械翻訳方法、及びシステム
JP2007004446A (ja) 機械翻訳装置、その方法およびプログラム
JP2006024114A (ja) 機械翻訳装置および機械翻訳コンピュータプログラム
JP2006127405A (ja) バイリンガルパラレルテキストをアライメントする方法及びそのためのコンピュータで実行可能なプログラム
CN115099249B (zh) 一种基于翻译结果智能优化方法、系统及其存储介质
JP2004280467A (ja) 翻訳装置、翻訳方法、及びそのプログラム
JP3027553B2 (ja) 構文解析装置
JP5416021B2 (ja) 機械翻訳装置、機械翻訳方法、およびそのプログラム
JP2011197716A (ja) パターンマッチング装置、翻訳装置、翻訳システム及び翻訳プログラム
JPH1145249A (ja) 情報検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体