JPH0225215B2 - - Google Patents

Info

Publication number
JPH0225215B2
JPH0225215B2 JP57212024A JP21202482A JPH0225215B2 JP H0225215 B2 JPH0225215 B2 JP H0225215B2 JP 57212024 A JP57212024 A JP 57212024A JP 21202482 A JP21202482 A JP 21202482A JP H0225215 B2 JPH0225215 B2 JP H0225215B2
Authority
JP
Japan
Prior art keywords
word
translation
field vector
field
translated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP57212024A
Other languages
English (en)
Other versions
JPS59103171A (ja
Inventor
Hiroshi Kushima
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP57212024A priority Critical patent/JPS59103171A/ja
Publication of JPS59103171A publication Critical patent/JPS59103171A/ja
Publication of JPH0225215B2 publication Critical patent/JPH0225215B2/ja
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Description

【発明の詳細な説明】 (A) 発明の技術分野 本発明は機械翻訳装置、特に電子計算機によつ
て入力原文を翻訳して出力する装置であつて、入
力原文中に現われる1つの単語に対する訳語が複
数個ある場合に、最も適切な訳語を比較的簡易に
選出できるようにした機械翻訳装置に関するもの
である。
(B) 技術の背景と問題点 第1図は一般的な機械翻訳装置の構成例を示
す。
機械翻訳装置においては、自然言語をデジタル
情報として入力し、例えば英語から日本語、日本
語から英語というように自動翻訳して結果を出力
する。第1図において、制御部1は命令をフエツ
チして実行し、機械翻訳装置全体を制御するもの
である。入力部2から入力された翻訳対象となる
原文は、単語分割部3によつて各単語に分割され
る。分割された各単語について、辞書検索部4
は、磁気デイスク装置9等に予め用意された単語
辞書10を検索する。単語辞書10には、翻訳さ
れる言語の各単語について、その属性、訳語等が
登録されている。次に、構文解析部5は、検索結
果に従つて、主部・述部等の構文を解析する。語
順決定部6は、その解析結果に基づいて、単語を
訳語に変換した場合に、その訳語を並べる順序を
決定する。訳語選択部7は、原文中の各単語に対
応する訳語が複数個ある場合に、その中の1つを
選択するものである。出力部8は、訳語選択部7
が選択した訳語を、語順決定部6が決定した語順
に従つて並べ、訳文を作成して出力する。
本発明は、特に上記訳語選択の部分に関連して
いる。例えば、「function」という言葉を日本語
に訳す場合に、「機能」と訳さなければならない
ときもあるし、「関数」と訳さなければならない
ときもある。従来の機械翻訳装置は、このように
ある単語に複数の訳語が考えられるときに、次の
ような方式によつて、訳語を選択するようにされ
ていた。
第1の方式は、翻訳対象の単語に対応する複数
の訳語を出力し、人間が選択するものである。し
かし、この方式によれば、人手がかかるため、自
動翻訳という機械翻訳の目的に反することとな
る。第2の方式は、例えば数学の分野、スポーツ
の分野、…というように翻訳対象の原文が用いら
れている分野毎に、別々の単語辞書を用意するも
のである。この方式によれば、複数の単語辞書を
用意しなければならず、煩雑となるだけでなく、
例えば、新聞記事を翻訳する場合など、翻訳対象
の分野を予め知り得ないことが多く、使用できる
範囲が限られてしまう。他の方式として、いわゆ
る知識ベースを用いた高度の意味処理による選択
方式が研究されている。しかし、この方式は計算
機の処理量が極めて大きくなるため、大規模なシ
ステムでなければ利用することができないという
問題がある。
(C) 発明の目的と構成 本発明は上記問題点の解決を図り、高度の意味
処理を用いることなく、適切な訳語を迅速に選択
する機械翻訳装置を提供することを目的としてい
る。そのため、本発明は、単語辞書に登録される
単語と、その単語に対応する各訳語のそれぞれに
ついて、その単語または訳語が用いられる各分野
との適合性を強さとして示す単語分野ベクトルま
たは訳語分野ベクトルを付与し、原文に現われる
単語の単語分野ベクトルを合成することによつて
得られる対象分野ベクトルと、各訳語分野ベクト
ルとの比較によつて、最も一致する訳語分野ベク
トルをもつ訳語を選出するようにしたものであ
る。すなわち、本発明の機械翻訳装置は、原文を
入力して、該入力原文を各単語に分割し、単語辞
書に登録された原文単語に対応する訳語を抽出し
て、訳文を構成し出力する機械翻訳装置におい
て、上記単語辞書は、各登録単語毎に予め定めら
れた分野の個数を次元とし、当該単語と上記各分
野との適合度をそれぞれ成分とする単語分野ベク
トル情報を保持するとともに、上記登録単語の各
訳語毎に、上記単語分野ベクトルに対応するベク
トルであつて当該訳語と上記各分野との適合度を
成分とする訳語分野ベクトル情報を保持し、翻訳
対象の単語群から得られる複数の上記単語分野ベ
クトルを合成して対象分野ベクトルを生成する合
成部と、該合成部によつて合成された対象分野ベ
クトルと1つの単語に対する複数の上記各訳語分
野ベクトルとを比較し、最も類似する訳語分野ベ
クトルを有する訳語を当該単語の訳語として決定
する訳語選択部とをそなえたことを特徴としてい
る。以下図面を参照しつつ説明する。
(D) 発明の実施例 第2図は本発明に係る単語辞書の構成例、第3
図および第4図は分野ベクトルについての説明
図、第5図は本発明の一実施例構成を示す。
単語辞書は、翻訳対象となる原言語の各単語
と、それに対応する訳語とが、予め登録されて記
憶されているもので、1つの単語については、例
えば第2図図示のようなフイールド構成を持つ。
キー10―1は、原言語の単語についての文字コ
ード列等によるキー情報をもつ。属性フイールド
10―2には、その単語の品詞種別等一般的な単
語情報が格納される。単語分野ベクトル・フイー
ルド10―3には、後に詳述する如く、その単語
が使用される各分野との適合度を示すベクトル情
報が格納される。訳語フイールド10―4には、
キー10―1に対応する訳語が、その単語の訳語
として適当な訳語数の分だけ格納される。さら
に、訳語分野ベクトル・フイールド10―5に
は、その各訳語ごとに、その訳語が用いられる各
分野との適合度を示すベクトル情報が登録時に設
定される。
単語分野ベクトル、訳語分野ベクトルおよび後
述する対象分野ベクトルは、第3図に示す要素を
もつ。ベクトルの次元は、広く言葉が用いられる
分野を分類し、あり得る分野の個数を次元とする
よう定められる。そして、ベクトルの各要素は、
例えば先頭の第1分野は「数学」の分野、第2分
野は「スポーツ」の分野というように、各ベクト
ルに共通に分野の内容が定められる。
例えば「reactor」という英語の単語を、日本
語に訳す場合、ある場合には「原子炉」と訳すの
が適当であるし、ある場合には「反応器」と訳さ
なければならないときがある。一般に、原子力工
学の分野では、「原子炉」と訳すのが適当で、化
学の分野では、「反応器」と訳したほうが適当な
場合が多いであろう。このような場合に、
「reactor」の単語に対する訳語「原子炉」につい
ての訳語分野ベクトルは、原子力工学の分野の成
分が大きな値を持つように定められる。一方、訳
語「反応器」についての訳語分野ベクトルは、化
学の分野の成分が大きな値を持つようにされる。
単語分野ベクトルについても、同様にそれぞれ
の分野との適合度が、各成分の値として定められ
る。例えば、「that」とか「this」等といつた特
色のないすべての分野に共通に用いられる言葉
は、どのベクトル成分にも小さな値が割り当てら
れる。n個の分野に分類されているとすると、例
えば第4図図示の如く、n次元ベクトル空間にお
いて、分野ベクトル〓が与えられることとなる。
すなわち、1つの分野ベクトル〓は、方向と強さ
とを持ち、用いられる分野との関連において、単
語または訳語の個性を示すと考えてよい。
次に、第5図を参照し、これらの分野ベクトル
に基づいて訳語を決定する本発明の一実施例構成
を説明する。
第5図において、符号2ないし10は第1図に
対応し、11は翻訳対象の原文に現われる単語に
ついての単語分野ベクトルを合成して、対象分野
ベクトルを生成する分野ベクトル合成部、12は
対象分野ベクトルと各訳語分野ベクトルとについ
て、内積を演算する内積演算部、13は内積演算
結果を比較する比較部、14は比較結果に基づい
て訳語を決定して抽出する訳語決定部、20は入
力バツフア、21は原文の単語データ、22はバ
ツフア、23はベクトル加算器、24は対象分野
ベクトル・レジスタ、25は切換処理命令群、2
6は内積演算命令群、27は最大値検出命令群、
28は訳語抽出命令群、29は出力バツフアを表
わす。
入力部2は入力バツフア20に翻訳対象の原文
を入力する。単語分割部3は入力した原文を、例
えばスペース・データに従つて、単語に分割す
る。辞書検索部4は、分割した各単語について、
単語辞書10を検索し、例えば第2図に示したよ
うな単語情報をバツフア22に読み出す。この単
語情報をもとに、構文解析部5は構文を解析し、
語順決定部6は訳語が選択された場合の訳語の語
順を決定する。以上の処理は従来と同様でよい。
分野ベクトル合成部11は、バツフア22に用
意された各単語の単語分野ベクトル〓を、ベクト
ル加算器23によつて、順次加算し、結果を対象
分野ベクトル・レジスタ24に格納する。なお、
加算にあたつてオーバーフローが生じないように
適当な係数が掛けられる。例えば、対象分野ベク
トルを〓、原文の単語数をm、第i番目の単語分
野ベクトルを〓(i)とすると、対象分野ベクトル・
レジスタ24に格納される対象分野ベクトル〓は
次のようになる。
〓=1/mni=1 (i) この対象分野ベクトル〓は、翻訳対象の原文が
現に用いられている分野の特徴を示していると考
えてよい。
訳語選択部7は、まず内積演算部12を起動す
る。内積演算部12は、切換処理命令群25によ
つて、バツフア22から、1つの単語について複
数の訳語がある場合に、その各訳語の訳語分野ベ
クトルを読み出して、内積演算命令群26に与え
る。内積演算命令群26によつて、対象分野ベク
トル・レジスタ24の対象分野ベクトル〓と各訳
語分野ベクトルとの内積演算が行われる。例え
ば、第i番目の単語の第j番目の訳語分野ベクト
ルを〓j(i)で表わすと、ベクトルの内積〓・〓j(i)
が、j=1,2,…k(kは訳語数)のそれぞれ
について、算出される。この内積の大きさは、各
訳語分野ベクトル〓j(i)と対象分野ベクトル〓と
の一致の程度を示すことは言うまでもない。
比較部13は、最大値検出命令群27によつ
て、上記各内積〓・〓j(i)を比較し、最大の値を
もつものを検出する。訳語決定部14は、訳語抽
出命令群28によつて、対象分野ベクトルとの内
積が最大となる訳語分野ベクトル〓j0(i)に対応す
る訳語Tj0(i)を、当該単語の訳語とし、出力バツ
フア29にその訳語のコードを設定する。訳語選
択部7は、原文のすべての単語について、同様に
処理を繰り返し、すべての訳語について抽出でき
たならば、出力部8を呼び出す。出力部8は、出
力バツフア29上の翻訳結果を、例えば、ライン
プリンタ等に印字出力する。
上記分野ベクトル合成部11において、単語分
野ベクトルを合成する場合、原文の1センテンス
毎に合成してもよいし、また、例えば対象分野ベ
クトル・レジスタ24の内容を各センテンス毎に
クリアしないようにし、合成の範囲を一連の文章
または所定個数の単語群となるようにしてもよ
い。なお、単語辞書10に登録する単語分野ベク
トルおよび各訳語の訳語分野ベクトルは、単語辞
書10の作成時に、例えば経験によつて適当な値
が定められ設定されるが、学習によつてさらに適
当な値に更新されるようにしてもよい。
(E) 発明の効果 以上説明した如く本発明によれば、高度の意味
処理を行うことなく、比較的少ない計算機処理時
間とメモリとを使用するだけで、多義語の訳語の
選択が可能となる。
【図面の簡単な説明】
第1図は一般的な機械翻訳装置の構成例、第2
図は本発明に係る単語辞書の構成例、第3図およ
び第4図は分野ベクトルについての説明図、第5
図は本発明についての一実施例構成を示す。 図中、7は訳語選択部、10は単語辞書、11
は分野ベクトル合成部、12は内積演算部、13
は比較部、14は訳語決定部を表わす。

Claims (1)

    【特許請求の範囲】
  1. 1 原文を入力して、該入力原文を各単語に分割
    し、単語辞書に登録された原文単語に対応する訳
    語を抽出して、訳文を構成し出力する機械翻訳装
    置において、上記単語辞書は、各登録単語毎に予
    め定められた分野の個数を次元とし、当該単語と
    上記各分野との適合度をそれぞれ成分とする単語
    分野ベクトル情報を保持するとともに、上記登録
    単語の各訳語毎に、上記単語分野ベクトルに対応
    するベクトルであつて当該訳語と上記各分野との
    適合度を成分とする訳語分野ベクトル情報を保持
    し、翻訳対象の単語群から得られる複数の上記単
    語分野ベクトルを合成して対象分野ベクトルを生
    成する合成部と、該合成部によつて合成された対
    象分野ベクトルと1つの単語に対する複数の上記
    各訳語分野ベクトルとを比較し、最も類似する訳
    語分野ベクトルを有する訳語を当該単語の訳語と
    して決定する訳語選択部とをそなえたことを特徴
    とする機械翻訳装置。
JP57212024A 1982-12-02 1982-12-02 機械翻訳装置 Granted JPS59103171A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP57212024A JPS59103171A (ja) 1982-12-02 1982-12-02 機械翻訳装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP57212024A JPS59103171A (ja) 1982-12-02 1982-12-02 機械翻訳装置

Publications (2)

Publication Number Publication Date
JPS59103171A JPS59103171A (ja) 1984-06-14
JPH0225215B2 true JPH0225215B2 (ja) 1990-06-01

Family

ID=16615604

Family Applications (1)

Application Number Title Priority Date Filing Date
JP57212024A Granted JPS59103171A (ja) 1982-12-02 1982-12-02 機械翻訳装置

Country Status (1)

Country Link
JP (1) JPS59103171A (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0636168B2 (ja) * 1984-09-21 1994-05-11 富士通株式会社 機械翻訳処理装置
JPS6329881A (ja) * 1986-07-23 1988-02-08 Fujitsu Ltd 機械翻訳装置
JPS63278174A (ja) * 1987-05-11 1988-11-15 Ricoh Co Ltd 翻訳装置
US5548507A (en) * 1994-03-14 1996-08-20 International Business Machines Corporation Language identification process using coded language words
JPH07334506A (ja) * 1994-06-14 1995-12-22 Nec Field Service Ltd 機械翻訳装置

Also Published As

Publication number Publication date
JPS59103171A (ja) 1984-06-14

Similar Documents

Publication Publication Date Title
US5895446A (en) Pattern-based translation method and system
US5227971A (en) Apparatus for and method of selecting a target language equivalent of a predicate word in a source language word string in a machine translation system
US7447623B2 (en) Machine translation
US5321607A (en) Automatic translating machine
JP2001043236A (ja) 類似語抽出方法、文書検索方法及びこれらに用いる装置
JPS61255469A (ja) 言語生成装置
JPH0636168B2 (ja) 機械翻訳処理装置
JPH10312382A (ja) 類似用例翻訳システム
JPH0225215B2 (ja)
JP2838984B2 (ja) 汎用参照装置
JP3085394B2 (ja) 複数文翻訳における訳語選択方法およびこれを用いた機械翻訳システム
JP2005025555A (ja) シソーラス構築システム、シソーラス構築方法、この方法を実行するプログラム、およびこのプログラムを記憶した記憶媒体
KR100204068B1 (ko) 개념기반 다국어 번역시스템의 문법 자동수정 방법
JPH07152767A (ja) 機械翻訳装置
JP2715875B2 (ja) 多言語要約生成装置
JP3244286B2 (ja) 翻訳処理装置
JPH06325082A (ja) 機械翻訳装置
JPH05165889A (ja) 文書検索装置
KR20030068502A (ko) 번역 메모리를 이용한 번역 처리방법 및 이 번역소프트웨어를 기록한 판독 가능한 기록매체
JPH0749871A (ja) 定型文翻訳方式
JPH0251764A (ja) 索引生成方式
Zhang et al. Re-ranking for Bilingual Lexicon Extraction with Bi-directional Linear Transformation from Comparable Corpora
JPH05197752A (ja) 機械翻訳装置
JPH03225468A (ja) 機械翻訳装置
JPH0444981B2 (ja)