JPH03211669A - 機械翻訳装置 - Google Patents

機械翻訳装置

Info

Publication number
JPH03211669A
JPH03211669A JP2008791A JP879190A JPH03211669A JP H03211669 A JPH03211669 A JP H03211669A JP 2008791 A JP2008791 A JP 2008791A JP 879190 A JP879190 A JP 879190A JP H03211669 A JPH03211669 A JP H03211669A
Authority
JP
Japan
Prior art keywords
word
translation
target language
words
unregistered
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008791A
Other languages
English (en)
Inventor
Toshiharu Ichiyama
市山 俊治
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2008791A priority Critical patent/JPH03211669A/ja
Publication of JPH03211669A publication Critical patent/JPH03211669A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は翻訳の目標言語の単語を原言語の表音文字によ
り表わした単語が含まれる文章を入力し翻訳する機械翻
訳装置に関する。
〔従来の技術〕
近年、自然言語処理技術の発達に伴い、機械翻訳システ
ムの開発が盛んになってきている。技術文書においては
、外国語の専門用語を表音文字によって記述することが
頻繁に起こる。例えば、日本語においては外国語の単語
を表音文字であるカタカナで記述することがごく普通に
行われる。それらの外国語の単語の中でも日本語話者の
間で広く用いられているものは外来語と呼ばれて辞書登
録の対象となっている。
従来の機械翻訳システムでは、例えば日英翻訳システム
では、カタカナ表記された単語のうち外来語として日本
語辞書に登録されている語は通常の日本語単語として扱
われて翻訳がおこなわれるが、日本語辞書に登録されて
いない単語は他の未登録語と同様に処理され、対訳文中
の適当な箇所に原文中の形態のままで挿入される。
〔発明が解決しようとする課題〕
従来の技術では、未登録語として扱われ表音文字で表記
された外国語の単語はたとえ訳文中の正しい場所に挿入
されたとしても入力文中の形態のままで表示されてしま
う。そのため、例えば、「このシステムはテクニカルタ
ームを翻訳する。」という文において、「システム」は
外来語として辞書登録されているが「テクニカルターム
」は辞書登録されていないような場合には、原文中で「
システム」と「テクニカルターム」はいずれも目標言語
の単語の発音を原言語の表音文字に置き換えて書き表し
たものであるのに、”Th1s systemtran
slates  テクニカルターム、”のごとき不完全
な翻訳結果しか得ることができないという欠点があった
本発明の目的は、原文中の表音文字表記された目標言語
の単語から目標言語の見出し語を生成し、かつ原文中の
該単語の構文的な情報を利用して正しい形態素を表示す
ることができる機械翻訳装置を提供することにある。
〔課題を解決するための手段〕
本発明による機械翻訳装置は、翻訳の目標言語の単語を
原言語の表音文字により表わした単語が含まれる文章を
入力し翻訳する装置において、入力した文に含まれる表
音文字のみで構成される未登録語を抽出する未登録語抽
出装置と、前記登録語に対応する目標言語の単語を検索
する辞書検索装置と、目標言語辞書と、検索した目標言
語の単語である語を保持し未登録語を含む文の翻訳を行
う翻訳装置と、前記外語を訳文中に埋め込む外語挿入装
置とを備えて構成される。
〔実施例〕
本発明について図面を参照して説明する。
第1図は本発明の一実施例を示すブロック図である。こ
こでは説明のために原言語が日本語で目標言語が英語で
あるような翻訳装置を例にとって説明するが、他の言語
対であっても原言語側が表音文字もしくはそれと同等な
表記が可能な言語であれば本発明と全く同じ構成で同じ
効果を持つ機械翻訳装置を実現できる。
未登録言語抽出装置1に第2図(a)に示すような翻訳
の目標言語の単語をカタカナ表記した語を含む入力文が
入力されると形態解析により入力文を辞書登録語単位に
語分割し、未登録語を抽出しさらにその未登録語の中で
カタカナ表記されている語を抽出する。例えば、第2図
(a)の入力文に対して語分割を行った結果、「この」
、「システム」、「は」、「たくさんの」、「テクニカ
ルターム」、「を」、「翻訳する」、「ことができる」
、「。」というように語分割される。これらの分割され
た語の中で「テクニカルターム」以外はすべて辞書に登
録されていたとすると、第2図(a)の入力文からは「
テクニカルターム」がカタカナ表記された未登録語とし
て抽出される。
抽出された未登録語は識別番号と共にデータ線12を介
して辞書検索装置2に送出される。第2図(b)にデー
タ線12を介して送られるデータの例を示す。また同時
に、未登録語抽出装置1で語分割された結果はデータ線
14を介して翻訳装置4に送出される。第2図(C)に
データ線14を介して送られるデータの例を示す。
辞書検索装置2は送られてきたカタカナ表記の未登録語
から、例えば特願昭59−221727号に示される方
法によって目標言語の単語の綴り候補を生成し、データ
線23を介して目標言語辞書3を検索し、その未登録語
に対応する目標言語の単語を得る。目標言語辞書3にそ
の未登録語が存在する場合は、少なくとも品詞と屈折形
と複数形を含む形態的、統語的情報をその未登録語に付
与する。
目標言語の単語を得る方法としては、綴り候補を一つづ
つ生成しては目標言語辞書3を検索し最初に検索に成功
した綴りを所望のものとする方法と、一つのカタカナ表
記から目標言語での可能な綴り候補をすべて生成した後
辞書検索を行う方法とがある。後者の方法だと検索結果
として複数の単語が得られることがある。その場合は、
目標言語での単語のランク付は情報を利用して最優先候
補を選択する方法や、未定義語と係受は関係にある語と
の共起意味制約情報を利用して最優先候補を選択する方
法や、候補を利用者に提示して選択させる方法などによ
り候補を一つに絞る。
目標言語辞書3にその未登録語が存在しない場合は、「
該当語なし」という印をその未登録語に与える。例えば
、人名や地名をはじめとする固宵名詞がカタカナ表記さ
れ、しかも目標言語辞書3に存在しない場合には「該当
語なしコという印が与えられる。
辞書を検索した結果をデータ線25を介して外語挿入装
置5に送出する。第2図(d)にデータ線25を介して
送られるデータの例を示す。
翻訳装置4は語分割された入力文に対して翻訳を行う。
このとき、未登録語に対する品詞推定や訳文での形態的
属性の付与も同時に行われる。
例えば、「テクニカルターム」に関しては直後の「を」
により「テクニカルターム」が名詞であることがわかり
、さらに直前の「たくさんの」により「テクニカルター
ム」が複数であることが推定できる。翻訳装置4の出力
である素訳文中の未登録語に対応する部分には識別番号
と少な(とも品詞、単複の別を含む形態的、統語的情報
が与えられる。第2図(e)に翻訳装置4の出力例を示
す。翻訳装置4の出力はデータ線45を介して外語挿入
装置5に送出される。
外語挿入装置5は、翻訳装置4から送られてきた素訳文
と辞書検索装置2から送られてきた未登録語の目標言語
の単語に関する情報とから最終的な訳文を生成する。「
テクニカルターム」は複数であるという情報から複数形
“technical terms“が選択される。第
2図(f)に最終的な訳文を示す。また、辞書検索装置
2から送られてきたデータに「該当語なし」という印が
与えられた未登録語がある場合には、他のカタカナ表記
されていない未登録語と同様に処理される。例えば「テ
クニカルターム」に相当する単語が目標言語辞書に無か
った場合、訳文中に原文での表記をそのままで用いて“
Th1s system can translate
 manyテクニカルターム、”のように出力する。
〔発明の効果〕
本発明によれば、原言語の表音文字を用いて記述された
単語を含む入力文を翻訳する場合に、形態素解析部で抽
出された表音文字の未登録語について対象語における見
出し語を見いだし、かつ、原文の前後関係から構文的情
報を抽出し文法的に正しい訳文を生成することができる
【図面の簡単な説明】
第1図は本発明による機械翻訳装置の一実施例の構成を
示すブロック図、第2図(a)〜(f)は翻訳装置の入
力文の例と各処理過程で授受されるデータを例を示す説
明図である。 1・・・未登録語抽出装置、2・・・辞書検索装置、3
・・・目標言語辞書、4・・・翻訳装置、5・・・外語
挿入装置。

Claims (1)

    【特許請求の範囲】
  1.  翻訳の目標言語の単語を原言語の表音文字により表わ
    した単語が含まれる文章を入力し翻訳する装置において
    、入力した文に含まれる表音文字のみで構成される未登
    録語を抽出する未登録語抽出装置と、前記登録語に対応
    する目標言語の単語を検索する辞書検索装置と、目標言
    語辞書と、検索した目標言語の単語である語を保持し未
    登録語を含む文の翻訳を行う翻訳装置と、前記外語を訳
    文中に埋め込む外語挿入装置とを備えて成ることを特徴
    とする機械翻訳装置。
JP2008791A 1990-01-17 1990-01-17 機械翻訳装置 Pending JPH03211669A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008791A JPH03211669A (ja) 1990-01-17 1990-01-17 機械翻訳装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008791A JPH03211669A (ja) 1990-01-17 1990-01-17 機械翻訳装置

Publications (1)

Publication Number Publication Date
JPH03211669A true JPH03211669A (ja) 1991-09-17

Family

ID=11702690

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008791A Pending JPH03211669A (ja) 1990-01-17 1990-01-17 機械翻訳装置

Country Status (1)

Country Link
JP (1) JPH03211669A (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6133577A (ja) * 1984-07-25 1986-02-17 Fujitsu Ltd 機械翻訳装置
JPS6441068A (en) * 1987-08-05 1989-02-13 Ricoh Kk Translation editing device

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6133577A (ja) * 1984-07-25 1986-02-17 Fujitsu Ltd 機械翻訳装置
JPS6441068A (en) * 1987-08-05 1989-02-13 Ricoh Kk Translation editing device

Similar Documents

Publication Publication Date Title
Brill Some advances in transformation-based part of speech tagging
Lita et al. Truecasing
US20050216253A1 (en) System and method for reverse transliteration using statistical alignment
WO1997004405A1 (en) Method and apparatus for automated search and retrieval processing
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
Sumita et al. A translation aid system using flexible text retrieval based on syntax-matching
Sabtan Bilingual lexicon extraction from Arabic-English parallel corpora with a view to machine translation
Zughoul et al. English/Arabic/English machine translation: A historical perspective
Oakes et al. Bilingual text alignment-an overview
Mara English-Wolaytta Machine Translation using Statistical Approach
Ebrahim et al. Detecting and integrating multiword expression into English-Arabic statistical machine translation
Álvarez-Mellado et al. Detecting unassimilated borrowings in Spanish: An annotated corpus and approaches to modeling
Tukur et al. Parts-of-speech tagging of Hausa-based texts using hidden Markov model
Park et al. Affix modification-based bilingual pivoting method for paraphrase extraction in agglutinative languages
JP2003006191A (ja) 外国語文書作成支援装置及び外国語文書作成支援方法並びにプログラム記録媒体
JP2000250913A (ja) 実例型自然言語翻訳方法、対訳用例集作成方法および装置とそのプログラムを記録した記録媒体
JPH03211669A (ja) 機械翻訳装置
Ruch et al. Toward filling the gap between interactive and fully-automatic spelling correction using the linguistic context
Semmar et al. Using a stemmer in a natural language processing system to treat Arabic for cross-language information retrieval
Althobaiti Minimally-supervised Methods for Arabic Named Entity Recognition
DeNeefe et al. Overcoming vocabulary sparsity in mt using lattices
Vasuki et al. English to Tamil machine translation system using parallel corpus
CHANG et al. The Feasibility of Chinese–English Machine Translation Applied to Academic Texts: Using Thesis Abstracts from National Digital Library of Theses and Dissertations (NDLTD) in Taiwan
JP2819766B2 (ja) 外国語電子辞書検索方式
Pudaruth et al. English to Creole and Creole to English Rule Based Machine Translation System