JP2000259635A - 翻訳装置及び翻訳方法並びに翻訳プログラムを記録した記録媒体 - Google Patents

翻訳装置及び翻訳方法並びに翻訳プログラムを記録した記録媒体

Info

Publication number
JP2000259635A
JP2000259635A JP11065445A JP6544599A JP2000259635A JP 2000259635 A JP2000259635 A JP 2000259635A JP 11065445 A JP11065445 A JP 11065445A JP 6544599 A JP6544599 A JP 6544599A JP 2000259635 A JP2000259635 A JP 2000259635A
Authority
JP
Japan
Prior art keywords
word
affix
translation
base
derivative
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP11065445A
Other languages
English (en)
Other versions
JP3539479B2 (ja
Inventor
Takeshi Kutsumi
毅 九津見
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP06544599A priority Critical patent/JP3539479B2/ja
Priority to EP00105009A priority patent/EP1037153A3/en
Priority to US09/523,290 priority patent/US6385569B1/en
Publication of JP2000259635A publication Critical patent/JP2000259635A/ja
Application granted granted Critical
Publication of JP3539479B2 publication Critical patent/JP3539479B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 【課題】 単語辞書にない入力原文から接辞と語基の組
み合わせが複数存在する派生語を認識した際、本来の接
辞と語基とからなる正確な派生語を抽出して訳語を生成
する。 【解決手段】 単語辞書と、接辞辞書と、第1言語であ
る原語を入力する入力部と、単語辞書を参照し、入力原
語を第2言語である訳語に変換する変換部と、単語辞書
及び接辞辞書を参照し、変換部によって訳語に変換され
ない入力原語から接辞と語基とからなる派生語を認識す
る認識部と、認識された派生語の接辞に対応した訳語と
語基に対応した訳語を連結して一つの派生語の訳語を生
成する派生語訳生成部と、認識部により複数の接辞が含
まれる派生語が認識された際、言語的特性情報から付与
された接辞処理条件に基づいて一つの接辞を決定する接
辞決定部とを備え、前記派生語訳生成部は、接辞決定部
によって決定された接辞とこれに対応する語基とからな
る派生語の訳語を生成するよう構成される。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、単語辞書に登録さ
れていない接頭辞・接尾辞と語基からなる派生語を抽出
して訳語を生成する翻訳装置及び翻訳方法並びに翻訳プ
ログラムを記録した記録媒体に関する。
【0002】
【従来の技術】近年、英日翻訳等の翻訳装置の要望が高
くなり、種々開発されている。従来の翻訳装置は、例え
ば、キーボードなどの入力手段からソース言語(原語)
を記憶手段に入力し、この入力されたソース言語を、単
語辞書、文法規則および木構造変換規則を記憶したテー
ブルを利用して、翻訳処理手段によってターゲット言語
(目的語)に翻訳するものである。このとき、単語辞書
に登録されていない原語は、通常、未知語として処理さ
れるので、後から未知語について別の字典などを参照し
て翻訳する必要があった。
【0003】しかし、未知語の中には、既知の単語(語
基)に接頭語や接尾語を付加した派生語があり、派生語
を構成する語基が単語辞書に登録されており、派生語に
含まれる接頭語、接尾語の解析が可能であれば、語基の
意味と、接頭語や接尾語の意味から派生語の意味も推定
することができる。
【0004】例えば、特開昭61−2688020号公
報に記載によれば、単語辞書と接辞辞書とを備え、入力
された原文中に未知語が検出された際、その未知語が、
既知語に接頭辞または接尾辞が連結した派生語であるか
否かを調べ、派生語として認識されたものに対して、条
件に従って、特に、目的語(訳語)生成用の文法情報を
も付与した文法的性質、意味的性質または訳語等を推定
する構成にして、解析結果や翻訳結果の確実性を向上さ
せることができる派生語処理方式が提案されている。
【0005】
【発明が解決しようとする課題】しかしながら、上記の
特開昭61−2688020号公報に記載の派生語処理
方式では、以下に示すように、派生語の構成によって
は、適切な訳語が得られないという問題がある。 (1)接辞が複数含まれる派生語の場合、接辞を正確に
抽出する機能がないため、例えば、“exportable”とい
う単語を翻訳すると、接頭辞“ex”と既知語“portabl
e”からなる派生語であると認識され、訳語「前携帯用
の」として翻訳される可能性がある。しかし、“export
able”という英単語は、既知語“export”と接尾辞“ab
le”からなる派生語と認識する方が正しい。
【0006】(2)語基の表記に接尾語の表記が一部分
が含まれる場合、語基を正確に抽出する機能がないた
め、“noter ”という単語を翻訳すると、単語“not ”
と接尾辞“er”からなる派生語であると認識される可能
性がある。しかし、“noter ”という英単語は、既知語
“note”と接尾辞“er”からなる派生語と認識する方が
正しい。
【0007】(3)接辞の訳語が画一的に登録されてい
るため、例えば、接頭辞“non ”の訳語が「非」と定め
られていると、“nonremunerative ”という英単語は、
接頭辞“non ”と既知語“remunerative”からなる派生
語と認識され、その訳語は、“non ”の訳語「非」と
“remunerative”の訳語「利益がある」が連結された
「非利益がある」となり、これは不自然な訳語となる。
語基の訳の形から、“non ”の訳語は、「〜がある」を
「〜がない」に置換して、“nonremunerative ”という
英単語は、「利益がない」と翻訳される方が日本語とし
て自然な訳語となる。
【0008】本発明は、以上の事情を考慮してなされた
ものであり、例えば、単語辞書にない入力原語から接辞
と語基の組み合わせが複数存在する派生語を認識した
際、本来の接辞と語基とからなる正確な派生語を抽出
し、自然な訳語を生成することができる翻訳装置及び翻
訳方法並びに翻訳プログラムを記録した記録媒体を提供
する。
【0009】
【課題を解決するための手段】本発明は、単語辞書と、
接辞辞書と、第1言語である原語を入力する入力部と、
単語辞書を参照し、入力原語を第2言語である訳語に変
換する変換部と、単語辞書及び接辞辞書を参照し、変換
部によって訳語に変換されない入力原語から接辞と語基
とからなる派生語を認識する認識部と、認識された派生
語の接辞に対応した訳語と語基に対応した訳語を連結し
て一つの派生語の訳語を生成する派生語訳生成部と、認
識部により複数の接辞が含まれる派生語が認識された
際、言語的特性情報から付与された接辞処理条件に基づ
いて一つの接辞を決定する接辞決定部とを備え、前記派
生語訳生成部は、接辞決定部によって決定された接辞と
これに対応する語基とからなる派生語の訳語を生成する
ことを特徴とする翻訳装置及び翻訳方法並びに翻訳プロ
グラムを記録した記録媒体である。
【0010】本発明によれば、ソース言語の言語的特性
情報から付与された接辞処理条件に基づいて接辞を決定
する手段を備えることによって、単語辞書にない入力原
文から接辞と語基の組み合わせが複数存在する派生語で
も、その中から最適な接辞を決定しこれに対応する語基
とから正確な派生語を認識し、自然な訳語を生成するこ
とができる。
【0011】
【発明の実施の形態】なお、本発明において、第1言語
の単語に対する第2言語の訳語、品詞情報、文法情報な
どを登録した単語辞書、接頭辞情報、接尾辞情報、接辞
処理条件などを登録した接辞辞書、接辞訳変更情報テー
ブルは、例えば、本体と分離可能な磁気テープやカセッ
トテープ等のテープ系、フロッピーディスクやハードデ
ィスク等の磁気ディスクやCD−ROM/MO/MD/
DVD等の光ディスクのディスク系、ICカード(メモ
リカードも含む)/光カード等のカード系、あるいはマ
スクROM、EPROM、EEPROM、フラッシュR
OM等による半導体メモリを含めた固定的にプログラム
を担持する記憶媒体で構成してもよい。入力部は、例え
ば、キーボード、マウス、ペン・タブレット等の入力装
置、通信装置、記憶媒体読取装置などで構成してもよ
い。変換部、認識部、派生語訳生成部、接辞決定部は、
例えば、CPU、ROM、RAM、I/Oポートからな
るコンピュータで構成してもよい。変換部、認識部、派
生語訳生成部、接辞決定部は、形態素解析部、構文解析
部、構文変換部、派生語処理部、ターゲット言語生成部
として機能する。
【0012】なお、本発明において、接辞は、接頭語、
接尾語のことをいう。また、語基は、その派生語の基本
的な意味をもつ単語であり、派生語は、「接頭語+語
基」、「語基+接尾語」、「接頭語+語基+接尾語」の
形の単語をいう。前記接辞処理条件が、接辞の長さ情報
であってもよいし、語基の動詞の変化形情報であっても
よいし、語基の品詞情報であってもよい。これらの情報
を組み合わせてもよい。また、前記接辞処理条件が、接
辞と語基間のハイフン情報であってもよい。
【0013】前記認識部が一つの接辞に対して複数の語
基がある派生語を認識した際、言語的特性情報から付与
された動詞の変化形情報に基づいて一つの語基を決定す
る語基決定部をさらに備え、前記派生語訳生成部は、語
基決定部によって決定された語基とこれに対応する接辞
とからなる派生語の訳語を生成する構成にしてもよい。
なお、この構成において、語基決定部は、CPUで構成
してもよい。この構成によれば、ソース言語の言語的特
性情報から付与された動詞の変化形情報に基づいて派生
語の語基を決定するよう構成したことにより、派生語に
対して接辞が一意に定まっているがこれに連結し得る語
基が複数通り存在する場合でも、その中から最適の語基
が決定されるので、派生語の派生語を形態素解析がより
正確に行える。
【0014】前記接辞辞書は、語基の品詞とその活用形
に対応して接辞の訳語を変更するための接辞訳変更情報
を記憶した接辞訳変更情報テーブルをさらに備え、前記
派生語訳生成部は、接辞訳変更情報に基づいて語基の訳
語に対応して接辞の訳語を変更する構成にしてもよい。
なお、この構成において、接辞訳変更情報テーブルはR
OMで構成してもよい。この構成によれば、派生語の訳
語を生成する際、語基の訳語に対応して接辞の訳語を変
更することができるので、派生語としてより自然な訳文
を生成することができる。
【0015】前記派生語訳生成部は、一度訳語を生成し
た派生語を既知語として処理する構成にしてもよい。
【0016】以下、図に示す実施例に基づいて本発明を
詳述する。なお、これによって本発明は限定されること
はない。
【0017】図1は本発明の一実施例である翻訳装置の
構成を示すブロック図である。本実施例では、説明をわ
かりやすくするためにソース言語(原語)が英語であ
り、ターゲット言語(目的語)が日本語であるような機
械翻訳装置を例にとり説明するが、ソース言語(原語)
及びターゲット言語(目的語)はそれ以外の独語、仏
語、スペイン語、蘭語、露語、中国語、などの言語を対
象とした機械翻訳装置であってもよい。図1において、
1はコピュータのCPU(中央処理装置)からなる制御
部を示し、制御部1は、プログラムメモリに記憶された
制御プログラムにより各部を制御する。
【0018】2はキーボード、マウス、ペン、タブレッ
ト、スキャナ、文字認識装置などの入力装置や、通信回
線と接続されている通信装置、記憶媒体読取装置などか
らなる入力部を示し、入力部2は、翻訳言語の指定、原
語の入力、翻訳開始の指示の他、通信、プログラムのイ
ンストールなどを行う。
【0019】3はCRT(陰極線管)ディスプレイ、L
CD(液晶ディスプレイ)、PD(プラズマディスプレ
イ)などからなる表示装置3aや、サーマルプリンタ、
レーザプリンタなどからなる印字装置、または通信回線
と接続されている通信装置3cで構成される出力部を示
し、出力部3は、入力部2による入力結果、制御部1の
制御により翻訳結果を表示装置3aに表示したり、印字
装置3bを介して印字したり、通信装置3cを介して送
信する。4はバスラインを示し、制御プログラムデータ
及びアドレスデータが転送される。
【0020】5はマスクROM、EPROM、EEPR
OM、フラッシュROM等による半導体メモリ、あるい
は磁気テープやカセットテープ等のテープ系、フロッピ
ーディスクやハードディスク等の磁気ディスクやCD−
ROM/MO/MD/DVD等の光ディスクのディスク
系、ICカード(メモリカードも含む)/光カード等の
カード系などを含めた記憶媒体からなるプログラムメモ
リを示し、プログラムメモリ5は、形態素解析部5a、
構文解析部5b、構文変換部5c、ターゲット言語生成
部5d、派生語処理部5e、接辞決定部5f、語基決定
部5g、派生語訳生成部5hとして機能する各制御プロ
グラムを記憶している。
【0021】特に、形態素解析部5a、構文解析部5
b、構文変換部5c、ターゲット言語生成部5dは、入
力された第1言語の原語を第2言語である訳語(ターゲ
ット言語)に変換する変換部として機能する。制御部1
の制御動作に応じてプログラムメモリ5から制御プログ
ラムを読み出して各部を制御することにより本発明の翻
訳装置を実現する。
【0022】6はマスクROM、EPROM、EEPR
OM、フラッシュROM等による半導体メモリ、あるい
は磁気テープやカセットテープ等のテープ系、フロッピ
ーディスクやハードディスク等の磁気ディスクやCD−
ROM/MO/MD/DVD等の光ディスクのディスク
系、ICカード(メモリカードも含む)/光カード等の
カード系などを含めた記憶媒体からなるテーブルメモリ
を示し、テーブルメモリ6は、第1言語に対応する第2
言語を記憶した単語辞書テーブル6a、言語的特性情報
から付与された文法規則を記憶した文法規則テーブル6
b、翻訳規則を記憶した翻訳規則テーブル6c、言語的
特性情報から付与された動詞の規則変化形情報を記憶し
た動詞規則変化形テーブル6d、言語的特性情報から付
与された接辞処理条件や語基の品詞とその活用形に対応
して接辞の訳語を変更するための接辞訳変更情報を記憶
した接辞テーブル(接頭辞テーブル、接尾辞テーブル、
接頭辞処理パターンテーブル、接尾辞処理パターンテー
ブル)6eとして機能する各テーブルを記憶している。
【0023】また、接辞処理条件として、接辞の長さ情
報、語基の動詞の変化形情報、語基の品詞情報、接辞と
語基間のハイフン情報であってもよい。
【0024】7はマスクRAM、EEPROM、フラッ
シュROM等による半導体メモリ、あるいは磁気テープ
やカセットテープ等のテープ系、フロッピーディスクや
ハードディスク等の磁気ディスクやMO/MD/DVD
等の光ディスクのディスク系、ICカード(メモリカー
ドも含む)/光カード等のカード系などを含めた記憶媒
体からなるバッファメモリを示し、バッファメモリ7
は、原文バッファ7a、辞書検索バッファ7b、変換前
構文バッファ7c、変換後構文バッファ7d、訳文バッ
ファ7e、マッチ接頭辞バッファ7f、マッチ接尾辞バ
ッファ7g、語基バッファ7h、語基用辞書検索バッフ
ァ7iとして機能する領域に備えている。制御部1は、
翻訳処理、派生語処理の進行に応じて処理したデータを
各バッファに記憶する。一度訳語が生成された派生語
を、既知語として処理する。
【0025】8はマスクROM、EPROM、EEPR
OM、フラッシュROM等による半導体メモリ、あるい
は磁気テープやカセットテープ等のテープ系、フロッピ
ーディスクやハードディスク等の磁気ディスクやCD−
ROM/MO/MD/DVD等の光ディスクのディスク
系、ICカード(メモリカードも含む)/光カード等の
カード系などを含めた本体と分離可能なメディアで構成
した固定的にプログラムを担持する記憶媒体を示し、記
憶媒体8に本発明の機械翻訳プログラムを記憶し、入力
部2の記憶媒体読取装置によりバッファメモリ7の予備
領域に翻訳プログラムをインストールすることにより本
発明の翻訳機能を実現してもよい。また、この記憶媒体
は、本翻訳装置がインターネットを含めた外部の通信ネ
ットワークとの接続が可能な通信装置を備えている場合
には、その通信装置を介して通信ネットワークからプロ
グラムをダウンロードするように流動的にプログラムを
担持する媒体であってもよい。尚、このように通信ネッ
トワークからプログラムをダウンロードする場合には、
そのダウンロード用プログラムは予め本体装置に格納し
ておくか、あるいは別な記録媒体からインストールされ
るものであってもよい。尚、記録媒体に格納されている
内容としてはプログラムに限定されず、データであって
もよい。
【0026】本発明の別の観点によれば、単語辞書6
と、接辞辞書6と、第1言語である原語を入力する入力
部2とを備えた翻訳装置にコンピュータで読み取り可能
な翻訳プログラムを記憶した記憶媒体を用いることによ
り、コピュータ1に、単語辞書6を参照させ、入力原語
を第2言語である訳語に変換させ、単語辞書及び接辞辞
書を参照させ、訳語に変換されない入力原語から接辞と
語基とからなる派生語を認識させ、認識された派生語の
接辞に対応した訳語と語基に対応した訳語を連結して一
つの派生語の訳語を生成させ、複数の接辞が含まれる派
生語が認識された際、言語的特性情報から付与された接
辞処理条件に基づいて一つの接辞を決定させ、決定され
た接辞とこれに対応する語基とからなる派生語の訳語を
生成させることができる。
【0027】図2は図1の翻訳装置による各翻訳処理の
手順を示すブロック図である。図2に示すように、機械
翻訳処理方法の1つとして、構文トランスファー方式が
ある。この方式は、入力されたソース言語の原文に対し
て、S1で、辞書検索・形態素解析を行い、S2で、構
文解析を行い、各解析を進めて、ソース言語の構文構造
を得て、S3で、これをターゲット言語の構文構造木に
変換し、S4で、各解析結果から、訳語を選択し、S5
で、ターゲット言語を生成する方式である。
【0028】ここで、図2に示すS1、S2の各処理に
ついて説明する。 S1の[辞書検索・形態素解析] 形態素解析部5aは、単語辞書テーブル6a、文法規則
テーブル6b、翻訳規則テーブル6cを用いて、入力さ
れた原文から単語を検索し、入力された原文を各形態素
列(単語列)に分割し、この各単語に対する品詞などの
文法情報および訳語を得て、さらに、動詞規則変化形テ
ーブル6dを用いて、時制・人称・数などを解析する。
【0029】S2の[構文解析] 構文解析部5bは、文法規則テーブル6bを用いて、形
態素解析された単語間の係り受けなどの文章の構造を解
析し、構造解析木を決定する。
【0030】図3は本実施例の翻訳処理(1)の手順を
示すフローチャートである。図3を用いて、図2に示す
S1の辞書検索・形態素解析処理の手順を説明する。S
11で、原文が原文バッファ7aに入力されると、ま
ず、単語ごとに分割が行われ、全文単語数が求められ
る。辞書検索の動作に移り、単語位置変数であるnに1
がセットされる。S12で、n番目の単語の辞書検索が
試みられてからいずれかの処理経路を通ってS19の処
理に至り、nが全文単語数に達していなければ、S20
で、nを1増加し、S12の処理に至るという動作が繰
り返し行われる。
【0031】S12で、n番目の単語を辞書検索を行っ
て、辞書検索が成功した場合は、S14で、辞書データ
の単語を辞書検索バッファ7bに格納し、S19の処理
に至る。また、S12で、n番目の単語を辞書検索を行
って、辞書検索が失敗し、既知語が検索できなかった場
合は、S15で、n番目の単語の派生語処理を行う。
【0032】この派生語処理に成功した場合は、S17
で、派生語に関する情報を辞書検索バッファ7bに格納
し、S19の処理に至る。S15で、派生語処理に失敗
した場合は、S18で、n番目の単語を未知語として扱
い辞書検索バッファ7bに格納する。S19で、nが全
文単語数に達していたら、辞書検索・形態素解析処理を
終了し、図2に示すS2の構文解析処理に移る。
【0033】[実施例1]実施例1では、例えば、“ex
portable”、“uncleared ”、“nonradioactive”とい
う3種類の英単語(ソース言語)の派生語処理の手順に
ついて説明する。ここでは、ソース言語の特質を考慮し
て適切な接辞を選ぶ例(その1)として接辞の長さに関
して、英単語“exportable”の派生語処理を行う。
【0034】図4は本実施例の翻訳処理(2)の手順を
示すフローチャートである。また、図4は、図3のS1
5の「n番目の単語の派生語処理」を詳細に示したもの
であり、入力単語1個あたりの派生語処理の動作手順を
示す。S101で、語基バッファ7hがクリアされる。
次に、S102に進み、接頭辞マッチング処理が行われ
る。S101とS102の処理間で、接頭辞にハイフン
が付いているか否かを判定するS201の処理を設定し
てもよい。接頭辞にハイフンが付いている場合は、接頭
辞が決定されたものと見なし、S109の接頭辞処理に
進む。接頭辞にハイフンが付いていない場合は、S10
2の処理に進む。
【0035】図5は本実施例の翻訳処理(3)の手順を
示すフローチャートである。また、図5は図4のS10
1の「接頭辞マッチング処理」を詳細に示したものであ
る。図5において、S301で、接頭辞テーブルのポイ
ンタ変数npに1がセットされる。S302で、マッチ
接頭辞バッファ7fがクリアされる。S303で、接頭
辞テーブルのnp番目のレコードの接頭辞とのマッチン
グが試みられてから、いずれかの処理経路を通ってS3
07の処理に至り、npが接頭辞テーブルの終端に達し
ていなければ、S308で、npを1増加し、S303
の処理に至るという動作が繰り返し行われる。
【0036】単語“exportable”の場合、図11に示す
接頭辞テーブルを参照して、ID(レコード番号)が1
の接頭辞“ex”とマッチするので、npが1のときに、
S303からS304に進み、IDの1番目の接頭辞
“ex”がマッチ接頭辞バッファ7fにセットされる。S
305で、入力語“exportable”が接頭辞“ex”のつい
た派生語であるとした場合の語基を求め、その結果、
“portable”という文字列が語基バッファ7hにセット
される。
【0037】S306で、接頭辞と語基とを関連づける
ため、マッチ接頭辞バッファ7fの1番目のレコードの
「語基ポインタ」欄に、語基バッファ7hのうち“port
able”が格納されているレコードの番号である“1”を
格納する。この結果、マッチ接尾辞バッファ7fは、図
17に示すような記憶内容になる。入力語“exportabl
e”に対して図11の接頭辞テーブル中の接頭辞でマッ
チするものは上記の“ex”だけなので、図5の接頭辞マ
ッチング処理は終わり、図4に示す処理に戻り、S10
2からS103の処理に進み、接尾辞マッチング処理が
行われる。S102とS103の処理間で、接尾辞にハ
イフンが付いているか否かを判定するS202の処理を
設定してもよい。接尾辞にハイフンが付いている場合
は、接尾辞が決定されたものと見なし、S107の接尾
辞処理に進む。接尾辞にハイフンが付いていない場合
は、S103の処理に進む。
【0038】図6は本実施例の翻訳処理(4)の手順を
示すフローチャートである。また、図6は図4のS10
3の「接尾辞マッチング処理」を詳細に示したものであ
る。図6において、S401で、接尾辞テーブルポイン
タ変数nsに1がセットされ、次に、S402に進み、
マッチ接尾辞バッファ7gがクリアされる。S403
で、接尾辞テーブルのns番目のレコードの接尾辞との
マッチングが試みられてから、いずれかの経路を通って
S407に至り、nsが接尾辞テーブルの終端に達して
いなければ、S408でnsを1増加し、S403の処
理に至るという動作が繰り返し行われる。
【0039】単語“exportable”の場合、図12の接尾
辞テーブルを参照して、ID( レコード番号) が1の接
尾辞“able”とマッチするので、nsが1のときに、S
403からS404に進み、IDの1番目の接尾辞“ab
le”がマッチ接頭辞バッファ7gにセットされる。
【0040】S405で、入力語“exportable”が接尾
辞“able”のついた派生語であるとした場合の語基を、
IDの1番目の接尾辞“able”の「連結条件」欄を参照
して求め、その結果、“exportable”から接尾辞“abl
e”を単純に除去した“export”という文字列と、「連
結条件」に従って語基の末尾の“e ”が除去された可能
性があると見なして、末尾に“e ”を補った“exporte
”いう文字列とが、語基バッファ7hにセットされ
る。
【0041】S406で、接尾辞と語基とを関連づける
ため、マッチ接尾辞バッファ7gの1番目のレコードの
「語基ポインタ」欄に、語基バッファ7hのうち“expo
rt”および“exporte ”が格納されているレコードの番
号である“2”と“3”を格納する。この結果、マッチ
接尾辞バッファ7gは、図18に示すような記憶内容に
なる。そして、語基バッファ7hは、図19に示すよう
な記憶内容になる。
【0042】入力語“exportable”に対して、図12の
接尾辞テーブル中の接尾辞でマッチするものは上記の
“able”だけなので、図6の接尾辞マッチング処理は終
わり、図4の処理に戻り、S103からS104の処理
に進む。
【0043】図4の処理において、接頭辞・接尾辞それ
ぞれマッチング候補が存在するかが判定される。S10
4で、接頭辞が判定される。上記したように、S102
の処理結果、図17に示すように、マッチ接頭辞バッフ
ァに接頭辞“ex”が格納されたので、接頭辞は存在し、
S105の処理に進む。S105で、接尾辞が判定され
る。上記したように、S103の処理の結果、図18に
示すように、マッチ接尾辞バッファに接尾辞“able”が
格納されたので、接尾辞は存在し、S111に進む。
【0044】この時点で、入力単語に対しては、接頭辞
・接尾辞ともマッチするものが存在しており、そのどち
らを処理するかが以下の処理で決定される。S111
で、言語的特性に基づいた判定の一つとして、マッチ接
尾辞バッファ7gに格納されている接尾辞が動詞の規則
変化形と同じかどうかが、図16の規則変化形テーブル
を参照して判定される。この場合、接尾辞“able”は、
図16の規則変化形のいずれとも一致しないので、S1
11からS112の処理に進む。
【0045】S112で、言語的特性に基づいた判定の
一つとして、マッチした接頭辞とマッチした接尾辞の長
さの比較が行われる。ここで、接頭辞と接尾辞の長さが
同じか、接尾辞の方が長いと、S117に進み、接尾辞
処理が行われる。一方、接頭辞の方が長いと、S113
に進み、接頭辞処理が行われる。この場合、接頭辞“e
x”より接尾辞“able”の方が長いので、S117に進
む。
【0046】図8は本実施例の翻訳処理(6)の動作手
順を示すフローチャートである。また、図8は図4のS
107・S115・S117の「接尾辞処理」を詳細に
示したものである。図8において、S601で、マッチ
接尾辞バッファポインタ変数msに1がセットされる。
S602で、語基用辞書検索バッファ7iがクリアされ
る。S603で、マッチ接尾辞バッファの1番目の接尾
辞である“able”に対応する語基バッファの語基である
“export”と“exporte ”をそれぞれキーとして辞書検
索される。
【0047】この結果、図15のような辞書データのも
とでは、“export”では辞書検索が成功するが“export
e ”では辞書検索は失敗し、語基用辞書検索バッファ7
iには“export”の辞書検索結果が図20に示すように
格納される。“export”に関して辞書検索が成功したの
で、S605に進み、言語的特性に基づいた判定の一つ
として、検索した単語の品詞が調べられる。
【0048】この場合、検索された単語に否定詞も前置
詞も代名詞も存在しないので、語基用辞書検索バッファ
7iから消去されるデータはなく、S610に進む。そ
して、派生語“exportable”に対する派生語訳生成が行
われるが、この詳細な動作手順については実施例3で詳
述する。この結果、辞書検索バッファ7bには、入力語
“exportable”に対して、既知語“export”と接尾辞
“able”からなる派生語としての情報が、図21に示す
ように格納される。
【0049】本実施例のように、入力単語に対して、接
頭辞・接尾辞ともマッチするものが存在している場合
に、接辞の長さ等の言語的特性に基づいた判定を行った
結果、入力語“exportable”を、接頭辞“ex”と既知語
“portable”からなると見なすような不適切な判定を防
止することができる。
【0050】ここでは、ソース言語の特質を考慮して適
切な接辞を選ぶ例(その2)として、動詞の規則変化形
等に関して、単語“uncleared ”の派生語処理を行う。
図4において、S101で、語基バッファ7hがクリア
される。S102で、接頭辞マッチング処理、S103
で、接尾辞マッチング処理が行われる。各マッチング処
理の詳細な動作は、単語“exportable”の場合と同様で
あるのでここでは割愛する。
【0051】この結果、図22に示すように、マッチ接
頭辞バッファ7fには接頭辞“un”が格納されており、
図23に示すように、マッチ接尾辞バッファ7gには接
尾辞“ed”が格納されている。そして図24に示すよう
に、語基バッファ7hには接頭辞“un”に対応する語基
“cleared ”と、接尾辞“ed”に対応する語基“unclea
r ”とが格納されている。
【0052】このように、入力単語“uncleared ”に対
しては、接頭辞・接尾辞ともマッチするものが存在して
いるので、単語“exportable”の場合と同様に、S10
3→S104→S105→S111の処理に進む。
【0053】S111で、言語的特性に基づいた判定の
一つとして、マッチ接尾辞バッファ7gに格納されてい
る接尾辞が動詞の規則変化形と同じかどうかが、図16
の規則変化形テーブルを参照して判定される。このよう
な判定を行うのは、動詞の規則変化形と同じ末尾に付い
た単語が、接尾辞つき単語としてでなく、動詞の変化形
として処理できるなら、その方が一般に望ましい場合が
多いからである。 この場合、接尾辞“ed”は、図16
に示す動作の規則変化形の1つと一致するので、S11
1からS113の処理に進み、接頭辞処理が行われる。
【0054】図7は本実施例の翻訳処理(5)の手順を
示すフローチャートである。また、図7は図4のS10
9・S113・S119の「接頭辞処理」を詳細に示し
たものである。図7において、S501で、マッチ接尾
辞バッファポインタ変数mpに1がセットされる。S5
02で、語基用辞書検索バッファ7iがクリアされる。
S503で、マッチ接尾辞バッファの1番目の接尾辞で
ある“un”に対応する語基バッファの語基である“clea
red ”をキーとして辞書検索される。
【0055】この結果、図15のような単語辞書テーブ
ルの単語データでは、“clear ”の過去形または過去分
詞形として辞書検索が成功し、語基用辞書検索バッファ
7iには“cleared ”の辞書検索結果が図25に示すよ
うに格納される。“cleared ”に関して辞書検索が成功
したのでS505に進み、検索された単語の品詞が調べ
られる。この場合、検索された単語に否定詞も前置詞も
代名詞も存在しないので、語基用辞書検索バッファから
消去されるデータはなく、S510に進む。そして、派
生語“uncleared ”に対する派生語訳生成が行われる。
この結果、辞書検索バッファ7bには、入力語“unclea
red ”に対して、接頭辞“un”と既知語“cleared ”と
からなる派生語としての情報が、図26に示すように格
納される。
【0056】以上のように、入力単語に対して、接頭辞
・接尾辞ともマッチするものが存在している場合に、も
し接辞の長さだけで判定した場合は、入力語“uncleare
d ”を既知語“unclear ”と接尾辞“ed”からなると見
なし、その結果訳語が、例えば「はっきりしなくされ
た」のような訳になるところを、本実施例のように、接
辞の長さによる判定に動詞の規則変化形を加えた接辞を
優先する等の言語的特性に基づいた判定を行った結果、
不適切な判定を防止することができる。
【0057】なお、ソース言語の特質の考慮として、上
記実施例では「接辞の長さ」、「動詞の規則変化形」を
利用したが、本発明により利用できるソース言語の特質
はこれらに限られるものではない。
【0058】上記のように、本実施例による派生語処理
部は、入力単語に対して接頭辞・接尾辞ともマッチする
ものが存在している場合に、言語的特性に基づいて適切
な接辞を選択する機能を有しているが、このように選択
された接辞が必ずしも正しくない場合があるので、その
場合の動作について説明する。
【0059】次に、処理失敗後のバックアップ処理によ
り成功する例について説明する。ここでは、単語“nonr
adioactive”の派生語処理を説明する。図4において、
S101で、語基バッファ7hがクリアされる。S10
2で、接頭辞マッチング処理が行われる。S103で、
接尾辞マッチング処理が行われる。各マッチング処理の
詳細な動作は、前記の単語“exportable”の場合と同様
であるのでここでは割愛する。
【0060】この結果、図27に示すように、マッチ接
頭辞バッファ7fには接頭辞“non”が格納されてお
り、図28に示すように、マッチ接尾辞バッファ7gに
は接尾辞“ive ”が格納されている。そして、図29に
示すように、語基バッファには接頭辞“non ”に対応す
る語基“radioactive ”と、接尾辞“ive ”に対応する
語基“nonradioact ”とが格納されている。このよう
に、入力単語“nonradioactive”に対しては、接頭辞・
接尾辞ともマッチするものが存在しているので、単語
“exportable”の場合と同様に、図4のS103→S1
04→S105→S111の処理に進む。
【0061】S111で、マッチ接尾辞バッファ7gに
格納されている接尾辞が動詞の規則変化形と同じかどう
かが判定される。この場合、接尾辞“ive ”は図16の
規則変化形のいずれとも一致しないので、S111から
S112に進む。S112で、マッチした接頭辞とマッ
チした接尾辞の長さの比較が行われる。この場合、接頭
辞“non ”と接尾辞“ive ”の長さが同じなので、S1
17の処理に進む。
【0062】図8の処理に移り、S601で、マッチ接
尾辞バッファのポインタ変数msに1がセットされ、S
602で、語基用辞書検索バッファ7iがクリアされ
る。次に、S603に進み、マッチ接尾辞バッファの1
番目の接尾辞である“ive”に対応する語基バッファの
語基である“nonradioact ”をキーとして辞書検索され
る。
【0063】この結果、図15のような単語辞書テーブ
ルの単語データのもとでは、“nonradioact ”では、図
30のように未知語しか存在せず、辞書検索が失敗する
ので、S608に進むが、図28に示すように、マッチ
接尾辞バッファ7gの2番目のレコードは空であるの
で、接尾辞処理は失敗に終わる。接尾辞処理が失敗した
ので、図4の処理に戻り、S117→S118→S11
9の処理に進み、今度は接頭辞処理が行われる。
【0064】図7の処理に移り、S501で、マッチ接
頭辞バッファのポインタ変数mpに1がセットされ、S
502で、語基用辞書検索バッファ7iがクリアされ
る。S503に進み、マッチ接頭辞バッファの1番目の
接尾辞である“non ”に対応する語基バッファの語基で
ある“radioactive ”をキーとして辞書検索される。こ
の結果、図15のような単語辞書テーブルの辞書データ
のもとでは、辞書検索が成功し、語基用辞書検索バッフ
ァ7iには“radioactive ”の辞書検索結果が、図31
に示すように格納される。
【0065】単語“radioactive ”に関して辞書検索が
成功したので、S505に進み、検索された単語の品詞
が調べられる。この場合、検索された単語に否定詞も前
置詞も代名詞も存在しないので、語基用辞書検索バッフ
ァから消去されるデータはなく、S510に進み、派生
語“nonradioactive”に対する派生語訳生成が行われ
る。
【0066】この結果、辞書検索バッファ7bには、入
力語“nonradioactive”に対して、接頭辞“non ”と既
知語“radioactive ”とからなる派生語としての情報
が、図32に示すように格納される。以上のように、本
実施例の派生語処理部では、最初に選択した接辞が誤っ
ていた場合でも、適切な回復処理を行うことができる。
【0067】実施例1によれば、原文中の未知語を形態
素解析する際に、ソース言語の言語的特性情報に基づい
て接辞を決定するよう構成したことにより、原文中の未
知語に対して接辞と語基の組み合わせが複数通り存在す
る場合でも、その中から最適である可能性が高い接辞と
語基の組み合わせを選択し、原文の解析がより正確に行
えるという利点がある。
【0068】[実施例2]実施例2として、単語“note
r ”の派生語処理を例にとり、本発明の特徴を説明す
る。図4において、S101で、語基バッファ7hがク
リアされる。S102で、接頭辞マッチング処理が行わ
れる。次に、図5の処理に移り、S301で、接頭辞テ
ーブルのポインタ変数npに1がセットされ、S302
で、マッチ接頭辞バッファ7fがクリアされる。以下、
前記したように、npを1ずつ増加しながら動作が繰り
返し行われる。
【0069】単語“noter ”の場合、図11に示す接頭
辞テーブルを参照して、マッチする接頭辞が存在しな
い。よって、マッチ接頭辞バッファ7fには情報がセッ
トされずに、npが接頭辞テーブルの終端に達した際
に、図5の接頭辞マッチング処理は終わり、図4の処理
に戻り、S102からS103に進み、接尾辞マッチン
グ処理が行われる。
【0070】図6の処理に移り、S401で、接尾辞テ
ーブルのポインタ変数nsに1がセットされ、S502
でマッチ接尾辞バッファ7gがクリアされる。以下、前
記したように、nsを1ずつ増加しながら動作が繰り返
し行われる。単語“noter ”の場合、図12に示す接尾
辞テーブルを参照して、ID(レコード番号)が4の接
尾辞“er”とマッチするので、nsが4のときに、S4
03からS404に進み、図12の4番目の接尾辞“e
r”がマッチ接頭辞バッファ7gにセットされる。
【0071】S405で、入力語“noter ”が接尾辞
“er”のついた派生語であるとした場合の語基を、図1
2の4番目の接尾辞“er”の「連結条件」欄を参照して
求め、その結果、“noter ”から接尾辞“er”を単純に
除去した“not ”という文字列と、「連結条件」に従っ
て語基の末尾の“e ”が除去された可能性があると見な
して、末尾に“e ”を補った“note”いう文字列とが、
語基バッファ7hにセットされる。
【0072】S406で、接尾辞と語基とを関連づける
ため、マッチ接尾辞バッファ7gの1番目のレコードの
「語基ポインタ」欄に、語基バッファ7hのうち“not
”および“note”が格納されているレコードの番号で
ある“1”と“2”を格納する。この結果、マッチ接尾
辞バッファ7gは、図33に示すような記憶内容にな
る。そして語基バッファ7hは、図34に示すような記
憶内容になる。
【0073】入力語“noter ”に対して図12の接尾辞
テーブル中の接尾辞でマッチするものは上記の“er”だ
けなので、図6の接尾辞マッチング処理は終わり、図4
に戻り、S103からS104の処理に進む。次に、接
頭辞・接尾辞それぞれマッチング候補が存在するかが判
定される。この場合、入力単語“noter ”に対しては、
マッチする接頭辞は存在せず、マッチする接尾辞のみ存
在するので、図4のS103→S104→S106→S
107の処理に進む。
【0074】図8の処理に移り、S601で、マッチ接
尾辞バッファのポインタ変数msに1がセットされ、6
02で、語基用辞書検索バッファ7iがクリアされる。
S603に進み、マッチ接尾辞バッファの1番目の接尾
辞である“er”に対応する語基バッファの語基である
“not ”と“note”をそれぞれキーとして辞書検索され
る。この結果、図15のような単語辞書テーブルの辞書
データのもとでは“not ”、“note”共に辞書検索が成
功し、語基用辞書検索バッファ7iに“not ”と“not
e”の辞書検索結果が図35に示すように格納される。
【0075】辞書検索が成功したので、S605に進
み、言語的特性に基づいた判定の一つとして、索いた単
語の品詞が調べられる。この場合、“not ”は品詞が否
定詞なので、S606に進み、“not ”に関する情報が
語基用辞書検索バッファから消去され、その結果、図3
6に示すように、語基用辞書検索バッファ7iは“not
e”に関する情報のみが残る。そして、S607に進
み、語基用辞書検索バッファ7iには情報が残っている
ので、S610に進み、派生語“noter ”に対する派生
語訳生成が行われる。
【0076】この結果、辞書検索バッファ7bには、入
力語“noter ”に対して、既知語“note”と接尾辞“e
r”とからなる派生語としての情報が、図37に示すよ
うに格納される。以上のように、入力単語に対して、同
一の接辞にマッチする語基が複数存在している場合に、
本実施例のように、品詞等の言語的特性に基づいた判定
を行った結果、入力語“noter ”を、既知語“not ”と
接尾辞“er”からなると見なすような不適切な判定を防
止することができる。
【0077】実施例2によれば、原文中の未知語を形態
素解析する際に、ソース言語の言語的特性情報に基づい
て語基を決定するように構成したことにより、原文中の
未知語に対して接辞が一意に定まっているが、これに連
結し得る語基が複数通り存在する場合でも、その中から
最適である可能性が高い語基を選択し、原文の解析がよ
り正確に行えるという利点がある。
【0078】[実施例3]実施例3として、接頭辞処理
について“nonradioactive”、“nonremunerative ”と
いう2個の英単語、接尾辞処理について“amiableness
”、“abidingness ”という2個の英単語の派生語訳
生成処理を例にとり、本発明の特徴を説明する。
【0079】[接頭辞処理]ここでは、単語“nonradio
active”の派生語訳生成処理を説明する。この単語につ
いては、前記したように、図4において、S101→S
102→S103→S104→S105→S111→S
112→S117→S118→S119の処理へと進
み、接頭辞“non ”と既知語“radioactive ”からなる
派生語としての処理が行われる。次に、図7の処理に移
り、S501→S502→S503→S504→S50
5→S510の処理へと進んで、接頭辞つき派生語訳語
生成処理に移る。このとき、語基用辞書検索バッファ7
iは、図31のような記憶内容になる。
【0080】 図9は本実施例の翻訳処理(7)の手順
を示すフローチャートである。また、図9は図7のS5
10の「接頭辞つき派生語訳生成」を詳細に示したもの
である。図9において、S701で、現在選ばれている
接頭辞に関して接頭辞テーブルの「処理パターンテーブ
ル」欄に値があるか否かがチェックされる。この場合、
選ばれている接頭辞が“non ”で、図11の接頭辞テー
ブルの“non ”の処理パターンテーブル欄には“101 ”
という値が存在しているので、S702に進む。
【0081】S702で、接頭辞処理パターンテーブル
のポインタ変数ppに1がセットされる。この時点で、
接頭辞処理パターンテーブルとして、図13に示す接頭
辞処理パターン101のものが選ばれる。S703で、
接頭辞処理パターンテーブル101のpp番目のレコー
ドの「条件」が語基用辞書検索バッファ7iの訳語欄の
訳語「放射性の」と合致するかどうかの調査が試みら
れ、合致しなければ、S703→S704→S705→
S703の処理へと進み、これが合致するか、あるいは
ppが接頭辞処理パターンテーブル101のレコード数
に達するまで、ppを1ずつ増加しながら調査が繰り返
して行われる。
【0082】訳語「放射性の」の場合、図13の接頭辞
処理パターンテーブル101を参照して、ID(レコー
ド番号)が1の条件「名詞+“の”」とマッチするの
で、ppが1の時に、S703からS704に進み、図
13のID1の処理「“非”+語基の訳語」という操作
を、文字列「放射性の」に施し、その結果として生成さ
れた文字列「非放射性の」が、辞書検索バッファ7bの
訳語欄に、図32のように格納される。
【0083】次に、単語“nonremunerative ”の派生語
訳生成処理を説明する。この単語については、図11の
接頭辞テーブルや図12の接尾辞テーブルを参照した結
果、図4において、S101→S102→S103→S
104→S105→S111→S112→S117→S
118→S119の処理へと進み、接頭辞“non ”と既
知語“remunerative”からなる派生語としての処理が行
われる。次に、図7の処理に移り、S501→S502
→S503→S504→S505→S510の処理へと
進んで、接頭辞つき派生語訳生成処理に入る。このと
き、語基用辞書検索バッファ7iは図38のような記憶
内容になる。
【0084】図9の処理に移り、この場合、選ばれてい
る接頭辞が前記同様“non ”であるので、S701から
S702→S703の処理に進み、接頭辞処理パターン
テーブルとして、図13に示す接頭辞処理パターン10
1が選ばれ、語基用辞書検索バッファ7iの訳語欄の訳
語「利益がある」が接頭辞処理パターンテーブル101
のいずれのレコード順と合致するか調査していく、S7
03からの繰り返し動作に移る。
【0085】訳語「利益がある」の場合、図13の接頭
辞処理パターンテーブルを参照して、ID(レコード番
号)が5の条件「格助詞+“ある”」とマッチするの
で、ppが5のときに、S703からS704の処理に
進み、図13のID1の処理「“ある”を“ない”に置
換」という操作を、文字列「利益がある」に施し、その
結果として生成された文字列「利益がない」が、辞書検
索バッファ7bの訳語欄に、図39のように格納され
る。
【0086】以上のように、同じ接頭辞“non ”のつい
た派生語であっても、語基の訳語によって接頭辞部分を
訳し分けることにより、より自然な訳語を得ることがで
きる。
【0087】[接尾辞処理]単語“amiableness ”の派
生語訳生成処理を説明する。この単語については、図1
1の接頭辞テーブルや図12の接尾辞テーブルを参照し
た結果、図4において、S101→S102→S103
→S104→S106→S109の処理へと進み、既知
語“amiable ”と接尾辞“ness”からなる派生語として
の処理が行われる。次に、図8の処理に移り、S601
→S602→S603→S604→S605→S610
の処理へと進んで、接尾辞つき派生語訳語生成処理に移
る。このとき、語基用辞書検索バッファ7iは、図40
のような記憶内容になる。
【0088】図10は本実施例の翻訳処理(8)の手順
を示すフローチャートである。また、図10は図8のS
610の「接尾辞つき派生語訳生成」、「接頭辞つき派
生語訳生成」を詳細に示したものである。図10におい
て、S801で、現在選ばれている接尾辞に関して接尾
辞テーブルの「処理パターンテーブル」欄に値があるか
がチェックされる。この場合、選ばれている接頭辞が
“ness”で、図12の接尾辞テーブルの“ness”の処理
パターンテーブル欄には“203 ”という値が存在してい
るので、S802に進む。
【0089】S802で、接尾辞処理パターンテーブル
のポインタ変数psに1がセットされる。この時点で、
接尾辞処理パターンテーブルとして、図14に示す接尾
辞処理パターンテーブル203が選ばれる。S803
で、接尾辞処理パターンテーブル203のps番目のレ
コードの「条件」が語基用辞書検索バッファ7iの訳語
欄の訳語「感じがよい」と合致するかどうかの調査が試
みられ、合致しなければ、S803→S804→S80
5→S803の処理に進み、これが合致するか、あるい
はpsが接尾辞処理パターンテーブル203のレコード
数に達するまで、psを1ずつ増加しながら調査が繰り
返して行われる。
【0090】訳語「感じがよい」の場合、図14の処理
パターンテーブルを参照して、ID(レコード番号)が
1の条件「“{が|の}”+ 形容詞( “ない”以外) 」
とマッチするので、psが1の時に、S803からS8
04の処理に進み、図14のID1の処理「“の”+形
容詞の語幹+“さ”」という操作を、文字列「感じがよ
い」に施し、その結果として生成された文字列「感じの
よさ」が、辞書検索バッファ7bの訳語欄に、図41の
ように格納される。
【0091】次に、単語“nonremunerative ”の派生語
訳語生成処理を説明する。この単語については、図11
の接頭辞テーブルや図12の接尾辞テーブルを参照した
結果、図4において、S101→S102→S103→
S104→S106→S109の処理へと進み、既知語
“abiding ”と接尾辞“ness”からなる派生語としての
処理が行われる。次に、図8の処理に移り、S601→
S602→S603→S604→S605→S610の
処理へと進んで、接尾辞つき派生語訳語生成処理に移
る。このとき、語基用辞書検索バッファ7iは図42の
ような記憶内容になる。
【0092】図10の処理に移り、この場合、選ばれて
いる接尾辞が前記同様“ness”であるので、S801か
らS802→S803の処理に進み、接尾辞処理パター
ンテーブルとして、図14に示す接尾辞処理パターンテ
ーブル203が選ばれ、語基用辞書検索バッファ7iの
訳語欄の訳語「永続的な」が、接尾辞処理パターンテー
ブル203のいずれのレコード順と合致するか調査して
いく、S803からの繰り返し動作に移る。
【0093】訳語「永続的な」の場合、図14に示す接
尾辞処理パターンテーブルを参照して、ID(レコード
番号)が3の条件「“{的な|的}”」とマッチするの
で、psが3のときに、S803からS804の処理に
進み、図14のID3の処理「“{的な|的}”を
“性”に置換」という操作を、文字列「永続的な」に施
し、その結果として生成された文字列「永続性」が、辞
書検索バッファ7bの訳語欄に、図43のように格納さ
れる。
【0094】以上のように、同じ接尾辞“ness”のつい
た派生語であっても、語基の訳語によって接尾辞部分の
訳し方を訳し分けることにより、より自然な訳語を得る
ことができる。
【0095】実施例3によれば、派生語として処理され
た原文中の未知語の訳語を生成する際に、語基の訳語に
よって接辞部分を訳し分ける派生語訳生成部を構成した
ことにより、語基の訳語と接辞の訳語を単純に連接した
形の訳語以外の訳語を生成することが可能となり、ター
ゲット言語としてより自然な訳文を生成することができ
るという利点がある。
【0096】
【発明の効果】本発明によれば、原文中の未知語を形態
素解析する際に、ソース言語の言語的特性情報に基づい
て接辞を決定するよう構成したことにより、原文中の未
知語に対して接辞と語基の組み合わせが複数通り存在す
る場合でも、その中から最適である可能性が高い接辞と
語基の組み合わせを選択し、原文の解析がより正確に行
えるという利点がある。
【図面の簡単な説明】
【図1】本発明の一実施例である翻訳装置の構成を示す
ブロック図である。
【図2】本実施例の翻訳装置による各翻訳処理の手順を
示すブロック図である。
【図3】本実施例の翻訳処理(1)の手順を示すフロー
チャートである。
【図4】本実施例の翻訳処理(2)の手順を示すフロー
チャートである。
【図5】本実施例の翻訳処理(3)の手順を示すフロー
チャートである。
【図6】本実施例の翻訳処理(4)の手順を示すフロー
チャートである。
【図7】本実施例の翻訳処理(5)の手順を示すフロー
チャートである。
【図8】本実施例の翻訳処理(6)の手順を示すフロー
チャートである。
【図9】本実施例の翻訳処理(7)の手順を示すフロー
チャートである。
【図10】本実施例の翻訳処理(8)の手順を示すフロ
ーチャートである。
【図11】本実施例の接頭辞テーブルの記憶内容を示す
図である。
【図12】本実施例の接尾辞テーブルの記憶内容を示す
図である。
【図13】本実施例の接頭辞処理パターンテーブルを示
す図である。
【図14】本実施例の接尾辞処理パターンテーブルを示
す図である。
【図15】本実施例の単語辞書テーブルの記憶内容を示
す図である。
【図16】本実施例の動詞規則変化形テーブルの記憶内
容を示す図である。
【図17】本実施例のマッチ接頭辞バッファの記憶内容
(1)を示す図である。
【図18】本実施例のマッチ接尾辞バッファの記憶内容
(1)を示す図である。
【図19】本実施例の語基バッファの記憶内容(1)を
示す図である。
【図20】本実施例の語基用辞書検索バッファの記憶内
容(1)を示す図である。
【図21】本実施例の辞書検索バッファの記憶内容
(1)を示す図である。
【図22】本実施例のマッチ接頭辞バッファの記憶内容
(2)を示す図である。
【図23】本実施例のマッチ接尾辞バッファの記憶内容
(2)を示す図である。
【図24】本実施例の語基バッファの記憶内容(2)を
示す図である。
【図25】本実施例の語基用辞書検索バッファの記憶内
容(2)を示す図である。
【図26】本実施例の辞書検索バッファの記憶内容
(2)を示す図である。
【図27】本実施例のマッチ接頭辞バッファの記憶内容
(3)を示す図である。
【図28】本実施例のマッチ接尾辞バッファの記憶内容
(3)を示す図である。
【図29】本実施例の語基バッファの記憶内容(3)を
示す図である。
【図30】本実施例の語基用辞書検索バッファの記憶内
容(3)を示す図である。
【図31】本実施例の辞書検索バッファの記憶内容
(3)を示す図である。
【図32】本実施例の辞書検索バッファの記憶内容
(4)を示す図である。
【図33】本実施例のマッチ接尾辞バッファの記憶内容
(4)を示す図である。
【図34】本実施例の語基バッファの記憶内容(4)を
示す図である。
【図35】本実施例の語基用辞書検索バッファの記憶内
容(4)を示す図である。
【図36】本実施例の語基用辞書検索バッファの記憶内
容(5)を示す図である。
【図37】本実施例の辞書検索バッファの記憶内容
(5)を示す図である。
【図38】本実施例の語基用辞書検索バッファの記憶内
容(6)を示す図である。
【図39】本実施例の辞書検索バッファの記憶内容
(6)を示す図である。
【図40】本実施例の語基用辞書検索バッファの記憶内
容(7)を示す図である。
【図41】本実施例の辞書検索バッファの記憶内容
(7)を示す図である。
【図42】本実施例の語基用辞書検索バッファの記憶内
容(8)を示す図である。
【図43】本実施例の辞書検索バッファの記憶内容
(8)を示す図である。
【符号の説明】
1 制御部 2 入力部 3 出力部 4 バスライン 5 プログラムメモリ 5a 形態素解析部 5b 構文解析部 5c 構文変換部 5d ターゲット言語生成部 5e 派生語処理部 5f 接辞決定部 5g 語基決定部 5h 派生語訳生成部 6 テーブルメモリ 6a 単語辞書テーブル 6b 文法規則テーブル 6c 翻訳規則テーブル 6d 動詞規則変化形テーブル 6e 接辞テーブル(接頭辞テーブル、接尾辞テーブ
ル、接頭辞処理パターンテーブル、接尾辞処理パターン
テーブル、) 7 バッファメモリ 7a 原文バッファ 7b 辞書検索バッファ 7c 変換前構文バッファ 7d 変換後構文バッファ 7e 訳文バッファ 7f マッチ接頭辞バッファ 7g マッチ接尾辞バッファ 7h 語基バッファ 7i 語基用辞書検索バッファ

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】 単語辞書と、接辞辞書と、第1言語であ
    る原語を入力する入力部と、単語辞書を参照し、入力原
    語を第2言語である訳語に変換する変換部と、単語辞書
    及び接辞辞書を参照し、変換部によって訳語に変換され
    ない入力原語から接辞と語基とからなる派生語を認識す
    る認識部と、認識された派生語の接辞に対応した訳語と
    語基に対応した訳語を連結して一つの派生語の訳語を生
    成する派生語訳生成部と、認識部により複数の接辞が含
    まれる派生語が認識された際、言語的特性情報から付与
    された接辞処理条件に基づいて一つの接辞を決定する接
    辞決定部とを備え、前記派生語訳生成部は、接辞決定部
    によって決定された接辞とこれに対応する語基とからな
    る派生語の訳語を生成することを特徴とする翻訳装置。
  2. 【請求項2】 前記認識部が一つの接辞に対して複数の
    語基がある派生語を認識した際、言語的特性情報から付
    与された動詞の変化形情報に基づいて一つの語基を決定
    する語基決定部をさらに備え、前記派生語訳生成部は、
    語基決定部によって決定された語基とこれに対応する接
    辞とからなる派生語の訳語を生成することを特徴とする
    請求項1記載の翻訳装置。
  3. 【請求項3】 前記接辞辞書は、語基の品詞とその活用
    形に対応して接辞の訳語を変更するための接辞訳変更情
    報を記憶した接辞訳変更情報テーブルをさらに備え、前
    記派生語訳生成部は、接辞訳変更情報に基づいて語基の
    訳語に対応して接辞の訳語を変更することを特徴とする
    請求項1記載の翻訳装置。
  4. 【請求項4】 前記派生語訳生成部は、一度訳語を生成
    した派生語を既知語として処理することを特徴とする請
    求項1〜3のいずれか一つに記載の翻訳装置。
  5. 【請求項5】 前記接辞処理条件が、接辞の長さ情報で
    あることを特徴とする請求項1記載の翻訳装置。
  6. 【請求項6】 前記接辞処理条件が、語基の動詞の変化
    形情報であることを特徴とする請求項1記載の翻訳装
    置。
  7. 【請求項7】 前記接辞処理条件が、語基の品詞情報で
    あることを特徴とする請求項1記載の翻訳装置。
  8. 【請求項8】 前記接辞処理条件が、接辞と語基間のハ
    イフン情報であることを特徴とする請求項1記載の翻訳
    装置。
  9. 【請求項9】 単語辞書と接辞辞書とを備え、入力部を
    用いて、第1言語である原語を入力し、変換部を用い
    て、単語辞書を参照し、入力言語を第2言語である訳語
    に変換し、認識部を用いて、単語辞書及び接辞辞書を参
    照し、変換部によって訳語に変換されない入力原語から
    接辞と誤基とからなる派生語を認識し、派生語約生成部
    を用いて、認識された派生語の接辞に対応した訳語と語
    基に対応した訳語を連結して一つの派生語の訳語を生成
    し、認識部により複数の接辞が含まれる派生語が認識さ
    れた際、接辞決定部を用いて、言語的特性情報から付与
    された接辞処理条件に基づいて一つの接辞を決定し、派
    生語訳生成部が接辞決定部によって決定された接辞とこ
    れに対応する語基からなる派生語の訳語を生成すること
    を特徴とする翻訳方法。
  10. 【請求項10】 単語辞書と、接辞辞書と、第1言語で
    ある原語を入力する入力部とを備えた翻訳装置に用いら
    れ、コンピュータで読み取り可能な翻訳プログラムを記
    憶した媒体であって、前記コンピュータに、単語辞書を
    参照させ、入力原語を第2言語である訳語に変換させ、
    単語辞書及び接辞辞書を参照させ、訳語に変換されない
    入力原語から接辞と語基とからなる派生語を認識させ、
    認識された派生語の接辞に対応した訳語と語基に対応し
    た訳語を連結して一つの派生語の訳語を生成させ、複数
    の接辞が含まれる派生語が認識された際、言語的特性情
    報から付与された接辞処理条件に基づいて一つの接辞を
    決定させ、決定された接辞とこれに対応する語基からな
    る派生語の訳語を生成させることを特徴とする翻訳プロ
    グラムを記憶した記憶媒体。
JP06544599A 1999-03-11 1999-03-11 翻訳装置及び翻訳方法並びに翻訳プログラムを記録した記録媒体 Expired - Fee Related JP3539479B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP06544599A JP3539479B2 (ja) 1999-03-11 1999-03-11 翻訳装置及び翻訳方法並びに翻訳プログラムを記録した記録媒体
EP00105009A EP1037153A3 (en) 1999-03-11 2000-03-09 Method and device for language translation
US09/523,290 US6385569B1 (en) 1999-03-11 2000-03-10 Translator, translating method and recording medium having translating program recorded thereon

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP06544599A JP3539479B2 (ja) 1999-03-11 1999-03-11 翻訳装置及び翻訳方法並びに翻訳プログラムを記録した記録媒体

Publications (2)

Publication Number Publication Date
JP2000259635A true JP2000259635A (ja) 2000-09-22
JP3539479B2 JP3539479B2 (ja) 2004-07-07

Family

ID=13287353

Family Applications (1)

Application Number Title Priority Date Filing Date
JP06544599A Expired - Fee Related JP3539479B2 (ja) 1999-03-11 1999-03-11 翻訳装置及び翻訳方法並びに翻訳プログラムを記録した記録媒体

Country Status (3)

Country Link
US (1) US6385569B1 (ja)
EP (1) EP1037153A3 (ja)
JP (1) JP3539479B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012256353A (ja) * 2005-10-22 2012-12-27 Internatl Business Mach Corp <Ibm> ショートハンド・オン・キーボード・インタフェースにおいてテキスト入力を改善するためのシステム、コンピュータ・プログラムおよび方法(キーボード上のショートハンド・オン・キーボード・インタフェースにおけるテキスト入力の改良)
JP2014067179A (ja) * 2012-09-25 2014-04-17 Toshiba Corp 文書処理装置及び文書処理プログラム

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7107204B1 (en) * 2000-04-24 2006-09-12 Microsoft Corporation Computer-aided writing system and method with cross-language writing wizard
US7136808B2 (en) * 2000-10-20 2006-11-14 Microsoft Corporation Detection and correction of errors in german grammatical case
CN1618064B (zh) * 2002-01-29 2010-05-05 国际商业机器公司 翻译方法与计算机设备
ATE330287T1 (de) * 2002-04-12 2006-07-15 Targit As Verfahren zur verarbeitung von mehrsprachigen abfragen
US20050111651A1 (en) * 2003-11-21 2005-05-26 Armando Chavez Script translation
US7565348B1 (en) * 2005-03-24 2009-07-21 Palamida, Inc. Determining a document similarity metric
US7711719B1 (en) * 2005-03-24 2010-05-04 Palamida, Inc. Massive multi-pattern searching
CN113760821B (zh) * 2020-06-22 2024-07-16 北京京东乾石科技有限公司 一种文件转换的方法及装置

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60159970A (ja) * 1984-01-30 1985-08-21 Hitachi Ltd 情報蓄積検索方式
JP2688020B2 (ja) 1986-10-27 1997-12-08 株式会社リコー 派生語処理方式
US5225981A (en) * 1986-10-03 1993-07-06 Ricoh Company, Ltd. Language analyzer for morphemically and syntactically analyzing natural languages by using block analysis and composite morphemes
GB2199170A (en) * 1986-11-28 1988-06-29 Sharp Kk Translation apparatus
US4864503A (en) * 1987-02-05 1989-09-05 Toltran, Ltd. Method of using a created international language as an intermediate pathway in translation between two national languages
JPH01234975A (ja) * 1988-03-11 1989-09-20 Internatl Business Mach Corp <Ibm> 日本語文章分割装置
JPH01265359A (ja) * 1988-04-18 1989-10-23 Fujitsu Ltd 文章解析方式
JPH0344764A (ja) * 1989-07-12 1991-02-26 Sharp Corp 機械翻訳装置
US5559693A (en) * 1991-06-28 1996-09-24 Digital Equipment Corporation Method and apparatus for efficient morphological text analysis using a high-level language for compact specification of inflectional paradigms
JPH05165805A (ja) * 1991-12-12 1993-07-02 Matsushita Electric Ind Co Ltd かな漢字変換装置
JPH06295311A (ja) * 1993-04-08 1994-10-21 Ricoh Co Ltd 機械翻訳装置
JPH08329081A (ja) * 1995-05-30 1996-12-13 Toshiba Corp 機械翻訳方法及び機械翻訳装置
JP3161942B2 (ja) * 1995-06-14 2001-04-25 シャープ株式会社 訳振り機械翻訳装置
US5794177A (en) * 1995-07-19 1998-08-11 Inso Corporation Method and apparatus for morphological analysis and generation of natural language text
US5893133A (en) * 1995-08-16 1999-04-06 International Business Machines Corporation Keyboard for a system and method for processing Chinese language text
JP3136973B2 (ja) * 1995-11-27 2001-02-19 石倉 博 言語解析システムおよび方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012256353A (ja) * 2005-10-22 2012-12-27 Internatl Business Mach Corp <Ibm> ショートハンド・オン・キーボード・インタフェースにおいてテキスト入力を改善するためのシステム、コンピュータ・プログラムおよび方法(キーボード上のショートハンド・オン・キーボード・インタフェースにおけるテキスト入力の改良)
JP2014067179A (ja) * 2012-09-25 2014-04-17 Toshiba Corp 文書処理装置及び文書処理プログラム

Also Published As

Publication number Publication date
US6385569B1 (en) 2002-05-07
EP1037153A3 (en) 2002-03-27
JP3539479B2 (ja) 2004-07-07
EP1037153A2 (en) 2000-09-20

Similar Documents

Publication Publication Date Title
JP4404211B2 (ja) マルチリンガル翻訳メモリ、翻訳方法および翻訳プログラム
US7630880B2 (en) Japanese virtual dictionary
US20070021956A1 (en) Method and apparatus for generating ideographic representations of letter based names
US20030125928A1 (en) Method for retrieving similar sentence in translation aid system
US20050216253A1 (en) System and method for reverse transliteration using statistical alignment
JP2008276517A (ja) 訳文評価装置、訳文評価方法およびプログラム
JPH05314166A (ja) 電子化辞書および辞書検索装置
US7398210B2 (en) System and method for performing analysis on word variants
US8041556B2 (en) Chinese to english translation tool
JP3539479B2 (ja) 翻訳装置及び翻訳方法並びに翻訳プログラムを記録した記録媒体
Ganfure et al. Design and implementation of morphology based spell checker
Neme A lexicon of Arabic verbs constructed on the basis of Semitic taxonomy and using finite-state transducers
JP2007518164A (ja) 自動翻訳装置及びその自動翻訳装置を利用した自動翻訳方法並びにその自動翻訳装置が記録された記録媒体
JP4875040B2 (ja) 機械翻訳システム及び機械翻訳プログラム
Neme A fully inflected Arabic verb resource constructed from a lexicon of lemmas by using finite-state transducers
Purey et al. Language resources for Mongolian
JP2012053858A (ja) 機械翻訳装置及び機械翻訳プログラム
JP2003058536A (ja) 翻訳装置
Kitamura et al. Practical machine translation system allowing complex patterns
KR20020054244A (ko) 부분문틀을 이용한 장문 번역 장치 및 그 방법
JP3692711B2 (ja) 機械翻訳装置
Vadász et al. NORMO: An Automatic Normalization Tool for Middle Hungarian
Rachel et al. Vyakranly: Hindi Grammar & Spelling Errors Detection and Correction System
JP4262529B2 (ja) 全文検索装置、方法、プログラム及び記録媒体
JPH07200588A (ja) 翻訳装置

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040105

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20040212

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040309

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040316

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080402

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090402

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100402

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100402

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110402

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120402

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120402

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130402

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees