JP2000029878A - 翻訳知識学習方法および装置、機械翻訳方法および装置 - Google Patents

翻訳知識学習方法および装置、機械翻訳方法および装置

Info

Publication number
JP2000029878A
JP2000029878A JP10194044A JP19404498A JP2000029878A JP 2000029878 A JP2000029878 A JP 2000029878A JP 10194044 A JP10194044 A JP 10194044A JP 19404498 A JP19404498 A JP 19404498A JP 2000029878 A JP2000029878 A JP 2000029878A
Authority
JP
Japan
Prior art keywords
dictionary
document
translation
knowledge
morpheme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP10194044A
Other languages
English (en)
Other versions
JP3982726B2 (ja
Inventor
Mihoko Kitamura
美穂子 北村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP19404498A priority Critical patent/JP3982726B2/ja
Publication of JP2000029878A publication Critical patent/JP2000029878A/ja
Application granted granted Critical
Publication of JP3982726B2 publication Critical patent/JP3982726B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【課題】 ユーザが翻訳知識を管理し易く、かつ、翻訳
品質を向上させることのできる方法および装置を実現す
る。 【解決手段】 自然言語による原言語と目的言語からな
る対訳文書を入力する(ステップS1)。これにより、
対訳文書から、形態素とその出現回数、翻訳パターンと
その出現回数を抽出し、かつ、対訳文書の全体から予め
決められた文法規則によって得られる文書知識を抽出す
る(ステップS2)。次に、抽出した文書知識に基づ
き、翻訳処理に用いるための、予め設けられた形態素辞
書と翻訳辞書と文法規則に対して、情報を追加する(ス
テップS3)。次に、ステップS3で情報が追加された
形態素辞書と翻訳辞書と文法規則を用いて、原言語の文
書を目的言語の文書に翻訳する(ステップS4)。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、既存の対訳文書か
ら翻訳パターンや文書情報等の翻訳知識を学習する機能
を有する翻訳知識学習方法および装置とこの翻訳知識を
用いて翻訳処理を行う用例主導方式の機械翻訳方法およ
び装置に関するものである。
【0002】
【従来の技術】従来、既存の対訳文書を用いて翻訳パタ
ーンや文書情報等の翻訳知識を学習する方法としては、
例えば次のようなものがあった。
【0003】文献1:「特開平7−244665 機械
翻訳システム用辞書・ルール学習方法及び機械翻訳シス
テム用辞書・ルール学習装置」 文献2:「特開平7−85056 辞書作成支援方法」
【0004】上記二つの従来技術は、対訳文書から翻訳
知識を抽出し、それに基づいて翻訳する機械翻訳方法ま
たは装置である。翻訳パターン、文法規則がここでいう
翻訳知識に相当する。上記のような機械翻訳装置は一般
に用例主導型の機械翻訳装置と呼ばれる。この型の利点
は、予め与えられる対訳文書中の目的言語表現が機械翻
訳装置の翻訳結果に反映されることである。
【0005】文献1の技術は、予め学習対象となる対訳
文書を読み込んでおき、翻訳対象となる原言語入力文が
翻訳される度に、その翻訳結果と対訳文(理想訳文)と
比較し、翻訳結果と理想訳文の差異がもっとも小さい理
想訳文を用いて、辞書や文法規則を変更していくという
ものである。これは対訳文書読み込み時に学習処理を行
うのではなく、翻訳対象となる原文が入力される度に、
対訳文から最適な用例を選択して、その用例から辞書や
文法規則を学習するタイプの典型例である。
【0006】この方法の利点は、用例に特別な加工を施
さず、一文単位で翻訳処理に利用するため、一文全体の
情報を翻訳処理に利用することである。また、翻訳対象
となる原文が入力される時に、辞書や文法規則の追加、
修正が行われるため、無駄な辞書や文法規則が作成され
ずに済み、辞書や文法規則間での副作用も発生しにく
い。
【0007】一方、文献2の技術は、予め対訳文書から
翻訳パターンと呼ばれる原言語と目的言語の変換辞書を
自動的に作成する辞書学習装置の典型例である。このよ
うな装置は、対訳文書から翻訳パターンを抽出すること
によって、ユーザ辞書などに登録すべき辞書候補を抽出
すると共に、その登録候補のデータを編集する際に有用
である原文文書情報、訳文文書情報を抽出する。そし
て、この抽出結果を用いて翻訳することにより、対訳文
書中の表現が翻訳結果に反映する。
【0008】この方法の利点は、用例学習部と翻訳処理
部が個別に存在し、かつ、用例はユーザにとって理解し
やすい翻訳パターン形式であるため、ユーザは学習部に
よって作成された辞書を簡単に管理(追加、削除、変
更)できることである。更に、その辞書は学習対象とな
る対訳文書毎に管理することもできる。
【0009】
【発明が解決しようとする課題】しかしながら、上記の
二つの従来技術には、以下の課題が存在する。文献1の
技術は、一文入力する度に最適な用例の検索処理や辞
書、文法規則の追加、変更処理が発生するため、翻訳に
時間がかかる。更に、一文入力する毎に辞書や文法規則
が書き換えられてしまうため、たとえ学習効果による悪
影響を発見した場合でも、辞書や文法規則を元に戻すこ
とはできない。更に、ユーザは翻訳結果に対して予測が
できないため、ユーザによる辞書追加および修正による
訳出向上は困難である(実用的な機械翻訳装置では、機
械翻訳装置による自動学習とユーザ支援の協調が欠かせ
ない)。
【0010】また、対訳文書中に種類の異なった文書
(例えば、手紙文、マニュアル)などが混在すると、辞
書や文法に表現形式が全く異なった規則や辞書が混在す
るため、辞書や規則の見通しが悪くなり、副作用が発生
し易くなり訳質低下の要因となる。更に、文書全体を用
例として格納しているにもかかわらず、翻訳時には一文
の情報しか利用しない。
【0011】一方、文献2の技術では、翻訳処理での利
用の有無にかかわらず、かつ、機械翻訳装置がもつ辞書
とは無関係に、対訳文書から翻訳パターン辞書を作成す
る。そのため、ユーザは、翻訳対象となる入力文書に対
し、常にユーザ自ら適切な辞書を選択してから翻訳を行
う必要がある。仮に全ての辞書を用いて翻訳した場合で
も、辞書間での副作用が発生する要因となり、翻訳品質
の低下を伴う。
【0012】また、辞書自動作成の際、対訳文書全体を
参照しているのにもかかわらず、ある原言語の単語がど
の単語に対応するか、その単語に翻訳される時の条件は
何かという翻訳に関する局所的な知識は抽出しても、例
えば、その単語が対訳文書中に何回出現しているか、ま
た、対訳文書はどんな種類か、等の対訳文書全体に関す
る知識は抽出しない。
【0013】このような点から、ユーザが翻訳知識を管
理し易く、かつ、翻訳品質を向上させることのできる翻
訳知識学習方法および装置、機械翻訳方法および装置の
実現が望まれていた。
【0014】
【課題を解決するための手段】本発明は、前述の課題を
解決するため次の構成を採用する。 〈構成1〉自然言語による原言語と目的言語からなる対
訳文書のうちの少なくとも一方の言語の文書を入力する
対訳文書入力処理と、対訳文書入力処理で入力された文
書から、形態素と形態素の出現回数とを抽出すると共
に、入力された文書全体から予め決められた文法規則に
よって得られる文書知識を抽出する語彙知識学習処理
と、語彙知識学習処理で抽出した文書知識に基づき、翻
訳処理に用いるための予め設けられた形態素辞書と文法
規則に対して、情報を追加する文書環境学習処理とを備
えたことを特徴とする翻訳知識学習方法。
【0015】〈構成2〉自然言語による原言語と目的言
語からなる対訳文書を入力する対訳文書入力処理と、入
力された対訳文書から形態素とその出現回数およびその
翻訳パターンとその出現回数を抽出すると共に、入力さ
れた対訳文書の全体から予め決められた文法規則によっ
て得られる文書知識を抽出する語彙知識学習処理と、語
彙知識学習処理で抽出した文書知識に基づき、翻訳処理
に用いるための予め設けられた形態素辞書と翻訳辞書と
文法規則に対して、情報を追加する文書環境学習処理と
を備えたことを特徴とする翻訳知識学習方法。
【0016】〈構成3〉自然言語による原言語と目的言
語からなる対訳文書を入力する対訳文書入力処理と、入
力された対訳文書から形態素とその出現回数およびその
翻訳パターンとその出現回数を抽出すると共に、入力さ
れた対訳文書の全体から予め決められた文法規則によっ
て得られる文書知識を抽出する語彙知識学習処理と、語
彙知識学習処理で抽出した文書知識に基づき、翻訳処理
に用いるための予め設けられた形態素辞書と翻訳辞書と
文法規則に対して、情報を追加する文書環境学習処理
と、文書環境学習処理で情報が追加された形態素辞書と
翻訳辞書と文法規則を用いて、原言語の文書を目的言語
の文書に翻訳する翻訳処理とを備えたことを特徴とする
機械翻訳方法。
【0017】〈構成4〉自然言語による原言語と目的言
語からなる対訳文書を入力する対訳文書入力部と、原言
語から目的言語への翻訳処理で用いるための、予め設け
られた形態素解析情報と文法情報とを示す形態素辞書・
文法規則と、形態素辞書・文法規則を用いて、対訳文書
から形態素とその出現回数およびその翻訳パターンとそ
の出現回数を抽出し、これら抽出した知識を形態素頻度
辞書・翻訳パターン辞書として出力する語彙知識学習部
と、対訳文書別の形態素の出現回数と翻訳パターンとを
示す対訳文書別形態素頻度辞書・翻訳パターン辞書と、
対訳文書別形態素頻度辞書・翻訳パターン辞書の中か
ら、形態素頻度辞書・翻訳パターン辞書との形態素の出
現回数に基づいて最適辞書を選出し、この最適辞書と形
態素頻度辞書・翻訳パターン辞書とマージし、その結果
得られた形態素頻度知識を形態素辞書・文法規則に新た
に追加すると共に、形態素辞書・文法規則における文法
規則に基づいて対訳文書から抽出した文法知識を新たに
形態素辞書・文法規則に追加する文書環境学習部とを備
えたことを特徴とする翻訳知識学習装置。
【0018】〈構成5〉自然言語による原言語と目的言
語からなる対訳文書を入力する対訳文書入力部と、原言
語から目的言語への翻訳処理で用いるための、予め設け
られた形態素解析情報と文法情報とを示す形態素辞書・
文法規則と、形態素辞書・文法規則を用いて、対訳文書
から形態素とその出現回数およびその翻訳パターンとそ
の出現回数を抽出し、これら抽出した知識を形態素頻度
辞書・翻訳パターン辞書として出力する語彙知識学習部
と、対訳文書別の形態素の出現回数と翻訳パターンとを
示す対訳文書別形態素頻度辞書・翻訳パターン辞書と、
対訳文書別形態素頻度辞書・翻訳パターン辞書の中か
ら、形態素頻度辞書・翻訳パターン辞書との形態素の出
現回数に基づいて最適辞書を選出し、この最適辞書と形
態素頻度辞書・翻訳パターン辞書とマージし、その結果
得られた翻訳パターン知識を翻訳パターン学習辞書とし
て出力すると共に、その結果得られた形態素頻度知識を
形態素辞書・文法規則に新たに追加し、かつ、形態素辞
書・文法規則における文法規則に基づいて対訳文書から
抽出した文法知識を新たに形態素辞書・文法規則に追加
する文書環境学習部と、文書環境学習部によって形態頻
度知識と文法知識とが追加された形態素辞書と文法規則
と、翻訳パターン学習辞書を用いて原言語の文書を目的
言語の文書に翻訳する翻訳エンジン部とを備えたことを
特徴とする機械翻訳装置。
【0019】〈構成6〉自然言語による原言語と目的言
語からなる対訳文書を入力する対訳文書入力部と、原言
語から目的言語への翻訳処理で用いるための、予め設け
られた形態素解析情報と文法情報とを示す形態素辞書・
文法規則と、対訳文書別の形態素の出現回数と翻訳パタ
ーンとを示す対訳文書別形態素頻度辞書・翻訳パターン
辞書と、形態素辞書・文法規則を用いて、対訳文書から
形態素とその出現回数およびその翻訳パターンとその出
現回数を抽出し、これら抽出した知識を辞書情報として
対訳文書別形態素頻度辞書・翻訳パターン辞書に出力す
る語彙知識学習部と、対訳文書別形態素頻度辞書・翻訳
パターン辞書の中から、抽出した知識に基づいて最適辞
書を選出し、この最適辞書と抽出した知識とをマージ
し、その結果得られた形態素頻度知識と、形態素辞書・
文法規則における文法規則に基づいて対訳文書から抽出
した文法知識とを対訳文書別文書環境設定ファイルとし
て出力する文書環境学習部と、対訳文書別形態素頻度辞
書・翻訳パターン辞書と対訳文書別文書環境設定ファイ
ルとに基づき、形態素情報と文法情報とを作成し、これ
ら情報を形態素辞書・文法規則への追加情報として出力
する環境適応辞書構築部とを備えたことを特徴とする翻
訳知識学習装置。
【0020】〈構成7〉請求項6に記載の翻訳知識学習
装置において、対訳文書別形態素頻度辞書・翻訳パター
ン辞書と対訳文書別文書環境設定ファイルとを編集する
辞書/環境設定ファイル編集部を備えたことを特徴とす
る翻訳知識学習装置。
【0021】〈構成8〉自然言語による原言語と目的言
語からなる対訳文書を入力する対訳文書入力部と、原言
語から目的言語への翻訳処理で用いるための、予め設け
られた形態素解析情報と文法情報とを示す形態素辞書・
文法規則と、対訳文書別の形態素の出現回数と翻訳パタ
ーンとを示す対訳文書別形態素頻度辞書・翻訳パターン
辞書と、形態素辞書・文法規則を用いて、対訳文書から
形態素とその出現回数およびその翻訳パターンとその出
現回数を抽出し、これら抽出した知識を辞書情報として
対訳文書別形態素頻度辞書・翻訳パターン辞書に出力す
る語彙知識学習部と、対訳文書別形態素頻度辞書・翻訳
パターン辞書の中から、抽出した知識に基づいて最適辞
書を選出し、この最適辞書と抽出した知識とをマージ
し、その結果得られた形態素頻度知識と、形態素辞書・
文法規則における文法規則に基づいて対訳文書から抽出
した文法知識とを対訳文書別文書環境設定ファイルとし
て出力する文書環境学習部と、対訳文書別形態素頻度辞
書・翻訳パターン辞書と対訳文書別文書環境設定ファイ
ルとに基づき、形態素情報と文法情報とを作成し、これ
ら情報を形態素辞書・文法規則への追加情報として出力
すると共に、翻訳パターン知識を作成し、翻訳パターン
知識を翻訳パターン学習辞書として出力する環境適応辞
書構築部と、環境適応辞書構築部によって形態頻度知識
と文法知識とが追加された形態素辞書と文法規則と、翻
訳パターン学習辞書を用いて原言語の文書を目的言語の
文書に翻訳する翻訳エンジン部とを備えたことを特徴と
する機械翻訳装置。
【0022】〈構成9〉請求項8に記載の機械翻訳装置
において、対訳文書別形態素頻度辞書・翻訳パターン辞
書と対訳文書別文書環境設定ファイルと翻訳パターン学
習辞書とを編集する辞書/環境設定ファイル編集部を備
えたことを特徴とする機械翻訳装置。
【0023】
【発明の実施の形態】以下、本発明の実施の形態を図面
を用いて詳細に説明する。 《具体例1》 〈構成〉図1は本発明の機械翻訳方法の具体例1を示す
フローチャートであるが、この説明に先立ち、本発明の
具体例1による機械翻訳装置の構成を説明する。
【0024】図2は、本発明の具体例1による機械翻訳
装置の構成図である。本発明の機械翻訳装置はコンピュ
ータでその機能が実現され、本装置は大きく分けて、入
出力部1、学習エンジン部2、翻訳エンジン部3と、形
態素辞書・文法規則4、対訳文書別形態素頻度辞書・翻
訳パターン辞書5、翻訳パターン学習辞書6から構成さ
れている。
【0025】入出力部1は、コンピュータにおけるキー
ボードやディスプレイといった一般的な入出力装置や入
出力端子あるいはネットワーク等からなり、対訳文書入
力部11、原言語文入力部12、目的言語文出力部13
から構成されている。
【0026】対訳文書入力部11は、自然言語による原
言語と目的言語からなる対訳文書を入力する機能部であ
る。原言語文入力部12は、翻訳エンジン部3における
原言語文を入力するための機能部である。目的言語文出
力部13は、翻訳エンジン部3によって翻訳された目的
言語文を出力するための機能部である。
【0027】学習エンジン部2は、翻訳知識の学習を行
う機能部で、語彙知識学習部21、文書環境学習部2
2、形態素頻度辞書・翻訳パターン辞書23から構成さ
れている。
【0028】語彙知識学習部21は、形態素辞書・文法
規則4を参照して、対訳文書入力部11で入力された対
訳文書から形態素とその出現回数およびその翻訳パター
ンとその出現回数を抽出し、形態素頻度辞書・翻訳パタ
ーン辞書23を作成する機能を有している。
【0029】文書環境学習部22は、形態素頻度辞書・
翻訳パターン辞書23と、対訳文書別形態素頻度辞書・
翻訳パターン辞書5を参照して、翻訳パターン学習辞書
6を作成すると共に、形態素辞書・文法規則4に情報を
追加する機能を有している。即ち、文書環境学習部22
は、対訳文書別形態素頻度辞書・翻訳パターン辞書5の
中から、形態素頻度辞書・翻訳パターン辞書23との形
態素の出現回数に基づいて最適辞書を選出し、この最適
辞書と、形態素頻度辞書・翻訳パターン辞書23とマー
ジし、その結果得られた形態素頻度知識を形態素辞書・
文法規則4に新たに追加すると共に、形態素辞書・文法
規則4における文法規則に基づいて対訳文書から抽出し
た文法知識を新たに形態素辞書・文法規則4に追加する
機能を有している。
【0030】翻訳エンジン部3は、形態素辞書・文法規
則4と翻訳パターン学習辞書6とを参照して、原言語文
入力部12から入力された原言語文を翻訳し、目的言語
文出力部13に出力する機能を有している。
【0031】形態素辞書・文法規則4は、学習エンジン
部2と翻訳エンジン部3と共通で用いるデータベースで
あり、学習エンジン部2で得られた翻訳知識が追加さ
れ、この追加された情報を含めて翻訳エンジン部3が翻
訳を行うためのものである。
【0032】対訳文書別形態素頻度辞書・翻訳パターン
辞書5は学習対象となる対訳文書毎に、複数の形態素頻
度辞書・翻訳パターン辞書を格納するデータベースであ
る。
【0033】翻訳パターン学習辞書6は、文書環境学習
部22によって作成され、翻訳処理時に翻訳エンジン部
3が用いる辞書である。
【0034】尚、上記構成において、学習エンジン部2
における語彙知識学習部21および文書環境学習部22
と、翻訳エンジン部3は、この機能に対応したプログラ
ムとこれを実行するためのCPUやメモリ等によって、
その機能を実現している。また、上記の形態素頻度辞書
・翻訳パターン辞書23、形態素辞書・文法規則4、対
訳文書別形態素頻度辞書・翻訳パターン辞書5、翻訳パ
ターン学習辞書6は、主記憶装置上に一時的に作成され
るデータベース、あるいは補助記憶装置内に格納される
データベースである。
【0035】〈動作〉以下、図1のフローチャートを用
いて本具体例の動作を説明する。
【0036】本具体例の対訳文書とは、日本語と英語の
文対応が既についた文書とする。ユーザが、英語文書s
ystem.en、日本語文書system.jaから
なる対訳文書を入力し、英文“This command pushes mo
dules on and/or pops modules of the stream.”を翻
訳する場合を例に挙げて説明する。尚、system.
enの“system”は文書名を表し、また、sys
tem.enの“.en”は英語文書を、syste
m.jaの“.ja”は日本語文書を示す識別子であ
る。
【0037】図13は、system.enとsyst
em.jaの例を示す図である。図示のように、文の対
応を示すタグがen=1,2,…,sと、ja=1,
2,…,s(sは対訳文数)として記されているのがわ
かる。
【0038】先ず、ユーザが対訳文書入力部11より、
対訳文書system.en、system.jaを入
力する(ステップS1)と、対訳文書は学習エンジン部
2の語彙知識学習部21に渡される。
【0039】語彙知識学習部21では、翻訳パターン、
および、原言語文と目的言語文を構成する全形態素とそ
の出現回数を対訳文書から自動抽出し、その結果を形態
素頻度辞書・翻訳パターン辞書23に格納する。尚、本
処理は、例えば、発明者が先に提出した「特願平09−
215915:翻訳パターン抽出装置と方法および記録
媒体」を用いることにより実現される。
【0040】また、本具体例における形態素解析処理
は、形態素辞書・文法規則4を用いる。この理由は、学
習エンジン部2と翻訳エンジン部3の形態素単位のずれ
による翻訳品質低下を防止するためである。
【0041】図14は、本具体例における語彙知識学習
処理後の形態素頻度辞書23の例を示す図である。図1
5は、翻訳パターン辞書23の例を示す図である。
【0042】両図に示すように、フィールドセパレータ
をタブとして、第1フィールドには形態素(図14)ま
たは翻訳パターン(図15)が格納され、第2フィール
ドにはその出現回数が格納されている。尚、図15にお
いて、*NPは名詞句、*VPは動詞句を意味してい
る。
【0043】次に、文書環境学習部22では、この形態
素頻度辞書・翻訳パターン辞書23と対訳文書別形態素
頻度辞書・翻訳パターン辞書5から、翻訳パターン学習
辞書6の作成、および、形態素辞書・文法規則4への情
報追加を行う(ステップS3)。
【0044】図3は、文書環境学習部22の動作を説明
するフローチャートである。先ず、語彙知識学習部21
で作成された形態素頻度辞書・翻訳パターン辞書23と
類似する辞書を既存の対訳文書別形態素頻度辞書・翻訳
パターン辞書5から選択する処理である最適辞書選択処
理(ステップS31)を行う。
【0045】図4は、最適辞書選択処理の動作を説明す
るフローチャートである。先ず、形態素頻度辞書23
(英語、日本語どちらの形態素頻度辞書でもよい。また
その両方を用いても良い。本具体例では英語形態素頻度
辞書を用いる)から高頻度に出現する形態素上位n語を
抽出し、ワークテーブルWT1に格納する(ステップS
41)(nは1以上の自然数である。本具体例ではn=
50とする)。
【0046】次に、全ての対訳文書別形態素頻度辞書5
に対して処理が終了していなければ(ステップS4
2)、その中の形態素頻度辞書のうちの一つをワークテ
ーブルWT2に格納し(ステップS43)、ステップS
41の処理と同様に、高頻度に出現する形態素上位n語
を抽出し、ワークテーブルWT3に格納する(ステップ
S44)。
【0047】次に、WT1とWT3に格納されている形
態素で共通の形態素の数xを求め(ステップS45)、
xをnで割った値が閾値yより大きければ、その辞書を
最適辞書と認定し、ワークテーブルWT0にその辞書名
を格納する(ステップS46)。尚、yは0以上1以下
の数である。本具体例ではy=0.8とする。
【0048】ステップS42において、全ての対訳文書
別形態素頻度辞書5について、上記処理(ステップS4
3〜ステップS46)を繰り返したと判定した場合は、
本処理を終了し、学習辞書構築処理に進む(ステップS
32)。
【0049】図16は、最適辞書選択処理後の本具体例
におけるWT0の例を示す図である。本具体例では、
“os.dic、unix.dic、users_gu
ide.dic”という名前の辞書が、対訳文書sys
tem.en,system.jaから作成された辞書
と類似することを示している。
【0050】次に学習辞書構築処理に進む(ステップS
32)。図5および図6は、学習辞書構築処理の動作を
説明するフローチャートである。先ず、ワークテーブル
WT1〜5を初期化し(ステップS501)、英語形態
素頻度辞書23をWT1に、日本語形態素頻度辞書23
をWT2に、翻訳パターン辞書23をWT3に格納する
(ステップS502)。但し、各出現回数の値は、各辞
書に格納されている出現回数値に重み係数αをかけた値
とする。重み係数αは、既存辞書を1とした場合、今回
入力した文書による辞書をどれだけ優先するかの優位度
を示す数値であり、通常1以上の値が与えられる(本具
体例ではα=2とする)。
【0051】次に、WT0に格納されている全ての辞書
について処理が終了していなければ(ステップS50
3)、辞書名を一つWT0から取り出し、その辞書名の
対訳文書別英語形態素頻度辞書5をWT3に、日本語形
態素頻度辞書5をWT4に、翻訳パターン辞書5をWT
5に格納する(ステップS504)。
【0052】次に、WT3に格納されている全ての形態
素について処理が終了していなければ(ステップS50
5)、形態素とその出現回数値を一つ取り出す(ステッ
プS506)。取り出した形態素がWT1に登録されて
いれば(ステップS507)、WT1と、取り出した各
形態素の出現回数値を比較し、取り出した形態素の方が
大きければWT1の出現回数値を、取り出した形態素の
出現回数値に変更し、取り出した形態素の方が小さけれ
ば何もしない(ステップS508)。
【0053】一方、ステップS507において登録され
ていなければ、取り出した形態素とその出現回数値をW
Tlに登録する(ステップS509)。
【0054】全ての形態素に対してステップS506〜
ステップS509の処理を繰り返し行った後(ステップ
S505)、日本語形態素頻度辞書が格納されているW
T2とWT4(ステップS510〜ステップS51
4)、そして、翻訳パターン辞書が格納されたWT3と
WT5(ステップS601〜ステップS605)につい
ても同様の処理を行う。
【0055】ステップS601において、WT5の全て
の翻訳パターンに対して処理が終了すれば、ステップS
503に戻り、WT0に格納されている全ての辞書名に
対して同様の処理を繰り返し行った後(ステップS50
4〜S514およびステップS601〜S605)、次
の処理に進む。
【0056】次に、WT1に登録されている全ての形態
素とその出現回数値を英語形態素辞書に登録し(ステッ
プS606)、WT2に登録されている全ての形態素と
その出現回数値を日本語形態素辞書に登録する(ステッ
プS607)。
【0057】この時、形態素辞書にその形態素が存在す
れば、その出現回数値のフィールドにWT1またはWT
2の出現回数値を代入する。形態素が存在しない場合
は、その形態素に関する形態素辞書を新規に作成した
後、WT1またはWT2の出現回数値を代入する。
【0058】一方、WT1またはWT2に存在せず、形
態素辞書に存在する形態素の出現回数値には、デフォル
ト値dを与える(本具体例ではd=1とする)。
【0059】図17は、本具体例での学習辞書構築処理
前後の英語形態素辞書の例を示す図である。処理前は、
出現回数値(“,”をフィールドセパレータとする第3
フィールド)には“−”が登録されているが、処理後で
は、1以上の数値が登録されているのがわかる。
【0060】次に、WT3に登録されている全ての翻訳
パターンとその出現回数値を翻訳パターン学習辞書6に
登録する(ステップS608)。
【0061】図18は、本具体例での学習辞書構築処理
後の翻訳パターン学習辞書の例を示す図である。図示の
ように、“翻訳パターン,出現回数値”のフォーマット
で翻訳パターン学習辞書が作成されているのがわかる。
【0062】次に、文法情報抽出処理に進む(ステップ
S33)。図7は、文法情報抽出処理の動作を説明する
フローチャートである。先ず、ワークテーブルWT1〜
5を初期化し(ステップS71)、対訳文書入力部11
によって入力された日本語文書、英語文書を各言語の形
態素辞書・文法規則14を用いて形態素解析(ステップ
S72)、および構文解析を行う(ステップS73)。
【0063】次に、この形態素解析結果および構文解析
結果から日本語文末表現、受身傾向、疑問傾向、句読点
表現、接続詞訳(例:if、and、ofの訳)に関す
る情報を抽出する(ステップS74)。ここでの処理
は、以下のようになる。
【0064】例えば、日本語文末表現の情報抽出処理で
は、日本語文末表現候補として、予め「肯定ダ形:だ,
です,である,であります」、「肯定スル形:する,し
ます」、「否定ダ形:ではない,ではありません」、
「否定スル形:しない,しません」、「命令肯定形:し
なさい,して下さい,しましょう」、「命令否定形:し
ない,してはいけない,しないで下さい,してはいけま
せん」を持っている。
【0065】日本語形態素解析結果から用言性接尾辞を
全て抽出し、上記の候補から、出現回数の最も多い文末
表現(用言性接尾辞)をWT1に格納する。一方、受身
傾向、疑問傾向は、日本語構文解析結果から文全体に対
する受身形および疑問文の割合を計算し、閾値以上の値
であれば、その傾向が強いと判断し、WT1にその結果
を格納する。句読点表現は、対訳文書中に、“.,”ま
たは、“。、”のいずれが用いられているかを日本語形
態素結果から判断し、WT1にその結果を格納する。
【0066】接続詞訳は、英語形態素解析において対象
となる接続詞(例えば“if”)が存在する英文とその
対訳日本語文の形態素解析結果を抽出し、“if”に対
応する日本語訳を抽出し、WT1に格納する。例えば、
“if”を含む英語文に対応する日本語文に「もし〜な
らば」が含まれていれば、「もし〜ならば」を格納し、
「〜と」が含まれていれば、「〜と」を格納する。ま
た、複数存在する場合は、その全てを格納する。
【0067】図19は、本具体例における文法情報抽出
処理後のWT1の例を示す図である。ここではフィール
ドセパレータをタプとして、第1フィールドには属性
が、第2フィールドにはその属性値(抽出結果)が示さ
れている。例えば、日本語文末表現の肯定スル形(ko
ute_da)には、「します」が格納されているのが
わかる。尚、“passive_tendency h
igh”とは、受身傾向が強いことを表し、“inte
rrogative low”とは、疑問傾向が低いと
いったことを示している。
【0068】文法情報抽出処理を終了した後、WT1の
値を文法規則14に追加する(ステップS75)。文法
規則14では、WT1の値に応じて、以降の翻訳処理
(ステップS24)で適用される文法規則が変更される
ようになっている。
【0069】次に、語彙知識学習部21で自動作成され
た形態素頻度辞書・翻訳パターン辞書23を対訳文書フ
ァイル名の識別子“.en”,“.ja”を除いたもの
に“.dic”を付与したものを辞書名として、対訳文
書別形態素頻度辞書・翻訳パターン辞書5に格納する
(ステップS34)。本具体例の場合は、入力対訳文書
のファイル名は、system.en,system.
jaであるので、格納される辞書の名前はsyste
m.dicとなる。ここで文書環境学習処理(ステップ
S23)が終了する。
【0070】次に、翻訳処理に入る。図8は、翻訳処理
の動作を説明するフローチャートを示す。先ず、翻訳対
象の英文“This command pushes
modules on and/of pops mo
dules off the stream.”を原言
語文入力部12により入力する(ステップS81)。
【0071】翻訳エンジン部3は、入力文書を一文単位
に区切り(ステップS82)、一文毎に、形態素解析処
理(ステップS84)、構文・翻訳パターン解析処理
(ステップS85)、形態素生成処理(ステップS8
6)を行い、翻訳結果を目的言語文出力部13により出
力する(ステップS87)。そして、全ての原言語文に
対して処理したら(ステップS83)、翻訳処理を終了
する。
【0072】即ち、原言語文形態素解析処理(ステップ
S84)および目的言語文形態素生成処理(ステップS
86)では、学習エンジン部2により抽出された形態素
の出現回数の値(形態素辞書・文法規則4に格納されて
いる値)を参照し、一方、構文・翻訳パターン解析処理
(ステップS85)では、学習エンジン部2により抽出
された翻訳パターンおよび出現回数の値(翻訳パターン
学習辞書6の値)を参照して、対訳文書の表現が反映さ
れた翻訳結果を得る。
【0073】図20は、本具体例における原文入力画面
例と翻訳結果出力画面例を示す図である。図において、
(a)、(c)に示す。また、(b)にこの入力文にお
ける学習なしの翻訳結果出力画面例を示す。学習効果が
(b)、(c)の例から読み取れる。
【0074】〈効果〉以上のように、具体例1によれば
以下の効果を有する。 ●学習知識は、図18、図17に示すように、翻訳パタ
ーン、形態素出現回数等というユーザにとって分かりや
すい形式であるため、ユーザは翻訳知識の管理がし易
く、かつ、翻訳結果の予測もし易い。 ●例えば、ある学習用文書からはsystem.dic
が得られるといったように、複数の学習用文書が存在し
た場合は、各学習用文書に応じて学習知識を分類して管
理することができ、再利用も可能である。 ●翻訳エンジン部3で用いられる形態素辞書・文法規則
14、学習エンジン部2で用いられる形態素辞書・文法
規則14に学習エンジン部2で獲得された知識を追加し
たものである、従って、各エンジンの核となる言語知識
は共通であるため、副作用が起こりにくい。 ●学習エンジン部2で獲得した翻訳知識は、翻訳処理で
用いる形態素辞書・文法規則14に追加するが、書き換
えてしまうのではないため、元の辞書の状態に簡単に復
元することができる。 ●学習エンジン部2は、対訳文書から原言語と目的言語
の単語間の対応といった辞書的な知識を獲得するだけで
なく、その対訳文書全体を参照することによって得られ
る知識(例えば、出現頻度等)も獲得し、その結果を翻
訳処理に利用する。
【0075】《具体例2》 〈構成〉図9は、本発明の機械翻訳装置の具体例2のブ
ロック図である。
【0076】具体例2の装置は、大きく分けて、入出力
部100、学習エンジン部200、環境適応辞書構築部
300、翻訳エンジン部400と、形態素辞書・文法規
則500と、対訳文書別形態素頻度辞書・翻訳パターン
辞書600と、対訳文書別文書環境設定ファイル70
0、翻訳パターン学習辞書800からなる。
【0077】入出力部100は、対訳文書入力部10
1、原言語文入力部102、目的言語文出力部103と
辞書/環境設定ファイル編集部104から構成されてい
る。ここで、対訳文書入力部101、原言語文入力部1
02および目的言語文出力部103は、具体例1におけ
る入出力部11〜目的言語文出力部13と同様である。
【0078】また、辞書/環境設定ファイル編集部10
4は、対訳文書別形態素頻度辞書・翻訳パターン辞書6
00、対訳文書別文書環境設定ファイル700および翻
訳パターン学習辞書800の編集を行うための機能部で
あり、具体的には、ディスプレイやキーボード等の入出
力装置から構成されている。
【0079】学習エンジン部200は、語彙知識学習部
201、文書環境学習部202から構成される。語彙知
識学習部201は、対訳文書入力部101から入力され
た対訳文書に対して、形態素辞書・文法規則500を参
照して、形態素とその出現回数およびその翻訳パターン
とその出現回数を抽出し、この抽出結果を対訳文書別形
態素頻度辞書・翻訳パターン辞書600に格納する機能
を有している。また、文書環境学習部202は、対訳文
書別形態素頻度辞書・翻訳パターン辞書600の中か
ら、語彙知識学習部201で抽出した知識に基づいて最
適辞書を選出し、この最適辞書と抽出した知識とをマー
ジし、その結果得られた形態素頻度知識と、形態素辞書
・文法規則500における文法規則に基づいて対訳文書
から抽出した文法知識とを対訳文書別文書環境設定ファ
イル700として出力する機能を有している。
【0080】環境適応辞書構築部300は、対訳文書別
形態素頻度辞書・翻訳パターン辞書600と、対訳文書
別環境設定ファイル700を参照して、翻訳パターン学
習辞書800を作成すると共に、形態素情報と文法情報
とを作成し、これら情報を形態素辞書・文法規則500
へ追加する機能を有している。
【0081】翻訳エンジン部400は、形態素辞書・文
法規則500と翻訳パターン学習辞書800を参照して
翻訳処理を行う機能部である。
【0082】辞書/環境設定ファイル編集部104は、
ユーザが対訳文書別形態素頻度辞書・翻訳パターン辞書
600、対訳文書別文書環境設定ファイル700および
翻訳パターン学習辞書800を参照したり、編集(追
加、削除、修正)したりする機能を提供するもので、具
体的にはディスプレイやキーボードといった入出力装置
から構成されている。
【0083】〈動作〉本具体例と具体例1との大きな相
違点は三点ある。第一は学習エンジン部200の文書環
境学習部202が、文書環境設定ファイル700を出力
すること、第二は、新たに環境適応辞書構築部300が
存在し、形態素頻度辞書・翻訳パターン辞書600と文
書環境設定ファイル700を元に、形態素辞書・文法規
則500および翻訳パターン学習辞書800を構築する
こと、第三は、学習により獲得された各辞書600、8
00並びに対訳文書別文書環境設定ファイル700を、
辞書/環境設定ファイル編集部104によって参照、編
集できることである。
【0084】図10は具体例2の動作を説明するフロー
チャートである。具体例2も具体例1と同様の例を用い
て説明する。先ず、ユーザが対訳文書入力部101によ
り対訳文書system.en、system.jaを
入力する(ステップS1001)と、対訳文書は学習エ
ンジン部200の語彙知識学習部201に渡され、語彙
知識学習処理を行う(ステップS1002)。
【0085】語彙知識学習処理は具体例1に準じるが、
その学習結果は、具体例1のように形態素頻度辞書・翻
訳パターン辞書として学習エンジン部2内に保持するの
ではなく、対訳文書別形態素頻度辞書・翻訳パターン辞
書600に格納する。尚、格納方法は、具体例1の文書
環境学習処理(ステップS3)の辞書格納処理(ステッ
プS34)に準じる。
【0086】次に文書環境学習処理を行う(ステップS
1003)。図11は、具体例2における文書環境学習
部202の動作を説明するフローチャートである。
【0087】先ず、最適辞書選択処理(ステップS11
01)、文法情報抽出処理(ステップS1102)を行
う。これらの処理も具体例1に準じる。その結果、最適
辞書選択処理の結果がWT0に、文法情報抽出処理の結
果がWT1に格納されていることになる。
【0088】WT0の結果は一つの値にまとめられ、W
T1の結果と共に対訳文書別文書環境設定ファイル70
0に格納される(ステップS1103)。尚、文書環境
設定ファイル名は、学習対象の対訳文書のファイル名の
識別子を取り除き、“.env”を付与したものとす
る。
【0089】図21に本具体例による文書環境設定ファ
イルの例を示す。図示のように、具体例2では、具体例
1の図19に示した状態に最適辞書の項目use_di
cと、その値“os.dic、unix.dic、us
ers_guide.dic”が追加されている。
【0090】次に、環境適応辞書構築処理を行う(ステ
ップS1004)。図12は、具体例2における環境適
応辞書構築部300の動作を説明するフローチャートで
ある。
【0091】先ず、ワークテーブルWT0の初期化を行
った後(ステップS1201)、環境設定ファイル70
0に設定されている対訳文書別形態素頻度辞書・翻訳パ
ターン辞書ファイル名(ここではsystem.env
の属性use_dicの値)を具体例1のWT0と同様
の形式に従ってWT0に格納し(ステップS120
2)、次に、学習辞書構築処理(ステップS120
3)、文法情報設定処理(ステップS1204)を行
う。学習辞書構築処理、文法情報設定処理は、いずれも
具体例1に準じる。
【0092】ユーザは、この時点において、対訳文書別
環境設定ファイル700の参照・編集(ステップS10
05、ステップS1006)、および、対訳文書別形態
素頻度辞書・翻訳パターン辞書600、翻訳パターン学
習辞書800の参照・編集(ステップS1007、ステ
ップS1008)を、辞書/環境設定ファイル編集部1
04によって行うことができる。
【0093】編集処理の終了後、具体例1と同様に翻訳
処理を行い、目的言語文出力部103で翻訳結果を出力
する(ステップS1009)。
【0094】〈効果〉具体例2では具体例1に加えて更
に以下の効果を有する。 ●学習エンジン部200と翻訳エンジン部400が明確
に分離され、かつ、学習エンジン部200で獲得される
翻訳知識を対訳文書別文書環境設定ファイル700とし
てユーザに開示する方法を提供することにより、ユーザ
は、その結果をみて、翻訳結果を予測することができ
る。
【0095】●ユーザは、上記の予測に基づき、対訳文
書別文書環境設定ファイル700、対訳文書別形態素頻
度辞書・翻訳パターン辞書600および翻訳パターン学
習辞書800を、辞書/環境設定ファイル編集部104
を用いて、自分の好みに応じて変更することができる。
つまり、学習によって獲得した翻訳知識を加工して、更
に質の高い翻訳環境を構築することができる。
【0096】●具体例1では、文書環境を学習するため
に、対訳文書を入力した後、翻訳処理を実行する必要が
あったが、具体例2では、環境設定ファイルも辞書と同
様に格納しておけるので、一度、環境設定ファイルを作
成しておけば、再翻訳の際、対訳文書の入力は不要にな
る。
【0097】《利用形態》上述した具体例1、2は、以
下のように変形(あるいは応用)することができる。 ●学習エンジン部2,200や具体例2における環境適
応辞書構築部300は、翻訳エンジン部3,400とは
切り放して機能することも可能である。また、学習エン
ジン部2,200だけ、または、学習エンジン部2,2
00と環境適応辞書構築部300とをセットにして、翻
訳知識学習装置とすることができる。
【0098】●文書環境学習部202が抽出する文法知
識として、日本語文末情報等を挙げたが、if以外の接
続詞の訳や、体言止め傾向など、その他の情報も抽出
し、翻訳処理に利用することもできる。
【0099】●具体例1で説明した各種パラメータ(例
えば、重み係数αや最適辞書選択処理での閾値y)は、
ユーザによるパラメータ設定機能を設けることにより、
ユーザの好みに応じた設定ができる。
【0100】●対訳文書ではなく、単言語文書が入力さ
れた場合、翻訳パターン辞書の構築はできないが、形態
素頻度辞書や文書環境情報の一部は学習可能である。範
囲を限定すれば、単言語文書の入力においても本装置の
一部は機能する。
【0101】●英日翻訳を例に挙げて説明したが、日英
翻訳でも、英語、日本語以外の二言語間でも、本装置は
応用可能である。
【0102】●具体例2では、翻訳対象となる原言語文
書の翻訳環境設定ファイルが、対訳文書別文書環境設定
ファイル700に存在している場合、環境適応辞書構築
処理から処理を開始することができる。その場合、ユー
ザは、対訳文書を入力するのではなく、環境設定ファイ
ル名を入力する。これにより、そのファイル名が環境適
応辞書構築部300に渡され、環境適応辞書構築処理が
開始される。
【0103】●ユーザによる辞書や環境設定ファイルの
編集は具体例2のフローチャートに示した動作に限定さ
れるものではなく、いつでも編集することが可能であ
る。
【0104】●具体例2では、語彙知識学習処理と文書
環境学習処理を直列的に処理したが並列的に処理するこ
とも可能である。
【図面の簡単な説明】
【図1】本発明の機械翻訳装置の具体例1の構成図であ
る。
【図2】本発明の機械翻訳装置の具体例1の全体の動作
を示すフローチャートである。
【図3】本発明の機械翻訳装置の具体例1における文書
環境学習処理の動作を示すフローチャートである。
【図4】本発明の機械翻訳装置の具体例1における最適
辞書選択処理の動作を示すフローチャートである。
【図5】本発明の機械翻訳装置の具体例1における学習
辞書構築処理の動作を示すフローチャート(その1)で
ある。
【図6】本発明の機械翻訳装置の具体例1における学習
辞書構築処理の動作を示すフローチャート(その2)で
ある。
【図7】本発明の機械翻訳装置の具体例1における文法
情報抽出処理の動作を示すフローチャートである。
【図8】本発明の機械翻訳装置の具体例1における翻訳
処理の動作を示すフローチャートである。
【図9】本発明の機械翻訳装置の具体例2の構成図であ
る。
【図10】本発明の機械翻訳装置の具体例2の動作を示
すフローチャートである。
【図11】本発明の機械翻訳装置の具体例2における文
書環境学習処理を示すフローチャートである。
【図12】本発明の機械翻訳装置の具体例2における環
境適応辞書構築処理を示すフローチャートである。
【図13】本発明の機械翻訳装置における対訳文書の例
を示す説明図である。
【図14】本発明の機械翻訳装置の具体例1における語
彙知識学習処理後の形態素頻度辞書の説明図である。
【図15】本発明の機械翻訳装置の具体例1における語
彙知識学習処理後の翻訳パターン辞書の説明図である。
【図16】本発明の機械翻訳装置の具体例1における最
適辞書選択後のワークテーブルWT0の説明図である。
【図17】本発明の機械翻訳装置の具体例1における学
習辞書構築処理後の英語形態素辞書の説明図である。
【図18】本発明の機械翻訳装置の具体例1における学
習辞書構築処理後の翻訳パターン学習辞書の説明図であ
る。
【図19】本発明の機械翻訳装置の具体例1における文
法情報抽出後のワークテーブルWT1の説明図である。
【図20】本発明の機械翻訳装置の具体例1における翻
訳処理結果の説明図である。
【図21】本発明の機械翻訳装置の具体例2における環
境設定ファイルの説明図である。
【符号の説明】
2,200 学習エンジン部 3,400 翻訳エンジン部 4,500 形態素辞書・文法規則 5,600 対訳文書別形態素頻度辞書・翻訳パターン
辞書 6,800 翻訳パターン学習辞書 11,101 対訳文書入力部 15,600 対訳文書別形態素頻度辞書・翻訳パター
ン辞書 21,201 語彙知識学習部 22,202 文書環境学習部 23 形態素頻度辞書・翻訳パターン辞書 104 辞書/環境設定ファイル編集部

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】 自然言語による原言語と目的言語からな
    る対訳文書のうちの少なくとも一方の言語の文書を入力
    する対訳文書入力処理と、 前記対訳文書入力処理で入力された文書から、形態素と
    当該形態素の出現回数とを抽出すると共に、前記入力さ
    れた文書全体から予め決められた文法規則によって得ら
    れる文書知識を抽出する語彙知識学習処理と、 前記語彙知識学習処理で抽出した文書知識に基づき、翻
    訳処理に用いるための予め設けられた形態素辞書と文法
    規則に対して、情報を追加する文書環境学習処理とを備
    えたことを特徴とする翻訳知識学習方法。
  2. 【請求項2】 自然言語による原言語と目的言語からな
    る対訳文書を入力する対訳文書入力処理と、 入力された対訳文書から形態素とその出現回数およびそ
    の翻訳パターンとその出現回数を抽出すると共に、前記
    入力された対訳文書の全体から予め決められた文法規則
    によって得られる文書知識を抽出する語彙知識学習処理
    と、 前記語彙知識学習処理で抽出した文書知識に基づき、翻
    訳処理に用いるための予め設けられた形態素辞書と翻訳
    辞書と文法規則に対して、情報を追加する文書環境学習
    処理とを備えたことを特徴とする翻訳知識学習方法。
  3. 【請求項3】 自然言語による原言語と目的言語からな
    る対訳文書を入力する対訳文書入力処理と、 入力された対訳文書から形態素とその出現回数およびそ
    の翻訳パターンとその出現回数を抽出すると共に、前記
    入力された対訳文書の全体から予め決められた文法規則
    によって得られる文書知識を抽出する語彙知識学習処理
    と、 前記語彙知識学習処理で抽出した文書知識に基づき、翻
    訳処理に用いるための予め設けられた形態素辞書と翻訳
    辞書と文法規則に対して、情報を追加する文書環境学習
    処理と、 前記文書環境学習処理で情報が追加された形態素辞書と
    翻訳辞書と文法規則を用いて、原言語の文書を目的言語
    の文書に翻訳する翻訳処理とを備えたことを特徴とする
    機械翻訳方法。
  4. 【請求項4】 自然言語による原言語と目的言語からな
    る対訳文書を入力する対訳文書入力部と、 原言語から目的言語への翻訳処理で用いるための、予め
    設けられた形態素解析情報と文法情報とを示す形態素辞
    書・文法規則と、 前記形態素辞書・文法規則を用いて、前記対訳文書から
    形態素とその出現回数およびその翻訳パターンとその出
    現回数を抽出し、これら抽出した知識を形態素頻度辞書
    ・翻訳パターン辞書として出力する語彙知識学習部と、 対訳文書別の形態素の出現回数と翻訳パターンとを示す
    対訳文書別形態素頻度辞書・翻訳パターン辞書と、 前記対訳文書別形態素頻度辞書・翻訳パターン辞書の中
    から、前記形態素頻度辞書・翻訳パターン辞書との形態
    素の出現回数に基づいて最適辞書を選出し、この最適辞
    書と前記形態素頻度辞書・翻訳パターン辞書とマージ
    し、その結果得られた形態素頻度知識を前記形態素辞書
    ・文法規則に新たに追加すると共に、前記形態素辞書・
    文法規則における文法規則に基づいて前記対訳文書から
    抽出した文法知識を新たに形態素辞書・文法規則に追加
    する文書環境学習部とを備えたことを特徴とする翻訳知
    識学習装置。
  5. 【請求項5】 自然言語による原言語と目的言語からな
    る対訳文書を入力する対訳文書入力部と、 原言語から目的言語への翻訳処理で用いるための、予め
    設けられた形態素解析情報と文法情報とを示す形態素辞
    書・文法規則と、 前記形態素辞書・文法規則を用いて、前記対訳文書から
    形態素とその出現回数およびその翻訳パターンとその出
    現回数を抽出し、これら抽出した知識を形態素頻度辞書
    ・翻訳パターン辞書として出力する語彙知識学習部と、 対訳文書別の形態素の出現回数と翻訳パターンとを示す
    対訳文書別形態素頻度辞書・翻訳パターン辞書と、 前記対訳文書別形態素頻度辞書・翻訳パターン辞書の中
    から、前記形態素頻度辞書・翻訳パターン辞書との形態
    素の出現回数に基づいて最適辞書を選出し、この最適辞
    書と前記形態素頻度辞書・翻訳パターン辞書とマージ
    し、その結果得られた翻訳パターン知識を翻訳パターン
    学習辞書として出力すると共に、その結果得られた形態
    素頻度知識を前記形態素辞書・文法規則に新たに追加
    し、かつ、前記形態素辞書・文法規則における文法規則
    に基づいて前記対訳文書から抽出した文法知識を新たに
    形態素辞書・文法規則に追加する文書環境学習部と、 前記文書環境学習部によって形態頻度知識と文法知識と
    が追加された前記形態素辞書と文法規則と、前記翻訳パ
    ターン学習辞書を用いて原言語の文書を目的言語の文書
    に翻訳する翻訳エンジン部とを備えたことを特徴とする
    機械翻訳装置。
  6. 【請求項6】 自然言語による原言語と目的言語からな
    る対訳文書を入力する対訳文書入力部と、 原言語から目的言語への翻訳処理で用いるための、予め
    設けられた形態素解析情報と文法情報とを示す形態素辞
    書・文法規則と、 対訳文書別の形態素の出現回数と翻訳パターンとを示す
    対訳文書別形態素頻度辞書・翻訳パターン辞書と、 前記形態素辞書・文法規則を用いて、前記対訳文書から
    形態素とその出現回数およびその翻訳パターンとその出
    現回数を抽出し、これら抽出した知識を辞書情報として
    前記対訳文書別形態素頻度辞書・翻訳パターン辞書に出
    力する語彙知識学習部と、 前記対訳文書別形態素頻度辞書・翻訳パターン辞書の中
    から、前記抽出した知識に基づいて最適辞書を選出し、
    この最適辞書と当該抽出した知識とをマージし、その結
    果得られた形態素頻度知識と、前記形態素辞書・文法規
    則における文法規則に基づいて前記対訳文書から抽出し
    た文法知識とを対訳文書別文書環境設定ファイルとして
    出力する文書環境学習部と、 前記対訳文書別形態素頻度辞書・翻訳パターン辞書と対
    訳文書別文書環境設定ファイルとに基づき、形態素情報
    と文法情報とを作成し、これら情報を形態素辞書・文法
    規則への追加情報として出力する環境適応辞書構築部と
    を備えたことを特徴とする翻訳知識学習装置。
  7. 【請求項7】 請求項6に記載の翻訳知識学習装置にお
    いて、 対訳文書別形態素頻度辞書・翻訳パターン辞書と対訳文
    書別文書環境設定ファイルとを編集する辞書/環境設定
    ファイル編集部を備えたことを特徴とする翻訳知識学習
    装置。
  8. 【請求項8】 自然言語による原言語と目的言語からな
    る対訳文書を入力する対訳文書入力部と、 原言語から目的言語への翻訳処理で用いるための、予め
    設けられた形態素解析情報と文法情報とを示す形態素辞
    書・文法規則と、 対訳文書別の形態素の出現回数と翻訳パターンとを示す
    対訳文書別形態素頻度辞書・翻訳パターン辞書と、 前記形態素辞書・文法規則を用いて、前記対訳文書から
    形態素とその出現回数およびその翻訳パターンとその出
    現回数を抽出し、これら抽出した知識を辞書情報として
    前記対訳文書別形態素頻度辞書・翻訳パターン辞書に出
    力する語彙知識学習部と、 前記対訳文書別形態素頻度辞書・翻訳パターン辞書の中
    から、前記抽出した知識に基づいて最適辞書を選出し、
    この最適辞書と当該抽出した知識とをマージし、その結
    果得られた形態素頻度知識と、前記形態素辞書・文法規
    則における文法規則に基づいて前記対訳文書から抽出し
    た文法知識とを対訳文書別文書環境設定ファイルとして
    出力する文書環境学習部と、 前記対訳文書別形態素頻度辞書・翻訳パターン辞書と対
    訳文書別文書環境設定ファイルとに基づき、形態素情報
    と文法情報とを作成し、これら情報を形態素辞書・文法
    規則への追加情報として出力すると共に、翻訳パターン
    知識を作成し、当該翻訳パターン知識を翻訳パターン学
    習辞書として出力する環境適応辞書構築部と、 前記環境適応辞書構築部によって形態頻度知識と文法知
    識とが追加された前記形態素辞書と文法規則と、前記翻
    訳パターン学習辞書を用いて原言語の文書を目的言語の
    文書に翻訳する翻訳エンジン部とを備えたことを特徴と
    する機械翻訳装置。
  9. 【請求項9】 請求項8に記載の機械翻訳装置におい
    て、 対訳文書別形態素頻度辞書・翻訳パターン辞書と対訳文
    書別文書環境設定ファイルと翻訳パターン学習辞書とを
    編集する辞書/環境設定ファイル編集部を備えたことを
    特徴とする機械翻訳装置。
JP19404498A 1998-07-09 1998-07-09 翻訳知識学習装置及び機械翻訳装置 Expired - Fee Related JP3982726B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP19404498A JP3982726B2 (ja) 1998-07-09 1998-07-09 翻訳知識学習装置及び機械翻訳装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP19404498A JP3982726B2 (ja) 1998-07-09 1998-07-09 翻訳知識学習装置及び機械翻訳装置

Publications (2)

Publication Number Publication Date
JP2000029878A true JP2000029878A (ja) 2000-01-28
JP3982726B2 JP3982726B2 (ja) 2007-09-26

Family

ID=16318016

Family Applications (1)

Application Number Title Priority Date Filing Date
JP19404498A Expired - Fee Related JP3982726B2 (ja) 1998-07-09 1998-07-09 翻訳知識学習装置及び機械翻訳装置

Country Status (1)

Country Link
JP (1) JP3982726B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008146218A (ja) * 2006-12-07 2008-06-26 Fuji Xerox Co Ltd 言語解析システム、および言語解析方法、並びにコンピュータ・プログラム
KR101416098B1 (ko) 2010-10-12 2014-07-09 한국전자통신연구원 구단위 번역 지식 학습 방법 및 이를 수행하는 장치

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008146218A (ja) * 2006-12-07 2008-06-26 Fuji Xerox Co Ltd 言語解析システム、および言語解析方法、並びにコンピュータ・プログラム
KR101416098B1 (ko) 2010-10-12 2014-07-09 한국전자통신연구원 구단위 번역 지식 학습 방법 및 이를 수행하는 장치

Also Published As

Publication number Publication date
JP3982726B2 (ja) 2007-09-26

Similar Documents

Publication Publication Date Title
US6920419B2 (en) Apparatus and method for adding information to a machine translation dictionary
US5845143A (en) Language conversion system and text creating system using such
JP2004199427A (ja) 対訳依存構造対応付け装置、方法及びプログラム、並びに、対訳依存構造対応付けプログラムを記録した記録媒体
JP2732563B2 (ja) 機械翻訳方法及び装置
KR100530154B1 (ko) 변환방식 기계번역시스템에서 사용되는 변환사전을생성하는 방법 및 장치
JP2005507525A (ja) 機械翻訳
JP2005507524A (ja) 機械翻訳
JPH06251057A (ja) 機械翻訳方法及び機械翻訳装置
JP2021179673A (ja) 文生成装置、文生成方法および文生成プログラム
JP2017151553A (ja) 機械翻訳装置、機械翻訳方法、及びプログラム
Chang et al. A corpus-based statistics-oriented transfer and generation model for machine translation
JP3982726B2 (ja) 翻訳知識学習装置及び機械翻訳装置
JP4869281B2 (ja) 機械翻訳装置、プログラム及び方法
WO2009144890A1 (ja) 翻訳前換言規則生成システム
JP2004118461A (ja) 言語モデルのトレーニング方法、かな漢字変換方法、言語モデルのトレーニング装置、かな漢字変換装置、コンピュータプログラムおよびコンピュータ読み取り可能な記録媒体
US20130080144A1 (en) Machine translation apparatus, a method and a non-transitory computer readable medium thereof
JP3051747B2 (ja) 機械翻訳方法及び機械翻訳システム
JP5746921B2 (ja) 機械翻訳装置、方法及びプログラム
JPH0550778B2 (ja)
JPH10340264A (ja) 機械翻訳装置及び機械翻訳処理プログラムを記録したコンピュータ読み取り可能な記録媒体
JPH10320395A (ja) 機械翻訳装置および機械翻訳処理プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2007317140A (ja) 文一致度分析装置および方法、ならびに言語変換装置および方法
JPH0778166A (ja) 翻訳方法及び機械翻訳装置
JP2002032369A (ja) 辞書作成装置
JP2006039804A (ja) 同時翻訳用有限状態トランスデューサの作成装置、プログラム、記録媒体、作成方法、及び同時翻訳装置

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20031224

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040223

A911 Transfer of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20040226

A912 Removal of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20040702

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070629

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100713

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110713

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120713

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees