JP2000311169A - 訳語選択装置及び訳語選択方法並びに記録媒体 - Google Patents

訳語選択装置及び訳語選択方法並びに記録媒体

Info

Publication number
JP2000311169A
JP2000311169A JP11119663A JP11966399A JP2000311169A JP 2000311169 A JP2000311169 A JP 2000311169A JP 11119663 A JP11119663 A JP 11119663A JP 11966399 A JP11966399 A JP 11966399A JP 2000311169 A JP2000311169 A JP 2000311169A
Authority
JP
Japan
Prior art keywords
translation
word
translated
phrase
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11119663A
Other languages
English (en)
Inventor
Satoshi Nakazawa
聡 中澤
Kenji Sato
研治 佐藤
Akitoshi Okumura
明俊 奥村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP11119663A priority Critical patent/JP2000311169A/ja
Publication of JP2000311169A publication Critical patent/JP2000311169A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

(57)【要約】 【課題】 統計的言語情報を基に翻訳対象語句の訳語を
選択する際、訳語候補の全組合せに対して評価値等を計
算する必要性を無くす。 【解決手段】 翻訳対象語句グループ分け手段6は、相
互に相関の薄い語句を別のグループに分けることで、入
力された翻訳対象語句をグループ分けする。訳語候補縮
退手段7は、曖昧性の大きい複数の訳語候補を仮想的な
代表訳語にまとめる。第一段階訳語選択手段8は、各グ
ループ毎に独立に、代表訳語を用いて大まかな訳語選択
を行ない、第二段階訳語選択手段9は、各グループ毎に
独立に、第一段階訳語選択手段8で選択された大まかな
訳語から最終的な訳語を選択する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、言語間の機械翻
訳、または、辞書引き支援システム、または、入力され
たキーワードから異言語ドキュメントを検索する言語間
情報検索システムなどの、ある言語から別の言語への語
句の翻訳を機械的に実行する装置、方法において、翻訳
すべき語句の訳語が複数存在する場合に、辞書情報と、
多量の文書などから蓄積された統計言語情報とを基に、
適切な訳語を高速に選択する訳語選択装置、方法、およ
び、この方法を実現するプログラムを記憶する記録媒体
に関する。
【0002】
【従来の技術】異なった言語間の機械翻訳や辞書引き支
援システムにおいて、少しでも質の高い訳文を生成する
ためには、複数の訳語を持つ語、すなわち多義語の訳語
選択は重要な技術的課題である。また、例えばWWW上
などで、検索したい内容を示すキーワードは日本語で入
力したいが、英語や他の言語で書かれたホームページな
ども検索対象として出力して欲しい、といった言語間情
報検索システムでは、与えられたキーワードに不適切な
訳語を選んでしまうと、まるで望ましくない情報が検索
されてしまうことになり、検索精度に大きく影響してく
る。従来、このような適切な訳語を選択するという課題
を解決するために、主に3つの方法が知られている。
【0003】1つ目は機械翻訳システムなどで主に用い
られる方法で、翻訳すべき入力文が与えられたときに、
あらかじめ定められた文法規則や意味規則に基づき、そ
の入力文の構文解析や意味解析を行い、そこから多義語
のその文中での適切な訳語を決定するというものである
(以下、従来例1という)。この方法では、翻訳に先だ
って訳語選択基準として十分な数の文法規則・意味規則
などを用意しておく必要がある。また、言語間情報検索
システムでの入力のように、与えられる入力が文ではな
く、単に翻訳すべき単語の羅列であったときには有効で
ない。
【0004】2つ目は様々な分野ごとに専門用語辞書を
用意しておき、与えられた入力がどの分野に属している
のか適宜判定し、その分野ごとに優先される訳語をその
分野の専門用語辞書から選択するという方法である(以
下、従来例2という)。この方法は、翻訳対象となる入
力の分野が予め限られている場合には有効に機能する。
しかし、入力がいくつかの分野にわたる場合には、適し
た分野を何らかの手法で決定しなければならないという
問題点が存在し、また、分野ごとに専門用語辞書を構築
するためにも大きな労力が必要となる。
【0005】3つ目は多量に蓄積された言語コーパス
(文章の集成)などから、統計的言語情報を予め抽出
し、それと辞書情報から適切な訳語を選択するという方
法である。この方法では、必要とする統計的言語情報を
言語コーパス等から機械的に収集することが可能なた
め、従来例1のように文法規則や意味規則を人間が定め
る必要がなく、また従来例2のように分野ごとの優先す
る専門用語辞書を人間が用意する必要もない。故に、こ
れら2つの方法に比べて翻訳対象が汎用な場合であって
も準備が容易である。さらに、入力された複数の語句の
統計的言語情報から訳語を選択するため、翻訳すべき入
力が文の形式で与えられていなくとも適用可能である。
【0006】この統計的言語情報を使用する方法の従来
技術としては、特開平5−94472号公報や特開平1
0−149364号公報、文献『コンパラブルコーパス
と対訳辞書による日英クロス言語検索』(「1998年
10月 自然言語処理 Vol.5 No.4 page
77−93」)(以下、従来例3という)で発表されて
いるような訳語選択手法などがある。
【0007】従来例3では、統計的言語情報として、ま
ず翻訳対象となる言語(以下、ソース言語という)と、
翻訳結果として出力される言語(以下、ターゲット言語
という)のそれぞれのコーパスを用意し、全ての語句の
組合せに対して同じ文章内で同時に出現する回数(共起
頻度)を計数する。
【0008】ついで図1のような翻訳すべきn個の語句
および各語句の翻訳候補が与えられた時に、その語句群
の特徴を表す特徴ベクトルとして、図2にあるようにソ
ース言語共起頻度ベクトルを計算し、さらに各訳語の可
能な組合せ全てに対して、ターゲット言語共起頻度ベク
トルを計算する。最も適した訳語の組合せのとき、この
ソース言語共起頻度ベクトルとターゲット言語共起頻度
ベクトルも特徴が一致すると考えられるので、可能な訳
語の組合せ全てに対して共起頻度ベクトル間のコサイン
で定義された評価関数を計算し、評価関数の値が最大と
なった訳語の組合せを最終的な結果として選択する。こ
れにより入力されたn個の語句の組に応じた訳語が選ば
れる。なお、従来例3の文献および、図1、2では、例
としてソース言語が日本語、ターゲット言語が英語と想
定して記号などが書かれているが、従来例3の方法、お
よび本発明ともに特定の言語に依存しない一般的な方法
である。
【0009】
【発明が解決しようとする課題】前述のように、従来例
3を含む統計的言語情報を用いた方法は、必要な統計的
言語情報を機械的に取得することが可能であり、準備が
容易であるという特長と、必ずしも翻訳すべき入力が文
の形式で与えられていなくともよい、という特長を持っ
た汎用な訳語選択法であるが、いくつかの問題点も存在
する。
【0010】まずこの方法は、入力された複数の語句の
可能な訳語全ての組合せに対して、統計的言語情報を用
いた何らかの評価関数を計算し、最後に最も評価値(評
価関数の計算結果)の高かった組合せ、あるいはある閾
値以上の評価値となった組合せを適した訳語として選択
する方法であるため、入力された語句の訳語候補の数に
対して組合せ的に計算量が増大してしまう、という問題
点がある。例えば従来例3において、図1のような、そ
れぞれp,q,r,…,m個の翻訳候補を持つn個の語
句が与えられたとき、可能な訳語の組合せは p * q
* r * … *m 通りとなる。ここでさらに4つの訳
語候補を持つ語句と5つの訳語候補を持つ語句の2つの
語句が入力として追加されると、追加された語句は2つ
なのに、必要な計算量は増えた訳語の組合せ数、すなわ
ち、それまでの4*5=20倍となる。このため、入力
された語句の数が増えるに従って、この方法は実用的で
なくなる。また、入力された語句が少ない場合でも、統
計的言語情報を求めた言語コーパスの分量が十分でなか
ったため、入力語句間の統計的言語情報が不正確なこと
があり得る、という問題点が存在する。この2つの問題
点は、統計的言語情報として共起頻度を使用した場合だ
けでなく、語句間の相互情報量など他の基準を使用した
場合でも同様に存在する。
【0011】本発明は上記の問題点を解消するためにな
されたものであり、訳語候補の全組合せに対して評価値
等を計算する必要のない高速な訳語選択装置、方法、お
よび、この方法を実現するプログラムを記憶する記録媒
体を提供することを目的とする。
【0012】また、本発明の他の目的は、入力された翻
訳すべき語句の数が少なく、直接の統計的言語情報が不
正確な場合であっても、精度良く訳語が選択可能な訳語
選択装置、方法、および、この方法を実現するプログラ
ムを記憶する記録媒体を提供することにある。
【0013】
【課題を解決するための手段】第1の発明にかかる訳語
選択装置は、翻訳対象語句のグループ分け、訳語候補の
集合的な取り扱いにより、段階的に翻訳対象語句の訳語
を選択する。具体的には、翻訳対象語句をグループ分け
する翻訳対象語句グループ分け手段(図3の6)と、複
数の訳語候補を仮想的な代表訳語にまとめる訳語候補縮
退手段(図3の7)と、代表訳語を用いて大まかな訳語
選択を行なう第一段階訳語選択手段(図3の8)と、前
記第一段階訳語選択手段で選択された大まかな訳語から
最終的な訳語を選択する第二段階訳語選択手段(図3の
9)とを備える。また、前記翻訳対象語句グループ分け
手段は翻訳対象語句のうち相互に相関の薄い語句を別の
グループに分け、前記訳語候補縮退手段は曖昧性の大き
い複数の訳語候補を仮想的な代表訳語にまとめるように
している。
【0014】第2の発明にかかる訳語選択方法は、翻訳
対象語句をグループ分けし、複数の訳語候補を仮想的な
代表訳語にまとめ、代表訳語を用いて大まかな訳語選択
をまず行ない、ついで、選択された大まかな訳語から最
終的な訳語を選択する。具体的には、翻訳対象語句のう
ち相互に相関の薄い語句を別のグループに分けることで
翻訳対象語句をグループ分けし、かつ、曖昧性の大きい
複数の訳語候補を仮想的な代表訳語にまとめる。
【0015】上述した第1および第2の発明にあって
は、段階的に問題の規模を小さくして、評価値等の計算
が必要な訳語候補の組合せ数を減少させることにより、
本発明の第1の目的を達成することができる。
【0016】第3の発明にかかる訳語選択装置は、翻訳
対象語句を拡張する語句拡張手段を備える。より具体的
には、第1の発明にかかる訳語選択装置の構成に加え、
翻訳対象語句間の統計的言語情報が不十分な場合に、評
価関数の計算などに基準として利用可能な語句を一時的
に翻訳対象語句に追加する語句拡張手段(図17の1
3)を有する。
【0017】また第4の発明にかかる訳語選択方法は、
翻訳対象語句を追加して訳語の選択を行なう。より具体
的には、第2の発明にかかる訳語選択方法の構成に加
え、グループ分けの処理に先立って、翻訳対象語句間の
統計言語情報が不十分な場合に翻訳対象語句と相関の濃
い翻訳対象語句を追加する。
【0018】第3および第4の発明にあっては、どのよ
うな入力に対しても、直接的あるいは間接的に精度の良
い統計的言語情報を用いて評価関数等の計算を行なうこ
とにより、本発明の第2の目的を達成することができ
る。
【0019】
【発明の実施の形態】以下、添付図面を参照して、本発
明の第1の実施の形態について説明する。
【0020】図3を参照すると、本発明の第1の実施の
形態は、キーボードやOCR等の入力装置1と、プログ
ラム制御により動作するデータ処理装置2と、ディスプ
レイ装置や他の情報検索装置、機械翻訳装置などに選択
した訳語を出力する出力装置3とからなる。
【0021】さらにデータ処理装置2は、翻訳対象語句
切り出し・正規化手段4と、辞書引き手段5と、翻訳対
象語句グループ分け手段6と、訳語候補縮退手段7と、
第一段階訳語選択手段8と、第二段階訳語選択手段9
と、語句切り出し・正規化用辞書DB(データベースの
略、以下DBと記載)10と、対訳辞書DB11と、統
計的言語情報DB12とを備える。
【0022】翻訳対象語句切り出し・正規化手段4は、
入力装置1に入力された文字列や文の中から、翻訳対象
とする語句を切り出し、さらに辞書引きが行なえるよ
う、切り出された語句の表記の正規化を行なう。ここで
表記の正規化とは単語の複数形や語尾変化などを辞書の
見出しに存在する基本形に戻すことをいう。例えば日本
語の例では、「全文データベースの中から参照されたこ
とのない記事を削除する」という入力から、「全文デー
タベース、参照、記事、削除」といった語句を取り出す
ことをいう。入力された文字列や文の中からどのような
語句を切り出し、どのような形に正規化すればよいか
は、本発明の使用目的や対象言語によって異なってく
る。そうした設定は、語句切り出し・正規化用辞書DB
10に予め格納しておく。翻訳対象語句切り出し・正規
化手段4は入力がある度に、語句切り出し・正規化用辞
書DB10からどのような語句を残し、どのように正規
化するかの規則を読み出し、処理を行なう。情報検索装
置の前処理として本発明を使用する場合のように、予め
語句に区切られ、正規化が行なわれた入力が入力装置1
に与えられるときには、翻訳対象語句切り出し・正規化
手段4はどのような処理も行なわなくて良い。
【0023】辞書引き手段5は、翻訳対象語句切り出し
・正規化手段4が切り出した語句のそれぞれに対して、
対訳辞書DB11から全ての訳語候補を読み出し、図1
のように各語句とその訳語候補のリストを作成する。翻
訳対象語句、辞書引きされた訳語候補ともに、1単語か
らなる語句である必要はなく、熟語などのように複数単
語で構成される語句であってよい。
【0024】翻訳対象語句グループ分け手段6は、統計
的言語情報DB12に格納されている情報をもとに、翻
訳対象語句のグループ分けを行なう。同時に入力された
各語句はそれぞれがそのとき、どのような意味に解釈さ
れれば適切か、すなわち、どのような訳語に対応付けさ
れれば適切かを示す手がかりとなり得る。しかし、同時
に入力された語句の中にはお互いの訳語選択に関係のな
い語句も存在する。
【0025】そこで、翻訳対象語句をそれぞれ関係のあ
るグループに分けることにより、訳語選択時の計算量の
削減を図る(詳細は図4の例を参照して後述する)。グ
ループ分けの基準としては、予め定められたグループ分
け関数に従って、各語句間の統計的言語情報を統計的言
語情報DB12から読み込むことにより判断する。グル
ープ分け関数としては、本発明のそのときの用途に応じ
たものを予め設定しておけばよいが、その例としては、
各語句間のソース言語における相互情報量が閾値以上の
ものを1つのグループとする手法や、各語句の特徴ベク
トルを、基準とする語句との共起頻度で表したとき、そ
れらの特徴ベクトルの距離が閾値以内のものを1つのグ
ループとする手法などが考えられる。ここで、グループ
分けされた語句は、以後各グループごとにまったく独立
に処理される。よって例えば、図4のように最初7つの
語句が入力され、この翻訳対象語句グループ分け手段6
によって、3つの語句からなるグループ1と、4つの語
句からなるグループ2に分けられた場合、以後の処理で
は、7つの語句に対してではなく、あたかも3つの語句
からなる入力があった場合と、それと並行して、4つの
語句からなる入力があった場合のように処理が進められ
る。また、翻訳対象語句が必ずしも複数のグループに分
けられるということではなく、入力された語句が全て同
じグループに属すると判断される場合もある。
【0026】訳語候補縮退手段7は、まず、入力された
全ての翻訳対象語句に対して、曖昧性が小さく、最初に
第一段階訳語選択手段8において訳語を決定する語句
と、曖昧性が大きく、第二段階訳語選択手段9において
訳語を決定する語句とに判別する。ついで、曖昧性が大
きく、第二段階訳語選択手段9で訳語を決定すべきと判
別された各語句に対して、その訳語候補数を仮想的な代
表訳語を立てることにより削減する。図5の例では、本
来6つある訳語候補を、2つの仮想的代表訳語に縮退さ
せている。これにより訳語選択に必要な計算量、すなわ
ち、全ての可能な訳語の組合せ数が大きく減少する。最
初の、第一段階訳語選択手段8において訳語を決定する
語句と、第二段階訳語選択手段9において訳語を決定す
る語句との判別は、各語句に対して統計的言語情報DB
12から読み出した統計情報に基づき行なわれる。この
判別法には本発明のそのときの用途に応じたものを予め
設定しておけば良いが、その1例としては、図6のよう
にその語句から得られる情報量より、その語句の訳語を
選択するために必要な情報量の最大値が大きくなってし
まうとき、その語句を曖昧性が大きく他の語句の訳語選
択の手がかりにあまりなり得ない語句と判別して、その
語句の訳語選択を第二段階目に持っていく手法などが考
えられる。
【0027】また、曖昧性が大きいと判別された語句の
訳語候補の縮退にも、統計的言語情報DB12に保管さ
れている各訳語候補の統計情報を用いる。訳語候補を縮
退させるために使用される仮想的な代表訳語は、通常の
訳語候補と異なり、実際のターゲット言語上の特定の語
句を意味しない。ターゲット言語上の語句を、その語句
の意味や特徴を示す何らかの数値列、すなわち、特徴ベ
クトルとして表現し、訳語選択などの決定を、その特徴
ベクトルを用いた演算として考えることができるが、逆
に、実際のターゲット言語上のいくつかの語句の特徴ベ
クトルから求めたベクトル空間上の1点を自身の特徴ベ
クトルとする仮想的な語句が代表訳語である。そのよう
な代表訳語が実際に存在しなくとも、その特徴ベクトル
の値が定まれば、通常の訳語候補と全く同様に取り扱う
ことが可能である。さらに、1つの語句の訳語候補を、
必ずしも1つの代表訳語に縮退させる必要はない。仮想
的な代表訳語がいくつ作成され、作成された代表訳語の
特徴ベクトルの値がどうなるかは、本発明の用途に応じ
て予め設定された、代表訳語の定め方によって異なって
くるが、一般に代表訳語の数が少ないほど、訳語選択に
必要な計算量も組合せ的に少なくなる。一方、本来複数
の特徴ベクトルを1つの特徴ベクトルにまとめているた
め、あまり極端にまとめると、訳語選択に誤差が生じる
場合があり得る。ただし、統計的言語情報DB12を作
成するのに使用した言語コーパスが十分に大きくなかっ
た場合は、個々の統計情報の値にばらつきが生じるた
め、かえってまとめた方が正確な値になる場合もある。
仮想的な代表ベクトルの定め方の1例としては、図5の
ように訳語候補の特徴ベクトル間の距離が閾値内に入る
訳語を、各訳語の特徴ベクトルの重心を特徴ベクトルと
してもつ代表訳語でまとめる手法などがあり得る。
【0028】第一段階訳語選択手段8では、翻訳対象語
句グループ分け手段6でグループ分けされた語句のグル
ープ1つごとに独立に、そのグループ内の訳語を決定す
る。
【0029】訳語の決定方法としては、そのグループ内
の全ての訳語の組合せそれぞれに対して、統計的言語情
報DB12から読み出した情報をもとに、定められた評
価関数を計算して、最も評価値の高い訳語の組を選択す
る。このとき、どのような評価関数を用いるかは、本発
明の用途や適用分野により予め設定しておく。従来例3
で用いられた図2の評価関数を使用してもよい。ただ
し、訳語候補縮退手段7によって、曖昧性が大きいと判
別された語句に対しては、本来の訳語候補の代わりに、
仮想的な代表訳語を用いる。よって、これらの曖昧性が
大きいと判別された語句に対しては、この段階では訳語
は決定されず、その代わりに1つの仮想的な代表訳語が
決定される。
【0030】第二段階訳語選択手段9では、翻訳対象語
句グループ分け手段6でグループ分けされた語句のグル
ープ1つごとに独立に、いまだ訳語が決定されていな
い、訳語候補縮退手段7によって、曖昧性が大きいと判
別された語句に対する訳語の選択を行なう。この訳語選
択には、第一段階訳語選択手段8における評価関数と同
じものを用いて、同様に最も評価値の高い訳語の組を選
択する。ただし、訳語候補縮退手段7によって、曖昧性
が小さいと判断された語句の訳語は既に、第一段階訳語
選択手段8によって決定されているため、それらの語句
は最初からただ1つの訳語候補を持つ語句として考え
る。さらに、訳語候補縮退手段7によって、曖昧性が大
きいと判別された語句に対しても、1つの仮想的代表訳
語が第一段階訳語選択手段8によって決定されているた
め、その決定された仮想的代表訳語によって代表されて
いる訳語候補のみを、訳語選択の対象とする。
【0031】例えば図5で、ri1 が第一段階訳語選択手
段8で語句 ji の訳語として選択された、仮想代表訳語
であったとすると、第二段階訳語選択手段9で語句 ji
の訳語候補として考慮されるのは、仮想代表訳語 ri1
によって代表される訳語候補ei1, ei5, ei6 の3つのみ
である。これらの訳語候補のうち、最も評価値が高い訳
語が最終的な訳語として選択される。こうして、全ての
翻訳対象語句に対する訳語が選択される。
【0032】語句切り出し・正規化用辞書DB10は、
どのような語句を本発明の訳語選択の対象として切り出
すか、さらに切り出した語句を対訳辞書DB11で引け
るような表記に正規化するための規則を記録する。
【0033】対訳辞書DB11は、ソース言語の翻訳対
象語句がどのような訳語候補をどれだけ持っているか記
録する、機械読みとり可能な辞書である。
【0034】統計的言語情報DB12には、ソース言語
およびターゲット言語それぞれに対して、大量の言語コ
ーパスから取得された統計情報が記録される。従来例3
のように、訳語選択に各語句間の正規化された共起頻度
データを用いる場合には、ここにその共起頻度データが
記録される。
【0035】出力装置3は、第二段階訳語選択手段9で
最終的に選択された訳語の組を、必要な形式で出力する
装置である。
【0036】また、これまでの説明では、本発明によっ
て最も評価値の高い訳語の組が1つだけ出力されるもの
としてきたが、本発明の用途によっては、訳語の組を1
つだけ選択するのではなく、上位n組の訳語の組、ある
いは、評価関数の値がある閾値以上となった訳語の組を
全て求めることも可能である。そのためには、条件を満
たした訳語の組全てに対して、それぞれ個別に第一段階
訳語選択手段8、第二段階訳語選択手段9を実行し、そ
れらを出力装置3に出力すれば良い。
【0037】複数の訳語の組を出力する場合でも、本発
明の構成や動作は本質的に変わらないので、以下では訳
語の組を1つだけ選択するとして、説明を続ける。
【0038】なお、本実施の形態では、翻訳対象語句切
り出し・正規化手段4、辞書引き手段5、翻訳対象語句
グループ分け手段6、訳語候補縮退手段7、第一段階訳
語選択手段8、第二段階訳語選択手段9、語句切り出し
・正規化用辞書DB10、対訳辞書DB11、統計的言
語情報DB12は、データ処理装置2に備え付けられて
いる必要はなく、データ処理装置2を制御するためのプ
ログラムとして、CD−ROMやフロッピーディスクな
どの機械読みとり可能な記録媒体に格納して提供され、
データ処理装置2に読み込まれて実行されるものとして
もよい。
【0039】以下、本実施の形態の訳語選択装置におけ
る動作について説明する。この訳語選択装置では実際に
訳語選択を行なう前に、本発明を使用する用途・分野に
応じたソース言語の語句切り出し規則、および、語句の
表記の正規化規則を、語句切り出し・正規化用辞書DB
10に記録しておく必要がある。さらに、翻訳対象とす
る語句の訳語を対訳辞書DB11に、ソース言語とター
ゲット言語それぞれに対して使用する統計的言語情報を
統計的言語情報DB12に記録しておく必要がある。こ
れらは一度記録すれば、本発明の使用用途や分野、ソー
ス言語、ターゲット言語を変更しない限り、更新する必
要はない。
【0040】この訳語選択装置の動作は、入力から翻訳
対象語句を切り出し、辞書引きして訳語候補のリストを
作成し、さらにお互いに訳語選択の手がかりとなり得る
グループに分ける翻訳対象語句グループ分け動作と、分
けられたグループごとに別々に、訳語選択の曖昧性が大
きい語句の訳語候補数を、仮想的な代表訳語を立てるこ
とにより減らす訳語候補縮退動作と、分けられたグルー
プごとに別々に、曖昧性が小さいと判別された語句の訳
語候補と、曖昧性が大きいと判別された語句の代表訳語
の中から、適した訳語の組を選ぶ第一段階訳語選択動作
と、分けられたグループごとに別々に、第一段階訳語選
択動作で選ばれた代表訳語から最終的な訳語を選択する
第二段階訳語選択動作とに分けられる。
【0041】入力装置1に入力が与えられたのち、これ
ら4つの動作は、翻訳対象語句グループ分け動作、訳語
候補縮退動作、第一段階訳語選択動作、第二段階訳語選
択動作の順番で、1つの動作が終ると次の動作というよ
うに、順に起動される。
【0042】まず、図7のフローチャートを参照して、
本実施の形態の訳語選択装置における翻訳対象語句グル
ープ分け動作について説明する。
【0043】翻訳対象語句グループ分け動作では、ま
ず、翻訳対象語句切り出し・正規化手段4が、語句切り
出し・正規化用辞書DB10に記録されている規則にし
たがって、入力装置1から読み込んだ文字列や文章か
ら、翻訳対象語句を切り出し、その表記の正規化を行な
う(ステップA1)。辞書引き手段5は、続いてステッ
プA1で正規化された翻訳対象語句のおのおのに対し
て、対訳辞書DB11を引くことにより、それぞれの訳
語候補のリストを作成する(ステップA2)。次に翻訳
対象語句グループ分け手段6は、各翻訳対象語句に対し
て、本発明の用途などに応じて予め設定されたグループ
分け関数を計算するのに必要なソース言語、あるいはタ
ーゲット言語上の統計情報を統計的言語情報DB12か
ら読み出す(ステップA3)。ついで読み出された統計
情報をもとにグループ分け関数を計算し(ステップA
4)、全ての翻訳対象語句に対してグループ分けが行な
われたか判定する(ステップA5)。まだどのグループ
に属するのか判断されていない翻訳対象語句が存在する
場合には、ステップA4ないしA5の処理を繰り返す。
グループ分けが終了すると、各翻訳対象語句はグループ
ごとにまとめられて、それぞれがどのグループに属して
いるかはっきりとラベル付けされて、訳語候補縮退手段
7に渡され(ステップA6)、翻訳対象語句グループ分
け動作が終了する。
【0044】次に図8のフローチャートを参照して、本
実施の形態の訳語選択装置における訳語候補縮退動作に
ついて説明する。
【0045】訳語候補縮退動作では、まず訳語候補縮退
手段7が、各翻訳対象語句に対して訳語選択における曖
昧性が大きいかどうかを、統計的言語情報DB12に記
録されている各語句の統計情報をもとに判別する(ステ
ップB1)。ついで、その判別動作が全ての翻訳対象語
句に対して行なわれたか判断し(ステップB2)、まだ
の場合は、ステップB1ないしB2の処理を繰り返す。
次に、訳語曖昧性が大きいと判断された翻訳対象語句に
対して、統計的言語情報DB12に記録されている統計
情報をもとに、現在の訳語候補リストを何個の仮想的な
代表訳語にどのように縮退させるか求める。このとき、
どの代表訳語が訳語候補リストのどの訳語を代表してい
るものかも記録しておく(ステップB3)。さらに、ス
テップB1で曖昧性が大きいと判別された全ての語句に
対して仮想的な代表訳語が求められたか判定し(ステッ
プB4)、まだの場合は、ステップB3ないしB4の処
理を繰り返す。曖昧性が大きいと判別された全ての語句
に対して仮想的な代表訳語が求められると、訳語候補縮
退動作は終了する。
【0046】次に図9のフローチャートを参照して、本
実施の形態の訳語選択装置における第一段階訳語選択動
作について説明する。
【0047】第一段階訳語選択動作では、まず、ステッ
プB1で訳語選択における曖昧性が大きいと判別された
各翻訳対象語句に対して、その訳語候補のリストをステ
ップB3で求められた仮想的な代表訳語のリストに一時
的に置き換える(ステップC1)。ついで、曖昧性が大
きいと判別された全ての翻訳対象語句に対して、この置
き換えが終了したか判定し(ステップC2)、まだの場
合は、ステップC1ないしC2の処理を繰り返す。次に
翻訳対象語句グループ分け動作でグループ分けされた語
句の1つのグループを、これから説明するステップC4
ないしC6の処理の対象として選択する(ステップC
3)。そのグループ内の翻訳対象語句の可能な訳語の組
合せ全てに対して、統計的言語情報DB12に記録され
ている統計情報をもとに、予め定められた評価関数を計
算する(ステップC4)。求められた評価関数の値、す
なわち評価値がそれまでに計算した訳語の組の評価値の
最大値よりも大きくなったとき、その訳語の組と評価値
の値とを記録する(ステップC5)。最大評価値の訳語
の組だけを求めるのではなく、他の条件(例えば上位n
個の訳語の組を求めるなど)の場合には、その条件を満
たす訳語の組を別々に記録すれば良い。さらに、全ての
可能な訳語の組合せに対して評価値が求められたか判定
し(ステップC6)、まだの場合はステップC4ないし
ステップC6の処理を繰り返す。1つのグループ内での
最大評価値を持つ訳語の組が定められると、今度は最大
評価値を持つ訳語の組がまだ定められていないグループ
があるかどうか判定し(ステップC7)、そのようなグ
ループが存在する場合には、ステップC3ないしステッ
プC7の処理を繰り返す。こうして全ての翻訳対象語句
に対して、その語句が曖昧性の小さい語句だった場合は
最適の訳語、その語句が曖昧性の大きな語句だった場合
は、最適の仮想的な代表訳語が決定され、第一段階訳語
選択動作の終了となる。
【0048】次に図10のフローチャートを参照して、
本実施の形態の訳語選択装置における第二段階訳語選択
動作について説明する。
【0049】第二段階訳語選択動作では、まず、各翻訳
対象語句に対して、その訳語候補のリストを第一段階訳
語選択手段8で求められた訳語(その翻訳対象語句が曖
昧性が大きいと判別された語句の場合は代表訳語)に置
き換える(ステップD1)。
【0050】ついで、ステップD1で置き換えられた訳
語が仮想的な代表訳語の場合は、さらにそれを、その代
表訳語によって代表されている訳語候補のリストに置き
換える(ステップD2)。全ての翻訳対象語句に対し
て、この置き換えが終了したか判定し(ステップD
3)、まだの場合は、ステップD1ないしD3の処理を
繰り返す。次に翻訳対象語句グループ分け動作でグルー
プ分けされた語句の1つのグループを、これから説明す
るステップD5ないしD7の処理の対象として選択する
(ステップD4)。そのグループ内の翻訳対象語句の可
能な訳語の組合せ全てに対して、統計的言語情報DB1
2に記録されている統計情報をもとに、予め定められた
評価関数を計算する(ステップD5)。求められた評価
関数の値、すなわち評価値がそれまでに計算した訳語の
組の評価値の最大値よりも大きくなったとき、その訳語
の組と評価値の値とを記録する(ステップD6)。最大
評価値の訳語の組だけを求めるのではなく、他の条件
(例えば上位n個の訳語の組を求めるなど)の場合に
は、その条件を満たす訳語の組を別々に記録すれば良
い。さらに、全ての可能な訳語の組合せに対して評価値
が求められたか判定し(ステップD7)、まだの場合は
ステップD5ないしステップD7の処理を繰り返す。1
つのグループ内での最大評価値を持つ訳語の組が定めら
れると、今度は最大評価値を持つ訳語の組がまだ定めら
れていないグループがあるかどうか判定し(ステップD
8)、そのようなグループが存在する場合には、ステッ
プD4ないしステップD8の処理を繰り返す。こうして
第一段階訳語選択動作では、仮想的な代表訳語が選ばれ
ただけの、曖昧性の大きな翻訳対象語句に対しても、本
来の訳語候補リストの中から適した訳語が選ばれる。
【0051】よって、最終的に全ての翻訳対象語句に対
して、適した訳語が選択され、出力装置3に出力され
る。これで第二段訳語選択動作が終了し、それととも
に、本実施の形態における本発明の動作が終了する。
【0052】以下では、本実施の形態における訳語選択
装置の動作について、ソース言語を日本語、ターゲット
言語を英語とした、具体的な実例を用いて説明する。
【0053】なお、その具体例において、語句切り出し
・正規化用辞書DB10には日本語用の語句切り出しと
正規化規則が記録されているものとする。また、対訳辞
書DB11には日英辞書が、統計的言語情報DB12に
は日英それぞれの言語に対して、任意の語句の出現回数
と、任意の2つの語句の共起頻度と、それらの値から計
算された任意の2つの語句間の相互情報量が記録されて
いるものとする。
【0054】最初に入力装置1に文字列が与えられる
と、翻訳対象語句グループ分け動作が起動され、翻訳対
象語句の切り出しと正規化、ついで辞書引きが行われる
(ステップA1〜A2)。図11を参照すると、この例
では翻訳対象語句として「広告」「看板」など5つの語
句が切り出されており、「広告」に対して1つ、「看
板」に対して6つ、「出す」に対して6つ、「今日」に
対して3つ、「10年前」に対して1つ、総計17個の
訳語候補が辞書引きされリストになっている。次に「広
告」「看板」など5つの翻訳対象語句のグループ分けが
行なわれる。この例ではある語句と、あるグループに属
する語句それぞれとの相互情報量の平均値が閾値以上の
とき、その語句をグループに新たに加えるという処理
を、これ以上グループ分けされる翻訳対象語句がなくな
るまで繰り返すことによりグループ分けされるものとす
る(ステップA3〜A5)。図12はグループ分けの結
果の1例であり、5つの翻訳対象語句が3つの翻訳対象
語句からなるグループ1と、2つの翻訳対象語句からな
るグループ2に分けられている。さらに、これらのグル
ープそれぞれを独立に訳語候補縮退動作に送る(ステッ
プA6)。以後、グループ1に対しても、グループ2に
対しても同様の動作が個別に行なわれるだけなので、こ
れからの説明でもグループ1だけを対象にして例示して
いくことにする。
【0055】訳語候補縮退動作では、まず各翻訳対象語
句ごとに訳語選択における曖昧性を判別する(ステップ
B1〜B2)。今回の例では図6にあるような判別基準
により、翻訳対象語句「看板」と「出す」が曖昧な語句
であると判別されたとする。ついで、これらの語句に対
して訳語候補から仮想的な代表訳語を作成する(ステッ
プB3〜B4)。ここでは、各訳語候補間および予め設
定された基準となる頻出語句との共起頻度(正規化済
み)が特徴ベクトルとして使用され、仮想的な代表訳語
の特徴ベクトルとしては、それが代表する訳語の特徴ベ
クトルの重心が使用されるものとする。つまり、仮想的
な代表訳語の特徴ベクトルは、それが代表する訳語につ
いて統計的言語情報DB12に記録されている特徴ベク
トルから求められる。また、訳語候補リストに含まれる
訳語が、いくつの代表訳語にどのように代表されるか決
定するためのアルゴリズムとしては、1つの代表訳語に
代表される訳語候補の特徴ベクトルを全て包むようなベ
クトル空間上の球を描いた時、その球の中心点と現在考
慮している代表訳語の特徴ベクトルとが一定の閾値内に
収まるよう、訳語候補リストにある訳語をベクトル空間
上の距離で分けていくという手法をとるとする(図1
3、14参照)。
【0056】今回の例では、「看板」の6つの訳語候補
のうち、「signboard」と「nameboar
d」と「fascia」の3つの訳語が rkan1
に、「chucking−out time」と「cl
osing time」の2つが rkan2 に、「r
eputation」が rkan3 に縮退し、「出
す」の6つの訳語候補全てが1つの代表訳語 rdas
1 に縮退している。「看板」の例では3つの代表訳語
が作成されているのに、「出す」の例では1つの代表訳
語だけ作成されているのは、特徴ベクトル空間の密度の
偏りのためである。この例のアルゴリズムではある空間
の近傍に特徴ベクトルの偏りがあれば、それらをまとめ
て代表する代表ベクトルが作成される。
【0057】第一段階訳語選択動作では、曖昧性が大き
いと判別された翻訳対象語句の訳語候補リストを代表訳
語のリストに置き換える(ステップC1〜C2)。図1
5の例では、「看板」の6つの訳語候補のリストが3つ
の代表訳語のリストに、「出す」の6つの訳語候補のリ
ストが1つの代表訳語に置き換えられている。こうして
置き換えられた訳語候補の全ての組合せ 1*3*1 =
3 通りに対して評価関数を計算し、最も評価値の高い
組合せを選択する(ステップC4〜C6)。ここでは
「広告」に対して「advertisement」、
「看板」に対して「rkan1」、「出す」に対して
「rdas1」が訳語として選択されたとする。同様の
動作をグループ2に対しても行なう。
【0058】第二段階訳語選択動作では、まず、第一段
階訳語選択動作で選択された訳語のうち、仮想的な代表
訳語をそれが代表している訳語候補のリストに置き換え
る(ステップD1〜D3)。この例では図16のように
なる。ついであらためて、置き換えられた訳語候補の全
ての組合せ 1*3*6 = 18 通りに対して評価関数
を計算し、最も評価値の高い組合せが選択される(ステ
ップD5〜D7)。
【0059】同様の動作をグループ2に対しても行な
う。
【0060】こうして、グループ分けと代表訳語を用い
ることにより、本来の全訳語候補の組合せ 1*6*6
*3*1 = 108 通りに対して評価関数を計算する
必要がなく、最終的に訳語が選択され、出力装置3に出
力される。
【0061】次に、本発明の第2の実施形態について図
面を参照して詳細に説明する。
【0062】図17を参照すると、本発明の第2の実施
の形態は、本発明の第1の実施の形態に加えて、語句拡
張手段13を有する点で異なる。
【0063】語句拡張手段13は、翻訳対象として切り
出された語句やその訳語候補リストに含まれている語句
に対する統計情報が、統計的言語情報DB12に、訳語
選択に使用する評価関数の計算等に十分なだけ精度良く
記録されているか判断する。そして、十分な統計情報が
記録されていない場合には、統計的言語情報DB12に
記録されている情報をもとに、翻訳対象語句を拡張・追
加し、評価関数の計算等が精度良く行なえるようにす
る。
【0064】ここで、統計情報が訳語選択に使用する評
価関数の計算等に十分なだけ精度良く記録されていない
場合とは、翻訳対象語句として切り出された語句の数が
僅かで、それらがもともと低頻度語句である場合や、統
計的言語情報DB12に記録されている情報を作成する
ために用いた言語コーパスなどが十分な分量でなかった
場合などがある。また、どのような語句を新たに拡張語
句として追加するかは、本発明の用途や適用分野などに
応じて予め設定しておけば良いが、その例としては、も
との翻訳対象語句と共起頻度が高い語句を一定数追加す
る、翻訳対象語句の特徴ベクトルから一定距離内に特徴
ベクトルを持つ語句のうち、その語句の持つ情報量が大
きいものを追加する、などといった手法が考えられる。
【0065】なお、本実施の形態では、翻訳対象語句切
り出し・正規化手段4、辞書引き手段5、翻訳対象語句
グループ分け手段6、訳語候補縮退手段7、第一段階訳
語選択手段8、第二段階訳語選択手段9、語句切り出し
・正規化用辞書DB10、対訳辞書DB11、統計的言
語情報DB12、語句拡張手段13は、データ処理装置
2に備え付けられている必要はなく、データ処理装置2
を制御するためのプログラムとして、CD−ROMやフ
ロッピーディスクなどの機械読みとり可能な記録媒体に
格納して提供され、データ処理装置2に読み込まれて実
行されるものとしてもよい。
【0066】以下、本実施の形態の訳語選択装置におけ
る動作について説明する。本実施の形態での動作は、第
1の実施の形態での場合と同じく、翻訳対象語句グルー
プ分け動作、訳語候補縮退動作、第一段階訳語選択動
作、第二段階訳語選択動作の4つの動作からなってい
る。このうち、翻訳対象語句グループ分け動作にのみ、
語句拡張に関する処理が増えており、他の3つの動作
は、第1の実施の形態での場合とまったく共通である。
よって、翻訳対象語句グループ分け動作についてのみ触
れ、他の3つの動作に関する説明は省略する。
【0067】本実施の形態での翻訳対象語句グループ分
け動作を示すフローチャートは、図18のようになる。
【0068】翻訳対象語句グループ分け動作では、ま
ず、翻訳対象語句切り出し・正規化手段4が、語句切り
出し・正規化用辞書DB10に記録されている規則にし
たがって、入力装置1から読み込んだ文字列や文章か
ら、翻訳対象語句を切り出し、その表記の正規化を行な
う(ステップE1)。辞書引き手段5は、続いてステッ
プE1で正規化された翻訳対象語句のおのおのに対し
て、対訳辞書DB11を引くことにより、それぞれの訳
語候補のリストを作成する(ステップE2)。次に語句
拡張手段13は、各翻訳対象語句やその訳語候補リスト
に含まれている語句に対する統計情報が、統計的言語情
報DB12に、訳語選択に使用する評価関数の計算等に
十分なだけ精度良く記録されているか判断する(ステッ
プE3)。十分な統計情報が記録されている場合には後
で述べるステップE7に処理を移す。十分な統計情報が
記録されていない場合には、統計的言語情報DB12か
ら語句拡張に必要な情報を読み出し(ステップE4)、
翻訳対象語句の拡張を行なう(ステップE5)。この
後、拡張された語句ももともとあった語句もまったく同
様に処理を進めるが、どの語句が拡張された語句で、ど
の語句がオリジナルのものか区別がつくよう、はっきり
とラベル付けしておく。ついで、拡張された翻訳対象語
句に対して、対訳辞書DB11から訳語候補リストを求
めて(ステップE6)、ステップE7に処理を移す。ス
テップE7では、翻訳対象語句グループ分け手段6が、
全ての翻訳対象語句に対して、本発明の用途などに応じ
て予め設定されたグループ分け関数を計算するのに必要
なソース言語、あるいはターゲット言語上の統計情報を
統計的言語情報DB12から読み出す。ついで読み出さ
れた統計情報をもとにグループ分け関数を計算し(ステ
ップE8)、全ての翻訳対象語句に対してグループ分け
が行なわれたか判定する(ステップE9)。まだどのグ
ループに属するのか判断されていない翻訳対象語句が存
在する場合には、ステップE8ないしE9の処理を繰り
返す。
【0069】グループ分けが終了すると、各翻訳対象語
句はグループごとにまとめられて、それぞれがどのグル
ープに属しているかはっきりとラベル付けされて、訳語
候補縮退手段7に渡され(ステップE10)、翻訳対象
語句グループ分け動作が終了する。
【0070】また、本実施の形態での訳語選択装置で
は、第二段階訳語選択動作で選択された訳語のうち、オ
リジナルの翻訳対象語句に対する訳語のみ、出力装置3
に出力してもよいし、参考情報として、拡張された翻訳
対象語句とその訳語も、本発明により拡張されたもので
あることを示した上で出力して構わない。
【0071】次に、本実施の形態での訳語選択装置にお
ける動作を、具体的な実例を用いて説明する。
【0072】なお、その具体例において、語句切り出し
・正規化用辞書DB10、対訳辞書DB11、統計的言
語情報DB12に記録されている情報等の条件は、第1
の実施の形態の具体例での場合と同様であるとする。
【0073】まず、翻訳対象語句グループ分け動作のス
テップE1にて切り出された翻訳対象語句が「粒度」
「分散」の2つであるとする。このうち、特に「粒度」
は一般にあまり使用されない低頻度語であり、今回の例
では、統計的言語情報DB12に記録されている「粒
度」と「分散」の直接の共起頻度が0であったとする。
ステップE2での辞書引きの後、ステップE3では「粒
度」の出現頻度と「分散」の出現頻度から、これらの共
起頻度の値0の有意度を検定し、語句拡張の必要がある
と判断する。ついで、「粒度」「分散」それぞれに共起
する語句のうち、共通に共起するもの、一定の閾値以上
の情報量をもつものを拡張する語句として追加し、それ
らの拡張語句に対しても辞書引きを行なう(ステップE
4〜E6)。図19は、こうして作成された翻訳対象語
句と訳語候補リストの例を示している。「粒度」と「分
散」との直接の統計的言語情報は精度が悪くても、「粒
度」と拡張された語句、「分散」と拡張された語句との
統計的言語情報が精度の良いものであれば、間接的に訳
語選択に統計的言語情報が利用可能となる。
【0074】図19の翻訳対象語句および訳語候補リス
トに対するステップE8以降の処理は、第1の実施の形
態での場合とまったく同様な手順のため省略する。
【0075】また、この例では、翻訳対象語句拡張の必
要性の判断や、語句拡張基準にソース言語の統計情報の
み使用しているが、各翻訳対象語句の訳語候補リストに
ある語句のターゲット言語上での統計情報を用いても構
わない。
【0076】
【発明の効果】第1の効果は、統計的言語情報を用いた
訳語選択が、全ての可能な訳語の組合せに対して評価関
数等の計算をしなくても、実行可能になることである。
この結果、翻訳対象として取り扱うことのできる語句の
数を大きく増大させることができ、これまでと同じ語句
数に対してもより高速に訳語選択が可能となる。その理
由は、まず、入力された翻訳対象語句のうち相互に相関
の薄い語句を別のグループに分け、さらに訳語候補の特
徴ベクトルをその代表値を用いて段階に分けて処理を進
めていくことにより、評価しなければならない訳語の組
合せ数が減少するからである。
【0077】第2の効果は、予め記録された統計的言語
情報が不十分な場合でも、精度の良い訳語選択が可能に
なることである。その理由は、翻訳対象として入力され
た語句間の統計的言語情報が不十分な場合は、評価関数
の計算等に基準として利用可能な語句を一時的に翻訳対
象語句に追加することにより、間接的に精度の良い統計
的言語情報を用いて訳語選択を行なうためである。ま
た、訳語選択の評価関数の計算時に、いくつかの訳語候
補の特徴ベクトルの値を代表させた、代表訳語の特徴ベ
クトルを用いているため、結果として特徴ベクトルの値
の統計的ばらつきが押えられるという理由も存在する。
【図面の簡単な説明】
【図1】翻訳対象語句とその訳語候補のリストを示す図
である。
【図2】語句の特徴ベクトルと訳語選択用の評価関数を
示す図である。
【図3】本発明の第1の実施の形態の構成を示すブロッ
ク図である。
【図4】翻訳対象語句グループ分けの例を示す図であ
る。
【図5】複数の訳語候補が仮想的な代表訳語に縮退する
例を示す図である。
【図6】曖昧性が大きい語句を判別する手法の例を示す
図である。
【図7】本発明の第1の実施の形態の翻訳対象語句グル
ープ分け動作を示すフローチャートである。
【図8】本発明の第1の実施の形態の訳語候補縮退動作
を示すフローチャートである。
【図9】本発明の第1の実施の形態の第一段階訳語選択
動作を示すフローチャートである。
【図10】本発明の第1の実施の形態の第二段階訳語選
択動作を示すフローチャートである。
【図11】本発明の第1の実施の形態において辞書引き
手段が作成した翻訳対象語句とその訳語候補リストの具
体例を示す図である。
【図12】本発明の第1の実施の形態において翻訳対象
語句グループ分け手段がグループ分けした翻訳対象語句
の具体例を示す図である。
【図13】本発明の第1の実施の形態の訳語候補縮退手
段において代表訳語に縮退する訳語候補の具体例(翻訳
対象が「看板」の場合)を示す図である。
【図14】本発明の第1の実施の形態の訳語候補縮退手
段において代表訳語に縮退する訳語候補の具体例(翻訳
対象が「出す」の場合)を示す図である。
【図15】本発明の第1の実施の形態において第一段階
訳語選択手段が評価関数を計算する翻訳対象語句とそれ
らの訳語候補リストの具体例を示す図である。
【図16】本発明の第1の実施の形態において第二段階
訳語選択手段が評価関数を計算する翻訳対象語句とそれ
らの訳語候補リストの具体例を示す図である。
【図17】本発明の第2の実施の形態の構成を示すブロ
ック図である。
【図18】本発明の第2の実施の形態の翻訳対象語句グ
ループ分け動作を示すフローチャートである。
【図19】本発明の第2の実施の形態において語句拡張
手段により拡張された翻訳対象語句とそれらの訳語候補
リストの具体例を示す図である。
【符号の説明】
1…入力装置 2…データ処理装置 3…出力装置 4…翻訳対象語句切り出し・正規化手段 5…辞書引き手段 6…翻訳対象語句グループ分け手段 7…訳語候補縮退手段 8…第一段階訳語選択手段 9…第二段階訳語選択手段 10…語句切り出し・正規化用辞書DB(データベー
ス) 11…対訳辞書DB(データベース) 12…統計的言語情報DB(データベース) 13…語句拡張手段
───────────────────────────────────────────────────── フロントページの続き (72)発明者 奥村 明俊 東京都港区芝五丁目7番1号 日本電気株 式会社内 Fターム(参考) 5B091 AA05 CA22 CC02 CC05

Claims (16)

    【特許請求の範囲】
  1. 【請求項1】 翻訳対象語句のグループ分け、訳語候補
    の集合的な取り扱いにより、段階的に翻訳対象語句の訳
    語を選択する訳語選択装置。
  2. 【請求項2】 翻訳対象語句をグループ分けする翻訳対
    象語句グループ分け手段と、複数の訳語候補を仮想的な
    代表訳語にまとめる訳語候補縮退手段と、代表訳語を用
    いて大まかな訳語選択を行なう第一段階訳語選択手段
    と、前記第一段階訳語選択手段で選択された大まかな訳
    語から最終的な訳語を選択する第二段階訳語選択手段と
    を備えた訳語選択装置。
  3. 【請求項3】 前記翻訳対象語句グループ分け手段は翻
    訳対象語句のうち相互に相関の薄い語句を別のグループ
    に分ける手段であり、 前記訳語候補縮退手段は曖昧性の大きい複数の訳語候補
    を仮想的な代表訳語にまとめる手段である請求項2記載
    の訳語選択装置。
  4. 【請求項4】 翻訳対象語句間の統計言語情報を基に翻
    訳対象語句それぞれの訳語を選択する訳語選択装置にお
    いて、翻訳対象語句と相関の濃い翻訳対象語句を追加す
    る語句拡張手段を備えた訳語選択装置。
  5. 【請求項5】 翻訳対象語句を拡張する語句拡張手段
    と、翻訳対象語句をグループ分けする翻訳対象語句グル
    ープ分け手段と、複数の訳語候補を仮想的な代表訳語に
    まとめる訳語候補縮退手段と、代表訳語を用いて大まか
    な訳語選択を行なう第一段階訳語選択手段と、前記第一
    段階訳語選択手段で選択された大まかな訳語から最終的
    な訳語を選択する第二段階訳語選択手段とを備えた訳語
    選択装置。
  6. 【請求項6】 前記翻訳対象語句グループ分け手段は翻
    訳対象語句のうち相互に相関の薄い語句を別のグループ
    に分ける手段であり、 前記訳語候補縮退手段は曖昧性の大きい複数の訳語候補
    を仮想的な代表訳語にまとめる手段であり、 前記語句拡張手段は翻訳対象語句間の統計言語情報が不
    十分な場合に、翻訳対象語句と相関の濃い翻訳対象語句
    を追加する手段である請求項5記載の訳語選択装置。
  7. 【請求項7】 翻訳対象語句をグループ分けする翻訳対
    象語句グループ分け処理と、複数の訳語候補を仮想的な
    代表訳語にまとめる訳語候補縮退処理と、代表訳語を用
    いて大まかな訳語選択を行なう第一段階訳語選択処理
    と、前記第一段階訳語選択処理で選択された大まかな訳
    語から最終的な訳語を選択する第二段階訳語選択処理と
    を計算機に実現させるためのプログラムを記録した記録
    媒体。
  8. 【請求項8】 前記翻訳対象語句グループ分け処理は翻
    訳対象語句のうち相互に相関の薄い語句を別のグループ
    に分ける処理であり、 前記訳語候補縮退処理は曖昧性の大きい複数の訳語候補
    を仮想的な代表訳語にまとめる処理である請求項7記載
    の記録媒体。
  9. 【請求項9】 翻訳対象語句を拡張する語句拡張処理
    と、翻訳対象語句間の統計言語情報を基に翻訳対象語句
    それぞれの訳語を選択する訳語選択処理とを計算機に実
    現させるためのプログラムを記録した記録媒体。
  10. 【請求項10】 翻訳対象語句を拡張する語句拡張処理
    と、翻訳対象語句をグループ分けする翻訳対象語句グル
    ープ分け処理と、複数の訳語候補を仮想的な代表訳語に
    まとめる訳語候補縮退処理と、代表訳語を用いて大まか
    な訳語選択を行なう第一段階訳語選択処理と、前記第一
    段階訳語選択手段で選択された大まかな訳語から最終的
    な訳語を選択する第二段階訳語選択処理とを計算機に実
    現させるためのプログラムを記録した記録媒体。
  11. 【請求項11】 前記語句拡張処理は翻訳対象語句間の
    統計言語情報が不十分な場合に、翻訳対象語句と相関の
    濃い翻訳対象語句を追加する処理であり、 前記翻訳対象語句グループ分け処理は翻訳対象語句のう
    ち相互に相関の薄い語句を別のグループに分ける処理で
    あり、 前記訳語候補縮退処理は曖昧性の大きい複数の訳語候補
    を仮想的な代表訳語にまとめる処理である請求項10記
    載の記録媒体。
  12. 【請求項12】 翻訳対象語句をグループ分けし、複数
    の訳語候補を仮想的な代表訳語にまとめ、代表訳語を用
    いて大まかな訳語選択をまず行ない、ついで、選択され
    た大まかな訳語から最終的な訳語を選択する訳語選択方
    法。
  13. 【請求項13】 翻訳対象語句のうち相互に相関の薄い
    語句を別のグループに分けることで翻訳対象語句をグル
    ープ分けし、かつ、曖昧性の大きい複数の訳語候補を仮
    想的な代表訳語にまとめる請求項12記載の訳語選択方
    法。
  14. 【請求項14】 翻訳対象語句間の統計言語情報が不十
    分な場合に翻訳対象語句と相関の濃い翻訳対象語句を追
    加して訳語の選択を行なう訳語選択方法。
  15. 【請求項15】 翻訳対象語句を拡張し、翻訳対象語句
    をグループ分けし、複数の訳語候補を仮想的な代表訳語
    にまとめ、代表訳語を用いて大まかな訳語選択をまず行
    ない、ついで、選択された大まかな訳語から最終的な訳
    語を選択することを特徴とする訳語選択方法。
  16. 【請求項16】 翻訳対象語句間の統計言語情報が不十
    分な場合に翻訳対象語句と相関の濃い翻訳対象語句を追
    加することで翻訳対象語句を拡張し、翻訳対象語句のう
    ち相互に相関の薄い語句を別のグループに分けることで
    翻訳対象語句をグループ分けし、かつ、曖昧性の大きい
    複数の訳語候補を仮想的な代表訳語にまとめる請求項1
    5記載の訳語選択方法。
JP11119663A 1999-04-27 1999-04-27 訳語選択装置及び訳語選択方法並びに記録媒体 Pending JP2000311169A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11119663A JP2000311169A (ja) 1999-04-27 1999-04-27 訳語選択装置及び訳語選択方法並びに記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11119663A JP2000311169A (ja) 1999-04-27 1999-04-27 訳語選択装置及び訳語選択方法並びに記録媒体

Publications (1)

Publication Number Publication Date
JP2000311169A true JP2000311169A (ja) 2000-11-07

Family

ID=14766996

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11119663A Pending JP2000311169A (ja) 1999-04-27 1999-04-27 訳語選択装置及び訳語選択方法並びに記録媒体

Country Status (1)

Country Link
JP (1) JP2000311169A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015029241A1 (en) * 2013-08-27 2015-03-05 Nec Corporation Word translation acquisition method

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015029241A1 (en) * 2013-08-27 2015-03-05 Nec Corporation Word translation acquisition method
JP2016532916A (ja) * 2013-08-27 2016-10-20 日本電気株式会社 単語訳取得方法

Similar Documents

Publication Publication Date Title
JP2742115B2 (ja) 類似文書検索装置
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
US5724593A (en) Machine assisted translation tools
JP3918531B2 (ja) 類似文書検索方法およびシステム
US5907821A (en) Method of computer-based automatic extraction of translation pairs of words from a bilingual text
US5227971A (en) Apparatus for and method of selecting a target language equivalent of a predicate word in a source language word string in a machine translation system
JP2001043236A (ja) 類似語抽出方法、文書検索方法及びこれらに用いる装置
JPH1145241A (ja) かな漢字変換システムおよびそのシステムの各手段としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
WO2008107305A2 (en) Search-based word segmentation method and device for language without word boundary tag
WO2000062193A1 (en) System for chinese tokenization and named entity recognition
JP4534666B2 (ja) テキスト文検索装置及びテキスト文検索プログラム
JPH10326275A (ja) 形態素解析方法および装置、並びに日本語形態素解析方法および装置
JP2004070636A (ja) 概念検索装置
JP5447368B2 (ja) 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム
KR100559472B1 (ko) 영한 자동번역에서 의미 벡터와 한국어 국소 문맥 정보를사용한 대역어 선택시스템 및 방법
Ahmed et al. Gold dataset for the evaluation of bangla stemmer
JP2000311169A (ja) 訳語選択装置及び訳語選択方法並びに記録媒体
JPH11143902A (ja) n−gramを用いた類似文書検索方法
JPH11328318A (ja) 確率テーブル作成装置、確率方式言語処理装置、認識装置、及び、記録媒体
JP4088171B2 (ja) テキスト解析装置、方法、プログラム及びそのプログラムを記録した記録媒体
JP2002132789A (ja) 文書検索方法
JP2005025555A (ja) シソーラス構築システム、シソーラス構築方法、この方法を実行するプログラム、およびこのプログラムを記憶した記憶媒体
JP3744136B2 (ja) 訳語選択装置と記憶媒体
JP7410576B2 (ja) 文章要約装置、文章要約方法及びプログラム並びに記録媒体
Lee et al. Text segmentation for Chinese spell checking