JP2010055298A

JP2010055298A - 翻訳対象である第１言語の用語の翻訳対である第２言語の用語を出力するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム

Info

Publication number: JP2010055298A
Application number: JP2008218444A
Authority: JP
Inventors: Tetsuya Nasukawa; 哲哉那須川; Andrade Silva Daniel; アンドラーデシルバダニエル
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2008-08-27
Filing date: 2008-08-27
Publication date: 2010-03-11
Anticipated expiration: 2028-08-27
Also published as: JP5284724B2

Abstract

【課題】母国語又は習熟した言語以外の言語で記述された文書データをテキスト・マイニングしたり、検索したいという要望に応える手段を提供する。
【解決手段】翻訳対象である第１言語の用語の翻訳対である第２言語の用語を出力するためのコンピュータ・システムは、第１言語のコーパスから、上記第１言語の用語に共起する共起用語を抽出する第１の抽出部と、上記抽出された共起用語の少なくとも１に対応する第２言語の訳語を出力する出力部と、上記第１言語のコーパスに対応する第２言語のコーパスから、上記出力された第２言語の訳語の少なくとも１に共起する訳語候補を抽出する第２の抽出部と、上記抽出された訳語候補それぞれに重み付けをする重付部と、上記重みを最適化し、該最適化された重みに従い上記第１言語の用語についての翻訳対のリストを生成する生成部とを含む。
【選択図】図１Ａ

Description

本発明は、翻訳対象である第１言語の用語の翻訳対である第２言語の用語を出力するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラムに関する。

母国語又は習熟した言語以外の言語で記述された文書データをテキスト・マイニングしたり、検索したいという要望がある。しかし、技術用語（特に、分野特有の技術用語）又は複合名詞（以下、技術用語等）の訳語は一般的な辞書又は机上版の辞書に記載されていない可能性があるので、その対応する訳語の翻訳は困難性を伴う。しかしながら、ユーザが他言語テキスト・マイニングについて興味がある場合、技術用語等は特定の知識を要約するものであるので、それら技術用語等の訳語を見つけることは重要である。例えば、英語を母国語とする人々が、車についての顧客苦情、例えば、“accelerator pedal”についての一般的な又は特定の車種についての苦情を日本語で記載されたコーパスから見つけたいと思う場合に、英語“accelerator pedal”の適切な日本語訳を見つけなければならないという問題がある。すなわち、英語を母国語とする人々は、英語“accelerator pedal”について、日本語で記載されたコーパスにおいて使用されている日本語訳を知る必要がある。

下記特許文献１は、第１言語から第２言語へと自然言語の訳語を生成する方法を記載する。該方法は、第１および第２言語からなる、対訳形式になっていない、類似内容を含むコーパスから複数の用語を抽出するステップと、第１および第２言語の単言語索引にアクセスすることによって抽出した各語にカテゴリを割り当てるステップと、カテゴリからカテゴリへの翻訳確率を使用して用語から用語への翻訳確率を推定するステップとを含む。
下記非特許文献２は、未知の英語コーパス及びドイツ語コーパスから単語翻訳を自動特定する方法を記載する。該方法は、未知のドイツ語単語の英語訳を決定するために、ドイツ語単語の関連付けベクターが計算され、そして英語の関連付けマトリックスにおける全ての関連付けベクターと比較されることを含む。

米国特許第６８８５９８５号明細書 Reinhard Rapp, Automatic Identification of World Translations from Unrelated English and German Corpora, Proceedings of the 37th conference on Association for Computational Linguistics, pages 519 - 526, 1999

本発明の目的は、母国語又は習熟した言語以外の言語で記述された文書データをテキスト・マイニングしたり、検索したいという要望に応える手段を提供することである。特に、本発明の目的は、技術用語等の訳語として可能性のある訳語候補のリストを抽出するとともに、該リストの質を高めることである。

本発明は、翻訳対象である第１言語の用語の翻訳対である第２言語の用語を出力するためのコンピュータ・システムを提供する。該コンピュータ・システムは、
第１言語のコーパスから、上記第１言語の用語に共起する１以上の共起用語を抽出する第１の抽出部と、
上記抽出された共起用語の少なくとも１に対応する１以上の第２言語の訳語を出力する出力部と、
上記第１言語のコーパスに対応する第２言語のコーパスから、上記出力された第２言語の訳語の少なくとも１に共起する１以上の訳語候補を抽出する第２の抽出部と、
上記抽出された訳語候補それぞれに重み付けをする重付部と、
上記重みを最適化し、該最適化された重みに従い上記第１言語の用語についての翻訳対のリストを生成する生成部と
を含む。

本発明の１つの実施形態として、上記第１の抽出部が、上記第１言語の用語と上記第１言語のコーパスにおいて所定の閾値以上の第１の相関の強さを有する共起用語を抽出する。

本発明の１つの実施形態として、上記第１の相関の強さが下記（１）〜（３）のいずれかを用いて求められうる。
（１）上記第１の相関の強さが、上記第１言語のコーパスにおける全文書の件数を分母とし、該全文書中において上記共起用語を含む文書の件数を分子としたときの第１の割合と、上記第１言語のコーパスにおける全文書中において上記第１言語の用語を含む文書の件数を分母とし、該第１言語の用語を含む文書中において上記共起用語を含む文書の件数を分子としたときの第２の割合との比である。
（２）上記第１の相関の強さが、上記第１言語のコーパスにおいて上記共起用語を含む文書の件数を分母とし、上記第１言語のコーパスにおいて上記第１言語の用語を含む全ての文書中において上記共起用語が出現する回数又は上記第１言語の用語と上記共起用語の両方を含む文書の件数を分子とする分数の値である。
（３）上記第１の相関の強さが、上記第１言語のコーパスにおける上記共起用語の出現確率と、上記第１言語のコーパスにおける上記第１言語の用語の出現確率の積を分母とし、上記第１言語のコーパスにおける上記共起用語と上記第１言語の用語の同時出現確率を分子とした分数の値、又は該分数の値の対数の値若しくは該対数に上記同時出現確率を掛けた値で表現される。

本発明の１つの実施形態として、上記出力部が、第１言語−第２言語の対訳辞書を用いて上記第２言語の訳語を訳語リストとして出力し、該リストに、上記第１言語の共起用語の少なくとも１に対応する第２言語の訳語を訳語リストにさらに追加する。

本発明の１つの実施形態として、上記出力部が、第２言語の同義語辞書、第２言語の類義語辞書及び第２言語のシソーラスから選択される少なくとも１以上を用いて上記訳語リストの同義語類義語を訳語リストにさらに追加する。

本発明の１つの実施形態として、上記第２の抽出部が、上記第２言語のコーパスにおいて上記第２言語の訳語と所定の閾値以上の第２の相関の強さを有する訳語候補を抽出する。

本発明の１つの実施形態として、上記第２の相関の強さが下記（１）〜（３）のいずれかを用いて求められうる。
（１）上記第２の相関の強さが、上記第２言語のコーパスにおける全文書の件数を分母とし、該全文書中において上記訳語候補を含む文書の件数を分子としたときの第１の割合と、上記第２言語のコーパスにおける全文書中において上記第２言語の訳語を含む文書の件数を分母とし、該第２言語の訳語を含む文書中において上記訳語候補を含む文書の件数を分子としたときの第２の割合との比である。
（２）上記第２の相関の強さが、上記第２言語のコーパスにおいて上記訳語候補を含む文書の件数を分母とし、上記第２言語のコーパスにおいて上記第２言語の訳語を含む全ての文書中において上記訳語候補が出現する回数又は上記第２言語の訳語と上記訳語候補の両方を含む文書の件数を分子とする分数の値である。
（３）上記第２の相関の強さが、上記第２言語のコーパスにおける上記訳語候補の出現確率と、上記第２言語のコーパスにおける上記第２言語の訳語の出現確率の積を分母とし、上記第２言語のコーパスにおける上記訳語候補と上記第２言語の訳語の同時出現確率を分子とした分数の値、又は該分数の値の対数の値若しくは該対数に上記同時出現確率を掛けた値で表現される。

本発明の１つの実施形態として、上記重付部が、上記抽出された１以上の訳語候補についてのリストをマージし、該マージされた訳語候補それぞれに重み付けをする。

本発明の１つの実施形態として、上記重付部が、上記抽出された訳語候補に加えて、上記第２言語の訳語の少なくとも１について重み付けをする。

本発明の１つの実施形態として、上記重み付けが、下記（１）〜（３）のいずれかを用いて行われうる。
（１）上記重み付けが、上記マージされたリストにおいて訳語候補が重複して出現する回数を用いる。
（２）上記重み付けが、上記回数に相対頻度又は該相対頻度を正規化した値を加えた数値であり、該相対頻度が、上記第２言語のコーパスにおける全文書の件数を分母とし、該全文書中において上記訳語候補を含む文書の件数を分子としたときの第１の割合と、上記第２言語のコーパスにおける全文書中において上記第２言語の訳語を含む文書の件数を分母とし、該第２言語の訳語を含む文書中において上記訳語候補を含む文書の件数を分子としたときの第２の割合との比を用いる。
（３）上記重み付けが、上記第１言語のコーパスにおいて第１言語の用語と所定の閾値以上の強さの相関を有する複数の共起用語と、上記第２言語のコーパスにおいて上記訳語候補と所定の閾値以上の強さの相関を有する、訳語候補に共起する複数の共起語（以下、訳語候補についての共起語を訳語候補共起語という）との間で、第１言語−第２言語の対訳辞書において対訳関係にある数を用いる。

該重み付けの１つとして、下記に述べる評価（１）〜（３）のいずれかが用いられうる。該評価は、上記第２言語の訳語が上記共起用語に対する訳語として適切であるかを評価する評価部によって行われる。
（１）上記第２言語のコーパスにおいて第２言語の訳語が出現する頻度を用いる、又は該頻度を上記出力部において出力された全ての訳語の出現する頻度の和で割って正規化する。
（２）上記第２言語のコーパスにおいて第２言語の訳語が出現する文書数を用いる、又は該文書数を上記出力部において出力された全ての訳語の出現する文書数の和で割って正規化する。
（３）該評価が、上記第１言語のコーパスにおいて上記共起用語と所定の閾値以上の強さの相関を有する、上記共起用語に共起する複数の共起語と、上記第２言語のコーパスにおいて第２言語の訳語と所定の閾値以上の強さの相関を有する複数の訳語共起語、すなわち訳語候補との間で、第１言語−第２言語の対訳辞書において対訳関係にある数を利用する。ここで、本明細書において、共起用語に共起する共起語を共起用語共起語という場合もある。

本発明の１つの実施形態として、記重みの最適化が、上記第２言語のコーパスにおいて上記訳語候補と所定の閾値以上の強さの相関を有する訳語候補共起語の数について、該数が大きいほど重みを低くするように行われる。

本発明の１つの実施形態として、上記重みの最適化が、下記式（１）又は（２）のいずれかに従い求められたランクに従い行われうる。
（１）ランク＝重み付けの値／（１＋訳語候補共起語の数×ｖ）
ここで、訳語候補共起語の数は、前記第２言語のコーパスにおいて、前記訳語候補と所定の閾値以上の強さの相関を有する訳語候補共起語の数であり、ｖは、該訳語候補共起語の数の影響がどの程度勘定されるかを決定するためのパラメータである。重み付けの値は例えば、前記第２言語の訳語の少なくとも１について抽出された１以上の訳語候補についてのリストをマージし、該マージされたリストにおいて訳語候補が重複して出現する回数である。
（２）ランク＝重み付けの値×（１−α×ＴＬ／ＴＬmax）
ここで、ＴＬは、ランク付けの対象となる訳語候補と前記第２言語のコーパスにおいて所定の閾値以上の強さの相関を有する複数の訳語候補共起語と、前記第１言語のコーパスにおいて第１言語の用語と所定の閾値以上の強さの相関を有する複数の共起用語との間で、第１言語−第２言語の対訳辞書において対訳関係にある数であり、ＴＬmaxは、全ての訳語候補のうちで、前記第２言語のコーパスにおいて所定の閾値以上の強さの相関を有する複数の訳語候補共起語と、前記第１言語のコーパスにおいて第１言語の用語と所定の閾値以上の強さの相関を有する複数の共起用語との間で、第１言語−第２言語の対訳辞書において対訳関係にある数のうち最大の数であり、αは、前記テールの影響がどの程度勘定されるかを決定するためのパラメータである。重み付けの値は例えば、前記第２言語の訳語の少なくとも１について抽出された１以上の訳語候補についてのリストをマージし、該マージされたリストにおいて訳語候補が重複して出現する回数である。

本発明の１つの実施形態として、上記出力部が、上記出力された訳語候補のリストをユーザに提示する提示部をさらに含む。

本発明の１つの実施形態として、上記翻訳対のリストのうち、ユーザによって選択された訳語候補を上記第１言語の用語の翻訳対として、第１言語−第２言語の対訳辞書に登録する登録部をさらに含む。

本発明はまた、翻訳対象である第１言語の用語の翻訳対である第２言語の用語を出力するための方法を提供する。該方法は、コンピュータ・システムに下記ステップを実行させることを含む。該ステップは、
第１言語のコーパスから、上記第１言語の用語に共起する１以上の共起用語を抽出するステップと、
上記抽出された共起用語の少なくとも１に対応する１以上の第２言語の訳語を出力するステップと、
上記第１言語のコーパスに対応する第２言語のコーパスから、上記出力された第２言語の訳語の少なくとも１に共起する１以上の訳語候補を抽出するステップと、
上記抽出された訳語候補それぞれに重み付けをするステップと、
上記重みを最適化し、該最適化された重みに従い上記第１言語の用語についての翻訳対のリストを生成するステップと
を含む。

本発明の１つの実施形態として、第１言語の用語に共起する１以上の共起用語を抽出するステップが、上記第１言語の用語と上記第１言語のコーパスにおいて所定の閾値以上の第１の相関の強さを有する共起用語を抽出するステップをさらに含む。

本発明の１つの実施形態として、上記第１の相関の強さが上記した（１）〜（３）のいずれかを用いて求められうる。

本発明の１つの実施形態として、第２言語の訳語を出力するステップが、第１言語−第２言語の対訳辞書を用いて上記第２言語の訳語を訳語リストとして出力し、該リスト、上記第１言語の共起用語の少なくとも１に対応する第２言語の訳語を訳語リストにさらに追加するステップを含む。

本発明の１つの実施形態として、第２言語の訳語を出力するステップが、第２言語の同義語辞書、第２言語の類義語辞書及び第２言語のシソーラスから選択される少なくとも１以上を用いて上記訳語リストの同義語類義語を訳語リストにさらに追加するステップを含む。

本発明の１つの実施形態として、上記方法は、コンピュータ・システムに下記ステップをさらに実行させることを含む。該ステップは、上記第２言語の訳語が上記共起用語に対する訳語として適切であるかを評価する評価するステップを含む。該評価は、上記した（１）〜（３）のいずれかの方法を使用することができる。

本発明の１つの実施形態として、訳語候補を抽出するステップが、上記第２言語のコーパスにおいて上記第２言語の訳語と所定の閾値以上の第２の相関の強さを有する訳語候補を抽出するステップを含む。

本発明の１つの実施形態として、上記第２の相関の強さが上記した（１）〜（３）のいずれかを用いて求められうる。

本発明の１つの実施形態として、上記重み付けをするステップが、上記第２言語の訳語の少なくとも１について抽出された１以上の訳語候補についてのリストをマージし、該マージされた訳語候補それぞれに重み付けをするステップを含む。

本発明の１つの実施形態として、上記重み付けをするステップが、上記抽出された訳語候補に加えて、上記第２言語の訳語の少なくとも１について重み付けをするステップをさらに含む。

該重み付けは、上記に述べた重み付け（１）〜（３）のいずれかを用いて行われうる。

該重み付けの１つとして、上記に述べた評価（１）〜（３）のいずれかが用いられうる。

本発明の１つの実施形態として、上記重みを最適化することが、上記第２言語のコーパスにおいて上記訳語候補と所定の閾値以上の強さの相関を有する訳語候補共起語の数について、該数が大きいほど重みを低くするように行われる。

本発明の１つの実施形態として、上記重みの最適化が、上記した式（１）又は（２）のいずれかに従い求められたランクに従い行われうる。

本発明の１つの実施形態として、上記出力するステップが、上記出力された訳語候補のリストをユーザに提示するステップをさらに含む。

本発明の１つの実施形態として、上記方法は、コンピュータ・システムに下記ステップをさらに実行させることを含む。該ステップは、上記ユーザによって選択された訳語候補を上記第１言語の用語の翻訳対として、第１言語−第２言語の対訳辞書に登録するステップをさらに含む。

本発明はまた、翻訳対象である第１言語の用語の翻訳対である第２言語の用語を出力するための方法を提供する。該方法は、コンピュータ・システムに下記ステップを実行させることを含む。該ステップは、
第１言語のコーパス全体から、上記第１言語の用語に共起する１以上の共起用語であって、該第１言語のコーパスにおいて所定の閾値以上の相関の強さを有する該１以上の共起用語を抽出するステップと、
上記抽出された共起用語の少なくとも１に対応する１以上の第２言語の訳語を出力するステップと、
上記第１言語のコーパスに対応する第２言語のコーパス全体から、上記出力された第２言語の訳語の少なくとも１に共起する１以上の訳語候補であって、該第２言語のコーパスにおいて所定の閾値以上の相関の強さを有する該１以上の訳語候補を抽出するステップと、
上記第２言語の訳語の少なくとも１について抽出された１以上の訳語候補についてのリストをマージし、該訳語候補それぞれに重み付けをするステップと、
上記第２言語のコーパスにおいて上記訳語候補と所定の閾値以上の強さの相関を有する訳語候補共起語の数について、該数が大きいほど重みを低くするように上記重みを最適化し、該最適化された重みに従い上記第１言語の用語についての翻訳対のリストを生成するステップと
を含む。

本発明はさらに、翻訳対象である第１言語の用語の翻訳対である第２言語の用語を出力するためのコンピュータ・プログラムを提供する。該コンピュータ・プログラムは、コンピュータ・システムに、上記のいずれか１つに記載の方法の各ステップを実行させることを含む。

本発明では、２つの異なる言語それぞれについてのコーパス全体の内容を使用することから、より正確な翻訳対が得られうる。本発明は特に、ユーザが技術用語等の辞書に記載されていない翻訳対を生成する上で有用である。本発明はまた、訳語候補のセットが与えられている場合に、曖昧な訳語候補を排除するのに有用である。

本発明の基本的な考えは、言語が異なっていても、ある用語は、該用語と同じような概念である用語と共起し易いという性質を利用して、翻訳対象である第１言語の用語の翻訳対である第２言語の用語を出力することである。

本発明の実施形態において、「第１言語」とは、翻訳のソースとなる言語（以下、ソース言語ともいう）である。「第１言語の用語」はソース言語の翻訳対象である用語でもあり、該用語は、単名詞又は複合名詞、形容詞、副詞、動詞を含むがこれらに限定されない。該用語はまた、技術用語、特に分野特有の技術用語でありうる。「翻訳対象である第１言語の用語」とは、ユーザが翻訳したいと所望する第１言語の用語であり、すなわち翻訳したい用語である。

本発明の実施形態において、「第２言語」とは、翻訳のターゲットとなる言語（以下、ターゲット言語ともいう）である。「第２言語の用語」は、ソース言語の翻訳対象である用語に対応するターゲット言語の用語であり、ソース言語の訳語である。

本発明の実施形態において、第１の言語及び第２の言語の組み合わせは、英語、日本語、中国語、台湾語、韓国語、スペイン語、ポルトガル語、ロシア語等、あらゆる言語の組み合わせでありうる。

本発明の実施形態において、「翻訳対」とは、「第１言語の用語」と、該第１言語の用語の訳語である「第２言語の用語」との対である。本発明の実施形態において、「翻訳対を生成する」とは、翻訳対象である第１言語の用語に対応する第２言語の用語を検索し、該第１言語の用語と該第２言語の用語を対応付けることをいう。

本発明の実施形態において、「コーパス」とは、集積された文書データである。コーパスの１つの例は、機械可読言語文書の集合体であり、電子化された自然言語の文章からなる巨大なテキストデータであるがこれに限定されない。コーパスは、本発明の実施形態であるコンピュータ・システム内の記憶装置内若しくは該システムに接続された記憶装置内に格納され、又は該システムとネットワークを介して接続されたサーバ・システム、例えばデータベース・サーバ・システム、プロキシ・サーバ・システム、プロバイダー・サーバ・システムの記憶装置内に格納される。
本発明の実施形態では、翻訳対を作成するために、翻訳対象である用語の言語である第１言語のコーパス、及び第２言語のコーパスを用いる。第２言語のコーパスは、第１の言語に対応するコーパスであり、第１言語のコーパスと同じような内容、すなわち類似内容に関して記述されている。第２言語のコーパスに含まれる文書内容の領域は、第１言語のコーパスに含まれる文書内容の領域と同一であるか又は類似する。例えば、第１言語のコーパスが英語の自動車不具合情報である場合、第２言語のコーパスはまた日本語の自動車不具合情報であり（すなわち、領域が同一である）又は日本語の自動車情報である（すなわち、領域が類似である）。第１言語のコーパスに含まれる各文書は、ほぼ１つのトピックであるようにすることもできる。例えば、各文書は、特定の顧客の苦情を記載した文書でありうる。同様に、第２言語のコーパスに含まれる各文書は、ほぼ１つのトピックであるようにすることもできる。
第１言語のコーパスが英語の自動車不具合情報である場合、該コーパスに含まれる文書データの一例を下記に挙げる。
「Engine oil leaks.」
「Car navigation system does notwork.」
第２言語のコーパスが日本語の自動車不具合情報である場合、該コーパスに含まれる文書データの一例を下記に挙げる。
「走行中、エンジンに異音がする。」
「エンジンオイルの交換をしたにもかかわらず、エンジンチェックランプが点灯する。」
このような不具合情報とともに、文書は、日付、メーカー名、担当者名、顧客名、車種名などの情報を含みうる。
第２言語のコーパスが第１言語の類似内容を含むコーパスである理由は、翻訳対を生成する上で、同等の意味を有する用語は同様の内容を有する異なる言語間の文書において同じような使われ方をする、或いは同じような出現傾向をとる傾向にある、ということに基づく。
第１言語及び第２言語のコーパスそれぞれは、対訳形式になっている必要はない。

本発明の実施形態において、「第１言語の用語に共起する１以上の共起用語」とは、第１言語のコーパスにおいて第１言語の用語と相関の強い共起語をいう。共起語は、表現とも呼ばれる。第１言語の用語と相関の強い共起語を、以下第１言語の共起用語という。
同様に、「第２言語の訳語に共起する１以上の訳語候補」とは、第２言語のコーパスにおいて第２言語の訳語と相関の強い共起語をいう。第２言語の訳語と相関の強い共起語を、以下、第２言語の訳語候補ともいう。
同様に、上記共起用語（すなわち、第１言語の共起用語）に共起する共起語とは、第１言語のコーパスにおいて第１言語の共起用語と相関の強い共起語をいう。第１言語の共起用語と相関の強い共起語を、以下、共起用語についての共起語ともいう。
同様に、上記訳語候補（すなわち、第２言語の訳語候補）に共起する訳語候補共起語とは、第２言語のコーパスにおいて第２言語の訳語候補と相関の強い共起語をいう。第２言語の訳語候補と相関の強い共起語を、以下、訳語候補共起語ともいう。

本発明の実施形態では、第１言語の共起用語は、第１言語のコーパスに含まれる文書の集合体全体から抽出されうる。
同様に、本発明の実施形態では、第２言語の訳語候補は、第２言語のコーパスに含まれる文書の集合体全体から抽出されうる。
同様に、本発明の実施形態では、共起用語についての共起語は、第１言語のコーパスに含まれる文書の集合体全体から抽出されうる。
同様に、本発明の実施形態では、上記訳語候補共起語は、第２言語のコーパスに含まれる文書の集合体全体から抽出されうる。

ここで、第１言語の用語と対訳関係にあるのは第２言語の訳語候補であり、第１言語の共起用語と対訳関係にあるのは第２言語の訳語である。

本明細書において、相関の強さを相関値ともいう。よって、「相関の強い」とは、相関値が高いことでもある。

本発明の１つの実施態様では、相関の強さは例えば、相対頻度、ＴＦ＊ＩＤＦ（Term Frequency-Inverse Document Frequency）、又は相互情報量で示されうるが、これらに限定されない。相関の強い共起用語又は共起用語である訳語候補を上位から抽出することによって、抽出する第１言語の共起用語又は第２言語の訳語候補の数を所定数にすることが可能になる。

第１の相関の強さは、第１言語のコーパスにおける全文書の件数（ｄｏｃ（ａｌｌ））を分母とし、該全文書中において第１言語の共起用語を含む文書の件数（ｄｏｃ（ｖ））を分子としたときの第１の割合と、第１言語のコーパスにおける全文書中において翻訳対象である用語を含む文書の件数を分母（ｄｏｃ（ｗ））とし、上記翻訳対象である用語を含む文書中において上記第１の共起用語を含む文書の件数（ｄｏｃ（ｗ）∩ｄｏｃ（ｖ））を分子としたときの第２の割合との比で表される。本明細書では、該比を第１の相対頻度という。

第２の相関の強さは、第第２言語のコーパスにおける全文書の件数（ｄｏｃ（ａｌｌ））を分母とし、該全文書中において第２の訳語候補を含む文書の件数（ｄｏｃ（ｖ））を分子としたときの第１の割合と、第２言語のコーパスにおける全文書中において訳語を含む文書の件数を分母（ｄｏｃ（ｗ））とし、上記訳語を含む文書中において上記第２の訳語候補を含む文書の件数（ｄｏｃ（ｗ）∩ｄｏｃ（ｖ））を分子としたときの第２の割合との比で表される。本明細書では、該比を第２の相対頻度という。

相対頻度は、下記式で表される。

ここで重要なことは、相関は対称的、すなわち相関（ｗ，ｖ）＝相関（ｖ，ｗ）、であることである。対称的であることは相関の強さ（関連性の強さ）の値に直接関係があるわけではないが、この性質は、訳語候補の重みの適正化において、テールが長い語の重みを適正化する際に、重みを下げる点で活きてくる。また、さらに重要なことは、相関の値が１．０より大きい場合、語ｗ及びｖが同じ文書内で生じる相関の強さを有することである。該値が高ければ高いほど、この相関の強さはより高い。
上記相関の強さは、語ｗのテールを求めるために使用されうる。テールとは、キーワードの集合（リスト）である。テールを求めるとは、共起用語又は訳語候補に対して相関が設定された閾値以上の強さの共起用語又は訳語候補を全て求める。

ＴＦ＊ＩＤＦは、ＴＦ（単語の出現頻度）及びＩＤＦ（出現文書数の逆数）の二つの指標で計算され、テキストデータの中から特徴的な単語を抽出するためのアルゴリズムである。
ＴＦ＊ＩＤＦは、第１言語のコーパスにおいて共起用語を含む文書の件数を分母とし、第１言語のコーパスにおいて第１言語の用語を含む全ての文書中において共起用語が出現する回数又は第１言語の用語と共起用語の両方を含む文書の件数を分子とする分数の値である。

そのため、ＩＤＦは、一種の一般語フィルタとして働く。よって、多くの文書に出現する語、すなわち一般的な語、は重要度が下がり、特定の文書にしか出現しない単語の重要度を上げることが可能である。

相互情報量は、確率論および情報理論において、２つの確率変数の相互依存の尺度を表す量である。相互情報量は、第１言語のコーパスにおける共起用語の出現確率と、第１言語のコーパスにおける第１言語の用語の出現確率の積を分母とし、第１言語のコーパスにおける共起用語と第１言語の用語の同時出現確率を分子とした分数の値、又は該分数の値の対数の値若しくは該対数に同時出現確率を掛けた値で表現される。
形式的には、相互情報量は、２つの離散確率変数ｘ、ｙについて、ｘ＝ｖ、ｙ＝ｗとすれば、
ｐ（ｘ）＝ｄｏｃ（ｖ）／ｄｏｃ（ａｌｌ）
ｐ（ｙ）＝ｄｏｃ（ｗ）／ｄｏｃ（ａｌｌ）
ｐ（ｘ，ｙ）＝ｄｏｃ（ｗ）∩ｄｏｃ（ｖ）
となる。
相対頻度は、ｐ（ｘ，ｙ）／（ｐ（ｘ）＊ｐ（ｙ））と等価であるので、相対頻度は相互情報量と本質的に変わらないともいえる。

その他に、相関の強さは例えば、ＩＢＭＴＡＫＭＩ（Text Analysis and Knowledge Mining）（商標）、ＩＢＭＣｏｎｔｅｎｔＡｎａｌｙｚｅｒ（ＩＣＡ）（商標）で求められうる。
ＴＡＫＭＩは、テキストデータの中から概念（キーワードとなる文字列とそのカテゴリー）を抽出し、定型情報とともに様々な統計量を計算した上で、その結果を様々な観点からユーザに提示する。統計量は例えば、共起単語の出現頻度、単語の出現頻度、話題の推移である。

ＴＡＫＭＩで用いられている相関値は、下記の式で求められうる。
相関値は、２つの文書集合Ａ、Ｂについて、Ａ=ｖ，Ｂ=ｗとすれば、
＃Ａ＝ｄｏｃ（ｖ）
＃Ｂ＝ｄｏｃ（ｗ）
＃Ｄ＝ｄｏｃ（ａｌｌ）
＃（Ａ∩Ｂ）＝ｄｏｃ（ｗ）∩ｄｏｃ（ｖ）
となる。ここで、Ｄは全文書集合であり、＃は文書集合中の文書数を表す。左辺及び右辺の値は同じになる。

相関の強さを図示した例を図８に示す。

所定の共起用語からの相関の強い共起用語の抽出は、相関の強さが設定された閾値以上であることによって行われうる。閾値は、任意に設定しうる。例えば、閾値は、データ量と実行速度のパフォーマンスを考慮しつつ、実験結果に応じて（経験的に）決められうる。データ量が多ければ閾値を上げることで、抽出される共起用語及び訳語候補のパフォーマンスが精度的にも実行速度的にも向上する。一方、データ量が少ないと一般的には、抽出される共起用語又は訳語候補を増やすために閾値を下げざるを得なくなる。

本発明の１つの実施態様では、第２言語の訳語が第１言語の共起用語に対する訳語として適切であるかを評価する。該評価は、下記のいずれかの方法に従い行われる。
（１）第２言語のコーパスにおいて第２言語の該訳語が出現する頻度を用いる、又は該頻度を前記出力部において出力された全ての訳語の出現する頻度の和で割って正規化する。正規化は、訳語がＮ語あったとして、該当訳語の頻度を（訳語１の頻度＋訳語２の頻度＋訳語３の頻度＋．．．＋訳語Ｎの頻度）で割ることによって求められる。
（２）第２言語のコーパスにおいて第２言語の該訳語が出現する文書数を用いる、又は該文書数を前記出力部において出力された全ての訳語の出現する文書数の和で割って正規化する。
（３）第１言語のコーパスにおいて第１言語の共起用語と所定の閾値以上の強さの相関を有する、共起用語についての複数の共起語と、第２言語のコーパスにおいて第２言語の訳語と所定の閾値以上の強さの相関を有する複数の訳語候補との間で、第１言語−第２言語の対訳辞書において対訳関係にある数を利用する。
上記（１）及び（２）についての評価は、訳語候補が第２言語のコーパスに実際に存在するかを調べることによって適切性を評価するものである。例えば、「lever」の訳語候補「てこ」及び「レバー」のうち、対象分野の日本語コーパスではどちらがより多く出現するかで、対象分野における訳語の適切性が判断される。

上記評価によって、所定の閾値以上を有する第２言語の訳語が、第１言語の共起用語に対する訳語として出力される。

以下に、第２言語のコーパスにおいて第２言語の該訳語が出現する頻度を他の訳語全ての出現する頻度の和で割って正規化する例を示す。
「mirror」の全訳語候補が、［反動，鏡，反射，映像，映り，範囲，影響，響く，機会，ミラー，反響する，反射する，映す］であるとする。
次に、自動車の不具合に関する文書データベース（コーパス）における各訳語候補の出現文書数が、以下の通りであるとする。
「反動」を含む文書の件数＝ 4件
「鏡」を含む文書の件数＝ 33件
「反射」を含む文書の件数＝ 10件
「映像」を含む文書の件数＝ 2件
「映り」を含む文書の件数＝ 3件
「範囲」を含む文書の件数＝ 17件
「影響」を含む文書の件数＝ 25件
「響く」を含む文書の件数＝ 7件
「機会」を含む文書の件数＝ 1件
「ミラー」を含む文書の件数＝ 18件
「反響する」を含む文書の件数＝ 1件
「反射する」を含む文書の件数＝ 2件
「映す」を含む文書の件数＝ 2件
ここで、閾値が出現文書数であり、閾値が15の場合に出力される訳語は、「鏡」、「範囲」、「影響」及び「ミラー」である。
各文書件数を文書件数の総数（125件）で正規化して、値の大きい順に並べた場合、以下の通りであるとする。
鏡 0.264
影響 0.2
ミラー 0.144
範囲 0.136
反射 0.08
響く 0.056
反動 0.032
映り 0.024
映像 0.016
反射する 0.016
映す 0.016
機会 0.008
反響する 0.008
ここで、閾値が0.1の場合に出力される訳語は、「鏡」、「影響」、「ミラー」及び「範囲」である。

本発明の１つの実施態様では、上記重みの最適化が、上記第２言語のコーパスにおいて上記訳語候補と所定の閾値以上の強さの相関を有する訳語候補共起語の数について、該数が大きいほど重みを低くするように行われる。該重みの最適化は例えば、下記の式に従い求められたランクに従い行われうる。
（１）ランク＝回数／（１＋訳語候補共起語の数×ｖ）
ここで、回数は、上記第２言語の訳語の少なくとも１について抽出された１以上の訳語候補についてのリストをマージし、該マージされたリストにおいて訳語候補が重複して出現する回数であり、訳語候補共起語の数は、上記第２言語のコーパスにおいて、上記訳語候補と所定の閾値以上の強さの相関を有する訳語候補共起語の数であり、ｖは、該訳語候補共起語の数の影響がどの程度勘定されるかを決定するためのパラメータである。
（２）ランク＝重み付けの値×（１−α×ＴＬ／ＴＬmax）
ここで、ＴＬは、ランク付けの対象となる訳語候補と上記第２言語のコーパスにおいて所定の閾値以上の強さの相関を有する複数の訳語候補共起語と、上記第１言語のコーパスにおいて第１言語の用語と所定の閾値以上の強さの相関を有する複数の共起用語との間で、第１言語−第２言語の対訳辞書において対訳関係にある数であり、ＴＬmaxは、全ての訳語候補のうちで、上記第２言語のコーパスにおいて所定の閾値以上の強さの相関を有する複数の訳語候補共起語と、上記第１言語のコーパスにおいて第１言語の用語と所定の閾値以上の強さの相関を有する複数の共起用語との間で、第１言語−第２言語の対訳辞書において対訳関係にある数のうち最大の数であり、αは、上記テールの影響がどの程度勘定されるかを決定するためのパラメータである。

以下、図面に従って、本発明の実施形態を説明する。本実施形態は、本発明の好適な態様を説明するためのものであり、本発明の範囲をここで示すものに限定する意図はないことを理解されたい。また、以下の図を通して、特に断らない限り、同一符号は、同一の対象を指す。

図１Ａは、本発明の実施態様である、翻訳対を生成するための概要を示す。
翻訳対の生成の例は、ステップ１０１〜ステップ１０５の順に行われる。該例では、第１言語が英語であり、第２言語が日本語である。翻訳対を生成する方法は、要約すれば以下の通りである。
・ステップ１０１では、コンピュータ・システムは、ソース言語の用語に共起する１以上の共起用語を抽出する。
・ステップ１０２では、コンピュータ・システムは、該抽出された共起用語の少なくとも１に対応するターゲット言語の訳語を出力する。
・ステップ１０３では、コンピュータ・システムは、該出力されたターゲット言語の訳語の少なくとも１に共起する１以上の訳語候補を抽出する。
・ステップ１０４では、コンピュータ・システムは、該抽出された訳語候補夫々に重み付けをする。
・ステップ１０５では、コンピュータ・システムは、該重みを最適化し、ランキングの高い訳語候補をソース言語の用語の翻訳対として出力する。

図１Ｂは、本発明の実施態様である、翻訳対を生成するステップをさらに詳細に示したフロー図を示す。
ステップ１１１では、ソース言語の用語を入力する。ソース言語の用語の入力は、例えばディスプレイ上に表示された所定のウィンドウ内の所定の欄に入力することによって行われる。入力されたソース言語の用語は、メモリ又は記憶装置内に格納される。
ステップ１１２では、コンピュータ・システムは、該入力されたソース用語の用語に共起する１以上の共起用語を抽出する。該共起用語の抽出において、場合によっては、共起用語が何も得られない場合がある。この理由は、コーパスを使用していること、及び相関の高さを用いて共起用語を抽出しているからである。例えば、第１言語の用語が第１言語のコーパスの全文書に出ている場合、又は閾値の設定次第では、閾値を超える共起用語が存在しない場合があるからである。共起用語が１つも得られない場合は、この時点で翻訳対を出力する処理が終了する。一方、共起用語が１つでも得られた場合は、翻訳対を出力する処理が進められる。
ステップ１１３では、コンピュータ・システムは、該抽出された共起用語の少なくとも１に対応するターゲット言語の訳語を出力する。該訳語の出力において、場合によっては、抽出された共起用語の全てにおいて、第２言語の訳語が見つかるとは限らない。この理由は、訳語が見つかるかどうかは第１言語−第２言語の対訳辞書などの辞書に依存するからである。１又は複数の共起用語から第２言語の訳語が１つも得られない場合は、この時点で翻訳対を出力する処理が終了する。一方、第２言語の訳語が１つでも得られた場合は、翻訳対を出力する処理が進められる。
ステップ１１４では、コンピュータ・システムは、該出力されたターゲット言語の訳語の少なくとも１に共起する１以上の訳語候補を抽出する。該訳語候補の抽出において、場合によっては、訳語候補が何も得られない場合がある。この理由は、コーパスを使用していること、及び相関の高さを用いて訳語候補を抽出しているからである。例えば、第２言語の訳語が第２言語のコーパスの全文書に出ている場合、又は閾値の設定次第では、閾値を超える訳語候補が存在しない場合があるからである。訳語候補が１つも得られない場合は、この時点で翻訳対を出力する処理が終了する。一方、訳語候補が１つでも得られた場合は、翻訳対を出力する処理が進められる。
ステップ１１５では、コンピュータ・システムは、該抽出された訳語候補夫々に重み付けをする。
ステップ１１６では、コンピュータ・システムは、該重みを最適化する。
ステップ１１７では、コンピュータ・システムは、ランキングの高い訳語候補をソース言語の用語の翻訳対のリストを生成する。

以下、図１Ａに従うステップごとに各ステップの内容を説明する。また、以下では、実施態様１として、翻訳したいソース言語（英語）の用語が「steering wheel」である場合、及び実施態様２として、翻訳したいソース言語（英語）の用語が「accelerator pedal」である場合についてそれぞれ説明する。

１．ステップ１０１
（実施態様１）
ユーザは、翻訳したいソース言語（英語）の用語「steering wheel」を、コンピュータ・システムに入力する。

本発明の実施態様では、英語のコーパスを用いる。該英語のコーパスは例えば、自動車不具合情報の文書データを含む文書データの集合体である。例えば、米国国土安全保障省には自動車の不具合情報がデータベースに蓄積されている。該蓄積された不具合情報が、上記英語のコーパスの例である。英語のコーパスとして自動車不具合情報を用いる理由は、翻訳対象である用語「steering wheel」が自動車に関する用語であるためである。
コンピュータ・システムは、上記英語のコーパスを利用し、該英語のコーパス全体から、翻訳対象である用語「steering wheel」に共起する共起用語を抽出する。

図２Ａは、本発明の実施態様である、翻訳対象である用語「steering wheel」に共起する共起用語を示す。
抽出の結果として、翻訳対象である用語「steering wheel」に共起する共起用語として、「shake」、「vibration」、「steering」、・・・（以下略）がリストとして出力されている。

図２Ａはまた、本発明の実施態様である、翻訳対象である用語「steering wheel」に共起する共起用語それぞれの共起文書数及び相関値を示す。
「steering wheel」に共起する共起用語は、共起文書数（頻度）、又は相関値によってソートされうる。図２Ａでは、相関値は相対頻度で表されている。図２Ａでは、「steering wheel」に共起する共起用語が、相関の強さ順にソートされ、出力されている。「steering wheel」に共起する全ての共起用語が出力される必要はなく、例えば、所定の閾値以上の相関の強さを有する上記共起用語を出力するようにすることもできる。図２Ａでは、相関値が３．５以上である共起用語が出力されており、相関値が３．５未満の共起用語（例えば、「wheel（共起用語）、1362（共起文書数）、3.0（相関値）」、「right、2077、2.7」、「hit、1393、2.7」、「rotor、859、2.5」）は出力されていない。
図２Ａのリストが、翻訳対象である用語「steering wheel」のテールである。
以上のようにして、コンピュータ・システムは、英語のコーパスから、翻訳対象である用語に共起する共起用語を抽出することができる。該抽出された共起用語の出力は例えばリスト形式で行われ、該出力データはメモリー又は記憶装置に保存されうる。
本発明の１つの実施態様では、該抽出において所定の閾値以上の相関の強さを有する共起用語を抽出しうる。所定の閾値以上の相関の強さを有する共起用語を抽出することによって、抽出する共起用語の精度を向上することが可能である。

以下に、相関の強さについて、具体例を示して説明する。
ソース言語（英語）で翻訳対象である用語「steering wheel」について、共起用語「window」が抽出されたとする。英語のコーパスは、５２万件の自動車不具合情報の文書データを含むとする。
（１）全文書５２万件の中に、「window」という名詞を含む文書が１万４千件ヒットした。
よって、全文書の2.7％（＝1.4/52）に「window」という名詞が含まれている。
（２）全文書５２万件中、「steering wheel」という名詞を含む文書が７千件ヒットした。該７千件の中に、「window」という名詞を含む文書が１千件ヒットした。
よって、「steering wheel」を含む文書の14％（＝1/7）に「window」という名詞が含まれている。
（３）「steering wheel」と「window」の相関値は、下記のとおりである。
相関値 5.3 （＝ 14/2.7 ＝（1/7）／（1.4/52））
（４）相関値が5.3であることから、「window」という名詞は「steering wheel」がある文書に対して標準（全文書）の5.3倍の濃さで出現する。
（５）以上の通りであるから、共起用語「window」は、翻訳対象である用語「steering wheel」と相関が強いといえる。

（実施態様２）
ユーザは、翻訳したいソース言語（英語）の用語「accelerator pedal」を、コンピュータ・システムに入力する。
コンピュータ・システムは、英語のコーパスを利用し、該英語のコーパス全体から、翻訳対象である用語「accelerator pedal」に共起する共起用語を抽出する。該英語のコーパスは例えば、自動車不具合情報の文書データを含む文書データの集合体である。

図２Ｂは、本発明の実施態様である、翻訳対象である用語「accelerator pedal」に共起する共起用語を示す。
抽出の結果として、翻訳対象である用語「accelerator pedal」に共起する共起用語として、「foot」、「accelerate」、「break pedal」、「cruise control」、・・・、「idle」（以下略）がリストとして出力されている。リストは例えば、次の通りである：テール（accelerator pedal）＝｛foot，accelerate，break pedal，cruise control，・・・，idle，・・・，｝。よって、用語「accelerator pedal」のテールは、｛foot，accelerate，break pedal，cruise control，・・・，idle，・・・，｝である。

図２Ｂはまた、本発明の実施態様である、翻訳対象である用語「accelerator pedal」に共起する共起用語それぞれの相関値を示す。
図２Ｂでは、翻訳対象である用語「accelerator pedal」と相関の強い共起用語が、相関の強さ順に出力される。コンピュータ・システムは、相関の強さの閾値が3.5に設定されているので、相関の強さが3.5よりも大きい値を有する共起用語を抽出する。よって、出力されるリストは例えば、次の通りである：テール（accelerator pedal > 3.5）＝｛foot，accelerate，break pedal，cruise control，・・・，idle｝。ここで、「> 3.5」は、閾値を3.5にした場合を意味する。

相関の強さは、下記に示されるように、用語ｗ、例えば上記「accelerator pedal」のテールを求めるために使用されうる。
テール(w; S) = ｛用語v ∈ S｜相関の強さ(w; v) > t｝
ここで、Ｓは対象とする共起用語のクラスであり、典型的なクラスとしては、例えば、形容詞、副詞、名詞及び動詞といった文法的な分類によるクラスを指定することが考えられる。ｔは閾値であり、相関が強い関係を対象とすることから、ｔ＞1.0となる。
用語ｗのテールを求めるために、上記式は２つのパラメータについて定義されている。第１のパラメータは、対象とする共起用語のクラスである。もし、特定のクラスを指定しないなら、全ての自立語が対象となり、第一のパラメータの設定は不要となるので、単にテールｗ）と記述することができる。第２のパラメータはｔであり、閾値である。相関が強い関係を対象とする観点から、相関値が1.0よりも高い全ての用語ｖを含むことを考えてもよい。しかしながら、閾値を1.0に近い値に設定すると、テール（ｗ）に含まれる用語の数が大きくなる。これは、ステップ１０２の翻訳で処理される、多くの訳語候補をもたらすことになる。それ故に、必要に応じて、テール（ｗ）に含まれる用語の数を減らすために、第２のパラメータｔを1.0よりも高い値に設定することが必要である。例えば、第２のパラメータｔの閾値は3.5である（図２Ｂを参照）。テールは、ソース言語又はターゲット言語に依存しないが、使用するコーパスに依存する。すなわち、テールは言語でなく、分野或いは意味に依存する。よって、使用するコーパスの内容によって、第２のパラメータｔの閾値を設定する必要がある。

２．ステップ１０２
（実施態様１）
コンピュータ・システムは、ステップ１０１で抽出された共起用語それぞれについて、対訳辞書を利用して日本語の訳語を出力する。該訳語は例えば、メモリー又は記憶装置、例えばハードディスクに記憶される。コンピュータ・システムは、該訳語の出力において、ソース言語−ターゲット言語対訳電子辞書を使用する。以下、辞書という場合、電子的にデータが格納されている電子辞書を意味する。
共起用語の訳出について２つの状況がありうる：（１）ソース言語の該共起用語の訳が、ソース−ターゲット言語の対訳辞書に収載されている状況、及び（２）ソース言語の該用共起語の訳が知られていない状況。
ソース言語の該共起用語の訳がソース−ターゲット言語の対訳辞書に収載されている場合、コンピュータ・システムは、対訳辞書からソース言語の該共起用語に対応する訳をターゲット言語の訳語として抽出するだけでよい。該抽出されたターゲット言語の該訳語が、ソース言語の上記共起用語の翻訳対である。
一方、ソース言語の該共起用語の訳が知られていない場合、コンピュータ・システムは、正確な翻訳を含みうる訳語の候補集合を得ることが必要である。そこで、訳語の候補がソース−ターゲット言語の対訳辞書内にある場合、該辞書によって提供される種々の訳語の候補の全てが訳語の候補として形成されうる。しかしながら、該形成された訳語の候補集合はあまりにも小さいために、該集合に含まれる訳語の候補の数を以下に述べる方法に従い拡張する。
コンピュータ・システムはまた、該訳語の出力において、対訳辞書に加えて、上記訳語についての同義語、類義語を訳語として出力するために、例えばターゲット言語の同義語辞書、ターゲット言語の類義語辞書及びターゲット言語のシソーラスから選択される少なくとも１の辞書を利用しうる。このように種々の辞書を用いて、辞書が拡張される。

本発明の他の実施態様では、既存の対訳辞書Ｄを使用し、下記の処理を行う。用語ｗそれぞれについて、ソース言語−ターゲット言語対訳辞書を用いて訳語のセットＤ（ｗ）を得る。その後、訳語のセットＤ（ｗ）について、ターゲット言語−ソース言語対訳辞書を用いて各用語ｖ’に翻訳し直す。すなわち、各ｗ’∈ Ｄ（ｗ）について、セットＤ^−１（ｗ’）を決定する。該処理によって、用語ｖそれぞれについての訳語の拡張されたセットが、Ｕ_{ｗ’∈ Ｄ（ｗ）}Ｄ^−１（ｗ’）の全ての訳語を加えることによって得られうる。
言い換えれば、コンピュータ・システムはさらに、上記訳語を英語に訳し、該英語の訳を再度日本語に訳して、該日本語の訳を訳語として出力する。例えば、「振動」が日英対訳辞書を利用して英語「quake」に訳され、次に「quake」が英日対訳辞書を利用して日本語「震え」に訳される。さらに、辞書中にある「mirror」の訳に「映す」があるとすると、「映す」の英訳「reflect」及び「project」の対訳である和訳「反射する」及び反響する」又は「投影する」も訳語候補に追加するということである。

図３Ａは、本発明の実施態様である、共起用語「shake」及び「vibration」それぞれの訳語を示す。
コンピュータ・システムは、「steering wheel」に共起する表現として出力された共起用語「shake」に対し、英日対訳辞書と、同義語辞書、類義語辞書、シソーラスなどの辞書から任意に選択されうる少なくとも１の辞書を用いて、「震動」、「動揺」、「揺れ」及び「地震」などの複数の訳語を出力する。
同様にして、コンピュータ・システムは、「steering wheel」に共起する共起用語として出力された「vibration」、「steering」などの夫々について、複数の訳語を出力する。

コンピュータ・システムはまた、上記英日対訳辞書中の訳語に加えて、同義語辞書、類義語辞書、シソーラスなどの辞書から選択される少なくとも１の辞書を任意に用いて、訳語を出力する。コンピュータ・システムは、例えば同義語辞書を使用することによって、上記訳語である「震動」及び「動揺」の同義語、例えば「振動」を訳語としてさらに出力する。

上記の様にして、辞書を拡張し、訳語を拡張しうる。なお、このように拡張問題は、辞書がどんどん大きくなり、又は辞書の数が増えるに従って、訳語候補のノイズが増えてしまうことがありうる。ノイズを減少するために、相関の強さを用いて上位の訳語を出力することができる。

以上のようにして、コンピュータ・システムは、翻訳対象である用語に共起する共起用語（図２Ａに示されている）それぞれについて、該共起用語に対応する日本語の訳語を出力する。

（実施態様２）
コンピュータ・システムは、ステップ１０１で抽出された共起用語「foot」、「accelerate」、「break pedal」、「cruise control」、・・・、「idle」それぞれについて、対訳辞書を利用し、抽出された共起用語に対応する日本語の訳語を出力する。該訳語は例えば、メモリー又は記憶装置、例えばハードディスクに記憶される。

図３Ｂは、本発明の実施態様である、翻訳対象である用語とその共起用語「foot」、「accelerate」及び「idle」、並びに該共起用語それぞれの訳語を示す。
「foot」、「accelerate」及び「idle」の訳語はそれぞれ、「足」、「加速する」及び「アイドル」である。翻訳が不可能な共起用語については、日本語の訳語は入手不可能である。

３．ステップ１０３
（実施態様１）
コンピュータ・システムは、ステップ１０２で出力された訳語それぞれについて、日本語のコーパスを利用し、該日本語のコーパス全体から、該訳語それぞれに共起する訳語候補を抽出する。
該日本語のコーパスが、自動車不具合情報の文書データを含む文書データの集合体である。例えば、国土交通省には自動車の不具合情報が蓄積されているおり、該蓄積された不具合情報が、上記日本語のコーパスの例である。該日本語のコーパスは、上記した英語のコーパスと分野が自動車不具合情報であり、両コーパスの分野は同一である、よって、該日本語のコーパスは、英語のコーパスの類似内容を含むコーパスである。本発明の１つの実施態様では、該抽出において所定の閾値以上の相関値を有する訳語候補を抽出しうる。所定の閾値以上の相関値を有する訳語候補を抽出することによって、抽出する訳語候補の精度を向上することが可能である。

図４Ａは、本発明の実施態様である、訳語「振動」に共起する訳語候補を示す。
コンピュータ・システムは、日本語のコーパスを利用して、訳語「振動」と相関の強い共起用語を訳語候補として抽出する。
抽出の結果、訳語「振動」に共起する訳語候補として、「イグニションコイル」、「車体」、「ノッキング」、・・・（以下略）がリストとして出力されている。

図４Ａはまた、本発明の実施態様である、訳語「振動」に共起する訳語候補それぞれの共起文書数、及びその相関値を示す。
訳語「振動」に共起する訳語候補は、共起文書数、又は相対頻度によってソートされうる。図４Ａでは、訳語「振動」に共起する訳語候補が相関の強さ順にソートされ、出力されている。訳語「振動」に共起する全ての訳語候補が出力される必要はなく、例えば、所定の閾値以上の相関の強さを有する訳語候補を出力するようにしてもよい。
以上のようにして、コンピュータ・システムは、日本語のコーパスから、訳語に共起する訳語候補を抽出することができる。該抽出された訳語候補の出力は例えばリスト形式で行われ、該出力データはメモリー又は記憶装置に保存されうる。
本発明の１つの実施態様では、該抽出において所定の閾値以上の相関の強さを有する訳語候補を抽出しうる。所定の閾値以上の相関の強さを有する訳語候補を抽出することによって、抽出する訳語候補の精度を向上することが可能である。
同様にして、コンピュータ・システムは、その他の訳語「動揺」、「揺れ」、「地震」、「振動」及び「震え」などの夫々について、日本語のコーパスから、該訳語に共起する訳語候補を抽出する。

図４Ａはさらに、訳語「振動」と相関の強さ１．５以上で共起する訳語候補を示す。図４Ａでは例えば、訳語「振動」と相対頻度１．０で共起する訳語候補「同様」は、リスト上に示されていない。

以下に、相関の強さについて、具体例を示して説明する。
訳語「振動」について、訳語候補「高速道路」が抽出されたとする。日本語のコーパスは、５万件の自動車不具合情報の文書データを含むとする。
（１）全文書５万件の中に、「高速道路」という名詞を含む文書が１千件ヒットした。
よって、全文書の2.0％（＝1,000/50,000）に「高速道路」という名詞が含まれている。
（２）全文書５０万件中、「振動」という名詞を含む文書が８千件ヒットした。該４千件の中に、「高速道路」という名詞を含む文書が１千件ヒットした。
よって、「振動」を含む文書の12.5％（＝1,000/8,000）に「高速道路」という名詞が含まれている。
（３）「振動」と「高速道路」の相関値は、下記のとおりである。
相関値 6.25 （＝ 12.5/2.0 ＝（1,000/8,000）／（1,000/50,000））
（４）以上の通り、相対頻度が6.25であることから、「高速道路」という名詞は「振動」がある文書に対して標準（全文書）の6.25倍の濃さで出現することがわかる。よって、訳語候補「高速道路」は、訳語「振動」と相関が強いといえる。

該相関の強さは、訳語候補の数によって変動しうる。訳語候補の数が少ない場合、管理者は、相対頻度の閾値を低くして、訳語候補の数を増やす。一方、訳語候補の数が多い場合、管理者は、相対頻度の閾値を高くして、訳語候補の数を減らす。
以上のようにして、コンピュータ・システムは、日本語のコーパスから、訳語に共起する訳語候補を抽出することができる。該抽出された訳語候補の出力は例えばリスト形式で行われ、該出力データはメモリー又は記憶装置に保存されうる。

（実施態様２）
コンピュータ・システムは、日本語のコーパスを利用して、訳語「足」、「加速する」及び「アイドル」夫々に共起する訳語候補を抽出する。
図４Ｂは、本発明の実施態様である、訳語「足」、「加速する」及び「アイドル」夫々に共起する訳語候補を示す。
抽出の結果、訳語「足」に共起する訳語候補として、「走行」、「アクセスペダル」、・・・（以下略）がリストとして抽出されている。
同様に、訳語「加速する」に共起する訳語候補として、「アクセスペダル」、「駐車場」、・・・（以下略）がリストとして抽出されている。
同様に、訳語「アイドル」に共起する訳語候補として、「不安定」、「使用」、・・・（以下略）がリストとして抽出されている。
図４Ｂでは、訳語「足」に共起する訳語候補「アクセルペダル」と訳語「加速する」に共起する訳語候補「アクセルペダル」が重複している。

４．ステップ１０４
（実施態様１）
コンピュータ・システムは、ステップ１０３で出力された、訳語それぞれについて抽出された相関の強い訳語候補のリストをマージする。
コンピュータ・システムは、該マージにおいて、訳語候補それぞれに重み付けをする。

重み付けを行う例は、下記の通りである。
（１）重み付けが、訳語候補それぞれについて、マージされたリスト中に重複して出現する回数を用いる。
例えば、訳語候補「車」がマージされたリスト中に５４回重複して出現する場合、訳語候補「車」の重みは５４である。
よって、訳語候補それぞれの重み付けは下記の通りである：車(54) ；ハンドル(54) ；左(42) ；前(40) ；ブレーキ(37)；右(34) ；車両(33) ；タイヤ(33) ；状態(33) ；車体(29)；アクセル(29) ；駐車場(29) ；ディーラー(27)。
（２）重み付けが、上記（１）で述べた回数に相対頻度を加えた数値を用いる。該相対頻度は、ステップ１０３（図１Ａ及び図４Ａを参照）における相対頻度であり、日本語のコーパスにおける全文書の件数を分母とし、該全文書中において上記訳語候補を含む文書の件数を分子としたときの第１の割合と、日本語のコーパスにおける全文書中において上記訳語を含む文書の件数を分母とし、上記訳語を含む文書中において上記訳語候補を含む文書の件数を分子としたときの第２の割合との比である。
（３）重み付けが、上記（１）で述べた回数に相対頻度を正規化した値を加えた数値を用いる。該相対頻度は、ステップ１０３（図１Ａ及び図４Ａを参照）における相対頻度である。

本発明の１つの実施態様では、コンピュータ・システムは、ターゲット言語の訳語候補と共起する訳語候補共起語が翻訳対象である用語に共起する共起用語についての訳語として適切であるかを評価する。
翻訳対象である用語「accelerator pedal」を含む文書は例えば、共起用語「accelerate」のような語を含む傾向にある。この事象を言い換えると「accelerator pedal」は「accelerate」との相関が強いということであり、相関の強さ（" accelerator pedal "，" accelerate "）＞ｔ_１である。
共起用語" accelerate "について、１つの日本語訳（以下、（"accelerate "）’と示す。これはすなわち「加速する」と等しい。）が知られているとする。翻訳対象である用語" accelerator pedal "についての未知の正確な訳が、（" accelerator pedal "）’によって示されるとする（これは「アクセルペダル」と等しい）。" accelerator pedal "と "accelerate "との相関の強さ（＝相関の強さ（" accelerator pedal "，" accelerate "））が、（"accelerator pedal "）’と（" accelerate "）’の相関の強さ（＝相関の強さ（（" accelerate "）’，（" accelerator pedal "）’））（＝相関の強さ（「加速する」，「アクセルペダル」））と同じ値になるとは限らない。しかしながら、同分野におけるその意味的なつながりの強さから、”「加速する」と「アクセルペダル」の相関の強さ（＝相関の強さ（（"accelerate "）’，（"accelerator pedal "）’））が、閾値ｔ_２＞1.0よりも大きいという予測は妥当であると考えられる。相関の強さ（（" accelerate "）’ ，（" accelerator pedal "）’）＝相関の強さ（（"accelerator pedal "）’，（"accelerate "）’）であるので、「加速する」が「アクセルペダル」のテールに含まれるのであれば、「アクセルペダル」が「加速する」のテールに含まれることになる。
従って「アクセルペダル」∈テール（「加速する」である。それ故に、抽出される訳語は、テール（"加速する"）’中にある訳語候補のセットに対して全ての用語を含む。
言い換えると、

を推定することができれば完全である。しかしながら、この推定は難しい故に、訳語候補のセットが多くのノイズを含むことは避けられない。
ここで、訳語のセットＣを考える。共起用語ｗの訳語の候補がｗ’であり、該ｗが用語ｑのテール中にあるとする。ｗ’と相関の高い共起語のリスト中における各用語が、用語ｑに対する訳語候補であると考えられる。
従って、訳語候補のセットＣは、下記式から得られる。

ここで、Ｄ（ｗ）は、ｗについての全ての翻訳のセットであり、一般的な翻訳辞書Ｄによって用意される。ｃｌａｓｓ（ｑ）は、用語ｑの分類クラスであり、通常は品詞（動詞、名詞など）である。
この定義は、用語ｑの正確な訳語候補が、ｑと同じ分類に属すると仮定する。これは、例えばｑが名詞（単名詞又は複合名詞）である場合に、ターゲット言語におけるｑの意味が名詞によってまた表されると仮定する（図３Ｂを参照）。しかしながら、用語ｑによってはこの仮定が必ずしも成り立つとは限らず、この仮定を落とすことが必要な場合もありうる。その場合、ｃｌａｓｓ（ｑ）の代わりに、全ての自立語を仮定する。

ソース言語の用語ｑを与えられ及びターゲット言語において訳語候補のセットＣを与えられていると仮定する。該セットＣにおける高い重み付けの用語がｑについての適切な訳語であるように、該セットＣにおける訳語候補についての重み付けを得る幾つかの方法を下記に述べる。訳語候補が、例えば一般辞書Ｄによって与えられ、用語ｑについての幾つかの訳語候補が抽出される。しかしながら、それはコーパスの領域において全てが適切であるとは限らない。この状況において、重み付けは、該セットＣにおける多くの訳語候補間で曖昧さを取り除く方法を提供する。この場合、該セットＣは多くのノイズである訳語候補を含む。該方法はこのノイズを扱うことであり、ノイズである訳語候補の重み付けを低くすることである。基本的な方法は、用語ｑのテールを訳語候補のセットＣの各訳語候補のテールと比較し、上記セットＣの各訳語候補の重みを得る。

重み付けとして、以下に翻訳確率を求める方法を述べる。
ソース用語ｑのテールをその訳語候補のそれぞれのテールと比較することを可能にする前に、ソース用語ｑの全てのテールが翻訳される必要がある。テール（ｑ）における各用語についての訳語のセットを得るために、所定の一般辞書が使用される。しかしながら、次の計算をより正確にするために、テール中の用語についての訳語候補の各セットに渡って適切な確率分布を見つけることが試行される。そのような確率分布は、両者のコーパスの内容を考慮して、次のステップにおけるアルゴリズムをどの訳語候補が正確な翻訳でありそうかについての情報を提供するために使用される。
ソース言語及びターゲット言語における用語は、一般に幾つかの意味を有し、幾つかの異なる文脈において生じうる。例えば、英語における用語「turn」は、文脈「to turn right」において又は「to turn the volume higher」において生じうる。そして、該用語それぞれは、日本語において「曲がる」又は「回す」と訳されうる。しかしながら、例えばコーパスが自動車の顧客苦情についてのものであるために、用語「turn」の文脈が、前者、すなわち「曲がる」に近いことが予想される。結果として、用語「turn」の正確な訳語を見つけるために、辞書によって提案される「turn」の日本語訳のそれぞれについて重みを得るために、用語「turn」について反復的にアルゴリズムが実行されうる。そして、下記で述べる確率分布を得るために、この重みが最終的に使用される。しかしながら、後者についての良好な推定を得るために、日本語のコーパスにおける「曲がる」及び「回す」の出現頻度を計算し、そして正規化によって確率分布を計算しうる。このような適切な確率分布を得るためのアプローチが、下記に従い行われる。
（１）テール（ｑ）における共起用語ｗと、ｗについての訳語の候補ｗ‘との対訳関係の適切性を、用語ｑと訳語候補との重み付けと同様の計算によってもとめる。ｗについての訳語の候補のセットがＤ（ｗ）である。そして、Ｄ（ｗ）に渡って下記に述べる確率分布Ｐ^ｗ _Ｄを求めるために重み付けを利用する。
（２）ｗ’∈Ｄ（ｗ）における各用語について、ターゲットコーパスにおける頻度ｆ（ｗ’）が計算される。結果である頻度ベクターは、確率分布Ｐ^ｗ _Ｄを得るために正規化される：

以下に、訳語候補ｃについての一致度の程度の計算方法を示す。用語ｑと訳語候補ｃとの間の一致度は、用語ｑのテール中の幾つの用語が訳語候補ｃのテール中の用語と対応するかによって評価する。該評価のために、ｑのテール中の用語ｗが訳語候補ｃのテール中に生じる用語に意味において対応する場合、該用語を翻訳する必要がある。所定に辞書に訳語が見つからない場合、該用語は無視されうる。所定の辞書が複数の訳語を提供する場合、訳語候補ｃのテール中の用語全てに対して該当複数の訳語の全てが比較され評価対象となる。
一致度を定義するために、以下に定義される式の用語重み付け（wordScore）の概念が使用される。

ここで、１_{ｔａｉｌ（ｃ）}は、ｔａｉｌ（ｃ）の特徴的な関数である。Ｄ（ｗ）は、ｗについての訳語候補のセットである。訳語候補のこのセットに渡る確率分布は、Ｐ^ｗ _Ｄによって示される。

直感的な説明として、この重みは、共起用語ｗの意味が訳語候補ｃのテール中にどのように生じるかを示す。

用語重みの一致度は、以下に定義される式によって定義される。該式では、第１言語の用語ｑについて、そのテールに属する全ての共起用語ｗのwordScoreの総和を取り、訳語候補c の第１言語の用語ｑの訳語としての妥当性を算出する。

尺度Score_{ｍａｔｃｈｉｎｇ}（ｃ）は、訳語候補の質を考慮し、テール（ｑ）中の多くの用語がテール（ｃ）中に生じる用語に翻訳されうる場合、Score_{ｍａｔｃｈｉｎｇ}（ｃ）が増加する。

（実施態様２）
コンピュータ・システムは、ステップ１０２で出力された訳語それぞれについて、日本語のコーパスを利用し、該日本語のコーパス全体から、訳語それぞれに共起する訳語候補を抽出する。

図４Ｃは、訳語候補をランク付けするために重み付けをした結果を示す。
重み付けは例えば、ターゲット言語の訳語それぞれに共起する訳語候補をマージしておこなう。該マージにおいて、訳語候補それぞれに重み付けをする方法は、上記に述べた通りである。図４Ｃのリストは、一致度を使用して、用語「accelerator pedal」についての上位１０個の訳語候補を示す。括弧内の左側は、テール中の共起用語のうち、一般的な翻訳辞書の翻訳対で直接的な対応関係にある語の数を示す。括弧内の右側は重みを示す。

代替的な訳語候補の重み付けについて、下記に説明する。
該方法では、Score_{ｍａｃｈｉｎｇ}を計算し、一方訳語候補のセットＣを組み立てる。ｗ”によってテール（ｗ’）中の用語を示すとする。第１に、毎回、用語ｗ”が訳語候補のセットＣに加えられ、同じ変数ａ_ｗ”内にＰ^Ｗ _Ｄが保存され、これは次のステップにおいて、ｗ”についての一致度を蓄積する。これは、毎回幾つかの用語ｗ∈テール（ｑ）がｗ’内に翻訳され、及びｗ”がテール（ｗ’）中に含まれ、ｗ”についての下記式の一致度が更新される：

全ての用語ｗ∈テール（ｑ）を考慮した後、訳語候補のセットＣが得られうる。用語とそのテール中の用語との間の対称的な関係（すなわち、ｘ∈テール（ｙ）→ｙ∈テール（ｘ））の故に、各ワードについて下記式が保持される：

これは、訳語候補のセットＣを構築する場合に、翻訳確率Ｐ^Ｗ _Ｄを集めることによって、各ｃ∈ＣについてScore_{ｍａｃｈｉｎｇ}（ｃ）を計算することを意味する。しかしながら、重み付けがさらに調節された場合、訳語候補のセットＣ中の各用語について、テールを計算することが必要である。ここでテールの各計算は、データベースアクセスを必要とする。しかしながら、我々の実験では、修正は少なく、結果として正確な翻訳は、上位１００位にほぼ全ての場合であり、一致度によってランク付けされる。結果として、ユーザが正確な訳語をはやく見つけることを助けるために、それらのテールを計算することによって最初の100個の候補のみをランク付けすることで十分である。なお、我々の実験によると、候補の総数は、しばしば1,000個であった。これは、10%について再計算する必要が実際にある。

図４Ｂを参照し、訳語候補をランク付けするための他の重み付けを説明する。
図４Ｂの場合を考えると、訳語「足」と共起する訳語候補「アクセルペダル」は、訳語「加速する」と共起する訳語候補「アクセルペダル」と重複している。よって、訳語候補「アクセルペダル」の第２のコーパスにおける出現する回数は少なくとも２である。さらに、訳語「足」の訳語候補「アクセルペダル」の相対頻度と、訳語「加速する」の「アクセスペダル」の相対頻度が、上記出現する回数に加わる。従って、重みは、出現する回数をそのまま重みにするか、又は回数分だけの相対頻度を足し合わせるかの選択となる。

図４Ｄは、本発明の実施態様である、ターゲット言語の訳語候補が翻訳対象である用語に共起する共起用語に対する訳語として適切であるかを評価した例を示す。
図４Ｄでは、用語「accelerator pedal」のテール（共起用語である）「foot」が、「アクセスペダル」のテール（訳語候補共起語）「足」に対応する。同様に、用語「accelerator pedal」のテール「accelerate」が、「アクセスペダル」のテール「加速する」及び「上昇する」に対応する。同様に、用語「accelerator pedal」のテール「increase」が、「アクセスペダル」のテール「上がる」に対応する。同様に、用語「accelerator pedal」のテール「surge」が、「アクセスペダル」のテール「上がる」に対応する。これによって、対応関係にある語が合計４つもあることが分かり、結果として、ｌ（ｃ）＝４となる。ｌ（ｃ）は、訳語候補のセットｃのテール中の直接的に到着可能な（言い換えると、辞書中に翻訳対という形で意味的に対応関係が示されている）用語の数である。なお、ｌ（ｃ）の値は、重みの最適化においても用いられうる（下記式８を参照）。

図４Ｅは、本発明の実施態様である、訳語候補「イグニッションコイル」及び訳語候補「ハンドル」それぞれと共起する訳語候補共起語、並びにその頻度及びその相関値を示す。
図４Ｅの左側は、訳語候補「イグニッションコイル」のテール、すなわち訳語候補と所定の閾値以上の強さの相関を有する共起語を示す。
訳語候補「イグニッションコイル」のテールと、図２Ａの翻訳対象である用語「steering wheel」のテールとを比較する。訳語候補「イグニッションコイル」のテールと翻訳対象である用語「steering wheel」のテールとは、直接比較できない。よって、既存の辞書を使用して、意味的に対応しているかを評価する。上記テール間の比較では、「shake」は「振動」と対応し、「vibration」は「振動」と対応している。
図４Ｅの右側は、訳語候補「ハンドル」のテールを示す。
訳語候補「ハンドル」のテールと、図２Ａの翻訳対象である用語「steering wheel」のテールとを比較する。訳語候補「イグニッションコイル」のテールと翻訳対象である用語「steering wheel」のテールとは、直接比較できない。よって、既存の辞書を使用して、意味的に対応しているかを評価する。上記テール間の比較では、「shake」は「振れる」及び「振動する」と対応し、「vibration」は「振れる」及び「振動する」と対応し、「steering」は「ハンドル操作」と対応し、「steer」は「取る」と対応し、「turn」は「曲がる」及び「回す」と対応し、「lock」は「ロックする」と対応し、「left」は「左」と対応し、「right」は「右」と対応している。
上記比較の結果より、複数の訳語候補「イグニッションコイル」及び「ハンドル」のうち、訳語候補「ハンドル」の方が、訳語候補「イグニションコイル」よりも意味的に対応する数が多い。すなわち、訳語候補「ハンドル」の方が、訳語候補「イグニションコイル」よりも重みが大きい。よって、訳語候補として、重みが大きい訳語候補「ハンドル」が、訳語候補として尤もらしいことになる。

５．ステップ１０５
コンピュータ・システムは、ステップ１０４において訳語候補それぞれについての重みを最適化する。
コンピュータ・システムは、対象言語である日本語のコーパスを利用し、該日本語のコーパスにおける特徴を利用して、上記重み付けを補正する。
上記特徴は例えば、訳語の共起のしやすさの程度を考慮する。

重みの最適化の例は、下記の通りである。
（１）１つの例として、重みの最適化が、下記式に従い求められたランクに従い行われる。
ランク＝重み付けの値／（１＋訳語候補共起語の数×ｖ）
ここで、訳語候補共起語の数は、上記第２言語のコーパスにおいて上記訳語候補と所定の閾値以上の強さの相関を有する訳語候補共起語の数である。ｖは、該訳語候補共起語の数の影響がどの程度勘定されるかを決定するためのパラメータである。
訳語候補共起語は第２言語の約訳語候補のテールである。よって、訳語候補共起語の数は、第２言語のコーパスにおいて訳語候補と所定の閾値以上の強さの相関を有するテールの数でもある。
上記式は、訳語候補共起語の数と該訳語候補共起語の重み（例えば、第２言語の訳語の少なくとも１について抽出された１以上の訳語候補が重複して出現する回数）との間に正相関があることに基づく。
（２）他の例として、重みの最適化が、下記式に従い求められたランクに従い行われる：
ランク＝重み付けの値×（１−α×ＴＬ／ＴＬmax）
ここで、ＴＬは、ランク付けの対象となる訳語候補と上記第２言語のコーパスにおいて所定の閾値以上の強さの相関を有する複数の訳語候補共起語と、上記第１言語のコーパスにおいて第１言語の用語と所定の閾値以上の強さの相関を有する複数の共起用語との間で、第１言語−第２言語の対訳辞書において対訳関係にある数である。ＴＬmaxは、全ての訳語候補のうちで、上記第２言語のコーパスにおいて所定の閾値以上の強さの相関を有する複数の訳語候補共起語と、上記第１言語のコーパスにおいて第１言語の用語と所定の閾値以上の強さの相関を有する複数の共起用語との間で、第１言語−第２言語の対訳辞書において対訳関係にある数のうち最大の数であり、αは、上記テールの影響がどの程度勘定されるかを決定するためのパラメータである。
上記式は、訳語候補共起語の数と該訳語候補共起語の重み（例えば、第２言語の訳語の少なくとも１について抽出された１以上の訳語候補が重複して出現する回数）との間に正相関があることに基づく。

（実施態様１）
以下に、重みの最適化の具体的を説明する。
訳語候補それぞれの重みは下記の通りである。
車(54) ；ハンドル(54) ；左(42) ；前(40) ；ブレーキ(37)；右(34) ；車両(33) ；タイヤ(33) ；状態(33) ；車体(29)；アクセル(29) ；駐車場(29) ；ディーラー(27)
ここで、「車」及び「ディーラー」のような語は、翻訳対象である用語に無関係に、高い順位になる傾向がある。この理由は下記の通りである：（１）これらの語が偶然に取り上げられるからである、（２）幾つかの語は、翻訳対象である用語により相関のある語よりも多くの他の語に相関するからである。
上記例においてｖを０．３に設定すると、コンピュータ・システムは、訳語候補それぞれについての最適化された重みを得ることができる。なお、ランク付けは例えば最初の１５個について求められ、そのうちの上位５件は、下記の通りである：ハンドル(3.31)、左側(2.97)、左(2.84)、アクセル(2.52)、タイヤ(2.48)、....。
コンピュータ・システムは、翻訳対象である用語「steering wheel」の翻訳対として、上位５件を示すリストを、表示装置上又は印刷機に出力する。
ユーザは該リスト結果から、翻訳対象である用語「steering wheel」の翻訳対が「ハンドル」であることを知る。

コンピュータ・システムは、上記ステップ１０５で得られた翻訳対を、英日辞書に自動的に又はユーザによって手動で追加しうる。代替的に、コンピュータ・システムは、上記翻訳対を英日辞書に追加するかどうかをユーザに表示装置上で選択することを許す。このことによって、英日辞書に収載される翻訳対の拡張を図ることが可能である。

（実施態様２）
図５は、本発明の実施態様である、重みを最適化した後の上位１０個の訳語候補を示す。

テールが長い場合の重みを下げることによる重みの最適化について説明する。
用語が高い一致度を有する場合、該一致度のあるパーセントは、それらの相関の強さ（すなわち、ソース用語ｑに対する意味上の類似）によるものでなく、それらのテールの大部分がソース言語から直接的に到着可能であるという事実に基づく（図４Ｄを参照）。テールが長いと、対応関係にある語の数が自ずと増えてしまい、重みが高くなってしまう。
辞書中に直接的な対応関係を示す翻訳対が存在する場合に到着可能であると表現する。例えば、辞書中に”foot”の翻訳が「足」であるという対応関係を示す翻訳対が存在するため、図４Ｄにおいて、”foot”は「足」に到着可能となっている。訳語候補ｃのテール中の多くの語が直接的に到着可能であれば、その訳語候補ｃは、より高い一致度を得るものと見なされる。例えば、日本語コーパスにおける「ディーラー」及び「その後」のような用語が、翻訳対が存在する多くの用語と高い相関関係にあることが観察された。これらの用語は汎用性が高く、翻訳候補となった場合に重みが高くなる傾向が強い。なぜならば、それらのテールの長い部分は、直接的に到着可能であるからである。これらの用語は、ノイズ性の高い翻訳候補として考慮される。なぜならば、それらのテール中の直接的に到着可能な用語のそれらの数は、他の用語のそれよりもはるかに高いからである。到着可能なテールの数が少ないほど、一致度に対するテールの影響はより少なくなる。結果として、到着可能な語を多く含む長いテールの場合に、一致度、すなわち重みを減らす必要がある。そのための一様態を下記式で示す。

ここで、ｌ（ｃ）は、訳語候補ｃのテール中の直接的に到着可能な用語の数である。ｆは、閉区間［０，１］（すなわち、０以上１以下の値）において単調に増加する関数である。

我々の実験は下記式が、関数ｆについての良好な選択であることを示唆した。

ここで、ｌ_ｍａｘは、ｍａｘｃ∈Ｃｌ（ｃ）、すなわち全ての翻訳候補ｃのなかで最大となるｌ（ｃ）の値（すなわち、全ての翻訳候補のうちテールの中に到着可能な語が最も多く、ゆえにノイズ性が最も高いと見なされるｌ（ｃ）の値（＝到着可能な語の数）であり、αは一致度に対するテールの最大影響を特定する任意のパラメータであり、０〜１の間の値を取る。

我々の実験では、αとして０．５が良好な選択であることが示唆された。このようにしてノイズ性の高い翻訳候補の重みを大幅に下げるとともに、平均よりも長く、しかし極度に長くない到着可能なテールを有する用語も適度な補正が行われる。なお、最もノイズ性が高い場合が、ｌ（ｃ）＝ｌ_ｍａｘであり、ｌ（ｃ）／ｌ_ｍａｘの値が１になるからである。
図５は、上記式に基づき計算された後の各訳語候補について最適化された重みを示す。図５は、訳語候補（左側は、テール中の共起用語のうち、一般的な翻訳辞書の翻訳対で直接的な対応関係にある語の数、すなわちｌ（ｃ）の値、右側の値は最適化された重み）を示す。

図６Ａは、本発明の実施態様である、コンピュータ・システムの例を示す。
本発明の実施態様であるコンピュータ・システム（６０１）は、ソース言語のコーパス（６０３）及びターゲット言語のコーパス（６０４）を記録部（例えば、図６Ｂ、６１８）に格納している。代替的に、該コンピュータ・システム（６０１）は、ネットワークを介してソース言語のコーパス（６０３）及びターゲット言語のコーパス（６０４）をサーバ又はプロキシからダウンロードして記録部に格納し、或いはネットワークを介してサーバ又はプロキシ内に格納されているソース言語のコーパス及びターゲット言語のコーパスをアクセスしうる。
コンピュータ・システム（６０１）は、翻訳対象であるソース言語の用語（６０２）をユーザから受け取る。
コンピュータ・システム（６０１）は、第１の抽出部（６０５）、出力部（６０６）、第２の抽出部（６０７）、重付部（６０８）、生成部（６０９）並びに必要に応じて、評価部（６１０）及び登録部（６１１）を含む。
第１の抽出部（６０５）は、第１言語のコーパスから、翻訳対象である第１言語の用語に共起する１以上の共起用語を抽出する。第１の抽出部（６０５）はまた、第１言語のコーパスにおいて所定の閾値以上の第１の相関の強さを有する共起用語を抽出する。
出力部（６０６）は、抽出された共起用語の少なくとも１に対応する１以上の第２言語の訳語を出力する。出力部（６０６）はまた、第１言語−第２言語の対訳辞書を用いて第２言語の訳語を訳語リストとして出力し、該リストに含まれる訳語リストに対応する第１言語の共起用語それぞれに対応する第２言語の訳語を訳語リストにさらに追加する。出力部（６０６）はさらに、第２言語の同義語辞書、第２言語の類義語辞書及び第２言語のシソーラスから選択される少なくとも１以上を用いて上記訳語リストの同義語類義語を訳語リストにさらに追加する。
第２の抽出部（６０７）は、第１言語のコーパスに対応する第２言語のコーパスから、第２言語の訳語の少なくとも１に共起する１以上の訳語候補を抽出する。第２の抽出部（６０７）はまた、第２言語のコーパスにおいて所定の閾値以上の第２の相関の強さを有する訳語候補を抽出する
重付部（６０８）は、訳語候補それぞれに重み付けをする。また、重付部（６０８）は、上記抽出された１以上の訳語候補についてのリストをマージし、該マージされた訳語候補それぞれに重み付けをする。さらに、重付部（６０８）が、上記抽出された訳語候補に加えて、上記第２言語の訳語それぞれについて重み付けをする。
生成部（６０９）は、重みを最適化し、該最適化された重みに従い第１言語の用語についての翻訳対のリストを生成する。
評価部（６１０）は、重みの最適化のために、第２言語の訳語候補が共起用語に対する訳語として適切であるかを評価する。
登録部（６１１）は、出力された翻訳対を第１言語−第２言語の対訳辞書に登録する。

図６Ｂは、本発明の実施例に係るコンピュータ・ハードウェアのブロック図を示す。
本発明の実施例に係るコンピュータ・システム（６０１）は、ＣＰＵ（６１２）とメイン・メモリ（６１３）と含み、これらはバス（６１４）に接続されている。ＣＰＵ（６１２）は好ましくは、３２ビットまたは６４ビットのアーキテクチャに基づくものであり、例えば、インテル社のＸｅｏｎ（商標）シリーズ、Ｃｏｒｅ（商標）シリーズ、Ｐｅｎｔｉｕｍ（商標）シリーズ、Ｃｅｌｅｒｏｎ（商標）シリーズ、ＡＭＤ社のＰｈｅｎｏｍ（商標）シリーズ、Ａｔｈｌｏｎ（商標）シリーズなどを使用することができる。バス（６１４）には、ディスプレイ・コントローラ（６１５）を介して、ＬＣＤモニタなどのディスプレイ（６１６）が接続される。ディスプレイ（６１６）は、そのコンピュータ（６０１）上で動作中のソフトウェアについての情報を、適当なグラフィック・インターフェースで表示するために使用される。バス（６１４）にはまた、ＩＤＥ又はＳＡＴＡコントローラ（６１７）を介して、ハードディスク又はシリコン・ディスク（６１８）と、ＣＤ−ＲＯＭ、ＤＶＤ又はＢｌｕ−ｒａｙドライブ（６１９）が接続されている。ＣＤ−ＲＯＭ、ＤＶＤ又はＢＤドライブ（６１９）は、必要に応じて、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ又はＢＤからプログラムをハードディスク又はシリコン・ディスク（６１８）に導入するために使用される。バス（６１４）には更に、キーボード・マウスコントローラ（６２０）を介して、或いはＵＳＢコントローラ（図示せず）を介して、キーボード（６２１）及びマウス（６２２）が接続されている。

通信インタフェース（６２４）は、例えばイーサネットプロトコルに従うものであり、通信コントローラ（６２３）を介してバス（６１４）に接続され、コンピュータ（６０１）及び通信回線（６２５）を物理的に接続する役割を担い、コンピュータ（６０１）のオペレーティング・システムの通信機能のＴＣＰ／ＩＰ通信プロトコルに対して、ネットワーク・インターフェース層を提供する。通信回線は、有線ＬＡＮ環境、或いは例えばＩＥＥＥ８０２．１１ａ／ｂ／ｇ／ｎなどの無線ＬＡＮ接続規格に基づく無線ＬＡＮ環境であってもよい。

図７は、テールの例を示す。
太線で囲まれた部分が、相関値２以上のテールである。図７では、相関値として相対頻度が使用されている。

図８は、相関の強さを図示する。
例として、文書集合が
Ａ＝{「商品」カテゴリのキーワード「パソコン」に該当する文書}、
Ｂ＝{「名詞...要望」カテゴリのキーワード「マニュアル…入手する…たい」に該当する文書}、
とする。
上記式の左辺は、
（パソコンに関する文書に限ったときのマニュアル入手要望の割合）
／（全文書中のマニュアル入手の要望の割合）
に相当する。
例として、マニュアル入手に関する文書が全文書中の５％であり、一方パソコンに関する文書に限ると、マニュアル入手に関する文書がパソコンに関する文書中の２０％であるとする。かかる場合、「パソコン」と「マニュアル…入手する…たい」との相関値は、４である（２０％／５％＝４）。よって、相関値の該値より、「パソコン」と「マニュアル…入手する…たい」との関連が強いといえる。

以上、実施形態に基づき本発明を説明してきたが、本実施形態に記載されている内容は、本発明の一例であり、当業者なら、本発明の技術的範囲を逸脱することなく、さまざまな変形例に想到できることが明らかであろう。

本発明の実施態様である、翻訳対を生成するための概要を示す。本発明の実施態様である、翻訳対を生成するステップをさらに詳細に示したフロー図を示す。本発明の実施態様である、翻訳対象である用語「steering wheel」に共起する共起用語、該共起用語それぞれの共起文書数、及びその相関値を示す。本発明の実施態様である、翻訳対象である用語「accelerator pedal」に共起する共起用語、及びその相関値を示す。本発明の実施態様である、共起用語「shake」及び「vibration」それぞれの訳語を示す。本発明の実施態様である、翻訳対象である用語とその共起用語「foot」、「accelerate」及び「idle」、並びに該共起用語それぞれの訳語を示す。本発明の実施態様である、訳語「振動」に共起する訳語候補、共起文書数、及びその相関値を示す。本発明の実施態様である、訳語「足」、「加速する」及び「アイドル」それぞれに共起する訳語候補を示す。本発明の実施態様である、訳語候補をランク付けするために重み付けをした結果を示す。本発明の実施態様である、ターゲット言語の訳語候補が翻訳対象である用語に共起する共起用語に対する訳語として適切であるかを評価した例を示す。本発明の実施態様である、訳語候補「イグニッションコイル」及び訳語候補「ハンドル」それぞれと共起する訳語候補共起語、並びにその頻度及びその相関値を示す。本発明の実施態様である、重みを最適化した後の上位１０個の訳語候補を示す。本発明の実施態様である、コンピュータ・システムの例を示す。本発明の実施例に係るコンピュータ・ハードウェアのブロック図を示す。テールの例を示す。相関の強さを図示する。

Claims

翻訳対象である第１言語の用語の翻訳対である第２言語の用語を出力するためのコンピュータ・システムであって、
第１言語のコーパスから、前記第１言語の用語に共起する共起用語を抽出する第１の抽出部と、
前記抽出された共起用語の少なくとも１に対応する第２言語の訳語を出力する出力部と、
前記第１言語のコーパスに対応する第２言語のコーパスから、前記出力された第２言語の訳語の少なくとも１に共起する訳語候補を抽出する第２の抽出部と、
前記抽出された訳語候補それぞれに重み付けをする重付部と、
前記重みを最適化し、該最適化された重みに従い前記第１言語の用語についての翻訳対のリストを生成する生成部と
を含む、前記コンピュータ・システム。
前記重付部が、前記抽出された訳語候補についてのリストをマージし、該マージされた訳語候補それぞれに重み付けをする、請求項１に記載のコンピュータ・システム。
前記重み付けが、前記マージされたリストにおいて訳語候補が重複して出現する回数を用いる、請求項２に記載のコンピュータ・システム。
前記重み付けが、前記回数に相対頻度又は該相対頻度を正規化した値を加えた数値であり、該相対頻度が、前記第２言語のコーパスにおける全文書の件数を分母とし、該全文書中において前記訳語候補を含む文書の件数を分子としたときの第１の割合と、前記第２言語のコーパスにおける全文書中において前記第２言語の訳語を含む文書の件数を分母とし、該第２言語の訳語を含む文書中において前記訳語候補を含む文書の件数を分子としたときの第２の割合との比を用いる、請求項３に記載のコンピュータ・システム。
前記重み付けが、前記第１言語のコーパスにおいて第１言語の用語と所定の閾値以上の強さの相関を有する複数の共起用語と、前記第２言語のコーパスにおいて前記訳語候補と所定の閾値以上の強さの相関を有する、前記訳語候補に共起する複数の共起語（以下、訳語候補共起語）との間で、第１言語−第２言語の対訳辞書において対訳関係にある数を用いる、請求項１に記載のコンピュータ・システム。
前記重みの最適化が、前記第２言語のコーパスにおいて前記訳語候補と所定の閾値以上の強さの相関を有する訳語候補共起語の数について、該数が大きいほど重みを低くするように行われる、請求項１に記載のコンピュータ・システム。
前記重みの最適化が、下記式に従い求められたランクに従い行われる：
ランク＝重み付けの値／（１＋訳語候補共起語の数×ｖ）
ここで、訳語候補共起語の数は、前記第２言語のコーパスにおいて前記訳語候補と所定の閾値以上の強さの相関を有する訳語候補共起語の数であり、ｖは、該訳語候補共起語の数の影響がどの程度勘定されるかを決定するためのパラメータである、
請求項６に記載のコンピュータ・システム。
前記重みの最適化が、下記式に従い求められたランクに従い行われる：
ランク＝重み付けの値×（１−α×ＴＬ／ＴＬmax）
ここで、ＴＬは、ランク付けの対象となる訳語候補と前記第２言語のコーパスにおいて所定の閾値以上の強さの相関を有する複数の訳語候補共起語と、前記第１言語のコーパスにおいて第１言語の用語と所定の閾値以上の強さの相関を有する複数の共起用語との間で、第１言語−第２言語の対訳辞書において対訳関係にある数であり、ＴＬmaxは、全ての訳語候補のうちで、前記第２言語のコーパスにおいて所定の閾値以上の強さの相関を有する複数の訳語候補共起語と、前記第１言語のコーパスにおいて第１言語の用語と所定の閾値以上の強さの相関を有する複数の共起用語との間で、第１言語−第２言語の対訳辞書において対訳関係にある数のうち最大の数であり、αは、前記テールの影響がどの程度勘定されるかを決定するためのパラメータである、
請求項６に記載のコンピュータ・システム。
前記第２言語の訳語が前記共起用語に対する訳語として適切であるかを評価する評価部をさらに含み、該評価が、前記第２言語のコーパスにおいて第２言語の訳語が出現する頻度を用いる、又は該頻度を前記出力部において出力された全ての訳語の出現する頻度の和で割って正規化する、請求項１に記載のコンピュータ・システム。
前記第２言語の訳語が前記共起用語に対する訳語として適切であるかを評価する評価部をさらに含み、該評価が、前記第２言語のコーパスにおいて第２言語の訳語が出現する文書数を用いる、又は該文書数を前記出力部において出力された全ての訳語の出現する文書数の和で割って正規化する、請求項１に記載のコンピュータ・システム。
前記第２言語の訳語が前記共起用語に対する訳語として適切であるかを評価する評価部をさらに含み、該評価が、前記第１言語のコーパスにおいて前記第１言語の前記共起用語と所定の閾値以上の強さの相関を有する、前記共起用語に共起する複数の共起語と、前記共起用語に対応する前記訳語が前記第２言語のコーパスにおいて所定の閾値以上の強さの相関を有する複数の訳語候補との間で、第１言語−第２言語の対訳辞書において対訳関係にある数を利用する、請求項１に記載のコンピュータ・システム。
前記第１の抽出部が、前記第１言語の用語と前記第１言語のコーパスにおいて所定の閾値以上の第１の相関の強さを有する共起用語を抽出する、請求項１に記載のコンピュータ・システム。
前記第１の相関の強さが、前記第１言語のコーパスにおける全文書の件数を分母とし、該全文書中において前記共起用語を含む文書の件数を分子としたときの第１の割合と、前記第１言語のコーパスにおける全文書中において前記第１言語の用語を含む文書の件数を分母とし、該第１言語の用語を含む文書中において前記共起用語を含む文書の件数を分子としたときの第２の割合との比である、請求項１２に記載のコンピュータ・システム。
前記第１の相関の強さが、前記第１言語のコーパスにおいて前記共起用語を含む文書の件数を分母とし、前記第１言語のコーパスにおいて前記第１言語の用語を含む全ての文書中において前記共起用語が出現する回数又は前記第１言語の用語と前記共起用語の両方を含む文書の件数を分子とする分数の値である、請求項１２に記載のコンピュータ・システム。
前記第１の相関の強さが、前記第１言語のコーパスにおける前記共起用語の出現確率と、前記第１言語のコーパスにおける前記第１言語の用語の出現確率の積を分母とし、前記第１言語のコーパスにおける前記共起用語と前記第１言語の用語の同時出現確率を分子とした分数の値、又は該分数の値の対数の値若しくは該対数に前記同時出現確率を掛けた値で表現される、請求項１２に記載のコンピュータ・システム。
前記出力部が、第１言語−第２言語の対訳辞書を用いて前記第２言語の訳語を訳語リストとして出力し、該リストに、前記第１言語の共起用語の少なくとも１に対応する第２言語の訳語を訳語リストにさらに追加する、請求項１に記載のコンピュータ・システム。
前記出力部がさらに、第２言語の同義語辞書、第２言語の類義語辞書及び第２言語のシソーラスから選択される少なくとも１以上を用いて前記訳語リストの同義語類義語を訳語リストにさらに追加する、請求項１６に記載のコンピュータ・システム。
前記第２の抽出部が、前記第２言語のコーパスにおいて前記第２言語の訳語と所定の閾値以上の第２の相関の強さを有する訳語候補を抽出する、請求項１に記載のコンピュータ・システム。
前記第２の相関の強さが、前記第２言語のコーパスにおける全文書の件数を分母とし、該全文書中において前記訳語候補を含む文書の件数を分子としたときの第１の割合と、前記第２言語のコーパスにおける全文書中において前記第２言語の訳語を含む文書の件数を分母とし、該第２言語の訳語を含む文書中において前記訳語候補を含む文書の件数を分子としたときの第２の割合との比である、請求項１８に記載のコンピュータ・システム。
前記第２の相関の強さが、前記第２言語のコーパスにおいて前記訳語候補を含む文書の件数を分母とし、前記第２言語のコーパスにおいて前記第２言語の訳語を含む全ての文書中において前記訳語候補が出現する回数又は前記第２言語の訳語と前記訳語候補の両方を含む文書の件数を分子とする分数の値である、請求項１８に記載のコンピュータ・システム。
前記第２の相関の強さが、前記第２言語のコーパスにおける前記訳語候補の出現確率と、前記第２言語のコーパスにおける前記第２言語の訳語の出現確率の積を分母とし、前記第２言語のコーパスにおける前記訳語候補と前記第２言語の訳語の同時出現確率を分子とした分数の値、又は該分数の値の対数の値若しくは該対数に前記同時出現確率を掛けた値で表現される、請求項１８に記載のコンピュータ・システム。
翻訳対象である第１言語の用語の翻訳対となる第２言語の用語を出力するための方法であって、
第１言語のコーパスから、前記第１言語の用語に共起する共起用語を抽出するステップと、
前記抽出された共起用語の少なくとも１に対応する第２言語の訳語を出力するステップと、
前記第１言語のコーパスに対応する第２言語のコーパスから、前記出力された第２言語の訳語の少なくとも１に共起する訳語候補を抽出するステップと、
前記抽出された訳語候補それぞれに重み付けをするステップと、
前記重みを最適化し、該最適化された重みに従い前記第１言語の用語についての翻訳対のリストを生成するステップと
を含む、前記方法。
前記重み最適化することが、前記第２言語のコーパスにおいて前記訳語候補と所定の閾値以上の強さの相関を有する訳語候補共起語の数について、該数が大きいほど重みを低くするように行われ、該訳語候補共起語が訳語候補に共起する共起語である、請求項２２に記載の方法。
翻訳対象である第１言語の用語の翻訳対である第２言語の用語を出力するための方法であって、コンピュータ・システムに、下記ステップを実行させることを含み、該方法は、
第１言語のコーパス全体から、前記第１言語の用語に共起する共起用語であって、該第１言語のコーパスにおいて所定の閾値以上の相関の強さを有する該共起用語を抽出するステップと、
前記抽出された共起用語の少なくとも１に対応する第２言語の訳語を出力するステップと、
前記第１言語のコーパスに対応する第２言語のコーパス全体から、前記出力された第２言語の訳語の少なくとも１に共起する訳語候補であって、該第２言語のコーパスにおいて所定の閾値以上の相関の強さを有する該訳語候補を抽出するステップと、
前記抽出された訳語候補についてのリストをマージし、該訳語候補それぞれに重み付けをするステップと、
前記第２言語のコーパスにおいて前記訳語候補と所定の閾値以上の強さの相関を有する訳語候補共起語の数について、該数が大きいほど重みを低くするように前記重みを最適化し、該最適化された重みに従い前記第１言語の用語についての翻訳対のリストを生成するステップであって、該訳語候補共起語が訳語候補に共起する共起語である、前記生成するステップと
を含む、前記方法。
翻訳対象である第１言語の用語の翻訳対である第２言語の用語を出力するためのコンピュータ・プログラムであって、コンピュータ・システムに、請求項２３又は２４のいずれかに記載の方法の各ステップを実行させることを含む、前記コンピュータ・プログラム。