JP6656894B2

JP6656894B2 - 対訳辞書作成装置、対訳辞書作成方法およびプログラム

Info

Publication number: JP6656894B2
Application number: JP2015223478A
Authority: JP
Inventors: 松永　務; 務松永; 佐藤　大輔; 大輔佐藤
Original assignee: NTT Data Corp
Current assignee: NTT Data Corp
Priority date: 2015-11-13
Filing date: 2015-11-13
Publication date: 2020-03-04
Anticipated expiration: 2035-11-13
Also published as: JP2017091382A

Description

本発明は、異なる言語間の対訳辞書を作成する技術に関する。

従来、異なる言語間において、同一の意味内容の単語対を作成することが知られている。例えば、公知の辞書自動作成方式では、対訳コーパスから、原言語と目的言語との間の対応データを読み込み、対応データに示された原言語の単語と目的言語の単語との尤度に基づいてそれらの単語間の対応付けを行うものがある（特許文献１）。

特開平７−２８８１９号公報

従来の辞書自動作成方式では、異なる言語間の単語対を尤度に基づいて作成する。しかしながら、対訳コーパスに出現する頻度が低い単語については、出現頻度に基づく尤度（＝確からしさ）が同じ値または同等の値になるので、正しい単語対を作成するために必要な尤度が得られず、正確な対訳辞書を作成することができないという問題があった。

本発明は、上述した状況においてなされたものであり、出現頻度の低い語についても正確な対訳辞書を作成することができる対訳辞書作成装置等を提供することにある。

上記の課題を解決するために、本発明は、コンピュータが対訳辞書を作成する対訳辞書作成方法であって、前記コンピュータは、第１言語文と第２言語文とが文単位であらかじめ対応付けられた複数の対応文に含まれる異なる言語間の用語ペアの出現頻度に基づいて抽出された前記用語ペアを記憶する用語ペア記憶部を備えており、対訳コーパスから前記複数の対応文を読み込むステップと、前記複数の対応文に含まれる前記第１言語文と前記第２言語文とを構成する用語を抽出するステップと、前記抽出された用語が前記用語ペアを構成する用語以外である場合には、当該用語を、新規な用語として選定するステップと、前記対訳コーパスからの前記複数の対応文の読み込み順序に従って各対応文を構成する前記第１言語文と前記第２言語文とのマッチングを行い、マッチング結果に基づいて、前記新規な用語のペアを用語ペア候補として取得するステップと、前記用語ペア候補の出現頻度に応じて、当該用語ペア候補を構成する新規な用語ペアを対訳辞書として出力するステップと、を含み、前記取得するステップでは、前記複数の対応文の読み込み順序をランダムに変更して前記マッチングを繰り返し行う。

また、上記の課題を解決するために、本発明は、第１言語文と第２言語文とが文単位であらかじめ対応付けられた複数の対応文に含まれる異なる言語間の用語ペアの出現頻度に基づいて抽出された前記用語ペアを記憶する用語ペア記憶部と、対訳コーパスから前記複数の対応文を読み込む対応文読込部と、前記複数の対応文に含まれる前記第１言語文と前記第２言語文とを構成する用語を抽出する用語抽出部と、前記抽出された用語が前記用語ペアを構成する用語以外である場合には、当該用語を、新規な用語として選定する用語選定部と、前記対訳コーパスからの前記複数の対応文の読み込み順序に従って各対応文を構成する前記第１言語文と前記第２言語文とのマッチングを行い、マッチング結果に基づいて、前記新規な用語のペアを用語ペア候補として取得する用語ペア候補取得部と、前記用語ペア候補の出現頻度に応じて、当該用語ペア候補を構成する新規な用語ペアを対訳辞書として出力する対訳辞書出力部と、を含み、前記用語ペア候補取得部は、前記複数の対応文の読み込み順序をランダムに変更して前記マッチングを繰り返し行う。

本発明によれば、出現頻度の低い単語についても正確な対訳辞書を作成することができる。

本発明の実施形態の対訳辞書作成装置を含む対訳辞書作成システム全体の概要構成例を示す図である。図１の対訳辞書作成装置のハードウエア上の構成例を示す図である。対訳辞書作成装置によって実現される対訳辞書作成の概略を説明するための図である。対訳辞書作成装置の機能構成の一例を示す図である。各種テーブルの一例を示す図である。対訳辞書作成装置における処理全体の一例を示すフローチャートである。

以下、本発明の一実施形態における対訳辞書作成装置を含む対訳辞書作成システム全体の概略構成について図１を参照して説明する。図１は、対訳辞書作成システム１全体の概要構成例を示す図である。

図１において、対訳辞書作成システム１は、通信端末１０と、通信端末１０と例えばインターネット等の通信網２０を介して接続可能な対訳辞書作成装置３０と、対訳辞書作成装置３０と接続可能な外部システムとしての対訳コーパス４０とを含んで構成されている。

対訳辞書作成システム１では、通信端末１０と対訳辞書作成装置３０との間は、ＨＴＴＰ（HyerText Transfer Protocol）通信が行われるようになっているが、それ以外の通信方式もとり得る。

通信端末１０は、ＣＰＵ(Central Processing Unit)と、ＲＯＭ(Read Only Memory)と、ＲＡＭ(Random Access Memory)と、液晶ディスプレイ等の表示装置と、タッチパネル等の入力装置とを備える。この実施形態では、通信端末１０は、一例として、ラップトップパソコン(Laptop computer)とするが、携帯端末、ＰＤＡ（Personal Digital Assist）、パーソナルコンピュータなどでもよい。

対訳コーパス４０は、例えばネットワークの伝送路上に設けられ、ネットワーク上の対訳辞書作成装置３０との間で通信可能な文書データベースである。後述するように、対訳コーパス４０は、異なる言語（英語、日本語など）間の同じ意味内容を有する文同士を互いに対応付けて記憶している。なお、対訳コーパス４０は、ＣＰＵ(Central Processing Unit)と、ＲＯＭ(Read Only Memory)と、ＲＡＭ(Random Access Memory)とを含む。

[対訳辞書作成装置のハードウエア構成]
次に、図１に示した対訳辞書作成装置３０のハードウエア構成例について、図２を参照して説明する。図２は、対訳辞書作成装置３０の構成例を示す図である。

対訳辞書作成装置３０は、図２に示すように、ＣＰＵ（Central Processing Unit）３１と、ＲＯＭ（Read Only Memory）３２と、ＲＡＭ（Random Access Memory）３３と、通信インターフェース３４と、外部アクセス部３５とを含むサーバ装置である。

ＣＰＵ３１は、各構成要素とバスで接続されて制御信号やデータの転送を行うとともに、対訳辞書作成装置３０全体の処理を実現するためのプログラムの実行、演算処理等を行う。

ＲＯＭ３２には、対訳辞書作成装置３０全体の動作に必要な対訳辞書作成プログラムが記憶されており、本実施形態の対訳辞書作成装置３０は、当該プログラムが実行されることにより実現される。このようなＲＯＭ３３に変えて、クラウドサービスを用いて必要なプログラムおよびデータを取り込むことももちろん可能である。

上述したプログラムは、ＣＤ−ＲＯＭ等の記憶媒体に格納されていてもよい。

ＲＡＭ３３には、後述する対訳辞書作成処理を行うためのプログラムおよび各種のデータが一時的に保持される。

通信インターフェース３４は、ネットワークインターフェース機能を有しており、通信端末１０との通信を行う。

外部アクセス部３５は、ＣＰＵ３１が対訳コーパス４０にアクセスして対訳コーパス４０と通信を行うためのインターフェースである。この実施形態では、対訳コーパス４０内の後記する対応文が外部アクセス部３５を介してＣＰＵ３１へ伝送される。

［対訳辞書作成の概略］
次に、対訳辞書作成装置３０によって実現される対訳辞書作成の概要について、図１〜図３を参照して説明する。図３は、対訳辞書作成時における異なる言語文のマッチング処理の概略を説明するための図であって、（ａ）は日本語文と英語文との対応関係、（ｂ）はマッチング処理時に文の順序を変更したときの日本語文と英語文との対応関係と、を示している。なお、図３（ａ）および図３（ｂ）は、マッチング処理を例示的に示しているに過ぎない。

対訳辞書作成装置３０は、異なる言語文が文単位であらかじめ対応付けられた対応文（対訳文）を対訳コーパス４０から読み込み、その対応文となる日本語文および英語文のマッチング処理を行うことになるが、それよりも前に、対応文中に同時に出現する用語（この実施形態では、その用語自体で意味を表すことができる自立語）のペアとなる用語ペアのうち、出現頻度が高い用語ペアを登録しておく。

上述した出現頻度は、複数の対応文中、対象となる用語ペアが同時に出現する対応文の数を意味する。例えば、出現頻度が閾値以上の用語ペアの場合は、出現頻度が高い用語ペアとして登録される。

図３（ａ）および図３（ｂ）で示した日本語文ｄ２および英語文ｄ３の例では、自立語としての用語として、例えば、「私」，「リンゴ」，「好き」，「彼」，「ぶどう」などの文字列がある。出現頻度が高い用語ペアとして、例えば、「私」と「I」のペア、「好き」と「like」のペアなどがある。

図３（ａ）および図３（ｂ）において、文順ｄ１は、日本語文ｄ２と英語文ｄ３との対応文が対訳コーパス４０から読み込まれた順序を表している。図３（ａ）の一例によれば、対訳辞書作成装置３０において、「私はリンゴが好きです。」から「彼はバナナを食べました。」までの４つの日本語文ｄ２が、それぞれ、文順ｄ１に示された「１」〜「４」の順序にしたがって、「I like apples.」から「He ate a bunch of bananas.」までの４つの英語文ｄ３と対応付けられて読み込まれる。

そして、読み込まれた４組の対応文の中から、上記出現頻度が高い用語ペアを除く新規な用語（図３（ａ）および（ｂ）では、新規な用語として、例えば、「リンゴ」，「桃」などの文字列がそれぞれ下線で示してある。）が存在する場合、ＣＰＵ３１は、その新規な用語のペアを得るために、ランダムに変更された文順ｄ１にしたがった順序（図３（ｂ））で対応文のマッチングを繰り返す。そして、ＣＰＵ３１は、すべてのマッチング結果（文順ｄ１が同じ順位の日本語文と英語文の対応文のものと、文順ｄ１が上位の日本語文と英語文の対応文のもの）を参照して、その新規な用語のペア（用語ペアｄ４）を得る。

図３（ａ）では、新規な用語ペアｄ４として、文順ｄ１が「１」の「私はリンゴが好きです。」と「I likes apples.」の対応文から「りんご」と「apples」のペアが得られる。また、文順ｄ１が「２」の「彼は桃とリンゴをもらいました。」と「I had peaches and apples.」の対応文と、その上位の文順ｄ１（＝「１」）の対応文のマッチング結果（「りんご」のペアは「apples」）とから、「桃」と「peaches」の用語ペアｄ４が得られる。さらに、文順ｄ１が「４」の「彼はバナナを食べました。」と「He ate a bunch of bananas.」の対応文と、その上位の文順ｄ１（＝「２」）の対応文のマッチング結果（「bunch」は新規でない）とから、「バナナ」と「bananas」の用語ペアｄ４が得られる。

一方、図３（ａ）では、文順ｄ１が「２」の「彼はぶどうを買いました。」と「He bought a bunch of grapes」の対応文と、その上位の文順ｄ１（＝「１」）のマッチング結果とからは、新規な用語である「ぶどう」のペアは得られないが、図３（ａ）に示した文順ｄ１が変更されることによって、その「ぶどう」のペアが得られる。

すなわち、対訳辞書作成装置３０は、２回目以降のマッチング処理時には、対応文の順序をランダムに変更するため、すべての用語のペアが仮に１回目のマッチング処理時に得られなかった場合でも、それ以降のマッチング処理時に残りの用語のペアを取得し得る。上述した対応文の順序の変更は、マッチング処理が行われる度に、例えば乱数を利用して行われる。

図３（ｂ）の例では、「彼はぶどうを買いました。」と「He bought a bunch of grapes」の対応文の文順ｄ１が「４」に変更され、その上位の文順ｄ１（＝「１」）に、「彼はバナナを食べました。」と「He ate a bunch of bananas.」の対応文が配置される。このため、ＣＰＵ３１は、文順ｄ１が「１」の「彼はバナナを食べました。」と「He ate a bunch of bananas.」の対応文のマッチング結果（図３（ｂ）の例によれば、用語「バナナ」に対して「bananas」の他に「bunch」の用語もあるので、「バナナ」のペアは特定できない。）を参照することで、図３（ａ）ではペアが得られなかった「ぶどう」と「grapes」の新規な用語ペアｄ４をさらに得る。つまり、「バナナ」と対応付けられなかった「bunch」については、他の「彼はぶどうを買いました。」と「He bought a bunch of grapes」の対応文にも出現することで、「バナナ」と「ぶどう」のいずれとも対応付けられないことが認識され、結果として、「ぶどう」は、正しく「grapes」と対応付けられる。

なお、図３（ｂ）の文順ｄ１によれば、「リンゴ」と「apples」の用語ペアｄ４と、「桃」と「peaches」の用語ペアｄ４は得られないことになるが、図３（ａ）で示した文順ｄ１におけるマッチング結果から参照される。

このように本実施形態の対訳辞書作成装置３０では、対応文の文順ｄ１が変わることで、頻出頻度の低い用語であったとしても、文順ｄ１の異なる対応文に対するすべてのマッチング結果（文順ｄ１が同じ順位の対応文の用語の対応関係と、文順ｄ１が上位の対応文の用語の対応関係）を考慮することにより、出現頻度の低い用語のペアが得られる。

［対訳辞書作成装置の機能構成］
次に、対訳辞書作成装置３０の機能構成について図４を参照して説明する。図４は、図２に示したハードウエア構成上で実現される対訳辞書作成装置３０の機能構成の一例を示す図である。

図４において、対訳辞書作成装置３０は、対応文読込部３０１と、用語抽出部３０２と、用語選定部３０３と、用語ペア候補取得部３０４と、対訳辞書出力部３０５と、用語ペア登録部３０６とを備える。さらに、対訳辞書作成装置３０は、用語ペア記憶部４１と、用語ペア候補記憶部４２とを備える。

用語ペア記憶部４１は、図２におけるＲＯＭ３２またはＲＡＭ３３により構成され、出現頻度の高い用語ペアを記憶する。

図５（ａ）は、かかる用語ペアを記憶する用語ペアテーブル４１１を示している。この用語ペアテーブル４１１では、「私」などの日本語と、「Ｉ」などの英語とが対応付けられている。

用語ペア候補記憶部４２は、図２におけるＲＯＭ３２またはＲＡＭ３３により構成され、用語ペアテーブル４１１に記憶されている用語ペア以外の新規な用語ペアを記憶する。

図５（ｂ）は、かかる用語ペア候補を記憶する用語ペア候補テーブル４２１を示している。この用語ペア候補テーブル４２１では、「リンゴ」などの日本語と、「apples」などの英語とが対応付けられている。

図４に示した各記憶部４１，４２以外の構成要素については、以下の対訳辞書作成装置３０の処理説明において適宜参照される。

［対訳辞書作成装置の処理］
以下、この対訳辞書作成を実現するために実行される対訳辞書作成装置３０の処理について、図１〜図６を参照して説明する。

図６は、対訳辞書作成装置３０における処理全体の一例を示すフローチャートである。

先ず、この対訳辞書作成を実現するための前処理として、ＣＰＵ３１は、出現頻度に基づいて異なる言語間の用語ペアを用語ペア記憶部４１に登録する（ステップＳ１０）。この場合、ＣＰＵ３１（対応文読込部３０１）は、対訳コーパス４０から、異なる言語間の対応文を読み込む。ＣＰＵ３１（用語抽出部３０２）は、日本語文と英語文とを構成する用語を抽出する。さらに、ＣＰＵ３１（用語ペア登録部３０６）は、出現頻度に基づいて異なる言語間の用語ペアを用語ペア記憶部４１の用語ペアテーブル４１１に登録する。

図３（ａ）の一例によれば、対応文は、「私はリンゴが好きです。」などの日本語文ｄ２と、「I like apples.」などの英語文ｄ３とが予め対応付けられた文である。このとき、ＣＰＵ３１（用語抽出部３０２）は、それらの日本語文ｄ２と英語文ｄ３とをそれぞれ形態素解析し、「私」、「Ｉ」などの自立語を、用語として抽出する。そして、ＣＰＵ３１（用語ペア登録部３０３）は、すべての抽出した用語を対象として、対応する用語のペアの出現頻度を求め、その用語ペアの出現頻度がしきい値以上である場合は、当該用語ペアを、出現頻度が高い用語ペアとして用語ペアテーブル４１１上に登録することになる。図４（ａ）の用語テーブル４１１によれば、「私」と「I」のペア、「好き」と「like」のペアなどが、出現頻度が高い用語ペアとして登録されることになる。

図６において、後述するステップＳ１１〜Ｓ１６の処理は、用語テーブル４１１上に登録されている用語ペア以外の用語ペア、すなわち、出現頻度が低い用語ペアを対訳辞書として作成するための処理である。

ステップＳ１１において、ＣＰＵ３１は、対訳コーパス４０から、異なる言語間の対応文を読み込む。そして、ステップＳ１２において、ＣＰＵ３１は、日本語文と英語文とを構成する用語を抽出する。なお、対応文の読込処理（ステップＳ１１）と、用語の抽出処理（ステップＳ１２）はそれぞれ、上述したステップＳ１０で説明した対応文読込部３０１と、用語抽出部３０２とによって実行される処理と同一である。

ステップＳ１２で抽出された用語がステップＳ１０で登録された用語ペアを構成する用語以外の場合には、ＣＰＵ３１は、当該用語を、処理対象としての新規な用語として選定する（ステップＳ１３）。図３（ａ）では、新規な用語として、「リンゴ」，「ぶどう」，「桃」などの例を示している。

ステップＳ１３において、ＣＰＵ３１は、用語選定部３０３として機能する。

次にＣＰＵ３１は、ステップＳ１３で選定された新規な用語のペアを得るために、ステップＳ１１で読み込まれた対応文を構成する日本語文と英語文とのマッチングに基づいて、処理対象としての新規な用語のペアを、用語ペア候補として得る（ステップＳ１４）。このステップＳ１４では、新規な用語ペアは、マッチング結果において、ステップＳ１３で選定された新規な用語と一対の用語が抽出された場合にのみ取得される。用語ペア候補は、ＣＰＵ３１によって用語ペア候補テーブル４２１（図４（ｂ））に登録される。

図３（ａ）の一例によれば、文順ｄ１で示された順位にしたがって、４組の対応文を構成する日本語文ｄ２と英語文ｄ３とがマッチングされ、マッチング結果に基づいて、「りんご」と「apples」のペア，「桃」と「peaches」のペア，「バナナ」と「bananas」のペアが、用語ペア候補として得られることになる。

ＣＰＵ３１は、用語ペア候補の取得が終了したか否かを判定し（ステップＳ１５）、終了していない場合には、対応文の読込処理（ステップＳ１１）と、用語の抽出処理（ステップＳ１２）と、新規な用語の選定処理（ステップＳ１３）と、用語ペア候補の取得処理（ステップＳ１４）とを行う。

上述した対応文は、用語ペア候補の取得処理（ステップＳ１４）が２回目以降に実施される場合には、例えば乱数に基づいて文順がランダムに変更されるため、１回目の用語ペア候補の取得処理（ステップＳ１４）時に得られなかった用語のペアが取得できる。例えば図３（ｂ）に示した対応文の文順ｄ１の例では、図３（ａ）に示した対応文の文順ｄ１ではペアが得られなかった「ぶどう」と「grapes」のペアが、用語ペア候補として得られることになる。

ステップＳ１５の判定処理では、繰り返し条件として、例えばループ回数が予め指定されており、ステップＳ１１〜Ｓ１４のループ処理回数が上記ループ回数に達した場合には、ＣＰＵ３１は、終了したと判定する。

なお、上述した繰り返し条件は、変更することもできる。例えば、かかる条件として、用語ペア候補の数を指定すること等も考えられる。

ステップＳ１４およびステップＳ１５において、ＣＰＵ３１は、用語ペア候補取得部３０４として機能する。

なお、対応文の順序は、例えば対応文が読み込まれる時点で（ステップＳ１１）、変更されることになるが、対応文が読み込まれた後のマッチング直前に、一括してすべての対応文の順序を変更するようにしてもよい。

ＣＰＵ３１は、用語ペア候補の取得が終了したと判定した場合には（ステップＳ１５）、終了していない場合には、ステップＳ１５で取得された用語ペア候補の出現頻度に応じて、当該用語ペア候補を構成する用語ペアを、対訳辞書として出力する（ステップＳ１６）。

例えば、用語ペア候補の出現頻度が予め設定された閾値以上の場合には、ＣＰＵ３１は、その用語ペア候補の用語ペア（この実施形態では、例えば、図４（ｂ）に示した「リンゴ」と「apples」などのペア）を対訳辞書として作成して出力する。なお、図６のフローチャートによれば、用語ペア候補は、繰り返し実行されるマッチングによって得られることになるので、ステップＳ１６における用語ペア候補の出現頻度は、実際に実行されたマッチングで用いられたすべての対応文中、対象となる用語ペア候補が同時に出現する対応文の数を意味する。

対訳辞書の作成は、用語対を対訳辞書として示すものであればよく、例えば一覧表や辞書形式など種々の方法によって実施することができる。出力先は、例えば通信端末１０であるが、変更することもできる。

なお、ステップＳ１５において、ＣＰＵ３１は、用語ペアテーブル４１１上に登録されている用語ペアについても、出現頻度が閾値以上であれば、上述した対訳辞書として出力することもできる。

ステップＳ１５において、ＣＰＵ３１は、対訳辞書出力部３０５として機能する。

以上説明したように、本実施形態の対訳辞書作成装置３０によれば、異なる言語文からなる対応文の中に、出現頻度の高い用語ペア以外の新規な用語が出現した場合に、その新規な用語のペアを得るために、対応文の順序をランダムに並び替えて対応文のマッチングを繰り返し行う。ここで、マッチングでは、同順位と上位順位のマッチング結果が参照されるので、仮にマッチングで新規な用語のペアが得られなかったとしても、繰り返しマッチングを行うことによりその新規な用語のペアが得られる。これにより、出現頻度の低い新規な用語についても正確な対訳辞書を作成することができる。

なお、上記実施形態は、変更するようにしてもよい。

例えば、図６の用語ペア候補の取得処理（ステップＳ１４）で、異なる対応文から同一の用語ペア候補が取得された場合には、対訳辞書の出力処理（ステップ１６）では、例えば、相加平均、相乗平均などの値を適用して、同一の用語ペア候補に対する最終的な出現頻度を計算するようにしてもよい。また、この出現頻度の計算では、用語ペア候補を構成する用語に応じて、適宜重みを付けるようにしてもよい。

上述した対応文は、日本語と英語以外の言語についても適用することができる。

また、図１に示したものにおいて、対訳辞書作成装置３０の構成は、様々な改変が可能である。例えば、対訳辞書作成装置３０は、通信端末１０または／および対訳コーパス４０の機能を兼ね備えるようにしてもよい。

１０通信端末
３０対訳辞書作成装置
４０対訳コーパス
３０１対応文取得部
３０２用語抽出部
３０３用語選定部
３０４用語ペア候補取得部
３０５対訳辞書出力部
３０６用語ペア登録部
４０１用語ペア記憶部
４０２用語ペア候補記憶部

Claims

コンピュータが対訳辞書を作成する対訳辞書作成方法であって、
前記コンピュータは、第１言語文と第２言語文とが文単位であらかじめ対応付けられた複数の対応文に含まれる異なる言語間の用語ペアの出現頻度に基づいて抽出された前記用語ペアを記憶する用語ペア記憶部を備えており、
対訳コーパスから前記複数の対応文を第１の文順にしたがって読み込むステップと、
前記複数の対応文に含まれる前記第１言語文と前記第２言語文とを構成する用語を抽出するステップと、
前記抽出された用語が前記用語ペアを構成する用語以外である場合には、当該用語を、新規な用語として選定するステップと、
前記対訳コーパスから前記第１の文順にしたがって読み込まれた前記複数の対応文の読み込み順序に従って各対応文を構成する前記第１言語文と前記第２言語文とのマッチングを行い、マッチング結果に基づいて、前記新規な用語のペアを用語ペア候補として取得するステップであって、前記マッチング結果に基づいて、前記新規な用語のペアを用語ペア候補として取得することは、前記第１の文順における第１の読み込み順序の対応文のマッチング結果と、前記第１の文順における第２の読み込み順序の対応文のマッチング結果とを比較することにより実行され、前記第１の文順における前記第１の読み込み順序は、前記第１の文順における前記第２の読み込み順序よりも上位の順序である、ステップと、
前記用語ペア候補の出現頻度に応じて、当該用語ペア候補を構成する新規な用語ペアを対訳辞書として出力するステップと、を含み、
前記用語ペア候補の取得が終了していないことを条件として、前記取得するステップでは、前記複数の対応文の読み込み順序を第２の文順に変更した前記複数の対応文に対して前記マッチングを行い、前記第２の文順における第１の読み込み順序の対応文のマッチング結果と、前記第２の文順における第２の読み込み順序の対応文のマッチング結果とを比較することにより、前記新規な用語のペアを用語ペア候補として取得し、前記第２の文順における第１の読み込み順序は、前記第２の文順における第２の読み込み順序よりも上位の順序である、
ことを特徴とする対訳辞書作成方法。
前記用語ペア記憶部に、前記抽出された用語ペアを登録するステップをさらに含むことを特徴とする請求項１に記載の対訳辞書作成方法。
前記新規な用語ペアは、前記マッチング結果において、前記選定された新規な用語と一対の用語が抽出された場合にのみ取得されることを特徴とする請求項１または２に記載の対訳辞書作成方法。
第１言語文と第２言語文とが文単位であらかじめ対応付けられた複数の対応文に含まれる異なる言語間の用語ペアの出現頻度に基づいて抽出された前記用語ペアを記憶する用語ペア記憶部と、
対訳コーパスから前記複数の対応文を第１の文順にしたがって読み込む対応文読込部と、
前記複数の対応文に含まれる前記第１言語文と前記第２言語文とを構成する用語を抽出する用語抽出部と、
前記抽出された用語が前記用語ペアを構成する用語以外である場合には、当該用語を、新規な用語として選定する用語選定部と、
前記対訳コーパスから前記第１の文順にしたがって読み込まれた前記複数の対応文の読み込み順序に従って各対応文を構成する前記第１言語文と前記第２言語文とのマッチングを行い、マッチング結果に基づいて、前記新規な用語のペアを用語ペア候補として取得する用語ペア候補取得部であって、前記マッチング結果に基づいて、前記新規な用語のペアを用語ペア候補として取得することは、前記第１の文順における第１の読み込み順序の対応文のマッチング結果と、前記第１の文順における第２の読み込み順序の対応文のマッチング結果とを比較することにより実行され、前記第１の文順における前記第１の読み込み順序は、前記第１の文順における前記第２の読み込み順序よりも上位の順序である、用語ペア候補取得部と、
前記用語ペア候補の出現頻度に応じて、当該用語ペア候補を構成する新規な用語ペアを対訳辞書として出力する対訳辞書出力部と、を含み、
前記用語ペア候補取得部は、前記用語ペア候補の取得が終了していないことを条件として、前記複数の対応文の読み込み順序を第２の文順に変更した前記複数の対応文に対して前記マッチングを行い、前記第２の文順における第１の読み込み順序の対応文のマッチング結果と、前記第２の文順における第２の読み込み順序の対応文のマッチング結果とを比較することにより、前記新規な用語のペアを用語ペア候補として取得し、
前記第２の文順における第１の読み込み順序は、前記第２の文順における第２の読み込み順序よりも上位の順序である、
ことを特徴とする対訳辞書作成装置。
請求項１ないし３のいずれか１項に記載の対訳辞書作成方法をコンピュータに実行させるための対訳辞書作成プログラム。