(本開示の基礎となった知見)
近年、第1言語の文を第1言語と異なる第2言語の文に翻訳する機械翻訳装置が研究及び開発されており、このような機械翻訳装置の翻訳性能の向上には、翻訳に利用可能な多数の例文を収集した対訳コーパスが必要となる。しかしながら、従来の機械翻訳装置は、複数の文を互いに接続詞で繋いだ長文(複文)の翻訳が困難であった。
上記の特許文献1では、入力テキストを短く分割し、分割したテキスト毎に翻訳することで、翻訳性能を向上させている。また、上記の特許文献2では、多様な同一意図の類似文を自動的に生成することで発話文例を大量に収集している。
しかしながら、特に、複数の文を互いに接続詞で繋いだ長文に関する翻訳性能の向上には、長文に関する対訳コーパスが必要であり、長文の対訳コーパスを収集するのは困難である。
以上の課題を解決するために、本開示の一態様に係る翻訳文生成方法は、第1言語と第2言語との間の翻訳処理に用いられる翻訳文を生成する翻訳文生成装置における翻訳文生成方法であって、前記第1言語の第1文と、当該第1文を前記第2言語へ翻訳した第1翻訳文と、前記第1言語の第2文と、当該第2文を前記第2言語へ翻訳した第2翻訳文とを取得し、前記第1文と前記第2文とを前記第1言語の第1接続詞を用いて1つの文章として構成した第3文の翻訳文として、前記第1翻訳文と前記第2翻訳文とを前記第2言語の第2接続詞を用いて1つの文章として構成した第3翻訳文を生成する。
この構成によれば、第1言語の第1文と、当該第1文を第2言語へ翻訳した第1翻訳文と、第1言語の第2文と、当該第2文を第2言語へ翻訳した第2翻訳文とが取得される。第1文と第2文とを第1言語の第1接続詞を用いて1つの文章として構成した第3文の翻訳文として、第1翻訳文と第2翻訳文とを第2言語の第2接続詞を用いて1つの文章として構成した第3翻訳文が生成される。
したがって、第1文と第2文とを第1言語の第1接続詞を用いて1つの文章として構成した第3文の翻訳文として、第1翻訳文と第2翻訳文とを第2言語の第2接続詞を用いて1つの文章として構成した第3翻訳文が生成されるので、生成された第3翻訳文を用いて複数の文を互いに接続詞で繋いだ長文を翻訳することにより、複数の文を互いに接続詞で繋いだ長文の翻訳性能を向上させることができる。
また、上記の翻訳文生成方法において、さらに、少なくとも前記第3翻訳文を出力してもよい。この構成によれば、少なくとも第3翻訳文を出力し、第3翻訳文を用いて入力文の翻訳処理を行うことができる。
また、上記の翻訳文生成方法において、さらに、文章の属性を示す属性情報と前記第1接続詞との対応関係を表す接続ルールに基づき前記第1接続詞を特定し、特定した前記第1接続詞、前記第1文及び前記第2文を用いて前記第3文を生成してもよい。
この構成によれば、文章の属性を示す属性情報と第1接続詞との対応関係を表す接続ルールに基づき第1接続詞が特定される。特定された第1接続詞、第1文及び第2文を用いて第3文が生成される。
したがって、接続ルールに基づき第1接続詞が特定されるので、第1文と第2文とを繋ぐ適切な第1言語の第1接続詞を特定することができる。
また、上記の翻訳文生成方法において、前記接続ルールは、さらに、前記属性情報と前記第2接続詞との対応関係を表し、前記接続ルールに基づき前記第2の接続詞を特定し、特定した前記第2接続詞、前記第1翻訳文及び前記第2翻訳文を用いて前記第3翻訳文を生成してもよい。
この構成によれば、接続ルールは、さらに、属性情報と第2接続詞との対応関係を表す。そして、接続ルールに基づき第2の接続詞が特定される。特定された第2接続詞、第1翻訳文及び第2翻訳文を用いて第3翻訳文が生成される。
したがって、接続ルールに基づき第2接続詞が特定されるので、第1翻訳文と第2翻訳文とを繋ぐ適切な第2言語の第2接続詞を特定することができる。
また、上記の翻訳文生成方法において、前記属性情報は、前記文章の意味から分類されるカテゴリを示す情報であってもよい。
この構成によれば、属性情報は、文章の意味から分類されるカテゴリを示す情報であるので、第1文及び第2文の意味から適切な第1接続詞及び第2接続詞を特定することができる。
また、上記の翻訳文生成方法において、文章に含まれうる単語又は語句と、当該文章の前記カテゴリとを対応付けて記憶するカテゴリデータベースから、前記第1文に含まれる単語又は語句と合致する前記カテゴリを検索することにより、前記第1文の前記カテゴリを特定し、前記カテゴリデータベースから、前記第2文に含まれる単語又は語句と合致する前記カテゴリを検索することにより、前記第2文の前記カテゴリを特定してもよい。
この構成によれば、文章に含まれうる単語又は語句と、当該文章のカテゴリとを対応付けて記憶するカテゴリデータベースから、第1文に含まれる単語又は語句と合致するカテゴリを検索することにより、第1文のカテゴリが特定される。カテゴリデータベースから、第2文に含まれる単語又は語句と合致するカテゴリを検索することにより、第2文のカテゴリが特定される。
したがって、第1文及び第2文に含まれる単語又は語句から、第1文及び第2文のカテゴリを容易に特定することができる。
また、上記の翻訳文生成方法において、前記接続ルールは、接続ルールデータベースに記憶され、前記接続ルールデータベースは、前記カテゴリの1つである第1カテゴリ及び前記カテゴリの1つである第2カテゴリの組み合わせと、前記第1接続詞と、前記第2接続詞とを対応付けて記憶し、前記接続ルールデータベースから、前記第1文の前記第1カテゴリ及び前記第2文の前記第2カテゴリの組み合わせに対応する前記第1接続詞及び前記第2接続詞を検索することにより、前記第1接続詞及び前記第2接続詞を特定してもよい。
この構成によれば、接続ルールは、接続ルールデータベースに記憶される。接続ルールデータベースは、カテゴリの1つである第1カテゴリ及びカテゴリの1つである第2カテゴリの組み合わせと、第1接続詞と、第2接続詞とを対応付けて記憶している。接続ルールデータベースから、第1文の第1カテゴリ及び第2文の第2カテゴリの組み合わせに対応する第1接続詞及び第2接続詞を検索することにより、第1接続詞及び第2接続詞が特定される。
したがって、第1カテゴリ及び第2カテゴリの組み合わせから第1接続詞及び第2接続詞を容易に特定することができる。
また、上記の翻訳文生成方法において、前記第1言語からなる文と当該文の前記第2言語への翻訳文とを対応付けた対訳コーパスを記憶する対訳コーパス記憶部から、前記第1文、前記第1文に対応する前記第1翻訳文、前記第2文、及び前記第2文に対応する前記第2翻訳文を取得してもよい。
この構成によれば、第1言語からなる文と当該文の第2言語への翻訳文とを対応付けた対訳コーパスを記憶する対訳コーパス記憶部から、第1文、第1文に対応する第1翻訳文、第2文、及び第2文に対応する第2翻訳文が取得される。
したがって、対訳コーパス記憶部に記憶されている対訳コーパスから取得される第1翻訳文及び第2翻訳文から、第3翻訳文を生成することができる。
また、上記の翻訳文生成方法において、さらに、前記第3文と前記第3翻訳文とを対応付けて前記対訳コーパス記憶部に格納することにより前記対訳コーパスを更新し、さらに、前記翻訳処理に用いられる機械翻訳モデルを、前記更新された対訳コーパスにより学習してもよい。
この構成によれば、第3文と第3翻訳文とを対応付けて対訳コーパス記憶部に格納することにより対訳コーパスが更新される。翻訳処理に用いられる機械翻訳モデルが、更新された対訳コーパスにより学習される。
したがって、更新された対訳コーパスにより学習された機械翻訳モデルを用いて翻訳処理が行われることにより、複数の文を互いに接続詞で繋いだ長文をより正確に翻訳することができる。
また、上記の翻訳文生成方法において、さらに、前記第1翻訳文が正しいか否かを判定した判定結果を示す第1判定情報を取得し、さらに、前記第2翻訳文が正しいか否かを判定した判定結果を示す第2判定情報を取得し、前記第1判定情報及び前記第2判定情報に基づき、前記第1翻訳文及び前記第2翻訳文が共に正しいと判定された場合、前記第3翻訳文を生成してもよい。
この構成によれば、第1翻訳文が正しいか否かを判定した判定結果を示す第1判定情報が取得される。第2翻訳文が正しいか否かを判定した判定結果を示す第2判定情報が取得される。第1判定情報及び第2判定情報に基づき、第1翻訳文及び第2翻訳文が共に正しいと判定された場合、第3翻訳文が生成される。
したがって、第1翻訳文及び第2翻訳文が共に正しいと判定された場合、第3翻訳文が生成されるので、第3翻訳文の翻訳精度をより向上させることができる。
また、上記の翻訳文生成方法において、さらに、前記第1翻訳文と、前記第1翻訳文が正しいか否かを判定した判定結果をユーザに入力させるための第1オブジェクトと、前記第2翻訳文と、前記第2翻訳文が正しいか否かを判定した判定結果を前記ユーザに入力させるための第2オブジェクトとを表示してもよい。
この構成によれば、第1翻訳文と、第1翻訳文が正しいか否かを判定した判定結果をユーザに入力させるための第1オブジェクトと、第2翻訳文と、第2翻訳文が正しいか否かを判定した判定結果をユーザに入力させるための第2オブジェクトとが表示される。
したがって、第1翻訳文が正しいか否かを判定した判定結果がユーザにより入力され、第2翻訳文が正しいか否かを判定した判定結果がユーザにより入力されるので、第3翻訳文の翻訳精度をより向上させることができる。
また、上記の翻訳文生成方法において、さらに、前記第1翻訳文を、前記機械翻訳モデルに適用することにより前記第1言語に翻訳した第1逆翻訳文を取得し、さらに、前記第2翻訳文を、前記機械翻訳モデルに適用することにより前記第1言語に翻訳した第2逆翻訳文を取得し、さらに、前記第1逆翻訳文が正しいか否かを判定した判定結果を示す第3判定情報を取得し、さらに、前記第2逆翻訳文が正しいか否かを判定した判定結果を示す第4判定情報を取得し、前記第3判定情報及び前記第4判定情報に基づき、前記第1逆翻訳文及び前記第2逆翻訳文が共に正しいと判定された場合、前記第3翻訳文を生成してもよい。
この構成によれば、第1翻訳文を、機械翻訳モデルに適用することにより第1言語に翻訳した第1逆翻訳文が取得される。第2翻訳文を、機械翻訳モデルに適用することにより第1言語に翻訳した第2逆翻訳文が取得される。第1逆翻訳文が正しいか否かを判定した判定結果を示す第3判定情報が取得される。第2逆翻訳文が正しいか否かを判定した判定結果を示す第4判定情報が取得される。第3判定情報及び第4判定情報に基づき、第1逆翻訳文及び第2逆翻訳文が共に正しいと判定された場合、第3翻訳文が生成される。
したがって、第2言語が理解できなくても、第1言語の第1文と第1言語の第1逆翻訳文とを比較するとともに、第1言語の第2文と第1言語の第2逆翻訳文とを比較することにより、第1翻訳文及び第2翻訳文が正しく翻訳されているか否かを容易に判定することができる。
また、上記の翻訳文生成方法において、さらに、前記第1逆翻訳文と、前記第1逆翻訳文が正しいか否かを判定した判定結果をユーザに入力させるための第3オブジェクトと、前記第2逆翻訳文と、前記第2逆翻訳文が正しいか否かを判定した判定結果を前記ユーザに入力させるための第4オブジェクトとを表示してもよい。
この構成によれば、第1逆翻訳文と、第1逆翻訳文が正しいか否かを判定した判定結果をユーザに入力させるための第3オブジェクトと、第2逆翻訳文と、第2逆翻訳文が正しいか否かを判定した判定結果をユーザに入力させるための第4オブジェクトとが表示される。
したがって、第1逆翻訳文が正しいか否かを判定した判定結果がユーザにより入力され、第2逆翻訳文が正しいか否かを判定した判定結果がユーザにより入力されるので、第3翻訳文の翻訳精度をより向上させることができる。
また、上記の翻訳文生成方法において、前記第1言語からなる文と当該文の前記第2言語への翻訳文とを対応付けた対訳コーパスを用いて学習された機械翻訳モデルに前記第1文を適用することにより前記第1翻訳文を取得し、前記機械翻訳モデルに前記第2文を適用することにより前記第2翻訳文を取得してもよい。
この構成によれば、第1言語からなる文と当該文の第2言語への翻訳文とを対応付けた対訳コーパスを用いて学習された機械翻訳モデルに第1文を適用することにより第1翻訳文が取得される。また、機械翻訳モデルに第2文を適用することにより第2翻訳文が取得される。
したがって、対訳コーパスを用いて学習された機械翻訳モデルに第1文及び第2文を適用することで取得される第1翻訳文及び第2翻訳文から、第3翻訳文を生成することができる。
また、上記の翻訳文生成方法において、さらに、前記第3文と前記第3翻訳文とを対応付けて前記対訳コーパスを更新し、さらに、前記機械翻訳モデルを、前記更新された対訳コーパスにより学習してもよい。
この構成によれば、第3文と第3翻訳文とを対応付けて対訳コーパスが更新される。機械翻訳モデルが、更新された対訳コーパスにより学習される。
したがって、更新された対訳コーパスにより学習された機械翻訳モデルを用いて翻訳処理が行われることにより、複数の文を互いに接続詞で繋いだ長文をより正確に翻訳することができる。
また、上記の翻訳文生成方法において、さらに、前記第1翻訳文が正しいか否かを判定した判定結果を示す第1判定情報を取得し、さらに、前記第2翻訳文が正しいか否かを判定した判定結果を示す第2判定情報を取得し、前記第1判定情報及び前記第2判定情報に基づき、前記第1翻訳文及び前記第2翻訳文が共に正しいと判定された場合、前記第3翻訳文を生成してもよい。
この構成によれば、第1翻訳文が正しいか否かを判定した判定結果を示す第1判定情報が取得される。第2翻訳文が正しいか否かを判定した判定結果を示す第2判定情報が取得される。第1判定情報及び第2判定情報に基づき、第1翻訳文及び第2翻訳文が共に正しいと判定された場合、第3翻訳文が生成される。
したがって、第1翻訳文及び第2翻訳文が共に正しいと判定された場合、第3翻訳文が生成されるので、第3翻訳文の翻訳精度をより向上させることができる。
また、上記の翻訳文生成方法において、さらに、前記第1翻訳文と、前記第1翻訳文が正しいか否かを判定した判定結果をユーザに入力させるための第1オブジェクトと、前記第2翻訳文と、前記第2翻訳文が正しいか否かを判定した判定結果を前記ユーザに入力させるための第2オブジェクトとを表示してもよい。
この構成によれば、第1翻訳文と、第1翻訳文が正しいか否かを判定した判定結果をユーザに入力させるための第1オブジェクトと、第2翻訳文と、第2翻訳文が正しいか否かを判定した判定結果をユーザに入力させるための第2オブジェクトとが表示される。
したがって、第1翻訳文が正しいか否かを判定した判定結果がユーザにより入力され、第2翻訳文が正しいか否かを判定した判定結果がユーザにより入力されるので、第3翻訳文の翻訳精度をより向上させることができる。
また、上記の翻訳文生成方法において、さらに、前記第1翻訳文を、前記機械翻訳モデルに適用することにより前記第1言語に翻訳した第1逆翻訳文を取得し、さらに、前記第2翻訳文を、前記機械翻訳モデルに適用することにより前記第1言語に翻訳した第2逆翻訳文を取得し、さらに、前記第1逆翻訳文が正しいか否かを判定した判定結果を示す第3判定情報を取得し、さらに、前記第2逆翻訳文が正しいか否かを判定した判定結果を示す第4判定情報を取得し、前記第3判定情報及び前記第4判定情報に基づき、前記第1逆翻訳文及び前記第2逆翻訳文が共に正しいと判定された場合、前記第3翻訳文を生成してもよい。
この構成によれば、第1翻訳文を、機械翻訳モデルに適用することにより第1言語に翻訳した第1逆翻訳文が取得される。第2翻訳文を、機械翻訳モデルに適用することにより第1言語に翻訳した第2逆翻訳文が取得される。第1逆翻訳文が正しいか否かを判定した判定結果を示す第3判定情報が取得される。第2逆翻訳文が正しいか否かを判定した判定結果を示す第4判定情報が取得される。第3判定情報及び第4判定情報に基づき、第1逆翻訳文及び第2逆翻訳文が共に正しいと判定された場合、第3翻訳文が生成される。
したがって、第2言語が理解できなくても、第1言語の第1文と第1言語の第1逆翻訳文とを比較するとともに、第1言語の第2文と第1言語の第2逆翻訳文とを比較することにより、第1翻訳文及び第2翻訳文が正しく翻訳されているか否かを容易に判定することができる。
また、上記の翻訳文生成方法において、さらに、前記第1逆翻訳文と、前記第1逆翻訳文が正しいか否かを判定した判定結果をユーザに入力させるための第3オブジェクトと、前記第2逆翻訳文と、前記第2逆翻訳文が正しいか否かを判定した判定結果を前記ユーザに入力させるための第4オブジェクトとを表示してもよい。
この構成によれば、第1逆翻訳文と、第1逆翻訳文が正しいか否かを判定した判定結果をユーザに入力させるための第3オブジェクトと、第2逆翻訳文と、第2逆翻訳文が正しいか否かを判定した判定結果をユーザに入力させるための第4オブジェクトとが表示される。
したがって、第1逆翻訳文が正しいか否かを判定した判定結果がユーザにより入力され、第2逆翻訳文が正しいか否かを判定した判定結果がユーザにより入力されるので、第3翻訳文の翻訳精度をより向上させることができる。
本開示の他の態様に係る翻訳文生成装置は、第1言語と第2言語との間の翻訳処理に用いられる翻訳文を生成する翻訳文生成装置であって、前記第1言語の第1文と、当該第1文を前記第2言語へ翻訳した第1翻訳文と、前記第1言語の第2文と、当該第2文を前記第2言語へ翻訳した第2翻訳文とを取得する取得部と、前記第1文と前記第2文とを前記第1言語の第1接続詞を用いて1つの文章として構成した第3文の翻訳文として、前記第1翻訳文と前記第2翻訳文とを、前記第2言語の第2接続詞を用いて1つの文章として構成した第3翻訳文を生成する生成部と、を備える。
この構成によれば、第1言語の第1文と、当該第1文を第2言語へ翻訳した第1翻訳文と、第1言語の第2文と、当該第2文を第2言語へ翻訳した第2翻訳文とが取得される。第1文と第2文とを第1言語の第1接続詞を用いて1つの文章として構成した第3文の翻訳文として、第1翻訳文と第2翻訳文とを第2言語の第2接続詞を用いて1つの文章として構成した第3翻訳文が生成される。
したがって、第1文と第2文とを第1言語の第1接続詞を用いて1つの文章として構成した第3文の翻訳文として、第1翻訳文と第2翻訳文とを第2言語の第2接続詞を用いて1つの文章として構成した第3翻訳文が生成されるので、生成された第3翻訳文を用いて複数の文を互いに接続詞で繋いだ長文を翻訳することにより、複数の文を互いに接続詞で繋いだ長文の翻訳性能を向上させることができる。
本開示の他の態様に係る翻訳文生成プログラムは、第1言語と第2言語との間の翻訳処理に用いられる翻訳文を生成するための翻訳文生成プログラムであって、コンピュータを、前記第1言語の第1文と、当該第1文を前記第2言語へ翻訳した第1翻訳文と、前記第1言語の第2文と、当該第2文を前記第2言語へ翻訳した第2翻訳文とを取得する取得部と、前記第1文と前記第2文とを前記第1言語の第1接続詞を用いて1つの文章として構成した第3文の翻訳文として、前記第1翻訳文と前記第2翻訳文とを前記第2言語の第2接続詞を用いて1つの文章として構成した第3翻訳文を生成する生成部として機能させる。
この構成によれば、第1言語の第1文と、当該第1文を第2言語へ翻訳した第1翻訳文と、第1言語の第2文と、当該第2文を第2言語へ翻訳した第2翻訳文とが取得される。第1文と第2文とを第1言語の第1接続詞を用いて1つの文章として構成した第3文の翻訳文として、第1翻訳文と第2翻訳文とを第2言語の第2接続詞を用いて1つの文章として構成した第3翻訳文が生成される。
したがって、第1文と第2文とを第1言語の第1接続詞を用いて1つの文章として構成した第3文の翻訳文として、第1翻訳文と第2翻訳文とを第2言語の第2接続詞を用いて1つの文章として構成した第3翻訳文が生成されるので、生成された第3翻訳文を用いて複数の文を互いに接続詞で繋いだ長文を翻訳することにより、複数の文を互いに接続詞で繋いだ長文の翻訳性能を向上させることができる。
以下、本開示にかかる実施の一形態を図面に基づいて説明する。なお、以下の実施の形態は、本開示を具体化した一例であって、本開示の技術的範囲を限定するものではない。また、各図において同一の符号を付した構成は、同一の構成であることを示し、適宜、その説明を省略する。
(実施の形態1)
図1は、本開示の実施の形態1における対訳コーパス生成装置の構成を示すブロック図である。
実施の形態1における対訳コーパス生成装置1は、第1言語の第1文と第1言語と異なる第2言語の第2文とを対にした複数の対の文を集めた対訳コーパスを生成する。図1に示すように、対訳コーパス生成装置1は、対訳コーパス記憶部14と、カテゴリデータベース15と、カテゴリ付与部16と、カテゴリタグ付きデータ記憶部17と、接続ルール記憶部18と、長文生成部19と、対訳コーパス更新部20とを備える。
なお、対訳コーパス記憶部14、カテゴリデータベース15、カテゴリ付与部16、カテゴリタグ付きデータ記憶部17、接続ルール記憶部18、長文生成部19及び対訳コーパス更新部20の一部又は全部は、対訳コーパス生成装置1とは別体の外部機器(例えば、サーバコンピュータ等)に備えられてもよい。この場合、図1に示す対訳コーパス生成装置1は、外部機器との間でデータを通信するインタフェース部を備える。インタフェース部は、生成された対訳コーパスを外部機器へ送信する。インタフェース部は、例えば、USB(Universal Serial Bus)規格を用いたインタフェース回路、又はIEEE802.11規格等に従った通信インタフェース回路等である。
対訳コーパス生成装置1は、例えば、情報処理装置で構成される。情報処理装置は、例えば、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)及び補助記憶装置を含むコンピュータを備える。また、情報処理装置は、データを表示することでデータを出力するディスプレイと、データを入力する入力装置とをさらに備えてもよい。情報処理装置としては、例えば、デスクトップ型コンピュータのように据え置き型の情報処理装置が採用されてもよいし、ノート型コンピュータ又はタブレット型コンピュータ等のように携帯型の情報処理装置が採用されてもよい。
図1に示す各ブロックは、例えば、CPUが、補助記憶装置に記憶されている、コンピュータを対訳コーパス生成装置1として機能させるプログラム(対訳コーパス生成プログラム)を実行することで実現される。したがって、コンピュータには、対訳コーパス生成方法が実装されている。図1において、四角形で示すブロックは、主にCPUで機能的に実現され、円筒形で示すブロックは、主に、ROM、RAM及び補助記憶装置等で構成される記憶装置で機能的に実現される。
対訳コーパス記憶部14は、第1言語からなる文と当該文の第2言語への翻訳文とを対応付けた対訳コーパスを記憶する。対訳コーパスは、第1言語の第1文と当該第1文を第2言語へ翻訳した第1翻訳文とを対にした第1訳文対と、第1言語の第2文と当該第2文を第2言語へ翻訳した第2翻訳文とを対にした第2訳文対とを含む。このように、対訳コーパスは、第1言語の文と、第1言語とは異なる第2言語に当該文を翻訳した翻訳文とを対にした複数の訳文対を含む。対訳コーパス記憶部14は、カテゴリ付与部16に接続され、第1言語の第1文と、当該第1文を第2言語へ翻訳した第1翻訳文と、第1言語の第2文と、当該第2文を第2言語へ翻訳した第2翻訳文とをカテゴリ付与部16に送信する。
カテゴリデータベース15は、カテゴリ付与部16に接続され、カテゴリ付与部16で用いるカテゴリデータを記憶する。カテゴリデータベース15は、文章に含まれうる単語又は語句と、当該文章のカテゴリとを対応付けたカテゴリ条件データを記憶する。
カテゴリ付与部16は、第1言語の第1文と、当該第1文を第2言語へ翻訳した第1翻訳文と、第1言語の第2文と、当該第2文を第2言語へ翻訳した第2翻訳文とを取得する。カテゴリ付与部16は、対訳コーパス記憶部14から、第1文、第1文に対応する第1翻訳文、第2文、及び第2文に対応する第2翻訳文を取得する。カテゴリ付与部16は、カテゴリタグ付きデータ記憶部17に接続され、文及び翻訳文の組み合わせに対してカテゴリを示すタグ情報を付与する。カテゴリ付与部16は、カテゴリデータベース15から、第1文に含まれる単語又は語句と合致するカテゴリを検索することにより、第1文のカテゴリを特定する。また、カテゴリ付与部16は、カテゴリデータベース15から、第2文に含まれる単語又は語句と合致するカテゴリを検索することにより、第2文のカテゴリを特定する。なお、カテゴリ付与部16による具体的なカテゴリ付与方法については後述する。
カテゴリタグ付きデータ記憶部17は、長文生成部19に接続され、カテゴリ付与部16でタグ情報が付与された第1言語の文及び第2言語の翻訳文で構成される複数の訳文対を記憶する。カテゴリタグ付きデータ記憶部17は、カテゴリ付与部16でタグ情報が付与された第1文及び第1翻訳文で構成される第1訳文対と、カテゴリ付与部16でタグ情報が付与された第2文及び第2翻訳文で構成される第2訳文対とを記憶する。
長文生成部19は、対訳コーパス更新部20に接続され、カテゴリタグ付きデータ記憶部17から第1文、第1翻訳文、第2文及び第2翻訳文を取得し、タグ情報及び接続ルールに基づいて、第1文及び第2文を第1接続詞で接続した第3文を生成するとともに、第1翻訳文及び第2翻訳文を第2接続詞で接続した第3翻訳文を生成する。
長文生成部19は、第1文と第2文とを第1言語の第1接続詞を用いて1つの文章として構成した第3文の翻訳文として、第1翻訳文と第2翻訳文とを第2言語の第2接続詞を用いて1つの文章として構成した第3翻訳文を生成する。長文生成部19は、接続ルールに基づき第1接続詞及び第2の接続詞を特定する。長文生成部19は、特定した第1接続詞、第1文及び第2文を用いて第3文を生成する。接続ルールは、文章の属性を示す属性情報と第1接続詞との対応関係を表し、属性情報と第2接続詞との対応関係を表す。属性情報は、文章の意味から分類されるカテゴリを示す情報である。
接続ルール記憶部18は、長文生成部19に接続され、接続ルールを記憶する。接続ルール記憶部18は、カテゴリの1つである第1カテゴリ及びカテゴリの1つである第2カテゴリの組み合わせと、第1接続詞と、第2接続詞とを対応付けて記憶する。
長文生成部19は、接続ルール記憶部18から、第1文の第1カテゴリ及び第2文の第2カテゴリの組み合わせに対応する第1接続詞及び第2接続詞を検索することにより、第1接続詞及び第2接続詞を特定する。なお、長文生成部19による具体的な文章の接続方法については後述する。
対訳コーパス更新部20は、対訳コーパス記憶部14に接続され、長文生成部19で生成された対訳コーパスを、対訳コーパス記憶部14に追加することで、対訳コーパス記憶部14を更新する。対訳コーパス更新部20は、第3文と第3翻訳文とを対応付けて対訳コーパス記憶部14に格納することにより対訳コーパスを更新する。
図2は、本開示の実施の形態1における対訳コーパス生成装置における翻訳文生成処理について説明するための第1のフローチャートであり、図3は、本開示の実施の形態1における対訳コーパス生成装置における翻訳文生成処理について説明するための第2のフローチャートである。
まず、ステップS1において、カテゴリ付与部16は、対訳コーパス記憶部14から、第1言語の文と、当該文を第2言語へ翻訳した翻訳文とで構成される訳文対を取得する。カテゴリ付与部16は、対訳コーパス記憶部14に記憶されている複数の訳文対のうち1つの訳文対を取得する。
次に、ステップS2において、カテゴリ付与部16は、取得した訳文対がいずれかのカテゴリに該当するか否かを判断する。カテゴリ付与部16は、カテゴリデータベース15から、文に含まれる単語又は語句と合致するカテゴリを検索することにより、訳文対のカテゴリを特定する。
図4は、カテゴリデータベースに記憶され、移動カテゴリに該当するか否かを判断するために用いられるカテゴリ条件データの一例を示す図であり、図5は、カテゴリデータベースに記憶され、対象カテゴリに該当するか否かを判断するために用いられるカテゴリ条件データの一例を示す図である。
図4に示すように、移動カテゴリに該当する否かを判断するために用いる条件としては、以下の第1条件〜第3条件がある。なお、移動カテゴリは、文の内容が移動を意味していることを示している。例えば、第1条件としては、第1言語の文に含まれる単語に、「行く」、「乗る」又は「進む」などの移動に関する動詞が含まれることであり、第2条件としては、第1言語の文に含まれる単語に、「車」、「電車」又は「徒歩」などの移動に関する名詞が含まれることであり、第3条件としては、第1言語の文の長さが15文字以下であることである。そして、カテゴリ付与部16は、第3条件を必ず満たし、且つ第1条件と第2条件とのいずれかを満たす場合、すなわち、第1条件及び第3条件を満たす場合、又は、第2条件及び第3条件を満たす場合、訳文対が移動カテゴリに該当すると判断する。なお、カテゴリ付与部16は、第3条件を用いずに、第1条件と第2条件とのいずれかを満たす場合、訳文対が移動カテゴリに該当すると判断してもよい。
また、図5に示すように、対象カテゴリに該当する否かを判断するために用いる条件としては、以下の第1条件〜第3条件がある。なお、対象カテゴリは、文の内容が移動対象を意味していることを示している。例えば、第1条件としては、第1言語の文に含まれる単語に、「ある」、「見える」又は「着く」などの移動に関する動詞が含まれることであり、第2条件としては、ランドマーク名、地名又は国名などの移動に関する名詞が含まれることであり、第3条件としては、第1言語の文の長さが15文字以下であることである。そして、カテゴリ付与部16は、第1条件、第2条件及び第3条件の全てを満たす場合、訳文対が対象カテゴリに該当すると判断する。なお、カテゴリ付与部16は、第3条件を用いずに、第1条件及び第2条件を満たす場合、訳文対が対象カテゴリに該当すると判断してもよい。
なお、第3条件は、文が、複数の文を接続詞で繋いだ長文ではなく、1つの文で構成されることを判断するための条件であり、15文字に限定されない。また、英語などの日本語以外の言語では、15文字ではなく、15単語であってもよい。
また、図4及び図5に示すこれらの条件は一例である。例えば、第2言語の翻訳文に関する条件を記載してもよいし、カテゴリの該当条件はどのような記載方法でもよい。例えば、長文生成部19は、原因を表す原因カテゴリに該当する第1文と、結果を表する結果カテゴリに該当する第2文とを第1接続詞で接続した第3文を生成し、原因カテゴリに該当する第1翻訳文と、結果カテゴリに該当する第2翻訳文とを第2接続詞で接続した第3翻訳文を生成してもよい。
図2に戻って、訳文対がいずれかのカテゴリに該当しないと判断された場合(ステップS2でNO)、ステップS5の処理に移行する。
一方、訳文対がいずれかのカテゴリに該当すると判断された場合(ステップS2でYES)、ステップS3において、カテゴリ付与部16は、訳文対にカテゴリを付与する。
次に、ステップS4において、カテゴリ付与部16は、カテゴリが付与された訳文対をカテゴリタグ付きデータ記憶部17に記憶する。
次に、ステップS5において、カテゴリ付与部16は、対訳コーパス記憶部14から全ての訳文対を取得したか否かを判断する。ここで、全ての訳文対を取得していないと判断された場合(ステップS5でNO)、ステップS1の処理に戻り、カテゴリ付与部16は、対訳コーパス記憶部14から他の訳文対を取得する。一方、全ての訳文対を取得したと判断された場合(ステップS5でYES)、ステップS6の処理に移行する。
以下、カテゴリ付与部16による処理について、具体例を挙げて説明する。なお、以下の例では、第1言語が日本語であり、第2言語が英語である。
例えば、カテゴリ付与部16は、「まっすぐ行く。」という文及び「go straight.」という翻訳文を含む訳文対と、「京都タワーがある。」という文及び「there is a Kyoto tower.」という翻訳文を含む訳文対と、「今日は東京で遊ぶ予定です。」という文及び「It is scheduled to play in Tokyo today.」という翻訳文を含む訳文対とを取得する(ステップS1)。
次に、カテゴリ付与部16は、それぞれの訳文対がいずれかのカテゴリに該当するか否かを判断する(ステップS2)。例えば、「まっすぐ行く。」という文は、「行く」という動詞を含み、且つ15文字以下であるので、第1条件及び第3条件を満たし、移動カテゴリに該当すると判断される。また、「京都タワーがある。」という文は、「ある」という動詞を含み、且つ「京都タワー」というランドマーク名を含み、且つ15文字以下であるので、第1条件、第2条件及び第3条件を満たし、対象カテゴリに該当すると判断される。さらに、「今日は東京で遊ぶ予定です。」という文は、「東京」という地名を含むが、第1条件に合致する動詞を含んでいないので、移動カテゴリ及び対象カテゴリのいずれのカテゴリにも該当しないと判断される。
図6は、カテゴリタグ付きデータ記憶部に記憶されるデータの一例を示す図である。図6に示すように、第1言語の文と、第2言語の翻訳文とで構成される訳文対には、カテゴリを示すタグ情報が付与されている。例えば、「まっすぐ行く。」という文及び「go straight.」という翻訳文を含む訳文対には、移動カテゴリを示すタグ情報が付与されており、「京都タワーがある。」という文及び「there is a Kyoto tower.」という翻訳文を含む訳文対には、対象カテゴリを示すタグ情報が付与されている。なお、図6に示すデータは一例であり、これに限らない。
続いて、図3に戻って、全ての訳文対を取得したと判断された場合(ステップS5でYES)、ステップS6において、長文生成部19は、適用する接続ルールを選択する。
図7は、接続ルール記憶部に記憶される接続ルールの一例を示す図である。接続ルールは、接続する文のカテゴリの組み合わせと、第1言語の第1接続と、第2言語の第2接続詞とを対応付けている。図7では、第1言語が日本語であり、第2言語が英語である。図7に示す接続ルールは、移動カテゴリの文と対象カテゴリの文とを、「と」、「ば」又は「たら」の第1接続詞で接続し、移動カテゴリの翻訳文と対象カテゴリの翻訳文とを、「And」又は「Then」の第2接続詞で接続する接続ルールを示している。接続ルールの選択方法はどのような方法であってもよく、例えば、接続ルール記憶部18に予め記憶している全ての接続ルールを選択してもよいし、規則に則って幾つかの接続ルールを選択してもよいし、ランダムに接続ルールを選択してもよい。さらに、機械学習などで接続ルールを学習してもよい。本実施の形態1では、長文生成部19は、接続ルール記憶部18に記憶されている複数の接続ルールの中から1の接続ルールを選択する。接続ルールは一例であり、これに限らない。
次に、ステップS7において、長文生成部19は、接続ルールに応じた第1訳文対及び第2訳文対をカテゴリタグ付きデータ記憶部17から抽出する。例えば、接続ルールが、移動カテゴリと対象カテゴリとを接続する接続ルールであった場合、長文生成部19は、移動カテゴリを示すタグ情報を含む第1訳文対と、対象カテゴリを示すタグ情報を含む第2訳文対とをカテゴリタグ付きデータ記憶部17から抽出する。第1訳文対は、第1言語の第1文と、当該第1文を第2言語へ翻訳した第1翻訳文とを含み、第2訳文対は、第1言語の第2文と、当該第2文を第2言語へ翻訳した第2翻訳文とを含む。
次に、長文生成部19は、接続ルールを適用し、第1文と第2文とを第1接続詞を用いて1つの文章として構成した第3文と、第1翻訳文と第2翻訳文とを第2接続詞を用いて1つの文章として構成した第3翻訳文とを生成し、第3文と第3翻訳文とを含む第3訳文対を生成する(ステップS8)。
以下、長文生成部19による処理について、具体例を挙げて説明する。
まず、長文生成部19は、適用する接続ルールを選択する(ステップS6)。ここでは、一例として図7に示す接続ルールが選択されたとする。
次に、長文生成部19は、接続ルールに応じた第1訳文対及び第2訳文対を抽出する(ステップS7)。図7に示す接続ルールでは、移動カテゴリと対象カテゴリとを接続するルールであるので、移動カテゴリを示すタグ情報が付与されている第1文「まっすぐ行く。」と第1翻訳文「go straight.」とで構成される第1訳文対と、対象カテゴリを示すタグ情報が付与されている第2文「京都タワーがある。」と第2翻訳文「there is a Kyoto tower.」とで構成される第2訳文対とが抽出される。
次に、長文生成部19は、第3訳文対を生成する(ステップS8)。長文生成部19は、接続ルールに則り、第1文と第2文とを第1接続詞「と」で接続し、第1翻訳文と第2翻訳文とを第2接続詞「And」で接続することにより、第3文「まっすぐ行くと京都タワーがある。」と第3翻訳文「Go straight and there is a Kyoto tower.」とで構成される第3訳文対を生成する。また、長文生成部19は、接続ルールに則り、第1文と第2文とを第1接続詞「と」で接続し、第1翻訳文と第2翻訳文とを第2接続詞「Then」で接続することにより、第3文「まっすぐ行くと京都タワーがある。」と第3翻訳文「Go straight then there is a Kyoto tower.」とで構成される第3訳文対を生成する。
また、長文生成部19は、接続ルールに則り、第1文と第2文とを第1接続詞「ば」で接続し、第1翻訳文と第2翻訳文とを第2接続詞「And」で接続することにより、第3文「まっすぐ行けば京都タワーがある。」と第3翻訳文「Go straight and there is a Kyoto tower.」とで構成される第3訳文対を生成する。また、長文生成部19は、接続ルールに則り、第1文と第2文とを第1接続詞「ば」で接続し、第1翻訳文と第2翻訳文とを第2接続詞「Then」で接続することにより、第3文「まっすぐ行けば京都タワーがある。」と第3翻訳文「Go straight then there is a Kyoto tower.」とで構成される第3訳文対を生成する。
また、長文生成部19は、接続ルールに則り、第1文と第2文とを第1接続詞「たら」で接続し、第1翻訳文と第2翻訳文とを第2接続詞「And」で接続することにより、第3文「まっすぐ行ったら京都タワーがある。」と第3翻訳文「Go straight and there is a Kyoto tower.」とで構成される第3訳文対を生成する。また、長文生成部19は、接続ルールに則り、第1文と第2文とを第1接続詞「たら」で接続し、第1翻訳文と第2翻訳文とを第2接続詞「Then」で接続することにより、第3文「まっすぐ行ったら京都タワーがある。」と第3翻訳文「Go straight then there is a Kyoto tower.」とで構成される第3訳文対を生成する。
このように、長文生成部19は、各カテゴリに含まれる複数の訳文対がある場合、各々の訳文対を組み合わせる。ただし、全ての訳文対を組み合わせる必要はなく、任意に選択した訳文対を組み合わせてもよい。
続いて、図3に戻って、ステップS9において、対訳コーパス更新部20は、第3文と第3翻訳文とを対応付けた第3訳文対を対訳コーパス記憶部14に格納することにより対訳コーパスを更新する。
次に、ステップS10において、長文生成部19は、接続ルールに応じた全ての第1訳文対及び第2訳文対をカテゴリタグ付きデータ記憶部17から抽出したか否かを判断する。ここで、全ての第1訳文対及び第2訳文対を抽出していないと判断された場合(ステップS10でNO)、ステップS7の処理に戻り、長文生成部19は、他の第1訳文対及び第2訳文対を抽出する。
一方、全ての第1訳文対及び第2訳文対を抽出したと判断された場合(ステップS10でYES)、ステップS11において、長文生成部19は、接続ルール記憶部18に記憶されている全ての選択ルールを選択したか否かを判断する。ここで、全ての選択ルールを選択していないと判断された場合(ステップS11でNO)、ステップS6の処理に戻り、長文生成部19は、他の選択ルールを選択する。一方、全ての選択ルールを選択したと判断された場合(ステップS11でYES)、処理を終了する。
図8は、対訳コーパス記憶部に記憶される更新前の対訳コーパスの一例を示す図であり、図9は、対訳コーパス記憶部に記憶される更新後の対訳コーパスの一例を示す図である。図8に示す更新前の対訳コーパスは、5つの訳文対を含む。これに対し、本実施の形態1では、6つの訳文対が自動的に生成されて対訳コーパスに追加される。これにより、図9に示す更新後の対訳コーパスは、11の訳文対を含む。なお、追加される訳文対については、任意に選択してもよい。
このように、第1文と第2文とを第1接続詞を用いて1つの文章として構成した第3文と、第1翻訳文と第2翻訳文とを第2接続詞を用いて1つの文章として構成した第3翻訳文とが対応付けられて対訳コーパス記憶部14に記憶されている場合、対訳コーパス生成装置1より対訳コーパスが生成されていると判断することが可能である。
(実施の形態2)
実施の形態2では、第1言語の第1文と、当該第1文を第2言語へ翻訳した第1翻訳文と、第1言語の第2文と、当該第2文を第2言語へ翻訳した第2翻訳文とを取得し、取得した第1文、第1翻訳文、第2文及び第2翻訳文をユーザに提示し、第1翻訳文及び第2翻訳文が正しく翻訳されているか否かのユーザによる判定を受け付け、第1翻訳文及び第2翻訳文が共に正しく翻訳されていると判定された場合、第1文と第2文とを第1言語の第1接続詞を用いて1つの文章として構成した第3文の翻訳文として、第1翻訳文と第2翻訳文とを第2言語の第2接続詞を用いて1つの文章として構成した第3翻訳文を生成する。
図10は、本開示の実施の形態2における対訳コーパス生成装置の構成を示すブロック図である。
図10に示す対訳コーパス生成装置1aは、対訳コーパス記憶部14と、カテゴリデータベース15と、カテゴリ付与部16aと、カテゴリタグ付きデータ記憶部17と、接続ルール記憶部18と、長文生成部19と、対訳コーパス更新部20と、翻訳文出力部21と、ユーザ入力受付部22と、評価データ生成部23とを備える。
なお、対訳コーパス記憶部14、カテゴリデータベース15、カテゴリ付与部16a、カテゴリタグ付きデータ記憶部17、接続ルール記憶部18、長文生成部19及び対訳コーパス更新部20の一部又は全部は、対訳コーパス生成装置1aとは別体の外部機器(例えば、サーバコンピュータ等)に備えられてもよい。この場合、図10に示す対訳コーパス生成装置1aは、外部機器との間でデータを通信するインタフェース部を備える。インタフェース部は、生成された対訳コーパスを外部機器へ送信する。インタフェース部は、例えば、USB規格を用いたインタフェース回路、又はIEEE802.11規格等に従った通信インタフェース回路等である。
また、図10に示す各ブロックは、例えば、CPUが、補助記憶装置に記憶されている、コンピュータを対訳コーパス生成装置1aとして機能させるプログラム(対訳コーパス生成プログラム)を実行することで実現される。したがって、コンピュータには、対訳コーパス生成方法が実装されている。図10において、四角形で示すブロックは、主にCPUで機能的に実現され、円筒形で示すブロックは、主に、ROM、RAM及び補助記憶装置等で構成される記憶装置で機能的に実現される。
翻訳文出力部21は、ユーザ入力受付部22に接続され、対訳コーパス記憶部14から取得した文及び翻訳文を出力する。この出力方法については、どのような方法であってもよく、本実施の形態2では、翻訳文出力部21は、ディスプレイであり、対訳コーパス記憶部14から取得した文及び翻訳文を表示する。文及び翻訳文が同時に出力されることもあり得る。
翻訳文出力部21は、対訳コーパス記憶部14から、第1言語の第1文と、当該第1文を第2言語へ翻訳した第1翻訳文と、第1言語の第2文と、当該第2文を第2言語へ翻訳した第2翻訳文とを取得する。翻訳文出力部21は、第1翻訳文と、第1翻訳文が正しいか否かを判定した判定結果をユーザに入力させるための第1オブジェクトと、第2翻訳文と、第2翻訳文が正しいか否かを判定した判定結果をユーザに入力させるための第2オブジェクトとを表示する。
ユーザ入力受付部22は、評価データ生成部23に接続され、ユーザによる所定の操作を受け付ける。ユーザ入力受付部22は、例えば、所定の機能を割り付けられた複数の入力スイッチ等を備えるキーボード、マウス又はタッチパネル等の入力装置である。また、ユーザ入力受付部22は、外部機器との間でデータを通信する、上述と同様なインタフェース部であってもよい。
ユーザ入力受付部22は、第1翻訳文が正しいか否かを判定した判定結果のユーザによる入力を受け付けるとともに、第2翻訳文が正しいか否かを判定した判定結果のユーザによる入力を受け付ける。ユーザ入力受付部22は、第1翻訳文が正しいか否かを判定した判定結果を示す第1判定情報を出力するとともに、第2翻訳文が正しいか否かを判定した判定結果を示す第2判定情報を出力する。
評価データ生成部23は、カテゴリ付与部16aに接続され、ユーザ入力受付部22によって入力された、第1翻訳文が正しいか否かを判定した判定結果を示す第1判定情報を取得するとともに、第2翻訳文が正しいか否かを判定した判定結果を示す第2判定情報を取得する。評価データ生成部23は、第1判定情報及び前記第2判定情報に基づき、正しいと判定された第1翻訳文及び第1文の組み合わせと、正しいと判定された第2翻訳文及び第2文の組み合わせとをカテゴリ付与部16aに出力する。また、評価データ生成部23は、第1判定情報及び前記第2判定情報に基づき、正しくないと判定された第1翻訳文及び第1文の組み合わせを破棄し、正しくないと判定された第2翻訳文及び第2文の組み合わせとを破棄する。
カテゴリ付与部16aは、評価データ生成部23から、第1文、第1文に対応する第1翻訳文、第2文、及び第2文に対応する第2翻訳文を取得する。カテゴリ付与部16aが取得する第1翻訳文及び第2翻訳文は、ユーザにより正しく翻訳されていると判定された翻訳文である。カテゴリ付与部16aによるカテゴリを示すタグ情報の付与については、実施の形態1と同じである。
長文生成部19は、第1判定情報及び第2判定情報に基づき、第1翻訳文及び第2翻訳文が共に正しいと判定された場合、第3翻訳文を生成する。
図11は、本開示の実施の形態2における対訳コーパス生成装置における翻訳文生成処理について説明するための第1のフローチャートであり、図12は、本開示の実施の形態2における対訳コーパス生成装置における翻訳文生成処理について説明するための第2のフローチャートである。
まず、ステップS21において、翻訳文出力部21は、対訳コーパス記憶部14から、第1言語の文と、当該文を第2言語へ翻訳した翻訳文とで構成される訳文対を取得する。翻訳文出力部21は、対訳コーパス記憶部14に記憶されている複数の訳文対のうち1つの訳文対を取得する。
次に、ステップS22において、翻訳文出力部21は、対訳コーパス記憶部14から取得した第1言語の文と、当該文を第2言語へ翻訳した翻訳文とを表示する。
次に、ステップS23において、ユーザ入力受付部22は、翻訳文出力部21によって表示された翻訳文が正しいか否かのユーザによる判定を受け付ける。ユーザ入力受付部22は、翻訳文が正しいか否かを判定した判定結果を示す判定情報を評価データ生成部23へ出力する。
次に、ステップS24において、評価データ生成部23は、ユーザ入力受付部22から出力された判定情報に基づいて、ユーザにより翻訳文は正しいと判定されたか否かを判断する。ここで、翻訳文は正しくないと判定されたと判断された場合(ステップS24でNO)、ステップS29の処理へ移行する。なお、評価データ生成部23は、正しくないと判定された第1言語の文と第2言語の翻訳文とで構成される訳文対を破棄し、カテゴリ付与部16aに出力しない。
一方、翻訳文は正しいと判定されたと判断された場合(ステップS24でYES)、ステップS25において、評価データ生成部23は、正しいと判定された第1言語の文と第2言語の翻訳文とで構成される訳文対をカテゴリ付与部16aに出力する。
図11のステップS26〜ステップS28の処理は、図2に示すステップS2〜ステップS4の処理と同じであるので、説明を省略する。
次に、ステップS29において、翻訳文出力部21は、対訳コーパス記憶部14から全ての訳文対を取得したか否かを判断する。ここで、全ての訳文対を取得していないと判断された場合(ステップS29でNO)、ステップS21の処理に戻り、翻訳文出力部21は、対訳コーパス記憶部14から他の訳文対を取得する。一方、全ての訳文対を取得したと判断された場合(ステップS29でYES)、ステップS30の処理に移行する。
図12のステップS30〜ステップS35の処理は、図3に示すステップS6〜ステップS11の処理と同じであるので、説明を省略する。
図13は、本実施の形態2において、翻訳文出力部によって表示される表示画面の一例を示す図である。図13に示すように、翻訳文出力部21は、第1言語の文211と、当該文を第2言語へ翻訳した翻訳文212と、翻訳文が正しいか否かを判定した判定結果をユーザに入力させるためのオブジェクト213とを含む表示画面210を表示する。ユーザは、第1言語の文に対する第2言語の翻訳文が正しく翻訳されているか否かを判定し、判定結果を入力する。
図13に示す例では、「この道をまっすぐ行きます。」という第1言語の文211が表示され、「Go along this street.」という翻訳文212が表示され、「良い」又は「悪い」のいずれかのユーザによる入力を受け付けるためのオブジェクト213が表示されている。ユーザは、表示された翻訳文が正しいと判定した場合は、「良い」というオブジェクト213を選択し、表示された翻訳文が正しくないと判定した場合は、「悪い」というオブジェクト213を選択する。ユーザ入力受付部22は、ユーザによる判定結果を示す判定情報を評価データ生成部23へ出力する。ユーザの判定結果を示す判定情報は、例えば、翻訳文が正しいと判定されたか否かの2値で表される。
その後、評価データ生成部23は、判定情報に基づいて、ユーザによって翻訳文は正しいと判定されたか否かを判断する。翻訳文は正しくないと判断された場合、評価データ生成部23は、正しくないと判断された第1言語の文と、当該文を第2言語へ翻訳した翻訳文とで構成される訳文対を破棄する。一方、翻訳文は正しいと判断された場合、評価データ生成部23は、正しいと判断された第1言語の文と、当該文を第2言語へ翻訳した翻訳文とで構成される訳文対をカテゴリ付与部16へ出力する。図13では、「良い」が選択されているので、「この道をまっすぐ行きます。」と「Go along this street.」とが訳文対として、カテゴリ付与部16aへ出力される。
なお、判定結果は2値ではなく、例えば0から100までの数値(0が最も悪く、100が最も良い)で表されてもよく、ユーザ入力受付部22は、任意の数値のユーザによる入力を受け付けることによって、翻訳文の正しさを表してもよい。この場合、評価データ生成部23は、ステップS24の処理でユーザによって入力された数値が閾値以上であるか否かを判断してもよい。なお、これらの判定情報は一例であり、これらに限らない。
また、本実施の形態2では、翻訳文出力部21は、対訳コーパス記憶部14から、第1言語の第1文と、当該第1文を第2言語へ翻訳した第1翻訳文と、第1言語の第2文と、当該第2文を第2言語へ翻訳した第2翻訳文とを取得しているが、本開示は特にこれに限定されず、第1翻訳文を、翻訳処理に用いられる機械翻訳モデルに適用することにより第1言語に翻訳した第1逆翻訳文を取得し、第2翻訳文を機械翻訳モデルに適用することにより第1言語に翻訳した第2逆翻訳文を取得してもよい。また、評価データ生成部23は、第1逆翻訳文が正しいか否かを判定した判定結果を示す第3判定情報を取得してもよく、第2逆翻訳文が正しいか否かを判定した判定結果を示す第4判定情報を取得してもよい。長文生成部19は、第3判定情報及び第4判定情報に基づき、第1逆翻訳文及び第2逆翻訳文が共に正しいと判定された場合、第3翻訳文を生成してもよい。なお、機械翻訳モデルは、対訳コーパス生成装置1aに予め記憶されており、第1言語の入力文が機械翻訳モデルにより第2言語の翻訳文に翻訳される。
また、翻訳文出力部21は、第1逆翻訳文と、第1逆翻訳文が正しいか否かを判定した判定結果をユーザに入力させるための第3オブジェクトと、第2逆翻訳文と、第2逆翻訳文が正しいか否かを判定した判定結果をユーザに入力させるための第4オブジェクトとを表示してもよい。
図14は、本実施の形態2の変形例において、翻訳文出力部21によって表示される表示画面の一例を示す図である。図14に示すように、翻訳文出力部21は、第1言語の文311と、当該文を第2言語へ翻訳した翻訳文312と、翻訳文312を機械翻訳モデルに適用することにより第1言語に翻訳した逆翻訳文313と、翻訳文が正しいか否かを判定した判定結果をユーザに入力させるためのオブジェクト314とを含む表示画面310を表示する。ユーザは、第2言語の翻訳文を第1言語に逆翻訳した逆翻訳文313が正しく翻訳されているか否かを判定し、判定結果を入力する。すなわち、ユーザは、第1言語の文311と、第1言語の逆翻訳文313とを比較することにより、第2言語が分からなくても、翻訳文312が正しく翻訳されているか否かを判定することができる。
図14に示す例では、「この道をまっすぐ行きます。」という第1言語の文311が表示され、「Go along this street.」という翻訳文312が表示され、「この道をまっすぐ行く。」という第1言語の逆翻訳文313が表示され、「良い」又は「悪い」のいずれかのユーザによる入力を受け付けるためのオブジェクト314が表示されている。ユーザは、表示された逆翻訳文が正しいと判定した場合は、「良い」というオブジェクト314を選択し、表示された逆翻訳文が正しくないと判定した場合は、「悪い」というオブジェクト314を選択する。ユーザ入力受付部22は、ユーザによる判定結果を示す判定情報を評価データ生成部23へ出力する。
その後、評価データ生成部23は、判定情報に基づいて、ユーザによって逆翻訳文は正しいと判定されたか否かを判断する。逆翻訳文は正しくないと判断された場合、評価データ生成部23は、正しくないと判断された第1言語の文と、当該文を第2言語へ翻訳した翻訳文とで構成される訳文対を破棄する。一方、逆翻訳文は正しいと判断された場合、評価データ生成部23は、正しいと判断された第1言語の文と、当該文を第2言語へ翻訳した翻訳文とで構成される訳文対をカテゴリ付与部16へ出力する。図14では、「良い」が選択されているので、「この道をまっすぐ行きます。」と「Go along this street.」とが訳文対として、カテゴリ付与部16aへ出力される。
また、本実施の形態2において、翻訳文出力部21は、長文生成部19によって生成された、第1翻訳文と第2翻訳文とを第2言語の第2接続詞を用いて1つの文章として構成した第3翻訳文をユーザに提示してもよい。また、翻訳文出力部21は、第1文と第2文とを第1言語の第1接続詞を用いて1つの文章として構成した第3文とともに第3翻訳文をユーザに提示してもよい。この場合、対訳コーパス更新部20は、第3翻訳文が正しいか否かを判定した判定結果を示す判定情報を取得し、第3翻訳文が正しいと判定された場合、第3文と第3翻訳文とを対応付けて対訳コーパス記憶部14に格納することにより対訳コーパスを更新してもよい。
(実施の形態3)
実施の形態1,2では、対訳コーパス記憶部から、第1言語の第1文と、当該第1文を第2言語へ翻訳した第1翻訳文と、第1言語の第2文と、当該第2文を第2言語へ翻訳した第2翻訳文とが取得されているが、実施の形態3では、対訳コーパスを用いて学習された機械翻訳モデルに第1文及び第2文を適用することにより第1翻訳文及び第2翻訳部得が取得される。
図15は、本開示の実施の形態3における対訳コーパス生成装置の構成を示すブロック図である。
図15に示す対訳コーパス生成装置1bは、翻訳対象入力部11と、機械翻訳モデル記憶部12と、機械翻訳部13と、対訳コーパス記憶部14と、カテゴリデータベース15と、カテゴリ付与部16bと、カテゴリタグ付きデータ記憶部17と、接続ルール記憶部18と、長文生成部19と、対訳コーパス更新部20と、機械翻訳モデル学習部24とを備える。
なお、機械翻訳モデル記憶部12、機械翻訳部13、対訳コーパス記憶部14、カテゴリデータベース15、カテゴリ付与部16b、カテゴリタグ付きデータ記憶部17、接続ルール記憶部18、長文生成部19、対訳コーパス更新部20及び機械翻訳モデル学習部24の一部又は全部は、対訳コーパス生成装置1bとは別体の外部機器(例えば、サーバコンピュータ等)に備えられてもよい。この場合、図15に示す対訳コーパス生成装置1bは、外部機器との間でデータを通信するインタフェース部を備える。インタフェース部は、生成された対訳コーパスを外部機器へ送信する。インタフェース部は、例えば、USB規格を用いたインタフェース回路、又はIEEE802.11規格等に従った通信インタフェース回路等である。
また、図15に示す各ブロックは、例えば、CPUが、補助記憶装置に記憶されている、コンピュータを対訳コーパス生成装置1bとして機能させるプログラム(対訳コーパス生成プログラム)を実行することで実現される。したがって、コンピュータには、対訳コーパス生成方法が実装されている。図15において、四角形で示すブロックは、主にCPUで機能的に実現され、円筒形で示すブロックは、主に、ROM、RAM及び補助記憶装置等で構成される記憶装置で機能的に実現される。
翻訳対象入力部11は、機械翻訳部13に接続され、例えば、所定の操作を受け付ける。翻訳対象入力部11は、翻訳対象となる第1言語の第1文及び第2文のユーザによる入力を受け付ける。翻訳対象入力部11は、例えば、所定の機能を割り付けられた複数の入力スイッチ等を備えるキーボード、マウス又はタッチパネル等の入力装置、又はマイクなどの音声入力装置などである。また、翻訳対象入力部11は、例えば、外部機器との間でデータを通信するインタフェース部であって良い。所定の操作は、例えば、第1言語の文を入力する入力操作、及び対訳コーパスの生成開始を対訳コーパス生成装置1bに指示する入力操作等を含み、対訳コーパス生成装置1bで対訳コーパスを生成するために必要な各種操作を含む。
機械翻訳モデル記憶部12は、機械翻訳部13に接続され、第1言語と第2言語との間の翻訳処理に用いられる機械翻訳モデルを記憶する。
機械翻訳部13は、カテゴリ付与部16bに接続され、第1言語の第1文を第2言語へ翻訳した第1翻訳文を生成するとともに、第1言語の第2文を第2言語へ翻訳した第2翻訳文を生成する。機械翻訳部13は、機械翻訳モデル記憶部12に記憶されている機械翻訳モデルに第1文を適用することにより第1翻訳文を生成し、機械翻訳モデルに第2文を適用することにより第2翻訳文を生成する。機械翻訳部13は、統計的機械翻訳、ニューラルネットによる翻訳、又はルールベース型翻訳等を用いて機械翻訳し、機械翻訳部13が用いる機械翻訳方法については特に限定されない。機械翻訳部13は、翻訳対象入力部11によって入力された第1文と、翻訳した第1翻訳文と、翻訳対象入力部11によって入力された第2文と、翻訳した第2翻訳文とをカテゴリ付与部16bへ出力する。
カテゴリ付与部16bは、機械翻訳部13から、第1文、第1文に対応する第1翻訳文、第2文、及び第2文に対応する第2翻訳文を取得する。カテゴリ付与部16bが取得する第1翻訳文及び第2翻訳文は、機械翻訳部13によって翻訳された翻訳文である。カテゴリ付与部16bによるカテゴリを示すタグ情報の付与については、実施の形態1と同じである。
機械翻訳モデル学習部24は、機械翻訳モデル記憶部12に接続され、機械翻訳モデル記憶部12に記憶されている機械翻訳モデルを、更新された対訳コーパスにより再学習する。
図16は、本開示の実施の形態3における対訳コーパス生成装置における翻訳文生成処理について説明するための第1のフローチャートであり、図17は、本開示の実施の形態3における対訳コーパス生成装置における翻訳文生成処理について説明するための第2のフローチャートである。
まず、ステップS41において、翻訳対象入力部11は、翻訳対象となる第1言語の入力文のユーザによる入力を受け付ける。このとき、翻訳対象入力部11は、翻訳対象をテキストデータで受け付けてもよいし、音声データで受け付けてもよい。音声データで受け付けた場合、翻訳対象入力部11は、音声認識処理により当該音声データをテキストデータに変換する。
次に、ステップS42において、機械翻訳部13は、機械翻訳モデル記憶部12に記憶されている機械翻訳モデルに、翻訳対象である入力文を適用することにより翻訳文を生成する。
次に、ステップS43において、機械翻訳部13は、翻訳対象入力部11によって入力された第1言語の文と、生成した第2言語の翻訳文とで構成される訳文対をカテゴリ付与部16bに出力する。
次に、ステップS44において、カテゴリ付与部16bは、取得した訳文対がいずれかのカテゴリに該当するか否かを判断する。カテゴリ付与部16bは、カテゴリデータベース15から、文に含まれる単語又は語句と合致するカテゴリを検索することにより、訳文対のカテゴリを特定する。ここで、訳文対がいずれかのカテゴリに該当しないと判断された場合(ステップS44でNO)、ステップS41の処理に戻る。
一方、訳文対がいずれかのカテゴリに該当すると判断された場合(ステップS44でYES)、ステップS45において、カテゴリ付与部16bは、訳文対にカテゴリを付与する。
次に、ステップS46において、カテゴリ付与部16bは、カテゴリが付与された訳文対をカテゴリタグ付きデータ記憶部17に記憶する。
図17のステップS47〜ステップS52の処理は、図3に示すステップS6〜ステップS11の処理と同じであるので、説明を省略する。
次に、ステップS53において、機械翻訳モデル学習部24は、機械翻訳モデル記憶部12に記憶されている機械翻訳モデルを、更新された対訳コーパスにより学習する。
図18は、更新前の対訳コーパスにより学習された機械翻訳モデルを用いて機械翻訳した翻訳結果の一例を示す図であり、図19は、更新後の対訳コーパスにより学習された機械翻訳モデルを用いて機械翻訳した翻訳結果の一例を示す図である。
図18及び図19において、入力文は、「まっすぐ行くと京都タワーがある。」である。図18に示すように、例えば、更新前の対訳コーパスにより学習された機械翻訳モデルを用いて入力文を機械翻訳した場合、翻訳結果は、「Go straight and a Kyoto tower.」となり、第1文と第2文とが正しく接続された翻訳文となっていない。これに対し、図19に示すように、更新後の対訳コーパスにより学習された機械翻訳モデルを用いて入力文を機械翻訳した場合、翻訳結果は、「Go straight and there is a Kyoto tower.」となり、第1文と第2文とが正しく接続された翻訳文となっている。
なお、本実施の形態3では、カテゴリ付与部16bは、機械翻訳部13からのみ第1言語の第1文と、当該第1文を第2言語へ翻訳した第1翻訳文と、第1言語の第2文と、当該第2文を第2言語へ翻訳した第2翻訳文とを取得しているが、本開示は特にこれに限定されず、カテゴリ付与部16bは、第1言語の第1文と、当該第1文を第2言語へ翻訳した第1翻訳文とを機械翻訳部13から取得し、第1言語の第2文と、当該第2文を第2言語へ翻訳した第2翻訳文とを対訳コーパス記憶部14から取得してもよい。
(実施の形態4)
実施の形態4では、機械翻訳された第1翻訳文及び第2翻訳文とをユーザに提示し、第1翻訳文及び第2翻訳文が正しく翻訳されているか否かのユーザによる判定を受け付け、第1翻訳文及び第2翻訳文が共に正しく翻訳されていると判定された場合、第1文と第2文とを第1言語の第1接続詞を用いて1つの文章として構成した第3文の翻訳文として、第1翻訳文と第2翻訳文とを第2言語の第2接続詞を用いて1つの文章として構成した第3翻訳文を生成する。
図20は、本開示の実施の形態4における対訳コーパス生成装置の構成を示すブロック図である。
図20に示す対訳コーパス生成装置1cは、翻訳対象入力部11と、機械翻訳モデル記憶部12と、機械翻訳部13cと、対訳コーパス記憶部14と、カテゴリデータベース15と、カテゴリ付与部16aと、カテゴリタグ付きデータ記憶部17と、接続ルール記憶部18と、長文生成部19と、対訳コーパス更新部20と、翻訳文出力部21cと、ユーザ入力受付部22と、評価データ生成部23と、機械翻訳モデル学習部24とを備える。
なお、機械翻訳モデル記憶部12、機械翻訳部13c、対訳コーパス記憶部14、カテゴリデータベース15、カテゴリ付与部16a、カテゴリタグ付きデータ記憶部17、接続ルール記憶部18、長文生成部19、対訳コーパス更新部20及び機械翻訳モデル学習部24の一部又は全部は、対訳コーパス生成装置1cとは別体の外部機器(例えば、サーバコンピュータ等)に備えられてもよい。この場合、図20に示す対訳コーパス生成装置1cは、対訳コーパス記憶部14及び対訳コーパス更新部20に代え、外部機器との間でデータを通信するインタフェース部を備える。インタフェース部は、生成された対訳コーパスを外部機器へ送信する。インタフェース部は、例えば、USB規格を用いたインタフェース回路、又はIEEE802.11規格等に従った通信インタフェース回路等である。
また、図20に示す各ブロックは、例えば、CPUが、補助記憶装置に記憶されている、コンピュータを対訳コーパス生成装置1cとして機能させるプログラム(対訳コーパス生成プログラム)を実行することで実現される。したがって、コンピュータには、対訳コーパス生成方法が実装されている。図20において、四角形で示すブロックは、主にCPUで機能的に実現され、円筒形で示すブロックは、主に、ROM、RAM及び補助記憶装置等で構成される記憶装置で機能的に実現される。
機械翻訳部13cは、翻訳文出力部21cに接続され、第1言語の第1文を第2言語へ翻訳した第1翻訳文を生成するとともに、第1言語の第2文を第2言語へ翻訳した第2翻訳文を生成する。機械翻訳部13cは、機械翻訳モデル記憶部12に記憶されている機械翻訳モデルに第1文を適用することにより第1翻訳文を生成し、機械翻訳モデルに第2文を適用することにより第2翻訳文を生成する。機械翻訳部13cは、統計的機械翻訳、ニューラルネットによる翻訳、又はルールベース型翻訳等を用いて機械翻訳し、機械翻訳部13cが用いる機械翻訳方法については特に限定されない。機械翻訳部13cは、翻訳対象入力部11によって入力された第1文と、翻訳した第1翻訳文と、翻訳対象入力部11によって入力された第2文と、翻訳した第2翻訳文とを翻訳文出力部21cへ出力する。
翻訳文出力部21cは、ユーザ入力受付部22に接続され、機械翻訳部13cから取得した文及び翻訳文を出力する。この出力方法については、どのような方法であってもよく、本実施の形態4では、翻訳文出力部21cは、ディスプレイであり、機械翻訳部13cから取得した文及び翻訳文を表示する。文及び翻訳文が同時に出力されることもあり得る。
翻訳文出力部21cは、機械翻訳部13cから、第1言語の第1文と、当該第1文を第2言語へ翻訳した第1翻訳文と、第1言語の第2文と、当該第2文を第2言語へ翻訳した第2翻訳文とを取得する。翻訳文出力部21cは、第1翻訳文と、第1翻訳文が正しいか否かを判定した判定結果をユーザに入力させるための第1オブジェクトと、第2翻訳文と、第2翻訳文が正しいか否かを判定した判定結果をユーザに入力させるための第2オブジェクトとを表示する。
図21は、本開示の実施の形態4における対訳コーパス生成装置における翻訳文生成処理について説明するための第1のフローチャートであり、図22は、本開示の実施の形態4における対訳コーパス生成装置における翻訳文生成処理について説明するための第2のフローチャートである。
まず、ステップS61において、翻訳対象入力部11は、翻訳対象となる第1言語の入力文のユーザによる入力を受け付ける。このとき、翻訳対象入力部11は、翻訳対象をテキストデータで受け付けてもよいし、音声データで受け付けてもよい。音声データで受け付けた場合、翻訳対象入力部11は、音声認識処理により当該音声データをテキストデータに変換する。
次に、ステップS62において、機械翻訳部13cは、機械翻訳モデル記憶部12に記憶されている機械翻訳モデルに、翻訳対象である入力文を適用することにより翻訳文を生成する。機械翻訳部13は、翻訳対象入力部11によって入力された第1言語の文と、生成した第2言語の翻訳文とで構成される訳文対を翻訳文出力部21cへ出力する。
次に、ステップS63において、翻訳文出力部21cは、翻訳文出力部21cから取得した第1言語の文と、当該文を第2言語へ翻訳した翻訳文とを表示する。翻訳文出力部21cは、第1言語の文と、当該文を第2言語へ翻訳した翻訳文とで構成される訳文対を翻訳文出力部21cから取得する。この場合、翻訳文出力部21cによって表示される表示画面は、図13に示す表示画面と同じである。
次に、ステップS64において、ユーザ入力受付部22は、翻訳文出力部21cによって表示された翻訳文が正しいか否かのユーザによる判定を受け付ける。ユーザ入力受付部22は、翻訳文が正しいか否かを判定した判定結果を示す判定情報を評価データ生成部23へ出力する。
次に、ステップS65において、評価データ生成部23は、ユーザ入力受付部22から出力された判定情報に基づいて、ユーザにより翻訳文は正しいと判定されたか否かを判断する。ここで、翻訳文は正しくないと判定されたと判断された場合(ステップS65でNO)、ステップS61の処理へ戻る。なお、評価データ生成部23は、正しくないと判定された第1言語の文と第2言語の翻訳文とで構成される訳文対を破棄し、カテゴリ付与部16aに出力しない。
一方、翻訳文は正しいと判定されたと判断された場合(ステップS65でYES)、ステップS66において、評価データ生成部23は、正しいと判定された第1言語の文と第2言語の翻訳文とで構成される訳文対をカテゴリ付与部16aに出力する。
次に、ステップS67において、カテゴリ付与部16aは、取得した訳文対がいずれかのカテゴリに該当するか否かを判断する。カテゴリ付与部16aは、カテゴリデータベース15から、文に含まれる単語又は語句と合致するカテゴリを検索することにより、訳文対のカテゴリを特定する。ここで、訳文対がいずれかのカテゴリに該当しないと判断された場合(ステップS67でNO)、ステップS61の処理に戻る。
一方、訳文対がいずれかのカテゴリに該当すると判断された場合(ステップS67でYES)、ステップS68において、カテゴリ付与部16aは、訳文対にカテゴリを付与する。
次に、ステップS69において、カテゴリ付与部16aは、カテゴリが付与された訳文対をカテゴリタグ付きデータ記憶部17に記憶する。
図22のステップS70〜ステップS76の処理は、図17に示すステップS47〜ステップS53の処理と同じであるので、説明を省略する。
なお、本実施の形態4では、カテゴリ付与部16aは、評価データ生成部23からのみ第1言語の第1文と、当該第1文を第2言語へ翻訳した第1翻訳文と、第1言語の第2文と、当該第2文を第2言語へ翻訳した第2翻訳文とを取得しているが、本開示は特にこれに限定されず、カテゴリ付与部16aは、第1言語の第1文と、当該第1文を第2言語へ翻訳した第1翻訳文とを評価データ生成部23から取得し、第1言語の第2文と、当該第2文を第2言語へ翻訳した第2翻訳文とを対訳コーパス記憶部14から取得してもよい。
また、本実施の形態4では、翻訳文出力部21cは、機械翻訳部13cから、第1言語の第1文と、当該第1文を第2言語へ翻訳した第1翻訳文と、第1言語の第2文と、当該第2文を第2言語へ翻訳した第2翻訳文とを取得しているが、本開示は特にこれに限定されず、第1翻訳文を、翻訳処理に用いられる機械翻訳モデルに適用することにより第1言語に翻訳した第1逆翻訳文を取得し、第2翻訳文を機械翻訳モデルに適用することにより第1言語に翻訳した第2逆翻訳文を取得してもよい。また、評価データ生成部23は、第1逆翻訳文が正しいか否かを判定した判定結果を示す第3判定情報を取得してもよく、第2逆翻訳文が正しいか否かを判定した判定結果を示す第4判定情報を取得してもよい。長文生成部19は、第3判定情報及び第4判定情報に基づき、第1逆翻訳文及び第2逆翻訳文が共に正しいと判定された場合、第3翻訳文を生成してもよい。
また、翻訳文出力部21cは、第1逆翻訳文と、第1逆翻訳文が正しいか否かを判定した判定結果をユーザに入力させるための第3オブジェクトと、第2逆翻訳文と、第2逆翻訳文が正しいか否かを判定した判定結果をユーザに入力させるための第4オブジェクトとを表示してもよい。この場合、翻訳文出力部21cによって表示される表示画面は、図14に示す表示画面と同じである。
さらに、本実施の形態4において、翻訳文出力部21cは、長文生成部19によって生成された、第1翻訳文と第2翻訳文とを第2言語の第2接続詞を用いて1つの文章として構成した第3翻訳文をユーザに提示してもよい。また、翻訳文出力部21cは、第1文と第2文とを第1言語の第1接続詞を用いて1つの文章として構成した第3文とともに第3翻訳文をユーザに提示してもよい。この場合、対訳コーパス更新部20は、第3翻訳文が正しいか否かを判定した判定結果を示す判定情報を取得し、第3翻訳文が正しいと判定された場合、第3文と第3翻訳文とを対応付けて対訳コーパス記憶部14に格納することにより対訳コーパスを更新してもよい。