JP7447114B2

JP7447114B2 - 生成装置、及び正規化モデル

Info

Publication number: JP7447114B2
Application number: JP2021527408A
Authority: JP
Inventors: 俊允中村; 憲卓岡本; 渉内田; 佳徳礒田
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2019-06-17
Filing date: 2020-04-17
Publication date: 2024-03-11
Anticipated expiration: 2040-04-17
Also published as: WO2020255553A1; US20220245363A1; JPWO2020255553A1

Description

本開示は、生成装置、及び正規化モデルに関する。

第１言語の文章を第２言語の文章に翻訳する機械翻訳装置が知られている。例えば、特許文献１には、第１言語の文章を第２言語の文章に翻訳することによって、翻訳結果から第１言語と第２言語との対訳辞書に登録されていない第１言語の未知語を認識し、第１言語の文章において未知語を代替表記で置き換えた上で第２言語の文章に翻訳する機械翻訳装置が開示されている。この機械翻訳装置は、第１言語の文章を第３言語の文章に翻訳し、その翻訳文のうちの未知語に対応する部分を第１言語に逆翻訳することで、未知語の代替表記を生成している。

特開２０１５－８２２０４号公報

ところで、ユーザが発した音声を音声認識した結果が翻訳対象として用いられることがある。この場合、翻訳対象はフィラー、言い直し、及び言い淀みなどのノイズを含むことがある。ユーザがキーボードなどの入力装置を用いて入力した文が翻訳対象として用いられる場合も、翻訳対象は、入力間違いなどのノイズを含むことがある。特許文献１に記載の機械翻訳装置において、上述のようなノイズを含む文が翻訳対象として用いられる場合、ノイズが未知語として認識され得るが、ノイズに対応する第３言語が存在する場合には、第３言語に対応する第１言語の代替表記を用いて第２言語に翻訳される。その結果、正確な翻訳文が得られないおそれがある。

本開示は、翻訳精度の向上が可能な生成装置、及び正規化モデルを説明する。

本開示の一側面に係る生成装置は、翻訳対象である第１言語の入力文から第１言語とは異なる第２言語の翻訳文を生成する装置である。この生成装置は、入力文を取得する取得部と、入力文を第１言語の文法的に正しい正規化文に変換する正規化部と、第１言語と第２言語との対訳データである第１対訳データを利用して、正規化文を第２言語に翻訳することによって翻訳文を生成する第１翻訳部と、を備える。正規化部は、第１言語及び第２言語とは異なる第３言語と第１言語との対訳データである第２対訳データを利用することによって、正規化文を生成する。第２対訳データのデータ量は、第１対訳データのデータ量よりも多い。

この生成装置では、第１言語と第３言語との第２対訳データを利用することによって第１言語の入力文が正規化文に変換される。正規化文は、第１言語の文法的に正しい文であるので、入力文を正規化文に変換することによって、フィラー、言い直し、言い淀み、及び入力間違いなどのノイズを除去することができる。そして、ノイズが除去された正規化文が第２言語に翻訳されることによって翻訳文が生成されるので、翻訳文に及ぼすノイズの影響を低減することができる。その結果、翻訳精度を向上させることが可能となる。

本開示によれば、翻訳精度を向上させることができる。

図１は、一実施形態に係る生成装置の機能ブロック図である。図２は、図１に示される生成装置が行う生成方法の一連の処理を示すフローチャートである。図３は、図２の正規化処理を詳細に示すフローチャートである。図４は、図１に示される生成装置による翻訳結果の一例を示す図である。図５は、比較例による翻訳結果を示す図である。図６は、別の実施形態に係る生成装置の機能ブロック図である。図７は、学習データを説明するための図である。図８は、誤り表現の検出処理を説明するための図である。図９は、図６に示される生成装置が行う生成方法の正規化処理を詳細に示すフローチャートである。図１０は、図６に示される生成装置が行う正規化処理の一例を示す図である。図１１は、学習データを説明するための図である。図１２は、誤り表現の検出処理を説明するための図である。図１３は、図６に示される生成装置が行う正規化処理の別の例を示す図である。図１４は、図１に示される生成装置のハードウェア構成を示す図である。

以下、添付図面を参照しながら本開示の実施形態を詳細に説明する。なお、図面の説明においては同一要素には同一符号を付し、重複する説明を省略する。

図１を参照して、一実施形態に係る生成装置１０の構成を説明する。図１は、一実施形態に係る生成装置の機能ブロック図である。図１に示される生成装置１０は、翻訳対象である第１言語の入力文から第２言語の翻訳文を生成する装置である。生成装置１０は、第１言語と第２言語との対訳コーパス（以下、「第１対訳コーパス」と称する。）、及び第１言語と第３言語との対訳コーパス（以下、「第２対訳コーパス」と称する。）を利用して、翻訳文を生成する。対訳コーパスとは、機械翻訳の学習データとして利用するために構築された、互いに異なる言語の文と文とが対訳の形でまとめられた対訳データのコーパス（文のデータベース）である。つまり、第１対訳コーパスは、複数の対訳データ（第１対訳データ）を含み、各対訳データは、互いに対応付けられた第１言語の文と第２言語の文との組み合わせである。同様に、第２対訳コーパスは、複数の対訳データ（第２対訳データ）を含み、各対訳データは、互いに対応付けられた第１言語の文と第３言語の文との組み合わせである。

第１言語は、例えば日本語である。第２言語は、第１言語とは異なる言語であり、例えば中国語である。第３言語は、第１言語及び第２言語とは異なる言語であり、例えば英語である。第２対訳コーパスに含まれる対訳データのデータ量は、第１対訳コーパスに含まれる対訳データのデータ量よりも多い。このような関係を有する言語であれば、第１言語、第２言語、及び第３言語は、他のいかなる言語であってもよく、同じ言語の異なる方言であってもよい。言語は、自然言語に限らず、人工言語及び形式言語（コンピュータのプログラム言語）などであってもよい。

文は、形の上で完結した、一つの陳述によって統べられている言語表現の一単位である。文は、一つ以上の文からなるもの（例えば段落、又は文章など）に読み替えられてもよい。単語は、文法上の意味及び職能を有する、言語の最小単位であり、文の成分となる。単語は、一つ以上の単語からなるもの（例えば文節、又は表現など）に読み替えられてもよい。

生成装置１０は、機能的には、取得部１１と、正規化部１２と、対訳コーパス記憶部１３と、翻訳部１４（第１翻訳部）と、対訳コーパス記憶部１５と、出力部１６と、を備える。

取得部１１は、翻訳対象である第１言語の入力文を取得する。入力文は、例えば、ユーザが発した音声を音声認識した結果をテキスト化した文であってもよい。音声認識結果などが入力文として用いられる場合、入力文はフィラー、言い直し、及び言い淀みなどのノイズを含むことがある。入力文は、例えば、ユーザがキーボードなどの入力装置を用いて入力した文であってもよい。このような場合も、入力文は、入力間違いなどのノイズを含むことがある。取得部１１は、入力文を正規化部１２に出力する。

対訳コーパス記憶部１３は、第２対訳コーパスを記憶（格納）する。第２対訳コーパスは、予め準備され、対訳コーパス記憶部１３に格納されている。

正規化部１２は、取得部１１から入力文を受け取り、入力文を第１言語の正規化文に変換する。正規化文は、第１言語の文法的に正しい文である。文法的に正しい文とは、上述のノイズを含まない文であり、必ずしも主語及び述語などの文の構成要素を全て有していることを意味しない。正規化部１２は、第２対訳コーパスを利用することによって、正規化文を生成する。具体的には、正規化部１２は、対訳コーパス記憶部１３に記憶されている第２対訳コーパスを用いて、入力文を第３言語に翻訳することによって、第３言語の翻訳文（以下、「正規化用翻訳文」と称する。）を生成するとともに、正規化用翻訳文を第１言語に翻訳することによって、正規化文を生成する。正規化部１２は、翻訳部２１（第２翻訳部）と、翻訳部２２（第３翻訳部）と、を備える。

翻訳部２１は、対訳コーパス記憶部１３に記憶されている第２対訳データを利用して入力文を第３言語に翻訳することによって、正規化用翻訳文を生成する。翻訳部２１は、入力文を入力として受け取り、正規化用翻訳文を出力するように、コンピュータを機能させるための機械翻訳モデルであってもよい。機械翻訳モデルの例としては、ＮＭＴ（Neural Machine Translation）モデルが挙げられる。この場合、翻訳部２１は、第２対訳コーパスに含まれる複数の対訳データのそれぞれを学習データとして用いた機械学習を実行することによって生成される。翻訳部２１は、正規化用翻訳文を翻訳部２２に出力する。

翻訳部２２は、対訳コーパス記憶部１３に記憶されている第２対訳データを利用して正規化用翻訳文を第１言語に翻訳することによって、正規化文を生成する。翻訳部２２は、正規化用翻訳文を入力として受け取り、正規化文を出力するように、コンピュータを機能させるための機械翻訳モデル（例えば、ＮＭＴ）であってもよい。この場合、翻訳部２２は、第２対訳コーパスに含まれる複数の対訳データのそれぞれを学習データとして用いた機械学習を実行することによって生成される。翻訳部２２は、正規化文を翻訳部１４に出力する。

対訳コーパス記憶部１５は、第１対訳コーパスを記憶（格納）する。第１対訳コーパスは、予め準備され、対訳コーパス記憶部１５に格納されている。

翻訳部１４は、正規化部１２（翻訳部２２）から正規化文を受け取り、正規化文を第２言語に翻訳することによって翻訳文を生成する。翻訳部１４は、正規化文を入力として受け取り、翻訳文を出力するように、コンピュータを機能させるための機械翻訳モデル（例えば、ＮＭＴ）であってもよい。この場合、翻訳部１４は、対訳コーパス記憶部１５に記憶されている第１対訳コーパスに含まれる複数の対訳データのそれぞれを学習データとして用いた機械学習を実行することによって生成される。翻訳部１４は、翻訳文を出力部１６に出力する。

出力部１６は、翻訳文を出力する。出力部１６は、例えば、翻訳部１４から翻訳文を受け取ると、生成装置１０の外部に翻訳文を出力する。出力部１６は、例えば、ディスプレイ及びスピーカーなどの出力装置に翻訳文を出力してもよい。出力部１６は、入力文と翻訳文との組み合わせを対訳データとして出力してもよい。

次に、図２～図４を参照して、生成装置１０が行う生成方法について説明する。図２は、図１に示される生成装置が行う生成方法の一連の処理を示すフローチャートである。図３は、図２の正規化処理を詳細に示すフローチャートである。図４は、図１に示される生成装置による翻訳結果の一例を示す図である。図２に示される一連の処理は、例えば、ユーザが発話することによって開始される。図４に示される例では、第１言語として日本語が用いられ、第２言語として中国語が用いられ、第３言語として英語が用いられる。

図２に示されるように、まず、取得部１１が、第１言語（ここでは、日本語）の入力文を取得する（ステップＳ０１）。図４に示される例では、取得部１１は、日本語の入力文Ｓｉ１を取得する。この入力文Ｓｉ１は、ユーザの発話を音声認識することによって得られた文であり、フィラー、言い直し、及び言い淀みなどのノイズを含む。そして、取得部１１は、入力文を正規化部１２に出力する。

続いて、正規化部１２は、取得部１１から入力文を受け取ると、入力文を正規化する（ステップＳ０２）。ステップＳ０２では、図３に示されるように、まず翻訳部２１が、入力文を第３言語（ここでは、英語）に翻訳することによって、正規化用翻訳文を生成する（ステップＳ１１）。図４に示される例では、英語の正規化用翻訳文Ｓｍ１が生成される。この正規化用翻訳文Ｓｍ１は、入力文Ｓｉ１と同様の意味を有するが、入力文Ｓｉ１に含まれていたノイズを含まない。そして、翻訳部２１は、正規化用翻訳文を翻訳部２２に出力する。

続いて、翻訳部２２は、翻訳部２１から正規化用翻訳文を受け取ると、正規化用翻訳文を第１言語に翻訳することによって、正規化文を生成する（ステップＳ１２）。図４に示される例では、日本語の正規化文Ｓｎ１が生成される。この正規化文Ｓｎ１は、入力文Ｓｉ１からノイズを除去した文であり、入力文Ｓｉ１と同様の意味を有する。そして、翻訳部２２は、正規化文を翻訳部１４に出力する。

続いて、翻訳部１４は、正規化部１２から正規化文を受け取ると、正規化文を第２言語（ここでは、中国語）に翻訳することによって、翻訳文を生成する（ステップＳ０３）。例えば、図４に示される例では、中国語の翻訳文Ｓｔ１が生成される。この翻訳文Ｓｔ１の意味は、「ＩＴを活用することで、企業の業務効率化に成功します。」である。そして、翻訳部１４は、翻訳文を出力部１６に出力する。

続いて、出力部１６は、翻訳部１４から翻訳文を受け取ると、翻訳文を出力する（ステップＳ０４）。出力部１６は、例えば、生成装置１０の外部に翻訳文を出力する。出力部１６は、例えば、ディスプレイ及びスピーカーなどの出力装置に翻訳文を出力してもよい。

以上により、生成方法の一連の処理が終了する。

図５をさらに参照して、生成装置１０の作用効果を説明する。図５は、比較例による翻訳結果を示す図である。フィラー、言い直し、及び言い淀みなどのノイズを含む入力文として入力文Ｓｉ１を中国語に直接翻訳した場合、図５に示される翻訳文Ｓｔ１００が生成される。この翻訳文Ｓｔ１００の意味は、「企業の業務の効率化は良いですが、ＩＴの活用はＩＴ活用で成功します。」である。この例のように、第１対訳コーパスのデータ量が第２対訳コーパスのデータ量よりも少ないので、入力文にノイズが含まれていると、翻訳精度が低下する。

一方、生成装置１０では、第１言語と第３言語との第２対訳コーパスを利用することによって第１言語の入力文が正規化文に変換される。正規化文は、第１言語の文法的に正しい文であるので、入力文を正規化文に変換することによって、フィラー、言い直し、言い淀み、及び入力間違いなどのノイズを除去することができる。そして、ノイズを含まない正規化文が第２言語に翻訳されることによって翻訳文が生成されるので、翻訳文に及ぼすノイズの影響を低減することができる。その結果、翻訳精度を向上させることが可能となる。

具体的には、翻訳部２１が、第２対訳データを利用して入力文を第３言語に翻訳することによって、正規化用翻訳文を生成する。翻訳部２２が、第２対訳データを利用して正規化用翻訳文を第１言語に翻訳することによって、正規化文を生成する。この構成によれば、第２対訳コーパスのデータ量が十分に多い場合には、入力文にノイズが含まれていたとしても、ノイズを含まない正規化用翻訳文、及び正規化文が得られる。例えば、図４に示されるように、正規化用翻訳文Ｓｍ１、及び正規化文Ｓｎ１には、ノイズが含まれていない。そして、ノイズを含まない正規化文が第２言語に翻訳されることによって翻訳文が生成されるので、翻訳文に及ぼすノイズの影響を低減することができる。

翻訳部２１及び翻訳部２２は、第２対訳コーパスを用いた機械学習を実行する機械翻訳モデルである。この構成によれば、翻訳部２１及び翻訳部２２を十分な量の第２対話コーパスを用いて学習させることによって、正規化文の精度を向上させることが可能となる。

図６～図８を参照して、別の実施形態に係る生成装置１０Ａの構成を説明する。図６は、別の実施形態に係る生成装置の機能ブロック図である。図７は、学習データを説明するための図である。図８は、誤り表現の検出処理を説明するための図である。図６に示される生成装置１０Ａは、正規化部１２に代えて正規化部１２Ａを備える点、並びに生成部１７及び正規化対訳コーパス記憶部１８をさらに備える点において、生成装置１０と主に相違する。なお、図７，８，１０に示される例では、翻訳対象である第１言語の入力文として日本語の入力文が用いられるが、上述のように入力文は、日本語の入力文に限られず、英語及び中国語といった他の言語の入力文であってもよい。

生成部１７は、後述する正規化モデル２３を学習させるための学習データを生成する。生成部１７は、原文コーパス記憶部７１と、対訳コーパス記憶部７２と、翻訳部７３（第２翻訳部）と、翻訳部７４（第３翻訳部）と、正規化対訳コーパス記憶部７５と、を備える。

原文コーパス記憶部７１は、原文コーパスを記憶する。原文コーパスは、第１言語の文である複数の学習用原文から構成されるデータベースである。学習用原文は、正規化される前の文であり、フィラー、言い直し、言い淀み、及び入力間違いなどのノイズを含み得る。学習用原文は、例えば、人間の自然な発話を音声認識によりテキスト化することによって得られる。複数の学習用原文は、予め準備され、原文コーパス記憶部７１に格納されている。なお、取得部１１によって取得された入力文が、学習用原文として原文コーパスに追加されてもよい。

対訳コーパス記憶部７２は、対訳コーパス記憶部１３と同様の機能を有しており、第２対訳コーパスを記憶（格納）する。第２対訳コーパスは、予め準備され、対訳コーパス記憶部７２に格納されている。

翻訳部７３は、翻訳部２１と同様の機能を有しており、対訳コーパス記憶部７２に記憶されている第２対訳データを利用して学習用原文を第３言語に翻訳することによって、第３言語の学習用翻訳文を生成する。翻訳部７３は、学習用原文を入力として受け取り、学習用翻訳文を出力するように、コンピュータを機能させるための機械翻訳モデル（例えば、ＮＭＴ）であってもよい。この場合、翻訳部７３は、第２対訳コーパスに含まれる複数の対訳データのそれぞれを学習データとして用いた機械学習を実行することによって生成される。翻訳部７３は、学習用翻訳文を学習用原文とともに翻訳部７４に出力する。

翻訳部７４は、翻訳部２２と同様の機能を有しており、対訳コーパス記憶部７２に記憶されている第２対訳データを利用して学習用翻訳文を第１言語に翻訳することによって、第１言語の学習用正規化文を生成する。学習用正規化文は、第１言語の文法的に正しい文であり、学習用原文を正規化することによって得られる。言い換えると、学習用正規化文は、学習用原文からノイズを除去することによって得られる。翻訳部７４は、学習用翻訳文を入力として受け取り、学習用正規化文を出力するように、コンピュータを機能させるための機械翻訳モデル（例えば、ＮＭＴ）であってもよい。この場合、翻訳部７４は、第２対訳コーパスに含まれる複数の対訳データのそれぞれを学習データとして用いた機械学習を実行することによって生成される。翻訳部７４は、学習用正規化文及び学習用原文の組み合わせを正規化対訳コーパス記憶部７５に出力する。

正規化対訳コーパス記憶部７５は、正規化対訳コーパスを記憶（格納）する。正規化対訳コーパスは、複数の正規化対訳データから構成されるデータベースである。各正規化対訳データは、互いに対応付けられた学習用原文と学習用正規化文との組み合わせである。正規化対訳コーパス記憶部７５は、翻訳部７４から学習用原文と当該学習用原文を正規化した学習用正規化文との組み合わせを受け取ると、この組み合わせを正規化対訳データとして正規化対訳コーパスに追加する。図７に示される例では、日本語の学習用原文Ｓｌｏ３と日本語の学習用正規化文Ｓｌｎ３とが対応付けられた正規化対訳データが示されている。学習用原文Ｓｌｏ３は、ノイズを含む。学習用正規化文Ｓｌｎ３は、学習用原文Ｓｌｏ３からノイズが除去された文である。この学習用正規化文Ｓｌｎ３の意味は、「ＩＴの活用により企業の業務効率化を成功させることができる。」である。

正規化対訳コーパス記憶部１８は、別の正規化対訳コーパスを記憶（格納）する。別の正規化対訳コーパスは、複数の正規化対訳データから構成されるデータベースである。各正規化対訳データは、タグ付き学習用原文と学習用正規化文との組み合わせである。タグ付き学習用原文は、学習用原文と同様に、正規化される前の文であり、フィラー、言い直し、言い淀み、及び入力間違いなどのノイズを含み得る。タグ付き学習用原文は、さらに除外表現の指定を含む。除外表現の指定には、原文と区別し得る記号が用いられる。例えば、＜ｔａｂ＞に続く文字列が除外表現として指定される。つまり、タグ付き学習用原文は、「（原文）＜ｔａｂ＞（除外表現）」といった構成を有する。

図７に示される例では、日本語のタグ付き学習用原文Ｓｔａｇ１が示されている。このタグ付き学習用原文Ｓｔａｇ１は、ノイズを含む原文Ｓｏ１と、除外表現Ｐｅ１と、を含む。同様に、日本語のタグ付き学習用原文Ｓｔａｇ２は、ノイズを含む原文Ｓｏ２と、除外表現Ｐｅ２と、を含む。

学習用正規化文は、タグ付き学習用原文において指定されている除外表現を含まない第１言語の文法的に正しい文であり、タグ付き学習用原文を正規化することによって得られる。言い換えると、学習用正規化文は、タグ付き学習用原文からノイズが除去されるとともに、除外表現が含まれないように生成される。図７に示されるように、タグ付き学習用原文Ｓｔａｇ１に対応付けられた日本語の学習用正規化文Ｓｌｎ１には、除外表現Ｐｅ１が含まれていない。この学習用正規化文Ｓｌｎ１の意味は、「そして、周波数においても協力を行っています。」である。同様に、タグ付き学習用原文Ｓｔａｇ２に対応付けられた日本語の学習用正規化文Ｓｌｎ２には、除外表現Ｐｅ２が含まれていない。この学習用正規化文Ｓｌｎ２の意味は、「それから、ＫＴのローミング生産の計画があります。」である。

正規化部１２Ａは、正規化部１２と同様に、取得部１１から入力文を受け取り、入力文を正規化文に変換する。正規化部１２Ａは、正規化モデル２３と、検出部２４と、を備える。

正規化モデル２３は、入力文を入力として受け取り、正規化文を出力するように、コンピュータを機能させるための機械翻訳モデル（例えば、ＮＭＴ）である。正規化モデル２３は、第２対訳コーパスを用いて生成された学習データを用いた機械学習を実行することによって生成される。具体的には、図７に示されるように、正規化モデル２３は、正規化対訳コーパス記憶部７５に記憶されている正規化対訳コーパスに含まれる複数の正規化対訳データ、及び正規化対訳コーパス記憶部１８に記憶されている別の正規化対訳コーパスに含まれる複数の正規化対訳データのそれぞれを学習データとして用いた機械学習を実行することによって生成される。正規化モデル２３は、生成装置１０Ａを稼働させる前に学習させることによって生成される。正規化モデル２３は、さらに、正規化対訳コーパス記憶部７５又は正規化対訳コーパス記憶部１８に記憶されている正規化対訳コーパスに新たな正規化対訳データが追加されるごとに上記学習データを学習してもよく、予め定められた時間が経過するごとに上記学習データを学習してもよい。

正規化モデル２３は、取得部１１又は検出部２４から入力文を入力として受け取り、正規化文を出力する。正規化モデル２３は、入力文に対し、正規化文を構成し得る候補となる単語である候補単語、及び各候補単語の尤度を生成する。正規化モデル２３は、正規化文を構成し得る候補単語の中から最も尤度の高い単語を順次選択し、選択された単語を並べた文字列を正規化文として出力する。なお、検出部２４から受け取る入力文においては除外表現が指定されているので、正規化モデル２３は、候補単語から除外表現を除いて正規化文を生成する。一方、取得部１１から受け取る入力文においては除外表現が指定されていないので、正規化モデル２３は、除外表現を考慮することなく、通常通りに正規化文を生成する。正規化モデル２３は、入力文及び正規化文を、当該正規化文を構成する各単語の尤度とともに検出部２４に出力する。

図７に示されるように、正規化モデル２３は、除外表現が指定されていない日本語の入力文Ｓｉ２を受け取ると、日本語の正規化文Ｓｎ２を出力する。正規化モデル２３は、除外表現Ｐｅ３が指定されている日本語の入力文Ｓｉ３を受け取ると、除外表現Ｐｅ３が含まれていない日本語の正規化文Ｓｎ３を出力する。正規化文Ｓｎ２及び正規化文Ｓｎ３の意味はいずれも、「今から会議を始めます。」である。なお、入力文Ｓｉ３に除外表現Ｐｅ３が指定されていない場合、正規化モデル２３は、除外表現Ｐｅ３を含む日本語の正規化文Ｓｎ３ａを出力する可能性がある。正規化文Ｓｎ３ａの意味は、「今から鼻会議を始めます。」である。

検出部２４は、正規化モデル２３から入力文、正規化文、及び各単語の尤度を受け取り、正規化文に含まれている誤り表現を検出する。具体的には、検出部２４は、正規化文に含まれる各単語の尤度と予め設定された閾値とを比較することによって、誤変換された単語を検出し、検出された単語に基づいて誤り表現を検出する。検出部２４は、例えば、閾値よりも小さい尤度の単語を誤変換された単語として検出する。本実施形態では、検出部２４は、検出された単語を含む句（例えば、名詞句）を誤り表現として検出する。検出部２４は、誤り表現を検出した場合、入力文に誤り表現を除外表現として指定し、入力文として正規化モデル２３に出力する。誤り表現が検出されなかった場合、検出部２４は、正規化文を翻訳部１４に出力する。

図８に示される例では、正規化文Ｓｎ４が正規化モデル２３から出力される。単語Ｗ１の尤度は、０．２であり、単語Ｗ２～Ｗ６の尤度は、いずれも０．８である。閾値は、例えば、０．７以上に設定されている。検出部２４は、各単語の尤度と閾値と、を比較し、閾値よりも小さい尤度を有する単語Ｗ１を検出する。検出部２４は、単語Ｗ１を含む名詞句（図８の例では、単語Ｗ１＋単語Ｗ２）を誤り表現Ｅ１として検出し、誤り表現Ｅ１を除外表現として入力文に指定して正規化モデル２３に出力する。

次に、図２、図８～図１０を参照して、生成装置１０Ａが行う生成方法について説明する。図９は、図６に示される生成装置が行う生成方法の正規化処理を詳細に示すフローチャートである。図１０は、図６に示される生成装置が行う正規化処理の一例を示す図である。生成装置１０Ａが行う生成方法は、生成装置１０が行う生成方法とステップＳ０２の正規化処理において相違するので、正規化処理以外の処理については説明を省略する。

図９に示されるように、ステップＳ０２では、まず正規化モデル２３が入力文を正規化する（ステップＳ２１）。具体的には、正規化モデル２３は、取得部１１から入力文を受け取り、入力文と当該入力文を正規化した正規化文とを、正規化文を構成する各単語の尤度とともに検出部２４に出力する。

続いて、検出部２４は、正規化モデル２３から入力文、正規化文、及び各単語の尤度を受け取ると、正規化文に誤り表現が存在するか否かを判定する（ステップＳ２２）。具体的には、検出部２４は、正規化文に含まれる各単語の尤度と閾値とを比較し、閾値よりも小さい尤度が存在する場合には、誤り表現が存在すると判定する（ステップＳ２２；ＹＥＳ）。そして、検出部２４は、閾値よりも小さい尤度の単語に基づいて、誤り表現を検出（抽出）する。ここでは、検出部２４は、検出された単語を含む句（例えば、名詞句）を誤り表現として検出する。そして、検出部２４は、入力文に誤り表現を除外表現として指定し、入力文として正規化モデル２３に出力する（ステップＳ２３）。

続いて、正規化モデル２３は、検出部２４から入力文を受け取ると、入力文を正規化する（ステップＳ２１）。このとき、正規化モデル２３は、除外表現を含まない正規化文を生成する。そして、正規化モデル２３は、入力文と当該入力文を正規化した正規化文とを、正規化文を構成する各単語の尤度とともに検出部２４に出力する。そして、ステップＳ２２の判定処理が再び行われる。

ステップＳ２２において、正規化文を構成する全ての単語の尤度が閾値以上である場合には、検出部２４は、正規化文に誤り表現が存在しないと判定する（ステップＳ２２；ＮＯ）。そして、検出部２４は、正規化文を翻訳部１４に出力する。

図１０に示される例では、日本語の入力文Ｓｉ４が正規化され、日本語の正規化文Ｓｎ４が生成される。そして、正規化文Ｓｎ４を構成する単語のうち、単語Ｗ１の尤度が閾値よりも小さい（図８参照）ので、単語Ｗ１を含む名詞句（単語Ｗ１＋単語Ｗ２）が誤り表現Ｅ１として検出される。そして、入力文Ｓｉ４に誤り表現Ｅ１を除外表現Ｐｅ４として追加することによって、日本語の入力文Ｓｉ４ａが生成される。そして、入力文Ｓｉ４ａが正規化モデル２３に出力される。入力文Ｓｉ４ａは、入力文Ｓｉ４の最後尾に＜ｔａｂ＞及び誤り表現Ｅ１が文字列として追加された文である。つまり、入力文Ｓｉ４ａでは、誤り表現Ｅ１が除外表現Ｐｅ４として指定されている。そして、誤り表現Ｅ１が含まれないように入力文Ｓｉ４ａが正規化され、日本語の正規化文Ｓｎ４ａが生成される。この正規化文Ｓｎ４ａを構成する全ての単語の尤度が閾値よりも大きいので、当該正規化文Ｓｎ４ａが翻訳部１４に出力される。なお、正規化文Ｓｎ４ａの意味は、「それから、ＫＴのローミング生産の計画があります。」である。

図１１～図１３を参照して、英語の文章を用いた例を説明する。図１１は、学習データを説明するための図である。図１２は、誤り表現の検出処理を説明するための図である。図１３は、図６に示される生成装置が行う正規化処理の別の例を示す図である。なお、図１１～図１３は、図７，８，１０にそれぞれ対応している。

図１１に示される例では、正規化対訳コーパス記憶部１８は、英語のタグ付き学習用原文Ｓｔａｇ１１と英語の学習用正規化文Ｓｌｎ１１とが対応付けられた正規化対訳データと、英語のタグ付き学習用原文Ｓｔａｇ１２と英語の学習用正規化文Ｓｌｎ１２とが対応付けられた正規化対訳データと、を記憶している。タグ付き学習用原文Ｓｔａｇ１１は、ノイズを含む原文Ｓｏ１１と、除外表現Ｐｅ１１と、を含む。同様に、タグ付き学習用原文Ｓｔａｇ１２は、ノイズを含む原文Ｓｏ１２と、除外表現Ｐｅ１２と、を含む。学習用正規化文Ｓｌｎ１１は、タグ付き学習用原文Ｓｔａｇ１１において指定されている除外表現Ｐｅ１１を含まない文であり、原文Ｓｏ１１からノイズを除去することによって得られた文である。学習用正規化文Ｓｌｎ１２は、タグ付き学習用原文Ｓｔａｇ１２において指定されている除外表現Ｐｅ１２を含まない文であり、原文Ｓｏ１２からノイズを除去することによって得られた文である。

正規化対訳コーパス記憶部７５は、英語の学習用原文Ｓｌｏ１３と英語の学習用正規化文Ｓｌｎ１３とが対応付けられた正規化対訳データを記憶している。学習用原文Ｓｌｏ１３は、ノイズを含む。学習用正規化文Ｓｌｎ１３は、学習用原文Ｓｌｏ１３からノイズが除去された文である。

正規化モデル２３は、除外表現が指定されていない英語の入力文Ｓｉ１２を受け取ると、英語の正規化文Ｓｎ１２を出力する。正規化文Ｓｎ１２は、入力文Ｓｉ１２からノイズを除去することによって得られる文である。正規化モデル２３は、除外表現Ｐｅ１３が指定されている英語の入力文Ｓｉ１３を受け取ると、除外表現Ｐｅ１３が含まれていない英語の正規化文Ｓｎ１３を出力する。正規化文Ｓｎ１３は、入力文Ｓｉ１３において指定されている除外表現Ｐｅ１３を含まない文であり、入力文Ｓｉ１３からノイズを除去することによって得られた文である。なお、入力文Ｓｉ１３に除外表現Ｐｅ１３が指定されていない場合、正規化モデル２３は、除外表現Ｐｅ１３を含む英語の正規化文Ｓｎ１３ａを出力する可能性がある。

図１２に示される例では、正規化文Ｓｎ１４が正規化モデル２３から出力される。単語Ｗ１１の尤度は、０．２であり、単語Ｗ１２～Ｗ１６の尤度は、いずれも０．８である。閾値は、例えば、０．７以上に設定されている。検出部２４は、各単語の尤度と閾値と、を比較し、閾値よりも小さい尤度を有する単語Ｗ１１を検出する。検出部２４は、単語Ｗ１１を含む名詞句（図１２の例では、単語Ｗ１）を誤り表現Ｅ１１として検出し、誤り表現Ｅ１１を除外表現として入力文に指定して正規化モデル２３に出力する。

図１３に示される例では、英語の入力文Ｓｉ１４が正規化され、英語の正規化文Ｓｎ１４が生成される。そして、正規化文Ｓｎ１４を構成する単語のうち、単語Ｗ１１の尤度が閾値よりも小さい（図１２参照）ので、単語Ｗ１１を含む名詞句（単語Ｗ１１）が誤り表現Ｅ１１として検出される。そして、入力文Ｓｉ１４に誤り表現Ｅ１１を除外表現Ｐｅ１４として追加することによって、英語の入力文Ｓｉ１４ａが生成される。そして、入力文Ｓｉ１４ａが正規化モデル２３に出力される。入力文Ｓｉ１４ａは、入力文Ｓｉ１４の最後尾に＜ｔａｂ＞及び誤り表現Ｅ１１が文字列として追加された文である。つまり、入力文Ｓｉ１４ａでは、誤り表現Ｅ１１が除外表現Ｐｅ１４として指定されている。そして、誤り表現Ｅ１１が含まれないように入力文Ｓｉ１４ａが正規化され、英語の正規化文Ｓｎ１４ａが生成される。この正規化文Ｓｎ１４ａを構成する全ての単語の尤度が閾値よりも大きいので、当該正規化文Ｓｎ１４ａが翻訳部１４に出力される。

以上のように、生成装置１０Ａにおいても、生成装置１０と同様の効果が奏される。生成装置１０Ａでは、正規化部１２Ａは、第２対訳コーパスを用いて生成された学習データを用いた機械学習を実行することによって生成された機械翻訳モデルである正規化モデル２３を備え、正規化モデル２３は、入力文を受け取り、正規化文を出力する。この構成によれば、生成装置１０と比較して、入力文から正規化文を生成するために用いられる機械翻訳モデルの数を半分（１つ）に減らすことができる。したがって、正規化処理に要する時間を短縮することができ、正規化処理の速度を向上させることが可能となる。生成装置１０Ａでは、生成装置１０と比較して、ハードウェアの規模を縮小することができるので、コストを削減することが可能となる。

生成装置１０Ａでは、生成部１７が、正規化モデル２３を学習させるための学習データを生成する。具体的には、翻訳部７３が、第２対訳データを利用して第１言語の学習用原文を第３言語に翻訳することによって、学習用翻訳文を生成する。翻訳部７４が、第２対訳データを利用して学習用翻訳文を第１言語に翻訳することによって、第１言語の文法的に正しい学習用正規化文を生成する。学習用原文及び学習用正規化文が学習データとして生成される。この構成によれば、学習用原文を準備するだけで、翻訳部７３及び翻訳部７４によって学習用正規化文が生成されるので、学習データを容易に生成することができる。

翻訳部７３及び翻訳部７４は、第２対訳コーパスを用いた機械学習を実行することによって生成された機械翻訳モデルである。この構成によれば、翻訳部７３及び翻訳部７４を十分な量の第２対話コーパスによって学習させることによって、学習用正規化文の精度を向上させることが可能となる。その結果、正規化モデル２３によって行われる正規化処理の精度を向上させることが可能となる。

検出部２４は、正規化文に含まれる誤り表現を検出し、誤り表現に基づく除外表現の指定を入力文に付加して、除外表現の指定が付加された入力文を正規化モデル２３に出力する。正規化モデル２３は、除外表現の指定が付加された入力文を受け取り、除外表現を含まない正規化文を出力する。この構成によれば、正しく正規化することができなかった表現を誤り表現として検出することができ、誤り表現を含まない正規化文を得ることができる。したがって、正規化処理の精度を向上させることができるので、翻訳文に及ぼすノイズの影響をさらに低減することができる。その結果、翻訳精度をさらに向上させることが可能となる。

正規化モデル２３は、正規化文とともに正規化文を構成する各単語の尤度を出力する。単語の尤度が低いほど、その単語は正しく正規化することができなかった単語である可能性が高い。したがって、検出部２４は、各単語の尤度に基づいて誤り表現を検出する。この構成によれば、例えば、尤度の低い単語を含む句を誤り表現として検出することができる。その結果、誤り表現の検出精度を向上させることが可能となる。

正規化モデル２３は、入力文を入力として受け取り、正規化文を出力するように、コンピュータを機能させるための機械翻訳モデルである。正規化モデル２３は、学習用原文と学習用原文を第１言語の文法的に正しい文に変換することによって得られた学習用正規化文との組み合わせを学習データとして用いた機械学習を実行することによって生成される。この構成によれば、上記学習データにより正規化モデル２３を学習させることによって、正規化処理の精度を向上させることが可能となる。

正規化モデル２３は、除外表現の指定を含む別の学習用原文と、別の学習用原文を第１言語の文法的に正しい文であって除外表現を含まない文に変換することによって得られた別の学習用正規化文と、の組み合わせをさらに学習データとして用いた機械学習を実行することによって生成される。この構成によれば、正規化モデル２３は、除外表現の指定を含む入力文を受け取った場合に、当該除外表現を含まない正規化文を出力することが可能となる。したがって、正規化処理の精度をさらに向上させることが可能となる。

以上、本開示の実施形態が説明されたが、本開示は上記実施形態に限定されない。

生成装置１０，１０Ａは、物理的又は論理的に結合した１つの装置によって構成されていてもよく、互いに物理的又は論理的に分離している複数の装置によって構成されてもよい。例えば、生成装置１０，１０Ａは、クラウドコンピューティングのようにネットワーク上に分散された複数のコンピュータによって実現されてもよい。以上のように、生成装置１０，１０Ａの構成は、生成装置１０，１０Ａの機能を実現し得るいかなる構成をも含み得る。

生成装置１０は、対訳コーパス記憶部１３を備えていなくてもよく、外部から第２対訳コーパスを取得してもよい。同様に、生成装置１０Ａは、対訳コーパス記憶部７２を備えていなくてもよく、外部から第２対訳コーパスを取得してもよい。同様に、生成装置１０，１０Ａは、対訳コーパス記憶部１５を備えていなくてもよく、外部から第１対訳コーパスを取得してもよい。生成装置１０Ａは、生成部１７を備えていなくてもよく、外部から正規化対訳コーパスを取得してもよい。生成装置１０Ａは、正規化対訳コーパス記憶部１８を備えていなくてもよく、外部から別の正規化対訳コーパスを取得してもよい。

翻訳部２１は、第２対訳コーパスを用いて入力文を正規化用翻訳文に変換する機能を有していればよく、機械翻訳モデルでなくてもよい。翻訳部２２は、第２対訳コーパスを用いて正規化翻訳文を正規化文に変換する機能を有していればよく、機械翻訳モデルでなくてもよい。翻訳部１４は、第１対訳コーパスを用いて正規化文を翻訳文に変換する機能を有していればよく、機械翻訳モデルでなくてもよい。翻訳部７３は、第２対訳コーパスを用いて学習用原文を学習用翻訳文に変換する機能を有していればよく、機械翻訳モデルでなくてもよい。翻訳部７４は、第２対訳コーパスを用いて学習用翻訳文を学習用正規化文に変換する機能を有していればよく、機械翻訳モデルでなくてもよい。

出力部１６は、例えば、入力文と翻訳文との組み合わせを対訳データとして対訳コーパス記憶部１５に記憶されている第１対訳コーパスに追加してもよい。この場合、翻訳部１４は、第１対訳コーパスに対訳データが追加されるごとに学習してもよく、予め定められた時間が経過するごとに学習してもよい。この構成によれば、翻訳部１４の翻訳精度を向上させることが可能となる。

なお、上記実施形態の説明に用いられたブロック図は、機能単位のブロックを示している。これらの機能ブロック（構成部）は、ハードウェア及びソフトウェアの少なくとも一方の任意の組み合わせによって実現される。各機能ブロックの実現方法は特に限定されない。すなわち、各機能ブロックは、物理的又は論理的に結合した１つの装置を用いて実現されてもよいし、物理的又は論理的に分離した２つ以上の装置を直接的又は間接的に（例えば、有線、無線などを用いて）接続し、これら複数の装置を用いて実現されてもよい。機能ブロックは、上記１つの装置又は上記複数の装置にソフトウェアを組み合わせて実現されてもよい。

機能には、判断、決定、判定、計算、算出、処理、導出、調査、探索、確認、受信、送信、出力、アクセス、解決、選択、選定、確立、比較、想定、期待、見做し、報知（broadcasting）、通知（notifying）、通信（communicating）、転送（forwarding）、構成（configuring）、再構成（reconfiguring）、割り当て（allocating、mapping）、及び割り振り（assigning）などがあるが、これらの機能に限られない。たとえば、送信を機能させる機能ブロック（構成部）は、送信部（transmitting unit）又は送信機（transmitter）と呼称される。いずれも、上述したとおり、実現方法は特に限定されない。

例えば、本開示の一実施の形態における生成装置１０，１０Ａは、本開示の処理を行うコンピュータとして機能してもよい。図１４は、本開示の実施形態に係る生成装置１０，１０Ａのハードウェア構成の一例を示す図である。上述の生成装置１０，１０Ａは、物理的には、プロセッサ１００１、メモリ１００２、ストレージ１００３、通信装置１００４、入力装置１００５、出力装置１００６、及びバス１００７などを含むコンピュータ装置として構成されてもよい。

なお、以下の説明では、「装置」という文言は、回路、デバイス、及びユニットなどに読み替えることができる。生成装置１０，１０Ａのハードウェア構成は、図に示された各装置を１つ又は複数含むように構成されてもよいし、一部の装置を含まずに構成されてもよい。

生成装置１０，１０Ａにおける各機能は、プロセッサ１００１及びメモリ１００２などのハードウェア上に所定のソフトウェア（プログラム）を読み込ませることによって、プロセッサ１００１が演算を行い、通信装置１００４による通信を制御したり、メモリ１００２及びストレージ１００３におけるデータの読み出し及び書き込みの少なくとも一方を制御したりすることによって実現される。

プロセッサ１００１は、例えば、オペレーティングシステムを動作させてコンピュータ全体を制御する。プロセッサ１００１は、周辺装置とのインターフェース、制御装置、演算装置、及びレジスタなどを含む中央処理装置（ＣＰＵ：Central Processing Unit）によって構成されてもよい。例えば、上述の生成装置１０，１０Ａの各機能は、プロセッサ１００１によって実現されてもよい。

プロセッサ１００１は、プログラム（プログラムコード）、ソフトウェアモジュール、及びデータなどを、ストレージ１００３及び通信装置１００４の少なくとも一方からメモリ１００２に読み出し、これらに従って各種の処理を実行する。プログラムとしては、上述の実施の形態において説明した動作の少なくとも一部をコンピュータに実行させるプログラムが用いられる。例えば、生成装置１０，１０Ａの各機能は、メモリ１００２に格納され、プロセッサ１００１において動作する制御プログラムによって実現されてもよい。上述の各種処理は、１つのプロセッサ１００１によって実行される旨を説明してきたが、２以上のプロセッサ１００１により同時又は逐次に実行されてもよい。プロセッサ１００１は、１以上のチップによって実装されてもよい。なお、プログラムは、電気通信回線を介してネットワークから送信されてもよい。

メモリ１００２は、コンピュータ読み取り可能な記録媒体であり、例えば、ＲＯＭ（Read Only Memory）、ＥＰＲＯＭ（Erasable Programmable ＲＯＭ）、ＥＥＰＲＯＭ（Electrically Erasable Programmable ＲＯＭ）、及びＲＡＭ（Random Access Memory）などの少なくとも１つによって構成されてもよい。メモリ１００２は、レジスタ、キャッシュ、又はメインメモリ（主記憶装置）などと呼ばれてもよい。メモリ１００２は、本開示の実施形態に係る生成方法を実施するために実行可能なプログラム（プログラムコード）、ソフトウェアモジュールなどを保存することができる。

ストレージ１００３は、コンピュータ読み取り可能な記録媒体であり、例えば、ＣＤ－ＲＯＭ（Compact Disc ＲＯＭ）などの光ディスク、ハードディスクドライブ、フレキシブルディスク、光磁気ディスク（例えば、コンパクトディスク、デジタル多用途ディスク、Ｂｌｕ－ｒａｙ（登録商標）ディスク）、スマートカード、フラッシュメモリ（例えば、カード、スティック、キードライブ）、フロッピー（登録商標）ディスク、磁気ストリップなどの少なくとも１つによって構成されてもよい。ストレージ１００３は、補助記憶装置と呼ばれてもよい。上述の記憶媒体は、例えば、メモリ１００２及びストレージ１００３の少なくとも一方を含むデータベース、サーバ、その他の適切な媒体であってもよい。

通信装置１００４は、有線ネットワーク及び無線ネットワークの少なくとも一方を介してコンピュータ間の通信を行うためのハードウェア（送受信デバイス）であり、例えばネットワークデバイス、ネットワークコントローラ、ネットワークカード、通信モジュールなどともいう。通信装置１００４は、例えば周波数分割複信（ＦＤＤ：Frequency Division Duplex）及び時分割複信（ＴＤＤ：Time Division Duplex）の少なくとも一方を実現するために、高周波スイッチ、デュプレクサ、フィルタ、周波数シンセサイザなどを含んで構成されてもよい。例えば、上述の取得部１１、及び出力部１６などは、通信装置１００４によって実現されてもよい。

入力装置１００５は、外部からの入力を受け付ける入力デバイス（例えば、キーボード、マウス、マイクロフォン、スイッチ、ボタン、センサなど）である。出力装置１００６は、外部への出力を実施する出力デバイス（例えば、ディスプレイ、スピーカー、ＬＥＤランプなど）である。なお、入力装置１００５及び出力装置１００６は、一体となった構成（例えば、タッチパネル）であってもよい。

プロセッサ１００１及びメモリ１００２などの各装置は、情報を通信するためのバス１００７によって接続される。バス１００７は、単一のバスを用いて構成されてもよいし、装置間ごとに異なるバスを用いて構成されてもよい。

生成装置１０，１０Ａは、マイクロプロセッサ、デジタル信号プロセッサ（ＤＳＰ：Digital Signal Processor）、ＡＳＩＣ（Application Specific Integrated Circuit）、ＰＬＤ（Programmable Logic Device）、ＦＰＧＡ（Field Programmable Gate Array）などのハードウェアを含んで構成されてもよく、当該ハードウェアにより、各機能ブロックの一部又は全てが実現されてもよい。例えば、プロセッサ１００１は、これらのハードウェアの少なくとも１つを用いて実装されてもよい。

情報の通知は、本開示において説明された態様／実施形態に限られず、他の方法を用いて行われてもよい。

本開示において説明された各態様／実施形態の処理手順、シーケンス、フローチャートなどは、矛盾の無い限り、順序を入れ替えてもよい。例えば、本開示において説明された方法については、例示的な順序を用いて様々なステップの要素が提示されており、提示された特定の順序に限定されない。

情報等は、上位レイヤ（又は下位レイヤ）から下位レイヤ（又は上位レイヤ）へ出力され得る。情報等は、複数のネットワークノードを介して入出力されてもよい。

入出力された情報等は、特定の場所（例えば、メモリ）に保存されてもよいし、管理テーブルを用いて管理されてもよい。入出力される情報等は、上書き、更新、又は追記され得る。出力された情報等は削除されてもよい。入力された情報等は他の装置へ送信されてもよい。

判定は、１ビットで表される値（０か１か）によって行われてもよいし、真偽値（Boolean：true又はfalse）によって行われてもよいし、数値の比較（例えば、所定の値との比較）によって行われてもよい。

本開示において説明された各態様／実施形態は単独で用いられてもよいし、組み合わせて用いられてもよいし、実行に伴って切り替えて用いられてもよい。所定の情報の通知（例えば、「Ｘであること」の通知）は、明示的に行われる構成に限られず、暗黙的に（例えば、当該所定の情報の通知を行わないことによって）行われてもよい。

以上、本開示について詳細に説明したが、当業者にとっては、本開示が本開示中に説明した実施形態に限定されないということは明らかである。本開示は、請求の範囲の記載により定まる本開示の趣旨及び範囲を逸脱することなく修正及び変更態様として実施することができる。したがって、本開示の記載は、例示説明を目的とし、本開示に対して何ら制限的な意味を有しない。

ソフトウェアは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語と呼ばれるか、他の名称で呼ばれるかを問わず、命令、命令セット、コード、コードセグメント、プログラムコード、プログラム、サブプログラム、ソフトウェアモジュール、アプリケーション、ソフトウェアアプリケーション、ソフトウェアパッケージ、ルーチン、サブルーチン、オブジェクト、実行可能ファイル、実行スレッド、手順、機能などを意味するよう広く解釈されるべきである。

ソフトウェア、命令、情報などは、伝送媒体を介して送受信されてもよい。例えば、ソフトウェアが、有線技術（同軸ケーブル、光ファイバケーブル、ツイストペア、デジタル加入者回線（ＤＳＬ：Digital Subscriber Line）など）及び無線技術（赤外線、マイクロ波など）の少なくとも一方を使用してウェブサイト、サーバ、又は他のリモートソースから送信される場合、これらの有線技術及び無線技術の少なくとも一方は、伝送媒体の定義内に含まれる。

本開示において説明された情報、信号などは、様々な異なる技術のいずれかを使用して表されてもよい。例えば、上記の説明全体に渡って言及され得るデータ、命令、コマンド、情報、信号、ビット、シンボル、チップなどは、電圧、電流、電磁波、磁界若しくは磁性粒子、光場若しくは光子、又はこれらの任意の組み合わせによって表されてもよい。

なお、本開示において説明された用語及び本開示の理解に必要な用語については、同一の又は類似する意味を有する用語と置き換えられてもよい。

本開示において使用される「システム」及び「ネットワーク」という用語は、互換的に使用される。

本開示において説明された情報、及びパラメータなどは、絶対値を用いて表されてもよいし、所定の値からの相対値を用いて表されてもよいし、対応する別の情報を用いて表されてもよい。

上述されたパラメータに使用される名称はいかなる点においても限定的な名称ではない。さらに、これらのパラメータを使用する数式等は、本開示で明示的に開示された内容と異なる場合もある。

本開示で使用される「判断（determining）」、及び「決定（determining）」という用語は、多種多様な動作を包含する場合がある。「判断」、及び「決定」は、例えば、判定（judging）、計算（calculating）、算出（computing）、処理（processing）、導出（deriving）、調査（investigating）、探索（looking up、search、inquiry）（例えば、テーブル、データベース又は別のデータ構造での探索）、確認（ascertaining）した事を「判断」「決定」したとみなす事などを含み得る。「判断」、及び「決定」は、受信（receiving）（例えば、情報を受信すること）、送信（transmitting）（例えば、情報を送信すること）、入力（input）、出力（output）、アクセス（accessing）（例えば、メモリ中のデータにアクセスすること）した事を「判断」「決定」したとみなす事などを含み得る。「判断」、及び「決定」は、解決（resolving）、選択（selecting）、選定（choosing）、確立（establishing）、比較（comparing）などした事を「判断」「決定」したとみなす事を含み得る。つまり、「判断」「決定」は、何らかの動作を「判断」「決定」したとみなす事を含み得る。「判断（決定）」は、「想定する（assuming）」、「期待する（expecting）」、又は「みなす（considering）」などで読み替えられてもよい。

「接続された（connected）」、「結合された（coupled）」という用語、又はこれらのあらゆる変形は、２又はそれ以上の要素間の直接的又は間接的なあらゆる接続又は結合を意味し、互いに「接続」又は「結合」された２つの要素間に１又はそれ以上の中間要素が存在することを含んでもよい。要素間の結合又は接続は、物理的なものであっても、論理的なものであっても、或いはこれらの組み合わせであってもよい。例えば、「接続」は「アクセス」で読み替えられてもよい。本開示で「接続」又は「結合」が使用される場合、接続又は結合される２つの要素は、１又はそれ以上の電線、ケーブル及びプリント電気接続の少なくとも一つを用いて、並びにいくつかの非限定的かつ非包括的な例として、無線周波数領域、マイクロ波領域及び光（可視及び不可視の両方）領域の波長を有する電磁エネルギーなどを用いて、互いに「接続」又は「結合」されると考えることができる。

本開示において使用される「に基づいて」という記載は、別段に明記されていない限り、「のみに基づいて」を意味しない。言い換えれば、「に基づいて」という記載は、「のみに基づいて」と「に少なくとも基づいて」の両方を意味する。

本開示において使用される「第１の」、「第２の」などの呼称を使用した要素へのいかなる参照も、それらの要素の量又は順序を全般的に限定しない。これらの呼称は、２つ以上の要素間を区別する便利な方法として本開示において使用され得る。したがって、第１及び第２の要素への参照は、２つの要素のみが採用され得ること、又は何らかの形で第１の要素が第２の要素に先行しなければならないことを意味しない。

上記の各装置の構成における「部」は、「回路」、「デバイス」等に置き換えられてもよい。

本開示において、「含む（include）」、「含んでいる（including）」及びそれらの変形が使用されている場合、これらの用語は、用語「備える（comprising）」と同様に、包括的であることが意図される。さらに、本開示において使用されている用語「又は（or）」は、排他的論理和ではないことが意図される。

本開示において、例えば、英語での「a」、「an」及び「the」のように、翻訳により冠詞が追加された場合、本開示は、これらの冠詞の後に続く名詞が複数形であることを含んでもよい。

本開示において、「ＡとＢが異なる」という用語は、「ＡとＢが互いに異なる」ことを意味してもよい。なお、当該用語は、「ＡとＢがそれぞれＣと異なる」ことを意味してもよい。「離れる」、及び「結合される」などの用語も、「異なる」と同様に解釈されてもよい。

１０，１０Ａ…生成装置、１１…取得部、１２，１２Ａ…正規化部、１４…翻訳部（第１翻訳部）、１６…出力部、１７…生成部、２１…翻訳部（第２翻訳部）、２２…翻訳部（第３翻訳部）、２３…正規化モデル、２４…検出部、７３…翻訳部（第２翻訳部）、７４…翻訳部（第３翻訳部）。

Claims

翻訳対象である第１言語の入力文から前記第１言語とは異なる第２言語の翻訳文を生成する生成装置であって、
前記入力文を取得する取得部と、
前記入力文を前記第１言語の文法的に正しい正規化文に変換する正規化部と、
前記第１言語と前記第２言語との対訳データである第１対訳データを利用して、前記正規化文を前記第２言語に翻訳することによって前記翻訳文を生成する第１翻訳部と、
を備え、
前記正規化部は、前記第１言語及び前記第２言語とは異なる第３言語と前記第１言語との対訳データである第２対訳データを利用して前記入力文を前記第３言語に翻訳することによって、正規化用翻訳文を生成する第２翻訳部と、前記第２対訳データを利用して前記正規化用翻訳文を前記第１言語に翻訳することによって、前記正規化文を生成する第３翻訳部と、を備え、
前記第２対訳データのデータ量は、前記第１対訳データのデータ量よりも多い、生成装置。
前記第２翻訳部及び前記第３翻訳部のそれぞれは、前記第２対訳データを用いた機械学習を実行することによって生成された機械翻訳モデルである、請求項１に記載の生成装置。
翻訳対象である第１言語の入力文から前記第１言語とは異なる第２言語の翻訳文を生成する生成装置であって、
前記入力文を取得する取得部と、
前記入力文を前記第１言語の文法的に正しい正規化文に変換する正規化部と、
前記第１言語と前記第２言語との対訳データである第１対訳データを利用して、前記正規化文を前記第２言語に翻訳することによって前記翻訳文を生成する第１翻訳部と、
前記第１言語及び前記第２言語とは異なる第３言語と前記第１言語との対訳データである第２対訳データを利用することによって学習データを生成する生成部と、
を備え、
前記生成部は、前記第２対訳データを利用して前記第１言語の学習用原文を前記第３言語に翻訳することによって、学習用翻訳文を生成する第２翻訳部と、前記第２対訳データを利用して前記学習用翻訳文を前記第１言語に翻訳することによって、前記第１言語の文法的に正しい学習用正規化文を生成する第３翻訳部と、を備え、
前記生成部は、前記学習用原文及び前記学習用正規化文を前記学習データとし、
前記正規化部は、前記学習データを用いた機械学習を実行することによって生成された機械翻訳モデルである正規化モデルを備え、
前記正規化モデルは、前記入力文を受け取り、前記正規化文を出力し、
前記第２対訳データのデータ量は、前記第１対訳データのデータ量よりも多い、生成装置。
前記第２翻訳部及び前記第３翻訳部のそれぞれは、前記第２対訳データを用いた機械学習を実行することによって生成された機械翻訳モデルである、請求項３に記載の生成装置。
前記正規化部は、前記正規化文に含まれる誤り表現を検出する検出部をさらに備え、
前記検出部は、前記誤り表現を除外表現として前記入力文に付加して、前記除外表現が付加された前記入力文を前記正規化モデルに出力し、
前記正規化モデルは、前記除外表現が付加された前記入力文を受け取り、前記除外表現を含まない前記正規化文を出力する、請求項３又は請求項４に記載の生成装置。
前記正規化モデルは、前記正規化文とともに前記正規化文を構成する各単語の尤度を出力し、
前記検出部は、前記各単語の前記尤度に基づいて前記誤り表現を検出する、請求項５に記載の生成装置。