JP7229347B2

JP7229347B2 - 内部状態変更装置

Info

Publication number: JP7229347B2
Application number: JP2021518299A
Authority: JP
Inventors: 熱気澤山; 保静松岡
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2019-05-07
Filing date: 2019-12-27
Publication date: 2023-02-27
Anticipated expiration: 2039-12-27
Also published as: WO2020225942A1; JPWO2020225942A1; US20220207243A1

Description

本開示の一側面は、第１言語の文を第２言語の文に翻訳する学習済みモデルの内部状態を変更する内部状態変更装置に関する。

下記特許文献１では、問題文に対して所定言語で翻訳された解答文の評価を行う文章評価装置が開示されている。

国際公開第２００６／１３４７５９号

例えば、与えられた英文に対して人が和文に翻訳した翻訳結果を採点する作文採点技術では、予めシステムが内部で模範解答を生成し、システムが模範解答と人の翻訳結果とを比較することで採点を実現する場合が多い。しかしながら、人の翻訳結果には様々な表現、単語及び言い回しを含んでいることが多く、文意が同じであっても、システムが生成する模範解答と大きく異なることがあり、適切に採点できない。そこで一つの英文に対応する複数の和文を予め模範解答として人手で用意しておくことが考えられるが、コスト及び時間がかかり、容易ではない。

そこで、本開示の一側面は、かかる課題に鑑みて為されたものであり、第１言語の文に対応する複数の第２言語の文を生成することができる翻訳モデル環境を容易に構築することができる内部状態変更装置を提供することを目的とする。

上記課題を解決するため、本開示の一側面に係る内部状態変更装置は、第１言語の文である原文を第２言語の文である翻訳文に翻訳するための翻訳モデルであってエンコーダー・デコーダーモデルで構成される学習済みモデルである翻訳モデルにおけるエンコーダーの最終隠れ状態である内部状態を変更する変更部を備える。

このような内部状態変更装置によれば、内部状態が変更された翻訳モデルを容易に複数生成することができる。生成された複数の翻訳モデルそれぞれに対して第１言語の文を入力すれば、当該第１言語の文に対応する複数の第２言語の文を生成することができる。すなわち、第１言語の文に対応する複数の第２言語の文を生成することができる翻訳モデル環境を容易に構築することができる。

本開示の一側面によれば、第１言語の文に対応する複数の第２言語の文を生成することができる翻訳モデル環境を容易に構築することができる。

本発明の実施形態に係る内部状態変更装置の機能ブロック図である。翻訳モデルの概念図である。翻訳モデルの内部状態に乱数を付加する場面を示す概念図である。内部状態への乱数の付加の一例を示す図である。内部状態への乱数の付加の別の一例を示す図である。内部状態を変更するプログラム例を示す図である。本発明の実施形態に係る内部状態変更装置で実行される内部状態変更処理を示すフローチャートである。本発明の実施形態に係る内部状態変更装置のハードウェア構成図である。

以下、図面とともに内部状態変更装置の実施形態について詳細に説明する。なお、図面の説明においては同一要素には同一符号を付し、重複する説明を省略する。また、以下の説明における実施形態は、本発明の具体例であり、特に本発明を限定する旨の記載がない限り、これらの実施形態に限定されないものとする。

図１は、本実施形態に係る内部状態変更装置１の機能ブロック図である。図１に示す通り、内部状態変更装置１は、格納部１０、翻訳部１１、設定部１２及び変更部１３を含んで構成される。

内部状態変更装置１の各機能ブロックは、内部状態変更装置１内にて機能することを想定しているが、これに限るものではない。例えば、内部状態変更装置１の機能ブロックの一部（例えば格納部１０及び翻訳部１１）は、内部状態変更装置１とは異なるサーバ装置であって、内部状態変更装置１とネットワーク接続されたサーバ装置内において、内部状態変更装置１と情報を適宜送受信しつつ機能してもよい。また、内部状態変更装置１の一部の機能ブロックは無くてもよいし、複数の機能ブロックを一つの機能ブロックに統合してもよいし、一つの機能ブロックを複数の機能ブロックに分解してもよい。

以下、図１に示す内部状態変更装置１の各機能ブロックについて説明する。

格納部１０は、内部状態変更装置１が行う各種処理で用いる各種データを格納する。格納部１０によって格納された各種データは、内部状態変更装置１が行う各種処理において各機能ブロックによって適宜参照及び更新される。

格納部１０は、第１言語（源言語）の文である原文（入力文）を第２言語（目的言語）の文である翻訳文（出力文）に翻訳するための翻訳モデルであって、エンコーダー・デコーダーモデル（別名：encoder-decoder翻訳モデル、Sequence to Sequence Model）で構成される学習済みモデルである翻訳モデルを格納する。

第１言語は、例えば英語であるが、他のいかなる言語であってもよい。第２言語は、第１言語とは異なる言語であり、例えば日本語であるが、他のいかなる言語であってもよい。第１言語と第２言語とは異なる地方の方言（例えば日本における標準語と関西弁）であってもよい。言語は、自然言語に限らず、人工言語及び形式言語（コンピュータのプログラム言語）等であってもよい。文は、形の上で完結した、一つの陳述によって統べられている言語表現の一単位である。文は、一つ以上の文からなるもの（例えば段落、文章など）に読み替えてもよい。

学習済みモデルは、機械学習による学習によって生成されるモデルであり、コンピュータプログラムとパラメータとの組み合わせである。また、学習済みモデルは、ニューラルネットワークの構造と当該ニューラルネットワークの各ニューロン間の結びつきの強さであるパラメータ（重み付け係数）との組み合わせである。また、学習済みモデルは、コンピュータに対する指令であって、一の結果を得る（所定の処理を実行する）ことができるように組み合わされたもの、すなわち、コンピュータを機能させるコンピュータプログラムである。

図２は、翻訳モデルの概念図である。図２に示す通り、翻訳モデルは主にエンコーダー及びデコーダーから構成される。本実施形態においては、エンコーダー及びデコーダーは、それぞれＬＳＴＭ（Long Short Term Memory）と呼ばれるリカレントニューラルネットワークである。ＬＳＴＭは、２層ＬＳＴＭ（2-layer LSTM）であることを想定する。また、翻訳モデルは、アテンション（attention）機構を用いることを想定する。翻訳モデルは、ニューラル機械翻訳器でもある。

エンコーダーは、第１言語の文を入力し、（最終）隠れ状態（内部状態）を出力する。より具体的には、エンコーダーは、第１言語の文を形態素解析等により単語に分割し、各単語に対応する単語ＩＤ（ＷｏｒｄＩＤ）を単語ベクトル（入力層のベクトル）に変換した上で順次（文の最初の単語Ｗｔ、次の単語Ｗｔ＋１、次の単語Ｗｔ＋２、…、最後の単語Ｗｔ＋ｎまで順に）入力し、それまでの入力内容に基づく隠れ状態（のベクトル）を順次出力する（ニューラルネットワークの計算を行う）。エンコーダーは、文章の終わりを示す「ＥＯＳ」（End Of Sentence）を入力した時点で、エンコーダーからデコーダーに、それまでの入力内容に基づく隠れ状態（のベクトル）、すなわち最終隠れ状態を出力する（エンコーダーからデコーダーへ値を受け渡す）。エンコーダーは概念的に、第１言語の原文を意味解析し、意味表現を抽出している（原文の意味が圧縮されている）と言える。

デコーダーは、エンコーダーから出力された隠れ状態（のベクトル）を入力すると、入力された隠れ状態（のベクトル）に基づいて、最終的に出力する第２言語の文のうち１語目に対応する出力層のベクトルを出力する。出力層のベクトルは、第２言語の単語候補及び当該単語候補の尤度のリストを示す情報である。以降、Ｎ語目（Ｎは１以上の整数）の出力層のベクトルが示す単語候補のうち、例えば、尤度が最大の単語を抽出し、抽出した単語を自デコーダーに入力し、入力した単語とＮ語目の出力層のベクトルの出力を行う際に用いた隠れ状態（のベクトル）とに基づいて、（Ｎ＋１）語目の出力層のベクトルを出力する、という処理を、第２言語の文の最後の単語まで反復する。デコーダは概念的に、エンコーダが抽出した意味表現から、（第１言語とは異なる第２言語の）文を生成している、と言える。

上述の通り、図２において、エンコーダーの最終状態と、デコーダーの初期状態とは同一である。一方、後述の変更部１３によって内部状態が変更される場合は、同一ではない。

格納部１０によって格納される翻訳モデルは、他の装置からネットワークを介して入力したものであってもよいし、内部状態変更装置１が備える、翻訳モデルを生成する翻訳モデル生成部（不図示）によって生成されたものであってもよい。また、格納部１０は、複数の翻訳モデルを格納してもよい。その場合、各翻訳モデルには翻訳モデルを一意に識別する翻訳モデル識別情報が対応付けられ、内部状態変更装置１内での各処理では翻訳モデル識別情報が合わせて指定されることで対応する翻訳モデルに対して適切に処理が行われるものとする。

翻訳部１１は、格納部１０によって格納された翻訳モデルを用いて、入力された原文を翻訳文に翻訳する。より具体的には、翻訳部１１は、原文の入力を受け付け、入力された原文を、格納部１０によって格納された翻訳モデルに適用することで、翻訳モデルから出力される翻訳文を取得し、他の機能ブロック、内部状態変更装置１のユーザ、又はネットワークを介した他の装置などに出力（又は表示）する。翻訳部１１による翻訳のタイミングは、定期的であってもよいし、内部状態変更装置１のユーザによって指示されたときであってもよいし、ネットワークを介して他の装置から指示されたときであってもよい。

翻訳部１１は、翻訳文を出力するとともに、翻訳モデルによる翻訳を行った際に出力される、翻訳文の翻訳結果としての品質である翻訳品質（又は翻訳精度）に関する情報を出力してもよい。

翻訳品質は、より具体的には、翻訳確率、又は言語確率、又は翻訳確率と言語確率との両方である。一般的に、翻訳確率が高い、及び、言語確率が低いほど、翻訳文の品質が高いこと（機械翻訳によって生成された翻訳文に自信があること）を示す。

翻訳確率は、原文から翻訳文全体を出すのにどれくらい単語列が出力されるかの確率である。翻訳確率は、原文の単語列に対する翻訳文の単語列の確率であってもよい。翻訳確率は、翻訳部１１が機械翻訳を行った際に翻訳文の単語ごとに出力される尤度を翻訳文全体で合算した値であってもよい。翻訳確率は、例えば、オープンソースのニューラル機械翻訳システムであるＯｐｅｎＮＭＴ（公式サイト「http://opennmt.net/」）が機械翻訳を行った際に出力する「ＰＲＥＤＡＶＧＳＣＯＲＥ」の値である。

言語確率は、翻訳文の単語列を見たときにこの単語列がそもそもどれくらいの確率で生成されるかを示す確率（前の単語を見たときの次の単語の確率）である。言語確率は、翻訳文の任意の単語列が生成される確率であってもよい。翻訳確率は、例えば、ＯｐｅｎＮＭＴが機械翻訳を行った際に出力する「ＰＲＥＤＰＰＬ」の値である。

翻訳部１１は、後述の変更部１３によって変更された内部状態を備える翻訳モデルを用いて原文を翻訳した翻訳文を出力してもよい。

設定部１２は、数値範囲を設定する。数値は実数を想定するが、それに限るものではない。数値範囲の一例としては、「０」以上かつ「１」未満が挙げられる。数値範囲は、例えば、後述の通り翻訳モデルの内部状態を変更する際に用いる乱数（スカラ値）を生成するためのものである。すなわち、数値範囲は、乱数生成範囲とも言う。数値範囲が広いほど、変更部１３によって翻訳モデルの内部状態は大きく変更され、当該内部状態により、原文から翻訳された翻訳文の言い回しなどが大きく変化する。一方、数値範囲が狭いほど、変更部１３によって翻訳モデルの内部状態は小さく変更され、当該内部状態により、原文から翻訳された翻訳文の言い回しなどが小さく変化する。設定部１２は、設定した数値範囲を変更部１３に出力する。設定部１２による数値範囲の設定のタイミングは、定期的であってもよいし、内部状態変更装置１のユーザによって指示されたときであってもよいし、ネットワークを介して他の装置から指示されたときであってもよい。

設定部１２は、翻訳モデルを用いた翻訳の翻訳結果に基づいて（翻訳結果を判定した上で）数値範囲を設定してもよい。翻訳モデルを用いた翻訳で利用する原文は、数値範囲を設定するために内部状態変更装置１のユーザなどが予め用意したものであってもよい。以下、数値範囲の設定方法についての具体的ないくつかのパターンを説明する。これらのパターンはそれぞれ単独で用いてもよいし、複数を組み合わせて用いてもよい。

（パターン１）
設定部１２は、翻訳モデルを用いて翻訳された翻訳文の文の長さ（文長）に基づいて数値範囲を設定してもよい。すなわち、翻訳結果は、翻訳モデルを用いて翻訳された翻訳文の文の長さであってもよい。文の長さに着目した理由は、機械翻訳では、原文の長さ及び翻訳文の長さが長いほど、翻訳精度が落ちる可能性が高いことが挙げられる。例えば、設定部１２は、翻訳文の文の長さが（所定の長さ（平均文長など）よりも）短いほど数値範囲を（所定の数値範囲よりも）広げ、翻訳文の文の長さが（所定の長さ（平均文長など）よりも）長いほど数値範囲を（所定の数値範囲よりも）狭めてもよい。設定部１２は、翻訳文の長さに応じて広げたり狭めたりしてもよい。また、設定部１２は、学習データ（対訳コーパス）のうちの第２言語のコーパスの文長の平均・分散・標準偏差などに基づいて数値範囲を設定してもよい。

（パターン２）
設定部１２は、翻訳モデルを用いて翻訳された翻訳文の品質である翻訳品質（又は翻訳精度）に基づいて数値範囲を設定してもよい。すなわち、翻訳結果は、翻訳モデルを用いて翻訳された翻訳文の品質である翻訳品質であってもよい。翻訳品質に着目した理由は、翻訳確率の値により翻訳時における精度が把握できることが挙げられる。例えば、設定部１２は、翻訳品質が所定の品質よりも高い（例えば翻訳文の翻訳確率が所定の確率よりも高い）場合は数値範囲を（所定の数値範囲よりも）広め、翻訳品質が所定の品質よりも低い（例えば翻訳文の翻訳確率が所定の確率よりも低い）場合は数値範囲を（所定の数値範囲よりも）狭めてもよい。設定部１２は、品質の度合に応じて数値範囲を広めたり狭めたりしてもよい。また、設定部１２は、翻訳部１１から出力される翻訳文の単語ごとの尤度（単語の品質・精度）に基づいて数値範囲を設定してもよい。より具体的には、設定部１２は、翻訳文を構成する単語のうち、尤度が所定の尤度よりも高い単語の数に基づいて数値範囲を設定してもよい。また、設定部１２は、翻訳部１１から出力される翻訳文の単語ごとの品質に基づく文の品質に基づいて数値範囲を設定してもよい。

（パターン３）
設定部１２は、翻訳モデルを用いて原文を翻訳した翻訳文と、当該原文に対応する第２言語の正解データ（参照訳）との比較に基づいて数値範囲を設定してもよい。正解データは、例えば、高度な翻訳スキルを有する人が、第１言語の原文を第２言語に翻訳した翻訳結果である。正解データは、人ではなく、高品質な翻訳を行う別の翻訳装置が、原文に対する翻訳文として出力した翻訳結果であってもよい。設定部１２が用いる正解データは、設定部１２がネットワークを介して他の装置から取得したものであってもよいし、内部状態変更装置１のユーザによって入力されたものであってもよい。例えば、設定部１２は、翻訳文と参照訳との単語（語彙）一致率又は文長差に基づいて数値範囲を設定してもよい。より具体的には、設定部１２は、単語一致率が高いほど又は文長差が少ないほど（学習がうまくいっているので）数値範囲を（所定の数値範囲よりも）広げ、単語一致率が低いほど又は文長差が多いほど（学習がうまくいっていないので）数値範囲を狭めてもよい。また、設定部１２は、翻訳部１１から出力される翻訳文の単語ごとの尤度と参照訳との比較に基づいて数値範囲を設定してもよい。より具体的には、設定部１２は、翻訳部１１から出力される翻訳文の単語ごとの尤度の上位ランキング（所定の尤度よりも高い単語）に、参照訳の単語がどの程度含まれているか（カバー率）を算出し、参照訳の単語が多く含まれるほど（学習がうまくいっているので）数値範囲を（所定の数値範囲よりも）広げ、参照訳の単語が少なく含まれるほど（学習がうまくいっていないので）数値範囲を（所定の数値範囲よりも）狭めてもよい。

設定部１２が用いる翻訳モデルは、変更部１３によって変更された内部状態を備える翻訳モデルであってもよい。より具体的には、上述の各パターンにて設定部１２が用いる翻訳モデルは、後述の変更部１３によって変更された内部状態を備える、格納部１０によって格納された翻訳モデルであってもよい。

変更部１３は、翻訳モデルにおけるエンコーダーの（最終隠れ状態である）内部状態を変更する。より具体的には、変更部１３は、格納部１０によって格納された翻訳モデルにおけるエンコーダーの内部状態を変更し、変更された内部状態を備える翻訳モデルを格納部１０によって格納させる。変更部１３は、乱数に基づいて内部状態を変更してもよい。変更部１３は、設定部１２によって設定（入力）された数値範囲に含まれる数値（乱数）に基づいて内部状態を変更してもよい。変更部１３は、設定部１２によって設定（入力）された数値範囲に含まれる数値（乱数）を１つ以上生成し、１つの内部状態に対して、それぞれの数値に基づいて内部状態を変更した、複数（生成した数値分）の変更された内部状態を生成してもよい。また、変更部１３は、翻訳部１１から出力される翻訳文の文長を基準として、当該文長の逆数を乱数に乗算してもよい。変更部１３による内部状態の変更のタイミングは、定期的であってもよいし、内部状態変更装置１のユーザによって指示されたときであってもよいし、ネットワークを介して他の装置から指示されたときであってもよい。

図３は、翻訳モデルの内部状態に乱数を付加する場面（変更部１３によって内部状態が変更される場面）を示す概念図である。図３は、図２に示す翻訳モデルの概念図のうち、エンコーダーとデコーダーとの間を拡大した図であり、当該間付近以外は省略して図示している。図３に示す通り、エンコーダーから出力されるセル（cell）はそのままデコーダーに入力されている一方、エンコーダーから出力される隠れ状態（内部状態）については、変更部１３によって乱数が付加された上でデコーダーに入力されている。すなわち、デコーダーの初期状態は、エンコーダーの最終状態に乱数が付加されたものと同一である。

図４は、変更部１３による内部状態への乱数の付加の一例を示す図である。図４の行列Ｔ１は、エンコーダーの最終隠れ状態を示す。行列Ｔ１の行は隠れサイズを示し、行列Ｔ１の列は埋め込みサイズを示す。変更部１３は、行列Ｔ１が入力されると、設定部１２によって設定された数値範囲に基づき、乱数Ｓ１（スカラ値の行列）を生成する。次に、変更部１３は、行列Ｔ１と同じサイズで、全ての要素が「１」で初期化した行列Ｔ２を生成する。次に、変更部１３は、行列Ｔ２に対して乱数Ｓ１を乗算する。次に、変更部１３は、乗算した結果と行列Ｔ１とを加算し、行列Ｔ３を得る。得られた行列Ｔ３が、変更部１３によって変更された内部状態であり、デコーダーの隠れ状態の初期値とする。

行列Ｔ１の各行列値ごとに乱数を付与すると、その行列（内部状態）の持つ意味表現が崩れてしまう可能性がある。図４に示す一例のように、各行列値に同じ乱数値を入れたものを加算することで、内部状態の意味表現の状態をある程度崩さずに、同じ方向にずらすことができる。

図５は、変更部１３による内部状態への乱数の付加の別の一例を示す図である。図５の行列Ｔ１は、エンコーダーの最終隠れ状態を示す。変更部１３は、行列Ｔ１が入力されると、設定部１２によって設定された数値範囲に基づき、乱数Ｓ１を生成する。次に、変更部１３は、行列Ｔ１に対して乱数Ｓ１を乗算し、行列Ｔ４を得る。得られた行列Ｔ４が、変更部１３によって変更された内部状態であり、デコーダーの隠れ状態の初期値とする。すなわち、変更部１３は、エンコーダーの隠れ状態自体を増減させている。

図６は、内部状態を変更するプログラム例を示す図である。図６に示すプログラム例において、「ｔ」は原文の最終単語を入れる時刻を示し、「ｘ」は単語の単語ＩＤを示す。図６に示すプログラム例は、ＲＮＮ（Recurrent Neural Network）でも利用可能である。ＬＳＴＭのレイヤを積んでいる双方向ＬＳＴＭ（Bi-Directional LSTM）では、片方だけ乱数を付加するなど、バリエーションのある乱数付加も可能である。

続いて、図７に示すフローチャートを用いて、本実施形態に係る内部状態変更装置１で実行される内部状態変更処理について説明する。

まず、翻訳部１１により、格納部１０によって格納された翻訳モデルを用いて原文が翻訳される（ステップＳ１）。次に、設定部１２により、Ｓ１における翻訳結果に基づいて数値範囲が設定される（ステップＳ２）。次に、変更部１３により、Ｓ２にて設定された数値範囲に含まれる数値に基づいて内部状態が変更され（ステップＳ３）、変更された内部状態を備える翻訳モデルが格納部１０によって格納される。次に、内部状態変更装置１（又は変更部１３）により、所定の条件を満たしているか否かが判定される（ステップＳ４）。所定の条件とは、例えば、Ｓ１～Ｓ４の処理のループ回数が所定の回数に達したか否かである。また例えば、所定の条件とは、Ｓ３にて変更された内部状態を備える翻訳モデルを用いた翻訳による翻訳文の翻訳品質が所定の品質を満たしているか否かである。Ｓ４にて所定の条件を満たす場合（Ｓ４：ＹＥＳ）、翻訳部１１により、Ｓ３にて変更された内部状態を備える翻訳モデルを用いて原文が翻訳され、翻訳された翻訳文が出力される（ステップＳ５）。一方、Ｓ４にて所定の条件を満たさない場合（Ｓ４：ＮＯ）、Ｓ１に戻る。なお、Ｓ１に戻った場合のＳ１における処理では、Ｓ３にて変更された内部状態を備える翻訳モデルを用いて原文が翻訳されてもよい。

次に、本実施形態のように構成された内部状態変更装置１の作用効果について説明する。

本実施形態の内部状態変更装置１によれば、変更部１３により内部状態が変更される。これにより、内部状態が変更された翻訳モデルを容易に複数生成することができる。生成された複数の翻訳モデルそれぞれに対して第１言語の原文を入力すれば、当該第１言語の原文に対応する複数の第２言語の翻訳文を生成することができる。すなわち、第１言語の原文に対応する複数の第２言語の翻訳文を生成することができる翻訳モデル環境を容易に構築することができる。

また、本実施形態の内部状態変更装置１によれば、変更部１３により乱数に基づいて内部状態が変更される。これにより、比較的単純な構成で容易に内部状態を変更することができる。

また、本実施形態の内部状態変更装置１によれば、設定部１２により数値範囲が設定され、変更部１３により、設定部１２によって設定された数値範囲に含まれる数値に基づいて内部状態が変更される。これにより、内部状態の変更の度合いを数値範囲で柔軟かつ適切に調整することができる。

また、本実施形態の内部状態変更装置１によれば、設定部１２により、翻訳モデルを用いた翻訳の翻訳結果に基づいて数値範囲が設定される。これにより、内部状態の変更の度合いを翻訳結果に基づいて適切に調整することができる。

また、本実施形態の内部状態変更装置１によれば、翻訳結果は、翻訳モデルを用いて翻訳された翻訳文の文の長さであってもよい。これにより、内部状態の変更の度合いを翻訳文の長さに基づいて調整することができる。一般的に、翻訳文の長さが長いほど、翻訳精度が悪い可能性がある。すなわち、内部状態の変更の度合いを翻訳精度に基づいて適切に調整することができる。

また、本実施形態の内部状態変更装置１によれば、翻訳結果は、翻訳モデルを用いて翻訳された翻訳文の品質である翻訳品質であってもよい。これにより、内部状態の変更の度合いを翻訳品質に基づいて適切に調整することができる。

また、本実施形態の内部状態変更装置１によれば、設定部１２により、翻訳品質が所定の品質よりも高い場合は数値範囲が広められ、又は、翻訳品質が所定の品質よりも低い場合は数値範囲が狭められる。これにより、内部状態の変更の度合いを翻訳品質の高低に応じて適切に調整することができる。

また、本実施形態の内部状態変更装置１によれば、設定部１２により、翻訳モデルを用いて原文を翻訳した翻訳文と、当該原文に対応する第２言語の正解データとの比較に基づいて数値範囲が設定される。これにより、内部状態の変更の度合いを翻訳文と正解データとの比較に応じて適切に調整することができる。

また、本実施形態の内部状態変更装置１によれば、設定部１２が用いる翻訳モデルは、変更部１３によって変更された内部状態を備える翻訳モデルであってもよい。これにより、変更部１３によって変更された内部状態に基づいて数値範囲を設定し、設定された数値範囲に基づいて内部状態を変更することができる。すなわち、内部状態を以前の状態に基づいて繰り返し変更することができるため、内部状態をより適切に変更することができる。

また、本実施形態の内部状態変更装置１によれば、翻訳部１１により、設定部１２によって変更された内部状態を備える翻訳モデルを用いて原文を翻訳した翻訳文が出力される。これにより、原文と出力された翻訳文との対訳文を容易に生成することができる。

本実施形態の内部状態変更装置１は、英語などの第１言語の文から、日本語などの第２言語の文に変換し、かつ第１言語の文を人間に第２言語に変換させ、その翻訳精度を採点する作文問題作成及び作文採点システムに関する。本実施形態の内部状態変更装置１は、１対多の対訳文作成システムでもある。

従来、例えば、日本語を学ぶ学生や労働者などのユーザーに英語で書かれた文書を日本語に翻訳させ、その解答の精度を採点する作文採点技術がある。このような作文採点技術では、あらかじめ内部で模範解答を生成し、その模範解答と人間の翻訳結果を比較することで採点を実現する場合が多い。このような場合において、自由に作成された文章は、様々な表現や単語、言い回しを含んでいることが多く、文意が同じであっても、採点システムが生成する模範解答・並びに事前用意した参照訳と言い回しなどが大きく異なることがあるため、文意が正しく作成され、適切な文法を用いて記述されているにも関わらず、システムの採点結果が大きく異なる場合がある。このため、採点システムがユーザーの入力する自由文に適切に採点できるようにする必要がある。

このように、上記先行技術の場合は、機械翻訳での学習が１対１の対訳文から学習されていること、様々な言い回しを用意して学習を行っていないことから、採点精度が下がる。すなわち、一つの第１言語の文に対し、様々な第２言語の文を用意することで採点が解決できる可能性がある。しかしながら、手動でさまざまな言い回しの異なる高品質な対訳文を作成することは大きなコストが発生し、大量に作成することが困難であるという問題がある。本実施形態の内部状態変更装置１は、このような課題を解決するためになされたもので、模範解答として用意した対訳文を活用し、ユーザー入力する第２言語側の文を大量に作成することで、高品質な１対多の対訳を生成し、採点システムの再学習に活用し、様々なユーザー入力文に柔軟な採点が行うことができる作文採点システムを実現することを目的とする。

本実施形態の内部状態変更装置１は、変形例として、以下のような構成を備えてもよい。すなわち、第１言語で作成された入力文を第２言語に変換する機械翻訳手段と、前記機械翻訳手段を用いた翻訳結果が適切か、加えて翻訳精度が高いかどうか判定する翻訳精度確認手段を備え、前記翻訳結果から乱数生成範囲を決定する手段を備え、前記翻訳精度が低い場合に、乱数生成範囲を調整する手段を備え、前記翻訳精度が高い場合に、第２言語の翻訳文と第１言語の原文との参照訳を比較し、乱数生成範囲を調整する手段を備え、決定された乱数生成範囲を満たす乱数を生成する手段を備え、生成された乱数を前記原文が入力された前記機械翻訳手段の内部状態に付加する能力を備え、複数の乱数を与えることで、複数の言い回しの異なる高品質な第２言語の翻訳文を生成し、１対多の対訳文を出力することを特徴とする。なお、前記機械翻訳手段は、ＲＮＮや双方向ＲＮＮまたはその他ニューラルネットワークで構成された生成器であってもよい。また、前記機械翻訳手段がエンコーダ・デコーダモデルで構成されてもよい。また、前記乱数付与が、エンコーダの最終隠れ状態へ付与するものであってもよい。

また、本実施形態の内部状態変更装置１は、変形例として、以下のような構成を備えてもよい。すなわち、第１言語で作成された文を第２言語の文へと翻訳する機械翻訳部を備えた機械翻訳装置において、前記第１言語で作成された文を受け付けるデータ受付手段と、受け付けた文字列を形態素段位に分割する分割手段と、前記第１言語から第２言語に翻訳された文の精度を判定する翻訳精度判定手段と、第２言語に翻訳された文から乱数生成範囲を決定する乱数範囲決定手段と、第２言語に翻訳された文と第１言語の第２言語へと訳された参照訳を比較判定する比較判定手段と、前記翻訳精度からと前記比較判定結果から乱数範囲を調整する乱数調整手段と、調整範囲から乱数を生成する乱数生成手段と、生成された乱数を、第１言語の文を入力した生成器の内部状態に対して付与する、乱数付与手段を具備することを特徴とする。

以上説明したように、本実施形態の内部状態変更装置１によれば、第１言語の文を複数の乱数ごとに機械翻訳した際に、第２言語に翻訳された文を複数生成し、様々な言い回しの文を作成することに加え、乱数を付与せず翻訳した第２言語の文の結果の精度と翻訳した第２言語の文と、第１言語の参照訳から、ノイズ生成範囲を調整することによって、高品質で言い回しの異なる第２言語の文を即座に作成することができ、言い回しの異なる第２言語の参照訳を複数用いて作文採点システムを学習させることで、ユーザーの入力文に対し、より柔軟な採点を行うことができる。

日本語をはじめとする、作文採点システムにおいて、ユーザーの様々な入力を柔軟に採点するには、ユーザーの入力する言語側が複数の言い回しで記述された１対多の対訳文を用い、採点システムを学習することが考えられる。しかし、複数の言い回しを用いた対訳文の作成には人手コストがかかる。本実施形態の内部状態変更装置１では、学習済み機械翻訳モデルを活用し、高品質で様々な言い回しで記述された翻訳先言語の文を生成することで、より柔軟な採点ができる作文採点システムを可能にする。

機械学習を用いた作文の自動採点システムにおいて、ユーザーが解答と意味が同じであるが、言い回しが異なる入力を行った場合、採点システムが学習時に似たような言い回しを学習していなければ、採点スコアが大きく低下し、適切な採点ができない問題がある。この問題を解決するためには、ユーザーの入力する言語側が複数の言い回しで記述された１対多の対訳文を用いて学習をすることが考えられる。しかし、複数の言い回しで記述された対訳文の作成には人手コストがかかる。

本実施形態の内部状態変更装置１では、模範解答として用意された対訳文を活用し、第１言語の文が圧縮された翻訳モデルの内部状態に対し、翻訳言語側の参照訳の情報と翻訳文の情報から算出された適切なノイズを生成回数分だけ付与し、翻訳文を生成することで、高品質な１対多の対訳を生成し、生成された対訳を採点システムの再学習に活用する。

日作文の自動採点システムにおいて、ユーザーが入力する文が多様なため、意味が似ていても、言いまわしが異なる際に、採点スコアが下がる傾向がある。このことから、翻訳モデルを用いた添削システムでは、「最適な翻訳」ができる翻訳モデルを用いるのではなく、「多彩な翻訳」ができる翻訳モデルの構築が必要である。本実施形態の内部状態変更装置１により、ユーザー入力文に対し、より柔軟な（精度の下がりにくい）採点を行うことができる。本実施形態の内部状態変更装置１は、学習済みの翻訳モデルを活用した、「品質の高い１対多の対訳データ」の生成を行う装置である。本実施形態の内部状態変更装置１によれば、採点モデルの再学習に作成した１対多の対訳データを用いることで、翻訳精度の向上が見込める。

本実施形態の内部状態変更装置１では、学習済みの翻訳モデルのエンコーダに対し、ソース文を入力した最終隠れ状態（内部状態，ｈ）を基準とする。本実施形態の内部状態変更装置１では、平均と偏差から、変化量が所定の標準偏差内となる乱数を生成し、内部状態に付加する。

本実施形態の内部状態変更装置１では、内部状態の値を増減することで、当該内部状態を備える翻訳モデルのデコーダから生成される文が変わったり、原文が持っている文の意味が少し変わったりする。

なお、上記実施形態の説明に用いたブロック図は、機能単位のブロックを示している。これらの機能ブロック（構成部）は、ハードウェア及びソフトウェアの少なくとも一方の任意の組み合わせによって実現される。また、各機能ブロックの実現方法は特に限定されない。すなわち、各機能ブロックは、物理的又は論理的に結合した１つの装置を用いて実現されてもよいし、物理的又は論理的に分離した２つ以上の装置を直接的又は間接的に（例えば、有線、無線などを用いて）接続し、これら複数の装置を用いて実現されてもよい。機能ブロックは、上記１つの装置又は上記複数の装置にソフトウェアを組み合わせて実現されてもよい。

機能には、判断、決定、判定、計算、算出、処理、導出、調査、探索、確認、受信、送信、出力、アクセス、解決、選択、選定、確立、比較、想定、期待、見做し、報知（broadcasting）、通知（notifying）、通信（communicating）、転送（forwarding）、構成（configuring）、再構成（reconfiguring）、割り当て（allocating、mapping）、割り振り（assigning）などがあるが、これらに限られない。たとえば、送信を機能させる機能ブロック（構成部）は、送信部（transmitting unit）や送信機（transmitter）と呼称される。いずれも、上述したとおり、実現方法は特に限定されない。

例えば、本開示の一実施の形態における内部状態変更装置１などは、本開示の内部状態変更方法の処理を行うコンピュータとして機能してもよい。図８は、本開示の一実施の形態に係る内部状態変更装置１のハードウェア構成の一例を示す図である。上述の内部状態変更装置１は、物理的には、プロセッサ１００１、メモリ１００２、ストレージ１００３、通信装置１００４、入力装置１００５、出力装置１００６、バス１００７などを含むコンピュータ装置として構成されてもよい。

なお、以下の説明では、「装置」という文言は、回路、デバイス、ユニットなどに読み替えることができる。内部状態変更装置１のハードウェア構成は、図に示した各装置を１つ又は複数含むように構成されてもよいし、一部の装置を含まずに構成されてもよい。

内部状態変更装置１における各機能は、プロセッサ１００１、メモリ１００２などのハードウェア上に所定のソフトウェア（プログラム）を読み込ませることによって、プロセッサ１００１が演算を行い、通信装置１００４による通信を制御したり、メモリ１００２及びストレージ１００３におけるデータの読み出し及び書き込みの少なくとも一方を制御したりすることによって実現される。

プロセッサ１００１は、例えば、オペレーティングシステムを動作させてコンピュータ全体を制御する。プロセッサ１００１は、周辺装置とのインターフェース、制御装置、演算装置、レジスタなどを含む中央処理装置（ＣＰＵ：Central Processing Unit）によって構成されてもよい。例えば、上述の翻訳部１１、設定部１２及び変更部１３などは、プロセッサ１００１によって実現されてもよい。

また、プロセッサ１００１は、プログラム（プログラムコード）、ソフトウェアモジュール、データなどを、ストレージ１００３及び通信装置１００４の少なくとも一方からメモリ１００２に読み出し、これらに従って各種の処理を実行する。プログラムとしては、上述の実施の形態において説明した動作の少なくとも一部をコンピュータに実行させるプログラムが用いられる。例えば、格納部１０、翻訳部１１、設定部１２及び変更部１３は、メモリ１００２に格納され、プロセッサ１００１において動作する制御プログラムによって実現されてもよく、他の機能ブロックについても同様に実現されてもよい。上述の各種処理は、１つのプロセッサ１００１によって実行される旨を説明してきたが、２以上のプロセッサ１００１により同時又は逐次に実行されてもよい。プロセッサ１００１は、１以上のチップによって実装されてもよい。なお、プログラムは、電気通信回線を介してネットワークから送信されても良い。

メモリ１００２は、コンピュータ読み取り可能な記録媒体であり、例えば、ＲＯＭ（Read Only Memory）、ＥＰＲＯＭ（Erasable Programmable ＲＯＭ）、ＥＥＰＲＯＭ（Electrically Erasable Programmable ROM）、ＲＡＭ（Random Access Memory）などの少なくとも１つによって構成されてもよい。メモリ１００２は、レジスタ、キャッシュ、メインメモリ（主記憶装置）などと呼ばれてもよい。メモリ１００２は、本開示の一実施の形態に係る無線通信方法を実施するために実行可能なプログラム（プログラムコード）、ソフトウェアモジュールなどを保存することができる。

ストレージ１００３は、コンピュータ読み取り可能な記録媒体であり、例えば、ＣＤ－ＲＯＭ（Compact Disc ROM）などの光ディスク、ハードディスクドライブ、フレキシブルディスク、光磁気ディスク（例えば、コンパクトディスク、デジタル多用途ディスク、Ｂｌｕ－ｒａｙ（登録商標）ディスク）、スマートカード、フラッシュメモリ（例えば、カード、スティック、キードライブ）、フロッピー（登録商標）ディスク、磁気ストリップなどの少なくとも１つによって構成されてもよい。ストレージ１００３は、補助記憶装置と呼ばれてもよい。上述の記憶媒体は、例えば、メモリ１００２及びストレージ１００３の少なくとも一方を含むデータベース、サーバその他の適切な媒体であってもよい。

通信装置１００４は、有線ネットワーク及び無線ネットワークの少なくとも一方を介してコンピュータ間の通信を行うためのハードウェア（送受信デバイス）であり、例えばネットワークデバイス、ネットワークコントローラ、ネットワークカード、通信モジュールなどともいう。通信装置１００４は、例えば周波数分割複信（ＦＤＤ：Frequency Division Duplex）及び時分割複信（ＴＤＤ：Time Division Duplex）の少なくとも一方を実現するために、高周波スイッチ、デュプレクサ、フィルタ、周波数シンセサイザなどを含んで構成されてもよい。例えば、上述の翻訳部１１、設定部１２及び変更部１３などは、通信装置１００４によって実現されてもよい。

入力装置１００５は、外部からの入力を受け付ける入力デバイス（例えば、キーボード、マウス、マイクロフォン、スイッチ、ボタン、センサなど）である。出力装置１００６は、外部への出力を実施する出力デバイス（例えば、ディスプレイ、スピーカー、ＬＥＤランプなど）である。なお、入力装置１００５及び出力装置１００６は、一体となった構成（例えば、タッチパネル）であってもよい。

また、プロセッサ１００１、メモリ１００２などの各装置は、情報を通信するためのバス１００７によって接続される。バス１００７は、単一のバスを用いて構成されてもよいし、装置間ごとに異なるバスを用いて構成されてもよい。

また、内部状態変更装置１は、マイクロプロセッサ、デジタル信号プロセッサ（ＤＳＰ：Digital Signal Processor）、ＡＳＩＣ（Application Specific Integrated Circuit）、ＰＬＤ（Programmable Logic Device）、ＦＰＧＡ（Field Programmable Gate Array）などのハードウェアを含んで構成されてもよく、当該ハードウェアにより、各機能ブロックの一部又は全てが実現されてもよい。例えば、プロセッサ１００１は、これらのハードウェアの少なくとも１つを用いて実装されてもよい。

情報の通知は、本開示において説明した態様／実施形態に限られず、他の方法を用いて行われてもよい。

本開示において説明した各態様／実施形態の処理手順、シーケンス、フローチャートなどは、矛盾の無い限り、順序を入れ替えてもよい。例えば、本開示において説明した方法については、例示的な順序を用いて様々なステップの要素を提示しており、提示した特定の順序に限定されない。

入出力された情報等は特定の場所（例えば、メモリ）に保存されてもよいし、管理テーブルを用いて管理してもよい。入出力される情報等は、上書き、更新、又は追記され得る。出力された情報等は削除されてもよい。入力された情報等は他の装置へ送信されてもよい。

判定は、１ビットで表される値（０か１か）によって行われてもよいし、真偽値（Boolean：true又はfalse）によって行われてもよいし、数値の比較（例えば、所定の値との比較）によって行われてもよい。

本開示において説明した各態様／実施形態は単独で用いてもよいし、組み合わせて用いてもよいし、実行に伴って切り替えて用いてもよい。また、所定の情報の通知（例えば、「Ｘであること」の通知）は、明示的に行うものに限られず、暗黙的（例えば、当該所定の情報の通知を行わない）ことによって行われてもよい。

以上、本開示について詳細に説明したが、当業者にとっては、本開示が本開示中に説明した実施形態に限定されるものではないということは明らかである。本開示は、請求の範囲の記載により定まる本開示の趣旨及び範囲を逸脱することなく修正及び変更態様として実施することができる。したがって、本開示の記載は、例示説明を目的とするものであり、本開示に対して何ら制限的な意味を有するものではない。

ソフトウェアは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語と呼ばれるか、他の名称で呼ばれるかを問わず、命令、命令セット、コード、コードセグメント、プログラムコード、プログラム、サブプログラム、ソフトウェアモジュール、アプリケーション、ソフトウェアアプリケーション、ソフトウェアパッケージ、ルーチン、サブルーチン、オブジェクト、実行可能ファイル、実行スレッド、手順、機能などを意味するよう広く解釈されるべきである。

また、ソフトウェア、命令、情報などは、伝送媒体を介して送受信されてもよい。例えば、ソフトウェアが、有線技術（同軸ケーブル、光ファイバケーブル、ツイストペア、デジタル加入者回線（ＤＳＬ：Digital Subscriber Line）など）及び無線技術（赤外線、マイクロ波など）の少なくとも一方を使用してウェブサイト、サーバ、又は他のリモートソースから送信される場合、これらの有線技術及び無線技術の少なくとも一方は、伝送媒体の定義内に含まれる。

本開示において説明した情報、信号などは、様々な異なる技術のいずれかを使用して表されてもよい。例えば、上記の説明全体に渡って言及され得るデータ、命令、コマンド、情報、信号、ビット、シンボル、チップなどは、電圧、電流、電磁波、磁界若しくは磁性粒子、光場若しくは光子、又はこれらの任意の組み合わせによって表されてもよい。

なお、本開示において説明した用語及び本開示の理解に必要な用語については、同一の又は類似する意味を有する用語と置き換えてもよい。

本開示において使用する「システム」及び「ネットワーク」という用語は、互換的に使用される。

また、本開示において説明した情報、パラメータなどは、絶対値を用いて表されてもよいし、所定の値からの相対値を用いて表されてもよいし、対応する別の情報を用いて表されてもよい。例えば、無線リソースはインデックスによって指示されるものであってもよい。

上述したパラメータに使用する名称はいかなる点においても限定的な名称ではない。さらに、これらのパラメータを使用する数式等は、本開示で明示的に開示したものと異なる場合もある。

本開示で使用する「判断（determining）」、「決定（determining）」という用語は、多種多様な動作を包含する場合がある。「判断」、「決定」は、例えば、判定（judging）、計算（calculating）、算出（computing）、処理（processing）、導出（deriving）、調査（investigating）、探索（looking up、search、inquiry）（例えば、テーブル、データベース又は別のデータ構造での探索）、確認（ascertaining）した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、受信（receiving）（例えば、情報を受信すること）、送信（transmitting）（例えば、情報を送信すること）、入力（input）、出力（output）、アクセス（accessing）（例えば、メモリ中のデータにアクセスすること）した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、解決（resolving）、選択（selecting）、選定（choosing）、確立（establishing）、比較（comparing）などした事を「判断」「決定」したとみなす事を含み得る。つまり、「判断」「決定」は、何らかの動作を「判断」「決定」したとみなす事を含み得る。また、「判断（決定）」は、「想定する（assuming）」、「期待する（expecting）」、「みなす（considering）」などで読み替えられてもよい。

「接続された（connected）」、「結合された（coupled）」という用語、又はこれらのあらゆる変形は、２又はそれ以上の要素間の直接的又は間接的なあらゆる接続又は結合を意味し、互いに「接続」又は「結合」された２つの要素間に１又はそれ以上の中間要素が存在することを含むことができる。要素間の結合又は接続は、物理的なものであっても、論理的なものであっても、或いはこれらの組み合わせであってもよい。例えば、「接続」は「アクセス」で読み替えられてもよい。本開示で使用する場合、２つの要素は、１又はそれ以上の電線、ケーブル及びプリント電気接続の少なくとも一つを用いて、並びにいくつかの非限定的かつ非包括的な例として、無線周波数領域、マイクロ波領域及び光（可視及び不可視の両方）領域の波長を有する電磁エネルギーなどを用いて、互いに「接続」又は「結合」されると考えることができる。

本開示において使用する「に基づいて」という記載は、別段に明記されていない限り、「のみに基づいて」を意味しない。言い換えれば、「に基づいて」という記載は、「のみに基づいて」と「に少なくとも基づいて」の両方を意味する。

本開示において使用する「第１の」、「第２の」などの呼称を使用した要素へのいかなる参照も、それらの要素の量又は順序を全般的に限定しない。これらの呼称は、２つ以上の要素間を区別する便利な方法として本開示において使用され得る。したがって、第１及び第２の要素への参照は、２つの要素のみが採用され得ること、又は何らかの形で第１の要素が第２の要素に先行しなければならないことを意味しない。

上記の各装置の構成における「手段」を、「部」、「回路」、「デバイス」等に置き換えてもよい。

本開示において、「含む（include）」、「含んでいる（including）」及びそれらの変形が使用されている場合、これらの用語は、用語「備える（comprising）」と同様に、包括的であることが意図される。さらに、本開示において使用されている用語「又は（or）」は、排他的論理和ではないことが意図される。

本開示において、例えば、英語でのa、an及びtheのように、翻訳により冠詞が追加された場合、本開示は、これらの冠詞の後に続く名詞が複数形であることを含んでもよい。

本開示において、「ＡとＢが異なる」という用語は、「ＡとＢが互いに異なる」ことを意味してもよい。なお、当該用語は、「ＡとＢがそれぞれＣと異なる」ことを意味してもよい。「離れる」、「結合される」などの用語も、「異なる」と同様に解釈されてもよい。

１…内部状態変更装置、１０…格納部、１１…翻訳部、１２…設定部、１３…変更部。

Claims

第１言語の文である原文を第２言語の文である翻訳文に翻訳するための翻訳モデルであってエンコーダー・デコーダーモデルで構成される学習済みモデルである翻訳モデルにおけるエンコーダーの最終隠れ状態である内部状態を乱数に基づいて変更する変更部と、
数値範囲を設定する設定部と、
を備え、
前記変更部は、前記設定部によって設定された数値範囲に含まれる数値に基づいて内部状態を複数とおりに変更する、
内部状態変更装置と、
前記内部状態変更装置により生成された複数とおりの翻訳モデルそれぞれに対して所望の原文を入力し、前記所望の原文に対応する複数とおりの第２言語の翻訳文を生成する装置と、
を有する翻訳装置。
前記設定部は、翻訳モデルを用いて翻訳された翻訳文の文の長さが所定の長さよりも短いほど数値範囲を広める、又は、当該翻訳文の文の長さが所定の長さよりも長いほど数値範囲を狭める、
請求項１に記載の翻訳装置。
前記設定部は、翻訳モデルを用いて翻訳された翻訳文の品質である翻訳品質が所定の品質よりも高い場合は数値範囲を広める、又は、翻訳品質が所定の品質よりも低い場合は数値範囲を狭める、
請求項１に記載の翻訳装置。
前記設定部は、翻訳モデルを用いて原文を翻訳した翻訳文と、当該原文に対応する第２言語の正解データとの比較に基づいて数値範囲を設定する、
請求項１～３の何れか一項に記載の翻訳装置。
前記設定部が用いる翻訳モデルは、前記変更部によって変更された内部状態を備える翻訳モデルである、
請求項２～４の何れか一項に記載の翻訳装置。
前記内部状態変更装置は、前記変更部によって変更された内部状態を備える翻訳モデルを用いて原文を翻訳した翻訳文を出力する翻訳部をさらに備える、
請求項１～５の何れか一項に記載の翻訳装置。