JP7429352B2

JP7429352B2 - 系列変換装置、機械学習装置、系列変換方法、機械学習方法、およびプログラム

Info

Publication number: JP7429352B2
Application number: JP2022501497A
Authority: JP
Inventors: 愛庵; 亮増村
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2020-02-20
Filing date: 2020-02-20
Publication date: 2024-02-08
Anticipated expiration: 2040-02-20
Also published as: US20230072015A1; WO2021166145A1; JPWO2021166145A1

Description

本発明は或るテキスト系列を他のテキスト系列に変換する系列変換技術に関する。

入力文と意味的に等価な文を生成する言い換え生成の技術によって、テキストの意味を保持したまま、意味以外の情報を制御することができる。言い換え生成技術の例として、音声認識結果のフィラーや言い淀みを含む話し言葉テキストを、それらを削除した可読性の高い書き言葉テキストへ変換する、話し言葉・書き言葉変換がある。このような言い換え変換は、同一言語内の翻訳問題（以下、同一言語内翻訳）として考えられており、機械翻訳などと同じ、テキストからのテキスト生成タスクとして位置づけられている。通常の機械翻訳では、入力が原文のテキスト、出力が翻訳されたテキストとなるEncoder-Decoder Networksを用いたニューラル系列変換モデルが高い精度を実現しており、同一言語内翻訳においてもニューラル系列変換モデルを用いることが主流となっている。

ここでは、従来技術であるattention-based encoder-decoder networkの構成について述べる（例えば、非特許文献１等参照）。同一言語内翻訳として、話し言葉・書き言葉変換を例にとると、入力となる話し言葉テキストの単語系列をX=(x₁,...,x_N)、出力となる書き言葉テキストの単語系列をY=(y₁,...,y_N)とした場合、事後確率P(Y|X, Θ)を従来技術でモデル化する。ここで、Nは話し言葉テキストに含まれた単語数を表す正整数であり、x₁,...,x_Nは時系列で並んだ単語x_i (i=1,...,N)の系列であり、y₁,...,y_Nは時系列で並んだ単語y_i(i=1,...,N)の系列である。Θはモデルパラメータを表す。従来技術でモデル化されたP(Y|X, Θ)は以下の式(1)で表される。

詳細なモデル化には、例えば、非特許文献1の方法を用いることができる。

Thang Luong, Hieu Pham, and Christopher D. Manning, "Effective approaches to attention-based neural machine translation," In Proc. EMNLP, pp. 1412-1421, 2015.

上述の従来技術の枠組みは、単一テキストの同一言語内翻訳をモデル化したものであり、連続した複数テキストから構成される文章を処理対象とする場合、文章中のテキストをそれぞれ独立に扱うため、テキスト間の関係を全く考慮することができない。すなわち、これまでのテキストに対してどのような言い換えを行ったかという情報を、現在のテキストに対する言い換えを行う場合に考慮できない。そのため、文脈に即した高精度な同一言語内翻訳を行うことが困難であるという問題が存在する。ここで、これらのテキストは時系列に並んでいるテキスト系列であることとする。このような問題は、話し言葉テキストの系列を書き言葉テキストの系列へ変換する場合のみならず、或るテキスト系列を他のテキスト系列に変換する場合に共通するものである。

本発明はこのような点に鑑みてなされたものであり、複数テキストの系列から構成される文章を処理対象とした系列変換において、文脈に即した高精度な系列変換を行うことを目的とする。

ｔ番目の第１テキストの単語列Ｘ^ｔ、１番目からｔ－１番目までの第１テキストの単語列の系列Ｘ^１，…，Ｘ^ｔ－１の変換結果である１番目からｔ－１番目までの第２テキストの単語列の系列Ｙ＾^１，…，Ｙ＾^ｔ－１を入力とし、モデルパラメータΘに基づきｔ番目の第１テキストの単語列Ｘ^ｔの変換結果であるｔ番目の第２テキストの単語列Ｙ^ｔに対応する情報を推定する。ただし、ｔは２以上の整数である。

以上のように、第２テキストの単語列の系列Ｙ＾^１，…，Ｙ＾^ｔ－１を考慮してｔ番目の第２テキストの単語列Ｙ^ｔの事後確率を得るため、これまでのテキストに対してどのような言い換えを行ったかという情報を考慮して、現在のテキストに対する言い換えを行うことができ、文脈に即した高精度な系列変換を行うことが可能になる。

図１Ａは実施形態の系列変換装置の機能構成を例示したブロック図である。図１Ｂは実施形態の機械学習装置の機能構成を例示したブロック図である。図２は実施形態の系列変換処理を例示するためのフロー図である。図３は実施形態の機械学習処理を例示するためのフロー図である。図４は第１実施形態の推定部の機能構成を例示したブロック図である。図５は第１実施形態のテキスト生成部の処理を説明するためのフロー図である。図６は第２実施形態の推定部の機能構成を例示したブロック図である。図７は第３実施形態の推定部の機能構成を例示したブロック図である。図８は、実施形態の手法を用い、話し言葉テキストから生成した書き言葉テキストを例示した図である。図９は、実験結果を例示した図である。図１０は、系列変換処理の流れを例示した図である。図１１は、実施形態のハードウェア構成を例示した図である。

以下、図面を参照して本発明の実施形態を説明する。
［原理］
まず原理を説明する。実施形態では、従来のような単一テキストではなく、テキスト系列を扱うことのできる系列変換（例えば、同一言語内翻訳）のニューラル系列変換モデルを導入する。このモデルでは、文脈を考慮した系列変換のニューラル変換を実現できる。すなわち、テキスト系列中のあるテキストを言い換える際に、テキスト系列の最初から対象テキストの１つ前のテキストまでの情報を文脈として利用可能となる。具体的なモデル化では、例えば、式(1)を以下の式(2)のように変更する。

ここで、X¹,...,X^Tが第１テキストの単語列X^j=(x₁ ^j,...,x_M(j) ^j) (j=1,...,T)の系列であり、x_i ^j (i=1,...,M(j))が第１テキストの単語列X^jに含まれる単語であり、Y¹,...,Y^Tが第２テキストの単語列Y^j=(y₁ ^j,...,y_N(j) ^j) (j=1,...,T)の系列であり、y_i ^j (i=1,...,N(j))が第２テキストの単語列Y^jに含まれる単語であり、Y^^j(j=1,...,T)が推定された単語列Y^jである。なお、第１テキストの単位（１発話）は、例えば１０分間の音声を無音が０．５秒存在するごとに区切る（２００発話となる）ことで作成されたものを想定する。ただし、これは本発明を限定するものではない。また「Y^^j」の上付き添え字「^」は本来「Ｙ」の真上に記載すべきであるが（式(2)参照）、記載表記の制約上、「Ｙ」の右上に記載する場合がある。T, N(j), M(j)が正整数であり、t∈{1,...,T}であり、Θがモデルパラメータである。例えば、x₁ ^j,...,x_M(j) ^j，y₁ ^j,...,y_N(j) ^jは時系列であり、X¹,...,X^TおよびY¹,...,Y^Tもまた時系列である。第１テキストの例は話し言葉テキストであり、第２テキストの例は書き言葉テキストである。式(2)の式(1)との違いは、生成済みの過去の第２テキストの単語列の系列Y^¹,...,Y^^t-1を用いて現在の第２テキストの単語列Y^tを推定する点にある。すなわち、ｔ番目の第１テキストの単語列Ｘ^ｔ、１番目からｔ－１番目までの第１テキストの単語列の系列Ｘ^１，…，Ｘ^ｔ－１の変換結果である１番目からｔ－１番目までの第２テキストの単語列の系列Ｙ＾^１，…，Ｙ＾^ｔ－１を入力とし、モデルパラメータΘに基づきｔ番目の第１テキストの単語列Ｘ^ｔの変換結果であるｔ番目の第２テキストの単語列Ｙ^ｔに対応する情報を推定する。例えば、ｔ番目の第１テキストの単語列Ｘ^ｔ、１番目からｔ－１番目までの第１テキストの単語列の系列Ｘ^１，…，Ｘ^ｔ－１から書き換えられた１番目からｔ－１番目までの第２テキストの単語列の系列Ｙ＾^１，…，Ｙ＾^ｔ－１、およびモデルパラメータΘを入力とし、第１テキストの単語列Ｘ^ｔ、第２テキストの単語列の系列Ｙ＾^１，…，Ｙ＾^ｔ－１、およびモデルパラメータΘが与えられた場合における、第１テキストの単語列Ｘ^ｔから書き換えられるｔ番目の第２テキストの単語列Ｙ^ｔの事後確率Ｐ（Ｙ^ｔ｜Ｙ＾^１，…，Ｙ＾^ｔ－１，Ｘ^ｔ，Θ）に対応する情報を得る。ただし、ｔは２以上の整数である。詳細は後述する。

以上により、連続した複数テキストから構成される文章中の各テキストを言い換える場合において、テキスト間の関係を考慮した系列変換が可能になる。すなわち、これまでのテキストに対してどのような書き換えを行ったかという情報を、現在のテキストの言い換えを行う場合に考慮できる。話し言葉・書き言葉変換を具体例とすると、講演、電話、会議等の複数の連続した発話により構成される音声について、音声認識結果である話し言葉テキストを書き言葉テキストへ変換する場合、以前の変換情報を考慮しながら現在の話し言葉テキストを書き言葉テキストへ変換できる。

なお、これまでの入力テキストに対してどのような言い換えを行ったかという情報を、現在の入力テキストに対する言い換えを行う場合に考慮できないという課題は、テキスト系列中のすべてのテキストをまとめて長い1つのテキストとして扱うことで解決可能であるかもしれない。しかし現状のニューラル系列変換モデルはテキスト全体をベクトルに変換して扱う仕組みであるため、単語数や計算量等の制約から、長いテキストに対してうまく動作しない問題が存在する。また、ニューラル系列変換モデルではテキストが入力されるたびに逐次的に言い換え生成を行うことを想定しているため、そもそもすべてのテキストをあらかじめ用意することが困難である。本実施形態の方法には、これらの問題も存在せず、系列変換を行う場合に、過去の言い換え結果（例えば、書き言葉テキスト）の文脈を考慮したニューラル変換が実現できる。

以下、この実施形態について詳細を説明する。以下では、系列変換として、話し言葉テキストの系列を書き言葉テキストの系列へ変換する話し言葉・書き言葉変換を例に説明する。しかし、これは本発明を限定するものではない。

［構成］
図１Ａに例示するように、実施例１の系列変換装置１１は、制御部１、記憶部１１１，１１３、入力部１１２、推定部１１４、および出力部１１５を有する。系列変換装置１１は制御部１の制御の下で各処理を実行する。図１Ｂに例示するように、実施例１の機械学習装置１２は、制御部１２０、記憶部１２１，１２３，１２７、推定部１１４、出力部１２５、および学習部１２６を有する。機械学習装置１２は制御部１２０の制御の下で各処理を実行する。なお、既に説明した事項については、同じ参照番号を引用して説明を省略する場合がある。

［系列変換処理］
次に、実施例１の系列変換装置１１による系列変換処理である同一言語内翻訳処理について説明する。
入力：ｔ個の連続した発話の話し言葉テキスト（第１テキスト）の単語列の系列Ｘ^１，…，Ｘ^ｔ
モデルパラメータΘ
出力：ｔ個の連続した書き言葉テキスト（第２テキスト）の単語列の系列Ｙ＾^１，…，Ｙ＾^ｔ
本実施例の系列変換装置１１は、ｔ個の連続した発話の話し言葉テキストの単語列の系列Ｘ^１，…，Ｘ^ｔを入力として、モデルパラメータΘに従った確率計算により、ｔ個の連続した書き言葉テキストの単語列の系列Ｙ＾^１，…，Ｙ＾^ｔを得て出力する。ここでは、ニューラル変換の入力となるｔ個の連続した話し言葉テキストの単語列の系列をＸ^１，…，Ｘ^ｔとする。ここで、Ｘ^ｊはｊ番目の話し言葉テキストの単語列であり、X^j=(x₁ ^j,...,x_M(j) ^j) (j=1,...,T)として表される。出力となる書き言葉テキストの単語列の系列をＹ＾^１，…，Ｙ＾^ｔとする。ここで、Ｙ＾^ｊは推定されたｊ番目の書き言葉テキストの単語列であり、Y^j=(y₁ ^j,...,y_N(j) ^j) (j=1,...,T)として表される。ここで、英語であれば、例えばスペースで区切られた文字列の表現、日本語であれば、例えば形態素解析により自動分割された文字列の表現、または文字単位に区切った表現を単語列としてもよい。また、モデルパラメータΘは系列変換装置１１の推定部１１４が含む複数の部が持つパラメータの集合である。モデルパラメータΘは機械学習装置１２による機械学習によって得られる。用いるモデルに限定はなく、例えば、公知のニューラル系列変換モデルを用いることができる。具体的には、例えば先行技術として挙げた非特許文献１に記載されたモデルを用いることができる。ただし、同一言語内翻訳は、入出力のテキストで複数の単語が共有されるため、入力テキスト内の単語のコピーを可能としたPointer-Generator Networksを用いたほうが有効である。よって本実施例では、ベースとなるモデルにPointer-Generator Networks（参考文献１）を用いた場合を例示することとする。
参考文献１：Abigail See, Peter J Liu, and Christopher D Manning, “Get to the point: Summarization with pointer-generator networks,” in Proc. Annual Meeting of the Association for Computational Linguistic (ACL), 2017, pp.73-83.

次に、図１Ａおよび図２を用い、実施例１の同一言語内翻訳処理の流れを説明する。翻訳処理の前提として記憶部１１１に学習済みのモデルパラメータΘが格納されているものとする。モデルパラメータΘは、後述の機械学習によって得られるものである。

まず、制御部１がｔをｔ＝１に初期化する（ステップＳ１ａ）。

入力部１１２には、話し言葉テキストの単語列の系列Ｘ^１，…，Ｘ^ｔのｔ番目の話し言葉テキストの単語列Ｘ^ｔが入力される（ステップＳ１１２）。

ｔ番目の話し言葉テキストの単語列Ｘ^ｔは推定部１１４に入力される。推定部１１４には、さらに記憶部１１１から読み出された学習済みのモデルパラメータΘが入力される。さらに後述のように、ｔ≧２では、記憶部１１３には１番目からｔ－１番目までの話し言葉テキストの単語列の系列Ｘ^１，…，Ｘ^ｔ－１から書き換えられた１番目からｔ－１番目までの書き言葉テキストの単語列の系列Ｙ＾^１，…，Ｙ＾^ｔ－１が格納されている。これらの書き言葉テキストの単語列の系列Ｙ＾^１，…，Ｙ＾^ｔ－１も記憶部１１３から読み出され、推定部１１４に入力される。ｔ＝１では記憶部１１３には書き言葉テキストの単語列の系列が格納されておらず、推定部１１４には書き言葉テキストの単語列の系列は入力されない。推定部１１４は、ｔ番目の話し言葉テキストの単語列Ｘ^ｔと、１番目からｔ－１番目までの書き言葉テキストの単語列の系列Ｙ＾^１，…，Ｙ＾^ｔ－１と、モデルパラメータΘが入力された時に、モデルパラメータΘに従った確率計算により、ｔ番目の書き言葉テキストについての事後確率（事後確率分布）Ｐ（Ｙ^ｔ｜Ｙ＾^１，…，Ｙ＾^ｔ－１，Ｘ^ｔ，Θ）に対応する情報を得て、最尤基準によりｔ番目の書き言葉テキストの単語列Ｙ＾^ｔを決定して出力する。ｔ＝１の場合、推定部１１４は、事後確率（事後確率分布）Ｐ（Ｙ^１｜Ｘ^１，Θ）を得て、最尤基準により１番目の書き言葉テキストの単語列Ｙ＾^１を決定して出力する。すなわち、推定部１１４は、ｔ番目の話し言葉テキスト（第１テキスト）の単語列Ｘ^ｔ、１番目からｔ－１番目までの話し言葉テキストの単語列の系列Ｘ^１，…，Ｘ^ｔ－１の変換結果である１番目からｔ－１番目までの書き言葉テキスト（第２テキスト）の単語列の系列Ｙ＾^１，…，Ｙ＾^ｔ－１を入力とし、モデルパラメータΘに基づきｔ番目の話し言葉テキストの単語列Ｘ^ｔの変換結果であるｔ番目の書き言葉テキストの単語列Ｙ^ｔに対応する情報を推定する。より具体的には、推定部１１４は、例えばｔ番目の話し言葉テキスト（第１テキスト）の単語列Ｘ^ｔ、１番目からｔ－１番目までの話し言葉テキストの単語列の系列Ｘ^１，…，Ｘ^ｔ－１から書き換えられた１番目からｔ－１番目までの書き言葉テキスト（第２テキスト）の単語列の系列Ｙ＾^１，…，Ｙ＾^ｔ－１、およびモデルパラメータΘを入力とし、話し言葉テキストの単語列Ｘ^ｔ、書き言葉テキストの単語列の系列Ｙ＾^１，…，Ｙ＾^ｔ－１、およびモデルパラメータΘが与えられた場合における、話し言葉テキストの単語列Ｘ^ｔから書き換えられるｔ番目の書き言葉テキストの単語列Ｙ^ｔの事後確率Ｐ（Ｙ^ｔ｜Ｙ＾^１，…，Ｙ＾^ｔ－１，Ｘ^ｔ，Θ）に対応する情報を得、最尤基準によりｔ番目の書き言葉テキストの単語列Ｙ＾^ｔを得て出力する。なお、最尤基準による決定は例えば、以下の式(3)に従う。

この処理は再帰的に行うことができる。すなわち、t番目の話し言葉テキストの変換結果である書き言葉テキストの単語列Ｙ＾^ｔを既知の情報であるとすることにより、ｔ＋１番目の書き言葉テキストの単語列Ｙ＾^ｔ＋１についての事後確率分布Ｐ（Ｙ^ｔ＋１｜Ｙ＾^１，…，Ｙ＾^ｔ，Ｘ^ｔ＋１，Θ）に対応する情報を得ることができる。さらに式(3)と同様に式(4)より、ｔ＋１番目の話し言葉テキストの変換結果である書き言葉テキストの単語列Ｙ^ｔ＋１を決定できる。

Ｐ（Ｙ^ｔ｜Ｙ＾^１，…，Ｙ＾^ｔ－１，Ｘ^ｔ，Θ）に対応する情報の詳しい定式化と詳細な計算方法については後述する（ステップＳ１１４）。

得られた書き言葉テキストの単語列Ｙ＾^ｔは出力部１１５に入力され、出力部１１５から出力される。また書き言葉テキストの単語列Ｙ＾^ｔは記憶部１１３に格納される（ステップＳ１１５）。

制御部１は、次の話し言葉テキストの単語列Ｘ^ｔ＋１が存在するかを判定する（ステップＳ１ｂ）。ここで、次の話し言葉テキストの単語列Ｘ^ｔ＋１が存在しない場合には処理を終了する。一方、次の話し言葉テキストの単語列Ｘ^ｔ＋１が存在する場合には、制御部１はｔ＋１を新たなｔとし、処理をステップＳ１１２に戻す（ステップＳ１ｃ）。

［機械学習処理］
実施例１の機械学習装置１２による機械学習処理について説明する。
入力：複数（1つ以上）の話し言葉テキストの単語列の系列と書き言葉テキストの単語列の系列の組の集合である学習データＤ＝（Ａ_１，Ｂ_１），…，（Ａ_｜Ｄ｜，Ｂ_｜Ｄ｜）
出力：モデルパラメータΘ
機械学習装置１２は、複数（1つ以上）の話し言葉テキストの単語列の系列と、それらから書き換えられた書き言葉テキストの単語列の系列と、の組の集合である学習データＤからモデルパラメータΘを学習する。なお、（Ａ_ｍ，Ｂ_ｍ）＝｛（Ｙ^１，Ｘ^１），．．．，（Ｙ^Ｔ（ｍ），Ｘ^Ｔ（ｍ））｝であり、ｔ（ｍ）は正整数であり、ｍ＝１，…，｜Ｄ｜であり、｜Ｄ｜は学習データＤの要素数を表す正整数である。学習データＤにより最適化されたモデルパラメータΘ＾は以下の式(5)に従う。なお、最適化には、ニューラルネットワークの学習において一般的な最適化手法を用いればよい。

ここで学習されたモデルパラメータΘ＾はモデルパラメータΘとして用いられる。

＜学習データＤについて＞
ニューラル系列変換モデルでは、入力と出力の関係性をend-to-endでモデル化するために、入力と出力の対データが大量に必要となる。そのため、話し言葉から書き言葉へのニューラル系列変換モデルを作成するためには、話し言葉と書き言葉の文対を大量に用意する必要がある。話し言葉を書き言葉へ変換するためには、様々な要素を考慮する必要がある。例えば、フィラーや言い淀み、冗長表現の削除や、句読点の付与が必要となる。これらの要素を網羅的に考慮するほど、可読性の高い書き言葉テキストに変換できると考えられる。しかし、従来の研究ではこれらを独立に捉え、それぞれの要素に適したコーパスを使用していた（例えば、参考文献２，３等参照）。そのため、従来のコーパスではこれらの要素を同時に考慮した変換が実現できない。
参考文献２：John J Godfrey, Edward C Holliman, and Jane McDaniel, "Switchboard: Telephone speech corpus for research and development," In Proc. ICASSP, pp. 517-520, 1992.
参考文献３：Nicola Ueffing, Maximilian Bisani, and Paul Vozila, "Improved models for automatic punctuation prediction for spoken and written text," In Proc. INTERSPEECH, pp. 3097-31, 2013.

また、日本語には話し言葉、書き言葉それぞれに特有の表現が存在する。例えば、話し言葉テキストでは助詞が省略されることがしばしばあるが、書き言葉テキストでは省略することができない。また、話し言葉テキストでは文体の統一が厳密に行われていないが、書き言葉テキストでは読者の混乱を防ぐために文体を統一する必要がある。このように、日本語の文章を対象とする場合、従来考えられていた要素に加えて、日本語特有の要素についても考慮する必要がある。以上より、本実施例においては、話し言葉テキストの可読性を向上させることを目的とし、従来の要素と日本語特有の要素の両方を考慮した、日本語文章のための話し言葉から書き言葉へ変換するコーパスを作成したものを、学習データＤとして利用する。話し言葉テキストは、複数の要素を網羅的に考慮するほど可読性の高い書き言葉テキストに変換できると考えられるため、本コーパスでは複数の要素を同時に変換する。日本語の話し言葉を扱ったコーパスとして、日本語話し言葉コーパス（例えば、参考文献４等参照）が存在するが、このコーパスにはフィラーと言い淀み、一定時間の休止区間のみがアノテーションされており、日本語特有の要素については全く考慮されていない。そのため、本コーパスは、日本語における話し言葉・書き言葉変換に関する複数の要素を同時に考慮する初めてのコーパスである。
参考文献４：Kikuo Maekawa, Hanae Koiso, Sadaoki Furui, and Hitoshi Isahara, "Spontaneous speech corpus of japanese," In Proc. LREC, pp. 947-9520, 2000.

以下では、コーパス作成の際に、人手により日本語の話し言葉・書き言葉変換を行うためのルールについて詳細に説明する。話し言葉・書き言葉変換では、音声認識結果で得られたフィラーや言い淀みを含む話し言葉テキストを可読性の高い書き言葉テキストに変換する必要がある。具体的には、話し言葉テキストの可読性を低下させる原因となる要素に着目し、それらの要素を書き言葉に変換する。以下にその例を示す。(1)～(3)が日本語特有のルール、(4)以降は一般的なルールとなっている。

(1)文体の統一
日本語の文体には、文末に“だ”、“である”などを用いる常体と、文末に“です”、“ます”などの丁寧語を用いる敬体が存在する。書き言葉では一般的に、常体が用いられるが、音声認識は発話を書き起こしたものであるために、文末を“だ”、“である”に統一すると不自然な文章となる。そのため、日本語の文章を対象とする場合、書き言葉テキストの文体として、話し言葉でも書き言葉でも用いられる敬体を使用する。

(2)助詞の復元
日本語の話し言葉では、しばしば助詞が省略される。しかし、助詞は名詞と動詞、形容詞の意味関係を示す役割を果たしているため、正しく文章の意味を伝えることを目的とした書き言葉では助詞を省略することはできない。そのため、日本語の文章を対象とする場合、話し言葉テキストで省略されている助詞を話し言葉・書き言葉変換で復元する。

(3)かな漢字表記の統一
話し言葉テキストは、発話を音声認識したものであるためにしばしば表記の揺れが存在する。例えば、数字が漢数字に変換されていたり、英語表記がひらがな表記に変換されることがある。そのため、話し言葉テキストで読みづらい英語、数字表記、ひらがな表記を話し言葉・書き言葉変換で修正する。

(4)句読点の付与
音声認識では、一定時間の休止区間に従って句読点が付与されることがあるが、これらは可読性向上を観点に付与されているわけではないため、抜けや誤りが存在する。そのため、話し言葉テキストの接続語（そして、しかし、また、つまりなど）の後や、漢字やひらがなが続く場合は、読みやすくなるように書き言葉テキストで読点を付与し、話し言葉テキストの句読点の付け方に誤りがある場合は話し言葉・書き言葉変換で修正する。

(5)言い淀み表現の除去
フィラーや言い淀みのある文章は可読性が低いため、話し言葉・書き言葉変換でそれらを除去する。

(6)冗長表現の削除や文章の簡略化
話し言葉では、思いつくまま話された発話をそのまま書き起こしているため、冗長な文章や文法的に誤りのある文章が存在する。そのため、話し言葉テキストで同じ表現が繰り返される場合、話し言葉・書き言葉変換で無駄な表現を削除、あるいは文章を区切るなどして読みやすい文章に修正する。

(7)音声認識誤りの修正
音声認識では、しばしば認識誤りが発生するため、文脈から誤字と認識される言葉は話し言葉・書き言葉変換で修正する。

これらの要素を網羅するほど、可読性の高い書き言葉テキストに変換できると考えられる。以下に、これらの要素を考慮した話し言葉・書き言葉変換の例を示す。
・話し言葉テキスト
はいはい、それはそうですね
私なんかは運動もたくさんしているので、ご飯もそれほど食べていないので、だいえっとする必要ってないですね
いわゆるメタボとは無縁ちゃ無縁ですが、糖尿病にはきをつけてます
・書き言葉テキスト
それはそうですね。
私は、運動をたくさんしていますし、ご飯もそれほど食べません。よって、ダイエットする必要はないですね。
メタボとは無縁ですが、糖尿病には気を付けてます。

＜機械学習処理の流れ＞
次に、図１Ｂおよび図３を用いて、本実施例の機械学習処理の流れを例示する。機械学習装置１２は、学習データＤ＝（Ａ_１，Ｂ_１），…，（Ａ_｜Ｄ｜，Ｂ_｜Ｄ｜）を用い、例えば以下のようにモデルパラメータΘを学習する。

まず、機械学習装置１２（図１Ｂ）の制御部１２０がｍをｍ＝１に初期化する（ステップＳ１２０ａ）。

また、制御部１２０がｔをｔ＝１に初期化する（ステップＳ１２０ｂ）。

記憶部１２７から学習データＤの（Ａ_ｍ，Ｂ_ｍ）＝｛（Ｙ^１，Ｘ^１），．．．，（Ｙ^Ｔ（ｍ），Ｘ^Ｔ（ｍ））｝の話し言葉テキストの単語列Ｘ^ｔが読み出され、推定部１１４に入力される（ステップＳ１２２）。推定部１１４には、さらに記憶部１２１から読み出された学習済みのモデルパラメータΘが入力される。ｔ≧２では、記憶部１２３には１番目からｔ－１番目までの話し言葉テキストの単語列の系列Ｘ^１，…，Ｘ^ｔ－１から書き換えられた１番目からｔ－１番目までの書き言葉テキストの単語列の系列Ｙ＾^１，…，Ｙ＾^ｔ－１が格納されている。これらの書き言葉テキストの単語列の系列Ｙ＾^１，…，Ｙ＾^ｔ－１も記憶部１２３から読み出され、推定部１１４に入力される。ｔ＝１では記憶部１２３には書き言葉テキストの単語列の系列が格納されておらず、推定部１１４には書き言葉テキストの単語列の系列は入力されない。推定部１１４は、ｔ番目の話し言葉テキストの単語列Ｘ^ｔと、１番目からｔ－１番目までの書き言葉テキストの単語列の系列Ｙ＾^１，…，Ｙ＾^ｔ－１と、モデルパラメータΘが入力された時に、モデルパラメータΘに従った確率計算により、ｔ番目の書き言葉テキストについての事後確率（事後確率分布）Ｐ（Ｙ^ｔ｜Ｙ＾^１，…，Ｙ＾^ｔ－１，Ｘ^ｔ，Θ）に対応する情報を得て、最尤基準によりｔ番目の書き言葉テキストの単語列Ｙ＾^ｔを決定して出力する。ｔ＝１の場合、推定部１１４は、事後確率（事後確率分布）Ｐ（Ｙ^１｜Ｘ^１，Θ）を得て、最尤基準により１番目の書き言葉テキストの単語列Ｙ＾^１を決定して出力する（ステップＳ１１４）。

得られた書き言葉テキストの単語列Ｙ＾^ｔは出力部１２５に入力され、出力部１２５から出力される。書き言葉テキストの単語列Ｙ＾^ｔは学習部１２６に入力されるとともに、記憶部１２３に格納される。書き言葉テキストの単語列Ｙ＾^ｔは学習部１２６に入力される。また学習部１２６には、記憶部１２７から読み出された学習データＤが入力される（ステップＳ１２５）。

制御部１２０は、ｔ＝Ｔ（ｍ）であるか否かを判定する（ステップＳ１２０ｂ）。ここでｔ＝Ｔ（ｍ）でない場合、制御部１２０はｔ＋１を新たなｔとし、処理をステップＳ１２２に戻す（ステップＳ１２０ｃ）。一方、ｔ＝Ｔ（ｍ）である場合、制御部１２０は、ｍ＝｜Ｄ｜であるか否かを判定する（ステップＳ１２０ｄ）。ここでｍ＝｜Ｄ｜でない場合、制御部１２０はｍ＋１を新たなｍとし、処理をステップＳ１２０ｂに戻す（ステップＳ１２０ｅ）。一方、ｍ＝｜Ｄ｜であれば、学習部１２６は前述の式(5)に従うようにモデルパラメータΘを更新する。モデルパラメータΘの更新には、例えば誤差逆伝播法などの公知な方法を用いる（ステップＳ１２６）。

モデルパラメータΘが更新されると、制御部１２０は終了条件を満たした否かを判定する。終了条件の例はモデルパラメータΘの更新を所定回数行ったこと、モデルパラメータΘの更新量が所定値以下であることなどである。ここで、終了条件を満たしていない場合には、制御部１２０は処理をステップＳ１２０ａに戻す。一方、終了条件を満たした場合には処理を終了する。すなわち、ｔが２以上の整数であり、Ｘ^ｉが話し言葉テキスト（第１テキスト）の単語列であり、Ｙ^ｉがＸ^ｉから書き換えられる書き言葉テキスト（第２テキスト）の単語列であり、学習部１２６は、書き言葉テキスト（第２テキスト）の単語列Ａ^ｉと話し言葉テキスト（第１テキスト）の単語列Ｂ^ｉとの組の系列を学習データとした機械学習を行い、ｔ番目の話し言葉テキスト（第１テキスト）の単語列Ｘ^ｔ、１番目からｔ－１番目までの話し言葉テキスト（第１テキスト）の単語列の系列Ｘ^１，…，Ｘ^ｔ－１から書き換えられた１番目からｔ－１番目までの書き言葉テキスト（第２テキスト）の単語列の系列Ｙ＾^１，…，Ｙ＾^ｔ－１、およびモデルパラメータΘを入力とし、話し言葉テキスト（第１テキスト）の単語列Ｘ^ｔ、書き言葉テキスト（第２テキスト）の単語列の系列Ｙ＾^１，…，Ｙ＾^ｔ－１、およびモデルパラメータΘが与えられた場合における、ｔ番目の書き言葉テキスト（第２テキスト）の単語列Ｙ^ｔの事後確率Ｐ（Ｙ^ｔ｜Ｙ＾^１，…，Ｙ＾^ｔ－１，Ｘ^ｔ，Θ）に対応する情報を得るモデルのモデルパラメータΘを得て出力する（ステップＳ１２０ｆ）。

［推定部１１４の詳細］
推定部１１４の詳細を例示する。図４に例示するように、推定部１１４は、制御部１１４０、ベクトル計算部１１４１，１１４２，１１４３、文脈ベクトル計算部１１４４、コピー確率計算部１１４５、事後確率計算部１１４６，１１４７、およびテキスト生成部１１４８を有する。推定部１１４は、制御部１１４０の制御の下で各処理を実行する。

前述のように、推定部１１４は事後確率Ｐ（Ｙ^ｔ｜Ｙ＾^１，…，Ｙ＾^ｔ－１，Ｘ^ｔ，Θ）に対応する情報を計算する。以下では、推定部１１４がｔ番目の書き言葉テキストの単語列Ｙ＾^ｔのｎ番目の単語ｙ_ｎ ^ｔについての事後確率Ｐ（ｙ_ｎ ^ｔ｜ｙ_１ ^ｔ，…，ｙ_ｎ－１ ^ｔ，Ｙ＾^１，…，Ｙ＾^ｔ－１，Ｘ^ｔ，Θ）を計算する処理を例示する。なお、ｎは正整数であるが、ｎ＝１の場合には事後確率Ｐ（ｙ_ｎ ^ｔ｜Ｙ＾^１，…，Ｙ＾^ｔ－１，Ｘ^ｔ，Θ）が計算される。ここでモデルパラメータΘはモデルパラメータθ_ｙ，θ_ｘ，θ_ｓ，θ_ν，θ_ｐ，θ_ｗ，θ_ｏを含み、Θ＝｛θ_ｙ，θ_ｘ，θ_ｓ，θ_ν，θ_ｐ，θ_ｗ，θ_ｏ｝として表される。

≪ベクトル計算部１１４１（第１ベクトル計算部）の処理≫
入力：ｔ－１番目の書き言葉テキストの単語列Ｙ＾^ｔ－１
モデルパラメータθ_ｙ
出力：ｔ－１番目の書き言葉テキストの単語列についてのテキストベクトルｕ^{Ｙ，ｔ－１}
ベクトル計算部１１４１は、ｔ－１番目の書き言葉テキストの単語列Ｙ＾^ｔ－１を、モデルパラメータθ_ｙに基づく変換関数により、ｔ－１番目の書き言葉テキストのテキストベクトルｕ^{Ｙ，ｔ－１}に変換する。この時、ｔ－１番目の書き言葉テキストの単語列Ｙ＾^ｔ－１は１つ以上の単語を含む。テキストベクトルｕ^{Ｙ，ｔ－１}は単語列Ｙ＾^ｔ－１に含まれる情報を埋め込んだベクトルを表し、次の話し言葉テキストを書き言葉へ変換するために必要と考えられるテキストの意味的な情報が含まれている。ベクトルの次元数を大きくするほどたくさんの情報を埋め込むことができ、例えば５１２次元のベクトルをテキストベクトルｕ^{Ｙ，ｔ－１}とする。ベクトルの次元数は人手で設定される。モデルパラメータθ_ｙに基づく変換関数には、入力された可変長数の記号列を単一ベクトルに変換する関数であれば任意のものを利用できる。例えば、入力されたテキスト中の単語の頻度ベクトルを出力する関数、リカレントニューラルネットワーク、または双方向リカレントニューラルネットワーク等を当該変換関数として用いることができる。なお、ｔ＝１の場合には入力となる単語列Ｙ＾^０は存在しないため、Ｙ＾^０に対する出力ｕ^Ｙ，０はすべての要素が０．０のベクトルとする。また、ベクトル計算部１１４１はの処理は｛Ｙ＾^１，…，Ｙ＾^ｔ－１｝の単語列Ｙ＾^ｉ（ただし、ｉ＝１，…，ｔ－１）についての単語列Ｙ＾^ｉのそれぞれに対して行われることになる。したがって、ベクトル計算部１１４１は、｛Ｙ＾^１，…，Ｙ＾^ｔ－１｝の単語列Ｙ＾^ｉ（ただし、ｉ＝１，…，ｔ－１）の入力に対して、｛ｕ^Ｙ，１，…，ｕ^{Ｙ，ｔ－１}｝のテキストベクトルｕ^Ｙ，ｉをそれぞれ出力することになる。すなわち、ベクトル計算部１１４１（第１ベクトル計算部）は、書き言葉テキスト（第２テキスト）の単語列の系列Ｙ＾^１，…，Ｙ＾^ｔ－１に対してモデルパラメータθ_ｙに基づく変換を行い、ｉ＝１，…，ｔ－１についての書き言葉テキスト（第２テキスト）の単語列Ｙ＾^ｉのテキストベクトルｕ^Ｙ，ｉの系列ｕ^Ｙ，１，…，ｕ^{Ｙ，ｔ－１}を得て出力する。

≪ベクトル計算部１１４２（第２ベクトル計算部）の処理≫
入力：ｔ番目の話し言葉テキストの単語列Ｘ^ｔ
モデルパラメータθ_ｘ
出力：ｔ番目の話し言葉テキストの単語列Ｘ^ｔに対するテキストベクトルｕ^Ｘ，ｔ
ベクトル計算部１１４２は、ｔ番目の話し言葉テキストの単語列Ｘ^ｔをモデルパラメータθ_ｘに基づく変換関数により、ｔ番目の話し言葉テキストのテキストベクトルｕ^Ｘ，ｔに変換する。モデルパラメータθ_ｘに基づく変換関数の具体例は、θ_ｙがθ_ｘに置換される以外、モデルパラメータθ_ｙに基づく変換関数と同じであるため、その詳細な説明を省略する。すなわち、ベクトル計算部１１４２（第２ベクトル計算部）は、話し言葉テキスト（第１テキストの単語列Ｘ^ｔに対してモデルパラメータθ_ｘに基づく変換を行い、話し言葉テキスト（第１テキスト）の単語列Ｘ^ｔのテキストベクトルｕ^Ｘ，ｔを得て出力する。

≪ベクトル計算部１１４３（第３ベクトル計算部）≫
入力：過去の話し言葉テキストの単語列についてのテキストベクトルｕ^Ｙ，ｉの系列ｕ^Ｙ，１，…，ｕ^{Ｙ，ｔ－１}
モデルパラメータθ_ν
出力：ｔ－１番目の書き言葉テキスト系列埋め込みベクトルν^ｔ－１
ベクトル計算部１１４３は、過去の書き言葉テキスト系列についてのテキストベクトルｕ^Ｙ，ｉの系列ｕ^Ｙ，１，…，ｕ^{Ｙ，ｔ－１}を、モデルパラメータθ_νに基づく変換関数により、ｔ－１番目の書き言葉テキスト系列埋め込みベクトルν^ｔ－１に変換する。この書き言葉テキスト系列埋め込みベクトルν^ｔ－１は単一のベクトルであり、次の話し言葉テキストの単語列Ｘ^ｔを書き言葉テキストの単語列Ｙ＾^ｔへ変換する際に必要な意味的情報が埋め込まれている。ベクトルの次元数を大きくするほどたくさんの情報を埋め込むことができ、例えば５１２次元のベクトルを書き言葉テキスト系列埋め込みベクトルν^ｔ－１とする。ベクトルの次元数は人手で設定される。モデルパラメータθ_νに基づく変換関数には、可変長数のベクトル列を単一ベクトルに変換する関数であれば任意のものを利用でき、例えばリカレントニューラルネットワークや、テキストベクトル系列の各ベクトルを平均化するような関数を用いることができる。なお、平均化する場合のテキスト系列埋め込みベクトルν^ｔ－１の次元数は、テキストベクトルｕ^Ｙ，ｉの系列ｕ^Ｙ，１，…，ｕ^{Ｙ，ｔ－１}
の各次元数に依存する。なお、ｔ＝１の場合は、過去の話し言葉テキストの単語列についてのテキストベクトルの系列は存在しないため、ベクトル計算部１１４３が出力する書き言葉テキスト系列埋め込みベクトルν^０はすべての要素が０．０のベクトルとする。すなわち、ベクトル計算部１１４３（第３ベクトル計算部）は、系列ｕ^Ｙ，１，…，ｕ^{Ｙ，ｔ－１}に対してモデルパラメータθ_νに基づく変換を行い、ｔ－１番目の書き言葉テキスト系列埋め込みベクトル（第２テキスト系列埋め込みベクトル）ν^ｔ－１を得て出力する。

≪文脈ベクトル計算部１１４４≫
入力：ｔ番目の書き言葉テキストの単語列Ｙ＾^ｔのｎ番目の単語ｙ_ｎ ^ｔよりも過去の単語列ｙ_１ ^ｔ，…，ｙ_ｎ－１ ^ｔ
ｔ番目の話し言葉テキストの単語列Ｘ^ｔについてのテキストベクトルｕ^Ｘ，ｔ
モデルパラメータθ_ｓ
出力：ｔ番目の話し言葉テキストの単語列Ｘ^ｔを考慮した、ｔ番目の書き言葉テキストの単語列Ｙ＾^ｔのｎ番目の単語向けの文脈ベクトルｓ_ｎ ^ｔ
文脈ベクトル計算部１１４４は、ｔ番目の書き言葉テキストの単語列Ｙ＾^ｔのｎ番目の単語ｙ_ｎ ^ｔよりも過去の単語列ｙ_１ ^ｔ，…，ｙ_ｎ－１ ^ｔと、ｔ番目の話し言葉テキストの単語列Ｘ^ｔについてのテキストベクトルｕ^Ｘ，ｔを、モデルパラメータθ_ｓに基づく変換関数により、ｔ番目の話し言葉テキストの単語列Ｘ^ｔを考慮したｔ番目の書き言葉テキストの単語列Ｙ＾^ｔのｎ番目の単語向けの文脈ベクトルｓ_ｎ ^ｔに変換する。なお、ｎ＝１の場合には過去の単語列ｙ_１ ^ｔ，…，ｙ_ｎ－１ ^ｔが存在しないため、過去の単語列ｙ_１ ^ｔ，…，ｙ_ｎ－１ ^ｔに代えて所定値（例えば、零ベクトル）が用いられる。この文脈ベクトルｓ_ｎ ^ｔには、次の単語の書き言葉話し言葉変換に必要な意味的情報が埋め込まれている。このとき変換関数には、２種類の可変長数のベクトル列を単一ベクトルに変換する関数であれば任意のものを利用できる。この変換関数の例は、書き言葉テキストの単語列ｙ_１ ^ｔ，…，ｙ_ｎ－１ ^ｔと話し言葉テキストの単語列Ｘ^ｔについてのテキストベクトルｕ^Ｘ，ｔのそれぞれにリカレントニューラルネットワークおよび注意機構を適用して単一の文脈ベクトルを出力する関数である（例えば、非特許文献1参照）。また、単純なものとしては、ｔ番目の書き言葉テキストの単語列Ｙ＾^ｔのｎ番目の単語ｙ_ｎ ^ｔよりも過去の単語列ｙ_１ ^ｔ，…，ｙ_ｎ－１ ^ｔとｔ番目の話し言葉テキストの単語列Ｘ^ｔについてのテキストベクトルｕ^Ｘ，ｔの頻度ベクトルを平均化したベクトルを出力する関数を当該変換関数として用いることもできる。すなわち、ｎはｔ番目の書き言葉テキスト（第２テキスト）の単語列Ｙ＾^ｔに含まれる単語数以下の２以上の整数であり、文脈ベクトル計算部１１４４は、書き言葉テキスト（第２テキスト）の単語列Ｙ＾^ｔに含まれるｎ番目の単語ｙ_ｎ ^ｔよりも過去の単語列ｙ_１ ^ｔ，…，ｙ_ｎ－１ ^ｔ、および、テキストベクトルｕ^Ｘ，ｔに対して、モデルパラメータθ_ｓに基づく変換を行い、話し言葉テキスト（第１テキスト）の単語列Ｘ^ｔを考慮した、ｔ番目の書き言葉テキスト（第２テキスト）の単語列Ｙ＾^ｔのｎ番目の単語向けの文脈ベクトルｓ_ｎ ^ｔを得て出力する。

≪コピー確率計算部１１４５≫
入力：ｔ－１番目の書き言葉テキスト系列埋め込みベクトルν^ｔ－１
ｔ番目の書き言葉テキストの単語列Ｙ＾^ｔのｎ番目の単語向けの文脈ベクトルｓ_ｎ ^ｔ
モデルパラメータθ_ｐ
出力：ｔ番目の書き言葉テキストの単語列Ｙ＾^ｔのｎ番目の単語向けコピー確率ｐ_ｎ ^ｔ
コピー確率計算部１１４５は、ｔ－１番目の書き言葉テキスト系列埋め込みベクトルν^ｔ－１と、ｔ番目の書き言葉テキストの単語列Ｙ＾^ｔのｎ番目の単語向けの文脈ベクトルｓ_ｎ ^ｔとを、モデルパラメータθ_ｐに基づく変換関数によりｔ番目の書き言葉テキストの単語列Ｙ＾^ｔのｎ番目の単語向けコピー確率ｐ_ｎ ^ｔに変換する。この確率は、ｔ番目の書き言葉テキストの単語列Ｙ＾^ｔのｎ番目の単語を出力する際に、話し言葉テキストの単語列Ｘ^ｔからどのくらいの割合で単語をコピーするかを決定する確率である。このとき変換関数には、入力された２種類のベクトルを０以上１以下のスカラー値に変換して出力する関数であれば任意のものを利用できる。この変換関数の例は、入力された２つのベクトルの結合ベクトルにシグモイド関数を用いた変換を行う関数である。すなわち、コピー確率計算部１１４５は、書き言葉テキスト系列埋め込みベクトル（第２テキスト系列埋め込みベクトル）ν^ｔ－１および文脈ベクトルｓ_ｎ ^ｔに対して、モデルパラメータθ_ｐに基づく変換を行い、ｔ番目の書き言葉テキストの単語列Ｙ＾^ｔのｎ番目の単語向けコピー確率ｐ_ｎ ^ｔを得て出力する。

≪事後確率計算部１１４６（第１事後確率計算部）≫
入力：ｔ－１番目の書き言葉テキスト系列埋め込みベクトルν^ｔ－１
ｔ番目の書き言葉テキストの単語列Ｙ＾^ｔのｎ番目の単語向けの文脈ベクトルｓ_ｎ ^ｔ
モデルパラメータθ_ｗ
出力：ｔ番目の書き言葉テキストのｎ番目の単語についての事後確率Ｐ（ｙ_ｎ ^ｔ）
事後確率計算部１１４６は、ｔ－１番目の書き言葉テキスト系列埋め込みベクトルν^ｔ－１と、ｔ番目の書き言葉テキストの単語列Ｙ＾^ｔのｎ番目の単語向けの文脈ベクトルｓ_ｎ ^ｔとを、モデルパラメータθ_ｗに基づく変換関数により、ｔ番目の書き言葉テキストのｎ番目の単語についての事後確率Ｐ（ｙ_ｎ ^ｔ）を得て出力する。事後確率は、各単語に対する確率を要素としたベクトルとして表すことができ、各要素からなるベクトルへのベクトル変換により事後確率分布を表現することが可能である。このとき変換関数には、2種類のベクトルを事後確率分布に変換して出力する関数であれば任意のものを利用できる。この変換関数の例は、入力された２つのベクトルの結合ベクトルにソフトマックス関数を用いた変換を行う関数である。それ以外でも、事後確率分布に相当する出力ベクトルの要素の総和が１．０に変換可能な関を当該変換関数としてもよい。すなわち、事後確率計算部１１４6（第１事後確率計算部）は、書き言葉テキスト系列埋め込みベクトル（第２テキスト系列埋め込みベクトル）ν^ｔ－１および文脈ベクトルｓ_ｎ ^ｔに対して、モデルパラメータθ_ｗに基づく変換を行い、単語ｙ_ｎ ^ｔについての事後確率Ｐ（ｙ_ｎ ^ｔ）を得て出力する。

≪事後確率計算部１１４７（第２事後確率計算部）≫
入力：ｔ番目の書き言葉テキストの単語列Ｙ＾^ｔのｎ番目の単語についての事後確率Ｐ（ｙ_ｎ ^ｔ）
ｔ番目の話し言葉テキストの単語列Ｘ^ｔ
ｔ番目の書き言葉テキストの単語列Ｙ＾^ｔのｎ番目の単語向けコピー確率ｐ_ｎ ^ｔ
モデルパラメータθ_ｏ
出力：ｔ番目の書き言葉テキストのｎ番目の単語ｙ_ｎ ^ｔについての事後確率
P(y_n ^t|y₁ ^t,…,y_n-1 ^t,Y^¹,…,Y^^t-1,X^t,Θ)
事後確率計算部１１４７は、ｔ番目の書き言葉テキストの単語列Ｙ＾^ｔのｎ番目の単語についての事後確率Ｐ（ｙ_ｎ ^ｔ）、ｔ番目の話し言葉テキストの単語列Ｘ^ｔ、およびｔ番目の書き言葉テキストの単語列Ｙ＾^ｔのｎ番目の単語向けコピー確率ｐ_ｎ ^ｔに対し、モデルパラメータθ_ｏ基づく変換関数を適用し、ｔ番目の書き言葉テキストのｎ番目の単語についての事後確率P(y_n ^t|y₁ ^t,…,y_n-1 ^t,Y^¹,…,Y^^t-1,X^t,Θ)を得て出力する。このとき変換関数の一例は、事後確率Ｐ（ｙ_ｎ ^ｔ）にコピー確率ｐ_ｎ ^ｔを掛け合わせたものと、ｔ番目の話し言葉テキストの単語列Ｘ^ｔから単語の分布を求め、その分布に1からコピー確率ｐ_ｎ ^ｔを引いた値を掛け合わせたものを足し合わせたものである。単語列Ｘ^ｔから単語の分布を求める方法としては、単語列Ｘ^ｔのベクトルから任意の分布を求める方法を用いることができる。簡単なものとしては、例えば、単語列Ｘ^ｔの頻度ベクトルにソフトマックス関数を用いた変換を行ったものを当該単語の分布とすることができる。すなわち、事後確率計算部１１４７（第２事後確率計算部）は、話し言葉テキスト（第１テキスト）の単語列Ｘ^ｔ、事後確率Ｐ（ｙ_ｎ ^ｔ）、およびコピー確率ｐ_ｎ ^ｔに対して、モデルパラメータθ_ｏに基づく変換を行い、事後確率Ｐ（Ｙ^ｔ｜Ｙ＾^１，…，Ｙ＾^ｔ－１，Ｘ^ｔ，Θ）に対応する事後確率Ｐ（ｙ_ｎ ^ｔ｜ｙ_１ ^ｔ，…，ｙ_ｎ－１ ^ｔ，Ｙ＾^１，…，Ｙ＾^ｔ－１，Ｘ^ｔ，Θ）を得て出力する。

≪テキスト生成部１１４８≫
入力：ｔ番目の書き言葉テキストの単語列Ｙ＾^ｔの１，…，ｎ番目の単語ｙ_１ ^ｔ，…，ｙ_ｎ ^ｔにおける事後確率
P(y₁ ^t|Y^¹,…,Y^^t-1,X^t,Θ),...,P(y_n ^t|y₁ ^t,…,y_n-1 ^t,Y^¹,…,Y^^t-1,X^t,Θ)
出力：ｔ番目の書き言葉テキストの単語列Ｙ＾^ｔ
テキスト生成部１１４８は、ｔ番目の書き言葉テキストの単語列Ｙ＾^ｔの１，…，ｎ番目の単語ｙ_１ ^ｔ，…，ｙ_ｎ ^ｔにおける事後確率Ｐ（ｙ_１ ^ｔ｜Ｙ＾^１，…，Ｙ＾^ｔ－１，Ｘ^ｔ，Θ），…，Ｐ（ｙ_ｎ ^ｔ｜ｙ_１ ^ｔ，…，ｙ_ｎ－１ ^ｔ，Ｙ＾^１，…，Ｙ＾^ｔ－１，Ｘ^ｔ，Θ）の積が最大となるような単語ｙ_ｎ ^ｔをｎ＝１，…，Ｎ（ｔ）について１個づつ選択していき、ｔ番目の書き言葉テキストの単語列Ｙ＾^ｔ＝（ｙ_１ ^ｔ，…，ｙ_Ｎ（ｔ） ^ｔ）を得て出力する。このとき、ｙ_１ ^ｔ，…，ｙ_Ｎ（ｔ） ^ｔの要素選択には事後確率Ｐ（ｙ_１ ^ｔ｜Ｙ＾^１，…，Ｙ＾^ｔ－１，Ｘ^ｔ，Θ），…，Ｐ（ｙ_ｎ ^ｔ｜ｙ_１ ^ｔ，…，ｙ_ｎ－１ ^ｔ，Ｙ＾^１，…，Ｙ＾^ｔ－１，Ｘ^ｔ，Θ）の積が最大化される手法であれば任意のものを使用できるが、例えば、貪欲法などの近似アルゴリズムを用いることができる。

これらの処理は、書き言葉テキストの単語列Ｙ＾^ｔ（ｔ＝１，．．．，Ｔ）のすべての単語が生成され、さらに対象とする話し言葉テキストの単語列Ｘ^ｔ（ｔ＝１，．．．，Ｔ）がすべて書き言葉テキストの単語列Ｙ＾^ｔに変換されるまで、再帰的に繰り返される。その処理の流れを図５に例示する。

図５に例示するように、まず制御部１１４０がｔをｔ＝１に初期化する（ステップＳ１１４８ａ）。また制御部１１４０がｎをｎ＝１に初期化する（ステップＳ１１４８ｂ）。

読み言葉テキストの単語列Ｘ^ｔがベクトル計算部１１４２に入力され、計算済みの書き言葉テキストの単語列Ｙ＾^１，…，Ｙ＾^ｔ－１がベクトル計算部１１４１に入力される。なお、ｔ＝１の場合には計算済みの書き言葉テキストの単語列は存在しないので、計算済みの書き言葉テキストの単語列は入力されない（ステップＳ１１４８ｃ）。

制御部１１４０は、ｎ＞１であるか否かを判定する（ステップＳ１１４８ｄ）。ここで、ｎ＞１であれば、上述のように推定部１１４がＸ^ｔとＹ^１，…，Ｙ^ｔ－１とｙ_１ ^ｔ，…，ｙ_ｎ－１ ^ｔからｙ_ｎ ^ｔを生成して出力する。ただし、ｔ＝１の場合、推定部１１４はＸ^ｔとｙ_１ ^ｔ，…，ｙ_ｎ－１ ^ｔからｙ_ｎ ^ｔを生成して出力する（ステップＳ１１４８ｆ）。一方、ｎ＞１でなければ、推定部１１４がＸ^ｔとＹ^１，…，Ｙ^ｔ－１からｙ_ｎ ^ｔを生成して出力する。ただし、ｔ＝１の場合、推定部１１４は上述のようにＸ^ｔからｙ_ｎ ^ｔを生成して出力する（ステップＳ１１４８ｅ）。

次に、制御部１１４０はｎ＋１を新たなｎとする（ステップＳ１１４８ｇ）。制御部１１４０はｎ＝Ｎ（ｔ）＋１であるかを判定する（ステップＳ１１４８ｈ）。ここで、ｎ＝Ｎ（ｔ）＋１でなければ、制御部１１４０は処理をステップＳ１１４８ｄに戻す。一方、ｎ＝Ｎ（ｔ）＋１であれば、制御部１１４０はｔ＋１を新たなｔとする（ステップＳ１１４８ｉ）。さらに制御部１１４０はｔが上限を超えたか、すなわちｔ＝Ｔ（ｍ）＋１またはｔ＝Ｔ＋１となったかを判定する（ステップＳ１１４８ｊ）。ｔが上限を超えていない場合、制御部１１４０は処理をステップＳ１１４８ｂに戻す。一方、ｔが上限を超えた場合には処理を終了する。

このように、過去の書き言葉テキストを考慮して現在の話し言葉テキストを変換できるようになれば、これまでの話し言葉テキストに対してどのような書き換えを行ったかという情報を、現在の書き言葉テキストへ書き換える際に考慮できるようになる。例えば、分程度の講演音声の認識結果である話し言葉テキストを書き言葉テキストへ変換することを想定する。この講演音声を無音が０．５秒存在するごとに区切ると、２００発話の音声が含まれていることになる。この２００発話は連続した系列であり、連続した発話は関連する情報を話している場合が高いと考えられる。しかしながら、従来技術を適用すると２００発話分の音声認識結果である話し言葉テキストを独立に書き言葉テキストに変換することとなり、関連する文脈情報を現在の話し言葉・書き言葉変換をする場合に利用できない。より具体的には、０発話目の音声認識結果が「あのインターネットの解約はこちらの電話番号で」、１発話目の結果が「電話番号でよろしいですか」という話し言葉テキストである場合、０発話目を考慮できていれば、１発話目の「電話番号で」という部分は発話境界をまたぐ言い淀みだと判定できるため、「よろしいですか」と、言い淀みを削除したテキストに変換できると考えられる。また、２発話目の音声認識結果が「でオプションも解約したいです」という話し言葉テキストである場合、文脈を考慮できていれば、文頭の「で」は接続表現であると判定できるため「そして、オプションも解約したいです」と認識できそうであるが、文脈を考慮できない場合は、２発話目を「オプションも解約したいです」と文頭の接続表現をフィラーと誤認識して「で」を削除してしまう可能性がある。しかし、１発話目から１発話目までの書き言葉テキストの情報を文脈として利用することで、このような問題を解決できると考えられる。

また、本実施例の方法で変換された話し言葉テキストである話し言葉と、変換後の書き言葉テキストである書き言葉との関係を例示する。話し言葉の下線部の単語は書き言葉から削除されている。
(a)コンタクトセンタでの対話
話し言葉：えーあのもうあんまり使わなくなったということなんですねあの先日からちょっとお習い事を始めまして
書き言葉：あんまり使わなくなったということなんですね。先日からお習い事を始めました。
(b)日常会話(1)
話し言葉：プロ野球じ野球ほんとでもルールわかんないんですよおふほとんどわかんないんですよ高校野球は見ますけど
書き言葉：プロ野球は、ほとんどルールがわかんないんですよ。ほんとわからないんですよ。高校野球は見ますけど。
(c)日常会話(2)
話し言葉：でなんかそう言うのをあのあのソフトクリームじゃなくてコンビニとかそう言うとこでも買えたらいいなと個人的にも思っていてでうん
書き言葉：そう言うのをソフトクリームじゃなくて、コンビニとかそう言うとこでも買えたらいいなと個人的にも思っていました。
(e)留守番電話
話し言葉：あもしもしえーと午前中の打ち合わせ終わりましたので連絡ですえーとー打ち合わせ終わりまして秋葉原の駅まできましたえーこれからえー昼食を取りつつえ次の打合せ高田馬場にむかいますえーその連絡でしたえーまた後ほど連絡いたしますよろしくお願いいたします
書き言葉：もしもし、午前中の打ち合わせ終わりましたので、連絡です。打ち合わせ終わりまして、秋葉原の駅まできました。これから昼食を取り、次の打合せ、高田馬場にむかいます。また後ほど連絡いたします。よろしくお願いいたします。

話し言葉・書き言葉変換の対象とするテキストの話し言葉テキストだけでなく、直前の書き言葉テキストから単語をコピーして書き言葉テキストを生成することも可能である。ここで、すべての過去の書き言葉テキストをコピー対象としないのは、ニューラル系列変換モデルの枠組みは、テキスト全体をベクトルに変換して扱う仕組みであるために、長いテキストに対してうまく動作しない問題が存在し、非現実的であるからである。過去の書き言葉テキストもコピー対象とした話し言葉・書き言葉変換の詳細を以下に示す。

［構成］
図１Ａに例示するように、実施例２の系列変換装置２１は、制御部１、記憶部２１１，１１３、入力部１１２、推定部２１４、および出力部１１５を有する。系列変換装置２１は制御部１の制御の下で各処理を実行する。図１Ｂに例示するように、実施例２の機械学習装置２２は、制御部１２０、記憶部１２１，１２３，１２７、推定部２１４、出力部１２５、および学習部２２６を有する。機械学習装置２２は制御部１２０の制御の下で各処理を実行する。

［系列変換処理］
実施例２の系列変換装置２１による系列変換処理である同一言語内翻訳処理について説明する。実施例２の系列変換装置２１の翻訳処理の実施例１の系列変換装置１１の系列変換処理からの相違点は、図２の推定部１１４によるステップＳ１１４の処理が推定部２１４によるステップＳ２１４の処理に置換される点である。他の事項は実施例１と同じである。

［機械学習処理］
実施例２の機械学習装置２２による機械学習処理について説明する。実施例２の機械学習装置２２による機械学習処理の実施例１の機械学習装置１２による機械学習処理からの相違点は、図３の推定部１１４によるステップＳ１１４の処理が推定部２１４によるステップＳ２１４の処理に置換される点である。他の事項は実施例１と同じである。

［推定部２１４の詳細］
推定部２１４の詳細を例示する。図６に例示するように、推定部２１４は、制御部１１４０、ベクトル計算部１１４１，１１４２，２１４３、文脈ベクトル計算部１１４４（第１文脈ベクトル計算部）、文脈ベクトル計算部２１４９（第２文脈ベクトル計算部）、コピーベクトル確率計算部２１４５、事後確率計算部２１４６，２１４７、およびテキスト生成部１１４８を有する。推定部２１４は、制御部１１４０の制御の下で各処理を実行する。実施例２のモデルパラメータΘはモデルパラメータθ_ｙ，θ_ｘ，θ_ｓ，θ_ν，θ_ｑ，θ_ｄ，θ_ｍ，θ_ａを含み、Θ＝｛θ_ｙ，θ_ｘ，θ_ｓ，θ_ν，θ_ｑ，θ_ｄ，θ_ｍ，θ_ａ｝として表される。

≪ベクトル計算部２１４３（第３ベクトル計算部）≫
入力：過去の話し言葉テキストの単語列についてのテキストベクトルｕ^Ｙ，ｉの系列ｕ^Ｙ，１，…，ｕ^{Ｙ，ｔ－２}
モデルパラメータθ_ν
出力：ｔ－２番目の書き言葉テキスト系列埋め込みベクトルν^ｔ－２
ベクトル計算部１１４３は、過去の書き言葉テキスト系列についてのテキストベクトルｕ^Ｙ，ｉの系列ｕ^Ｙ，１，…，ｕ^{Ｙ，ｔ－２}を、モデルパラメータθ_νに基づく変換関数により、ｔ－２番目の書き言葉テキスト系列埋め込みベクトルν^ｔ－２に変換する。ベクトル計算部２１４３のベクトル計算部１１４３からの相違点は、ｕ^Ｙ，１，…，ｕ^{Ｙ，ｔ－１}に代えてｕ^Ｙ，１，…，ｕ^{Ｙ，ｔ－２}が入力される点、ν^ｔ－１に代えてν^ｔ－２が出力される点である。なお、ｔ＝１，２の場合は、過去の話し言葉テキストの単語列についてのテキストベクトルの系列は存在しないため、ベクトル計算部２１４３が出力する書き言葉テキスト系列埋め込みベクトルν^－１，ν^０はすべての要素が０．０のベクトルとする。

≪文脈ベクトル計算部２１４９（第２文脈ベクトル計算部）≫
入力：ｔ番目の書き言葉テキストのｎ番目の単語よりも過去の単語列ｙ_１ ^ｔ，…，ｙ_ｎ－１ ^ｔ
ｔ－２番目の書き言葉テキスト系列埋め込みベクトルν^ｔ－２
ｔ－１番目の書き言葉テキストの単語列についてのテキストベクトルの系列ｕ^{Ｙ，ｔ－１}
モデルパラメータθ_ｑ
出力：過去の話し言葉テキストを考慮したｔ番目の書き言葉テキストの単語列Ｙ＾^ｔのｎ番目の単語向けの文脈ベクトルｑ_ｎ ^ｔ
文脈ベクトル計算部２１４９は、ｔ番目の書き言葉テキストのｎ番目の単語よりも過去の単語列ｙ_１ ^ｔ，…，ｙ_ｎ－１ ^ｔと、ｔ－２番目の書き言葉テキスト系列埋め込みベクトルν^ｔ－２と、ｔ－１番目の書き言葉テキストの単語列についてのテキストベクトルの系列ｕ^{Ｙ，ｔ－１}に対し、モデルパラメータθ_ｑに基づく変換関数を適用し、ｔ番目の書き言葉テキストの単語列Ｙ＾^ｔのｎ番目の単語向けの文脈ベクトルｑ_ｎ ^ｔを得て出力する。この文脈ベクトルｑ_ｎ ^ｔは、次の単語の話し言葉・書き言葉変換に必要な過去の変換結果を考慮した意味的情報が埋め込まれている。このときの変換関数には、３種類の可変長数のベクトル列を単一ベクトルに変換する関数であれば任意のものを利用できる。この変換関数の例は、ｔ番目の書き言葉テキストのｎ番目の単語よりも過去の単語列ｙ_１ ^ｔ，…，ｙ_ｎ－１ ^ｔとｔ－１番目の書き言葉テキストの単語列についてのテキストベクトルの系列ｕ^{Ｙ，ｔ－１}のそれぞれにリカレントニューラルネットワークを適用し、ｔ－１番目の書き言葉テキストの単語列についてのテキストベクトルの系列ｕ^{Ｙ，ｔ－１}とｔ－２番目の書き言葉テキスト系列埋め込みベクトルν^ｔ－２とを結合し、注意機構を加えることにより単一の文脈ベクトルを出力する関数を用いることができる。すなわち、文脈ベクトル計算部２１４９（第２文脈ベクトル計算部）は、単語列ｙ_１ ^ｔ，…，ｙ_ｎ－１ ^ｔ、書き言葉テキスト系列埋め込みベクトル（第２テキスト系列埋め込みベクトル）ν^ｔ－２、および系列ｕ^{Ｙ，ｔ－１}に対してモデルパラメータθ_ｑに基づく変換を行い、過去の書き言葉テキスト（第２テキスト）を考慮したｔ番目の書き言葉テキスト（第２テキスト）の単語列Ｙ＾^ｔのｎ番目の単語向けの文脈ベクトルｑ_ｎ ^ｔを得て出力する。

≪コピーベクトル確率計算部２１４５≫
入力：ｔ番目の書き言葉テキストの単語列Ｙ＾^ｔのｎ番目の単語向けの文脈ベクトルｓ_ｎ ^ｔ
過去の話し言葉テキストを考慮したｔ番目の書き言葉テキストの単語列Ｙ＾^ｔのｎ番目の単語向けの文脈ベクトルｑ_ｎ ^ｔ
モデルパラメータθ_ｍ
出力：ｔ番目の書き言葉テキストの単語列Ｙ＾^ｔのｎ番目の単語向けコピー確率Ｍ_ｎ ^ｔ
コピーベクトル確率計算部２１４５は、ｔ番目の書き言葉テキストの単語列Ｙ＾^ｔのｎ番目の単語向けの文脈ベクトルｓ_ｎ ^ｔ、および過去の話し言葉テキストを考慮したｔ番目の書き言葉テキストの単語列Ｙ＾^ｔのｎ番目の単語向けの文脈ベクトルｑ_ｎ ^ｔに対し、モデルパラメータθ_ｍに基づく変換関数を適用し、ｔ番目の書き言葉テキストの単語列Ｙ＾^ｔのｎ番目の単語向けコピー確率Ｍ_ｎ ^ｔを得て出力する。このコピー確率ベクトルＭ_ｎ ^ｔは、t番目の書き言葉テキストのn番目の単語を出力する際に、現在の書き言葉テキストの事後確率を重視するか、話し言葉テキストの単語をコピーするか、過去の書き言葉テキストの単語をコピーするかを選択する際の確率を表している。そのため、各確率を要素としたベクトルとして表すことができ、ベクトル変換により確率分布を表現することが可能である。このとき変換関数には、２種類のベクトルを確率分布に変換する関数であれば任意のものを利用できる。この変換関数の例は、入力された２つのベクトルの結合ベクトルにソフトマックス関数を用いた変換を行って出力する関数である。その他、出力される確率分布に相当する出力ベクトルの要素の総和が１．０に変換可能な関数を当該変換関数としてもよい。すなわち、コピーベクトル確率計算部２１４５は、文脈ベクトルｓ_ｎ ^ｔおよびｔ番目の書き言葉テキスト（第２テキスト）の単語列Ｙ＾^ｔのｎ番目の単語向けの文脈ベクトルｑ_ｎ ^ｔに対して、モデルパラメータθ_ｍに基づく変換を行い、ｔ番目の書き言葉テキスト（第２テキスト）の単語列Ｙ＾^ｔのｎ番目の単語向けコピー確率Ｍ_ｎ ^ｔを得て出力する。

≪事後確率計算部２１４６（第１事後確率計算部）≫
入力：ｔ番目の書き言葉テキストの単語列Ｙ＾^ｔのｎ番目の単語向けの文脈ベクトルｓ_ｎ ^ｔ
過去の話し言葉テキストを考慮したｔ番目の書き言葉テキストの単語列Ｙ＾^ｔのｎ番目の単語向けの文脈ベクトルｑ_ｎ ^ｔ
モデルパラメータθ_ｄ
出力：ｔ番目の書き言葉テキストの単語列Ｙ＾^ｔのｎ番目の単語ｙ_ｎ ^ｔについての事後確率Ｐ（ｙ_ｎ ^ｔ）
事後確率計算部２１４６は、ｔ番目の書き言葉テキストの単語列Ｙ＾^ｔのｎ番目の単語向けの文脈ベクトルｓ_ｎ ^ｔと、過去の話し言葉テキストを考慮したｔ番目の書き言葉テキストの単語列Ｙ＾^ｔのｎ番目の単語向けの文脈ベクトルｑ_ｎ ^ｔとに対し、モデルパラメータθ_ｄに基づく変換関数により、ｔ番目の書き言葉テキストの単語列Ｙ＾^ｔのｎ番目の単語ｙ_ｎ ^ｔについての事後確率Ｐ（ｙ_ｎ ^ｔ）を得て出力する。その他は、ν^ｔ－１がｑ_ｎ ^ｔに置換され、θ_ｗがθ_ｄに置換される以外、事後確率計算部１１４6の処理と同じであるため説明を省略する。すなわち、事後確率計算部２１４６（第１事後確率計算部）は、文脈ベクトルｓ_ｎ ^ｔおよびｔ番目の書き言葉テキスト（第２テキスト）の単語列Ｙ＾^ｔのｎ番目の単語向けの文脈ベクトルｑ_ｎ ^ｔに対して、モデルパラメータθ_ｄに基づく変換を行い、単語ｙ_ｎ ^ｔについての事後確率Ｐ（ｙ_ｎ ^ｔ）を得て出力する。

≪事後確率計算部２１４７（第２事後確率計算部）≫
入力：ｔ番目の書き言葉テキストの単語列Ｙ＾^ｔのｎ番目の単語についての事後確率Ｐ（ｙ_ｎ ^ｔ）
ｔ番目の話し言葉テキストの単語列Ｘ^ｔ
ｔ－１番目の書き言葉テキストの単語列Ｙ＾^ｔ－１
ｔ番目の書き言葉テキストの単語列Ｙ＾^ｔのｎ番目の単語向けコピー確率Ｍ_ｎ ^ｔ
モデルパラメータθ_ａ
出力：ｔ番目の書き言葉テキストのｎ番目の単語ｙ_ｎ ^ｔについての事後確率
P(y_n ^t|y₁ ^t,…,y_n-1 ^t,Y^¹,…,Y^^t-1,X^t,Θ)
事後確率計算部２１４７は、ｔ番目の話し言葉テキストの単語列Ｘ^ｔ、ｔ－１番目の書き言葉テキストの単語列Ｙ＾^ｔ－１、およびｔ番目の書き言葉テキストの単語列Ｙ＾^ｔのｎ番目の単語向けコピー確率Ｍ_ｎ ^ｔに対し、モデルパラメータθ_ａに基づく変換関数を適用し、ｔ番目の書き言葉テキストのｎ番目の単語ｙ_ｎ ^ｔについての事後確率P(y_n ^t|y₁ ^t,…,y_n-1 ^t,Y^¹,…,Y^^t-1,X^t,Θ)を得て出力する。このとき変換関数の一例は、事後確率Ｐ（ｙ_ｎ ^ｔ）に単語向けコピー確率Ｍ_ｎ ^ｔの一要素を掛け合わせたものと、ｔ番目の話し言葉テキストの単語列Ｘ^ｔから単語の分布を求め、その分布に単語向けコピー確率Ｍ_ｎ ^ｔの一要素を掛け合わせたものと、ｔ－１番目の書き言葉テキストの単語列Ｙ＾^ｔ－１から単語の分布を求め、その分布に単語向けコピー確率Ｍ_ｎ ^ｔの一要素を掛け合わせたものとを足し合わせた結果を出力する関数を例示できる。単語列Ｘ^ｔから単語の分布を求める方法としては、単語列Ｘ^ｔのベクトルから任意の分布を求める方法を用いることができる。簡単なものとしては、例えば、単語列Ｘ^ｔの頻度ベクトルにソフトマックス関数を用いた変換を行ったものを当該単語の分布とする。すなわち、事後確率計算部２１４７（第２事後確率計算部）は、話し言葉テキスト（第１テキスト）の単語列Ｘ^ｔ、ｔ－１番目の書き言葉テキスト（第２テキスト）の単語列Ｙ＾^ｔ－１、事後確率Ｐ（ｙ_ｎ ^ｔ）、コピー確率Ｍ_ｎ ^ｔに対して、モデルパラメータθ_ａに基づく変換を行い、事後確率Ｐ（Ｙ^ｔ｜Ｙ＾^１，…，Ｙ＾^ｔ－１，Ｘ^ｔ，Θ）に対応する事後確率Ｐ（ｙ_ｎ ^ｔ｜ｙ_１ ^ｔ，…，ｙ_ｎ－１ ^ｔ，Ｙ＾^１，…，Ｙ＾^ｔ－１，Ｘ^ｔ，Θ）を得て出力する。

話し言葉・書き言葉変換の対象としている連続した話し言葉テキストの単語列の系列は、テキスト間で関連した情報を有している場合が多いと考えられる。話し言葉・書き言葉変換を例にとると、過去の書き言葉テキストに出現した単語は、現在の変換においても有用である可能性がある。そのため、現在の話し言葉テキストに出現する単語だけではなく、過去の書き言葉テキストからも単語のコピーを可能とすることで、より適切な書き言葉テキストへ変換し易くなると考えられる。

実施例３では実施例１，２を包含する概念について説明する。
［構成］
図１Ａに例示するように、実施例３の系列変換装置３１は、制御部１、記憶部２１１，１１３、入力部１１２、推定部３１４、および出力部１１５を有する。系列変換装置３１は制御部１の制御の下で各処理を実行する。図１Ｂに例示するように、実施例３の機械学習装置３２は、制御部１２０、記憶部１２１，１２３，１２７、推定部３１４、出力部１２５、および学習部２２６を有する。機械学習装置３２は制御部１２０の制御の下で各処理を実行する。

［系列変換処理］
実施例３の系列変換装置３１による系列変換処理である同一言語内翻訳処理について説明する。実施例３の系列変換装置３１の系列変換処理の実施例１の系列変換装置１１の系列変換処理からの相違点は、図２の推定部１１４によるステップＳ１１４の処理が推定部３１４によるステップＳ３１４の処理に置換される点である。他の事項は実施例１と同じである。

［機械学習処理］
実施例３の機械学習装置３２による機械学習処理について説明する。実施例３の機械学習装置３２による機械学習処理の実施例１の機械学習装置１２による機械学習処理からの相違点は、図３の推定部１１４によるステップＳ１１４の処理が推定部３１４によるステップＳ３１４の処理に置換される点である。他の事項は実施例１と同じである。

［推定部３１４の詳細］
推定部３１４の詳細を例示する。図７に例示するように、推定部３１４は、制御部１１４０、ベクトル計算部１１４１，１１４２，３１４３、事後確率計算部３１４７、およびテキスト生成部１１４８を有する。推定部３１４は、制御部１１４０の制御の下で各処理を実行する。実施例３のモデルパラメータΘはモデルパラメータθ_ｙ，θ_ｘ，θ_ｓ，θ_νを含む。

ベクトル計算部１１４１（第１ベクトル計算部）は、入力された書き言葉テキスト（第２テキスト）の単語列Ｙ＾^ｉの系列Ｙ＾^１，…，Ｙ＾^ｔ－１に対してモデルパラメータθ_ｙに基づく変換を行い、ｉ＝１，…，ｔ－１についての書き言葉テキスト（第２テキスト）の単語列Ｙ＾^ｉのテキストベクトルｕ^Ｙ，ｉの系列ｕ^Ｙ，１，…，ｕ^{Ｙ，ｔ－１}を得て出力する。

ベクトル計算部１１４２（第１ベクトル計算部）は、入力された話し言葉テキスト（第１テキスト）の単語列Ｘ^ｔに対してモデルパラメータθ_ｘに基づく変換を行い、話し言葉テキスト（第１テキスト）の単語列Ｘ^ｔのテキストベクトルｕ^Ｘ，ｔを得て出力する。

ベクトル計算部３１４２（第３ベクトル計算部）は、入力された系列ｕ^Ｙ，１，…，ｕ^{Ｙ，ｔ－１}に対してモデルパラメータθ_νに基づく変換を行い、書き言葉系列埋め込みベクトル（第２テキスト系列埋め込みベクトル）を得て出力する。

文脈ベクトル計算部１１４４は、書き言葉テキスト（第２テキスト）の単語列Ｙ＾^ｔに含まれるｎ番目の単語ｙ_ｎ ^ｔよりも過去の単語列ｙ_１ ^ｔ，…，ｙ_ｎ－１ ^ｔ、および、テキストベクトルｕ^Ｘ，ｔに対して、モデルパラメータθ_ｓに基づく変換を行い、文脈ベクトルｓ_ｎ ^ｔを得て出力する。

事後確率計算部３１４７は、書き言葉系列埋め込みベクトル（第２テキスト系列埋め込みベクトル）、文脈ベクトルｓ_ｎ ^ｔ、および第１テキストの単語列Ｘ^ｔに基づいて、事後確率Ｐ（Ｙ^ｔ｜Ｙ＾^１，…，Ｙ＾^ｔ－１，Ｘ^ｔ，Θ）に対応する事後確率Ｐ（ｙ_ｎ ^ｔ｜ｙ_１ ^ｔ，…，ｙ_ｎ－１ ^ｔ，Ｙ＾^１，…，Ｙ＾^ｔ－１，Ｘ^ｔ，Θ）を得て出力する。

テキスト生成部１１４８は、ｔ番目の書き言葉テキストの単語列Ｙ＾^ｔの１，…，ｎ番目の単語ｙ_１ ^ｔ，…，ｙ_ｎ ^ｔにおける事後確率Ｐ（ｙ_１ ^ｔ｜Ｙ＾^１，…，Ｙ＾^ｔ－１，Ｘ^ｔ，Θ），…，Ｐ（ｙ_ｎ ^ｔ｜ｙ_１ ^ｔ，…，ｙ_ｎ－１ ^ｔ，Ｙ＾^１，…，Ｙ＾^ｔ－１，Ｘ^ｔ，Θ）の積が最大となるような単語ｙ_ｎ ^ｔをｎ＝１，…，Ｎ（ｔ）について１個づつ選択していき、ｔ番目の書き言葉テキストの単語列Ｙ＾^ｔ＝（ｙ_１ ^ｔ，…，ｙ_Ｎ（ｔ） ^ｔ）を得て出力する。

［実験結果］
図９に実施例１，２の効果を例示するための実験結果を示す。図９におけるNo. 0は話し言葉テキストの単語列そのものに対する評価結果を例示し、No. 1は非特許文献１の方法で話し言葉・書き言葉変換を行って得られた書き言葉テキストの単語列に対する評価結果を例示し、No. 2は参考文献１の方法で話し言葉・書き言葉変換を行って得られた書き言葉テキストの単語列に対する評価結果を例示し、No. 3は上述の実施形態においてコピーを行うことなく話し言葉・書き言葉変換を行って得られた書き言葉テキストの単語列に対する評価結果を例示し、No. 4は実施例１の話し言葉・書き言葉変換を行って得られた書き言葉テキストの単語列に対する評価結果を例示し、No. 5は実施例２の話し言葉・書き言葉変換を行って得られた書き言葉テキストの単語列に対する評価結果を例示する。

実験には参考文献５に記載された話し言葉・書き言葉変換コーパスを用いた。
参考文献５：Kikuo Maekawa, Hanae Koiso, Sadaoki Furui, and Hitoshi Isahara, “Spontaneous speech corpus of japanese,” in Proc. International Conference on Language Resources and Evaluation (LREC), 2000, pp. 947-9520.
このコーパスは話し言葉テキストと書き言葉テキストの組の集合からなり、それを学習データ用セット、検証用セット、テスト用セット（Test 1, 2, 3）に分けた。また、テスト用セットを自動音声認識する自動音声認識器を用意した。図９における「Manual transcriptions」の「Accuracy (%)」は、テスト用セットの話し言葉テキストから話し言葉・書き言葉変換された書き言葉テキストが、当該テスト用セットの話し言葉テキストと組みになっている書き言葉テキストに対する正確さを表している。「Manual transcriptions」の「Number of substitution errors」は、テスト用セットの話し言葉テキストから話し言葉・書き言葉変換された書き言葉テキストが、当該テスト用セットの話し言葉テキストと組みになっている書き言葉テキストに対する置換誤り数を表している。「ASR transcriptions」の「Accuracy (%)」は、自動音声認識された話し言葉テキストに対し、話し言葉・書き言葉変換を行って得られた書き言葉テキストに対する正確さを表している。また、図に実験で用いた実施例２の機能構成を示す。なお、実施例２の事後確率計算部２１４７は、ｔ番目の話し言葉テキストの単語列Ｘ^ｔ、ｔ－１番目の書き言葉テキストの単語列Ｙ＾^ｔ－１、およびｔ番目の書き言葉テキストの単語列Ｙ＾^ｔのｎ番目の単語向けコピー確率Ｍ_ｎ ^ｔに対し、モデルパラメータθ_ａに基づく変換関数を適用し、ｔ番目の書き言葉テキストのｎ番目の単語ｙ_ｎ ^ｔについての事後確率P(y_n ^t|y₁ ^t,…,y_n-1 ^t,Y^¹,…,Y^^t-1,X^t,Θ)を得て出力する。実験では、この変換関数として、事後確率Ｐ（ｙ_ｎ ^ｔ）に単語向けコピー確率Ｍ_ｎ ^ｔの一要素λ_ｎ ^ｔを掛け合わせたものと、ｔ番目の話し言葉テキストの単語列Ｘ^ｔから単語の分布α_ｎ ^ｔを求め、その分布α_ｎ ^ｔに単語向けコピー確率Ｍ_ｎ ^ｔの一要素κ_ｎ ^ｔを掛け合わせたものと、ｔ－１番目の書き言葉テキストの単語列Ｙ＾^ｔ－１から単語の分布β_ｎ ^ｔを求め、その分布β_ｎ ^ｔに単語向けコピー確率Ｍ_ｎ ^ｔの一要素μ_ｎ ^ｔを掛け合わせたものとを足し合わせた結果を事後確率P(y_n ^t|y₁ ^t,…,y_n-1 ^t,Y^¹,…,Y^^t-1,X^t,Θ)として出力する関数を用いた。なお、検証用セットは、学習データ用セットに含まれないデータで学習済みのモデルを検証し、パラメータΘを最終調整するために用いた。

図９に例示した通り、実施例１，２の方法を用いることにより、過去のテキストに対してどのような言い換えを行ったかという情報を考慮して、現在のテキストに対する言い換えを行うことができ、文脈に即した高精度な同一言語内翻訳を行うことが可能になることが分かる。

［ハードウェア構成］
各実施形態における系列変換装置１１，２１，３１および機械学習装置１２，２２，３２は、例えば、ＣＰＵ（central processing unit）やＧＰＵ（Graphics Processing Unit）等のプロセッサ（ハードウェア・プロセッサ）やＲＡＭ（random-access memory）・ＲＯＭ（read-only memory）等のメモリ等を備える汎用または専用のコンピュータが所定のプログラムを実行することで構成される装置である。このコンピュータは１個のプロセッサやメモリを備えていてもよいし、複数個のプロセッサやメモリを備えていてもよい。このプログラムはコンピュータにインストールされてもよいし、予めＲＯＭ等に記録されていてもよい。また、ＣＰＵのようにプログラムが読み込まれることで機能構成を実現する電子回路（circuitry）ではなく、単独で処理機能を実現する電子回路を用いて一部またはすべての処理部が構成されてもよい。また、１個の装置を構成する電子回路が複数のＣＰＵを含んでいてもよい。

図１１は、各実施形態における系列変換装置１１，２１，３１および機械学習装置１２，２２，３２のハードウェア構成を例示したブロック図である。図１１に例示するように、この例の系列変換装置１１，２１，３１および機械学習装置１２，２２，３２は、ＣＰＵ（Central Processing Unit）ａ、入力部ｂ、出力部ｃ、ＲＡＭ（Random Access Memory）ｄ、ＲＯＭ（Read Only Memory）ｅ、補助記憶装置ｆ及びバスｇを有している。この例のＣＰＵａは、制御部ａａ、演算部ａｂ及びレジスタａｃを有し、レジスタａｃに読み込まれた各種プログラムに従って様々な演算処理を実行する。また、入力部ｂは、データが入力される入力端子、キーボード、マウス、タッチパネル等である。また、出力部ｃは、データが出力される出力端子、ディスプレイ、所定のプログラムを読み込んだＣＰＵａによって制御されるＬＡＮカード等である。また、ＲＡＭｄは、ＳＲＡＭ (Static Random Access Memory)、ＤＲＡＭ (Dynamic Random Access Memory)等であり、所定のプログラムが格納されるプログラム領域ｄａ及び各種データが格納されるデータ領域ｄｂを有している。また、補助記憶装置ｆは、例えば、ハードディスク、ＭＯ（Magneto-Optical disc）、半導体メモリ等であり、所定のプログラムが格納されるプログラム領域ｆａ及び各種データが格納されるデータ領域ｆｂを有している。また、バスｇは、ＣＰＵａ、入力部ｂ、出力部ｃ、ＲＡＭｄ、ＲＯＭｅ及び補助記憶装置ｆを、情報のやり取りが可能なように接続する。ＣＰＵａは、読み込まれたＯＳ（Operating System）プログラムに従い、補助記憶装置ｆのプログラム領域ｆａに格納されているプログラムをＲＡＭｄのプログラム領域ｄａに書き込む。同様にＣＰＵａは、補助記憶装置ｆのデータ領域ｆｂに格納されている各種データを、ＲＡＭｄのデータ領域ｄｂに書き込む。そして、このプログラムやデータが書き込まれたＲＡＭｄ上のアドレスがＣＰＵａのレジスタａｃに格納される。ＣＰＵａの制御部ａａは、レジスタａｃに格納されたこれらのアドレスを順次読み出し、読み出したアドレスが示すＲＡＭｄ上の領域からプログラムやデータを読み出し、そのプログラムが示す演算を演算部ａｂに順次実行させ、その演算結果をレジスタａｃに格納していく。このような構成により、系列変換装置１１，２１，３１および機械学習装置１２，２２，３２の機能構成が実現される。

上述のプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体の例は非一時的な（non-transitory）記録媒体である。このような記録媒体の例は、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等である。

このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ－ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。上述のように、このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

各実施形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

なお、本発明は上述の実施の形態に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。

１１，２１，３１系列変換装置
１２，２２，３２機械学習装置

Claims

ｔが２以上の整数であり、ｔ番目の第１テキストの単語列Ｘ^ｔ、１番目からｔ－１番目までの第１テキストの単語列の系列Ｘ^１，…，Ｘ^ｔ－１の変換結果である１番目からｔ－１番目までの第２テキストの単語列の系列Ｙ＾^１，…，Ｙ＾^ｔ－１を入力とし、モデルパラメータΘに基づきｔ番目の第１テキストの単語列Ｘ^ｔの変換結果であるｔ番目の第２テキストの単語列Ｙ^ｔに対応する情報を推定する推定部を有し、
前記モデルパラメータΘは、前記第１テキストの単語列と前記第２テキストの単語列の組からなる学習データを用いて前記推定部の処理について機械学習を行って得られたものであり、
前記推定部は、
前記第１テキストの単語列Ｘ^ｔと前記第２テキストの単語列の系列Ｙ＾^１，…，Ｙ＾^ｔ－１とを入力とし、前記モデルパラメータΘに基づいて、前記第１テキストの単語列Ｘ^ｔまたは前記第２テキストの単語列の系列Ｙ＾^１，…，Ｙ＾^ｔ－１から単語をコピーする確率ｐ_ｎ ^ｔを得るコピー確率計算部を含み、
前記確率ｐ_ｎ ^ｔに基づいて前記第１テキストの単語列Ｘ^ｔまたは前記第２テキストの単語列の系列Ｙ＾^１，…，Ｙ＾^ｔ－１から単語をコピーして前記第２テキストの単語列Ｙ^ｔに対応する情報を推定する、系列変換装置。
ｔが２以上の整数であり、ｔ番目の第１テキストの単語列Ｘ^ｔ、１番目からｔ－１番目までの第１テキストの単語列の系列Ｘ^１，…，Ｘ^ｔ－１の変換結果である１番目からｔ－１番目までの第２テキストの単語列の系列Ｙ＾^１，…，Ｙ＾^ｔ－１を入力とし、モデルパラメータΘに基づきｔ番目の第１テキストの単語列Ｘ^ｔの変換結果であるｔ番目の第２テキストの単語列Ｙ^ｔに対応する情報を推定する推定部を有し、
前記モデルパラメータΘはモデルパラメータθ_ｙ，θ_ｘ，θ_ｓ，θ_ν，θ_ｐ，θ_ｗ，θ_ｏを含み、
前記モデルパラメータΘ，θ_ｙ，θ_ｘ，θ_ｓ，θ_ν，θ_ｐ，θ_ｗ，θ_ｏは、前記第１テキストの単語列と前記第２テキストの単語列の組からなる学習データを用いて前記推定部の処理について機械学習を行って得られたものであり、
前記推定部は、
前記第２テキストの単語列の系列Ｙ＾^１，…，Ｙ＾^ｔ－１に対して前記モデルパラメータθ_ｙに基づく変換を行い、ｉ＝１，…，ｔ－１についての第２テキストの単語列Ｙ＾^ｉのテキストベクトルｕ^Ｙ，ｉの系列ｕ^Ｙ，１，…，ｕ^{Ｙ，ｔ－１}を得る第１ベクトル計算部と、
前記第１テキストの単語列Ｘ^ｔに対して前記モデルパラメータθ_ｘに基づく変換を行い、前記第１テキストの単語列Ｘ^ｔのテキストベクトルｕ^Ｘ，ｔを得る第２ベクトル計算部と、
前記系列ｕ^Ｙ，１，…，ｕ^{Ｙ，ｔ－１}に対して前記モデルパラメータθ_νに基づく変換を行い、ｔ－１番目の第２テキスト系列埋め込みベクトルν^ｔ－１を得る第３ベクトル計算部と、
ｎはｔ番目の第２テキストの単語列Ｙ＾^ｔに含まれる単語数以下の正整数であり、前記第２テキストの単語列Ｙ＾^ｔに含まれるｎ番目の単語ｙ_ｎ ^ｔよりも過去の単語列ｙ_１ ^ｔ，…，ｙ_ｎ－１ ^ｔ、および、前記テキストベクトルｕ^Ｘ，ｔに対して、前記モデルパラメータθ_ｓに基づく変換を行い、前記第１テキストを考慮したｔ番目の第２テキストの単語列Ｙ＾^ｔのｎ番目の単語向けの文脈ベクトルｓ_ｎ ^ｔを得る文脈ベクトル計算部と、
前記第２テキスト系列埋め込みベクトルν^ｔ－１および前記文脈ベクトルｓ_ｎ ^ｔに対して、前記モデルパラメータθ_ｐに基づく変換を行い、ｔ番目の第２テキストの単語列Ｙ＾^ｔのｎ番目の単語向けコピー確率ｐ_ｎ ^ｔを得るコピー確率計算部と、
前記第２テキスト系列埋め込みベクトルν^ｔ－１および前記文脈ベクトルｓ_ｎ ^ｔに対して、前記モデルパラメータθ_ｗに基づく変換を行い、前記単語ｙ_ｎ ^ｔについての事後確率Ｐ（ｙ_ｎ ^ｔ）を得る第１事後確率計算部と、
前記第１テキストの単語列Ｘ^ｔ、前記事後確率Ｐ（ｙ_ｎ ^ｔ）、および前記コピー確率ｐ_ｎ ^ｔに対して、前記モデルパラメータθ_ｏに基づく変換を行い、前記第１テキストの単語列Ｘ^ｔ、前記第２テキストの単語列の系列Ｙ＾^１，…，Ｙ＾^ｔ－１、および前記モデルパラメータΘが与えられた場合における、前記第２テキストの単語列Ｙ^ｔの事後確率Ｐ（Ｙ^ｔ｜Ｙ＾^１，…，Ｙ＾^ｔ－１，Ｘ^ｔ，Θ）に対応する事後確率Ｐ（ｙ_ｎ ^ｔ｜ｙ_１ ^ｔ，…，ｙ_ｎ－１ ^ｔ，Ｙ＾^１，…，Ｙ＾^ｔ－１，Ｘ^ｔ，Θ）を得る第２事後確率計算部と、
を有する系列変換装置。
ｔが２以上の整数であり、ｔ番目の第１テキストの単語列Ｘ^ｔ、１番目からｔ－１番目までの第１テキストの単語列の系列Ｘ^１，…，Ｘ^ｔ－１の変換結果である１番目からｔ－１番目までの第２テキストの単語列の系列Ｙ＾^１，…，Ｙ＾^ｔ－１を入力とし、モデルパラメータΘに基づきｔ番目の第１テキストの単語列Ｘ^ｔの変換結果であるｔ番目の第２テキストの単語列Ｙ^ｔに対応する情報を推定する推定部を有し、
前記モデルパラメータΘはモデルパラメータθ_ｙ，θ_ｘ，θ_ｓ，θ_ν，θ_ｑ，θ_ｄ，θ_ｍ，θ_ａを含み、
前記モデルパラメータΘ，θ_ｙ，θ_ｘ，θ_ｓ，θ_ν，θ_ｑ，θ_ｄ，θ_ｍ，θ_ａは、前記第１テキストの単語列と前記第２テキストの単語列の組からなる学習データを用いて前記推定部の処理について機械学習を行って得られたものであり、
前記推定部は、
前記第２テキストの単語列の系列Ｙ＾^１，…，Ｙ＾^ｔ－１に対して前記モデルパラメータθ_ｙに基づく変換を行い、ｉ＝１，…，ｔ－１についての第２テキストの単語列Ｙ＾^ｉのテキストベクトルｕ^Ｙ，ｉの系列ｕ^Ｙ，１，…，ｕ^{Ｙ，ｔ－１}を得る第１ベクトル計算部と、
前記第１テキストの単語列Ｘ^ｔに対して前記モデルパラメータθ_ｘに基づく変換を行い、前記第１テキストの単語列Ｘ^ｔのテキストベクトルｕ^Ｘ，ｔを得る第２ベクトル計算部と、
前記系列ｕ^Ｙ，１，…，ｕ^{Ｙ，ｔ－２}に対して前記モデルパラメータθ_νに基づく変換を行い、ｔ－２番目の第２テキスト系列埋め込みベクトルν^ｔ－２を得る第３ベクトル計算部と、
ｎはｔ番目の第２テキストの単語列Ｙ＾^ｔに含まれる単語数以下の正整数であり、前記第２テキストの単語列Ｙ＾^ｔに含まれるｎ番目の単語ｙ_ｎ ^ｔよりも過去の単語列ｙ_１ ^ｔ，…，ｙ_ｎ－１ ^ｔ、および前記テキストベクトルｕ^Ｘ，ｔに対して、前記モデルパラメータθ_ｓに基づく変換を行い、前記第１テキストを考慮したｔ番目の第２テキストの単語列Ｙ＾^ｔのｎ番目の単語向けの文脈ベクトルｓ_ｎ ^ｔを得る第１文脈ベクトル計算部と、
前記単語列ｙ_１ ^ｔ，…，ｙ_ｎ－１ ^ｔ、前記第２テキスト系列埋め込みベクトルν^ｔ－２、および前記系列ｕ^{Ｙ，ｔ－１}に対して前記モデルパラメータθ_ｑに基づく変換を行い、過去の前記第２テキストを考慮したｔ番目の第２テキストの単語列Ｙ＾^ｔのｎ番目の単語向けの文脈ベクトルｑ_ｎ ^ｔを得る第２文脈ベクトル計算部と、
前記文脈ベクトルｓ_ｎ ^ｔ、ｔ－１番目の第２テキストの単語列Ｙ＾^ｔ－１、および前記ｔ番目の第２テキストの単語列Ｙ＾^ｔのｎ番目の単語向けの文脈ベクトルｑ_ｎ ^ｔに対して、前記モデルパラメータθ_ｍに基づく変換を行い、ｔ番目の第２テキストの単語列Ｙ＾^ｔのｎ番目の単語向けコピー確率Ｍ_ｎ ^ｔを得るコピーベクトル確率計算部と、
前記文脈ベクトルｓ_ｎ ^ｔおよび前記ｔ番目の第２テキストの単語列Ｙ＾^ｔのｎ番目の単語向けの文脈ベクトルｑ_ｎ ^ｔに対して、前記モデルパラメータθ_ｄに基づく変換を行い、前記単語ｙ_ｎ ^ｔについての事後確率Ｐ（ｙ_ｎ ^ｔ）を得る第１事後確率計算部と、
前記第１テキストの単語列Ｘ^ｔ、ｔ－１番目の第２テキストの単語列Ｙ＾^ｔ－１、前記事後確率Ｐ（ｙ_ｎ ^ｔ）、前記コピー確率Ｍ_ｎ ^ｔに対して、前記モデルパラメータθ_ａに基づく変換を行い、前記第１テキストの単語列Ｘ^ｔ、前記第２テキストの単語列の系列Ｙ＾^１，…，Ｙ＾^ｔ－１、および前記モデルパラメータΘが与えられた場合における、前記第２テキストの単語列Ｙ^ｔの事後確率Ｐ（Ｙ^ｔ｜Ｙ＾^１，…，Ｙ＾^ｔ－１，Ｘ^ｔ，Θ）に対応する事後確率Ｐ（ｙ_ｎ ^ｔ｜ｙ_１ ^ｔ，…，ｙ_ｎ－１ ^ｔ，Ｙ＾^１，…，Ｙ＾^ｔ－１，Ｘ^ｔ，Θ）を得る第２事後確率計算部と、
を有する系列変換装置。
ｔが２以上の整数であり、Ｘ^ｉが第１テキストの単語列であり、Ｙ^ｉがＸ^ｉから書き換えられる第２テキストの単語列であり、前記第２テキストの単語列Ａ^ｉと前記第１テキストの単語列Ｂ^ｉとの組の系列を学習データとした機械学習を行い、ｔ番目の第１テキストの単語列Ｘ^ｔ、１番目からｔ－１番目までの第１テキストの単語列の系列Ｘ^１，…，Ｘ^ｔ－１の変換結果である１番目からｔ－１番目までの第２テキストの単語列の系列Ｙ＾^１，…，Ｙ＾^ｔ－１を入力とし、モデルパラメータΘに基づきｔ番目の第１テキストの単語列Ｘ^ｔの変換結果であるｔ番目の第２テキストの単語列Ｙ^ｔに対応する情報を推定するモデルの前記モデルパラメータΘを得る学習部を有し、
前記モデルは、
前記第１テキストの単語列Ｘ^ｔと前記第２テキストの単語列の系列Ｙ＾^１，…，Ｙ＾^ｔ－１とを入力とし、前記モデルパラメータΘに基づいて、前記第１テキストの単語列Ｘ^ｔまたは前記第２テキストの単語列の系列Ｙ＾^１，…，Ｙ＾^ｔ－１から単語をコピーする確率ｐ_ｎ ^ｔを得るコピー確率計算ステップを含む処理を実行するためのものであり、
前記確率ｐ_ｎ ^ｔに基づいて前記第１テキストの単語列Ｘ^ｔまたは前記第２テキストの単語列の系列Ｙ＾^１，…，Ｙ＾^ｔ－１から単語をコピーして前記第２テキストの単語列Ｙ^ｔに対応する情報を推定する、
機械学習装置。
ｔが２以上の整数であり、Ｘ^ｉが第１テキストの単語列であり、Ｙ^ｉがＸ^ｉから書き換えられる第２テキストの単語列であり、前記第２テキストの単語列Ａ^ｉと前記第１テキストの単語列Ｂ^ｉとの組の系列を学習データとした機械学習を行い、ｔ番目の第１テキストの単語列Ｘ^ｔ、１番目からｔ－１番目までの第１テキストの単語列の系列Ｘ^１，…，Ｘ^ｔ－１の変換結果である１番目からｔ－１番目までの第２テキストの単語列の系列Ｙ＾^１，…，Ｙ＾^ｔ－１を入力とし、モデルパラメータΘに基づきｔ番目の第１テキストの単語列Ｘ^ｔの変換結果であるｔ番目の第２テキストの単語列Ｙ^ｔに対応する情報を推定するモデルの前記モデルパラメータΘを得る学習部を有し、
前記モデルパラメータΘはモデルパラメータθ_ｙ，θ_ｘ，θ_ｓ，θ_ν，θ_ｐ，θ_ｗ，θ_ｏを含み、
前記モデルパラメータθ_ｙ，θ_ｘ，θ_ｓ，θ_ν，θ_ｐ，θ_ｗ，θ_ｏは前記機械学習を行って得られたものであり、
前記モデルは、
前記第２テキストの単語列の系列Ｙ＾^１，…，Ｙ＾^ｔ－１に対して前記モデルパラメータθ_ｙに基づく変換を行い、ｉ＝１，…，ｔ－１についての第２テキストの単語列Ｙ＾^ｉのテキストベクトルｕ^Ｙ，ｉの系列ｕ^Ｙ，１，…，ｕ^{Ｙ，ｔ－１}を得る第１ベクトル計算ステップと、
前記第１テキストの単語列Ｘ^ｔに対して前記モデルパラメータθ_ｘに基づく変換を行い、前記第１テキストの単語列Ｘ^ｔのテキストベクトルｕ^Ｘ，ｔを得る第２ベクトル計算ステップと、
前記系列ｕ^Ｙ，１，…，ｕ^{Ｙ，ｔ－１}に対して前記モデルパラメータθ_νに基づく変換を行い、ｔ－１番目の第２テキスト系列埋め込みベクトルν^ｔ－１を得る第３ベクトル計算ステップと、
ｎはｔ番目の第２テキストの単語列Ｙ＾^ｔに含まれる単語数以下の正整数であり、前記第２テキストの単語列Ｙ＾^ｔに含まれるｎ番目の単語ｙ_ｎ ^ｔよりも過去の単語列ｙ_１ ^ｔ，…，ｙ_ｎ－１ ^ｔ、および、前記テキストベクトルｕ^Ｘ，ｔに対して、前記モデルパラメータθ_ｓに基づく変換を行い、前記第１テキストを考慮したｔ番目の第２テキストの単語列Ｙ＾^ｔのｎ番目の単語向けの文脈ベクトルｓ_ｎ ^ｔを得る文脈ベクトル計算ステップと、
前記第２テキスト系列埋め込みベクトルν^ｔ－１および前記文脈ベクトルｓ_ｎ ^ｔに対して、前記モデルパラメータθ_ｐに基づく変換を行い、ｔ番目の第２テキストの単語列Ｙ＾^ｔのｎ番目の単語向けコピー確率ｐ_ｎ ^ｔを得るコピー確率計算ステップと、
前記第２テキスト系列埋め込みベクトルν^ｔ－１および前記文脈ベクトルｓ_ｎ ^ｔに対して、前記モデルパラメータθ_ｗに基づく変換を行い、前記単語ｙ_ｎ ^ｔについての事後確率Ｐ（ｙ_ｎ ^ｔ）を得る第１事後確率計算ステップと、
前記第１テキストの単語列Ｘ^ｔ、前記事後確率Ｐ（ｙ_ｎ ^ｔ）、および前記コピー確率ｐ_ｎ ^ｔに対して、前記モデルパラメータθ_ｏに基づく変換を行い、前記第１テキストの単語列Ｘ^ｔ、前記第２テキストの単語列の系列Ｙ＾^１，…，Ｙ＾^ｔ－１、および前記モデルパラメータΘが与えられた場合における、前記第２テキストの単語列Ｙ^ｔの事後確率Ｐ（Ｙ^ｔ｜Ｙ＾^１，…，Ｙ＾^ｔ－１，Ｘ^ｔ，Θ）に対応する事後確率Ｐ（ｙ_ｎ ^ｔ｜ｙ_１ ^ｔ，…，ｙ_ｎ－１ ^ｔ，Ｙ＾^１，…，Ｙ＾^ｔ－１，Ｘ^ｔ，Θ）を得る第２事後確率計算ステップと、を含む処理を実行するためのものである、機械学習装置。
ｔが２以上の整数であり、Ｘ^ｉが第１テキストの単語列であり、Ｙ^ｉがＸ^ｉから書き換えられる第２テキストの単語列であり、前記第２テキストの単語列Ａ^ｉと前記第１テキストの単語列Ｂ^ｉとの組の系列を学習データとした機械学習を行い、ｔ番目の第１テキストの単語列Ｘ^ｔ、１番目からｔ－１番目までの第１テキストの単語列の系列Ｘ^１，…，Ｘ^ｔ－１の変換結果である１番目からｔ－１番目までの第２テキストの単語列の系列Ｙ＾^１，…，Ｙ＾^ｔ－１を入力とし、モデルパラメータΘに基づきｔ番目の第１テキストの単語列Ｘ^ｔの変換結果であるｔ番目の第２テキストの単語列Ｙ^ｔに対応する情報を推定するモデルの前記モデルパラメータΘを得る学習部を有し、
前記モデルパラメータΘはモデルパラメータθ_ｙ，θ_ｘ，θ_ｓ，θ_ν，θ_ｑ，θ_ｄ，θ_ｍ，θ_ａを含み、
前記モデルパラメータθ_ｙ，θ_ｘ，θ_ｓ，θ_ν，θ_ｑ，θ_ｄ，θ_ｍ，θ_ａは前記機械学習を行って得られたものであり、
前記モデルは、
前記第２テキストの単語列の系列Ｙ＾^１，…，Ｙ＾^ｔ－１に対して前記モデルパラメータθ_ｙに基づく変換を行い、ｉ＝１，…，ｔ－１についての第２テキストの単語列Ｙ＾^ｉのテキストベクトルｕ^Ｙ，ｉの系列ｕ^Ｙ，１，…，ｕ^{Ｙ，ｔ－１}を得る第１ベクトル計算ステップと、
前記第１テキストの単語列Ｘ^ｔに対して前記モデルパラメータθ_ｘに基づく変換を行い、前記第１テキストの単語列Ｘ^ｔのテキストベクトルｕ^Ｘ，ｔを得る第２ベクトル計算ステップと、
前記系列ｕ^Ｙ，１，…，ｕ^{Ｙ，ｔ－２}に対して前記モデルパラメータθ_νに基づく変換を行い、ｔ－２番目の第２テキスト系列埋め込みベクトルν^ｔ－２を得る第３ベクトル計算ステップと、
ｎはｔ番目の第２テキストの単語列Ｙ＾^ｔに含まれる単語数以下の正整数であり、前記第２テキストの単語列Ｙ＾^ｔに含まれるｎ番目の単語ｙ_ｎ ^ｔよりも過去の単語列ｙ_１ ^ｔ，…，ｙ_ｎ－１ ^ｔ、および前記テキストベクトルｕ^Ｘ，ｔに対して、前記モデルパラメータθ_ｓに基づく変換を行い、前記第１テキストを考慮したｔ番目の第２テキストの単語列Ｙ＾^ｔのｎ番目の単語向けの文脈ベクトルｓ_ｎ ^ｔを得る第１文脈ベクトル計算ステップと、
前記単語列ｙ_１ ^ｔ，…，ｙ_ｎ－１ ^ｔ、前記第２テキスト系列埋め込みベクトルν^ｔ－２、および前記系列ｕ^{Ｙ，ｔ－１}に対して前記モデルパラメータθ_ｑに基づく変換を行い、過去の前記第２テキストを考慮したｔ番目の第２テキストの単語列Ｙ＾^ｔのｎ番目の単語向けの文脈ベクトルｑ_ｎ ^ｔを得る第２文脈ベクトル計算ステップと、
前記文脈ベクトルｓ_ｎ ^ｔ、ｔ－１番目の第２テキストの単語列Ｙ＾^ｔ－１、および前記ｔ番目の第２テキストの単語列Ｙ＾^ｔのｎ番目の単語向けの文脈ベクトルｑ_ｎ ^ｔに対して、前記モデルパラメータθ_ｍに基づく変換を行い、ｔ番目の第２テキストの単語列Ｙ＾^ｔのｎ番目の単語向けコピー確率Ｍ_ｎ ^ｔを得るコピーベクトル確率計算ステップと、
前記文脈ベクトルｓ_ｎ ^ｔおよび前記ｔ番目の第２テキストの単語列Ｙ＾^ｔのｎ番目の単語向けの文脈ベクトルｑ_ｎ ^ｔに対して、前記モデルパラメータθ_ｄに基づく変換を行い、前記単語ｙ_ｎ ^ｔについての事後確率Ｐ（ｙ_ｎ ^ｔ）を得る第１事後確率計算ステップと、
前記第１テキストの単語列Ｘ^ｔ、ｔ－１番目の第２テキストの単語列Ｙ＾^ｔ－１、前記事後確率Ｐ（ｙ_ｎ ^ｔ）、前記コピー確率Ｍ_ｎ ^ｔに対して、前記モデルパラメータθ_ａに基づく変換を行い、前記第１テキストの単語列Ｘ^ｔ、前記第２テキストの単語列の系列Ｙ＾^１，…，Ｙ＾^ｔ－１、および前記モデルパラメータΘが与えられた場合における、前記第２テキストの単語列Ｙ^ｔの事後確率Ｐ（Ｙ^ｔ｜Ｙ＾^１，…，Ｙ＾^ｔ－１，Ｘ^ｔ，Θ）に対応する事後確率Ｐ（ｙ_ｎ ^ｔ｜ｙ_１ ^ｔ，…，ｙ_ｎ－１ ^ｔ，Ｙ＾^１，…，Ｙ＾^ｔ－１，Ｘ^ｔ，Θ）を得る第２事後確率計算ステップと、を含む処理を実行するためのものである、
機械学習装置。
系列変換装置によって実行される系列変換方法であって、
ｔが２以上の整数であり、ｔ番目の第１テキストの単語列Ｘ^ｔ、１番目からｔ－１番目までの第１テキストの単語列の系列Ｘ^１，…，Ｘ^ｔ－１の変換結果である１番目からｔ－１番目までの第２テキストの単語列の系列Ｙ＾^１，…，Ｙ＾^ｔ－１を入力とし、モデルパラメータΘに基づきｔ番目の第１テキストの単語列Ｘ^ｔの変換結果であるｔ番目の第２テキストの単語列Ｙ^ｔに対応する情報を推定する推定ステップを有し、
前記モデルパラメータΘは、前記第１テキストの単語列と前記第２テキストの単語列の組からなる学習データを用いて前記推定ステップの処理について機械学習を行って得られたものであり、
前記推定ステップは、
前記第１テキストの単語列Ｘ^ｔと前記第２テキストの単語列の系列Ｙ＾^１，…，Ｙ＾^ｔ－１とを入力とし、前記モデルパラメータΘに基づいて、前記第１テキストの単語列Ｘ^ｔまたは前記第２テキストの単語列の系列Ｙ＾^１，…，Ｙ＾^ｔ－１から単語をコピーする確率ｐ_ｎ ^ｔを得るコピー確率計算ステップを含み、
前記確率ｐ_ｎ ^ｔに基づいて前記第１テキストの単語列Ｘ^ｔまたは前記第２テキストの単語列の系列Ｙ＾^１，…，Ｙ＾^ｔ－１から単語をコピーして前記第２テキストの単語列Ｙ^ｔに対応する情報を推定する、系列変換方法。
系列変換装置によって実行される系列変換方法であって、
ｔが２以上の整数であり、ｔ番目の第１テキストの単語列Ｘ^ｔ、１番目からｔ－１番目までの第１テキストの単語列の系列Ｘ^１，…，Ｘ^ｔ－１の変換結果である１番目からｔ－１番目までの第２テキストの単語列の系列Ｙ＾^１，…，Ｙ＾^ｔ－１を入力とし、モデルパラメータΘに基づきｔ番目の第１テキストの単語列Ｘ^ｔの変換結果であるｔ番目の第２テキストの単語列Ｙ^ｔに対応する情報を推定する推定ステップを有し、
前記モデルパラメータΘはモデルパラメータθ_ｙ，θ_ｘ，θ_ｓ，θ_ν，θ_ｐ，θ_ｗ，θ_ｏを含み、
前記モデルパラメータΘ，θ_ｙ，θ_ｘ，θ_ｓ，θ_ν，θ_ｐ，θ_ｗ，θ_ｏは、前記第１テキストの単語列と前記第２テキストの単語列の組からなる学習データを用いて前記推定ステップの処理について機械学習を行って得られたものであり、前記推定ステップは、
前記第２テキストの単語列の系列Ｙ＾^１，…，Ｙ＾^ｔ－１に対して前記モデルパラメータθ_ｙに基づく変換を行い、ｉ＝１，…，ｔ－１についての第２テキストの単語列Ｙ＾^ｉのテキストベクトルｕ^Ｙ，ｉの系列ｕ^Ｙ，１，…，ｕ^{Ｙ，ｔ－１}を得る第１ベクトル計算ステップと、
前記第１テキストの単語列Ｘ^ｔに対して前記モデルパラメータθ_ｘに基づく変換を行い、前記第１テキストの単語列Ｘ^ｔのテキストベクトルｕ^Ｘ，ｔを得る第２ベクトル計算ステップと、
前記系列ｕ^Ｙ，１，…，ｕ^{Ｙ，ｔ－１}に対して前記モデルパラメータθ_νに基づく変換を行い、ｔ－１番目の第２テキスト系列埋め込みベクトルν^ｔ－１を得る第３ベクトル計算ステップと、
ｎはｔ番目の第２テキストの単語列Ｙ＾^ｔに含まれる単語数以下の正整数であり、前記第２テキストの単語列Ｙ＾^ｔに含まれるｎ番目の単語ｙ_ｎ ^ｔよりも過去の単語列ｙ_１ ^ｔ，…，ｙ_ｎ－１ ^ｔ、および、前記テキストベクトルｕ^Ｘ，ｔに対して、前記モデルパラメータθ_ｓに基づく変換を行い、前記第１テキストを考慮したｔ番目の第２テキストの単語列Ｙ＾^ｔのｎ番目の単語向けの文脈ベクトルｓ_ｎ ^ｔを得る文脈ベクトル計算ステップと、
前記第２テキスト系列埋め込みベクトルν^ｔ－１および前記文脈ベクトルｓ_ｎ ^ｔに対して、前記モデルパラメータθ_ｐに基づく変換を行い、ｔ番目の第２テキストの単語列Ｙ＾^ｔのｎ番目の単語向けコピー確率ｐ_ｎ ^ｔを得るコピー確率計算ステップと、
前記第２テキスト系列埋め込みベクトルν^ｔ－１および前記文脈ベクトルｓ_ｎ ^ｔに対して、前記モデルパラメータθ_ｗに基づく変換を行い、前記単語ｙ_ｎ ^ｔについての事後確率Ｐ（ｙ_ｎ ^ｔ）を得る第１事後確率計算ステップと、
前記第１テキストの単語列Ｘ^ｔ、前記事後確率Ｐ（ｙ_ｎ ^ｔ）、および前記コピー確率ｐ_ｎ ^ｔに対して、前記モデルパラメータθ_ｏに基づく変換を行い、前記第１テキストの単語列Ｘ^ｔ、前記第２テキストの単語列の系列Ｙ＾^１，…，Ｙ＾^ｔ－１、および前記モデルパラメータΘが与えられた場合における、前記第２テキストの単語列Ｙ^ｔの事後確率Ｐ（Ｙ^ｔ｜Ｙ＾^１，…，Ｙ＾^ｔ－１，Ｘ^ｔ，Θ）に対応する事後確率Ｐ（ｙ_ｎ ^ｔ｜ｙ_１ ^ｔ，…，ｙ_ｎ－１ ^ｔ，Ｙ＾^１，…，Ｙ＾^ｔ－１，Ｘ^ｔ，Θ）を得る第２事後確率計算ステップと、
を有する系列変換方法。
系列変換装置によって実行される系列変換方法であって、
ｔが２以上の整数であり、ｔ番目の第１テキストの単語列Ｘ^ｔ、１番目からｔ－１番目までの第１テキストの単語列の系列Ｘ^１，…，Ｘ^ｔ－１の変換結果である１番目からｔ－１番目までの第２テキストの単語列の系列Ｙ＾^１，…，Ｙ＾^ｔ－１を入力とし、モデルパラメータΘに基づきｔ番目の第１テキストの単語列Ｘ^ｔの変換結果であるｔ番目の第２テキストの単語列Ｙ^ｔに対応する情報を推定する推定ステップを有し、
前記モデルパラメータΘはモデルパラメータθ_ｙ，θ_ｘ，θ_ｓ，θ_ν，θ_ｑ，θ_ｄ，θ_ｍ，θ_ａを含み、
前記モデルパラメータΘ，θ_ｙ，θ_ｘ，θ_ｓ，θ_ν，θ_ｑ，θ_ｄ，θ_ｍ，θ_ａは、前記第１テキストの単語列と前記第２テキストの単語列の組からなる学習データを用いて前記推定ステップの処理について機械学習を行って得られたものであり、
前記推定ステップは、
前記第２テキストの単語列の系列Ｙ＾^１，…，Ｙ＾^ｔ－１に対して前記モデルパラメータθ_ｙに基づく変換を行い、ｉ＝１，…，ｔ－１についての第２テキストの単語列Ｙ＾^ｉのテキストベクトルｕ^Ｙ，ｉの系列ｕ^Ｙ，１，…，ｕ^{Ｙ，ｔ－１}を得る第１ベクトル計算ステップと、
前記第１テキストの単語列Ｘ^ｔに対して前記モデルパラメータθ_ｘに基づく変換を行い、前記第１テキストの単語列Ｘ^ｔのテキストベクトルｕ^Ｘ，ｔを得る第２ベクトル計算ステップと、
前記系列ｕ^Ｙ，１，…，ｕ^{Ｙ，ｔ－２}に対して前記モデルパラメータθ_νに基づく変換を行い、ｔ－２番目の第２テキスト系列埋め込みベクトルν^ｔ－２を得る第３ベクトル計算ステップと、
ｎはｔ番目の第２テキストの単語列Ｙ＾^ｔに含まれる単語数以下の正整数であり、前記第２テキストの単語列Ｙ＾^ｔに含まれるｎ番目の単語ｙ_ｎ ^ｔよりも過去の単語列ｙ_１ ^ｔ，…，ｙ_ｎ－１ ^ｔ、および前記テキストベクトルｕ^Ｘ，ｔに対して、前記モデルパラメータθ_ｓに基づく変換を行い、前記第１テキストを考慮したｔ番目の第２テキストの単語列Ｙ＾^ｔのｎ番目の単語向けの文脈ベクトルｓ_ｎ ^ｔを得る第１文脈ベクトル計算ステップと、
前記単語列ｙ_１ ^ｔ，…，ｙ_ｎ－１ ^ｔ、前記第２テキスト系列埋め込みベクトルν^ｔ－２、および前記系列ｕ^{Ｙ，ｔ－１}に対して前記モデルパラメータθ_ｑに基づく変換を行い、過去の前記第２テキストを考慮したｔ番目の第２テキストの単語列Ｙ＾^ｔのｎ番目の単語向けの文脈ベクトルｑ_ｎ ^ｔを得る第２文脈ベクトル計算ステップと、
前記文脈ベクトルｓ_ｎ ^ｔ、ｔ－１番目の第２テキストの単語列Ｙ＾^ｔ－１、および前記ｔ番目の第２テキストの単語列Ｙ＾^ｔのｎ番目の単語向けの文脈ベクトルｑ_ｎ ^ｔに対して、前記モデルパラメータθ_ｍに基づく変換を行い、ｔ番目の第２テキストの単語列Ｙ＾^ｔのｎ番目の単語向けコピー確率Ｍ_ｎ ^ｔを得るコピーベクトル確率計算ステップと、
前記文脈ベクトルｓ_ｎ ^ｔおよび前記ｔ番目の第２テキストの単語列Ｙ＾^ｔのｎ番目の単語向けの文脈ベクトルｑ_ｎ ^ｔに対して、前記モデルパラメータθ_ｄに基づく変換を行い、前記単語ｙ_ｎ ^ｔについての事後確率Ｐ（ｙ_ｎ ^ｔ）を得る第１事後確率計算ステップと、
前記第１テキストの単語列Ｘ^ｔ、ｔ－１番目の第２テキストの単語列Ｙ＾^ｔ－１、前記事後確率Ｐ（ｙ_ｎ ^ｔ）、前記コピー確率Ｍ_ｎ ^ｔに対して、前記モデルパラメータθ_ａに基づく変換を行い、前記第１テキストの単語列Ｘ^ｔ、前記第２テキストの単語列の系列Ｙ＾^１，…，Ｙ＾^ｔ－１、および前記モデルパラメータΘが与えられた場合における、前記第２テキストの単語列Ｙ^ｔの事後確率Ｐ（Ｙ^ｔ｜Ｙ＾^１，…，Ｙ＾^ｔ－１，Ｘ^ｔ，Θ）に対応する事後確率Ｐ（ｙ_ｎ ^ｔ｜ｙ_１ ^ｔ，…，ｙ_ｎ－１ ^ｔ，Ｙ＾^１，…，Ｙ＾^ｔ－１，Ｘ^ｔ，Θ）を得る第２事後確率計算ステップと、
を有する系列変換方法。
ｔが２以上の整数であり、Ｘ^ｉが第１テキストの単語列であり、Ｙ^ｉがＸ^ｉから書き換えられる第２テキストの単語列であり、前記第２テキストの単語列Ａ^ｉと前記第１テキストの単語列Ｂ^ｉとの組の系列を学習データとした機械学習を行い、ｔ番目の第１テキストの単語列Ｘ^ｔ、１番目からｔ－１番目までの第１テキストの単語列の系列Ｘ^１，…，Ｘ^ｔ－１の変換結果である１番目からｔ－１番目までの第２テキストの単語列の系列Ｙ＾^１，…，Ｙ＾^ｔ－１を入力とし、モデルパラメータΘに基づきｔ番目の第１テキストの単語列Ｘ^ｔの変換結果であるｔ番目の第２テキストの単語列Ｙ^ｔに対応する情報を推定するモデルの前記モデルパラメータΘを得る学習ステップを有し、
前記モデルは、
前記第１テキストの単語列Ｘ^ｔと前記第２テキストの単語列の系列Ｙ＾^１，…，Ｙ＾^ｔ－１とを入力とし、前記モデルパラメータΘに基づいて、前記第１テキストの単語列Ｘ^ｔまたは前記第２テキストの単語列の系列Ｙ＾^１，…，Ｙ＾^ｔ－１から単語をコピーする確率ｐ_ｎ ^ｔを得るコピー確率計算ステップを含む処理を実行するためのものであり、
前記確率ｐ_ｎ ^ｔに基づいて前記第１テキストの単語列Ｘ^ｔまたは前記第２テキストの単語列の系列Ｙ＾^１，…，Ｙ＾^ｔ－１から単語をコピーして前記第２テキストの単語列Ｙ^ｔに対応する情報を推定する、
機械学習方法。
ｔが２以上の整数であり、Ｘ^ｉが第１テキストの単語列であり、Ｙ^ｉがＸ^ｉから書き換えられる第２テキストの単語列であり、前記第２テキストの単語列Ａ^ｉと前記第１テキストの単語列Ｂ^ｉとの組の系列を学習データとした機械学習を行い、ｔ番目の第１テキストの単語列Ｘ^ｔ、１番目からｔ－１番目までの第１テキストの単語列の系列Ｘ^１，…，Ｘ^ｔ－１の変換結果である１番目からｔ－１番目までの第２テキストの単語列の系列Ｙ＾^１，…，Ｙ＾^ｔ－１を入力とし、モデルパラメータΘに基づきｔ番目の第１テキストの単語列Ｘ^ｔの変換結果であるｔ番目の第２テキストの単語列Ｙ^ｔに対応する情報を推定するモデルの前記モデルパラメータΘを得る学習ステップを有し、
前記モデルパラメータΘはモデルパラメータθ_ｙ，θ_ｘ，θ_ｓ，θ_ν，θ_ｐ，θ_ｗ，θ_ｏを含み、
前記モデルパラメータθ_ｙ，θ_ｘ，θ_ｓ，θ_ν，θ_ｐ，θ_ｗ，θ_ｏは前記機械学習を行って得られたものであり、
前記モデルは、
前記第２テキストの単語列の系列Ｙ＾^１，…，Ｙ＾^ｔ－１に対して前記モデルパラメータθ_ｙに基づく変換を行い、ｉ＝１，…，ｔ－１についての第２テキストの単語列Ｙ＾^ｉのテキストベクトルｕ^Ｙ，ｉの系列ｕ^Ｙ，１，…，ｕ^{Ｙ，ｔ－１}を得る第１ベクトル計算ステップと、
前記第１テキストの単語列Ｘ^ｔに対して前記モデルパラメータθ_ｘに基づく変換を行い、前記第１テキストの単語列Ｘ^ｔのテキストベクトルｕ^Ｘ，ｔを得る第２ベクトル計算ステップと、
前記系列ｕ^Ｙ，１，…，ｕ^{Ｙ，ｔ－１}に対して前記モデルパラメータθ_νに基づく変換を行い、ｔ－１番目の第２テキスト系列埋め込みベクトルν^ｔ－１を得る第３ベクトル計算ステップと、
ｎはｔ番目の第２テキストの単語列Ｙ＾^ｔに含まれる単語数以下の正整数であり、前記第２テキストの単語列Ｙ＾^ｔに含まれるｎ番目の単語ｙ_ｎ ^ｔよりも過去の単語列ｙ_１ ^ｔ，…，ｙ_ｎ－１ ^ｔ、および、前記テキストベクトルｕ^Ｘ，ｔに対して、前記モデルパラメータθ_ｓに基づく変換を行い、前記第１テキストを考慮したｔ番目の第２テキストの単語列Ｙ＾^ｔのｎ番目の単語向けの文脈ベクトルｓ_ｎ ^ｔを得る文脈ベクトル計算ステップと、
前記第２テキスト系列埋め込みベクトルν^ｔ－１および前記文脈ベクトルｓ_ｎ ^ｔに対して、前記モデルパラメータθ_ｐに基づく変換を行い、ｔ番目の第２テキストの単語列Ｙ＾^ｔのｎ番目の単語向けコピー確率ｐ_ｎ ^ｔを得るコピー確率計算ステップと、
前記第２テキスト系列埋め込みベクトルν^ｔ－１および前記文脈ベクトルｓ_ｎ ^ｔに対して、前記モデルパラメータθ_ｗに基づく変換を行い、前記単語ｙ_ｎ ^ｔについての事後確率Ｐ（ｙ_ｎ ^ｔ）を得る第１事後確率計算ステップと、
前記第１テキストの単語列Ｘ^ｔ、前記事後確率Ｐ（ｙ_ｎ ^ｔ）、および前記コピー確率ｐ_ｎ ^ｔに対して、前記モデルパラメータθ_ｏに基づく変換を行い、前記第１テキストの単語列Ｘ^ｔ、前記第２テキストの単語列の系列Ｙ＾^１，…，Ｙ＾^ｔ－１、および前記モデルパラメータΘが与えられた場合における、前記第２テキストの単語列Ｙ^ｔの事後確率Ｐ（Ｙ^ｔ｜Ｙ＾^１，…，Ｙ＾^ｔ－１，Ｘ^ｔ，Θ）に対応する事後確率Ｐ（ｙ_ｎ ^ｔ｜ｙ_１ ^ｔ，…，ｙ_ｎ－１ ^ｔ，Ｙ＾^１，…，Ｙ＾^ｔ－１，Ｘ^ｔ，Θ）を得る第２事後確率計算ステップと、を含む処理を実行するためのものである、
機械学習方法。
ｔが２以上の整数であり、Ｘ^ｉが第１テキストの単語列であり、Ｙ^ｉがＸ^ｉから書き換えられる第２テキストの単語列であり、前記第２テキストの単語列Ａ^ｉと前記第１テキストの単語列Ｂ^ｉとの組の系列を学習データとした機械学習を行い、ｔ番目の第１テキストの単語列Ｘ^ｔ、１番目からｔ－１番目までの第１テキストの単語列の系列Ｘ^１，…，Ｘ^ｔ－１の変換結果である１番目からｔ－１番目までの第２テキストの単語列の系列Ｙ＾^１，…，Ｙ＾^ｔ－１を入力とし、モデルパラメータΘに基づきｔ番目の第１テキストの単語列Ｘ^ｔの変換結果であるｔ番目の第２テキストの単語列Ｙ^ｔに対応する情報を推定するモデルの前記モデルパラメータΘを得る学習ステップを有し、
前記モデルパラメータΘはモデルパラメータθ_ｙ，θ_ｘ，θ_ｓ，θ_ν，θ_ｑ，θ_ｄ，θ_ｍ，θ_ａを含み、
前記モデルパラメータθ_ｙ，θ_ｘ，θ_ｓ，θ_ν，θ_ｑ，θ_ｄ，θ_ｍ，θ_ａは前記機械学習を行って得られたものであり、
前記モデルは、
前記第２テキストの単語列の系列Ｙ＾^１，…，Ｙ＾^ｔ－１に対して前記モデルパラメータθ_ｙに基づく変換を行い、ｉ＝１，…，ｔ－１についての第２テキストの単語列Ｙ＾^ｉのテキストベクトルｕ^Ｙ，ｉの系列ｕ^Ｙ，１，…，ｕ^{Ｙ，ｔ－１}を得る第１ベクトル計算ステップと、
前記第１テキストの単語列Ｘ^ｔに対して前記モデルパラメータθ_ｘに基づく変換を行い、前記第１テキストの単語列Ｘ^ｔのテキストベクトルｕ^Ｘ，ｔを得る第２ベクトル計算ステップと、
前記系列ｕ^Ｙ，１，…，ｕ^{Ｙ，ｔ－２}に対して前記モデルパラメータθ_νに基づく変換を行い、ｔ－２番目の第２テキスト系列埋め込みベクトルν^ｔ－２を得る第３ベクトル計算ステップと、
ｎはｔ番目の第２テキストの単語列Ｙ＾^ｔに含まれる単語数以下の正整数であり、前記第２テキストの単語列Ｙ＾^ｔに含まれるｎ番目の単語ｙ_ｎ ^ｔよりも過去の単語列ｙ_１ ^ｔ，…，ｙ_ｎ－１ ^ｔ、および前記テキストベクトルｕ^Ｘ，ｔに対して、前記モデルパラメータθ_ｓに基づく変換を行い、前記第１テキストを考慮したｔ番目の第２テキストの単語列Ｙ＾^ｔのｎ番目の単語向けの文脈ベクトルｓ_ｎ ^ｔを得る第１文脈ベクトル計算ステップと、
前記単語列ｙ_１ ^ｔ，…，ｙ_ｎ－１ ^ｔ、前記第２テキスト系列埋め込みベクトルν^ｔ－２、および前記系列ｕ^{Ｙ，ｔ－１}に対して前記モデルパラメータθ_ｑに基づく変換を行い、過去の前記第２テキストを考慮したｔ番目の第２テキストの単語列Ｙ＾^ｔのｎ番目の単語向けの文脈ベクトルｑ_ｎ ^ｔを得る第２文脈ベクトル計算ステップと、
前記文脈ベクトルｓ_ｎ ^ｔ、ｔ－１番目の第２テキストの単語列Ｙ＾^ｔ－１、および前記ｔ番目の第２テキストの単語列Ｙ＾^ｔのｎ番目の単語向けの文脈ベクトルｑ_ｎ ^ｔに対して、前記モデルパラメータθ_ｍに基づく変換を行い、ｔ番目の第２テキストの単語列Ｙ＾^ｔのｎ番目の単語向けコピー確率Ｍ_ｎ ^ｔを得るコピーベクトル確率計算ステップと、
前記文脈ベクトルｓ_ｎ ^ｔおよび前記ｔ番目の第２テキストの単語列Ｙ＾^ｔのｎ番目の単語向けの文脈ベクトルｑ_ｎ ^ｔに対して、前記モデルパラメータθ_ｄに基づく変換を行い、前記単語ｙ_ｎ ^ｔについての事後確率Ｐ（ｙ_ｎ ^ｔ）を得る第１事後確率計算ステップと、
前記第１テキストの単語列Ｘ^ｔ、ｔ－１番目の第２テキストの単語列Ｙ＾^ｔ－１、前記事後確率Ｐ（ｙ_ｎ ^ｔ）、前記コピー確率Ｍ_ｎ ^ｔに対して、前記モデルパラメータθ_ａに基づく変換を行い、前記第１テキストの単語列Ｘ^ｔ、前記第２テキストの単語列の系列Ｙ＾^１，…，Ｙ＾^ｔ－１、および前記モデルパラメータΘが与えられた場合における、前記第２テキストの単語列Ｙ^ｔの事後確率Ｐ（Ｙ^ｔ｜Ｙ＾^１，…，Ｙ＾^ｔ－１，Ｘ^ｔ，Θ）に対応する事後確率Ｐ（ｙ_ｎ ^ｔ｜ｙ_１ ^ｔ，…，ｙ_ｎ－１ ^ｔ，Ｙ＾^１，…，Ｙ＾^ｔ－１，Ｘ^ｔ，Θ）を得る第２事後確率計算ステップと、を含む処理を実行するためのものである、
機械学習方法。
請求項１から３の何れかの系列変換装置としてコンピュータを機能させるためのプログラム。
請求項４から６の何れかの機械学習装置としてコンピュータを機能させるためのプログラム。