JP7429352B2 - 系列変換装置、機械学習装置、系列変換方法、機械学習方法、およびプログラム - Google Patents
系列変換装置、機械学習装置、系列変換方法、機械学習方法、およびプログラム Download PDFInfo
- Publication number
- JP7429352B2 JP7429352B2 JP2022501497A JP2022501497A JP7429352B2 JP 7429352 B2 JP7429352 B2 JP 7429352B2 JP 2022501497 A JP2022501497 A JP 2022501497A JP 2022501497 A JP2022501497 A JP 2022501497A JP 7429352 B2 JP7429352 B2 JP 7429352B2
- Authority
- JP
- Japan
- Prior art keywords
- text
- word string
- word
- vector
- model parameter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000006243 chemical reaction Methods 0.000 title claims description 163
- 238000000034 method Methods 0.000 title claims description 80
- 238000010801 machine learning Methods 0.000 title claims description 63
- 239000013598 vector Substances 0.000 claims description 304
- 238000004364 calculation method Methods 0.000 claims description 146
- 230000006870 function Effects 0.000 claims description 56
- 230000008569 process Effects 0.000 claims description 53
- 238000012545 processing Methods 0.000 claims description 38
- 230000009466 transformation Effects 0.000 claims description 28
- 238000009826 distribution Methods 0.000 description 27
- 238000013519 translation Methods 0.000 description 20
- 238000010586 diagram Methods 0.000 description 13
- 230000001537 neural effect Effects 0.000 description 12
- 238000011156 evaluation Methods 0.000 description 8
- 230000014509 gene expression Effects 0.000 description 8
- 230000015654 memory Effects 0.000 description 7
- 238000012360 testing method Methods 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 6
- 239000000945 filler Substances 0.000 description 6
- 239000002245 particle Substances 0.000 description 6
- 230000000306 recurrent effect Effects 0.000 description 5
- 238000007476 Maximum Likelihood Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 239000000203 mixture Substances 0.000 description 4
- 238000013518 transcription Methods 0.000 description 4
- 230000035897 transcription Effects 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000008685 targeting Effects 0.000 description 3
- 208000001145 Metabolic Syndrome Diseases 0.000 description 2
- 201000000690 abdominal obesity-metabolic syndrome Diseases 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 206010012601 diabetes mellitus Diseases 0.000 description 2
- 235000015243 ice cream Nutrition 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- YEYZALQTJCVXIJ-HXUWFJFHSA-N (2R)-2-amino-2-(methoxymethyl)-4-(4-octylphenyl)butan-1-ol Chemical compound CCCCCCCCC1=CC=C(CC[C@@](N)(CO)COC)C=C1 YEYZALQTJCVXIJ-HXUWFJFHSA-N 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 241000277269 Oncorhynchus masou Species 0.000 description 1
- 241001122315 Polites Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000037213 diet Effects 0.000 description 1
- 235000005911 diet Nutrition 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000007992 neural conversion Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/44—Statistical methods, e.g. probability models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/55—Rule-based translation
- G06F40/56—Natural language generation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Description
詳細なモデル化には、例えば、非特許文献1の方法を用いることができる。
[原理]
まず原理を説明する。実施形態では、従来のような単一テキストではなく、テキスト系列を扱うことのできる系列変換(例えば、同一言語内翻訳)のニューラル系列変換モデルを導入する。このモデルでは、文脈を考慮した系列変換のニューラル変換を実現できる。すなわち、テキスト系列中のあるテキストを言い換える際に、テキスト系列の最初から対象テキストの1つ前のテキストまでの情報を文脈として利用可能となる。具体的なモデル化では、例えば、式(1)を以下の式(2)のように変更する。
ここで、X1,...,XTが第1テキストの単語列Xj=(x1 j,...,xM(j) j) (j=1,...,T)の系列であり、xi j (i=1,...,M(j))が第1テキストの単語列Xjに含まれる単語であり、Y1,...,YTが第2テキストの単語列Yj=(y1 j,...,yN(j) j) (j=1,...,T)の系列であり、yi j (i=1,...,N(j))が第2テキストの単語列Yjに含まれる単語であり、Y^j(j=1,...,T)が推定された単語列Yjである。なお、第1テキストの単位(1発話)は、例えば10分間の音声を無音が0.5秒存在するごとに区切る(200発話となる)ことで作成されたものを想定する。ただし、これは本発明を限定するものではない。また「Y^j」の上付き添え字「^」は本来「Y」の真上に記載すべきであるが(式(2)参照)、記載表記の制約上、「Y」の右上に記載する場合がある。T, N(j), M(j)が正整数であり、t∈{1,...,T}であり、Θがモデルパラメータである。例えば、x1 j,...,xM(j) j,y1 j,...,yN(j) jは時系列であり、X1,...,XTおよびY1,...,YTもまた時系列である。第1テキストの例は話し言葉テキストであり、第2テキストの例は書き言葉テキストである。式(2)の式(1)との違いは、生成済みの過去の第2テキストの単語列の系列Y^1,...,Y^t-1を用いて現在の第2テキストの単語列Ytを推定する点にある。すなわち、t番目の第1テキストの単語列Xt、1番目からt-1番目までの第1テキストの単語列の系列X1,…,Xt-1の変換結果である1番目からt-1番目までの第2テキストの単語列の系列Y^1,…,Y^t-1を入力とし、モデルパラメータΘに基づきt番目の第1テキストの単語列Xtの変換結果であるt番目の第2テキストの単語列Ytに対応する情報を推定する。例えば、t番目の第1テキストの単語列Xt、1番目からt-1番目までの第1テキストの単語列の系列X1,…,Xt-1から書き換えられた1番目からt-1番目までの第2テキストの単語列の系列Y^1,…,Y^t-1、およびモデルパラメータΘを入力とし、第1テキストの単語列Xt、第2テキストの単語列の系列Y^1,…,Y^t-1、およびモデルパラメータΘが与えられた場合における、第1テキストの単語列Xtから書き換えられるt番目の第2テキストの単語列Ytの事後確率P(Yt|Y^1,…,Y^t-1,Xt,Θ)に対応する情報を得る。ただし、tは2以上の整数である。詳細は後述する。
図1Aに例示するように、実施例1の系列変換装置11は、制御部1、記憶部111,113、入力部112、推定部114、および出力部115を有する。系列変換装置11は制御部1の制御の下で各処理を実行する。図1Bに例示するように、実施例1の機械学習装置12は、制御部120、記憶部121,123,127、推定部114、出力部125、および学習部126を有する。機械学習装置12は制御部120の制御の下で各処理を実行する。なお、既に説明した事項については、同じ参照番号を引用して説明を省略する場合がある。
次に、実施例1の系列変換装置11による系列変換処理である同一言語内翻訳処理について説明する。
入力:t個の連続した発話の話し言葉テキスト(第1テキスト)の単語列の系列X1,…,Xt
モデルパラメータΘ
出力:t個の連続した書き言葉テキスト(第2テキスト)の単語列の系列Y^1,…,Y^t
本実施例の系列変換装置11は、t個の連続した発話の話し言葉テキストの単語列の系列X1,…,Xtを入力として、モデルパラメータΘに従った確率計算により、t個の連続した書き言葉テキストの単語列の系列Y^1,…,Y^tを得て出力する。ここでは、ニューラル変換の入力となるt個の連続した話し言葉テキストの単語列の系列をX1,…,Xtとする。ここで、Xjはj番目の話し言葉テキストの単語列であり、Xj=(x1 j,...,xM(j) j) (j=1,...,T)として表される。出力となる書き言葉テキストの単語列の系列をY^1,…,Y^tとする。ここで、Y^jは推定されたj番目の書き言葉テキストの単語列であり、Yj=(y1 j,...,yN(j) j) (j=1,...,T)として表される。ここで、英語であれば、例えばスペースで区切られた文字列の表現、日本語であれば、例えば形態素解析により自動分割された文字列の表現、または文字単位に区切った表現を単語列としてもよい。また、モデルパラメータΘは系列変換装置11の推定部114が含む複数の部が持つパラメータの集合である。モデルパラメータΘは機械学習装置12による機械学習によって得られる。用いるモデルに限定はなく、例えば、公知のニューラル系列変換モデルを用いることができる。具体的には、例えば先行技術として挙げた非特許文献1に記載されたモデルを用いることができる。ただし、同一言語内翻訳は、入出力のテキストで複数の単語が共有されるため、入力テキスト内の単語のコピーを可能としたPointer-Generator Networksを用いたほうが有効である。よって本実施例では、ベースとなるモデルにPointer-Generator Networks(参考文献1)を用いた場合を例示することとする。
参考文献1:Abigail See, Peter J Liu, and Christopher D Manning, “Get to the point: Summarization with pointer-generator networks,” in Proc. Annual Meeting of the Association for Computational Linguistic (ACL), 2017, pp.73-83.
この処理は再帰的に行うことができる。すなわち、t番目の話し言葉テキストの変換結果である書き言葉テキストの単語列Y^tを既知の情報であるとすることにより、t+1番目の書き言葉テキストの単語列Y^t+1についての事後確率分布P(Yt+1|Y^1,…,Y^t,Xt+1,Θ)に対応する情報を得ることができる。さらに式(3)と同様に式(4)より、t+1番目の話し言葉テキストの変換結果である書き言葉テキストの単語列Yt+1を決定できる。
P(Yt|Y^1,…,Y^t-1,Xt,Θ)に対応する情報の詳しい定式化と詳細な計算方法については後述する(ステップS114)。
実施例1の機械学習装置12による機械学習処理について説明する。
入力:複数(1つ以上)の話し言葉テキストの単語列の系列と書き言葉テキストの単語列の系列の組の集合である学習データD=(A1,B1),…,(A|D|,B|D|)
出力:モデルパラメータΘ
機械学習装置12は、複数(1つ以上)の話し言葉テキストの単語列の系列と、それらから書き換えられた書き言葉テキストの単語列の系列と、の組の集合である学習データDからモデルパラメータΘを学習する。なお、(Am,Bm)={(Y1,X1),...,(YT(m),XT(m))}であり、t(m)は正整数であり、m=1,…,|D|であり、|D|は学習データDの要素数を表す正整数である。学習データDにより最適化されたモデルパラメータΘ^は以下の式(5)に従う。なお、最適化には、ニューラルネットワークの学習において一般的な最適化手法を用いればよい。
ここで学習されたモデルパラメータΘ^はモデルパラメータΘとして用いられる。
ニューラル系列変換モデルでは、入力と出力の関係性をend-to-endでモデル化するために、入力と出力の対データが大量に必要となる。そのため、話し言葉から書き言葉へのニューラル系列変換モデルを作成するためには、話し言葉と書き言葉の文対を大量に用意する必要がある。話し言葉を書き言葉へ変換するためには、様々な要素を考慮する必要がある。例えば、フィラーや言い淀み、冗長表現の削除や、句読点の付与が必要となる。これらの要素を網羅的に考慮するほど、可読性の高い書き言葉テキストに変換できると考えられる。しかし、従来の研究ではこれらを独立に捉え、それぞれの要素に適したコーパスを使用していた(例えば、参考文献2,3等参照)。そのため、従来のコーパスではこれらの要素を同時に考慮した変換が実現できない。
参考文献2:John J Godfrey, Edward C Holliman, and Jane McDaniel, "Switchboard: Telephone speech corpus for research and development," In Proc. ICASSP, pp. 517-520, 1992.
参考文献3:Nicola Ueffing, Maximilian Bisani, and Paul Vozila, "Improved models for automatic punctuation prediction for spoken and written text," In Proc. INTERSPEECH, pp. 3097-31, 2013.
参考文献4:Kikuo Maekawa, Hanae Koiso, Sadaoki Furui, and Hitoshi Isahara, "Spontaneous speech corpus of japanese," In Proc. LREC, pp. 947-9520, 2000.
日本語の文体には、文末に“だ”、“である”などを用いる常体と、文末に“です”、“ます”などの丁寧語を用いる敬体が存在する。書き言葉では一般的に、常体が用いられるが、音声認識は発話を書き起こしたものであるために、文末を“だ”、“である”に統一すると不自然な文章となる。そのため、日本語の文章を対象とする場合、書き言葉テキストの文体として、話し言葉でも書き言葉でも用いられる敬体を使用する。
日本語の話し言葉では、しばしば助詞が省略される。しかし、助詞は名詞と動詞、形容詞の意味関係を示す役割を果たしているため、正しく文章の意味を伝えることを目的とした書き言葉では助詞を省略することはできない。そのため、日本語の文章を対象とする場合、話し言葉テキストで省略されている助詞を話し言葉・書き言葉変換で復元する。
話し言葉テキストは、発話を音声認識したものであるためにしばしば表記の揺れが存在する。例えば、数字が漢数字に変換されていたり、英語表記がひらがな表記に変換されることがある。そのため、話し言葉テキストで読みづらい英語、数字表記、ひらがな表記を話し言葉・書き言葉変換で修正する。
音声認識では、一定時間の休止区間に従って句読点が付与されることがあるが、これらは可読性向上を観点に付与されているわけではないため、抜けや誤りが存在する。そのため、話し言葉テキストの接続語(そして、しかし、また、つまりなど)の後や、漢字やひらがなが続く場合は、読みやすくなるように書き言葉テキストで読点を付与し、話し言葉テキストの句読点の付け方に誤りがある場合は話し言葉・書き言葉変換で修正する。
フィラーや言い淀みのある文章は可読性が低いため、話し言葉・書き言葉変換でそれらを除去する。
話し言葉では、思いつくまま話された発話をそのまま書き起こしているため、冗長な文章や文法的に誤りのある文章が存在する。そのため、話し言葉テキストで同じ表現が繰り返される場合、話し言葉・書き言葉変換で無駄な表現を削除、あるいは文章を区切るなどして読みやすい文章に修正する。
音声認識では、しばしば認識誤りが発生するため、文脈から誤字と認識される言葉は話し言葉・書き言葉変換で修正する。
・話し言葉テキスト
はいはい、それはそうですね
私なんかは運動もたくさんしているので、ご飯もそれほど食べていないので、だいえっとする必要ってないですね
いわゆるメタボとは無縁ちゃ無縁ですが、糖尿病にはきをつけてます
・書き言葉テキスト
それはそうですね。
私は、運動をたくさんしていますし、ご飯もそれほど食べません。よって、ダイエットする必要はないですね。
メタボとは無縁ですが、糖尿病には気を付けてます。
次に、図1Bおよび図3を用いて、本実施例の機械学習処理の流れを例示する。機械学習装置12は、学習データD=(A1,B1),…,(A|D|,B|D|)を用い、例えば以下のようにモデルパラメータΘを学習する。
推定部114の詳細を例示する。図4に例示するように、推定部114は、制御部1140、ベクトル計算部1141,1142,1143、文脈ベクトル計算部1144、コピー確率計算部1145、事後確率計算部1146,1147、およびテキスト生成部1148を有する。推定部114は、制御部1140の制御の下で各処理を実行する。
入力:t-1番目の書き言葉テキストの単語列Y^t-1
モデルパラメータθy
出力:t-1番目の書き言葉テキストの単語列についてのテキストベクトルuY,t-1
ベクトル計算部1141は、t-1番目の書き言葉テキストの単語列Y^t-1を、モデルパラメータθyに基づく変換関数により、t-1番目の書き言葉テキストのテキストベクトルuY,t-1に変換する。この時、t-1番目の書き言葉テキストの単語列Y^t-1は1つ以上の単語を含む。テキストベクトルuY,t-1は単語列Y^t-1に含まれる情報を埋め込んだベクトルを表し、次の話し言葉テキストを書き言葉へ変換するために必要と考えられるテキストの意味的な情報が含まれている。ベクトルの次元数を大きくするほどたくさんの情報を埋め込むことができ、例えば512次元のベクトルをテキストベクトルuY,t-1とする。ベクトルの次元数は人手で設定される。モデルパラメータθyに基づく変換関数には、入力された可変長数の記号列を単一ベクトルに変換する関数であれば任意のものを利用できる。例えば、入力されたテキスト中の単語の頻度ベクトルを出力する関数、リカレントニューラルネットワーク、または双方向リカレントニューラルネットワーク等を当該変換関数として用いることができる。なお、t=1の場合には入力となる単語列Y^0は存在しないため、Y^0に対する出力uY,0はすべての要素が0.0のベクトルとする。また、ベクトル計算部1141はの処理は{Y^1,…,Y^t-1}の単語列Y^i(ただし、i=1,…,t-1)についての単語列Y^iのそれぞれに対して行われることになる。したがって、ベクトル計算部1141は、{Y^1,…,Y^t-1}の単語列Y^i(ただし、i=1,…,t-1)の入力に対して、{uY,1,…,uY,t-1}のテキストベクトルuY,iをそれぞれ出力することになる。すなわち、ベクトル計算部1141(第1ベクトル計算部)は、書き言葉テキスト(第2テキスト)の単語列の系列Y^1,…,Y^t-1に対してモデルパラメータθyに基づく変換を行い、i=1,…,t-1についての書き言葉テキスト(第2テキスト)の単語列Y^iのテキストベクトルuY,iの系列uY,1,…,uY,t-1を得て出力する。
入力:t番目の話し言葉テキストの単語列Xt
モデルパラメータθx
出力:t番目の話し言葉テキストの単語列Xtに対するテキストベクトルuX,t
ベクトル計算部1142は、t番目の話し言葉テキストの単語列Xtをモデルパラメータθxに基づく変換関数により、t番目の話し言葉テキストのテキストベクトルuX,tに変換する。モデルパラメータθxに基づく変換関数の具体例は、θyがθxに置換される以外、モデルパラメータθyに基づく変換関数と同じであるため、その詳細な説明を省略する。すなわち、ベクトル計算部1142(第2ベクトル計算部)は、話し言葉テキスト(第1テキストの単語列Xtに対してモデルパラメータθxに基づく変換を行い、話し言葉テキスト(第1テキスト)の単語列XtのテキストベクトルuX,tを得て出力する。
入力:過去の話し言葉テキストの単語列についてのテキストベクトルuY,iの系列uY,1,…,uY,t-1
モデルパラメータθν
出力:t-1番目の書き言葉テキスト系列埋め込みベクトルνt-1
ベクトル計算部1143は、過去の書き言葉テキスト系列についてのテキストベクトルuY,iの系列uY,1,…,uY,t-1を、モデルパラメータθνに基づく変換関数により、t-1番目の書き言葉テキスト系列埋め込みベクトルνt-1に変換する。この書き言葉テキスト系列埋め込みベクトルνt-1は単一のベクトルであり、次の話し言葉テキストの単語列Xtを書き言葉テキストの単語列Y^tへ変換する際に必要な意味的情報が埋め込まれている。ベクトルの次元数を大きくするほどたくさんの情報を埋め込むことができ、例えば512次元のベクトルを書き言葉テキスト系列埋め込みベクトルνt-1とする。ベクトルの次元数は人手で設定される。モデルパラメータθνに基づく変換関数には、可変長数のベクトル列を単一ベクトルに変換する関数であれば任意のものを利用でき、例えばリカレントニューラルネットワークや、テキストベクトル系列の各ベクトルを平均化するような関数を用いることができる。なお、平均化する場合のテキスト系列埋め込みベクトルνt-1の次元数は、テキストベクトルuY,iの系列uY,1,…,uY,t-1
の各次元数に依存する。なお、t=1の場合は、過去の話し言葉テキストの単語列についてのテキストベクトルの系列は存在しないため、ベクトル計算部1143が出力する書き言葉テキスト系列埋め込みベクトルν0はすべての要素が0.0のベクトルとする。すなわち、ベクトル計算部1143(第3ベクトル計算部)は、系列uY,1,…,uY,t-1に対してモデルパラメータθνに基づく変換を行い、t-1番目の書き言葉テキスト系列埋め込みベクトル(第2テキスト系列埋め込みベクトル)νt-1を得て出力する。
入力:t番目の書き言葉テキストの単語列Y^tのn番目の単語yn tよりも過去の単語列y1 t,…,yn-1 t
t番目の話し言葉テキストの単語列XtについてのテキストベクトルuX,t
モデルパラメータθs
出力:t番目の話し言葉テキストの単語列Xtを考慮した、t番目の書き言葉テキストの単語列Y^tのn番目の単語向けの文脈ベクトルsn t
文脈ベクトル計算部1144は、t番目の書き言葉テキストの単語列Y^tのn番目の単語yn tよりも過去の単語列y1 t,…,yn-1 tと、t番目の話し言葉テキストの単語列XtについてのテキストベクトルuX,tを、モデルパラメータθsに基づく変換関数により、t番目の話し言葉テキストの単語列Xtを考慮したt番目の書き言葉テキストの単語列Y^tのn番目の単語向けの文脈ベクトルsn tに変換する。なお、n=1の場合には過去の単語列y1 t,…,yn-1 tが存在しないため、過去の単語列y1 t,…,yn-1 tに代えて所定値(例えば、零ベクトル)が用いられる。この文脈ベクトルsn tには、次の単語の書き言葉話し言葉変換に必要な意味的情報が埋め込まれている。このとき変換関数には、2種類の可変長数のベクトル列を単一ベクトルに変換する関数であれば任意のものを利用できる。この変換関数の例は、書き言葉テキストの単語列y1 t,…,yn-1 tと話し言葉テキストの単語列XtについてのテキストベクトルuX,tのそれぞれにリカレントニューラルネットワークおよび注意機構を適用して単一の文脈ベクトルを出力する関数である(例えば、非特許文献1参照)。また、単純なものとしては、t番目の書き言葉テキストの単語列Y^tのn番目の単語yn tよりも過去の単語列y1 t,…,yn-1 tとt番目の話し言葉テキストの単語列XtについてのテキストベクトルuX,tの頻度ベクトルを平均化したベクトルを出力する関数を当該変換関数として用いることもできる。すなわち、nはt番目の書き言葉テキスト(第2テキスト)の単語列Y^tに含まれる単語数以下の2以上の整数であり、文脈ベクトル計算部1144は、書き言葉テキスト(第2テキスト)の単語列Y^tに含まれるn番目の単語yn tよりも過去の単語列y1 t,…,yn-1 t、および、テキストベクトルuX,tに対して、モデルパラメータθsに基づく変換を行い、話し言葉テキスト(第1テキスト)の単語列Xtを考慮した、t番目の書き言葉テキスト(第2テキスト)の単語列Y^tのn番目の単語向けの文脈ベクトルsn tを得て出力する。
入力:t-1番目の書き言葉テキスト系列埋め込みベクトルνt-1
t番目の書き言葉テキストの単語列Y^tのn番目の単語向けの文脈ベクトルsn t
モデルパラメータθp
出力:t番目の書き言葉テキストの単語列Y^tのn番目の単語向けコピー確率pn t
コピー確率計算部1145は、t-1番目の書き言葉テキスト系列埋め込みベクトルνt-1と、t番目の書き言葉テキストの単語列Y^tのn番目の単語向けの文脈ベクトルsn tとを、モデルパラメータθpに基づく変換関数によりt番目の書き言葉テキストの単語列Y^tのn番目の単語向けコピー確率pn tに変換する。この確率は、t番目の書き言葉テキストの単語列Y^tのn番目の単語を出力する際に、話し言葉テキストの単語列Xtからどのくらいの割合で単語をコピーするかを決定する確率である。このとき変換関数には、入力された2種類のベクトルを0以上1以下のスカラー値に変換して出力する関数であれば任意のものを利用できる。この変換関数の例は、入力された2つのベクトルの結合ベクトルにシグモイド関数を用いた変換を行う関数である。すなわち、コピー確率計算部1145は、書き言葉テキスト系列埋め込みベクトル(第2テキスト系列埋め込みベクトル)νt-1および文脈ベクトルsn tに対して、モデルパラメータθpに基づく変換を行い、t番目の書き言葉テキストの単語列Y^tのn番目の単語向けコピー確率pn tを得て出力する。
入力:t-1番目の書き言葉テキスト系列埋め込みベクトルνt-1
t番目の書き言葉テキストの単語列Y^tのn番目の単語向けの文脈ベクトルsn t
モデルパラメータθw
出力:t番目の書き言葉テキストのn番目の単語についての事後確率P(yn t)
事後確率計算部1146は、t-1番目の書き言葉テキスト系列埋め込みベクトルνt-1と、t番目の書き言葉テキストの単語列Y^tのn番目の単語向けの文脈ベクトルsn tとを、モデルパラメータθwに基づく変換関数により、t番目の書き言葉テキストのn番目の単語についての事後確率P(yn t)を得て出力する。事後確率は、各単語に対する確率を要素としたベクトルとして表すことができ、各要素からなるベクトルへのベクトル変換により事後確率分布を表現することが可能である。このとき変換関数には、2種類のベクトルを事後確率分布に変換して出力する関数であれば任意のものを利用できる。この変換関数の例は、入力された2つのベクトルの結合ベクトルにソフトマックス関数を用いた変換を行う関数である。それ以外でも、事後確率分布に相当する出力ベクトルの要素の総和が1.0に変換可能な関を当該変換関数としてもよい。すなわち、事後確率計算部1146(第1事後確率計算部)は、書き言葉テキスト系列埋め込みベクトル(第2テキスト系列埋め込みベクトル)νt-1および文脈ベクトルsn tに対して、モデルパラメータθwに基づく変換を行い、単語yn tについての事後確率P(yn t)を得て出力する。
入力:t番目の書き言葉テキストの単語列Y^tのn番目の単語についての事後確率P(yn t)
t番目の話し言葉テキストの単語列Xt
t番目の書き言葉テキストの単語列Y^tのn番目の単語向けコピー確率pn t
モデルパラメータθo
出力:t番目の書き言葉テキストのn番目の単語yn tについての事後確率
P(yn t|y1 t,…,yn-1 t,Y^1,…,Y^t-1,Xt,Θ)
事後確率計算部1147は、t番目の書き言葉テキストの単語列Y^tのn番目の単語についての事後確率P(yn t)、t番目の話し言葉テキストの単語列Xt、およびt番目の書き言葉テキストの単語列Y^tのn番目の単語向けコピー確率pn tに対し、モデルパラメータθo基づく変換関数を適用し、t番目の書き言葉テキストのn番目の単語についての事後確率P(yn t|y1 t,…,yn-1 t,Y^1,…,Y^t-1,Xt,Θ)を得て出力する。このとき変換関数の一例は、事後確率P(yn t)にコピー確率pn tを掛け合わせたものと、t番目の話し言葉テキストの単語列Xtから単語の分布を求め、その分布に1からコピー確率pn tを引いた値を掛け合わせたものを足し合わせたものである。単語列Xtから単語の分布を求める方法としては、単語列Xtのベクトルから任意の分布を求める方法を用いることができる。簡単なものとしては、例えば、単語列Xtの頻度ベクトルにソフトマックス関数を用いた変換を行ったものを当該単語の分布とすることができる。すなわち、事後確率計算部1147(第2事後確率計算部)は、話し言葉テキスト(第1テキスト)の単語列Xt、事後確率P(yn t)、およびコピー確率pn tに対して、モデルパラメータθoに基づく変換を行い、事後確率P(Yt|Y^1,…,Y^t-1,Xt,Θ)に対応する事後確率P(yn t|y1 t,…,yn-1 t,Y^1,…,Y^t-1,Xt,Θ)を得て出力する。
入力:t番目の書き言葉テキストの単語列Y^tの1,…,n番目の単語y1 t,…,yn tにおける事後確率
P(y1 t|Y^1,…,Y^t-1,Xt,Θ),...,P(yn t|y1 t,…,yn-1 t,Y^1,…,Y^t-1,Xt,Θ)
出力:t番目の書き言葉テキストの単語列Y^t
テキスト生成部1148は、t番目の書き言葉テキストの単語列Y^tの1,…,n番目の単語y1 t,…,yn tにおける事後確率P(y1 t|Y^1,…,Y^t-1,Xt,Θ),…,P(yn t|y1 t,…,yn-1 t,Y^1,…,Y^t-1,Xt,Θ)の積が最大となるような単語yn tをn=1,…,N(t)について1個づつ選択していき、t番目の書き言葉テキストの単語列Y^t=(y1 t,…,yN(t) t)を得て出力する。このとき、y1 t,…,yN(t) tの要素選択には事後確率P(y1 t|Y^1,…,Y^t-1,Xt,Θ),…,P(yn t|y1 t,…,yn-1 t,Y^1,…,Y^t-1,Xt,Θ)の積が最大化される手法であれば任意のものを使用できるが、例えば、貪欲法などの近似アルゴリズムを用いることができる。
(a)コンタクトセンタでの対話
話し言葉:えーあのもうあんまり使わなくなったということなんですねあの先日からちょっとお習い事を始めまして
書き言葉:あんまり使わなくなったということなんですね。先日からお習い事を始めました。
(b)日常会話(1)
話し言葉:プロ野球じ野球ほんとでもルールわかんないんですよおふほとんどわかんないんですよ高校野球は見ますけど
書き言葉:プロ野球は、ほとんどルールがわかんないんですよ。ほんとわからないんですよ。高校野球は見ますけど。
(c)日常会話(2)
話し言葉:でなんかそう言うのをあのあのソフトクリームじゃなくてコンビニとかそう言うとこでも買えたらいいなと個人的にも思っていてでうん
書き言葉:そう言うのをソフトクリームじゃなくて、コンビニとかそう言うとこでも買えたらいいなと個人的にも思っていました。
(e)留守番電話
話し言葉:あもしもしえーと午前中の打ち合わせ終わりましたので連絡ですえーとー打ち合わせ終わりまして秋葉原の駅まできましたえーこれからえー昼食を取りつつえ次の打合せ高田馬場にむかいますえーその連絡でしたえーまた後ほど連絡いたしますよろしくお願いいたします
書き言葉:もしもし、午前中の打ち合わせ終わりましたので、連絡です。打ち合わせ終わりまして、秋葉原の駅まできました。これから昼食を取り、次の打合せ、高田馬場にむかいます。また後ほど連絡いたします。よろしくお願いいたします。
図1Aに例示するように、実施例2の系列変換装置21は、制御部1、記憶部211,113、入力部112、推定部214、および出力部115を有する。系列変換装置21は制御部1の制御の下で各処理を実行する。図1Bに例示するように、実施例2の機械学習装置22は、制御部120、記憶部121,123,127、推定部214、出力部125、および学習部226を有する。機械学習装置22は制御部120の制御の下で各処理を実行する。
実施例2の系列変換装置21による系列変換処理である同一言語内翻訳処理について説明する。実施例2の系列変換装置21の翻訳処理の実施例1の系列変換装置11の系列変換処理からの相違点は、図2の推定部114によるステップS114の処理が推定部214によるステップS214の処理に置換される点である。他の事項は実施例1と同じである。
実施例2の機械学習装置22による機械学習処理について説明する。実施例2の機械学習装置22による機械学習処理の実施例1の機械学習装置12による機械学習処理からの相違点は、図3の推定部114によるステップS114の処理が推定部214によるステップS214の処理に置換される点である。他の事項は実施例1と同じである。
推定部214の詳細を例示する。図6に例示するように、推定部214は、制御部1140、ベクトル計算部1141,1142,2143、文脈ベクトル計算部1144(第1文脈ベクトル計算部)、文脈ベクトル計算部2149(第2文脈ベクトル計算部)、コピーベクトル確率計算部2145、事後確率計算部2146,2147、およびテキスト生成部1148を有する。推定部214は、制御部1140の制御の下で各処理を実行する。実施例2のモデルパラメータΘはモデルパラメータθy,θx,θs,θν,θq,θd,θm,θaを含み、Θ={θy,θx,θs,θν,θq,θd,θm,θa}として表される。
入力:過去の話し言葉テキストの単語列についてのテキストベクトルuY,iの系列uY,1,…,uY,t-2
モデルパラメータθν
出力:t-2番目の書き言葉テキスト系列埋め込みベクトルνt-2
ベクトル計算部1143は、過去の書き言葉テキスト系列についてのテキストベクトルuY,iの系列uY,1,…,uY,t-2を、モデルパラメータθνに基づく変換関数により、t-2番目の書き言葉テキスト系列埋め込みベクトルνt-2に変換する。ベクトル計算部2143のベクトル計算部1143からの相違点は、uY,1,…,uY,t-1に代えてuY,1,…,uY,t-2が入力される点、νt-1に代えてνt-2が出力される点である。なお、t=1,2の場合は、過去の話し言葉テキストの単語列についてのテキストベクトルの系列は存在しないため、ベクトル計算部2143が出力する書き言葉テキスト系列埋め込みベクトルν-1,ν0はすべての要素が0.0のベクトルとする。
入力:t番目の書き言葉テキストのn番目の単語よりも過去の単語列y1 t,…,yn-1 t
t-2番目の書き言葉テキスト系列埋め込みベクトルνt-2
t-1番目の書き言葉テキストの単語列についてのテキストベクトルの系列uY,t-1
モデルパラメータθq
出力:過去の話し言葉テキストを考慮したt番目の書き言葉テキストの単語列Y^tのn番目の単語向けの文脈ベクトルqn t
文脈ベクトル計算部2149は、t番目の書き言葉テキストのn番目の単語よりも過去の単語列y1 t,…,yn-1 tと、t-2番目の書き言葉テキスト系列埋め込みベクトルνt-2と、t-1番目の書き言葉テキストの単語列についてのテキストベクトルの系列uY,t-1に対し、モデルパラメータθqに基づく変換関数を適用し、t番目の書き言葉テキストの単語列Y^tのn番目の単語向けの文脈ベクトルqn tを得て出力する。この文脈ベクトルqn tは、次の単語の話し言葉・書き言葉変換に必要な過去の変換結果を考慮した意味的情報が埋め込まれている。このときの変換関数には、3種類の可変長数のベクトル列を単一ベクトルに変換する関数であれば任意のものを利用できる。この変換関数の例は、t番目の書き言葉テキストのn番目の単語よりも過去の単語列y1 t,…,yn-1 tとt-1番目の書き言葉テキストの単語列についてのテキストベクトルの系列uY,t-1のそれぞれにリカレントニューラルネットワークを適用し、t-1番目の書き言葉テキストの単語列についてのテキストベクトルの系列uY,t-1とt-2番目の書き言葉テキスト系列埋め込みベクトルνt-2とを結合し、注意機構を加えることにより単一の文脈ベクトルを出力する関数を用いることができる。すなわち、文脈ベクトル計算部2149(第2文脈ベクトル計算部)は、単語列y1 t,…,yn-1 t、書き言葉テキスト系列埋め込みベクトル(第2テキスト系列埋め込みベクトル)νt-2、および系列uY,t-1に対してモデルパラメータθqに基づく変換を行い、過去の書き言葉テキスト(第2テキスト)を考慮したt番目の書き言葉テキスト(第2テキスト)の単語列Y^tのn番目の単語向けの文脈ベクトルqn tを得て出力する。
入力:t番目の書き言葉テキストの単語列Y^tのn番目の単語向けの文脈ベクトルsn t
過去の話し言葉テキストを考慮したt番目の書き言葉テキストの単語列Y^tのn番目の単語向けの文脈ベクトルqn t
モデルパラメータθm
出力:t番目の書き言葉テキストの単語列Y^tのn番目の単語向けコピー確率Mn t
コピーベクトル確率計算部2145は、t番目の書き言葉テキストの単語列Y^tのn番目の単語向けの文脈ベクトルsn t、および過去の話し言葉テキストを考慮したt番目の書き言葉テキストの単語列Y^tのn番目の単語向けの文脈ベクトルqn tに対し、モデルパラメータθmに基づく変換関数を適用し、t番目の書き言葉テキストの単語列Y^tのn番目の単語向けコピー確率Mn tを得て出力する。このコピー確率ベクトルMn tは、t番目の書き言葉テキストのn番目の単語を出力する際に、現在の書き言葉テキストの事後確率を重視するか、話し言葉テキストの単語をコピーするか、過去の書き言葉テキストの単語をコピーするかを選択する際の確率を表している。そのため、各確率を要素としたベクトルとして表すことができ、ベクトル変換により確率分布を表現することが可能である。このとき変換関数には、2種類のベクトルを確率分布に変換する関数であれば任意のものを利用できる。この変換関数の例は、入力された2つのベクトルの結合ベクトルにソフトマックス関数を用いた変換を行って出力する関数である。その他、出力される確率分布に相当する出力ベクトルの要素の総和が1.0に変換可能な関数を当該変換関数としてもよい。すなわち、コピーベクトル確率計算部2145は、文脈ベクトルsn tおよびt番目の書き言葉テキスト(第2テキスト)の単語列Y^tのn番目の単語向けの文脈ベクトルqn tに対して、モデルパラメータθmに基づく変換を行い、t番目の書き言葉テキスト(第2テキスト)の単語列Y^tのn番目の単語向けコピー確率Mn tを得て出力する。
入力:t番目の書き言葉テキストの単語列Y^tのn番目の単語向けの文脈ベクトルsn t
過去の話し言葉テキストを考慮したt番目の書き言葉テキストの単語列Y^tのn番目の単語向けの文脈ベクトルqn t
モデルパラメータθd
出力:t番目の書き言葉テキストの単語列Y^tのn番目の単語yn tについての事後確率P(yn t)
事後確率計算部2146は、t番目の書き言葉テキストの単語列Y^tのn番目の単語向けの文脈ベクトルsn tと、過去の話し言葉テキストを考慮したt番目の書き言葉テキストの単語列Y^tのn番目の単語向けの文脈ベクトルqn tとに対し、モデルパラメータθdに基づく変換関数により、t番目の書き言葉テキストの単語列Y^tのn番目の単語yn tについての事後確率P(yn t)を得て出力する。その他は、νt-1がqn tに置換され、θwがθdに置換される以外、事後確率計算部1146の処理と同じであるため説明を省略する。すなわち、事後確率計算部2146(第1事後確率計算部)は、文脈ベクトルsn tおよびt番目の書き言葉テキスト(第2テキスト)の単語列Y^tのn番目の単語向けの文脈ベクトルqn tに対して、モデルパラメータθdに基づく変換を行い、単語yn tについての事後確率P(yn t)を得て出力する。
入力:t番目の書き言葉テキストの単語列Y^tのn番目の単語についての事後確率P(yn t)
t番目の話し言葉テキストの単語列Xt
t-1番目の書き言葉テキストの単語列Y^t-1
t番目の書き言葉テキストの単語列Y^tのn番目の単語向けコピー確率Mn t
モデルパラメータθa
出力:t番目の書き言葉テキストのn番目の単語yn tについての事後確率
P(yn t|y1 t,…,yn-1 t,Y^1,…,Y^t-1,Xt,Θ)
事後確率計算部2147は、t番目の話し言葉テキストの単語列Xt、t-1番目の書き言葉テキストの単語列Y^t-1、およびt番目の書き言葉テキストの単語列Y^tのn番目の単語向けコピー確率Mn tに対し、モデルパラメータθaに基づく変換関数を適用し、t番目の書き言葉テキストのn番目の単語yn tについての事後確率P(yn t|y1 t,…,yn-1 t,Y^1,…,Y^t-1,Xt,Θ)を得て出力する。このとき変換関数の一例は、事後確率P(yn t)に単語向けコピー確率Mn tの一要素を掛け合わせたものと、t番目の話し言葉テキストの単語列Xtから単語の分布を求め、その分布に単語向けコピー確率Mn tの一要素を掛け合わせたものと、t-1番目の書き言葉テキストの単語列Y^t-1から単語の分布を求め、その分布に単語向けコピー確率Mn tの一要素を掛け合わせたものとを足し合わせた結果を出力する関数を例示できる。単語列Xtから単語の分布を求める方法としては、単語列Xtのベクトルから任意の分布を求める方法を用いることができる。簡単なものとしては、例えば、単語列Xtの頻度ベクトルにソフトマックス関数を用いた変換を行ったものを当該単語の分布とする。すなわち、事後確率計算部2147(第2事後確率計算部)は、話し言葉テキスト(第1テキスト)の単語列Xt、t-1番目の書き言葉テキスト(第2テキスト)の単語列Y^t-1、事後確率P(yn t)、コピー確率Mn tに対して、モデルパラメータθaに基づく変換を行い、事後確率P(Yt|Y^1,…,Y^t-1,Xt,Θ)に対応する事後確率P(yn t|y1 t,…,yn-1 t,Y^1,…,Y^t-1,Xt,Θ)を得て出力する。
[構成]
図1Aに例示するように、実施例3の系列変換装置31は、制御部1、記憶部211,113、入力部112、推定部314、および出力部115を有する。系列変換装置31は制御部1の制御の下で各処理を実行する。図1Bに例示するように、実施例3の機械学習装置32は、制御部120、記憶部121,123,127、推定部314、出力部125、および学習部226を有する。機械学習装置32は制御部120の制御の下で各処理を実行する。
実施例3の系列変換装置31による系列変換処理である同一言語内翻訳処理について説明する。実施例3の系列変換装置31の系列変換処理の実施例1の系列変換装置11の系列変換処理からの相違点は、図2の推定部114によるステップS114の処理が推定部314によるステップS314の処理に置換される点である。他の事項は実施例1と同じである。
実施例3の機械学習装置32による機械学習処理について説明する。実施例3の機械学習装置32による機械学習処理の実施例1の機械学習装置12による機械学習処理からの相違点は、図3の推定部114によるステップS114の処理が推定部314によるステップS314の処理に置換される点である。他の事項は実施例1と同じである。
推定部314の詳細を例示する。図7に例示するように、推定部314は、制御部1140、ベクトル計算部1141,1142,3143、事後確率計算部3147、およびテキスト生成部1148を有する。推定部314は、制御部1140の制御の下で各処理を実行する。実施例3のモデルパラメータΘはモデルパラメータθy,θx,θs,θνを含む。
図9に実施例1,2の効果を例示するための実験結果を示す。図9におけるNo. 0は話し言葉テキストの単語列そのものに対する評価結果を例示し、No. 1は非特許文献1の方法で話し言葉・書き言葉変換を行って得られた書き言葉テキストの単語列に対する評価結果を例示し、No. 2は参考文献1の方法で話し言葉・書き言葉変換を行って得られた書き言葉テキストの単語列に対する評価結果を例示し、No. 3は上述の実施形態においてコピーを行うことなく話し言葉・書き言葉変換を行って得られた書き言葉テキストの単語列に対する評価結果を例示し、No. 4は実施例1の話し言葉・書き言葉変換を行って得られた書き言葉テキストの単語列に対する評価結果を例示し、No. 5は実施例2の話し言葉・書き言葉変換を行って得られた書き言葉テキストの単語列に対する評価結果を例示する。
参考文献5:Kikuo Maekawa, Hanae Koiso, Sadaoki Furui, and Hitoshi Isahara, “Spontaneous speech corpus of japanese,” in Proc. International Conference on Language Resources and Evaluation (LREC), 2000, pp. 947-9520.
このコーパスは話し言葉テキストと書き言葉テキストの組の集合からなり、それを学習データ用セット、検証用セット、テスト用セット(Test 1, 2, 3)に分けた。また、テスト用セットを自動音声認識する自動音声認識器を用意した。図9における「Manual transcriptions」の「Accuracy (%)」は、テスト用セットの話し言葉テキストから話し言葉・書き言葉変換された書き言葉テキストが、当該テスト用セットの話し言葉テキストと組みになっている書き言葉テキストに対する正確さを表している。「Manual transcriptions」の「Number of substitution errors」は、テスト用セットの話し言葉テキストから話し言葉・書き言葉変換された書き言葉テキストが、当該テスト用セットの話し言葉テキストと組みになっている書き言葉テキストに対する置換誤り数を表している。「ASR transcriptions」の「Accuracy (%)」は、自動音声認識された話し言葉テキストに対し、話し言葉・書き言葉変換を行って得られた書き言葉テキストに対する正確さを表している。また、図に実験で用いた実施例2の機能構成を示す。なお、実施例2の事後確率計算部2147は、t番目の話し言葉テキストの単語列Xt、t-1番目の書き言葉テキストの単語列Y^t-1、およびt番目の書き言葉テキストの単語列Y^tのn番目の単語向けコピー確率Mn tに対し、モデルパラメータθaに基づく変換関数を適用し、t番目の書き言葉テキストのn番目の単語yn tについての事後確率P(yn t|y1 t,…,yn-1 t,Y^1,…,Y^t-1,Xt,Θ)を得て出力する。実験では、この変換関数として、事後確率P(yn t)に単語向けコピー確率Mn tの一要素λn tを掛け合わせたものと、t番目の話し言葉テキストの単語列Xtから単語の分布αn tを求め、その分布αn tに単語向けコピー確率Mn tの一要素κn tを掛け合わせたものと、t-1番目の書き言葉テキストの単語列Y^t-1から単語の分布βn tを求め、その分布βn tに単語向けコピー確率Mn tの一要素μn tを掛け合わせたものとを足し合わせた結果を事後確率P(yn t|y1 t,…,yn-1 t,Y^1,…,Y^t-1,Xt,Θ)として出力する関数を用いた。なお、検証用セットは、学習データ用セットに含まれないデータで学習済みのモデルを検証し、パラメータΘを最終調整するために用いた。
各実施形態における系列変換装置11,21,31および機械学習装置12,22,32は、例えば、CPU(central processing unit)やGPU(Graphics Processing Unit)等のプロセッサ(ハードウェア・プロセッサ)やRAM(random-access memory)・ROM(read-only memory)等のメモリ等を備える汎用または専用のコンピュータが所定のプログラムを実行することで構成される装置である。このコンピュータは1個のプロセッサやメモリを備えていてもよいし、複数個のプロセッサやメモリを備えていてもよい。このプログラムはコンピュータにインストールされてもよいし、予めROM等に記録されていてもよい。また、CPUのようにプログラムが読み込まれることで機能構成を実現する電子回路(circuitry)ではなく、単独で処理機能を実現する電子回路を用いて一部またはすべての処理部が構成されてもよい。また、1個の装置を構成する電子回路が複数のCPUを含んでいてもよい。
12,22,32 機械学習装置
Claims (14)
- tが2以上の整数であり、t番目の第1テキストの単語列Xt、1番目からt-1番目までの第1テキストの単語列の系列X1,…,Xt-1の変換結果である1番目からt-1番目までの第2テキストの単語列の系列Y^1,…,Y^t-1を入力とし、モデルパラメータΘに基づきt番目の第1テキストの単語列Xtの変換結果であるt番目の第2テキストの単語列Ytに対応する情報を推定する推定部を有し、
前記モデルパラメータΘは、前記第1テキストの単語列と前記第2テキストの単語列の組からなる学習データを用いて前記推定部の処理について機械学習を行って得られたものであり、
前記推定部は、
前記第1テキストの単語列Xtと前記第2テキストの単語列の系列Y^1,…,Y^t-1とを入力とし、前記モデルパラメータΘに基づいて、前記第1テキストの単語列Xtまたは前記第2テキストの単語列の系列Y^1,…,Y^t-1から単語をコピーする確率pn tを得るコピー確率計算部を含み、
前記確率pn tに基づいて前記第1テキストの単語列Xtまたは前記第2テキストの単語列の系列Y^1,…,Y^t-1から単語をコピーして前記第2テキストの単語列Ytに対応する情報を推定する、系列変換装置。 - tが2以上の整数であり、t番目の第1テキストの単語列Xt、1番目からt-1番目までの第1テキストの単語列の系列X1,…,Xt-1の変換結果である1番目からt-1番目までの第2テキストの単語列の系列Y^1,…,Y^t-1を入力とし、モデルパラメータΘに基づきt番目の第1テキストの単語列Xtの変換結果であるt番目の第2テキストの単語列Ytに対応する情報を推定する推定部を有し、
前記モデルパラメータΘはモデルパラメータθy,θx,θs,θν,θp,θw,θoを含み、
前記モデルパラメータΘ,θy,θx,θs,θν,θp,θw,θoは、前記第1テキストの単語列と前記第2テキストの単語列の組からなる学習データを用いて前記推定部の処理について機械学習を行って得られたものであり、
前記推定部は、
前記第2テキストの単語列の系列Y^1,…,Y^t-1に対して前記モデルパラメータθyに基づく変換を行い、i=1,…,t-1についての第2テキストの単語列Y^iのテキストベクトルuY,iの系列uY,1,…,uY,t-1を得る第1ベクトル計算部と、
前記第1テキストの単語列Xtに対して前記モデルパラメータθxに基づく変換を行い、前記第1テキストの単語列XtのテキストベクトルuX,tを得る第2ベクトル計算部と、
前記系列uY,1,…,uY,t-1に対して前記モデルパラメータθνに基づく変換を行い、t-1番目の第2テキスト系列埋め込みベクトルνt-1を得る第3ベクトル計算部と、
nはt番目の第2テキストの単語列Y^tに含まれる単語数以下の正整数であり、前記第2テキストの単語列Y^tに含まれるn番目の単語yn tよりも過去の単語列y1 t,…,yn-1 t、および、前記テキストベクトルuX,tに対して、前記モデルパラメータθsに基づく変換を行い、前記第1テキストを考慮したt番目の第2テキストの単語列Y^tのn番目の単語向けの文脈ベクトルsn tを得る文脈ベクトル計算部と、
前記第2テキスト系列埋め込みベクトルνt-1および前記文脈ベクトルsn tに対して、前記モデルパラメータθpに基づく変換を行い、t番目の第2テキストの単語列Y^tのn番目の単語向けコピー確率pn tを得るコピー確率計算部と、
前記第2テキスト系列埋め込みベクトルνt-1および前記文脈ベクトルsn tに対して、前記モデルパラメータθwに基づく変換を行い、前記単語yn tについての事後確率P(yn t)を得る第1事後確率計算部と、
前記第1テキストの単語列Xt、前記事後確率P(yn t)、および前記コピー確率pn tに対して、前記モデルパラメータθoに基づく変換を行い、前記第1テキストの単語列Xt、前記第2テキストの単語列の系列Y^1,…,Y^t-1、および前記モデルパラメータΘが与えられた場合における、前記第2テキストの単語列Ytの事後確率P(Yt|Y^1,…,Y^t-1,Xt,Θ)に対応する事後確率P(yn t|y1 t,…,yn-1 t,Y^1,…,Y^t-1,Xt,Θ)を得る第2事後確率計算部と、
を有する系列変換装置。 - tが2以上の整数であり、t番目の第1テキストの単語列Xt、1番目からt-1番目までの第1テキストの単語列の系列X1,…,Xt-1の変換結果である1番目からt-1番目までの第2テキストの単語列の系列Y^1,…,Y^t-1を入力とし、モデルパラメータΘに基づきt番目の第1テキストの単語列Xtの変換結果であるt番目の第2テキストの単語列Ytに対応する情報を推定する推定部を有し、
前記モデルパラメータΘはモデルパラメータθy,θx,θs,θν,θq,θd,θm,θaを含み、
前記モデルパラメータΘ,θy,θx,θs,θν,θq,θd,θm,θaは、前記第1テキストの単語列と前記第2テキストの単語列の組からなる学習データを用いて前記推定部の処理について機械学習を行って得られたものであり、
前記推定部は、
前記第2テキストの単語列の系列Y^1,…,Y^t-1に対して前記モデルパラメータθyに基づく変換を行い、i=1,…,t-1についての第2テキストの単語列Y^iのテキストベクトルuY,iの系列uY,1,…,uY,t-1を得る第1ベクトル計算部と、
前記第1テキストの単語列Xtに対して前記モデルパラメータθxに基づく変換を行い、前記第1テキストの単語列XtのテキストベクトルuX,tを得る第2ベクトル計算部と、
前記系列uY,1,…,uY,t-2に対して前記モデルパラメータθνに基づく変換を行い、t-2番目の第2テキスト系列埋め込みベクトルνt-2を得る第3ベクトル計算部と、
nはt番目の第2テキストの単語列Y^tに含まれる単語数以下の正整数であり、前記第2テキストの単語列Y^tに含まれるn番目の単語yn tよりも過去の単語列y1 t,…,yn-1 t、および前記テキストベクトルuX,tに対して、前記モデルパラメータθsに基づく変換を行い、前記第1テキストを考慮したt番目の第2テキストの単語列Y^tのn番目の単語向けの文脈ベクトルsn tを得る第1文脈ベクトル計算部と、
前記単語列y1 t,…,yn-1 t、前記第2テキスト系列埋め込みベクトルνt-2、および前記系列uY,t-1に対して前記モデルパラメータθqに基づく変換を行い、過去の前記第2テキストを考慮したt番目の第2テキストの単語列Y^tのn番目の単語向けの文脈ベクトルqn tを得る第2文脈ベクトル計算部と、
前記文脈ベクトルsn t、t-1番目の第2テキストの単語列Y^t-1、および前記t番目の第2テキストの単語列Y^tのn番目の単語向けの文脈ベクトルqn tに対して、前記モデルパラメータθmに基づく変換を行い、t番目の第2テキストの単語列Y^tのn番目の単語向けコピー確率Mn tを得るコピーベクトル確率計算部と、
前記文脈ベクトルsn tおよび前記t番目の第2テキストの単語列Y^tのn番目の単語向けの文脈ベクトルqn tに対して、前記モデルパラメータθdに基づく変換を行い、前記単語yn tについての事後確率P(yn t)を得る第1事後確率計算部と、
前記第1テキストの単語列Xt、t-1番目の第2テキストの単語列Y^t-1、前記事後確率P(yn t)、前記コピー確率Mn tに対して、前記モデルパラメータθaに基づく変換を行い、前記第1テキストの単語列Xt、前記第2テキストの単語列の系列Y^1,…,Y^t-1、および前記モデルパラメータΘが与えられた場合における、前記第2テキストの単語列Ytの事後確率P(Yt|Y^1,…,Y^t-1,Xt,Θ)に対応する事後確率P(yn t|y1 t,…,yn-1 t,Y^1,…,Y^t-1,Xt,Θ)を得る第2事後確率計算部と、
を有する系列変換装置。 - tが2以上の整数であり、Xiが第1テキストの単語列であり、YiがXiから書き換えられる第2テキストの単語列であり、前記第2テキストの単語列Aiと前記第1テキストの単語列Biとの組の系列を学習データとした機械学習を行い、t番目の第1テキストの単語列Xt、1番目からt-1番目までの第1テキストの単語列の系列X1,…,Xt-1の変換結果である1番目からt-1番目までの第2テキストの単語列の系列Y^1,…,Y^t-1を入力とし、モデルパラメータΘに基づきt番目の第1テキストの単語列Xtの変換結果であるt番目の第2テキストの単語列Ytに対応する情報を推定するモデルの前記モデルパラメータΘを得る学習部を有し、
前記モデルは、
前記第1テキストの単語列Xtと前記第2テキストの単語列の系列Y^1,…,Y^t-1とを入力とし、前記モデルパラメータΘに基づいて、前記第1テキストの単語列Xtまたは前記第2テキストの単語列の系列Y^1,…,Y^t-1から単語をコピーする確率pn tを得るコピー確率計算ステップを含む処理を実行するためのものであり、
前記確率pn tに基づいて前記第1テキストの単語列Xtまたは前記第2テキストの単語列の系列Y^1,…,Y^t-1から単語をコピーして前記第2テキストの単語列Ytに対応する情報を推定する、
機械学習装置。 - tが2以上の整数であり、Xiが第1テキストの単語列であり、YiがXiから書き換えられる第2テキストの単語列であり、前記第2テキストの単語列Aiと前記第1テキストの単語列Biとの組の系列を学習データとした機械学習を行い、t番目の第1テキストの単語列Xt、1番目からt-1番目までの第1テキストの単語列の系列X1,…,Xt-1の変換結果である1番目からt-1番目までの第2テキストの単語列の系列Y^1,…,Y^t-1を入力とし、モデルパラメータΘに基づきt番目の第1テキストの単語列Xtの変換結果であるt番目の第2テキストの単語列Ytに対応する情報を推定するモデルの前記モデルパラメータΘを得る学習部を有し、
前記モデルパラメータΘはモデルパラメータθy,θx,θs,θν,θp,θw,θoを含み、
前記モデルパラメータθy,θx,θs,θν,θp,θw,θoは前記機械学習を行って得られたものであり、
前記モデルは、
前記第2テキストの単語列の系列Y^1,…,Y^t-1に対して前記モデルパラメータθyに基づく変換を行い、i=1,…,t-1についての第2テキストの単語列Y^iのテキストベクトルuY,iの系列uY,1,…,uY,t-1を得る第1ベクトル計算ステップと、
前記第1テキストの単語列Xtに対して前記モデルパラメータθxに基づく変換を行い、前記第1テキストの単語列XtのテキストベクトルuX,tを得る第2ベクトル計算ステップと、
前記系列uY,1,…,uY,t-1に対して前記モデルパラメータθνに基づく変換を行い、t-1番目の第2テキスト系列埋め込みベクトルνt-1を得る第3ベクトル計算ステップと、
nはt番目の第2テキストの単語列Y^tに含まれる単語数以下の正整数であり、前記第2テキストの単語列Y^tに含まれるn番目の単語yn tよりも過去の単語列y1 t,…,yn-1 t、および、前記テキストベクトルuX,tに対して、前記モデルパラメータθsに基づく変換を行い、前記第1テキストを考慮したt番目の第2テキストの単語列Y^tのn番目の単語向けの文脈ベクトルsn tを得る文脈ベクトル計算ステップと、
前記第2テキスト系列埋め込みベクトルνt-1および前記文脈ベクトルsn tに対して、前記モデルパラメータθpに基づく変換を行い、t番目の第2テキストの単語列Y^tのn番目の単語向けコピー確率pn tを得るコピー確率計算ステップと、
前記第2テキスト系列埋め込みベクトルνt-1および前記文脈ベクトルsn tに対して、前記モデルパラメータθwに基づく変換を行い、前記単語yn tについての事後確率P(yn t)を得る第1事後確率計算ステップと、
前記第1テキストの単語列Xt、前記事後確率P(yn t)、および前記コピー確率pn tに対して、前記モデルパラメータθoに基づく変換を行い、前記第1テキストの単語列Xt、前記第2テキストの単語列の系列Y^1,…,Y^t-1、および前記モデルパラメータΘが与えられた場合における、前記第2テキストの単語列Ytの事後確率P(Yt|Y^1,…,Y^t-1,Xt,Θ)に対応する事後確率P(yn t|y1 t,…,yn-1 t,Y^1,…,Y^t-1,Xt,Θ)を得る第2事後確率計算ステップと、を含む処理を実行するためのものである、機械学習装置。 - tが2以上の整数であり、Xiが第1テキストの単語列であり、YiがXiから書き換えられる第2テキストの単語列であり、前記第2テキストの単語列Aiと前記第1テキストの単語列Biとの組の系列を学習データとした機械学習を行い、t番目の第1テキストの単語列Xt、1番目からt-1番目までの第1テキストの単語列の系列X1,…,Xt-1の変換結果である1番目からt-1番目までの第2テキストの単語列の系列Y^1,…,Y^t-1を入力とし、モデルパラメータΘに基づきt番目の第1テキストの単語列Xtの変換結果であるt番目の第2テキストの単語列Ytに対応する情報を推定するモデルの前記モデルパラメータΘを得る学習部を有し、
前記モデルパラメータΘはモデルパラメータθy,θx,θs,θν,θq,θd,θm,θaを含み、
前記モデルパラメータθy,θx,θs,θν,θq,θd,θm,θaは前記機械学習を行って得られたものであり、
前記モデルは、
前記第2テキストの単語列の系列Y^1,…,Y^t-1に対して前記モデルパラメータθyに基づく変換を行い、i=1,…,t-1についての第2テキストの単語列Y^iのテキストベクトルuY,iの系列uY,1,…,uY,t-1を得る第1ベクトル計算ステップと、
前記第1テキストの単語列Xtに対して前記モデルパラメータθxに基づく変換を行い、前記第1テキストの単語列XtのテキストベクトルuX,tを得る第2ベクトル計算ステップと、
前記系列uY,1,…,uY,t-2に対して前記モデルパラメータθνに基づく変換を行い、t-2番目の第2テキスト系列埋め込みベクトルνt-2を得る第3ベクトル計算ステップと、
nはt番目の第2テキストの単語列Y^tに含まれる単語数以下の正整数であり、前記第2テキストの単語列Y^tに含まれるn番目の単語yn tよりも過去の単語列y1 t,…,yn-1 t、および前記テキストベクトルuX,tに対して、前記モデルパラメータθsに基づく変換を行い、前記第1テキストを考慮したt番目の第2テキストの単語列Y^tのn番目の単語向けの文脈ベクトルsn tを得る第1文脈ベクトル計算ステップと、
前記単語列y1 t,…,yn-1 t、前記第2テキスト系列埋め込みベクトルνt-2、および前記系列uY,t-1に対して前記モデルパラメータθqに基づく変換を行い、過去の前記第2テキストを考慮したt番目の第2テキストの単語列Y^tのn番目の単語向けの文脈ベクトルqn tを得る第2文脈ベクトル計算ステップと、
前記文脈ベクトルsn t、t-1番目の第2テキストの単語列Y^t-1、および前記t番目の第2テキストの単語列Y^tのn番目の単語向けの文脈ベクトルqn tに対して、前記モデルパラメータθmに基づく変換を行い、t番目の第2テキストの単語列Y^tのn番目の単語向けコピー確率Mn tを得るコピーベクトル確率計算ステップと、
前記文脈ベクトルsn tおよび前記t番目の第2テキストの単語列Y^tのn番目の単語向けの文脈ベクトルqn tに対して、前記モデルパラメータθdに基づく変換を行い、前記単語yn tについての事後確率P(yn t)を得る第1事後確率計算ステップと、
前記第1テキストの単語列Xt、t-1番目の第2テキストの単語列Y^t-1、前記事後確率P(yn t)、前記コピー確率Mn tに対して、前記モデルパラメータθaに基づく変換を行い、前記第1テキストの単語列Xt、前記第2テキストの単語列の系列Y^1,…,Y^t-1、および前記モデルパラメータΘが与えられた場合における、前記第2テキストの単語列Ytの事後確率P(Yt|Y^1,…,Y^t-1,Xt,Θ)に対応する事後確率P(yn t|y1 t,…,yn-1 t,Y^1,…,Y^t-1,Xt,Θ)を得る第2事後確率計算ステップと、を含む処理を実行するためのものである、
機械学習装置。 - 系列変換装置によって実行される系列変換方法であって、
tが2以上の整数であり、t番目の第1テキストの単語列Xt、1番目からt-1番目までの第1テキストの単語列の系列X1,…,Xt-1の変換結果である1番目からt-1番目までの第2テキストの単語列の系列Y^1,…,Y^t-1を入力とし、モデルパラメータΘに基づきt番目の第1テキストの単語列Xtの変換結果であるt番目の第2テキストの単語列Ytに対応する情報を推定する推定ステップを有し、
前記モデルパラメータΘは、前記第1テキストの単語列と前記第2テキストの単語列の組からなる学習データを用いて前記推定ステップの処理について機械学習を行って得られたものであり、
前記推定ステップは、
前記第1テキストの単語列Xtと前記第2テキストの単語列の系列Y^1,…,Y^t-1とを入力とし、前記モデルパラメータΘに基づいて、前記第1テキストの単語列Xtまたは前記第2テキストの単語列の系列Y^1,…,Y^t-1から単語をコピーする確率pn tを得るコピー確率計算ステップを含み、
前記確率pn tに基づいて前記第1テキストの単語列Xtまたは前記第2テキストの単語列の系列Y^1,…,Y^t-1から単語をコピーして前記第2テキストの単語列Ytに対応する情報を推定する、系列変換方法。 - 系列変換装置によって実行される系列変換方法であって、
tが2以上の整数であり、t番目の第1テキストの単語列Xt、1番目からt-1番目までの第1テキストの単語列の系列X1,…,Xt-1の変換結果である1番目からt-1番目までの第2テキストの単語列の系列Y^1,…,Y^t-1を入力とし、モデルパラメータΘに基づきt番目の第1テキストの単語列Xtの変換結果であるt番目の第2テキストの単語列Ytに対応する情報を推定する推定ステップを有し、
前記モデルパラメータΘはモデルパラメータθy,θx,θs,θν,θp,θw,θoを含み、
前記モデルパラメータΘ,θy,θx,θs,θν,θp,θw,θoは、前記第1テキストの単語列と前記第2テキストの単語列の組からなる学習データを用いて前記推定ステップの処理について機械学習を行って得られたものであり、 前記推定ステップは、
前記第2テキストの単語列の系列Y^1,…,Y^t-1に対して前記モデルパラメータθyに基づく変換を行い、i=1,…,t-1についての第2テキストの単語列Y^iのテキストベクトルuY,iの系列uY,1,…,uY,t-1を得る第1ベクトル計算ステップと、
前記第1テキストの単語列Xtに対して前記モデルパラメータθxに基づく変換を行い、前記第1テキストの単語列XtのテキストベクトルuX,tを得る第2ベクトル計算ステップと、
前記系列uY,1,…,uY,t-1に対して前記モデルパラメータθνに基づく変換を行い、t-1番目の第2テキスト系列埋め込みベクトルνt-1を得る第3ベクトル計算ステップと、
nはt番目の第2テキストの単語列Y^tに含まれる単語数以下の正整数であり、前記第2テキストの単語列Y^tに含まれるn番目の単語yn tよりも過去の単語列y1 t,…,yn-1 t、および、前記テキストベクトルuX,tに対して、前記モデルパラメータθsに基づく変換を行い、前記第1テキストを考慮したt番目の第2テキストの単語列Y^tのn番目の単語向けの文脈ベクトルsn tを得る文脈ベクトル計算ステップと、
前記第2テキスト系列埋め込みベクトルνt-1および前記文脈ベクトルsn tに対して、前記モデルパラメータθpに基づく変換を行い、t番目の第2テキストの単語列Y^tのn番目の単語向けコピー確率pn tを得るコピー確率計算ステップと、
前記第2テキスト系列埋め込みベクトルνt-1および前記文脈ベクトルsn tに対して、前記モデルパラメータθwに基づく変換を行い、前記単語yn tについての事後確率P(yn t)を得る第1事後確率計算ステップと、
前記第1テキストの単語列Xt、前記事後確率P(yn t)、および前記コピー確率pn tに対して、前記モデルパラメータθoに基づく変換を行い、前記第1テキストの単語列Xt、前記第2テキストの単語列の系列Y^1,…,Y^t-1、および前記モデルパラメータΘが与えられた場合における、前記第2テキストの単語列Ytの事後確率P(Yt|Y^1,…,Y^t-1,Xt,Θ)に対応する事後確率P(yn t|y1 t,…,yn-1 t,Y^1,…,Y^t-1,Xt,Θ)を得る第2事後確率計算ステップと、
を有する系列変換方法。 - 系列変換装置によって実行される系列変換方法であって、
tが2以上の整数であり、t番目の第1テキストの単語列Xt、1番目からt-1番目までの第1テキストの単語列の系列X1,…,Xt-1の変換結果である1番目からt-1番目までの第2テキストの単語列の系列Y^1,…,Y^t-1を入力とし、モデルパラメータΘに基づきt番目の第1テキストの単語列Xtの変換結果であるt番目の第2テキストの単語列Ytに対応する情報を推定する推定ステップを有し、
前記モデルパラメータΘはモデルパラメータθy,θx,θs,θν,θq,θd,θm,θaを含み、
前記モデルパラメータΘ,θy,θx,θs,θν,θq,θd,θm,θaは、前記第1テキストの単語列と前記第2テキストの単語列の組からなる学習データを用いて前記推定ステップの処理について機械学習を行って得られたものであり、
前記推定ステップは、
前記第2テキストの単語列の系列Y^1,…,Y^t-1に対して前記モデルパラメータθyに基づく変換を行い、i=1,…,t-1についての第2テキストの単語列Y^iのテキストベクトルuY,iの系列uY,1,…,uY,t-1を得る第1ベクトル計算ステップと、
前記第1テキストの単語列Xtに対して前記モデルパラメータθxに基づく変換を行い、前記第1テキストの単語列XtのテキストベクトルuX,tを得る第2ベクトル計算ステップと、
前記系列uY,1,…,uY,t-2に対して前記モデルパラメータθνに基づく変換を行い、t-2番目の第2テキスト系列埋め込みベクトルνt-2を得る第3ベクトル計算ステップと、
nはt番目の第2テキストの単語列Y^tに含まれる単語数以下の正整数であり、前記第2テキストの単語列Y^tに含まれるn番目の単語yn tよりも過去の単語列y1 t,…,yn-1 t、および前記テキストベクトルuX,tに対して、前記モデルパラメータθsに基づく変換を行い、前記第1テキストを考慮したt番目の第2テキストの単語列Y^tのn番目の単語向けの文脈ベクトルsn tを得る第1文脈ベクトル計算ステップと、
前記単語列y1 t,…,yn-1 t、前記第2テキスト系列埋め込みベクトルνt-2、および前記系列uY,t-1に対して前記モデルパラメータθqに基づく変換を行い、過去の前記第2テキストを考慮したt番目の第2テキストの単語列Y^tのn番目の単語向けの文脈ベクトルqn tを得る第2文脈ベクトル計算ステップと、
前記文脈ベクトルsn t、t-1番目の第2テキストの単語列Y^t-1、および前記t番目の第2テキストの単語列Y^tのn番目の単語向けの文脈ベクトルqn tに対して、前記モデルパラメータθmに基づく変換を行い、t番目の第2テキストの単語列Y^tのn番目の単語向けコピー確率Mn tを得るコピーベクトル確率計算ステップと、
前記文脈ベクトルsn tおよび前記t番目の第2テキストの単語列Y^tのn番目の単語向けの文脈ベクトルqn tに対して、前記モデルパラメータθdに基づく変換を行い、前記単語yn tについての事後確率P(yn t)を得る第1事後確率計算ステップと、
前記第1テキストの単語列Xt、t-1番目の第2テキストの単語列Y^t-1、前記事後確率P(yn t)、前記コピー確率Mn tに対して、前記モデルパラメータθaに基づく変換を行い、前記第1テキストの単語列Xt、前記第2テキストの単語列の系列Y^1,…,Y^t-1、および前記モデルパラメータΘが与えられた場合における、前記第2テキストの単語列Ytの事後確率P(Yt|Y^1,…,Y^t-1,Xt,Θ)に対応する事後確率P(yn t|y1 t,…,yn-1 t,Y^1,…,Y^t-1,Xt,Θ)を得る第2事後確率計算ステップと、
を有する系列変換方法。 - tが2以上の整数であり、Xiが第1テキストの単語列であり、YiがXiから書き換えられる第2テキストの単語列であり、前記第2テキストの単語列Aiと前記第1テキストの単語列Biとの組の系列を学習データとした機械学習を行い、t番目の第1テキストの単語列Xt、1番目からt-1番目までの第1テキストの単語列の系列X1,…,Xt-1の変換結果である1番目からt-1番目までの第2テキストの単語列の系列Y^1,…,Y^t-1を入力とし、モデルパラメータΘに基づきt番目の第1テキストの単語列Xtの変換結果であるt番目の第2テキストの単語列Ytに対応する情報を推定するモデルの前記モデルパラメータΘを得る学習ステップを有し、
前記モデルは、
前記第1テキストの単語列Xtと前記第2テキストの単語列の系列Y^1,…,Y^t-1とを入力とし、前記モデルパラメータΘに基づいて、前記第1テキストの単語列Xtまたは前記第2テキストの単語列の系列Y^1,…,Y^t-1から単語をコピーする確率pn tを得るコピー確率計算ステップを含む処理を実行するためのものであり、
前記確率pn tに基づいて前記第1テキストの単語列Xtまたは前記第2テキストの単語列の系列Y^1,…,Y^t-1から単語をコピーして前記第2テキストの単語列Ytに対応する情報を推定する、
機械学習方法。 - tが2以上の整数であり、Xiが第1テキストの単語列であり、YiがXiから書き換えられる第2テキストの単語列であり、前記第2テキストの単語列Aiと前記第1テキストの単語列Biとの組の系列を学習データとした機械学習を行い、t番目の第1テキストの単語列Xt、1番目からt-1番目までの第1テキストの単語列の系列X1,…,Xt-1の変換結果である1番目からt-1番目までの第2テキストの単語列の系列Y^1,…,Y^t-1を入力とし、モデルパラメータΘに基づきt番目の第1テキストの単語列Xtの変換結果であるt番目の第2テキストの単語列Ytに対応する情報を推定するモデルの前記モデルパラメータΘを得る学習ステップを有し、
前記モデルパラメータΘはモデルパラメータθy,θx,θs,θν,θp,θw,θoを含み、
前記モデルパラメータθy,θx,θs,θν,θp,θw,θoは前記機械学習を行って得られたものであり、
前記モデルは、
前記第2テキストの単語列の系列Y^1,…,Y^t-1に対して前記モデルパラメータθyに基づく変換を行い、i=1,…,t-1についての第2テキストの単語列Y^iのテキストベクトルuY,iの系列uY,1,…,uY,t-1を得る第1ベクトル計算ステップと、
前記第1テキストの単語列Xtに対して前記モデルパラメータθxに基づく変換を行い、前記第1テキストの単語列XtのテキストベクトルuX,tを得る第2ベクトル計算ステップと、
前記系列uY,1,…,uY,t-1に対して前記モデルパラメータθνに基づく変換を行い、t-1番目の第2テキスト系列埋め込みベクトルνt-1を得る第3ベクトル計算ステップと、
nはt番目の第2テキストの単語列Y^tに含まれる単語数以下の正整数であり、前記第2テキストの単語列Y^tに含まれるn番目の単語yn tよりも過去の単語列y1 t,…,yn-1 t、および、前記テキストベクトルuX,tに対して、前記モデルパラメータθsに基づく変換を行い、前記第1テキストを考慮したt番目の第2テキストの単語列Y^tのn番目の単語向けの文脈ベクトルsn tを得る文脈ベクトル計算ステップと、
前記第2テキスト系列埋め込みベクトルνt-1および前記文脈ベクトルsn tに対して、前記モデルパラメータθpに基づく変換を行い、t番目の第2テキストの単語列Y^tのn番目の単語向けコピー確率pn tを得るコピー確率計算ステップと、
前記第2テキスト系列埋め込みベクトルνt-1および前記文脈ベクトルsn tに対して、前記モデルパラメータθwに基づく変換を行い、前記単語yn tについての事後確率P(yn t)を得る第1事後確率計算ステップと、
前記第1テキストの単語列Xt、前記事後確率P(yn t)、および前記コピー確率pn tに対して、前記モデルパラメータθoに基づく変換を行い、前記第1テキストの単語列Xt、前記第2テキストの単語列の系列Y^1,…,Y^t-1、および前記モデルパラメータΘが与えられた場合における、前記第2テキストの単語列Ytの事後確率P(Yt|Y^1,…,Y^t-1,Xt,Θ)に対応する事後確率P(yn t|y1 t,…,yn-1 t,Y^1,…,Y^t-1,Xt,Θ)を得る第2事後確率計算ステップと、を含む処理を実行するためのものである、
機械学習方法。 - tが2以上の整数であり、Xiが第1テキストの単語列であり、YiがXiから書き換えられる第2テキストの単語列であり、前記第2テキストの単語列Aiと前記第1テキストの単語列Biとの組の系列を学習データとした機械学習を行い、t番目の第1テキストの単語列Xt、1番目からt-1番目までの第1テキストの単語列の系列X1,…,Xt-1の変換結果である1番目からt-1番目までの第2テキストの単語列の系列Y^1,…,Y^t-1を入力とし、モデルパラメータΘに基づきt番目の第1テキストの単語列Xtの変換結果であるt番目の第2テキストの単語列Ytに対応する情報を推定するモデルの前記モデルパラメータΘを得る学習ステップを有し、
前記モデルパラメータΘはモデルパラメータθy,θx,θs,θν,θq,θd,θm,θaを含み、
前記モデルパラメータθy,θx,θs,θν,θq,θd,θm,θaは前記機械学習を行って得られたものであり、
前記モデルは、
前記第2テキストの単語列の系列Y^1,…,Y^t-1に対して前記モデルパラメータθyに基づく変換を行い、i=1,…,t-1についての第2テキストの単語列Y^iのテキストベクトルuY,iの系列uY,1,…,uY,t-1を得る第1ベクトル計算ステップと、
前記第1テキストの単語列Xtに対して前記モデルパラメータθxに基づく変換を行い、前記第1テキストの単語列XtのテキストベクトルuX,tを得る第2ベクトル計算ステップと、
前記系列uY,1,…,uY,t-2に対して前記モデルパラメータθνに基づく変換を行い、t-2番目の第2テキスト系列埋め込みベクトルνt-2を得る第3ベクトル計算ステップと、
nはt番目の第2テキストの単語列Y^tに含まれる単語数以下の正整数であり、前記第2テキストの単語列Y^tに含まれるn番目の単語yn tよりも過去の単語列y1 t,…,yn-1 t、および前記テキストベクトルuX,tに対して、前記モデルパラメータθsに基づく変換を行い、前記第1テキストを考慮したt番目の第2テキストの単語列Y^tのn番目の単語向けの文脈ベクトルsn tを得る第1文脈ベクトル計算ステップと、
前記単語列y1 t,…,yn-1 t、前記第2テキスト系列埋め込みベクトルνt-2、および前記系列uY,t-1に対して前記モデルパラメータθqに基づく変換を行い、過去の前記第2テキストを考慮したt番目の第2テキストの単語列Y^tのn番目の単語向けの文脈ベクトルqn tを得る第2文脈ベクトル計算ステップと、
前記文脈ベクトルsn t、t-1番目の第2テキストの単語列Y^t-1、および前記t番目の第2テキストの単語列Y^tのn番目の単語向けの文脈ベクトルqn tに対して、前記モデルパラメータθmに基づく変換を行い、t番目の第2テキストの単語列Y^tのn番目の単語向けコピー確率Mn tを得るコピーベクトル確率計算ステップと、
前記文脈ベクトルsn tおよび前記t番目の第2テキストの単語列Y^tのn番目の単語向けの文脈ベクトルqn tに対して、前記モデルパラメータθdに基づく変換を行い、前記単語yn tについての事後確率P(yn t)を得る第1事後確率計算ステップと、
前記第1テキストの単語列Xt、t-1番目の第2テキストの単語列Y^t-1、前記事後確率P(yn t)、前記コピー確率Mn tに対して、前記モデルパラメータθaに基づく変換を行い、前記第1テキストの単語列Xt、前記第2テキストの単語列の系列Y^1,…,Y^t-1、および前記モデルパラメータΘが与えられた場合における、前記第2テキストの単語列Ytの事後確率P(Yt|Y^1,…,Y^t-1,Xt,Θ)に対応する事後確率P(yn t|y1 t,…,yn-1 t,Y^1,…,Y^t-1,Xt,Θ)を得る第2事後確率計算ステップと、を含む処理を実行するためのものである、
機械学習方法。 - 請求項1から3の何れかの系列変換装置としてコンピュータを機能させるためのプログラム。
- 請求項4から6の何れかの機械学習装置としてコンピュータを機能させるためのプログラム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2020/006728 WO2021166145A1 (ja) | 2020-02-20 | 2020-02-20 | 系列変換装置、機械学習装置、系列変換方法、機械学習方法、およびプログラム |
Publications (3)
Publication Number | Publication Date |
---|---|
JPWO2021166145A1 JPWO2021166145A1 (ja) | 2021-08-26 |
JPWO2021166145A5 JPWO2021166145A5 (ja) | 2022-10-03 |
JP7429352B2 true JP7429352B2 (ja) | 2024-02-08 |
Family
ID=77391873
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022501497A Active JP7429352B2 (ja) | 2020-02-20 | 2020-02-20 | 系列変換装置、機械学習装置、系列変換方法、機械学習方法、およびプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20230072015A1 (ja) |
JP (1) | JP7429352B2 (ja) |
WO (1) | WO2021166145A1 (ja) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018181343A (ja) | 2017-04-14 | 2018-11-15 | セールスフォース ドット コム インコーポレイティッド | 抽象的要約のためのディープ強化モデル |
WO2019167296A1 (ja) | 2018-02-28 | 2019-09-06 | 日本電信電話株式会社 | 自然言語処理のための装置、方法及びプログラム |
-
2020
- 2020-02-20 JP JP2022501497A patent/JP7429352B2/ja active Active
- 2020-02-20 US US17/799,588 patent/US20230072015A1/en active Pending
- 2020-02-20 WO PCT/JP2020/006728 patent/WO2021166145A1/ja active Application Filing
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018181343A (ja) | 2017-04-14 | 2018-11-15 | セールスフォース ドット コム インコーポレイティッド | 抽象的要約のためのディープ強化モデル |
WO2019167296A1 (ja) | 2018-02-28 | 2019-09-06 | 日本電信電話株式会社 | 自然言語処理のための装置、方法及びプログラム |
Non-Patent Citations (3)
Title |
---|
山岸駿秀 他2名,目的言語側の文間文脈を考慮した文脈つきニューラル機械翻訳,言語処理学会第25回年次大会 発表論文集[online],日本,言語処理学会,2019年03月04日,394-397頁 |
石垣達也 他4名,コピー機構を用いたクエリ指向ニューラル生成型要約,情報処理学会 研究報告 自然言語処理[online],日本,情報処理学会,2019年06月06日,Vol.2019-NL-240 No.3 |
藤井諒 他3名,ニューラル機械翻訳における文脈情報の選択的利用,言語処理学会第25回年次大会 発表論文集[online],日本,言語処理学会,2019年03月04日,1459-1462頁 |
Also Published As
Publication number | Publication date |
---|---|
US20230072015A1 (en) | 2023-03-09 |
WO2021166145A1 (ja) | 2021-08-26 |
JPWO2021166145A1 (ja) | 2021-08-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10860808B2 (en) | Method and system for generation of candidate translations | |
CN108960277B (zh) | 使用语言模型对序列到序列模型进行冷聚变 | |
US9922025B2 (en) | Generating distributed word embeddings using structured information | |
US11556712B2 (en) | Span selection training for natural language processing | |
Liao et al. | Improving readability for automatic speech recognition transcription | |
US20180203852A1 (en) | Natural language generation through character-based recurrent neural networks with finite-state prior knowledge | |
US20210232948A1 (en) | Question responding apparatus, question responding method and program | |
JP7092953B2 (ja) | エンドツーエンドモデルによる多言語音声認識のための音素に基づく文脈解析 | |
JP2004355483A (ja) | 形態素解析装置、形態素解析方法及び形態素解析プログラム | |
US11157707B2 (en) | Natural language response improvement in machine assisted agents | |
Chuang et al. | Discriminative learning and the lexicon: NDL and LDL | |
Schwartz et al. | Neural polysynthetic language modelling | |
JP7205839B2 (ja) | データ生成モデル学習装置、潜在変数生成モデル学習装置、翻訳データ生成装置、データ生成モデル学習方法、潜在変数生成モデル学習方法、翻訳データ生成方法、プログラム | |
CN110287498B (zh) | 层次化翻译方法、装置及存储介质 | |
Mandal et al. | Futurity of translation algorithms for neural machine translation (NMT) and its vision | |
JP7103264B2 (ja) | 生成装置、学習装置、生成方法及びプログラム | |
JP7211103B2 (ja) | 系列ラベリング装置、系列ラベリング方法、およびプログラム | |
Griol et al. | A Neural Network Approach to Intention Modeling for User‐Adapted Conversational Agents | |
JP7429352B2 (ja) | 系列変換装置、機械学習装置、系列変換方法、機械学習方法、およびプログラム | |
Do et al. | Transferring Emphasis in Speech Translation Using Hard-Attentional Neural Network Models. | |
Youness et al. | Dialog generation for Arabic chatbot | |
Mammadov et al. | Part-of-speech tagging for azerbaijani language | |
JP7327647B2 (ja) | 発話生成装置、発話生成方法、プログラム | |
Dymetman et al. | Log-linear rnns: Towards recurrent neural networks with flexible prior knowledge | |
Wagner | Target Factors for Neural Machine Translation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220726 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220726 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230307 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20230420 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230705 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20231003 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231130 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20231130 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20231219 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231226 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240108 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7429352 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |