JP7429352B2 - 系列変換装置、機械学習装置、系列変換方法、機械学習方法、およびプログラム - Google Patents

系列変換装置、機械学習装置、系列変換方法、機械学習方法、およびプログラム Download PDF

Info

Publication number
JP7429352B2
JP7429352B2 JP2022501497A JP2022501497A JP7429352B2 JP 7429352 B2 JP7429352 B2 JP 7429352B2 JP 2022501497 A JP2022501497 A JP 2022501497A JP 2022501497 A JP2022501497 A JP 2022501497A JP 7429352 B2 JP7429352 B2 JP 7429352B2
Authority
JP
Japan
Prior art keywords
text
word string
word
vector
model parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022501497A
Other languages
English (en)
Other versions
JPWO2021166145A5 (ja
JPWO2021166145A1 (ja
Inventor
愛 庵
亮 増村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Publication of JPWO2021166145A1 publication Critical patent/JPWO2021166145A1/ja
Publication of JPWO2021166145A5 publication Critical patent/JPWO2021166145A5/ja
Application granted granted Critical
Publication of JP7429352B2 publication Critical patent/JP7429352B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • G06F40/56Natural language generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Description

本発明は或るテキスト系列を他のテキスト系列に変換する系列変換技術に関する。
入力文と意味的に等価な文を生成する言い換え生成の技術によって、テキストの意味を保持したまま、意味以外の情報を制御することができる。言い換え生成技術の例として、音声認識結果のフィラーや言い淀みを含む話し言葉テキストを、それらを削除した可読性の高い書き言葉テキストへ変換する、話し言葉・書き言葉変換がある。このような言い換え変換は、同一言語内の翻訳問題(以下、同一言語内翻訳)として考えられており、機械翻訳などと同じ、テキストからのテキスト生成タスクとして位置づけられている。通常の機械翻訳では、入力が原文のテキスト、出力が翻訳されたテキストとなるEncoder-Decoder Networksを用いたニューラル系列変換モデルが高い精度を実現しており、同一言語内翻訳においてもニューラル系列変換モデルを用いることが主流となっている。
ここでは、従来技術であるattention-based encoder-decoder networkの構成について述べる(例えば、非特許文献1等参照)。同一言語内翻訳として、話し言葉・書き言葉変換を例にとると、入力となる話し言葉テキストの単語系列をX=(x1,...,xN)、出力となる書き言葉テキストの単語系列をY=(y1,...,yN)とした場合、事後確率P(Y|X, Θ)を従来技術でモデル化する。ここで、Nは話し言葉テキストに含まれた単語数を表す正整数であり、x1,...,xNは時系列で並んだ単語xi (i=1,...,N)の系列であり、y1,...,yNは時系列で並んだ単語yi(i=1,...,N)の系列である。Θはモデルパラメータを表す。従来技術でモデル化されたP(Y|X, Θ)は以下の式(1)で表される。
Figure 0007429352000001

詳細なモデル化には、例えば、非特許文献1の方法を用いることができる。
Thang Luong, Hieu Pham, and Christopher D. Manning, "Effective approaches to attention-based neural machine translation," In Proc. EMNLP, pp. 1412-1421, 2015.
上述の従来技術の枠組みは、単一テキストの同一言語内翻訳をモデル化したものであり、連続した複数テキストから構成される文章を処理対象とする場合、文章中のテキストをそれぞれ独立に扱うため、テキスト間の関係を全く考慮することができない。すなわち、これまでのテキストに対してどのような言い換えを行ったかという情報を、現在のテキストに対する言い換えを行う場合に考慮できない。そのため、文脈に即した高精度な同一言語内翻訳を行うことが困難であるという問題が存在する。ここで、これらのテキストは時系列に並んでいるテキスト系列であることとする。このような問題は、話し言葉テキストの系列を書き言葉テキストの系列へ変換する場合のみならず、或るテキスト系列を他のテキスト系列に変換する場合に共通するものである。
本発明はこのような点に鑑みてなされたものであり、複数テキストの系列から構成される文章を処理対象とした系列変換において、文脈に即した高精度な系列変換を行うことを目的とする。
t番目の第1テキストの単語列X、1番目からt-1番目までの第1テキストの単語列の系列X,…,Xt-1の変換結果である1番目からt-1番目までの第2テキストの単語列の系列Y^,…,Y^t-1を入力とし、モデルパラメータΘに基づきt番目の第1テキストの単語列Xの変換結果であるt番目の第2テキストの単語列Yに対応する情報を推定する。ただし、tは2以上の整数である。
以上のように、第2テキストの単語列の系列Y^,…,Y^t-1を考慮してt番目の第2テキストの単語列Yの事後確率を得るため、これまでのテキストに対してどのような言い換えを行ったかという情報を考慮して、現在のテキストに対する言い換えを行うことができ、文脈に即した高精度な系列変換を行うことが可能になる。
図1Aは実施形態の系列変換装置の機能構成を例示したブロック図である。図1Bは実施形態の機械学習装置の機能構成を例示したブロック図である。 図2は実施形態の系列変換処理を例示するためのフロー図である。 図3は実施形態の機械学習処理を例示するためのフロー図である。 図4は第1実施形態の推定部の機能構成を例示したブロック図である。 図5は第1実施形態のテキスト生成部の処理を説明するためのフロー図である。 図6は第2実施形態の推定部の機能構成を例示したブロック図である。 図7は第3実施形態の推定部の機能構成を例示したブロック図である。 図8は、実施形態の手法を用い、話し言葉テキストから生成した書き言葉テキストを例示した図である。 図9は、実験結果を例示した図である。 図10は、系列変換処理の流れを例示した図である。 図11は、実施形態のハードウェア構成を例示した図である。
以下、図面を参照して本発明の実施形態を説明する。
[原理]
まず原理を説明する。実施形態では、従来のような単一テキストではなく、テキスト系列を扱うことのできる系列変換(例えば、同一言語内翻訳)のニューラル系列変換モデルを導入する。このモデルでは、文脈を考慮した系列変換のニューラル変換を実現できる。すなわち、テキスト系列中のあるテキストを言い換える際に、テキスト系列の最初から対象テキストの1つ前のテキストまでの情報を文脈として利用可能となる。具体的なモデル化では、例えば、式(1)を以下の式(2)のように変更する。
Figure 0007429352000002

ここで、X1,...,XTが第1テキストの単語列Xj=(x1 j,...,xM(j) j) (j=1,...,T)の系列であり、xi j (i=1,...,M(j))が第1テキストの単語列Xjに含まれる単語であり、Y1,...,YTが第2テキストの単語列Yj=(y1 j,...,yN(j) j) (j=1,...,T)の系列であり、yi j (i=1,...,N(j))が第2テキストの単語列Yjに含まれる単語であり、Y^j(j=1,...,T)が推定された単語列Yjである。なお、第1テキストの単位(1発話)は、例えば10分間の音声を無音が0.5秒存在するごとに区切る(200発話となる)ことで作成されたものを想定する。ただし、これは本発明を限定するものではない。また「Y^j」の上付き添え字「^」は本来「Y」の真上に記載すべきであるが(式(2)参照)、記載表記の制約上、「Y」の右上に記載する場合がある。T, N(j), M(j)が正整数であり、t∈{1,...,T}であり、Θがモデルパラメータである。例えば、x1 j,...,xM(j) j,y1 j,...,yN(j) jは時系列であり、X1,...,XTおよびY1,...,YTもまた時系列である。第1テキストの例は話し言葉テキストであり、第2テキストの例は書き言葉テキストである。式(2)の式(1)との違いは、生成済みの過去の第2テキストの単語列の系列Y^1,...,Y^t-1を用いて現在の第2テキストの単語列Ytを推定する点にある。すなわち、t番目の第1テキストの単語列X、1番目からt-1番目までの第1テキストの単語列の系列X,…,Xt-1の変換結果である1番目からt-1番目までの第2テキストの単語列の系列Y^,…,Y^t-1を入力とし、モデルパラメータΘに基づきt番目の第1テキストの単語列Xの変換結果であるt番目の第2テキストの単語列Yに対応する情報を推定する。例えば、t番目の第1テキストの単語列X、1番目からt-1番目までの第1テキストの単語列の系列X,…,Xt-1から書き換えられた1番目からt-1番目までの第2テキストの単語列の系列Y^,…,Y^t-1、およびモデルパラメータΘを入力とし、第1テキストの単語列X、第2テキストの単語列の系列Y^,…,Y^t-1、およびモデルパラメータΘが与えられた場合における、第1テキストの単語列Xから書き換えられるt番目の第2テキストの単語列Yの事後確率P(Y|Y^,…,Y^t-1,X,Θ)に対応する情報を得る。ただし、tは2以上の整数である。詳細は後述する。
以上により、連続した複数テキストから構成される文章中の各テキストを言い換える場合において、テキスト間の関係を考慮した系列変換が可能になる。すなわち、これまでのテキストに対してどのような書き換えを行ったかという情報を、現在のテキストの言い換えを行う場合に考慮できる。話し言葉・書き言葉変換を具体例とすると、講演、電話、会議等の複数の連続した発話により構成される音声について、音声認識結果である話し言葉テキストを書き言葉テキストへ変換する場合、以前の変換情報を考慮しながら現在の話し言葉テキストを書き言葉テキストへ変換できる。
なお、これまでの入力テキストに対してどのような言い換えを行ったかという情報を、現在の入力テキストに対する言い換えを行う場合に考慮できないという課題は、テキスト系列中のすべてのテキストをまとめて長い1つのテキストとして扱うことで解決可能であるかもしれない。しかし現状のニューラル系列変換モデルはテキスト全体をベクトルに変換して扱う仕組みであるため、単語数や計算量等の制約から、長いテキストに対してうまく動作しない問題が存在する。また、ニューラル系列変換モデルではテキストが入力されるたびに逐次的に言い換え生成を行うことを想定しているため、そもそもすべてのテキストをあらかじめ用意することが困難である。本実施形態の方法には、これらの問題も存在せず、系列変換を行う場合に、過去の言い換え結果(例えば、書き言葉テキスト)の文脈を考慮したニューラル変換が実現できる。
以下、この実施形態について詳細を説明する。以下では、系列変換として、話し言葉テキストの系列を書き言葉テキストの系列へ変換する話し言葉・書き言葉変換を例に説明する。しかし、これは本発明を限定するものではない。
[構成]
図1Aに例示するように、実施例1の系列変換装置11は、制御部1、記憶部111,113、入力部112、推定部114、および出力部115を有する。系列変換装置11は制御部1の制御の下で各処理を実行する。図1Bに例示するように、実施例1の機械学習装置12は、制御部120、記憶部121,123,127、推定部114、出力部125、および学習部126を有する。機械学習装置12は制御部120の制御の下で各処理を実行する。なお、既に説明した事項については、同じ参照番号を引用して説明を省略する場合がある。
[系列変換処理]
次に、実施例1の系列変換装置11による系列変換処理である同一言語内翻訳処理について説明する。
入力:t個の連続した発話の話し言葉テキスト(第1テキスト)の単語列の系列X,…,X
モデルパラメータΘ
出力:t個の連続した書き言葉テキスト(第2テキスト)の単語列の系列Y^,…,Y^
本実施例の系列変換装置11は、t個の連続した発話の話し言葉テキストの単語列の系列X,…,Xを入力として、モデルパラメータΘに従った確率計算により、t個の連続した書き言葉テキストの単語列の系列Y^,…,Y^を得て出力する。ここでは、ニューラル変換の入力となるt個の連続した話し言葉テキストの単語列の系列をX,…,Xとする。ここで、Xはj番目の話し言葉テキストの単語列であり、Xj=(x1 j,...,xM(j) j) (j=1,...,T)として表される。出力となる書き言葉テキストの単語列の系列をY^,…,Y^とする。ここで、Y^は推定されたj番目の書き言葉テキストの単語列であり、Yj=(y1 j,...,yN(j) j) (j=1,...,T)として表される。ここで、英語であれば、例えばスペースで区切られた文字列の表現、日本語であれば、例えば形態素解析により自動分割された文字列の表現、または文字単位に区切った表現を単語列としてもよい。また、モデルパラメータΘは系列変換装置11の推定部114が含む複数の部が持つパラメータの集合である。モデルパラメータΘは機械学習装置12による機械学習によって得られる。用いるモデルに限定はなく、例えば、公知のニューラル系列変換モデルを用いることができる。具体的には、例えば先行技術として挙げた非特許文献1に記載されたモデルを用いることができる。ただし、同一言語内翻訳は、入出力のテキストで複数の単語が共有されるため、入力テキスト内の単語のコピーを可能としたPointer-Generator Networksを用いたほうが有効である。よって本実施例では、ベースとなるモデルにPointer-Generator Networks(参考文献1)を用いた場合を例示することとする。
参考文献1:Abigail See, Peter J Liu, and Christopher D Manning, “Get to the point: Summarization with pointer-generator networks,” in Proc. Annual Meeting of the Association for Computational Linguistic (ACL), 2017, pp.73-83.
次に、図1Aおよび図2を用い、実施例1の同一言語内翻訳処理の流れを説明する。翻訳処理の前提として記憶部111に学習済みのモデルパラメータΘが格納されているものとする。モデルパラメータΘは、後述の機械学習によって得られるものである。
まず、制御部1がtをt=1に初期化する(ステップS1a)。
入力部112には、話し言葉テキストの単語列の系列X,…,Xのt番目の話し言葉テキストの単語列Xが入力される(ステップS112)。
t番目の話し言葉テキストの単語列Xは推定部114に入力される。推定部114には、さらに記憶部111から読み出された学習済みのモデルパラメータΘが入力される。さらに後述のように、t≧2では、記憶部113には1番目からt-1番目までの話し言葉テキストの単語列の系列X,…,Xt-1から書き換えられた1番目からt-1番目までの書き言葉テキストの単語列の系列Y^,…,Y^t-1が格納されている。これらの書き言葉テキストの単語列の系列Y^,…,Y^t-1も記憶部113から読み出され、推定部114に入力される。t=1では記憶部113には書き言葉テキストの単語列の系列が格納されておらず、推定部114には書き言葉テキストの単語列の系列は入力されない。推定部114は、t番目の話し言葉テキストの単語列Xと、1番目からt-1番目までの書き言葉テキストの単語列の系列Y^,…,Y^t-1と、モデルパラメータΘが入力された時に、モデルパラメータΘに従った確率計算により、t番目の書き言葉テキストについての事後確率(事後確率分布)P(Y|Y^,…,Y^t-1,X,Θ)に対応する情報を得て、最尤基準によりt番目の書き言葉テキストの単語列Y^を決定して出力する。t=1の場合、推定部114は、事後確率(事後確率分布)P(Y|X,Θ)を得て、最尤基準により1番目の書き言葉テキストの単語列Y^を決定して出力する。すなわち、推定部114は、t番目の話し言葉テキスト(第1テキスト)の単語列X、1番目からt-1番目までの話し言葉テキストの単語列の系列X,…,Xt-1の変換結果である1番目からt-1番目までの書き言葉テキスト(第2テキスト)の単語列の系列Y^,…,Y^t-1を入力とし、モデルパラメータΘに基づきt番目の話し言葉テキストの単語列Xの変換結果であるt番目の書き言葉テキストの単語列Yに対応する情報を推定する。より具体的には、推定部114は、例えばt番目の話し言葉テキスト(第1テキスト)の単語列X、1番目からt-1番目までの話し言葉テキストの単語列の系列X,…,Xt-1から書き換えられた1番目からt-1番目までの書き言葉テキスト(第2テキスト)の単語列の系列Y^,…,Y^t-1、およびモデルパラメータΘを入力とし、話し言葉テキストの単語列X、書き言葉テキストの単語列の系列Y^,…,Y^t-1、およびモデルパラメータΘが与えられた場合における、話し言葉テキストの単語列Xから書き換えられるt番目の書き言葉テキストの単語列Yの事後確率P(Y|Y^,…,Y^t-1,X,Θ)に対応する情報を得、最尤基準によりt番目の書き言葉テキストの単語列Y^を得て出力する。なお、最尤基準による決定は例えば、以下の式(3)に従う。
Figure 0007429352000003

この処理は再帰的に行うことができる。すなわち、t番目の話し言葉テキストの変換結果である書き言葉テキストの単語列Y^を既知の情報であるとすることにより、t+1番目の書き言葉テキストの単語列Y^t+1についての事後確率分布P(Yt+1|Y^,…,Y^,Xt+1,Θ)に対応する情報を得ることができる。さらに式(3)と同様に式(4)より、t+1番目の話し言葉テキストの変換結果である書き言葉テキストの単語列Yt+1を決定できる。
Figure 0007429352000004

P(Y|Y^,…,Y^t-1,X,Θ)に対応する情報の詳しい定式化と詳細な計算方法については後述する(ステップS114)。
得られた書き言葉テキストの単語列Y^は出力部115に入力され、出力部115から出力される。また書き言葉テキストの単語列Y^は記憶部113に格納される(ステップS115)。
制御部1は、次の話し言葉テキストの単語列Xt+1が存在するかを判定する(ステップS1b)。ここで、次の話し言葉テキストの単語列Xt+1が存在しない場合には処理を終了する。一方、次の話し言葉テキストの単語列Xt+1が存在する場合には、制御部1はt+1を新たなtとし、処理をステップS112に戻す(ステップS1c)。
[機械学習処理]
実施例1の機械学習装置12による機械学習処理について説明する。
入力:複数(1つ以上)の話し言葉テキストの単語列の系列と書き言葉テキストの単語列の系列の組の集合である学習データD=(A,B),…,(A|D|,B|D|
出力:モデルパラメータΘ
機械学習装置12は、複数(1つ以上)の話し言葉テキストの単語列の系列と、それらから書き換えられた書き言葉テキストの単語列の系列と、の組の集合である学習データDからモデルパラメータΘを学習する。なお、(A,B)={(Y,X),...,(YT(m),XT(m))}であり、t(m)は正整数であり、m=1,…,|D|であり、|D|は学習データDの要素数を表す正整数である。学習データDにより最適化されたモデルパラメータΘ^は以下の式(5)に従う。なお、最適化には、ニューラルネットワークの学習において一般的な最適化手法を用いればよい。
Figure 0007429352000005

ここで学習されたモデルパラメータΘ^はモデルパラメータΘとして用いられる。
<学習データDについて>
ニューラル系列変換モデルでは、入力と出力の関係性をend-to-endでモデル化するために、入力と出力の対データが大量に必要となる。そのため、話し言葉から書き言葉へのニューラル系列変換モデルを作成するためには、話し言葉と書き言葉の文対を大量に用意する必要がある。話し言葉を書き言葉へ変換するためには、様々な要素を考慮する必要がある。例えば、フィラーや言い淀み、冗長表現の削除や、句読点の付与が必要となる。これらの要素を網羅的に考慮するほど、可読性の高い書き言葉テキストに変換できると考えられる。しかし、従来の研究ではこれらを独立に捉え、それぞれの要素に適したコーパスを使用していた(例えば、参考文献2,3等参照)。そのため、従来のコーパスではこれらの要素を同時に考慮した変換が実現できない。
参考文献2:John J Godfrey, Edward C Holliman, and Jane McDaniel, "Switchboard: Telephone speech corpus for research and development," In Proc. ICASSP, pp. 517-520, 1992.
参考文献3:Nicola Ueffing, Maximilian Bisani, and Paul Vozila, "Improved models for automatic punctuation prediction for spoken and written text," In Proc. INTERSPEECH, pp. 3097-31, 2013.
また、日本語には話し言葉、書き言葉それぞれに特有の表現が存在する。例えば、話し言葉テキストでは助詞が省略されることがしばしばあるが、書き言葉テキストでは省略することができない。また、話し言葉テキストでは文体の統一が厳密に行われていないが、書き言葉テキストでは読者の混乱を防ぐために文体を統一する必要がある。このように、日本語の文章を対象とする場合、従来考えられていた要素に加えて、日本語特有の要素についても考慮する必要がある。以上より、本実施例においては、話し言葉テキストの可読性を向上させることを目的とし、従来の要素と日本語特有の要素の両方を考慮した、日本語文章のための話し言葉から書き言葉へ変換するコーパスを作成したものを、学習データDとして利用する。話し言葉テキストは、複数の要素を網羅的に考慮するほど可読性の高い書き言葉テキストに変換できると考えられるため、本コーパスでは複数の要素を同時に変換する。日本語の話し言葉を扱ったコーパスとして、日本語話し言葉コーパス(例えば、参考文献4等参照)が存在するが、このコーパスにはフィラーと言い淀み、一定時間の休止区間のみがアノテーションされており、日本語特有の要素については全く考慮されていない。そのため、本コーパスは、日本語における話し言葉・書き言葉変換に関する複数の要素を同時に考慮する初めてのコーパスである。
参考文献4:Kikuo Maekawa, Hanae Koiso, Sadaoki Furui, and Hitoshi Isahara, "Spontaneous speech corpus of japanese," In Proc. LREC, pp. 947-9520, 2000.
以下では、コーパス作成の際に、人手により日本語の話し言葉・書き言葉変換を行うためのルールについて詳細に説明する。話し言葉・書き言葉変換では、音声認識結果で得られたフィラーや言い淀みを含む話し言葉テキストを可読性の高い書き言葉テキストに変換する必要がある。具体的には、話し言葉テキストの可読性を低下させる原因となる要素に着目し、それらの要素を書き言葉に変換する。以下にその例を示す。(1)~(3)が日本語特有のルール、(4)以降は一般的なルールとなっている。
(1)文体の統一
日本語の文体には、文末に“だ”、“である”などを用いる常体と、文末に“です”、“ます”などの丁寧語を用いる敬体が存在する。書き言葉では一般的に、常体が用いられるが、音声認識は発話を書き起こしたものであるために、文末を“だ”、“である”に統一すると不自然な文章となる。そのため、日本語の文章を対象とする場合、書き言葉テキストの文体として、話し言葉でも書き言葉でも用いられる敬体を使用する。
(2)助詞の復元
日本語の話し言葉では、しばしば助詞が省略される。しかし、助詞は名詞と動詞、形容詞の意味関係を示す役割を果たしているため、正しく文章の意味を伝えることを目的とした書き言葉では助詞を省略することはできない。そのため、日本語の文章を対象とする場合、話し言葉テキストで省略されている助詞を話し言葉・書き言葉変換で復元する。
(3)かな漢字表記の統一
話し言葉テキストは、発話を音声認識したものであるためにしばしば表記の揺れが存在する。例えば、数字が漢数字に変換されていたり、英語表記がひらがな表記に変換されることがある。そのため、話し言葉テキストで読みづらい英語、数字表記、ひらがな表記を話し言葉・書き言葉変換で修正する。
(4)句読点の付与
音声認識では、一定時間の休止区間に従って句読点が付与されることがあるが、これらは可読性向上を観点に付与されているわけではないため、抜けや誤りが存在する。そのため、話し言葉テキストの接続語(そして、しかし、また、つまりなど)の後や、漢字やひらがなが続く場合は、読みやすくなるように書き言葉テキストで読点を付与し、話し言葉テキストの句読点の付け方に誤りがある場合は話し言葉・書き言葉変換で修正する。
(5)言い淀み表現の除去
フィラーや言い淀みのある文章は可読性が低いため、話し言葉・書き言葉変換でそれらを除去する。
(6)冗長表現の削除や文章の簡略化
話し言葉では、思いつくまま話された発話をそのまま書き起こしているため、冗長な文章や文法的に誤りのある文章が存在する。そのため、話し言葉テキストで同じ表現が繰り返される場合、話し言葉・書き言葉変換で無駄な表現を削除、あるいは文章を区切るなどして読みやすい文章に修正する。
(7)音声認識誤りの修正
音声認識では、しばしば認識誤りが発生するため、文脈から誤字と認識される言葉は話し言葉・書き言葉変換で修正する。
これらの要素を網羅するほど、可読性の高い書き言葉テキストに変換できると考えられる。以下に、これらの要素を考慮した話し言葉・書き言葉変換の例を示す。
・話し言葉テキスト
はいはい、それはそうですね
私なんかは運動もたくさんしているので、ご飯もそれほど食べていないので、だいえっとする必要ってないですね
いわゆるメタボとは無縁ちゃ無縁ですが、糖尿病にはきをつけてます
・書き言葉テキスト
それはそうですね。
私は、運動をたくさんしていますし、ご飯もそれほど食べません。よって、ダイエットする必要はないですね。
メタボとは無縁ですが、糖尿病には気を付けてます。
<機械学習処理の流れ>
次に、図1Bおよび図3を用いて、本実施例の機械学習処理の流れを例示する。機械学習装置12は、学習データD=(A,B),…,(A|D|,B|D|)を用い、例えば以下のようにモデルパラメータΘを学習する。
まず、機械学習装置12(図1B)の制御部120がmをm=1に初期化する(ステップS120a)。
また、制御部120がtをt=1に初期化する(ステップS120b)。
記憶部127から学習データDの(A,B)={(Y,X),...,(YT(m),XT(m))}の話し言葉テキストの単語列Xが読み出され、推定部114に入力される(ステップS122)。推定部114には、さらに記憶部121から読み出された学習済みのモデルパラメータΘが入力される。t≧2では、記憶部123には1番目からt-1番目までの話し言葉テキストの単語列の系列X,…,Xt-1から書き換えられた1番目からt-1番目までの書き言葉テキストの単語列の系列Y^,…,Y^t-1が格納されている。これらの書き言葉テキストの単語列の系列Y^,…,Y^t-1も記憶部123から読み出され、推定部114に入力される。t=1では記憶部123には書き言葉テキストの単語列の系列が格納されておらず、推定部114には書き言葉テキストの単語列の系列は入力されない。推定部114は、t番目の話し言葉テキストの単語列Xと、1番目からt-1番目までの書き言葉テキストの単語列の系列Y^,…,Y^t-1と、モデルパラメータΘが入力された時に、モデルパラメータΘに従った確率計算により、t番目の書き言葉テキストについての事後確率(事後確率分布)P(Y|Y^,…,Y^t-1,X,Θ)に対応する情報を得て、最尤基準によりt番目の書き言葉テキストの単語列Y^を決定して出力する。t=1の場合、推定部114は、事後確率(事後確率分布)P(Y|X,Θ)を得て、最尤基準により1番目の書き言葉テキストの単語列Y^を決定して出力する(ステップS114)。
得られた書き言葉テキストの単語列Y^は出力部125に入力され、出力部125から出力される。書き言葉テキストの単語列Y^は学習部126に入力されるとともに、記憶部123に格納される。書き言葉テキストの単語列Y^は学習部126に入力される。また学習部126には、記憶部127から読み出された学習データDが入力される(ステップS125)。
制御部120は、t=T(m)であるか否かを判定する(ステップS120b)。ここでt=T(m)でない場合、制御部120はt+1を新たなtとし、処理をステップS122に戻す(ステップS120c)。一方、t=T(m)である場合、制御部120は、m=|D|であるか否かを判定する(ステップS120d)。ここでm=|D|でない場合、制御部120はm+1を新たなmとし、処理をステップS120bに戻す(ステップS120e)。一方、m=|D|であれば、学習部126は前述の式(5)に従うようにモデルパラメータΘを更新する。モデルパラメータΘの更新には、例えば誤差逆伝播法などの公知な方法を用いる(ステップS126)。
モデルパラメータΘが更新されると、制御部120は終了条件を満たした否かを判定する。終了条件の例はモデルパラメータΘの更新を所定回数行ったこと、モデルパラメータΘの更新量が所定値以下であることなどである。ここで、終了条件を満たしていない場合には、制御部120は処理をステップS120aに戻す。一方、終了条件を満たした場合には処理を終了する。すなわち、tが2以上の整数であり、Xが話し言葉テキスト(第1テキスト)の単語列であり、YがXから書き換えられる書き言葉テキスト(第2テキスト)の単語列であり、学習部126は、書き言葉テキスト(第2テキスト)の単語列Aと話し言葉テキスト(第1テキスト)の単語列Bとの組の系列を学習データとした機械学習を行い、t番目の話し言葉テキスト(第1テキスト)の単語列X、1番目からt-1番目までの話し言葉テキスト(第1テキスト)の単語列の系列X,…,Xt-1から書き換えられた1番目からt-1番目までの書き言葉テキスト(第2テキスト)の単語列の系列Y^,…,Y^t-1、およびモデルパラメータΘを入力とし、話し言葉テキスト(第1テキスト)の単語列X、書き言葉テキスト(第2テキスト)の単語列の系列Y^,…,Y^t-1、およびモデルパラメータΘが与えられた場合における、t番目の書き言葉テキスト(第2テキスト)の単語列Yの事後確率P(Y|Y^,…,Y^t-1,X,Θ)に対応する情報を得るモデルのモデルパラメータΘを得て出力する(ステップS120f)。
[推定部114の詳細]
推定部114の詳細を例示する。図4に例示するように、推定部114は、制御部1140、ベクトル計算部1141,1142,1143、文脈ベクトル計算部1144、コピー確率計算部1145、事後確率計算部1146,1147、およびテキスト生成部1148を有する。推定部114は、制御部1140の制御の下で各処理を実行する。
前述のように、推定部114は事後確率P(Y|Y^,…,Y^t-1,X,Θ)に対応する情報を計算する。以下では、推定部114がt番目の書き言葉テキストの単語列Y^のn番目の単語y についての事後確率P(y |y ,…,yn-1 ,Y^,…,Y^t-1,X,Θ)を計算する処理を例示する。なお、nは正整数であるが、n=1の場合には事後確率P(y |Y^,…,Y^t-1,X,Θ)が計算される。ここでモデルパラメータΘはモデルパラメータθ,θ,θ,θν,θ,θ,θを含み、Θ={θ,θ,θ,θν,θ,θ,θ}として表される。
≪ベクトル計算部1141(第1ベクトル計算部)の処理≫
入力:t-1番目の書き言葉テキストの単語列Y^t-1
モデルパラメータθ
出力:t-1番目の書き言葉テキストの単語列についてのテキストベクトルuY,t-1
ベクトル計算部1141は、t-1番目の書き言葉テキストの単語列Y^t-1を、モデルパラメータθに基づく変換関数により、t-1番目の書き言葉テキストのテキストベクトルuY,t-1に変換する。この時、t-1番目の書き言葉テキストの単語列Y^t-1は1つ以上の単語を含む。テキストベクトルuY,t-1は単語列Y^t-1に含まれる情報を埋め込んだベクトルを表し、次の話し言葉テキストを書き言葉へ変換するために必要と考えられるテキストの意味的な情報が含まれている。ベクトルの次元数を大きくするほどたくさんの情報を埋め込むことができ、例えば512次元のベクトルをテキストベクトルuY,t-1とする。ベクトルの次元数は人手で設定される。モデルパラメータθに基づく変換関数には、入力された可変長数の記号列を単一ベクトルに変換する関数であれば任意のものを利用できる。例えば、入力されたテキスト中の単語の頻度ベクトルを出力する関数、リカレントニューラルネットワーク、または双方向リカレントニューラルネットワーク等を当該変換関数として用いることができる。なお、t=1の場合には入力となる単語列Y^は存在しないため、Y^に対する出力uY,0はすべての要素が0.0のベクトルとする。また、ベクトル計算部1141はの処理は{Y^,…,Y^t-1}の単語列Y^(ただし、i=1,…,t-1)についての単語列Y^のそれぞれに対して行われることになる。したがって、ベクトル計算部1141は、{Y^,…,Y^t-1}の単語列Y^(ただし、i=1,…,t-1)の入力に対して、{uY,1,…,uY,t-1}のテキストベクトルuY,iをそれぞれ出力することになる。すなわち、ベクトル計算部1141(第1ベクトル計算部)は、書き言葉テキスト(第2テキスト)の単語列の系列Y^,…,Y^t-1に対してモデルパラメータθに基づく変換を行い、i=1,…,t-1についての書き言葉テキスト(第2テキスト)の単語列Y^のテキストベクトルuY,iの系列uY,1,…,uY,t-1を得て出力する。
≪ベクトル計算部1142(第2ベクトル計算部)の処理≫
入力:t番目の話し言葉テキストの単語列X
モデルパラメータθ
出力:t番目の話し言葉テキストの単語列Xに対するテキストベクトルuX,t
ベクトル計算部1142は、t番目の話し言葉テキストの単語列Xをモデルパラメータθに基づく変換関数により、t番目の話し言葉テキストのテキストベクトルuX,tに変換する。モデルパラメータθに基づく変換関数の具体例は、θがθに置換される以外、モデルパラメータθに基づく変換関数と同じであるため、その詳細な説明を省略する。すなわち、ベクトル計算部1142(第2ベクトル計算部)は、話し言葉テキスト(第1テキストの単語列Xに対してモデルパラメータθに基づく変換を行い、話し言葉テキスト(第1テキスト)の単語列XのテキストベクトルuX,tを得て出力する。
≪ベクトル計算部1143(第3ベクトル計算部)≫
入力:過去の話し言葉テキストの単語列についてのテキストベクトルuY,iの系列uY,1,…,uY,t-1
モデルパラメータθν
出力:t-1番目の書き言葉テキスト系列埋め込みベクトルνt-1
ベクトル計算部1143は、過去の書き言葉テキスト系列についてのテキストベクトルuY,iの系列uY,1,…,uY,t-1を、モデルパラメータθνに基づく変換関数により、t-1番目の書き言葉テキスト系列埋め込みベクトルνt-1に変換する。この書き言葉テキスト系列埋め込みベクトルνt-1は単一のベクトルであり、次の話し言葉テキストの単語列Xを書き言葉テキストの単語列Y^へ変換する際に必要な意味的情報が埋め込まれている。ベクトルの次元数を大きくするほどたくさんの情報を埋め込むことができ、例えば512次元のベクトルを書き言葉テキスト系列埋め込みベクトルνt-1とする。ベクトルの次元数は人手で設定される。モデルパラメータθνに基づく変換関数には、可変長数のベクトル列を単一ベクトルに変換する関数であれば任意のものを利用でき、例えばリカレントニューラルネットワークや、テキストベクトル系列の各ベクトルを平均化するような関数を用いることができる。なお、平均化する場合のテキスト系列埋め込みベクトルνt-1の次元数は、テキストベクトルuY,iの系列uY,1,…,uY,t-1
の各次元数に依存する。なお、t=1の場合は、過去の話し言葉テキストの単語列についてのテキストベクトルの系列は存在しないため、ベクトル計算部1143が出力する書き言葉テキスト系列埋め込みベクトルνはすべての要素が0.0のベクトルとする。すなわち、ベクトル計算部1143(第3ベクトル計算部)は、系列uY,1,…,uY,t-1に対してモデルパラメータθνに基づく変換を行い、t-1番目の書き言葉テキスト系列埋め込みベクトル(第2テキスト系列埋め込みベクトル)νt-1を得て出力する。
≪文脈ベクトル計算部1144≫
入力:t番目の書き言葉テキストの単語列Y^のn番目の単語y よりも過去の単語列y ,…,yn-1
t番目の話し言葉テキストの単語列XについてのテキストベクトルuX,t
モデルパラメータθ
出力:t番目の話し言葉テキストの単語列Xを考慮した、t番目の書き言葉テキストの単語列Y^のn番目の単語向けの文脈ベクトルs
文脈ベクトル計算部1144は、t番目の書き言葉テキストの単語列Y^のn番目の単語y よりも過去の単語列y ,…,yn-1 と、t番目の話し言葉テキストの単語列XについてのテキストベクトルuX,tを、モデルパラメータθに基づく変換関数により、t番目の話し言葉テキストの単語列Xを考慮したt番目の書き言葉テキストの単語列Y^のn番目の単語向けの文脈ベクトルs に変換する。なお、n=1の場合には過去の単語列y ,…,yn-1 が存在しないため、過去の単語列y ,…,yn-1 に代えて所定値(例えば、零ベクトル)が用いられる。この文脈ベクトルs には、次の単語の書き言葉話し言葉変換に必要な意味的情報が埋め込まれている。このとき変換関数には、2種類の可変長数のベクトル列を単一ベクトルに変換する関数であれば任意のものを利用できる。この変換関数の例は、書き言葉テキストの単語列y ,…,yn-1 と話し言葉テキストの単語列XについてのテキストベクトルuX,tのそれぞれにリカレントニューラルネットワークおよび注意機構を適用して単一の文脈ベクトルを出力する関数である(例えば、非特許文献1参照)。また、単純なものとしては、t番目の書き言葉テキストの単語列Y^のn番目の単語y よりも過去の単語列y ,…,yn-1 とt番目の話し言葉テキストの単語列XについてのテキストベクトルuX,tの頻度ベクトルを平均化したベクトルを出力する関数を当該変換関数として用いることもできる。すなわち、nはt番目の書き言葉テキスト(第2テキスト)の単語列Y^に含まれる単語数以下の2以上の整数であり、文脈ベクトル計算部1144は、書き言葉テキスト(第2テキスト)の単語列Y^に含まれるn番目の単語y よりも過去の単語列y ,…,yn-1 、および、テキストベクトルuX,tに対して、モデルパラメータθに基づく変換を行い、話し言葉テキスト(第1テキスト)の単語列Xを考慮した、t番目の書き言葉テキスト(第2テキスト)の単語列Y^のn番目の単語向けの文脈ベクトルs を得て出力する。
≪コピー確率計算部1145≫
入力:t-1番目の書き言葉テキスト系列埋め込みベクトルνt-1
t番目の書き言葉テキストの単語列Y^のn番目の単語向けの文脈ベクトルs
モデルパラメータθ
出力:t番目の書き言葉テキストの単語列Y^のn番目の単語向けコピー確率p
コピー確率計算部1145は、t-1番目の書き言葉テキスト系列埋め込みベクトルνt-1と、t番目の書き言葉テキストの単語列Y^のn番目の単語向けの文脈ベクトルs とを、モデルパラメータθに基づく変換関数によりt番目の書き言葉テキストの単語列Y^のn番目の単語向けコピー確率p に変換する。この確率は、t番目の書き言葉テキストの単語列Y^のn番目の単語を出力する際に、話し言葉テキストの単語列Xからどのくらいの割合で単語をコピーするかを決定する確率である。このとき変換関数には、入力された2種類のベクトルを0以上1以下のスカラー値に変換して出力する関数であれば任意のものを利用できる。この変換関数の例は、入力された2つのベクトルの結合ベクトルにシグモイド関数を用いた変換を行う関数である。すなわち、コピー確率計算部1145は、書き言葉テキスト系列埋め込みベクトル(第2テキスト系列埋め込みベクトル)νt-1および文脈ベクトルs に対して、モデルパラメータθに基づく変換を行い、t番目の書き言葉テキストの単語列Y^のn番目の単語向けコピー確率p を得て出力する。
≪事後確率計算部1146(第1事後確率計算部)≫
入力:t-1番目の書き言葉テキスト系列埋め込みベクトルνt-1
t番目の書き言葉テキストの単語列Y^のn番目の単語向けの文脈ベクトルs
モデルパラメータθ
出力:t番目の書き言葉テキストのn番目の単語についての事後確率P(y
事後確率計算部1146は、t-1番目の書き言葉テキスト系列埋め込みベクトルνt-1と、t番目の書き言葉テキストの単語列Y^のn番目の単語向けの文脈ベクトルs とを、モデルパラメータθに基づく変換関数により、t番目の書き言葉テキストのn番目の単語についての事後確率P(y )を得て出力する。事後確率は、各単語に対する確率を要素としたベクトルとして表すことができ、各要素からなるベクトルへのベクトル変換により事後確率分布を表現することが可能である。このとき変換関数には、2種類のベクトルを事後確率分布に変換して出力する関数であれば任意のものを利用できる。この変換関数の例は、入力された2つのベクトルの結合ベクトルにソフトマックス関数を用いた変換を行う関数である。それ以外でも、事後確率分布に相当する出力ベクトルの要素の総和が1.0に変換可能な関を当該変換関数としてもよい。すなわち、事後確率計算部1146(第1事後確率計算部)は、書き言葉テキスト系列埋め込みベクトル(第2テキスト系列埋め込みベクトル)νt-1および文脈ベクトルs に対して、モデルパラメータθに基づく変換を行い、単語y についての事後確率P(y )を得て出力する。
≪事後確率計算部1147(第2事後確率計算部)≫
入力:t番目の書き言葉テキストの単語列Y^のn番目の単語についての事後確率P(y
t番目の話し言葉テキストの単語列X
t番目の書き言葉テキストの単語列Y^のn番目の単語向けコピー確率p
モデルパラメータθ
出力:t番目の書き言葉テキストのn番目の単語y についての事後確率
P(yn t|y1 t,…,yn-1 t,Y^1,…,Y^t-1,Xt,Θ)
事後確率計算部1147は、t番目の書き言葉テキストの単語列Y^のn番目の単語についての事後確率P(y )、t番目の話し言葉テキストの単語列X、およびt番目の書き言葉テキストの単語列Y^のn番目の単語向けコピー確率p に対し、モデルパラメータθ基づく変換関数を適用し、t番目の書き言葉テキストのn番目の単語についての事後確率P(yn t|y1 t,…,yn-1 t,Y^1,…,Y^t-1,Xt,Θ)を得て出力する。このとき変換関数の一例は、事後確率P(y )にコピー確率p を掛け合わせたものと、t番目の話し言葉テキストの単語列Xから単語の分布を求め、その分布に1からコピー確率p を引いた値を掛け合わせたものを足し合わせたものである。単語列Xから単語の分布を求める方法としては、単語列Xのベクトルから任意の分布を求める方法を用いることができる。簡単なものとしては、例えば、単語列Xの頻度ベクトルにソフトマックス関数を用いた変換を行ったものを当該単語の分布とすることができる。すなわち、事後確率計算部1147(第2事後確率計算部)は、話し言葉テキスト(第1テキスト)の単語列X、事後確率P(y )、およびコピー確率p に対して、モデルパラメータθに基づく変換を行い、事後確率P(Y|Y^,…,Y^t-1,X,Θ)に対応する事後確率P(y |y ,…,yn-1 ,Y^,…,Y^t-1,X,Θ)を得て出力する。
≪テキスト生成部1148≫
入力:t番目の書き言葉テキストの単語列Y^の1,…,n番目の単語y ,…,y における事後確率
P(y1 t|Y^1,…,Y^t-1,Xt,Θ),...,P(yn t|y1 t,…,yn-1 t,Y^1,…,Y^t-1,Xt,Θ)
出力:t番目の書き言葉テキストの単語列Y^
テキスト生成部1148は、t番目の書き言葉テキストの単語列Y^の1,…,n番目の単語y ,…,y における事後確率P(y |Y^,…,Y^t-1,X,Θ),…,P(y |y ,…,yn-1 ,Y^,…,Y^t-1,X,Θ)の積が最大となるような単語y をn=1,…,N(t)について1個づつ選択していき、t番目の書き言葉テキストの単語列Y^=(y ,…,yN(t) )を得て出力する。このとき、y ,…,yN(t) の要素選択には事後確率P(y |Y^,…,Y^t-1,X,Θ),…,P(y |y ,…,yn-1 ,Y^,…,Y^t-1,X,Θ)の積が最大化される手法であれば任意のものを使用できるが、例えば、貪欲法などの近似アルゴリズムを用いることができる。
これらの処理は、書き言葉テキストの単語列Y^(t=1,...,T)のすべての単語が生成され、さらに対象とする話し言葉テキストの単語列X(t=1,...,T)がすべて書き言葉テキストの単語列Y^に変換されるまで、再帰的に繰り返される。その処理の流れを図5に例示する。
図5に例示するように、まず制御部1140がtをt=1に初期化する(ステップS1148a)。また制御部1140がnをn=1に初期化する(ステップS1148b)。
読み言葉テキストの単語列Xがベクトル計算部1142に入力され、計算済みの書き言葉テキストの単語列Y^,…,Y^t-1がベクトル計算部1141に入力される。なお、t=1の場合には計算済みの書き言葉テキストの単語列は存在しないので、計算済みの書き言葉テキストの単語列は入力されない(ステップS1148c)。
制御部1140は、n>1であるか否かを判定する(ステップS1148d)。ここで、n>1であれば、上述のように推定部114がXとY,…,Yt-1とy ,…,yn-1 からy を生成して出力する。ただし、t=1の場合、推定部114はXとy ,…,yn-1 からy を生成して出力する(ステップS1148f)。一方、n>1でなければ、推定部114がXとY,…,Yt-1からy を生成して出力する。ただし、t=1の場合、推定部114は上述のようにXからy を生成して出力する(ステップS1148e)。
次に、制御部1140はn+1を新たなnとする(ステップS1148g)。制御部1140はn=N(t)+1であるかを判定する(ステップS1148h)。ここで、n=N(t)+1でなければ、制御部1140は処理をステップS1148dに戻す。一方、n=N(t)+1であれば、制御部1140はt+1を新たなtとする(ステップS1148i)。さらに制御部1140はtが上限を超えたか、すなわちt=T(m)+1またはt=T+1となったかを判定する(ステップS1148j)。tが上限を超えていない場合、制御部1140は処理をステップS1148bに戻す。一方、tが上限を超えた場合には処理を終了する。
このように、過去の書き言葉テキストを考慮して現在の話し言葉テキストを変換できるようになれば、これまでの話し言葉テキストに対してどのような書き換えを行ったかという情報を、現在の書き言葉テキストへ書き換える際に考慮できるようになる。例えば、分程度の講演音声の認識結果である話し言葉テキストを書き言葉テキストへ変換することを想定する。この講演音声を無音が0.5秒存在するごとに区切ると、200発話の音声が含まれていることになる。この200発話は連続した系列であり、連続した発話は関連する情報を話している場合が高いと考えられる。しかしながら、従来技術を適用すると200発話分の音声認識結果である話し言葉テキストを独立に書き言葉テキストに変換することとなり、関連する文脈情報を現在の話し言葉・書き言葉変換をする場合に利用できない。より具体的には、0発話目の音声認識結果が「あのインターネットの解約はこちらの電話番号で」、1発話目の結果が「電話番号でよろしいですか」という話し言葉テキストである場合、0発話目を考慮できていれば、1発話目の「電話番号で」という部分は発話境界をまたぐ言い淀みだと判定できるため、「よろしいですか」と、言い淀みを削除したテキストに変換できると考えられる。また、2発話目の音声認識結果が「でオプションも解約したいです」という話し言葉テキストである場合、文脈を考慮できていれば、文頭の「で」は接続表現であると判定できるため「そして、オプションも解約したいです」と認識できそうであるが、文脈を考慮できない場合は、2発話目を「オプションも解約したいです」と文頭の接続表現をフィラーと誤認識して「で」を削除してしまう可能性がある。しかし、1発話目から1発話目までの書き言葉テキストの情報を文脈として利用することで、このような問題を解決できると考えられる。
また、本実施例の方法で変換された話し言葉テキストである話し言葉と、変換後の書き言葉テキストである書き言葉との関係を例示する。話し言葉の下線部の単語は書き言葉から削除されている。
(a)コンタクトセンタでの対話
話し言葉:えーあのもうあんまり使わなくなったということなんですねあの先日からちょっとお習い事を始めまして
書き言葉:あんまり使わなくなったということなんですね。先日からお習い事を始めました。
(b)日常会話(1)
話し言葉:プロ野球野球ほんとでもルールわかんないんですよおふほとんどわかんないんですよ高校野球は見ますけど
書き言葉:プロ野球は、ほとんどルールがわかんないんですよ。ほんとわからないんですよ。高校野球は見ますけど。
(c)日常会話(2)
話し言葉:でなんかそう言うのをあのあのソフトクリームじゃなくてコンビニとかそう言うとこでも買えたらいいなと個人的にも思っていてでうん
書き言葉:そう言うのをソフトクリームじゃなくて、コンビニとかそう言うとこでも買えたらいいなと個人的にも思っていました。
(e)留守番電話
話し言葉:もしもしえーと午前中の打ち合わせ終わりましたので連絡ですえーとー打ち合わせ終わりまして秋葉原の駅まできましたえーこれからえー昼食を取りつつ次の打合せ高田馬場にむかいますえーその連絡でしたえーまた後ほど連絡いたしますよろしくお願いいたします
書き言葉:もしもし、午前中の打ち合わせ終わりましたので、連絡です。打ち合わせ終わりまして、秋葉原の駅まできました。これから昼食を取り、次の打合せ、高田馬場にむかいます。また後ほど連絡いたします。よろしくお願いいたします。
話し言葉・書き言葉変換の対象とするテキストの話し言葉テキストだけでなく、直前の書き言葉テキストから単語をコピーして書き言葉テキストを生成することも可能である。ここで、すべての過去の書き言葉テキストをコピー対象としないのは、ニューラル系列変換モデルの枠組みは、テキスト全体をベクトルに変換して扱う仕組みであるために、長いテキストに対してうまく動作しない問題が存在し、非現実的であるからである。過去の書き言葉テキストもコピー対象とした話し言葉・書き言葉変換の詳細を以下に示す。
[構成]
図1Aに例示するように、実施例2の系列変換装置21は、制御部1、記憶部211,113、入力部112、推定部214、および出力部115を有する。系列変換装置21は制御部1の制御の下で各処理を実行する。図1Bに例示するように、実施例2の機械学習装置22は、制御部120、記憶部121,123,127、推定部214、出力部125、および学習部226を有する。機械学習装置22は制御部120の制御の下で各処理を実行する。
[系列変換処理]
実施例2の系列変換装置21による系列変換処理である同一言語内翻訳処理について説明する。実施例2の系列変換装置21の翻訳処理の実施例1の系列変換装置11の系列変換処理からの相違点は、図2の推定部114によるステップS114の処理が推定部214によるステップS214の処理に置換される点である。他の事項は実施例1と同じである。
[機械学習処理]
実施例2の機械学習装置22による機械学習処理について説明する。実施例2の機械学習装置22による機械学習処理の実施例1の機械学習装置12による機械学習処理からの相違点は、図3の推定部114によるステップS114の処理が推定部214によるステップS214の処理に置換される点である。他の事項は実施例1と同じである。
[推定部214の詳細]
推定部214の詳細を例示する。図6に例示するように、推定部214は、制御部1140、ベクトル計算部1141,1142,2143、文脈ベクトル計算部1144(第1文脈ベクトル計算部)、文脈ベクトル計算部2149(第2文脈ベクトル計算部)、コピーベクトル確率計算部2145、事後確率計算部2146,2147、およびテキスト生成部1148を有する。推定部214は、制御部1140の制御の下で各処理を実行する。実施例2のモデルパラメータΘはモデルパラメータθ,θ,θ,θν,θ,θ,θ,θを含み、Θ={θ,θ,θ,θν,θ,θ,θ,θ}として表される。
≪ベクトル計算部2143(第3ベクトル計算部)≫
入力:過去の話し言葉テキストの単語列についてのテキストベクトルuY,iの系列uY,1,…,uY,t-2
モデルパラメータθν
出力:t-2番目の書き言葉テキスト系列埋め込みベクトルνt-2
ベクトル計算部1143は、過去の書き言葉テキスト系列についてのテキストベクトルuY,iの系列uY,1,…,uY,t-2を、モデルパラメータθνに基づく変換関数により、t-2番目の書き言葉テキスト系列埋め込みベクトルνt-2に変換する。ベクトル計算部2143のベクトル計算部1143からの相違点は、uY,1,…,uY,t-1に代えてuY,1,…,uY,t-2が入力される点、νt-1に代えてνt-2が出力される点である。なお、t=1,2の場合は、過去の話し言葉テキストの単語列についてのテキストベクトルの系列は存在しないため、ベクトル計算部2143が出力する書き言葉テキスト系列埋め込みベクトルν-1,νはすべての要素が0.0のベクトルとする。
≪文脈ベクトル計算部2149(第2文脈ベクトル計算部)≫
入力:t番目の書き言葉テキストのn番目の単語よりも過去の単語列y ,…,yn-1
t-2番目の書き言葉テキスト系列埋め込みベクトルνt-2
t-1番目の書き言葉テキストの単語列についてのテキストベクトルの系列uY,t-1
モデルパラメータθ
出力:過去の話し言葉テキストを考慮したt番目の書き言葉テキストの単語列Y^のn番目の単語向けの文脈ベクトルq
文脈ベクトル計算部2149は、t番目の書き言葉テキストのn番目の単語よりも過去の単語列y ,…,yn-1 と、t-2番目の書き言葉テキスト系列埋め込みベクトルνt-2と、t-1番目の書き言葉テキストの単語列についてのテキストベクトルの系列uY,t-1に対し、モデルパラメータθに基づく変換関数を適用し、t番目の書き言葉テキストの単語列Y^のn番目の単語向けの文脈ベクトルq を得て出力する。この文脈ベクトルq は、次の単語の話し言葉・書き言葉変換に必要な過去の変換結果を考慮した意味的情報が埋め込まれている。このときの変換関数には、3種類の可変長数のベクトル列を単一ベクトルに変換する関数であれば任意のものを利用できる。この変換関数の例は、t番目の書き言葉テキストのn番目の単語よりも過去の単語列y ,…,yn-1 とt-1番目の書き言葉テキストの単語列についてのテキストベクトルの系列uY,t-1のそれぞれにリカレントニューラルネットワークを適用し、t-1番目の書き言葉テキストの単語列についてのテキストベクトルの系列uY,t-1とt-2番目の書き言葉テキスト系列埋め込みベクトルνt-2とを結合し、注意機構を加えることにより単一の文脈ベクトルを出力する関数を用いることができる。すなわち、文脈ベクトル計算部2149(第2文脈ベクトル計算部)は、単語列y ,…,yn-1 、書き言葉テキスト系列埋め込みベクトル(第2テキスト系列埋め込みベクトル)νt-2、および系列uY,t-1に対してモデルパラメータθに基づく変換を行い、過去の書き言葉テキスト(第2テキスト)を考慮したt番目の書き言葉テキスト(第2テキスト)の単語列Y^のn番目の単語向けの文脈ベクトルq を得て出力する。
≪コピーベクトル確率計算部2145≫
入力:t番目の書き言葉テキストの単語列Y^のn番目の単語向けの文脈ベクトルs
過去の話し言葉テキストを考慮したt番目の書き言葉テキストの単語列Y^のn番目の単語向けの文脈ベクトルq
モデルパラメータθ
出力:t番目の書き言葉テキストの単語列Y^のn番目の単語向けコピー確率M
コピーベクトル確率計算部2145は、t番目の書き言葉テキストの単語列Y^のn番目の単語向けの文脈ベクトルs 、および過去の話し言葉テキストを考慮したt番目の書き言葉テキストの単語列Y^のn番目の単語向けの文脈ベクトルq に対し、モデルパラメータθに基づく変換関数を適用し、t番目の書き言葉テキストの単語列Y^のn番目の単語向けコピー確率M を得て出力する。このコピー確率ベクトルM は、t番目の書き言葉テキストのn番目の単語を出力する際に、現在の書き言葉テキストの事後確率を重視するか、話し言葉テキストの単語をコピーするか、過去の書き言葉テキストの単語をコピーするかを選択する際の確率を表している。そのため、各確率を要素としたベクトルとして表すことができ、ベクトル変換により確率分布を表現することが可能である。このとき変換関数には、2種類のベクトルを確率分布に変換する関数であれば任意のものを利用できる。この変換関数の例は、入力された2つのベクトルの結合ベクトルにソフトマックス関数を用いた変換を行って出力する関数である。その他、出力される確率分布に相当する出力ベクトルの要素の総和が1.0に変換可能な関数を当該変換関数としてもよい。すなわち、コピーベクトル確率計算部2145は、文脈ベクトルs およびt番目の書き言葉テキスト(第2テキスト)の単語列Y^のn番目の単語向けの文脈ベクトルq に対して、モデルパラメータθに基づく変換を行い、t番目の書き言葉テキスト(第2テキスト)の単語列Y^のn番目の単語向けコピー確率M を得て出力する。
≪事後確率計算部2146(第1事後確率計算部)≫
入力:t番目の書き言葉テキストの単語列Y^のn番目の単語向けの文脈ベクトルs
過去の話し言葉テキストを考慮したt番目の書き言葉テキストの単語列Y^のn番目の単語向けの文脈ベクトルq
モデルパラメータθ
出力:t番目の書き言葉テキストの単語列Y^のn番目の単語y についての事後確率P(y
事後確率計算部2146は、t番目の書き言葉テキストの単語列Y^のn番目の単語向けの文脈ベクトルs と、過去の話し言葉テキストを考慮したt番目の書き言葉テキストの単語列Y^のn番目の単語向けの文脈ベクトルq とに対し、モデルパラメータθに基づく変換関数により、t番目の書き言葉テキストの単語列Y^のn番目の単語y についての事後確率P(y )を得て出力する。その他は、νt-1がq に置換され、θがθに置換される以外、事後確率計算部1146の処理と同じであるため説明を省略する。すなわち、事後確率計算部2146(第1事後確率計算部)は、文脈ベクトルs およびt番目の書き言葉テキスト(第2テキスト)の単語列Y^のn番目の単語向けの文脈ベクトルq に対して、モデルパラメータθに基づく変換を行い、単語y についての事後確率P(y )を得て出力する。
≪事後確率計算部2147(第2事後確率計算部)≫
入力:t番目の書き言葉テキストの単語列Y^のn番目の単語についての事後確率P(y
t番目の話し言葉テキストの単語列X
t-1番目の書き言葉テキストの単語列Y^t-1
t番目の書き言葉テキストの単語列Y^のn番目の単語向けコピー確率M
モデルパラメータθ
出力:t番目の書き言葉テキストのn番目の単語y についての事後確率
P(yn t|y1 t,…,yn-1 t,Y^1,…,Y^t-1,Xt,Θ)
事後確率計算部2147は、t番目の話し言葉テキストの単語列X、t-1番目の書き言葉テキストの単語列Y^t-1、およびt番目の書き言葉テキストの単語列Y^のn番目の単語向けコピー確率M に対し、モデルパラメータθに基づく変換関数を適用し、t番目の書き言葉テキストのn番目の単語y についての事後確率P(yn t|y1 t,…,yn-1 t,Y^1,…,Y^t-1,Xt,Θ)を得て出力する。このとき変換関数の一例は、事後確率P(y )に単語向けコピー確率M の一要素を掛け合わせたものと、t番目の話し言葉テキストの単語列Xから単語の分布を求め、その分布に単語向けコピー確率M の一要素を掛け合わせたものと、t-1番目の書き言葉テキストの単語列Y^t-1から単語の分布を求め、その分布に単語向けコピー確率M の一要素を掛け合わせたものとを足し合わせた結果を出力する関数を例示できる。単語列Xから単語の分布を求める方法としては、単語列Xのベクトルから任意の分布を求める方法を用いることができる。簡単なものとしては、例えば、単語列Xの頻度ベクトルにソフトマックス関数を用いた変換を行ったものを当該単語の分布とする。すなわち、事後確率計算部2147(第2事後確率計算部)は、話し言葉テキスト(第1テキスト)の単語列X、t-1番目の書き言葉テキスト(第2テキスト)の単語列Y^t-1、事後確率P(y )、コピー確率M に対して、モデルパラメータθに基づく変換を行い、事後確率P(Y|Y^,…,Y^t-1,X,Θ)に対応する事後確率P(y |y ,…,yn-1 ,Y^,…,Y^t-1,X,Θ)を得て出力する。
話し言葉・書き言葉変換の対象としている連続した話し言葉テキストの単語列の系列は、テキスト間で関連した情報を有している場合が多いと考えられる。話し言葉・書き言葉変換を例にとると、過去の書き言葉テキストに出現した単語は、現在の変換においても有用である可能性がある。そのため、現在の話し言葉テキストに出現する単語だけではなく、過去の書き言葉テキストからも単語のコピーを可能とすることで、より適切な書き言葉テキストへ変換し易くなると考えられる。
実施例3では実施例1,2を包含する概念について説明する。
[構成]
図1Aに例示するように、実施例3の系列変換装置31は、制御部1、記憶部211,113、入力部112、推定部314、および出力部115を有する。系列変換装置31は制御部1の制御の下で各処理を実行する。図1Bに例示するように、実施例3の機械学習装置32は、制御部120、記憶部121,123,127、推定部314、出力部125、および学習部226を有する。機械学習装置32は制御部120の制御の下で各処理を実行する。
[系列変換処理]
実施例3の系列変換装置31による系列変換処理である同一言語内翻訳処理について説明する。実施例3の系列変換装置31の系列変換処理の実施例1の系列変換装置11の系列変換処理からの相違点は、図2の推定部114によるステップS114の処理が推定部314によるステップS314の処理に置換される点である。他の事項は実施例1と同じである。
[機械学習処理]
実施例3の機械学習装置32による機械学習処理について説明する。実施例3の機械学習装置32による機械学習処理の実施例1の機械学習装置12による機械学習処理からの相違点は、図3の推定部114によるステップS114の処理が推定部314によるステップS314の処理に置換される点である。他の事項は実施例1と同じである。
[推定部314の詳細]
推定部314の詳細を例示する。図7に例示するように、推定部314は、制御部1140、ベクトル計算部1141,1142,3143、事後確率計算部3147、およびテキスト生成部1148を有する。推定部314は、制御部1140の制御の下で各処理を実行する。実施例3のモデルパラメータΘはモデルパラメータθ,θ,θ,θνを含む。
ベクトル計算部1141(第1ベクトル計算部)は、入力された書き言葉テキスト(第2テキスト)の単語列Y^の系列Y^,…,Y^t-1に対してモデルパラメータθに基づく変換を行い、i=1,…,t-1についての書き言葉テキスト(第2テキスト)の単語列Y^のテキストベクトルuY,iの系列uY,1,…,uY,t-1を得て出力する。
ベクトル計算部1142(第1ベクトル計算部)は、入力された話し言葉テキスト(第1テキスト)の単語列Xに対してモデルパラメータθに基づく変換を行い、話し言葉テキスト(第1テキスト)の単語列XのテキストベクトルuX,tを得て出力する。
ベクトル計算部3142(第3ベクトル計算部)は、入力された系列uY,1,…,uY,t-1に対してモデルパラメータθνに基づく変換を行い、書き言葉系列埋め込みベクトル(第2テキスト系列埋め込みベクトル)を得て出力する。
文脈ベクトル計算部1144は、書き言葉テキスト(第2テキスト)の単語列Y^に含まれるn番目の単語y よりも過去の単語列y ,…,yn-1 、および、テキストベクトルuX,tに対して、モデルパラメータθに基づく変換を行い、文脈ベクトルs を得て出力する。
事後確率計算部3147は、書き言葉系列埋め込みベクトル(第2テキスト系列埋め込みベクトル)、文脈ベクトルs 、および第1テキストの単語列Xに基づいて、事後確率P(Y|Y^,…,Y^t-1,X,Θ)に対応する事後確率P(y |y ,…,yn-1 ,Y^,…,Y^t-1,X,Θ)を得て出力する。
テキスト生成部1148は、t番目の書き言葉テキストの単語列Y^の1,…,n番目の単語y ,…,y における事後確率P(y |Y^,…,Y^t-1,X,Θ),…,P(y |y ,…,yn-1 ,Y^,…,Y^t-1,X,Θ)の積が最大となるような単語y をn=1,…,N(t)について1個づつ選択していき、t番目の書き言葉テキストの単語列Y^=(y ,…,yN(t) )を得て出力する。
[実験結果]
図9に実施例1,2の効果を例示するための実験結果を示す。図9におけるNo. 0は話し言葉テキストの単語列そのものに対する評価結果を例示し、No. 1は非特許文献1の方法で話し言葉・書き言葉変換を行って得られた書き言葉テキストの単語列に対する評価結果を例示し、No. 2は参考文献1の方法で話し言葉・書き言葉変換を行って得られた書き言葉テキストの単語列に対する評価結果を例示し、No. 3は上述の実施形態においてコピーを行うことなく話し言葉・書き言葉変換を行って得られた書き言葉テキストの単語列に対する評価結果を例示し、No. 4は実施例1の話し言葉・書き言葉変換を行って得られた書き言葉テキストの単語列に対する評価結果を例示し、No. 5は実施例2の話し言葉・書き言葉変換を行って得られた書き言葉テキストの単語列に対する評価結果を例示する。
実験には参考文献5に記載された話し言葉・書き言葉変換コーパスを用いた。
参考文献5:Kikuo Maekawa, Hanae Koiso, Sadaoki Furui, and Hitoshi Isahara, “Spontaneous speech corpus of japanese,” in Proc. International Conference on Language Resources and Evaluation (LREC), 2000, pp. 947-9520.
このコーパスは話し言葉テキストと書き言葉テキストの組の集合からなり、それを学習データ用セット、検証用セット、テスト用セット(Test 1, 2, 3)に分けた。また、テスト用セットを自動音声認識する自動音声認識器を用意した。図9における「Manual transcriptions」の「Accuracy (%)」は、テスト用セットの話し言葉テキストから話し言葉・書き言葉変換された書き言葉テキストが、当該テスト用セットの話し言葉テキストと組みになっている書き言葉テキストに対する正確さを表している。「Manual transcriptions」の「Number of substitution errors」は、テスト用セットの話し言葉テキストから話し言葉・書き言葉変換された書き言葉テキストが、当該テスト用セットの話し言葉テキストと組みになっている書き言葉テキストに対する置換誤り数を表している。「ASR transcriptions」の「Accuracy (%)」は、自動音声認識された話し言葉テキストに対し、話し言葉・書き言葉変換を行って得られた書き言葉テキストに対する正確さを表している。また、図に実験で用いた実施例2の機能構成を示す。なお、実施例2の事後確率計算部2147は、t番目の話し言葉テキストの単語列X、t-1番目の書き言葉テキストの単語列Y^t-1、およびt番目の書き言葉テキストの単語列Y^のn番目の単語向けコピー確率M に対し、モデルパラメータθに基づく変換関数を適用し、t番目の書き言葉テキストのn番目の単語y についての事後確率P(yn t|y1 t,…,yn-1 t,Y^1,…,Y^t-1,Xt,Θ)を得て出力する。実験では、この変換関数として、事後確率P(y )に単語向けコピー確率M の一要素λ を掛け合わせたものと、t番目の話し言葉テキストの単語列Xから単語の分布α を求め、その分布α に単語向けコピー確率M の一要素κ を掛け合わせたものと、t-1番目の書き言葉テキストの単語列Y^t-1から単語の分布β を求め、その分布β に単語向けコピー確率M の一要素μ を掛け合わせたものとを足し合わせた結果を事後確率P(yn t|y1 t,…,yn-1 t,Y^1,…,Y^t-1,Xt,Θ)として出力する関数を用いた。なお、検証用セットは、学習データ用セットに含まれないデータで学習済みのモデルを検証し、パラメータΘを最終調整するために用いた。
図9に例示した通り、実施例1,2の方法を用いることにより、過去のテキストに対してどのような言い換えを行ったかという情報を考慮して、現在のテキストに対する言い換えを行うことができ、文脈に即した高精度な同一言語内翻訳を行うことが可能になることが分かる。
[ハードウェア構成]
各実施形態における系列変換装置11,21,31および機械学習装置12,22,32は、例えば、CPU(central processing unit)やGPU(Graphics Processing Unit)等のプロセッサ(ハードウェア・プロセッサ)やRAM(random-access memory)・ROM(read-only memory)等のメモリ等を備える汎用または専用のコンピュータが所定のプログラムを実行することで構成される装置である。このコンピュータは1個のプロセッサやメモリを備えていてもよいし、複数個のプロセッサやメモリを備えていてもよい。このプログラムはコンピュータにインストールされてもよいし、予めROM等に記録されていてもよい。また、CPUのようにプログラムが読み込まれることで機能構成を実現する電子回路(circuitry)ではなく、単独で処理機能を実現する電子回路を用いて一部またはすべての処理部が構成されてもよい。また、1個の装置を構成する電子回路が複数のCPUを含んでいてもよい。
図11は、各実施形態における系列変換装置11,21,31および機械学習装置12,22,32のハードウェア構成を例示したブロック図である。図11に例示するように、この例の系列変換装置11,21,31および機械学習装置12,22,32は、CPU(Central Processing Unit)a、入力部b、出力部c、RAM(Random Access Memory)d、ROM(Read Only Memory)e、補助記憶装置f及びバスgを有している。この例のCPUaは、制御部aa、演算部ab及びレジスタacを有し、レジスタacに読み込まれた各種プログラムに従って様々な演算処理を実行する。また、入力部bは、データが入力される入力端子、キーボード、マウス、タッチパネル等である。また、出力部cは、データが出力される出力端子、ディスプレイ、所定のプログラムを読み込んだCPUaによって制御されるLANカード等である。また、RAMdは、SRAM (Static Random Access Memory)、DRAM (Dynamic Random Access Memory)等であり、所定のプログラムが格納されるプログラム領域da及び各種データが格納されるデータ領域dbを有している。また、補助記憶装置fは、例えば、ハードディスク、MO(Magneto-Optical disc)、半導体メモリ等であり、所定のプログラムが格納されるプログラム領域fa及び各種データが格納されるデータ領域fbを有している。また、バスgは、CPUa、入力部b、出力部c、RAMd、ROMe及び補助記憶装置fを、情報のやり取りが可能なように接続する。CPUaは、読み込まれたOS(Operating System)プログラムに従い、補助記憶装置fのプログラム領域faに格納されているプログラムをRAMdのプログラム領域daに書き込む。同様にCPUaは、補助記憶装置fのデータ領域fbに格納されている各種データを、RAMdのデータ領域dbに書き込む。そして、このプログラムやデータが書き込まれたRAMd上のアドレスがCPUaのレジスタacに格納される。CPUaの制御部aaは、レジスタacに格納されたこれらのアドレスを順次読み出し、読み出したアドレスが示すRAMd上の領域からプログラムやデータを読み出し、そのプログラムが示す演算を演算部abに順次実行させ、その演算結果をレジスタacに格納していく。このような構成により、系列変換装置11,21,31および機械学習装置12,22,32の機能構成が実現される。
上述のプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体の例は非一時的な(non-transitory)記録媒体である。このような記録媒体の例は、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等である。
このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。上述のように、このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
各実施形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
なお、本発明は上述の実施の形態に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
11,21,31 系列変換装置
12,22,32 機械学習装置

Claims (14)

  1. tが2以上の整数であり、t番目の第1テキストの単語列X、1番目からt-1番目までの第1テキストの単語列の系列X,…,Xt-1の変換結果である1番目からt-1番目までの第2テキストの単語列の系列Y^,…,Y^t-1を入力とし、モデルパラメータΘに基づきt番目の第1テキストの単語列Xの変換結果であるt番目の第2テキストの単語列Yに対応する情報を推定する推定部を有し、
    前記モデルパラメータΘは、前記第1テキストの単語列と前記第2テキストの単語列の組からなる学習データを用いて前記推定部の処理について機械学習を行って得られたものであり、
    前記推定部は、
    前記第1テキストの単語列Xと前記第2テキストの単語列の系列Y^,…,Y^t-1とを入力とし、前記モデルパラメータΘに基づいて、前記第1テキストの単語列Xまたは前記第2テキストの単語列の系列Y^,…,Y^t-1から単語をコピーする確率p を得るコピー確率計算部を含み、
    前記確率p に基づいて前記第1テキストの単語列Xまたは前記第2テキストの単語列の系列Y^,…,Y^t-1から単語をコピーして前記第2テキストの単語列Yに対応する情報を推定する、系列変換装置。
  2. tが2以上の整数であり、t番目の第1テキストの単語列X、1番目からt-1番目までの第1テキストの単語列の系列X,…,Xt-1の変換結果である1番目からt-1番目までの第2テキストの単語列の系列Y^,…,Y^t-1を入力とし、モデルパラメータΘに基づきt番目の第1テキストの単語列Xの変換結果であるt番目の第2テキストの単語列Yに対応する情報を推定する推定部を有し、
    前記モデルパラメータΘはモデルパラメータθ,θ,θ,θν,θ,θ,θを含み、
    前記モデルパラメータΘ,θ,θ,θ,θν,θ,θ,θは、前記第1テキストの単語列と前記第2テキストの単語列の組からなる学習データを用いて前記推定部の処理について機械学習を行って得られたものであり、
    前記推定部は、
    前記第2テキストの単語列の系列Y^,…,Y^t-1に対して前記モデルパラメータθに基づく変換を行い、i=1,…,t-1についての第2テキストの単語列Y^のテキストベクトルuY,iの系列uY,1,…,uY,t-1を得る第1ベクトル計算部と、
    前記第1テキストの単語列Xに対して前記モデルパラメータθに基づく変換を行い、前記第1テキストの単語列XのテキストベクトルuX,tを得る第2ベクトル計算部と、
    前記系列uY,1,…,uY,t-1に対して前記モデルパラメータθνに基づく変換を行い、t-1番目の第2テキスト系列埋め込みベクトルνt-1を得る第3ベクトル計算部と、
    nはt番目の第2テキストの単語列Y^に含まれる単語数以下の正整数であり、前記第2テキストの単語列Y^に含まれるn番目の単語y よりも過去の単語列y ,…,yn-1 、および、前記テキストベクトルuX,tに対して、前記モデルパラメータθに基づく変換を行い、前記第1テキストを考慮したt番目の第2テキストの単語列Y^のn番目の単語向けの文脈ベクトルs を得る文脈ベクトル計算部と、
    前記第2テキスト系列埋め込みベクトルνt-1および前記文脈ベクトルs に対して、前記モデルパラメータθに基づく変換を行い、t番目の第2テキストの単語列Y^のn番目の単語向けコピー確率p を得るコピー確率計算部と、
    前記第2テキスト系列埋め込みベクトルνt-1および前記文脈ベクトルs に対して、前記モデルパラメータθに基づく変換を行い、前記単語y についての事後確率P(y )を得る第1事後確率計算部と、
    前記第1テキストの単語列X、前記事後確率P(y )、および前記コピー確率p に対して、前記モデルパラメータθに基づく変換を行い、前記第1テキストの単語列X、前記第2テキストの単語列の系列Y^,…,Y^t-1、および前記モデルパラメータΘが与えられた場合における、前記第2テキストの単語列Yの事後確率P(Y|Y^,…,Y^t-1,X,Θ)に対応する事後確率P(y |y ,…,yn-1 ,Y^,…,Y^t-1,X,Θ)を得る第2事後確率計算部と、
    を有する系列変換装置。
  3. tが2以上の整数であり、t番目の第1テキストの単語列X、1番目からt-1番目までの第1テキストの単語列の系列X,…,Xt-1の変換結果である1番目からt-1番目までの第2テキストの単語列の系列Y^,…,Y^t-1を入力とし、モデルパラメータΘに基づきt番目の第1テキストの単語列Xの変換結果であるt番目の第2テキストの単語列Yに対応する情報を推定する推定部を有し、
    前記モデルパラメータΘはモデルパラメータθ,θ,θ,θν,θ,θ,θ,θを含み、
    前記モデルパラメータΘ,θ,θ,θ,θν,θ,θ,θ,θは、前記第1テキストの単語列と前記第2テキストの単語列の組からなる学習データを用いて前記推定部の処理について機械学習を行って得られたものであり、
    前記推定部は、
    前記第2テキストの単語列の系列Y^,…,Y^t-1に対して前記モデルパラメータθに基づく変換を行い、i=1,…,t-1についての第2テキストの単語列Y^のテキストベクトルuY,iの系列uY,1,…,uY,t-1を得る第1ベクトル計算部と、
    前記第1テキストの単語列Xに対して前記モデルパラメータθに基づく変換を行い、前記第1テキストの単語列XのテキストベクトルuX,tを得る第2ベクトル計算部と、
    前記系列uY,1,…,uY,t-2に対して前記モデルパラメータθνに基づく変換を行い、t-2番目の第2テキスト系列埋め込みベクトルνt-2を得る第3ベクトル計算部と、
    nはt番目の第2テキストの単語列Y^に含まれる単語数以下の正整数であり、前記第2テキストの単語列Y^に含まれるn番目の単語y よりも過去の単語列y ,…,yn-1 、および前記テキストベクトルuX,tに対して、前記モデルパラメータθに基づく変換を行い、前記第1テキストを考慮したt番目の第2テキストの単語列Y^のn番目の単語向けの文脈ベクトルs を得る第1文脈ベクトル計算部と、
    前記単語列y ,…,yn-1 、前記第2テキスト系列埋め込みベクトルνt-2、および前記系列uY,t-1に対して前記モデルパラメータθに基づく変換を行い、過去の前記第2テキストを考慮したt番目の第2テキストの単語列Y^のn番目の単語向けの文脈ベクトルq を得る第2文脈ベクトル計算部と、
    前記文脈ベクトルs 、t-1番目の第2テキストの単語列Y^t-1、および前記t番目の第2テキストの単語列Y^のn番目の単語向けの文脈ベクトルq に対して、前記モデルパラメータθに基づく変換を行い、t番目の第2テキストの単語列Y^のn番目の単語向けコピー確率M を得るコピーベクトル確率計算部と、
    前記文脈ベクトルs および前記t番目の第2テキストの単語列Y^のn番目の単語向けの文脈ベクトルq に対して、前記モデルパラメータθに基づく変換を行い、前記単語y についての事後確率P(y )を得る第1事後確率計算部と、
    前記第1テキストの単語列X、t-1番目の第2テキストの単語列Y^t-1、前記事後確率P(y )、前記コピー確率M に対して、前記モデルパラメータθに基づく変換を行い、前記第1テキストの単語列X、前記第2テキストの単語列の系列Y^,…,Y^t-1、および前記モデルパラメータΘが与えられた場合における、前記第2テキストの単語列Yの事後確率P(Y|Y^,…,Y^t-1,X,Θ)に対応する事後確率P(y |y ,…,yn-1 ,Y^,…,Y^t-1,X,Θ)を得る第2事後確率計算部と、
    を有する系列変換装置。
  4. tが2以上の整数であり、Xが第1テキストの単語列であり、YがXから書き換えられる第2テキストの単語列であり、前記第2テキストの単語列Aと前記第1テキストの単語列Bとの組の系列を学習データとした機械学習を行い、t番目の第1テキストの単語列X、1番目からt-1番目までの第1テキストの単語列の系列X,…,Xt-1の変換結果である1番目からt-1番目までの第2テキストの単語列の系列Y^,…,Y^t-1を入力とし、モデルパラメータΘに基づきt番目の第1テキストの単語列Xの変換結果であるt番目の第2テキストの単語列Yに対応する情報を推定するモデルの前記モデルパラメータΘを得る学習部を有し、
    前記モデルは、
    前記第1テキストの単語列Xと前記第2テキストの単語列の系列Y^,…,Y^t-1とを入力とし、前記モデルパラメータΘに基づいて、前記第1テキストの単語列Xまたは前記第2テキストの単語列の系列Y^,…,Y^t-1から単語をコピーする確率p を得るコピー確率計算ステップを含む処理を実行するためのものであり、
    前記確率p に基づいて前記第1テキストの単語列Xまたは前記第2テキストの単語列の系列Y^,…,Y^t-1から単語をコピーして前記第2テキストの単語列Yに対応する情報を推定する、
    機械学習装置。
  5. tが2以上の整数であり、Xが第1テキストの単語列であり、YがXから書き換えられる第2テキストの単語列であり、前記第2テキストの単語列Aと前記第1テキストの単語列Bとの組の系列を学習データとした機械学習を行い、t番目の第1テキストの単語列X、1番目からt-1番目までの第1テキストの単語列の系列X,…,Xt-1の変換結果である1番目からt-1番目までの第2テキストの単語列の系列Y^,…,Y^t-1を入力とし、モデルパラメータΘに基づきt番目の第1テキストの単語列Xの変換結果であるt番目の第2テキストの単語列Yに対応する情報を推定するモデルの前記モデルパラメータΘを得る学習部を有し、
    前記モデルパラメータΘはモデルパラメータθ,θ,θ,θν,θ,θ,θを含み、
    前記モデルパラメータθ,θ,θ,θν,θ,θ,θは前記機械学習を行って得られたものであり、
    前記モデルは、
    前記第2テキストの単語列の系列Y^,…,Y^t-1に対して前記モデルパラメータθに基づく変換を行い、i=1,…,t-1についての第2テキストの単語列Y^のテキストベクトルuY,iの系列uY,1,…,uY,t-1を得る第1ベクトル計算ステップと、
    前記第1テキストの単語列Xに対して前記モデルパラメータθに基づく変換を行い、前記第1テキストの単語列XのテキストベクトルuX,tを得る第2ベクトル計算ステップと、
    前記系列uY,1,…,uY,t-1に対して前記モデルパラメータθνに基づく変換を行い、t-1番目の第2テキスト系列埋め込みベクトルνt-1を得る第3ベクトル計算ステップと、
    nはt番目の第2テキストの単語列Y^に含まれる単語数以下の正整数であり、前記第2テキストの単語列Y^に含まれるn番目の単語y よりも過去の単語列y ,…,yn-1 、および、前記テキストベクトルuX,tに対して、前記モデルパラメータθに基づく変換を行い、前記第1テキストを考慮したt番目の第2テキストの単語列Y^のn番目の単語向けの文脈ベクトルs を得る文脈ベクトル計算ステップと、
    前記第2テキスト系列埋め込みベクトルνt-1および前記文脈ベクトルs に対して、前記モデルパラメータθに基づく変換を行い、t番目の第2テキストの単語列Y^のn番目の単語向けコピー確率p を得るコピー確率計算ステップと、
    前記第2テキスト系列埋め込みベクトルνt-1および前記文脈ベクトルs に対して、前記モデルパラメータθに基づく変換を行い、前記単語y についての事後確率P(y )を得る第1事後確率計算ステップと、
    前記第1テキストの単語列X、前記事後確率P(y )、および前記コピー確率p に対して、前記モデルパラメータθに基づく変換を行い、前記第1テキストの単語列X、前記第2テキストの単語列の系列Y^,…,Y^t-1、および前記モデルパラメータΘが与えられた場合における、前記第2テキストの単語列Yの事後確率P(Y|Y^,…,Y^t-1,X,Θ)に対応する事後確率P(y |y ,…,yn-1 ,Y^,…,Y^t-1,X,Θ)を得る第2事後確率計算ステップと、を含む処理を実行するためのものである、機械学習装置。
  6. tが2以上の整数であり、Xが第1テキストの単語列であり、YがXから書き換えられる第2テキストの単語列であり、前記第2テキストの単語列Aと前記第1テキストの単語列Bとの組の系列を学習データとした機械学習を行い、t番目の第1テキストの単語列X、1番目からt-1番目までの第1テキストの単語列の系列X,…,Xt-1の変換結果である1番目からt-1番目までの第2テキストの単語列の系列Y^,…,Y^t-1を入力とし、モデルパラメータΘに基づきt番目の第1テキストの単語列Xの変換結果であるt番目の第2テキストの単語列Yに対応する情報を推定するモデルの前記モデルパラメータΘを得る学習部を有し、
    前記モデルパラメータΘはモデルパラメータθ,θ,θ,θν,θ,θ,θ,θを含み、
    前記モデルパラメータθ,θ,θ,θν,θ,θ,θ,θは前記機械学習を行って得られたものであり、
    前記モデルは、
    前記第2テキストの単語列の系列Y^,…,Y^t-1に対して前記モデルパラメータθに基づく変換を行い、i=1,…,t-1についての第2テキストの単語列Y^のテキストベクトルuY,iの系列uY,1,…,uY,t-1を得る第1ベクトル計算ステップと、
    前記第1テキストの単語列Xに対して前記モデルパラメータθに基づく変換を行い、前記第1テキストの単語列XのテキストベクトルuX,tを得る第2ベクトル計算ステップと、
    前記系列uY,1,…,uY,t-2に対して前記モデルパラメータθνに基づく変換を行い、t-2番目の第2テキスト系列埋め込みベクトルνt-2を得る第3ベクトル計算ステップと、
    nはt番目の第2テキストの単語列Y^に含まれる単語数以下の正整数であり、前記第2テキストの単語列Y^に含まれるn番目の単語y よりも過去の単語列y ,…,yn-1 、および前記テキストベクトルuX,tに対して、前記モデルパラメータθに基づく変換を行い、前記第1テキストを考慮したt番目の第2テキストの単語列Y^のn番目の単語向けの文脈ベクトルs を得る第1文脈ベクトル計算ステップと、
    前記単語列y ,…,yn-1 、前記第2テキスト系列埋め込みベクトルνt-2、および前記系列uY,t-1に対して前記モデルパラメータθに基づく変換を行い、過去の前記第2テキストを考慮したt番目の第2テキストの単語列Y^のn番目の単語向けの文脈ベクトルq を得る第2文脈ベクトル計算ステップと、
    前記文脈ベクトルs 、t-1番目の第2テキストの単語列Y^t-1、および前記t番目の第2テキストの単語列Y^のn番目の単語向けの文脈ベクトルq に対して、前記モデルパラメータθに基づく変換を行い、t番目の第2テキストの単語列Y^のn番目の単語向けコピー確率M を得るコピーベクトル確率計算ステップと、
    前記文脈ベクトルs および前記t番目の第2テキストの単語列Y^のn番目の単語向けの文脈ベクトルq に対して、前記モデルパラメータθに基づく変換を行い、前記単語y についての事後確率P(y )を得る第1事後確率計算ステップと、
    前記第1テキストの単語列X、t-1番目の第2テキストの単語列Y^t-1、前記事後確率P(y )、前記コピー確率M に対して、前記モデルパラメータθに基づく変換を行い、前記第1テキストの単語列X、前記第2テキストの単語列の系列Y^,…,Y^t-1、および前記モデルパラメータΘが与えられた場合における、前記第2テキストの単語列Yの事後確率P(Y|Y^,…,Y^t-1,X,Θ)に対応する事後確率P(y |y ,…,yn-1 ,Y^,…,Y^t-1,X,Θ)を得る第2事後確率計算ステップと、を含む処理を実行するためのものである、
    機械学習装置。
  7. 系列変換装置によって実行される系列変換方法であって、
    tが2以上の整数であり、t番目の第1テキストの単語列X、1番目からt-1番目までの第1テキストの単語列の系列X,…,Xt-1の変換結果である1番目からt-1番目までの第2テキストの単語列の系列Y^,…,Y^t-1を入力とし、モデルパラメータΘに基づきt番目の第1テキストの単語列Xの変換結果であるt番目の第2テキストの単語列Yに対応する情報を推定する推定ステップを有し、
    前記モデルパラメータΘは、前記第1テキストの単語列と前記第2テキストの単語列の組からなる学習データを用いて前記推定ステップの処理について機械学習を行って得られたものであり、
    前記推定ステップは、
    前記第1テキストの単語列Xと前記第2テキストの単語列の系列Y^,…,Y^t-1とを入力とし、前記モデルパラメータΘに基づいて、前記第1テキストの単語列Xまたは前記第2テキストの単語列の系列Y^,…,Y^t-1から単語をコピーする確率p を得るコピー確率計算ステップを含み、
    前記確率p に基づいて前記第1テキストの単語列Xまたは前記第2テキストの単語列の系列Y^,…,Y^t-1から単語をコピーして前記第2テキストの単語列Yに対応する情報を推定する、系列変換方法。
  8. 系列変換装置によって実行される系列変換方法であって、
    tが2以上の整数であり、t番目の第1テキストの単語列X、1番目からt-1番目までの第1テキストの単語列の系列X,…,Xt-1の変換結果である1番目からt-1番目までの第2テキストの単語列の系列Y^,…,Y^t-1を入力とし、モデルパラメータΘに基づきt番目の第1テキストの単語列Xの変換結果であるt番目の第2テキストの単語列Yに対応する情報を推定する推定ステップを有し、
    前記モデルパラメータΘはモデルパラメータθ,θ,θ,θν,θ,θ,θを含み、
    前記モデルパラメータΘ,θ,θ,θ,θν,θ,θ,θは、前記第1テキストの単語列と前記第2テキストの単語列の組からなる学習データを用いて前記推定ステップの処理について機械学習を行って得られたものであり、 前記推定ステップは、
    前記第2テキストの単語列の系列Y^,…,Y^t-1に対して前記モデルパラメータθに基づく変換を行い、i=1,…,t-1についての第2テキストの単語列Y^のテキストベクトルuY,iの系列uY,1,…,uY,t-1を得る第1ベクトル計算ステップと、
    前記第1テキストの単語列Xに対して前記モデルパラメータθに基づく変換を行い、前記第1テキストの単語列XのテキストベクトルuX,tを得る第2ベクトル計算ステップと、
    前記系列uY,1,…,uY,t-1に対して前記モデルパラメータθνに基づく変換を行い、t-1番目の第2テキスト系列埋め込みベクトルνt-1を得る第3ベクトル計算ステップと、
    nはt番目の第2テキストの単語列Y^に含まれる単語数以下の正整数であり、前記第2テキストの単語列Y^に含まれるn番目の単語y よりも過去の単語列y ,…,yn-1 、および、前記テキストベクトルuX,tに対して、前記モデルパラメータθに基づく変換を行い、前記第1テキストを考慮したt番目の第2テキストの単語列Y^のn番目の単語向けの文脈ベクトルs を得る文脈ベクトル計算ステップと、
    前記第2テキスト系列埋め込みベクトルνt-1および前記文脈ベクトルs に対して、前記モデルパラメータθに基づく変換を行い、t番目の第2テキストの単語列Y^のn番目の単語向けコピー確率p を得るコピー確率計算ステップと、
    前記第2テキスト系列埋め込みベクトルνt-1および前記文脈ベクトルs に対して、前記モデルパラメータθに基づく変換を行い、前記単語y についての事後確率P(y )を得る第1事後確率計算ステップと、
    前記第1テキストの単語列X、前記事後確率P(y )、および前記コピー確率p に対して、前記モデルパラメータθに基づく変換を行い、前記第1テキストの単語列X、前記第2テキストの単語列の系列Y^,…,Y^t-1、および前記モデルパラメータΘが与えられた場合における、前記第2テキストの単語列Yの事後確率P(Y|Y^,…,Y^t-1,X,Θ)に対応する事後確率P(y |y ,…,yn-1 ,Y^,…,Y^t-1,X,Θ)を得る第2事後確率計算ステップと、
    を有する系列変換方法。
  9. 系列変換装置によって実行される系列変換方法であって、
    tが2以上の整数であり、t番目の第1テキストの単語列X、1番目からt-1番目までの第1テキストの単語列の系列X,…,Xt-1の変換結果である1番目からt-1番目までの第2テキストの単語列の系列Y^,…,Y^t-1を入力とし、モデルパラメータΘに基づきt番目の第1テキストの単語列Xの変換結果であるt番目の第2テキストの単語列Yに対応する情報を推定する推定ステップを有し、
    前記モデルパラメータΘはモデルパラメータθ,θ,θ,θν,θ,θ,θ,θを含み、
    前記モデルパラメータΘ,θ,θ,θ,θν,θ,θ,θ,θは、前記第1テキストの単語列と前記第2テキストの単語列の組からなる学習データを用いて前記推定ステップの処理について機械学習を行って得られたものであり、
    前記推定ステップは、
    前記第2テキストの単語列の系列Y^,…,Y^t-1に対して前記モデルパラメータθに基づく変換を行い、i=1,…,t-1についての第2テキストの単語列Y^のテキストベクトルuY,iの系列uY,1,…,uY,t-1を得る第1ベクトル計算ステップと、
    前記第1テキストの単語列Xに対して前記モデルパラメータθに基づく変換を行い、前記第1テキストの単語列XのテキストベクトルuX,tを得る第2ベクトル計算ステップと、
    前記系列uY,1,…,uY,t-2に対して前記モデルパラメータθνに基づく変換を行い、t-2番目の第2テキスト系列埋め込みベクトルνt-2を得る第3ベクトル計算ステップと、
    nはt番目の第2テキストの単語列Y^に含まれる単語数以下の正整数であり、前記第2テキストの単語列Y^に含まれるn番目の単語y よりも過去の単語列y ,…,yn-1 、および前記テキストベクトルuX,tに対して、前記モデルパラメータθに基づく変換を行い、前記第1テキストを考慮したt番目の第2テキストの単語列Y^のn番目の単語向けの文脈ベクトルs を得る第1文脈ベクトル計算ステップと、
    前記単語列y ,…,yn-1 、前記第2テキスト系列埋め込みベクトルνt-2、および前記系列uY,t-1に対して前記モデルパラメータθに基づく変換を行い、過去の前記第2テキストを考慮したt番目の第2テキストの単語列Y^のn番目の単語向けの文脈ベクトルq を得る第2文脈ベクトル計算ステップと、
    前記文脈ベクトルs 、t-1番目の第2テキストの単語列Y^t-1、および前記t番目の第2テキストの単語列Y^のn番目の単語向けの文脈ベクトルq に対して、前記モデルパラメータθに基づく変換を行い、t番目の第2テキストの単語列Y^のn番目の単語向けコピー確率M を得るコピーベクトル確率計算ステップと、
    前記文脈ベクトルs および前記t番目の第2テキストの単語列Y^のn番目の単語向けの文脈ベクトルq に対して、前記モデルパラメータθに基づく変換を行い、前記単語y についての事後確率P(y )を得る第1事後確率計算ステップと、
    前記第1テキストの単語列X、t-1番目の第2テキストの単語列Y^t-1、前記事後確率P(y )、前記コピー確率M に対して、前記モデルパラメータθに基づく変換を行い、前記第1テキストの単語列X、前記第2テキストの単語列の系列Y^,…,Y^t-1、および前記モデルパラメータΘが与えられた場合における、前記第2テキストの単語列Yの事後確率P(Y|Y^,…,Y^t-1,X,Θ)に対応する事後確率P(y |y ,…,yn-1 ,Y^,…,Y^t-1,X,Θ)を得る第2事後確率計算ステップと、
    を有する系列変換方法。
  10. tが2以上の整数であり、Xが第1テキストの単語列であり、YがXから書き換えられる第2テキストの単語列であり、前記第2テキストの単語列Aと前記第1テキストの単語列Bとの組の系列を学習データとした機械学習を行い、t番目の第1テキストの単語列X、1番目からt-1番目までの第1テキストの単語列の系列X,…,Xt-1の変換結果である1番目からt-1番目までの第2テキストの単語列の系列Y^,…,Y^t-1を入力とし、モデルパラメータΘに基づきt番目の第1テキストの単語列Xの変換結果であるt番目の第2テキストの単語列Yに対応する情報を推定するモデルの前記モデルパラメータΘを得る学習ステップを有し、
    前記モデルは、
    前記第1テキストの単語列Xと前記第2テキストの単語列の系列Y^,…,Y^t-1とを入力とし、前記モデルパラメータΘに基づいて、前記第1テキストの単語列Xまたは前記第2テキストの単語列の系列Y^,…,Y^t-1から単語をコピーする確率p を得るコピー確率計算ステップを含む処理を実行するためのものであり、
    前記確率p に基づいて前記第1テキストの単語列Xまたは前記第2テキストの単語列の系列Y^,…,Y^t-1から単語をコピーして前記第2テキストの単語列Yに対応する情報を推定する、
    機械学習方法。
  11. tが2以上の整数であり、Xが第1テキストの単語列であり、YがXから書き換えられる第2テキストの単語列であり、前記第2テキストの単語列Aと前記第1テキストの単語列Bとの組の系列を学習データとした機械学習を行い、t番目の第1テキストの単語列X、1番目からt-1番目までの第1テキストの単語列の系列X,…,Xt-1の変換結果である1番目からt-1番目までの第2テキストの単語列の系列Y^,…,Y^t-1を入力とし、モデルパラメータΘに基づきt番目の第1テキストの単語列Xの変換結果であるt番目の第2テキストの単語列Yに対応する情報を推定するモデルの前記モデルパラメータΘを得る学習ステップを有し、
    前記モデルパラメータΘはモデルパラメータθ,θ,θ,θν,θ,θ,θを含み、
    前記モデルパラメータθ,θ,θ,θν,θ,θ,θは前記機械学習を行って得られたものであり、
    前記モデルは、
    前記第2テキストの単語列の系列Y^,…,Y^t-1に対して前記モデルパラメータθに基づく変換を行い、i=1,…,t-1についての第2テキストの単語列Y^のテキストベクトルuY,iの系列uY,1,…,uY,t-1を得る第1ベクトル計算ステップと、
    前記第1テキストの単語列Xに対して前記モデルパラメータθに基づく変換を行い、前記第1テキストの単語列XのテキストベクトルuX,tを得る第2ベクトル計算ステップと、
    前記系列uY,1,…,uY,t-1に対して前記モデルパラメータθνに基づく変換を行い、t-1番目の第2テキスト系列埋め込みベクトルνt-1を得る第3ベクトル計算ステップと、
    nはt番目の第2テキストの単語列Y^に含まれる単語数以下の正整数であり、前記第2テキストの単語列Y^に含まれるn番目の単語y よりも過去の単語列y ,…,yn-1 、および、前記テキストベクトルuX,tに対して、前記モデルパラメータθに基づく変換を行い、前記第1テキストを考慮したt番目の第2テキストの単語列Y^のn番目の単語向けの文脈ベクトルs を得る文脈ベクトル計算ステップと、
    前記第2テキスト系列埋め込みベクトルνt-1および前記文脈ベクトルs に対して、前記モデルパラメータθに基づく変換を行い、t番目の第2テキストの単語列Y^のn番目の単語向けコピー確率p を得るコピー確率計算ステップと、
    前記第2テキスト系列埋め込みベクトルνt-1および前記文脈ベクトルs に対して、前記モデルパラメータθに基づく変換を行い、前記単語y についての事後確率P(y )を得る第1事後確率計算ステップと、
    前記第1テキストの単語列X、前記事後確率P(y )、および前記コピー確率p に対して、前記モデルパラメータθに基づく変換を行い、前記第1テキストの単語列X、前記第2テキストの単語列の系列Y^,…,Y^t-1、および前記モデルパラメータΘが与えられた場合における、前記第2テキストの単語列Yの事後確率P(Y|Y^,…,Y^t-1,X,Θ)に対応する事後確率P(y |y ,…,yn-1 ,Y^,…,Y^t-1,X,Θ)を得る第2事後確率計算ステップと、を含む処理を実行するためのものである、
    機械学習方法。
  12. tが2以上の整数であり、Xが第1テキストの単語列であり、YがXから書き換えられる第2テキストの単語列であり、前記第2テキストの単語列Aと前記第1テキストの単語列Bとの組の系列を学習データとした機械学習を行い、t番目の第1テキストの単語列X、1番目からt-1番目までの第1テキストの単語列の系列X,…,Xt-1の変換結果である1番目からt-1番目までの第2テキストの単語列の系列Y^,…,Y^t-1を入力とし、モデルパラメータΘに基づきt番目の第1テキストの単語列Xの変換結果であるt番目の第2テキストの単語列Yに対応する情報を推定するモデルの前記モデルパラメータΘを得る学習ステップを有し、
    前記モデルパラメータΘはモデルパラメータθ,θ,θ,θν,θ,θ,θ,θを含み、
    前記モデルパラメータθ,θ,θ,θν,θ,θ,θ,θは前記機械学習を行って得られたものであり、
    前記モデルは、
    前記第2テキストの単語列の系列Y^,…,Y^t-1に対して前記モデルパラメータθに基づく変換を行い、i=1,…,t-1についての第2テキストの単語列Y^のテキストベクトルuY,iの系列uY,1,…,uY,t-1を得る第1ベクトル計算ステップと、
    前記第1テキストの単語列Xに対して前記モデルパラメータθに基づく変換を行い、前記第1テキストの単語列XのテキストベクトルuX,tを得る第2ベクトル計算ステップと、
    前記系列uY,1,…,uY,t-2に対して前記モデルパラメータθνに基づく変換を行い、t-2番目の第2テキスト系列埋め込みベクトルνt-2を得る第3ベクトル計算ステップと、
    nはt番目の第2テキストの単語列Y^に含まれる単語数以下の正整数であり、前記第2テキストの単語列Y^に含まれるn番目の単語y よりも過去の単語列y ,…,yn-1 、および前記テキストベクトルuX,tに対して、前記モデルパラメータθに基づく変換を行い、前記第1テキストを考慮したt番目の第2テキストの単語列Y^のn番目の単語向けの文脈ベクトルs を得る第1文脈ベクトル計算ステップと、
    前記単語列y ,…,yn-1 、前記第2テキスト系列埋め込みベクトルνt-2、および前記系列uY,t-1に対して前記モデルパラメータθに基づく変換を行い、過去の前記第2テキストを考慮したt番目の第2テキストの単語列Y^のn番目の単語向けの文脈ベクトルq を得る第2文脈ベクトル計算ステップと、
    前記文脈ベクトルs 、t-1番目の第2テキストの単語列Y^t-1、および前記t番目の第2テキストの単語列Y^のn番目の単語向けの文脈ベクトルq に対して、前記モデルパラメータθに基づく変換を行い、t番目の第2テキストの単語列Y^のn番目の単語向けコピー確率M を得るコピーベクトル確率計算ステップと、
    前記文脈ベクトルs および前記t番目の第2テキストの単語列Y^のn番目の単語向けの文脈ベクトルq に対して、前記モデルパラメータθに基づく変換を行い、前記単語y についての事後確率P(y )を得る第1事後確率計算ステップと、
    前記第1テキストの単語列X、t-1番目の第2テキストの単語列Y^t-1、前記事後確率P(y )、前記コピー確率M に対して、前記モデルパラメータθに基づく変換を行い、前記第1テキストの単語列X、前記第2テキストの単語列の系列Y^,…,Y^t-1、および前記モデルパラメータΘが与えられた場合における、前記第2テキストの単語列Yの事後確率P(Y|Y^,…,Y^t-1,X,Θ)に対応する事後確率P(y |y ,…,yn-1 ,Y^,…,Y^t-1,X,Θ)を得る第2事後確率計算ステップと、を含む処理を実行するためのものである、
    機械学習方法。
  13. 請求項1からの何れかの系列変換装置としてコンピュータを機能させるためのプログラム。
  14. 請求項からの何れかの機械学習装置としてコンピュータを機能させるためのプログラム。
JP2022501497A 2020-02-20 2020-02-20 系列変換装置、機械学習装置、系列変換方法、機械学習方法、およびプログラム Active JP7429352B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/006728 WO2021166145A1 (ja) 2020-02-20 2020-02-20 系列変換装置、機械学習装置、系列変換方法、機械学習方法、およびプログラム

Publications (3)

Publication Number Publication Date
JPWO2021166145A1 JPWO2021166145A1 (ja) 2021-08-26
JPWO2021166145A5 JPWO2021166145A5 (ja) 2022-10-03
JP7429352B2 true JP7429352B2 (ja) 2024-02-08

Family

ID=77391873

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022501497A Active JP7429352B2 (ja) 2020-02-20 2020-02-20 系列変換装置、機械学習装置、系列変換方法、機械学習方法、およびプログラム

Country Status (3)

Country Link
US (1) US20230072015A1 (ja)
JP (1) JP7429352B2 (ja)
WO (1) WO2021166145A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018181343A (ja) 2017-04-14 2018-11-15 セールスフォース ドット コム インコーポレイティッド 抽象的要約のためのディープ強化モデル
WO2019167296A1 (ja) 2018-02-28 2019-09-06 日本電信電話株式会社 自然言語処理のための装置、方法及びプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018181343A (ja) 2017-04-14 2018-11-15 セールスフォース ドット コム インコーポレイティッド 抽象的要約のためのディープ強化モデル
WO2019167296A1 (ja) 2018-02-28 2019-09-06 日本電信電話株式会社 自然言語処理のための装置、方法及びプログラム

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
山岸駿秀 他2名,目的言語側の文間文脈を考慮した文脈つきニューラル機械翻訳,言語処理学会第25回年次大会 発表論文集[online],日本,言語処理学会,2019年03月04日,394-397頁
石垣達也 他4名,コピー機構を用いたクエリ指向ニューラル生成型要約,情報処理学会 研究報告 自然言語処理[online],日本,情報処理学会,2019年06月06日,Vol.2019-NL-240 No.3
藤井諒 他3名,ニューラル機械翻訳における文脈情報の選択的利用,言語処理学会第25回年次大会 発表論文集[online],日本,言語処理学会,2019年03月04日,1459-1462頁

Also Published As

Publication number Publication date
US20230072015A1 (en) 2023-03-09
WO2021166145A1 (ja) 2021-08-26
JPWO2021166145A1 (ja) 2021-08-26

Similar Documents

Publication Publication Date Title
US10860808B2 (en) Method and system for generation of candidate translations
CN108960277B (zh) 使用语言模型对序列到序列模型进行冷聚变
US9922025B2 (en) Generating distributed word embeddings using structured information
US11556712B2 (en) Span selection training for natural language processing
Liao et al. Improving readability for automatic speech recognition transcription
US20180203852A1 (en) Natural language generation through character-based recurrent neural networks with finite-state prior knowledge
US20210232948A1 (en) Question responding apparatus, question responding method and program
JP7092953B2 (ja) エンドツーエンドモデルによる多言語音声認識のための音素に基づく文脈解析
JP2004355483A (ja) 形態素解析装置、形態素解析方法及び形態素解析プログラム
US11157707B2 (en) Natural language response improvement in machine assisted agents
Chuang et al. Discriminative learning and the lexicon: NDL and LDL
Schwartz et al. Neural polysynthetic language modelling
JP7205839B2 (ja) データ生成モデル学習装置、潜在変数生成モデル学習装置、翻訳データ生成装置、データ生成モデル学習方法、潜在変数生成モデル学習方法、翻訳データ生成方法、プログラム
CN110287498B (zh) 层次化翻译方法、装置及存储介质
Mandal et al. Futurity of translation algorithms for neural machine translation (NMT) and its vision
JP7103264B2 (ja) 生成装置、学習装置、生成方法及びプログラム
JP7211103B2 (ja) 系列ラベリング装置、系列ラベリング方法、およびプログラム
Griol et al. A Neural Network Approach to Intention Modeling for User‐Adapted Conversational Agents
JP7429352B2 (ja) 系列変換装置、機械学習装置、系列変換方法、機械学習方法、およびプログラム
Do et al. Transferring Emphasis in Speech Translation Using Hard-Attentional Neural Network Models.
Youness et al. Dialog generation for Arabic chatbot
Mammadov et al. Part-of-speech tagging for azerbaijani language
JP7327647B2 (ja) 発話生成装置、発話生成方法、プログラム
Dymetman et al. Log-linear rnns: Towards recurrent neural networks with flexible prior knowledge
Wagner Target Factors for Neural Machine Translation

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220726

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220726

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230307

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20230420

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230705

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20231003

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231130

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20231130

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20231219

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231226

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240108

R150 Certificate of patent or registration of utility model

Ref document number: 7429352

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150