JP7120064B2

JP7120064B2 - 言語モデルスコア計算装置、言語モデル作成装置、それらの方法、プログラム、および記録媒体

Info

Publication number: JP7120064B2
Application number: JP2019021546A
Authority: JP
Inventors: 亮増村; 智大田中; 隆伸大庭
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2019-02-08
Filing date: 2019-02-08
Publication date: 2022-08-17
Anticipated expiration: 2039-02-08
Also published as: JP2020129061A; WO2020162240A1; US11887620B2; US20220013136A1

Description

本発明は、音声認識や機械翻訳等で用いる言語モデルを学習する技術に関する。

音声認識や機械翻訳では、言語的な予測のために言語モデルが必要である。言語モデルは、言語的な尤もらしさを表す言語モデルスコア（確率）を計測可能なものであり、その性能が音声認識や機械翻訳の性能を左右するものである。これまで、様々な種類の言語モデルが提案されてきているが、近年リカレントニューラルネットワークに基づく言語モデルが注目されている。リカレントニューラルネットワークに基づく言語モデルの詳細は例えば非特許文献１等を参照されたい。

リカレントニューラルネットワークに基づく言語モデルは、非常に高い言語予測能力を持ち、音声認識や機械翻訳で積極的に利用されている。リカレントニューラルネットワークに基づく言語モデルのポイントは、リカレントニューラルネットワークを用いることにより、当該発話の範囲内の長距離の文脈を反映させた言語予測を行うことができることである。具体的には、ある発話の始端から１０番目までの単語の言語的な尤もらしさを計測する際に、始端から直前の９番目までの単語の情報を文脈情報として考慮することができる。

一般的なリカレントニューラルネットワークに基づく言語モデルでは、当該発話の範囲内の長距離の文脈情報を考慮して言語モデルスコアを計測するが、会話などでは当該発話の範囲内の文脈情報だけではなく、当該発話よりも過去の発話系列も文脈情報として考慮すべきである。そこで、複数人による会話において当該発話よりも過去の発話系列における話者間のインタラクションまでを文脈情報として考慮して、ある発話の言語モデルスコアを計測する技術が近年検討されている。ここでは、その技術を「複数人会話文脈考慮型言語モデル」と呼ぶこととする。

複数人会話文脈考慮型言語モデルでは、複数人会話において、これまで誰が何を話してきたのかといった情報を陽に活用して、当該発話の単語の予測確率を算出する機能を持ち、一般的なリカレントニューラルネットワークと比較して、予測性能が高い言語モデルスコアを算出することが可能となる。これにより、複数人会話文脈考慮型言語モデルを用いれば、音声認識性能が高い音声認識システムを構築することができる。複数人会話文脈考慮型言語モデルの詳細は非特許文献２を参照されたい。

Mikolov Tomas, Karafiat Martin, Burget Lukas, Cernocky Jan, Khudanpur Sanjeev, "Recurrent neural network based language model", INTERSPEECH 2010, pp. 1045-1048, 2010. Ryo Masumura, Tomohiro Tanaka, Atsushi Ando, Hirokazu Masataki, Yushi Aono, "Role Play Dialogue Aware Language Models based on Conditional Hierarchical Recurrent Encoder-Decoder", In Proc. Annual Conference of the International Speech Communication Association (INTERSPEECH), pp. 1259-1263, 2018.

複数人会話文脈考慮型言語モデルでは、当該発話よりも過去の発話系列を文脈情報として利用する際に、各発話の単語列と話者情報のみを利用していた。しかしながら、当該発話にとって文脈情報となり得る、各発話に含まれるメタ情報の理解を明示的に行えていないことによって、不十分な文脈情報となってしまっている。ここで、メタ情報とは、様々なものが考えられるが、例えば「同意」「疑問」「感謝」等を表す発話意図や、「スポーツ」「経済」「芸能」等を表す話題、等が挙げられる。

具体的には、例えば当該発話の直前の発話が「そうですか」という場合、この発話が「疑問」を表しているのか「同意」を表しているのかを判断できないと、当該発話でどのような言語が出現しやすいかという言語予測が非常に難しくなる。また、例えば当該発話の直前の発話が「昨日のナイターの試合の結果を教えて」という場合、この発話の話題が「スポーツ」であると具体的に予測できる場合とそうでない場合とでは、次発話の言語予測の精度が大きく異なると考えられる。

したがって、本発明が解決しようとする課題は、従来の複数人会話文脈考慮型言語モデルが、当該発話の文脈情報となり得る過去の各発話に含まれるメタ情報の理解を明示的に行っていないことにより、言語予測が難しくなってしまっている点である。すなわち、本発明の目的は、過去の発話系列を文脈情報として利用する言語モデルにおいて、言語予測の精度を向上することである。

本発明の第一の態様の言語モデルスコア計算装置は、直前の発話の単語列から少なくとも１個のメタ情報に関するメタ情報理解器を用いて直前の発話のメタ情報を表す履歴発話メタ情報ベクトルを求める履歴発話メタ情報理解部と、直前の発話の単語列と直前の発話の話者を表す話者ラベルとを言語モデルのモデルパラメータを用いて履歴発話埋め込みベクトルに変換する履歴発話埋め込み部と、履歴発話メタ情報ベクトルと履歴発話埋め込みベクトルとを結合して発話単位結合ベクトルを求める発話単位結合ベクトル構成部と、過去の発話系列について求めた複数の発話単位結合ベクトルを言語モデルのモデルパラメータを用いて発話系列埋め込みベクトルに変換する発話系列埋め込みベクトル計算部と、現在の発話の単語列と現在の発話の話者を表す話者ラベルと発話系列埋め込みベクトルとから言語モデルのモデルパラメータを用いて現在の発話の言語モデルスコアを計算する言語モデルスコア計算部と、を含む。

本発明の第二の態様の言語モデル作成装置は、少なくとも１個のメタ情報に関する発話と各発話のメタ情報との組からなる学習データからメタ情報理解器のモデルパラメータを学習するメタ情報モデルパラメータ学習部と、複数人による複数の発話と各発話の話者を表す話者ラベルとの組からなる会話データからメタ情報理解器のモデルパラメータを用いて言語モデルのモデルパラメータを学習する言語モデルパラメータ学習部と、を含む。

本発明によれば、過去の発話系列を文脈情報として利用する言語モデルにおいて、言語予測の精度が向上する。この言語モデルを音声認識や機械翻訳等に用いることによって、音声認識性能や翻訳性能を高めることができる。

図１は、言語モデルスコア計算装置の機能構成を例示する図である。図２は、言語モデルスコア計算方法の処理手順を例示する図である。図３は、言語モデル作成装置の機能構成を例示する図である。図４は、言語モデル作成方法の処理手順を例示する図である。

文中で使用する記号「^」は、本来直後の文字の真上に記載されるべきものであるが、テキスト記法の制限により、当該文字の直前に記載する。数式中においてはこれらの記号は本来の位置、すなわち文字の真上に記述している。例えば、「^θ」は数式中では次式で表される。

本発明では、上述の課題を解決するために、複数人会話文脈考慮型言語モデルにおいて、当該発話の文脈情報となる過去の各発話に含まれる１種類以上のメタ情報を推定し、推定した各発話のメタ情報も単語列と話者情報に付随して文脈情報として用いることによって、言語予測のための予測確率を算出し、それに基づき言語モデルスコアを計算する方法を導入する。そのために、本発明の複数人会話文脈考慮型言語モデルは、推定したいメタ情報の種類数分のメタ情報理解器を内包する。

また、上述の機能を持つ複数人会話文脈考慮型言語モデル、および内包された推定したいメタ情報の種類数分のメタ情報理解器を、メタ情報の種類ごとのメタ情報予測のための学習データ（発話とメタ情報のペアの複数データ）と、複数人会話の学習データ（話者ラベルが付与された単語列の系列）とを用いて最適化する方法を導入する。

以下、本発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

［第一実施形態：言語モデルスコア計算装置］
第一実施形態の言語モデルスコア計算装置１は、図１に例示するように、モデルパラメータ記憶部１０、履歴発話メタ情報理解部１１、履歴発話埋め込み部１２、発話単位結合ベクトル構成部１３、発話系列埋め込みベクトル計算部１４、および言語モデルスコア計算部１５を備える。この言語モデルスコア計算装置１が、図２に例示する各ステップの処理を行うことにより第一実施形態の言語モデルスコア計算方法が実現される。

言語モデルスコア計算装置１は、例えば、中央演算処理装置（CPU: Central Processing Unit）、主記憶装置（RAM: Random Access Memory）などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。言語モデルスコア計算装置１は、例えば、中央演算処理装置の制御のもとで各処理を実行する。言語モデルスコア計算装置１に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。言語モデルスコア計算装置１の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。言語モデルスコア計算装置１が備える各記憶部は、例えば、RAM（Random Access Memory）などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ（Flash Memory）のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。

第一実施形態の言語モデルスコア計算装置１は、L個の連続した発話ごとの単語列の系列W¹, …, W^Lと、L個の連続した発話ごとの話者ラベルの系列s¹, …, s^Lとを入力とし、言語モデルのモデルパラメータθ₁と、K個のメタ情報理解器のモデルパラメータθ₂ ¹, …, θ₂ ^Kとに従った確率計算により、L個の連続した単語列の系列の言語モデルスコアP(W¹), …, P(W^L)を得て出力する。なお、l番目の発話の言語モデルスコアP(W^l)は、厳密には以下を表す。

言語モデルスコア計算装置１は、発話単位の処理を繰り返すことで上記の処理を実現する。以下では、l（l=1, …, L）番目の発話単位の処理について詳細を説明する。

モデルパラメータ記憶部１０には、言語モデルのモデルパラメータθ₁と、K個のメタ情報理解器のモデルパラメータθ₂ ¹, …, θ₂ ^Kとが予め記憶されている。これらのモデルパラメータθ₁, θ₂ ¹, …, θ₂ ^Kは、後述する言語モデル作成装置２により予め学習しておく。

ステップＳ１１において、履歴発話メタ情報理解部１１は、l-1番目の発話の単語列W^l-1を入力とし、1以上K以下の各整数kについて、k番目のメタ情報理解器のモデルパラメータθ₂ ^kに基づく変換関数により、l-1番目の発話のk番目のメタ情報ベクトルu^l-1,kを求める。このとき、l-1番目の発話の単語列W^l-1は１つ以上の単語を含む。履歴発話メタ情報理解部１１は、得られたK種類のメタ情報ベクトルu^l-1,1, …, u^l-1,Kを発話単位結合ベクトル構成部１３へ出力する。

メタ情報ベクトルは、単語列から予測されるメタ情報が埋め込まれたベクトルである。メタ情報としては様々なものが考えられるが、「同意」「疑問」「感謝」などを表す発話意図や、「スポーツ」「経済」「芸能」などを表す話題、等である。メタ情報ベクトルの各次元は、メタ情報に関する各要素に対応させることができる。例えば、１次元目は「発話意図が同意」、２次元目は「発話意図が疑問」などと割り当てておき、例えば、２次元目のみ１、他の次元は０としたベクトルを構成することができる。このとき変換関数はモデルパラメータθ₂ ^kに基づくメタ情報理解器から抽出可能な情報であれば任意のものを用いることができる。具体的には、可変長数の記号列を単一ベクトルに変換する関数であれば任意のものを利用できる。

メタ情報理解器は、単語列からメタ情報予測確率分布を推定するものであれば任意のものを用いることができ、例えばリカレントニューラルネットワークや双方向リカレントニューラルネットワークとソフトマックス関数を用いて構築することができる。変換関数は、例えばメタ情報理解器が予測したラベルに対応する次元を１として、残りの次元を０としてメタ情報ベクトルを構成する変換関数とすることができる。また、メタ情報理解器が予測したメタ情報についての事後確率分布を直接メタ情報ベクトルとすることができる。さらに、メタ情報理解器を用いて推定する際の中間表現を用いてもよく、例えば前述のリカレントニューラルネットワークや双方向リカレントニューラルネットワークとソフトマックス関数を用いたメタ情報理解器の場合であれば、ソフトマックス関数を通す前に得られるベクトル表現を直接メタ情報ベクトルとしてもよい。

ステップＳ１２において、履歴発話埋め込み部１２は、l-1番目の発話の単語列W^l-1とl-1番目の発話の単語ラベルs^l-1とを入力とし、言語モデルのモデルパラメータθ₁に基づく変換関数により、l-1番目の発話の履歴発話埋め込みベクトルh^l-1を求める。履歴発話埋め込みベクトルは、単語列と話者ラベルの情報が埋め込まれたベクトルである。このとき変換関数には、可変長数の記号列を単一ベクトルに変換する関数であれば任意のものを利用できるが、例えばリカレントニューラルネットワークや双方向リカレントニューラルネットワークを用いることができる。履歴発話埋め込み部１２は、得られた履歴発話埋め込みベクトルh^l-1を発話単位結合ベクトル構成部１３へ出力する。

ステップＳ１３において、発話単位結合ベクトル構成部１３は、履歴発話メタ情報理解部１１が出力するl-1番目の発話のK種類のメタ情報ベクトルu^l-1,1, …, u^l-1,Kと、履歴発話埋め込み部１２が出力するl-1番目の発話の履歴発話埋め込みベクトルh^l-1とを入力とし、l-1番目の発話の発話単位結合ベクトルc^l-1を求める。発話単位結合ベクトル構成部１３は、得られた発話単位結合ベクトルc^l-1を発話系列埋め込みベクトル計算部１４へ出力する。

発話単位結合ベクトルc^l-1は、次のように構成される。

ここで、・^T（上付き添え字のT）はベクトルの転置を表す。

ステップＳ１４において、発話系列埋め込みベクトル計算部１４は、過去の発話系列について求めた複数の発話単位結合ベクトルc¹, …, c^l-1を入力とし、言語モデルのモデルパラメータθ₁に基づく変換関数により、l-1番目の発話系列埋め込みベクトルv^l-1を求める。このとき変換関数には、可変長数のベクトル列を単一ベクトルに変換する関数であれば任意のものを利用できるが、例えばリカレントニューラルネットワークを用いることができる。発話系列埋め込みベクトル計算部１４は、得られた発話系列埋め込みベクトルv^l-1を言語モデルスコア計算部１５へ出力する。

ステップＳ１５において、言語モデルスコア計算部１５は、l番目の発話の単語列W^lとl番目の発話の話者ラベルs^lとl-1番目の発話系列埋め込みベクトルv^l-1とを入力とし、言語モデルのモデルパラメータθ₁に基づく変換関数に基づき、l番目の発話の言語モデルスコアP(W^l)を求める。このとき変換関数には、自己回帰を行うリカレントニューラルネットワークや双方向リカレントニューラルネットワークとソフトマックス関数を用いて表すことができる。例えば、l番目の発話のm番目の単語と、l番目の発話の話者ラベルs^lと、l-1番目の発話系列埋め込みベクトルv^l-1とから、m+1番目の単語を予測する変換関数とすることで、l番目の発話W^lの各単語の確率を求めることができ、それに基づき、言語モデルスコアP(W^l)を算出することが可能である。

言語モデルスコア計算装置１は、上述のステップＳ１１からＳ１５までの処理を、入力されたL個の発話W¹, …, W^Lそれぞれに対して行い、得られたL個の発話の言語モデルスコアP(W¹), …, P(W^L)を出力する。

［第二実施形態：言語モデル作成装置］
第二実施形態の言語モデル作成装置２は、図３に例示するように、メタ情報モデルパラメータ学習部２１、言語モデルパラメータ学習部２２、およびモデルパラメータ記憶部１０を備える。この言語モデル作成装置２が、図４に例示する各ステップの処理を行うことにより第二実施形態の言語モデル作成方法が実現される。

言語モデル作成装置２は、例えば、中央演算処理装置（CPU: Central Processing Unit）、主記憶装置（RAM: Random Access Memory）などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。言語モデル作成装置２は、例えば、中央演算処理装置の制御のもとで各処理を実行する。言語モデル作成装置２に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。言語モデル作成装置２の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。言語モデル作成装置２が備える各記憶部は、例えば、RAM（Random Access Memory）などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ（Flash Memory）のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。

第二実施形態の言語モデル作成装置２は、K個のメタ情報それぞれについての学習データD¹, …, D^Kと複数人会話データDとを入力とし、言語モデルのモデルパラメータθ₁とK個のメタ情報理解器のモデルパラメータθ₂ ¹, …, θ₂ ^Kとを学習する。

k番目のメタ情報に関する学習データD^kは、発話W_n ^kとメタ情報L_n ^kとの組からなる複数のデータであり、次式で表すことができる。ただし、nは1以上N^k以下の各整数であり、N^kはk番目のメタ情報に関する学習データの数を表す。

複数人会話データDは、会話に含まれる発話ごとの単語列W^lと話者ラベルs^lとの組からなる複数のデータであり、次式で表すことができる。ただし、lは1以上L以下の各整数であり、Lは会話に含まれる発話の数を表す。

ステップＳ２１において、メタ情報モデルパラメータ学習部２１は、1以上K以下の各整数kについて、k番目のメタ情報に関する学習データD^kを入力とし、k番目のメタ情報理解器のモデルパラメータ^θ₂ ^kを学習する。学習データD^kに含まれる発話W_n ^kとメタ情報L_n ^kとの組は、例えば１万組準備する（すなわち、N^k=10000）。メタ情報モデルパラメータ学習部２１は、得られたK種類のメタ情報理解器のモデルパラメータ^θ₂ ¹, …, ^θ₂ ^Kを言語モデルパラメータ学習部２２へ出力する。

学習データD^kにより最適化されたモデルパラメータ^θ₂ ^kは次式に従う。

ここで、P(L_n ^k|W_n ^k, θ₂ ^k)は、言語モデルスコア計算装置１の履歴発話メタ情報理解部１１で定義されたメタ情報理解器と同一のものであり、単語列からメタ情報予測確率分布を推定するものであれば任意のものを用いることができる。例えばリカレントニューラルネットワークや双方向リカレントニューラルネットワークとソフトマックス関数を用いて構築することができる。ここで学習されたモデルパラメータ^θ₂ ^kを言語モデルスコア計算装置１におけるメタ情報理解器のモデルパラメータθ₂ ^kとして用いる。

ステップＳ２２において、言語モデルパラメータ学習部２２は、複数人会話データDと、K種類のメタ情報理解器のモデルパラメータ^θ₂ ¹, …, ^θ₂ ^Kとを入力とし、言語モデルのモデルパラメータ^θ₁を学習する。複数人会話データDに含まれる発話W^lと話者ラベルs^lとの組は、例えば１０万組準備する（すなわち、L=100000）。

複数人会話データDにより最適化されたパラメータ^θ₁は次式に従う。

なお、P(W^l|W¹, …, W^l-1, s¹, …, s^l, θ₁, ^θ₂ ¹, …, ^θ₂ ^K)は、言語モデルスコア計算装置１において定義された計算の流れに従い計算できる。ここで、θ₁がここで学習されるモデルパラメータであり、^θ₂ ¹, …, ^θ₂ ^Kはメタ情報モデルパラメータ学習部２１において最適化されたモデルパラメータである。ここで最適化されたモデルパラメータ^θ₁を言語モデルスコア計算装置１における言語モデルのモデルパラメータθ₁として用いることで、学習した情報を反映した言語モデルスコア計算装置１を実現できる。

言語モデル作成装置２は、上述のステップＳ２１からＳ２２までの処理で得られた言語モデルのモデルパラメータθ₁とK種類のメタ情報理解器のモデルパラメータ^θ₂ ¹, …, ^θ₂ ^Kとをモデルパラメータ記憶部１０へ記憶する。もしくは、言語モデルおよびメタ情報理解器を用いる他の装置に記憶させるために、得られた言語モデルのモデルパラメータθ₁とK種類のメタ情報理解器のモデルパラメータ^θ₂ ¹, …, ^θ₂ ^Kとをそのまま出力する。この場合、言語モデル作成装置２はモデルパラメータ記憶部１０を備えなくてもよい。

［変形例］
上述の実施形態では、言語モデルスコア計算装置１と言語モデル作成装置２とを別々の装置として構成する例を説明したが、言語モデルおよびメタ情報理解器のモデルパラメータを学習する機能と学習済みのモデルパラメータを用いて言語モデルスコアを計算する機能とを兼ね備えた１台の言語モデルスコア計算装置として構成することも可能である。すなわち、変形例の言語モデルスコア計算装置は、メタ情報モデルパラメータ学習部２１、言語モデルパラメータ学習部２２、モデルパラメータ記憶部１０、履歴発話メタ情報理解部１１、履歴発話埋め込み部１２、発話単位結合ベクトル構成部１３、発話系列埋め込みベクトル計算部１４、および言語モデルスコア計算部１５を備える。

以上、本発明の実施の形態について説明したが、具体的な構成は、これらの実施の形態に限られるものではなく、本発明の趣旨を逸脱しない範囲で適宜設計の変更等があっても、本発明に含まれることはいうまでもない。実施の形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。

［プログラム、記録媒体］
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

１言語モデルスコア計算装置
１０モデルパラメータ記憶部
１１履歴発話メタ情報理解部
１２履歴発話埋め込み部
１３発話単位結合ベクトル構成部
１４発話系列埋め込みベクトル計算部
１５言語モデルスコア計算部
２言語モデル作成装置
２１メタ情報モデルパラメータ学習部
２２言語モデルパラメータ学習部

Claims

直前の発話の単語列から少なくとも１個のメタ情報に関するメタ情報理解器を用いて上記直前の発話のメタ情報を表す履歴発話メタ情報ベクトルを求める履歴発話メタ情報理解部と、
上記直前の発話の単語列と上記直前の発話の話者を表す話者ラベルとを言語モデルのモデルパラメータを用いて履歴発話埋め込みベクトルに変換する履歴発話埋め込み部と、
上記履歴発話メタ情報ベクトルと上記履歴発話埋め込みベクトルとを結合して発話単位結合ベクトルを求める発話単位結合ベクトル構成部と、
過去の発話系列について求めた複数の発話単位結合ベクトルを上記言語モデルのモデルパラメータを用いて発話系列埋め込みベクトルに変換する発話系列埋め込みベクトル計算部と、
現在の発話の単語列と上記現在の発話の話者を表す話者ラベルと上記発話系列埋め込みベクトルとから上記言語モデルのモデルパラメータを用いて上記現在の発話の言語モデルスコアを計算する言語モデルスコア計算部と、
を含む言語モデルスコア計算装置。
少なくとも１個のメタ情報に関する発話と各発話のメタ情報との組からなる学習データからメタ情報理解器のモデルパラメータを学習するメタ情報モデルパラメータ学習部と、
複数人による複数の発話と各発話の話者を表す話者ラベルとの組からなる会話データから上記メタ情報理解器のモデルパラメータを用いて言語モデルのモデルパラメータを学習する言語モデルパラメータ学習部と、
を含む言語モデル作成装置。
履歴発話メタ情報理解部が、直前の発話の単語列から少なくとも１個のメタ情報に関するメタ情報理解器を用いて上記直前の発話のメタ情報を表す履歴発話メタ情報ベクトルを求め、
履歴発話埋め込み部が、上記直前の発話の単語列と上記直前の発話の話者を表す話者ラベルとを言語モデルのモデルパラメータを用いて履歴発話埋め込みベクトルに変換し、
発話単位結合ベクトル構成部が、上記履歴発話メタ情報ベクトルと上記履歴発話埋め込みベクトルとを結合して発話単位結合ベクトルを求め、
発話系列埋め込みベクトル計算部が、過去の発話系列について求めた複数の発話単位結合ベクトルを上記言語モデルのモデルパラメータを用いて発話系列埋め込みベクトルに変換し、
言語モデルスコア計算部が、現在の発話の単語列と上記現在の発話の話者を表す話者ラベルと上記発話系列埋め込みベクトルとから上記言語モデルのモデルパラメータを用いて上記現在の発話の言語モデルスコアを計算する、
言語モデルスコア計算方法。
メタ情報モデルパラメータ学習部が、少なくとも１個のメタ情報に関する発話と各発話のメタ情報との組からなる学習データからメタ情報理解器のモデルパラメータを学習し、
言語モデルパラメータ学習部が、複数人による複数の発話と各発話の話者を表す話者ラベルとの組からなる会話データから上記メタ情報理解器のモデルパラメータを用いて言語モデルのモデルパラメータを学習する、
言語モデル作成方法。
請求項１に記載の言語モデルスコア計算装置もしくは請求項２に記載の言語モデル作成装置としてコンピュータを機能させるためのプログラム。
請求項１に記載の言語モデルスコア計算装置もしくは請求項２に記載の言語モデル作成装置としてコンピュータを機能させるためのプログラムが記録されたコンピュータ読み取り可能な記録媒体。