JP2018021949A

JP2018021949A - 単語予測装置、プログラム

Info

Publication number: JP2018021949A
Application number: JP2016151061A
Authority: JP
Inventors: 具治岩田; Tomoharu Iwata; 小川　厚徳; Atsunori Ogawa; 厚徳小川; 哲則小林; Tetsunori Kobayashi; 小川　哲司; Tetsuji Ogawa; 哲司小川; 幹森岡; Miki Morioka; 真未川崎; Mami Kawasaki
Original assignee: Waseda University; Nippon Telegraph and Telephone Corp
Current assignee: Waseda University; Nippon Telegraph and Telephone Corp
Priority date: 2016-08-01
Filing date: 2016-08-01
Publication date: 2018-02-08
Anticipated expiration: 2036-08-01
Also published as: JP6588874B2

Abstract

【課題】複数人の話者が発話していることを考慮して、次の単語を予測することができる単語予測装置を提供する。【解決手段】再帰的ニューラルネットワーク言語モデルにより、複数人の話者の対話データから次の単語を予測する単語予測装置。話者の役割と話者の交代の少なくとも何れかを表す話者情報と、発話された単語の情報である単語情報を学習データとして取得し、再帰的ニューラルネットワーク言語モデルの潜在レイヤ、出力レイヤを算出するためのパラメータを学習データに基づいて推定するパラメータ推定部と、話者情報と単語情報を含むテストデータと、推定されたパラメータに基づいて、潜在レイヤ、出力レイヤを算出する単語予測部を含む。【選択図】図１

Description

本発明は、再帰的ニューラルネットワーク言語モデル（ＲＮＮＬＭ，Recurrent Neural Network Language Model）により、複数人の話者の対話データから次の単語を予測する単語予測装置、プログラムに関する。

従来、個人の発話データから次の単語を予測するための言語モデルは数多く提案されている（例えば非特許文献１）。

T. Mikolov and S. Kombrink and A. Deoras and L. Burget and Jan H. Cernocky: RNNLM - Recurrent Neural Network Language Modeling Toolkit, IEEE Automatic Speech Recognition and Understanding Workshop, 2011

しかしながら、複数人の話者の対話データにこれらの既存言語モデルを適用した場合、複数人の話者が発話していることを考慮できないため、予測精度が低下するという問題点があった。

そこで本発明は、複数人の話者が発話していることを考慮して、次の単語を予測することができる単語予測装置を提供することを目的とする。

本発明の単語予測装置は、再帰的ニューラルネットワーク言語モデルにより、複数人の話者の対話データから次の単語を予測する単語予測装置である。本発明の単語予測装置は、パラメータ推定部と、単語予測部を含む。

パラメータ推定部は、話者の役割と話者の交代の少なくとも何れかを表す話者情報と、発話された単語の情報である単語情報を学習データとして取得し、再帰的ニューラルネットワーク言語モデルの潜在レイヤ、出力レイヤを算出するためのパラメータを学習データに基づいて推定する。単語予測部は、話者情報と単語情報を含むテストデータと、推定されたパラメータに基づいて、潜在レイヤ、出力レイヤを算出する。

本発明の単語予測装置によれば、複数人の話者が発話したという情報を考慮して、次の単語を予測することができる。

実施例１の単語予測装置の構成を示すブロック図。実施例１の単語予測装置の動作を示すフローチャート。実施例１の単語予測装置の単語予測部の構成を示すブロック図。実施例１の単語予測装置の単語予測部の動作を示すフローチャート。実施例２の単語予測装置の構成を示すブロック図。実施例２の単語予測装置の動作を示すフローチャート。実施例２の単語予測装置の単語予測部の構成を示すブロック図。実施例２の単語予測装置の単語予測部の動作を示すフローチャート。実施例３の単語予測装置の構成を示すブロック図。実施例３の単語予測装置の動作を示すフローチャート。実施例３の単語予測装置の単語予測部の構成を示すブロック図。実施例３の単語予測装置の単語予測部の動作を示すフローチャート。実施例４の単語予測装置の構成を示すブロック図。実施例４の単語予測装置の動作を示すフローチャート。実施例４の単語予測装置の単語予測部の構成を示すブロック図。実施例４の単語予測装置の単語予測部の動作を示すフローチャート。実施例５の単語予測装置の構成を示すブロック図。実施例５の単語予測装置の動作を示すフローチャート。実施例５の単語予測装置の単語予測部の構成を示すブロック図。実施例５の単語予測装置の単語予測部の動作を示すフローチャート。実施例６の単語予測装置の構成を示すブロック図。実施例６の単語予測装置の動作を示すフローチャート。実施例６の単語予測装置の単語予測部の構成を示すブロック図。実施例６の単語予測装置の単語予測部の動作を示すフローチャート。

以下の実施例で共通して用いられる用語について解説する。
＜話者情報＞
以下の実施例では、話者情報として、話者の役割を表す情報、話者の交代を表す情報の２種類の表現を考える。

＜話者の役割＞
例えば時刻ｔにおける話者の役割を表す情報をｓ（ｔ）と表わすこととし、ｓ（ｔ）を以下のベクトル情報として表現する。
ｓ（ｔ）＝［発表者／質問者，時刻ｔの単語が発話の先頭である／でない］
例えば、
ｓ（ｔ）＝［１，０，０］：時刻ｔの単語が発話の先頭であり、その話者が発表者。
ｓ（ｔ）＝［０，１，０］：時刻ｔの単語が発話の先頭であり、その話者が質問者。
ｓ（ｔ）＝［０，０，１］：時刻ｔの単語が発話の先頭でない。

上記の例の場合、与えられる対話データにおける各話者に発表者と質問者の何れかの役割が割り当てられているものとする。

＜話者の交代＞
例えば時刻ｔにおける話者の交代を表す情報をｓ（ｔ）と表わすこととし、ｓ（ｔ）を、以下のベクトル情報として表現する。
ｓ（ｔ）＝［時刻ｔの単語の話者が１つ前の単語の話者と異なる／同じ，時刻ｔの単語が発話の先頭である／でない］
例えば、
ｓ（ｔ）＝［１，０，０］：時刻ｔの単語が発話の先頭であり、その話者が１つ前の単語の話者と異なる。
ｓ（ｔ）＝［０，１，０］：時刻ｔの単語が発話の先頭であり、その話者が１つ前の単語の話者と同じ。
ｓ（ｔ）＝［０，０，１］：時刻ｔの単語が発話の先頭でない。

上記２種類以外にも、三つ以上の役割を考慮した表現、２つ以上前の単語の話者と同一か否かを考慮した表現、発話の先頭でないことを考慮しない表現なども考えられる。

以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

以下、図１を参照して実施例１の単語予測装置の構成を説明する。図１に示すように本実施例の単語予測装置１は、初期化部１１と、パラメータ推定部１２と、単語予測部１３を含む。初期化部１１は、再帰的ニューラルネットワーク言語モデルの潜在レイヤ、出力レイヤを算出するためのパラメータΘ＝{Ｕ，Ｖ，Ｖ’}を初期化し、パラメータの初期値Θ_０をパラメータ推定部１２に出力する（Ｓ１１）。パラメータ推定部１２は、学習データＷを読み込む。学習データＷは、話者情報と単語情報を含むものとする。具体的には、言語モデルのパラメータを推定するための学習データＷとして、

が与えられるものとする。Ｔは学習データの単語数を表す。ｓ（ｔ）はｔ番目（時刻ｔ）の単語を発話した話者の話者情報（話者の役割と話者の交代の少なくとも何れかを表す情報）を、ｗ（ｔ）はｔ番目（時刻ｔ）に発話された単語の単語情報であって、ｔ番目（時刻ｔ）の単語の１−ｏｆ−Ｋ表現とする。

パラメータ推定部１２は、再帰的ニューラルネットワーク言語モデル（ＲＮＮＬＭ）の潜在レイヤ、出力レイヤを算出するためのパラメータΘを学習データＷと初期パラメータΘ_０に基づいて推定する（Ｓ１２）。このときパラメータ推定部１２は、パラメータΘと学習データＷとの関係の尤もらしさを表す目的関数の値が高くなるようにパラメータΘを推定する。言語モデルから学習データＷにおける次の単語を予測する精度が高い場合、目的関数の値は高くなる。本実施例では、ステップＳ１２において以下の基本モデル、およびモデル１が使用される。

＜基本モデル＞
基本モデルは、話者情報を用いない再帰的ニューラルネットワーク言語モデル（ＲＮＮＬＭ）をベースとする。
ｘ（ｔ）＝［ｗ（ｔ）^┬，ｈ（ｔ−１）^┬］^┬ …（１）
ｈ（ｔ）＝ｆ（Ｕｘ（ｔ）） …（２）
ｙ（ｔ）＝ｇ（Ｖｈ（ｔ）） …（３）
なお、┬は転置を表す。ｘ（ｔ）は時刻ｔにおける入力層（入力レイヤ）であり、時刻ｔにおける単語情報ｗ（ｔ）と１時刻前の潜在層（潜在レイヤ）であるｈ（ｔ−１）を組み合わせたベクトルである。ｈ（ｔ）は時刻ｔにおける潜在層（潜在レイヤ）である。ｙ（ｔ）は時刻ｔにおける出力層（出力レイヤ）である。出力層（出力レイヤ）は、次の単語の確率を表す語彙数次元のベクトルである。ベクトルの各要素は非負の値をとり、各要素の総和は１である。ＵとＶは線形変換行列であって、本ステップにおいて最適化されるパラメータである。ｆ（）、ｇ（）は非線形関数であり、例えば、それぞれシグモイド関数とソフトマックス関数を用いることができる。シグモイド関数、ソフトマックス関数を式（４）、式（５）に示す。

なお、関数ｆ（）はシグモイド関数でなくてもよく、任意の関数を用いることができる。関数ｇ（）は非負の値をとり、総和が１になる任意の関数を用いることができる。また基本モデルとして、２つ以上の潜在層（潜在レイヤ）を持つニューラルネットワークを用いてもよい。

＜モデル１＞
モデル１では、出力レイヤを求めるために１時刻未来の話者情報が用いられる。具体的には、
ｙ（ｔ）＝ｇ（Ｖｈ（ｔ）＋Ｖ’ｓ（ｔ＋１）） …（６）
モデル１では、出力レイヤの求め方以外は、基本モデルの式が用いられる。なお、Ｖ’は線形変換行列であって、本ステップで最適化されるパラメータである。本実施例のパラメータ推定部１２は、式（１）、式（２）、式（６）を用いて前述のパラメータＵ，Ｖ，Ｖ’を最適化し、パラメータＵ，Ｖ，Ｖ’を推定する。式（６）はすなわち、時刻ｔにおける潜在レイヤｈ（ｔ）と、時刻ｔ＋１における話者情報ｓ（ｔ＋１）に基づいて時刻ｔにおける出力レイヤｙ（ｔ）が定められるモデル（モデル１）を意味する。

従って、本実施例のパラメータ推定部１２は、時刻ｔにおける潜在レイヤｈ（ｔ）と、時刻ｔ＋１における話者情報ｓ（ｔ＋１）に基づいて時刻ｔにおける出力レイヤｙ（ｔ）が定められるモデル（モデル１、式（６））、および、基本モデルである式（２）に基づいてパラメータＵ，Ｖ，Ｖ’を最適化し、パラメータＵ，Ｖ，Ｖ’を推定する（Ｓ１２）。

ステップＳ１２では、最尤推定法に基づいてパラメータを推定する場合について記述したが、パラメータの推定には、事後確率最大法、マルコフ連鎖モンテカルロ法や変分ベイズ法などを用いることもできる。

次に、単語予測部１３は、話者情報と単語情報を含むテストデータと、ステップＳ１２で推定されたパラメータに基づいて、前述のモデル１を用いて、潜在レイヤ、出力レイヤを算出する（Ｓ１３）。

以下、単語予測部１３の詳細な構成および動作の詳細について図３、図４を参照して説明する。図３に示すように本実施例の単語予測部１３は、パラメータ取得部１３１と、話者情報取得部１３２と、入力レイヤ算出部１３３と、潜在レイヤ算出部１３４と、潜在レイヤ記憶部１３４Ａと、出力レイヤ算出部１３５を含む。

まずパラメータ取得部１３１は、ステップＳ１２で推定されたパラメータＵ，Ｖ，Ｖ’を取得する（Ｓ１３１）。次に話者情報取得部１３２は、学習データと異なるデータであるテストデータから、時刻ｔ＋１における話者情報ｓ（ｔ＋１）を取得する（Ｓ１３２）。次に、入力レイヤ算出部１３３は、式（１）を用いて、テストデータの時刻ｔにおける単語情報ｗ（ｔ）と、時刻ｔ−１における潜在レイヤｈ（ｔ−１）に基づいて、時刻ｔにおける入力レイヤｘ（ｔ）を算出する（Ｓ１３３）。ここで、潜在レイヤは、後述するステップＳ１３４において算出された後、逐次、潜在レイヤ記憶部１３４Ａに蓄積されるものとする。従って、入力レイヤ算出部１３３は、潜在レイヤ記憶部１３４Ａにアクセスすることにより、１時刻過去の潜在レイヤを取得することができる。次に、潜在レイヤ算出部１３４は、基本モデルの式（２）を用いて、時刻ｔにおける入力レイヤｘ（ｔ）と推定されたパラメータＵと非線形関数ｆ（）に基づいて、時刻ｔにおける潜在レイヤｈ（ｔ）を算出する（Ｓ１３４）。潜在レイヤ算出部１３４はｈ（ｔ）を潜在レイヤ記憶部１３４Ａに記憶する。次に、出力レイヤ算出部１３５は、式（６）を用いて、時刻ｔにおける潜在レイヤｈ（ｔ）と、時刻ｔ＋１における話者情報ｓ（ｔ＋１）と、推定されたパラメータＶ，Ｖ′と、非線形関数ｇ（）に基づいて時刻ｔにおける出力レイヤｙ（ｔ）を算出する（Ｓ１３５）。

このように、本実施例の単語予測装置１によれば、話者情報を含むモデルを考え、このモデルにおいて各パラメータを最適化する学習を行うため、学習されたパラメータと上述のモデルを用いることにより、複数人の話者を考慮して、次の単語を予測することができる。

以下図５、図６を参照して、パラメータ推定、単語予測に使用するモデルを実施例１と異なるモデルとした実施例２の単語予測装置２の構成及び動作について説明する。図５に示すように、本実施例の単語予測装置２は、初期化部１１、パラメータ推定部２２、単語予測部２３を含む。初期化部１１は、実施例１と同じである。実施例２では、上述の基本モデルと、下記のモデル２が用いられる。

＜モデル２＞
ｈ（ｔ）＝ｆ（Ｕ［ｘ（ｔ）^┬，ｓ（ｔ）^┬］^┬） …（７）
ｙ（ｔ）＝ｇ（Ｖｈ（ｔ）＋Ｖ’ｓ（ｔ＋１）） …（６）
すなわち、パラメータ推定部２２は、時刻ｔにおける入力レイヤｘ（ｔ）と時刻ｔにおける話者情報ｓ（ｔ）に基づいて時刻ｔにおける潜在レイヤｈ（ｔ）が定められる式（７）、時刻ｔにおける潜在レイヤｈ（ｔ）と時刻ｔ＋１における話者情報ｓ（ｔ＋１）に基づいて時刻ｔにおける出力レイヤｙ（ｔ）が定められる式（６）によるモデル（モデル２）に基づいてパラメータを最適化することでパラメータを推定する（Ｓ２２）。単語予測部２３は、話者情報と単語情報を含むテストデータと、推定されたパラメータに基づいて、モデル２を使用して潜在レイヤ、出力レイヤを算出する（Ｓ２３）。

以下、単語予測部２３の詳細な構成および動作の詳細について図７、図８を参照して説明する。図７に示すように本実施例の単語予測部２３は、パラメータ取得部１３１と、話者情報取得部１３２と、入力レイヤ算出部１３３と、潜在レイヤ算出部２３４と、潜在レイヤ記憶部１３４Ａと、出力レイヤ算出部１３５を含み、潜在レイヤ算出部２３４以外の構成は実施例１と同様である。

潜在レイヤ算出部２３４は、式（７）を用いて、時刻ｔにおける入力レイヤｘ（ｔ）と時刻ｔにおける話者情報ｓ（ｔ）と推定されたパラメータＵと非線形関数ｆ（）に基づいて時刻ｔにおける潜在レイヤｈ（ｔ）を算出する（Ｓ２３４）。出力レイヤ算出部１３５は実施例１と同様に、式（６）を用いて出力レイヤｙ（ｔ）を算出する（Ｓ１３５）。

以下図９、図１０を参照して、パラメータ推定、単語予測に使用するモデルを他の実施例と異なるモデルとした実施例３の単語予測装置３の構成及び動作について説明する。図９に示すように、本実施例の単語予測装置３は、初期化部１１、パラメータ推定部３２、単語予測部３３を含む。初期化部１１は、実施例１と同じである。実施例３では、上述の基本モデルと、下記のモデル３が用いられる。

＜モデル３＞
ｈ（ｔ）＝ｆ（Ｕ［ｘ（ｔ）^┬，ｓ（ｔ＋１）］^┬） …（８）
すなわち、パラメータ推定部３２は、時刻ｔにおける入力レイヤｘ（ｔ）と時刻ｔ＋１における話者情報ｓ（ｔ＋１）に基づいて時刻ｔにおける潜在レイヤｈ（ｔ）が定められる式（８）によるモデル（モデル３）に基づいてパラメータを最適化することでパラメータを推定する（Ｓ３２）。単語予測部３３は、話者情報と単語情報を含むテストデータと、推定されたパラメータに基づいて、モデル３を使用して潜在レイヤ、出力レイヤを算出する（Ｓ３３）。

以下、単語予測部３３の詳細な構成および動作の詳細について図１１、図１２を参照して説明する。図１１に示すように本実施例の単語予測部３３は、パラメータ取得部１３１と、話者情報取得部１３２と、入力レイヤ算出部１３３と、潜在レイヤ算出部３３４と、潜在レイヤ記憶部１３４Ａと、出力レイヤ算出部３３５を含み、潜在レイヤ算出部３３４、出力レイヤ算出部３３５以外の構成は実施例１と同様である。

潜在レイヤ算出部３３４は、式（８）を用いて、時刻ｔにおける入力レイヤｘ（ｔ）と時刻ｔ＋１における話者情報ｓ（ｔ＋１）と推定されたパラメータＵと非線形関数ｆ（）に基づいて時刻ｔにおける潜在レイヤｈ（ｔ）を算出する（Ｓ３３４）。出力レイヤ算出部３３５は、基本モデルの式（３）を用いて、時刻ｔにおける潜在レイヤｈ（ｔ）と推定されたパラメータＶと、非線形関数ｇ（）に基づいて時刻ｔにおける出力レイヤｙ（ｔ）を算出する（Ｓ３３５）。

以下図１３、図１４を参照して、パラメータ推定、単語予測に使用するモデルを他の実施例と異なるモデルとした実施例４の単語予測装置４の構成及び動作について説明する。図１３に示すように、本実施例の単語予測装置４は、初期化部１１、パラメータ推定部４２、単語予測部４３を含む。初期化部１１は、実施例１と同じである。実施例４では、上述の基本モデルと、下記のモデル４が用いられる。

＜モデル４＞
ｙ（ｔ）＝ｇ（Ｖｈ（ｔ）＋Ｖ’［ｓ（ｔ）^┬，ｓ（ｔ＋１）^┬］^┬） …（９）
すなわち、パラメータ推定部４２は、時刻ｔにおける潜在レイヤｈ（ｔ）と、時刻ｔにおける話者情報ｓ（ｔ）と、時刻ｔ＋１における話者情報ｓ（ｔ＋１）に基づいて時刻ｔにおける出力レイヤｙ（ｔ）が定められる式（９）によるモデル（モデル４）に基づいてパラメータを最適化することでパラメータを推定する（Ｓ４２）。単語予測部４３は、話者情報と単語情報を含むテストデータと、推定されたパラメータに基づいて、モデル４を使用して潜在レイヤ、出力レイヤを算出する（Ｓ４３）。

以下、単語予測部４３の詳細な構成および動作の詳細について図１５、図１６を参照して説明する。図１５に示すように本実施例の単語予測部４３は、パラメータ取得部１３１と、話者情報取得部１３２と、入力レイヤ算出部１３３と、潜在レイヤ算出部１３４と、潜在レイヤ記憶部１３４Ａと、出力レイヤ算出部４３５を含み、出力レイヤ算出部４３５以外の構成は実施例１と同様である。

潜在レイヤ算出部１３４は、基本モデルの式（２）を用いて、実施例１と同様に潜在レイヤを算出する（Ｓ１３４）。出力レイヤ算出部４３５は、モデル４の式（９）を用いて、時刻ｔにおける潜在レイヤｈ（ｔ）と、時刻ｔにおける話者情報ｓ（ｔ）と、時刻ｔ＋１における話者情報ｓ（ｔ＋１）と、推定されたパラメータＶ，Ｖ′と、非線形関数ｇ（）に基づいて時刻ｔにおける出力レイヤｙ（ｔ）を算出する（Ｓ４３５）。

以下図１７、図１８を参照して、パラメータ推定に使用するモデルを他の実施例と異なるモデルとした実施例５の単語予測装置５の構成及び動作について説明する。図１７に示すように、本実施例の単語予測装置５は、初期化部１１、パラメータ推定部５２、単語予測部５３を含む。初期化部１１は、実施例１と同じである。実施例５では、上述の基本モデルと、下記のモデル５が用いられる。

＜モデル５＞
ｓ（ｔ＋１）＝ｇ（Ｖ’ｈ（ｔ）） …（１０）
すなわち、パラメータ推定部５２は、時刻ｔにおける潜在レイヤｈ（ｔ）に基づいて時刻ｔ＋１における話者情報ｓ（ｔ＋１）が定められる式（１０）によるモデル（モデル５）に基づいてパラメータを最適化することでパラメータを推定する（Ｓ５２）。単語予測部５３は、少なくとも単語情報を含むテストデータと、推定されたパラメータに基づいて、基本モデルを使用して潜在レイヤ、出力レイヤを算出する（Ｓ５３）。

以下、単語予測部５３の詳細な構成および動作の詳細について図１９、図２０を参照して説明する。図１９に示すように本実施例の単語予測部５３は、パラメータ取得部１３１と、入力レイヤ算出部１３３と、潜在レイヤ算出部１３４と、潜在レイヤ記憶部１３４Ａと、出力レイヤ算出部３３５を含み、他の実施例との違いは話者情報取得部１３２が省略されている点のみであり、その他の構成要件については、実施例１、実施例３の構成要件と同じである。

潜在レイヤ算出部１３４は、基本モデルの式（２）を用いて、実施例１と同様に潜在レイヤを算出する（Ｓ１３４）。出力レイヤ算出部３３５は、基本モデルの式（３）を用いて、実施例３と同様に出力レイヤｙ（ｔ）を算出する（Ｓ３３５）。

なお単語予測部５３は、式（１０）を用いて次の時刻の話者を予測して出力する構成としてもよい。

以下図２１、図２２を参照して、パラメータ推定、単語予測に使用するモデルを他の実施例と異なるモデルとした実施例６の単語予測装置６の構成及び動作について説明する。図２１に示すように、本実施例の単語予測装置６は、初期化部１１、パラメータ推定部６２、単語予測部６３を含む。初期化部１１は、実施例１と同じである。実施例６では、上述の基本モデルと、下記のモデル６が用いられる。

＜モデル６＞
ｈ（ｔ）＝ｆ（Ｕ［ｘ（ｔ）^┬，ｓ（ｔ）^┬］^┬） …（７）
ｓ（ｔ＋１）＝ｇ（Ｖ’ｈ（ｔ）） …（１０）
すなわち、パラメータ推定部６２は、時刻ｔにおける入力レイヤｘ（ｔ）と時刻ｔにおける話者情報ｓ（ｔ）に基づいて時刻ｔにおける潜在レイヤｈ（ｔ）が定められる式（７）、時刻ｔにおける潜在レイヤｈ（ｔ）に基づいて時刻ｔ＋１における話者情報ｓ（ｔ＋１）が定められる式（１０）によるモデル（モデル６）に基づいてパラメータを最適化することでパラメータを推定する（Ｓ６２）。

単語予測部６３は、話者情報と単語情報を含むテストデータと、推定されたパラメータに基づいて、モデル６を使用して潜在レイヤ、出力レイヤを算出する（Ｓ６３）。

以下、単語予測部６３の詳細な構成および動作の詳細について図２３、図２４を参照して説明する。図２３に示すように本実施例の単語予測部６３は、パラメータ取得部１３１と、話者情報取得部１３２と、入力レイヤ算出部１３３と、潜在レイヤ算出部２３４と、潜在レイヤ記憶部１３４Ａと、出力レイヤ算出部３３５を含み、これらの構成要件は、実施例１、実施例２、実施例３の構成要件と同じである。

潜在レイヤ算出部２３４は、モデル２の式（７）を用いて、実施例２と同様に潜在レイヤを算出する（Ｓ２３４）。出力レイヤ算出部３３５は、基本モデルの式（３）を用いて、実施例３と同様に出力レイヤｙ（ｔ）を算出する（Ｓ３３５）。

なお単語予測部６３は、式（１０）を用いて次の時刻の話者を予測して出力する構成としてもよい。

＜性能評価実験＞
本発明の単語予測装置の性能を評価するため、実験を行った。評価尺度としてテストセット・パープレキシティを用いた。パープレキシティとは、情報理論的な意味での単語の平均分岐数を表わし、この値が小さいほど、言語モデルの性能が高いと評価できる。比較のため、３グラム言語モデル、ＲＮＮＬＭ（基本モデル、非特許文献１）、モデル１〜６、考察のためのモデル（モデル３のｓ（ｔ＋１）をｓ（ｔ）にしたもの）の９種類の言語モデルで評価した。ただし、モデル１〜６に関しては２種類のｓ（ｔ）について実験を行なった。

＜実験条件＞
モデルの有効性を確認するため、実際の対話を収録し得られた対話コーパスに対しパープレキシティによる評価を行った。実験に用いたデータは独自に収録した対話コーパスで、内容は特定のテーマに関して行なった議論となっている。１つのテーマに関する議論を１セッションとし、１セッション約１６分程度となっている。参加者は４〜６人で、１セッションごとに発表者が１人決められており、それ以外は質問者とする。セッションごとに参加者が同じ場合も異なる場合もある。データセットは訓練文書数、検証文書数、評価文書数から構成され、それぞれの発話数、セッション数、語彙数、単語数を表１に示す。パラメータを表２に示す。また、学習率は初期値を０．１とし、検証セットに対する対数尤度を各イテレーションごとに算出し、前イテレーションにおける対数尤度値との比が１．００３を下回った場合に半減させた。

＜実験結果＞
各モデルにおけるテストセット・パープレキシティを表３に示す。ｓ（ｔ）［役割］は、＜話者の役割＞において定めたｓ（ｔ）を用いた時の結果であり、ｓ（ｔ）［話者交代］は、＜話者の交代＞において定めたｓ（ｔ）を用いた時の結果である。

表３より確認出来ることを述べる。３グラム言語モデルより従来のＲＮＮＬＭは精度の高い言語モデルとなっている。従来のＲＮＮＬＭよりもパープレキシティの低いモデルがある。またモデルの中でも特にモデル３が良い結果となっている。話者情報ｓの種類はどちらでもパープレキシティはほとんど変わらない。

＜補記＞
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置（例えば通信ケーブル）が接続可能な通信部、ＣＰＵ（Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい）、メモリであるＲＡＭやＲＯＭ、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、ＣＰＵ、ＲＡＭ、ＲＯＭ、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、ＣＤ−ＲＯＭなどの記録媒体を読み書きできる装置（ドライブ）などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。

ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている（外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるＲＯＭに記憶させておくこととしてもよい）。また、これらのプログラムの処理によって得られるデータなどは、ＲＡＭや外部記憶装置などに適宜に記憶される。

ハードウェアエンティティでは、外部記憶装置（あるいはＲＯＭなど）に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にＣＰＵで解釈実行・処理される。その結果、ＣＰＵが所定の機能（上記、…部、…手段などと表した各構成要件）を実現する。

本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。

既述のように、上記実施形態において説明したハードウェアエンティティ（本発明の装置）における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ（Random Access Memory）、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ−Ｒ（Recordable）／ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto-Optical disc）等を、半導体メモリとしてＥＥＰ−ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

再帰的ニューラルネットワーク言語モデルにより、複数人の話者の対話データから次の単語を予測する単語予測装置であって、
前記話者の役割と前記話者の交代の少なくとも何れかを表す話者情報と、発話された単語の情報である単語情報を学習データとして取得し、前記再帰的ニューラルネットワーク言語モデルの潜在レイヤ、出力レイヤを算出するためのパラメータを前記学習データに基づいて推定するパラメータ推定部と、
前記話者情報と前記単語情報を含むテストデータと、推定された前記パラメータに基づいて、前記潜在レイヤ、前記出力レイヤを算出する単語予測部と、
を含む単語予測装置。
請求項１に記載の単語予測装置であって、
前記パラメータ推定部は、
時刻ｔにおける潜在レイヤｈ（ｔ）と、時刻ｔ＋１における話者情報ｓ（ｔ＋１）に基づいて時刻ｔにおける出力レイヤｙ（ｔ）が定められるモデルに基づいて前記パラメータを最適化することで前記パラメータを推定し、
前記単語予測部は、
時刻ｔにおける潜在レイヤｈ（ｔ）と、時刻ｔ＋１における話者情報ｓ（ｔ＋１）と、推定された前記パラメータに基づいて時刻ｔにおける出力レイヤｙ（ｔ）を算出する
単語予測装置。
請求項１に記載の単語予測装置であって、
前記パラメータ推定部は、
前記再帰的ニューラルネットワーク言語モデルの時刻ｔにおける入力レイヤｘ（ｔ）と時刻ｔにおける話者情報ｓ（ｔ）に基づいて時刻ｔにおける潜在レイヤｈ（ｔ）が定められ、時刻ｔにおける潜在レイヤｈ（ｔ）と時刻ｔ＋１における話者情報ｓ（ｔ＋１）に基づいて時刻ｔにおける出力レイヤｙ（ｔ）が定められるモデルに基づいて前記パラメータを最適化することで前記パラメータを推定し、
前記単語予測部は、
時刻ｔにおける入力レイヤｘ（ｔ）と時刻ｔにおける話者情報ｓ（ｔ）と推定された前記パラメータに基づいて時刻ｔにおける潜在レイヤｈ（ｔ）を算出し、時刻ｔにおける潜在レイヤｈ（ｔ）と時刻ｔ＋１における話者情報ｓ（ｔ＋１）と推定された前記パラメータに基づいて時刻ｔにおける出力レイヤｙ（ｔ）を算出する
単語予測装置。
請求項１に記載の単語予測装置であって、
前記パラメータ推定部は、
前記再帰的ニューラルネットワーク言語モデルの時刻ｔにおける入力レイヤｘ（ｔ）と、時刻ｔ＋１における話者情報ｓ（ｔ＋１）に基づいて時刻ｔにおける潜在レイヤｈ（ｔ）が定められるモデルに基づいて前記パラメータを最適化することで前記パラメータを推定し、
前記単語予測部は、
時刻ｔにおける入力レイヤｘ（ｔ）と、時刻ｔ＋１における話者情報ｓ（ｔ＋１）と、推定された前記パラメータに基づいて時刻ｔにおける潜在レイヤｈ（ｔ）を算出する
単語予測装置。
請求項１に記載の単語予測装置であって、
前記パラメータ推定部は、
時刻ｔにおける潜在レイヤｈ（ｔ）と、時刻ｔにおける話者情報ｓ（ｔ）と、時刻ｔ＋１における話者情報ｓ（ｔ＋１）に基づいて時刻ｔにおける出力レイヤｙ（ｔ）が定められるモデルに基づいて前記パラメータを最適化することで前記パラメータを推定し、
前記単語予測部は、
時刻ｔにおける潜在レイヤｈ（ｔ）と、時刻ｔにおける話者情報ｓ（ｔ）と、時刻ｔ＋１における話者情報ｓ（ｔ＋１）と、推定された前記パラメータに基づいて時刻ｔにおける出力レイヤｙ（ｔ）を算出する
単語予測装置。
請求項１に記載の単語予測装置であって、
前記パラメータ推定部は、
時刻ｔにおける潜在レイヤｈ（ｔ）に基づいて時刻ｔ＋１における話者情報ｓ（ｔ＋１）が定められるモデルに基づいて前記パラメータを最適化することで前記パラメータを推定する
単語予測装置。
請求項１に記載の単語予測装置であって、
前記パラメータ推定部は、
前記再帰的ニューラルネットワーク言語モデルの時刻ｔにおける入力レイヤｘ（ｔ）と時刻ｔにおける話者情報ｓ（ｔ）に基づいて時刻ｔにおける潜在レイヤｈ（ｔ）が定められ、時刻ｔにおける潜在レイヤｈ（ｔ）に基づいて時刻ｔ＋１における話者情報ｓ（ｔ＋１）が定められるモデルに基づいて前記パラメータを最適化することで前記パラメータを推定し、
前記単語予測部は、
時刻ｔにおける入力レイヤｘ（ｔ）と時刻ｔにおける話者情報ｓ（ｔ）と推定された前記パラメータに基づいて時刻ｔにおける潜在レイヤｈ（ｔ）を算出する
単語予測装置。
コンピュータを請求項１から７の何れかに記載の単語予測装置として機能させるプログラム。