JP2018021949A - 単語予測装置、プログラム - Google Patents

単語予測装置、プログラム Download PDF

Info

Publication number
JP2018021949A
JP2018021949A JP2016151061A JP2016151061A JP2018021949A JP 2018021949 A JP2018021949 A JP 2018021949A JP 2016151061 A JP2016151061 A JP 2016151061A JP 2016151061 A JP2016151061 A JP 2016151061A JP 2018021949 A JP2018021949 A JP 2018021949A
Authority
JP
Japan
Prior art keywords
time
word prediction
word
layer
parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016151061A
Other languages
English (en)
Other versions
JP6588874B2 (ja
Inventor
具治 岩田
Tomoharu Iwata
具治 岩田
小川 厚徳
Atsunori Ogawa
厚徳 小川
哲則 小林
Tetsunori Kobayashi
哲則 小林
小川 哲司
Tetsuji Ogawa
哲司 小川
幹 森岡
Miki Morioka
幹 森岡
真未 川崎
Mami Kawasaki
真未 川崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Waseda University
Nippon Telegraph and Telephone Corp
Original Assignee
Waseda University
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Waseda University, Nippon Telegraph and Telephone Corp filed Critical Waseda University
Priority to JP2016151061A priority Critical patent/JP6588874B2/ja
Publication of JP2018021949A publication Critical patent/JP2018021949A/ja
Application granted granted Critical
Publication of JP6588874B2 publication Critical patent/JP6588874B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】複数人の話者が発話していることを考慮して、次の単語を予測することができる単語予測装置を提供する。【解決手段】再帰的ニューラルネットワーク言語モデルにより、複数人の話者の対話データから次の単語を予測する単語予測装置。話者の役割と話者の交代の少なくとも何れかを表す話者情報と、発話された単語の情報である単語情報を学習データとして取得し、再帰的ニューラルネットワーク言語モデルの潜在レイヤ、出力レイヤを算出するためのパラメータを学習データに基づいて推定するパラメータ推定部と、話者情報と単語情報を含むテストデータと、推定されたパラメータに基づいて、潜在レイヤ、出力レイヤを算出する単語予測部を含む。【選択図】図1

Description

本発明は、再帰的ニューラルネットワーク言語モデル(RNNLM,Recurrent Neural Network Language Model)により、複数人の話者の対話データから次の単語を予測する単語予測装置、プログラムに関する。
従来、個人の発話データから次の単語を予測するための言語モデルは数多く提案されている(例えば非特許文献1)。
T. Mikolov and S. Kombrink and A. Deoras and L. Burget and Jan H. Cernocky: RNNLM - Recurrent Neural Network Language Modeling Toolkit, IEEE Automatic Speech Recognition and Understanding Workshop, 2011
しかしながら、複数人の話者の対話データにこれらの既存言語モデルを適用した場合、複数人の話者が発話していることを考慮できないため、予測精度が低下するという問題点があった。
そこで本発明は、複数人の話者が発話していることを考慮して、次の単語を予測することができる単語予測装置を提供することを目的とする。
本発明の単語予測装置は、再帰的ニューラルネットワーク言語モデルにより、複数人の話者の対話データから次の単語を予測する単語予測装置である。本発明の単語予測装置は、パラメータ推定部と、単語予測部を含む。
パラメータ推定部は、話者の役割と話者の交代の少なくとも何れかを表す話者情報と、発話された単語の情報である単語情報を学習データとして取得し、再帰的ニューラルネットワーク言語モデルの潜在レイヤ、出力レイヤを算出するためのパラメータを学習データに基づいて推定する。単語予測部は、話者情報と単語情報を含むテストデータと、推定されたパラメータに基づいて、潜在レイヤ、出力レイヤを算出する。
本発明の単語予測装置によれば、複数人の話者が発話したという情報を考慮して、次の単語を予測することができる。
実施例1の単語予測装置の構成を示すブロック図。 実施例1の単語予測装置の動作を示すフローチャート。 実施例1の単語予測装置の単語予測部の構成を示すブロック図。 実施例1の単語予測装置の単語予測部の動作を示すフローチャート。 実施例2の単語予測装置の構成を示すブロック図。 実施例2の単語予測装置の動作を示すフローチャート。 実施例2の単語予測装置の単語予測部の構成を示すブロック図。 実施例2の単語予測装置の単語予測部の動作を示すフローチャート。 実施例3の単語予測装置の構成を示すブロック図。 実施例3の単語予測装置の動作を示すフローチャート。 実施例3の単語予測装置の単語予測部の構成を示すブロック図。 実施例3の単語予測装置の単語予測部の動作を示すフローチャート。 実施例4の単語予測装置の構成を示すブロック図。 実施例4の単語予測装置の動作を示すフローチャート。 実施例4の単語予測装置の単語予測部の構成を示すブロック図。 実施例4の単語予測装置の単語予測部の動作を示すフローチャート。 実施例5の単語予測装置の構成を示すブロック図。 実施例5の単語予測装置の動作を示すフローチャート。 実施例5の単語予測装置の単語予測部の構成を示すブロック図。 実施例5の単語予測装置の単語予測部の動作を示すフローチャート。 実施例6の単語予測装置の構成を示すブロック図。 実施例6の単語予測装置の動作を示すフローチャート。 実施例6の単語予測装置の単語予測部の構成を示すブロック図。 実施例6の単語予測装置の単語予測部の動作を示すフローチャート。
以下の実施例で共通して用いられる用語について解説する。
<話者情報>
以下の実施例では、話者情報として、話者の役割を表す情報、話者の交代を表す情報の2種類の表現を考える。
<話者の役割>
例えば時刻tにおける話者の役割を表す情報をs(t)と表わすこととし、s(t)を以下のベクトル情報として表現する。
s(t)=[発表者/質問者,時刻tの単語が発話の先頭である/でない]
例えば、
s(t)=[1,0,0]:時刻tの単語が発話の先頭であり、その話者が発表者。
s(t)=[0,1,0]:時刻tの単語が発話の先頭であり、その話者が質問者。
s(t)=[0,0,1]:時刻tの単語が発話の先頭でない。
上記の例の場合、与えられる対話データにおける各話者に発表者と質問者の何れかの役割が割り当てられているものとする。
<話者の交代>
例えば時刻tにおける話者の交代を表す情報をs(t)と表わすこととし、s(t)を、以下のベクトル情報として表現する。
s(t)=[時刻tの単語の話者が1つ前の単語の話者と異なる/同じ,時刻tの単語が発話の先頭である/でない]
例えば、
s(t)=[1,0,0]:時刻tの単語が発話の先頭であり、その話者が1つ前の単語の話者と異なる。
s(t)=[0,1,0]:時刻tの単語が発話の先頭であり、その話者が1つ前の単語の話者と同じ。
s(t)=[0,0,1]:時刻tの単語が発話の先頭でない。
上記2種類以外にも、三つ以上の役割を考慮した表現、2つ以上前の単語の話者と同一か否かを考慮した表現、発話の先頭でないことを考慮しない表現なども考えられる。
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
以下、図1を参照して実施例1の単語予測装置の構成を説明する。図1に示すように本実施例の単語予測装置1は、初期化部11と、パラメータ推定部12と、単語予測部13を含む。初期化部11は、再帰的ニューラルネットワーク言語モデルの潜在レイヤ、出力レイヤを算出するためのパラメータΘ={U,V,V’}を初期化し、パラメータの初期値Θをパラメータ推定部12に出力する(S11)。パラメータ推定部12は、学習データWを読み込む。学習データWは、話者情報と単語情報を含むものとする。具体的には、言語モデルのパラメータを推定するための学習データWとして、
Figure 2018021949
が与えられるものとする。Tは学習データの単語数を表す。s(t)はt番目(時刻t)の単語を発話した話者の話者情報(話者の役割と話者の交代の少なくとも何れかを表す情報)を、w(t)はt番目(時刻t)に発話された単語の単語情報であって、t番目(時刻t)の単語の1−of−K表現とする。
パラメータ推定部12は、再帰的ニューラルネットワーク言語モデル(RNNLM)の潜在レイヤ、出力レイヤを算出するためのパラメータΘを学習データWと初期パラメータΘに基づいて推定する(S12)。このときパラメータ推定部12は、パラメータΘと学習データWとの関係の尤もらしさを表す目的関数の値が高くなるようにパラメータΘを推定する。言語モデルから学習データWにおける次の単語を予測する精度が高い場合、目的関数の値は高くなる。本実施例では、ステップS12において以下の基本モデル、およびモデル1が使用される。
<基本モデル>
基本モデルは、話者情報を用いない再帰的ニューラルネットワーク言語モデル(RNNLM)をベースとする。
x(t)=[w(t),h(t−1) …(1)
h(t)=f(Ux(t)) …(2)
y(t)=g(Vh(t)) …(3)
なお、┬は転置を表す。x(t)は時刻tにおける入力層(入力レイヤ)であり、時刻tにおける単語情報w(t)と1時刻前の潜在層(潜在レイヤ)であるh(t−1)を組み合わせたベクトルである。h(t)は時刻tにおける潜在層(潜在レイヤ)である。y(t)は時刻tにおける出力層(出力レイヤ)である。出力層(出力レイヤ)は、次の単語の確率を表す語彙数次元のベクトルである。ベクトルの各要素は非負の値をとり、各要素の総和は1である。UとVは線形変換行列であって、本ステップにおいて最適化されるパラメータである。f()、g()は非線形関数であり、例えば、それぞれシグモイド関数とソフトマックス関数を用いることができる。シグモイド関数、ソフトマックス関数を式(4)、式(5)に示す。
Figure 2018021949
Figure 2018021949
なお、関数f()はシグモイド関数でなくてもよく、任意の関数を用いることができる。関数g()は非負の値をとり、総和が1になる任意の関数を用いることができる。また基本モデルとして、2つ以上の潜在層(潜在レイヤ)を持つニューラルネットワークを用いてもよい。
<モデル1>
モデル1では、出力レイヤを求めるために1時刻未来の話者情報が用いられる。具体的には、
y(t)=g(Vh(t)+V’s(t+1)) …(6)
モデル1では、出力レイヤの求め方以外は、基本モデルの式が用いられる。なお、V’は線形変換行列であって、本ステップで最適化されるパラメータである。本実施例のパラメータ推定部12は、式(1)、式(2)、式(6)を用いて前述のパラメータU,V,V’を最適化し、パラメータU,V,V’を推定する。式(6)はすなわち、時刻tにおける潜在レイヤh(t)と、時刻t+1における話者情報s(t+1)に基づいて時刻tにおける出力レイヤy(t)が定められるモデル(モデル1)を意味する。
従って、本実施例のパラメータ推定部12は、時刻tにおける潜在レイヤh(t)と、時刻t+1における話者情報s(t+1)に基づいて時刻tにおける出力レイヤy(t)が定められるモデル(モデル1、式(6))、および、基本モデルである式(2)に基づいてパラメータU,V,V’を最適化し、パラメータU,V,V’を推定する(S12)。
ステップS12では、最尤推定法に基づいてパラメータを推定する場合について記述したが、パラメータの推定には、事後確率最大法、マルコフ連鎖モンテカルロ法や変分ベイズ法などを用いることもできる。
次に、単語予測部13は、話者情報と単語情報を含むテストデータと、ステップS12で推定されたパラメータに基づいて、前述のモデル1を用いて、潜在レイヤ、出力レイヤを算出する(S13)。
以下、単語予測部13の詳細な構成および動作の詳細について図3、図4を参照して説明する。図3に示すように本実施例の単語予測部13は、パラメータ取得部131と、話者情報取得部132と、入力レイヤ算出部133と、潜在レイヤ算出部134と、潜在レイヤ記憶部134Aと、出力レイヤ算出部135を含む。
まずパラメータ取得部131は、ステップS12で推定されたパラメータU,V,V’を取得する(S131)。次に話者情報取得部132は、学習データと異なるデータであるテストデータから、時刻t+1における話者情報s(t+1)を取得する(S132)。次に、入力レイヤ算出部133は、式(1)を用いて、テストデータの時刻tにおける単語情報w(t)と、時刻t−1における潜在レイヤh(t−1)に基づいて、時刻tにおける入力レイヤx(t)を算出する(S133)。ここで、潜在レイヤは、後述するステップS134において算出された後、逐次、潜在レイヤ記憶部134Aに蓄積されるものとする。従って、入力レイヤ算出部133は、潜在レイヤ記憶部134Aにアクセスすることにより、1時刻過去の潜在レイヤを取得することができる。次に、潜在レイヤ算出部134は、基本モデルの式(2)を用いて、時刻tにおける入力レイヤx(t)と推定されたパラメータUと非線形関数f()に基づいて、時刻tにおける潜在レイヤh(t)を算出する(S134)。潜在レイヤ算出部134はh(t)を潜在レイヤ記憶部134Aに記憶する。次に、出力レイヤ算出部135は、式(6)を用いて、時刻tにおける潜在レイヤh(t)と、時刻t+1における話者情報s(t+1)と、推定されたパラメータV,V′と、非線形関数g()に基づいて時刻tにおける出力レイヤy(t)を算出する(S135)。
このように、本実施例の単語予測装置1によれば、話者情報を含むモデルを考え、このモデルにおいて各パラメータを最適化する学習を行うため、学習されたパラメータと上述のモデルを用いることにより、複数人の話者を考慮して、次の単語を予測することができる。
以下図5、図6を参照して、パラメータ推定、単語予測に使用するモデルを実施例1と異なるモデルとした実施例2の単語予測装置2の構成及び動作について説明する。図5に示すように、本実施例の単語予測装置2は、初期化部11、パラメータ推定部22、単語予測部23を含む。初期化部11は、実施例1と同じである。実施例2では、上述の基本モデルと、下記のモデル2が用いられる。
<モデル2>
h(t)=f(U[x(t),s(t)) …(7)
y(t)=g(Vh(t)+V’s(t+1)) …(6)
すなわち、パラメータ推定部22は、時刻tにおける入力レイヤx(t)と時刻tにおける話者情報s(t)に基づいて時刻tにおける潜在レイヤh(t)が定められる式(7)、時刻tにおける潜在レイヤh(t)と時刻t+1における話者情報s(t+1)に基づいて時刻tにおける出力レイヤy(t)が定められる式(6)によるモデル(モデル2)に基づいてパラメータを最適化することでパラメータを推定する(S22)。単語予測部23は、話者情報と単語情報を含むテストデータと、推定されたパラメータに基づいて、モデル2を使用して潜在レイヤ、出力レイヤを算出する(S23)。
以下、単語予測部23の詳細な構成および動作の詳細について図7、図8を参照して説明する。図7に示すように本実施例の単語予測部23は、パラメータ取得部131と、話者情報取得部132と、入力レイヤ算出部133と、潜在レイヤ算出部234と、潜在レイヤ記憶部134Aと、出力レイヤ算出部135を含み、潜在レイヤ算出部234以外の構成は実施例1と同様である。
潜在レイヤ算出部234は、式(7)を用いて、時刻tにおける入力レイヤx(t)と時刻tにおける話者情報s(t)と推定されたパラメータUと非線形関数f()に基づいて時刻tにおける潜在レイヤh(t)を算出する(S234)。出力レイヤ算出部135は実施例1と同様に、式(6)を用いて出力レイヤy(t)を算出する(S135)。
以下図9、図10を参照して、パラメータ推定、単語予測に使用するモデルを他の実施例と異なるモデルとした実施例3の単語予測装置3の構成及び動作について説明する。図9に示すように、本実施例の単語予測装置3は、初期化部11、パラメータ推定部32、単語予測部33を含む。初期化部11は、実施例1と同じである。実施例3では、上述の基本モデルと、下記のモデル3が用いられる。
<モデル3>
h(t)=f(U[x(t),s(t+1)]) …(8)
すなわち、パラメータ推定部32は、時刻tにおける入力レイヤx(t)と時刻t+1における話者情報s(t+1)に基づいて時刻tにおける潜在レイヤh(t)が定められる式(8)によるモデル(モデル3)に基づいてパラメータを最適化することでパラメータを推定する(S32)。単語予測部33は、話者情報と単語情報を含むテストデータと、推定されたパラメータに基づいて、モデル3を使用して潜在レイヤ、出力レイヤを算出する(S33)。
以下、単語予測部33の詳細な構成および動作の詳細について図11、図12を参照して説明する。図11に示すように本実施例の単語予測部33は、パラメータ取得部131と、話者情報取得部132と、入力レイヤ算出部133と、潜在レイヤ算出部334と、潜在レイヤ記憶部134Aと、出力レイヤ算出部335を含み、潜在レイヤ算出部334、出力レイヤ算出部335以外の構成は実施例1と同様である。
潜在レイヤ算出部334は、式(8)を用いて、時刻tにおける入力レイヤx(t)と時刻t+1における話者情報s(t+1)と推定されたパラメータUと非線形関数f()に基づいて時刻tにおける潜在レイヤh(t)を算出する(S334)。出力レイヤ算出部335は、基本モデルの式(3)を用いて、時刻tにおける潜在レイヤh(t)と推定されたパラメータVと、非線形関数g()に基づいて時刻tにおける出力レイヤy(t)を算出する(S335)。
以下図13、図14を参照して、パラメータ推定、単語予測に使用するモデルを他の実施例と異なるモデルとした実施例4の単語予測装置4の構成及び動作について説明する。図13に示すように、本実施例の単語予測装置4は、初期化部11、パラメータ推定部42、単語予測部43を含む。初期化部11は、実施例1と同じである。実施例4では、上述の基本モデルと、下記のモデル4が用いられる。
<モデル4>
y(t)=g(Vh(t)+V’[s(t),s(t+1)) …(9)
すなわち、パラメータ推定部42は、時刻tにおける潜在レイヤh(t)と、時刻tにおける話者情報s(t)と、時刻t+1における話者情報s(t+1)に基づいて時刻tにおける出力レイヤy(t)が定められる式(9)によるモデル(モデル4)に基づいてパラメータを最適化することでパラメータを推定する(S42)。単語予測部43は、話者情報と単語情報を含むテストデータと、推定されたパラメータに基づいて、モデル4を使用して潜在レイヤ、出力レイヤを算出する(S43)。
以下、単語予測部43の詳細な構成および動作の詳細について図15、図16を参照して説明する。図15に示すように本実施例の単語予測部43は、パラメータ取得部131と、話者情報取得部132と、入力レイヤ算出部133と、潜在レイヤ算出部134と、潜在レイヤ記憶部134Aと、出力レイヤ算出部435を含み、出力レイヤ算出部435以外の構成は実施例1と同様である。
潜在レイヤ算出部134は、基本モデルの式(2)を用いて、実施例1と同様に潜在レイヤを算出する(S134)。出力レイヤ算出部435は、モデル4の式(9)を用いて、時刻tにおける潜在レイヤh(t)と、時刻tにおける話者情報s(t)と、時刻t+1における話者情報s(t+1)と、推定されたパラメータV,V′と、非線形関数g()に基づいて時刻tにおける出力レイヤy(t)を算出する(S435)。
以下図17、図18を参照して、パラメータ推定に使用するモデルを他の実施例と異なるモデルとした実施例5の単語予測装置5の構成及び動作について説明する。図17に示すように、本実施例の単語予測装置5は、初期化部11、パラメータ推定部52、単語予測部53を含む。初期化部11は、実施例1と同じである。実施例5では、上述の基本モデルと、下記のモデル5が用いられる。
<モデル5>
s(t+1)=g(V’h(t)) …(10)
すなわち、パラメータ推定部52は、時刻tにおける潜在レイヤh(t)に基づいて時刻t+1における話者情報s(t+1)が定められる式(10)によるモデル(モデル5)に基づいてパラメータを最適化することでパラメータを推定する(S52)。単語予測部53は、少なくとも単語情報を含むテストデータと、推定されたパラメータに基づいて、基本モデルを使用して潜在レイヤ、出力レイヤを算出する(S53)。
以下、単語予測部53の詳細な構成および動作の詳細について図19、図20を参照して説明する。図19に示すように本実施例の単語予測部53は、パラメータ取得部131と、入力レイヤ算出部133と、潜在レイヤ算出部134と、潜在レイヤ記憶部134Aと、出力レイヤ算出部335を含み、他の実施例との違いは話者情報取得部132が省略されている点のみであり、その他の構成要件については、実施例1、実施例3の構成要件と同じである。
潜在レイヤ算出部134は、基本モデルの式(2)を用いて、実施例1と同様に潜在レイヤを算出する(S134)。出力レイヤ算出部335は、基本モデルの式(3)を用いて、実施例3と同様に出力レイヤy(t)を算出する(S335)。
なお単語予測部53は、式(10)を用いて次の時刻の話者を予測して出力する構成としてもよい。
以下図21、図22を参照して、パラメータ推定、単語予測に使用するモデルを他の実施例と異なるモデルとした実施例6の単語予測装置6の構成及び動作について説明する。図21に示すように、本実施例の単語予測装置6は、初期化部11、パラメータ推定部62、単語予測部63を含む。初期化部11は、実施例1と同じである。実施例6では、上述の基本モデルと、下記のモデル6が用いられる。
<モデル6>
h(t)=f(U[x(t),s(t)) …(7)
s(t+1)=g(V’h(t)) …(10)
すなわち、パラメータ推定部62は、時刻tにおける入力レイヤx(t)と時刻tにおける話者情報s(t)に基づいて時刻tにおける潜在レイヤh(t)が定められる式(7)、時刻tにおける潜在レイヤh(t)に基づいて時刻t+1における話者情報s(t+1)が定められる式(10)によるモデル(モデル6)に基づいてパラメータを最適化することでパラメータを推定する(S62)。
単語予測部63は、話者情報と単語情報を含むテストデータと、推定されたパラメータに基づいて、モデル6を使用して潜在レイヤ、出力レイヤを算出する(S63)。
以下、単語予測部63の詳細な構成および動作の詳細について図23、図24を参照して説明する。図23に示すように本実施例の単語予測部63は、パラメータ取得部131と、話者情報取得部132と、入力レイヤ算出部133と、潜在レイヤ算出部234と、潜在レイヤ記憶部134Aと、出力レイヤ算出部335を含み、これらの構成要件は、実施例1、実施例2、実施例3の構成要件と同じである。
潜在レイヤ算出部234は、モデル2の式(7)を用いて、実施例2と同様に潜在レイヤを算出する(S234)。出力レイヤ算出部335は、基本モデルの式(3)を用いて、実施例3と同様に出力レイヤy(t)を算出する(S335)。
なお単語予測部63は、式(10)を用いて次の時刻の話者を予測して出力する構成としてもよい。
<性能評価実験>
本発明の単語予測装置の性能を評価するため、実験を行った。評価尺度としてテストセット・パープレキシティを用いた。パープレキシティとは、情報理論的な意味での単語の平均分岐数を表わし、この値が小さいほど、言語モデルの性能が高いと評価できる。比較のため、3グラム言語モデル、RNNLM(基本モデル、非特許文献1)、モデル1〜6、考察のためのモデル(モデル3のs(t+1)をs(t)にしたもの)の9種類の言語モデルで評価した。ただし、モデル1〜6に関しては2種類のs(t)について実験を行なった。
<実験条件>
モデルの有効性を確認するため、実際の対話を収録し得られた対話コーパスに対しパープレキシティによる評価を行った。実験に用いたデータは独自に収録した対話コーパスで、内容は特定のテーマに関して行なった議論となっている。1つのテーマに関する議論を1セッションとし、1セッション約16分程度となっている。参加者は4〜6人で、1セッションごとに発表者が1人決められており、それ以外は質問者とする。セッションごとに参加者が同じ場合も異なる場合もある。データセットは訓練文書数、検証文書数、評価文書数から構成され、それぞれの発話数、セッション数、語彙数、単語数を表1に示す。パラメータを表2に示す。また、学習率は初期値を0.1とし、検証セットに対する対数尤度を各イテレーションごとに算出し、前イテレーションにおける対数尤度値との比が1.003を下回った場合に半減させた。
Figure 2018021949
Figure 2018021949
<実験結果>
各モデルにおけるテストセット・パープレキシティを表3に示す。s(t)[役割]は、<話者の役割>において定めたs(t)を用いた時の結果であり、s(t)[話者交代]は、<話者の交代>において定めたs(t)を用いた時の結果である。
表3より確認出来ることを述べる。3グラム言語モデルより従来のRNNLMは精度の高い言語モデルとなっている。従来のRNNLMよりもパープレキシティの低いモデルがある。またモデルの中でも特にモデル3が良い結果となっている。話者情報sの種類はどちらでもパープレキシティはほとんど変わらない。
Figure 2018021949
<補記>
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD−ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている(外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくこととしてもよい)。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。
ハードウェアエンティティでは、外部記憶装置(あるいはROMなど)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にCPUで解釈実行・処理される。その結果、CPUが所定の機能(上記、…部、…手段などと表した各構成要件)を実現する。
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
既述のように、上記実施形態において説明したハードウェアエンティティ(本発明の装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (8)

  1. 再帰的ニューラルネットワーク言語モデルにより、複数人の話者の対話データから次の単語を予測する単語予測装置であって、
    前記話者の役割と前記話者の交代の少なくとも何れかを表す話者情報と、発話された単語の情報である単語情報を学習データとして取得し、前記再帰的ニューラルネットワーク言語モデルの潜在レイヤ、出力レイヤを算出するためのパラメータを前記学習データに基づいて推定するパラメータ推定部と、
    前記話者情報と前記単語情報を含むテストデータと、推定された前記パラメータに基づいて、前記潜在レイヤ、前記出力レイヤを算出する単語予測部と、
    を含む単語予測装置。
  2. 請求項1に記載の単語予測装置であって、
    前記パラメータ推定部は、
    時刻tにおける潜在レイヤh(t)と、時刻t+1における話者情報s(t+1)に基づいて時刻tにおける出力レイヤy(t)が定められるモデルに基づいて前記パラメータを最適化することで前記パラメータを推定し、
    前記単語予測部は、
    時刻tにおける潜在レイヤh(t)と、時刻t+1における話者情報s(t+1)と、推定された前記パラメータに基づいて時刻tにおける出力レイヤy(t)を算出する
    単語予測装置。
  3. 請求項1に記載の単語予測装置であって、
    前記パラメータ推定部は、
    前記再帰的ニューラルネットワーク言語モデルの時刻tにおける入力レイヤx(t)と時刻tにおける話者情報s(t)に基づいて時刻tにおける潜在レイヤh(t)が定められ、時刻tにおける潜在レイヤh(t)と時刻t+1における話者情報s(t+1)に基づいて時刻tにおける出力レイヤy(t)が定められるモデルに基づいて前記パラメータを最適化することで前記パラメータを推定し、
    前記単語予測部は、
    時刻tにおける入力レイヤx(t)と時刻tにおける話者情報s(t)と推定された前記パラメータに基づいて時刻tにおける潜在レイヤh(t)を算出し、時刻tにおける潜在レイヤh(t)と時刻t+1における話者情報s(t+1)と推定された前記パラメータに基づいて時刻tにおける出力レイヤy(t)を算出する
    単語予測装置。
  4. 請求項1に記載の単語予測装置であって、
    前記パラメータ推定部は、
    前記再帰的ニューラルネットワーク言語モデルの時刻tにおける入力レイヤx(t)と、時刻t+1における話者情報s(t+1)に基づいて時刻tにおける潜在レイヤh(t)が定められるモデルに基づいて前記パラメータを最適化することで前記パラメータを推定し、
    前記単語予測部は、
    時刻tにおける入力レイヤx(t)と、時刻t+1における話者情報s(t+1)と、推定された前記パラメータに基づいて時刻tにおける潜在レイヤh(t)を算出する
    単語予測装置。
  5. 請求項1に記載の単語予測装置であって、
    前記パラメータ推定部は、
    時刻tにおける潜在レイヤh(t)と、時刻tにおける話者情報s(t)と、時刻t+1における話者情報s(t+1)に基づいて時刻tにおける出力レイヤy(t)が定められるモデルに基づいて前記パラメータを最適化することで前記パラメータを推定し、
    前記単語予測部は、
    時刻tにおける潜在レイヤh(t)と、時刻tにおける話者情報s(t)と、時刻t+1における話者情報s(t+1)と、推定された前記パラメータに基づいて時刻tにおける出力レイヤy(t)を算出する
    単語予測装置。
  6. 請求項1に記載の単語予測装置であって、
    前記パラメータ推定部は、
    時刻tにおける潜在レイヤh(t)に基づいて時刻t+1における話者情報s(t+1)が定められるモデルに基づいて前記パラメータを最適化することで前記パラメータを推定する
    単語予測装置。
  7. 請求項1に記載の単語予測装置であって、
    前記パラメータ推定部は、
    前記再帰的ニューラルネットワーク言語モデルの時刻tにおける入力レイヤx(t)と時刻tにおける話者情報s(t)に基づいて時刻tにおける潜在レイヤh(t)が定められ、時刻tにおける潜在レイヤh(t)に基づいて時刻t+1における話者情報s(t+1)が定められるモデルに基づいて前記パラメータを最適化することで前記パラメータを推定し、
    前記単語予測部は、
    時刻tにおける入力レイヤx(t)と時刻tにおける話者情報s(t)と推定された前記パラメータに基づいて時刻tにおける潜在レイヤh(t)を算出する
    単語予測装置。
  8. コンピュータを請求項1から7の何れかに記載の単語予測装置として機能させるプログラム。
JP2016151061A 2016-08-01 2016-08-01 単語予測装置、プログラム Active JP6588874B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016151061A JP6588874B2 (ja) 2016-08-01 2016-08-01 単語予測装置、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016151061A JP6588874B2 (ja) 2016-08-01 2016-08-01 単語予測装置、プログラム

Publications (2)

Publication Number Publication Date
JP2018021949A true JP2018021949A (ja) 2018-02-08
JP6588874B2 JP6588874B2 (ja) 2019-10-09

Family

ID=61164431

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016151061A Active JP6588874B2 (ja) 2016-08-01 2016-08-01 単語予測装置、プログラム

Country Status (1)

Country Link
JP (1) JP6588874B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109858004A (zh) * 2019-02-12 2019-06-07 四川无声信息技术有限公司 文本改写方法、装置及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010013371A1 (ja) * 2008-07-28 2010-02-04 日本電気株式会社 対話音声認識システム、対話音声認識方法および対話音声認識用プログラムを格納する記憶媒体
JP2015075706A (ja) * 2013-10-10 2015-04-20 日本放送協会 誤り修正モデル学習装置、及びプログラム
JP2015102806A (ja) * 2013-11-27 2015-06-04 国立研究開発法人情報通信研究機構 統計的音響モデルの適応方法、統計的音響モデルの適応に適した音響モデルの学習方法、ディープ・ニューラル・ネットワークを構築するためのパラメータを記憶した記憶媒体、及び統計的音響モデルの適応を行なうためのコンピュータプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010013371A1 (ja) * 2008-07-28 2010-02-04 日本電気株式会社 対話音声認識システム、対話音声認識方法および対話音声認識用プログラムを格納する記憶媒体
JP2015075706A (ja) * 2013-10-10 2015-04-20 日本放送協会 誤り修正モデル学習装置、及びプログラム
JP2015102806A (ja) * 2013-11-27 2015-06-04 国立研究開発法人情報通信研究機構 統計的音響モデルの適応方法、統計的音響モデルの適応に適した音響モデルの学習方法、ディープ・ニューラル・ネットワークを構築するためのパラメータを記憶した記憶媒体、及び統計的音響モデルの適応を行なうためのコンピュータプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109858004A (zh) * 2019-02-12 2019-06-07 四川无声信息技术有限公司 文本改写方法、装置及电子设备
CN109858004B (zh) * 2019-02-12 2023-08-01 四川无声信息技术有限公司 文本改写方法、装置及电子设备

Also Published As

Publication number Publication date
JP6588874B2 (ja) 2019-10-09

Similar Documents

Publication Publication Date Title
JP6622505B2 (ja) 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム
WO2019102884A1 (ja) ラベル生成装置、モデル学習装置、感情認識装置、それらの方法、プログラム、および記録媒体
JP7268711B2 (ja) 信号処理システム、信号処理装置、信号処理方法、およびプログラム
JP2005208648A (ja) スイッチング状態空間モデルによるマルチモーダル的変分推論を使用して音声を認識する方法
CN109523056B (zh) 对象能力分类预测方法及装置、电子设备、存储介质
WO2019156101A1 (ja) 音声認識精度劣化要因推定装置、音声認識精度劣化要因推定方法、プログラム
JP2020154076A (ja) 推論器、学習方法および学習プログラム
JP2019179257A (ja) 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム
JP6845489B2 (ja) 音声処理装置、音声処理方法、および音声処理プログラム
US11797769B1 (en) Artificial intelligence system using hybrid technique for task-oriented dialog management
JP6588874B2 (ja) 単語予測装置、プログラム
JP4705557B2 (ja) 音響モデル生成装置、方法、プログラム及びその記録媒体
JP7409381B2 (ja) 発話区間検出装置、発話区間検出方法、プログラム
JP4950600B2 (ja) 音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体
JP4981579B2 (ja) 誤り訂正モデルの学習方法、装置、プログラム、このプログラムを記録した記録媒体
JP4881357B2 (ja) 音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体
WO2020162239A1 (ja) パラ言語情報推定モデル学習装置、パラ言語情報推定装置、およびプログラム
JP6988756B2 (ja) タグ推定装置、タグ推定方法、プログラム
JP6992725B2 (ja) パラ言語情報推定装置、パラ言語情報推定方法、およびプログラム
JP6728083B2 (ja) 中間特徴量計算装置、音響モデル学習装置、音声認識装置、中間特徴量計算方法、音響モデル学習方法、音声認識方法、プログラム
JP5457999B2 (ja) 雑音抑圧装置とその方法とプログラム
JP7160170B2 (ja) 音声認識装置、音声認識学習装置、音声認識方法、音声認識学習方法、プログラム
JP7028203B2 (ja) 音声認識装置、音声認識方法、プログラム
JP5956913B2 (ja) 言語モデル生成装置、言語モデル生成方法、プログラム、記録媒体
JP7464131B2 (ja) 年齢推定モデル学習装置、年齢推定モデル学習方法、プログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20160801

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180822

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20180822

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20180822

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190524

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190604

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190722

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190726

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190910

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190913

R150 Certificate of patent or registration of utility model

Ref document number: 6588874

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150