JP2020087148A

JP2020087148A - 情報処理装置、情報処理方法およびプログラム

Info

Publication number: JP2020087148A
Application number: JP2018222996A
Authority: JP
Inventors: 遼平田中; Ryohei Tanaka
Original assignee: Toshiba Corp; Toshiba Digital Solutions Corp
Current assignee: Toshiba Corp; Toshiba Digital Solutions Corp
Priority date: 2018-11-29
Filing date: 2018-11-29
Publication date: 2020-06-04
Anticipated expiration: 2038-11-29
Also published as: US11593621B2; US20200410325A1; JP7059166B2

Abstract

【課題】系列データを扱う予測モデルに対し、少ない計算量で事後確率分布の平滑化を行えるようにする。【解決手段】実施形態の情報処理装置は、１つの入力データに対してＬ個のカテゴリカル分布の系列であるカテゴリカル分布列を出力する予測モデルを用いて、第１の入力データに対応する第１のカテゴリカル分布列と、前記第１の入力データの近傍の第２の入力データに対応する第２のカテゴリカル分布列とを取得する系列予測部と、前記第１のカテゴリカル分布列におけるｉ番目のカテゴリカル分布と前記第２のカテゴリカル分布列におけるｉ番目のカテゴリカル分布との間の分布間距離を、ｉ＝１〜Ｌのそれぞれについて計算する距離計算部と、Ｌ個の前記分布間距離の総和を計算する統合部と、前記総和が小さくなるように前記予測モデルのパラメータを更新する最適化部と、を備える。【選択図】図４

Description

本発明の実施形態は、情報処理装置、情報処理方法およびプログラムに関する。

予測モデルの汎化性能向上や半教師あり学習のため、学習データとその近傍点での事後確率分布の分布間距離を最小化するように予測モデルのパラメータを更新することで、事後確率分布を平滑化する手法が知られている。事後確率分布とは、ある入力に条件づけられた出力の確率分布である。事後確率分布が平滑である状態とは、２つのデータがデータ空間で近いとき、それらに対応する事後確率も類似している状態をいう。

しかしこの方法は、系列データを扱う場合には分布間距離の計算負荷が高くなり、処理に多大な時間を要する。このため、系列データを扱う予測モデルに対し、より少ない計算量で事後確率分布の平滑化を行えるようにして、汎化性能向上や半教師あり学習を実現することが求められている。

T．Miyato，et al．"Distributional smoothing with virtual adversarial training"，arXiv preprint arXiv：1507.00677．2015． W．Hu，T．Miyato，S．Tokui，E．Matsumoto，and M．Sugiyama，"Learning Discrete Representations via Information Maximizing Self-Augmented Training"，Proceedings of the 34th International Conference on Machine Learning，Proceedings of Machine Learning Research，vol.70，pp.1558?1567，Aug．2017．

本発明が解決しようとする課題は、系列データを扱う予測モデルに対し、少ない計算量で事後確率分布の平滑化を行うことができる情報処理装置、情報処理方法およびプログラムを提供することである。

実施形態の情報処理装置は、系列予測部と、距離計算部と、統合部と、最適化部と、を備える。系列予測部は、１つの入力データに対してＬ個（Ｌは２以上の自然数）のカテゴリカル分布の系列であるカテゴリカル分布列を出力する予測モデルを用いて、第１の入力データに対応する第１のカテゴリカル分布列と、前記第１の入力データの近傍の第２の入力データに対応する第２のカテゴリカル分布列とを取得する。距離計算部は、前記第１のカテゴリカル分布列におけるｉ番目のカテゴリカル分布と前記第２のカテゴリカル分布列におけるｉ番目のカテゴリカル分布との間の分布間距離を、ｉ＝１〜Ｌのそれぞれについて計算する。統合部は、Ｌ個の前記分布間距離の総和を計算する。最適化部は、前記総和が小さくなるように前記予測モデルのパラメータを更新する。

図１は、事後確率分布の平滑化を説明する図である。図２は、事後確率分布の平滑化による効果を説明する図である。図３は、文字列認識の概要を説明する図である。図４は、実施形態に係る情報処理装置の機能的な構成例を示すブロック図である。図５は、予測モデルの事後確率分布を平滑化する処理の手順を示すフローチャートである。図６は、実施形態に係る情報処理装置のハードウェア構成例を示すブロック図である。

以下、実施形態の情報処理装置、情報処理方法およびプログラムについて、図面を参照して詳細に説明する。

＜実施形態の概要＞
本実施形態は、事後確率分布の平滑化により予測モデルの汎化性能向上や半教師あり学習を可能にする技術に関し、特に、系列データを扱う予測モデルの事後確率分布の平滑化を少ない計算量で行えるようにしたものである。予測モデルとは、入力されたデータに対するラベルを予測するために使用されるパラメータ集合と演算方法であり、予め複数のデータとラベルの組を統計的に関係づけるようにパラメータ集合を更新することで生成・学習される。

予測モデルの生成・学習の方法として、教師あり学習や半教師あり学習などが知られている。教師あり学習は、学習に用いるデータ（学習データ）すべてにクラスラベルが付与されている学習方法であり、半教師あり学習は、学習データにクラスラベルが付与されているデータ（ラベルありデータ）と付与されていないデータ（ラベルなしデータ）とが混在する学習方法である。非特許文献１に記載されたVirtual Adversarial Trainingは、学習データとその近傍点での事後確率分布の分布間距離を最小化するように予測モデルのパラメータを更新ことで、事後確率分布を平滑化するものである。

非特許文献１に記載されたVirtual Adversarial Trainingによる事後確率分布の平滑化について、図１を参照して説明する。図１では、予測モデルの事後確率分布ｐ（ｙ｜ｘ）を仮想的に縦軸方向の一次元で表し、入力データｘのデータ空間（入力データ空間）を横軸方向の一次元で表している。Virtual Adversarial Trainingは、予測モデルの事後確率分布ｐ（ｙ｜ｘ）が学習データｘ_ｎの近傍で滑らかになるように、学習データｘ_ｎが入力として与えられたときの予測モデルの事後確率分布ｐ（・｜ｘ_ｎ）と、その学習データｘ_ｎの近傍のデータｘ_ｎ＋ｒが入力として与えられたときの予測モデルの事後確率分布ｐ（・｜ｘ_ｎ＋ｒ）との間の分布間距離Ｄｉｓｔ（ｐ（・｜ｘ_ｎ）｜｜ｐ（・｜ｘ_ｎ＋ｒ））を計算し、この分布間距離Ｄｉｓｔ（ｐ（・｜ｘ_ｎ）｜｜ｐ（・｜ｘ_ｎ＋ｒ））を最小化するように予測モデルのパラメータを更新する。

Virtual Adversarial Trainingでは、予測モデルの事後確率分布を平滑化するために学習データｘ_ｎのクラスラベルの情報は不要である。つまり、Virtual Adversarial Trainingは、学習データｘ_ｎとしてラベルなしデータを利用できる半教師あり学習である。

図２は、事後確率分布の平滑化による効果を説明する図である。ここでは、説明を簡単にするため、黒□のクラスと黒△のクラスの２クラス分類の例を挙げる。また、入力データ空間（図１と同様に横軸方向の一次元で表す）において、例えば図２（ａ）に示すように学習データが存在しているものとする。このとき、ラベルありデータのみを用いた教師あり学習によって予測モデルを生成すると、その予測モデルの事後確率分布が変化する位置（識別境界）が、図２（ｂ）に示すように黒□のクラスラベルが付与されたラベルありデータ側に偏った位置になったり、逆に図２（ｃ）に示すように黒△のクラスラベルが付与されたラベルありデータ側に偏った位置になったりする場合がある。

これに対し、ラベルなしデータを学習データに含めてVirtual Adversarial Trainingによる事後確率分布の平滑化を行うと、それぞれのラベルなしデータの近傍で予測モデルの事後確率分布が平滑化されることにより、図２（ｄ）に示すように、入力データ空間において学習データが疎らな空間で事後確率分布が大きく変化するように、予測モデルが最適化されていく。これにより、ノイズに対して頑健で汎化性能の高い予測モデルを得ることができる。

Virtual Adversarial Trainingは、このように予測モデルの汎化性能向上を図る上で有効な方法であるが、系列データを対象とした場合には、事後確率分布およびその分布間距離の計算負荷が高いことが課題である。すなわち、単一のラベルを予測する問題では、事後確率分布はクラス数Ｎ_ｃのカテゴリカル分布であり、事後確率分布およびその分布間距離を求めることは難しくない。しかし、文字列認識や音声認識など、ラベル系列を予測する問題では、事後確率分布はすべてのラベル列の組み合わせのカテゴリカル分布となる。ラベル列の組み合わせは系列長に対して指数関数的に増大するため、事後確率分布およびそれらの分布間距離の計算量は膨大となる。

なお、カテゴリカル分布は、以下の式で表される確率分布である。

ただし、ｙ＝｛ｙ_０，ｙ_１，・・・，ｙ_Ｎｃ−１｝は１要素だけ“１”で残りの要素が“０”のone-hotなＮ_ｃ次元のベクトル、π_ｉはΣ_ｉ＜Ｎｃπ_ｉ＝１、π_ｉ≧０を満たすパラメータである。Ｎ_ｃはカテゴリ数である。カテゴリカル分布はカテゴリ分布とも呼ばれる。

図３は、文字列認識の概要を説明する図である。文字列認識では、図３に示すように、入力データｘとして文字列画像が予測モデルに入力される。予測モデルは、入力された文字列画像からＬ個の特徴ベクトルを抽出し、ブランクシンボルや連続するシンボルを含むＬ個のシンボルごとのカテゴリカル分布を計算してその系列を出力する。そして、後述のＣＴＣ（Connectionist Temporal Classification）デコーダにより、シンボルごとのカテゴリカル分布の系列を文字列の事後確率分布に変換し、最尤推定により文字列を予測する。

ここで、予測モデルがブランクを含むクラス数Ｎ_ｃのカテゴリカル分布の系列ｐ^ｃ _１，・・・，ｐ^ｃ _Ｌを出力するとき、文字列ｗの事後確率分布ｐ^ｗ（ｗ）は、以下のように計算できる。

ただし、Ｓ＝ｓ_１，・・・，ｓ_Ｌは、ブランクを含むラベル列、ｐ^ｃ _ｉ（ｋ）はカテゴリカル分布ｐ^ｃ _ｉにおけるラベルｋ（０≦ｋ＜Ｎ_ｃ）の確率、ＢはＣＴＣデコーダである。ＣＴＣデコーダは、長さＬの入力ラベル列を、長さＬ以下の任意の長さのラベル列に変換する処理であり、入力ラベル列のブランクの除去と連続するラベルの除去を行う。例えば“−”をブランクラベルとして、Ｂ（“−ａａ−−ｂ−ｂ”）＝“ａｂｂ”である。また、例えばＬ＝３のとき、Ｂ^−１（“ａｂ”）＝｛“ａａｂ”，“ａｂｂ”，“−ａｂ”，“ａ−ｂ”，“ａｂ−”｝である。

ここで、２つのカテゴリカル分布の系列ｐ^ｃ _１，・・・ｐ^ｃ _Ｌとｑ^ｃ _１，・・・，ｑ^ｃ _Ｌが与えられたとき、ｐ^ｃ _１，・・・ｐ^ｃ _Ｌに対応する文字列の事後確率分布ｐ^ｗと、ｑ^ｃ _１，・・・，ｑ^ｃ _Ｌに対応する文字列の事後確率分布ｑ^ｗとの間のＫＬダイバージェンスＤ_ＫＬ（ｐ^ｗ｜｜ｑ^ｗ）は、以下のように求められる。なお、ＫＬダイバージェンスは確率分布間距離の一種として知られている指標である。

Ｄ^ｗはブランクを含む長さＬのラベル列からＣＴＣデコーダ（上記Ｂ）によって変換され得るラベル列の集合を表す。Ｄ^ｗの要素数はＯ（Ｎ_ｃ ^Ｌ）のため、計算コストが非常に高くなる。

そこで、本実施形態では、ラベル列の事後確率分布は複数の小規模なカテゴリカル分布の積および和で表される点に注目する。それらの小規模なカテゴリカル分布間の距離の総和はラベル列の事後確率分布間の距離の上界を抑えるため、この値を最小化することで真の事後確率分布の分布間距離の近似的な最小化（最適化）が実現できる。小規模なカテゴリカル分布間の距離は低コストで計算できるため、全体として低コストで事後確率分布を近似的に平滑化できる。

すなわち、本実施形態では、

を最小化する。なお、

である。
これは、一般に以下の式が成り立つためである。

Ｄ_ＫＬ（ｐ^ｗ｜｜ｑ^ｗ）を求めるためにはＯ（Ｎ_ｃ ^Ｌ）回の四則演算、対数演算が必要であるのに対し、

は、Ｏ（Ｎ_ｃ×Ｌ）回の四則演算、対数演算で求めることができる。

以上のように、本実施形態では、ラベル列を予測する予測モデルの事後確率分布を平滑化するに際し、ラベル列の事後確率分布の分布間距離ではなく、事後確率分布の構成要素である複数の小規模なカテゴリカル分布それぞれの分布間距離の和を最小化するように、予測モデルのパラメータを更新する。これにより、高速、低計算量で事後確率分布を平滑化することができ、予測モデルの汎化性能向上や半教師あり学習を実現できる。

＜第１実施形態＞
図４は、本実施形態に係る情報処理装置の機能的な構成例を示すブロック図である。本実施形態の情報処理装置は、予測モデル１０を用いて系列データの認識を行う認識システムにおいて、予測モデル１０の事後確率分布を学習データの近傍で平滑化することで、予測モデル１０の汎化性能を向上させるものである。この情報処理装置は、予測モデル１０の事後確率分布の平滑化を実現するための機能的な構成要素として、図４に示すように、入力受付部１と、系列予測部２と、距離計算部３と、統合部４と、最適化部５とを備える。

入力受付部１は、任意の学習データの入力を受け付ける。学習データはラベルなしデータでよい。入力受付部１が入力を受け付けた学習データを「第１の入力データ」と呼ぶ。文字列認識の場合、第１の入力データは文字列画像であり、音声認識の場合、第１の入力データは音声データである。

系列予測部２は、予測モデル１０を用いて、入力データに対応するカテゴリカル分布の系列を取得する。予測モデル１０は、１つの入力データに対してＬ個（Ｌは２以上の自然数）のカテゴリカル分布の系列であるカテゴリカル分布列を出力する。Ｌは入力データの長さによって異なる。入力データの長さとは、例えば、文字列画像の場合は文字列方向の画像サイズ（画素数）であり、音声認識の場合は時間である。系系列予測部２は、入力受付部１から第１の入力データを受け取り、この第１の入力データを予測モデル１０に入力して第１の入力データに対応する第１のカテゴリカル分布列を取得する。また、系列予測部２は、第１の入力データの近傍のデータ、つまり、入力データ空間において第１の入力データに近いデータ（これを「第２の入力データ」と呼ぶ）を生成し、この第２の入力データを予測モデル１０に入力して第２の入力データに対応する第２のカテゴリカル分布列を取得する。なお、第２の入力データの長さは第１の入力データに等しく、したがって、対応するカテゴリカル分布の数はＬ個である。

距離計算部３は、第１のカテゴリカル分布列におけるｉ番目のカテゴリカル分布と第２のカテゴリカル分布列におけるｉ番目のカテゴリカル分布との間の分布間距離を、ｉ＝１〜Ｌのそれぞれについて計算する。つまり、距離計算部３は、第１のカテゴリカル分布列と第２のカテゴリカル分布列との間で、系列中の順番（位置）が共通するカテゴリカル分布同士の分布間距離を、系列の要素数（系列長）であるＬ個分計算する。

統合部４は、距離計算部３により計算されたＬ個の分布間距離の総和、つまり、第１のカテゴリカル分布列と第２のカテゴリカル分布列との間で、系列中の順番（位置）が共通するカテゴリカル分布同士の分布間距離の総和を計算する。

最適化部５は、統合部４により計算されたＬ個の分布間距離の総和、つまり、第１のカテゴリカル分布列と第２のカテゴリカル分布列との間で、系列中の順番（位置）が共通するカテゴリカル分布同士の分布間距離の総和が小さくなるように、予測モデル１０のパラメータを更新する。

以下では、本実施形態に係る情報処理装置を、文字列画像を入力として対応する文字列を予測する文字列認識システムに適用した例を想定し、予測モデル１０の事後確率分布を平滑化する処理の具体的について更に詳しく説明する。なお、後述のように、入力データから抽出する特徴ベクトルを認識対象に応じて変更することで、音声認識などの他の系列データの認識システムにも容易に適用可能である。

予測モデル１０は、入力画像ｘから特定の領域に対応するＬ個の特徴ベクトルを抽出する。Ｌは、入力画像ｘの文字列方向の長さによって決定される。音声認識への適用を考えた場合には、これらの特徴ベクトルを、特定区間の音声から抽出された音響特徴ベクトルに置き換えればよい。パラメータθの予測モデル１０は、それらのＬ個の特徴ベクトルを系列データとみなし、再帰的ニューラルネットワークを用いてＬ個のカテゴリカル分布の系列であるカテゴリカル分布列ｐ^ｃ _１（・｜ｘ，θ），・・・，ｐ^ｃ _Ｌ（・｜ｘ，θ）を出力する。

再帰的ニューラルネットワークとは、１つの入力に対し、１つの予測値を出力する機能に加えて、次の予測のための内部状態を保持する機能を備えたニューラルネットワークである。２回目以降の予測に際しては、本来の入力に加えて前回予測時の内部状態も加味して予測を行う。本実施形態では、予測モデル１０が、出力されるカテゴリカル分布列ｐ^ｃ _１（・｜ｘ，θ），・・・，ｐ^ｃ _Ｌ（・｜ｘ，θ）において隣接するカテゴリカル分布同士が相互に影響を与え合う再帰的な結合を含む再帰的ニューラルネットワークを用いて構成されるものとする。

予測モデル１０が出力するカテゴリカル分布列ｐ^ｃ _１（・｜ｘ，θ），・・・，ｐ^ｃ _Ｌ（・｜ｘ，θ）を用いて、入力画像ｘに対応する文字列ｗの尤度は以下の式で求められる。

教師あり学習により予測モデル１０のパラメータθを更新する場合、すべての学習データ（ラベルありデータ）に対して正解文字列の負の対数尤度Ｌｏｓｓ_ｓｌを損失関数として、損失関数を小さくするように逐次的にパラメータθを更新する。予測モデル１０の事後確率分布の平滑化を行う場合は、上記のＬｏｓｓ_ｓｌに加えて、学習データｘ_ｎ（第１の入力データｘ_１）とその近傍の点ｘ_ｎ＋ｒ（第２の入力データｘ_２）で事後確率分布の分布間距離が小さくなるように予測モデル１０のパラメータθを更新する。すべての学習データｘ_ｎおよび近傍の点ｘ_ｎ＋ｒでの事後確率分布の分布間距離の総和をＬｏｓｓ_{ｓｍｏｏｔｈ}とすると、最終的には、Ｌｏｓｓ_ｓｌとＬｏｓｓ_{ｓｍｏｏｔｈ}の双方を最小化するように予測モデル１０のパラメータθを更新する。

Ｌｏｓｓ_ｓｌとＬｏｓｓ_{ｓｍｏｏｔｈ}の双方を最小化するには、それぞれ交互にパラメータθを更新してもよいし、下記の合算値を新たな損失関数としてパラメータθを更新してもよい。
Ｌｏｓｓ＝Ｌｏｓｓ_ｓｌ＋λＬｏｓｓ_{ｓｍｏｏｔｈ}
ただし、λは予め決定されるハイパパラメータである。

以下では、Ｌｏｓｓ_ｓｌを最小化するパラメータθの更新とＬｏｓｓ_{ｓｍｏｏｔｈ}を最小化するパラメータθの更新とを交互に行うことを想定し、本実施形態に係る情報処理装置の処理手順について、図５を参照しながら説明する。図５は、本実施形態に係る情報処理装置が予測モデル１０の事後確率分布を平滑化する処理の手順を示すフローチャートである。この図５のフローチャートで示す一連の処理は、入力受付部１が学習データ（第１の入力データ）の入力を受け付けることにより開始される。

図５のフローチャートで示す一連の処理が開始されると、まず、系列予測部２が、第１の入力データｘ_１を入力受付部１から受け取り（ステップＳ１０１）、この第１の入力データをもとに第２の入力データｘ_２を生成する（ステップＳ１０２）。ここで、第２の入力データｘ_２は、第１の入力データｘ_１と同じ次元数のランダムなベクトルｄと、予め決められたハイパパラメータεとを用いて、
ｘ_２＝ｘ_１＋ε×ｄ／｜ｄ｜
で求められる。

次に、系列予測部２は、第１の入力データｘ_１を予測モデル１０に入力して、第１の入力データｘ_１に対応するＬ個のカテゴリカル分布の系列である第１のカテゴリカル分布列ｐ^ｃ _１（・｜ｘ_１，θ），・・・，ｐ^ｃ _Ｌ（・｜ｘ_１，θ）を取得するとともに、第２の入力データｘ_２を予測モデル１０に入力して、第２の入力データｘ_２に対応するＬ個のカテゴリカル分布の系列である第２のカテゴリカル分布列ｐ^ｃ _１（・｜ｘ_２，θ），・・・，ｐ^ｃ _Ｌ（・｜ｘ_２，θ）を取得する（ステップＳ１０３）。

次に、距離計算部３が、第１のカテゴリカル分布列ｐ^ｃ _１（・｜ｘ_１，θ），・・・，ｐ^ｃ _Ｌ（・｜ｘ_１，θ）におけるｉ番目のカテゴリカル分布ｐ^ｃ _ｉ（・｜ｘ_１，θ）と、第２のカテゴリカル分布列ｐ^ｃ _１（・｜ｘ_２，θ），・・・，ｐ^ｃ _Ｌ（・｜ｘ_２，θ）におけるｉ番目のカテゴリカル分布ｐ^ｃ _ｉ（・｜ｘ_２，θ）との間の分布間距離を計算する（ステップＳ１０４）。ここで、カテゴリカル分布同士の分布間距離としてＫＬダイバージェンスを計算する場合、分布間距離Ｄ_ＫＬ（ｐ^ｃ _ｉ（・｜ｘ_１，θ）｜｜ｐ^ｃ _ｉ（・｜ｘ_２，θ））は以下の式で求められる。

ただし、Ｎ_ｃはブランクを含むクラス数である。

距離計算部３は、ｉ＝１〜Ｌのそれぞれについて分布間距離Ｄ_ＫＬ（ｐ^ｃ _ｉ（・｜ｘ_１，θ）｜｜ｐ^ｃ _ｉ（・｜ｘ_２，θ））が計算されるまで（ステップＳ１０５：Ｎｏ）、ステップＳ１０４の計算を繰り返す。そして、すべてのｉについてステップＳ１０４の計算が終了すると（ステップＳ１０５：Ｙｅｓ）、統合部４が、ステップＳ１０４で計算されたＬ個の分布間距離Ｄ_ＫＬ（ｐ^ｃ _ｉ（・｜ｘ_１，θ）｜｜ｐ^ｃ _ｉ（・｜ｘ_２，θ））の総和を計算し（ステップＳ１０６）、これをＬｏｓｓ_{ｓｍｏｏｔｈ}とする。

最後に、最適化部５が、ステップＳ１０６で計算された総和、つまりＬｏｓｓ_{ｓｍｏｏｔｈ}を最小化するように予測モデル１０のパラメータθを更新し（ステップＳ１０７）、図５のフローチャートで示す一連の処理が終了する。予測モデル１０のパラメータθの更新は、例えば確率勾配法を用いて実現することができる。つまり、ステップＳ１０６で計算された総和（Ｌｏｓｓ_{ｓｍｏｏｔｈ}）を予測モデル１０のパラメータθでそれぞれ微分し、その微分係数に応じて、ステップＳ１０６で計算された総和（Ｌｏｓｓ_{ｓｍｏｏｔｈ}）が小さくなるようにパラメータθを更新する。

以上、具体的な例を挙げながら詳細に説明したように、本実施形態では、予測モデル１０の事後確率分布を学習データの近傍で平滑化するに際し、学習データとその近傍点での事後確率分布の分布間距離を最小化するのではなく、事後確率分布の構成要素である複数の小規模なカテゴリカル分布それぞれの分布間距離の和を最小化するように、予測モデル１０のパラメータを更新するようにしている。したがって、本実施形態によれば、系列データを扱う予測モデル１０に対し、少ない計算量で事後確率分布の平滑化を行うことができ、予測モデル１０の汎化性能向上や半教師あり学習を実現することができる。

＜第２実施形態＞
本実施形態は、第２の入力データｘ_２の求め方が上述の第１実施形態と異なる。すなわち、上述の第１実施形態では、入力データ空間において第１の入力データｘ_１から所定距離εだけ離れたデータの中から第２の入力データｘ_２がランダムに選ばれたが、本実施形態では、入力データ空間において第１の入力データｘ_１から所定距離εだけ離れたデータのうち、上述の総和（Ｌｏｓｓ_{ｓｍｏｏｔｈ}）が最大となるデータを第２の入力データｘ_２とする。

本実施形態では、第１の入力データｘ_１から所定距離εだけ離れたデータのうち、

を最大にするものを第２の入力データｘ_２として選択する。このような第２の入力データｘ_２は、例えば、非特許文献１に記載の方法により求めることができる。すなわち、第１の入力データｘ_１と同じ次元数のランダムなベクトルｄを初期値とし、

をＩ_ｐ回繰り返すことによって得られるｄを用いて、
ｘ_２＝ｘ_１＋ε×ｄ／｜ｄ｜
により第２の入力データｘ_２を近似的に求めることができる。なお、ξ、Ｉｐは予め決められた定数である。

以上のように、本実施形態では、入力データ空間において第１の入力データｘ_１から所定距離εだけ離れたデータのうち、上述の総和（Ｌｏｓｓ_{ｓｍｏｏｔｈ}）が最大となるデータを第２の入力データｘ_２として用いるようにしているので、上述の第１実施形態と比較して高度な計算が必要になるが、予測モデル１０のパラメータθが適切な値に効率よく収束していくことが期待できる。

なお、上述の第１実施形態および第２実施形態では、第１の入力データｘ_１と第２の入力データｘ_２との間の距離εはハイパパラメータとして予め決められているものとしたが、学習データの密集度に基づいて距離εを機械的に求めるようにしてもよい。すなわち、予測モデル１０の学習に用いる複数の学習データのうち、第１の入力データｘ_１に対してｔ番目（ｔは予め定めた任意の自然数）に近い学習データと第１の入力データｘ_１との間の入力データ空間における距離Ｄｔをεとしてもよい。この場合、第２の入力データｘ_２は、入力データ空間において第１の入力データｘ１からＤｔだけ離れたデータである。例えば、ｔ＝１０として距離εを求めることが非特許文献２に記載されている。

このように、第１の入力データｘ_１と第２の入力データｘ_２との間の距離εを学習データの密集度に基づいて決めることにより、予測モデル１０の事後確率分布の平滑化をより効率的に行えるようになる。

＜第３実施形態＞
本実施形態は、カテゴリカル分布同士の分布間距離の計算方法が上述の第１実施形態と異なる。すなわち、上述の第１実施形態では、カテゴリカル分布同士の分布間距離としてＫＬダイバージェンスを計算したが、本実施形態では、カテゴリカル分布同士の分布間距離として二乗誤差を計算する。

本実施形態の距離計算部３は、第１のカテゴリカル分布列ｐ^ｃ _１（・｜ｘ_１，θ），・・・，ｐ^ｃ _Ｌ（・｜ｘ_１，θ）におけるｉ番目のカテゴリカル分布ｐ^ｃ _ｉ（・｜ｘ_１，θ）と、第２のカテゴリカル分布列ｐ^ｃ _１（・｜ｘ_２，θ），・・・，ｐ^ｃ _Ｌ（・｜ｘ_２，θ）におけるｉ番目のカテゴリカル分布ｐ^ｃ _ｉ（・｜ｘ_２，θ）との間の分布間距離として、二乗誤差を用いた分布間距離Ｄ_ＳＱ（ｐ^ｃ _ｉ（・｜ｘ_１，θ）｜｜ｐ^ｃ _ｉ（・｜ｘ_２，θ））を、ｉ＝１〜Ｌのそれぞれについて計算する。分布間距離Ｄ_ＳＱ（ｐ^ｃ _ｉ（・｜ｘ_１，θ）｜｜ｐ^ｃ _ｉ（・｜ｘ_２，θ））は以下の式で求められる。

ただし、Ｎ_ｃはブランクを含むクラス数である。

本実施形態の統合部４は、距離計算部３により計算されたＬ個の分布間距離Ｄ_ＳＫ（ｐ^ｃ _ｉ（・｜ｘ_１，θ）｜｜ｐ^ｃ _ｉ（・｜ｘ_２，θ））の総和を計算し、これをＬｏｓｓ_{ｓｍｏｏｔｈ}とする。

以上のように、本実施形態では、カテゴリカル分布同士の分布間距離としてＫＬダイバージェンスではなく二乗誤差を用いるようにしているので、損失関数の勾配が緩やかになり、予測モデル１０のパラメータθがより適切な値に収束する可能性がある。

なお、カテゴリカル分布同士の分布間距離としてＫＬダイバージェンスと二乗誤差のどちらを用いた場合に予測モデル１０の汎化性能が向上するかは、予測モデル１０の現在の性能やどういった学習データが用いられるかなど、様々な要因によって異なる。そこで、カテゴリカル分布同士の分布間距離としてＫＬダイバージェンスを用いてパラメータθを更新した予測モデル１０の性能と、カテゴリカル分布同士の分布間距離として二乗誤差を用いてパラメータθを更新した予測モデル１０の性能とを、評価用データを用いて実際に評価して、評価値が高い方の予測モデル１０を採用するようにしてもよい。

＜補足説明＞
上述した各実施形態の情報処理装置は、例えば、汎用のコンピュータを基本ハードウェアとして用いることで実現可能である。すなわち、上述の情報処理装置の各部の機能は、汎用のコンピュータに搭載された１以上のプロセッサにプログラムを実行させることにより実現することができる。このとき、情報処理装置は、上記のプログラムをコンピュータに予めインストールすることで実現してもよいし、コンピュータ読み取り可能な記憶媒体に上記のプログラムを記憶して、あるいはネットワークを介して上記のプログラムを配布して、このプログラムをコンピュータに適宜インストールすることで実現してもよい。

図６は、上述した各実施形態の情報処理装置のハードウェア構成例を示すブロック図である。情報処理装置は、例えば図６に示すように、ＣＰＵ（Central Processing Unit）などのプロセッサ１０１と、ＲＡＭ（Random Access Memory）やＲＯＭ（Read Only Memory）などのメモリ１０２と、ＨＤＤ（Hard Disk Drive）やＳＳＤ（Solid State Drive）などのストレージデバイス１０３と、液晶パネルなどの表示装置１０６やキーボードやポインティングデバイスなどの入力装置１０７といった機器を接続するための機器Ｉ／Ｆ１０４と、装置外部と通信を行う通信Ｉ／Ｆ１０５と、これら各部を接続するバス１０８とを備えた一般的なコンピュータとしてのハードウェア構成を有する。

上述した各実施形態の情報処理装置を図６に示すハードウェア構成により実現する場合、例えば、プロセッサ１０１がメモリ１０２を利用して、ストレージデバイス１０３などに格納されたプログラムを読み出して実行することにより、上述の入力受付部１、系列予測部２、距離計算部３、統合部４および最適化部５などの各部の機能を実現することができる。また、上述の予測モデル１０は、例えばストレージデバイス１０３などに格納しておき、適宜ＲＡＭなどのメモリ１０２に読み出して系列予測部２による処理に利用したり、最適化部５により更新したりすることができる。

なお、上述の各実施形態の情報処理装置の各部の機能は、その一部または全部を、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field-Programmable Gate Array）などの専用のハードウェア（汎用のプロセッサではなく専用のプロセッサ）により実現することもできる。また、複数のプロセッサを用いて上述した各部の機能を実現する構成であってもよい。また、上述の各実施形態の情報処理装置は、単一のコンピュータにより実現する場合に限らず、複数のコンピュータに機能を分散して実現することもできる。

以上、本発明の実施形態を説明したが、この実施形態は例として提示したものであり、発明の範囲を限定することは意図していない。この新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１入力受付部
２系列予測部
３距離計算部
４統合部
５最適化部
１０予測モデル

Claims

１つの入力データに対してＬ個（Ｌは２以上の自然数）のカテゴリカル分布の系列であるカテゴリカル分布列を出力する予測モデルを用いて、第１の入力データに対応する第１のカテゴリカル分布列と、前記第１の入力データの近傍の第２の入力データに対応する第２のカテゴリカル分布列とを取得する系列予測部と、
前記第１のカテゴリカル分布列におけるｉ番目のカテゴリカル分布と前記第２のカテゴリカル分布列におけるｉ番目のカテゴリカル分布との間の分布間距離を、ｉ＝１〜Ｌのそれぞれについて計算する距離計算部と、
Ｌ個の前記分布間距離の総和を計算する統合部と、
前記総和が小さくなるように前記予測モデルのパラメータを更新する最適化部と、
を備える情報処理装置。
前記予測モデルは、出力される前記カテゴリカル分布列において隣接するカテゴリカル分布同士が相互に影響を与え合う再帰的な結合を含む再帰的ニューラルネットワークを用いて構成される
請求項１に記載の情報処理装置。
前記最適化部は、確率的勾配法を用いて、前記総和が小さくなるように前記予測モデルのパラメータを更新する
請求項１または２に記載の情報処理装置。
前記第２の入力データは、入力データ空間において前記第１の入力データから所定距離離れたデータである
請求項１乃至３のいずれか一項に記載の情報処理装置。
前記第２の入力データは、入力データ空間において前記第１の入力データから所定距離離れたデータのうち、前記総和が最大となるデータである
請求項４に記載の情報処理装置。
前記予測モデルの学習に用いる複数の学習データのうち、前記第１の入力データに対してｔ番目（ｔは予め定めた任意の自然数）に近い学習データと前記第１の入力データとの間の入力データ空間における距離をＤｔとしたときに、
前記第２の入力データは、入力データ空間において前記第１の入力データからＤｔだけ離れたデータである
請求項１乃至３のいずれか一項に記載の情報処理装置。
前記距離計算部は、前記分布間距離として、カテゴリカル分布間のＫＬダイバージェンスまたはカテゴリカル分布間の二乗誤差を計算する
請求項１乃至６のいずれか一項に記載の情報処理装置。
１つの入力データに対してＬ個（Ｌは２以上の自然数）のカテゴリカル分布の系列であるカテゴリカル分布列を出力する予測モデルを用いて、第１の入力データに対応する第１のカテゴリカル分布列と、前記第１の入力データの近傍の第２の入力データに対応する第２のカテゴリカル分布列とを計算するステップと、
前記第１のカテゴリカル分布列におけるｉ番目のカテゴリカル分布と前記第２のカテゴリカル分布列におけるｉ番目のカテゴリカル分布との間の分布間距離を、ｉ＝１〜Ｌのそれぞれについて計算するステップと、
Ｌ個の前記分布間距離の総和を計算するステップと、
前記総和が小さくなるように前記予測モデルのパラメータを更新するステップと、
を含む情報処理方法。
コンピュータに、
１つの入力データに対してＬ個（Ｌは２以上の自然数）のカテゴリカル分布の系列であるカテゴリカル分布列を出力する予測モデルを用いて、第１の入力データに対応する第１のカテゴリカル分布列と、前記第１の入力データの近傍の第２の入力データに対応する第２のカテゴリカル分布列とを計算する機能と、
前記第１のカテゴリカル分布列におけるｉ番目のカテゴリカル分布と前記第２のカテゴリカル分布列におけるｉ番目のカテゴリカル分布との間の分布間距離を、ｉ＝１〜Ｌのそれぞれについて計算する機能と、
Ｌ個の前記分布間距離の総和を計算する機能と、
前記総和が小さくなるように前記予測モデルのパラメータを更新する機能と、
を実現させるためのプログラム。