JP6933264B2

JP6933264B2 - ラベル生成装置、モデル学習装置、感情認識装置、それらの方法、プログラム、および記録媒体

Info

Publication number: JP6933264B2
Application number: JP2019555260A
Authority: JP
Inventors: 厚志安藤; 歩相名神山; 哲小橋川
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2017-11-21
Filing date: 2018-11-12
Publication date: 2021-09-08
Anticipated expiration: 2038-11-12
Also published as: US11551708B2; JPWO2019102884A1; WO2019102884A1; US20200302953A1

Description

本発明は、発話者の感情を認識する技術に関する。

発話からの発話者の感情の認識は重要な技術である。例えば、カウンセリング時に発話者の感情の認識を行うことで、患者の不安や悲しみの感情を可視化でき、カウンセラーの理解の深化や指導の質の向上が期待できる。また人間と機械の対話において人間の感情を認識することで、人間が喜んでいれば共に喜ぶ、悲しんでいれば励ますなど、より親しみやすい対話システムの構築が可能となる。以降では、ある発話を入力とし、その発話に含まれる発話者の感情が感情クラス（クラス分けされた感情、例えば、平常、怒り、喜び、悲しみ、など）のいずれに当たるかを推定する技術を感情認識と呼ぶ。

非特許文献１には、従来の感情認識技術（以降、従来技術）が開示されている。従来技術では、発話から短時間ごとの音響特徴（例えば、Mel-Frequency Cepstral Coefficient: MFCCなど）を抽出し、音響特徴系列から深層学習に基づく時系列モデルであるLong Short-Term Memory Recurrent Neural Network（LSTM-RNN）を用いて感情クラスの推定を行う。LSTM-RNNモデルの学習時には、発話と、人間の聴取結果により決められた当該発話の正解感情ラベルの組の集合を利用する。このとき、正解感情ラベルは、当該発話を複数名が聴取し、聴取者の各々が正解と感じた感情クラス（以降、聴取者ごとの正解感情クラスと呼ぶ）の多数決により決められる。なお、多数決で正解感情ラベルが決められなかった場合（例えば、全員が異なる感情クラスを付与した場合など）、その発話は正解感情ラベルなしとみなされるため、モデル学習には利用できない。

Che-Wei Huang, Shrikanth Narayanan, "Attention Assisted Discovery of Sub-Utterance Structure in Speech Emotion Recognition,"in Interspeech 2016.

従来技術では、感情認識精度を向上させることが困難であった。例えば、LSTM-RNNモデルなどの深層学習に基づく時系列モデルは高い推定精度を出すことができる一方で、高い推定精度を発揮するためには数万発話といった大量の学習データが必要であるとされる。しかし感情認識の学習データを大量に集めることは非常に困難である。これは、正解感情ラベルの決定には聴取者ごとの正解感情クラスを複数名分集める必要があり、この作業に非常に大きなコストが掛かるためである。このことから、実用上は数百から数千発話の限られた学習データを利用せざるを得ない。さらに、従来技術では学習データのうち多数決で正解感情ラベルが決められた発話しか学習には利用できないため、学習データの一部しかモデル学習に利用できないことがある。この結果、モデル学習に利用できる学習データがさらに少なくなってしまい、深層学習に基づく時系列モデルの識別性能が十分に発揮されず、感情認識精度が低下する。

本発明はこのような点に鑑みてなされたものであり、限られた学習データを用いて感情認識精度を向上させることを目的とする。

第１発話を聴取した聴取者が複数の感情クラスＣ_１，…，Ｃ_Ｋから第１発話の発話者の感情の正解値として選択した正解感情クラスを入力とし、正解感情クラスとして感情クラスＣ_ｉが選択された回数ｎ_ｉを得、回数ｎ_１，…，ｎ_Ｋの総和に対する回数ｎ_ｋの割合または割合の平滑化値を、第１発話に対応する正解感情ソフトラベルｔ_ｋ ^（ｓ）として得る。

正解感情ソフトラベルを利用することで、限られた学習データを用いて感情認識精度を向上させることができる。

図１は第１実施形態のラベル生成装置の機能構成を例示するブロック図である。図２は実施形態の正解感情ソフトラベルを説明するための概念図である。図３は第２実施形態のラベル生成装置の機能構成を例示するブロック図である。図４は第３実施形態のラベル生成装置の機能構成を例示するブロック図である。

以下、本発明の実施形態を説明する。
［原理］
実施形態で説明する手法のポイントは、多数決で正解感情ラベルを決められない発話（発話音声）も含めて全ての学習データをモデル学習に利用することを目的とし、感情認識モデルの学習において、複数の正解感情クラスに正解確率を割り当てることができる正解感情ラベル（以降、正解感情ソフトラベルと呼ぶ）を作成する点にある（図２）。

従来技術の深層学習に基づく時系列モデルは正解感情ラベルとして、ある感情クラスのみの正解確率が１、他の感情クラスの正解確率が０となるようなラベルを与える。この場合、ある感情クラスのみを正解、別の感情クラスを完全に不正解であるとみなして学習を行う。例えば、図２に例示するように、ある発話に対して５名の聴取者Ａ〜Ｅが平常、喜び、喜び、平常、喜びという聴取者ごとの正解感情クラスを与えた場合、喜びの正解確率が１、他の感情クラスの正解確率が０となるようなラベルが与えられる。この方法では、多数決により正解感情クラスが決められない発話はどの感情クラスの正解確率を１とするかを決められないため、学習には利用されない。

一方で、実施形態で説明する手法では、複数の感情クラスにおいて正解確率が０より大きいような正解感情ソフトラベルを与える。例えば、図２の例の場合には、喜びの正解確率が０．６、平常の正解確率が０．４となるような正解感情ソフトラベルを与える。この場合、当該発話は喜びの可能性が高いが、平常の可能性もあり、その他の感情クラスの可能性はないとして学習を行う。このように複数の感情クラスに正解確率を割り当てることで、多数決で正解感情ラベルが決められなかった発話であってもモデル学習に利用することが可能となる。

例えば、聴取者が４名、各聴取者が平常、平常、喜び、喜びという聴取者ごとの正解感情クラスを与えた場合、その発話は多数決により正解感情クラスを決めることができないため、従来の技術ではモデル学習に利用できなかった。一方で、今回の枠組みでは当該発話が喜びと平常の可能性があり、他の感情が表れていないものとしてモデル学習に利用することができる。この結果、モデル学習に利用できるデータが増加するため、従来技術に比べて頑健なモデルが構築できる。

さらに、実施形態で説明する手法の別の利点として、感情クラス間の類似性をモデルに学習させることができる点が挙げられる。正解感情ソフトラベルは複数の感情クラスの正解確率に対応するため、発話に対する複数の感情クラスの類似性を表す。上記の例では、ある発話に対して喜びという感情クラスを与えた聴取者と平常という感情クラスを与えた聴取者とが存在するため、喜びと平常はある程度の類似性があるといえる。一方、この発話に対して悲しみという感情クラスを与えた聴取者は存在しないため、喜びと悲しみの類似性は低いといえる。この例では、喜びと平常はある程度の類似性があるが、喜びと悲しみの類似性が低いことをモデルに学習させることができる。感情クラス間の類似性を学習させることで特定の感情クラス間で情報が共有され（上記の例では、喜びの感情クラスの学習を行うことで平常の感情クラスも学習が進む）、その結果、学習データが少ない状況において従来技術よりも高精度な感情認識モデルを構築することができると考えられる。

上記の正解感情ソフトラベルは、人間であればどの感情と感じるか、の度合いを表現するベクトルである必要がある。実施形態では、正解感情ソフトラベルは、聴取者が与えた聴取者ごとの正解感情クラスの集合から決定する。まず、発話を聴取した聴取者が複数の感情クラスＣ_１，…，Ｃ_Ｋから当該発話の発話者の感情の正解値として選択した正解感情クラスを用い、正解感情クラスとして感情クラスＣ_ｉが選択された回数ｎ_ｉを求める。ここでｉは感情クラスの番号を表す添え字であり、ｉ＝１，…，ＫでありＫが感情クラスの総数を表す２以上の整数である。以降、ｋも同様に感情クラスの番号を表す添え字であり、ｋ＝１，…，Ｋとする。図２の例ではＫ＝４であり、例えば、Ｃ_１＝“平常”、Ｃ_２＝“喜び”、Ｃ_３＝“悲しみ”、Ｃ_４＝“怒り”である。次に、回数ｎ_１，…，ｎ_Ｋの総和に対する回数ｎ_ｋの割合または当該割合の平滑化値を、当該発話に対応する正解感情ソフトラベルｔ_ｋ ^（ｓ）として得る。例えば、以下の式（１）に基づいて正解感情ソフトラベルｔ_ｋ ^（ｓ）が与えられる。

α＝０の場合、各感情クラスＣ_１，…，Ｃ_Ｋの出現回数ｎ_ｋを聴取者が与えた聴取者ごとの正解感情クラスの出現回数ｎ_１，…，ｎ_Ｋの総数で割った値（回数ｎ_１，…，ｎ_Ｋの総和に対する回数ｎ_ｋの割合）となる（式（２））。例えば、図２の例の発話の正解感情ソフトラベルｔ_ｋ ^（ｓ）は、ｔ_１ ^（ｓ）＝０．４、ｔ_２ ^（ｓ）＝０．６、ｔ_３ ^（ｓ）＝０、ｔ_４ ^（ｓ）＝０となる。

α＞０の場合、各感情クラスでの出現回数を（実際の出現回数＋α）回とみなしたときの、各感情クラスの出現回数を聴取者が与えた聴取者ごとの正解感情クラスの出現回数の総
数で割った値となる。すなわち、α＞０の場合には、回数ｎ_１，…，ｎ_Ｋの総和に対する回数ｎ_ｋの割合の平滑化値が正解感情ソフトラベルｔ_ｋ ^（ｓ）となる。例えば、α＝１の場合には以下の式（３）のようになる。

聴取者ごとの正解感情クラスの出現回数の総数が少ない場合、得られた聴取者ごとの正解感情クラスには含まれていないものの、実際にはその他の感情クラスの感情も僅かに感じられる可能性がある（例えば、上記の例では実際には悲しみも微量含まれている可能性がある）。α＞０とすることで、このような僅かに感じられる感情も学習データに反映させることができる。αが多いほど、聴取者ごとの正解感情クラス以外の感情が含まれている確率が高い正解感情ソフトラベルとなる。このため、聴取者が少ない場合はαを大きくし、聴取者が多い場合はαを小さくする。例えば、聴取者の人数がＭ_１人の場合にα＝α_１とし、聴取者の人数がＭ_２人の場合にα＝α_２とする。ただし、Ｍ_１＞Ｍ_２および０＜α_１＜α_２を満たす。

発話に対応する正解感情ソフトラベルｔ_ｋ ^（ｓ）と当該発話の音響特徴系列との組を含む集合を学習データとして用いた学習処理を行うことにより、入力発話の音響特徴系列から入力発話の発話者の感情を推定する感情認識モデルが得られる。この感情認識モデルに入力発話の音響特徴系列を適用することで、当該入力発話の発話者の感情を精度よく推定できる。以上のように、実施形態の手法では、限られた学習データを用いて感情認識精度を向上させることができる。

［第１実施形態］
第１実施形態を説明する。まず、第１実施形態の概要を示す。
＜正解感情ソフトラベル算出時＞
１．学習データとして収集した発話において、複数の聴取者が各発話を聴取し、各発話に対して聴取者ごとの正解感情クラスを与える。すなわち、発話を聴取した各聴取者が、複数の感情クラスＣ_１，…，Ｃ_Ｋから、当該発話の発話者の感情の正解値として正解感情クラス（聴取者ごとの正解感情クラス）を選択する。１名の聴取者が１発話に対して１個の正解感情クラスのみを選択することにしてもよい。あるいは、１名の聴取者が１発話に対して１個または２個以上の正解感情クラスを選択することにしてもよい。これは、ある発話を聴取した際に、複数の感情が含まれると感じる（例えば、嫌悪と怒りが含まれる、など）場合があるためである。
２．発話ごとに得られた聴取者ごとの正解感情クラスを用い、正解感情クラスとして感情クラスＣ_ｉが選択された回数ｎ_ｉ（ただし、ｉ＝１，…，Ｋ）を得る。回数ｎ_１，…，ｎ_Ｋは発話ごとに得られる。
３．回数ｎ_ｉ（ただし、ｉ＝１，…，Ｋ）を用いて正解感情ソフトラベルｔ_ｋ ^（ｓ）を算出する。すなわち、回数ｎ_１，…，ｎ_Ｋの総和に対する回数ｎ_ｋの割合または当該割合の平滑化値を、発話に対応する正解感情ソフトラベルｔ_ｋ ^（ｓ）として得る。正解感情ソフトラベルｔ_ｋ ^（ｓ）は、例えば、式（１）に基づいて得られる。正解感情ソフトラベルｔ_ｋ ^（ｓ）は発話ごとに得られる。

＜モデル学習時＞
発話に対応する正解感情ソフトラベルｔ_ｋ ^（ｓ）と当該発話の音声特徴系列との組の集合を学習データとした学習処理により、入力発話の音響特徴系列から入力発話の発話者の感情を推定する感情認識モデルを得る。正解感情ソフトラベルｔ_ｋ ^（ｓ）を用いて感情認識モデルの学習を行うことで、多数決で正解感情ラベルが決められなかった発話であってもモデル学習に利用することができ、モデル学習に利用できるデータが増えるため、より高精度な感情認識モデルを構築できる。感情認識モデルの例は、入力発話の音響特徴系列に対する各感情クラスＣ_ｋの事後確率に関する出力値ｙ_ｋを得る確率モデルである。例えば、感情認識モデルとして深層学習に基づく時系列モデルを用いることができる。この場合、当該モデルの損失関数の計算時に、従来の正解感情ラベルではなく正解感情ソフトラベルを用いる。この学習処理は、学習データである発話の音声特徴系列を学習過程の感情認識モデルに入力することで各感情クラスＣ_ｋの事後確率に関する出力値ｙ_ｋ ^（ｓ）を得、出力値ｙ_１ ^（ｓ），…，ｙ_Ｋ ^（ｓ）それぞれの関数値の総和に対する出力値ｙ_ｋ ^（ｓ）の関数値の割合を各感情クラスＣ_ｋの事後確率ｐ_ｋ ^（ｓ）とし、ｋ＝１，…，Ｋについてのｐ_ｋ ^（ｓ）の関数値と正解感情ソフトラベルｔ_ｋ ^（ｓ）との積の総和を損失関数として、感情認識モデルを学習する処理を含む。なお、出力値ｙ_ｋ ^（ｓ）は、正解感情ソフトラベルｔ_ｋ ^（ｓ）が付与された学習データに対応する音響特徴系列を感情認識モデルに入力することで得られる出力値ｙ_ｋである。出力値ｙ_ｋ ^（ｓ）の関数値の例はｙ_ｋ ^（ｓ）に対する非減少関数値（例えば、ｙ_ｋ ^（ｓ）に対する単調増加関数値）であり、ｐ_ｋ ^（ｓ）の関数値の例はｐ_ｋ ^（ｓ）に対する非減少関数値（例えば、ｐ_ｋ ^（ｓ）に対する単調増加関数値）である。例えば、以下の式（４）（５）に基づいて損失関数Ｌ_ｓが計算される。

すなわち、深層学習に基づく時系列モデルの損失関数としてソフトマックス関数を用いるが、ソフトマックス関数の計算時に、従来技術のような正解感情ラベル（ある感情クラスのみの正解確率が１、他の感情クラスの正解確率が０となるラベル）を用いるのではなく、各感情クラスＣ_ｋにおいて０から１までの範囲をとる正解感情ソフトラベルｔ_ｋ ^（ｓ）を用いる。損失関数の計算部分以外は従来技術の深層学習に基づく時系列モデルの学習と同様の方法をとる。例えば、モデルパラメータの更新は損失関数Ｌ_ｓに対して誤差逆伝搬法を適用することで実施する。

＜感情認識時＞
学習によって得られた感情認識モデルに入力発話の音響特徴系列を入力し、入力発話の発話者の感情の推定情報を得る。感情認識モデルが入力発話の音響特徴系列に対する各感情クラスＣ_ｋの事後確率に関する出力値ｙ_ｋを得る確率モデルである場合、出力値ｙ_ｋに基づいて感情の推定情報が得られる。例えば、出力値ｙ_１，…，ｙ_Ｋが感情の推定情報であってもよいし、出力値ｙ_１，…，ｙ_Ｋの関数値が感情の推定情報であってもよいし、出力値ｙ_ｋによって表される事後確率が最大になる感情クラスＣ_ｋを表す情報が推定情報であってもよい。出力値ｙ_ｋの関数値の例は、ｙ_１，…，ｙ_Ｋを値の大きな順序に並び替えて得られる列、ｙ_１，…，ｙ_Ｋから値の大きな順に選択した２個以上Ｋ個未満の出力値、ｙ_１，…，ｙ_Ｋのうち閾値以上または閾値を超える出力値などである。

次に、図面を用いて第１実施形態の詳細を説明する。
＜構成および処理＞
図１に例示するように、本形態の感情認識装置１は、モデル学習装置１２０、音響特徴系列抽出部１３１、および感情認識部１３２を有する。モデル学習装置１２０は、ラベル生成装置１１０、音響特徴系列抽出部１２１、学習部１２２、および記憶部１２３を有する。ラベル生成装置１１０は、回数算出部１１１および正解感情ソフトラベル算出部１１２を有する。

＜回数算出部１１１＞
回数算出部１１１は、学習データの発話（学習データ発話）について複数名分の、聴取者ごとの正解感情クラスを入力とし、当該聴取者ごとの正解感情クラスとして感情クラスＣ_ｉが選択された回数ｎ_ｉを得て出力する。すなわち、回数算出部１１１は、学習データ発話（第１発話）を聴取した複数の聴取者が複数の感情クラスＣ_１，…，Ｃ_Ｋから当該発話の発話者の感情の正解値として選択した正解感情クラス（聴取者ごとの正解感情クラス）を入力とし、当該正解感情クラスとして感情クラスＣ_ｉが選択された回数ｎ_ｉ（ただし、ｉ＝１，…，Ｋ）を得て出力する。本実施形態では２名分以上の聴取者ごとの正解感情クラスを利用するが、より多くの聴取者分の聴取者ごとの正解感情クラスを利用するほど、人間が感じている感情クラス間の類似性が数値として表現される。そのため、できるだけ多くの聴取者ごとの正解感情クラスを回数算出部１１１に入力することが望ましい。また学習データ発話は複数存在する。回数ｎ_ｉは学習データ発話ごとに得られ、各学習データ発話に対応する回数ｎ_ｉは正解感情ソフトラベル算出部１１２に送られる（ステップＳ１１１）。

＜正解感情ソフトラベル算出部１１２＞
正解感情ソフトラベル算出部１１２は、学習データ発話に対応する回数ｎ_ｋを入力とし、当該回数ｎ_１，…，ｎ_Ｋの総和に対する回数ｎ_ｋの割合または当該割合の平滑化値を、当該学習データ発話に対応する正解感情ソフトラベルｔ_ｋ ^（ｓ）として算出して出力する。正解感情ソフトラベル算出部１１２は、例えば、前述の式（１）に基づいて正解感情ソフトラベルｔ_ｋ ^（ｓ）を得て出力する。式（１）においてα＝０の場合、各感情クラスの出現回数を聴取者が与えた聴取者ごとの正解感情クラスの出現回数の総数で割った値（回数ｎ_１，…，ｎ_Ｋの総和に対する回数ｎ_ｋの割合）となる（式（２））。例えば、Ｋ＝４、Ｃ_１＝“平常”、Ｃ_２＝“喜び”、Ｃ_３＝“悲しみ”、Ｃ_４＝“怒り”であり、聴取者の人数が４名であり、ある発話に対して各聴取者が平常、平常、喜び、平常という聴取者ごとの正解感情クラスを与えた場合、その発話の正解感情ソフトラベルｔ_ｋ ^（ｓ）はｔ_１ ^（ｓ）＝０．７５、ｔ_２ ^（ｓ）＝０．２５、ｔ_３ ^（ｓ）＝０、ｔ_４ ^（ｓ）＝０となる。式（１）においてα＝１の場合、各感情クラスの出現回数ｎ_ｋに１を足した値を新しい各感情クラスの出現回数としたときの、新しい各感情クラスの出現回数ｎ_ｋ＋１を新しい各感情クラスの出現回数ｎ_ｉ＋１の総数で割った値となる（式（３））。例えば、Ｋ＝４、Ｃ_１＝“平常”、Ｃ_２＝“喜び”、Ｃ_３＝“悲しみ”、Ｃ_４＝“怒り”であり、聴取者の人数が４名であり、ある発話に対して各聴取者が平常、平常、喜び、平常という聴取者ごとの正解感情クラスを与えた場合、その発話の正解感情ソフトラベルｔ_ｋ ^（ｓ）はｔ_１ ^（ｓ）＝０．５、ｔ_２ ^（ｓ）＝０．１２５、ｔ_３ ^（ｓ）＝０．２５、ｔ_４ ^（ｓ）＝０．１２５となる。正解感情ソフトラベルｔ_ｋ ^（ｓ）は学習データ発話ごとに得られる（ステップＳ１１２）。

＜音響特徴系列抽出部１２１＞
音響特徴系列抽出部１２１は、学習データ発話を入力とし、当該学習データ発話の音響特徴系列を抽出して出力する。本実施形態の音響特徴系列とは、学習データ発話を短時間窓で時分割し、短時間窓ごとに音響特徴を求め、その音響特徴のベクトルを時系列順に並べたものを指す。本実施形態の音響特徴は、例えば、ＭＦＣＣ、基本周波数、対数パワー、Harmonics-to-Noise Ratio(HNR)、音声確率、ゼロ交差数、およびこれらの一次微分または二次微分のいずれか一つ以上を含む。音声確率は例えば事前学習した音声/非音声のＧＭＭモデルの尤度比により求められる。ＨＮＲは例えばケプストラムに基づく手法により求められる（参考文献１：Peter Murphy, Olatunji Akande, “Cepstrum-Based Harmonics-to-Noise Ratio Measurement in Voiced Speech,”Lecture Notes in Artificial Intelligence, Nonlinear Speech Modeling and Applications, Vol. 3445, Springer-Verlag, 2005）。より多くの音響特徴を利用することで、発話に含まれる様々な特徴を表現でき、感情認識精度が向上する傾向にある（ステップＳ１２１）。

＜学習部１２２＞
学習部１２２は、学習データ発話に対応する正解感情ソフトラベルｔ_ｋ ^（ｓ）と当該学習データ発話の音響特徴系列との組の集合を学習データとした学習処理により、入力発話の音響特徴系列から入力発話の発話者の感情を推定する感情認識モデル（第１感情認識モデル）を得て出力する。ここでは従来技術と同様の感情認識モデル構造を採用する例を示す。すなわち、双方向LSTM-RNNとattention layerと呼ばれる全結合層との組合せにより構成される感情認識モデルを採用する。従来技術と異なる点は感情認識モデルの損失関数である。本実施形態でも従来技術と同様にソフトマックス関数を損失関数として利用するが、この際に正解感情ソフトラベルｔ_ｋ ^（ｓ）を利用する。すなわち、学習データ発話の音声特徴系列を学習過程の感情認識モデルに入力することで各感情クラスＣ_ｋの事後確率に関する出力値ｙ_ｋ ^（ｓ）を得、出力値ｙ_１ ^（ｓ），…，ｙ_Ｋ ^（ｓ）それぞれの関数値の総和に対する出力値ｙ_ｋ ^（ｓ）の関数値の割合をｐ_ｋ ^（ｓ）とし、ｋ＝１，…，Ｋについてのｐ_ｋ ^（ｓ）の関数値と正解感情ソフトラベルｔ_ｋ ^（ｓ）との積の総和を損失関数とする。学習部１２２は、例えば、前述の式（４）（５）に基づいて損失関数Ｌ_ｓを計算し、当該損失関数Ｌ_ｓに基づいて学習過程の感情認識モデルのモデルパラメータを更新する。すなわち、学習部１２２は、損失関数Ｌ_ｓが最小化されるように学習過程の感情認識モデルのモデルパラメータを更新する。例えば、学習部１２２は、損失関数Ｌ_ｓに対して誤差逆伝搬法を適用することでモデルパラメータを更新する（ステップＳ１２２）。得られた感情認識モデルを特定する情報（例えば、モデルパラメータ）は記憶部１２３に格納される（ステップＳ１２３）。

＜音響特徴系列抽出部１３１＞
音響特徴系列抽出部１３１は、感情の推定対象となる発話者が発した入力発話を入力とし、当該入力発話の音響特徴系列を抽出して出力する。音響特徴系列抽出部１３１の処理は、前述の音響特徴系列抽出部１２１の処理と同一である（ステップＳ１３１）。

＜感情認識部１３２＞
感情認識部１３２は、記憶部１２３から読み込んだ情報で特定される感情認識モデルに入力発話の音響特徴系列を適用し、入力発話の発話者の感情の推定情報を得て出力する。前述のように、感情認識モデルが入力発話の音響特徴系列に対する各感情クラスＣ_ｋの事後確率に関する出力値ｙ_ｋを得る確率モデルである場合、感情認識部１３２は、入力発話の音響特徴系列を入力として出力値ｙ_ｋを得、当該出力値ｙ_ｋに基づく感情の推定情報を得て出力する。出力値ｙ_ｋに基づく感情の推定情報の例は、出力値ｙ_ｋ、出力値ｙ_ｋの関数値、または、出力値ｙ_ｋによって表される事後確率が最大になる感情クラスＣ_ｋを表す情報である。本実施形態の感情認識モデルの構造は従来技術と同様であるため、感情認識部１３２は、入力発話の音響特徴系列を入力として感情認識モデルの順伝搬を行うことで、入力発話の発話者の感情の事後確率に関する感情認識モデルの出力ベクトル（ｙ_１，…，ｙ_Ｋ）を得ることができる（ステップＳ１３２）。

［第２実施形態］
第２実施形態を説明する。本実施形態では、従来技術によって感情認識モデルを学習した後、正解感情ソフトラベルを用いて感情認識モデルの追加学習を行う。正解感情ソフトラベルを用いた学習処理は従来技術の感情認識モデルの学習処理と同じ構造（正解感情ソフトラベルのみが相違）の損失関数を利用することから、感情クラスＣ_ｉの総数Ｋが同じであれば、従来技術により学習した感情認識モデルからの追加学習が可能である。本実施形態により、従来技術の感情認識モデルを元に、さらに精度を向上させた感情認識モデルを構築できる。本実施形態では、従来技術の感情認識モデルを元にすることで、第１実施形態に比べて高精度な感情認識モデルの構築が期待できる。以下では第１実施形態との相違点を中心に説明し、第１実施形態と共通する事項については同じ参照番号を用いて説明を簡略化する。

図面を用いて第２実施形態の詳細を説明する。
＜構成および処理＞
図３に例示するように、本形態の感情認識装置２は、モデル学習装置２２０、音響特徴系列抽出部１３１、および感情認識部１３２を有する。モデル学習装置２２０は、正解感情ラベル算出部２０１、学習部２０２、記憶部２０３，２２３、音響特徴系列抽出部２２１，１２１、ラベル生成装置１１０、および追加学習部２２２を有する。

＜正解感情ラベル算出部２０１＞
正解感情ラベル算出部２０１は、学習データの発話（第２学習データ発話）について複数名分の、聴取者ごとの正解感情クラスを入力とし、当該第２学習データ発話（第２発話）に対応する正解感情ラベルｔ_ｋ ^（ｈ）を得て出力する。ただし、第２学習データ発話に対応する正解感情ラベルｔ_ｋ ^（ｈ）は、ｉ’，ｉ”は、感情クラスの番号を表す添え字とすると、当該第２学習データ発話を聴取した聴取者によって複数の感情クラスＣ_１，…，Ｃ_Ｋから当該第２学習データ発話の発話者の感情の正解値として選択された回数が最大の感情クラスＣ_ｉ’∈｛Ｃ_１，…，Ｃ_Ｋ｝に対応する正解感情ラベルｔ_ｉ’ ^（ｈ）を正の定数（例えば１）とし、感情クラスＣ_１，…，Ｃ_Ｋのうち感情クラスＣ_ｉ’以外の感情クラスＣ_ｉ”∈｛Ｃ_１，…，Ｃ_Ｋ｝に対応する正解感情ラベルｔ_ｉ” ^（ｈ）を零としたものである。ただし、正解値として選択された回数が最大の感情クラスＣ_ｉ’が１個に定まらない場合、当該第２学習データ発話に対応する正解感情ラベルｔ_ｋ ^（ｈ）は生成されない。例えば、正解感情ラベル算出部２０１は、従来技術と同じ方法で正解感情ラベルｔ_ｋ ^（ｈ）を算出する。すなわち、発話ごとの複数名分の聴取者ごとの正解感情クラスに対し、最も多く出現した感情クラスＣ_ｉ’に対応する正解感情ラベルｔ_ｉ’ ^（ｈ）を１とし、それ以外の正解感情ラベルｔ_ｉ” ^（ｈ）を０とする（式（６））。最も多く出現した感情クラスが二つ以上存在する場合、当該第２学習データ発話には正解感情ラベルｔ_ｋ ^（ｈ）が生成されない。

ただし、ｎ_ｉは、第２学習データ発話に対し、正解感情クラスとして感情クラスＣ_ｉが選択された回数を表す。ｎ_ｉ’は、第２学習データ発話に対し、正解感情クラスとして感情クラスＣ_ｉ’が選択された回数を表す。正解感情ラベル算出部２０１に入力される第２学習データ発話（第２発話）は、前述のラベル生成装置１１０に入力される学習データ発話（第１発話）と同一であってもよいし、同一でなくてもよい（ステップＳ２０１）。

＜音響特徴系列抽出部２２１＞
音響特徴系列抽出部２２１は、第２学習データ発話を入力とし、当該第２学習データ発話の音響特徴系列を抽出して出力する。音響特徴系列抽出部２２１の処理は、前述の音響特徴系列抽出部１２１の処理と同一である（ステップＳ２２１）。

＜学習部２０２＞
学習部２０２は、第２学習データ発話に対応する正解感情ラベルｔ_ｋ ^（ｈ）と、当該第２学習データ発話の音声特徴系列と、の組の集合を学習データとした学習処理により、入力発話の音響特徴系列から入力発話の発話者の感情を推定する感情認識モデル（第２感情認識モデル）を得て出力する。このとき、正解感情ラベルｔ_ｋ ^（ｈ）が生成されていない第２学習データ発話の音声特徴系列は学習データから除外される。ここでは従来技術と同じ感情認識モデルを採用する例を示す。例えば、当該感情認識モデルが、入力発話の音響特徴系列に対する各感情クラスＣ_ｋの事後確率に関する出力値ｙ_ｋを得る確率モデルである場合、例えば、学習部２０２は、第２学習データ発話の音声特徴系列を学習過程の感情認識モデルに入力することで各感情クラスＣ_ｋの事後確率に関する出力値ｙ_ｋ ^（ｈ）を得、出力値ｙ_１ ^（ｈ），…，ｙ_Ｋ ^（ｈ）それぞれの関数値の総和に対する出力値ｙ_ｋ ^（ｈ）の関数値の割合を各感情クラスＣ_ｋの事後確率ｐ_ｋ ^（ｈ）とし、ｋ＝１，…，Ｋについてのｐ_ｋ ^（ｈ）の関数値と正解感情ラベルｔ_ｋ ^（ｈ）との積の総和を損失関数として学習処理を行う。出力値ｙ_ｋ ^（ｈ）の関数値の例はｙ_ｋ ^（ｈ）に対する非減少関数値（例えば、ｙ_ｋ ^（ｈ）に対する単調増加関数値）であり、ｐ_ｋ ^（ｈ）の関数値の例はｐ_ｋ ^（ｈ）に対する非減少関数値（例えば、ｐ_ｋ ^（ｈ）に対する単調増加関数値）である。例えば、学習部２０２は、損失関数Ｌ_ｈとして以下のソフトマックス関数を利用して学習処理を行う。

なお、出力値ｙ_ｋ ^（ｈ）は、正解感情ラベルｔ_ｋ ^（ｈ）が付与された学習データに対応する音響特徴系列を感情認識モデルに入力することで得られる出力値ｙ_ｋである。学習部２０２は、例えば、前述の式（７）（８）に基づいて損失関数Ｌ_ｈを計算し、当該損失関数Ｌ_ｈに基づいて学習過程の感情認識モデルのモデルパラメータを更新する（ステップＳ２０２）。最終的に得られた感情認識モデルを特定する情報（例えば、モデルパラメータ）は記憶部２０３に格納される（ステップＳ２０３）。

＜追加学習部２２２＞
追加学習部２２２には、記憶部２０３から読み出した感情認識モデル、ラベル生成装置１１０から出力された学習データ発話に対応する正解感情ソフトラベルｔ_ｋ ^（ｓ）、および音響特徴系列抽出部１２１から出力された当該学習データ発話の音響特徴系列が入力される。追加学習部２２２は、学習データ発話（第１発話）に対応する正解感情ソフトラベルｔ_ｋ ^（ｓ）と当該学習データ発話の音声特徴系列との組の集合を学習データとした追加学習処理によって、記憶部２０３から読み出した感情認識モデル（第２感情認識モデル）を更新し、入力発話の音響特徴系列から入力発話の発話者の感情を推定する再学習済み感情認識モデル（第１感情認識モデル）を得て出力する。例えば、感情認識モデル（第２感情認識モデル）が、入力発話の音響特徴系列に対する各感情クラスＣ_ｋの事後確率に関する出力値ｙ_ｋを得るモデルである場合、追加学習処理は、当該感情認識モデル（第２感情認識モデル）を学習過程の感情認識モデルの初期値（初期モデル）とし、学習データ発話（第１発話）の音声特徴系列を学習過程の感情認識モデルに入力することで各感情クラスＣ_ｋの事後確率に関する出力値ｙ_ｋ ^（ｓ）を得、出力値ｙ_１ ^（ｓ），…，ｙ_Ｋ ^（ｓ）それぞれの関数値の総和に対する出力値ｙ_ｋ ^（ｓ）の関数値の割合を各感情クラスＣ_ｋの事後確率ｐ_ｋ ^（ｓ）とし、ｋ＝１，…，Ｋについてのｐ_ｋ ^（ｓ）の関数値と正解感情ソフトラベルｔ_ｋ ^（ｓ）との積の総和を損失関数として学習過程の感情認識モデルを更新し、再学習済み感情認識モデル（第１感情認識モデル）を得る処理を含む。例えば、追加学習部２２２は、前述の式（４）（５）に基づいて損失関数Ｌ_ｓを計算し、当該損失関数Ｌ_ｓに誤差逆伝搬法を用いて学習過程の感情認識モデルのモデルパラメータ更新し、再学習済み感情認識モデルを得て出力する（ステップＳ２２２）。得られた再学習済み感情認識モデルを特定する情報（例えば、モデルパラメータ）は記憶部２２３に格納される（ステップＳ２２３）。

＜感情認識部１３２＞
感情認識部１３２は、記憶部２２３から読み込んだ情報で特定される再学習済み感情認識モデルに、音響特徴系列抽出部１３１から出力された入力発話の音響特徴系列を適用し、入力発話の発話者の感情の推定情報を得て出力する（ステップＳ１３２）。

［第３実施形態］
第３実施形態を説明する。本実施形態では、正解感情ラベルｔ_ｋ ^（ｈ）と正解感情ソフトラベルｔ_ｋ ^（ｓ）とを同時に用いてモデル学習を行う。二つの種類の異なるラベルを同時に学習することで、正解感情ラベルｔ_ｋ ^（ｈ）の設定基準（多数決基準）と正解感情ソフトラベルｔ_ｋ ^（ｓ）の設定基準（ソフトラベル基準）の二つの観点からモデルを最適化することができる。結果として、選択される確率が最大の感情クラスの推定確率を高くしつつ、選択される確率は最大ではないものの正解感情ソフトラベルｔ_ｋ ^（ｓ）に正の確率で表れている感情クラスの推定確率も高くする感情認識モデルが構築できる。この結果、感情認識の精度が向上する。以下では第１，２実施形態との相違点を中心に説明し、第１，２実施形態と共通する事項については同じ参照番号を用いて説明を簡略化する。

図面を用いて第３実施形態の詳細を説明する。
＜構成および処理＞
図４に例示するように、本形態の感情認識装置３は、モデル学習装置３２０、音響特徴系列抽出部１３１、および感情認識部１３２を有する。モデル学習装置３２０は、正解感情ラベル算出部２０１、ラベル生成装置１１０、音響特徴系列抽出部２２１，１２１、学習部３０３、および記憶部３２３を有する。

学習部３０３は、ラベル生成装置１１０から出力された学習データ発話（第１発話）に対応する正解感情ソフトラベルｔ_ｋ ^（ｓ）と、音響特徴系列抽出部１２１から出力された当該学習データ発話の音響特徴系列と、正解感情ラベル算出部２０１から出力された第２学習データ発話（第２発話）に対応する正解感情ラベルｔ_ｋ ^（ｈ）と、音響特徴系列抽出部２２１から出力された当該第２学習データ発話の音響特徴系列とを入力とし、これらの組の集合を学習データとした学習処理により、入力発話の音響特徴系列から入力発話の発話者の感情を推定する感情認識モデル（第１感情認識モデル）を得て出力する。学習部３０３は、例えば、従来手法の損失関数Ｌ_ｈと正解感情ソフトラベルｔ_ｋ ^（ｓ）を用いて得られる損失関数Ｌ_ｓとの重み付け和を新たな損失関数Ｌとして扱って感情認識モデルを学習する。例えば感情認識モデルが、入力発話の音響特徴系列に対する各感情クラスＣ_ｋの事後確率に関する出力値ｙ_ｋを得るモデルである場合、当該学習処理は、前記第２学習データ発話（第２発話）の音声特徴系列を学習過程の感情認識モデルに入力することで各感情クラスＣ_ｋの事後確率に関する出力値ｙ_ｋ ^（ｈ）を得、学習データ発話（第１発話）の音声特徴系列を当該学習過程の感情認識モデルに入力することで各感情クラスＣ_ｋの事後確率に関する出力値ｙ_ｋ ^（ｓ）を得、出力値ｙ_１ ^（ｈ），…，ｙ_Ｋ ^（ｈ）それぞれの関数値の総和に対する出力値ｙ_ｋ ^（ｈ）の関数値の割合を第２学習データ発話における各感情クラスＣ_ｋの事後確率ｐ_ｋ ^（ｈ）とし、出力値ｙ_１ ^（ｓ），…，ｙ_Ｋ ^（ｓ）それぞれの関数値の総和に対する出力値ｙ_ｋ ^（ｓ）の関数値の割合を学習データ発話における各感情クラスＣ_ｋの事後確率ｐ_ｋ ^（ｓ）とし、ｋ＝１，…，Ｋについてのｐ_ｋ ^（ｈ）の関数値と正解感情ラベルｔ_ｋ ^（ｈ）との積の総和と、ｋ＝１，…，Ｋについてのｐ_ｋ ^（ｓ）の関数値と正解感情ソフトラベルｔ_ｋ ^（ｓ）との積の総和との重み付け和を損失関数Ｌとして、感情認識モデルを学習する処理を含む。学習部３０３は、例えば、以下の式（９）に従って損失関数Ｌを計算する。

ただし、γは０から１までの値をとる重みパラメータであり、γが大きいほど正解感情ラベルｔ_ｋ ^（ｈ）の影響が強くなり、γが小さいほど正解感情ソフトラベルｔ_ｋ ^（ｓ）の影響が強くなるように感情認識モデルが学習される。学習部３０３は、例えば、この重み付け和である損失関数Ｌを利用し、誤差逆伝搬法を用いて学習過程の感情認識モデルのモデルパラメータを更新し、モデル学習を行う（ステップＳ３０３）。最終的に得られた感情認識モデルを特定する情報（例えば、モデルパラメータ）は記憶部３２３に格納される（ステップＳ３２３）。

＜感情認識部１３２＞
感情認識部１３２は、記憶部３２３から読み込んだ情報で特定される感情認識モデルに、音響特徴系列抽出部１３１から出力された入力発話の音響特徴系列を適用し、入力発話の発話者の感情の推定情報を得て出力する（ステップＳ１３２）。

［その他の変形例等］
なお、本発明は上述の実施形態に限定されるものではない。例えば、深層学習に基づく時系列モデル以外のモデルを感情認識モデルとしてもよい。例えば、サポートベクターマシーン（ＳＶＭ）、隠れマルコフモデル（ＨＭＭ）等を感情認識モデルとして用いてもよい。上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、回数ｎ_１，…，ｎ_Ｋの総和に対する回数ｎ_ｋの割合の平滑化値として式（１）のα＞０の場合を例示した。しかし、当該割合を別の方法で平滑化してもよい。例えば、式（１）のαが正解感情クラスに依存するα_ｉに置換され、αＫがα_１＋・・・＋α_Ｋに置換されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。

上記の各装置は、例えば、ＣＰＵ（central processing unit）等のプロセッサ（ハードウェア・プロセッサ）およびＲＡＭ（random-access memory）・ＲＯＭ（read-only memory）等のメモリ等を備える汎用または専用のコンピュータが所定のプログラムを実行することで構成される。このコンピュータは１個のプロセッサやメモリを備えていてもよいし、複数個のプロセッサやメモリを備えていてもよい。このプログラムはコンピュータにインストールされてもよいし、予めＲＯＭ等に記録されていてもよい。また、ＣＰＵのようにプログラムが読み込まれることで機能構成を実現する電子回路（circuitry）ではなく、プログラムを用いることなく処理機能を実現する電子回路を用いて一部またはすべての処理部が構成されてもよい。１個の装置を構成する電子回路が複数のＣＰＵを含んでいてもよい。

上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体の例は、非一時的な（non-transitory）記録媒体である。このような記録媒体の例は、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等である。

このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。

コンピュータ上で所定のプログラムを実行させて本装置の処理機能が実現されるのではなく、これらの処理機能の少なくとも一部がハードウェアで実現されてもよい。

１〜３感情認識装置
１１０ラベル生成装置
１２０，２２０，３２０モデル学習装置

Claims

Ｋが２以上の整数であり、
第１発話を聴取した聴取者が複数の感情クラスＣ_１，…，Ｃ_Ｋから前記第１発話の発話者の感情の正解値として選択した正解感情クラスを入力とし、ｉ＝１，…，Ｋであり、前記正解感情クラスとして感情クラスＣ_ｉが選択された回数ｎ_ｉを得る回数算出部と、
回数ｎ_１，…，ｎ_Ｋの総和に対する回数ｎ_ｋの割合または前記割合の平滑化値を、ｋ＝１，…，Ｋであり、前記第１発話に対応する正解感情ソフトラベルｔ_ｋ ^（ｓ）として得る正解感情ソフトラベル算出部と、
を有し、

であり、前記聴取者の人数がＭ_１人の場合にα＝α_１であり、前記聴取者の人数がＭ_２人の場合にα＝α_２であり、Ｍ_１＞Ｍ_２および０＜α_１＜α_２を満たす、ラベル生成装置。
請求項１のラベル生成装置と、
前記第１発話に対応する前記正解感情ソフトラベルｔ_ｋ ^（ｓ）と前記第１発話の音声特徴系列との組の集合を学習データとした学習処理により、入力発話の音響特徴系列から前記入力発話の発話者の感情を推定する第１感情認識モデルを得る学習部と、を有するモデル学習装置。
Ｋが２以上の整数であり、
第１発話を聴取した聴取者が複数の感情クラスＣ_１，…，Ｃ_Ｋから前記第１発話の発話者の感情の正解値として選択した正解感情クラスを入力とし、ｉ＝１，…，Ｋであり、前記正解感情クラスとして感情クラスＣ_ｉが選択された回数ｎ_ｉを得る回数算出部と、
回数ｎ_１，…，ｎ_Ｋの総和に対する回数ｎ_ｋの割合または前記割合の平滑化値を、ｋ＝１，…，Ｋであり、前記第１発話に対応する正解感情ソフトラベルｔ_ｋ ^（ｓ）として得る正解感情ソフトラベル算出部と、
を有するラベル生成装置と、
第２発話に対応する正解感情ラベルｔ_ｋ ^（ｈ）と、前記第２発話の音声特徴系列と、の組の集合を学習データとした学習処理により、入力発話の音響特徴系列から前記入力発話の発話者の感情を推定する第２感情認識モデルを得る学習部と、
前記第１発話に対応する前記正解感情ソフトラベルｔ_ｋ ^（ｓ）と前記第１発話の音声特徴系列との組の集合を学習データとした追加学習処理によって前記第２感情認識モデルを更新し、前記入力発話の音響特徴系列から前記入力発話の発話者の感情を推定する第１感情認識モデルを得る追加学習部と、を有し、
前記第２発話に対応する正解感情ラベルｔ_ｋ ^（ｈ）は、前記第２発話を聴取した聴取者によって前記複数の感情クラスＣ_１，…，Ｃ_Ｋから前記第２発話の発話者の感情の正解値として選択された回数が最大の感情クラスＣ_ｉ’に対応する正解感情ラベルｔ_ｉ’ ^（ｈ）を正の定数とし、前記感情クラスＣ_１，…，Ｃ_Ｋのうち前記感情クラスＣ_ｉ’以外の感情クラスＣ_ｉ”に対応する正解感情ラベルｔ_ｉ” ^（ｈ）を零としたものである、モデル学習装置。
請求項３のモデル学習装置であって、
前記第２感情認識モデルが学習過程の感情認識モデルとされ、
前記第１発話の音声特徴系列を前記学習過程の感情認識モデルに入力することで各感情クラスＣ_ｋの事後確率に関する出力値ｙ_ｋ ^（ｓ）が得られ、
前記追加学習処理は、出力値ｙ_１ ^（ｓ），…，ｙ_Ｋ ^（ｓ）それぞれの関数値の総和に対する出力値ｙ_ｋ ^（ｓ）の関数値の割合を各感情クラスＣ_ｋの事後確率ｐ_ｋ ^（ｓ）とし、ｋ＝１，…，Ｋについてのｐ_ｋ ^（ｓ）の関数値と前記正解感情ソフトラベルｔ_ｋ ^（ｓ）との積の総和を損失関数として前記学習過程の感情認識モデルを更新し、前記第１感情認識モデルを得る処理を含む、モデル学習装置。
Ｋが２以上の整数であり、
第１発話を聴取した聴取者が複数の感情クラスＣ_１，…，Ｃ_Ｋから前記第１発話の発話者の感情の正解値として選択した正解感情クラスを入力とし、ｉ＝１，…，Ｋであり、前記正解感情クラスとして感情クラスＣ_ｉが選択された回数ｎ_ｉを得る回数算出部と、
回数ｎ_１，…，ｎ_Ｋの総和に対する回数ｎ_ｋの割合または前記割合の平滑化値を、ｋ＝１，…，Ｋであり、前記第１発話に対応する正解感情ソフトラベルｔ_ｋ ^（ｓ）として得る正解感情ソフトラベル算出部と、
を有するラベル生成装置と、
前記第１発話に対応する前記正解感情ソフトラベルｔ_ｋ ^（ｓ）と、前記第１発話の音声特徴系列と、第２発話に対応する正解感情ラベルｔ_ｋ ^（ｈ）と、前記第２発話の音声特徴系列と、の組の集合を学習データとした学習処理により、入力発話の音響特徴系列から前記入力発話の発話者の感情を推定する第１感情認識モデルを得る学習部と、を有し、
前記第２発話に対応する正解感情ラベルｔ_ｋ ^（ｈ）は、前記第２発話を聴取した聴取者によって前記複数の感情クラスＣ_１，…，Ｃ_Ｋから前記第２発話の発話者の感情の正解値として選択された回数が最大の感情クラスＣ_ｉ’に対応する正解感情ラベルｔ_ｉ’ ^（ｈ）を正の定数とし、前記感情クラスＣ_１，…，Ｃ_Ｋのうち前記感情クラスＣ_ｉ’以外の感情クラスＣ_ｉ”に対応する正解感情ラベルｔ_ｉ” ^（ｈ）を零としたものであり、
前記第２発話の音声特徴系列を学習過程の感情認識モデルに入力することで各感情クラスＣ_ｋの事後確率に関する出力値ｙ_ｋ ^（ｈ）が得られ、前記第１発話の音声特徴系列を前記学習過程の感情認識モデルに入力することで各感情クラスＣ_ｋの事後確率に関する出力値ｙ_ｋ ^（ｓ）が得られ、
前記学習処理は、出力値ｙ_１ ^（ｈ），…，ｙ_Ｋ ^（ｈ）それぞれの関数値の総和に対する出力値ｙ_ｋ ^（ｈ）の関数値の割合を前記第２発話における各感情クラスＣ_ｋの事後確率ｐ_ｋ ^（ｈ）とし、出力値ｙ_１ ^（ｓ），…，ｙ_Ｋ ^（ｓ）それぞれの関数値の総和に対する出力値ｙ_ｋ ^（ｓ）の関数値の割合を前記第１発話における各感情クラスＣ_ｋの事後確率ｐ_ｋ ^（ｓ）とし、ｋ＝１，…，Ｋについてのｐ_ｋ ^（ｈ）の関数値と前記正解感情ラベルｔ_ｋ ^（ｈ）との積の総和と、ｋ＝１，…，Ｋについてのｐ_ｋ ^（ｓ）の関数値と前記正解感情ソフトラベルｔ_ｋ ^（ｓ）との積の総和との重み付け和を損失関数として前記学習過程の感情認識モデルを更新し、前記第１感情認識モデルを得る処理を含む、モデル学習装置。
請求項２から５のいずれかのモデル学習装置と、
前記入力発話の音響特徴系列に対する各感情クラスＣ_ｋの事後確率に関する出力値ｙ_ｋを得る前記第１感情認識モデルに前記入力発話の音響特徴系列を適用し、前記出力値ｙ_ｋ、前記出力値ｙ_ｋの関数値、または、前記出力値ｙ_ｋによって表される前記事後確率が最大になる感情クラスＣ_ｋを表す情報を出力する感情認識部と、
を有する感情認識装置。
Ｋが２以上の整数であり、
回数算出部が、第１発話を聴取した聴取者が複数の感情クラスＣ_１，…，Ｃ_Ｋから前記第１発話の発話者の感情の正解値として選択した正解感情クラスを入力とし、ｉ＝１，…，Ｋであり、前記正解感情クラスとして感情クラスＣ_ｉが選択された回数ｎ_ｉを得る回数算出ステップと、
正解感情ソフトラベル算出部が、ｋ＝１，…，Ｋであり、回数ｎ_１，…，ｎ_Ｋの総和に対する回数ｎ_ｋの割合または前記割合の平滑化値を、前記第１発話に対応する正解感情ソフトラベルｔ_ｋ ^（ｓ）として得る正解感情ソフトラベル算出ステップと、
を有し、

であり、前記聴取者の人数がＭ_１人の場合にα＝α_１であり、前記聴取者の人数がＭ_２人の場合にα＝α_２であり、Ｍ_１＞Ｍ_２および０＜α_１＜α_２を満たす、ラベル生成方法。
請求項７のラベル生成方法の前記回数算出ステップおよび前記正解感情ソフトラベル算出ステップと、
学習部が、前記第１発話に対応する前記正解感情ソフトラベルｔ_ｋ ^（ｓ）と前記第１発話の音声特徴系列との組の集合を学習データとした学習処理により、入力発話の音響特徴系列から前記入力発話の発話者の感情を推定する第１感情認識モデルを得る学習ステップと、
を有するモデル学習方法。
Ｋが２以上の整数であり、
回数算出部が、第１発話を聴取した聴取者が複数の感情クラスＣ_１，…，Ｃ_Ｋから前記第１発話の発話者の感情の正解値として選択した正解感情クラスを入力とし、ｉ＝１，…，Ｋであり、前記正解感情クラスとして感情クラスＣ_ｉが選択された回数ｎ_ｉを得る回数算出ステップと、
正解感情ソフトラベル算出部が、ｋ＝１，…，Ｋであり、回数ｎ_１，…，ｎ_Ｋの総和に対する回数ｎ_ｋの割合または前記割合の平滑化値を、前記第１発話に対応する正解感情ソフトラベルｔ_ｋ ^（ｓ）として得る正解感情ソフトラベル算出ステップと、
学習部が、第２発話に対応する正解感情ラベルｔ_ｋ ^（ｈ）と、前記第２発話の音声特徴系列と、の組の集合を学習データとした学習処理により、入力発話の音響特徴系列から前記入力発話の発話者の感情を推定する第２感情認識モデルを得る学習ステップと、
追加学習部が、前記第１発話に対応する前記正解感情ソフトラベルｔ_ｋ ^（ｓ）と前記第１発話の音声特徴系列との組の集合を学習データとした追加学習処理によって前記第２感情認識モデルを更新し、前記入力発話の音響特徴系列から前記入力発話の発話者の感情を推定する第１感情認識モデルを得る追加学習ステップと、を有し、
前記第２発話に対応する正解感情ラベルｔ_ｋ ^（ｈ）は、前記第２発話を聴取した聴取者によって前記複数の感情クラスＣ_１，…，Ｃ_Ｋから前記第２発話の発話者の感情の正解値として選択された回数が最大の感情クラスＣ_ｉ’に対応する正解感情ラベルｔ_ｉ’ ^（ｈ）を正の定数とし、前記感情クラスＣ_１，…，Ｃ_Ｋのうち前記感情クラスＣ_ｉ’以外の感情クラスＣ_ｉ”に対応する正解感情ラベルｔ_ｉ” ^（ｈ）を零としたものである、モデル学習方法。
請求項９のモデル学習方法であって、
前記第２感情認識モデルが学習過程の感情認識モデルとされ、
前記第１発話の音声特徴系列を前記学習過程の感情認識モデルに入力することで各感情クラスＣ_ｋの事後確率に関する出力値ｙ_ｋ ^（ｓ）が得られ、
前記追加学習処理は、出力値ｙ_１ ^（ｓ），…，ｙ_Ｋ ^（ｓ）それぞれの関数値の総和に対する出力値ｙ_ｋ ^（ｓ）の関数値の割合を各感情クラスＣ_ｋの事後確率ｐ_ｋ ^（ｓ）とし、ｋ＝１，…，Ｋについてのｐ_ｋ ^（ｓ）の関数値と前記正解感情ソフトラベルｔ_ｋ ^（ｓ）との積の総和を損失関数として前記学習過程の感情認識モデルを更新し、前記第１感情認識モデルを得る処理を含む、モデル学習方法。
Ｋが２以上の整数であり、
回数算出部が、第１発話を聴取した聴取者が複数の感情クラスＣ_１，…，Ｃ_Ｋから前記第１発話の発話者の感情の正解値として選択した正解感情クラスを入力とし、ｉ＝１，…，Ｋであり、前記正解感情クラスとして感情クラスＣ_ｉが選択された回数ｎ_ｉを得る回数算出ステップと、
正解感情ソフトラベル算出部が、ｋ＝１，…，Ｋであり、回数ｎ_１，…，ｎ_Ｋの総和に対する回数ｎ_ｋの割合または前記割合の平滑化値を、前記第１発話に対応する正解感情ソフトラベルｔ_ｋ ^（ｓ）として得る正解感情ソフトラベル算出ステップと、
学習部が、前記第１発話に対応する前記正解感情ソフトラベルｔ_ｋ ^（ｓ）と、前記第１発話の音声特徴系列と、第２発話に対応する正解感情ラベルｔ_ｋ ^（ｈ）と、前記第２発話の音声特徴系列と、の組の集合を学習データとした学習処理により、入力発話の音響特徴系列から前記入力発話の発話者の感情を推定する第１感情認識モデルを得る学習ステップと、を有し、
前記第２発話に対応する正解感情ラベルｔ_ｋ ^（ｈ）は、前記第２発話を聴取した聴取者によって前記複数の感情クラスＣ_１，…，Ｃ_Ｋから前記第２発話の発話者の感情の正解値として選択された回数が最大の感情クラスＣ_ｉ’に対応する正解感情ラベルｔ_ｉ’ ^（ｈ）を正の定数とし、前記感情クラスＣ_１，…，Ｃ_Ｋのうち前記感情クラスＣ_ｉ’以外の感情クラスＣ_ｉ”に対応する正解感情ラベルｔ_ｉ” ^（ｈ）を零としたものであり、
前記第２発話の音声特徴系列を学習過程の感情認識モデルに入力することで各感情クラスＣ_ｋの事後確率に関する出力値ｙ_ｋ ^（ｈ）が得られ、前記第１発話の音声特徴系列を前記学習過程の感情認識モデルに入力することで各感情クラスＣ_ｋの事後確率に関する出力値ｙ_ｋ ^（ｓ）が得られ、
前記学習処理は、出力値ｙ_１ ^（ｈ），…，ｙ_Ｋ ^（ｈ）それぞれの関数値の総和に対する出力値ｙ_ｋ ^（ｈ）の関数値の割合を前記第２発話における各感情クラスＣ_ｋの事後確率ｐ_ｋ ^（ｈ）とし、出力値ｙ_１ ^（ｓ），…，ｙ_Ｋ ^（ｓ）それぞれの関数値の総和に対する出力値ｙ_ｋ ^（ｓ）の関数値の割合を前記第１発話における各感情クラスＣ_ｋの事後確率ｐ_ｋ ^（ｓ）とし、ｋ＝１，…，Ｋについてのｐ_ｋ ^（ｈ）の関数値と前記正解感情ラベルｔ_ｋ ^（ｈ）との積の総和と、ｋ＝１，…，Ｋについてのｐ_ｋ ^（ｓ）の関数値と前記正解感情ソフトラベルｔ_ｋ ^（ｓ）との積の総和との重み付け和を損失関数として前記学習過程の感情認識モデルを更新し、前記第１感情認識モデルを得る処理を含む、モデル学習方法。
請求項８から１１のいずれかのモデル学習方法の各ステップと、
感情認識部が、前記入力発話の音響特徴系列に対する各感情クラスＣ_ｋの事後確率に関する出力値ｙ_ｋを得る前記第１感情認識モデルに前記入力発話の音響特徴系列を適用し、前記出力値ｙ_ｋ、前記出力値ｙ_ｋの関数値、または、前記出力値ｙ_ｋによって表される前記事後確率が最大になる感情クラスＣ_ｋを表す情報を出力する感情認識ステップと、
を有する感情認識方法。
請求項１の前記ラベル生成装置、請求項２から５のいずれかの前記モデル学習装置、または、請求項６の前記感情認識装置のいずれかとしてコンピュータを機能させるためのプログラム。
請求項１の前記ラベル生成装置、請求項２から５のいずれかの前記モデル学習装置、または、請求項６の前記感情認識装置のいずれかとしてコンピュータを機能させるためのプログラムを格納したコンピュータ読み取り可能な記録媒体。