JP2009282824A - Emotion estimation system and program - Google Patents
Emotion estimation system and program Download PDFInfo
- Publication number
- JP2009282824A JP2009282824A JP2008135290A JP2008135290A JP2009282824A JP 2009282824 A JP2009282824 A JP 2009282824A JP 2008135290 A JP2008135290 A JP 2008135290A JP 2008135290 A JP2008135290 A JP 2008135290A JP 2009282824 A JP2009282824 A JP 2009282824A
- Authority
- JP
- Japan
- Prior art keywords
- emotion
- polarity
- model
- representing
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Image Analysis (AREA)
Abstract
Description
本発明は、感情推定装置及びプログラムに係り、特に、ユーザを撮像した画像データ、ユーザの発話による音声データ、及びユーザにより入力されたテキストデータの少なくとも1つを用いてユーザの感情を推定するための感情推定装置及びプログラムに関する。 The present invention relates to an emotion estimation apparatus and program, and in particular, to estimate a user's emotion using at least one of image data obtained by imaging the user, voice data generated by the user's speech, and text data input by the user. The present invention relates to an emotion estimation apparatus and program.
従来、ユーザからの入力情報に基づいてユーザの感情を推定することが行われている。 Conventionally, the user's emotion is estimated based on input information from the user.
特許文献1の対話処理装置は、ユーザから入力された音声信号から抽出した韻律情報、音声信号を音声認識した結果に含まれる語句の概念情報、ユーザの顔を撮像して得られた顔画像情報、及びユーザの脈拍等の生理情報を用いてユーザの感情を推定するものである。このうち、顔画像情報を用いた感情の推定は、予め喜んでいる状態、怒っている状態、及び悲しんでいる状態等の各感情における顔の画像を用いて学習を行うことにより得られたモデルと、顔画像情報の特徴量とをマッチングすることにより行うことが提案されている。
The dialogue processing apparatus of
また、特許文献2の感情推定装置では、ユーザを撮像して得られた画像データやユーザから発せられる音声に基づく音声データから抽出した特徴量を、興味度を示す学習モデルと比較することにより、ユーザの感情を推定することが提案されている。
しかしながら、上記特許文献1の対話処理装置及び特許文献2の感情推定装置では、学習モデルを生成する際の学習データの量が考慮されていないため、学習データの個数に偏りがある場合には正確な学習が行われていない場合がある、という問題がある。また、ポジティブまたはネガティブを表す感情極性の判定を行っていないため、例えば、ユーザの感情は「楽しい」というポジティブな感情であるのに対して、「腹立たしい」というネガティブな感情であると推定するような致命的な誤判断が生じる可能性がある、という問題がある。
However, since the dialogue processing device of
本発明は、上述した問題を解決するためになされたものであり、1つの感情に対応する感情モデルに該当する学習データの個数を考慮して感情モデルを生成することにより、効率よくかつ精度よく感情を推定することができる感情推定装置及びプログラムを提供することを目的とする。 The present invention has been made to solve the above-described problem, and generates an emotion model in consideration of the number of learning data corresponding to an emotion model corresponding to one emotion, thereby efficiently and accurately. An object of the present invention is to provide an emotion estimation device and a program capable of estimating emotions.
上記目的を達成するために、第1の発明に係る感情推定装置は、ユーザを撮像して得られた画像データ、前記ユーザの発話により入力された音声データ、及び前記ユーザにより前記発話以外で入力されたテキストデータの少なくとも1つの入力データの特徴を抽出する抽出手段と、各々が異なる1つの感情に対応すると共に、各々が複数のサンプルデータから特徴と感情とを対応させて予め抽出した複数の学習データの各々に対して、該学習データの感情の各々が前記1つの感情に該当するか否かを表した複数の感情モデルを生成する感情モデル生成手段と、前記抽出手段で抽出された前記入力データの特徴が、前記複数の感情モデルの各々に対応する1つの感情のいずれかに対応するかを、前記1つの感情に該当する学習データの個数が多い感情モデルから順に判断することにより、前記ユーザの感情を推定する推定手段と、を含んで構成されている。 In order to achieve the above object, an emotion estimation apparatus according to a first aspect of the present invention provides image data obtained by imaging a user, audio data input by the user's utterance, and input by the user other than the utterance. Extracting means for extracting at least one input data feature of the text data, each corresponding to one different emotion, and each of a plurality of pre-extracted features and emotions corresponding to each other from a plurality of sample data For each of the learning data, emotion model generation means for generating a plurality of emotion models that indicate whether or not each of the emotions in the learning data corresponds to the one emotion, and the extracted by the extraction means Whether the feature of the input data corresponds to one of the emotions corresponding to each of the plurality of emotion models, the number of learning data corresponding to the one emotion is large. By determining the emotion model in the order, it is configured to include a, an estimation unit for estimating the emotion of the user.
また、第1の発明に係る感情推定プログラムは、コンピュータを、ユーザを撮像して得られた画像データ、前記ユーザの発話により入力された音声データ、及び前記ユーザにより前記発話以外で入力されたテキストデータの少なくとも1つの入力データの特徴を抽出する抽出手段と、各々が異なる1つの感情に対応すると共に、各々が複数のサンプルデータから特徴と感情とを対応させて予め抽出した複数の学習データの各々に対して、該学習データの感情の各々が前記1つの感情に該当するか否かを表した複数の感情モデルを生成する感情モデル生成手段と、前記抽出手段で抽出された前記入力データの特徴が、前記複数の感情モデルの各々に対応する1つの感情のいずれかに対応するかを、前記1つの感情に該当する学習データの個数が多い感情モデルから順に判断することにより、前記ユーザの感情を推定する推定手段として機能させるためのプログラムである。 In addition, the emotion estimation program according to the first aspect of the present invention provides a computer, image data obtained by imaging a user, voice data input by the user's speech, and text input by the user other than the speech Extraction means for extracting at least one input data feature of the data, each corresponding to one different emotion, each of a plurality of learning data extracted in advance corresponding to the feature and emotion from a plurality of sample data For each, emotion model generation means for generating a plurality of emotion models representing whether each of the emotions of the learning data corresponds to the one emotion, and the input data extracted by the extraction means Whether the feature corresponds to one of the emotions corresponding to each of the plurality of emotion models is determined by the number of learning data corresponding to the one emotion. By determining from the stomach feeling model in order, a program to function as estimating means for estimating the emotion of the user.
第1の発明に係る感情推定装置及びプログラムによれば、抽出手段が、ユーザを撮像して得られた画像データ、ユーザの発話により入力された音声データ、及びユーザにより発話以外で入力されたテキストデータの少なくとも1つの入力データの特徴を抽出する。また、感情モデル生成手段が、各々が異なる1つの感情に対応すると共に、各々が複数のサンプルデータから特徴と感情とを対応させて予め抽出した複数の学習データの各々に対して、該学習データの感情の各々が1つの感情に該当するか否かを表した複数の感情モデルを生成する。そして、推定手段が、抽出手段で抽出された入力データの特徴が、複数の感情モデルの各々に対応する1つの感情のいずれかに対応するかを、1つの感情に該当する学習データの個数が多い感情モデルから順に判断することにより、ユーザの感情を推定する。 According to the emotion estimation apparatus and the program according to the first invention, the extraction means captures image data obtained by imaging the user, voice data input by the user's utterance, and text input by the user other than the utterance. A feature of at least one input data of the data is extracted. In addition, the emotion model generation means corresponds to one different emotion, and each of the learning data for each of the plurality of learning data extracted in advance by associating features and emotions from a plurality of sample data. A plurality of emotion models expressing whether each of the emotions corresponds to one emotion is generated. The estimation means determines whether the feature of the input data extracted by the extraction means corresponds to one of the emotions corresponding to each of the plurality of emotion models. A user's emotion is estimated by judging in order from many emotion models.
このように、入力データの特徴が各感情モデルに該当するか否かを、該当する学習データの個数が多い感情モデルから順に判断するため、出現率の高い感情から判断されることになり、効率よくかつ精度よく感情を推定することができる。 In this way, whether or not the feature of the input data corresponds to each emotion model is determined in order from the emotion model with the large number of corresponding learning data, so it is determined from the emotion with a high appearance rate, and the efficiency Emotion can be estimated well and accurately.
また、第1の発明に係る感情推定装置及びプログラムの前記感情モデル生成手段は、前記複数の感情モデルの各々を生成する際に、前記該当する学習データの個数が多い順に生成すると共に、生成が終了した感情モデルに対応する感情に該当する学習データを、他の感情モデルを生成する際の学習データに含めないようにして前記他の感情モデルを生成することができる。 In addition, the emotion model generation means of the emotion estimation apparatus and program according to the first invention generates each of the plurality of emotion models in the descending order of the number of the corresponding learning data. The other emotion model can be generated such that the learning data corresponding to the emotion corresponding to the finished emotion model is not included in the learning data when generating another emotion model.
このように、該当する学習データの個数が多い順に感情モデルが生成され、生成された感情モデルに該当する学習データは他の感情モデル生成の際に学習データに含まれないようにすることで、感情モデルの各々に含まれる該当する学習データの個数と該当しない学習データの個数との偏りを軽減することができるため、精度のよい感情モデルが生成され、感情推定の精度をさらに向上させることができる。 In this way, emotion models are generated in descending order of the number of corresponding learning data, and the learning data corresponding to the generated emotion model is not included in the learning data when generating other emotion models, Since it is possible to reduce the bias between the number of corresponding learning data and the number of non-applicable learning data included in each emotion model, an accurate emotion model can be generated and the accuracy of emotion estimation can be further improved it can.
また、第2の発明に係る感情推定装置は、ユーザを撮像して得られた画像データ、前記ユーザの発話により入力された音声データ、及び前記ユーザにより前記発話以外で入力されたテキストデータの少なくとも1つの入力データの特徴を抽出する抽出手段と、前記抽出手段により抽出された前記入力データの特徴が、第1の極性を表す感情及び該第1の極性に対して反対の感情の第2の極性を表す感情のいずれを示すかを判別する極性判別手段と、各々が異なる1つの第1の極性を表す感情に対応すると共に、各々が複数のサンプルデータから特徴と第1の極性を表す感情とを対応させて予め抽出した複数の学習データの各々に対して、該学習データの感情の各々が前記1つの第1の極性を表す感情に該当するか否かを表した複数の第1感情モデルと、各々が異なる1つの第2の極性を表す感情に対応すると共に、各々が複数のサンプルデータから特徴と第2の極性を表す感情とを対応させて予め抽出した複数の学習データの各々に対して、該学習データの感情の各々が前記1つの第2の極性を表す感情に該当するか否かを表した複数の第2感情モデルとを生成する感情モデル生成手段と、前記極性判別手段で前記入力データの特徴が前記第1の極性を表す感情であると判別された場合には、前記抽出手段で抽出された前記入力データの特徴が、前記複数の第1感情モデルの各々に対応する1つの第1の極性を表す感情のいずれかに対応するかを、前記1つの第1の極性を表す感情に該当する学習データの個数が多い第1感情モデルから順に判断し、前記極性判別手段で前記入力データの特徴が前記第2の極性を表す感情であると判別された場合には、前記抽出手段で抽出された前記入力データの特徴が、前記複数の第2感情モデルの各々に対応する1つの第2の極性を表す感情のいずれかに対応するかを、前記1つの第2の極性を表す感情に該当する学習データの個数が多い第2感情モデルから順に判断することにより、前記ユーザの感情を推定する推定手段と、を含んで構成されている。 In addition, the emotion estimation apparatus according to the second aspect of the present invention includes at least image data obtained by imaging a user, voice data input by the user's utterance, and text data input by the user other than the utterance. Extraction means for extracting the feature of one input data, and the feature of the input data extracted by the extraction means is the second of the emotion representing the first polarity and the emotion opposite to the first polarity. Polarity discriminating means for discriminating which of the emotions representing the polarity, and emotions each corresponding to one emotion representing one different first polarity and each representing a feature and the first polarity from a plurality of sample data And a plurality of first emotions representing whether or not each of the emotions in the learning data corresponds to an emotion representing the one first polarity. Each of the plurality of learning data corresponding to Dell and emotions each representing one different second polarity and each extracted in advance corresponding to a feature and an emotion representing the second polarity from a plurality of sample data An emotion model generating means for generating a plurality of second emotion models representing whether or not each of the emotions in the learning data corresponds to an emotion representing the one second polarity, and the polarity determination When the means determines that the feature of the input data is an emotion representing the first polarity, the feature of the input data extracted by the extraction means is included in each of the plurality of first emotion models. It is judged in order from the first emotion model having a large number of learning data corresponding to the emotion representing the first polarity, which one of the corresponding emotions representing the first polarity corresponds, The input device When the feature of the input data is determined to be an emotion representing the second polarity, the feature of the input data extracted by the extraction means is one corresponding to each of the plurality of second emotion models. By determining in order from the second emotion model in which the number of learning data corresponding to the emotion representing the one second polarity corresponds to any of the emotions representing the second polarity, the user's emotions And estimating means for estimating.
また、第2の発明に係る感情推定プログラムは、コンピュータを、ユーザを撮像して得られた画像データ、前記ユーザの発話により入力された音声データ、及び前記ユーザにより前記発話以外で入力されたテキストデータの少なくとも1つの入力データの特徴を抽出する抽出手段と、前記抽出手段により抽出された前記入力データの特徴が、第1の極性を表す感情及び該第1の極性に対して反対の感情の第2の極性を表す感情のいずれを示すかを判別する極性判別手段と、各々が異なる1つの第1の極性を表す感情に対応すると共に、各々が複数のサンプルデータから特徴と第1の極性を表す感情とを対応させて予め抽出した複数の学習データの各々に対して、該学習データの感情の各々が前記1つの第1の極性を表す感情に該当するか否かを表した複数の第1感情モデルと、各々が異なる1つの第2の極性を表す感情に対応すると共に、各々が複数のサンプルデータから特徴と第2の極性を表す感情とを対応させて予め抽出した複数の学習データの各々に対して、該学習データの感情の各々が前記1つの第2の極性を表す感情に該当するか否かを表した複数の第2感情モデルとを生成する感情モデル生成手段と、前記極性判別手段で前記入力データの特徴が前記第1の極性を表す感情であると判別された場合には、前記抽出手段で抽出された前記入力データの特徴が、前記複数の第1感情モデルの各々に対応する1つの第1の極性を表す感情のいずれかに対応するかを、前記1つの第1の極性を表す感情に該当する学習データの個数が多い第1感情モデルから順に判断し、前記極性判別手段で前記入力データの特徴が前記第2の極性を表す感情であると判別された場合には、前記抽出手段で抽出された前記入力データの特徴が、前記複数の第2感情モデルの各々に対応する1つの第2の極性を表す感情のいずれかに対応するかを、前記1つの第2の極性を表す感情に該当する学習データの個数が多い第2感情モデルから順に判断することにより、前記ユーザの感情を推定する推定手段として機能させるためのプログラムである。 According to a second aspect of the present invention, there is provided an emotion estimation program comprising: image data obtained by imaging a computer; audio data input by the user's utterance; and text input by the user other than the utterance. Extracting means for extracting at least one feature of input data of the data, and the feature of the input data extracted by the extracting means includes an emotion representing a first polarity and an emotion opposite to the first polarity. The polarity discrimination means for discriminating which of the emotions representing the second polarity and the emotion each representing a different first polarity, and each of the features and the first polarity from a plurality of sample data Whether or not each of the plurality of learning data previously extracted in correspondence with the emotion representing the emotion corresponds to the emotion representing the one first polarity A plurality of first emotion models represented and corresponding to emotions each representing one different second polarity, and each corresponding to a feature and an emotion representing the second polarity are extracted in advance from a plurality of sample data. An emotion model that generates, for each of the plurality of learning data, a plurality of second emotion models that indicate whether each of the emotions in the learning data corresponds to the emotion that represents the one second polarity When the generation unit and the polarity determination unit determine that the feature of the input data is an emotion representing the first polarity, the feature of the input data extracted by the extraction unit is the plurality of features The first emotion model having a large number of learning data corresponding to the emotion representing the first polarity, which corresponds to one of the emotions representing the first polarity corresponding to each of the first emotion models. Judging in order from the above When the determining means determines that the feature of the input data is an emotion representing the second polarity, the feature of the input data extracted by the extracting means is the each of the plurality of second emotion models. Is determined in order from the second emotion model in which the number of learning data corresponding to the emotion representing the one second polarity is large. This is a program for functioning as an estimation means for estimating the emotion of the user.
第2の発明に係る感情推定装置及びプログラムによれば、極性判別手段が、抽出手段により抽出された入力データの特徴が、第1の極性を表す感情及び該第1の極性に対して反対の感情の第2の極性を表す感情のいずれを示すかを判別する。また、感情も出る生成手段が、各々が異なる1つの第1の極性を表す感情に対応すると共に、各々が複数のサンプルデータから特徴と第1の極性を表す感情とを対応させて予め抽出した複数の学習データの各々に対して、該学習データの感情の各々が1つの第1の極性を表す感情に該当するか否かを表した複数の第1感情モデルと、各々が異なる1つの第2の極性を表す感情に対応すると共に、各々が複数のサンプルデータから特徴と第2の極性を表す感情とを対応させて予め抽出した複数の学習データの各々に対して、該学習データの感情の各々が1つの第2の極性を表す感情に該当するか否かを表した複数の第2感情モデルとを生成する。 According to the emotion estimation apparatus and the program according to the second invention, the polarity discrimination means has the characteristics of the input data extracted by the extraction means opposite to the emotion representing the first polarity and the first polarity. It is determined which of the emotions representing the second polarity of emotion is shown. In addition, the generating means for generating emotions corresponds to emotions each representing a different first polarity, and each of the features is extracted in advance from a plurality of sample data in association with features representing the first polarity. For each of a plurality of learning data, a plurality of first emotion models each expressing whether or not each of the emotions of the learning data corresponds to an emotion representing one first polarity, and one different first 2 for each of a plurality of pieces of learning data preliminarily extracted in association with a feature and a feeling representing a second polarity from a plurality of sample data. And a plurality of second emotion models representing whether each of them corresponds to an emotion representing one second polarity.
そして、極性判別手段で入力データの特徴が第1の極性を表す感情であると判別された場合には、抽出手段で抽出された入力データの特徴が、複数の第1感情モデルの各々に対応する1つの第1の極性を表す感情のいずれかに対応するかを、1つの第1の極性を表す感情に該当する学習データの個数が多い第1感情モデルから順に判断し、極性判別手段で入力データの特徴が第2の極性を表す感情であると判別された場合には、抽出手段で抽出された入力データの特徴が、複数の第2感情モデルの各々に対応する1つの第2の極性を表す感情のいずれかに対応するかを、1つの第2の極性を表す感情に該当する学習データの個数が多い第2感情モデルから順に判断することにより、ユーザの感情を推定する。 When the polarity determining unit determines that the feature of the input data is an emotion representing the first polarity, the feature of the input data extracted by the extracting unit corresponds to each of the plurality of first emotion models. Which one of the emotions representing one first polarity is determined in order from the first emotion model having a large number of learning data corresponding to the emotion representing one first polarity. When it is determined that the feature of the input data is an emotion representing the second polarity, the feature of the input data extracted by the extraction unit is one second corresponding to each of the plurality of second emotion models. The user's emotion is estimated by sequentially determining from the second emotion model in which the number of learning data corresponding to one emotion representing the second polarity corresponds to one of the emotions representing the polarity.
このように、第1の極性を表す感情について複数の第1感情モデルを生成し、第1の極性と反対の感情の第2の極性を表す感情について複数の第2感情モデルを生成し、まず入力データの特徴の極性を判別した上で、該当する極性を表す感情についての感情モデルに該当するか否かを判断するため、第1の極性を表す感情を第2の極性を表す感情であると推定したり、第2の極性を表す感情を第1の極性を表す感情であると推定したりという致命的な誤判断を防止することができる。 In this way, a plurality of first emotion models are generated for the emotion representing the first polarity, a plurality of second emotion models are generated for the emotion representing the second polarity of the emotion opposite to the first polarity, After determining the polarity of the feature of the input data, the emotion representing the first polarity is the emotion representing the second polarity in order to determine whether the emotion model representing the emotion representing the corresponding polarity is applicable. It is possible to prevent a fatal misjudgment such as presuming that the emotion representing the second polarity is estimated as the emotion representing the first polarity.
また、第2の発明に係る感情推定装置及びプログラムは、前記複数の学習データの各々に対して、該学習データの感情の各々が前記第1の極性を表す感情に該当するか前記第2の極性を表す感情に該当するかを表した感情極性モデルを生成する感情極性モデル生成手段をさらに含み、前記極性判別手段は、前記感情極性モデルに基づいて、前記入力データの特徴が、前記第1の極性を表す感情及び前記第2の極性を表す感情のいずれを示すかを判別するようにすることができる。 In addition, the emotion estimation apparatus and the program according to the second invention may be configured so that, for each of the plurality of learning data, each of the emotions in the learning data corresponds to an emotion representing the first polarity. An emotion polarity model generating means for generating an emotion polarity model representing whether the emotion corresponds to an emotion representing a polarity, wherein the polarity determining means is configured such that the feature of the input data is based on the emotion polarity model; It is possible to discriminate which one of the emotions representing the polarity of the second one and the emotions representing the second polarity are shown.
また、第2の発明に係る感情推定装置及びプログラムの前記感情モデル生成手段は、前記複数の第1感情モデルの各々を生成する際に、前記該当する学習データの個数が多い順に生成すると共に、生成が終了した第1感情モデルに対応する第1の極性を表す感情に該当する学習データを、他の第1感情モデルを生成する際の学習データに含めないようにして前記他の第1感情モデルを生成し、前記複数の第2感情モデルの各々を生成する際に、前記該当する学習データの個数が多い順に生成すると共に、生成が終了した第2感情モデルに対応する第2の極性を表す感情に該当する学習データを、他の第2感情モデルを生成する際の学習データに含めないようにして前記他の第2感情モデルを生成するようにすることができる。 In addition, the emotion model generation means of the emotion estimation device and the program according to the second invention generates each of the plurality of first emotion models in order of increasing number of the corresponding learning data, The learning data corresponding to the emotion representing the first polarity corresponding to the first emotion model that has been generated is not included in the learning data when generating the other first emotion model, and the other first emotions are not included. When the model is generated and each of the plurality of second emotion models is generated, the second learning model is generated in descending order of the number of corresponding learning data, and the second polarity corresponding to the second emotion model that has been generated is set. The other second emotion model can be generated such that the learning data corresponding to the emotion to be expressed is not included in the learning data when the other second emotion model is generated.
このように、極性毎に該当する学習データの個数が多い順に感情モデルが生成され、生成された感情モデルに該当する学習データは他の感情モデル生成の際に含まれないようにすることで、感情モデルの各々に含まれる該当する学習データの個数と該当しない学習データの個数との偏りを軽減することができるため、精度のよい感情モデルが生成され、感情推定の精度をさらに向上させることができる。 In this way, emotion models are generated in descending order of the number of corresponding learning data for each polarity, and learning data corresponding to the generated emotion model is not included when generating other emotion models, Since it is possible to reduce the bias between the number of corresponding learning data and the number of non-applicable learning data included in each emotion model, an accurate emotion model can be generated and the accuracy of emotion estimation can be further improved it can.
以上説明したように、本発明の感情推定装置及びプログラムによれば、1つの感情に対応する感情モデルに該当する学習データの個数を考慮して学習モデルを生成することにより、効率よくかつ精度よく感情を推定することができる、という効果が得られる。 As described above, according to the emotion estimation apparatus and program of the present invention, the learning model is generated in consideration of the number of learning data corresponding to the emotion model corresponding to one emotion, thereby efficiently and accurately. The effect that emotion can be estimated is obtained.
以下、図面を参照して本発明の実施の形態について詳細に説明する。なお、以下では、本発明の感情推定装置を、ユーザからの入力に対応した応答を生成してユーザと対話を行う感情推定対話装置に適用した場合について説明する。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings. Hereinafter, a case will be described in which the emotion estimation device of the present invention is applied to an emotion estimation dialogue device that generates a response corresponding to an input from the user and interacts with the user.
図1に示すように、第1の実施の形態に係る感情推定対話装置10は、ユーザの音声を入力するためのマイク12、ユーザの顔を撮像するための撮像装置14、応答を音声で出力するためのスピーカ16、及び感情推定及び応答生成の制御を実行するコンピュータ18を備えている。
As shown in FIG. 1, the emotion estimation dialogue apparatus 10 according to the first embodiment includes a
コンピュータ18は、感情推定対話装置10全体の制御を司るCPU24、後述する感情推定モデル生成処理及び対話処理のプログラム等各種プログラムを記憶した記憶媒体としてのROM26、ワークエリアとしてデータを一時的に格納するRAM28、各種情報が記憶された記憶手段としてのHDD(ハードディスク)30、ネットワークと接続するためのネットワークI/F(インタフェース)部32、I/O(入出力)ポート34、及びこれらを接続するバスを含んで構成されている。I/Oポート34には、マイク12、撮像装置14及びスピーカ16が接続されている。
The
まず、後述する感情推定モデル生成処理に使用される学習元データベースについて説明する。学習元データベースは、例えば、図2に示されるようなものある。このような学習元データベース40を得るためには、まず、対話中の人物の顔画像を撮影して得られる画像データ及び発話に基づく音声データを取得する。音声データと画像データとは略同時に取得される。また、音声データ及び画像データが取得された際の人物の感情を人物に対してヒアリングするなどして得ておく。なお、感情は予め定めたn(nは自然数)種類の感情に限定するものとし、ここでは、例えば、「嫌」「嬉しい」「残念」「楽しい」「恐い」「不安」「寂しい」「腹立たしい」「悲しい」の9種類(n=9)とする。なお、感情の種類は、10以上であっても、8以下であってもよい。
First, the learning source database used for the emotion estimation model generation process described later will be described. The learning source database is, for example, as shown in FIG. In order to obtain such a
画像データについては、エッジ処理などの画像処理を施して表情を認識するなどして画像特徴Iを抽出する。音声データについては、音声認識処理によりテキストデータに変換し、変換したテキストデータから、例えば、「ので」「ため」などの手がかり語を用いた方法で感情状態を示す感情語をテキスト特徴Tとして抽出する。同一の音声データについて、韻律を分析するなどして韻律特徴Rを抽出する。 For image data, the image feature I is extracted by performing image processing such as edge processing to recognize facial expressions. For voice data, it is converted into text data by voice recognition processing, and an emotion word indicating an emotional state is extracted from the converted text data as a text feature T by a method using a clue word such as “So” and “For”. To do. For the same voice data, prosodic features R are extracted by analyzing the prosody.
この画像特徴I、テキスト特徴T、及び韻律特徴Rをまとめて1つの特徴42とし、これらの特徴が抽出された画像データ及び音声データが取得された際の人物の感情44と特徴42とを対応付けて1つの学習データ46とする。上述の音声データ及び画像データと、音声データ及び画像データが取得された際の感情とを大量に取得しておき、学習データ46を大量に生成することで学習元データベース40を構築する。
The image feature I, the text feature T, and the prosody feature R are combined into one
なお、学習元データベース40は、人物から取得される情報から抽出される特徴と感情とを対応付けた学習データから構成されていればよく、取得するデータの種類、抽出される特徴の種類、特徴の抽出方法、及び感情の種類などは上記の内容に限定されるものではない。また、学習元データベース40は、本実施の形態の感情推定対話装置10で構築してもよいし、他の外部装置により構築してもよい。感情推定対話装置10で構築した場合には、構築された学習元データベース40は、HDD30に記憶しておく。外部装置で構築した場合には、ネットワークを介して取得することができる。本実施の形態では、学習元データベース40は、外部装置にて構築されて外部装置に記憶されている場合について説明する。
The
次に、図3を参照して、第1の実施の形態における感情推定モデル生成の処理ルーチンについて説明する。 Next, with reference to FIG. 3, a processing routine for generating an emotion estimation model in the first embodiment will be described.
ステップ100で、ネットワークI/F32を介してネットワークに接続された外部装置から学習元データベース40を取得する。
In
次に、ステップ102で、感情44毎に学習データ46の個数をカウントして、次に、ステップ104で、最もカウント数が多かった感情をパラメータXに設定する。例えば、本実施の形態では「嫌」という感情44の学習データ46の個数が最も多かった場合を例としているので、X=「嫌」と設定する。次に、ステップ106の学習処理を実行する。
Next, in
ここで、図4を参照して、学習処理の処理ルーチンについて説明する。 Here, the processing routine of the learning process will be described with reference to FIG.
ステップ200で、学習元データベース40の学習データ46を1つずつ学習していく。ここでは、学習の手法としてSVM(Support Vector Machine)の手法を用いる。まず、1つ目の学習データ46の感情44がXか否かを判断する。Xの場合、すなわち学習データ46の感情44が感情Xに該当する場合には、ステップ202へ進んで正例として学習を行い、Xではない場合、すなわち学習データ46の感情44が感情Xに該当しない場合には、ステップ204へ進んで負例として学習を行う。図2の学習元データベース40の場合では、1つ目の学習データ46の感情44は「楽しい」であるので、ステップ200で否定されてステップ204で負例として学習される。
In
次に、ステップ206で、学習元データベース40のすべての学習データ46について学習を終了したか否かを判断する。未学習の学習データ46が残っている場合には、ステップ200へ戻って、次の学習データ46について学習を繰り返す。図2の学習元データベース40の場合では、2つ目の学習データ46の感情44は「嫌」であるので、ステップ200で肯定されてステップ202で正例として学習される。
Next, in
学習元データベース40内のすべての学習データ46について学習が終了した場合には、ステップ206で肯定されてリターンする。この学習処理により、1つ目の感情X(=1)についての感情モデルM(1)が生成される。ここでは、感情モデルM(1)は、1つの感情「嫌」に対応する感情モデル(「嫌」モデル)である。
When learning is completed for all the learning
次に、感情推定モデル生成処理ルーチン(図3)のステップ108で、学習元データベース40から感情Xに該当する学習データ46、すなわち正例の学習データ46のすべてを削除する。なお、本実施の形態では、感情Xに対して正例の学習データ46を削除することとしたが、学習元データベース40からは削除せず、次の感情モデル生成の際に、既に生成された感情モデルに該当する感情の学習データ46か否かを判断するステップを設け、否定判断される学習データ46のみを感情モデルの生成に使用するようにしてもよい。
Next, in
次に、ステップ110で、学習元データベース40に残っている学習データ46の感情44の種類が1種類か否かを判断する。2種類以上残っている場合には、ステップ106へ戻り、残っている学習データ46のうち、最も学習データの個数が多い感情をパラメータXに設定して以降の処理を繰り返し、感情毎の感情モデルM(i)(iは感情モデルが生成された順に付与される通し番号)を生成する。
Next, in
ステップ110で、残りの感情が1種類であると判断された場合には、ステップ112へ進んで、生成した感情毎の感情モデルM(i)を、感情モデルM(1)、感情モデルM(2)、・・・、感情モデルM(n−1)のように配列した感情推定モデルを構築する。なお、感情の種類がn種類の場合には、最後の感情については感情モデルが生成されないため、配列の最後は感情モデルM(n−1)になっている。
If it is determined in
例えば、学習データの個数が「嫌」「嬉しい」「残念」「楽しい」「恐い」「不安」「寂しい」「腹立たしい」「悲しい」の順で多かったとすると、M(1)=「嫌」モデル、M(2)=「嬉しい」モデル、・・・、M(8)=「腹立たしい」モデルとなり、図5に示すように、「嫌」モデル、「嬉しい」モデル、「残念」モデル、「楽しい」モデル、「恐い」モデル、「不安」モデル、「寂しい」モデル及び「腹立たしい」モデルの順で各感情モデル50が配列された感情推定モデルが構築される。感情推定モデルをHDD30に記憶して処理を終了する。
For example, if the number of learning data is “dislike”, “happy”, “sorry”, “fun”, “scary”, “anxiety”, “lonely”, “angry”, “sad”, M (1) = “dislike” model , M (2) = “joyful” model,..., M (8) = “angry” model, as shown in FIG. 5, “dislike” model, “happy” model, “sorry” model, “fun” The emotion estimation model in which the
次に、図6を参照して、感情推定を含む対話処理の処理ルーチンについて説明する。 Next, a processing routine for dialogue processing including emotion estimation will be described with reference to FIG.
ステップ300で、ユーザによりマイク12から入力される音声データ及びユーザの顔を撮像装置14で撮像した画像データを取り込む。次に、ステップ302で、取り込んだ画像データから画像特徴I0を抽出する。次に、ステップ304で、音声データを音声認識してテキストデータに変換し、変換したテキストデータからテキスト特徴T0を抽出する。次に、ステップ306で同一の音声データから韻律特徴R0を抽出する。画像特徴I0、テキスト特徴T0及び韻律特徴R0の抽出方法は、学習元データベース40を構築する際に画像特徴I、テキスト特徴T及び韻律特徴Rを抽出した方法と同じ方法を用いる。
In
次に、ステップ308で、画像特徴I0、テキスト特徴T0及び韻律特徴R0をまとめて入力データの特徴を求める。次に、ステップ310で、後述する感情推定処理を実行し、次に、ステップ312で、応答生成出力処理を実行して、推定された感情に応じた応答を生成して出力する。応答生成出力処理については従来の技術を用いることができるため、説明を省略する。
Next, in step 308, the image feature I 0 , the text feature T 0, and the prosody feature R 0 are collected to obtain the feature of the input data. Next, in
ここで、図7を参照して、感情推定処理の処理ルーチンについて説明する。 Here, the processing routine of the emotion estimation process will be described with reference to FIG.
ステップ400で、カウンタ値iに「1」をセットする。このカウンタ値iは、感情推定モデルに含まれる各感情モデルに付与された通し番号に対応するものである。カウンタ値i=1として、以下のステップで通し番号「1」の感情モデルから順に比較することにより、感情推定モデルを構築した際に使用した学習元データベース40の中の学習データの個数が多い感情に対応する感情モデルから順に判断が行われることになる。
In
次に、ステップ402で、対話処理(図6)のステップ308で求められた入力データの特徴が示す感情が感情推定モデルの最初の感情モデルM(1)に対応する感情に該当するか否かを、感情モデルを生成した際の手法に対応した手法を用いて判断する。該当する場合には、ステップ404へ進み、推定結果として感情モデルM(1)に対応する感情F(1)を出力する。
Next, in
ステップ402で該当しないと判断された場合には、ステップ406へ進み、感情モデルM(1)が感情推定モデルの最後の感情モデルか否かを判断する。最後の感情モデルではない場合には、次の感情モデルとの比較を行うため、ステップ408へ進んでカウンタ値iをインクリメントしてステップ402へ戻る。
If it is determined in
上記ステップを繰り返し、最後の感情モデルM(n−1)に対応する感情にも該当しなかった場合には、ステップ406で肯定されてステップ410へ進み、感情モデルの生成されていなかった感情、すなわち該当する学習データの個数が最も少なかった感情を推定結果F(n)として出力してリターンする。
If the above steps are repeated and the emotion corresponding to the last emotion model M (n−1) does not correspond to the emotion, the affirmative determination is made in
上記処理を図5に示す感情推定モデルを例にして説明すると、まず、入力データの特徴が示す感情が「嫌」モデルに該当するか否かを判断し、該当する場合には、推定結果「嫌」を出力し、該当しない場合には、次の「嬉しい」モデルに該当するか否かを判断する。該当する場合には、推定結果「嬉しい」を出力する。該当しない場合には、順次次の感情モデル50との判断を行う。最後の「腹立たしい」モデルに該当するか否かを判断し、該当する場合には、推定結果「腹立たしい」を出力し、該当しない場合には、推定結果「悲しい」を出力して終了する。
The above process will be described by taking the emotion estimation model shown in FIG. 5 as an example. First, it is determined whether or not the emotion indicated by the feature of the input data corresponds to the “dislike” model. If it is not applicable, it is determined whether or not it falls under the following “happy” model. If applicable, the estimation result “happy” is output. If not, the
このように、該当する学習データの個数が多い感情モデルから順に、入力データの特徴が該当するか否かを判断するため、出現率の高い感情から該当するか否かの判断を行うこととなり、効率よく感情推定を行うことができる。また、該当する学習データの個数が多い順に感情モデルが生成され、かつ生成を終了した感情モデルに該当する学習データを削除して次の感情モデルを生成して感情推定モデルを構築することにより、各感情モデルを生成する際の正例の学習データの個数と負例の学習データの個数との偏りが解消された精度の高い感情モデルにより感情推定モデルが構築されることとなり、感情推定の精度が向上する。 In this way, in order from the emotion model in which the number of corresponding learning data is large, in order to determine whether or not the feature of the input data corresponds, it is determined whether or not it corresponds from the emotion with a high appearance rate, Emotion estimation can be performed efficiently. In addition, by creating an emotion estimation model by generating the next emotion model by deleting the learning data corresponding to the emotion model that has been generated and generating the emotion model in the order of the number of corresponding learning data, The emotion estimation model is constructed from a highly accurate emotion model that eliminates the bias between the number of positive learning data and the number of negative learning data when generating each emotion model. Will improve.
次に、第2の実施の形態に係る感情推定対話装置について説明する。第2の実施の形態では、感情極性を判別する点が第1の実施の形態とは異なる。なお、第1の実施の形態と同一の構成及び処理については、同一の符号を付して説明を省略する。 Next, an emotion estimation dialogue apparatus according to the second embodiment will be described. The second embodiment is different from the first embodiment in that the emotion polarity is discriminated. In addition, about the structure and process same as 1st Embodiment, the same code | symbol is attached | subjected and description is abbreviate | omitted.
まず、図8を参照して、第2の実施の形態における感情推定モデル生成の処理ルーチンについて説明する。 First, with reference to FIG. 8, a processing routine for generating an emotion estimation model in the second embodiment will be described.
ステップ100で、学習元データベース40を取得し、次に、ステップ500で、学習元データベース40に含まれる学習データ46を感情の示す極性に基づいて分類する。例えば、感情の種類として「嫌」「嬉しい」「残念」「楽しい」「恐い」「不安」「寂しい」「腹立たしい」「悲しい」及び「安心」が学習元データベース40に含まれている場合、「嬉しい」「楽しい」及び「安心」をポジティブ極性、「嫌」「残念」「恐い」「不安」「寂しい」「腹立たしい」及び「悲しい」をネガティブ極性とする。このポジティブ極性及びネガティブ極性の一方を第1の極性、他方を第2の極性とすることができ、第1の極性と第2の極性とは反対の感情を有することになる。この極性に基づいて学習元データベース40の学習データ46を分類し、ポジティブ極性の学習元データベース及びネガティブ極性の学習元データベースを構築する。
In
次に、ステップ502〜ステップ510で、ポジティブ極性の学習元データベースの学習データを使用して、第1の実施の形態の感情推定モデル生成処理(図3)のステップ102〜ステップ110と同様の処理により、ポジティブ極性の感情モデルを生成する。
Next, in steps 502 to 510, processing similar to
次に、ステップ512〜ステップ520で、同様に、ネガティブ極性の学習元データベースの学習データを利用して、ネガティブ極性の感情モデルを生成する。 Next, in steps 512 to 520, similarly, the negative polarity emotion model is generated using the learning data of the negative polarity learning source database.
ステップ520で、肯定判定されたステップ522へ進んで、生成したポジティブ極性の感情毎の感情モデルMP(i)を、感情モデルMP(1)、感情モデルMP(2)、・・・、感情モデルMP(n−1)のように配列し、生成したネガティブ極性の感情毎の感情モデルMN(i)を、感情モデルMN(1)、感情モデルMN(2)、・・・、感情モデルMN(n−1)のように配列した感情推定モデルを構築する。
In
例えば、ポジティブ極性の学習データの個数が「嬉しい」「楽しい」「安心」の順で多かったとすると、MP(1)=「嬉しい」モデル、MP(2)=「楽しい」モデルとなり、ネガティブ極性の学習データの個数が「嫌」「残念」「恐い」「不安」「寂しい」「腹立たしい」「悲しい」の順で多かったとすると、MN(1)=「嫌」モデル、MP(2)=「残念」モデル、・・・、MN(6)=「腹立たしい」モデルとなり、図9に示すように、ポジティブ極性については、「嬉しい」モデル及び「楽しい」モデルの順で各感情モデル50が配列され、ネガティブ極性については、「嫌」モデル、「残念」モデル、「恐い」モデル、「不安」モデル、「寂しい」モデル及び「腹立たしい」モデルの順で各感情モデル50が配列された感情推定モデルが構築される。感情推定モデルをHDD30に記憶して処理を終了する。
For example, if there are many positive polarity learning data in the order of “joyful”, “fun”, “reliable”, MP (1) = “joyful” model, MP (2) = “fun” model, and negative polarity If the number of learning data is “dislike”, “sorry”, “fear”, “anxiety”, “lonely”, “offended”, “sad”, MN (1) = “dislike” model, MP (2) = “sorry ”Model,..., MN (6) =“ annoyed ”model, and as shown in FIG. 9, with respect to positive polarity, the
次に、図10を参照して、第2の実施の形態における感情推定を含む対話処理の処理ルーチンについて説明する。 Next, with reference to FIG. 10, a processing routine for dialogue processing including emotion estimation in the second embodiment will be described.
ステップ300〜ステップ306で、画像データから画像特徴I0と、音声データからテキスト特徴T0、及び韻律特徴R0とを抽出し、これらの特徴をまとめて入力データの特徴を求める。次に、ステップ600で、入力データの特徴が示す感情がポジティブか否かを判断する。この判断は、例えば、入力データの特徴の1つであるテキスト特徴T0の持つ概念から判断するなど、周知の技術を用いることができる。
In
ステップ600で肯定判定された場合には、ステップ602へ進んで、入力データの特徴が示す感情が感情推定モデルのポジティブ極性として配列された感情モデルに該当するか否かを感情モデルが配列された順に判断することによりユーザの感情を推定する。例えば、入力データの特徴が示す極性がポジティブであった場合には、図9に示す感情推定モデルにおいて、「嬉しい」モデル及び「楽しい」モデルの順に該当するか否かを判断していく。
If an affirmative determination is made in
また、ステップ600で否定判定された場合には、ステップ604へ進んで、入力データの特徴が示す感情が感情推定モデルのネガティブ極性として配列された感情モデルに該当するか否かを感情モデルが配列された順に判断することにより感情を推定する。例えば、入力データの特徴が示す極性がポジティブではなかった場合(ネガティブの場合)には、図9に示す感情推定モデルにおいて、「嫌」モデル、「残念」モデル、「恐い」モデル、「不安」モデル、「寂しい」モデル及び「腹立たしい」モデルの順に該当するか否かを判断していく。感情推定処理の詳細については、第1の実施の形態と同様である。
If a negative determination is made in
次に、ステップ312で、応答生成出力処理を実行して、推定された感情に応じた応答を生成して出力する。
Next, in
このように、入力データの特徴が示す感情がポジティブかネガティブかという反対の極性のいずれであるかを判別し、ポジティブの場合には、ポジティブ極性の感情モデルに該当するか否か、ネガティブの場合には、ネガティブ極性の感情モデルに該当するか否かを、該当する学習データの個数が多い順に判断するため、第1の実施の形態の効果に加え、ポジティブの感情をネガティブの感情であると推定したり、ネガティブの感情をポジティブの感情であると推定したりという致命的な誤判断を防止することができる。 In this way, it is determined whether the emotion indicated by the characteristics of the input data is positive or negative, and if it is positive, if it is positive, whether it falls under the positive polarity emotion model or not In order to determine whether or not it falls under the negative polarity emotion model, in order from the largest number of corresponding learning data, in addition to the effects of the first embodiment, positive emotions are negative emotions. It is possible to prevent fatal misjudgments such as estimation or estimation of negative emotions as positive emotions.
なお、上記対話処理の処理ルーチンのステップ600では、テキストの持つ概念から感情の極性を判断する等の周知技術を用いる場合について説明したが、感情モデル50を生成した手法と同じ手法により、感情極性モデルを生成して、入力データの特徴がポジティブ極性及びネガティブ極性のいずれに該当するかを判別するようにしてもよい。感情極性モデルは、学習元データベース40の学習データ46の各々を、学習データ46の感情44がポジティブ極性の場合には正例として、ネガティブ極性の場合には負例として学習することにより生成することができる。また、極性は、ポジティブ極性及びネガティブ極性の2値であるため、ネガティブ極性の場合には正例として、ポジティブ極性の場合には負例として学習することによっても、同様に感情極性モデルを生成することができる。
In
次に、第3の実施の形態に係る感情推定対話装置について説明する。第3の実施の形態では、スコアを用いて各感情モデルに該当するか否かを判断する点が第1の実施の形態及び第2の実施形態と異なる。なお、第1の実施の形態及び第2の実施の形態と同一の構成及び処理については、同一の符号を付して説明を省略する。 Next, an emotion estimation dialogue apparatus according to the third embodiment will be described. The third embodiment is different from the first embodiment and the second embodiment in that it is determined whether or not each emotion model falls under the score. In addition, about the structure and process same as 1st Embodiment and 2nd Embodiment, the same code | symbol is attached | subjected and description is abbreviate | omitted.
図11を参照して、第3の実施の形態における感情推定モデル生成の処理ルーチンについて説明する。 With reference to FIG. 11, a processing routine for generating an emotion estimation model in the third embodiment will be described.
ステップ100で、学習元データベース40を取得し、次に、ステップ700で、後述する生成済み感情モデルに該当する学習データ46に設定されるフラグを確認し、フラグが立っていない学習データ46の個数を感情44毎にカウントして、次に、ステップ104で、最もカウント数の多かった学習データの感情をパラメータXに設定し、次に、ステップ106の学習処理を実行する。
In
次に、ステップ702で、学習元データベース40の感情Xに該当する学習データ46、すなわち正例の学習データ46に対応する感情モデルが生成されたことを示すフラグを立てる。次に、ステップ704で、フラグが立っていない学習データ46の感情44の種類が1種類か否かを判断する。2種類以上残っている場合には、ステップ700へ戻り、フラグが立っていない学習データ46について学習処理を繰り返し、感情毎の感情モデルM(i)(iは感情モデルが生成された順に付与される通し番号)を生成する。
Next, in
ステップ704で、フラグが立っていない学習データ46の感情44が1種類であると判断された場合には、ステップ706へ進んで、最後の1種類の感情をパラメータXに設定する。次に、ステップ708で、フラグが立っている学習データ46の中からランダムに所定数の学習データ46を選択してフラグをはずす。ここで所定数は、最後の感情Xに対応する感情モデルを生成する際の負例とするのに適当な個数とし、例えば、最後の感情Xに該当する学習データ46の個数と同数とする。
If it is determined in
次に、ステップ710で学習処理を実行し、次に、ステップ112で、生成した感情毎の感情モデルM(i)を、感情モデルM(1)、感情モデルM(2)、・・・、感情モデルM(n)のように配列した感情推定モデルを構築する。なお、第3の実施の形態では、感情の種類がn種類の場合に、最後の1種類の感情についても感情モデルが生成されるため、配列の最後は感情モデルM(n)となる。
Next, learning processing is executed in step 710, and then in
例えば、学習データの個数が「嫌」「嬉しい」「残念」「楽しい」「恐い」「不安」「寂しい」「腹立たしい」「悲しい」の順で多かったとすると、M(1)=「嫌」モデル、M(2)=「嬉しい」モデル、・・・、M(9)=「悲しい」モデルとなり、図12に示すように、「嫌」モデル、「嬉しい」モデル、「残念」モデル、「楽しい」モデル、「恐い」モデル、「不安」モデル、「寂しい」モデル、「腹立たしい」モデル及び「悲しい」モデルの順で各感情モデル50が配列された感情推定モデルが構築される。感情推定モデルをHDD30に記憶して処理を終了する。
For example, if the number of learning data is “dislike”, “happy”, “sorry”, “fun”, “scary”, “anxiety”, “lonely”, “angry”, “sad”, M (1) = “dislike” model , M (2) = “happy” model,..., M (9) = “sad” model, as shown in FIG. 12, “dislike” model, “happy” model, “sorry” model, “fun” The emotion estimation model in which the
次に、図13を参照して、第3の実施の形態における対話処理(図6)ステップ308の感情推定の処理ルーチンについて説明する。対話処理の他のステップについては、第1の実施の形態と同様の処理であるので説明を省略する。 Next, with reference to FIG. 13, an emotion estimation processing routine in step 308 of the interactive processing (FIG. 6) in the third embodiment will be described. Since the other steps of the dialogue process are the same as those in the first embodiment, description thereof will be omitted.
ステップ400で、カウンタ値iに「1」をセットし、次に、ステップ800で、入力データの特徴が示す感情の感情モデルM(i)に対する当てはまりの度合いを示すスコアを算出する。スコアの算出には、感情モデルを生成した際の手法に対応した手法を用いる。例えば、SVMの手法では、正例の学習データと負例の学習データとの分離超平面上をスコア0とし、入力データの特徴が分離超平面から離れるほどスコアの絶対値を大きくし、正例側に離れるのであればプラス、負例側に離れるのであればマイナスとなるようにスコアを算出することができる。
In
次に、ステップ802で、算出したスコアが所定値以上か否かを判断する。ここで、所定値は、各感情モデルに該当するか否かを高い精度で判断するために、0より大きな値とすることができる。スコアが所定値以上の場合には、ステップ404へ進み、推定結果として感情モデルM(1)に該当する感情F(1)を出力する。
Next, in
ステップ802で、スコアが所定値より小さいと判断された場合には、ステップ406へ進み、感情モデルM(1)が感情推定モデルの最後の感情モデルか否かを判断する。最後の感情モデルではない場合には、次の感情モデルとの比較を行うため、ステップ408へ進んでカウンタ値iをインクリメントしてステップ800へ戻る。
If it is determined in
上記ステップを繰り返し、最後の感情モデルM(n)に対してもスコアが所定値以上とならなかった場合には、ステップ406で肯定されてステップ804へ進み、所定種類のいずれの感情にも該当しなかったため、推定結果「不明」を出力してリターンする。
If the above steps are repeated and the score does not exceed the predetermined value even for the last emotion model M (n), the result is affirmative in
推定結果「不明」の場合には、応答生成出力処理で、例えば相槌を打つなどの曖昧な応答を生成して出力するようにするとよい。 When the estimation result is “unknown”, it is preferable to generate and output an ambiguous response such as hitting a conflict in response generation output processing.
なお、第3の実施の形態の処理を第2の実施の形態の処理に適用することもできる。 The process of the third embodiment can also be applied to the process of the second embodiment.
また、上記実施の形態では、ユーザの顔を撮像して得られる画像データから抽出される画像特徴、ユーザの発話により入力される音声データから抽出されるテキスト特徴及び韻律特徴をまとめて入力データの特徴とする場合について説明したが、入力データの特徴は、画像特徴、テキスト特徴及び韻律特徴のいずれか1つでもよし、これらの中から選択した2つを組み合わせたものでもよい。また、脈拍や発汗などの人体の生理情報等その他の情報を取得し、この情報から抽出される特徴を用いてもよい。 In the above embodiment, the image data extracted from the image data obtained by capturing the user's face, the text features extracted from the speech data input by the user's utterance, and the prosodic features are collected together. Although the case of the feature has been described, the feature of the input data may be any one of an image feature, a text feature, and a prosodic feature, or may be a combination of two selected from these. In addition, other information such as physiological information of a human body such as a pulse or sweat may be acquired, and features extracted from this information may be used.
また、上記実施の形態では、テキスト特徴を取得した音声データを音声認識してテキストデータに変換してから抽出する場合について説明した、キーボードなどの入力手段から入力されるテキストデータを取得してテキスト特徴を抽出するようにしてもよい。 In the above-described embodiment, the text data input from the input means such as a keyboard is described for the case where the voice data from which the text feature has been acquired is voice-recognized and converted into text data and then extracted. Features may be extracted.
また、上記実施の形態では、学習方法としてSVMの手法を用いる場合について説明したが、これに限定されるものではない。 Moreover, although the case where the SVM method is used as the learning method has been described in the above embodiment, the present invention is not limited to this.
10 感情推定対話装置
12 マイク
14 撮像装置
16 スピーカ
18 コンピュータ
50 感情モデル
DESCRIPTION OF SYMBOLS 10 Emotion
Claims (7)
各々が異なる1つの感情に対応すると共に、各々が複数のサンプルデータから特徴と感情とを対応させて予め抽出した複数の学習データの各々に対して、該学習データの感情の各々が前記1つの感情に該当するか否かを表した複数の感情モデルを生成する感情モデル生成手段と、
前記抽出手段で抽出された前記入力データの特徴が、前記複数の感情モデルの各々に対応する1つの感情のいずれかに対応するかを、前記1つの感情に該当する学習データの個数が多い感情モデルから順に判断することにより、前記ユーザの感情を推定する推定手段と、
を含む感情推定装置。 Extraction means for extracting features of at least one input data of image data obtained by imaging the user, voice data input by the user's utterance, and text data input by the user other than the utterance;
Each of the emotions of the learning data corresponds to one emotion that is different from each other, and each of the plurality of learning data that is extracted in advance by associating features and emotions from a plurality of sample data. An emotion model generating means for generating a plurality of emotion models representing whether or not the emotion falls,
Whether the feature of the input data extracted by the extraction means corresponds to one of the emotions corresponding to each of the plurality of emotion models, an emotion having a large number of learning data corresponding to the one emotion Estimating means for estimating the user's emotion by judging in order from the model;
Emotion estimation device including
前記抽出手段により抽出された前記入力データの特徴が、第1の極性を表す感情及び該第1の極性に対して反対の感情の第2の極性を表す感情のいずれを示すかを判別する極性判別手段と、
各々が異なる1つの第1の極性を表す感情に対応すると共に、各々が複数のサンプルデータから特徴と第1の極性を表す感情とを対応させて予め抽出した複数の学習データの各々に対して、該学習データの感情の各々が前記1つの第1の極性を表す感情に該当するか否かを表した複数の第1感情モデルと、各々が異なる1つの第2の極性を表す感情に対応すると共に、各々が複数のサンプルデータから特徴と第2の極性を表す感情とを対応させて予め抽出した複数の学習データの各々に対して、該学習データの感情の各々が前記1つの第2の極性を表す感情に該当するか否かを表した複数の第2感情モデルとを生成する感情モデル生成手段と、
前記極性判別手段で前記入力データの特徴が前記第1の極性を表す感情であると判別された場合には、前記抽出手段で抽出された前記入力データの特徴が、前記複数の第1感情モデルの各々に対応する1つの第1の極性を表す感情のいずれかに対応するかを、前記1つの第1の極性を表す感情に該当する学習データの個数が多い第1感情モデルから順に判断し、前記極性判別手段で前記入力データの特徴が前記第2の極性を表す感情であると判別された場合には、前記抽出手段で抽出された前記入力データの特徴が、前記複数の第2感情モデルの各々に対応する1つの第2の極性を表す感情のいずれかに対応するかを、前記1つの第2の極性を表す感情に該当する学習データの個数が多い第2感情モデルから順に判断することにより、前記ユーザの感情を推定する推定手段と、
を含む感情推定装置。 Extraction means for extracting features of at least one input data of image data obtained by imaging the user, voice data input by the user's utterance, and text data input by the user other than the utterance;
A polarity for determining whether the feature of the input data extracted by the extraction means indicates an emotion representing the first polarity or an emotion representing the second polarity of the emotion opposite to the first polarity Discrimination means;
Each of the plurality of learning data corresponding to emotions each representing a different first polarity, and each of the plurality of learning data pre-extracted in association with the features and emotions representing the first polarity from a plurality of sample data , Corresponding to a plurality of first emotion models representing whether each of the emotions of the learning data corresponds to the emotion representing the one first polarity, and an emotion representing one different second polarity In addition, for each of the plurality of learning data, each of which is extracted in advance by associating the feature and the emotion representing the second polarity from the plurality of sample data, each of the emotions of the learning data is the one second An emotion model generating means for generating a plurality of second emotion models that indicate whether or not the emotion represents the polarity of
If the polarity determining unit determines that the feature of the input data is an emotion representing the first polarity, the feature of the input data extracted by the extracting unit is the plurality of first emotion models. It is judged in order from the first emotion model having a large number of learning data corresponding to the emotion representing the first polarity, which one of the emotions representing the first polarity corresponding to each of the emotions. When the polarity determination unit determines that the feature of the input data is an emotion representing the second polarity, the feature of the input data extracted by the extraction unit is the plurality of second emotions. It is determined in order from the second emotion model in which the number of learning data corresponding to the emotion representing one second polarity is large, corresponding to one of the emotions representing one second polarity corresponding to each of the models. To And estimating means for estimating the emotion of The,
Emotion estimation device including
ユーザを撮像して得られた画像データ、前記ユーザの発話により入力された音声データ、及び前記ユーザにより前記発話以外で入力されたテキストデータの少なくとも1つの入力データの特徴を抽出する抽出手段と、
各々が異なる1つの感情に対応すると共に、各々が複数のサンプルデータから特徴と感情とを対応させて予め抽出した複数の学習データの各々に対して、該学習データの感情の各々が前記1つの感情に該当するか否かを表した複数の感情モデルを生成する感情モデル生成手段と、
前記抽出手段で抽出された前記入力データの特徴が、前記複数の感情モデルの各々に対応する1つの感情のいずれかに対応するかを、前記1つの感情に該当する学習データの個数が多い感情モデルから順に判断することにより、前記ユーザの感情を推定する推定手段と、
して機能させるための感情推定プログラム。 Computer
Extraction means for extracting features of at least one input data of image data obtained by imaging the user, voice data input by the user's utterance, and text data input by the user other than the utterance;
Each of the emotions of the learning data corresponds to one emotion that is different from each other, and each of the plurality of learning data that is extracted in advance by associating features and emotions from a plurality of sample data. An emotion model generating means for generating a plurality of emotion models representing whether or not the emotion falls,
Whether the feature of the input data extracted by the extraction means corresponds to one of the emotions corresponding to each of the plurality of emotion models, an emotion having a large number of learning data corresponding to the one emotion Estimating means for estimating the user's emotion by judging in order from the model;
Emotion estimation program to make it function.
ユーザを撮像して得られた画像データ、前記ユーザの発話により入力された音声データ、及び前記ユーザにより前記発話以外で入力されたテキストデータの少なくとも1つの入力データの特徴を抽出する抽出手段と、
前記抽出手段により抽出された前記入力データの特徴が、第1の極性を表す感情及び該第1の極性に対して反対の感情の第2の極性を表す感情のいずれを示すかを判別する極性判別手段と、
各々が異なる1つの第1の極性を表す感情に対応すると共に、各々が複数のサンプルデータから特徴と第1の極性を表す感情とを対応させて予め抽出した複数の学習データの各々に対して、該学習データの感情の各々が前記1つの第1の極性を表す感情に該当するか否かを表した複数の第1感情モデルと、各々が異なる1つの第2の極性を表す感情に対応すると共に、各々が複数のサンプルデータから特徴と第2の極性を表す感情とを対応させて予め抽出した複数の学習データの各々に対して、該学習データの感情の各々が前記1つの第2の極性を表す感情に該当するか否かを表した複数の第2感情モデルとを生成する感情モデル生成手段と、
前記極性判別手段で前記入力データの特徴が前記第1の極性を表す感情であると判別された場合には、前記抽出手段で抽出された前記入力データの特徴が、前記複数の第1感情モデルの各々に対応する1つの第1の極性を表す感情のいずれかに対応するかを、前記1つの第1の極性を表す感情に該当する学習データの個数が多い第1感情モデルから順に判断し、前記極性判別手段で前記入力データの特徴が前記第2の極性を表す感情であると判別された場合には、前記抽出手段で抽出された前記入力データの特徴が、前記複数の第2感情モデルの各々に対応する1つの第2の極性を表す感情のいずれかに対応するかを、前記1つの第2の極性を表す感情に該当する学習データの個数が多い第2感情モデルから順に判断することにより、前記ユーザの感情を推定する推定手段と、
して機能させるための感情推定プログラム。 Computer
Extraction means for extracting features of at least one input data of image data obtained by imaging the user, voice data input by the user's utterance, and text data input by the user other than the utterance;
A polarity for determining whether the feature of the input data extracted by the extraction means indicates an emotion representing the first polarity or an emotion representing the second polarity of the emotion opposite to the first polarity Discrimination means;
Each of the plurality of learning data corresponding to emotions each representing a different first polarity, and each of the plurality of learning data pre-extracted in association with the features and emotions representing the first polarity from a plurality of sample data , Corresponding to a plurality of first emotion models representing whether each of the emotions of the learning data corresponds to the emotion representing the one first polarity, and an emotion representing one different second polarity In addition, for each of the plurality of learning data, each of which is extracted in advance by associating the feature and the emotion representing the second polarity from the plurality of sample data, each of the emotions of the learning data is the one second An emotion model generating means for generating a plurality of second emotion models that indicate whether or not the emotion represents the polarity of
If the polarity determining unit determines that the feature of the input data is an emotion representing the first polarity, the feature of the input data extracted by the extracting unit is the plurality of first emotion models. It is judged in order from the first emotion model having a large number of learning data corresponding to the emotion representing the first polarity, which one of the emotions representing the first polarity corresponding to each of the emotions. When the polarity determination unit determines that the feature of the input data is an emotion representing the second polarity, the feature of the input data extracted by the extraction unit is the plurality of second emotions. It is determined in order from the second emotion model in which the number of learning data corresponding to the emotion representing one second polarity is large, corresponding to one of the emotions representing one second polarity corresponding to each of the models. To And estimating means for estimating the emotion of The,
Emotion estimation program to make it function.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008135290A JP5083033B2 (en) | 2008-05-23 | 2008-05-23 | Emotion estimation device and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008135290A JP5083033B2 (en) | 2008-05-23 | 2008-05-23 | Emotion estimation device and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009282824A true JP2009282824A (en) | 2009-12-03 |
JP5083033B2 JP5083033B2 (en) | 2012-11-28 |
Family
ID=41453205
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008135290A Expired - Fee Related JP5083033B2 (en) | 2008-05-23 | 2008-05-23 | Emotion estimation device and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5083033B2 (en) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014149713A (en) * | 2013-02-01 | 2014-08-21 | Ntt Docomo Inc | Image evaluation device |
WO2016157499A1 (en) * | 2015-04-02 | 2016-10-06 | 株式会社日立製作所 | Image processing apparatus, object detection apparatus, and image processing method |
JP2018041460A (en) * | 2016-09-09 | 2018-03-15 | ソニー株式会社 | System and method for providing recommendation on electronic device on the basis of affective state detection |
CN107967659A (en) * | 2016-10-19 | 2018-04-27 | 南京萌宝睿贝教育科技有限公司 | A kind of child's Emotional Intelligence culture systems and cultural method |
WO2019107170A1 (en) * | 2017-11-29 | 2019-06-06 | 日本電信電話株式会社 | Urgency estimation device, urgency estimation method, and program |
JP2020154332A (en) * | 2020-06-17 | 2020-09-24 | カシオ計算機株式会社 | Emotion estimation device, emotion estimation method, and program |
JP2021056335A (en) * | 2019-09-30 | 2021-04-08 | 株式会社なごみテクノロジー | Evaluation system |
KR20220063816A (en) * | 2020-11-09 | 2022-05-18 | 주식회사 스피랩 | System and method for analyzing multimodal emotion |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06195520A (en) * | 1992-12-25 | 1994-07-15 | Fujitsu Ltd | Method for generating dictionary for discrimination |
JPH10214024A (en) * | 1997-01-30 | 1998-08-11 | Atr Chinou Eizo Tsushin Kenkyusho:Kk | Interactive movie system |
JP2003314827A (en) * | 2002-04-23 | 2003-11-06 | Matsushita Electric Ind Co Ltd | Operation control device |
JP2004163416A (en) * | 2002-10-23 | 2004-06-10 | Nippon Steel Corp | Defect inspection device |
JP2006099565A (en) * | 2004-09-30 | 2006-04-13 | Kddi Corp | Content identification device |
WO2007069372A1 (en) * | 2005-12-14 | 2007-06-21 | Mitsubishi Electric Corporation | Voice recognition device |
JP2008146137A (en) * | 2006-12-06 | 2008-06-26 | Seiko Epson Corp | Image recognition device, electronic device, image recognition method, control program, and record medium |
-
2008
- 2008-05-23 JP JP2008135290A patent/JP5083033B2/en not_active Expired - Fee Related
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06195520A (en) * | 1992-12-25 | 1994-07-15 | Fujitsu Ltd | Method for generating dictionary for discrimination |
JPH10214024A (en) * | 1997-01-30 | 1998-08-11 | Atr Chinou Eizo Tsushin Kenkyusho:Kk | Interactive movie system |
JP2003314827A (en) * | 2002-04-23 | 2003-11-06 | Matsushita Electric Ind Co Ltd | Operation control device |
JP2004163416A (en) * | 2002-10-23 | 2004-06-10 | Nippon Steel Corp | Defect inspection device |
JP2006099565A (en) * | 2004-09-30 | 2006-04-13 | Kddi Corp | Content identification device |
WO2007069372A1 (en) * | 2005-12-14 | 2007-06-21 | Mitsubishi Electric Corporation | Voice recognition device |
JP2008146137A (en) * | 2006-12-06 | 2008-06-26 | Seiko Epson Corp | Image recognition device, electronic device, image recognition method, control program, and record medium |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014149713A (en) * | 2013-02-01 | 2014-08-21 | Ntt Docomo Inc | Image evaluation device |
WO2016157499A1 (en) * | 2015-04-02 | 2016-10-06 | 株式会社日立製作所 | Image processing apparatus, object detection apparatus, and image processing method |
JPWO2016157499A1 (en) * | 2015-04-02 | 2017-12-07 | 株式会社日立製作所 | Image processing apparatus, object detection apparatus, and image processing method |
US10373024B2 (en) | 2015-04-02 | 2019-08-06 | Hitachi, Ltd. | Image processing device, object detection device, image processing method |
JP2018041460A (en) * | 2016-09-09 | 2018-03-15 | ソニー株式会社 | System and method for providing recommendation on electronic device on the basis of affective state detection |
US11049147B2 (en) | 2016-09-09 | 2021-06-29 | Sony Corporation | System and method for providing recommendation on an electronic device based on emotional state detection |
CN107967659A (en) * | 2016-10-19 | 2018-04-27 | 南京萌宝睿贝教育科技有限公司 | A kind of child's Emotional Intelligence culture systems and cultural method |
JPWO2019107170A1 (en) * | 2017-11-29 | 2020-11-26 | 日本電信電話株式会社 | Urgency estimation device, urgency estimation method, program |
WO2019107170A1 (en) * | 2017-11-29 | 2019-06-06 | 日本電信電話株式会社 | Urgency estimation device, urgency estimation method, and program |
JP6996570B2 (en) | 2017-11-29 | 2022-01-17 | 日本電信電話株式会社 | Urgency estimation device, urgency estimation method, program |
US11495245B2 (en) | 2017-11-29 | 2022-11-08 | Nippon Telegraph And Telephone Corporation | Urgency level estimation apparatus, urgency level estimation method, and program |
JP2021056335A (en) * | 2019-09-30 | 2021-04-08 | 株式会社なごみテクノロジー | Evaluation system |
JP2020154332A (en) * | 2020-06-17 | 2020-09-24 | カシオ計算機株式会社 | Emotion estimation device, emotion estimation method, and program |
JP7001126B2 (en) | 2020-06-17 | 2022-01-19 | カシオ計算機株式会社 | Emotion estimation device, emotion estimation method and program |
KR20220063816A (en) * | 2020-11-09 | 2022-05-18 | 주식회사 스피랩 | System and method for analyzing multimodal emotion |
KR102564570B1 (en) | 2020-11-09 | 2023-08-07 | 주식회사 스피랩 | System and method for analyzing multimodal emotion |
Also Published As
Publication number | Publication date |
---|---|
JP5083033B2 (en) | 2012-11-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5083033B2 (en) | Emotion estimation device and program | |
JP6465077B2 (en) | Voice dialogue apparatus and voice dialogue method | |
Lee et al. | Modeling mutual influence of interlocutor emotion states in dyadic spoken interactions. | |
US10242666B2 (en) | Method of performing multi-modal dialogue between a humanoid robot and user, computer program product and humanoid robot for implementing said method | |
CN108242238B (en) | Audio file generation method and device and terminal equipment | |
CN104143332B (en) | Sound processing apparatus and sound processing method | |
JP5195414B2 (en) | Response generating apparatus and program | |
JP2002091482A (en) | Method and device for detecting feeling and recording medium | |
JP2006098993A (en) | Voice processor and computer program for the processor | |
CN113327620B (en) | Voiceprint recognition method and device | |
JPWO2007010680A1 (en) | Voice quality change location identification device | |
JP6720520B2 (en) | Emotion estimator generation method, emotion estimator generation device, emotion estimation method, emotion estimation device, and program | |
JP2018072650A (en) | Voice interactive device and voice interactive method | |
JP2018169494A (en) | Utterance intention estimation device and utterance intention estimation method | |
CN112232276B (en) | Emotion detection method and device based on voice recognition and image recognition | |
CN111916054A (en) | Lip-based voice generation method, device and system and storage medium | |
US11069108B2 (en) | Method and system for creating an intelligent cartoon chat strip based on dynamic content | |
CN114708869A (en) | Voice interaction method and device and electric appliance | |
CN116564269A (en) | Voice data processing method and device, electronic equipment and readable storage medium | |
CN116597858A (en) | Voice mouth shape matching method and device, storage medium and electronic equipment | |
Alashban et al. | Speaker gender classification in mono-language and cross-language using BLSTM network | |
JP4992925B2 (en) | Spoken dialogue apparatus and program | |
CN115104152A (en) | Speaker recognition device, speaker recognition method, and program | |
JP2004021121A (en) | Voice interaction controller unit | |
Koolagudi et al. | Recognition of emotions from speech using excitation source features |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110127 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120309 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120410 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120601 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120807 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120820 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 5083033 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150914 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |