JP6782329B1

JP6782329B1 - 感情推定装置、感情推定システム、及び感情推定方法

Info

Publication number: JP6782329B1
Application number: JP2019091864A
Authority: JP
Inventors: 博子進藤; 秀行窪田; 友基伊藤; 昌治上田; 幸子宮城; 和也川口
Original assignee: Omron Corp; NTT Docomo Inc
Current assignee: Omron Corp; NTT Docomo Inc
Priority date: 2019-05-15
Filing date: 2019-05-15
Publication date: 2020-11-11
Anticipated expiration: 2039-05-15
Also published as: JP2020187262A

Abstract

【課題】発話者の感情を精度良く推定すること。【解決手段】ユーザ装置１は、発話者の音声を含む音を示す音声データＶＤを取得する取得部２１と、音声データＶＤに音声認識処理を施して得られた認識文字列ＳＤに基づいて、発話者の感情が、肯定的な感情が属するポジティブグループＧＥ１と、否定的な感情が属するネガティブグループＧＥ２との何れに属するかを推定する第１推定部２５２と、音声データＶＤの音の特徴量に基づいて、発話者の感情が、興奮時の感情が属する興奮グループＧＥ３と、興奮時ではない感情が属する非興奮グループＧＥ４との何れに属するかを推定する第２推定部２５３と、第１推定部２５２の推定結果と第２推定部２５３の推定結果とに基づいて、発話者の感情を推定する感情推定部２５４と、を備える。【選択図】図５

Description

本発明は、感情推定装置、感情推定システム、及び感情推定方法に関する。

近年、喜び、怒り及び悲しみ等の感情を推定するサービスが普及している。例えば、特許文献１には、発話者の音声を含む音を示す音声データに対して音声認識処理を施し、音声認識処理から得られる認識文字列に基づいて、各感情に対して、発話者の感情である可能性の程度を示すスコアを算出し、音声データが示す音の特徴量に基づいて各感情のスコアを算出し、文字列から得られた各感情のスコアと、音の特徴量から得られた各感情のスコアとの平均値のうち最も大きいスコアの感情を、発話者の感情として推定することが開示されている。

特開２０１２−７３９４１号公報

しかしながら、上述した従来技術では、音声認識処理から得られる認識文字列に基づいて感情を推定する場合、認識文字列からは、音声の抑揚が失われており、感情の推定を誤る場合がある。一方、音の特徴量に基づいて感情を推定する場合、音の特徴量には、音声の内容が肯定的であるか否定的であるかが含まれていなく、感情の推定を誤る場合がある。従って、認識文字列に基づく各感情のスコアと、音の特徴量に基づく各感情のスコアとには、誤推定のスコアが含まれ得る。このため、文字列から得られた各感情のスコアと音の特徴量から得られた各感情のスコアの平均値に誤差が含まれることがある。この結果、平均値に基づく、従来の感情推定方法は、感情の推定を誤る場合がある。

本発明の好適な態様にかかる感情推定装置は、発話者の音声を含む音を示す音声データを取得する取得部と、前記音声データに音声認識処理を施して得られた認識文字列に基づいて、前記発話者の感情が、肯定的な感情が属する第１グループと、否定的な感情が属する第２グループとの何れに属するかを推定する第１推定部と、前記音声データが示す音の特徴量に基づいて、前記発話者の感情が、興奮時の感情が属する第３グループと、興奮時ではない感情が属する第４グループとの何れに属するかを推定する第２推定部と、前記第１推定部の推定結果と前記第２推定部の推定結果とに基づいて、前記発話者の感情を推定する感情推定部とを備える。

本発明の好適な態様にかかる感情推定システムは、前述の感情推定装置と、前記感情推定装置と通信可能な端末装置とを備える感情推定システムであって、前記端末装置は、前記発話者の音声を含む音を集音する集音部と、前記発話者の音声を含む音を示す前記音声データを、前記感情推定装置に送信する送信部と、前記感情推定装置から、前記認識文字列と、前記感情推定部が推定した前記発話者の感情を示す感情データとを受信する受信部と、前記認識文字列に対して、前記感情データが示す感情に応じた処理を施して得られるデータを出力する出力部とを備える。

本発明の好適な態様にかかる感情推定方法は、発話者の音声を含む音を示す音声データを取得し、前記音声データに音声認識処理を施して得られた認識文字列に基づいて、前記発話者の感情が、肯定的な感情が属する第１グループと、否定的な感情が属する第２グループとの何れに属するかを推定し、前記音声データが示す音の特徴量に基づいて、前記発話者の感情が、興奮時の感情が属する第３グループと、興奮時ではない感情が属する第４グループとの何れに属するかを推定し、前記発話者の感情が前記第１グループと前記第２グループとの何れに属するかを示す推定結果と、前記発話者の感情が前記第３グループと前記第４グループとの何れに属するかを示す推定結果とに基づいて、前記発話者の感情を推定する処理をコンピュータが実行する。

本発明によれば、発話者の感情を精度良く推定することができる。

本発明の第１実施形態にかかるユーザ装置１を示すブロック図。感情のグループ分けを示す図。解析用辞書データ３１の記憶内容の一例を示す図。感情分類データ３３の記憶内容の一例を示す図。ユーザ装置１の機能の概要を示す図。推定部２５の処理を示すフローチャートを示す図。第２実施形態にかかるユーザ装置１ａを示すブロック図。第２実施形態にかかるユーザ装置１ａの機能の概要を示す図。第２実施形態にかかる推定部２５ａの処理を示すフローチャートを示す図。感情推定システム１００を示すブロック図。

１．第１実施形態
図１は、本発明の第１実施形態にかかるユーザ装置１を示すブロック図である。ユーザ装置１は、スマートフォンを想定する。ユーザ装置１が、「感情推定装置」の一例である。ただし、ユーザ装置１としては、任意の情報処理装置を採用することができ、例えば、パーソナルコンピュータ等の端末型の情報機器であってもよいし、ノートパソコン、ウェアラブル端末及びタブレット端末等の可搬型の情報端末であってもよい。

ユーザ装置１は、処理装置２、記憶装置３、表示装置４、操作装置５、通信装置６、放音装置７、及び、集音装置８を具備するコンピュータシステムにより実現される。ユーザ装置１の各要素は、情報を通信するための単体又は複数のバス９で相互に接続される。なお、本明細書における「装置」という用語は、回路、デバイス又はユニット等の他の用語に読替えてもよい。また、ユーザ装置１の各要素は、単数又は複数の機器で構成され、ユーザ装置１の一部の要素は省略されてもよい。集音装置８は、「集音部」の一例である。

ユーザ装置１は、ユーザ装置１のユーザである発話者の音声を含む音を示す音声データに対して音声認識処理を施して得られた認識文字列を、他者が利用する装置に送信する機能、又は、認識文字列を読み上げて他者に聞かせる機能を有する。さらに、ユーザ装置１は、発話者の音声に基づいて発話者の感情を推定し、認識文字列に対して、推定した感情に応じた絵文字を認識文字列に付加する、又は、推定した感情に応じた抑揚で認識文字列を読み上げることにより、コミュニケーションに必要な感情表現を付加することが可能になる。コミュニケーションをより円滑にするため、発話者の感情の推定精度が向上することが好ましい。
第１実施形態では、ユーザ装置１は、人が取り得る複数の感情を、肯定的であるか又は否定的であるかによってグループ分けした結果と、興奮時か否かとによってグループ分けした結果とに基づいて、発話者の感情を推定する。

図２は、感情のグループ分けを示す図である。人が取り得る複数の感情を、肯定的な感情が属するポジティブグループＧＥ１と、否定的な感情が属するネガティブグループＧＥ２とに分類すると、ポジティブグループＧＥ１には喜びが属し、ネガティブグループＧＥ２には怒り及び悲しみが属する。ポジティブグループＧＥ１は、「第１グループ」の一例である。ネガティブグループＧＥ２は、「第２グループ」の一例である。

また、人が取り得る複数の感情を、興奮時の感情が属する興奮グループＧＥ３と、非興奮時の感情が属する非興奮グループＧＥ４とに分類すると、興奮グループＧＥ３には喜び及び怒りが属し、興奮時でない感情が属する非興奮グループＧＥ４には悲しみが属する。興奮グループＧＥ３は、「第３グループ」の一例である。非興奮グループＧＥ４は、「第４グループ」の一例である。

説明を図１に戻す。処理装置２は、ユーザ装置１の全体を制御するプロセッサであり、例えば、単数又は複数のチップで構成される。処理装置２は、例えば、周辺装置とのインタフェース、演算装置及びレジスタ等を含む中央処理装置（ＣＰＵ：Central Processing Unit）で構成される。なお、処理装置２の機能の一部又は全部を、ＤＳＰ（Digital Signal Processor）、ＡＳＩＣ（Application Specific Integrated Circuit）、ＰＬＤ（Programmable Logic Device）、ＦＰＧＡ（Field Programmable Gate Array）等のハードウェアによって実現してもよい。処理装置２は、各種の処理を並列的又は逐次的に実行する。

記憶装置３は、処理装置２が読取可能な記録媒体であり、処理装置２が実行する制御プログラムＰＲを含む複数のプログラム、解析用辞書データ３１、及び、感情分類データ３３を記憶する。記憶装置３は、例えば、ＲＯＭ（Read Only Memory）、ＥＰＲＯＭ（Erasable Programmable ROM）、ＥＥＰＲＯＭ（Electrically Erasable Programmable ROM）、ＲＡＭ（Random Access Memory）等の記憶回路の１種類以上で構成される。

図３は、解析用辞書データ３１の記憶内容の一例を示す図である。解析用辞書データ３１は、形態素ごとに、品詞、品詞細分類、及び、原形データを互いに対応付けたデータである。形態素は、意味を有する表現要素の最小単位の文字列である。品詞は、文法的性質によって分類された単語の種別であり、名詞、動詞、及び形容詞等である。品詞細分類は、品詞をさらに細分類した項目である。原形データは、該当の形態素が活用する単語である場合、単語の原形を示す文字列であり、該当の形態素が活用しない単語である場合、該当の形態素と同一の文字列である。

図４は、感情分類データ３３の記憶内容の一例を示す図である。感情分類データ３３は、文字列を、喜び、怒り、及び、悲しみの何れかに分類したデータである。図４の例では、喜びに分類された文字列群３３１は、「嬉しい」、「合格」、「勝つ」、及び、「勝っ」等を含む。同様に、怒りに分類された文字列群３３２は、「イライラ」、及び、「むかっ腹」等を含む。同様に、悲しみに分類された文字列群３３３は、「悲しい」、及び、「負ける」等を含む。

説明を図１に戻す。表示装置４は、処理装置２による制御のもとで各種の画像を表示する。例えば液晶表示パネル、又は有機ＥＬ（Electro Luminescence）表示パネル等の各種の表示パネルが表示装置４として好適に利用される。

操作装置５は、ユーザ装置１が使用する情報を入力するための機器である。操作装置５は、ユーザによる操作を受け付ける。具体的には、操作装置５は、数字及び文字等の符号を入力するための操作と、表示装置４が表示するアイコンを選択するための操作とを受け付ける。例えば、表示装置４の表示面に対する接触を検出するタッチパネルが操作装置５として好適である。なお、利用者が操作可能な操作子を操作装置５が含んでもよい。操作子は、例えば、タッチペンである。

通信装置６は、ネットワークを介して他の装置と通信を行うためのハードウェア（送受信デバイス）である。通信装置６は、例えば、ネットワークデバイス、ネットワークコントローラ、ネットワークカード、通信モジュール等とも呼ばれる。

放音装置７は、例えばスピーカで構成され、処理装置２による制御のもとで、音を放音する。集音装置８は、例えばマイクロフォン及びＡＤ変換器で構成され、処理装置２による制御のもとで、発話者の音声を含む音を集音する。マイクロフォンは、集音した音声を電気信号に変換する。ＡＤ変換器は、マイクロフォンが変換した電気信号をＡＤ変換して、図５に示す音声データＶＤに変換する。音声データＶＤが示す音には、発話者の音声に加えて、発話者の周囲から発せられた雑音が含まれ得る。

１．１．第１実施形態の機能
処理装置２は、記憶装置３から制御プログラムＰＲを読み取り実行することによって、取得部２１、推定部２５、及び、出力部２６として機能する。
図５を用いて、処理装置２によって実現される機能について説明する。

図５は、ユーザ装置１の機能の概要を示す図である。取得部２１は、集音装置８が集音した発話者の音声を示す音声データＶＤを取得する。推定部２５は、音声データＶＤに基づいて、発話者の感情を推定する。具体的には、推定部２５は、音声認識処理部２５１、第１推定部２５２、第２推定部２５３、及び、感情推定部２５４を含む。

音声認識処理部２５１は、音声データＶＤに音声認識処理を施して認識文字列ＳＤを出力する。音声認識処理部２５１は、例えば、予め用意された音響モデル及び言語モデルを用いて、音声から文字列を認識する手法を含む、種々の手法によって、認識文字列ＳＤを出力する。

第１推定部２５２は、文字列感情推定処理を実行する。文字列感情推定処理は、認識文字列ＳＤに基づいて、発話者の感情が、ポジティブグループＧＥ１と、ネガティブグループＧＥ２との何れに属するかを推定する。

より詳細には、第１推定部２５２は、形態素解析処理部２５２１及び感情スコア算出処理部２５２２を有する。形態素解析処理部２５２１は、解析用辞書データ３１を参照して、認識文字列ＳＤに対して形態素解析処理を施して、補正後認識文字列ＣＳＤを出力する。形態素解析処理は、認識文字列ＳＤを形態素ごとに分解する処理である。形態素解析処理において、解析用辞書データ３１の品詞及び品詞細分類が利用される。補正後認識文字列ＣＳＤは、感動詞等といった、発話者の感情を推定するためには不要な文字列を除いた文字列である。

感情スコア算出処理部２５２２は、感情分類データ３３に含まれる文字列と、補正後認識文字列ＣＳＤとを比較することにより、各感情に対して、発話者の感情である可能性の程度を示すスコアを算出する。より詳細には、感情スコア算出処理部２５２２は、補正後認識文字列ＣＳＤが、感情分類データ３３に含まれる文字列を含む場合に、この補正後認識文字列ＣＳＤに含まれる文字列に対応する感情のスコアを増加させる。
例えば、補正後認識文字列ＣＳＤが「今日試合に勝った」であれば、感情スコア算出処理部２５２２は、以下のような感情ごとのスコアを出力する。

喜び１
怒り０
悲しみ０
上述の例では、補正後認識文字列ＣＳＤに、感情分類データ３３に含まれる「勝っ」が含まれているため、感情スコア算出処理部２５２２は、「勝っ」に対応する喜びのスコアを１増加させる。増加させるスコアの量は、１に限らなく、感情分類データ３３に含まれる文字列ごとに異なってもよい。例えば、より喜びを強く示す文字列のスコアの増加量を２としてもよい。さらに、補正後認識文字列ＣＳＤに、感情分類データ３３に含まれる文字列、及び、内容を強調する文字列が含まれる場合、感情スコア算出処理部２５２２は、感情のスコアの増加量を大きくしてもよい。例えば、補正後認識文字列ＣＳＤが「今日試合に勝ててとても嬉しい」であれば、補正後認識文字列ＣＳＤに感情分類データ３３に含まれる「嬉しい」が含まれており、かつ、「とても」という内容を強調する文字列が含まれるため、感情スコア算出処理部２５２２は、例えば、喜びのスコアを２増加させる。補正後認識文字列ＣＳＤのうち、どの文字列が、内容を強調する文字列であるか否かは、形態素解析処理によって得られる形態素によって判定することができる。以下の例では、説明を容易にするため、増加させるスコアの量が１であるとする。
さらに、補正後認識文字列ＣＳＤに、感情分類データ３３に含まれる文字列、及び、内容を否定する文字列が含まれる場合、感情スコア算出処理部２５２２は、この補正後認識文字列ＣＳＤに含まれる文字列に対応する感情のスコアを増加させる処理とは異なる処理を実行してもよい。例えば、補正後認識文字列ＣＳＤが「今日試合に勝つことができなかった」であれば、補正後認識文字列ＣＳＤに感情分類データ３３に含まれる「勝つ」が含まれるが、「なかっ」という内容を否定する文字列が含まれるため、感情スコア算出処理部２５２２は、例えば、悲しみのスコアを１増加させる。補正後認識文字列ＣＳＤのうち、どの文字列が、内容を否定する文字列であるか否かは、形態素解析処理によって得られる形態素によって判定することができる。このように、形態素解析処理によって、補正後認識文字列ＣＳＤが肯定的な内容なのか否定的な内容かを推定することが可能である。以下の例では、説明を容易にするため、補正後認識文字列ＣＳＤに、感情分類データ３３に含まれる文字列が含まれれば、この補正後認識文字列ＣＳＤに含まれる文字列に対応する感情のスコアを増加させることとして説明を行う。

第１推定部２５２は、感情ごとのスコアに基づいて、発話者の感情が、ポジティブグループＧＥ１と、ネガティブグループＧＥ２との何れに属するかを示す第１感情グループデータＧＤ１を出力する。第１感情グループデータＧＤ１は、例えば、以下に示す２つの態様がある。

第１感情グループデータＧＤ１の第１の態様は、ポジティブグループＧＥ１を示す識別子及びネガティブグループＧＥ２を示す識別子の何れか一方である。例えば、第１推定部２５２は、下記（１）式を満たす場合に、ポジティブグループＧＥ１を示す識別子を第１感情グループデータＧＤ１として出力する。一方、（１）式を満たさない場合、第１推定部２５２は、ネガティブグループＧＥ２を示す識別子を第１感情グループデータＧＤ１として出力する。

喜びのスコア＞α×（怒りのスコア＋悲しみのスコア）／２（１）

αは、例えば、ユーザ装置１の開発者又は発話者などによって設定される値である。

第１感情グループデータＧＤ１の第２の態様は、ポジティブグループＧＥ１を示す識別子及びネガティブグループＧＥ２を示す識別子の何れか一方と、各感情のスコアとを含む。

第２推定部２５３は、音声感情推定処理を実行する。音声感情推定処理は、音声データＶＤが示す音の特徴量に基づいて、発話者の感情が、興奮時の感情が属する興奮グループＧＥ３と、興奮時ではない感情が属する非興奮グループＧＥ４との何れに属するかを推定する処理である。

より詳細には、第２推定部２５３は、音特徴量抽出処理部２５３１及び学習モデル実行処理部２５３２を有する。音特徴量抽出処理部２５３１は、音声データＶＤから音の特徴量を抽出する。音の特徴量とは、音声データＶＤが示す音の特徴を示す特徴量である。音の特徴量は、例えば、MFCC（Mel-Frequency Cepstrum Coefficients）12次元、ラウドネス、基本周波数(F0)、音声確率、ゼロ交差率、HNR（Harmonics-to-Noise-Ratio）、及びこれらの一次微分、MFCC及びラウドネスの二次微分の計４７個である。ラウドネスは、音の大きさであり、人間の聴覚が感じる音の強さを示す。音声確率は、音声データＶＤが示す音に音声が含まれる確率を示す。ゼロ交差率は、音圧がゼロとなった回数である。興奮時には、例えば、非興奮時と比較して、基本周波数が高くなり、且つ、ラウドネスが大きくなる傾向がある。また、音特徴量抽出処理部２５３１は、音声データＶＤに対して補正処理を実行し、補正処理の実行により得られた補正後音声データから、音の特徴量を抽出してもよい。補正処理は、例えば、音声データＶＤから無音部分のデータを除去する処理、及び、音声データＶＤが示す音に含まれるノイズを除去する処理の一方又は両方である。
学習モデル実行処理部２５３２は、抽出した音の特徴量を、予め学習した学習モデルに入力して、この学習モデルから得られた出力結果に基づいて、第２感情グループデータＧＤ２を出力する。第２感情グループデータＧＤ２は、発話者の感情が、興奮グループＧＥ３と非興奮グループＧＥ４との何れに属するかを示す。
予め学習した学習モデルは、例えば、音の特徴量が入力されると、感情ごとのスコアを出力するモデルである。第２推定部２５３は、下記（２）式を満たす場合、発話者の感情が興奮グループＧＥ３に属することを示す第２感情グループデータＧＤ２を出力する。一方、（２）式を満たさない場合、第２推定部２５３は、発話者の感情が非興奮グループＧＥ４に属することを示す第２感情グループデータＧＤ２を出力する。

（喜びのスコア＋怒りのスコア）／２＞β×悲しみのスコア（２）

βは、例えば、ユーザ装置１の開発者又は発話者などによって設定される値である。

第２感情グループデータＧＤ２は、例えば、下記に示す２つの態様がある。第２感情グループデータＧＤ２の第１の態様は、興奮グループＧＥ３を示す識別子及び非興奮グループＧＥ４を示す識別子の何れか一方である。第２感情グループデータＧＤ２の第２の態様は、興奮グループＧＥ３を示す識別子及び非興奮グループＧＥ４を示す識別子の何れか一方と、予め学習した学習モデルが出力した各感情のスコアである。

感情推定部２５４は、第１感情グループデータＧＤ１が示す推定結果と、第２感情グループデータＧＤ２が示す推定結果とに基づいて、発話者の感情を推定する。

より詳細には、発話者の感情がポジティブグループＧＥ１に属することを第１感情グループデータＧＤ１が示す場合、感情推定部２５４は、発話者の感情が喜びであると推定する。
また、発話者の感情がネガティブグループＧＥ２に属することを第１感情グループデータＧＤ１が示し、且つ、発話者の感情が興奮グループＧＥ３に属することを第２感情グループデータＧＤ２が示す場合、感情推定部２５４は、発話者の感情が怒りであると推定する。
発話者の感情がネガティブグループＧＥ２に属することを第１感情グループデータＧＤ１が示し、且つ、発話者の感情が非興奮グループＧＥ４に属することを第２感情グループデータＧＤ２が示す場合、感情推定部２５４は、発話者の感情が悲しみであると推定する。
感情推定部２５４は、推定した発話者の感情を示す感情データＥＤを出力する。感情データＥＤは、例えば、以下に示す２つの態様がある。感情データＥＤの第１の態様は、推定した発話者の感情を示す識別子である。感情を示す識別子には、喜びを示す識別子、怒りを示す識別子、及び、悲しみを示す識別子がある。感情データＥＤの第２の態様は、推定した発話者の感情を示す識別子と、推定した発話者の感情のスコアとである。推定した発話者の感情のスコアは、例えば、第１感情グループデータＧＤ１の第２の態様に含まれる、推定した発話者の感情のスコアと、第２感情グループデータＧＤ２の第２の態様に含まれる、推定した発話者の感情のスコアとの合計値、又は、平均値である。

出力部２６は、音声認識処理部２５１によって得られた認識文字列ＳＤに対して、感情データＥＤが示す感情に応じた処理を施して得られたデータを出力する。感情に応じた処理は、例えば、下記に示す２つの態様がある。
感情に応じた処理の第１の態様は、認識文字列ＳＤに対して、感情を具象化した図形を付加する処理である。感情を具象化した図形は、例えば、感情を具象化した絵文字、及び、感情を具象化した顔文字である。絵文字は、文字コードに対応付けられた画像である。文字コードは、例えば、Unicodeである。顔文字は、記号及び文字を組み合わせて顔を表現した文字列である。以下の説明では、感情を具象化した図形は、感情を具象化した絵文字であるとして説明する。喜びを具象化した絵文字は、例えば、笑顔を示す絵文字である。怒りを具象化した絵文字は、例えば、怒りの顔を示す絵文字である。悲しみを具象化した絵文字は、例えば、泣き顔を示す絵文字である。さらに、感情データＥＤが第２の態様である場合、出力部２６は、感情データＥＤが示す感情であって、感情データＥＤに含まれるスコアに応じた深さを有する感情を具象化した絵文字を、認識文字列ＳＤに付加する絵文字として決定してもよい。例えば、感情データＥＤが示す感情が悲しみであり、かつ、感情データＥＤに含まれるスコアが所定の閾値以下である場合、出力部２６は、涙をこぼす顔を示す絵文字を認識文字列ＳＤに付加する絵文字として決定する。一方、感情データＥＤが示す感情が悲しみであり、かつ、感情データＥＤに含まれるスコアが所定の閾値より大きい場合、出力部２６は、号泣した顔を示す絵文字を認識文字列ＳＤに付加する絵文字として決定する。号泣した顔を示す絵文字は、涙をこぼす顔を示す絵文字と比較して、より深い悲しみを具象化している。
出力部２６は、認識文字列ＳＤに絵文字を付加して得られた絵文字付き文字列を出力する。絵文字を付加する位置は、例えば、以下に示す２つがある。第１の位置は、認識文字列ＳＤの末尾である。第２の位置は、認識文字列ＳＤ内における、感情分類データ３３に含まれる文字列の次である。表示装置４は、出力部２６が出力した絵文字付き文字列に基づく画像を表示する。

感情に応じた処理の第２の態様は、感情に基づく抑揚を付加して読み上げた合成音声を生成する処理である。抑揚は、読み上げ速度を速くするもしくは遅くする、又は、音量を大きくするもしくは小さくすることである。喜びに基づく抑揚は、例えば、読み上げ速度を上げることである。怒りに基づく抑揚は、例えば、音量を大きくすることである。悲しみに基づく抑揚は、例えば、音量を小さくすることである。出力部２６は、感情に基づく抑揚を付加して読み上げた合成音声を示すデータを出力する。そして、出力部２６は、生成したデータが示す合成音声に、感情に基づく抑揚を付加して、感情に基づく抑揚を付加して読み上げた合成音声を示すデータを出力する。放音装置７は、出力部２６が出力したデータが示す合成音声を放音する。

１．２．第１実施形態の動作
次に、推定部２５が実行する処理について、図６を用いて説明する。

図６は、推定部２５の処理を示すフローチャートである。図６に示すステップＳ３、ステップＳ４、ステップＳ６、ステップＳ７、及び、ステップＳ８の処理が、感情推定部２５４に相当する。音声認識処理部２５１は、音声データＶＤに対して音声認識処理を施して、認識文字列ＳＤを得る（ステップＳ１）。次に、第１推定部２５２は、認識文字列ＳＤに対して文字列感情推定処理を実行し、第１感情グループデータＧＤ１を出力する（ステップＳ２）。

感情推定部２５４は、第１感情グループデータＧＤ１がポジティブグループＧＥ１を示すか否かを判定する（ステップＳ３）。換言すればステップＳ３において、感情推定部２５４は、第１感情グループデータＧＤ１がポジティブグループＧＥ１とネガティブグループＧＥ２との何れを示すか判定する。第１感情グループデータＧＤ１がポジティブグループＧＥ１を示し、ステップＳ３の判定結果が肯定となる場合、感情推定部２５４は、発話者の感情が喜びであると推定する（ステップＳ４）。

第１感情グループデータＧＤ１がネガティブグループＧＥ２を示し、ステップＳ３の判定結果が否定となる場合、第２推定部２５３は、音声データＶＤに対して音声感情推定処理を実行し、第２感情グループデータＧＤ２を出力する（ステップＳ５）。感情推定部２５４は、第２感情グループデータＧＤ２が興奮グループＧＥ３を示すか否かを判定する。換言すればステップＳ５において、感情推定部２５４は、第２感情グループデータＧＤ２が興奮グループＧＥ３と非興奮グループＧＥ４との何れを示すか判定する（ステップＳ６）。

第１感情グループデータＧＤ１がネガティブグループＧＥ２を示し、且つ、第２感情グループデータＧＤ２が興奮グループＧＥ３を示す場合、感情推定部２５４は、発話者の感情が怒りであると推定する（ステップＳ７）。第１感情グループデータＧＤ１がネガティブグループＧＥ２を示し、且つ、第２感情グループデータＧＤ２が非興奮グループＧＥ４を示す場合、感情推定部２５４は、発話者の感情が悲しみであると推定する（ステップＳ８）。

ステップＳ４、ステップＳ７、又は、ステップＳ８の処理終了後、推定部２５は、図６に示す一連の処理を終了する。

１．３．第１実施形態の効果
以上説明したように、第１実施形態によれば、ユーザ装置１は、認識文字列ＳＤに対する文字列感情推定処理の推定結果と、音声データＶＤに対する音声感情推定処理の推定結果とに基づいて、発話者の感情を推定する。文字列感情推定処理では、認識文字列ＳＤの意味内容に着目するので、発話者の音声に基づく認識文字列ＳＤが肯定的な内容なのか否定的な内容なのかを高い精度で判定できる。一方、音声の抑揚には、発話者が興奮しているか否かが顕著に表れる。認識文字列ＳＤは、単なる文字列に過ぎないので、音声の抑揚が失われている。発話者の感情には、興奮時に表れる喜びと怒りと、非興奮時に表れる悲しみがある。従って、仮に、認識文字列ＳＤから、発話者の感情が、興奮時の感情であるか非興奮時の感情であるかを推定しようとすると、誤推定が発生する場合がある。例えば、感情スコア算出処理部２５２２において、発話者の真の感情が怒りであるのに、認識文字列ＳＤに基づいて悲しみのスコアが最も高く算出される場合がある。また、感情スコア算出処理部２５２２において、発話者の真の感情が悲しみであるのに、認識文字列ＳＤに基づいて怒りのスコアが最も高く算出される場合がある。即ち、認識文字列ＳＤに基づいて、興奮時の感情と非興奮時の感情とを区別しようとすると、怒りと悲しみとを混同する可能性がある。しかしながら、認識文字列ＳＤに基づいて感情を推定する第１推定部２５２は、混同することがある怒りと悲しみとを１つのグループとして推定するため、怒りと悲しみとの混同による誤推定を無くすことができる。
音声感情推定処理について、音の特徴量の中には、基本周波数及びラウドネスのように、興奮時と非興奮時とで値が大きく異なる傾向を有する特徴量がある。従って、音声感情推定処理では、発話者の感情が、興奮時の感情であるか非興奮時の感情であるかを精度良く推定することができる。一方、音の特徴量には、発話者の発話の意味内容が含まれていない。発話者の感情には、肯定的な時に現れる喜びと、否定的な時に現れる怒りと悲しみとがある。従って、仮に、音の特徴量から、発話者の感情が、肯定的な感情であるか否定的な感情であるかを推定しようとすると、誤推定が発生する場合がある。例えば、学習モデル実行処理部２５３２における学習モデルにおいて、発話者の真の感情が喜びであるのに、怒りのスコアが最も高く算出される場合がある。また、学習モデル実行処理部２５３２における学習モデルにおいて、発話者の真の感情が怒りであるのに、喜びのスコアが最も高く算出される場合がある。即ち、音の特徴量に基づいて、肯定的な感情と否定的な感情とを区別しようとすると、喜びと怒りとを混同する可能性がある。しかしながら、音の特徴量に基づいて感情を推定する第２推定部２５３は、混同することがある喜びと怒りとを１つのグループとして推定するため、喜びと怒りとの混同による誤推定を無くすことができる。
以上により、第１実施形態によれば、混同することがある感情同士を１つのグループとして推定するため、誤推定を抑制することができる。例えば、認識文字列ＳＤに基づく各感情のスコアと音の特徴量に基づく各感情のスコアとの平均値によって発話者の感情を推定する場合と比較すると、発話者の感情を精度良く推定することが可能になる。

また、第１実施形態によれば、発話者の感情がポジティブグループＧＥ１に属することを第１感情グループデータＧＤ１が示す場合、感情推定部２５４は、発話者の感情が喜びであると推定する。発話者の感情がネガティブグループＧＥ２に属することを第１感情グループデータＧＤ１が示し、且つ、発話者の感情が興奮グループＧＥ３に属することを第２感情グループデータＧＤ２が示す場合、感情推定部２５４は、発話者の感情が怒りであると推定する。発話者の感情がネガティブグループＧＥ２に属することを第１感情グループデータＧＤ１が示し、且つ、発話者の感情が非興奮グループＧＥ４に属することを第２感情グループデータＧＤ２が示す場合、感情推定部２５４は、発話者の感情が悲しみであると推定する。
以上により、感情推定部２５４は、発話者の感情がポジティブグループＧＥ１に属することを第１感情グループデータＧＤ１が示す場合、第２感情グループデータＧＤ２を参照することなく、発話者の感情を推定することが可能になる。また、発話者の感情がネガティブグループＧＥ２に属することを第１感情グループデータＧＤ１が示す場合であっても、感情推定部２５４は、第２感情グループデータＧＤ２を参照することにより、発話者の感情を精度良く推定することが可能になる。

２．第２実施形態
第１実施形態では、推定部２５は、第１推定部２５２によって文字列感情推定処理を実行し、第１感情グループデータＧＤ１がネガティブグループＧＥ２を示す場合、第２推定部２５３によって音声感情推定処理を実行する。一方、第２実施形態では、推定部２５ａは、第２推定部２５３によって音声感情推定処理を実行し、第２感情グループデータＧＤ２が興奮グループＧＥ３を示す場合、第１推定部２５２によって文字列感情推定処理を実行する。以下、第２実施形態にかかるユーザ装置１ａを説明する。なお、以下に例示する第２実施形態において作用又は機能が第１実施形態と同等である要素については、以上の説明で参照の符号を流用して各々の詳細な説明を適宜に省略する。

２．１．第２実施形態の機能
図７は、第２実施形態にかかるユーザ装置１ａを示すブロック図である。ユーザ装置１ａは、処理装置２ａ、記憶装置３ａ、表示装置４、操作装置５、通信装置６、放音装置７、及び、集音装置８を具備するコンピュータシステムにより実現される。記憶装置３ａは、処理装置２ａが読取可能な記録媒体であり、処理装置２ａが実行する制御プログラムＰＲａを含む複数のプログラムを記憶する。

処理装置２ａは、記憶装置３ａから制御プログラムＰＲａを読み取り実行することによって、取得部２１、推定部２５ａ、及び、出力部２６として機能する。

図８は、第２実施形態にかかるユーザ装置１ａの機能の概要を示す図である。推定部２５ａは、音声認識処理部２５１、第１推定部２５２、第２推定部２５３、及び、感情推定部２５４ａを含む。

感情推定部２５４ａは、発話者の感情が非興奮グループＧＥ４に属することを第２感情グループデータＧＤ２が示す場合、発話者の感情が悲しみであると推定する。
また、発話者の感情が興奮グループＧＥ３に属することを第２感情グループデータＧＤ２が示し、且つ、発話者の感情がポジティブグループＧＥ１に属することを第１感情グループデータＧＤ１が示す場合、感情推定部２５４ａは、発話者の感情が喜びであると推定する。
発話者の感情が興奮グループＧＥ３に属することを第２感情グループデータＧＤ２が示し、且つ、発話者の感情がネガティブグループＧＥ２に属することを第１感情グループデータＧＤ１が示す場合、感情推定部２５４ａは、発話者の感情が怒りであると推定する。

２．２．第２実施形態の動作
次に、推定部２５ａが実行する処理について、図９を用いて説明する。

図９は、第２実施形態にかかる推定部２５ａの処理を示すフローチャートである。図９に示すステップＳ２２、ステップＳ２３、ステップＳ２６、ステップＳ２７、及び、ステップＳ２８の処理が、感情推定部２５４ａに相当する。第２推定部２５３は、音声データＶＤに対して音声感情推定処理を実行し、第２感情グループデータＧＤ２を出力する（ステップＳ２１）。

感情推定部２５４ａは、第２感情グループデータＧＤ２が非興奮グループＧＥ４を示すか否かを判定する（ステップＳ２２）。換言すればステップＳ２２において、感情推定部２５４ａは、第２感情グループデータＧＤ２が興奮グループＧＥ３と非興奮グループＧＥ４との何れを示すか判定する。第２感情グループデータＧＤ２が非興奮グループＧＥ４を示し、ステップＳ２２の判定結果が肯定となる場合、感情推定部２５４ａは、発話者の感情が悲しみであると推定する（ステップＳ２３）。

一方、第２感情グループデータＧＤ２が興奮グループＧＥ３を示し、ステップＳ２２の判定結果が否定となる場合、音声認識処理部２５１は、音声データＶＤに対して音声認識処理を施して、認識文字列ＳＤを得る（ステップＳ２４）。次に、第１推定部２５２は、認識文字列ＳＤに対して文字列感情推定処理を実行し、第１感情グループデータＧＤ１を出力する（ステップＳ２５）。

感情推定部２５４ａは、第１感情グループデータＧＤ１がポジティブグループＧＥ１を示すか否かを判定する（ステップＳ２６）。換言すればステップＳ２６において、感情推定部２５４ａは、第１感情グループデータＧＤ１がポジティブグループＧＥ１とネガティブグループＧＥ２との何れを示すか判定する。

第２感情グループデータＧＤ２が興奮グループＧＥ３を示し、且つ、第１感情グループデータＧＤ１がポジティブグループＧＥ１を示す場合、感情推定部２５４ａは、発話者の感情が喜びであると推定する（ステップＳ２７）。一方、第２感情グループデータＧＤ２が興奮グループＧＥ３を示し、且つ、第１感情グループデータＧＤ１がネガティブグループＧＥ２を示す場合、感情推定部２５４ａは、発話者の感情が怒りであると推定する（ステップＳ２８）。

ステップＳ２３、ステップＳ２７、又は、ステップＳ２８の処理終了後、推定部２５ａは、図９に示す一連の処理を終了する。

２．３．第２実施形態の効果
以上説明したように、第２実施形態によれば、発話者の感情が非興奮グループＧＥ４に属することを第２感情グループデータＧＤ２が示す場合、感情推定部２５４ａは、発話者の感情が悲しみであると推定する。また、発話者の感情が興奮グループＧＥ３に属することを第２感情グループデータＧＤ２が示し、且つ、発話者の感情がポジティブグループＧＥ１に属することを第１感情グループデータＧＤ１が示す場合、感情推定部２５４ａは、発話者の感情が喜びであると推定する。発話者の感情が興奮グループＧＥ３に属することを第２感情グループデータＧＤ２が示し、且つ、発話者の感情がネガティブグループＧＥ２に属することを第１感情グループデータＧＤ１が示す場合、感情推定部２５４ａは、発話者の感情が怒りであると推定する。
以上によれば、感情推定部２５４ａは、発話者の感情が非興奮グループＧＥ４に属することを第２感情グループデータＧＤ２が示す場合、感情推定部２５４ａは、第１感情グループデータＧＤ１を参照することなく、発話者の感情を推定することが可能になる。また、発話者の感情が興奮グループＧＥ３に属することを第２感情グループデータＧＤ２が示す場合であっても、第１感情グループデータＧＤ１を参照することにより、発話者の感情を精度良く推定することが可能になる。

３．変形例
本発明は、以上に例示した各実施形態に限定されない。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された２以上の態様を併合してもよい。

（１）上述した各形態において、第１推定部２５２は、（１）式において、左辺である「喜びのスコア」と、右辺である「α×（怒りのスコア＋悲しみのスコア）／２」との差の絶対値が所定値以上ある場合に、発話者の感情がポジティブグループＧＥ１とネガティブグループＧＥ２との何れかに属することを示す第１感情グループデータＧＤ１を出力し、前述の差の絶対値が所定値未満である場合に、発話者の感情が不明であることを示す第１感情グループデータＧＤ１を出力してもよい。
同様に、第２推定部２５３は、（２）式において、左辺である「（喜びのスコア＋怒りのスコア）／２」と、右辺である「β×悲しみのスコア」との差の絶対値が所定値以上ある場合に、発話者の感情が興奮グループＧＥ３と非興奮グループＧＥ４との何れに属することを示す第２感情グループデータＧＤ２を出力し、前述の差の絶対値が所定値未満である場合に、発話者の感情が不明であることを示す第２感情グループデータＧＤ２を出力してもよい。
第１感情グループデータＧＤ１及び第２感情グループデータＧＤ２の何れか一方が、発明者の感情が不明であることを示す場合、感情推定部２５４は、他方の感情グループデータに基づいて、発話者の感情を推定してもよい。
ここで、第１感情グループデータＧＤ１及び第２感情グループデータＧＤ２が、第２の態様であるとする。例えば、第１感情グループデータＧＤ１が、発話者の感情が不明であることを示す場合、感情推定部２５４は、第２感情グループデータＧＤ２に含まれる各感情のスコアのうち、最も大きいスコアを有する感情を、発話者の感情として推定する。同様に、第２感情グループデータＧＤ２が、発話者の感情が不明であることを示す場合、感情推定部２５４は、第１感情グループデータＧＤ１に含まれる各感情のスコアのうち、最も大きいスコアを有する感情を、発話者の感情として推定する。

（２）第２実施形態において、ステップＳ２５において、第１推定部２５２は、感情分類データ３３に含まれる、喜びに分類された文字列群３３１及び怒りに分類された文字列群３３２を、認識文字列ＳＤと比較することにより、発話者の感情が、ポジティブグループＧＥ１とネガティブグループＧＥ２との何れに属するかを推定してもよい。言い換えれば、第１推定部２５２は、感情分類データ３３に含まれる悲しみに分類された文字列群３３３を、認識文字列ＳＤと比較しなくてよい。第１推定部２５２は、感情分類データ３３に含まれる悲しみに分類された文字列群３３３を認識文字列ＳＤと比較しない分、文字列感情推定処理にかかる時間を短縮することが可能になる。

（３）第１実施形態では、ステップＳ３において、第１感情グループデータＧＤ１がポジティブグループＧＥ１を示す場合、第２推定部２５３が音声感情推定処理を実行しなかったが、実行してもよい。同様に、第２実施形態では、ステップＳ２２において、第２感情グループデータＧＤ２が非興奮グループＧＥ４を示す場合、第１推定部２５２が文字列感情推定処理を実行しなかったが、実行してもよい。第１感情グループデータＧＤ１がポジティブグループＧＥ１を示し、且つ、第２感情グループデータＧＤ２が非興奮グループＧＥ４を示す場合、感情推定部２５４は、発話者の感情が推定不能と決定してもよい。
このように、第１推定部２５２の推定結果と第２推定部２５３の推定結果とに整合性がとれない場合には、何れか一方の推定結果が誤推定であることを示すため、感情推定部２５４は、誤った推定結果を出力することを抑制することが可能になる。

（４）上述したように、第１感情グループデータＧＤ１がポジティブグループＧＥ１を示し、且つ、第２感情グループデータＧＤ２が非興奮グループＧＥ４を示す場合、感情推定部２５４は、発話者の感情が推定不能と決定してもよい。感情推定部２５４が、発話者の感情が推定不能と決定した場合、出力部２６は、以下に示す２つの絵文字付き文字列とのうち少なくとも１つの図形付き文字列を出力する。第１の絵文字付き文字列は、認識文字列ＳＤに対して喜びを具象化した絵文字を付加する処理を施して得られる絵文字付き文字列である。第２の絵文字付き文字列は、認識文字列ＳＤに対して悲しみを具象化した絵文字を付加した処理を施して得られる文字列である。出力部２６は、第１の絵文字付き文字列と第２の絵文字付き文字列ともに出力してもよいし、何れか一方を出力してもよい。
例えば、第１感情グループデータＧＤ１及び第２感情グループデータＧＤ２が、第２の態様であるとする。出力部２６は、第１感情グループデータＧＤ１に含まれる喜びのスコアが所定値以上である場合に第１の絵文字付き文字列を出力し、第２感情グループデータＧＤ２に含まれる悲しみのスコアが所定値以上である場合に第２の絵文字付き文字列を出力する。
ユーザである発話者は、表示装置４に表示された絵文字付き文字列を見て、操作装置５を操作することにより、自身の感情に近い絵文字付き文字列を選択する。
以上により、ユーザ装置１は、発話者の感情が推定不能と決定した場合でも、発話者に選択させることにより、発話者の感情に近い、適切な感情を選択することが可能になる。

（５）ユーザ装置１ｃと、ユーザ装置１ｃとアクセス可能なサーバ装置１０１とを含む感情推定システム１００によって、他者とのコミュニケーションを支援するサービスを提供してもよい。

図１０は、感情推定システム１００を示すブロック図である。感情推定システム１００は、ユーザ装置１ｃと、サーバ装置１０１とを含む。この変形例では、サーバ装置１０１が、「感情推定装置」の一例である。ユーザ装置１ｃが、「端末装置」の一例である。

ユーザ装置１ｃは、処理装置２ｃ、記憶装置３ｃ、表示装置４、操作装置５、通信装置６、放音装置７、及び、集音装置８を具備するコンピュータシステムにより実現される。記憶装置３ｃは、処理装置２ｃが読取可能な記録媒体であり、処理装置２ｃが実行する制御プログラムＰＲｃを含む複数のプログラムを記憶する。通信装置６は、ネットワークを介してサーバ装置１０１とアクセスする。

処理装置２ｃは、記憶装置３ｃから制御プログラムＰＲｃを読み取り実行することによって、送信部２２、受信部２３、及び、出力部２６として機能する。

送信部２２は、集音装置８によって得られた音声データＶＤを、サーバ装置１０１に送信する。受信部２３は、サーバ装置１０１から、認識文字列ＳＤと、感情データＥＤとを受信する。

サーバ装置１０１は、処理装置２Ｃ、記憶装置３Ｃ、及び通信装置６Ｃを具備するコンピュータシステムにより実現される。サーバ装置１０１の各要素は、情報を通信するための単体又は複数のバス９Ｃで相互に接続される。記憶装置３Ｃは、処理装置２Ｃが読取可能な記録媒体であり、処理装置２Ｃが実行する制御プログラムＰＲＣを含む複数のプログラム、解析用辞書データ３１、及び、感情分類データ３３を記憶する。通信装置６Ｃは、ネットワークを介してユーザ装置１ｃとアクセスする。

処理装置２Ｃは、記憶装置３Ｃから制御プログラムＰＲＣを読み取り実行することによって、取得部２１Ｃ、及び、推定部２５として機能する。

取得部２１Ｃは、ユーザ装置１ｃから、音声データＶＤを取得する。推定部２５は、音声データＶＤに基づいて発話者の感情を推定し、推定した感情を示す感情データＥＤと、認識文字列ＳＤとをユーザ装置１ｃに送信する。

この変形例によれば、サーバ装置１０１が発話者の感情を推定するため、第１実施形態におけるユーザ装置１と比較すると、ユーザ装置１ｃにかかる負荷を抑制することが可能になる。
なお、この変形例では、処理装置２ｃが出力部２６として機能する、言い換えれば、認識文字列ＳＤに対して感情データＥＤが示す感情に応じた処理を実行するが、処理装置２Ｃが出力部２６として機能してもよい。処理装置２Ｃが出力部２６として機能する場合、サーバ装置１０１が、認識文字列ＳＤに対して感情データＥＤが示す感情に応じた処理を実行し、この処理によって得られたデータを、ユーザ装置１ｃに送信する。

（６）上述の各態様において、推定部２５は、第１推定部２５２と第２推定部２５３とを並列に実行してもよい。

（７）上述の各態様において、ユーザ装置１は、集音装置８を有さなくてもよい。集音装置８を有さない場合、ユーザ装置１は、通信装置６を介して音声データＶＤを取得してもよいし、記憶装置３に記憶された音声データＶＤを取得してもよい。

（８）上述の各態様において、ユーザ装置１は、放音装置７を有さなくてもよい。

（９）上述の各態様において、ユーザ装置１は、スマートスピーカでもよい。ユーザ装置１がスマートスピーカである場合、ユーザ装置１は、表示装置４及び操作装置５を有さなくてもよい。

（１０）上述の各態様において、感情分類データ３３は、図４に示すように、「勝つ」、「勝っ」のように、ある単語が活用した複数の形態素のそれぞれを、喜び、怒り、及び、悲しみの何れかに分類したが、これに限らない。例えば、感情分類データ３３は、解析用辞書データ３１の原形データに登録された文字列を、喜び、怒り、及び、悲しみの何れかに分類してもよい。例えば、感情分類データ３３は、解析用辞書データ３１の原形データに登録された文字列「嬉しい」、「合格」、及び「勝つ」を、喜びに分類する。感情スコア算出処理部２５２２は、補正後認識文字列ＣＳＤを形態素ごとに分解し、分解した形態素を、解析用辞書データ３１の原形データに登録された文字列に変換する。そして、感情スコア算出処理部２５２２は、変換して得られた文字列と、感情分類データ３３に含まれる文字列とが一致する場合に、この補正後認識文字列ＣＳＤに含まれる文字列に対応する感情のスコアを増加させる。

（１１）上述の各態様において、感情スコア算出処理部２５２２は、補正後認識文字列ＣＳＤに対して、感情ごとのスコアを算出したが、認識文字列ＳＤに対して感情ごとのスコアを算出してもよい。しかしながら、認識文字列ＳＤには、感情を推定するためには不要な文字列が含まれる。従って、補正後認識文字列ＣＳＤに対して感情ごとのスコアを算出することにより、認識文字列ＳＤに対して感情ごとのスコアを算出する場合と比較して、感情の推定精度を向上させることが可能になる。

（１２）上述の各態様では、発話者が日本語を話す例を用いたが、発話者が如何なる言語を話しても上述の各態様を適用することが可能である。例えば、発話者が、日本語以外の英語、フランス語、又は中国語等を話す場合であっても上述の各態様を適用できる。例えば、発話者が英語を話す場合、解析用辞書データ３１は、英語の形態素に関するデータであり、感情分類データ３３は、英単語を喜び、怒り、及び悲しみの何れかに分類したデータであればよい。

（１３）上述の各態様において、学習モデル実行処理部２５３２における予め学習した学習モデルは、音の特徴量が入力されると、発話者の感情が、興奮グループＧＥ３と非興奮グループＧＥ４との何れに属するかを示す第２感情グループデータＧＤ２を出力するモデルでもよい。

（１４）上述の各態様において、喜び、怒り、及び悲しみ以外の人が取り得る感情に対しても、感情のグループ分けに従って適用してもよい。例えば、癒しを、ポジティブグループＧＥ１に属し、且つ、非興奮グループＧＥ４に属するとしてもよい。

（１５）上述した各態様の説明に用いたブロック図は、機能単位のブロックを示している。これらの機能ブロック（構成部）は、ハードウェア及び／又はソフトウェアの任意の組み合わせによって実現される。また、各機能ブロックの実現手段は特に限定されない。すなわち、各機能ブロックは、物理的及び／又は論理的に結合した１つの装置により実現されてもよいし、物理的及び／又は論理的に分離した２つ以上の装置を直接的及び／又は間接的に(例えば、有線及び／又は無線)で接続し、これら複数の装置により実現されてもよい。

（１６）上述した各態様における処理手順、シーケンス、フローチャートなどは、矛盾のない限り、順序を入れ替えてもよい。例えば、本明細書で説明した方法については、例示的な順序で様々なステップの要素を提示しており、提示した特定の順序に限定されない。

（１７）上述した各態様において、入出力された情報等は特定の場所(例えば、メモリ)に保存されてもよいし、管理テーブルで管理してもよい。入出力される情報等は、上書き、更新、又は追記され得る。出力された情報等は削除されてもよい。入力された情報等は他の装置へ送信されてもよい。

（１８）上述した各態様において、判定は、１ビットで表される値（０か１か）によって行われてもよいし、真偽値（Boolean：true又はfalse）によって行われてもよいし、数値の比較（例えば、所定の値との比較）によって行われてもよい。

（１９）上述した各態様では、スマートフォン等の可搬型の情報処理装置をユーザ装置１として例示したが、ユーザ装置１の具体的な形態は任意であり、前述の各形態の例示には限定されない。例えば、可搬型又は据置型のパーソナルコンピュータをユーザ装置１として利用してもよい。

（２０）上述した各態様では、記憶装置３は、処理装置２が読取可能な記録媒体であり、ＲＯＭ及びＲＡＭなどを例示したが、フレキシブルディスク、光磁気ディスク(例えば、コンパクトディスク、デジタル多用途ディスク、Ｂｌｕ−ｒａｙ（登録商標）ディスク)、スマートカード、フラッシュメモリデバイス(例えば、カード、スティック、キードライブ)、ＣＤ−ＲＯＭ（Compact Disc−ＲＯＭ）、レジスタ、リムーバブルディスク、ハードディスク、フロッピー（登録商標）ディスク、磁気ストリップ、データベース、サーバその他の適切な記憶媒体である。また、プログラムは、ネットワークから送信されても良い。また、プログラムは、電気通信回線を介して通信網から送信されても良い。

（２１）上述した各態様は、ＬＴＥ（Long Term Evolution）、ＬＴＥ−Ａ（LTE-Advanced）、ＳＵＰＥＲ３Ｇ、ＩＭＴ−Ａｄｖａｎｃｅｄ、４Ｇ、５Ｇ、ＦＲＡ（Future Radio Access）、Ｗ−ＣＤＭＡ（登録商標）、ＧＳＭ（登録商標）、ＣＤＭＡ２０００、ＵＭＢ（Ultra Mobile Broadband）、ＩＥＥＥ８０２．１１（Ｗｉ−Ｆｉ）、ＩＥＥＥ８０２．１６（ＷｉＭＡＸ）、ＩＥＥＥ８０２．２０、ＵＷＢ（Ultra-WideBand）、Ｂｌｕｅｔｏｏｔｈ（登録商標）、その他の適切なシステムを利用するシステム及び／又はこれらに基づいて拡張された次世代システムに適用されてもよい。

（２２）上述した各態様において、説明した情報及び信号などは、様々な異なる技術の何れかを使用して表されてもよい。例えば、上述の説明全体に渡って言及され得るデータ、命令、コマンド、情報、信号、ビット、シンボル、チップなどは、電圧、電流、電磁波、磁界若しくは磁性粒子、光場若しくは光子、又はこれらの任意の組み合わせによって表されてもよい。
なお、本明細書で説明した用語及び／又は本明細書の理解に必要な用語については、同一の又は類似する意味を有する用語と置き換えてもよい。

（２３）図１、図７、及び、図１０に例示された各機能は、ハードウェア及びソフトウェアの任意の組み合わせによって実現される。また、各機能は、単体の装置によって実現されてもよいし、相互に別体で構成された２個以上の装置によって実現されてもよい。

（２４）上述した各実施形態で例示したプログラムは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード又はハードウェア記述言語と呼ばれるか、他の名称によって呼ばれるかを問わず、命令、命令セット、コード、コードセグメント、プログラムコード、サブプログラム、ソフトウェアモジュール、アプリケーション、ソフトウェアアプリケーション、ソフトウェアパッケージ、ルーチン、サブルーチン、オブジェクト、実行可能ファイル、実行スレッド、手順又は機能等を意味するよう広く解釈されるべきである。
また、ソフトウェア、命令などは、伝送媒体を介して送受信されてもよい。例えば、ソフトウェアが、同軸ケーブル、光ファイバケーブル、ツイストペア及びデジタル加入者回線（ＤＳＬ）などの有線技術及び／又は赤外線、無線及びマイクロ波などの無線技術を使用してウェブサイト、サーバ、又は他のリモートソースから送信される場合、これらの有線技術及び／又は無線技術は、伝送媒体の定義内に含まれる。

（２５）上述した各実施形態において、情報、パラメータなどは、絶対値で表されてもよいし、所定の値からの相対値で表されてもよいし、対応する別の情報で表されてもよい。

（２６）上述したパラメータに使用する名称はいかなる点においても限定的なものではない。さらに、これらのパラメータを使用する数式等は、本明細書で明示的に開示したものと異なる場合もある。

（２７）上述した各実施形態において、ユーザ装置１は、移動局である場合が含まれる。移動局は、当業者によって、加入者局、モバイルユニット、加入者ユニット、ワイヤレスユニット、リモートユニット、モバイルデバイス、ワイヤレスデバイス、ワイヤレス通信デバイス、リモートデバイス、モバイル加入者局、アクセス端末、モバイル端末、ワイヤレス端末、リモート端末、ハンドセット、ユーザエージェント、モバイルクライアント、クライアント、又はいくつかの他の適切な用語で呼ばれる場合もある。

（２８）上述した各実施形態において、「に基づいて」という記載は、別段に明記されていない限り、「のみに基づいて」を意味しない。言い換えれば、「に基づいて」という記載は、「のみに基づいて」と「に少なくとも基づいて」の両方を意味する。

（２９）本明細書で使用する「第１」、「第２」などの呼称を使用した要素へのいかなる参照も、それらの要素の量又は順序を全般的に限定するものではない。これらの呼称は、２つ以上の要素間を区別する便利な方法として本明細書で使用され得る。従って、第１及び第２の要素への参照は、２つの要素のみがそこで採用され得ること、又は何らかの形で第１の要素が第２の要素に先行しなければならないことを意味しない。

（３０）上述した各実施形態において「含む(ｉｎｃｌｕｄｉｎｇ)」、「含んでいる（ｃｏｍｐｒｉｓｉｎｇ）」、及びそれらの変形が、本明細書あるいは特許請求の範囲で使用されている限り、これら用語は、用語「備える」と同様に、包括的であることが意図される。さらに、本明細書あるいは特許請求の範囲において使用されている用語「又は（or）」は、排他的論理和ではないことが意図される。

（３１）本願の全体において、例えば、英語におけるa、an及びtheのように、翻訳によって冠詞が追加された場合、これらの冠詞は、文脈から明らかにそうではないことが示されていなければ、複数を含む。

（３２）本発明が本明細書中に説明した実施形態に限定されないことは当業者にとって明白である。本発明は、特許請求の範囲の記載に基づいて定まる本発明の趣旨及び範囲を逸脱することなく修正及び変更態様として実施できる。従って、本明細書の記載は、例示的な説明を目的とし、本発明に対して何ら制限的な意味を有さない。また、本明細書に例示した態様から選択された複数の態様を組み合わせてもよい。

１，１ａ，１ｃ…ユーザ装置、８…集音装置、２１、２１Ｃ…取得部、２２…送信部、２５、２５ａ…推定部、２６…出力部、２５１…音声認識処理部、２５２…第１推定部、２５３…第２推定部、２５４、２５４ａ…感情推定部、ＥＤ…感情データ、ＧＥ１…ポジティブグループ、ＧＥ２…ネガティブグループ、ＧＥ３…興奮グループ、ＧＥ４…非興奮グループ、ＳＤ…認識文字列、ＶＤ…音声データ。

Claims

発話者の音声を含む音を示す音声データを取得する取得部と、
前記音声データに音声認識処理を施して得られた認識文字列に基づいて、前記発話者の感情が、肯定的な感情が属する第１グループと、否定的な感情が属する第２グループとの何れに属するかを推定する第１推定部と、
前記音声データが示す音の特徴量に基づいて、前記発話者の感情が、興奮時の感情が属する第３グループと、興奮時ではない感情が属する第４グループとの何れに属するかを推定する第２推定部と、
前記第１推定部の推定結果と前記第２推定部の推定結果とに基づいて、前記発話者の感情を推定する感情推定部と、
を備え、
前記感情推定部は、
前記発話者の感情が前記第１グループに属することを前記第１推定部の推定結果が示す場合、前記発話者の感情が喜びであると推定し、
前記発話者の感情が前記第２グループに属することを前記第１推定部の推定結果が示し、且つ、前記発話者の感情が前記第３グループに属することを前記第２推定部の推定結果が示す場合、前記発話者の感情が怒りであると推定し、
前記発話者の感情が前記第２グループに属することを前記第１推定部の推定結果が示し、且つ、前記発話者の感情が前記第４グループに属することを前記第２推定部の推定結果が示す場合、前記発話者の感情が悲しみであると推定する、
感情推定装置。
発話者の音声を含む音を示す音声データを取得する取得部と、
前記音声データに音声認識処理を施して得られた認識文字列に基づいて、前記発話者の感情が、肯定的な感情が属する第１グループと、否定的な感情が属する第２グループとの何れに属するかを推定する第１推定部と、
前記音声データが示す音の特徴量に基づいて、前記発話者の感情が、興奮時の感情が属する第３グループと、興奮時ではない感情が属する第４グループとの何れに属するかを推定する第２推定部と、
前記第１推定部の推定結果と前記第２推定部の推定結果とに基づいて、前記発話者の感情を推定する感情推定部と、
を備え、
前記感情推定部は、
前記発話者の感情が前記第４グループに属することを前記第２推定部の推定結果が示す場合、前記発話者の感情が悲しみであると推定し、
前記発話者の感情が前記第３グループに属することを前記第２推定部の推定結果が示し、且つ、前記発話者の感情が前記第１グループに属することを前記第１推定部の推定結果が示す場合、前記発話者の感情が喜びであると推定し、
前記発話者の感情が前記第３グループに属することを前記第２推定部の推定結果が示し、且つ、前記発話者の感情が前記第２グループに属することを前記第１推定部の推定結果が示す場合、前記発話者の感情が怒りであると推定する、
感情推定装置。
前記第１推定部は、
前記発話者の感情が前記第３グループに属することを前記第２推定部の推定結果が示す場合、文字列を、喜び、怒り、及び悲しみの何れかに分類した感情分類データを参照して、前記感情分類データに含まれる喜び又は怒りの文字列を、前記認識文字列と比較することにより、前記発話者の感情が、前記第１グループと前記第２グループとの何れに属するかを推定する、
請求項２に記載の感情推定装置。
発話者の音声を含む音を示す音声データを取得する取得部と、
前記音声データに音声認識処理を施して得られた認識文字列に基づいて、前記発話者の感情が、肯定的な感情が属する第１グループと、否定的な感情が属する第２グループとの何れに属するかを推定する第１推定部と、
前記音声データが示す音の特徴量に基づいて、前記発話者の感情が、興奮時の感情が属する第３グループと、興奮時ではない感情が属する第４グループとの何れに属するかを推定する第２推定部と、
前記第１推定部の推定結果と前記第２推定部の推定結果とに基づいて、前記発話者の感情を推定する感情推定部と、
を備え、
前記感情推定部は、
前記発話者の感情が前記第１グループに属することを前記第１推定部の推定結果が示し、且つ、前記発話者の感情が前記第４グループに属することを前記第２推定部の推定結果が示す場合、推定不能と決定する、
感情推定装置。
前記認識文字列に対して、前記感情推定部が推定した感情を具象化した図形を付加する処理を施す出力部を備え、
前記出力部は、前記感情推定部が推定不能であると決定した場合、前記認識文字列に対して喜びを具象化した図形を付加する処理を施して得られる図形付き文字列と、前記認識文字列に対して悲しみを具象化した図形を付加した処理を施して得られる図形付き文字列とのうち少なくとも１つの図形付き文字列を出力する、
請求項４に記載の感情推定装置。
請求項１から４までの何れか１項に記載の感情推定装置と、前記感情推定装置と通信可能な端末装置とを備える感情推定システムであって、
前記端末装置は、
前記発話者の音声を含む音を集音する集音部と、
前記発話者の音声を含む音を示す前記音声データを、前記感情推定装置に送信する送信部と、
前記感情推定装置から、前記認識文字列と、前記感情推定部が推定した前記発話者の感情を示す感情データとを受信する受信部と、
前記認識文字列に対して、前記感情データが示す感情に応じた処理を施して得られるデータを出力する出力部と、
を備える感情推定システム。
発話者の音声を含む音を示す音声データを取得し、
前記音声データに音声認識処理を施して得られた認識文字列に基づいて、前記発話者の感情が、肯定的な感情が属する第１グループと、否定的な感情が属する第２グループとの何れに属するかを推定し、
前記音声データが示す音の特徴量に基づいて、前記発話者の感情が、興奮時の感情が属する第３グループと、興奮時ではない感情が属する第４グループとの何れに属するかを推定し、
前記発話者の感情が前記第１グループと前記第２グループとの何れに属するかを示す推定結果と、前記発話者の感情が前記第３グループと前記第４グループとの何れに属するかを示す推定結果とに基づいて、前記発話者の感情を推定する、
処理をコンピュータが実行する感情推定方法であって、
前記発話者の感情が前記第１グループに属することを推定した場合、前記発話者の感情が喜びであると推定し、
前記発話者の感情が前記第２グループに属することを推定し、且つ、前記発話者の感情が前記第３グループに属することをの推定した場合、前記発話者の感情が怒りであると推定し、
前記発話者の感情が前記第２グループに属することを推定し、且つ、前記発話者の感情が前記第４グループに属することを推定した場合、前記発話者の感情が悲しみであると推定する、
感情推定方法。
発話者の音声を含む音を示す音声データを取得し、
前記音声データに音声認識処理を施して得られた認識文字列に基づいて、前記発話者の感情が、肯定的な感情が属する第１グループと、否定的な感情が属する第２グループとの何れに属するかを推定し、
前記音声データが示す音の特徴量に基づいて、前記発話者の感情が、興奮時の感情が属する第３グループと、興奮時ではない感情が属する第４グループとの何れに属するかを推定し、
前記発話者の感情が前記第１グループと前記第２グループとの何れに属するかを示す推定結果と、前記発話者の感情が前記第３グループと前記第４グループとの何れに属するかを示す推定結果とに基づいて、前記発話者の感情を推定する、
処理をコンピュータが実行する感情推定方法であって、
前記発話者の感情が前記第４グループに属することを推定した場合、前記発話者の感情が悲しみであると推定し、
前記発話者の感情が前記第３グループに属することを推定した場合、且つ、前記発話者の感情が前記第１グループに属することを推定した場合、前記発話者の感情が喜びであると推定し、
前記発話者の感情が前記第３グループに属することを推定し、且つ、前記発話者の感情が前記第２グループに属することを推定した場合、前記発話者の感情が怒りであると推定する、
感情推定方法。
発話者の音声を含む音を示す音声データを取得し、
前記音声データに音声認識処理を施して得られた認識文字列に基づいて、前記発話者の感情が、肯定的な感情が属する第１グループと、否定的な感情が属する第２グループとの何れに属するかを推定し、
前記音声データが示す音の特徴量に基づいて、前記発話者の感情が、興奮時の感情が属する第３グループと、興奮時ではない感情が属する第４グループとの何れに属するかを推定し、
前記発話者の感情が前記第１グループと前記第２グループとの何れに属するかを示す推定結果と、前記発話者の感情が前記第３グループと前記第４グループとの何れに属するかを示す推定結果とに基づいて、前記発話者の感情を推定する、
処理をコンピュータが実行する感情推定方法であって、
前記発話者の感情が前記第１グループに属することを推定し、且つ、前記発話者の感情が前記第４グループに属することを推定結した場合、推定不能と決定する、
感情推定方法。