JP6782329B1 - 感情推定装置、感情推定システム、及び感情推定方法 - Google Patents

感情推定装置、感情推定システム、及び感情推定方法 Download PDF

Info

Publication number
JP6782329B1
JP6782329B1 JP2019091864A JP2019091864A JP6782329B1 JP 6782329 B1 JP6782329 B1 JP 6782329B1 JP 2019091864 A JP2019091864 A JP 2019091864A JP 2019091864 A JP2019091864 A JP 2019091864A JP 6782329 B1 JP6782329 B1 JP 6782329B1
Authority
JP
Japan
Prior art keywords
emotion
speaker
group
belongs
estimation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019091864A
Other languages
English (en)
Other versions
JP2020187262A (ja
Inventor
博子 進藤
博子 進藤
秀行 窪田
秀行 窪田
友基 伊藤
友基 伊藤
昌治 上田
昌治 上田
幸子 宮城
幸子 宮城
和也 川口
和也 川口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Omron Corp
NTT Docomo Inc
Original Assignee
Omron Corp
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Omron Corp, NTT Docomo Inc filed Critical Omron Corp
Priority to JP2019091864A priority Critical patent/JP6782329B1/ja
Application granted granted Critical
Publication of JP6782329B1 publication Critical patent/JP6782329B1/ja
Publication of JP2020187262A publication Critical patent/JP2020187262A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • User Interface Of Digital Computer (AREA)

Abstract

【課題】発話者の感情を精度良く推定すること。【解決手段】ユーザ装置1は、発話者の音声を含む音を示す音声データVDを取得する取得部21と、音声データVDに音声認識処理を施して得られた認識文字列SDに基づいて、発話者の感情が、肯定的な感情が属するポジティブグループGE1と、否定的な感情が属するネガティブグループGE2との何れに属するかを推定する第1推定部252と、音声データVDの音の特徴量に基づいて、発話者の感情が、興奮時の感情が属する興奮グループGE3と、興奮時ではない感情が属する非興奮グループGE4との何れに属するかを推定する第2推定部253と、第1推定部252の推定結果と第2推定部253の推定結果とに基づいて、発話者の感情を推定する感情推定部254と、を備える。【選択図】図5

Description

本発明は、感情推定装置、感情推定システム、及び感情推定方法に関する。
近年、喜び、怒り及び悲しみ等の感情を推定するサービスが普及している。例えば、特許文献1には、発話者の音声を含む音を示す音声データに対して音声認識処理を施し、音声認識処理から得られる認識文字列に基づいて、各感情に対して、発話者の感情である可能性の程度を示すスコアを算出し、音声データが示す音の特徴量に基づいて各感情のスコアを算出し、文字列から得られた各感情のスコアと、音の特徴量から得られた各感情のスコアとの平均値のうち最も大きいスコアの感情を、発話者の感情として推定することが開示されている。
特開2012−73941号公報
しかしながら、上述した従来技術では、音声認識処理から得られる認識文字列に基づいて感情を推定する場合、認識文字列からは、音声の抑揚が失われており、感情の推定を誤る場合がある。一方、音の特徴量に基づいて感情を推定する場合、音の特徴量には、音声の内容が肯定的であるか否定的であるかが含まれていなく、感情の推定を誤る場合がある。従って、認識文字列に基づく各感情のスコアと、音の特徴量に基づく各感情のスコアとには、誤推定のスコアが含まれ得る。このため、文字列から得られた各感情のスコアと音の特徴量から得られた各感情のスコアの平均値に誤差が含まれることがある。この結果、平均値に基づく、従来の感情推定方法は、感情の推定を誤る場合がある。
本発明の好適な態様にかかる感情推定装置は、発話者の音声を含む音を示す音声データを取得する取得部と、前記音声データに音声認識処理を施して得られた認識文字列に基づいて、前記発話者の感情が、肯定的な感情が属する第1グループと、否定的な感情が属する第2グループとの何れに属するかを推定する第1推定部と、前記音声データが示す音の特徴量に基づいて、前記発話者の感情が、興奮時の感情が属する第3グループと、興奮時ではない感情が属する第4グループとの何れに属するかを推定する第2推定部と、前記第1推定部の推定結果と前記第2推定部の推定結果とに基づいて、前記発話者の感情を推定する感情推定部とを備える。
本発明の好適な態様にかかる感情推定システムは、前述の感情推定装置と、前記感情推定装置と通信可能な端末装置とを備える感情推定システムであって、前記端末装置は、前記発話者の音声を含む音を集音する集音部と、前記発話者の音声を含む音を示す前記音声データを、前記感情推定装置に送信する送信部と、前記感情推定装置から、前記認識文字列と、前記感情推定部が推定した前記発話者の感情を示す感情データとを受信する受信部と、前記認識文字列に対して、前記感情データが示す感情に応じた処理を施して得られるデータを出力する出力部とを備える。
本発明の好適な態様にかかる感情推定方法は、発話者の音声を含む音を示す音声データを取得し、前記音声データに音声認識処理を施して得られた認識文字列に基づいて、前記発話者の感情が、肯定的な感情が属する第1グループと、否定的な感情が属する第2グループとの何れに属するかを推定し、前記音声データが示す音の特徴量に基づいて、前記発話者の感情が、興奮時の感情が属する第3グループと、興奮時ではない感情が属する第4グループとの何れに属するかを推定し、前記発話者の感情が前記第1グループと前記第2グループとの何れに属するかを示す推定結果と、前記発話者の感情が前記第3グループと前記第4グループとの何れに属するかを示す推定結果とに基づいて、前記発話者の感情を推定する処理をコンピュータが実行する。
本発明によれば、発話者の感情を精度良く推定することができる。
本発明の第1実施形態にかかるユーザ装置1を示すブロック図。 感情のグループ分けを示す図。 解析用辞書データ31の記憶内容の一例を示す図。 感情分類データ33の記憶内容の一例を示す図。 ユーザ装置1の機能の概要を示す図。 推定部25の処理を示すフローチャートを示す図。 第2実施形態にかかるユーザ装置1aを示すブロック図。 第2実施形態にかかるユーザ装置1aの機能の概要を示す図。 第2実施形態にかかる推定部25aの処理を示すフローチャートを示す図。 感情推定システム100を示すブロック図。
1.第1実施形態
図1は、本発明の第1実施形態にかかるユーザ装置1を示すブロック図である。ユーザ装置1は、スマートフォンを想定する。ユーザ装置1が、「感情推定装置」の一例である。ただし、ユーザ装置1としては、任意の情報処理装置を採用することができ、例えば、パーソナルコンピュータ等の端末型の情報機器であってもよいし、ノートパソコン、ウェアラブル端末及びタブレット端末等の可搬型の情報端末であってもよい。
ユーザ装置1は、処理装置2、記憶装置3、表示装置4、操作装置5、通信装置6、放音装置7、及び、集音装置8を具備するコンピュータシステムにより実現される。ユーザ装置1の各要素は、情報を通信するための単体又は複数のバス9で相互に接続される。なお、本明細書における「装置」という用語は、回路、デバイス又はユニット等の他の用語に読替えてもよい。また、ユーザ装置1の各要素は、単数又は複数の機器で構成され、ユーザ装置1の一部の要素は省略されてもよい。集音装置8は、「集音部」の一例である。
ユーザ装置1は、ユーザ装置1のユーザである発話者の音声を含む音を示す音声データに対して音声認識処理を施して得られた認識文字列を、他者が利用する装置に送信する機能、又は、認識文字列を読み上げて他者に聞かせる機能を有する。さらに、ユーザ装置1は、発話者の音声に基づいて発話者の感情を推定し、認識文字列に対して、推定した感情に応じた絵文字を認識文字列に付加する、又は、推定した感情に応じた抑揚で認識文字列を読み上げることにより、コミュニケーションに必要な感情表現を付加することが可能になる。コミュニケーションをより円滑にするため、発話者の感情の推定精度が向上することが好ましい。
第1実施形態では、ユーザ装置1は、人が取り得る複数の感情を、肯定的であるか又は否定的であるかによってグループ分けした結果と、興奮時か否かとによってグループ分けした結果とに基づいて、発話者の感情を推定する。
図2は、感情のグループ分けを示す図である。人が取り得る複数の感情を、肯定的な感情が属するポジティブグループGE1と、否定的な感情が属するネガティブグループGE2とに分類すると、ポジティブグループGE1には喜びが属し、ネガティブグループGE2には怒り及び悲しみが属する。ポジティブグループGE1は、「第1グループ」の一例である。ネガティブグループGE2は、「第2グループ」の一例である。
また、人が取り得る複数の感情を、興奮時の感情が属する興奮グループGE3と、非興奮時の感情が属する非興奮グループGE4とに分類すると、興奮グループGE3には喜び及び怒りが属し、興奮時でない感情が属する非興奮グループGE4には悲しみが属する。興奮グループGE3は、「第3グループ」の一例である。非興奮グループGE4は、「第4グループ」の一例である。
説明を図1に戻す。処理装置2は、ユーザ装置1の全体を制御するプロセッサであり、例えば、単数又は複数のチップで構成される。処理装置2は、例えば、周辺装置とのインタフェース、演算装置及びレジスタ等を含む中央処理装置(CPU:Central Processing Unit)で構成される。なお、処理装置2の機能の一部又は全部を、DSP(Digital Signal Processor)、ASIC(Application Specific Integrated Circuit)、PLD(Programmable Logic Device)、FPGA(Field Programmable Gate Array)等のハードウェアによって実現してもよい。処理装置2は、各種の処理を並列的又は逐次的に実行する。
記憶装置3は、処理装置2が読取可能な記録媒体であり、処理装置2が実行する制御プログラムPRを含む複数のプログラム、解析用辞書データ31、及び、感情分類データ33を記憶する。記憶装置3は、例えば、ROM(Read Only Memory)、EPROM(Erasable Programmable ROM)、EEPROM(Electrically Erasable Programmable ROM)、RAM(Random Access Memory)等の記憶回路の1種類以上で構成される。
図3は、解析用辞書データ31の記憶内容の一例を示す図である。解析用辞書データ31は、形態素ごとに、品詞、品詞細分類、及び、原形データを互いに対応付けたデータである。形態素は、意味を有する表現要素の最小単位の文字列である。品詞は、文法的性質によって分類された単語の種別であり、名詞、動詞、及び形容詞等である。品詞細分類は、品詞をさらに細分類した項目である。原形データは、該当の形態素が活用する単語である場合、単語の原形を示す文字列であり、該当の形態素が活用しない単語である場合、該当の形態素と同一の文字列である。
図4は、感情分類データ33の記憶内容の一例を示す図である。感情分類データ33は、文字列を、喜び、怒り、及び、悲しみの何れかに分類したデータである。図4の例では、喜びに分類された文字列群331は、「嬉しい」、「合格」、「勝つ」、及び、「勝っ」等を含む。同様に、怒りに分類された文字列群332は、「イライラ」、及び、「むかっ腹」等を含む。同様に、悲しみに分類された文字列群333は、「悲しい」、及び、「負ける」等を含む。
説明を図1に戻す。表示装置4は、処理装置2による制御のもとで各種の画像を表示する。例えば液晶表示パネル、又は有機EL(Electro Luminescence)表示パネル等の各種の表示パネルが表示装置4として好適に利用される。
操作装置5は、ユーザ装置1が使用する情報を入力するための機器である。操作装置5は、ユーザによる操作を受け付ける。具体的には、操作装置5は、数字及び文字等の符号を入力するための操作と、表示装置4が表示するアイコンを選択するための操作とを受け付ける。例えば、表示装置4の表示面に対する接触を検出するタッチパネルが操作装置5として好適である。なお、利用者が操作可能な操作子を操作装置5が含んでもよい。操作子は、例えば、タッチペンである。
通信装置6は、ネットワークを介して他の装置と通信を行うためのハードウェア(送受信デバイス)である。通信装置6は、例えば、ネットワークデバイス、ネットワークコントローラ、ネットワークカード、通信モジュール等とも呼ばれる。
放音装置7は、例えばスピーカで構成され、処理装置2による制御のもとで、音を放音する。集音装置8は、例えばマイクロフォン及びAD変換器で構成され、処理装置2による制御のもとで、発話者の音声を含む音を集音する。マイクロフォンは、集音した音声を電気信号に変換する。AD変換器は、マイクロフォンが変換した電気信号をAD変換して、図5に示す音声データVDに変換する。音声データVDが示す音には、発話者の音声に加えて、発話者の周囲から発せられた雑音が含まれ得る。
1.1.第1実施形態の機能
処理装置2は、記憶装置3から制御プログラムPRを読み取り実行することによって、取得部21、推定部25、及び、出力部26として機能する。
図5を用いて、処理装置2によって実現される機能について説明する。
図5は、ユーザ装置1の機能の概要を示す図である。取得部21は、集音装置8が集音した発話者の音声を示す音声データVDを取得する。推定部25は、音声データVDに基づいて、発話者の感情を推定する。具体的には、推定部25は、音声認識処理部251、第1推定部252、第2推定部253、及び、感情推定部254を含む。
音声認識処理部251は、音声データVDに音声認識処理を施して認識文字列SDを出力する。音声認識処理部251は、例えば、予め用意された音響モデル及び言語モデルを用いて、音声から文字列を認識する手法を含む、種々の手法によって、認識文字列SDを出力する。
第1推定部252は、文字列感情推定処理を実行する。文字列感情推定処理は、認識文字列SDに基づいて、発話者の感情が、ポジティブグループGE1と、ネガティブグループGE2との何れに属するかを推定する。
より詳細には、第1推定部252は、形態素解析処理部2521及び感情スコア算出処理部2522を有する。形態素解析処理部2521は、解析用辞書データ31を参照して、認識文字列SDに対して形態素解析処理を施して、補正後認識文字列CSDを出力する。形態素解析処理は、認識文字列SDを形態素ごとに分解する処理である。形態素解析処理において、解析用辞書データ31の品詞及び品詞細分類が利用される。補正後認識文字列CSDは、感動詞等といった、発話者の感情を推定するためには不要な文字列を除いた文字列である。
感情スコア算出処理部2522は、感情分類データ33に含まれる文字列と、補正後認識文字列CSDとを比較することにより、各感情に対して、発話者の感情である可能性の程度を示すスコアを算出する。より詳細には、感情スコア算出処理部2522は、補正後認識文字列CSDが、感情分類データ33に含まれる文字列を含む場合に、この補正後認識文字列CSDに含まれる文字列に対応する感情のスコアを増加させる。
例えば、補正後認識文字列CSDが「今日試合に勝った」であれば、感情スコア算出処理部2522は、以下のような感情ごとのスコアを出力する。
喜び 1
怒り 0
悲しみ 0
上述の例では、補正後認識文字列CSDに、感情分類データ33に含まれる「勝っ」が含まれているため、感情スコア算出処理部2522は、「勝っ」に対応する喜びのスコアを1増加させる。増加させるスコアの量は、1に限らなく、感情分類データ33に含まれる文字列ごとに異なってもよい。例えば、より喜びを強く示す文字列のスコアの増加量を2としてもよい。さらに、補正後認識文字列CSDに、感情分類データ33に含まれる文字列、及び、内容を強調する文字列が含まれる場合、感情スコア算出処理部2522は、感情のスコアの増加量を大きくしてもよい。例えば、補正後認識文字列CSDが「今日試合に勝ててとても嬉しい」であれば、補正後認識文字列CSDに感情分類データ33に含まれる「嬉しい」が含まれており、かつ、「とても」という内容を強調する文字列が含まれるため、感情スコア算出処理部2522は、例えば、喜びのスコアを2増加させる。補正後認識文字列CSDのうち、どの文字列が、内容を強調する文字列であるか否かは、形態素解析処理によって得られる形態素によって判定することができる。以下の例では、説明を容易にするため、増加させるスコアの量が1であるとする。
さらに、補正後認識文字列CSDに、感情分類データ33に含まれる文字列、及び、内容を否定する文字列が含まれる場合、感情スコア算出処理部2522は、この補正後認識文字列CSDに含まれる文字列に対応する感情のスコアを増加させる処理とは異なる処理を実行してもよい。例えば、補正後認識文字列CSDが「今日試合に勝つことができなかった」であれば、補正後認識文字列CSDに感情分類データ33に含まれる「勝つ」が含まれるが、「なかっ」という内容を否定する文字列が含まれるため、感情スコア算出処理部2522は、例えば、悲しみのスコアを1増加させる。補正後認識文字列CSDのうち、どの文字列が、内容を否定する文字列であるか否かは、形態素解析処理によって得られる形態素によって判定することができる。このように、形態素解析処理によって、補正後認識文字列CSDが肯定的な内容なのか否定的な内容かを推定することが可能である。以下の例では、説明を容易にするため、補正後認識文字列CSDに、感情分類データ33に含まれる文字列が含まれれば、この補正後認識文字列CSDに含まれる文字列に対応する感情のスコアを増加させることとして説明を行う。
第1推定部252は、感情ごとのスコアに基づいて、発話者の感情が、ポジティブグループGE1と、ネガティブグループGE2との何れに属するかを示す第1感情グループデータGD1を出力する。第1感情グループデータGD1は、例えば、以下に示す2つの態様がある。
第1感情グループデータGD1の第1の態様は、ポジティブグループGE1を示す識別子及びネガティブグループGE2を示す識別子の何れか一方である。例えば、第1推定部252は、下記(1)式を満たす場合に、ポジティブグループGE1を示す識別子を第1感情グループデータGD1として出力する。一方、(1)式を満たさない場合、第1推定部252は、ネガティブグループGE2を示す識別子を第1感情グループデータGD1として出力する。
喜びのスコア>α×(怒りのスコア+悲しみのスコア)/2 (1)
αは、例えば、ユーザ装置1の開発者又は発話者などによって設定される値である。
第1感情グループデータGD1の第2の態様は、ポジティブグループGE1を示す識別子及びネガティブグループGE2を示す識別子の何れか一方と、各感情のスコアとを含む。
第2推定部253は、音声感情推定処理を実行する。音声感情推定処理は、音声データVDが示す音の特徴量に基づいて、発話者の感情が、興奮時の感情が属する興奮グループGE3と、興奮時ではない感情が属する非興奮グループGE4との何れに属するかを推定する処理である。
より詳細には、第2推定部253は、音特徴量抽出処理部2531及び学習モデル実行処理部2532を有する。音特徴量抽出処理部2531は、音声データVDから音の特徴量を抽出する。音の特徴量とは、音声データVDが示す音の特徴を示す特徴量である。音の特徴量は、例えば、MFCC(Mel-Frequency Cepstrum Coefficients)12次元、ラウドネス、基本周波数(F0)、音声確率、ゼロ交差率、HNR(Harmonics-to-Noise-Ratio)、及びこれらの一次微分、MFCC及びラウドネスの二次微分の計47個である。ラウドネスは、音の大きさであり、人間の聴覚が感じる音の強さを示す。音声確率は、音声データVDが示す音に音声が含まれる確率を示す。ゼロ交差率は、音圧がゼロとなった回数である。興奮時には、例えば、非興奮時と比較して、基本周波数が高くなり、且つ、ラウドネスが大きくなる傾向がある。また、音特徴量抽出処理部2531は、音声データVDに対して補正処理を実行し、補正処理の実行により得られた補正後音声データから、音の特徴量を抽出してもよい。補正処理は、例えば、音声データVDから無音部分のデータを除去する処理、及び、音声データVDが示す音に含まれるノイズを除去する処理の一方又は両方である。
学習モデル実行処理部2532は、抽出した音の特徴量を、予め学習した学習モデルに入力して、この学習モデルから得られた出力結果に基づいて、第2感情グループデータGD2を出力する。第2感情グループデータGD2は、発話者の感情が、興奮グループGE3と非興奮グループGE4との何れに属するかを示す。
予め学習した学習モデルは、例えば、音の特徴量が入力されると、感情ごとのスコアを出力するモデルである。第2推定部253は、下記(2)式を満たす場合、発話者の感情が興奮グループGE3に属することを示す第2感情グループデータGD2を出力する。一方、(2)式を満たさない場合、第2推定部253は、発話者の感情が非興奮グループGE4に属することを示す第2感情グループデータGD2を出力する。
(喜びのスコア+怒りのスコア)/2>β×悲しみのスコア (2)
βは、例えば、ユーザ装置1の開発者又は発話者などによって設定される値である。
第2感情グループデータGD2は、例えば、下記に示す2つの態様がある。第2感情グループデータGD2の第1の態様は、興奮グループGE3を示す識別子及び非興奮グループGE4を示す識別子の何れか一方である。第2感情グループデータGD2の第2の態様は、興奮グループGE3を示す識別子及び非興奮グループGE4を示す識別子の何れか一方と、予め学習した学習モデルが出力した各感情のスコアである。
感情推定部254は、第1感情グループデータGD1が示す推定結果と、第2感情グループデータGD2が示す推定結果とに基づいて、発話者の感情を推定する。
より詳細には、発話者の感情がポジティブグループGE1に属することを第1感情グループデータGD1が示す場合、感情推定部254は、発話者の感情が喜びであると推定する。
また、発話者の感情がネガティブグループGE2に属することを第1感情グループデータGD1が示し、且つ、発話者の感情が興奮グループGE3に属することを第2感情グループデータGD2が示す場合、感情推定部254は、発話者の感情が怒りであると推定する。
発話者の感情がネガティブグループGE2に属することを第1感情グループデータGD1が示し、且つ、発話者の感情が非興奮グループGE4に属することを第2感情グループデータGD2が示す場合、感情推定部254は、発話者の感情が悲しみであると推定する。
感情推定部254は、推定した発話者の感情を示す感情データEDを出力する。感情データEDは、例えば、以下に示す2つの態様がある。感情データEDの第1の態様は、推定した発話者の感情を示す識別子である。感情を示す識別子には、喜びを示す識別子、怒りを示す識別子、及び、悲しみを示す識別子がある。感情データEDの第2の態様は、推定した発話者の感情を示す識別子と、推定した発話者の感情のスコアとである。推定した発話者の感情のスコアは、例えば、第1感情グループデータGD1の第2の態様に含まれる、推定した発話者の感情のスコアと、第2感情グループデータGD2の第2の態様に含まれる、推定した発話者の感情のスコアとの合計値、又は、平均値である。
出力部26は、音声認識処理部251によって得られた認識文字列SDに対して、感情データEDが示す感情に応じた処理を施して得られたデータを出力する。感情に応じた処理は、例えば、下記に示す2つの態様がある。
感情に応じた処理の第1の態様は、認識文字列SDに対して、感情を具象化した図形を付加する処理である。感情を具象化した図形は、例えば、感情を具象化した絵文字、及び、感情を具象化した顔文字である。絵文字は、文字コードに対応付けられた画像である。文字コードは、例えば、Unicodeである。顔文字は、記号及び文字を組み合わせて顔を表現した文字列である。以下の説明では、感情を具象化した図形は、感情を具象化した絵文字であるとして説明する。喜びを具象化した絵文字は、例えば、笑顔を示す絵文字である。怒りを具象化した絵文字は、例えば、怒りの顔を示す絵文字である。悲しみを具象化した絵文字は、例えば、泣き顔を示す絵文字である。さらに、感情データEDが第2の態様である場合、出力部26は、感情データEDが示す感情であって、感情データEDに含まれるスコアに応じた深さを有する感情を具象化した絵文字を、認識文字列SDに付加する絵文字として決定してもよい。例えば、感情データEDが示す感情が悲しみであり、かつ、感情データEDに含まれるスコアが所定の閾値以下である場合、出力部26は、涙をこぼす顔を示す絵文字を認識文字列SDに付加する絵文字として決定する。一方、感情データEDが示す感情が悲しみであり、かつ、感情データEDに含まれるスコアが所定の閾値より大きい場合、出力部26は、号泣した顔を示す絵文字を認識文字列SDに付加する絵文字として決定する。号泣した顔を示す絵文字は、涙をこぼす顔を示す絵文字と比較して、より深い悲しみを具象化している。
出力部26は、認識文字列SDに絵文字を付加して得られた絵文字付き文字列を出力する。絵文字を付加する位置は、例えば、以下に示す2つがある。第1の位置は、認識文字列SDの末尾である。第2の位置は、認識文字列SD内における、感情分類データ33に含まれる文字列の次である。表示装置4は、出力部26が出力した絵文字付き文字列に基づく画像を表示する。
感情に応じた処理の第2の態様は、感情に基づく抑揚を付加して読み上げた合成音声を生成する処理である。抑揚は、読み上げ速度を速くするもしくは遅くする、又は、音量を大きくするもしくは小さくすることである。喜びに基づく抑揚は、例えば、読み上げ速度を上げることである。怒りに基づく抑揚は、例えば、音量を大きくすることである。悲しみに基づく抑揚は、例えば、音量を小さくすることである。出力部26は、感情に基づく抑揚を付加して読み上げた合成音声を示すデータを出力する。そして、出力部26は、生成したデータが示す合成音声に、感情に基づく抑揚を付加して、感情に基づく抑揚を付加して読み上げた合成音声を示すデータを出力する。放音装置7は、出力部26が出力したデータが示す合成音声を放音する。
1.2.第1実施形態の動作
次に、推定部25が実行する処理について、図6を用いて説明する。
図6は、推定部25の処理を示すフローチャートである。図6に示すステップS3、ステップS4、ステップS6、ステップS7、及び、ステップS8の処理が、感情推定部254に相当する。音声認識処理部251は、音声データVDに対して音声認識処理を施して、認識文字列SDを得る(ステップS1)。次に、第1推定部252は、認識文字列SDに対して文字列感情推定処理を実行し、第1感情グループデータGD1を出力する(ステップS2)。
感情推定部254は、第1感情グループデータGD1がポジティブグループGE1を示すか否かを判定する(ステップS3)。換言すればステップS3において、感情推定部254は、第1感情グループデータGD1がポジティブグループGE1とネガティブグループGE2との何れを示すか判定する。第1感情グループデータGD1がポジティブグループGE1を示し、ステップS3の判定結果が肯定となる場合、感情推定部254は、発話者の感情が喜びであると推定する(ステップS4)。
第1感情グループデータGD1がネガティブグループGE2を示し、ステップS3の判定結果が否定となる場合、第2推定部253は、音声データVDに対して音声感情推定処理を実行し、第2感情グループデータGD2を出力する(ステップS5)。感情推定部254は、第2感情グループデータGD2が興奮グループGE3を示すか否かを判定する。換言すればステップS5において、感情推定部254は、第2感情グループデータGD2が興奮グループGE3と非興奮グループGE4との何れを示すか判定する(ステップS6)。
第1感情グループデータGD1がネガティブグループGE2を示し、且つ、第2感情グループデータGD2が興奮グループGE3を示す場合、感情推定部254は、発話者の感情が怒りであると推定する(ステップS7)。第1感情グループデータGD1がネガティブグループGE2を示し、且つ、第2感情グループデータGD2が非興奮グループGE4を示す場合、感情推定部254は、発話者の感情が悲しみであると推定する(ステップS8)。
ステップS4、ステップS7、又は、ステップS8の処理終了後、推定部25は、図6に示す一連の処理を終了する。
1.3.第1実施形態の効果
以上説明したように、第1実施形態によれば、ユーザ装置1は、認識文字列SDに対する文字列感情推定処理の推定結果と、音声データVDに対する音声感情推定処理の推定結果とに基づいて、発話者の感情を推定する。文字列感情推定処理では、認識文字列SDの意味内容に着目するので、発話者の音声に基づく認識文字列SDが肯定的な内容なのか否定的な内容なのかを高い精度で判定できる。一方、音声の抑揚には、発話者が興奮しているか否かが顕著に表れる。認識文字列SDは、単なる文字列に過ぎないので、音声の抑揚が失われている。発話者の感情には、興奮時に表れる喜びと怒りと、非興奮時に表れる悲しみがある。従って、仮に、認識文字列SDから、発話者の感情が、興奮時の感情であるか非興奮時の感情であるかを推定しようとすると、誤推定が発生する場合がある。例えば、感情スコア算出処理部2522において、発話者の真の感情が怒りであるのに、認識文字列SDに基づいて悲しみのスコアが最も高く算出される場合がある。また、感情スコア算出処理部2522において、発話者の真の感情が悲しみであるのに、認識文字列SDに基づいて怒りのスコアが最も高く算出される場合がある。即ち、認識文字列SDに基づいて、興奮時の感情と非興奮時の感情とを区別しようとすると、怒りと悲しみとを混同する可能性がある。しかしながら、認識文字列SDに基づいて感情を推定する第1推定部252は、混同することがある怒りと悲しみとを1つのグループとして推定するため、怒りと悲しみとの混同による誤推定を無くすことができる。
音声感情推定処理について、音の特徴量の中には、基本周波数及びラウドネスのように、興奮時と非興奮時とで値が大きく異なる傾向を有する特徴量がある。従って、音声感情推定処理では、発話者の感情が、興奮時の感情であるか非興奮時の感情であるかを精度良く推定することができる。一方、音の特徴量には、発話者の発話の意味内容が含まれていない。発話者の感情には、肯定的な時に現れる喜びと、否定的な時に現れる怒りと悲しみとがある。従って、仮に、音の特徴量から、発話者の感情が、肯定的な感情であるか否定的な感情であるかを推定しようとすると、誤推定が発生する場合がある。例えば、学習モデル実行処理部2532における学習モデルにおいて、発話者の真の感情が喜びであるのに、怒りのスコアが最も高く算出される場合がある。また、学習モデル実行処理部2532における学習モデルにおいて、発話者の真の感情が怒りであるのに、喜びのスコアが最も高く算出される場合がある。即ち、音の特徴量に基づいて、肯定的な感情と否定的な感情とを区別しようとすると、喜びと怒りとを混同する可能性がある。しかしながら、音の特徴量に基づいて感情を推定する第2推定部253は、混同することがある喜びと怒りとを1つのグループとして推定するため、喜びと怒りとの混同による誤推定を無くすことができる。
以上により、第1実施形態によれば、混同することがある感情同士を1つのグループとして推定するため、誤推定を抑制することができる。例えば、認識文字列SDに基づく各感情のスコアと音の特徴量に基づく各感情のスコアとの平均値によって発話者の感情を推定する場合と比較すると、発話者の感情を精度良く推定することが可能になる。
また、第1実施形態によれば、発話者の感情がポジティブグループGE1に属することを第1感情グループデータGD1が示す場合、感情推定部254は、発話者の感情が喜びであると推定する。発話者の感情がネガティブグループGE2に属することを第1感情グループデータGD1が示し、且つ、発話者の感情が興奮グループGE3に属することを第2感情グループデータGD2が示す場合、感情推定部254は、発話者の感情が怒りであると推定する。発話者の感情がネガティブグループGE2に属することを第1感情グループデータGD1が示し、 且つ、発話者の感情が非興奮グループGE4に属することを第2感情グループデータGD2が示す場合、感情推定部254は、発話者の感情が悲しみであると推定する。
以上により、感情推定部254は、発話者の感情がポジティブグループGE1に属することを第1感情グループデータGD1が示す場合、第2感情グループデータGD2を参照することなく、発話者の感情を推定することが可能になる。また、発話者の感情がネガティブグループGE2に属することを第1感情グループデータGD1が示す場合であっても、感情推定部254は、第2感情グループデータGD2を参照することにより、発話者の感情を精度良く推定することが可能になる。
2.第2実施形態
第1実施形態では、推定部25は、第1推定部252によって文字列感情推定処理を実行し、第1感情グループデータGD1がネガティブグループGE2を示す場合、第2推定部253によって音声感情推定処理を実行する。一方、第2実施形態では、推定部25aは、第2推定部253によって音声感情推定処理を実行し、第2感情グループデータGD2が興奮グループGE3を示す場合、第1推定部252によって文字列感情推定処理を実行する。以下、第2実施形態にかかるユーザ装置1aを説明する。なお、以下に例示する第2実施形態において作用又は機能が第1実施形態と同等である要素については、以上の説明で参照の符号を流用して各々の詳細な説明を適宜に省略する。
2.1.第2実施形態の機能
図7は、第2実施形態にかかるユーザ装置1aを示すブロック図である。ユーザ装置1aは、処理装置2a、記憶装置3a、表示装置4、操作装置5、通信装置6、放音装置7、及び、集音装置8を具備するコンピュータシステムにより実現される。記憶装置3aは、処理装置2aが読取可能な記録媒体であり、処理装置2aが実行する制御プログラムPRaを含む複数のプログラムを記憶する。
処理装置2aは、記憶装置3aから制御プログラムPRaを読み取り実行することによって、取得部21、推定部25a、及び、出力部26として機能する。
図8は、第2実施形態にかかるユーザ装置1aの機能の概要を示す図である。推定部25aは、音声認識処理部251、第1推定部252、第2推定部253、及び、感情推定部254aを含む。
感情推定部254aは、発話者の感情が非興奮グループGE4に属することを第2感情グループデータGD2が示す場合、発話者の感情が悲しみであると推定する。
また、発話者の感情が興奮グループGE3に属することを第2感情グループデータGD2が示し、且つ、発話者の感情がポジティブグループGE1に属することを第1感情グループデータGD1が示す場合、感情推定部254aは、発話者の感情が喜びであると推定する。
発話者の感情が興奮グループGE3に属することを第2感情グループデータGD2が示し、且つ、発話者の感情がネガティブグループGE2に属することを第1感情グループデータGD1が示す場合、感情推定部254aは、発話者の感情が怒りであると推定する。
2.2.第2実施形態の動作
次に、推定部25aが実行する処理について、図9を用いて説明する。
図9は、第2実施形態にかかる推定部25aの処理を示すフローチャートである。図9に示すステップS22、ステップS23、ステップS26、ステップS27、及び、ステップS28の処理が、感情推定部254aに相当する。第2推定部253は、音声データVDに対して音声感情推定処理を実行し、第2感情グループデータGD2を出力する(ステップS21)。
感情推定部254aは、第2感情グループデータGD2が非興奮グループGE4を示すか否かを判定する(ステップS22)。換言すればステップS22において、感情推定部254aは、第2感情グループデータGD2が興奮グループGE3と非興奮グループGE4との何れを示すか判定する。第2感情グループデータGD2が非興奮グループGE4を示し、ステップS22の判定結果が肯定となる場合、感情推定部254aは、発話者の感情が悲しみであると推定する(ステップS23)。
一方、第2感情グループデータGD2が興奮グループGE3を示し、ステップS22の判定結果が否定となる場合、音声認識処理部251は、音声データVDに対して音声認識処理を施して、認識文字列SDを得る(ステップS24)。次に、第1推定部252は、認識文字列SDに対して文字列感情推定処理を実行し、第1感情グループデータGD1を出力する(ステップS25)。
感情推定部254aは、第1感情グループデータGD1がポジティブグループGE1を示すか否かを判定する(ステップS26)。換言すればステップS26において、感情推定部254aは、第1感情グループデータGD1がポジティブグループGE1とネガティブグループGE2との何れを示すか判定する。
第2感情グループデータGD2が興奮グループGE3を示し、且つ、第1感情グループデータGD1がポジティブグループGE1を示す場合、感情推定部254aは、発話者の感情が喜びであると推定する(ステップS27)。一方、第2感情グループデータGD2が興奮グループGE3を示し、且つ、第1感情グループデータGD1がネガティブグループGE2を示す場合、感情推定部254aは、発話者の感情が怒りであると推定する(ステップS28)。
ステップS23、ステップS27、又は、ステップS28の処理終了後、推定部25aは、図9に示す一連の処理を終了する。
2.3.第2実施形態の効果
以上説明したように、第2実施形態によれば、発話者の感情が非興奮グループGE4に属することを第2感情グループデータGD2が示す場合、感情推定部254aは、発話者の感情が悲しみであると推定する。また、発話者の感情が興奮グループGE3に属することを第2感情グループデータGD2が示し、且つ、発話者の感情がポジティブグループGE1に属することを第1感情グループデータGD1が示す場合、感情推定部254aは、発話者の感情が喜びであると推定する。発話者の感情が興奮グループGE3に属することを第2感情グループデータGD2が示し、且つ、発話者の感情がネガティブグループGE2に属することを第1感情グループデータGD1が示す場合、感情推定部254aは、発話者の感情が怒りであると推定する。
以上によれば、感情推定部254aは、発話者の感情が非興奮グループGE4に属することを第2感情グループデータGD2が示す場合、感情推定部254aは、第1感情グループデータGD1を参照することなく、発話者の感情を推定することが可能になる。また、発話者の感情が興奮グループGE3に属することを第2感情グループデータGD2が示す場合であっても、第1感情グループデータGD1を参照することにより、発話者の感情を精度良く推定することが可能になる。
3.変形例
本発明は、以上に例示した各実施形態に限定されない。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様を併合してもよい。
(1)上述した各形態において、第1推定部252は、(1)式において、左辺である「喜びのスコア」と、右辺である「α×(怒りのスコア+悲しみのスコア)/2」との差の絶対値が所定値以上ある場合に、発話者の感情がポジティブグループGE1とネガティブグループGE2との何れかに属することを示す第1感情グループデータGD1を出力し、前述の差の絶対値が所定値未満である場合に、発話者の感情が不明であることを示す第1感情グループデータGD1を出力してもよい。
同様に、第2推定部253は、(2)式において、左辺である「(喜びのスコア+怒りのスコア)/2」と、右辺である「β×悲しみのスコア」との差の絶対値が所定値以上ある場合に、発話者の感情が興奮グループGE3と非興奮グループGE4との何れに属することを示す第2感情グループデータGD2を出力し、前述の差の絶対値が所定値未満である場合に、発話者の感情が不明であることを示す第2感情グループデータGD2を出力してもよい。
第1感情グループデータGD1及び第2感情グループデータGD2の何れか一方が、発明者の感情が不明であることを示す場合、感情推定部254は、他方の感情グループデータに基づいて、発話者の感情を推定してもよい。
ここで、第1感情グループデータGD1及び第2感情グループデータGD2が、第2の態様であるとする。例えば、第1感情グループデータGD1が、発話者の感情が不明であることを示す場合、感情推定部254は、第2感情グループデータGD2に含まれる各感情のスコアのうち、最も大きいスコアを有する感情を、発話者の感情として推定する。同様に、第2感情グループデータGD2が、発話者の感情が不明であることを示す場合、感情推定部254は、第1感情グループデータGD1に含まれる各感情のスコアのうち、最も大きいスコアを有する感情を、発話者の感情として推定する。
(2)第2実施形態において、ステップS25において、第1推定部252は、感情分類データ33に含まれる、喜びに分類された文字列群331及び怒りに分類された文字列群332を、認識文字列SDと比較することにより、発話者の感情が、ポジティブグループGE1とネガティブグループGE2との何れに属するかを推定してもよい。言い換えれば、第1推定部252は、感情分類データ33に含まれる悲しみに分類された文字列群333を、認識文字列SDと比較しなくてよい。第1推定部252は、感情分類データ33に含まれる悲しみに分類された文字列群333を認識文字列SDと比較しない分、文字列感情推定処理にかかる時間を短縮することが可能になる。
(3)第1実施形態では、ステップS3において、第1感情グループデータGD1がポジティブグループGE1を示す場合、第2推定部253が音声感情推定処理を実行しなかったが、実行してもよい。同様に、第2実施形態では、ステップS22において、第2感情グループデータGD2が非興奮グループGE4を示す場合、第1推定部252が文字列感情推定処理を実行しなかったが、実行してもよい。第1感情グループデータGD1がポジティブグループGE1を示し、且つ、第2感情グループデータGD2が非興奮グループGE4を示す場合、感情推定部254は、発話者の感情が推定不能と決定してもよい。
このように、第1推定部252の推定結果と第2推定部253の推定結果とに整合性がとれない場合には、何れか一方の推定結果が誤推定であることを示すため、感情推定部254は、誤った推定結果を出力することを抑制することが可能になる。
(4)上述したように、第1感情グループデータGD1がポジティブグループGE1を示し、且つ、第2感情グループデータGD2が非興奮グループGE4を示す場合、感情推定部254は、発話者の感情が推定不能と決定してもよい。感情推定部254が、発話者の感情が推定不能と決定した場合、出力部26は、以下に示す2つの絵文字付き文字列とのうち少なくとも1つの図形付き文字列を出力する。第1の絵文字付き文字列は、認識文字列SDに対して喜びを具象化した絵文字を付加する処理を施して得られる絵文字付き文字列である。第2の絵文字付き文字列は、認識文字列SDに対して悲しみを具象化した絵文字を付加した処理を施して得られる文字列である。出力部26は、第1の絵文字付き文字列と第2の絵文字付き文字列ともに出力してもよいし、何れか一方を出力してもよい。
例えば、第1感情グループデータGD1及び第2感情グループデータGD2が、第2の態様であるとする。出力部26は、第1感情グループデータGD1に含まれる喜びのスコアが所定値以上である場合に第1の絵文字付き文字列を出力し、第2感情グループデータGD2に含まれる悲しみのスコアが所定値以上である場合に第2の絵文字付き文字列を出力する。
ユーザである発話者は、表示装置4に表示された絵文字付き文字列を見て、操作装置5を操作することにより、自身の感情に近い絵文字付き文字列を選択する。
以上により、ユーザ装置1は、発話者の感情が推定不能と決定した場合でも、発話者に選択させることにより、発話者の感情に近い、適切な感情を選択することが可能になる。
(5)ユーザ装置1cと、ユーザ装置1cとアクセス可能なサーバ装置101とを含む感情推定システム100によって、他者とのコミュニケーションを支援するサービスを提供してもよい。
図10は、感情推定システム100を示すブロック図である。感情推定システム100は、ユーザ装置1cと、サーバ装置101とを含む。この変形例では、サーバ装置101が、「感情推定装置」の一例である。ユーザ装置1cが、「端末装置」の一例である。
ユーザ装置1cは、処理装置2c、記憶装置3c、表示装置4、操作装置5、通信装置6、放音装置7、及び、集音装置8を具備するコンピュータシステムにより実現される。記憶装置3cは、処理装置2cが読取可能な記録媒体であり、処理装置2cが実行する制御プログラムPRcを含む複数のプログラムを記憶する。通信装置6は、ネットワークを介してサーバ装置101とアクセスする。
処理装置2cは、記憶装置3cから制御プログラムPRcを読み取り実行することによって、送信部22、受信部23、及び、出力部26として機能する。
送信部22は、集音装置8によって得られた音声データVDを、サーバ装置101に送信する。受信部23は、サーバ装置101から、認識文字列SDと、感情データEDとを受信する。
サーバ装置101は、処理装置2C、記憶装置3C、及び通信装置6Cを具備するコンピュータシステムにより実現される。サーバ装置101の各要素は、情報を通信するための単体又は複数のバス9Cで相互に接続される。記憶装置3Cは、処理装置2Cが読取可能な記録媒体であり、処理装置2Cが実行する制御プログラムPRCを含む複数のプログラム、解析用辞書データ31、及び、感情分類データ33を記憶する。通信装置6Cは、ネットワークを介してユーザ装置1cとアクセスする。
処理装置2Cは、記憶装置3Cから制御プログラムPRCを読み取り実行することによって、取得部21C、及び、推定部25として機能する。
取得部21Cは、ユーザ装置1cから、音声データVDを取得する。推定部25は、音声データVDに基づいて発話者の感情を推定し、推定した感情を示す感情データEDと、認識文字列SDとをユーザ装置1cに送信する。
この変形例によれば、サーバ装置101が発話者の感情を推定するため、第1実施形態におけるユーザ装置1と比較すると、ユーザ装置1cにかかる負荷を抑制することが可能になる。
なお、この変形例では、処理装置2cが出力部26として機能する、言い換えれば、認識文字列SDに対して感情データEDが示す感情に応じた処理を実行するが、処理装置2Cが出力部26として機能してもよい。処理装置2Cが出力部26として機能する場合、サーバ装置101が、認識文字列SDに対して感情データEDが示す感情に応じた処理を実行し、この処理によって得られたデータを、ユーザ装置1cに送信する。
(6)上述の各態様において、推定部25は、第1推定部252と第2推定部253とを並列に実行してもよい。
(7)上述の各態様において、ユーザ装置1は、集音装置8を有さなくてもよい。集音装置8を有さない場合、ユーザ装置1は、通信装置6を介して音声データVDを取得してもよいし、記憶装置3に記憶された音声データVDを取得してもよい。
(8)上述の各態様において、ユーザ装置1は、放音装置7を有さなくてもよい。
(9)上述の各態様において、ユーザ装置1は、スマートスピーカでもよい。ユーザ装置1がスマートスピーカである場合、ユーザ装置1は、表示装置4及び操作装置5を有さなくてもよい。
(10)上述の各態様において、感情分類データ33は、図4に示すように、「勝つ」、「勝っ」のように、ある単語が活用した複数の形態素のそれぞれを、喜び、怒り、及び、悲しみの何れかに分類したが、これに限らない。例えば、感情分類データ33は、解析用辞書データ31の原形データに登録された文字列を、喜び、怒り、及び、悲しみの何れかに分類してもよい。例えば、感情分類データ33は、解析用辞書データ31の原形データに登録された文字列「嬉しい」、「合格」、及び「勝つ」を、喜びに分類する。感情スコア算出処理部2522は、補正後認識文字列CSDを形態素ごとに分解し、分解した形態素を、解析用辞書データ31の原形データに登録された文字列に変換する。そして、感情スコア算出処理部2522は、変換して得られた文字列と、感情分類データ33に含まれる文字列とが一致する場合に、この補正後認識文字列CSDに含まれる文字列に対応する感情のスコアを増加させる。
(11)上述の各態様において、感情スコア算出処理部2522は、補正後認識文字列CSDに対して、感情ごとのスコアを算出したが、認識文字列SDに対して感情ごとのスコアを算出してもよい。しかしながら、認識文字列SDには、感情を推定するためには不要な文字列が含まれる。従って、補正後認識文字列CSDに対して感情ごとのスコアを算出することにより、認識文字列SDに対して感情ごとのスコアを算出する場合と比較して、感情の推定精度を向上させることが可能になる。
(12)上述の各態様では、発話者が日本語を話す例を用いたが、発話者が如何なる言語を話しても上述の各態様を適用することが可能である。例えば、発話者が、日本語以外の英語、フランス語、又は中国語等を話す場合であっても上述の各態様を適用できる。例えば、発話者が英語を話す場合、解析用辞書データ31は、英語の形態素に関するデータであり、感情分類データ33は、英単語を喜び、怒り、及び悲しみの何れかに分類したデータであればよい。
(13)上述の各態様において、学習モデル実行処理部2532における予め学習した学習モデルは、音の特徴量が入力されると、発話者の感情が、興奮グループGE3と非興奮グループGE4との何れに属するかを示す第2感情グループデータGD2を出力するモデルでもよい。
(14)上述の各態様において、喜び、怒り、及び悲しみ以外の人が取り得る感情に対しても、感情のグループ分けに従って適用してもよい。例えば、癒しを、ポジティブグループGE1に属し、且つ、非興奮グループGE4に属するとしてもよい。
(15)上述した各態様の説明に用いたブロック図は、機能単位のブロックを示している。これらの機能ブロック(構成部)は、ハードウェア及び/又はソフトウェアの任意の組み合わせによって実現される。また、各機能ブロックの実現手段は特に限定されない。すなわち、各機能ブロックは、物理的及び/又は論理的に結合した1つの装置により実現されてもよいし、物理的及び/又は論理的に分離した2つ以上の装置を直接的及び/又は間接的に(例えば、有線及び/又は無線)で接続し、これら複数の装置により実現されてもよい。
(16)上述した各態様における処理手順、シーケンス、フローチャートなどは、矛盾のない限り、順序を入れ替えてもよい。例えば、本明細書で説明した方法については、例示的な順序で様々なステップの要素を提示しており、提示した特定の順序に限定されない。
(17)上述した各態様において、入出力された情報等は特定の場所(例えば、メモリ)に保存されてもよいし、管理テーブルで管理してもよい。入出力される情報等は、上書き、更新、又は追記され得る。出力された情報等は削除されてもよい。入力された情報等は他の装置へ送信されてもよい。
(18)上述した各態様において、判定は、1ビットで表される値(0か1か)によって行われてもよいし、真偽値(Boolean:true又はfalse)によって行われてもよいし、数値の比較(例えば、所定の値との比較)によって行われてもよい。
(19)上述した各態様では、スマートフォン等の可搬型の情報処理装置をユーザ装置1として例示したが、ユーザ装置1の具体的な形態は任意であり、前述の各形態の例示には限定されない。例えば、可搬型又は据置型のパーソナルコンピュータをユーザ装置1として利用してもよい。
(20)上述した各態様では、記憶装置3は、処理装置2が読取可能な記録媒体であり、ROM及びRAMなどを例示したが、フレキシブルディスク、光磁気ディスク(例えば、コンパクトディスク、デジタル多用途ディスク、Blu−ray(登録商標)ディスク)、スマートカード、フラッシュメモリデバイス(例えば、カード、スティック、キードライブ)、CD−ROM(Compact Disc−ROM)、レジスタ、リムーバブルディスク、ハードディスク、フロッピー(登録商標)ディスク、磁気ストリップ、データベース、サーバその他の適切な記憶媒体である。また、プログラムは、ネットワークから送信されても良い。また、プログラムは、電気通信回線を介して通信網から送信されても良い。
(21)上述した各態様は、LTE(Long Term Evolution)、LTE−A(LTE-Advanced)、SUPER 3G、IMT−Advanced、4G、5G、FRA(Future Radio Access)、W−CDMA(登録商標)、GSM(登録商標)、CDMA2000、UMB(Ultra Mobile Broadband)、IEEE 802.11(Wi−Fi)、IEEE 802.16(WiMAX)、IEEE 802.20、UWB(Ultra-WideBand)、Bluetooth(登録商標)、その他の適切なシステムを利用するシステム及び/又はこれらに基づいて拡張された次世代システムに適用されてもよい。
(22)上述した各態様において、説明した情報及び信号などは、様々な異なる技術の何れかを使用して表されてもよい。例えば、上述の説明全体に渡って言及され得るデータ、命令、コマンド、情報、信号、ビット、シンボル、チップなどは、電圧、電流、電磁波、磁界若しくは磁性粒子、光場若しくは光子、又はこれらの任意の組み合わせによって表されてもよい。
なお、本明細書で説明した用語及び/又は本明細書の理解に必要な用語については、同一の又は類似する意味を有する用語と置き換えてもよい。
(23)図1、図7、及び、図10に例示された各機能は、ハードウェア及びソフトウェアの任意の組み合わせによって実現される。また、各機能は、単体の装置によって実現されてもよいし、相互に別体で構成された2個以上の装置によって実現されてもよい。
(24)上述した各実施形態で例示したプログラムは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード又はハードウェア記述言語と呼ばれるか、他の名称によって呼ばれるかを問わず、命令、命令セット、コード、コードセグメント、プログラムコード、サブプログラム、ソフトウェアモジュール、アプリケーション、ソフトウェアアプリケーション、ソフトウェアパッケージ、ルーチン、サブルーチン、オブジェクト、実行可能ファイル、実行スレッド、手順又は機能等を意味するよう広く解釈されるべきである。
また、ソフトウェア、命令などは、伝送媒体を介して送受信されてもよい。例えば、ソフトウェアが、同軸ケーブル、光ファイバケーブル、ツイストペア及びデジタル加入者回線(DSL)などの有線技術及び/又は赤外線、無線及びマイクロ波などの無線技術を使用してウェブサイト、サーバ、又は他のリモートソースから送信される場合、これらの有線技術及び/又は無線技術は、伝送媒体の定義内に含まれる。
(25)上述した各実施形態において、情報、パラメータなどは、絶対値で表されてもよいし、所定の値からの相対値で表されてもよいし、対応する別の情報で表されてもよい。
(26)上述したパラメータに使用する名称はいかなる点においても限定的なものではない。さらに、これらのパラメータを使用する数式等は、本明細書で明示的に開示したものと異なる場合もある。
(27)上述した各実施形態において、ユーザ装置1は、移動局である場合が含まれる。移動局は、当業者によって、加入者局、モバイルユニット、加入者ユニット、ワイヤレスユニット、リモートユニット、モバイルデバイス、ワイヤレスデバイス、ワイヤレス通信デバイス、リモートデバイス、モバイル加入者局、アクセス端末、モバイル端末、ワイヤレス端末、リモート端末、ハンドセット、ユーザエージェント、モバイルクライアント、クライアント、又はいくつかの他の適切な用語で呼ばれる場合もある。
(28)上述した各実施形態において、「に基づいて」という記載は、別段に明記されていない限り、「のみに基づいて」を意味しない。言い換えれば、「に基づいて」という記載は、「のみに基づいて」と「に少なくとも基づいて」の両方を意味する。
(29)本明細書で使用する「第1」、「第2」などの呼称を使用した要素へのいかなる参照も、それらの要素の量又は順序を全般的に限定するものではない。これらの呼称は、2つ以上の要素間を区別する便利な方法として本明細書で使用され得る。従って、第1及び第2の要素への参照は、2つの要素のみがそこで採用され得ること、又は何らかの形で第1の要素が第2の要素に先行しなければならないことを意味しない。
(30)上述した各実施形態において「含む(including)」、「含んでいる(comprising)」、及びそれらの変形が、本明細書あるいは特許請求の範囲で使用されている限り、これら用語は、用語「備える」と同様に、包括的であることが意図される。さらに、本明細書あるいは特許請求の範囲において使用されている用語「又は(or)」は、排他的論理和ではないことが意図される。
(31)本願の全体において、例えば、英語におけるa、an及びtheのように、翻訳によって冠詞が追加された場合、これらの冠詞は、文脈から明らかにそうではないことが示されていなければ、複数を含む。
(32)本発明が本明細書中に説明した実施形態に限定されないことは当業者にとって明白である。本発明は、特許請求の範囲の記載に基づいて定まる本発明の趣旨及び範囲を逸脱することなく修正及び変更態様として実施できる。従って、本明細書の記載は、例示的な説明を目的とし、本発明に対して何ら制限的な意味を有さない。また、本明細書に例示した態様から選択された複数の態様を組み合わせてもよい。
1,1a,1c…ユーザ装置、8…集音装置、21、21C…取得部、22…送信部、25、25a…推定部、26…出力部、251…音声認識処理部、252…第1推定部、253…第2推定部、254、254a…感情推定部、ED…感情データ、GE1…ポジティブグループ、GE2…ネガティブグループ、GE3…興奮グループ、GE4…非興奮グループ、SD…認識文字列、VD…音声データ。

Claims (9)

  1. 発話者の音声を含む音を示す音声データを取得する取得部と、
    前記音声データに音声認識処理を施して得られた認識文字列に基づいて、前記発話者の感情が、肯定的な感情が属する第1グループと、否定的な感情が属する第2グループとの何れに属するかを推定する第1推定部と、
    前記音声データが示す音の特徴量に基づいて、前記発話者の感情が、興奮時の感情が属する第3グループと、興奮時ではない感情が属する第4グループとの何れに属するかを推定する第2推定部と、
    前記第1推定部の推定結果と前記第2推定部の推定結果とに基づいて、前記発話者の感情を推定する感情推定部と、
    を備え
    前記感情推定部は、
    前記発話者の感情が前記第1グループに属することを前記第1推定部の推定結果が示す場合、前記発話者の感情が喜びであると推定し、
    前記発話者の感情が前記第2グループに属することを前記第1推定部の推定結果が示し、且つ、前記発話者の感情が前記第3グループに属することを前記第2推定部の推定結果が示す場合、前記発話者の感情が怒りであると推定し、
    前記発話者の感情が前記第2グループに属することを前記第1推定部の推定結果が示し、且つ、前記発話者の感情が前記第4グループに属することを前記第2推定部の推定結果が示す場合、前記発話者の感情が悲しみであると推定する、
    感情推定装置。
  2. 発話者の音声を含む音を示す音声データを取得する取得部と、
    前記音声データに音声認識処理を施して得られた認識文字列に基づいて、前記発話者の感情が、肯定的な感情が属する第1グループと、否定的な感情が属する第2グループとの何れに属するかを推定する第1推定部と、
    前記音声データが示す音の特徴量に基づいて、前記発話者の感情が、興奮時の感情が属する第3グループと、興奮時ではない感情が属する第4グループとの何れに属するかを推定する第2推定部と、
    前記第1推定部の推定結果と前記第2推定部の推定結果とに基づいて、前記発話者の感情を推定する感情推定部と、
    を備え、
    前記感情推定部は、
    前記発話者の感情が前記第4グループに属することを前記第2推定部の推定結果が示す場合、前記発話者の感情が悲しみであると推定し、
    前記発話者の感情が前記第3グループに属することを前記第2推定部の推定結果が示し、且つ、前記発話者の感情が前記第1グループに属することを前記第1推定部の推定結果が示す場合、前記発話者の感情が喜びであると推定し、
    前記発話者の感情が前記第3グループに属することを前記第2推定部の推定結果が示し、且つ、前記発話者の感情が前記第2グループに属することを前記第1推定部の推定結果が示す場合、前記発話者の感情が怒りであると推定する、
    感情推定装置。
  3. 前記第1推定部は、
    前記発話者の感情が前記第3グループに属することを前記第2推定部の推定結果が示す場合、文字列を、喜び、怒り、及び悲しみの何れかに分類した感情分類データを参照して、前記感情分類データに含まれる喜び又は怒りの文字列を、前記認識文字列と比較することにより、前記発話者の感情が、前記第1グループと前記第2グループとの何れに属するかを推定する、
    請求項2に記載の感情推定装置。
  4. 発話者の音声を含む音を示す音声データを取得する取得部と、
    前記音声データに音声認識処理を施して得られた認識文字列に基づいて、前記発話者の感情が、肯定的な感情が属する第1グループと、否定的な感情が属する第2グループとの何れに属するかを推定する第1推定部と、
    前記音声データが示す音の特徴量に基づいて、前記発話者の感情が、興奮時の感情が属する第3グループと、興奮時ではない感情が属する第4グループとの何れに属するかを推定する第2推定部と、
    前記第1推定部の推定結果と前記第2推定部の推定結果とに基づいて、前記発話者の感情を推定する感情推定部と、
    を備え、
    前記感情推定部は、
    前記発話者の感情が前記第1グループに属することを前記第1推定部の推定結果が示し、且つ、前記発話者の感情が前記第4グループに属することを前記第2推定部の推定結果が示す場合、推定不能と決定する、
    感情推定装置。
  5. 前記認識文字列に対して、前記感情推定部が推定した感情を具象化した図形を付加する処理を施す出力部を備え、
    前記出力部は、前記感情推定部が推定不能であると決定した場合、前記認識文字列に対して喜びを具象化した図形を付加する処理を施して得られる図形付き文字列と、前記認識文字列に対して悲しみを具象化した図形を付加した処理を施して得られる図形付き文字列とのうち少なくとも1つの図形付き文字列を出力する、
    請求項4に記載の感情推定装置。
  6. 請求項1から4までの何れか1項に記載の感情推定装置と、前記感情推定装置と通信可能な端末装置とを備える感情推定システムであって、
    前記端末装置は、
    前記発話者の音声を含む音を集音する集音部と、
    前記発話者の音声を含む音を示す前記音声データを、前記感情推定装置に送信する送信部と、
    前記感情推定装置から、前記認識文字列と、前記感情推定部が推定した前記発話者の感情を示す感情データとを受信する受信部と、
    前記認識文字列に対して、前記感情データが示す感情に応じた処理を施して得られるデータを出力する出力部と、
    を備える感情推定システム。
  7. 発話者の音声を含む音を示す音声データを取得し、
    前記音声データに音声認識処理を施して得られた認識文字列に基づいて、前記発話者の感情が、肯定的な感情が属する第1グループと、否定的な感情が属する第2グループとの何れに属するかを推定し、
    前記音声データが示す音の特徴量に基づいて、前記発話者の感情が、興奮時の感情が属する第3グループと、興奮時ではない感情が属する第4グループとの何れに属するかを推定し、
    前記発話者の感情が前記第1グループと前記第2グループとの何れに属するかを示す推定結果と、前記発話者の感情が前記第3グループと前記第4グループとの何れに属するかを示す推定結果とに基づいて、前記発話者の感情を推定する、
    処理をコンピュータが実行する感情推定方法であって、
    前記発話者の感情が前記第1グループに属することを推定した場合、前記発話者の感情が喜びであると推定し、
    前記発話者の感情が前記第2グループに属することを推定し、且つ、前記発話者の感情が前記第3グループに属することをの推定した場合、前記発話者の感情が怒りであると推定し、
    前記発話者の感情が前記第2グループに属することを推定し、且つ、前記発話者の感情が前記第4グループに属することを推定した場合、前記発話者の感情が悲しみであると推定する、
    感情推定方法。
  8. 発話者の音声を含む音を示す音声データを取得し、
    前記音声データに音声認識処理を施して得られた認識文字列に基づいて、前記発話者の感情が、肯定的な感情が属する第1グループと、否定的な感情が属する第2グループとの何れに属するかを推定し、
    前記音声データが示す音の特徴量に基づいて、前記発話者の感情が、興奮時の感情が属する第3グループと、興奮時ではない感情が属する第4グループとの何れに属するかを推定し、
    前記発話者の感情が前記第1グループと前記第2グループとの何れに属するかを示す推定結果と、前記発話者の感情が前記第3グループと前記第4グループとの何れに属するかを示す推定結果とに基づいて、前記発話者の感情を推定する、
    処理をコンピュータが実行する感情推定方法であって、
    前記発話者の感情が前記第4グループに属することを推定した場合、前記発話者の感情が悲しみであると推定し、
    前記発話者の感情が前記第3グループに属することを推定した場合、且つ、前記発話者の感情が前記第1グループに属することを推定した場合、前記発話者の感情が喜びであると推定し、
    前記発話者の感情が前記第3グループに属することを推定し、且つ、前記発話者の感情が前記第2グループに属することを推定した場合、前記発話者の感情が怒りであると推定する、
    感情推定方法。
  9. 発話者の音声を含む音を示す音声データを取得し、
    前記音声データに音声認識処理を施して得られた認識文字列に基づいて、前記発話者の感情が、肯定的な感情が属する第1グループと、否定的な感情が属する第2グループとの何れに属するかを推定し、
    前記音声データが示す音の特徴量に基づいて、前記発話者の感情が、興奮時の感情が属する第3グループと、興奮時ではない感情が属する第4グループとの何れに属するかを推定し、
    前記発話者の感情が前記第1グループと前記第2グループとの何れに属するかを示す推定結果と、前記発話者の感情が前記第3グループと前記第4グループとの何れに属するかを示す推定結果とに基づいて、前記発話者の感情を推定する、
    処理をコンピュータが実行する感情推定方法であって、
    前記発話者の感情が前記第1グループに属することを推定し、且つ、前記発話者の感情が前記第4グループに属することを推定結した場合、推定不能と決定する、
    感情推定方法。
JP2019091864A 2019-05-15 2019-05-15 感情推定装置、感情推定システム、及び感情推定方法 Active JP6782329B1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019091864A JP6782329B1 (ja) 2019-05-15 2019-05-15 感情推定装置、感情推定システム、及び感情推定方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019091864A JP6782329B1 (ja) 2019-05-15 2019-05-15 感情推定装置、感情推定システム、及び感情推定方法

Publications (2)

Publication Number Publication Date
JP6782329B1 true JP6782329B1 (ja) 2020-11-11
JP2020187262A JP2020187262A (ja) 2020-11-19

Family

ID=73043496

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019091864A Active JP6782329B1 (ja) 2019-05-15 2019-05-15 感情推定装置、感情推定システム、及び感情推定方法

Country Status (1)

Country Link
JP (1) JP6782329B1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7453169B2 (ja) 2021-02-24 2024-03-19 Kddi株式会社 感情種別グループの識別を介して感情推定を行うモデル、装置及び方法
WO2023175842A1 (ja) * 2022-03-17 2023-09-21 日本電気株式会社 音分類装置、音分類方法、及びコンピュータ読み取り可能な記録媒体

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005091463A (ja) * 2003-09-12 2005-04-07 Toshiba Corp 情報処理装置
JP2006071936A (ja) * 2004-09-01 2006-03-16 Matsushita Electric Works Ltd 対話エージェント
JP6262613B2 (ja) * 2014-07-18 2018-01-17 ヤフー株式会社 提示装置、提示方法及び提示プログラム
JP6617053B2 (ja) * 2016-02-29 2019-12-04 Kddi株式会社 感情分類によって文脈意味の理解精度を高める発話意味分析プログラム、装置及び方法
JP6524049B2 (ja) * 2016-10-28 2019-06-05 株式会社東芝 感情推定装置、感情推定方法、感情推定プログラム、および感情カウントシステム
US10957306B2 (en) * 2016-11-16 2021-03-23 International Business Machines Corporation Predicting personality traits based on text-speech hybrid data

Also Published As

Publication number Publication date
JP2020187262A (ja) 2020-11-19

Similar Documents

Publication Publication Date Title
US9396724B2 (en) Method and apparatus for building a language model
US9229924B2 (en) Word detection and domain dictionary recommendation
TWI610295B (zh) 解壓縮及壓縮用於語音辨識之轉換器資料的電腦實施方法及電腦實施之語音辨識系統
US20180143965A1 (en) Trained data input system
US11586689B2 (en) Electronic apparatus and controlling method thereof
WO2014190732A1 (en) Method and apparatus for building a language model
CN110853617B (zh) 一种模型训练的方法、语种识别的方法、装置及设备
CN112069309B (zh) 信息获取方法、装置、计算机设备及存储介质
WO2020253128A1 (zh) 基于语音识别的通信服务方法、装置、计算机设备及存储介质
CN108804427B (zh) 语音机器翻译方法及装置
US20180277145A1 (en) Information processing apparatus for executing emotion recognition
CN107316635B (zh) 语音识别方法及装置、存储介质、电子设备
JP6782329B1 (ja) 感情推定装置、感情推定システム、及び感情推定方法
US20220122596A1 (en) Method and system of automatic context-bound domain-specific speech recognition
US20220012520A1 (en) Electronic device and control method therefor
CN110728983A (zh) 一种信息显示方法、装置、设备及可读存储介质
CN112910761B (zh) 即时通讯方法、装置、设备、存储介质以及程序产品
Xue A novel english speech recognition approach based on hidden Markov model
WO2020166125A1 (ja) 翻訳用データ生成システム
CN110781329A (zh) 图像搜索方法、装置、终端设备及存储介质
KR20200082232A (ko) 감성 분석 장치, 이를 포함하는 대화형 에이전트 시스템, 감성 분석을 수행하기 위한 단말 장치 및 감성 분석 방법
JP7348818B2 (ja) 対話装置
KR20190133325A (ko) 음성인식 방법 및 장치
US12002475B2 (en) Electronic device performing speaker recognition and control method thereof
JP7379788B2 (ja) 感情推定装置、及び、感情推定システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190515

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7426

Effective date: 20190617

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20190617

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200707

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20200727

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200904

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201006

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201019

R150 Certificate of patent or registration of utility model

Ref document number: 6782329

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250