JP2020187262A - Emotion estimation device, emotion estimation system, and emotion estimation method - Google Patents
Emotion estimation device, emotion estimation system, and emotion estimation method Download PDFInfo
- Publication number
- JP2020187262A JP2020187262A JP2019091864A JP2019091864A JP2020187262A JP 2020187262 A JP2020187262 A JP 2020187262A JP 2019091864 A JP2019091864 A JP 2019091864A JP 2019091864 A JP2019091864 A JP 2019091864A JP 2020187262 A JP2020187262 A JP 2020187262A
- Authority
- JP
- Japan
- Prior art keywords
- emotion
- speaker
- group
- estimation
- character string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
本発明は、感情推定装置、感情推定システム、及び感情推定方法に関する。 The present invention relates to an emotion estimation device, an emotion estimation system, and an emotion estimation method.
近年、喜び、怒り及び悲しみ等の感情を推定するサービスが普及している。例えば、特許文献1には、発話者の音声を含む音を示す音声データに対して音声認識処理を施し、音声認識処理から得られる認識文字列に基づいて、各感情に対して、発話者の感情である可能性の程度を示すスコアを算出し、音声データが示す音の特徴量に基づいて各感情のスコアを算出し、文字列から得られた各感情のスコアと、音の特徴量から得られた各感情のスコアとの平均値のうち最も大きいスコアの感情を、発話者の感情として推定することが開示されている。
In recent years, services for estimating emotions such as joy, anger, and sadness have become widespread. For example, in
しかしながら、上述した従来技術では、音声認識処理から得られる認識文字列に基づいて感情を推定する場合、認識文字列からは、音声の抑揚が失われており、感情の推定を誤る場合がある。一方、音の特徴量に基づいて感情を推定する場合、音の特徴量には、音声の内容が肯定的であるか否定的であるかが含まれていなく、感情の推定を誤る場合がある。従って、認識文字列に基づく各感情のスコアと、音の特徴量に基づく各感情のスコアとには、誤推定のスコアが含まれ得る。このため、文字列から得られた各感情のスコアと音の特徴量から得られた各感情のスコアの平均値に誤差が含まれることがある。この結果、平均値に基づく、従来の感情推定方法は、感情の推定を誤る場合がある。 However, in the above-mentioned conventional technique, when the emotion is estimated based on the recognition character string obtained from the voice recognition process, the intonation of the voice is lost from the recognition character string, and the emotion estimation may be erroneous. On the other hand, when the emotion is estimated based on the sound feature, the sound feature does not include whether the content of the voice is positive or negative, and the emotion estimation may be erroneous. .. Therefore, the score of each emotion based on the recognition character string and the score of each emotion based on the sound feature amount may include a misestimated score. Therefore, an error may be included in the average value of the score of each emotion obtained from the character string and the score of each emotion obtained from the feature amount of the sound. As a result, the conventional emotion estimation method based on the average value may erroneously estimate the emotion.
本発明の好適な態様にかかる感情推定装置は、発話者の音声を含む音を示す音声データを取得する取得部と、前記音声データに音声認識処理を施して得られた認識文字列に基づいて、前記発話者の感情が、肯定的な感情が属する第1グループと、否定的な感情が属する第2グループとの何れに属するかを推定する第1推定部と、前記音声データが示す音の特徴量に基づいて、前記発話者の感情が、興奮時の感情が属する第3グループと、興奮時ではない感情が属する第4グループとの何れに属するかを推定する第2推定部と、前記第1推定部の推定結果と前記第2推定部の推定結果とに基づいて、前記発話者の感情を推定する感情推定部とを備える。 The emotion estimation device according to the preferred embodiment of the present invention is based on an acquisition unit that acquires voice data indicating a sound including the voice of the speaker and a recognition character string obtained by performing voice recognition processing on the voice data. , The first estimation unit that estimates whether the speaker's emotion belongs to the first group to which the positive emotion belongs or the second group to which the negative emotion belongs, and the sound indicated by the voice data. Based on the feature quantity, the second estimation unit that estimates whether the speaker's emotion belongs to the third group to which the emotion during excitement belongs or the fourth group to which the emotion not during excitement belongs, and the above. It includes an emotion estimation unit that estimates the emotion of the speaker based on the estimation result of the first estimation unit and the estimation result of the second estimation unit.
本発明の好適な態様にかかる感情推定システムは、前述の感情推定装置と、前記感情推定装置と通信可能な端末装置とを備える感情推定システムであって、前記端末装置は、前記発話者の音声を含む音を集音する集音部と、前記発話者の音声を含む音を示す前記音声データを、前記感情推定装置に送信する送信部と、前記感情推定装置から、前記認識文字列と、前記感情推定部が推定した前記発話者の感情を示す感情データとを受信する受信部と、前記認識文字列に対して、前記感情データが示す感情に応じた処理を施して得られるデータを出力する出力部とを備える。 The emotion estimation system according to a preferred embodiment of the present invention is an emotion estimation system including the above-mentioned emotion estimation device and a terminal device capable of communicating with the emotion estimation device, and the terminal device is a voice of the speaker. A sound collecting unit that collects sounds including the above, a transmitting unit that transmits the voice data indicating the sound including the voice of the speaker to the emotion estimation device, and the recognition character string from the emotion estimation device. The receiving unit that receives the emotion data indicating the emotion of the speaker estimated by the emotion estimation unit and the recognition character string are processed according to the emotion indicated by the emotion data, and the data obtained is output. It is provided with an output unit.
本発明の好適な態様にかかる感情推定方法は、発話者の音声を含む音を示す音声データを取得し、前記音声データに音声認識処理を施して得られた認識文字列に基づいて、前記発話者の感情が、肯定的な感情が属する第1グループと、否定的な感情が属する第2グループとの何れに属するかを推定し、前記音声データが示す音の特徴量に基づいて、前記発話者の感情が、興奮時の感情が属する第3グループと、興奮時ではない感情が属する第4グループとの何れに属するかを推定し、前記発話者の感情が前記第1グループと前記第2グループとの何れに属するかを示す推定結果と、前記発話者の感情が前記第3グループと前記第4グループとの何れに属するかを示す推定結果とに基づいて、前記発話者の感情を推定する処理をコンピュータが実行する。 In the emotion estimation method according to a preferred embodiment of the present invention, the utterance is based on a recognition character string obtained by acquiring voice data indicating a sound including the voice of the speaker and performing voice recognition processing on the voice data. It is estimated whether the person's emotion belongs to the first group to which the positive emotion belongs or the second group to which the negative emotion belongs, and the utterance is based on the characteristic amount of the sound indicated by the voice data. It is estimated whether the emotions of the person belong to the third group to which the emotions at the time of excitement belong or the fourth group to which the emotions not at the time of excitement belong, and the emotions of the speaker belong to the first group and the second group. The emotion of the speaker is estimated based on the estimation result indicating which of the groups the speaker belongs to and the estimation result of which of the third group and the fourth group the speaker's emotion belongs to. The computer executes the processing to be performed.
本発明によれば、発話者の感情を精度良く推定することができる。 According to the present invention, the emotion of the speaker can be estimated with high accuracy.
1.第1実施形態
図1は、本発明の第1実施形態にかかるユーザ装置1を示すブロック図である。ユーザ装置1は、スマートフォンを想定する。ユーザ装置1が、「感情推定装置」の一例である。ただし、ユーザ装置1としては、任意の情報処理装置を採用することができ、例えば、パーソナルコンピュータ等の端末型の情報機器であってもよいし、ノートパソコン、ウェアラブル端末及びタブレット端末等の可搬型の情報端末であってもよい。
1. 1. 1st Embodiment FIG. 1 is a block diagram showing a
ユーザ装置1は、処理装置2、記憶装置3、表示装置4、操作装置5、通信装置6、放音装置7、及び、集音装置8を具備するコンピュータシステムにより実現される。ユーザ装置1の各要素は、情報を通信するための単体又は複数のバス9で相互に接続される。なお、本明細書における「装置」という用語は、回路、デバイス又はユニット等の他の用語に読替えてもよい。また、ユーザ装置1の各要素は、単数又は複数の機器で構成され、ユーザ装置1の一部の要素は省略されてもよい。集音装置8は、「集音部」の一例である。
The
ユーザ装置1は、ユーザ装置1のユーザである発話者の音声を含む音を示す音声データに対して音声認識処理を施して得られた認識文字列を、他者が利用する装置に送信する機能、又は、認識文字列を読み上げて他者に聞かせる機能を有する。さらに、ユーザ装置1は、発話者の音声に基づいて発話者の感情を推定し、認識文字列に対して、推定した感情に応じた絵文字を認識文字列に付加する、又は、推定した感情に応じた抑揚で認識文字列を読み上げることにより、コミュニケーションに必要な感情表現を付加することが可能になる。コミュニケーションをより円滑にするため、発話者の感情の推定精度が向上することが好ましい。
第1実施形態では、ユーザ装置1は、人が取り得る複数の感情を、肯定的であるか又は否定的であるかによってグループ分けした結果と、興奮時か否かとによってグループ分けした結果とに基づいて、発話者の感情を推定する。
The
In the first embodiment, the
図2は、感情のグループ分けを示す図である。人が取り得る複数の感情を、肯定的な感情が属するポジティブグループGE1と、否定的な感情が属するネガティブグループGE2とに分類すると、ポジティブグループGE1には喜びが属し、ネガティブグループGE2には怒り及び悲しみが属する。ポジティブグループGE1は、「第1グループ」の一例である。ネガティブグループGE2は、「第2グループ」の一例である。 FIG. 2 is a diagram showing emotional grouping. When multiple emotions that a person can take are classified into a positive group GE1 to which positive emotions belong and a negative group GE2 to which negative emotions belong, joy belongs to positive group GE1 and anger and anger belong to negative group GE2. Sadness belongs. The positive group GE1 is an example of the "first group". Negative group GE2 is an example of a "second group".
また、人が取り得る複数の感情を、興奮時の感情が属する興奮グループGE3と、非興奮時の感情が属する非興奮グループGE4とに分類すると、興奮グループGE3には喜び及び怒りが属し、興奮時でない感情が属する非興奮グループGE4には悲しみが属する。興奮グループGE3は、「第3グループ」の一例である。非興奮グループGE4は、「第4グループ」の一例である。 Further, when a plurality of emotions that a person can take are classified into an excitement group GE3 to which emotions at the time of excitement belong and a non-excitement group GE4 to which emotions at the time of non-excitement belong, the excitement group GE3 belongs to joy and anger and is excited. Sadness belongs to the non-excited group GE4 to which non-time emotions belong. The excitement group GE3 is an example of the "third group". The non-excited group GE4 is an example of the "fourth group".
説明を図1に戻す。処理装置2は、ユーザ装置1の全体を制御するプロセッサであり、例えば、単数又は複数のチップで構成される。処理装置2は、例えば、周辺装置とのインタフェース、演算装置及びレジスタ等を含む中央処理装置(CPU:Central Processing Unit)で構成される。なお、処理装置2の機能の一部又は全部を、DSP(Digital Signal Processor)、ASIC(Application Specific Integrated Circuit)、PLD(Programmable Logic Device)、FPGA(Field Programmable Gate Array)等のハードウェアによって実現してもよい。処理装置2は、各種の処理を並列的又は逐次的に実行する。
The explanation is returned to FIG. The
記憶装置3は、処理装置2が読取可能な記録媒体であり、処理装置2が実行する制御プログラムPRを含む複数のプログラム、解析用辞書データ31、及び、感情分類データ33を記憶する。記憶装置3は、例えば、ROM(Read Only Memory)、EPROM(Erasable Programmable ROM)、EEPROM(Electrically Erasable Programmable ROM)、RAM(Random Access Memory)等の記憶回路の1種類以上で構成される。
The
図3は、解析用辞書データ31の記憶内容の一例を示す図である。解析用辞書データ31は、形態素ごとに、品詞、品詞細分類、及び、原形データを互いに対応付けたデータである。形態素は、意味を有する表現要素の最小単位の文字列である。品詞は、文法的性質によって分類された単語の種別であり、名詞、動詞、及び形容詞等である。品詞細分類は、品詞をさらに細分類した項目である。原形データは、該当の形態素が活用する単語である場合、単語の原形を示す文字列であり、該当の形態素が活用しない単語である場合、該当の形態素と同一の文字列である。
FIG. 3 is a diagram showing an example of the stored contents of the
図4は、感情分類データ33の記憶内容の一例を示す図である。感情分類データ33は、文字列を、喜び、怒り、及び、悲しみの何れかに分類したデータである。図4の例では、喜びに分類された文字列群331は、「嬉しい」、「合格」、「勝つ」、及び、「勝っ」等を含む。同様に、怒りに分類された文字列群332は、「イライラ」、及び、「むかっ腹」等を含む。同様に、悲しみに分類された文字列群333は、「悲しい」、及び、「負ける」等を含む。
FIG. 4 is a diagram showing an example of the stored contents of the
説明を図1に戻す。表示装置4は、処理装置2による制御のもとで各種の画像を表示する。例えば液晶表示パネル、又は有機EL(Electro Luminescence)表示パネル等の各種の表示パネルが表示装置4として好適に利用される。
The explanation is returned to FIG. The
操作装置5は、ユーザ装置1が使用する情報を入力するための機器である。操作装置5は、ユーザによる操作を受け付ける。具体的には、操作装置5は、数字及び文字等の符号を入力するための操作と、表示装置4が表示するアイコンを選択するための操作とを受け付ける。例えば、表示装置4の表示面に対する接触を検出するタッチパネルが操作装置5として好適である。なお、利用者が操作可能な操作子を操作装置5が含んでもよい。操作子は、例えば、タッチペンである。
The
通信装置6は、ネットワークを介して他の装置と通信を行うためのハードウェア(送受信デバイス)である。通信装置6は、例えば、ネットワークデバイス、ネットワークコントローラ、ネットワークカード、通信モジュール等とも呼ばれる。
The
放音装置7は、例えばスピーカで構成され、処理装置2による制御のもとで、音を放音する。集音装置8は、例えばマイクロフォン及びAD変換器で構成され、処理装置2による制御のもとで、発話者の音声を含む音を集音する。マイクロフォンは、集音した音声を電気信号に変換する。AD変換器は、マイクロフォンが変換した電気信号をAD変換して、図5に示す音声データVDに変換する。音声データVDが示す音には、発話者の音声に加えて、発話者の周囲から発せられた雑音が含まれ得る。
The
1.1.第1実施形態の機能
処理装置2は、記憶装置3から制御プログラムPRを読み取り実行することによって、取得部21、推定部25、及び、出力部26として機能する。
図5を用いて、処理装置2によって実現される機能について説明する。
1.1. The
The function realized by the
図5は、ユーザ装置1の機能の概要を示す図である。取得部21は、集音装置8が集音した発話者の音声を示す音声データVDを取得する。推定部25は、音声データVDに基づいて、発話者の感情を推定する。具体的には、推定部25は、音声認識処理部251、第1推定部252、第2推定部253、及び、感情推定部254を含む。
FIG. 5 is a diagram showing an outline of the functions of the
音声認識処理部251は、音声データVDに音声認識処理を施して認識文字列SDを出力する。音声認識処理部251は、例えば、予め用意された音響モデル及び言語モデルを用いて、音声から文字列を認識する手法を含む、種々の手法によって、認識文字列SDを出力する。
The voice
第1推定部252は、文字列感情推定処理を実行する。文字列感情推定処理は、認識文字列SDに基づいて、発話者の感情が、ポジティブグループGE1と、ネガティブグループGE2との何れに属するかを推定する。
The
より詳細には、第1推定部252は、形態素解析処理部2521及び感情スコア算出処理部2522を有する。形態素解析処理部2521は、解析用辞書データ31を参照して、認識文字列SDに対して形態素解析処理を施して、補正後認識文字列CSDを出力する。形態素解析処理は、認識文字列SDを形態素ごとに分解する処理である。形態素解析処理において、解析用辞書データ31の品詞及び品詞細分類が利用される。補正後認識文字列CSDは、感動詞等といった、発話者の感情を推定するためには不要な文字列を除いた文字列である。
More specifically, the
感情スコア算出処理部2522は、感情分類データ33に含まれる文字列と、補正後認識文字列CSDとを比較することにより、各感情に対して、発話者の感情である可能性の程度を示すスコアを算出する。より詳細には、感情スコア算出処理部2522は、補正後認識文字列CSDが、感情分類データ33に含まれる文字列を含む場合に、この補正後認識文字列CSDに含まれる文字列に対応する感情のスコアを増加させる。
例えば、補正後認識文字列CSDが「今日試合に勝った」であれば、感情スコア算出処理部2522は、以下のような感情ごとのスコアを出力する。
The emotion score
For example, if the corrected recognition character string CSD is "winning the game today", the emotion score
喜び 1
怒り 0
悲しみ 0
上述の例では、補正後認識文字列CSDに、感情分類データ33に含まれる「勝っ」が含まれているため、感情スコア算出処理部2522は、「勝っ」に対応する喜びのスコアを1増加させる。増加させるスコアの量は、1に限らなく、感情分類データ33に含まれる文字列ごとに異なってもよい。例えば、より喜びを強く示す文字列のスコアの増加量を2としてもよい。さらに、補正後認識文字列CSDに、感情分類データ33に含まれる文字列、及び、内容を強調する文字列が含まれる場合、感情スコア算出処理部2522は、感情のスコアの増加量を大きくしてもよい。例えば、補正後認識文字列CSDが「今日試合に勝ててとても嬉しい」であれば、補正後認識文字列CSDに感情分類データ33に含まれる「嬉しい」が含まれており、かつ、「とても」という内容を強調する文字列が含まれるため、感情スコア算出処理部2522は、例えば、喜びのスコアを2増加させる。補正後認識文字列CSDのうち、どの文字列が、内容を強調する文字列であるか否かは、形態素解析処理によって得られる形態素によって判定することができる。以下の例では、説明を容易にするため、増加させるスコアの量が1であるとする。
さらに、補正後認識文字列CSDに、感情分類データ33に含まれる文字列、及び、内容を否定する文字列が含まれる場合、感情スコア算出処理部2522は、この補正後認識文字列CSDに含まれる文字列に対応する感情のスコアを増加させる処理とは異なる処理を実行してもよい。例えば、補正後認識文字列CSDが「今日試合に勝つことができなかった」であれば、補正後認識文字列CSDに感情分類データ33に含まれる「勝つ」が含まれるが、「なかっ」という内容を否定する文字列が含まれるため、感情スコア算出処理部2522は、例えば、悲しみのスコアを1増加させる。補正後認識文字列CSDのうち、どの文字列が、内容を否定する文字列であるか否かは、形態素解析処理によって得られる形態素によって判定することができる。このように、形態素解析処理によって、補正後認識文字列CSDが肯定的な内容なのか否定的な内容かを推定することが可能である。以下の例では、説明を容易にするため、補正後認識文字列CSDに、感情分類データ33に含まれる文字列が含まれれば、この補正後認識文字列CSDに含まれる文字列に対応する感情のスコアを増加させることとして説明を行う。
Anger 0
Sadness 0
In the above example, since the corrected recognition character string CSD includes the “win” included in the
Further, when the corrected recognition character string CSD includes a character string included in the
第1推定部252は、感情ごとのスコアに基づいて、発話者の感情が、ポジティブグループGE1と、ネガティブグループGE2との何れに属するかを示す第1感情グループデータGD1を出力する。第1感情グループデータGD1は、例えば、以下に示す2つの態様がある。
The
第1感情グループデータGD1の第1の態様は、ポジティブグループGE1を示す識別子及びネガティブグループGE2を示す識別子の何れか一方である。例えば、第1推定部252は、下記(1)式を満たす場合に、ポジティブグループGE1を示す識別子を第1感情グループデータGD1として出力する。一方、(1)式を満たさない場合、第1推定部252は、ネガティブグループGE2を示す識別子を第1感情グループデータGD1として出力する。
The first aspect of the first emotion group data GD1 is either an identifier indicating a positive group GE1 or an identifier indicating a negative group GE2. For example, the
喜びのスコア>α×(怒りのスコア+悲しみのスコア)/2 (1) Joy score> α × (anger score + sadness score) / 2 (1)
αは、例えば、ユーザ装置1の開発者又は発話者などによって設定される値である。
α is a value set by, for example, the developer of the
第1感情グループデータGD1の第2の態様は、ポジティブグループGE1を示す識別子及びネガティブグループGE2を示す識別子の何れか一方と、各感情のスコアとを含む。 The second aspect of the first emotion group data GD1 includes either an identifier indicating a positive group GE1 or an identifier indicating a negative group GE2, and a score of each emotion.
第2推定部253は、音声感情推定処理を実行する。音声感情推定処理は、音声データVDが示す音の特徴量に基づいて、発話者の感情が、興奮時の感情が属する興奮グループGE3と、興奮時ではない感情が属する非興奮グループGE4との何れに属するかを推定する処理である。
The
より詳細には、第2推定部253は、音特徴量抽出処理部2531及び学習モデル実行処理部2532を有する。音特徴量抽出処理部2531は、音声データVDから音の特徴量を抽出する。音の特徴量とは、音声データVDが示す音の特徴を示す特徴量である。音の特徴量は、例えば、MFCC(Mel-Frequency Cepstrum Coefficients)12次元、ラウドネス、基本周波数(F0)、音声確率、ゼロ交差率、HNR(Harmonics-to-Noise-Ratio)、及びこれらの一次微分、MFCC及びラウドネスの二次微分の計47個である。ラウドネスは、音の大きさであり、人間の聴覚が感じる音の強さを示す。音声確率は、音声データVDが示す音に音声が含まれる確率を示す。ゼロ交差率は、音圧がゼロとなった回数である。興奮時には、例えば、非興奮時と比較して、基本周波数が高くなり、且つ、ラウドネスが大きくなる傾向がある。また、音特徴量抽出処理部2531は、音声データVDに対して補正処理を実行し、補正処理の実行により得られた補正後音声データから、音の特徴量を抽出してもよい。補正処理は、例えば、音声データVDから無音部分のデータを除去する処理、及び、音声データVDが示す音に含まれるノイズを除去する処理の一方又は両方である。
学習モデル実行処理部2532は、抽出した音の特徴量を、予め学習した学習モデルに入力して、この学習モデルから得られた出力結果に基づいて、第2感情グループデータGD2を出力する。第2感情グループデータGD2は、発話者の感情が、興奮グループGE3と非興奮グループGE4との何れに属するかを示す。
予め学習した学習モデルは、例えば、音の特徴量が入力されると、感情ごとのスコアを出力するモデルである。第2推定部253は、下記(2)式を満たす場合、発話者の感情が興奮グループGE3に属することを示す第2感情グループデータGD2を出力する。一方、(2)式を満たさない場合、第2推定部253は、発話者の感情が非興奮グループGE4に属することを示す第2感情グループデータGD2を出力する。
More specifically, the
The learning model
The learning model learned in advance is, for example, a model that outputs a score for each emotion when a sound feature amount is input. The
(喜びのスコア+怒りのスコア)/2>β×悲しみのスコア (2) (Score of joy + score of anger) / 2> β x score of sadness (2)
βは、例えば、ユーザ装置1の開発者又は発話者などによって設定される値である。
β is, for example, a value set by the developer or speaker of the
第2感情グループデータGD2は、例えば、下記に示す2つの態様がある。第2感情グループデータGD2の第1の態様は、興奮グループGE3を示す識別子及び非興奮グループGE4を示す識別子の何れか一方である。第2感情グループデータGD2の第2の態様は、興奮グループGE3を示す識別子及び非興奮グループGE4を示す識別子の何れか一方と、予め学習した学習モデルが出力した各感情のスコアである。 The second emotion group data GD2 has, for example, the following two aspects. The first aspect of the second emotion group data GD2 is either an identifier indicating the excitement group GE3 or an identifier indicating the non-excitement group GE4. The second aspect of the second emotion group data GD2 is either one of the identifier indicating the excitement group GE3 and the identifier indicating the non-excitement group GE4, and the score of each emotion output by the learning model learned in advance.
感情推定部254は、第1感情グループデータGD1が示す推定結果と、第2感情グループデータGD2が示す推定結果とに基づいて、発話者の感情を推定する。
The
より詳細には、発話者の感情がポジティブグループGE1に属することを第1感情グループデータGD1が示す場合、感情推定部254は、発話者の感情が喜びであると推定する。
また、発話者の感情がネガティブグループGE2に属することを第1感情グループデータGD1が示し、且つ、発話者の感情が興奮グループGE3に属することを第2感情グループデータGD2が示す場合、感情推定部254は、発話者の感情が怒りであると推定する。
発話者の感情がネガティブグループGE2に属することを第1感情グループデータGD1が示し、且つ、発話者の感情が非興奮グループGE4に属することを第2感情グループデータGD2が示す場合、感情推定部254は、発話者の感情が悲しみであると推定する。
感情推定部254は、推定した発話者の感情を示す感情データEDを出力する。感情データEDは、例えば、以下に示す2つの態様がある。感情データEDの第1の態様は、推定した発話者の感情を示す識別子である。感情を示す識別子には、喜びを示す識別子、怒りを示す識別子、及び、悲しみを示す識別子がある。感情データEDの第2の態様は、推定した発話者の感情を示す識別子と、推定した発話者の感情のスコアとである。推定した発話者の感情のスコアは、例えば、第1感情グループデータGD1の第2の態様に含まれる、推定した発話者の感情のスコアと、第2感情グループデータGD2の第2の態様に含まれる、推定した発話者の感情のスコアとの合計値、又は、平均値である。
More specifically, when the first emotion group data GD1 indicates that the speaker's emotion belongs to the positive group GE1, the
Further, when the first emotion group data GD1 indicates that the speaker's emotion belongs to the negative group GE2 and the second emotion group data GD2 indicates that the speaker's emotion belongs to the excitement group GE3, the
When the first emotion group data GD1 indicates that the speaker's emotion belongs to the negative group GE2 and the second emotion group data GD2 indicates that the speaker's emotion belongs to the non-excited group GE4, the
The
出力部26は、音声認識処理部251によって得られた認識文字列SDに対して、感情データEDが示す感情に応じた処理を施して得られたデータを出力する。感情に応じた処理は、例えば、下記に示す2つの態様がある。
感情に応じた処理の第1の態様は、認識文字列SDに対して、感情を具象化した図形を付加する処理である。感情を具象化した図形は、例えば、感情を具象化した絵文字、及び、感情を具象化した顔文字である。絵文字は、文字コードに対応付けられた画像である。文字コードは、例えば、Unicodeである。顔文字は、記号及び文字を組み合わせて顔を表現した文字列である。以下の説明では、感情を具象化した図形は、感情を具象化した絵文字であるとして説明する。喜びを具象化した絵文字は、例えば、笑顔を示す絵文字である。怒りを具象化した絵文字は、例えば、怒りの顔を示す絵文字である。悲しみを具象化した絵文字は、例えば、泣き顔を示す絵文字である。さらに、感情データEDが第2の態様である場合、出力部26は、感情データEDが示す感情であって、感情データEDに含まれるスコアに応じた深さを有する感情を具象化した絵文字を、認識文字列SDに付加する絵文字として決定してもよい。例えば、感情データEDが示す感情が悲しみであり、かつ、感情データEDに含まれるスコアが所定の閾値以下である場合、出力部26は、涙をこぼす顔を示す絵文字を認識文字列SDに付加する絵文字として決定する。一方、感情データEDが示す感情が悲しみであり、かつ、感情データEDに含まれるスコアが所定の閾値より大きい場合、出力部26は、号泣した顔を示す絵文字を認識文字列SDに付加する絵文字として決定する。号泣した顔を示す絵文字は、涙をこぼす顔を示す絵文字と比較して、より深い悲しみを具象化している。
出力部26は、認識文字列SDに絵文字を付加して得られた絵文字付き文字列を出力する。絵文字を付加する位置は、例えば、以下に示す2つがある。第1の位置は、認識文字列SDの末尾である。第2の位置は、認識文字列SD内における、感情分類データ33に含まれる文字列の次である。表示装置4は、出力部26が出力した絵文字付き文字列に基づく画像を表示する。
The
The first aspect of the process according to the emotion is a process of adding a figure embodying the emotion to the recognition character string SD. The figures that embody emotions are, for example, pictograms that embody emotions and emoticons that embody emotions. A pictogram is an image associated with a character code. The character code is, for example, Unicode. An emoticon is a character string that expresses a face by combining symbols and characters. In the following description, a figure that embodies emotions will be described as a pictogram that embodies emotions. The pictogram that embodies joy is, for example, a pictogram that shows a smile. The pictogram that embodies anger is, for example, a pictogram that shows the face of anger. The pictogram that embodies sadness is, for example, a pictogram that shows a crying face. Further, when the emotion data ED is the second aspect, the
The
感情に応じた処理の第2の態様は、感情に基づく抑揚を付加して読み上げた合成音声を生成する処理である。抑揚は、読み上げ速度を速くするもしくは遅くする、又は、音量を大きくするもしくは小さくすることである。喜びに基づく抑揚は、例えば、読み上げ速度を上げることである。怒りに基づく抑揚は、例えば、音量を大きくすることである。悲しみに基づく抑揚は、例えば、音量を小さくすることである。出力部26は、感情に基づく抑揚を付加して読み上げた合成音声を示すデータを出力する。そして、出力部26は、生成したデータが示す合成音声に、感情に基づく抑揚を付加して、感情に基づく抑揚を付加して読み上げた合成音声を示すデータを出力する。放音装置7は、出力部26が出力したデータが示す合成音声を放音する。
The second aspect of the emotion-based process is a process of generating a synthetic voice read aloud by adding emotion-based intonation. Inflection is to increase or decrease the reading speed, or to increase or decrease the volume. Pleasure-based intonation is, for example, speeding up reading. Anger-based intonation is, for example, increasing the volume. Sadness-based intonation is, for example, reducing the volume. The
1.2.第1実施形態の動作
次に、推定部25が実行する処理について、図6を用いて説明する。
1.2. Operation of First Embodiment Next, the process executed by the
図6は、推定部25の処理を示すフローチャートである。図6に示すステップS3、ステップS4、ステップS6、ステップS7、及び、ステップS8の処理が、感情推定部254に相当する。音声認識処理部251は、音声データVDに対して音声認識処理を施して、認識文字列SDを得る(ステップS1)。次に、第1推定部252は、認識文字列SDに対して文字列感情推定処理を実行し、第1感情グループデータGD1を出力する(ステップS2)。
FIG. 6 is a flowchart showing the processing of the
感情推定部254は、第1感情グループデータGD1がポジティブグループGE1を示すか否かを判定する(ステップS3)。換言すればステップS3において、感情推定部254は、第1感情グループデータGD1がポジティブグループGE1とネガティブグループGE2との何れを示すか判定する。第1感情グループデータGD1がポジティブグループGE1を示し、ステップS3の判定結果が肯定となる場合、感情推定部254は、発話者の感情が喜びであると推定する(ステップS4)。
The
第1感情グループデータGD1がネガティブグループGE2を示し、ステップS3の判定結果が否定となる場合、第2推定部253は、音声データVDに対して音声感情推定処理を実行し、第2感情グループデータGD2を出力する(ステップS5)。感情推定部254は、第2感情グループデータGD2が興奮グループGE3を示すか否かを判定する。換言すればステップS5において、感情推定部254は、第2感情グループデータGD2が興奮グループGE3と非興奮グループGE4との何れを示すか判定する(ステップS6)。
When the first emotion group data GD1 indicates the negative group GE2 and the determination result in step S3 is negative, the
第1感情グループデータGD1がネガティブグループGE2を示し、且つ、第2感情グループデータGD2が興奮グループGE3を示す場合、感情推定部254は、発話者の感情が怒りであると推定する(ステップS7)。第1感情グループデータGD1がネガティブグループGE2を示し、且つ、第2感情グループデータGD2が非興奮グループGE4を示す場合、感情推定部254は、発話者の感情が悲しみであると推定する(ステップS8)。
When the first emotion group data GD1 indicates the negative group GE2 and the second emotion group data GD2 indicates the excitement group GE3, the
ステップS4、ステップS7、又は、ステップS8の処理終了後、推定部25は、図6に示す一連の処理を終了する。
After the processing of step S4, step S7, or step S8 is completed, the
1.3.第1実施形態の効果
以上説明したように、第1実施形態によれば、ユーザ装置1は、認識文字列SDに対する文字列感情推定処理の推定結果と、音声データVDに対する音声感情推定処理の推定結果とに基づいて、発話者の感情を推定する。文字列感情推定処理では、認識文字列SDの意味内容に着目するので、発話者の音声に基づく認識文字列SDが肯定的な内容なのか否定的な内容なのかを高い精度で判定できる。一方、音声の抑揚には、発話者が興奮しているか否かが顕著に表れる。認識文字列SDは、単なる文字列に過ぎないので、音声の抑揚が失われている。発話者の感情には、興奮時に表れる喜びと怒りと、非興奮時に表れる悲しみがある。従って、仮に、認識文字列SDから、発話者の感情が、興奮時の感情であるか非興奮時の感情であるかを推定しようとすると、誤推定が発生する場合がある。例えば、感情スコア算出処理部2522において、発話者の真の感情が怒りであるのに、認識文字列SDに基づいて悲しみのスコアが最も高く算出される場合がある。また、感情スコア算出処理部2522において、発話者の真の感情が悲しみであるのに、認識文字列SDに基づいて怒りのスコアが最も高く算出される場合がある。即ち、認識文字列SDに基づいて、興奮時の感情と非興奮時の感情とを区別しようとすると、怒りと悲しみとを混同する可能性がある。しかしながら、認識文字列SDに基づいて感情を推定する第1推定部252は、混同することがある怒りと悲しみとを1つのグループとして推定するため、怒りと悲しみとの混同による誤推定を無くすことができる。
音声感情推定処理について、音の特徴量の中には、基本周波数及びラウドネスのように、興奮時と非興奮時とで値が大きく異なる傾向を有する特徴量がある。従って、音声感情推定処理では、発話者の感情が、興奮時の感情であるか非興奮時の感情であるかを精度良く推定することができる。一方、音の特徴量には、発話者の発話の意味内容が含まれていない。発話者の感情には、肯定的な時に現れる喜びと、否定的な時に現れる怒りと悲しみとがある。従って、仮に、音の特徴量から、発話者の感情が、肯定的な感情であるか否定的な感情であるかを推定しようとすると、誤推定が発生する場合がある。例えば、学習モデル実行処理部2532における学習モデルにおいて、発話者の真の感情が喜びであるのに、怒りのスコアが最も高く算出される場合がある。また、学習モデル実行処理部2532における学習モデルにおいて、発話者の真の感情が怒りであるのに、喜びのスコアが最も高く算出される場合がある。即ち、音の特徴量に基づいて、肯定的な感情と否定的な感情とを区別しようとすると、喜びと怒りとを混同する可能性がある。しかしながら、音の特徴量に基づいて感情を推定する第2推定部253は、混同することがある喜びと怒りとを1つのグループとして推定するため、喜びと怒りとの混同による誤推定を無くすことができる。
以上により、第1実施形態によれば、混同することがある感情同士を1つのグループとして推定するため、誤推定を抑制することができる。例えば、認識文字列SDに基づく各感情のスコアと音の特徴量に基づく各感情のスコアとの平均値によって発話者の感情を推定する場合と比較すると、発話者の感情を精度良く推定することが可能になる。
1.3. Effect of First Embodiment As described above, according to the first embodiment, the
Regarding the voice emotion estimation process, among the sound features, there are features such as fundamental frequency and loudness that tend to have values that differ greatly between when excited and when not excited. Therefore, in the voice emotion estimation process, it is possible to accurately estimate whether the emotion of the speaker is an emotion during excitement or an emotion during non-excitement. On the other hand, the sound features do not include the meaning and content of the speaker's utterance. Speakers' emotions include joy that appears in positive times and anger and sadness that appear in negative times. Therefore, if it is attempted to estimate whether the speaker's emotion is a positive emotion or a negative emotion from the feature amount of the sound, an erroneous estimation may occur. For example, in the learning model in the learning model
As described above, according to the first embodiment, emotions that may be confused are estimated as one group, so that erroneous estimation can be suppressed. For example, the speaker's emotion is estimated more accurately than the case where the speaker's emotion is estimated by the average value of the score of each emotion based on the recognition character string SD and the score of each emotion based on the sound features. Becomes possible.
また、第1実施形態によれば、発話者の感情がポジティブグループGE1に属することを第1感情グループデータGD1が示す場合、感情推定部254は、発話者の感情が喜びであると推定する。発話者の感情がネガティブグループGE2に属することを第1感情グループデータGD1が示し、且つ、発話者の感情が興奮グループGE3に属することを第2感情グループデータGD2が示す場合、感情推定部254は、発話者の感情が怒りであると推定する。発話者の感情がネガティブグループGE2に属することを第1感情グループデータGD1が示し、 且つ、発話者の感情が非興奮グループGE4に属することを第2感情グループデータGD2が示す場合、感情推定部254は、発話者の感情が悲しみであると推定する。
以上により、感情推定部254は、発話者の感情がポジティブグループGE1に属することを第1感情グループデータGD1が示す場合、第2感情グループデータGD2を参照することなく、発話者の感情を推定することが可能になる。また、発話者の感情がネガティブグループGE2に属することを第1感情グループデータGD1が示す場合であっても、感情推定部254は、第2感情グループデータGD2を参照することにより、発話者の感情を精度良く推定することが可能になる。
Further, according to the first embodiment, when the first emotion group data GD1 indicates that the speaker's emotion belongs to the positive group GE1, the
As described above, when the first emotion group data GD1 indicates that the speaker's emotion belongs to the positive group GE1, the
2.第2実施形態
第1実施形態では、推定部25は、第1推定部252によって文字列感情推定処理を実行し、第1感情グループデータGD1がネガティブグループGE2を示す場合、第2推定部253によって音声感情推定処理を実行する。一方、第2実施形態では、推定部25aは、第2推定部253によって音声感情推定処理を実行し、第2感情グループデータGD2が興奮グループGE3を示す場合、第1推定部252によって文字列感情推定処理を実行する。以下、第2実施形態にかかるユーザ装置1aを説明する。なお、以下に例示する第2実施形態において作用又は機能が第1実施形態と同等である要素については、以上の説明で参照の符号を流用して各々の詳細な説明を適宜に省略する。
2. 2. 2nd Embodiment In the 1st embodiment, the
2.1.第2実施形態の機能
図7は、第2実施形態にかかるユーザ装置1aを示すブロック図である。ユーザ装置1aは、処理装置2a、記憶装置3a、表示装置4、操作装置5、通信装置6、放音装置7、及び、集音装置8を具備するコンピュータシステムにより実現される。記憶装置3aは、処理装置2aが読取可能な記録媒体であり、処理装置2aが実行する制御プログラムPRaを含む複数のプログラムを記憶する。
2.1. Function of the second embodiment FIG. 7 is a block diagram showing a
処理装置2aは、記憶装置3aから制御プログラムPRaを読み取り実行することによって、取得部21、推定部25a、及び、出力部26として機能する。
The
図8は、第2実施形態にかかるユーザ装置1aの機能の概要を示す図である。推定部25aは、音声認識処理部251、第1推定部252、第2推定部253、及び、感情推定部254aを含む。
FIG. 8 is a diagram showing an outline of the function of the
感情推定部254aは、発話者の感情が非興奮グループGE4に属することを第2感情グループデータGD2が示す場合、発話者の感情が悲しみであると推定する。
また、発話者の感情が興奮グループGE3に属することを第2感情グループデータGD2が示し、且つ、発話者の感情がポジティブグループGE1に属することを第1感情グループデータGD1が示す場合、感情推定部254aは、発話者の感情が喜びであると推定する。
発話者の感情が興奮グループGE3に属することを第2感情グループデータGD2が示し、且つ、発話者の感情がネガティブグループGE2に属することを第1感情グループデータGD1が示す場合、感情推定部254aは、発話者の感情が怒りであると推定する。
When the second emotion group data GD2 indicates that the speaker's emotion belongs to the non-excited group GE4, the
Further, when the second emotion group data GD2 indicates that the speaker's emotion belongs to the excitement group GE3 and the first emotion group data GD1 indicates that the speaker's emotion belongs to the positive group GE1, the
When the second emotion group data GD2 indicates that the speaker's emotion belongs to the excitement group GE3 and the first emotion group data GD1 indicates that the speaker's emotion belongs to the negative group GE2, the
2.2.第2実施形態の動作
次に、推定部25aが実行する処理について、図9を用いて説明する。
2.2. Operation of the Second Embodiment Next, the process executed by the
図9は、第2実施形態にかかる推定部25aの処理を示すフローチャートである。図9に示すステップS22、ステップS23、ステップS26、ステップS27、及び、ステップS28の処理が、感情推定部254aに相当する。第2推定部253は、音声データVDに対して音声感情推定処理を実行し、第2感情グループデータGD2を出力する(ステップS21)。
FIG. 9 is a flowchart showing the processing of the
感情推定部254aは、第2感情グループデータGD2が非興奮グループGE4を示すか否かを判定する(ステップS22)。換言すればステップS22において、感情推定部254aは、第2感情グループデータGD2が興奮グループGE3と非興奮グループGE4との何れを示すか判定する。第2感情グループデータGD2が非興奮グループGE4を示し、ステップS22の判定結果が肯定となる場合、感情推定部254aは、発話者の感情が悲しみであると推定する(ステップS23)。
The
一方、第2感情グループデータGD2が興奮グループGE3を示し、ステップS22の判定結果が否定となる場合、音声認識処理部251は、音声データVDに対して音声認識処理を施して、認識文字列SDを得る(ステップS24)。次に、第1推定部252は、認識文字列SDに対して文字列感情推定処理を実行し、第1感情グループデータGD1を出力する(ステップS25)。
On the other hand, when the second emotion group data GD2 indicates the excitement group GE3 and the determination result in step S22 is negative, the voice
感情推定部254aは、第1感情グループデータGD1がポジティブグループGE1を示すか否かを判定する(ステップS26)。換言すればステップS26において、感情推定部254aは、第1感情グループデータGD1がポジティブグループGE1とネガティブグループGE2との何れを示すか判定する。
The
第2感情グループデータGD2が興奮グループGE3を示し、且つ、第1感情グループデータGD1がポジティブグループGE1を示す場合、感情推定部254aは、発話者の感情が喜びであると推定する(ステップS27)。一方、第2感情グループデータGD2が興奮グループGE3を示し、且つ、第1感情グループデータGD1がネガティブグループGE2を示す場合、感情推定部254aは、発話者の感情が怒りであると推定する(ステップS28)。
When the second emotion group data GD2 indicates the excitement group GE3 and the first emotion group data GD1 indicates the positive group GE1, the
ステップS23、ステップS27、又は、ステップS28の処理終了後、推定部25aは、図9に示す一連の処理を終了する。
After the processing of step S23, step S27, or step S28 is completed, the
2.3.第2実施形態の効果
以上説明したように、第2実施形態によれば、発話者の感情が非興奮グループGE4に属することを第2感情グループデータGD2が示す場合、感情推定部254aは、発話者の感情が悲しみであると推定する。また、発話者の感情が興奮グループGE3に属することを第2感情グループデータGD2が示し、且つ、発話者の感情がポジティブグループGE1に属することを第1感情グループデータGD1が示す場合、感情推定部254aは、発話者の感情が喜びであると推定する。発話者の感情が興奮グループGE3に属することを第2感情グループデータGD2が示し、且つ、発話者の感情がネガティブグループGE2に属することを第1感情グループデータGD1が示す場合、感情推定部254aは、発話者の感情が怒りであると推定する。
以上によれば、感情推定部254aは、発話者の感情が非興奮グループGE4に属することを第2感情グループデータGD2が示す場合、感情推定部254aは、第1感情グループデータGD1を参照することなく、発話者の感情を推定することが可能になる。また、発話者の感情が興奮グループGE3に属することを第2感情グループデータGD2が示す場合であっても、第1感情グループデータGD1を参照することにより、発話者の感情を精度良く推定することが可能になる。
2.3. Effect of Second Embodiment As described above, according to the second embodiment, when the second emotion group data GD2 indicates that the speaker's emotion belongs to the non-excited group GE4, the
According to the above, when the second emotion group data GD2 indicates that the speaker's emotion belongs to the non-excited group GE4, the
3.変形例
本発明は、以上に例示した各実施形態に限定されない。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様を併合してもよい。
3. 3. Modifications The present invention is not limited to the embodiments exemplified above. A specific mode of modification is illustrated below. Two or more aspects arbitrarily selected from the following examples may be merged.
(1)上述した各形態において、第1推定部252は、(1)式において、左辺である「喜びのスコア」と、右辺である「α×(怒りのスコア+悲しみのスコア)/2」との差の絶対値が所定値以上ある場合に、発話者の感情がポジティブグループGE1とネガティブグループGE2との何れかに属することを示す第1感情グループデータGD1を出力し、前述の差の絶対値が所定値未満である場合に、発話者の感情が不明であることを示す第1感情グループデータGD1を出力してもよい。
同様に、第2推定部253は、(2)式において、左辺である「(喜びのスコア+怒りのスコア)/2」と、右辺である「β×悲しみのスコア」との差の絶対値が所定値以上ある場合に、発話者の感情が興奮グループGE3と非興奮グループGE4との何れに属することを示す第2感情グループデータGD2を出力し、前述の差の絶対値が所定値未満である場合に、発話者の感情が不明であることを示す第2感情グループデータGD2を出力してもよい。
第1感情グループデータGD1及び第2感情グループデータGD2の何れか一方が、発明者の感情が不明であることを示す場合、感情推定部254は、他方の感情グループデータに基づいて、発話者の感情を推定してもよい。
ここで、第1感情グループデータGD1及び第2感情グループデータGD2が、第2の態様であるとする。例えば、第1感情グループデータGD1が、発話者の感情が不明であることを示す場合、感情推定部254は、第2感情グループデータGD2に含まれる各感情のスコアのうち、最も大きいスコアを有する感情を、発話者の感情として推定する。同様に、第2感情グループデータGD2が、発話者の感情が不明であることを示す場合、感情推定部254は、第1感情グループデータGD1に含まれる各感情のスコアのうち、最も大きいスコアを有する感情を、発話者の感情として推定する。
(1) In each of the above-described forms, in the equation (1), the
Similarly, in the
When either one of the first emotion group data GD1 and the second emotion group data GD2 indicates that the inventor's emotion is unknown, the
Here, it is assumed that the first emotion group data GD1 and the second emotion group data GD2 are the second aspect. For example, when the first emotion group data GD1 indicates that the speaker's emotion is unknown, the
(2)第2実施形態において、ステップS25において、第1推定部252は、感情分類データ33に含まれる、喜びに分類された文字列群331及び怒りに分類された文字列群332を、認識文字列SDと比較することにより、発話者の感情が、ポジティブグループGE1とネガティブグループGE2との何れに属するかを推定してもよい。言い換えれば、第1推定部252は、感情分類データ33に含まれる悲しみに分類された文字列群333を、認識文字列SDと比較しなくてよい。第1推定部252は、感情分類データ33に含まれる悲しみに分類された文字列群333を認識文字列SDと比較しない分、文字列感情推定処理にかかる時間を短縮することが可能になる。
(2) In the second embodiment, in step S25, the
(3)第1実施形態では、ステップS3において、第1感情グループデータGD1がポジティブグループGE1を示す場合、第2推定部253が音声感情推定処理を実行しなかったが、実行してもよい。同様に、第2実施形態では、ステップS22において、第2感情グループデータGD2が非興奮グループGE4を示す場合、第1推定部252が文字列感情推定処理を実行しなかったが、実行してもよい。第1感情グループデータGD1がポジティブグループGE1を示し、且つ、第2感情グループデータGD2が非興奮グループGE4を示す場合、感情推定部254は、発話者の感情が推定不能と決定してもよい。
このように、第1推定部252の推定結果と第2推定部253の推定結果とに整合性がとれない場合には、何れか一方の推定結果が誤推定であることを示すため、感情推定部254は、誤った推定結果を出力することを抑制することが可能になる。
(3) In the first embodiment, in step S3, when the first emotion group data GD1 indicates the positive group GE1, the
In this way, when the estimation result of the
(4)上述したように、第1感情グループデータGD1がポジティブグループGE1を示し、且つ、第2感情グループデータGD2が非興奮グループGE4を示す場合、感情推定部254は、発話者の感情が推定不能と決定してもよい。感情推定部254が、発話者の感情が推定不能と決定した場合、出力部26は、以下に示す2つの絵文字付き文字列とのうち少なくとも1つの図形付き文字列を出力する。第1の絵文字付き文字列は、認識文字列SDに対して喜びを具象化した絵文字を付加する処理を施して得られる絵文字付き文字列である。第2の絵文字付き文字列は、認識文字列SDに対して悲しみを具象化した絵文字を付加した処理を施して得られる文字列である。出力部26は、第1の絵文字付き文字列と第2の絵文字付き文字列ともに出力してもよいし、何れか一方を出力してもよい。
例えば、第1感情グループデータGD1及び第2感情グループデータGD2が、第2の態様であるとする。出力部26は、第1感情グループデータGD1に含まれる喜びのスコアが所定値以上である場合に第1の絵文字付き文字列を出力し、第2感情グループデータGD2に含まれる悲しみのスコアが所定値以上である場合に第2の絵文字付き文字列を出力する。
ユーザである発話者は、表示装置4に表示された絵文字付き文字列を見て、操作装置5を操作することにより、自身の感情に近い絵文字付き文字列を選択する。
以上により、ユーザ装置1は、発話者の感情が推定不能と決定した場合でも、発話者に選択させることにより、発話者の感情に近い、適切な感情を選択することが可能になる。
(4) As described above, when the first emotion group data GD1 indicates the positive group GE1 and the second emotion group data GD2 indicates the non-excited group GE4, the
For example, assume that the first emotion group data GD1 and the second emotion group data GD2 are the second aspect. The
The speaker, who is a user, looks at the character string with a pictogram displayed on the
As described above, even if the
(5)ユーザ装置1cと、ユーザ装置1cとアクセス可能なサーバ装置101とを含む感情推定システム100によって、他者とのコミュニケーションを支援するサービスを提供してもよい。
(5) A service that supports communication with another person may be provided by the
図10は、感情推定システム100を示すブロック図である。感情推定システム100は、ユーザ装置1cと、サーバ装置101とを含む。この変形例では、サーバ装置101が、「感情推定装置」の一例である。ユーザ装置1cが、「端末装置」の一例である。
FIG. 10 is a block diagram showing an
ユーザ装置1cは、処理装置2c、記憶装置3c、表示装置4、操作装置5、通信装置6、放音装置7、及び、集音装置8を具備するコンピュータシステムにより実現される。記憶装置3cは、処理装置2cが読取可能な記録媒体であり、処理装置2cが実行する制御プログラムPRcを含む複数のプログラムを記憶する。通信装置6は、ネットワークを介してサーバ装置101とアクセスする。
The
処理装置2cは、記憶装置3cから制御プログラムPRcを読み取り実行することによって、送信部22、受信部23、及び、出力部26として機能する。
The
送信部22は、集音装置8によって得られた音声データVDを、サーバ装置101に送信する。受信部23は、サーバ装置101から、認識文字列SDと、感情データEDとを受信する。
The
サーバ装置101は、処理装置2C、記憶装置3C、及び通信装置6Cを具備するコンピュータシステムにより実現される。サーバ装置101の各要素は、情報を通信するための単体又は複数のバス9Cで相互に接続される。記憶装置3Cは、処理装置2Cが読取可能な記録媒体であり、処理装置2Cが実行する制御プログラムPRCを含む複数のプログラム、解析用辞書データ31、及び、感情分類データ33を記憶する。通信装置6Cは、ネットワークを介してユーザ装置1cとアクセスする。
The
処理装置2Cは、記憶装置3Cから制御プログラムPRCを読み取り実行することによって、取得部21C、及び、推定部25として機能する。
The processing device 2C functions as an acquisition unit 21C and an
取得部21Cは、ユーザ装置1cから、音声データVDを取得する。推定部25は、音声データVDに基づいて発話者の感情を推定し、推定した感情を示す感情データEDと、認識文字列SDとをユーザ装置1cに送信する。
The acquisition unit 21C acquires the voice data VD from the
この変形例によれば、サーバ装置101が発話者の感情を推定するため、第1実施形態におけるユーザ装置1と比較すると、ユーザ装置1cにかかる負荷を抑制することが可能になる。
なお、この変形例では、処理装置2cが出力部26として機能する、言い換えれば、認識文字列SDに対して感情データEDが示す感情に応じた処理を実行するが、処理装置2Cが出力部26として機能してもよい。処理装置2Cが出力部26として機能する場合、サーバ装置101が、認識文字列SDに対して感情データEDが示す感情に応じた処理を実行し、この処理によって得られたデータを、ユーザ装置1cに送信する。
According to this modification, since the
In this modification, the
(6)上述の各態様において、推定部25は、第1推定部252と第2推定部253とを並列に実行してもよい。
(6) In each of the above-described aspects, the
(7)上述の各態様において、ユーザ装置1は、集音装置8を有さなくてもよい。集音装置8を有さない場合、ユーザ装置1は、通信装置6を介して音声データVDを取得してもよいし、記憶装置3に記憶された音声データVDを取得してもよい。
(7) In each of the above-described aspects, the
(8)上述の各態様において、ユーザ装置1は、放音装置7を有さなくてもよい。
(8) In each of the above aspects, the
(9)上述の各態様において、ユーザ装置1は、スマートスピーカでもよい。ユーザ装置1がスマートスピーカである場合、ユーザ装置1は、表示装置4及び操作装置5を有さなくてもよい。
(9) In each of the above aspects, the
(10)上述の各態様において、感情分類データ33は、図4に示すように、「勝つ」、「勝っ」のように、ある単語が活用した複数の形態素のそれぞれを、喜び、怒り、及び、悲しみの何れかに分類したが、これに限らない。例えば、感情分類データ33は、解析用辞書データ31の原形データに登録された文字列を、喜び、怒り、及び、悲しみの何れかに分類してもよい。例えば、感情分類データ33は、解析用辞書データ31の原形データに登録された文字列「嬉しい」、「合格」、及び「勝つ」を、喜びに分類する。感情スコア算出処理部2522は、補正後認識文字列CSDを形態素ごとに分解し、分解した形態素を、解析用辞書データ31の原形データに登録された文字列に変換する。そして、感情スコア算出処理部2522は、変換して得られた文字列と、感情分類データ33に含まれる文字列とが一致する場合に、この補正後認識文字列CSDに含まれる文字列に対応する感情のスコアを増加させる。
(10) In each of the above-described aspects, the
(11)上述の各態様において、感情スコア算出処理部2522は、補正後認識文字列CSDに対して、感情ごとのスコアを算出したが、認識文字列SDに対して感情ごとのスコアを算出してもよい。しかしながら、認識文字列SDには、感情を推定するためには不要な文字列が含まれる。従って、補正後認識文字列CSDに対して感情ごとのスコアを算出することにより、認識文字列SDに対して感情ごとのスコアを算出する場合と比較して、感情の推定精度を向上させることが可能になる。
(11) In each of the above aspects, the emotion score
(12)上述の各態様では、発話者が日本語を話す例を用いたが、発話者が如何なる言語を話しても上述の各態様を適用することが可能である。例えば、発話者が、日本語以外の英語、フランス語、又は中国語等を話す場合であっても上述の各態様を適用できる。例えば、発話者が英語を話す場合、解析用辞書データ31は、英語の形態素に関するデータであり、感情分類データ33は、英単語を喜び、怒り、及び悲しみの何れかに分類したデータであればよい。
(12) In each of the above aspects, an example in which the speaker speaks Japanese is used, but each of the above aspects can be applied regardless of the language spoken by the speaker. For example, even when the speaker speaks English, French, Chinese, or the like other than Japanese, each of the above aspects can be applied. For example, when the speaker speaks English, the
(13)上述の各態様において、学習モデル実行処理部2532における予め学習した学習モデルは、音の特徴量が入力されると、発話者の感情が、興奮グループGE3と非興奮グループGE4との何れに属するかを示す第2感情グループデータGD2を出力するモデルでもよい。
(13) In each of the above aspects, in the pre-learned learning model in the learning model
(14)上述の各態様において、喜び、怒り、及び悲しみ以外の人が取り得る感情に対しても、感情のグループ分けに従って適用してもよい。例えば、癒しを、ポジティブグループGE1に属し、且つ、非興奮グループGE4に属するとしてもよい。 (14) In each of the above aspects, emotions other than joy, anger, and sadness may be applied according to the grouping of emotions. For example, healing may belong to the positive group GE1 and the non-excited group GE4.
(15)上述した各態様の説明に用いたブロック図は、機能単位のブロックを示している。これらの機能ブロック(構成部)は、ハードウェア及び/又はソフトウェアの任意の組み合わせによって実現される。また、各機能ブロックの実現手段は特に限定されない。すなわち、各機能ブロックは、物理的及び/又は論理的に結合した1つの装置により実現されてもよいし、物理的及び/又は論理的に分離した2つ以上の装置を直接的及び/又は間接的に(例えば、有線及び/又は無線)で接続し、これら複数の装置により実現されてもよい。 (15) The block diagram used in the description of each of the above-described embodiments shows a block of functional units. These functional blocks (components) are realized by any combination of hardware and / or software. Further, the means for realizing each functional block is not particularly limited. That is, each functional block may be realized by one physically and / or logically coupled device, or directly and / or indirectly by two or more physically and / or logically separated devices. (For example, wired and / or wireless) may be connected and realized by these plurality of devices.
(16)上述した各態様における処理手順、シーケンス、フローチャートなどは、矛盾のない限り、順序を入れ替えてもよい。例えば、本明細書で説明した方法については、例示的な順序で様々なステップの要素を提示しており、提示した特定の順序に限定されない。 (16) The order of the processing procedures, sequences, flowcharts, etc. in each of the above-described aspects may be changed as long as there is no contradiction. For example, the methods described herein present elements of various steps in an exemplary order, and are not limited to the particular order presented.
(17)上述した各態様において、入出力された情報等は特定の場所(例えば、メモリ)に保存されてもよいし、管理テーブルで管理してもよい。入出力される情報等は、上書き、更新、又は追記され得る。出力された情報等は削除されてもよい。入力された情報等は他の装置へ送信されてもよい。 (17) In each of the above-described aspects, the input / output information and the like may be stored in a specific place (for example, a memory) or may be managed by a management table. Input / output information and the like can be overwritten, updated, or added. The output information and the like may be deleted. The input information or the like may be transmitted to another device.
(18)上述した各態様において、判定は、1ビットで表される値(0か1か)によって行われてもよいし、真偽値(Boolean:true又はfalse)によって行われてもよいし、数値の比較(例えば、所定の値との比較)によって行われてもよい。 (18) In each of the above-described aspects, the determination may be made by a value represented by 1 bit (0 or 1) or by a boolean value (Boolean: true or false). , May be done by numerical comparison (eg, comparison with a given value).
(19)上述した各態様では、スマートフォン等の可搬型の情報処理装置をユーザ装置1として例示したが、ユーザ装置1の具体的な形態は任意であり、前述の各形態の例示には限定されない。例えば、可搬型又は据置型のパーソナルコンピュータをユーザ装置1として利用してもよい。
(19) In each of the above-described aspects, a portable information processing device such as a smartphone is illustrated as the
(20)上述した各態様では、記憶装置3は、処理装置2が読取可能な記録媒体であり、ROM及びRAMなどを例示したが、フレキシブルディスク、光磁気ディスク(例えば、コンパクトディスク、デジタル多用途ディスク、Blu−ray(登録商標)ディスク)、スマートカード、フラッシュメモリデバイス(例えば、カード、スティック、キードライブ)、CD−ROM(Compact Disc−ROM)、レジスタ、リムーバブルディスク、ハードディスク、フロッピー(登録商標)ディスク、磁気ストリップ、データベース、サーバその他の適切な記憶媒体である。また、プログラムは、ネットワークから送信されても良い。また、プログラムは、電気通信回線を介して通信網から送信されても良い。
(20) In each of the above-described aspects, the
(21)上述した各態様は、LTE(Long Term Evolution)、LTE−A(LTE-Advanced)、SUPER 3G、IMT−Advanced、4G、5G、FRA(Future Radio Access)、W−CDMA(登録商標)、GSM(登録商標)、CDMA2000、UMB(Ultra Mobile Broadband)、IEEE 802.11(Wi−Fi)、IEEE 802.16(WiMAX)、IEEE 802.20、UWB(Ultra-WideBand)、Bluetooth(登録商標)、その他の適切なシステムを利用するシステム及び/又はこれらに基づいて拡張された次世代システムに適用されてもよい。 (21) Each of the above-described aspects includes LTE (Long Term Evolution), LTE-A (LTE-Advanced), SUPER 3G, IMT-Advanced, 4G, 5G, FRA (Future Radio Access), W-CDMA (registered trademark). , GSM (registered trademark), CDMA2000, UMB (Ultra Mobile Broadband), IEEE 802.11 (Wi-Fi), IEEE 802.16 (WiMAX), IEEE 802.20, UWB (Ultra-WideBand), Bluetooth (registered trademark) ), Other systems that utilize suitable systems and / or next-generation systems that are extended based on them.
(22)上述した各態様において、説明した情報及び信号などは、様々な異なる技術の何れかを使用して表されてもよい。例えば、上述の説明全体に渡って言及され得るデータ、命令、コマンド、情報、信号、ビット、シンボル、チップなどは、電圧、電流、電磁波、磁界若しくは磁性粒子、光場若しくは光子、又はこれらの任意の組み合わせによって表されてもよい。
なお、本明細書で説明した用語及び/又は本明細書の理解に必要な用語については、同一の又は類似する意味を有する用語と置き換えてもよい。
(22) In each of the above aspects, the information, signals, etc. described may be represented using any of a variety of different techniques. For example, data, instructions, commands, information, signals, bits, symbols, chips, etc. that may be referred to throughout the above description are voltages, currents, electromagnetic waves, magnetic fields or magnetic particles, light fields or photons, or any of these. It may be represented by a combination of.
In addition, the terms described in the present specification and / or the terms necessary for understanding the present specification may be replaced with terms having the same or similar meanings.
(23)図1、図7、及び、図10に例示された各機能は、ハードウェア及びソフトウェアの任意の組み合わせによって実現される。また、各機能は、単体の装置によって実現されてもよいし、相互に別体で構成された2個以上の装置によって実現されてもよい。 (23) Each of the functions illustrated in FIGS. 1, 7, and 10 is realized by any combination of hardware and software. In addition, each function may be realized by a single device, or may be realized by two or more devices configured as separate bodies from each other.
(24)上述した各実施形態で例示したプログラムは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード又はハードウェア記述言語と呼ばれるか、他の名称によって呼ばれるかを問わず、命令、命令セット、コード、コードセグメント、プログラムコード、サブプログラム、ソフトウェアモジュール、アプリケーション、ソフトウェアアプリケーション、ソフトウェアパッケージ、ルーチン、サブルーチン、オブジェクト、実行可能ファイル、実行スレッド、手順又は機能等を意味するよう広く解釈されるべきである。
また、ソフトウェア、命令などは、伝送媒体を介して送受信されてもよい。例えば、ソフトウェアが、同軸ケーブル、光ファイバケーブル、ツイストペア及びデジタル加入者回線(DSL)などの有線技術及び/又は赤外線、無線及びマイクロ波などの無線技術を使用してウェブサイト、サーバ、又は他のリモートソースから送信される場合、これらの有線技術及び/又は無線技術は、伝送媒体の定義内に含まれる。
(24) The programs exemplified in each of the above-described embodiments are called instructions, instruction sets, codes, code segments regardless of whether they are called software, firmware, middleware, microcode or hardware description language, or by other names. , Program code, subprograms, software modules, applications, software applications, software packages, routines, subroutines, objects, executables, execution threads, procedures or functions, etc. should be broadly interpreted to mean.
Further, software, instructions, and the like may be transmitted and received via a transmission medium. For example, the software uses wired technology such as coaxial cable, fiber optic cable, twist pair and digital subscriber line (DSL) and / or wireless technology such as infrared, wireless and microwave to websites, servers, or other When transmitted from a remote source, these wired and / or wireless technologies are included within the definition of transmission medium.
(25)上述した各実施形態において、情報、パラメータなどは、絶対値で表されてもよいし、所定の値からの相対値で表されてもよいし、対応する別の情報で表されてもよい。 (25) In each of the above-described embodiments, the information, parameters, etc. may be represented by absolute values, relative values from a predetermined value, or other corresponding information. May be good.
(26)上述したパラメータに使用する名称はいかなる点においても限定的なものではない。さらに、これらのパラメータを使用する数式等は、本明細書で明示的に開示したものと異なる場合もある。 (26) The names used for the above-mentioned parameters are not limited in any respect. Further, mathematical formulas and the like using these parameters may differ from those expressly disclosed herein.
(27)上述した各実施形態において、ユーザ装置1は、移動局である場合が含まれる。移動局は、当業者によって、加入者局、モバイルユニット、加入者ユニット、ワイヤレスユニット、リモートユニット、モバイルデバイス、ワイヤレスデバイス、ワイヤレス通信デバイス、リモートデバイス、モバイル加入者局、アクセス端末、モバイル端末、ワイヤレス端末、リモート端末、ハンドセット、ユーザエージェント、モバイルクライアント、クライアント、又はいくつかの他の適切な用語で呼ばれる場合もある。
(27) In each of the above-described embodiments, the
(28)上述した各実施形態において、「に基づいて」という記載は、別段に明記されていない限り、「のみに基づいて」を意味しない。言い換えれば、「に基づいて」という記載は、「のみに基づいて」と「に少なくとも基づいて」の両方を意味する。 (28) In each of the above embodiments, the phrase "based on" does not mean "based on" unless otherwise stated. In other words, the statement "based on" means both "based only" and "at least based on".
(29)本明細書で使用する「第1」、「第2」などの呼称を使用した要素へのいかなる参照も、それらの要素の量又は順序を全般的に限定するものではない。これらの呼称は、2つ以上の要素間を区別する便利な方法として本明細書で使用され得る。従って、第1及び第2の要素への参照は、2つの要素のみがそこで採用され得ること、又は何らかの形で第1の要素が第2の要素に先行しなければならないことを意味しない。 (29) Any reference to elements using designations such as "first", "second" as used herein does not generally limit the quantity or order of those elements. These designations can be used herein as a convenient way to distinguish between two or more elements. Thus, references to the first and second elements do not mean that only two elements can be adopted there, or that the first element must somehow precede the second element.
(30)上述した各実施形態において「含む(including)」、「含んでいる(comprising)」、及びそれらの変形が、本明細書あるいは特許請求の範囲で使用されている限り、これら用語は、用語「備える」と同様に、包括的であることが意図される。さらに、本明細書あるいは特許請求の範囲において使用されている用語「又は(or)」は、排他的論理和ではないことが意図される。 (30) As long as "inclusion," "comprising," and variations thereof in each of the embodiments described above are used herein or within the scope of the claims, these terms are used. As with the term "prepare", it is intended to be comprehensive. Furthermore, the term "or" as used herein or in the claims is intended not to be an exclusive OR.
(31)本願の全体において、例えば、英語におけるa、an及びtheのように、翻訳によって冠詞が追加された場合、これらの冠詞は、文脈から明らかにそうではないことが示されていなければ、複数を含む。 (31) In the whole of the present application, if articles are added by translation, for example, a, an and the in English, unless the context clearly indicates that these articles are not. Including multiple.
(32)本発明が本明細書中に説明した実施形態に限定されないことは当業者にとって明白である。本発明は、特許請求の範囲の記載に基づいて定まる本発明の趣旨及び範囲を逸脱することなく修正及び変更態様として実施できる。従って、本明細書の記載は、例示的な説明を目的とし、本発明に対して何ら制限的な意味を有さない。また、本明細書に例示した態様から選択された複数の態様を組み合わせてもよい。 (32) It will be apparent to those skilled in the art that the present invention is not limited to the embodiments described herein. The present invention can be implemented as modifications and modifications without departing from the gist and scope of the present invention, which is determined based on the description of the scope of claims. Therefore, the description herein is for illustrative purposes and has no limiting implications for the present invention. In addition, a plurality of aspects selected from the aspects illustrated in the present specification may be combined.
1,1a,1c…ユーザ装置、8…集音装置、21、21C…取得部、22…送信部、25、25a…推定部、26…出力部、251…音声認識処理部、252…第1推定部、253…第2推定部、254、254a…感情推定部、ED…感情データ、GE1…ポジティブグループ、GE2…ネガティブグループ、GE3…興奮グループ、GE4…非興奮グループ、SD…認識文字列、VD…音声データ。 1,1a, 1c ... user device, 8 ... sound collector, 21, 21C ... acquisition unit, 22 ... transmission unit, 25, 25a ... estimation unit, 26 ... output unit, 251 ... voice recognition processing unit, 252 ... first Estimating unit, 253 ... 2nd estimation unit, 254, 254a ... Emotion estimation unit, ED ... Emotion data, GE1 ... Positive group, GE2 ... Negative group, GE3 ... Excitement group, GE4 ... Non-excitement group, SD ... Recognition character string, VD ... Voice data.
Claims (8)
前記音声データに音声認識処理を施して得られた認識文字列に基づいて、前記発話者の感情が、肯定的な感情が属する第1グループと、否定的な感情が属する第2グループとの何れに属するかを推定する第1推定部と、
前記音声データが示す音の特徴量に基づいて、前記発話者の感情が、興奮時の感情が属する第3グループと、興奮時ではない感情が属する第4グループとの何れに属するかを推定する第2推定部と、
前記第1推定部の推定結果と前記第2推定部の推定結果とに基づいて、前記発話者の感情を推定する感情推定部と、
を備える感情推定装置。 An acquisition unit that acquires voice data indicating sounds including the speaker's voice, and
Based on the recognition character string obtained by subjecting the voice data to voice recognition processing, the speaker's emotions are either the first group to which the positive emotions belong or the second group to which the negative emotions belong. The first estimation part that estimates whether it belongs to
Based on the sound features indicated by the voice data, it is estimated whether the speaker's emotion belongs to the third group to which the emotion during excitement belongs or the fourth group to which the emotion not during excitement belongs. The second estimation part and
An emotion estimation unit that estimates the emotion of the speaker based on the estimation result of the first estimation unit and the estimation result of the second estimation unit.
Emotion estimator equipped with.
前記発話者の感情が前記第1グループに属することを前記第1推定部の推定結果が示す場合、前記発話者の感情が喜びであると推定し、
前記発話者の感情が前記第2グループに属することを前記第1推定部の推定結果が示し、且つ、前記発話者の感情が前記第3グループに属することを前記第2推定部の推定結果が示す場合、前記発話者の感情が怒りであると推定し、
前記発話者の感情が前記第2グループに属することを前記第1推定部の推定結果が示し、且つ、前記発話者の感情が前記第4グループに属することを前記第2推定部の推定結果が示す場合、前記発話者の感情が悲しみであると推定する、
請求項1に記載の感情推定装置。 The emotion estimation unit
When the estimation result of the first estimation unit indicates that the emotion of the speaker belongs to the first group, it is estimated that the emotion of the speaker is joy.
The estimation result of the first estimation unit indicates that the emotion of the speaker belongs to the second group, and the estimation result of the second estimation unit indicates that the emotion of the speaker belongs to the third group. If shown, it is presumed that the speaker's emotions are anger,
The estimation result of the first estimation unit indicates that the emotion of the speaker belongs to the second group, and the estimation result of the second estimation unit indicates that the emotion of the speaker belongs to the fourth group. When indicated, the emotion of the speaker is presumed to be sadness,
The emotion estimation device according to claim 1.
前記発話者の感情が前記第4グループに属することを前記第2推定部の推定結果が示す場合、前記発話者の感情が悲しみであると推定し、
前記発話者の感情が前記第3グループに属することを前記第2推定部の推定結果が示し、且つ、前記発話者の感情が前記第1グループに属することを前記第1推定部の推定結果が示す場合、前記発話者の感情が喜びであると推定し、
前記発話者の感情が前記第3グループに属することを前記第2推定部の推定結果が示し、且つ、前記発話者の感情が前記第2グループに属することを前記第1推定部の推定結果が示す場合、前記発話者の感情が怒りであると推定する、
請求項1に記載の感情推定装置。 The emotion estimation unit
When the estimation result of the second estimation unit indicates that the emotion of the speaker belongs to the fourth group, it is estimated that the emotion of the speaker is sadness.
The estimation result of the second estimation unit indicates that the emotion of the speaker belongs to the third group, and the estimation result of the first estimation unit indicates that the emotion of the speaker belongs to the first group. When showing, it is presumed that the speaker's emotions are joy, and
The estimation result of the second estimation unit indicates that the emotion of the speaker belongs to the third group, and the estimation result of the first estimation unit indicates that the emotion of the speaker belongs to the second group. When indicated, it is presumed that the speaker's emotions are anger.
The emotion estimation device according to claim 1.
前記発話者の感情が前記第3グループに属することを前記第2推定部の推定結果が示す場合、文字列を、喜び、怒り、及び悲しみの何れかに分類した感情分類データを参照して、前記感情分類データに含まれる喜び又は怒りの文字列を、前記認識文字列と比較することにより、前記発話者の感情が、前記第1グループと前記第2グループとの何れに属するかを推定する、
請求項3に記載の感情推定装置。 The first estimation unit
When the estimation result of the second estimation unit indicates that the emotion of the speaker belongs to the third group, the emotion classification data for classifying the character string into any of joy, anger, and sadness is referred to. By comparing the character string of joy or anger included in the emotion classification data with the recognition character string, it is estimated whether the emotion of the speaker belongs to the first group or the second group. ,
The emotion estimation device according to claim 3.
前記発話者の感情が前記第1グループに属することを前記第1推定部の推定結果が示し、且つ、前記発話者の感情が前記第4グループに属することを前記第2推定部の推定結果が示す場合、推定不能と決定する、
請求項1に記載の感情推定装置。 The emotion estimation unit
The estimation result of the first estimation unit indicates that the emotion of the speaker belongs to the first group, and the estimation result of the second estimation unit indicates that the emotion of the speaker belongs to the fourth group. If indicated, determine that it cannot be estimated,
The emotion estimation device according to claim 1.
前記出力部は、前記感情推定部が推定不能であると決定した場合、前記認識文字列に対して喜びを具象化した図形を付加する処理を施して得られる図形付き文字列と、前記認識文字列に対して悲しみを具象化した図形を付加した処理を施して得られる図形付き文字列とのうち少なくとも1つの図形付き文字列を出力する、
請求項5に記載の感情推定装置。 It is provided with an output unit that performs a process of adding a figure that embodies the emotion estimated by the emotion estimation unit to the recognition character string.
When the emotion estimation unit determines that the emotion estimation unit cannot estimate, the output unit includes a graphic character string obtained by adding a graphic that embodies joy to the recognition character string, and the recognition character. Outputs at least one graphic character string out of the graphic character string obtained by adding a graphic that embodies sadness to the column.
The emotion estimation device according to claim 5.
前記端末装置は、
前記発話者の音声を含む音を集音する集音部と、
前記発話者の音声を含む音を示す前記音声データを、前記感情推定装置に送信する送信部と、
前記感情推定装置から、前記認識文字列と、前記感情推定部が推定した前記発話者の感情を示す感情データとを受信する受信部と、
前記認識文字列に対して、前記感情データが示す感情に応じた処理を施して得られるデータを出力する出力部と、
を備える感情推定システム。 An emotion estimation system including the emotion estimation device according to any one of claims 1 to 5 and a terminal device capable of communicating with the emotion estimation device.
The terminal device is
A sound collecting unit that collects sounds including the voice of the speaker, and
A transmission unit that transmits the voice data indicating a sound including the voice of the speaker to the emotion estimation device, and
A receiving unit that receives the recognition character string and emotion data indicating the emotion of the speaker estimated by the emotion estimation unit from the emotion estimation device.
An output unit that outputs data obtained by processing the recognition character string according to the emotion indicated by the emotion data, and
Emotion estimation system with.
前記音声データに音声認識処理を施して得られた認識文字列に基づいて、前記発話者の感情が、肯定的な感情が属する第1グループと、否定的な感情が属する第2グループとの何れに属するかを推定し、
前記音声データが示す音の特徴量に基づいて、前記発話者の感情が、興奮時の感情が属する第3グループと、興奮時ではない感情が属する第4グループとの何れに属するかを推定し、
前記発話者の感情が前記第1グループと前記第2グループとの何れに属するかを示す推定結果と、前記発話者の感情が前記第3グループと前記第4グループとの何れに属するかを示す推定結果とに基づいて、前記発話者の感情を推定する、
処理をコンピュータが実行する感情推定方法。 Acquires voice data indicating the sound including the speaker's voice,
Based on the recognition character string obtained by subjecting the voice data to voice recognition processing, the speaker's emotions are either the first group to which the positive emotions belong or the second group to which the negative emotions belong. Estimate whether it belongs to
Based on the sound features indicated by the voice data, it is estimated whether the speaker's emotion belongs to the third group to which the emotion during excitement belongs or the fourth group to which the emotion not during excitement belongs. ,
An estimation result indicating whether the speaker's emotion belongs to the first group or the second group, and whether the speaker's emotion belongs to the third group or the fourth group are shown. The emotion of the speaker is estimated based on the estimation result.
An emotion estimation method in which a computer performs processing.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019091864A JP6782329B1 (en) | 2019-05-15 | 2019-05-15 | Emotion estimation device, emotion estimation system, and emotion estimation method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019091864A JP6782329B1 (en) | 2019-05-15 | 2019-05-15 | Emotion estimation device, emotion estimation system, and emotion estimation method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6782329B1 JP6782329B1 (en) | 2020-11-11 |
JP2020187262A true JP2020187262A (en) | 2020-11-19 |
Family
ID=73043496
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019091864A Active JP6782329B1 (en) | 2019-05-15 | 2019-05-15 | Emotion estimation device, emotion estimation system, and emotion estimation method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6782329B1 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023175842A1 (en) * | 2022-03-17 | 2023-09-21 | 日本電気株式会社 | Sound classification device, sound classification method, and computer-readable recording medium |
JP7453169B2 (en) | 2021-02-24 | 2024-03-19 | Kddi株式会社 | Model, device, and method for estimating emotions through emotion type group identification |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005091463A (en) * | 2003-09-12 | 2005-04-07 | Toshiba Corp | Information processing device |
JP2006071936A (en) * | 2004-09-01 | 2006-03-16 | Matsushita Electric Works Ltd | Dialogue agent |
JP2016024631A (en) * | 2014-07-18 | 2016-02-08 | ヤフー株式会社 | Presentation device, presentation method, and presentation program |
JP2017156854A (en) * | 2016-02-29 | 2017-09-07 | Kddi株式会社 | Speech semantic analysis program, apparatus and method for improving comprehension accuracy of context semantic through emotion classification |
JP2018068618A (en) * | 2016-10-28 | 2018-05-10 | 株式会社東芝 | Emotion estimating device, emotion estimating method, emotion estimating program, and emotion counting system |
US20180137432A1 (en) * | 2016-11-16 | 2018-05-17 | International Business Machines Corporation | Predicting personality traits based on text-speech hybrid data |
-
2019
- 2019-05-15 JP JP2019091864A patent/JP6782329B1/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005091463A (en) * | 2003-09-12 | 2005-04-07 | Toshiba Corp | Information processing device |
JP2006071936A (en) * | 2004-09-01 | 2006-03-16 | Matsushita Electric Works Ltd | Dialogue agent |
JP2016024631A (en) * | 2014-07-18 | 2016-02-08 | ヤフー株式会社 | Presentation device, presentation method, and presentation program |
JP2017156854A (en) * | 2016-02-29 | 2017-09-07 | Kddi株式会社 | Speech semantic analysis program, apparatus and method for improving comprehension accuracy of context semantic through emotion classification |
JP2018068618A (en) * | 2016-10-28 | 2018-05-10 | 株式会社東芝 | Emotion estimating device, emotion estimating method, emotion estimating program, and emotion counting system |
US20180137432A1 (en) * | 2016-11-16 | 2018-05-17 | International Business Machines Corporation | Predicting personality traits based on text-speech hybrid data |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7453169B2 (en) | 2021-02-24 | 2024-03-19 | Kddi株式会社 | Model, device, and method for estimating emotions through emotion type group identification |
WO2023175842A1 (en) * | 2022-03-17 | 2023-09-21 | 日本電気株式会社 | Sound classification device, sound classification method, and computer-readable recording medium |
Also Published As
Publication number | Publication date |
---|---|
JP6782329B1 (en) | 2020-11-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10614803B2 (en) | Wake-on-voice method, terminal and storage medium | |
US9396724B2 (en) | Method and apparatus for building a language model | |
US9229924B2 (en) | Word detection and domain dictionary recommendation | |
US20180143965A1 (en) | Trained data input system | |
US20240021202A1 (en) | Method and apparatus for recognizing voice, electronic device and medium | |
WO2014190732A1 (en) | Method and apparatus for building a language model | |
WO2020253128A1 (en) | Voice recognition-based communication service method, apparatus, computer device, and storage medium | |
CN108804427B (en) | Voice machine translation method and device | |
US20180277145A1 (en) | Information processing apparatus for executing emotion recognition | |
JP6782329B1 (en) | Emotion estimation device, emotion estimation system, and emotion estimation method | |
KR20200084260A (en) | Electronic apparatus and controlling method thereof | |
US11893813B2 (en) | Electronic device and control method therefor | |
CN112910761B (en) | Instant messaging method, device, equipment, storage medium and program product | |
CN110728983A (en) | Information display method, device, equipment and readable storage medium | |
Xue | A novel english speech recognition approach based on hidden Markov model | |
US10282417B2 (en) | Conversational list management | |
KR102464156B1 (en) | Call center service providing apparatus, method, and program for matching a user and an agent vasded on the user`s status and the agent`s status | |
US20220122596A1 (en) | Method and system of automatic context-bound domain-specific speech recognition | |
KR20200082232A (en) | Apparatus for analysis of emotion between users, interactive agent system using the same, terminal apparatus for analysis of emotion between users and method of the same | |
JP7348818B2 (en) | dialogue device | |
KR20190133325A (en) | Speech recognition method and apparatus | |
CN114049875A (en) | TTS (text to speech) broadcasting method, device, equipment and storage medium | |
US20210398544A1 (en) | Electronic device and control method thereof | |
JP7379788B2 (en) | Emotion estimation device and emotion estimation system | |
CN106896936A (en) | Vocabulary method for pushing and device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190515 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7426 Effective date: 20190617 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20190617 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200707 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20200727 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200904 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20201006 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20201019 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6782329 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |