JP2020201334A - Emotion estimation device and emotion estimation system - Google Patents
Emotion estimation device and emotion estimation system Download PDFInfo
- Publication number
- JP2020201334A JP2020201334A JP2019106848A JP2019106848A JP2020201334A JP 2020201334 A JP2020201334 A JP 2020201334A JP 2019106848 A JP2019106848 A JP 2019106848A JP 2019106848 A JP2019106848 A JP 2019106848A JP 2020201334 A JP2020201334 A JP 2020201334A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- user
- information
- emotion
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 631
- 238000011156 evaluation Methods 0.000 claims abstract description 240
- 238000012937 correction Methods 0.000 claims abstract description 100
- 238000000034 method Methods 0.000 claims description 58
- 238000004891 communication Methods 0.000 claims description 44
- 230000002996 emotional effect Effects 0.000 claims description 7
- 241000282412 Homo Species 0.000 claims description 4
- 238000012545 processing Methods 0.000 description 122
- 230000006870 function Effects 0.000 description 58
- 238000004458 analytical method Methods 0.000 description 38
- 238000010586 diagram Methods 0.000 description 38
- 238000004364 calculation method Methods 0.000 description 19
- 230000000877 morphologic effect Effects 0.000 description 18
- 230000000694 effects Effects 0.000 description 7
- 238000012986 modification Methods 0.000 description 7
- 230000004048 modification Effects 0.000 description 7
- 239000000284 extract Substances 0.000 description 6
- 206010011469 Crying Diseases 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 230000003247 decreasing effect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 101100112083 Arabidopsis thaliana CRT1 gene Proteins 0.000 description 2
- 101100238301 Arabidopsis thaliana MORC1 gene Proteins 0.000 description 2
- 101000741289 Homo sapiens Calreticulin-3 Proteins 0.000 description 2
- 101000969621 Homo sapiens Monocarboxylate transporter 12 Proteins 0.000 description 2
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 2
- 102100021444 Monocarboxylate transporter 12 Human genes 0.000 description 2
- 101100519629 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) PEX2 gene Proteins 0.000 description 2
- 101100468521 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) RFX1 gene Proteins 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000005401 electroluminescence Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 239000000945 filler Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 239000006249 magnetic particle Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Landscapes
- User Interface Of Digital Computer (AREA)
Abstract
Description
本発明は、感情推定装置、及び、感情推定システムに関する。 The present invention relates to an emotion estimation device and an emotion estimation system.
近年、喜び、怒り及び悲しみ等の感情を推定するサービスが普及している。例えば、特許文献1には、ユーザの音声を示す音声情報に基づいて、ユーザが抱く感情を推定する感情推定装置が開示されている。この感情推定装置は、ある一人のユーザによって入力された複数回の音声情報から、音声認識を行うこのユーザ個人の固有データである、周波数、音量、及び、速度といった複数の特徴量のそれぞれの平均値及び標準偏差を予め算出する。そして、この感情推定装置は、このユーザが抱く感情を推定する際に入力された音声情報の特徴量を、予め算出した平均値及び標準偏差を用いて正規化し、正規化した複数の特徴量に基づいてこのユーザが抱く感情を推定する。
In recent years, services for estimating emotions such as joy, anger, and sadness have become widespread. For example,
しかしながら、上述した従来の技術を、音声情報に基づく複数の特徴量と感情との関係を学習済みの学習モデルを用いて、ユーザが抱く感情を推定する装置に適用する場合、学習モデルをユーザごとに用意する必要があった。多数のユーザの音声情報を教師データとして学習済みの汎用的な学習モデルを利用すると、多数のユーザの平均的な音声の特徴とユーザの音声の特徴との差分が吸収されないため、ユーザが抱く感情を精度良く推定することができなかった。 However, when the above-mentioned conventional technique is applied to a device for estimating emotions held by a user by using a learning model in which the relationship between a plurality of features based on voice information and emotions has been learned, the learning model is applied to each user. I had to prepare for it. When a general-purpose learning model that has been trained using the voice information of many users as teacher data is used, the difference between the average voice characteristics of many users and the voice characteristics of users is not absorbed, so that the emotions that the users have. Could not be estimated accurately.
本発明の好適な態様にかかる感情推定装置は、人間の音声に応じた複数の特徴量と当該音声を発した人間が抱く複数の感情の各々に対する強度との関係を複数の人間について学習済みの学習モデルに対して、ユーザの音声を示す音声情報に基づく複数の特徴量を入力し、前記ユーザが抱く前記複数の感情の各々に対する強度を示す音声評価値を含む音声感情情報を前記学習モデルから取得する音声評価部と、前記ユーザの音声の特徴に基づく補正情報を用いて前記音声感情情報を補正した補正感情情報を生成する補正部と、前記補正感情情報に基づいて、前記複数の感情の中から前記ユーザが抱く1以上の感情を推定する推定部と、を備える。 In the emotion estimation device according to the preferred embodiment of the present invention, the relationship between a plurality of feature quantities corresponding to a human voice and the intensity of each of the plurality of emotions held by the human who emits the voice has been learned for a plurality of humans. A plurality of feature quantities based on the voice information indicating the user's voice are input to the learning model, and voice emotion information including a voice evaluation value indicating the intensity of each of the plurality of emotions held by the user is obtained from the learning model. A voice evaluation unit to be acquired, a correction unit that generates corrected emotion information obtained by correcting the voice emotion information using correction information based on the characteristics of the user's voice, and a correction unit of the plurality of emotions based on the corrected emotion information. It includes an estimation unit that estimates one or more emotions held by the user from the inside.
本発明の好適な態様にかかる感情推定システムは、サーバ装置と、前記サーバ装置と通信可能な端末装置とを備える感情推定システムであって、前記サーバ装置は、ユーザの音声を含む音を示す音情報を受信する第1通信装置と、前記音情報が示す音からノイズを除去して、前記ユーザの音声を示す音声情報を生成するノイズ除去部と、前記人間の音声に応じた複数の特徴量と当該音声を発した人間が抱く複数の感情の各々に対する強度との関係を複数の人間について学習済みの学習モデルに対して、前記音声情報に基づく複数の特徴量を入力し、前記ユーザの抱く前記複数の感情の各々に対する強度を示す音声評価値を含む音声感情情報を前記学習モデルから取得する音声評価部と、人間が発した音声の発話内容を認識する音声認識処理を、前記音情報に対して実行し、前記音声認識処理の認識結果を示す認識文字列に基づいて、前記ユーザが抱く前記複数の感情の各々に対する強度を示す文字評価値を含む文字感情情報を生成する文字評価部とを備え、前記第1通信装置は、前記文字感情情報と前記音声感情情報とを前記端末装置に送信し、前記端末装置は、前記ユーザの音声を含む音を集音する集音装置と、前記集音装置が出力する前記音情報を前記サーバ装置に送信し、前記文字感情情報と前記音声感情情報とを前記サーバ装置から受信する第2通信装置と、前記ユーザの音声の特徴に基づく補正情報を用いて前記音声感情情報を補正した補正感情情報を生成する補正部と、前記補正感情情報と前記文字感情情報とに基づいて、前記ユーザが抱く1以上の感情を推定する推定部とを備える。 The emotion estimation system according to a preferred embodiment of the present invention is an emotion estimation system including a server device and a terminal device capable of communicating with the server device, and the server device is a sound indicating a sound including a user's voice. A first communication device that receives information, a noise removing unit that removes noise from the sound indicated by the sound information to generate audio information indicating the user's voice, and a plurality of feature quantities corresponding to the human voice. And the relationship between the intensity of each of the plurality of emotions held by the person who emitted the sound and the intensity of each of the plurality of emotions held by the user. The sound information includes a voice evaluation unit that acquires voice emotion information including a voice evaluation value indicating the intensity of each of the plurality of emotions from the learning model, and a voice recognition process that recognizes the utterance content of a human-generated sound. A character evaluation unit that executes the sound recognition process and generates character emotion information including a character evaluation value indicating the intensity of each of the plurality of emotions held by the user based on the recognition character string indicating the recognition result of the voice recognition process. The first communication device transmits the character emotion information and the voice emotion information to the terminal device, and the terminal device collects sounds including the user's voice, and the sound collecting device. A second communication device that transmits the sound information output by the sound collecting device to the server device and receives the character emotion information and the voice emotion information from the server device, and correction information based on the characteristics of the user's voice. It is provided with a correction unit that generates corrected emotion information that corrects the voice emotion information using the above, and an estimation unit that estimates one or more emotions held by the user based on the corrected emotion information and the character emotion information. ..
本発明によれば、複数の人間の音声情報を教師データとして学習済みの学習モデルを利用する場合であっても、ユーザが抱く感情を高精度に推定できる。 According to the present invention, even when a learned learning model using a plurality of human voice information as teacher data is used, the emotions held by the user can be estimated with high accuracy.
1.第1実施形態
図1は、ユーザ装置1の機能の概要を示す図である。ユーザ装置1は、スマートフォンを想定する。ユーザ装置1が、「感情推定装置」の一例である。ただし、ユーザ装置1としては、任意の情報処理装置を採用することができ、例えば、パーソナルコンピュータ等の端末型の情報機器であってもよいし、ノートパソコン、ウェアラブル端末及びタブレット端末等の可搬型の情報端末であってもよい。
1. 1. 1st Embodiment FIG. 1 is a diagram showing an outline of a function of a
ユーザ装置1は、ユーザ装置1を所持するユーザUの音声を含む音を示す音情報に対して音声認識処理を実行して得られた認識文字列を、他者が利用する装置に送信する機能、又は、ユーザUの付近に位置する他者に聞かせるために、認識文字列を示す音を放音する機能を有する。さらに、ユーザ装置1は、ユーザUの音声に基づいてユーザUが抱く感情を推定し、認識文字列に対して、推定した感情に応じた図形を認識文字列に付加する、又は、推定した感情に応じた抑揚で認識文字列を示す音を放音することにより、コミュニケーションに必要な感情表現を付加できる。
図1の例では、ユーザUが「こんにちは」と発声し、ユーザ装置1が、推定した感情に応じた図形PIを付加している。
The
In the example of FIG. 1, a user U is say "Hello", the
図2は、第1実施形態にかかるユーザ装置1の構成を示すブロック図である。ユーザ装置1は、処理装置2、記憶装置3、表示装置4、操作装置5、通信装置6、放音装置7、及び、集音装置8を具備するコンピュータシステムにより実現される。ユーザ装置1の各要素は、情報を通信するための単体又は複数のバス9で相互に接続される。なお、本明細書における「装置」という用語は、回路、デバイス又はユニット等の他の用語に読替えてもよい。また、ユーザ装置1の各要素は、単数又は複数の機器で構成され、ユーザ装置1の一部の要素は省略されてもよい。
FIG. 2 is a block diagram showing a configuration of the
処理装置2は、ユーザ装置1の全体を制御するプロセッサであり、例えば、単数又は複数のチップで構成される。処理装置2は、例えば、周辺装置とのインタフェース、演算装置及びレジスタ等を含む中央処理装置(CPU:Central Processing Unit)で構成される。なお、処理装置2の機能の一部又は全部を、DSP(Digital Signal Processor)、ASIC(Application Specific Integrated Circuit)、PLD(Programmable Logic Device)、FPGA(Field Programmable Gate Array)等のハードウェアによって実現してもよい。処理装置2は、各種の処理を並列的又は逐次的に実行する。
The
記憶装置3は、処理装置2が読取可能な記録媒体であり、処理装置2が実行する制御プログラムPRを含む複数のプログラム、解析用辞書情報31、感情分類情報33、及び、学習モデルLMを記憶する。記憶装置3は、例えば、ROM(Read Only Memory)、EPROM(Erasable Programmable ROM)、EEPROM(Electrically Erasable Programmable ROM)、RAM(Random Access Memory)等の記憶回路の1種類以上で構成される。
The
図3は、解析用辞書情報31の記憶内容の一例を示す図である。解析用辞書情報31は、形態素ごとに、品詞、品詞細分類、及び、原形情報を互いに対応付けた情報である。形態素は、意味を有する表現要素の最小単位の文字列である。品詞は、文法的性質によって分類された単語の種別であり、名詞、動詞、及び形容詞等である。品詞細分類は、品詞をさらに細分類した項目である。原形情報は、該当の形態素が活用する単語である場合、単語の原形を示す文字列であり、該当の形態素が活用しない単語である場合、該当の形態素と同一の文字列である。
FIG. 3 is a diagram showing an example of the stored contents of the
図4は、感情分類情報33の記憶内容の一例を示す図である。感情分類情報33は、文字列を、喜び、怒り、悲しみ、及び、平常の何れかに分類した情報である。感情分類情報33に登録される文字列は、喜び、怒り、悲しみ、又は、平常のうちのいずれかの感情を表す。図4の例では、喜びに分類された文字列群331は、「嬉しい」、「合格」、「勝つ」、及び、「勝っ」等を含む。同様に、怒りに分類された文字列群332は、「イライラ」、及び、「むかっ腹」等を含む。同様に、悲しみに分類された文字列群333は、「悲しい」、及び、「敗ける」等を含む。同様に、平常に分類された文字列群334は、「安心」等を含む。
FIG. 4 is a diagram showing an example of the stored contents of the
説明を図2に戻す。学習モデルLMは、人間の音声に応じた複数の特徴量と、複数の感情の各々に対する強度との関係を学習済みである。 The explanation is returned to FIG. The learning model LM has learned the relationship between a plurality of features corresponding to human voice and the intensity of each of the plurality of emotions.
表示装置4は、処理装置2による制御のもとで各種の画像を表示する。例えば液晶表示パネル、又は有機EL(Electro Luminescence)表示パネル等の各種の表示パネルが表示装置4として好適に利用される。
The
操作装置5は、ユーザ装置1が使用する情報を入力するための機器である。操作装置5は、ユーザUによる操作を受け付ける。具体的には、操作装置5は、数字及び文字等の符号を入力するための操作と、表示装置4が表示するアイコンを選択するための操作とを受け付ける。例えば、表示装置4の表示面に対する接触を検出するタッチパネルが操作装置5として好適である。なお、利用者が操作可能な操作子を操作装置5が含んでもよい。操作子は、例えば、タッチペンである。
The
通信装置6は、ネットワークを介して他の装置と通信を行うためのハードウェア(送受信デバイス)である。通信装置6は、例えば、ネットワークデバイス、ネットワークコントローラ、ネットワークカード、通信モジュール等とも呼ばれる。
The
放音装置7は、例えばスピーカで構成され、処理装置2による制御のもとで、音を放音する。集音装置8は、例えばマイクロフォン及びAD変換器で構成され、処理装置2による制御のもとで、ユーザUの音声を含む音を集音する。マイクロフォンは、集音した音声を電気信号に変換する。AD変換器は、マイクロフォンが変換した電気信号をAD変換して、図5に示す音情報SIに変換する。音情報SIが示す音には、発話者の音声に加えて、発話者の周囲から発せられた雑音が含まれ得る。
The
1.1.第1実施形態の機能
処理装置2は、記憶装置3から制御プログラムPRを読み取り実行することによって、取得部21、感情推定部25、及び、出力部26として機能する。
図5を用いて、処理装置2によって実現される機能について説明する。
1.1. The
The function realized by the
図5は、ユーザ装置1の機能の概要を示す図である。取得部21は、ユーザUの音声を含む音を集音する集音装置8が出力する音情報SIを取得する。感情推定部25は、ユーザUが抱く複数の感情の中から、ユーザUが抱く1以上の感情を推定する。第1実施形態において、ユーザUが抱く複数の感情は、喜び、怒り、悲しみ、及び、平常の4つであるとして説明する。以下、喜び、怒り、悲しみ、及び、平常は複数の感情の一例である。
FIG. 5 is a diagram showing an outline of the functions of the
感情推定部25は、ノイズ除去部251、音声評価部252、補正部253、文字評価部256、及び、推定部258を含む。
The
ノイズ除去部251は、音情報SIが示す音からノイズを除去して音声情報VIを生成する。ノイズ除去部251には、例えば、第1パラメータP1と第2パラメータP2とが与えられる。第1パラメータP1は、ノイズとみなす周波数帯を指定する。第2パラメータP2はノイズとみなす振幅成分の大きさを指定する。ノイズ除去部251は、第1処理から第4処理を実行する。第1処理では、音情報SIに高速フーリエ変換処理を施すことによって、複数の周波数帯の各々について振幅成分を算出する。第2処理では、第1パラメータP1で指定される周波数帯の振幅成分を低減させる。人間の音声の周波数は、概ね100Hz以上2000Hz以下である。第1パラメータP1は、下限の周波数と上限の周波数を指定する。このため、ノイズ除去部251が第1パラメータP1を用いることによって、下限の周波数以下の周波数帯において、振幅成分が低減され、且つ、下限の周波数以上の周波数帯において、振幅成分が低減される。第3処理は、第2パラメータP2で指定される大きさ以下の振幅成分を低減させる。第4処理では、第3処理の処理結果に逆フーリエ変換処理を施して、音声情報VIを生成する。音声情報VIは、音情報SIから環境ノイズなどが除去されたユーザUの音声を示す。
The
音声評価部252は、学習モデルLMに対して、音声情報VIに基づく複数の特徴量を入力し、複数の感情の各々に対する強度を示す音声評価値xを含む音声感情情報VEを学習モデルLMから取得する。
学習モデルLMは、人間の音声に応じた複数の特徴量と当該音声を発した人間が抱く複数の感情の各々に対する強度との関係を複数の人間について学習済みである。学習モデルLMは、学習の過程において、多数の教師データを学習する。教師データは、入力データである複数の特徴量と、ラベルデータである複数の感情の各々に対する強度との組で与えられる。また、教師データは、多数のユーザの音声情報VIに基づいて生成される。言い換えれば、学習モデルLMは、特定の個人向けに調整されていない、汎用的なモデルである。
複数の特徴量は、音の特徴量であり、例えば、MFCC(Mel-Frequency Cepstrum Coefficients)12次元、ラウドネス、基本周波数(F0)、音声確率、ゼロ交差率、HNR(Harmonics-to-Noise-Ratio)、及びこれらの一次微分、MFCC及びラウドネスの二次微分の計47個である。ラウドネスは、音の大きさであり、人間の聴覚が感じる音の強さを示す。音声確率は、音声情報VIが示す音に音声が含まれる確率を示す。ゼロ交差率は、音圧がゼロとなった回数である。
音声評価部252は、音声情報VIに音の特徴を抽出する処理を施して複数の特徴量を生成する。
The
In the learning model LM, the relationship between a plurality of features corresponding to a human voice and the intensity of each of the plurality of emotions held by the person who emits the voice has been learned for the plurality of humans. The learning model LM learns a large amount of teacher data in the learning process. The teacher data is given as a set of a plurality of features which are input data and an intensity for each of a plurality of emotions which are label data. Further, the teacher data is generated based on the voice information VI of a large number of users. In other words, the learning model LM is a general purpose model that is not tailored to a particular individual.
The plurality of features are sound features, for example, MFCC (Mel-Frequency Cepstrum Coefficients) 12-dimensional, loudness, fundamental frequency (F0), voice probability, zero crossover rate, HNR (Harmonics-to-Noise-Ratio). ), And these first-order differentials, MFCC and loudness second-order differentials, for a total of 47. Loudness is the loudness of a sound, which indicates the intensity of the sound felt by human hearing. The voice probability indicates the probability that the sound indicated by the voice information VI includes voice. The zero crossing rate is the number of times the sound pressure becomes zero.
The
音声感情情報VEは、喜びの音声評価値x1、怒りの音声評価値x2、悲しみの音声評価値x3、及び、平常の音声評価値x4を含む。音声評価値xは、0以上の実数である。以下の説明では、同種の要素を区別する場合には、喜びの音声評価値x1、怒りの音声評価値x2のように参照符号を使用する。一方、同種の要素を区別しない場合には、音声評価値xのように、参照符号のうちの共通番号だけを使用する。 The voice emotion information VE includes a voice evaluation value of joy x1, a voice evaluation value of anger x2, a voice evaluation value of sadness x3, and a normal voice evaluation value x4. The voice evaluation value x is a real number of 0 or more. In the following description, when distinguishing the same kind of elements, reference codes are used such as joy voice evaluation value x1 and anger voice evaluation value x2. On the other hand, when the same type of elements are not distinguished, only the common number among the reference codes is used, such as the voice evaluation value x.
補正部253は、ユーザUの音声の特徴に基づく補正情報CIを用いて音声感情情報VEを補正した補正感情情報CVEを生成する。補正情報CIは、例えば、喜びの音声評価値x1を補正する係数k1、怒りの音声評価値x2を補正する係数k2、悲しみの音声評価値x3を補正する係数k3、及び、平常の音声評価値x4を補正する係数k4を含む。k1〜k4は、0以上の実数である。補正感情情報CVEは、喜びの音声評価値X1、怒りの音声評価値X2、悲しみの音声評価値X3、及び、平常の音声評価値X4を含む。補正部253は、例えば、下記式に従って、補正感情情報CVEを生成する。
The
X1=x1×k1
X2=x2×k2
X3=x3×k3
X4=x4×k4
X1 = x1 × k1
X2 = x2 x k2
X3 = x3 × k3
X4 = x4 x k4
補正情報CIの生成方法は、例えば、以下に示す2つの態様がある。第1の態様において、ユーザUが、平常時の状態で、集音装置8に向かって発話する。処理装置2は、発話に応じた音声情報VIに対して、複数の特徴量を抽出し、抽出した複数の特徴量と所定の閾値とを比較することにより、係数k1〜k4を生成する。例えば、抽出した基本周波数が所定の閾値より高い場合、このユーザUは、平常時であっても基本周波数が高めであり、ユーザUが抱く感情が喜び又は怒りであると誤判定しやすくなる。そこで、処理装置2は、喜びの音声評価値X1及び怒りの音声評価値X2を低くする目的で、喜びに対応する係数k1及び怒りに対応する係数k2を、0より大きく1より小さい値に設定する。
The method for generating the correction information CI has, for example, the following two aspects. In the first aspect, the user U speaks to the
第2の態様において、処理装置2は、ユーザUに自身の音声の特徴に関する情報を入力させる。例えば、処理装置2は、ユーザUに、自身の音声の特徴に関する情報として、性別及び年齢を入力させる。性別が女性である場合、男性と比較して、一般的には基本周波数が高くなるため、処理装置2は、喜びの音声評価値X1及び怒りの音声評価値X2を低くする目的で、喜びに対応する係数k1及び怒りに対応する係数k2を、0より大きく1より小さい値に設定する。同様に、一般的には、年齢が低いほど声が高くなるため、入力された年齢が所定の閾値以下である場合、処理装置2は、喜びの音声評価値X1及び怒りの音声評価値X2を低くする目的で、喜びに対応する係数k1及び怒りに対応する係数k2を、0より大きく1より小さい値に設定する。
In the second aspect, the
文字評価部256は、人間が発話した音声の発話内容を認識する音声認識処理を音情報SIに対して実行し、音声認識処理の認識結果を示す認識文字列RTに基づいて、複数の感情の各々に対する強度を示す文字評価値Yを含む文字感情情報TEを生成する。文字感情情報TEは、喜びの文字評価値Y1、怒りの文字評価値Y2、悲しみの文字評価値Y3、及び、平常の文字評価値Y4を含む。文字評価値Yは、0以上の実数である。
The
より詳細には、文字評価部256は、音声認識処理部2561、形態素解析処理部2563、及び、評価値算出部2565を含む。
音声認識処理部2561は、音情報SIに音声認識処理を施して認識文字列RTを出力する。音声認識処理部2561は、例えば、予め用意された音響モデル及び言語モデルを用いて、音声から文字列を認識する手法を含む、種々の手法によって、認識文字列RTを出力する。
More specifically, the
The voice
形態素解析処理部2563は、解析用辞書情報31を参照して、認識文字列RTに対して形態素解析処理を実行して、補正後認識文字列CRTを出力する。形態素解析処理は、認識文字列RTを形態素ごとに分解する処理である。形態素解析処理において、解析用辞書情報31の品詞及び品詞細分類が利用される。補正後認識文字列CRTは、フィラー等といった、ユーザUが抱く感情を推定するためには不要な文字列を除いた文字列である。フィラーは、「ええと」、「あの」、及び、「まあ」といった、発話の合間に挟み込む言葉である。
The morphological
評価値算出部2565は、感情分類情報33に含まれる文字列と、補正後認識文字列CRTとを比較することにより各感情の文字評価値Yを算出し、各感情の文字評価値Yを含む文字感情情報TEを生成する。各感情の文字評価値Yの算出について、評価値算出部2565は、補正後認識文字列CRTが、感情分類情報33に含まれる文字列を含む場合に、この補正後認識文字列CRTに含まれる文字列に対応する感情の文字評価値Yを増加させる。
例えば、補正後認識文字列CRTが「今日試合に勝った」であれば、評価値算出部2565は、以下のような各感情の文字評価値Yを出力する。
The evaluation
For example, if the corrected recognition character string CRT is "winning the game today", the evaluation
喜びの文字評価値Y1 1
怒りの文字評価値Y2 0
悲しみの文字評価値Y3 0
平常の文字評価値Y4 0
Character evaluation value of
Anger character evaluation value Y2 0
Character evaluation value of sadness Y30
Normal character evaluation value Y40
上述の例では、補正後認識文字列CRTに、感情分類情報33に含まれる「勝っ」が含まれているため、評価値算出部2565は、「勝っ」に対応する喜びの文字評価値Y1を1増加させる。増加させる文字評価値Yの増加量は、1に限らなく、感情分類情報33に含まれる文字列ごとに異なってもよい。例えば、より喜びを強く示す文字列に対する文字評価値Yの増加量を2としてもよい。さらに、補正後認識文字列CRTに、感情分類情報33に含まれる文字列、及び、内容を強調する文字列が含まれる場合、評価値算出部2565は、文字評価値Yの増加量を大きくしてもよい。例えば、補正後認識文字列CRTが「今日試合に勝ててとても嬉しい」であれば、補正後認識文字列CRTに感情分類情報33に含まれる「嬉しい」が含まれており、かつ、「とても」という内容を強調する文字列が含まれるため、評価値算出部2565は、例えば、喜びの文字評価値Y1を2増加させる。補正後認識文字列CRTのうち、どの文字列が、内容を強調する文字列であるか否かは、形態素解析処理によって得られる形態素によって判定することができる。以下の例では、説明を容易にするため、増加させる文字評価値Yの増加量が1であるとする。
さらに、補正後認識文字列CRTに、感情分類情報33に含まれる文字列、及び、内容を否定する文字列が含まれる場合、評価値算出部2565は、この補正後認識文字列CRTに含まれる文字列に対応する文字評価値Yを増加させる処理とは異なる処理を実行してもよい。例えば、補正後認識文字列CRTが「今日試合に勝つことができなかった」であれば、補正後認識文字列CRTに感情分類情報33に含まれる「勝つ」が含まれるが、「なかっ」という内容を否定する文字列が含まれるため、評価値算出部2565は、例えば、悲しみの文字評価値Y3を1増加させる。補正後認識文字列CRTのうち、どの文字列が、内容を否定する文字列であるか否かは、形態素解析処理によって得られる形態素によって判定することができる。このように、形態素解析処理によって、補正後認識文字列CRTが肯定的な内容なのか否定的な内容かを推定することが可能である。以下の例では、説明を容易にするため、補正後認識文字列CRTに、感情分類情報33に含まれる文字列が含まれれば、この補正後認識文字列CRTに含まれる文字列に対応する文字評価値Yを増加させることとして説明を行う。
In the above example, since the corrected recognition character string CRT includes the "win" included in the
Further, when the corrected recognition character string CRT includes a character string included in the
推定部258は、補正感情情報CVEと文字感情情報TEとに基づいて、ユーザUが抱く1以上の感情を推定する。例えば、推定部258は、複数の感情の各々について、補正感情情報CVEの音声評価値X1〜X4と文字感情情報TEの文字評価値Y1〜Y4とを感情ごとに加算して、感情ごとに加算値を算出する。推定部258は、感情ごとの加算値を閾値と比較し、閾値を超える加算値を特定する。推定部258は、特定された加算値に対応する1以上の感情を、ユーザUが抱く1以上の感情として推定する。以下の説明では、音声評価値Xと文字評価値Yとの加算とは、感情ごとに加算して、4つの加算値を生成することを意味する。
推定部258は、音声評価値Xと文字評価値Yとを単に加算するのみに限らず、音声評価値Xと文字評価値Yとのいずれか一方の評価値に、所定値αを乗じた値と、他方の評価値とを加算してもよい。所定値αは、例えば、ユーザ装置1の開発者又はユーザUなどによって設定される値である。
The
The
推定部258は、推定したユーザUが抱く1以上の感情を示す推定感情情報EIを出力する。推定感情情報EIは、例えば、以下に示す2つの態様がある。推定感情情報EIの第1の態様は、推定したユーザUが抱く1以上の感情を示す識別子である。感情を示す識別子には、喜びを示す識別子、怒りを示す識別子、悲しみを示す識別子、及び、平常を示す識別子がある。推定感情情報EIの第2の態様は、推定したユーザUが抱く1以上の感情を示す識別子と、推定したユーザUが抱く感情の評価値とである。推定したユーザUが抱く感情の評価値は、例えば、推定したユーザUが抱く1以上の感情について、補正感情情報CVEの音声評価値Xと文字評価値Yとを感情ごとに加算した値である。
The
出力部26は、推定感情情報EIが示す1以上の感情に応じた処理を実行して得られたデータを出力する。例えば、出力部26は、下記に示す2つの態様がある。第1の態様における出力部26は、音声認識処理部2561によって得られた認識文字列RTに対して、推定感情情報EIが示す1以上の感情に応じた処理を実行して得られたデータを出力する。感情に応じた処理は、例えば、下記に示す2つの態様がある。
感情に応じた処理の第1の態様は、認識文字列RTに対して、感情を具象化した図形を付加する処理である。感情を具象化した図形は、例えば、感情を具象化した絵文字、及び、感情を具象化した顔文字である。絵文字は、文字コードに対応付けられた画像である。文字コードは、例えば、Unicodeである。顔文字は、記号及び文字を組み合わせて顔を表現した文字列である。以下の説明では、感情を具象化した図形は、感情を具象化した絵文字であるとして説明する。喜びを具象化した絵文字は、例えば、笑顔を示す絵文字である。怒りを具象化した絵文字は、例えば、怒りの顔を示す絵文字である。悲しみを具象化した絵文字は、例えば、泣き顔を示す絵文字である。さらに、推定感情情報EIが第2の態様である場合、出力部26は、推定感情情報EIが示す感情であって、推定感情情報EIに含まれる評価値に応じた強度を有する感情を具象化した絵文字を、認識文字列RTに付加する絵文字として決定してもよい。例えば、推定感情情報EIが示す感情が悲しみであり、かつ、推定感情情報EIに含まれる評価値が所定の閾値以下である場合、出力部26は、涙をこぼす顔を示す絵文字を認識文字列RTに付加する絵文字として決定する。一方、推定感情情報EIが示す感情が悲しみであり、かつ、推定感情情報EIに含まれる評価値が所定の閾値より大きい場合、出力部26は、号泣した顔を示す絵文字を認識文字列RTに付加する絵文字として決定する。号泣した顔を示す絵文字は、涙をこぼす顔を示す絵文字と比較して、より高い強度の悲しみを具象化している。
出力部26は、認識文字列RTに絵文字を付加して得られた絵文字付き文字列を出力する。絵文字を付加する位置は、例えば、以下に示す2つがある。第1の位置は、認識文字列RTの末尾である。第2の位置は、認識文字列RT内における、感情分類情報33に含まれる文字列の次である。表示装置4は、出力部26が出力した絵文字付き文字列に基づく画像を表示する。
The
The first aspect of the process according to the emotion is a process of adding a figure embodying the emotion to the recognition character string RT. The figures that embody emotions are, for example, pictograms that embody emotions and emoticons that embody emotions. A pictogram is an image associated with a character code. The character code is, for example, Unicode. An emoticon is a character string that expresses a face by combining symbols and characters. In the following description, a figure that embodies emotions will be described as a pictogram that embodies emotions. The pictogram that embodies joy is, for example, a pictogram that shows a smile. The pictogram that embodies anger is, for example, a pictogram that shows the face of anger. The pictogram that embodies sadness is, for example, a pictogram that shows a crying face. Further, when the estimated emotion information EI is the second aspect, the
The
感情に応じた処理の第2の態様は、感情に基づく抑揚を付加して読み上げた合成音声を生成する処理である。抑揚は、例えば、読み上げ速度を速くするもしくは遅くする、又は、音量を大きくするもしくは小さくすることである。喜びに基づく抑揚は、例えば、読み上げ速度を上げることである。怒りに基づく抑揚は、例えば、音量を大きくすることである。悲しみに基づく抑揚は、例えば、音量を小さくすることである。出力部26は、感情に基づく抑揚を付加して読み上げた合成音声を示す情報を出力する。そして、出力部26は、生成したデータが示す合成音声に、感情に基づく抑揚を付加して、感情に基づく抑揚を付加して読み上げた合成音声を示す情報を出力する。放音装置7は、出力部26が出力したデータが示す合成音声を放音する。
The second aspect of the emotion-based process is a process of generating a synthetic voice read aloud by adding emotion-based intonation. Inflection is, for example, increasing or decreasing the reading speed, or increasing or decreasing the volume. Pleasure-based intonation is, for example, speeding up reading. Anger-based intonation is, for example, increasing the volume. Sadness-based intonation is, for example, reducing the volume. The
第2の態様における出力部26は、推定感情情報EIが示す1以上の感情を具象化した絵文字を出力する。第2の態様における出力部26では、認識文字列RTを用いる必要がない。以下の記載では、出力部26は、第1の態様であるとして説明する。
The
1.2.第1実施形態の動作
次に、ユーザ装置1の動作について、図6を用いて説明する。
1.2. Operation of First Embodiment Next, the operation of the
図6は、ユーザ装置1の動作を示すフローチャートである。処理装置2は、上述した補正情報CIの2つの生成方法のいずれか一方に従って、補正情報CIを生成する(ステップS1)。次に、取得部21は、音情報SIを取得する(ステップS2)。そして、音声認識処理部2561は、音情報SIに対して音声認識処理を実行し、認識文字列RTを出力する(ステップS3)。次に、形態素解析処理部2563は、解析用辞書情報31を参照して、認識文字列RTに対して形態素解析処理を実行して、補正後認識文字列CRTを出力する(ステップS4)。そして、評価値算出部2565は、感情分類情報33に含まれる文字列と、補正後認識文字列CRTとを比較することにより各感情の文字評価値Yを算出し、各感情の文字評価値Yを含む文字感情情報TEを生成する(ステップS5)。
FIG. 6 is a flowchart showing the operation of the
また、ノイズ除去部251は、音情報SIが示す音から、第1パラメータP1及び第2パラメータP2に従ってノイズを除去して音声情報VIを生成する(ステップS6)。そして、音声評価部252は、ノイズを除去した音声情報VIから、音の特徴量を抽出する(ステップS7)。次に、音声評価部252は、音の特徴量を学習モデルLMに入力し、各感情の音声評価値xを含む音声感情情報VEを学習モデルLMから取得する(ステップS8)。補正部253は、補正情報CIを用いて、音声感情情報VEに含まれる各感情の音声評価値xを補正した補正感情情報CVEを生成する(ステップS9)。
Further, the
推定部258は、補正感情情報CVEと文字感情情報TEとに基づいて、ユーザUが抱く感情を推定し、推定感情情報EIを出力する(ステップS10)。出力部26は、認識文字列RTに対して、推定感情情報EIが示す感情に応じた処理を実行して得られる情報を出力する(ステップS11)。ステップS11の処理終了後、ユーザ装置1は、図6に示す一連の処理を終了する。
The
1.3.第1実施形態の効果
以上の説明によれば、ユーザ装置1は、汎用的な学習モデルLMを用いてユーザUの感情推定を実行するため、個人ごとに調整された学習モデルを生成する場合と比較して、学習モデルLMの生成にかかる時間を短縮できる。
汎用的な学習モデルLMに平均的な人間の音声に関する複数の特徴量を入力すれば、平均的な人間の抱く感情を推定できる。しかし、ユーザUの音声は、ユーザUの性別、年齢、及び、ユーザUの話し方の特徴等の影響を受けるので、平均的な人間の音声と相違する。従って、単に汎用的な学習モデルLMを用いるだけでは、ユーザUが抱く感情の判定精度が低下する。
上述したユーザ装置1では、ユーザUの音声の特徴に基づく補正情報CIを用いて、学習モデルLMから出力される音声感情情報VEが補正されるため、汎用的な学習モデルLMを利用しつつ、ユーザUが抱く感情を高精度に推定できる。
1.3. Effect of First Embodiment According to the above description, in order to execute the emotion estimation of the user U by using the general-purpose learning model LM, the
By inputting a plurality of features related to the average human voice into the general-purpose learning model LM, the emotions of the average human can be estimated. However, the voice of the user U is different from the average human voice because it is affected by the gender, age, characteristics of the user U's speaking style, and the like. Therefore, simply using the general-purpose learning model LM reduces the accuracy of determining the emotions held by the user U.
In the
また、ユーザ装置1は、音情報SIが示す音からノイズを除去して音声情報VIを生成し、音声情報VIに基づく音の特徴量を学習モデルLMに入力する。音声情報VIに基づく音の特徴量を学習モデルLMに入力することにより、音情報SIに基づく音の特徴量を学習モデルLMに入力する場合と比較して、より精度の高い音声感情情報VEを得ることができる。
Further, the
また、ユーザ装置1は、補正感情情報CVEと文字感情情報TEとに基づいて、ユーザUが抱く1以上の感情を推定するので、補正感情情報CVEのみに基づいてユーザUが抱く感情を推定する場合と比較して、ユーザUが抱く感情を高精度に推定できる。
Further, since the
2.第2実施形態
第2実施形態にかかるユーザ装置1aは、ユーザUに明示的に感情を発露させた音声を発話するように促し、ユーザUの明示的な音声感情情報VEaを学習モデルLMから取得し、ユーザUが抱く感情が明示的な感情であると推定部258が推定する可能性を高くする目的で、補正情報CIを調整する点で、第1実施形態にかかるユーザ装置1と相違する。第2実施形態では、ユーザ装置1aは、ユーザUが抱く感情を推定する感情推定モードと、補正情報CIを調整するキャリブレーションモードとを取り得る。感情推定モードが、第1実施形態に相当するため、説明を省略する。以下、第2実施形態にかかるユーザ装置1aを説明する。なお、以下に例示する第2実施形態において作用又は機能が第1実施形態と同等である要素については、以上の説明で参照の符号を流用して各々の詳細な説明を適宜に省略する。
2. 2. Second Embodiment The user device 1a according to the second embodiment urges the user U to utter a voice that explicitly expresses emotions, and acquires the explicit voice emotion information VEa of the user U from the learning model LM. However, it differs from the
2.1.第2実施形態の機能
図7は、第2実施形態にかかるユーザ装置1aを示すブロック図である。ユーザ装置1aは、処理装置2a、記憶装置3a、表示装置4、操作装置5、通信装置6、放音装置7、及び、集音装置8を具備するコンピュータシステムにより実現される。記憶装置3aは、処理装置2aが読取可能な記録媒体であり、処理装置2aが実行する制御プログラムPRaを含む複数のプログラム、解析用辞書情報31、及び、感情分類情報33を記憶する。
2.1. Function of the second embodiment FIG. 7 is a block diagram showing a user device 1a according to the second embodiment. The user device 1a is realized by a computer system including a
処理装置2aは、記憶装置3aから制御プログラムPRaを読み取り実行することによって、取得部21a、感情推定部25a、及び、出力部26として機能する。
The
図8は、第2実施形態にかかるユーザ装置1aの機能の概要を示す図である。感情推定部25aは、ノイズ除去部251、音声評価部252、補正部253、調整部254、文字評価部256、及び、推定部258を含む。
FIG. 8 is a diagram showing an outline of the function of the user device 1a according to the second embodiment. The
取得部21aは、複数の感情のうち一の感情をユーザUが明示的に発露させた音声を含む音を示す音情報SIaを取得する。具体的には、ユーザUが、操作装置5への操作によって、ユーザ装置1aをキャリブレーションモードに設定した場合、処理装置2は、複数の感情のうち一の感情を明示的に発露して発音するように促した画面を表示装置4に表示する。「一の感情」を、以下、「明示感情」と称する。取得部21aは、前述の画面を表示した後に取得した音情報SIを、明示感情をユーザUが発露させた音声を含む音を示す音情報SIaとして取得する。複数の感情のうち、いずれの感情を明示感情に設定するかについては、例えば、ユーザ装置1aの開発者が予め設定してもよいし、ユーザUが複数の感情から明示感情を選択してもよい。
The
ノイズ除去部251は、音情報SIaが示す音からノイズを除去して音声情報VIaを生成する。
The
音声評価部252は、学習モデルLMに対して、音声情報VIaに基づく音の特徴量を入力し、ユーザUの明示的な音声感情情報VEaを学習モデルLMから取得する。
The
調整部254は、ユーザUが抱く感情が明示感情であると推定部258が推定する可能性を高くする目的で、明示的な音声感情情報VEaに基づいて補正情報CIを調整する。例えば、調整部254は、明示感情に対応する係数kを増加させる処理、及び、明示感情以外の感情に対応する係数kを減少させる処理の一方又は両方を実行する。例えば、調整部254は、下記式に従って、係数k1〜k4を生成する。但し、感情を発露させてユーザUが予め定められた音声を発話した場合に得られる理想的な音声評価値Xに関し、喜びの音声評価値をXa1、怒りの音声評価値をXa2、悲しみの音声評価値をXa3、平常の音声評価値をXa4で表す。
k1=Xa1/x1
k2=Xa2/x2
k3=Xa3/x3
k4=Xa4/x4
但し、係数kは、必ずしもXa/xと一致する必要はない。
The
k1 = Xa1 / x1
k2 = Xa2 / x2
k3 = Xa3 / x3
k4 = Xa4 / x4
However, the coefficient k does not necessarily have to match Xa / x.
2.2.第2実施形態の動作
次に、キャリブレーションモード時のユーザ装置1aの動作について、図9を用いて説明する。
2.2. Operation of the Second Embodiment Next, the operation of the user apparatus 1a in the calibration mode will be described with reference to FIG.
図9は、キャリブレーションモード時のユーザ装置1aの動作を示すフローチャートである。取得部21aは、ユーザUが明示感情を発露させた音声を含む音を示す音情報SIaを取得する(ステップS21)。次に、ノイズ除去部251は、第1パラメータP1及び第2パラメータP2に従ってノイズを除去して音声情報VIaを生成する(ステップS22)。そして、音声評価部252は、ノイズを除去した音声情報VIaから、音の特徴量を抽出する(ステップS23)。次に、音声評価部252は、音の特徴量を学習モデルLMに入力し、各感情の音声評価値xを含む音声感情情報VEaを学習モデルLMから取得する(ステップS24)。
FIG. 9 is a flowchart showing the operation of the user device 1a in the calibration mode. The
調整部254は、明示的な音声感情情報VEaに含まれる複数の音声評価値xを、補正部253と同様の方法により補正する(ステップS25)。次に、調整部254は、ユーザUが抱く感情が明示感情であると推定部258が推定する可能性を高くする目的で、補正情報CIを調整する(ステップS26)。ステップS26の処理終了後、ユーザ装置1aは、図9に示す一連の処理を終了する。
The adjusting
2.3.第2実施形態の効果
以上の説明によれば、ユーザUが明示感情を発露させた音声を発話した場合に、ユーザ装置1aは、ユーザUが抱く感情が明示感情であると推定部258が推定する可能性を高くする目的で、明示的な音声感情情報VEaに基づいて補正情報CIを調整する態様を有する。この態様では、音声感情情報VEaによって推定される感情の正解が判明しており、補正情報CIを調整したユーザU用の補正感情情報CVEは、補正情報CIを調整していないユーザU用の補正感情情報CVEと比較して、ユーザUが抱く感情の推定精度を向上できる。
また、ユーザUが明示感情を発露させた音声を発話したとしても、感情を音声に発露させる強度はユーザU間で互いに異なる。例えば、あるユーザUは、感情を音声に発露させる強度が高い一方で、別のユーザUは、感情を音声に発露させる強度が低い場合がある。第2実施形態における補正情報CIは、感情を音声に発露させる強度の違いも反映される。例えば、感情を音声に発露させる強度が高いユーザUは、上述の理想的な音声評価値Xに対して、音声評価値xが近い値となり、係数kが1に近い値となる。一方、感情を音声に発露させる強度が低いユーザUは、上述の理想的な音声評価値Xに対して、音声評価値xが小さい値となり、係数kが1から離れた値となる。以上により、発露させる強度が低いユーザUほど、係数kが1から離れた値になり、感情を音声に発露させる強度の違いが補正情報CIに反映されるため、ユーザUが抱く感情の推定精度を向上できる。
2.3. Effect of the Second Embodiment According to the above description, when the user U utters a voice that expresses an explicit emotion, the user device 1a estimates that the emotion held by the user U is an explicit emotion. It has an aspect of adjusting the correction information CI based on the explicit voice emotion information VEa for the purpose of increasing the possibility of doing so. In this aspect, the correct answer of the emotion estimated by the voice emotion information VEa is known, and the corrected emotion information CVE for the user U who has adjusted the correction information CI is the correction for the user U who has not adjusted the correction information CI. Compared with the emotion information CVE, the estimation accuracy of the emotion held by the user U can be improved.
Further, even if the user U utters a voice that expresses an explicit emotion, the intensity of expressing the emotion in the voice differs between the users U. For example, one user U may have a high intensity of expressing emotions in voice, while another user U may have a low intensity of expressing emotions in voice. The correction information CI in the second embodiment also reflects the difference in the intensity of expressing emotions in voice. For example, a user U having a high intensity of expressing emotions in voice has a voice evaluation value x close to the above-mentioned ideal voice evaluation value X, and a coefficient k close to 1. On the other hand, the user U having a low intensity of expressing emotions in voice has a voice evaluation value x that is smaller than the above-mentioned ideal voice evaluation value X, and a coefficient k that is far from 1. As described above, the lower the intensity of the user U to be exposed, the farther the coefficient k is from 1, and the difference in the intensity of expressing the emotion to the voice is reflected in the correction information CI. Can be improved.
3.第3実施形態
第3実施形態にかかる感情推定システムSYSは、第2実施形態で示した機能によってユーザ装置1bをキャリブレーションモードに設定して、明示感情を発露させたユーザUの感情推定結果を利用して、ユーザ装置1bをキャリブレーションモードに設定していなく、明示感情を発露させていないユーザUの補正情報CIを調整する構成を有する点で、第2実施形態にかかるユーザ装置1aと相違する。以下の説明において、ユーザ装置1bをキャリブレーションモードに設定し、明示感情を発露させたユーザUを、「キャリブレーション済みユーザ」と称し、キャリブレーションモードに設定していなく、明示感情を発露させていないユーザUを、「非キャリブレーションユーザ」と称する。
以下、第3実施形態にかかる感情推定システムSYSを説明する。なお、以下に例示する第3実施形態において作用又は機能が第2実施形態と同等である要素については、以上の説明で参照の符号を流用して各々の詳細な説明を適宜に省略する。
3. 3. Third Embodiment The emotion estimation system SYS according to the third embodiment sets the
Hereinafter, the emotion estimation system SYS according to the third embodiment will be described. Regarding the elements whose actions or functions are the same as those of the second embodiment in the third embodiment illustrated below, the reference numerals are used in the above description, and detailed description of each is appropriately omitted.
3.1.第3実施形態の概要
図10は、感情推定システムSYSの全体構成を示す図である。感情推定システムSYSは、ユーザUが所持するユーザ装置1bと、ネットワークNWと、サーバ装置10とを備える。感情推定システムSYSに含まれるユーザ装置1は、ユーザ装置1b1からユーザ装置1bmまでである。mは2以上の整数である。ユーザ装置1b1を所持するユーザUが、ユーザU1であり、ユーザ装置1bmを所持するユーザUは、ユーザUmである。
3.1. Outline of the Third Embodiment FIG. 10 is a diagram showing the overall configuration of the emotion estimation system SYS. The emotion estimation system SYS includes a
以下では、説明の簡略化のため、ユーザU1が、キャリブレーション済みユーザであり、ユーザU2が、非キャリブレーションユーザであるとして、説明を行う。 In the following, for the sake of brevity, it is assumed that the user U1 is a calibrated user and the user U2 is a non-calibrated user.
図11は、ユーザ装置1bの構成を示すブロック図である。ユーザ装置1bは、処理装置2b、記憶装置3b、表示装置4、操作装置5、通信装置6、放音装置7、及び、集音装置8を具備するコンピュータシステムにより実現される。記憶装置3bは、処理装置2bが読取可能な記録媒体であり、処理装置2bが実行する制御プログラムPRbを含む複数のプログラムを記憶する。
FIG. 11 is a block diagram showing the configuration of the
処理装置2bは、記憶装置3bから制御プログラムPRbを読み取り実行することによって、取得部21、及び、出力部26として機能する。
The
図12は、サーバ装置10の構成を示すブロック図である。サーバ装置10は、処理装置2B、記憶装置3B、及び、通信装置6Bを具備するコンピュータシステムにより実現される。サーバ装置10の各要素は、情報を通信するための単体又は複数のバス9Bで相互に接続される。記憶装置3Bは、処理装置2Bが読取可能な記録媒体であり、処理装置2Bが実行する制御プログラムPRBを含む複数のプログラム、解析用辞書情報31、感情分類情報33、及び、学習モデルLMを記憶する。
FIG. 12 is a block diagram showing the configuration of the
処理装置2Bは、記憶装置3Bから制御プログラムPRBを読み取り実行することによって、感情推定部25Bとして機能する。図13を用いて、感情推定システムSYSの機能について説明する。
The
図13は、感情推定システムSYSの機能の概要を示す図である。感情推定部25Bは、ノイズ除去部251、音声評価部252B、補正部253、調整部254、文字評価部256、推定部258、及び、特定部259を含む。
FIG. 13 is a diagram showing an outline of the functions of the emotion estimation system SYS. The
ユーザ装置1b1の取得部21は、ユーザU1の音声を含む音を集音する集音装置8が出力する音情報SI1を取得する。図14を用いて、処理装置2Bによって実現される機能である、非キャリブレーションユーザの補正情報CIの調整機能の概要を示す。
The
図14は、非キャリブレーションユーザの補正情報CIの調整機能の概要を示す図である。図14では、キャリブレーション済みであるユーザU1が、「ありがとう」と発声し、ユーザ装置1b1の取得部21が、音情報SI1を取得した状態を示している。
FIG. 14 is a diagram showing an outline of the adjustment function of the correction information CI of the non-calibrated user. FIG. 14 shows a state in which the calibrated user U1 utters “Thank you” and the
説明を図13に戻す。ユーザU1に関して、ノイズ除去部251は、音情報SI1が示す音からノイズを除去して音声情報VI1を生成する。音声評価部252Bは、学習モデルLMに対して、音声情報VI1から抽出した音の特徴量を入力し、音声感情情報VE1を学習モデルLMから取得する。補正部253は、ユーザU1の音声の特徴に基づく補正情報CI1を用いて音声感情情報VE1を補正した補正感情情報CVE1を生成する。また、音声認識処理部2561は、音声認識処理を音情報SI1に対して実行し、音声認識処理の認識結果を示す認識文字列RT1を取得する。続けて、形態素解析処理部2563は、解析用辞書情報31を参照して、認識文字列RT1に対して形態素解析処理を実行して、補正後認識文字列CRT1を出力する。評価値算出部2565は、感情分類情報33に含まれる文字列と、補正後認識文字列CRT1とを比較することにより、文字感情情報TE1を生成する。
図14では、サーバ装置10が、音情報SI1に基づいて、補正感情情報CVE1と文字感情情報TE1とを生成した状態を示している。
The explanation is returned to FIG. With respect to the user U1, the
FIG. 14 shows a state in which the
特定部259は、補正感情情報CVE1に含まれる複数の音声評価値Xと、文字感情情報TE1に含まれる文字評価値Yとの相違の程度を示す値が所定値以下である場合、認識文字列RT1を特定文字列STとして特定する。特定文字列STとして特定されやすい文字列は、この文字列が有する本来の意味で発話されることが多い文字列であり、例えば、「ありがとう」、及び「ふざけるな」等である。
ただし、「ありがとう」といった言葉も、時に社交辞令又は皮肉として発話されることもあり、「ありがとう」が有する本来の意味である「感謝」の意味で発話されない場合がある。この場合、音声情報VI1には喜びが発露していないため、音声評価値Xと文字評価値Yとが大きく相違する。そこで、サーバ装置10は、キャリブレーション済みユーザの認識文字列RTと、音声評価値Xと、文字評価値Yと、音声情報VI1を生成した日時とを対応付けてログとして記憶し、特定部259は、このログを参照して、認識文字列RTに対する音声評価値X及び文字評価値Yの相違の程度の傾向に基づいて、特定文字列STを特定してもよい。例えば、特定部259は、現在時刻から過去のある時刻までにおいて、音声評価値X及び文字評価値Yの相違の程度を示す値が所定値以下となった割合が所定の割合以上となった認識文字列RTを、特定文字列STとして特定する。
相違の程度を示す値は、例えば、以下に示す2つの態様がある。第1の態様における相違の程度を示す値は、複数の感情の各々について、音声評価値Xと文字評価値Yとの差分の2乗の和SumXYである。和SumXYは、例えば、下記(1)式により求められる。
SumXY=(X1−Y1)2+(X2−Y2)2+(X3−Y3)2+(X4−Y4)2(1)
第2の態様における相違の程度を示す値は、補正感情情報CVE1及び文字感情情報TE1を4次元のベクトルとみなした場合の補正感情情報CVE1及び文字感情情報TE1の角度θである。角度θが大きい程、補正感情情報CVE1と文字感情情報TE1とが相違すると言える。例えば、角度θは、下記(2)式により求められる。
θ=cos−1((CVE1・TE1)/(|CVE1|×|TE1|)) (2)
ただし、CVE1・TE1は、補正感情情報CVE1と文字感情情報TE1の内積を示す。|CVE1|は、補正感情情報CVE1の大きさを示す。|TE1|は、文字感情情報TE1の大きさを示す。
以下の説明では、相違の程度を示す値は、和SumXYであるとする。
図14では、和SumXYが所定値以下である例を示す。従って、特定部259は、認識文字列RT1である「ありがとう」を特定文字列STとして特定する。
The
However, the word "thank you" is sometimes spoken as a social decree or ironically, and may not be spoken in the original meaning of "thank you". In this case, since the voice information VI1 does not show joy, the voice evaluation value X and the character evaluation value Y are significantly different. Therefore, the
The value indicating the degree of difference has, for example, the following two aspects. The value indicating the degree of difference in the first aspect is Sum XY, which is the sum of the squares of the differences between the voice evaluation value X and the character evaluation value Y for each of the plurality of emotions. The sum Sum XY is obtained by, for example, the following equation (1).
Sum XY = (X1-Y1) 2 + (X2-Y2) 2 + (X3-Y3) 2 + (X4-Y4) 2 (1)
The value indicating the degree of difference in the second aspect is the angle θ of the corrected emotion information CVE1 and the character emotion information TE1 when the corrected emotion information CVE1 and the character emotion information TE1 are regarded as a four-dimensional vector. It can be said that the larger the angle θ, the more different the corrected emotion information CVE1 and the character emotion information TE1. For example, the angle θ is obtained by the following equation (2).
θ = cos -1 ((CVE1 ・ TE1) / (| CVE1 | × | TE1 |)) (2)
However, CVE1 and TE1 indicate the inner product of the corrected emotion information CVE1 and the character emotion information TE1. | CVE1 | indicates the magnitude of the corrected emotion information CVE1. | TE1 | indicates the size of the character emotion information TE1.
In the following description, it is assumed that the value indicating the degree of difference is the sum Sum XY .
FIG. 14 shows an example in which the sum Sum XY is equal to or less than a predetermined value. Therefore, the
ユーザU2に関して、図14に示すように、ユーザU2が、特定文字列STである「ありがとう」を発話したとする。ユーザ装置1b2の取得部21が、音情報SI2を取得する。ノイズ除去部251は、音情報SI2が示す音からノイズを除去して音声情報VI2を生成する。音声評価部252Bは、学習モデルLMに対して、音声情報VI2から抽出した音の特徴量を入力し、音声感情情報VE2を学習モデルLMから取得する。補正部253は、ユーザU2の音声の特徴に基づく補正情報CI2を用いて音声感情情報VE2を補正した補正感情情報CVE2を生成する。また、音声認識処理部2561は、音声認識処理を音情報SI2に対して実行し、音声認識処理の認識結果を示す認識文字列RT2を取得する。続けて、形態素解析処理部2563は、解析用辞書情報31を参照して、認識文字列RT2に対して形態素解析処理を実行して、補正後認識文字列CRT2を出力する。評価値算出部2565は、感情分類情報33に含まれる文字列と、補正後認識文字列CRT2とを比較することにより、文字感情情報TE2を生成する。
図14では、サーバ装置10が、音情報SI2に基づいて、補正感情情報CVE2と文字感情情報TE2とを生成した状態を示している。
Regarding the user U2, as shown in FIG. 14, it is assumed that the user U2 utters "Thank you" which is a specific character string ST. The
FIG. 14 shows a state in which the
非キャリブレーションユーザであるユーザU2が、特定文字列STを発話した場合には、調整部254は、ユーザU2の補正感情情報CVE2に含まれる複数の音声評価値Xを、複数の感情の各々について、ユーザU2の文字感情情報TE2に含まれる複数の文字評価値Yに近づける目的で、ユーザU2用の補正情報CI2を調整する。例えば、調整部254は、下記式に従って、係数k1〜k4を生成する。
k1=Y1/X1
k2=Y2/X2
k3=Y3/X3
k4=Y4/X4
但し、係数kは、必ずしもY/Xと一致する必要はない。
When the user U2 who is a non-calibration user utters a specific character string ST, the
k1 = Y1 / X1
k2 = Y2 / X2
k3 = Y3 / X3
k4 = Y4 / X4
However, the coefficient k does not necessarily have to match Y / X.
3.2.第3実施形態の動作
第2実施形態と同様に、第3実施形態でも、ユーザ装置1bは、ユーザUの感情を推定する感情推定モードと、補正情報CIを調整するキャリブレーションモードとを取り得る。ユーザ装置1bがキャリブレーションモードに設定された場合、サーバ装置10が、ステップS21に示す音情報SIをユーザ装置1bから取得して、ステップS21以降の各ステップを実行すればよい。図9に示す一連の処理終了後、サーバ装置10は、キャリブレーションモードに設定されたユーザ装置1bの識別情報を、キャリブレーション済みユーザが所持するユーザ装置1bとして記憶装置3Bに記憶する。ユーザ装置1bの識別情報は、例えば、UID(User IDentifier)、MAC(Media Access Control)アドレス、加入者認証モジュール(SIM:Subscriber Identity Module)に記録されたIMSI(International Mobile Subscriber Identity)、又はユーザID等である。UIDは、サービスを提供する事業者が、ユーザごとに割り当てたIDである。感情推定モードにおける感情推定システムSYSの動作について、図15及び図16を用いて説明する。
3.2. Operation of the Third Embodiment Similar to the second embodiment, in the third embodiment, the
図15及び図16は、感情推定モードにおける感情推定システムSYSの動作を示すフローチャートである。サーバ装置10は、ユーザ装置1bから、補正情報CIを取得する(ステップS31)。具体的には、ユーザ装置1bが、上述した補正情報CIの2つの生成方法のいずれか一方に従って、補正情報CIを生成し、サーバ装置10に補正情報CIを送信する。次に、サーバ装置10は、ユーザ装置1bから、音情報SIを取得する(ステップS32)。そして、感情推定部25Bの音声認識処理部2561は、音情報SIに対して音声認識処理を実行し、認識文字列RTを出力する(ステップS33)。次に、感情推定部25Bの形態素解析処理部2563は、解析用辞書情報31を参照して、認識文字列RTに対して形態素解析処理を実行して、補正後認識文字列CRTを出力する(ステップS34)。そして、感情推定部25Bの評価値算出部2565は、感情分類情報33に含まれる文字列と、補正後認識文字列CRTとを比較することにより各感情の文字評価値Yを算出し、各感情の文字評価値Yを含む文字感情情報TEを生成する(ステップS35)。
15 and 16 are flowcharts showing the operation of the emotion estimation system SYS in the emotion estimation mode. The
また、感情推定部25Bのノイズ除去部251は、音情報SIが示す音から、第1パラメータP1及び第2パラメータP2に従ってノイズを除去して音声情報VIを生成する(ステップS41)。そして、感情推定部25Bの音声評価部252Bは、ノイズを除去した音声情報VIから、音の特徴量を抽出する(ステップS42)。次に、感情推定部25Bの音声評価部252Bは、音の特徴量を学習モデルLMに入力し、各感情の音声評価値xを含む音声感情情報VEを学習モデルLMから取得する(ステップS43)。
Further, the
次に、サーバ装置10は、補正情報CI及び音情報SIの送信元のユーザ装置1bを所持するユーザが、キャリブレーション済みユーザか否かを判定する(ステップS44)。キャリブレーション済みユーザか非キャリブレーションユーザかを判定する方法として、ユーザ装置1bは、補正情報CIの送信時及び音情報SIの送信時のいずれか一方の時又は両方の時に、ユーザ装置1bの識別情報を送信する。サーバ装置10は、受信したユーザ装置1bの識別情報が、キャリブレーション済みユーザが所持するユーザ装置1bとして記憶した識別情報と一致した場合、肯定である判定結果を出力し、記憶装置3Bに記憶した識別情報と一致しない場合、否定である判定結果を出力する。
Next, the
ステップS44の判定結果が肯定の場合、感情推定部25Bの補正部253は、補正情報CIを用いて、音声感情情報VEに含まれる各感情の音声評価値xを補正した補正感情情報CVEを生成する(ステップS45)。そして、感情推定部25Bの特定部259は、補正感情情報CVEに含まれる音声評価値Xと文字感情情報TEに含まれる文字評価値Yとの差分の2乗の和SumXYが所定値以下か否かを判定する(ステップS46)。
ステップS44の判定結果が肯定であり、かつ、ステップS46の判定結果が肯定の場合、感情推定部25Bの特定部259は、認識文字列RTを特定文字列STとして特定する(ステップS47)。そして、感情推定部25Bの推定部258は、補正感情情報CVEと文字感情情報TEとに基づいて、ユーザUが抱く感情を推定する(ステップS61)。一方、ステップS44の判定結果が肯定であり、ステップS46の判定結果が否定の場合も、感情推定部25Bの推定部258は、ステップS61の処理を実行する。
When the determination result in step S44 is affirmative, the
When the determination result in step S44 is affirmative and the determination result in step S46 is affirmative, the
ステップS44の判定結果が否定の場合、すなわち、補正情報CI及び音情報SIの送信元のユーザ装置1bを所持するユーザUが非キャリブレーションユーザである場合、サーバ装置10は、特定文字列STと認識文字列RTとが一致するか否かを判定する(ステップS50)。
ステップS44の判定結果が否定であり、かつ、ステップS50の判定結果が肯定の場合、感情推定部25Bの特定部259は、補正感情情報CVEに含まれる音声評価値Xを文字感情情報TEに含まれる複数の文字評価値Yに近づける目的で、非キャリブレーションユーザ用の補正情報CIを調整する(ステップS51)。そして、感情推定部25Bの補正部253は、補正情報CIを用いて、音声感情情報VEに含まれる各感情の音声評価値xを補正した補正感情情報CVEを生成する(ステップS52)。
ステップS44の判定結果が否定であり、かつ、ステップS45の判定結果が否定の場合も、感情推定部25Bの補正部253は、ステップS52の処理を実行する。
ステップS52の処理終了後、感情推定部25Bの推定部258は、ステップS61の処理を実行する。
When the determination result in step S44 is negative, that is, when the user U who possesses the
When the determination result in step S44 is negative and the determination result in step S50 is affirmative, the
Even if the determination result in step S44 is negative and the determination result in step S45 is negative, the
After the process of step S52 is completed, the
ステップS61の処理を実行後、サーバ装置10は、認識文字列RTと、ステップS61の処理結果である推定感情情報EIとを、ユーザ装置1bに送信する。出力部26は、認識文字列RTに対して、推定感情情報EIが示す感情に応じた処理を実行して得られる情報を出力する(ステップS62)。ステップS62の処理終了後、感情推定システムSYSは、図15及び図16に示す一連の処理を終了する。
After executing the process of step S61, the
3.3.第3実施形態の効果
以上の説明によれば、サーバ装置10は、非キャリブレーションユーザであるユーザU2が特定文字列STを発話した場合、補正感情情報CVE2に含まれる複数の音声評価値Xを、複数の感情の各々について、文字感情情報TE2に含まれる複数の文字評価値Yに近づける目的で、ユーザU2用の補正情報CIを調整する。特定文字列STは、キャリブレーションユーザであるユーザU1において、音声評価値Xと文字評価値Yとの相違の程度を示す値が所定値以下となった時の認識文字列RTである。
ユーザU2が特定文字列STを発話した場合に限り、ユーザU2用の補正情報CIを調整する理由について説明する。キャリブレーション済みユーザであっても、補正感情情報CVEと文字感情情報TEとが近い値にならないことがある。例えば、キャリブレーション済みユーザが、文字列が有する本来の意味とは異なる意味でこの文字列を発話した場合、補正感情情報CVEと文字感情情報TEとが近い値にならないことがある。文字列が有する本来の意味とは異なる意味でユーザUが発話する例としては、ユーザUが皮肉の内容を発話した場合、及び、ユーザUが冗談を発話した場合である。ユーザUが皮肉の内容及び冗談を発話すると、文字感情情報TEの精度が低下するので、文字感情情報TEのみに基づいてユーザUが抱く感情を推定すると精度が低下する。また、ユーザUが「今、着きました」といった事務連絡を発話すると、文字感情情報TEの精度が低下するので、文字感情情報TEのみに基づいてユーザUが抱く感情を推定すると精度が低下する。発話内容が事務連絡である場合に文字感情情報TEの精度が低下する理由は、事務連絡を示す発話内容には、感情分類情報33に登録されている、感情を表す文字列が含まれる割合が一般的な発話内容と比較して低い傾向にあり、文字評価値Y1〜Y4が小さい値となるためである。ユーザUが皮肉の内容を発話した場合、ユーザUが冗談を発話した場合、及び、ユーザUが事務連絡を発話した場合とは、文字感情情報TEのみに基づいてユーザUが抱く感情を精度良く推定できない場合の一例である。文字列が有する本来の意味で発話されている場合には、補正感情情報CVEと文字感情情報TEとが近い値になりやすい傾向にある。
従って、特定文字列STは、音声評価値Xと文字評価値Yとの相違の程度を示す値が所定値以下となっているため、本来の意味で発話された可能性が高い文字列であると言える。そして、ユーザU2が特定文字列STを発話した場合には特定文字列STが有する本来の意味で、ユーザU2が発話している可能性が高いため、本来であれば、補正感情情報CVEと文字感情情報TEとが近い値になるはずである。
ここで、非キャリブレーションユーザにおいて、一般的には、補正感情情報CVEの精度は、文字感情情報TEの精度より低い可能性が高い。理由としては、文字感情情報TEは、ユーザUの音声の特徴からの影響が小さい一方で、音声感情情報VEは、ユーザUの音声の特徴からの影響が大きく、非キャリブレーションユーザの補正情報CIが正しく調整されていないためである。
そこで、第3実施形態では、ユーザU2が特定文字列STを発話した場合には、文字感情情報TEが正解の感情を示している可能性が高いので、サーバ装置10は、音声評価値Xを文字評価値Yに近づける目的で、ユーザU2用の補正情報CIを調整する。以上により、非キャリブレーションユーザについて、キャリブレーションモードを用いなくても、ユーザUが抱く感情の推定精度を向上できる。非キャリブレーションユーザは、ユーザ装置1bをキャリブレーションモードに設定しなくとも感情の推定精度を向上できるので、ユーザ装置1bは、非キャリブレーションユーザの手間を削減できる。
3.3. Effect of Third Embodiment According to the above description, when the user U2 who is a non-calibrated user utters the specific character string ST, the
The reason for adjusting the correction information CI for the user U2 will be described only when the user U2 utters the specific character string ST. Even for a calibrated user, the corrected emotion information CVE and the character emotion information TE may not be close to each other. For example, when the calibrated user utters this character string in a meaning different from the original meaning of the character string, the corrected emotion information CVE and the character emotion information TE may not be close to each other. An example in which the user U utters a meaning different from the original meaning of the character string is when the user U utters an ironic content and when the user U utters a joke. When the user U utters an ironic content and a joke, the accuracy of the character emotion information TE is lowered. Therefore, if the emotion held by the user U is estimated based only on the character emotion information TE, the accuracy is lowered. Further, when the user U utters an office communication such as "I have arrived now", the accuracy of the character emotion information TE decreases. Therefore, if the emotion held by the user U is estimated based only on the character emotion information TE, the accuracy decreases. .. The reason why the accuracy of the character emotion information TE is lowered when the utterance content is the office communication is that the utterance content indicating the office communication includes the character string representing the emotion registered in the
Therefore, the specific character string ST is a character string that is highly likely to have been uttered in the original meaning because the value indicating the degree of difference between the voice evaluation value X and the character evaluation value Y is equal to or less than a predetermined value. It can be said that. Then, when the user U2 utters the specific character string ST, there is a high possibility that the user U2 is uttering in the original meaning of the specific character string ST. Therefore, originally, the corrected emotion information CVE and the character The emotional information TE should be close to the value.
Here, in a non-calibrated user, in general, the accuracy of the corrected emotion information CVE is likely to be lower than the accuracy of the character emotion information TE. The reason is that the character emotion information TE has a small influence from the voice characteristics of the user U, while the voice emotion information VE has a large influence from the voice characteristics of the user U, and the correction information CI of the uncalibrated user. Is not adjusted correctly.
Therefore, in the third embodiment, when the user U2 utters the specific character string ST, there is a high possibility that the character emotion information TE indicates the correct emotion, so that the
4.第4実施形態
第4実施形態にかかる感情推定システムSYScは、キャリブレーション済みユーザの感情推定結果を利用して、非キャリブレーションユーザ用の第1パラメータP1及び第2パラメータP2を調整する点で、第3実施形態にかかる感情推定システムSYSと相違する。
以下、第4実施形態にかかる感情推定システムSYScを説明する。なお、以下に例示する第4実施形態において作用又は機能が第3実施形態と同等である要素については、以上の説明で参照の符号を流用して各々の詳細な説明を適宜に省略する。
4. Fourth Embodiment The emotion estimation system SYSc according to the fourth embodiment adjusts the first parameter P1 and the second parameter P2 for the uncalibrated user by using the emotion estimation result of the calibrated user. This is different from the emotion estimation system SYS according to the third embodiment.
Hereinafter, the emotion estimation system SYSc according to the fourth embodiment will be described. Regarding the elements whose actions or functions are equivalent to those of the third embodiment in the fourth embodiment illustrated below, the reference numerals will be used in the above description, and detailed description of each will be omitted as appropriate.
図17は、感情推定システムSYScの全体構成を示す図である。感情推定システムSYScは、ユーザUが所持するユーザ装置1bと、ネットワークNWと、サーバ装置10Cとを備える。
FIG. 17 is a diagram showing the overall configuration of the emotion estimation system SYSTEM. The emotion estimation system SYSc includes a
図18は、サーバ装置10Cの構成を示すブロック図である。サーバ装置10Cは、処理装置2C、記憶装置3C、及び、通信装置6Bを具備するコンピュータシステムにより実現される。記憶装置3Cは、処理装置2Cが読取可能な記録媒体であり、処理装置2Cが実行する制御プログラムPRCを含む複数のプログラム、解析用辞書情報31、感情分類情報33、及び、学習モデルLMを記憶する。
FIG. 18 is a block diagram showing a configuration of the server device 10C. The server device 10C is realized by a computer system including a
処理装置2Cは、記憶装置3Cから制御プログラムPRを読み取り実行することによって、感情推定部25Cとして機能する。図19を用いて、感情推定システムSYScの機能について説明する。
The
4.1.第4実施形態の機能
図19は、感情推定システムSYScの機能の概要を示す図である。感情推定部25Cは、ノイズ除去部251C、音声評価部252B、補正部253、調整部254C、文字評価部256、推定部258、及び、特定部259を含む。
4.1. Function of the 4th Embodiment FIG. 19 is a figure which shows the outline of the function of the emotion estimation system SYSc. The
第4実施形態では、ノイズ除去部251Cで用いられる第1パラメータP1及び第2パラメータP2が、ユーザUごとに用意される。以下の説明では、ユーザU1用の第1パラメータP1及び第2パラメータP2を含む情報をパラメータ情報TI1とし、ユーザU2用の第1パラメータP1及び第2パラメータP2を含む情報をパラメータ情報TI2として説明する。
In the fourth embodiment, the first parameter P1 and the second parameter P2 used in the
図20は、非キャリブレーションユーザのパラメータ情報TIの調整機能の概要を示す図である。図20では、キャリブレーション済みであるユーザU1が、「ありがとう」と発声し、ユーザ装置1b1の取得部21が、音情報SI1を取得した状態を示している。
FIG. 20 is a diagram showing an outline of the adjustment function of the parameter information TI of the non-calibrated user. FIG. 20 shows a state in which the calibrated user U1 utters “Thank you” and the
説明を図19に戻す。ユーザU1に関して、ノイズ除去部251Cは、音情報SI1が示す音から、パラメータ情報TI1に含まれる第1パラメータP1及び第2パラメータP2に基づいて、ノイズを除去して音声情報VI1を生成する。以降の処理について、感情推定部25Cは、第3実施形態と同様に処理して、補正感情情報CVE1と文字感情情報TE1とを生成し、認識文字列RT1である「ありがとう」を特定文字列STとして特定する。
The description returns to FIG. With respect to the user U1, the
ユーザU2に関して、図20に示すように、ユーザU2が、特定文字列STである「ありがとう」を発話したとする。調整部254Cは、ユーザU2の補正感情情報CVE2に含まれる複数の音声評価値Xを、複数の感情の各々について、ユーザU2の文字感情情報TE2に含まれる複数の文字評価値Yに近づける目的で、ユーザU2用のパラメータ情報TI2を調整する。具体的には、調整部254Cは、ノイズ除去部251Cに、現在のパラメータ情報TI2の第1パラメータP1及び第2パラメータP2に基づいて、音声情報VI2を生成させる。そして、調整部254Cは、音声評価部252B及び補正部253に、補正感情情報CVE2を生成させ、文字評価部256に、文字感情情報TE2を生成させる。そして、調整部254Cは、補正感情情報CVE2に含まれる音声評価値Xと、文字感情情報TE2に含まれる文字評価値Yとを比較する。例えば、調整部254Cは、パラメータ情報TI2の第1パラメータP1及び第2パラメータP2を微小量変化させる。調整部254Cは、微小量変化させた第1パラメータP1及び第2パラメータP2に基づいて、補正感情情報CVEを再度生成し、再度生成した補正感情情報CVEと文字感情情報TE2との相違の程度を示す値が、再作成する前の補正感情情報CVEと文字感情情報TE2との相違の程度を示す値より小さい場合、ユーザU2の複数の音声評価値Xを、ユーザU2の複数の文字評価値Yに近づける目的が達せられたと判定する。
Regarding the user U2, as shown in FIG. 20, it is assumed that the user U2 utters "Thank you" which is a specific character string ST. The
図20では、調整部254Cが、ユーザU2の複数の音声評価値Xを、ユーザU2の複数の文字評価値Yに近づける目的で、パラメータ情報TI2に含まれる第1パラメータP1及び第2パラメータP2を調整することを示している。
In FIG. 20, the adjusting
4.2.第4実施形態の動作
次に、感情推定モードにおける感情推定システムSYScの動作について、図21を用いて説明する。
4.2. Operation of the Fourth Embodiment Next, the operation of the emotion estimation system SYSc in the emotion estimation mode will be described with reference to FIG.
図21は、感情推定モードにおける感情推定システムSYScの動作を示すフローチャートである。なお、第3実施形態で示した感情推定モードにおける感情推定システムSYScの動作と、第4実施形態の感情推定モードにおける感情推定システムSYScの動作において、図15に示すステップS31からステップS35までの処理は共通である。従って、ステップS31からステップS35までの処理については図示及び説明を省略する。 FIG. 21 is a flowchart showing the operation of the emotion estimation system SYSc in the emotion estimation mode. In the operation of the emotion estimation system SYSc in the emotion estimation mode shown in the third embodiment and the operation of the emotion estimation system SYSc in the emotion estimation mode of the fourth embodiment, the processes from step S31 to step S35 shown in FIG. Is common. Therefore, illustration and description of the processes from step S31 to step S35 will be omitted.
ステップS35の処理終了後、サーバ装置10Cは、補正情報CI及び音情報SIの送信元のユーザ装置1bを所持するユーザUが、キャリブレーション済みユーザか否かを判定する(ステップS71)。ステップS71の判定結果が肯定の場合、感情推定部25Cのノイズ除去部251Cは、音情報SIが示す音から、パラメータ情報T1の第1パラメータP1及び第2パラメータP2に従ってノイズを除去して音声情報VIを生成する(ステップS72)。感情推定部25Cの音声評価部252Bは、ノイズを除去した音声情報VIから、音の特徴量を抽出する(ステップS73)。次に、感情推定部25Cの音声評価部252Bは、音の特徴量を学習モデルLMに入力し、各感情の音声評価値xを含む音声感情情報VEを学習モデルLMから取得する(ステップS74)。そして、感情推定部25Cの補正部253は、補正情報CIを用いて、音声感情情報VEに含まれる各感情の音声評価値xを補正した補正感情情報CVEを生成する(ステップS75)。
After the processing in step S35 is completed, the server device 10C determines whether or not the user U who possesses the
そして、感情推定部25Cの特定部259は、補正感情情報CVEに含まれる音声評価値Xと文字感情情報TEに含まれる文字評価値Yとの差分の2乗の和SumXYが所定値以下か否かを判定する(ステップS76)。
ステップS71の判定結果が肯定であり、かつ、ステップS76の判定結果が肯定の場合、感情推定部25Cの特定部259は、認識文字列RTを特定文字列STとして特定する(ステップS77)。そして、感情推定部25Cの推定部258は、補正感情情報CVEと文字感情情報TEとに基づいて、ユーザUが抱く感情を推定する(ステップS91)。一方、ステップS71の判定結果が肯定であり、ステップS76の判定結果が否定の場合も、感情推定部25Cの推定部258は、ステップS91の処理を実行する。
Then, in the
When the determination result in step S71 is affirmative and the determination result in step S76 is affirmative, the
ステップS71の判定結果が否定の場合、すなわち、補正情報CI及び音情報SIの送信元のユーザ装置1bを所持するユーザUが非キャリブレーションユーザである場合、サーバ装置10Cは、特定文字列STと認識文字列RTとが一致するか否かを判定する(ステップS81)。ステップS71の判定結果が否定であり、かつ、ステップS81の判定結果が肯定の場合、感情推定部25Bの調整部254Cは、補正感情情報CVEに含まれる音声評価値Xを文字感情情報TEに含まれる複数の文字評価値Yに近づける目的で、非キャリブレーションユーザ用のパラメータ情報TIを調整する(ステップS82)。そして、感情推定部25Cのノイズ除去部251Cは、音情報SIが示す音から、パラメータ情報TIの第1パラメータP1及び第2パラメータP2に従ってノイズを除去して音声情報VIを生成する(ステップS83)。
ステップS71の判定結果が否定であり、かつ、ステップS81の判定結果が否定の場合も、感情推定部25Cのノイズ除去部251Cは、ステップS83の処理を実行する。
When the determination result in step S71 is negative, that is, when the user U who possesses the
Even if the determination result in step S71 is negative and the determination result in step S81 is negative, the
ステップS83の処理終了後、感情推定部25Cの音声評価部252Bは、ノイズを除去した音声情報VIから、音の特徴量を抽出する(ステップS84)。次に、感情推定部25Cの音声評価部252Bは、音の特徴量を学習モデルLMに入力し、各感情の音声評価値xを含む音声感情情報VEを学習モデルLMから取得する(ステップS85)。そして、感情推定部25Cの補正部253は、補正情報CIを用いて、音声感情情報VEに含まれる音声評価値xを補正した補正感情情報CVEを生成する(ステップS86)。ステップS86の処理終了後、感情推定部25Cの推定部258は、ステップS91の処理を実行する。
After the processing of step S83 is completed, the
ステップS91の処理終了後、サーバ装置10Cは、認識文字列RTと、ステップS61の処理結果である推定感情情報EIとを、ユーザ装置1bに送信する。出力部26は、認識文字列RTに対して、推定感情情報EIが示す感情に応じた処理を実行して得られる情報を出力する(ステップS92)。ステップS92の処理終了後、感情推定システムSYScは、図21に示す一連の処理を終了する。
After the processing of step S91 is completed, the server device 10C transmits the recognition character string RT and the estimated emotion information EI which is the processing result of step S61 to the
4.3.第4実施形態の効果
第4実施形態も、第3実施形態と同様に、ユーザU2が特定文字列STを発話した場合には、文字感情情報TEが正解の感情を示している可能性が高いので、サーバ装置10Cは、音声評価値Xを文字評価値Yに近づける目的で、ユーザU2用のパラメータ情報TIを調整する。以上により、非キャリブレーションユーザについて、キャリブレーションモードを用いなくても、ユーザUが抱く感情の推定精度を向上できる。非キャリブレーションユーザは、ユーザ装置1bをキャリブレーションモードに設定しなくとも感情の推定精度を向上できるで、ユーザ装置1bは、非キャリブレーションユーザの手間を削減できる。
集音装置8の性能は、ユーザ装置1b間で互いに異なる。例えば、集音装置8の製造元が異なると、集音装置8の性能も一般的に互いに異なる。また、集音装置8は経年劣化により性能が低下する傾向にあるため、同一の製造元の集音装置8であっても、製造時点からの日数が異なる場合、集音装置8の性能も互いに異なる傾向にある。ユーザ装置1b間で集音装置8の性能が互いに異なる結果、音情報SIに含まれるノイズの量も異なるため、パラメータ情報TIを調整することにより、ユーザUが抱く感情を精度良く推定できる。
例えば、学習済みのパラメータ情報TIを適用したノイズ処理を実行すると、集音装置8の性能の違いによって、音声情報VIから感情推定に必要な情報が欠落する場合がある。従って、集音装置8の性能に応じてパラメータ情報TIを調整することにより、ユーザUが抱く感情を精度良く推定できる。
4.3. Effect of the fourth embodiment As in the third embodiment, when the user U2 utters the specific character string ST, the character emotion information TE is likely to indicate the correct emotion. Therefore, the server device 10C adjusts the parameter information TI for the user U2 for the purpose of bringing the voice evaluation value X closer to the character evaluation value Y. As described above, for the non-calibrated user, the estimation accuracy of the emotion held by the user U can be improved without using the calibration mode. The non-calibrated user can improve the emotion estimation accuracy without setting the
The performance of the
For example, when noise processing to which the learned parameter information TI is applied is executed, the information necessary for emotion estimation may be missing from the voice information VI due to the difference in the performance of the
5.第5実施形態
第5実施形態にかかる感情推定システムSYSdは、第1実施形態で示した感情推定部25の処理を、サーバ装置10Dとユーザ装置1dとで分散する点で、第1実施形態にかかるユーザ装置1と相違する。以下、第5実施形態にかかる感情推定システムSYSdを説明する。なお、以下に例示する第5実施形態において作用又は機能が第1実施形態と同等である要素については、以上の説明で参照の符号を流用して各々の詳細な説明を適宜に省略する。
5. Fifth Embodiment The emotion estimation system SYSd according to the fifth embodiment is the first embodiment in that the processing of the
5.1.第5実施形態の概要
図22は、感情推定システムSYSdの全体構成を示す図である。感情推定システムSYSdは、ユーザUが所持するユーザ装置1dと、ネットワークNWと、サーバ装置10Dとを備える。
5.1. Outline of the 5th Embodiment FIG. 22 is a diagram showing the overall configuration of the emotion estimation system SYSTEM. The emotion estimation system SYSd includes a
図23は、ユーザ装置1dの構成を示すブロック図である。ユーザ装置1dは、処理装置2d、記憶装置3d、表示装置4、操作装置5、通信装置6、放音装置7、及び、集音装置8を具備するコンピュータシステムにより実現される。記憶装置3dは、処理装置2dが読取可能な記録媒体であり、処理装置2dが実行する制御プログラムPRdを含む複数のプログラムを記憶する。通信装置6が、「第2通信装置」の一例である。
FIG. 23 is a block diagram showing the configuration of the
処理装置2dは、記憶装置3dから制御プログラムPRdを読み取り実行することによって、取得部21、第1感情推定部25d、及び、出力部26として機能する。
The
図24は、サーバ装置10Dの構成を示すブロック図である。サーバ装置10Dは、処理装置2D、記憶装置3D、及び、通信装置6Bを具備するコンピュータシステムにより実現される。記憶装置3Dは、処理装置2Dが読取可能な記録媒体であり、処理装置2Dが実行する制御プログラムPRDを含む複数のプログラム、解析用辞書情報31、感情分類情報33、及び、学習モデルLMを記憶する。通信装置6Bが、「第1通信装置」の一例である。
FIG. 24 is a block diagram showing the configuration of the
処理装置2Dは、記憶装置3Dから制御プログラムPRDを読み取り実行することによって、第2感情推定部25Dとして機能する。図25を用いて、感情推定システムSYSdの機能について説明する。
The processing device 2D functions as a second
図25は、感情推定システムSYSdの機能の概要を示す図である。第1感情推定部25dは、補正部253、及び、推定部258を含む。第2感情推定部25Dは、ノイズ除去部251、音声評価部252、文字評価部256を含む。
FIG. 25 is a diagram showing an outline of the functions of the emotion estimation system SYSd. The first
取得部21は、ユーザU1の音声を含む音を集音する集音装置8が出力する音情報SI1を取得する。通信装置6は、音情報SIを、サーバ装置10Dに送信する。第2感情推定部25Dは、音情報SIに基づいて、音声感情情報VEと文字感情情報TEと認識文字列RTとを生成する。通信装置6Bは、音声感情情報VEと文字感情情報TEと認識文字列RTとをユーザ装置1dに送信する。
The
補正部253は、補正情報CIを用いて、補正感情情報CVEを生成する。推定部258は、補正感情情報CVEと文字感情情報TEとに基づいて、ユーザUが抱く感情を推定する。出力部26は、認識文字列RTに対して、推定感情情報EIが示す感情に応じた処理を実行して得られたデータを出力する。
The
5.2.第5実施形態の効果
以上の説明によれば、感情推定システムSYSdにおいて、ユーザ装置1dは、第1実施形態におけるユーザ装置1と比較すると、負荷を軽減できる。
5.2. Effect of Fifth Embodiment According to the above description, in the emotion estimation system SYSd, the load of the
6.第6実施形態
第6実施形態にかかる感情推定システムSYSeは、第2実施形態で示した感情推定部25の処理を、サーバ装置10Dとユーザ装置1eとで分散する点で、第2実施形態にかかるユーザ装置1aと相違する。以下、第6実施形態にかかる感情推定システムSYSeを説明する。なお、以下に例示する第6実施形態において作用又は機能が第2実施形態又は第5実施形態と同等である要素については、以上の説明で参照の符号を流用して各々の詳細な説明を適宜に省略する。
6. The sixth embodiment The emotion estimation system SYSSe according to the sixth embodiment is the second embodiment in that the processing of the
6.1.第6実施形態の概要
図26は、感情推定システムSYSeの全体構成を示す図である。感情推定システムSYSeは、ユーザUが所持するユーザ装置1eと、ネットワークNWと、サーバ装置10Dとを備える。
6.1. Outline of the Sixth Embodiment FIG. 26 is a diagram showing the overall configuration of the emotion estimation system SYSTEM. The emotion estimation system SYSTEM includes a user device 1e owned by the user U, a network NW, and a
図27は、ユーザ装置1eの構成を示すブロック図である。ユーザ装置1eは、処理装置2e、記憶装置3e、表示装置4、操作装置5、通信装置6、放音装置7、及び、集音装置8を具備するコンピュータシステムにより実現される。記憶装置3eは、処理装置2eが読取可能な記録媒体であり、処理装置2eが実行する制御プログラムPReを含む複数のプログラムを記憶する。
FIG. 27 is a block diagram showing the configuration of the user device 1e. The user device 1e is realized by a computer system including a
処理装置2eは、記憶装置3eから制御プログラムPReを読み取り実行することによって、取得部21a、第1感情推定部25e、及び、出力部26として機能する。図28を用いて、感情推定システムSYSeの機能について説明する。
The
図28は、感情推定システムSYSeの機能の概要を示す図である。第1感情推定部25eは、補正部253と、調整部254と、推定部258とを含む。
FIG. 28 is a diagram showing an outline of the functions of the emotion estimation system SYSTEM. The first
取得部21aは、ユーザUが明示感情を発露させた音声を含む音を示す音情報SIaを取得する。サーバ装置10Dは、音情報SIaに基づいて音声感情情報VEaを生成する。そして、通信装置6Bが、音声感情情報VEaをユーザ装置1に送信する。
The
調整部254は、ユーザUが抱く感情が明示感情であると推定部258が推定する可能性を高くする目的で、明示的な音声感情情報VEaに基づいて補正情報CIを調整する。
The
6.2.第6実施形態の効果
以上の説明によれば、感情推定システムSYSにおいて、ユーザ装置1dは、第2実施形態におけるユーザ装置1と比較すると、負荷を軽減できる。
6.2. Effect of the Sixth Embodiment According to the above description, in the emotion estimation system SYS, the load of the
7.第7実施形態
第7実施形態にかかる感情推定システムSYSfは、第3実施形態で示した感情推定部25の処理を、サーバ装置10Fとユーザ装置1fとで分散する点で、第3実施形態にかかる感情推定システムSYSと相違する。以下、第7実施形態にかかる感情推定システムSYSfを説明する。なお、以下に例示する第7実施形態において作用又は機能が第3実施形態又は第5実施形態と同等である要素については、以上の説明で参照の符号を流用して各々の詳細な説明を適宜に省略する。
7. Seventh Embodiment The emotion estimation system SYSf according to the seventh embodiment has the third embodiment in that the processing of the
7.1.第7実施形態の概要
図29は、感情推定システムSYSfの全体構成を示す図である。感情推定システムSYSfは、ユーザUが所持するユーザ装置1fと、ネットワークNWと、サーバ装置10Fとを備える。ユーザU1が、「第1ユーザ」の例である。ユーザU2が、「第2ユーザ」の例である。
7.1. Outline of the 7th Embodiment FIG. 29 is a diagram showing the overall configuration of the emotion estimation system SYSf. The emotion estimation system SYSf includes a
図30は、ユーザ装置1fを示すブロック図である。ユーザ装置1fは、処理装置2f、記憶装置3f、表示装置4、操作装置5、通信装置6、放音装置7、及び、集音装置8を具備するコンピュータシステムにより実現される。記憶装置3fは、処理装置2fが読取可能な記録媒体であり、処理装置2fが実行する制御プログラムPRfを含む複数のプログラムを記憶する。
FIG. 30 is a block diagram showing a
処理装置2fは、記憶装置3fから制御プログラムPRfを読み取り実行することによって、取得部21、第1感情推定部25f、及び、出力部26として機能する。
The
図31は、サーバ装置10Fの構成を示すブロック図である。サーバ装置10Fは、処理装置2F、記憶装置3F、及び、通信装置6Bを具備するコンピュータシステムにより実現される。記憶装置3Fは、処理装置2Fが読取可能な記録媒体であり、処理装置2Fが実行する制御プログラムPRFを含む複数のプログラム、解析用辞書情報31、感情分類情報33、及び、学習モデルLMを記憶する。
FIG. 31 is a block diagram showing the configuration of the
処理装置2Fは、記憶装置3Fから制御プログラムPRDを読み取り実行することによって、第2感情推定部25Fとして機能する。図32を用いて、感情推定システムSYSfの機能について説明する。
The
図32は、感情推定システムSYSfとの機能の概要を示す図である。第1感情推定部25fは、補正部253、調整部254、及び、推定部258を含む。第2感情推定部25Fは、ノイズ除去部251、音声評価部252、文字評価部256、及び、特定部259を含む。ユーザ装置1f1が、「第1端末装置」の一例である。ユーザ装置1f2が、「第2端末装置」の一例である。図面の煩雑化を防ぐため、ユーザ装置1f1の処理装置2fが実現する機能については、図示を省略している。
FIG. 32 is a diagram showing an outline of the function with the emotion estimation system SYSf. The first
ユーザ装置1f1の取得部21は、ユーザ装置1f1の集音装置8が出力する音情報SI1を取得する。ユーザ装置1f1の集音装置8は、「第1集音装置」の一例である。ユーザ装置1f1の通信装置6は、音情報SI1をサーバ装置10Fに送信する。ノイズ除去部251は、音情報SI1が示す音からノイズを除去して音声情報VI1を生成する。ユーザU1に関して、以降の処理は、図13に示す音声評価部252B、補正部253、音声認識処理部2561、形態素解析処理部2563、評価値算出部2565、特定部259と同一であるため、説明を省略する。さらに、図示を省略しているが、第2感情推定部25Fは、認識文字列RT1と、ユーザU1の音声感情情報VE1と、ユーザU1の文字感情情報TE1とを、ユーザ装置1f1に送信する。そして、特定部259が特定文字列STを特定するために、ユーザ装置1f1の通信装置6は、ユーザU1の補正感情情報CVE1をサーバ装置10Fに送信する。
ユーザU2に関して、ユーザ装置1f2の取得部21は、ユーザ装置1f2の集音装置8が出力する音情報SI2を取得する。ユーザ装置1f2の集音装置8は、「第2集音装置」の一例である。ユーザ装置1f2の通信装置6は、音情報SI2をサーバ装置10Fに送信する。ユーザ装置1f2の通信装置6は、「第3通信装置」の一例である。ユーザU2に関して、以降の処理は、図13に示す音声評価部252B、補正部253、音声認識処理部2561、形態素解析処理部2563、評価値算出部2565と同一であるため、説明を省略する。通信装置6Bは、特定文字列STと、ユーザU2の音声感情情報VE2と、ユーザU2の文字感情情報TE2とを、ユーザ装置1f2に送信する。
The
Regarding the user U2, the
非キャリブレーションユーザであるユーザU2が、特定文字列STを発話した場合には、調整部254は、ユーザU2の補正感情情報CVE2に含まれる複数の音声評価値Xを、複数の感情の各々について、ユーザU2の文字感情情報TE2に含まれる複数の文字評価値Yに近づける目的で、ユーザU2用の補正情報CI2を調整する。
When the user U2 who is a non-calibration user utters a specific character string ST, the
7.2.第7実施形態の効果
以上の説明によれば、感情推定システムSYSfにおいて、サーバ装置10Fは、第3実施形態におけるサーバ装置10と比較すると、負荷を軽減できる。
7.2. Effect of the 7th Embodiment According to the above description, in the emotion estimation system SYSf, the load of the
8.変形例
本発明は、以上に例示した各実施形態に限定されない。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様を併合してもよい。
8. Modifications The present invention is not limited to the embodiments exemplified above. A specific mode of modification is illustrated below. Two or more aspects arbitrarily selected from the following examples may be merged.
(1)第1変形例として、推定部258は、補正感情情報CVEと文字感情情報TEとに基づいて、ユーザUが抱く感情を推定することを説明したが、これに限らない。推定部258が補正感情情報CVEに基づいて、ユーザUが抱く1以上の感情を推定する例を、図33を用いて説明する。
(1) As a first modification, the
図33は、第1変形例におけるユーザ装置1gの機能の概要を示す図である。ユーザ装置1gの処理装置2は、ユーザ装置1gの記憶装置3から制御プログラムを読み取り実行することによって、取得部21、感情推定部25g、及び、出力部26gとして機能する。感情推定部25gは、ノイズ除去部251、音声評価部252、補正部253、及び、推定部258gを含む。推定部258gは、補正感情情報CVEに基づいて、ユーザUが抱く1以上の感情を推定する。例えば、推定部258gは、補正感情情報CVEの音声評価値X1〜X4を閾値と比較し、閾値を超える音声評価値Xを特定する。推定部258gは、特定された音声評価値Xに対応する1以上の感情を、ユーザUが抱く1以上の感情として推定する。感情推定部25gは、推定したユーザUが抱く1以上の感情を示す推定感情情報EIを出力する。
出力部26gは、推定感情情報EIを出力する。例えば、出力部26gは、推定感情情報EIが示す感情を示す文字列を、表示装置4に出力する。
FIG. 33 is a diagram showing an outline of the function of the user device 1g in the first modification. The
The
(2)第4実施形態に示した感情推定部25Cの処理を、サーバ装置10とユーザ装置1とで分散してもよい。例えば、サーバ装置10における第2感情推定部25は、ノイズ除去部251C、音声評価部252B、文字評価部256、及び、特定部259を有する。ユーザ装置1における第1感情推定部25は、補正部253、調整部254、推定部258を有する。
(2) The processing of the
(3)感情推定部25は、喜び、怒り、悲しみ、及び、平常のうち、1以上の感情を推定することとして説明したが、1つの感情を推定してもよい。例えば、推定部258は、補正感情情報CVEの音声評価値X1〜X4と文字感情情報TEの文字評価値Y1〜Y4とを感情ごとに加算して、感情ごとに加算値を算出する。推定部258は、感情ごとの加算値のうち最も大きい値の感情を、ユーザUが抱く感情として推定してもよい。
(3) Although the
(4)第3実施形態では、サーバ装置10によって感情推定部25Bが実現したが、1台のユーザ装置1に適用してもよい。例えば、ユーザ装置1が、複数のユーザUによって所持される場合である。ある期間において、ユーザU1がユーザ装置1を所持し、ユーザ装置1をキャリブレーションモードに設定し、ある期間の後の期間において、ユーザU2がユーザ装置1を所持した場合に、第3実施形態を適用してもよい。
(4) In the third embodiment, the
(5)第5実施形態、第6実施形態、及び、第7実施形態において、通信装置6Bは、認識文字列RTと、ユーザU2の音声感情情報VE2と、ユーザU2の文字感情情報TE2とを、ユーザ装置1f2に送信するが、認識文字列RTを送信しなくてもよい。例えば、ユーザ装置1fは、推定感情情報EIが示す感情を示す文字列を、表示装置4に出力する。
(5) In the fifth embodiment, the sixth embodiment, and the seventh embodiment, the
(6)ユーザ装置1は、集音装置8を有さなくてもよい。集音装置8を有さない場合、ユーザ装置1は、通信装置6を介して音情報SIを取得してもよいし、記憶装置3に記憶された音情報SIを取得してもよい。
(6) The
(7)ユーザ装置1は、放音装置7を有さなくてもよい。
(7) The
(8)ユーザ装置1は、スマートスピーカでもよい。ユーザ装置1がスマートスピーカである場合、ユーザ装置1は、表示装置4及び操作装置5を有さなくてもよい。
(8) The
(9)感情分類情報33は、図4に示すように、「勝つ」、「勝っ」のように、ある単語が活用した複数の形態素のそれぞれを、喜び、怒り、悲しみ、及び、平常の何れかに分類したが、これに限らない。例えば、感情分類情報33は、解析用辞書情報31の原形データに登録された文字列を、喜び、怒り、悲しみ、及び、平常の何れかに分類してもよい。例えば、感情分類情報33は、解析用辞書情報31の原形データに登録された文字列「嬉しい」、「合格」、及び「勝つ」を、喜びに分類する。評価値算出部2565は、補正後認識文字列CRTを形態素ごとに分解し、分解した形態素を、解析用辞書情報31の原形データに登録された文字列に変換する。そして、評価値算出部2565は、変換して得られた文字列と、感情分類情報33に含まれる文字列とが一致する場合に、この補正後認識文字列CRTに含まれる文字列に対応する感情の文字評価値Yを増加させる。
(9) As shown in FIG. 4, the
(10)評価値算出部2565は、補正後認識文字列CRTに対して、感情ごとの文字評価値Yを算出したが、認識文字列RTに対して感情ごとの文字評価値Yを算出してもよい。しかしながら、認識文字列RTには、感情を推定するためには不要な文字列が含まれる。従って、補正後認識文字列CRTに対して感情ごとの文字評価値Yを算出することにより、認識文字列RTに対して感情ごとの文字評価値Yを算出する場合と比較して、感情の推定精度を向上できる。
(10) The evaluation
(11)第1の態様における相違の程度を示す値は、音声評価値Xと文字評価値Yとの差分の2乗の和であったが、音声評価値Xと文字評価値Yとの差分の絶対値の和等、評価値間の距離を定義する任意の評価関数によって求められる値でもよい。 (11) The value indicating the degree of difference in the first aspect was the sum of the squares of the differences between the voice evaluation value X and the character evaluation value Y, but the difference between the voice evaluation value X and the character evaluation value Y. It may be a value obtained by an arbitrary evaluation function that defines the distance between evaluation values, such as the sum of absolute values of.
(12)ユーザUが日本語を話す例を用いたが、ユーザが如何なる言語を話しても上述の各態様を適用することが可能である。例えば、ユーザUが、日本語以外の英語、フランス語、又は中国語等を話す場合であっても上述の各態様を適用できる。例えば、ユーザUが英語を話す場合、解析用辞書情報31は、英語の形態素に関する情報であり、感情分類情報33は、英単語を喜び、怒り、悲しみ、及び、平常の何れかに分類したデータであればよい。
(12) Although the example in which the user U speaks Japanese is used, each of the above aspects can be applied to any language spoken by the user. For example, even when the user U speaks English, French, Chinese, or the like other than Japanese, each of the above aspects can be applied. For example, when the user U speaks English, the
(13)上述した各態様の説明に用いたブロック図は、機能単位のブロックを示している。これらの機能ブロック(構成部)は、ハードウェア及び/又はソフトウェアの任意の組み合わせによって実現される。また、各機能ブロックの実現手段は特に限定されない。すなわち、各機能ブロックは、物理的及び/又は論理的に結合した1つの装置により実現されてもよいし、物理的及び/又は論理的に分離した2つ以上の装置を直接的及び/又は間接的に(例えば、有線及び/又は無線)で接続し、これら複数の装置により実現されてもよい。 (13) The block diagram used in the description of each of the above-described aspects shows a block of functional units. These functional blocks (components) are realized by any combination of hardware and / or software. Further, the means for realizing each functional block is not particularly limited. That is, each functional block may be realized by one physically and / or logically coupled device, or directly and / or indirectly by two or more physically and / or logically separated devices. (For example, wired and / or wireless) may be connected and realized by these plurality of devices.
(14)上述した各態様における処理手順、シーケンス、フローチャートなどは、矛盾のない限り、順序を入れ替えてもよい。例えば、本明細書で説明した方法については、例示的な順序で様々なステップの要素を提示しており、提示した特定の順序に限定されない。 (14) The order of the processing procedures, sequences, flowcharts, etc. in each of the above-described aspects may be changed as long as there is no contradiction. For example, the methods described herein present elements of various steps in an exemplary order, and are not limited to the particular order presented.
(15)上述した各態様において、入出力された情報等は特定の場所(例えば、メモリ)に保存されてもよいし、管理テーブルで管理してもよい。入出力される情報等は、上書き、更新、又は追記され得る。出力された情報等は削除されてもよい。入力された情報等は他の装置へ送信されてもよい。 (15) In each of the above-described aspects, the input / output information and the like may be stored in a specific place (for example, a memory) or may be managed by a management table. Input / output information and the like can be overwritten, updated, or added. The output information and the like may be deleted. The input information or the like may be transmitted to another device.
(16)上述した各態様において、判定は、1ビットで表される値(0か1か)によって行われてもよいし、真偽値(Boolean:true又はfalse)によって行われてもよいし、数値の比較(例えば、所定の値との比較)によって行われてもよい。 (16) In each of the above-described aspects, the determination may be made by a value represented by 1 bit (0 or 1) or by a boolean value (Boolean: true or false). , May be done by numerical comparison (eg, comparison with a given value).
(17)上述した各態様では、スマートフォン等の可搬型の情報処理装置をユーザ装置1として例示したが、ユーザ装置1の具体的な形態は任意であり、前述の各形態の例示には限定されない。例えば、可搬型又は据置型のパーソナルコンピュータをユーザ装置1として利用してもよい。
(17) In each of the above-described aspects, a portable information processing device such as a smartphone is illustrated as the
(18)上述した各態様では、記憶装置3は、処理装置2が読取可能な記録媒体であり、ROM及びRAMなどを例示したが、フレキシブルディスク、光磁気ディスク(例えば、コンパクトディスク、デジタル多用途ディスク、Blu−ray(登録商標)ディスク)、スマートカード、フラッシュメモリデバイス(例えば、カード、スティック、キードライブ)、CD−ROM(Compact Disc−ROM)、レジスタ、リムーバブルディスク、ハードディスク、フロッピー(登録商標)ディスク、磁気ストリップ、データベース、サーバその他の適切な記憶媒体である。また、プログラムは、ネットワークから送信されても良い。また、プログラムは、電気通信回線を介して通信網から送信されても良い。
(18) In each of the above-described aspects, the
(19)上述した各態様は、LTE(Long Term Evolution)、LTE−A(LTE-Advanced)、SUPER 3G、IMT−Advanced、4G、5G、FRA(Future Radio Access)、W−CDMA(登録商標)、GSM(登録商標)、CDMA2000、UMB(Ultra Mobile Broadband)、IEEE 802.11(Wi−Fi)、IEEE 802.16(WiMAX)、IEEE 802.20、UWB(Ultra-WideBand)、Bluetooth(登録商標)、その他の適切なシステムを利用するシステム及び/又はこれらに基づいて拡張された次世代システムに適用されてもよい。 (19) Each of the above-described embodiments includes LTE (Long Term Evolution), LTE-A (LTE-Advanced), SUPER 3G, IMT-Advanced, 4G, 5G, FRA (Future Radio Access), and W-CDMA (registered trademark). , GSM (registered trademark), CDMA2000, UMB (Ultra Mobile Broadband), IEEE 802.11 (Wi-Fi), IEEE 802.16 (WiMAX), IEEE 802.20, UWB (Ultra-WideBand), Bluetooth (registered trademark) ), Other systems that utilize suitable systems and / or next-generation systems that are extended based on them.
(20)上述した各態様において、説明した情報及び信号などは、様々な異なる技術の何れかを使用して表されてもよい。例えば、上述の説明全体に渡って言及され得るデータ、命令、コマンド、情報、信号、ビット、シンボル、チップなどは、電圧、電流、電磁波、磁界若しくは磁性粒子、光場若しくは光子、又はこれらの任意の組み合わせによって表されてもよい。
なお、本明細書で説明した用語及び/又は本明細書の理解に必要な用語については、同一の又は類似する意味を有する用語と置き換えてもよい。
(20) In each of the above aspects, the information, signals, and the like described may be represented using any of a variety of different techniques. For example, data, instructions, commands, information, signals, bits, symbols, chips, etc. that may be referred to throughout the above description are voltages, currents, electromagnetic waves, magnetic fields or magnetic particles, light fields or photons, or any of these. It may be represented by a combination of.
In addition, the terms described in the present specification and / or the terms necessary for understanding the present specification may be replaced with terms having the same or similar meanings.
(21)図2、図5、図7、図8、図11、図12、図13、図14、図18、図19、図20、図23、図24、図25、図27、図28、図30、図31、図32、及び、図33に例示された各機能は、ハードウェア及びソフトウェアの任意の組み合わせによって実現される。また、各機能は、単体の装置によって実現されてもよいし、相互に別体で構成された2個以上の装置によって実現されてもよい。 (21) FIG. 2, FIG. 5, FIG. 7, FIG. 8, FIG. 11, FIG. 12, FIG. 13, FIG. 14, FIG. 18, FIG. 19, FIG. 20, FIG. 23, FIG. 24, FIG. 25, FIG. 27, FIG. 28. , 30, 31, 32, and 33, each of which is illustrated by any combination of hardware and software. Further, each function may be realized by a single device, or may be realized by two or more devices configured as separate bodies from each other.
(22)上述した各実施形態で例示したプログラムは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード又はハードウェア記述言語と呼ばれるか、他の名称によって呼ばれるかを問わず、命令、命令セット、コード、コードセグメント、プログラムコード、サブプログラム、ソフトウェアモジュール、アプリケーション、ソフトウェアアプリケーション、ソフトウェアパッケージ、ルーチン、サブルーチン、オブジェクト、実行可能ファイル、実行スレッド、手順又は機能等を意味するよう広く解釈されるべきである。
また、ソフトウェア、命令などは、伝送媒体を介して送受信されてもよい。例えば、ソフトウェアが、同軸ケーブル、光ファイバケーブル、ツイストペア及びデジタル加入者回線(DSL)などの有線技術及び/又は赤外線、無線及びマイクロ波などの無線技術を使用してウェブサイト、サーバ、又は他のリモートソースから送信される場合、これらの有線技術及び/又は無線技術は、伝送媒体の定義内に含まれる。
(22) The programs exemplified in each of the above-described embodiments are called instructions, instruction sets, codes, code segments regardless of whether they are called software, firmware, middleware, microcode or hardware description language, or by other names. , Program code, subprograms, software modules, applications, software applications, software packages, routines, subroutines, objects, executables, execution threads, procedures or functions, etc. should be broadly interpreted to mean.
Further, software, instructions, and the like may be transmitted and received via a transmission medium. For example, the software uses wired technology such as coaxial cable, fiber optic cable, twist pair and digital subscriber line (DSL) and / or wireless technology such as infrared, wireless and microwave to websites, servers, or other When transmitted from a remote source, these wired and / or wireless technologies are included within the definition of transmission medium.
(23)上述した各実施形態において、情報、パラメータなどは、絶対値で表されてもよいし、所定の値からの相対値で表されてもよいし、対応する別の情報で表されてもよい。 (23) In each of the above-described embodiments, the information, parameters, etc. may be represented by absolute values, relative values from a predetermined value, or other corresponding information. May be good.
(24)上述したパラメータに使用する名称はいかなる点においても限定的なものではない。さらに、これらのパラメータを使用する数式等は、本明細書で明示的に開示したものと異なる場合もある。 (24) The names used for the above-mentioned parameters are not limited in any respect. Further, mathematical formulas and the like using these parameters may differ from those expressly disclosed herein.
(25)上述した各実施形態において、ユーザ装置1は、移動局である場合が含まれる。移動局は、当業者によって、加入者局、モバイルユニット、加入者ユニット、ワイヤレスユニット、リモートユニット、モバイルデバイス、ワイヤレスデバイス、ワイヤレス通信デバイス、リモートデバイス、モバイル加入者局、アクセス端末、モバイル端末、ワイヤレス端末、リモート端末、ハンドセット、ユーザエージェント、モバイルクライアント、クライアント、又はいくつかの他の適切な用語で呼ばれる場合もある。
(25) In each of the above-described embodiments, the
(26)上述した各実施形態において、「に基づいて」という記載は、別段に明記されていない限り、「のみに基づいて」を意味しない。言い換えれば、「に基づいて」という記載は、「のみに基づいて」と「に少なくとも基づいて」の両方を意味する。 (26) In each of the above embodiments, the statement "based on" does not mean "based on" unless otherwise stated. In other words, the statement "based on" means both "based only" and "at least based on".
(27)本明細書で使用する「第1」、「第2」などの呼称を使用した要素へのいかなる参照も、それらの要素の量又は順序を全般的に限定するものではない。これらの呼称は、2つ以上の要素間を区別する便利な方法として本明細書で使用され得る。従って、第1及び第2の要素への参照は、2つの要素のみがそこで採用され得ること、又は何らかの形で第1の要素が第2の要素に先行しなければならないことを意味しない。 (27) Any reference to elements using designations such as "first", "second" as used herein does not generally limit the quantity or order of those elements. These designations can be used herein as a convenient way to distinguish between two or more elements. Thus, references to the first and second elements do not mean that only two elements can be adopted there, or that the first element must somehow precede the second element.
(28)上述した各実施形態において「含む(including)」、「含んでいる(comprising)」、及びそれらの変形が、本明細書あるいは特許請求の範囲で使用されている限り、これら用語は、用語「備える」と同様に、包括的であることが意図される。さらに、本明細書あるいは特許請求の範囲において使用されている用語「又は(or)」は、排他的論理和ではないことが意図される。 (28) As long as "inclusion," "comprising," and variations thereof in each of the embodiments described above are used herein or within the scope of the claims, these terms are used. As with the term "prepare", it is intended to be inclusive. Furthermore, the term "or" as used herein or in the claims is intended not to be an exclusive OR.
(29)本願の全体において、例えば、英語におけるa、an及びtheのように、翻訳によって冠詞が追加された場合、これらの冠詞は、文脈から明らかにそうではないことが示されていなければ、複数を含む。 (29) In the whole of the present application, if articles are added by translation, for example, a, an and the in English, unless the context clearly indicates that these articles are not. Including multiple.
(30)本発明が本明細書中に説明した実施形態に限定されないことは当業者にとって明白である。本発明は、特許請求の範囲の記載に基づいて定まる本発明の趣旨及び範囲を逸脱することなく修正及び変更態様として実施できる。従って、本明細書の記載は、例示的な説明を目的とし、本発明に対して何ら制限的な意味を有さない。また、本明細書に例示した態様から選択された複数の態様を組み合わせてもよい。 (30) It will be apparent to those skilled in the art that the present invention is not limited to the embodiments described herein. The present invention can be implemented as modifications and modifications without departing from the spirit and scope of the invention, which is determined based on the description of the claims. Therefore, the description herein is for illustrative purposes and has no limiting implications for the present invention. In addition, a plurality of aspects selected from the aspects illustrated in the present specification may be combined.
1、1a、1b、1d、1e、1f、1g…ユーザ装置、10、10C、10D、10F…サーバ装置、21、21a…取得部、26…出力部、31…解析用辞書情報、33…感情分類情報、251、251C…ノイズ除去部、252、252B…音声評価部、253…補正部、254、254C…調整部、256…文字評価部、258…推定部、259…特定部、CI…補正情報、CVE…補正感情情報、LM…学習モデル、P1…第1パラメータ、P2…第2パラメータ、TE…文字感情情報、U…ユーザ、VE…音声感情情報、VI…音声情報、X…音声評価値、Y…文字評価値。 1, 1a, 1b, 1d, 1e, 1f, 1g ... User device, 10, 10C, 10D, 10F ... Server device, 21, 21a ... Acquisition unit, 26 ... Output unit, 31 ... Analysis dictionary information, 33 ... Emotion Classification information, 251, 251C ... Noise removal unit, 252, 252B ... Voice evaluation unit, 253 ... Correction unit, 254, 254C ... Adjustment unit, 256 ... Character evaluation unit, 258 ... Estimating unit, 259 ... Specific unit, CI ... Correction Information, CVE ... Corrected emotion information, LM ... Learning model, P1 ... 1st parameter, P2 ... 2nd parameter, TE ... Character emotion information, U ... User, VE ... Voice emotion information, VI ... Voice information, X ... Voice evaluation Value, Y ... Character evaluation value.
Claims (9)
前記ユーザの音声の特徴に基づく補正情報を用いて前記音声感情情報を補正した補正感情情報を生成する補正部と、
前記補正感情情報に基づいて、前記複数の感情の中から前記ユーザが抱く1以上の感情を推定する推定部と、
を備える感情推定装置。 Voice information indicating the user's voice for a learning model that has been learned for multiple humans, regarding the relationship between multiple feature quantities according to human voice and the intensity of each of the multiple emotions held by the person who emitted the voice. A voice evaluation unit that inputs a plurality of feature quantities based on the above and acquires voice emotion information including a voice evaluation value indicating the intensity of each of the plurality of emotions held by the user from the learning model.
A correction unit that generates corrected emotion information that corrects the voice emotion information using correction information based on the characteristics of the user's voice, and a correction unit.
An estimation unit that estimates one or more emotions held by the user from the plurality of emotions based on the corrected emotion information.
Emotion estimator equipped with.
前記音情報が示す音からノイズを除去して前記音声情報を生成するノイズ除去部と、
を備える請求項1に記載の感情推定装置。 An acquisition unit that acquires sound information output by a sound collecting device that collects sounds including the user's voice, and an acquisition unit.
A noise removing unit that removes noise from the sound indicated by the sound information to generate the voice information,
The emotion estimation device according to claim 1.
前記ユーザが抱く感情が前記一の感情であると前記推定部が推定する可能性を高くする目的で、前記明示的な音声感情情報に基づいて前記補正情報を調整する調整部、
を備える請求項1又は2に記載の感情推定装置。 The voice evaluation unit inputs a plurality of feature quantities based on voice information indicating a voice in which the user explicitly expresses one of the plurality of emotions to the learning model, and the user Explicit voice emotional information is obtained from the learning model and
An adjustment unit that adjusts the correction information based on the explicit voice emotion information for the purpose of increasing the possibility that the estimation unit estimates that the emotion held by the user is the one emotion.
The emotion estimation device according to claim 1 or 2.
前記推定部は、前記補正感情情報と前記文字感情情報とに基づいて、前記ユーザが抱く1以上の感情を推定する、
請求項3に記載の感情推定装置。 A voice recognition process for recognizing the utterance content of the voice uttered by the human is executed for the sound information, and based on the recognition character string indicating the recognition result of the voice recognition process, the plurality of emotions held by the user It is equipped with a character evaluation unit that generates character emotion information including a character evaluation value indicating the strength for each.
The estimation unit estimates one or more emotions held by the user based on the corrected emotion information and the character emotion information.
The emotion estimation device according to claim 3.
明示的な感情を発露させた音声を発話していない他のユーザが、前記特定文字列を発話した場合、
前記音声評価部は、前記学習モデルに対して、前記他のユーザが前記特定文字列を発話した音声に応じた複数の特徴量を入力することによって、前記他のユーザの音声感情情報を前記学習モデルから取得し、
前記文字評価部は、
前記他のユーザが前記特定文字列を発話した音声に基づく前記他のユーザの文字感情情報を生成し、
前記調整部は、前記他のユーザの補正感情情報に含まれる複数の音声評価値を、前記複数の感情の各々について、前記他のユーザの文字感情情報に含まれる複数の文字評価値に近づける目的で、前記他のユーザ用の前記補正情報を調整する、
請求項4に記載の感情推定装置。 When the value indicating the degree of difference between the plurality of voice evaluation values included in the corrected emotion information of the user and the plurality of character evaluation values included in the character emotion information is equal to or less than a predetermined value, the recognition character string is specified. It has a specific part to be specified as a character string,
When another user who has not spoken a voice that expresses an explicit emotion speaks the specific character string,
The voice evaluation unit learns the voice emotion information of the other user by inputting a plurality of feature quantities corresponding to the voice of the other user uttering the specific character string into the learning model. Get from the model
The character evaluation unit
Generates the character emotion information of the other user based on the voice that the other user utters the specific character string.
The purpose of the adjusting unit is to bring a plurality of voice evaluation values included in the corrected emotion information of the other user closer to a plurality of character evaluation values included in the character emotion information of the other user for each of the plurality of emotions. To adjust the correction information for the other user,
The emotion estimation device according to claim 4.
前記ユーザの前記補正感情情報に含まれる複数の音声評価値と前記文字感情情報に含まれる複数の文字評価値との相違の程度を示す値が所定値以下である場合、前記認識文字列を特定文字列として特定する特定部と、を備え、
明示的な感情を発露させた音声を発話していない他のユーザが、前記特定文字列を発話した場合、
前記音声評価部は、前記学習モデルに対して、前記他のユーザが前記特定文字列を発話した音声に応じた複数の特徴量を入力することによって、前記他のユーザの音声感情情報を前記学習モデルから取得し、
前記文字評価部は、前記他のユーザが前記特定文字列を発話した音声に基づく前記他のユーザの文字感情情報を生成し、
前記調整部は、前記他のユーザの補正感情情報に含まれる複数の音声評価値を、前記複数の感情の各々について、前記他のユーザの文字感情情報に含まれる複数の文字評価値に近づける目的で、前記他のユーザ用の前記所定の閾値を調整する、
請求項4に記載の感情推定装置。 A noise removing unit that removes noise from the sound indicated by the sound information based on a predetermined threshold value to generate the voice information, and a noise removing unit.
When the value indicating the degree of difference between the plurality of voice evaluation values included in the corrected emotion information of the user and the plurality of character evaluation values included in the character emotion information is equal to or less than a predetermined value, the recognition character string is specified. It has a specific part to be specified as a character string,
When another user who has not spoken a voice that expresses an explicit emotion speaks the specific character string,
The voice evaluation unit learns the voice emotion information of the other user by inputting a plurality of feature quantities corresponding to the voice of the other user uttering the specific character string into the learning model. Get from the model
The character evaluation unit generates character emotion information of the other user based on the voice that the other user utters the specific character string.
The purpose of the adjusting unit is to bring a plurality of voice evaluation values included in the corrected emotion information of the other user closer to a plurality of character evaluation values included in the character emotion information of the other user for each of the plurality of emotions. To adjust the predetermined threshold value for the other user.
The emotion estimation device according to claim 4.
前記サーバ装置は、
ユーザの音声を含む音を示す音情報を受信する第1通信装置と、
前記音情報が示す音からノイズを除去して、前記ユーザの音声を示す音声情報を生成するノイズ除去部と、
前記人間の音声に応じた複数の特徴量と当該音声を発した人間が抱く複数の感情の各々に対する強度との関係を複数の人間について学習済みの学習モデルに対して、前記音声情報に基づく複数の特徴量を入力し、前記ユーザの抱く前記複数の感情の各々に対する強度を示す音声評価値を含む音声感情情報を前記学習モデルから取得する音声評価部と、
人間が発した音声の発話内容を認識する音声認識処理を、前記音情報に対して実行し、前記音声認識処理の認識結果を示す認識文字列に基づいて、前記ユーザが抱く前記複数の感情の各々に対する強度を示す文字評価値を含む文字感情情報を生成する文字評価部とを備え、
前記第1通信装置は、
前記文字感情情報と前記音声感情情報とを前記端末装置に送信し、
前記端末装置は、
前記ユーザの音声を含む音を集音する集音装置と、
前記集音装置が出力する前記音情報を前記サーバ装置に送信し、前記文字感情情報と前記音声感情情報とを前記サーバ装置から受信する第2通信装置と、
前記ユーザの音声の特徴に基づく補正情報を用いて前記音声感情情報を補正した補正感情情報を生成する補正部と、
前記補正感情情報と前記文字感情情報とに基づいて、前記ユーザが抱く1以上の感情を推定する推定部とを備える、
感情推定システム。 An emotion estimation system including a server device and a terminal device capable of communicating with the server device.
The server device is
The first communication device that receives sound information indicating sound including the user's voice, and
A noise removing unit that removes noise from the sound indicated by the sound information and generates voice information indicating the user's voice.
A plurality of learning models based on the voice information regarding the relationship between a plurality of feature quantities corresponding to the human voice and the intensity of each of the plurality of emotions held by the person who emitted the voice for each of the plurality of humans. A voice evaluation unit that inputs a feature amount of the above and acquires voice emotion information including a voice evaluation value indicating the intensity of each of the plurality of emotions held by the user from the learning model.
A voice recognition process for recognizing the utterance content of a voice uttered by a human is executed on the sound information, and based on a recognition character string indicating a recognition result of the voice recognition process, the plurality of emotions held by the user It is equipped with a character evaluation unit that generates character emotion information including a character evaluation value indicating the strength for each.
The first communication device is
The character emotion information and the voice emotion information are transmitted to the terminal device,
The terminal device is
A sound collecting device that collects sounds including the user's voice, and
A second communication device that transmits the sound information output by the sound collecting device to the server device and receives the character emotion information and the voice emotion information from the server device.
A correction unit that generates corrected emotion information that corrects the voice emotion information using correction information based on the characteristics of the user's voice, and a correction unit.
It includes an estimation unit that estimates one or more emotions held by the user based on the corrected emotion information and the character emotion information.
Emotion estimation system.
前記端末装置は、
前記ユーザが抱く感情が前記一の感情であると前記推定部が推定する可能性を高くする目的で、前記明示的な音声感情情報に基づいて前記補正情報を調整する調整部、
を備える請求項7に記載の感情推定システム。 The voice evaluation unit inputs a plurality of feature quantities based on voice information indicating a voice in which the user explicitly expresses one of the plurality of emotions to the learning model, and the user Explicit voice emotional information is obtained from the learning model and
The terminal device is
An adjustment unit that adjusts the correction information based on the explicit voice emotion information for the purpose of increasing the possibility that the estimation unit estimates that the emotion held by the user is the one emotion.
7. The emotion estimation system according to claim 7.
前記ユーザは、第1ユーザであって、
前記集音装置は、第1集音装置であって、
前記サーバ装置は、前記第1端末装置とは異なる第2端末装置と通信可能であって、
前記第2通信装置は、
前記第1ユーザの前記補正感情情報を前記サーバ装置に送信し、
前記サーバ装置は、
前記第1ユーザの前記補正感情情報に含まれる複数の音声評価値と前記文字感情情報に含まれる複数の文字評価値との相違の程度を示す値が所定値以下である場合、前記認識文字列を特定文字列として特定する特定部を備え、
前記第2端末装置を所持する第2ユーザが、明示的な感情を発露させた音声を発話していなく、且つ、前記特定文字列を発話した場合、
前記音声評価部は、前記学習モデルに対して、前記第2ユーザが前記特定文字列を発話した音声に応じた複数の特徴量を入力することによって、前記第2ユーザの音声感情情報を前記学習モデルから取得し、
前記文字評価部は、前記第2ユーザが前記特定文字列を発話した音声に基づく前記第2ユーザの文字感情情報を生成し、
前記第1通信装置は、
前記特定文字列と前記第2ユーザの音声感情情報と前記第2ユーザの文字感情情報とを、前記第2端末装置に送信し、
前記第2端末装置は、
前記第2ユーザの音声を含む音を集音する第2集音装置と、
前記第2集音装置が出力する音情報を前記サーバ装置に送信し、前記第2ユーザの文字感情情報と前記第2ユーザの音声感情情報とを前記サーバ装置から受信する第3通信装置と、
前記ユーザの音声の特徴に基づく補正情報を用いて前記第2ユーザの音声感情情報を補正した前記第2ユーザの補正感情情報を生成する補正部と、
前記第2ユーザの補正感情情報に含まれる複数の音声評価値を、前記複数の感情の各々について、前記第2ユーザの文字感情情報に含まれる複数の文字評価値に近づける目的で、前記第2ユーザ用の前記補正情報を調整する調整部とを備える、
請求項8に記載の感情推定システム。 The terminal device is a first terminal device and is
The user is a first user and
The sound collecting device is the first sound collecting device, and is
The server device can communicate with a second terminal device different from the first terminal device.
The second communication device is
The corrected emotion information of the first user is transmitted to the server device,
The server device is
When the value indicating the degree of difference between the plurality of voice evaluation values included in the corrected emotion information of the first user and the plurality of character evaluation values included in the character emotion information is equal to or less than a predetermined value, the recognition character string It has a specific part that identifies as a specific character string,
When the second user possessing the second terminal device does not utter a voice that expresses an explicit emotion and utters the specific character string.
The voice evaluation unit learns the voice emotion information of the second user by inputting a plurality of feature quantities corresponding to the voice spoken by the second user into the learning model. Get from the model
The character evaluation unit generates character emotion information of the second user based on the voice that the second user utters the specific character string.
The first communication device is
The specific character string, the voice emotion information of the second user, and the character emotion information of the second user are transmitted to the second terminal device.
The second terminal device is
A second sound collecting device that collects sounds including the voice of the second user, and
A third communication device that transmits sound information output by the second sound collecting device to the server device and receives the character emotion information of the second user and the voice emotion information of the second user from the server device.
A correction unit that generates corrected emotional information of the second user, which corrects the voice emotional information of the second user by using correction information based on the characteristics of the voice of the user.
The second, for the purpose of bringing a plurality of voice evaluation values included in the corrected emotion information of the second user closer to a plurality of character evaluation values included in the character emotion information of the second user for each of the plurality of emotions. The adjustment unit for adjusting the correction information for the user is provided.
The emotion estimation system according to claim 8.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019106848A JP7279287B2 (en) | 2019-06-07 | 2019-06-07 | Emotion estimation device and emotion estimation system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019106848A JP7279287B2 (en) | 2019-06-07 | 2019-06-07 | Emotion estimation device and emotion estimation system |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020201334A true JP2020201334A (en) | 2020-12-17 |
JP7279287B2 JP7279287B2 (en) | 2023-05-23 |
Family
ID=73744237
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019106848A Active JP7279287B2 (en) | 2019-06-07 | 2019-06-07 | Emotion estimation device and emotion estimation system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7279287B2 (en) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008076904A (en) * | 2006-09-22 | 2008-04-03 | Univ Of Tokyo | Feeling discrimination method, feeling discrimination device, and atmosphere information communication terminal |
JP2010054568A (en) * | 2008-08-26 | 2010-03-11 | Oki Electric Ind Co Ltd | Emotional identification device, method and program |
-
2019
- 2019-06-07 JP JP2019106848A patent/JP7279287B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008076904A (en) * | 2006-09-22 | 2008-04-03 | Univ Of Tokyo | Feeling discrimination method, feeling discrimination device, and atmosphere information communication terminal |
JP2010054568A (en) * | 2008-08-26 | 2010-03-11 | Oki Electric Ind Co Ltd | Emotional identification device, method and program |
Also Published As
Publication number | Publication date |
---|---|
JP7279287B2 (en) | 2023-05-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9396724B2 (en) | Method and apparatus for building a language model | |
US11133025B2 (en) | Method and system for speech emotion recognition | |
CN110853617B (en) | Model training method, language identification method, device and equipment | |
WO2020253128A1 (en) | Voice recognition-based communication service method, apparatus, computer device, and storage medium | |
WO2014190732A1 (en) | Method and apparatus for building a language model | |
US11586689B2 (en) | Electronic apparatus and controlling method thereof | |
CN107316635B (en) | Voice recognition method and device, storage medium and electronic equipment | |
KR20150123579A (en) | Method for determining emotion information from user voice and apparatus for the same | |
CN113498536A (en) | Electronic device and control method thereof | |
CN104575509A (en) | Voice enhancement processing method and device | |
CN110136715A (en) | Audio recognition method and device | |
CN110826637A (en) | Emotion recognition method, system and computer-readable storage medium | |
Biagetti et al. | Speaker identification in noisy conditions using short sequences of speech frames | |
JP6782329B1 (en) | Emotion estimation device, emotion estimation system, and emotion estimation method | |
CN112910761B (en) | Instant messaging method, device, equipment, storage medium and program product | |
Xue | A novel english speech recognition approach based on hidden Markov model | |
JP7279287B2 (en) | Emotion estimation device and emotion estimation system | |
JP2020190605A (en) | Speech processing apparatus and speech processing program | |
KR20190133325A (en) | Speech recognition method and apparatus | |
KR102193656B1 (en) | Recording service providing system and method supporting analysis of consultation contents | |
CN108174030A (en) | Customize implementation method, mobile terminal and the readable storage medium storing program for executing of voice control | |
US20210398544A1 (en) | Electronic device and control method thereof | |
KR20150107520A (en) | Method and apparatus for voice recognition | |
CN114049875A (en) | TTS (text to speech) broadcasting method, device, equipment and storage medium | |
JP7379788B2 (en) | Emotion estimation device and emotion estimation system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220209 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20221228 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230117 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230221 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230411 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230417 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7279287 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |