JP7279287B2 - Emotion estimation device and emotion estimation system - Google Patents

Emotion estimation device and emotion estimation system Download PDF

Info

Publication number
JP7279287B2
JP7279287B2 JP2019106848A JP2019106848A JP7279287B2 JP 7279287 B2 JP7279287 B2 JP 7279287B2 JP 2019106848 A JP2019106848 A JP 2019106848A JP 2019106848 A JP2019106848 A JP 2019106848A JP 7279287 B2 JP7279287 B2 JP 7279287B2
Authority
JP
Japan
Prior art keywords
user
information
emotion
voice
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019106848A
Other languages
Japanese (ja)
Other versions
JP2020201334A (en
Inventor
秀行 窪田
博子 進藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Priority to JP2019106848A priority Critical patent/JP7279287B2/en
Publication of JP2020201334A publication Critical patent/JP2020201334A/en
Application granted granted Critical
Publication of JP7279287B2 publication Critical patent/JP7279287B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • User Interface Of Digital Computer (AREA)

Description

本発明は、感情推定装置、及び、感情推定システムに関する。 The present invention relates to an emotion estimation device and an emotion estimation system.

近年、喜び、怒り及び悲しみ等の感情を推定するサービスが普及している。例えば、特許文献1には、ユーザの音声を示す音声情報に基づいて、ユーザが抱く感情を推定する感情推定装置が開示されている。この感情推定装置は、ある一人のユーザによって入力された複数回の音声情報から、音声認識を行うこのユーザ個人の固有データである、周波数、音量、及び、速度といった複数の特徴量のそれぞれの平均値及び標準偏差を予め算出する。そして、この感情推定装置は、このユーザが抱く感情を推定する際に入力された音声情報の特徴量を、予め算出した平均値及び標準偏差を用いて正規化し、正規化した複数の特徴量に基づいてこのユーザが抱く感情を推定する。 In recent years, services for estimating emotions such as joy, anger and sadness have become popular. For example, Patent Literature 1 discloses an emotion estimating device that estimates an emotion of a user based on voice information indicating the voice of the user. This emotion estimating device uses voice information input multiple times by a certain user to perform voice recognition. Values and standard deviations are pre-calculated. Then, this emotion estimation apparatus normalizes the feature amount of speech information input when estimating the emotion of the user by using a pre-calculated average value and standard deviation, and converts the feature amount into a plurality of normalized feature amounts. Based on this, the user's feelings are estimated.

特開2006-259641号公報JP-A-2006-259641

しかしながら、上述した従来の技術を、音声情報に基づく複数の特徴量と感情との関係を学習済みの学習モデルを用いて、ユーザが抱く感情を推定する装置に適用する場合、学習モデルをユーザごとに用意する必要があった。多数のユーザの音声情報を教師データとして学習済みの汎用的な学習モデルを利用すると、多数のユーザの平均的な音声の特徴とユーザの音声の特徴との差分が吸収されないため、ユーザが抱く感情を精度良く推定することができなかった。 However, when the above-described conventional technology is applied to a device that estimates the emotion of a user using a learning model that has already learned the relationship between a plurality of feature values and emotions based on voice information, the learning model is applied to each user. I had to prepare for When using a general-purpose learning model that has been trained using speech information of a large number of users as training data, the difference between the average speech characteristics of a large number of users and the characteristics of the user's speech is not absorbed. could not be estimated accurately.

本発明の好適な態様にかかる感情推定装置は、人間の音声に応じた複数の特徴量と当該音声を発した人間が抱く複数の感情の各々に対する強度との関係を複数の人間について学習済みの学習モデルに対して、ユーザの音声を示す音声情報に基づく複数の特徴量を入力し、前記ユーザが抱く前記複数の感情の各々に対する強度を示す音声評価値を含む音声感情情報を前記学習モデルから取得する音声評価部と、前記ユーザの音声の特徴に基づく補正情報を用いて前記音声感情情報を補正した補正感情情報を生成する補正部と、前記補正感情情報に基づいて、前記複数の感情の中から前記ユーザが抱く1以上の感情を推定する推定部と、を備える。 An emotion estimating apparatus according to a preferred aspect of the present invention is a device that has learned the relationship between a plurality of feature amounts corresponding to human speech and the intensity of each of a plurality of emotions held by a person who has uttered the speech. inputting a plurality of feature amounts based on speech information indicating a user's speech to a learning model, and obtaining speech emotion information including a speech evaluation value indicating the intensity of each of the plurality of emotions held by the user from the learning model; a correction unit for generating corrected emotional information obtained by correcting the voice emotional information using correction information based on the characteristics of the user's voice; an estimation unit for estimating one or more emotions that the user has from among them.

本発明の好適な態様にかかる感情推定システムは、サーバ装置と、前記サーバ装置と通信可能な端末装置とを備える感情推定システムであって、前記サーバ装置は、ユーザの音声を含む音を示す音情報を受信する第1通信装置と、前記音情報が示す音からノイズを除去して、前記ユーザの音声を示す音声情報を生成するノイズ除去部と、前記人間の音声に応じた複数の特徴量と当該音声を発した人間が抱く複数の感情の各々に対する強度との関係を複数の人間について学習済みの学習モデルに対して、前記音声情報に基づく複数の特徴量を入力し、前記ユーザの抱く前記複数の感情の各々に対する強度を示す音声評価値を含む音声感情情報を前記学習モデルから取得する音声評価部と、人間が発した音声の発話内容を認識する音声認識処理を、前記音情報に対して実行し、前記音声認識処理の認識結果を示す認識文字列に基づいて、前記ユーザが抱く前記複数の感情の各々に対する強度を示す文字評価値を含む文字感情情報を生成する文字評価部とを備え、前記第1通信装置は、前記文字感情情報と前記音声感情情報とを前記端末装置に送信し、前記端末装置は、前記ユーザの音声を含む音を集音する集音装置と、前記集音装置が出力する前記音情報を前記サーバ装置に送信し、前記文字感情情報と前記音声感情情報とを前記サーバ装置から受信する第2通信装置と、前記ユーザの音声の特徴に基づく補正情報を用いて前記音声感情情報を補正した補正感情情報を生成する補正部と、前記補正感情情報と前記文字感情情報とに基づいて、前記ユーザが抱く1以上の感情を推定する推定部とを備える。 An emotion estimating system according to a preferred aspect of the present invention is an emotion estimating system comprising a server device and a terminal device capable of communicating with the server device, wherein the server device includes a sound indicating a sound including a user's voice. a first communication device that receives information; a noise removal unit that removes noise from the sound indicated by the sound information to generate voice information indicating the user's voice; and a plurality of feature quantities corresponding to the human voice. inputting a plurality of features based on the voice information to a learning model that has already learned the relationship between the intensity of each of the plurality of emotions felt by the person who uttered the voice and the intensity of each of the plurality of emotions held by the person who emitted the voice A speech evaluation unit that acquires speech emotion information including a speech evaluation value indicating the strength of each of the plurality of emotions from the learning model, and a speech recognition process that recognizes the content of speech uttered by a person are performed on the sound information. a character evaluation unit for generating character emotion information including a character evaluation value indicating the intensity of each of the plurality of emotions held by the user, based on the recognized character string indicating the recognition result of the speech recognition processing; wherein the first communication device transmits the text emotion information and the voice emotion information to the terminal device, and the terminal device comprises a sound collection device that collects sound including the user's voice; a second communication device that transmits the sound information output by the sound collector to the server device and receives the character emotion information and the voice emotion information from the server device; and correction information based on the features of the user's voice. and an estimation unit for estimating one or more emotions of the user based on the corrected emotion information and the text emotion information. .

本発明によれば、複数の人間の音声情報を教師データとして学習済みの学習モデルを利用する場合であっても、ユーザが抱く感情を高精度に推定できる。 ADVANTAGE OF THE INVENTION According to this invention, even if it is a case where the learning model which has been trained by using the audio|speech information of several people as teacher data is used, the emotion which a user has can be estimated with high accuracy.

ユーザ装置1の機能の概要を示す図。3 is a diagram showing an overview of functions of the user device 1; FIG. 第1実施形態にかかるユーザ装置1の構成を示すブロック図。2 is a block diagram showing the configuration of the user device 1 according to the first embodiment; FIG. 解析用辞書情報31の記憶内容の一例を示す図。4 is a diagram showing an example of contents stored in analysis dictionary information 31. FIG. 感情分類情報33の記憶内容の一例を示す図。4 is a diagram showing an example of contents stored in emotion classification information 33. FIG. ユーザ装置1の機能の概要を示す図。3 is a diagram showing an overview of functions of the user device 1; FIG. ユーザ装置1の動作を示すフローチャートを示す図。FIG. 4 is a diagram showing a flowchart showing the operation of the user device 1; 第2実施形態にかかるユーザ装置1aを示すブロック図。FIG. 2 is a block diagram showing a user device 1a according to a second embodiment; FIG. 第2実施形態にかかるユーザ装置1aの機能の概要を示す図。The figure which shows the outline|summary of the function of the user apparatus 1a concerning 2nd Embodiment. キャリブレーションモード時のユーザ装置1aの動作を示すフローチャートを示す図。The figure which shows the flowchart which shows the operation|movement of the user apparatus 1a at the time of calibration mode. 感情推定システムSYSの全体構成を示す図。The figure which shows the whole structure of emotion estimation system SYS. ユーザ装置1bの構成を示すブロック図。FIG. 3 is a block diagram showing the configuration of the user device 1b; サーバ装置10の構成を示すブロック図。2 is a block diagram showing the configuration of the server device 10; FIG. 感情推定システムSYSの機能の概要を示す図。The figure which shows the outline|summary of the function of emotion estimation system SYS. 非キャリブレーションユーザの補正情報CIの調整機能の概要を示す図。FIG. 11 is a diagram showing an overview of a function of adjusting correction information CI for a non-calibration user; 感情推定モードにおける感情推定システムSYSの動作を示すフローチャートを示す図(その1)。The figure which shows the flowchart which shows the operation|movement of the emotion estimation system SYS in emotion estimation mode (part 1). 感情推定モードにおける感情推定システムSYSの動作を示すフローチャートを示す図(その2)。The figure which shows the flowchart which shows the operation|movement of the emotion estimation system SYS in emotion estimation mode (part 2). 感情推定システムSYScの全体構成を示す図。The figure which shows the whole structure of emotion estimation system SYSc. サーバ装置10Cの構成を示すブロック図。FIG. 2 is a block diagram showing the configuration of a server device 10C; 感情推定システムSYScの機能の概要を示す図。The figure which shows the outline|summary of the function of emotion estimation system SYSc. 非キャリブレーションユーザのパラメータ情報TIの調整機能の概要を示す図。FIG. 10 is a diagram showing an overview of a function of adjusting parameter information TI for a non-calibration user; 感情推定モードにおける感情推定システムSYScの動作を示すフローチャートを示す図。The figure which shows the flowchart which shows the operation|movement of the emotion estimation system SYSc in emotion estimation mode. 感情推定システムSYSdの全体構成を示す図。The figure which shows the whole structure of emotion estimation system SYSd. ユーザ装置1dの構成を示すブロック図。FIG. 3 is a block diagram showing the configuration of the user device 1d; サーバ装置10Dの構成を示すブロック図。FIG. 2 is a block diagram showing the configuration of a server device 10D; 感情推定システムSYSdの機能の概要を示す図。The figure which shows the outline|summary of the function of emotion estimation system SYSd. 感情推定システムSYSeの全体構成を示す図。The figure which shows the whole structure of emotion estimation system SYSe. ユーザ装置1eの構成を示すブロック図。FIG. 2 is a block diagram showing the configuration of a user device 1e; 感情推定システムSYSeの機能の概要を示す図。The figure which shows the outline|summary of the function of emotion estimation system SYSe. 感情推定システムSYSfの全体構成を示す図。The figure which shows the whole structure of emotion estimation system SYSf. ユーザ装置1fの構成を示すブロック図。FIG. 2 is a block diagram showing the configuration of the user device 1f; サーバ装置10Fの構成を示すブロック図。FIG. 2 is a block diagram showing the configuration of a server device 10F; 第1感情推定部25fと第2感情推定部25Fとの機能の概要を示す図。The figure which shows the outline|summary of the function of the 1st emotion estimation part 25f and the 2nd emotion estimation part 25F. 第1変形例におけるユーザ装置1gの機能の概要を示す図。The figure which shows the outline|summary of the function of the user apparatus 1g in a 1st modification.

1.第1実施形態
図1は、ユーザ装置1の機能の概要を示す図である。ユーザ装置1は、スマートフォンを想定する。ユーザ装置1が、「感情推定装置」の一例である。ただし、ユーザ装置1としては、任意の情報処理装置を採用することができ、例えば、パーソナルコンピュータ等の端末型の情報機器であってもよいし、ノートパソコン、ウェアラブル端末及びタブレット端末等の可搬型の情報端末であってもよい。
1. 1. First Embodiment FIG. 1 is a diagram showing an overview of functions of a user device 1. As shown in FIG. The user device 1 is assumed to be a smart phone. The user device 1 is an example of an "emotion estimation device". However, any information processing device can be adopted as the user device 1. For example, it may be a terminal-type information device such as a personal computer, or a portable device such as a notebook computer, a wearable terminal, and a tablet terminal. information terminal.

ユーザ装置1は、ユーザ装置1を所持するユーザUの音声を含む音を示す音情報に対して音声認識処理を実行して得られた認識文字列を、他者が利用する装置に送信する機能、又は、ユーザUの付近に位置する他者に聞かせるために、認識文字列を示す音を放音する機能を有する。さらに、ユーザ装置1は、ユーザUの音声に基づいてユーザUが抱く感情を推定し、認識文字列に対して、推定した感情に応じた図形を認識文字列に付加する、又は、推定した感情に応じた抑揚で認識文字列を示す音を放音することにより、コミュニケーションに必要な感情表現を付加できる。
図1の例では、ユーザUが「こんにちは」と発声し、ユーザ装置1が、推定した感情に応じた図形PIを付加している。
The user device 1 has a function of transmitting a recognized character string obtained by performing voice recognition processing on sound information indicating a sound including the voice of the user U possessing the user device 1 to a device used by another person. Alternatively, it has a function of emitting a sound indicating the recognized character string so that others located near the user U can hear it. Further, the user device 1 estimates the emotion that the user U has based on the voice of the user U, and adds a figure corresponding to the estimated emotion to the recognized character string, or adds the figure corresponding to the estimated emotion to the recognized character string. Emotional expressions necessary for communication can be added by emitting a sound indicating a recognition character string with an intonation corresponding to the character string.
In the example of FIG. 1, the user U utters "Hello" and the user device 1 adds a graphic PI corresponding to the estimated emotion.

図2は、第1実施形態にかかるユーザ装置1の構成を示すブロック図である。ユーザ装置1は、処理装置2、記憶装置3、表示装置4、操作装置5、通信装置6、放音装置7、及び、集音装置8を具備するコンピュータシステムにより実現される。ユーザ装置1の各要素は、情報を通信するための単体又は複数のバス9で相互に接続される。なお、本明細書における「装置」という用語は、回路、デバイス又はユニット等の他の用語に読替えてもよい。また、ユーザ装置1の各要素は、単数又は複数の機器で構成され、ユーザ装置1の一部の要素は省略されてもよい。 FIG. 2 is a block diagram showing the configuration of the user device 1 according to the first embodiment. The user device 1 is implemented by a computer system including a processing device 2 , a storage device 3 , a display device 4 , an operation device 5 , a communication device 6 , a sound emitting device 7 and a sound collecting device 8 . Each element of the user device 1 is interconnected by a bus or buses 9 for communicating information. Note that the term "apparatus" in this specification may be replaced with another term such as a circuit, a device, or a unit. Also, each element of the user device 1 may be composed of one or more devices, and some elements of the user device 1 may be omitted.

処理装置2は、ユーザ装置1の全体を制御するプロセッサであり、例えば、単数又は複数のチップで構成される。処理装置2は、例えば、周辺装置とのインタフェース、演算装置及びレジスタ等を含む中央処理装置(CPU:Central Processing Unit)で構成される。なお、処理装置2の機能の一部又は全部を、DSP(Digital Signal Processor)、ASIC(Application Specific Integrated Circuit)、PLD(Programmable Logic Device)、FPGA(Field Programmable Gate Array)等のハードウェアによって実現してもよい。処理装置2は、各種の処理を並列的又は逐次的に実行する。 The processing device 2 is a processor that controls the entire user device 1, and is composed of, for example, a single chip or multiple chips. The processing device 2 is composed of, for example, a central processing unit (CPU) including interfaces with peripheral devices, arithmetic devices, registers, and the like. Some or all of the functions of the processing device 2 are realized by hardware such as a DSP (Digital Signal Processor), an ASIC (Application Specific Integrated Circuit), a PLD (Programmable Logic Device), and an FPGA (Field Programmable Gate Array). may The processing device 2 executes various processes in parallel or sequentially.

記憶装置3は、処理装置2が読取可能な記録媒体であり、処理装置2が実行する制御プログラムPRを含む複数のプログラム、解析用辞書情報31、感情分類情報33、及び、学習モデルLMを記憶する。記憶装置3は、例えば、ROM(Read Only Memory)、EPROM(Erasable Programmable ROM)、EEPROM(Electrically Erasable Programmable ROM)、RAM(Random Access Memory)等の記憶回路の1種類以上で構成される。 The storage device 3 is a recording medium readable by the processing device 2, and stores a plurality of programs including a control program PR executed by the processing device 2, analysis dictionary information 31, emotion classification information 33, and a learning model LM. do. The storage device 3 is composed of, for example, one or more types of storage circuits such as ROM (Read Only Memory), EPROM (Erasable Programmable ROM), EEPROM (Electrically Erasable Programmable ROM), and RAM (Random Access Memory).

図3は、解析用辞書情報31の記憶内容の一例を示す図である。解析用辞書情報31は、形態素ごとに、品詞、品詞細分類、及び、原形情報を互いに対応付けた情報である。形態素は、意味を有する表現要素の最小単位の文字列である。品詞は、文法的性質によって分類された単語の種別であり、名詞、動詞、及び形容詞等である。品詞細分類は、品詞をさらに細分類した項目である。原形情報は、該当の形態素が活用する単語である場合、単語の原形を示す文字列であり、該当の形態素が活用しない単語である場合、該当の形態素と同一の文字列である。 FIG. 3 is a diagram showing an example of contents stored in the analysis dictionary information 31. As shown in FIG. The analysis dictionary information 31 is information in which the part of speech, the sub-classification of the part of speech, and the root form information are associated with each other for each morpheme. A morpheme is a string of the smallest units of meaningful expressions. A part of speech is a type of word classified by grammatical properties, such as nouns, verbs, and adjectives. The part-of-speech fine classification is an item obtained by further finely classifying the part of speech. The original form information is a character string indicating the original form of the word if the morpheme is a word that is used, and is the same character string as the morpheme if the morpheme is a word that is not used.

図4は、感情分類情報33の記憶内容の一例を示す図である。感情分類情報33は、文字列を、喜び、怒り、悲しみ、及び、平常の何れかに分類した情報である。感情分類情報33に登録される文字列は、喜び、怒り、悲しみ、又は、平常のうちのいずれかの感情を表す。図4の例では、喜びに分類された文字列群331は、「嬉しい」、「合格」、「勝つ」、及び、「勝っ」等を含む。同様に、怒りに分類された文字列群332は、「イライラ」、及び、「むかっ腹」等を含む。同様に、悲しみに分類された文字列群333は、「悲しい」、及び、「敗ける」等を含む。同様に、平常に分類された文字列群334は、「安心」等を含む。 FIG. 4 is a diagram showing an example of contents stored in the emotion classification information 33. As shown in FIG. The emotion classification information 33 is information in which character strings are classified into joy, anger, sadness, and normal. A character string registered in the emotion classification information 33 represents any emotion of joy, anger, sadness, or normal. In the example of FIG. 4, the character string group 331 classified as joy includes "happy", "pass", "win", and "win". Similarly, the character string group 332 classified as anger includes "frustration", "furious", and the like. Similarly, the character string group 333 classified as sadness includes “sad”, “defeat”, and the like. Similarly, the character string group 334 classified as normal includes "safety" and the like.

説明を図2に戻す。学習モデルLMは、人間の音声に応じた複数の特徴量と、複数の感情の各々に対する強度との関係を学習済みである。 Returning to FIG. The learning model LM has already learned the relationship between a plurality of feature quantities corresponding to human speech and the intensity of each of a plurality of emotions.

表示装置4は、処理装置2による制御のもとで各種の画像を表示する。例えば液晶表示パネル、又は有機EL(Electro Luminescence)表示パネル等の各種の表示パネルが表示装置4として好適に利用される。 The display device 4 displays various images under the control of the processing device 2 . For example, various display panels such as a liquid crystal display panel or an organic EL (Electro Luminescence) display panel are preferably used as the display device 4 .

操作装置5は、ユーザ装置1が使用する情報を入力するための機器である。操作装置5は、ユーザUによる操作を受け付ける。具体的には、操作装置5は、数字及び文字等の符号を入力するための操作と、表示装置4が表示するアイコンを選択するための操作とを受け付ける。例えば、表示装置4の表示面に対する接触を検出するタッチパネルが操作装置5として好適である。なお、利用者が操作可能な操作子を操作装置5が含んでもよい。操作子は、例えば、タッチペンである。 The operation device 5 is a device for inputting information used by the user device 1 . The operation device 5 receives an operation by the user U. Specifically, the operation device 5 receives an operation for inputting codes such as numbers and letters, and an operation for selecting an icon displayed by the display device 4 . For example, a touch panel that detects contact with the display surface of the display device 4 is suitable as the operation device 5 . Note that the operating device 5 may include an operator that can be operated by the user. The manipulator is, for example, a touch pen.

通信装置6は、ネットワークを介して他の装置と通信を行うためのハードウェア(送受信デバイス)である。通信装置6は、例えば、ネットワークデバイス、ネットワークコントローラ、ネットワークカード、通信モジュール等とも呼ばれる。 The communication device 6 is hardware (transmitting/receiving device) for communicating with other devices via a network. The communication device 6 is also called a network device, a network controller, a network card, a communication module, etc., for example.

放音装置7は、例えばスピーカで構成され、処理装置2による制御のもとで、音を放音する。集音装置8は、例えばマイクロフォン及びAD変換器で構成され、処理装置2による制御のもとで、ユーザUの音声を含む音を集音する。マイクロフォンは、集音した音声を電気信号に変換する。AD変換器は、マイクロフォンが変換した電気信号をAD変換して、図5に示す音情報SIに変換する。音情報SIが示す音には、発話者の音声に加えて、発話者の周囲から発せられた雑音が含まれ得る。 The sound emitting device 7 is composed of, for example, a speaker, and emits sound under the control of the processing device 2 . The sound collecting device 8 is composed of, for example, a microphone and an AD converter, and collects sounds including the voice of the user U under the control of the processing device 2 . A microphone converts the collected sound into an electrical signal. The AD converter AD-converts the electric signal converted by the microphone into sound information SI shown in FIG. The sound indicated by the sound information SI may include noise emitted from the speaker's surroundings in addition to the speaker's voice.

1.1.第1実施形態の機能
処理装置2は、記憶装置3から制御プログラムPRを読み取り実行することによって、取得部21、感情推定部25、及び、出力部26として機能する。
図5を用いて、処理装置2によって実現される機能について説明する。
1.1. Functions of First Embodiment The processing device 2 functions as an acquisition unit 21 , an emotion estimation unit 25 and an output unit 26 by reading and executing the control program PR from the storage device 3 .
Functions realized by the processing device 2 will be described with reference to FIG.

図5は、ユーザ装置1の機能の概要を示す図である。取得部21は、ユーザUの音声を含む音を集音する集音装置8が出力する音情報SIを取得する。感情推定部25は、ユーザUが抱く複数の感情の中から、ユーザUが抱く1以上の感情を推定する。第1実施形態において、ユーザUが抱く複数の感情は、喜び、怒り、悲しみ、及び、平常の4つであるとして説明する。以下、喜び、怒り、悲しみ、及び、平常は複数の感情の一例である。 FIG. 5 is a diagram showing an overview of the functions of the user device 1. As shown in FIG. The acquisition unit 21 acquires sound information SI output by the sound collector 8 that collects sounds including the user's U voice. The emotion estimation unit 25 estimates one or more emotions that the user U has from among the plurality of emotions that the user U has. In the first embodiment, it is assumed that the user U has four emotions: joy, anger, sadness, and normality. Below, joy, anger, sadness, and normal are examples of multiple emotions.

感情推定部25は、ノイズ除去部251、音声評価部252、補正部253、文字評価部256、及び、推定部258を含む。 The emotion estimation unit 25 includes a noise removal unit 251 , a voice evaluation unit 252 , a correction unit 253 , a character evaluation unit 256 and an estimation unit 258 .

ノイズ除去部251は、音情報SIが示す音からノイズを除去して音声情報VIを生成する。ノイズ除去部251には、例えば、第1パラメータP1と第2パラメータP2とが与えられる。第1パラメータP1は、ノイズとみなす周波数帯を指定する。第2パラメータP2はノイズとみなす振幅成分の大きさを指定する。ノイズ除去部251は、第1処理から第4処理を実行する。第1処理では、音情報SIに高速フーリエ変換処理を施すことによって、複数の周波数帯の各々について振幅成分を算出する。第2処理では、第1パラメータP1で指定される周波数帯の振幅成分を低減させる。人間の音声の周波数は、概ね100Hz以上2000Hz以下である。第1パラメータP1は、下限の周波数と上限の周波数を指定する。このため、ノイズ除去部251が第1パラメータP1を用いることによって、下限の周波数以下の周波数帯において、振幅成分が低減され、且つ、下限の周波数以上の周波数帯において、振幅成分が低減される。第3処理は、第2パラメータP2で指定される大きさ以下の振幅成分を低減させる。第4処理では、第3処理の処理結果に逆フーリエ変換処理を施して、音声情報VIを生成する。音声情報VIは、音情報SIから環境ノイズなどが除去されたユーザUの音声を示す。 The noise removal unit 251 removes noise from the sound indicated by the sound information SI to generate voice information VI. For example, a first parameter P1 and a second parameter P2 are provided to the noise removal unit 251 . The first parameter P1 designates a frequency band that is regarded as noise. The second parameter P2 specifies the magnitude of the amplitude component regarded as noise. The noise removal unit 251 executes the first to fourth processes. In the first process, an amplitude component is calculated for each of a plurality of frequency bands by performing a fast Fourier transform process on the sound information SI. In the second process, the amplitude component of the frequency band specified by the first parameter P1 is reduced. The frequency of human speech is generally between 100 Hz and 2000 Hz. The first parameter P1 specifies the lower frequency limit and the upper frequency limit. Therefore, the noise removal unit 251 uses the first parameter P1 to reduce the amplitude component in the frequency band below the lower limit frequency and reduce the amplitude component in the frequency band above the lower limit frequency. The third process reduces amplitude components that are equal to or less than the magnitude specified by the second parameter P2. In the fourth process, an inverse Fourier transform process is applied to the result of the third process to generate audio information VI. The voice information VI indicates the voice of the user U from which environmental noise and the like are removed from the sound information SI.

音声評価部252は、学習モデルLMに対して、音声情報VIに基づく複数の特徴量を入力し、複数の感情の各々に対する強度を示す音声評価値xを含む音声感情情報VEを学習モデルLMから取得する。
学習モデルLMは、人間の音声に応じた複数の特徴量と当該音声を発した人間が抱く複数の感情の各々に対する強度との関係を複数の人間について学習済みである。学習モデルLMは、学習の過程において、多数の教師データを学習する。教師データは、入力データである複数の特徴量と、ラベルデータである複数の感情の各々に対する強度との組で与えられる。また、教師データは、多数のユーザの音声情報VIに基づいて生成される。言い換えれば、学習モデルLMは、特定の個人向けに調整されていない、汎用的なモデルである。
複数の特徴量は、音の特徴量であり、例えば、MFCC(Mel-Frequency Cepstrum Coefficients)12次元、ラウドネス、基本周波数(F0)、音声確率、ゼロ交差率、HNR(Harmonics-to-Noise-Ratio)、及びこれらの一次微分、MFCC及びラウドネスの二次微分の計47個である。ラウドネスは、音の大きさであり、人間の聴覚が感じる音の強さを示す。音声確率は、音声情報VIが示す音に音声が含まれる確率を示す。ゼロ交差率は、音圧がゼロとなった回数である。
音声評価部252は、音声情報VIに音の特徴を抽出する処理を施して複数の特徴量を生成する。
The speech evaluation unit 252 inputs a plurality of feature amounts based on the speech information VI to the learning model LM, and outputs speech emotion information VE including a speech evaluation value x indicating the intensity of each of a plurality of emotions from the learning model LM. get.
The learning model LM has already learned the relationship between a plurality of feature quantities corresponding to human speech and the intensity of each of a plurality of emotions held by the person who uttered the speech for a plurality of people. The learning model LM learns a lot of teacher data in the process of learning. The teacher data is given as a set of a plurality of feature values, which are input data, and the intensity for each of a plurality of emotions, which are label data. Also, teacher data is generated based on the voice information VI of a large number of users. In other words, the learning model LM is a generic model that is not tailored to a specific individual.
The plurality of feature quantities are sound feature quantities, such as 12-dimensional MFCC (Mel-Frequency Cepstrum Coefficients), loudness, fundamental frequency (F0), speech probability, zero-crossing rate, HNR (Harmonics-to-Noise-Ratio ), and their first derivative, MFCC, and second derivative of loudness, for a total of 47 pieces. Loudness is the loudness of sound and indicates the intensity of sound sensed by human hearing. The speech probability indicates the probability that speech is included in the sound indicated by the speech information VI. The zero-crossing rate is the number of times the sound pressure is zero.
The speech evaluation unit 252 generates a plurality of feature amounts by performing processing for extracting sound features from the speech information VI.

音声感情情報VEは、喜びの音声評価値x1、怒りの音声評価値x2、悲しみの音声評価値x3、及び、平常の音声評価値x4を含む。音声評価値xは、0以上の実数である。以下の説明では、同種の要素を区別する場合には、喜びの音声評価値x1、怒りの音声評価値x2のように参照符号を使用する。一方、同種の要素を区別しない場合には、音声評価値xのように、参照符号のうちの共通番号だけを使用する。 The voice emotion information VE includes a joyful voice evaluation value x1, an anger voice evaluation value x2, a sadness voice evaluation value x3, and a normal voice evaluation value x4. The audio evaluation value x is a real number of 0 or more. In the following description, when distinguishing elements of the same type, reference numerals are used such as a voice evaluation value of joy x1 and a voice evaluation value of anger x2. On the other hand, when the elements of the same type are not distinguished, only the common number among the reference codes is used, like the speech evaluation value x.

補正部253は、ユーザUの音声の特徴に基づく補正情報CIを用いて音声感情情報VEを補正した補正感情情報CVEを生成する。補正情報CIは、例えば、喜びの音声評価値x1を補正する係数k1、怒りの音声評価値x2を補正する係数k2、悲しみの音声評価値x3を補正する係数k3、及び、平常の音声評価値x4を補正する係数k4を含む。k1~k4は、0以上の実数である。補正感情情報CVEは、喜びの音声評価値X1、怒りの音声評価値X2、悲しみの音声評価値X3、及び、平常の音声評価値X4を含む。補正部253は、例えば、下記式に従って、補正感情情報CVEを生成する。 The correction unit 253 generates corrected emotion information CVE by correcting the voice emotion information VE using correction information CI based on the features of the user's U voice. The correction information CI includes, for example, a coefficient k1 for correcting the joyful voice evaluation value x1, a coefficient k2 for correcting the anger voice evaluation value x2, a coefficient k3 for correcting the sadness voice evaluation value x3, and a normal voice evaluation value. It contains a coefficient k4 that corrects x4. k1 to k4 are real numbers of 0 or more. The corrected emotion information CVE includes a joyful voice evaluation value X1, an anger voice evaluation value X2, a sadness voice evaluation value X3, and a normal voice evaluation value X4. The correction unit 253 generates corrected emotion information CVE, for example, according to the following formula.

X1=x1×k1
X2=x2×k2
X3=x3×k3
X4=x4×k4
X1=x1×k1
X2=x2×k2
X3=x3×k3
X4=x4×k4

補正情報CIの生成方法は、例えば、以下に示す2つの態様がある。第1の態様において、ユーザUが、平常時の状態で、集音装置8に向かって発話する。処理装置2は、発話に応じた音声情報VIに対して、複数の特徴量を抽出し、抽出した複数の特徴量と所定の閾値とを比較することにより、係数k1~k4を生成する。例えば、抽出した基本周波数が所定の閾値より高い場合、このユーザUは、平常時であっても基本周波数が高めであり、ユーザUが抱く感情が喜び又は怒りであると誤判定しやすくなる。そこで、処理装置2は、喜びの音声評価値X1及び怒りの音声評価値X2を低くする目的で、喜びに対応する係数k1及び怒りに対応する係数k2を、0より大きく1より小さい値に設定する。 There are, for example, the following two modes of generating the correction information CI. In the first mode, the user U speaks toward the sound collector 8 in a normal state. The processing device 2 generates coefficients k1 to k4 by extracting a plurality of feature amounts from the speech information VI corresponding to the utterance and comparing the extracted plurality of feature amounts with a predetermined threshold value. For example, when the extracted fundamental frequency is higher than a predetermined threshold, the user U has a high fundamental frequency even in normal times, and it is easy to erroneously determine that the user U is feeling joy or anger. Therefore, the processing device 2 sets the coefficient k1 corresponding to joy and the coefficient k2 corresponding to anger to values greater than 0 and less than 1 for the purpose of lowering the voice evaluation value X1 of joy and the voice evaluation value X2 of anger. do.

第2の態様において、処理装置2は、ユーザUに自身の音声の特徴に関する情報を入力させる。例えば、処理装置2は、ユーザUに、自身の音声の特徴に関する情報として、性別及び年齢を入力させる。性別が女性である場合、男性と比較して、一般的には基本周波数が高くなるため、処理装置2は、喜びの音声評価値X1及び怒りの音声評価値X2を低くする目的で、喜びに対応する係数k1及び怒りに対応する係数k2を、0より大きく1より小さい値に設定する。同様に、一般的には、年齢が低いほど声が高くなるため、入力された年齢が所定の閾値以下である場合、処理装置2は、喜びの音声評価値X1及び怒りの音声評価値X2を低くする目的で、喜びに対応する係数k1及び怒りに対応する係数k2を、0より大きく1より小さい値に設定する。 In the second aspect, the processing device 2 allows the user U to input information regarding the characteristics of his/her own voice. For example, the processing device 2 allows the user U to input gender and age as information regarding the characteristics of his/her own voice. When the gender is female, the fundamental frequency is generally higher than that of male. The corresponding coefficient k1 and the coefficient k2 corresponding to anger are set to values greater than zero and less than one. Similarly, in general, the lower the age, the higher the voice. Therefore, if the input age is equal to or less than a predetermined threshold, the processing device 2 converts the voice evaluation value X1 of joy and the voice evaluation value X2 of anger into For the purpose of lowering, the coefficient k1 corresponding to joy and the coefficient k2 corresponding to anger are set to values greater than zero and less than one.

文字評価部256は、人間が発話した音声の発話内容を認識する音声認識処理を音情報SIに対して実行し、音声認識処理の認識結果を示す認識文字列RTに基づいて、複数の感情の各々に対する強度を示す文字評価値Yを含む文字感情情報TEを生成する。文字感情情報TEは、喜びの文字評価値Y1、怒りの文字評価値Y2、悲しみの文字評価値Y3、及び、平常の文字評価値Y4を含む。文字評価値Yは、0以上の実数である。 The character evaluation unit 256 performs speech recognition processing on the sound information SI to recognize the content of speech uttered by a person, and evaluates a plurality of emotions based on the recognition character string RT indicating the recognition result of the speech recognition processing. Textual emotion information TE is generated that includes text evaluation values Y that indicate strength for each. The text emotion information TE includes a text evaluation value Y1 of joy, a text evaluation value Y2 of anger, a text evaluation value Y3 of sadness, and a normal text evaluation value Y4. The character evaluation value Y is a real number of 0 or more.

より詳細には、文字評価部256は、音声認識処理部2561、形態素解析処理部2563、及び、評価値算出部2565を含む。
音声認識処理部2561は、音情報SIに音声認識処理を施して認識文字列RTを出力する。音声認識処理部2561は、例えば、予め用意された音響モデル及び言語モデルを用いて、音声から文字列を認識する手法を含む、種々の手法によって、認識文字列RTを出力する。
More specifically, the character evaluation section 256 includes a speech recognition processing section 2561 , a morphological analysis processing section 2563 and an evaluation value calculation section 2565 .
The speech recognition processing unit 2561 performs speech recognition processing on the sound information SI and outputs a recognized character string RT. The speech recognition processing unit 2561 outputs a recognized character string RT by various methods including a method of recognizing a character string from speech using, for example, an acoustic model and a language model prepared in advance.

形態素解析処理部2563は、解析用辞書情報31を参照して、認識文字列RTに対して形態素解析処理を実行して、補正後認識文字列CRTを出力する。形態素解析処理は、認識文字列RTを形態素ごとに分解する処理である。形態素解析処理において、解析用辞書情報31の品詞及び品詞細分類が利用される。補正後認識文字列CRTは、フィラー等といった、ユーザUが抱く感情を推定するためには不要な文字列を除いた文字列である。フィラーは、「ええと」、「あの」、及び、「まあ」といった、発話の合間に挟み込む言葉である。 The morphological analysis processing unit 2563 refers to the analysis dictionary information 31, executes morphological analysis processing on the recognized character string RT, and outputs a corrected recognized character string CRT. The morphological analysis process is a process of decomposing the recognized character string RT into morphemes. In the morphological analysis processing, the part of speech and the sub-classification of the part of speech of the analysis dictionary information 31 are used. The post-correction recognition character string CRT is a character string excluding character strings that are not necessary for estimating the feelings of the user U, such as fillers. Fillers are words that are inserted between utterances, such as "um," "that," and "well."

評価値算出部2565は、感情分類情報33に含まれる文字列と、補正後認識文字列CRTとを比較することにより各感情の文字評価値Yを算出し、各感情の文字評価値Yを含む文字感情情報TEを生成する。各感情の文字評価値Yの算出について、評価値算出部2565は、補正後認識文字列CRTが、感情分類情報33に含まれる文字列を含む場合に、この補正後認識文字列CRTに含まれる文字列に対応する感情の文字評価値Yを増加させる。
例えば、補正後認識文字列CRTが「今日試合に勝った」であれば、評価値算出部2565は、以下のような各感情の文字評価値Yを出力する。
The evaluation value calculation unit 2565 calculates the character evaluation value Y of each emotion by comparing the character string included in the emotion classification information 33 and the corrected recognized character string CRT, and includes the character evaluation value Y of each emotion. Generate text emotion information TE. Regarding the calculation of the character evaluation value Y of each emotion, the evaluation value calculation unit 2565 calculates the character string included in the corrected recognized character string CRT when the corrected recognized character string CRT includes the character string included in the emotion classification information 33. Increase the character evaluation value Y of the emotion corresponding to the character string.
For example, if the recognized character string after correction CRT is "I won the game today", the evaluation value calculation unit 2565 outputs the following character evaluation values Y for each emotion.

喜びの文字評価値Y1 1
怒りの文字評価値Y2 0
悲しみの文字評価値Y3 0
平常の文字評価値Y4 0
Character evaluation value of joy Y1 1
Character evaluation value of anger Y2 0
Character evaluation value of sadness Y3 0
Normal character evaluation value Y4 0

上述の例では、補正後認識文字列CRTに、感情分類情報33に含まれる「勝っ」が含まれているため、評価値算出部2565は、「勝っ」に対応する喜びの文字評価値Y1を1増加させる。増加させる文字評価値Yの増加量は、1に限らなく、感情分類情報33に含まれる文字列ごとに異なってもよい。例えば、より喜びを強く示す文字列に対する文字評価値Yの増加量を2としてもよい。さらに、補正後認識文字列CRTに、感情分類情報33に含まれる文字列、及び、内容を強調する文字列が含まれる場合、評価値算出部2565は、文字評価値Yの増加量を大きくしてもよい。例えば、補正後認識文字列CRTが「今日試合に勝ててとても嬉しい」であれば、補正後認識文字列CRTに感情分類情報33に含まれる「嬉しい」が含まれており、かつ、「とても」という内容を強調する文字列が含まれるため、評価値算出部2565は、例えば、喜びの文字評価値Y1を2増加させる。補正後認識文字列CRTのうち、どの文字列が、内容を強調する文字列であるか否かは、形態素解析処理によって得られる形態素によって判定することができる。以下の例では、説明を容易にするため、増加させる文字評価値Yの増加量が1であるとする。
さらに、補正後認識文字列CRTに、感情分類情報33に含まれる文字列、及び、内容を否定する文字列が含まれる場合、評価値算出部2565は、この補正後認識文字列CRTに含まれる文字列に対応する文字評価値Yを増加させる処理とは異なる処理を実行してもよい。例えば、補正後認識文字列CRTが「今日試合に勝つことができなかった」であれば、補正後認識文字列CRTに感情分類情報33に含まれる「勝つ」が含まれるが、「なかっ」という内容を否定する文字列が含まれるため、評価値算出部2565は、例えば、悲しみの文字評価値Y3を1増加させる。補正後認識文字列CRTのうち、どの文字列が、内容を否定する文字列であるか否かは、形態素解析処理によって得られる形態素によって判定することができる。このように、形態素解析処理によって、補正後認識文字列CRTが肯定的な内容なのか否定的な内容かを推定することが可能である。以下の例では、説明を容易にするため、補正後認識文字列CRTに、感情分類情報33に含まれる文字列が含まれれば、この補正後認識文字列CRTに含まれる文字列に対応する文字評価値Yを増加させることとして説明を行う。
In the above example, since the corrected recognized character string CRT includes "win" included in the emotion classification information 33, the evaluation value calculation unit 2565 calculates the joy character evaluation value Y1 corresponding to "win". Increase by 1. The amount by which the character evaluation value Y is increased is not limited to 1, and may differ for each character string included in the emotion classification information 33 . For example, the amount of increase in the character evaluation value Y for a character string that strongly indicates joy may be set to 2. Furthermore, when the corrected recognized character string CRT includes a character string included in the emotion classification information 33 and a character string that emphasizes the content, the evaluation value calculation unit 2565 increases the amount of increase in the character evaluation value Y. may For example, if the post-correction recognition character string CRT is "I am very happy that I won the match today", the post-correction recognition character string CRT includes "happy" included in the emotion classification information 33 and is "very". Since the character string emphasizing the content is included, the evaluation value calculation unit 2565 increases the character evaluation value Y1 of joy by 2, for example. It is possible to determine which character string among the corrected recognized character strings CRT is the character string for emphasizing the content, based on the morphemes obtained by the morphological analysis process. In the following example, the increment of the character evaluation value Y is assumed to be 1 for ease of explanation.
Furthermore, if the corrected recognized character string CRT includes a character string included in the emotion classification information 33 and a character string that negates the contents, the evaluation value calculation unit 2565 A process different from the process of increasing the character evaluation value Y corresponding to the character string may be executed. For example, if the post-correction recognition character string CRT is "I couldn't win the game today", the post-correction recognition character string CRT includes "win" included in the emotion classification information 33, but "not". Since a character string that negates the content is included, the evaluation value calculation unit 2565 increases the sadness character evaluation value Y3 by one, for example. It is possible to determine which character string among the corrected recognized character strings CRT is a character string that negates the content, based on the morphemes obtained by the morphological analysis process. In this way, it is possible to estimate whether the post-correction recognized character string CRT has positive or negative content by the morphological analysis processing. In the following example, for ease of explanation, if the post-correction recognition character string CRT includes a character string included in the emotion classification information 33, the character string corresponding to the character string included in the post-correction recognition character string CRT is A description will be given assuming that the evaluation value Y is increased.

推定部258は、補正感情情報CVEと文字感情情報TEとに基づいて、ユーザUが抱く1以上の感情を推定する。例えば、推定部258は、複数の感情の各々について、補正感情情報CVEの音声評価値X1~X4と文字感情情報TEの文字評価値Y1~Y4とを感情ごとに加算して、感情ごとに加算値を算出する。推定部258は、感情ごとの加算値を閾値と比較し、閾値を超える加算値を特定する。推定部258は、特定された加算値に対応する1以上の感情を、ユーザUが抱く1以上の感情として推定する。以下の説明では、音声評価値Xと文字評価値Yとの加算とは、感情ごとに加算して、4つの加算値を生成することを意味する。
推定部258は、音声評価値Xと文字評価値Yとを単に加算するのみに限らず、音声評価値Xと文字評価値Yとのいずれか一方の評価値に、所定値αを乗じた値と、他方の評価値とを加算してもよい。所定値αは、例えば、ユーザ装置1の開発者又はユーザUなどによって設定される値である。
The estimation unit 258 estimates one or more emotions that the user U has based on the corrected emotion information CVE and the text emotion information TE. For example, the estimating unit 258 adds the voice evaluation values X1 to X4 of the corrected emotion information CVE and the text evaluation values Y1 to Y4 of the text emotion information TE for each of the plurality of emotions. Calculate the value. The estimating unit 258 compares the added value for each emotion with the threshold and identifies the added value exceeding the threshold. Estimation unit 258 estimates one or more emotions corresponding to the identified added value as one or more emotions that user U has. In the following description, the addition of the voice evaluation value X and the character evaluation value Y means adding for each emotion to generate four added values.
The estimating unit 258 is not limited to simply adding the voice evaluation value X and the character evaluation value Y; and the evaluation value of the other may be added. The predetermined value α is, for example, a value set by the developer of the user device 1, the user U, or the like.

推定部258は、推定したユーザUが抱く1以上の感情を示す推定感情情報EIを出力する。推定感情情報EIは、例えば、以下に示す2つの態様がある。推定感情情報EIの第1の態様は、推定したユーザUが抱く1以上の感情を示す識別子である。感情を示す識別子には、喜びを示す識別子、怒りを示す識別子、悲しみを示す識別子、及び、平常を示す識別子がある。推定感情情報EIの第2の態様は、推定したユーザUが抱く1以上の感情を示す識別子と、推定したユーザUが抱く感情の評価値とである。推定したユーザUが抱く感情の評価値は、例えば、推定したユーザUが抱く1以上の感情について、補正感情情報CVEの音声評価値Xと文字評価値Yとを感情ごとに加算した値である。 The estimation unit 258 outputs estimated emotion information EI indicating one or more emotions that the estimated user U has. The estimated emotion information EI has, for example, the following two forms. A first aspect of the estimated emotion information EI is an identifier indicating one or more emotions that the estimated user U has. Emotion identifiers include joy identifiers, anger identifiers, sadness identifiers, and normality identifiers. A second aspect of the estimated emotion information EI is an identifier indicating one or more emotions that the estimated user U has, and an evaluation value of the estimated emotion that the user U has. The evaluation value of the estimated emotion of the user U is, for example, a value obtained by adding the voice evaluation value X and the character evaluation value Y of the corrected emotion information CVE for each emotion of one or more emotions that the estimated user U has. .

出力部26は、推定感情情報EIが示す1以上の感情に応じた処理を実行して得られたデータを出力する。例えば、出力部26は、下記に示す2つの態様がある。第1の態様における出力部26は、音声認識処理部2561によって得られた認識文字列RTに対して、推定感情情報EIが示す1以上の感情に応じた処理を実行して得られたデータを出力する。感情に応じた処理は、例えば、下記に示す2つの態様がある。
感情に応じた処理の第1の態様は、認識文字列RTに対して、感情を具象化した図形を付加する処理である。感情を具象化した図形は、例えば、感情を具象化した絵文字、及び、感情を具象化した顔文字である。絵文字は、文字コードに対応付けられた画像である。文字コードは、例えば、Unicodeである。顔文字は、記号及び文字を組み合わせて顔を表現した文字列である。以下の説明では、感情を具象化した図形は、感情を具象化した絵文字であるとして説明する。喜びを具象化した絵文字は、例えば、笑顔を示す絵文字である。怒りを具象化した絵文字は、例えば、怒りの顔を示す絵文字である。悲しみを具象化した絵文字は、例えば、泣き顔を示す絵文字である。さらに、推定感情情報EIが第2の態様である場合、出力部26は、推定感情情報EIが示す感情であって、推定感情情報EIに含まれる評価値に応じた強度を有する感情を具象化した絵文字を、認識文字列RTに付加する絵文字として決定してもよい。例えば、推定感情情報EIが示す感情が悲しみであり、かつ、推定感情情報EIに含まれる評価値が所定の閾値以下である場合、出力部26は、涙をこぼす顔を示す絵文字を認識文字列RTに付加する絵文字として決定する。一方、推定感情情報EIが示す感情が悲しみであり、かつ、推定感情情報EIに含まれる評価値が所定の閾値より大きい場合、出力部26は、号泣した顔を示す絵文字を認識文字列RTに付加する絵文字として決定する。号泣した顔を示す絵文字は、涙をこぼす顔を示す絵文字と比較して、より高い強度の悲しみを具象化している。
出力部26は、認識文字列RTに絵文字を付加して得られた絵文字付き文字列を出力する。絵文字を付加する位置は、例えば、以下に示す2つがある。第1の位置は、認識文字列RTの末尾である。第2の位置は、認識文字列RT内における、感情分類情報33に含まれる文字列の次である。表示装置4は、出力部26が出力した絵文字付き文字列に基づく画像を表示する。
The output unit 26 outputs data obtained by executing processing corresponding to one or more emotions indicated by the estimated emotion information EI. For example, the output unit 26 has the following two aspects. The output unit 26 in the first mode outputs data obtained by executing processing according to one or more emotions indicated by the estimated emotion information EI on the recognized character string RT obtained by the speech recognition processing unit 2561. Output. There are, for example, the following two modes of processing according to emotion.
A first mode of processing according to emotion is processing of adding a figure embodying emotion to the recognized character string RT. The figure embodying emotion is, for example, a pictogram embodying emotion and an emoticon embodying emotion. A pictogram is an image associated with a character code. The character code is Unicode, for example. An emoticon is a character string that expresses a face by combining symbols and characters. In the following description, it is assumed that the figure embodying emotion is a pictogram embodying emotion. A pictogram embodying joy is, for example, a smiley pictogram. A pictogram embodying anger is, for example, a pictogram showing an angry face. A pictogram embodying sadness is, for example, a pictogram showing a crying face. Furthermore, when the estimated emotion information EI is in the second mode, the output unit 26 embody the emotion indicated by the estimated emotion information EI and having an intensity corresponding to the evaluation value included in the estimated emotion information EI. The resulting pictogram may be determined as a pictogram to be added to the recognized character string RT. For example, when the emotion indicated by the estimated emotion information EI is sadness and the evaluation value included in the estimated emotion information EI is equal to or less than a predetermined threshold value, the output unit 26 recognizes a pictogram representing a tearful face as a recognized character string. It is determined as a pictogram to be added to RT. On the other hand, when the emotion indicated by the estimated emotion information EI is sadness and the evaluation value included in the estimated emotion information EI is greater than the predetermined threshold value, the output unit 26 outputs a pictogram representing a crying face as the recognition character string RT. It is determined as a pictogram to be added. An emoji showing a crying face embodies a higher intensity of sadness compared to an emoji showing a tearful face.
The output unit 26 outputs a character string with pictograms obtained by adding pictograms to the recognized character string RT. There are, for example, the following two positions for adding pictograms. The first position is the end of the recognition string RT. The second position is next to the character string included in the emotion classification information 33 within the recognized character string RT. The display device 4 displays an image based on the character string with pictograms output by the output unit 26 .

感情に応じた処理の第2の態様は、感情に基づく抑揚を付加して読み上げた合成音声を生成する処理である。抑揚は、例えば、読み上げ速度を速くするもしくは遅くする、又は、音量を大きくするもしくは小さくすることである。喜びに基づく抑揚は、例えば、読み上げ速度を上げることである。怒りに基づく抑揚は、例えば、音量を大きくすることである。悲しみに基づく抑揚は、例えば、音量を小さくすることである。出力部26は、感情に基づく抑揚を付加して読み上げた合成音声を示す情報を出力する。そして、出力部26は、生成したデータが示す合成音声に、感情に基づく抑揚を付加して、感情に基づく抑揚を付加して読み上げた合成音声を示す情報を出力する。放音装置7は、出力部26が出力したデータが示す合成音声を放音する。 A second aspect of the process according to emotion is a process of generating synthesized speech that is read aloud by adding inflections based on emotion. Inflection is, for example, speeding up or slowing down reading speed, or increasing or decreasing volume. A pleasure-based intonation is, for example, increasing the reading speed. Anger-based intonation is, for example, increasing the volume. An inflection based on grief is, for example, lowering the volume. The output unit 26 outputs information indicating synthesized speech read aloud with an intonation based on emotion. Then, the output unit 26 adds an emotion-based intonation to the synthesized speech indicated by the generated data, and outputs information indicating the synthesized speech read aloud with the emotion-based intonation added. The sound emitting device 7 emits synthesized speech indicated by the data output by the output unit 26 .

第2の態様における出力部26は、推定感情情報EIが示す1以上の感情を具象化した絵文字を出力する。第2の態様における出力部26では、認識文字列RTを用いる必要がない。以下の記載では、出力部26は、第1の態様であるとして説明する。 The output unit 26 in the second mode outputs pictographs embodying one or more emotions indicated by the estimated emotion information EI. The output unit 26 in the second mode does not need to use the recognized character string RT. In the description below, the output unit 26 is described as being in the first mode.

1.2.第1実施形態の動作
次に、ユーザ装置1の動作について、図6を用いて説明する。
1.2. Operation of First Embodiment Next, the operation of the user device 1 will be described with reference to FIG.

図6は、ユーザ装置1の動作を示すフローチャートである。処理装置2は、上述した補正情報CIの2つの生成方法のいずれか一方に従って、補正情報CIを生成する(ステップS1)。次に、取得部21は、音情報SIを取得する(ステップS2)。そして、音声認識処理部2561は、音情報SIに対して音声認識処理を実行し、認識文字列RTを出力する(ステップS3)。次に、形態素解析処理部2563は、解析用辞書情報31を参照して、認識文字列RTに対して形態素解析処理を実行して、補正後認識文字列CRTを出力する(ステップS4)。そして、評価値算出部2565は、感情分類情報33に含まれる文字列と、補正後認識文字列CRTとを比較することにより各感情の文字評価値Yを算出し、各感情の文字評価値Yを含む文字感情情報TEを生成する(ステップS5)。 FIG. 6 is a flow chart showing the operation of the user device 1. As shown in FIG. The processing device 2 generates the correction information CI according to one of the two methods of generating the correction information CI described above (step S1). Next, the obtaining unit 21 obtains the sound information SI (step S2). Then, the speech recognition processing unit 2561 performs speech recognition processing on the sound information SI, and outputs a recognized character string RT (step S3). Next, the morphological analysis processing unit 2563 refers to the analysis dictionary information 31, executes morphological analysis processing on the recognized character string RT, and outputs the corrected recognized character string CRT (step S4). Then, the evaluation value calculation unit 2565 calculates the character evaluation value Y of each emotion by comparing the character string included in the emotion classification information 33 and the post-correction recognized character string CRT, and calculates the character evaluation value Y of each emotion. is generated (step S5).

また、ノイズ除去部251は、音情報SIが示す音から、第1パラメータP1及び第2パラメータP2に従ってノイズを除去して音声情報VIを生成する(ステップS6)。そして、音声評価部252は、ノイズを除去した音声情報VIから、音の特徴量を抽出する(ステップS7)。次に、音声評価部252は、音の特徴量を学習モデルLMに入力し、各感情の音声評価値xを含む音声感情情報VEを学習モデルLMから取得する(ステップS8)。補正部253は、補正情報CIを用いて、音声感情情報VEに含まれる各感情の音声評価値xを補正した補正感情情報CVEを生成する(ステップS9)。 Further, the noise removal unit 251 removes noise from the sound indicated by the sound information SI according to the first parameter P1 and the second parameter P2 to generate the voice information VI (step S6). Then, the speech evaluation unit 252 extracts the sound feature amount from the speech information VI from which noise has been removed (step S7). Next, the voice evaluation unit 252 inputs the sound feature amount to the learning model LM, and acquires the voice emotion information VE including the voice evaluation value x of each emotion from the learning model LM (step S8). The correction unit 253 generates corrected emotion information CVE by correcting the voice evaluation value x of each emotion included in the voice emotion information VE using the correction information CI (step S9).

推定部258は、補正感情情報CVEと文字感情情報TEとに基づいて、ユーザUが抱く感情を推定し、推定感情情報EIを出力する(ステップS10)。出力部26は、認識文字列RTに対して、推定感情情報EIが示す感情に応じた処理を実行して得られる情報を出力する(ステップS11)。ステップS11の処理終了後、ユーザ装置1は、図6に示す一連の処理を終了する。 The estimation unit 258 estimates the emotion that the user U has based on the corrected emotion information CVE and the text emotion information TE, and outputs estimated emotion information EI (step S10). The output unit 26 outputs information obtained by performing processing according to the emotion indicated by the estimated emotion information EI on the recognized character string RT (step S11). After completing the process of step S11, the user device 1 ends the series of processes shown in FIG.

1.3.第1実施形態の効果
以上の説明によれば、ユーザ装置1は、汎用的な学習モデルLMを用いてユーザUの感情推定を実行するため、個人ごとに調整された学習モデルを生成する場合と比較して、学習モデルLMの生成にかかる時間を短縮できる。
汎用的な学習モデルLMに平均的な人間の音声に関する複数の特徴量を入力すれば、平均的な人間の抱く感情を推定できる。しかし、ユーザUの音声は、ユーザUの性別、年齢、及び、ユーザUの話し方の特徴等の影響を受けるので、平均的な人間の音声と相違する。従って、単に汎用的な学習モデルLMを用いるだけでは、ユーザUが抱く感情の判定精度が低下する。
上述したユーザ装置1では、ユーザUの音声の特徴に基づく補正情報CIを用いて、学習モデルLMから出力される音声感情情報VEが補正されるため、汎用的な学習モデルLMを利用しつつ、ユーザUが抱く感情を高精度に推定できる。
1.3. Effect of the First Embodiment According to the above description, the user device 1 estimates the emotions of the user U using the general-purpose learning model LM. By comparison, the time required to generate the learning model LM can be shortened.
By inputting a plurality of feature amounts relating to an average human voice to the general-purpose learning model LM, it is possible to estimate the emotions of an average human being. However, the user U's voice is affected by the user's U gender, age, characteristics of the user's U's speaking style, and the like, and thus differs from an average human voice. Therefore, simply using the general-purpose learning model LM lowers the accuracy of determination of the emotion that the user U has.
In the user device 1 described above, since the speech emotion information VE output from the learning model LM is corrected using the correction information CI based on the features of the voice of the user U, while using the general-purpose learning model LM, The emotion that the user U has can be estimated with high accuracy.

また、ユーザ装置1は、音情報SIが示す音からノイズを除去して音声情報VIを生成し、音声情報VIに基づく音の特徴量を学習モデルLMに入力する。音声情報VIに基づく音の特徴量を学習モデルLMに入力することにより、音情報SIに基づく音の特徴量を学習モデルLMに入力する場合と比較して、より精度の高い音声感情情報VEを得ることができる。 In addition, the user device 1 removes noise from the sound indicated by the sound information SI to generate voice information VI, and inputs the feature amount of the sound based on the voice information VI to the learning model LM. By inputting the sound feature amount based on the voice information VI into the learning model LM, the speech emotion information VE with higher accuracy can be generated than when the sound feature amount based on the sound information SI is input into the learning model LM. Obtainable.

また、ユーザ装置1は、補正感情情報CVEと文字感情情報TEとに基づいて、ユーザUが抱く1以上の感情を推定するので、補正感情情報CVEのみに基づいてユーザUが抱く感情を推定する場合と比較して、ユーザUが抱く感情を高精度に推定できる。 Moreover, since the user device 1 estimates one or more emotions that the user U has based on the corrected emotion information CVE and the text emotion information TE, the user device 1 estimates the emotions that the user U has based only on the corrected emotion information CVE. Compared to the case, the emotion that the user U has can be estimated with high accuracy.

2.第2実施形態
第2実施形態にかかるユーザ装置1aは、ユーザUに明示的に感情を発露させた音声を発話するように促し、ユーザUの明示的な音声感情情報VEaを学習モデルLMから取得し、ユーザUが抱く感情が明示的な感情であると推定部258が推定する可能性を高くする目的で、補正情報CIを調整する点で、第1実施形態にかかるユーザ装置1と相違する。第2実施形態では、ユーザ装置1aは、ユーザUが抱く感情を推定する感情推定モードと、補正情報CIを調整するキャリブレーションモードとを取り得る。感情推定モードが、第1実施形態に相当するため、説明を省略する。以下、第2実施形態にかかるユーザ装置1aを説明する。なお、以下に例示する第2実施形態において作用又は機能が第1実施形態と同等である要素については、以上の説明で参照の符号を流用して各々の詳細な説明を適宜に省略する。
2. Second Embodiment A user device 1a according to a second embodiment prompts a user U to utter a voice that expresses an explicit emotion, and acquires the user U's explicit voice emotion information VEa from a learning model LM. However, the user device 1 differs from the user device 1 according to the first embodiment in that the correction information CI is adjusted for the purpose of increasing the possibility that the estimation unit 258 estimates that the emotion that the user U has is an explicit emotion. . In the second embodiment, the user device 1a can take an emotion estimation mode for estimating the emotion of the user U and a calibration mode for adjusting the correction information CI. Since the emotion estimation mode corresponds to the first embodiment, the description is omitted. The user device 1a according to the second embodiment will be described below. In the second embodiment exemplified below, elements having the same actions or functions as those of the first embodiment are denoted by reference numerals in the above description, and detailed descriptions thereof are appropriately omitted.

2.1.第2実施形態の機能
図7は、第2実施形態にかかるユーザ装置1aを示すブロック図である。ユーザ装置1aは、処理装置2a、記憶装置3a、表示装置4、操作装置5、通信装置6、放音装置7、及び、集音装置8を具備するコンピュータシステムにより実現される。記憶装置3aは、処理装置2aが読取可能な記録媒体であり、処理装置2aが実行する制御プログラムPRaを含む複数のプログラム、解析用辞書情報31、及び、感情分類情報33を記憶する。
2.1. Functions of Second Embodiment FIG. 7 is a block diagram showing a user device 1a according to the second embodiment. The user device 1a is implemented by a computer system including a processing device 2a, a storage device 3a, a display device 4, an operation device 5, a communication device 6, a sound emitting device 7, and a sound collecting device 8. FIG. The storage device 3a is a recording medium readable by the processing device 2a, and stores a plurality of programs including the control program PRa executed by the processing device 2a, analysis dictionary information 31, and emotion classification information 33. FIG.

処理装置2aは、記憶装置3aから制御プログラムPRaを読み取り実行することによって、取得部21a、感情推定部25a、及び、出力部26として機能する。 The processing device 2a functions as an acquisition unit 21a, an emotion estimation unit 25a, and an output unit 26 by reading and executing the control program PRa from the storage device 3a.

図8は、第2実施形態にかかるユーザ装置1aの機能の概要を示す図である。感情推定部25aは、ノイズ除去部251、音声評価部252、補正部253、調整部254、文字評価部256、及び、推定部258を含む。 FIG. 8 is a diagram showing an overview of functions of the user device 1a according to the second embodiment. The emotion estimation unit 25 a includes a noise removal unit 251 , a voice evaluation unit 252 , a correction unit 253 , an adjustment unit 254 , a character evaluation unit 256 and an estimation unit 258 .

取得部21aは、複数の感情のうち一の感情をユーザUが明示的に発露させた音声を含む音を示す音情報SIaを取得する。具体的には、ユーザUが、操作装置5への操作によって、ユーザ装置1aをキャリブレーションモードに設定した場合、処理装置2は、複数の感情のうち一の感情を明示的に発露して発音するように促した画面を表示装置4に表示する。「一の感情」を、以下、「明示感情」と称する。取得部21aは、前述の画面を表示した後に取得した音情報SIを、明示感情をユーザUが発露させた音声を含む音を示す音情報SIaとして取得する。複数の感情のうち、いずれの感情を明示感情に設定するかについては、例えば、ユーザ装置1aの開発者が予め設定してもよいし、ユーザUが複数の感情から明示感情を選択してもよい。 Acquisition unit 21a acquires sound information SIa indicating sound including voice in which user U expresses one emotion out of a plurality of emotions. Specifically, when the user U operates the operation device 5 to set the user device 1a to the calibration mode, the processing device 2 expresses one emotion out of the plurality of emotions and pronounces it. A screen prompting to do so is displayed on the display device 4 . "One emotion" is hereinafter referred to as "explicit emotion". The obtaining unit 21a obtains the sound information SI obtained after the screen is displayed as the sound information SIa indicating the sound including the voice that the user U expresses the explicit emotion. Which of the plurality of emotions to set as the explicit emotion may be set in advance by, for example, the developer of the user device 1a, or the user U may select the explicit emotion from among the plurality of emotions. good.

ノイズ除去部251は、音情報SIaが示す音からノイズを除去して音声情報VIaを生成する。 The noise removal unit 251 removes noise from the sound indicated by the sound information SIa to generate voice information VIa.

音声評価部252は、学習モデルLMに対して、音声情報VIaに基づく音の特徴量を入力し、ユーザUの明示的な音声感情情報VEaを学習モデルLMから取得する。 The voice evaluation unit 252 inputs the sound feature amount based on the voice information VIa to the learning model LM, and acquires the user U's explicit voice emotion information VEa from the learning model LM.

調整部254は、ユーザUが抱く感情が明示感情であると推定部258が推定する可能性を高くする目的で、明示的な音声感情情報VEaに基づいて補正情報CIを調整する。例えば、調整部254は、明示感情に対応する係数kを増加させる処理、及び、明示感情以外の感情に対応する係数kを減少させる処理の一方又は両方を実行する。例えば、調整部254は、下記式に従って、係数k1~k4を生成する。但し、感情を発露させてユーザUが予め定められた音声を発話した場合に得られる理想的な音声評価値Xに関し、喜びの音声評価値をXa1、怒りの音声評価値をXa2、悲しみの音声評価値をXa3、平常の音声評価値をXa4で表す。
k1=Xa1/x1
k2=Xa2/x2
k3=Xa3/x3
k4=Xa4/x4
但し、係数kは、必ずしもXa/xと一致する必要はない。
The adjustment unit 254 adjusts the correction information CI based on the explicit voice emotion information VEa for the purpose of increasing the possibility of the estimation unit 258 estimating that the emotion that the user U has is the explicit emotion. For example, the adjustment unit 254 performs one or both of a process of increasing the coefficient k corresponding to the explicit emotion and a process of decreasing the coefficient k corresponding to emotions other than the explicit emotion. For example, the adjuster 254 generates coefficients k1 to k4 according to the following equations. However, regarding the ideal voice evaluation value X obtained when the user U expresses emotion and utters a predetermined voice, Xa1 is the voice evaluation value of joy, Xa2 is the voice evaluation value of anger, and Xa2 is the voice of sadness. The evaluation value is represented by Xa3, and the normal voice evaluation value by Xa4.
k1=Xa1/x1
k2=Xa2/x2
k3=Xa3/x3
k4=Xa4/x4
However, the coefficient k does not necessarily have to match Xa/x.

2.2.第2実施形態の動作
次に、キャリブレーションモード時のユーザ装置1aの動作について、図9を用いて説明する。
2.2. Operation of Second Embodiment Next, the operation of the user device 1a in the calibration mode will be described with reference to FIG.

図9は、キャリブレーションモード時のユーザ装置1aの動作を示すフローチャートである。取得部21aは、ユーザUが明示感情を発露させた音声を含む音を示す音情報SIaを取得する(ステップS21)。次に、ノイズ除去部251は、第1パラメータP1及び第2パラメータP2に従ってノイズを除去して音声情報VIaを生成する(ステップS22)。そして、音声評価部252は、ノイズを除去した音声情報VIaから、音の特徴量を抽出する(ステップS23)。次に、音声評価部252は、音の特徴量を学習モデルLMに入力し、各感情の音声評価値xを含む音声感情情報VEaを学習モデルLMから取得する(ステップS24)。 FIG. 9 is a flow chart showing the operation of the user device 1a in the calibration mode. The acquisition unit 21a acquires the sound information SIa indicating the sound including the voice in which the user U expresses the explicit emotion (step S21). Next, the noise removing unit 251 removes noise according to the first parameter P1 and the second parameter P2 to generate the voice information VIa (step S22). Then, the speech evaluation unit 252 extracts the sound feature amount from the noise-removed speech information VIa (step S23). Next, the voice evaluation unit 252 inputs the sound feature amount to the learning model LM, and acquires voice emotion information VEa including the voice evaluation value x of each emotion from the learning model LM (step S24).

調整部254は、明示的な音声感情情報VEaに含まれる複数の音声評価値xを、補正部253と同様の方法により補正する(ステップS25)。次に、調整部254は、ユーザUが抱く感情が明示感情であると推定部258が推定する可能性を高くする目的で、補正情報CIを調整する(ステップS26)。ステップS26の処理終了後、ユーザ装置1aは、図9に示す一連の処理を終了する。 The adjuster 254 corrects the plurality of voice evaluation values x included in the explicit voice emotion information VEa by the same method as the corrector 253 (step S25). Next, the adjustment unit 254 adjusts the correction information CI for the purpose of increasing the possibility of the estimation unit 258 estimating that the emotion that the user U has is the explicit emotion (step S26). After completing the process of step S26, the user device 1a ends the series of processes shown in FIG.

2.3.第2実施形態の効果
以上の説明によれば、ユーザUが明示感情を発露させた音声を発話した場合に、ユーザ装置1aは、ユーザUが抱く感情が明示感情であると推定部258が推定する可能性を高くする目的で、明示的な音声感情情報VEaに基づいて補正情報CIを調整する態様を有する。この態様では、音声感情情報VEaによって推定される感情の正解が判明しており、補正情報CIを調整したユーザU用の補正感情情報CVEは、補正情報CIを調整していないユーザU用の補正感情情報CVEと比較して、ユーザUが抱く感情の推定精度を向上できる。
また、ユーザUが明示感情を発露させた音声を発話したとしても、感情を音声に発露させる強度はユーザU間で互いに異なる。例えば、あるユーザUは、感情を音声に発露させる強度が高い一方で、別のユーザUは、感情を音声に発露させる強度が低い場合がある。第2実施形態における補正情報CIは、感情を音声に発露させる強度の違いも反映される。例えば、感情を音声に発露させる強度が高いユーザUは、上述の理想的な音声評価値Xに対して、音声評価値xが近い値となり、係数kが1に近い値となる。一方、感情を音声に発露させる強度が低いユーザUは、上述の理想的な音声評価値Xに対して、音声評価値xが小さい値となり、係数kが1から離れた値となる。以上により、発露させる強度が低いユーザUほど、係数kが1から離れた値になり、感情を音声に発露させる強度の違いが補正情報CIに反映されるため、ユーザUが抱く感情の推定精度を向上できる。
2.3. Effect of the Second Embodiment According to the above description, when the user U utters a voice that expresses an explicit emotion, the estimation unit 258 estimates that the emotion that the user U has is an explicit emotion. For the purpose of increasing the possibility of correcting the correction information CI, the correction information CI is adjusted based on the explicit voice emotion information VEa. In this aspect, the correct answer for the emotion estimated by the voice emotion information VEa is known, and the corrected emotion information CVE for the user U whose correction information CI is adjusted is the corrected emotion information CVE for the user U whose correction information CI is not adjusted. The accuracy of estimating the emotion that the user U has can be improved compared to the emotion information CVE.
Further, even if the user U utters a voice that expresses an explicit emotion, the intensity of the voice that expresses the emotion is different among the users U. For example, there is a case where a certain user U expresses emotions with voice with high intensity, while another user U expresses emotions with voice with low intensity. The correction information CI in the second embodiment also reflects the difference in the intensity of expressing emotion in voice. For example, a user U who expresses emotion in voice with a high intensity has a voice evaluation value x close to the ideal voice evaluation value X described above, and a coefficient k close to one. On the other hand, the voice evaluation value x of the user U, whose intensity of expressing emotion in voice is low, is smaller than the above-described ideal voice evaluation value X, and the coefficient k is a value away from 1. As described above, the coefficient k becomes a value farther from 1 for the user U who expresses the emotion with a lower intensity, and the difference in the intensity of expressing the emotion in the voice is reflected in the correction information CI. can be improved.

3.第3実施形態
第3実施形態にかかる感情推定システムSYSは、第2実施形態で示した機能によってユーザ装置1bをキャリブレーションモードに設定して、明示感情を発露させたユーザUの感情推定結果を利用して、ユーザ装置1bをキャリブレーションモードに設定していなく、明示感情を発露させていないユーザUの補正情報CIを調整する構成を有する点で、第2実施形態にかかるユーザ装置1aと相違する。以下の説明において、ユーザ装置1bをキャリブレーションモードに設定し、明示感情を発露させたユーザUを、「キャリブレーション済みユーザ」と称し、キャリブレーションモードに設定していなく、明示感情を発露させていないユーザUを、「非キャリブレーションユーザ」と称する。
以下、第3実施形態にかかる感情推定システムSYSを説明する。なお、以下に例示する第3実施形態において作用又は機能が第2実施形態と同等である要素については、以上の説明で参照の符号を流用して各々の詳細な説明を適宜に省略する。
3. Third Embodiment The emotion estimation system SYS according to the third embodiment sets the user device 1b to the calibration mode by the function shown in the second embodiment, and estimates the emotion estimation result of the user U who expresses the explicit emotion. The user device 1a differs from the user device 1a according to the second embodiment in that it has a configuration for adjusting the correction information CI of the user U who has not set the user device 1b to the calibration mode and is not expressing an explicit emotion. do. In the following description, a user U who has set the user device 1b to the calibration mode and has expressed an explicit emotion is referred to as a "calibrated user", who has not set the calibration mode and has expressed an explicit emotion. A user U who does not have a calibration is referred to as a "non-calibrated user".
The emotion estimation system SYS according to the third embodiment will be described below. In addition, in the third embodiment illustrated below, the elements whose actions or functions are the same as those of the second embodiment are referred to by the same reference numerals in the above description, and the detailed description thereof will be omitted as appropriate.

3.1.第3実施形態の概要
図10は、感情推定システムSYSの全体構成を示す図である。感情推定システムSYSは、ユーザUが所持するユーザ装置1bと、ネットワークNWと、サーバ装置10とを備える。感情推定システムSYSに含まれるユーザ装置1は、ユーザ装置1b1からユーザ装置1bmまでである。mは2以上の整数である。ユーザ装置1b1を所持するユーザUが、ユーザU1であり、ユーザ装置1bmを所持するユーザUは、ユーザUmである。
3.1. Overview of Third Embodiment FIG. 10 is a diagram showing the overall configuration of an emotion estimation system SYS. The emotion estimation system SYS includes a user device 1b possessed by a user U, a network NW, and a server device . User devices 1 included in emotion estimation system SYS are from user device 1b1 to user device 1bm. m is an integer of 2 or more. The user U possessing the user device 1b1 is the user U1, and the user U possessing the user device 1bm is the user Um.

以下では、説明の簡略化のため、ユーザU1が、キャリブレーション済みユーザであり、ユーザU2が、非キャリブレーションユーザであるとして、説明を行う。 In the following, for the sake of simplification of explanation, it is assumed that user U1 is a calibrated user and user U2 is a non-calibrated user.

図11は、ユーザ装置1bの構成を示すブロック図である。ユーザ装置1bは、処理装置2b、記憶装置3b、表示装置4、操作装置5、通信装置6、放音装置7、及び、集音装置8を具備するコンピュータシステムにより実現される。記憶装置3bは、処理装置2bが読取可能な記録媒体であり、処理装置2bが実行する制御プログラムPRbを含む複数のプログラムを記憶する。 FIG. 11 is a block diagram showing the configuration of the user device 1b. The user device 1b is implemented by a computer system including a processing device 2b, a storage device 3b, a display device 4, an operation device 5, a communication device 6, a sound emitting device 7, and a sound collecting device 8. FIG. The storage device 3b is a recording medium readable by the processing device 2b, and stores a plurality of programs including a control program PRb executed by the processing device 2b.

処理装置2bは、記憶装置3bから制御プログラムPRbを読み取り実行することによって、取得部21、及び、出力部26として機能する。 The processing device 2b functions as an acquisition unit 21 and an output unit 26 by reading and executing the control program PRb from the storage device 3b.

図12は、サーバ装置10の構成を示すブロック図である。サーバ装置10は、処理装置2B、記憶装置3B、及び、通信装置6Bを具備するコンピュータシステムにより実現される。サーバ装置10の各要素は、情報を通信するための単体又は複数のバス9Bで相互に接続される。記憶装置3Bは、処理装置2Bが読取可能な記録媒体であり、処理装置2Bが実行する制御プログラムPRBを含む複数のプログラム、解析用辞書情報31、感情分類情報33、及び、学習モデルLMを記憶する。 FIG. 12 is a block diagram showing the configuration of the server device 10. As shown in FIG. The server device 10 is implemented by a computer system including a processing device 2B, a storage device 3B, and a communication device 6B. Each element of the server device 10 is interconnected by one or more buses 9B for communicating information. The storage device 3B is a recording medium readable by the processing device 2B, and stores a plurality of programs including the control program PRB executed by the processing device 2B, analysis dictionary information 31, emotion classification information 33, and a learning model LM. do.

処理装置2Bは、記憶装置3Bから制御プログラムPRBを読み取り実行することによって、感情推定部25Bとして機能する。図13を用いて、感情推定システムSYSの機能について説明する。 The processing device 2B functions as an emotion estimation section 25B by reading and executing the control program PRB from the storage device 3B. Functions of the emotion estimation system SYS will be described with reference to FIG.

図13は、感情推定システムSYSの機能の概要を示す図である。感情推定部25Bは、ノイズ除去部251、音声評価部252B、補正部253、調整部254、文字評価部256、推定部258、及び、特定部259を含む。 FIG. 13 is a diagram showing an overview of the functions of emotion estimation system SYS. The emotion estimation unit 25B includes a noise removal unit 251, a speech evaluation unit 252B, a correction unit 253, an adjustment unit 254, a character evaluation unit 256, an estimation unit 258, and a specification unit 259.

ユーザ装置1b1の取得部21は、ユーザU1の音声を含む音を集音する集音装置8が出力する音情報SI1を取得する。図14を用いて、処理装置2Bによって実現される機能である、非キャリブレーションユーザの補正情報CIの調整機能の概要を示す。 The acquiring unit 21 of the user device 1b1 acquires sound information SI1 output by the sound collecting device 8 that collects sound including the voice of the user U1. FIG. 14 shows an overview of the adjustment function of the non-calibration user's correction information CI, which is a function realized by the processing device 2B.

図14は、非キャリブレーションユーザの補正情報CIの調整機能の概要を示す図である。図14では、キャリブレーション済みであるユーザU1が、「ありがとう」と発声し、ユーザ装置1b1の取得部21が、音情報SI1を取得した状態を示している。 FIG. 14 is a diagram showing an overview of the function of adjusting the correction information CI for the non-calibration user. FIG. 14 shows a state in which the user U1 who has been calibrated utters "thank you" and the acquisition unit 21 of the user device 1b1 acquires the sound information SI1.

説明を図13に戻す。ユーザU1に関して、ノイズ除去部251は、音情報SI1が示す音からノイズを除去して音声情報VI1を生成する。音声評価部252Bは、学習モデルLMに対して、音声情報VI1から抽出した音の特徴量を入力し、音声感情情報VE1を学習モデルLMから取得する。補正部253は、ユーザU1の音声の特徴に基づく補正情報CI1を用いて音声感情情報VE1を補正した補正感情情報CVE1を生成する。また、音声認識処理部2561は、音声認識処理を音情報SI1に対して実行し、音声認識処理の認識結果を示す認識文字列RT1を取得する。続けて、形態素解析処理部2563は、解析用辞書情報31を参照して、認識文字列RT1に対して形態素解析処理を実行して、補正後認識文字列CRT1を出力する。評価値算出部2565は、感情分類情報33に含まれる文字列と、補正後認識文字列CRT1とを比較することにより、文字感情情報TE1を生成する。
図14では、サーバ装置10が、音情報SI1に基づいて、補正感情情報CVE1と文字感情情報TE1とを生成した状態を示している。
Return the description to FIG. Regarding the user U1, the noise removal unit 251 removes noise from the sound indicated by the sound information SI1 to generate voice information VI1. The speech evaluation unit 252B inputs the sound feature amount extracted from the speech information VI1 to the learning model LM, and acquires the speech emotional information VE1 from the learning model LM. The correction unit 253 generates corrected emotion information CVE1 by correcting the voice emotion information VE1 using the correction information CI1 based on the voice features of the user U1. Also, the speech recognition processing unit 2561 executes speech recognition processing on the sound information SI1 and acquires a recognized character string RT1 indicating the recognition result of the speech recognition processing. Subsequently, the morphological analysis processing unit 2563 refers to the analysis dictionary information 31, executes morphological analysis processing on the recognized character string RT1, and outputs the corrected recognized character string CRT1. The evaluation value calculation unit 2565 compares the character string included in the emotion classification information 33 with the post-correction recognition character string CRT1 to generate character emotion information TE1.
FIG. 14 shows a state in which the server device 10 has generated the corrected emotion information CVE1 and the character emotion information TE1 based on the sound information SI1.

特定部259は、補正感情情報CVE1に含まれる複数の音声評価値Xと、文字感情情報TE1に含まれる文字評価値Yとの相違の程度を示す値が所定値以下である場合、認識文字列RT1を特定文字列STとして特定する。特定文字列STとして特定されやすい文字列は、この文字列が有する本来の意味で発話されることが多い文字列であり、例えば、「ありがとう」、及び「ふざけるな」等である。
ただし、「ありがとう」といった言葉も、時に社交辞令又は皮肉として発話されることもあり、「ありがとう」が有する本来の意味である「感謝」の意味で発話されない場合がある。この場合、音声情報VI1には喜びが発露していないため、音声評価値Xと文字評価値Yとが大きく相違する。そこで、サーバ装置10は、キャリブレーション済みユーザの認識文字列RTと、音声評価値Xと、文字評価値Yと、音声情報VI1を生成した日時とを対応付けてログとして記憶し、特定部259は、このログを参照して、認識文字列RTに対する音声評価値X及び文字評価値Yの相違の程度の傾向に基づいて、特定文字列STを特定してもよい。例えば、特定部259は、現在時刻から過去のある時刻までにおいて、音声評価値X及び文字評価値Yの相違の程度を示す値が所定値以下となった割合が所定の割合以上となった認識文字列RTを、特定文字列STとして特定する。
相違の程度を示す値は、例えば、以下に示す2つの態様がある。第1の態様における相違の程度を示す値は、複数の感情の各々について、音声評価値Xと文字評価値Yとの差分の2乗の和SumXYである。和SumXYは、例えば、下記(1)式により求められる。
SumXY=(X1-Y1)+(X2-Y2)+(X3-Y3)+(X4-Y4)(1)
第2の態様における相違の程度を示す値は、補正感情情報CVE1及び文字感情情報TE1を4次元のベクトルとみなした場合の補正感情情報CVE1及び文字感情情報TE1の角度θである。角度θが大きい程、補正感情情報CVE1と文字感情情報TE1とが相違すると言える。例えば、角度θは、下記(2)式により求められる。
θ=cos-1((CVE1・TE1)/(|CVE1|×|TE1|)) (2)
ただし、CVE1・TE1は、補正感情情報CVE1と文字感情情報TE1の内積を示す。|CVE1|は、補正感情情報CVE1の大きさを示す。|TE1|は、文字感情情報TE1の大きさを示す。
以下の説明では、相違の程度を示す値は、和SumXYであるとする。
図14では、和SumXYが所定値以下である例を示す。従って、特定部259は、認識文字列RT1である「ありがとう」を特定文字列STとして特定する。
If the value indicating the degree of difference between the plurality of voice evaluation values X included in the corrected emotion information CVE1 and the character evaluation value Y included in the text emotion information TE1 is equal to or less than a predetermined value, the specifying unit 259 Identify RT1 as a specific character string ST. A character string that is likely to be identified as the specific character string ST is a character string that is often uttered in its original meaning, such as "Thank you" and "Don't be silly".
However, the word "thank you" is sometimes uttered as a social greeting or sarcasm, and may not be uttered with the original meaning of "thank you", which is the meaning of "thank you." In this case, since joy is not expressed in the voice information VI1, the voice evaluation value X and the text evaluation value Y are greatly different. Therefore, the server device 10 associates and stores the recognized character string RT of the calibrated user, the voice evaluation value X, the character evaluation value Y, and the date and time when the voice information VI1 was generated as a log. may refer to this log and specify the specific character string ST based on the tendency of the degree of difference between the speech evaluation value X and the character evaluation value Y with respect to the recognized character string RT. For example, the specifying unit 259 recognizes that the ratio of values indicating the degree of difference between the speech evaluation value X and the character evaluation value Y is equal to or less than a predetermined value from the current time to a certain time in the past. Character string RT is identified as specific character string ST.
There are, for example, the following two aspects of the value indicating the degree of difference. The value indicating the degree of difference in the first mode is the sum of the squares of the difference between the speech evaluation value X and the text evaluation value Y for each of the plurality of emotions, Sum XY . The sum Sum XY is obtained, for example, by the following equation (1).
Sum XY = (X1-Y1) 2 + (X2-Y2) 2 + (X3-Y3) 2 + (X4-Y4) 2 (1)
The value indicating the degree of difference in the second mode is the angle θ between the corrected emotion information CVE1 and the text emotion information TE1 when the corrected emotion information CVE1 and the text emotion information TE1 are regarded as a four-dimensional vector. It can be said that the greater the angle θ, the greater the difference between the corrected emotion information CVE1 and the character emotion information TE1. For example, the angle θ is obtained by the following formula (2).
θ=cos −1 ((CVE1 TE1)/(|CVE1|×|TE1|)) (2)
However, CVE1·TE1 indicates the inner product of the corrected emotion information CVE1 and the character emotion information TE1. |CVE1| indicates the magnitude of the corrected emotion information CVE1. |TE1| indicates the size of the text emotion information TE1.
In the following description, it is assumed that the value indicating the degree of difference is the sum Sum XY .
FIG. 14 shows an example in which the sum Sum XY is less than or equal to a predetermined value. Therefore, the identifying unit 259 identifies the recognized character string RT1, “Thank you”, as the specific character string ST.

ユーザU2に関して、図14に示すように、ユーザU2が、特定文字列STである「ありがとう」を発話したとする。ユーザ装置1b2の取得部21が、音情報SI2を取得する。ノイズ除去部251は、音情報SI2が示す音からノイズを除去して音声情報VI2を生成する。音声評価部252Bは、学習モデルLMに対して、音声情報VI2から抽出した音の特徴量を入力し、音声感情情報VE2を学習モデルLMから取得する。補正部253は、ユーザU2の音声の特徴に基づく補正情報CI2を用いて音声感情情報VE2を補正した補正感情情報CVE2を生成する。また、音声認識処理部2561は、音声認識処理を音情報SI2に対して実行し、音声認識処理の認識結果を示す認識文字列RT2を取得する。続けて、形態素解析処理部2563は、解析用辞書情報31を参照して、認識文字列RT2に対して形態素解析処理を実行して、補正後認識文字列CRT2を出力する。評価値算出部2565は、感情分類情報33に含まれる文字列と、補正後認識文字列CRT2とを比較することにより、文字感情情報TE2を生成する。
図14では、サーバ装置10が、音情報SI2に基づいて、補正感情情報CVE2と文字感情情報TE2とを生成した状態を示している。
Regarding the user U2, as shown in FIG. 14, it is assumed that the user U2 utters the specific character string ST "thank you". Acquisition unit 21 of user device 1b2 acquires sound information SI2. The noise removing unit 251 removes noise from the sound indicated by the sound information SI2 to generate the voice information VI2. The speech evaluation unit 252B inputs the sound feature amount extracted from the speech information VI2 to the learning model LM, and acquires the speech emotion information VE2 from the learning model LM. The correction unit 253 generates corrected emotion information CVE2 by correcting the voice emotion information VE2 using the correction information CI2 based on the features of the voice of the user U2. Also, the speech recognition processing unit 2561 executes speech recognition processing on the sound information SI2 and acquires a recognized character string RT2 indicating the recognition result of the speech recognition processing. Subsequently, the morphological analysis processing unit 2563 refers to the analysis dictionary information 31, performs morphological analysis processing on the recognized character string RT2, and outputs the corrected recognized character string CRT2. The evaluation value calculator 2565 compares the character string included in the emotion classification information 33 with the post-correction recognition character string CRT2 to generate text emotion information TE2.
FIG. 14 shows a state in which the server device 10 has generated the corrected emotion information CVE2 and the character emotion information TE2 based on the sound information SI2.

非キャリブレーションユーザであるユーザU2が、特定文字列STを発話した場合には、調整部254は、ユーザU2の補正感情情報CVE2に含まれる複数の音声評価値Xを、複数の感情の各々について、ユーザU2の文字感情情報TE2に含まれる複数の文字評価値Yに近づける目的で、ユーザU2用の補正情報CI2を調整する。例えば、調整部254は、下記式に従って、係数k1~k4を生成する。
k1=Y1/X1
k2=Y2/X2
k3=Y3/X3
k4=Y4/X4
但し、係数kは、必ずしもY/Xと一致する必要はない。
When user U2, who is a non-calibrated user, utters the specific character string ST, the adjustment unit 254 converts a plurality of voice evaluation values X included in the corrected emotion information CVE2 of user U2 to , the correction information CI2 for the user U2 is adjusted for the purpose of bringing it closer to the plurality of character evaluation values Y included in the character emotion information TE2 of the user U2. For example, the adjuster 254 generates coefficients k1 to k4 according to the following equations.
k1=Y1/X1
k2=Y2/X2
k3=Y3/X3
k4=Y4/X4
However, the coefficient k does not necessarily have to match Y/X.

3.2.第3実施形態の動作
第2実施形態と同様に、第3実施形態でも、ユーザ装置1bは、ユーザUの感情を推定する感情推定モードと、補正情報CIを調整するキャリブレーションモードとを取り得る。ユーザ装置1bがキャリブレーションモードに設定された場合、サーバ装置10が、ステップS21に示す音情報SIをユーザ装置1bから取得して、ステップS21以降の各ステップを実行すればよい。図9に示す一連の処理終了後、サーバ装置10は、キャリブレーションモードに設定されたユーザ装置1bの識別情報を、キャリブレーション済みユーザが所持するユーザ装置1bとして記憶装置3Bに記憶する。ユーザ装置1bの識別情報は、例えば、UID(User IDentifier)、MAC(Media Access Control)アドレス、加入者認証モジュール(SIM:Subscriber Identity Module)に記録されたIMSI(International Mobile Subscriber Identity)、又はユーザID等である。UIDは、サービスを提供する事業者が、ユーザごとに割り当てたIDである。感情推定モードにおける感情推定システムSYSの動作について、図15及び図16を用いて説明する。
3.2. Operation of the Third Embodiment As in the second embodiment, in the third embodiment, the user device 1b can take an emotion estimation mode for estimating the emotion of the user U and a calibration mode for adjusting the correction information CI. . When the user device 1b is set to the calibration mode, the server device 10 may acquire the sound information SI shown in step S21 from the user device 1b, and execute the steps after step S21. After the series of processes shown in FIG. 9 is completed, the server device 10 stores the identification information of the user device 1b set in the calibration mode in the storage device 3B as the user device 1b possessed by the calibrated user. The identification information of the user device 1b is, for example, a UID (User Identifier), a MAC (Media Access Control) address, an IMSI (International Mobile Subscriber Identity) recorded in a subscriber authentication module (SIM), or a user ID etc. The UID is an ID assigned to each user by a service provider. The operation of emotion estimation system SYS in the emotion estimation mode will be described with reference to FIGS. 15 and 16. FIG.

図15及び図16は、感情推定モードにおける感情推定システムSYSの動作を示すフローチャートである。サーバ装置10は、ユーザ装置1bから、補正情報CIを取得する(ステップS31)。具体的には、ユーザ装置1bが、上述した補正情報CIの2つの生成方法のいずれか一方に従って、補正情報CIを生成し、サーバ装置10に補正情報CIを送信する。次に、サーバ装置10は、ユーザ装置1bから、音情報SIを取得する(ステップS32)。そして、感情推定部25Bの音声認識処理部2561は、音情報SIに対して音声認識処理を実行し、認識文字列RTを出力する(ステップS33)。次に、感情推定部25Bの形態素解析処理部2563は、解析用辞書情報31を参照して、認識文字列RTに対して形態素解析処理を実行して、補正後認識文字列CRTを出力する(ステップS34)。そして、感情推定部25Bの評価値算出部2565は、感情分類情報33に含まれる文字列と、補正後認識文字列CRTとを比較することにより各感情の文字評価値Yを算出し、各感情の文字評価値Yを含む文字感情情報TEを生成する(ステップS35)。 15 and 16 are flow charts showing the operation of the emotion estimation system SYS in the emotion estimation mode. The server device 10 acquires the correction information CI from the user device 1b (step S31). Specifically, the user device 1b generates the correction information CI according to one of the two generation methods of the correction information CI described above, and transmits the correction information CI to the server device 10 . Next, the server device 10 acquires the sound information SI from the user device 1b (step S32). Then, the speech recognition processing unit 2561 of the emotion estimation unit 25B performs speech recognition processing on the sound information SI, and outputs a recognized character string RT (step S33). Next, the morphological analysis processing unit 2563 of the emotion estimation unit 25B refers to the analysis dictionary information 31, executes morphological analysis processing on the recognized character string RT, and outputs the corrected recognized character string CRT ( step S34). Then, the evaluation value calculation unit 2565 of the emotion estimation unit 25B calculates the character evaluation value Y of each emotion by comparing the character string included in the emotion classification information 33 and the post-correction recognition character string CRT. character evaluation value Y is generated (step S35).

また、感情推定部25Bのノイズ除去部251は、音情報SIが示す音から、第1パラメータP1及び第2パラメータP2に従ってノイズを除去して音声情報VIを生成する(ステップS41)。そして、感情推定部25Bの音声評価部252Bは、ノイズを除去した音声情報VIから、音の特徴量を抽出する(ステップS42)。次に、感情推定部25Bの音声評価部252Bは、音の特徴量を学習モデルLMに入力し、各感情の音声評価値xを含む音声感情情報VEを学習モデルLMから取得する(ステップS43)。 Further, the noise removal unit 251 of the emotion estimation unit 25B removes noise from the sound indicated by the sound information SI according to the first parameter P1 and the second parameter P2 to generate voice information VI (step S41). Then, the voice evaluation unit 252B of the emotion estimation unit 25B extracts the sound feature amount from the noise-removed voice information VI (step S42). Next, the voice evaluation unit 252B of the emotion estimation unit 25B inputs the sound feature amount to the learning model LM, and obtains voice emotion information VE including the voice evaluation value x of each emotion from the learning model LM (step S43). .

次に、サーバ装置10は、補正情報CI及び音情報SIの送信元のユーザ装置1bを所持するユーザが、キャリブレーション済みユーザか否かを判定する(ステップS44)。キャリブレーション済みユーザか非キャリブレーションユーザかを判定する方法として、ユーザ装置1bは、補正情報CIの送信時及び音情報SIの送信時のいずれか一方の時又は両方の時に、ユーザ装置1bの識別情報を送信する。サーバ装置10は、受信したユーザ装置1bの識別情報が、キャリブレーション済みユーザが所持するユーザ装置1bとして記憶した識別情報と一致した場合、肯定である判定結果を出力し、記憶装置3Bに記憶した識別情報と一致しない場合、否定である判定結果を出力する。 Next, the server device 10 determines whether or not the user who owns the user device 1b that is the transmission source of the correction information CI and the sound information SI is a calibrated user (step S44). As a method of determining whether the user is a calibrated user or a non-calibrated user, the user device 1b identifies the user device 1b at one or both of the time of transmitting the correction information CI and the time of transmitting the sound information SI. Send information. When the received identification information of the user device 1b matches the identification information stored as the user device 1b possessed by the calibrated user, the server device 10 outputs a positive determination result and stores it in the storage device 3B. If it does not match the identification information, a negative judgment result is output.

ステップS44の判定結果が肯定の場合、感情推定部25Bの補正部253は、補正情報CIを用いて、音声感情情報VEに含まれる各感情の音声評価値xを補正した補正感情情報CVEを生成する(ステップS45)。そして、感情推定部25Bの特定部259は、補正感情情報CVEに含まれる音声評価値Xと文字感情情報TEに含まれる文字評価値Yとの差分の2乗の和SumXYが所定値以下か否かを判定する(ステップS46)。
ステップS44の判定結果が肯定であり、かつ、ステップS46の判定結果が肯定の場合、感情推定部25Bの特定部259は、認識文字列RTを特定文字列STとして特定する(ステップS47)。そして、感情推定部25Bの推定部258は、補正感情情報CVEと文字感情情報TEとに基づいて、ユーザUが抱く感情を推定する(ステップS61)。一方、ステップS44の判定結果が肯定であり、ステップS46の判定結果が否定の場合も、感情推定部25Bの推定部258は、ステップS61の処理を実行する。
If the determination result in step S44 is affirmative, the correction unit 253 of the emotion estimation unit 25B uses the correction information CI to generate corrected emotion information CVE by correcting the voice evaluation value x of each emotion included in the voice emotion information VE. (step S45). Then, the specifying unit 259 of the emotion estimating unit 25B determines whether the sum Sum XY of the squares of the difference between the voice evaluation value X included in the corrected emotion information CVE and the text evaluation value Y included in the text emotion information TE is equal to or less than a predetermined value. It is determined whether or not (step S46).
When the determination result of step S44 is affirmative and the determination result of step S46 is affirmative, the identifying unit 259 of the emotion estimating unit 25B identifies the recognized character string RT as the specific character string ST (step S47). Then, the estimation unit 258 of the emotion estimation unit 25B estimates the emotion that the user U has based on the corrected emotion information CVE and the text emotion information TE (step S61). On the other hand, even when the determination result of step S44 is affirmative and the determination result of step S46 is negative, the estimation unit 258 of the emotion estimation unit 25B executes the process of step S61.

ステップS44の判定結果が否定の場合、すなわち、補正情報CI及び音情報SIの送信元のユーザ装置1bを所持するユーザUが非キャリブレーションユーザである場合、サーバ装置10は、特定文字列STと認識文字列RTとが一致するか否かを判定する(ステップS50)。
ステップS44の判定結果が否定であり、かつ、ステップS50の判定結果が肯定の場合、感情推定部25Bの特定部259は、補正感情情報CVEに含まれる音声評価値Xを文字感情情報TEに含まれる複数の文字評価値Yに近づける目的で、非キャリブレーションユーザ用の補正情報CIを調整する(ステップS51)。そして、感情推定部25Bの補正部253は、補正情報CIを用いて、音声感情情報VEに含まれる各感情の音声評価値xを補正した補正感情情報CVEを生成する(ステップS52)。
ステップS44の判定結果が否定であり、かつ、ステップS45の判定結果が否定の場合も、感情推定部25Bの補正部253は、ステップS52の処理を実行する。
ステップS52の処理終了後、感情推定部25Bの推定部258は、ステップS61の処理を実行する。
If the determination result in step S44 is negative, that is, if the user U who owns the user device 1b that is the transmission source of the correction information CI and the sound information SI is a non-calibration user, the server device 10 determines that the specific character string ST and It is determined whether or not the recognized character string RT matches (step S50).
If the determination result in step S44 is negative and the determination result in step S50 is positive, the specifying unit 259 of the emotion estimation unit 25B includes the speech evaluation value X included in the corrected emotion information CVE in the text emotion information TE. The correction information CI for the non-calibrated user is adjusted for the purpose of approximating the plurality of character evaluation values Y that are used (step S51). Then, the correction unit 253 of the emotion estimation unit 25B uses the correction information CI to generate corrected emotion information CVE by correcting the voice evaluation value x of each emotion included in the voice emotion information VE (step S52).
Even when the determination result of step S44 is negative and the determination result of step S45 is negative, the correction unit 253 of the emotion estimation unit 25B executes the process of step S52.
After completing the process of step S52, the estimation unit 258 of the emotion estimation unit 25B executes the process of step S61.

ステップS61の処理を実行後、サーバ装置10は、認識文字列RTと、ステップS61の処理結果である推定感情情報EIとを、ユーザ装置1bに送信する。出力部26は、認識文字列RTに対して、推定感情情報EIが示す感情に応じた処理を実行して得られる情報を出力する(ステップS62)。ステップS62の処理終了後、感情推定システムSYSは、図15及び図16に示す一連の処理を終了する。 After executing the process of step S61, the server device 10 transmits the recognized character string RT and the estimated emotion information EI, which is the result of the process of step S61, to the user device 1b. The output unit 26 outputs information obtained by performing processing according to the emotion indicated by the estimated emotion information EI on the recognized character string RT (step S62). After completing the process of step S62, the emotion estimation system SYS ends the series of processes shown in FIGS.

3.3.第3実施形態の効果
以上の説明によれば、サーバ装置10は、非キャリブレーションユーザであるユーザU2が特定文字列STを発話した場合、補正感情情報CVE2に含まれる複数の音声評価値Xを、複数の感情の各々について、文字感情情報TE2に含まれる複数の文字評価値Yに近づける目的で、ユーザU2用の補正情報CIを調整する。特定文字列STは、キャリブレーションユーザであるユーザU1において、音声評価値Xと文字評価値Yとの相違の程度を示す値が所定値以下となった時の認識文字列RTである。
ユーザU2が特定文字列STを発話した場合に限り、ユーザU2用の補正情報CIを調整する理由について説明する。キャリブレーション済みユーザであっても、補正感情情報CVEと文字感情情報TEとが近い値にならないことがある。例えば、キャリブレーション済みユーザが、文字列が有する本来の意味とは異なる意味でこの文字列を発話した場合、補正感情情報CVEと文字感情情報TEとが近い値にならないことがある。文字列が有する本来の意味とは異なる意味でユーザUが発話する例としては、ユーザUが皮肉の内容を発話した場合、及び、ユーザUが冗談を発話した場合である。ユーザUが皮肉の内容及び冗談を発話すると、文字感情情報TEの精度が低下するので、文字感情情報TEのみに基づいてユーザUが抱く感情を推定すると精度が低下する。また、ユーザUが「今、着きました」といった事務連絡を発話すると、文字感情情報TEの精度が低下するので、文字感情情報TEのみに基づいてユーザUが抱く感情を推定すると精度が低下する。発話内容が事務連絡である場合に文字感情情報TEの精度が低下する理由は、事務連絡を示す発話内容には、感情分類情報33に登録されている、感情を表す文字列が含まれる割合が一般的な発話内容と比較して低い傾向にあり、文字評価値Y1~Y4が小さい値となるためである。ユーザUが皮肉の内容を発話した場合、ユーザUが冗談を発話した場合、及び、ユーザUが事務連絡を発話した場合とは、文字感情情報TEのみに基づいてユーザUが抱く感情を精度良く推定できない場合の一例である。文字列が有する本来の意味で発話されている場合には、補正感情情報CVEと文字感情情報TEとが近い値になりやすい傾向にある。
従って、特定文字列STは、音声評価値Xと文字評価値Yとの相違の程度を示す値が所定値以下となっているため、本来の意味で発話された可能性が高い文字列であると言える。そして、ユーザU2が特定文字列STを発話した場合には特定文字列STが有する本来の意味で、ユーザU2が発話している可能性が高いため、本来であれば、補正感情情報CVEと文字感情情報TEとが近い値になるはずである。
ここで、非キャリブレーションユーザにおいて、一般的には、補正感情情報CVEの精度は、文字感情情報TEの精度より低い可能性が高い。理由としては、文字感情情報TEは、ユーザUの音声の特徴からの影響が小さい一方で、音声感情情報VEは、ユーザUの音声の特徴からの影響が大きく、非キャリブレーションユーザの補正情報CIが正しく調整されていないためである。
そこで、第3実施形態では、ユーザU2が特定文字列STを発話した場合には、文字感情情報TEが正解の感情を示している可能性が高いので、サーバ装置10は、音声評価値Xを文字評価値Yに近づける目的で、ユーザU2用の補正情報CIを調整する。以上により、非キャリブレーションユーザについて、キャリブレーションモードを用いなくても、ユーザUが抱く感情の推定精度を向上できる。非キャリブレーションユーザは、ユーザ装置1bをキャリブレーションモードに設定しなくとも感情の推定精度を向上できるので、ユーザ装置1bは、非キャリブレーションユーザの手間を削減できる。
3.3. Effects of the Third Embodiment According to the above description, when the user U2 who is a non-calibration user utters the specific character string ST, the server device 10 converts the plurality of voice evaluation values X included in the corrected emotion information CVE2 into , the correction information CI for the user U2 is adjusted for the purpose of bringing each of the plurality of emotions closer to the plurality of character evaluation values Y included in the character emotion information TE2. The specific character string ST is the recognized character string RT when the value indicating the degree of difference between the voice evaluation value X and the character evaluation value Y for the user U1 who is the calibration user is equal to or less than a predetermined value.
The reason why the correction information CI for the user U2 is adjusted only when the user U2 utters the specific character string ST will be described. Even for a calibrated user, the corrected emotion information CVE and text emotion information TE may not be close to each other. For example, when a calibrated user utters a character string with a meaning different from the original meaning of the character string, the corrected emotion information CVE and the character emotion information TE may not be close to each other. Examples of the user U uttering a meaning different from the original meaning of the character string include a case where the user U utters an ironic content and a case where the user U utters a joke. If the user U speaks sarcastically or jokingly, the accuracy of the textual emotion information TE is lowered. Therefore, if the user U's emotions are estimated based only on the textual emotion information TE, the accuracy is lowered. In addition, when the user U utters an office communication such as "I just arrived", the accuracy of the text emotion information TE is lowered. . The reason why the accuracy of the character emotion information TE is lowered when the utterance content is business communication is that the utterance content indicating business communication includes a character string representing an emotion registered in the emotion classification information 33. This is because the character evaluation values Y1 to Y4 tend to be low compared to general utterance contents, and the character evaluation values Y1 to Y4 are small values. When the user U utters a sarcastic content, when the user U utters a joke, and when the user U utters an office contact, the emotions of the user U can be accurately estimated based only on the character emotion information TE. This is an example of a case where estimation is not possible. When the original meaning of the character string is uttered, the values of the corrected emotional information CVE and the text emotional information TE tend to be close to each other.
Therefore, since the specific character string ST has a value indicating the degree of difference between the voice evaluation value X and the character evaluation value Y being equal to or less than a predetermined value, the specific character string ST is highly likely to be uttered in its original meaning. I can say. When the user U2 utters the specific character string ST, there is a high possibility that the user U2 is uttering the original meaning of the specific character string ST. The value should be close to the emotion information TE.
Here, for non-calibrated users, the accuracy of the corrected emotion information CVE is generally lower than the accuracy of the character emotion information TE. The reason for this is that the text emotion information TE is less influenced by the voice features of the user U, while the voice emotion information VE is greatly influenced by the voice features of the user U, and the non-calibrated user's correction information CI is not properly adjusted.
Therefore, in the third embodiment, when the user U2 utters the specific character string ST, there is a high possibility that the character emotion information TE indicates the correct emotion. The correction information CI for the user U2 is adjusted for the purpose of approximating the character evaluation value Y. FIG. As described above, it is possible to improve the accuracy of estimating the emotion of the user U without using the calibration mode for the non-calibration user. Since the non-calibration user can improve the estimation accuracy of emotion without setting the user device 1b to the calibration mode, the user device 1b can reduce the trouble of the non-calibration user.

4.第4実施形態
第4実施形態にかかる感情推定システムSYScは、キャリブレーション済みユーザの感情推定結果を利用して、非キャリブレーションユーザ用の第1パラメータP1及び第2パラメータP2を調整する点で、第3実施形態にかかる感情推定システムSYSと相違する。
以下、第4実施形態にかかる感情推定システムSYScを説明する。なお、以下に例示する第4実施形態において作用又は機能が第3実施形態と同等である要素については、以上の説明で参照の符号を流用して各々の詳細な説明を適宜に省略する。
4. Fourth Embodiment The emotion estimation system SYSc according to the fourth embodiment uses the emotion estimation result of the calibrated user to adjust the first parameter P1 and the second parameter P2 for the non-calibrated user. It differs from the emotion estimation system SYS according to the third embodiment.
The emotion estimation system SYSc according to the fourth embodiment will be described below. In addition, in the fourth embodiment illustrated below, the elements whose actions or functions are the same as those of the third embodiment are referred to by reference numerals in the above description, and their detailed descriptions are appropriately omitted.

図17は、感情推定システムSYScの全体構成を示す図である。感情推定システムSYScは、ユーザUが所持するユーザ装置1bと、ネットワークNWと、サーバ装置10Cとを備える。 FIG. 17 is a diagram showing the overall configuration of emotion estimation system SYSc. The emotion estimation system SYSc includes a user device 1b possessed by a user U, a network NW, and a server device 10C.

図18は、サーバ装置10Cの構成を示すブロック図である。サーバ装置10Cは、処理装置2C、記憶装置3C、及び、通信装置6Bを具備するコンピュータシステムにより実現される。記憶装置3Cは、処理装置2Cが読取可能な記録媒体であり、処理装置2Cが実行する制御プログラムPRCを含む複数のプログラム、解析用辞書情報31、感情分類情報33、及び、学習モデルLMを記憶する。 FIG. 18 is a block diagram showing the configuration of the server device 10C. The server device 10C is implemented by a computer system including a processing device 2C, a storage device 3C, and a communication device 6B. Storage device 3C is a recording medium readable by processing device 2C, and stores a plurality of programs including control program PRC executed by processing device 2C, analysis dictionary information 31, emotion classification information 33, and learning model LM. do.

処理装置2Cは、記憶装置3Cから制御プログラムPRを読み取り実行することによって、感情推定部25Cとして機能する。図19を用いて、感情推定システムSYScの機能について説明する。 The processing device 2C functions as an emotion estimation section 25C by reading and executing the control program PR from the storage device 3C. Functions of the emotion estimation system SYSc will be described with reference to FIG.

4.1.第4実施形態の機能
図19は、感情推定システムSYScの機能の概要を示す図である。感情推定部25Cは、ノイズ除去部251C、音声評価部252B、補正部253、調整部254C、文字評価部256、推定部258、及び、特定部259を含む。
4.1. Functions of Fourth Embodiment FIG. 19 is a diagram showing an overview of the functions of the emotion estimation system SYSc. The emotion estimation unit 25C includes a noise removal unit 251C, a speech evaluation unit 252B, a correction unit 253, an adjustment unit 254C, a character evaluation unit 256, an estimation unit 258, and a specification unit 259.

第4実施形態では、ノイズ除去部251Cで用いられる第1パラメータP1及び第2パラメータP2が、ユーザUごとに用意される。以下の説明では、ユーザU1用の第1パラメータP1及び第2パラメータP2を含む情報をパラメータ情報TI1とし、ユーザU2用の第1パラメータP1及び第2パラメータP2を含む情報をパラメータ情報TI2として説明する。 In the fourth embodiment, the first parameter P1 and the second parameter P2 used in the noise removal section 251C are prepared for each user U. In the following description, information including the first parameter P1 and the second parameter P2 for the user U1 is referred to as parameter information TI1, and information including the first parameter P1 and the second parameter P2 for the user U2 is referred to as parameter information TI2. .

図20は、非キャリブレーションユーザのパラメータ情報TIの調整機能の概要を示す図である。図20では、キャリブレーション済みであるユーザU1が、「ありがとう」と発声し、ユーザ装置1b1の取得部21が、音情報SI1を取得した状態を示している。 FIG. 20 is a diagram showing an overview of the adjustment function of parameter information TI for non-calibration users. FIG. 20 shows a state in which user U1, who has been calibrated, utters "thank you" and acquisition unit 21 of user device 1b1 acquires sound information SI1.

説明を図19に戻す。ユーザU1に関して、ノイズ除去部251Cは、音情報SI1が示す音から、パラメータ情報TI1に含まれる第1パラメータP1及び第2パラメータP2に基づいて、ノイズを除去して音声情報VI1を生成する。以降の処理について、感情推定部25Cは、第3実施形態と同様に処理して、補正感情情報CVE1と文字感情情報TE1とを生成し、認識文字列RT1である「ありがとう」を特定文字列STとして特定する。 Returning the description to FIG. For the user U1, the noise removal unit 251C removes noise from the sound indicated by the sound information SI1 based on the first parameter P1 and the second parameter P2 included in the parameter information TI1 to generate voice information VI1. For subsequent processing, the emotion estimation unit 25C performs the same processing as in the third embodiment, generates corrected emotion information CVE1 and text emotion information TE1, and converts the recognition character string RT1 "thank you" to the specific character string ST. Identify as

ユーザU2に関して、図20に示すように、ユーザU2が、特定文字列STである「ありがとう」を発話したとする。調整部254Cは、ユーザU2の補正感情情報CVE2に含まれる複数の音声評価値Xを、複数の感情の各々について、ユーザU2の文字感情情報TE2に含まれる複数の文字評価値Yに近づける目的で、ユーザU2用のパラメータ情報TI2を調整する。具体的には、調整部254Cは、ノイズ除去部251Cに、現在のパラメータ情報TI2の第1パラメータP1及び第2パラメータP2に基づいて、音声情報VI2を生成させる。そして、調整部254Cは、音声評価部252B及び補正部253に、補正感情情報CVE2を生成させ、文字評価部256に、文字感情情報TE2を生成させる。そして、調整部254Cは、補正感情情報CVE2に含まれる音声評価値Xと、文字感情情報TE2に含まれる文字評価値Yとを比較する。例えば、調整部254Cは、パラメータ情報TI2の第1パラメータP1及び第2パラメータP2を微小量変化させる。調整部254Cは、微小量変化させた第1パラメータP1及び第2パラメータP2に基づいて、補正感情情報CVEを再度生成し、再度生成した補正感情情報CVEと文字感情情報TE2との相違の程度を示す値が、再作成する前の補正感情情報CVEと文字感情情報TE2との相違の程度を示す値より小さい場合、ユーザU2の複数の音声評価値Xを、ユーザU2の複数の文字評価値Yに近づける目的が達せられたと判定する。 Regarding the user U2, as shown in FIG. 20, it is assumed that the user U2 utters the specific character string ST "thank you". The adjustment unit 254C adjusts the plurality of voice evaluation values X included in the corrected emotion information CVE2 of the user U2 closer to the plurality of character evaluation values Y included in the text emotion information TE2 of the user U2 for each of the plurality of emotions. , adjust the parameter information TI2 for user U2. Specifically, the adjuster 254C causes the noise remover 251C to generate the voice information VI2 based on the first parameter P1 and the second parameter P2 of the current parameter information TI2. Then, the adjustment unit 254C causes the voice evaluation unit 252B and the correction unit 253 to generate corrected emotion information CVE2, and the character evaluation unit 256 to generate text emotion information TE2. Then, the adjustment unit 254C compares the voice evaluation value X included in the corrected emotion information CVE2 with the text evaluation value Y included in the text emotion information TE2. For example, the adjuster 254C slightly changes the first parameter P1 and the second parameter P2 of the parameter information TI2. The adjustment unit 254C regenerates the corrected emotion information CVE based on the first parameter P1 and the second parameter P2 that are slightly changed, and determines the degree of difference between the regenerated corrected emotion information CVE and the text emotion information TE2. If the indicated value is smaller than the value indicating the degree of difference between the corrected emotion information CVE before re-creation and the character emotion information TE2, the plurality of voice evaluation values X of the user U2 are replaced with the plurality of character evaluation values Y of the user U2. It is determined that the purpose of bringing the

図20では、調整部254Cが、ユーザU2の複数の音声評価値Xを、ユーザU2の複数の文字評価値Yに近づける目的で、パラメータ情報TI2に含まれる第1パラメータP1及び第2パラメータP2を調整することを示している。 In FIG. 20, the adjustment unit 254C adjusts the first parameter P1 and the second parameter P2 included in the parameter information TI2 for the purpose of bringing the plurality of voice evaluation values X of the user U2 closer to the plurality of character evaluation values Y of the user U2. indicates to adjust.

4.2.第4実施形態の動作
次に、感情推定モードにおける感情推定システムSYScの動作について、図21を用いて説明する。
4.2. Operation of Fourth Embodiment Next, the operation of the emotion estimation system SYSc in the emotion estimation mode will be described with reference to FIG.

図21は、感情推定モードにおける感情推定システムSYScの動作を示すフローチャートである。なお、第3実施形態で示した感情推定モードにおける感情推定システムSYScの動作と、第4実施形態の感情推定モードにおける感情推定システムSYScの動作において、図15に示すステップS31からステップS35までの処理は共通である。従って、ステップS31からステップS35までの処理については図示及び説明を省略する。 FIG. 21 is a flow chart showing the operation of emotion estimation system SYSc in emotion estimation mode. In the operation of the emotion estimation system SYSc in the emotion estimation mode shown in the third embodiment and the operation of the emotion estimation system SYSc in the emotion estimation mode of the fourth embodiment, the processing from step S31 to step S35 shown in FIG. are common. Therefore, illustration and description of the processing from step S31 to step S35 are omitted.

ステップS35の処理終了後、サーバ装置10Cは、補正情報CI及び音情報SIの送信元のユーザ装置1bを所持するユーザUが、キャリブレーション済みユーザか否かを判定する(ステップS71)。ステップS71の判定結果が肯定の場合、感情推定部25Cのノイズ除去部251Cは、音情報SIが示す音から、パラメータ情報T1の第1パラメータP1及び第2パラメータP2に従ってノイズを除去して音声情報VIを生成する(ステップS72)。感情推定部25Cの音声評価部252Bは、ノイズを除去した音声情報VIから、音の特徴量を抽出する(ステップS73)。次に、感情推定部25Cの音声評価部252Bは、音の特徴量を学習モデルLMに入力し、各感情の音声評価値xを含む音声感情情報VEを学習モデルLMから取得する(ステップS74)。そして、感情推定部25Cの補正部253は、補正情報CIを用いて、音声感情情報VEに含まれる各感情の音声評価値xを補正した補正感情情報CVEを生成する(ステップS75)。 After the process of step S35 ends, the server device 10C determines whether or not the user U who owns the user device 1b, which is the transmission source of the correction information CI and the sound information SI, is a calibrated user (step S71). If the determination result in step S71 is affirmative, the noise removal unit 251C of the emotion estimation unit 25C removes noise from the sound indicated by the sound information SI according to the first parameter P1 and the second parameter P2 of the parameter information T1, and removes the noise from the voice information. A VI is generated (step S72). The voice evaluation unit 252B of the emotion estimation unit 25C extracts the sound feature amount from the noise-removed voice information VI (step S73). Next, the voice evaluation unit 252B of the emotion estimation unit 25C inputs the sound feature amount to the learning model LM, and acquires voice emotion information VE including the voice evaluation value x of each emotion from the learning model LM (step S74). . Then, the correction unit 253 of the emotion estimation unit 25C uses the correction information CI to generate corrected emotion information CVE by correcting the voice evaluation value x of each emotion included in the voice emotion information VE (step S75).

そして、感情推定部25Cの特定部259は、補正感情情報CVEに含まれる音声評価値Xと文字感情情報TEに含まれる文字評価値Yとの差分の2乗の和SumXYが所定値以下か否かを判定する(ステップS76)。
ステップS71の判定結果が肯定であり、かつ、ステップS76の判定結果が肯定の場合、感情推定部25Cの特定部259は、認識文字列RTを特定文字列STとして特定する(ステップS77)。そして、感情推定部25Cの推定部258は、補正感情情報CVEと文字感情情報TEとに基づいて、ユーザUが抱く感情を推定する(ステップS91)。一方、ステップS71の判定結果が肯定であり、ステップS76の判定結果が否定の場合も、感情推定部25Cの推定部258は、ステップS91の処理を実行する。
Then, the specifying unit 259 of the emotion estimating unit 25C determines whether the sum Sum XY of the squares of the difference between the voice evaluation value X included in the corrected emotion information CVE and the text evaluation value Y included in the text emotion information TE is equal to or less than a predetermined value. It is determined whether or not (step S76).
When the determination result of step S71 is affirmative and the determination result of step S76 is affirmative, specifying unit 259 of emotion estimating unit 25C specifies recognized character string RT as specific character string ST (step S77). Then, the estimation unit 258 of the emotion estimation unit 25C estimates the emotion that the user U has based on the corrected emotion information CVE and the text emotion information TE (step S91). On the other hand, even when the determination result of step S71 is affirmative and the determination result of step S76 is negative, the estimation unit 258 of the emotion estimation unit 25C executes the process of step S91.

ステップS71の判定結果が否定の場合、すなわち、補正情報CI及び音情報SIの送信元のユーザ装置1bを所持するユーザUが非キャリブレーションユーザである場合、サーバ装置10Cは、特定文字列STと認識文字列RTとが一致するか否かを判定する(ステップS81)。ステップS71の判定結果が否定であり、かつ、ステップS81の判定結果が肯定の場合、感情推定部25Bの調整部254Cは、補正感情情報CVEに含まれる音声評価値Xを文字感情情報TEに含まれる複数の文字評価値Yに近づける目的で、非キャリブレーションユーザ用のパラメータ情報TIを調整する(ステップS82)。そして、感情推定部25Cのノイズ除去部251Cは、音情報SIが示す音から、パラメータ情報TIの第1パラメータP1及び第2パラメータP2に従ってノイズを除去して音声情報VIを生成する(ステップS83)。
ステップS71の判定結果が否定であり、かつ、ステップS81の判定結果が否定の場合も、感情推定部25Cのノイズ除去部251Cは、ステップS83の処理を実行する。
If the determination result in step S71 is negative, that is, if the user U who owns the user device 1b that is the transmission source of the correction information CI and the sound information SI is a non-calibration user, the server device 10C determines that the specific character string ST and It is determined whether or not the recognized character string RT matches (step S81). If the determination result in step S71 is negative and the determination result in step S81 is positive, the adjustment unit 254C of the emotion estimation unit 25B includes the voice evaluation value X included in the corrected emotion information CVE in the text emotion information TE. The parameter information TI for non-calibrated users is adjusted for the purpose of approximating a plurality of character evaluation values Y (step S82). Then, the noise removal unit 251C of the emotion estimation unit 25C removes noise from the sound indicated by the sound information SI according to the first parameter P1 and the second parameter P2 of the parameter information TI to generate voice information VI (step S83). .
Even when the determination result of step S71 is negative and the determination result of step S81 is negative, the noise removing section 251C of the emotion estimating section 25C executes the process of step S83.

ステップS83の処理終了後、感情推定部25Cの音声評価部252Bは、ノイズを除去した音声情報VIから、音の特徴量を抽出する(ステップS84)。次に、感情推定部25Cの音声評価部252Bは、音の特徴量を学習モデルLMに入力し、各感情の音声評価値xを含む音声感情情報VEを学習モデルLMから取得する(ステップS85)。そして、感情推定部25Cの補正部253は、補正情報CIを用いて、音声感情情報VEに含まれる音声評価値xを補正した補正感情情報CVEを生成する(ステップS86)。ステップS86の処理終了後、感情推定部25Cの推定部258は、ステップS91の処理を実行する。 After the process of step S83 is completed, the voice evaluation unit 252B of the emotion estimation unit 25C extracts the sound feature amount from the noise-removed voice information VI (step S84). Next, the voice evaluation unit 252B of the emotion estimation unit 25C inputs the sound feature amount to the learning model LM, and acquires voice emotion information VE including the voice evaluation value x of each emotion from the learning model LM (step S85). . Then, the correction unit 253 of the emotion estimation unit 25C uses the correction information CI to generate corrected emotion information CVE by correcting the voice evaluation value x included in the voice emotion information VE (step S86). After completing the process of step S86, the estimation unit 258 of the emotion estimation unit 25C executes the process of step S91.

ステップS91の処理終了後、サーバ装置10Cは、認識文字列RTと、ステップS61の処理結果である推定感情情報EIとを、ユーザ装置1bに送信する。出力部26は、認識文字列RTに対して、推定感情情報EIが示す感情に応じた処理を実行して得られる情報を出力する(ステップS92)。ステップS92の処理終了後、感情推定システムSYScは、図21に示す一連の処理を終了する。 After completing the process of step S91, the server device 10C transmits the recognized character string RT and the estimated emotion information EI, which is the result of the process of step S61, to the user device 1b. The output unit 26 outputs information obtained by performing processing according to the emotion indicated by the estimated emotion information EI on the recognized character string RT (step S92). After completing the process of step S92, the emotion estimation system SYSc ends the series of processes shown in FIG.

4.3.第4実施形態の効果
第4実施形態も、第3実施形態と同様に、ユーザU2が特定文字列STを発話した場合には、文字感情情報TEが正解の感情を示している可能性が高いので、サーバ装置10Cは、音声評価値Xを文字評価値Yに近づける目的で、ユーザU2用のパラメータ情報TIを調整する。以上により、非キャリブレーションユーザについて、キャリブレーションモードを用いなくても、ユーザUが抱く感情の推定精度を向上できる。非キャリブレーションユーザは、ユーザ装置1bをキャリブレーションモードに設定しなくとも感情の推定精度を向上できるで、ユーザ装置1bは、非キャリブレーションユーザの手間を削減できる。
集音装置8の性能は、ユーザ装置1b間で互いに異なる。例えば、集音装置8の製造元が異なると、集音装置8の性能も一般的に互いに異なる。また、集音装置8は経年劣化により性能が低下する傾向にあるため、同一の製造元の集音装置8であっても、製造時点からの日数が異なる場合、集音装置8の性能も互いに異なる傾向にある。ユーザ装置1b間で集音装置8の性能が互いに異なる結果、音情報SIに含まれるノイズの量も異なるため、パラメータ情報TIを調整することにより、ユーザUが抱く感情を精度良く推定できる。
例えば、学習済みのパラメータ情報TIを適用したノイズ処理を実行すると、集音装置8の性能の違いによって、音声情報VIから感情推定に必要な情報が欠落する場合がある。従って、集音装置8の性能に応じてパラメータ情報TIを調整することにより、ユーザUが抱く感情を精度良く推定できる。
4.3. Effects of the Fourth Embodiment In the fourth embodiment, similarly to the third embodiment, when the user U2 utters the specific character string ST, there is a high possibility that the character emotion information TE indicates the correct emotion. Therefore, the server device 10C adjusts the parameter information TI for the user U2 for the purpose of bringing the speech evaluation value X closer to the character evaluation value Y. FIG. As described above, it is possible to improve the accuracy of estimating the emotion of the user U without using the calibration mode for the non-calibration user. The non-calibration user can improve the accuracy of emotion estimation without setting the user device 1b to the calibration mode, and the user device 1b can reduce the labor of the non-calibration user.
The performance of the sound collector 8 differs between the user devices 1b. For example, different manufacturers of sound collectors 8 generally have different performance of the sound collectors 8 . In addition, since the performance of the sound collector 8 tends to deteriorate due to aging, even if the sound collector 8 is manufactured by the same manufacturer, the performance of the sound collector 8 will be different if the number of days from the time of manufacture is different. There is a tendency. Since the performance of the sound collector 8 differs among the user devices 1b and the amount of noise included in the sound information SI is also different, the emotion of the user U can be accurately estimated by adjusting the parameter information TI.
For example, when noise processing is performed using learned parameter information TI, information necessary for emotion estimation may be missing from voice information VI due to differences in the performance of the sound collector 8 . Therefore, by adjusting the parameter information TI according to the performance of the sound collector 8, the emotion of the user U can be accurately estimated.

5.第5実施形態
第5実施形態にかかる感情推定システムSYSdは、第1実施形態で示した感情推定部25の処理を、サーバ装置10Dとユーザ装置1dとで分散する点で、第1実施形態にかかるユーザ装置1と相違する。以下、第5実施形態にかかる感情推定システムSYSdを説明する。なお、以下に例示する第5実施形態において作用又は機能が第1実施形態と同等である要素については、以上の説明で参照の符号を流用して各々の詳細な説明を適宜に省略する。
5. Fifth Embodiment The emotion estimation system SYSd according to the fifth embodiment differs from the first embodiment in that the processing of the emotion estimation unit 25 shown in the first embodiment is distributed between the server device 10D and the user device 1d. This user device 1 is different. The emotion estimation system SYSd according to the fifth embodiment will be described below. In addition, in the fifth embodiment illustrated below, elements having the same action or function as those of the first embodiment are denoted by reference numerals in the above description, and detailed description thereof will be omitted as appropriate.

5.1.第5実施形態の概要
図22は、感情推定システムSYSdの全体構成を示す図である。感情推定システムSYSdは、ユーザUが所持するユーザ装置1dと、ネットワークNWと、サーバ装置10Dとを備える。
5.1. Overview of Fifth Embodiment FIG. 22 is a diagram showing the overall configuration of an emotion estimation system SYSd. The emotion estimation system SYSd includes a user device 1d owned by a user U, a network NW, and a server device 10D.

図23は、ユーザ装置1dの構成を示すブロック図である。ユーザ装置1dは、処理装置2d、記憶装置3d、表示装置4、操作装置5、通信装置6、放音装置7、及び、集音装置8を具備するコンピュータシステムにより実現される。記憶装置3dは、処理装置2dが読取可能な記録媒体であり、処理装置2dが実行する制御プログラムPRdを含む複数のプログラムを記憶する。通信装置6が、「第2通信装置」の一例である。 FIG. 23 is a block diagram showing the configuration of the user device 1d. The user device 1d is implemented by a computer system including a processing device 2d, a storage device 3d, a display device 4, an operation device 5, a communication device 6, a sound emitting device 7, and a sound collecting device 8. FIG. The storage device 3d is a recording medium readable by the processing device 2d, and stores a plurality of programs including the control program PRd executed by the processing device 2d. The communication device 6 is an example of a "second communication device".

処理装置2dは、記憶装置3dから制御プログラムPRdを読み取り実行することによって、取得部21、第1感情推定部25d、及び、出力部26として機能する。 The processing device 2d functions as an acquisition unit 21, a first emotion estimation unit 25d, and an output unit 26 by reading and executing the control program PRd from the storage device 3d.

図24は、サーバ装置10Dの構成を示すブロック図である。サーバ装置10Dは、処理装置2D、記憶装置3D、及び、通信装置6Bを具備するコンピュータシステムにより実現される。記憶装置3Dは、処理装置2Dが読取可能な記録媒体であり、処理装置2Dが実行する制御プログラムPRDを含む複数のプログラム、解析用辞書情報31、感情分類情報33、及び、学習モデルLMを記憶する。通信装置6Bが、「第1通信装置」の一例である。 FIG. 24 is a block diagram showing the configuration of the server device 10D. The server device 10D is implemented by a computer system including a processing device 2D, a storage device 3D, and a communication device 6B. The storage device 3D is a recording medium readable by the processing device 2D, and stores a plurality of programs including a control program PRD executed by the processing device 2D, analysis dictionary information 31, emotion classification information 33, and a learning model LM. do. The communication device 6B is an example of the "first communication device".

処理装置2Dは、記憶装置3Dから制御プログラムPRDを読み取り実行することによって、第2感情推定部25Dとして機能する。図25を用いて、感情推定システムSYSdの機能について説明する。 The processing device 2D functions as a second emotion estimation section 25D by reading and executing the control program PRD from the storage device 3D. Functions of the emotion estimation system SYSd will be described with reference to FIG.

図25は、感情推定システムSYSdの機能の概要を示す図である。第1感情推定部25dは、補正部253、及び、推定部258を含む。第2感情推定部25Dは、ノイズ除去部251、音声評価部252、文字評価部256を含む。 FIG. 25 is a diagram showing an outline of functions of the emotion estimation system SYSd. First emotion estimation section 25 d includes correction section 253 and estimation section 258 . Second emotion estimation unit 25D includes noise removal unit 251, voice evaluation unit 252, and character evaluation unit 256. FIG.

取得部21は、ユーザU1の音声を含む音を集音する集音装置8が出力する音情報SI1を取得する。通信装置6は、音情報SIを、サーバ装置10Dに送信する。第2感情推定部25Dは、音情報SIに基づいて、音声感情情報VEと文字感情情報TEと認識文字列RTとを生成する。通信装置6Bは、音声感情情報VEと文字感情情報TEと認識文字列RTとをユーザ装置1dに送信する。 The acquisition unit 21 acquires sound information SI1 output by the sound collector 8 that collects sound including the voice of the user U1. The communication device 6 transmits the sound information SI to the server device 10D. Second emotion estimation section 25D generates voice emotion information VE, text emotion information TE, and recognized character string RT based on sound information SI. The communication device 6B transmits the voice emotion information VE, the text emotion information TE, and the recognized character string RT to the user device 1d.

補正部253は、補正情報CIを用いて、補正感情情報CVEを生成する。推定部258は、補正感情情報CVEと文字感情情報TEとに基づいて、ユーザUが抱く感情を推定する。出力部26は、認識文字列RTに対して、推定感情情報EIが示す感情に応じた処理を実行して得られたデータを出力する。 The correction unit 253 uses the correction information CI to generate the corrected emotion information CVE. The estimation unit 258 estimates the emotion that the user U has based on the corrected emotion information CVE and the text emotion information TE. The output unit 26 outputs data obtained by performing processing corresponding to the emotion indicated by the estimated emotion information EI on the recognized character string RT.

5.2.第5実施形態の効果
以上の説明によれば、感情推定システムSYSdにおいて、ユーザ装置1dは、第1実施形態におけるユーザ装置1と比較すると、負荷を軽減できる。
5.2. Effect of Fifth Embodiment According to the above description, in the emotion estimation system SYSd, the user device 1d can reduce the load compared to the user device 1 in the first embodiment.

6.第6実施形態
第6実施形態にかかる感情推定システムSYSeは、第2実施形態で示した感情推定部25の処理を、サーバ装置10Dとユーザ装置1eとで分散する点で、第2実施形態にかかるユーザ装置1aと相違する。以下、第6実施形態にかかる感情推定システムSYSeを説明する。なお、以下に例示する第6実施形態において作用又は機能が第2実施形態又は第5実施形態と同等である要素については、以上の説明で参照の符号を流用して各々の詳細な説明を適宜に省略する。
6. Sixth Embodiment The emotion estimation system SYSe according to the sixth embodiment differs from the second embodiment in that the processing of the emotion estimation unit 25 shown in the second embodiment is distributed between the server device 10D and the user device 1e. It is different from the user device 1a. The emotion estimation system SYSe according to the sixth embodiment will be described below. In the sixth embodiment exemplified below, the elements whose actions or functions are equivalent to those of the second embodiment or the fifth embodiment will be referred to in the above description by using the reference numerals, and their detailed description will be appropriately described. abbreviated to

6.1.第6実施形態の概要
図26は、感情推定システムSYSeの全体構成を示す図である。感情推定システムSYSeは、ユーザUが所持するユーザ装置1eと、ネットワークNWと、サーバ装置10Dとを備える。
6.1. Overview of Sixth Embodiment FIG. 26 is a diagram showing the overall configuration of an emotion estimation system SYSe. The emotion estimation system SYSe includes a user device 1e possessed by a user U, a network NW, and a server device 10D.

図27は、ユーザ装置1eの構成を示すブロック図である。ユーザ装置1eは、処理装置2e、記憶装置3e、表示装置4、操作装置5、通信装置6、放音装置7、及び、集音装置8を具備するコンピュータシステムにより実現される。記憶装置3eは、処理装置2eが読取可能な記録媒体であり、処理装置2eが実行する制御プログラムPReを含む複数のプログラムを記憶する。 FIG. 27 is a block diagram showing the configuration of the user device 1e. The user device 1e is implemented by a computer system including a processing device 2e, a storage device 3e, a display device 4, an operation device 5, a communication device 6, a sound emitting device 7, and a sound collecting device 8. FIG. The storage device 3e is a recording medium readable by the processing device 2e, and stores a plurality of programs including the control program PRe executed by the processing device 2e.

処理装置2eは、記憶装置3eから制御プログラムPReを読み取り実行することによって、取得部21a、第1感情推定部25e、及び、出力部26として機能する。図28を用いて、感情推定システムSYSeの機能について説明する。 The processing device 2e functions as an acquisition unit 21a, a first emotion estimation unit 25e, and an output unit 26 by reading and executing the control program PRe from the storage device 3e. Functions of the emotion estimation system SYSe will be described with reference to FIG.

図28は、感情推定システムSYSeの機能の概要を示す図である。第1感情推定部25eは、補正部253と、調整部254と、推定部258とを含む。 FIG. 28 is a diagram showing an outline of functions of the emotion estimation system SYSe. First emotion estimating portion 25 e includes correcting portion 253 , adjusting portion 254 , and estimating portion 258 .

取得部21aは、ユーザUが明示感情を発露させた音声を含む音を示す音情報SIaを取得する。サーバ装置10Dは、音情報SIaに基づいて音声感情情報VEaを生成する。そして、通信装置6Bが、音声感情情報VEaをユーザ装置1に送信する。 Acquisition unit 21a acquires sound information SIa indicating a sound including a voice in which user U expresses an explicit emotion. The server device 10D generates voice emotion information VEa based on the sound information SIa. The communication device 6B then transmits the voice emotion information VEa to the user device 1 .

調整部254は、ユーザUが抱く感情が明示感情であると推定部258が推定する可能性を高くする目的で、明示的な音声感情情報VEaに基づいて補正情報CIを調整する。 The adjustment unit 254 adjusts the correction information CI based on the explicit voice emotion information VEa for the purpose of increasing the possibility of the estimation unit 258 estimating that the emotion that the user U has is the explicit emotion.

6.2.第6実施形態の効果
以上の説明によれば、感情推定システムSYSにおいて、ユーザ装置1dは、第2実施形態におけるユーザ装置1と比較すると、負荷を軽減できる。
6.2. Effect of Sixth Embodiment According to the above description, in the emotion estimation system SYS, the user device 1d can reduce the load compared to the user device 1 in the second embodiment.

7.第7実施形態
第7実施形態にかかる感情推定システムSYSfは、第3実施形態で示した感情推定部25の処理を、サーバ装置10Fとユーザ装置1fとで分散する点で、第3実施形態にかかる感情推定システムSYSと相違する。以下、第7実施形態にかかる感情推定システムSYSfを説明する。なお、以下に例示する第7実施形態において作用又は機能が第3実施形態又は第5実施形態と同等である要素については、以上の説明で参照の符号を流用して各々の詳細な説明を適宜に省略する。
7. Seventh Embodiment The emotion estimation system SYSf according to the seventh embodiment differs from the third embodiment in that the processing of the emotion estimation unit 25 shown in the third embodiment is distributed between the server device 10F and the user device 1f. It differs from the emotion estimation system SYS. The emotion estimation system SYSf according to the seventh embodiment will be described below. It should be noted that, in the seventh embodiment illustrated below, the elements whose actions or functions are equivalent to those of the third embodiment or the fifth embodiment will be referred to in the above description by using the reference numerals, and the detailed description of each will be made as appropriate. abbreviated to

7.1.第7実施形態の概要
図29は、感情推定システムSYSfの全体構成を示す図である。感情推定システムSYSfは、ユーザUが所持するユーザ装置1fと、ネットワークNWと、サーバ装置10Fとを備える。ユーザU1が、「第1ユーザ」の例である。ユーザU2が、「第2ユーザ」の例である。
7.1. Overview of Seventh Embodiment FIG. 29 is a diagram showing the overall configuration of an emotion estimation system SYSf. The emotion estimation system SYSf includes a user device 1f owned by a user U, a network NW, and a server device 10F. User U1 is an example of a "first user". User U2 is an example of a "second user".

図30は、ユーザ装置1fを示すブロック図である。ユーザ装置1fは、処理装置2f、記憶装置3f、表示装置4、操作装置5、通信装置6、放音装置7、及び、集音装置8を具備するコンピュータシステムにより実現される。記憶装置3fは、処理装置2fが読取可能な記録媒体であり、処理装置2fが実行する制御プログラムPRfを含む複数のプログラムを記憶する。 FIG. 30 is a block diagram showing the user device 1f. The user device 1f is implemented by a computer system including a processing device 2f, a storage device 3f, a display device 4, an operation device 5, a communication device 6, a sound emitting device 7, and a sound collecting device 8. FIG. The storage device 3f is a recording medium readable by the processing device 2f, and stores a plurality of programs including a control program PRf executed by the processing device 2f.

処理装置2fは、記憶装置3fから制御プログラムPRfを読み取り実行することによって、取得部21、第1感情推定部25f、及び、出力部26として機能する。 The processing device 2f functions as an acquisition unit 21, a first emotion estimation unit 25f, and an output unit 26 by reading and executing the control program PRf from the storage device 3f.

図31は、サーバ装置10Fの構成を示すブロック図である。サーバ装置10Fは、処理装置2F、記憶装置3F、及び、通信装置6Bを具備するコンピュータシステムにより実現される。記憶装置3Fは、処理装置2Fが読取可能な記録媒体であり、処理装置2Fが実行する制御プログラムPRFを含む複数のプログラム、解析用辞書情報31、感情分類情報33、及び、学習モデルLMを記憶する。 FIG. 31 is a block diagram showing the configuration of the server device 10F. The server device 10F is implemented by a computer system including a processing device 2F, a storage device 3F, and a communication device 6B. The storage device 3F is a recording medium readable by the processing device 2F, and stores a plurality of programs including the control program PRF executed by the processing device 2F, analysis dictionary information 31, emotion classification information 33, and a learning model LM. do.

処理装置2Fは、記憶装置3Fから制御プログラムPRDを読み取り実行することによって、第2感情推定部25Fとして機能する。図32を用いて、感情推定システムSYSfの機能について説明する。 The processing device 2F functions as a second emotion estimation section 25F by reading and executing the control program PRD from the storage device 3F. Functions of the emotion estimation system SYSf will be described with reference to FIG.

図32は、感情推定システムSYSfとの機能の概要を示す図である。第1感情推定部25fは、補正部253、調整部254、及び、推定部258を含む。第2感情推定部25Fは、ノイズ除去部251、音声評価部252、文字評価部256、及び、特定部259を含む。ユーザ装置1f1が、「第1端末装置」の一例である。ユーザ装置1f2が、「第2端末装置」の一例である。図面の煩雑化を防ぐため、ユーザ装置1f1の処理装置2fが実現する機能については、図示を省略している。 FIG. 32 is a diagram showing an overview of the functions of the emotion estimation system SYSf. First emotion estimator 25 f includes corrector 253 , adjuster 254 , and estimator 258 . Second emotion estimation unit 25</b>F includes noise removal unit 251 , voice evaluation unit 252 , character evaluation unit 256 and identification unit 259 . The user device 1f1 is an example of a "first terminal device". The user device 1f2 is an example of a "second terminal device". In order to avoid complication of the drawing, illustration of the functions realized by the processing device 2f of the user device 1f1 is omitted.

ユーザ装置1f1の取得部21は、ユーザ装置1f1の集音装置8が出力する音情報SI1を取得する。ユーザ装置1f1の集音装置8は、「第1集音装置」の一例である。ユーザ装置1f1の通信装置6は、音情報SI1をサーバ装置10Fに送信する。ノイズ除去部251は、音情報SI1が示す音からノイズを除去して音声情報VI1を生成する。ユーザU1に関して、以降の処理は、図13に示す音声評価部252B、補正部253、音声認識処理部2561、形態素解析処理部2563、評価値算出部2565、特定部259と同一であるため、説明を省略する。さらに、図示を省略しているが、第2感情推定部25Fは、認識文字列RT1と、ユーザU1の音声感情情報VE1と、ユーザU1の文字感情情報TE1とを、ユーザ装置1f1に送信する。そして、特定部259が特定文字列STを特定するために、ユーザ装置1f1の通信装置6は、ユーザU1の補正感情情報CVE1をサーバ装置10Fに送信する。
ユーザU2に関して、ユーザ装置1f2の取得部21は、ユーザ装置1f2の集音装置8が出力する音情報SI2を取得する。ユーザ装置1f2の集音装置8は、「第2集音装置」の一例である。ユーザ装置1f2の通信装置6は、音情報SI2をサーバ装置10Fに送信する。ユーザ装置1f2の通信装置6は、「第3通信装置」の一例である。ユーザU2に関して、以降の処理は、図13に示す音声評価部252B、補正部253、音声認識処理部2561、形態素解析処理部2563、評価値算出部2565と同一であるため、説明を省略する。通信装置6Bは、特定文字列STと、ユーザU2の音声感情情報VE2と、ユーザU2の文字感情情報TE2とを、ユーザ装置1f2に送信する。
The acquisition unit 21 of the user device 1f1 acquires sound information SI1 output by the sound collector 8 of the user device 1f1. The sound collector 8 of the user device 1f1 is an example of the "first sound collector". The communication device 6 of the user device 1f1 transmits the sound information SI1 to the server device 10F. The noise removal unit 251 removes noise from the sound indicated by the sound information SI1 to generate the voice information VI1. Regarding the user U1, the subsequent processing is the same as the speech evaluation unit 252B, the correction unit 253, the speech recognition processing unit 2561, the morphological analysis processing unit 2563, the evaluation value calculation unit 2565, and the identification unit 259 shown in FIG. omitted. Further, although not shown, the second emotion estimation unit 25F transmits the recognized character string RT1, the voice emotion information VE1 of the user U1, and the text emotion information TE1 of the user U1 to the user device 1f1. Then, in order for the specifying unit 259 to specify the specific character string ST, the communication device 6 of the user device 1f1 transmits the corrected emotion information CVE1 of the user U1 to the server device 10F.
Regarding the user U2, the acquisition unit 21 of the user device 1f2 acquires sound information SI2 output by the sound collector 8 of the user device 1f2. The sound collector 8 of the user device 1f2 is an example of the "second sound collector". The communication device 6 of the user device 1f2 transmits the sound information SI2 to the server device 10F. The communication device 6 of the user device 1f2 is an example of a "third communication device". Regarding the user U2, the subsequent processing is the same as the speech evaluation unit 252B, the correction unit 253, the speech recognition processing unit 2561, the morphological analysis processing unit 2563, and the evaluation value calculation unit 2565 shown in FIG. 13, so the description is omitted. The communication device 6B transmits the specific character string ST, the voice emotion information VE2 of the user U2, and the character emotion information TE2 of the user U2 to the user device 1f2.

非キャリブレーションユーザであるユーザU2が、特定文字列STを発話した場合には、調整部254は、ユーザU2の補正感情情報CVE2に含まれる複数の音声評価値Xを、複数の感情の各々について、ユーザU2の文字感情情報TE2に含まれる複数の文字評価値Yに近づける目的で、ユーザU2用の補正情報CI2を調整する。 When user U2, who is a non-calibrated user, utters the specific character string ST, the adjustment unit 254 converts a plurality of voice evaluation values X included in the corrected emotion information CVE2 of user U2 to , the correction information CI2 for the user U2 is adjusted for the purpose of bringing it closer to the plurality of character evaluation values Y included in the character emotion information TE2 of the user U2.

7.2.第7実施形態の効果
以上の説明によれば、感情推定システムSYSfにおいて、サーバ装置10Fは、第3実施形態におけるサーバ装置10と比較すると、負荷を軽減できる。
7.2. Effect of Seventh Embodiment According to the above description, in the emotion estimation system SYSf, the server device 10F can reduce the load compared to the server device 10 in the third embodiment.

8.変形例
本発明は、以上に例示した各実施形態に限定されない。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様を併合してもよい。
8. Modifications The present invention is not limited to the embodiments illustrated above. Specific modification modes are exemplified below. Two or more aspects arbitrarily selected from the following examples may be combined.

(1)第1変形例として、推定部258は、補正感情情報CVEと文字感情情報TEとに基づいて、ユーザUが抱く感情を推定することを説明したが、これに限らない。推定部258が補正感情情報CVEに基づいて、ユーザUが抱く1以上の感情を推定する例を、図33を用いて説明する。 (1) As a first modified example, the estimating unit 258 estimates the emotion of the user U based on the corrected emotion information CVE and the text emotion information TE, but the present invention is not limited to this. An example in which the estimation unit 258 estimates one or more emotions that the user U has based on the corrected emotion information CVE will be described with reference to FIG.

図33は、第1変形例におけるユーザ装置1gの機能の概要を示す図である。ユーザ装置1gの処理装置2は、ユーザ装置1gの記憶装置3から制御プログラムを読み取り実行することによって、取得部21、感情推定部25g、及び、出力部26gとして機能する。感情推定部25gは、ノイズ除去部251、音声評価部252、補正部253、及び、推定部258gを含む。推定部258gは、補正感情情報CVEに基づいて、ユーザUが抱く1以上の感情を推定する。例えば、推定部258gは、補正感情情報CVEの音声評価値X1~X4を閾値と比較し、閾値を超える音声評価値Xを特定する。推定部258gは、特定された音声評価値Xに対応する1以上の感情を、ユーザUが抱く1以上の感情として推定する。感情推定部25gは、推定したユーザUが抱く1以上の感情を示す推定感情情報EIを出力する。
出力部26gは、推定感情情報EIを出力する。例えば、出力部26gは、推定感情情報EIが示す感情を示す文字列を、表示装置4に出力する。
FIG. 33 is a diagram showing an overview of functions of the user device 1g in the first modified example. The processing device 2 of the user device 1g functions as an acquisition unit 21, an emotion estimation unit 25g, and an output unit 26g by reading and executing a control program from the storage device 3 of the user device 1g. The emotion estimation unit 25g includes a noise removal unit 251, a voice evaluation unit 252, a correction unit 253, and an estimation unit 258g. The estimation unit 258g estimates one or more emotions that the user U has based on the corrected emotion information CVE. For example, the estimating unit 258g compares the audio evaluation values X1 to X4 of the corrected emotion information CVE with a threshold and identifies the audio evaluation value X exceeding the threshold. The estimation unit 258g estimates one or more emotions corresponding to the identified voice evaluation value X as one or more emotions that the user U has. The emotion estimation unit 25g outputs estimated emotion information EI indicating one or more emotions that the estimated user U has.
The output unit 26g outputs the estimated emotion information EI. For example, the output unit 26g outputs to the display device 4 a character string indicating the emotion indicated by the estimated emotion information EI.

(2)第4実施形態に示した感情推定部25Cの処理を、サーバ装置10とユーザ装置1とで分散してもよい。例えば、サーバ装置10における第2感情推定部25は、ノイズ除去部251C、音声評価部252B、文字評価部256、及び、特定部259を有する。ユーザ装置1における第1感情推定部25は、補正部253、調整部254、推定部258を有する。 (2) The processing of the emotion estimation unit 25C shown in the fourth embodiment may be distributed between the server device 10 and the user device 1. FIG. For example, the second emotion estimation unit 25 in the server device 10 has a noise removal unit 251C, a voice evaluation unit 252B, a character evaluation unit 256, and a specification unit 259. First emotion estimating section 25 in user device 1 has correcting section 253 , adjusting section 254 , and estimating section 258 .

(3)感情推定部25は、喜び、怒り、悲しみ、及び、平常のうち、1以上の感情を推定することとして説明したが、1つの感情を推定してもよい。例えば、推定部258は、補正感情情報CVEの音声評価値X1~X4と文字感情情報TEの文字評価値Y1~Y4とを感情ごとに加算して、感情ごとに加算値を算出する。推定部258は、感情ごとの加算値のうち最も大きい値の感情を、ユーザUが抱く感情として推定してもよい。 (3) The emotion estimator 25 estimates one or more emotions out of joy, anger, sadness, and normality, but it may estimate one emotion. For example, the estimation unit 258 adds the voice evaluation values X1 to X4 of the corrected emotion information CVE and the text evaluation values Y1 to Y4 of the text emotion information TE for each emotion to calculate the added value for each emotion. The estimation unit 258 may estimate the emotion having the largest value among the added values for each emotion as the emotion that the user U has.

(4)第3実施形態では、サーバ装置10によって感情推定部25Bが実現したが、1台のユーザ装置1に適用してもよい。例えば、ユーザ装置1が、複数のユーザUによって所持される場合である。ある期間において、ユーザU1がユーザ装置1を所持し、ユーザ装置1をキャリブレーションモードに設定し、ある期間の後の期間において、ユーザU2がユーザ装置1を所持した場合に、第3実施形態を適用してもよい。 (4) In the third embodiment, the emotion estimation unit 25B is implemented by the server device 10, but it may be applied to one user device 1 as well. For example, this is the case where the user device 1 is possessed by a plurality of users U. In a certain period, the user U1 possesses the user device 1 and sets the user device 1 to the calibration mode, and in a period after the certain period, the user U2 possesses the user device 1, the third embodiment may apply.

(5)第5実施形態、第6実施形態、及び、第7実施形態において、通信装置6Bは、認識文字列RTと、ユーザU2の音声感情情報VE2と、ユーザU2の文字感情情報TE2とを、ユーザ装置1f2に送信するが、認識文字列RTを送信しなくてもよい。例えば、ユーザ装置1fは、推定感情情報EIが示す感情を示す文字列を、表示装置4に出力する。 (5) In the fifth, sixth, and seventh embodiments, the communication device 6B converts the recognized character string RT, the voice emotion information VE2 of the user U2, and the character emotion information TE2 of the user U2 to , to the user device 1f2, but the recognition character string RT may not be transmitted. For example, the user device 1f outputs to the display device 4 a character string indicating the emotion indicated by the estimated emotion information EI.

(6)ユーザ装置1は、集音装置8を有さなくてもよい。集音装置8を有さない場合、ユーザ装置1は、通信装置6を介して音情報SIを取得してもよいし、記憶装置3に記憶された音情報SIを取得してもよい。 (6) The user device 1 may not have the sound collector 8 . If the user device 1 does not have the sound collecting device 8 , the user device 1 may acquire the sound information SI via the communication device 6 or may acquire the sound information SI stored in the storage device 3 .

(7)ユーザ装置1は、放音装置7を有さなくてもよい。 (7) The user device 1 does not have to have the sound emitting device 7 .

(8)ユーザ装置1は、スマートスピーカでもよい。ユーザ装置1がスマートスピーカである場合、ユーザ装置1は、表示装置4及び操作装置5を有さなくてもよい。 (8) The user device 1 may be a smart speaker. If the user device 1 is a smart speaker, the user device 1 may not have the display device 4 and the operation device 5 .

(9)感情分類情報33は、図4に示すように、「勝つ」、「勝っ」のように、ある単語が活用した複数の形態素のそれぞれを、喜び、怒り、悲しみ、及び、平常の何れかに分類したが、これに限らない。例えば、感情分類情報33は、解析用辞書情報31の原形データに登録された文字列を、喜び、怒り、悲しみ、及び、平常の何れかに分類してもよい。例えば、感情分類情報33は、解析用辞書情報31の原形データに登録された文字列「嬉しい」、「合格」、及び「勝つ」を、喜びに分類する。評価値算出部2565は、補正後認識文字列CRTを形態素ごとに分解し、分解した形態素を、解析用辞書情報31の原形データに登録された文字列に変換する。そして、評価値算出部2565は、変換して得られた文字列と、感情分類情報33に含まれる文字列とが一致する場合に、この補正後認識文字列CRTに含まれる文字列に対応する感情の文字評価値Yを増加させる。 (9) The emotion classification information 33, as shown in FIG. 4, includes each of a plurality of morphemes used by a word, such as "win" and "win", as joy, anger, sadness, and normal. Although classified as one, it is not limited to this. For example, the emotion classification information 33 may classify the character strings registered in the original data of the analysis dictionary information 31 into either joy, anger, sadness, or normal. For example, the emotion classification information 33 classifies the character strings "happy", "pass", and "win" registered in the original data of the analysis dictionary information 31 as joy. The evaluation value calculation unit 2565 decomposes the corrected recognized character string CRT into morphemes, and converts the decomposed morphemes into character strings registered in the original form data of the analysis dictionary information 31 . Then, when the character string obtained by the conversion matches the character string included in the emotion classification information 33, the evaluation value calculation unit 2565 calculates the character string included in the post-correction recognized character string CRT. Increase character evaluation value Y of emotion.

(10)評価値算出部2565は、補正後認識文字列CRTに対して、感情ごとの文字評価値Yを算出したが、認識文字列RTに対して感情ごとの文字評価値Yを算出してもよい。しかしながら、認識文字列RTには、感情を推定するためには不要な文字列が含まれる。従って、補正後認識文字列CRTに対して感情ごとの文字評価値Yを算出することにより、認識文字列RTに対して感情ごとの文字評価値Yを算出する場合と比較して、感情の推定精度を向上できる。 (10) The evaluation value calculation unit 2565 calculates the character evaluation value Y for each emotion for the corrected recognized character string CRT, but does not calculate the character evaluation value Y for each emotion for the recognized character string RT. good too. However, the recognized character string RT includes character strings that are unnecessary for estimating emotions. Therefore, by calculating the character evaluation value Y for each emotion with respect to the post-correction recognition character string CRT, it is possible to estimate the emotion in comparison with the case where the character evaluation value Y for each emotion is calculated for the recognition character string RT. Can improve accuracy.

(11)第1の態様における相違の程度を示す値は、音声評価値Xと文字評価値Yとの差分の2乗の和であったが、音声評価値Xと文字評価値Yとの差分の絶対値の和等、評価値間の距離を定義する任意の評価関数によって求められる値でもよい。 (11) Although the value indicating the degree of difference in the first mode was the sum of the squares of the difference between the voice evaluation value X and the character evaluation value Y, the difference between the voice evaluation value X and the character evaluation value Y It may be a value determined by an arbitrary evaluation function that defines the distance between evaluation values, such as the sum of the absolute values of .

(12)ユーザUが日本語を話す例を用いたが、ユーザが如何なる言語を話しても上述の各態様を適用することが可能である。例えば、ユーザUが、日本語以外の英語、フランス語、又は中国語等を話す場合であっても上述の各態様を適用できる。例えば、ユーザUが英語を話す場合、解析用辞書情報31は、英語の形態素に関する情報であり、感情分類情報33は、英単語を喜び、怒り、悲しみ、及び、平常の何れかに分類したデータであればよい。 (12) Although the example in which the user U speaks Japanese has been used, the above aspects can be applied to any language the user speaks. For example, even if the user U speaks English, French, Chinese, or the like other than Japanese, each of the above aspects can be applied. For example, when the user U speaks English, the analysis dictionary information 31 is information about English morphemes, and the emotion classification information 33 is data in which English words are classified into either joy, anger, sadness, or normal. If it is

(13)上述した各態様の説明に用いたブロック図は、機能単位のブロックを示している。これらの機能ブロック(構成部)は、ハードウェア及び/又はソフトウェアの任意の組み合わせによって実現される。また、各機能ブロックの実現手段は特に限定されない。すなわち、各機能ブロックは、物理的及び/又は論理的に結合した1つの装置により実現されてもよいし、物理的及び/又は論理的に分離した2つ以上の装置を直接的及び/又は間接的に(例えば、有線及び/又は無線)で接続し、これら複数の装置により実現されてもよい。 (13) The block diagrams used to describe each of the above aspects show blocks in units of functions. These functional blocks (components) are implemented by any combination of hardware and/or software. Further, means for realizing each functional block is not particularly limited. That is, each functional block may be implemented by one device physically and/or logically coupled, or may be implemented by two or more physically and/or logically separated devices directly and/or indirectly. These multiple devices may be connected together (eg, wired and/or wirelessly).

(14)上述した各態様における処理手順、シーケンス、フローチャートなどは、矛盾のない限り、順序を入れ替えてもよい。例えば、本明細書で説明した方法については、例示的な順序で様々なステップの要素を提示しており、提示した特定の順序に限定されない。 (14) As long as there is no contradiction, the order of the processing procedures, sequences, flowcharts, and the like in each aspect described above may be changed. For example, the methods described herein present elements of the various steps in a sample order and are not limited to the specific order presented.

(15)上述した各態様において、入出力された情報等は特定の場所(例えば、メモリ)に保存されてもよいし、管理テーブルで管理してもよい。入出力される情報等は、上書き、更新、又は追記され得る。出力された情報等は削除されてもよい。入力された情報等は他の装置へ送信されてもよい。 (15) In each aspect described above, input/output information and the like may be stored in a specific location (for example, memory) or managed in a management table. Input/output information and the like can be overwritten, updated, or appended. The output information and the like may be deleted. The entered information and the like may be transmitted to another device.

(16)上述した各態様において、判定は、1ビットで表される値(0か1か)によって行われてもよいし、真偽値(Boolean:true又はfalse)によって行われてもよいし、数値の比較(例えば、所定の値との比較)によって行われてもよい。 (16) In each aspect described above, the determination may be made by a value represented by 1 bit (0 or 1), or by a true/false value (Boolean: true or false). , may be performed by numerical comparison (eg, comparison with a predetermined value).

(17)上述した各態様では、スマートフォン等の可搬型の情報処理装置をユーザ装置1として例示したが、ユーザ装置1の具体的な形態は任意であり、前述の各形態の例示には限定されない。例えば、可搬型又は据置型のパーソナルコンピュータをユーザ装置1として利用してもよい。 (17) In each aspect described above, a portable information processing device such as a smart phone was exemplified as the user device 1, but the specific form of the user device 1 is arbitrary, and is not limited to the examples of the above forms. . For example, a portable or stationary personal computer may be used as the user device 1 .

(18)上述した各態様では、記憶装置3は、処理装置2が読取可能な記録媒体であり、ROM及びRAMなどを例示したが、フレキシブルディスク、光磁気ディスク(例えば、コンパクトディスク、デジタル多用途ディスク、Blu-ray(登録商標)ディスク)、スマートカード、フラッシュメモリデバイス(例えば、カード、スティック、キードライブ)、CD-ROM(Compact Disc-ROM)、レジスタ、リムーバブルディスク、ハードディスク、フロッピー(登録商標)ディスク、磁気ストリップ、データベース、サーバその他の適切な記憶媒体である。また、プログラムは、ネットワークから送信されても良い。また、プログラムは、電気通信回線を介して通信網から送信されても良い。 (18) In each aspect described above, the storage device 3 is a recording medium that can be read by the processing device 2. Although ROM and RAM are examples, flexible discs, magneto-optical discs (e.g., compact discs, digital versatile discs, Blu-ray discs), smart cards, flash memory devices (e.g. cards, sticks, key drives), CD-ROMs (Compact Disc-ROMs), registers, removable discs, hard disks, floppies ) disk, magnetic strip, database, server or other suitable storage medium. Also, the program may be transmitted from a network. Also, the program may be transmitted from a communication network via an electric communication line.

(19)上述した各態様は、LTE(Long Term Evolution)、LTE-A(LTE-Advanced)、SUPER 3G、IMT-Advanced、4G、5G、FRA(Future Radio Access)、W-CDMA(登録商標)、GSM(登録商標)、CDMA2000、UMB(Ultra Mobile Broadband)、IEEE 802.11(Wi-Fi)、IEEE 802.16(WiMAX)、IEEE 802.20、UWB(Ultra-WideBand)、Bluetooth(登録商標)、その他の適切なシステムを利用するシステム及び/又はこれらに基づいて拡張された次世代システムに適用されてもよい。 (19) Each aspect described above includes LTE (Long Term Evolution), LTE-A (LTE-Advanced), SUPER 3G, IMT-Advanced, 4G, 5G, FRA (Future Radio Access), W-CDMA (registered trademark) , GSM (registered trademark), CDMA2000, UMB (Ultra Mobile Broadband), IEEE 802.11 (Wi-Fi), IEEE 802.16 (WiMAX), IEEE 802.20, UWB (Ultra-WideBand), Bluetooth (registered trademark) ), systems utilizing other suitable systems, and/or future generation systems enhanced based on these.

(20)上述した各態様において、説明した情報及び信号などは、様々な異なる技術の何れかを使用して表されてもよい。例えば、上述の説明全体に渡って言及され得るデータ、命令、コマンド、情報、信号、ビット、シンボル、チップなどは、電圧、電流、電磁波、磁界若しくは磁性粒子、光場若しくは光子、又はこれらの任意の組み合わせによって表されてもよい。
なお、本明細書で説明した用語及び/又は本明細書の理解に必要な用語については、同一の又は類似する意味を有する用語と置き換えてもよい。
(20) In each of the above aspects, the information, signals, etc. described may be represented using any of a variety of different technologies. For example, data, instructions, commands, information, signals, bits, symbols, chips, etc. that may be referred to throughout the above description may refer to voltages, currents, electromagnetic waves, magnetic fields or magnetic particles, light fields or photons, or any of these. may be represented by a combination of
The terms explained in this specification and/or terms necessary for understanding this specification may be replaced with terms having the same or similar meanings.

(21)図2、図5、図7、図8、図11、図12、図13、図14、図18、図19、図20、図23、図24、図25、図27、図28、図30、図31、図32、及び、図33に例示された各機能は、ハードウェア及びソフトウェアの任意の組み合わせによって実現される。また、各機能は、単体の装置によって実現されてもよいし、相互に別体で構成された2個以上の装置によって実現されてもよい。 (21) FIGS. 2, 5, 7, 8, 11, 12, 13, 14, 18, 19, 20, 23, 24, 25, 27, and 28 , 30, 31, 32, and 33 are implemented by any combination of hardware and software. Also, each function may be implemented by a single device, or may be implemented by two or more devices configured separately from each other.

(22)上述した各実施形態で例示したプログラムは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード又はハードウェア記述言語と呼ばれるか、他の名称によって呼ばれるかを問わず、命令、命令セット、コード、コードセグメント、プログラムコード、サブプログラム、ソフトウェアモジュール、アプリケーション、ソフトウェアアプリケーション、ソフトウェアパッケージ、ルーチン、サブルーチン、オブジェクト、実行可能ファイル、実行スレッド、手順又は機能等を意味するよう広く解釈されるべきである。
また、ソフトウェア、命令などは、伝送媒体を介して送受信されてもよい。例えば、ソフトウェアが、同軸ケーブル、光ファイバケーブル、ツイストペア及びデジタル加入者回線(DSL)などの有線技術及び/又は赤外線、無線及びマイクロ波などの無線技術を使用してウェブサイト、サーバ、又は他のリモートソースから送信される場合、これらの有線技術及び/又は無線技術は、伝送媒体の定義内に含まれる。
(22) The programs exemplified in each of the above embodiments, whether referred to as software, firmware, middleware, microcode, hardware description language or by any other name, may include instructions, instruction sets, code, code segments. , program code, subprograms, software modules, applications, software applications, software packages, routines, subroutines, objects, executable files, threads of execution, procedures or functions, or the like.
Software, instructions, etc. may also be sent and received over a transmission medium. For example, the software can be used to access websites, servers, or other When transmitted from a remote source, these wired and/or wireless technologies are included within the definition of transmission media.

(23)上述した各実施形態において、情報、パラメータなどは、絶対値で表されてもよいし、所定の値からの相対値で表されてもよいし、対応する別の情報で表されてもよい。 (23) In each of the above-described embodiments, information, parameters, etc. may be represented by absolute values, may be represented by relative values from a predetermined value, or may be represented by corresponding other information. good too.

(24)上述したパラメータに使用する名称はいかなる点においても限定的なものではない。さらに、これらのパラメータを使用する数式等は、本明細書で明示的に開示したものと異なる場合もある。 (24) The names used for the parameters described above are not limiting in any way. Further, the formulas, etc. using these parameters may differ from those explicitly disclosed herein.

(25)上述した各実施形態において、ユーザ装置1は、移動局である場合が含まれる。移動局は、当業者によって、加入者局、モバイルユニット、加入者ユニット、ワイヤレスユニット、リモートユニット、モバイルデバイス、ワイヤレスデバイス、ワイヤレス通信デバイス、リモートデバイス、モバイル加入者局、アクセス端末、モバイル端末、ワイヤレス端末、リモート端末、ハンドセット、ユーザエージェント、モバイルクライアント、クライアント、又はいくつかの他の適切な用語で呼ばれる場合もある。 (25) In each of the above embodiments, the user equipment 1 may be a mobile station. A mobile station is defined by those skilled in the art as subscriber station, mobile unit, subscriber unit, wireless unit, remote unit, mobile device, wireless device, wireless communication device, remote device, mobile subscriber station, access terminal, mobile terminal, wireless It may also be called a terminal, remote terminal, handset, user agent, mobile client, client, or some other suitable term.

(26)上述した各実施形態において、「に基づいて」という記載は、別段に明記されていない限り、「のみに基づいて」を意味しない。言い換えれば、「に基づいて」という記載は、「のみに基づいて」と「に少なくとも基づいて」の両方を意味する。 (26) In each of the embodiments described above, the phrase "based on" does not mean "based only on," unless expressly specified otherwise. In other words, the phrase "based on" means both "based only on" and "based at least on."

(27)本明細書で使用する「第1」、「第2」などの呼称を使用した要素へのいかなる参照も、それらの要素の量又は順序を全般的に限定するものではない。これらの呼称は、2つ以上の要素間を区別する便利な方法として本明細書で使用され得る。従って、第1及び第2の要素への参照は、2つの要素のみがそこで採用され得ること、又は何らかの形で第1の要素が第2の要素に先行しなければならないことを意味しない。 (27) Any reference to elements using the "first," "second," etc. designations used herein does not generally limit the quantity or order of those elements. These designations may be used herein as a convenient method of distinguishing between two or more elements. Thus, references to first and second elements do not imply that only two elements may be employed therein, or that the first element must precede the second element in any way.

(28)上述した各実施形態において「含む(including)」、「含んでいる(comprising)」、及びそれらの変形が、本明細書あるいは特許請求の範囲で使用されている限り、これら用語は、用語「備える」と同様に、包括的であることが意図される。さらに、本明細書あるいは特許請求の範囲において使用されている用語「又は(or)」は、排他的論理和ではないことが意図される。 (28) To the extent that "including," "comprising," and variations thereof are used in each of the above-described embodiments in the specification or claims, these terms include: Like the term "comprising," it is intended to be inclusive. Furthermore, the term "or" as used in this specification or the claims is not intended to be an exclusive OR.

(29)本願の全体において、例えば、英語におけるa、an及びtheのように、翻訳によって冠詞が追加された場合、これらの冠詞は、文脈から明らかにそうではないことが示されていなければ、複数を含む。 (29) Throughout this application, where articles have been added by translation, e.g., a, an and the in English, these articles shall be used unless the context clearly indicates otherwise. Including multiple.

(30)本発明が本明細書中に説明した実施形態に限定されないことは当業者にとって明白である。本発明は、特許請求の範囲の記載に基づいて定まる本発明の趣旨及び範囲を逸脱することなく修正及び変更態様として実施できる。従って、本明細書の記載は、例示的な説明を目的とし、本発明に対して何ら制限的な意味を有さない。また、本明細書に例示した態様から選択された複数の態様を組み合わせてもよい。 (30) It will be clear to those skilled in the art that the present invention is not limited to the embodiments described herein. The present invention can be implemented as modifications and changes without departing from the spirit and scope of the present invention determined based on the description of the claims. Accordingly, the description herein is for illustrative purposes only and is not meant to be limiting in any way. Also, a plurality of aspects selected from the aspects exemplified in this specification may be combined.

1、1a、1b、1d、1e、1f、1g…ユーザ装置、10、10C、10D、10F…サーバ装置、21、21a…取得部、26…出力部、31…解析用辞書情報、33…感情分類情報、251、251C…ノイズ除去部、252、252B…音声評価部、253…補正部、254、254C…調整部、256…文字評価部、258…推定部、259…特定部、CI…補正情報、CVE…補正感情情報、LM…学習モデル、P1…第1パラメータ、P2…第2パラメータ、TE…文字感情情報、U…ユーザ、VE…音声感情情報、VI…音声情報、X…音声評価値、Y…文字評価値。 1, 1a, 1b, 1d, 1e, 1f, 1g... user device, 10, 10C, 10D, 10F... server device, 21, 21a... acquisition unit, 26... output unit, 31... dictionary information for analysis, 33... emotion Classification information 251, 251C Noise removal unit 252, 252B Speech evaluation unit 253 Correction unit 254, 254C Adjustment unit 256 Character evaluation unit 258 Estimation unit 259 Identification unit CI Correction information, CVE... corrected emotional information, LM... learning model, P1... first parameter, P2... second parameter, TE... text emotional information, U... user, VE... voice emotional information, VI... voice information, X... voice evaluation Value, Y... Character evaluation value.

Claims (9)

人間の音声に応じた複数の特徴量と当該音声を発した人間が抱く複数の感情の各々に対する強度との関係を複数の人間について学習済みの学習モデルに対して、ユーザの音声を示す音声情報に基づく複数の特徴量を入力し、前記ユーザが抱く前記複数の感情の各々に対する強度を示す音声評価値を含む音声感情情報を前記学習モデルから取得する音声評価部と、
前記ユーザの音声の特徴に基づく補正情報を用いて前記音声感情情報を補正した補正感情情報を生成する補正部と、
前記補正感情情報に基づいて、前記複数の感情の中から前記ユーザが抱く1以上の感情を推定する推定部と、
を備える感情推定装置。
Speech information indicating a user's speech for a learning model that has already learned the relationship between a plurality of feature values corresponding to a human speech and the intensity of each of a plurality of emotions held by a person who uttered the speech. a speech evaluation unit for inputting a plurality of feature amounts based on the learning model, and obtaining speech emotion information including a speech evaluation value indicating the strength of each of the plurality of emotions held by the user, from the learning model;
a correcting unit that generates corrected emotional information obtained by correcting the voice emotional information using correction information based on the features of the voice of the user;
an estimation unit for estimating one or more emotions of the user from among the plurality of emotions based on the corrected emotion information;
Emotion estimation device.
前記ユーザの音声を含む音を集音する集音装置が出力する音情報を取得する取得部と、
前記音情報が示す音からノイズを除去して前記音声情報を生成するノイズ除去部と、
を備える請求項1に記載の感情推定装置。
an acquisition unit that acquires sound information output by a sound collecting device that collects sound including the user's voice;
a noise removal unit that removes noise from the sound indicated by the sound information to generate the audio information;
The emotion estimation device according to claim 1, comprising:
前記音声評価部は、前記学習モデルに対して、前記複数の感情のうち一の感情を前記ユーザが明示的に発露させた音声を示す音声情報に基づく複数の特徴量を入力し、前記ユーザの明示的な音声感情情報を前記学習モデルから取得し、
前記ユーザが抱く感情が前記一の感情であると前記推定部が推定する可能性を高くする目的で、前記明示的な音声感情情報に基づいて前記補正情報を調整する調整部、
を備える請求項1又は2に記載の感情推定装置。
The speech evaluation unit inputs, to the learning model, a plurality of feature amounts based on speech information indicating a speech in which the user explicitly expresses one of the plurality of emotions, and obtaining explicit speech affective information from the learning model;
an adjustment unit that adjusts the correction information based on the explicit voice emotion information for the purpose of increasing the possibility that the estimation unit estimates that the emotion held by the user is the one emotion;
The emotion estimation device according to claim 1 or 2, comprising:
前記人間が発した音声の発話内容を認識する音声認識処理を前記ユーザの音声を含む音を集音する集音装置が出力する音情報に対して実行し、前記音声認識処理の認識結果を示す認識文字列に基づいて、前記ユーザが抱く前記複数の感情の各々に対する強度を示す文字評価値を含む文字感情情報を生成する文字評価部と、を備え、
前記推定部は、前記補正感情情報と前記文字感情情報とに基づいて、前記ユーザが抱く1以上の感情を推定する、
請求項3に記載の感情推定装置。
A speech recognition process for recognizing the utterance content of the voice uttered by a person is performed on sound information output by a sound collecting device that collects sound including the user's voice , and the recognition result of the speech recognition process is performed. a character evaluation unit that generates character emotion information including a character evaluation value indicating the strength of each of the plurality of emotions held by the user, based on the recognized character string shown;
The estimation unit estimates one or more emotions of the user based on the corrected emotion information and the character emotion information.
The emotion estimation device according to claim 3.
前記ユーザの前記補正感情情報に含まれる複数の音声評価値と前記文字感情情報に含まれる複数の文字評価値との相違の程度を示す値が所定値以下である場合、前記認識文字列を特定文字列として特定する特定部と、を備え、
明示的な感情を発露させた音声を発話していない他のユーザが、前記特定文字列を発話した場合、
前記音声評価部は、前記学習モデルに対して、前記他のユーザが前記特定文字列を発話した音声に応じた複数の特徴量を入力することによって、前記他のユーザの音声感情情報を前記学習モデルから取得し、
前記文字評価部は、
前記他のユーザが前記特定文字列を発話した音声に基づく前記他のユーザの文字感情情報を生成し、
前記調整部は、前記他のユーザの補正感情情報に含まれる複数の音声評価値を、前記複数の感情の各々について、前記他のユーザの文字感情情報に含まれる複数の文字評価値に近づける目的で、前記他のユーザ用の前記補正情報を調整する、
請求項4に記載の感情推定装置。
If a value indicating the degree of difference between the plurality of voice evaluation values included in the corrected emotion information of the user and the plurality of character evaluation values included in the text emotion information is equal to or less than a predetermined value, the recognized character string is specified. a specific part for specifying as a character string,
When another user who does not speak a voice that expresses an explicit emotion speaks the specific character string,
The voice evaluation unit learns the voice emotion information of the other user by inputting a plurality of feature amounts according to the voice of the specific character string uttered by the other user to the learning model. obtained from the model,
The character evaluation unit
generating character emotion information of the other user based on the voice of the specific character string uttered by the other user;
The purpose of the adjustment unit is to bring the plurality of voice evaluation values included in the corrected emotion information of the other user closer to the plurality of character evaluation values included in the text emotion information of the other user for each of the plurality of emotions. adjusting the correction information for the other user;
The emotion estimation device according to claim 4.
前記音情報が示す音から、所定の閾値に基づいてノイズを除去して前記音声情報を生成するノイズ除去部と、
前記ユーザの前記補正感情情報に含まれる複数の音声評価値と前記文字感情情報に含まれる複数の文字評価値との相違の程度を示す値が所定値以下である場合、前記認識文字列を特定文字列として特定する特定部と、を備え、
明示的な感情を発露させた音声を発話していない他のユーザが、前記特定文字列を発話した場合、
前記音声評価部は、前記学習モデルに対して、前記他のユーザが前記特定文字列を発話した音声に応じた複数の特徴量を入力することによって、前記他のユーザの音声感情情報を前記学習モデルから取得し、
前記文字評価部は、前記他のユーザが前記特定文字列を発話した音声に基づく前記他のユーザの文字感情情報を生成し、
前記調整部は、前記他のユーザの補正感情情報に含まれる複数の音声評価値を、前記複数の感情の各々について、前記他のユーザの文字感情情報に含まれる複数の文字評価値に近づける目的で、前記他のユーザ用の前記所定の閾値を調整する、
請求項4に記載の感情推定装置。
a noise removal unit that removes noise based on a predetermined threshold value from the sound indicated by the sound information to generate the audio information;
If a value indicating the degree of difference between the plurality of voice evaluation values included in the corrected emotion information of the user and the plurality of character evaluation values included in the text emotion information is equal to or less than a predetermined value, the recognized character string is specified. a specific part for specifying as a character string,
When another user who does not speak a voice that expresses an explicit emotion speaks the specific character string,
The voice evaluation unit learns the voice emotion information of the other user by inputting a plurality of feature amounts according to the voice of the specific character string uttered by the other user to the learning model. obtained from the model,
The character evaluation unit generates character emotion information of the other user based on the voice of the specific character string uttered by the other user,
The purpose of the adjustment unit is to bring the plurality of voice evaluation values included in the corrected emotion information of the other user closer to the plurality of character evaluation values included in the text emotion information of the other user for each of the plurality of emotions. adjusting the predetermined threshold for the other user at
The emotion estimation device according to claim 4.
サーバ装置と、前記サーバ装置と通信可能な端末装置とを備える感情推定システムであって、
前記サーバ装置は、
ユーザの音声を含む音を示す音情報を受信する第1通信装置と、
前記音情報が示す音からノイズを除去して、前記ユーザの音声を示す音声情報を生成するノイズ除去部と、
間の音声に応じた複数の特徴量と当該音声を発した人間が抱く複数の感情の各々に対する強度との関係を複数の人間について学習済みの学習モデルに対して、前記音声情報に基づく複数の特徴量を入力し、前記ユーザの抱く前記複数の感情の各々に対する強度を示す音声評価値を含む音声感情情報を前記学習モデルから取得する音声評価部と、
人間が発した音声の発話内容を認識する音声認識処理を、前記音情報に対して実行し、前記音声認識処理の認識結果を示す認識文字列に基づいて、前記ユーザが抱く前記複数の感情の各々に対する強度を示す文字評価値を含む文字感情情報を生成する文字評価部とを備え、
前記第1通信装置は、
前記文字感情情報と前記音声感情情報とを前記端末装置に送信し、
前記端末装置は、
前記ユーザの音声を含む音を集音する集音装置と、
前記集音装置が出力する前記音情報を前記サーバ装置に送信し、前記文字感情情報と前記音声感情情報とを前記サーバ装置から受信する第2通信装置と、
前記ユーザの音声の特徴に基づく補正情報を用いて前記音声感情情報を補正した補正感情情報を生成する補正部と、
前記補正感情情報と前記文字感情情報とに基づいて、前記ユーザが抱く1以上の感情を推定する推定部とを備える、
感情推定システム。
An emotion estimation system comprising a server device and a terminal device capable of communicating with the server device,
The server device
a first communication device that receives sound information indicating sound including the user's voice;
a noise removing unit that removes noise from the sound indicated by the sound information to generate voice information indicating the voice of the user;
For a learning model that has been trained on a plurality of humans , a relationship between a plurality of feature quantities corresponding to human speech and the intensity of each of a plurality of emotions held by the person who uttered the speech is evaluated based on the speech information. a voice evaluation unit for inputting the feature quantity of and acquiring from the learning model voice emotion information including a voice evaluation value indicating the strength of each of the plurality of emotions held by the user;
speech recognition processing is performed on the sound information to recognize the utterance content of the voice uttered by a human, and the plurality of emotions of the user are identified based on the recognition character string indicating the recognition result of the speech recognition processing. a character evaluator for generating character emotion information including character evaluation values indicative of strength for each;
The first communication device is
transmitting the text emotion information and the voice emotion information to the terminal device;
The terminal device
a sound collecting device that collects sound including the user's voice;
a second communication device that transmits the sound information output by the sound collecting device to the server device and receives the text emotion information and the voice emotion information from the server device;
a correcting unit that generates corrected emotional information obtained by correcting the voice emotional information using correction information based on the features of the voice of the user;
an estimation unit for estimating one or more emotions of the user based on the corrected emotion information and the character emotion information;
emotion estimation system.
前記音声評価部は、前記学習モデルに対して、前記複数の感情のうち一の感情を前記ユーザが明示的に発露させた音声を示す音声情報に基づく複数の特徴量を入力し、前記ユーザの明示的な音声感情情報を前記学習モデルから取得し、
前記端末装置は、
前記ユーザが抱く感情が前記一の感情であると前記推定部が推定する可能性を高くする目的で、前記明示的な音声感情情報に基づいて前記補正情報を調整する調整部、
を備える請求項7に記載の感情推定システム。
The speech evaluation unit inputs, to the learning model, a plurality of feature amounts based on speech information indicating a speech in which the user explicitly expresses one of the plurality of emotions, and obtaining explicit speech affective information from the learning model;
The terminal device
an adjustment unit that adjusts the correction information based on the explicit voice emotion information for the purpose of increasing the possibility that the estimation unit estimates that the emotion held by the user is the one emotion;
The emotion estimation system of claim 7, comprising:
前記端末装置は、第1端末装置であって、
前記ユーザは、第1ユーザであって、
前記集音装置は、第1集音装置であって、
前記サーバ装置は、前記第1端末装置とは異なる第2端末装置と通信可能であって、
前記第2通信装置は、
前記第1ユーザの前記補正感情情報を前記サーバ装置に送信し、
前記サーバ装置は、
前記第1ユーザの前記補正感情情報に含まれる複数の音声評価値と前記文字感情情報に含まれる複数の文字評価値との相違の程度を示す値が所定値以下である場合、前記認識文字列を特定文字列として特定する特定部を備え、
前記第2端末装置を所持する第2ユーザが、明示的な感情を発露させた音声を発話していなく、且つ、前記特定文字列を発話した場合、
前記音声評価部は、前記学習モデルに対して、前記第2ユーザが前記特定文字列を発話した音声に応じた複数の特徴量を入力することによって、前記第2ユーザの音声感情情報を前記学習モデルから取得し、
前記文字評価部は、前記第2ユーザが前記特定文字列を発話した音声に基づく前記第2ユーザの文字感情情報を生成し、
前記第1通信装置は、
前記特定文字列と前記第2ユーザの音声感情情報と前記第2ユーザの文字感情情報とを、前記第2端末装置に送信し、
前記第2端末装置は、
前記第2ユーザの音声を含む音を集音する第2集音装置と、
前記第2集音装置が出力する音情報を前記サーバ装置に送信し、前記第2ユーザの文字感情情報と前記第2ユーザの音声感情情報とを前記サーバ装置から受信する第3通信装置と、
前記ユーザの音声の特徴に基づく補正情報を用いて前記第2ユーザの音声感情情報を補正した前記第2ユーザの補正感情情報を生成する補正部と、
前記第2ユーザの補正感情情報に含まれる複数の音声評価値を、前記複数の感情の各々について、前記第2ユーザの文字感情情報に含まれる複数の文字評価値に近づける目的で、前記第2ユーザ用の前記補正情報を調整する調整部とを備える、
請求項8に記載の感情推定システム。
The terminal device is a first terminal device,
The user is a first user,
The sound collector is a first sound collector,
The server device is capable of communicating with a second terminal device different from the first terminal device,
The second communication device is
transmitting the corrected emotion information of the first user to the server device;
The server device
when a value indicating the degree of difference between the plurality of voice evaluation values included in the corrected emotion information of the first user and the plurality of character evaluation values included in the text emotion information is equal to or less than a predetermined value, the recognized character string as a specific character string,
When the second user who possesses the second terminal device does not utter a voice that expresses an explicit emotion and utters the specific character string,
The speech evaluation unit learns the speech emotional information of the second user by inputting a plurality of feature quantities corresponding to speech in which the second user utters the specific character string to the learning model. obtained from the model,
The character evaluation unit generates character emotion information of the second user based on the voice of the specific character string uttered by the second user,
The first communication device is
transmitting the specific character string, the second user's voice emotion information, and the second user's text emotion information to the second terminal device;
The second terminal device
a second sound collecting device that collects sound including the voice of the second user;
a third communication device that transmits sound information output by the second sound collecting device to the server device, and receives text emotional information of the second user and voice emotional information of the second user from the server device;
a correction unit that generates corrected emotional information of the second user by correcting the voice emotional information of the second user using correction information based on the characteristics of the voice of the user;
For the purpose of bringing the plurality of voice evaluation values included in the corrected emotion information of the second user closer to the plurality of text evaluation values included in the text emotion information of the second user for each of the plurality of emotions, the second an adjustment unit that adjusts the correction information for a user,
The emotion estimation system according to claim 8.
JP2019106848A 2019-06-07 2019-06-07 Emotion estimation device and emotion estimation system Active JP7279287B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019106848A JP7279287B2 (en) 2019-06-07 2019-06-07 Emotion estimation device and emotion estimation system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019106848A JP7279287B2 (en) 2019-06-07 2019-06-07 Emotion estimation device and emotion estimation system

Publications (2)

Publication Number Publication Date
JP2020201334A JP2020201334A (en) 2020-12-17
JP7279287B2 true JP7279287B2 (en) 2023-05-23

Family

ID=73744237

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019106848A Active JP7279287B2 (en) 2019-06-07 2019-06-07 Emotion estimation device and emotion estimation system

Country Status (1)

Country Link
JP (1) JP7279287B2 (en)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008076904A (en) 2006-09-22 2008-04-03 Univ Of Tokyo Feeling discrimination method, feeling discrimination device, and atmosphere information communication terminal
JP2010054568A (en) 2008-08-26 2010-03-11 Oki Electric Ind Co Ltd Emotional identification device, method and program

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008076904A (en) 2006-09-22 2008-04-03 Univ Of Tokyo Feeling discrimination method, feeling discrimination device, and atmosphere information communication terminal
JP2010054568A (en) 2008-08-26 2010-03-11 Oki Electric Ind Co Ltd Emotional identification device, method and program

Also Published As

Publication number Publication date
JP2020201334A (en) 2020-12-17

Similar Documents

Publication Publication Date Title
CN106503646B (en) Multi-mode emotion recognition system and method
US11133025B2 (en) Method and system for speech emotion recognition
Chandrashekar et al. Spectro-temporal representation of speech for intelligibility assessment of dysarthria
WO2020253128A1 (en) Voice recognition-based communication service method, apparatus, computer device, and storage medium
KR101160193B1 (en) Affect and Voice Compounding Apparatus and Method therefor
Jassim et al. Speech emotion classification using combined neurogram and INTERSPEECH 2010 paralinguistic challenge features
CN107316635B (en) Voice recognition method and device, storage medium and electronic equipment
CN112397056B (en) Voice evaluation method and computer storage medium
CN110136715A (en) Audio recognition method and device
JP6782329B1 (en) Emotion estimation device, emotion estimation system, and emotion estimation method
CN112466287B (en) Voice segmentation method, device and computer readable storage medium
JP7279287B2 (en) Emotion estimation device and emotion estimation system
CN110795996B (en) Method, device, equipment and storage medium for classifying heart sound signals
JP7360814B2 (en) Audio processing device and audio processing program
KR20160142949A (en) Emotion analysis apparatus for the contact center and method thereof
CN112910761A (en) Instant messaging method, device, equipment, storage medium and program product
KR20190133325A (en) Speech recognition method and apparatus
KR102193656B1 (en) Recording service providing system and method supporting analysis of consultation contents
US20210398544A1 (en) Electronic device and control method thereof
CN114049875A (en) TTS (text to speech) broadcasting method, device, equipment and storage medium
KR20140126485A (en) Method of Emotion Reactive Type Mobile Private Secretary Service
KR20220034396A (en) Device, method and computer program for generating face video
JP7379788B2 (en) Emotion estimation device and emotion estimation system
CN114420086B (en) Speech synthesis method and device
CN113990288B (en) Method for automatically generating and deploying voice synthesis model by voice customer service

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220209

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230117

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230221

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230411

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230417

R150 Certificate of patent or registration of utility model

Ref document number: 7279287

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150