JP2021012285A - Emotion estimation device, and emotion estimation system - Google Patents

Emotion estimation device, and emotion estimation system Download PDF

Info

Publication number
JP2021012285A
JP2021012285A JP2019126106A JP2019126106A JP2021012285A JP 2021012285 A JP2021012285 A JP 2021012285A JP 2019126106 A JP2019126106 A JP 2019126106A JP 2019126106 A JP2019126106 A JP 2019126106A JP 2021012285 A JP2021012285 A JP 2021012285A
Authority
JP
Japan
Prior art keywords
evaluation value
voice
user
emotion
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019126106A
Other languages
Japanese (ja)
Other versions
JP7379788B2 (en
Inventor
秀行 窪田
Hideyuki Kubota
秀行 窪田
博子 進藤
Hiroko Shindo
博子 進藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Priority to JP2019126106A priority Critical patent/JP7379788B2/en
Publication of JP2021012285A publication Critical patent/JP2021012285A/en
Application granted granted Critical
Publication of JP7379788B2 publication Critical patent/JP7379788B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • User Interface Of Digital Computer (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

To precisely estimate emotion born by a user, even in a state that user voice has little expression of the emotion.SOLUTION: An emotion estimation device comprises: a generation unit which generates a feature amount for user voice, based on voice information on a user; a first evaluation unit which generates a first voice evaluation value indicating the intensity of first emotion born by the user, and a second voice evaluation value indicating the intensity of second emotion born by the user, based on the feature amount; a recognition unit which generates a recognition character string indicating an utterance content of the user, based on the voice information; a second evaluation unit which generates a first character evaluation value indicating the intensity of the first emotion born by the user, and a second character evaluation value indicating the intensity of the second emotion born by the user, based on the recognition character string; a correction unit which corrects the first voice evaluation value, the second voice evaluation value, the first character evaluation value, and the second character evaluation value, based on situation information indicating the situation of the user; and an estimation unit which estimates one or more pieces of emotion born by the user, based on the correction result of the correction unit.SELECTED DRAWING: Figure 6

Description

本発明は、感情推定装置、及び、感情推定システムに関する。 The present invention relates to an emotion estimation device and an emotion estimation system.

近年、喜び、怒り、悲しみ、及び、平常等のユーザが抱く感情を、ユーザの状況を考慮して推定する技術が知られている。例えば、特許文献1には、ユーザの音声情報の特徴量と感情との関係を学習済みの学習モデルに、ユーザの状況に応じて補正された特徴量を入力して、学習モデルからユーザが抱く感情を出力させる技術が開示されている。 In recent years, there has been known a technique for estimating joy, anger, sadness, and emotions held by a normal user in consideration of the user's situation. For example, in Patent Document 1, a feature amount corrected according to the user's situation is input to a learning model in which the relationship between the feature amount of the user's voice information and emotions has been learned, and the user holds the feature amount from the learning model. A technique for outputting emotions is disclosed.

特開2018−072876号公報Japanese Unexamined Patent Publication No. 2018-072876

しかしながら、ユーザの音声について感情の発露が乏しい状況では、感情を音声に発露しにくい状況なのか、又は、そもそもユーザが感情を込めて発露していない状況なのかが判断することが困難であるため、ユーザが抱く感情を精度良く判断することが困難である。 However, in a situation where emotions are poorly expressed in the user's voice, it is difficult to determine whether it is difficult to express emotions in the voice or whether the user does not express emotions in the first place. , It is difficult to accurately judge the emotions that the user has.

本発明の好適な態様にかかる感情推定装置は、ユーザの音声情報に基づいて、前記ユーザの音声について特徴量を生成する生成部と、前記特徴量に基づいて、前記ユーザが第1感情を抱く強度を示す第1音声評価値と、前記ユーザが第2感情を抱く強度を示す第2音声評価値とを生成する第1評価部と、前記音声情報に基づいて、前記ユーザの発話内容を示す認識文字列を生成する認識部と、前記認識文字列に基づいて、前記ユーザが前記第1感情を抱く強度を示す第1文字評価値と、前記ユーザが前記第2感情を抱く強度を示す第2文字評価値とを生成する第2評価部と、前記ユーザの状況を示す状況情報に基づいて、前記第1音声評価値、前記第2音声評価値、前記第1文字評価値、及び、前記第2文字評価値を補正する補正部と、前記補正部の補正結果に基づいて、前記ユーザが抱く1つ以上の感情を推定する推定部と、を備える。 The emotion estimation device according to a preferred embodiment of the present invention includes a generation unit that generates a feature amount for the user's voice based on the user's voice information, and the user has a first emotion based on the feature amount. Based on the voice information, the first evaluation unit that generates the first voice evaluation value indicating the intensity and the second voice evaluation value indicating the intensity that the user has the second emotion, and the speech content of the user are shown. A recognition unit that generates a recognition character string, a first character evaluation value indicating the strength with which the user has the first emotion based on the recognition character string, and a first character evaluation value indicating the strength with which the user has the second emotion. The first voice evaluation value, the second voice evaluation value, the first character evaluation value, and the above, based on the second evaluation unit that generates the two-character evaluation value and the situation information indicating the situation of the user. It includes a correction unit that corrects the second character evaluation value, and an estimation unit that estimates one or more emotions held by the user based on the correction result of the correction unit.

本発明の好適な態様にかかる感情推定システムは、上述の感情推定装置と、前記感情推定装置と通信可能な端末装置とを備える感情推定システムであって、前記端末装置は、前記ユーザの音声を集音する集音装置と、前記ユーザの状況を示す状況情報を生成する状況情報生成部と、前記ユーザの音声を示す前記音声情報及び前記状況情報を前記感情推定装置に送信し、前記感情推定装置から、前記認識文字列、及び、前記推定部が推定した前記ユーザが抱く1つ以上の感情を示す感情情報を受信する通信装置と、前記感情情報が示す感情に応じた処理を前記認識文字列に対して実行することにより得られる情報を出力する出力部と、を備える。 The emotion estimation system according to a preferred embodiment of the present invention is an emotion estimation system including the above-mentioned emotion estimation device and a terminal device capable of communicating with the emotion estimation device, and the terminal device uses the voice of the user. The sound collecting device for collecting sound, the situation information generation unit for generating the situation information indicating the user's situation, the voice information indicating the user's voice, and the situation information are transmitted to the emotion estimation device to estimate the emotion. The recognition character is a communication device that receives the recognition character string and emotion information indicating one or more emotions held by the user estimated by the estimation unit, and processing according to the emotion indicated by the emotion information. It includes an output unit that outputs information obtained by executing the column.

本発明によれば、ユーザの音声について感情の発露が乏しい状況であっても、ユーザが抱く感情を精度良く推定できる。 According to the present invention, it is possible to accurately estimate the emotions held by the user even in a situation where the emotions of the user's voice are poorly expressed.

ユーザ装置1の概要を示す図。The figure which shows the outline of the user apparatus 1. 第1実施形態にかかるユーザ装置1の構成を示すブロック図。The block diagram which shows the structure of the user apparatus 1 which concerns on 1st Embodiment. 解析用辞書情報31の記憶内容の一例を示す図。The figure which shows an example of the storage contents of the dictionary information 31 for analysis. 感情分類情報33の記憶内容の一例を示す図。The figure which shows an example of the memory content of the emotion classification information 33. スケジュール情報35の記憶内容の一例を示す図。The figure which shows an example of the storage contents of the schedule information 35. ユーザ装置1の機能の概要を示す図。The figure which shows the outline of the function of the user apparatus 1. 状況関係情報37の記憶内容の一例を示す図。The figure which shows an example of the memory content of the situation relation information 37. ユーザ装置1の動作を示すフローチャート。The flowchart which shows the operation of the user apparatus 1. 第2実施形態にかかるユーザ装置1aを示すブロック図。The block diagram which shows the user apparatus 1a which concerns on 2nd Embodiment. 第2実施形態におけるユーザ装置1aの機能の概要を示す図。The figure which shows the outline of the function of the user apparatus 1a in 2nd Embodiment. 文字列関係情報38の記憶内容の一例を示す図。The figure which shows an example of the storage contents of the character string relation information 38. ユーザ装置1aの動作を示すフローチャート。The flowchart which shows the operation of the user apparatus 1a. 感情推定システムSYSの全体構成を示す図。The figure which shows the whole structure of the emotion estimation system SYS. ユーザ装置1bの構成を示すブロック図。The block diagram which shows the structure of the user apparatus 1b. サーバ装置10の構成を示すブロック図。The block diagram which shows the structure of the server apparatus 10.

1.第1実施形態
図1は、ユーザ装置1の概要を示す図である。ユーザ装置1は、スマートフォンを想定する。ユーザ装置1が、「感情推定装置」の一例である。ただし、ユーザ装置1としては、任意の情報処理装置を採用することができ、例えば、パーソナルコンピュータ等の端末型の情報機器であってもよいし、ノートパソコン、ウェアラブル端末及びタブレット端末等の可搬型の情報端末であってもよい。
1. 1. 1st Embodiment FIG. 1 is a diagram showing an outline of a user device 1. The user device 1 is assumed to be a smartphone. The user device 1 is an example of an “emotion estimation device”. However, as the user device 1, any information processing device can be adopted, and for example, it may be a terminal-type information device such as a personal computer, or a portable type such as a notebook computer, a wearable terminal, or a tablet terminal. It may be an information terminal of.

ユーザ装置1は、ユーザ装置1を所持するユーザUの音声を含む音を示す音声情報に対して音声認識処理を実行して得られた認識文字列を、他者が利用する装置に送信する機能、又は、ユーザUの付近に位置する他者に聞かせるために、認識文字列を示す音を放音する機能を有する。さらに、ユーザ装置1は、ユーザUの音声に基づいてユーザUが抱く感情を推定し、認識文字列に対して、推定した感情に応じた図形を認識文字列に付加する、又は、推定した感情に応じた抑揚で認識文字列を示す音を放音することにより、コミュニケーションに必要な感情表現を付加できる。
図1の例では、ユーザUが「こんにちは」と発声し、ユーザ装置1が、推定した感情に応じた図形PIを、認識文字列を表す画像に付加している。
The user device 1 has a function of transmitting a recognition character string obtained by executing a voice recognition process on voice information indicating a sound including a sound of a user U who owns the user device 1 to a device used by another person. Or, it has a function of emitting a sound indicating a recognition character string in order to let another person located near the user U hear it. Further, the user device 1 estimates the emotion held by the user U based on the voice of the user U, adds a figure corresponding to the estimated emotion to the recognition character string, or adds the estimated emotion to the recognition character string. Emotional expressions necessary for communication can be added by emitting a sound indicating a recognition character string with intonation according to.
In the example of FIG. 1, a user U is say "Hello", the user device 1, a graphic PI according to the estimated emotions, appended to the image representing the recognized character string.

図2は、第1実施形態にかかるユーザ装置1の構成を示すブロック図である。ユーザ装置1は、処理装置2、記憶装置3、入力装置4、出力装置5、通信装置6、慣性センサ7、及び、GPS(Global Positioning System)装置8を具備するコンピュータシステムにより実現される。ユーザ装置1の各要素は、情報を通信するための単体又は複数のバス9で相互に接続される。なお、本明細書における「装置」という用語は、回路、デバイス又はユニット等の他の用語に読替えてもよい。また、ユーザ装置1の各要素は、単数又は複数の機器で構成され、ユーザ装置1の一部の要素は省略されてもよい。 FIG. 2 is a block diagram showing a configuration of the user device 1 according to the first embodiment. The user device 1 is realized by a computer system including a processing device 2, a storage device 3, an input device 4, an output device 5, a communication device 6, an inertial sensor 7, and a GPS (Global Positioning System) device 8. Each element of the user device 1 is connected to each other by a single unit or a plurality of buses 9 for communicating information. The term "device" in the present specification may be read as another term such as a circuit, a device, or a unit. Further, each element of the user device 1 may be composed of a single device or a plurality of devices, and some elements of the user device 1 may be omitted.

処理装置2は、ユーザ装置1の全体を制御するプロセッサであり、例えば、単数又は複数のチップで構成される。処理装置2は、例えば、周辺装置とのインタフェース、演算装置及びレジスタ等を含む中央処理装置(CPU:Central Processing Unit)で構成される。なお、処理装置2の機能の一部又は全部を、DSP(Digital Signal Processor)、ASIC(Application Specific Integrated Circuit)、PLD(Programmable Logic Device)、FPGA(Field Programmable Gate Array)等のハードウェアによって実現してもよい。処理装置2は、各種の処理を並列的又は逐次的に実行する。 The processing device 2 is a processor that controls the entire user device 1, and is composed of, for example, a single chip or a plurality of chips. The processing device 2 is composed of, for example, a central processing unit (CPU) including an interface with peripheral devices, an arithmetic unit, registers, and the like. Part or all of the functions of the processing device 2 are realized by hardware such as DSP (Digital Signal Processor), ASIC (Application Specific Integrated Circuit), PLD (Programmable Logic Device), FPGA (Field Programmable Gate Array), etc. You may. The processing device 2 executes various processes in parallel or sequentially.

記憶装置3は、処理装置2が読取可能な記録媒体であり、処理装置2が実行する制御プログラムPRを含む複数のプログラム、解析用辞書情報31、感情分類情報33、スケジュール情報35、状況関係情報37、及び、学習モデルLMを記憶する。記憶装置3は、例えば、ROM(Read Only Memory)、EPROM(Erasable Programmable ROM)、EEPROM(Electrically Erasable Programmable ROM)、RAM(Random Access Memory)等の記憶回路の1種類以上で構成される。 The storage device 3 is a recording medium that can be read by the processing device 2, and is a plurality of programs including a control program PR executed by the processing device 2, analysis dictionary information 31, emotion classification information 33, schedule information 35, and situation-related information. 37 and the learning model LM are stored. The storage device 3 is composed of, for example, one or more types of storage circuits such as ROM (Read Only Memory), EPROM (Erasable Programmable ROM), EEPROM (Electrically Erasable Programmable ROM), and RAM (Random Access Memory).

図3は、解析用辞書情報31の記憶内容の一例を示す図である。解析用辞書情報31は、形態素ごとに、品詞、品詞細分類、及び、原形情報を互いに対応付けた情報である。形態素は、意味を有する表現要素の最小単位の文字列である。品詞は、文法的性質によって分類された単語の種別であり、名詞、動詞、及び形容詞等である。品詞細分類は、品詞をさらに細分類した項目である。原形情報は、該当の形態素が活用する単語である場合、単語の原形を示す文字列であり、該当の形態素が活用しない単語である場合、該当の形態素と同一の文字列である。 FIG. 3 is a diagram showing an example of the stored contents of the analysis dictionary information 31. The analysis dictionary information 31 is information in which part of speech, part of speech subclassification, and original form information are associated with each other for each morpheme. A morpheme is a character string that is the smallest unit of a meaningful expression element. Part of speech is a type of word classified according to its grammatical nature, such as nouns, verbs, and adjectives. Part of speech subclassification is an item in which part of speech is further subdivided. The original form information is a character string indicating the original form of the word when the word is utilized by the corresponding morpheme, and is the same character string as the corresponding morpheme when the word is not utilized by the relevant morpheme.

図4は、感情分類情報33の記憶内容の一例を示す図である。感情分類情報33は、文字列を、喜び、怒り、悲しみ、及び、平常の何れかに分類した情報である。図4の例では、喜びに分類された文字列群331は、「嬉しい」、「合格」、「勝つ」、及び、「勝っ」等を含む。同様に、怒りに分類された文字列群332は、「イライラ」、及び、「むかっ腹」等を含む。同様に、悲しみに分類された文字列群333は、「悲しい」、及び、「敗ける」等を含む。同様に、平常に分類された文字列群334は、「安心」等を含む。 FIG. 4 is a diagram showing an example of the stored contents of the emotion classification information 33. The emotion classification information 33 is information in which the character string is classified into any of joy, anger, sadness, and normal. In the example of FIG. 4, the character string group 331 classified as joy includes "happy", "pass", "win", "win", and the like. Similarly, the character string group 332 classified as anger includes "irritated", "mucked up" and the like. Similarly, the character string group 333 classified as sad includes "sad", "losing", and the like. Similarly, the character string group 334 normally classified includes "safety" and the like.

図5は、スケジュール情報35の記憶内容の一例を示す図である。スケジュール情報35は、ユーザUのスケジュールを示す。図5に示すスケジュール情報35は、レコード35_1〜35_3を有する。レコード35_1は、2019年4月10日の10時から11時までのユーザUの予定が、クライアントと打合せであることを示す。レコード35_2は、2019年4月12日の15時から16時までのユーザUの予定が、部内会議への出席であることを示す。レコード35_3は、2019年4月15日の18時から20時までのユーザUの予定が、同窓会への出席であることを示す。 FIG. 5 is a diagram showing an example of the stored contents of the schedule information 35. Schedule information 35 indicates the schedule of user U. The schedule information 35 shown in FIG. 5 has records 35_1 to 35_3. Record 35_1 indicates that User U's schedule from 10:00 to 11:00 on April 10, 2019 is a meeting with the client. Record 35_2 indicates that User U's schedule from 15:00 to 16:00 on April 12, 2019 is to attend an internal meeting. Record 35_3 indicates that User U's schedule from 18:00 to 20:00 on April 15, 2019 is to attend the alumni association.

説明を図2に戻す。状況関係情報37は、感情を推定する際に用いられる。学習モデルLMは、人間の音声に応じた特徴量と、複数の感情の各々に対する強度との関係を学習済みである。また、学習モデルLMは、複数の人間について、人間の音声に応じた特徴量と、複数の感情の各々に対する強度との関係を学習済みであることが好ましい。 The explanation is returned to FIG. The situation-related information 37 is used when estimating emotions. In the learning model LM, the relationship between the feature amount corresponding to the human voice and the intensity for each of the plurality of emotions has been learned. Further, it is preferable that the learning model LM has learned the relationship between the feature amount corresponding to the human voice and the intensity for each of the plurality of emotions for a plurality of humans.

入力装置4は、ユーザ装置1が使用する情報を処理装置2に入力するための機器である。入力装置4は、集音装置41と、タッチパネル43とを含む。出力装置5は、情報を出力するための機器である。出力装置5は、表示装置51と、放音装置53とを含む。 The input device 4 is a device for inputting information used by the user device 1 into the processing device 2. The input device 4 includes a sound collecting device 41 and a touch panel 43. The output device 5 is a device for outputting information. The output device 5 includes a display device 51 and a sound emitting device 53.

集音装置41は、例えばマイクロフォン及びAD変換器で構成され、処理装置2による制御のもとで、ユーザUの音声を含む音を集音する。マイクロフォンは、集音した音声を電気信号に変換する。AD変換器は、マイクロフォンが変換した電気信号をAD変換して、図6に示す音声情報VIに変換する。音声情報VIが示す音には、発話者の音声に加えて、発話者の周囲から発せられた雑音が含まれ得る。タッチパネル43は、表示装置51の表示面に対する接触を検出する。なお、ユーザUが操作可能な複数の操作子をタッチパネル43が含んでもよい。 The sound collecting device 41 is composed of, for example, a microphone and an AD converter, and collects sounds including the voice of the user U under the control of the processing device 2. The microphone converts the collected voice into an electric signal. The AD converter AD-converts the electric signal converted by the microphone and converts it into the voice information VI shown in FIG. The sound indicated by the voice information VI may include noise emitted from the surroundings of the speaker in addition to the voice of the speaker. The touch panel 43 detects contact with the display surface of the display device 51. The touch panel 43 may include a plurality of controls that can be operated by the user U.

表示装置51は、処理装置2による制御のもとで各種の画像を表示する。例えば液晶表示パネル、有機EL(electro-luminescence)表示パネル等の各種の表示パネルが、表示装置51として好適に利用される。放音装置53は、例えばスピーカで構成され、処理装置2による制御のもとで、音を放音する。 The display device 51 displays various images under the control of the processing device 2. For example, various display panels such as a liquid crystal display panel and an organic EL (electro-luminescence) display panel are preferably used as the display device 51. The sound emitting device 53 is composed of, for example, a speaker, and emits sound under the control of the processing device 2.

通信装置6は、ネットワークを介して他の装置と通信を行うためのハードウェア(送受信デバイス)である。通信装置6は、例えば、ネットワークデバイス、ネットワークコントローラ、ネットワークカード、通信モジュール等とも呼ばれる。 The communication device 6 is hardware (transmission / reception device) for communicating with another device via a network. The communication device 6 is also called, for example, a network device, a network controller, a network card, a communication module, or the like.

慣性センサ7は、ユーザ装置1にかかる慣性力を測定し、測定結果から得られる、図6に示す慣性情報IFIを出力する。例えば、慣性センサ7は、加速度センサ及び角速度センサの一方又は両方である。 The inertial sensor 7 measures the inertial force applied to the user device 1 and outputs the inertial information IFI shown in FIG. 6 obtained from the measurement result. For example, the inertial sensor 7 is one or both of an acceleration sensor and an angular velocity sensor.

GPS装置8は、複数の衛星からの電波を受信し、図6に示す位置情報PoIを生成する。位置情報PoIは、位置を特定できるのであれば、どのような形式であってもよい。位置情報PoIは、例えば、ユーザ装置1の緯度と経度とを示す。また、本実施形態では、位置情報PoIはGPS装置8から得られることを例示するが、ユーザ装置1は、どのような方法で位置情報PoIを取得してもよい。例えば、ユーザ装置1は、ユーザ装置1の通信先となる基地局に割り当てられたセルID(IDentifier)を位置情報PoIとして取得する。セルIDは基地局を一意に識別する識別情報である。さらに、ユーザ装置1が無線LAN(Local Area Network)のアクセスポイントと通信する場合には、アクセスポイントに割り当てられたネットワーク上の識別アドレス(MAC(Media Access Control)アドレス)と実際の住所(位置)とを対応付けたデータベースを参照して位置情報PoIを取得してもよい。 The GPS device 8 receives radio waves from a plurality of satellites and generates the position information PoI shown in FIG. The position information PoI may be in any format as long as the position can be specified. The position information PoI indicates, for example, the latitude and longitude of the user device 1. Further, in the present embodiment, it is illustrated that the position information PoI is obtained from the GPS device 8, but the user device 1 may acquire the position information PoI by any method. For example, the user device 1 acquires a cell ID (IDentifier) assigned to a base station that is a communication destination of the user device 1 as position information PoI. The cell ID is identification information that uniquely identifies the base station. Further, when the user device 1 communicates with the access point of the wireless LAN (Local Area Network), the identification address (MAC (Media Access Control) address) on the network assigned to the access point and the actual address (location). The location information PoI may be acquired by referring to the database associated with.

1.1.第1実施形態の機能
処理装置2は、記憶装置3から制御プログラムPRを読み取り実行することによって、取得部21、状況情報生成部23、感情情報生成部25、及び、出力部27として機能する。
図6を用いて、処理装置2によって実現される機能について説明する。
1.1. The function processing device 2 of the first embodiment functions as an acquisition unit 21, a situation information generation unit 23, an emotion information generation unit 25, and an output unit 27 by reading and executing the control program PR from the storage device 3.
The function realized by the processing apparatus 2 will be described with reference to FIG.

図6は、ユーザ装置1の機能の概要を示す図である。取得部21は、集音装置41が出力する音声情報VIを取得する。 FIG. 6 is a diagram showing an outline of the functions of the user device 1. The acquisition unit 21 acquires the voice information VI output by the sound collecting device 41.

状況情報生成部23は、GPS装置8から得られる位置情報PoI、慣性センサ7から得られる慣性情報IFI、及び、スケジュール情報35に基づいて、ユーザUの状況を示す状況情報SiIを生成する。より詳細には、状況情報生成部23は、位置情報PoIに基づいて、ユーザUの場所を特定する。場所には、例えば、ユーザUの自宅、ユーザUの会社、及び、ユーザUの自宅から会社までの通勤経路内等がある。また、状況情報生成部23は、慣性情報IFIに基づいて、ユーザUが停止しているか、ユーザUが歩行しているか、又は、ユーザUが車両に乗り移動中か、を判定する。そして、状況情報生成部23は、特定した場所が自宅である場合、状況情報SiIとして、ユーザUが自宅にいる状況を示す識別情報を生成する。また、特定した場所が通勤経路内であり、且つ、ユーザUが車両に乗り移動中である場合、状況情報生成部23は、状況情報SiIとして、ユーザUが電車を利用している状況を示す識別情報を生成する。電車を利用している状況は、「公共の交通機関を利用している状況」の一例である。また、スケジュール情報35が、現在の時間におけるユーザUの予定について、スケジュール情報35が打合せ又は会議を示す場合、状況情報生成部23は、状況情報SiIとして、ユーザUが会議中である状況を示す識別情報を生成する。 The status information generation unit 23 generates status information SiI indicating the status of the user U based on the position information PoI obtained from the GPS device 8, the inertial information IFI obtained from the inertial sensor 7, and the schedule information 35. More specifically, the situation information generation unit 23 identifies the location of the user U based on the location information PoI. The location includes, for example, the home of the user U, the company of the user U, and the commuting route from the home of the user U to the company. Further, the situation information generation unit 23 determines whether the user U is stopped, the user U is walking, or the user U is riding in the vehicle and moving based on the inertial information IFI. Then, when the specified place is home, the situation information generation unit 23 generates identification information indicating the situation where the user U is at home as the situation information SiI. Further, when the specified place is in the commuting route and the user U is moving in the vehicle, the situation information generation unit 23 indicates the situation where the user U is using the train as the situation information SiI. Generate identification information. The situation of using a train is an example of "a situation of using public transportation". Further, when the schedule information 35 indicates a meeting or a meeting regarding the schedule of the user U at the current time, the status information generation unit 23 indicates a situation in which the user U is in a meeting as the status information SiI. Generate identification information.

感情情報生成部25は、ユーザUが抱く複数の感情の中から、ユーザUが抱く1つ以上の感情を推定する。第1実施形態において、ユーザUが抱く複数の感情は、喜び、怒り、悲しみ、及び、平常の4つであるとして説明する。以下、喜び、怒り、悲しみ、及び、平常は複数の感情の一例である。 The emotion information generation unit 25 estimates one or more emotions held by the user U from a plurality of emotions held by the user U. In the first embodiment, the plurality of emotions held by the user U will be described as four emotions: joy, anger, sadness, and normality. Below, joy, anger, sadness, and normality are examples of multiple emotions.

感情情報生成部25は、特徴量生成部251、第1評価部252、認識部254、第2評価部255、補正部257、及び、推定部258を含む。特徴量生成部251は、「生成部」の一例である。 The emotion information generation unit 25 includes a feature amount generation unit 251, a first evaluation unit 252, a recognition unit 254, a second evaluation unit 255, a correction unit 257, and an estimation unit 258. The feature amount generation unit 251 is an example of the “generation unit”.

特徴量生成部251は、音声情報VIから、ユーザUの音声について特徴量を生成する。特徴量は、例えば、MFCC(Mel-Frequency Cepstrum Coefficients)12次元、ラウドネス、基本周波数(F0)、音声確率、ゼロ交差率、HNR(Harmonics-to-Noise-Ratio)、及びこれらの一次微分、MFCC及びラウドネスの二次微分の計47個の一部又は全部である。ラウドネスは、音の大きさであり、人間の聴覚が感じる音の強さを示す。音声確率は、音声情報VIが示す音に音声が含まれる確率を示す。ゼロ交差率は、音圧がゼロとなった回数である。また、特徴量生成部251は、音声情報VIに対して補正処理を実行し、補正処理の実行により得られた補正後音声情報から、特徴量を抽出してもよい。補正処理は、例えば、音声情報VIから無音部分のデータを除去する処理、及び、音声情報VIが示す音に含まれるノイズを除去する処理の一方又は両方である。 The feature amount generation unit 251 generates a feature amount for the voice of the user U from the voice information VI. Features include, for example, MFCC (Mel-Frequency Cepstrum Coefficients) 12 dimensions, loudness, fundamental frequency (F0), loudness, zero crossover ratio, HNR (Harmonics-to-Noise-Ratio), and their first derivative, MFCC. And a total of 47 second-order differentials of loudness, part or all. Loudness is the loudness of a sound, which indicates the intensity of the sound felt by human hearing. The voice probability indicates the probability that the sound indicated by the voice information VI includes voice. The zero crossing rate is the number of times the sound pressure becomes zero. Further, the feature amount generation unit 251 may execute the correction process on the voice information VI and extract the feature amount from the corrected voice information obtained by executing the correction process. The correction process is, for example, one or both of a process of removing silent portion data from the voice information VI and a process of removing noise contained in the sound indicated by the voice information VI.

第1評価部252は、特徴量に基づいて、複数の感情の各々に対応する音声評価値EV1〜EV4を生成する。より詳細には、第1評価部252は、喜びに対応する音声評価値EV1、怒りに対応する音声評価値EV2、悲しみに対応する音声評価値EV3、及び、平常に対応する音声評価値EV4を生成する。音声評価値EVは、ユーザUが感情を抱く強度を示す。
以下の説明では、同種の要素を区別する場合には、喜びに対応する音声評価値EV1、怒りに対応する音声評価値EV2のように参照符号を使用する。一方、同種の要素を区別しない場合には、音声評価値EVのように、参照符号のうちの共通番号だけを使用する。
なお、喜び、怒り、悲しみ、及び、平常の各々が、「第1感情」の一例である。「第2感情」は、喜び、怒り、悲しみ、及び、平常のうち「第1感情」とは異なる感情のうち任意の1つの感情である。喜びに対応する音声評価値EV1、怒りに対応する音声評価値EV2、悲しみに対応する音声評価値EV3、平常に対応する音声評価値EV4が、「第1音声評価値」の一例である。第1感情とは異なる第2感情に対応する音声評価値が、「第2音声評価値」の一例である。
例えば、第1評価部252は、以下に示す2つの態様のいずれか一方によって、音声評価値EV1〜EV4を生成する。
The first evaluation unit 252 generates voice evaluation values EV1 to EV4 corresponding to each of the plurality of emotions based on the feature amount. More specifically, the first evaluation unit 252 sets the voice evaluation value EV1 corresponding to joy, the voice evaluation value EV2 corresponding to anger, the voice evaluation value EV3 corresponding to sadness, and the voice evaluation value EV4 corresponding to normal times. Generate. The voice evaluation value EV indicates the intensity with which the user U has emotions.
In the following description, when distinguishing the same kind of elements, reference codes are used such as the voice evaluation value EV1 corresponding to joy and the voice evaluation value EV2 corresponding to anger. On the other hand, when the same type of elements are not distinguished, only the common number among the reference codes is used as in the voice evaluation value EV.
In addition, joy, anger, sadness, and normality are each examples of "first emotion". The "second emotion" is any one of joy, anger, sadness, and normal emotions that are different from the "first emotion". The voice evaluation value EV1 corresponding to joy, the voice evaluation value EV2 corresponding to anger, the voice evaluation value EV3 corresponding to sadness, and the voice evaluation value EV4 corresponding to normal times are examples of the "first voice evaluation value". A voice evaluation value corresponding to a second emotion different from the first emotion is an example of a “second voice evaluation value”.
For example, the first evaluation unit 252 generates the voice evaluation values EV1 to EV4 by one of the two modes shown below.

第1の態様において、第1評価部252は、特徴量と所定値とを比較することにより、音声評価値EV1〜EV4を生成する。例えば、喜び又は怒りが音声に発露する場合、喜び又は怒りが音声に発露しない場合と比較して、基本周波数が高くなり、且つ、ラウドネスが大きくなる傾向がある。例えば、第1評価部252は、基本周波数が所定値より大きく、かつ、ラウドネスが所定値より大きい場合に、基本周波数が所定値より小さく、かつ、ラウドネスが所定値より小さい場合と比較して、音声評価値EV1及び音声評価値EV2を大きい値に設定する。 In the first aspect, the first evaluation unit 252 generates the voice evaluation values EV1 to EV4 by comparing the feature amount with the predetermined value. For example, when joy or anger is expressed in voice, the fundamental frequency tends to be higher and the loudness tends to be higher than when joy or anger is not expressed in voice. For example, in the first evaluation unit 252, when the fundamental frequency is larger than the predetermined value and the loudness is larger than the predetermined value, the fundamental frequency is smaller than the predetermined value and the loudness is smaller than the predetermined value. The voice evaluation value EV1 and the voice evaluation value EV2 are set to large values.

第2の態様において、第1評価部252は、音声評価値EV1〜EV4を生成するために、学習モデルLMに、特徴量生成部251が生成した特徴量を入力し、音声評価値EV1〜EV4を学習モデルLMから取得する。 In the second aspect, the first evaluation unit 252 inputs the feature amount generated by the feature amount generation unit 251 into the learning model LM in order to generate the voice evaluation values EV1 to EV4, and the voice evaluation values EV1 to EV4. Is obtained from the learning model LM.

認識部254は、音声情報VIに基づいて、ユーザUの発話内容を示す認識文字列RTを生成する。より詳細には、認識部254は、例えば、予め用意された音響モデル及び言語モデルを用いて、音声から文字列を認識する手法を含む音声認識処理を実行して、認識文字列RTを出力する。 The recognition unit 254 generates a recognition character string RT indicating the utterance content of the user U based on the voice information VI. More specifically, the recognition unit 254 executes a voice recognition process including a method of recognizing a character string from a voice using, for example, an acoustic model and a language model prepared in advance, and outputs a recognition character string RT. ..

第2評価部255は、認識文字列RTに基づいて、複数の感情の各々に対応する文字評価値ETを生成する。より詳細には、第2評価部255は、喜びに対応する文字評価値ET1、怒りに対応する文字評価値ET2、悲しみに対応する文字評価値ET3、及び、平常に対応する文字評価値ET4を生成する。文字評価値ETは、ユーザUが感情を抱く強度を示す。
なお、喜びに対応する文字評価値ET1、怒りに対応する文字評価値ET2、悲しみの文字評価値ET3、及び、平常に対応する文字評価値ET4が、「第1文字評価値」の一例である。第1感情とは異なる第2感情に対応する文字評価値が、「第2文字評価値」の一例である。
The second evaluation unit 255 generates a character evaluation value ET corresponding to each of the plurality of emotions based on the recognition character string RT. More specifically, the second evaluation unit 255 sets the character evaluation value ET1 corresponding to joy, the character evaluation value ET2 corresponding to anger, the character evaluation value ET3 corresponding to sadness, and the character evaluation value ET4 corresponding to normal times. Generate. The character evaluation value ET indicates the intensity with which the user U has emotions.
The character evaluation value ET1 corresponding to joy, the character evaluation value ET2 corresponding to anger, the character evaluation value ET3 corresponding to sadness, and the character evaluation value ET4 corresponding to normal times are examples of the "first character evaluation value". .. The character evaluation value corresponding to the second emotion different from the first emotion is an example of the “second character evaluation value”.

より詳細には、第2評価部255は、解析部2552と、算出部2554とを含む。解析部2552は、解析用辞書情報31を参照して、認識文字列RTに対して形態素解析処理を実行して、補正後認識文字列CRTを出力する。形態素解析処理は、認識文字列RTを形態素ごとに分解する処理である。形態素解析処理において、解析用辞書情報31の品詞及び品詞細分類が利用される。補正後認識文字列CRTは、フィラー等といった、ユーザUが抱く感情を推定するためには不要な文字列を除いた文字列である。フィラーは、「ええと」、「あの」、及び、「まあ」といった、発話の合間に挟み込む言葉である。 More specifically, the second evaluation unit 255 includes an analysis unit 2552 and a calculation unit 2554. The analysis unit 2552 refers to the analysis dictionary information 31 to execute morphological analysis processing on the recognition character string RT, and outputs the corrected recognition character string CRT. The morphological analysis process is a process of decomposing the recognition character string RT for each morpheme. In the morphological analysis process, the part of speech and the part of speech subclassification of the analysis dictionary information 31 are used. The corrected recognition character string CRT is a character string excluding a character string such as a filler, which is unnecessary for estimating the emotion held by the user U. Filler is a word that is inserted between utterances, such as "um", "that", and "well".

算出部2554は、感情分類情報33に含まれる文字列と、補正後認識文字列CRTとを比較することにより各感情の文字評価値ETを算出する。各感情の文字評価値ETの算出について、算出部2554は、補正後認識文字列CRTが、感情分類情報33に含まれる文字列を含む場合に、この補正後認識文字列CRTに含まれる文字列に対応する感情の文字評価値ETを増加させる。
例えば、補正後認識文字列CRTが「今日試合に勝った」であれば、算出部2554は、以下のような各感情の文字評価値ETを出力する。
The calculation unit 2554 calculates the character evaluation value ET of each emotion by comparing the character string included in the emotion classification information 33 with the corrected recognition character string CRT. Regarding the calculation of the character evaluation value ET of each emotion, the calculation unit 2554 calculates the character string included in the corrected recognition character string CRT when the corrected recognition character string CRT includes the character string included in the emotion classification information 33. Increases the character evaluation value ET of the emotion corresponding to.
For example, if the corrected recognition character string CRT is "winning the game today", the calculation unit 2554 outputs the character evaluation value ET of each emotion as follows.

喜びに対応する文字評価値ET1 1
怒りに対応する文字評価値ET2 0
悲しみに対応する文字評価値ET3 0
平常に対応する文字評価値ET4 0
Character evaluation value corresponding to joy ET1 1
Character evaluation value ET20 corresponding to anger
Character evaluation value ET30 corresponding to sadness
Character evaluation value ET40 corresponding to normal times

上述の例では、補正後認識文字列CRTに、感情分類情報33に含まれる「勝っ」が含まれているため、算出部2554は、「勝っ」に対応する喜びの文字評価値ET1を1増加させる。増加させる文字評価値ETの増加量は、1に限らなく、感情分類情報33に含まれる文字列ごとに異なってもよい。例えば、より喜びを強く示す文字列に対する文字評価値ETの増加量を2としてもよい。さらに、補正後認識文字列CRTに、感情分類情報33に含まれる文字列、及び、内容を強調する文字列が含まれる場合、算出部2554は、文字評価値ETの増加量を大きくしてもよい。例えば、補正後認識文字列CRTが「今日試合に勝ててとても嬉しい」であれば、補正後認識文字列CRTに感情分類情報33に含まれる「嬉しい」が含まれており、かつ、「とても」という内容を強調する文字列が含まれるため、算出部2554は、例えば、喜びの文字評価値ET1を2増加させる。補正後認識文字列CRTのうち、どの文字列が、内容を強調する文字列であるか否かは、形態素解析処理によって得られる形態素によって判定することができる。以下の例では、説明を容易にするため、増加させる文字評価値ETの増加量が1であるとする。
さらに、補正後認識文字列CRTに、感情分類情報33に含まれる文字列、及び、内容を否定する文字列が含まれる場合、算出部2554は、この補正後認識文字列CRTに含まれる文字列に対応する文字評価値ETを増加させる処理とは異なる処理を実行してもよい。例えば、補正後認識文字列CRTが「今日試合に勝つことができなかった」であれば、補正後認識文字列CRTに感情分類情報33に含まれる「勝つ」が含まれるが、「なかっ」という内容を否定する文字列が含まれるため、算出部2554は、例えば、悲しみの文字評価値ET3を1増加させる。補正後認識文字列CRTのうち、どの文字列が、内容を否定する文字列であるか否かは、形態素解析処理によって得られる形態素によって判定することができる。このように、形態素解析処理によって、補正後認識文字列CRTが肯定的な内容なのか否定的な内容かを推定することが可能である。以下の例では、説明を容易にするため、補正後認識文字列CRTに、感情分類情報33に含まれる文字列が含まれれば、この補正後認識文字列CRTに含まれる文字列に対応する文字評価値ETを増加させることとして説明を行う。
In the above example, since the corrected recognition character string CRT includes the "win" included in the emotion classification information 33, the calculation unit 2554 increases the joy character evaluation value ET1 corresponding to the "win" by 1. Let me. The amount of increase in the character evaluation value ET to be increased is not limited to 1, and may differ for each character string included in the emotion classification information 33. For example, the amount of increase in the character evaluation value ET for a character string that more strongly indicates joy may be set to 2. Further, when the corrected recognition character string CRT includes the character string included in the emotion classification information 33 and the character string that emphasizes the content, the calculation unit 2554 may increase the increase amount of the character evaluation value ET. Good. For example, if the corrected recognition character string CRT is "very happy to win the game today", the corrected recognition character string CRT contains "happy" included in the emotion classification information 33 and is "very". Since the character string emphasizing the content is included, the calculation unit 2554 increases, for example, the character evaluation value ET1 of joy by 2. Which character string of the corrected recognition character string CRT is a character string that emphasizes the content can be determined by the morpheme obtained by the morphological analysis process. In the following example, for the sake of simplicity, it is assumed that the amount of increase in the character evaluation value ET to be increased is 1.
Further, when the corrected recognition character string CRT includes a character string included in the emotion classification information 33 and a character string denying the content, the calculation unit 2554 determines the character string included in the corrected recognition character string CRT. A process different from the process of increasing the character evaluation value ET corresponding to the above may be executed. For example, if the corrected recognition character string CRT is "could not win the game today", the corrected recognition character string CRT includes "win" included in the emotion classification information 33, but is said to be "not". Since the character string denying the content is included, the calculation unit 2554 increases, for example, the character evaluation value ET3 of sadness by 1. Which character string of the corrected recognition character string CRT is a character string whose content is negated can be determined by the morpheme obtained by the morphological analysis process. In this way, it is possible to estimate whether the corrected recognition character string CRT has positive content or negative content by the morphological analysis process. In the following example, if the corrected recognition character string CRT includes the character string included in the emotion classification information 33, the character corresponding to the character string included in the corrected recognition character string CRT is included in the following example. The explanation will be given as increasing the evaluation value ET.

補正部257は、状況情報SiIに基づいて、音声評価値EV1〜EV4、及び、文字評価値ET1〜ET4を補正する。より詳細には、補正部257は、音声評価値EV1、音声評価値EV2、音声評価値EV3、音声評価値EV4を補正して、補正後の音声評価値CEV1、補正後の音声評価値CEV2、補正後の音声評価値CEV3、補正後の音声評価値CEV4を出力する。同様に、補正部257は、文字評価値ET1、文字評価値ET2、文字評価値ET3、文字評価値ET4を補正して、補正後の文字評価値CET1、補正後の文字評価値CET2、補正後の文字評価値CET3、補正後の文字評価値CET4を出力する。 The correction unit 257 corrects the voice evaluation values EV1 to EV4 and the character evaluation values ET1 to ET4 based on the situation information SiI. More specifically, the correction unit 257 corrects the voice evaluation value EV1, the voice evaluation value EV2, the voice evaluation value EV3, and the voice evaluation value EV4, and corrects the voice evaluation value CEV1 and the corrected voice evaluation value CEV2. The corrected voice evaluation value CEV3 and the corrected voice evaluation value CEV4 are output. Similarly, the correction unit 257 corrects the character evaluation value ET1, the character evaluation value ET2, the character evaluation value ET3, and the character evaluation value ET4, and corrects the corrected character evaluation value CET1, the corrected character evaluation value CET2, and the corrected character evaluation value CET2. The character evaluation value CET3 and the corrected character evaluation value CET4 are output.

より詳細には、補正部257は、下記演算を実行することにより、補正後の音声評価値CEV1〜CEV4、及び、補正後の文字評価値CET1〜CET4を出力する。 More specifically, the correction unit 257 outputs the corrected voice evaluation values CEV1 to CEV4 and the corrected character evaluation values CET1 to CET4 by executing the following calculation.

CEV1=kv1×EV1
CEV2=kv2×EV2
CEV3=kv3×EV3
CEV4=kv4×EV4
CET1=kt1×ET1
CET2=kt2×ET2
CET3=kt3×ET3
CET4=kt4×ET4
CEV1 = kv1 x EV1
CEV2 = kv2 x EV2
CEV3 = kv3 x EV3
CEV4 = kv4 x EV4
CET1 = kt1 x ET1
CET2 = kt2 x ET2
CET3 = kt3 x ET3
CET4 = kt4 x ET4

ただし、重み付け係数kv1〜kv4、及び、重み付け係数kt1〜kt4は、0以上1以下の実数である。さらに、重み付け係数kv1〜kv4、及び、重み付け係数kt1〜kt4には、以下の条件がある。 However, the weighting coefficients kv1 to kv4 and the weighting coefficients kt1 to kt4 are real numbers of 0 or more and 1 or less. Further, the weighting coefficients kv1 to kv4 and the weighting coefficients kt1 to kt4 have the following conditions.

kv1+kt1=kv2+kt2=kv3+kt3=kv4+kt4 kv1 + kt1 = kv2 + kt2 = kv3 + kt3 = kv4 + kt4

補正部257は、例えば、状況関係情報37を参照して、重み付け係数kv1〜kv4、及び、重み付け係数kt1〜kt4を設定する。 For example, the correction unit 257 sets the weighting coefficients kv1 to kv4 and the weighting coefficients kt1 to kt4 with reference to the situation-related information 37.

図7は、状況関係情報37の記憶内容の一例を示す図である。状況関係情報37は、人間が取り得る状況を示す識別情報と、当該状況に応じて設定された複数の音声評価値EVの各々、及び、複数の文字評価値ETの各々との関係を示す。 FIG. 7 is a diagram showing an example of the stored contents of the situation-related information 37. The situation-related information 37 shows the relationship between the identification information indicating a situation that a human can take, each of the plurality of voice evaluation values EV set according to the situation, and each of the plurality of character evaluation values ET.

人間が取り得る状況には、ユーザの許可なく立ち入りが禁止されるプライベート空間内に当該ユーザがいる状況と、ユーザの許可なく立ち入りが可能な非プライベート空間に当該ユーザがいる状況とが含まれる。プライベート空間は、例えば、自宅の中である。非プライベート空間は、例えば、公共の交通機関内、及び、職場の中である。 The situations that humans can take include a situation in which the user is in a private space where entry is prohibited without the permission of the user, and a situation in which the user is in a non-private space where access is possible without the permission of the user. The private space is, for example, in the home. Non-private spaces are, for example, in public transportation and in the workplace.

図7に示す状況関係情報37には、人間が取り得る状況を示す識別情報として、「自宅」、「電車」、及び、「会議」が登録されている。識別情報「自宅」は、ユーザUが自宅にいる状況を示す。識別情報「電車」は、ユーザUが電車を利用している状況を示す。識別情報「会議」は、ユーザUが職場の会議中である状況を示す。 In the situation-related information 37 shown in FIG. 7, "home", "train", and "meeting" are registered as identification information indicating a situation that a human can take. The identification information "home" indicates a situation in which the user U is at home. The identification information "train" indicates a situation in which the user U is using the train. The identification information "meeting" indicates a situation in which the user U is in a meeting at work.

状況関係情報37は、識別情報「自宅」に関係する重み付け係数について、重み付け係数kv1が重み付け係数kt1より大きいことを示す。同様に、状況関係情報37は、重み付け係数kv2が重み付け係数kt2よりも大きく、かつ、重み付け係数kv3が重み付け係数kt3よりも大きく、かつ、重み付け係数kv4が重み付け係数kt4より大きいことを示す。具体的には、図7に示す識別情報「自宅」に関係する重み付け係数は、以下の通りである。
重み付け係数kv1=0.7
重み付け係数kt1=0.3
重み付け係数kv2=0.8
重み付け係数kt2=0.2
重み付け係数kv3=0.7
重み付け係数kt3=0.3
重み付け係数kv4=0.8
重み付け係数kt4=0.2
The situation-related information 37 indicates that the weighting coefficient kv1 is larger than the weighting coefficient kt1 for the weighting coefficient related to the identification information “home”. Similarly, the situation-related information 37 indicates that the weighting coefficient kv2 is larger than the weighting coefficient kt2, the weighting coefficient kv3 is larger than the weighting coefficient kt3, and the weighting coefficient kv4 is larger than the weighting coefficient kt4. Specifically, the weighting coefficient related to the identification information "home" shown in FIG. 7 is as follows.
Weighting coefficient kv1 = 0.7
Weighting coefficient kt1 = 0.3
Weighting coefficient kv2 = 0.8
Weighting coefficient kt2 = 0.2
Weighting coefficient kv3 = 0.7
Weighting coefficient kt3 = 0.3
Weighting coefficient kv4 = 0.8
Weighting coefficient kt4 = 0.2

また、状況関係情報37は、識別情報「電車」に関係する重み付け係数について、重み付け係数kt1が重み付け係数kv1より大きいことを示す。同様に、状況関係情報37は、重み付け係数kt2が重み付け係数kv2より大きく、かつ、重み付け係数kt3が重み付け係数kv3より大きく、かつ、重み付け係数kt4が重み付け係数kv4より大きいことを示す。具体的には、図7に示す識別情報「電車」に関係する重み付け係数は、以下の通りである。
重み付け係数kv1=重み付け係数kv2=重み付け係数kv3=重み付け係数kv4=0.1
重み付け係数kt1=重み付け係数kt2=重み付け係数kt3=重み付け係数kt4=0.9
Further, the situation-related information 37 indicates that the weighting coefficient kt1 is larger than the weighting coefficient kv1 for the weighting coefficient related to the identification information “train”. Similarly, the situation-related information 37 indicates that the weighting coefficient kt2 is larger than the weighting coefficient kv2, the weighting coefficient kt3 is larger than the weighting coefficient kv3, and the weighting coefficient kt4 is larger than the weighting coefficient kv4. Specifically, the weighting coefficients related to the identification information "train" shown in FIG. 7 are as follows.
Weighting coefficient kv1 = Weighting coefficient kv2 = Weighting coefficient kv3 = Weighting coefficient kv4 = 0.1
Weighting coefficient kt1 = Weighting coefficient kt2 = Weighting coefficient kt3 = Weighting coefficient kt4 = 0.9

また、状況関係情報37は、識別情報「会議」に関係する重み付け係数について、重み付け係数kt1が重み付け係数kv1より大きいことを示す。同様に、状況関係情報37は、重み付け係数kt2が重み付け係数kv2より大きく、かつ、重み付け係数kt3が重み付け係数kv3より大きく、かつ、重み付け係数kt4が重み付け係数kv4より大きいことを示す。具体的には、図7に示す識別情報「会議」に関係する重み付け係数は、以下の通りである。
重み付け係数kv1=0.4
重み付け係数kt1=0.6
重み付け係数kv2=0.2
重み付け係数kt2=0.8
重み付け係数kv3=0.3
重み付け係数kt3=0.7
重み付け係数kv4=0.2
重み付け係数kt4=0.8
Further, the situation-related information 37 indicates that the weighting coefficient kt1 is larger than the weighting coefficient kv1 for the weighting coefficient related to the identification information “meeting”. Similarly, the situation-related information 37 indicates that the weighting coefficient kt2 is larger than the weighting coefficient kv2, the weighting coefficient kt3 is larger than the weighting coefficient kv3, and the weighting coefficient kt4 is larger than the weighting coefficient kv4. Specifically, the weighting coefficients related to the identification information "meeting" shown in FIG. 7 are as follows.
Weighting coefficient kv1 = 0.4
Weighting coefficient kt1 = 0.6
Weighting coefficient kv2 = 0.2
Weighting coefficient kt2 = 0.8
Weighting coefficient kv3 = 0.3
Weighting coefficient kt3 = 0.7
Weighting coefficient kv4 = 0.2
Weighting coefficient kt4 = 0.8

説明を図6に戻す。推定部258は、補正部257の補正結果、即ち、補正後の音声評価値CEV1〜CEV4、及び、補正後の文字評価値CET1〜CET4に基づいて、ユーザUが抱く1つ以上の感情を推定する。例えば、推定部258は、以下の演算を実行して、喜びに対応する評価値E1、怒りに対応する評価値E2、悲しみに対応する評価値E3、及び、平常に対応する評価値E4を生成する。
E1=CEV1+CET1
E2=CEV2+CET2
E3=CEV3+CET3
E4=CEV4+CET4
The explanation is returned to FIG. The estimation unit 258 estimates one or more emotions held by the user U based on the correction result of the correction unit 257, that is, the corrected voice evaluation values CEV1 to CEV4 and the corrected character evaluation values CET1 to CET4. To do. For example, the estimation unit 258 executes the following calculation to generate an evaluation value E1 corresponding to joy, an evaluation value E2 corresponding to anger, an evaluation value E3 corresponding to sadness, and an evaluation value E4 corresponding to normal times. To do.
E1 = CEV1 + CET1
E2 = CEV2 + CET2
E3 = CEV3 + CET3
E4 = CEV4 + CET4

そして、推定部258は、例えば、以下に示す2つの態様のいずれか一方に従って、ユーザUが抱く感情を推定する。第1の態様において、推定部258は、評価値E1、評価値E2、評価値E3、及び、評価値E4のうち、最も大きい評価値Eに対応する感情を示す感情情報EIを出力する。第2の態様において、推定部258は、評価値E1〜E4の各々と閾値と比較して、閾値を上回る評価値Eに対応する感情を示す感情情報EIを出力する。第2の態様では、感情情報EIが、怒り及び悲しみを示すという様に、複数の感情を示すことがある。
感情情報EIは、例えば、以下に示す2つの態様がある。感情情報EIの第1の態様は、推定したユーザUが抱く1以上の感情を示す識別子である。感情を示す識別子には、喜びを示す識別子、怒りを示す識別子、悲しみを示す識別子、及び、平常を示す識別子がある。感情情報EIの第2の態様は、推定したユーザUが抱く1以上の感情を示す識別子と、推定したユーザUが抱く感情の評価値Eとである。
Then, the estimation unit 258 estimates the emotion held by the user U according to, for example, one of the two modes shown below. In the first aspect, the estimation unit 258 outputs an emotion information EI indicating an emotion corresponding to the largest evaluation value E among the evaluation value E1, the evaluation value E2, the evaluation value E3, and the evaluation value E4. In the second aspect, the estimation unit 258 compares each of the evaluation values E1 to E4 with the threshold value, and outputs an emotion information EI indicating an emotion corresponding to the evaluation value E exceeding the threshold value. In the second aspect, the emotional information EI may exhibit multiple emotions, such as exhibiting anger and sadness.
The emotional information EI has, for example, the following two aspects. The first aspect of the emotion information EI is an identifier indicating one or more emotions held by the estimated user U. The identifier indicating emotion includes an identifier indicating joy, an identifier indicating anger, an identifier indicating sadness, and an identifier indicating normality. The second aspect of the emotion information EI is an identifier indicating one or more emotions held by the estimated user U and an evaluation value E of the emotions held by the estimated user U.

出力部27は、認識部254によって得られた認識文字列RTに対して、感情情報EIが示す1つ以上の感情に応じた処理を実行して得られた情報を出力する。感情に応じた処理は、例えば、下記に示す2つの態様がある。
感情に応じた処理の第1の態様は、認識文字列RTに対して、感情を具象化した図形を付加する処理である。感情を具象化した図形は、例えば、感情を具象化した絵文字、及び、感情を具象化した顔文字である。絵文字は、文字コードに対応付けられた画像である。文字コードは、例えば、Unicodeである。顔文字は、記号及び文字を組み合わせて顔を表現した文字列である。以下の説明では、感情を具象化した図形は、感情を具象化した絵文字であるとして説明する。喜びを具象化した絵文字は、例えば、笑顔を示す絵文字である。怒りを具象化した絵文字は、例えば、怒りの顔を示す絵文字である。悲しみを具象化した絵文字は、例えば、泣き顔を示す絵文字である。さらに、感情情報EIが第2の態様である場合、出力部27は、感情情報EIが示す感情であって、感情情報EIに含まれる評価値Eに応じた強度を有する感情を具象化した絵文字を、認識文字列RTに付加する絵文字として決定してもよい。例えば、感情情報EIが示す感情が悲しみであり、かつ、感情情報EIに含まれる評価値Eが所定の閾値以下である場合、出力部27は、涙をこぼす顔を示す絵文字を認識文字列RTに付加する絵文字として決定する。一方、感情情報EIが示す感情が悲しみであり、かつ、感情情報EIに含まれる評価値Eが所定の閾値より大きい場合、出力部27は、号泣した顔を示す絵文字を認識文字列RTに付加する絵文字として決定する。号泣した顔を示す絵文字は、涙をこぼす顔を示す絵文字と比較して、より高い強度の悲しみを具象化している。
出力部27は、認識文字列RTに絵文字を付加して得られた絵文字付き文字列を出力する。絵文字を付加する位置は、例えば、以下に示す2つがある。第1の位置は、認識文字列RTの末尾である。第2の位置は、認識文字列RT内における、感情分類情報33に含まれる文字列の次である。表示装置51は、出力部27が出力した絵文字付き文字列に基づく画像を表示する。
The output unit 27 outputs the information obtained by executing the processing corresponding to one or more emotions indicated by the emotion information EI with respect to the recognition character string RT obtained by the recognition unit 254. There are two modes of processing according to emotions, for example, as shown below.
The first aspect of the process according to the emotion is a process of adding a figure embodying the emotion to the recognition character string RT. The figures that embody emotions are, for example, pictograms that embody emotions and emoticons that embody emotions. A pictogram is an image associated with a character code. The character code is, for example, Unicode. An emoticon is a character string that expresses a face by combining symbols and characters. In the following description, a figure that embodies emotions will be described as a pictogram that embodies emotions. The pictogram that embodies joy is, for example, a pictogram that shows a smile. The pictogram that embodies anger is, for example, a pictogram that shows the face of anger. The pictogram that embodies sadness is, for example, a pictogram that shows a crying face. Further, when the emotion information EI is the second aspect, the output unit 27 is a pictogram that embodies the emotion indicated by the emotion information EI and has an intensity corresponding to the evaluation value E included in the emotion information EI. May be determined as a pictogram to be added to the recognition character string RT. For example, when the emotion indicated by the emotion information EI is sadness and the evaluation value E included in the emotion information EI is equal to or less than a predetermined threshold value, the output unit 27 recognizes a pictogram indicating a face spilling tears. Determined as a pictogram to be added to. On the other hand, when the emotion indicated by the emotion information EI is sad and the evaluation value E included in the emotion information EI is larger than a predetermined threshold value, the output unit 27 adds a pictogram indicating a crying face to the recognition character string RT. Decide as a pictogram to do. The emoji showing a crying face embodies a higher degree of sadness than the emoji showing a tearful face.
The output unit 27 outputs a character string with a pictogram obtained by adding a pictogram to the recognition character string RT. For example, there are two positions for adding pictograms as shown below. The first position is the end of the recognition string RT. The second position is next to the character string included in the emotion classification information 33 in the recognition character string RT. The display device 51 displays an image based on the character string with pictograms output by the output unit 27.

感情に応じた処理の第2の態様は、感情に基づく抑揚を付加して読み上げた合成音声を生成する処理である。抑揚は、例えば、読み上げ速度を速くするもしくは遅くする、又は、音量を大きくするもしくは小さくすることである。喜びに基づく抑揚は、例えば、読み上げ速度を上げることである。怒りに基づく抑揚は、例えば、音量を大きくすることである。悲しみに基づく抑揚は、例えば、音量を小さくすることである。出力部27は、感情に基づく抑揚を付加して読み上げた合成音声を示す情報を出力する。そして、出力部27は、生成したデータが示す合成音声に、感情に基づく抑揚を付加して、感情に基づく抑揚を付加して読み上げた合成音声を示す情報を出力する。放音装置53は、出力部27が出力したデータが示す合成音声を放音する。 The second aspect of the emotion-based process is a process of generating a synthetic voice read aloud by adding emotion-based intonation. Inflection is, for example, increasing or decreasing the reading speed, or increasing or decreasing the volume. Pleasure-based intonation is, for example, speeding up reading. Anger-based intonation is, for example, increasing the volume. Sadness-based intonation is, for example, reducing the volume. The output unit 27 outputs information indicating a synthetic voice read aloud with an emotion-based intonation added. Then, the output unit 27 adds emotion-based intonation to the synthetic voice indicated by the generated data, and outputs information indicating the synthetic voice read by adding emotion-based intonation. The sound emitting device 53 emits a synthetic voice indicated by the data output by the output unit 27.

1.2.第1実施形態の動作
次に、ユーザ装置1の動作について、図8を用いて説明する。
1.2. Operation of the First Embodiment Next, the operation of the user device 1 will be described with reference to FIG.

図8は、ユーザ装置1の動作を示すフローチャートである。取得部21は、音声情報VIを取得する(ステップS1)。特徴量生成部251は、音声情報VIから、特徴量を生成する(ステップS2)。そして、第1評価部252は、特徴量を学習モデルLMに入力し、各感情の音声評価値EVを取得する(ステップS3)。 FIG. 8 is a flowchart showing the operation of the user device 1. The acquisition unit 21 acquires the voice information VI (step S1). The feature amount generation unit 251 generates a feature amount from the voice information VI (step S2). Then, the first evaluation unit 252 inputs the feature amount into the learning model LM and acquires the voice evaluation value EV of each emotion (step S3).

一方、認識部254は、音声情報VIに基づいて、認識文字列RTを出力する(ステップS4)。次に、解析部2552は、形態素解析処理を実行して、補正後認識文字列CRTを出力する(ステップS5)。そして、算出部2554は、補正後認識文字列CRTから、各感情の文字評価値ET1〜ET4を生成する(ステップS6)。 On the other hand, the recognition unit 254 outputs the recognition character string RT based on the voice information VI (step S4). Next, the analysis unit 2552 executes the morphological analysis process and outputs the corrected recognition character string CRT (step S5). Then, the calculation unit 2554 generates the character evaluation values ET1 to ET4 of each emotion from the corrected recognition character string CRT (step S6).

状況情報生成部23は、GPS装置8から得られる位置情報PoI、慣性センサ7から得られる慣性情報IFI、及び、スケジュール情報35に基づいて、状況情報SiIを生成する(ステップS7)。そして、補正部257は、状況情報SiIが示す状況に応じた重み付け係数kv1〜kv4、kt1〜kt4に基づいて、音声評価値EV1〜EV4と文字評価値ET1〜ET4とを補正する(ステップS8)。 The status information generation unit 23 generates status information SiI based on the position information PoI obtained from the GPS device 8, the inertial information IFI obtained from the inertial sensor 7, and the schedule information 35 (step S7). Then, the correction unit 257 corrects the voice evaluation values EV1 to EV4 and the character evaluation values ET1 to ET4 based on the weighting coefficients kv1 to kv4 and kt1 to kt4 according to the situation indicated by the situation information SiI (step S8). ..

推定部258は、補正後の音声評価値CEV1〜CEV4と、補正後の文字評価値CET1〜CET4とに基づいて、ユーザUが抱く1つ以上の感情を推定し、感情情報EIを出力する(ステップS9)。出力部27は、感情情報EIが示す感情に応じた処理を認識文字列RTに対して実行することにより得られる情報を出力する(ステップS10)。ステップS10の処理終了後、ユーザ装置1は、図8に示す一連の処理を終了する。 The estimation unit 258 estimates one or more emotions held by the user U based on the corrected voice evaluation values CEV1 to CEV4 and the corrected character evaluation values CET1 to CET4, and outputs emotion information EI ( Step S9). The output unit 27 outputs the information obtained by executing the processing corresponding to the emotion indicated by the emotion information EI on the recognition character string RT (step S10). After the processing in step S10 is completed, the user device 1 ends a series of processing shown in FIG.

1.3.第1実施形態の効果
以上の説明によれば、ユーザ装置1は、状況情報SiIに基づいて、音声評価値EV1〜EV4、文字評価値ET1〜ET4を補正する。状況情報SiIが、感情を音声に発露しにくい状況を示す場合、音声評価値EV1〜EV4の精度が低下していると言える。従って、状況情報SiIが、感情を音声に発露しにくい状況を示す場合、音声評価値EV1〜EV4を低くする方式で、音声評価値EV1〜EV4、及び、文字評価値ET1〜ET4を補正することにより、ユーザUが抱く感情を精度良く補正できる。
1.3. Effect of 1st Embodiment According to the above description, the user apparatus 1 corrects the voice evaluation values EV1 to EV4 and the character evaluation values ET1 to ET4 based on the situation information SiI. When the situation information SiI indicates a situation in which it is difficult to express emotions in voice, it can be said that the accuracy of the voice evaluation values EV1 to EV4 is lowered. Therefore, when the situation information SiI indicates a situation in which it is difficult to express emotions to the voice, the voice evaluation values EV1 to EV4 and the character evaluation values ET1 to ET4 are corrected by a method of lowering the voice evaluation values EV1 to EV4. Therefore, the emotion held by the user U can be corrected with high accuracy.

また、ユーザ装置1は、人間の音声に応じた複数の特徴量と音声を発した人間が抱く複数の感情の各々に対する強度との関係を学習済みの学習モデルLMに、特徴量生成部251が生成した特徴量を入力し、音声評価値EV1〜EV4を学習モデルLMから取得する。学習モデルLMを用いることにより、ユーザ装置1は、精度の良い音声評価値EV1〜EV4を取得できる。 Further, in the user device 1, the feature amount generation unit 251 uses a learning model LM that has learned the relationship between a plurality of feature quantities corresponding to human voice and the intensity of each of the plurality of emotions held by the human who emits the voice. The generated feature amount is input, and the voice evaluation values EV1 to EV4 are acquired from the learning model LM. By using the learning model LM, the user device 1 can acquire accurate voice evaluation values EV1 to EV4.

また、学習モデルLMは、複数の人間について、人間の音声に応じた複数の特徴量と当該音声を発した人間が抱く複数の感情の各々に対する強度との関係を学習済みである。言い換えれば、学習モデルLMは、複数のユーザの音声情報VIに基づく教師データによって生成されている。従って、学習モデルLMは、特定の個人向けに調整されていない、汎用的なモデルである。第1実施形態において、汎用的な学習モデルLMを利用できるため、特定の個人向けに調整された学習モデルを用いる場合と比較して、導入が容易である。 In addition, the learning model LM has learned the relationship between a plurality of features corresponding to human voices and the intensity of each of the plurality of emotions held by the human being who emits the voices for a plurality of humans. In other words, the learning model LM is generated by teacher data based on voice information VIs of a plurality of users. Therefore, the learning model LM is a general purpose model that is not tailored for a particular individual. In the first embodiment, since the general-purpose learning model LM can be used, it is easy to introduce as compared with the case of using a learning model adjusted for a specific individual.

また、補正部257は、状況関係情報37を参照して、状況情報SiIが示す状況に応じた音声評価値EV1〜EV4、及び文字評価値ET1〜ET4の各々に対する重み付け係数を設定する。状況関係情報37を参照することにより、感情を発露しにくい状況にユーザUが置かれている状況か否かを精度良く特定できる。 Further, the correction unit 257 sets a weighting coefficient for each of the voice evaluation values EV1 to EV4 and the character evaluation values ET1 to ET4 according to the situation indicated by the situation information SiI with reference to the situation-related information 37. By referring to the situation-related information 37, it is possible to accurately identify whether or not the user U is placed in a situation in which it is difficult to express emotions.

状況関係情報37は、プライベート空間にユーザUがいる状況を示す識別情報に関係する重み付け係数について、重み付け係数kv1が重み付け係数kt1より大きいことを示す。さらに、状況関係情報37は、重み付け係数kv2が重み付け係数kt2より大きく、かつ、重み付け係数kv3が重み付け係数kt3より大きく、重み付け係数kv4が重み付け係数kt4より大きいことを示す。
ユーザUが自宅等のプライベート空間にいる状況では、他者の目を引くこともないので、感情を音声に発露しやすい。従って、重み付け係数kv1が重み付け係数kt1より大きく、重み付け係数kv2が重み付け係数kt2より大きく、重み付け係数kv3が重み付け係数kt3より大きく、かつ、重み付け係数kv4が重み付け係数kt4より大きいことにより、ユーザ装置1は、喜び、怒り、悲しみ、及び、平常を精度良く推定できる。
The situation-related information 37 indicates that the weighting coefficient kv1 is larger than the weighting coefficient kt1 with respect to the weighting coefficient related to the identification information indicating the situation where the user U is in the private space. Further, the situation-related information 37 indicates that the weighting coefficient kv2 is larger than the weighting coefficient kt2, the weighting coefficient kv3 is larger than the weighting coefficient kt3, and the weighting coefficient kv4 is larger than the weighting coefficient kt4.
When the user U is in a private space such as home, the emotions are easily expressed in the voice because the user U does not catch the eyes of others. Therefore, the weighting coefficient kv1 is larger than the weighting coefficient kt1, the weighting coefficient kv2 is larger than the weighting coefficient kt2, the weighting coefficient kv3 is larger than the weighting coefficient kt3, and the weighting coefficient kv4 is larger than the weighting coefficient kt4. , Joy, anger, sadness, and normality can be estimated accurately.

状況関係情報37は、非プライベート空間にユーザUがいる状況を示す識別情報に関係する重み付け係数について、重み付け係数kt1が重み付け係数kv1より大きいことを示す。さらに、状況関係情報37は、重み付け係数kt2が重み付け係数kv2より大きく、重み付け係数kt3が重み付け係数kv3より大きく、かつ、重み付け係数kt4が重み付け係数kv4より大きいことを示す。
非プライベート空間にユーザUがいる一例として、ユーザUが電車を利用している状況では、感情を込めて発声すると他者の注目を浴びてしまうので、感情を込めずに発声することが一般的と言える。ユーザUが電車を利用している状況は、ユーザUが感情を音声に発露しにくい状況の一つである。非プライベート空間にユーザUがいる他の例として、ユーザUが会議中である状況では、感情を込めて発声することは少ないと言える。ユーザUが会議中である状況は、ユーザUが感情を音声に発露しにくい状況の一つである。
従って、非プライベート空間にユーザUがいる場合には、重み付け係数kt1が重み付け係数kv1より大きく、重み付け係数kt2が重み付け係数kv2より大きく、重み付け係数kt3が重み付け係数kv3より大きく、かつ、重み付け係数kt4が重み付け係数kv4より大きいことにより、ユーザ装置1は、喜び、怒り、悲しみ、及び、平常を精度良く推定できる。
The situation-related information 37 indicates that the weighting coefficient kt1 is larger than the weighting coefficient kv1 with respect to the weighting coefficient related to the identification information indicating the situation where the user U is in the non-private space. Further, the situation-related information 37 indicates that the weighting coefficient kt2 is larger than the weighting coefficient kv2, the weighting coefficient kt3 is larger than the weighting coefficient kv3, and the weighting coefficient kt4 is larger than the weighting coefficient kv4.
As an example of having User U in a non-private space, when User U is using a train, speaking with emotion will attract the attention of others, so it is common to speak without feeling. It can be said that. The situation where the user U is using the train is one of the situations where it is difficult for the user U to express his emotions in the voice. As another example in which the user U is in a non-private space, it can be said that in a situation where the user U is in a meeting, it is rare to utter with emotion. The situation in which the user U is in a meeting is one of the situations in which the user U does not easily express his / her emotions in the voice.
Therefore, when the user U is in the non-private space, the weighting coefficient kt1 is larger than the weighting coefficient kv1, the weighting coefficient kt2 is larger than the weighting coefficient kv2, the weighting coefficient kt3 is larger than the weighting coefficient kv3, and the weighting coefficient kt4 is. By being larger than the weighting coefficient kv4, the user device 1 can accurately estimate joy, anger, sadness, and normality.

2.第2実施形態
第2実施形態にかかるユーザ装置1aは、認識文字列RTに応じて音声に感情が発露される度合いに基づいて、音声評価値CEV1〜CEV4、及び、文字評価値CET1〜CET4を補正する点で、第1実施形態にかかるユーザ装置1と相違する。なお、以下に例示する第2実施形態において作用又は機能が第1実施形態と同等である要素については、以上の説明で参照の符号を流用して各々の詳細な説明を適宜に省略する。
2. 2. Second Embodiment The user device 1a according to the second embodiment sets the voice evaluation values CEV1 to CEV4 and the character evaluation values CET1 to CET4 based on the degree to which emotions are expressed in the voice according to the recognition character string RT. It differs from the user device 1 according to the first embodiment in that it is corrected. Regarding the elements whose actions or functions are the same as those of the first embodiment in the second embodiment illustrated below, the reference numerals are used in the above description, and detailed description of each is appropriately omitted.

2.1.第2実施形態の機能
図9は、第2実施形態にかかるユーザ装置1aを示すブロック図である。ユーザ装置1aは、処理装置2a、記憶装置3a、入力装置4、出力装置5、通信装置6、慣性センサ7、及び、GPS装置8を具備するコンピュータシステムにより実現される。記憶装置3aは、処理装置2aが読取可能な記録媒体であり、処理装置2aが実行する制御プログラムPRaを含む複数のプログラム、解析用辞書情報31、感情分類情報33、スケジュール情報35、状況関係情報37、文字列関係情報38、及び、学習モデルLMを記憶する。
2.1. Function of the second embodiment FIG. 9 is a block diagram showing a user device 1a according to the second embodiment. The user device 1a is realized by a computer system including a processing device 2a, a storage device 3a, an input device 4, an output device 5, a communication device 6, an inertial sensor 7, and a GPS device 8. The storage device 3a is a recording medium that can be read by the processing device 2a, and is a plurality of programs including the control program PRa executed by the processing device 2a, analysis dictionary information 31, emotion classification information 33, schedule information 35, and situation-related information. 37, the character string relation information 38, and the learning model LM are stored.

文字列関係情報38は、認識文字列RTに応じて音声に感情が発露される度合いを判定するために用いられる。処理装置2aは、記憶装置3aから制御プログラムPRaを読み取り実行することによって、取得部21、状況情報生成部23、感情情報生成部25a、及び、出力部27として機能する。 The character string-related information 38 is used for determining the degree to which emotions are expressed in the voice according to the recognition character string RT. The processing device 2a functions as an acquisition unit 21, a situation information generation unit 23, an emotion information generation unit 25a, and an output unit 27 by reading and executing the control program PRa from the storage device 3a.

図10は、第2実施形態におけるユーザ装置1aの機能の概要を示す図である。感情情報生成部25aは、特徴量生成部251、第1評価部252、認識部254、第2評価部255、補正部257a、及び、推定部258を含む。 FIG. 10 is a diagram showing an outline of the functions of the user device 1a in the second embodiment. The emotion information generation unit 25a includes a feature amount generation unit 251, a first evaluation unit 252, a recognition unit 254, a second evaluation unit 255, a correction unit 257a, and an estimation unit 258.

補正部257aは、ユーザUが認識文字列RTを発声した場合にユーザUの音声に感情が発露される度合いと、状況情報SiIとに基づいて、音声評価値EV1〜EV4、及び、文字評価値ET1〜ET4を補正する。例えば、補正部257aは、以下に示す2つの態様のいずれか一方に従って、音声評価値EV1〜EV4、及び、文字評価値ET1〜ET4を補正する。 The correction unit 257a has voice evaluation values EV1 to EV4 and character evaluation values based on the degree to which emotions are expressed in the voice of the user U when the user U utters the recognition character string RT and the situation information SiI. Correct ET1 to ET4. For example, the correction unit 257a corrects the voice evaluation values EV1 to EV4 and the character evaluation values ET1 to ET4 according to one of the two modes shown below.

第1の態様における補正部257aは、発声した場合にユーザUの音声に感情が発露される度合いの低い文字列と、高い文字列とに分類する。そして、補正部257aは、感情が発露される度合いの低い文字列が認識文字列RTに含まれる場合、認識文字列RTを発声した場合にユーザUの音声に感情が発露される度合いが低いと判定する。一方、感情が発露される度合いの低い文字列が認識文字列RTに含まれていない場合、補正部257aは、認識文字列RTを発声した場合にユーザUの音声に感情が発露される度合いが高いと判定する。そして、補正部257aは、認識文字列RTを発声した場合にユーザUの音声に感情が発露される度合いが低い場合、認識文字列RTを発声した場合にユーザUの音声に感情が発露される度合いが高い場合と比較して、音声評価値EV1〜EV4に対応する重み付け係数kv1〜kv4を低下させる。
例えば、「ありがとう」は、汎用的な感謝の意味を有する。ユーザUが「ありがとう」と発声する場合、ユーザUが抱く感情は喜びが強くなる。しかしながら、汎用的に使用される文字列は、言い慣れているので起伏なく発声する場合が多く、音声に感情が発露される度合いが低いと言える。従って、補正部257aは、認識文字列RTに「ありがとう」が含まれる場合、音声評価値EV1〜EV4に対応する重み付け係数kv1〜kv4を低下させる。例えば、補正部257aは、音声評価値EV1〜EV4に対応する重み付け係数kv1〜kv4から所定値を減算し、文字評価値ET1〜ET4に対応する重み付け係数kt1〜kt4に所定値を加算する。
The correction unit 257a in the first aspect classifies the character string into a character string having a low degree of emotional expression in the voice of the user U when uttered and a character string having a high degree of emotional expression. Then, when the recognition character string RT includes a character string having a low degree of emotional expression, the correction unit 257a determines that the degree of emotional expression in the voice of the user U is low when the recognition character string RT is uttered. judge. On the other hand, when the recognition character string RT does not include a character string having a low degree of emotional expression, the correction unit 257a indicates that the emotion is expressed in the voice of the user U when the recognition character string RT is uttered. Judged as high. Then, when the correction unit 257a utters the recognition character string RT, the emotion is expressed in the voice of the user U when the degree of emotion is expressed in the voice of the user U is low, and when the recognition character string RT is uttered, the emotion is expressed in the voice of the user U. Compared with the case where the degree is high, the weighting coefficients kv1 to kv4 corresponding to the voice evaluation values EV1 to EV4 are lowered.
For example, "thank you" has a general meaning of gratitude. When the user U utters "Thank you", the emotions that the user U has become more joyful. However, since character strings that are used for general purposes are familiar to people, they are often uttered without undulations, and it can be said that the degree to which emotions are expressed in the voice is low. Therefore, when the recognition character string RT includes "thank you", the correction unit 257a lowers the weighting coefficients kv1 to kv4 corresponding to the voice evaluation values EV1 to EV4. For example, the correction unit 257a subtracts a predetermined value from the weighting coefficients kv1 to kv4 corresponding to the voice evaluation values EV1 to EV4, and adds the predetermined value to the weighting coefficients kt1 to kt4 corresponding to the character evaluation values ET1 to ET4.

第2の態様における補正部257aは、文字列関係情報38及び状況関係情報37に基づいて、音声評価値EV1〜EV4、及び、文字評価値ET1〜ET4の各々に対する、認識文字列RTに含まれる文字列及び状況情報SiIが示す状況に応じた重み付け係数kv1〜kv4、kt1〜kt4を設定する。そして、補正部257aは、認識文字列RT及び状況情報SiIが示す状況に応じた重み付け係数に基づいて、音声評価値EV1〜EV4、及び、文字評価値ET1〜ET4を補正する。 The correction unit 257a in the second aspect is included in the recognition character string RT for each of the voice evaluation values EV1 to EV4 and the character evaluation values ET1 to ET4 based on the character string relation information 38 and the situation relation information 37. The weighting coefficients kv1 to kv4 and kt1 to kt4 are set according to the situation indicated by the character string and the situation information SiI. Then, the correction unit 257a corrects the voice evaluation values EV1 to EV4 and the character evaluation values ET1 to ET4 based on the weighting coefficient according to the situation indicated by the recognition character string RT and the situation information SiI.

図11は、文字列関係情報38の記憶内容の一例を示す図である。文字列関係情報38は、人間が発声する文字列と、この文字列を発声した場合において人間の音声に感情が発露される度合いに基づき設定された音声評価値EV1〜EV4、及び文字評価値ET1〜ET4に対する重み付け係数kv1〜kv4、kt1〜kv4の増減値Δkv1〜Δkv4、Δkt1〜Δkt4との関係を示す。
増減値Δkv1〜Δkv4、及び、増減値Δkt1〜Δkt4は、以下の条件がある。
FIG. 11 is a diagram showing an example of the stored contents of the character string-related information 38. The character string-related information 38 includes voice evaluation values EV1 to EV4 and character evaluation values ET1 set based on the character string uttered by a human being and the degree to which emotions are expressed in the human voice when the character string is uttered. The relationship between the increase / decrease values Δkv1 to Δkv4 and Δkt1 to Δkt4 of the weighting coefficients kv1 to kv4 and kt1 to kv4 with respect to ET4 is shown.
The increase / decrease values Δkv1 to Δkv4 and the increase / decrease values Δkt1 to Δkt4 have the following conditions.

Δkv1+Δkt1=Δkv2+Δkt2=Δkv3+Δkt3=Δkv4+Δkt4=0 Δkv1 + Δkt1 = Δkv2 + Δkt2 = Δkv3 + Δkt3 = Δkv4 + Δkt4 = 0

図10に示す文字列関係情報38は、文字列「ありがとう」を人間が発声した場合において、以下に示すように、増減値Δkv1〜Δkv4、Δkt1〜Δkt4を設定することを示す。
増減値Δkv1=−0.2
増減値Δkt1=0.2
増減値Δkv2=−0.2
増減値Δkt2=0.2
増減値Δkv3=−0.2
増減値Δkt3=0.2
増減値Δkv4=−0.1
増減値Δkt4=0.1
なお、増減値Δkv1〜Δkv4、Δkt1〜Δkt4のうち、0である値が含まれていてもよい。例えば、文字列「ありがとう」に対する増減値Δkv1及びΔkt1は、上述の値であり、増減値Δkv2〜Δkv4、Δkt2〜Δkt4は、0であってもよい。
The character string-related information 38 shown in FIG. 10 indicates that when a human utters the character string “thank you”, the increase / decrease values Δkv1 to Δkv4 and Δkt1 to Δkt4 are set as shown below.
Increase / decrease value Δkv1 = -0.2
Increase / decrease value Δkt1 = 0.2
Increase / decrease value Δkv2 = -0.2
Increase / decrease value Δkt2 = 0.2
Increase / decrease value Δkv3 = -0.2
Increase / decrease value Δkt3 = 0.2
Increase / decrease value Δkv4 = -0.1
Increase / decrease value Δkt4 = 0.1
Of the increase / decrease values Δkv1 to Δkv4 and Δkt1 to Δkt4, a value of 0 may be included. For example, the increase / decrease values Δkv1 and Δkt1 for the character string “Thank you” are the above-mentioned values, and the increase / decrease values Δkv2 to Δkv4 and Δkt2 to Δkt4 may be 0.

補正部257aは、文字列関係情報38に含まれる文字列が認識文字列RTに含まれる場合、下記演算を実行することにより、補正後の音声評価値CEV1〜CEV4、及び、補正後の文字評価値CET1〜CET4を出力する。 When the character string included in the character string-related information 38 is included in the recognition character string RT, the correction unit 257a executes the following calculation to perform the corrected voice evaluation values CEV1 to CEV4 and the corrected character evaluation. The values CET1 to CET4 are output.

CEV1=(kv1+Δkv1)×EV1
CEV2=(kv2+Δkv2)×EV2
CEV3=(kv3+Δkv3)×EV3
CEV4=(kv4+Δkv4)×EV4
CET1=(kt1+Δkt1)×ET1
CET2=(kt2+Δkt2)×ET2
CET3=(kt3+Δkt3)×ET3
CET4=(kt4+Δkt4)×ET4
CEV1 = (kv1 + Δkv1) x EV1
CEV2 = (kv2 + Δkv2) x EV2
CEV3 = (kv3 + Δkv3) x EV3
CEV4 = (kv4 + Δkv4) x EV4
CET1 = (kt1 + Δkt1) × ET1
CET2 = (kt2 + Δkt2) × ET2
CET3 = (kt3 + Δkt3) x ET3
CET4 = (kt4 + Δkt4) x ET4

増減値Δkv1〜Δkv4、及び、増減値Δkt1〜Δkt4は、文字列関係情報38において、認識文字列RTに含まれる文字列に対応する値である。また、重み付け係数kvxと増減値Δkvxとの和が0未満である場合、補正部257aは、補正後の音声評価値CEVxを0として出力し、重み付け係数kvxと増減値Δkvxとの和が1より大きい場合、補正後の音声評価値CEVxを音声評価値EVxと同一の値として出力する。同様に、重み付け係数ktxと増減値Δktxとの和が0未満である場合、補正部257aは、補正後の文字評価値CETxを0として出力し、重み付け係数ktxと増減値Δktxとの和が1より大きい場合、補正後の文字評価値CETxを文字評価値ETxと同一の値として出力する。xは、1から4までの整数である。
以下の記載では、補正部257aは、第2の態様であるとして説明する。
The increase / decrease values Δkv1 to Δkv4 and the increase / decrease values Δkt1 to Δkt4 are values corresponding to the character strings included in the recognition character string RT in the character string relation information 38. When the sum of the weighting coefficient kvx and the increase / decrease value Δkvx is less than 0, the correction unit 257a outputs the corrected voice evaluation value CEVx as 0, and the sum of the weighting coefficient kvx and the increase / decrease value Δkvx is more than 1. If it is large, the corrected voice evaluation value CEVx is output as the same value as the voice evaluation value EVx. Similarly, when the sum of the weighting coefficient ktx and the increase / decrease value Δktx is less than 0, the correction unit 257a outputs the corrected character evaluation value CETx as 0, and the sum of the weighting coefficient ktx and the increase / decrease value Δktx is 1. If it is larger than, the corrected character evaluation value CETx is output as the same value as the character evaluation value ETx. x is an integer from 1 to 4.
In the following description, the correction unit 257a will be described as a second aspect.

2.2.第2実施形態の動作
次に、ユーザ装置1aの動作について、図12を用いて説明する。
2.2. Operation of the Second Embodiment Next, the operation of the user device 1a will be described with reference to FIG.

図12は、ユーザ装置1aの動作を示すフローチャートである。図12に示すステップS21〜ステップS27の処理は、それぞれ、図8に示すステップS1〜ステップS7の処理と同一であるため、説明を省略する。 FIG. 12 is a flowchart showing the operation of the user device 1a. Since the processes of steps S21 to S27 shown in FIG. 12 are the same as the processes of steps S1 to S7 shown in FIG. 8, the description thereof will be omitted.

ステップS27の処理終了後、補正部257aは、文字列関係情報38内の文字列が認識文字列RTに含まれるか否かを判定する(ステップS28)。ステップS28の判定結果が肯定の場合、補正部257aは、認識文字列RTに含まれる文字列及び状況情報SiIが示す状況に応じた重み付け係数kv1〜kv4に基づいて、音声評価値EV1〜EV4と文字評価値ET1〜ET4とを補正する(ステップS29)。一方、ステップS28の判定結果が否定の場合、補正部257aは、状況情報SiIが示す状況に応じた重み付け係数kv1〜kv4に基づいて、音声評価値EV1〜EV4と文字評価値ET1〜ET4とを補正する(ステップS30)。 After the processing in step S27 is completed, the correction unit 257a determines whether or not the character string in the character string-related information 38 is included in the recognition character string RT (step S28). When the determination result in step S28 is affirmative, the correction unit 257a sets the voice evaluation values EV1 to EV4 based on the weighting coefficients kv1 to kv4 according to the situation indicated by the character string included in the recognition character string RT and the situation information SiI. The character evaluation values ET1 to ET4 are corrected (step S29). On the other hand, when the determination result in step S28 is negative, the correction unit 257a sets the voice evaluation values EV1 to EV4 and the character evaluation values ET1 to ET4 based on the weighting coefficients kv1 to kv4 according to the situation indicated by the situation information SiI. Correct (step S30).

ステップS29の処理又はステップS30の処理終了後、推定部258は、補正後の音声評価値CEV1〜CEV4と、補正後の文字評価値CET1〜CET4とに基づいて、ユーザUが抱く1つ以上の感情を推定し、感情情報EIを出力する(ステップS31)。出力部27は、感情情報EIが示す感情に応じた処理を認識文字列RTに対して実行することにより得られる情報を出力する(ステップS32)。ステップS10の処理終了後、ユーザ装置1は、図12に示す一連の処理を終了する。 After the processing of step S29 or the processing of step S30 is completed, the estimation unit 258 has one or more of the voice evaluation values CEV1 to CEV4 after the correction and the character evaluation values CET1 to CET4 after the correction. The emotion is estimated and the emotion information EI is output (step S31). The output unit 27 outputs the information obtained by executing the processing corresponding to the emotion indicated by the emotion information EI on the recognition character string RT (step S32). After the processing in step S10 is completed, the user device 1 ends a series of processing shown in FIG.

2.3.第2実施形態の効果
以上の説明によれば、ユーザ装置1aは、ユーザUが認識文字列RTを発声した場合にユーザUの音声に感情が発露される度合いと、状況情報SiIとに基づいて、音声評価値EV1〜EV4、及び、文字評価値ET1〜ET4を補正する。一般的に、発声した場合に感情が発露される度合いが高い文字列と、発声した場合に感情が発露される度合いが低い文字列とが存在するため、発声した場合に感情が発露される度合いに応じて音声評価値EV1〜EV4、及び、文字評価値ET1〜ET4を補正することにより、ユーザUが抱く感情を精度良く推定できる。
2.3. Effect of the Second Embodiment According to the above description, the user device 1a is based on the degree to which emotions are expressed in the voice of the user U when the user U utters the recognition character string RT and the situation information SiI. , Voice evaluation values EV1 to EV4, and character evaluation values ET1 to ET4 are corrected. In general, there are character strings that express emotions when they are uttered and characters that express emotions less when they are uttered. Therefore, the degree to which emotions are expressed when they are uttered. By correcting the voice evaluation values EV1 to EV4 and the character evaluation values ET1 to ET4 according to the above, the emotion held by the user U can be estimated accurately.

また、ユーザ装置1aは、状況関係情報37と文字列関係情報38とを参照して、音声評価値EV1〜EV4、及び、文字評価値ET1〜ET4の各々に対する、認識文字列RTに含まれる文字列及び状況情報SiIが示す状況に応じた重み付け係数kv1〜kv4、kt1〜kt4を設定する。認識文字列RTに含まれる文字列及び状況情報SiIが示す状況に応じた重み付け係数kv1〜kv4、kt1〜kt4を設定することにより、ユーザUが抱く感情を精度良く推定できる。 Further, the user device 1a refers to the situation-related information 37 and the character string-related information 38, and refers to the characters included in the recognition character string RT for each of the voice evaluation values EV1 to EV4 and the character evaluation values ET1 to ET4. The weighting coefficients kv1 to kv4 and kt1 to kt4 are set according to the situation indicated by the column and the situation information SiI. By setting the weighting coefficients kv1 to kv4 and kt1 to kt4 according to the situation indicated by the character string included in the recognition character string RT and the situation information SiI, the emotion held by the user U can be estimated accurately.

3.変形例
本発明は、以上に例示した各実施形態に限定されない。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様を併合してもよい。
3. 3. Modifications The present invention is not limited to the embodiments exemplified above. A specific mode of modification is illustrated below. Two or more aspects arbitrarily selected from the following examples may be merged.

(1)上述の各態様では、ユーザ装置1の処理装置2が、取得部21、状況情報生成部23、感情情報生成部25、及び、出力部27として機能したが、これに限らない。第1変形例では、取得部21、状況情報生成部23、感情情報生成部25、及び、出力部27を、ユーザ装置1bと、サーバ装置10とで分散させる。 (1) In each of the above aspects, the processing device 2 of the user device 1 functions as an acquisition unit 21, a situation information generation unit 23, an emotion information generation unit 25, and an output unit 27, but the present invention is not limited to this. In the first modification, the acquisition unit 21, the situation information generation unit 23, the emotion information generation unit 25, and the output unit 27 are distributed by the user device 1b and the server device 10.

図13は、感情推定システムSYSの全体構成を示す図である。感情推定システムSYSは、ユーザUが所持するユーザ装置1bと、ネットワークNWと、サーバ装置10とを備える。ユーザ装置1bが、「端末装置」の一例である。サーバ装置10が、第1変形例における「感情推定装置」の一例である。 FIG. 13 is a diagram showing the overall configuration of the emotion estimation system SYS. The emotion estimation system SYS includes a user device 1b owned by the user U, a network NW, and a server device 10. The user device 1b is an example of a “terminal device”. The server device 10 is an example of the “emotion estimation device” in the first modification.

図14は、ユーザ装置1bの構成を示すブロック図である。ユーザ装置1bは、処理装置2b、記憶装置3b、入力装置4、出力装置5、通信装置6、慣性センサ7、及び、GPS装置8を具備するコンピュータシステムにより実現される。記憶装置3bは、処理装置2bが読取可能な記録媒体であり、処理装置2bが実行する制御プログラムPRbを含む複数のプログラム、及び、スケジュール情報35を記憶する。 FIG. 14 is a block diagram showing the configuration of the user device 1b. The user device 1b is realized by a computer system including a processing device 2b, a storage device 3b, an input device 4, an output device 5, a communication device 6, an inertial sensor 7, and a GPS device 8. The storage device 3b is a recording medium that can be read by the processing device 2b, and stores a plurality of programs including the control program PRb executed by the processing device 2b, and schedule information 35.

処理装置2bは、記憶装置3bから制御プログラムPRbを読み取り実行することによって、取得部21、状況情報生成部23、及び、出力部27として機能する。 The processing device 2b functions as an acquisition unit 21, a status information generation unit 23, and an output unit 27 by reading and executing the control program PRb from the storage device 3b.

通信装置6は、音声情報VI及び状況情報SiIをサーバ装置10に送信し、サーバ装置10から、認識文字列RT及び感情情報EIを受信する。 The communication device 6 transmits the voice information VI and the status information SiI to the server device 10, and receives the recognition character string RT and the emotion information EI from the server device 10.

図15は、サーバ装置10の構成を示すブロック図である。サーバ装置10は、処理装置2B、記憶装置3B、通信装置6Bを具備するコンピュータシステムにより実現される。サーバ装置10の各要素は、情報を通信するための単体又は複数のバス9Bで相互に接続される。記憶装置3Bは、処理装置2Bが読取可能な記録媒体であり、処理装置2Bが実行する制御プログラムPRBを含む複数のプログラム、解析用辞書情報31、感情分類情報33、状況関係情報37、及び、学習モデルLMを記憶する。 FIG. 15 is a block diagram showing the configuration of the server device 10. The server device 10 is realized by a computer system including a processing device 2B, a storage device 3B, and a communication device 6B. Each element of the server device 10 is connected to each other by a single unit or a plurality of buses 9B for communicating information. The storage device 3B is a recording medium that can be read by the processing device 2B, and includes a plurality of programs including a control program PRB executed by the processing device 2B, analysis dictionary information 31, emotion classification information 33, situation-related information 37, and Store the learning model LM.

処理装置2Bは、記憶装置3Bから制御プログラムPRBを読み取り実行することによって、感情情報生成部25として機能する。 The processing device 2B functions as the emotion information generation unit 25 by reading and executing the control program PRB from the storage device 3B.

通信装置6Bは、音声情報VI及び状況情報SiIをユーザ装置1bから受信し、認識文字列RT及び感情情報EIをユーザ装置1bに送信する。 The communication device 6B receives the voice information VI and the status information SiI from the user device 1b, and transmits the recognition character string RT and the emotion information EI to the user device 1b.

以上、第1変形例によれば、取得部21、状況情報生成部23、感情情報生成部25、及び、出力部27を、ユーザ装置1と、サーバ装置10とで分散することができる。 As described above, according to the first modification, the acquisition unit 21, the situation information generation unit 23, the emotion information generation unit 25, and the output unit 27 can be distributed between the user device 1 and the server device 10.

(2)第2実施形態では、補正部257aは、ユーザUが認識文字列RTを発声した場合にユーザUの音声に感情が発露される度合いと、状況情報SiIとに基づいて、音声評価値EV1〜EV4、及び、文字評価値ET1〜ET4を補正したが、これに限らない。例えば、補正部257aは、ユーザUが認識文字列RTを発声した場合にユーザUの音声に感情が発露される度合いに基づいて、音声評価値EV1〜EV4、及び、文字評価値ET1〜ET4を補正してもよい。 (2) In the second embodiment, the correction unit 257a evaluates the voice based on the degree to which emotions are expressed in the voice of the user U when the user U utters the recognition character string RT and the situation information SiI. EV1 to EV4 and character evaluation values ET1 to ET4 have been corrected, but the present invention is not limited to this. For example, the correction unit 257a sets the voice evaluation values EV1 to EV4 and the character evaluation values ET1 to ET4 based on the degree to which emotions are expressed in the voice of the user U when the user U utters the recognition character string RT. It may be corrected.

(3)プライベート空間の一例が、自宅の中であると記載したが、これに限らない。例えば、プライベート空間は、ユーザUが宿泊するホテルの部屋の中でもよい。例えば、ユーザ装置1が、ホテルの部屋のドアの施錠及び開錠を制御できる機能を有すると前提する。この前提の基、ユーザ装置1がホテルの部屋のドアの開錠を指示し、かつ、開錠を指示した時刻から所定時間が経過するまでの間で、ユーザUの移動範囲が所定範囲内である場合には、ユーザ装置1は、ユーザUが宿泊するホテルの部屋の中にいると判定する。 (3) Although it is described that an example of a private space is in the home, it is not limited to this. For example, the private space may be in the hotel room where the user U stays. For example, it is assumed that the user device 1 has a function of controlling the locking and unlocking of the door of a hotel room. Based on this premise, the movement range of the user U is within the predetermined range from the time when the user device 1 instructs the unlocking of the door of the hotel room and the predetermined time elapses from the time when the unlocking is instructed. In some cases, the user device 1 determines that the user U is in the hotel room where the user U is staying.

(4)非プライベート空間は、公共の交通機関内、及び、職場の中と記載したが、これらに限らない。例えば、非プライベート空間は、学校の中、病院の中、及び、図書館の中等がある。 (4) Non-private space is described as being in public transportation and in the workplace, but it is not limited to these. For example, non-private spaces include schools, hospitals, libraries, and so on.

(5)公共の交通機関を利用する状況の一例として、電車を利用する状況を挙げたが、公共の交通機関を利用している状況は、電車を利用する状況に限られない。例えば、公共の交通機関を利用している状況として、駅構内にいる状況を含めてもよい。例えば、ユーザ装置1が、交通系IC(Integrated Circuit)カード機能を有する場合、交通系ICカード機能によって駅構内にユーザUが入った場合に、ユーザUが公共の交通機関を利用する状況であると判断してもよい。また、公共の交通機関には、電車に限らず、路線バス、タクシー、フェリー、及び、旅客機等も含まれる。 (5) As an example of the situation of using public transportation, the situation of using a train was mentioned, but the situation of using public transportation is not limited to the situation of using a train. For example, the situation of using public transportation may include the situation of being in a station yard. For example, when the user device 1 has a transportation IC (Integrated Circuit) card function, the user U uses public transportation when the user U enters the station yard by the transportation IC card function. You may judge that. In addition, public transportation includes not only trains but also fixed-route buses, taxis, ferries, and passenger planes.

(6)出力部27は、感情情報EIが示す感情に応じた処理を認識文字列RTに対して実行することにより得られる情報を出力するが、この限りではない。例えば、出力部27は、感情情報EIが示す感情を示す文字列を、表示装置51に出力してもよいし、感情情報EIが示す絵文字を、表示装置51に出力する。 (6) The output unit 27 outputs information obtained by executing the processing corresponding to the emotion indicated by the emotion information EI on the recognition character string RT, but the present invention is not limited to this. For example, the output unit 27 may output a character string indicating the emotion indicated by the emotion information EI to the display device 51, or output the pictogram indicated by the emotion information EI to the display device 51.

(7)ユーザ装置1は、集音装置41を有さなくてもよい。集音装置41を有さない場合、ユーザ装置1は、通信装置6を介して音声情報VIを取得してもよいし、記憶装置3に記憶された音声情報VIを取得してもよい。 (7) The user device 1 does not have to have the sound collecting device 41. When the sound collecting device 41 is not provided, the user device 1 may acquire the voice information VI via the communication device 6 or may acquire the voice information VI stored in the storage device 3.

(8)ユーザ装置1は、放音装置53を有さなくてもよい。 (8) The user device 1 does not have to have the sound emitting device 53.

(9)ユーザ装置1は、スマートスピーカでもよい。ユーザ装置1がスマートスピーカである場合、ユーザ装置1は、タッチパネル43及び表示装置51を有さなくてもよい。 (9) The user device 1 may be a smart speaker. When the user device 1 is a smart speaker, the user device 1 does not have to have the touch panel 43 and the display device 51.

(10)感情分類情報33は、図4に示すように、「勝つ」、「勝っ」のように、ある単語が活用した複数の形態素のそれぞれを、喜び、怒り、悲しみ、及び、平常の何れかに分類したが、これに限らない。例えば、感情分類情報33は、解析用辞書情報31の原形データに登録された文字列を、喜び、怒り、悲しみ、及び、平常の何れかに分類してもよい。例えば、感情分類情報33は、解析用辞書情報31の原形データに登録された文字列「嬉しい」、「合格」、及び「勝つ」を、喜びに分類する。算出部2554は、補正後認識文字列CRTを形態素ごとに分解し、分解した形態素を、解析用辞書情報31の原形データに登録された文字列に変換する。そして、算出部2554は、変換して得られた文字列と、感情分類情報33に含まれる文字列とが一致する場合に、この補正後認識文字列CRTに含まれる文字列に対応する感情の文字評価値ETを増加させる。 (10) As shown in FIG. 4, the emotion classification information 33 is either joy, anger, sadness, or normal for each of a plurality of morphemes utilized by a certain word, such as "win" and "win". However, it is not limited to this. For example, the emotion classification information 33 may classify the character string registered in the prototype data of the analysis dictionary information 31 into any of joy, anger, sadness, and normal. For example, the emotion classification information 33 classifies the character strings “happy”, “pass”, and “win” registered in the prototype data of the analysis dictionary information 31 into joy. The calculation unit 2554 decomposes the corrected recognition character string CRT for each morpheme, and converts the decomposed morpheme into a character string registered in the original form data of the analysis dictionary information 31. Then, when the character string obtained by conversion and the character string included in the emotion classification information 33 match, the calculation unit 2554 determines the emotion corresponding to the character string included in the corrected recognition character string CRT. Increase the character evaluation value ET.

(11)算出部2554は、補正後認識文字列CRTに対して、感情ごとの文字評価値ETを算出したが、認識文字列RTに対して感情ごとの文字評価値ETを算出してもよい。しかしながら、認識文字列RTには、感情を推定するためには不要な文字列が含まれる。従って、補正後認識文字列CRTに対して感情ごとの文字評価値ETを算出することにより、認識文字列RTに対して感情ごとの文字評価値ETを算出する場合と比較して、感情の推定精度を向上できる。 (11) Although the calculation unit 2554 calculated the character evaluation value ET for each emotion with respect to the corrected recognition character string CRT, the character evaluation value ET for each emotion may be calculated with respect to the recognition character string RT. .. However, the recognition character string RT includes a character string that is unnecessary for estimating emotions. Therefore, by calculating the character evaluation value ET for each emotion for the corrected recognition character string CRT, the emotion is estimated as compared with the case where the character evaluation value ET for each emotion is calculated for the recognition character string RT. The accuracy can be improved.

(12)ユーザUが日本語を話す例を用いたが、ユーザが如何なる言語を話しても上述の各態様を適用することが可能である。例えば、ユーザUが、日本語以外の英語、フランス語、又は中国語等を話す場合であっても上述の各態様を適用できる。例えば、ユーザUが英語を話す場合、解析用辞書情報31は、英語の形態素に関する情報であり、感情分類情報33は、英単語を喜び、怒り、悲しみ、及び、平常の何れかに分類した情報であればよい。 (12) Although the example in which the user U speaks Japanese is used, each of the above aspects can be applied regardless of the language spoken by the user. For example, even when the user U speaks English, French, Chinese, or the like other than Japanese, each of the above aspects can be applied. For example, when the user U speaks English, the analysis dictionary information 31 is information related to English morphemes, and the emotion classification information 33 is information that classifies English words into any of joy, anger, sadness, and normal. It should be.

(13)上述した各態様の説明に用いたブロック図は、機能単位のブロックを示している。これらの機能ブロック(構成部)は、ハードウェア及び/又はソフトウェアの任意の組み合わせによって実現される。また、各機能ブロックの実現手段は特に限定されない。すなわち、各機能ブロックは、物理的及び/又は論理的に結合した1つの装置により実現されてもよいし、物理的及び/又は論理的に分離した2つ以上の装置を直接的及び/又は間接的に(例えば、有線及び/又は無線)で接続し、これら複数の装置により実現されてもよい。 (13) The block diagram used in the description of each of the above-described aspects shows a block of functional units. These functional blocks (components) are realized by any combination of hardware and / or software. Further, the means for realizing each functional block is not particularly limited. That is, each functional block may be realized by one physically and / or logically coupled device, or directly and / or indirectly by two or more physically and / or logically separated devices. (For example, wired and / or wireless) may be connected and realized by these plurality of devices.

(14)上述した各態様における処理手順、シーケンス、フローチャートなどは、矛盾のない限り、順序を入れ替えてもよい。例えば、本明細書で説明した方法については、例示的な順序で様々なステップの要素を提示しており、提示した特定の順序に限定されない。 (14) The order of the processing procedures, sequences, flowcharts, etc. in each of the above-described aspects may be changed as long as there is no contradiction. For example, the methods described herein present elements of various steps in an exemplary order, and are not limited to the particular order presented.

(15)上述した各態様において、入出力された情報等は特定の場所(例えば、メモリ)に保存されてもよいし、管理テーブルで管理してもよい。入出力される情報等は、上書き、更新、又は追記され得る。出力された情報等は削除されてもよい。入力された情報等は他の装置へ送信されてもよい。 (15) In each of the above-described aspects, the input / output information and the like may be stored in a specific place (for example, a memory) or may be managed by a management table. Input / output information and the like can be overwritten, updated, or added. The output information and the like may be deleted. The input information or the like may be transmitted to another device.

(16)上述した各態様において、判定は、1ビットで表される値(0か1か)によって行われてもよいし、真偽値(Boolean:true又はfalse)によって行われてもよいし、数値の比較(例えば、所定の値との比較)によって行われてもよい。 (16) In each of the above-described aspects, the determination may be made by a value represented by 1 bit (0 or 1) or by a boolean value (Boolean: true or false). , May be done by numerical comparison (eg, comparison with a given value).

(17)上述した各態様では、スマートフォン等の可搬型の情報処理装置をユーザ装置1として例示したが、ユーザ装置1の具体的な形態は任意であり、前述の各形態の例示には限定されない。例えば、可搬型又は据置型のパーソナルコンピュータをユーザ装置1として利用してもよい。 (17) In each of the above-described aspects, a portable information processing device such as a smartphone is illustrated as the user device 1, but the specific form of the user device 1 is arbitrary and is not limited to the above-mentioned examples of each form. .. For example, a portable or stationary personal computer may be used as the user device 1.

(18)上述した各態様では、記憶装置3は、処理装置2が読取可能な記録媒体であり、ROM及びRAMなどを例示したが、フレキシブルディスク、光磁気ディスク(例えば、コンパクトディスク、デジタル多用途ディスク、Blu−ray(登録商標)ディスク)、スマートカード、フラッシュメモリデバイス(例えば、カード、スティック、キードライブ)、CD−ROM(Compact Disc−ROM)、レジスタ、リムーバブルディスク、ハードディスク、フロッピー(登録商標)ディスク、磁気ストリップ、データベース、サーバその他の適切な記憶媒体である。また、プログラムは、ネットワークから送信されても良い。また、プログラムは、電気通信回線を介して通信網から送信されても良い。 (18) In each of the above-described aspects, the storage device 3 is a recording medium that can be read by the processing device 2, and examples thereof include a ROM and a RAM. Discs, Blu-ray® discs), smart cards, flash memory devices (eg cards, sticks, key drives), CD-ROMs (Compact Disc-ROMs), registers, removable disks, hard disks, floppies (registered trademarks) ) Disks, magnetic strips, databases, servers and other suitable storage media. The program may also be transmitted from the network. The program may also be transmitted from the communication network via a telecommunication line.

(19)上述した各態様は、LTE(Long Term Evolution)、LTE−A(LTE-Advanced)、SUPER 3G、IMT−Advanced、4G、5G、FRA(Future Radio Access)、W−CDMA(登録商標)、GSM(登録商標)、CDMA2000、UMB(Ultra Mobile Broadband)、IEEE 802.11(Wi−Fi)、IEEE 802.16(WiMAX)、IEEE 802.20、UWB(Ultra-WideBand)、Bluetooth(登録商標)、その他の適切なシステムを利用するシステム及び/又はこれらに基づいて拡張された次世代システムに適用されてもよい。 (19) Each of the above-described aspects includes LTE (Long Term Evolution), LTE-A (LTE-Advanced), SUPER 3G, IMT-Advanced, 4G, 5G, FRA (Future Radio Access), and W-CDMA (registered trademark). , GSM (registered trademark), CDMA2000, UMB (Ultra Mobile Broadband), IEEE 802.11 (Wi-Fi), IEEE 802.16 (WiMAX), IEEE 802.20, UWB (Ultra-WideBand), Bluetooth (registered trademark) ), Other systems that utilize suitable systems and / or next-generation systems that are extended based on them.

(20)上述した各態様において、説明した情報及び信号などは、様々な異なる技術の何れかを使用して表されてもよい。例えば、上述の説明全体に渡って言及され得るデータ、命令、コマンド、情報、信号、ビット、シンボル、チップなどは、電圧、電流、電磁波、磁界若しくは磁性粒子、光場若しくは光子、又はこれらの任意の組み合わせによって表されてもよい。
なお、本明細書で説明した用語及び/又は本明細書の理解に必要な用語については、同一の又は類似する意味を有する用語と置き換えてもよい。
(20) In each of the above aspects, the information, signals, and the like described may be represented using any of a variety of different techniques. For example, data, instructions, commands, information, signals, bits, symbols, chips, etc. that may be referred to throughout the above description are voltages, currents, electromagnetic waves, magnetic fields or magnetic particles, light fields or photons, or any of these. It may be represented by a combination of.
In addition, the terms described in the present specification and / or the terms necessary for understanding the present specification may be replaced with terms having the same or similar meanings.

(21)図2、図6、図9、図10、図14、及び、図15に例示された各機能は、ハードウェア及びソフトウェアの任意の組み合わせによって実現される。また、各機能は、単体の装置によって実現されてもよいし、相互に別体で構成された2個以上の装置によって実現されてもよい。 (21) Each of the functions illustrated in FIGS. 2, 6, 9, 10, 14, and 15 is realized by any combination of hardware and software. Further, each function may be realized by a single device, or may be realized by two or more devices configured as separate bodies from each other.

(22)上述した各実施形態で例示したプログラムは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード又はハードウェア記述言語と呼ばれるか、他の名称によって呼ばれるかを問わず、命令、命令セット、コード、コードセグメント、プログラムコード、サブプログラム、ソフトウェアモジュール、アプリケーション、ソフトウェアアプリケーション、ソフトウェアパッケージ、ルーチン、サブルーチン、オブジェクト、実行可能ファイル、実行スレッド、手順又は機能等を意味するよう広く解釈されるべきである。
また、ソフトウェア、命令などは、伝送媒体を介して送受信されてもよい。例えば、ソフトウェアが、同軸ケーブル、光ファイバケーブル、ツイストペア及びデジタル加入者回線(DSL)などの有線技術及び/又は赤外線、無線及びマイクロ波などの無線技術を使用してウェブサイト、サーバ、又は他のリモートソースから送信される場合、これらの有線技術及び/又は無線技術は、伝送媒体の定義内に含まれる。
(22) The programs exemplified in each of the above-described embodiments are called instructions, instruction sets, codes, code segments regardless of whether they are called software, firmware, middleware, microcode or hardware description language, or by other names. , Program code, subprograms, software modules, applications, software applications, software packages, routines, subroutines, objects, executables, execution threads, procedures or functions, etc. should be broadly interpreted to mean.
Further, software, instructions, and the like may be transmitted and received via a transmission medium. For example, the software uses wired technology such as coaxial cable, fiber optic cable, twist pair and digital subscriber line (DSL) and / or wireless technology such as infrared, wireless and microwave to websites, servers, or other When transmitted from a remote source, these wired and / or wireless technologies are included within the definition of transmission medium.

(23)上述した各実施形態において、情報、パラメータなどは、絶対値で表されてもよいし、所定の値からの相対値で表されてもよいし、対応する別の情報で表されてもよい。 (23) In each of the above-described embodiments, the information, parameters, etc. may be represented by absolute values, relative values from a predetermined value, or other corresponding information. May be good.

(24)上述したパラメータに使用する名称はいかなる点においても限定的なものではない。さらに、これらのパラメータを使用する数式等は、本明細書で明示的に開示したものと異なる場合もある。 (24) The names used for the above-mentioned parameters are not limited in any respect. Further, mathematical formulas and the like using these parameters may differ from those expressly disclosed herein.

(25)上述した各実施形態において、ユーザ装置1は、移動局である場合が含まれる。移動局は、当業者によって、加入者局、モバイルユニット、加入者ユニット、ワイヤレスユニット、リモートユニット、モバイルデバイス、ワイヤレスデバイス、ワイヤレス通信デバイス、リモートデバイス、モバイル加入者局、アクセス端末、モバイル端末、ワイヤレス端末、リモート端末、ハンドセット、ユーザエージェント、モバイルクライアント、クライアント、又はいくつかの他の適切な用語で呼ばれる場合もある。 (25) In each of the above-described embodiments, the user device 1 includes a case where it is a mobile station. Mobile stations can be subscriber stations, mobile units, subscriber units, wireless units, remote units, mobile devices, wireless devices, wireless communication devices, remote devices, mobile subscriber stations, access terminals, mobile terminals, wireless, depending on the trader. It may also be referred to as a terminal, remote terminal, handset, user agent, mobile client, client, or some other suitable term.

(26)上述した各実施形態において、「に基づいて」という記載は、別段に明記されていない限り、「のみに基づいて」を意味しない。言い換えれば、「に基づいて」という記載は、「のみに基づいて」と「に少なくとも基づいて」の両方を意味する。 (26) In each of the above embodiments, the phrase "based on" does not mean "based on" unless otherwise stated. In other words, the statement "based on" means both "based only" and "at least based on".

(27)本明細書で使用する「第1」、「第2」などの呼称を使用した要素へのいかなる参照も、それらの要素の量又は順序を全般的に限定するものではない。これらの呼称は、2つ以上の要素間を区別する便利な方法として本明細書で使用され得る。従って、第1及び第2の要素への参照は、2つの要素のみがそこで採用され得ること、又は何らかの形で第1の要素が第2の要素に先行しなければならないことを意味しない。 (27) Any reference to elements using designations such as "first", "second" as used herein does not generally limit the quantity or order of those elements. These designations can be used herein as a convenient way to distinguish between two or more elements. Thus, references to the first and second elements do not mean that only two elements can be adopted there, or that the first element must somehow precede the second element.

(28)上述した各実施形態において「含む(including)」、「含んでいる(comprising)」、及びそれらの変形が、本明細書あるいは特許請求の範囲で使用されている限り、これら用語は、用語「備える」と同様に、包括的であることが意図される。さらに、本明細書あるいは特許請求の範囲において使用されている用語「又は(or)」は、排他的論理和ではないことが意図される。 (28) As long as "inclusion," "comprising," and variations thereof in each of the embodiments described above are used herein or within the scope of the claims, these terms are used. As with the term "prepare", it is intended to be inclusive. Furthermore, the term "or" as used herein or in the claims is intended not to be an exclusive OR.

(29)本願の全体において、例えば、英語におけるa、an及びtheのように、翻訳によって冠詞が追加された場合、これらの冠詞は、文脈から明らかにそうではないことが示されていなければ、複数を含む。 (29) In the whole of the present application, if articles are added by translation, for example, a, an and the in English, unless the context clearly indicates that these articles are not. Including multiple.

(30)本発明が本明細書中に説明した実施形態に限定されないことは当業者にとって明白である。本発明は、特許請求の範囲の記載に基づいて定まる本発明の趣旨及び範囲を逸脱することなく修正及び変更態様として実施できる。従って、本明細書の記載は、例示的な説明を目的とし、本発明に対して何ら制限的な意味を有さない。また、本明細書に例示した態様から選択された複数の態様を組み合わせてもよい。 (30) It will be apparent to those skilled in the art that the present invention is not limited to the embodiments described herein. The present invention can be implemented as modifications and modifications without departing from the spirit and scope of the present invention, which is determined based on the description of the scope of claims. Therefore, the description herein is for illustrative purposes and has no limiting implications for the present invention. In addition, a plurality of aspects selected from the aspects illustrated in the present specification may be combined.

1、1a、1b…ユーザ装置、6…通信装置、10…サーバ装置、21…取得部、23…状況情報生成部、25、25a…感情情報生成部、27…出力部、37…状況関係情報、38…文字列関係情報、41…集音装置、251…特徴量生成部、252…第1評価部
254…認識部、255…第2評価部、257、257a…補正部、258…推定部、CET1…補正後の文字評価値、CET2…補正後の文字評価値、CET3…補正後の文字評価値、CET4…補正後の文字評価値、CEV1…補正後の音声評価値、CEV2…補正後の音声評価値、CEV3…補正後の音声評価値、CEV4…補正後の音声評価値、EI…感情情報、ET1…文字評価値、ET2…文字評価値、ET3…文字評価値、ET4…文字評価値、EV1…音声評価値、EV2…音声評価値、EV3…音声評価値、EV4…音声評価値、kt1…重み付け係数、kt2…重み付け係数、kt3…重み付け係数、kt4…重み付け係数、kv1…重み付け係数、kv2…重み付け係数、kv3…重み付け係数、kv4…重み付け係数。
1, 1a, 1b ... user device, 6 ... communication device, 10 ... server device, 21 ... acquisition unit, 23 ... situation information generation unit, 25, 25a ... emotion information generation unit, 27 ... output unit, 37 ... situation-related information , 38 ... Character string related information, 41 ... Sound collector, 251 ... Feature amount generation unit, 252 ... First evaluation unit 254 ... Recognition unit, 255 ... Second evaluation unit, 257 ... 257a ... Correction unit, 258 ... Estimating unit , CET1 ... Corrected character evaluation value, CET2 ... Corrected character evaluation value, CET3 ... Corrected character evaluation value, CET4 ... Corrected character evaluation value, CEV1 ... Corrected voice evaluation value, CEV2 ... After correction Voice evaluation value, CEV3 ... Corrected voice evaluation value, CEV4 ... Corrected voice evaluation value, EI ... Emotion information, ET1 ... Character evaluation value, ET2 ... Character evaluation value, ET3 ... Character evaluation value, ET4 ... Character evaluation Value, EV1 ... Voice evaluation value, EV2 ... Voice evaluation value, EV3 ... Voice evaluation value, EV4 ... Voice evaluation value, kt1 ... Weighting coefficient, kt2 ... Weighting coefficient, kt3 ... Weighting coefficient, kt4 ... Weighting coefficient, kv1 ... Weighting coefficient , Kv2 ... Weighting coefficient, kv3 ... Weighting coefficient, kv4 ... Weighting coefficient.

Claims (9)

ユーザの音声情報に基づいて、前記ユーザの音声について特徴量を生成する生成部と、
前記特徴量に基づいて、前記ユーザが第1感情を抱く強度を示す第1音声評価値と、前記ユーザが第2感情を抱く強度を示す第2音声評価値とを生成する第1評価部と、
前記音声情報に基づいて、前記ユーザの発話内容を示す認識文字列を生成する認識部と、
前記認識文字列に基づいて、前記ユーザが前記第1感情を抱く強度を示す第1文字評価値と、前記ユーザが前記第2感情を抱く強度を示す第2文字評価値とを生成する第2評価部と、
前記ユーザの状況を示す状況情報に基づいて、前記第1音声評価値、前記第2音声評価値、前記第1文字評価値、及び、前記第2文字評価値を補正する補正部と、
前記補正部の補正結果に基づいて、前記ユーザが抱く1つ以上の感情を推定する推定部と、
を備える感情推定装置。
A generation unit that generates a feature amount for the user's voice based on the user's voice information,
Based on the feature amount, a first evaluation unit that generates a first voice evaluation value indicating the intensity with which the user has a first emotion and a second voice evaluation value indicating the intensity with which the user has a second emotion. ,
A recognition unit that generates a recognition character string indicating the utterance content of the user based on the voice information,
Based on the recognition character string, a second character evaluation value indicating the strength with which the user has the first emotion and a second character evaluation value indicating the strength with the user having the second emotion are generated. Evaluation department and
A correction unit that corrects the first voice evaluation value, the second voice evaluation value, the first character evaluation value, and the second character evaluation value based on the situation information indicating the user's situation.
An estimation unit that estimates one or more emotions held by the user based on the correction result of the correction unit, and an estimation unit.
Emotion estimator equipped with.
前記第1評価部は、
人間の音声に応じた特徴量と当該音声を発した人間が抱く前記第1感情及び前記第2感情の各々に対する強度との関係を学習済みの学習モデルに、前記生成部が生成した特徴量を入力し、前記第1音声評価値と前記第2音声評価値とを前記学習モデルから取得する、
請求項1に記載の感情推定装置。
The first evaluation unit
The feature amount generated by the generation unit is applied to a learning model in which the relationship between the feature amount corresponding to the human voice and the intensity of each of the first emotion and the second emotion held by the person who emits the voice is learned. Input and acquire the first voice evaluation value and the second voice evaluation value from the learning model.
The emotion estimation device according to claim 1.
前記学習モデルは、複数の人間について、前記人間の音声に応じた複数の特徴量と当該音声を発した人間が抱く前記第1感情及び前記第2感情の各々に対する強度との関係を学習済みである、
請求項2に記載の感情推定装置。
The learning model has already learned the relationship between a plurality of features corresponding to the human voice and the intensity of each of the first emotion and the second emotion held by the person who emitted the voice for a plurality of humans. is there,
The emotion estimation device according to claim 2.
前記補正部は、
人間が取り得る状況を示す識別情報と、当該状況に応じて設定された前記第1音声評価値、前記第2音声評価値、前記第1文字評価値、及び、前記第2文字評価値の各々に対する重み付け係数との関係を示す状況関係情報を参照して、
前記状況情報が示す状況に応じた前記第1音声評価値、前記第2音声評価値、前記第1文字評価値、及び、前記第2文字評価値の各々に対する重み付け係数を設定し、
前記第1音声評価値、前記第2音声評価値、前記第1文字評価値、及び、前記第2文字評価値の各々に対する重み付け係数に基づいて、前記第1音声評価値、前記第2音声評価値、前記第1文字評価値、及び、前記第2文字評価値を補正する、
請求項1から3までのいずれか1項に記載の感情推定装置。
The correction unit
Identification information indicating a situation that a human can take, and each of the first voice evaluation value, the second voice evaluation value, the first character evaluation value, and the second character evaluation value set according to the situation. With reference to the contextual information that shows the relationship with the weighting factor for
A weighting coefficient for each of the first voice evaluation value, the second voice evaluation value, the first character evaluation value, and the second character evaluation value according to the situation indicated by the situation information is set.
The first voice evaluation value and the second voice evaluation value are based on the weighting coefficients for each of the first voice evaluation value, the second voice evaluation value, the first character evaluation value, and the second character evaluation value. Correct the value, the first character evaluation value, and the second character evaluation value.
The emotion estimation device according to any one of claims 1 to 3.
前記状況関係情報は、
前記ユーザの許可なく立ち入りが禁止されるプライベート空間内に前記ユーザがいる状況を示す識別情報に関係する重み付け係数について、前記第1音声評価値に対する重み付け係数が前記第1文字評価値に対する重み付け係数より大きく、かつ、前記第2音声評価値に対する重み付け係数が前記第2文字評価値に対する重み付け係数より大きい、
ことを示す、
請求項4に記載の感情推定装置。
The situation-related information is
Regarding the weighting coefficient related to the identification information indicating the situation where the user is in the private space where entry is prohibited without the permission of the user, the weighting coefficient for the first voice evaluation value is larger than the weighting coefficient for the first character evaluation value. And, the weighting coefficient for the second voice evaluation value is larger than the weighting coefficient for the second character evaluation value.
Show that
The emotion estimation device according to claim 4.
前記状況関係情報は、
前記ユーザの許可なく立ち入りが可能な非プライベート空間内に前記ユーザがいる状況を示す識別情報に関係する重み付け係数について、前記第1文字評価値に対する重み付け係数が前記第1音声評価値に対する重み付け係数より大きく、かつ、前記第2文字評価値に対する重み付け係数が前記第2音声評価値に対する重み付け係数より大きい、
ことを示す、
請求項4に記載の感情推定装置。
The situation-related information is
Regarding the weighting coefficient related to the identification information indicating the situation where the user is in the non-private space that can be entered without the permission of the user, the weighting coefficient for the first character evaluation value is larger than the weighting coefficient for the first voice evaluation value. And, the weighting coefficient for the second character evaluation value is larger than the weighting coefficient for the second voice evaluation value.
Show that
The emotion estimation device according to claim 4.
前記補正部は、
前記ユーザが前記認識文字列を発声した場合に前記ユーザの音声に感情が発露される度合いと、前記状況情報とに基づいて、前記第1音声評価値、前記第2音声評価値、前記第1文字評価値、及び、前記第2文字評価値を補正する、
請求項1から3までのいずれか1項に記載の感情推定装置。
The correction unit
The first voice evaluation value, the second voice evaluation value, and the first voice evaluation value are based on the degree to which emotions are expressed in the user's voice when the user utters the recognition character string and the situation information. Correct the character evaluation value and the second character evaluation value.
The emotion estimation device according to any one of claims 1 to 3.
前記補正部は、
前記人間が取り得る状況を示す識別情報と、当該状況に応じて設定された前記第1音声評価値、前記第2音声評価値、前記第1文字評価値、及び、前記第2文字評価値の各々に対する重み付け係数との関係を示す状況関係情報と、
人間が発声する文字列と、前記文字列を発声した場合において人間の音声に感情が発露される度合いに基づき設定された前記第1音声評価値、前記第2音声評価値、前記第1文字評価値、及び、前記第2文字評価値の各々に対する重み付け係数の増減値との関係を示す文字列関係情報と、
を参照し、
前記第1音声評価値、前記第2音声評価値、前記第1文字評価値、及び、前記第2文字評価値の各々に対する、前記認識文字列に含まれる文字列及び前記状況情報が示す状況に応じた重み付け係数を設定し、
前記認識文字列に含まれる文字列及び前記状況情報が示す状況に応じた重み付け係数に基づいて、前記第1音声評価値、前記第2音声評価値、前記第1文字評価値、及び、前記第2文字評価値を補正する、
請求項1から3までのいずれか1項に記載の感情推定装置。
The correction unit
Identification information indicating a situation that a human can take, and the first voice evaluation value, the second voice evaluation value, the first character evaluation value, and the second character evaluation value set according to the situation. Situation-related information showing the relationship with the weighting coefficient for each,
The first voice evaluation value, the second voice evaluation value, and the first character evaluation set based on the character string uttered by a human and the degree to which emotions are expressed in the human voice when the character string is uttered. Character string relationship information indicating the relationship between the value and the increase / decrease value of the weighting coefficient for each of the second character evaluation values, and
Refer to
The character string included in the recognition character string and the situation indicated by the situation information for each of the first voice evaluation value, the second voice evaluation value, the first character evaluation value, and the second character evaluation value. Set the weighting coefficient according to
The first voice evaluation value, the second voice evaluation value, the first character evaluation value, and the first character evaluation value, based on the character string included in the recognition character string and the weighting coefficient according to the situation indicated by the situation information. Correct the two-character evaluation value,
The emotion estimation device according to any one of claims 1 to 3.
請求項1から8までの何れか1項に記載の感情推定装置と、前記感情推定装置と通信可能な端末装置とを備える感情推定システムであって、
前記端末装置は、
前記ユーザの音声を集音する集音装置と、
前記状況情報を生成する状況情報生成部と、
前記ユーザの音声を示す前記音声情報及び前記状況情報を前記感情推定装置に送信し、前記感情推定装置から、前記認識文字列、及び、前記推定部が推定した前記ユーザが抱く1つ以上の感情を示す感情情報を受信する通信装置と、
前記感情情報が示す感情に応じた処理を前記認識文字列に対して実行することにより得られる情報を出力する出力部と、
を備える感情推定システム。
An emotion estimation system including the emotion estimation device according to any one of claims 1 to 8 and a terminal device capable of communicating with the emotion estimation device.
The terminal device is
A sound collecting device that collects the user's voice and
The situation information generation unit that generates the situation information and
The voice information indicating the user's voice and the situation information are transmitted to the emotion estimation device, and the recognition character string and one or more emotions held by the user estimated by the estimation unit are transmitted from the emotion estimation device. A communication device that receives emotional information indicating
An output unit that outputs information obtained by executing processing according to the emotion indicated by the emotion information on the recognition character string, and an output unit.
Emotion estimation system with.
JP2019126106A 2019-07-05 2019-07-05 Emotion estimation device and emotion estimation system Active JP7379788B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019126106A JP7379788B2 (en) 2019-07-05 2019-07-05 Emotion estimation device and emotion estimation system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019126106A JP7379788B2 (en) 2019-07-05 2019-07-05 Emotion estimation device and emotion estimation system

Publications (2)

Publication Number Publication Date
JP2021012285A true JP2021012285A (en) 2021-02-04
JP7379788B2 JP7379788B2 (en) 2023-11-15

Family

ID=74227962

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019126106A Active JP7379788B2 (en) 2019-07-05 2019-07-05 Emotion estimation device and emotion estimation system

Country Status (1)

Country Link
JP (1) JP7379788B2 (en)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006277567A (en) * 2005-03-30 2006-10-12 Nec Corp Portable terminal with mail creation function using speech emotion recognition, portable terminal system, and mail creation method using speech emotion recognition
JP2010054568A (en) * 2008-08-26 2010-03-11 Oki Electric Ind Co Ltd Emotional identification device, method and program
JP2018072876A (en) * 2016-10-24 2018-05-10 富士ゼロックス株式会社 Emotion estimation system and emotion estimation model generation system
JP2018132704A (en) * 2017-02-16 2018-08-23 トヨタ自動車株式会社 Dialog device

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108564942B (en) 2018-04-04 2021-01-26 南京师范大学 Voice emotion recognition method and system based on adjustable sensitivity

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006277567A (en) * 2005-03-30 2006-10-12 Nec Corp Portable terminal with mail creation function using speech emotion recognition, portable terminal system, and mail creation method using speech emotion recognition
JP2010054568A (en) * 2008-08-26 2010-03-11 Oki Electric Ind Co Ltd Emotional identification device, method and program
JP2018072876A (en) * 2016-10-24 2018-05-10 富士ゼロックス株式会社 Emotion estimation system and emotion estimation model generation system
JP2018132704A (en) * 2017-02-16 2018-08-23 トヨタ自動車株式会社 Dialog device

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
松井 辰哉: "対話システムに向けたマルチモーダル感情推定及び知識獲得手法", 情報処理学会第78回全国大会, JPN6022054724, 10 March 2016 (2016-03-10), JP, pages 203 - 4, ISSN: 0005086388 *

Also Published As

Publication number Publication date
JP7379788B2 (en) 2023-11-15

Similar Documents

Publication Publication Date Title
EP2801091B1 (en) Method, apparatus and computer program product for joint use of speech and text-based features for sentiment detection
US11200506B2 (en) Chatbot integrating derived user intent
US9558743B2 (en) Integration of semantic context information
US8930187B2 (en) Methods, apparatuses and computer program products for implementing automatic speech recognition and sentiment detection on a device
US20180225306A1 (en) Method and system to recommend images in a social application
US20200012724A1 (en) Bidirectional speech translation system, bidirectional speech translation method and program
US20140025381A1 (en) Evaluating text-to-speech intelligibility using template constrained generalized posterior probability
US20140214426A1 (en) System and method for improving voice communication over a network
KR20150037986A (en) Determining hotword suitability
CN108242236A (en) Dialog process device and its vehicle and dialog process method
US11574637B1 (en) Spoken language understanding models
CN108922521A (en) A kind of voice keyword retrieval method, apparatus, equipment and storage medium
CN112530408A (en) Method, apparatus, electronic device, and medium for recognizing speech
US11823669B2 (en) Information processing apparatus and information processing method
US10866948B2 (en) Address book management apparatus using speech recognition, vehicle, system and method thereof
JP6782329B1 (en) Emotion estimation device, emotion estimation system, and emotion estimation method
US20220035840A1 (en) Data management device, data management method, and program
JP7379788B2 (en) Emotion estimation device and emotion estimation system
US20220036381A1 (en) Data disclosure device, data disclosure method, and program
Valsaraj et al. Alzheimer’s dementia detection using acoustic & linguistic features and pre-trained BERT
US20220122596A1 (en) Method and system of automatic context-bound domain-specific speech recognition
US20230034450A1 (en) Semantically-augmented context representation generation
Dahanayaka et al. A multi-modular approach for sign language and speech recognition for deaf-mute people
CN111582708A (en) Medical information detection method, system, electronic device and computer-readable storage medium
JP7279287B2 (en) Emotion estimation device and emotion estimation system

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220209

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221128

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221227

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230221

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230620

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230714

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231003

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231012

R150 Certificate of patent or registration of utility model

Ref document number: 7379788

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150