JP2021012285A - Emotion estimation device, and emotion estimation system - Google Patents
Emotion estimation device, and emotion estimation system Download PDFInfo
- Publication number
- JP2021012285A JP2021012285A JP2019126106A JP2019126106A JP2021012285A JP 2021012285 A JP2021012285 A JP 2021012285A JP 2019126106 A JP2019126106 A JP 2019126106A JP 2019126106 A JP2019126106 A JP 2019126106A JP 2021012285 A JP2021012285 A JP 2021012285A
- Authority
- JP
- Japan
- Prior art keywords
- evaluation value
- voice
- user
- emotion
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 222
- 238000011156 evaluation Methods 0.000 claims abstract description 264
- 238000012937 correction Methods 0.000 claims abstract description 49
- 238000012545 processing Methods 0.000 claims description 44
- 238000004891 communication Methods 0.000 claims description 17
- 230000002996 emotional effect Effects 0.000 claims description 9
- 241000282412 Homo Species 0.000 claims description 4
- 230000014509 gene expression Effects 0.000 abstract description 8
- 238000000034 method Methods 0.000 description 32
- 238000004458 analytical method Methods 0.000 description 22
- 230000006870 function Effects 0.000 description 22
- 238000010586 diagram Methods 0.000 description 18
- 238000004364 calculation method Methods 0.000 description 17
- 101100166845 Arabidopsis thaliana CESA3 gene Proteins 0.000 description 11
- 101150072317 CET1 gene Proteins 0.000 description 11
- 101100327481 Nicotiana tabacum CET4 gene Proteins 0.000 description 11
- 238000012986 modification Methods 0.000 description 7
- 230000004048 modification Effects 0.000 description 7
- 230000000877 morphologic effect Effects 0.000 description 7
- 101100327480 Nicotiana tabacum CET2 gene Proteins 0.000 description 6
- 206010011469 Crying Diseases 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000003247 decreasing effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005401 electroluminescence Methods 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 230000001747 exhibiting effect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 239000000945 filler Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000033001 locomotion Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 239000006249 magnetic particle Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000029305 taxis Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Landscapes
- User Interface Of Digital Computer (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、感情推定装置、及び、感情推定システムに関する。 The present invention relates to an emotion estimation device and an emotion estimation system.
近年、喜び、怒り、悲しみ、及び、平常等のユーザが抱く感情を、ユーザの状況を考慮して推定する技術が知られている。例えば、特許文献1には、ユーザの音声情報の特徴量と感情との関係を学習済みの学習モデルに、ユーザの状況に応じて補正された特徴量を入力して、学習モデルからユーザが抱く感情を出力させる技術が開示されている。
In recent years, there has been known a technique for estimating joy, anger, sadness, and emotions held by a normal user in consideration of the user's situation. For example, in
しかしながら、ユーザの音声について感情の発露が乏しい状況では、感情を音声に発露しにくい状況なのか、又は、そもそもユーザが感情を込めて発露していない状況なのかが判断することが困難であるため、ユーザが抱く感情を精度良く判断することが困難である。 However, in a situation where emotions are poorly expressed in the user's voice, it is difficult to determine whether it is difficult to express emotions in the voice or whether the user does not express emotions in the first place. , It is difficult to accurately judge the emotions that the user has.
本発明の好適な態様にかかる感情推定装置は、ユーザの音声情報に基づいて、前記ユーザの音声について特徴量を生成する生成部と、前記特徴量に基づいて、前記ユーザが第1感情を抱く強度を示す第1音声評価値と、前記ユーザが第2感情を抱く強度を示す第2音声評価値とを生成する第1評価部と、前記音声情報に基づいて、前記ユーザの発話内容を示す認識文字列を生成する認識部と、前記認識文字列に基づいて、前記ユーザが前記第1感情を抱く強度を示す第1文字評価値と、前記ユーザが前記第2感情を抱く強度を示す第2文字評価値とを生成する第2評価部と、前記ユーザの状況を示す状況情報に基づいて、前記第1音声評価値、前記第2音声評価値、前記第1文字評価値、及び、前記第2文字評価値を補正する補正部と、前記補正部の補正結果に基づいて、前記ユーザが抱く1つ以上の感情を推定する推定部と、を備える。 The emotion estimation device according to a preferred embodiment of the present invention includes a generation unit that generates a feature amount for the user's voice based on the user's voice information, and the user has a first emotion based on the feature amount. Based on the voice information, the first evaluation unit that generates the first voice evaluation value indicating the intensity and the second voice evaluation value indicating the intensity that the user has the second emotion, and the speech content of the user are shown. A recognition unit that generates a recognition character string, a first character evaluation value indicating the strength with which the user has the first emotion based on the recognition character string, and a first character evaluation value indicating the strength with which the user has the second emotion. The first voice evaluation value, the second voice evaluation value, the first character evaluation value, and the above, based on the second evaluation unit that generates the two-character evaluation value and the situation information indicating the situation of the user. It includes a correction unit that corrects the second character evaluation value, and an estimation unit that estimates one or more emotions held by the user based on the correction result of the correction unit.
本発明の好適な態様にかかる感情推定システムは、上述の感情推定装置と、前記感情推定装置と通信可能な端末装置とを備える感情推定システムであって、前記端末装置は、前記ユーザの音声を集音する集音装置と、前記ユーザの状況を示す状況情報を生成する状況情報生成部と、前記ユーザの音声を示す前記音声情報及び前記状況情報を前記感情推定装置に送信し、前記感情推定装置から、前記認識文字列、及び、前記推定部が推定した前記ユーザが抱く1つ以上の感情を示す感情情報を受信する通信装置と、前記感情情報が示す感情に応じた処理を前記認識文字列に対して実行することにより得られる情報を出力する出力部と、を備える。 The emotion estimation system according to a preferred embodiment of the present invention is an emotion estimation system including the above-mentioned emotion estimation device and a terminal device capable of communicating with the emotion estimation device, and the terminal device uses the voice of the user. The sound collecting device for collecting sound, the situation information generation unit for generating the situation information indicating the user's situation, the voice information indicating the user's voice, and the situation information are transmitted to the emotion estimation device to estimate the emotion. The recognition character is a communication device that receives the recognition character string and emotion information indicating one or more emotions held by the user estimated by the estimation unit, and processing according to the emotion indicated by the emotion information. It includes an output unit that outputs information obtained by executing the column.
本発明によれば、ユーザの音声について感情の発露が乏しい状況であっても、ユーザが抱く感情を精度良く推定できる。 According to the present invention, it is possible to accurately estimate the emotions held by the user even in a situation where the emotions of the user's voice are poorly expressed.
1.第1実施形態
図1は、ユーザ装置1の概要を示す図である。ユーザ装置1は、スマートフォンを想定する。ユーザ装置1が、「感情推定装置」の一例である。ただし、ユーザ装置1としては、任意の情報処理装置を採用することができ、例えば、パーソナルコンピュータ等の端末型の情報機器であってもよいし、ノートパソコン、ウェアラブル端末及びタブレット端末等の可搬型の情報端末であってもよい。
1. 1. 1st Embodiment FIG. 1 is a diagram showing an outline of a
ユーザ装置1は、ユーザ装置1を所持するユーザUの音声を含む音を示す音声情報に対して音声認識処理を実行して得られた認識文字列を、他者が利用する装置に送信する機能、又は、ユーザUの付近に位置する他者に聞かせるために、認識文字列を示す音を放音する機能を有する。さらに、ユーザ装置1は、ユーザUの音声に基づいてユーザUが抱く感情を推定し、認識文字列に対して、推定した感情に応じた図形を認識文字列に付加する、又は、推定した感情に応じた抑揚で認識文字列を示す音を放音することにより、コミュニケーションに必要な感情表現を付加できる。
図1の例では、ユーザUが「こんにちは」と発声し、ユーザ装置1が、推定した感情に応じた図形PIを、認識文字列を表す画像に付加している。
The
In the example of FIG. 1, a user U is say "Hello", the
図2は、第1実施形態にかかるユーザ装置1の構成を示すブロック図である。ユーザ装置1は、処理装置2、記憶装置3、入力装置4、出力装置5、通信装置6、慣性センサ7、及び、GPS(Global Positioning System)装置8を具備するコンピュータシステムにより実現される。ユーザ装置1の各要素は、情報を通信するための単体又は複数のバス9で相互に接続される。なお、本明細書における「装置」という用語は、回路、デバイス又はユニット等の他の用語に読替えてもよい。また、ユーザ装置1の各要素は、単数又は複数の機器で構成され、ユーザ装置1の一部の要素は省略されてもよい。
FIG. 2 is a block diagram showing a configuration of the
処理装置2は、ユーザ装置1の全体を制御するプロセッサであり、例えば、単数又は複数のチップで構成される。処理装置2は、例えば、周辺装置とのインタフェース、演算装置及びレジスタ等を含む中央処理装置(CPU:Central Processing Unit)で構成される。なお、処理装置2の機能の一部又は全部を、DSP(Digital Signal Processor)、ASIC(Application Specific Integrated Circuit)、PLD(Programmable Logic Device)、FPGA(Field Programmable Gate Array)等のハードウェアによって実現してもよい。処理装置2は、各種の処理を並列的又は逐次的に実行する。
The
記憶装置3は、処理装置2が読取可能な記録媒体であり、処理装置2が実行する制御プログラムPRを含む複数のプログラム、解析用辞書情報31、感情分類情報33、スケジュール情報35、状況関係情報37、及び、学習モデルLMを記憶する。記憶装置3は、例えば、ROM(Read Only Memory)、EPROM(Erasable Programmable ROM)、EEPROM(Electrically Erasable Programmable ROM)、RAM(Random Access Memory)等の記憶回路の1種類以上で構成される。
The storage device 3 is a recording medium that can be read by the
図3は、解析用辞書情報31の記憶内容の一例を示す図である。解析用辞書情報31は、形態素ごとに、品詞、品詞細分類、及び、原形情報を互いに対応付けた情報である。形態素は、意味を有する表現要素の最小単位の文字列である。品詞は、文法的性質によって分類された単語の種別であり、名詞、動詞、及び形容詞等である。品詞細分類は、品詞をさらに細分類した項目である。原形情報は、該当の形態素が活用する単語である場合、単語の原形を示す文字列であり、該当の形態素が活用しない単語である場合、該当の形態素と同一の文字列である。
FIG. 3 is a diagram showing an example of the stored contents of the
図4は、感情分類情報33の記憶内容の一例を示す図である。感情分類情報33は、文字列を、喜び、怒り、悲しみ、及び、平常の何れかに分類した情報である。図4の例では、喜びに分類された文字列群331は、「嬉しい」、「合格」、「勝つ」、及び、「勝っ」等を含む。同様に、怒りに分類された文字列群332は、「イライラ」、及び、「むかっ腹」等を含む。同様に、悲しみに分類された文字列群333は、「悲しい」、及び、「敗ける」等を含む。同様に、平常に分類された文字列群334は、「安心」等を含む。
FIG. 4 is a diagram showing an example of the stored contents of the
図5は、スケジュール情報35の記憶内容の一例を示す図である。スケジュール情報35は、ユーザUのスケジュールを示す。図5に示すスケジュール情報35は、レコード35_1〜35_3を有する。レコード35_1は、2019年4月10日の10時から11時までのユーザUの予定が、クライアントと打合せであることを示す。レコード35_2は、2019年4月12日の15時から16時までのユーザUの予定が、部内会議への出席であることを示す。レコード35_3は、2019年4月15日の18時から20時までのユーザUの予定が、同窓会への出席であることを示す。
FIG. 5 is a diagram showing an example of the stored contents of the
説明を図2に戻す。状況関係情報37は、感情を推定する際に用いられる。学習モデルLMは、人間の音声に応じた特徴量と、複数の感情の各々に対する強度との関係を学習済みである。また、学習モデルLMは、複数の人間について、人間の音声に応じた特徴量と、複数の感情の各々に対する強度との関係を学習済みであることが好ましい。
The explanation is returned to FIG. The situation-related
入力装置4は、ユーザ装置1が使用する情報を処理装置2に入力するための機器である。入力装置4は、集音装置41と、タッチパネル43とを含む。出力装置5は、情報を出力するための機器である。出力装置5は、表示装置51と、放音装置53とを含む。
The
集音装置41は、例えばマイクロフォン及びAD変換器で構成され、処理装置2による制御のもとで、ユーザUの音声を含む音を集音する。マイクロフォンは、集音した音声を電気信号に変換する。AD変換器は、マイクロフォンが変換した電気信号をAD変換して、図6に示す音声情報VIに変換する。音声情報VIが示す音には、発話者の音声に加えて、発話者の周囲から発せられた雑音が含まれ得る。タッチパネル43は、表示装置51の表示面に対する接触を検出する。なお、ユーザUが操作可能な複数の操作子をタッチパネル43が含んでもよい。
The
表示装置51は、処理装置2による制御のもとで各種の画像を表示する。例えば液晶表示パネル、有機EL(electro-luminescence)表示パネル等の各種の表示パネルが、表示装置51として好適に利用される。放音装置53は、例えばスピーカで構成され、処理装置2による制御のもとで、音を放音する。
The
通信装置6は、ネットワークを介して他の装置と通信を行うためのハードウェア(送受信デバイス)である。通信装置6は、例えば、ネットワークデバイス、ネットワークコントローラ、ネットワークカード、通信モジュール等とも呼ばれる。
The
慣性センサ7は、ユーザ装置1にかかる慣性力を測定し、測定結果から得られる、図6に示す慣性情報IFIを出力する。例えば、慣性センサ7は、加速度センサ及び角速度センサの一方又は両方である。
The
GPS装置8は、複数の衛星からの電波を受信し、図6に示す位置情報PoIを生成する。位置情報PoIは、位置を特定できるのであれば、どのような形式であってもよい。位置情報PoIは、例えば、ユーザ装置1の緯度と経度とを示す。また、本実施形態では、位置情報PoIはGPS装置8から得られることを例示するが、ユーザ装置1は、どのような方法で位置情報PoIを取得してもよい。例えば、ユーザ装置1は、ユーザ装置1の通信先となる基地局に割り当てられたセルID(IDentifier)を位置情報PoIとして取得する。セルIDは基地局を一意に識別する識別情報である。さらに、ユーザ装置1が無線LAN(Local Area Network)のアクセスポイントと通信する場合には、アクセスポイントに割り当てられたネットワーク上の識別アドレス(MAC(Media Access Control)アドレス)と実際の住所(位置)とを対応付けたデータベースを参照して位置情報PoIを取得してもよい。
The
1.1.第1実施形態の機能
処理装置2は、記憶装置3から制御プログラムPRを読み取り実行することによって、取得部21、状況情報生成部23、感情情報生成部25、及び、出力部27として機能する。
図6を用いて、処理装置2によって実現される機能について説明する。
1.1. The
The function realized by the
図6は、ユーザ装置1の機能の概要を示す図である。取得部21は、集音装置41が出力する音声情報VIを取得する。
FIG. 6 is a diagram showing an outline of the functions of the
状況情報生成部23は、GPS装置8から得られる位置情報PoI、慣性センサ7から得られる慣性情報IFI、及び、スケジュール情報35に基づいて、ユーザUの状況を示す状況情報SiIを生成する。より詳細には、状況情報生成部23は、位置情報PoIに基づいて、ユーザUの場所を特定する。場所には、例えば、ユーザUの自宅、ユーザUの会社、及び、ユーザUの自宅から会社までの通勤経路内等がある。また、状況情報生成部23は、慣性情報IFIに基づいて、ユーザUが停止しているか、ユーザUが歩行しているか、又は、ユーザUが車両に乗り移動中か、を判定する。そして、状況情報生成部23は、特定した場所が自宅である場合、状況情報SiIとして、ユーザUが自宅にいる状況を示す識別情報を生成する。また、特定した場所が通勤経路内であり、且つ、ユーザUが車両に乗り移動中である場合、状況情報生成部23は、状況情報SiIとして、ユーザUが電車を利用している状況を示す識別情報を生成する。電車を利用している状況は、「公共の交通機関を利用している状況」の一例である。また、スケジュール情報35が、現在の時間におけるユーザUの予定について、スケジュール情報35が打合せ又は会議を示す場合、状況情報生成部23は、状況情報SiIとして、ユーザUが会議中である状況を示す識別情報を生成する。
The status
感情情報生成部25は、ユーザUが抱く複数の感情の中から、ユーザUが抱く1つ以上の感情を推定する。第1実施形態において、ユーザUが抱く複数の感情は、喜び、怒り、悲しみ、及び、平常の4つであるとして説明する。以下、喜び、怒り、悲しみ、及び、平常は複数の感情の一例である。
The emotion
感情情報生成部25は、特徴量生成部251、第1評価部252、認識部254、第2評価部255、補正部257、及び、推定部258を含む。特徴量生成部251は、「生成部」の一例である。
The emotion
特徴量生成部251は、音声情報VIから、ユーザUの音声について特徴量を生成する。特徴量は、例えば、MFCC(Mel-Frequency Cepstrum Coefficients)12次元、ラウドネス、基本周波数(F0)、音声確率、ゼロ交差率、HNR(Harmonics-to-Noise-Ratio)、及びこれらの一次微分、MFCC及びラウドネスの二次微分の計47個の一部又は全部である。ラウドネスは、音の大きさであり、人間の聴覚が感じる音の強さを示す。音声確率は、音声情報VIが示す音に音声が含まれる確率を示す。ゼロ交差率は、音圧がゼロとなった回数である。また、特徴量生成部251は、音声情報VIに対して補正処理を実行し、補正処理の実行により得られた補正後音声情報から、特徴量を抽出してもよい。補正処理は、例えば、音声情報VIから無音部分のデータを除去する処理、及び、音声情報VIが示す音に含まれるノイズを除去する処理の一方又は両方である。
The feature
第1評価部252は、特徴量に基づいて、複数の感情の各々に対応する音声評価値EV1〜EV4を生成する。より詳細には、第1評価部252は、喜びに対応する音声評価値EV1、怒りに対応する音声評価値EV2、悲しみに対応する音声評価値EV3、及び、平常に対応する音声評価値EV4を生成する。音声評価値EVは、ユーザUが感情を抱く強度を示す。
以下の説明では、同種の要素を区別する場合には、喜びに対応する音声評価値EV1、怒りに対応する音声評価値EV2のように参照符号を使用する。一方、同種の要素を区別しない場合には、音声評価値EVのように、参照符号のうちの共通番号だけを使用する。
なお、喜び、怒り、悲しみ、及び、平常の各々が、「第1感情」の一例である。「第2感情」は、喜び、怒り、悲しみ、及び、平常のうち「第1感情」とは異なる感情のうち任意の1つの感情である。喜びに対応する音声評価値EV1、怒りに対応する音声評価値EV2、悲しみに対応する音声評価値EV3、平常に対応する音声評価値EV4が、「第1音声評価値」の一例である。第1感情とは異なる第2感情に対応する音声評価値が、「第2音声評価値」の一例である。
例えば、第1評価部252は、以下に示す2つの態様のいずれか一方によって、音声評価値EV1〜EV4を生成する。
The
In the following description, when distinguishing the same kind of elements, reference codes are used such as the voice evaluation value EV1 corresponding to joy and the voice evaluation value EV2 corresponding to anger. On the other hand, when the same type of elements are not distinguished, only the common number among the reference codes is used as in the voice evaluation value EV.
In addition, joy, anger, sadness, and normality are each examples of "first emotion". The "second emotion" is any one of joy, anger, sadness, and normal emotions that are different from the "first emotion". The voice evaluation value EV1 corresponding to joy, the voice evaluation value EV2 corresponding to anger, the voice evaluation value EV3 corresponding to sadness, and the voice evaluation value EV4 corresponding to normal times are examples of the "first voice evaluation value". A voice evaluation value corresponding to a second emotion different from the first emotion is an example of a “second voice evaluation value”.
For example, the
第1の態様において、第1評価部252は、特徴量と所定値とを比較することにより、音声評価値EV1〜EV4を生成する。例えば、喜び又は怒りが音声に発露する場合、喜び又は怒りが音声に発露しない場合と比較して、基本周波数が高くなり、且つ、ラウドネスが大きくなる傾向がある。例えば、第1評価部252は、基本周波数が所定値より大きく、かつ、ラウドネスが所定値より大きい場合に、基本周波数が所定値より小さく、かつ、ラウドネスが所定値より小さい場合と比較して、音声評価値EV1及び音声評価値EV2を大きい値に設定する。
In the first aspect, the
第2の態様において、第1評価部252は、音声評価値EV1〜EV4を生成するために、学習モデルLMに、特徴量生成部251が生成した特徴量を入力し、音声評価値EV1〜EV4を学習モデルLMから取得する。
In the second aspect, the
認識部254は、音声情報VIに基づいて、ユーザUの発話内容を示す認識文字列RTを生成する。より詳細には、認識部254は、例えば、予め用意された音響モデル及び言語モデルを用いて、音声から文字列を認識する手法を含む音声認識処理を実行して、認識文字列RTを出力する。
The
第2評価部255は、認識文字列RTに基づいて、複数の感情の各々に対応する文字評価値ETを生成する。より詳細には、第2評価部255は、喜びに対応する文字評価値ET1、怒りに対応する文字評価値ET2、悲しみに対応する文字評価値ET3、及び、平常に対応する文字評価値ET4を生成する。文字評価値ETは、ユーザUが感情を抱く強度を示す。
なお、喜びに対応する文字評価値ET1、怒りに対応する文字評価値ET2、悲しみの文字評価値ET3、及び、平常に対応する文字評価値ET4が、「第1文字評価値」の一例である。第1感情とは異なる第2感情に対応する文字評価値が、「第2文字評価値」の一例である。
The
The character evaluation value ET1 corresponding to joy, the character evaluation value ET2 corresponding to anger, the character evaluation value ET3 corresponding to sadness, and the character evaluation value ET4 corresponding to normal times are examples of the "first character evaluation value". .. The character evaluation value corresponding to the second emotion different from the first emotion is an example of the “second character evaluation value”.
より詳細には、第2評価部255は、解析部2552と、算出部2554とを含む。解析部2552は、解析用辞書情報31を参照して、認識文字列RTに対して形態素解析処理を実行して、補正後認識文字列CRTを出力する。形態素解析処理は、認識文字列RTを形態素ごとに分解する処理である。形態素解析処理において、解析用辞書情報31の品詞及び品詞細分類が利用される。補正後認識文字列CRTは、フィラー等といった、ユーザUが抱く感情を推定するためには不要な文字列を除いた文字列である。フィラーは、「ええと」、「あの」、及び、「まあ」といった、発話の合間に挟み込む言葉である。
More specifically, the
算出部2554は、感情分類情報33に含まれる文字列と、補正後認識文字列CRTとを比較することにより各感情の文字評価値ETを算出する。各感情の文字評価値ETの算出について、算出部2554は、補正後認識文字列CRTが、感情分類情報33に含まれる文字列を含む場合に、この補正後認識文字列CRTに含まれる文字列に対応する感情の文字評価値ETを増加させる。
例えば、補正後認識文字列CRTが「今日試合に勝った」であれば、算出部2554は、以下のような各感情の文字評価値ETを出力する。
The
For example, if the corrected recognition character string CRT is "winning the game today", the
喜びに対応する文字評価値ET1 1
怒りに対応する文字評価値ET2 0
悲しみに対応する文字評価値ET3 0
平常に対応する文字評価値ET4 0
Character evaluation value corresponding to
Character evaluation value ET20 corresponding to anger
Character evaluation value ET30 corresponding to sadness
Character evaluation value ET40 corresponding to normal times
上述の例では、補正後認識文字列CRTに、感情分類情報33に含まれる「勝っ」が含まれているため、算出部2554は、「勝っ」に対応する喜びの文字評価値ET1を1増加させる。増加させる文字評価値ETの増加量は、1に限らなく、感情分類情報33に含まれる文字列ごとに異なってもよい。例えば、より喜びを強く示す文字列に対する文字評価値ETの増加量を2としてもよい。さらに、補正後認識文字列CRTに、感情分類情報33に含まれる文字列、及び、内容を強調する文字列が含まれる場合、算出部2554は、文字評価値ETの増加量を大きくしてもよい。例えば、補正後認識文字列CRTが「今日試合に勝ててとても嬉しい」であれば、補正後認識文字列CRTに感情分類情報33に含まれる「嬉しい」が含まれており、かつ、「とても」という内容を強調する文字列が含まれるため、算出部2554は、例えば、喜びの文字評価値ET1を2増加させる。補正後認識文字列CRTのうち、どの文字列が、内容を強調する文字列であるか否かは、形態素解析処理によって得られる形態素によって判定することができる。以下の例では、説明を容易にするため、増加させる文字評価値ETの増加量が1であるとする。
さらに、補正後認識文字列CRTに、感情分類情報33に含まれる文字列、及び、内容を否定する文字列が含まれる場合、算出部2554は、この補正後認識文字列CRTに含まれる文字列に対応する文字評価値ETを増加させる処理とは異なる処理を実行してもよい。例えば、補正後認識文字列CRTが「今日試合に勝つことができなかった」であれば、補正後認識文字列CRTに感情分類情報33に含まれる「勝つ」が含まれるが、「なかっ」という内容を否定する文字列が含まれるため、算出部2554は、例えば、悲しみの文字評価値ET3を1増加させる。補正後認識文字列CRTのうち、どの文字列が、内容を否定する文字列であるか否かは、形態素解析処理によって得られる形態素によって判定することができる。このように、形態素解析処理によって、補正後認識文字列CRTが肯定的な内容なのか否定的な内容かを推定することが可能である。以下の例では、説明を容易にするため、補正後認識文字列CRTに、感情分類情報33に含まれる文字列が含まれれば、この補正後認識文字列CRTに含まれる文字列に対応する文字評価値ETを増加させることとして説明を行う。
In the above example, since the corrected recognition character string CRT includes the "win" included in the
Further, when the corrected recognition character string CRT includes a character string included in the
補正部257は、状況情報SiIに基づいて、音声評価値EV1〜EV4、及び、文字評価値ET1〜ET4を補正する。より詳細には、補正部257は、音声評価値EV1、音声評価値EV2、音声評価値EV3、音声評価値EV4を補正して、補正後の音声評価値CEV1、補正後の音声評価値CEV2、補正後の音声評価値CEV3、補正後の音声評価値CEV4を出力する。同様に、補正部257は、文字評価値ET1、文字評価値ET2、文字評価値ET3、文字評価値ET4を補正して、補正後の文字評価値CET1、補正後の文字評価値CET2、補正後の文字評価値CET3、補正後の文字評価値CET4を出力する。
The
より詳細には、補正部257は、下記演算を実行することにより、補正後の音声評価値CEV1〜CEV4、及び、補正後の文字評価値CET1〜CET4を出力する。
More specifically, the
CEV1=kv1×EV1
CEV2=kv2×EV2
CEV3=kv3×EV3
CEV4=kv4×EV4
CET1=kt1×ET1
CET2=kt2×ET2
CET3=kt3×ET3
CET4=kt4×ET4
CEV1 = kv1 x EV1
CEV2 = kv2 x EV2
CEV3 = kv3 x EV3
CEV4 = kv4 x EV4
CET1 = kt1 x ET1
CET2 = kt2 x ET2
CET3 = kt3 x ET3
CET4 = kt4 x ET4
ただし、重み付け係数kv1〜kv4、及び、重み付け係数kt1〜kt4は、0以上1以下の実数である。さらに、重み付け係数kv1〜kv4、及び、重み付け係数kt1〜kt4には、以下の条件がある。 However, the weighting coefficients kv1 to kv4 and the weighting coefficients kt1 to kt4 are real numbers of 0 or more and 1 or less. Further, the weighting coefficients kv1 to kv4 and the weighting coefficients kt1 to kt4 have the following conditions.
kv1+kt1=kv2+kt2=kv3+kt3=kv4+kt4 kv1 + kt1 = kv2 + kt2 = kv3 + kt3 = kv4 + kt4
補正部257は、例えば、状況関係情報37を参照して、重み付け係数kv1〜kv4、及び、重み付け係数kt1〜kt4を設定する。
For example, the
図7は、状況関係情報37の記憶内容の一例を示す図である。状況関係情報37は、人間が取り得る状況を示す識別情報と、当該状況に応じて設定された複数の音声評価値EVの各々、及び、複数の文字評価値ETの各々との関係を示す。
FIG. 7 is a diagram showing an example of the stored contents of the situation-related
人間が取り得る状況には、ユーザの許可なく立ち入りが禁止されるプライベート空間内に当該ユーザがいる状況と、ユーザの許可なく立ち入りが可能な非プライベート空間に当該ユーザがいる状況とが含まれる。プライベート空間は、例えば、自宅の中である。非プライベート空間は、例えば、公共の交通機関内、及び、職場の中である。 The situations that humans can take include a situation in which the user is in a private space where entry is prohibited without the permission of the user, and a situation in which the user is in a non-private space where access is possible without the permission of the user. The private space is, for example, in the home. Non-private spaces are, for example, in public transportation and in the workplace.
図7に示す状況関係情報37には、人間が取り得る状況を示す識別情報として、「自宅」、「電車」、及び、「会議」が登録されている。識別情報「自宅」は、ユーザUが自宅にいる状況を示す。識別情報「電車」は、ユーザUが電車を利用している状況を示す。識別情報「会議」は、ユーザUが職場の会議中である状況を示す。
In the situation-related
状況関係情報37は、識別情報「自宅」に関係する重み付け係数について、重み付け係数kv1が重み付け係数kt1より大きいことを示す。同様に、状況関係情報37は、重み付け係数kv2が重み付け係数kt2よりも大きく、かつ、重み付け係数kv3が重み付け係数kt3よりも大きく、かつ、重み付け係数kv4が重み付け係数kt4より大きいことを示す。具体的には、図7に示す識別情報「自宅」に関係する重み付け係数は、以下の通りである。
重み付け係数kv1=0.7
重み付け係数kt1=0.3
重み付け係数kv2=0.8
重み付け係数kt2=0.2
重み付け係数kv3=0.7
重み付け係数kt3=0.3
重み付け係数kv4=0.8
重み付け係数kt4=0.2
The situation-related
Weighting coefficient kv1 = 0.7
Weighting coefficient kt1 = 0.3
Weighting coefficient kv2 = 0.8
Weighting coefficient kt2 = 0.2
Weighting coefficient kv3 = 0.7
Weighting coefficient kt3 = 0.3
Weighting coefficient kv4 = 0.8
Weighting coefficient kt4 = 0.2
また、状況関係情報37は、識別情報「電車」に関係する重み付け係数について、重み付け係数kt1が重み付け係数kv1より大きいことを示す。同様に、状況関係情報37は、重み付け係数kt2が重み付け係数kv2より大きく、かつ、重み付け係数kt3が重み付け係数kv3より大きく、かつ、重み付け係数kt4が重み付け係数kv4より大きいことを示す。具体的には、図7に示す識別情報「電車」に関係する重み付け係数は、以下の通りである。
重み付け係数kv1=重み付け係数kv2=重み付け係数kv3=重み付け係数kv4=0.1
重み付け係数kt1=重み付け係数kt2=重み付け係数kt3=重み付け係数kt4=0.9
Further, the situation-related
Weighting coefficient kv1 = Weighting coefficient kv2 = Weighting coefficient kv3 = Weighting coefficient kv4 = 0.1
Weighting coefficient kt1 = Weighting coefficient kt2 = Weighting coefficient kt3 = Weighting coefficient kt4 = 0.9
また、状況関係情報37は、識別情報「会議」に関係する重み付け係数について、重み付け係数kt1が重み付け係数kv1より大きいことを示す。同様に、状況関係情報37は、重み付け係数kt2が重み付け係数kv2より大きく、かつ、重み付け係数kt3が重み付け係数kv3より大きく、かつ、重み付け係数kt4が重み付け係数kv4より大きいことを示す。具体的には、図7に示す識別情報「会議」に関係する重み付け係数は、以下の通りである。
重み付け係数kv1=0.4
重み付け係数kt1=0.6
重み付け係数kv2=0.2
重み付け係数kt2=0.8
重み付け係数kv3=0.3
重み付け係数kt3=0.7
重み付け係数kv4=0.2
重み付け係数kt4=0.8
Further, the situation-related
Weighting coefficient kv1 = 0.4
Weighting coefficient kt1 = 0.6
Weighting coefficient kv2 = 0.2
Weighting coefficient kt2 = 0.8
Weighting coefficient kv3 = 0.3
Weighting coefficient kt3 = 0.7
Weighting coefficient kv4 = 0.2
Weighting coefficient kt4 = 0.8
説明を図6に戻す。推定部258は、補正部257の補正結果、即ち、補正後の音声評価値CEV1〜CEV4、及び、補正後の文字評価値CET1〜CET4に基づいて、ユーザUが抱く1つ以上の感情を推定する。例えば、推定部258は、以下の演算を実行して、喜びに対応する評価値E1、怒りに対応する評価値E2、悲しみに対応する評価値E3、及び、平常に対応する評価値E4を生成する。
E1=CEV1+CET1
E2=CEV2+CET2
E3=CEV3+CET3
E4=CEV4+CET4
The explanation is returned to FIG. The
E1 = CEV1 + CET1
E2 = CEV2 + CET2
E3 = CEV3 + CET3
E4 = CEV4 + CET4
そして、推定部258は、例えば、以下に示す2つの態様のいずれか一方に従って、ユーザUが抱く感情を推定する。第1の態様において、推定部258は、評価値E1、評価値E2、評価値E3、及び、評価値E4のうち、最も大きい評価値Eに対応する感情を示す感情情報EIを出力する。第2の態様において、推定部258は、評価値E1〜E4の各々と閾値と比較して、閾値を上回る評価値Eに対応する感情を示す感情情報EIを出力する。第2の態様では、感情情報EIが、怒り及び悲しみを示すという様に、複数の感情を示すことがある。
感情情報EIは、例えば、以下に示す2つの態様がある。感情情報EIの第1の態様は、推定したユーザUが抱く1以上の感情を示す識別子である。感情を示す識別子には、喜びを示す識別子、怒りを示す識別子、悲しみを示す識別子、及び、平常を示す識別子がある。感情情報EIの第2の態様は、推定したユーザUが抱く1以上の感情を示す識別子と、推定したユーザUが抱く感情の評価値Eとである。
Then, the
The emotional information EI has, for example, the following two aspects. The first aspect of the emotion information EI is an identifier indicating one or more emotions held by the estimated user U. The identifier indicating emotion includes an identifier indicating joy, an identifier indicating anger, an identifier indicating sadness, and an identifier indicating normality. The second aspect of the emotion information EI is an identifier indicating one or more emotions held by the estimated user U and an evaluation value E of the emotions held by the estimated user U.
出力部27は、認識部254によって得られた認識文字列RTに対して、感情情報EIが示す1つ以上の感情に応じた処理を実行して得られた情報を出力する。感情に応じた処理は、例えば、下記に示す2つの態様がある。
感情に応じた処理の第1の態様は、認識文字列RTに対して、感情を具象化した図形を付加する処理である。感情を具象化した図形は、例えば、感情を具象化した絵文字、及び、感情を具象化した顔文字である。絵文字は、文字コードに対応付けられた画像である。文字コードは、例えば、Unicodeである。顔文字は、記号及び文字を組み合わせて顔を表現した文字列である。以下の説明では、感情を具象化した図形は、感情を具象化した絵文字であるとして説明する。喜びを具象化した絵文字は、例えば、笑顔を示す絵文字である。怒りを具象化した絵文字は、例えば、怒りの顔を示す絵文字である。悲しみを具象化した絵文字は、例えば、泣き顔を示す絵文字である。さらに、感情情報EIが第2の態様である場合、出力部27は、感情情報EIが示す感情であって、感情情報EIに含まれる評価値Eに応じた強度を有する感情を具象化した絵文字を、認識文字列RTに付加する絵文字として決定してもよい。例えば、感情情報EIが示す感情が悲しみであり、かつ、感情情報EIに含まれる評価値Eが所定の閾値以下である場合、出力部27は、涙をこぼす顔を示す絵文字を認識文字列RTに付加する絵文字として決定する。一方、感情情報EIが示す感情が悲しみであり、かつ、感情情報EIに含まれる評価値Eが所定の閾値より大きい場合、出力部27は、号泣した顔を示す絵文字を認識文字列RTに付加する絵文字として決定する。号泣した顔を示す絵文字は、涙をこぼす顔を示す絵文字と比較して、より高い強度の悲しみを具象化している。
出力部27は、認識文字列RTに絵文字を付加して得られた絵文字付き文字列を出力する。絵文字を付加する位置は、例えば、以下に示す2つがある。第1の位置は、認識文字列RTの末尾である。第2の位置は、認識文字列RT内における、感情分類情報33に含まれる文字列の次である。表示装置51は、出力部27が出力した絵文字付き文字列に基づく画像を表示する。
The
The first aspect of the process according to the emotion is a process of adding a figure embodying the emotion to the recognition character string RT. The figures that embody emotions are, for example, pictograms that embody emotions and emoticons that embody emotions. A pictogram is an image associated with a character code. The character code is, for example, Unicode. An emoticon is a character string that expresses a face by combining symbols and characters. In the following description, a figure that embodies emotions will be described as a pictogram that embodies emotions. The pictogram that embodies joy is, for example, a pictogram that shows a smile. The pictogram that embodies anger is, for example, a pictogram that shows the face of anger. The pictogram that embodies sadness is, for example, a pictogram that shows a crying face. Further, when the emotion information EI is the second aspect, the
The
感情に応じた処理の第2の態様は、感情に基づく抑揚を付加して読み上げた合成音声を生成する処理である。抑揚は、例えば、読み上げ速度を速くするもしくは遅くする、又は、音量を大きくするもしくは小さくすることである。喜びに基づく抑揚は、例えば、読み上げ速度を上げることである。怒りに基づく抑揚は、例えば、音量を大きくすることである。悲しみに基づく抑揚は、例えば、音量を小さくすることである。出力部27は、感情に基づく抑揚を付加して読み上げた合成音声を示す情報を出力する。そして、出力部27は、生成したデータが示す合成音声に、感情に基づく抑揚を付加して、感情に基づく抑揚を付加して読み上げた合成音声を示す情報を出力する。放音装置53は、出力部27が出力したデータが示す合成音声を放音する。
The second aspect of the emotion-based process is a process of generating a synthetic voice read aloud by adding emotion-based intonation. Inflection is, for example, increasing or decreasing the reading speed, or increasing or decreasing the volume. Pleasure-based intonation is, for example, speeding up reading. Anger-based intonation is, for example, increasing the volume. Sadness-based intonation is, for example, reducing the volume. The
1.2.第1実施形態の動作
次に、ユーザ装置1の動作について、図8を用いて説明する。
1.2. Operation of the First Embodiment Next, the operation of the
図8は、ユーザ装置1の動作を示すフローチャートである。取得部21は、音声情報VIを取得する(ステップS1)。特徴量生成部251は、音声情報VIから、特徴量を生成する(ステップS2)。そして、第1評価部252は、特徴量を学習モデルLMに入力し、各感情の音声評価値EVを取得する(ステップS3)。
FIG. 8 is a flowchart showing the operation of the
一方、認識部254は、音声情報VIに基づいて、認識文字列RTを出力する(ステップS4)。次に、解析部2552は、形態素解析処理を実行して、補正後認識文字列CRTを出力する(ステップS5)。そして、算出部2554は、補正後認識文字列CRTから、各感情の文字評価値ET1〜ET4を生成する(ステップS6)。
On the other hand, the
状況情報生成部23は、GPS装置8から得られる位置情報PoI、慣性センサ7から得られる慣性情報IFI、及び、スケジュール情報35に基づいて、状況情報SiIを生成する(ステップS7)。そして、補正部257は、状況情報SiIが示す状況に応じた重み付け係数kv1〜kv4、kt1〜kt4に基づいて、音声評価値EV1〜EV4と文字評価値ET1〜ET4とを補正する(ステップS8)。
The status
推定部258は、補正後の音声評価値CEV1〜CEV4と、補正後の文字評価値CET1〜CET4とに基づいて、ユーザUが抱く1つ以上の感情を推定し、感情情報EIを出力する(ステップS9)。出力部27は、感情情報EIが示す感情に応じた処理を認識文字列RTに対して実行することにより得られる情報を出力する(ステップS10)。ステップS10の処理終了後、ユーザ装置1は、図8に示す一連の処理を終了する。
The
1.3.第1実施形態の効果
以上の説明によれば、ユーザ装置1は、状況情報SiIに基づいて、音声評価値EV1〜EV4、文字評価値ET1〜ET4を補正する。状況情報SiIが、感情を音声に発露しにくい状況を示す場合、音声評価値EV1〜EV4の精度が低下していると言える。従って、状況情報SiIが、感情を音声に発露しにくい状況を示す場合、音声評価値EV1〜EV4を低くする方式で、音声評価値EV1〜EV4、及び、文字評価値ET1〜ET4を補正することにより、ユーザUが抱く感情を精度良く補正できる。
1.3. Effect of 1st Embodiment According to the above description, the
また、ユーザ装置1は、人間の音声に応じた複数の特徴量と音声を発した人間が抱く複数の感情の各々に対する強度との関係を学習済みの学習モデルLMに、特徴量生成部251が生成した特徴量を入力し、音声評価値EV1〜EV4を学習モデルLMから取得する。学習モデルLMを用いることにより、ユーザ装置1は、精度の良い音声評価値EV1〜EV4を取得できる。
Further, in the
また、学習モデルLMは、複数の人間について、人間の音声に応じた複数の特徴量と当該音声を発した人間が抱く複数の感情の各々に対する強度との関係を学習済みである。言い換えれば、学習モデルLMは、複数のユーザの音声情報VIに基づく教師データによって生成されている。従って、学習モデルLMは、特定の個人向けに調整されていない、汎用的なモデルである。第1実施形態において、汎用的な学習モデルLMを利用できるため、特定の個人向けに調整された学習モデルを用いる場合と比較して、導入が容易である。 In addition, the learning model LM has learned the relationship between a plurality of features corresponding to human voices and the intensity of each of the plurality of emotions held by the human being who emits the voices for a plurality of humans. In other words, the learning model LM is generated by teacher data based on voice information VIs of a plurality of users. Therefore, the learning model LM is a general purpose model that is not tailored for a particular individual. In the first embodiment, since the general-purpose learning model LM can be used, it is easy to introduce as compared with the case of using a learning model adjusted for a specific individual.
また、補正部257は、状況関係情報37を参照して、状況情報SiIが示す状況に応じた音声評価値EV1〜EV4、及び文字評価値ET1〜ET4の各々に対する重み付け係数を設定する。状況関係情報37を参照することにより、感情を発露しにくい状況にユーザUが置かれている状況か否かを精度良く特定できる。
Further, the
状況関係情報37は、プライベート空間にユーザUがいる状況を示す識別情報に関係する重み付け係数について、重み付け係数kv1が重み付け係数kt1より大きいことを示す。さらに、状況関係情報37は、重み付け係数kv2が重み付け係数kt2より大きく、かつ、重み付け係数kv3が重み付け係数kt3より大きく、重み付け係数kv4が重み付け係数kt4より大きいことを示す。
ユーザUが自宅等のプライベート空間にいる状況では、他者の目を引くこともないので、感情を音声に発露しやすい。従って、重み付け係数kv1が重み付け係数kt1より大きく、重み付け係数kv2が重み付け係数kt2より大きく、重み付け係数kv3が重み付け係数kt3より大きく、かつ、重み付け係数kv4が重み付け係数kt4より大きいことにより、ユーザ装置1は、喜び、怒り、悲しみ、及び、平常を精度良く推定できる。
The situation-related
When the user U is in a private space such as home, the emotions are easily expressed in the voice because the user U does not catch the eyes of others. Therefore, the weighting coefficient kv1 is larger than the weighting coefficient kt1, the weighting coefficient kv2 is larger than the weighting coefficient kt2, the weighting coefficient kv3 is larger than the weighting coefficient kt3, and the weighting coefficient kv4 is larger than the weighting coefficient kt4. , Joy, anger, sadness, and normality can be estimated accurately.
状況関係情報37は、非プライベート空間にユーザUがいる状況を示す識別情報に関係する重み付け係数について、重み付け係数kt1が重み付け係数kv1より大きいことを示す。さらに、状況関係情報37は、重み付け係数kt2が重み付け係数kv2より大きく、重み付け係数kt3が重み付け係数kv3より大きく、かつ、重み付け係数kt4が重み付け係数kv4より大きいことを示す。
非プライベート空間にユーザUがいる一例として、ユーザUが電車を利用している状況では、感情を込めて発声すると他者の注目を浴びてしまうので、感情を込めずに発声することが一般的と言える。ユーザUが電車を利用している状況は、ユーザUが感情を音声に発露しにくい状況の一つである。非プライベート空間にユーザUがいる他の例として、ユーザUが会議中である状況では、感情を込めて発声することは少ないと言える。ユーザUが会議中である状況は、ユーザUが感情を音声に発露しにくい状況の一つである。
従って、非プライベート空間にユーザUがいる場合には、重み付け係数kt1が重み付け係数kv1より大きく、重み付け係数kt2が重み付け係数kv2より大きく、重み付け係数kt3が重み付け係数kv3より大きく、かつ、重み付け係数kt4が重み付け係数kv4より大きいことにより、ユーザ装置1は、喜び、怒り、悲しみ、及び、平常を精度良く推定できる。
The situation-related
As an example of having User U in a non-private space, when User U is using a train, speaking with emotion will attract the attention of others, so it is common to speak without feeling. It can be said that. The situation where the user U is using the train is one of the situations where it is difficult for the user U to express his emotions in the voice. As another example in which the user U is in a non-private space, it can be said that in a situation where the user U is in a meeting, it is rare to utter with emotion. The situation in which the user U is in a meeting is one of the situations in which the user U does not easily express his / her emotions in the voice.
Therefore, when the user U is in the non-private space, the weighting coefficient kt1 is larger than the weighting coefficient kv1, the weighting coefficient kt2 is larger than the weighting coefficient kv2, the weighting coefficient kt3 is larger than the weighting coefficient kv3, and the weighting coefficient kt4 is. By being larger than the weighting coefficient kv4, the
2.第2実施形態
第2実施形態にかかるユーザ装置1aは、認識文字列RTに応じて音声に感情が発露される度合いに基づいて、音声評価値CEV1〜CEV4、及び、文字評価値CET1〜CET4を補正する点で、第1実施形態にかかるユーザ装置1と相違する。なお、以下に例示する第2実施形態において作用又は機能が第1実施形態と同等である要素については、以上の説明で参照の符号を流用して各々の詳細な説明を適宜に省略する。
2. 2. Second Embodiment The
2.1.第2実施形態の機能
図9は、第2実施形態にかかるユーザ装置1aを示すブロック図である。ユーザ装置1aは、処理装置2a、記憶装置3a、入力装置4、出力装置5、通信装置6、慣性センサ7、及び、GPS装置8を具備するコンピュータシステムにより実現される。記憶装置3aは、処理装置2aが読取可能な記録媒体であり、処理装置2aが実行する制御プログラムPRaを含む複数のプログラム、解析用辞書情報31、感情分類情報33、スケジュール情報35、状況関係情報37、文字列関係情報38、及び、学習モデルLMを記憶する。
2.1. Function of the second embodiment FIG. 9 is a block diagram showing a
文字列関係情報38は、認識文字列RTに応じて音声に感情が発露される度合いを判定するために用いられる。処理装置2aは、記憶装置3aから制御プログラムPRaを読み取り実行することによって、取得部21、状況情報生成部23、感情情報生成部25a、及び、出力部27として機能する。
The character string-related
図10は、第2実施形態におけるユーザ装置1aの機能の概要を示す図である。感情情報生成部25aは、特徴量生成部251、第1評価部252、認識部254、第2評価部255、補正部257a、及び、推定部258を含む。
FIG. 10 is a diagram showing an outline of the functions of the
補正部257aは、ユーザUが認識文字列RTを発声した場合にユーザUの音声に感情が発露される度合いと、状況情報SiIとに基づいて、音声評価値EV1〜EV4、及び、文字評価値ET1〜ET4を補正する。例えば、補正部257aは、以下に示す2つの態様のいずれか一方に従って、音声評価値EV1〜EV4、及び、文字評価値ET1〜ET4を補正する。
The
第1の態様における補正部257aは、発声した場合にユーザUの音声に感情が発露される度合いの低い文字列と、高い文字列とに分類する。そして、補正部257aは、感情が発露される度合いの低い文字列が認識文字列RTに含まれる場合、認識文字列RTを発声した場合にユーザUの音声に感情が発露される度合いが低いと判定する。一方、感情が発露される度合いの低い文字列が認識文字列RTに含まれていない場合、補正部257aは、認識文字列RTを発声した場合にユーザUの音声に感情が発露される度合いが高いと判定する。そして、補正部257aは、認識文字列RTを発声した場合にユーザUの音声に感情が発露される度合いが低い場合、認識文字列RTを発声した場合にユーザUの音声に感情が発露される度合いが高い場合と比較して、音声評価値EV1〜EV4に対応する重み付け係数kv1〜kv4を低下させる。
例えば、「ありがとう」は、汎用的な感謝の意味を有する。ユーザUが「ありがとう」と発声する場合、ユーザUが抱く感情は喜びが強くなる。しかしながら、汎用的に使用される文字列は、言い慣れているので起伏なく発声する場合が多く、音声に感情が発露される度合いが低いと言える。従って、補正部257aは、認識文字列RTに「ありがとう」が含まれる場合、音声評価値EV1〜EV4に対応する重み付け係数kv1〜kv4を低下させる。例えば、補正部257aは、音声評価値EV1〜EV4に対応する重み付け係数kv1〜kv4から所定値を減算し、文字評価値ET1〜ET4に対応する重み付け係数kt1〜kt4に所定値を加算する。
The
For example, "thank you" has a general meaning of gratitude. When the user U utters "Thank you", the emotions that the user U has become more joyful. However, since character strings that are used for general purposes are familiar to people, they are often uttered without undulations, and it can be said that the degree to which emotions are expressed in the voice is low. Therefore, when the recognition character string RT includes "thank you", the
第2の態様における補正部257aは、文字列関係情報38及び状況関係情報37に基づいて、音声評価値EV1〜EV4、及び、文字評価値ET1〜ET4の各々に対する、認識文字列RTに含まれる文字列及び状況情報SiIが示す状況に応じた重み付け係数kv1〜kv4、kt1〜kt4を設定する。そして、補正部257aは、認識文字列RT及び状況情報SiIが示す状況に応じた重み付け係数に基づいて、音声評価値EV1〜EV4、及び、文字評価値ET1〜ET4を補正する。
The
図11は、文字列関係情報38の記憶内容の一例を示す図である。文字列関係情報38は、人間が発声する文字列と、この文字列を発声した場合において人間の音声に感情が発露される度合いに基づき設定された音声評価値EV1〜EV4、及び文字評価値ET1〜ET4に対する重み付け係数kv1〜kv4、kt1〜kv4の増減値Δkv1〜Δkv4、Δkt1〜Δkt4との関係を示す。
増減値Δkv1〜Δkv4、及び、増減値Δkt1〜Δkt4は、以下の条件がある。
FIG. 11 is a diagram showing an example of the stored contents of the character string-related
The increase / decrease values Δkv1 to Δkv4 and the increase / decrease values Δkt1 to Δkt4 have the following conditions.
Δkv1+Δkt1=Δkv2+Δkt2=Δkv3+Δkt3=Δkv4+Δkt4=0 Δkv1 + Δkt1 = Δkv2 + Δkt2 = Δkv3 + Δkt3 = Δkv4 + Δkt4 = 0
図10に示す文字列関係情報38は、文字列「ありがとう」を人間が発声した場合において、以下に示すように、増減値Δkv1〜Δkv4、Δkt1〜Δkt4を設定することを示す。
増減値Δkv1=−0.2
増減値Δkt1=0.2
増減値Δkv2=−0.2
増減値Δkt2=0.2
増減値Δkv3=−0.2
増減値Δkt3=0.2
増減値Δkv4=−0.1
増減値Δkt4=0.1
なお、増減値Δkv1〜Δkv4、Δkt1〜Δkt4のうち、0である値が含まれていてもよい。例えば、文字列「ありがとう」に対する増減値Δkv1及びΔkt1は、上述の値であり、増減値Δkv2〜Δkv4、Δkt2〜Δkt4は、0であってもよい。
The character string-related
Increase / decrease value Δkv1 = -0.2
Increase / decrease value Δkt1 = 0.2
Increase / decrease value Δkv2 = -0.2
Increase / decrease value Δkt2 = 0.2
Increase / decrease value Δkv3 = -0.2
Increase / decrease value Δkt3 = 0.2
Increase / decrease value Δkv4 = -0.1
Increase / decrease value Δkt4 = 0.1
Of the increase / decrease values Δkv1 to Δkv4 and Δkt1 to Δkt4, a value of 0 may be included. For example, the increase / decrease values Δkv1 and Δkt1 for the character string “Thank you” are the above-mentioned values, and the increase / decrease values Δkv2 to Δkv4 and Δkt2 to Δkt4 may be 0.
補正部257aは、文字列関係情報38に含まれる文字列が認識文字列RTに含まれる場合、下記演算を実行することにより、補正後の音声評価値CEV1〜CEV4、及び、補正後の文字評価値CET1〜CET4を出力する。
When the character string included in the character string-related
CEV1=(kv1+Δkv1)×EV1
CEV2=(kv2+Δkv2)×EV2
CEV3=(kv3+Δkv3)×EV3
CEV4=(kv4+Δkv4)×EV4
CET1=(kt1+Δkt1)×ET1
CET2=(kt2+Δkt2)×ET2
CET3=(kt3+Δkt3)×ET3
CET4=(kt4+Δkt4)×ET4
CEV1 = (kv1 + Δkv1) x EV1
CEV2 = (kv2 + Δkv2) x EV2
CEV3 = (kv3 + Δkv3) x EV3
CEV4 = (kv4 + Δkv4) x EV4
CET1 = (kt1 + Δkt1) × ET1
CET2 = (kt2 + Δkt2) × ET2
CET3 = (kt3 + Δkt3) x ET3
CET4 = (kt4 + Δkt4) x ET4
増減値Δkv1〜Δkv4、及び、増減値Δkt1〜Δkt4は、文字列関係情報38において、認識文字列RTに含まれる文字列に対応する値である。また、重み付け係数kvxと増減値Δkvxとの和が0未満である場合、補正部257aは、補正後の音声評価値CEVxを0として出力し、重み付け係数kvxと増減値Δkvxとの和が1より大きい場合、補正後の音声評価値CEVxを音声評価値EVxと同一の値として出力する。同様に、重み付け係数ktxと増減値Δktxとの和が0未満である場合、補正部257aは、補正後の文字評価値CETxを0として出力し、重み付け係数ktxと増減値Δktxとの和が1より大きい場合、補正後の文字評価値CETxを文字評価値ETxと同一の値として出力する。xは、1から4までの整数である。
以下の記載では、補正部257aは、第2の態様であるとして説明する。
The increase / decrease values Δkv1 to Δkv4 and the increase / decrease values Δkt1 to Δkt4 are values corresponding to the character strings included in the recognition character string RT in the character
In the following description, the
2.2.第2実施形態の動作
次に、ユーザ装置1aの動作について、図12を用いて説明する。
2.2. Operation of the Second Embodiment Next, the operation of the
図12は、ユーザ装置1aの動作を示すフローチャートである。図12に示すステップS21〜ステップS27の処理は、それぞれ、図8に示すステップS1〜ステップS7の処理と同一であるため、説明を省略する。
FIG. 12 is a flowchart showing the operation of the
ステップS27の処理終了後、補正部257aは、文字列関係情報38内の文字列が認識文字列RTに含まれるか否かを判定する(ステップS28)。ステップS28の判定結果が肯定の場合、補正部257aは、認識文字列RTに含まれる文字列及び状況情報SiIが示す状況に応じた重み付け係数kv1〜kv4に基づいて、音声評価値EV1〜EV4と文字評価値ET1〜ET4とを補正する(ステップS29)。一方、ステップS28の判定結果が否定の場合、補正部257aは、状況情報SiIが示す状況に応じた重み付け係数kv1〜kv4に基づいて、音声評価値EV1〜EV4と文字評価値ET1〜ET4とを補正する(ステップS30)。
After the processing in step S27 is completed, the
ステップS29の処理又はステップS30の処理終了後、推定部258は、補正後の音声評価値CEV1〜CEV4と、補正後の文字評価値CET1〜CET4とに基づいて、ユーザUが抱く1つ以上の感情を推定し、感情情報EIを出力する(ステップS31)。出力部27は、感情情報EIが示す感情に応じた処理を認識文字列RTに対して実行することにより得られる情報を出力する(ステップS32)。ステップS10の処理終了後、ユーザ装置1は、図12に示す一連の処理を終了する。
After the processing of step S29 or the processing of step S30 is completed, the
2.3.第2実施形態の効果
以上の説明によれば、ユーザ装置1aは、ユーザUが認識文字列RTを発声した場合にユーザUの音声に感情が発露される度合いと、状況情報SiIとに基づいて、音声評価値EV1〜EV4、及び、文字評価値ET1〜ET4を補正する。一般的に、発声した場合に感情が発露される度合いが高い文字列と、発声した場合に感情が発露される度合いが低い文字列とが存在するため、発声した場合に感情が発露される度合いに応じて音声評価値EV1〜EV4、及び、文字評価値ET1〜ET4を補正することにより、ユーザUが抱く感情を精度良く推定できる。
2.3. Effect of the Second Embodiment According to the above description, the
また、ユーザ装置1aは、状況関係情報37と文字列関係情報38とを参照して、音声評価値EV1〜EV4、及び、文字評価値ET1〜ET4の各々に対する、認識文字列RTに含まれる文字列及び状況情報SiIが示す状況に応じた重み付け係数kv1〜kv4、kt1〜kt4を設定する。認識文字列RTに含まれる文字列及び状況情報SiIが示す状況に応じた重み付け係数kv1〜kv4、kt1〜kt4を設定することにより、ユーザUが抱く感情を精度良く推定できる。
Further, the
3.変形例
本発明は、以上に例示した各実施形態に限定されない。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様を併合してもよい。
3. 3. Modifications The present invention is not limited to the embodiments exemplified above. A specific mode of modification is illustrated below. Two or more aspects arbitrarily selected from the following examples may be merged.
(1)上述の各態様では、ユーザ装置1の処理装置2が、取得部21、状況情報生成部23、感情情報生成部25、及び、出力部27として機能したが、これに限らない。第1変形例では、取得部21、状況情報生成部23、感情情報生成部25、及び、出力部27を、ユーザ装置1bと、サーバ装置10とで分散させる。
(1) In each of the above aspects, the
図13は、感情推定システムSYSの全体構成を示す図である。感情推定システムSYSは、ユーザUが所持するユーザ装置1bと、ネットワークNWと、サーバ装置10とを備える。ユーザ装置1bが、「端末装置」の一例である。サーバ装置10が、第1変形例における「感情推定装置」の一例である。
FIG. 13 is a diagram showing the overall configuration of the emotion estimation system SYS. The emotion estimation system SYS includes a
図14は、ユーザ装置1bの構成を示すブロック図である。ユーザ装置1bは、処理装置2b、記憶装置3b、入力装置4、出力装置5、通信装置6、慣性センサ7、及び、GPS装置8を具備するコンピュータシステムにより実現される。記憶装置3bは、処理装置2bが読取可能な記録媒体であり、処理装置2bが実行する制御プログラムPRbを含む複数のプログラム、及び、スケジュール情報35を記憶する。
FIG. 14 is a block diagram showing the configuration of the
処理装置2bは、記憶装置3bから制御プログラムPRbを読み取り実行することによって、取得部21、状況情報生成部23、及び、出力部27として機能する。
The
通信装置6は、音声情報VI及び状況情報SiIをサーバ装置10に送信し、サーバ装置10から、認識文字列RT及び感情情報EIを受信する。
The
図15は、サーバ装置10の構成を示すブロック図である。サーバ装置10は、処理装置2B、記憶装置3B、通信装置6Bを具備するコンピュータシステムにより実現される。サーバ装置10の各要素は、情報を通信するための単体又は複数のバス9Bで相互に接続される。記憶装置3Bは、処理装置2Bが読取可能な記録媒体であり、処理装置2Bが実行する制御プログラムPRBを含む複数のプログラム、解析用辞書情報31、感情分類情報33、状況関係情報37、及び、学習モデルLMを記憶する。
FIG. 15 is a block diagram showing the configuration of the
処理装置2Bは、記憶装置3Bから制御プログラムPRBを読み取り実行することによって、感情情報生成部25として機能する。
The
通信装置6Bは、音声情報VI及び状況情報SiIをユーザ装置1bから受信し、認識文字列RT及び感情情報EIをユーザ装置1bに送信する。
The
以上、第1変形例によれば、取得部21、状況情報生成部23、感情情報生成部25、及び、出力部27を、ユーザ装置1と、サーバ装置10とで分散することができる。
As described above, according to the first modification, the
(2)第2実施形態では、補正部257aは、ユーザUが認識文字列RTを発声した場合にユーザUの音声に感情が発露される度合いと、状況情報SiIとに基づいて、音声評価値EV1〜EV4、及び、文字評価値ET1〜ET4を補正したが、これに限らない。例えば、補正部257aは、ユーザUが認識文字列RTを発声した場合にユーザUの音声に感情が発露される度合いに基づいて、音声評価値EV1〜EV4、及び、文字評価値ET1〜ET4を補正してもよい。
(2) In the second embodiment, the
(3)プライベート空間の一例が、自宅の中であると記載したが、これに限らない。例えば、プライベート空間は、ユーザUが宿泊するホテルの部屋の中でもよい。例えば、ユーザ装置1が、ホテルの部屋のドアの施錠及び開錠を制御できる機能を有すると前提する。この前提の基、ユーザ装置1がホテルの部屋のドアの開錠を指示し、かつ、開錠を指示した時刻から所定時間が経過するまでの間で、ユーザUの移動範囲が所定範囲内である場合には、ユーザ装置1は、ユーザUが宿泊するホテルの部屋の中にいると判定する。
(3) Although it is described that an example of a private space is in the home, it is not limited to this. For example, the private space may be in the hotel room where the user U stays. For example, it is assumed that the
(4)非プライベート空間は、公共の交通機関内、及び、職場の中と記載したが、これらに限らない。例えば、非プライベート空間は、学校の中、病院の中、及び、図書館の中等がある。 (4) Non-private space is described as being in public transportation and in the workplace, but it is not limited to these. For example, non-private spaces include schools, hospitals, libraries, and so on.
(5)公共の交通機関を利用する状況の一例として、電車を利用する状況を挙げたが、公共の交通機関を利用している状況は、電車を利用する状況に限られない。例えば、公共の交通機関を利用している状況として、駅構内にいる状況を含めてもよい。例えば、ユーザ装置1が、交通系IC(Integrated Circuit)カード機能を有する場合、交通系ICカード機能によって駅構内にユーザUが入った場合に、ユーザUが公共の交通機関を利用する状況であると判断してもよい。また、公共の交通機関には、電車に限らず、路線バス、タクシー、フェリー、及び、旅客機等も含まれる。
(5) As an example of the situation of using public transportation, the situation of using a train was mentioned, but the situation of using public transportation is not limited to the situation of using a train. For example, the situation of using public transportation may include the situation of being in a station yard. For example, when the
(6)出力部27は、感情情報EIが示す感情に応じた処理を認識文字列RTに対して実行することにより得られる情報を出力するが、この限りではない。例えば、出力部27は、感情情報EIが示す感情を示す文字列を、表示装置51に出力してもよいし、感情情報EIが示す絵文字を、表示装置51に出力する。
(6) The
(7)ユーザ装置1は、集音装置41を有さなくてもよい。集音装置41を有さない場合、ユーザ装置1は、通信装置6を介して音声情報VIを取得してもよいし、記憶装置3に記憶された音声情報VIを取得してもよい。
(7) The
(8)ユーザ装置1は、放音装置53を有さなくてもよい。
(8) The
(9)ユーザ装置1は、スマートスピーカでもよい。ユーザ装置1がスマートスピーカである場合、ユーザ装置1は、タッチパネル43及び表示装置51を有さなくてもよい。
(9) The
(10)感情分類情報33は、図4に示すように、「勝つ」、「勝っ」のように、ある単語が活用した複数の形態素のそれぞれを、喜び、怒り、悲しみ、及び、平常の何れかに分類したが、これに限らない。例えば、感情分類情報33は、解析用辞書情報31の原形データに登録された文字列を、喜び、怒り、悲しみ、及び、平常の何れかに分類してもよい。例えば、感情分類情報33は、解析用辞書情報31の原形データに登録された文字列「嬉しい」、「合格」、及び「勝つ」を、喜びに分類する。算出部2554は、補正後認識文字列CRTを形態素ごとに分解し、分解した形態素を、解析用辞書情報31の原形データに登録された文字列に変換する。そして、算出部2554は、変換して得られた文字列と、感情分類情報33に含まれる文字列とが一致する場合に、この補正後認識文字列CRTに含まれる文字列に対応する感情の文字評価値ETを増加させる。
(10) As shown in FIG. 4, the
(11)算出部2554は、補正後認識文字列CRTに対して、感情ごとの文字評価値ETを算出したが、認識文字列RTに対して感情ごとの文字評価値ETを算出してもよい。しかしながら、認識文字列RTには、感情を推定するためには不要な文字列が含まれる。従って、補正後認識文字列CRTに対して感情ごとの文字評価値ETを算出することにより、認識文字列RTに対して感情ごとの文字評価値ETを算出する場合と比較して、感情の推定精度を向上できる。
(11) Although the
(12)ユーザUが日本語を話す例を用いたが、ユーザが如何なる言語を話しても上述の各態様を適用することが可能である。例えば、ユーザUが、日本語以外の英語、フランス語、又は中国語等を話す場合であっても上述の各態様を適用できる。例えば、ユーザUが英語を話す場合、解析用辞書情報31は、英語の形態素に関する情報であり、感情分類情報33は、英単語を喜び、怒り、悲しみ、及び、平常の何れかに分類した情報であればよい。
(12) Although the example in which the user U speaks Japanese is used, each of the above aspects can be applied regardless of the language spoken by the user. For example, even when the user U speaks English, French, Chinese, or the like other than Japanese, each of the above aspects can be applied. For example, when the user U speaks English, the
(13)上述した各態様の説明に用いたブロック図は、機能単位のブロックを示している。これらの機能ブロック(構成部)は、ハードウェア及び/又はソフトウェアの任意の組み合わせによって実現される。また、各機能ブロックの実現手段は特に限定されない。すなわち、各機能ブロックは、物理的及び/又は論理的に結合した1つの装置により実現されてもよいし、物理的及び/又は論理的に分離した2つ以上の装置を直接的及び/又は間接的に(例えば、有線及び/又は無線)で接続し、これら複数の装置により実現されてもよい。 (13) The block diagram used in the description of each of the above-described aspects shows a block of functional units. These functional blocks (components) are realized by any combination of hardware and / or software. Further, the means for realizing each functional block is not particularly limited. That is, each functional block may be realized by one physically and / or logically coupled device, or directly and / or indirectly by two or more physically and / or logically separated devices. (For example, wired and / or wireless) may be connected and realized by these plurality of devices.
(14)上述した各態様における処理手順、シーケンス、フローチャートなどは、矛盾のない限り、順序を入れ替えてもよい。例えば、本明細書で説明した方法については、例示的な順序で様々なステップの要素を提示しており、提示した特定の順序に限定されない。 (14) The order of the processing procedures, sequences, flowcharts, etc. in each of the above-described aspects may be changed as long as there is no contradiction. For example, the methods described herein present elements of various steps in an exemplary order, and are not limited to the particular order presented.
(15)上述した各態様において、入出力された情報等は特定の場所(例えば、メモリ)に保存されてもよいし、管理テーブルで管理してもよい。入出力される情報等は、上書き、更新、又は追記され得る。出力された情報等は削除されてもよい。入力された情報等は他の装置へ送信されてもよい。 (15) In each of the above-described aspects, the input / output information and the like may be stored in a specific place (for example, a memory) or may be managed by a management table. Input / output information and the like can be overwritten, updated, or added. The output information and the like may be deleted. The input information or the like may be transmitted to another device.
(16)上述した各態様において、判定は、1ビットで表される値(0か1か)によって行われてもよいし、真偽値(Boolean:true又はfalse)によって行われてもよいし、数値の比較(例えば、所定の値との比較)によって行われてもよい。 (16) In each of the above-described aspects, the determination may be made by a value represented by 1 bit (0 or 1) or by a boolean value (Boolean: true or false). , May be done by numerical comparison (eg, comparison with a given value).
(17)上述した各態様では、スマートフォン等の可搬型の情報処理装置をユーザ装置1として例示したが、ユーザ装置1の具体的な形態は任意であり、前述の各形態の例示には限定されない。例えば、可搬型又は据置型のパーソナルコンピュータをユーザ装置1として利用してもよい。
(17) In each of the above-described aspects, a portable information processing device such as a smartphone is illustrated as the
(18)上述した各態様では、記憶装置3は、処理装置2が読取可能な記録媒体であり、ROM及びRAMなどを例示したが、フレキシブルディスク、光磁気ディスク(例えば、コンパクトディスク、デジタル多用途ディスク、Blu−ray(登録商標)ディスク)、スマートカード、フラッシュメモリデバイス(例えば、カード、スティック、キードライブ)、CD−ROM(Compact Disc−ROM)、レジスタ、リムーバブルディスク、ハードディスク、フロッピー(登録商標)ディスク、磁気ストリップ、データベース、サーバその他の適切な記憶媒体である。また、プログラムは、ネットワークから送信されても良い。また、プログラムは、電気通信回線を介して通信網から送信されても良い。
(18) In each of the above-described aspects, the storage device 3 is a recording medium that can be read by the
(19)上述した各態様は、LTE(Long Term Evolution)、LTE−A(LTE-Advanced)、SUPER 3G、IMT−Advanced、4G、5G、FRA(Future Radio Access)、W−CDMA(登録商標)、GSM(登録商標)、CDMA2000、UMB(Ultra Mobile Broadband)、IEEE 802.11(Wi−Fi)、IEEE 802.16(WiMAX)、IEEE 802.20、UWB(Ultra-WideBand)、Bluetooth(登録商標)、その他の適切なシステムを利用するシステム及び/又はこれらに基づいて拡張された次世代システムに適用されてもよい。 (19) Each of the above-described aspects includes LTE (Long Term Evolution), LTE-A (LTE-Advanced), SUPER 3G, IMT-Advanced, 4G, 5G, FRA (Future Radio Access), and W-CDMA (registered trademark). , GSM (registered trademark), CDMA2000, UMB (Ultra Mobile Broadband), IEEE 802.11 (Wi-Fi), IEEE 802.16 (WiMAX), IEEE 802.20, UWB (Ultra-WideBand), Bluetooth (registered trademark) ), Other systems that utilize suitable systems and / or next-generation systems that are extended based on them.
(20)上述した各態様において、説明した情報及び信号などは、様々な異なる技術の何れかを使用して表されてもよい。例えば、上述の説明全体に渡って言及され得るデータ、命令、コマンド、情報、信号、ビット、シンボル、チップなどは、電圧、電流、電磁波、磁界若しくは磁性粒子、光場若しくは光子、又はこれらの任意の組み合わせによって表されてもよい。
なお、本明細書で説明した用語及び/又は本明細書の理解に必要な用語については、同一の又は類似する意味を有する用語と置き換えてもよい。
(20) In each of the above aspects, the information, signals, and the like described may be represented using any of a variety of different techniques. For example, data, instructions, commands, information, signals, bits, symbols, chips, etc. that may be referred to throughout the above description are voltages, currents, electromagnetic waves, magnetic fields or magnetic particles, light fields or photons, or any of these. It may be represented by a combination of.
In addition, the terms described in the present specification and / or the terms necessary for understanding the present specification may be replaced with terms having the same or similar meanings.
(21)図2、図6、図9、図10、図14、及び、図15に例示された各機能は、ハードウェア及びソフトウェアの任意の組み合わせによって実現される。また、各機能は、単体の装置によって実現されてもよいし、相互に別体で構成された2個以上の装置によって実現されてもよい。 (21) Each of the functions illustrated in FIGS. 2, 6, 9, 10, 14, and 15 is realized by any combination of hardware and software. Further, each function may be realized by a single device, or may be realized by two or more devices configured as separate bodies from each other.
(22)上述した各実施形態で例示したプログラムは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード又はハードウェア記述言語と呼ばれるか、他の名称によって呼ばれるかを問わず、命令、命令セット、コード、コードセグメント、プログラムコード、サブプログラム、ソフトウェアモジュール、アプリケーション、ソフトウェアアプリケーション、ソフトウェアパッケージ、ルーチン、サブルーチン、オブジェクト、実行可能ファイル、実行スレッド、手順又は機能等を意味するよう広く解釈されるべきである。
また、ソフトウェア、命令などは、伝送媒体を介して送受信されてもよい。例えば、ソフトウェアが、同軸ケーブル、光ファイバケーブル、ツイストペア及びデジタル加入者回線(DSL)などの有線技術及び/又は赤外線、無線及びマイクロ波などの無線技術を使用してウェブサイト、サーバ、又は他のリモートソースから送信される場合、これらの有線技術及び/又は無線技術は、伝送媒体の定義内に含まれる。
(22) The programs exemplified in each of the above-described embodiments are called instructions, instruction sets, codes, code segments regardless of whether they are called software, firmware, middleware, microcode or hardware description language, or by other names. , Program code, subprograms, software modules, applications, software applications, software packages, routines, subroutines, objects, executables, execution threads, procedures or functions, etc. should be broadly interpreted to mean.
Further, software, instructions, and the like may be transmitted and received via a transmission medium. For example, the software uses wired technology such as coaxial cable, fiber optic cable, twist pair and digital subscriber line (DSL) and / or wireless technology such as infrared, wireless and microwave to websites, servers, or other When transmitted from a remote source, these wired and / or wireless technologies are included within the definition of transmission medium.
(23)上述した各実施形態において、情報、パラメータなどは、絶対値で表されてもよいし、所定の値からの相対値で表されてもよいし、対応する別の情報で表されてもよい。 (23) In each of the above-described embodiments, the information, parameters, etc. may be represented by absolute values, relative values from a predetermined value, or other corresponding information. May be good.
(24)上述したパラメータに使用する名称はいかなる点においても限定的なものではない。さらに、これらのパラメータを使用する数式等は、本明細書で明示的に開示したものと異なる場合もある。 (24) The names used for the above-mentioned parameters are not limited in any respect. Further, mathematical formulas and the like using these parameters may differ from those expressly disclosed herein.
(25)上述した各実施形態において、ユーザ装置1は、移動局である場合が含まれる。移動局は、当業者によって、加入者局、モバイルユニット、加入者ユニット、ワイヤレスユニット、リモートユニット、モバイルデバイス、ワイヤレスデバイス、ワイヤレス通信デバイス、リモートデバイス、モバイル加入者局、アクセス端末、モバイル端末、ワイヤレス端末、リモート端末、ハンドセット、ユーザエージェント、モバイルクライアント、クライアント、又はいくつかの他の適切な用語で呼ばれる場合もある。
(25) In each of the above-described embodiments, the
(26)上述した各実施形態において、「に基づいて」という記載は、別段に明記されていない限り、「のみに基づいて」を意味しない。言い換えれば、「に基づいて」という記載は、「のみに基づいて」と「に少なくとも基づいて」の両方を意味する。 (26) In each of the above embodiments, the phrase "based on" does not mean "based on" unless otherwise stated. In other words, the statement "based on" means both "based only" and "at least based on".
(27)本明細書で使用する「第1」、「第2」などの呼称を使用した要素へのいかなる参照も、それらの要素の量又は順序を全般的に限定するものではない。これらの呼称は、2つ以上の要素間を区別する便利な方法として本明細書で使用され得る。従って、第1及び第2の要素への参照は、2つの要素のみがそこで採用され得ること、又は何らかの形で第1の要素が第2の要素に先行しなければならないことを意味しない。 (27) Any reference to elements using designations such as "first", "second" as used herein does not generally limit the quantity or order of those elements. These designations can be used herein as a convenient way to distinguish between two or more elements. Thus, references to the first and second elements do not mean that only two elements can be adopted there, or that the first element must somehow precede the second element.
(28)上述した各実施形態において「含む(including)」、「含んでいる(comprising)」、及びそれらの変形が、本明細書あるいは特許請求の範囲で使用されている限り、これら用語は、用語「備える」と同様に、包括的であることが意図される。さらに、本明細書あるいは特許請求の範囲において使用されている用語「又は(or)」は、排他的論理和ではないことが意図される。 (28) As long as "inclusion," "comprising," and variations thereof in each of the embodiments described above are used herein or within the scope of the claims, these terms are used. As with the term "prepare", it is intended to be inclusive. Furthermore, the term "or" as used herein or in the claims is intended not to be an exclusive OR.
(29)本願の全体において、例えば、英語におけるa、an及びtheのように、翻訳によって冠詞が追加された場合、これらの冠詞は、文脈から明らかにそうではないことが示されていなければ、複数を含む。 (29) In the whole of the present application, if articles are added by translation, for example, a, an and the in English, unless the context clearly indicates that these articles are not. Including multiple.
(30)本発明が本明細書中に説明した実施形態に限定されないことは当業者にとって明白である。本発明は、特許請求の範囲の記載に基づいて定まる本発明の趣旨及び範囲を逸脱することなく修正及び変更態様として実施できる。従って、本明細書の記載は、例示的な説明を目的とし、本発明に対して何ら制限的な意味を有さない。また、本明細書に例示した態様から選択された複数の態様を組み合わせてもよい。 (30) It will be apparent to those skilled in the art that the present invention is not limited to the embodiments described herein. The present invention can be implemented as modifications and modifications without departing from the spirit and scope of the present invention, which is determined based on the description of the scope of claims. Therefore, the description herein is for illustrative purposes and has no limiting implications for the present invention. In addition, a plurality of aspects selected from the aspects illustrated in the present specification may be combined.
1、1a、1b…ユーザ装置、6…通信装置、10…サーバ装置、21…取得部、23…状況情報生成部、25、25a…感情情報生成部、27…出力部、37…状況関係情報、38…文字列関係情報、41…集音装置、251…特徴量生成部、252…第1評価部
254…認識部、255…第2評価部、257、257a…補正部、258…推定部、CET1…補正後の文字評価値、CET2…補正後の文字評価値、CET3…補正後の文字評価値、CET4…補正後の文字評価値、CEV1…補正後の音声評価値、CEV2…補正後の音声評価値、CEV3…補正後の音声評価値、CEV4…補正後の音声評価値、EI…感情情報、ET1…文字評価値、ET2…文字評価値、ET3…文字評価値、ET4…文字評価値、EV1…音声評価値、EV2…音声評価値、EV3…音声評価値、EV4…音声評価値、kt1…重み付け係数、kt2…重み付け係数、kt3…重み付け係数、kt4…重み付け係数、kv1…重み付け係数、kv2…重み付け係数、kv3…重み付け係数、kv4…重み付け係数。
1, 1a, 1b ... user device, 6 ... communication device, 10 ... server device, 21 ... acquisition unit, 23 ... situation information generation unit, 25, 25a ... emotion information generation unit, 27 ... output unit, 37 ... situation-related information , 38 ... Character string related information, 41 ... Sound collector, 251 ... Feature amount generation unit, 252 ...
Claims (9)
前記特徴量に基づいて、前記ユーザが第1感情を抱く強度を示す第1音声評価値と、前記ユーザが第2感情を抱く強度を示す第2音声評価値とを生成する第1評価部と、
前記音声情報に基づいて、前記ユーザの発話内容を示す認識文字列を生成する認識部と、
前記認識文字列に基づいて、前記ユーザが前記第1感情を抱く強度を示す第1文字評価値と、前記ユーザが前記第2感情を抱く強度を示す第2文字評価値とを生成する第2評価部と、
前記ユーザの状況を示す状況情報に基づいて、前記第1音声評価値、前記第2音声評価値、前記第1文字評価値、及び、前記第2文字評価値を補正する補正部と、
前記補正部の補正結果に基づいて、前記ユーザが抱く1つ以上の感情を推定する推定部と、
を備える感情推定装置。 A generation unit that generates a feature amount for the user's voice based on the user's voice information,
Based on the feature amount, a first evaluation unit that generates a first voice evaluation value indicating the intensity with which the user has a first emotion and a second voice evaluation value indicating the intensity with which the user has a second emotion. ,
A recognition unit that generates a recognition character string indicating the utterance content of the user based on the voice information,
Based on the recognition character string, a second character evaluation value indicating the strength with which the user has the first emotion and a second character evaluation value indicating the strength with the user having the second emotion are generated. Evaluation department and
A correction unit that corrects the first voice evaluation value, the second voice evaluation value, the first character evaluation value, and the second character evaluation value based on the situation information indicating the user's situation.
An estimation unit that estimates one or more emotions held by the user based on the correction result of the correction unit, and an estimation unit.
Emotion estimator equipped with.
人間の音声に応じた特徴量と当該音声を発した人間が抱く前記第1感情及び前記第2感情の各々に対する強度との関係を学習済みの学習モデルに、前記生成部が生成した特徴量を入力し、前記第1音声評価値と前記第2音声評価値とを前記学習モデルから取得する、
請求項1に記載の感情推定装置。 The first evaluation unit
The feature amount generated by the generation unit is applied to a learning model in which the relationship between the feature amount corresponding to the human voice and the intensity of each of the first emotion and the second emotion held by the person who emits the voice is learned. Input and acquire the first voice evaluation value and the second voice evaluation value from the learning model.
The emotion estimation device according to claim 1.
請求項2に記載の感情推定装置。 The learning model has already learned the relationship between a plurality of features corresponding to the human voice and the intensity of each of the first emotion and the second emotion held by the person who emitted the voice for a plurality of humans. is there,
The emotion estimation device according to claim 2.
人間が取り得る状況を示す識別情報と、当該状況に応じて設定された前記第1音声評価値、前記第2音声評価値、前記第1文字評価値、及び、前記第2文字評価値の各々に対する重み付け係数との関係を示す状況関係情報を参照して、
前記状況情報が示す状況に応じた前記第1音声評価値、前記第2音声評価値、前記第1文字評価値、及び、前記第2文字評価値の各々に対する重み付け係数を設定し、
前記第1音声評価値、前記第2音声評価値、前記第1文字評価値、及び、前記第2文字評価値の各々に対する重み付け係数に基づいて、前記第1音声評価値、前記第2音声評価値、前記第1文字評価値、及び、前記第2文字評価値を補正する、
請求項1から3までのいずれか1項に記載の感情推定装置。 The correction unit
Identification information indicating a situation that a human can take, and each of the first voice evaluation value, the second voice evaluation value, the first character evaluation value, and the second character evaluation value set according to the situation. With reference to the contextual information that shows the relationship with the weighting factor for
A weighting coefficient for each of the first voice evaluation value, the second voice evaluation value, the first character evaluation value, and the second character evaluation value according to the situation indicated by the situation information is set.
The first voice evaluation value and the second voice evaluation value are based on the weighting coefficients for each of the first voice evaluation value, the second voice evaluation value, the first character evaluation value, and the second character evaluation value. Correct the value, the first character evaluation value, and the second character evaluation value.
The emotion estimation device according to any one of claims 1 to 3.
前記ユーザの許可なく立ち入りが禁止されるプライベート空間内に前記ユーザがいる状況を示す識別情報に関係する重み付け係数について、前記第1音声評価値に対する重み付け係数が前記第1文字評価値に対する重み付け係数より大きく、かつ、前記第2音声評価値に対する重み付け係数が前記第2文字評価値に対する重み付け係数より大きい、
ことを示す、
請求項4に記載の感情推定装置。 The situation-related information is
Regarding the weighting coefficient related to the identification information indicating the situation where the user is in the private space where entry is prohibited without the permission of the user, the weighting coefficient for the first voice evaluation value is larger than the weighting coefficient for the first character evaluation value. And, the weighting coefficient for the second voice evaluation value is larger than the weighting coefficient for the second character evaluation value.
Show that
The emotion estimation device according to claim 4.
前記ユーザの許可なく立ち入りが可能な非プライベート空間内に前記ユーザがいる状況を示す識別情報に関係する重み付け係数について、前記第1文字評価値に対する重み付け係数が前記第1音声評価値に対する重み付け係数より大きく、かつ、前記第2文字評価値に対する重み付け係数が前記第2音声評価値に対する重み付け係数より大きい、
ことを示す、
請求項4に記載の感情推定装置。 The situation-related information is
Regarding the weighting coefficient related to the identification information indicating the situation where the user is in the non-private space that can be entered without the permission of the user, the weighting coefficient for the first character evaluation value is larger than the weighting coefficient for the first voice evaluation value. And, the weighting coefficient for the second character evaluation value is larger than the weighting coefficient for the second voice evaluation value.
Show that
The emotion estimation device according to claim 4.
前記ユーザが前記認識文字列を発声した場合に前記ユーザの音声に感情が発露される度合いと、前記状況情報とに基づいて、前記第1音声評価値、前記第2音声評価値、前記第1文字評価値、及び、前記第2文字評価値を補正する、
請求項1から3までのいずれか1項に記載の感情推定装置。 The correction unit
The first voice evaluation value, the second voice evaluation value, and the first voice evaluation value are based on the degree to which emotions are expressed in the user's voice when the user utters the recognition character string and the situation information. Correct the character evaluation value and the second character evaluation value.
The emotion estimation device according to any one of claims 1 to 3.
前記人間が取り得る状況を示す識別情報と、当該状況に応じて設定された前記第1音声評価値、前記第2音声評価値、前記第1文字評価値、及び、前記第2文字評価値の各々に対する重み付け係数との関係を示す状況関係情報と、
人間が発声する文字列と、前記文字列を発声した場合において人間の音声に感情が発露される度合いに基づき設定された前記第1音声評価値、前記第2音声評価値、前記第1文字評価値、及び、前記第2文字評価値の各々に対する重み付け係数の増減値との関係を示す文字列関係情報と、
を参照し、
前記第1音声評価値、前記第2音声評価値、前記第1文字評価値、及び、前記第2文字評価値の各々に対する、前記認識文字列に含まれる文字列及び前記状況情報が示す状況に応じた重み付け係数を設定し、
前記認識文字列に含まれる文字列及び前記状況情報が示す状況に応じた重み付け係数に基づいて、前記第1音声評価値、前記第2音声評価値、前記第1文字評価値、及び、前記第2文字評価値を補正する、
請求項1から3までのいずれか1項に記載の感情推定装置。 The correction unit
Identification information indicating a situation that a human can take, and the first voice evaluation value, the second voice evaluation value, the first character evaluation value, and the second character evaluation value set according to the situation. Situation-related information showing the relationship with the weighting coefficient for each,
The first voice evaluation value, the second voice evaluation value, and the first character evaluation set based on the character string uttered by a human and the degree to which emotions are expressed in the human voice when the character string is uttered. Character string relationship information indicating the relationship between the value and the increase / decrease value of the weighting coefficient for each of the second character evaluation values, and
Refer to
The character string included in the recognition character string and the situation indicated by the situation information for each of the first voice evaluation value, the second voice evaluation value, the first character evaluation value, and the second character evaluation value. Set the weighting coefficient according to
The first voice evaluation value, the second voice evaluation value, the first character evaluation value, and the first character evaluation value, based on the character string included in the recognition character string and the weighting coefficient according to the situation indicated by the situation information. Correct the two-character evaluation value,
The emotion estimation device according to any one of claims 1 to 3.
前記端末装置は、
前記ユーザの音声を集音する集音装置と、
前記状況情報を生成する状況情報生成部と、
前記ユーザの音声を示す前記音声情報及び前記状況情報を前記感情推定装置に送信し、前記感情推定装置から、前記認識文字列、及び、前記推定部が推定した前記ユーザが抱く1つ以上の感情を示す感情情報を受信する通信装置と、
前記感情情報が示す感情に応じた処理を前記認識文字列に対して実行することにより得られる情報を出力する出力部と、
を備える感情推定システム。 An emotion estimation system including the emotion estimation device according to any one of claims 1 to 8 and a terminal device capable of communicating with the emotion estimation device.
The terminal device is
A sound collecting device that collects the user's voice and
The situation information generation unit that generates the situation information and
The voice information indicating the user's voice and the situation information are transmitted to the emotion estimation device, and the recognition character string and one or more emotions held by the user estimated by the estimation unit are transmitted from the emotion estimation device. A communication device that receives emotional information indicating
An output unit that outputs information obtained by executing processing according to the emotion indicated by the emotion information on the recognition character string, and an output unit.
Emotion estimation system with.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019126106A JP7379788B2 (en) | 2019-07-05 | 2019-07-05 | Emotion estimation device and emotion estimation system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019126106A JP7379788B2 (en) | 2019-07-05 | 2019-07-05 | Emotion estimation device and emotion estimation system |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021012285A true JP2021012285A (en) | 2021-02-04 |
JP7379788B2 JP7379788B2 (en) | 2023-11-15 |
Family
ID=74227962
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019126106A Active JP7379788B2 (en) | 2019-07-05 | 2019-07-05 | Emotion estimation device and emotion estimation system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7379788B2 (en) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006277567A (en) * | 2005-03-30 | 2006-10-12 | Nec Corp | Portable terminal with mail creation function using speech emotion recognition, portable terminal system, and mail creation method using speech emotion recognition |
JP2010054568A (en) * | 2008-08-26 | 2010-03-11 | Oki Electric Ind Co Ltd | Emotional identification device, method and program |
JP2018072876A (en) * | 2016-10-24 | 2018-05-10 | 富士ゼロックス株式会社 | Emotion estimation system and emotion estimation model generation system |
JP2018132704A (en) * | 2017-02-16 | 2018-08-23 | トヨタ自動車株式会社 | Dialog device |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108564942B (en) | 2018-04-04 | 2021-01-26 | 南京师范大学 | Voice emotion recognition method and system based on adjustable sensitivity |
-
2019
- 2019-07-05 JP JP2019126106A patent/JP7379788B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006277567A (en) * | 2005-03-30 | 2006-10-12 | Nec Corp | Portable terminal with mail creation function using speech emotion recognition, portable terminal system, and mail creation method using speech emotion recognition |
JP2010054568A (en) * | 2008-08-26 | 2010-03-11 | Oki Electric Ind Co Ltd | Emotional identification device, method and program |
JP2018072876A (en) * | 2016-10-24 | 2018-05-10 | 富士ゼロックス株式会社 | Emotion estimation system and emotion estimation model generation system |
JP2018132704A (en) * | 2017-02-16 | 2018-08-23 | トヨタ自動車株式会社 | Dialog device |
Non-Patent Citations (1)
Title |
---|
松井 辰哉: "対話システムに向けたマルチモーダル感情推定及び知識獲得手法", 情報処理学会第78回全国大会, JPN6022054724, 10 March 2016 (2016-03-10), JP, pages 203 - 4, ISSN: 0005086388 * |
Also Published As
Publication number | Publication date |
---|---|
JP7379788B2 (en) | 2023-11-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP2801091B1 (en) | Method, apparatus and computer program product for joint use of speech and text-based features for sentiment detection | |
US11200506B2 (en) | Chatbot integrating derived user intent | |
US9558743B2 (en) | Integration of semantic context information | |
US8930187B2 (en) | Methods, apparatuses and computer program products for implementing automatic speech recognition and sentiment detection on a device | |
US20180225306A1 (en) | Method and system to recommend images in a social application | |
US20200012724A1 (en) | Bidirectional speech translation system, bidirectional speech translation method and program | |
US20140025381A1 (en) | Evaluating text-to-speech intelligibility using template constrained generalized posterior probability | |
US20140214426A1 (en) | System and method for improving voice communication over a network | |
KR20150037986A (en) | Determining hotword suitability | |
CN108242236A (en) | Dialog process device and its vehicle and dialog process method | |
US11574637B1 (en) | Spoken language understanding models | |
CN108922521A (en) | A kind of voice keyword retrieval method, apparatus, equipment and storage medium | |
CN112530408A (en) | Method, apparatus, electronic device, and medium for recognizing speech | |
US11823669B2 (en) | Information processing apparatus and information processing method | |
US10866948B2 (en) | Address book management apparatus using speech recognition, vehicle, system and method thereof | |
JP6782329B1 (en) | Emotion estimation device, emotion estimation system, and emotion estimation method | |
US20220035840A1 (en) | Data management device, data management method, and program | |
JP7379788B2 (en) | Emotion estimation device and emotion estimation system | |
US20220036381A1 (en) | Data disclosure device, data disclosure method, and program | |
Valsaraj et al. | Alzheimer’s dementia detection using acoustic & linguistic features and pre-trained BERT | |
US20220122596A1 (en) | Method and system of automatic context-bound domain-specific speech recognition | |
US20230034450A1 (en) | Semantically-augmented context representation generation | |
Dahanayaka et al. | A multi-modular approach for sign language and speech recognition for deaf-mute people | |
CN111582708A (en) | Medical information detection method, system, electronic device and computer-readable storage medium | |
JP7279287B2 (en) | Emotion estimation device and emotion estimation system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220209 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20221128 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221227 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230221 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230620 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230714 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231003 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231012 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7379788 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |