JP2024037614A - Program, device, system and method for generating an emotion dictionary for a predetermined object, and emotion estimation program and device - Google Patents

Program, device, system and method for generating an emotion dictionary for a predetermined object, and emotion estimation program and device Download PDF

Info

Publication number
JP2024037614A
JP2024037614A JP2022142563A JP2022142563A JP2024037614A JP 2024037614 A JP2024037614 A JP 2024037614A JP 2022142563 A JP2022142563 A JP 2022142563A JP 2022142563 A JP2022142563 A JP 2022142563A JP 2024037614 A JP2024037614 A JP 2024037614A
Authority
JP
Japan
Prior art keywords
emotion
dictionary
target
information
estimation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022142563A
Other languages
Japanese (ja)
Inventor
ハンプス ハンマールンド
雅俊 永田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2022142563A priority Critical patent/JP2024037614A/en
Publication of JP2024037614A publication Critical patent/JP2024037614A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】所定の対象用の感情辞書を生成又は更新するための感情辞書情報を自動的に生成可能なプログラムを提供する。【解決手段】本感情辞書生成プログラムは、所定の対象の音声データをテキストデータに変換する変換手段と、この音声データから感情識別モデルを用いて対象の感情に係る情報を決定する感情決定手段と、対象の語、句、節若しくは文と感情に係る情報とを対応付けて登録した感情辞書を生成又は更新するための感情辞書情報であって、変換後のテキストデータに含まれる語、句、節若しくは文と、決定された感情に係る情報とを対応付けた感情辞書情報を生成し出力する辞書生成手段としてコンピュータを機能させる。ここで辞書生成手段は、変換後のテキストデータと、このテキストデータに係る音声データから決定された感情に係る情報との組のうち、感情識別に係る確からしさが所定以上に高い組を用いて感情辞書情報を生成することも好ましい。【選択図】図1The present invention provides a program that can automatically generate emotion dictionary information for generating or updating an emotion dictionary for a predetermined object. [Solution] This emotion dictionary generation program includes a conversion means for converting voice data of a predetermined target into text data, and an emotion determination means for determining information related to the emotion of the target from this voice data using an emotion identification model. , emotion dictionary information for generating or updating an emotion dictionary in which target words, phrases, clauses, or sentences and information related to emotions are registered in association with each other, words, phrases, or words included in the converted text data; A computer is caused to function as a dictionary generation means that generates and outputs emotion dictionary information in which clauses or sentences are associated with information related to determined emotions. Here, the dictionary generation means uses a set of the converted text data and the information about the emotion determined from the audio data related to the text data, for which the probability of emotion identification is higher than a predetermined value. It is also preferable to generate emotion dictionary information. [Selection diagram] Figure 1

Description

本発明は、感情辞書(sentiment lexicon)を生成し利用する技術に関する。 The present invention relates to techniques for generating and utilizing a sentiment lexicon.

医療・介護、教育やマーケティング等、様々な分野において、対象者の感情を推定するニーズが非常に高まっている。対象者の感情を適切に把握することができれば、例えばその感情に合ったより好適なサービスを対象者に提供することも可能となる。現在、このような感情推定にあたり、感情辞書(sentiment lexicon)を利用する方法が広く採用されている。ここで感情辞書は、使用された語句等と、そこに込められた感情の種別とを対応付けて登録した言語・感情対応モデルである。 In various fields such as medical care, nursing care, education, and marketing, the need to estimate the emotions of a target person is rapidly increasing. If the emotions of the target person can be appropriately understood, it becomes possible to provide the target person with a more suitable service that matches the emotion, for example. Currently, a method using a sentiment lexicon is widely adopted for such emotion estimation. Here, the emotion dictionary is a language/emotion correspondence model in which words and phrases used are registered in association with the types of emotions contained therein.

このような感情辞書を用いた感情推定は、非特許文献1に開示されているように、対象者が頭の中において外部に発する語句等を選択する際、その選択には通常、その時点における当人の感情状態が強く影響する可能性が高いことを理論的根拠としている。すなわち、対象者が使用した語句等を分析することにより、対象者のその時点での感情状態についての情報を取得することが可能となるのである。 Emotion estimation using such an emotion dictionary is as disclosed in Non-Patent Document 1. The rationale is that it is likely to be strongly influenced by the person's emotional state. In other words, by analyzing the words and phrases used by the subject, it is possible to obtain information about the subject's current emotional state.

このような感情推定の例として、特許文献1には、感情辞書を用い、入力されたテキストデータにおける最初のシードワード(seed words)のセットに対して、(感情について)ポジティブ又はネガティブのラベルを付与し、これにより対象の感情を決定する技術が開示されている。ここで使用された感情辞書は、不特定多数のデータから生成された汎用モデルとなっている。 As an example of such emotion estimation, Patent Document 1 discloses that an emotion dictionary is used to assign a positive or negative label (for emotion) to an initial set of seed words in input text data. A technique is disclosed for determining the emotion of the target by assigning the emotion to the target. The emotion dictionary used here is a general-purpose model generated from an unspecified number of data.

米国特許出願公開第2012/0046938号明細書US Patent Application Publication No. 2012/0046938

James W. Pennebaker, Matthias R. Mehl, and Kate G. Niederhoffer, “Psychological Aspects of Natural Language Use: Our Words, Our Selves”, Annual Review of Psychology, Volume 54, pp 547-577, <https://doi.org/10.1146/annurev.psych.54.101601.145041>, 2003年James W. Pennebaker, Matthias R. Mehl, and Kate G. Niederhoffer, “Psychological Aspects of Natural Language Use: Our Words, Our Selves”, Annual Review of Psychology, Volume 54, pp 547-577, <https://doi .org/10.1146/annurev.psych.54.101601.145041>, 2003 T. Rahman and C. Busso, "A personalized emotion recognition system using an unsupervised feature adaptation scheme," 2012 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 5117-5120, <https://doi.org/10.1109/ICASSP.2012.6289072>, 2012年T. Rahman and C. Busso, "A personalized emotion recognition system using an unsupervised feature adaptation scheme," 2012 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 5117-5120, <https://doi. org/10.1109/ICASSP.2012.6289072>, 2012

このように多くの場合、感情推定には汎用モデルとしての感情辞書が使用されてきた。これに対し、対象者の感情状態をより正確に把握するためには、対象者専用のモデルを使用することが理想的である。そのため従来、人手による負担の重い更新作業によって、感情辞書をパーソナライズ(個別化)することも行われてきた。 In this way, in many cases, emotion dictionaries have been used as general-purpose models for emotion estimation. On the other hand, in order to more accurately grasp the emotional state of a subject, it is ideal to use a model dedicated to the subject. For this reason, emotion dictionaries have traditionally been personalized (individualized) through heavy manual updating work.

このようなモデルの個別化に関し、例えば非特許文献2には、発話データから感情を識別するシステムを、個々の対象者に適合したものにするよう試みた経緯が開示されている。具体的には、仮訓練済みの(pre-trained )モデルによる音響(音声)特徴量と、ある特定の対象者における音響(音声)特徴量との潜在的な不一致を解消する処理が試みられている。しかしながら一般に、感情辞書そのものを、人手によらず自動的にパーソナライズする試みはなされてこなかったのである。 Regarding the individualization of such models, for example, Non-Patent Document 2 discloses an attempt to make a system for identifying emotions from speech data suitable for each individual subject. Specifically, an attempt was made to resolve potential discrepancies between the acoustic (speech) features of a pre-trained model and the acoustic (speech) features of a specific subject. There is. However, in general, no attempt has been made to automatically personalize the emotional dictionary itself without manual intervention.

そこで、本発明は、所定の対象用の感情辞書を生成又は更新するための感情辞書情報を自動的に生成可能な感情辞書生成プログラム、感情辞書生成装置、感情辞書生成システム及び感情辞書生成方法を提供することを目的とする。また、このように生成された感情辞書を用いて、この対象の感情を推定する感情推定プログラム及び感情推定装置を提供することを目的とする。 Therefore, the present invention provides an emotional dictionary generation program, an emotional dictionary generation device, an emotional dictionary generation system, and an emotional dictionary generation method that can automatically generate emotional dictionary information for generating or updating an emotional dictionary for a predetermined target. The purpose is to provide. Another object of the present invention is to provide an emotion estimation program and an emotion estimation device that estimate the emotion of the target using the emotion dictionary generated in this way.

本発明によれば、
取得された所定の対象の音声データをテキストデータに変換する変換手段と、
当該音声データから感情識別モデルを用いて当該対象の感情に係る情報を決定する感情決定手段と、
当該対象の語、句、節若しくは文と当該対象の感情に係る情報とを対応付けて登録した感情辞書を生成又は更新するための感情辞書情報であって、当該テキストデータに含まれる語、句、節若しくは文と、決定された感情に係る情報とを対応付けた感情辞書情報を生成し出力する辞書生成手段と
してコンピュータを機能させる感情辞書生成プログラムが提供される。
According to the invention,
a conversion means for converting the acquired audio data of a predetermined target into text data;
emotion determination means for determining information related to the emotion of the target from the voice data using an emotion identification model;
Emotion dictionary information for generating or updating an emotion dictionary in which words, phrases, clauses, or sentences of the target and information related to the emotions of the target are registered in association with words and phrases included in the text data. An emotion dictionary generation program is provided that causes a computer to function as a dictionary generation means for generating and outputting emotion dictionary information in which clauses or sentences are associated with information related to determined emotions.

この本発明による感情辞書生成プログラムにおいて、辞書生成手段は、当該テキストデータと、該テキストデータに係る音声データから決定された当該感情に係る情報との組のうち、感情識別に係る確からしさが所定条件を満たすまでに高い組を用いて当該感情辞書情報を生成することも好ましい。 In the emotion dictionary generation program according to the present invention, the dictionary generation means has a predetermined probability of emotion identification among a set of the text data and the information related to the emotion determined from the audio data related to the text data. It is also preferable to generate the emotion dictionary information using a set that is high enough to satisfy the condition.

本発明によれば、また、以上に述べた感情辞書生成プログラムによって生成又は更新された感情辞書を用い、当該対象によって表現された語、句、節若しくは文を含む推定対象データについての感情に係る情報を推定するプログラムであって、
取得された当該推定対象データに含まれる語、句、節若しくは文のうち、当該感情辞書に登録されていて、予め設定された複数種別の当該感情に係る情報のうちの1つに所定条件を満たすまでに強く対応付けられている語、句、節若しくは文を特定する感情語句等特定手段と、
当該推定対象データにおける特定された語、句、節若しくは文の有り無しに係る情報、及び、有りの場合において特定された語、句、節若しくは文に対応付けられている少なくとも1つの当該1つの感情に係る情報に基づき、当該推定対象データについての、又は当該推定対象データに含まれる語、句、節若しくは文についての感情に係る情報を決定する感情推定手段と
としてコンピュータを機能させる感情推定プログラムが提供される。
According to the present invention, the emotion dictionary generated or updated by the emotion dictionary generation program described above is used to determine the emotion of the estimation target data including the word, phrase, clause, or sentence expressed by the target. A program that estimates information,
Among the words, phrases, clauses, or sentences included in the acquired estimation target data, a predetermined condition is applied to one of the plurality of preset types of information related to the emotion registered in the emotion dictionary. A means for identifying words, phrases, clauses, or sentences that are strongly associated with each other to meet the criteria, such as emotional phrases;
Information regarding the presence or absence of the specified word, phrase, clause, or sentence in the estimation target data, and if yes, at least one corresponding word, phrase, clause, or sentence that is associated with the specified word, phrase, clause, or sentence. An emotion estimation program that causes a computer to function as an emotion estimation means that determines emotion information about the estimation target data or about a word, phrase, clause, or sentence included in the estimation target data based on emotion information. is provided.

この本発明による感情推定プログラムにおいて、感情語句等特定手段は、当該推定対象データに含まれる語、句、節若しくは文のうち、予め設定された複数種別の当該感情に係る情報のうちの1つに、対応度合いの平均からみて所定条件を満たすまでに大きく逸脱する形で強く対応付けられている語、句、節若しくは文を特定することも好ましい。 In the emotion estimation program according to the present invention, the emotion word/phrase identification means selects one of a plurality of preset types of information related to the emotion from among the words, phrases, clauses, or sentences included in the estimation target data. In addition, it is also preferable to identify words, phrases, clauses, or sentences that are strongly correlated in a way that greatly deviates from the average degree of correspondence until a predetermined condition is satisfied.

また本発明による感情推定プログラムの一実施形態として、感情推定手段は、
当該推定対象データ内でウィンドウを順次スライドさせ、各位置のウィンドウにおいて、当該ウィンドウ内に当該特定された語、句、節若しくは文が少なくとも1つ存在する場合、当該特定された語、句、節若しくは文に対応付けられた当該1つの感情に係る情報のうちで所定条件を満たすまでに出現頻度の高いものを、当該ウィンドウについての感情に係る情報に決定し、
当該推定対象データに含まれる語、句、節若しくは文の各々について、当該語、句、節若しくは文を含む少なくとも1つの当該ウィンドウについて決定された感情に係る情報のうちで所定条件を満たすまでに出現頻度の高いものを、当該推定対象データに含まれる語、句、節若しくは文の各々についての感情に係る情報に決定する
ことも好ましい。
Further, as an embodiment of the emotion estimation program according to the present invention, the emotion estimation means includes:
Sequentially slide the window within the estimation target data, and if at least one of the identified words, phrases, clauses, or sentences exists in the window at each position, the identified word, phrase, or clause is Alternatively, among the information related to the one emotion associated with the sentence, one that appears frequently until a predetermined condition is met is determined as the information related to the emotion for the window,
For each word, phrase, clause, or sentence included in the estimation target data, information related to emotions determined for at least one window containing the word, phrase, clause, or sentence until a predetermined condition is met. It is also preferable to determine information with a high frequency of appearance as information related to the emotion of each word, phrase, clause, or sentence included in the estimation target data.

また、上記のウィンドウを用いる実施形態において、感情推定手段は、当該推定対象データが複数の文を含むものである場合、当該推定対象データに含まれる各文の前後に、パディング要素(padding element)を付与した上で、当該推定対象データ内でウィンドウを順次スライドさせ、当該文毎に、付与されたパディング要素を包含する当該文内を順次スライドした各ウィンドウについての感情に係る情報を決定することも好ましい。 Furthermore, in the embodiment using the window described above, when the estimation target data includes a plurality of sentences, the emotion estimation means adds a padding element before and after each sentence included in the estimation target data. After that, it is also preferable to sequentially slide windows within the estimation target data, and for each sentence, determine emotion-related information for each window that is sequentially slid within the sentence that includes the assigned padding element. .

本発明によれば、さらに、
取得された所定の対象の音声データをテキストデータに変換する変換手段と、
当該音声データから感情識別モデルを用いて当該対象の感情に係る情報を決定する感情決定手段と、
当該対象の語、句、節若しくは文と当該対象の感情に係る情報とを対応付けて登録した感情辞書を生成又は更新するための感情辞書情報であって、当該テキストデータに含まれる語、句、節若しくは文と、決定された感情に係る情報とを対応付けた感情辞書情報を生成し出力する辞書生成手段と
を有する感情辞書生成装置が提供される。
According to the invention, further:
a conversion means for converting the acquired audio data of a predetermined target into text data;
emotion determination means for determining information related to the emotion of the target from the voice data using an emotion identification model;
Emotion dictionary information for generating or updating an emotion dictionary in which words, phrases, clauses, or sentences of the target and information related to the emotions of the target are registered in association with words and phrases included in the text data. An emotion dictionary generation device is provided, which includes a dictionary generation unit that generates and outputs emotion dictionary information in which clauses or sentences are associated with information related to determined emotions.

本発明によれば、また、所定の対象によって表現された語、句、節若しくは文を含む推定対象データについての感情に係る情報を推定する装置であって、
取得された当該対象の音声データをテキストデータに変換する変換手段と、
当該音声データから感情識別モデルを用いて当該対象の感情に係る情報を決定する感情決定手段と、
当該対象の語、句、節若しくは文と当該対象の感情に係る情報とを対応付けて登録した感情辞書を生成又は更新するための感情辞書情報であって、当該テキストデータに含まれる語、句、節若しくは文と、決定された感情に係る情報とを対応付けた感情辞書情報を生成し出力する辞書生成手段と、
取得された当該推定対象データに含まれる語、句、節若しくは文のうち、当該感情辞書情報によって生成又は更新された当該感情辞書に登録されていて、予め設定された複数種別の当該感情に係る情報のうちの1つに所定条件を満たすまでに強く対応付けられている語、句、節若しくは文を特定する感情語句等特定手段と、
当該推定対象データにおける特定された語、句、節若しくは文の有り無しに係る情報、及び、有りの場合において特定された語、句、節若しくは文に対応付けられている少なくとも1つの当該1つの感情に係る情報に基づき、当該推定対象データについての、又は当該推定対象データに含まれる語、句、節若しくは文についての感情に係る情報を決定する感情推定手段と
を有する感情推定装置が提供される。
According to the present invention, there is also a device for estimating information related to emotion regarding estimation target data including a word, phrase, clause, or sentence expressed by a predetermined object,
a conversion means for converting the acquired target audio data into text data;
emotion determination means for determining information related to the emotion of the target from the voice data using an emotion identification model;
Emotion dictionary information for generating or updating an emotion dictionary in which words, phrases, clauses, or sentences of the target and information related to the emotions of the target are registered in association with words and phrases included in the text data. , dictionary generation means for generating and outputting emotion dictionary information in which clauses or sentences are associated with information related to the determined emotion;
Among the words, phrases, clauses, or sentences included in the acquired estimation target data, those that are registered in the emotion dictionary generated or updated using the emotion dictionary information and that relate to multiple preset types of emotions. A means for specifying emotional phrases, etc., for specifying words, phrases, clauses, or sentences that are strongly associated with one of the pieces of information to meet a predetermined condition;
Information regarding the presence or absence of the specified word, phrase, clause, or sentence in the estimation target data, and if yes, at least one corresponding word, phrase, clause, or sentence that is associated with the specified word, phrase, clause, or sentence. An emotion estimation device is provided that includes emotion estimation means for determining emotion information about the estimation target data or about a word, phrase, clause, or sentence included in the estimation target data based on the emotion information. Ru.

本発明によれば、さらに、
取得された所定の対象の音声データをテキストデータに変換する変換手段と、
当該音声データから感情識別モデルを用いて当該対象の感情に係る情報を決定する感情決定手段と、
当該対象の語、句、節若しくは文と当該対象の感情に係る情報とを対応付けて登録した感情辞書を生成又は更新するための感情辞書情報であって、当該テキストデータに含まれる語、句、節若しくは文と、決定された感情に係る情報とを対応付けた感情辞書情報を生成し出力する辞書生成手段と
を有する感情辞書生成システムが提供される。
According to the invention, further:
a conversion means for converting the acquired audio data of a predetermined target into text data;
emotion determination means for determining information related to the emotion of the target from the voice data using an emotion identification model;
Emotion dictionary information for generating or updating an emotion dictionary in which words, phrases, clauses, or sentences of the target and information related to the emotions of the target are registered in association with words and phrases included in the text data. An emotion dictionary generation system is provided, which includes a dictionary generation unit that generates and outputs emotion dictionary information in which clauses or sentences are associated with information related to determined emotions.

本発明によれば、さらにまた、
取得された所定の対象の音声データをテキストデータに変換し、当該音声データから感情識別モデルを用いて当該対象の感情に係る情報を決定するステップと、
当該対象の語、句、節若しくは文と当該対象の感情に係る情報とを対応付けて登録した感情辞書を生成又は更新するための感情辞書情報であって、当該テキストデータに含まれる語、句、節若しくは文と、決定された感情に係る情報とを対応付けた感情辞書情報を生成し、当該感情辞書情報によって当該感情辞書を生成又は更新するステップと
を有する、コンピュータによって実施される感情辞書生成方法が提供される。
According to the present invention, furthermore,
converting the acquired voice data of a predetermined target into text data, and determining information related to the emotion of the target from the voice data using an emotion identification model;
Emotion dictionary information for generating or updating an emotion dictionary in which words, phrases, clauses, or sentences of the target and information related to the emotions of the target are registered in association with words and phrases included in the text data. An emotion dictionary implemented by a computer, comprising the steps of: generating emotion dictionary information that associates passages or sentences with information related to the determined emotion; and generating or updating the emotion dictionary using the emotion dictionary information. A generation method is provided.

本発明による感情辞書生成プログラム、感情辞書生成装置、感情辞書生成システム及び感情辞書生成方法によれば、所定の対象用の感情辞書を生成又は更新するための感情辞書情報を自動的に生成することができる。また、本発明による感情推定プログラム及び感情推定装置によれば、このように生成された感情辞書を用いて、この対象の感情を推定することが可能となる。 According to the emotional dictionary generation program, emotional dictionary generation device, emotional dictionary generation system, and emotional dictionary generation method according to the present invention, emotional dictionary information for generating or updating an emotional dictionary for a predetermined target can be automatically generated. Can be done. Furthermore, according to the emotion estimation program and emotion estimation device according to the present invention, it is possible to estimate the emotion of this target using the emotion dictionary generated in this way.

本発明による感情辞書生成装置及び感情推定装置の一実施形態を示す機能ブロック図である。FIG. 1 is a functional block diagram showing an embodiment of an emotion dictionary generation device and an emotion estimation device according to the present invention. 本発明による感情辞書生成方法の一実施例を説明するための模式図である。FIG. 2 is a schematic diagram for explaining an embodiment of the emotion dictionary generation method according to the present invention. 本発明に係る感情語句等特定処理の一実施例を説明するための模式図である。FIG. 2 is a schematic diagram for explaining an embodiment of emotion word/phrase identification processing according to the present invention. 本発明に係る感情推定処理の一実施例を説明するための模式図である。FIG. 2 is a schematic diagram for explaining one embodiment of emotion estimation processing according to the present invention. 本発明に係る感情推定処理の一実施例を説明するための模式図である。FIG. 2 is a schematic diagram for explaining one embodiment of emotion estimation processing according to the present invention.

以下、本発明の実施形態について、図面を用いて詳細に説明する。 Hereinafter, embodiments of the present invention will be described in detail using the drawings.

[感情辞書生成装置・感情推定装置]
図1は、本発明による感情辞書生成装置及び感情推定装置の一実施形態を示す機能ブロック図である。
[Emotion dictionary generation device/emotion estimation device]
FIG. 1 is a functional block diagram showing an embodiment of an emotion dictionary generation device and an emotion estimation device according to the present invention.

図1に示したスマートフォン1は、本発明による感情辞書生成装置及び感情推定装置の一実施形態となっており、本実施形態において所定の対象、例えば人(対象者)や対話ロボット等の発話・発声に係る音声データを用い、この対象専用の「感情辞書」(sentiment lexicon)を生成又は更新するための(感情辞書の構成要素としての)「感情辞書情報」を、人手によらず自動的に生成する。 The smartphone 1 shown in FIG. 1 is an embodiment of an emotion dictionary generation device and an emotion estimation device according to the present invention. Using audio data related to utterances, "emotion dictionary information" (as a component of a sentiment dictionary) for generating or updating a "sentiment lexicon" exclusively for this subject is automatically generated without manual intervention. generate.

また、スマートフォン1は本実施形態において、この生成した「感情辞書情報」を、通信を介して外部の感情辞書データベース(DB)2へ送信し、対象専用の「感情辞書」を生成又は更新させるのである。ここで、この対象専用の「感情辞書」は、対象における(例えば対象によって表現された)語、句、節若しくは文と、そこに込められた対象の感情に係る情報(例えば、「怒り」、「喜び」、「悲しみ」、「驚き」及び「ニュートラル」の5つの感情種別のうちの1つ)とを対応付けて登録した言語・感情対応モデルとなっている。 Furthermore, in the present embodiment, the smartphone 1 transmits the generated "emotion dictionary information" to an external emotion dictionary database (DB) 2 via communication to generate or update a target-specific "emotion dictionary". be. Here, the "emotion dictionary" dedicated to this target includes words, phrases, clauses, or sentences in the target (for example, expressed by the target) and information related to the target's emotions contained therein (for example, "anger", This is a language/emotion correspondence model that is registered in association with one of the five emotion types: "joy," "sadness," "surprise," and "neutral."

ちなみに本実施形態において、感情辞書DB2は、各々が各ユーザ(対象者)の専用辞書となっている多数の「感情辞書」をまとめて保存・管理しており、(スマートフォン1を含む)複数の本発明による感情辞書生成装置から、所定のユーザIDが紐づけられた「感情辞書情報」を受け付けて、当該ユーザIDに該当するユーザ(対象者)専用の「感情辞書」を生成・更新するのである。なお変更態様として、スマートフォン1が、1人のユーザ(対象者)について又は複数のユーザの各々について専用となる少なくとも1つの「感情辞書」を搭載し、自らの中でこの「感情辞書」を生成・更新してもよい。 Incidentally, in this embodiment, the emotion dictionary DB2 collectively stores and manages a large number of "emotion dictionaries", each of which is a dedicated dictionary for each user (target person). The emotional dictionary generation device according to the present invention receives "emotional dictionary information" linked to a predetermined user ID, and generates and updates an "emotional dictionary" exclusively for the user (target person) corresponding to the user ID. be. In addition, as a modification, the smartphone 1 is equipped with at least one "emotion dictionary" dedicated to one user (target person) or each of a plurality of users, and generates this "emotion dictionary" within itself.・You may update it.

ここで、スマートフォン1(感情辞書生成装置)は、このような「感情辞書」を生成・更新すべく具体的に、
(A)(例えばマイク102によって)取得された所定の対象の発話・発声に係る「音声データ」を「テキストデータ」に変換するテキスト変換部111と、
(B)この「音声データ」から感情識別モデルを用いてこの対象の「感情に係る情報」、本実施形態では予め設定された複数の感情種別(例えば「怒り」、「喜び」、「悲しみ」、「驚き」及び「ニュートラル」の5つ)のうちの識別された1つ、を決定する感情決定部112と、
(C)「感情辞書」を生成又は更新するための「感情辞書情報」であって、上記(A)の「テキストデータ」に含まれる語、句、節若しくは文と、上記(B)で決定された「感情に係る情報」(識別された感情種別)とを対応付けた「感情辞書情報」を生成し出力する辞書生成部113と
を有している。
Here, the smartphone 1 (emotional dictionary generation device) specifically generates and updates such an "emotional dictionary" by:
(A) a text conversion unit 111 that converts "audio data" related to the speech/utterance of a predetermined target acquired (for example, by the microphone 102) into "text data";
(B) From this "voice data", an emotion identification model is used to obtain "information related to the emotion" of this target, and in this embodiment, a plurality of preset emotion types (for example, "anger,""joy," and "sadness") , "surprise" and "neutral");
(C) "Emotional dictionary information" for generating or updating the "Emotional dictionary", which includes words, phrases, clauses, or sentences included in the "text data" in (A) above, and determined in (B) above. and a dictionary generation unit 113 that generates and outputs "emotion dictionary information" in which "information related to emotions" (identified emotion types) are associated with each other.

このようにスマートフォン1は、所定の対象の「音声データ」から、この対象に係る語、句、節若しくは文と、この対象の「感情に係る情報」(例えば感情種別)とを決定し、これによりこの対象専用の「感情辞書」を生成又は更新するための(感情辞書の構成要素としての)「感情辞書情報」を、自動的に生成し出力することができるのである。ここで、生成・更新される対象専用の「感情辞書」は、例えば、所定の対象が如何なる感情状態のときに如何なる語句等の選択を行うのかについての情報を提供可能なモデルと捉えることもできる。ちなみに勿論、「感情に係る情報」は、上述したような5つの感情種別のうちの1つに限定されるものではなく、例えば、「ポジティブ」、「ネガティブ」及び「ニュートラル」のうちの1つであってもよい。 In this way, the smartphone 1 determines a word, phrase, clause, or sentence related to a predetermined target from the "voice data" of this target, and "information related to emotion" (for example, emotion type) of this target, and This makes it possible to automatically generate and output "emotional dictionary information" (as a constituent element of the emotional dictionary) for generating or updating the "emotional dictionary" dedicated to this subject. Here, the target-specific "emotion dictionary" that is generated and updated can be regarded as a model that can provide information about, for example, what kind of words, etc. will be selected when a given target is in what emotional state. . By the way, of course, "information related to emotions" is not limited to one of the five emotion types mentioned above, but for example, one of "positive," "negative," and "neutral." It may be.

また本実施形態において、所定の対象の「音声データ」として、例えばこの対象が種々様々なトピック(topics,話題)について述べているものを収集することによって、種々様々なトピックにも対応した拡張版の「感情辞書」を、自動的に生成・更新することも可能となる。例えば所定のトピックに関して頻出する人名、会社名や地名等の「固有名詞」の登録も、人手によらず自動的に行うことができるのである。ここで、例えばユーザAの「感情辞書」では“Iidabashi(飯田橋)”は「喜び」により強く対応付けられている一方、ユーザBの「感情辞書」では“Iidabashi(飯田橋)”は「驚き」により強く対応付けられている、といったことも生じ得るのである。 In addition, in this embodiment, by collecting, for example, what this target says about various topics as "audio data" of a predetermined target, an expanded version that can also be used for various topics. It is also possible to automatically generate and update the ``emotion dictionary''. For example, the registration of "proper nouns" such as people's names, company names, place names, etc. that frequently appear on a given topic can be done automatically without manual intervention. Here, for example, in user A's "emotion dictionary", "Iidabashi" is more strongly associated with "joy", while in user B's "emotion dictionary", "Iidabashi" is more strongly associated with "surprise". It is also possible that there is a strong correspondence.

なお、生成・更新される「感情辞書」は、後に示す実施例では、1つの単語と感情種別とを対応付けたものとなっているが、例えば、(文で連続する)2つ又はそれ以上の単語の集まりと感情種別とを対応付けたものとすることもできる。また同様に、1つ以上の(連続する)句と感情種別とを対応付けたもの、1つ以上の(連続する)節と感情種別とを対応付けたもの、又は1つ以上の(連続する)文と感情種別とを対応付けたものとすることも可能である。さらに、感情種別を対応付けるべき(登録すべき)単語として、名詞、動詞、形容詞や、副詞等の全ての品詞を採用してもよく、または、特定の品詞のみ、例えば名詞、動詞、形容詞及び副詞のみを採用することもできる。さらにまた、名詞や動詞等の変化形(例えば “tries”,“trying”や“tried”等)について、同じ語幹のものは1つのものとして(例えば“try”として)登録してもよく、または、各変化形についても個別に登録してもよい。 In the example shown later, the "emotion dictionary" that is generated and updated is one in which one word is associated with an emotion type, but for example, two or more (consecutive sentences) are associated. It is also possible to associate a group of words with an emotion type. Similarly, one or more (consecutive) clauses are associated with an emotion type, one or more (consecutive) clauses are associated with an emotion type, or one or more (consecutive) phrases are associated with an emotion type, or one or more (consecutive) clauses are associated with an emotion type, ) It is also possible to associate sentences with emotion types. Furthermore, all parts of speech, such as nouns, verbs, adjectives, and adverbs, may be adopted as words to which emotion types should be associated (to be registered), or only specific parts of speech, such as nouns, verbs, adjectives, and adverbs. It is also possible to adopt only Furthermore, for declensions of nouns and verbs (e.g. "tries", "trying", "tried", etc.), those with the same stem may be registered as one (e.g. "try"), or , each variant may also be registered individually.

また、以上に述べた「所定の対象」は、例えば人の場合、特定の1人に限定されるものではない。例えば、所定のグループのメンバや、所定地域の住人等、ある属性に関し1つの種別に分類される複数人を「所定の対象」とし、この複数人の集合(例えば1つのグループ)について専用となる「感情辞書」を生成・更新してもよいのである。 Further, the above-mentioned "predetermined object" is not limited to one specific person, for example, in the case of a person. For example, multiple people who are classified into one type with respect to a certain attribute, such as members of a predetermined group or residents of a predetermined area, are defined as a "predetermined target," and a set of these multiple people (for example, one group) is used exclusively. It is also possible to generate and update an "emotion dictionary."

さらに本実施形態において、スマートフォン1は、生成又は更新した所定の対象専用の「感情辞書」を用い、この対象に係る「推定対象データ」から対象の感情を推定する。具体的には「推定対象データ」から、後に詳細に説明する処理によって、対象の感情に係る情報、本実施形態では予め設定された複数の感情種別(例えば「怒り」、「喜び」、「悲しみ」、「驚き」及び「ニュートラル」の5つ)のうちの、該当すると推定される1つを生成し出力するのである。ここで、この対象に係る「推定対象データ」は、対象が記述・作成した文・文章のテキストデータや、対象の発話・発声に係る音声データ(を変換して生成されたテキストデータ)といったような、この対象によって表現・選択された語、句、節又は文を含むテキストデータや音声データである。 Furthermore, in the present embodiment, the smartphone 1 uses a generated or updated "emotion dictionary" dedicated to a predetermined object to estimate the emotion of the object from the "estimation target data" related to this object. Specifically, information related to the target emotion is extracted from the "estimation target data" through processing that will be explained in detail later. "," "surprise," and "neutral." Here, "estimated target data" related to this target includes text data of sentences written or created by the target, and audio data related to the target's utterances (text data generated by converting). This is text data or audio data that includes words, phrases, clauses, or sentences expressed/selected by this target.

また、本実施形態のスマートフォン1(感情辞書生成装置,感情推定装置)は、日本語、英語や、中国語等、様々な言語に対応可能となっている。例えば、該当するユーザID及び言語IDを付与した「感情辞書情報」を出力し、当該ユーザIDに該当するユーザ(対象者)が用いた言語(当該言語IDに該当する言語)に対応した、当該ユーザ(対象者)専用の「感情辞書」を生成・更新させることもできる。またこのように多様な「感情辞書」が利用できる場合、複数のユーザ(対象者)による様々な言語に係る「推定対象データ」の各々から、該当する「感情辞書」を適切に使い分けることにより、各ユーザ(対象者)の感情をより確実に推定することも可能となる。 Furthermore, the smartphone 1 (emotion dictionary generation device, emotion estimation device) of this embodiment is capable of supporting various languages such as Japanese, English, and Chinese. For example, "emotion dictionary information" with a corresponding user ID and language ID is output, and the "emotion dictionary information" corresponding to the language used by the user (target person) corresponding to the user ID (the language corresponding to the language ID) is output. It is also possible to generate and update an "emotion dictionary" exclusively for the user (target person). In addition, when such a variety of "emotion dictionaries" are available, by appropriately using the "emotion dictionaries" from each of the "estimation target data" related to various languages by multiple users (subjects), It also becomes possible to more reliably estimate the emotions of each user (target person).

なお変更態様として、この後述べるように、本発明による感情辞書生成装置及び感情推定装置は、各々別の装置とすることも可能である。また、発明による感情辞書生成装置及び感情推定装置は、同じくこの後述べるように、スマートフォンに限定されるものではなく、例えば、感情辞書DB2、ドキュメントDB3、音声DB4、SNSサーバ5、又は電子メールサーバ6に搭載された又は付属する装置であってもよい。さらに言えば、上記(A)のテキスト変換部111、上記(B)の感情決定部112、及び上記(C)の辞書生成部113のうちの1つ、2つ又は全部は、他の構成部とは別の装置に含まれていてもよい。例えば、これら3つともそれぞれ、互いに異なる3つのサーバに含まれていてもよいのである。いずれにしてもこのような場合、上記(A)~(C)の全体をもって本発明による感情辞書生成システムが形成されることとなる。 As a modification, the emotion dictionary generation device and the emotion estimation device according to the present invention may be separate devices, as will be described later. Furthermore, as will be described later, the emotion dictionary generation device and emotion estimation device according to the invention are not limited to smartphones, but can be used, for example, in the emotion dictionary DB 2, document DB 3, voice DB 4, SNS server 5, or e-mail server. It may be a device mounted on or attached to 6. Furthermore, one, two, or all of the text conversion unit 111 in (A) above, the emotion determination unit 112 in (B) above, and the dictionary generation unit 113 in (C) above may be replaced by other components. It may be included in a separate device. For example, all three may be included in three different servers. In any case, in such a case, the entirety of the above (A) to (C) constitutes the emotion dictionary generation system according to the present invention.

[装置機能構成,感情辞書生成プログラム・方法,感情推定プログラム・方法]
以下、本発明による感情辞書生成装置及び感情推定装置の一実施形態としてのスマートフォン1の機能構成について、より具体的に説明を行う。同じく図1の機能ブロック図において、スマートフォン1は、通信インタフェース部101と、マイク102と、音声データ保存部103と、テキストデータ保存部104と、感情推定結果保存部105と、ユーザインタフェース(U・I)部106と、プロセッサ・メモリ(メモリ機能を備えた演算処理系)とを有する。
[Device functional configuration, emotion dictionary generation program and method, emotion estimation program and method]
Hereinafter, the functional configuration of the smartphone 1 as an embodiment of the emotion dictionary generation device and emotion estimation device according to the present invention will be described in more detail. Similarly, in the functional block diagram of FIG. 1, the smartphone 1 includes a communication interface section 101, a microphone 102, an audio data storage section 103, a text data storage section 104, an emotion estimation result storage section 105, and a user interface (U. I) unit 106, and a processor/memory (arithmetic processing system with memory function).

ここで、このプロセッサ・メモリは、本発明による感情辞書生成プログラム及び感情推定プログラムの一実施形態を保存しており、また、コンピュータ機能を有していて、これら感情辞書生成プログラム及び感情推定プログラムを実行することによって、感情辞書生成処理及び感情推定処理を実施する。このことから、本発明による感情辞書生成装置及び感情推定装置は、本実施形態のようにスマートフォン等の携帯端末であってもよいが、本発明による感情辞書生成プログラム及び感情推定プログラムを搭載した、例えばタブレット型コンピュータ、ノート型コンピュータや、パーソナルコンピュータ(PC)であってもよく、さらにはHMD(Head Mounted Display)、スマートグラスや、スマートウォッチといったようなウェアラブル装置とすることもできる。また上述したように、非クラウドサーバや、クラウドサーバとすることも可能である。 Here, this processor memory stores an embodiment of the emotion dictionary generation program and emotion estimation program according to the present invention, and also has a computer function to execute the emotion dictionary generation program and emotion estimation program. By executing this, emotion dictionary generation processing and emotion estimation processing are implemented. For this reason, the emotion dictionary generation device and emotion estimation device according to the present invention may be a mobile terminal such as a smartphone as in the present embodiment, but the emotion dictionary generation device and emotion estimation device according to the present invention may be equipped with the emotion dictionary generation program and emotion estimation program according to the present invention. For example, it may be a tablet computer, a notebook computer, a personal computer (PC), or a wearable device such as an HMD (Head Mounted Display), smart glasses, or a smart watch. Furthermore, as described above, it is also possible to use a non-cloud server or a cloud server.

また、上記のプロセッサ・メモリは本実施形態において、テキスト変換部111と、感情決定部112と、辞書生成部113と、感情語句等特定部114と、感情推定部115と、通信制御部121と、入出力制御部122として機能する。ここで、テキスト変換部111、感情決定部112及び辞書生成部113は、プロセッサ・メモリに保存された本発明による感情辞書生成プログラムの実行によって具現する機能と捉えることができる。さらに、感情語句等特定部114及び感情推定部115は、同じくプロセッサ・メモリに保存された本発明による感情推定プログラムの実行によって具現する機能と捉えることが可能である。また、図1の機能ブロック図におけるスマートフォン1の機能構成部間を矢印で接続して示した処理の流れは、本発明による感情辞書生成方法及び感情推定方法の一実施形態としても理解される。 Further, in this embodiment, the above processor memory includes a text conversion section 111, an emotion determination section 112, a dictionary generation section 113, an emotion word/phrase identification section 114, an emotion estimation section 115, and a communication control section 121. , functions as the input/output control section 122. Here, the text conversion section 111, the emotion determination section 112, and the dictionary generation section 113 can be regarded as functions realized by executing the emotion dictionary generation program according to the present invention stored in the processor memory. Furthermore, the emotion word/phrase identification unit 114 and the emotion estimation unit 115 can be regarded as functions implemented by executing the emotion estimation program according to the present invention, which is also stored in the processor memory. Furthermore, the process flow shown by connecting the functional components of the smartphone 1 with arrows in the functional block diagram of FIG. 1 can be understood as an embodiment of the emotion dictionary generation method and emotion estimation method according to the present invention.

なお変更態様として、本発明による感情辞書生成装置及び感情推定装置は、それぞれ本発明による感情辞書生成プログラム及び感情推定プログラムを搭載した互いに異なる装置とすることもできる。すなわち、本発明による感情辞書生成装置及び感情推定装置のいずれも、以上に述べたような装置形態をとる個別の装置であってもよいのである。 As a modification, the emotion dictionary generation device and the emotion estimation device according to the present invention may be different devices each equipped with an emotion dictionary generation program and an emotion estimation program according to the present invention. That is, both the emotion dictionary generation device and the emotion estimation device according to the present invention may be separate devices having the above-described device configuration.

同じく図1の機能ブロック図において、音声データ保存部103は本実施形態において、対象者の発話・発声に係る音声データを、マイク102の出力として取得し、又は音声DB4等から通信インタフェース部101及び通信制御部121を介して取得し、該当するユーザIDを付与した上で保存・管理する。 Similarly, in the functional block diagram of FIG. 1, in this embodiment, the audio data storage unit 103 acquires audio data related to the speech/speech of the target person as an output of the microphone 102 or from the audio DB 4 etc. to the communication interface unit 101 and It is acquired via the communication control unit 121, and stored and managed after giving the corresponding user ID.

テキストデータ保存部104は本実施形態において、対象者によって記述・作成されたテキストデータを、ドキュメントDB3、SNSサーバ5や、電子メールサーバ6等から通信インタフェース部101及び通信制御部121を介して取得し、該当するユーザIDを付与した上で保存・管理する。また、この後述べるテキスト変換部111から出力された(音声データの変換結果としての)テキストデータも取得し、該当するユーザIDを付与した上で保存・管理する。 In this embodiment, the text data storage unit 104 acquires text data written and created by the target person from the document DB 3, SNS server 5, email server 6, etc. via the communication interface unit 101 and the communication control unit 121. Then, save and manage the information after assigning the corresponding user ID. It also acquires text data (as a result of converting audio data) output from the text converter 111, which will be described later, and stores and manages the data after giving it a corresponding user ID.

<感情辞書生成処理>
同じく図1の機能ブロック図において、テキスト変換部111は本実施形態において、音声データ保存部103から取得された所定の対象の音声データをテキストデータに変換する。ここでこの変換処理は、公知の音声テキスト化アプリケーション、例えばGoogleドキュメント(登録商標)等、を用いて実施することも可能である。また例えば、取得された音声データを所定形式のデジタルデータに変換し、このデジタルデータを、ニューラルネットワーク(Neural Networks)等の機械学習アルゴリズムで構築された言語単位抽出モデルを用いてテキストデータに変換してもよい。また、テキスト変換部111は本実施形態において、必要であれば形態素解析等を実施し、テキストデータに含まれる単語(形態素)や語句等、さらにはその品詞種別を識別・把握するものであってもよい。
<Emotion dictionary generation process>
Similarly, in the functional block diagram of FIG. 1, in this embodiment, a text conversion unit 111 converts audio data of a predetermined target acquired from the audio data storage unit 103 into text data. Here, this conversion process can also be performed using a known speech-to-text application, such as Google Docs (registered trademark). Alternatively, for example, the acquired voice data may be converted into digital data in a predetermined format, and this digital data may be converted into text data using a linguistic unit extraction model constructed using machine learning algorithms such as neural networks. It's okay. In addition, in this embodiment, the text conversion unit 111 performs morphological analysis, etc., if necessary, to identify and understand words (morphemes), phrases, etc. included in the text data, as well as their part-of-speech types. Good too.

感情決定部112は本実施形態において、音声データ保存部103から取得された所定の対象の発話・発声に係る音声データから、「感情識別モデル」を用いてこの対象の発話・発声時における感情種別(本実施形態では「怒り」、「喜び」、「悲しみ」、「驚き」及び「ニュートラル」の5つのうちの1つ)を決定する。例えば、この音声データを所定形式のデジタルデータ、例えば公知の音声データコーパスに収録されている音声デジタルデータと同形式のデータに変換して、このデジタルデータを、学習済みの「感情識別モデル」へ入力し、このモデルの出力として、(a)対象の発話・発声時における(推定される)感情種別と、(b)この感情種別の確からしさを表す信頼スコアとを取得してもよい。 In the present embodiment, the emotion determining unit 112 uses an "emotion identification model" to determine the emotion type at the time of the utterance/utterance of a predetermined target from the audio data related to the utterance/utterance of a predetermined target acquired from the audio data storage unit 103. (In this embodiment, one of the following five: "anger," "joy," "sadness," "surprise," and "neutral.") is determined. For example, this audio data is converted into digital data in a predetermined format, such as data in the same format as audio digital data recorded in a known audio data corpus, and this digital data is applied to a trained "emotion identification model". (a) the (estimated) emotion type at the time of the target's utterance/speech, and (b) a confidence score representing the certainty of this emotion type.

ここで「感情識別モデル」としては、機械学習アルゴリズムを用いて構築された種々のモデルが採用可能であり、例えば、メル周波数ケプストラム係数(MFCC,Mel-Frequency Cepstral Coefficients)、pitch、i-vectorsや、LLD(Low-Level Descriptors)等の手法によって、音声データより生成(変換)された所定形式のデジタルデータから音声特徴量を抽出し、次いで、この音声特徴量から、深層ニューラルネットワーク(DNN,Deep Neural Networks)、混合ガウスモデル(GMM,Gaussian Mixture Models)や、サポートベクタマシン(SVM,Support Vector Machines)等で構築された識別・分類器を用いて、推定される感情種別を出力するものとすることができる。 Here, as the "emotion identification model", various models constructed using machine learning algorithms can be adopted, such as Mel-Frequency Cepstral Coefficients (MFCC), pitch, i-vectors, etc. , LLD (Low-Level Descriptors) and other techniques are used to extract audio features from digital data in a predetermined format generated (converted) from audio data, and then from these audio features, a deep neural network (DNN, Deep The estimated emotion type will be output using a discriminator/classifier constructed using Neural Networks), Gaussian Mixture Models (GMM), Support Vector Machines (SVM), etc. be able to.

同じく図1の機能ブロック図において、辞書生成部113は本実施形態において、先に説明した(感情辞書DB2に格納された)感情辞書を生成又は更新するための感情辞書情報であって、
(a)テキストデータ保存部104から取得した、「所定の対象の音声データ」を変換して生成されたテキストデータに含まれる語、句、節若しくは文と、
(b)上記(a)と同一の「所定の対象の音声データ」について感情決定部112で決定された感情に係る情報(本実施形態では感情種別)と
を対応付けた感情辞書情報を生成し出力する。この生成された感情辞書情報は本実施形態において、通信制御部121及び通信インタフェース部101を介し、感情辞書DB2へ送信される。
Similarly, in the functional block diagram of FIG. 1, in this embodiment, the dictionary generation unit 113 is emotion dictionary information for generating or updating the emotion dictionary (stored in the emotion dictionary DB2) described above,
(a) Words, phrases, clauses, or sentences included in the text data generated by converting the “predetermined target audio data” obtained from the text data storage unit 104;
(b) Generate emotion dictionary information that associates information related to emotion (emotion type in this embodiment) determined by the emotion determination unit 112 with respect to the same "predetermined target audio data" as in (a) above. Output. In this embodiment, this generated emotion dictionary information is transmitted to the emotion dictionary DB2 via the communication control unit 121 and the communication interface unit 101.

また辞書生成部113は、上記(a)のテキストデータ(に含まれる語、句、節若しくは文)と、このテキストデータに係る音声データから決定された上記(b)の感情種別(感情に係る情報)との組のうち、感情識別に係る確からしさ(本実施形態では感情識別モデルから出力された信頼スコア)が所定条件を満たすまでに高い組を用いて感情辞書情報を生成し出力することも好ましい。例えば、信頼スコアが0.8(80%)以上の組だけを用いて感情辞書情報を生成し出力してもよい。 In addition, the dictionary generation unit 113 generates the emotion type (b) determined from the text data (a) (words, phrases, clauses, or sentences included in the text data) and the audio data related to this text data (emotion type). information), the emotion dictionary information is generated and output using the group in which the reliability related to emotion identification (in this embodiment, the reliability score output from the emotion identification model) is high until a predetermined condition is satisfied. is also preferable. For example, emotion dictionary information may be generated and output using only pairs with reliability scores of 0.8 (80%) or higher.

図2は、本発明による感情辞書生成方法の一実施例を説明するための模式図である。なお、本実施例を含め以下に示す実施例では、発話やテキストに係る言語として英語が用いられている。しかしながら上述したように、例えば日本語や中国語等、他の言語が用いられた場合でも同様にして、感情辞書生成処理を実施することができる。 FIG. 2 is a schematic diagram for explaining an embodiment of the emotion dictionary generation method according to the present invention. In the following embodiments including this embodiment, English is used as the language for speech and text. However, as described above, even when other languages such as Japanese or Chinese are used, the emotion dictionary generation process can be performed in the same way.

図2(A)に示したように、本実施例では最初に、対象者が“I hate you”との発話を行っている。辞書生成部113は、
(a)マイク102を介し取得されたこの発話に係る音声データについて決定された感情種別「怒り」及び信頼スコア(=0.8)を、感情決定部112から受け取り、
(b)受け取った信頼スコア(=0.8)が0.8以上であることを確認して、感情辞書情報の生成を決定し、
(c)テキスト変換部111から受け取った単語“I”、“hate”及び“you”の各々と、受け取った感情種別「怒り」とを対応付けた感情辞書情報を生成し、感情辞書DB2へ向けて出力している。
As shown in FIG. 2(A), in this example, the subject first utters "I hate you." The dictionary generation unit 113
(a) receiving from the emotion determining unit 112 the emotion type “anger” and the confidence score (=0.8) determined for the audio data related to this utterance acquired via the microphone 102;
(b) confirming that the received confidence score (=0.8) is 0.8 or higher and deciding to generate emotion dictionary information;
(c) Generate emotion dictionary information that associates each of the words “I,” “hate,” and “you” received from the text conversion unit 111 with the received emotion type “anger,” and direct it to the emotion dictionary DB2. is output.

また、この感情辞書情報を受け取った感情辞書DB2は、感情辞書テーブルに登録した単語“I”、“hate”及び“you”の各々について、感情種別「怒り」の欄のカウント数を1だけ増分する(ここではカウント数を1にしている)。 In addition, the emotion dictionary DB2 that received this emotion dictionary information increments the count number in the emotion type "anger" column by 1 for each of the words "I", "hate", and "you" registered in the emotion dictionary table. (Here, the count number is set to 1).

次いで図2(B)に示したように、対象者は“I hate this train”との発話を行っている。辞書生成部113は、この発話に係る音声データについて決定された感情種別「怒り」及び信頼スコア(=0.5)を、感情決定部112から受け取り、受け取った信頼スコア(=0.5)が0.8未満であることを確認して、感情辞書情報を生成しないことを決定している。その結果、感情辞書DB2において、この発話についての感情辞書への登録処理は行われない。 Next, as shown in FIG. 2(B), the subject utters "I hate this train." The dictionary generation unit 113 receives the emotion type “anger” and the confidence score (=0.5) determined for the audio data related to this utterance from the emotion determination unit 112, and determines that the received confidence score (=0.5) is less than 0.8. After confirming this, we have decided not to generate emotion dictionary information. As a result, the emotion dictionary DB2 does not register this utterance in the emotion dictionary.

さらにその後、図2(C)に示したように、対象者は“I love you. I hate you.”との発話を行っている。ここで辞書生成部113は、発話“I love you.”に係る音声データについて決定された感情種別「喜び」及び信頼スコア(=0.9)、及び発話“I hate you.”に係る音声データについて決定された感情種別「怒り」及び信頼スコア(=0.9)を、感情決定部112から受け取る。また、受け取った信頼スコア(=0.9)がいずれも0.8以上であることを受けて、
(a)テキスト変換部111から受け取った単語“I”、“love”及び“you”の各々と、受け取った感情種別「喜び」とを対応付け、さらに、
(b)テキスト変換部111から受け取った単語“I”、“hate”及び“you”の各々と、受け取った感情種別「怒り」とを対応付けた
感情辞書情報を生成し、感情辞書DB2へ向けて出力している。
After that, as shown in FIG. 2(C), the subject utters "I love you. I hate you." Here, the dictionary generation unit 113 determines the emotion type "joy" and confidence score (=0.9) determined for the audio data related to the utterance "I love you." and the audio data determined for the utterance "I hate you." The emotion type "anger" and the confidence score (=0.9) are received from the emotion determining unit 112. In addition, as the reliability scores (=0.9) received were all 0.8 or higher,
(a) Associate each of the words “I”, “love”, and “you” received from the text conversion unit 111 with the received emotion type “joy”, and further,
(b) Generate emotion dictionary information that associates each of the words “I,” “hate,” and “you” received from the text conversion unit 111 with the received emotion type “anger,” and direct it to the emotion dictionary DB2. is output.

また、この感情辞書情報を受け取った感情辞書DB2は、感情辞書テーブルに登録した単語“I”について、感情種別「喜び」の欄及び感情種別「怒り」の欄のカウント数を1だけ増分し、単語“hate”について、感情種別「怒り」の欄のカウント数を1だけ増分し、単語“you”について、感情種別「喜び」の欄及び感情種別「怒り」の欄のカウント数を1だけ増分し、さらに、単語“love”について、感情種別「喜び」の欄のカウント数を1だけ増分する。ここで感情辞書においては、1つの単語(例えば“I”)について、この単語が対象者の異なる感情状態において選択・使用されることも少なくないことから、異なる感情種別が対応付けて登録されることも十分にあり得るのである。 In addition, the emotion dictionary DB 2 that has received this emotion dictionary information increments the count numbers in the column of emotion type "joy" and the column of emotion type "anger" by 1 for the word "I" registered in the emotion dictionary table, For the word "hate", increment the count number in the emotion type "anger" column by 1, and for the word "you", increment the count number in the emotion type "joy" column and the emotion type "anger" column by 1. Furthermore, for the word "love", the count number in the emotion type "joy" column is incremented by one. In the emotion dictionary, different emotion types are registered in association with one word (for example, "I") because this word is often selected and used in different emotional states of the subject. That is quite possible.

辞書生成部113は、以上述べたような処理を繰り返し、所定以上の信頼性を有する感情辞書情報を生成して感情辞書DB2へ出力し、感情辞書DB2に対し所定以上の信頼性を有するテーブル形式の感情辞書を生成・更新させることができる。ここで、このように生成・更新される対象者専用の「感情辞書」は、例えば、この対象者が如何なる感情状態のときに如何なる語句等の選択を行うのかについての情報を提供可能なモデルと捉えることもできるのである。 The dictionary generation unit 113 repeats the above-described processing, generates emotion dictionary information having a reliability higher than a predetermined value, outputs it to the emotion dictionary DB2, and generates emotional dictionary information having a reliability higher than a predetermined value for the emotion dictionary DB2 in a table format. It is possible to generate and update emotion dictionaries. Here, the "emotion dictionary" exclusively for the target person that is generated and updated in this way is a model that can provide information about, for example, what words and phrases the target person selects in what emotional state. It can also be captured.

また、以上に述べたようなテキスト変換部111、感情決定部112及び辞書生成部113における処理は、例えば装置(スマートフォン1)のバックグラウンドとして常時、実施可能となっていて(待機状態となっていて)、例えば音声DB4やマイク102から対象者の音声データが取得され次第、実施されてもよい。これにより、対象者の感情辞書は適宜更新され、より登録語数の多い、且つより精度の高いものとなっていくのである。 Further, the processes in the text conversion unit 111, emotion determination unit 112, and dictionary generation unit 113 as described above can be performed at all times as, for example, the background of the device (smartphone 1) (in a standby state). ) may be performed, for example, as soon as the target person's voice data is acquired from the voice DB 4 or the microphone 102. As a result, the subject's emotion dictionary is updated as appropriate, and becomes more accurate and has a larger number of registered words.

<感情推定処理>
図1の機能ブロック図に戻って、感情語句等特定部114は本実施形態において、取得された「所定の対象の推定対象データ」に含まれる語、句、節若しくは文のうち、この対象の感情辞書に登録されていて、且つこの感情辞書において、予め設定された複数種別の感情に係る情報(本実施形態では、複数の感情種別)のうちの1つに所定条件を満たすまでに強く対応付けられているような語、句、節若しくは文を特定する。具体的に本実施形態では、当該1つの感情種別についての後述する「tスコア」(t-score)が、所定閾値(例えば3.5)を超えているような語、句、節若しくは文を特定するのである。
<Emotion estimation processing>
Returning to the functional block diagram of FIG. 1, in this embodiment, the emotion word/phrase identification unit 114 selects words, phrases, clauses, or sentences of this target from among the words, phrases, clauses, or sentences included in the acquired "estimation target data of a predetermined target". The information is registered in the emotion dictionary, and in the emotion dictionary, the information corresponds strongly to one of the preset multiple types of emotion information (in this embodiment, multiple emotion types) until a predetermined condition is met. Identify the word, phrase, clause, or sentence that appears. Specifically, in the present embodiment, words, phrases, clauses, or sentences whose "t-score" (described later) for the one emotion type exceeds a predetermined threshold (for example, 3.5) are identified. It is.

ここで上記の「所定の対象の推定対象データ」は、この対象が記述・作成した文・文章のテキストデータや、この対象の発話・発声に係る音声データ(を変換して生成されたテキストデータ)といったような、この対象によって表現・選択された語、句、節又は文を含むテキストデータや音声データである。 Here, the above-mentioned "estimated target data of a given target" refers to text data of sentences written/created by this target, and text data generated by converting audio data related to utterances/utterances of this target. ) is text data or audio data that includes words, phrases, clauses, or sentences expressed or selected by the target.

具体的には、
(a)ドキュメントDB3から受信した、対象が記述・作成したエッセイや論文等のテキストデータ、
(b)音声DB4から受信した、対象の発話・発声に係る音声データ(を例えばテキスト変換部111で変換して生成されたテキストデータ)、
(c)SNS(Social Networking Service)サーバ6から受信した、対象によって投稿された投稿データ、
(d)電子メールサーバ6から受信した、対象によって発信された電子メールデータ、
(e)マイク102によって収集された対象の発話・発声に係る音声データ(を例えばテキスト変換部111で変換して生成されたテキストデータ)や、
(f)ユーザインタフェース106のキーボードやタッチパネルを用いて対象が入力したテキストデータ
等が、この「所定の対象の推定対象データ」として採用可能となっている。
in particular,
(a) Text data such as essays and papers written and created by the subject received from the document DB3,
(b) audio data related to the target utterance/utterance received from the audio DB 4 (for example, text data generated by converting it with the text conversion unit 111);
(c) Posted data posted by the target received from the SNS (Social Networking Service) server 6;
(d) email data sent by the target received from the email server 6;
(e) Audio data related to the target's utterances/utterances collected by the microphone 102 (for example, text data generated by converting it with the text conversion unit 111),
(f) Text data, etc. input by the target using the keyboard or touch panel of the user interface 106 can be adopted as the "estimation target data of the predetermined target."

このように、本実施形態のスマートフォン1は、様々なタイプの「推定対象データ」を取り扱い可能となっている。すなわち、従来の音声データを用いた感情識別モデルと比較しても分かるように、様々なモダリティ(modality)に対応可能な感情推定装置となっているのである。 In this way, the smartphone 1 of this embodiment is capable of handling various types of "estimation target data". In other words, as can be seen from a comparison with conventional emotion identification models using voice data, the emotion estimation device is compatible with various modalities.

ここで、ある語句等における1つの感情種別についての上記の「tスコア」tsは、次式
(1) ts=(ei-μ)/(σ×n-0.5)
によって算出される指標である。上式(1)において、eiはこの語句等におけるこの感情種別iのカウント数(該当欄の数値)であり、μ及びσはそれぞれ、この語句等におけるカウント数の全ての感情種別にわたっての平均値及び標準偏差であり、またnは、感情種別の数(例えば感情種別が「怒り」、「喜び」、「悲しみ」、「驚き」及び「ニュートラル」であればn=5)となっている。
Here, the above "t-score" ts for one emotion type in a certain word etc. is calculated using the following formula (1) ts=(e i -μ)/(σ×n -0.5 )
This is an index calculated by In the above formula (1), e i is the count number (value in the relevant column) of this emotion type i in this word, etc., and μ and σ are the average of the counts in this word, etc. over all emotion types, respectively. value and standard deviation, and n is the number of emotion types (for example, n = 5 if the emotion types are "anger", "joy", "sadness", "surprise", and "neutral"). .

この対象の感情辞書において、ある感情種別についてのこのようなtスコアtsが、所定閾値(例えば3.5)を超えている語、句、節若しくは文は、当該ある感情種別に(対応度合いの平均からみて)所定条件を満たすまでに大きく逸脱する形で強く対応付けられていると言える。感情語句等特定部114は本実施形態において、推定対象データに含まれる語、句、節若しくは文のうち、ある感情種別に対しこのように強く対応付けられている語、句、節若しくは文を、当該ある感情種別に係る「感情語」、「感情句」、「感情節」又は「感情文」として特定するのである。 In this target emotion dictionary, words, phrases, clauses, or sentences whose t-score ts for a certain emotion type exceeds a predetermined threshold (for example, 3.5) are It can be said that they are strongly correlated in such a way that they deviate significantly until a predetermined condition is met. In this embodiment, the emotion word/phrase identification unit 114 identifies words, phrases, clauses, or sentences included in the estimation target data that are strongly associated with a certain emotion type. , it is specified as an "emotional word", "emotional phrase", "emotional clause", or "emotional sentence" related to the certain emotion type.

なお、上記のtスコアtsの代わりとして、例えば偏差値(deviation value)といったような、対応度合いの平均からの逸脱度を示す指標ならば種々のものが使用可能である。 Note that, instead of the above-described t-score ts, various indexes indicating the degree of deviation from the average degree of correspondence, such as a deviation value, can be used.

図3は、本発明に係る感情語句等特定処理の一実施例を説明するための模式図である。 FIG. 3 is a schematic diagram for explaining an embodiment of the emotion word/phrase identification process according to the present invention.

図3(A)によれば、感情語句等特定部114は、感情辞書DB2に格納された所定の対象の感情辞書の情報を取り寄せて、登録されている各単語における各感情種別についてのtスコアtsを算出し、感情辞書DB2に対し、この算出結果をもとに、(各欄のカウント数をtスコアtsに書き換えた)tスコアベースの感情辞書を生成・更新させている。ちなみに変更態様として、感情語句等特定部114は、上記の算出結果をもとにしてtスコアベースの感情辞書を生成・更新し、自ら保存・管理してもよい。また、tスコアtsの算出が必要となる単語についてのみtスコアtsを算出し、その結果を保存・管理することもできる。さらに、感情辞書DB2が自ら、tスコアベースの感情辞書を生成・更新してもよいのである。 According to FIG. 3A, the emotion word/phrase identification unit 114 obtains the emotion dictionary information of a predetermined target stored in the emotion dictionary DB2, and calculates the t-score for each emotion type for each registered word. ts is calculated, and the emotion dictionary DB2 generates and updates a t-score-based emotion dictionary (the count number in each column is rewritten to t-score ts) based on this calculation result. Incidentally, as a modification, the emotion word/phrase identification unit 114 may generate and update a t-score-based emotion dictionary based on the above calculation result, and store and manage it by itself. It is also possible to calculate the t-score ts only for words for which the t-score ts needs to be calculated, and to save and manage the results. Furthermore, the emotion dictionary DB2 may generate and update the t-score-based emotion dictionary by itself.

次いで図3(B)に示したように、感情語句等特定部114は、このtスコアベースの感情辞書を用いて、推定対象データ:“Today will be rough. I have English class, but my teacher is Abc-san. He always tries to embarrass me.”から感情語を特定している。 Next, as shown in FIG. 3B, the emotion word/phrase identification unit 114 uses this t-score-based emotion dictionary to determine the estimation target data: “Today will be rough. I have English class, but my teacher is Abc-san. He always tries to embarrass me.”

感情語句等特定部114は具体的に、この推定対象データを構成する単語であってtスコアベースの感情辞書に登録されている単語のうち、ある感情種別についてのtスコア値が3.5を超えている単語である“English”及び“Abc-san”をそれぞれ、「喜び」に係る感情語及び「悲しみ」に係る感情語として特定しているのである。 Specifically, the emotion word/phrase identification unit 114 identifies words that constitute this estimation target data and are registered in the t-score-based emotion dictionary, and whose t-score value for a certain emotion type exceeds 3.5. The words "English" and "Abc-san" are specified as emotional words related to "joy" and "sadness," respectively.

図1の機能ブロック図に戻って、感情推定部115は本実施形態において、
(a)推定対象データにおける特定された感情語、感情句、感情節若しくは感情文の有り無しに係る情報、及び、
(b)上記(a)において有りの場合において、特定された感情語、感情句、感情節若しくは感情文に対応付けられている少なくとも1つの感情に係る情報(本実施形態では感情種別)
に基づき、推定対象データについての、又は推定対象データに含まれる語、句、節若しくは文についての感情に係る情報(感情種別)を決定する。
Returning to the functional block diagram of FIG. 1, the emotion estimation unit 115 in this embodiment:
(a) Information regarding the presence or absence of a specified emotion word, emotion phrase, emotion clause, or emotion sentence in the estimation target data, and
(b) If yes in (a) above, information related to at least one emotion (emotion type in this embodiment) that is associated with the specified emotion word, emotion phrase, emotion clause, or emotion sentence.
Based on this, information related to emotions (emotion type) about the estimation target data or about a word, phrase, clause, or sentence included in the estimation target data is determined.

具体的に感情推定部115は、
(ア)推定対象データ内でウィンドウ(window)を順次スライドさせ、各位置のウィンドウにおいて、当該ウィンドウ内に特定された感情語、感情句、感情節若しくは感情文が少なくとも1つ存在する場合、この特定された感情語、感情句、感情節若しくは感情文に対応付けられた感情種別のうちで所定条件を満たすまでに出現頻度の高いもの(本実施形態では、最も出現頻度の高い感情種別)を、当該ウィンドウについての感情種別に決定し、
(イ)推定対象データに含まれる語、句、節若しくは文の各々について、当該語、句、節若しくは文を含む少なくとも1つのウィンドウについて決定された感情種別のうちで所定条件を満たすまでに出現頻度の高いもの(本実施形態では、出現頻度が50%を超える感情種別)を、この推定対象データに含まれる語、句、節若しくは文の各々についての感情種別に決定する。
Specifically, the emotion estimation unit 115
(a) Sequentially slide windows within the estimation target data, and if there is at least one emotion word, emotion phrase, emotion clause, or emotion sentence specified in the window at each position, this Among the emotion types associated with the identified emotion words, emotion phrases, emotion clauses, or emotion sentences, those that appear frequently until a predetermined condition is met (in this embodiment, the emotion type that appears most frequently) are selected. , determine the emotion type for the window,
(b) For each word, phrase, clause, or sentence included in the estimation target data, it appears before a predetermined condition is met among the emotion types determined for at least one window containing the word, phrase, clause, or sentence. A frequently occurring emotion type (in this embodiment, an emotion type whose appearance frequency exceeds 50%) is determined as an emotion type for each word, phrase, clause, or sentence included in this estimation target data.

ここで本実施形態において、ウィンドウを用いて感情推定処理を行う理由は、対象者が発話や記述において自らの感情を込めるのは文中の単独の単語に対してではなく、むしろ感情に係る単語を含む文中の所定範囲に対してである場合が多いことによる。ウィンドウをスライドさせることにより、この感情の込められた所定範囲をより確実に捉えることができるのである。なおウィンドウのサイズは、例えば単語単位で順次スライドさせて当該ウィンドウ内の感情語に着目する場合、単語4つ分とすることができる。勿論、単語3つ分以下や単語5つ分以上のサイズとしてもよい。ちなみに使用される言語が英語である場合、周囲の語との関係が抽出し易く且つ単独の感情種別(感情語)が決定され易い、単語4つ分のサイズのウィンドウの使用が好適であることが、経験的に分かっている。 Here, in this embodiment, the reason why the emotion estimation process is performed using a window is that the subject does not put his or her emotions into words or descriptions of a single word in a sentence, but rather words related to emotion. This is because it is often for a predetermined range within a sentence that contains the text. By sliding the window, it is possible to more accurately capture this predetermined area that is filled with emotion. Note that the size of the window can be set to four words, for example, when the emotional words within the window are focused on by sequentially sliding word by word. Of course, the size may be less than three words or more than five words. By the way, if the language used is English, it is preferable to use a window the size of four words, as this makes it easier to extract relationships with surrounding words and determine a single emotion type (emotion word). I know this from experience.

またさらに、感情推定部115は本実施形態において、推定対象データが複数の文を含むものである場合、この推定対象データに含まれる各文の前後に、パディング要素(padding element, 後述する図4及び図5における“_”)を付与した上で、この推定対象データ内でウィンドウを順次スライドさせ、当該文毎に、付与されたパディング要素を包含する当該文内を順次スライドした各ウィンドウについての感情種別(感情に係る情報)を決定することも好ましい。なお文の区切りは、テキストデータ中における句点(英語の場合ピリオド)やクエスチョンマーク等の存在で判断することができる。 Furthermore, in this embodiment, when the estimation target data includes a plurality of sentences, the emotion estimation unit 115 adds padding elements before and after each sentence included in the estimation target data, as shown in FIGS. 5), and then slide the windows sequentially within this estimation target data, and for each sentence, the emotion type for each window that is sequentially slid within the sentence that includes the assigned padding element. It is also preferable to determine (information related to emotions). Note that a sentence break can be determined by the presence of a period (period in English), a question mark, or the like in the text data.

ここでパディング要素は、1つの文に係るウィンドウ群において、文頭及び文末の単語も文中の他の単語と同等に扱うことができるように付与されるのであり、ウィンドウ中において感情種別のいずれにも対応付けられていない単語として扱われる。またそのことから、ウィンドウのサイズが大きくなるほど、より多くのパディング要素が各文の前後に付与されることも好ましい。例えば、サイズが単語4つ分のウィンドウを用いる場合、各文の前後にパディング要素“_”を2つ付加することも好ましいのである。 Here, the padding element is added so that words at the beginning and end of a sentence can be treated equally to other words in the sentence in a group of windows related to one sentence. Treated as an unmatched word. For this reason, it is also preferable that the larger the window size, the more padding elements are added before and after each sentence. For example, when using a window whose size is four words, it is also preferable to add two padding elements "_" before and after each sentence.

さらに、推定対象データに含まれる語、句、節若しくは文のうち、上記(イ)のように感情種別が決定されるのは、感情辞書に登録されている語、句、節若しくは文であって、(全ての感情種別についての)合計カウント数が10以上となっているものに限定することも好ましい。またこの場合、上記(ア)のウィンドウは、含まれる単語のうちの所定以上(例えば75%以上)が合計カウント数について10未満の単語である際、その位置をスキップして次の位置にスライドする設定となっていてもよい。 Furthermore, among the words, phrases, clauses, or sentences included in the estimation target data, the emotion type is determined as in (a) above if the words, phrases, clauses, or sentences are registered in the emotion dictionary. It is also preferable to limit the total count number (for all emotion types) to 10 or more. In this case, the window in (a) above will skip that position and slide to the next position when more than a predetermined number (for example, 75% or more) of the included words have a total count of less than 10. The setting may be set to

以下、以上に述べたウィンドウやパディング要素を用いた感情推定処理について、図4及び図5を用いて具体的に説明を行う。 Hereinafter, the emotion estimation process using the window and padding elements described above will be specifically explained using FIGS. 4 and 5.

図4及び図5は、本発明に係る感情推定処理の一実施例を説明するための模式図である。 4 and 5 are schematic diagrams for explaining one embodiment of emotion estimation processing according to the present invention.

ここで本実施例においては、図3に示した感情語句等特定処理の一実施例と同じデータ:“Today will be rough. I have English class, but my teacher is Abc-san. He always tries to embarrass me.”が、対象に係る推定対象データとなっており、また、図3(B)に示されたように、この推定対象データのうち“English”及び“Abc-san”がそれぞれ、「喜び」に係る感情語、及び「悲しみ」に係る感情語として特定されている。 Here, in this example, the same data as the example of emotional word identification processing shown in FIG. 3 is used: “Today will be rough. I have English class, but my teacher is Abc-san. He always tries to embarrass me.” is the estimation target data related to the target, and as shown in Figure 3 (B), among this estimation target data, “English” and “Abc-san” are respectively “joyful”. It has been identified as an emotion word related to ``,'' and an emotion word related to ``sadness''.

最初に図4には、この推定対象データに含まれる各文の前後にパディング要素“_”を2つ付加したデータに対し、サイズが単語4つ分のウィンドウを順次スライドさせた結果得られた、3つのウィンドウグループが示されている。ここで、各ウィンドウグループは、最初の2つがパディング要素“_”であるウィンドウから、最後の2つがパディング要素“_”であるウィンドウまでの複数のウィンドウで構成されている。すなわち、これら3つのウィンドウは、推定対象データに含まれる3つの文にそれぞれ対応するものとなっている。 First, Figure 4 shows the results obtained by sequentially sliding a window with a size of four words on data in which two padding elements "_" are added before and after each sentence included in this estimation target data. , three window groups are shown. Here, each window group is composed of a plurality of windows from the first two windows having padding elements "_" to the last two windows having padding elements "_". That is, these three windows correspond to three sentences included in the estimation target data, respectively.

同じく図4において、第1のウィンドウグループW1-1~W1-5は、文“Today will be rough.”に対応しており、各ウィンドウ(W1-1, W2-2, ・・・, W1-5)は、この文に含まれる単語を2つから4つまで含んでいる。ここで本実施例において、この第1のウィンドウグループのウィンドウはいずれも、この対象について特定された感情語(“English”, “Abc-san”)を全く含んでいない。 Similarly, in FIG. 4, the first window group W1-1 to W1-5 corresponds to the sentence "Today will be rough.", and each window group (W1-1, W2-2, ..., W1- 5) contains two to four words included in this sentence. Here, in this example, none of the windows of this first window group contain any emotion words ("English", "Abc-san") specified for this object.

これにより感情推定部115は、
(a)文“Today will be rough.”に係る感情種別、
(b)各ウィンドウ(W1-1, W1-2, ・・・, W1-5)に係る感情種別、及び
(c)当該文に含まれる各単語(“Today”, “will”, “be”, “rough”)に係る感情種別
を、全て「ニュートラル」に決定している。なおここで、これらに対し感情種別は決定できないとすることも可能である。
As a result, the emotion estimation unit 115
(a) Emotion type related to the sentence “Today will be rough.”
(b) Emotion type related to each window (W1-1, W1-2, ..., W1-5), and (c) each word included in the sentence (“Today”, “will”, “be”) , “rough”) are all set to “neutral.” Note that it is also possible to decide here that the emotion type cannot be determined for these.

また同じく図4に示したように、第3のウィンドウグループW3-1~W3-7についても、上記の第1のウィンドウグループの場合と同様の結果が得られ、これにより感情推定部115は、
(a)文“He always tries to embarrass me.”に係る感情種別、
(b)各ウィンドウ(W3-1, W3-2, ・・・, W3-7)に係る感情種別、及び
(c)当該文に含まれる各単語(“He”, “always”, “tries”, “to”, “embarrass ”, “me”)に係る感情種別
を、「ニュートラル」に決定しているのである。なおここでも、これらに対し感情種別は決定できないとすることも可能である。ちなみに、仮に“embarrass ”が「悲しみ」に対応付けられた感情語であるとした場合、ウィンドウW3-4、W3-5、W3-6及びW3-7の各々に係る感情種別は、「悲しみ」に決定されることになる。またこの後詳細に説明する手法を用いることによって、単語“to”及び“me”に係る感情種別も「悲しみ」に決定されることになる。
Also, as shown in FIG. 4, the same results as for the first window group are obtained for the third window groups W3-1 to W3-7, and as a result, the emotion estimation unit 115
(a) Emotion type related to the sentence “He always tries to embarrass me.”
(b) Emotion type related to each window (W3-1, W3-2, ..., W3-7), and (c) each word included in the sentence (“He”, “always”, “tries”) , “to,” “embarrass,” “me”) are determined to be “neutral.” Note that it is also possible here that the emotion type cannot be determined for these. By the way, if "embarrass" is an emotion word associated with "sadness", the emotion type associated with each of windows W3-4, W3-5, W3-6, and W3-7 would be "sadness". will be determined. Furthermore, by using the method described in detail later, the emotion type related to the words "to" and "me" is also determined to be "sadness."

同じく図4において、第2のウィンドウグループW2-1~W2-10は、文“I have English class, but my teacher is Abc-san.”に対応している。ここで、含まれるウィンドウ(W2-1, W2-2, ・・・, W2-10)のうち、4つのウィンドウ(W2-2, W2-3, W2-4, W2-5)は「喜び」に係る感情語(“English”)を1つ含み、3つのウィンドウ(W2-8, W2-9, W2-10)は「悲しみ」に係る感情語(“Abc-san”)を1つ含んでいる。また、その他のウィンドウ(W2-1, W2-6, W2-7)は感情語を全く含んでいない。 Also in FIG. 4, the second window group W2-1 to W2-10 correspond to the sentence "I have English class, but my teacher is Abc-san." Here, among the included windows (W2-1, W2-2, ..., W2-10), four windows (W2-2, W2-3, W2-4, W2-5) are "joy" three windows (W2-8, W2-9, W2-10) contain one emotion word (“Abc-san”) related to “sadness”. There is. Further, the other windows (W2-1, W2-6, W2-7) do not contain any emotion words.

これにより感情推定部115は、
(a)4つのウィンドウ(W2-2, W2-3, W2-4, W2-5)の各々について、最も出現頻度の高い(本実施例では各ウィンドウで唯一出現している)感情種別である「喜び」を、当該ウィンドウの感情種別に決定し、
(b)3つのウィンドウ(W2-8, W2-9, W2-10)の各々について、最も出現頻度の高い(本実施例では各ウィンドウで唯一出現している)感情種別である「悲しみ」を、当該ウィンドウの感情種別に決定し、
(c)その他のウィンドウ(W2-1, W2-6, W2-7)の各々については、感情種別「ニュートラル」を、当該ウィンドウの感情種別に決定している。
As a result, the emotion estimation unit 115
(a) For each of the four windows (W2-2, W2-3, W2-4, W2-5), it is the emotion type that appears most frequently (in this example, it appears only in each window). Decide “joy” as the emotion type of the window,
(b) For each of the three windows (W2-8, W2-9, W2-10), select “sadness”, which is the emotion type that appears most frequently (in this example, it appears only in each window). , determine the emotion type of the window,
(c) For each of the other windows (W2-1, W2-6, W2-7), the emotion type "neutral" is determined as the emotion type of the window.

また感情推定部115は、第2のウィンドウグループW2-1~W2-10において、感情種別が「喜び」に該当するウィンドウの数(4つ)が最も多いことから、このグループが対応している文“I have English class, but my teacher is Abc-san.”の感情種別を、「喜び」に決定してもよい。または、該当するウィンドウの数が(当該グループ内で)50%を超える感情種別は存在しないことから(「喜び」でも40%であるので)、この文の感情種別を「ニュートラル」に決定する、又は感情種別は決定できないとする設定であってもよい。 In addition, the emotion estimation unit 115 determines that this group corresponds to the second window group W2-1 to W2-10 because this group has the largest number of windows (four) corresponding to the emotion type "joy". The emotion type of the sentence "I have English class, but my teacher is Abc-san." may be determined to be "joy." Or, since there is no emotion type for which the number of applicable windows exceeds 50% (within the group) (even ``joy'' has 40%), the emotion type of this sentence is determined to be ``neutral.'' Alternatively, the setting may be such that the emotion type cannot be determined.

次に、この第2のウィンドウグループW2-1~W2-10が対応している文“I have English class, but my teacher is Abc-san.”に含まれる各単語について、感情種別を決定する処理を、図5を用いて説明する。 Next, a process of determining the emotion type for each word included in the sentence “I have English class, but my teacher is Abc-san.” to which this second window group W2-1 to W2-10 corresponds. will be explained using FIG.

図5(A)に示したように、第2のウィンドウグループにおいて、1つのウィンドウ(W2-1)、4つのウィンドウ(W2-2, W2-3, W2-4, W2-5)、2つのウィンドウ(W2-6, W2-7)、及び3つのウィンドウ(W2-8, W2-9, W2-10)の感情種別はそれぞれ、「ニュートラル」、「喜び」、「ニュートラル」及び「悲しみ」に決定されている。 As shown in FIG. 5(A), in the second window group, there are one window (W2-1), four windows (W2-2, W2-3, W2-4, W2-5), and two windows. The emotion types of the window (W2-6, W2-7) and the three windows (W2-8, W2-9, W2-10) are "neutral", "joy", "neutral", and "sad", respectively. It has been decided.

ここで最初に、第2のウィンドウグループが対応している当該文に含まれる単語“I”について、感情種別を決定する処理を説明する。図5(B)に示したように、この単語“I”を含むウィンドウは、W2-1、W2-2及びW2-3の3つである。また、これら3つのウィンドウのうち、特定された感情語“English”を含むものは2つである。したがって、これら3つのウィンドウにおいて、感情語“English”の出現頻度は約67%(=2/3)となっている。その結果、感情語“English”は、設定された条件:「出現頻度が50%を超える感情語」に該当するので、感情推定部115は本実施例において、単語“I”の感情種別を、(感情語“English”に対応付けられた)感情種別「喜び」に決定している。 First, the process of determining the emotion type for the word "I" included in the sentence to which the second window group corresponds will be described. As shown in FIG. 5B, there are three windows that include the word "I": W2-1, W2-2, and W2-3. Further, among these three windows, two windows include the specified emotional word "English". Therefore, in these three windows, the frequency of appearance of the emotional word "English" is approximately 67% (=2/3). As a result, the emotion word "English" corresponds to the set condition: "an emotion word with an appearance frequency of more than 50%," so the emotion estimation unit 115 determines the emotion type of the word "I" in this embodiment by The emotion type ``joy'' (corresponding to the emotion word ``English'') has been determined.

次に、第2のウィンドウグループ対応している当該文に含まれる単語“my”について、感情種別を決定する処理を説明する。図5(C)に示したように、この単語“my”を含むウィンドウは、W2-5、W2-6、W2-7及びW2-8の4つである。ここで、
(a)これら4つのウィンドウのうち、特定された感情語“English”を含むものは1つである。したがって、これら4つのウィンドウにおいて、感情語“English”の出現頻度は25%(=1/4)となっている。また、
(b)これら4つのウィンドウのうち、特定された感情語“Abc-san”を含むものも1つである。したがって、これら4つのウィンドウにおいて、感情語“Abc-san”の出現頻度も25%(=1/4)となっている。
Next, a process for determining the emotion type for the word "my" included in the sentence corresponding to the second window group will be described. As shown in FIG. 5C, there are four windows that include the word "my": W2-5, W2-6, W2-7, and W2-8. here,
(a) Among these four windows, only one contains the specified emotional word "English". Therefore, in these four windows, the frequency of appearance of the emotional word "English" is 25% (=1/4). Also,
(b) Among these four windows, one also includes the specified emotion word "Abc-san." Therefore, in these four windows, the frequency of appearance of the emotional word "Abc-san" is also 25% (=1/4).

その結果、感情語“English”も感情語“Abc-san”も、設定された条件:「出現頻度が50%を超える感情語」に該当しないので、感情推定部115は本実施例において、単語“my”の感情種別を、顕著な感情種別(「怒り」、「喜び」、「悲しみ」及び「驚き」)ではない感情種別「ニュートラル」に決定している。なお変更態様として、このような場合に単語“my”に対し感情種別は決定できないとすることも可能である。 As a result, since neither the emotional word "English" nor the emotional word "Abc-san" falls under the set condition: "emotional word with an appearance frequency exceeding 50%," the emotional estimation unit 115 uses the word The emotion type of “my” is determined to be “neutral,” which is not a prominent emotion type (“anger,” “joy,” “sadness,” and “surprise”). Note that as a modification, it is also possible to make it impossible to determine the emotion type for the word "my" in such a case.

ここで、仮にウィンドウW2-5だけでなくウィンドウW2-6及びW2-7にも感情語“English”が含まれているとすると、感情語“English”は、出現頻度が75%(=3/4)となるので、設定された条件:「出現頻度が50%を超える感情語」に該当することになる。この場合、単語“my”の感情種別は、(ウィンドウW2-8が感情語“Abc-san”を含むにもかかわらず)この感情語“English”に対応付けられた感情種別「喜び」に決定されることになる。また仮に、出現頻度について50%を超える感情語が複数存在する場合、その中で最も出現頻度の高い感情語に対応付けられた感情種別が採用されてもよい。またさらに、出現頻度について50%を超え且つ最大値をとる感情語が複数ある場合(例えばいずれの出現頻度も75%である場合)、感情種別「ニュートラル」が採用されてもよく、または感情種別の決定はできないとしてもよい。 Here, if we assume that the emotion word "English" is included not only in window W2-5 but also in windows W2-6 and W2-7, the appearance frequency of the emotion word "English" is 75% (=3/ 4), so it falls under the set condition: "Emotion word with an appearance frequency of over 50%." In this case, the emotion type of the word "my" is determined to be the emotion type "joy" associated with the emotion word "English" (despite the fact that window W2-8 includes the emotion word "Abc-san"). will be done. Furthermore, if there are a plurality of emotion words whose frequency of appearance exceeds 50%, the emotion type associated with the emotion word with the highest frequency of appearance among them may be adopted. Furthermore, if there are multiple emotion words that have a frequency of occurrence exceeding 50% and have the maximum value (for example, when all of them have a frequency of 75%), the emotion type "neutral" may be adopted, or the emotion type It may not be possible to make a decision.

さらに以上に説明した方法をもって、当該文に含まれる他の単語についても感情種別を決定することができる。例えば単語“but”については、感情語“English”の出現頻度が50%(=2/4)となるので、感情種別は「ニュートラル」に決定される(又は感情種別が決定できないとされる)。さらに、例えば単語“teacher”についても、感情語“Abc-san”の出現頻度が50%(=2/4)となるので、感情種別は「ニュートラル」に決定される(又は感情種別が決定できないとされる)のである。 Furthermore, using the method described above, it is possible to determine the emotion type for other words included in the sentence. For example, for the word "but", the frequency of appearance of the emotion word "English" is 50% (= 2/4), so the emotion type is determined to be "neutral" (or the emotion type cannot be determined) . Furthermore, for example, for the word "teacher", the frequency of appearance of the emotion word "Abc-san" is 50% (= 2/4), so the emotion type is determined to be "neutral" (or the emotion type cannot be determined). ).

なお変更態様として、上述した当該文に含まれる単語の感情種別を決定する処理において、「ニュートラル」と決定されたウィンドウは、感情語の出現頻度の計算において考慮しないことも可能である。例えば、単語“I”の感情種別を決定するにあたり、図5(B)の3つのウィンドウ(W2-1, W2-2, W2-3)のうち、図5(A)に示したように「ニュートラル」と決定されたウィンドウW2-1は、感情語“English”の出現頻度の計算に含めなくてもよい。この場合、感情語“English”の出現頻度は100%(=2/2)となり、感情語“English”は「出現頻度が50%を超える感情語」に該当するので、その結果、単語“I”の感情種別は「喜び」に決定されることになる。 As a modification, in the above-described process of determining the emotion type of a word included in the sentence, a window determined to be "neutral" may not be considered in calculating the frequency of appearance of an emotion word. For example, in determining the emotion type of the word "I", among the three windows (W2-1, W2-2, W2-3) in FIG. 5(B), as shown in FIG. 5(A), " The window W2-1 determined to be "neutral" does not need to be included in the calculation of the appearance frequency of the emotion word "English". In this case, the frequency of appearance of the emotional word “English” is 100% (=2/2), and the emotional word “English” falls under “emotional words with an appearance frequency of more than 50%,” so as a result, the word “I The emotion type of ``is determined to be ``joy''.

またこの変更態様において、単語“my”の感情種別を決定する場合、図5(C)の4つのウィンドウ(W2-5, W2-6, W2-7, W2-8)のうち「ニュートラル」と決定されたウィンドウはW2-6及びW2-7の2つである。したがって、残りの2つのウィンドウ(W2-5, W2-8)で感情語の出現頻度を計算することになる。その結果、感情語“English”及び感情語“Abc-san”はいずれも、出現頻度が50%(=1/2)となり、「出現頻度が50%を超える感情語」に該当しないので、これにより、単語“my”の感情種別は「ニュートラル」に決定される(又は感情種別が決定できないとされる)。 In addition, in this modification mode, when determining the emotion type of the word "my", one of the four windows (W2-5, W2-6, W2-7, W2-8) in FIG. There are two determined windows, W2-6 and W2-7. Therefore, the frequency of appearance of emotion words is calculated in the remaining two windows (W2-5, W2-8). As a result, both the emotional word "English" and the emotional word "Abc-san" have an appearance frequency of 50% (= 1/2), which does not fall under the category of "emotional words with an appearance frequency of over 50%." Therefore, the emotion type of the word “my” is determined to be “neutral” (or the emotion type cannot be determined).

さらにこの変更態様において、上述した単語“but”については、感情語“English”の出現頻度が100%(=2/2)となるので、感情種別は「喜び」に決定される。また、同じく上述した単語“teacher”については、感情語“Abc-san”の出現頻度も100%(=2/2)となるので、感情種別は「悲しみ」に決定されるのである。 Furthermore, in this modification, for the word "but" mentioned above, the frequency of appearance of the emotion word "English" is 100% (=2/2), so the emotion type is determined to be "joy". Also, regarding the word "teacher" mentioned above, the frequency of appearance of the emotion word "Abc-san" is also 100% (=2/2), so the emotion type is determined to be "sadness".

また、更なる変更態様として、当該文に含まれる単語の感情種別を決定する処理において、決定対象の単語を含むウィンドウにおける出現頻度が最も高い(例えば最大値としての25%の出現頻度を示す)感情語に係る感情種別を、この単語の感情種別に決定してもよい。この場合、出現頻度の絶対値は感情種別の判断基準とはならない。またいずれも最高の出現頻度を示す(例えばいずれも最大値としての25%の出現頻度を示す)複数の感情語が存在している場合、この単語の感情種別は「ニュートラル」に決定されてもよい(又は感情種別が決定できないとされてもよい)。 In addition, as a further modification, in the process of determining the emotion type of the word included in the sentence, the frequency of appearance in the window containing the word to be determined is the highest (for example, the frequency of appearance is 25% as the maximum value) The emotion type related to the emotion word may be determined as the emotion type of this word. In this case, the absolute value of the frequency of appearance does not serve as a criterion for determining the emotion type. In addition, if there are multiple emotion words that all have the highest frequency of occurrence (for example, they all have a maximum frequency of 25%), the emotion type of this word may be determined to be "neutral." (or it may be assumed that the emotion type cannot be determined).

図1の機能ブロック図に戻って、感情推定部115は本実施形態において、推定対象データに係る各単語、各ウィンドウ、及び/又は(各)文に対し決定した感情種別の情報を、対応する単語等とのデータセットにして、感情推定結果保存部105へ出力し保存・管理させることができる。また、入出力制御部122を介しユーザインタフェース部106へ出力して、ユーザインタフェース部106のディスプレイに表示させてもよい。 Returning to the functional block diagram of FIG. 1, in this embodiment, the emotion estimation unit 115 uses information on the emotion type determined for each word, each window, and/or (each) sentence related to the estimation target data to It can be made into a data set with words, etc., and output to the emotion estimation result storage unit 105 for storage and management. Alternatively, the data may be output to the user interface unit 106 via the input/output control unit 122 and displayed on the display of the user interface unit 106.

またこのように決定された感情種別の情報と対応する単語等とのデータセットは、ユーザIDが紐づけられた上で、通信制御部121を介し通信インタフェース部101から外部の情報処理装置に送信されて、当該装置で利用されてもよい。さらにこのデータセットには、決定された感情種別に係る感情語の出現頻度が更に対応付けられていてもよい。 Furthermore, the data set of emotion type information determined in this way and corresponding words, etc. is linked with a user ID and is transmitted from the communication interface unit 101 to an external information processing device via the communication control unit 121. may be used in the device. Furthermore, this data set may further be associated with the frequency of appearance of emotion words related to the determined emotion type.

さらにまた、感情推定部115は、感情推定対象の単語等に、出現した各感情語に係る感情種別と、当該感情語の出現頻度とを対応付けたデータセットを、感情推定結果(感情に係る情報)として出力してもよい。このデータセットは、感情推定対象の単語等が、各感情種別に該当する確からしさについての情報となっているのである。 Furthermore, the emotion estimation unit 115 uses the emotion estimation results (emotion-related information). This data set contains information about the probability that the words, etc. that are the target of emotion estimation correspond to each emotion type.

以上詳細に説明したように、本発明によれば、所定の対象の音声データから、この対象用の感情辞書を生成又は更新するための(感情辞書の構成要素としての)感情辞書情報を、自動的に生成し出力することができる。また、好適な1つの実施形態をとる場合とはなるが、生成又は更新した所定の対象用の「感情辞書」を用い、この対象に係る推定対象データから対象の感情を推定することも可能となる。 As described in detail above, according to the present invention, emotional dictionary information (as a component of an emotional dictionary) for generating or updating an emotional dictionary for a predetermined target is automatically generated from voice data of a predetermined target. can be generated and output automatically. Although this is a preferred embodiment, it is also possible to use a generated or updated "emotion dictionary" for a predetermined target to estimate the target's emotion from the estimation target data related to this target. Become.

このような本発明に係る感情辞書生成・更新機能や感情推定機能は、対象者の発話や記載物からこの対象者の感情状態を(例えばリアルタイムで)把握したいニーズの存在する事業分野、具体的には医療、介護、教育、各種公共サービスや、マーケティング等の分野において、大いに役立つものとなり得るのである。例えば、心療内科等におけるカウンセリングにおいて、患者の発話や記載物から、この患者専用に生成した感情辞書を用いて、治療・アドバイスに役立つ患者の感情情報を取得することも可能となる。さらに、例えば対話ロボットが、対話先のユーザを(例えば顔情報に基づき)識別して、予め生成しておいたこのユーザ専用の感情辞書を選択し、選択したこの感情辞書を用いてこのユーザの感情状態を推定することにより、このユーザの感情状態に合った動作・振る舞いを実施することも可能となる。 The emotion dictionary generation/updating function and the emotion estimation function according to the present invention are suitable for business fields and specific areas where there is a need to understand the emotional state of a target person (for example, in real time) from the target person's utterances and written contents. It can be of great help in fields such as medicine, nursing care, education, various public services, and marketing. For example, in counseling in psychosomatic medicine, etc., it is possible to obtain emotional information about a patient that is useful for treatment and advice, based on the patient's utterances and writings, using an emotional dictionary created specifically for the patient. Furthermore, for example, the conversation robot identifies the user with whom it is interacting (for example, based on facial information), selects a pre-generated emotion dictionary exclusively for this user, and uses the selected emotion dictionary to identify the user. By estimating the user's emotional state, it is also possible to perform actions and behaviors that match the user's emotional state.

また、例えば子供達に対し質の高い、且つ個々の感情の傾向に合った教育を提供するために、本発明によって(子供達の発話や記載物から)推定された子供達の感情状態や感情推移・履歴の情報を活用することもできる。すなわち本発明によれば、国連が主導する持続可能な開発目標(SDGs)の目標4「すべての人々に包摂的かつ公平で質の高い教育を提供し、生涯学習の機会を促進する」に貢献することも可能となるのである。 In addition, for example, in order to provide children with high-quality education that is tailored to their individual emotional tendencies, the present invention may be used to estimate children's emotional states and emotions (from children's utterances and writings). Information on trends and history can also be utilized. In other words, the present invention contributes to Goal 4 of the Sustainable Development Goals (SDGs) led by the United Nations, "Provide inclusive, equitable and quality education for all and promote lifelong learning opportunities." It is also possible to do so.

さらに、例えば大人達に対し、環境に害を及ぼさないディーセント・ワーク(働きがいのある人間らしい仕事)や、質の高い、且つ個々の感情の傾向に合った仕事を提供するために、本発明によって(大人達の発話や記載物から)推定された大人達の感情状態や感情推移・履歴の情報を活用することもできる。すなわち本発明によれば、国連が主導するSDGsの目標8「すべての人々のための包摂的かつ持続可能な経済成長、雇用およびディーセント・ワークを推進する」に貢献することも可能となるのである。 Furthermore, in order to provide adults with decent work that does not harm the environment and jobs that are of high quality and match their individual emotional tendencies, the present invention It is also possible to utilize information about adults' emotional states, emotional trends, and histories that are estimated (from adults' utterances and writings). In other words, according to the present invention, it is also possible to contribute to Goal 8 of the SDGs led by the United Nations, "Promote inclusive and sustainable economic growth, employment and decent work for all." be.

またさらに、例えば消費者達に対し、個々の感情の傾向に沿った、持続可能な消費とライフスタイルについての教育を提供するために、本発明によって(消費者達の発話や記載物から)推定された消費者の感情状態や感情推移・履歴の情報を活用することもできる。すなわち本発明によれば、国連が主導するSDGsの目標12「持続可能な消費と生産のパターンを確保する」に貢献することも可能となるのである。 Furthermore, in order to provide consumers with education on sustainable consumption and lifestyles in line with their individual emotional tendencies, the present invention can be used to estimate (from consumers' utterances and written materials) It is also possible to utilize information on consumers' emotional states, emotional trends, and history. In other words, according to the present invention, it is also possible to contribute to Goal 12 of the SDGs led by the United Nations, "Ensure sustainable consumption and production patterns."

以上に述べた本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。以上に述べた説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。 Regarding the various embodiments of the present invention described above, various changes, modifications, and omissions within the scope of the technical idea and viewpoint of the present invention can be easily made by those skilled in the art. The above explanation is just an example and is not intended to be any restriction. The invention is limited only by the claims and their equivalents.

1 スマートフォン(感情推定装置,感情辞書生成装置)
101 通信インタフェース部
102 マイク
103 音声データ保存部
104 テキストデータ保存部
105 感情推定結果保存部
106 ユーザインタフェース(U・I)部
111 テキスト変換部
112 感情決定部
113 辞書生成部
114 感情語句等特定部
115 感情推定部
121 通信制御部
122 入出力制御部
2 感情辞書データベース(DB)
3 ドキュメントDB
4 音声DB
5 SNSサーバ
6 電子メールサーバ
1 Smartphone (emotion estimation device, emotion dictionary generation device)
101 Communication interface unit 102 Microphone 103 Voice data storage unit 104 Text data storage unit 105 Emotion estimation result storage unit 106 User interface (U/I) unit 111 Text conversion unit 112 Emotion determination unit 113 Dictionary generation unit 114 Emotional phrase etc. identification unit 115 Emotion estimation section 121 Communication control section 122 Input/output control section 2 Emotion dictionary database (DB)
3 Document DB
4 Audio DB
5 SNS server 6 Email server

Claims (10)

取得された所定の対象の音声データをテキストデータに変換する変換手段と、
当該音声データから感情識別モデルを用いて当該対象の感情に係る情報を決定する感情決定手段と、
当該対象の語、句、節若しくは文と当該対象の感情に係る情報とを対応付けて登録した感情辞書を生成又は更新するための感情辞書情報であって、当該テキストデータに含まれる語、句、節若しくは文と、決定された感情に係る情報とを対応付けた感情辞書情報を生成し出力する辞書生成手段と
してコンピュータを機能させることを特徴とする感情辞書生成プログラム。
a conversion means for converting the acquired audio data of a predetermined target into text data;
emotion determination means for determining information related to the emotion of the target from the voice data using an emotion identification model;
Emotion dictionary information for generating or updating an emotion dictionary in which words, phrases, clauses, or sentences of the target and information related to the emotions of the target are registered in association with words and phrases included in the text data. An emotion dictionary generation program characterized by causing a computer to function as a dictionary generation means for generating and outputting emotion dictionary information in which clauses or sentences are associated with information related to determined emotions.
前記辞書生成手段は、当該テキストデータと、該テキストデータに係る音声データから決定された当該感情に係る情報との組のうち、感情識別に係る確からしさが所定条件を満たすまでに高い組を用いて当該感情辞書情報を生成することを特徴とする請求項1に記載の感情辞書生成プログラム。 The dictionary generating means uses a set of the text data and the information related to the emotion determined from the audio data related to the text data for which the probability of emotion identification is high until a predetermined condition is satisfied. 2. The emotion dictionary generation program according to claim 1, wherein the emotion dictionary generation program generates the emotion dictionary information. 請求項1又は2に記載の感情辞書生成プログラムによって生成又は更新された感情辞書を用い、当該対象によって表現された語、句、節若しくは文を含む推定対象データについての感情に係る情報を推定するプログラムであって、
取得された当該推定対象データに含まれる語、句、節若しくは文のうち、当該感情辞書に登録されていて、予め設定された複数種別の当該感情に係る情報のうちの1つに所定条件を満たすまでに強く対応付けられている語、句、節若しくは文を特定する感情語句等特定手段と、
当該推定対象データにおける特定された語、句、節若しくは文の有り無しに係る情報、及び、有りの場合において特定された語、句、節若しくは文に対応付けられている少なくとも1つの当該1つの感情に係る情報に基づき、当該推定対象データについての、又は当該推定対象データに含まれる語、句、節若しくは文についての感情に係る情報を決定する感情推定手段と
としてコンピュータを機能させることを特徴とする感情推定プログラム。
Using the emotion dictionary generated or updated by the emotion dictionary generation program according to claim 1 or 2, information related to emotions regarding estimation target data including words, phrases, clauses, or sentences expressed by the target is estimated. A program,
Among the words, phrases, clauses, or sentences included in the acquired estimation target data, a predetermined condition is applied to one of the plurality of preset types of information related to the emotion registered in the emotion dictionary. A means for identifying words, phrases, clauses, or sentences that are strongly associated with each other to meet the criteria, such as emotional phrases;
Information regarding the presence or absence of the specified word, phrase, clause, or sentence in the estimation target data, and if yes, at least one corresponding word, phrase, clause, or sentence that is associated with the specified word, phrase, clause, or sentence. The computer is characterized by functioning as an emotion estimation means that determines emotion-related information about the estimation target data or about a word, phrase, clause, or sentence included in the estimation target data based on the emotion-related information. Emotion estimation program.
前記感情語句等特定手段は、当該推定対象データに含まれる語、句、節若しくは文のうち、予め設定された複数種別の当該感情に係る情報のうちの1つに、対応度合いの平均からみて所定条件を満たすまでに大きく逸脱する形で強く対応付けられている語、句、節若しくは文を特定することを特徴とする請求項3に記載の感情推定プログラム。 The emotion word/phrase identification means selects one of the plurality of preset types of emotion-related information among the words, phrases, clauses, or sentences included in the estimation target data, based on the average degree of correspondence. 4. The emotion estimation program according to claim 3, wherein words, phrases, clauses, or sentences that are strongly associated with each other in a manner that significantly deviates from each other until a predetermined condition is satisfied are identified. 前記感情推定手段は、
当該推定対象データ内でウィンドウを順次スライドさせ、各位置のウィンドウにおいて、当該ウィンドウ内に当該特定された語、句、節若しくは文が少なくとも1つ存在する場合、当該特定された語、句、節若しくは文に対応付けられた当該1つの感情に係る情報のうちで所定条件を満たすまでに出現頻度の高いものを、当該ウィンドウについての感情に係る情報に決定し、
当該推定対象データに含まれる語、句、節若しくは文の各々について、当該語、句、節若しくは文を含む少なくとも1つの当該ウィンドウについて決定された感情に係る情報のうちで所定条件を満たすまでに出現頻度の高いものを、当該推定対象データに含まれる語、句、節若しくは文の各々についての感情に係る情報に決定する
ことを特徴とする請求項3に記載の感情推定プログラム。
The emotion estimation means includes:
Sequentially slide the window within the estimation target data, and if at least one specified word, phrase, clause, or sentence exists in the window at each position, the specified word, phrase, clause Alternatively, among the information related to the one emotion associated with the sentence, one that appears frequently until a predetermined condition is met is determined as the information related to the emotion for the window,
For each word, phrase, clause, or sentence included in the estimation target data, information related to emotion determined for at least one window containing the word, phrase, clause, or sentence until a predetermined condition is met. 4. The emotion estimation program according to claim 3, wherein a word with a high frequency of appearance is determined as information related to emotion for each word, phrase, clause, or sentence included in the estimation target data.
前記感情推定手段は、当該推定対象データが複数の文を含むものである場合、当該推定対象データに含まれる各文の前後に、パディング要素(padding element)を付与した上で、当該推定対象データ内でウィンドウを順次スライドさせ、当該文毎に、付与されたパディング要素を包含する当該文内を順次スライドした各ウィンドウについての感情に係る情報を決定することを特徴とする請求項5に記載の感情推定プログラム。 When the estimation target data includes a plurality of sentences, the emotion estimation means adds a padding element before and after each sentence included in the estimation target data, and then adds a padding element to each sentence included in the estimation target data. Emotion estimation according to claim 5, characterized in that the windows are sequentially slid and, for each sentence, information related to the emotion of each window that is sequentially slid inside the sentence including the given padding element is determined. program. 取得された所定の対象の音声データをテキストデータに変換する変換手段と、
当該音声データから感情識別モデルを用いて当該対象の感情に係る情報を決定する感情決定手段と、
当該対象の語、句、節若しくは文と当該対象の感情に係る情報とを対応付けて登録した感情辞書を生成又は更新するための感情辞書情報であって、当該テキストデータに含まれる語、句、節若しくは文と、決定された感情に係る情報とを対応付けた感情辞書情報を生成し出力する辞書生成手段と
を有することを特徴とする感情辞書生成装置。
a conversion means for converting the acquired voice data of a predetermined target into text data;
emotion determination means for determining information related to the emotion of the target from the voice data using an emotion identification model;
Emotion dictionary information for generating or updating an emotion dictionary in which words, phrases, clauses, or sentences of the target and information related to the emotions of the target are registered in association with words and phrases included in the text data. 1. An emotional dictionary generation device comprising: dictionary generation means for generating and outputting emotional dictionary information in which clauses or sentences are associated with information related to determined emotions.
所定の対象によって表現された語、句、節若しくは文を含む推定対象データについての感情に係る情報を推定する装置であって、
取得された当該対象の音声データをテキストデータに変換する変換手段と、
当該音声データから感情識別モデルを用いて当該対象の感情に係る情報を決定する感情決定手段と、
当該対象の語、句、節若しくは文と当該対象の感情に係る情報とを対応付けて登録した感情辞書を生成又は更新するための感情辞書情報であって、当該テキストデータに含まれる語、句、節若しくは文と、決定された感情に係る情報とを対応付けた感情辞書情報を生成し出力する辞書生成手段と、
取得された当該推定対象データに含まれる語、句、節若しくは文のうち、当該感情辞書情報によって生成又は更新された当該感情辞書に登録されていて、予め設定された複数種別の当該感情に係る情報のうちの1つに所定条件を満たすまでに強く対応付けられている語、句、節若しくは文を特定する感情語句等特定手段と、
当該推定対象データにおける特定された語、句、節若しくは文の有り無しに係る情報、及び、有りの場合において特定された語、句、節若しくは文に対応付けられている少なくとも1つの当該1つの感情に係る情報に基づき、当該推定対象データについての、又は当該推定対象データに含まれる語、句、節若しくは文についての感情に係る情報を決定する感情推定手段と
を有することを特徴とする感情推定装置。
A device for estimating information related to emotions regarding estimation target data including words, phrases, clauses, or sentences expressed by a predetermined target,
a conversion means for converting the acquired target audio data into text data;
emotion determination means for determining information related to the emotion of the target from the voice data using an emotion identification model;
Emotion dictionary information for generating or updating an emotion dictionary in which words, phrases, clauses, or sentences of the target and information related to the emotions of the target are registered in association with words and phrases included in the text data. , dictionary generation means for generating and outputting emotion dictionary information in which clauses or sentences are associated with information related to the determined emotion;
Among the words, phrases, clauses, or sentences included in the acquired estimation target data, those that are registered in the emotion dictionary generated or updated using the emotion dictionary information and that relate to multiple preset types of emotions. A means for specifying emotional phrases, etc., for specifying words, phrases, clauses, or sentences that are strongly associated with one of the pieces of information to meet a predetermined condition;
Information regarding the presence or absence of the specified word, phrase, clause, or sentence in the estimation target data, and if yes, at least one corresponding word, phrase, clause, or sentence that is associated with the specified word, phrase, clause, or sentence. An emotion characterized by having an emotion estimation means that determines emotion-related information about the estimation target data or about a word, phrase, clause, or sentence included in the estimation target data based on the emotion-related information. Estimation device.
取得された所定の対象の音声データをテキストデータに変換する変換手段と、
当該音声データから感情識別モデルを用いて当該対象の感情に係る情報を決定する感情決定手段と、
当該対象の語、句、節若しくは文と当該対象の感情に係る情報とを対応付けて登録した感情辞書を生成又は更新するための感情辞書情報であって、当該テキストデータに含まれる語、句、節若しくは文と、決定された感情に係る情報とを対応付けた感情辞書情報を生成し出力する辞書生成手段と
を有することを特徴とする感情辞書生成システム。
a conversion means for converting the acquired audio data of a predetermined target into text data;
emotion determination means for determining information related to the emotion of the target from the voice data using an emotion identification model;
Emotion dictionary information for generating or updating an emotion dictionary in which words, phrases, clauses, or sentences of the target and information related to the emotions of the target are registered in association with words and phrases included in the text data. An emotion dictionary generation system comprising: dictionary generation means for generating and outputting emotion dictionary information in which clauses or sentences are associated with information related to determined emotions.
取得された所定の対象の音声データをテキストデータに変換し、当該音声データから感情識別モデルを用いて当該対象の感情に係る情報を決定するステップと、
当該対象の語、句、節若しくは文と当該対象の感情に係る情報とを対応付けて登録した感情辞書を生成又は更新するための感情辞書情報であって、当該テキストデータに含まれる語、句、節若しくは文と、決定された感情に係る情報とを対応付けた感情辞書情報を生成し、当該感情辞書情報によって当該感情辞書を生成又は更新するステップと
を有することを特徴とする、コンピュータによって実施される感情辞書生成方法。
converting the acquired voice data of a predetermined target into text data, and determining information related to the emotion of the target from the voice data using an emotion identification model;
Emotion dictionary information for generating or updating an emotion dictionary in which words, phrases, clauses, or sentences of the target and information related to the emotions of the target are registered in association with words and phrases included in the text data. , generating emotion dictionary information that associates clauses or sentences with information related to the determined emotion, and generating or updating the emotion dictionary using the emotion dictionary information, by a computer. The emotion dictionary generation method to be implemented.
JP2022142563A 2022-09-07 2022-09-07 Program, device, system and method for generating an emotion dictionary for a predetermined object, and emotion estimation program and device Pending JP2024037614A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2022142563A JP2024037614A (en) 2022-09-07 2022-09-07 Program, device, system and method for generating an emotion dictionary for a predetermined object, and emotion estimation program and device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022142563A JP2024037614A (en) 2022-09-07 2022-09-07 Program, device, system and method for generating an emotion dictionary for a predetermined object, and emotion estimation program and device

Publications (1)

Publication Number Publication Date
JP2024037614A true JP2024037614A (en) 2024-03-19

Family

ID=90300260

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022142563A Pending JP2024037614A (en) 2022-09-07 2022-09-07 Program, device, system and method for generating an emotion dictionary for a predetermined object, and emotion estimation program and device

Country Status (1)

Country Link
JP (1) JP2024037614A (en)

Similar Documents

Publication Publication Date Title
US10977452B2 (en) Multi-lingual virtual personal assistant
US10176804B2 (en) Analyzing textual data
CN109509470B (en) Voice interaction method and device, computer readable storage medium and terminal equipment
Feraru et al. Cross-language acoustic emotion recognition: An overview and some tendencies
Griol et al. Combining speech-based and linguistic classifiers to recognize emotion in user spoken utterances
Klaylat et al. Emotion recognition in Arabic speech
US20080059147A1 (en) Methods and apparatus for context adaptation of speech-to-speech translation systems
KR101160193B1 (en) Affect and Voice Compounding Apparatus and Method therefor
JP2009139390A (en) Information processing system, processing method and program
JP2006178063A (en) Interactive processing device
CN113380271B (en) Emotion recognition method, system, device and medium
US9922644B2 (en) Analysis of professional-client interactions
US9805740B2 (en) Language analysis based on word-selection, and language analysis apparatus
Pervaiz et al. Emotion recognition from speech using prosodic and linguistic features
Dyriv et al. The user's psychological state identification based on Big Data analysis for person's electronic diary
KR20180022156A (en) Dialog management apparatus and method
Cao et al. Acoustic and lexical representations for affect prediction in spontaneous conversations
JP2024037614A (en) Program, device, system and method for generating an emotion dictionary for a predetermined object, and emotion estimation program and device
CN112017668B (en) Intelligent voice conversation method, device and system based on real-time emotion detection
Salekin et al. Dave: detecting agitated vocal events
JP7180127B2 (en) Information presentation system, information presentation method and program
JP7297721B2 (en) Program, device, and method for creating dialogue scenario substituted with verbs according to character attributes
KR102604277B1 (en) Complex sentiment analysis method using speaker separation STT of multi-party call and system for executing the same
US20240127804A1 (en) Transcript tagging and real-time whisper in interactive communications
US20230298615A1 (en) System and method for extracting hidden cues in interactive communications