JP5496863B2 - Emotion estimation apparatus, method, program, and recording medium - Google Patents
Emotion estimation apparatus, method, program, and recording medium Download PDFInfo
- Publication number
- JP5496863B2 JP5496863B2 JP2010262527A JP2010262527A JP5496863B2 JP 5496863 B2 JP5496863 B2 JP 5496863B2 JP 2010262527 A JP2010262527 A JP 2010262527A JP 2010262527 A JP2010262527 A JP 2010262527A JP 5496863 B2 JP5496863 B2 JP 5496863B2
- Authority
- JP
- Japan
- Prior art keywords
- explicit
- emotion
- word
- unit
- text data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
Description
本発明は対象音声データまたは対象テキストデータから怒りの感情を推定する感情推定装置、その方法、そのプログラム及びその記録媒体に関する。 The present invention relates to an emotion estimation apparatus for estimating an anger emotion from target speech data or target text data, a method thereof, a program thereof, and a recording medium thereof.
非特許文献1が対象テキストデータから怒りの感情を推定する従来技術として知られている。非特許文献1では、感情に関係する語(以下「感情関係語」という)と、感情関係語に対する感情スコアとを感情関係語DBに記憶しておき、感情関係語DBを参照して文レベルの感情スコアを推定する。例えば、「子供」や「夏休み」等の感情関係語には、「楽しい」や「ポジティブ」等の感情スコアが対応付けられ、「戦争」や「事故」等の感情関係語には、「怒り」、「悲しい」、「ネガティブ」等の感情スコアが対応付けられる。 Non-Patent Document 1 is known as a conventional technique for estimating an angry emotion from target text data. In Non-Patent Document 1, words related to emotion (hereinafter referred to as “emotion related words”) and emotion scores for emotion related words are stored in the emotion related word DB, and the sentence level is referred to the emotion related word DB. Estimate the emotional score. For example, emotional words such as “children” and “summer vacation” are associated with emotional scores such as “fun” and “positive”, and emotional words such as “war” and “accident” are associated with “anger”. "," Sad "," negative ", etc. are associated with emotional scores.
しかしながら、従来技術は、感情関係語と感情関係語に対する感情スコアとを感情関係語DBに記憶するため、以下のような問題が生じる。 However, since the related art stores the emotion related words and the emotion score for the emotion related words in the emotion related word DB, the following problems occur.
感情関係語DB内に推定するために十分な量の感情関係語を記憶するためには、甚大な人的、時間的、金銭的コストがかかる。そのため、実用的には、300語程度の感情関係語を記録する感情関係語DBを作成することになる。そうすると、感情関係語DBに登録されていない感情関係語(以下「未知語」という)が、対象テキストデータ内に多く含まれることとなり、感情スコアを推定することができない場合が多発する。 In order to store a sufficient amount of emotion related words to estimate in the emotion related word DB, enormous human, time and money costs are required. Therefore, practically, an emotion related word DB that records about 300 emotion related words is created. Then, many emotion-related words (hereinafter referred to as “unknown words”) that are not registered in the emotion-related word DB are included in the target text data, and the emotion score cannot be estimated frequently.
また、同一の感情関係語であっても、文脈や使われ方(以下「文脈等」という)により、関連する感情は異なる場合があるため、誤って感情を推定する可能性がある。例えば、「君の態度はまるで子供だね」という文章では、「子供」は「ネガティブ」な感情と関連するが、感情関係語DBには、「ポジティブ」な感情に関連する感情関係語として登録されている場合があり、誤った感情を推定する原因となる。 Moreover, even if the same emotion-related word is used, the related emotions may differ depending on the context and usage (hereinafter referred to as “context etc.”). For example, in the sentence “Your attitude is like a child,” “kid” is related to “negative” emotions, but it is registered in the emotion related word DB as emotion related words related to “positive” emotions. It may have been the cause of estimating the wrong emotion.
よって、感情関係語DBのような単語の意味情報を記録したデータベースを用いずに、対象音声データまたは対象テキストデータから感情を推定することができる感情推定装置、その方法、そのプログラム及びその記録媒体を提供するという課題がある。単語の意味情報を記録したデータベース(例えば感情関係語DB)を用いない構成により、未知語の存在により対象テキストデータから感情を推定することができないという問題、及び、文脈等により誤って感情を推定するという問題が生じなくなる。 Therefore, an emotion estimation apparatus, method, program thereof, and recording medium thereof that can estimate emotion from target speech data or target text data without using a database that records semantic information of words such as emotion related word DB There is a problem of providing. The problem of not being able to estimate emotions from the target text data due to the presence of unknown words due to a configuration that does not use a database (for example, emotion-related word DB) that records the semantic information of words, and erroneously estimating emotions due to context, etc. The problem of doing no longer occurs.
上記の課題を解決するために、本発明は、対象テキストデータの形態素解析結果と構文解析結果との少なくとも一方を用いて、対象テキストデータ内にどの程度その意味内容が明示されているかを表す明示性特徴量を推定し、怒りの感情が表現されているか否かを示す教師信号付きの学習用テキストデータの明示性特徴量から予め学習された識別器を用いて、対象テキストデータ内に怒りの感情が表現されているか否かを、明示性推定部で推定された対象テキストデータの明示性特徴量から識別する。 In order to solve the above problem, the present invention uses at least one of the morphological analysis result and the syntax analysis result of the target text data to express how much the semantic content is clearly indicated in the target text data. Estimate gender features and use an identifier that has been learned in advance from the explicit features of learning text data with a teacher signal to indicate whether anger emotions are expressed or not. Whether the emotion is expressed is identified from the explicit feature quantity of the target text data estimated by the explicit estimation unit.
本発明に係る感情推定装置は、未知語及び文脈等に影響されずに対象音声データまたは対象テキストデータ内に表現されている怒りの感情を推定することができるという効果を奏する。 The emotion estimation apparatus according to the present invention has an effect of being able to estimate an angry emotion expressed in the target speech data or the target text data without being affected by unknown words, contexts, and the like.
[発明のポイント]
本発明では、対象音声データまたは対象テキストデータ内に表現されている怒りの感情を推定するために、文の明示性、特に、一般対話状況下での発話内容の明示性に着目する。なお、発話内容の明示性とは、発話において主語や対象の省略や「それ」、「これ」などの指示語への置換がどれだけ生じているかを指す。これら省略や置換が生じていない場合を「発話内容の明示性が高い」状態とする。これら省略や置換が多く生じている場合を「発話内容の明示性が低い」状態とする。
[Points of Invention]
In the present invention, in order to estimate the feeling of anger expressed in the target speech data or the target text data, attention is paid to the explicitness of the sentence, in particular, the explicitness of the utterance contents in the general conversation situation. Note that the clarification of the utterance content refers to how much omission of the subject or object or substitution with an instruction word such as “it” or “this” occurs in the utterance. The case where these omissions and substitutions have not occurred is defined as a state where the utterance content is highly explicit. A case where many of these omissions and substitutions occur is defined as a state where the utterance content is not clearly specified.
怒っている発話内容と怒っていない発話内容の明示性に差異があることを示すために、以下の分析結果について説明する。 In order to show that there is a difference in clarification between angry utterance contents and non-angry utterance contents, the following analysis results will be described.
あるコールセンタにおける全発話数6679に対し人手により怒り発話(発話数3312)と平常発話(発話数3367)のラベルを付与する。ラベル付きの発話を用いてSVM(サポートベクターマシン)により識別器を学習する。χ二乗検定で有意水準1%で怒り発話に偏って現れた単語(unigram)のうち、サービス名や人名、数字、業務用語等を人手で除いた256個の単語からなる単語リストを生成する。このとき、発話に含まれる単語の出現回数を発話に含まれる全形態素数で割って正規化した値を素性として使用する。 The labels of anger utterance (utterance number 3312) and normal utterance (utterance number 3367) are manually assigned to the total number of utterances 6679 in a call center. The discriminator is learned by SVM (support vector machine) using the labeled utterance. A word list composed of 256 words obtained by manually removing service names, personal names, numbers, business terms, etc. from words (unigrams) that appear biased to angry utterances at a significance level of 1% by the chi-square test is generated. At this time, a normalized value obtained by dividing the number of appearances of the word included in the utterance by the total number of morphemes included in the utterance is used as the feature.
単語リストをパラメータとして、学習した識別器に分析対象発話を入力し、分析対象発話を、怒り発話と平常発話、または、怒られている発話と怒られていない発話、に識別する。なお、コールセンタの発話には、顧客の発話とオペレータの発話とが含まれるが、顧客の発話を怒り発話と平常発話とに分類し、オペレータの発話を怒られている発話と怒られていない発話とに分類する。なお、怒られている発話とは、顧客の怒り発話直後のオペレータの発話を意味し、それ以外の発話を怒られていない発話とする。以下、分析結果を示す。
日本語を母語とする話者が人と会話を行う際には、「あなたは」や「私は」などの単語は省略されることが多い。また、例えば何か対象を指す時、指示語への置換が生じたり、省略されたりすることも多い。これは日本語が可能な限り曖昧性を許す言語であり、対人コミュニケーションにおいて曖昧であることをよしとする日本の社会文化に起因する。しかし、話者の感情状態が「怒り」にある時は、曖昧性を排除し、怒りの対象をより明確にしようとする。例えば、平常時には「あなた」などの2人称名詞がコミュニケーション上表れることは少ないが、怒っている時は「あなた」という言葉は頻出する。同様に平常時には省略されて伝えられていた言葉も、怒っている時は明示されることが多い。例えば、子供が醤油をこぼしたときの母親の子供に対する発言としては、平常発話と怒り発話で以下のような違いが現れる。
平常発話:「こぼしたの?」
怒り発話:「あなたが醤油こぼしたの?」
本発明はこの現象に着目する。発話内容の明示性として「発話中にどれだけ省略や指示語への置換が生じているか」を算出し、発話内容明示性が高い時には話者が怒っていると推定する。
When a speaker whose mother tongue is Japanese speaks with people, words such as “you” and “I am” are often omitted. In addition, for example, when pointing to something, substitution to a directive word often occurs or is omitted. This is a language that allows Japanese language to be as ambiguous as possible, and is caused by Japanese social culture that is vague in interpersonal communication. However, when the speaker's emotional state is "anger", he tries to eliminate the ambiguity and make the target of anger clearer. For example, the second person noun such as “you” is rare in communication during normal times, but the word “you” appears frequently when angry. Similarly, words that were omitted and reported during normal times are often revealed when angry. For example, when a child spills soy sauce, the following difference appears between the normal speech and the angry speech as to the mother's child.
Normal utterance: “Did you spill?”
Anger utterance: “Did you spill soy sauce?”
The present invention focuses on this phenomenon. As the clarification of the utterance content, “how much omission or replacement with the instruction word occurs during the utterance” is calculated, and when the utterance content clarification is high, it is estimated that the speaker is angry.
以下、本発明の実施の形態について、詳細に説明する。 Hereinafter, embodiments of the present invention will be described in detail.
<感情推定装置100>
図1及び図2を用いて実施例1に係る感情推定装置100を説明する。感情推定装置100は、テキスト解析部130と、明示性推定部140と、識別器生成部150と、感情識別部160と、を備える。このような構成により、感情推定装置100は、対象テキストデータから怒りの感情を推定する。なお、対象テキストデータ中の感情を推定しようとする単位を感情推定単位と呼ぶ。感情推定単位は1文でも良いし、複数文でも良いし、文中の特定の区間でも良い。以下、各部の詳細を説明する。
<Emotion estimation apparatus 100>
The emotion estimation apparatus 100 according to the first embodiment will be described with reference to FIGS. 1 and 2. The emotion estimation device 100 includes a
<テキスト解析部130>
テキスト解析部130は、対象テキストデータを解析し、その対象テキストデータから得られる形態素解析結果と、その形態素解析結果に基づき対象テキストデータ内の係り受け関係を解析した構文解析結果と、を求める(s130)。例えば、テキスト解析部130は、形態素解析部131と構文解析部133を有する。以下、各部の詳細を説明する。
<
The
(形態素解析部131)
形態素解析部131は、対象テキストデータを入力とし、その対象テキストデータを形態素解析して、形態素解析結果を求め(s131)、それを構文解析部133と置換単語推定部143と明示単語検出部144へ出力する。なお、形態素とは言語的に意味を持つ最小単位のことであり、形態素解析とは、対象言語の文法の知識(文法のルールの集まり)や辞書(品詞等の情報付きの単語リスト)を情報源として用い、自然言語で書かれた文を形態素の列に分割し、それぞれの品詞を判別する作業である。なお、対象言語の文法の知識(文法のルールの集まり)や辞書(品詞等の情報付きの単語リスト)は図示しない記憶部に記憶されているものとする。形態素解析技術としては、従来技術(例えば、[長尾真(編)、「自然言語処理」、岩波講座ソフトウェア科学、第15巻、岩波書店、1996(以下「参考文献1」という)]記載の従来技術)を用いることができる。
(Morphological analyzer 131)
The
例えば、形態素解析部131は、対象テキストデータを形態素単位に分割し、分割した各形態素の品詞を判別し、各形態素に対して品詞を付加した対象テキストデータを形態素解析結果として出力する。例えば、「私は少女を見た」という対象テキストデータを形態素解析すると、図3に示す形態素解析結果が得られる。なお、図3中、「/」は形態素の区切りを表す。
For example, the
(構文解析部133)
構文解析部133は、形態素解析結果を入力とし、その形態素解析結果を構文解析して、構文解析結果を求め(s133)、省略格推定部141へ出力する。例えば、構文解析部133は、形態素解析結果から文節を求め、さらに、どの文節が主部であるとか、どの文節が述部であるとか、文節の係り受け関係を解析し、解析結果を形態素解析結果に付加して構文解析結果として求める。例えば、図3の形態素解析結果を構文解析すると、図4に示す構文解析結果(文節単位での係り受け関係及び主部/述部等を付加した形態素解析結果)が得られる。なお、構文解析技術としては、従来技術(例えば、参考文献1記載の従来技術)を用いることができる。
(Syntax analyzer 133)
The
<明示性推定部140>
明示性推定部140は、対象テキストデータから得られる形態素解析結果と、形態素解析結果に基づき対象テキストデータ中の係り受け関係を解析した構文解析結果と、を用いて、対象テキストデータ内にどの程度その意味内容が明示されているかを表す明示性特徴量を推定する(s140)。例えば、明示性推定部140は省略格推定部141と、置換単語推定部143と、明示単語検出部144と、明示単語リスト記憶部144aと、明示性特徴量算出部145と、を有する。以下、各部の詳細を説明する。
<
The
(省略格推定部141)
省略格推定部141は、構文解析結果を用いて、対象テキストデータ内に本来あるべき省略されている格を省略格として推定し(s141)、省略格の種類と各省略格の省略回数を明示性特徴量算出部145へ出力する。
(Omitted case estimation unit 141)
The
省略格を推定する方法としては、例えば格フレーム辞書を用いる手法がある。例えば、[河原大輔、黒橋禎夫、「自動構築した格フレーム辞書に基づく省略解析の大規模評価」、言語処理学会 第9回年次大会, pp.589-592, 2003.(以下、参考文献2という)]記載の従来技術により、格フレーム辞書を用いて省略格を推定することができる。また、自動構築した格フレーム辞書ではなく、既存の格フレーム辞書、例えば、IPAL動詞辞書[情報処理振興事業協会技術センター、計算機用日本語基本動詞辞書 IPAL, 1987 ]等の格フレーム辞書を用いて省略格を推定してもよい。このとき、格フレーム辞書は図示しない記憶部に予め記憶しておく。 As a method for estimating the omitted case, for example, there is a method using a case frame dictionary. For example, [Daisuke Kawahara, Ikuo Kurohashi, "Large-scale evaluation of omission analysis based on automatically constructed case frame dictionary", The 9th Annual Conference of the Language Processing Society, pp.589-592, 2003. 2))] can be estimated using a case frame dictionary. Also, instead of an automatically constructed case frame dictionary, an existing case frame dictionary, for example, a case frame dictionary such as the IPAL verb dictionary [Technology Center for Information Processing Promotion Corporation, Japanese Basic Verb Dictionary for Computers IPAL, 1987] is used. An abbreviated case may be estimated. At this time, the case frame dictionary is stored in advance in a storage unit (not shown).
なお、格とは文中における単語間の意味的関係性、特に、動詞と名詞(または名詞句)との間の意味的関係性を示す標識であり、格フレームとは動詞が取りうる格構造のパタンを表し、格フレーム辞書とは個々の動詞について格フレームを記載したデータベースである。なお、格には、表層的に決まる表層格(日本語における「ガ格」、「ヲ格」、「ニ格」等)と、表層だけでは決まらない、真の格を表す深層格があり、動詞の取りうる格を深層格で定義する場合には、(1)動作主格(Agent)、(2)経験者格(Experiencer)、(3)道具格(Instrument)、(4)対象格(Object)、(5)源泉格(Source)、(6)目標格(Goal)、(7)場所格(Location)、(8)時間格(Time)等が用いられる。 A case is a sign indicating a semantic relationship between words in a sentence, especially a verb and a noun (or noun phrase), and a case frame is a case structure of a verb. The case frame dictionary is a database in which case frames are described for individual verbs. There are two types of cases: surface cases that are determined by the surface layer (such as “ga”, “wo”, and “d”) in Japanese, and deep cases that represent the true case that are not determined solely by the surface, When defining the case that the verb can take in the deep case, (1) Action case (Agent), (2) Experiencer case (Experencer), (3) Instrument case (Object), (4) Object case (Object) ), (5) Source case (6), (6) Target case (Goal), (7) Location case (Location), (8) Time case (Time), etc. are used.
さらに、格フレーム辞書には、動詞が必ず取らなければならない必須格と取る場合もある任意格が定義されている。例えば、動詞「見る」であれば「動作主格」や「対象格」は必須格となり、「場所格」や「道具格」は任意格となる。省略格の推定とは、ある動詞に対する必須格が省略されているか否かを、格フレーム辞書を参照して、推定する処理を意味する。図5に示す構文解析結果に対して省略格の推定を行うと、「見る」の必須格である「対象格」と、「驚く」の必須格である「動作主格」が省略されているので、省略格の種類とその個数である(「対象格」、1個)、(「動作主格」、1個)を省略格推定結果として出力する。 Furthermore, the case frame dictionary defines an optional case that may be taken as an indispensable case that a verb must take. For example, in the case of the verb “see”, “action case” and “target case” are indispensable cases, and “location case” and “tool case” are arbitrary cases. The abbreviation estimation means processing for estimating whether or not an essential case for a certain verb is omitted with reference to a case frame dictionary. When the abbreviated case is estimated for the parsing result shown in FIG. 5, the “target case” that is an essential case of “see” and the “motion main case” that is an essential case of “surprise” are omitted. The type and number of abbreviations (“target case”, 1) and (“operation main case”, 1) are output as abbreviated case estimation results.
なお、格フレーム辞書には、他の要素、例えば、格に対する意味的な制約が定義されていてもよい。 In the case frame dictionary, other elements, for example, semantic restrictions on the case may be defined.
(置換単語推定部143)
置換単語推定部143は、形態素解析結果を用いて、対象テキストデータ内に本来あるべき単語の代わりに存在する単語を置換単語として推定し(s143)、置換単語の種類と各置換単語の出現回数を明示性特徴量算出部145へ出力する。例えば、置換されて用いられる単語(つまり、「置換単語」)として指示語を用いる。指示語とは現場にあるものや文脈上の要素を指し示す表現であり、例えば「これ・それ・あれ」等であり、本来あるべき単語の代わりとして用いられる。
(Replacement word estimation unit 143)
Using the morphological analysis result, the replacement
例えば置換単語推定部143は、図6に示す形態素解析結果を入力として、置換単語推定を行った場合、置換単語は指示語「これ」なので、置換単語の種類とその個数である(「これ」、1個)を置換単語推定結果として出力する。
For example, when the replacement
(明示単語検出部144及び明示単語リスト記憶部144a)
明示単語リスト記憶部144aは、平常発話において省略されやすい単語を予め記憶しておく。発明のポイントで説明したように、怒り発話時に偏って出現する単語が存在する。例えば、上述のように平常発話では一人称の「私」や「わたしら」二人称の「お宅」等が省略されやすいが、怒り発話では省略されづらい傾向がある。これらの傾向がある単語を明示単語として、予め明示単語リスト記憶部144aに記憶しておく(図7参照)。
(Explicit
The explicit word
明示単語検出部144は、形態素解析結果を入力とし、これを用いて、明示単語リスト記憶部144aを参照し、対象テキストデータ内に存在する明示単語を検出し(s144)、明示単語の種類とその個数を明示単語検出結果として出力する。
The explicit
例えば明示単語検出部144は、図6に示す形態素解析結果を入力とし、図7に示す明示単語リスト記憶部144aを用いて明示単語検出を行った場合、単語「私」が明示単語なので、明示単語の種類とその個数である(「私」、1個)を明示単語検出結果として出力する。
For example, when the explicit
(明示単語リストの作成方法)
なお、明示単語リスト記憶部144aに記憶する明示単語を代名詞(例えば人称代名詞「あなた」、「私」)等に限定してもよい。これは、代名詞等には、平常発話では省略されやすく、怒り発話では省略されづらい傾向があり、この傾向がドメイン等に影響されないためである。なお、ドメインとは、学習用テキストデータまたは対象テキストデータの取得される媒体(新聞、雑誌、コールセンタの通話の音声認識結果、TVの音声認識結果等)や分野(スポーツ記事、政治記事、経済記事、保険会社のコールセンタの通話の音声認識結果、通信会社のコールセンタの通話の音声認識結果等)等を意味する。この場合、代名詞等のみを対象とすることで、あらゆる単語を網羅する必要がなくなり、明示単語リストの作成のコストを削減できる。またドメイン別にリストを作るコストも削減される。
(How to create an explicit word list)
The explicit words stored in the explicit word
また、明示単語リスト記憶部144aに記憶する明示単語は、発明のポイントにおいて説明した方法等により決定してもよい。まず、サンプルテキストデータに対し人手により怒り発話と平常発話のラベルを付与する。次に、χ二乗検定で有意水準1%で怒り発話に偏って現れた単語(unigram)のうち、サービス名や人名、数字、業務用語等を人手で除いたものを明示単語とする。この明示単語のリストを明示単語リスト記憶部144aに予め記憶しておく。なお、χ二乗検定の有意水準は、予め実験等により適切な値を求めておき、適宜設定すればよい。
The explicit word stored in the explicit word
また、明示単語リスト記憶部144aには、格の種類毎に(つまり、「動作主各」や「対象格」等毎に)、平常発話では省略されやすく、怒り発話では省略されづらい傾向がある単語を明示単語として記憶しておいてもよい。その場合、前述した明示単語リスト作成時に予め格の種類毎に分類しておく。明示単語検出部144は、構文解析結果を利用して、明示単語リスト記憶部144aを参照し、単語と、その単語の格の種類とが一致する単語を明示単語として検出する。
Also, the explicit word
(明示性特徴量算出部145)
明示性特徴量算出部145は、省略格推定結果と置換単語推定結果と明示単語検出結果とを用いて、明示性特徴量を算出し(s145)、感情識別部160へ出力する。例えば、明示性特徴量算出部145は、省略格推定結果と置換単語推定結果と明示単語検出結果とを用いて得られる以下の値の何れか、または、それらの組合せを明示性特徴量として算出する。
(1)省略格毎の省略回数
(2)省略格毎の省略の有無(「0」「1」情報)
(3)省略格毎でなく、感情推定単位中に含まれる全ての省略格の合計省略回数
(4)感情推定単位における省略格の有無(「0」「1」情報)
(5)置換単語毎の出現回数
(6)置換単語毎の出現の有無(「0」「1」情報)
(7)置換単語毎でなく、感情推定単位中に含まれる全ての置換単語の合計出現回数
(8)感情推定単位における置換単語の出現の有無(「0」「1」情報)
(9)明示単語毎の出現回数
(10)明示単語毎の出現の有無(「0」「1」情報)
(11)明示単語毎でなく、感情推定単位中に含まれる全ての明示単語の合計出現回数
(12)感情推定単位における明示単語の出現の有無(「0」「1」情報)
なお、明示性特徴量として、(1)と(5)と(9)とのうちの何れか1つ以上の組合せを用いる場合には、省略格推定結果と置換単語推定結果と明示単語検出結果に対して、特別な処理を必要としないため、明示性特徴量算出部145を備えず、省略格推定部141、置換単語推定部143及び明示単語検出部144は、それぞれ省略格推定結果、置換単語推定結果及び明示単語検出結果を明示性特徴量として直接、感情識別部160へ出力する構成としてもよい。
(Explicit feature quantity calculation unit 145)
The explicit feature
(1) Number of omissions for each abbreviation (2) Presence / absence of omission for each abbreviation ("0""1" information)
(3) Total number of omissions of all abbreviations included in the emotion estimation unit instead of each abbreviation (4) Presence / absence of abbreviations in the emotion estimation unit (“0” “1” information)
(5) Number of appearances for each replacement word (6) Presence / absence of each replacement word (“0” “1” information)
(7) The total number of appearances of all replacement words included in the emotion estimation unit instead of each replacement word (8) Presence / absence of the replacement word in the emotion estimation unit (“0” “1” information)
(9) Number of appearances for each explicit word (10) Presence / absence of each explicit word (“0” and “1” information)
(11) The total number of appearances of all explicit words included in the emotion estimation unit, not every explicit word (12) Presence / absence of the explicit word in the emotion estimation unit (“0” “1” information)
When any one of (1), (5), and (9) is used as the explicit feature amount, the abbreviation estimation result, the replacement word estimation result, and the explicit word detection result On the other hand, since no special processing is required, the explicit feature
明示性特徴量の要素数を増やすと後述する感情識別部160における識別の精度は上がるが、計算量が増える。よって、適切な明示性特徴量の要素を選択するために、対象テキストデータに応じてサンプルテキストデータを用意し、実験等により明示性特徴量の要素を予め決定しておいてもよい。
Increasing the number of elements of the explicit feature value increases the accuracy of identification in the
<感情識別部160>
感情識別部160は、明示性特徴量を入力とし、後述する識別器生成部150において、予め学習された識別器を用いて、対象テキストデータ内に怒りの感情が表現されているか否かを、明示性推定部140で推定された対象テキストデータの明示性特徴量から識別する(s160)。
<
The
感情識別部160は、識別器の識別結果(「怒り」または「平常」)をそのまま感情推定装置100の推定結果として出力しても良いし、識別器がその識別結果に対する尤度も併せて出力する場合には以下のように推定結果を出力しても良い。(A)識別結果が「怒り」であって、かつ、尤度が第一閾値(例えば0.7)以上のときに、推定結果を「怒り」とし、(B)識別結果が「怒り」であって、かつ、尤度が第一閾値未満第二閾値(例えば0.3)以上のときに、推定結果を推定不能とし、(C)それ以外のとき(つまり、識別結果が「平常」のとき、または、尤度が第二閾値未満のとき)に、推定結果を「平常」とする。
The
<識別器生成部150>
識別器生成部150は、教師信号付きの学習用テキストデータの明示性特徴量を用いて識別器を生成する(図9のs150)。教師信号とは、対応する学習用テキストデータに怒りの感情が表現されているか否かを示す情報である。なお、人が各学習用テキストデータを見て、怒りの感情が表現されているか否かを判断し、各学習用テキストデータに教師信号を付加する。
<
The
識別器を生成する手法として機械学習手法がある。例えば、機械学習の学習アルゴリズムとしては様々なものを採用することができ、教師あり学習の線形判別法、SVM及びニューラルネット等を用いることができる。 There is a machine learning method as a method for generating a discriminator. For example, various learning algorithms for machine learning can be adopted, and a supervised learning linear discriminant method, SVM, neural network, or the like can be used.
<学習用テキストデータの明示性特徴量の算出方法>
図8及び図9を用いて識別器生成部150で用いる学習用テキストデータの明示性特徴量の算出方法を説明する。
<Calculation method of explicit feature quantity of text data for learning>
A method for calculating the explicit feature value of the text data for learning used in the
テキスト解析部130は、学習用テキストコーパス90から入力される学習用テキストデータを解析し、その学習用テキストデータから得られる形態素解析結果と、その形態素解析結果に基づき学習用テキストデータ内の係り受け関係を解析した構文解析結果とを求める(s130−2)。
The
明示性推定部140は、学習用テキストデータから得られる形態素解析結果と、その形態素解析結果に基づき学習用テキストデータ中の係り受け関係を解析した構文解析結果と、を用いて、学習用テキストデータ内にどの程度その意味内容が明示されているかを表す明示性特徴量を推定する(s140−2)。
The
つまり、特別な構成を設けずとも、対象テキストデータではなく、学習用テキストデータに基づき、前述のテキスト解析部130及び明示性推定部140において同様の処理を行うことで、識別器生成部150で用いる学習用テキストデータの明示性特徴量を取得することができる。
That is, the
<効果>
このような構成とすることにより、単語の意味情報を記録したデータベース(例えば感情関係語DB)を用いずに怒りの感情を推定することができる。よって、感情関係語DB等の作成コストを削減でき、未知語及び文脈等に影響されずに対象テキストデータ内に表現されている怒りの感情を頑健に推定することができる。
<Effect>
With such a configuration, an angry emotion can be estimated without using a database (for example, an emotion related word DB) in which word semantic information is recorded. Therefore, it is possible to reduce the creation cost of the emotion related word DB and the like, and it is possible to robustly estimate the anger emotion expressed in the target text data without being influenced by the unknown word and the context.
[変形例]
別装置等で対象テキストデータに対して予め形態素解析、構文解析等を済ませておき、感情推定装置100に対して、対象テキストデータの形態素解析結果と構文解析結果とが入力される場合には、感情推定装置100はテキスト解析部130を備えなくともよい。
[Modification]
When morphological analysis, syntax analysis, etc. are completed in advance on the target text data in another device or the like, and the morphological analysis result and syntax analysis result of the target text data are input to the emotion estimation device 100, The emotion estimation device 100 may not include the
明示性推定部140は、必要に応じて、省略格推定部141と置換単語推定部143と明示単語検出部144のうち少なくとも1つを備えればよい。例えば、明示性特徴量算出部145で説明した(1)〜(4)のうちの何れか、または、(1)〜(4)の組合せを明示性特徴量として算出する場合には、少なくとも省略格推定部141を備えればよい。(5)〜(8)のうちの何れか、または、(5)〜(8)の組合せを明示性特徴量として算出する場合には、少なくとも置換単語推定部143を備えればよい。(9)〜(12)のうちの何れか、または、(9)〜(12)の組合せを明示性特徴量として算出する場合には、少なくとも明示単語検出部144を備えればよい。なお、省略格推定部141を備えない場合には、構文解析結果が不要となるため、構文解析部133を備えなくともよく、明示単語検出部144を備えない場合には、明示単語リスト記憶部144aを備えなくともよい。
The
感情推定装置100は、必ずしも識別器生成部150を備えなくともよい。例えば、ある感情推定装置で学習し、生成した識別器を他の感情推定装置で用いる場合には、ある感情推定装置にのみ識別器生成部を備えればよい。
The emotion estimation device 100 does not necessarily include the
感情推定装置100は、対象音声データを入力としてもよい。その場合、テキスト解析部130の前段に図示しない音声認識部を設ける構成とする。さらに、図示しない音声認識部において、音声認識処理の過程において、形態素解析、構文解析を行う場合には、音声認識の結果として得られる対象テキストデータに対応する形態素解析結果、構文解析結果を明示性推定部140で用いる構成としてもよい。この場合も感情推定装置100はテキスト解析部130を備えなくともよい。
Emotion estimation device 100 may receive target audio data as input. In that case, a speech recognition unit (not shown) is provided in the preceding stage of the
<感情推定装置200>
図10及び図11を用いて実施例2に係る感情推定装置200を説明する。なお、実施例1と異なる部分のみ説明する。感情推定装置200は、音声認識部210と、テキスト解析部130と、明示性推定部240と、識別器生成部150と、感情識別部160と、を備える。テキスト解析部130、識別器生成部150及び感情識別部160の処理内容は実施例1と同様である。但し、テキスト解析部130で扱う対象テキストデータには後述する認識信頼度が付加されており、テキスト解析部130は認識信頼度付きの構文解析結果と形態素解析結果を出力する(図10参照)。また、識別器生成部150及び感情識別部160において処理する明示性特徴量は、この認識信頼度を利用して求められた値である。
<
An
<音声認識部210>
音声認識部210は、対象音声データを入力とし、対象音声データに対して音声認識処理を行い、対象テキストデータへ変換する。音声認識部210は、対象音声データから得られる対象テキストデータと、その対象テキストデータ内に含まれる単語毎の認識結果の信頼性を示す認識信頼度と、を求め(s210)、認識信頼度付きの対象テキストデータをテキスト解析部130へ出力する。なお、認識信頼度とは認識結果の尤もらしさの信頼性を示す値である。認識信頼度が高ければ認識結果が正しいと推測され、低ければ認識結果が誤っていると推測される。なお、音声認識技術としては、従来技術(例えば、[古井貞煕著、「音響・音声工学 (電子・情報工学入門シリーズ)」、近代科学社、1992(以下「参考文献3」という)]記載の従来技術)を用いることができる。対象音声データが話者別にステレオ録音されている場合はモノラル録音されている場合よりも音声認識が容易である。なお、モノラル録音の場合は、話者別に音声を識別するための手段と併用する。話者識別技術としては、従来技術(例えば、参考文献3記載の従来技術)を用いることができる。例えば、音声スペクトルを特徴量とし、GMM(Gaussian Mixture Model)を用いる方法などがある。
<
The
なお、音声認識処理過程において、形態素解析、構文解析を行う場合には、音声認識の結果として得られる対象テキストデータに対応する形態素解析結果、構文解析結果を明示性推定部240で用いる構成としてもよい。この場合も感情推定装置200はテキスト解析部130を備えなくともよい。
When performing morpheme analysis and syntax analysis in the speech recognition process, the
<明示性推定部240>
明示性推定部240は、認識信頼度付きの形態素解析結果と認識信頼度付きの構文解析結果との少なくとも一方を用いて、対象テキストデータ内にどの程度その意味内容が明示されているかを表す明示性特徴量を推定する(s240)。明示性推定部240は省略格推定部241と、置換単語推定部243と、明示単語検出部244と、明示性特徴量算出部245と、を有する。以下、詳細を説明する。
<
The
(省略格推定部241)
省略格推定部241は、認識信頼度付きの構文解析結果を入力とし、これを用いて、対象テキストデータ内に本来あるべき省略されている格を省略格として推定し(s141)、省略格推定結果を明示性特徴量算出部145へ出力する。
(Omitted case estimation unit 241)
The omitted
省略格推定部241は、例えば以下のようにして、省略格の推定を行う際に認識信頼度を組合せることで、誤りを含む音声認識結果に対しても頑健に省略格を推定することが可能になる。例えば、図5の対象テキストデータ中に動詞「見る」の認識信頼度が「0.8」で、動詞「驚く」の認識信頼度が「0.2」であったとする。
For example, the
(1)省略格推定部241は、認識信頼度がある閾値以上である動詞に対する省略格の種類とその省略格の省略回数を省略格推定結果として出力する。閾値は事前に定めておく。閾値を「0.5」としていれば、認識信頼度が「0.5」以上である動詞「見る」に対する省略格(対象格)のみを集計し、置換単語推定結果として(「対象格」、1個)を出力する。
(2)置換単語推定部243は、省略格の種類と、その省略格に対する動詞の認識信頼度の値の和を置換単語推定結果として出力する。この場合、(「対象格」、0.8)、(「動作主格」、0.2)を出力する。
(1) The
(2) The replacement
認識信頼度も絶対では無いので、認識信頼度が低いからといって必ずしも間違っているとは限らない。(1)のように閾値で単純に集計するのではなく、(2)のように集計することで、認識信頼度が低い動詞に対する省略格も推定結果に反映することができる。 Since the recognition reliability is not absolute, just because the recognition reliability is low does not necessarily mean that it is wrong. Rather than simply summing up with threshold values as in (1), by summing up as in (2), abbreviations for verbs with low recognition reliability can be reflected in the estimation results.
(置換単語推定部243)
置換単語推定部243は、認識信頼度付きの形態素解析結果を用いて、対象テキストデータ内に本来あるべき単語の代わりに存在する単語を置換単語として推定し(s243)、置換単語推定結果を明示性特徴量算出部145へ出力する。
(Replacement word estimation unit 243)
The replacement
置換単語推定部243は、例えば以下のようにして、置換単語の推定を行う際に認識信頼度を組合せることで、誤りを含む音声認識結果に対しても頑健に置換単語を推定することが可能になる。例えば、対象テキストデータ中に置換単語「それ」が2回出てきていたとし、1個目の「それ」の認識信頼度が「0.8」で2個目の「それ」の認識信頼度が「0.2」であったとする。
For example, the replacement
(1)置換単語推定部243は、認識信頼度がある閾値以上である置換単語の種類とその置換単語の出現回数を置換単語推定結果として出力する。閾値は事前に定めておく。閾値を「0.5」としていれば、認識信頼度が「0.5」以上である1個目の「それ」のみを集計し、置換単語推定結果として(「それ」、1個)を出力する。
(2)置換単語推定部243は、置換単語の種類と、その置換単語の認識信頼度の値の和を置換単語推定結果として出力する。この場合、(「それ」、1(=0.8+0.2))を出力する。
(1) The replacement
(2) The replacement
認識信頼度も絶対では無いので、認識信頼度が低いからといって必ずしも間違っているとは限らない。(1)のように閾値で単純に集計するのではなく、(2)のように集計することで、認識信頼度が低い置換単語も推定結果に反映することができる。
(明示単語検出部244)
明示単語検出部244は、認識信頼度付きの形態素解析結果を用いて、明示単語リスト記憶部144aを参照し、対象テキストデータ内に存在する明示単語を検出し(s244)、明示単語検出結果を明示性特徴量算出部145へ出力する。
Since the recognition reliability is not absolute, just because the recognition reliability is low does not necessarily mean that it is wrong. Rather than simply summing up with threshold values as in (1), replacement words with low recognition reliability can be reflected in the estimation results by summing up as in (2).
(Explicit word detection unit 244)
The explicit
明示単語検出部244は、例えば以下のようにして、明示単語の検出を行う際に認識信頼度を組合せることで、誤りを含む音声認識結果に対しても頑健に明示単語を検出することが可能になる。例えば、対象テキストデータ中に明示単語「あなた」が2回出てきていたとし、1個目の「あなた」の認識信頼度が「0.8」で2個目の「あなた」の認識信頼度が「0.2」であったとし、明示単語リスト記憶部114aには図7に示す明示単語リストが記憶されているものとする。
The explicit
(1)明示単語検出部244は、認識信頼度がある閾値以上である明示単語の種類とその明示単語の出現回数を明示単語検出結果として出力する。閾値は事前に定めておく。閾値を「0.5」としていれば、認識信頼度が「0.5」以上である1個目の「あなた」のみを集計し、明示単語検出結果として(「あなた」、1個)を出力する。
(2)明示単語検出部244は、明示単語の種類と、その明示単語の認識信頼度の値の和を明示単語検出結果として出力する。この場合、(「あなた」、1(=0.8+0.2))を出力する。
(1) The explicit
(2) The explicit
認識信頼度も絶対では無いので、認識信頼度が低いからといって必ずしも間違っているとは限らない。(1)のように閾値で単純に集計するのではなく、(2)のように集計することで、認識信頼度が低い明示単語も検出結果に反映することができる。 Since the recognition reliability is not absolute, just because the recognition reliability is low does not necessarily mean that it is wrong. Rather than simply summing up with threshold values as in (1), by summing up as in (2), explicit words with low recognition reliability can be reflected in the detection results.
(明示性特徴量算出部245)
明示性特徴量算出部245は、省略格推定結果と置換単語推定結果と明示単語検出結果とを用いて、明示性特徴量を算出し(s245)、感情識別部160へ出力する。例えば、明示性特徴量算出部245は、省略格推定結果と置換単語推定結果と明示単語検出結果とを用いて得られる以下の値の何れか、または、それらの組合せを明示性特徴量として算出する。
(Explicit feature calculation unit 245)
The explicit feature
(1’)省略格毎の省略回数、または、各省略格に対応する動詞の認識信頼度の値の和
(2)省略格毎の省略の有無(「0」「1」情報)
(3’)省略格毎でなく、感情推定単位中に含まれる全ての省略格の合計省略回数、または、感情推定単位中に含まれる全ての省略格に対応する動詞の認識信頼度の値の和
(4)感情推定単位における省略格の有無(「0」「1」情報)
(5’)置換単語毎の出現回数、または、置換単語毎の認識信頼度の値の和
(6)置換単語毎の出現の有無(「0」「1」情報)
(7’)置換単語毎でなく、感情推定単位中に含まれる全ての置換単語の合計出現回数、または、感情推定単位中に含まれる全ての置換単語の認識信頼度の値の和
(8)感情推定単位における置換単語の出現の有無(「0」「1」情報)
(9’)明示単語毎の出現回数、または、明示単語毎の認識信頼度の値の和
(10)明示単語毎の出現の有無(「0」「1」情報)
(11’)明示単語毎でなく、感情推定単位中に含まれる全ての明示単語の合計出現回数、または、感情推定単位中に含まれる全ての明示単語の認識信頼度の値の和
(12)感情推定単位における明示単語の出現の有無(「0」「1」情報)
なお、(1’)、(3’)、(5’)、(7’)、(9’)、(11’)を用いる点が、明示性特徴量算出部145と異なる。
(1 ′) Number of omissions for each abbreviation, or sum of recognition reliability values of verbs corresponding to each abbreviation (2) Presence / absence of omission for each abbreviation (“0” “1” information)
(3 ′) The total number of omissions of all abbreviations included in the emotion estimation unit, not the abbreviations, or the recognition reliability value of the verb corresponding to all abbreviations included in the emotion estimation unit Sum (4) Presence or absence of abbreviation in emotion estimation unit ("0""1" information)
(5 ′) Number of occurrences for each replacement word or sum of recognition reliability values for each replacement word (6) Presence / absence of each replacement word (“0” “1” information)
(7 ′) The total number of appearances of all replacement words included in the emotion estimation unit, or the sum of recognition reliability values of all replacement words included in the emotion estimation unit, instead of each replacement word (8) Presence / absence of replacement word in emotion estimation unit ("0""1" information)
(9 ') Number of appearances for each explicit word or the sum of recognition reliability values for each explicit word (10) Presence / absence of each explicit word ("0""1" information)
(11 ′) The total number of appearances of all the explicit words included in the emotion estimation unit, or the sum of the recognition reliability values of all the explicit words included in the emotion estimation unit, not every explicit word (12) Presence / absence of explicit word in emotion estimation unit ("0""1" information)
Note that (1 ′), (3 ′), (5 ′), (7 ′), (9 ′), and (11 ′) are different from the explicit feature
<学習用テキストデータの明示性特徴量の算出方法>
図12及び図13を用いて識別器生成部150で用いる学習用テキストデータの明示性特徴量の算出方法を説明する。
<Calculation method of explicit feature quantity of text data for learning>
A method for calculating the explicit feature amount of the text data for learning used in the
音声認識部210は、学習用音声コーパス91から入力される学習用音声データに対して音声認識処理を行い、学習用テキストデータへ変換する。音声認識部210は、学習用音声データから得られる学習用テキストデータと、その学習用テキストデータ内に含まれる単語毎の認識結果の信頼性を示す認識信頼度と、を求め(s210−2)、認識信頼度付きの学習用テキストデータをテキスト解析部130へ出力する。
The
テキスト解析部130は、音声認識部210から入力される認識信頼度付き学習用テキストデータを解析し、その学習用テキストデータから得られる認識信頼度付き形態素解析結果と、その形態素解析結果に基づき学習用テキストデータ内の係り受け関係を解析した認識信頼度付き構文解析結果とを求める(s130−2)。
The
明示性推定部140は、学習用テキストデータから得られる認識信頼度付き形態素解析結果と、その形態素解析結果に基づき学習用テキストデータ中の係り受け関係を解析した認識信頼度付き構文解析結果と、を用いて、学習用テキストデータ内にどの程度その意味内容が明示されているかを表す明示性特徴量を推定する(s240−2)。
The
つまり、特別な構成を設けずとも、対象音声データではなく、学習用音声データに基づき、前述の音声認識部210、テキスト解析部130及び明示性推定部240において同様の処理を行うことで、識別器生成部150で用いる学習用テキストデータの明示性特徴量を取得することができる。
That is, even if no special configuration is provided, identification is performed by performing the same processing in the
<効果>
このような構成により実施例1と同様の効果を得ることができる。さらに、認識信頼度を利用することで、誤りを含む音声認識結果に対しても頑健に明示性の推定が可能となる。
<Effect>
With such a configuration, the same effect as in the first embodiment can be obtained. Further, by using the recognition reliability, it is possible to robustly estimate the explicitness even for the speech recognition result including an error.
韻律情報は感情の識別に有効であることは一般的に知られている。そこで、入力が音声データの場合、実施例2の感情推定装置200に、声の高さや声の大きさ等といった韻律情報を組合せて感情を推定してもよい。
It is generally known that prosodic information is effective in identifying emotions. Therefore, when the input is voice data, the
実施例3では、対象音声データのピッチやパワー等を計算し、それらの平均値や最大・最小値・分散等、さらに、それらの動的特徴量ΔやΔΔの値等を韻律的特徴量として用いる。これらの韻律的特徴量と明示性特徴量を組合せて、感情識別部において感情を識別する際に利用する。このような構成により、より推定精度を上げることができる。 In the third embodiment, the pitch, power, and the like of the target audio data are calculated, and the average value, maximum / minimum value, variance, and the like thereof, and the dynamic feature value Δ and the value of ΔΔ are used as prosodic feature values. Use. These prosodic feature values and explicit feature values are used in combination to identify emotions in the emotion identification unit. With such a configuration, the estimation accuracy can be further increased.
<感情推定装置300>
図10及び図11を用いて実施例3に係る感情推定装置300を説明する。なお、実施例2と異なる部分のみ説明する。感情推定装置300は、音声認識部210と、テキスト解析部130と、明示性推定部240と、識別器生成部350と、感情識別部360とに加え、さらに図10及び図12中、破線で示す韻律的特徴量算出部320と、を備える。音声認識部210と、テキスト解析部130、明示性推定部240の処理内容は実施例2と同様である。
<Emotion estimation device 300>
An emotion estimation apparatus 300 according to the third embodiment will be described with reference to FIGS. 10 and 11. Only parts different from the second embodiment will be described. The emotion estimation device 300 includes a
<韻律的特徴量算出部320>
韻律的特徴量算出部320は、対象音声データを用いて、その韻律的特徴量を算出する(図11中、破線で示すs320)。韻律的特徴量を算出する技術としては、従来技術(例えば、参考文献3記載の従来技術)を用いることができる。韻律的特徴量としてピッチ(声の高さ)やパワー(声の大きさ)等を利用する。例えば、以下の値の何れか、または、それらの組合せを韻律的特徴量として算出する。
(A):ピッチの平均値
(B):ピッチの最大値
(C):ピッチの分散値
(D):パワーの平均値
(E):パワーの最大値
(F):パワーの分散値
(G):(A)〜(F)の何れかの増分Δ
(H):(G)の増分ΔΔ
なお、(G)や(H)を用いることで急峻な立ち上がりなど変動の大きさを捉えることができる。明示性特徴量と同様に、韻律的特徴量の要素数を増やすと後述する感情識別部360における識別の精度は上がるが、計算量も増える。よって、実験等により韻律的特徴量の要素を予め決定しておいてもよい。
<Prosodic feature
The prosodic feature
(A): Average value of pitch (B): Maximum value of pitch (C): Dispersion value of pitch (D): Average value of power (E): Maximum value of power (F): Dispersion value of power (G ): Any increment Δ of (A) to (F)
(H): Increment ΔΔ of (G)
Note that by using (G) and (H), the magnitude of fluctuation such as a steep rise can be captured. As with the explicit feature value, increasing the number of elements of the prosodic feature value increases the accuracy of discrimination in the
<感情識別部360>
感情識別部360は、学習用テキストデータの明示性特徴量に加え、学習用テキストデータに対応する学習用音声データの韻律的特徴量から予め学習された識別器を用いて、対象音声データ内に怒りの感情が表現されているか否かを、明示性推定部240で推定された明示性特徴量と韻律的特徴量算出部320で推定された韻律的特徴量とから識別し(s360)、識別結果を感情推定装置300の推定結果として出力する。
<
The
<識別器生成部350>
識別器生成部350は、教師信号付きの学習用テキストデータの明示性特徴量に加え、教師信号付きの学習用テキストデータに対応する学習用音声データの韻律的特徴量から識別器を学習し、生成する(図13のs350)。なお、教師信号とは、対応する学習用テキストデータ及び学習用音声データに怒りの感情が表現されているか否かを示す情報である。実施例3では、明示性特徴量に加え、韻律的特徴量を考慮するため、人が各学習用音声データを聴き、さらに、人が学習用テキストデータを見て、学習用テキストデータ及び学習用音声データに怒りの感情が表現されているか否かを総合的に判断し、各学習用テキストデータに教師信号を付加する。
<Identifier generation unit 350>
The discriminator generation unit 350 learns a discriminator from prosodic feature quantities of learning speech data corresponding to learning text data with a teacher signal in addition to the explicit feature quantity of learning text data with a teacher signal, It is generated (s350 in FIG. 13). The teacher signal is information indicating whether or not an angry emotion is expressed in the corresponding learning text data and learning voice data. In the third embodiment, in order to consider prosodic feature values in addition to explicit feature values, a person listens to each learning speech data, and a person looks at learning text data to learn text data and learning data. It is comprehensively determined whether or not an angry emotion is expressed in the voice data, and a teacher signal is added to each learning text data.
<学習用テキストデータの明示性特徴量の算出方法>
図12及び図13を用いて識別器生成部350で用いる学習用音声データの韻律的特徴量と学習用テキストデータの明示性特徴量の算出方法を説明する。
<Calculation method of explicit feature quantity of text data for learning>
A method of calculating prosodic feature quantities of learning speech data and explicit feature quantities of learning text data used in the discriminator generation unit 350 will be described with reference to FIGS. 12 and 13.
韻律的特徴量算出部320は、学習用音声コーパス91から入力される学習用音声データを用いて、その韻律的特徴量を算出し(図12中、破線で示すs320−2)、識別器生成部350へ出力する。
The prosodic feature
実施例2と同様の処理(s210−2〜s240−2)によって、学習用テキストデータの明示性特徴量を推定し、識別器生成部350へ出力する。 By the same processing (s210-2 to s240-2) as in the second embodiment, the explicit feature amount of the text data for learning is estimated and output to the discriminator generating unit 350.
つまり、特別な構成を設けずとも、対象音声データではなく、学習用音声データに基づき、前述の韻律的特徴量算出部320、音声認識部210、テキスト解析部130及び明示性推定部140において同様の処理を行うことで、識別器生成部350で用いる学習用音声データの韻律的特徴量と学習用テキストデータの明示性特徴量を取得することができる。
That is, even if no special configuration is provided, the same applies to the prosodic feature
<効果>
このような構成により、韻律的特徴量を考慮することができ、さらに識別性能を向上させることが可能になる。
<Effect>
With such a configuration, prosodic feature quantities can be taken into account, and the discrimination performance can be further improved.
[変形例]
実施例3において韻律的特徴量算出部320において、対象音声データの韻律的特徴量を算出しているが、音声認識処理の過程において、韻律的特徴量を算出できる場合には、別途、韻律的特徴量算出部320を設けずに、音声認識部210の一部としてもよい。
[Modification]
In the third embodiment, the prosodic feature
実施例3では、音声認識部210において、認識信頼度付き学習用テキストデータを出力しているが、認識信頼度が付加されていない学習用テキストデータを用いてもよい。その場合には、明示性推定部240に代えて実施例1の明示性推定部140を用いればよい。
In the third embodiment, the
近年、企業の抱えるコールセンタに集まる顧客からの要望や不満といった生の声から、企業にとって何か有益な情報を得ようとする動きが盛んである。またコールセンタは企業の顔という機能としても重要視され始め、顧客が企業に対し抱くイメージを向上させるために、コールセンタのサービスの質の向上も企業は力を入れている。そのような中で、顧客が怒っているクレーム通話を自動で見つけ出す技術がこれまで以上に望まれている。そこで感情推定装置200を利用したモニタリングシステムについて説明する。
In recent years, there has been a lot of movement to obtain useful information for companies based on raw voices such as requests and dissatisfaction from customers gathering at call centers held by companies. In addition, call centers have started to be regarded as important as corporate functions, and companies are also making efforts to improve the quality of service at call centers in order to improve the image customers have about companies. Under such circumstances, a technique for automatically finding a complaint call in which a customer is angry is desired more than ever. Therefore, a monitoring system using the
<モニタリングシステム400>
図14に示すようにモニタリングシステム400は、前述の感情推定装置200と、入力部480と、出力部490と、を備える。モニタリングシステム400は、コールセンタ等に設置され、顧客からコールセンタへの着信や、コールセンタから顧客への発信をモニタリングし、クレーム通話を検出する。
<Monitoring system 400>
As shown in FIG. 14, the monitoring system 400 includes the
感情推定装置200は、入力部480を介して、対象音声データC1,C2,…,CN(但し、Nは1以上の整数)を受け取る。入力部480は、例えば、音声入力端子等である。なお、入力部480は、コールセンタ内に設置された電話機11,12,…,1Nと接続されており、モニタリングシステム400は、リアルタイムで、顧客とオペレータの通話内容を対象音声データとして受け取ることができる。
感情推定装置200は、対象音声データを予め定めた感情推定単位に分割し、感情推定単位毎に感情を推定し、電話機の識別子P1,P2,…,PNとその推定結果E1,E2,…,ENを随時、出力部490に出力する。
The
出力部490は、例えば、ディスプレイ等である。出力部490は、電話機の識別子とその推定結果を表示する(図15参照)。
The
<効果>
このような構成とすることによって、コールセンタの管理者等は、リアルタイムでオペレータの応対状況を監視することができ、クレームの発生を迅速に検出して対応することができる。
<Effect>
With such a configuration, the call center manager or the like can monitor the operator's response status in real time, and can quickly detect and respond to the occurrence of a complaint.
[変形例1]
<モニタリングシステム500>
図16に示すようにモニタリングシステム500は、前述の感情推定装置200と、入力部580と、出力部590と、を備える。モニタリングシステム500は、コールセンタ等に設置され、顧客からコールセンタへの着信や、コールセンタから顧客への発信を通話データベース2から取得し、通話記録等からクレーム通話を検出する。
[Modification 1]
<Monitoring system 500>
As shown in FIG. 16, the monitoring system 500 includes the
また、入力部580は、データ転送インターフェース等である。例えば、コールセンタの通話記録等を全て記憶する通話データベース2と入力部480とを接続することで、モニタリングシステム500は、記憶された通話記録を対象音声データとして受け取ることができる。なお、通話データベース2に記憶される際に、対象音声データには、その対象音声データに対応する電話機の識別子、オペレータの識別子、対象音声データの開始時刻と、対象音声データの終了時刻等が付加されるものとする。
The
感情推定装置200は、1通話分の対象音声データの感情を推定し、電話機の識別子、オペレータの識別子、対象音声データの開始時刻と、対象音声データの終了時刻、その推定結果等を、出力部590に出力する。
The
出力部590は、例えば、ディスプレイやプリンタ等であり、画面や紙に受け取ったデータ(電話機の識別子、オペレータの識別子、対象音声データの開始時刻と、対象音声データの終了時刻、その推定結果等)を表示する(図17参照)。
The
<効果>
大量の通話記録を聴き起こしながらクレーム通話を探索する作業は非常に大きな人的コストがかかるが、このような構成により、自動的にクレーム通話を検出することができ、出力結果に基づき、通話データベースから容易にクレーム通話を探索することができる。このように探索したクレーム通話を分析することで、顧客の強い要望や不満、商品・サービスの不具合や問題点の発見につながる。またクレーム通話を引き起こすようなオペレータ応対の問題点の発見につながる。
<Effect>
Searching for a claim call while listening to a large number of call records requires a very large human cost, but with such a configuration, a claim call can be automatically detected, and a call database is created based on the output result. Can easily search for a claim call. Analyzing the complaint calls searched in this way leads to the discovery of strong customer demands and dissatisfactions, malfunctions and problems with products and services. It also leads to the discovery of problems with operator interaction that cause complaint calls.
[その他の変形例]
感情推定装置として、実施例3の感情推定装置300や実施例1の感情推定装置の前段に音声認識部を設けた装置を用いてもよい。
[Other variations]
As the emotion estimation device, a device provided with a voice recognition unit in front of the emotion estimation device 300 of the third embodiment or the emotion estimation device of the first embodiment may be used.
<プログラム及び記録媒体>
上述した感情推定装置やモニタリングシステムは、コンピュータにより機能させることもできる。この場合はコンピュータに、目的とする装置(各実施例で図に示した機能構成をもつ装置)として機能させるためのプログラム、またはその処理手順(各実施例で示したもの)の各過程をコンピュータに実行させるためのプログラムを、CD−ROM、磁気ディスク、半導体記憶装置などの記録媒体から、あるいは通信回線を介してそのコンピュータ内にダウンロードし、そのプログラムを実行させればよい。
<Program and recording medium>
The emotion estimation apparatus and monitoring system described above can also be functioned by a computer. In this case, the program for causing the computer to function as the target device (the device having the functional configuration shown in the drawings in each embodiment) or each process of the processing procedure (shown in each embodiment) is processed by the computer. A program to be executed by the computer may be downloaded from a recording medium such as a CD-ROM, a magnetic disk, or a semiconductor storage device or via a communication line into the computer, and the program may be executed.
90 学習用テキストコーパス
91 学習用音声コーパス
100,200,300 感情推定装置
210 音声認識部
320 韻律的特徴量算出部
130 テキスト解析部
131 形態素解析部
133 構文解析部
140,240 明示性推定部
141,241 省略格推定部
143,243 置換単語推定部
144,244 明示単語検出部
144a 明示単語リスト記憶部
145,245 明示性特徴量算出部
150,350 識別器生成部
160,360 感情識別部
400,500 モニタリングシステム
480,580 入力部
490,590 出力部
90
Claims (10)
怒りの感情が表現されているか否かを示す教師信号付きの学習用テキストデータの明示性特徴量から予め学習された識別器を用いて、前記対象テキストデータ内に怒りの感情が表現されているか否かを、前記明示性推定部で推定された前記対象テキストデータの明示性特徴量から識別する感情識別部と、を備え、
前記明示性特徴量は、
(1)省略格毎の省略回数
(2)省略格毎の省略の有無
(3)省略格毎でなく、感情推定単位中に含まれる全ての省略格の合計省略回数
(4)感情推定単位における省略格の有無
(5)置換単語毎の出現回数
(6)置換単語毎の出現の有無
(7)置換単語毎でなく、感情推定単位中に含まれる全ての置換単語の合計出現回数
(8)感情推定単位における置換単語の出現の有無
(9)明示単語毎の出現回数
(10)明示単語毎の出現の有無
(11)明示単語毎でなく、感情推定単位中に含まれる全ての明示単語の合計出現回数
(12)感情推定単位における明示単語の出現の有無
の何れか、または、それらの組合せである、
感情推定装置。 Using at least one of the morphological analysis result and the syntax analysis result of the target text data, and an explicitness estimation unit that estimates an explicit feature amount indicating how much the semantic content is clearly indicated in the target text data;
Whether anger emotion is expressed in the target text data using a discriminator learned in advance from the explicit feature quantity of the text data for learning with a teacher signal indicating whether anger emotion is expressed An emotion identifying unit that identifies whether or not from the explicit feature quantity of the target text data estimated by the explicit estimation unit ,
The explicit feature amount is:
(1) Number of omissions for each abbreviation
(2) Presence / absence of each abbreviation
(3) The total number of omissions for all abbreviations included in the emotion estimation unit, not for each abbreviation
(4) Presence or absence of abbreviations in emotion estimation units
(5) Number of occurrences for each replacement word
(6) Presence / absence of each replacement word
(7) The total number of occurrences of all replacement words included in the emotion estimation unit, not for each replacement word
(8) Presence or absence of replacement word in emotion estimation unit
(9) Number of appearances for each explicit word
(10) Presence / absence of each explicit word
(11) The total number of appearances of all explicit words included in the emotion estimation unit, not for each explicit word
(12) Presence of explicit words in emotion estimation units
Or any combination thereof.
Emotion estimation device.
前記明示性推定部は、
前記構文解析結果を用いて、前記対象テキストデータ内に本来あるべき省略されている格を推定する省略格推定部を有する、
感情推定装置。 The emotion estimation device according to claim 1,
The explicitness estimation unit includes:
Using the parsing result, and having an abbreviated case estimation unit for estimating a case that should be omitted in the target text data.
Emotion estimation device.
前記明示性推定部は、
前記形態素解析結果を用いて、前記対象テキストデータ内に本来あるべき単語の代わりに存在する単語を推定する置換単語推定部を有する、
感情推定装置。 The emotion estimation apparatus according to claim 1 or 2, wherein
The explicitness estimation unit includes:
Using the morphological analysis result, and having a replacement word estimation unit that estimates a word that exists in place of the word that should originally exist in the target text data,
Emotion estimation device.
前記明示性推定部は、
平常発話において、省略されやすい単語を予め記憶しておく明示単語リスト記憶部と、
前記形態素解析結果を用いて、前記明示単語リスト記憶部を参照し、前記対象テキストデータ内に存在する明示単語を検出する明示単語検出部と、を有する、
感情推定装置。 The emotion estimation apparatus according to any one of claims 1 to 3,
The explicitness estimation unit includes:
In a normal utterance, an explicit word list storage unit that stores in advance words that are easily omitted;
Using the morpheme analysis result, referring to the explicit word list storage unit, and having an explicit word detection unit for detecting an explicit word existing in the target text data,
Emotion estimation device.
前記明示性推定部は、
省略格推定部の推定結果と、置換単語推定部の推定結果と、明示単語検出部の検出結果とのうち少なくとも1つを用いて、前記明示性特徴量を算出する明示性特徴量算出部をさらに有する、
感情推定装置。 The emotion estimation apparatus according to any one of claims 2 to 4,
The explicitness estimation unit includes:
An explicit feature quantity calculation unit for calculating the explicit feature quantity using at least one of an estimation result of the abbreviation case estimation unit, an estimation result of the replacement word estimation unit, and a detection result of the explicit word detection unit; In addition,
Emotion estimation device.
対象音声データに対して音声認識処理を行い、その対象音声データから得られる対象テキストデータと、その対象テキストデータ内に含まれる単語毎の認識結果の信頼性を示す認識信頼度と、を求める音声認識部をさらに備え、
前記明示性推定部は、前記認識信頼度付きの前記対象テキストデータの前記形態素解析結果と前記構文解析結果との少なくとも一方を用いて、前記対象テキストデータ内にどの程度その意味内容が明示されているかを表す明示性特徴量を推定する、
感情推定装置。 The emotion estimation apparatus according to any one of claims 1 to 5,
Speech that performs speech recognition processing on the target speech data and obtains the target text data obtained from the target speech data and the recognition reliability indicating the reliability of the recognition result for each word included in the target text data A recognition unit,
The explicitness estimation unit uses at least one of the morphological analysis result and the syntax analysis result of the target text data with the recognition reliability, and how much the semantic content is clearly specified in the target text data. Estimating explicit features that represent
Emotion estimation device.
前記対象音声データを用いて、その韻律的特徴量を算出する韻律的特徴量算出部をさらに備え、
前記感情識別部は、前記学習用テキストデータの明示性特徴量に加え、前記学習用テキストデータに対応する学習用音声データの韻律的特徴量を利用して予め学習された識別器を用いて、前記対象音声データ内に怒りの感情が表現されているか否かを、前記明示性推定部で推定された明示性特徴量と前記韻律的特徴量算出部で算出された韻律的特徴量とから識別する、
感情推定装置。 The emotion estimation apparatus according to claim 6,
Using the target speech data, further comprising a prosodic feature quantity calculating unit for calculating the prosodic feature quantity;
In addition to the explicit feature amount of the learning text data, the emotion discriminating unit uses a discriminator previously learned by using the prosodic feature amount of the learning speech data corresponding to the learning text data, Whether anger emotion is expressed in the target speech data is identified from the explicit feature amount estimated by the explicitness estimation unit and the prosodic feature amount calculated by the prosodic feature amount calculation unit To
Emotion estimation device.
感情識別部が、怒りの感情が表現されているか否かを示す教師信号付きの学習用テキストデータの明示性特徴量から予め学習された識別器を用いて、前記対象テキストデータ内に怒りの感情が表現されているか否かを、前記明示性推定ステップで推定された前記対象テキストデータの明示性特徴量から識別する感情識別ステップと、を備え、
前記明示性特徴量は、
(1)省略格毎の省略回数
(2)省略格毎の省略の有無
(3)省略格毎でなく、感情推定単位中に含まれる全ての省略格の合計省略回数
(4)感情推定単位における省略格の有無
(5)置換単語毎の出現回数
(6)置換単語毎の出現の有無
(7)置換単語毎でなく、感情推定単位中に含まれる全ての置換単語の合計出現回数
(8)感情推定単位における置換単語の出現の有無
(9)明示単語毎の出現回数
(10)明示単語毎の出現の有無
(11)明示単語毎でなく、感情推定単位中に含まれる全ての明示単語の合計出現回数
(12)感情推定単位における明示単語の出現の有無
の何れか、または、それらの組合せである、
感情推定方法。 The explicitness estimation unit estimates an explicit feature amount indicating how much the semantic content is clearly indicated in the target text data by using at least one of the morphological analysis result and the syntax analysis result of the target text data. An explicitness estimation step;
An anger emotion is included in the target text data using a discriminator previously learned from the explicit feature quantity of the text data for learning with a teacher signal indicating whether the anger emotion is expressed by the emotion identification unit An emotion identification step that identifies whether or not is expressed from the explicit feature quantity of the target text data estimated in the explicitness estimation step,
The explicit feature amount is:
(1) Number of omissions for each abbreviation (2) Presence / absence of omission for each abbreviation (3) Total number of omissions of all abbreviations included in the emotion estimation unit instead of each abbreviation (4) In the emotion estimation unit Presence / absence of abbreviation (5) Number of occurrences for each replacement word (6) Presence / absence for each replacement word (7) Total number of occurrences of all replacement words included in the emotion estimation unit instead of each replacement word (8) Presence / absence of replacement word in emotion estimation unit (9) Number of appearances for each explicit word (10) Presence / absence for each explicit word (11) Not all explicit words but all explicit words included in emotion estimation unit Total number of appearances (12) Any of presence / absence of explicit word in emotion estimation unit, or a combination thereof,
Emotion estimation method.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010262527A JP5496863B2 (en) | 2010-11-25 | 2010-11-25 | Emotion estimation apparatus, method, program, and recording medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010262527A JP5496863B2 (en) | 2010-11-25 | 2010-11-25 | Emotion estimation apparatus, method, program, and recording medium |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012113542A JP2012113542A (en) | 2012-06-14 |
JP5496863B2 true JP5496863B2 (en) | 2014-05-21 |
Family
ID=46497684
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010262527A Expired - Fee Related JP5496863B2 (en) | 2010-11-25 | 2010-11-25 | Emotion estimation apparatus, method, program, and recording medium |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5496863B2 (en) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5840186B2 (en) * | 2013-09-26 | 2016-01-06 | 日本電信電話株式会社 | Emotion search device, method and program |
JP6617053B2 (en) * | 2016-02-29 | 2019-12-04 | Kddi株式会社 | Utterance semantic analysis program, apparatus and method for improving understanding of context meaning by emotion classification |
JP6635004B2 (en) * | 2016-11-04 | 2020-01-22 | トヨタ自動車株式会社 | Emotion estimation method |
JP7030062B2 (en) * | 2016-12-28 | 2022-03-04 | 本田技研工業株式会社 | Information processing system and information processing equipment |
JP6866715B2 (en) * | 2017-03-22 | 2021-04-28 | カシオ計算機株式会社 | Information processing device, emotion recognition method, and program |
JP6943158B2 (en) * | 2017-11-28 | 2021-09-29 | トヨタ自動車株式会社 | Response sentence generator, method and program, and voice dialogue system |
KR102110791B1 (en) * | 2018-02-27 | 2020-05-14 | 광주과학기술원 | Emotion recognition system and method thereof |
JP6327777B1 (en) * | 2018-03-22 | 2018-05-23 | 株式会社Zaizen | Classification information generating apparatus, classification information generating method, and program |
WO2020111074A1 (en) * | 2018-11-26 | 2020-06-04 | 株式会社エー・アンド・ビー・コンピュータ | E-mail classification device, e-mail classification method, and computer program |
US12026076B2 (en) * | 2019-09-13 | 2024-07-02 | Rimini Street, Inc. | Method and system for proactive client relationship analysis |
CN113468983A (en) * | 2021-06-15 | 2021-10-01 | 杭州海康威视系统技术有限公司 | Emotion analysis method, device, equipment and storage medium |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005235066A (en) * | 2004-02-23 | 2005-09-02 | Seiko Epson Corp | Device, method and program of image correction |
-
2010
- 2010-11-25 JP JP2010262527A patent/JP5496863B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2012113542A (en) | 2012-06-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5496863B2 (en) | Emotion estimation apparatus, method, program, and recording medium | |
US11521600B2 (en) | Systems and method to resolve audio-based requests in a networked environment | |
US10192545B2 (en) | Language modeling based on spoken and unspeakable corpuses | |
US11037553B2 (en) | Learning-type interactive device | |
US9483582B2 (en) | Identification and verification of factual assertions in natural language | |
RU2699399C2 (en) | System and method for detecting orphan utterances | |
CN109192202B (en) | Voice safety recognition method, device, computer equipment and storage medium | |
US8145482B2 (en) | Enhancing analysis of test key phrases from acoustic sources with key phrase training models | |
US11238227B2 (en) | Word lattice augmentation for automatic speech recognition | |
US7788095B2 (en) | Method and apparatus for fast search in call-center monitoring | |
US20230146144A1 (en) | Digital image classification and annotation | |
US11321675B2 (en) | Cognitive scribe and meeting moderator assistant | |
US11120802B2 (en) | Diarization driven by the ASR based segmentation | |
US11822888B2 (en) | Identifying relational segments | |
US11170763B2 (en) | Voice interaction system, its processing method, and program therefor | |
WO2010023938A1 (en) | Text mining apparatus, text mining method and computer-readable recording medium | |
Kopparapu | Non-linguistic analysis of call center conversations | |
JP2020077159A (en) | Interactive system, interactive device, interactive method, and program | |
WO2020210561A1 (en) | Unsupervised adaptation of sentiment lexicon | |
US10468031B2 (en) | Diarization driven by meta-information identified in discussion content | |
US10824520B2 (en) | Restoring automated assistant sessions | |
JP5158022B2 (en) | Dialog processing device, dialog processing method, and dialog processing program | |
KR102222637B1 (en) | Apparatus for analysis of emotion between users, interactive agent system using the same, terminal apparatus for analysis of emotion between users and method of the same | |
US11971915B2 (en) | Language processor, language processing method and language processing program | |
US20230133027A1 (en) | Method and apparatus for intent-guided automated speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20121227 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20131018 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131029 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131218 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140121 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140206 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140225 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140305 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5496863 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |