JP6766675B2 - Voice dialogue device - Google Patents

Voice dialogue device Download PDF

Info

Publication number
JP6766675B2
JP6766675B2 JP2017025582A JP2017025582A JP6766675B2 JP 6766675 B2 JP6766675 B2 JP 6766675B2 JP 2017025582 A JP2017025582 A JP 2017025582A JP 2017025582 A JP2017025582 A JP 2017025582A JP 6766675 B2 JP6766675 B2 JP 6766675B2
Authority
JP
Japan
Prior art keywords
dialogue
user
emotion
voice
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017025582A
Other languages
Japanese (ja)
Other versions
JP2018132624A (en
Inventor
佐和 樋口
佐和 樋口
生聖 渡部
生聖 渡部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Priority to JP2017025582A priority Critical patent/JP6766675B2/en
Publication of JP2018132624A publication Critical patent/JP2018132624A/en
Application granted granted Critical
Publication of JP6766675B2 publication Critical patent/JP6766675B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • User Interface Of Digital Computer (AREA)

Description

本発明は音声対話装置に関し、特に、感情の推定を行う音声対話装置に関する。 The present invention relates to a voice dialogue device, and more particularly to a voice dialogue device that estimates emotions.

ユーザと会話を行う音声対話装置が知られている。このような技術に関し、例えば、特許文献1では、ユーザの感情に合わせた応答を行う対話処理装置について開示している。この対話処理装置では、ユーザの発話内容に基づいて、ユーザの感情が、ポジティブ、ネガティブ、ニュートラルのいずれであるかを一定の判定基準に従って推定し、推定結果に応じた応答を行う。 A voice dialogue device that has a conversation with a user is known. Regarding such a technique, for example, Patent Document 1 discloses an interactive processing device that responds according to a user's emotion. In this dialogue processing device, whether the user's emotion is positive, negative, or neutral is estimated based on the content of the user's utterance according to a certain criterion, and a response is performed according to the estimation result.

このように、言語情報、音韻情報、又は画像情報などといった特徴量に基づいて、ユーザの感情を指標化して、ユーザによらず一定の判断基準で感情を推定する技術がある。 As described above, there is a technique of indexing a user's emotion based on a feature amount such as linguistic information, phonological information, or image information, and estimating the emotion based on a certain judgment standard regardless of the user.

特開2006−178063号公報Japanese Unexamined Patent Publication No. 2006-178603

しかしながら、対話シーンによって、感情推定に使用される特徴量へのユーザの感情の反映度合いが異なる場合がある。例えば、ユーザが主に話し手として対話している場合、ユーザが主に聞き手として対話している場合に比べ、特徴量への感情の反映度合いは大きい。特許文献1に記載された技術の場合、ユーザの感情が特徴量に反映されにくい対話シーンの場合には、ユーザに対しては、推定結果としてニュートラルとなることが多くなり、ユーザの感情が特徴量に反映されやすい対話シーンの場合には、推定結果としてポジティブ又はネガティブが多くなる。このように、対話シーンによって、ばらつきが多くなり適切な感情推定を行うことができない。 However, depending on the dialogue scene, the degree of reflection of the user's emotion on the feature amount used for emotion estimation may differ. For example, when the user mainly interacts as a speaker, the degree of reflection of emotions in the feature quantity is larger than when the user mainly interacts as a listener. In the case of the technique described in Patent Document 1, in the case of a dialogue scene in which the user's emotion is difficult to be reflected in the feature amount, the estimation result is often neutral to the user, and the user's emotion is characteristic. In the case of a dialogue scene that is easily reflected in the quantity, the estimation result is often positive or negative. In this way, there are many variations depending on the dialogue scene, and it is not possible to perform appropriate emotion estimation.

本発明は、上記した事情を背景としてなされたものであり、対話シーンの違いによる影響を抑制した感情推定を行うことができる音声対話装置を提供することを目的とする。 The present invention has been made against the background of the above circumstances, and an object of the present invention is to provide a voice dialogue device capable of performing emotion estimation that suppresses the influence of differences in dialogue scenes.

上記目的を達成するための本発明の一態様は、対話相手であるユーザの発話音声を認識し、前記ユーザに対し音声を出力する音声対話装置であって、感情推定に用いる特徴量を前記ユーザから取得する特徴量取得部と、前記ユーザと自装置の対話履歴に基づいて、前記ユーザ及び自装置のいずれが聞き手側として対話し、いずれが話し手側として対話しているかを判定する対話シーン判定部と、感情を推定するための閾値を、前記対話シーン判定部による判定結果に応じて設定する感情閾値設定部と、前記特徴量に基づいて前記ユーザの感情の指標値を算出し、算出した前記指標値と前記感情閾値設定部により設定された閾値との比較結果に応じて、前記ユーザの感情を推定する感情推定部とを有する音声対話装置である。
この音声対話装置によれば、ユーザが、聞き手側として対話しているのか話し手側として対話しているかが判定され、その判定結果に応じて感情推定のための閾値が設定される。このため、この音声対話装置によれば、対話シーンの違いによる影響を抑制した感情推定を行うことができる。
One aspect of the present invention for achieving the above object is a voice dialogue device that recognizes the spoken voice of a user who is a dialogue partner and outputs the voice to the user, and uses the feature amount used for emotion estimation as the user. Based on the feature amount acquisition unit acquired from the user and the dialogue history between the user and the own device, a dialogue scene determination is determined which of the user and the own device interacts as the listener side and which interacts as the speaker side. A unit and an emotion threshold setting unit that sets a threshold value for estimating emotions according to a determination result by the dialogue scene determination unit, and an index value of the user's emotions calculated based on the feature amount. It is a voice dialogue device having an emotion estimation unit that estimates the user's emotion according to a comparison result between the index value and the threshold value set by the emotion threshold setting unit.
According to this voice dialogue device, it is determined whether the user is interacting as the listener side or the speaker side, and a threshold value for emotion estimation is set according to the determination result. Therefore, according to this voice dialogue device, it is possible to perform emotion estimation in which the influence of the difference in the dialogue scene is suppressed.

本発明によれば、対話シーンの違いによる影響を抑制した感情推定を行うことができる音声対話装置を提供することができる。 According to the present invention, it is possible to provide a voice dialogue device capable of performing emotion estimation while suppressing the influence of differences in dialogue scenes.

実施の形態1にかかる音声対話装置のハードウェア構成を示す図である。It is a figure which shows the hardware configuration of the voice dialogue apparatus which concerns on Embodiment 1. FIG. 実施の形態1にかかる音声対話装置の制御装置の構成を示すブロック図である。It is a block diagram which shows the structure of the control device of the voice dialogue device which concerns on Embodiment 1. FIG. 実施の形態1にかかる音声対話装置の動作の一例を示すフローチャートである。It is a flowchart which shows an example of the operation of the voice dialogue apparatus which concerns on Embodiment 1. FIG.

以下、図面を参照して本発明の実施の形態について説明する。なお、各図面において、同一の要素には同一の符号が付されており、必要に応じて重複説明は省略されている。 Hereinafter, embodiments of the present invention will be described with reference to the drawings. In each drawing, the same elements are designated by the same reference numerals, and duplicate explanations are omitted as necessary.

図1は、実施の形態1にかかる音声対話装置1のハードウェア構成を示す図である。音声対話装置1は、ユーザと音声を用いて対話を行う。具体的には、音声対話装置1は、ユーザからの発話に応じて、ユーザに対して音声を出力することで、ユーザと対話を行う。つまり、音声対話装置1は、対話相手であるユーザの発話音声を認識し、このユーザに対し音声を出力する。音声対話装置1は、例えば、生活支援ロボット及び小型ロボット等のロボット、クラウドシステム及びスマートフォン等に搭載可能である。 FIG. 1 is a diagram showing a hardware configuration of the voice dialogue device 1 according to the first embodiment. The voice dialogue device 1 has a dialogue with the user using voice. Specifically, the voice dialogue device 1 interacts with the user by outputting voice to the user in response to an utterance from the user. That is, the voice dialogue device 1 recognizes the spoken voice of the user who is the conversation partner, and outputs the voice to this user. The voice dialogue device 1 can be mounted on, for example, robots such as life support robots and small robots, cloud systems, smartphones, and the like.

音声対話装置1は、周辺の音声を収集するマイク2と、音声を発するスピーカ3と、制御装置10とを有する。制御装置10は、例えばコンピュータとしての機能を有する。制御装置10は、マイク2及びスピーカ3と、有線又は無線で接続されている。なお、音声対話装置1が、周辺の画像を取得するカメラ(図示せず)をさらに備え、制御装置10が、さらに、このカメラと有線又は無線で接続されていてもよい。 The voice dialogue device 1 includes a microphone 2 that collects surrounding voices, a speaker 3 that emits voices, and a control device 10. The control device 10 has a function as, for example, a computer. The control device 10 is connected to the microphone 2 and the speaker 3 by wire or wirelessly. The voice dialogue device 1 may further include a camera (not shown) for acquiring a peripheral image, and the control device 10 may be further connected to the camera by wire or wirelessly.

制御装置10は、主要なハードウェア構成として、CPU(Central Processing Unit)12と、ROM(Read Only Memory)14と、RAM(Random Access Memory)16とを有する。CPU12は、制御処理及び演算処理等を行う演算装置としての機能を有する。ROM14は、CPU12によって実行される制御プログラム及び演算プログラム等を記憶するための機能を有する。RAM16は、処理データ等を一時的に記憶するための機能を有する。 The control device 10 has a CPU (Central Processing Unit) 12, a ROM (Read Only Memory) 14, and a RAM (Random Access Memory) 16 as a main hardware configuration. The CPU 12 has a function as an arithmetic unit that performs control processing, arithmetic processing, and the like. The ROM 14 has a function for storing a control program, an arithmetic program, and the like executed by the CPU 12. The RAM 16 has a function for temporarily storing processing data and the like.

制御装置10は、マイク2によって集音されたユーザの発話を解析して、そのユーザの発話に応じて、ユーザに対する応答を生成する。そして、制御装置10は、スピーカ3を介して、生成された応答に対応する音声(応答音声)を出力する。 The control device 10 analyzes the user's utterance collected by the microphone 2 and generates a response to the user in response to the user's utterance. Then, the control device 10 outputs a voice (response voice) corresponding to the generated response via the speaker 3.

図2は、実施の形態1にかかる音声対話装置1の制御装置10の構成を示すブロック図である。制御装置10は、特徴量取得部101と、発話行為タイプ判別部102と、対話履歴記憶部103と、対話シーン判定部104と、感情推定部105と、感情閾値設定部106と、応答生成部107と、音声合成部108とを有する。なお、図2に示す特徴量取得部101、発話行為タイプ判別部102、対話シーン判定部104、感情推定部105、感情閾値設定部106、応答生成部107、及び音声合成部108は、例えば、CPU12がROM14に記憶されたプログラムを実行することによって実現可能である。また、必要なプログラムを任意の不揮発性記録媒体に記録しておき、必要に応じてインストールするようにしてもよい。また、対話履歴記憶部103は、例えば、ROM14等の記憶装置により実現される。なお、各構成要素は、上記のようにソフトウェアによって実現されることに限定されず、何らかの回路素子等のハードウェアによって実現されてもよい。 FIG. 2 is a block diagram showing a configuration of a control device 10 of the voice dialogue device 1 according to the first embodiment. The control device 10 includes a feature amount acquisition unit 101, a speech act type determination unit 102, a dialogue history storage unit 103, a dialogue scene determination unit 104, an emotion estimation unit 105, an emotion threshold setting unit 106, and a response generation unit. It has 107 and a voice synthesis unit 108. The feature amount acquisition unit 101, the speech act type determination unit 102, the dialogue scene determination unit 104, the emotion estimation unit 105, the emotion threshold setting unit 106, the response generation unit 107, and the voice synthesis unit 108 shown in FIG. 2 are, for example, This can be achieved by the CPU 12 executing the program stored in the ROM 14. Further, the necessary program may be recorded on an arbitrary non-volatile recording medium and installed if necessary. Further, the dialogue history storage unit 103 is realized by a storage device such as a ROM 14. It should be noted that each component is not limited to being realized by software as described above, and may be realized by some hardware such as a circuit element.

特徴量取得部101は、感情推定に用いる特徴量を、対話相手であるユーザから取得する。本実施の形態では、特徴量取得部101は、マイク2により取得されたユーザの音声データに対し、音声認識処理を行うことで、特徴量としてテキストデータを生成する。したがって、特徴量取得部101は、音声認識部と称されてもよい。なお、本実施の形態では、特徴量取得部101により取得された特徴量、すなわちテキストデータは、感情推定のみならず、応答の生成にも用いられる。また、特徴量取得部101は、音声認識処理結果に基づいて、ユーザの発話時間を特定し、特定した発話時間を後述する対話履歴記憶部103に格納する。 The feature amount acquisition unit 101 acquires the feature amount used for emotion estimation from the user who is the dialogue partner. In the present embodiment, the feature amount acquisition unit 101 generates text data as a feature amount by performing voice recognition processing on the user's voice data acquired by the microphone 2. Therefore, the feature amount acquisition unit 101 may be referred to as a voice recognition unit. In the present embodiment, the feature amount acquired by the feature amount acquisition unit 101, that is, the text data is used not only for emotion estimation but also for response generation. Further, the feature amount acquisition unit 101 specifies the utterance time of the user based on the voice recognition processing result, and stores the specified utterance time in the dialogue history storage unit 103, which will be described later.

発話行為タイプ判別部102は、ユーザの発話行為タイプを判別する。発話行為タイプ判別部102は、例えば、5種類の発話行為タイプ(質問、応答、挨拶、情報提供、あいづち)を判別する。ここで、発話行為タイプ「質問」は、対話相手に質問する発話である。また、発話行為タイプ「応答」は、対話相手からの質問に応答する発話である。また、発話行為タイプ「挨拶」は、対話相手に対して挨拶する発話である。また、発話行為タイプ「情報提供」は、自発的な話題の提供を行う発話であり、事象等についての説明、自身に関する情報の提供などがこれに該当する。また、発話行為タイプ「あいづち」は、対話相手の発話に対するあいづちを示す発話である。なお、発話行為タイプ判別部102による具体的な判別方法としては公知の種々の方法が適用可能である。例えば、発話行為タイプ判別部102は機械学習を用いた判別を行ってもよいが、判別方法はこれに限られない。また、発話行為タイプ判別部102は、判別した発話行為タイプを対話履歴記憶部103に格納する。 The utterance act type determination unit 102 determines the utterance act type of the user. The utterance act type determination unit 102 discriminates, for example, five types of utterance act types (question, response, greeting, information provision, aizuchi). Here, the utterance act type "question" is an utterance that asks a dialogue partner. The speech act type "response" is an utterance that responds to a question from the conversation partner. In addition, the utterance act type "greeting" is an utterance that greets the conversation partner. In addition, the utterance act type "information provision" is an utterance that voluntarily provides a topic, and corresponds to an explanation of an event or the like and provision of information about oneself. In addition, the utterance act type "Aizuchi" is an utterance that indicates the utterance of the conversation partner. Various known methods can be applied as a specific discrimination method by the speech act type discrimination unit 102. For example, the speech act type discriminating unit 102 may perform discriminating using machine learning, but the discriminating method is not limited to this. Further, the utterance act type determination unit 102 stores the determined utterance act type in the dialogue history storage unit 103.

対話履歴記憶部103は、対話履歴を記憶する。本実施の形態では、対話履歴記憶部103は、直近のNターン(ただし、Nは、所定の正整数)の対話におけるユーザと音声対話装置1の対話履歴を記憶する。すなわち、直近のNターンにおける、ユーザの発話行為タイプ及び発話時間並び音声対話装置1の発話行為タイプ及び発話時間を記憶する。 The dialogue history storage unit 103 stores the dialogue history. In the present embodiment, the dialogue history storage unit 103 stores the dialogue history between the user and the voice dialogue device 1 in the latest N-turn (where N is a predetermined positive integer) dialogue. That is, the user's utterance action type and utterance time, and the utterance action type and utterance time of the voice dialogue device 1 in the latest N turn are stored.

対話シーン判定部104は、対話履歴記憶部103に記憶されたユーザと音声対話装置1の対話履歴に基づいて、現在、ユーザ及び音声対話装置1のいずれが聞き手側として対話し、いずれが話し手側として対話しているかを判定する。すなわち、対話シーン判定部104は、対話履歴記憶部103に記憶された発話時間又は発話行為タイプを用いて、現在の対話シーンを判定する。 Based on the dialogue history between the user and the voice dialogue device 1 stored in the dialogue history storage unit 103, the dialogue scene determination unit 104 currently has a dialogue between the user and the voice dialogue device 1 as the listener side, and which is the speaker side. To determine if they are interacting as. That is, the dialogue scene determination unit 104 determines the current dialogue scene by using the utterance time or the utterance act type stored in the dialogue history storage unit 103.

例えば、対話シーン判定部104は、対話履歴記憶部103に記憶された直近のNターンのユーザと音声対話装置1の発話時間から、直近のNターンの両者の発話割合を算出し、その算出結果に基づいて、次のように対話シーンを判定する。ここで、対話シーン判定部104は、音声対話装置1の発話割合を0〜100%の値で算出するものとする。すなわち、ユーザの発話割合は、100%−(音声対話装置1の発話割合)で表される。 For example, the dialogue scene determination unit 104 calculates the utterance ratios of both the latest N-turn user and the voice dialogue device 1 stored in the dialogue history storage unit 103, and the calculation result thereof. Based on, the dialogue scene is determined as follows. Here, it is assumed that the dialogue scene determination unit 104 calculates the utterance ratio of the voice dialogue device 1 with a value of 0 to 100%. That is, the utterance ratio of the user is represented by 100%-(the utterance ratio of the voice dialogue device 1).

(1)音声対話装置1の発話割合が閾値T1(例えば60%)以上100%以下の場合、すなわちユーザの発話割合が0%以上閾値T2(例えば40%)以下の場合:
対話シーン判定部104は、対話シーンが、音声対話装置1による情報提供シーンであると判定する。すなわち、対話シーン判定部104は、現在の対話シーンが、音声対話装置1が話し手側として対話し、ユーザが聞き手側として対話しているシーンであると判定する。
(2)音声対話装置1の発話割合が閾値T3(例えば40%)以上閾値T1(例えば60%)未満の場合、すなわちユーザの発話割合が閾値T2(例えば40%)より高く、閾値T4(例えば60%)以下の場合:
対話シーン判定部104は、対話シーンが、音声対話装置1とユーザによる雑談シーンであると判定する。すなわち、対話シーン判定部104は、現在の対話シーンが、主にいずれが話し手側として対話し、主にいずれが聞き手側として対話しているかを特定できないシーンであると判定する。
(3)音声対話装置1の発話割合が0%以上閾値T3(例えば40%)未満の場合、すなわちユーザの発話割合が閾値T4(例えば60%)より高く、100%以下の場合:
対話シーン判定部104は、対話シーンが、音声対話装置1による傾聴シーンであると判定する。すなわち、対話シーン判定部104は、現在の対話シーンが、音声対話装置1が聞き手側として対話し、ユーザが話し手側として対話しているシーンであると判定する。
(1) When the utterance ratio of the voice dialogue device 1 is the threshold value T1 (for example, 60%) or more and 100% or less, that is, when the utterance ratio of the user is 0% or more and the threshold value T2 (for example, 40%) or less:
The dialogue scene determination unit 104 determines that the dialogue scene is an information providing scene by the voice dialogue device 1. That is, the dialogue scene determination unit 104 determines that the current dialogue scene is a scene in which the voice dialogue device 1 interacts as the speaker side and the user interacts as the listener side.
(2) When the utterance ratio of the voice dialogue device 1 is equal to or more than the threshold T3 (for example, 40%) and less than the threshold T1 (for example, 60%), that is, the utterance ratio of the user is higher than the threshold T2 (for example, 40%) and the threshold T4 (for example, for example). 60%) Below:
The dialogue scene determination unit 104 determines that the dialogue scene is a chat scene between the voice dialogue device 1 and the user. That is, the dialogue scene determination unit 104 determines that the current dialogue scene is a scene in which it is not possible to specify which is mainly talking as the speaker side and which is mainly talking as the listener side.
(3) When the utterance ratio of the voice dialogue device 1 is 0% or more and less than the threshold value T3 (for example, 40%), that is, when the utterance ratio of the user is higher than the threshold value T4 (for example, 60%) and 100% or less:
The dialogue scene determination unit 104 determines that the dialogue scene is a listening scene by the voice dialogue device 1. That is, the dialogue scene determination unit 104 determines that the current dialogue scene is a scene in which the voice dialogue device 1 interacts as the listener side and the user interacts as the speaker side.

すなわち、このような判別が行われる場合、対話シーン判定部104は、所定回数の会話中における音声対話装置1による発話割合がユーザの発話割合よりも所定値以上大きい場合、音声対話装置1が話し手側として対話し、ユーザが聞き手側として対話しているシーンであると判定する。また、対話シーン判定部104は、所定回数の会話中における音声対話装置1による発話割合がユーザの発話割合よりも所定値以上小さい場合、音声対話装置1が聞き手側として対話し、ユーザが話し手側として対話しているシーンであると判定する。 That is, when such determination is performed, the dialogue scene determination unit 104 uses the voice dialogue device 1 as the speaker when the utterance ratio by the voice dialogue device 1 during a predetermined number of conversations is larger than the user's utterance ratio by a predetermined value or more. It is determined that the scene is a scene in which the user interacts as the listener side. Further, in the dialogue scene determination unit 104, when the utterance ratio by the voice dialogue device 1 during a predetermined number of conversations is smaller than the user's utterance ratio by a predetermined value or more, the voice dialogue device 1 interacts as the listener side, and the user talks with the speaker side. It is determined that the scene is interacting with.

なお、対話シーン判定部104は、対話履歴に基づいて対話シーンを判別すればよく、上記判別方法は一例である。したがって、例えば、対話シーン判定部104は、直近のNターンの両者の発話行為タイプに基づいて、対話シーンを判定してもよい。具体的には、例えば、対話シーン判定部104は、直近のNターンの対話におけるユーザの発話行為タイプにおいて、「情報提供」の割合が閾値以上である場合、音声対話装置1による傾聴シーンであると判定し、「あいづち」の割合が閾値以上である場合、音声対話装置1による情報提供シーンであると判定してもよい。なお、対話シーン判定部104は、対話履歴記憶部103に記憶された発話時間及び発話行為タイプの両方を用いて、対話シーンの判別を行ってもよい。例えば、対話シーン判定部104は、所定の発話行為タイプについての、音声対話装置1とユーザの発話割合に基づいて、対話シーンの判別を行ってもよい。 The dialogue scene determination unit 104 may determine the dialogue scene based on the dialogue history, and the determination method is an example. Therefore, for example, the dialogue scene determination unit 104 may determine the dialogue scene based on the speech act types of both of the latest N turns. Specifically, for example, the dialogue scene determination unit 104 is a listening scene by the voice dialogue device 1 when the ratio of "information provision" is equal to or higher than the threshold value in the user's speech act type in the latest N-turn dialogue. If the ratio of "Aizuchi" is equal to or greater than the threshold value, it may be determined that the scene is an information providing scene by the voice dialogue device 1. The dialogue scene determination unit 104 may determine the dialogue scene by using both the utterance time and the utterance act type stored in the dialogue history storage unit 103. For example, the dialogue scene determination unit 104 may determine the dialogue scene based on the speech dialogue ratio between the voice dialogue device 1 and the user for a predetermined speech act type.

感情推定部105は、特徴量取得部101が取得した特徴量に基づいて、ユーザの感情の指標値を算出する。具体的には、感情推定部105は、特徴量取得部101により生成されたテキストデータを解析し、予め定められた算出規則に従ってユーザの感情を示す指標値を算出する。また、感情推定部105は、算出した指標値と閾値との比較結果に応じて、ユーザの感情を推定する。ここで、閾値は、後述する感情閾値設定部106により設定される値であり、対話シーンに応じた値である。 The emotion estimation unit 105 calculates an index value of the user's emotion based on the feature amount acquired by the feature amount acquisition unit 101. Specifically, the emotion estimation unit 105 analyzes the text data generated by the feature amount acquisition unit 101, and calculates an index value indicating the user's emotion according to a predetermined calculation rule. In addition, the emotion estimation unit 105 estimates the user's emotion according to the comparison result between the calculated index value and the threshold value. Here, the threshold value is a value set by the emotion threshold value setting unit 106, which will be described later, and is a value corresponding to the dialogue scene.

なお、感情推定部105は、感情の指標値の算出及び指標値と閾値との比較に基づいて感情の推定を行なえばよく、そのような感情推定の方法として公知の任意の手法が適用可能である。例えば、感情推定方法のひとつとして、「Webから獲得した感情生起要因コーパスに基づく感情推定」(徳久良子ほか,言語処理学会第14回年次大会論文集,2008年3月)に記載された技術が用いられてもよい。 The emotion estimation unit 105 may estimate the emotion based on the calculation of the emotion index value and the comparison between the index value and the threshold value, and any known method can be applied as such an emotion estimation method. is there. For example, as one of the emotion estimation methods, the technique described in "Emotion estimation based on the emotion-causing factor corpus acquired from the Web" (Ryoko Tokukura et al., Proceedings of the 14th Annual Meeting of the Language Processing Society, March 2008). May be used.

本実施の形態では、感情推定部105は、ユーザの発話内容を示すテキストデータの解析結果から、指標値として、−1.0〜+1.0の範囲内の数値を算出する。ここで、解析結果がネガティブな感情を示す場合、指標値はマイナスの値となり、解析結果がポジティブな感情を示す場合、指標値はプラスの値となる。 In the present embodiment, the emotion estimation unit 105 calculates a numerical value in the range of −1.0 to +1.0 as an index value from the analysis result of the text data indicating the utterance content of the user. Here, when the analysis result shows a negative emotion, the index value becomes a negative value, and when the analysis result shows a positive emotion, the index value becomes a positive value.

本実施の形態では、感情推定部105は、算出した指標値と閾値とを用いて、ポジティブ、ネガティブ、ニュートラルのいずれかの感情を決定する。なお、ニュートラルとは、ポジティブでもネガティブでもない感情である。例えば、ポジティブな感情と推定するための閾値を+0.5とし、ネガティブな感情と推定するための閾値を−0.5とする。この場合、感情推定部105は、特徴量取得部101が取得した特徴量に基づいて算出した指標値が、−0.5以下である場合、ユーザの感情がネガティブであると決定する。また、感情推定部105は、特徴量取得部101が取得した特徴量に基づいて算出した指標値が、+0.5以上である場合、ユーザの感情がポジティブであると決定する。そして、感情推定部105は、特徴量取得部101が取得した特徴量に基づいて算出した指標値が、−0.5より大きく+0.5未満である場合、ユーザの感情がニュートラルであると決定する。 In the present embodiment, the emotion estimation unit 105 determines one of positive, negative, and neutral emotions by using the calculated index value and the threshold value. Neutral is an emotion that is neither positive nor negative. For example, the threshold value for estimating positive emotions is +0.5, and the threshold value for estimating negative emotions is -0.5. In this case, the emotion estimation unit 105 determines that the user's emotion is negative when the index value calculated based on the feature amount acquired by the feature amount acquisition unit 101 is −0.5 or less. Further, the emotion estimation unit 105 determines that the user's emotion is positive when the index value calculated based on the feature amount acquired by the feature amount acquisition unit 101 is +0.5 or more. Then, the emotion estimation unit 105 determines that the user's emotion is neutral when the index value calculated based on the feature amount acquired by the feature amount acquisition unit 101 is greater than −0.5 and less than +0.5. To do.

感情閾値設定部106は、感情を推定するための閾値を、対話シーン判定部104による判定結果に応じて設定する。例えば、対話シーン判定部104により、対話シーンが、音声対話装置1による情報提供シーンであると判定された場合、すなわち、現在の対話シーンが、音声対話装置1が話し手側として対話し、ユーザが聞き手側として対話しているシーンであると判定された場合、ユーザの感情が特徴量に反映されにくいと考えられる。このため、この場合、感情閾値設定部106は、ポジティブ又はネガティブの感情が推定されやすくなるよう、予め定められた基本閾値よりもゆるい閾値を設定する。 The emotion threshold setting unit 106 sets a threshold value for estimating emotions according to the determination result by the dialogue scene determination unit 104. For example, when the dialogue scene determination unit 104 determines that the dialogue scene is an information providing scene by the voice dialogue device 1, that is, in the current dialogue scene, the voice dialogue device 1 interacts as the speaker side, and the user When it is determined that the scene is a dialogue on the listener side, it is considered that the user's emotion is not easily reflected in the feature amount. Therefore, in this case, the emotion threshold setting unit 106 sets a threshold that is looser than a predetermined basic threshold so that positive or negative emotions can be easily estimated.

これに対し、対話シーン判定部104により、対話シーンが、音声対話装置1による傾聴シーンであると判定された場合、すなわち、現在の対話シーンが、音声対話装置1が聞き手側として対話し、ユーザが話し手側として対話しているシーンであると判定された場合、ユーザの感情が特徴量に反映されやすいと考えられる。このため、この場合、感情閾値設定部106は、ポジティブ又はネガティブの感情が推定されにくくなるよう、基本閾値よりもきつい閾値を設定する。 On the other hand, when the dialogue scene determination unit 104 determines that the dialogue scene is a listening scene by the voice dialogue device 1, that is, in the current dialogue scene, the voice dialogue device 1 interacts as the listener side and the user. When it is determined that is a scene in which is interacting as a speaker, it is considered that the user's feelings are likely to be reflected in the feature amount. Therefore, in this case, the emotion threshold setting unit 106 sets a threshold that is tighter than the basic threshold so that positive or negative emotions are less likely to be estimated.

したがって、具体的には、対話シーン判定部104により、対話シーンが、音声対話装置1による情報提供シーンであると判定された場合、例えば、感情閾値設定部106は、ポジティブな感情と推定するための閾値を、その基本閾値である+0.5より0.2だけ下げ、+0.3とし、ネガティブな感情と推定するための閾値を、その基本閾値である−0.5より0.2だけ上げ、−0.3とする。また、対話シーン判定部104により、対話シーンが、音声対話装置1による傾聴シーンであると判定された場合、例えば、感情閾値設定部106は、ポジティブな感情と推定するための閾値を、その基本閾値である+0.5より0.2だけ上げ、+0.7とし、ネガティブな感情と推定するための閾値を、その基本閾値である−0.5より0.2だけ下げ、−0.7とする。また、対話シーン判定部104により、対話シーンが、音声対話装置1とユーザによる雑談シーンであると判定された場合、例えば、感情閾値設定部106は、ポジティブな感情と推定するための閾値を、その基本閾値である+0.5とし、ネガティブな感情と推定するための閾値を、その基本閾値である−0.5とする。 Therefore, specifically, when the dialogue scene determination unit 104 determines that the dialogue scene is an information providing scene by the voice dialogue device 1, for example, the emotion threshold setting unit 106 estimates that the emotion is positive. The threshold of is lowered by 0.2 from the basic threshold of +0.5 to +0.3, and the threshold for estimating negative emotions is raised by 0.2 from the basic threshold of -0.5. , -0.3. When the dialogue scene determination unit 104 determines that the dialogue scene is a listening scene by the voice dialogue device 1, for example, the emotion threshold setting unit 106 sets a threshold value for estimating a positive emotion as its basis. Increased by 0.2 from the threshold value of +0.5 to +0.7, and lowered the threshold value for estimating negative emotions by 0.2 from the basic threshold value of -0.5 to -0.7. To do. Further, when the dialogue scene determination unit 104 determines that the dialogue scene is a chat scene between the voice dialogue device 1 and the user, for example, the emotion threshold setting unit 106 sets a threshold value for estimating a positive emotion. The basic threshold value is +0.5, and the threshold value for estimating negative emotions is -0.5, which is the basic threshold value.

応答生成部107は、対話相手であるユーザの発話に対する応答を生成する。応答は、典型的にはテキストデータである。本実施の形態では、応答生成部107は、感情推定部105により推定された感情に応じて適切な応答を生成する。応答生成部107は、例えば、感情の種類に対応付けられた応答文を含む応答文テーブルを参照し、応答文テーブルから適切な応答文を選択することにより、応答文の生成を行ってもよい。なお、応答生成部107は、生成した応答についての発話行為タイプ及び発話時間を対話履歴記憶部103に記憶する。応答生成部107が生成した応答についての発話行為タイプ及び発話時間は、予め、応答文テーブルの応答文と対応付けられてROM14等の記憶装置に記憶されていてもよいし、発話行為タイプ判別部102等による解析により得られてもよい。 The response generation unit 107 generates a response to the utterance of the user who is the conversation partner. The response is typically textual data. In the present embodiment, the response generation unit 107 generates an appropriate response according to the emotion estimated by the emotion estimation unit 105. The response generation unit 107 may generate a response sentence by, for example, referring to a response sentence table including a response sentence associated with an emotion type and selecting an appropriate response sentence from the response sentence table. .. The response generation unit 107 stores the utterance action type and the utterance time of the generated response in the dialogue history storage unit 103. The utterance act type and utterance time of the response generated by the response generation unit 107 may be stored in advance in a storage device such as ROM 14 in association with the response sentence of the response sentence table, or the utterance act type determination unit. It may be obtained by analysis by 102 or the like.

音声合成部108は、応答生成部107が生成した応答を音声データに変換する。すなわち、音声合成部108は、応答生成部107が生成した応答文のテキストデータを音声データに変換する。テキストデータからの音声データの生成は、公知の種々の音声合成技術等により実現可能である。その後、典型的にはD/A変換装置(図示せず)が音声データをアナログ音声信号に変換し、スピーカ3がアナログ音声信号を音声として出力する。 The voice synthesis unit 108 converts the response generated by the response generation unit 107 into voice data. That is, the voice synthesis unit 108 converts the text data of the response sentence generated by the response generation unit 107 into voice data. The generation of speech data from text data can be realized by various known speech synthesis techniques and the like. After that, typically, a D / A converter (not shown) converts the audio data into an analog audio signal, and the speaker 3 outputs the analog audio signal as audio.

次に、音声対話装置1の動作について説明する。図3は、音声対話装置1の動作の一例を示すフローチャートである。以下、図3に沿って、音声対話装置1の動作例を説明する。 Next, the operation of the voice dialogue device 1 will be described. FIG. 3 is a flowchart showing an example of the operation of the voice dialogue device 1. Hereinafter, an operation example of the voice dialogue device 1 will be described with reference to FIG.

ステップ100(S100)において、特徴量取得部101が、マイク2により取得されたユーザの音声データに対し、音声認識処理を行い、テキストデータを生成する。例えば、ステップ100では、ユーザの発話から「今日は晴れているよ」というテキストデータが生成される。また、特徴量取得部101は、ユーザの発話時間を特定し、特定した発話時間を対話履歴記憶部103に格納する。 In step 100 (S100), the feature amount acquisition unit 101 performs voice recognition processing on the user's voice data acquired by the microphone 2 to generate text data. For example, in step 100, text data "It's sunny today" is generated from the user's utterance. In addition, the feature amount acquisition unit 101 specifies the utterance time of the user, and stores the specified utterance time in the dialogue history storage unit 103.

次に、ステップ101(S101)において、発話行為タイプ判別部102が、ステップ100で取得されたユーザの音声についての発話行為タイプを判別する。例えば、発話行為タイプ判別部102は、「今日は晴れているよ」という発話の発話行為タイプが、「情報提供」であると判別し、判別した発話行為タイプを対話履歴記憶部103に格納する。 Next, in step 101 (S101), the utterance act type determination unit 102 determines the utterance act type of the user's voice acquired in step 100. For example, the utterance act type determination unit 102 determines that the utterance act type of the utterance "It's sunny today" is "information provision", and stores the determined utterance act type in the dialogue history storage unit 103. ..

次に、ステップ102(S102)において、対話シーン判定部104が、直近のNターンの対話履歴に基づいて、現在の対話シーンを判定する。例えば、対話シーン判定部104は、現在の対話シーンが、音声対話装置1による傾聴シーンであると判定する。 Next, in step 102 (S102), the dialogue scene determination unit 104 determines the current dialogue scene based on the dialogue history of the latest N turns. For example, the dialogue scene determination unit 104 determines that the current dialogue scene is a listening scene by the voice dialogue device 1.

次に、ステップ103(S103)において、感情閾値設定部106は、ステップ102で判定された対話シーンに応じた閾値を設定する。例えば、対話シーンが傾聴シーンである場合、感情閾値設定部106は、ポジティブな感情と推定するための閾値を、その基本閾値よりも0.2だけ大きい+0.7とし、ネガティブな感情と推定するための閾値を、その基本閾値よりも0.2だけ小さい−0.7とする。 Next, in step 103 (S103), the emotion threshold setting unit 106 sets the threshold value according to the dialogue scene determined in step 102. For example, when the dialogue scene is a listening scene, the emotion threshold setting unit 106 sets the threshold value for estimating a positive emotion to +0.7, which is 0.2 larger than the basic threshold value, and estimates it as a negative emotion. The threshold value for this is set to -0.7, which is 0.2 smaller than the basic threshold value.

次に、ステップ104(S104)において、感情推定部105は、ステップ100で得られたテキストデータに基づいてユーザの感情の指標値を算出し、算出した指標値とステップ103で設定された閾値との比較結果に応じて、ユーザの感情を推定する。例えば、ユーザの感情の指標値が+0.6である場合、指標値は、基本閾値である+0.5よりも大きいもののステップ103で修正された閾値である+0.7未満であるため、ユーザの感情は、ポジティブとは判定されず、ニュートラルと判定される。 Next, in step 104 (S104), the emotion estimation unit 105 calculates an index value of the user's emotion based on the text data obtained in step 100, and sets the calculated index value and the threshold value set in step 103. Estimate the user's emotions according to the comparison result of. For example, when the index value of the user's emotion is +0.6, the index value is larger than the basic threshold value of +0.5 but less than the threshold value corrected in step 103 of +0.7. Emotions are not determined to be positive, but are determined to be neutral.

次に、ステップ105(S105)において、応答生成部107は、ステップ104において推定された感情に応じた応答を生成する。例えば、ステップ104で推定された感情がニュートラルである場合、ステップ105では、応答「そうなんだ」が生成される。 Next, in step 105 (S105), the response generation unit 107 generates a response corresponding to the emotion estimated in step 104. For example, if the emotion estimated in step 104 is neutral, then in step 105 the response "yes" is generated.

次に、ステップ106(S106)において、音声合成部108が、ステップ105で生成された応答のテキストデータを音声データに変換する。これにより、スピーカ3からステップ105で生成された応答の音声が出力される。以降、処理は、ステップ100に戻り、対話が繰り返されることとなる。 Next, in step 106 (S106), the voice synthesis unit 108 converts the text data of the response generated in step 105 into voice data. As a result, the voice of the response generated in step 105 is output from the speaker 3. After that, the process returns to step 100, and the dialogue is repeated.

以上、実施の形態にかかる音声対話装置1について説明した。音声対話装置1は、上述の通り、対話シーンを判定し、その判定結果に従って、閾値を動的に変更する。したがって、音声対話装置1によれば、対話シーンの違いによる影響を抑制した感情推定を行うことができる。つまり、例えば、ユーザの感情が特徴量に反映されにくいシーンである、ユーザが主に聞き手となるシーンにおいても、適切に感情を推定することができる。このように、感情を的確に捉えた上で、応答を生成することができるため、音声対話装置1は、より円滑にユーザとコミュニケーションをとることができる。 The voice dialogue device 1 according to the embodiment has been described above. As described above, the voice dialogue device 1 determines the dialogue scene, and dynamically changes the threshold value according to the determination result. Therefore, according to the voice dialogue device 1, it is possible to perform emotion estimation in which the influence of the difference in the dialogue scene is suppressed. That is, for example, even in a scene in which the user's emotion is difficult to be reflected in the feature amount, the emotion can be estimated appropriately even in a scene in which the user is mainly a listener. In this way, since the response can be generated after accurately capturing the emotion, the voice dialogue device 1 can communicate with the user more smoothly.

なお、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。例えば、上記の実施の形態では、特徴量として、ユーザの発話内容が用いられたが、これに限らず、ユーザの表情、韻律などの他の特徴量に基づいて、指標値の算出及び感情の推定が行われてもよい。すなわち、他の一例として、特徴量取得部101は、図示しないカメラが取得した画像に対し画像処理を行って、特徴量としてのユーザの表情を取得してもよい。また、指標値及び閾値に関する各値は、一例であり、上記の値に限られない。 The present invention is not limited to the above embodiment, and can be appropriately modified without departing from the spirit. For example, in the above embodiment, the user's utterance content is used as the feature amount, but the present invention is not limited to this, and the index value is calculated and the emotional value is calculated based on other feature amounts such as the user's facial expression and prosody. Estimates may be made. That is, as another example, the feature amount acquisition unit 101 may perform image processing on an image acquired by a camera (not shown) to acquire a user's facial expression as a feature amount. Further, each value related to the index value and the threshold value is an example and is not limited to the above value.

1 音声対話装置
101 特徴量取得部
102 発話行為タイプ判別部
103 対話履歴記憶部
104 対話シーン判定部
105 感情推定部
106 感情閾値設定部
107 応答生成部
108 音声合成部
1 Voice dialogue device 101 Feature amount acquisition unit 102 Speech act type determination unit 103 Dialogue history storage unit 104 Dialogue scene determination unit 105 Emotion estimation unit 106 Emotion threshold setting unit 107 Response generation unit 108 Speech synthesis unit

Claims (1)

対話相手であるユーザの発話音声を認識し、前記ユーザに対し音声を出力する音声対話装置であって、
感情推定に用いる特徴量を前記ユーザから取得する特徴量取得部と、
前記ユーザと自装置の対話履歴に基づいて、前記ユーザ及び自装置のいずれが聞き手側として対話し、いずれが話し手側として対話しているかを判定する対話シーン判定部と、
感情を推定するための閾値を、前記対話シーン判定部による判定結果に応じて設定する感情閾値設定部と、
前記特徴量に基づいて前記ユーザの感情の指標値を算出し、算出した前記指標値と前記感情閾値設定部により設定された閾値との比較結果に応じて、前記ユーザの感情を推定する感情推定部と
を有する音声対話装置。
A voice dialogue device that recognizes the spoken voice of a user who is a conversation partner and outputs voice to the user.
A feature amount acquisition unit that acquires a feature amount used for emotion estimation from the user,
Based on the dialogue history between the user and the own device, a dialogue scene determination unit that determines which of the user and the own device has a dialogue as a listener and which has a dialogue as a speaker.
An emotion threshold setting unit that sets a threshold value for estimating emotions according to a determination result by the dialogue scene determination unit, and
Emotion estimation that calculates the user's emotion index value based on the feature amount and estimates the user's emotion according to the comparison result between the calculated index value and the threshold value set by the emotion threshold value setting unit. A voice dialogue device having a unit.
JP2017025582A 2017-02-15 2017-02-15 Voice dialogue device Active JP6766675B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017025582A JP6766675B2 (en) 2017-02-15 2017-02-15 Voice dialogue device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017025582A JP6766675B2 (en) 2017-02-15 2017-02-15 Voice dialogue device

Publications (2)

Publication Number Publication Date
JP2018132624A JP2018132624A (en) 2018-08-23
JP6766675B2 true JP6766675B2 (en) 2020-10-14

Family

ID=63248946

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017025582A Active JP6766675B2 (en) 2017-02-15 2017-02-15 Voice dialogue device

Country Status (1)

Country Link
JP (1) JP6766675B2 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111445906A (en) * 2020-02-28 2020-07-24 深圳壹账通智能科技有限公司 Big data-based voice generation method, device, equipment and medium
CN111531552A (en) * 2020-03-13 2020-08-14 华南理工大学 Psychological accompanying robot and emotion support method
CN111899717A (en) * 2020-07-29 2020-11-06 北京如影智能科技有限公司 Voice reply method and device
CN113707184B (en) * 2021-08-30 2023-05-05 北京金山云网络技术有限公司 Method and device for determining emotion characteristics, electronic equipment and storage medium

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004259238A (en) * 2003-02-25 2004-09-16 Kazuhiko Tsuda Feeling understanding system in natural language analysis
JP2010020390A (en) * 2008-07-08 2010-01-28 Toyota Central R&D Labs Inc Emotion estimation device and emotion estimation program
JP5772448B2 (en) * 2011-09-27 2015-09-02 富士ゼロックス株式会社 Speech analysis system and speech analysis apparatus

Also Published As

Publication number Publication date
JP2018132624A (en) 2018-08-23

Similar Documents

Publication Publication Date Title
US11423904B2 (en) Method and system of audio false keyphrase rejection using speaker recognition
JP6766675B2 (en) Voice dialogue device
US10062379B2 (en) Adaptive beam forming devices, methods, and systems
JP6731326B2 (en) Voice interaction device and voice interaction method
JP5018773B2 (en) Voice input system, interactive robot, voice input method, and voice input program
JP5411807B2 (en) Channel integration method, channel integration apparatus, and program
JP5051882B2 (en) Voice dialogue apparatus, voice dialogue method, and robot apparatus
JP2016080944A (en) Speech synthesis device and program
JP5431282B2 (en) Spoken dialogue apparatus, method and program
JP2014191029A (en) Voice recognition system and method for controlling voice recognition system
KR20200025226A (en) Electronic apparatus and thereof control method
WO2010128560A1 (en) Voice recognition device, voice recognition method, and voice recognition program
US8793128B2 (en) Speech signal processing system, speech signal processing method and speech signal processing method program using noise environment and volume of an input speech signal at a time point
CN114373472A (en) Audio noise reduction method, device and system and storage medium
JP6772881B2 (en) Voice dialogue device
JP2019197182A (en) Voice interaction system, voice interaction method and program
CN112634879B (en) Voice conference management method, device, equipment and medium
JP2018087847A (en) Dialogue control device, its method and program
JPWO2017051627A1 (en) Voice utterance device, voice utterance method and program
JP6736225B2 (en) Interactive device, interactive device control method, and program
JP2018205512A (en) Electronic apparatus and noise suppression program
JP2018017776A (en) Voice interactive device
JP3846500B2 (en) Speech recognition dialogue apparatus and speech recognition dialogue processing method
JP2020177106A (en) Voice interaction control method, voice interaction control device and program
KR102699782B1 (en) Schedule management system and method for controlling the same

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191115

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200728

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200818

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200831

R151 Written notification of patent or utility model registration

Ref document number: 6766675

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151