JP2012181697A - Dialog system, interaction control method, and program - Google Patents
Dialog system, interaction control method, and program Download PDFInfo
- Publication number
- JP2012181697A JP2012181697A JP2011044406A JP2011044406A JP2012181697A JP 2012181697 A JP2012181697 A JP 2012181697A JP 2011044406 A JP2011044406 A JP 2011044406A JP 2011044406 A JP2011044406 A JP 2011044406A JP 2012181697 A JP2012181697 A JP 2012181697A
- Authority
- JP
- Japan
- Prior art keywords
- interaction
- state
- speaker
- rule
- amount
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Abstract
Description
本発明は、対話システム、対話制御方法およびプログラムに関する。より詳しくは在宅で、問診などの情報収集を行うために人間との会話を行う対話システム、対話制御方法およびプログラムに関する。 The present invention relates to a dialog system, a dialog control method, and a program. More specifically, the present invention relates to a dialogue system, a dialogue control method, and a program for performing conversation with a human at home to collect information such as an inquiry.
会話による自然なコミュニケーションを行うためには、適切な発話タイミング制御や韻律制御、および頷きなどの身体的制御が必要となる。問診などの情報収集を円滑に行うには、その日のユーザの状態に合わせて、適切な発話タイミング制御や韻律制御および頷きなどの身体的制御が必要となる。 Appropriate utterance control, prosodic control, and physical control such as whispering are necessary for natural communication through conversation. In order to smoothly collect information such as medical interviews, appropriate speech timing control, prosodic control, and physical control such as whispering are required according to the state of the user on that day.
非特許文献1および非特許文献2は、発話の音響的特徴とキーワードを素性とし、人間同士の対話を決定木で機械学習することにより適切な発話タイミングで相槌や応答を行う対話システムに関するものである。この対話システムは、オフラインでの対話学習から導出される人間の平均的な状態を考慮して相槌や話者交替のタイミングを生成している。非特許文献1または2の対話システムでは、リアルタイムに相手の発話に同調的に発話を生成することはできない。
Non-Patent
非特許文献3は、上記対話システムを発展させて、リアルタイムで応答タイミングを生成させる技術を開示している。しかし非特許文献3の音声対話システムでは、対話システムと人間の韻律情報や発話の「間(ま)」(交替潜時)のギャップをどのようにシステムが解消していくのかについては示されていない。 Non-Patent Document 3 discloses a technique for developing the above-described dialog system and generating response timing in real time. However, in the spoken dialogue system of Non-Patent Document 3, it is shown how the system resolves the gap between the dialogue system and human prosodic information and utterances. Absent.
特許文献1には、話者の感性に即した円滑な対話を行うことを目的とする音声対話装置が開示されている。特許文献1の音声対話装置は、通常状態では、応答音声の発話までのポーズ時間及び発話速度が、話者の発話速度に応じた状態となるように制御される。応答音声の出力期間中に、話者側で応答音声が早期に終わって欲しいと感じるイベントが発生したときには、応答音声の発話速度を、そのピッチを変化させることなく、それまでの速度より連続的に高速化するように制御する。
Japanese Patent Application Laid-Open No. 2004-151867 discloses a voice dialogue apparatus for the purpose of performing a smooth dialogue in accordance with the sensitivity of a speaker. In the normal state, the speech dialogue apparatus of
ロボットの制御技術として、特許文献2には、ロボットの可動部の運動を周期運動と捉え、その位相を調整することで大局的な姿勢安定制御を行なうことが記載されている。特許文献2では、不整地踏破性を目的として、位相を離散的に制御する方法を用いている。 As a robot control technique, Patent Document 2 describes that the movement of a movable part of a robot is regarded as a periodic movement, and a global posture stability control is performed by adjusting the phase thereof. In patent document 2, the method of discretely controlling the phase is used for the purpose of rough terrain breakthrough.
特許文献1の音声対話装置は、応答音声の発話の韻律特徴(ポーズ時間や発話速度)を、人間の発話速度に応じた状態になるように制御するものであり、人間の要求に応じて話速変換するものである。しかし、発話速度の調整だけでは、自然な対話は実現できず、発話の間や音調などを適応的に制御できる仕組みが必要となる。
The speech dialogue apparatus of
在宅で問診などの毎日の情報収集をユーザに負担をかけずに行うには、ユーザの体調やメンタル面での変化などから起因するコミュニケーションに関する状態量をリアルタイムに把握し、持続的に情報収集を適切に行う必要がある。ここで、課題となるのが、自然なコミュニケーションの中で的確な情報収集を行うことである。 In order to collect daily information such as interviews at home without placing a burden on the user, we can grasp the amount of state related to communication resulting from changes in the user's physical condition and mental aspects in real time and collect information continuously. It needs to be done properly. Here, the issue is to collect accurate information through natural communication.
ユーザに精神的負担がかからない自然なコミュニケーションを実現するためには、話者交替タイミングで代表されるような、対話システムのリズムとユーザのリズムが同調していることが前提である。対話システムは、ハードウェアとして実体を持つロボットを介するもの、または実体をもたないロボット(CG:コンピュータグラフィックス表現されたもの)を介する構成がある。ロボットのリズムがユーザのリズムとギャップがあったとき、ロボットがユーザのリズムを探索し、ロボットのリズムをユーザのリズムに近づけることにより同調現象を誘発させることは可能であるが、一方的に、ロボットのコミュニケーション制御パラメータをユーザのそれに近づけることが、自然なコミュニケーションを実現するとは言い難い。一時的にコミュニケーションは成立するが、長期的に全体を通して評価すると不自然なコミュニケーションであって、ロボット固有の印象を壊してしまい、ユーザがロボットとのコミュニケーションに対してストレスを感じ、持続的なコミュニケーションができなくなってしまう可能性がある。 In order to realize natural communication that does not impose a mental burden on the user, it is premised that the rhythm of the dialogue system and the rhythm of the user, as represented by the speaker change timing, are synchronized. The dialogue system has a configuration via a robot having an entity as hardware or via a robot (CG: computer graphics expression) having no entity. When the robot rhythm has a gap with the user's rhythm, the robot can search for the user's rhythm and bring the robot's rhythm closer to the user's rhythm. It is hard to say that bringing the communication control parameters of the robot closer to that of the user will realize natural communication. Communication is established temporarily, but it is unnatural communication when evaluated over the long term, destroying the impression unique to the robot, the user feels stressed about communication with the robot, and continuous communication May become impossible.
また、コミュニケーションを進めていく中で、コミュニケーション同調が断絶することが多々存在し、どのようにリアルタイムでコミュニケーションギャップを解決するかが課題となる。それには、ユーザとロボット間のコミュニケーションのダイナミクスを考慮してコミュニケーション制御方式を設計する必要がある。このコミュニケーションダイナミクスをモデル化する一般的な方法論として、制御すべき状態量の挙動のダイナミクスを、連続値をとる状態方程式で表現する方式が考えられる。同調現象は、心臓のペースメーカや電子回路の共振モデルなどで用いられている振動子の原理に基づき状態方程式を用いて表現可能である。本発明におけるコミュニケーション状態量は、話者交替時の「間(ま)」(交替潜時)の状態量や発話区間のピッチ、パワーまたはモーラを含む韻律特徴の状態量、および/または、頷きなどの身体的挙動を示す状態量と考えている。これらのコミュニケーション状態量の同調現象を状態方程式により表現し、連続的に、ユーザとロボット間の引き込み制御(連続的引き込み制御)を行う方式が想定される。 In addition, there are many cases where communication synchronization is interrupted in the course of communication, and how to solve the communication gap in real time is an issue. To do this, it is necessary to design a communication control method considering the communication dynamics between the user and the robot. As a general methodology for modeling the communication dynamics, a method of expressing the dynamics of the behavior of the state quantity to be controlled by a state equation taking a continuous value is conceivable. The tuning phenomenon can be expressed using a state equation based on the principle of a vibrator used in a heart pacemaker or a resonance model of an electronic circuit. The communication state quantity in the present invention includes the state quantity of “between” (alternative latency) at the time of speaker change, the state quantity of prosodic features including the pitch, power, or mora of the utterance section, and / or whispering, etc. It is considered as a state quantity that indicates the physical behavior of the child. It is assumed that a synchronization phenomenon of these communication state quantities is expressed by a state equation and a pull-in control (continuous pull-in control) between the user and the robot is continuously performed.
しかし、このような物理的な同調モデルだけでは、ユーザとロボット間の引き込み制御を行うことは困難である。たとえば、ロボットの交替潜時とユーザの交替潜時とにギャップがあったとき、ロボットがユーザの交替潜時を探索し、ロボットの交替潜時をユーザの交替潜時に近づけることにより同調現象を誘発させることは可能であるが、一方的に、ロボットの交替潜時をユーザのそれに近づけることが、自然で持続的なコミュニケーションを実現することは言い難い。また、同調現象が発現するまでに、ユーザがコミュニケーションを諦めてしまう可能性もあり、コミュニケーションの早い段階から同調現象を発現させる必要がある。 However, it is difficult to perform the pull-in control between the user and the robot only with such a physical tuning model. For example, when there is a gap between the robot's change latency and the user's change latency, the robot searches for the user's change latency and induces the synchronization phenomenon by bringing the robot change latency closer to the user's change latency. However, it is difficult to say that bringing the robot's alternation latency closer to that of the user realizes natural and continuous communication. Further, there is a possibility that the user gives up communication before the synchronization phenomenon appears, and it is necessary to cause the synchronization phenomenon to appear from an early stage of communication.
さらに、より自然なコミュニケーションを実現するには、目的に沿った会話構造を意識する必要がある。会議での議論、雑談、癒し応答など目的に応じた会話構造がそれぞれ存在する。すべての会話の種類を扱える会話構造など存在せず、会話の種類に応じたモデルをたてないと、会話を自然に進めることができない。 Furthermore, in order to realize more natural communication, it is necessary to be conscious of the conversation structure according to the purpose. There are conversation structures according to the purpose, such as discussions at meetings, chats, and healing responses. There is no conversation structure that can handle all types of conversations, and conversations cannot be advanced naturally unless a model corresponding to the type of conversation is established.
本発明は、上記事情に鑑みてなされたもので、コミュニケーションギャップをリアルタイムに解決し、持続的かつ自然なコミュニケーションを行う対話システム、対話制御方法およびプログラムを提供することを目的とする。 The present invention has been made in view of the above circumstances, and an object of the present invention is to provide a dialog system, a dialog control method, and a program that solve a communication gap in real time and perform continuous and natural communication.
上記目的を達成するために、本発明の第1の観点に係る対話システムは、
話者の発話内容を認識する音声認識手段、およびその認識結果に応じて音声による聴覚的応答、および/または、身体的挙動の表現による視覚応答を出力する応答制御手段を備える対話システムであって、
前記話者の発話における、話者交替潜時、発話区間のピッチ、パワーまたはモーラを含む韻律特徴の状態量の検出、および/または、前記話者の身体的挙動を示す状態量の検出、を行う状態量検出手段と、
前記韻律特徴の状態量または前記身体的挙動を示す状態量を含むインタラクション状態量から、前記話者と前記応答制御手段とのインタラクション状態量のずれ量であるコミュニケーション同調ずれ量を算出する手段と、
前記応答制御手段のインタラクション状態量を変化させる規則であるインタラクションルールを記憶するルール記憶手段と、
前記コミュニケーション同調ずれ量に基づいて、前記ルール記憶手段から前記インタラクションルールを選択するルール選択手段と、
同調モデルを表す状態方程式による連続的な引き込み制御により、前記コミュニケーション同調ずれ量を最小化すると同時に、前記ルール選択手段で選択したインタラクションルールによる離散的な引き込み制御により、前記話者のインタラクション状態量を前記対話システムのインタラクション状態量に近づけていくこと、または、前記対話システムのインタラクション状態量を前記話者のインタラクション状態量に近づけつつ前記話者のインタラクション状態量を前記対話システムのインタラクション状態量に近づけていく同調制御手段と、
を備えることを特徴とする。
In order to achieve the above object, an interactive system according to the first aspect of the present invention provides:
An interactive system comprising speech recognition means for recognizing the utterance content of a speaker, and response control means for outputting an auditory response by voice and / or a visual response by expression of physical behavior according to the recognition result ,
Detection of state quantities of prosodic features including speaker alternation latency, pitch of speech section, power or mora, and / or detection of state quantities indicating physical behavior of the speaker in the speaker's utterance State quantity detection means to perform;
Means for calculating a communication synchronization deviation amount, which is a deviation amount of an interaction state amount between the speaker and the response control means, from an interaction state amount including the state amount of the prosodic feature or the state amount indicating the physical behavior;
Rule storage means for storing an interaction rule which is a rule for changing an interaction state quantity of the response control means;
Rule selection means for selecting the interaction rule from the rule storage means based on the communication synchronization deviation amount;
The amount of interaction state of the speaker is reduced by discrete pull-in control by the interaction rule selected by the rule selection means, while at the same time minimizing the communication tuning shift amount by continuous pull-in control by a state equation representing a tuning model. Approaching the interaction state quantity of the dialog system, or bringing the interaction state quantity of the dialog system close to the interaction state quantity of the speaker while bringing the interaction state quantity of the speaker close to the interaction state quantity of the dialog system Tuning control means to go,
It is characterized by providing.
本発明の第2の観点に係る対話制御方法は、
話者の発話内容を認識する音声認識手段、およびその認識結果に応じて音声による聴覚的応答、および/または、身体的挙動の表現による視覚応答を出力する応答制御手段を備える対話システムが行う対話制御方法であって、
前記話者の発話における、話者交替潜時、発話区間のピッチ、パワーまたはモーラを含む韻律特徴の状態量の検出、および/または、前記話者の身体的挙動を示す状態量の検出、を行う状態量検出ステップと、
前記韻律特徴の状態量または前記身体的挙動を示す状態量を含むインタラクション状態量から、前記話者と前記応答制御手段とのインタラクション状態量のずれ量であるコミュニケーション同調ずれ量を算出するステップと、
前記コミュニケーション同調ずれ量に基づいて、前記応答制御手段のインタラクション状態量を変化させる規則であるインタラクションルールを記憶するルール記憶手段から、前記インタラクションルールを選択するルール選択ステップと、
同調モデルを表す状態方程式による連続的な引き込み制御により、前記コミュニケーション同調ずれ量を最小化すると同時に、前記ルール選択ステップで選択したインタラクションルールによる離散的な引き込み制御により、前記話者のインタラクション状態量を前記対話システムのインタラクション状態量に近づけていくこと、または、前記対話システムのインタラクション状態量を前記話者のインタラクション状態量に近づけつつ前記話者のインタラクション状態量を前記対話システムのインタラクション状態量に近づけていく同調制御ステップと、
を備えることを特徴とする。
The dialogue control method according to the second aspect of the present invention includes:
Dialogue performed by a dialogue system comprising speech recognition means for recognizing the utterance content of a speaker, and response control means for outputting an auditory response by voice and / or a visual response by expression of physical behavior according to the recognition result A control method,
Detection of state quantities of prosodic features including speaker alternation latency, pitch of speech section, power or mora, and / or detection of state quantities indicating physical behavior of the speaker in the speaker's utterance A state quantity detection step to be performed;
Calculating a communication synchronization deviation amount, which is a deviation amount of an interaction state amount between the speaker and the response control means, from an interaction state amount including the state amount of the prosodic feature or the state amount indicating the physical behavior;
A rule selection step of selecting the interaction rule from a rule storage unit that stores an interaction rule that is a rule for changing an interaction state amount of the response control unit based on the communication synchronization deviation amount;
The communication state deviation amount is minimized by continuous pull-in control by a state equation representing a tuning model, and at the same time, the interaction state amount of the speaker is determined by discrete pull-in control by the interaction rule selected in the rule selection step. Approaching the interaction state quantity of the dialog system, or bringing the interaction state quantity of the dialog system close to the interaction state quantity of the speaker while bringing the interaction state quantity of the speaker close to the interaction state quantity of the dialog system The tuning control step
It is characterized by providing.
本発明の第3の観点に係るプログラムは、
話者の発話内容を認識する音声認識手段、およびその認識結果に応じて音声による聴覚的応答、および/または、身体的挙動の表現による視覚応答を出力する応答制御手段を備える対話システムを制御するコンピュータに、
話者の発話における、話者交替潜時、発話区間のピッチ、パワーまたはモーラを含む韻律特徴の状態量の検出、および/または、前記話者の身体的挙動を示す状態量の検出、を行う状態量検出ステップと、
前記韻律特徴の状態量または前記身体的挙動を示す状態量を含むインタラクション状態量から、前記話者と前記応答制御手段とのインタラクション状態量のずれ量であるコミュニケーション同調ずれ量を算出するステップと、
前記コミュニケーション同調ずれ量に基づいて、前記応答制御手段のインタラクション状態量を変化させる規則であるインタラクションルールを記憶するルール記憶手段から、前記インタラクションルールを選択するルール選択ステップと、
同調モデルを表す状態方程式による連続的な引き込み制御により、前記コミュニケーション同調ずれ量を最小化すると同時に、前記ルール選択ステップで選択したインタラクションルールによる離散的な引き込み制御により、前記話者のインタラクション状態量を前記対話システムのインタラクション状態量に近づけていくこと、または、前記対話システムのインタラクション状態量を前記話者のインタラクション状態量に近づけつつ前記話者のインタラクション状態量を前記対話システムのインタラクション状態量に近づけていく同調制御ステップと、
を実行させることを特徴とする。
The program according to the third aspect of the present invention is:
Controlling a dialogue system comprising voice recognition means for recognizing the utterance content of a speaker, and response control means for outputting an auditory response by voice and / or a visual response by expression of physical behavior according to the recognition result On the computer,
In the speaker's utterance, detection of the state of the prosody feature including the alternation latency of the speaker, the pitch of the utterance section, the power or the mora, and / or the state amount indicating the physical behavior of the speaker is performed. A state quantity detection step;
Calculating a communication synchronization deviation amount, which is a deviation amount of an interaction state amount between the speaker and the response control means, from an interaction state amount including the state amount of the prosodic feature or the state amount indicating the physical behavior;
A rule selection step of selecting the interaction rule from a rule storage unit that stores an interaction rule that is a rule for changing an interaction state amount of the response control unit based on the communication synchronization deviation amount;
The communication state deviation amount is minimized by continuous pull-in control by a state equation representing a tuning model, and at the same time, the interaction state amount of the speaker is determined by discrete pull-in control by the interaction rule selected in the rule selection step. Approaching the interaction state quantity of the dialog system, or bringing the interaction state quantity of the dialog system close to the interaction state quantity of the speaker while bringing the interaction state quantity of the speaker close to the interaction state quantity of the dialog system The tuning control step
Is executed.
本発明によれば、コミュニケーションギャップをリアルタイムに解決し、持続的かつ自然なコミュニケーションを通じて、毎日の情報収集を継続的に行うように、対話システムの制御を行うことができる。 ADVANTAGE OF THE INVENTION According to this invention, a communication gap can be solved in real time, and a dialog system can be controlled so that daily information collection may be continuously performed through continuous and natural communication.
本発明では、対話システムにおける同調モデルの連続的引き込み制御の枠組みの中で、コミュニケーション同調ずれ量を最小化する過程において、学習モデルにより選択されたインタラクションルールを、適応タイミングを考慮した離散的な引き込み制御により、ユーザの状態量を対話システムの状態量に近づけていくこと、または、対話システムの状態量をユーザの状態量に近づけつつユーザの状態量を対話システムの状態量に近づけていくことによって、ユーザと対話システムのコミュニケーション同調を早期から発現させる新しい対話制御方法を提案する。 In the present invention, the interaction rule selected by the learning model is discretely drawn in consideration of the adaptation timing in the process of minimizing the amount of communication tuning deviation in the framework of continuous pull-in control of the tuning model in the dialogue system. By controlling, the user's state quantity approaches the dialog system state quantity, or the user's state quantity approaches the dialog system state quantity while the dialog system state quantity approaches the user state quantity. Then, we propose a new dialogue control method that enables early communication synchronization between users and dialogue systems.
本発明を実施するための形態について図面を参照して詳細に説明する。以下に示す本発明の各実施の形態に係る対話システムは、持続的かつ自然なコミュニケーションを通じて、毎日の情報収集を、ストレスを与えずに、継続的にコミュニケーション制御を行うことができるものである。 Embodiments for carrying out the present invention will be described in detail with reference to the drawings. The dialogue system according to each embodiment of the present invention described below is capable of continuous communication control without applying stress to daily information collection through continuous and natural communication.
(実施の形態1)
まず、本発明の実施の形態に係る対話システムの構成ついて説明する。実施の形態では、以後、対話システムをロボットシステムに置き換えて説明する。ロボットシステムは、物質的な実体を伴わない、コンピュータ画面上に表現されたキャラクタであってもよい。対話システムは、視覚的にいわゆるロボットの形態をもたない場合がある。対話システムは、音声のみによる音声対話システムの場合を含む。
(Embodiment 1)
First, the configuration of the dialogue system according to the embodiment of the present invention will be described. In the embodiment, hereinafter, the dialogue system will be described by replacing it with a robot system. The robot system may be a character represented on a computer screen without a material entity. An interactive system may not visually have a so-called robot form. The dialogue system includes a case of a voice dialogue system using only voice.
図1には、本実施の形態に係るロボットシステムの概略的な構成が示されている。ロボットシステム10は、センシング部11、インタラクション状態量算出部12、コミュニケーション同調制御部13、インタラクションルール学習履歴部19、状態方程式パラメータ学習履歴部20、および、ロボットインタラクション制御部14を備える。
FIG. 1 shows a schematic configuration of the robot system according to the present embodiment. The
センシング部11は、例えばマイクロフォンとカメラを備える。マイクロフォンは、ユーザPの発話した音声を電気信号に変換し、音声データを生成する。センシング部11は、カメラでユーザPを撮影し、その動画像データを生成する。センシング部11は、生成した音声データおよび動画像データをセンシングデータとして、インタラクション状態量算出部12に送る。
The
インタラクション状態量算出部12は、ユーザPの音声から発話内容を音声認識して、ロボットインタラクション制御部14に送る。インタラクション状態量算出部12は、センシングデータに基づき、インタラクション状態量、例えば、話者交替の交替潜時や、発話の基本周波数(F0)・パワー・モーラ長などを算出し、頷きなどの身体動作のイベントなどの検出を行う。インタラクション状態量算出部12は、これらのインタラクション状態量(以下、単に状態量ともいう)をコミュニケーション同調制御部13に送る。
The interaction state
コミュニケーション同調制御部13は、連続的引き込み制御部15、状態方程式パラメータ記憶部16、離散的引き込み制御部17およびインタラクションルール記憶部18を含む。インタラクションルールは、ロボットシステム10のインタラクション状態量を変化させる規則である。連続的引き込み制御部15は、ユーザPのインタラクション状態量とロボットシステム10のインタラクション状態量を入力として、状態方程式パラメータ記憶部16の状態方程式パラメータを用いて、パラメータ学習された状態方程式による連続的引き込制御を行う。離散的引き込み制御部17は、インタラクションルール記憶部18からインタラクションルールを選択して、学習されたインタラクションルールによる離散的引き込み制御を行う。コミュニケーション同調制御部13は、これらの引き込み制御によってロボットシステム10のインタラクションの制御情報を生成し、ロボットインタラクション制御部14に指令する。
The communication
最後に、ロボットインタラクション制御部14は、インタラクション状態量算出部12で音声認識したデータと、コミュニケーション同調制御部13からインタラクションの制御情報を与えられ、ロボットシステム10の発話や動作に関するインタラクションを生成する。ロボットインタラクション制御部14は、ロボットシステム10の発話や動作に関するインタラクションを生成して、音声合成によって音声を出力する。また、生成したインタラクションに従って、ロボットシステム10の腕、顔、体の動作を行う。
Finally, the robot
インタラクションルール学習履歴部19は、後述するインタラクションルールの学習結果を格納する。状態方程式パラメータ学習履歴部20は、後述する状態方程式パラメータの学習結果を格納する。以下、ユーザPとロボットシステム10のインタラクション状態量にギャップがあった場合に、コミュニケーション同調制御部13がインタラクションの制御情報を生成する方法を説明する。
The interaction rule
図2は、引き込み制御方式のパターンを示す図である。図2では、理解を容易にするため、状態量を1次元で表している。状態量は一般には多次元であって、状態量の変化は状態量空間の軌跡で表される。図2に示されるように、ユーザPとロボットシステム10の状態量のギャップが大きい場合は、同調現象は生じず、同調が発現する状態量のレベルを探索する必要がある。同調現象は、非線形振動子によりモデル化が可能である。本実施の形態では、Van der Pol方程式により定式化を行う。同調させるユーザPおよびロボットシステム10の時刻tの位相をそれぞれx(t)、y(t)とし、観測される状態量の波形変位をF(x,y,t)とすると、非線形振動子は、式
x’(t) = y(t)
y’(t) = ε( 1 − x2(t)) y(t) + α×F(x,y,t) (1)
により定式化される。この連立常微分方程式の解の軌道はリミットサイクルとなっている。ここで、εは非線形性を示し、ε>0のとき安定なリミットサイクルをもつ。αは影響度パラメータである。
FIG. 2 is a diagram illustrating a pattern of the pull-in control method. In FIG. 2, the state quantity is represented in one dimension for easy understanding. The state quantity is generally multidimensional, and the change in the state quantity is represented by a locus in the state quantity space. As shown in FIG. 2, when the gap between the state quantities of the user P and the
y ′ (t) = ε (1 −x 2 (t)) y (t) + α × F (x, y, t) (1)
Is formulated by The orbit of the solution of this simultaneous ordinary differential equation is a limit cycle. Here, ε represents nonlinearity, and has a stable limit cycle when ε> 0. α is an influence parameter.
式(1)は、観測される状態量が単一となっているが、複数の観測される状態量からなる空間において、同調させる場合には、一般的には、α×F(x,y,t)の項を、
α×F(x,y,t)+β×G(x,y,t)+・・・
のように線形結合することにより実現される。また、複数の状態量について、それぞれ独立に方程式を立て、独立に制御してもよい。状態量間の独立性がはっきりしており、状態量間の相互関係がない場合は、独立制御の方が適している。線形結合か独立制御かは状態量の関係性により決定する。
In the equation (1), the observed state quantity is single. However, when tuning is performed in a space composed of a plurality of observed state quantities, generally, α × F (x, y , T)
α × F (x, y, t) + β × G (x, y, t) +.
This is realized by linear combination as follows. Further, an equation may be established independently for each of the plurality of state quantities and controlled independently. When the independence between the state quantities is clear and there is no correlation between the state quantities, the independent control is more suitable. Whether it is linear combination or independent control is determined by the relationship between the state quantities.
式(1)に示されるような同調モデルによりコミュニケーション制御を行うには、同調が発現する状態量へ誘導する必要がある。ロボットシステム10の状態量とユーザPの状態量とにギャップがあったとき、図2(a)に示すように、ロボットシステム10がユーザPの状態量を探索し、ロボットシステム10の状態量をユーザPの状態量に近づけることにより同調現象を誘発させることは可能である。しかし、従順的に、ロボットシステム10のコミュニケーション制御パラメータをユーザPのそれに近づけることは、一時的にはコミュニケーションは成立するが、ロボットシステム10の固有の印象も壊してしまい、ユーザPがコミュニケーションに対してストレスを感じ、持続的なコミュニケーションができなくなってしまう可能性がある。
In order to perform communication control by the tuning model as shown in the equation (1), it is necessary to induce to a state quantity in which tuning is expressed. When there is a gap between the state quantity of the
図2(b)に示すように、強制的にユーザPの状態量をロボットシステム10の状態量に近づけるように、ロボットシステム10のインタラクションルールを起動する戦略もある。しかし、この戦略は必ず成功するとは限らない。そこで例えば、図2(c)に示すように、ロボットシステム10の状態量を一旦、ユーザPの状態量に近づけ、その後、徐々にロボットシステム10の元の状態量に引き込むように、ロボットシステム10の状態量を変化させる。このように、インタラクションルールを起動しつつ、ロボットシステム10の状態量を適応的にユーザPの状態量に近づけ、同調の発現を加速させる方が、ユーザPへの負荷を低減させつつ、ロボットシステム10自身が有する自然な印象を維持できる。
As shown in FIG. 2B, there is also a strategy for starting the interaction rule of the
インタラクションルールには、それを起動するタイミング(ギャップの条件など)、同調動作の方向と変化の速さ、引き込みに転じるタイミング、引き込みの変化の速さなどのパラメータがありうる。状態量が多次元の場合は、ギャップもベクトルであって、インタラクションルールは1つとは限らない。また、インタラクションルールの同調動作の変化のパターンは1つとは限らない。 The interaction rule may have parameters such as the timing of starting it (gap conditions, etc.), the direction of the tuning operation and the speed of change, the timing of turning to pull-in, and the speed of change of pull-in. When the state quantity is multidimensional, the gap is also a vector, and the number of interaction rules is not necessarily one. Further, the change pattern of the interaction operation of the interaction rule is not necessarily one.
コミュニケーション同調制御部13は、上述のように状態量のギャップに応じてインタラクションルールを選択する。選択したインタラクションルールを起動したのち、例えば、コミュニケーションの同調発現の継続時間、または発話の量などによってインタラクションルールを評価する。すなわち、選択したインタラクションルールに対応して、そのときの同調発現継続時間または発話の量などを記憶し、過去の実績の平均(または直近の移動平均など)が大きいインタラクションルールを選択する。あるいは、インタラクションルールのパラメータを変化させて、同調発現の継続時間と発話量の評価値が大きいパラメータに収束させる。コミュニケーション同調制御部13は、このようにインタラクションルールの学習結果をインタラクションルール学習履歴部19に記憶させる。
The communication
図3は、ユーザ状態量に基づく適応的引き込み制御の例を示す。図3に示すように、コミュニケーション同調を進めていく中で、コミュニケーション同調が途中で断絶することが多々存在しえる。このような場合には、どのようなインタラクションルールをどのタイミングで起動すべきかが重要となる。このようなインタラクションルールの選択は、インタラクションルール学習履歴に基づき行われる。 FIG. 3 shows an example of adaptive pull-in control based on user state quantities. As shown in FIG. 3, there are many cases in which communication synchronization is interrupted during the progress of communication synchronization. In such a case, what kind of interaction rule should be activated at which timing is important. Selection of such an interaction rule is performed based on the interaction rule learning history.
図4は、インタラクションルール学習による同調発現の加速を示す図である。コミュニケーション同調制御部13は、状態量の差が同調発現レベルまで最急勾配(最短時間)で低減させるインタラクションルールを選択する。
FIG. 4 is a diagram illustrating acceleration of synchronized expression by interaction rule learning. The communication
図5は、インタラクションルールによる引き込み制御の相転移を示す図である。図5に示すように、一旦リミットサイクルに入れば、軌道は位相安定点に収束していくが、多次元の状態量空間では、安定収束点を有するリミットサイクルは一般に複数ある。適切なインタラクションルールを適用することにより、より安定なリミットサイクルに相転移させることが可能となる。 FIG. 5 is a diagram illustrating a phase transition of the pull-in control based on the interaction rule. As shown in FIG. 5, once the limit cycle is entered, the trajectory converges to a phase stable point. However, in a multidimensional state quantity space, there are generally a plurality of limit cycles having stable convergence points. By applying an appropriate interaction rule, it is possible to make a phase transition to a more stable limit cycle.
図6は、話者交替の間の状態量と発話区間の韻律特徴の状態量から構成されるインタラクション状態量の引き込み制御過程を示す。ここでは、話者交替の間の状態量として、交替潜時(発話終了からと相手の発話が始まるまでの時間)を取り上げている。交替潜時の代わりに発話間隔(発話開始から相手の発話が開始されるまでの時間)でもよい。交替潜時の時間間隔のユーザPとロボットシステム10とのずれ量は、式(1)で示される同調モデルの状態方程式により、安定なリミットサイクルの中で振動しながら収束し、最小化される。
FIG. 6 shows an interaction state amount pull-in control process composed of the state amount during the speaker change and the state amount of the prosodic feature in the utterance section. Here, the change latency (time from the end of the utterance to the start of the other party's utterance) is taken up as the state quantity during the speaker change. An utterance interval (time from the start of utterance to the start of the other party's utterance) may be used instead of the alternate latency. The deviation amount between the user P and the
また、韻律特徴として代表的な基本周波数F0(ピッチ特徴)をとりあげて説明する。基本周波数(F0)はサンプリング間隔の各時刻で算出され、発話区間の中で平均化した平均F0値を、発話区間を代表する基本周波数とする。発話区間を代表する基本周波数は、発話句末モーラの基本周波数でもよい。ここで、同調制御の観点から、基本周波数の絶対量の値で制御をかけるのではなく、基本周波数の変化の度合いにより制御をかける方針をとる。なぜなら、基本周波数は声質にも依存しており個人差があるので、絶対量では同調制御は困難であるからである。 A typical fundamental frequency F 0 (pitch feature) will be described as a prosodic feature. The fundamental frequency (F 0 ) is calculated at each time of the sampling interval, and an average F 0 value averaged in the utterance interval is set as a fundamental frequency representing the utterance interval. The fundamental frequency representing the utterance interval may be the fundamental frequency of the utterance phrase ending mora. Here, from the viewpoint of tuning control, the policy is not to apply the control with the absolute value of the fundamental frequency but to apply the control according to the degree of change of the fundamental frequency. This is because the fundamental frequency depends on the voice quality and there are individual differences, so that tuning control is difficult with absolute amounts.
基本周波数の変化の度合いは、1ターン前の発話区間の基本周波数と、現在のターンの発話区間の基本周波数の変動の値として定義し、この変動パターンを、同調制御の入力とする。式(1)の状態方程式に基づいて同調制御してもよいが、線形予測を行う状態方程式により同調制御を行ってもよい。具体的には、現在のターンをtとし、1つ前のターンを(t−1)としたとき、現在のターンのロボットシステム10の発話区間の基本周波数を、(t−1)ターンのユーザPの発話区間の基本周波数と、(t−1)ターンのロボットシステム10の発話区間の基本周波数から同じ変動パターンになるように状態制御をかけ算出してもよい。
The degree of change of the fundamental frequency is defined as a value of fluctuation of the fundamental frequency of the utterance section one turn before and the fundamental frequency of the utterance section of the current turn, and this fluctuation pattern is used as an input for tuning control. Although the tuning control may be performed based on the state equation of Expression (1), the tuning control may be performed by a state equation that performs linear prediction. Specifically, when the current turn is t and the previous turn is (t−1), the fundamental frequency of the utterance section of the
コミュニケーション同調制御部13は、インタラクションルールと同じように、状態方程式のパラメータについても同調発現の継続時間または発話量などで評価し、学習結果を状態方程式パラメータ学習履歴部20に記憶する。そして、学習結果を参照して、状態量のギャップに合わせて、最も早く同調発現し、同調発現の継続時間が長くなるパラメータに設定する。
Similar to the interaction rule, the communication
以上説明したように、本実施の形態の対話システムによれば、コミュニケーションギャップをリアルタイムに解決し、持続的かつ自然なコミュニケーションを行うように、対話システムの制御を行うことができる。 As described above, according to the dialog system of the present embodiment, the dialog system can be controlled so as to solve the communication gap in real time and perform continuous and natural communication.
(実施の形態2)
ユーザの状態量を対話システムの状態量に近づけていくこと、または、対話システムの状態量をユーザの状態量に近づけつつユーザの状態量を対話システムの状態量に近づけていく連続的引き込み制御と離散的引き込み制御の過程において、ユーザがストレスを感じることがあっては持続的なコミュニケーションは成立しない。ストレスは、心電図のR−R間隔の変動から交換神経指標や副交換神経指標の自律神経指標を算出することにより測定することは可能であるが、センサを装着することへの抵抗感は否めない。
(Embodiment 2)
Continuous pull-in control in which the user's state quantity is brought close to the dialog system state quantity, or the user's state quantity is brought close to the dialog system state quantity while the dialog system state quantity is brought close to the user's state quantity. If the user feels stress in the process of discrete pull-in control, continuous communication cannot be established. Stress can be measured by calculating an autonomic nerve index such as an exchange nerve index or an accessory nerve index from a change in an RR interval of an electrocardiogram, but a sense of resistance to wearing a sensor cannot be denied. .
心理学の分野では、性格や社会スキルに関するアンケート項目が確立されており、性格や社会スキルの違いにより、対話システムがユーザの状態量へ近づける戦略を決定することができる。たとえば、性格に依存傾向がある場合には、ユーザの状態量を対話システムの状態量に近づけてもストレスを結果的に感じず、独立傾向がある場合には、最初からユーザの状態量を対話システムの状態量に近づけるよりも、一旦、ユーザの状態量に近づけてから対話システムの状態量に引き込む方がストレスを感じない傾向がある。 In the field of psychology, questionnaire items related to personality and social skills have been established, and the strategy for the dialogue system to approach the state quantity of the user can be determined based on the difference in personality and social skills. For example, if there is a tendency to depend on personality, even if the user's state quantity is close to the state quantity of the dialog system, no stress will be felt as a result. Rather than approaching the system state quantity, there is a tendency that stress is not felt when it is brought closer to the user state quantity and then drawn into the dialog system state quantity.
これらのユーザパーソナリティ情報を事前に獲得しておいてもよいが、日々のユーザの個性は状況に応じて変化する場合がある。このような場合では、対話システムがユーザとの会話による情報収集のプロセスの中で新しいパーソナリティ情報を取得した方がより効果的であると考えられる。 These user personality information may be acquired in advance, but the daily personality of the user may change depending on the situation. In such a case, it is considered more effective that the interactive system acquires new personality information in the process of collecting information through conversation with the user.
本実施の形態2では、事前に判定された性格や社会スキルから構成されるユーザパーソナリティ情報に従い、ロボットシステム10がユーザの状態量へ近づける戦略を決定し、コミュニケーション時のユーザのストレスを許容範囲内に抑えつつ、ユーザとロボットシステム10のコミュニケーションにおける同調を早期に発現させる対話制御方法を採用する。
In the second embodiment, a strategy for the
図7は、本発明の実施の形態2に係るロボットシステムの構成例を示すブロック図である。実施の形態2のロボットシステム10は、実施の形態1の構成に加えて、ユーザパーソナリティ情報データベース21を備える。ユーザパーソナリティ情報データベース21は、ユーザPの性格および/または社会スキルから構成されるユーザパーソナリティ情報を格納する。
FIG. 7 is a block diagram illustrating a configuration example of the robot system according to the second embodiment of the present invention. The
コミュニケーション同調制御部13は、会話を行っているユーザPのユーザパーソナリティ情報をユーザパーソナリティ情報データベース21から取得し、ロボットシステム10がユーザPの状態量へ近づけるインタラクションルールを、ユーザパーソナリティ情報に基づいてユーザPごとに決定する。コミュニケーション時のユーザPのストレスを許容範囲内に抑えることにより、ユーザPとロボットシステム10のコミュニケーションにおける同調を、ストレスを軽減させた状態で、早期に発現させることが可能となる。
The communication
(実施の形態3)
本実施の形態3では、在宅での問診などの情報収集ロボットを目標としており、ロボットが積極的に共感したり、エピソードに働きかける要素を情報収集の会話構造モデルに入れることにより、自然で持続的な情報収集の実現を図る。本実施の形態3では、聞き出しモード、応答・共感モード、エピソード展開モードの3つのコミュニケーションモードの遷移モデルを想定する。そして、そのモード毎に、同調モデルを表す状態方程式のパラメータやインタラクションルールを適応的に変化させることにより、ユーザとロボット間の自然なコミュニケーションを最大化させる。
(Embodiment 3)
In this third embodiment, the goal is an information gathering robot for home-based interviews, etc., and the robot actively sympathizes with it, and by putting elements that act on episodes into the conversation structure model of information gathering, it is natural and sustainable. Realization of information collection. In the third embodiment, a transition model of three communication modes of a listening mode, a response / sympathy mode, and an episode development mode is assumed. For each mode, the natural communication between the user and the robot is maximized by adaptively changing the parameters of the state equation representing the tuning model and the interaction rules.
コミュニケーションモードとは、聞き出しモード、応答・共感モードおよびエピソード展開モードを含む、発話に対する話者の関わり方である。また、会話構造(モデル)は、コミュニケーションモードの遷移する順序(モデル)である。 The communication mode is how the speaker relates to the utterance including the listening mode, the response / sympathy mode, and the episode development mode. The conversation structure (model) is the order (model) in which the communication mode transitions.
話者交替の交代潜時の状態量は、会話全体にわたり共通的に同調制御される。しかし、韻律情報の状態量は、会話全体にわたり同調制御がかかるものではなく、会話構造の中で、選択的に同調制御を行う必要がある。 The state quantity of the change latency of the speaker change is tuned in common throughout the conversation. However, the state quantity of prosodic information is not subject to tuning control over the entire conversation, and it is necessary to selectively perform tuning control within the conversation structure.
図8は、本発明の実施の形態3に係るロボットシステムの構成例を示すブロック図である。実施の形態3のロボットシステム10は、実施の形態1の構成に加えて、会話構造モデル記述部22および会話戦略記述部23を備える。会話構造モデル記述部22は、会話構造の状態遷移モデルを格納する。会話戦略記述部23は、会話の目的および状態と、会話構造モデルとを対応づけるデータを格納する。会話の目的には、例えば、問診、情報提供、励まし、気分転換などがある。会話の状態とは、例えば問診の場合には、初めてか2回目以降何回目か、2回目以降の場合の前回の会話からの経過時間、過去の会話の継続時間および発話量などをいう。会話戦略記述部23は、会話の目的と状態の分類ごとに、採用すべき会話構造モデルを規定する。
FIG. 8 is a block diagram illustrating a configuration example of the robot system according to the third embodiment of the present invention. The
図9は、問診のような情報収集タスクの会話構造モデルを表している。問診は、例えば聞き出しモードから、応答・共感モードに遷移し、エピソード展開モードを介して、情報収集を行う。図10は、ロボットが情報収集→共感→話題の想起を行うことで、ユーザの関心度向上・やる気の発現に至る因果関係を図式化したものである。ロボットシステム10が働きかける会話構造としては、図9の状態遷移で十分であると考えている。
FIG. 9 shows a conversation structure model of an information collection task such as an inquiry. In the inquiry, for example, the mode is changed from the listening mode to the response / sympathy mode, and information is collected through the episode development mode. FIG. 10 is a schematic diagram of the causal relationship leading to improvement of the degree of interest of the user and expression of motivation by the robot collecting information → sympathy → recalling the topic. As the conversation structure that the
このような会話構造の中で、効果的な会話状態のときに、韻律同調をかけるものとする。聞き出しモードなど、要求を行う場合などでは、同調に必要な呼応関係が希薄であるので、韻律同調は効果的に働かない。それに対して、応答・共感モードでは、相槌や呼応関係が頻繁に起こってくる。したがって、韻律同調が効果的に働くと予想される。以上より、会話構造モデルに基づく遷移の中で、韻律同調は、例えば図11に示すように、選択的に同調制御を行うこととする。インタラクションルールについても、会話構造モデルに基づく状態遷移の中で、選択的に適用する必要がある。 It is assumed that prosody tuning is applied in an effective conversation state in such a conversation structure. When making a request such as a listening mode, prosody tuning does not work effectively because the responsiveness required for tuning is sparse. In contrast, in the response / sympathy mode, conflicts and responsiveness frequently occur. Therefore, prosody tuning is expected to work effectively. As described above, in the transition based on the conversation structure model, the tuning of prosody is selectively performed as shown in FIG. Interaction rules also need to be selectively applied during state transitions based on the conversation structure model.
図11には、聞き出しモードで句末モーラの基本周波数(F0)上昇ルールによる離散的引き込み制御を適用し、応答・共感モードでは韻律同調の状態方程式による連続的引き込み制御を行うことが示されている。各モードに共通して、句末モーラ長長音付加ルール、相槌に呼応した頷き生成ルールなどの共通インタラクションルールによる離散的引き込み制御を適用している。また、各モードに共通して、交替潜時の同調の状態方程式による連続的引き込みを適用することが示されている。 FIG. 11 shows that the discrete pull-in control by the fundamental frequency (F 0 ) increase rule of the phrase end mora is applied in the listening mode, and the continuous pull-in control by the state equation of prosodic tuning is performed in the response / sympathy mode. ing. In each mode, discrete pull-in control based on common interaction rules such as a phrase end mora long sound addition rule and a whispering generation rule in response to the conflict is applied. In addition, it is shown that the continuous pull-in by the state equation of the tuning at the alternation latency is applied in common to each mode.
図12(a)は、句末モーラの基本周波数(F0)の上昇を行うインタラクションルールを示している。このルールは、聞き出しモードでの活用に適しており、次に続くユーザの発話の韻律レベルを上昇させる効果を有する。 FIG. 12A shows an interaction rule for increasing the fundamental frequency (F 0 ) of the phrase end mora. This rule is suitable for use in the listening mode, and has the effect of increasing the prosodic level of the subsequent user's utterance.
このような選択的な適用が適しているインタラクションルールと、共通的な適用が適しているルールがある。図12(b)は、句末モーラを伸ばす長音付加ルールの適用の効果を示している。このルールは、「間」(交替潜時)を伸展する効果を有しており、ユーザの発話タイミングが遅い場合に、ロボットシステム10の発話タイミングの同調を加速するときに適用される。また、相槌に呼応した頷き生成ルールなども会話構造モデルに無関係に共通的に働くインタラクションルールである。どのタイミングで、どのようなルールを適用するかは、会話構造モデルの中で、ルール適用履歴をもとに決定木などの学習技術により決定される。たとえば、頷き生成ルールとしては、図13に示すような決定木が考えられる。
There are interaction rules suitable for such selective application, and rules suitable for common application. FIG. 12B shows the effect of applying the long sound addition rule that extends the phrase end mora. This rule has the effect of extending “between” (alternative latency), and is applied when accelerating the synchronization of the utterance timing of the
以上、本実施の形態3の引き込み制御方式は、大きくは状態方程式による連続的引き込み制御とインタラクションルールによる離散的引き込み制御の2層構造になっており、会話構造モデルの中で共通的または選択的に制御が行われ、情報収集タスクにおいて、ユーザとロボットシステム間の自然なコミュニケーションを最大化させることが可能となる。 As described above, the pull-in control method of the third embodiment has a two-layer structure of continuous pull-in control based on the state equation and discrete pull-in control based on the interaction rule, and is common or selective in the conversation structure model. Thus, it is possible to maximize natural communication between the user and the robot system in the information collection task.
(実施の形態4)
ユーザの状態量を対話システムの状態量に近づけていくことまたは、対話システムの状態量をユーザの状態量に近づけつつユーザの状態量を対話システムの状態量に近づけていく連続的引き込み制御と離散的引き込み制御の過程において、実施の形態1、実施の形態2および実施の形態3を組み合わせることにより、ユーザと対話システムのコミュニケーションにおける同調を早期に発現させるとともに、ユーザと対話システム間の自然なコミュニケーションを最大化させることを特徴とする対話システムの対話制御方法を実現することが可能となる。
(Embodiment 4)
Continuous pull-in control and discrete operation to bring the user's state quantity close to the dialog system state quantity, or to bring the user's state quantity close to the dialog system state quantity while bringing the dialog system state quantity close to the user's state quantity In the process of automatic pull-in control, by combining the first embodiment, the second embodiment, and the third embodiment, the communication between the user and the dialogue system is expressed early, and the natural communication between the user and the dialogue system is performed. It is possible to realize a dialogue control method of a dialogue system characterized by maximizing the value of the dialogue system.
図14は、本発明の実施の形態4に係るロボットシステムの構成例を示すブロック図である。実施の形態4のロボットシステム10は、実施の形態2と実施の形態3の構成を合わせた構成になっている。すなわち、実施の形態1の構成に、ユーザパーソナリティ情報データベース21、会話構造モデル記述部22および会話戦略記述部23を追加した構成である。
FIG. 14 is a block diagram showing a configuration example of a robot system according to Embodiment 4 of the present invention. The
実施の形態4では具体的には、事前に判定された性格や社会スキルから構成されるユーザパーソナリティ情報データベース21の内容に従い、コミュニケーション同調制御部13においてロボットシステム10がユーザPの状態量へ近づける戦略を決定する。それに合わせて、現在の会話状態がどの会話状態かを会話構造モデルと比較し判定し、聞き出しモード、応答・共感モード、エピソード展開モードの特性によって同調モデルを表す状態方程式のパラメータやインタラクションルールを適応的に変化させる。このようにして、ユーザPとロボットシステム10のコミュニケーションにおける同調を早期に発現させるとともに、ユーザPとロボットシステム10間の自然なコミュニケーションを最大化させることができる。
Specifically, in the fourth embodiment, the strategy in which the
(実施の形態の変形)
上記の実施の形態の対話制御方法は、対話システム対1人のユーザを想定している。実施の形態1ないし4のロボットシステム10を、ロボットシステム対複数人のユーザにも容易に拡張可能である。例えば、複数人ユーザの平均的な状態量をユーザグループの代表的な状態量として定義する、または、最悪ケースのユーザ(たとえば、交替潜時が一番長いユーザ)の状態量をユーザグループの代表的な状態量として定義することができる。複数のユーザを代表する状態量を定義することにより、グループユーザの代表的な状態量をロボットシステムの状態量に近づけていくこと、または、ロボットシステムの状態量をグループユーザの代表的な状態量に近づけつつグループユーザの代表的な状態量をロボットシステムの状態量に近づけていく連続的引き込み制御と離散的引き込み制御の過程に拡張することができる。
(Modification of the embodiment)
The dialog control method of the above embodiment assumes a dialog system versus one user. The
図15は、本発明の実施の形態に係るロボットシステムの物理的な構成例を示すブロック図である。 FIG. 15 is a block diagram illustrating a physical configuration example of the robot system according to the embodiment of the present invention.
ロボットシステム10は、図15に示すように、制御部31、主記憶部32、外部記憶部33、操作部34、表示部35、入出力部36および送受信部37を備える。主記憶部32、外部記憶部33、操作部34、表示部35、入出力部36および送受信部37はいずれも内部バス30を介して制御部31に接続されている。
As shown in FIG. 15, the
制御部31はCPU(Central Processing Unit)等から構成され、外部記憶部33に記憶されている制御プログラム39に従って、音声会話のインタラクション制御のための処理を実行する。
The
主記憶部32はRAM(Random-Access Memory)等から構成され、外部記憶部33に記憶されている制御プログラム39をロードし、制御部31の作業領域として用いられる。
The
外部記憶部33は、フラッシュメモリ、ハードディスク、DVD−RAM(Digital Versatile Disc Random-Access Memory)、DVD−RW(Digital Versatile Disc ReWritable)等の不揮発性メモリから構成され、上述の処理を制御部31に行わせるための制御プログラム39を予め記憶し、また、制御部31の指示に従って、この制御プログラム39が記憶するデータを制御部31に供給し、制御部31から供給されたデータを記憶する。
The
操作部34はキーボードおよびマウスなどのポインティングデバイス等と、キーボードおよびポインティングデバイス等を内部バス30に接続するインタフェース装置から構成されている。操作部34を介して、ユーザの情報、状態方程式パラメータ、インタラクションルール、ユーザパーソナリティ情報、会話構造モデル、会話戦略または各種の判定条件などが入力され、制御部31に供給される。
The
表示部35は、CRT(Cathode Ray Tube)もしくはLCD(Liquid Crystal Display)、およびスピーカなどから構成され、ロボットシステム10の発声を出力する。また、ロボットをコンピュータ画面上のキャラクタで表現する場合は、ロボットのキャラクタを表示する。そのほか、ユーザの情報、状態方程式パラメータ、インタラクションルール、ユーザパーソナリティ情報、会話構造モデル、会話戦略などを表示する。
The
入出力部36は、シリアルインタフェースまたはパラレルインタフェースから構成されている。入出力部36に位置センサ、撮像装置およびマイク(いずれも図示せず)などが接続される。さらに、ロボットが実体的な顔、腕および脚を備えてそれらを作動させる場合は、制御部は、入出力部を介して、それらのアクチュエータに制御信号を指令し、それらのセンサが検出するデータを入力する。
The input /
送受信部37は、無線送受信機、無線モデムまたは網終端装置、およびそれらと接続するシリアルインタフェースまたはLAN(Local Area Network)インタフェースから構成されている。送受信部37を介して、ユーザの発話を認識したデータを送信する。また、ユーザパーソナリティ情報をネットワーク経由で収集する。
The transmission /
ロボットシステム10の センシング部11、インタラクション状態量算出部12、コミュニケーション同調制御部13、ロボットインタラクション制御部14、インタラクションルール学習履歴部19、状態方程式パラメータ学習履歴部20、ユーザパーソナリティ情報データベース21、会話構造モデル記述部22、会話戦略記述部23などの処理は、制御プログラム39が、制御部31、主記憶部32、外部記憶部33、操作部34、表示部35、入出力部36および送受信部37などを資源として用いて処理することによって実行する。
その他、前記のハードウエア構成やフローチャートは一例であり、任意に変更および修正が可能である。 In addition, the above-described hardware configuration and flowchart are examples, and can be arbitrarily changed and modified.
制御部31、主記憶部32、外部記憶部33、操作部34、内部バス30などから構成される制御処理を行う中心となる部分は、専用のシステムによらず、通常のコンピュータシステムを用いて実現可能である。たとえば、前記の動作を実行するためのコンピュータプログラムを、コンピュータが読み取り可能な記録媒体(フレキシブルディスク、CD−ROM、DVD−ROM等)に格納して配布し、当該コンピュータプログラムをコンピュータにインストールすることにより、前記の処理を実行するロボットシステム10を構成してもよい。また、インターネット等の通信ネットワーク上のサーバ装置が有する記憶装置に当該コンピュータプログラムを格納しておき、通常のコンピュータシステムがダウンロード等することでロボットシステム10を構成してもよい。
The central part that performs control processing including the
また、ロボットシステム10の機能を、OS(オペレーティングシステム)とアプリケーションプログラムの分担、またはOSとアプリケーションプログラムとの協働により実現する場合などには、アプリケーションプログラム部分のみを記録媒体や記憶装置に格納してもよい。
Further, when the functions of the
また、搬送波にコンピュータプログラムを重畳し、通信ネットワークを介して配信することも可能である。たとえば、通信ネットワーク上の掲示板(BBS:Bulletin Board System)に前記コンピュータプログラムを掲示し、ネットワークを介して前記コンピュータプログラムを配信してもよい。そして、このコンピュータプログラムを起動し、OSの制御下で、他のアプリケーションプログラムと同様に実行することにより、前記の処理を実行できるように構成してもよい。 It is also possible to superimpose a computer program on a carrier wave and distribute it via a communication network. For example, the computer program may be posted on a bulletin board (BBS: Bulletin Board System) on a communication network, and the computer program may be distributed via the network. The computer program may be started and executed in the same manner as other application programs under the control of the OS, so that the above-described processing may be executed.
上記の実施形態の一部または全部は、以下の付記のようにも記載されうるが、以下には限られない。 A part or all of the above-described embodiment can be described as in the following supplementary notes, but is not limited thereto.
(付記1)
話者の発話内容を認識する音声認識手段、およびその認識結果に応じて音声による聴覚的応答、および/または、身体的挙動の表現による視覚応答を出力する応答制御手段を備える対話システムであって、
前記話者の発話における、話者交替潜時、発話区間のピッチ、パワーまたはモーラを含む韻律特徴の状態量の検出、および/または、前記話者の身体的挙動を示す状態量の検出、を行う状態量検出手段と、
前記韻律特徴の状態量または前記身体的挙動を示す状態量を含むインタラクション状態量から、前記話者と前記応答制御手段とのインタラクション状態量のずれ量であるコミュニケーション同調ずれ量を算出する手段と、
前記応答制御手段のインタラクション状態量を変化させる規則であるインタラクションルールを記憶するルール記憶手段と、
前記コミュニケーション同調ずれ量に基づいて、前記ルール記憶手段から前記インタラクションルールを選択するルール選択手段と、
同調モデルを表す状態方程式による連続的な引き込み制御により、前記コミュニケーション同調ずれ量を最小化すると同時に、前記ルール選択手段で選択したインタラクションルールによる離散的な引き込み制御により、前記話者のインタラクション状態量を前記対話システムのインタラクション状態量に近づけていくこと、または、前記対話システムのインタラクション状態量を前記話者のインタラクション状態量に近づけつつ前記話者のインタラクション状態量を前記対話システムのインタラクション状態量に近づけていく同調制御手段と、
を備えることを特徴とする対話システム。
(Appendix 1)
An interactive system comprising speech recognition means for recognizing the utterance content of a speaker, and response control means for outputting an auditory response by voice and / or a visual response by expression of physical behavior according to the recognition result ,
Detection of state quantities of prosodic features including speaker alternation latency, pitch of speech section, power or mora, and / or detection of state quantities indicating physical behavior of the speaker in the speaker's utterance State quantity detection means to perform;
Means for calculating a communication synchronization deviation amount, which is a deviation amount of an interaction state amount between the speaker and the response control means, from an interaction state amount including the state amount of the prosodic feature or the state amount indicating the physical behavior;
Rule storage means for storing an interaction rule which is a rule for changing an interaction state quantity of the response control means;
Rule selection means for selecting the interaction rule from the rule storage means based on the communication synchronization deviation amount;
The amount of interaction state of the speaker is reduced by discrete pull-in control by the interaction rule selected by the rule selection means, while at the same time minimizing the communication tuning shift amount by continuous pull-in control by a state equation representing a tuning model. Approaching the interaction state quantity of the dialog system, or bringing the interaction state quantity of the dialog system close to the interaction state quantity of the speaker while bringing the interaction state quantity of the speaker close to the interaction state quantity of the dialog system Tuning control means to go,
A dialogue system characterized by comprising:
(付記2)
前記話者の性格および/または社会スキルを表すユーザパーソナリティ情報を取得する手段を備え、
前記ルール選択手段は、前記ユーザパーソナリティ情報に基づいて、会話の進行に合わせて選択する前記インタラクションルールの順序を決定することを特徴とする付記1に記載の対話システム。
(Appendix 2)
Means for obtaining user personality information representing the personality and / or social skills of the speaker;
The dialog system according to
(付記3)
会話の聞き出しモード、応答・共感モードおよびエピソード展開モードを含むコミュニケーションモードの、遷移する順序を規定する会話構造モデルを記憶する構造モデル記憶手段と、
前記会話構造モデルに従って遷移する前記コミュニケーションモードに基づいて、前記同調モデルを表す状態方程式のパラメータ、および/または、前記インタラクションルールを変化させる適応制御手段と、
を備えることを特徴とする付記1または2に記載の対話システム。
(Appendix 3)
A structure model storage means for storing a conversation structure model that defines a transition order of communication modes including a conversation listening mode, a response / sympathy mode, and an episode development mode;
Adaptive control means for changing a parameter of a state equation representing the tuning model and / or the interaction rule based on the communication mode transitioning according to the conversation structure model;
The interactive system according to
(付記4)
話者の発話内容を認識する音声認識手段、およびその認識結果に応じて音声による聴覚的応答、および/または、身体的挙動の表現による視覚応答を出力する応答制御手段を備える対話システムが行う対話制御方法であって、
前記話者の発話における、話者交替潜時、発話区間のピッチ、パワーまたはモーラを含む韻律特徴の状態量の検出、および/または、前記話者の身体的挙動を示す状態量の検出、を行う状態量検出ステップと、
前記韻律特徴の状態量または前記身体的挙動を示す状態量を含むインタラクション状態量から、前記話者と前記応答制御手段とのインタラクション状態量のずれ量であるコミュニケーション同調ずれ量を算出するステップと、
前記コミュニケーション同調ずれ量に基づいて、前記応答制御手段のインタラクション状態量を変化させる規則であるインタラクションルールを記憶するルール記憶手段から、前記インタラクションルールを選択するルール選択ステップと、
同調モデルを表す状態方程式による連続的な引き込み制御により、前記コミュニケーション同調ずれ量を最小化すると同時に、前記ルール選択ステップで選択したインタラクションルールによる離散的な引き込み制御により、前記話者のインタラクション状態量を前記対話システムのインタラクション状態量に近づけていくこと、または、前記対話システムのインタラクション状態量を前記話者のインタラクション状態量に近づけつつ前記話者のインタラクション状態量を前記対話システムのインタラクション状態量に近づけていく同調制御ステップと、
を備えることを特徴とする対話制御方法。
(Appendix 4)
Dialogue performed by a dialogue system comprising speech recognition means for recognizing the utterance content of a speaker, and response control means for outputting an auditory response by voice and / or a visual response by expression of physical behavior according to the recognition result A control method,
Detection of state quantities of prosodic features including speaker alternation latency, pitch of speech section, power or mora, and / or detection of state quantities indicating physical behavior of the speaker in the speaker's utterance A state quantity detection step to be performed;
Calculating a communication synchronization deviation amount, which is a deviation amount of an interaction state amount between the speaker and the response control means, from an interaction state amount including the state amount of the prosodic feature or the state amount indicating the physical behavior;
A rule selection step of selecting the interaction rule from a rule storage unit that stores an interaction rule that is a rule for changing an interaction state amount of the response control unit based on the communication synchronization deviation amount;
The communication state deviation amount is minimized by continuous pull-in control by a state equation representing a tuning model, and at the same time, the interaction state amount of the speaker is determined by discrete pull-in control by the interaction rule selected in the rule selection step. Approaching the interaction state quantity of the dialog system, or bringing the interaction state quantity of the dialog system close to the interaction state quantity of the speaker while bringing the interaction state quantity of the speaker close to the interaction state quantity of the dialog system The tuning control step
A dialogue control method comprising:
(付記5)
前記話者の性格および/または社会スキルを表すユーザパーソナリティ情報を取得するステップを備え、
前記ルール選択ステップは、前記ユーザパーソナリティ情報に基づいて、会話の進行に合わせて選択する前記インタラクションルールの順序を決定することを特徴とする付記4に記載の対話制御方法。
(Appendix 5)
Obtaining user personality information representing the personality and / or social skills of the speaker,
The dialog control method according to appendix 4, wherein the rule selection step determines the order of the interaction rules to be selected in accordance with the progress of the conversation based on the user personality information.
(付記6)
会話の聞き出しモード、応答・共感モードおよびエピソード展開モードを含むコミュニケーションモードの、遷移する順序を規定する会話構造モデルを設定する構造モデル記憶ステップと、
前記会話構造モデルに従って遷移する前記コミュニケーションモードに基づいて、前記同調モデルを表す状態方程式のパラメータ、および/または、前記インタラクションルールを変化させる適応制御ステップと、
を備えることを特徴とする付記4または5に記載の対話制御方法。
(Appendix 6)
A structure model storage step for setting a conversation structure model that defines a transition order of communication modes including a conversation listening mode, a response / sympathy mode, and an episode development mode;
An adaptive control step of changing a parameter of a state equation representing the tuning model and / or the interaction rule based on the communication mode transitioning according to the conversation structure model;
The dialog control method according to appendix 4 or 5, characterized by comprising:
(付記7)
話者の発話内容を認識する音声認識手段、およびその認識結果に応じて音声による聴覚的応答、および/または、身体的挙動の表現による視覚応答を出力する応答制御手段を備える対話システムを制御するコンピュータに、
話者の発話における、話者交替潜時、発話区間のピッチ、パワーまたはモーラを含む韻律特徴の状態量の検出、および/または、前記話者の身体的挙動を示す状態量の検出、を行う状態量検出ステップと、
前記韻律特徴の状態量または前記身体的挙動を示す状態量を含むインタラクション状態量から、前記話者と前記応答制御手段とのインタラクション状態量のずれ量であるコミュニケーション同調ずれ量を算出するステップと、
前記コミュニケーション同調ずれ量に基づいて、前記応答制御手段のインタラクション状態量を変化させる規則であるインタラクションルールを記憶するルール記憶手段から、前記インタラクションルールを選択するルール選択ステップと、
同調モデルを表す状態方程式による連続的な引き込み制御により、前記コミュニケーション同調ずれ量を最小化すると同時に、前記ルール選択ステップで選択したインタラクションルールによる離散的な引き込み制御により、前記話者のインタラクション状態量を前記対話システムのインタラクション状態量に近づけていくこと、または、前記対話システムのインタラクション状態量を前記話者のインタラクション状態量に近づけつつ前記話者のインタラクション状態量を前記対話システムのインタラクション状態量に近づけていく同調制御ステップと、
を実行させることを特徴とするプログラム。
(Appendix 7)
Controlling a dialogue system comprising voice recognition means for recognizing the utterance content of a speaker, and response control means for outputting an auditory response by voice and / or a visual response by expression of physical behavior according to the recognition result On the computer,
In the speaker's utterance, detection of the state of the prosody feature including the alternation latency of the speaker, the pitch of the utterance section, the power or the mora, and / or the state amount indicating the physical behavior of the speaker is performed. A state quantity detection step;
Calculating a communication synchronization deviation amount, which is a deviation amount of an interaction state amount between the speaker and the response control means, from an interaction state amount including the state amount of the prosodic feature or the state amount indicating the physical behavior;
A rule selection step of selecting the interaction rule from a rule storage unit that stores an interaction rule that is a rule for changing an interaction state amount of the response control unit based on the communication synchronization deviation amount;
The communication state deviation amount is minimized by continuous pull-in control by a state equation representing a tuning model, and at the same time, the interaction state amount of the speaker is determined by discrete pull-in control by the interaction rule selected in the rule selection step. Approaching the interaction state quantity of the dialog system, or bringing the interaction state quantity of the dialog system close to the interaction state quantity of the speaker while bringing the interaction state quantity of the speaker close to the interaction state quantity of the dialog system The tuning control step
A program characterized by having executed.
10 ロボットシステム(対話システム)
11 センシング部
12 インタラクション状態量算出部
13 コミュニケーション同調制御部
14 ロボットインタラクション制御部
15 連続的引き込み制御部
16 状態方程式パラメータ記憶部
17 離散的引き込み制御部
18 インタラクションルール記憶部
19 インタラクションルール学習履歴部
20 状態方程式パラメータ学習履歴部
21 ユーザパーソナリティ情報データベース
22 会話構造モデル記述部
23 会話戦略記述部
30 内部バス
31 制御部
32 主記憶部
33 外部記憶部
34 操作部
35 表示部
36 入出力部
37 送受信部
39 制御プログラム
10 Robot system (dialogue system)
DESCRIPTION OF
Claims (5)
前記話者の発話における、話者交替潜時、発話区間のピッチ、パワーまたはモーラを含む韻律特徴の状態量の検出、および/または、前記話者の身体的挙動を示す状態量の検出、を行う状態量検出手段と、
前記韻律特徴の状態量または前記身体的挙動を示す状態量を含むインタラクション状態量から、前記話者と前記応答制御手段とのインタラクション状態量のずれ量であるコミュニケーション同調ずれ量を算出する手段と、
前記応答制御手段のインタラクション状態量を変化させる規則であるインタラクションルールを記憶するルール記憶手段と、
前記コミュニケーション同調ずれ量に基づいて、前記ルール記憶手段から前記インタラクションルールを選択するルール選択手段と、
同調モデルを表す状態方程式による連続的な引き込み制御により、前記コミュニケーション同調ずれ量を最小化すると同時に、前記ルール選択手段で選択したインタラクションルールによる離散的な引き込み制御により、前記話者のインタラクション状態量を前記対話システムのインタラクション状態量に近づけていくこと、または、前記対話システムのインタラクション状態量を前記話者のインタラクション状態量に近づけつつ前記話者のインタラクション状態量を前記対話システムのインタラクション状態量に近づけていく同調制御手段と、
を備えることを特徴とする対話システム。 An interactive system comprising speech recognition means for recognizing the utterance content of a speaker, and response control means for outputting an auditory response by voice and / or a visual response by expression of physical behavior according to the recognition result ,
Detection of state quantities of prosodic features including speaker alternation latency, pitch of speech section, power or mora, and / or detection of state quantities indicating physical behavior of the speaker in the speaker's utterance State quantity detection means to perform;
Means for calculating a communication synchronization deviation amount, which is a deviation amount of an interaction state amount between the speaker and the response control means, from an interaction state amount including the state amount of the prosodic feature or the state amount indicating the physical behavior;
Rule storage means for storing an interaction rule which is a rule for changing an interaction state quantity of the response control means;
Rule selection means for selecting the interaction rule from the rule storage means based on the communication synchronization deviation amount;
The amount of interaction state of the speaker is reduced by discrete pull-in control by the interaction rule selected by the rule selection means, while at the same time minimizing the communication tuning shift amount by continuous pull-in control by a state equation representing a tuning model. Approaching the interaction state quantity of the dialog system, or bringing the interaction state quantity of the dialog system close to the interaction state quantity of the speaker while bringing the interaction state quantity of the speaker close to the interaction state quantity of the dialog system Tuning control means to go,
A dialogue system characterized by comprising:
前記ルール選択手段は、前記ユーザパーソナリティ情報に基づいて、会話の進行に合わせて選択する前記インタラクションルールの順序を決定することを特徴とする請求項1に記載の対話システム。 Means for obtaining user personality information representing the personality and / or social skills of the speaker;
The dialog system according to claim 1, wherein the rule selection unit determines an order of the interaction rules to be selected in accordance with the progress of the conversation based on the user personality information.
前記会話構造モデルに従って遷移する前記コミュニケーションモードに基づいて、前記同調モデルを表す状態方程式のパラメータ、および/または、前記インタラクションルールを変化させる適応制御手段と、
を備えることを特徴とする請求項1または2に記載の対話システム。 A structure model storage means for storing a conversation structure model that defines a transition order of communication modes including a conversation listening mode, a response / sympathy mode, and an episode development mode;
Adaptive control means for changing a parameter of a state equation representing the tuning model and / or the interaction rule based on the communication mode transitioning according to the conversation structure model;
The dialogue system according to claim 1, further comprising:
前記話者の発話における、話者交替潜時、発話区間のピッチ、パワーまたはモーラを含む韻律特徴の状態量の検出、および/または、前記話者の身体的挙動を示す状態量の検出、を行う状態量検出ステップと、
前記韻律特徴の状態量または前記身体的挙動を示す状態量を含むインタラクション状態量から、前記話者と前記応答制御手段とのインタラクション状態量のずれ量であるコミュニケーション同調ずれ量を算出するステップと、
前記コミュニケーション同調ずれ量に基づいて、前記応答制御手段のインタラクション状態量を変化させる規則であるインタラクションルールを記憶するルール記憶手段から、前記インタラクションルールを選択するルール選択ステップと、
同調モデルを表す状態方程式による連続的な引き込み制御により、前記コミュニケーション同調ずれ量を最小化すると同時に、前記ルール選択ステップで選択したインタラクションルールによる離散的な引き込み制御により、前記話者のインタラクション状態量を前記対話システムのインタラクション状態量に近づけていくこと、または、前記対話システムのインタラクション状態量を前記話者のインタラクション状態量に近づけつつ前記話者のインタラクション状態量を前記対話システムのインタラクション状態量に近づけていく同調制御ステップと、
を備えることを特徴とする対話制御方法。 Dialogue performed by a dialogue system comprising speech recognition means for recognizing the utterance content of a speaker, and response control means for outputting an auditory response by voice and / or a visual response by expression of physical behavior according to the recognition result A control method,
Detection of state quantities of prosodic features including speaker alternation latency, pitch of speech section, power or mora, and / or detection of state quantities indicating physical behavior of the speaker in the speaker's utterance A state quantity detection step to be performed;
Calculating a communication synchronization deviation amount, which is a deviation amount of an interaction state amount between the speaker and the response control means, from an interaction state amount including the state amount of the prosodic feature or the state amount indicating the physical behavior;
A rule selection step of selecting the interaction rule from a rule storage unit that stores an interaction rule that is a rule for changing an interaction state amount of the response control unit based on the communication synchronization deviation amount;
The communication state deviation amount is minimized by continuous pull-in control by a state equation representing a tuning model, and at the same time, the interaction state amount of the speaker is determined by discrete pull-in control by the interaction rule selected in the rule selection step. Approaching the interaction state quantity of the dialog system, or bringing the interaction state quantity of the dialog system close to the interaction state quantity of the speaker while bringing the interaction state quantity of the speaker close to the interaction state quantity of the dialog system The tuning control step
A dialogue control method comprising:
話者の発話における、話者交替潜時、発話区間のピッチ、パワーまたはモーラを含む韻律特徴の状態量の検出、および/または、前記話者の身体的挙動を示す状態量の検出、を行う状態量検出ステップと、
前記韻律特徴の状態量または前記身体的挙動を示す状態量を含むインタラクション状態量から、前記話者と前記応答制御手段とのインタラクション状態量のずれ量であるコミュニケーション同調ずれ量を算出するステップと、
前記コミュニケーション同調ずれ量に基づいて、前記応答制御手段のインタラクション状態量を変化させる規則であるインタラクションルールを記憶するルール記憶手段から、前記インタラクションルールを選択するルール選択ステップと、
同調モデルを表す状態方程式による連続的な引き込み制御により、前記コミュニケーション同調ずれ量を最小化すると同時に、前記ルール選択ステップで選択したインタラクションルールによる離散的な引き込み制御により、前記話者のインタラクション状態量を前記対話システムのインタラクション状態量に近づけていくこと、または、前記対話システムのインタラクション状態量を前記話者のインタラクション状態量に近づけつつ前記話者のインタラクション状態量を前記対話システムのインタラクション状態量に近づけていく同調制御ステップと、
を実行させることを特徴とするプログラム。 Controlling a dialogue system comprising voice recognition means for recognizing the utterance content of a speaker, and response control means for outputting an auditory response by voice and / or a visual response by expression of physical behavior according to the recognition result On the computer,
In the speaker's utterance, detection of the state of the prosody feature including the alternation latency of the speaker, the pitch of the utterance section, the power or the mora, and / or the state amount indicating the physical behavior of the speaker is performed. A state quantity detection step;
Calculating a communication synchronization deviation amount, which is a deviation amount of an interaction state amount between the speaker and the response control means, from an interaction state amount including the state amount of the prosodic feature or the state amount indicating the physical behavior;
A rule selection step of selecting the interaction rule from a rule storage unit that stores an interaction rule that is a rule for changing an interaction state amount of the response control unit based on the communication synchronization deviation amount;
The communication state deviation amount is minimized by continuous pull-in control by a state equation representing a tuning model, and at the same time, the interaction state amount of the speaker is determined by discrete pull-in control by the interaction rule selected in the rule selection step. Approaching the interaction state quantity of the dialog system, or bringing the interaction state quantity of the dialog system close to the interaction state quantity of the speaker while bringing the interaction state quantity of the speaker close to the interaction state quantity of the dialog system The tuning control step
A program characterized by having executed.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011044406A JP2012181697A (en) | 2011-03-01 | 2011-03-01 | Dialog system, interaction control method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011044406A JP2012181697A (en) | 2011-03-01 | 2011-03-01 | Dialog system, interaction control method, and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2012181697A true JP2012181697A (en) | 2012-09-20 |
Family
ID=47012843
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011044406A Withdrawn JP2012181697A (en) | 2011-03-01 | 2011-03-01 | Dialog system, interaction control method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2012181697A (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017162268A (en) * | 2016-03-10 | 2017-09-14 | 国立大学法人大阪大学 | Dialog system and control program |
JP2017173873A (en) * | 2016-03-18 | 2017-09-28 | ヤフー株式会社 | Information providing device and information providing method |
US10832119B2 (en) | 2017-06-08 | 2020-11-10 | Hitachi, Ltd. | Interactive agent for imitating and reacting to a user based on user inputs |
US11276420B2 (en) | 2018-11-09 | 2022-03-15 | Hitachi, Ltd. | Interaction system, apparatus, and non-transitory computer readable storage medium |
-
2011
- 2011-03-01 JP JP2011044406A patent/JP2012181697A/en not_active Withdrawn
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017162268A (en) * | 2016-03-10 | 2017-09-14 | 国立大学法人大阪大学 | Dialog system and control program |
JP2017173873A (en) * | 2016-03-18 | 2017-09-28 | ヤフー株式会社 | Information providing device and information providing method |
US10832119B2 (en) | 2017-06-08 | 2020-11-10 | Hitachi, Ltd. | Interactive agent for imitating and reacting to a user based on user inputs |
US11276420B2 (en) | 2018-11-09 | 2022-03-15 | Hitachi, Ltd. | Interaction system, apparatus, and non-transitory computer readable storage medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6614356B2 (en) | Performance analysis method, automatic performance method and automatic performance system | |
Keller | Ensemble performance: Interpersonal alignment of musical expression | |
JP6597903B2 (en) | Music data processing method and program | |
JP4465768B2 (en) | Speech synthesis apparatus and method, and recording medium | |
CN110265021A (en) | Personalized speech exchange method, robot terminal, device and readable storage medium storing program for executing | |
Tilsen | Multitimescale dynamical interactions between speech rhythm and gesture | |
CN109478398B (en) | Control method and control device | |
JP2013154458A (en) | Device, program, and method for conversation | |
WO2020045658A1 (en) | Robot and voice generation program | |
JP2012181697A (en) | Dialog system, interaction control method, and program | |
CN108369804A (en) | Interactive voice equipment and voice interactive method | |
JP7383943B2 (en) | Control system, control method, and program | |
JPWO2018030149A1 (en) | INFORMATION PROCESSING APPARATUS AND INFORMATION PROCESSING METHOD | |
Kondaurova et al. | Vocal turn-taking between mothers and their children with cochlear implants | |
JP7420220B2 (en) | Trained model establishment method, estimation method, performance agent recommendation method, performance agent adjustment method, trained model establishment system, estimation system, trained model establishment program and estimation program | |
Palmer et al. | Interactions in ensemble music performance: Empirical and mathematical accounts | |
Khouzaimi et al. | A methodology for turn-taking capabilities enhancement in Spoken Dialogue Systems using Reinforcement Learning | |
Rach et al. | Emotion recognition based preference modelling in argumentative dialogue systems | |
WO2020158036A1 (en) | Information processing device | |
Moore | Spoken language processing: time to look outside? | |
US20220414472A1 (en) | Computer-Implemented Method, System, and Non-Transitory Computer-Readable Storage Medium for Inferring Audience's Evaluation of Performance Data | |
JP7388542B2 (en) | Performance agent training method, automatic performance system, and program | |
JP6424419B2 (en) | Voice control device, voice control method and program | |
JP6375604B2 (en) | Voice control device, voice control method and program | |
Beller | Expresso: transformation of expressivity in speech |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20140513 |