JP2021117371A - Information processor, information processing method and information processing program - Google Patents
Information processor, information processing method and information processing program Download PDFInfo
- Publication number
- JP2021117371A JP2021117371A JP2020011190A JP2020011190A JP2021117371A JP 2021117371 A JP2021117371 A JP 2021117371A JP 2020011190 A JP2020011190 A JP 2020011190A JP 2020011190 A JP2020011190 A JP 2020011190A JP 2021117371 A JP2021117371 A JP 2021117371A
- Authority
- JP
- Japan
- Prior art keywords
- information
- speaker
- utterance
- information processing
- processing device
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010365 information processing Effects 0.000 title claims description 273
- 238000003672 processing method Methods 0.000 title claims description 6
- 230000004044 response Effects 0.000 claims abstract description 141
- 230000008451 emotion Effects 0.000 claims abstract description 68
- 230000002996 emotional effect Effects 0.000 claims description 115
- 238000000034 method Methods 0.000 claims description 49
- 230000008569 process Effects 0.000 claims description 41
- 230000014509 gene expression Effects 0.000 claims description 18
- 238000002360 preparation method Methods 0.000 claims description 13
- 230000002889 sympathetic effect Effects 0.000 claims description 4
- 230000001419 dependent effect Effects 0.000 claims description 2
- 230000003993 interaction Effects 0.000 abstract 1
- 230000006870 function Effects 0.000 description 54
- 238000004891 communication Methods 0.000 description 49
- 239000003795 chemical substances by application Substances 0.000 description 16
- 230000033001 locomotion Effects 0.000 description 16
- 238000001514 detection method Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 238000004458 analytical method Methods 0.000 description 7
- 230000003287 optical effect Effects 0.000 description 6
- 230000008921 facial expression Effects 0.000 description 5
- 238000003384 imaging method Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 230000001771 impaired effect Effects 0.000 description 4
- 230000007774 longterm Effects 0.000 description 4
- 230000002354 daily effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 239000000945 filler Substances 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 101100110018 Arabidopsis thaliana ASK3 gene Proteins 0.000 description 2
- 235000002566 Capsicum Nutrition 0.000 description 2
- 208000032041 Hearing impaired Diseases 0.000 description 2
- 239000006002 Pepper Substances 0.000 description 2
- 241000722363 Piper Species 0.000 description 2
- 235000016761 Piper aduncum Nutrition 0.000 description 2
- 235000017804 Piper guineense Nutrition 0.000 description 2
- 235000008184 Piper nigrum Nutrition 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 101100398412 Arabidopsis thaliana ASK1 gene Proteins 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 241001122315 Polites Species 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000009118 appropriate response Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000006735 deficit Effects 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 239000003607 modifier Substances 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 230000000474 nursing effect Effects 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
Description
本開示は、情報処理装置、情報処理方法および情報処理プログラムに関する。 The present disclosure relates to information processing devices, information processing methods and information processing programs.
近年、音声の認識精度の向上により、ユーザ(話者)の発話を理解し、話者と対話を行うシステムが普及してきている。例えば、話者の発話の理解度を示すために、入力された発話をテキスト化して表示するシステムが一般化してきている。このシステムは、例えば、スマートスピーカ等のスピーカ型やPepper(登録商標)等の人型の対話エージェントとして実現されている。 In recent years, due to the improvement of voice recognition accuracy, a system that understands a user's (speaker's) utterance and interacts with the speaker has become widespread. For example, in order to show the degree of understanding of a speaker's utterance, a system in which the input utterance is converted into text and displayed has become common. This system is realized, for example, as a speaker-type dialogue agent such as a smart speaker or a human-type dialogue agent such as Pepper (registered trademark).
しかしながら、発話が複雑な場合、テキストが長々と表示されてしまう場合もあり、話者の発話を理解していることが伝わりにくかった。また、表示デバイスに話者の発話の認識結果をそのまま表示することは不自然でもあり、発話を理解しているかどうか話者を不安にさせてしまう可能性も生じ得る。 However, when the utterance is complicated, the text may be displayed for a long time, and it is difficult to convey that the speaker understands the utterance. In addition, it is unnatural to display the recognition result of the speaker's utterance as it is on the display device, and there is a possibility that the speaker may be anxious about whether or not he / she understands the utterance.
また、命令や依頼等の目的的な発話ではなく、日常会話等の非目的的な発話を傾聴するようなユースケースでは、発話を理解しているかどうか分からないと、話者が発話を十分に楽しむことができない可能性も生じ得る。 Also, in use cases where you listen to unpurposed utterances such as daily conversations rather than purposeful utterances such as commands and requests, if you do not know whether you understand the utterances, the speaker will fully speak. It may not be possible to enjoy it.
このように、従来技術に係る対話エージェントにおいては、話者の発話の意図に沿った自然な対話を実現することが困難であった。 As described above, it has been difficult for the dialogue agent according to the prior art to realize a natural dialogue in line with the intention of the speaker's utterance.
そこで、本開示では、話者の発話の意図に沿った自然な対話を実現することが可能な、新規かつ改良された情報処理装置、情報処理方法及び情報処理プログラムを提案する。 Therefore, the present disclosure proposes a new and improved information processing device, information processing method, and information processing program capable of realizing a natural dialogue in line with the intention of the speaker's utterance.
本開示によれば、話者の発話に基づく感情を理解する感情理解の状態を推定する状態推定部と、前記状態推定部による推定結果に基づいた出力情報を生成する応答生成部とを備える、情報処理装置が提供される。 According to the present disclosure, the present disclosure includes a state estimation unit that estimates the state of emotion understanding that understands emotions based on the speaker's utterance, and a response generation unit that generates output information based on the estimation result by the state estimation unit. An information processing device is provided.
以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。 Preferred embodiments of the present disclosure will be described in detail below with reference to the accompanying drawings. In the present specification and the drawings, components having substantially the same functional configuration are designated by the same reference numerals, so that duplicate description will be omitted.
なお、説明は以下の順序で行うものとする。
1.本開示の一実施形態
1.1.概要
1.2.情報処理システムの構成
2.情報処理システムの機能
2.1.機能の概要
2.2.種々のユースケース例
2.3.機能構成例
2.4.情報処理システムの処理
2.5.処理のバリエーション
3.応用例
3.1.視聴覚障害者
3.2.高齢者
4.ハードウェア構成例
5.まとめ
The explanations will be given in the following order.
1. 1. Embodiment 1.1 of the present disclosure. Overview 1.2. Information processing system configuration 2. Information processing system functions 2.1. Outline of function 2.2. Examples of various use cases 2.3. Functional configuration example 2.4. Information processing system processing 2.5. Variations of processing 3. Application example 3.1. Audiovisually impaired 3.2. Elderly people 4. Hardware configuration example 5. summary
<<1.本開示の一実施形態>>
<1.1.概要>
近年、音声の認識精度の向上により、話者の発話を理解し、話者と対話を行うシステムが普及してきている。例えば、話者の発話の理解度を示すために、入力された発話をテキスト化して表示するシステムが一般化してきている。このシステムは、例えば、スマートスピーカ等のスピーカ型やPepper(登録商標)等の人型の対話エージェントとして実現されている。
<< 1. Embodiment of the present disclosure >>
<1.1. Overview>
In recent years, due to the improvement of voice recognition accuracy, a system that understands a speaker's utterance and interacts with the speaker has become widespread. For example, in order to show the degree of understanding of a speaker's utterance, a system in which the input utterance is converted into text and displayed has become common. This system is realized, for example, as a speaker-type dialogue agent such as a smart speaker or a human-type dialogue agent such as Pepper (registered trademark).
しかしながら、発話が複雑な場合、テキストが長々と表示されてしまう場合もあり、話者の発話を理解していることが伝わりにくかった。また、表示デバイスに話者の発話の認識結果をそのまま表示することは不自然でもあり、発話を理解しているかどうか話者を不安にさせてしまう可能性も生じ得る。 However, when the utterance is complicated, the text may be displayed for a long time, and it is difficult to convey that the speaker understands the utterance. In addition, it is unnatural to display the recognition result of the speaker's utterance as it is on the display device, and there is a possibility that the speaker may be anxious about whether or not he / she understands the utterance.
また、命令や依頼等の目的的な発話ではなく、日常会話等の非目的的な発話を傾聴するようなユースケースでは、発話を理解しているかどうか分からないと、話者が発話を十分に楽しむことができない可能性も生じ得る。 Also, in use cases where you listen to unpurposed utterances such as daily conversations rather than purposeful utterances such as commands and requests, if you do not know whether you understand the utterances, the speaker will fully speak. It may not be possible to enjoy it.
話者の発話において、例えば、発話内容とは関係のない繋ぎ言葉であるフィラーや、頷きや相槌等を行うことができれば、対話エージェントが発話を理解していると話者に感じさせることができ得る。そこで、話者の発話において、フィラーや頷きや相槌等を行う対話エージェントに関する技術が進められている。 In the speaker's utterance, for example, if a filler, which is a connecting word that has nothing to do with the utterance content, or a nod or an aizuchi can be performed, the speaker can be made to feel that the dialogue agent understands the utterance. obtain. Therefore, technology related to dialogue agents that perform fillers, nods, and aizuchi in the speaker's utterances is being advanced.
上述の対話エージェントの技術に関連し、例えば、特許文献1には、話者からの発話を待つべきとも、発話を実行すべきとも推定できなかった場合に、対話エージェントの動作を制御する技術が開示されている。
In relation to the above-mentioned technique of the dialogue agent, for example,
しかしながら、上述の対話エージェントの技術では、話者の発話の意図と関係なく、対話エージェントの対話に関する動作を制御するため、例えば、対話エージェントの動作が話者の発話の邪魔となる可能性も生じ得る。 However, in the above-mentioned dialogue agent technology, since the dialogue agent's behavior related to the dialogue is controlled regardless of the intention of the speaker's utterance, for example, the dialogue agent's behavior may interfere with the speaker's utterance. obtain.
本開示の一実施形態では、上記の点に着目して発想されたものであり、話者の発話の意図に沿った適切な応答を行うよう制御することが可能な技術を提案する。以下、本実施形態について順次詳細に説明する。以下、対話エージェントの一例として、端末装置20を用いて説明する。
One embodiment of the present disclosure is conceived by paying attention to the above points, and proposes a technique capable of controlling to perform an appropriate response in accordance with the intention of the speaker's utterance. Hereinafter, the present embodiment will be described in detail in order. Hereinafter, an example of the dialogue agent will be described using the
<1.2.情報処理システムの構成>
まず、実施形態に係る情報処理システム1の構成について説明する。図1は、情報処理システム1の構成例を示す図である。図1に示したように、情報処理システム1は、情報処理装置10及び端末装置20を備える。情報処理装置10には、多様な装置が接続され得る。例えば、情報処理装置10には、端末装置20が接続され、各装置間で情報の連携が行われる。情報処理装置10には、端末装置20が無線で接続される。例えば、情報処理装置10は、端末装置20とBluetooth(登録商標)を用いた近距離無線通信を行う。なお、情報処理装置10には、情報処理装置10及び端末装置20が、有線と無線とを問わず、I2C(Inter-Integrated Circuit)やSPI(Serial Peripheral Interface)などの各種インタフェースや、LAN(Local Area Network)やWAN(Wide Area Network)やインターネットや移動体通信網などの各種ネットワークを介して接続されてもよい。
<1.2. Information processing system configuration>
First, the configuration of the
(1)情報処理装置10
情報処理装置10は、話者の発話(音声)の発話データに応じて、例えば、端末装置20を制御する情報処理装置である。具体的には、情報処理装置10は、まず、話者の発話に基づく感情を理解する感情理解の状態を推定し、推定結果に基づいた出力情報を生成する。そして、情報処理装置10は、生成された出力情報を、例えば、端末装置20に送信することにより、端末装置20を制御する。
(1) Information processing device 10
The information processing device 10 is an information processing device that controls, for example, the
また、情報処理装置10は、情報処理システム1の動作全般を制御する機能も有する。例えば、情報処理装置10は、各装置間で連携される情報に基づき、情報処理システム1の動作全般を制御する。具体的には、情報処理装置10は、端末装置20から受信する情報に基づき、端末装置20を制御する。
The information processing device 10 also has a function of controlling the overall operation of the
情報処理装置10は、PC(Personal computer)、WS(Work station)等により実現される。なお、情報処理装置10は、PC、WS等に限定されない。例えば、情報処理装置10は、情報処理装置10としての機能をアプリケーションとして実装したPC、WS等の情報処理装置であってもよい。 The information processing device 10 is realized by a PC (Personal computer), a WS (Workstation), or the like. The information processing device 10 is not limited to a PC, a WS, or the like. For example, the information processing device 10 may be an information processing device such as a PC or WS that implements the function of the information processing device 10 as an application.
(2)端末装置20
端末装置20は、制御対象となる情報処理装置である。
(2)
The
端末装置20は、発話データを取得する。そして、端末装置20は、取得した発話データを情報処理装置10へ送信する。
The
端末装置20は、どのような装置として実現されてもよい。例えば、端末装置20は、スピーカ型の装置として実現されてもよいし、人型の装置として実現されてもよい。端末装置20は、例えば、対話エージェントの視覚情報を提示する提示装置として実現されてもよい。
The
<<2.情報処理システムの機能>>
以上、情報処理システム1の構成について説明した。続いて、情報処理システム1の機能について説明する。
<< 2. Information processing system functions >>
The configuration of the
<2.1.機能の概要>
実施形態に係る情報処理システム1は、話者の発話に対する傾聴反応である応答の生成を3つの状態(ステート)の遷移で行う。具体的には、情報処理システム1は、話者の発話を認識する発話認識の状態の推定と、話者の発話に基づく感情理解の状態の推定と、話者の発話に含まれる依頼に関する情報である依頼関連情報に基づく処理を実行するための実行準備の状態の推定とを遷移することで、応答の生成を行う。発話認識の状態の推定に基づく応答は、例えば、話者の発話を受信したことを話者に伝えるための応答である。また、感情理解の状態の推定に基づく応答は、例えば、共感していることを話者に伝えるための応答である。また、実行準備の状態の推定に基づく応答は、例えば、話者の発話に含まれる依頼関連情報に基づく処理を実行するための応答である。情報処理システム1は、この3つの状態を遷移することで、状態に応じた応答の生成を行うことができる。
<2.1. Function overview>
The
図2は、情報処理システム1の機能の概要を示す図である。情報処理システム1は、まず、話者U12の発話を認識する(S11)。情報処理システム1は、話者U12の発話を認識すると、発話認識の状態を推定する。次いで、情報処理システム1は、話者U12の発話から感情を示す感情語を認識する(S12)。情報処理システム1は、感情語を認識すると、感情理解の状態を推定する。そして、情報処理システム1は、感情語を復唱する処理を実行する(S13)。情報処理システム1は、更なる話者U12の発話を認識する場合、発話認識の状態を推定する。S12の処理において、情報処理システム1は、話者U12の発話から依頼関連情報を認識する(S14)。情報処理システム1は、依頼関連情報を認識すると、実行準備の状態を推定する。そして、情報処理システム1は、依頼関連情報に基づく処理を実行する(S15)。S15の処理において、情報処理システム1は、依頼関連情報に基づく処理を実行しない場合には、発話認識の状態を推定する(S16)。
FIG. 2 is a diagram showing an outline of the functions of the
ここで、S14と同様の処理を、感情理解の状態を推定した後に行う場合を説明する。情報処理システム1は、話者U12の発話から依頼関連情報を認識する(S17)。情報処理システム1は、依頼関連情報を認識すると、実行準備の状態を推定する。そして、情報処理システム1は、依頼関連情報に基づく処理を実行する(S15)。S15の処理において、情報処理システム1は、依頼関連情報に基づく処理を実行しない場合には、感情理解の状態を推定する(S18)。
Here, a case where the same processing as in S14 is performed after estimating the state of emotional understanding will be described. The
このように、情報処理システム1は、対話エージェントの相槌等の応答に段階を設けることで、「聞いている(声が届いている)」、「感情を理解している」、及び、「依頼を実行する」の状態を異なる処理を用いて伝えることができる。これにより、情報処理システム1は、対話エージェントが話者の発話の内容の推移を理解しながら聞いていることを伝えることができるため、話者は安心して発話をすることができる。
In this way, the
(発話認識の状態を推定する場合)
図3は、発話認識の状態を推定する場合のUI(User Interface)の概要を示す図である。端末装置20は、まず、話者U12の発話TK11を検出する。情報処理システム1は、発話TK11の終端SK11を検出すると、「うん」等の相槌を行うように端末装置20を制御する(S21)。端末装置20は、発話TK11に対する相槌である応答RK11を出力する。次いで、端末装置20は、話者U12の発話TK12を検出する。情報処理システム1は、話者U12が発話TK12の発話中、発話TK12の終端SK12が検出されるまで、首を縦に振る等の頷きを行うように端末装置20を制御する(S22)。すなわち、情報処理システム1は、話者U12が発話TK12の発話中、相槌を行わないように端末装置20を制御する。情報処理システム1は、発話TK12の終端SK12を検出すると、相槌を行うように端末装置20を制御する。端末装置20は、発話TK12に対する相槌である応答RK12を出力する。次いで、端末装置20は、話者U12の発話TK13を検出する。情報処理システム1は、話者U12が発話TK13の発話中、発話TK13の終端SK13が検出されるまで、頷きを行うように端末装置20を制御する(S23)。情報処理システム1は、発話TK13の終端SK13を検出すると、相槌を行うように端末装置20を制御する。端末装置20は、発話TK13に対する相槌である応答RK13を出力する。これにより、情報処理システム1は、話者の発話を阻害しないタイミングで相槌を行うことができるため、話者の発話が届いていることを話者に適切に伝えることができる。
(When estimating the state of utterance recognition)
FIG. 3 is a diagram showing an outline of a UI (User Interface) when estimating the state of utterance recognition. The
(感情理解の状態を推定する場合)
図4では、感情理解の状態を推定する場合のUIの概要を示す図である。以下、図3と同様の記載は、説明を適宜省略する。端末装置20は、話者U12の発話TK23を検出する。情報処理システム1は、話者U12が発話TK23の発話中、発話TK23の終端SK23が検出されるまで、頷きを行うように端末装置20を制御する。また、情報処理システム1は、発話TK23から感情語KG11を検出する(S33)。具体的には、情報処理システム1は、発話TK23に対して言語解析処理を行う。そして、情報処理システム1は、発話TK23に含まれる言語情報と、感情語として予め定められた言語情報とを比較することにより、感情語KG11を検出する。例えば、情報処理システム1は、感情語情報を記憶した記憶部にアクセスすることにより、感情語KG11を検出する。情報処理システム1は、感情語KG11を検出すると、感情語KG11と、発話TK23に含まれる言語情報のうち感情語KG11に近い文脈の言語情報とを用いて、感情語KG11が示す感情を適切な表現で復唱するように端末装置20を制御する。具体的には、情報処理システム1は、感情語KG11である「困っちゃった」と、近接する言語情報である「長くて」とに基づいて、感情語KG11が示す感情である「困る」を適切な表現で復唱する。端末装置20は、発話TK23の復唱である応答RK23を出力する。このように、情報処理システム1は、感情語KG11に近接する前後の文脈の言語情報を復唱することができる。これにより、情報処理システム1は、話者の感情を理解し共感していることを話者に適切に伝えることができるため、話者は安心して発話を行うことができる。
(When estimating the state of emotional understanding)
FIG. 4 is a diagram showing an outline of the UI when estimating the state of emotional understanding. Hereinafter, the same description as in FIG. 3 will be omitted as appropriate. The
図5では、話者U12が図3と異なる発話を行う場合を例に挙げて、感情理解の状態を推定する場合のUIの概要を説明する。以下、図2乃至4と同様の記載は、説明を適宜省略する。情報処理システム1は、発話TK33から感情語KG21を検出する(S43)。情報処理システム1は、感情語KG21を検出すると、感情語KG21の同義語(類義語)として予め定められた言語情報を用いて、感情語KG21が示す感情を適切な表現で復唱するように端末装置20を制御する。具体的には、情報処理システム1は、感情語KG21である「最悪」の同義語として予め定められた言語情報である「悲しい」を用いて、感情語KG21が示す感情である「最悪」を適切な表現で復唱する。このように、情報処理システム1は、感情語KG21の同義語として予め定められた言語情報を復唱するための共感発話を生成する。端末装置20は、発話TK33の復唱である応答RK33を出力する。他の例として、情報処理システム1は、感情語KG21である「最悪」の同義語として予め定められた言語情報である「ひどい」と、発話TK33に含まれる言語情報のうち感情語KG21に近い文脈の言語情報である「会ったんだって」とを用いて、「会ったんですね、それはひどいですね」を出力する。なお、情報処理システム1は、登録された感情語を用いて応答を出力するのみではなく、例えば、センサを用いて話者の感情を推定することにより、推定された感情に対応する感情語を用いて応答を出力してもよい。また、情報処理システム1は、例えば、他の話者との会話に含まれる発話に基づいて応答を学習してもよい。また、情報処理システム1は、例えば、他の話者との会話を検出する度に学習及び記憶された応答を随時更新することにより、更新された最新の応答を出力してもよい。
In FIG. 5, the outline of the UI in the case of estimating the state of emotional understanding will be described by taking as an example the case where the speaker U12 makes an utterance different from that in FIG. Hereinafter, the same description as in FIGS. 2 to 4 will be omitted as appropriate. The
(実行準備の状態を推定する場合)
図6では、実行準備の状態を推定する場合のUIの概要を示す図である。以下、図2乃至5と同様の記載は、説明を適宜省略する。端末装置20は、話者U12の発話TK43を検出する。情報処理システム1は、話者U12が発話TK43の発話中、発話TK43の終端SK43が検出されるまで、頷きを行うように端末装置20を制御する。また、情報処理システム1は、発話TK43から依頼関連情報IG11を検出する(S53)。情報処理システム1は、依頼関連情報IG11を検出すると、「了解」等の依頼を認識した旨の応答RK43を出力する。そして、情報処理システム1は、依頼関連情報IG11が示す依頼の内容を復唱するように端末装置20を制御する。端末装置20は、発話TK43の復唱である応答RK44を出力する。そして、情報処理システム1は、依頼関連情報IG11が示す依頼に関する情報に基づく処理を実行する(S54)。
(When estimating the state of preparation for execution)
FIG. 6 is a diagram showing an outline of the UI when estimating the state of preparation for execution. Hereinafter, the same description as in FIGS. 2 to 5 will be omitted as appropriate. The
また、S53において、情報処理システム1は、依頼関連情報IG11が示す依頼に関する情報が、処理を実行するために十分であるか否かを判定する。情報処理システム1は、依頼関連情報IG11が示す依頼に関する情報が、処理を実行するために十分でない場合、所定の基準よりも認識可能でない表現で相槌を行うように端末装置20を制御する。これにより、情報処理システム1は、例えば、低音量で相槌を行うように端末装置20を制御することで、話者に発話の続きを促すことができる。また、依頼関連情報IG11が示す依頼に関する情報が、処理を実行するために十分でない場合、端末装置20による発話の重複が生じ得る。情報処理システム1は、話者に発話の続きを促すことができるため、端末装置20による発話の重複が生じ得る問題等を解消し得る。なお、情報処理システム1は、話者の発話の続きを検出できない場合には、話者に発話が十分でない旨出力する。また、情報処理システム1は、言いよどみ(不完全)な文章の言語情報を用いることにより、話者に発話の続きを促す。これにより、情報処理システム1は、処理を実行するために必要な不足の情報を話者に発話するように促す場合より、自然な発話を促すことができる。一方、情報処理システム1は、依頼関連情報IG11が示す依頼に関する情報が、処理を実行するために十分な場合、依頼を認識した旨の応答RK43を出力する。ここで、情報処理システム1は、発話TK43が、依頼関連情報IG11が示す依頼を発話するための対話の文末である場合には、所定の基準と同等の認識可能な表現で応答RK43を出力する。これにより、情報処理システム1は、例えば、所定の基準と同等の音量で、応答RK43を出力することができる。
Further, in S53, the
<2.2.種々のユースケース例>
以上、本開示の実施形態に係る機能の概要について説明した。続いて、本開示の実施形態に係る情報処理システム1のユースケース例を説明する。
<2.2. Various use case examples>
The outline of the function according to the embodiment of the present disclosure has been described above. Subsequently, an example of a use case of the
(介護施設の場合1)
図7では、話者U12が介護施設で発話を行う場合を例に挙げて、情報処理システム1の機能の概要を説明する。以下、図2乃至6と同様の記載は、説明を適宜省略する。端末装置20は、話者U12の発話TK51から感情語KG31を検出する(S62)。端末装置20は、感情語KG31が示す感情である「楽しみ」を適切な表現で復唱した応答RK52を出力する。具体的には、情報処理システム1は、感情語KG31である「楽しみ」と、近接する言語情報である「すごく」とに基づいて、応答RK52を出力する。
(For long-term care facilities 1)
In FIG. 7, an outline of the function of the
(介護施設の場合2)
図8では、話者U12が図7とは異なる発話を行う場合を例に挙げて、情報処理システム1の機能の概要を説明する。以下、図2乃至7と同様の記載は、説明を適宜省略する。端末装置20は、話者のU12の発話TK63から依頼関連情報IG21を検出する(S73)。S73において、情報処理システム1は、依頼関連情報IG21が示す依頼に関する情報が、処理を実行するために十分でないと判定する。情報処理システム1は、発話が十分でない旨の応答RK63を出力する。端末装置20は、話者U12の発話TK64を検出する。情報処理システム1は、話者U12の発話TK64が、依頼関連情報IG21が示す依頼に関する情報に基づく処理を実行するために十分な情報を含むと判定する(S74)。端末装置20は、発話TK64の復唱である応答RK64を出力する。情報処理システム1は、話者U12の発話TK65に応じて、応答RK65の出力と共に、依頼関連情報IG21が示す依頼に関する情報を提示するように端末装置20を制御する。その後、情報処理システム1は、話者U12の発話TK67から感情語KG41を検出する(S77)。端末装置20は、感情語KG41が示す感情である「おいしそう」を適切な表現で復唱した応答RK67を出力する。具体的には、情報処理システム1は、感情語KG41である「おいしそうね」に基づいて、応答RK67を出力する。
(In the case of a long-term care facility 2)
In FIG. 8, an outline of the function of the
(単身赴任の場合)
図9では、話者U12が単身赴任中に発話を行う場合を例に挙げて、情報処理システム1の機能の概要を説明する。以下、図2乃至8と同様の記載は、説明を適宜省略する。端末装置20は、話者U12の発話TK71から感情語KG51を検出する(S81)。端末装置20は、感情語KG51が示す感情である「忙しい」を適切な表現で復唱した応答RK71を出力する。具体的には、情報処理システム1は、感情語KG51である「忙しくてね」と、近接する言語情報である「仕事が」とに基づいて、応答RK71を出力する。
(In the case of a single assignment)
In FIG. 9, the outline of the function of the
<2.3.機能構成例>
図10は、実施形態1に係る情報処理システム1の機能構成例を示すブロック図である。
<2.3. Function configuration example>
FIG. 10 is a block diagram showing a functional configuration example of the
(1)情報処理装置10
図10に示したように、情報処理装置10は、通信部100、制御部110、及び記憶部120を備える。なお、情報処理装置10は、少なくとも制御部110を有する。
(1) Information processing device 10
As shown in FIG. 10, the information processing device 10 includes a communication unit 100, a control unit 110, and a
(1−1)通信部100
通信部100は、外部装置と通信を行う機能を有する。例えば、通信部100は、外部装置との通信において、外部装置から受信する情報を制御部110へ出力する。具体的には、通信部100は、端末装置20から受信する発話データを制御部110へ出力する。
(1-1) Communication unit 100
The communication unit 100 has a function of communicating with an external device. For example, the communication unit 100 outputs information received from the external device to the control unit 110 in communication with the external device. Specifically, the communication unit 100 outputs the utterance data received from the
通信部100は、外部装置との通信において、制御部110から入力される情報を外部装置へ送信する。具体的には、通信部100は、制御部110から入力される発話データの取得に関する情報を端末装置20へ送信する。
The communication unit 100 transmits the information input from the control unit 110 to the external device in communication with the external device. Specifically, the communication unit 100 transmits information regarding acquisition of utterance data input from the control unit 110 to the
(1−2)制御部110
制御部110は、情報処理装置10の動作を制御する機能を有する。例えば、制御部110は、発話データの終端を検出する。また、制御部110は、検出された終端に関する情報に基づいて、端末装置20の動作を制御する処理を行う。
(1-2) Control unit 110
The control unit 110 has a function of controlling the operation of the information processing device 10. For example, the control unit 110 detects the end of the utterance data. Further, the control unit 110 performs a process of controlling the operation of the
上述の機能を実現するために、制御部110は、図10に示すように、話者識別部111、発話検出部112、発話認識部113、状態推定部114、意味解析部115、依頼処理部116、応答生成部117、発話実行部118、動作提示部119を有する。
In order to realize the above-mentioned functions, as shown in FIG. 10, the control unit 110 includes a
・話者識別部111
話者識別部111は、話者の識別処理を行う機能を有する。例えば、話者識別部111は、記憶部120(例えば、話者情報記憶部121)にアクセスして話者情報を用いた識別処理を行う。具体的には、話者識別部111は、通信部200を介して、撮像部212から送信された撮像情報と、記憶部120に記憶された話者情報とを比較して、話者を識別する。
-
The
・発話検出部112
発話検出部112は、話者の発話の検出処理を行う機能を有する。例えば、発話検出部112は、通信部200を介して、発話取得部211から送信された発話データに対する検出処理を行う。また、発話検出部112は、特定の話者の発話を検出する。例えば、発話検出部112は、通信部200を介して、撮像部212から送信された撮像情報に基づいて、特定の話者の発話を検出する。
-Utterance detection unit 112
The utterance detection unit 112 has a function of detecting the utterance of the speaker. For example, the utterance detection unit 112 performs detection processing on the utterance data transmitted from the
・発話認識部113
発話認識部113は、話者の発話の認識処理を行う機能を有する。例えば、発話認識部113は、通信部200を介して、発話取得部211から送信された発話データに対する認識処理を行う。具体的には、発話認識部113は、発話データを、言語情報に変換する。
-
The
また、発話認識部113は、発話データの終端を検出する処理を行う機能を有する。例えば、発話認識部113は、発話取得部211から送信された発話データの終端を検出する処理を行う。具体的には、発話認識部113は、言語情報の終端を検出する。
Further, the
・状態推定部114
状態推定部114は、話者の発話に基づく状態を推定する処理を行う機能を有する。例えば、状態推定部114は、通信部200を介して、発話取得部211から送信された発話データに対する推定処理を行う。具体的には、状態推定部114は、話者の発話に感情語が含まれる場合、感情理解の状態を推定する。状態推定部114は、記憶部120(例えば、感情語情報記憶部122)にアクセスして言語情報を用いた推定処理を行う。具体的には、状態推定部114は、発話データに含まれる言語情報と、記憶部120に記憶された感情語とを比較して、感情理解の状態を推定する。
-State estimation unit 114
The state estimation unit 114 has a function of performing a process of estimating a state based on the utterance of the speaker. For example, the state estimation unit 114 performs estimation processing on the utterance data transmitted from the
また、状態推定部114は、話者の発話に含まれる言語情報のうち、感情を示す感情語に応じた感情理解の状態を推定する。また、状態推定部114は、話者の発話に含まれる言語情報のうち、感情を示す感情語以外の言語情報であって、話者の感情を表現する言語情報に応じた感情理解の状態を推定する。 In addition, the state estimation unit 114 estimates the state of emotional understanding according to the emotional word indicating the emotion among the linguistic information included in the utterance of the speaker. Further, the state estimation unit 114 determines the state of emotional understanding according to the linguistic information that expresses the speaker's emotions, which is linguistic information other than the emotional words that indicate emotions among the linguistic information included in the speaker's utterance. presume.
また、状態推定部114は、話者の発話に依頼関連情報が含まれる場合、実行準備の状態を推定する。また、状態推定部114は、話者の発話に感情語及び依頼関連情報が含まれない場合、発話認識の状態を推定する。 Further, the state estimation unit 114 estimates the state of preparation for execution when the utterance of the speaker includes request-related information. Further, the state estimation unit 114 estimates the state of utterance recognition when the speaker's utterance does not include emotional words and request-related information.
・意味解析部115
意味解析部115は、話者の発話に含まれる言語情報から話者の発話の意図を解析する処理を行う機能を有する。具体的には、意味解析部115は、話者の発話の言語情報を、名詞や動詞や修飾語等のカテゴリに分類することにより、話者の発話の意図を解析する。
・ Semantic analysis unit 115
The semantic analysis unit 115 has a function of analyzing the intention of the speaker's utterance from the linguistic information included in the speaker's utterance. Specifically, the semantic analysis unit 115 analyzes the intention of the speaker's utterance by classifying the linguistic information of the speaker's utterance into categories such as nouns, verbs, and modifiers.
・依頼処理部116
依頼処理部116は、話者の発話に含まれる依頼関連情報に基づく処理を実行するための処理を行う機能を有する。例えば、依頼処理部116は、依頼関連情報に基づく処理を実行するための制御情報を生成する。
・
The
・応答生成部117
応答生成部117は、話者に提示する応答を生成する処理を行う機能を有する。例えば、応答生成部117は、話者に提示する応答である頷きや相槌等を行うための制御情報を生成する。応答生成部117は、例えば、大中小等の段階的な動作の頷きを行うための制御情報を予め定めることにより、話者の発話に基づく状態に応じた大きさでの動作の頷きを行うための制御情報を生成する。他の例として、応答生成部117は、頷きの動作の大きさを決定するためのパラメータを予め定めることにより、パラメータの値に基づいて、話者の発話に基づく状態に応じた大きさでの動作の頷きを行うための制御情報を生成する。また、応答生成部117は、例えば、音量や語調等が異なる相槌を行うための制御情報を予め定めることにより、話者の発話に基づく状態に応じた音量や語調等での相槌を行うための制御情報を生成する。他の例として、応答生成部117は、相槌の音量や語調等を決定するためのパラメータを予め定めることにより、パラメータの値に基づいて、話者の発話に基づく状態に応じた音量や語調等での相槌を行うための制御情報を生成する。応答生成部117は、話者に応じた基準と比較して相対的な出力を行うための制御情報を生成する。
-Response generator 117
The response generation unit 117 has a function of performing a process of generating a response to be presented to the speaker. For example, the response generation unit 117 generates control information for performing a nod, an aizuchi, or the like, which is a response to be presented to the speaker. The response generation unit 117 is for performing the nodding of the operation in a size according to the state based on the utterance of the speaker by, for example, predetermining the control information for performing the nodding of the stepwise operation such as large, medium and small. Generate control information for. As another example, the response generation unit 117 determines a parameter for determining the magnitude of the nodding motion in advance, so that the size of the response generation unit 117 corresponds to the state based on the speaker's utterance based on the value of the parameter. Generates control information for nodding the operation. Further, the response generation unit 117 is for performing intonation at a volume, tone, etc. according to the state based on the speaker's utterance, for example, by predetermining control information for performing intonation with different volume, tone, etc. Generate control information. As another example, the response generation unit 117 defines parameters for determining the volume, tone, etc. of the intonation in advance, and based on the values of the parameters, the volume, tone, etc. according to the state based on the speaker's utterance. Generates control information for intonation in. The response generation unit 117 generates control information for performing relative output with respect to a reference according to the speaker.
応答生成部117は、話者の発話以外の周囲音が定常の周囲音の状態であるか否かを判定し、話者の発話以外の周囲音が定常の周囲音の状態である場合には、例えば、定常的な音量や語調等で相槌を行うための制御情報を生成する。また、応答生成部117は、話者の発話以外の周囲音が、定常の周囲音の状態と比較して大きい又は小さい場合には、例えば、相対的に同等の音量や語調等で相槌を行うための制御情報を生成する。この場合、応答生成部117は、相槌の音量や語調等に応じた大きさでの動作の頷きを行うための制御情報を生成する。 The response generation unit 117 determines whether or not the ambient sound other than the speaker's utterance is in the steady ambient sound state, and when the ambient sound other than the speaker's utterance is in the steady ambient sound state, the response generation unit 117 determines. For example, it generates control information for performing intonation at a steady volume and tone. Further, when the ambient sound other than the speaker's utterance is louder or smaller than the steady ambient sound state, the response generation unit 117 performs intonation at, for example, relatively the same volume and tone. Generate control information for. In this case, the response generation unit 117 generates control information for nodding the operation with a size corresponding to the volume of the intonation, the tone of the tone, and the like.
応答生成部117は、大きい動作の頷きを行うための制御情報を生成する場合には、頷きの動作の大きさに応じた音量や語調等の相槌を行うための制御情報を生成する。これにより、応答生成部117は、端末装置20に対して制御する動作である頷きと相槌との大きさを同期させることができる。例えば、応答生成部117は、大きい動作の頷きを行うように端末装置20を制御する場合には、相槌の音量が増すように端末装置20を制御する。他の例として、応答生成部117は、大きい動作の頷きを行うように端末装置20を制御する場合には、相槌の頻度が増す又は相槌の間(タイミング)が短くなるように端末装置20を制御する。
When the response generation unit 117 generates control information for performing a nod of a large motion, the response generation unit 117 generates control information for performing an aizuchi such as a volume and a tone according to the magnitude of the nod motion. As a result, the response generation unit 117 can synchronize the magnitudes of the nod and the aizuchi, which are the operations controlled for the
応答生成部117は、話者の発話に話者が定常的に用いる感情語が含まれる場合には、定常的な応答を行うための制御情報を生成する。また、応答生成部117は、話者の発話に話者が定常的に用いない(使用頻度の低い)又は初出の感情語が含まれる場合には、非定常的な応答を行うための制御情報を生成する。例えば、応答生成部117は、非定常的な応答として、話者の発話を聞き返す、身を乗り出す動作を行う、不審な表情を出す動作を行う、又は、復唱の際の語尾を上げる発話を行う等の応答を行うための制御情報を生成する。 The response generation unit 117 generates control information for performing a steady response when the speaker's utterance includes an emotional word that the speaker regularly uses. In addition, the response generation unit 117 provides control information for performing a non-stationary response when the speaker's utterance does not constantly use (infrequently used) or contains a first-appearing emotional word. To generate. For example, the response generation unit 117, as a non-stationary response, listens back to the speaker's utterance, leans forward, makes a suspicious facial expression, or makes a utterance that raises the ending when reciting. Generate control information for making a response such as.
応答生成部117は、話者の発話に含まれる言語情報を用いて応答を生成する。例えば、応答生成部117は、意味解析部115により解析された言語情報を用いて応答を生成する。 The response generation unit 117 generates a response using the linguistic information included in the speaker's utterance. For example, the response generation unit 117 generates a response using the linguistic information analyzed by the semantic analysis unit 115.
また、応答生成部117は、話者の発話に含まれる言語情報のうち、感情を示す感情語を復唱するための共感発話を生成する。また、応答生成部117は、話者の発話に含まれる言語情報のうち、感情を示す感情語以外の言語情報であって、話者の感情を表現する言語情報を復唱するための共感発話を生成する。 In addition, the response generation unit 117 generates an empathic utterance for reciting an emotional word indicating an emotion among the linguistic information included in the speaker's utterance. Further, the response generation unit 117 recites sympathetic utterances for reciting linguistic information other than emotional words indicating emotions among the linguistic information included in the speaker's utterances and expressing the speaker's emotions. Generate.
・発話実行部118
発話実行部118は、話者に対する端末装置20の発話を実行するための制御情報を提示する処理を行う機能を有する。例えば、発話実行部118は、通信部100を介して、話者に対する端末装置20の発話を実行するための制御情報を端末装置20へ提示する。
・ Utterance execution unit 118
The utterance execution unit 118 has a function of presenting control information for executing the utterance of the
・動作提示部119
動作提示部119は、話者に対する端末装置20の動作を制御するための制御情報を提示する処理を行う機能を有する。例えば、動作提示部119は、通信部100を介して、話者に対する端末装置20の動作を制御するための制御情報を端末装置20へ提示する。
-Motion presentation unit 119
The motion presentation unit 119 has a function of presenting control information for controlling the motion of the
(1−3)記憶部120
記憶部120は、例えば、RAM、フラッシュメモリ等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部120は、情報処理装置10における処理に関するデータを記憶する機能を有する。図10に示すように、記憶部120は、話者情報記憶部121と、感情語情報記憶部122とを有する。
(1-3)
The
図11は、話者情報記憶部121の一例を示す。図11に示す話者情報記憶部121は、話者情報を記憶する。図11に示すように、話者情報記憶部121は、「話者ID」、「話者情報」といった項目を有してもよい。
FIG. 11 shows an example of the speaker
「話者ID」は、話者を識別するための識別情報を示す。「話者情報」は、話者情報を示す。図11に示す例では、「話者情報」に「話者情報#1」や「話者情報#2」といった概念的な情報が格納される例を示したが、実際には、話者の撮像情報等が格納される。
The "speaker ID" indicates identification information for identifying the speaker. "Speaker information" indicates speaker information. In the example shown in FIG. 11, conceptual information such as "
図12は、感情語情報記憶部122の一例を示す。図12に示す感情語情報記憶部122は、感情語に関する情報を記憶する。図12に示すように、感情語情報記憶部122は、「感情語情報ID」、「感情語」、「同義語」、「一般共起語」、「話者共起語」といった項目を有してもよい。
FIG. 12 shows an example of the emotion word
「感情語情報ID」は、感情語情報を識別するための識別情報を示す。「感情語」は、感情語を示す。「同義語」は、感情語の同義語を示す。「一般共起語」は、感情語を共起するための共起語のうち、一般的に用いられる共起語を示す。「話者共起語」は、感情語を共起するための共起語のうち、話者固有の共起語を示す。 The "emotional word information ID" indicates identification information for identifying the emotion word information. "Emotional word" indicates an emotional word. "Synonyms" indicate synonyms for emotional words. "General co-occurrence word" indicates a commonly used co-occurrence word among co-occurrence words for co-occurring emotional words. "Speaker co-occurrence word" indicates a speaker-specific co-occurrence word among co-occurrence words for co-occurring emotional words.
ここで、実施形態に係る感情語について説明する。実施形態に係る感情語は、一般的な感情語として話者に共通して定められた感情語でなくても、話者固有の特定の表現に対して頻出する言語情報であってもよい。例えば、感情語情報記憶部122は、話者固有の特定の表現に対して頻出する言語情報を感情語として記憶してもよい。この場合、情報処理システム1は、感情語を復唱するのではなくて、特定の表現に共起する言語情報を感情語として提示する。例えば、情報処理システム1は、「忙しい」、「死にそう」、「やってられない」等の特定の表現が検出された場合であって、この特定表現に対して頻出する言語情報が「大変」の場合には、「大変」を感情語として提示する。
Here, the emotional words according to the embodiment will be described. The emotional word according to the embodiment may not be an emotional word commonly defined by the speaker as a general emotional word, but may be linguistic information that frequently appears for a specific expression peculiar to the speaker. For example, the emotional word
(2)端末装置20
図10に示したように、端末装置20は、通信部200、制御部210、及び提示部220を有する。
(2)
As shown in FIG. 10, the
(2−1)通信部200
通信部200は、外部装置と通信を行う機能を有する。例えば、通信部200は、外部装置との通信において、外部装置から受信する情報を制御部210へ出力する。具体的に、通信部200は、情報処理装置10から受信する発話データの取得に関する情報を制御部210へ出力する。また、通信部200は、情報処理装置10から受信する制御情報を制御部210へ出力する。
(2-1) Communication unit 200
The communication unit 200 has a function of communicating with an external device. For example, the communication unit 200 outputs information received from the external device to the
また、通信部200は、情報処理装置10から受信する制御情報を提示部220へ出力する。
Further, the communication unit 200 outputs the control information received from the information processing device 10 to the
また、通信部200は、外部装置との通信において、制御部210から入力される情報を外部装置へ送信する。具体的に、通信部200は、制御部210から入力される発話データを情報処理装置10へ送信する。
Further, the communication unit 200 transmits the information input from the
(2−2)制御部210
制御部210は、端末装置20の動作全般を制御する機能を有する。例えば、制御部210は、発話取得部211による発話データの取得処理を制御する。また、制御部210は、発話取得部211により取得された発話データを、通信部200が情報処理装置10へ送信する処理を制御する。
(2-2)
The
・発話取得部211
発話取得部211は、話者の発話データを取得する機能を有する。例えば、発話取得部211は、端末装置20に備えられた発話(音声)検出器を用いて発話データを取得する。
・
The
・撮像部212
撮像部212は、話者を撮像する機能を有する。
・
The
・動作制御部213
動作制御部213は、端末装置20の動作を制御する機能を有する。例えば、動作制御部213は、取得した制御情報に応じて、端末装置20の動作を制御する。
-
The
(2−3)提示部220
提示部220は、提示全般を制御する機能を有する。提示部220は、図10に示すように、音声提示部221及び動作提示部222を有する。
(2-3)
The
・音声提示部221
音声提示部221は、端末装置20の音声を提示する処理を行う機能を有する。例えば、音声提示部221は、通信部200を介して、発話実行部118から受信した制御情報に基づいて、音声を提示する。
・
The
・動作提示部222
動作提示部222は、端末装置20の動作を提示する処理を行う機能を有する。例えば、動作提示部222は、通信部200を介して、動作提示部119から受信した制御情報に基づいて、動作を提示する。
-
The
<2.4.情報処理システムの処理>
以上、実施形態に係る情報処理システム1の機能について説明した。続いて、情報処理システム1の処理について説明する。
<2.4. Information processing system processing>
The function of the
(1)情報処理装置10における状態推定に関する処理
図13は、実施形態に係る情報処理装置10における状態推定に関する処理の流れを示すフローチャートである。まず、情報処理装置10は、発話データに基づいて、話者の発話を検知する(S101)。例えば、情報処理装置10は、特定の話者の発話を検知する。また、情報処理装置10は、話者の発話を認識する(S102)。例えば、情報処理装置10は、話者の発話の終端を検出する。次いで、情報処理装置10は、感情語を含むか否かを判定する。そして、情報処理装置10は、話者の発話に感情語が含まれる場合(S104;YES)、感情理解の状態を推定する(S106)。また、情報処理装置10は、話者の発話に感情語が含まれない場合(S104;NO)、依頼関連情報を含むか否かを判定する(S108)。そして、情報処理装置10は、話者の発話に依頼関連情報が含まれる場合(S108;YES)、実行準備の状態を推定する(S110)。また、情報処理装置10は、話者の発話に依頼関連情報が含まれない場合(S108;NO)、発話認識の状態を推定する(S112)。
(1) Process related to state estimation in the information processing device 10 FIG. 13 is a flowchart showing a flow of processing related to state estimation in the information processing device 10 according to the embodiment. First, the information processing device 10 detects the utterance of the speaker based on the utterance data (S101). For example, the information processing device 10 detects the utterance of a specific speaker. Further, the information processing device 10 recognizes the utterance of the speaker (S102). For example, the information processing device 10 detects the end of a speaker's utterance. Next, the information processing device 10 determines whether or not the emotional word is included. Then, when the speaker's utterance includes an emotional word (S104; YES), the information processing device 10 estimates the state of emotional understanding (S106). Further, when the utterance of the speaker does not include an emotional word (S104; NO), the information processing device 10 determines whether or not the request-related information is included (S108). Then, when the request-related information is included in the utterance of the speaker (S108; YES), the information processing device 10 estimates the state of preparation for execution (S110). Further, the information processing device 10 estimates the state of utterance recognition (S112) when the request-related information is not included in the utterance of the speaker (S108; NO).
(2)発話認識の状態を推定した場合の処理
図14は、実施形態に係る情報処理装置10における発話認識の状態を推定した場合の処理の流れを示すフローチャートである。まず、情報処理装置10は、発話の終端であるか否かを判定する(S200)。そして、情報処理装置10は、発話の終端である場合(S200;YES)、復唱やフィラーで相槌をするように端末装置20を制御する(S202)。また、情報処理装置10は、発話の終端でない場合(S200;NO)、発話の間であるか否かを判定する(S204)。そして、情報処理装置10は、発話の間である場合(S204;YES)、小さい音量で相槌をするように端末装置20を制御する(S206)。また、情報処理装置10は、発話の間でない場合(S204;NO)、小さい動作で頷きをするように端末装置20を制御する(S208)。
(2) Processing when the state of utterance recognition is estimated FIG. 14 is a flowchart showing a flow of processing when the state of utterance recognition is estimated in the information processing apparatus 10 according to the embodiment. First, the information processing device 10 determines whether or not it is the end of the utterance (S200). Then, when the information processing device 10 is the end of the utterance (S200; YES), the information processing device 10 controls the
(3)感情理解の状態を推定した場合の処理
図15は、実施形態に係る情報処理装置10における感情理解の状態を推定した場合の処理の流れを示すフローチャートである。まず、情報処理装置10は、発話の終端であるか否かを判定する(S300)。そして、情報処理装置10は、発話の終端である場合(S300;YES)、感情語を復唱するように端末装置20を制御する(S302)。また、情報処理装置10は、発話の終端でない場合(S300;NO)、発話の間であるか否かを判定する(S304)。そして、情報処理装置10は、発話の間である場合(S304;YES)、大きい音量で相槌をするように端末装置20を制御する(S306)。また、情報処理装置10は、発話の間でない場合(S304;NO)、大きい動作で頷きをするように端末装置20を制御する(S308)。情報処理装置10は、感情理解の状態を推定した場合には、図14に示す発話認識の状態を推定した場合よりも、話者にとって認識可能な制御情報を生成する。
(3) Processing when the state of emotion understanding is estimated FIG. 15 is a flowchart showing a flow of processing when the state of emotion understanding in the information processing apparatus 10 according to the embodiment is estimated. First, the information processing device 10 determines whether or not it is the end of the utterance (S300). Then, when the information processing device 10 is the end of the utterance (S300; YES), the information processing device 10 controls the
(4)実行準備の状態を推定した場合の処理
図16は、実施形態に係る情報処理装置10における実行準備の状態を推定した場合の処理の流れを示すフローチャートである。まず、情報処理装置10は、実行に十分な発話を取得したか否かを判定する(S400)。そして、情報処理装置10は、実行に十分な発話を取得したと判定した場合(S400;YES)、依頼に関する情報に基づく処理を実行するように端末装置20を制御する(S402)。また、情報処理装置10は、実行に十分な発話を取得していないと判定した場合(S400;NO)、実行をキャンセルする旨の発話であるキャンセル発話を取得したか否かを判定する(S404)。そして、情報処理装置10は、キャンセル発話を取得したと判定した場合(S404;YES)、情報処理を終了する。また、情報処理装置10は、キャンセル発話を取得していないと判定した場合(S404;NO)、更なる依頼に関する情報を発話するように促す発話である促し発話を行うように端末装置20を制御する(S406)。そして、S400の処理に戻る。
(4) Processing when the State of Preparation for Execution is Estimated FIG. 16 is a flowchart showing a flow of processing when the state of preparation for execution is estimated in the information processing apparatus 10 according to the embodiment. First, the information processing device 10 determines whether or not an utterance sufficient for execution has been acquired (S400). Then, when it is determined that the information processing device 10 has acquired sufficient utterances for execution (S400; YES), the information processing device 10 controls the
<2.5.処理のバリエーション>
以上、本開示の実施形態について説明した。続いて、本開示の実施形態の処理のバリエーションを説明する。なお、以下に説明する処理のバリエーションは、単独で本開示の実施形態に適用されてもよいし、組み合わせで本開示の実施形態に適用されてもよい。また、処理のバリエーションは、本開示の実施形態で説明した構成に代えて適用されてもよいし、本開示の実施形態で説明した構成に対して追加的に適用されてもよい。
<2.5. Variations of processing >
The embodiments of the present disclosure have been described above. Subsequently, a variation of the processing of the embodiment of the present disclosure will be described. The variations of the processing described below may be applied alone to the embodiments of the present disclosure, or may be applied in combination to the embodiments of the present disclosure. Further, the variation of the processing may be applied in place of the configuration described in the embodiment of the present disclosure, or may be additionally applied to the configuration described in the embodiment of the present disclosure.
(1)表現
上記実施形態では、応答生成部117が、頷きの大きさ及び相槌の音量や語調等が異なる応答を行うための制御情報を生成する場合を示したが、この例に限られない。応答生成部117は、表情の強弱やアニメーション表現の大きさが異なる応答を行うための制御情報を生成してもよい。例えば、応答生成部117は、顔の表情、動物等の尻尾や耳の動き、着ている衣服やアクセサリが異なる応答を行うための制御情報を生成してもよい。このように、応答生成部117は、映像上の表現に関する制御情報を生成してもよい。
(1) Expression In the above embodiment, the response generation unit 117 has shown a case where the response generation unit 117 generates control information for performing a response in which the size of the nod, the volume of the intonation, the tone of the tone, etc. are different, but the present invention is not limited to this example. .. The response generation unit 117 may generate control information for performing a response in which the strength of the facial expression and the size of the animation expression are different. For example, the response generation unit 117 may generate control information for facial expressions, movements of tails and ears of animals, and clothing and accessories worn to make different responses. In this way, the response generation unit 117 may generate control information regarding the representation on the video.
また、応答生成部117は、端末装置20が示すキャラクタに応じて、頷きや相槌等の仕方が異なる応答を行うための制御情報を生成してもよい。例えば、応答生成部117は、端末装置20が示すキャラクタがビジネスライクなキャラクタである場合には、強弱差が小さい応答を行うための制御情報を生成してもよい。そして、応答生成部117は、「はい」や「そうですか」等の丁寧語を用いた相槌を行うための制御情報を生成してもよい。他の例として、応答生成部117は、端末装置20が示すキャラクタがカジュアルなキャラクタである場合には、強弱差が大きい応答を行うための制御情報を生成してもよい。そして、応答生成部117は、「うん」や「なるほど」や「へえ」等の日常語を用いた相槌を行うための制御情報を生成してもよい。
In addition, the response generation unit 117 may generate control information for making a response in a different manner such as nodding or aizuchi, depending on the character indicated by the
(2)個人化
・間を個人に合わせる
応答生成部117は、話者に応じて間が異なる応答を行うための制御情報を生成してもよい。例えば、応答生成部117は、発話データや撮像情報等を用いて話者を識別して、話者ごとの話速や間等を記憶することにより、話者の発話の間を推定してもよい。そして、応答生成部117は、相槌等の応答が重ならなかった対話を教師データとして学習してもよい。これにより、応答生成部117は、応答の重複を回避するように適応することができる。また、応答生成部117は、間が不確定の場合には、例えば、低音量の相槌や、小さい動作の頷きを行うための制御情報を生成してもよい。これにより、情報処理システム1は、話者の発話を阻害することなく応答の提示を行うことができる。
(2) Personalization-Adjusting the interval to the individual The response generation unit 117 may generate control information for making a response with a different interval depending on the speaker. For example, the response generation unit 117 may estimate the interval between utterances of a speaker by identifying the speaker using utterance data, imaging information, etc., and storing the speech speed, interval, etc. of each speaker. good. Then, the response generation unit 117 may learn the dialogue in which the responses such as the aizuchi do not overlap as the teacher data. As a result, the response generation unit 117 can be adapted to avoid duplication of responses. Further, when the interval is uncertain, the response generation unit 117 may generate control information for performing, for example, a low-volume aizuchi or a nod of a small operation. As a result, the
・相槌のパターンや感情理解の復唱を個人化する
応答生成部117は、相槌の長短や言語情報のバリエーションを変化させることにより、発話が継続する確率の高い相槌のパターンを話者ごとに学習してもよい。また、応答生成部117は、相槌後の話者の発話量が増えた場合の相槌の使用頻度が高くなるように学習してもよい。
-The response generation unit 117, which personalizes the pattern of the aizuchi and the repetition of emotional understanding, learns the pattern of the aizuchi, which has a high probability of continuing utterance, for each speaker by changing the length of the aizuchi and the variation of the linguistic information. You may. In addition, the response generation unit 117 may learn so that the frequency of use of the aizuchi increases when the amount of utterances of the speaker after the aizuchi increases.
・状態の遷移を個人化する
状態推定部114は、感情語を多く用いる話者の場合には、発話認識の状態から感情理解の状態への遷移の頻度を低くして推定してもよい。これにより、情報処理装置10は、復唱が多くならないように端末装置20の制御を行うことができる。また、応答生成部117は、感情語を多く用いる話者の場合には、感情理解を示すバリエーションが異なる応答を行うための制御情報を生成してもよい。例えば、応答生成部117は、感情語情報記憶部122等にアクセスして、同義語等を用いた処理を行ってもよい。
-The state estimation unit 114 that personalizes the transition of the state may estimate the transition from the state of utterance recognition to the state of emotion understanding at a low frequency in the case of a speaker who uses a lot of emotional words. As a result, the information processing device 10 can control the
応答生成部117は、話者が日常的に忙しい話者の場合には、実行準備の状態において、聞き返しの復唱をせずに処理を行うための制御情報を生成してもよい。これにより、情報処理装置10は、話者が依頼に関する発話をすると直ぐに実行するように端末装置20の制御を行うことができる。
When the speaker is a busy speaker on a daily basis, the response generation unit 117 may generate control information for processing without reciting the listener in the state of preparation for execution. As a result, the information processing device 10 can control the
・感情理解の状態の推定の制限
状態推定部114は、話者の感情が定常(ニュートラル)の状態と判定した場合には、話者の発話に感情語を含む場合であっても、感情理解の状態を推定しなくてもよい。例えば、状態推定部114は、撮像情報に基づく話者の表情の認識処理結果に基づいて、話者の感情が定常の状態と判定した場合には、感情理解の状態を推定しなくてもよい。他の例として、状態推定部114は、話者の発話の抑揚や周辺言語等による発話認識の処理結果に基づいて、話者の感情が定常の状態と判定した場合には、感情理解の状態を推定しなくてもよい。また、状態推定部114は、発話に対する言語処理結果に基づいて、発話に含まれる感情語が、話者の感情による言語情報ではなく、他者の感情や他者の文章から引用された言語情報である場合には、感情理解の状態を推定しなくてもよい。
-Restriction on Estimating the State of Emotion Understanding When the state estimation unit 114 determines that the speaker's emotion is in a neutral state, the state understanding unit 114 understands the emotion even if the speaker's utterance includes emotional words. It is not necessary to estimate the state of. For example, the state estimation unit 114 does not have to estimate the state of emotion understanding when the speaker's emotion is determined to be a steady state based on the result of the recognition processing of the speaker's facial expression based on the imaging information. .. As another example, when the state estimation unit 114 determines that the speaker's emotion is in a steady state based on the processing result of the speaker's utterance intonation and the utterance recognition by the peripheral language, the state of emotion understanding. Does not have to be estimated. Further, in the state estimation unit 114, based on the linguistic processing result for the utterance, the emotional words included in the utterance are not the linguistic information based on the speaker's emotions, but the linguistic information quoted from the emotions of others or the sentences of others. If this is the case, it is not necessary to estimate the state of emotional understanding.
<<3.応用例>>
以上、本開示の実施形態について説明した。続いて、本開示の実施形態に係る情報処理システム1の応用例を説明する。
<< 3. Application example >>
The embodiments of the present disclosure have been described above. Subsequently, an application example of the
<3.1.視聴覚障害>
上記実施形態は、視聴覚障害者等の医療分野においても応用し得る。話者が視覚障害者である場合には、頷き等の視覚による応答を適切に把握することができないものと考えられる。このため、情報処理システム1は、話者が視覚障害者の場合には、頷きではなく、相槌を用いて応答を行ってもよい。この場合、応答生成部117は、頷きを用いて応答するタイミングに、頷きではなく、相槌を用いて応答を行うための制御情報を生成してもよい。一方、話者が聴覚障害者である場合には、相槌等の聴覚による応答を適切に把握することができないものと考えられる。このため、情報処理システム1は、話者が聴覚障害者の場合には、相槌ではなく、頷きを用いて応答を行ってもよい。この場合、応答生成部117は、相槌を用いて応答するタイミングに、相槌ではなく、頷きを用いて応答を行うための制御情報を生成してもよい。
<3.1. Audiovisual impairment>
The above embodiment can also be applied in the medical field such as a visually impaired person. If the speaker is visually impaired, it is considered that the visual response such as nodding cannot be properly grasped. Therefore, when the speaker is a visually impaired person, the
<3.2.高齢者>
上記実施形態は、高齢者等の介護分野においても応用し得る。話者が高齢者である場合には、情報処理システム1は、頷きや相槌等の応答の動作のテンポを遅くしてもよい。また、情報処理システム1は、終端検出の間の時間等に関する検出の閾値を大きくしてもよい。これにより、情報処理システム1は、話者の発話と端末装置20による発話とのタイミングが重複しないように制御することができる。また、情報処理システム1は、端末装置20が示す表情の変化を大きくしてもよい。また、情報処理システム1は、周囲音が定常であっても、聴力が低下している高齢者の場合には、発話音量等の応答の変化を大きくしてもよい。これにより、情報処理システム1は、端末装置20が話者以外の他者(例えば、話者の家族)とも対話する場合であっても、他者と対話する場合と比較して、端末装置20が行う応答を相対的に変化させることにより、話者に適した応答を行うことができる。
<3.2. Elderly>
The above embodiment can also be applied to the field of long-term care for the elderly and the like. When the speaker is an elderly person, the
<<4.ハードウェア構成例>>
最後に、図17を参照しながら、実施形態に係る情報処理装置のハードウェア構成例について説明する。図17は、実施形態に係る情報処理装置のハードウェア構成例を示すブロック図である。なお、図17に示す情報処理装置900は、例えば、図10に示した情報処理装置10及び端末装置20を実現し得る。実施形態に係る情報処理装置10及び端末装置20による情報処理は、ソフトウェアと、以下に説明するハードウェアとの協働により実現される。
<< 4. Hardware configuration example >>
Finally, a hardware configuration example of the information processing apparatus according to the embodiment will be described with reference to FIG. FIG. 17 is a block diagram showing a hardware configuration example of the information processing device according to the embodiment. The
図17に示すように、情報処理装置900は、CPU(Central Processing Unit)901、ROM(Read Only Memory)902、及びRAM(Random Access Memory)903を備える。また、情報処理装置900は、ホストバス904a、ブリッジ904、外部バス904b、インタフェース905、入力装置906、出力装置907、ストレージ装置908、ドライブ909、接続ポート910、及び通信装置911を備える。なお、ここで示すハードウェア構成は一例であり、構成要素の一部が省略されてもよい。また、ハードウェア構成は、ここで示される構成要素以外の構成要素をさらに含んでもよい。
As shown in FIG. 17, the
CPU901は、例えば、演算処理装置又は制御装置として機能し、ROM902、RAM903、又はストレージ装置908に記録された各種プログラムに基づいて各構成要素の動作全般又はその一部を制御する。ROM902は、CPU901に読み込まれるプログラムや演算に用いるデータ等を格納する手段である。RAM903には、例えば、CPU901に読み込まれるプログラムや、そのプログラムを実行する際に適宜変化する各種パラメータ等が一時的又は永続的に格納される。これらはCPUバスなどから構成されるホストバス904aにより相互に接続されている。CPU901、ROM902およびRAM903は、例えば、ソフトウェアとの協働により、図10を参照して説明した制御部110及び制御部210の機能を実現し得る。
The
CPU901、ROM902、及びRAM903は、例えば、高速なデータ伝送が可能なホストバス904aを介して相互に接続される。一方、ホストバス904aは、例えば、ブリッジ904を介して比較的データ伝送速度が低速な外部バス904bに接続される。また、外部バス904bは、インタフェース905を介して種々の構成要素と接続される。
The
入力装置906は、例えば、マウス、キーボード、タッチパネル、ボタン、マイクロフォン、スイッチ及びレバー等、話者によって情報が入力される装置によって実現される。また、入力装置906は、例えば、赤外線やその他の電波を利用したリモートコントロール装置であってもよいし、情報処理装置900の操作に対応した携帯電話やPDA等の外部接続機器であってもよい。さらに、入力装置906は、例えば、上記の入力手段を用いて話者により入力された情報に基づいて入力信号を生成し、CPU901に出力する入力制御回路などを含んでいてもよい。情報処理装置900の話者は、この入力装置906を操作することにより、情報処理装置900に対して各種のデータを入力したり処理動作を指示したりすることができる。
The input device 906 is realized by a device such as a mouse, a keyboard, a touch panel, a button, a microphone, a switch, and a lever, in which information is input by a speaker. Further, the input device 906 may be, for example, a remote control device using infrared rays or other radio waves, or an externally connected device such as a mobile phone or a PDA that supports the operation of the
他にも、入力装置906は、話者に関する情報を検知する装置により形成され得る。例えば、入力装置906は、画像センサ(例えば、カメラ)、深度センサ(例えば、ステレオカメラ)、加速度センサ、ジャイロセンサ、地磁気センサ、光センサ、音センサ、測距センサ(例えば、ToF(Time of Flight)センサ)、力センサ等の各種のセンサを含み得る。また、入力装置906は、情報処理装置900の姿勢、移動速度等、情報処理装置900自身の状態に関する情報や、情報処理装置900の周辺の明るさや騒音等、情報処理装置900の周辺環境に関する情報を取得してもよい。また、入力装置906は、GNSS(Global Navigation Satellite System)衛星からのGNSS信号(例えば、GPS(Global Positioning System)衛星からのGPS信号)を受信して装置の緯度、経度及び高度を含む位置情報を測定するGNSSモジュールを含んでもよい。また、位置情報に関しては、入力装置906は、Wi−Fi(登録商標)、携帯電話・PHS・スマートフォン等との送受信、または近距離通信等により位置を検知するものであってもよい。入力装置906は、例えば、図10を参照して説明した発話取得部211の機能を実現し得る。
Alternatively, the input device 906 may be formed by a device that detects information about the speaker. For example, the input device 906 includes an image sensor (for example, a camera), a depth sensor (for example, a stereo camera), an acceleration sensor, a gyro sensor, a geomagnetic sensor, an optical sensor, a sound sensor, and a distance measuring sensor (for example, ToF (Time of Flight)). ) Sensors), may include various sensors such as force sensors. Further, the input device 906 includes information on the state of the
出力装置907は、取得した情報を話者に対して視覚的又は聴覚的に通知することが可能な装置で形成される。このような装置として、CRTディスプレイ装置、液晶ディスプレイ装置、プラズマディスプレイ装置、ELディスプレイ装置、レーザープロジェクタ、LEDプロジェクタ及びランプ等の表示装置や、スピーカ及びヘッドホン等の音声出力装置や、プリンタ装置等がある。出力装置907は、例えば、情報処理装置900が行った各種処理により得られた結果を出力する。具体的には、表示装置は、情報処理装置900が行った各種処理により得られた結果を、テキスト、イメージ、表、グラフ等、様々な形式で視覚的に表示する。他方、音声出力装置は、再生された音声データや音響データ等からなるオーディオ信号をアナログ信号に変換して聴覚的に出力する。出力装置907は、例えば、図10を参照して説明した提示部220の機能を実現し得る。
The output device 907 is formed by a device capable of visually or audibly notifying the speaker of the acquired information. Such devices include display devices such as CRT display devices, liquid crystal display devices, plasma display devices, EL display devices, laser projectors, LED projectors and lamps, audio output devices such as speakers and headphones, and printer devices. .. The output device 907 outputs, for example, the results obtained by various processes performed by the
ストレージ装置908は、情報処理装置900の記憶部の一例として形成されたデータ格納用の装置である。ストレージ装置908は、例えば、HDD等の磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイス又は光磁気記憶デバイス等により実現される。ストレージ装置908は、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置および記憶媒体に記録されたデータを削除する削除装置などを含んでもよい。このストレージ装置908は、CPU901が実行するプログラムや各種データ及び外部から取得した各種のデータ等を格納する。ストレージ装置908は、例えば、図10を参照して説明した記憶部120の機能を実現し得る。
The
ドライブ909は、記憶媒体用リーダライタであり、情報処理装置900に内蔵、あるいは外付けされる。ドライブ909は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記憶媒体に記録されている情報を読み出して、RAM903に出力する。また、ドライブ909は、リムーバブル記憶媒体に情報を書き込むこともできる。
The
接続ポート910は、例えば、USB(Universal Serial Bus)ポート、IEEE1394ポート、SCSI(Small Computer System Interface)、RS−232Cポート、又は光オーディオ端子等のような外部接続機器を接続するためのポートである。 The connection port 910 is a port for connecting an external connection device such as a USB (Universal Serial Bus) port, an IEEE1394 port, a SCSI (Small Computer System Interface), an RS-232C port, or an optical audio terminal. ..
通信装置911は、例えば、ネットワーク920に接続するための通信デバイス等で形成された通信インタフェースである。通信装置911は、例えば、有線若しくは無線LAN(Local Area Network)、LTE(Long Term Evolution)、Bluetooth(登録商標)又はWUSB(Wireless USB)用の通信カード等である。また、通信装置911は、光通信用のルータ、ADSL(Asymmetric Digital Subscriber Line)用のルータ又は各種通信用のモデム等であってもよい。この通信装置911は、例えば、インターネットや他の通信機器との間で、例えばTCP/IP等の所定のプロトコルに則して信号等を送受信することができる。通信装置911は、例えば、図10を参照して説明した通信部100及び通信部200の機能を実現し得る。
The
なお、ネットワーク920は、ネットワーク920に接続されている装置から送信される情報の有線、または無線の伝送路である。例えば、ネットワーク920は、インターネット、電話回線網、衛星通信網などの公衆回線網や、Ethernet(登録商標)を含む各種のLAN(Local Area Network)、WAN(Wide Area Network)などを含んでもよい。また、ネットワーク920は、IP−VPN(Internet Protocol−Virtual Private Network)などの専用回線網を含んでもよい。
The
以上、実施形態に係る情報処理装置900の機能を実現可能なハードウェア構成の一例を示した。上記の各構成要素は、汎用的な部材を用いて実現されていてもよいし、各構成要素の機能に特化したハードウェアにより実現されていてもよい。従って、実施形態を実施する時々の技術レベルに応じて、適宜、利用するハードウェア構成を変更することが可能である。
The above is an example of a hardware configuration capable of realizing the functions of the
<<5.まとめ>>
以上説明したように、実施形態に係る情報処理装置10は、話者の発話に基づく感情理解の状態の推定結果に基づいた出力情報を生成する処理を行う。これにより、情報処理装置10は、話者の発話に基づく感情理解の状態の推定結果に基づいて、端末装置20の動作を制御することができる。
<< 5. Summary >>
As described above, the information processing device 10 according to the embodiment performs a process of generating output information based on the estimation result of the state of emotional understanding based on the utterance of the speaker. As a result, the information processing device 10 can control the operation of the
よって、話者の発話の意図に沿った自然な対話を実現することが可能な、新規かつ改良された情報処理装置、情報処理方法及び情報処理プログラムを提供することが可能である。 Therefore, it is possible to provide a new and improved information processing apparatus, information processing method, and information processing program capable of realizing a natural dialogue in line with the intention of the speaker's utterance.
以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本
開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
Although the preferred embodiments of the present disclosure have been described in detail with reference to the accompanying drawings, the technical scope of the present disclosure is not limited to such examples. It is clear that a person having ordinary knowledge in the technical field of the present disclosure can come up with various modifications or modifications within the scope of the technical ideas described in the claims. Of course, it is understood that the above also belongs to the technical scope of the present disclosure.
例えば、本明細書において説明した各装置は、単独の装置として実現されてもよく、一部または全部が別々の装置として実現されても良い。例えば、図10に示した情報処理装置10及び端末装置20は、それぞれ単独の装置として実現されてもよい。また、例えば、情報処理装置10及び端末装置20とネットワーク等で接続されたサーバ装置として実現されてもよい。また、情報処理装置10が有する制御部110の機能をネットワーク等で接続されたサーバ装置が有する構成であってもよい。
For example, each device described herein may be realized as a single device, or part or all of it may be realized as a separate device. For example, the information processing device 10 and the
また、本明細書において説明した各装置による一連の処理は、ソフトウェア、ハードウェア、及びソフトウェアとハードウェアとの組合せのいずれを用いて実現されてもよい。ソフトウェアを構成するプログラムは、例えば、各装置の内部又は外部に設けられる記録媒体(非一時的な媒体:non−transitory media)に予め格納される。そして、各プログラムは、例えば、コンピュータによる実行時にRAMに読み込まれ、CPUなどのプロセッサにより実行される。 In addition, the series of processes by each device described in the present specification may be realized by using software, hardware, or a combination of software and hardware. The programs constituting the software are stored in advance in, for example, a recording medium (non-temporary medium: non-transitory media) provided inside or outside each device. Then, each program is read into RAM at the time of execution by a computer and executed by a processor such as a CPU.
また、本明細書においてフローチャートを用いて説明した処理は、必ずしも図示された順序で実行されなくてもよい。いくつかの処理ステップは、並列的に実行されてもよい。また、追加的な処理ステップが採用されてもよく、一部の処理ステップが省略されてもよい。 Further, the processes described with reference to the flowchart in the present specification do not necessarily have to be executed in the order shown in the drawings. Some processing steps may be performed in parallel. Further, additional processing steps may be adopted, and some processing steps may be omitted.
また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。 In addition, the effects described herein are merely explanatory or exemplary and are not limited. That is, the techniques according to the present disclosure may exhibit other effects apparent to those skilled in the art from the description herein, in addition to or in place of the above effects.
なお、以下のような構成も本開示の技術的範囲に属する。
(1)
話者の発話に基づく感情を理解する感情理解の状態を推定する状態推定部と、
前記状態推定部による推定結果に基づいた出力情報を生成する応答生成部と、
を備える、情報処理装置。
(2)
前記状態推定部は、
前記感情理解を含む複数の状態を推定する、
前記(1)に記載の情報処理装置。
(3)
前記状態推定部は、
前記複数の状態として、前記感情理解、前記話者の発話を認識する発話認識、及び、当該話者の発話に含まれる依頼に関する情報に基づく処理を実行するための準備である実行準備処理のうち少なくともいずれか一つの状態を推定する、
前記(2)に記載の情報処理装置。
(4)
前記状態推定部は、
前記話者の発話に含まれる言語情報のうち感情を示す感情語に応じた前記感情理解の状態を推定する、
前記(1)〜(3)のいずれか一項に記載の情報処理装置。
(5)
前記状態推定部は、
前記話者の発話に含まれる言語情報のうち感情を示す感情語以外の言語情報であって、当該話者の感情を表現する言語情報に応じた前記感情理解の状態を推定する、
前記(1)〜(4)のいずれか一項に記載の情報処理装置。
(6)
前記応答生成部は、
前記話者の発話の終端に関する情報に基づいて、当該話者の発話を認識する発話認識に基づいた前記出力情報を生成する、
前記(1)〜(5)のいずれか一項に記載の情報処理装置。
(7)
前記応答生成部は、
前記話者の発話の終端に関する情報に基づいて、前記感情理解に基づいた前記出力情報を生成する、
前記(1)〜(6)のいずれか一項に記載の情報処理装置。
(8)
前記応答生成部は、
前記感情理解に基づいた前記出力情報として、前記話者の発話に含まれる言語情報のうち感情を示す感情語を復唱するための共感発話を生成する、
前記(7)に記載の情報処理装置。
(9)
前記応答生成部は、
前記感情語に対応する同義語として予め定められた言語情報を復唱するための共感発話を生成する、
前記(8)に記載の情報処理装置。
(10)
前記応答生成部は、
前記感情理解に基づいた前記出力情報として、前記話者の発話に含まれる言語情報のうち感情を示す感情語以外の言語情報であって、当該話者の感情を表現する言語情報を復唱するための共感発話を生成する、
前記(7)〜(9)のいずれか一項に記載の情報処理装置。
(11)
前記応答生成部は、
前記話者の発話に含まれる依頼に関する情報が所定の条件を満たす場合、当該依頼に関する情報に基づいた前記出力情報を生成する、
前記(1)〜(10)のいずれか一項に記載の情報処理装置。
(12)
前記応答生成部は、
前記話者の発話に含まれる依頼に関する情報が所定の条件を満たさない場合、当該話者に対して当該依頼に関する情報を発話するよう促すための前記出力情報を生成する、
前記(1)〜(11)のいずれか一項に記載の情報処理装置。
(13)
前記応答生成部は、
前記出力情報として、音声情報、又は、動作情報を生成する、
請求項1に記載の情報処理装置。
前記(1)〜(12)のいずれか一項に記載の情報処理装置。
(14)
前記応答生成部は、
前記出力情報として、映像上の表現に関する前記動作情報を生成する、
前記(13)に記載の情報処理装置。
(15)
前記応答生成部は、
前記感情理解に基づいた前記出力情報として、前記話者の発話を認識する発話認識に基づいた前記出力情報よりも、当該話者にとって認識可能な前記音声情報、又は、前記動作情報を生成する、
前記(13)又は(14)に記載の情報処理装置。
(16)
前記応答生成部は、
前記話者に応じた基準と比較して相対的な前記出力情報を生成する、
前記(13)〜(15)のいずれか一項に記載の情報処理装置。
(17)
前記応答生成部は、
前記出力情報として、前記話者の周囲の環境に応じた音量での前記音声情報を生成する、
前記(16)に記載の情報処理装置。
(18)
コンピュータが、
話者の発話に基づく感情を理解する感情理解の状態を推定し、
推定された推定結果に基づいた出力情報を生成する、
情報処理方法。
(19)
話者の発話に基づく感情を理解する感情理解の状態を推定する状態推定手順と、
推定された推定結果に基づいた出力情報を生成する応答生成手順と、
をコンピュータに実行させることを特徴とする情報処理プログラム。
The following configurations also belong to the technical scope of the present disclosure.
(1)
A state estimation unit that estimates the state of emotional understanding that understands emotions based on the speaker's utterances,
A response generation unit that generates output information based on the estimation result by the state estimation unit, and a response generation unit.
Information processing device.
(2)
The state estimation unit
Estimate a plurality of states including the emotional understanding,
The information processing device according to (1) above.
(3)
The state estimation unit
Of the execution preparatory processes, which are preparations for executing the emotion understanding, the utterance recognition for recognizing the speaker's utterance, and the process based on the information regarding the request included in the speaker's utterance as the plurality of states. Estimate at least one of the states,
The information processing device according to (2) above.
(4)
The state estimation unit
Estimate the state of emotional understanding according to emotional words indicating emotions in the linguistic information included in the speaker's utterance.
The information processing device according to any one of (1) to (3) above.
(5)
The state estimation unit
Among the linguistic information included in the utterance of the speaker, the linguistic information other than the emotional word indicating the emotion, and the state of the emotional understanding according to the linguistic information expressing the emotion of the speaker is estimated.
The information processing device according to any one of (1) to (4) above.
(6)
The response generator
Based on the information about the end of the speaker's utterance, the output information based on the utterance recognition that recognizes the speaker's utterance is generated.
The information processing device according to any one of (1) to (5) above.
(7)
The response generator
Generates the output information based on the emotional understanding based on the information about the end of the speaker's utterance.
The information processing device according to any one of (1) to (6) above.
(8)
The response generator
As the output information based on the emotional understanding, an empathic utterance for reciting an emotional word indicating an emotion among the linguistic information included in the speaker's utterance is generated.
The information processing device according to (7) above.
(9)
The response generator
Generates empathic utterances for reciting predetermined linguistic information as synonyms corresponding to the emotional words.
The information processing device according to (8) above.
(10)
The response generator
As the output information based on the emotional understanding, the linguistic information other than the emotional words indicating the emotions among the linguistic information included in the utterance of the speaker is used to repeat the linguistic information expressing the emotions of the speaker. Generate sympathetic utterances,
The information processing device according to any one of (7) to (9) above.
(11)
The response generator
When the information about the request included in the utterance of the speaker satisfies a predetermined condition, the output information based on the information about the request is generated.
The information processing device according to any one of (1) to (10) above.
(12)
The response generator
When the information regarding the request included in the utterance of the speaker does not satisfy a predetermined condition, the output information for urging the speaker to speak the information regarding the request is generated.
The information processing device according to any one of (1) to (11) above.
(13)
The response generator
As the output information, voice information or operation information is generated.
The information processing device according to
The information processing device according to any one of (1) to (12) above.
(14)
The response generator
As the output information, the operation information regarding the expression on the video is generated.
The information processing device according to (13) above.
(15)
The response generator
As the output information based on the emotional understanding, the voice information or the operation information that can be recognized by the speaker is generated rather than the output information based on the utterance recognition that recognizes the utterance of the speaker.
The information processing device according to (13) or (14).
(16)
The response generator
Generate the output information relative to the speaker-dependent criteria.
The information processing device according to any one of (13) to (15).
(17)
The response generator
As the output information, the voice information at a volume corresponding to the environment around the speaker is generated.
The information processing device according to (16) above.
(18)
The computer
Understanding emotions based on the speaker's utterance Estimate the state of emotional understanding and
Generate output information based on the estimated estimation results,
Information processing method.
(19)
Understanding emotions based on the speaker's utterance State estimation procedure for estimating the state of emotional understanding, and
A response generation procedure that generates output information based on the estimated estimation results, and
An information processing program characterized by having a computer execute.
1 情報処理システム
10 情報処理装置
20 端末装置
100 通信部
110 制御部
111 話者識別部
112 発話検出部
113 発話認識部
114 状態推定部
115 意味解析部
116 依頼処理部
117 応答生成部
118 発話実行部
119 動作提示部
120 記憶部
200 通信部
210 制御部
211 発話取得部
212 撮像部
213 動作制御部
220 提示部
221 音声提示部
222 動作提示部
1 Information processing system 10
Claims (19)
前記状態推定部による推定結果に基づいた出力情報を生成する応答生成部と、
を備える、情報処理装置。 A state estimation unit that estimates the state of emotional understanding that understands emotions based on the speaker's utterances,
A response generation unit that generates output information based on the estimation result by the state estimation unit, and a response generation unit.
Information processing device.
前記感情理解を含む複数の状態を推定する、
請求項1に記載の情報処理装置。 The state estimation unit
Estimate a plurality of states including the emotional understanding,
The information processing device according to claim 1.
前記複数の状態として、前記感情理解、前記話者の発話を認識する発話認識、及び、当該話者の発話に含まれる依頼に関する情報に基づく処理を実行するための準備である実行準備処理のうち少なくともいずれか一つの状態を推定する、
請求項2に記載の情報処理装置。 The state estimation unit
Of the execution preparatory processes, which are preparations for executing the emotion understanding, the utterance recognition for recognizing the speaker's utterance, and the process based on the information regarding the request included in the speaker's utterance as the plurality of states. Estimate at least one of the states,
The information processing device according to claim 2.
前記話者の発話に含まれる言語情報のうち感情を示す感情語に応じた前記感情理解の状態を推定する、
請求項1に記載の情報処理装置。 The state estimation unit
Estimate the state of emotional understanding according to emotional words indicating emotions in the linguistic information included in the speaker's utterance.
The information processing device according to claim 1.
前記話者の発話に含まれる言語情報のうち感情を示す感情語以外の言語情報であって、当該話者の感情を表現する言語情報に応じた前記感情理解の状態を推定する、
請求項1に記載の情報処理装置。 The state estimation unit
Among the linguistic information included in the utterance of the speaker, the linguistic information other than the emotional word indicating the emotion, and the state of the emotional understanding according to the linguistic information expressing the emotion of the speaker is estimated.
The information processing device according to claim 1.
前記話者の発話の終端に関する情報に基づいて、当該話者の発話を認識する発話認識に基づいた前記出力情報を生成する、
請求項1に記載の情報処理装置。 The response generator
Based on the information about the end of the speaker's utterance, the output information based on the utterance recognition that recognizes the speaker's utterance is generated.
The information processing device according to claim 1.
前記話者の発話の終端に関する情報に基づいて、前記感情理解に基づいた前記出力情報を生成する、
請求項1に記載の情報処理装置。 The response generator
Generates the output information based on the emotional understanding based on the information about the end of the speaker's utterance.
The information processing device according to claim 1.
前記感情理解に基づいた前記出力情報として、前記話者の発話に含まれる言語情報のうち感情を示す感情語を復唱するための共感発話を生成する、
請求項7に記載の情報処理装置。 The response generator
As the output information based on the emotional understanding, an empathic utterance for reciting an emotional word indicating an emotion among the linguistic information included in the speaker's utterance is generated.
The information processing device according to claim 7.
前記感情語に対応する同義語として予め定められた言語情報を復唱するための共感発話を生成する、
請求項8に記載の情報処理装置。 The response generator
Generates empathic utterances for reciting predetermined linguistic information as synonyms corresponding to the emotional words.
The information processing device according to claim 8.
前記感情理解に基づいた前記出力情報として、前記話者の発話に含まれる言語情報のうち感情を示す感情語以外の言語情報であって、当該話者の感情を表現する言語情報を復唱するための共感発話を生成する、
請求項7に記載の情報処理装置。 The response generator
As the output information based on the emotional understanding, the linguistic information other than the emotional words indicating the emotions among the linguistic information included in the utterance of the speaker is used to repeat the linguistic information expressing the emotions of the speaker. Generate sympathetic utterances,
The information processing device according to claim 7.
前記話者の発話に含まれる依頼に関する情報が所定の条件を満たす場合、当該依頼に関する情報に基づいた前記出力情報を生成する、
請求項1に記載の情報処理装置。 The response generator
When the information about the request included in the utterance of the speaker satisfies a predetermined condition, the output information based on the information about the request is generated.
The information processing device according to claim 1.
前記話者の発話に含まれる依頼に関する情報が所定の条件を満たさない場合、当該話者に対して当該依頼に関する情報を発話するよう促すための前記出力情報を生成する、
請求項1に記載の情報処理装置。 The response generator
When the information regarding the request included in the utterance of the speaker does not satisfy a predetermined condition, the output information for urging the speaker to speak the information regarding the request is generated.
The information processing device according to claim 1.
前記出力情報として、音声情報、又は、動作情報を生成する、
請求項1に記載の情報処理装置。 The response generator
As the output information, voice information or operation information is generated.
The information processing device according to claim 1.
前記出力情報として、映像上の表現に関する前記動作情報を生成する、
請求項13に記載の情報処理装置。 The response generator
As the output information, the operation information regarding the expression on the video is generated.
The information processing device according to claim 13.
前記感情理解に基づいた前記出力情報として、前記話者の発話を認識する発話認識に基づいた前記出力情報よりも、当該話者にとって認識可能な前記音声情報、又は、前記動作情報を生成する、
請求項13に記載の情報処理装置。 The response generator
As the output information based on the emotional understanding, the voice information or the operation information that can be recognized by the speaker is generated rather than the output information based on the utterance recognition that recognizes the utterance of the speaker.
The information processing device according to claim 13.
前記話者に応じた基準と比較して相対的な前記出力情報を生成する、
請求項13に記載の情報処理装置。 The response generator
Generate the output information relative to the speaker-dependent criteria.
The information processing device according to claim 13.
前記出力情報として、前記話者の周囲の環境に応じた音量での前記音声情報を生成する、
請求項16に記載の情報処理装置。 The response generator
As the output information, the voice information at a volume corresponding to the environment around the speaker is generated.
The information processing device according to claim 16.
話者の発話に基づく感情を理解する感情理解の状態を推定し、
推定された推定結果に基づいた出力情報を生成する、
情報処理方法。 The computer
Understanding emotions based on the speaker's utterance Estimate the state of emotional understanding and
Generate output information based on the estimated estimation results,
Information processing method.
推定された推定結果に基づいた出力情報を生成する応答生成手順と、
をコンピュータに実行させることを特徴とする情報処理プログラム。 Understanding emotions based on the speaker's utterance State estimation procedure for estimating the state of emotional understanding, and
A response generation procedure that generates output information based on the estimated estimation results, and
An information processing program characterized by having a computer execute.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020011190A JP2021117371A (en) | 2020-01-27 | 2020-01-27 | Information processor, information processing method and information processing program |
PCT/JP2020/047857 WO2021153101A1 (en) | 2020-01-27 | 2020-12-22 | Information processing device, information processing method, and information processing program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020011190A JP2021117371A (en) | 2020-01-27 | 2020-01-27 | Information processor, information processing method and information processing program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2021117371A true JP2021117371A (en) | 2021-08-10 |
Family
ID=77079017
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020011190A Pending JP2021117371A (en) | 2020-01-27 | 2020-01-27 | Information processor, information processing method and information processing program |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP2021117371A (en) |
WO (1) | WO2021153101A1 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023162108A1 (en) * | 2022-02-24 | 2023-08-31 | 日本電信電話株式会社 | Learning device, inference device, learning method, inference method, learning program, and inference program |
WO2023162114A1 (en) * | 2022-02-24 | 2023-08-31 | 日本電信電話株式会社 | Training device, inference device, training method, inference method, training program, and inference program |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10312196A (en) * | 1997-03-12 | 1998-11-24 | Seiko Epson Corp | Method and device for optimizing response voice volume |
JP4729902B2 (en) * | 2003-12-12 | 2011-07-20 | 株式会社豊田中央研究所 | Spoken dialogue system |
JP6643077B2 (en) * | 2015-12-22 | 2020-02-12 | 株式会社アイ・ビジネスセンター | Dialogue systems and programs |
JP2017162268A (en) * | 2016-03-10 | 2017-09-14 | 国立大学法人大阪大学 | Dialog system and control program |
US20200342870A1 (en) * | 2017-11-28 | 2020-10-29 | Sony Corporation | Information processing device and information processing method |
-
2020
- 2020-01-27 JP JP2020011190A patent/JP2021117371A/en active Pending
- 2020-12-22 WO PCT/JP2020/047857 patent/WO2021153101A1/en active Application Filing
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023162108A1 (en) * | 2022-02-24 | 2023-08-31 | 日本電信電話株式会社 | Learning device, inference device, learning method, inference method, learning program, and inference program |
WO2023162114A1 (en) * | 2022-02-24 | 2023-08-31 | 日本電信電話株式会社 | Training device, inference device, training method, inference method, training program, and inference program |
Also Published As
Publication number | Publication date |
---|---|
WO2021153101A1 (en) | 2021-08-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6819672B2 (en) | Information processing equipment, information processing methods, and programs | |
WO2017168870A1 (en) | Information processing device and information processing method | |
CN113454708A (en) | Linguistic style matching agent | |
US20200335128A1 (en) | Identifying input for speech recognition engine | |
JP6585733B2 (en) | Information processing device | |
KR102628211B1 (en) | Electronic apparatus and thereof control method | |
JPWO2017200074A1 (en) | Dialogue method, dialogue system, dialogue apparatus, and program | |
CN112840396A (en) | Electronic device for processing user words and control method thereof | |
JPWO2017130486A1 (en) | Information processing apparatus, information processing method, and program | |
JP6904361B2 (en) | Information processing device and information processing method | |
WO2019242414A1 (en) | Voice processing method and apparatus, storage medium, and electronic device | |
WO2021153101A1 (en) | Information processing device, information processing method, and information processing program | |
CN110874137A (en) | Interaction method and device | |
JP6904357B2 (en) | Information processing equipment, information processing methods, and programs | |
US20230386461A1 (en) | Voice user interface using non-linguistic input | |
JP2023548157A (en) | Other speaker audio filtering from calls and audio messages | |
WO2018079294A1 (en) | Information processing device and information processing method | |
WO2020079918A1 (en) | Information processing device and information processing method | |
JP2018075657A (en) | Generating program, generation device, control program, control method, robot device and telephone call system | |
KR20210100831A (en) | System and method for providing sign language translation service based on artificial intelligence | |
Panek et al. | Challenges in adopting speech control for assistive robots | |
JPWO2017200077A1 (en) | Dialogue method, dialogue system, dialogue apparatus, and program | |
WO2018079018A1 (en) | Information processing device and information processing method | |
JP7316971B2 (en) | CONFERENCE SUPPORT SYSTEM, CONFERENCE SUPPORT METHOD, AND PROGRAM | |
WO2021153102A1 (en) | Information processing device, information processing system, information processing method and information processing program |