JP7060106B2 - 対話装置、その方法、およびプログラム - Google Patents
対話装置、その方法、およびプログラム Download PDFInfo
- Publication number
- JP7060106B2 JP7060106B2 JP2020549955A JP2020549955A JP7060106B2 JP 7060106 B2 JP7060106 B2 JP 7060106B2 JP 2020549955 A JP2020549955 A JP 2020549955A JP 2020549955 A JP2020549955 A JP 2020549955A JP 7060106 B2 JP7060106 B2 JP 7060106B2
- Authority
- JP
- Japan
- Prior art keywords
- utterance
- sentence
- user
- subsequent
- utterances
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 32
- 230000004044 response Effects 0.000 claims description 135
- 230000014509 gene expression Effects 0.000 claims description 27
- 230000015572 biosynthetic process Effects 0.000 description 34
- 238000012545 processing Methods 0.000 description 34
- 238000003786 synthesis reaction Methods 0.000 description 34
- 241000406668 Loxodonta cyclotis Species 0.000 description 16
- 241001465754 Metazoa Species 0.000 description 13
- 239000003795 chemical substances by application Substances 0.000 description 10
- 238000012986 modification Methods 0.000 description 10
- 230000004048 modification Effects 0.000 description 10
- 238000011156 evaluation Methods 0.000 description 9
- 239000000945 filler Substances 0.000 description 9
- 230000008569 process Effects 0.000 description 9
- 230000000694 effects Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 241000282412 Homo Species 0.000 description 4
- 241000283080 Proboscidea <mammal> Species 0.000 description 4
- 238000013459 approach Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 230000008921 facial expression Effects 0.000 description 3
- 230000002194 synthesizing effect Effects 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 210000003205 muscle Anatomy 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 238000001308 synthesis method Methods 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 241000282455 Ailurus fulgens Species 0.000 description 1
- 241000272194 Ciconiiformes Species 0.000 description 1
- 241000282326 Felis catus Species 0.000 description 1
- 241000282818 Giraffidae Species 0.000 description 1
- 241000282575 Gorilla Species 0.000 description 1
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 240000000220 Panda oleosa Species 0.000 description 1
- 235000016496 Panda oleosa Nutrition 0.000 description 1
- 241000282373 Panthera pardus Species 0.000 description 1
- 241000282376 Panthera tigris Species 0.000 description 1
- 241001415849 Strigiformes Species 0.000 description 1
- 241000282797 Tapirus Species 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000004451 qualitative analysis Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/027—Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Manipulator (AREA)
Description
本第一実施形態では、一問一答とシナリオの組み合わせとして、質問とその質問に対応する回答との1組の組み合わせを1往復分の発話知識と定義して、2往復分の発話知識(ミニシナリオ)に基づく複数ロボット雑談対話システムを提案する。ミニシナリオは、ユーザが発話しそうな文とそれに後続する3発話から構成される。2体以上のロボットと1人のユーザとの対話を前提とし、ユーザ発話へロボットが応答したあと、その内容を反映した追加の一問一答をロボット間で行うことで、ユーザ発話を起点として、詳細に話題が繋がる自然な対話を実現する。ユーザへの応答および追加の一問一答は全てロボットが発話するため、対話として自然につながるようにあらかじめ作成しておくことができることがポイントである。また、ロボット間の対話を利用して、自然に話題を誘導することも可能である。そのため、システムが限られたドメインの発話知識しか保有しない場合でも、ユーザに違和感を感じさせることなく雑談を継続できる。また、本実施形態ではこの特性を活かし、狭いドメインに特化して質問応答と同程度に詳細な雑談用の発話知識を構築することで、雑談と質問応答を相互に行き来しながら知識を伝達するシステムの実現も可能となる。
図1は第一実施形態に係る対話システムの機能ブロック図を、図2はその処理フローを示す。
ロボットR1とロボットR2は、ユーザと対話するためのものであり、ユーザの近くに配置され、対話装置100が生成した発話を行う。
入力部102-1、102-2は、ユーザが発話した発話音声を収音して、収音された音声データを音声認識部110に出力する。
提示部101-1、101-2は、音声合成部140から入力された合成音声データに対応する音声を再生する。これにより、ユーザはロボットR1またはロボットR2の発話を受聴することになり、ユーザと対話システムとの対話が実現される。提示部101-1、101-2は、ロボットR1、R2の周囲に音響信号を発するものであり、例えばスピーカである。
4つ組発話記憶部130には、想定ユーザ発話文、ユーザ発話用応答文、それらに対する後続発話文とその後続応答文の4文を単位として構成される4つ組発話が複数個、対話に先立ち格納されている。想定ユーザ発話文、ユーザ発話用応答文、それらに対する後続発話文とその後続応答文の総称を発話文ともいう。なお、ユーザ発話用応答文、それらに対する後続発話文とその後続応答文は、例えば、テキストデータである。想定ユーザ発話文は、テキストデータのみからなってもよいし、単語単位に分割した情報とともに記憶していてもよいし、文の内容を表すベクトルに変換したものと紐付けて記憶していてもよいし、テキストデータを音声合成した音声合成データと紐づけて記憶していてもよいし、テキストデータに対応する情報と音声データとを紐づけて記憶してもよい。なお、ここでいう音声データは、テキストデータを音声合成した合成音声データでもよいし、人がテキストデータを読み上げたものを録音した音声データそのものまたはそれを編集したものでもよい。なお、4つ組発話記憶部130にテキストデータに対応する音声データを記憶する場合、音声合成部は不要となる。各4つ組発話は、それぞれを識別可能な情報(4つ組ID)と紐づけられて4つ組発話記憶部130に格納されている。別の例としては、ユーザ発話用応答文、それらに対する後続発話文とその後続応答文は、文の内容を表すベクトルに変換したものであってもよい。
(4つ組発話)
まず、ミニシナリオ(4つ組発話)について説明する。
t(1):R1→H:ユーザさんはゾウさんのどんなところが好き?
(後述するシナリオタイプ誘導発話文に相当)
t(2):H→R1:大きいところかな
(この発話t(2)に基づきシナリオタイプを判定し、発話t(2)に最も類似する想定ユーザ発話文(4つ組発話の1番目の発話)を含む4つ組発話を特定する)
t(3):R1→H:なるほど
(発話t(3)は非必須である。この発話t(3)は、ユーザの納得感向上のための発話であり、ユーザ発話を受けとめる発話である。)
t(4):R2→H:ゾウさん大きくてかっこいい
(発話t(4)は非必須である。この発話t(4)は、納得感向上のための発話であり、ユーザ発話を受けとめる発話である。ユーザ発話である発話t(2)に含まれる「大きい」に対応する「大きく」というフレーズを含み、リフレーズの発話ともいう。なお、発話t(4)を発するロボットは、1つ目の受けとめる発話t(3)とは、別ロボットであることが望ましい。)
t(5):R1→R2:肩までの高さは2.5~3mくらいあるんだよ
(4つ組発話の2番目の発話である。なお、2番目の発話を発するロボットは、直前に発話を発話したロボットとは別ロボットであることが望ましい。4つ組発話の2番目の発話は1番目の発話に対する応答を想定しているので、発話t(4):R2→Hのリフレーズを発したロボットとは異なるロボットが発することが望ましい。ロボットが3つ以上の場合には、2番目の発話を行うロボットは、発話t(4):R2→Hのリフレーズを発したロボットとは異なるロボットであれば、ロボットR1でなくてもよい。以下、ロボットが3つ以上の場合の説明は省略するが、別ロボットとする場合の考え方は、同様である。)
t(6):R2→R1:そんなに大きいんだ
(4つ組発話の3番目の発話。この例では、3番目の発話を発するロボットは、2番目の発話を発したロボットとは別ロボットである。)
t(7):R1→R2:近くで見ると迫力があるよ
(4つ組発話の4番目の発話。4番目の発話を発するロボットは、3番目の発話を発したロボットとは別ロボットである。)
後述する検索に用いるため、4つ組発話記憶部130に格納されている想定ユーザ発話文は、上述の通り、単語単位に分割した情報として記憶していてもよいし、文の内容を表すベクトルに変換したものと紐付けて記憶していてもよい。
・対象「ゾウ」のタイプ「いいところ」について、「お鼻が長いところが好き」や「ゾウさん大きくてかっこいい」などとなる。
・対象「ゾウ」のタイプ「質問」について、「何で鼻があんなに長いの?」や「何キロくらいあるの?」などとなる。
・対象「ゾウ」のタイプ「トリビア」について、「ゾウも日焼けしちゃうんだって。」や「ゾウは泳げるんだよ。」などとなる。
1.話題の連続性を表す指標をword2vecで作った文ベクトル間の距離で定義し、距離が所定の閾値より小さい、または、以下の場合に話題がつながる(話題の連続性があり、自然につながる)と判定する。
2.参考文献1の破綻検出技術を使って、破綻が検出されない場合に、話題がつながる(話題の連続性があり、自然につながる)と判定する。
(参考文献1)Hiroaki Sugiyama, "Dialogue Breakdown Detection based on Estimating Appropriateness of Topic Transition", Dialogue System Technology Challenge, 2016.
・タイプ「質問」には「鼻で吸ってるんじゃないの?」
・タイプ「平叙」には「すごく器用なんだね」
・タイプ「継続」には「しかも鼻の動きを観察していると、ゾウの気持ちが分かるんだって」
等が作成される。
前述の通り、発話決定部120は、シナリオタイプ誘導発話生成部121と、シナリオタイプ判定部122と、発現制御部123と、割り込み判定部124とを含む(図3参照)。
入力:対象A、タイプα
出力:シナリオタイプ誘導発話文を表すテキストデータ
シナリオタイプ誘導発話生成部121は、タイプαに紐づけられたテンプレート発話と対象Aを入力とし、タイプαに紐づけられたテンプレート発話と対象Aとからシナリオタイプ誘導発話文を生成し(S121)、音声合成部140に出力する。なお、シナリオタイプ誘導発話文は、「対象Aのタイプαについての発話を促す発話文」(テキストデータ等)である。
・いいところタイプの例は、対象Aの好きなところ。例えば「<対象A>のどんなところが好き?」といったシナリオタイプ誘導発話文を生成する。
・質問タイプの例は、対象Aに関する質問。例えば「<対象A>について聞きたいことある?」といったシナリオタイプ誘導発話文を生成する。
・トリビアタイプの例は、対象Aに関する一般的な認知度が低い知識。例えば「<対象A>は、人間には聞こえない音で会話するんだって。」といったシナリオタイプ誘導発話文を生成する。
・嫌いなところタイプの例は、対象Aの嫌いなところ。例えば「<対象A>のどんなところが嫌い?」といったシナリオタイプ誘導発話文を生成する。
・ロボットに対する賞賛タイプの例は、対象Aに関係なく、ロボットのよいところ。例えば「僕のどんなところが好き?」といったシナリオタイプ誘導発話文を生成する。なお、この場合、対象Aは必要ない。
・ロボットに対する悪口タイプの例は、対象Aに関係なく、ロボットの悪いところ。例えば「僕のどんなところが嫌い?」といったシナリオタイプ誘導発話文を生成する。なお、この場合、対象Aは必要ない。
音声合成部140は、シナリオタイプ誘導発話文を入力として受け取り、シナリオタイプ誘導発話文に対する音声合成を行って(S140-1)合成音声データを得て、得られた合成音声データをロボットR1の提示部101-1またはロボットR2の提示部101-2に出力する。なお、音声合成部140は、発話決定部120が決定した発話内容を表すテキストデータを、発話内容を表す音声信号に変換する。発話内容を表す音声信号は、提示部101-1または101-2へ入力される。音声合成の方法は既存のいかなる音声合成技術を用いてもよく、利用環境等に合わせて最適なものを適宜選択すればよい。
音声認識部110は、収音信号を入力として受け取り、この収音信号に対して音声認識を行い(S110-1)、音声認識結果をシナリオタイプ判定部122に出力する。音声認識結果には、例えば、対応するテキストデータと韻律の情報とが含まれる。なお、音声認識部110は、常時、入力部102-1または102-2で収音したユーザの発話音声の音声信号をユーザの発話内容を表すテキストデータに変換し、ユーザの発話内容を表すテキストデータを発話決定部120へ出力する。音声認識の方法は既存のいかなる音声認識技術を用いてもよく、利用環境等に合わせて最適なものを適宜選択すればよい。
入力:ユーザ発話に対応するテキストデータ、韻律の情報、4つ組発話記憶部130に格納された4つ組発話
出力:4つ組ID、類似度が閾値以上であったか否かを示す情報
シナリオタイプ判定部122は、ユーザ発話に対応するテキストデータ、韻律の情報を入力として受け取り、これらを用いて、ユーザ発話文が質問文であるか否かを判定する。質問文であるか否かの判定は、ユーザ発話に対応するテキストデータや音声の韻律を利用して行う。例えば、「どんな」や「どこで」のような疑問詞を含む場合や、「好きですか」のように疑問を示す終助詞で文が終わる場合、ユーザ発話文が質問文であると判定することができる。また、「好きなの」のように語尾の上げ下げによって質問か否かが変化する場合に、音声の韻律情報を用いてより正確に質問か否かを判定することができる。これらはルール的に記述してもよいし、質問発話を集めたコーパスから機械学習によって自動で認識しても良い(参考文献2参照)。
(参考文献2)目黒豊美,東中竜一郎,杉山弘晃,南泰浩,「意味属性パターンを用いたマイクロブログ中の発言に対する自動対話行為付与」,一般社団法人情報処理学会,2013年,研究報告音声言語情報処理(SLP),2013(1),1-6.
入力:4つ組ID、類似度が閾値以上であったか否かを示す情報
出力:ユーザの発話を受け止める発話文、4つ組発話
発現制御部123は、類似度が閾値以上である場合(S123-1のyes)、ユーザ発話を受け止める発話文に対応するテキストデータと、受け取った4つ組IDに対応するユーザ発話用応答文、後続発話文、後続応答文を音声合成部140に出力する(S123-2)。
(1)類似度が閾値以上であった場合
R1→H:なるほど(ユーザ発話を受けとめる発話の例1)
R2→H:ゾウさん大きくてかっこいい(ユーザ発話を受けとめる発話の例2)
等、ユーザ発話を受けとめる発話を行う。
(2)類似度が閾値未満であった場合
R1→H:なるほど
等、ユーザ発話を受けとめる発話1を行う。
あるユーザ発話用応答文に対して複数の後続発話文を用意してもよい(図5参照)。その場合、複数の後続発話文の中からランダムに選択して発現するようにしてもよい。例えば、前述の通り、発現制御部123は、4つ組IDを入力とするので、入力された4つ組IDに対応する4つ組発話のユーザ発話用応答文と、その4つ組発話のユーザ発話用応答文と同じユーザ発話用応答文を持つ4つ組発話とに対応する複数の後続発話文の中からランダムに1つの後続発話文を選択し発現させる。
シナリオタイプ誘導発話文:R1→H:ユーザさんはゾウさんのどんなところが好き?
ユーザ発話:H→R1:大きいところかな
ユーザ発話用応答文:R1→R2:肩までの高さは2.5~3mくらいあるんだよ
という対話に、以下の「質問」「平叙」「継続」に分類される後続発話文を用意する。
「質問」の後続発話文の例:R2→R1:鼻の長さはどれくらいあるの?
「平叙」の後続発話文の例:R2→R1:そんなに大きいんだ
「継続」の後続発話文の例:R1→R2:近くで見ると迫力があるよ
さらに、「質問」「平叙」「継続」毎に複数の後続発話文を用意してもよい。
・「質問」とは、ユーザ発話用応答文の内容に適切に合致する質問であり、ユーザ発話用応答文を発話しなかったロボットが発話する。
・「平叙」とは、ユーザ発話用応答文の内容に適切に合致する感想などの平叙文であり、ユーザ発話用応答文を発話しなかったロボットが発話する。
・「継続」とは、ユーザ発話用応答文の内容に適切に合致する追加情報などの平叙文であり、ユーザ発話用応答文を発話したロボット自身が連続して発話する。
発現制御部123は、対話の経緯から、ユーザの好きな後続発話文の分類を判定し、ユーザの好きな後続発話文が発現しやすくなるように選択してもよい。
音声合成部140は、発現制御部123が出力する、ユーザの発話を受け止める発話文、4つ組発話のユーザ発話用応答文、後続発話文、後続応答文を入力として受け取り、これらのテキストデータに対する音声合成を行って(S140-2)合成音声データを得て、得られた合成音声データをロボットR1の提示部101-1またはロボットR2の提示部101-2に出力する。
音声合成部140は、発現制御部123が出力する、ユーザの発話を受け止める発話文、4つ組発話の想定ユーザ発話文、ユーザ発話用応答文、後続発話文、後続応答文を入力として受け取り、これらのテキストデータに対する音声合成を行って(S140-3)合成音声データを得て、得られた合成音声データをロボットR1の提示部101-1またはロボットR2の提示部101-2に出力する。
入力:ユーザ発話に対応するテキストデータ、ユーザ発話の韻律の情報
出力:ユーザ発話に対応するテキストデータおよびユーザ発話の韻律の情報、またはユーザ発話を受け流す発話
図7は割り込み判定部124の処理フローの例を示す。
以上の構成により、ユーザ発話を起点として、詳細に話題が繋がる自然な対話を実現することができる。
(実験設定)
本実施形態の対話システムを動物園に設置し、1ヶ月間来場者と対話する実証実験を行った。実施場所は、動物園の無料エリアである。無料エリアは、主に親子で本を読みながら食事や休憩を取るスペースとなっており、特に休日は多数の来場者が訪れる場所である。本実験では、対話システムとの対話に対する実ユーザの満足度を評価することを目的とする。合わせて、適切な発話タイミングやユーザの対話への興味を推定する元データとして、対話中のユーザの表情や音声の収録を行う。対象は、動物の中で人気の高い、ゾウ、キリン、カバ、レッサーパンダ、ツシマヤマネコ、トラ、フクロウ、ゴリラ、ペンギン、バクの10種類である。来場者への案内は園内の看板やWeb等を通して行った。対話に参加する場合には、対話の方法について説明するとともに、タブレットPCを用いて対話中のユーザの呼び名や年齢・性別の設定、対象動物の選択、および本人が18歳以上もしくは保護者がいる場合のみ動画等のデータ取得に関する説明および同意取得を行った。上記準備の後、実際に来場者とロボットとの間で対話を行った。なお、デモ時間や対話安定性の制約上、ユーザが6回発話した段階で、ミニシナリオの切れ目で終了モードに移行し、「そろそろ時間みたい」と対話の終了を促す形で対話の終了処理を行った。また対話終了後、ユーザ評価を5段階(1:そう思わない、…、5:そう思う)で入力した。対話の楽しさや話題の対象への興味が対話の満足度を表すと考え、評価項目には、1.ロボットと話すのは楽しかったですか?(楽しさ)、2.選んだ動物に興味を持てましたか?(興味)、3.選んだ動物に詳しくなれましたか?(知識)の3項目を設定した。
実験に参加した延べ人数は、付き添う保護者を含め、概ね400-600人程度であった。そのうちデータ取得の同意を取れた人数は238名であった。本実験では、有効な同意を取得できた体験者のデータのみを用いて分析を行った。まず、参加者全体の評価値は、1.楽しさ:4.52、2.興味:4.28、3.知識:4.04であった。5段階評価で4.5以上は極めて高い値であり、ほとんどの体験者が楽しいと感じたことがわかる。一方、3.知識については、4.0は超えているものの楽しさ・興味に比べるとやや低い評価値となっていた。次に、年齢の分布、および年齢ごとの評価値を図8に示す。来場者として、当初小学生低学年くらいを想定していたものの、実際には未就学児が非常に多く体験していた。一方、小学生中学年以上および中高生はほとんど来園していないことがわかる。評価値で見ていくと、1.楽しさと2.興味は年齢に依らず概ね横ばいであった。3.知識については、有意差も出ていないものの、6-8、13-19、20-39歳の評価が高い一方、9-12歳の落ち込みが大きい。実際に体験者の様子を観察していると、6-8歳は知識のレベルが程よく合致しており、知識の満足度向上につながったものと考えられる。しかしながら、9-12歳程度で動物園に来場する子どもはもともと非常に動物に興味があり知識も極めて豊富な子が多く、小さい子どもに合わせた知識では十分な満足を与えられなかったものと考えられる。一方、それより大きい13歳以上、特に20歳以上になると、普通程度の知識の来場者が再び増加し、かつ一般的な対話システムやロボットの対話レベルとの比較で評価するようになるため、評価値が向上したものと考えられる。男女の体験者数はそれぞれ116名、119名(回答なし3名)であり、評価値は男性は4.47、4.32、3.95、女性は4.56、4.23、4.11で有意差はなかった。また、観察に基づく定性的な分析として、4歳以下はロボットの発話を正しく理解すること自体が難しい(オープンな質問に的確に答えられないなど)場合が多く、論理的に見れば破綻している状態がほとんどであった。しかしながら、その状態であっても、図8の結果からも、楽しく対話していた子が多いことがわかる。内容のやりとり以外の観点での対話の楽しさを解き明かす手がかりになると考えられる。加えて、対話後に感想を尋ねたところ、今回の対話の仕方(ロボット発話→人発話→ロボット間で対話の繰り返し)でも、しっかりつながった対話と感じたという意見が多かった。ロボット間で話すところまでを応答と見れば、構造的には一問一答と類似しているものの、つながった対話と感じられていたという結果は、今後の対話ロボット研究を進めていく上で非常に有用な知見である。一方、ロボットが話しすぎている、という意見も多くあった。スクリプトでは頻繁に人に話を振るように設計していたが、それでもなお不足と感じられていたため、話を振るタイミングやユーザが割り込みやすい隙をうまく制御する必要があると考えられる。特に今回、対話の安定性を志向してPush-to-talk式のターンテイクを採用していたものの、これにより、話を振られるまで割り込みにくいという印象を強めていた可能性がある。そのため、ターンテイクの制御と合わせたデザインが必要である。
上述の実施形態では、ロボットが4つ組を発話し終わったときで、かつユーザが割り込まなかった場合に、次にロボットに発話させる4つ組発話を特定し、音声合成部140において音声合成音声合成を行い、提示部101-1または101-2において提示する(S152)。ここで、以下のような変形が可能である。
シナリオタイプ誘導発話生成部121は、タイプ「いいところ」の中から4つ組IDをランダムに選択する。シナリオタイプ誘導発話生成部121は、選択した4つ組IDに対応する想定ユーザ発話文と、「ユーザさんは<想定ユーザ発話文>ってところは好き?」のように、ユーザに問いかける形式のテンプレートを用いて、想定ユーザ発話文を変形して出力する。例えば、シナリオタイプ誘導発話生成部121は、「体が大きい」という想定ユーザ発話文を、「ユーザさんは<体が大きい>ってところは好き?」という想定ユーザ発話文に変形する。その質問に対するユーザ発話の収音信号に対して音声認識を行い、応答に対して、Yes/No判定を行い、ユーザ発話に対する共感・非共感を発話する。その後、発現制御部123が選択した4つ組IDに対応するユーザ発話用応答文、後続発話文、後続応答文を音声合成部140に出力する(S123-2)。なお、共感の場合、対話システムは、変形前の想定ユーザ発話文に類似する、他の想定ユーザ発話文を用いてユーザ発話のリフレーズを行うことで、強い共感を示してもよい。例えば、対話システムは、「体が大きい」に類似する、他の想定ユーザ発話文である「超でかい!」を用いて、「<超でかい!>よね」という発話文を用いてリフレーズを行う。
シナリオタイプ誘導発話生成部121は、タイプ「質問」の中から4つ組IDをランダムに選択する。シナリオタイプ誘導発話生成部121は、選択した4つ組IDに対応する想定ユーザ発話文を用いて、あるロボット(例えばロボットR1)から他のロボット(例えばロボットR2)へ「そういえば、<想定ユーザ発話文>」のように質問をし、R2が「それはねえ。あ、ユーザさんはわかるかな?」とユーザHにクイズのように発話することで、ユーザを対話により強く関わらせることができる。さらに、
(2-1)ユーザ発話がわからない旨を発話していることが検知できた場合、ロボットR1が「僕もわからないや」というように共感を表出し、ロボットR2が「正解はねえ、<ユーザ発話用応答文>」のように発話することで、自然に対話を継続できる。
シナリオタイプ誘導発話生成部121は、タイプ「トリビア」の中から4つ組IDをランダムに選択する。シナリオタイプ誘導発話生成部121は、選択した4つ組IDに対応する想定ユーザ発話文を用いて、あるロボット(例えばロボットR1)からユーザHへ「そういえば、<想定ユーザ発話文>」のようにトリビアを発話し、他のロボット(例えばロボットR2)がロボットR1に「へー、そうなんだ。ユーザさんは知ってた?」とユーザHに聞くことで、単純に知識を披露するだけでなく、対話に積極的に関わらせることができる。
(3-1)~(3-2)のいずれの場合も、その後、発現制御部123が選択した4つ組IDに対応する後続発話文、後続応答文を音声合成部140に出力する(S123-2)。
本実施形態では、発現制御部123は、類似度が閾値未満である場合(S123-1のno)、ユーザ発話を受け止める発話文に対応するテキストデータと、受け取った4つ組IDに対応する想定ユーザ発話文、ユーザ発話用応答文、後続発話文、後続応答文を音声合成部140に出力している。このとき、想定ユーザ発話文のタイプが質問の場合には以下のように処理を変更してもよい。
本実施形態では、4つ組発話記憶部130には、想定ユーザ発話文、ユーザ発話用応答文、それらに対する後続発話文とその後続応答文の4文を単位として構成される4つ組発話が複数個格納されているが、必ずしも4つ組発話である必要はない。想定ユーザ発話文、ユーザ発話用応答文、それらに対する後続発話文とその後続応答文の4文を冒頭に含む複数組発話であればよく、複数組発話に含まれる発話数も、上述の4文を冒頭に含みさえすれば、複数組発話毎に異なってもよい。複数組発話に含まれる5番目以降の発話文をそれぞれロボットR1またはロボットR2に発話させればよい。
入力部102-1、102-2はユーザからのテキストデータを入力とし、提示部101-1、101-2は発話決定部から入力された発話内容のテキスト文をディスプレイ等にテキスト表示してもよい(例えば図4等)。これにより、ユーザは、ロボットR1またはロボットR2の発話を視認することでユーザと対話システムとの対話が実現される。この場合、入力部102-1、102-2のいずれか一方、及び、提示部101-1、101-2の何れか一方を備えないでもよい。また、対話システムは、音声合成部140、音声認識部110を備えないでもよい。
本実施形態の発現制御部123では類似度が閾値以上か未満かにより、処理内容を変更しているが、これは一例であって、類似度が閾値よりも大きいか否かにより、処理内容を変更する構成としてもよい。シナリオタイプ判定部122は、「類似度が閾値以上であったか否かを示す情報」に代えて「類似度が閾値よりも大きいか否かを示す情報」を求め、この情報に基づき各部で処理を行う。
第一実施形態と異なる部分を中心に説明する。
入力:ユーザ発話、4つ組発話記憶部130に格納された発話組
出力:4つ組ID、類似度が閾値以上であったか否かを示す情報、類似したのが想定ユーザ発話文、ユーザ発話用応答文、後続発話文のいずれであるかを示す情報
第一実施形態と同様にシナリオタイプ判定部122は、ユーザ発話に対応するテキストデータ、韻律の情報を用いて、ユーザ発話が質問文であるか否かを判定する。
入力:4つ組ID、類似度が閾値以上であったか否かを示す情報、類似したのが想定ユーザ発話文、ユーザ発話用応答文、後続発話文のいずれであるかを示す情報
出力:ユーザの発話を受け止める発話、4つ組IDに対応する発話文中の類似した発話
ユーザ発話に対応するテキストデータが質問文である場合、第一実施形態と同様の処理を行う。
このような構成とすることで、第一実施形態と同様の効果を得ることができる。
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
Claims (8)
- 想定ユーザ発話文、ユーザ発話用応答文、それらに対する後続発話文とその後続応答文の4文を単位として構成される4つ組発話を複数個記憶してあり、
ユーザ発話に対応するデータの入力を契機に、
前記ユーザ発話に対応するデータと類似する想定ユーザ発話文から始まる4つ組発話のうち、ユーザ発話用応答文、それらに対する後続発話文と後続応答文をそれぞれ複数のエージェントの何れかが発話し、
前記ユーザ発話用応答文と前記後続発話文を、それぞれ異なるエージェントが発話し、
前記後続発話文と前記後続応答文を、それぞれ異なるエージェントが発話するように制御する、
対話装置。 - 想定ユーザ発話文、ユーザ発話用応答文、それらに対する後続発話文とその後続応答文の4文を冒頭に含む複数組発話を複数個記憶してあり、
ユーザ発話に対応するデータの入力を契機に、
前記ユーザ発話に対応するデータと類似する想定ユーザ発話文から始まる複数組発話のうち、ユーザ発話用応答文、それらに対する後続発話文と後続応答文をそれぞれ複数のエージェントの何れかが発話し、
前記ユーザ発話用応答文と前記後続発話文を、それぞれ異なるエージェントが発話し、
前記後続発話文と前記後続応答文を、それぞれ異なるエージェントが発話するように制御する、
対話装置。 - 請求項1または請求項2の対話装置であって、
前記想定ユーザ発話文は、ユーザが発話すると想定される文であり、
前記ユーザ発話用応答文は、同じ意味の想定ユーザ発話文に対しては、同じユーザ発話用応答文になるように生成された、前記想定ユーザ発話文に対する応答文であり、
前記後続発話文は、紐づけられた想定ユーザ発話文とユーザ発話用応答文のペアに対して、話題の連続性を表す指標と所定の閾値との大小関係に基づき、話題の連続性があると判断されるように作成された発話であり、
前記後続応答文は、紐づけられた後続発話文に対して、話題の連続性を表す指標と所定の閾値との大小関係に基づき、話題の連続性があると判断されるように作成された発話である、
対話装置。 - 請求項1から請求項3の何れかの対話装置であって、
発話内容の対象を示す情報と、発話内容のタイプを規定するものを示す情報とを用いて、前記タイプに紐づけられたテンプレート発話と前記対象とからシナリオタイプ誘導発話文を生成するシナリオタイプ誘導発話生成部と、
前記シナリオタイプ誘導発話文に対して発せられた前記ユーザ発話に対応するデータと、最も類似する想定ユーザ発話文の類似度が、所定の閾値よりも大きいまたは所定の閾値以上の場合、前記ユーザ発話に対応するデータと類似する想定ユーザ発話文から始まる4つ組発話のうち、ユーザ発話用応答文、それらに対する後続発話文と後続応答文をそれぞれ複数のエージェントの何れかが発話し、前記類似度が所定の閾値以下または所定の閾値よりも小さい場合、内容語を含まない発話文を複数のエージェントの何れかが発話した後に前記ユーザ発話に対応するデータと類似する想定ユーザ発話文から始まる4つ組発話をそれぞれ複数のエージェントの何れかが発話するように制御する発現制御部とを含む、
対話装置。 - 請求項1から請求項3の何れかの対話装置であって、
発話内容の対象を示す情報と、発話内容のタイプを規定するものを示す情報とを用いて、前記タイプに紐づけられたテンプレート発話と前記対象とからシナリオタイプ誘導発話文を生成するシナリオタイプ誘導発話生成部と、
前記シナリオタイプ誘導発話文に対して発せられた前記ユーザ発話に対応するデータと、最も類似する想定ユーザ発話文、ユーザ発話用応答文、後続発話文の何れかの類似度が、所定の閾値よりも大きいまたは所定の閾値以上の場合、前記ユーザ発話に対応するデータと類似する想定ユーザ発話文、ユーザ発話用応答文、後続発話文を含む4つ組発話のうち、最も類似する想定ユーザ発話文、ユーザ発話用応答文または後続発話文以降の発話文をそれぞれ複数のエージェントの何れかが発話し、前記類似度が所定の閾値以下または所定の閾値よりも小さい場合、内容語を含まない発話文を複数のエージェントの何れかが発話した後に前記ユーザ発話に対応するデータと類似する想定ユーザ発話文から始まる4つ組発話をそれぞれ複数のエージェントの何れかが発話するように制御する発現制御部とを含む、
対話装置。 - 想定ユーザ発話文、ユーザ発話用応答文、それらに対する後続発話文とその後続応答文の4文を単位として構成される4つ組発話を複数個記憶されているものとし、
対話装置が、
ユーザ発話に対応するデータの入力を契機に、
前記ユーザ発話に対応するデータと類似する想定ユーザ発話文から始まる4つ組発話のうち、ユーザ発話用応答文、それらに対する後続発話文と後続応答文をそれぞれ複数のエージェントの何れかが発話し、
前記ユーザ発話用応答文と前記後続発話文を、それぞれ異なるエージェントが発話し、
前記後続発話文と前記後続応答文を、それぞれ異なるエージェントが発話するように制御する、
対話方法。 - 想定ユーザ発話文、ユーザ発話用応答文、それらに対する後続発話文とその後続応答文の4文を冒頭に含む複数組発話を複数個記憶してあり、
対話装置が、
ユーザ発話に対応するデータの入力を契機に、
前記ユーザ発話に対応するデータと類似する想定ユーザ発話文から始まる複数組発話のうち、ユーザ発話用応答文、それらに対する後続発話文と後続応答文をそれぞれ複数のエージェントの何れかが発話し、
前記ユーザ発話用応答文と前記後続発話文を、それぞれ異なるエージェントが発話し、
前記後続発話文と前記後続応答文を、それぞれ異なるエージェントが発話するように制御する、
対話方法。 - 請求項1から請求項5の何れかの対話装置として、コンピュータを機能させるためのプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018189852 | 2018-10-05 | ||
JP2018189852 | 2018-10-05 | ||
PCT/JP2019/023790 WO2020070923A1 (ja) | 2018-10-05 | 2019-06-17 | 対話装置、その方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2020070923A1 JPWO2020070923A1 (ja) | 2021-10-28 |
JP7060106B2 true JP7060106B2 (ja) | 2022-04-26 |
Family
ID=70055464
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020549955A Active JP7060106B2 (ja) | 2018-10-05 | 2019-06-17 | 対話装置、その方法、およびプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US11734520B2 (ja) |
JP (1) | JP7060106B2 (ja) |
WO (1) | WO2020070923A1 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6775545B2 (ja) * | 2018-05-09 | 2020-10-28 | 日本電信電話株式会社 | 対話データ生成装置、対話データ生成方法、およびプログラム |
KR20230032086A (ko) * | 2021-08-30 | 2023-03-07 | 한국전자기술연구원 | 대화형 에이전트 시스템에서 back-channel 자동 생성 방법 및 시스템 |
CN114936297B (zh) * | 2022-06-10 | 2023-03-14 | 四川省人工智能研究院(宜宾) | 一种基于先验知识和对象敏感的视频问答方法 |
WO2023248289A1 (ja) * | 2022-06-20 | 2023-12-28 | 日本電信電話株式会社 | 対話装置、対話方法および対話プログラム |
WO2024127956A1 (ja) * | 2022-12-12 | 2024-06-20 | 国立大学法人大阪大学 | 対話システム、制御プログラムおよび制御方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017200078A1 (ja) | 2016-05-20 | 2017-11-23 | 日本電信電話株式会社 | 対話方法、対話システム、対話装置、およびプログラム |
WO2017200081A1 (ja) | 2016-05-20 | 2017-11-23 | 日本電信電話株式会社 | 取得方法、生成方法、それらのシステム、及びプログラム |
JP2018151471A (ja) | 2017-03-10 | 2018-09-27 | 日本電信電話株式会社 | 対話方法、対話システム、対話装置、およびプログラム |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6922670B2 (en) * | 2000-10-24 | 2005-07-26 | Sanyo Electric Co., Ltd. | User support apparatus and system using agents |
JP2018054790A (ja) * | 2016-09-28 | 2018-04-05 | トヨタ自動車株式会社 | 音声対話システムおよび音声対話方法 |
US20200065057A1 (en) * | 2016-11-08 | 2020-02-27 | Sharp Kabushiki Kaisha | Audio adjusting device, computer-readable non-transitory storage medium storing control program, electronic apparatus, and method for controlling audio adjusting device |
JP6842095B2 (ja) * | 2017-03-10 | 2021-03-17 | 日本電信電話株式会社 | 対話方法、対話システム、対話装置、およびプログラム |
US11267121B2 (en) * | 2018-02-13 | 2022-03-08 | Casio Computer Co., Ltd. | Conversation output system, conversation output method, and non-transitory recording medium |
-
2019
- 2019-06-17 WO PCT/JP2019/023790 patent/WO2020070923A1/ja active Application Filing
- 2019-06-17 JP JP2020549955A patent/JP7060106B2/ja active Active
- 2019-06-17 US US17/281,937 patent/US11734520B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017200078A1 (ja) | 2016-05-20 | 2017-11-23 | 日本電信電話株式会社 | 対話方法、対話システム、対話装置、およびプログラム |
WO2017200081A1 (ja) | 2016-05-20 | 2017-11-23 | 日本電信電話株式会社 | 取得方法、生成方法、それらのシステム、及びプログラム |
JP2018151471A (ja) | 2017-03-10 | 2018-09-27 | 日本電信電話株式会社 | 対話方法、対話システム、対話装置、およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
JPWO2020070923A1 (ja) | 2021-10-28 |
US11734520B2 (en) | 2023-08-22 |
WO2020070923A1 (ja) | 2020-04-09 |
US20220067300A1 (en) | 2022-03-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7060106B2 (ja) | 対話装置、その方法、およびプログラム | |
US10893236B2 (en) | System and method for providing virtual interpersonal communication | |
US11151997B2 (en) | Dialog system, dialog method, dialog apparatus and program | |
Finlayson et al. | Disfluency in dialogue: An intentional signal from the speaker? | |
JP6719747B2 (ja) | 対話方法、対話システム、対話装置、およびプログラム | |
JP6719741B2 (ja) | 対話方法、対話装置、及びプログラム | |
Traum et al. | Incremental dialogue understanding and feedback for multiparty, multimodal conversation | |
KR20020071917A (ko) | 개인 상호 작용을 시뮬레이트하고 관련 데이터를 갖는외부 데이터베이스를 차징하는 유저인터페이스/엔터테인먼트 장치 | |
KR20020067590A (ko) | 개인 상호작용을 시뮬레이팅하는 환경-응답 유저인터페이스/엔터테인먼트 장치 | |
WO2018163647A1 (ja) | 対話方法、対話システム、対話装置、およびプログラム | |
JP6699010B2 (ja) | 対話方法、対話システム、対話装置、およびプログラム | |
US11501768B2 (en) | Dialogue method, dialogue system, dialogue apparatus and program | |
Wilks et al. | A prototype for a conversational companion for reminiscing about images | |
Tan et al. | iSocioBot: a multimodal interactive social robot | |
Strauss et al. | Proactive spoken dialogue interaction in multi-party environments | |
Gonzalez et al. | AI in informal science education: bringing turing back to life to perform the turing test | |
JP6551793B2 (ja) | 対話方法、対話システム、対話装置、およびプログラム | |
Lin et al. | ” What color are the fish’s scales?” Exploring parents’ and children’s natural interactions with a child-friendly virtual agent during storybook reading | |
Gunkel | Computational interpersonal communication: Communication studies and spoken dialogue systems | |
CN115905475A (zh) | 答案评分方法、模型训练方法、装置、存储介质及设备 | |
JP6755509B2 (ja) | 対話方法、対話システム、対話シナリオ生成方法、対話シナリオ生成装置、及びプログラム | |
Vavrecka et al. | Personified Robotic Chatbot Based On Compositional Dialogues | |
Tewari et al. | A question-answering agent using speech driven non-linear machinima | |
Kusumawardani et al. | Expressive Speech Acts Performed by The Characters in Before Midnight Movie (Pragmatic Study) | |
Griol et al. | (2019). Developing Enhanced Conversational Agents for Social Virtual Worlds. Neurocomputing, 354, pp. 27-40. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210324 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210324 |
|
A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A801 Effective date: 20210324 |
|
A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A80 Effective date: 20210324 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220315 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220328 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7060106 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |