JP7060106B2 - 対話装置、その方法、およびプログラム - Google Patents

対話装置、その方法、およびプログラム Download PDF

Info

Publication number
JP7060106B2
JP7060106B2 JP2020549955A JP2020549955A JP7060106B2 JP 7060106 B2 JP7060106 B2 JP 7060106B2 JP 2020549955 A JP2020549955 A JP 2020549955A JP 2020549955 A JP2020549955 A JP 2020549955A JP 7060106 B2 JP7060106 B2 JP 7060106B2
Authority
JP
Japan
Prior art keywords
utterance
sentence
user
subsequent
utterances
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020549955A
Other languages
English (en)
Other versions
JPWO2020070923A1 (ja
Inventor
弘晃 杉山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Publication of JPWO2020070923A1 publication Critical patent/JPWO2020070923A1/ja
Application granted granted Critical
Publication of JP7060106B2 publication Critical patent/JP7060106B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/027Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Manipulator (AREA)

Description

特許法第30条第2項適用 (1)ウェブサイトの掲載日 2018年1月31日 ウェブサイトのアドレス http://www.ntt.co.jp/news2018/1801/180131b.html
特許法第30条第2項適用 (2)放送日 2018年3月8日 放送番組 NHK京都放送局 ニュース630京いちにち
特許法第30条第2項適用 (3)ウェブサイトの掲載日 2018年5月22日 ウェブサイトのアドレス https://www.ai-gakkai.or.jp/jsai2018/ https://confit.atlas.jp/guide/event/jsai2018/top https://confit.atlas.jp/guide/event-img/jsai2018/3J2-04/public/pdf?type=in
この発明は、人とコミュニケーションを行うロボットなどに適用可能な、コンピュータが人間と自然言語を用いて対話を行う技術に関する。
近年、人とコミュニケーションを行うロボットの研究開発が進展しており、ロボットと人とが対話を行う対話システムが様々な現場で実用化されてきている。現在、ロボットと人とが雑談を行う雑談対話システムでは、対応可能な話題の広さを優先し、ロボットと人とのやり取りは一問一答的なアプローチが主に用いられている。ロボットと人とのやり取りを単純な一問一答に限定することで、雑談中の幅広い話題への対応を実現している。しかしながら、ロボットの対話相手である人(システムのユーザ)にとっては、一問一答では対話が細切れとなり、ロボットとまとまった対話をできたという満足感が得られにくいという課題がある。この課題に対し、ユーザの発話(以下、ユーザ発話と記載)による話題遷移を許容しない、もしくはごく少数の分岐を用意しておく前提で、複数ターンのシナリオを構築する場合もある(非特許文献1)。非特許文献1は、話題遷移を許容しない場合、ロボットからユーザに質問し、ユーザの答えによらず、「そっか」などの相槌でユーザの回答を受け止め、「僕は○○だよ」と切り返すという流れを繰り返すものである。非特許文献1のアプローチの問題点として、展開される話題がユーザ発話と直接対応するものとは限らないため、ロボットの対話相手であるユーザに、自身の回答がロボットに理解されたという満足感を与えることは難しい点がある。また、ユーザ発話に応じてシナリオを分岐させていくアプローチもあるが、この場合も、ユーザの発話が話の展開に多少の影響を与えるにすぎないため、ユーザの回答がロボットに理解されたという満足感は少ないという問題がある。
こうした課題に対し、質問と、その質問に対応する回答との複数の組み合わせを、発話知識として事前に蓄積しておき、ユーザ発話に対して一問一答形式の発話知識に基づいて応答するとともに、その内容に関連する別の発話知識を利用して2体のロボット間で一問一答形式の対話を行うアプローチが提案されており、ユーザにとって、ユーザ1人とロボット1体で行う1対1の対話よりも対話の継続感が向上することが知られている(非特許文献2参照)。
渡辺美紀、小川浩平、石黒浩、「タッチディスプレイを通じて誘導的な対話を行う販売アンドロイド」、一般社団法人 人工知能学会、The 30th Annual Conference of the Japanese Society for Artificial Intelligence, 2016. 杉山弘晃、目黒豊美、吉川雄一郎、大和淳司、「複数ロボット間連携による対話破綻回避効果の分析」、一般社団法人 人工知能学会、人工知能学会全国大会, pp.1B2-OS-25b-2,2017.
しかしながら、非特許文献2の発話知識は、特定の話題に特化するよりもむしろ一般的な内容で構築されているため、対話の個別の話題・文脈とはやや乖離した(ユーザ発話の詳細とは関連しない)内容になることが多い。
本発明は、ユーザ発話へロボットが応答したあと、その内容を反映した追加の一問一答をロボット間で行うことで、ユーザ発話を起点として、詳細に話題が繋がる自然な対話を実現する対話装置、その方法、およびプログラムを提供することを目的とする。
上記の課題を解決するために、本発明の一態様によれば、想定ユーザ発話文、ユーザ発話用応答文、それらに対する後続発話文とその後続応答文の4文を単位として構成される4つ組発話を複数個記憶してあり、対話装置は、ユーザ発話に対応するテキストデータの入力を契機に、ユーザ発話に対応するテキストデータと類似する想定ユーザ発話文から始まる4つ組発話のうち、ユーザ発話用応答文、それらに対する後続発話文と後続応答文をそれぞれ複数のエージェントの何れかが発話し、ユーザ発話用応答文と後続発話文を、それぞれ異なるエージェントが発話し、後続発話文と後続応答文を、それぞれ異なるエージェントが発話するように制御する。
上記の課題を解決するために、本発明の他の態様によれば、想定ユーザ発話文、ユーザ発話用応答文、それらに対する後続発話文とその後続応答文の4文を冒頭に含む複数組発話を複数個記憶してあり、対話装置は、ユーザ発話に対応するテキストデータの入力を契機に、ユーザ発話に対応するテキストデータと類似する想定ユーザ発話文から始まる複数組発話のうち、ユーザ発話用応答文、それらに対する後続発話文と後続応答文をそれぞれ複数のエージェントの何れかが発話し、ユーザ発話用応答文と後続発話文を、それぞれ異なるエージェントが発話し、後続発話文と後続応答文を、それぞれ異なるエージェントが発話するように制御する。
本発明によれば、ユーザ発話を起点として、話題が繋がる自然な対話を実現するという効果を奏する。
第一実施形態に係る対話システムの機能ブロック図。 第一実施形態に係る対話システムの処理フローの例を示す図。 第一実施形態に係る発話決定部の機能ブロック図。 発話内容のテキスト文をチャットボットからの吹き出しで表示する例を示す図。 4つ組発話の例を示す図。 質問文に、複数の分類を付与した例を示す図。 割り込み判定部の処理フローの例を示す図。 シミュレーション結果を示す図。
以下、本発明の実施形態について、説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。
<第一実施形態のポイント>
本第一実施形態では、一問一答とシナリオの組み合わせとして、質問とその質問に対応する回答との1組の組み合わせを1往復分の発話知識と定義して、2往復分の発話知識(ミニシナリオ)に基づく複数ロボット雑談対話システムを提案する。ミニシナリオは、ユーザが発話しそうな文とそれに後続する3発話から構成される。2体以上のロボットと1人のユーザとの対話を前提とし、ユーザ発話へロボットが応答したあと、その内容を反映した追加の一問一答をロボット間で行うことで、ユーザ発話を起点として、詳細に話題が繋がる自然な対話を実現する。ユーザへの応答および追加の一問一答は全てロボットが発話するため、対話として自然につながるようにあらかじめ作成しておくことができることがポイントである。また、ロボット間の対話を利用して、自然に話題を誘導することも可能である。そのため、システムが限られたドメインの発話知識しか保有しない場合でも、ユーザに違和感を感じさせることなく雑談を継続できる。また、本実施形態ではこの特性を活かし、狭いドメインに特化して質問応答と同程度に詳細な雑談用の発話知識を構築することで、雑談と質問応答を相互に行き来しながら知識を伝達するシステムの実現も可能となる。
<第一実施形態>
図1は第一実施形態に係る対話システムの機能ブロック図を、図2はその処理フローを示す。
対話システムは、2つのロボットR1,R2と、対話装置100とを含む。ロボットR1,R2は、それぞれ、入力部102-1、102-2及び提示部101-1、101-2を含む。対話装置100は、音声認識部110と、発話決定部120と、4つ組発話記憶部130と、音声合成部140とを含む。
図3は第一実施形態に係る発話決定部120の機能ブロック図を示す。
発話決定部120は、シナリオタイプ誘導発話生成部121と、シナリオタイプ判定部122と、発現制御部123と、割り込み判定部124とを含む。
対話システムは、ユーザである人が2体のロボットであるロボットR1とロボットR2と対話するためのものであり、ユーザである人の発話に対して対話装置100が生成した合成音声をロボットR1、R2が発話するものである。以下、対話システムの各部の動作を説明する。
対話装置100は、入力部102-1、102-2を介してユーザ発話を収音し、ユーザ発話に対する対話文を生成し、対応する合成音声を提示部101-1、101-2を介して再生する。
対話装置は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。対話装置は、例えば、中央演算処理装置の制御のもとで各処理を実行する。対話装置に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。対話装置の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。対話装置が備える各記憶部は、例えば、RAM(Random Access Memory)などの主記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。ただし、各記憶部は、必ずしも対話装置がその内部に備える必要はなく、ハードディスクや光ディスクもしくはフラッシュメモリ(Flash Memory)のような半導体メモリ素子により構成される補助記憶装置により構成し、対話装置の外部に備える構成としてもよい。
<ロボットR1、R2>
ロボットR1とロボットR2は、ユーザと対話するためのものであり、ユーザの近くに配置され、対話装置100が生成した発話を行う。
<入力部102-1、102-2>
入力部102-1、102-2は、ユーザが発話した発話音声を収音して、収音された音声データを音声認識部110に出力する。
入力部102-1、102-2は、ロボットの周囲で発せられた音響信号を収音するものであり、例えばマイクロホンである。入力部はユーザが発話した発話音声を収音可能とすればよいので、入力部102-1、102-2の何れか一方を備えないでもよい。また、ユーザの近傍などのロボットR1,R2とは異なる場所に設置されたマイクロホンを入力部とし、入力部102-1、102-2の双方を備えない構成としてもよい。
<提示部101-1、101-2>
提示部101-1、101-2は、音声合成部140から入力された合成音声データに対応する音声を再生する。これにより、ユーザはロボットR1またはロボットR2の発話を受聴することになり、ユーザと対話システムとの対話が実現される。提示部101-1、101-2は、ロボットR1、R2の周囲に音響信号を発するものであり、例えばスピーカである。
以下、対話装置100の各部について説明する。
<4つ組発話記憶部130>
4つ組発話記憶部130には、想定ユーザ発話文、ユーザ発話用応答文、それらに対する後続発話文とその後続応答文の4文を単位として構成される4つ組発話が複数個、対話に先立ち格納されている。想定ユーザ発話文、ユーザ発話用応答文、それらに対する後続発話文とその後続応答文の総称を発話文ともいう。なお、ユーザ発話用応答文、それらに対する後続発話文とその後続応答文は、例えば、テキストデータである。想定ユーザ発話文は、テキストデータのみからなってもよいし、単語単位に分割した情報とともに記憶していてもよいし、文の内容を表すベクトルに変換したものと紐付けて記憶していてもよいし、テキストデータを音声合成した音声合成データと紐づけて記憶していてもよいし、テキストデータに対応する情報と音声データとを紐づけて記憶してもよい。なお、ここでいう音声データは、テキストデータを音声合成した合成音声データでもよいし、人がテキストデータを読み上げたものを録音した音声データそのものまたはそれを編集したものでもよい。なお、4つ組発話記憶部130にテキストデータに対応する音声データを記憶する場合、音声合成部は不要となる。各4つ組発話は、それぞれを識別可能な情報(4つ組ID)と紐づけられて4つ組発話記憶部130に格納されている。別の例としては、ユーザ発話用応答文、それらに対する後続発話文とその後続応答文は、文の内容を表すベクトルに変換したものであってもよい。
(4つ組発話)
まず、ミニシナリオ(4つ組発話)について説明する。
Hをユーザとし、R1,R2をユーザが発話する相手(ロボット)とする。ここでは子どもと動物に関する対話を想定して説明する。ロボットは、音声やテキストを出力するデバイスである。ここではロボットは、前述のとおり2つとして説明を行うが、2以上の複数あれば2つに限るものではない。本実施形態のように提示部を介して発話内容を音声合成した信号をロボットが内蔵するスピーカ等を利用して出力してもよいし、他の実施形態として、音声合成は行わずに発話内容のテキスト文をスマホ等の中でチャットボットからの吹き出しで表示してもよい(図4参照)。その他、ぬいぐるみにスピーカを内蔵して、発話内容を音声合成した信号を出力してもよい。テキストチャットのような形式で発話内容をテキストで表示するだけとしてもよい。本明細書では、ロボットやチャットボット等のチャット相手などのユーザの対話相手となるハードウェアやユーザの対話相手となるハードウェアとしてコンピュータを機能させるためのコンピュータソフトウェアなどを総称してエージェントと呼ぶこととする。エージェントは、ユーザの対話相手となるものであるため、ロボットやチャット相手などのように擬人化されていたり、人格化されていたり、性格や個性を有していたりするものであってもよい。ユーザが対話相手として認知しやすいものが望ましいため、ここでは発話内容を音声合成した信号をロボットが内蔵するスピーカ等を利用して出力する例で説明する。t(v)はv番目の発話を意味し、X→YはXからYに対して発話していることを意味する。
例:
t(1):R1→H:ユーザさんはゾウさんのどんなところが好き?
(後述するシナリオタイプ誘導発話文に相当)
t(2):H→R1:大きいところかな
(この発話t(2)に基づきシナリオタイプを判定し、発話t(2)に最も類似する想定ユーザ発話文(4つ組発話の1番目の発話)を含む4つ組発話を特定する)
t(3):R1→H:なるほど
(発話t(3)は非必須である。この発話t(3)は、ユーザの納得感向上のための発話であり、ユーザ発話を受けとめる発話である。)
t(4):R2→H:ゾウさん大きくてかっこいい
(発話t(4)は非必須である。この発話t(4)は、納得感向上のための発話であり、ユーザ発話を受けとめる発話である。ユーザ発話である発話t(2)に含まれる「大きい」に対応する「大きく」というフレーズを含み、リフレーズの発話ともいう。なお、発話t(4)を発するロボットは、1つ目の受けとめる発話t(3)とは、別ロボットであることが望ましい。)
t(5):R1→R2:肩までの高さは2.5~3mくらいあるんだよ
(4つ組発話の2番目の発話である。なお、2番目の発話を発するロボットは、直前に発話を発話したロボットとは別ロボットであることが望ましい。4つ組発話の2番目の発話は1番目の発話に対する応答を想定しているので、発話t(4):R2→Hのリフレーズを発したロボットとは異なるロボットが発することが望ましい。ロボットが3つ以上の場合には、2番目の発話を行うロボットは、発話t(4):R2→Hのリフレーズを発したロボットとは異なるロボットであれば、ロボットR1でなくてもよい。以下、ロボットが3つ以上の場合の説明は省略するが、別ロボットとする場合の考え方は、同様である。)
t(6):R2→R1:そんなに大きいんだ
(4つ組発話の3番目の発話。この例では、3番目の発話を発するロボットは、2番目の発話を発したロボットとは別ロボットである。)
t(7):R1→R2:近くで見ると迫力があるよ
(4つ組発話の4番目の発話。4番目の発話を発するロボットは、3番目の発話を発したロボットとは別ロボットである。)
(4つ組発話記憶部130の詳細)
後述する検索に用いるため、4つ組発話記憶部130に格納されている想定ユーザ発話文は、上述の通り、単語単位に分割した情報として記憶していてもよいし、文の内容を表すベクトルに変換したものと紐付けて記憶していてもよい。
ここでは、動物に関する対話を想定した例に基づいて、想定ユーザ発話文、ユーザ発話用応答文、それらに対する後続発話文とその後続応答文の説明および構築方法を以下に示す。
想定ユーザ発話文は、ユーザが発話すると想定される文であり、ユーザの発話する範囲を詳細にカバーできるよう多数作成する。本実施形態では、対象とする動物について、いいところ、質問、トリビアのいずれかの発話種類(タイプ)ごとに、複数の発話文を作成する。例えば、発話文を50文ずつ作成する。作成は人手で事前に行っておく。発話文は1以上あればよいが、多いほど話題のバリエーションを増やすことができる。図5は、対象を「ゾウ」とし、タイプを「いいところ」とする4つ組発話の例を示す。例えば、
・対象「ゾウ」のタイプ「いいところ」について、「お鼻が長いところが好き」や「ゾウさん大きくてかっこいい」などとなる。
・対象「ゾウ」のタイプ「質問」について、「何で鼻があんなに長いの?」や「何キロくらいあるの?」などとなる。
・対象「ゾウ」のタイプ「トリビア」について、「ゾウも日焼けしちゃうんだって。」や「ゾウは泳げるんだよ。」などとなる。
さらに、ユーザ発話の表現の揺れを吸収できるよう、それぞれの想定ユーザ発話文と異なる表現で同じ意味となる文を複数、例えば5文ずつ作成する。例えば、「お鼻が長いところが好き」と異なる表現で同じ意味となる文としては、「ぞうさんはお鼻が長い。」、「象さんすごくお鼻長いね!」等が考えられる。なお、同じ意味の発話文をまとめ25~30種類程度あるとのぞましい。
次に、このように作成した想定ユーザ発話文について、ロボットが発話するユーザ発話用応答文を作成する。ロボットの発話に矛盾が生じないよう、ユーザ発話用応答文は動物の種類ごとに作成するものとし、同じ意味の想定ユーザ発話文に対しては、同じユーザ発話用応答文となるよう作成する。また、ユーザ発話用応答文に質問を入れると、後述する後続発話文との整合が取りにくくなるため、ユーザ発話用応答文は平叙文で作成することとする。ゾウの「お鼻が長いところが好き」という発話文に対する応答文として、「ゾウさんのお鼻は筋肉でできてて小さいものもつかめるんだよ」等が作成される。
後続発話文は、それに紐づく想定ユーザ発話文とユーザ発話用応答文のペアに対して、対話として自然につながるよう作成された発話である。例えば、後続発話文は、それに紐づく想定ユーザ発話文とユーザ発話用応答文のペアに対して、話題の連続性を表す指標と所定の閾値との大小関係に基づき、話題の連続性があると判断されるように作成された発話である。話題の連続性があるか否かの判定方法としては、様々なものが考えられるが、例えば、以下の2つの方法により話題の連続性があるか否かを判定する。
1.話題の連続性を表す指標をword2vecで作った文ベクトル間の距離で定義し、距離が所定の閾値より小さい、または、以下の場合に話題がつながる(話題の連続性があり、自然につながる)と判定する。
2.参考文献1の破綻検出技術を使って、破綻が検出されない場合に、話題がつながる(話題の連続性があり、自然につながる)と判定する。
(参考文献1)Hiroaki Sugiyama, "Dialogue Breakdown Detection based on Estimating Appropriateness of Topic Transition", Dialogue System Technology Challenge, 2016.
ここでは、後続発話文として、質問、平叙、継続の3つのタイプの発話を作成している。なお、このタイプは、想定ユーザ発話文のタイプとは別に設定される。質問と平叙はユーザ発話用応答文の発話者に対して別の話者が発話するものとして作成し、継続はユーザ発話用応答文の発話者自身が継続して発話するものとして作成する。例えば、ユーザ発話用応答文「ゾウさんのお鼻は筋肉でできてて小さいものもつかめるんだよ」の後続発話文の
・タイプ「質問」には「鼻で吸ってるんじゃないの?」
・タイプ「平叙」には「すごく器用なんだね」
・タイプ「継続」には「しかも鼻の動きを観察していると、ゾウの気持ちが分かるんだって」
等が作成される。
後続発話応答文は、後続発話文に対する自然な応答になるよう作成された発話であり、ユーザ発話用応答文と同様の方法で作成する。例えば、後続発話応答文は、後続発話文に対して、話題の連続性を表す指標と所定の閾値との大小関係に基づき、話題の連続性があると判断されるように作成された発話である。話題の連続性があるか否かの判定方法としては、上述の後続発話文で説明した方法と同様の方法を利用することができる。
以上のように発話知識を構成することで、後続発話文は先行する想定ユーザ発話文、ユーザ発話用応答文に密接につながる発話となるため、一問一答をつなげて複数ターンとするよりも自然な対話を実現できる。
<発話決定部120>
前述の通り、発話決定部120は、シナリオタイプ誘導発話生成部121と、シナリオタイプ判定部122と、発現制御部123と、割り込み判定部124とを含む(図3参照)。
(シナリオタイプ誘導発話生成部121)
入力:対象A、タイプα
出力:シナリオタイプ誘導発話文を表すテキストデータ
シナリオタイプ誘導発話生成部121は、タイプαに紐づけられたテンプレート発話と対象Aを入力とし、タイプαに紐づけられたテンプレート発話と対象Aとからシナリオタイプ誘導発話文を生成し(S121)、音声合成部140に出力する。なお、シナリオタイプ誘導発話文は、「対象Aのタイプαについての発話を促す発話文」(テキストデータ等)である。
対象Aは、発話内容の対象となるものを示す情報である。例えば、動物園で動物を対象とした話をしようとする場合、対象Aとして動物の種類等が考えられる。ここでは、対象Aを象として説明する。
タイプαは、発話内容のタイプを規定するものを示す情報である。ここでは、発話内容のタイプの例として、いいところ、質問、トリビア、嫌いなところ、ロボットに対する賞賛、ロボットに対する悪口、の6タイプで説明する。
・いいところタイプの例は、対象Aの好きなところ。例えば「<対象A>のどんなところが好き?」といったシナリオタイプ誘導発話文を生成する。
・質問タイプの例は、対象Aに関する質問。例えば「<対象A>について聞きたいことある?」といったシナリオタイプ誘導発話文を生成する。
・トリビアタイプの例は、対象Aに関する一般的な認知度が低い知識。例えば「<対象A>は、人間には聞こえない音で会話するんだって。」といったシナリオタイプ誘導発話文を生成する。
・嫌いなところタイプの例は、対象Aの嫌いなところ。例えば「<対象A>のどんなところが嫌い?」といったシナリオタイプ誘導発話文を生成する。
・ロボットに対する賞賛タイプの例は、対象Aに関係なく、ロボットのよいところ。例えば「僕のどんなところが好き?」といったシナリオタイプ誘導発話文を生成する。なお、この場合、対象Aは必要ない。
・ロボットに対する悪口タイプの例は、対象Aに関係なく、ロボットの悪いところ。例えば「僕のどんなところが嫌い?」といったシナリオタイプ誘導発話文を生成する。なお、この場合、対象Aは必要ない。
「ロボットに対する賞賛タイプ」「ロボットに対する悪口タイプ」を除く各タイプの発話を促す発話が、主語となる対象Aを穴埋めするようなテンプレート発話の形で、各タイプとともに紐づけて複数文、図示しない記憶部に記憶されている。例えば、各タイプとともに紐づけられた複数文の中から以下のように文を選択してもよい。
シナリオタイプ誘導発話生成部121は、1回目の処理時には、対象Aとタイプαの入力に基づいて、タイプαに紐づけられた複数の発話文の中から1文をランダムに選択し、対象Aを主語とするシナリオタイプ誘導発話文を生成して出力するとともに、使用した発話文にフラグを立てる。このフラグは、対応する発話文が選択済みであることを示す。
シナリオタイプ誘導発話生成部121は、2回目の処理時には、タイプαに紐づけられた複数の発話文の中からフラグのついていない未選択の発話文をランダムに選択し、対象Aを主語とするシナリオタイプ誘導発話文を生成して出力する。
このような構成とすることで、同じシナリオタイプ誘導発話文が連続して選択されることを防ぐことができる。
対象A、タイプαがどのように入力されるかについて例を挙げる。
例えば、対象及びタイプをタッチパネルにてユーザに選択可能とし、ユーザが何れかの対象及びタイプをタップすると、シナリオタイプ誘導発話生成部121は、タッチパネルからその対象Aを示す情報とそのタイプαを示す情報を受け取る。
また、例えば、複数の対象とタイプを予め用意しておき、図示しない制御部から新しいシナリオの開始指示を示す情報を受け取ると、複数の対象とタイプの中から、ランダムに対象とタイプとを選択する構成としてもよい。この場合、シナリオタイプ誘導発話生成部121は、新しいシナリオの開始を示す情報を入力とする。
<音声合成部140>
音声合成部140は、シナリオタイプ誘導発話文を入力として受け取り、シナリオタイプ誘導発話文に対する音声合成を行って(S140-1)合成音声データを得て、得られた合成音声データをロボットR1の提示部101-1またはロボットR2の提示部101-2に出力する。なお、音声合成部140は、発話決定部120が決定した発話内容を表すテキストデータを、発話内容を表す音声信号に変換する。発話内容を表す音声信号は、提示部101-1または101-2へ入力される。音声合成の方法は既存のいかなる音声合成技術を用いてもよく、利用環境等に合わせて最適なものを適宜選択すればよい。
提示部101-1または101-2は、合成音声データを受け取り、対応する音声を再生する(S101-A)。
なお、以降において、何らかのテキストデータを生成し、テキストデータに対する音声合成を行い、対応する音声を再生する処理を、単に、ロボットR1またはロボットR2に発話させるともいう。
入力部102-1または102-2は、シナリオタイプ誘導発話文の出力直後のユーザ発話音声を収音して(S102-A)、収音された音声データ(収音信号)を音声認識部110へ出力する。
<音声認識部110>
音声認識部110は、収音信号を入力として受け取り、この収音信号に対して音声認識を行い(S110-1)、音声認識結果をシナリオタイプ判定部122に出力する。音声認識結果には、例えば、対応するテキストデータと韻律の情報とが含まれる。なお、音声認識部110は、常時、入力部102-1または102-2で収音したユーザの発話音声の音声信号をユーザの発話内容を表すテキストデータに変換し、ユーザの発話内容を表すテキストデータを発話決定部120へ出力する。音声認識の方法は既存のいかなる音声認識技術を用いてもよく、利用環境等に合わせて最適なものを適宜選択すればよい。
(シナリオタイプ判定部122)
入力:ユーザ発話に対応するテキストデータ、韻律の情報、4つ組発話記憶部130に格納された4つ組発話
出力:4つ組ID、類似度が閾値以上であったか否かを示す情報
シナリオタイプ判定部122は、ユーザ発話に対応するテキストデータ、韻律の情報を入力として受け取り、これらを用いて、ユーザ発話文が質問文であるか否かを判定する。質問文であるか否かの判定は、ユーザ発話に対応するテキストデータや音声の韻律を利用して行う。例えば、「どんな」や「どこで」のような疑問詞を含む場合や、「好きですか」のように疑問を示す終助詞で文が終わる場合、ユーザ発話文が質問文であると判定することができる。また、「好きなの」のように語尾の上げ下げによって質問か否かが変化する場合に、音声の韻律情報を用いてより正確に質問か否かを判定することができる。これらはルール的に記述してもよいし、質問発話を集めたコーパスから機械学習によって自動で認識しても良い(参考文献2参照)。
(参考文献2)目黒豊美,東中竜一郎,杉山弘晃,南泰浩,「意味属性パターンを用いたマイクロブログ中の発言に対する自動対話行為付与」,一般社団法人情報処理学会,2013年,研究報告音声言語情報処理(SLP),2013(1),1-6.
ユーザ発話文が質問文であると判定した場合、シナリオタイプ判定部122は、質問タイプの4つ組発話に含まれる想定ユーザ発話文と対応する4つ組IDを4つ組発話記憶部130から取り出し、想定ユーザ発話文とユーザ発話に対応するテキストデータとの類似度を計算し(S122)、ユーザ発話に対応するテキストデータと最も類似する想定ユーザ発話文を含む4つ組発話の4つ組IDと、類似度が閾値以上であったか否かを示す情報を出力する。
ユーザ発話文が質問文ではないと判定した場合、シナリオタイプ判定部122は、質問タイプ以外のすべての4つ組発話に含まれる想定ユーザ発話文と対応する4つ組IDを4つ組発話記憶部130から取り出し、想定ユーザ発話文とユーザ発話に対応するテキストデータとの類似度を計算し(S122)、ユーザ発話に対応するテキストデータと最も類似する想定ユーザ発話文を含む4つ組発話の4つ組IDと、類似度が閾値以上であったか否かを示す情報を出力する。
なお、シナリオタイプ誘導発話文が特定のシナリオタイプに対応するユーザ発話を誘導するものである場合には、対象A、タイプαをシナリオタイプ判定部122の入力とし、誘導されたシナリオタイプの4つ組発話に含まれる想定ユーザ発話文とユーザ発話に対応するテキストデータとの類似度を計算する構成としてもよい。例えば、シナリオタイプ誘導発話文が、「ゾウのどこが好き?」等の対象のいいところを引き出す発話の場合、「いいところ」の4つ組発話に含まれる想定ユーザ発話文とユーザ発話に対応するテキストデータとの類似度のみを計算すればよく、ユーザ発話が質問文であるか否かの判定を省略してもよい。
想定ユーザ発話文とユーザ発話に対応するテキストデータとの文間類似度は、例えば、word2vecを利用して類似度を求め、各単語の類似度の加算平均等を用いる。なお、word2vecを利用する方法は一例であり、類似度判定に利用可能な技術であればこれに限るものではない。例えば、事前に自然文を集めたコーパスを入力としてニューラルネットワークを用いて文間類似度を出力するモデルを学習しておき、シナリオタイプ判定部122は学習済みのモデルを利用して文間類似度を求めてもよい。
なお、本実施形態は一例であって、質問文か否かに関わらず、すべての4つ組発話に含まれる想定ユーザ発話文とユーザ発話に対応するテキストデータとの類似度を計算し、ユーザ発話に対応するテキストデータと最も類似する想定ユーザ発話文を含む4つ組発話の4つ組IDと、類似度が閾値以上であったか否かを示す情報を出力してもよい。
(発現制御部123)
入力:4つ組ID、類似度が閾値以上であったか否かを示す情報
出力:ユーザの発話を受け止める発話文、4つ組発話
発現制御部123は、類似度が閾値以上である場合(S123-1のyes)、ユーザ発話を受け止める発話文に対応するテキストデータと、受け取った4つ組IDに対応するユーザ発話用応答文、後続発話文、後続応答文を音声合成部140に出力する(S123-2)。
発現制御部123は、類似度が閾値未満である場合(S123-1のno)、ユーザ発話を受け止める発話文に対応するテキストデータと、受け取った4つ組IDに対応する想定ユーザ発話文、ユーザ発話用応答文、後続発話文、後続応答文を音声合成部140に出力する(S123-3)。
以下、具体的に説明する。
(1)類似度が閾値以上であった場合
R1→H:なるほど(ユーザ発話を受けとめる発話の例1)
R2→H:ゾウさん大きくてかっこいい(ユーザ発話を受けとめる発話の例2)
等、ユーザ発話を受けとめる発話を行う。
ユーザ発話を受けとめる発話の例1としては、内容語を含まない発話「そっかぁ」「ふむふむ」「へぇ~」などである。
また、ユーザ発話を受けとめる発話の例2としては、ユーザの発話を繰り返したり、リフレーズする発話などである。例えば、「(ユーザの発話を引用)よね」である。
ユーザ発話を受けとめる発話は、上記の例1、2の両方を発話してもいいし、いずれか一方であってもいいし、発話しなくてもよい。ただし、発話した方がユーザの満足感が向上する。
以上のユーザ発話を受けとめる発話の後、4つ組発話の想定ユーザ発話文以降の3つの発話文(ユーザ発話用応答文、後続発話文、後続応答文)それぞれを複数体のロボットが順に発話する。
(2)類似度が閾値未満であった場合
R1→H:なるほど
等、ユーザ発話を受けとめる発話1を行う。
ユーザ発話を受けとめる発話の例1としては、内容語を含まない発話「そっかぁ」「ふむふむ」「へぇ~」など(テキストデータ等)である。この場合、必ずユーザ発話を受けとめる発話を行う。
以上の発話の後、4つ組発話の4つの発話(想定ユーザ発話文、ユーザ発話用応答文、後続発話文、後続応答文)それぞれを複数体のロボットが順に発話する。想定ユーザ発話文の前に「そういえば」などの話題転換語を入れるとより自然になるため、類似度が閾値未満であった場合には、発現制御部123は、ユーザ発話を受けとめる発話、話題転換語、想定ユーザ発話文、ユーザ発話用応答文、後続発話文、後続応答文を出力するようにしてもよい。
要は、類似度が閾値以上であれば、ユーザ発話に対して直接ユーザ発話用応答文で答えることができ、類似度が閾値未満であれば、ユーザ発話用応答文が妥当な応答として利用できないため、ロボット間対話を利用して話題をずらすことで対話を継続する。
(1つのユーザ発話用応答文に対して複数の後続発話文が対応する場合)
あるユーザ発話用応答文に対して複数の後続発話文を用意してもよい(図5参照)。その場合、複数の後続発話文の中からランダムに選択して発現するようにしてもよい。例えば、前述の通り、発現制御部123は、4つ組IDを入力とするので、入力された4つ組IDに対応する4つ組発話のユーザ発話用応答文と、その4つ組発話のユーザ発話用応答文と同じユーザ発話用応答文を持つ4つ組発話とに対応する複数の後続発話文の中からランダムに1つの後続発話文を選択し発現させる。
また、あるユーザ発話用応答文に対して、「質問」「平叙」「継続」に分類される複数の後続発話文を用意してもよい。
例えば、
シナリオタイプ誘導発話文:R1→H:ユーザさんはゾウさんのどんなところが好き?
ユーザ発話:H→R1:大きいところかな
ユーザ発話用応答文:R1→R2:肩までの高さは2.5~3mくらいあるんだよ
という対話に、以下の「質問」「平叙」「継続」に分類される後続発話文を用意する。
「質問」の後続発話文の例:R2→R1:鼻の長さはどれくらいあるの?
「平叙」の後続発話文の例:R2→R1:そんなに大きいんだ
「継続」の後続発話文の例:R1→R2:近くで見ると迫力があるよ
さらに、「質問」「平叙」「継続」毎に複数の後続発話文を用意してもよい。
この場合、発現制御部123は、ユーザ発話用応答文の後の後続発話文として、「質問」「平叙」「継続」に分類される複数の後続発話文の中から1つを選択し、選択した後続発話文を発現させる。
・「質問」とは、ユーザ発話用応答文の内容に適切に合致する質問であり、ユーザ発話用応答文を発話しなかったロボットが発話する。
・「平叙」とは、ユーザ発話用応答文の内容に適切に合致する感想などの平叙文であり、ユーザ発話用応答文を発話しなかったロボットが発話する。
・「継続」とは、ユーザ発話用応答文の内容に適切に合致する追加情報などの平叙文であり、ユーザ発話用応答文を発話したロボット自身が連続して発話する。
なお、「質問」「平叙」「継続」に分類される複数の後続発話文の中からランダムに1つの後続発話文を選択するため、本対話システムは、ユーザ発話用応答文と後続発話文をそれぞれ異なるエージェントが発話する場合(「質問」「平叙」に分類される後続発話文が選択された場合)、及び、ユーザ発話用応答文と後続発話文を同じエージェントが発話する場合(「継続」に分類される後続発話文が選択された場合)を含む。
(ユーザの嗜好に基づく選択)
発現制御部123は、対話の経緯から、ユーザの好きな後続発話文の分類を判定し、ユーザの好きな後続発話文が発現しやすくなるように選択してもよい。
例えば、ユーザが質問好きであるか否かによって、「質問」「平叙」「継続」の中から重み付け選択されるようにしてもよい。ユーザが質問好きであるか否かの判定方法としては、例えば、別途撮像機器でロボット間発話観測後のユーザの視線・表情・姿勢などを撮影し、撮影映像からユーザの興味の多寡を推測する方法が利用できる。質問を受けた直後のユーザの視線・表情・姿勢などから、「興味がある」と推定される場合に、発現制御部123は、ユーザが質問好きであると判定する。
ユーザが質問好きである場合、「質問」「平叙」「継続」の中からランダムに選ぶ際に、「質問」が選ばれる確率が「平叙」「継続」のいずれよりも高くなるように重み付けする。
さらに、一度使用した4つ組発話(ID、「質問」「平叙」「継続」の各文のパターン)にはフラグを付け、2度目以降は使用しないように検索するとよい。例えば、図6のように、各質問文に、複数の分類を付与しておき、分類が同じ組み合わせをもつ文章が2度目以降に選択されないようにすればよい。例えば、ユーザが変わる度にフラグをリセットしたり、全てのフラグが立ったときにフラグをリセットすればよい。
(1)類似度が閾値以上であった場合
音声合成部140は、発現制御部123が出力する、ユーザの発話を受け止める発話文、4つ組発話のユーザ発話用応答文、後続発話文、後続応答文を入力として受け取り、これらのテキストデータに対する音声合成を行って(S140-2)合成音声データを得て、得られた合成音声データをロボットR1の提示部101-1またはロボットR2の提示部101-2に出力する。
提示部101-1または101-2は、音声合成部140が出力する合成音声データを入力として受け取り、対応する音声を順番に再生する(S101-B)。
(2)類似度が閾値未満であった場合
音声合成部140は、発現制御部123が出力する、ユーザの発話を受け止める発話文、4つ組発話の想定ユーザ発話文、ユーザ発話用応答文、後続発話文、後続応答文を入力として受け取り、これらのテキストデータに対する音声合成を行って(S140-3)合成音声データを得て、得られた合成音声データをロボットR1の提示部101-1またはロボットR2の提示部101-2に出力する。
提示部101-1または101-2は、音声合成部140が出力する合成音声データを入力として受け取り、対応する音声を順番に再生する(S101-C)。
所定の条件を満たす場合(S150のyesの場合)には対話を終了し、満たさない場合(S150のnoの場合)には以下の処理を行う。
ロボットが4つ組を発話し終わったときで、かつユーザが割り込まなかった場合に、次にロボットに発話させる4つ組発話を特定し、音声合成部140において音声合成音声合成を行い、提示部101-1または101-2において提示する(S152)。例えば、ロボットの最後の発話と類似する発話文を4つ組発話記憶部130内から検索し、それに紐付いた4つ組発話をロボット間で発話する。
なお、ロボットの最後の発話と類似する4つ組発話記憶部130内の別の発話文(4つ組発話ID)は、予め設定してあり、毎回検索せずに設定された4つ組発話を発話するようにしてもよい。
所定の条件としては、例えば、ユーザの発話回数が所定の回数となった場合や、経過時間が所定の時間を超えた場合等が考えられる。
<割り込み判定部124>
入力:ユーザ発話に対応するテキストデータ、ユーザ発話の韻律の情報
出力:ユーザ発話に対応するテキストデータおよびユーザ発話の韻律の情報、またはユーザ発話を受け流す発話
図7は割り込み判定部124の処理フローの例を示す。
割り込み判定部124は、ユーザ発話に対応するテキストデータ、韻律の情報を用いて、ユーザ発話の割り込みがないかを判定するために、常に待機している。
割り込み判定部124は、ユーザ発話があれば(S124-1)、そのユーザ発話がフィラーであるか否かを判定する(S124-2)。フィラーであるか否かの判定する方法の例は、質問判定と同様、文字列や音声の韻律を利用して行う。なお、フィラーにも相槌・同意・非同意などの種類があるため、それぞれを表す発話文を集め、それらから機械学習により分類器を作成しておき、分類器によりフィラーであるか否かを判定する構成としてもよい。
フィラーではない場合、割り込み判定部124は、シナリオタイプ判定部122へユーザ発話に対応するテキストデータ及びその韻律の情報を出力する(S124-2のno)。
フィラーである場合、割り込み判定部124は、発現制御部123へユーザ発話を受け流す発話を出力し、ユーザ発話の割り込みがないかを待機する状態に戻る。ユーザ発話を受け流す発話の例としては、「そうなんだよ」「ふむ」(テキストデータ等)などがあげられる。相槌の場合は「うん」、同意の場合は「そうだね」、非同意の場合は「そっかあ」など、フィラーのタイプによって発話を変更してもよい。本実施形態では、フィラーは4つ組発話の途中で発生すると想定する。例えば、発現制御部123は入力されたユーザ発話を受け流す発話を音声合成部140に出力して、発現中の4つ組発話に戻る(S124-2のyes)。音声合成部140は、入力されたユーザ発話を受け流す発話に対する音声合成を行って合成音声データを得て、得られた合成音声データをロボットR1の提示部101-1またはロボットR2の提示部101-2に出力する。提示部101-1または101-2は、ユーザ発話を受け流す発話に対応する合成音声データを入力として受け取り、対応する音声を再生する(S124-3)。
<効果>
以上の構成により、ユーザ発話を起点として、詳細に話題が繋がる自然な対話を実現することができる。
<シミュレーション結果>
(実験設定)
本実施形態の対話システムを動物園に設置し、1ヶ月間来場者と対話する実証実験を行った。実施場所は、動物園の無料エリアである。無料エリアは、主に親子で本を読みながら食事や休憩を取るスペースとなっており、特に休日は多数の来場者が訪れる場所である。本実験では、対話システムとの対話に対する実ユーザの満足度を評価することを目的とする。合わせて、適切な発話タイミングやユーザの対話への興味を推定する元データとして、対話中のユーザの表情や音声の収録を行う。対象は、動物の中で人気の高い、ゾウ、キリン、カバ、レッサーパンダ、ツシマヤマネコ、トラ、フクロウ、ゴリラ、ペンギン、バクの10種類である。来場者への案内は園内の看板やWeb等を通して行った。対話に参加する場合には、対話の方法について説明するとともに、タブレットPCを用いて対話中のユーザの呼び名や年齢・性別の設定、対象動物の選択、および本人が18歳以上もしくは保護者がいる場合のみ動画等のデータ取得に関する説明および同意取得を行った。上記準備の後、実際に来場者とロボットとの間で対話を行った。なお、デモ時間や対話安定性の制約上、ユーザが6回発話した段階で、ミニシナリオの切れ目で終了モードに移行し、「そろそろ時間みたい」と対話の終了を促す形で対話の終了処理を行った。また対話終了後、ユーザ評価を5段階(1:そう思わない、…、5:そう思う)で入力した。対話の楽しさや話題の対象への興味が対話の満足度を表すと考え、評価項目には、1.ロボットと話すのは楽しかったですか?(楽しさ)、2.選んだ動物に興味を持てましたか?(興味)、3.選んだ動物に詳しくなれましたか?(知識)の3項目を設定した。
(結果と分析)
実験に参加した延べ人数は、付き添う保護者を含め、概ね400-600人程度であった。そのうちデータ取得の同意を取れた人数は238名であった。本実験では、有効な同意を取得できた体験者のデータのみを用いて分析を行った。まず、参加者全体の評価値は、1.楽しさ:4.52、2.興味:4.28、3.知識:4.04であった。5段階評価で4.5以上は極めて高い値であり、ほとんどの体験者が楽しいと感じたことがわかる。一方、3.知識については、4.0は超えているものの楽しさ・興味に比べるとやや低い評価値となっていた。次に、年齢の分布、および年齢ごとの評価値を図8に示す。来場者として、当初小学生低学年くらいを想定していたものの、実際には未就学児が非常に多く体験していた。一方、小学生中学年以上および中高生はほとんど来園していないことがわかる。評価値で見ていくと、1.楽しさと2.興味は年齢に依らず概ね横ばいであった。3.知識については、有意差も出ていないものの、6-8、13-19、20-39歳の評価が高い一方、9-12歳の落ち込みが大きい。実際に体験者の様子を観察していると、6-8歳は知識のレベルが程よく合致しており、知識の満足度向上につながったものと考えられる。しかしながら、9-12歳程度で動物園に来場する子どもはもともと非常に動物に興味があり知識も極めて豊富な子が多く、小さい子どもに合わせた知識では十分な満足を与えられなかったものと考えられる。一方、それより大きい13歳以上、特に20歳以上になると、普通程度の知識の来場者が再び増加し、かつ一般的な対話システムやロボットの対話レベルとの比較で評価するようになるため、評価値が向上したものと考えられる。男女の体験者数はそれぞれ116名、119名(回答なし3名)であり、評価値は男性は4.47、4.32、3.95、女性は4.56、4.23、4.11で有意差はなかった。また、観察に基づく定性的な分析として、4歳以下はロボットの発話を正しく理解すること自体が難しい(オープンな質問に的確に答えられないなど)場合が多く、論理的に見れば破綻している状態がほとんどであった。しかしながら、その状態であっても、図8の結果からも、楽しく対話していた子が多いことがわかる。内容のやりとり以外の観点での対話の楽しさを解き明かす手がかりになると考えられる。加えて、対話後に感想を尋ねたところ、今回の対話の仕方(ロボット発話→人発話→ロボット間で対話の繰り返し)でも、しっかりつながった対話と感じたという意見が多かった。ロボット間で話すところまでを応答と見れば、構造的には一問一答と類似しているものの、つながった対話と感じられていたという結果は、今後の対話ロボット研究を進めていく上で非常に有用な知見である。一方、ロボットが話しすぎている、という意見も多くあった。スクリプトでは頻繁に人に話を振るように設計していたが、それでもなお不足と感じられていたため、話を振るタイミングやユーザが割り込みやすい隙をうまく制御する必要があると考えられる。特に今回、対話の安定性を志向してPush-to-talk式のターンテイクを採用していたものの、これにより、話を振られるまで割り込みにくいという印象を強めていた可能性がある。そのため、ターンテイクの制御と合わせたデザインが必要である。
<変形例1>
上述の実施形態では、ロボットが4つ組を発話し終わったときで、かつユーザが割り込まなかった場合に、次にロボットに発話させる4つ組発話を特定し、音声合成部140において音声合成音声合成を行い、提示部101-1または101-2において提示する(S152)。ここで、以下のような変形が可能である。
(1)特定した4つ組発話のタイプが「いいところ」である場合
シナリオタイプ誘導発話生成部121は、タイプ「いいところ」の中から4つ組IDをランダムに選択する。シナリオタイプ誘導発話生成部121は、選択した4つ組IDに対応する想定ユーザ発話文と、「ユーザさんは<想定ユーザ発話文>ってところは好き?」のように、ユーザに問いかける形式のテンプレートを用いて、想定ユーザ発話文を変形して出力する。例えば、シナリオタイプ誘導発話生成部121は、「体が大きい」という想定ユーザ発話文を、「ユーザさんは<体が大きい>ってところは好き?」という想定ユーザ発話文に変形する。その質問に対するユーザ発話の収音信号に対して音声認識を行い、応答に対して、Yes/No判定を行い、ユーザ発話に対する共感・非共感を発話する。その後、発現制御部123が選択した4つ組IDに対応するユーザ発話用応答文、後続発話文、後続応答文を音声合成部140に出力する(S123-2)。なお、共感の場合、対話システムは、変形前の想定ユーザ発話文に類似する、他の想定ユーザ発話文を用いてユーザ発話のリフレーズを行うことで、強い共感を示してもよい。例えば、対話システムは、「体が大きい」に類似する、他の想定ユーザ発話文である「超でかい!」を用いて、「<超でかい!>よね」という発話文を用いてリフレーズを行う。
(2)選択された4つ組発話のタイプが「質問」である場合
シナリオタイプ誘導発話生成部121は、タイプ「質問」の中から4つ組IDをランダムに選択する。シナリオタイプ誘導発話生成部121は、選択した4つ組IDに対応する想定ユーザ発話文を用いて、あるロボット(例えばロボットR1)から他のロボット(例えばロボットR2)へ「そういえば、<想定ユーザ発話文>」のように質問をし、R2が「それはねえ。あ、ユーザさんはわかるかな?」とユーザHにクイズのように発話することで、ユーザを対話により強く関わらせることができる。さらに、
(2-1)ユーザ発話がわからない旨を発話していることが検知できた場合、ロボットR1が「僕もわからないや」というように共感を表出し、ロボットR2が「正解はねえ、<ユーザ発話用応答文>」のように発話することで、自然に対話を継続できる。
(2-2)ユーザ発話に対応するテキストデータとユーザ発話用応答文との類似度が高い場合、ロボットR2が「正解!すごいね」のように、ユーザに対して正解である旨を表出し、自然に対話を継続できる。
(2-3)ユーザ発話が質問に関わる内容語を含む場合、ロボットR1が「ふむふむ」と受け止め、かつ「正解は?」とロボットR2に質問し、ロボットR2が「正解は・・<ユーザ発話用応答文>」と発話することで、ユーザ発話が正解であるかを正しく認識できなくとも、対話をスムーズに継続できる。
(2-1)~(2-3)のいずれの場合も、その後、発現制御部123が選択した4つ組IDに対応する後続発話文、後続応答文を音声合成部140に出力する(S123-2)。
(3)選択された4つ組発話のタイプがトリビアの場合
シナリオタイプ誘導発話生成部121は、タイプ「トリビア」の中から4つ組IDをランダムに選択する。シナリオタイプ誘導発話生成部121は、選択した4つ組IDに対応する想定ユーザ発話文を用いて、あるロボット(例えばロボットR1)からユーザHへ「そういえば、<想定ユーザ発話文>」のようにトリビアを発話し、他のロボット(例えばロボットR2)がロボットR1に「へー、そうなんだ。ユーザさんは知ってた?」とユーザHに聞くことで、単純に知識を披露するだけでなく、対話に積極的に関わらせることができる。
(3-1)ユーザ発話が知らない旨を発話していることが検知できた場合、ロボットR1が「僕も知らなかったよ」というように共感を表出することで、自然に対話を継続できる。
(3-2)ユーザ発話が知っている旨を発話していることが検知できた場合、ロボットR1が「すごいね」というように称賛を表出することで、自然に対話を継続できる。
(3-1)~(3-2)のいずれの場合も、その後、発現制御部123が選択した4つ組IDに対応する後続発話文、後続応答文を音声合成部140に出力する(S123-2)。
<変形例2>
本実施形態では、発現制御部123は、類似度が閾値未満である場合(S123-1のno)、ユーザ発話を受け止める発話文に対応するテキストデータと、受け取った4つ組IDに対応する想定ユーザ発話文、ユーザ発話用応答文、後続発話文、後続応答文を音声合成部140に出力している。このとき、想定ユーザ発話文のタイプが質問の場合には以下のように処理を変更してもよい。
ユーザ発話を受け止める発話文に対応するテキストデータと、受け取った4つ組IDに対応する想定ユーザ発話文、ユーザ発話用応答文、後続発話文、後続応答文に代えて、外部の知識源を提示する発話文を生成する。例えば、ロボットR1に「ごめん、わからないや」等、ロボットR2に「あとで飼育員さんに聞いてみようか」等と発話させ、外部の知識源を提示する。
このような構成とすることで、対話をスムーズに継続できる。なお、ロボットR1の「わからない」のままで終わると、対話が止まり、ユーザに質問に答える意図がないと感じられるため、対話を継続する意欲を減少させるおそれがある。
なお、上述のロボットR1の「ごめん、わからないや」のあと、ユーザ発話に類似する質問(この場合、類似度は閾値以下である)を4つ組発話記憶部130のタイプが「質問」の4つ組発話から検索し、ロボットR2が「あ、そういえば、<想定ユーザ発話文>」と発話することで、ユーザ発話に関連する話題で質問を継続することができる。
<変形例3>
本実施形態では、4つ組発話記憶部130には、想定ユーザ発話文、ユーザ発話用応答文、それらに対する後続発話文とその後続応答文の4文を単位として構成される4つ組発話が複数個格納されているが、必ずしも4つ組発話である必要はない。想定ユーザ発話文、ユーザ発話用応答文、それらに対する後続発話文とその後続応答文の4文を冒頭に含む複数組発話であればよく、複数組発話に含まれる発話数も、上述の4文を冒頭に含みさえすれば、複数組発話毎に異なってもよい。複数組発話に含まれる5番目以降の発話文をそれぞれロボットR1またはロボットR2に発話させればよい。
第一実施形態は、複数組発話に含まれる発話数を4つに限定したものであり、本変形例の1例と言える。
このような構成とすることで、第一実施形態の効果に加え、より柔軟に会話を展開することが可能となる。なお、変形例1~3は必要に応じて適宜組み合わせることができる。
<変形例4>
入力部102-1、102-2はユーザからのテキストデータを入力とし、提示部101-1、101-2は発話決定部から入力された発話内容のテキスト文をディスプレイ等にテキスト表示してもよい(例えば図4等)。これにより、ユーザは、ロボットR1またはロボットR2の発話を視認することでユーザと対話システムとの対話が実現される。この場合、入力部102-1、102-2のいずれか一方、及び、提示部101-1、101-2の何れか一方を備えないでもよい。また、対話システムは、音声合成部140、音声認識部110を備えないでもよい。
<変形例5>
本実施形態の発現制御部123では類似度が閾値以上か未満かにより、処理内容を変更しているが、これは一例であって、類似度が閾値よりも大きいか否かにより、処理内容を変更する構成としてもよい。シナリオタイプ判定部122は、「類似度が閾値以上であったか否かを示す情報」に代えて「類似度が閾値よりも大きいか否かを示す情報」を求め、この情報に基づき各部で処理を行う。
<第二実施形態>
第一実施形態と異なる部分を中心に説明する。
第一実施形態とはシナリオタイプ判定部122と発現制御部123の処理内容が異なる。
(シナリオタイプ判定部122)
入力:ユーザ発話、4つ組発話記憶部130に格納された発話組
出力:4つ組ID、類似度が閾値以上であったか否かを示す情報、類似したのが想定ユーザ発話文、ユーザ発話用応答文、後続発話文のいずれであるかを示す情報
第一実施形態と同様にシナリオタイプ判定部122は、ユーザ発話に対応するテキストデータ、韻律の情報を用いて、ユーザ発話が質問文であるか否かを判定する。
ユーザ発話に対応するテキストデータが質問文である場合、第一実施形態と同様の処理を行う。
ユーザ発話に対応するテキストデータが質問文ではない場合、シナリオタイプ判定部122は、質問タイプ以外のすべての4つ組発話と対応する4つ組IDを4つ組発話記憶部130から取り出し、想定ユーザ発話文、ユーザ発話用応答文、後続発話文のそれぞれとユーザ発話に対応するテキストデータとの類似度を計算し(S122)、ユーザ発話に対応するテキストデータと最も類似する想定ユーザ発話文、ユーザ発話用応答文、後続発話文の何れかを含む4つ組発話の4つ組IDと、類似度が閾値以上であったか否かを示す情報と、類似したのが想定ユーザ発話文、ユーザ発話用応答文、後続発話文のいずれであるかを示す情報とを出力する。
(発現制御部123)
入力:4つ組ID、類似度が閾値以上であったか否かを示す情報、類似したのが想定ユーザ発話文、ユーザ発話用応答文、後続発話文のいずれであるかを示す情報
出力:ユーザの発話を受け止める発話、4つ組IDに対応する発話文中の類似した発話
ユーザ発話に対応するテキストデータが質問文である場合、第一実施形態と同様の処理を行う。
ユーザ発話に対応するテキストデータが質問文ではない場合、以下の処理を行う。
発現制御部123は、類似度が閾値以上である場合(S123-1のyes)、ユーザ発話を受け止める発話文に対応するテキストデータと、受け取った4つ組IDと想定ユーザ発話文、ユーザ発話用応答文、後続発話文のいずれであるかを示す情報とを用いて、想定ユーザ発話文、ユーザ発話用応答文、後続発話文のいずれであるかを示す情報が示す発話文以降の発話文を音声合成部140に出力する(S123-2)。この実施形態では、ユーザ発話を受け止める発話文は、「へぇ~」などであり、必須の発話となる。発現制御部123は、ロボットR1またはロボットR2に、ユーザ発話を受け止める発話文を発話させた後、想定ユーザ発話文、ユーザ発話用応答文、後続発話文のいずれであるかを示す情報が示す発話文以降の発話文を出力する。
発現制御部123は、類似度が閾値未満である場合(S123-1のno)の処理は第一実施形態と同様である。
<効果>
このような構成とすることで、第一実施形態と同様の効果を得ることができる。
<その他の変形例>
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
<プログラム及び記録媒体>
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶部に格納する。そして、処理の実行時、このコンピュータは、自己の記憶部に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実施形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよい。さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (8)

  1. 想定ユーザ発話文、ユーザ発話用応答文、それらに対する後続発話文とその後続応答文の4文を単位として構成される4つ組発話を複数個記憶してあり、
    ユーザ発話に対応するデータの入力を契機に、
    前記ユーザ発話に対応するデータと類似する想定ユーザ発話文から始まる4つ組発話のうち、ユーザ発話用応答文、それらに対する後続発話文と後続応答文をそれぞれ複数のエージェントの何れかが発話し、
    前記ユーザ発話用応答文と前記後続発話文を、それぞれ異なるエージェントが発話し、
    前記後続発話文と前記後続応答文を、それぞれ異なるエージェントが発話するように制御する、
    対話装置。
  2. 想定ユーザ発話文、ユーザ発話用応答文、それらに対する後続発話文とその後続応答文の4文を冒頭に含む複数組発話を複数個記憶してあり、
    ユーザ発話に対応するデータの入力を契機に、
    前記ユーザ発話に対応するデータと類似する想定ユーザ発話文から始まる複数組発話のうち、ユーザ発話用応答文、それらに対する後続発話文と後続応答文をそれぞれ複数のエージェントの何れかが発話し、
    前記ユーザ発話用応答文と前記後続発話文を、それぞれ異なるエージェントが発話し、
    前記後続発話文と前記後続応答文を、それぞれ異なるエージェントが発話するように制御する、
    対話装置。
  3. 請求項1または請求項2の対話装置であって、
    前記想定ユーザ発話文は、ユーザが発話すると想定される文であり、
    前記ユーザ発話用応答文は、同じ意味の想定ユーザ発話文に対しては、同じユーザ発話用応答文になるように生成された、前記想定ユーザ発話文に対する応答文であり、
    前記後続発話文は、紐づけられた想定ユーザ発話文とユーザ発話用応答文のペアに対して、話題の連続性を表す指標と所定の閾値との大小関係に基づき、話題の連続性があると判断されるように作成された発話であり、
    前記後続応答文は、紐づけられた後続発話文に対して、話題の連続性を表す指標と所定の閾値との大小関係に基づき、話題の連続性があると判断されるように作成された発話である、
    対話装置。
  4. 請求項1から請求項3の何れかの対話装置であって、
    発話内容の対象を示す情報と、発話内容のタイプを規定するものを示す情報とを用いて、前記タイプに紐づけられたテンプレート発話と前記対象とからシナリオタイプ誘導発話文を生成するシナリオタイプ誘導発話生成部と、
    前記シナリオタイプ誘導発話文に対して発せられた前記ユーザ発話に対応するデータと、最も類似する想定ユーザ発話文の類似度が、所定の閾値よりも大きいまたは所定の閾値以上の場合、前記ユーザ発話に対応するデータと類似する想定ユーザ発話文から始まる4つ組発話のうち、ユーザ発話用応答文、それらに対する後続発話文と後続応答文をそれぞれ複数のエージェントの何れかが発話し、前記類似度が所定の閾値以下または所定の閾値よりも小さい場合、内容語を含まない発話文を複数のエージェントの何れかが発話した後に前記ユーザ発話に対応するデータと類似する想定ユーザ発話文から始まる4つ組発話をそれぞれ複数のエージェントの何れかが発話するように制御する発現制御部とを含む、
    対話装置。
  5. 請求項1から請求項3の何れかの対話装置であって、
    発話内容の対象を示す情報と、発話内容のタイプを規定するものを示す情報とを用いて、前記タイプに紐づけられたテンプレート発話と前記対象とからシナリオタイプ誘導発話文を生成するシナリオタイプ誘導発話生成部と、
    前記シナリオタイプ誘導発話文に対して発せられた前記ユーザ発話に対応するデータと、最も類似する想定ユーザ発話文、ユーザ発話用応答文、後続発話文の何れかの類似度が、所定の閾値よりも大きいまたは所定の閾値以上の場合、前記ユーザ発話に対応するデータと類似する想定ユーザ発話文、ユーザ発話用応答文、後続発話文を含む4つ組発話のうち、最も類似する想定ユーザ発話文、ユーザ発話用応答文または後続発話文以降の発話文をそれぞれ複数のエージェントの何れかが発話し、前記類似度が所定の閾値以下または所定の閾値よりも小さい場合、内容語を含まない発話文を複数のエージェントの何れかが発話した後に前記ユーザ発話に対応するデータと類似する想定ユーザ発話文から始まる4つ組発話をそれぞれ複数のエージェントの何れかが発話するように制御する発現制御部とを含む、
    対話装置。
  6. 想定ユーザ発話文、ユーザ発話用応答文、それらに対する後続発話文とその後続応答文の4文を単位として構成される4つ組発話を複数個記憶されているものとし、
    対話装置が、
    ユーザ発話に対応するデータの入力を契機に、
    前記ユーザ発話に対応するデータと類似する想定ユーザ発話文から始まる4つ組発話のうち、ユーザ発話用応答文、それらに対する後続発話文と後続応答文をそれぞれ複数のエージェントの何れかが発話し、
    前記ユーザ発話用応答文と前記後続発話文を、それぞれ異なるエージェントが発話し、
    前記後続発話文と前記後続応答文を、それぞれ異なるエージェントが発話するように制御する、
    対話方法。
  7. 想定ユーザ発話文、ユーザ発話用応答文、それらに対する後続発話文とその後続応答文の4文を冒頭に含む複数組発話を複数個記憶してあり、
    対話装置が、
    ユーザ発話に対応するデータの入力を契機に、
    前記ユーザ発話に対応するデータと類似する想定ユーザ発話文から始まる複数組発話のうち、ユーザ発話用応答文、それらに対する後続発話文と後続応答文をそれぞれ複数のエージェントの何れかが発話し、
    前記ユーザ発話用応答文と前記後続発話文を、それぞれ異なるエージェントが発話し、
    前記後続発話文と前記後続応答文を、それぞれ異なるエージェントが発話するように制御する、
    対話方法。
  8. 請求項1から請求項5の何れかの対話装置として、コンピュータを機能させるためのプログラム。
JP2020549955A 2018-10-05 2019-06-17 対話装置、その方法、およびプログラム Active JP7060106B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2018189852 2018-10-05
JP2018189852 2018-10-05
PCT/JP2019/023790 WO2020070923A1 (ja) 2018-10-05 2019-06-17 対話装置、その方法、およびプログラム

Publications (2)

Publication Number Publication Date
JPWO2020070923A1 JPWO2020070923A1 (ja) 2021-10-28
JP7060106B2 true JP7060106B2 (ja) 2022-04-26

Family

ID=70055464

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020549955A Active JP7060106B2 (ja) 2018-10-05 2019-06-17 対話装置、その方法、およびプログラム

Country Status (3)

Country Link
US (1) US11734520B2 (ja)
JP (1) JP7060106B2 (ja)
WO (1) WO2020070923A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6775545B2 (ja) * 2018-05-09 2020-10-28 日本電信電話株式会社 対話データ生成装置、対話データ生成方法、およびプログラム
KR20230032086A (ko) * 2021-08-30 2023-03-07 한국전자기술연구원 대화형 에이전트 시스템에서 back-channel 자동 생성 방법 및 시스템
CN114936297B (zh) * 2022-06-10 2023-03-14 四川省人工智能研究院(宜宾) 一种基于先验知识和对象敏感的视频问答方法
WO2023248289A1 (ja) * 2022-06-20 2023-12-28 日本電信電話株式会社 対話装置、対話方法および対話プログラム
WO2024127956A1 (ja) * 2022-12-12 2024-06-20 国立大学法人大阪大学 対話システム、制御プログラムおよび制御方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017200078A1 (ja) 2016-05-20 2017-11-23 日本電信電話株式会社 対話方法、対話システム、対話装置、およびプログラム
WO2017200081A1 (ja) 2016-05-20 2017-11-23 日本電信電話株式会社 取得方法、生成方法、それらのシステム、及びプログラム
JP2018151471A (ja) 2017-03-10 2018-09-27 日本電信電話株式会社 対話方法、対話システム、対話装置、およびプログラム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6922670B2 (en) * 2000-10-24 2005-07-26 Sanyo Electric Co., Ltd. User support apparatus and system using agents
JP2018054790A (ja) * 2016-09-28 2018-04-05 トヨタ自動車株式会社 音声対話システムおよび音声対話方法
US20200065057A1 (en) * 2016-11-08 2020-02-27 Sharp Kabushiki Kaisha Audio adjusting device, computer-readable non-transitory storage medium storing control program, electronic apparatus, and method for controlling audio adjusting device
JP6842095B2 (ja) * 2017-03-10 2021-03-17 日本電信電話株式会社 対話方法、対話システム、対話装置、およびプログラム
US11267121B2 (en) * 2018-02-13 2022-03-08 Casio Computer Co., Ltd. Conversation output system, conversation output method, and non-transitory recording medium

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017200078A1 (ja) 2016-05-20 2017-11-23 日本電信電話株式会社 対話方法、対話システム、対話装置、およびプログラム
WO2017200081A1 (ja) 2016-05-20 2017-11-23 日本電信電話株式会社 取得方法、生成方法、それらのシステム、及びプログラム
JP2018151471A (ja) 2017-03-10 2018-09-27 日本電信電話株式会社 対話方法、対話システム、対話装置、およびプログラム

Also Published As

Publication number Publication date
JPWO2020070923A1 (ja) 2021-10-28
US11734520B2 (en) 2023-08-22
WO2020070923A1 (ja) 2020-04-09
US20220067300A1 (en) 2022-03-03

Similar Documents

Publication Publication Date Title
JP7060106B2 (ja) 対話装置、その方法、およびプログラム
US10893236B2 (en) System and method for providing virtual interpersonal communication
US11151997B2 (en) Dialog system, dialog method, dialog apparatus and program
Finlayson et al. Disfluency in dialogue: An intentional signal from the speaker?
JP6719747B2 (ja) 対話方法、対話システム、対話装置、およびプログラム
JP6719741B2 (ja) 対話方法、対話装置、及びプログラム
Traum et al. Incremental dialogue understanding and feedback for multiparty, multimodal conversation
KR20020071917A (ko) 개인 상호 작용을 시뮬레이트하고 관련 데이터를 갖는외부 데이터베이스를 차징하는 유저인터페이스/엔터테인먼트 장치
KR20020067590A (ko) 개인 상호작용을 시뮬레이팅하는 환경-응답 유저인터페이스/엔터테인먼트 장치
WO2018163647A1 (ja) 対話方法、対話システム、対話装置、およびプログラム
JP6699010B2 (ja) 対話方法、対話システム、対話装置、およびプログラム
US11501768B2 (en) Dialogue method, dialogue system, dialogue apparatus and program
Wilks et al. A prototype for a conversational companion for reminiscing about images
Tan et al. iSocioBot: a multimodal interactive social robot
Strauss et al. Proactive spoken dialogue interaction in multi-party environments
Gonzalez et al. AI in informal science education: bringing turing back to life to perform the turing test
JP6551793B2 (ja) 対話方法、対話システム、対話装置、およびプログラム
Lin et al. ” What color are the fish’s scales?” Exploring parents’ and children’s natural interactions with a child-friendly virtual agent during storybook reading
Gunkel Computational interpersonal communication: Communication studies and spoken dialogue systems
CN115905475A (zh) 答案评分方法、模型训练方法、装置、存储介质及设备
JP6755509B2 (ja) 対話方法、対話システム、対話シナリオ生成方法、対話シナリオ生成装置、及びプログラム
Vavrecka et al. Personified Robotic Chatbot Based On Compositional Dialogues
Tewari et al. A question-answering agent using speech driven non-linear machinima
Kusumawardani et al. Expressive Speech Acts Performed by The Characters in Before Midnight Movie (Pragmatic Study)
Griol et al. (2019). Developing Enhanced Conversational Agents for Social Virtual Worlds. Neurocomputing, 354, pp. 27-40.

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210324

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210324

A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A801

Effective date: 20210324

A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A80

Effective date: 20210324

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220315

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220328

R150 Certificate of patent or registration of utility model

Ref document number: 7060106

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150