JP6719739B2 - 対話方法、対話システム、対話装置、及びプログラム - Google Patents

対話方法、対話システム、対話装置、及びプログラム Download PDF

Info

Publication number
JP6719739B2
JP6719739B2 JP2018518373A JP2018518373A JP6719739B2 JP 6719739 B2 JP6719739 B2 JP 6719739B2 JP 2018518373 A JP2018518373 A JP 2018518373A JP 2018518373 A JP2018518373 A JP 2018518373A JP 6719739 B2 JP6719739 B2 JP 6719739B2
Authority
JP
Japan
Prior art keywords
utterance
dialogue
person
robot
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018518373A
Other languages
English (en)
Other versions
JPWO2017200074A1 (ja
Inventor
弘晃 杉山
弘晃 杉山
豊美 目黒
豊美 目黒
淳司 大和
淳司 大和
雄一郎 吉川
雄一郎 吉川
石黒 浩
浩 石黒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Osaka University NUC
Original Assignee
Nippon Telegraph and Telephone Corp
Osaka University NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, Osaka University NUC filed Critical Nippon Telegraph and Telephone Corp
Publication of JPWO2017200074A1 publication Critical patent/JPWO2017200074A1/ja
Application granted granted Critical
Publication of JP6719739B2 publication Critical patent/JP6719739B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9038Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Manipulator (AREA)
  • User Interface Of Digital Computer (AREA)

Description

この発明は、人とコミュニケーションを行うロボットなどに適用可能な、コンピュータが人間と自然言語を用いて対話を行う技術に関する。
近年、人とコミュニケーションを行うロボットの研究開発が進展しており、様々な現場で実用化されてきている。例えば、コミュニケーションセラピーの現場において、ロボットが孤独感を抱える人の話し相手となる利用形態がある。具体的には、老人介護施設においてロボットが入居者の傾聴役となることで、入居者の孤独感を癒す役割を担うことができると共に、ロボットとの会話している姿を見せ、入居者とその家族や介護士など周りの人々との会話のきっかけを作ることができる。また、例えば、コミュニケーション訓練の現場において、ロボットが練習相手となる利用形態がある。具体的には、外国語学習施設においてロボットが外国語学習者の練習相手となることで、外国語学習を効率的に進めることができる。また、例えば、情報提示システムとしての応用において、ロボット同士の対話を聞かせることを基本としながら、時折人に話しかけることで、退屈させずに人を対話に参加させ、人が受け入れやすい形で情報を提示することができる。具体的には、街中の待ち合わせ場所やバス停、駅のホームなどで人が時間を持て余している際や、自宅や教室などで対話に参加する余裕がある際に、ニュースや商品紹介、蘊蓄及び知識紹介、教育(例えば、子供の保育及び教育、大人への一般教養教授、モラル啓発など)など、効率的な情報提示が期待できる。さらに、例えば、情報収集システムとしての応用において、ロボットが人に話しかけながら情報を収集する利用形態がある。ロボットとのコミュニケーションにより対話感を保持できるため、人に聴取されているという圧迫感を与えずに情報収集することができる。具体的には、個人情報調査や市場調査、商品評価、推薦商品のための趣向調査などに応用することが想定されている。このように人とロボットのコミュニケーションは様々な応用が期待されており、ユーザとより自然に対話を行うロボットの実現が期待される。また、スマートフォンの普及により、LINE(登録商標)のように、複数ユーザでほぼリアルタイムにチャットを行うことにより、ユーザ間での会話を楽しむチャットサービスも実施されている。このチャットサービスにユーザとロボットとの会話の技術を適用すれば、チャット相手となるユーザがいなくても、ユーザとより自然に会話を行うチャットサービスの実現が可能となる。本明細書では、これらのサービスで用いられるロボットやチャット相手などのユーザの対話相手となるハードウェアやユーザの対話相手となるハードウェアとしてコンピュータを機能させるためのコンピュータソフトウェアなどを総称してエージェントと呼ぶこととする。エージェントは、ユーザの対話相手となるものであるため、ロボットやチャット相手などのように擬人化されていたり、人格化されていたり、性格や個性を有していたりするものであってもよい。
これらのサービスの実現のキーとなるのは、ハードウェアやコンピュータソフトウェアにより実現されるエージェントが人間と自然に対話を行うことができる技術である。
対話システムの従来技術として非特許文献1,2が知られている。非特許文献1では、所定のシナリオに沿って発話を生成する。非特許文献2では、一つ以上前の人または対話システムの発話からのみに基づいて次の発話を生成する。
有本庸浩,吉川雄一郎,石黒浩,"複数体のロボットによる音声認識なし対話の印象評価",日本ロボット学会学術講演会,2016年 杉山弘晃,目黒豊美,東中竜一郎,南泰浩,"任意の話題を持つユーザ発話に対する係り受けと用例を利用した応答文の生成",人工知能学会論文誌,vol.30(1),pp. 183-194,2015年
しかしながら、現在の対話システムは、しばしばユーザ発話に対して妥当ではないシステム発話をすることがある(参考文献1)。こうしたシステム発話に対する次の発話を考えることは人間にとっても容易では無い。さらに、対話システムに対話を続ける意思がないとユーザを失望させてしまうため、対話を破綻させてしまう可能性がある。対話破綻を回避するため、こうした破綻発話を発話する前に検知したいが、完全に検知することは難しい(参考文献2)。なお、破綻発話とは、ユーザ発話に対して妥当ではないシステム発話のことであり、ユーザの発話に対応するものではないシステム発話を意味する。
(参考文献1):東中 竜一郎、船越 孝太郎、荒木 雅弘、塚原 裕史、小林 優佳、水上 雅博、「Project Next NLP 対話タスク:雑談対話データの収集と対話破綻アノテーションおよびその類型化」、言語処理学会年次大会、2015
(参考文献2):杉山 弘晃、「異なる特性を持つデータの組み合わせによる雑談対話の破綻検出」、第75回 人工知能学会 言語・音声理解と対話処理研究会(SIG-SLUD)第6回対話システムシンポジウム、2015
また、従来の対話システムでは、対話システム自身が対話を破綻させた認識を持つことなく対話を進めようとする。そのため、ユーザに対話システムが対話の内容を理解せずに対話している印象を与えてしまう。
本発明は、破綻発話をシステム発話後に検知し、そのことを考慮した上で次の行動を決定することで、ユーザに対話システムが対話の内容を理解して対話している印象を与える対話方法、対話システム、対話装置、及びプログラムを提供することを目的とする。
上記の課題を解決するために、本発明の一態様によれば、対話システムが行う対話方法は、第1エージェントと第2エージェントとを含み、対話システムが、人の発話の入力を受け付ける発話受付ステップと、対話システムが、人の発話に対する発話である第1発話を決定する第1発話決定ステップと、第1発話を第1エージェントが提示する第1発話提示ステップと、対話システムが、第1発話に対する人の反応を取得する反応取得ステップと、対話システムが、人の反応が、第1発話が人の発話に対応するものではないことを示す反応である場合に、第1発話とは異なる発話である第2発話を決定する第2発話決定ステップと、第2発話を第2エージェントが提示する第2発話提示ステップと、を含む。
上記の課題を解決するために、本発明の他の態様によれば、対話システムは、人の発話の入力を受け付ける発話受付部と、人の発話に対する発話である第1発話を決定する第1発話決定部と、第1発話を提示する第1エージェントと、第1発話に対する人の反応を取得する反応取得部と、人の反応が、第1発話が人の発話に対応するものではないことを示す反応である場合に、第1発話とは異なる発話である第2発話を決定する第2発話決定部と、第2発話を提示する第2エージェントと、を含む。
上記の課題を解決するために、本発明の他の態様によれば、対話装置は、入力された人の発話に対する発話であり、第1エージェントが提示する発話である、第1発話を決定する第1発話決定部と、第1発話に対する人の反応が、第1発話が人の発話に対応するものではないことを示す反応である場合に、第1発話とは異なる発話であり、第2エージェントが提示する発話である、第2発話を決定する第2発話決定部と、を含む。
本発明によれば、対話システムが対話の内容を理解して対話している印象をユーザに与えることができるという効果を奏する。
第一実施形態に係る対話システムの対話例を示す図。 第一実施形態に係る対話システムの機能ブロック図。 第一実施形態に係る対話システムの処理フローの例を示す図。 変形例3に係る対話システムを示す図。
以下、本発明の実施形態について、説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。
<第一実施形態のポイント>
本実施形態では、破綻の検出に、システム発話の内容のみではなく、システム発話を聞いたユーザの表情などの変化を利用する。システム発話の内容のみからその発話前に破綻を検出するには複雑な意味構造を理解する必要があるが、ユーザの反応を破綻の検出に組み込むことで破綻をより確実に検出できる。
一方、上述の方法で破綻発話を検出するには、実際に対話システムが発話してユーザの反応を観測し、観測されたユーザの反応から対話システムの発話が破綻発話であったかを検出することになる。このとき、対話システムが破綻発話をしたことをユーザが認識してしまう。そのため、対話システムが破綻発話を発話した後のユーザへのフォローが重要となる。
図1は、本実施形態に係る対話システムとユーザとの対話例を示す。なお、t(v)はv番目の言語コミュニケーション(発話)または非言語コミュニケーションを意味し、X→YはXからYに対して発話していることを意味する。
本実施形態の対話システムは、破綻させた事自体を話題にする等により、「破綻させたこと」を対話システムが認識していることをユーザに表明する(図1のCase1〜Case6)。この表明により、ユーザに対して、対話システムが正しく自身の発話内容を理解しており、かつユーザの振る舞いに敏感であると示すことができる。そのため、対話におけるユーザの満足度が向上すると考えられる。
さらに、ロボットが2体ある場合には、破綻していること自体をロボット間で話題にすることで、破綻発話を発話していない側のロボットがより賢いロボットであるとの印象をユーザに持たせることできる。さらに、対話システムが対話の内容を理解して対話している印象をユーザに与えることができる(図1のCase1〜Case4)。
また、「破綻させたこと」を対話システムが認識していることを一方のロボットがユーザに表明した後に、破綻発話と異なる発話を他方のロボットが行う(図1のCase4)。または、話題転換語を前置して破綻発話とは異なる発話を行う(図1のCase7)。これらにより、対話システムは、対話システムが対話の内容を理解せずに対話しているとのユーザの印象、すなわち、ロボットに対するユーザの失望、を軽減することができる。裏返せば、対話システムは、対話システムが対話の内容を理解して対話している印象をユーザに与えることができる。
また、破綻発話を発話していない側のロボットが破綻発話の内容を無視して、ユーザとの間で対話を進めることで、対話システム全体に対するユーザの失望を軽減することができる(図1のCase8など)。裏返せば、対話システムが対話の内容を理解して対話している印象をユーザに与えることができる。
加えて、2体のロボットが互いにフォローしあうため、破綻発話を一度しても対話そのものは破綻しにくい(図1のCase4,Case8)。それを利用し、ユーザ発話に対するロボットの発話として通常であれば1bestで生成する発話を2bestまたは4bestなどの複数候補を生成し、複数候補のうちの1つをユーザ発話に対するロボットの発話とし、複数候補のうちの別のものをロボットの発話が破綻発話であった場合にロボットが行う発話としてもよい。この場合は、類似した候補を選択するよりも、発話間類似度が小さい候補を選択した方が破綻しにくい可能性がある。さらに、複数候補を生成する段階で、あらかじめ発話間類似度が小さくなるように候補を生成する方法も考えられる。
以下、具体例1ではロボットR1が対話を破綻させたこと、または、破綻させた可能性があることを、ロボットR2が表出する例を示す。
具体例1:
t(1): ユーザ→R1,R2:「最近ライオンキング(登録商標)見に行ったら、子役の子たちがすごかったです」
t(2): R1→ユーザ:「メスが狩りをするらしいですね」(「ライオン」に反応した破綻発話)
ロボットR1の発話t(2)に対するユーザの反応の認識結果が「ロボットR1の発話t(2)がユーザの発話t(1)に対応するものではない(ロボットR1が破綻させた)」というものであった場合に、ロボットR2が「ロボットR1の発話がユーザの発話に対応するものではない」旨を表出する行動を行う。
Case1:
t(3): R2→R1:「何言ってるの??」
t(4): R1→ユーザ:「ライオンの話じゃないの?」
Case2:
t(3): R2→ユーザ:「何言ってんだろうねー」
Case3:
t(3): R2:ためいき
Case1では、ロボットR2が、ロボットR1に対する発話として、ロボットR1が破綻させたこと、または、ロボットR1が破綻させた可能性を、発話t(3)で明言する。
Case2では、ロボットR2が、ユーザに対する発話として、ロボットR1が破綻させたこと、または、ロボットR1が破綻させた可能性を、発話t(3)で明言する。
Case3では、発話t(2)を行った者以外(この例では、発話t(2)を行ったロボットR1以外のロボットであるロボットR2)が、何れに対する発話でもない発話(この例では、発話t(1),t(2)の何れにも対応しない発話)または意思表出として、ロボットR1が破綻させたこと、または、ロボットR1が破綻させた可能性を、非言語コミュニケーションt(3)で明示する。この例では、ロボットR1の発話がユーザの発話に対応するものではない旨を表出する行動として、ロボットR2がt(3)でため息をつく。
以下、具体例2ではロボットR1が対話を破綻させたこと、または、破綻させた可能性があることを、ロボットR1自身が表出する例を示す。
具体例2:
t(1): ユーザ→R1,R2:「最近ライオンキング見に行ったら、子役の子たちがすごかったです」
t(2): R1→ユーザ:「メスが狩りをするらしいですね」(「ライオン」に反応した破綻発話)
ロボットR1の発話t(2)に対するユーザの反応の認識結果が「ロボットR1の発話t(2)がユーザの発話t(1)に対応するものではない(ロボットR1が破綻させた)」というものであった場合に、ロボットR1が「ロボットR1の発話がユーザの発話に対応するものではない」旨を表出する行動を行う。
Case4:
t(3): R1→R2「あれ?何か変なこと言った??」
t(4): R2→ユーザ「その話じゃないよねえ。子役の話だよね」
Case5:
t(3): R1→ユーザ「あれ?違いました?」
Case6:
t(3): R1:首を横に振る仕草
Case4では、ロボットR1が、ロボットR2に対する発話として、ロボットR1が破綻させたこと、または、ロボットR1が破綻させた可能性を、発話t(3)で明言する。Case4では、さらに、ロボットR2が、ユーザに対する発話として、発話t(2)とは異なる発話t(4)を行うことで、ユーザ発話に対する対話を継続する。
Case5では、ロボットR1が、ユーザに対する発話として、ロボットR1が破綻させたこと、または、ロボットR1が破綻させた可能性を、発話t(3)で明言する。
Case6では、発話t(2)を行った者自身(この例では、ロボットR1)が、何れに対する発話でもない発話(この例では、発話t(1),t(2)の何れにも対応しない発話)または意思表出として、ロボットR1が破綻させたこと、または、ロボットR1が破綻させた可能性を、非言語コミュニケーションt(3)で明示する。この例では、ロボットR1の発話がユーザの発話に対応するものではない旨を表出する行動として、ロボットR2がt(3)で首を横に振る仕草を行う。
なお、このCase5,Case6では、ロボットR2は発話しないため、対話システムはロボットR1のみを含む構成としてもよい。言い換えると、ロボット1体でも対話システムとして成立する。
具体例2のCase4では、ロボットR1が対話を破綻させたこと、または、破綻させた可能性があることについて、対話システムが明言した上で、対話を継続する例を示したが、以下、具体例3ではロボットR1が対話を破綻させたこと、または、破綻させた可能性があることについて、対話システムが明言せずに対話を継続する例を示す。具体例3では、対話システムが対話の内容を理解して対話している印象をユーザに与えるため、対話システムは、破綻させた発話と異なる発話をすることで、ユーザ発話に対する対話を継続する。具体的には、話題転換語を付した発話をしたり、破綻発話をしたロボットとは別のロボットが破綻発話を無視した発話をすることで、対話システムはユーザ発話に対する対話を継続する。
具体例3:
t(1): ユーザ→R1,R2:「最近ライオンキング見に行ったら、子役の子たちがすごかったです」
t(2): R1→ユーザ:「メスが狩りをするらしいですね」(「ライオン」に反応した破綻発話)
ロボットR1の発話t(2)に対するユーザの反応の認識結果が「ロボットR1の発話t(2)がユーザの発話t(1)に対応するものではない(ロボットR1が破綻させた)」というものであった場合に、ロボットR1、ロボットR2はともに破綻を明言せずに対話を継続する。
Case7:
t(3): R2→R1「あ、そういえばこないだサファリパークに行ったら、ライオンが眠ってたよ」
Case8:
t(3): R2→ユーザ「子役はかわいいですよね」
Case7では、ロボットR2が、話題転換語を伴って、ロボットR1の破綻発話t(2)ではなくユーザの発話t(1)に関する発話t(3)を行う。「そういえば」などの話題転換語を伴うことで、ユーザの話題からずれていることを表出しつつ、話題を遷移させて対話を継続することができ、ロボットR2が対話の内容を理解して対話している印象をユーザに与えることができる。
Case8では、ロボットR2が、ロボットR1の破綻発話t(2)ではなくユーザの発話t(1)に関する発話t(3)を行う。こうすると、ロボットR2がロボットR1の発話t(2)を無視して発話t(3)を行い、ユーザは発話t(3)に対応する発話をすることで、対話を継続することができ、ロボットR2が対話の内容を理解して対話している印象をユーザに与えることができる。
以下、上述の処理を実現するための構成について説明する。
<第一実施形態>
図2は第一実施形態に係る対話システム100の機能ブロック図を、図3は第一実施形態に係る対話システム100の処理フローを示す。
対話システム100は、ロボットR1、R2と、対話装置190と、を含む。対話装置190は、音声合成部110と、発話決定部120と、音声認識部140と、反応取得部160と、行動生成部170と、行動部180とを含む。ロボットR1は提示部101−1と入力部102−1とを含み、ロボットR2は提示部101−2と入力部102−2とを含む。入力部102−1、102−2は、ロボットの周囲で発せられた音響信号を収音するものであり、例えばマイクロホンである。提示部101−1、101−2は、ロボットR1、R2の周囲に音響信号を発するものであり、例えばスピーカである。
対話システム100は、ユーザである人が2体のロボットであるR1とR2と対話するためのものであり、ユーザである人の発話に対して対話装置190が生成した発話音声をロボットR1、R2が発話するものである。以下、対話システム100の各部の動作を説明する。
[ロボットR1、R2]
ロボットR1とR2は、ユーザと対話するためのものであり、ユーザの近くに配置され、対話装置190が生成した発話を行う。
[入力部102−1、102−2]
入力部102−1、102−2は、ユーザが発話した発話音声を収音して、収音された音声データを音声認識部140に出力する。入力部はユーザが発話した発話音声を収音可能とすればよいので、入力部102−1、102−2の何れか一方を備えないでもよい。また、ユーザの近傍などのロボットR1,R2とは異なる場所に設置されたマイクロホンを入力部とし、入力部102−1、102−2の双方を備えない構成としてもよい。
[音声認識部140]
音声認識部140は、入力部102−1、102−2が得た音声データ(ユーザの発話t(1)、すなわち、人の発話t(1))の入力を受け付け(S1)、この音声データに対して音声認識を行い(S2)、認識結果のテキストを発話決定部120に出力する。
[発話決定部120]
発話決定部120は、音声認識部140からユーザの発話t(1)に対する音声認識結果のテキストが入力されると、当該ユーザの発話t(1)、すなわち、人の発話t(1)に対する音声認識結果のテキストに少なくとも基づき、当該ユーザの発話t(1)の次に対話システム100が提示する発話t(2)のテキストを決定し(S3)、音声合成部110に出力する。なお、当該発話を行うロボットも決定してもよく、この場合には、発話するロボットを表す情報も音声合成部110に出力する。
なお、発話決定部120内には、例えば、参考文献3に記載された「雑談対話システム」と呼ばれる対話システムのように、入力された発話のテキストに含まれる単語をトリガーとして、あらかじめ記述しておいたルールに従って発話のテキストを生成して出力する対話システムが備えられている。発話決定部120内に備えられた当該対話システムが、ユーザの発話に対する音声認識結果のテキストに少なくとも基づく発話のテキストを生成して出力する。
(参考文献3)杉山弘晃,目黒豊美,東中竜一郎,南泰浩,“任意の話題を持つユーザ発話に対する係り受けと用例を利用した応答文の生成”,人工知能学会論文誌,vol. 30(1),pp. 183-194,2015年
または、発話決定部120内には、例えば、参考文献4に記載された「シナリオ対話システム」と呼ばれる対話システムのように、入力された発話のテキストが対話システム内に予め記憶されたシナリオの選択肢に対応する場合に、その選択肢に対応して予め記憶された発話のテキストを選択して出力する対話システムが備えられている。発話決定部120内に備えられた当該対話システムが、予め記憶しているテキストからユーザの発話に対する音声認識結果のテキストに少なくとも基づく発話のテキストを選択して出力する。
(参考文献4)有本庸浩,吉川雄一郎,石黒浩,“複数体のロボットによる音声認識なし対話の印象評価”,日本ロボット学会学術講演会,2016年
[音声合成部110]
音声合成部110は、発話決定部120から入力されたテキスト(発話t(2)のテキスト)に対する音声合成を行って(S4)合成音声データを得て、得られた合成音声データをロボットR1の提示部101−1またはロボットR2の提示部101−2に出力する。テキストと共に発話決定部120からテキストと当該テキストを発話するロボットを表す情報が入力された場合には、音声合成部110は当該情報に対応するロボットの提示部に対して合成音声データを出力する。
[提示部101−1、101−2]
提示部101−1、101−2は、音声合成部110から入力された合成音声データ(発話t(2)の合成音声データ)に対応する音声を再生する(S5)。これにより、ユーザはロボットR1またはR2の発話を受聴することになり、ユーザと対話システム100との対話が実現される。
[反応取得部160及び行動生成部170]
反応取得部160は、2番目の発話t(2)に対する人の反応を取得し(S6)、行動生成部170に出力する。
行動生成部170は、反応取得部160から入力された2番目の発話t(2)に対する人の反応を受け取り、その反応に基づき、発話t(2)がユーザの発話t(1)、すなわち、人の発話t(1)に対応するものか否かを判定する(S7)。
例えば、発話t(2)がユーザの発話t(1)に対応するものか否かを判定するために、行動生成部170は、ユーザの表情などの変化や、フィードバック発話(ため息や「ちがうって」のような発話など、意識的及び無意識的によらず、システム発話に対する印象を表出する発話)などを利用する。例として、表情の変化を利用するための方法を例示する。反応取得部160はカメラを含み、ユーザの顔の時系列の画像を取得する。取得した時系列の画像から特徴(例えば、瞳孔の大きさ、目尻の位置、目頭の位置、口角の位置、口の開き具合等)の変化を取得する。この特徴の変化が人の反応に相当する。対話システム100の利用に先立ち予め、対象者に対して破綻発話を聴取させ、その前後の特徴の変化を行動生成部170内の図示しない記憶部に記憶しておく。なお、対象者は特徴の変化のパターンを取得するための対象となるものを意味し、対話システム100のユーザでもよいし、他のものであってもよい。行動生成部170は、行動生成部170内の図示しない記憶部に記憶した特徴の変化と、S6で取得し反応取得部160から入力された人の反応(特徴の変化)との類似度を計算する。行動生成部170は、類似度と、行動生成部170内の図示しない記憶部に記憶した所定の閾値との大小関係に基づき、類似しているか否かを判断する。行動生成部170は、類似していると判断したときには、発話t(2)がユーザの発話t(1)に対応するものではないと判定する。例えば、類似度が高いほど類似していることを示す場合には、行動生成部170は、類似度が所定の閾値よりも大きいときに類似していると判断し、発話t(2)がユーザの発話t(1)に対応するものではないと判定する。また、フィードバック発話を利用する場合には、入力部102−1、102−2は、ユーザが発話したフィードバック発話の音声を収音して、収音された音声データを音声認識部140に出力する。音声認識部140は、入力部102−1、102−2が得た音声データ(フィードバック発話)の入力を受け付け、この音声データに対して音声認識を行い、認識結果のテキストを行動生成部170に出力する。行動生成部170は、フィードバック発話の認識結果のテキストが入力されると、例えば、参考文献5において用いられる方法を利用して、システム発話t(2)がユーザの発話t(1)に対応するものか否かを判定する。なお、参考文献5では、フィードバック発話の認識結果のテキストに含まれる単語のNgramや単語クラスの頻度、感情極性の正負とその大きさなどを利用して、システム発話t(2)がユーザの発話t(1)に対応するものか否かの評価値を推定する。例えば、行動生成部170は、この評価値と閾値との大小関係に基づき、システム発話t(2)がユーザの発話t(1)に対応するものか否かを判定する。
(参考文献5)水上雅博, et al. "快適度推定に基づく用例ベース対話システム", 人工知能学会論文誌, Vol. 31, No. 1, 2016.
以下、具体例に沿って、処理内容を説明する。
(具体例1、2の場合)
行動生成部170は、人の反応が、発話t(2)がユーザの発話t(1)、すなわち、人の発話t(1)に対応するものではないことを示す反応である場合に、発話t(2)がユーザの発話t(1)、すなわち、人の発話t(1)に対応するものではない旨を表出する行動の内容である行動内容を生成し、すなわち、決定し(S8)、行動部180に出力する。
人の反応が、発話t(2)がユーザの発話t(1)に対応するものではないことを示す反応ではない場合(言い換えると、人の反応が、発話t(2)がユーザの発話t(1)に対応するものであることを示す反応である場合)には、従来の対話システムを用いて対話を継続すればよい(例えば、非特許文献2参照)。ここでは、処理の説明を省略する。
人の反応が、発話t(2)がユーザの発話t(1)、すなわち、人の発話t(1)に対応するものではないことを示す反応である場合、行動部180は、行動生成部170が生成した行動内容を受け取り、行動内容の行動を行う(S9)。
行動内容は、行動の主体、行動の対象、行動自体等を示す内容である。ただし、対象を必要としない行動の場合には、行動の対象を省略してもよい。例えば、行動の主体として、本実施形態では、ロボットR1やロボットR2が考えられる。行動の対象としては、ロボットR1やロボットR2、ユーザ等が考えられる。行動自体としては、言語コミュニケーション(=発話)や非言語コミュニケーションが考えられる。言語コミュニケーションとは、言葉を使ったコミュニケーションの全てを対象とするのであって、必ずしも音声を伴っている必要はない。非言語コミュニケーションとは、言葉以外の手段によるコミュニケーションのことであり、例えば、顔の表情、顔色、視線、身振り、手振り、体の姿勢などである。
発話t(2)がユーザの発話t(1)、すなわち、人の発話t(1)に対応するものではない旨を表出する言語コミュニケーションとしては、例えば、Case1, Case2, Case4, Case5の発話t(3)の「何言ってるの??」、「何言ってんだろうねー」、「あれ?何か変なこと言った??」、「あれ?違いました?」等が考えられる(図1参照)。
発話t(2)がユーザの発話t(1)、すなわち、人の発話t(1)に対応するものではない旨を表出する非言語コミュニケーションとしては、例えば、Case3, Case6のt(3)のため息をつく動作や首を横に振る仕草等が考えられる。
なお、これらはあくまで例示であって、発話t(2)がユーザの発話t(1)、すなわち、人の発話t(1)に対応するものではない旨を表出する行動であれば、他の言語コミュニケーションや非言語コミュニケーションであってもよい。
例えば、Case1, Case2, Case4, Case5の場合には、行動生成部170は、発話決定部120に制御信号を出力し、以下の動作させることで、行動内容の生成を行う。行動部180は、音声合成部110に制御信号を出力し、以下の動作させることで、行動内容の行動を行う。
発話決定部120は、行動生成部170から制御信号を受け取り、Case1, Case2, Case4, Case5の何れかの発話t(3)のテキストを発話決定部120内に備えられた対話システムにより生成、または、発話決定部120内に備えられた対話システムが予め記憶しているテキストから選択して、音声合成部110に出力する。
音声合成部110は、行動部180から制御信号を受け取り、発話決定部120から出力された発話t(3)のテキストを入力とし、発話t(3)のテキストに対して音声合成を行い、合成音声データを得て、得られた合成音声データをロボットR1の提示部101−1(Case4, Case5のとき)またはロボットR2の提示部101−2(Case1, Case2のとき)に出力する。提示部101−1または提示部101−2は、音声合成部110から入力された、発話t(3)のテキストに対応する合成音声データを再生し、発話t(3)を提示する。
Case1, Case4では、さらに、発話決定部120は、Case1, Case4の何れかの発話t(4)のテキストを発話決定部120内に備えられた対話システムにより生成、または、発話決定部120内に備えられた対話システムが予め記憶しているテキストから選択して、音声合成部110に出力する。音声合成部110は、発話t(4)のテキストに対して音声合成を行い、合成音声データを得て、得られた合成音声データをロボットR1の提示部101−1(Case1のとき)またはロボットR2の提示部101−2(Case4のとき)に出力する。提示部101−1または提示部101−2では、音声合成部110から入力された、発話t(4)のテキストに対応する合成音声データを再生し、発話t(4)を提示する。
また、例えば、Case3の場合には、行動部180は、発話決定部120内に備えられた対話システムが予め記憶しているため息に対応する合成音声データを取り出し、ロボットR2の提示部101−2に出力する。提示部101−2では、ため息の合成音声データを再生し、非言語コミュニケーションt(3)(ため息をつく動作)を提示する。この場合、発話決定部120内に備えられた対話システムには、ため息に対応する合成音声データが記憶されているものとする。発話決定部120内に備えられた対話システムが予めため息に対応するテキストを記憶しており、発話決定部120は当該ため息に対応するテキストを選択して、音声合成部110に出力し、音声合成部110は、ため息に対応するテキストに対して音声合成を行い、合成音声データを得て、得られた合成音声データをロボットR2の提示部101−2に出力し、提示部101−2では、音声合成部110から入力されたため息の合成音声データに対応する音声を再生し、非言語コミュニケーションt(3)(ため息をつく動作)を提示する形態としてもよい。
また、例えば、Case6の場合には、行動部180は、図示しないモーター等に制御信号を出力し、ロボットR1の首を横に振る仕草を行わせ、非言語コミュニケーションt(3)(首を横に振る仕草)を提示する。この場合、ロボットR1には首を振る仕草を行うためのモータ等を設ける。
(具体例3の場合)
行動生成部170は、人の反応が、発話t(2)がユーザの発話t(1)、すなわち、人の発話t(1)に対応するものではないことを示す反応である場合に、発話t(2)とは異なる発話t(3)を生成し、すなわち、決定し(S8)、行動部180に出力する。
人の反応が、発話t(2)がユーザの発話t(1)、すなわち、人の発話t(1)に対応するものではないことを示す反応である場合、行動部180は、行動生成部170が生成した行動内容を受け取り、行動内容の行動を行う(S9)。
発話t(2)とは異なる発話t(3)としては、例えば、Case7, Case8のt(3)の発話「あ、そういえばこないだサファリパークに行ったら、ライオンが眠ってたよ」、「子役はかわいいですよね」等が考えられる(図1参照)。また、具体例2のCase4のt(4)の発話「その話じゃないよねえ。子役の話だよね」も発話t(2)とは異なる発話の一例と言える。
Case7の発話t(3)は、発話t(2)とは異なる発話であり、より具体的には、「あ、そういえば」という話題転換語(話題に転換する際に用いる語)が前置された、ロボットR1の発話t(2)「メスが狩りをするらしいですね」とは異なる発話である。Case7では、ロボットR2の発話t(3)に話題転換語を用いることで、ロボットR1の発話t(2)がユーザの発話t(1)「最近ライオンキング見に行ったら、子役の子たちがすごかったです」に対応するものではないことをユーザに示した上で、話題を変える(少なくともロボットR1の発話t(2)に関連しない話題に変える)ことをユーザに示す。これにより、ユーザは発話t(3)に対応する発話をすることで対話を継続することができる。
Case8の発話t(3)は、発話t(2)とは異なる発話であり、より具体的には、ロボットR1の発話t(2)「メスが狩りをするらしいですね」とは異なる発話であり、発話t(2)を発話したロボットR1とは異なるロボットであるロボットR2が行う発話である。Case8では、破綻発話をしたロボットR1とは異なるロボットR2に発話t(3)を発話させ、ユーザは発話t(3)に対応する発話をすることで対話を継続することができる。
Case4の発話t(4)は、発話t(2)とは異なる発話であり、より具体的には、ロボットR1の発話t(2)「メスが狩りをするらしいですね」とは異なる発話であり、ロボットR1が発話t(2)で対話を破綻させたこと、または、ロボットR1が破綻させた可能性をロボットR1が発話t(3)で表出した後に、ロボットR2が行う発話である。言い換えると、Case4では、発話t(2)とは異なる発話t(4)を提示するよりも、先に、発話t(2)がユーザの発話t(1)に対応するものではない旨を表出する発話t(3)を提示する。Case4では、破綻発話であることを明示された発話t(2)に対応するものではない発話t(4)に対応する発話をユーザがすることで対話を継続することができる。
例えば、Case7, Case8の場合には、行動生成部170は、発話決定部120に制御信号を出力し、以下の動作させることで、行動内容の生成を行う。行動部180は、音声合成部110と提示部101−1,101−2に以下の動作させることで、行動内容の行動を行う。
発話決定部120は、行動生成部170から制御信号を受け取り、Case7, Case8の何れかの発話t(3)に対応するテキストを発話決定部120内に備えられた対話システムにより生成、または、発話決定部120内に備えられた対話システムが予め記憶しているテキストから選択して、音声合成部110に出力する。
音声合成部110は、行動部180から制御信号を受け取り、発話決定部120から出力された発話t(3)のテキストを入力とし、発話t(3)に対応するテキストに対して音声合成を行い、合成音声データを得て、得られた合成音声データをロボットR2の提示部101−2に出力する。提示部101−2では、音声合成部110から入力された、発話t(3)のテキストに対応する合成音声データを再生し、発話t(3)を提示する。
以下では、発話t(2)とは異なる発話を決定する処理について説明する。
まず、発話t(2)とは異なる発話として、すなわち、Case7の発話t(3)やCase8の発話t(3)やCase4の発話t(4)として、ユーザの発話t(1)に対して適切であると推測される発話の複数個の候補のうち、発話t(2)とは異なる発話候補を決定する処理の例を説明する。
Case7の発話t(3)やCase8の発話t(3)やCase4の発話t(4)として、ユーザの発話t(1)に対して適切であると推測される発話の複数個の候補のうち、発話t(2)とは異なる発話候補を決定する処理とは、例えば、 Case7の発話t(3)やCase8の発話t(3)やCase4の発話t(4)として、ユーザの発話t(1)に対する発話として発話t(2)の次に適切であると推測される発話を決定する処理である。以降では、発話決定部120がCase8の発話t(3)を決定する処理を例に説明する。発話決定部120がCase7の発話t(3)やCase4の発話t(4)を決定する処理は、発話決定部120がCase8の発話t(3)を決定する処理と同様である。
この例では、発話決定部120は、ユーザの発話t(1)のテキストに対して、適切であると推測される発話のテキスト(発話候補テキスト)を複数個生成し、そのうちの1つの発話候補テキストを発話t(2)のテキストとして得る。例えば、発話決定部120は、生成した複数個の発話候補テキストの中で最も適切であると推測される発話候補テキストを発話t(2)のテキストとして得る。また、発話決定部120は、複数個の発話候補テキストのうちの、発話t(2)のテキストとは異なる1つの発話候補テキストをCase8の発話t(3)のテキストとする。例えば、発話決定部120は、複数個の発話候補テキスト中で発話t(2)のテキストの次に適切であると推測される発話候補テキストをCase8の発話t(3)のテキストとする。
このとき、発話t(2)のテキストとCase8の発話t(3)とが類似していると、発話t(2)のみならずCase8の発話t(3)のテキストも破綻発話となる可能性が高い。そこで、発話決定部120は、3個以上の発話候補テキストを生成した場合には、Case8の発話t(3)のテキストとして、生成した3個以上の発話候補テキストのうちの、発話t(2)のテキストを除く2個以上の発話候補テキストのうち、発話t(2)のテキストと類似度が低い発話候補テキストを優先的に選択する。言い換えると、発話決定部120は、3個以上の発話候補テキストを生成した場合には、Case8の発話t(3)のテキストとして、生成した3個以上の発話候補テキストのうちの、発話t(2)のテキストを除く2個以上の発話候補テキストのうち、発話t(2)のテキストとの類似度が最も高い発話候補テキスト以外の発話候補テキストを選択する。
発話t(2)のテキストと類似度が低い発話候補テキストをCase8の発話t(3)のテキストとして選択する処理は、例えば、以下のようにして実現する。発話決定部120は、まず、従来の対話システムを使って、ユーザの発話t(1)に対して適切であると推測される発話候補テキストを3個以上生成する。より適切であると推測される発話候補テキストから順にt1, t2, …と表現すると、発話決定部120は、3個以上の発話候補テキストt1, t2, …の中の1つの発話候補テキストを発話t(2)のテキストとして得る。例えば、発話決定部120は、最も適切であると推測される発話候補テキストt1を発話t(2)のテキストとする。発話決定部120は、次に、発話t(2)のテキストとして得られた発話候補テキストと、それ以外の発話候補テキストそれぞれとの類似度を計算する。例えば、発話決定部120は、最も適切であると推測される発話候補テキストt1を発話t(2)のテキストとした場合、発話候補テキストt1と発話候補テキストt2, t3, …それぞれとの類似度を計算する。例えば、発話t(2)のテキストとそれ以外の発話候補テキストの文そのものや単語を利用して、(a)word2vecを利用した話題語間の距離、(b)文全体の単語をword2vecにかけて平均を取った場合の文間距離、(c)単語のcos類似度などを求める。発話決定部120は、発話t(2)のテキストとして選ばれなかった複数個の発話候補テキストのうちの、発話t(2)のテキストとの類似度が最も高い発話候補テキスト以外の発話候補テキストを発話t(3)のテキストとして得る。このような方法により、Case8の発話t(3)は、従来の対話システムを使って生成された複数個の発話候補であって、かつ、発話t(2)に最も類似している発話候補ではない発話候補の中から選択される。
また、そもそも発話候補テキストt1, t2, …を生成する段階で、発話決定部120は、各発話候補テキストt1,t2,…がユーザの発話t(1)のテキストに対応するものであり、かつ、発話候補テキスト間の類似度が低くなるように、複数個の発話候補テキストを生成してもよい。発話決定部120をこのような構成とすることで、発話t(2)とCase8の発話t(3)とが、互いに類似しない発話となる。これは例えば、発話決定部120が発話の話題となる単語を選ぶ際に、ユーザの発話t(1)の話題との類似度が大きいもの、という指標に加え、複数の話題語間の類似度が小さいもの、という基準を同時に考慮し、そうして選ばれた話題語群から発話t(2)の発話候補テキストを生成することで実現できる。例えば、発話決定部120が、発話の話題となる単語のプール(種類)が全体で20個で、そのうちの5単語から対話システムの発話t(2)の発話候補テキストを生成する場合、選択された5つの話題語とユーザ話題との類似度の総和から、選択された5つの各話題語間(5C2=10通り)の類似度の総和を引く、という操作を行えばよい。なお、発話決定部120が雑談対話システムで発話候補テキストを生成する場合は、任意の単語から発話候補テキストを生成できるため、単語のプールが膨大なものとなり、そこから5つ選ぶ際の組み合わせ数もまた膨大となる。そのため、発話決定部120が上記単語のプールから選択する20個の単語を、ユーザ発話のテキストとの類似度が大きい20単語とし、そこから上記と同様の流れで計算する方法としてもよい。
さらに、このように決定したCase8の発話t(3)がユーザの発話t(1)に対応するものではない場合もあり得る。その場合には、発話決定部120は、Case8の発話t(3)の次のシステム発話として、発話t(2)のテキスト及びCase8の発話t(3)のテキストとの類似度が低い発話候補テキストを優先的に選択する。このようにして、破綻発話となりにくい、システム発話を実現することができる。
次に、発話t(2)とは異なる発話として、すなわち、Case7の発話t(3)やCase8の発話t(3)やCase4の発話t(4)として、発話t(2)とは異なる話題の発話を選択する処理の例を説明する。
発話決定部120内には、例えば、参考文献4に記載された「シナリオ対話システム」と呼ばれる対話システムのように、複数個の話題のそれぞれに対応するシナリオやそれぞれのシナリオに対応する複数個の発話のテキストが予め記憶されている。発話決定部120は、発話決定部120が選択した発話t(2)のテキストが含まれるシナリオとは異なる話題のシナリオに対応する発話のテキストを、Case7の発話t(3)やCase8の発話t(3)やCase4の発話t(4)として選択する。
なお、発話t(2)とは異なる発話として、すなわち、Case7の発話t(3)やCase8の発話t(3)やCase4の発話t(4)として、例えば、参考文献3に記載された「雑談対話システム」と呼ばれる対話システムなどにより、発話t(2)とは異なる話題の発話を生成してもよい。
なお、これらはあくまで例示であって、Case7のt(3)やCase8のt(3)やCase4のt(4)は、発話t(2)とは異なる行動であれば、他の言語コミュニケーションや非言語コミュニケーションであってもよい。
<効果>
このような構成により、ユーザにシステムが対話の内容を理解して対話している印象を与えることができる。
<変形例1>
第一実施形態では2台のロボットを含む対話システムについて説明した。しかし、上述したように発話決定部120が発話するロボットを決定しない形態などもある。そのため、対話システム100に必ずしも2台のロボットを必要としない形態がある。この形態とする場合には、対話システム100に含むロボットを1台としてもよい。また、上述したように発話決定部120が2台のロボットを発話するロボットとして決定する形態がある。この形態を対話システム100に3台以上のロボットを含む構成で動作させてもよい。
<変形例2>
対話システム100が複数台のロボットを含む構成において、どのロボットが発話しているのかをユーザが判別可能とされていれば、提示部の個数はロボットの個数と同一でなくてもよい。また、提示部はロボットに設置されていなくてもよい。どのロボットが発話しているのかをユーザが判別可能とする方法としては、合成する音声の声質をロボットごとに異ならせる、複数のスピーカを用いてロボットごとに定位を異ならせる、などの周知の技術を用いればよい。
<変形例3>
上述した実施形態では、エージェントとしてロボットを用いて音声による対話を行う例を説明したが、上述した実施形態のロボットは身体等を有する人型ロボットであっても、身体等を有さないロボットであってもよい。また、この発明の対話技術はこれらに限定されず、人型ロボットのように身体等の実体がなく、発声機構を備えないエージェントを用いて対話を行う形態とすることも可能である。そのような形態としては、例えば、コンピュータの画面上に表示されたエージェントを用いて対話を行う形態が挙げられる。より具体的には、「LINE」や「2ちゃんねる(登録商標)」のような、複数アカウントがテキストメッセージにより対話を行うグループチャットにおいて、ユーザのアカウントと対話装置のアカウントとが対話を行う形態に本対話システムを適用することも可能である。この形態では、エージェントを表示する画面を有するコンピュータは人の近傍にある必要があるが、当該コンピュータと対話装置とはインターネットなどのネットワークを介して接続されていてもよい。つまり、本対話システムは、人とロボットなどの話者同士が実際に向かい合って話す対話だけではなく、話者同士がネットワークを介してコミュニケーションを行う会話にも適用可能である。
変形例の対話装置は、図4に示すように、入力部102、発話決定部120、反応取得部160、行動生成部170、行動部180および提示部101を備える。発話決定部120は、外部に存在する情報処理装置と通信可能なインターフェースを備え、各部の一部または同様の機能を持つ処理部を対話装置外にある情報処理装置内に構成しても構わない。
変形例の対話装置は、例えば、スマートフォンやタブレットのようなモバイル端末、もしくはデスクトップ型やラップトップ型のパーソナルコンピュータなどの情報処理装置である。以下、対話装置がスマートフォンであるものとして説明する。反応取得部160はスマートフォンが備えるカメラを含み、ユーザの顔の時系列の画像を取得し、取得した時系列の画像から特徴の変化を取得する。提示部101はスマートフォンが備える液晶ディスプレイである。この液晶ディスプレイにはチャットアプリケーションのウィンドウが表示され、ウィンドウ内にはグループチャットの対話内容が時系列に表示される。グループチャットとは、チャットにおいて複数のアカウントが互いにテキストメッセージを投稿し合い対話を展開する機能である。このグループチャットには、対話装置が制御する仮想的な人格に対応する複数の仮想アカウントと、ユーザのアカウントとが参加しているものとする。すなわち、本変形例は、エージェントが、対話装置であるスマートフォンの液晶ディスプレイに表示された仮想アカウントである場合の一例である。ユーザはソフトウェアキーボードを用いて入力部102へ発話内容を入力し、自らのアカウントを通じてグループチャットへ投稿することができる。発話決定部120はユーザのアカウントからの投稿を発話決定部120内に備えられている雑談対話システムまたはシナリオ対話システムへ入力し、各対話システムから得た発話内容を、各仮想アカウントを通じてグループチャットへ投稿する。なお、変形例の対話装置は、音声合成部を含まない。そのため、発話決定部120は、行動生成部170と行動部180とから制御信号を受け取り、発話決定部120内に備えられた対話システムにより生成、または、発話決定部120内に備えられた対話システムが予め記憶しているテキストから選択して、提示部101に出力する。提示部101は、発話決定部120から入力された発話のテキストを表示し、発話を提示する。
なお、スマートフォンに搭載されたマイクロホンと音声認識機能を用い、ユーザが発声により入力部102へ発話内容を入力する構成としてもよい。また、スマートフォンに搭載されたスピーカと音声合成機能を用い、各対話システムから得た発話内容を、各仮想アカウントに対応する音声でスピーカから出力する構成としてもよい。
なお、エージェントの発話が提示部101(ディスプレイ)に同時に表示されると、ユーザが違和感を感じる可能性があるため、順次表示することが望ましい。
<その他の変形例>
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、提示部が提示する発話順以外の上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
<プログラム及び記録媒体>
また、上記の実施形態及び変形例1、2で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。また、上記変形例3で説明した対話システムにおける各種の処理機能をコンピュータによって実現してもよい。その場合、対話システムが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶部に格納する。そして、処理の実行時、このコンピュータは、自己の記憶部に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実施形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよい。さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (11)

  1. 対話システムが行う対話方法であって、
    前記対話システムは、第1エージェントと第2エージェントとを含み、
    前記対話システムが、人の発話の入力を受け付ける発話受付ステップと、
    前記対話システムが、前記人の発話に対する発話である第1発話を決定する第1発話決定ステップと、
    前記第1発話を前記第1エージェントが提示する第1発話提示ステップと、
    前記対話システムが、前記第1発話に対する前記人の反応を取得する反応取得ステップと、
    前記対話システムが、前記人の反応が、前記第1発話が前記人の発話に対応するものではないことを示す反応である場合に、前記第1発話とは異なる発話である第2発話を決定する第2発話決定ステップと、
    前記第2発話を前記第2エージェントが提示する第2発話提示ステップと、を含み、
    前記第2発話は、(A)前記第1発話が、対話を破綻させたこと、又は、破綻させた可能性を明言するもの、または、(B)話題転換語を伴うものであり、前記第1発話ではない、前記人の発話に関するものである、
    対話方法。
  2. 請求項1の対話方法であって、
    前記第2発話決定ステップでは、話題転換語を前置した、前記第1発話とは異なる発話を、第2発話として決定する、
    対話方法。
  3. 請求項1の対話方法であって、
    前記第1発話決定ステップでは、前記人の発話に対する発話の候補である候補発話を複数個生成し、前記複数個の候補発話のうちの1つの候補発話を前記第1発話として得、
    前記第2発話決定ステップでは、前記第2発話として、前記第1発話決定ステップで生成した複数個の候補発話のうちの、前記第1発話とは異なる1つの候補発話を前記第2発話として得る、
    対話方法。
  4. 請求項3の対話方法であって、
    前記第1発話決定ステップでは、候補発話を3個以上生成し、
    前記第2発話決定ステップでは、前記第1発話決定ステップで生成した候補発話のうちの、前記第1発話とは異なる複数個の候補発話のうちの、前記第1発話との類似度が最も高い候補発話以外の候補発話を前記第2発話として得る、
    対話方法。
  5. 請求項3の対話方法であって、
    前記第1発話決定ステップでは、前記各候補発話が前記人の発話に対応するものであり、かつ、前記候補発話間の類似度が低くなるように、前記複数個の候補発話を生成する、
    対話方法。
  6. 請求項1または2の対話方法であって、
    前記第2発話決定ステップでは、前記第1発話とは異なる話題の発話を第2発話として決定する
    対話方法。
  7. 請求項1から6の何れかの対話方法であって、
    前記対話システムが、前記人の反応が、前記第1発話が前記人の発話に対応するものではないことを示す反応である場合に、前記第1発話が前記人の発話に対応するものではない旨を表出する行動の内容である行動内容を決定する行動決定ステップと、
    前記対話システムが、前記第2発話提示ステップより先に前記行動内容の行動を行う行動ステップと、を更に含む、
    対話方法。
  8. 人の発話の入力を受け付ける発話受付部と、
    前記人の発話に対する発話である第1発話を決定する第1発話決定部と、
    前記第1発話を提示する第1エージェントと、
    前記第1発話に対する前記人の反応を取得する反応取得部と、
    前記人の反応が、前記第1発話が前記人の発話に対応するものではないことを示す反応である場合に、前記第1発話とは異なる発話である第2発話を決定する第2発話決定部と、
    前記第2発話を提示する第2エージェントと、を含み、
    前記第2発話は、(A)前記第1発話が、対話を破綻させたこと、又は、破綻させた可能性を明言するもの、または、(B)話題転換語を伴うものであり、前記第1発話ではない、前記人の発話に関するものである、
    対話システム。
  9. 入力された人の発話に対する発話であり、第1エージェントが提示する発話である、第1発話を決定する第1発話決定部と、
    前記第1発話に対する前記人の反応が、前記第1発話が前記人の発話に対応するものではないことを示す反応である場合に、前記第1発話とは異なる発話であり、第2エージェントが提示する発話である、第2発話を決定する第2発話決定部と、を含み、
    前記第2発話は、(A)前記第1発話が、対話を破綻させたこと、又は、破綻させた可能性を明言するもの、または、(B)話題転換語を伴うものであり、前記第1発話ではない、前記人の発話に関するものである、
    対話装置。
  10. 請求項8の対話システムとしてコンピュータを機能させるためのプログラム。
  11. 請求項9の対話装置としてコンピュータを機能させるためのプログラム。
JP2018518373A 2016-05-20 2017-05-19 対話方法、対話システム、対話装置、及びプログラム Active JP6719739B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2016101219 2016-05-20
JP2016101219 2016-05-20
PCT/JP2017/018789 WO2017200074A1 (ja) 2016-05-20 2017-05-19 対話方法、対話システム、対話装置、及びプログラム

Publications (2)

Publication Number Publication Date
JPWO2017200074A1 JPWO2017200074A1 (ja) 2019-03-07
JP6719739B2 true JP6719739B2 (ja) 2020-07-08

Family

ID=60325925

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018518373A Active JP6719739B2 (ja) 2016-05-20 2017-05-19 対話方法、対話システム、対話装置、及びプログラム

Country Status (3)

Country Link
US (1) US11183187B2 (ja)
JP (1) JP6719739B2 (ja)
WO (1) WO2017200074A1 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11232789B2 (en) * 2016-05-20 2022-01-25 Nippon Telegraph And Telephone Corporation Dialogue establishing utterances without content words
US10872609B2 (en) * 2016-05-20 2020-12-22 Nippon Telegraph And Telephone Corporation Method, apparatus, and program of dialog presentation steps for agents
WO2018003196A1 (ja) * 2016-06-27 2018-01-04 ソニー株式会社 情報処理システム、記憶媒体、および情報処理方法
JP6729424B2 (ja) * 2017-01-30 2020-07-22 富士通株式会社 機器、出力装置、出力方法および出力プログラム
CN108388926B (zh) * 2018-03-15 2019-07-30 百度在线网络技术(北京)有限公司 语音交互满意度的确定方法及设备
JP7142315B2 (ja) * 2018-09-27 2022-09-27 パナソニックIpマネジメント株式会社 説明支援装置および説明支援方法
US11580970B2 (en) * 2019-04-05 2023-02-14 Samsung Electronics Co., Ltd. System and method for context-enriched attentive memory network with global and local encoding for dialogue breakdown detection
US11573995B2 (en) * 2019-09-10 2023-02-07 International Business Machines Corporation Analyzing the tone of textual data
US11928611B2 (en) 2019-11-18 2024-03-12 International Business Machines Corporation Conversational interchange optimization
CN111224863B (zh) * 2019-12-10 2021-06-22 平安国际智慧城市科技股份有限公司 会话任务生成方法、装置、计算机设备和存储介质
US11783824B1 (en) * 2021-01-18 2023-10-10 Amazon Technologies, Inc. Cross-assistant command processing
CN112906381B (zh) * 2021-02-02 2024-05-28 北京有竹居网络技术有限公司 对话归属的识别方法、装置、可读介质和电子设备
WO2024127956A1 (ja) * 2022-12-12 2024-06-20 国立大学法人大阪大学 対話システム、制御プログラムおよび制御方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0543329B1 (en) * 1991-11-18 2002-02-06 Kabushiki Kaisha Toshiba Speech dialogue system for facilitating human-computer interaction
US6556970B1 (en) * 1999-01-28 2003-04-29 Denso Corporation Apparatus for determining appropriate series of words carrying information to be recognized
US7162422B1 (en) * 2000-09-29 2007-01-09 Intel Corporation Apparatus and method for using user context information to improve N-best processing in the presence of speech recognition uncertainty
US6922670B2 (en) * 2000-10-24 2005-07-26 Sanyo Electric Co., Ltd. User support apparatus and system using agents
JP2003205483A (ja) * 2001-11-07 2003-07-22 Sony Corp ロボットシステム及びロボット装置の制御方法
JP2009037050A (ja) * 2007-08-02 2009-02-19 Toyota Motor Corp 対話装置と対話用プログラム
JP2009131928A (ja) * 2007-11-30 2009-06-18 Olympus Corp ロボット制御システム、ロボット、プログラム及び情報記憶媒体
WO2013155619A1 (en) * 2012-04-20 2013-10-24 Sam Pasupalak Conversational agent
US9904360B2 (en) * 2013-11-15 2018-02-27 Kopin Corporation Head tracking based gesture control techniques for head mounted displays

Also Published As

Publication number Publication date
US20190294638A1 (en) 2019-09-26
US11183187B2 (en) 2021-11-23
JPWO2017200074A1 (ja) 2019-03-07
WO2017200074A1 (ja) 2017-11-23

Similar Documents

Publication Publication Date Title
JP6719739B2 (ja) 対話方法、対話システム、対話装置、及びプログラム
JP6818280B2 (ja) 対話システム、対話方法、対話装置、およびプログラム
US20200279553A1 (en) Linguistic style matching agent
JP6719741B2 (ja) 対話方法、対話装置、及びプログラム
JP6970413B2 (ja) 対話方法、対話システム、対話装置、およびプログラム
JP6842095B2 (ja) 対話方法、対話システム、対話装置、およびプログラム
US11354517B2 (en) Dialogue method, dialogue system, dialogue apparatus and program
Aneja et al. Understanding conversational and expressive style in a multimodal embodied conversational agent
JP6682104B2 (ja) 対話方法、対話システム、対話装置、およびプログラム
JPWO2017200078A1 (ja) 対話方法、対話システム、対話装置、およびプログラム
Mubin et al. You just do not understand me! Speech Recognition in Human Robot Interaction
JP6551793B2 (ja) 対話方法、対話システム、対話装置、およびプログラム
JP6647636B2 (ja) 対話方法、対話システム、対話装置、及びプログラム
JP6601625B2 (ja) 対話方法、対話システム、対話装置、およびプログラム
JP6755509B2 (ja) 対話方法、対話システム、対話シナリオ生成方法、対話シナリオ生成装置、及びプログラム
JP6610965B2 (ja) 対話方法、対話システム、対話装置、およびプログラム
KR20230075593A (ko) 가상현실 및 음성인식 기반의 실감 어학학습 콘텐츠 제공 장치 및 방법

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181109

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181109

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20181109

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200121

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200219

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200526

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200602

R150 Certificate of patent or registration of utility model

Ref document number: 6719739

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250