JP7044167B2 - 対話装置、対話方法及び対話プログラム - Google Patents

対話装置、対話方法及び対話プログラム Download PDF

Info

Publication number
JP7044167B2
JP7044167B2 JP2020547883A JP2020547883A JP7044167B2 JP 7044167 B2 JP7044167 B2 JP 7044167B2 JP 2020547883 A JP2020547883 A JP 2020547883A JP 2020547883 A JP2020547883 A JP 2020547883A JP 7044167 B2 JP7044167 B2 JP 7044167B2
Authority
JP
Japan
Prior art keywords
dialogue
user
keyword
unit
storage area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020547883A
Other languages
English (en)
Other versions
JPWO2020066019A1 (ja
Inventor
恵 多比良
岳 今井
直之 沢崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JPWO2020066019A1 publication Critical patent/JPWO2020066019A1/ja
Application granted granted Critical
Publication of JP7044167B2 publication Critical patent/JP7044167B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/083Recognition networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Description

本発明は、対話装置、対話方法及び対話プログラムに関する。
従来、ユーザと音声又はテキストを用いて対話を行う対話システムが知られている。対話システムには、音声スピーカ、コミュニケーションロボット、チャットボット等がある。また、対話システムに、人間同士のような自然な対話をさせるための技術が提案されている。
例えば、複数のユーザが参加するチャットシステムにおいて、キーワードの出現状況により会話状況を推定した結果を可視化する技術が知られている。また、例えば、話者及びシステムの感情を、テキストや韻律を基に判定し、判定した結果に基づきシステムの応答パターンを選択する技術が知られている。また、例えば、ゲームの参加者の会話に出現するキーワードを基に、ゲームの進行状況を把握し、把握した進行状況に応じた発話を行うロボットが知られている。
特開2002-229919号公報 特開2010-128281号公報 特開2004-310034号公報
しかしながら、上記の技術では、対話の継続性を高めることが難しい場合がある。ここで、人間同士の雑談は、進行中の話題から他の話題へ自然に遷移することにより長時間継続することがある。これに対し、上記の対話システムは、進行中の話題と無関係のものに話題を遷移する機能を有していないため、ユーザが対話に飽き、対話が長時間継続しない場合がある。
一つの側面では、対話の継続性を高めることができる対話装置、対話方法及び対話プログラムを提供することを目的とする。
一つの態様において、対話装置は、ユーザと対話装置との間でユーザから発話された内容を基に、対話状態を推定する。対話装置は、推定した対話状態に対応したストラテジーを取得し、取得したストラテジーに基づいてユーザと対話装置との対話において、対話装置が発話する発話内容を選択する。対話装置は、選択した発話内容でユーザに対して発話する。
一つの態様によれば、対話の継続性を高めることができる。
図1は、実施例1にかかる対話装置の機能構成を示す機能ブロック図である。 図2は、対話ブロックDBに記憶される対話ブロックの例を示す図である。 図3は、対話状態の遷移を説明する図である。 図4は、ブロック選択処理を説明する図である。 図5は、ユーザの発話に対する処理の流れを示すフローチャートである。 図6は、ユーザの反応に対する処理の流れを示すフローチャートである。 図7は、キーワード追加処理の流れを示すフローチャートである。 図8は、発話の出力処理の流れを示すフローチャートである。 図9は、対話状態推定処理の流れを示すフローチャートである。 図10は、ハードウェア構成例を説明する図である。
以下に、本発明にかかる対話装置、対話方法及び対話プログラムの実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。また、各実施例は、矛盾のない範囲内で適宜組み合わせることができる。
実施例1に係る対話装置は、ユーザから音声又はテキスト等の入力を受け付ける。また、対話装置は、入力に応じて発話を生成し、生成した発話をユーザに対して音声又はテキスト等により出力する。これにより、対話装置は、ユーザとの対話を行う。
ここで、対話装置は、ユーザとの対話の状況を考慮し、進行中の話題を継続するか、又は新しい話題を提案するかを選択することができる。これにより、対話装置は、ユーザが対話に飽きることを防止し、対話を長時間継続させることを実現する。また、例えば、対話装置は、音声スピーカ、コミュニケーションロボット、チャットボット、サービスロボット等であってよい。
[機能構成]
図1は、実施例1にかかる対話装置の機能構成を示す機能ブロック図である。図1に示すように、対話装置10は、通信部11、記憶部12及び制御部13を有する。また、対話装置10は、入力装置20及び出力装置30と接続されている。
入力装置20は、ユーザが音声又はテキスト等の情報を入力するための装置である。例えば、入力装置20は、マイクロフォン、キーボード及びタッチパネルディスプレイ等である。また、入力装置20は、ユーザに関する情報を取得するためのセンサを備えていてもよい。例えば、入力装置20は、カメラ、温度計、加速度センサ等を備えていてもよい。
出力装置30は、ユーザに対して発話を出力するための装置である。出力装置30は、発話を音声により出力してもよいし、テキストにより出力してもよい。例えば、出力装置30は、スピーカ及びディスプレイ等である。
通信部11は、他の装置との間でデータの通信を行うためのインタフェースである。例えば、通信部11はNIC(Network Interface Card)であり、インターネットを介してデータの通信を行う。
記憶部12は、データや制御部13が実行するプログラム等を記憶する記憶装置の一例であり、例えばハードディスクやメモリ等である。記憶部12は、キーワード記憶領域121及び対話ブロックDB122を有する。
キーワード記憶領域121は、キーワードを記憶する記憶領域の一例である。対話装置10の各処理部は、キーワード記憶領域121へのキーワードの追加、キーワード記憶領域121に記憶されたキーワードの参照、キーワード記憶領域121に記憶されたキーワードの削除を行う。例えば、キーワード記憶領域121は、各キーワードが所定の記号で区切られた文字列を記憶してもよいし、キーワードを要素とする配列を記憶してもよい。
対話ブロックDB122は、発話の内容をあらかじめ定義した情報である対話ブロックを記憶する。ここで、対話ブロックDB122に記憶される対話ブロックは、Webサイト等のICT(Information and Communication Technology)サービスから自動的に収集したコンテンツを基に生成されたものであってもよい。なお、対話装置10は、対話ブロックDB122に記憶された対話ブロックのいずれかを選択し、選択した対話ブロックを基に生成した発話を出力することができる。
図2は、対話ブロックDBに記憶される対話ブロックの例を示す図である。図2のテーブルの各レコードが対話ブロックである。図2に示すように、対話ブロックは、「ブロックID」、「発話内容」、「ジャンル」、「トレンド」等の項目を含む。
「ブロックID」は、対話ブロックを識別するためのIDである。「発話内容」は、生成される発話そのもの、又は発話の生成に用いられる情報である。「ジャンル」は、対話ブロックが分類されるジャンルである。「トレンド」は、対話ブロックの生成の際に参照されたコンテンツの流行の状況である。
図2の例では、ブロックIDが「A001」である対話ブロックの発話内容が「バスケットボールリーグのA氏が…注意した」であり、ジャンルが「バスケットボール」であることが示されている。また、図3の例では、ブロックIDが「A050」である対話ブロックの発話内容が「桜は来週末が見ごろ」であり、ジャンルが「花見」であり、基となったコンテンツが、閲覧回数が3位のニュースであることが示されている。
対話ブロックの項目は、図2に示すものに限られない。例えば、対話ブロックは、当該対話ブロックの生成の際に参照されたコンテンツを提供するサービス、当該対話ブロックが発話の生成に使用されるための条件等を示す情報を含んでいてもよい。
制御部13は、対話装置10全体の処理を司る処理部であり、例えばプロセッサ等である。この制御部13は、入力部131、解釈部132、読込部133、生成部134、出力部135及びブロック選択部150を有する。
入力部131は、入力装置20を介して、ユーザの発話の入力を受け付ける。また、入力部131に入力される発話には、ユーザに対して出力された発話に対するユーザの反応が含まれる。
解釈部132は、入力部131に入力された発話の解釈を行う。例えば、解釈部132は、公知の音声認識技術を用いて音声として入力された発話を解析する。また、解釈部132は、テキストに対して形態素解析を行い、キーワードの抽出や意味の解釈を行うことができる。
さらに、解釈部132は、ユーザの反応が肯定的なものであるか否定的なものであるかを判定する。つまり、解釈部132は、ユーザの反応がポジティブなものであるかネガティブなものであるかを判定する。
例えば、解釈部132は、ユーザの反応に「はい」及び「いいね」等の賛成の意味の単語が含まれている場合、当該反応がポジティブなものであると判定する。また、例えば、解釈部132は、ユーザの反応に「いいえ」及び「興味ない」等の反対の意味の単語が含まれている場合や、ユーザの反応が相槌だけである場合、当該反応がネガティブなものであると判定する。
さらに、解釈部132は、入力装置20が備えるセンサによって取得された情報から、ユーザの反応がポジティブなものであるかネガティブなものであるかを判定してもよい。例えば、解釈部132は、カメラで撮影されたユーザの顔の表情や、マイクロフォンで収集されたユーザの声色を基に、ユーザがポジティブな反応をしたか否かを判定することができる。
読込部133は、対話ブロックDB122から、対話ブロックを読み込む。また、読込部133は、読み込んだ対話ブロックをブロック選択部150又は生成部134へ受け渡す。また、読込部133は、ブロック選択部150によって指定された条件に合致する対話ブロックを読み込むことができる。
ブロック選択部150は、推定した対話状態に対応したストラテジーを取得し、取得したストラテジーに基づいてユーザと対話装置との対話において、対話装置が発話する発話内容を選択する。ブロック選択部150は、選択部の一例である。
ブロック選択部150は、対話ブロックDB122から対話ブロックを選択する。ブロック選択部150は、選択する対話ブロックを特定するための条件を読込部133に指定することができる。ブロック選択部150が対話ブロックを選択する手順は後述する。
生成部134は、ブロック選択部150により選択された対話ブロックから発話を生成する。ここで、生成部134が生成する発話は、ユーザが解釈可能な文章である。なお、選択された対話ブロックに発話用の文章が含まれている場合、生成部134は、当該文章をそのまま発話としてもよい。
出力部135は、生成部134によって生成された発話を、出力装置30を介してユーザに対して出力する。このとき、出力部135は、発話を音声として出力してもよいし、テキストとして出力してもよい。なお、生成部134及び出力部135は、発話部の一例である。つまり、生成部134及び出力部135は、ブロック選択部150によって選択された発話内容でユーザに対して発話する。
ここで、ブロック選択部150による対話ブロックの選択処理について説明する。図1に示すように、ブロック選択部150は、蓄積部151、推定部152、評価部153及び選択部154を有する。
蓄積部151は、解釈部132によって解釈された発話を基に、キーワード追加処理を行う。蓄積部151は、ユーザと対話装置10による対話において出現したキーワードであって、キーワード記憶領域121に蓄積済みでないキーワードをキーワード記憶領域121に蓄積する。つまり、蓄積部151は、蓄積済みのキーワードをキーワード記憶領域121に追加しない。
蓄積部151は、ユーザに対する対話装置10からの発話のうち、ユーザがポジティブな反応をした発話に含まれるキーワードをキーワード記憶領域121に蓄積する。逆に、蓄積部151は、ユーザに対する対話装置10からの発話のうち、ユーザがネガティブな反応をした発話に含まれるキーワードをキーワード記憶領域121に追加しない。
蓄積部151は、キーワード記憶領域121に追加するキーワードが、蓄積済みのキーワード群と類似しない場合、当該蓄積済みのキーワード群を削除した上でキーワードの追加を行う。
推定部152は、ユーザと対話装置10との間でユーザから発話された内容を基に、対話状態を推定する。推定部152は、キーワード記憶領域121にキーワードが新たに追加されたか否か、及び、追加されたキーワードがキーワード記憶領域121に蓄積済みのキーワードと類似していたか否か、により対話状態を推定する。
推定部152は、対話状態が、「新規話題開始」、「発散」、「収束」、「話題なし」のうちのいずれであるかを推定する。「新規話題開始」は、新たな話題に関する対話が開始された状態である。また、「発散」は、既存の話題に関する対話がさらに続いている状態であって、話が広がっている状態である。また、「収束」は、既存の話題に関する対話がさらに続いている状態であって、話が広がっていない状態である。「話題なし」は、対話が進行中の話題が存在しない状態である。
ここで、対話装置10による1回の発話とユーザによる1回の発話とのセットを1往復の対話とする。例えば、1往復の対話が行われるたびに、対話状態の遷移が発生する。対話状態の遷移は、図3のように表される。図3は、対話状態の遷移を説明する図である。
図3に示すように、「新規話題開始」は、「発散」、「収束」、「話題なし」のいずれかの状態に遷移する。また、「発散」は、「収束」又は「新規話題開始」のいずれかの状態に遷移する。また、「発散」は、「収束」又は「新規話題開始」のいずれかの状態に遷移する。また、各対話状態は、遷移せずに、同一の状態のままである場合がある。
推定部152は、蓄積部151によるキーワード追加処理の内容を基に、対話状態を推定する。推定部152は、蓄積済みのキーワードと非類似のキーワードが追加された場合、対話状態を「新規話題開始」と推定する。また、推定部152は、蓄積済みのキーワードと類似のキーワードが追加された場合、対話状態を「発散」と推定する。また、推定部152は、キーワードが追加されなかった場合、対話状態を「収束」と推定する。また、推定部152は、対話が途切れた場合、対話状態を「話題なし」と推定する。
具体的には、まず、蓄積部151によって、蓄積済みのキーワード群の削除が行われた場合、推定部1152は、対話状態を「新規話題開始」と推定する。次に、蓄積部151によって、蓄積済みのキーワード群の削除が行われず、キーワードの追加が行われた場合、推定部1152は、対話状態を「発散」と推定する。さらに、蓄積部151によって、蓄積済みのキーワード群の削除及びキーワードの追加のいずれも行われなかった場合、推定部1152は、対話状態を「収束」と推定する。ただし、推定部152は、所定の回数連続して対話状態を「収束」と推定した場合、対話状態を「話題なし」と推定する。
選択部154は、対話状態を基に、ユーザとの対話において、既存の話題を継続するか、又は、新規の話題を提案するかを選択する。推定部152によって推定された対話状態が「新規話題開始」及び「発散」のいずれかであった場合、選択部154は、既存の話題を継続することを選択する。一方、推定部152によって推定された対話状態が「収束」及び「話題なし」のいずれかであった場合、選択部154は、新規の話題を提案することを選択する。
選択部154は、既存の話題を継続することを選択した場合、話題継続系のストラテジーを選択する。また、新規の話題を提案することを選択した場合、話題提案系のストラテジーを選択する。ここで、ストラテジーとは、対話ブロックを選択するための方針である。また、各ストラテジーごとに所定のロジックが設定されているものとする。
評価部153は、前記取得したストラテジーに基づいて、発話内容をあらかじめ定義した情報である対話ブロックを評価する。評価部153は、選択部154によって選択されたストラテジーに従って評価を行う。また、生成部134は、評価部153による評価に基づいて選択された対話ブロックから、ユーザに対して出力する発話を生成する。
ここで、例えば、話題継続系のストラテジーとして、「キーワード一致」、「関連語検索」、「第2語検索」及び「ユーザ辞書」がある。「キーワード一致」は、蓄積済みのキーワードと一致するワードを含む対話ブロックを高く評価するストラテジーである。また、「関連語検索」は、Wikipedia等の事典提供サービスにおいて、蓄積済みのキーワードと同時に参照されているキーワードを含む対話ブロックを高く評価するストラテジーである。また、「第2語検索」は、検索エンジンに蓄積済みのキーワードを入力したときに同時に検索されるキーワードを含む対話ブロックを高く評価するストラテジーである。また、「ユーザ辞書」は、ユーザごとにあらかじめ作成されたキーワード間の指向性の辞書に基づき、蓄積済みのキーワードと関連性が高いキーワードを含む対話ブロックを高く評価するストラテジーである。
また、例えば、話題提案系のストラテジーには、「ユーザ嗜好」及び「トレンド」がある。「ユーザ嗜好」は、あらかじめ設定されたユーザの嗜好を基に対話ブロックを評価するストラテジーである。また、「トレンド」は、SNS(Social Networking Service)や検索サイト等で人気の検索ワードを含む対話ブロックを高く評価するストラテジーである。このように、話題提案系のストラテジーは、いずれも蓄積済みのキーワードと無関係に対話ブロックを評価するストラテジーである。
また、図2に示すように、対話ブロックDB122においてあらかじめジャンルを設定しておき、話題継続系のストラテジーでは、同一のジャンルの対話ブロックの評価が高くなるようにしてもよい。また、対話ブロックDB122においてあらかじめトレンドの順位を設定しておき、順位が高い方が対話ブロックの評価が高くなるようにしてもよい。
また、話題継続系又は話題提案系のそれぞれに複数のストラテジーがある場合、選択部154は、ランダムにストラテジーを選択してもよいし、ユーザの嗜好を学習した結果を基にストラテジーを選択してもよい。
図4を用いて、推定部152による対話ブロックの選択処理を具体的に説明する。図4は、ブロック選択処理を説明する図である。図4の例では、対話装置10をロボットと呼ぶ。「発話内容」は、対話装置10に入力された発話及び対話装置10が出力した発話の内容である。
「種別」は、解釈部132による解釈の結果である。まず、解釈部132は、ユーザの発話が「ポジティブな反応」又は「ネガティブな反応」のいずれかに当てはまるかを判定し、いずれにも当てはまらない対話を「発言」と解釈する。
「キーワード追加処理」は、蓄積部151によるキーワード追加処理の内容である。「キーワード追加処理」は、キーワードが追加されたか否か、及び蓄積済みのキーワード群の削除が行われたか否かによって決定される。なお、リセットとは、蓄積済みのキーワード群の削除である。
図4のNo.1及びNo.2の対話に示すように、まず、対話装置10は、「バスケットボールリーグのA氏が選手の休養について○○チームに注意したってニュースになっていたよ。」という発話を出力した。これに対し、ユーザは、「あー。B選手とかよく休んでるもんね。」という発話を入力した。
そして、解釈部132は、ユーザの発話を「発言」と解釈した。このとき、蓄積部151は、キーワード記憶領域121をリセットしてキーワードを追加した。この場合。推定部152は、対話状態を「新規話題追加」と推定する。なお、図4のNo.1及びNo.2の対話から、蓄積部151は、「バスケットボールリーグ」、「A氏」、「○○チーム」、「B選手」をキーワードとして追加する。
また、推定部152によって推定された状態が「新規話題追加」であったため、選択部154は、話題継続系のストラテジーを選択する。このとき、図4のNo.3に示すように、対話装置10は、バスケットボールの話題の対話ブロックから生成された発話を出力する。
続いて、図4のNo.3及びNo.4の対話に示すように、対話装置10は、「最近では××チーム対△△チーム戦でC選手が休養というニュースもあったね。」という発話を出力した。これに対し、ユーザは、「あれはよくなかったよね!」という発話を入力した。
そして、解釈部132は、ユーザの発話を「ポジティブな反応」と解釈した。このとき、蓄積部151は、キーワード記憶領域121をリセットせずにキーワードを追加した。この場合。推定部152は、対話状態を「発散」と推定する。なお、図4のNo.3及びNo.4の対話から、蓄積部151は、「××チーム」、「△△チーム」、「C選手」をキーワードとして追加する。
また、推定部152によって推定された状態が「発散」であったため、選択部154は、話題継続系のストラテジーを選択する。このとき、図4のNo.5に示すように、対話装置10は、バスケットボールの話題に関連する対話ブロックから生成された発話を出力する。
また、図4のNo.5及びNo.6の対話に示すように、対話装置10は、「△△チームもプレーオフ進出が決まったね。」という発話を出力した。これに対し、ユーザは、「ふーん。」という発話を入力した。
そして、解釈部132は、ユーザの発話を「ネガティブな反応」と解釈した。このとき、蓄積部151は、キーワード記憶領域121にキーワードを追加しなかった。この場合。推定部152は、対話状態を「収束」と推定する。さらに、図4のNo.5及びNo.6の対話に対しても、推定部152は対話状態を「収束」と判定する。
ここで、推定部152によって推定された状態が連続して「収束」であったため、選択部154は、話題提案系のストラテジーを選択する。このとき、図4のNo.9に示すように、対話装置10は、バスケットボールの話題を中止し、花見に関連する対話ブロックから生成された発話を出力する。
[処理の流れ]
(ユーザの発話に対する処理の流れ)
図5を用いて、ユーザの発話に対する対話装置10の処理の流れを説明する。図5は、ユーザの発話に対する処理の流れを示すフローチャートである。図5に示すように、まず、対話装置10は、ユーザの発話の入力を受け付ける(ステップS11)。次に、対話装置10は、入力されたユーザの発話の内容を解釈する(ステップS12)。そして、対話装置10は、キーワード追加処理を実行する(ステップS13)。
(ユーザの反応に対する処理の流れ)
図6を用いて、ユーザの反応に対する対話装置10の処理の流れを説明する。図6は、ユーザの反応に対する処理の流れを示すフローチャートである。図6に示すように、まず、対話装置10は、ユーザに対して発話を出力する(ステップS21)。次に、対話装置10は、ユーザの反応の入力を受け付ける(ステップS22)。そして、対話装置10は、ユーザの反応がポジティブであるか否かを判定する(ステップS23)。
ここで、対話装置10は、ユーザの反応がポジティブでないと判定した場合(ステップS23、No)、キーワード追加処理を実行せずに処理を終了する。一方、対話装置10は、ユーザの反応がポジティブであると判定した場合(ステップS23、Yes)、キーワード追加処理を実行する(ステップS24)。
(キーワード追加処理の流れ)
図7を用いて、キーワード追加処理の流れを説明する。図7は、キーワード追加処理の流れを示すフローチャートである。なお、キーワード追加処理は、図5のステップS13及び図6のステップS24に対応する処理である。
図7に示すように、まず、対話装置10は、対象のキーワードと一致するキーワードが蓄積キーワード群にあるか否かを判定する(ステップS25)。ここで、対象のキーワードは、対話に含まれるキーワードである。また、蓄積キーワード群は、キーワード記憶領域121に記憶されているキーワードの集合である。
対話装置10は、対象のキーワードと一致するキーワードが蓄積キーワード群にあると判定した場合(ステップS25、Yes)、キーワードを追加せずに処理を終了する。一方、対話装置10は、対象のキーワードと一致するキーワードが蓄積キーワード群にないと判定した場合(ステップS25、No)、対象のキーワードと蓄積キーワード群が類似しているか否かを判定する(ステップS26)。
対話装置10は、対象のキーワードと蓄積キーワード群が類似していると判定した場合(ステップS26、Yes)、対象のキーワードを蓄積キーワード群に追加する(ステップS28)。一方、対話装置10は、対象のキーワードと蓄積キーワード群が類似していないと判定した場合(ステップS26、No)、蓄積キーワード群をリセットし(ステップS27)、対象のキーワードを蓄積キーワード群に追加する(ステップS28)。
(発話の出力処理の流れ)
図8を用いて、発話の出力処理の流れを説明する。図8は、発話の出力処理の流れを示すフローチャートである。図8に示すように、まず、対話状態推定処理を実行する(ステップS31)。次に、対話装置10は、対話状態が、「新規話題開始」及び「発散」のうちのいずれかであるか、又は「新規話題開始」及び「発散」のいずれでもないかを判定する(ステップS32)。
対話装置10は、対話状態が「新規話題開始」及び「発散」のうちのいずれかであると判定した場合(ステップS32、Yes)、話題継続系のストラテジーを選択する(ステップS33)。一方、対話装置10は、対話状態が「新規話題開始」及び「発散」のうちのいずれでもないと判定した場合(ステップS32、No)、話題提案系のストラテジーを選択する(ステップS34)。
ここで、対話装置10は、選択されたストラテジーに基づき発話を生成する(ステップS35)。そして、対話装置10は、生成した発話をユーザに対し出力する(ステップS36)。
(対話状態推定処理の流れ)
図9を用いて、対話状態推定処理の流れを説明する。図9は、対話状態推定処理の流れを示すフローチャートである。なお、対話状態推定処理は、図8のステップS31に対応している。
図9に示すように、対話装置10は、直前の入力時の処理を参照する(ステップS41)。すなわち、対話装置10は、キーワード追加処理が実行されたか否か、及びキーワード追加処理の処理内容を参照する。
ここで、対話装置10は、蓄積キーワード群がリセットされたか否かを判定する(ステップS42)。対話装置10は、蓄積キーワード群がリセットされたと判定した場合(ステップS42、Yes)、対話状態を「新規話題開始」とし(ステップS43)、収束回数をリセットし(ステップS50)、処理を終了する。収束回数は、後の処理で使用される変数であり、初期値は0であるとする。
一方、対話装置10は、蓄積キーワード群がリセットされなかったと判定した場合(ステップS42、No)、蓄積キーワード群にキーワードが追加されたか否かを判定する(ステップS44)。対話装置10は、蓄積キーワード群にキーワードが追加されたと判定した場合(ステップS44、Yes)、対話状態を「発散」とし(ステップS45)、収束回数をリセットし(ステップS50)、処理を終了する。
一方、対話装置10は、蓄積キーワード群にキーワードが追加されなかったと判定した場合(ステップS44、No)、収束回数を1だけ増加させ(ステップS46)、収束回数が閾値以上であるか否かを判定する(ステップS47)。ここでは、対話装置10は、対話状態が連続して「収束」と推定されているか否かを判定している。
対話装置10は、収束回数が閾値以上であると判定した場合(ステップS47、Yes)、対話状態を「話題なし」とし(ステップS49)、収束回数をリセットし(ステップS50)、処理を終了する。一方、対話装置10は、収束回数が閾値以上でないと判定した場合(ステップS47、No)、対話状態を「収束」とし(ステップS48)、処理を終了する。
[効果]
上述したように、対話装置10は、ユーザと対話装置10との間でユーザから発話された内容を基に、対話状態を推定する。また、対話装置10は、ユーザと対話装置10との間でユーザから発話された内容を基に、対話状態を推定する。また、対話装置10は、推定した対話状態に対応したストラテジーを取得し、取得したストラテジーに基づいてユーザと対話装置10との対話において、対話装置10が発話する発話内容を選択する。対話装置10は、選択した発話内容でユーザに対して発話する。このように、対話装置10は、対話状態に応じて話題を遷移させ、ユーザが対話に飽きないようにすることができる。このため、対話装置10によれば、対話の継続性を高めることができる。
また、対話装置10は、ユーザと対話装置10による対話において出現したキーワードであって、キーワード記憶領域121に蓄積済みでないキーワードをキーワード記憶領域121に蓄積する。また、対話装置10は、キーワード記憶領域121にキーワードが新たに追加されたか否か、及び、追加されたキーワードがキーワード記憶領域121に蓄積済みのキーワードと類似していたか否か、により対話状態を推定する。このように、対話装置10は、蓄積済みのキーワードとの同一性及び類似性を基に、新たなキーワードを追加するか否かを判断している。これにより、蓄積済みのキーワードを参照することで、話題を継続させることが可能になる。
また、対話装置10は、蓄積済みのキーワードと非類似のキーワードが追加された場合、対話状態を「新規話題開始」と推定する。また、対話装置10は、蓄積済みのキーワードと類似のキーワードが追加された場合、対話状態を「発散」と推定する。また、対話装置10は、キーワードが追加されなかった場合、対話状態を「収束」と推定する。また、対話装置10は、対話が途切れた場合、対話状態を「話題なし」と推定する。これにより、対話装置10は、キーワードの追加状況を基に自動的に対話状態を推定することができる。
また、対話装置10は、ユーザに対する対話装置10からの発話のうち、ユーザが肯定的な反応をした発話に含まれるキーワードをキーワード記憶領域121に蓄積する。これにより、対話装置10は、ユーザの興味を把握し、ユーザの興味に合わせた対話を行うことができる。
また、対話装置10は、発話の内容をあらかじめ定義した情報である対話ブロックのそれぞれを、ストラテジーの選択結果に基づいて評価する。また、対話装置10は、評価に基づいて選択された対話ブロックから、ユーザに対して出力する発話を生成する。これにより、様々なストラテジーをあらかじめ用意しておくことで、対話ブロックの選択を柔軟に行うことができるようになる。
なお、上記の実施例では、対話状態を「新規話題開始」、「発散」、「収束」、「話題なし」の4種類としたが、対話状態は4種類でなくてもよい。例えば、上記の対話状態の他に、ユーザから話題の転換が提案された対話状態である「転換」等があってもよい。
[システム]
上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。また、実施例で説明した具体例、分布、数値等は、あくまで一例であり、任意に変更することができる。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散や統合の具体的形態は図示のものに限られない。つまり、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部又は任意の一部が、CPU及び当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
[ハードウェア]
図10は、ハードウェア構成例を説明する図である。図10に示すように、対話装置10は、通信装置10a、HDD(Hard Disk Drive)10b、メモリ10c、プロセッサ10dを有する。また、図10に示した各部は、バス等で相互に接続される。
通信装置10aは、ネットワークインタフェースカード等であり、他のサーバとの通信を行う。HDD10bは、図1に示した機能を動作させるプログラムやDBを記憶する。
プロセッサ10dは、図1に示した各処理部と同様の処理を実行するプログラムをHDD10b等から読み出してメモリ10cに展開することで、図2等で説明した各機能を実行するプロセスを動作させる。すなわち、このプロセスは、対話装置10が有する各処理部と同様の機能を実行する。具体的には、プロセッサ10dは、入力部131、解釈部132、読込部133、生成部134、出力部135及びブロック選択部150と同様の機能を有するプログラムをHDD10b等から読み出す。そして、プロセッサ10dは、入力部131、解釈部132、読込部133、生成部134、出力部135及びブロック選択部150等と同様の処理を実行するプロセスを実行する。
このように対話装置10は、プログラムを読み出して実行することで分類方法を実行する情報処理装置として動作する。また、対話装置10は、媒体読取装置によって記録媒体から上記プログラムを読み出し、読み出された上記プログラムを実行することで上記した実施例と同様の機能を実現することもできる。なお、この他の実施例でいうプログラムは、対話装置10によって実行されることに限定されるものではない。例えば、他のコンピュータ又はサーバがプログラムを実行する場合や、これらが協働してプログラムを実行するような場合にも、本発明を同様に適用することができる。
このプログラムは、インターネット等のネットワークを介して配布することができる。また、このプログラムは、ハードディスク、フレキシブルディスク(FD)、CD-ROM、MO(Magneto-Optical disk)、DVD(Digital Versatile Disc)等のコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行することができる。
10 対話装置
11 通信部
12 記憶部
13 制御部
20 入力装置
30 出力装置
121 キーワード記憶領域
122 対話ブロックDB
131 入力部
132 解釈部
133 読込部
134 生成部
135 出力部
150 ブロック選択部
151 蓄積部
152 推定部
153 評価部
154 選択部

Claims (6)

  1. ユーザと対話装置による対話において出現したキーワードであって、記憶領域に蓄積済みでないキーワードを前記記憶領域に蓄積する蓄積部と、
    前記ユーザと前記対話装置との間でユーザから発話された内容を基に、前記記憶領域にキーワードが新たに追加されたか否か、及び、追加されたキーワードが前記記憶領域に蓄積済みのキーワードと類似していたか否か、により対話状態を推定する推定部と、
    前記推定した対話状態に対応したストラテジーを取得し、取得したストラテジーに基づいて前記ユーザと対話装置との対話において、対話装置が発話する発話内容を選択する選択部と、
    前記選択部により選択された発話内容でユーザに対して発話する発話部と、
    を有することを特徴とする対話装置。
  2. 前記推定部は、蓄積済みのキーワードと非類似のキーワードが追加された場合、対話状態を新規話題開始と推定し、蓄積済みのキーワードと類似のキーワードが追加された場合、対話状態を発散と推定し、キーワードが追加されなかった場合、対話状態を収束と推定し、対話が途切れた場合、対話状態を話題なしと推定することを特徴とする請求項に記載の対話装置。
  3. 前記蓄積部は、前記ユーザに対する前記対話装置からの発話のうち、前記ユーザが肯定的な反応をした発話に含まれるキーワードを前記記憶領域に蓄積することを特徴とする請求項に記載の対話装置。
  4. 前記選択部は、
    前記取得したストラテジーに基づいて、発話内容をあらかじめ定義した情報である対話ブロックを評価する評価部と、
    前記評価部による評価に基づいて選択された対話ブロックから、前記ユーザに対して出力する発話を生成する生成部と、
    をさらに有することを特徴とする請求項1に記載の対話装置。
  5. コンピュータが、
    ユーザと対話装置による対話において出現したキーワードであって、記憶領域に蓄積済みでないキーワードを記憶領域に蓄積し、
    前記ユーザと前記対話装置との間でユーザから発話された内容を基に、前記記憶領域にキーワードが新たに追加されたか否か、及び、追加されたキーワードが前記記憶領域に蓄積済みのキーワードと類似していたか否か、により対話状態を推定し
    前記推定した対話状態に対応したストラテジーを取得し、取得したストラテジーに基づいて前記ユーザと対話装置との対話において、対話装置が発話する発話内容を選択し、
    選択した発話内容でユーザに対して発話する
    処理を実行することを特徴とする対話方法。
  6. コンピュータに、
    ユーザと対話装置による対話において出現したキーワードであって、記憶領域に蓄積済みでないキーワードを記憶領域に蓄積し、
    前記ユーザと前記対話装置との間でユーザから発話された内容を基に、前記記憶領域にキーワードが新たに追加されたか否か、及び、追加されたキーワードが前記記憶領域に蓄積済みのキーワードと類似していたか否か、により対話状態を推定し
    前記推定した対話状態に対応したストラテジーを取得し、取得したストラテジーに基づいて前記ユーザと対話装置との対話において、対話装置が発話する発話内容を選択し、
    選択した発話内容でユーザに対して発話する
    処理を実行させることを特徴とする対話プログラム。
JP2020547883A 2018-09-28 2018-09-28 対話装置、対話方法及び対話プログラム Active JP7044167B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2018/036581 WO2020066019A1 (ja) 2018-09-28 2018-09-28 対話装置、対話方法及び対話プログラム

Publications (2)

Publication Number Publication Date
JPWO2020066019A1 JPWO2020066019A1 (ja) 2021-08-30
JP7044167B2 true JP7044167B2 (ja) 2022-03-30

Family

ID=69951281

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020547883A Active JP7044167B2 (ja) 2018-09-28 2018-09-28 対話装置、対話方法及び対話プログラム

Country Status (4)

Country Link
US (1) US20210210082A1 (ja)
EP (1) EP3859568A4 (ja)
JP (1) JP7044167B2 (ja)
WO (1) WO2020066019A1 (ja)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007219149A (ja) 2006-02-16 2007-08-30 Toyota Central Res & Dev Lab Inc 応答生成装置、方法及びプログラム
JP2007264198A (ja) 2006-03-28 2007-10-11 Toshiba Corp 対話装置、対話方法、対話システム、コンピュータプログラム及び対話シナリオ生成装置
JP2008097082A (ja) 2006-10-06 2008-04-24 Mitsubishi Electric Corp 音声対話装置
JP2011033837A (ja) 2009-07-31 2011-02-17 Nec Corp 対話支援装置、対話支援方法およびプログラム
JP2014222402A (ja) 2013-05-13 2014-11-27 日本電信電話株式会社 発話候補生成装置、発話候補生成方法、及び発話候補生成プログラム
WO2016157642A1 (ja) 2015-03-27 2016-10-06 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
JP2017125921A (ja) 2016-01-13 2017-07-20 日本電信電話株式会社 発話選択装置、方法、及びプログラム

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001188784A (ja) * 1999-12-28 2001-07-10 Sony Corp 会話処理装置および方法、並びに記録媒体
JP3994368B2 (ja) * 2000-01-25 2007-10-17 ソニー株式会社 情報処理装置および情報処理方法、並びに記録媒体
JP2002229919A (ja) 2001-02-07 2002-08-16 Fujitsu Ltd 会話装置及び会話促進方法
KR101032176B1 (ko) * 2002-12-02 2011-05-02 소니 주식회사 대화 제어 장치 및 방법 및 로봇 장치
JP2004310034A (ja) 2003-03-24 2004-11-04 Matsushita Electric Works Ltd 対話エージェントシステム
JP5294315B2 (ja) 2008-11-28 2013-09-18 学校法人早稲田大学 対話活性化ロボット
FR3011375B1 (fr) * 2013-10-01 2017-01-27 Aldebaran Robotics Procede de dialogue entre une machine, telle qu'un robot humanoide, et un interlocuteur humain, produit programme d'ordinateur et robot humanoide pour la mise en œuvre d'un tel procede
EP2933071A1 (en) * 2014-04-17 2015-10-21 Aldebaran Robotics Methods and systems for managing dialogs of a robot
US10108702B2 (en) * 2015-08-24 2018-10-23 International Business Machines Corporation Topic shift detector
JP6601069B2 (ja) * 2015-09-01 2019-11-06 カシオ計算機株式会社 対話制御装置、対話制御方法及びプログラム
US10789310B2 (en) * 2016-06-30 2020-09-29 Oath Inc. Fact machine for user generated content
JP2018021987A (ja) * 2016-08-02 2018-02-08 ユニロボット株式会社 会話処理装置、及びプログラム
JP2018072560A (ja) * 2016-10-28 2018-05-10 富士通株式会社 情報処理システム、情報処理装置及び情報処理方法
JP6795387B2 (ja) * 2016-12-14 2020-12-02 パナソニック株式会社 音声対話装置、音声対話方法、音声対話プログラム及びロボット
US10268680B2 (en) * 2016-12-30 2019-04-23 Google Llc Context-aware human-to-computer dialog
JP6777002B2 (ja) * 2017-04-27 2020-10-28 トヨタ自動車株式会社 対話装置、対話方法及び対話プログラム

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007219149A (ja) 2006-02-16 2007-08-30 Toyota Central Res & Dev Lab Inc 応答生成装置、方法及びプログラム
JP2007264198A (ja) 2006-03-28 2007-10-11 Toshiba Corp 対話装置、対話方法、対話システム、コンピュータプログラム及び対話シナリオ生成装置
JP2008097082A (ja) 2006-10-06 2008-04-24 Mitsubishi Electric Corp 音声対話装置
JP2011033837A (ja) 2009-07-31 2011-02-17 Nec Corp 対話支援装置、対話支援方法およびプログラム
JP2014222402A (ja) 2013-05-13 2014-11-27 日本電信電話株式会社 発話候補生成装置、発話候補生成方法、及び発話候補生成プログラム
WO2016157642A1 (ja) 2015-03-27 2016-10-06 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
JP2017125921A (ja) 2016-01-13 2017-07-20 日本電信電話株式会社 発話選択装置、方法、及びプログラム

Also Published As

Publication number Publication date
JPWO2020066019A1 (ja) 2021-08-30
EP3859568A4 (en) 2021-09-29
WO2020066019A1 (ja) 2020-04-02
US20210210082A1 (en) 2021-07-08
EP3859568A1 (en) 2021-08-04

Similar Documents

Publication Publication Date Title
CN106484093B (zh) 对话控制装置、对话控制方法以及记录介质
JP6774018B2 (ja) 対話装置
US20160004299A1 (en) Systems and methods for assessing, verifying and adjusting the affective state of a user
US11183187B2 (en) Dialog method, dialog system, dialog apparatus and program that gives impression that dialog system understands content of dialog
KR20200130352A (ko) 음성 웨이크업 방법 및 장치
CN104899240B (zh) 声音检索装置、声音检索方法
KR102451925B1 (ko) 자연 언어 처리를 위한 네트워크-기반 학습 모델
US10836044B2 (en) Robot control device and robot control method
JP2009037050A (ja) 対話装置と対話用プログラム
Leite et al. Semi-situated learning of verbal and nonverbal content for repeated human-robot interaction
JP7101057B2 (ja) 言語モデル学習装置およびそのプログラム、ならびに、単語推定装置およびそのプログラム
CN109726308A (zh) 一种生成小说的背景音乐的方法及设备
JP7347217B2 (ja) 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
JP6952259B2 (ja) 情報処理方法、情報処理装置、及び、プログラム
Bowden et al. Entertaining and opinionated but too controlling: a large-scale user study of an open domain Alexa prize system
JP2001249945A (ja) 感情生成方法および感情生成装置
JP6772916B2 (ja) 対話装置および対話方法
CN113539261A (zh) 人机语音交互方法、装置、计算机设备和存储介质
JP7044167B2 (ja) 対話装置、対話方法及び対話プログラム
JP6629172B2 (ja) 対話制御装置、その方法及びプログラム
JP2006106748A (ja) 音声認識の精度を改善するためのシステムおよび方法
JP7248615B2 (ja) 出力装置、出力方法及び出力プログラム
JP7176333B2 (ja) 対話装置、対話方法および対話プログラム
JP7313518B1 (ja) 評価方法、評価装置、および、評価プログラム
JP7160116B2 (ja) 対話装置、対話方法及び対話プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201117

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211207

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220131

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220215

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220228

R150 Certificate of patent or registration of utility model

Ref document number: 7044167

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150