JP2021101348A

JP2021101348A - 対話システム、方法、及びプログラム

Info

Publication number: JP2021101348A
Application number: JP2021031980A
Authority: JP
Inventors: 尚水吉田; Takami Yoshida; 憲治岩田; Kenji Iwata; 優佳小林; Yuka Kobayashi; 政巳赤嶺; Masami Akamine
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2017-09-21
Filing date: 2021-03-01
Publication date: 2021-07-08
Anticipated expiration: 2037-09-21
Also published as: JP2019057123A; US20190088252A1; JP7035239B2; US11417319B2

Abstract

【課題】ユーザの要求の仕方に柔軟に対応できるようにする。【解決手段】一実施形態に係る対話システムは、設定部と、認識部と、保持部と、処理部とを備える。設定部は、予め互いに組合せが対応可能な関係にある複数の単語と予め互いに組合せ不可の関係にある複数の単語を登録する。認識部は、ユーザの発話を取得し、当該発話を音声認識する。保持部は、前記ユーザが発話した発話履歴を保持する。処理部は、前記ユーザの音声認識結果から、前記ユーザが意図する前記組合せの対象が不可である場合に前記ユーザに当該対象の処理ができないことを出力する。前記処理部は、前記発話履歴に基づいて、前記ユーザが意図する単語の少なくとも一部を置換して出力し、前記設定部は、前記発話履歴の中に所定の閾値以上の置換がある場合には、置換された単語を追加する。【選択図】図２

Description

本発明の実施形態は、対話システム、方法、及びプログラムに関する。

近年、商品やサービスの案内など、事前に用意されたシナリオに従って自動応答することが可能になってきている。利用者にとって多様な質問ができることが望ましいが、対話システムの提供においては限られた状況の設定のみできる場合が多い。一方で、多様なシステムがあることにより、システム側の応答内容が利用者に伝わらず、何度も確認が必要な場合もある。

特許第３７９５３５０号公報

本実施形態はユーザにとって使いやすい対話システム、方法及びプログラムを提供することを目的とする。

一実施形態に係る対話システムは、設定部と、認識部と、保持部と、処理部とを備える。設定部は、予め互いに組合せが対応可能な関係にある複数の単語と予め互いに組合せ不可の関係にある複数の単語を登録する。認識部は、ユーザの発話を取得し、当該発話を音声認識する。保持部は、前記ユーザが発話した発話履歴を保持する。処理部は、前記ユーザの音声認識結果から、前記ユーザが意図する前記組合せの対象が不可である場合に前記ユーザに当該対象の処理ができないことを出力し、さらに前記対応可能な対象の組合せの中から利用可能な組合せを選択し出力する。前記処理部は、前記発話履歴に基づいて、前記ユーザが意図する単語の少なくとも一部を置換して出力し、前記設定部は、前記発話履歴の中に所定の閾値以上の置換がある場合には、置換された単語を追加する。

実施形態に係る対話システムを概略的に示すブロック図。実施形態に係る対話システムの登録部に登録される複数の述語と複数の目的語の可否の関係を示す図。第１の実施例（基本）の処理の流れを示すフローチャート。第２の実施例（不可＋可ワード提示）の処理の流れを示すフローチャート。第３の実施例（ワード履歴からワード補完）の処理の流れを示すフローチャート。第４の実施例（ワード履歴からワード置き換え）の処理の流れを示すフローチャート。実施形態に係る対話システムに適用可能なコンピュータ装置の基本的な構成を示すブロック図。

一般に、複数の選択肢をシステム側から提示し、ユーザが該当項目を選択するという方法をとる場合、特に該当する項目を番号で入力するように促すような場合には、ユーザの回答は明確である。システムが処理できない（対象外の）内容入力であれば、そのまま、ユーザの入力がシステム処理の対象外であることを伝えればよい。一方で、自由な発話を受けてユーザの要求に対応しようとする場合、ユーザの表現は多様なものとなりうる。

同様に、システムの応答が明確でない場合もある。たとえば、店舗検索を提供するシステムに対して、「カフェを予約して」という要求があった場合を想定する。もし該当の店舗検索システムが予約する機能をもっていても、ユーザが要望した「カフェ」が予約制を採用していない店舗であることもある。この場合、「わかりません」、「できません」等と応答すると、該当システムでは予約ができないのか、ユーザの要望する「カフェ」で予約ができないのか、「カフェ」が分からないのか、不明になる。更に、音声対話システムを利用した場合、音声認識自体の認識がうまくないのか、ユーザの発話の意図が分からないのか、正しく認識できたが指定された機能が無いという意味なのか、ユーザにその意味を伝えることができない。その結果、何度も言い回しを変えて入力するなど、過大な負荷が生じる場合がある。本実施形態に関わる対話システムは、対応できないことをユーザにフィードバックすることによって、ユーザの過大な負荷を軽減する。

以下、図面を参照しながら実施形態を説明する。実施形態では、例えば店舗案内で利用されることを想定する。店舗案内とは、複数のお店の中から好みのお店をみつけたり、場所を確認したり、混雑状況、予約の案内等の情報を得ることを指す。図１は、本実施形態に係る対話システムの構成を示すブロック図である。図１に示す対話システム１１は、音声認識部１１１と、設定部１１２と、処理部１１３と、発話履歴保持部１１４を備える。

音声認識部１１１は、マイクロフォンを通じて取得したユーザの発話からユーザの音声を認識する。設定部１１２は、複数の単語の組合せが処理可能か否か設定する。具体的には複数の述語と複数の目的語の組合せの可・不可の関係である。例えば、図２に示すようにテーブル化してもよい。以下、予めできないことをまとめたリストを準備しておくことを例に説明するが、これに限らない。音声認識された単語をリストと照合する、ユーザの発話の例えば音素を利用したキーワードスポッティングを用いてもよい。ＲＮＮ（Recurrent Neural Networks：再帰型ニューラルネットワーク）のような統計モデルによる比較処理によって、ユーザの発話から述語、目的語を特定してもよい。

処理部１１３は、音声認識されたユーザの発話に含まれる述語と目的語について、設定部１１２が設定した単語の組合せを参照して両者の関係の可・不可を決定する。ユーザが意図する述語と目的語との組合せについて、対話システムの所定の機能を利用できない場合、処理できない（処理不可）を出力する。ここで所定の機能とは、例えば図２に示すように、カフェ（目的語）と予約する（述語）の関係において、「予約する」を指す。例えば「地図を表示する」機能の場合、「地図表示（目的語）」などとなっていてもよい。述語と目的語との組合せからなる機能が利用できる場合、所定のシナリオに基づいて処理を実行し、それぞれの応答情報を出力する。発話履歴保持部１１４は、音声認識で認識された単語を所定の条件で保持しておき、処理部１１３からの要求に応じて保持している単語を出力する。

システムはユーザの最初の数発話で対応できない場合は「対応できません」と応答するのが好ましい。例えば、システムが「できない」ことを提示しても、ユーザは、音声認識の失敗なのか、正しく認識できたがその機能が無いと言っているのか判断できない場合があるためである。更に、ユーザの声のトーンや速度、表情等を考慮した出力制御を行うとより好ましい。システム応答の文調、音声のトーンや速度を制御することによって、システムが対応できないことに対するユーザの理解が得られる場合がある。

（第１の実施例）
図３に示すフローチャートを参照して、第１の実施例を説明する。まず、ユーザの音声を取得して音声認識を行う（ステップＳ１１）。次に認識結果からユーザが意図している述語と目的語を推定する（ステップＳ１２）。次に、設定部１１２に予め設定された述語と目的語との組合せを参照して、その関係が不可となっているか照合する（ステップＳ１３）。ここで、処理が不可でなかった場合には（ＮＯ）、対応処理を実行して出力し（ステップＳ１４）、一連の処理を終了する。また、不可だった場合には（ＹＥＳ）、ユーザに意図する組合せの利用が不可である（できない）ことを提示して（ステップＳ１５）、一連の処理を終了する。

図２は店舗案内での利用を想定した組み合わせも関係を示している。具体的に説明すると、「カフェ」を「調べる」、「レストラン」を「調べる・予約する」は対応可能であるが、「カフェ」を「予約する」は対応不可能である。例えば、ユーザが「カフェを予約して」と要求したとする。このとき、システム側は、テーブルに示される関係から、「カフェを予約することはできません。」と不可の回答を提示する。これにより、ユーザは、意図している要求は認識されたものの、要求内容が適切でなかったことを把握することができる。
なお、本実施例では、「カフェを予約」の要求に関し、「カフェ」と「予約して（予約する）」と分けるようにしたが、３つ以上の単語の組合せを利用してもよい。この場合、ユーザの発話から得られた単語の３つ以上を一つの集合として利用する。例えば「テレビの電源を入れて」と要求された場合、「テレビ」と「電源」と「入れて（入れる）」と分けようにしてもよい。

（第２の実施例）
図４に示すフローチャートを参照して、第２の実施例を説明する。なお、図４において、図３と同一ステップには同一符号を付して示し、ここでは異なる点を説明する。
本実施例では、第１の実施例において、ステップＳ１３で、音声認識された述語と目的語の関係が不可だった場合に、関係可の機能を抽出する（ステップＳ１６）。ここで、関係可の機能がない場合には、対応する処理ができないことを提示して一連の処理を終了する（ステップＳ１５）。関係可の機能がある場合には、対応処理ができないということを提示すると共に、利用可能な機能を提示する（ステップＳ１７）。ユーザがこの提示をうけて再入力した場合、その再入力した音声を音声認識する（ステップＳ１８）。認識した結果について述語と目的語の意図の再推定を行う（ステップＳ１９）。ここで、システム１１は利用可能な単語の組合せか否かを照合し（ステップＳ２０）、利用可能な単語の組合せならば対応する機能を処理し出力して（ステップＳ２１）、一連の処理を終了する。また、利用可能な単語の組合せでなかった場合には、対応する機能がないこと（「不可」）を提示して（ステップＳ２２）、一連の処理を終了する。

図２の場合、「カフェを予約して」というユーザの要求に対して、「カフェを予約することはできません。」との不可の回答と共に、「レストラン、宅配ピザならば、予約することができます。カフェを探すことはできます。」と可能な機能を応答する。これに対し、ユーザが「レストランを予約して」と発話した場合には、「それではレストランを予約します。」というように、対応可能な機能で処理を行うことを明示するとよい。このように、本実施例によれば、ユーザは、不可の要求をしてもシステム側で対応可能な機能を紹介するので、次の要求時に対応可能な機能を選択指示することができるようになる。

なお、例えば店舗案内の場合、対象となる店舗数が非常に多くなる場合がある。この場合、システムを管理するユーザが店舗ごとの優先順位を設け、対応可能な機能として優位なものから提示させてもよい。また、扱う商品やサービスが類似する店舗をまとめた分類を別途つくったりしてもよいし、店舗同士の距離など所定の規則を用いることによって、代替可能な機能の提示を行ってもよい。

（第３の実施例）
図５に示すフローチャートを参照して、第３の実施例を説明する。なお、図５において、図４と同一ステップには同一符号を付して示し、ここでは異なる点を説明する。
本実施例では、第２の実施例において、ステップＳ１２で意図の推定が行われた後、推定した単語を履歴として保持する（ステップＳ２３）。また、ユーザの発話に述語または目的語のいずれかについて不足する単語がある場合、単語履歴を参照する。より具体的にはユーザ発話の時間的に近い発話から、現時点で取得できた単語を除き、不足単語として抽出する（ステップＳ２４）。要求内容を認識して対応処理を実行する（ステップＳ２１）。

例えば、上記の例で、「レストラン、宅配ピザならば、予約することができます。カフェを探すことはできます。」と可能な機能を紹介した上で、ユーザが「それではレストランで」と発話した場合を想定する。単語履歴と比較し、省略されている「予約して」補完する。このように対話において、一部の単語が省略された場合でも、履歴から省略されている単語を検出し、それを補うことができる。

（第４の実施例）
図６に示すフローチャートを参照して、第４の実施例を説明する。なお、図６において、図４及び図５と同一ステップには同一符号を付して示し、ここでは異なる点を説明する。
本実施例では、第３の実施例と同様に、ステップＳ１２で意図推定が行われた後、推定した単語を履歴として保持する（ステップＳ２３）。また、ステップＳ２０で可能な機能の単語が選択された場合に、要求内容を認識して対応処理を実行した後（ステップＳ２１）、単語の履歴を参照して置き換えがあった使用単語を提示する（ステップＳ２５）。ここで置き換えとは、設定部１１２に予め設定されている目的語や述語などの単語と類似する意味をもつ単語の入れ換えを指す。後述するが、「予約する（reserve）」を「とっておく（keep）」など、ユーザの言い換えである。システム１１は、今後の利用で単語、置き換えの指示がなければ（ステップＳ２６）そのまま一連の処理を終了する。置き換えの指示があれば（ステップＳ２６）、置き換えの単語を設定して（ステップＳ２７）一連の処理を終了する。なお、特定の単語、特定のフレーズ（phrase）の置き換えが所定の回数以上あった場合に、置き換えられた単語を設定部１１２に追加するようにしてもよい。例えば、ユーザが所定の閾値を設定してもよく、置き換えが所定の閾値以上になった場合に、システムは自動的に置き換えて対応処理を継続する。また、処理部１１３は、ユーザ発話の少なくとも一部を復唱することによって、対象となる組合せの単語に類似する類似単語を確定させ、設定部１１２に、類似単語を新たに設定するようにしてもよい。類似単語は、一般的な類似単語を集めたものを用いてもよい。例えば、シソーラス（Thesaurus）を別に用意し、ユーザ発話に含まれる単語と照合する。設定部１１２で設定された単語と類似した単語をステップ２５で提示し、置き換えするか否かをユーザに確認してもよい。

例えば、ユーザが「今晩レストランをとりたい」と要求した場合、システム側は「レストランをとることはできません。調べることと予約することはできます。」と応答する。これに対して、ユーザが「そうだった、予約をお願い。」と回答した場合に、システム側は対応処理として「それではレストランを予約します。」と復唱する。このとき、システムでは、レストランが“とる”を予約の言い換えと判定し、「レストランの場合、“とる”を予約の言い換えとして登録しますか？」と問い合わせる。ユーザが許可した場合には、システムは置き換えワードを登録しておき、次回の予約時にユーザの要求の仕方に合わせて処理を進めることができる。

他の例として、ユーザが「そばの出前を取りたい」と要求した場合、「そばの出前は対応できません。ピザなら出前の発注ができます。」と応答する。この場合、ユーザは対応可能な選択肢をその場で理解することができるので、次の対話で確実に要求に応答した処理を実行させることができるようになる。また、「ピザを届けて」との要求に対して「ピザを届けることはできません。出前の発注ならできます。」と応答した場合に、「出前でお願い」と再入力した場合に「“届ける”を出前の言い換え表現として登録します。」と案内して次回の対話に役立てることが可能となる。

なお、実施形態の対話システム１１は、例えば、汎用のコンピュータ装置を基本ハードウェアとして用いることでも実現することが可能である。すなわち、音声認識部１１１、設定部１１２、処理部１１３、発話履歴保持部１１４は、上記のコンピュータ装置に搭載されたプロセッサにプログラムを実行させることにより実現することができる。このような対話システムに適用可能なコンピュータ装置は、ＣＰＵ（Central Processing Unit）１３１などの制御装置と、ＲＯＭ（Read Only Memory）１３２やＲＡＭ（Random Access Memory）１３３などの記憶装置と、マイクロフォン、操作入力装置、表示装置等が接続される入出力Ｉ／Ｆ１３４と、ネットワークに接続して通信を行う通信Ｉ／Ｆ１３５と、各部を接続するバス１３６を備えている。上記のプログラムをコンピュータ装置に予めインストールすることで実現してもよいし、ＣＤ−ＲＯＭなどの記憶媒体に記憶して、あるいはネットワークを介して上記のプログラムを配布して、このプログラムをコンピュータ装置に適宜インストールすることで実現してもよい。また、対話ログ記憶部、シナリオ記憶部、辞書記憶部、及び意図記憶部は、上記のコンピュータ装置に内蔵あるいは外付けされたメモリ、ハードディスク若しくはＣＤ−Ｒ、ＣＤ−ＲＷ、ＤＶＤ−ＲＡＭ、ＤＶＤ−Ｒなどの記憶媒体などを適宜利用して実現することができる。

なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。

１１…対話システム、１１１…音声認識部、１１２…設定部、１１３…処理部、１１４…発話履歴保持部、１３１…ＣＰＵ、１３２…ＲＯＭ、１３３…ＲＡＭ、１３４…入出力Ｉ／Ｆ、１３５…通信Ｉ／Ｆ、１３６…バス。

Claims

予め互いに組合せが対応可能な関係にある複数の単語と予め互いに組合せが不可の関係にある複数の単語を設定する設定部と、
ユーザの発話を取得し、当該発話を音声認識する認識部と、
前記ユーザが発話した発話履歴を保持する保持部と、
前記ユーザの音声認識結果から、前記ユーザが意図する前記組合せの対象が不可である場合に前記ユーザに当該対象の処理ができないことを出力し、さらに前記対応可能な対象の組合せの中から利用可能な組合せを選択し出力する処理部と
を備え、
前記処理部は、前記発話履歴に基づいて、前記ユーザが意図する単語の少なくとも一部を置換して出力し、
前記設定部は、前記発話履歴の中に所定の閾値以上の置換がある場合には、置換された単語を追加する
対話システム。
予め互いに組合せが対応可能な関係にある複数の単語と予め互いに組合せが不可の関係にある複数の単語を設定する設定部と、
ユーザの発話を取得し、当該発話を音声認識する認識部と、
前記ユーザが発話した発話履歴を保持する保持部と、
前記ユーザの音声認識結果から、前記ユーザが意図する前記組合せの対象が不可である場合に前記ユーザに当該対象の処理ができないことを出力し、さらに前記対応可能な対象の組合せの中から利用可能な組合せを選択し出力する処理部と
を備え、
前記処理部は、前記ユーザの発話の少なくとも一部を復唱することによって前記対象となる組合せの単語に類似する類似単語を確定させ、
前記設定部は、前記類似単語を新たに設定する
対話システム。
前記設定される互いに組合せが不可の関係にある単語は、述語と目的語の組合せである請求項１または２記載の対話システム。
前記設定部は、予め互いに組合せが対応可能の関係にある複数の単語を設定し、
前記処理部は、前記組合せの対象が不可である場合に、前記対応可能な組合せを出力する請求項１または２記載の対話システム。
前記ユーザが発話した発話履歴を保持する保持部を更に備え、
前記処理部は、前記発話履歴に基づいて、ユーザが意図する単語の組合せの一部を補完して出力する請求項１または２記載の対話システム。
予め互いに組合せが対応可能な関係にある複数の単語と予め互いに組合せが不可の関係にある複数の単語を設定部に登録しておき、
ユーザの発話を取得して当該発話を音声認識し、
前記ユーザが発話した発話履歴を保持部に保持しておき、
前記ユーザの音声認識結果から、前記ユーザが意図する前記組合せの対象が不可である場合に前記ユーザに当該対象の処理ができないことを出力し、さらに前記対応可能な対象の組合せの中から利用可能な組合せを選択し出力する対話方法であって、
前記発話履歴に基づいて、前記ユーザが意図する単語の少なくとも一部を置換して出力し、
前記発話履歴の中に所定の閾値以上の置換がある場合には、置換された単語を追加する対話方法。
予め互いに組合せが対応可能な関係にある複数の単語と予め互いに組合せが不可の関係にある複数の単語を設定部に登録しておき、
ユーザの発話を取得して当該発話を音声認識し、
前記ユーザが発話した発話履歴を保持部に保持しておき、
前記ユーザの音声認識結果から、前記ユーザが意図する前記組合せの対象が不可である場合に前記ユーザに当該対象の処理ができないことを出力し、さらに前記対応可能な対象の組合せの中から利用可能な組合せを選択し出力する対話方法であって、
前記ユーザの発話の少なくとも一部を復唱することによって前記対象となる組合せの単語に類似する類似単語を確定させ、
前記類似単語を新たに設定する
対話方法。
ユーザと対話する処理をコンピュータに実行させるための対話プログラムであって、
予め互いに組合せが対応可能な関係にある複数の単語と予め互いに組合せが不可の関係にある複数の単語を設定する設定ステップと、
ユーザの発話を取得して当該発話を音声認識する認識ステップと、
前記ユーザが発話した発話履歴を保持する保持ステップと、
前記ユーザの音声を取得し、当該音声の認識結果から、前記ユーザが意図する前記組合せの対象が不可である場合に前記ユーザに当該対象の処理ができないことを出力し、さらに前記対応可能な対象の組合せの中から利用可能な組合せを選択し出力する出力ステップと
を具備し、
前記出力ステップは、前記発話履歴に基づいて、前記ユーザが意図する単語の少なくとも一部を置換して出力し、
前記設定ステップは、前記発話履歴の中に所定の閾値以上の置換がある場合には、置換された単語を追加する
対話プログラム。
ユーザと対話する処理をコンピュータに実行させるための対話プログラムであって、
予め互いに組合せが対応可能な関係にある複数の単語と予め互いに組合せが不可の関係にある複数の単語を設定する設定ステップと、
ユーザの発話を取得して当該発話を音声認識する認識ステップと、
前記ユーザが発話した発話履歴を保持する保持ステップと、
前記ユーザの音声を取得し、当該音声の認識結果から、前記ユーザが意図する前記組合せの対象が不可である場合に前記ユーザに当該対象の処理ができないことを出力し、さらに前記対応可能な対象の組合せの中から利用可能な組合せを選択し出力する出力ステップと
を具備し、
前記出力ステップは、前記ユーザの発話の少なくとも一部を復唱することによって前記対象となる組合せの単語に類似する類似単語を確定させ、
前記設定ステップは、前記類似単語を新たに設定する
対話プログラム。