JP7093266B2

JP7093266B2 - 決定装置、決定方法及び決定プログラム

Info

Publication number: JP7093266B2
Application number: JP2018154264A
Authority: JP
Inventors: 孝太坪内; 学山本; 太士岩▲瀬▼張; 浩樹中村
Original assignee: Yahoo Japan Corp
Current assignee: Yahoo Japan Corp
Priority date: 2018-08-20
Filing date: 2018-08-20
Publication date: 2022-06-29
Anticipated expiration: 2038-08-20
Also published as: JP2020030246A

Description

本発明は、決定装置、決定方法及び決定プログラムに関する。

従来、ユーザの発話に対する応答の態様を制御する技術が提案されている。例えば、ユーザの発話に対して自然な相槌のタイミングを予測する技術が提案されている。

佐野正太郎、西出俊、奥乃博、尾形哲也"対話データの再帰結合神経回路による学習と相槌タイミング予測～音声特徴と視線特徴の影響～"［online］、［２０１８年８月７日検索］、インターネット（http://winnie.kuis.kyoto-u.ac.jp/members/okuno/Public/RSJ2011-Sano.pdf）

しかしながら、上記の従来技術では、ユーザの発話に対して適切な応答を行うことができるとは限らない。例えば、上記の従来技術では、自然な相槌のタイミングが、ユーザにとって適切な相槌のタイミングであるとは限らない。

本願は、上記に鑑みてなされたものであって、ユーザの発話に対して適切な応答を行うことを目的とする。

本願に係る決定装置は、ユーザの発話に関するコンテキスト情報を取得する取得部と、前記取得部によって取得されたコンテキスト情報に基づいて、前記ユーザの発話に対する応答の出力態様を決定する決定部とを備えることを特徴とする。

実施形態の一態様によれば、ユーザの発話に対して適切な応答を行うことができるという効果を奏する。

図１は、実施形態に係るネットワークシステムの構成例を示す図である。図２は、実施形態に係る決定処理の一例を示す図である。図３は、実施形態に係る決定装置の構成例を示す図である。図４は、実施形態に係るユーザ情報記憶部の一例を示す図である。図５は、実施形態に係る機能情報記憶部の一例を示す図である。図６は、実施形態に係る決定装置による決定処理手順を示すフローチャートである。図７は、ハードウェア構成の一例を示す図である。

以下に、本願に係る決定装置、決定方法及び決定プログラムを実施するための形態（以下、「実施形態」と呼ぶ）について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る決定装置、決定方法及び決定プログラムが限定されるものではない。また、各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略する。

〔１．ネットワークシステムの構成〕
まず、図１を参照して、実施形態に係るネットワークシステム１の構成について説明する。図１は、実施形態に係るネットワークシステム１の構成例を示す図である。図１に示すように、実施形態に係るネットワークシステム１には、端末装置１０_１～１０_ｎと、決定装置１００とが含まれる（ｎは任意の自然数）。本明細書では、端末装置１０_１～１０_ｎを区別する必要がない場合は、端末装置１０_１～１０_ｎを「端末装置１０」と総称する。端末装置１０および決定装置１００は、それぞれネットワークＮと有線又は無線により接続される。図１中では図示していないが、ネットワークシステム１は、複数台の決定装置１００を含んでもよい。

端末装置１０は、ユーザによって利用される情報処理装置である。端末装置１０は、スマートスピーカ、スマートフォン、デスクトップ型ＰＣ（Personal Computer）、ノート型ＰＣ、タブレット型ＰＣ、スマート家電、ロボットを含む、任意のタイプの情報処理装置であってもよい。

決定装置１００は、各種機能またはサービスを端末装置１０に提供するサーバ装置である。決定装置１００は、ネットワークＮを介して、有線又は無線により端末装置１０と通信を行う。

〔２．決定処理〕
次に、図２を参照して、実施形態に係る決定処理の一例について説明する。図２は、実施形態に係る決定処理の一例を示す図である。

図２の例では、端末装置１０_１は、音声アシスタントサービスに対応したスマートスピーカである。端末装置１０_１は、ユーザＵ１によって利用される。ユーザＵ１は、端末装置１０_１に向かって発話することにより、音声アシスタントと情報をやり取りすることができる。

図２の例では、音声アシスタントを起動させるためのウェイクワードは、「ＳＳ１」である。ユーザＵ１が音声アシスタントを介して機能やサービスを利用する場合に、ユーザＵ１は、ウェイクワード「ＳＳ１」を含む要求を発話する。例えば、ユーザＵ１がクレジットカード管理の機能を利用する場合に、ユーザＵ１は、「ＳＳ１、クレジットカードの番号を教えて」と発話する。

図２の例では、ユーザＵ１は、クレジットカードの番号を調べるために、公共の場で端末装置１０_１を使用する。図２の例では、ユーザＵ２が、端末装置１０_１の近傍に位置する。ユーザＵ２は、ユーザＵ１とは親しくないユーザである。図２の例では、ユーザＵ１は、ユーザＵ２が端末装置１０_１の近傍に位置していることに気づいていない。ユーザＵ１は、端末装置１０_１に向かって「ＳＳ１、クレジットカードの番号を教えて」と発話する。

図２の例では、決定装置１００は、端末装置１０_１を介して、音声アシスタントサービスをユーザＵ１に提供する。例えば、ユーザＵ１の発話に由来する音声信号が端末装置１０_１から送信された場合に、決定装置１００は、音声信号を音声認識し、ユーザＵ１の発話内容を示すテキストデータ（例えば、「クレジットカードの番号を教えて」）を生成する。そして、決定装置１００は、生成されたテキストデータに基づいて、ユーザＵ１の要求に対する応答処理を実行する。

図２の例では、決定装置１００は、対話モデル記憶部１２３を有する。対話モデル記憶部１２３は、クレジットカード管理に関する対話モデルを記憶する。クレジットカード管理に関する対話モデルは、サンプル発話「クレジットカードの「スロット名」を教えて」を含む。「スロット名」は、「番号」、「暗証番号」、「セキュリティコード」等のテキストに対応する可変部分である。

図２の例では、決定装置１００は、機能情報記憶部１２２を有する。機能情報記憶部１２２は、クレジットカードを管理するための機能に関する情報である「クレジットカード管理の機能情報」を記憶する。クレジットカード管理の機能情報は、クレジットカード管理に関する対話モデルに含まれるサンプル発話に対応する応答処理を示す。加えて、クレジットカード管理の機能情報は、サンプル発話に対応する応答処理を実行するための条件と、サンプル発話に対応する応答の出力態様とを示す。

より具体的には、クレジットカード管理の機能情報は、サンプル発話「クレジットカードの「スロット名」を教えて」に対応する応答処理が、「スロット名」に対応するクレジットカード情報の検索であることを示す。加えて、クレジットカード管理の機能情報は、かかるサンプル発話に対応する応答処理を実行するための条件が、「人感センサによって、端末装置１０_１のユーザ以外のユーザの存在が検知されていない」という条件であることを示す。また、クレジットカード管理の機能情報は、ユーザの発話の状況を示す状況情報がかかる条件を満たさない場合における出力態様が、音声「他の人がいるので話せません」が端末装置１０_１を介して出力される出力態様であることを示す。

ところで、図２の例では、ユーザＵ１とは親しくないユーザＵ２が、端末装置１０_１の近傍に位置する。このため、端末装置１０_１が音声「クレジットカードの番号は、＊＊＊＊です（＊＊＊＊は、例えば、所定の１６ケタの番号）」を出力した場合には、クレジットカードの番号がユーザＵ２に知られてしまうことが考えられる。しかし、クレジットカード番号の漏洩は、セキュリティ上好ましくない。以下に説明される決定処理の一例では、端末装置１０_１がユーザＵ１の状況に適した態様で応答を出力するように、ユーザＵ１の発話の状況に基づいて、ユーザＵ１の発話に対する応答の出力態様が決定される。

はじめに、決定装置１００は、ユーザＵ１の発話「ＳＳ１、クレジットカードの番号を教えて」に由来する音声信号を、端末装置１０_１から受信する。加えて、決定装置１００は、ユーザＵ１の発話の状況を示す状況情報を、端末装置１０_１から受信する。図２の例では、端末装置１０_１に搭載された人感センサによってユーザＵ１以外のユーザ（すなわち、ユーザＵ２）の存在が検知されたことを示す状況情報を、端末装置１０_１から受信する。

次いで、決定装置１００は、端末装置１０_１から受信された音声信号を音声認識し、ユーザＵ１の発話内容を示すテキストデータ「クレジットカードの番号を教えて」を生成する。

次いで、決定装置１００は、対話モデル記憶部１２３に記憶された対話モデルである「クレジットカード管理に関する対話モデル」を参照することで、生成されたテキストデータにマッチするサンプル発話を特定する。図２の例では、決定装置１００は、サンプル発話「クレジットカードの「スロット名」を教えて」を、生成されたテキストデータにマッチするサンプル発話として特定する。そして、決定装置１００は、生成されたテキストデータと、特定されたサンプル発話とに基づいて、「スロット名」が「番号」であると特定する。

次いで、決定装置１００は、機能情報記憶部１２２に記憶されたクレジットカード管理の機能情報を参照することで、スロット名が特定されたサンプル発話「クレジットカードの「番号」を教えて」に対応する応答処理を決定する。図２の例では、決定装置１００は、所定の記憶装置からクレジットカードの番号を検索することを、応答処理として決定する。

次いで、決定装置１００は、機能情報記憶部１２２に記憶されたクレジットカード管理の機能情報を参照することで、端末装置１０_１から受信された状況情報が、決定された応答処理を実行するための条件を満たすか否かを判定する。上述のように、ユーザＵ１の状況情報は、人感センサによってユーザＵ１以外のユーザの存在が検知されたことを示す。一方、決定された応答処理を実行するための実行条件は、「人感センサによって、端末装置１０_１のユーザ以外のユーザの存在が検知されていない」という条件である。したがって、決定装置１００は、状況情報が、決定された応答処理を実行するための条件を満たさないと判定する。

次いで、決定装置１００は、機能情報記憶部１２２に記憶されたクレジットカード管理の機能情報を参照することで、スロット名が特定されたサンプル発話「クレジットカードの「番号」を教えて」に対応する応答の出力態様を決定する。図２の例では、受信された状況情報が、決定された応答処理を実行するための条件を満たさないと判定された。したがって、決定装置１００は、音声「他の人がいるので話せません」が端末装置１０_１を介して出力されるように、応答の出力態様を決定する。

その後、決定装置１００は、端末装置１０_１が音声「他の人がいるので話せません」を出力するように、かかる音声に対する音声データを端末装置１０_１に送信する。このようにして、決定装置１００は、クレジットカードの番号が端末装置１０_１を介して出力されない理由を示す情報を、ユーザＵ１に提供することができる。

上述のように、実施形態に係る決定装置１００は、ユーザの発話に由来する音声信号を、端末装置１０_１から受信する。加えて、端末装置１０_１に搭載された人感センサによってかかるユーザ以外のユーザの存在が検知されたか否かを示す状況情報を、端末装置１０_１から受信する。そして、決定装置１００は、受信された状況情報が、受信された音声信号に対応する処理を実行するための条件を満たすか否かを判定し、判定結果に基づいて、ユーザの発話に対する応答の出力態様を決定する。これにより、決定装置１００は、ユーザの発話状況に相応しい情報を、ユーザに提供することができる。すなわち、決定装置は、コンテキストにおいて適切な応答を行うことができる。以下、このような決定処理を実現する決定装置１００について詳細に説明する。

〔３．決定装置の構成〕
次に、図３を参照して、実施形態に係る決定装置１００の構成例について説明する。図３は、実施形態に係る決定装置１００の構成例を示す図である。図３に示すように、決定装置１００は、通信部１１０と、記憶部１２０と、制御部１３０とを有する。なお、決定装置１００は、決定装置１００を利用する管理者等から各種操作を受け付ける入力部（例えば、キーボードやマウス等）や、各種情報を表示するための表示部（液晶ディスプレイ等）を有してもよい。

（通信部１１０）
通信部１１０は、例えば、ＮＩＣ（Network Interface Card）等によって実現される。通信部１１０は、ネットワーク網と有線又は無線により接続され、ネットワーク網を介して、端末装置１０との間で情報の送受信を行う。

（記憶部１２０）
記憶部１２０は、例えば、ＲＡＭ（Random Access Memory)、フラッシュメモリ（Flash Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。図４に示すように、記憶部１２０は、ユーザ情報記憶部１２１と、機能情報記憶部１２２と、対話モデル記憶部１２３とを有する。

（ユーザ情報記憶部１２１）
図４は、実施形態に係るユーザ情報記憶部１２１の一例を示す図である。ユーザ情報記憶部１２１は、端末装置１０のユーザのユーザ情報を記憶する。例えば、ユーザ情報記憶部１２１は、受信部１３１によって受信されたユーザ情報を記憶する。図４の例では、ユーザ情報記憶部１２１には、「ユーザ情報」が「ユーザＩＤ」ごとに記憶される。例示として、「ユーザ情報」には、項目「コンテキスト情報」が含まれる。

「ユーザＩＤ」は、ユーザを識別するための識別子を示す。「コンテキスト情報」は、ユーザの発話に関するコンテキスト情報を示す。例えば、図５は、ユーザＩＤ「Ｕ１」で識別されるユーザの発話に関するコンテキストが、「コンテキストＣ１」であることを示している。

本明細書で使用される「コンテキスト」という用語は、発話の文脈、発話の背景、発話間の関係、発話の発話状況、ユーザが置かれた状況、ユーザが置かれた環境、ユーザの行動パターン、ユーザの興味や関心等を表す。例えば、来客のコンテキストは、ユーザと親しい人の訪問（例えば、家族、友達または恋人の訪問）、ユーザとは親しくない人の訪問（例えば、販売員の訪問）等を含む。また、例えば、場所のコンテキストは、私的な空間、公的な空間（すなわち、公共の場）等を含む。

一例では、「コンテキストＣ１」は、他のユーザが、端末装置１０の周囲環境に存在するという状況に対応する。例えば、「コンテキストＣ１」は、人感センサによって端末装置１０のユーザ以外のユーザの存在を検知するというコンテキストである。ユーザが公共の場で端末装置１０を使用する場合には、かかるコンテキストは、例えば、端末装置１０のユーザとは親しくない人が端末装置１０の近傍に位置するという状況に対応する。また、端末装置１０のユーザが一人暮らしをしている場合には、かかるコンテキストは、例えば、端末装置１０のユーザとは親しくない人が端末装置１０のユーザの家を訪問したという状況に対応する。

（機能情報記憶部１２２）
図５は、実施形態に係る機能情報記憶部１２２の一例を示す図である。機能情報記憶部１２２は、端末装置１０を介して提供される各種機能またはサービスの機能情報を記憶する。例えば、機能情報記憶部１２２は、受信部１３１によって受信された機能情報を記憶する。図５の例では、機能情報記憶部１２２には、「機能情報」が「機能ＩＤ」ごとに記憶される。例示として、「機能情報」には、項目「機能」が含まれる。

「機能ＩＤ」は、端末装置１０を介して提供される各種機能またはサービスを識別するための識別子を示す。「機能」は、端末装置１０を介して提供される各種機能またはサービスを示す。例えば、図５は、機能ＩＤ「Ｆ１」で識別される機能が、「クレジットカード管理ＣＭ１」であることを示している。

一例では、機能「クレジットカード管理ＣＭ１」は、所定のデータベースからクレジットカードに関する情報を検索する機能である。

機能情報記憶部１２２に記憶された機能情報は、対話モデル記憶部１２３に記憶された対話モデルに含まれるサンプル発話に対応する応答処理を示す。加えて、機能情報記憶部１２２に記憶された機能情報は、対話モデル記憶部１２３に記憶されたサンプル発話に対応する応答処理を実行するための条件と、対話モデル記憶部１２３に記憶された対話モデルに含まれるサンプル発話に対応する応答の出力態様とを示す。

例えば、機能「クレジットカード管理ＣＭ１」の機能情報は、サンプル発話「クレジットカードの「スロット名」を教えて」に対応する応答処理が、「スロット名」に対応するクレジットカード情報の検索であることを示す。「スロット名」に対応するクレジットカード情報の検索は、例えば、所定のデータベースからクレジットカードに関する情報を検索することである。

また、例えば、機能「クレジットカード管理ＣＭ１」の機能情報は、サンプル発話「クレジットカードの「スロット名」を教えて」に対応する応答処理を実行するための条件が、「人感センサによって、端末装置のユーザ以外のユーザの存在が検知されていない」という条件であることを示す。より具体的には、かかる条件は、「２人以上の人が、人感センサの検知距離の範囲内に存在しない」という条件を示す。

また、例えば、機能「クレジットカード管理ＣＭ１」の機能情報は、ユーザの発話の状況を示す状況情報が、サンプル発話「クレジットカードの「スロット名」を教えて」に対応する応答処理を実行するための条件を満たす場合における出力態様が、音声「クレジットカードの「スロット」は＊＊＊＊です（＊＊＊＊は、例えば、所定の１６ケタの番号）です」が端末装置１０を介して出力される出力態様であることを示す。加えて、機能「クレジットカード管理ＣＭ１」の機能情報は、かかる状況情報が、かかる条件を満たさない場合における出力態様が、音声「他の人がいるので話せません」が端末装置１０を介して出力される出力態様であることを示す。

（対話モデル記憶部１２３）
図３に戻ると、対話モデル記憶部１２３は、端末装置１０を介して提供される各種機能またはサービスに関する対話モデルを記憶する。例えば、対話モデルは、端末装置１０を介して提供される各種機能またはサービスに関連する複数のサンプル発話を含む。一例では、機能「クレジットカード管理ＣＭ１」に関する対話モデルは、サンプル発話「クレジットカードの「スロット名」を教えて」を含む。

対話モデル記憶部１２３は、学習部１３６によって学習された対話モデルを記憶してもよい。また、対話モデル記憶部１２３は、受信部１３１によって受信された対話モデルを記憶してもよい。対話モデル記憶部１２３は、受信部１３１によって受信された訓練データを記憶してもよい。

（制御部１３０）
制御部１３０は、コントローラ（controller）であり、例えば、ＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro Processing Unit）等のプロセッサによって、決定装置１００内部の記憶装置に記憶されている各種プログラムがＲＡＭ等を作業領域として実行されることにより実現される。また、制御部１３０は、コントローラ（controller）であり、例えば、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）等の集積回路により実現されてもよい。

（受信部１３１）
受信部１３１は、端末装置１０から、音声信号を受信する。受信部１３１は、受信された音声信号を、ユーザ情報記憶部１２１に格納してもよい。一例では、受信部１３１は、発話「ＳＳ１、クレジットカードの番号を教えて」に由来する音声信号を受信する。

受信部１３１は、ユーザの発話に関するコンテキスト情報を、端末装置１０から受信する。受信部１３１は、受信されたコンテキスト情報を、ユーザ情報記憶部１２１に格納してもよい。受信部１３１は、音声信号を、コンテキスト情報として受信してもよい。

例えば、受信部１３１は、ユーザの発話の発話状況を示すコンテキスト情報を受信する。より具体的には、受信部１３１は、ユーザの発話の状況を示す状況情報を、端末装置１０から受信する。一例では、受信部１３１は、端末装置１０に搭載された人感センサによって端末装置１０のユーザ以外のユーザの存在が検知されたことを示す状況情報を、端末装置１０から受信する。

受信部１３１は、所定のサーバ装置から、対話モデルを受信してもよい。また、受信部１３１は、所定のサーバ装置から、対話モデルを学習するための訓練データを受信してもよい。

（取得部１３２）
取得部１３２は、ユーザの発話に関するコンテキスト情報を取得する。取得部１３２は、例えば、受信部１３１によって受信されたコンテキスト情報を取得する。取得部１３２は、受信部１３１に受信された音声信号を、コンテキスト情報として取得してもよい。取得部１３２は、ユーザ情報記憶部１２１から、コンテキスト情報を取得してもよい。また、特定部１３３によって生成されたコンテキスト情報を取得してもよい。

（特定部１３３）
特定部１３３は、受信部１３１によって受信された音声信号に基づいて、ユーザの発話に関するコンテキストを特定してもよい。特定部１３３は、特定されたコンテキストを示すコンテキスト情報を生成してもよい。

（決定部１３４）
決定部１３４は、取得部１３２によって取得されたコンテキスト情報に基づいて、ユーザの発話に対する応答の出力態様を決定する。例えば、決定部１３４は、コンテキスト情報と、ユーザの発話に対して応答するための条件とに基づいて、出力態様を決定する。例えば、決定部１３４は、他のユーザがユーザの周囲環境に存在することを示すコンテキスト情報と、ユーザのプライバシに関する条件とに基づいて、出力態様を決定する。

決定部１３４は、対話モデル記憶部１２３に記憶された対話モデルを参照することで、生成部１３５によって生成されたテキストデータにマッチするサンプル発話を特定する。例えば、決定部１３４は、意味的構文解析（semantic parsing）等を用いて、生成されたテキストデータにマッチするサンプル発話を特定する。そして、決定部１３４は、機能情報記憶部１２２に記憶された機能情報を参照することで、サンプル発話に対応する応答処理を決定する。

一例では、決定部１３４は、対話モデル記憶部１２３に記憶された機能「クレジットカード管理ＣＭ１」に関する対話モデルを参照することで、生成部１３５によって生成されたテキストデータ「クレジットカードの番号を教えて」にマッチするサンプル発話「クレジットカードの「スロット名」を教えて」を特定する。

次いで、決定部１３４は、生成されたテキストデータと、特定されたサンプル発話とに基づいて、「スロット名」が「番号」であると特定する。

次いで、決定部１３４は、機能情報記憶部１２２に記憶された機能「クレジットカード管理ＣＭ１」の機能情報を参照することで、スロット名が特定されたサンプル発話「クレジットカードの「番号」を教えて」に対応する応答処理を決定する。具体的には、決定部１３４は、所定の記憶装置からクレジットカードの番号を検索することを、応答処理として決定する。

次いで、決定部１３４は、機能情報記憶部１２２に記憶された機能「クレジットカード管理ＣＭ１」の機能情報を参照することで、受信部１３１によって受信された状況情報が、決定された応答処理を実行するための条件を満たすか否かを判定する。この場合、決定部１３４は、端末装置１０に搭載された人感センサによって端末装置１０のユーザ以外のユーザの存在が検知されたことを示す状況情報が、「人感センサによって、端末装置のユーザ以外のユーザの存在が検知されていない」という条件を満たさないと判定する。

次いで、決定部１３４は、機能情報記憶部１２２に記憶された機能「クレジットカード管理ＣＭ１」の機能情報を参照することで、スロット名が特定されたサンプル発話「クレジットカードの「番号」を教えて」に対応する応答の出力態様を決定する。具体的には、決定部１３４は、音声「他の人がいるので話せません」が端末装置１０を介して出力されるように、応答の出力態様を決定する。

決定部１３４は、学習部１３６によって学習された判定モデルを用いて、ユーザの発話に対する応答の出力態様を決定してもよい。例えば、決定部１３４は、判定モデルに、ユーザの発話に関するコンテキストを示すテキストデータに対応する埋め込みベクトルを入力することによって、所定の処理（例えば、サンプル発話に対応する所定の応答処理）がかかるコンテキストに適しているか否かを示す評価値を出力する。決定部１３４は、出力された評価値が閾値以上である場合に、かかる所定の応答処理を実行する。

（生成部１３５）
生成部１３５は、ユーザの発話内容を示すテキストデータを生成する。例えば、生成部１３５は、受信部１３１によって音声信号が受信された場合に、音声信号を音声認識し、ユーザの発話内容を示すテキストデータを生成する。より具体的には、生成部１３５は、音声認識モデルを用いて、ユーザの発話内容を示すテキストデータを生成する。例えば、ユーザの音声信号の音響特徴量が音声認識モデルに入力された場合に、音声認識モデルは、ユーザの発話内容を示すテキストデータを音声認識結果として出力する。

生成部１３５は、ユーザの音声信号を音声認識サーバに送信してもよい。この場合、ユーザの音声信号の受信に応じて、音声認識サーバは、ユーザの音声信号を音声認識し、ユーザの発話内容を示すテキストデータを生成する。その後、受信部１３１は、生成されたテキストデータを音声認識サーバから受信し、受信されたテキストデータを、生成部１３５に出力する。

生成部１３５は、生成されたユーザの発話内容を示すテキストデータがウェイクワードを含むか否かを判定する。テキストデータがウェイクワードを含むと判定された場合に、生成部１３５は、ウェイクワードが除かれたテキストデータを生成する。このようなウェイクワードが除かれたテキストデータは、ペイロード（payload）と呼ばれる。

一例では、生成部１３５は、発話「ＳＳ１、クレジットカードの番号を教えて」に由来する音声信号を音声認識し、テキストデータ「ＳＳ１、クレジットカードの番号を教えて」を生成する。生成部１３５は、生成されたテキストデータがウェイクワード「ＳＳ１」を含むか否かを判定する。生成されたテキストデータがウェイクワード「ＳＳ１」を含むと判定されたことに応じて、生成部１３５は、ペイロード「クレジットカードの番号を教えて」を生成する。

（学習部１３６）
学習部１３６は、ユーザの発話に対応する処理がユーザのコンテキストに適しているか否かを判定する判定モデルを学習する。ユーザのコンテキストは、例えば、ユーザが置かれた状況、ユーザが置かれた環境、ユーザの行動パターン、ユーザの興味や関心等である。例えば、学習部１３６は、ユーザのコンテキストを示すコンテキストデータと、ユーザの発話に対応する処理を示す処理データと、ユーザの発話に対応する処理がユーザのコンテキストに適しているか否かを示す評価値とを含む訓練データを用いて、判定モデルを学習する。

判定モデルは、例えば、ＤＮＮ（Deep Neural Network）モデルである。この場合、学習部１３６は、ユーザのコンテキストを示すコンテキストデータと、ユーザの発話に対応する処理を示す処理データとを、訓練データの入力として用いる。また、学習部１３６は、ユーザの発話に対応する処理がユーザのコンテキストに適しているか否かを示す評価値を、訓練データの出力として用いる。

一例では、学習部１３６は、コンテキストデータに対応する埋め込みベクトル（例えば、分散表現）と、処理データに対応する埋め込みベクトルとを、訓練データの入力として用いる。例えば、ユーザのコンテキストを示すテキストデータに含まれる複数の単語の埋め込みベクトルの平均と、ユーザの発話に対応する処理を示すテキストデータに含まれる複数の単語の平均とを、訓練データの入力として用いる。さらに、学習部１３６は、クラウドソーシングのプラットフォームを提供する。これにより、アノテータが、ユーザの発話に対応する処理に、かかるユーザの発話に対応する処理がユーザのコンテキストに適しているか否かを示す評価値を、正解ラベルとして付与することができる。学習部１３６は、評価値に対応する交差エントロピー等に基づいて、判定モデルを学習することができる。

（提供部１３７）
提供部１３７は、端末装置１０を介して、機能やサービスをユーザに提供する。例えば、提供部１３７は、決定部１３４によって決定された応答処理を実行する。また、例えば、提供部１３７は、決定部１３４によって決定された応答の出力態様で、ユーザの発話に対する応答を出力する。

一例では、提供部１３７は、端末装置１０を介して、機能「クレジットカード管理ＣＭ１」をユーザに提供する。この例では、決定部１３４によって、受信された状況情報が、決定部１３４によって決定された応答処理を実行するための条件を満たさないと判定された場合に、提供部１３７は、決定部１３４によって決定された応答処理を実行しない。そして、提供部１３７は、端末装置１０が音声「他の人がいるので話せません」を出力するように、かかる音声に対する音声データを端末装置１０に送信する。

〔４．決定処理のフロー〕
次に、実施形態に係る決定装置１００による決定処理の手順について説明する。図６は、実施形態に係る決定装置１００による決定処理手順を示すフローチャートである。

図６に示すように、はじめに、決定装置１００は、ユーザの発話に関するコンテキスト情報を取得する（ステップＳ１０１）。

次いで、決定装置１００は、取得されたコンテキスト情報に基づいて、ユーザの発話に対する応答の出力態様を決定する（ステップＳ１０２）。例えば、決定装置１００は、コンテキスト情報と、ユーザの発話に対して応答するための条件とに基づいて、出力態様を決定する。例えば、決定装置１００は、他のユーザがユーザの周囲環境に存在することを示すコンテキスト情報と、ユーザのプライバシに関する条件とに基づいて、出力態様を決定する。

〔５．変形例〕
上述の実施形態に係る決定装置１００は、上記の実施形態以外にも、種々の異なる形態で実施されてよい。そこで、以下では、上記の決定装置１００の他の実施形態について説明する。

〔５－１．ユーザの利用範囲〕
決定部１３４は、発話者がユーザであることを示すコンテキスト情報と、ユーザの発話に対して応答するための条件であって、かかるユーザの利用範囲に関する条件とに基づいて、出力態様を決定してもよい。

一例では、コンテキスト情報は、発話者が子供であることを示す。また、ユーザの利用範囲に関する条件は、「子供は、自分で情報を調べる」という条件である。この例では、子供が端末装置１０に向かって「ＳＳ１、米国の初代大統領を教えて」と発話した場合に、決定部１３４は、音声「自分で調べましょう」が端末装置１０を介して出力されるように、応答の出力態様を決定する。

別の例では、コンテキスト情報は、発話者が大人であることを示す。また、ユーザの利用範囲に関する条件は、「子供は、自分で情報を調べる」という条件である。この例では、大人が端末装置１０に向かって「ＳＳ１、米国の初代大統領を教えて」と発話した場合に、決定部１３４は、音声「ワシントンです」が端末装置１０を介して出力されるように、応答の出力態様を決定する。

〔５－２．周囲のユーザに応じた出力態様の制御〕
決定部１３４は、他のユーザがユーザの周囲環境に存在することを示すコンテキスト情報と、かかるユーザの発話に対して応答するための条件であって、かかる他のユーザに関連する情報に関する条件とに基づいて、出力態様を決定してもよい。

一例では、かかる他のユーザに関連する情報に関する条件は、「他のユーザが、他のユーザに関連する時事問題に関するニュースを聞かない」という条件である。この例では、受信部１３１によって、かかる他のユーザの発話に由来する音声信号が受信された場合には、決定部１３４は、他のユーザに関連する時事問題に関するニュースが端末装置１０を介して出力されるように、応答の出力態様を決定する。

特定部１３３は、受信部１３１によって受信された音声信号に基づいて、他のユーザがユーザの周囲環境に存在することを示すコンテキスト情報を生成してもよい。例えば、特定部１３３は、話者照合アルゴリズムを用いて、他のユーザを識別し、識別結果に基づいて、コンテキスト情報を生成してもよい。

〔５－３．音量の調整〕
決定部１３４は、ユーザの発話に対応する音声信号を受信した端末装置１０が、かかるユーザの発話に対して応答するための条件であって、かかるユーザの発話に対する応答として出力される音声信号の強度に関する条件に応じた出力態様で、ユーザの発話に対する応答を出力することを決定してもよい。

一例では、ユーザの発話に対する応答として出力される音声信号の強度に関する条件は、「端末装置１０のユーザ以外のユーザであって、人感センサによって検知されたユーザに音声が聞かれないように、端末装置１０が、音声を出力する」という条件である。この例では、決定部１３４は、端末装置１０が、端末装置１０に搭載されたパラメトリックスピーカ（指向性スピーカとも呼ばれる）を用いて、出力された音声が、人感センサによって検知されたユーザに聞こえないようにするように、応答の出力態様を決定する。決定部１３４は、音声が人感センサによって検知されたユーザに聞かれないように、音声のボリュームを調整してもよい。

〔５－４．他の装置からの出力〕
決定部１３４は、ユーザ以外の他のユーザが発話に対する応答として出力される情報を認識できないように、発話に対応する音声信号を受信した端末装置１０以外の装置が、発話に対する応答を出力することを決定してもよい。

一例では、決定部１３４は、端末装置１０のユーザ以外のユーザであって、人感センサによって検知されたユーザが発話に対する応答として出力される情報を認識できないように、他のスマートデバイス（例えば、スマートフォンやスマートテレビ等）が、発話に対する応答を出力することを決定する。例えば、決定部１３４は、人感センサによって検知されたユーザが情報を認識できないように、他のスマートデバイスが他のスマートデバイスのディスプレイに情報を表示することを決定する。

例えば、決定部１３４は、人感センサによって検知されたユーザが、発話「クレジットカードの番号を教えて」に対する応答として出力される情報を認識できないように、端末装置１０のユーザのスマートフォンのディスプレイにクレジットカードの番号を表示することを決定する。

〔５－５．その他〕
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の一部を手動的に行うこともできる。あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。

例えば、図３に示した記憶部１２０の一部又は全部は、決定装置１００によって保持されるのではなく、ストレージサーバ等に保持されてもよい。この場合、決定装置１００は、ストレージサーバにアクセスすることで、ユーザ情報や機能情報等の各種情報を取得する。

〔５－６．ハードウェア構成〕
また、上述してきた実施形態に係る決定装置１００は、例えば図７に示すような構成のコンピュータ１０００によって実現される。図７は、ハードウェア構成の一例を示す図である。コンピュータ１０００は、出力装置１０１０、入力装置１０２０と接続され、演算装置１０３０、一次記憶装置１０４０、二次記憶装置１０５０、出力ＩＦ（Interface）１０６０、入力ＩＦ１０７０、ネットワークＩＦ１０８０がバス１０９０により接続された形態を有する。

演算装置１０３０は、一次記憶装置１０４０や二次記憶装置１０５０に格納されたプログラムや入力装置１０２０から読み出したプログラム等に基づいて動作し、各種の処理を実行する。一次記憶装置１０４０は、ＲＡＭ等、演算装置１０３０が各種の演算に用いるデータを一時的に記憶するメモリ装置である。また、二次記憶装置１０５０は、演算装置１０３０が各種の演算に用いるデータや、各種のデータベースが登録される記憶装置であり、ＲＯＭ(Read Only Memory)、ＨＤＤ、フラッシュメモリ等により実現される。

出力ＩＦ１０６０は、モニタやプリンタといった各種の情報を出力する出力装置１０１０に対し、出力対象となる情報を送信するためのインタフェースであり、例えば、ＵＳＢ（Universal Serial Bus）やＤＶＩ（Digital Visual Interface）、ＨＤＭＩ（登録商標）（High Definition Multimedia Interface）といった規格のコネクタにより実現される。また、入力ＩＦ１０７０は、マウス、キーボード、およびスキャナ等といった各種の入力装置１０２０から情報を受信するためのインタフェースであり、例えば、ＵＳＢ等により実現される。

なお、入力装置１０２０は、例えば、ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disc）、ＰＤ（Phase change rewritable Disk）等の光学記録媒体、ＭＯ（Magneto-Optical disk）等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等から情報を読み出す装置であってもよい。また、入力装置１０２０は、ＵＳＢメモリ等の外付け記憶媒体であってもよい。

ネットワークＩＦ１０８０は、ネットワークＮを介して他の機器からデータを受信して演算装置１０３０へ送り、また、ネットワークＮを介して演算装置１０３０が生成したデータを他の機器へ送信する。

演算装置１０３０は、出力ＩＦ１０６０や入力ＩＦ１０７０を介して、出力装置１０１０や入力装置１０２０の制御を行う。例えば、演算装置１０３０は、入力装置１０２０や二次記憶装置１０５０からプログラムを一次記憶装置１０４０上にロードし、ロードしたプログラムを実行する。

例えば、コンピュータ１０００が決定装置１００として機能する場合、コンピュータ１０００の演算装置１０３０は、一次記憶装置１０４０上にロードされたプログラムを実行することにより、制御部１３０の機能を実現する。

〔６．効果〕
上述してきたように、実施形態に係る決定装置１００は、取得部１３２と、決定部１３４とを有する。取得部１３２は、ユーザの発話に関するコンテキスト情報を取得する。決定部１３４は、取得部１３２によって取得されたコンテキスト情報に基づいて、ユーザの発話に対する応答の出力態様を決定する。このため、決定装置１００は、ユーザの発話状況に相応しい情報を、ユーザに提供することができる。

また、実施形態に係る決定装置１００において、決定部１３４は、コンテキスト情報と、ユーザの発話に対して応答するための条件とに基づいて、出力態様を決定する。

また、実施形態に係る決定装置１００において、決定部１３４は、他のユーザがユーザの周囲環境に存在することを示すコンテキスト情報と、ユーザのプライバシに関する条件とに基づいて、出力態様を決定する。

上述した各処理により、決定装置１００は、ユーザのプライバシに配慮しつつ、ユーザの発話に応答することができる。

また、実施形態に係る決定装置１００において、決定部１３４は、発話者がユーザであることを示すコンテキスト情報と、ユーザの利用範囲に関する条件とに基づいて、出力態様を決定する。このため、決定装置１００は、ユーザの発話に対する応答の態様を、ユーザごとに適切に変化させることができる。

また、実施形態に係る決定装置１００において、決定部１３４は、他のユーザがユーザの周囲環境に存在することを示すコンテキスト情報と、他のユーザに関連する情報に関する条件とに基づいて、出力態様を決定する。

また、実施形態に係る決定装置１００において、決定部１３４は、発話に対応する音声信号を受信した端末装置が、ユーザの発話に対する応答として出力される音声信号の強度に関する条件に応じた出力態様で、発話に対する応答を出力することを決定する。

また、実施形態に係る決定装置１００において、決定部１３４は、ユーザ以外の他のユーザが発話に対する応答として出力される情報を認識できないように、発話に対応する音声信号を受信した端末装置以外の装置が、発話に対する応答を出力することを決定する。

上述した各処理により、決定装置１００は、ユーザのコンテキストに応じた範囲で、ユーザの発話に対する応答を行うことができる。

以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。

また、上述した決定装置１００は、複数のサーバコンピュータで実現してもよく、また、機能によっては外部のプラットフォーム等をＡＰＩ（Application Programming Interface）やネットワークコンピューティングなどで呼び出して実現するなど、構成は柔軟に変更できる。

また、上述してきた「部（section、module、unit）」は、「手段」や「回路」などに読み替えることができる。例えば、受信部は、受信手段や受信回路に読み替えることができる。

１ネットワークシステム
１０端末装置
１００決定装置
１２０記憶部
１２１ユーザ情報記憶部
１２２機能情報記憶部
１２３対話モデル記憶部
１３０制御部
１３１受信部
１３２取得部
１３３特定部
１３４決定部
１３５生成部
１３６学習部
１３７提供部

Claims

ユーザの発話に関するコンテキスト情報であって、前記ユーザの発話の状況を示すコンテキスト情報を取得する取得部と、
前記取得部によって取得されたコンテキスト情報が、前記ユーザの発話に対して応答するための条件であって、人感センサによって、他のユーザの存在が検知されていないという条件を満たすかを判定し、前記コンテキスト情報が前記条件を満たす場合に、前記ユーザの発話に対応する応答処理の結果を通知する音声が、前記ユーザの発話に対応する音声信号を受信した端末装置を介して出力されるように、前記ユーザの発話に対する応答の出力態様を決定し、前記コンテキスト情報が前記条件を満たさない場合に、前記端末装置が前記ユーザの発話に対応する応答処理を実行しないことを通知する音声が、前記端末装置を介して出力されるように、前記ユーザの発話に対する応答の出力態様を決定する決定部と、
を備えることを特徴とする決定装置。
前記決定部は、
前記コンテキスト情報と、前記ユーザの発話に対して応答するための条件とに基づいて、前記出力態様を決定する
ことを特徴とする請求項１に記載の決定装置。
前記決定部は
他のユーザが前記ユーザの周囲環境に存在することを示す前記コンテキスト情報と、前記ユーザのプライバシに関する前記条件とに基づいて、前記出力態様を決定する
ことを特徴とする請求項２に記載の決定装置。
前記決定部は
発話者が前記ユーザであることを示す前記コンテキスト情報と、前記ユーザの利用範囲に関する前記条件とに基づいて、前記出力態様を決定する
ことを特徴とする請求項２又は３に記載の決定装置。
前記決定部は、
他のユーザが前記ユーザの周囲環境に存在することを示す前記コンテキスト情報と、当該他のユーザに関連する情報に関する前記条件とに基づいて、前記出力態様を決定する
ことを特徴とする請求項２～４のうちいずれか１つに記載の決定装置。
前記決定部は、
前記発話に対応する音声信号を受信した端末装置が、前記ユーザの発話に対する応答として出力される音声信号の強度に関する前記条件に応じた前記出力態様で、前記発話に対する応答を出力することを決定する
ことを特徴とする請求項２～５のうちいずれか１つに記載の決定装置。
前記決定部は、
前記ユーザ以外の他のユーザが前記発話に対する応答として出力される情報を認識できないように、前記発話に対応する音声信号を受信した端末装置以外の装置が、前記発話に対する応答を出力することを決定する
ことを特徴とする請求項２～６のうちいずれか１つに記載の決定装置。
ユーザの発話に関するコンテキスト情報であって、前記ユーザの発話の状況を示すコンテキスト情報を取得する取得工程と、
前記取得工程によって取得されたコンテキスト情報が、前記ユーザの発話に対して応答するための条件であって、人感センサによって、他のユーザの存在が検知されていないという条件を満たすかを判定し、前記コンテキスト情報が前記条件を満たす場合に、前記ユーザの発話に対応する応答処理の結果を通知する音声が、前記ユーザの発話に対応する音声信号を受信した端末装置を介して出力されるように、前記ユーザの発話に対する応答の出力態様を決定し、前記コンテキスト情報が前記条件を満たさない場合に、前記端末装置が前記ユーザの発話に対応する応答処理を実行しないことを通知する音声が、前記端末装置を介して出力されるように、前記ユーザの発話に対する応答の出力態様を決定する決定工程と、
を含むことを特徴とする決定方法。
ユーザの発話に関するコンテキスト情報であって、前記ユーザの発話の状況を示すコンテキスト情報を取得する取得手順と、
前記取得手順によって取得されたコンテキスト情報が、前記ユーザの発話に対して応答するための条件であって、人感センサによって、他のユーザの存在が検知されていないという条件を満たすかを判定し、前記コンテキスト情報が前記条件を満たす場合に、前記ユーザの発話に対応する応答処理の結果を通知する音声が、前記ユーザの発話に対応する音声信号を受信した端末装置を介して出力されるように、前記ユーザの発話に対する応答の出力態様を決定し、前記コンテキスト情報が前記条件を満たさない場合に、前記端末装置が前記ユーザの発話に対応する応答処理を実行しないことを通知する音声が、前記端末装置を介して出力されるように、前記ユーザの発話に対する応答の出力態様を決定する決定手順と、
をコンピュータに実行させることを特徴とする決定プログラム。