JP7093266B2 - 決定装置、決定方法及び決定プログラム - Google Patents

決定装置、決定方法及び決定プログラム Download PDF

Info

Publication number
JP7093266B2
JP7093266B2 JP2018154264A JP2018154264A JP7093266B2 JP 7093266 B2 JP7093266 B2 JP 7093266B2 JP 2018154264 A JP2018154264 A JP 2018154264A JP 2018154264 A JP2018154264 A JP 2018154264A JP 7093266 B2 JP7093266 B2 JP 7093266B2
Authority
JP
Japan
Prior art keywords
user
utterance
response
determination
terminal device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018154264A
Other languages
English (en)
Other versions
JP2020030246A (ja
Inventor
孝太 坪内
学 山本
太士 岩▲瀬▼張
浩樹 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2018154264A priority Critical patent/JP7093266B2/ja
Publication of JP2020030246A publication Critical patent/JP2020030246A/ja
Application granted granted Critical
Publication of JP7093266B2 publication Critical patent/JP7093266B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • User Interface Of Digital Computer (AREA)

Description

本発明は、決定装置、決定方法及び決定プログラムに関する。
従来、ユーザの発話に対する応答の態様を制御する技術が提案されている。例えば、ユーザの発話に対して自然な相槌のタイミングを予測する技術が提案されている。
佐野正太郎、西出俊、奥乃博、尾形哲也"対話データの再帰結合神経回路による学習と相槌タイミング予測~音声特徴と視線特徴の影響~"[online]、[2018年8月7日検索]、インターネット(http://winnie.kuis.kyoto-u.ac.jp/members/okuno/Public/RSJ2011-Sano.pdf)
しかしながら、上記の従来技術では、ユーザの発話に対して適切な応答を行うことができるとは限らない。例えば、上記の従来技術では、自然な相槌のタイミングが、ユーザにとって適切な相槌のタイミングであるとは限らない。
本願は、上記に鑑みてなされたものであって、ユーザの発話に対して適切な応答を行うことを目的とする。
本願に係る決定装置は、ユーザの発話に関するコンテキスト情報を取得する取得部と、前記取得部によって取得されたコンテキスト情報に基づいて、前記ユーザの発話に対する応答の出力態様を決定する決定部とを備えることを特徴とする。
実施形態の一態様によれば、ユーザの発話に対して適切な応答を行うことができるという効果を奏する。
図1は、実施形態に係るネットワークシステムの構成例を示す図である。 図2は、実施形態に係る決定処理の一例を示す図である。 図3は、実施形態に係る決定装置の構成例を示す図である。 図4は、実施形態に係るユーザ情報記憶部の一例を示す図である。 図5は、実施形態に係る機能情報記憶部の一例を示す図である。 図6は、実施形態に係る決定装置による決定処理手順を示すフローチャートである。 図7は、ハードウェア構成の一例を示す図である。
以下に、本願に係る決定装置、決定方法及び決定プログラムを実施するための形態(以下、「実施形態」と呼ぶ)について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る決定装置、決定方法及び決定プログラムが限定されるものではない。また、各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略する。
〔1.ネットワークシステムの構成〕
まず、図1を参照して、実施形態に係るネットワークシステム1の構成について説明する。図1は、実施形態に係るネットワークシステム1の構成例を示す図である。図1に示すように、実施形態に係るネットワークシステム1には、端末装置10~10と、決定装置100とが含まれる(nは任意の自然数)。本明細書では、端末装置10~10を区別する必要がない場合は、端末装置10~10を「端末装置10」と総称する。端末装置10および決定装置100は、それぞれネットワークNと有線又は無線により接続される。図1中では図示していないが、ネットワークシステム1は、複数台の決定装置100を含んでもよい。
端末装置10は、ユーザによって利用される情報処理装置である。端末装置10は、スマートスピーカ、スマートフォン、デスクトップ型PC(Personal Computer)、ノート型PC、タブレット型PC、スマート家電、ロボットを含む、任意のタイプの情報処理装置であってもよい。
決定装置100は、各種機能またはサービスを端末装置10に提供するサーバ装置である。決定装置100は、ネットワークNを介して、有線又は無線により端末装置10と通信を行う。
〔2.決定処理〕
次に、図2を参照して、実施形態に係る決定処理の一例について説明する。図2は、実施形態に係る決定処理の一例を示す図である。
図2の例では、端末装置10は、音声アシスタントサービスに対応したスマートスピーカである。端末装置10は、ユーザU1によって利用される。ユーザU1は、端末装置10に向かって発話することにより、音声アシスタントと情報をやり取りすることができる。
図2の例では、音声アシスタントを起動させるためのウェイクワードは、「SS1」である。ユーザU1が音声アシスタントを介して機能やサービスを利用する場合に、ユーザU1は、ウェイクワード「SS1」を含む要求を発話する。例えば、ユーザU1がクレジットカード管理の機能を利用する場合に、ユーザU1は、「SS1、クレジットカードの番号を教えて」と発話する。
図2の例では、ユーザU1は、クレジットカードの番号を調べるために、公共の場で端末装置10を使用する。図2の例では、ユーザU2が、端末装置10の近傍に位置する。ユーザU2は、ユーザU1とは親しくないユーザである。図2の例では、ユーザU1は、ユーザU2が端末装置10の近傍に位置していることに気づいていない。ユーザU1は、端末装置10に向かって「SS1、クレジットカードの番号を教えて」と発話する。
図2の例では、決定装置100は、端末装置10を介して、音声アシスタントサービスをユーザU1に提供する。例えば、ユーザU1の発話に由来する音声信号が端末装置10から送信された場合に、決定装置100は、音声信号を音声認識し、ユーザU1の発話内容を示すテキストデータ(例えば、「クレジットカードの番号を教えて」)を生成する。そして、決定装置100は、生成されたテキストデータに基づいて、ユーザU1の要求に対する応答処理を実行する。
図2の例では、決定装置100は、対話モデル記憶部123を有する。対話モデル記憶部123は、クレジットカード管理に関する対話モデルを記憶する。クレジットカード管理に関する対話モデルは、サンプル発話「クレジットカードの「スロット名」を教えて」を含む。「スロット名」は、「番号」、「暗証番号」、「セキュリティコード」等のテキストに対応する可変部分である。
図2の例では、決定装置100は、機能情報記憶部122を有する。機能情報記憶部122は、クレジットカードを管理するための機能に関する情報である「クレジットカード管理の機能情報」を記憶する。クレジットカード管理の機能情報は、クレジットカード管理に関する対話モデルに含まれるサンプル発話に対応する応答処理を示す。加えて、クレジットカード管理の機能情報は、サンプル発話に対応する応答処理を実行するための条件と、サンプル発話に対応する応答の出力態様とを示す。
より具体的には、クレジットカード管理の機能情報は、サンプル発話「クレジットカードの「スロット名」を教えて」に対応する応答処理が、「スロット名」に対応するクレジットカード情報の検索であることを示す。加えて、クレジットカード管理の機能情報は、かかるサンプル発話に対応する応答処理を実行するための条件が、「人感センサによって、端末装置10のユーザ以外のユーザの存在が検知されていない」という条件であることを示す。また、クレジットカード管理の機能情報は、ユーザの発話の状況を示す状況情報がかかる条件を満たさない場合における出力態様が、音声「他の人がいるので話せません」が端末装置10を介して出力される出力態様であることを示す。
ところで、図2の例では、ユーザU1とは親しくないユーザU2が、端末装置10の近傍に位置する。このため、端末装置10が音声「クレジットカードの番号は、****です(****は、例えば、所定の16ケタの番号)」を出力した場合には、クレジットカードの番号がユーザU2に知られてしまうことが考えられる。しかし、クレジットカード番号の漏洩は、セキュリティ上好ましくない。以下に説明される決定処理の一例では、端末装置10がユーザU1の状況に適した態様で応答を出力するように、ユーザU1の発話の状況に基づいて、ユーザU1の発話に対する応答の出力態様が決定される。
はじめに、決定装置100は、ユーザU1の発話「SS1、クレジットカードの番号を教えて」に由来する音声信号を、端末装置10から受信する。加えて、決定装置100は、ユーザU1の発話の状況を示す状況情報を、端末装置10から受信する。図2の例では、端末装置10に搭載された人感センサによってユーザU1以外のユーザ(すなわち、ユーザU2)の存在が検知されたことを示す状況情報を、端末装置10から受信する。
次いで、決定装置100は、端末装置10から受信された音声信号を音声認識し、ユーザU1の発話内容を示すテキストデータ「クレジットカードの番号を教えて」を生成する。
次いで、決定装置100は、対話モデル記憶部123に記憶された対話モデルである「クレジットカード管理に関する対話モデル」を参照することで、生成されたテキストデータにマッチするサンプル発話を特定する。図2の例では、決定装置100は、サンプル発話「クレジットカードの「スロット名」を教えて」を、生成されたテキストデータにマッチするサンプル発話として特定する。そして、決定装置100は、生成されたテキストデータと、特定されたサンプル発話とに基づいて、「スロット名」が「番号」であると特定する。
次いで、決定装置100は、機能情報記憶部122に記憶されたクレジットカード管理の機能情報を参照することで、スロット名が特定されたサンプル発話「クレジットカードの「番号」を教えて」に対応する応答処理を決定する。図2の例では、決定装置100は、所定の記憶装置からクレジットカードの番号を検索することを、応答処理として決定する。
次いで、決定装置100は、機能情報記憶部122に記憶されたクレジットカード管理の機能情報を参照することで、端末装置10から受信された状況情報が、決定された応答処理を実行するための条件を満たすか否かを判定する。上述のように、ユーザU1の状況情報は、人感センサによってユーザU1以外のユーザの存在が検知されたことを示す。一方、決定された応答処理を実行するための実行条件は、「人感センサによって、端末装置10のユーザ以外のユーザの存在が検知されていない」という条件である。したがって、決定装置100は、状況情報が、決定された応答処理を実行するための条件を満たさないと判定する。
次いで、決定装置100は、機能情報記憶部122に記憶されたクレジットカード管理の機能情報を参照することで、スロット名が特定されたサンプル発話「クレジットカードの「番号」を教えて」に対応する応答の出力態様を決定する。図2の例では、受信された状況情報が、決定された応答処理を実行するための条件を満たさないと判定された。したがって、決定装置100は、音声「他の人がいるので話せません」が端末装置10を介して出力されるように、応答の出力態様を決定する。
その後、決定装置100は、端末装置10が音声「他の人がいるので話せません」を出力するように、かかる音声に対する音声データを端末装置10に送信する。このようにして、決定装置100は、クレジットカードの番号が端末装置10を介して出力されない理由を示す情報を、ユーザU1に提供することができる。
上述のように、実施形態に係る決定装置100は、ユーザの発話に由来する音声信号を、端末装置10から受信する。加えて、端末装置10に搭載された人感センサによってかかるユーザ以外のユーザの存在が検知されたか否かを示す状況情報を、端末装置10から受信する。そして、決定装置100は、受信された状況情報が、受信された音声信号に対応する処理を実行するための条件を満たすか否かを判定し、判定結果に基づいて、ユーザの発話に対する応答の出力態様を決定する。これにより、決定装置100は、ユーザの発話状況に相応しい情報を、ユーザに提供することができる。すなわち、決定装置は、コンテキストにおいて適切な応答を行うことができる。以下、このような決定処理を実現する決定装置100について詳細に説明する。
〔3.決定装置の構成〕
次に、図3を参照して、実施形態に係る決定装置100の構成例について説明する。図3は、実施形態に係る決定装置100の構成例を示す図である。図3に示すように、決定装置100は、通信部110と、記憶部120と、制御部130とを有する。なお、決定装置100は、決定装置100を利用する管理者等から各種操作を受け付ける入力部(例えば、キーボードやマウス等)や、各種情報を表示するための表示部(液晶ディスプレイ等)を有してもよい。
(通信部110)
通信部110は、例えば、NIC(Network Interface Card)等によって実現される。通信部110は、ネットワーク網と有線又は無線により接続され、ネットワーク網を介して、端末装置10との間で情報の送受信を行う。
(記憶部120)
記憶部120は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。図4に示すように、記憶部120は、ユーザ情報記憶部121と、機能情報記憶部122と、対話モデル記憶部123とを有する。
(ユーザ情報記憶部121)
図4は、実施形態に係るユーザ情報記憶部121の一例を示す図である。ユーザ情報記憶部121は、端末装置10のユーザのユーザ情報を記憶する。例えば、ユーザ情報記憶部121は、受信部131によって受信されたユーザ情報を記憶する。図4の例では、ユーザ情報記憶部121には、「ユーザ情報」が「ユーザID」ごとに記憶される。例示として、「ユーザ情報」には、項目「コンテキスト情報」が含まれる。
「ユーザID」は、ユーザを識別するための識別子を示す。「コンテキスト情報」は、ユーザの発話に関するコンテキスト情報を示す。例えば、図5は、ユーザID「U1」で識別されるユーザの発話に関するコンテキストが、「コンテキストC1」であることを示している。
本明細書で使用される「コンテキスト」という用語は、発話の文脈、発話の背景、発話間の関係、発話の発話状況、ユーザが置かれた状況、ユーザが置かれた環境、ユーザの行動パターン、ユーザの興味や関心等を表す。例えば、来客のコンテキストは、ユーザと親しい人の訪問(例えば、家族、友達または恋人の訪問)、ユーザとは親しくない人の訪問(例えば、販売員の訪問)等を含む。また、例えば、場所のコンテキストは、私的な空間、公的な空間(すなわち、公共の場)等を含む。
一例では、「コンテキストC1」は、他のユーザが、端末装置10の周囲環境に存在するという状況に対応する。例えば、「コンテキストC1」は、人感センサによって端末装置10のユーザ以外のユーザの存在を検知するというコンテキストである。ユーザが公共の場で端末装置10を使用する場合には、かかるコンテキストは、例えば、端末装置10のユーザとは親しくない人が端末装置10の近傍に位置するという状況に対応する。また、端末装置10のユーザが一人暮らしをしている場合には、かかるコンテキストは、例えば、端末装置10のユーザとは親しくない人が端末装置10のユーザの家を訪問したという状況に対応する。
(機能情報記憶部122)
図5は、実施形態に係る機能情報記憶部122の一例を示す図である。機能情報記憶部122は、端末装置10を介して提供される各種機能またはサービスの機能情報を記憶する。例えば、機能情報記憶部122は、受信部131によって受信された機能情報を記憶する。図5の例では、機能情報記憶部122には、「機能情報」が「機能ID」ごとに記憶される。例示として、「機能情報」には、項目「機能」が含まれる。
「機能ID」は、端末装置10を介して提供される各種機能またはサービスを識別するための識別子を示す。「機能」は、端末装置10を介して提供される各種機能またはサービスを示す。例えば、図5は、機能ID「F1」で識別される機能が、「クレジットカード管理CM1」であることを示している。
一例では、機能「クレジットカード管理CM1」は、所定のデータベースからクレジットカードに関する情報を検索する機能である。
機能情報記憶部122に記憶された機能情報は、対話モデル記憶部123に記憶された対話モデルに含まれるサンプル発話に対応する応答処理を示す。加えて、機能情報記憶部122に記憶された機能情報は、対話モデル記憶部123に記憶されたサンプル発話に対応する応答処理を実行するための条件と、対話モデル記憶部123に記憶された対話モデルに含まれるサンプル発話に対応する応答の出力態様とを示す。
例えば、機能「クレジットカード管理CM1」の機能情報は、サンプル発話「クレジットカードの「スロット名」を教えて」に対応する応答処理が、「スロット名」に対応するクレジットカード情報の検索であることを示す。「スロット名」に対応するクレジットカード情報の検索は、例えば、所定のデータベースからクレジットカードに関する情報を検索することである。
また、例えば、機能「クレジットカード管理CM1」の機能情報は、サンプル発話「クレジットカードの「スロット名」を教えて」に対応する応答処理を実行するための条件が、「人感センサによって、端末装置のユーザ以外のユーザの存在が検知されていない」という条件であることを示す。より具体的には、かかる条件は、「2人以上の人が、人感センサの検知距離の範囲内に存在しない」という条件を示す。
また、例えば、機能「クレジットカード管理CM1」の機能情報は、ユーザの発話の状況を示す状況情報が、サンプル発話「クレジットカードの「スロット名」を教えて」に対応する応答処理を実行するための条件を満たす場合における出力態様が、音声「クレジットカードの「スロット」は****です(****は、例えば、所定の16ケタの番号)です」が端末装置10を介して出力される出力態様であることを示す。加えて、機能「クレジットカード管理CM1」の機能情報は、かかる状況情報が、かかる条件を満たさない場合における出力態様が、音声「他の人がいるので話せません」が端末装置10を介して出力される出力態様であることを示す。
(対話モデル記憶部123)
図3に戻ると、対話モデル記憶部123は、端末装置10を介して提供される各種機能またはサービスに関する対話モデルを記憶する。例えば、対話モデルは、端末装置10を介して提供される各種機能またはサービスに関連する複数のサンプル発話を含む。一例では、機能「クレジットカード管理CM1」に関する対話モデルは、サンプル発話「クレジットカードの「スロット名」を教えて」を含む。
対話モデル記憶部123は、学習部136によって学習された対話モデルを記憶してもよい。また、対話モデル記憶部123は、受信部131によって受信された対話モデルを記憶してもよい。対話モデル記憶部123は、受信部131によって受信された訓練データを記憶してもよい。
(制御部130)
制御部130は、コントローラ(controller)であり、例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit)等のプロセッサによって、決定装置100内部の記憶装置に記憶されている各種プログラムがRAM等を作業領域として実行されることにより実現される。また、制御部130は、コントローラ(controller)であり、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現されてもよい。
(受信部131)
受信部131は、端末装置10から、音声信号を受信する。受信部131は、受信された音声信号を、ユーザ情報記憶部121に格納してもよい。一例では、受信部131は、発話「SS1、クレジットカードの番号を教えて」に由来する音声信号を受信する。
受信部131は、ユーザの発話に関するコンテキスト情報を、端末装置10から受信する。受信部131は、受信されたコンテキスト情報を、ユーザ情報記憶部121に格納してもよい。受信部131は、音声信号を、コンテキスト情報として受信してもよい。
例えば、受信部131は、ユーザの発話の発話状況を示すコンテキスト情報を受信する。より具体的には、受信部131は、ユーザの発話の状況を示す状況情報を、端末装置10から受信する。一例では、受信部131は、端末装置10に搭載された人感センサによって端末装置10のユーザ以外のユーザの存在が検知されたことを示す状況情報を、端末装置10から受信する。
受信部131は、所定のサーバ装置から、対話モデルを受信してもよい。また、受信部131は、所定のサーバ装置から、対話モデルを学習するための訓練データを受信してもよい。
(取得部132)
取得部132は、ユーザの発話に関するコンテキスト情報を取得する。取得部132は、例えば、受信部131によって受信されたコンテキスト情報を取得する。取得部132は、受信部131に受信された音声信号を、コンテキスト情報として取得してもよい。取得部132は、ユーザ情報記憶部121から、コンテキスト情報を取得してもよい。また、特定部133によって生成されたコンテキスト情報を取得してもよい。
(特定部133)
特定部133は、受信部131によって受信された音声信号に基づいて、ユーザの発話に関するコンテキストを特定してもよい。特定部133は、特定されたコンテキストを示すコンテキスト情報を生成してもよい。
(決定部134)
決定部134は、取得部132によって取得されたコンテキスト情報に基づいて、ユーザの発話に対する応答の出力態様を決定する。例えば、決定部134は、コンテキスト情報と、ユーザの発話に対して応答するための条件とに基づいて、出力態様を決定する。例えば、決定部134は、他のユーザがユーザの周囲環境に存在することを示すコンテキスト情報と、ユーザのプライバシに関する条件とに基づいて、出力態様を決定する。
決定部134は、対話モデル記憶部123に記憶された対話モデルを参照することで、生成部135によって生成されたテキストデータにマッチするサンプル発話を特定する。例えば、決定部134は、意味的構文解析(semantic parsing)等を用いて、生成されたテキストデータにマッチするサンプル発話を特定する。そして、決定部134は、機能情報記憶部122に記憶された機能情報を参照することで、サンプル発話に対応する応答処理を決定する。
一例では、決定部134は、対話モデル記憶部123に記憶された機能「クレジットカード管理CM1」に関する対話モデルを参照することで、生成部135によって生成されたテキストデータ「クレジットカードの番号を教えて」にマッチするサンプル発話「クレジットカードの「スロット名」を教えて」を特定する。
次いで、決定部134は、生成されたテキストデータと、特定されたサンプル発話とに基づいて、「スロット名」が「番号」であると特定する。
次いで、決定部134は、機能情報記憶部122に記憶された機能「クレジットカード管理CM1」の機能情報を参照することで、スロット名が特定されたサンプル発話「クレジットカードの「番号」を教えて」に対応する応答処理を決定する。具体的には、決定部134は、所定の記憶装置からクレジットカードの番号を検索することを、応答処理として決定する。
次いで、決定部134は、機能情報記憶部122に記憶された機能「クレジットカード管理CM1」の機能情報を参照することで、受信部131によって受信された状況情報が、決定された応答処理を実行するための条件を満たすか否かを判定する。この場合、決定部134は、端末装置10に搭載された人感センサによって端末装置10のユーザ以外のユーザの存在が検知されたことを示す状況情報が、「人感センサによって、端末装置のユーザ以外のユーザの存在が検知されていない」という条件を満たさないと判定する。
次いで、決定部134は、機能情報記憶部122に記憶された機能「クレジットカード管理CM1」の機能情報を参照することで、スロット名が特定されたサンプル発話「クレジットカードの「番号」を教えて」に対応する応答の出力態様を決定する。具体的には、決定部134は、音声「他の人がいるので話せません」が端末装置10を介して出力されるように、応答の出力態様を決定する。
決定部134は、学習部136によって学習された判定モデルを用いて、ユーザの発話に対する応答の出力態様を決定してもよい。例えば、決定部134は、判定モデルに、ユーザの発話に関するコンテキストを示すテキストデータに対応する埋め込みベクトルを入力することによって、所定の処理(例えば、サンプル発話に対応する所定の応答処理)がかかるコンテキストに適しているか否かを示す評価値を出力する。決定部134は、出力された評価値が閾値以上である場合に、かかる所定の応答処理を実行する。
(生成部135)
生成部135は、ユーザの発話内容を示すテキストデータを生成する。例えば、生成部135は、受信部131によって音声信号が受信された場合に、音声信号を音声認識し、ユーザの発話内容を示すテキストデータを生成する。より具体的には、生成部135は、音声認識モデルを用いて、ユーザの発話内容を示すテキストデータを生成する。例えば、ユーザの音声信号の音響特徴量が音声認識モデルに入力された場合に、音声認識モデルは、ユーザの発話内容を示すテキストデータを音声認識結果として出力する。
生成部135は、ユーザの音声信号を音声認識サーバに送信してもよい。この場合、ユーザの音声信号の受信に応じて、音声認識サーバは、ユーザの音声信号を音声認識し、ユーザの発話内容を示すテキストデータを生成する。その後、受信部131は、生成されたテキストデータを音声認識サーバから受信し、受信されたテキストデータを、生成部135に出力する。
生成部135は、生成されたユーザの発話内容を示すテキストデータがウェイクワードを含むか否かを判定する。テキストデータがウェイクワードを含むと判定された場合に、生成部135は、ウェイクワードが除かれたテキストデータを生成する。このようなウェイクワードが除かれたテキストデータは、ペイロード(payload)と呼ばれる。
一例では、生成部135は、発話「SS1、クレジットカードの番号を教えて」に由来する音声信号を音声認識し、テキストデータ「SS1、クレジットカードの番号を教えて」を生成する。生成部135は、生成されたテキストデータがウェイクワード「SS1」を含むか否かを判定する。生成されたテキストデータがウェイクワード「SS1」を含むと判定されたことに応じて、生成部135は、ペイロード「クレジットカードの番号を教えて」を生成する。
(学習部136)
学習部136は、ユーザの発話に対応する処理がユーザのコンテキストに適しているか否かを判定する判定モデルを学習する。ユーザのコンテキストは、例えば、ユーザが置かれた状況、ユーザが置かれた環境、ユーザの行動パターン、ユーザの興味や関心等である。例えば、学習部136は、ユーザのコンテキストを示すコンテキストデータと、ユーザの発話に対応する処理を示す処理データと、ユーザの発話に対応する処理がユーザのコンテキストに適しているか否かを示す評価値とを含む訓練データを用いて、判定モデルを学習する。
判定モデルは、例えば、DNN(Deep Neural Network)モデルである。この場合、学習部136は、ユーザのコンテキストを示すコンテキストデータと、ユーザの発話に対応する処理を示す処理データとを、訓練データの入力として用いる。また、学習部136は、ユーザの発話に対応する処理がユーザのコンテキストに適しているか否かを示す評価値を、訓練データの出力として用いる。
一例では、学習部136は、コンテキストデータに対応する埋め込みベクトル(例えば、分散表現)と、処理データに対応する埋め込みベクトルとを、訓練データの入力として用いる。例えば、ユーザのコンテキストを示すテキストデータに含まれる複数の単語の埋め込みベクトルの平均と、ユーザの発話に対応する処理を示すテキストデータに含まれる複数の単語の平均とを、訓練データの入力として用いる。さらに、学習部136は、クラウドソーシングのプラットフォームを提供する。これにより、アノテータが、ユーザの発話に対応する処理に、かかるユーザの発話に対応する処理がユーザのコンテキストに適しているか否かを示す評価値を、正解ラベルとして付与することができる。学習部136は、評価値に対応する交差エントロピー等に基づいて、判定モデルを学習することができる。
(提供部137)
提供部137は、端末装置10を介して、機能やサービスをユーザに提供する。例えば、提供部137は、決定部134によって決定された応答処理を実行する。また、例えば、提供部137は、決定部134によって決定された応答の出力態様で、ユーザの発話に対する応答を出力する。
一例では、提供部137は、端末装置10を介して、機能「クレジットカード管理CM1」をユーザに提供する。この例では、決定部134によって、受信された状況情報が、決定部134によって決定された応答処理を実行するための条件を満たさないと判定された場合に、提供部137は、決定部134によって決定された応答処理を実行しない。そして、提供部137は、端末装置10が音声「他の人がいるので話せません」を出力するように、かかる音声に対する音声データを端末装置10に送信する。
〔4.決定処理のフロー〕
次に、実施形態に係る決定装置100による決定処理の手順について説明する。図6は、実施形態に係る決定装置100による決定処理手順を示すフローチャートである。
図6に示すように、はじめに、決定装置100は、ユーザの発話に関するコンテキスト情報を取得する(ステップS101)。
次いで、決定装置100は、取得されたコンテキスト情報に基づいて、ユーザの発話に対する応答の出力態様を決定する(ステップS102)。例えば、決定装置100は、コンテキスト情報と、ユーザの発話に対して応答するための条件とに基づいて、出力態様を決定する。例えば、決定装置100は、他のユーザがユーザの周囲環境に存在することを示すコンテキスト情報と、ユーザのプライバシに関する条件とに基づいて、出力態様を決定する。
〔5.変形例〕
上述の実施形態に係る決定装置100は、上記の実施形態以外にも、種々の異なる形態で実施されてよい。そこで、以下では、上記の決定装置100の他の実施形態について説明する。
〔5-1.ユーザの利用範囲〕
決定部134は、発話者がユーザであることを示すコンテキスト情報と、ユーザの発話に対して応答するための条件であって、かかるユーザの利用範囲に関する条件とに基づいて、出力態様を決定してもよい。
一例では、コンテキスト情報は、発話者が子供であることを示す。また、ユーザの利用範囲に関する条件は、「子供は、自分で情報を調べる」という条件である。この例では、子供が端末装置10に向かって「SS1、米国の初代大統領を教えて」と発話した場合に、決定部134は、音声「自分で調べましょう」が端末装置10を介して出力されるように、応答の出力態様を決定する。
別の例では、コンテキスト情報は、発話者が大人であることを示す。また、ユーザの利用範囲に関する条件は、「子供は、自分で情報を調べる」という条件である。この例では、大人が端末装置10に向かって「SS1、米国の初代大統領を教えて」と発話した場合に、決定部134は、音声「ワシントンです」が端末装置10を介して出力されるように、応答の出力態様を決定する。
〔5-2.周囲のユーザに応じた出力態様の制御〕
決定部134は、他のユーザがユーザの周囲環境に存在することを示すコンテキスト情報と、かかるユーザの発話に対して応答するための条件であって、かかる他のユーザに関連する情報に関する条件とに基づいて、出力態様を決定してもよい。
一例では、かかる他のユーザに関連する情報に関する条件は、「他のユーザが、他のユーザに関連する時事問題に関するニュースを聞かない」という条件である。この例では、受信部131によって、かかる他のユーザの発話に由来する音声信号が受信された場合には、決定部134は、他のユーザに関連する時事問題に関するニュースが端末装置10を介して出力されるように、応答の出力態様を決定する。
特定部133は、受信部131によって受信された音声信号に基づいて、他のユーザがユーザの周囲環境に存在することを示すコンテキスト情報を生成してもよい。例えば、特定部133は、話者照合アルゴリズムを用いて、他のユーザを識別し、識別結果に基づいて、コンテキスト情報を生成してもよい。
〔5-3.音量の調整〕
決定部134は、ユーザの発話に対応する音声信号を受信した端末装置10が、かかるユーザの発話に対して応答するための条件であって、かかるユーザの発話に対する応答として出力される音声信号の強度に関する条件に応じた出力態様で、ユーザの発話に対する応答を出力することを決定してもよい。
一例では、ユーザの発話に対する応答として出力される音声信号の強度に関する条件は、「端末装置10のユーザ以外のユーザであって、人感センサによって検知されたユーザに音声が聞かれないように、端末装置10が、音声を出力する」という条件である。この例では、決定部134は、端末装置10が、端末装置10に搭載されたパラメトリックスピーカ(指向性スピーカとも呼ばれる)を用いて、出力された音声が、人感センサによって検知されたユーザに聞こえないようにするように、応答の出力態様を決定する。決定部134は、音声が人感センサによって検知されたユーザに聞かれないように、音声のボリュームを調整してもよい。
〔5-4.他の装置からの出力〕
決定部134は、ユーザ以外の他のユーザが発話に対する応答として出力される情報を認識できないように、発話に対応する音声信号を受信した端末装置10以外の装置が、発話に対する応答を出力することを決定してもよい。
一例では、決定部134は、端末装置10のユーザ以外のユーザであって、人感センサによって検知されたユーザが発話に対する応答として出力される情報を認識できないように、他のスマートデバイス(例えば、スマートフォンやスマートテレビ等)が、発話に対する応答を出力することを決定する。例えば、決定部134は、人感センサによって検知されたユーザが情報を認識できないように、他のスマートデバイスが他のスマートデバイスのディスプレイに情報を表示することを決定する。
例えば、決定部134は、人感センサによって検知されたユーザが、発話「クレジットカードの番号を教えて」に対する応答として出力される情報を認識できないように、端末装置10のユーザのスマートフォンのディスプレイにクレジットカードの番号を表示することを決定する。
〔5-5.その他〕
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の一部を手動的に行うこともできる。あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
例えば、図3に示した記憶部120の一部又は全部は、決定装置100によって保持されるのではなく、ストレージサーバ等に保持されてもよい。この場合、決定装置100は、ストレージサーバにアクセスすることで、ユーザ情報や機能情報等の各種情報を取得する。
〔5-6.ハードウェア構成〕
また、上述してきた実施形態に係る決定装置100は、例えば図7に示すような構成のコンピュータ1000によって実現される。図7は、ハードウェア構成の一例を示す図である。コンピュータ1000は、出力装置1010、入力装置1020と接続され、演算装置1030、一次記憶装置1040、二次記憶装置1050、出力IF(Interface)1060、入力IF1070、ネットワークIF1080がバス1090により接続された形態を有する。
演算装置1030は、一次記憶装置1040や二次記憶装置1050に格納されたプログラムや入力装置1020から読み出したプログラム等に基づいて動作し、各種の処理を実行する。一次記憶装置1040は、RAM等、演算装置1030が各種の演算に用いるデータを一時的に記憶するメモリ装置である。また、二次記憶装置1050は、演算装置1030が各種の演算に用いるデータや、各種のデータベースが登録される記憶装置であり、ROM(Read Only Memory)、HDD、フラッシュメモリ等により実現される。
出力IF1060は、モニタやプリンタといった各種の情報を出力する出力装置1010に対し、出力対象となる情報を送信するためのインタフェースであり、例えば、USB(Universal Serial Bus)やDVI(Digital Visual Interface)、HDMI(登録商標)(High Definition Multimedia Interface)といった規格のコネクタにより実現される。また、入力IF1070は、マウス、キーボード、およびスキャナ等といった各種の入力装置1020から情報を受信するためのインタフェースであり、例えば、USB等により実現される。
なお、入力装置1020は、例えば、CD(Compact Disc)、DVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等から情報を読み出す装置であってもよい。また、入力装置1020は、USBメモリ等の外付け記憶媒体であってもよい。
ネットワークIF1080は、ネットワークNを介して他の機器からデータを受信して演算装置1030へ送り、また、ネットワークNを介して演算装置1030が生成したデータを他の機器へ送信する。
演算装置1030は、出力IF1060や入力IF1070を介して、出力装置1010や入力装置1020の制御を行う。例えば、演算装置1030は、入力装置1020や二次記憶装置1050からプログラムを一次記憶装置1040上にロードし、ロードしたプログラムを実行する。
例えば、コンピュータ1000が決定装置100として機能する場合、コンピュータ1000の演算装置1030は、一次記憶装置1040上にロードされたプログラムを実行することにより、制御部130の機能を実現する。
〔6.効果〕
上述してきたように、実施形態に係る決定装置100は、取得部132と、決定部134とを有する。取得部132は、ユーザの発話に関するコンテキスト情報を取得する。決定部134は、取得部132によって取得されたコンテキスト情報に基づいて、ユーザの発話に対する応答の出力態様を決定する。このため、決定装置100は、ユーザの発話状況に相応しい情報を、ユーザに提供することができる。
また、実施形態に係る決定装置100において、決定部134は、コンテキスト情報と、ユーザの発話に対して応答するための条件とに基づいて、出力態様を決定する。
また、実施形態に係る決定装置100において、決定部134は、他のユーザがユーザの周囲環境に存在することを示すコンテキスト情報と、ユーザのプライバシに関する条件とに基づいて、出力態様を決定する。
上述した各処理により、決定装置100は、ユーザのプライバシに配慮しつつ、ユーザの発話に応答することができる。
また、実施形態に係る決定装置100において、決定部134は、発話者がユーザであることを示すコンテキスト情報と、ユーザの利用範囲に関する条件とに基づいて、出力態様を決定する。このため、決定装置100は、ユーザの発話に対する応答の態様を、ユーザごとに適切に変化させることができる。
また、実施形態に係る決定装置100において、決定部134は、他のユーザがユーザの周囲環境に存在することを示すコンテキスト情報と、他のユーザに関連する情報に関する条件とに基づいて、出力態様を決定する。
また、実施形態に係る決定装置100において、決定部134は、発話に対応する音声信号を受信した端末装置が、ユーザの発話に対する応答として出力される音声信号の強度に関する条件に応じた出力態様で、発話に対する応答を出力することを決定する。
また、実施形態に係る決定装置100において、決定部134は、ユーザ以外の他のユーザが発話に対する応答として出力される情報を認識できないように、発話に対応する音声信号を受信した端末装置以外の装置が、発話に対する応答を出力することを決定する。
上述した各処理により、決定装置100は、ユーザのコンテキストに応じた範囲で、ユーザの発話に対する応答を行うことができる。
以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。
また、上述した決定装置100は、複数のサーバコンピュータで実現してもよく、また、機能によっては外部のプラットフォーム等をAPI(Application Programming Interface)やネットワークコンピューティングなどで呼び出して実現するなど、構成は柔軟に変更できる。
また、上述してきた「部(section、module、unit)」は、「手段」や「回路」などに読み替えることができる。例えば、受信部は、受信手段や受信回路に読み替えることができる。
1 ネットワークシステム
10 端末装置
100 決定装置
120 記憶部
121 ユーザ情報記憶部
122 機能情報記憶部
123 対話モデル記憶部
130 制御部
131 受信部
132 取得部
133 特定部
134 決定部
135 生成部
136 学習部
137 提供部

Claims (9)

  1. ユーザの発話に関するコンテキスト情報であって、前記ユーザの発話の状況を示すコンテキスト情報を取得する取得部と、
    前記取得部によって取得されたコンテキスト情報が、前記ユーザの発話に対して応答するための条件であって、人感センサによって、他のユーザの存在が検知されていないという条件を満たすかを判定し、前記コンテキスト情報が前記条件を満たす場合に、前記ユーザの発話に対応する応答処理の結果を通知する音声が、前記ユーザの発話に対応する音声信号を受信した端末装置を介して出力されるように、前記ユーザの発話に対する応答の出力態様を決定し、前記コンテキスト情報が前記条件を満たさない場合に、前記端末装置が前記ユーザの発話に対応する応答処理を実行しないことを通知する音声が、前記端末装置を介して出力されるように、前記ユーザの発話に対する応答の出力態様を決定する決定部と、
    を備えることを特徴とする決定装置。
  2. 前記決定部は、
    前記コンテキスト情報と、前記ユーザの発話に対して応答するための条件とに基づいて、前記出力態様を決定する
    ことを特徴とする請求項1に記載の決定装置。
  3. 前記決定部は
    他のユーザが前記ユーザの周囲環境に存在することを示す前記コンテキスト情報と、前記ユーザのプライバシに関する前記条件とに基づいて、前記出力態様を決定する
    ことを特徴とする請求項2に記載の決定装置。
  4. 前記決定部は
    発話者が前記ユーザであることを示す前記コンテキスト情報と、前記ユーザの利用範囲に関する前記条件とに基づいて、前記出力態様を決定する
    ことを特徴とする請求項2又は3に記載の決定装置。
  5. 前記決定部は、
    他のユーザが前記ユーザの周囲環境に存在することを示す前記コンテキスト情報と、当該他のユーザに関連する情報に関する前記条件とに基づいて、前記出力態様を決定する
    ことを特徴とする請求項2~4のうちいずれか1つに記載の決定装置。
  6. 前記決定部は、
    前記発話に対応する音声信号を受信した端末装置が、前記ユーザの発話に対する応答として出力される音声信号の強度に関する前記条件に応じた前記出力態様で、前記発話に対する応答を出力することを決定する
    ことを特徴とする請求項2~5のうちいずれか1つに記載の決定装置。
  7. 前記決定部は、
    前記ユーザ以外の他のユーザが前記発話に対する応答として出力される情報を認識できないように、前記発話に対応する音声信号を受信した端末装置以外の装置が、前記発話に対する応答を出力することを決定する
    ことを特徴とする請求項2~6のうちいずれか1つに記載の決定装置。
  8. ユーザの発話に関するコンテキスト情報であって、前記ユーザの発話の状況を示すコンテキスト情報を取得する取得工程と、
    前記取得工程によって取得されたコンテキスト情報が、前記ユーザの発話に対して応答するための条件であって、人感センサによって、他のユーザの存在が検知されていないという条件を満たすかを判定し、前記コンテキスト情報が前記条件を満たす場合に、前記ユーザの発話に対応する応答処理の結果を通知する音声が、前記ユーザの発話に対応する音声信号を受信した端末装置を介して出力されるように、前記ユーザの発話に対する応答の出力態様を決定し、前記コンテキスト情報が前記条件を満たさない場合に、前記端末装置が前記ユーザの発話に対応する応答処理を実行しないことを通知する音声が、前記端末装置を介して出力されるように、前記ユーザの発話に対する応答の出力態様を決定する決定工程と、
    を含むことを特徴とする決定方法。
  9. ユーザの発話に関するコンテキスト情報であって、前記ユーザの発話の状況を示すコンテキスト情報を取得する取得手順と、
    前記取得手順によって取得されたコンテキスト情報が、前記ユーザの発話に対して応答するための条件であって、人感センサによって、他のユーザの存在が検知されていないという条件を満たすかを判定し、前記コンテキスト情報が前記条件を満たす場合に、前記ユーザの発話に対応する応答処理の結果を通知する音声が、前記ユーザの発話に対応する音声信号を受信した端末装置を介して出力されるように、前記ユーザの発話に対する応答の出力態様を決定し、前記コンテキスト情報が前記条件を満たさない場合に、前記端末装置が前記ユーザの発話に対応する応答処理を実行しないことを通知する音声が、前記端末装置を介して出力されるように、前記ユーザの発話に対する応答の出力態様を決定する決定手順と、
    をコンピュータに実行させることを特徴とする決定プログラム。
JP2018154264A 2018-08-20 2018-08-20 決定装置、決定方法及び決定プログラム Active JP7093266B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018154264A JP7093266B2 (ja) 2018-08-20 2018-08-20 決定装置、決定方法及び決定プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018154264A JP7093266B2 (ja) 2018-08-20 2018-08-20 決定装置、決定方法及び決定プログラム

Publications (2)

Publication Number Publication Date
JP2020030246A JP2020030246A (ja) 2020-02-27
JP7093266B2 true JP7093266B2 (ja) 2022-06-29

Family

ID=69624301

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018154264A Active JP7093266B2 (ja) 2018-08-20 2018-08-20 決定装置、決定方法及び決定プログラム

Country Status (1)

Country Link
JP (1) JP7093266B2 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016158792A1 (ja) 2015-03-31 2016-10-06 ソニー株式会社 情報処理装置、制御方法、およびプログラム
WO2017175442A1 (ja) 2016-04-08 2017-10-12 ソニー株式会社 情報処理装置、および情報処理方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016158792A1 (ja) 2015-03-31 2016-10-06 ソニー株式会社 情報処理装置、制御方法、およびプログラム
WO2017175442A1 (ja) 2016-04-08 2017-10-12 ソニー株式会社 情報処理装置、および情報処理方法

Also Published As

Publication number Publication date
JP2020030246A (ja) 2020-02-27

Similar Documents

Publication Publication Date Title
KR102597571B1 (ko) 자동으로 액션 그룹을 커스터마이징하도록 구성된 가상 어시스턴트
KR102623727B1 (ko) 전자 장치 및 이의 제어 방법
US11398223B2 (en) Electronic device for modulating user voice using artificial intelligence model and control method thereof
US11308955B2 (en) Method and apparatus for recognizing a voice
CN107863108B (zh) 信息输出方法和装置
CN109478106B (zh) 利用环境上下文以用于增强的通信吞吐量
KR20240006713A (ko) 챗봇 변경을 위한 위한 전자 장치 및 이의 제어 방법
KR102590914B1 (ko) 전자 장치 및 이의 제어 방법
US20200125967A1 (en) Electronic device and method for controlling the electronic device
EP3794587A1 (en) Selective enrollment with an automated assistant
CN114391143A (zh) 用于提供对话服务的电子设备和方法
US11393459B2 (en) Method and apparatus for recognizing a voice
US11769492B2 (en) Voice conversation analysis method and apparatus using artificial intelligence
US11928985B2 (en) Content pre-personalization using biometric data
KR20180108400A (ko) 전자 장치, 그의 제어 방법 및 비일시적 컴퓨터 판독가능 기록매체
JP6370962B1 (ja) 生成装置、生成方法および生成プログラム
US20220059088A1 (en) Electronic device and control method therefor
US11657237B2 (en) Electronic device and natural language generation method thereof
Ma et al. Enthusiasts, pragmatists, and skeptics: investigating users’ attitudes towards emotion-and personality-aware voice assistants across cultures
WO2021095473A1 (ja) 情報処理装置、情報処理方法及びコンピュータプログラム
KR20200080389A (ko) 전자 장치 및 그 제어 방법
JP7093266B2 (ja) 決定装置、決定方法及び決定プログラム
JP7018850B2 (ja) 端末装置、決定方法、決定プログラム及び決定装置
WO2021200502A1 (ja) 情報処理装置及び情報処理方法
US11782986B2 (en) Interactive query based network communication through a media device

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20191101

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20191108

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200819

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210716

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210727

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210917

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20220111

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220411

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20220411

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20220419

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20220426

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220524

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220617

R150 Certificate of patent or registration of utility model

Ref document number: 7093266

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350