JP2020030245A

JP2020030245A - 端末装置、決定方法、決定プログラム及び決定装置

Info

Publication number: JP2020030245A
Application number: JP2018154261A
Authority: JP
Inventors: 中村　浩樹; Hiroki Nakamura; 浩樹中村; 孝太坪内; Kota Tsubouchi; 山本　学; Manabu Yamamoto; 学山本; 太士岩▲瀬▼張; Futoshi Iwasebari
Original assignee: Z Holdings Corp
Current assignee: LY Corp
Priority date: 2018-08-20
Filing date: 2018-08-20
Publication date: 2020-02-27
Anticipated expiration: 2038-08-20
Also published as: JP7018850B2

Abstract

【課題】ユーザが意図する処理を実行すること。【解決手段】本願に係る端末装置は、受信部と、決定部とを有する。受信部は、ユーザの発話に対応する音声信号を受信する。決定部は、受信部によって音声信号が受信された場合に、ユーザの発話の発話状況を示す発話状況情報を用いて、発話に対応する処理を実行するか否かを決定する。【選択図】図３

Description

本発明は、端末装置、決定方法、決定プログラム及び決定装置に関する。

従来、ユーザの発話に対する応答処理の開始を制御する技術が提案されている。例えば、ユーザの発話がホットワード（例えば、音声アシスタントの名前）を含む可能性を示す信頼性スコアに基づいて、発話に対応する処理を実行するか否かを決定する技術が提案されている。

特開２０１７−２２７９１２号公報

しかしながら、上記の従来技術では、ユーザが意図する処理を実行できるとは限らない。例えば、上記の従来技術では、ホットワードを含む可能性を示す信頼性スコアが、ユーザが意図する操作対象を反映するとは限らない。

本願は、上記に鑑みてなされたものであって、ユーザが意図する処理を実行することを目的とする。

本願に係る端末装置は、ユーザの発話に対応する音声信号を受信する受信部と、前記受信部によって音声信号が受信された場合に、前記ユーザの発話の発話状況を示す発話状況情報を用いて、前記発話に対応する処理を実行するか否かを決定する決定部とを備えることを特徴とする。

実施形態の一態様によれば、ユーザが意図する処理を実行することができるという効果を奏する。

図１は、実施形態に係るネットワークシステムの構成例を示す図である。図２は、実施形態に係る決定処理の一例を示す図である。図３は、実施形態に係る端末装置の構成例を示す図である。図４は、実施形態に係る決定装置の構成例を示す図である。図５は、実施形態に係るユーザ情報記憶部の一例を示す図である。図６は、実施形態に係る機能情報記憶部の一例を示す図である。図７は、実施形態に係る端末装置による決定処理手順を示すフローチャートである。図８は、ハードウェア構成の一例を示す図である。

以下に、本願に係る端末装置、決定方法、決定プログラム及び決定装置を実施するための形態（以下、「実施形態」と呼ぶ）について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る端末装置、決定方法、決定プログラム及び決定装置が限定されるものではない。また、各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略する。

〔１．ネットワークシステムの構成〕
まず、図１を参照して、実施形態に係るネットワークシステム１の構成について説明する。図１は、実施形態に係るネットワークシステム１の構成例を示す図である。図１に示すように、実施形態に係るネットワークシステム１には、端末装置１０_１〜１０_ｎと、決定装置１００とが含まれる（ｎは任意の自然数）。本明細書では、端末装置１０_１〜１０_ｎを区別する必要がない場合は、端末装置１０_１〜１０_ｎを「端末装置１０」と総称する。端末装置１０および決定装置１００は、それぞれネットワークＮと有線又は無線により接続される。図１中では図示していないが、ネットワークシステム１は、複数台の決定装置１００を含んでもよい。

端末装置１０は、ユーザによって利用される情報処理装置である。端末装置１０は、スマートスピーカ、スマートフォン、デスクトップ型ＰＣ（Personal Computer）、ノート型ＰＣ、タブレット型ＰＣ、スマート家電、ロボットを含む、任意のタイプの情報処理装置であってもよい。

決定装置１００は、各種機能またはサービスを端末装置１０に提供するサーバ装置である。決定装置１００は、ネットワークＮを介して、有線又は無線により端末装置１０と通信を行う。

〔２．決定処理〕
次に、図２を参照して、実施形態に係る決定処理の一例について説明する。図２は、実施形態に係る決定処理の一例を示す図である。

図２の例では、端末装置１０_１および端末装置１０_２は、音声アシスタントサービスに対応したスマートスピーカである。端末装置１０_１および端末装置１０_２は、ユーザＵ１によって利用される。ユーザＵ１は、端末装置１０_１または端末装置１０_２に向かって発話することにより、音声アシスタントと情報をやり取りすることができる。

図２の例では、音声アシスタントの名前は、「ＳＳ１」である。ユーザＵ１が音声アシスタントを介して機能やサービスを利用する場合に、ユーザＵ１は、音声アシスタントの名前「ＳＳ１」を含む要求を発話する。例えば、ユーザＵ１がタクシー手配の機能を利用する場合に、ユーザＵ１は、「ＳＳ１、タクシーを呼んで」と発話する。このように、音声アシスタントの名前「ＳＳ１」は、音声アシスタントを起動させるための起動フレーズに相当する。一般的に、このような起動フレーズは、ウェイクワードと呼ばれたり、あるいはホットワードと呼ばれたりする。

図２の例では、端末装置１０_１に対応する音声アシスタントは、端末装置１０_２に対応する音声アシスタントと同一である。また、端末装置１０_１のウェイクワードは、端末装置１０_２のウェイクワードと同一に設定されている。すなわち、端末装置１０_１および端末装置１０_２のウェイクワードは、「ＳＳ１」である。

図２の例では、端末装置１０_１は、端末装置１０_２の近傍に配置されている。また、端末装置１０_１は、端末装置１０_２よりもユーザＵ１の近くに配置されている。図２の例では、ユーザＵ１は、端末装置１０_１に向かって「ＳＳ１、タクシーを呼んで」と発話する。

図２の例では、決定装置１００は、端末装置１０_１または端末装置１０_２を介して、音声アシスタントサービスをユーザＵ１に提供する。例えば、ユーザＵ１の発話に由来する音声信号が端末装置１０_１から送信された場合に、決定装置１００は、音声信号を音声認識し、ユーザＵ１の発話内容を示すテキストデータ（例えば、「ＳＳ１、タクシーを呼んで」）を生成する。生成されたテキストデータがウェイクワードを含む場合に、決定装置１００は、ウェイクワードが除かれたテキストデータ（例えば、「タクシーを呼んで」）に基づいて、ユーザＵ１の要求に対する応答処理を実行する。

ところで、図２の例では、ユーザＵ１は、１台のタクシーを呼ぶことを意図している。しかし、端末装置１０_１と端末装置１０_２の両方が、ユーザＵ１の近傍に位置する。このため、ユーザＵ１が「ＳＳ１、タクシーを呼んで」と発話した場合には、端末装置１０_１と端末装置１０_２の両方が、タクシーを呼んでしまうことが考えられる。以下に説明される決定処理の一例では、端末装置１０_１および端末装置１０_２が同一の発話に応じて同一の処理を同時に実行しないように、音声信号の受信音量に基づいて、音声信号が決定装置１００に送信されるか否かが決定される。

はじめに、端末装置１０_１は、ユーザＵ１の発話「ＳＳ１、タクシーを呼んで」に由来する音声信号を端末装置１０_１のマイクロホンを介して受信する。図２の例では、端末装置１０_１によって受信された音声信号の受信音量は、「７０ｄＢ」である。同様に、端末装置１０_２も、ユーザＵ１の発話に由来する音声信号を受信する。図２の例では、端末装置１０_１よりもユーザＵ１から遠くに配置された端末装置１０_２によって受信された音声信号の受信音量は、「４０ｄＢ」である。

次いで、端末装置１０_１は、受信音量「７０ｄＢ」を超音波信号に変換し、超音波信号を端末装置１０_１のスピーカを介して出力する。同様に、端末装置１０_２も、受信音量「４０ｄＢ」を超音波信号に変換し、超音波信号を出力する。これにより、端末装置１０_１と端末装置１０_２とは、受信音量を示す超音波信号を送受信することができる。

次いで、端末装置１０_１は、受信された超音波信号を、端末装置１０_２の受信音量に変換する。そして、端末装置１０_１は、端末装置１０_１の受信音量が、端末装置１０_２の受信音量よりも大きいか否かを決定する。同様に、端末装置１０_２も、受信された超音波信号を、端末装置１０_１の受信音量に変換する。そして、端末装置１０_２は、端末装置１０_２の受信音量が、端末装置１０_１の受信音量よりも大きいか否かを決定する。

図２の例では、端末装置１０_１は、端末装置１０_１の受信音量「７０ｄＢ」が端末装置１０_２の受信音量「４０ｄＢ」よりも大きいと決定する。一方、端末装置１０_２は、端末装置１０_２の受信音量「４０ｄＢ」が端末装置１０_１の受信音量「７０ｄＢ」よりも大きくないと決定する。

次いで、端末装置１０_１の受信音量が端末装置１０_２の受信音量よりも大きいと決定されたことに応じて、端末装置１０_１は、受信された音声信号を決定装置１００に送信すると決定する。一方、端末装置１０_２の受信音量が端末装置１０_１の受信音量よりも大きくないと決定されたことに応じて、端末装置１０_２は、受信された音声信号を決定装置１００に送信しないと決定する。

その後、端末装置１０_１は、受信された音声信号を、決定装置１００に送信する。そして、端末装置１０_１は、送信された音声信号に対する応答として、音声データを決定装置１００から受信する。そして、端末装置１０_１は、受信された音声データを音声「タクシーを呼びました」として出力する。このようにして、ユーザＵ１は、１台の端末装置１０（すなわち、端末装置１０_１）が１台のタクシーを手配したことを確認することができる。

上述のように、実施形態に係る端末装置１０_１は、端末装置１０_１の近傍に配置された端末装置１０_２との間で超音波により、受信された音声信号の受信音量を送受信する。そして、端末装置１０_１の受信音量が端末装置１０_２の受信音量よりも大きい場合に、端末装置１０_１は、音声信号を決定装置１００に送信する。これにより、端末装置１０（すなわち、端末装置１０_１または端末装置１０_２）は、ユーザが意図しない端末装置の二重起動を防止することができる。言い換えると、端末装置１０（例えば、端末装置１０_１）は、複数の端末装置１０（例えば、端末装置１０_１および端末装置１０_２）が同一のウェイクワードにより起動することを防止することができる。以下、このような決定処理を実現する端末装置１０および決定装置１００について詳細に説明する。

〔３．端末装置の構成〕
次に、図３を参照して、実施形態に係る端末装置１０の構成例について説明する。図３は、実施形態に係る端末装置１０の構成例を示す図である。図３に示すように、端末装置１０は、通信部１１と、検知部１２と、出力部１３と、制御部１４とを有する。

（通信部１１）
通信部１１は、例えば、ＮＩＣ（Network Interface Card）等によって実現される。通信部１１は、ネットワーク網と有線又は無線により接続され、ネットワーク網を介して、決定装置１００との間で情報の送受信を行う。通信部１１は、Ｂｌｕｅｔｏｏｔｈ（登録商標）やＷｉ−Ｆｉ（登録商標）通信機能等を用いて、端末装置と近距離無線通信を行ってもよい。

（検知部１２）
検知部１２は、端末装置１０に関する各種情報を検知し、検知された各種情報を受信部１４ａへ出力する。検知部１２は、マイクロホンと、人感センサとを有する。

検知部１２は、マイクロホンを用いて、音源からの信号を収音する。マイクロホンは、端末装置１０の周囲の音を収音し、集音された音を音響信号または音声信号に変換する。

検知部１２は、人感センサを用いて、ユーザの存在を検知する。人感センサは、端末装置１０の周囲の人の存否を検出する。例えば、人感センサは、人から放射されている赤外線に基づいて周囲の温度変化を検知することで、周囲の人の存否を検知することができる。

（出力部１３）
出力部１３は、音響信号や音声信号を出力する。出力部１３は、スピーカを有する。スピーカは、音響信号または音声信号に応じて音波を放射する。出力部１３は、超音波信号を出力してもよい。例えば、出力部１３は、パラメトリックスピーカ（指向性スピーカとも呼ばれる）を有してもよい。パラメトリックスピーカは、音響信号または音声信号に応じて超音波を放射する。

（制御部１４）
制御部１４は、コントローラ（controller）であり、例えば、ＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro Processing Unit）等のプロセッサによって、端末装置１０内部の記憶装置に記憶されている各種プログラムがＲＡＭ等を作業領域として実行されることにより実現される。また、制御部１４は、コントローラ（controller）であり、例えば、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）等の集積回路により実現されてもよい。

（受信部１４ａ）
受信部１４ａは、検知部１２を制御することで、検知部１２によって検知される情報を取得する。例えば、受信部１４ａは、検知部１２のマイクロホンによって変換された音響信号または音声信号を受信する。例えば、受信部１４ａは、ユーザの発話に対応する音声信号を受信する。

受信部１４ａは、ユーザの周囲環境に存在し、かつかかるユーザの発話に対応する音声信号を受信した他の端末装置に関する情報を、発話状況情報として受信する。例えば、受信部１４ａは、超音波信号を介して、他の端末装置に関する情報をかかる他の端末装置から受信する。より具体的には、他の端末装置が超音波を放射した場合に、受信部１４ａは、検知部１２を制御することで、マイクロホンによって超音波から変換された超音波信号を、他の端末装置に関する情報として受信する。すなわち、受信部１４ａは、超音波通信を用いて、他の端末装置からデータを、超音波信号として受信することができる。

受信部１４ａは、近距離無線通信を介して、他の端末装置に関する情報をかかる他の端末装置から受信してもよい。より具体的には、受信部１４ａは、通信部１１のＢｌｕｅｔｏｏｔｈやＷｉ−Ｆｉ通信機能を用いて、他の端末装置に関する情報を受信してもよい。

受信部１４ａは、他の端末装置によって受信された音声信号であって、ユーザの発話に対応する音声信号の強度を示す強度情報を含む他の端末装置に関する情報を受信する。例えば、受信部１４ａは、他の端末装置によって受信された音声信号の受信音量を示す他の端末装置に関する情報を受信する。一例では、受信部１４ａは、他の端末装置によって受信された音声信号の受信音量を示す超音波信号を受信する。別の例では、受信部１４ａは、通信部１１のＢｌｕｅｔｏｏｔｈやＷｉ−Ｆｉ通信機能を用いて、他の端末装置によって受信された音声信号の受信音量を示すデータを受信する。

受信部１４ａは、音声データを決定装置１００から受信する。例えば、受信部１４ａは、提供部１４ｃが音声信号を決定装置１００に送信した場合に、決定装置１００に送信された音声信号に対する応答として、音声データを決定装置１００から受信する。

（決定部１４ｂ）
決定部１４ｂは、受信部１４ａによって音声信号が受信された場合に、ユーザの発話の発話状況を示す発話状況情報を用いて、発話に対応する処理を実行するか否かを決定する。例えば、決定部１４ｂは、受信部１４ａによって受信された音声信号の強度が、強度情報が示す音声信号の強度よりも大きい場合に、かかる発話に対応する処理を実行すると決定する。決定部１４ｂは、受信部１４ａによって受信された音声信号の強度が、強度情報が示す音声信号の強度よりも大きくない場合には、かかる発話に対応する処理を実行しないと決定する。

一例では、決定部１４ｂは、受信部１４ａによって受信された超音波信号を、他の端末装置の受信音量に変換し、受信部１４ａによって受信された音声信号の受信音量が、他の端末装置の受信音量よりも大きいか否かを決定する。この例では、受信部１４ａによって受信された音声信号の受信音量が、他の端末装置の受信音量よりも大きい場合に、発話に対応する処理を実行すると決定する。一方、受信部１４ａによって受信された音声信号の受信音量が、他の端末装置の受信音量よりも大きくない場合に、発話に対応する処理を実行しないと決定する。

（提供部１４ｃ）
提供部１４ｃは、端末装置１０に関する情報を、他の端末装置に提供する。例えば、提供部１４ｃは、ユーザの周囲環境に存在し、かつかかるユーザの発話に対応する音声信号を受信した他の端末装置に対して、端末装置１０に関する情報を提供する。

提供部１４ｃは、出力部１３を制御することで、端末装置１０に関する情報を提供する。例えば、提供部１４ｃは、超音波信号を介して端末装置１０に関する情報を、他の端末装置に提供する。より具体的には、提供部１４ｃは、出力部１３を制御することで、超音波信号を、出力部１３のスピーカを介して提供する。また、例えば、提供部１４ｃは、近距離無線通信を介して、端末装置１０に関する情報を、他の端末装置に提供する。

提供部１４ｃは、受信部１４ａによって受信された音声信号であって、ユーザの発話に対応する音声信号の強度を示す強度情報を含む端末装置１０に関する情報を、他の端末装置に提供する。例えば、提供部１４ｃは、受信部１４ａによって受信された音声信号の受信音量を示す情報である端末装置１０に関する情報を、他の端末装置に提供する。一例では、提供部１４ｃは、受信部１４ａによって受信された音声信号の受信音量を示す超音波信号を、他の端末装置に提供する。別の例では、提供部１４ｃは、通信部１１のＢｌｕｅｔｏｏｔｈやＷｉ−Ｆｉ通信機能を用いて、受信部１４ａによって受信された音声信号の受信音量を示すデータを、他の端末装置に提供する。

提供部１４ｃは、端末装置１０に関する情報を、決定装置１００に提供する。例えば、提供部１４ｃは、受信部１４ａによって受信された音声信号を、決定装置１００に送信する。また、例えば、受信部１４ａによって、受信された音声信号の強度が、強度情報が示す音声信号の強度よりも大きいと決定されたことに応じて、提供部１４ｃは、受信された音声信号を決定装置１００に送信する。

提供部１４ｃは、受信部１４ａによって受信された音声データに基づいて、ユーザに音声を提供する。例えば、提供部１４ｃは、出力部１３を制御することで、受信された音声データに対応する音声を、出力部１３のスピーカを介して提供する。

〔４．決定装置の構成〕
次に、図４を参照して、実施形態に係る決定装置１００の構成例について説明する。図４は、実施形態に係る決定装置１００の構成例を示す図である。図４に示すように、決定装置１００は、通信部１１０と、記憶部１２０と、制御部１３０とを有する。なお、決定装置１００は、決定装置１００を利用する管理者等から各種操作を受け付ける入力部（例えば、キーボードやマウス等）や、各種情報を表示するための表示部（液晶ディスプレイ等）を有してもよい。

（通信部１１０）
通信部１１０は、例えば、ＮＩＣ（Network Interface Card）等によって実現される。通信部１１０は、ネットワーク網と有線又は無線により接続され、ネットワーク網を介して、端末装置１０との間で情報の送受信を行う。

（記憶部１２０）
記憶部１２０は、例えば、ＲＡＭ（Random Access Memory)、フラッシュメモリ（Flash Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。図４に示すように、記憶部１２０は、ユーザ情報記憶部１２１と、機能情報記憶部１２２と、対話モデル記憶部１２３とを有する。

（ユーザ情報記憶部１２１）
図５は、実施形態に係るユーザ情報記憶部１２１の一例を示す図である。ユーザ情報記憶部１２１は、端末装置１０のユーザのユーザ情報を記憶する。例えば、ユーザ情報記憶部１２１は、受信部１３１によって受信されたユーザ情報を記憶する。図５の例では、ユーザ情報記憶部１２１には、「ユーザ情報」が「ユーザＩＤ」ごとに記憶される。例示として、「ユーザ情報」には、項目「発話状況情報」が含まれる。

「ユーザＩＤ」は、ユーザを識別するための識別子を示す。「発話状況情報」は、ユーザの発話の発話状況を示す。例えば、図５は、ユーザＩＤ「Ｕ１」で識別されるユーザの発話状況が、「発話状況ＵＳ１」であることを示している。

一例では、「発話状況ＵＳ１」は、複数の端末装置１０（例えば、端末装置１０_１および端末装置１０_２）がユーザＵ１の発話に由来する音声信号を受信したという状況である。この例では、ユーザＵ１の発話状況情報は、ユーザＵ１によって利用される複数の端末装置の各々によって受信された音声信号の強度を示す。より具体的には、ユーザＵ１の発話状況情報は、複数の端末装置の各々によって受信された音声信号の受信音量を示す。

（機能情報記憶部１２２）
図６は、実施形態に係る機能情報記憶部１２２の一例を示す図である。機能情報記憶部１２２は、端末装置１０を介して提供される各種機能またはサービスの機能情報を記憶する。例えば、機能情報記憶部１２２は、受信部１３１によって受信された機能情報を記憶する。図６の例では、機能情報記憶部１２２には、「機能情報」が「機能ＩＤ」ごとに記憶される。例示として、「機能情報」には、項目「機能」が含まれる。

「機能ＩＤ」は、端末装置１０を介して提供される各種機能またはサービスを識別するための識別子を示す。「機能」は、端末装置１０を介して提供される各種機能またはサービスを示す。例えば、図５は、機能ＩＤ「Ｆ１」で識別される機能が、「タクシー手配ＴＡ１」であることを示している。

一例では、機能「タクシー手配ＴＡ１」は、ユーザの現在位置を示す位置情報を含む配車要求を、タクシーサービスを提供するサーバに送信する機能である。

機能情報記憶部１２２に記憶された機能情報は、対話モデル記憶部１２３に記憶された対話モデルに含まれるサンプル発話に対応する応答処理を示す。加えて、機能情報記憶部１２２に記憶された機能情報は、対話モデル記憶部１２３に記憶された対話モデルに含まれるサンプル発話に対応する応答の出力態様を示す。

例えば、機能「タクシー手配ＴＡ１」の機能情報は、サンプル発話「タクシーを呼んで」に対応する応答処理が、ユーザの現在位置を示す位置情報を含む配車要求の送信であることを示す。また、例えば、機能「タクシー手配ＴＡ１」の機能情報は、サンプル発話「タクシーを呼んで」に対応する応答の出力態様が、音声「タクシーを呼びました」が端末装置１０を介して出力される出力態様であることを示す。

（対話モデル記憶部１２３）
図４に戻ると、対話モデル記憶部１２３は、端末装置１０を介して提供される各種機能またはサービスに関する対話モデルを記憶する。例えば、対話モデルは、端末装置１０を介して提供される各種機能またはサービスに関連する複数のサンプル発話を含む。一例では、機能「タクシー手配ＴＡ１」に関する対話モデルは、サンプル発話「タクシーを呼んで」を含む。

対話モデル記憶部１２３は、学習部１３６によって学習された対話モデルを記憶してもよい。また、対話モデル記憶部１２３は、受信部１３１によって受信された対話モデルを記憶してもよい。対話モデル記憶部１２３は、受信部１３１によって受信された訓練データを記憶してもよい。

（制御部１３０）
制御部１３０は、コントローラ（controller）であり、例えば、ＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro Processing Unit）等のプロセッサによって、決定装置１００内部の記憶装置に記憶されている各種プログラムがＲＡＭ等を作業領域として実行されることにより実現される。また、制御部１３０は、コントローラ（controller）であり、例えば、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）等の集積回路により実現されてもよい。

（受信部１３１）
受信部１３１は、端末装置１０から、音声信号を受信する。受信部１３１は、受信された音声信号を、ユーザ情報記憶部１２１に格納してもよい。一例では、受信部１３１は、発話「ＳＳ１、タクシーを呼んで」に由来する音声信号を受信する。

受信部１３１は、ユーザの発話の発話状況を示す発話状況情報を、端末装置１０から受信する。受信部１３１は、受信された発話状況情報を、ユーザ情報記憶部１２１に格納してもよい。一例では、発話状況情報は、複数の端末装置１０における音声信号の受信状況を示す。受信部１３１は、音声信号を、発話状況情報として受信してもよい。

受信部１３１は、所定のサーバ装置から、対話モデルを受信してもよい。また、受信部１３１は、所定のサーバ装置から、対話モデルを学習するための訓練データを受信してもよい。

（取得部１３２）
取得部１３２は、ユーザの発話の発話状況を示す発話状況情報を取得する。取得部１３２は、例えば、受信部１３１によって受信された発話状況情報を取得する。取得部１３２は、受信部１３１に受信された音声信号を、発話状況情報として取得してもよい。取得部１３２は、ユーザ情報記憶部１２１から、発話状況情報を取得してもよい。また、特定部１３３によって生成された発話状況情報を取得してもよい。

（特定部１３３）
特定部１３３は、受信部１３１によって受信された音声信号に基づいて、ユーザの発話の発話状況を特定してもよい。特定部１３３は、特定された発話状況を示す発話状況情報を生成してもよい。

例えば、特定部１３３は、複数の端末装置よって受信された複数の音声信号に基づいて、複数の端末装置の各々によって受信された音声信号の強度を特定する。そして、特定部１３３は、複数の端末装置の各々によって受信された音声信号の強度示す強度情報を含む発話状況情報を生成する。

（決定部１３４）
決定部１３４は、対話モデル記憶部１２３に記憶された対話モデルを参照することで、生成部１３５によって生成されたテキストデータにマッチするサンプル発話を特定する。例えば、決定部１３４は、意味的構文解析（semantic parsing）等を用いて、生成されたテキストデータにマッチするサンプル発話を特定する。そして、決定部１３４は、機能情報記憶部１２２に記憶された機能情報を参照することで、サンプル発話に対応する応答処理を決定する。

一例では、決定部１３４は、対話モデル記憶部１２３に記憶された機能「タクシー手配ＴＡ１」に関する対話モデルを参照することで、生成部１３５によって生成されたテキストデータ「タクシーを呼んで」にマッチするサンプル発話「タクシーを呼んで」を特定する。そして、決定部１３４は、機能情報記憶部１２２に記憶された機能「タクシー手配ＴＡ１」の機能情報を参照することで、サンプル発話「タクシーを呼んで」に対応する応答処理を決定する。具体的には、決定部１３４は、ユーザの現在位置を示す位置情報を含む配車要求を、タクシーサービスを提供するサーバに送信することを、応答処理として決定する。

図２の実施形態では、端末装置１０が、音声信号が受信された場合に、ユーザの発話の発話状況を示す発話状況情報を用いて、発話に対応する処理を実行するか否かを決定した。しかし、他の実施形態では、決定装置１００の決定部１３４が、取得部１３２によって取得された発話状況情報に基づいて、ユーザの発話に対応する音声信号を受信した複数の端末装置の中から、かかる発話に対応する処理を実行する端末装置を決定してもよい。

例えば、決定部１３４は、複数の端末装置の各々によって受信された音声信号の強度を示す強度情報を含む発話状況情報に基づいて、かかる複数の端末装置のうち最も強い音声信号を受信した端末装置を、ユーザの発話に対応する処理を実行する端末装置として決定してもよい。

（生成部１３５）
生成部１３５は、ユーザの発話内容を示すテキストデータを生成する。例えば、生成部１３５は、受信部１３１によって音声信号が受信された場合に、音声信号を音声認識し、ユーザの発話内容を示すテキストデータを生成する。より具体的には、生成部１３５は、音声認識モデルを用いて、ユーザの発話内容を示すテキストデータを生成する。例えば、ユーザの音声信号の音響特徴量が音声認識モデルに入力された場合に、音声認識モデルは、ユーザの発話内容を示すテキストデータを音声認識結果として出力する。

生成部１３５は、ユーザの音声信号を音声認識サーバに送信してもよい。この場合、ユーザの音声信号の受信に応じて、音声認識サーバは、ユーザの音声信号を音声認識し、ユーザの発話内容を示すテキストデータを生成する。その後、受信部１３１は、生成されたテキストデータを音声認識サーバから受信し、受信されたテキストデータを、生成部１３５に出力する。

生成部１３５は、生成されたユーザの発話内容を示すテキストデータがウェイクワードを含むか否かを判定する。テキストデータがウェイクワードを含むと判定された場合に、生成部１３５は、ウェイクワードが除かれたテキストデータを生成する。このようなウェイクワードが除かれたテキストデータは、ペイロード（payload）と呼ばれる。

一例では、生成部１３５は、発話「ＳＳ１、タクシーを呼んで」に由来する音声信号を音声認識し、テキストデータ「ＳＳ１、タクシーを呼んで」を生成する。生成部１３５は、生成されたテキストデータがウェイクワード「ＳＳ１」を含むか否かを判定する。生成されたテキストデータがウェイクワード「ＳＳ１」を含むと判定されたことに応じて、生成部１３５は、ペイロード「タクシーを呼んで」を生成する。

（学習部１３６）
学習部１３６は、ユーザの発話に対応する処理がユーザのコンテキストに適しているか否かを判定する判定モデルを学習する。ユーザのコンテキストは、例えば、ユーザが置かれた状況、ユーザが置かれた環境、ユーザの行動パターン、ユーザの興味や関心等である。例えば、学習部１３６は、ユーザのコンテキストを示すコンテキストデータと、ユーザの発話に対応する処理を示す処理データと、ユーザの発話に対応する処理がユーザのコンテキストに適しているか否かを示す評価値とを含む訓練データを用いて、判定モデルを学習する。

判定モデルは、例えば、ＤＮＮ（Deep Neural Network）モデルである。この場合、学習部１３６は、ユーザのコンテキストを示すコンテキストデータと、ユーザの発話に対応する処理を示す処理データとを、訓練データの入力として用いる。また、学習部１３６は、ユーザの発話に対応する処理がユーザのコンテキストに適しているか否かを示す評価値を、訓練データの出力として用いる。

一例では、学習部１３６は、コンテキストデータに対応する埋め込みベクトル（例えば、分散表現）と、処理データに対応する埋め込みベクトルとを、訓練データの入力として用いる。例えば、ユーザのコンテキストを示すテキストデータに含まれる複数の単語の埋め込みベクトルの平均と、ユーザの発話に対応する処理を示すテキストデータに含まれる複数の単語の平均とを、訓練データの入力として用いる。さらに、学習部１３６は、クラウドソーシングのプラットフォームを提供する。これにより、アノテータが、ユーザの発話に対応する処理に、かかるユーザの発話に対応する処理がユーザのコンテキストに適しているか否かを示す評価値を、正解ラベルとして付与することができる。学習部１３６は、評価値に対応する交差エントロピー等に基づいて、判定モデルを学習することができる。

（提供部１３７）
提供部１３７は、端末装置１０を介して、機能やサービスをユーザに提供する。例えば、提供部１３７は、決定部１３４によって決定された応答処理を実行する。

一例では、提供部１３７は、端末装置１０を介して、機能「タクシー手配ＴＡ１」をユーザに提供する。この例では、提供部１３７は、ユーザの現在位置を示す位置情報を含む配車要求を、タクシーサービスを提供するサーバに送信する。そして、提供部１３７は、端末装置１０が音声「タクシーを呼びました」を出力するように、かかる音声に対する音声データを端末装置１０に送信する。

〔５．決定処理のフロー〕
次に、実施形態に係る端末装置１０による決定処理の手順について説明する。図７は、実施形態に係る端末装置１０による決定処理手順を示すフローチャートである。

図７に示すように、はじめに、端末装置１０は、ユーザの発話に対応する音声信号を受信する（ステップＳ１０１）。

次いで、端末装置１０は、ユーザの発話に対応する音声信号が受信された場合に、ユーザの発話の発話状況を示す発話状況情報を用いて、かかる発話に対応する処理を実行するか否かを決定する（ステップＳ１０２）。

より具体的には、端末装置１０は、ユーザの周囲環境に存在し、かつユーザの発話に対応する音声信号を受信した他の端末装置に関する情報を、発話状況情報として受信する。例えば、端末装置１０は、超音波信号を介して、他の端末装置によって受信された音声信号であって、ユーザの発話に対応する音声信号の強度を示す強度情報を含む他の端末装置に関する情報を受信する。この場合、端末装置１０は、端末装置１０によって受信された音声信号の強度が、かかる強度情報が示す音声信号の強度よりも大きい場合に、ユーザの発話に対応する処理を実行すると決定する。

〔６．変形例〕
上述の実施形態に係るネットワークシステム１は、上記の実施形態以外にも、種々の異なる形態で実施されてよい。そこで、以下では、上記のネットワークシステム１の他の実施形態について説明する。

〔６−１．人感センサ〕
上記実施形態では、端末装置１０の決定部１４ｂは、受信部１４ａによって音声信号が受信された場合に、ユーザの発話の発話状況を示す発話状況情報を用いて、発話に対応する処理を実行するか否かを決定しているが、これに限定されるものではない。端末装置１０の決定部１４ｂは、検知部１２によって、ユーザの存在が人感センサを用いて検知された場合に、発話に対応する処理を実行すると決定してもよい。

例えば、ウェイクワード「ＳＳ１」に対応する端末装置１０_１が、第１の部屋に設置されていると仮定する。また、ウェイクワード「ＳＳ１」に対応する端末装置１０_２が、第２の部屋に設置されていると仮定する。さらに、第１の部屋と第２の部屋とを仕切る壁が薄いと仮定する。この例では、例えば、第１の部屋にいるユーザＵ１が、端末装置１０_１に向かって「ＳＳ１、タクシーを呼んで」と発話した場合には、端末装置１０_２も、かかる発話に由来する音声信号を受信してしまうことが考えられる。すなわち、端末装置１０_２が、隣の部屋からの音声を受信してしまうことが考えられる。

例えば、端末装置１０_１の検知部１２は、ユーザＵ１が第１の部屋にいる場合に、赤外線センサである人感センサによって、ユーザＵ１の存在を検知する。一方、端末装置１０_２の検知部１２は、ユーザＵ１が第１の部屋にいる場合には、赤外線センサである人感センサによって、ユーザＵ１の存在を検知しない。なぜなら、赤外線は、第１の部屋と第２の部屋とを仕切る壁を透過しないからである。このため、端末装置１０_２は、ユーザＵ１が意図していない機能またはサービスがユーザＵ１に提供されることを防止することができる。

〔６−２．他の端末装置の制御〕
端末装置１０の提供部１４ｃは、決定部１４ｂによってユーザの発話に対応する処理を実行することが決定された場合に、かかる処理の実行を要求する要求情報を他の端末装置に提供してもよい。一例では、端末装置１０の出力部１３は、他の端末装置に前記処理の実行を要求する音声信号を出力してもよい。

例えば、決定装置１００が、所定のスマートデバイス（例えば、所定のスマート家電）を制御できないと仮定する。一方、所定のスマートスピーカに対応するサーバ装置が、かかる所定のスマートデバイスを制御できると仮定する。さらに、かかる所定のスマートスピーカが、端末装置１０の近傍に配置されていると仮定する。この例では、ユーザＵ１が、端末装置１０に向かって「ＳＳ１、所定のスマートデバイスを起動して」と発話した場合に、決定部１４ｂは、ユーザＵ１の発話に対応する処理を実行することを決定する。そして、決定部１４ｂによってユーザＵ１の発話に対応する処理を実行することが決定された場合に、提供部１４ｃは、かかる処理の実行を要求する要求情報をかかる所定のスマートスピーカに提供する。

一例では、ユーザＵ１が、端末装置１０に向かって「ＳＳ１、エアコンＡＣ１をつけて」と発話した場合に、決定部１４ｂは、エアコンＡＣ１を作動させる処理を実行することを決定する。そして、提供部１４ｃは、エアコンＡＣ１を作動させるための要求信号を、所定のスマートスピーカに送信する。

提供部１４ｃは、出力部１３を制御することで、他の端末装置にかかる処理の実行を要求する音声信号を、出力部１３のスピーカを介して提供してもよい。例えば、出力部１３は、例えば、音声「「所定のスマートスピーカのウェイクワード」、所定のスマートデバイスを起動して」を出力する。一例では、出力部１３は、音声「「所定のスマートスピーカのウェイクワード」、エアコンＡＣ１をつけて」を出力する。

提供部１４ｃは、かかる所定のスマートスピーカが、端末装置１０の近傍に配置されていない場合に、ユーザＵ１の発話に対応する処理の実行を要求する要求情報を、かかる所定のスマートスピーカに対応するサーバ装置に送信してもよい。この場合、出力部１３は、音声「所定のスマートスピーカに、所定のスマートデバイスを起動するよう依頼しました」を出力してもよい。

〔６−３．発話に対応する処理のコスト〕
上記実施形態では、決定装置１００の決定部１３４は、取得部１３２によって取得された発話状況情報に基づいて、ユーザの発話に対応する音声信号を受信した複数の端末装置の中から、かかる発話に対応する処理を実行する端末装置を決定しているが、これに限定されるものではない。決定部１３４は、複数の端末装置の各々がユーザの発話に対応する処理を実行する場合に発生するコストを示すコスト情報を含む発話状況情報に基づいて、複数の端末装置のうちユーザの発話に対応する処理を実行した場合に発生するコストが最も小さい端末装置を、ユーザの発話に対応する処理を実行する端末装置として決定してもよい。

例えば、第１の音楽再生契約プランに対応する端末装置１０_１が、第２の音楽再生契約プランに対応する端末装置１０_２の近傍に配置されていると仮定する。さらに、第１の音楽再生契約プランに対応する料金テーブルが、音楽Ｍ１が有料で再生されることを示すと仮定する。一方、第２の音楽再生契約プランに対応する料金テーブルは、音楽Ｍ１が無料で再生されることを示すと仮定する。この例では、ユーザＵ１が、端末装置１０_１に向かって「ＳＳ１、音楽Ｍ１を再生して」と発話した場合に、決定部１３４は、第１の音楽再生契約プランに対応する料金テーブルと第２の音楽再生契約プランに対応する料金テーブルとを含む発話状況情報に基づいて、端末装置１０_２を、ユーザＵ１の発話に対応する処理を実行する端末装置として決定する。そして、提供部１３７は、端末装置１０_２が音楽Ｍ１を再生するように、音楽Ｍ１の音楽データを端末装置１０_２に送信する。

〔６−４．対話のコンテキスト〕
決定装置１００の決定部１３４は、ユーザとの対話のコンテキストを示すコンテキスト情報を含む発話状況情報に基づいて、ユーザの発話に対応する処理を実行する端末装置を決定してもよい。例えば、決定部１３４は、学習部１３６によって学習された判定モデルに、ユーザＵ１と端末装置１０_１との対話のコンテキストを示すテキストデータに対応する埋め込みベクトルを入力することによって、所定の処理（例えば、サンプル発話に対応する所定の応答処理）がかかる対話のコンテキストに適しているか否かを示す評価値を出力する。決定部１３４は、出力された評価値が閾値以上である場合に、端末装置１０_１を、かかる所定の応答処理を実行する端末装置として決定する。

決定部１３４は、ユーザの発話パターンを示すコンテキスト情報に基づいて、ユーザの発話に対応する処理を実行する端末装置１０を決定してもよい。例えば、決定部１３４は、複数の端末装置１０の各々がユーザの発話に対応する音声信号を受信する頻度を示すコンテキスト情報に基づいて、ユーザの発話に対応する処理を実行する端末装置１０を決定する。より具体的には、決定部１３４は、複数の端末装置１０のうち最も受信頻度の高い端末装置１０を、ユーザの発話に対応する処理を実行する端末装置１０として決定する。

一例では、コンテキスト情報は、端末装置１０_１がユーザＵ１の発話に対応する音声信号を受信する頻度が「１回／１日」であることを示す。また、コンテキスト情報は、端末装置１０_２がユーザＵ１の発話に対応する音声信号を受信する頻度が「１回／１週間」であることを示す。この例では、決定部１３４は、端末装置１０_１を、ユーザＵ１の発話に対応する処理を実行する端末装置として決定する。

特定部１３３は、受信部１３１によって受信された音声信号に基づいて、複数の端末装置１０の各々がユーザの発話に対応する音声信号を受信する頻度を示すコンテキスト情報を生成してもよい。例えば、特定部１３３は、話者照合アルゴリズムを用いて、各ユーザの音声信号の受信頻度を算出し、算出結果に基づいて、コンテキスト情報を生成してもよい。

〔６−５．決定装置による決定処理の実行主体〕
端末装置１０は、上記実施形態において決定装置１００によって実行された決定処理の全部または一部を実行してもよい。

上記実施形態では、決定装置１００が、ユーザの発話の発話状況を示す発話状況情報を取得し、取得された発話状況情報に基づいて、かかる発話に対応する音声信号を受信した複数の端末装置の中から、かかる発話に対応する処理を実行する端末装置を決定しているが、これに限定されるものではない。端末装置１０の受信部１４ａは、ユーザの発話の発話状況を示す発話状況情報を受信してもよい。また、端末装置１０の決定部１４ｂは、受信部１４ａによって受信された発話状況情報に基づいて、ユーザの発話に対応する音声信号を受信した複数の端末装置１０の中から、かかる発話に対応する処理を実行する端末装置１０を決定してもよい。

〔６−６．その他〕
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の一部を手動的に行うこともできる。あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。

例えば、図４に示した記憶部１２０の一部又は全部は、決定装置１００によって保持されるのではなく、ストレージサーバ等に保持されてもよい。この場合、決定装置１００は、ストレージサーバにアクセスすることで、ユーザ情報や機能情報等の各種情報を取得する。

〔６−７．ハードウェア構成〕
また、上述してきた実施形態に係る端末装置１０や決定装置１００は、例えば図８に示すような構成のコンピュータ１０００によって実現される。図８は、ハードウェア構成の一例を示す図である。コンピュータ１０００は、出力装置１０１０、入力装置１０２０と接続され、演算装置１０３０、一次記憶装置１０４０、二次記憶装置１０５０、出力ＩＦ（Interface）１０６０、入力ＩＦ１０７０、ネットワークＩＦ１０８０がバス１０９０により接続された形態を有する。

演算装置１０３０は、一次記憶装置１０４０や二次記憶装置１０５０に格納されたプログラムや入力装置１０２０から読み出したプログラム等に基づいて動作し、各種の処理を実行する。一次記憶装置１０４０は、ＲＡＭ等、演算装置１０３０が各種の演算に用いるデータを一時的に記憶するメモリ装置である。また、二次記憶装置１０５０は、演算装置１０３０が各種の演算に用いるデータや、各種のデータベースが登録される記憶装置であり、ＲＯＭ(Read Only Memory)、ＨＤＤ、フラッシュメモリ等により実現される。

出力ＩＦ１０６０は、モニタやプリンタといった各種の情報を出力する出力装置１０１０に対し、出力対象となる情報を送信するためのインタフェースであり、例えば、ＵＳＢ（Universal Serial Bus）やＤＶＩ（Digital Visual Interface）、ＨＤＭＩ（登録商標）（High Definition Multimedia Interface）といった規格のコネクタにより実現される。また、入力ＩＦ１０７０は、マウス、キーボード、およびスキャナ等といった各種の入力装置１０２０から情報を受信するためのインタフェースであり、例えば、ＵＳＢ等により実現される。

なお、入力装置１０２０は、例えば、ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disc）、ＰＤ（Phase change rewritable Disk）等の光学記録媒体、ＭＯ（Magneto-Optical disk）等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等から情報を読み出す装置であってもよい。また、入力装置１０２０は、ＵＳＢメモリ等の外付け記憶媒体であってもよい。

ネットワークＩＦ１０８０は、ネットワークＮを介して他の機器からデータを受信して演算装置１０３０へ送り、また、ネットワークＮを介して演算装置１０３０が生成したデータを他の機器へ送信する。

演算装置１０３０は、出力ＩＦ１０６０や入力ＩＦ１０７０を介して、出力装置１０１０や入力装置１０２０の制御を行う。例えば、演算装置１０３０は、入力装置１０２０や二次記憶装置１０５０からプログラムを一次記憶装置１０４０上にロードし、ロードしたプログラムを実行する。

例えば、コンピュータ１０００が端末装置１０として機能する場合、コンピュータ１０００の演算装置１０３０は、一次記憶装置１０４０上にロードされたプログラムを実行することにより、制御部１４の機能を実現する。

〔７．効果〕
上述してきたように、実施形態に係る端末装置１０は、受信部１４ａと、決定部１４ｂとを有する。受信部１４ａは、ユーザの発話に対応する音声信号を受信する。決定部１４ｂは、受信部１４ａによって音声信号が受信された場合に、ユーザの発話の発話状況を示す発話状況情報を用いて、発話に対応する処理を実行するか否かを決定する。

また、実施形態に係る端末装置１０において、受信部１４ａは、ユーザの周囲環境に存在し、かつユーザの発話に対応する音声信号を受信した他の端末装置に関する情報を、発話状況情報として受信する。

また、実施形態に係る端末装置１０において、受信部１４ａは、近距離無線通信を介して、他の端末装置に関する情報を他の端末装置から受信する。

また、実施形態に係る端末装置１０において、受信部１４ａは、超音波信号を介して、他の端末装置に関する情報を他の端末装置から受信する。

また、実施形態に係る端末装置１０において、受信部１４ａは、他の端末装置によって受信された音声信号であって、ユーザの発話に対応する音声信号の強度を示す強度情報を含む他の端末装置に関する情報を受信する。

また、実施形態に係る端末装置１０において、決定部１４ｂは、受信部１４ａによって受信された音声信号の強度が、強度情報が示す音声信号の強度よりも大きい場合に、発話に対応する処理を実行すると決定する。

また、実施形態に係る端末装置１０は、人感センサを用いてユーザの存在を検知する検知部１２を有する。また、実施形態に係る端末装置１０において、決定部１４ｂは、検知部１２によってユーザの存在が検知された場合に、発話に対応する処理を実行すると決定する。

上述した各処理により、端末装置１０は、ユーザが意図しない端末装置の二重起動を防止することができる。

また、実施形態に係る端末装置１０は、決定部１４ｂによって発話に対応する処理を実行することが決定された場合に、処理の実行を要求する要求情報を他の端末装置に提供する提供部１４ｃを有する。

また、実施形態に係る端末装置１０は、他の端末装置に処理の実行を要求する音声信号を出力する出力部１３を有する。

上述した各処理により、端末装置１０は、他の端末装置と連携することで、ユーザが利用する端末装置のユーザビリティを向上させることができる。

また、上述してきたように、実施形態に係る決定装置１００は、取得部１３２と、決定部１３４とを有する。取得部１３２は、ユーザの発話の発話状況を示す発話状況情報を取得する。決定部１３４は、取得部１３２によって取得された発話状況情報に基づいて、発話に対応する音声信号を受信した複数の端末装置の中から、発話に対応する処理を実行する端末装置を決定する。

また、実施形態に係る決定装置１００において、決定部１３４は、複数の端末装置の各々によって受信された音声信号の強度を示す強度情報を含む発話状況情報に基づいて、複数の端末装置のうち最も強い音声信号を受信した端末装置を、発話に対応する処理を実行する端末装置として決定する。

上述した各処理により、決定装置１００は、ユーザが意図しない端末装置の二重起動を防止することができる。

また、実施形態に係る決定装置１００において、決定部１３４は、複数の端末装置の各々が発話に対応する処理を実行する場合に発生するコストを示すコスト情報を含む発話状況情報に基づいて、複数の端末装置のうち発話に対応する処理を実行した場合に発生するコストが最も小さい端末装置を、発話に対応する処理を実行する端末装置として決定する。このため、決定装置１００は、端末装置の機能またはサービスにかかる費用を低減化することができる。

また、実施形態に係る決定装置１００において、決定部１３４は、ユーザとの対話のコンテキストを示すコンテキスト情報を含む発話状況情報に基づいて、発話に対応する処理を実行する端末装置を決定する。

また、実施形態に係る決定装置１００において、決定部１３４は、複数の端末装置の各々がユーザの発話に対応する音声信号を受信する頻度を示すコンテキスト情報に基づいて、発話に対応する処理を実行する端末装置を決定する。

上述した各処理により、決定装置１００は、端末装置を状況に応じて適切に制御することができる。

以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。

また、上述した決定装置１００は、複数のサーバコンピュータで実現してもよく、また、機能によっては外部のプラットフォーム等をＡＰＩ（Application Programming Interface）やネットワークコンピューティングなどで呼び出して実現するなど、構成は柔軟に変更できる。

また、上述してきた「部（section、module、unit）」は、「手段」や「回路」などに読み替えることができる。例えば、受信部は、受信手段や受信回路に読み替えることができる。

１ネットワークシステム
１０端末装置
１２検知部
１３出力部
１４制御部
１４ａ受信部
１４ｂ決定部
１４ｃ提供部
１００決定装置
１２０記憶部
１２１ユーザ情報記憶部
１２２機能情報記憶部
１２３対話モデル記憶部
１３０制御部
１３１受信部
１３２取得部
１３３特定部
１３４決定部
１３５生成部
１３６学習部
１３７提供部

Claims

ユーザの発話に対応する音声信号を受信する受信部と、
前記受信部によって音声信号が受信された場合に、前記ユーザの発話の発話状況を示す発話状況情報を用いて、前記発話に対応する処理を実行するか否かを決定する決定部と、
を備えることを特徴とする端末装置。
前記受信部は、
前記ユーザの周囲環境に存在し、かつ前記ユーザの前記発話に対応する音声信号を受信した他の端末装置に関する情報を、前記発話状況情報として受信する
ことを特徴とする請求項１に記載の端末装置。
前記受信部は、
近距離無線通信を介して、前記他の端末装置に関する情報を前記他の端末装置から受信する
ことを特徴とする請求項２に記載の端末装置。
前記受信部は、
超音波信号を介して、前記他の端末装置に関する情報を前記他の端末装置から受信する
ことを特徴とする請求項２又は３に記載の端末装置。
前記受信部は、
前記他の端末装置によって受信された音声信号であって、前記ユーザの発話に対応する音声信号の強度を示す強度情報を含む前記他の端末装置に関する情報を受信する
ことを特徴とする請求項２〜４のうちいずれか１つに記載の端末装置。
前記決定部は、
前記受信部によって受信された音声信号の強度が、前記強度情報が示す音声信号の強度よりも大きい場合に、前記発話に対応する処理を実行すると決定する
ことを特徴とする請求項５に記載の端末装置。
人感センサを用いてユーザの存在を検知する検知部をさらに備え、
前記決定部は、
前記検知部によって前記ユーザの存在が検知された場合に、前記発話に対応する処理を実行すると決定する
ことを特徴とする請求項１〜６のうちいずれか１つに記載の端末装置。
前記決定部によって前記発話に対応する処理を実行することが決定された場合に、当該処理の実行を要求する要求情報を他の端末装置に提供する提供部をさらに備える
ことを特徴とする請求項１〜７のうちいずれか１つに記載の端末装置。
前記他の端末装置に前記処理の実行を要求する音声信号を出力する出力部をさらに備える
ことを特徴とする請求項８に記載の端末装置。
端末装置が実行する決定方法であって、
ユーザの発話に対応する音声信号を受信する受信工程と、
前記受信工程によって音声信号が受信された場合に、前記ユーザの発話の発話状況を示す発話状況情報を用いて、前記発話に対応する処理を実行するか否かを決定する決定工程と、
を含むことを特徴とする決定方法。
ユーザの発話に対応する音声信号を受信する受信手順と、
前記受信手順によって音声信号が受信された場合に、前記ユーザの発話の発話状況を示す発話状況情報を用いて、前記発話に対応する処理を実行するか否かを決定する決定手順と、
をコンピュータに実行させることを特徴とする決定プログラム。
ユーザの発話の発話状況を示す発話状況情報を取得する取得部と、
前記取得部によって取得された発話状況情報に基づいて、前記発話に対応する音声信号を受信した複数の端末装置の中から、前記発話に対応する処理を実行する端末装置を決定する決定部と、
を備えることを特徴とする決定装置。
前記決定部は、
前記複数の端末装置の各々によって受信された音声信号の強度を示す強度情報を含む前記発話状況情報に基づいて、前記複数の端末装置のうち最も強い音声信号を受信した端末装置を、前記発話に対応する処理を実行する端末装置として決定する
ことを特徴とする請求項１２に記載の決定装置。
前記決定部は、
前記複数の端末装置の各々が前記発話に対応する処理を実行する場合に発生するコストを示すコスト情報を含む前記発話状況情報に基づいて、前記複数の端末装置のうち前記発話に対応する処理を実行した場合に発生するコストが最も小さい端末装置を、前記発話に対応する処理を実行する端末装置として決定する
ことを特徴とする請求項１２又は１３に記載の決定装置。
前記決定部は、
前記ユーザとの対話のコンテキストを示すコンテキスト情報を含む前記発話状況情報に基づいて、前記発話に対応する処理を実行する端末装置を決定する
ことを特徴とする請求項１２〜１４のうちいずれか１つに記載の決定装置。
前記決定部は、
前記複数の端末装置の各々が前記ユーザの発話に対応する音声信号を受信する頻度を示す前記コンテキスト情報に基づいて、前記発話に対応する処理を実行する端末装置を決定する
ことを特徴とする請求項１５に記載の決定装置。
決定装置が実行する決定方法であって、
ユーザの発話の発話状況を示す発話状況情報を取得する取得工程と、
前記取得工程によって取得された発話状況情報に基づいて、前記発話に対応する音声信号を受信した複数の端末装置の中から、前記発話に対応する処理を実行する端末装置を決定する決定工程と、
を含むことを特徴とする決定方法。
ユーザの発話の発話状況を示す発話状況情報を取得する取得手順と、
前記取得手順によって取得された発話状況情報に基づいて、前記発話に対応する音声信号を受信した複数の端末装置の中から、前記発話に対応する処理を実行する端末装置を決定する決定手順と、
をコンピュータに実行させることを特徴とする決定プログラム。