JP2020030245A - 端末装置、決定方法、決定プログラム及び決定装置 - Google Patents

端末装置、決定方法、決定プログラム及び決定装置 Download PDF

Info

Publication number
JP2020030245A
JP2020030245A JP2018154261A JP2018154261A JP2020030245A JP 2020030245 A JP2020030245 A JP 2020030245A JP 2018154261 A JP2018154261 A JP 2018154261A JP 2018154261 A JP2018154261 A JP 2018154261A JP 2020030245 A JP2020030245 A JP 2020030245A
Authority
JP
Japan
Prior art keywords
utterance
terminal device
user
unit
audio signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018154261A
Other languages
English (en)
Other versions
JP7018850B2 (ja
Inventor
中村 浩樹
Hiroki Nakamura
浩樹 中村
孝太 坪内
Kota Tsubouchi
孝太 坪内
山本 学
Manabu Yamamoto
学 山本
太士 岩▲瀬▼張
Futoshi Iwasebari
太士 岩▲瀬▼張
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
LY Corp
Original Assignee
Z Holdings Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Z Holdings Corp filed Critical Z Holdings Corp
Priority to JP2018154261A priority Critical patent/JP7018850B2/ja
Publication of JP2020030245A publication Critical patent/JP2020030245A/ja
Application granted granted Critical
Publication of JP7018850B2 publication Critical patent/JP7018850B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】ユーザが意図する処理を実行すること。【解決手段】本願に係る端末装置は、受信部と、決定部とを有する。受信部は、ユーザの発話に対応する音声信号を受信する。決定部は、受信部によって音声信号が受信された場合に、ユーザの発話の発話状況を示す発話状況情報を用いて、発話に対応する処理を実行するか否かを決定する。【選択図】図3

Description

本発明は、端末装置、決定方法、決定プログラム及び決定装置に関する。
従来、ユーザの発話に対する応答処理の開始を制御する技術が提案されている。例えば、ユーザの発話がホットワード(例えば、音声アシスタントの名前)を含む可能性を示す信頼性スコアに基づいて、発話に対応する処理を実行するか否かを決定する技術が提案されている。
特開2017−227912号公報
しかしながら、上記の従来技術では、ユーザが意図する処理を実行できるとは限らない。例えば、上記の従来技術では、ホットワードを含む可能性を示す信頼性スコアが、ユーザが意図する操作対象を反映するとは限らない。
本願は、上記に鑑みてなされたものであって、ユーザが意図する処理を実行することを目的とする。
本願に係る端末装置は、ユーザの発話に対応する音声信号を受信する受信部と、前記受信部によって音声信号が受信された場合に、前記ユーザの発話の発話状況を示す発話状況情報を用いて、前記発話に対応する処理を実行するか否かを決定する決定部とを備えることを特徴とする。
実施形態の一態様によれば、ユーザが意図する処理を実行することができるという効果を奏する。
図1は、実施形態に係るネットワークシステムの構成例を示す図である。 図2は、実施形態に係る決定処理の一例を示す図である。 図3は、実施形態に係る端末装置の構成例を示す図である。 図4は、実施形態に係る決定装置の構成例を示す図である。 図5は、実施形態に係るユーザ情報記憶部の一例を示す図である。 図6は、実施形態に係る機能情報記憶部の一例を示す図である。 図7は、実施形態に係る端末装置による決定処理手順を示すフローチャートである。 図8は、ハードウェア構成の一例を示す図である。
以下に、本願に係る端末装置、決定方法、決定プログラム及び決定装置を実施するための形態(以下、「実施形態」と呼ぶ)について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る端末装置、決定方法、決定プログラム及び決定装置が限定されるものではない。また、各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略する。
〔1.ネットワークシステムの構成〕
まず、図1を参照して、実施形態に係るネットワークシステム1の構成について説明する。図1は、実施形態に係るネットワークシステム1の構成例を示す図である。図1に示すように、実施形態に係るネットワークシステム1には、端末装置10〜10と、決定装置100とが含まれる(nは任意の自然数)。本明細書では、端末装置10〜10を区別する必要がない場合は、端末装置10〜10を「端末装置10」と総称する。端末装置10および決定装置100は、それぞれネットワークNと有線又は無線により接続される。図1中では図示していないが、ネットワークシステム1は、複数台の決定装置100を含んでもよい。
端末装置10は、ユーザによって利用される情報処理装置である。端末装置10は、スマートスピーカ、スマートフォン、デスクトップ型PC(Personal Computer)、ノート型PC、タブレット型PC、スマート家電、ロボットを含む、任意のタイプの情報処理装置であってもよい。
決定装置100は、各種機能またはサービスを端末装置10に提供するサーバ装置である。決定装置100は、ネットワークNを介して、有線又は無線により端末装置10と通信を行う。
〔2.決定処理〕
次に、図2を参照して、実施形態に係る決定処理の一例について説明する。図2は、実施形態に係る決定処理の一例を示す図である。
図2の例では、端末装置10および端末装置10は、音声アシスタントサービスに対応したスマートスピーカである。端末装置10および端末装置10は、ユーザU1によって利用される。ユーザU1は、端末装置10または端末装置10に向かって発話することにより、音声アシスタントと情報をやり取りすることができる。
図2の例では、音声アシスタントの名前は、「SS1」である。ユーザU1が音声アシスタントを介して機能やサービスを利用する場合に、ユーザU1は、音声アシスタントの名前「SS1」を含む要求を発話する。例えば、ユーザU1がタクシー手配の機能を利用する場合に、ユーザU1は、「SS1、タクシーを呼んで」と発話する。このように、音声アシスタントの名前「SS1」は、音声アシスタントを起動させるための起動フレーズに相当する。一般的に、このような起動フレーズは、ウェイクワードと呼ばれたり、あるいはホットワードと呼ばれたりする。
図2の例では、端末装置10に対応する音声アシスタントは、端末装置10に対応する音声アシスタントと同一である。また、端末装置10のウェイクワードは、端末装置10のウェイクワードと同一に設定されている。すなわち、端末装置10および端末装置10のウェイクワードは、「SS1」である。
図2の例では、端末装置10は、端末装置10の近傍に配置されている。また、端末装置10は、端末装置10よりもユーザU1の近くに配置されている。図2の例では、ユーザU1は、端末装置10に向かって「SS1、タクシーを呼んで」と発話する。
図2の例では、決定装置100は、端末装置10または端末装置10を介して、音声アシスタントサービスをユーザU1に提供する。例えば、ユーザU1の発話に由来する音声信号が端末装置10から送信された場合に、決定装置100は、音声信号を音声認識し、ユーザU1の発話内容を示すテキストデータ(例えば、「SS1、タクシーを呼んで」)を生成する。生成されたテキストデータがウェイクワードを含む場合に、決定装置100は、ウェイクワードが除かれたテキストデータ(例えば、「タクシーを呼んで」)に基づいて、ユーザU1の要求に対する応答処理を実行する。
ところで、図2の例では、ユーザU1は、1台のタクシーを呼ぶことを意図している。しかし、端末装置10と端末装置10の両方が、ユーザU1の近傍に位置する。このため、ユーザU1が「SS1、タクシーを呼んで」と発話した場合には、端末装置10と端末装置10の両方が、タクシーを呼んでしまうことが考えられる。以下に説明される決定処理の一例では、端末装置10および端末装置10が同一の発話に応じて同一の処理を同時に実行しないように、音声信号の受信音量に基づいて、音声信号が決定装置100に送信されるか否かが決定される。
はじめに、端末装置10は、ユーザU1の発話「SS1、タクシーを呼んで」に由来する音声信号を端末装置10のマイクロホンを介して受信する。図2の例では、端末装置10によって受信された音声信号の受信音量は、「70dB」である。同様に、端末装置10も、ユーザU1の発話に由来する音声信号を受信する。図2の例では、端末装置10よりもユーザU1から遠くに配置された端末装置10によって受信された音声信号の受信音量は、「40dB」である。
次いで、端末装置10は、受信音量「70dB」を超音波信号に変換し、超音波信号を端末装置10のスピーカを介して出力する。同様に、端末装置10も、受信音量「40dB」を超音波信号に変換し、超音波信号を出力する。これにより、端末装置10と端末装置10とは、受信音量を示す超音波信号を送受信することができる。
次いで、端末装置10は、受信された超音波信号を、端末装置10の受信音量に変換する。そして、端末装置10は、端末装置10の受信音量が、端末装置10の受信音量よりも大きいか否かを決定する。同様に、端末装置10も、受信された超音波信号を、端末装置10の受信音量に変換する。そして、端末装置10は、端末装置10の受信音量が、端末装置10の受信音量よりも大きいか否かを決定する。
図2の例では、端末装置10は、端末装置10の受信音量「70dB」が端末装置10の受信音量「40dB」よりも大きいと決定する。一方、端末装置10は、端末装置10の受信音量「40dB」が端末装置10の受信音量「70dB」よりも大きくないと決定する。
次いで、端末装置10の受信音量が端末装置10の受信音量よりも大きいと決定されたことに応じて、端末装置10は、受信された音声信号を決定装置100に送信すると決定する。一方、端末装置10の受信音量が端末装置10の受信音量よりも大きくないと決定されたことに応じて、端末装置10は、受信された音声信号を決定装置100に送信しないと決定する。
その後、端末装置10は、受信された音声信号を、決定装置100に送信する。そして、端末装置10は、送信された音声信号に対する応答として、音声データを決定装置100から受信する。そして、端末装置10は、受信された音声データを音声「タクシーを呼びました」として出力する。このようにして、ユーザU1は、1台の端末装置10(すなわち、端末装置10)が1台のタクシーを手配したことを確認することができる。
上述のように、実施形態に係る端末装置10は、端末装置10の近傍に配置された端末装置10との間で超音波により、受信された音声信号の受信音量を送受信する。そして、端末装置10の受信音量が端末装置10の受信音量よりも大きい場合に、端末装置10は、音声信号を決定装置100に送信する。これにより、端末装置10(すなわち、端末装置10または端末装置10)は、ユーザが意図しない端末装置の二重起動を防止することができる。言い換えると、端末装置10(例えば、端末装置10)は、複数の端末装置10(例えば、端末装置10および端末装置10)が同一のウェイクワードにより起動することを防止することができる。以下、このような決定処理を実現する端末装置10および決定装置100について詳細に説明する。
〔3.端末装置の構成〕
次に、図3を参照して、実施形態に係る端末装置10の構成例について説明する。図3は、実施形態に係る端末装置10の構成例を示す図である。図3に示すように、端末装置10は、通信部11と、検知部12と、出力部13と、制御部14とを有する。
(通信部11)
通信部11は、例えば、NIC(Network Interface Card)等によって実現される。通信部11は、ネットワーク網と有線又は無線により接続され、ネットワーク網を介して、決定装置100との間で情報の送受信を行う。通信部11は、Bluetooth(登録商標)やWi−Fi(登録商標)通信機能等を用いて、端末装置と近距離無線通信を行ってもよい。
(検知部12)
検知部12は、端末装置10に関する各種情報を検知し、検知された各種情報を受信部14aへ出力する。検知部12は、マイクロホンと、人感センサとを有する。
検知部12は、マイクロホンを用いて、音源からの信号を収音する。マイクロホンは、端末装置10の周囲の音を収音し、集音された音を音響信号または音声信号に変換する。
検知部12は、人感センサを用いて、ユーザの存在を検知する。人感センサは、端末装置10の周囲の人の存否を検出する。例えば、人感センサは、人から放射されている赤外線に基づいて周囲の温度変化を検知することで、周囲の人の存否を検知することができる。
(出力部13)
出力部13は、音響信号や音声信号を出力する。出力部13は、スピーカを有する。スピーカは、音響信号または音声信号に応じて音波を放射する。出力部13は、超音波信号を出力してもよい。例えば、出力部13は、パラメトリックスピーカ(指向性スピーカとも呼ばれる)を有してもよい。パラメトリックスピーカは、音響信号または音声信号に応じて超音波を放射する。
(制御部14)
制御部14は、コントローラ(controller)であり、例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit)等のプロセッサによって、端末装置10内部の記憶装置に記憶されている各種プログラムがRAM等を作業領域として実行されることにより実現される。また、制御部14は、コントローラ(controller)であり、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現されてもよい。
(受信部14a)
受信部14aは、検知部12を制御することで、検知部12によって検知される情報を取得する。例えば、受信部14aは、検知部12のマイクロホンによって変換された音響信号または音声信号を受信する。例えば、受信部14aは、ユーザの発話に対応する音声信号を受信する。
受信部14aは、ユーザの周囲環境に存在し、かつかかるユーザの発話に対応する音声信号を受信した他の端末装置に関する情報を、発話状況情報として受信する。例えば、受信部14aは、超音波信号を介して、他の端末装置に関する情報をかかる他の端末装置から受信する。より具体的には、他の端末装置が超音波を放射した場合に、受信部14aは、検知部12を制御することで、マイクロホンによって超音波から変換された超音波信号を、他の端末装置に関する情報として受信する。すなわち、受信部14aは、超音波通信を用いて、他の端末装置からデータを、超音波信号として受信することができる。
受信部14aは、近距離無線通信を介して、他の端末装置に関する情報をかかる他の端末装置から受信してもよい。より具体的には、受信部14aは、通信部11のBluetoothやWi−Fi通信機能を用いて、他の端末装置に関する情報を受信してもよい。
受信部14aは、他の端末装置によって受信された音声信号であって、ユーザの発話に対応する音声信号の強度を示す強度情報を含む他の端末装置に関する情報を受信する。例えば、受信部14aは、他の端末装置によって受信された音声信号の受信音量を示す他の端末装置に関する情報を受信する。一例では、受信部14aは、他の端末装置によって受信された音声信号の受信音量を示す超音波信号を受信する。別の例では、受信部14aは、通信部11のBluetoothやWi−Fi通信機能を用いて、他の端末装置によって受信された音声信号の受信音量を示すデータを受信する。
受信部14aは、音声データを決定装置100から受信する。例えば、受信部14aは、提供部14cが音声信号を決定装置100に送信した場合に、決定装置100に送信された音声信号に対する応答として、音声データを決定装置100から受信する。
(決定部14b)
決定部14bは、受信部14aによって音声信号が受信された場合に、ユーザの発話の発話状況を示す発話状況情報を用いて、発話に対応する処理を実行するか否かを決定する。例えば、決定部14bは、受信部14aによって受信された音声信号の強度が、強度情報が示す音声信号の強度よりも大きい場合に、かかる発話に対応する処理を実行すると決定する。決定部14bは、受信部14aによって受信された音声信号の強度が、強度情報が示す音声信号の強度よりも大きくない場合には、かかる発話に対応する処理を実行しないと決定する。
一例では、決定部14bは、受信部14aによって受信された超音波信号を、他の端末装置の受信音量に変換し、受信部14aによって受信された音声信号の受信音量が、他の端末装置の受信音量よりも大きいか否かを決定する。この例では、受信部14aによって受信された音声信号の受信音量が、他の端末装置の受信音量よりも大きい場合に、発話に対応する処理を実行すると決定する。一方、受信部14aによって受信された音声信号の受信音量が、他の端末装置の受信音量よりも大きくない場合に、発話に対応する処理を実行しないと決定する。
(提供部14c)
提供部14cは、端末装置10に関する情報を、他の端末装置に提供する。例えば、提供部14cは、ユーザの周囲環境に存在し、かつかかるユーザの発話に対応する音声信号を受信した他の端末装置に対して、端末装置10に関する情報を提供する。
提供部14cは、出力部13を制御することで、端末装置10に関する情報を提供する。例えば、提供部14cは、超音波信号を介して端末装置10に関する情報を、他の端末装置に提供する。より具体的には、提供部14cは、出力部13を制御することで、超音波信号を、出力部13のスピーカを介して提供する。また、例えば、提供部14cは、近距離無線通信を介して、端末装置10に関する情報を、他の端末装置に提供する。
提供部14cは、受信部14aによって受信された音声信号であって、ユーザの発話に対応する音声信号の強度を示す強度情報を含む端末装置10に関する情報を、他の端末装置に提供する。例えば、提供部14cは、受信部14aによって受信された音声信号の受信音量を示す情報である端末装置10に関する情報を、他の端末装置に提供する。一例では、提供部14cは、受信部14aによって受信された音声信号の受信音量を示す超音波信号を、他の端末装置に提供する。別の例では、提供部14cは、通信部11のBluetoothやWi−Fi通信機能を用いて、受信部14aによって受信された音声信号の受信音量を示すデータを、他の端末装置に提供する。
提供部14cは、端末装置10に関する情報を、決定装置100に提供する。例えば、提供部14cは、受信部14aによって受信された音声信号を、決定装置100に送信する。また、例えば、受信部14aによって、受信された音声信号の強度が、強度情報が示す音声信号の強度よりも大きいと決定されたことに応じて、提供部14cは、受信された音声信号を決定装置100に送信する。
提供部14cは、受信部14aによって受信された音声データに基づいて、ユーザに音声を提供する。例えば、提供部14cは、出力部13を制御することで、受信された音声データに対応する音声を、出力部13のスピーカを介して提供する。
〔4.決定装置の構成〕
次に、図4を参照して、実施形態に係る決定装置100の構成例について説明する。図4は、実施形態に係る決定装置100の構成例を示す図である。図4に示すように、決定装置100は、通信部110と、記憶部120と、制御部130とを有する。なお、決定装置100は、決定装置100を利用する管理者等から各種操作を受け付ける入力部(例えば、キーボードやマウス等)や、各種情報を表示するための表示部(液晶ディスプレイ等)を有してもよい。
(通信部110)
通信部110は、例えば、NIC(Network Interface Card)等によって実現される。通信部110は、ネットワーク網と有線又は無線により接続され、ネットワーク網を介して、端末装置10との間で情報の送受信を行う。
(記憶部120)
記憶部120は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。図4に示すように、記憶部120は、ユーザ情報記憶部121と、機能情報記憶部122と、対話モデル記憶部123とを有する。
(ユーザ情報記憶部121)
図5は、実施形態に係るユーザ情報記憶部121の一例を示す図である。ユーザ情報記憶部121は、端末装置10のユーザのユーザ情報を記憶する。例えば、ユーザ情報記憶部121は、受信部131によって受信されたユーザ情報を記憶する。図5の例では、ユーザ情報記憶部121には、「ユーザ情報」が「ユーザID」ごとに記憶される。例示として、「ユーザ情報」には、項目「発話状況情報」が含まれる。
「ユーザID」は、ユーザを識別するための識別子を示す。「発話状況情報」は、ユーザの発話の発話状況を示す。例えば、図5は、ユーザID「U1」で識別されるユーザの発話状況が、「発話状況US1」であることを示している。
一例では、「発話状況US1」は、複数の端末装置10(例えば、端末装置10および端末装置10)がユーザU1の発話に由来する音声信号を受信したという状況である。この例では、ユーザU1の発話状況情報は、ユーザU1によって利用される複数の端末装置の各々によって受信された音声信号の強度を示す。より具体的には、ユーザU1の発話状況情報は、複数の端末装置の各々によって受信された音声信号の受信音量を示す。
(機能情報記憶部122)
図6は、実施形態に係る機能情報記憶部122の一例を示す図である。機能情報記憶部122は、端末装置10を介して提供される各種機能またはサービスの機能情報を記憶する。例えば、機能情報記憶部122は、受信部131によって受信された機能情報を記憶する。図6の例では、機能情報記憶部122には、「機能情報」が「機能ID」ごとに記憶される。例示として、「機能情報」には、項目「機能」が含まれる。
「機能ID」は、端末装置10を介して提供される各種機能またはサービスを識別するための識別子を示す。「機能」は、端末装置10を介して提供される各種機能またはサービスを示す。例えば、図5は、機能ID「F1」で識別される機能が、「タクシー手配TA1」であることを示している。
一例では、機能「タクシー手配TA1」は、ユーザの現在位置を示す位置情報を含む配車要求を、タクシーサービスを提供するサーバに送信する機能である。
機能情報記憶部122に記憶された機能情報は、対話モデル記憶部123に記憶された対話モデルに含まれるサンプル発話に対応する応答処理を示す。加えて、機能情報記憶部122に記憶された機能情報は、対話モデル記憶部123に記憶された対話モデルに含まれるサンプル発話に対応する応答の出力態様を示す。
例えば、機能「タクシー手配TA1」の機能情報は、サンプル発話「タクシーを呼んで」に対応する応答処理が、ユーザの現在位置を示す位置情報を含む配車要求の送信であることを示す。また、例えば、機能「タクシー手配TA1」の機能情報は、サンプル発話「タクシーを呼んで」に対応する応答の出力態様が、音声「タクシーを呼びました」が端末装置10を介して出力される出力態様であることを示す。
(対話モデル記憶部123)
図4に戻ると、対話モデル記憶部123は、端末装置10を介して提供される各種機能またはサービスに関する対話モデルを記憶する。例えば、対話モデルは、端末装置10を介して提供される各種機能またはサービスに関連する複数のサンプル発話を含む。一例では、機能「タクシー手配TA1」に関する対話モデルは、サンプル発話「タクシーを呼んで」を含む。
対話モデル記憶部123は、学習部136によって学習された対話モデルを記憶してもよい。また、対話モデル記憶部123は、受信部131によって受信された対話モデルを記憶してもよい。対話モデル記憶部123は、受信部131によって受信された訓練データを記憶してもよい。
(制御部130)
制御部130は、コントローラ(controller)であり、例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit)等のプロセッサによって、決定装置100内部の記憶装置に記憶されている各種プログラムがRAM等を作業領域として実行されることにより実現される。また、制御部130は、コントローラ(controller)であり、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現されてもよい。
(受信部131)
受信部131は、端末装置10から、音声信号を受信する。受信部131は、受信された音声信号を、ユーザ情報記憶部121に格納してもよい。一例では、受信部131は、発話「SS1、タクシーを呼んで」に由来する音声信号を受信する。
受信部131は、ユーザの発話の発話状況を示す発話状況情報を、端末装置10から受信する。受信部131は、受信された発話状況情報を、ユーザ情報記憶部121に格納してもよい。一例では、発話状況情報は、複数の端末装置10における音声信号の受信状況を示す。受信部131は、音声信号を、発話状況情報として受信してもよい。
受信部131は、所定のサーバ装置から、対話モデルを受信してもよい。また、受信部131は、所定のサーバ装置から、対話モデルを学習するための訓練データを受信してもよい。
(取得部132)
取得部132は、ユーザの発話の発話状況を示す発話状況情報を取得する。取得部132は、例えば、受信部131によって受信された発話状況情報を取得する。取得部132は、受信部131に受信された音声信号を、発話状況情報として取得してもよい。取得部132は、ユーザ情報記憶部121から、発話状況情報を取得してもよい。また、特定部133によって生成された発話状況情報を取得してもよい。
(特定部133)
特定部133は、受信部131によって受信された音声信号に基づいて、ユーザの発話の発話状況を特定してもよい。特定部133は、特定された発話状況を示す発話状況情報を生成してもよい。
例えば、特定部133は、複数の端末装置よって受信された複数の音声信号に基づいて、複数の端末装置の各々によって受信された音声信号の強度を特定する。そして、特定部133は、複数の端末装置の各々によって受信された音声信号の強度示す強度情報を含む発話状況情報を生成する。
(決定部134)
決定部134は、対話モデル記憶部123に記憶された対話モデルを参照することで、生成部135によって生成されたテキストデータにマッチするサンプル発話を特定する。例えば、決定部134は、意味的構文解析(semantic parsing)等を用いて、生成されたテキストデータにマッチするサンプル発話を特定する。そして、決定部134は、機能情報記憶部122に記憶された機能情報を参照することで、サンプル発話に対応する応答処理を決定する。
一例では、決定部134は、対話モデル記憶部123に記憶された機能「タクシー手配TA1」に関する対話モデルを参照することで、生成部135によって生成されたテキストデータ「タクシーを呼んで」にマッチするサンプル発話「タクシーを呼んで」を特定する。そして、決定部134は、機能情報記憶部122に記憶された機能「タクシー手配TA1」の機能情報を参照することで、サンプル発話「タクシーを呼んで」に対応する応答処理を決定する。具体的には、決定部134は、ユーザの現在位置を示す位置情報を含む配車要求を、タクシーサービスを提供するサーバに送信することを、応答処理として決定する。
図2の実施形態では、端末装置10が、音声信号が受信された場合に、ユーザの発話の発話状況を示す発話状況情報を用いて、発話に対応する処理を実行するか否かを決定した。しかし、他の実施形態では、決定装置100の決定部134が、取得部132によって取得された発話状況情報に基づいて、ユーザの発話に対応する音声信号を受信した複数の端末装置の中から、かかる発話に対応する処理を実行する端末装置を決定してもよい。
例えば、決定部134は、複数の端末装置の各々によって受信された音声信号の強度を示す強度情報を含む発話状況情報に基づいて、かかる複数の端末装置のうち最も強い音声信号を受信した端末装置を、ユーザの発話に対応する処理を実行する端末装置として決定してもよい。
(生成部135)
生成部135は、ユーザの発話内容を示すテキストデータを生成する。例えば、生成部135は、受信部131によって音声信号が受信された場合に、音声信号を音声認識し、ユーザの発話内容を示すテキストデータを生成する。より具体的には、生成部135は、音声認識モデルを用いて、ユーザの発話内容を示すテキストデータを生成する。例えば、ユーザの音声信号の音響特徴量が音声認識モデルに入力された場合に、音声認識モデルは、ユーザの発話内容を示すテキストデータを音声認識結果として出力する。
生成部135は、ユーザの音声信号を音声認識サーバに送信してもよい。この場合、ユーザの音声信号の受信に応じて、音声認識サーバは、ユーザの音声信号を音声認識し、ユーザの発話内容を示すテキストデータを生成する。その後、受信部131は、生成されたテキストデータを音声認識サーバから受信し、受信されたテキストデータを、生成部135に出力する。
生成部135は、生成されたユーザの発話内容を示すテキストデータがウェイクワードを含むか否かを判定する。テキストデータがウェイクワードを含むと判定された場合に、生成部135は、ウェイクワードが除かれたテキストデータを生成する。このようなウェイクワードが除かれたテキストデータは、ペイロード(payload)と呼ばれる。
一例では、生成部135は、発話「SS1、タクシーを呼んで」に由来する音声信号を音声認識し、テキストデータ「SS1、タクシーを呼んで」を生成する。生成部135は、生成されたテキストデータがウェイクワード「SS1」を含むか否かを判定する。生成されたテキストデータがウェイクワード「SS1」を含むと判定されたことに応じて、生成部135は、ペイロード「タクシーを呼んで」を生成する。
(学習部136)
学習部136は、ユーザの発話に対応する処理がユーザのコンテキストに適しているか否かを判定する判定モデルを学習する。ユーザのコンテキストは、例えば、ユーザが置かれた状況、ユーザが置かれた環境、ユーザの行動パターン、ユーザの興味や関心等である。例えば、学習部136は、ユーザのコンテキストを示すコンテキストデータと、ユーザの発話に対応する処理を示す処理データと、ユーザの発話に対応する処理がユーザのコンテキストに適しているか否かを示す評価値とを含む訓練データを用いて、判定モデルを学習する。
判定モデルは、例えば、DNN(Deep Neural Network)モデルである。この場合、学習部136は、ユーザのコンテキストを示すコンテキストデータと、ユーザの発話に対応する処理を示す処理データとを、訓練データの入力として用いる。また、学習部136は、ユーザの発話に対応する処理がユーザのコンテキストに適しているか否かを示す評価値を、訓練データの出力として用いる。
一例では、学習部136は、コンテキストデータに対応する埋め込みベクトル(例えば、分散表現)と、処理データに対応する埋め込みベクトルとを、訓練データの入力として用いる。例えば、ユーザのコンテキストを示すテキストデータに含まれる複数の単語の埋め込みベクトルの平均と、ユーザの発話に対応する処理を示すテキストデータに含まれる複数の単語の平均とを、訓練データの入力として用いる。さらに、学習部136は、クラウドソーシングのプラットフォームを提供する。これにより、アノテータが、ユーザの発話に対応する処理に、かかるユーザの発話に対応する処理がユーザのコンテキストに適しているか否かを示す評価値を、正解ラベルとして付与することができる。学習部136は、評価値に対応する交差エントロピー等に基づいて、判定モデルを学習することができる。
(提供部137)
提供部137は、端末装置10を介して、機能やサービスをユーザに提供する。例えば、提供部137は、決定部134によって決定された応答処理を実行する。
一例では、提供部137は、端末装置10を介して、機能「タクシー手配TA1」をユーザに提供する。この例では、提供部137は、ユーザの現在位置を示す位置情報を含む配車要求を、タクシーサービスを提供するサーバに送信する。そして、提供部137は、端末装置10が音声「タクシーを呼びました」を出力するように、かかる音声に対する音声データを端末装置10に送信する。
〔5.決定処理のフロー〕
次に、実施形態に係る端末装置10による決定処理の手順について説明する。図7は、実施形態に係る端末装置10による決定処理手順を示すフローチャートである。
図7に示すように、はじめに、端末装置10は、ユーザの発話に対応する音声信号を受信する(ステップS101)。
次いで、端末装置10は、ユーザの発話に対応する音声信号が受信された場合に、ユーザの発話の発話状況を示す発話状況情報を用いて、かかる発話に対応する処理を実行するか否かを決定する(ステップS102)。
より具体的には、端末装置10は、ユーザの周囲環境に存在し、かつユーザの発話に対応する音声信号を受信した他の端末装置に関する情報を、発話状況情報として受信する。例えば、端末装置10は、超音波信号を介して、他の端末装置によって受信された音声信号であって、ユーザの発話に対応する音声信号の強度を示す強度情報を含む他の端末装置に関する情報を受信する。この場合、端末装置10は、端末装置10によって受信された音声信号の強度が、かかる強度情報が示す音声信号の強度よりも大きい場合に、ユーザの発話に対応する処理を実行すると決定する。
〔6.変形例〕
上述の実施形態に係るネットワークシステム1は、上記の実施形態以外にも、種々の異なる形態で実施されてよい。そこで、以下では、上記のネットワークシステム1の他の実施形態について説明する。
〔6−1.人感センサ〕
上記実施形態では、端末装置10の決定部14bは、受信部14aによって音声信号が受信された場合に、ユーザの発話の発話状況を示す発話状況情報を用いて、発話に対応する処理を実行するか否かを決定しているが、これに限定されるものではない。端末装置10の決定部14bは、検知部12によって、ユーザの存在が人感センサを用いて検知された場合に、発話に対応する処理を実行すると決定してもよい。
例えば、ウェイクワード「SS1」に対応する端末装置10が、第1の部屋に設置されていると仮定する。また、ウェイクワード「SS1」に対応する端末装置10が、第2の部屋に設置されていると仮定する。さらに、第1の部屋と第2の部屋とを仕切る壁が薄いと仮定する。この例では、例えば、第1の部屋にいるユーザU1が、端末装置10に向かって「SS1、タクシーを呼んで」と発話した場合には、端末装置10も、かかる発話に由来する音声信号を受信してしまうことが考えられる。すなわち、端末装置10が、隣の部屋からの音声を受信してしまうことが考えられる。
例えば、端末装置10の検知部12は、ユーザU1が第1の部屋にいる場合に、赤外線センサである人感センサによって、ユーザU1の存在を検知する。一方、端末装置10の検知部12は、ユーザU1が第1の部屋にいる場合には、赤外線センサである人感センサによって、ユーザU1の存在を検知しない。なぜなら、赤外線は、第1の部屋と第2の部屋とを仕切る壁を透過しないからである。このため、端末装置10は、ユーザU1が意図していない機能またはサービスがユーザU1に提供されることを防止することができる。
〔6−2.他の端末装置の制御〕
端末装置10の提供部14cは、決定部14bによってユーザの発話に対応する処理を実行することが決定された場合に、かかる処理の実行を要求する要求情報を他の端末装置に提供してもよい。一例では、端末装置10の出力部13は、他の端末装置に前記処理の実行を要求する音声信号を出力してもよい。
例えば、決定装置100が、所定のスマートデバイス(例えば、所定のスマート家電)を制御できないと仮定する。一方、所定のスマートスピーカに対応するサーバ装置が、かかる所定のスマートデバイスを制御できると仮定する。さらに、かかる所定のスマートスピーカが、端末装置10の近傍に配置されていると仮定する。この例では、ユーザU1が、端末装置10に向かって「SS1、所定のスマートデバイスを起動して」と発話した場合に、決定部14bは、ユーザU1の発話に対応する処理を実行することを決定する。そして、決定部14bによってユーザU1の発話に対応する処理を実行することが決定された場合に、提供部14cは、かかる処理の実行を要求する要求情報をかかる所定のスマートスピーカに提供する。
一例では、ユーザU1が、端末装置10に向かって「SS1、エアコンAC1をつけて」と発話した場合に、決定部14bは、エアコンAC1を作動させる処理を実行することを決定する。そして、提供部14cは、エアコンAC1を作動させるための要求信号を、所定のスマートスピーカに送信する。
提供部14cは、出力部13を制御することで、他の端末装置にかかる処理の実行を要求する音声信号を、出力部13のスピーカを介して提供してもよい。例えば、出力部13は、例えば、音声「「所定のスマートスピーカのウェイクワード」、所定のスマートデバイスを起動して」を出力する。一例では、出力部13は、音声「「所定のスマートスピーカのウェイクワード」、エアコンAC1をつけて」を出力する。
提供部14cは、かかる所定のスマートスピーカが、端末装置10の近傍に配置されていない場合に、ユーザU1の発話に対応する処理の実行を要求する要求情報を、かかる所定のスマートスピーカに対応するサーバ装置に送信してもよい。この場合、出力部13は、音声「所定のスマートスピーカに、所定のスマートデバイスを起動するよう依頼しました」を出力してもよい。
〔6−3.発話に対応する処理のコスト〕
上記実施形態では、決定装置100の決定部134は、取得部132によって取得された発話状況情報に基づいて、ユーザの発話に対応する音声信号を受信した複数の端末装置の中から、かかる発話に対応する処理を実行する端末装置を決定しているが、これに限定されるものではない。決定部134は、複数の端末装置の各々がユーザの発話に対応する処理を実行する場合に発生するコストを示すコスト情報を含む発話状況情報に基づいて、複数の端末装置のうちユーザの発話に対応する処理を実行した場合に発生するコストが最も小さい端末装置を、ユーザの発話に対応する処理を実行する端末装置として決定してもよい。
例えば、第1の音楽再生契約プランに対応する端末装置10が、第2の音楽再生契約プランに対応する端末装置10の近傍に配置されていると仮定する。さらに、第1の音楽再生契約プランに対応する料金テーブルが、音楽M1が有料で再生されることを示すと仮定する。一方、第2の音楽再生契約プランに対応する料金テーブルは、音楽M1が無料で再生されることを示すと仮定する。この例では、ユーザU1が、端末装置10に向かって「SS1、音楽M1を再生して」と発話した場合に、決定部134は、第1の音楽再生契約プランに対応する料金テーブルと第2の音楽再生契約プランに対応する料金テーブルとを含む発話状況情報に基づいて、端末装置10を、ユーザU1の発話に対応する処理を実行する端末装置として決定する。そして、提供部137は、端末装置10が音楽M1を再生するように、音楽M1の音楽データを端末装置10に送信する。
〔6−4.対話のコンテキスト〕
決定装置100の決定部134は、ユーザとの対話のコンテキストを示すコンテキスト情報を含む発話状況情報に基づいて、ユーザの発話に対応する処理を実行する端末装置を決定してもよい。例えば、決定部134は、学習部136によって学習された判定モデルに、ユーザU1と端末装置10との対話のコンテキストを示すテキストデータに対応する埋め込みベクトルを入力することによって、所定の処理(例えば、サンプル発話に対応する所定の応答処理)がかかる対話のコンテキストに適しているか否かを示す評価値を出力する。決定部134は、出力された評価値が閾値以上である場合に、端末装置10を、かかる所定の応答処理を実行する端末装置として決定する。
決定部134は、ユーザの発話パターンを示すコンテキスト情報に基づいて、ユーザの発話に対応する処理を実行する端末装置10を決定してもよい。例えば、決定部134は、複数の端末装置10の各々がユーザの発話に対応する音声信号を受信する頻度を示すコンテキスト情報に基づいて、ユーザの発話に対応する処理を実行する端末装置10を決定する。より具体的には、決定部134は、複数の端末装置10のうち最も受信頻度の高い端末装置10を、ユーザの発話に対応する処理を実行する端末装置10として決定する。
一例では、コンテキスト情報は、端末装置10がユーザU1の発話に対応する音声信号を受信する頻度が「1回/1日」であることを示す。また、コンテキスト情報は、端末装置10がユーザU1の発話に対応する音声信号を受信する頻度が「1回/1週間」であることを示す。この例では、決定部134は、端末装置10を、ユーザU1の発話に対応する処理を実行する端末装置として決定する。
特定部133は、受信部131によって受信された音声信号に基づいて、複数の端末装置10の各々がユーザの発話に対応する音声信号を受信する頻度を示すコンテキスト情報を生成してもよい。例えば、特定部133は、話者照合アルゴリズムを用いて、各ユーザの音声信号の受信頻度を算出し、算出結果に基づいて、コンテキスト情報を生成してもよい。
〔6−5.決定装置による決定処理の実行主体〕
端末装置10は、上記実施形態において決定装置100によって実行された決定処理の全部または一部を実行してもよい。
上記実施形態では、決定装置100が、ユーザの発話の発話状況を示す発話状況情報を取得し、取得された発話状況情報に基づいて、かかる発話に対応する音声信号を受信した複数の端末装置の中から、かかる発話に対応する処理を実行する端末装置を決定しているが、これに限定されるものではない。端末装置10の受信部14aは、ユーザの発話の発話状況を示す発話状況情報を受信してもよい。また、端末装置10の決定部14bは、受信部14aによって受信された発話状況情報に基づいて、ユーザの発話に対応する音声信号を受信した複数の端末装置10の中から、かかる発話に対応する処理を実行する端末装置10を決定してもよい。
〔6−6.その他〕
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の一部を手動的に行うこともできる。あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
例えば、図4に示した記憶部120の一部又は全部は、決定装置100によって保持されるのではなく、ストレージサーバ等に保持されてもよい。この場合、決定装置100は、ストレージサーバにアクセスすることで、ユーザ情報や機能情報等の各種情報を取得する。
〔6−7.ハードウェア構成〕
また、上述してきた実施形態に係る端末装置10や決定装置100は、例えば図8に示すような構成のコンピュータ1000によって実現される。図8は、ハードウェア構成の一例を示す図である。コンピュータ1000は、出力装置1010、入力装置1020と接続され、演算装置1030、一次記憶装置1040、二次記憶装置1050、出力IF(Interface)1060、入力IF1070、ネットワークIF1080がバス1090により接続された形態を有する。
演算装置1030は、一次記憶装置1040や二次記憶装置1050に格納されたプログラムや入力装置1020から読み出したプログラム等に基づいて動作し、各種の処理を実行する。一次記憶装置1040は、RAM等、演算装置1030が各種の演算に用いるデータを一時的に記憶するメモリ装置である。また、二次記憶装置1050は、演算装置1030が各種の演算に用いるデータや、各種のデータベースが登録される記憶装置であり、ROM(Read Only Memory)、HDD、フラッシュメモリ等により実現される。
出力IF1060は、モニタやプリンタといった各種の情報を出力する出力装置1010に対し、出力対象となる情報を送信するためのインタフェースであり、例えば、USB(Universal Serial Bus)やDVI(Digital Visual Interface)、HDMI(登録商標)(High Definition Multimedia Interface)といった規格のコネクタにより実現される。また、入力IF1070は、マウス、キーボード、およびスキャナ等といった各種の入力装置1020から情報を受信するためのインタフェースであり、例えば、USB等により実現される。
なお、入力装置1020は、例えば、CD(Compact Disc)、DVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等から情報を読み出す装置であってもよい。また、入力装置1020は、USBメモリ等の外付け記憶媒体であってもよい。
ネットワークIF1080は、ネットワークNを介して他の機器からデータを受信して演算装置1030へ送り、また、ネットワークNを介して演算装置1030が生成したデータを他の機器へ送信する。
演算装置1030は、出力IF1060や入力IF1070を介して、出力装置1010や入力装置1020の制御を行う。例えば、演算装置1030は、入力装置1020や二次記憶装置1050からプログラムを一次記憶装置1040上にロードし、ロードしたプログラムを実行する。
例えば、コンピュータ1000が端末装置10として機能する場合、コンピュータ1000の演算装置1030は、一次記憶装置1040上にロードされたプログラムを実行することにより、制御部14の機能を実現する。
〔7.効果〕
上述してきたように、実施形態に係る端末装置10は、受信部14aと、決定部14bとを有する。受信部14aは、ユーザの発話に対応する音声信号を受信する。決定部14bは、受信部14aによって音声信号が受信された場合に、ユーザの発話の発話状況を示す発話状況情報を用いて、発話に対応する処理を実行するか否かを決定する。
また、実施形態に係る端末装置10において、受信部14aは、ユーザの周囲環境に存在し、かつユーザの発話に対応する音声信号を受信した他の端末装置に関する情報を、発話状況情報として受信する。
また、実施形態に係る端末装置10において、受信部14aは、近距離無線通信を介して、他の端末装置に関する情報を他の端末装置から受信する。
また、実施形態に係る端末装置10において、受信部14aは、超音波信号を介して、他の端末装置に関する情報を他の端末装置から受信する。
また、実施形態に係る端末装置10において、受信部14aは、他の端末装置によって受信された音声信号であって、ユーザの発話に対応する音声信号の強度を示す強度情報を含む他の端末装置に関する情報を受信する。
また、実施形態に係る端末装置10において、決定部14bは、受信部14aによって受信された音声信号の強度が、強度情報が示す音声信号の強度よりも大きい場合に、発話に対応する処理を実行すると決定する。
また、実施形態に係る端末装置10は、人感センサを用いてユーザの存在を検知する検知部12を有する。また、実施形態に係る端末装置10において、決定部14bは、検知部12によってユーザの存在が検知された場合に、発話に対応する処理を実行すると決定する。
上述した各処理により、端末装置10は、ユーザが意図しない端末装置の二重起動を防止することができる。
また、実施形態に係る端末装置10は、決定部14bによって発話に対応する処理を実行することが決定された場合に、処理の実行を要求する要求情報を他の端末装置に提供する提供部14cを有する。
また、実施形態に係る端末装置10は、他の端末装置に処理の実行を要求する音声信号を出力する出力部13を有する。
上述した各処理により、端末装置10は、他の端末装置と連携することで、ユーザが利用する端末装置のユーザビリティを向上させることができる。
また、上述してきたように、実施形態に係る決定装置100は、取得部132と、決定部134とを有する。取得部132は、ユーザの発話の発話状況を示す発話状況情報を取得する。決定部134は、取得部132によって取得された発話状況情報に基づいて、発話に対応する音声信号を受信した複数の端末装置の中から、発話に対応する処理を実行する端末装置を決定する。
また、実施形態に係る決定装置100において、決定部134は、複数の端末装置の各々によって受信された音声信号の強度を示す強度情報を含む発話状況情報に基づいて、複数の端末装置のうち最も強い音声信号を受信した端末装置を、発話に対応する処理を実行する端末装置として決定する。
上述した各処理により、決定装置100は、ユーザが意図しない端末装置の二重起動を防止することができる。
また、実施形態に係る決定装置100において、決定部134は、複数の端末装置の各々が発話に対応する処理を実行する場合に発生するコストを示すコスト情報を含む発話状況情報に基づいて、複数の端末装置のうち発話に対応する処理を実行した場合に発生するコストが最も小さい端末装置を、発話に対応する処理を実行する端末装置として決定する。このため、決定装置100は、端末装置の機能またはサービスにかかる費用を低減化することができる。
また、実施形態に係る決定装置100において、決定部134は、ユーザとの対話のコンテキストを示すコンテキスト情報を含む発話状況情報に基づいて、発話に対応する処理を実行する端末装置を決定する。
また、実施形態に係る決定装置100において、決定部134は、複数の端末装置の各々がユーザの発話に対応する音声信号を受信する頻度を示すコンテキスト情報に基づいて、発話に対応する処理を実行する端末装置を決定する。
上述した各処理により、決定装置100は、端末装置を状況に応じて適切に制御することができる。
以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。
また、上述した決定装置100は、複数のサーバコンピュータで実現してもよく、また、機能によっては外部のプラットフォーム等をAPI(Application Programming Interface)やネットワークコンピューティングなどで呼び出して実現するなど、構成は柔軟に変更できる。
また、上述してきた「部(section、module、unit)」は、「手段」や「回路」などに読み替えることができる。例えば、受信部は、受信手段や受信回路に読み替えることができる。
1 ネットワークシステム
10 端末装置
12 検知部
13 出力部
14 制御部
14a 受信部
14b 決定部
14c 提供部
100 決定装置
120 記憶部
121 ユーザ情報記憶部
122 機能情報記憶部
123 対話モデル記憶部
130 制御部
131 受信部
132 取得部
133 特定部
134 決定部
135 生成部
136 学習部
137 提供部

Claims (18)

  1. ユーザの発話に対応する音声信号を受信する受信部と、
    前記受信部によって音声信号が受信された場合に、前記ユーザの発話の発話状況を示す発話状況情報を用いて、前記発話に対応する処理を実行するか否かを決定する決定部と、
    を備えることを特徴とする端末装置。
  2. 前記受信部は、
    前記ユーザの周囲環境に存在し、かつ前記ユーザの前記発話に対応する音声信号を受信した他の端末装置に関する情報を、前記発話状況情報として受信する
    ことを特徴とする請求項1に記載の端末装置。
  3. 前記受信部は、
    近距離無線通信を介して、前記他の端末装置に関する情報を前記他の端末装置から受信する
    ことを特徴とする請求項2に記載の端末装置。
  4. 前記受信部は、
    超音波信号を介して、前記他の端末装置に関する情報を前記他の端末装置から受信する
    ことを特徴とする請求項2又は3に記載の端末装置。
  5. 前記受信部は、
    前記他の端末装置によって受信された音声信号であって、前記ユーザの発話に対応する音声信号の強度を示す強度情報を含む前記他の端末装置に関する情報を受信する
    ことを特徴とする請求項2〜4のうちいずれか1つに記載の端末装置。
  6. 前記決定部は、
    前記受信部によって受信された音声信号の強度が、前記強度情報が示す音声信号の強度よりも大きい場合に、前記発話に対応する処理を実行すると決定する
    ことを特徴とする請求項5に記載の端末装置。
  7. 人感センサを用いてユーザの存在を検知する検知部をさらに備え、
    前記決定部は、
    前記検知部によって前記ユーザの存在が検知された場合に、前記発話に対応する処理を実行すると決定する
    ことを特徴とする請求項1〜6のうちいずれか1つに記載の端末装置。
  8. 前記決定部によって前記発話に対応する処理を実行することが決定された場合に、当該処理の実行を要求する要求情報を他の端末装置に提供する提供部をさらに備える
    ことを特徴とする請求項1〜7のうちいずれか1つに記載の端末装置。
  9. 前記他の端末装置に前記処理の実行を要求する音声信号を出力する出力部をさらに備える
    ことを特徴とする請求項8に記載の端末装置。
  10. 端末装置が実行する決定方法であって、
    ユーザの発話に対応する音声信号を受信する受信工程と、
    前記受信工程によって音声信号が受信された場合に、前記ユーザの発話の発話状況を示す発話状況情報を用いて、前記発話に対応する処理を実行するか否かを決定する決定工程と、
    を含むことを特徴とする決定方法。
  11. ユーザの発話に対応する音声信号を受信する受信手順と、
    前記受信手順によって音声信号が受信された場合に、前記ユーザの発話の発話状況を示す発話状況情報を用いて、前記発話に対応する処理を実行するか否かを決定する決定手順と、
    をコンピュータに実行させることを特徴とする決定プログラム。
  12. ユーザの発話の発話状況を示す発話状況情報を取得する取得部と、
    前記取得部によって取得された発話状況情報に基づいて、前記発話に対応する音声信号を受信した複数の端末装置の中から、前記発話に対応する処理を実行する端末装置を決定する決定部と、
    を備えることを特徴とする決定装置。
  13. 前記決定部は、
    前記複数の端末装置の各々によって受信された音声信号の強度を示す強度情報を含む前記発話状況情報に基づいて、前記複数の端末装置のうち最も強い音声信号を受信した端末装置を、前記発話に対応する処理を実行する端末装置として決定する
    ことを特徴とする請求項12に記載の決定装置。
  14. 前記決定部は、
    前記複数の端末装置の各々が前記発話に対応する処理を実行する場合に発生するコストを示すコスト情報を含む前記発話状況情報に基づいて、前記複数の端末装置のうち前記発話に対応する処理を実行した場合に発生するコストが最も小さい端末装置を、前記発話に対応する処理を実行する端末装置として決定する
    ことを特徴とする請求項12又は13に記載の決定装置。
  15. 前記決定部は、
    前記ユーザとの対話のコンテキストを示すコンテキスト情報を含む前記発話状況情報に基づいて、前記発話に対応する処理を実行する端末装置を決定する
    ことを特徴とする請求項12〜14のうちいずれか1つに記載の決定装置。
  16. 前記決定部は、
    前記複数の端末装置の各々が前記ユーザの発話に対応する音声信号を受信する頻度を示す前記コンテキスト情報に基づいて、前記発話に対応する処理を実行する端末装置を決定する
    ことを特徴とする請求項15に記載の決定装置。
  17. 決定装置が実行する決定方法であって、
    ユーザの発話の発話状況を示す発話状況情報を取得する取得工程と、
    前記取得工程によって取得された発話状況情報に基づいて、前記発話に対応する音声信号を受信した複数の端末装置の中から、前記発話に対応する処理を実行する端末装置を決定する決定工程と、
    を含むことを特徴とする決定方法。
  18. ユーザの発話の発話状況を示す発話状況情報を取得する取得手順と、
    前記取得手順によって取得された発話状況情報に基づいて、前記発話に対応する音声信号を受信した複数の端末装置の中から、前記発話に対応する処理を実行する端末装置を決定する決定手順と、
    をコンピュータに実行させることを特徴とする決定プログラム。
JP2018154261A 2018-08-20 2018-08-20 端末装置、決定方法、決定プログラム及び決定装置 Active JP7018850B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018154261A JP7018850B2 (ja) 2018-08-20 2018-08-20 端末装置、決定方法、決定プログラム及び決定装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018154261A JP7018850B2 (ja) 2018-08-20 2018-08-20 端末装置、決定方法、決定プログラム及び決定装置

Publications (2)

Publication Number Publication Date
JP2020030245A true JP2020030245A (ja) 2020-02-27
JP7018850B2 JP7018850B2 (ja) 2022-02-14

Family

ID=69624297

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018154261A Active JP7018850B2 (ja) 2018-08-20 2018-08-20 端末装置、決定方法、決定プログラム及び決定装置

Country Status (1)

Country Link
JP (1) JP7018850B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117742792A (zh) * 2024-02-20 2024-03-22 青岛海尔科技有限公司 基于大模型的指令执行设备选取方法、装置、设备和介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003223188A (ja) * 2002-01-29 2003-08-08 Toshiba Corp 音声入力システム、音声入力方法及び音声入力プログラム
JP2004294814A (ja) * 2003-03-27 2004-10-21 Clarion Co Ltd 遠隔制御装置
JP2016186376A (ja) * 2015-03-27 2016-10-27 三菱電機株式会社 加熱調理器
JP2017227912A (ja) * 2014-10-09 2017-12-28 グーグル エルエルシー 複数のデバイス上でのホットワード検出
US20180108351A1 (en) * 2016-10-19 2018-04-19 Sonos, Inc. Arbitration-Based Voice Recognition

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003223188A (ja) * 2002-01-29 2003-08-08 Toshiba Corp 音声入力システム、音声入力方法及び音声入力プログラム
JP2004294814A (ja) * 2003-03-27 2004-10-21 Clarion Co Ltd 遠隔制御装置
JP2017227912A (ja) * 2014-10-09 2017-12-28 グーグル エルエルシー 複数のデバイス上でのホットワード検出
JP2016186376A (ja) * 2015-03-27 2016-10-27 三菱電機株式会社 加熱調理器
US20180108351A1 (en) * 2016-10-19 2018-04-19 Sonos, Inc. Arbitration-Based Voice Recognition

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117742792A (zh) * 2024-02-20 2024-03-22 青岛海尔科技有限公司 基于大模型的指令执行设备选取方法、装置、设备和介质

Also Published As

Publication number Publication date
JP7018850B2 (ja) 2022-02-14

Similar Documents

Publication Publication Date Title
US10923130B2 (en) Electronic device and method of performing function of electronic device
US20230267921A1 (en) Systems and methods for determining whether to trigger a voice capable device based on speaking cadence
KR102543693B1 (ko) 전자 장치 및 그의 동작 방법
JP6513749B2 (ja) 音声アシストシステム、サーバ装置、その音声アシスト方法、及びコンピュータが実行するためのプログラム
KR101949497B1 (ko) 사용자 발화의 표현법을 파악하여 기기의 동작이나 컨텐츠 제공 범위를 조정하여 제공하는 사용자 명령 처리 방법 및 시스템
JP6819672B2 (ja) 情報処理装置、情報処理方法、及びプログラム
JP2020016875A (ja) 音声インタラクション方法、装置、設備、コンピュータ記憶媒体及びコンピュータプログラム
US10872617B2 (en) User command processing method and system for adjusting output volume of sound to be output, on basis of input volume of received voice input
CN110858481B (zh) 用于处理用户语音话语的系统和用于操作该系统的方法
KR20200015267A (ko) 음성 인식을 수행할 전자 장치를 결정하는 전자 장치 및 전자 장치의 동작 방법
US9766852B2 (en) Non-audio notification of audible events
US20150310878A1 (en) Method and apparatus for determining emotion information from user voice
US20140316783A1 (en) Vocal keyword training from text
KR20190122457A (ko) 음성 인식을 수행하는 전자 장치 및 전자 장치의 동작 방법
KR20190096308A (ko) 전자기기
JP2020038709A (ja) 人工知能機器における連続会話機能
JP6559192B2 (ja) 制御装置、入出力装置、制御方法、および制御プログラム
US9368095B2 (en) Method for outputting sound and apparatus for the same
KR20200016774A (ko) 사용자 음성 발화를 처리하기 위한 시스템 및 그의 동작 방법
JP7018850B2 (ja) 端末装置、決定方法、決定プログラム及び決定装置
WO2020202862A1 (ja) 応答生成装置及び応答生成方法
US20230362026A1 (en) Output device selection
KR102396147B1 (ko) 음성 명령을 이용한 동작을 수행하는 전자 장치 및 전자 장치의 동작 방법
WO2017171756A1 (en) Indicator to indicate a state of a personal assistant application
JP7093266B2 (ja) 決定装置、決定方法及び決定プログラム

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20191101

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20191108

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200819

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210721

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210727

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210917

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220104

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220201

R150 Certificate of patent or registration of utility model

Ref document number: 7018850

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350