JP2019035897A

JP2019035897A - 決定装置、決定方法、及び決定プログラム

Info

Publication number: JP2019035897A
Application number: JP2017158040A
Authority: JP
Inventors: 玲田島; Rei Tajima
Original assignee: Yahoo Japan Corp
Current assignee: Yahoo Japan Corp
Priority date: 2017-08-18
Filing date: 2017-08-18
Publication date: 2019-03-07
Anticipated expiration: 2037-08-18
Also published as: JP6516805B2

Abstract

【課題】音声出力のタイミングを適切に決定すること。【解決手段】本願に係る決定装置は、取得部と、決定部とを有する。取得部は、センサにより検知されたセンサ情報を取得する。また、決定部は、取得部により取得されたセンサ情報を用いて推定されるコンテキストに基づいて、スピーカに音声出力させるタイミングを決定する。【選択図】図３

Description

本発明は、決定装置、決定方法、及び決定プログラムに関する。

従来、ユーザに応じたコンテンツを提供する技術が提供されている。例えば、アンケートへのユーザの回答結果に応じたユーザの感情に基づいてコンテンツを推奨する技術が提供されている。

特開２０１５−２２８１４２号公報

しかしながら、上記の従来技術では音声出力のタイミングを適切に決定することが難しい。例えば、アンケートの実施にはユーザへの負荷が高いため、ユーザから十分な回答が得られない場合が多く、音声出力のタイミングを適切に決定することが難しい。

本願は、上記に鑑みてなされたものであって、音声出力のタイミングを適切に決定する決定装置、決定方法、及び決定プログラムを提供することを目的とする。

本願に係る決定装置は、センサにより検知されたセンサ情報を取得する取得部と、前記取得部により取得された前記センサ情報を用いて推定されるコンテキストに基づいて、スピーカに音声出力させるタイミングを決定する決定部と、を備えたことを特徴とする。

実施形態の一態様によれば、音声出力のタイミングを適切に決定することができるという効果を奏する。

図１は、実施形態に係る決定処理の一例を示す図である。図２は、実施形態に係る決定システムの構成例を示す図である。図３は、実施形態に係るスマートスピーカの構成例を示す図である。図４は、実施形態に係るユーザ情報記憶部の一例を示す図である。図５は、実施形態に係る推定情報記憶部の一例を示す図である。図６は、実施形態に係るコンテンツ情報記憶部の一例を示す図である。図７は、実施形態に係る決定処理の一例を示すフローチャートである。図８は、実施形態に係る決定処理の一例を示す図である。図９は、実施形態に係る決定処理の一例を示す図である。図１０は、スマートスピーカの機能を実現するコンピュータの一例を示すハードウェア構成図である。

以下に、本願に係る決定装置、決定方法、及び決定プログラムを実施するための形態（以下、「実施形態」と呼ぶ）について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る決定装置、決定方法、及び決定プログラムが限定されるものではない。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。

（実施形態）
〔１．決定処理〕
まず、実施形態に係る決定処理について説明する。図１は、実施形態に係る決定処理の一例を示す図である。図１に示すスマートスピーカ１００は、センサにより検知されたセンサ情報を用いてコンテキストを推定し、推定したコンテキストに応じてスピーカに音声出力させるタイミングを決定する決定サービスを提供する。図１の例では、スマートスピーカ１００が検知した周囲の音声情報（以下、単に「音声」ともいう）をセンサ情報として用いる場合を示す。なお、ここでいうセンサ情報には、コンテキストの推定に利用可能な種々の情報が含まれてもよい。例えば、センサ情報には、画像センサ等の各種のセンサにより検知される種々のセンサ情報が含まれてもよい。

〔決定システムの構成〕
図１の説明に先立って、図２を用いて決定システム１の構成について説明する。図２は、実施形態に係る決定システムの構成例を示す図である。図２に示すように、実施形態に係る決定システム１には、スマートスピーカ１００と、携帯端末１０と、サーバ装置５０とが含まれる。スマートスピーカ１００と、携帯端末１０と、サーバ装置５０とは、所定のネットワークＮを介して通信可能に接続される。なお、図２に示した決定システム１には、複数のスマートスピーカ１００、複数の携帯端末１０、複数のサーバ装置５０が含まれてもよい。

例えば、スマートスピーカ１００は、センサにより検知されたセンサ情報を用いて推定されるコンテキストに基づいて、スピーカに音声出力させるタイミングを決定する決定装置である。例えば、スマートスピーカ１００は、スマートスピーカ１００の周囲におけるユーザの発話を検知し、センサ情報を用いて推定されるコンテキストに基づいて、スピーカに音声出力させるタイミングを決定する。図１の例では、スマートスピーカ１００は、周囲の音を検知し、検知した音に応じて種々の処理を行うデバイス（音声アシスト端末）である。例えば、スマートスピーカ１００は、ユーザの発話に対して、処理を行う端末装置である。例えば、スマートスピーカ１００は、ユーザの発話に限らず、スマートスピーカ１００の周囲の環境音等を収集する。

また、スマートスピーカ１００は、音声認識の機能を有してもよい。また、スマートスピーカ１００は、音声認識サービスを提供する音声認識サーバから情報を取得可能であってもよい。この場合、決定システム１は、音声認識サーバが含まれてもよい。なお、図１の例では、スマートスピーカ１００や音声認識サーバが、種々の従来技術を適宜用いてユーザの発話を認識したり、発話したユーザを推定したりするものとして、適宜説明を省略する。

また、スマートスピーカ１００は、画像センサ等を有してもよい。例えば、スマートスピーカ１００は、赤外線センサや人感センサや温度センサや気圧センサ等の種々の機能を有し、温度や気圧等のスマートスピーカ１００の周囲の環境情報を検知し、取得可能であってもよい。

なお、スマートスピーカ１００は、後述する決定処理の実行可能であれば、どのような端末装置であってもよい。例えば、ユーザが利用する携帯端末１０と一体であってもよい。すなわち、決定システム１においては、いずれの装置が決定装置であってもよい。

また、例えば、スマートスピーカ１００は、収集したセンサ情報をサーバ装置５０へ送信してもよい。例えば、スマートスピーカ１００は、所定のネットワークＮを介してサーバ装置５０や携帯端末１０と通信可能なデバイス、いわゆるＩｏＴ（Internet of Things）デバイスであってもよい。

携帯端末１０は、ユーザによって利用される情報処理装置である。例えば、携帯端末１０は、ユーザによって利用される端末装置である。携帯端末１０は、例えば、スマートフォンや、タブレット型端末や、ノート型ＰＣ（Personal Computer）や、デスクトップＰＣや、携帯電話機や、ＰＤＡ（Personal Digital Assistant）等により実現される。

サーバ装置５０は、ユーザに種々のサービスを提供する情報処理装置である。例えば、サーバ装置５０は、記事配信（ニュース配信）や天気（気象情報）等の各種サービスを提供するサービス提供装置である。

例えば、サーバ装置５０は、スマートスピーカ１００にコンテンツを提供する。例えば、サーバ装置５０は、記事配信（ニュース配信）や天気（気象情報）等の各種コンテンツをスマートスピーカ１００に提供する。なお、サーバ装置５０は、記事配信や天気等の各種サービスを提供する外部装置からサービスに関する情報を取得し、スマートスピーカ１００へ提供してもよい。例えば、サーバ装置５０は、記事配信や天気等の各種サービスを提供する外部装置からコンテンツを取得し、取得したコンテンツをスマートスピーカ１００へ提供してもよい。

サーバ装置５０は、スマートスピーカ１００や携帯端末１０から各種情報を収集してもよい。例えば、サーバ装置５０は、スマートスピーカ１００が検知したセンサ情報や推定したコンテキスト情報等をスマートスピーカ１００から取得してもよい。

以下、図１を用いて、決定処理の一例を説明する。スマートスピーカ１００は、マンションや戸建て等、所定の住宅内の部屋等の空間ＳＰ１に配置される。図１の例では、このように空間ＳＰ１に配置されたスマートスピーカ１００は、周囲の環境音やユーザの発話等に応じて種々の処理を行う。また、図１では、時間経過に応じて、空間ＳＰ１を空間ＳＰ１−１、ＳＰ１−２として説明する。すなわち、図１では、空間ＳＰ１−１、ＳＰ１−２の順で時間が経過していることを示す。なお、空間ＳＰ１−１、ＳＰ１−２は同一の空間ＳＰ１である。また、空間ＳＰ１−１、ＳＰ１−２を区別なく説明する場合、空間ＳＰ１と記載する。

また、以下では、推定情報記憶部１２２を推定情報記憶部１２２−１、１２２−２として説明する。すなわち、図１では、推定情報記憶部１２２−１、１２２−２の順で時間が経過していることを示す。また、推定情報記憶部１２２−１、１２２−２は同一の推定情報記憶部１２２である。また、以下では、推定情報記憶部１２２−１、１２２−２について、特に区別することなく説明する場合には、推定情報記憶部１２２と記載する。

また、各日時「ＤＴ＊」中の「ＤＴ」に続く「＊（＊は任意の数値）」は、「＊」の値が大きい程、日付が新しいものとする。例えば、日時「ＤＴ２」は、日時「ＤＴ１」に比べて、「ＤＴ」に続く数値が大きいため、日付がより新しいことを示す。図１では、空間ＳＰ１−１が日時ＤＴ１に対応し、空間ＳＰ１−２が日時ＤＴ２に対応するものとする。なお、図１の例では、「日時ＤＴ１」等のように抽象的に図示するが、「日時ＤＴ１」は、「２０１７年８月１５日１２時４９分００秒」等の所定の日時であってもよい。

また、スマートスピーカ１００は、センサ情報に基づいて、コンテキストを推定する。図１の例では、スマートスピーカ１００は、周囲の音声を検知し、検知した音声に基づいて、スマートスピーカ１００の周囲の状況に関するコンテキストを推定する。

ここでいう、コンテキストは、例えば、スマートスピーカ１００の周囲の状況を示す情報である。例えば、コンテキストは、スマートスピーカ１００の周囲に位置するユーザの状況やスマートスピーカ１００の周囲の環境（背景）に基づいて推定されるスマートスピーカ１００の周囲の状況を意味する。なお、図１の例では、スマートスピーカ１００の周囲に位置するユーザは、各種センサ情報によりスマートスピーカ１００の周囲に位置すると推定されるユーザ（以下、「補足ユーザ」ともいう）であるものとする。

また、コンテキストの推定には、ユーザ（補足ユーザ）の行動情報等のユーザに関する情報が用いられてもよい。例えば、コンテキストの推定には、ユーザ（補足ユーザ）に提供されるコンテンツの内容、ユーザが反応したコンテンツの内容、ユーザの属性、ユーザの現在位置、現在時刻、ユーザが置かれた物理環境、ユーザが置かれた社会環境、ユーザの運動状態、および、推定されるユーザの感情等の種々の情報が用いられてもよい。

図１の例では、スマートスピーカ１００がユーザの発話が中断したタイミングでコンテンツを音声出力すると決定する場合を一例として説明する。例えば、スマートスピーカ１００は、「発話の中断」等のスピーカに音声出力させる条件を有するものとする。なお、コンテンツを音声出力すると決定するタイミングは、発話の中断に限らず、音声出力するのに適したタイミングであれば、どのようなタイミングでもよいが、詳細は後述する。

図１では、空間ＳＰ１−１において、ユーザＵ１１〜Ｕ１３等が発話を行う。例えば、ユーザＵ１１が、スマートスピーカ１００の周囲において、「Ｘ月Ｙ日どこ行きたい？」という発話ＰＡ１１を行う。そして、スマートスピーカ１００は、音センサにより「Ｘ月Ｙ日どこ行きたい？」という発話ＰＡ１１（音声情報）を検知する。

また、例えば、ユーザＵ１３が、スマートスピーカ１００の周囲において、「Ａエリアの○○に行きたい」という発話ＰＡ１２を行う。このように、図１の例では、ユーザＵ１３が、ユーザＵ１１の発話に対して「Ａエリアの○○に行きたい」という発話ＰＡ１２を行う。そして、スマートスピーカ１００は、音センサにより発話ＰＡ１２（音声情報）を検知する。

また、例えば、ユーザＵ１２が、スマートスピーカ１００の周囲において、「いいわね。でも天気が心配」という発話ＰＡ１３を行う。このように、図１の例では、ユーザＵ１２が、ユーザＵ１３の発話に対して「いいわね。でも天気が心配」という発話ＰＡ１３を行う。そして、スマートスピーカ１００は、音センサにより発話ＰＡ１３（音声情報）を検知する。このように、図１の例では、スマートスピーカ１００は、発話ＰＡ１１〜ＰＡ１３等の一連の発話、すなわち複数のユーザによる会話を検知する。

そして、スマートスピーカ１００は、検知した発話ＰＡ１１〜ＰＡ１３等の音声を用いてユーザを推定する（ステップＳ１１）。例えば、スマートスピーカ１００は、ユーザ情報記憶部１２１に記憶された情報を用いて、スマートスピーカ１００により発話（音声）が検知されたユーザを推定する。

図１に示すユーザ情報記憶部１２１中の「ユーザＩＤ」は、ユーザを識別するための識別情報を示す。例えば、ユーザＩＤ「Ｕ１１」により識別されるユーザは、図１の例に示したユーザＵ１１に対応する。

上記のように「ユーザＵ＊（＊は任意の数値）」と記載した場合、そのユーザはユーザＩＤ「Ｕ＊」により識別されるユーザであることを示す。例えば、「ユーザＵ１２」と記載した場合、そのユーザはユーザＩＤ「Ｕ１２」により識別されるユーザである。

図１に示すユーザ情報記憶部１２１中の「属性情報」には、ユーザの属性に関する各種情報が記憶される。例えば、「属性情報」には、「年齢」、「性別」、「興味」といった項目が含まれる。図１に示すユーザ情報記憶部１２１中の「識別情報」には、ユーザを識別するために用いられる各種情報（センサ情報）が記憶される。例えば、「識別情報」には、「音声」、「画像」といった項目が含まれる。

図１に示すユーザ情報記憶部１２１中の「音声」は、ユーザの識別に用いられる音声情報を示す。図１の例では、各ユーザの音声情報を概念的に記号「ＶＰ１１」〜「ＶＰ１３」等で示すが、「音声」としては、これらの格納場所を示すファイルパス名などが格納されてもよい。「音声」は、ユーザの音声の特徴を示す特徴情報であってもよい。例えば、音声ＶＰ１１〜音声ＶＰ１３は、ユーザの発話から抽出された音声的な特徴を示す情報（音声特徴情報）であってもよい。例えば、音声ＶＰ１１〜音声ＶＰ１３は、各発話から音声の特徴抽出に関する種々の従来技術を適宜用いて抽出された音声特徴情報であってもよい。図１に示すユーザ情報記憶部１２１中の「画像」は、ユーザの識別に用いられる画像情報を示す。

図１の例では、スマートスピーカ１００は、発話ＰＡ１１〜ＰＡ１３と、ユーザ情報記憶部１２１中に記憶された音声とを用いてユーザを推定する。例えば、スマートスピーカ１００は、発話ＰＡ１１〜ＰＡ１３と、ユーザ情報記憶部１２１中の音声ＶＰ１１〜音声ＶＰ１３等とを比較することより、補足ユーザを推定する。

例えば、スマートスピーカ１００は、発話ＰＡ１１を解析して抽出した発話ＰＡ１１の特徴情報と、音声ＶＰ１１〜音声ＶＰ１３等と比較することにより、発話ＰＡ１１を行ったユーザを推定する。例えば、スマートスピーカ１００は、声紋認証等に関する種々の従来技術を適宜用いて発話ＰＡ１１がどの音声ＶＰ１１〜音声ＶＰ１３に対応するかを推定してもよい。図１の例では、スマートスピーカ１００は、発話ＰＡ１１を行ったユーザが音声ＶＰ１１に対応するユーザＵ１１であると推定する。

また、スマートスピーカ１００は、発話ＰＡ１２を行ったユーザが音声ＶＰ１３に対応するユーザＵ１３であると推定する。また、スマートスピーカ１００は、発話ＰＡ１２を行ったユーザが音声ＶＰ１２に対応するユーザＵ１２であると推定する。このように、図１の例では、スマートスピーカ１００は、ユーザＵ１１〜Ｕ１３を補足ユーザと推定する。なお、上記は一例であり、スマートスピーカ１００は、種々の情報を適宜用いて、補足ユーザを推定してもよい。また、スマートスピーカ１００は、各発話が行われる度にその発話のユーザを推定してもよい。また、スマートスピーカ１００は、画像センサ等により撮像されたユーザの画像を用いて、画像により推定されたユーザを補足ユーザと推定してもよい。

図１の例では、スマートスピーカ１００は、推定情報記憶部１２２−１に示すように、ユーザＵ１１〜Ｕ１３を日時ＤＴ１における補足ユーザとして格納する。図１に示す推定情報記憶部１２２中の「推定ＩＤ」は、推定に関する情報を識別するための識別情報を示す。図１に示す推定情報記憶部１２２中の「日時」は、対応する推定に関する情報が収集された日時を示す。図１に示す推定情報記憶部１２２中の「コンテキスト情報」には、センサ情報を用いて推定されるコンテキストに関する各種情報が記憶される。図１の例では、「コンテキスト情報」には、「コンテキスト」、「トピック」、「補足ユーザ」といった項目が含まれる。

図１に示す推定情報記憶部１２２中の「コンテキスト」は、対応する日時におけるコンテキストを示す。例えば、「コンテキスト」は、センサ情報に基づいて推定されたコンテキストを示す。例えば、スマートスピーカ１００は、推定を行う日時から所定の期間内（例えば、１分以内や１０分以内等）に検知されたセンサ情報を用いてコンテコストを推定する。図１に示す推定情報記憶部１２２中の「トピック」は、対応する日時におけるトピック（話題）を示す。例えば、「トピック」は、センサ情報に基づいて推定されたトピックを示す。図１に示す推定情報記憶部１２２中の「補足ユーザ」は、対応する日時における補足ユーザを示す。例えば、「補足ユーザ」は、センサ情報に基づいて、周囲に位置すると推定されたユーザを示す。

また、スマートスピーカ１００は、検知した発話ＰＡ１１〜ＰＡ１３等の音声を用いてコンテキストを推定する（ステップＳ１２）。例えば、スマートスピーカ１００は、検知した発話ＰＡ１１〜ＰＡ１３等に基づいて、ユーザの状況や発話（会話）の内容等を推定する。

例えば、スマートスピーカ１００は、音声認識に関する種々の技術を適宜用いて、検知した発話等の音声情報を文字情報に変換する。また、スマートスピーカ１００は、発話等の音声情報を変換した文字情報を、形態素解析等の自然言語処理技術を適宜用いて解析することにより、コンテキストを推定してもよい。なお、スマートスピーカ１００は、発話ＰＡ１１〜ＰＡ１３（音声情報）を音声認識サーバへ送信し、音声認識サーバから発話ＰＡ１１〜ＰＡ１３の文字情報を取得してもよい。

図１の例では、補足ユーザであるユーザＵ１１〜Ｕ１３が日時ＤＴ１において発話ＰＡ１１〜ＰＡ１３を行っており、スマートスピーカ１００は、日時ＤＴ１におけるコンテキストをユーザが発話中に対応するコンテキストＣＮ１と推定する。図１の例では、スマートスピーカ１００は、推定情報記憶部１２２−１に示すように、発話中に対応するコンテキストＣＮ１を日時ＤＴ１におけるコンテキストとして格納する。

なお、図１の例では、上記のように、コンテキストをコンテキストＣＮ１やコンテキストＣＮ２等のように抽象的な記号で示すが、各コンテキストはユーザの具体的な状況を示す情報であってもよい。例えば、コンテキストＣＮ１は、「ユーザが発話（会話）中である」状況に対応するコンテキストであってもよい。

また、スマートスピーカ１００は、ユーザの発話の内容に基づいて会話のトピック（話題）に関する情報を推定する。例えば、スマートスピーカ１００は、発話ＰＡ１１〜ＰＡ１３等に基づいてトピックに関する情報を推定する。例えば、スマートスピーカ１００は、トピック分析（解析）等の種々の従来手法を適宜用いて、発話ＰＡ１１〜ＰＡ１３等からトピックを抽出してもよい。例えば、スマートスピーカ１００は、発話ＰＡ１１〜ＰＡ１３等を変換した文字情報を、形態素解析等の自然言語処理技術を適宜用いて解析することにより、発話ＰＡ１１〜ＰＡ１３等の文字情報から重要なキーワードを発話ＰＡ１１〜ＰＡ１３等のトピックとして抽出してもよい。

図１の例では、スマートスピーカ１００は、トピックとして、対象「天気」や、日時「Ｘ月Ｙ日」や、位置「Ａエリア」を推定するものとして、以下説明する。図１の例では、スマートスピーカ１００は、推定情報記憶部１２２−１に示すように、対象「天気」、日時「Ｘ月Ｙ日」及び位置「Ａエリア」をトピックとして格納する。なお、スマートスピーカ１００は、上記に限らず、種々の従来技術を適宜用いて、会話のトピックを推定してもよい。また、スマートスピーカ１００は、日時ＤＴ１におけるコンテキストがユーザの発話中に対応するコンテキストＣＮ１であるため、音声出力するタイミングではないと決定する。

そして、発話ＰＡ１１〜ＰＡ１３が行われた日時ＤＴ１の後において、ユーザの発話が中断する（ステップＳ１３）。図１の例では、日時ＤＴ１の後の所定期間（例えば３０秒等）において、ユーザの発話が中断する。

また、スマートスピーカ１００は、ユーザの発話が中断された空間ＳＰ１−２において、コンテキストを推定する（ステップＳ１４）。例えば、スマートスピーカ１００は、検知したセンサ情報に基づいて、ユーザの状況や発話（会話）の内容等を推定する。

図１の例では、ユーザの会話が中断しているため、スマートスピーカ１００は、日時ＤＴ２におけるコンテキストをユーザの発話の中断に対応するコンテキストＣＮ２と推定する。図１の例では、スマートスピーカ１００は、推定情報記憶部１２２−２に示すように、ユーザの発話の中断に対応するコンテキストＣＮ２を日時ＤＴ２におけるコンテキストとして格納する。

また、図１の例では、スマートスピーカ１００は、日時ＤＴ２におけるトピックが日時ＤＴ１から変化（変更）が無いと推定する。例えば、スマートスピーカ１００は、日時ＤＴ２におけるトピックが日時ＤＴ１から継続してＸ月Ｙ日のＡエリアの天気であると推定する。また、スマートスピーカ１００は、日時ＤＴ２における補足ユーザが日時ＤＴ１から変化が無いと推定する。例えば、スマートスピーカ１００は、日時ＤＴ２における補足ユーザが日時ＤＴ１から継続してユーザＵ１１、Ｕ１２、Ｕ１３の３人であると推定する。

そして、スマートスピーカ１００は、推定したコンテキスト情報に基づいて、情報を出力すると決定する（ステップＳ１５）。例えば、スマートスピーカ１００は、ユーザの発話が中断したと推定したため、出力情報を音声として出力すると決定する。図１の例では、スマートスピーカ１００は、ユーザの発話が中断したと推定したため、コンテキストを音声として出力すると決定する。

そこで、スマートスピーカ１００は、推定したコンテキスト情報に基づいて、出力するコンテンツを決定する（ステップＳ１６）。図１の例では、スマートスピーカ１００は、コンテンツ情報記憶部１２３に記憶されたコンテンツから、出力するコンテンツを決定する。

図１に示すコンテンツ情報記憶部１２３中の「サービス」は、コンテンツを提供する各種サービスを示す。図１に示すコンテンツ情報記憶部１２３中の「コンテンツＩＤ」は、コンテンツを識別するための識別情報を示す。図１に示すコンテンツ情報記憶部１２３中の「コンテンツ」は、各種サービスにおいて提供されるコンテンツを示す。図１に示すコンテンツ情報記憶部１２３中の「内容」は、コンテンツの内容を示す。図１に示すコンテンツ情報記憶部１２３中の「音声情報」は、コンテンツが音声出力される場合に出力される音声を示す。

図１の例では、コンテンツＩＤ「ＣＴ１１」により識別されるコンテンツ（コンテンツＣＴ１１）は、「ＡＡコンテンツ」であることを示す。また、コンテンツＣＴ１１は、記事配信サービスにおいて提供されるコンテンツであることを示す。また、コンテンツＣＴ１１は、カテゴリがスポーツであり、サッカーに関する内容であることを示す。また、コンテンツＣＴ１１の音声情報は、音声情報ＡＤ１１であることを示す。

また、図１の例では、コンテンツＩＤ「ＣＴ２１」により識別されるコンテンツ（コンテンツＣＴ２１）は、「ＢＡコンテンツ」であることを示す。また、コンテンツＣＴ２１は、天気サービスにおいて提供されるコンテンツであることを示す。また、コンテンツＣＴ２１は、Ｘ月Ｙ日におけるＡエリアにおける天気に関する内容であることを示す。また、コンテンツＣＴ２１の音声情報は、音声情報ＡＤ２１であることを示す。

図１の例では、スマートスピーカ１００は、コンテンツ情報記憶部１２３に記憶されたコンテンツのうち、コンテキスト情報のトピックに対応するコンテンツを音声出力すると決定する。具体的には、スマートスピーカ１００は、コンテンツ情報記憶部１２３に記憶されたコンテンツのうち、トピック「Ｘ月Ｙ日のＡエリアの天気」に対応するコンテンツＣＴ２１を音声出力すると決定する。そして、スマートスピーカ１００は、図１中の空間ＳＰ１−２に示すように、「Ｘ月Ｙ日のＡエリアの天気は…」という内容の音声情報ＡＤ２１を音声出力する。

上述したように、スマートスピーカ１００は、検知したセンサ情報に基づいて推定したコンテキストに応じて、音声出力のタイミングを決定することにより、音声出力のタイミングを適切に決定することができる。また、スマートスピーカ１００は、検知したセンサ情報に基づいて推定したコンテキストに応じて、音声出力する出力情報（コンテンツ）を決定することにより、音声出力の内容を適切に決定することができる。

〔１−１．システム構成〕
図１の例では、スマートスピーカ１００が決定処理を行う、すなわちスマートスピーカ１００が決定装置である場合を示したが、決定システム１における決定装置はいずれの装置であってもよい。決定システム１におけるセンサを有する装置やスピーカを有する装置が異なってもよい。また、例えば、決定システム１における決定装置は、サーバ装置５０や携帯端末１０等であってもよい。

〔１−１−１．サーバ装置＝決定装置〕
例えば、決定システム１におけるサーバ装置５０が決定装置である場合、サーバ装置５０は、スマートスピーカ１００が検知したセンサ情報を取得し、決定処理を行ってもよい。この場合、サーバ装置５０は、図１中のスマートスピーカ１００と同様に、コンテキストを推定する機能やコンテンツを音声出力するタイミングを決定する機能を有してもよい。例えば、サーバ装置５０は、スマートスピーカ１００から取得したセンサ情報を用いて推定されるコンテキストに基づいて、スピーカに音声出力させるタイミングを決定してもよい。

また、サーバ装置５０は、スピーカに音声出力させると決定したタイミングで、スマートスピーカ１００にコンテンツを提供することにより、スマートスピーカ１００にコンテンツを音声出力させてもよい。また、サーバ装置５０は、スピーカに音声出力させると決定したタイミングで、携帯端末１０にコンテンツを提供することにより、スマートスピーカ１００にコンテンツを音声出力させてもよい。

〔１−１−２．携帯端末＝決定装置〕
例えば、決定システム１における携帯端末１０が決定装置である場合、携帯端末１０は、スマートスピーカ１００が検知したセンサ情報を取得し、決定処理を行ってもよい。この場合、携帯端末１０は、図１中のスマートスピーカ１００と同様に、コンテキストを推定する機能やコンテンツを音声出力するタイミングを決定する機能を有してもよい。例えば、携帯端末１０は、スマートスピーカ１００から取得したセンサ情報を用いて推定されるコンテキストに基づいて、スピーカに音声出力させるタイミングを決定してもよい。また、携帯端末１０は、スピーカに音声出力させると決定したタイミングで、スマートスピーカ１００にコンテンツを音声出力してもよい。

また、携帯端末１０は、スピーカに音声出力させると決定したタイミングで、スマートスピーカ１００にコンテンツを提供することにより、スマートスピーカ１００にコンテンツを音声出力させてもよい。また、例えば、携帯端末１０は、スマートスピーカ１００としての機能を有してもよい。例えば、携帯端末１０は、スマートスピーカ１００と一体であってもよい。

このように、決定システム１における決定装置は、スマートスピーカ１００やサーバ装置５０や携帯端末１０等、決定システム１に含まれる装置であればいずれの装置であってもよい。

〔１−２．出力タイミング〕
図１の例では、スマートスピーカ１００がユーザの発話が中断したタイミングでコンテンツを音声出力すると決定する場合を一例として説明したが、コンテンツを音声出力するタイミングは、種々のタイミングであってもよい。例えば、スマートスピーカ１００は、音声出力するのに適した他のタイミングでコンテンツを音声出力すると決定してもよい。

〔１−２−１．他のタイミング例〕
例えば、スマートスピーカ１００は、音声出力するのに適した他のタイミングでコンテンツを音声出力すると決定してもよい。例えば、スマートスピーカ１００は、テレビやラジオの音量が所定の閾値以下になったタイミングでコンテンツを音声出力すると決定してもよい。例えば、スマートスピーカ１００は、テレビやラジオ等の電源がＯＦＦになったタイミングでコンテンツを音声出力すると決定してもよい。

例えば、スマートスピーカ１００は、音センサにより検知される音声情報を用いることにより、テレビやラジオの音量が所定の閾値以下になったタイミングでコンテンツを音声出力すると決定してもよい。例えば、スマートスピーカ１００は、画像センサにより検知される画像情報を用いることにより、テレビやラジオの電源がＯＦＦになったタイミングでコンテンツを音声出力すると決定してもよい。

〔１−２−２．出力に適しないタイミング例〕
また、例えば、スマートスピーカ１００は、ユーザが所定の状況にあると推定される場合、コンテンツを音声出力しないと決定してもよい。例えば、スマートスピーカ１００は、画像センサにより検知される画像情報を用いることにより、ユーザが所定の状況にあると推定される場合、コンテンツを音声出力しないと決定してもよい。

例えば、スマートスピーカ１００は、画像センサにより検知される画像情報を用いることにより、ユーザが読書中であると推定される場合、コンテンツを音声出力しないと決定してもよい。また、例えば、スマートスピーカ１００は、画像センサにより検知される画像情報を用いることにより、ユーザが睡眠中であると推定される場合、コンテンツを音声出力しないと決定してもよい。

〔１−２−３．音声情報の途切れ〕
なお、図１の例では、センサ情報によりコンテキストを推定し、推定したコンテキストに応じて、音声出力を行うかを決定する場合を示したが、スマートスピーカ１００は、所定の条件を満たす場合、スピーカに音声出力させると決定してもよい。

例えば、スマートスピーカ１００は、音声情報が途切れたタイミングで、スピーカに音声出力させると決定してもよい。例えば、スマートスピーカ１００は、音センサにより検知がなくなったタイミングで、スピーカに音声出力させると決定してもよい。例えば、スマートスピーカ１００は、音センサにより検知される音声にユーザの発話が含まれなくなったタイミングで、スピーカに音声出力させると決定してもよい。この場合、例えば、スマートスピーカ１００は、コンテキストの推定をすることなく、音声が途切れたタイミングでコンテンツを音声出力すると決定してもよい。例えば、スマートスピーカ１００は、センサが検知したセンサ情報を用いて、コンテンツを音声出力すると決定してもよい。

〔１−３．モデルを用いた決定〕
図１の例では、スマートスピーカ１００がユーザの発話が中断したタイミングでコンテンツを音声出力すると決定する場合を一例として説明したが、スマートスピーカ１００は、過去に音声出力を行った状況との類似性に基づいて、スピーカに音声出力させるタイミングを決定してもよい。例えば、スマートスピーカ１００は、センサ情報が入力とし、音声の出力タイミングの決定に用いられるモデルにより、スピーカに音声出力させるタイミングを決定してもよい。例えば、スマートスピーカ１００は、センサ情報を用いてモデル（決定モデル）を生成し、生成した決定モデルを用いて、出力タイミングを決定してもよい。例えば、スマートスピーカ１００は、機械学習等の手法により生成した決定モデルを用いて、音声を出力するタイミングを決定してもよい。

例えば、スマートスピーカ１００は、入力された状況を学習して、その状況に近い（類似する）状況になった場合に音声出力してもよい。例えば、スマートスピーカ１００は、音声出力を行った際のセンサ情報を正解情報（正解データ）として学習を行ない、その正解情報に近いセンサ情報が入力された場合に、音声出力してもよい。例えば、スマートスピーカ１００は、検知されたセンサ情報を入力として、入力されたセンサ情報に基づく状況を学習して、その状況に近い状況になった場合に、音声出力をすると決定してもよい。このように、スマートスピーカ１００は、過去に音声出力を行った状況（センサ情報）により、音声出力に適した学習して、その状況と類似する状況になった場合に音声出力してもよい。例えば、スマートスピーカ１００は、センサ情報が入力された場合、そのセンサ情報が過去の音声出力された際のセンサ情報との類似性が高い場合、音声出力をすると決定してもよい。

例えば、スマートスピーカ１００は、音声出力を行った際のユーザが音声情報に対応する行動を行った場合のセンサ情報を正解情報として学習を行ない、その正解情報に近いセンサ情報が入力された場合に、音声出力してもよい。例えば、スマートスピーカ１００は、「今日の天気は？」とユーザに聞かれる直前（数秒前）の状況を正解データとして学習してもよい。例えば、スマートスピーカ１００は、「今日の天気は？」とユーザが発話する前のセンサ情報を正解データとして学習してもよい。例えば、スマートスピーカ１００は、「今日の天気は？」とユーザが発話する前のセンサ情報を正解データとして学習し、その正解データに近いセンサ情報が入力された場合に、音声出力を行うことを示唆するスコアを出力するモデルしてもよい。これにより、スマートスピーカ１００は、天気を聞かれそうな状況になった場合に、ユーザからの質問を待つことなく適切なタイミングで天気に関する情報を音声出力することができる。

また、例えば、スマートスピーカ１００は、「音楽かけて」とユーザに言われる直前（数秒前）の状況を正解データとして学習してもよい。例えば、スマートスピーカ１００は、「音楽かけて」とユーザが発話する前のセンサ情報を正解データとして学習してもよい。例えば、スマートスピーカ１００は、「音楽かけて」とユーザが発話する直前の炊事に関する音等のセンサ情報を正解データとして学習してもよい。例えば、スマートスピーカ１００は、「音楽かけて」とユーザが発話する前のセンサ情報を正解データとして学習し、その正解データに近いセンサ情報が入力された場合に、音声出力を行うことを示唆するスコアを出力するモデルしてもよい。これにより、スマートスピーカ１００は、ユーザが音楽をかけることを希望する状況になった場合に、ユーザからの要求を待つことなく適切なタイミングで音楽を再生（出力）することができる。この場合、例えば、スマートスピーカ１００は、「音楽かけて」とユーザが発話する直前の状況は炊事の音がセンサ情報に含まれること等を学習することにより、炊事の音を取得したタイミングで音楽を出力することができる。

なお、上記は一例であり、スマートスピーカ１００は、種々の情報を適宜用いて音声出力を行うタイミングを決定するモデルを生成してもよい。また、モデルの学習手法については、上述した手法に限定されるものではなく、任意の公知技術が適用可能である。なお、各モデルの生成は、機械学習に関する種々の従来技術を適宜用いて行われてもよい。例えば、モデルの生成は、ＳＶＭ（Support Vector Machine）等の教師あり学習の機械学習に関する技術を用いて行われてもよい。また、例えば、モデルの生成は、教師なし学習の機械学習に関する技術を用いて行われてもよい。例えば、モデルの生成は、深層学習（ディープラーニング）の技術を用いて行われてもよい。例えば、モデルの生成は、ＲＮＮ（Recurrent Neural Network）やＣＮＮ（Convolutional Neural Network）等の種々のディープラーニングの技術を適宜用いて行われてもよい。なお、上記モデルの生成に関する記載は例示であり、モデルの生成は、取得可能な情報等に応じて適宜選択された学習手法により行われてもよい。

〔２．スマートスピーカの構成〕
次に、図３を用いて、実施形態に係るスマートスピーカ１００の構成について説明する。図３は、実施形態に係るスマートスピーカ１００の構成例を示す図である。図３に示すように、スマートスピーカ１００は、通信部１１０と、センサ部１１１と、音声出力部１１２と、記憶部１２０と、制御部１３０とを有する。なお、スマートスピーカ１００は、スマートスピーカ１００の管理者（ユーザ）等から各種操作を取得する入力部（例えば、キーボードやマウス等）や、各種情報を表示するための表示部（例えば、液晶ディスプレイ等）を有してもよい。

（通信部１１０）
通信部１１０は、例えば、ＮＩＣ（Network Interface Card）等によって実現される。そして、通信部１１０は、ネットワークＮ（図２参照）と有線または無線で接続され、サーバ装置５０や携帯端末１０との間で情報の送受信を行う。また、通信部１１０は、電子商取引サービスを提供する情報処理装置や音声認識サーバとの間で情報の送受信を行ってもよい。

（センサ部１１１）
センサ部１１１は、種々の情報を検知する。例えば、センサ部１１１は、マイク等の音センサを有する。例えば、センサ部１１１は、音センサにより周囲の音を集音（検知）する。例えば、センサ部１１１は、音センサによりユーザの発話等の種々の音声情報を検知する。

また、例えば、センサ部１１１は、カメラ等の画像センサを有してもよい。例えば、センサ部１１１は、画像センサにより周囲の画像を撮像（検知）する。なお、例えば、センサ部１１１は、上記に限らず種々のセンサを有してもよい。例えば、センサ部１１１は、ＧＰＳ（Global Positioning System）センサ等の位置センサを有してもよい。なお、センサ部１１１は、複数のセンサ情報を検知可能であってもよい。センサ部１１１は、照度センサ、温度センサ、湿度センサ、心拍（脈拍）センサ、加速度センサ、発汗センサ、呼気（ガス）センサ等の種々のセンサが含まれてもよい。

（音声出力部１１２）
音声出力部１１２は、各種情報を音声として出力するための出力装置である。例えば、音声出力部１１２は、スピーカ等によって実現される。例えば、音声出力部１１２は、出力部１３４からの指示に応じて、種々の情報を音声として出力する。

（記憶部１２０）
記憶部１２０は、例えば、ＲＡＭ（Random Access Memory）、フラッシュメモリ（Flash Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。実施形態に係る記憶部１２０は、図３に示すように、ユーザ情報記憶部１２１や推定情報記憶部１２２やコンテンツ情報記憶部１２３を有する。また、記憶部１２０は、図示を省略するが、スピーカに音声出力させるタイミングを決定するための条件に関する情報を記憶してもよい。

（ユーザ情報記憶部１２１）
実施形態に係るユーザ情報記憶部１２１は、ユーザに関する各種情報を記憶する。例えば、ユーザ情報記憶部１２１は、ユーザ属性に関する各種情報を記憶する。図４は、実施形態に係るユーザ情報記憶部の一例を示す図である。図４に示すユーザ情報記憶部１２１は、「ユーザＩＤ」、「属性情報」、「識別情報」といった項目が含まれる。

「ユーザＩＤ」は、ユーザを識別するための識別情報を示す。例えば、ユーザＩＤ「Ｕ１１」により識別されるユーザは、図１の例に示したユーザＵ１１に対応する。

また、「属性情報」には、ユーザの属性に関する各種情報が記憶される。例えば、「属性情報」には、「年齢」、「性別」、「興味」といった項目が含まれる。なお、図４に示す属性情報は一例であり、「属性情報」には、ユーザの属性に関する情報であれば、どのような情報が記憶されてもよい。

「年齢」は、ユーザＩＤにより識別されるユーザの年齢を示す。なお、「年齢」は、例えば３５歳など、ユーザＩＤにより識別されるユーザの具体的な年齢であってもよい。また、「性別」は、ユーザＩＤにより識別されるユーザの性別を示す。また、「興味」は、ユーザＩＤにより識別されるユーザの興味を示す。すなわち、「興味」は、ユーザＩＤにより識別されるユーザが関心の高い対象を示す。なお、図４に示す例では、「興味」は、各ユーザに１つずつ図示するが、複数であってもよい。

また、「識別情報」には、ユーザを識別するために用いられる各種情報（センサ情報）が記憶される。例えば、「識別情報」には、「音声」、「画像」といった項目が含まれる。なお、図４に示す識別情報は一例であり、「識別情報」には、ユーザの識別に用いられる情報（センサ情報）であれば、どのような情報が記憶されてもよい。

「音声」は、ユーザの識別に用いられる音声情報を示す。図４の例では、各ユーザの音声情報を概念的に記号「ＶＰ１１」〜「ＶＰ１３」等で示すが、「音声」としては、これらの格納場所を示すファイルパス名などが格納されてもよい。「音声」は、ユーザの音声の特徴を示す特徴情報であってもよい。例えば、音声ＶＰ１１〜音声ＶＰ１３は、ユーザの発話から抽出された音声的な特徴を示す情報（音声特徴情報）であってもよい。例えば、音声ＶＰ１１〜音声ＶＰ１３は、各発話から音声の特徴抽出に関する種々の従来技術を適宜用いて抽出された音声特徴情報であってもよい。

「画像」は、ユーザの識別に用いられる画像情報を示す。例えば、「画像」は、ユーザの顔を含む画像であってもよい。図４の例では、各ユーザの画像情報を概念的に記号「ＩＭ１１」〜「ＩＭ１３」等で示すが、「画像」としては、これらの格納場所を示すファイルパス名などが格納されてもよい。「画像」は、ユーザの顔等の身体的な特徴を示す特徴情報であってもよい。例えば、画像ＩＭ１１〜画像ＩＭ１３は、ユーザの画像から抽出された身体的な特徴を示す情報（画像特徴情報）であってもよい。例えば、画像ＩＭ１１〜画像ＩＭ１３は、画像の特徴抽出に関する種々の従来技術を適宜用いて抽出された画像特徴情報であってもよい。

例えば、図４に示す例では、ユーザＩＤ「Ｕ１１」により識別されるユーザ（ユーザＵ１１）の年齢は、「３０代」であり、性別は、「男性」であることを示す。また、例えば、ユーザＵ１１は、「スポーツ」に興味があることを示す。

また、例えば、図４に示す例では、ユーザＵ１１の音声は「音声ＶＰ１１」であることを示す。また、例えば、図４に示す例では、ユーザＵ１１の画像は「画像ＩＭ１１」であることを示す。

なお、ユーザ情報記憶部１２１は、上記に限らず、目的に応じて種々の情報を記憶してもよい。例えば、ユーザ情報記憶部１２１は、ユーザの属性情報を記憶してもよい。例えば、ユーザ情報記憶部１２１は、図４に示す例以外のユーザのデモグラフィック属性に関する情報やサイコグラフィック属性に関する情報を記憶してもよい。例えば、ユーザ情報記憶部１２１は、自宅、勤務地、氏名、家族構成、収入等の情報を記憶してもよい。

（推定情報記憶部１２２）
実施形態に係る推定情報記憶部１２２は、推定された各種情報を記憶する。例えば、推定情報記憶部１２２は、センサによる検知に関する各種情報を記憶する。図５に、実施形態に係る推定情報記憶部１２２の一例を示す。図５に示す推定情報記憶部１２２は、「推定ＩＤ」、「日時」、「コンテキスト情報」といった項目を有する。

「推定ＩＤ」は、推定に関する情報を識別するための識別情報を示す。「日時」は、対応する推定に関する情報が収集された日時を示す。図５における「日時」には、「ＤＴ２」等のように抽象的に図示するが、「２０１７年８月１５日１２時５０分００秒」等の具体的な日時が記憶されてもよい。なお、「日時」は、一時点に限らず、所定の範囲の期間であってもよい。この場合、「２０１７年８月１５日１２時５０分００秒−５９秒」等の具体的な日時（期間）が記憶されてもよい。この場合、例えば、日時ＤＴ２は、２０１７年８月１５日１２時５０分の１分間に対応してもよい。

また、「コンテキスト情報」には、センサ情報を用いて推定されるコンテキストに関する各種情報が記憶される。図５の例では、「コンテキスト情報」には、「コンテキスト」、「トピック」、「補足ユーザ」といった項目が含まれる。

「コンテキスト」は、対応する日時におけるコンテキストを示す。例えば、「コンテキスト」は、センサ情報に基づいて推定されたコンテキストを示す。

「トピック」は、対応する日時におけるトピック（話題）を示す。例えば、「トピック」は、センサ情報に基づいて推定されたトピックを示す。

「補足ユーザ」は、対応する日時における補足ユーザを示す。例えば、「補足ユーザ」は、センサ情報に基づいて、周囲に位置すると推定されたユーザを示す。

例えば、図５に示す例において、推定ＩＤ「ＳＮ１」により識別される推定は、日時ＤＴ１において行われたことを示す。また、日時ＤＴ１におけるコンテキスト情報は、コンテキストが発話中に対応する「コンテキストＣＮ１」であることを示す。また、日時ＤＴ１におけるコンテキスト情報は、トピックがＸ月Ｙ日のＡエリアの天気であることを示す。また、日時ＤＴ１におけるコンテキスト情報は、補足ユーザがユーザＵ１１、Ｕ１２、Ｕ１３の３人であることを示す。

例えば、図５に示す例において、推定ＩＤ「ＳＮ２」により識別される推定は、日時ＤＴ２において行われたことを示す。また、日時ＤＴ２におけるコンテキスト情報は、コンテキストが発話の中断に対応する「コンテキストＣＮ２」であることを示す。また、日時ＤＴ２におけるコンテキスト情報は、トピックが日時ＤＴ１から変化が無いことを示す。すなわち、日時ＤＴ２におけるコンテキスト情報は、トピックがＸ月Ｙ日のＡエリアの天気であることを示す。また、日時ＤＴ２におけるコンテキスト情報は、補足ユーザが日時ＤＴ１から変化が無いことを示す。すなわち、日時ＤＴ２におけるコンテキスト情報は、補足ユーザがユーザＵ１１、Ｕ１２、Ｕ１３の３人であることを示す。

なお、推定情報記憶部１２２は、上記に限らず、目的に応じて種々の情報を記憶してもよい。推定情報記憶部１２２は、コンテキスト情報の推定に用いたセンサ情報を推定ＩＤに対応付けて記憶してもよい。

（コンテンツ情報記憶部１２３）
実施形態に係るコンテンツ情報記憶部１２３は、コンテンツに関する各種情報を記憶する。図６は、実施形態に係るコンテンツ情報記憶部の一例を示す図である。図６に示す例では、コンテンツ情報記憶部１２３には、記事配信や天気等の各種サービスにおけるコンテンツが記憶される。図６に示すコンテンツ情報記憶部１２３は、「サービス」、「コンテンツＩＤ」、「コンテンツ」、「内容」、「音声情報」といった項目を有する。

「サービス」は、コンテンツを提供する各種サービスを示す。「コンテンツＩＤ」は、コンテンツを識別するための識別情報を示す。「コンテンツ」は、各種サービスにおいて提供されるコンテンツを示す。図６では「コンテンツ」に「ＡＡコンテンツ」といった概念的な情報が格納される例を示したが、実際には、文字情報や文字情報と画像や動画等の各種組合せ、または、これらの格納場所を示すファイルパス名などが格納される。

また、「内容」は、コンテンツの内容を示す。例えば、「内容」は、コンテンツのカテゴリや具体的な内容等を示す。また、「音声情報」は、コンテンツが音声出力される場合に出力される音声を示す。図６の例では、各コンテンツの音声情報を概念的に記号「ＡＤ１１」等で示すが、「音声情報」としては、これらの格納場所を示すファイルパス名などが格納されてもよい。また、例えば「音声情報」は、音声変換前の情報、すなわち音声出力されるテキスト情報（文字情報）であってもよい。

図６の例では、コンテンツＩＤ「ＣＴ１１」により識別されるコンテンツ（コンテンツＣＴ１１）は、「ＡＡコンテンツ」であることを示す。また、コンテンツＣＴ１１は、記事配信サービスにおいて提供されるコンテンツであることを示す。また、コンテンツＣＴ１１は、カテゴリがスポーツであり、サッカーに関する内容であることを示す。また、コンテンツＣＴ１１の音声情報は、音声情報ＡＤ１１であることを示す。

また、図６の例では、コンテンツＩＤ「ＣＴ２１」により識別されるコンテンツ（コンテンツＣＴ２１）は、「ＢＡコンテンツ」であることを示す。また、コンテンツＣＴ２１は、天気サービス（気象情報提供サービス）において提供されるコンテンツであることを示す。また、コンテンツＣＴ２１は、Ｘ月Ｙ日におけるＡエリアにおける天気に関する内容であることを示す。また、コンテンツＣＴ２１の音声情報は、音声情報ＡＤ２１であることを示す。

なお、コンテンツ情報記憶部１２３は、上記に限らず、目的に応じて種々の情報を記憶してもよい。例えば、コンテンツ情報記憶部１２３は、コンテンツを取得した日時やコンテンツが作成された日時に関する情報を記憶してもよい。また、コンテンツ情報記憶部１２３は、コンテンツの提供元を識別するための識別情報を記憶してもよい。

（制御部１３０）
図３の説明に戻って、制御部１３０は、コントローラ（controller）であり、例えば、ＣＰＵ（Central Processing Unit）やＭＰＵ（Micro Processing Unit）等によって、スマートスピーカ１００内部の記憶装置に記憶されている各種プログラム（決定プログラムの一例に相当）がＲＡＭを作業領域として実行されることにより実現される。また、制御部１３０は、コントローラ（controller）であり、例えば、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）等の集積回路により実現される。

図３に示すように、制御部１３０は、取得部１３１と、推定部１３２と、決定部１３３と、出力部１３４とを有し、以下に説明する決定処理の機能や作用を実現または実行する。なお、制御部１３０の内部構成は、図３に示した構成に限られず、後述する決定処理を行う構成であれば他の構成であってもよい。

（取得部１３１）
取得部１３１は、各種情報を取得する。例えば、取得部１３１は、外部の情報処理装置から各種情報を取得する。例えば、取得部１３１は、ユーザ情報記憶部１２１や推定情報記憶部１２２やコンテンツ情報記憶部１２３から各種情報を取得する。

例えば、取得部１３１は、センサにより検知されたセンサ情報を取得する。例えば、取得部１３１は、所定の空間に配置されたセンサにより検知されたセンサ情報を取得する。例えば、取得部１３１は、マイクにより検知された音声情報を含むセンサ情報を取得する。

図１では、取得部１３１は、センサ部１１１により検知された「Ｘ月Ｙ日どこ行きたい？」という発話ＰＡ１１（音声情報）を取得する。例えば、取得部１３１は、センサ部１１１により検知された発話ＰＡ１２（音声情報）を取得する。例えば、取得部１３１は、センサ部１１１により検知された発話ＰＡ１３（音声情報）を取得する。例えば、取得部１３１は、センサ部１１１により検知された発話ＰＡ１１〜ＰＡ１３等の一連の発話、すなわち複数のユーザによる会話を取得する。

（推定部１３２）
推定部１３２は、種々の推定を行う。例えば、推定部１３２は、ユーザ情報記憶部１２１や推定情報記憶部１２２やコンテンツ情報記憶部１２３に記憶された各種情報を用いて種々の推定を行う。例えば、推定部１３２は、センサ情報を用いてコンテキスト情報を推定する。

図１では、推定部１３２は、検知した発話ＰＡ１１〜ＰＡ１３等の音声を用いてユーザを推定する。例えば、推定部１３２は、ユーザ情報記憶部１２１に記憶された情報を用いて、スマートスピーカ１００により発話（音声）が検知されたユーザを推定する。例えば、推定部１３２は、発話ＰＡ１１〜ＰＡ１３と、ユーザ情報記憶部１２１中に記憶された音声とを用いてユーザを推定する。例えば、推定部１３２は、発話ＰＡ１１〜ＰＡ１３と、ユーザ情報記憶部１２１中の音声ＶＰ１１〜音声ＶＰ１３等とを比較することより、補足ユーザを推定する。

例えば、推定部１３２は、発話ＰＡ１１を解析して抽出した発話ＰＡ１１の特徴情報と、音声ＶＰ１１〜音声ＶＰ１３等と比較することにより、発話ＰＡ１１を行ったユーザを推定する。例えば、推定部１３２は、声紋認証等に関する種々の従来技術を適宜用いて発話ＰＡ１１がどの音声ＶＰ１１〜音声ＶＰ１３に対応するかを推定してもよい。例えば、推定部１３２は、発話ＰＡ１１を行ったユーザが音声ＶＰ１１に対応するユーザＵ１１であると推定する。

例えば、推定部１３２は、発話ＰＡ１２を行ったユーザが音声ＶＰ１３に対応するユーザＵ１３であると推定する。例えば、推定部１３２は、発話ＰＡ１３を行ったユーザが音声ＶＰ１２に対応するユーザＵ１２であると推定する。このように、図１の例では、推定部１３２は、ユーザＵ１１〜Ｕ１３を補足ユーザと推定する。

図１の例では、推定部１３２は、検知した発話ＰＡ１１〜ＰＡ１３等の音声を用いてコンテキストを推定する。例えば、推定部１３２は、検知した発話ＰＡ１１〜ＰＡ１３等に基づいて、ユーザの状況や発話（会話）の内容等を推定する。例えば、推定部１３２は、日時ＤＴ１におけるコンテキストをユーザが発話中に対応するコンテキストＣＮ１と推定する。

図１の例では、推定部１３２は、ユーザの発話の内容に基づいて会話のトピック（話題）に関する情報を推定する。例えば、推定部１３２は、発話ＰＡ１１〜ＰＡ１３等に基づいてトピックに関する情報を推定する。

図１の例では、推定部１３２は、ユーザの発話が中断された空間ＳＰ１−２において、コンテキストを推定する。例えば、推定部１３２は、検知したセンサ情報に基づいて、ユーザの状況や発話（会話）の内容等を推定する。例えば、推定部１３２は、ユーザの会話が中断しているため、日時ＤＴ２におけるコンテキストをユーザの発話の中断に対応するコンテキストＣＮ２と推定する。例えば、推定部１３２は、推定情報記憶部１２２−２に示すように、ユーザの発話の中断に対応するコンテキストＣＮ２を日時ＤＴ２におけるコンテキストとして格納する。

また、図１の例では、推定部１３２は、日時ＤＴ２におけるトピックが日時ＤＴ１から変化が無いと推定する。例えば、推定部１３２は、日時ＤＴ２におけるトピックが日時ＤＴ１から継続してＸ月Ｙ日のＡエリアの天気であると推定する。例えば、推定部１３２は、日時ＤＴ２における補足ユーザが日時ＤＴ１から変化が無いと推定する。例えば、推定部１３２は、日時ＤＴ２における補足ユーザが日時ＤＴ１から継続してユーザＵ１１、Ｕ１２、Ｕ１３の３人であると推定する。

（決定部１３３）
決定部１３３は、種々の決定を行う。例えば、決定部１３３は、ユーザ情報記憶部１２１や推定情報記憶部１２２やコンテンツ情報記憶部１２３に記憶された各種情報を用いて種々の決定を行う。

例えば、決定部１３３は、取得部１３１により取得されたセンサ情報を用いて推定されるコンテキストに基づいて、スピーカに音声出力させるタイミングを決定する。例えば、決定部１３３は、コンテキストに基づいて、所定の空間に配置されたスピーカに音声出力させるタイミングを決定する。例えば、決定部１３３は、コンテキストが音声出力タイミングに関する条件を満たす場合、スピーカに音声出力させると決定する。

例えば、決定部１３３は、コンテキストが条件を満たしたタイミングで、スピーカに音声出力させると決定する。例えば、決定部１３３は、音声情報を用いて推定されるコンテキストに基づいて、スピーカに音声出力させるタイミングを決定する。

例えば、決定部１３３は、音声情報が途切れた場合、スピーカに音声出力させると決定する。例えば、決定部１３３は、音声情報によりユーザの発話が途切れたと推定される場合、スピーカに音声出力させると決定する。

例えば、決定部１３３は、音声情報が途切れたタイミングで、スピーカに音声出力させると決定する。例えば、決定部１３３は、音声情報によりユーザの発話が途切れたと推定されるタイミングで、スピーカに音声出力させると決定する。例えば、決定部１３３は、コンテキストに基づいて、スピーカに音声出力させる出力情報を決定する。決定部１３３は、過去に音声出力を行った状況との類似性に基づいて、スピーカに音声出力させるタイミングを決定する。例えば、決定部１３３は、センサ情報が入力とし、音声の出力タイミングの決定に用いられるモデルにより、スピーカに音声出力させるタイミングを決定する。

図１の例では、決定部１３３は、日時ＤＴ１におけるコンテキストがユーザの発話中に対応するコンテキストＣＮ１であるため、音声出力するタイミングではないと決定する。例えば、決定部１３３は、推定したコンテキスト情報に基づいて、情報を出力すると決定する。例えば、決定部１３３は、推定部１３２によりユーザの発話が中断したと推定されたため、出力情報を音声として出力すると決定する。例えば、決定部１３３は、ユーザの発話が中断したと推定したため、コンテキストを音声として出力すると決定する。

図１の例では、決定部１３３は、推定部１３２により推定されたコンテキスト情報に基づいて、出力するコンテンツを決定する。例えば、決定部１３３は、コンテンツ情報記憶部１２３に記憶されたコンテンツから、出力するコンテンツを決定する。

図１の例では、決定部１３３は、コンテンツ情報記憶部１２３に記憶されたコンテンツのうち、コンテキスト情報のトピックに対応するコンテンツを音声出力すると決定する。例えば、決定部１３３は、コンテンツ情報記憶部１２３に記憶されたコンテンツのうち、トピック「Ｘ月Ｙ日のＡエリアの天気」に対応するコンテンツＣＴ２１を音声出力すると決定する。

（出力部１３４）
出力部１３４は、各種情報を出力する。例えば、出力部１３４は、各種情報を外部の情報処理装置へ送信することにより、各種情報を出力する。出力部１３４は、各種情報を外部装置へ出力（送信）してもよい。出力部１３４は、通信部１１０を介して各種情報を外部装置へ送信してもよい。

例えば、出力部１３４は、音声出力部１１２により所定の出力情報を音声出力する。例えば、出力部１３４は、音声出力部１１２に指示することにより、所定の出力情報を音声出力部１１２に音声出力させる。

図１の例では、出力部１３４は、図１中の空間ＳＰ１−２に示すように、「Ｘ月Ｙ日のＡエリアの天気は…」という内容の音声情報ＡＤ２１を音声出力する。例えば、出力部１３４は、「Ｘ月Ｙ日のＡエリアの天気は…」という内容の音声情報ＡＤ２１を音声出力部１１２に音声出力させる。

〔３．処理フロー〕
次に、図７を用いて、実施形態に係る決定システム１による決定処理の手順について説明する。図７は、実施形態に係る決定処理の一例を示すフローチャートである。

図７に示すように、スマートスピーカ１００は、センサにより検知されたセンサ情報を取得する（ステップＳ１０１）。図１の例では、スマートスピーカ１００は、発話ＰＡ１１〜ＰＡ１３等の一連の発話、すなわち複数のユーザによる会話を取得する。

そして、スマートスピーカ１００は、センサ情報を用いて推定されるコンテキストに基づいて、スピーカに音声出力させるタイミングを決定する（ステップＳ１０２）。図１の例では、スマートスピーカ１００は、ユーザの発話が中断したと推定したため、出力情報を音声として出力すると決定する。

〔４．音声出力の内容及び態様の決定〕
図１の例では、ユーザの発話から推定されるトピックに応じた内容のコンテンツを音声出力する場合を示したが、スマートスピーカ１００は、種々の情報を音声出力してもよい。例えば、スマートスピーカ１００は、発話を行うユーザの情報に応じて、音声出力するコンテンツを決定してもよい。また、スマートスピーカ１００は、補足ユーザが複数いる場合、あるユーザの情報に応じて音声出力する場合、そのユーザが利用する携帯端末１０に行わせてもよい。これらの点について、図８及び図９を用いて説明する。図８及び図９は、実施形態に係る決定処理の一例を示す図である。図８及び図９に示す例では、ユーザの会話（発話）からトピックが推定されない点において、図１と相違する。なお、図８及び図９において、図１と同様の点については、適宜説明を省略する。

〔４−１．ユーザの携帯端末による音声出力〕
まず、図８を用いて、コンテンツをユーザが利用する携帯端末１０に音声出力させる場合を説明する。図８では、空間ＳＰ１−１において、ユーザＵ１１〜Ｕ１３等が発話を行う。例えば、ユーザＵ１１が、スマートスピーカ１００の周囲において、「ＸＸＸ」という発話ＰＡ２１を行う。そして、スマートスピーカ１００は、音センサにより「ＸＸＸ」という発話ＰＡ２１（音声情報）を検知する。なお、発話ＰＡ２１の「ＸＸＸ」は、トピックの推定ができない発話であるものとする。

また、例えば、ユーザＵ１３が、スマートスピーカ１００の周囲において、「ＹＹＹ」という発話ＰＡ２２を行う。このように、図８の例では、ユーザＵ１３が、ユーザＵ１１の発話に対して「ＹＹＹ」という発話ＰＡ２２を行う。そして、スマートスピーカ１００は、音センサにより発話ＰＡ２２（音声情報）を検知する。なお、発話ＰＡ２２の「ＹＹＹ」は、トピックの推定ができない発話であるものとする。

また、例えば、ユーザＵ１２が、スマートスピーカ１００の周囲において、「ＺＺＺ」という発話ＰＡ２３を行う。このように、図８の例では、ユーザＵ１２が、ユーザＵ１３の発話に対して「ＺＺＺ」という発話ＰＡ２３を行う。そして、スマートスピーカ１００は、音センサにより発話ＰＡ２３（音声情報）を検知する。なお、発話ＰＡ２３の「ＺＺＺ」は、トピックの推定ができない発話であるものとする。図８の例では、ユーザＵ１１〜Ｕ１３は、発話ＰＡ２１〜ＰＡ２３のように、特に意味のない音声を発話したものとする。

そして、スマートスピーカ１００は、検知した発話ＰＡ２１〜ＰＡ２３等の音声を用いてユーザを推定する（ステップＳ２１）。例えば、スマートスピーカ１００は、ユーザ情報記憶部１２１に記憶された情報を用いて、スマートスピーカ１００により発話（音声）が検知されたユーザを推定する。

図８の例では、スマートスピーカ１００は、発話ＰＡ２１〜ＰＡ２３と、ユーザ情報記憶部１２１中に記憶された音声とを用いてユーザを推定する。例えば、スマートスピーカ１００は、発話ＰＡ２１〜ＰＡ２３と、ユーザ情報記憶部１２１中の音声ＶＰ１１〜音声ＶＰ１３等とを比較することより、補足ユーザを推定する。

例えば、スマートスピーカ１００は、発話ＰＡ２１を解析して抽出した発話ＰＡ２１の特徴情報と、音声ＶＰ１１〜音声ＶＰ１３等と比較することにより、発話ＰＡ２１を行ったユーザを推定する。例えば、スマートスピーカ１００は、声紋認証等に関する種々の従来技術を適宜用いて発話ＰＡ２１がどの音声ＶＰ１１〜音声ＶＰ１３に対応するかを推定してもよい。図８の例では、スマートスピーカ１００は、発話ＰＡ２１を行ったユーザが音声ＶＰ１１に対応するユーザＵ１１であると推定する。

また、スマートスピーカ１００は、発話ＰＡ２２を行ったユーザが音声ＶＰ１３に対応するユーザＵ１３であると推定する。また、スマートスピーカ１００は、発話ＰＡ２３を行ったユーザが音声ＶＰ１２に対応するユーザＵ１２であると推定する。このように、図８の例では、スマートスピーカ１００は、ユーザＵ１１〜Ｕ１３を補足ユーザと推定する。なお、上記は一例であり、スマートスピーカ１００は、種々の情報を適宜用いて、補足ユーザを推定してもよい。また、スマートスピーカ１００は、各発話が行われる度にその発話のユーザを推定してもよい。

図８の例では、スマートスピーカ１００は、推定情報記憶部１２２−１に示すように、ユーザＵ１１〜Ｕ１３を日時ＤＴ１における補足ユーザとして格納する。

また、スマートスピーカ１００は、検知した発話ＰＡ２１〜ＰＡ２３等の音声を用いてコンテキストを推定する（ステップＳ２２）。例えば、スマートスピーカ１００は、検知した発話ＰＡ２１〜ＰＡ２３等に基づいて、ユーザの状況や発話（会話）の内容等を推定する。

図８の例では、補足ユーザであるユーザＵ１１〜Ｕ１３が日時ＤＴ１において発話ＰＡ２１〜ＰＡ２３を行っており、スマートスピーカ１００は、日時ＤＴ１におけるコンテキストをユーザが発話中に対応するコンテキストＣＮ１と推定する。図８の例では、スマートスピーカ１００は、推定情報記憶部１２２−１に示すように、発話中に対応するコンテキストＣＮ１を日時ＤＴ１におけるコンテキストとして格納する。

また、スマートスピーカ１００は、ユーザの発話の内容に基づいて会話のトピック（話題）に関する情報を推定する。例えば、スマートスピーカ１００は、発話ＰＡ２１〜ＰＡ２３等に基づいてトピックに関する情報を推定する。図８の例では、スマートスピーカ１００は、発話ＰＡ２１〜ＰＡ２３からトピックを推定できなかったものとして、以下説明する。図８の例では、スマートスピーカ１００は、推定情報記憶部１２２−１に示すように、トピック「無し」として格納する。

そして、発話ＰＡ２１〜ＰＡ２３が行われた日時ＤＴ１の後において、ユーザの発話が中断する（ステップＳ２３）。図８の例では、日時ＤＴ１の後の所定期間（例えば３０秒等）において、ユーザの発話が中断する。

また、スマートスピーカ１００は、ユーザの発話が中断された空間ＳＰ１−２において、コンテキストを推定する（ステップＳ２４）。例えば、スマートスピーカ１００は、検知したセンサ情報に基づいて、ユーザの状況や発話（会話）の内容等を推定する。

図８の例では、ユーザの会話が中断しているため、スマートスピーカ１００は、日時ＤＴ２におけるコンテキストをユーザの発話の中断に対応するコンテキストＣＮ２と推定する。図８の例では、スマートスピーカ１００は、推定情報記憶部１２２−２に示すように、ユーザの発話の中断に対応するコンテキストＣＮ２を日時ＤＴ２におけるコンテキストとして格納する。

また、図８の例では、スマートスピーカ１００は、日時ＤＴ２におけるトピックが日時ＤＴ１から変化が無いと推定する。例えば、スマートスピーカ１００は、日時ＤＴ２におけるトピックが無いと推定する。また、スマートスピーカ１００は、日時ＤＴ２における補足ユーザが日時ＤＴ１から変化が無いと推定する。例えば、スマートスピーカ１００は、日時ＤＴ２における補足ユーザが日時ＤＴ１から継続してユーザＵ１１、Ｕ１２、Ｕ１３の３人であると推定する。

そして、スマートスピーカ１００は、推定したコンテキスト情報に基づいて、情報を出力すると決定する（ステップＳ２５）。例えば、スマートスピーカ１００は、ユーザの発話が中断したと推定したため、出力情報を音声として出力すると決定する。図８の例では、スマートスピーカ１００は、ユーザの発話が中断したと推定したため、コンテキストを音声として出力すると決定する。

そこで、スマートスピーカ１００は、推定したコンテキスト情報に基づいて、出力するコンテンツを決定する（ステップＳ２６）。図８の例では、スマートスピーカ１００は、コンテンツ情報記憶部１２３に記憶されたコンテンツから、出力するコンテンツを決定する。

図８の例では、コンテキスト情報のトピックが「無し」であるため、スマートスピーカ１００は、コンテンツ情報記憶部１２３に記憶されたコンテンツのうち、ユーザの情報に対応するコンテンツを音声出力すると決定する。例えば、スマートスピーカ１００は、コンテンツ情報記憶部１２３に記憶されたコンテンツのうち、ユーザＵ１１の興味「スポーツ」に対応するコンテンツＣＴ１１を音声出力すると決定する。

また、図８の例では、スマートスピーカ１００の周囲には、他のユーザＵ１２、Ｕ１３もいるため、スマートスピーカ１００は、ユーザＵ１１が利用する携帯端末１０にコンテンツＣＴ１１を音声出力させると決定する。そして、スマートスピーカ１００は、コンテンツＣＴ１１に対応する音声情報ＡＤ１１をユーザＵ１１が利用する携帯端末１０に出力（送信）する。

そして、スマートスピーカ１００から音声情報ＡＤ１１を受信した携帯端末１０は、図８中の空間ＳＰ１−２に示すように、「サッカーＸ国リーグの開幕戦でＸＸが…」という内容の音声情報ＡＤ１１を音声出力する。なお、スマートスピーカ１００は、他のユーザＵ１２、Ｕ１３についても各ユーザＵ１２、Ｕ１３の情報に応じたコンテンツを、ユーザＵ１２、Ｕ１３の各々が利用する携帯端末１０に出力させてもよい。

上述したように、スマートスピーカ１００は、検知したセンサ情報に基づいて推定したコンテキストに応じて、音声出力のタイミングを決定することにより、音声出力のタイミングを適切に決定することができる。また、スマートスピーカ１００は、補足ユーザが複数存在し、音声出力するコンテンツが一のユーザに対応する場合、その一のユーザの携帯端末１０に音声出力させることにより、他のユーザに不要な情報が提供されることを抑制し、ユーザの満足度を高めることができる。

〔４−２．スマートスピーカによる音声出力〕
次に、図９を用いて、一のユーザの情報に対応するコンテンツをスマートスピーカ１００が音声出力する場合を説明する。

図９では、空間ＳＰ１−１において、ユーザＵ１１が発話を行う。例えば、ユーザＵ１１が、スマートスピーカ１００の周囲において、「ＸＸＸ」という発話ＰＡ３１を行う。そして、スマートスピーカ１００は、音センサにより「ＸＸＸ」という発話ＰＡ３１（音声情報）を検知する。なお、発話ＰＡ３１の「ＸＸＸ」は、トピックの推定ができない発話であるものとする。

そして、スマートスピーカ１００は、検知した発話ＰＡ３１等の音声を用いてユーザを推定する（ステップＳ３１）。例えば、スマートスピーカ１００は、ユーザ情報記憶部１２１に記憶された情報を用いて、スマートスピーカ１００により発話（音声）が検知されたユーザを推定する。

図９の例では、スマートスピーカ１００は、発話ＰＡ３１と、ユーザ情報記憶部１２１中に記憶された音声とを用いてユーザを推定する。例えば、スマートスピーカ１００は、発話ＰＡ３１と、ユーザ情報記憶部１２１中の音声ＶＰ１１〜音声ＶＰ１３等とを比較することより、補足ユーザを推定する。

例えば、スマートスピーカ１００は、発話ＰＡ３１を解析して抽出した発話ＰＡ３１の特徴情報と、音声ＶＰ１１〜音声ＶＰ１３等と比較することにより、発話ＰＡ３１を行ったユーザを推定する。例えば、スマートスピーカ１００は、声紋認証等に関する種々の従来技術を適宜用いて発話ＰＡ３１がどの音声ＶＰ１１〜音声ＶＰ１３に対応するかを推定してもよい。図９の例では、スマートスピーカ１００は、発話ＰＡ３１を行ったユーザが音声ＶＰ１１に対応するユーザＵ１１であると推定する。

図９の例では、スマートスピーカ１００は、推定情報記憶部１２２−１に示すように、ユーザＵ１１を日時ＤＴ１における補足ユーザとして格納する。

また、スマートスピーカ１００は、検知した発話ＰＡ３１等の音声を用いてコンテキストを推定する（ステップＳ３２）。例えば、スマートスピーカ１００は、検知した発話ＰＡ３１等に基づいて、ユーザの状況や発話（会話）の内容等を推定する。

図９の例では、補足ユーザであるユーザＵ１１が日時ＤＴ１において発話ＰＡ３１を行っており、スマートスピーカ１００は、日時ＤＴ１におけるコンテキストをユーザが発話中に対応するコンテキストＣＮ１と推定する。図９の例では、スマートスピーカ１００は、推定情報記憶部１２２−１に示すように、発話中に対応するコンテキストＣＮ１を日時ＤＴ１におけるコンテキストとして格納する。

また、スマートスピーカ１００は、ユーザの発話の内容に基づいて会話のトピック（話題）に関する情報を推定する。例えば、スマートスピーカ１００は、発話ＰＡ３１等に基づいてトピックに関する情報を推定する。図９の例では、スマートスピーカ１００は、発話ＰＡ３１からトピックを推定できなかったものとして、以下説明する。図９の例では、スマートスピーカ１００は、推定情報記憶部１２２−１に示すように、トピック「無し」として格納する。

そして、発話ＰＡ３１が行われた日時ＤＴ１の後において、ユーザの発話が中断する（ステップＳ３３）。図９の例では、日時ＤＴ１の後の所定期間（例えば３０秒等）において、ユーザの発話が中断する。

また、スマートスピーカ１００は、ユーザの発話が中断された空間ＳＰ１−２において、コンテキストを推定する（ステップＳ３４）。例えば、スマートスピーカ１００は、検知したセンサ情報に基づいて、ユーザの状況や発話（会話）の内容等を推定する。

図９の例では、ユーザの会話が中断しているため、スマートスピーカ１００は、日時ＤＴ２におけるコンテキストをユーザの発話の中断に対応するコンテキストＣＮ２と推定する。図９の例では、スマートスピーカ１００は、推定情報記憶部１２２−２に示すように、ユーザの発話の中断に対応するコンテキストＣＮ２を日時ＤＴ２におけるコンテキストとして格納する。

また、図９の例では、スマートスピーカ１００は、日時ＤＴ２におけるトピックが日時ＤＴ１から変化が無いと推定する。例えば、スマートスピーカ１００は、日時ＤＴ２におけるトピックが無いと推定する。また、スマートスピーカ１００は、日時ＤＴ２における補足ユーザが日時ＤＴ１から変化が無いと推定する。例えば、スマートスピーカ１００は、日時ＤＴ２における補足ユーザが日時ＤＴ１から継続してユーザＵ１１の１人であると推定する。

そして、スマートスピーカ１００は、推定したコンテキスト情報に基づいて、情報を出力すると決定する（ステップＳ３５）。例えば、スマートスピーカ１００は、ユーザの発話が中断したと推定したため、出力情報を音声として出力すると決定する。図９の例では、スマートスピーカ１００は、ユーザの発話が中断したと推定したため、コンテキストを音声として出力すると決定する。

そこで、スマートスピーカ１００は、推定したコンテキスト情報に基づいて、出力するコンテンツを決定する（ステップＳ３６）。図９の例では、スマートスピーカ１００は、コンテンツ情報記憶部１２３に記憶されたコンテンツから、出力するコンテンツを決定する。

図９の例では、コンテキスト情報のトピックが「無し」であるため、スマートスピーカ１００は、コンテンツ情報記憶部１２３に記憶されたコンテンツのうち、ユーザの情報に対応するコンテンツを音声出力すると決定する。例えば、スマートスピーカ１００は、コンテンツ情報記憶部１２３に記憶されたコンテンツのうち、ユーザＵ１１の興味「スポーツ」に対応するコンテンツＣＴ１１を音声出力すると決定する。そして、スマートスピーカ１００は、図９中の空間ＳＰ１−２に示すように、「サッカーＸ国リーグの開幕戦でＸＸが…」という内容の音声情報ＡＤ１１を音声出力する。

上述したように、スマートスピーカ１００は、検知したセンサ情報に基づいて推定したコンテキストに応じて、音声出力のタイミングを決定することにより、音声出力のタイミングを適切に決定することができる。また、スマートスピーカ１００は、補足ユーザが１人である場合、音声出力するコンテンツが一のユーザに対応するコンテンツであっても、音声出力することにより、他のユーザが存在しない場合は、一のユーザに対応したコンテンツであっても音声出力することにより、ユーザの満足度を高めることができる。

〔５．効果〕
上述してきたように、実施形態に係るスマートスピーカ１００は、取得部１３１と、決定部１３３とを有する。取得部１３１は、センサにより検知されたセンサ情報を取得する。決定部１３３は、取得部１３１により取得されたセンサ情報を用いて推定されるコンテキストに基づいて、スピーカに音声出力させるタイミングを決定する。

このように、実施形態に係るスマートスピーカ１００は、センサ情報を用いて推定されるコンテキストに基づいて、スピーカに音声出力させるタイミングを決定することにより、音声出力のタイミングを適切に決定することができる。

また、実施形態に係るスマートスピーカ１００において、取得部１３１は、所定の空間に配置されたセンサにより検知されたセンサ情報を取得する。決定部１３３は、コンテキストに基づいて、所定の空間に配置されたスピーカに音声出力させるタイミングを決定する。

このように、実施形態に係るスマートスピーカ１００は、所定の空間に配置されたセンサにより検知されたセンサ情報を用いて、所定の空間に配置されたスピーカに音声出力させるタイミングを決定することにより、音声出力のタイミングを適切に決定することができる。

また、実施形態に係るスマートスピーカ１００において、決定部１３３は、コンテキストが音声出力タイミングに関する条件を満たす場合、スピーカに音声出力させると決定する。

このように、実施形態に係るスマートスピーカ１００は、コンテキストが音声出力タイミングに関する条件を満たす場合、スピーカに音声出力させると決定することにより、音声出力のタイミングを適切に決定することができる。

また、実施形態に係るスマートスピーカ１００において、決定部１３３は、コンテキストが条件を満たしたタイミングで、スピーカに音声出力させると決定する。

このように、実施形態に係るスマートスピーカ１００は、コンテキストが条件を満たしたタイミングで、スピーカに音声出力させると決定することにより、音声出力のタイミングを適切に決定することができる。

また、実施形態に係るスマートスピーカ１００において、取得部１３１は、マイクにより検知された音声情報を含むセンサ情報を取得する。決定部１３３は、音声情報を用いて推定されるコンテキストに基づいて、スピーカに音声出力させるタイミングを決定する。

このように、実施形態に係るスマートスピーカ１００は、マイクにより検知された音声情報を用いて推定されるコンテキストに基づいて、スピーカに音声出力させるタイミングを決定することにより、音声出力のタイミングを適切に決定することができる。

また、実施形態に係るスマートスピーカ１００において、決定部１３３は、音声情報が途切れた場合、スピーカに音声出力させると決定する。

このように、実施形態に係るスマートスピーカ１００は、音声情報が途切れた場合、スピーカに音声出力させると決定することにより、音声出力のタイミングを適切に決定することができる。

また、実施形態に係るスマートスピーカ１００において、決定部１３３は、音声情報によりユーザの発話が途切れたと推定される場合、スピーカに音声出力させると決定する。

このように、実施形態に係るスマートスピーカ１００は、音声情報によりユーザの発話が途切れたと推定される場合、スピーカに音声出力させると決定することにより、音声出力のタイミングを適切に決定することができる。

また、実施形態に係るスマートスピーカ１００において、決定部１３３は、音声情報が途切れたタイミングで、スピーカに音声出力させると決定する。

このように、実施形態に係るスマートスピーカ１００は、音声情報が途切れたタイミングで、スピーカに音声出力させると決定することにより、音声出力のタイミングを適切に決定することができる。

また、実施形態に係るスマートスピーカ１００において、決定部１３３は、音声情報によりユーザの発話が途切れたと推定されるタイミングで、スピーカに音声出力させると決定する。

このように、実施形態に係るスマートスピーカ１００は、音声情報によりユーザの発話が途切れたと推定されるタイミングで、スピーカに音声出力させると決定することにより、音声出力のタイミングを適切に決定することができる。

また、実施形態に係るスマートスピーカ１００において、決定部１３３は、コンテキストに基づいて、スピーカに音声出力させる出力情報を決定する。

このように、実施形態に係るスマートスピーカ１００は、コンテキストに基づいて、スピーカに音声出力させる出力情報を決定することにより、音声出力の内容を適切に決定することができる。

また、実施形態に係るスマートスピーカ１００において、決定部１３３は、過去に音声出力を行った状況との類似性に基づいて、スピーカに音声出力させるタイミングを決定する。

このように、実施形態に係るスマートスピーカ１００は、過去に音声出力を行った状況との類似性に基づいて、スピーカに音声出力させるタイミングを決定することにより、音声出力の内容を適切に決定することができる。

また、実施形態に係るスマートスピーカ１００において、決定部１３３は、センサ情報が入力とし、音声の出力タイミングの決定に用いられるモデルにより、スピーカに音声出力させるタイミングを決定する。

このように、実施形態に係るスマートスピーカ１００は、センサ情報が入力とし、音声の出力タイミングの決定に用いられるモデルにより、スピーカに音声出力させるタイミングを決定することにより、音声出力の内容を適切に決定することができる。

〔６．ハードウェア構成〕
上述してきた実施形態に係るスマートスピーカ１００は、例えば図１０に示すような構成のコンピュータ１０００によって実現される。図１０は、スマートスピーカの機能を実現するコンピュータの一例を示すハードウェア構成図である。コンピュータ１０００は、ＣＰＵ１１００、ＲＡＭ１２００、ＲＯＭ１３００、ＨＤＤ１４００、通信インターフェイス（Ｉ／Ｆ）１５００、入出力インターフェイス（Ｉ／Ｆ）１６００、及びメディアインターフェイス（Ｉ／Ｆ）１７００を有する。

ＣＰＵ１１００は、ＲＯＭ１３００またはＨＤＤ１４００に格納されたプログラムに基づいて動作し、各部の制御を行う。ＲＯＭ１３００は、コンピュータ１０００の起動時にＣＰＵ１１００によって実行されるブートプログラムや、コンピュータ１０００のハードウェアに依存するプログラム等を格納する。

ＨＤＤ１４００は、ＣＰＵ１１００によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を格納する。通信インターフェイス１５００は、ネットワークＮを介して他の機器からデータを受信してＣＰＵ１１００へ送り、ＣＰＵ１１００が生成したデータをネットワークＮを介して他の機器へ送信する。

ＣＰＵ１１００は、入出力インターフェイス１６００を介して、ディスプレイやプリンタ等の出力装置、及び、キーボードやマウス等の入力装置を制御する。ＣＰＵ１１００は、入出力インターフェイス１６００を介して、入力装置からデータを取得する。また、ＣＰＵ１１００は、生成したデータを入出力インターフェイス１６００を介して出力装置へ出力する。

メディアインターフェイス１７００は、記録媒体１８００に格納されたプログラムまたはデータを読み取り、ＲＡＭ１２００を介してＣＰＵ１１００に提供する。ＣＰＵ１１００は、かかるプログラムを、メディアインターフェイス１７００を介して記録媒体１８００からＲＡＭ１２００上にロードし、ロードしたプログラムを実行する。記録媒体１８００は、例えばＤＶＤ（Digital Versatile Disc）、ＰＤ（Phase change rewritable Disk）等の光学記録媒体、ＭＯ（Magneto-Optical disk）等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。

例えば、コンピュータ１０００がスマートスピーカ１００として機能する場合、コンピュータ１０００のＣＰＵ１１００は、ＲＡＭ１２００上にロードされたプログラムを実行することにより、制御部１３０の機能を実現する。コンピュータ１０００のＣＰＵ１１００は、これらのプログラムを記録媒体１８００から読み取って実行するが、他の例として、他の装置からネットワークＮを介してこれらのプログラムを取得してもよい。

以上、本願の実施形態及び変形例のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の行に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。

〔７．その他〕
また、上記実施形態及び変形例において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。

また、上述してきた実施形態及び変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。

また、上述してきた「部（section、module、unit）」は、「手段」や「回路」などに読み替えることができる。例えば、取得部は、取得手段や取得回路に読み替えることができる。

１決定システム
１００スマートスピーカ（決定装置）
１２１ユーザ情報記憶部
１２２推定情報記憶部
１２３コンテンツ情報記憶部
１３０制御部
１３１取得部
１３２推定部
１３３決定部
１３４出力部
１０携帯端末
５０サーバ装置
Ｎネットワーク

Claims

センサにより検知されたセンサ情報を取得する取得部と、
前記取得部により取得された前記センサ情報を用いて推定されるコンテキストに基づいて、スピーカに音声出力させるタイミングを決定する決定部と、
を備えたことを特徴とする決定装置。
取得部は、
所定の空間に配置された前記センサにより検知された前記センサ情報を取得し、
前記決定部は、
前記コンテキストに基づいて、前記所定の空間に配置されたスピーカに音声出力させるタイミングを決定する
ことを特徴とする請求項１に記載の決定装置。
前記決定部は、
前記コンテキストが音声出力タイミングに関する条件を満たす場合、前記スピーカに音声出力させると決定する
ことを特徴とする請求項１または請求項２に記載の決定装置。
前記決定部は、
前記コンテキストが前記条件を満たしたタイミングで、前記スピーカに音声出力させると決定する
ことを特徴とする請求項３に記載の決定装置。
前記取得部は、
マイクにより検知された音声情報を含む前記センサ情報を取得し、
前記決定部は、
前記音声情報を用いて推定される前記コンテキストに基づいて、前記スピーカに音声出力させるタイミングを決定する
ことを特徴とする請求項１〜４のいずれか１項に記載の決定装置。
前記決定部は、
前記音声情報が途切れた場合、前記スピーカに音声出力させると決定する
ことを特徴とする請求項５に記載の決定装置。
前記決定部は、
前記音声情報によりユーザの発話が途切れたと推定される場合、前記スピーカに音声出力させると決定する
ことを特徴とする請求項６に記載の決定装置。
前記決定部は、
前記音声情報が途切れたタイミングで、前記スピーカに音声出力させると決定する
ことを特徴とする請求項６または請求項７に記載の決定装置。
前記決定部は、
前記音声情報によりユーザの発話が途切れたと推定されるタイミングで、前記スピーカに音声出力させると決定する
ことを特徴とする請求項８に記載の決定装置。
前記決定部は、
前記コンテキストに基づいて、前記スピーカに音声出力させる出力情報を決定する
ことを特徴とする請求項１〜９のいずれか１項に記載の決定装置。
前記決定部は、
過去に音声出力を行った状況との類似性に基づいて、前記スピーカに音声出力させるタイミングを決定する
ことを特徴とする請求項１〜１０のいずれか１項に記載の決定装置。
前記決定部は、
前記センサ情報が入力とし、音声の出力タイミングの決定に用いられるモデルにより、前記スピーカに音声出力させるタイミングを決定する
ことを特徴とする請求項１〜１１のいずれか１項に記載の決定装置。
コンピュータが実行する決定方法であって、
センサにより検知されたセンサ情報を取得する取得工程と、
前記取得工程により取得された前記センサ情報を用いて推定されるコンテキストに基づいて、スピーカに音声出力させるタイミングを決定する決定工程と、
を含んだことを特徴とする決定方法。
センサにより検知されたセンサ情報を取得する取得手順と、
前記取得手順により取得された前記センサ情報を用いて推定されるコンテキストに基づいて、スピーカに音声出力させるタイミングを決定する決定手順と、
をコンピュータに実行させることを特徴とする決定プログラム。