以下に、本願に係る決定装置、決定方法、及び決定プログラムを実施するための形態(以下、「実施形態」と呼ぶ)について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る決定装置、決定方法、及び決定プログラムが限定されるものではない。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。
(実施形態)
〔1.決定処理〕
まず、実施形態に係る決定処理について説明する。図1は、実施形態に係る決定処理の一例を示す図である。図1に示すスマートスピーカ100は、センサにより検知されたセンサ情報を用いてコンテキストを推定し、推定したコンテキストに応じてスピーカに音声出力させるタイミングを決定する決定サービスを提供する。図1の例では、スマートスピーカ100が検知した周囲の音声情報(以下、単に「音声」ともいう)をセンサ情報として用いる場合を示す。なお、ここでいうセンサ情報には、コンテキストの推定に利用可能な種々の情報が含まれてもよい。例えば、センサ情報には、画像センサ等の各種のセンサにより検知される種々のセンサ情報が含まれてもよい。
〔決定システムの構成〕
図1の説明に先立って、図2を用いて決定システム1の構成について説明する。図2は、実施形態に係る決定システムの構成例を示す図である。図2に示すように、実施形態に係る決定システム1には、スマートスピーカ100と、携帯端末10と、サーバ装置50とが含まれる。スマートスピーカ100と、携帯端末10と、サーバ装置50とは、所定のネットワークNを介して通信可能に接続される。なお、図2に示した決定システム1には、複数のスマートスピーカ100、複数の携帯端末10、複数のサーバ装置50が含まれてもよい。
例えば、スマートスピーカ100は、センサにより検知されたセンサ情報を用いて推定されるコンテキストに基づいて、スピーカに音声出力させるタイミングを決定する決定装置である。例えば、スマートスピーカ100は、スマートスピーカ100の周囲におけるユーザの発話を検知し、センサ情報を用いて推定されるコンテキストに基づいて、スピーカに音声出力させるタイミングを決定する。図1の例では、スマートスピーカ100は、周囲の音を検知し、検知した音に応じて種々の処理を行うデバイス(音声アシスト端末)である。例えば、スマートスピーカ100は、ユーザの発話に対して、処理を行う端末装置である。例えば、スマートスピーカ100は、ユーザの発話に限らず、スマートスピーカ100の周囲の環境音等を収集する。
また、スマートスピーカ100は、音声認識の機能を有してもよい。また、スマートスピーカ100は、音声認識サービスを提供する音声認識サーバから情報を取得可能であってもよい。この場合、決定システム1は、音声認識サーバが含まれてもよい。なお、図1の例では、スマートスピーカ100や音声認識サーバが、種々の従来技術を適宜用いてユーザの発話を認識したり、発話したユーザを推定したりするものとして、適宜説明を省略する。
また、スマートスピーカ100は、画像センサ等を有してもよい。例えば、スマートスピーカ100は、赤外線センサや人感センサや温度センサや気圧センサ等の種々の機能を有し、温度や気圧等のスマートスピーカ100の周囲の環境情報を検知し、取得可能であってもよい。
なお、スマートスピーカ100は、後述する決定処理の実行可能であれば、どのような端末装置であってもよい。例えば、ユーザが利用する携帯端末10と一体であってもよい。すなわち、決定システム1においては、いずれの装置が決定装置であってもよい。
また、例えば、スマートスピーカ100は、収集したセンサ情報をサーバ装置50へ送信してもよい。例えば、スマートスピーカ100は、所定のネットワークNを介してサーバ装置50や携帯端末10と通信可能なデバイス、いわゆるIoT(Internet of Things)デバイスであってもよい。
携帯端末10は、ユーザによって利用される情報処理装置である。例えば、携帯端末10は、ユーザによって利用される端末装置である。携帯端末10は、例えば、スマートフォンや、タブレット型端末や、ノート型PC(Personal Computer)や、デスクトップPCや、携帯電話機や、PDA(Personal Digital Assistant)等により実現される。
サーバ装置50は、ユーザに種々のサービスを提供する情報処理装置である。例えば、サーバ装置50は、記事配信(ニュース配信)や天気(気象情報)等の各種サービスを提供するサービス提供装置である。
例えば、サーバ装置50は、スマートスピーカ100にコンテンツを提供する。例えば、サーバ装置50は、記事配信(ニュース配信)や天気(気象情報)等の各種コンテンツをスマートスピーカ100に提供する。なお、サーバ装置50は、記事配信や天気等の各種サービスを提供する外部装置からサービスに関する情報を取得し、スマートスピーカ100へ提供してもよい。例えば、サーバ装置50は、記事配信や天気等の各種サービスを提供する外部装置からコンテンツを取得し、取得したコンテンツをスマートスピーカ100へ提供してもよい。
サーバ装置50は、スマートスピーカ100や携帯端末10から各種情報を収集してもよい。例えば、サーバ装置50は、スマートスピーカ100が検知したセンサ情報や推定したコンテキスト情報等をスマートスピーカ100から取得してもよい。
以下、図1を用いて、決定処理の一例を説明する。スマートスピーカ100は、マンションや戸建て等、所定の住宅内の部屋等の空間SP1に配置される。図1の例では、このように空間SP1に配置されたスマートスピーカ100は、周囲の環境音やユーザの発話等に応じて種々の処理を行う。また、図1では、時間経過に応じて、空間SP1を空間SP1−1、SP1−2として説明する。すなわち、図1では、空間SP1−1、SP1−2の順で時間が経過していることを示す。なお、空間SP1−1、SP1−2は同一の空間SP1である。また、空間SP1−1、SP1−2を区別なく説明する場合、空間SP1と記載する。
また、以下では、推定情報記憶部122を推定情報記憶部122−1、122−2として説明する。すなわち、図1では、推定情報記憶部122−1、122−2の順で時間が経過していることを示す。また、推定情報記憶部122−1、122−2は同一の推定情報記憶部122である。また、以下では、推定情報記憶部122−1、122−2について、特に区別することなく説明する場合には、推定情報記憶部122と記載する。
また、各日時「DT*」中の「DT」に続く「*(*は任意の数値)」は、「*」の値が大きい程、日付が新しいものとする。例えば、日時「DT2」は、日時「DT1」に比べて、「DT」に続く数値が大きいため、日付がより新しいことを示す。図1では、空間SP1−1が日時DT1に対応し、空間SP1−2が日時DT2に対応するものとする。なお、図1の例では、「日時DT1」等のように抽象的に図示するが、「日時DT1」は、「2017年8月15日12時49分00秒」等の所定の日時であってもよい。
また、スマートスピーカ100は、センサ情報に基づいて、コンテキストを推定する。図1の例では、スマートスピーカ100は、周囲の音声を検知し、検知した音声に基づいて、スマートスピーカ100の周囲の状況に関するコンテキストを推定する。
ここでいう、コンテキストは、例えば、スマートスピーカ100の周囲の状況を示す情報である。例えば、コンテキストは、スマートスピーカ100の周囲に位置するユーザの状況やスマートスピーカ100の周囲の環境(背景)に基づいて推定されるスマートスピーカ100の周囲の状況を意味する。なお、図1の例では、スマートスピーカ100の周囲に位置するユーザは、各種センサ情報によりスマートスピーカ100の周囲に位置すると推定されるユーザ(以下、「補足ユーザ」ともいう)であるものとする。
また、コンテキストの推定には、ユーザ(補足ユーザ)の行動情報等のユーザに関する情報が用いられてもよい。例えば、コンテキストの推定には、ユーザ(補足ユーザ)に提供されるコンテンツの内容、ユーザが反応したコンテンツの内容、ユーザの属性、ユーザの現在位置、現在時刻、ユーザが置かれた物理環境、ユーザが置かれた社会環境、ユーザの運動状態、および、推定されるユーザの感情等の種々の情報が用いられてもよい。
図1の例では、スマートスピーカ100がユーザの発話が中断したタイミングでコンテンツを音声出力すると決定する場合を一例として説明する。例えば、スマートスピーカ100は、「発話の中断」等のスピーカに音声出力させる条件を有するものとする。なお、コンテンツを音声出力すると決定するタイミングは、発話の中断に限らず、音声出力するのに適したタイミングであれば、どのようなタイミングでもよいが、詳細は後述する。
図1では、空間SP1−1において、ユーザU11〜U13等が発話を行う。例えば、ユーザU11が、スマートスピーカ100の周囲において、「X月Y日どこ行きたい?」という発話PA11を行う。そして、スマートスピーカ100は、音センサにより「X月Y日どこ行きたい?」という発話PA11(音声情報)を検知する。
また、例えば、ユーザU13が、スマートスピーカ100の周囲において、「Aエリアの○○に行きたい」という発話PA12を行う。このように、図1の例では、ユーザU13が、ユーザU11の発話に対して「Aエリアの○○に行きたい」という発話PA12を行う。そして、スマートスピーカ100は、音センサにより発話PA12(音声情報)を検知する。
また、例えば、ユーザU12が、スマートスピーカ100の周囲において、「いいわね。でも天気が心配」という発話PA13を行う。このように、図1の例では、ユーザU12が、ユーザU13の発話に対して「いいわね。でも天気が心配」という発話PA13を行う。そして、スマートスピーカ100は、音センサにより発話PA13(音声情報)を検知する。このように、図1の例では、スマートスピーカ100は、発話PA11〜PA13等の一連の発話、すなわち複数のユーザによる会話を検知する。
そして、スマートスピーカ100は、検知した発話PA11〜PA13等の音声を用いてユーザを推定する(ステップS11)。例えば、スマートスピーカ100は、ユーザ情報記憶部121に記憶された情報を用いて、スマートスピーカ100により発話(音声)が検知されたユーザを推定する。
図1に示すユーザ情報記憶部121中の「ユーザID」は、ユーザを識別するための識別情報を示す。例えば、ユーザID「U11」により識別されるユーザは、図1の例に示したユーザU11に対応する。
上記のように「ユーザU*(*は任意の数値)」と記載した場合、そのユーザはユーザID「U*」により識別されるユーザであることを示す。例えば、「ユーザU12」と記載した場合、そのユーザはユーザID「U12」により識別されるユーザである。
図1に示すユーザ情報記憶部121中の「属性情報」には、ユーザの属性に関する各種情報が記憶される。例えば、「属性情報」には、「年齢」、「性別」、「興味」といった項目が含まれる。図1に示すユーザ情報記憶部121中の「識別情報」には、ユーザを識別するために用いられる各種情報(センサ情報)が記憶される。例えば、「識別情報」には、「音声」、「画像」といった項目が含まれる。
図1に示すユーザ情報記憶部121中の「音声」は、ユーザの識別に用いられる音声情報を示す。図1の例では、各ユーザの音声情報を概念的に記号「VP11」〜「VP13」等で示すが、「音声」としては、これらの格納場所を示すファイルパス名などが格納されてもよい。「音声」は、ユーザの音声の特徴を示す特徴情報であってもよい。例えば、音声VP11〜音声VP13は、ユーザの発話から抽出された音声的な特徴を示す情報(音声特徴情報)であってもよい。例えば、音声VP11〜音声VP13は、各発話から音声の特徴抽出に関する種々の従来技術を適宜用いて抽出された音声特徴情報であってもよい。図1に示すユーザ情報記憶部121中の「画像」は、ユーザの識別に用いられる画像情報を示す。
図1の例では、スマートスピーカ100は、発話PA11〜PA13と、ユーザ情報記憶部121中に記憶された音声とを用いてユーザを推定する。例えば、スマートスピーカ100は、発話PA11〜PA13と、ユーザ情報記憶部121中の音声VP11〜音声VP13等とを比較することより、補足ユーザを推定する。
例えば、スマートスピーカ100は、発話PA11を解析して抽出した発話PA11の特徴情報と、音声VP11〜音声VP13等と比較することにより、発話PA11を行ったユーザを推定する。例えば、スマートスピーカ100は、声紋認証等に関する種々の従来技術を適宜用いて発話PA11がどの音声VP11〜音声VP13に対応するかを推定してもよい。図1の例では、スマートスピーカ100は、発話PA11を行ったユーザが音声VP11に対応するユーザU11であると推定する。
また、スマートスピーカ100は、発話PA12を行ったユーザが音声VP13に対応するユーザU13であると推定する。また、スマートスピーカ100は、発話PA12を行ったユーザが音声VP12に対応するユーザU12であると推定する。このように、図1の例では、スマートスピーカ100は、ユーザU11〜U13を補足ユーザと推定する。なお、上記は一例であり、スマートスピーカ100は、種々の情報を適宜用いて、補足ユーザを推定してもよい。また、スマートスピーカ100は、各発話が行われる度にその発話のユーザを推定してもよい。また、スマートスピーカ100は、画像センサ等により撮像されたユーザの画像を用いて、画像により推定されたユーザを補足ユーザと推定してもよい。
図1の例では、スマートスピーカ100は、推定情報記憶部122−1に示すように、ユーザU11〜U13を日時DT1における補足ユーザとして格納する。図1に示す推定情報記憶部122中の「推定ID」は、推定に関する情報を識別するための識別情報を示す。図1に示す推定情報記憶部122中の「日時」は、対応する推定に関する情報が収集された日時を示す。図1に示す推定情報記憶部122中の「コンテキスト情報」には、センサ情報を用いて推定されるコンテキストに関する各種情報が記憶される。図1の例では、「コンテキスト情報」には、「コンテキスト」、「トピック」、「補足ユーザ」といった項目が含まれる。
図1に示す推定情報記憶部122中の「コンテキスト」は、対応する日時におけるコンテキストを示す。例えば、「コンテキスト」は、センサ情報に基づいて推定されたコンテキストを示す。例えば、スマートスピーカ100は、推定を行う日時から所定の期間内(例えば、1分以内や10分以内等)に検知されたセンサ情報を用いてコンテコストを推定する。図1に示す推定情報記憶部122中の「トピック」は、対応する日時におけるトピック(話題)を示す。例えば、「トピック」は、センサ情報に基づいて推定されたトピックを示す。図1に示す推定情報記憶部122中の「補足ユーザ」は、対応する日時における補足ユーザを示す。例えば、「補足ユーザ」は、センサ情報に基づいて、周囲に位置すると推定されたユーザを示す。
また、スマートスピーカ100は、検知した発話PA11〜PA13等の音声を用いてコンテキストを推定する(ステップS12)。例えば、スマートスピーカ100は、検知した発話PA11〜PA13等に基づいて、ユーザの状況や発話(会話)の内容等を推定する。
例えば、スマートスピーカ100は、音声認識に関する種々の技術を適宜用いて、検知した発話等の音声情報を文字情報に変換する。また、スマートスピーカ100は、発話等の音声情報を変換した文字情報を、形態素解析等の自然言語処理技術を適宜用いて解析することにより、コンテキストを推定してもよい。なお、スマートスピーカ100は、発話PA11〜PA13(音声情報)を音声認識サーバへ送信し、音声認識サーバから発話PA11〜PA13の文字情報を取得してもよい。
図1の例では、補足ユーザであるユーザU11〜U13が日時DT1において発話PA11〜PA13を行っており、スマートスピーカ100は、日時DT1におけるコンテキストをユーザが発話中に対応するコンテキストCN1と推定する。図1の例では、スマートスピーカ100は、推定情報記憶部122−1に示すように、発話中に対応するコンテキストCN1を日時DT1におけるコンテキストとして格納する。
なお、図1の例では、上記のように、コンテキストをコンテキストCN1やコンテキストCN2等のように抽象的な記号で示すが、各コンテキストはユーザの具体的な状況を示す情報であってもよい。例えば、コンテキストCN1は、「ユーザが発話(会話)中である」状況に対応するコンテキストであってもよい。
また、スマートスピーカ100は、ユーザの発話の内容に基づいて会話のトピック(話題)に関する情報を推定する。例えば、スマートスピーカ100は、発話PA11〜PA13等に基づいてトピックに関する情報を推定する。例えば、スマートスピーカ100は、トピック分析(解析)等の種々の従来手法を適宜用いて、発話PA11〜PA13等からトピックを抽出してもよい。例えば、スマートスピーカ100は、発話PA11〜PA13等を変換した文字情報を、形態素解析等の自然言語処理技術を適宜用いて解析することにより、発話PA11〜PA13等の文字情報から重要なキーワードを発話PA11〜PA13等のトピックとして抽出してもよい。
図1の例では、スマートスピーカ100は、トピックとして、対象「天気」や、日時「X月Y日」や、位置「Aエリア」を推定するものとして、以下説明する。図1の例では、スマートスピーカ100は、推定情報記憶部122−1に示すように、対象「天気」、日時「X月Y日」及び位置「Aエリア」をトピックとして格納する。なお、スマートスピーカ100は、上記に限らず、種々の従来技術を適宜用いて、会話のトピックを推定してもよい。また、スマートスピーカ100は、日時DT1におけるコンテキストがユーザの発話中に対応するコンテキストCN1であるため、音声出力するタイミングではないと決定する。
そして、発話PA11〜PA13が行われた日時DT1の後において、ユーザの発話が中断する(ステップS13)。図1の例では、日時DT1の後の所定期間(例えば30秒等)において、ユーザの発話が中断する。
また、スマートスピーカ100は、ユーザの発話が中断された空間SP1−2において、コンテキストを推定する(ステップS14)。例えば、スマートスピーカ100は、検知したセンサ情報に基づいて、ユーザの状況や発話(会話)の内容等を推定する。
図1の例では、ユーザの会話が中断しているため、スマートスピーカ100は、日時DT2におけるコンテキストをユーザの発話の中断に対応するコンテキストCN2と推定する。図1の例では、スマートスピーカ100は、推定情報記憶部122−2に示すように、ユーザの発話の中断に対応するコンテキストCN2を日時DT2におけるコンテキストとして格納する。
また、図1の例では、スマートスピーカ100は、日時DT2におけるトピックが日時DT1から変化(変更)が無いと推定する。例えば、スマートスピーカ100は、日時DT2におけるトピックが日時DT1から継続してX月Y日のAエリアの天気であると推定する。また、スマートスピーカ100は、日時DT2における補足ユーザが日時DT1から変化が無いと推定する。例えば、スマートスピーカ100は、日時DT2における補足ユーザが日時DT1から継続してユーザU11、U12、U13の3人であると推定する。
そして、スマートスピーカ100は、推定したコンテキスト情報に基づいて、情報を出力すると決定する(ステップS15)。例えば、スマートスピーカ100は、ユーザの発話が中断したと推定したため、出力情報を音声として出力すると決定する。図1の例では、スマートスピーカ100は、ユーザの発話が中断したと推定したため、コンテキストを音声として出力すると決定する。
そこで、スマートスピーカ100は、推定したコンテキスト情報に基づいて、出力するコンテンツを決定する(ステップS16)。図1の例では、スマートスピーカ100は、コンテンツ情報記憶部123に記憶されたコンテンツから、出力するコンテンツを決定する。
図1に示すコンテンツ情報記憶部123中の「サービス」は、コンテンツを提供する各種サービスを示す。図1に示すコンテンツ情報記憶部123中の「コンテンツID」は、コンテンツを識別するための識別情報を示す。図1に示すコンテンツ情報記憶部123中の「コンテンツ」は、各種サービスにおいて提供されるコンテンツを示す。図1に示すコンテンツ情報記憶部123中の「内容」は、コンテンツの内容を示す。図1に示すコンテンツ情報記憶部123中の「音声情報」は、コンテンツが音声出力される場合に出力される音声を示す。
図1の例では、コンテンツID「CT11」により識別されるコンテンツ(コンテンツCT11)は、「AAコンテンツ」であることを示す。また、コンテンツCT11は、記事配信サービスにおいて提供されるコンテンツであることを示す。また、コンテンツCT11は、カテゴリがスポーツであり、サッカーに関する内容であることを示す。また、コンテンツCT11の音声情報は、音声情報AD11であることを示す。
また、図1の例では、コンテンツID「CT21」により識別されるコンテンツ(コンテンツCT21)は、「BAコンテンツ」であることを示す。また、コンテンツCT21は、天気サービスにおいて提供されるコンテンツであることを示す。また、コンテンツCT21は、X月Y日におけるAエリアにおける天気に関する内容であることを示す。また、コンテンツCT21の音声情報は、音声情報AD21であることを示す。
図1の例では、スマートスピーカ100は、コンテンツ情報記憶部123に記憶されたコンテンツのうち、コンテキスト情報のトピックに対応するコンテンツを音声出力すると決定する。具体的には、スマートスピーカ100は、コンテンツ情報記憶部123に記憶されたコンテンツのうち、トピック「X月Y日のAエリアの天気」に対応するコンテンツCT21を音声出力すると決定する。そして、スマートスピーカ100は、図1中の空間SP1−2に示すように、「X月Y日のAエリアの天気は…」という内容の音声情報AD21を音声出力する。
上述したように、スマートスピーカ100は、検知したセンサ情報に基づいて推定したコンテキストに応じて、音声出力のタイミングを決定することにより、音声出力のタイミングを適切に決定することができる。また、スマートスピーカ100は、検知したセンサ情報に基づいて推定したコンテキストに応じて、音声出力する出力情報(コンテンツ)を決定することにより、音声出力の内容を適切に決定することができる。
〔1−1.システム構成〕
図1の例では、スマートスピーカ100が決定処理を行う、すなわちスマートスピーカ100が決定装置である場合を示したが、決定システム1における決定装置はいずれの装置であってもよい。決定システム1におけるセンサを有する装置やスピーカを有する装置が異なってもよい。また、例えば、決定システム1における決定装置は、サーバ装置50や携帯端末10等であってもよい。
〔1−1−1.サーバ装置=決定装置〕
例えば、決定システム1におけるサーバ装置50が決定装置である場合、サーバ装置50は、スマートスピーカ100が検知したセンサ情報を取得し、決定処理を行ってもよい。この場合、サーバ装置50は、図1中のスマートスピーカ100と同様に、コンテキストを推定する機能やコンテンツを音声出力するタイミングを決定する機能を有してもよい。例えば、サーバ装置50は、スマートスピーカ100から取得したセンサ情報を用いて推定されるコンテキストに基づいて、スピーカに音声出力させるタイミングを決定してもよい。
また、サーバ装置50は、スピーカに音声出力させると決定したタイミングで、スマートスピーカ100にコンテンツを提供することにより、スマートスピーカ100にコンテンツを音声出力させてもよい。また、サーバ装置50は、スピーカに音声出力させると決定したタイミングで、携帯端末10にコンテンツを提供することにより、スマートスピーカ100にコンテンツを音声出力させてもよい。
〔1−1−2.携帯端末=決定装置〕
例えば、決定システム1における携帯端末10が決定装置である場合、携帯端末10は、スマートスピーカ100が検知したセンサ情報を取得し、決定処理を行ってもよい。この場合、携帯端末10は、図1中のスマートスピーカ100と同様に、コンテキストを推定する機能やコンテンツを音声出力するタイミングを決定する機能を有してもよい。例えば、携帯端末10は、スマートスピーカ100から取得したセンサ情報を用いて推定されるコンテキストに基づいて、スピーカに音声出力させるタイミングを決定してもよい。また、携帯端末10は、スピーカに音声出力させると決定したタイミングで、スマートスピーカ100にコンテンツを音声出力してもよい。
また、携帯端末10は、スピーカに音声出力させると決定したタイミングで、スマートスピーカ100にコンテンツを提供することにより、スマートスピーカ100にコンテンツを音声出力させてもよい。また、例えば、携帯端末10は、スマートスピーカ100としての機能を有してもよい。例えば、携帯端末10は、スマートスピーカ100と一体であってもよい。
このように、決定システム1における決定装置は、スマートスピーカ100やサーバ装置50や携帯端末10等、決定システム1に含まれる装置であればいずれの装置であってもよい。
〔1−2.出力タイミング〕
図1の例では、スマートスピーカ100がユーザの発話が中断したタイミングでコンテンツを音声出力すると決定する場合を一例として説明したが、コンテンツを音声出力するタイミングは、種々のタイミングであってもよい。例えば、スマートスピーカ100は、音声出力するのに適した他のタイミングでコンテンツを音声出力すると決定してもよい。
〔1−2−1.他のタイミング例〕
例えば、スマートスピーカ100は、音声出力するのに適した他のタイミングでコンテンツを音声出力すると決定してもよい。例えば、スマートスピーカ100は、テレビやラジオの音量が所定の閾値以下になったタイミングでコンテンツを音声出力すると決定してもよい。例えば、スマートスピーカ100は、テレビやラジオ等の電源がOFFになったタイミングでコンテンツを音声出力すると決定してもよい。
例えば、スマートスピーカ100は、音センサにより検知される音声情報を用いることにより、テレビやラジオの音量が所定の閾値以下になったタイミングでコンテンツを音声出力すると決定してもよい。例えば、スマートスピーカ100は、画像センサにより検知される画像情報を用いることにより、テレビやラジオの電源がOFFになったタイミングでコンテンツを音声出力すると決定してもよい。
〔1−2−2.出力に適しないタイミング例〕
また、例えば、スマートスピーカ100は、ユーザが所定の状況にあると推定される場合、コンテンツを音声出力しないと決定してもよい。例えば、スマートスピーカ100は、画像センサにより検知される画像情報を用いることにより、ユーザが所定の状況にあると推定される場合、コンテンツを音声出力しないと決定してもよい。
例えば、スマートスピーカ100は、画像センサにより検知される画像情報を用いることにより、ユーザが読書中であると推定される場合、コンテンツを音声出力しないと決定してもよい。また、例えば、スマートスピーカ100は、画像センサにより検知される画像情報を用いることにより、ユーザが睡眠中であると推定される場合、コンテンツを音声出力しないと決定してもよい。
〔1−2−3.音声情報の途切れ〕
なお、図1の例では、センサ情報によりコンテキストを推定し、推定したコンテキストに応じて、音声出力を行うかを決定する場合を示したが、スマートスピーカ100は、所定の条件を満たす場合、スピーカに音声出力させると決定してもよい。
例えば、スマートスピーカ100は、音声情報が途切れたタイミングで、スピーカに音声出力させると決定してもよい。例えば、スマートスピーカ100は、音センサにより検知がなくなったタイミングで、スピーカに音声出力させると決定してもよい。例えば、スマートスピーカ100は、音センサにより検知される音声にユーザの発話が含まれなくなったタイミングで、スピーカに音声出力させると決定してもよい。この場合、例えば、スマートスピーカ100は、コンテキストの推定をすることなく、音声が途切れたタイミングでコンテンツを音声出力すると決定してもよい。例えば、スマートスピーカ100は、センサが検知したセンサ情報を用いて、コンテンツを音声出力すると決定してもよい。
〔1−3.モデルを用いた決定〕
図1の例では、スマートスピーカ100がユーザの発話が中断したタイミングでコンテンツを音声出力すると決定する場合を一例として説明したが、スマートスピーカ100は、過去に音声出力を行った状況との類似性に基づいて、スピーカに音声出力させるタイミングを決定してもよい。例えば、スマートスピーカ100は、センサ情報が入力とし、音声の出力タイミングの決定に用いられるモデルにより、スピーカに音声出力させるタイミングを決定してもよい。例えば、スマートスピーカ100は、センサ情報を用いてモデル(決定モデル)を生成し、生成した決定モデルを用いて、出力タイミングを決定してもよい。例えば、スマートスピーカ100は、機械学習等の手法により生成した決定モデルを用いて、音声を出力するタイミングを決定してもよい。
例えば、スマートスピーカ100は、入力された状況を学習して、その状況に近い(類似する)状況になった場合に音声出力してもよい。例えば、スマートスピーカ100は、音声出力を行った際のセンサ情報を正解情報(正解データ)として学習を行ない、その正解情報に近いセンサ情報が入力された場合に、音声出力してもよい。例えば、スマートスピーカ100は、検知されたセンサ情報を入力として、入力されたセンサ情報に基づく状況を学習して、その状況に近い状況になった場合に、音声出力をすると決定してもよい。このように、スマートスピーカ100は、過去に音声出力を行った状況(センサ情報)により、音声出力に適した学習して、その状況と類似する状況になった場合に音声出力してもよい。例えば、スマートスピーカ100は、センサ情報が入力された場合、そのセンサ情報が過去の音声出力された際のセンサ情報との類似性が高い場合、音声出力をすると決定してもよい。
例えば、スマートスピーカ100は、音声出力を行った際のユーザが音声情報に対応する行動を行った場合のセンサ情報を正解情報として学習を行ない、その正解情報に近いセンサ情報が入力された場合に、音声出力してもよい。例えば、スマートスピーカ100は、「今日の天気は?」とユーザに聞かれる直前(数秒前)の状況を正解データとして学習してもよい。例えば、スマートスピーカ100は、「今日の天気は?」とユーザが発話する前のセンサ情報を正解データとして学習してもよい。例えば、スマートスピーカ100は、「今日の天気は?」とユーザが発話する前のセンサ情報を正解データとして学習し、その正解データに近いセンサ情報が入力された場合に、音声出力を行うことを示唆するスコアを出力するモデルしてもよい。これにより、スマートスピーカ100は、天気を聞かれそうな状況になった場合に、ユーザからの質問を待つことなく適切なタイミングで天気に関する情報を音声出力することができる。
また、例えば、スマートスピーカ100は、「音楽かけて」とユーザに言われる直前(数秒前)の状況を正解データとして学習してもよい。例えば、スマートスピーカ100は、「音楽かけて」とユーザが発話する前のセンサ情報を正解データとして学習してもよい。例えば、スマートスピーカ100は、「音楽かけて」とユーザが発話する直前の炊事に関する音等のセンサ情報を正解データとして学習してもよい。例えば、スマートスピーカ100は、「音楽かけて」とユーザが発話する前のセンサ情報を正解データとして学習し、その正解データに近いセンサ情報が入力された場合に、音声出力を行うことを示唆するスコアを出力するモデルしてもよい。これにより、スマートスピーカ100は、ユーザが音楽をかけることを希望する状況になった場合に、ユーザからの要求を待つことなく適切なタイミングで音楽を再生(出力)することができる。この場合、例えば、スマートスピーカ100は、「音楽かけて」とユーザが発話する直前の状況は炊事の音がセンサ情報に含まれること等を学習することにより、炊事の音を取得したタイミングで音楽を出力することができる。
なお、上記は一例であり、スマートスピーカ100は、種々の情報を適宜用いて音声出力を行うタイミングを決定するモデルを生成してもよい。また、モデルの学習手法については、上述した手法に限定されるものではなく、任意の公知技術が適用可能である。なお、各モデルの生成は、機械学習に関する種々の従来技術を適宜用いて行われてもよい。例えば、モデルの生成は、SVM(Support Vector Machine)等の教師あり学習の機械学習に関する技術を用いて行われてもよい。また、例えば、モデルの生成は、教師なし学習の機械学習に関する技術を用いて行われてもよい。例えば、モデルの生成は、深層学習(ディープラーニング)の技術を用いて行われてもよい。例えば、モデルの生成は、RNN(Recurrent Neural Network)やCNN(Convolutional Neural Network)等の種々のディープラーニングの技術を適宜用いて行われてもよい。なお、上記モデルの生成に関する記載は例示であり、モデルの生成は、取得可能な情報等に応じて適宜選択された学習手法により行われてもよい。
〔2.スマートスピーカの構成〕
次に、図3を用いて、実施形態に係るスマートスピーカ100の構成について説明する。図3は、実施形態に係るスマートスピーカ100の構成例を示す図である。図3に示すように、スマートスピーカ100は、通信部110と、センサ部111と、音声出力部112と、記憶部120と、制御部130とを有する。なお、スマートスピーカ100は、スマートスピーカ100の管理者(ユーザ)等から各種操作を取得する入力部(例えば、キーボードやマウス等)や、各種情報を表示するための表示部(例えば、液晶ディスプレイ等)を有してもよい。
(通信部110)
通信部110は、例えば、NIC(Network Interface Card)等によって実現される。そして、通信部110は、ネットワークN(図2参照)と有線または無線で接続され、サーバ装置50や携帯端末10との間で情報の送受信を行う。また、通信部110は、電子商取引サービスを提供する情報処理装置や音声認識サーバとの間で情報の送受信を行ってもよい。
(センサ部111)
センサ部111は、種々の情報を検知する。例えば、センサ部111は、マイク等の音センサを有する。例えば、センサ部111は、音センサにより周囲の音を集音(検知)する。例えば、センサ部111は、音センサによりユーザの発話等の種々の音声情報を検知する。
また、例えば、センサ部111は、カメラ等の画像センサを有してもよい。例えば、センサ部111は、画像センサにより周囲の画像を撮像(検知)する。なお、例えば、センサ部111は、上記に限らず種々のセンサを有してもよい。例えば、センサ部111は、GPS(Global Positioning System)センサ等の位置センサを有してもよい。なお、センサ部111は、複数のセンサ情報を検知可能であってもよい。センサ部111は、照度センサ、温度センサ、湿度センサ、心拍(脈拍)センサ、加速度センサ、発汗センサ、呼気(ガス)センサ等の種々のセンサが含まれてもよい。
(音声出力部112)
音声出力部112は、各種情報を音声として出力するための出力装置である。例えば、音声出力部112は、スピーカ等によって実現される。例えば、音声出力部112は、出力部134からの指示に応じて、種々の情報を音声として出力する。
(記憶部120)
記憶部120は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。実施形態に係る記憶部120は、図3に示すように、ユーザ情報記憶部121や推定情報記憶部122やコンテンツ情報記憶部123を有する。また、記憶部120は、図示を省略するが、スピーカに音声出力させるタイミングを決定するための条件に関する情報を記憶してもよい。
(ユーザ情報記憶部121)
実施形態に係るユーザ情報記憶部121は、ユーザに関する各種情報を記憶する。例えば、ユーザ情報記憶部121は、ユーザ属性に関する各種情報を記憶する。図4は、実施形態に係るユーザ情報記憶部の一例を示す図である。図4に示すユーザ情報記憶部121は、「ユーザID」、「属性情報」、「識別情報」といった項目が含まれる。
「ユーザID」は、ユーザを識別するための識別情報を示す。例えば、ユーザID「U11」により識別されるユーザは、図1の例に示したユーザU11に対応する。
また、「属性情報」には、ユーザの属性に関する各種情報が記憶される。例えば、「属性情報」には、「年齢」、「性別」、「興味」といった項目が含まれる。なお、図4に示す属性情報は一例であり、「属性情報」には、ユーザの属性に関する情報であれば、どのような情報が記憶されてもよい。
「年齢」は、ユーザIDにより識別されるユーザの年齢を示す。なお、「年齢」は、例えば35歳など、ユーザIDにより識別されるユーザの具体的な年齢であってもよい。また、「性別」は、ユーザIDにより識別されるユーザの性別を示す。また、「興味」は、ユーザIDにより識別されるユーザの興味を示す。すなわち、「興味」は、ユーザIDにより識別されるユーザが関心の高い対象を示す。なお、図4に示す例では、「興味」は、各ユーザに1つずつ図示するが、複数であってもよい。
また、「識別情報」には、ユーザを識別するために用いられる各種情報(センサ情報)が記憶される。例えば、「識別情報」には、「音声」、「画像」といった項目が含まれる。なお、図4に示す識別情報は一例であり、「識別情報」には、ユーザの識別に用いられる情報(センサ情報)であれば、どのような情報が記憶されてもよい。
「音声」は、ユーザの識別に用いられる音声情報を示す。図4の例では、各ユーザの音声情報を概念的に記号「VP11」〜「VP13」等で示すが、「音声」としては、これらの格納場所を示すファイルパス名などが格納されてもよい。「音声」は、ユーザの音声の特徴を示す特徴情報であってもよい。例えば、音声VP11〜音声VP13は、ユーザの発話から抽出された音声的な特徴を示す情報(音声特徴情報)であってもよい。例えば、音声VP11〜音声VP13は、各発話から音声の特徴抽出に関する種々の従来技術を適宜用いて抽出された音声特徴情報であってもよい。
「画像」は、ユーザの識別に用いられる画像情報を示す。例えば、「画像」は、ユーザの顔を含む画像であってもよい。図4の例では、各ユーザの画像情報を概念的に記号「IM11」〜「IM13」等で示すが、「画像」としては、これらの格納場所を示すファイルパス名などが格納されてもよい。「画像」は、ユーザの顔等の身体的な特徴を示す特徴情報であってもよい。例えば、画像IM11〜画像IM13は、ユーザの画像から抽出された身体的な特徴を示す情報(画像特徴情報)であってもよい。例えば、画像IM11〜画像IM13は、画像の特徴抽出に関する種々の従来技術を適宜用いて抽出された画像特徴情報であってもよい。
例えば、図4に示す例では、ユーザID「U11」により識別されるユーザ(ユーザU11)の年齢は、「30代」であり、性別は、「男性」であることを示す。また、例えば、ユーザU11は、「スポーツ」に興味があることを示す。
また、例えば、図4に示す例では、ユーザU11の音声は「音声VP11」であることを示す。また、例えば、図4に示す例では、ユーザU11の画像は「画像IM11」であることを示す。
なお、ユーザ情報記憶部121は、上記に限らず、目的に応じて種々の情報を記憶してもよい。例えば、ユーザ情報記憶部121は、ユーザの属性情報を記憶してもよい。例えば、ユーザ情報記憶部121は、図4に示す例以外のユーザのデモグラフィック属性に関する情報やサイコグラフィック属性に関する情報を記憶してもよい。例えば、ユーザ情報記憶部121は、自宅、勤務地、氏名、家族構成、収入等の情報を記憶してもよい。
(推定情報記憶部122)
実施形態に係る推定情報記憶部122は、推定された各種情報を記憶する。例えば、推定情報記憶部122は、センサによる検知に関する各種情報を記憶する。図5に、実施形態に係る推定情報記憶部122の一例を示す。図5に示す推定情報記憶部122は、「推定ID」、「日時」、「コンテキスト情報」といった項目を有する。
「推定ID」は、推定に関する情報を識別するための識別情報を示す。「日時」は、対応する推定に関する情報が収集された日時を示す。図5における「日時」には、「DT2」等のように抽象的に図示するが、「2017年8月15日12時50分00秒」等の具体的な日時が記憶されてもよい。なお、「日時」は、一時点に限らず、所定の範囲の期間であってもよい。この場合、「2017年8月15日12時50分00秒−59秒」等の具体的な日時(期間)が記憶されてもよい。この場合、例えば、日時DT2は、2017年8月15日12時50分の1分間に対応してもよい。
また、「コンテキスト情報」には、センサ情報を用いて推定されるコンテキストに関する各種情報が記憶される。図5の例では、「コンテキスト情報」には、「コンテキスト」、「トピック」、「補足ユーザ」といった項目が含まれる。
「コンテキスト」は、対応する日時におけるコンテキストを示す。例えば、「コンテキスト」は、センサ情報に基づいて推定されたコンテキストを示す。
「トピック」は、対応する日時におけるトピック(話題)を示す。例えば、「トピック」は、センサ情報に基づいて推定されたトピックを示す。
「補足ユーザ」は、対応する日時における補足ユーザを示す。例えば、「補足ユーザ」は、センサ情報に基づいて、周囲に位置すると推定されたユーザを示す。
例えば、図5に示す例において、推定ID「SN1」により識別される推定は、日時DT1において行われたことを示す。また、日時DT1におけるコンテキスト情報は、コンテキストが発話中に対応する「コンテキストCN1」であることを示す。また、日時DT1におけるコンテキスト情報は、トピックがX月Y日のAエリアの天気であることを示す。また、日時DT1におけるコンテキスト情報は、補足ユーザがユーザU11、U12、U13の3人であることを示す。
例えば、図5に示す例において、推定ID「SN2」により識別される推定は、日時DT2において行われたことを示す。また、日時DT2におけるコンテキスト情報は、コンテキストが発話の中断に対応する「コンテキストCN2」であることを示す。また、日時DT2におけるコンテキスト情報は、トピックが日時DT1から変化が無いことを示す。すなわち、日時DT2におけるコンテキスト情報は、トピックがX月Y日のAエリアの天気であることを示す。また、日時DT2におけるコンテキスト情報は、補足ユーザが日時DT1から変化が無いことを示す。すなわち、日時DT2におけるコンテキスト情報は、補足ユーザがユーザU11、U12、U13の3人であることを示す。
なお、推定情報記憶部122は、上記に限らず、目的に応じて種々の情報を記憶してもよい。推定情報記憶部122は、コンテキスト情報の推定に用いたセンサ情報を推定IDに対応付けて記憶してもよい。
(コンテンツ情報記憶部123)
実施形態に係るコンテンツ情報記憶部123は、コンテンツに関する各種情報を記憶する。図6は、実施形態に係るコンテンツ情報記憶部の一例を示す図である。図6に示す例では、コンテンツ情報記憶部123には、記事配信や天気等の各種サービスにおけるコンテンツが記憶される。図6に示すコンテンツ情報記憶部123は、「サービス」、「コンテンツID」、「コンテンツ」、「内容」、「音声情報」といった項目を有する。
「サービス」は、コンテンツを提供する各種サービスを示す。「コンテンツID」は、コンテンツを識別するための識別情報を示す。「コンテンツ」は、各種サービスにおいて提供されるコンテンツを示す。図6では「コンテンツ」に「AAコンテンツ」といった概念的な情報が格納される例を示したが、実際には、文字情報や文字情報と画像や動画等の各種組合せ、または、これらの格納場所を示すファイルパス名などが格納される。
また、「内容」は、コンテンツの内容を示す。例えば、「内容」は、コンテンツのカテゴリや具体的な内容等を示す。また、「音声情報」は、コンテンツが音声出力される場合に出力される音声を示す。図6の例では、各コンテンツの音声情報を概念的に記号「AD11」等で示すが、「音声情報」としては、これらの格納場所を示すファイルパス名などが格納されてもよい。また、例えば「音声情報」は、音声変換前の情報、すなわち音声出力されるテキスト情報(文字情報)であってもよい。
図6の例では、コンテンツID「CT11」により識別されるコンテンツ(コンテンツCT11)は、「AAコンテンツ」であることを示す。また、コンテンツCT11は、記事配信サービスにおいて提供されるコンテンツであることを示す。また、コンテンツCT11は、カテゴリがスポーツであり、サッカーに関する内容であることを示す。また、コンテンツCT11の音声情報は、音声情報AD11であることを示す。
また、図6の例では、コンテンツID「CT21」により識別されるコンテンツ(コンテンツCT21)は、「BAコンテンツ」であることを示す。また、コンテンツCT21は、天気サービス(気象情報提供サービス)において提供されるコンテンツであることを示す。また、コンテンツCT21は、X月Y日におけるAエリアにおける天気に関する内容であることを示す。また、コンテンツCT21の音声情報は、音声情報AD21であることを示す。
なお、コンテンツ情報記憶部123は、上記に限らず、目的に応じて種々の情報を記憶してもよい。例えば、コンテンツ情報記憶部123は、コンテンツを取得した日時やコンテンツが作成された日時に関する情報を記憶してもよい。また、コンテンツ情報記憶部123は、コンテンツの提供元を識別するための識別情報を記憶してもよい。
(制御部130)
図3の説明に戻って、制御部130は、コントローラ(controller)であり、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、スマートスピーカ100内部の記憶装置に記憶されている各種プログラム(決定プログラムの一例に相当)がRAMを作業領域として実行されることにより実現される。また、制御部130は、コントローラ(controller)であり、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現される。
図3に示すように、制御部130は、取得部131と、推定部132と、決定部133と、出力部134とを有し、以下に説明する決定処理の機能や作用を実現または実行する。なお、制御部130の内部構成は、図3に示した構成に限られず、後述する決定処理を行う構成であれば他の構成であってもよい。
(取得部131)
取得部131は、各種情報を取得する。例えば、取得部131は、外部の情報処理装置から各種情報を取得する。例えば、取得部131は、ユーザ情報記憶部121や推定情報記憶部122やコンテンツ情報記憶部123から各種情報を取得する。
例えば、取得部131は、センサにより検知されたセンサ情報を取得する。例えば、取得部131は、所定の空間に配置されたセンサにより検知されたセンサ情報を取得する。例えば、取得部131は、マイクにより検知された音声情報を含むセンサ情報を取得する。
図1では、取得部131は、センサ部111により検知された「X月Y日どこ行きたい?」という発話PA11(音声情報)を取得する。例えば、取得部131は、センサ部111により検知された発話PA12(音声情報)を取得する。例えば、取得部131は、センサ部111により検知された発話PA13(音声情報)を取得する。例えば、取得部131は、センサ部111により検知された発話PA11〜PA13等の一連の発話、すなわち複数のユーザによる会話を取得する。
(推定部132)
推定部132は、種々の推定を行う。例えば、推定部132は、ユーザ情報記憶部121や推定情報記憶部122やコンテンツ情報記憶部123に記憶された各種情報を用いて種々の推定を行う。例えば、推定部132は、センサ情報を用いてコンテキスト情報を推定する。
図1では、推定部132は、検知した発話PA11〜PA13等の音声を用いてユーザを推定する。例えば、推定部132は、ユーザ情報記憶部121に記憶された情報を用いて、スマートスピーカ100により発話(音声)が検知されたユーザを推定する。例えば、推定部132は、発話PA11〜PA13と、ユーザ情報記憶部121中に記憶された音声とを用いてユーザを推定する。例えば、推定部132は、発話PA11〜PA13と、ユーザ情報記憶部121中の音声VP11〜音声VP13等とを比較することより、補足ユーザを推定する。
例えば、推定部132は、発話PA11を解析して抽出した発話PA11の特徴情報と、音声VP11〜音声VP13等と比較することにより、発話PA11を行ったユーザを推定する。例えば、推定部132は、声紋認証等に関する種々の従来技術を適宜用いて発話PA11がどの音声VP11〜音声VP13に対応するかを推定してもよい。例えば、推定部132は、発話PA11を行ったユーザが音声VP11に対応するユーザU11であると推定する。
例えば、推定部132は、発話PA12を行ったユーザが音声VP13に対応するユーザU13であると推定する。例えば、推定部132は、発話PA13を行ったユーザが音声VP12に対応するユーザU12であると推定する。このように、図1の例では、推定部132は、ユーザU11〜U13を補足ユーザと推定する。
図1の例では、推定部132は、検知した発話PA11〜PA13等の音声を用いてコンテキストを推定する。例えば、推定部132は、検知した発話PA11〜PA13等に基づいて、ユーザの状況や発話(会話)の内容等を推定する。例えば、推定部132は、日時DT1におけるコンテキストをユーザが発話中に対応するコンテキストCN1と推定する。
図1の例では、推定部132は、ユーザの発話の内容に基づいて会話のトピック(話題)に関する情報を推定する。例えば、推定部132は、発話PA11〜PA13等に基づいてトピックに関する情報を推定する。
図1の例では、推定部132は、ユーザの発話が中断された空間SP1−2において、コンテキストを推定する。例えば、推定部132は、検知したセンサ情報に基づいて、ユーザの状況や発話(会話)の内容等を推定する。例えば、推定部132は、ユーザの会話が中断しているため、日時DT2におけるコンテキストをユーザの発話の中断に対応するコンテキストCN2と推定する。例えば、推定部132は、推定情報記憶部122−2に示すように、ユーザの発話の中断に対応するコンテキストCN2を日時DT2におけるコンテキストとして格納する。
また、図1の例では、推定部132は、日時DT2におけるトピックが日時DT1から変化が無いと推定する。例えば、推定部132は、日時DT2におけるトピックが日時DT1から継続してX月Y日のAエリアの天気であると推定する。例えば、推定部132は、日時DT2における補足ユーザが日時DT1から変化が無いと推定する。例えば、推定部132は、日時DT2における補足ユーザが日時DT1から継続してユーザU11、U12、U13の3人であると推定する。
(決定部133)
決定部133は、種々の決定を行う。例えば、決定部133は、ユーザ情報記憶部121や推定情報記憶部122やコンテンツ情報記憶部123に記憶された各種情報を用いて種々の決定を行う。
例えば、決定部133は、取得部131により取得されたセンサ情報を用いて推定されるコンテキストに基づいて、スピーカに音声出力させるタイミングを決定する。例えば、決定部133は、コンテキストに基づいて、所定の空間に配置されたスピーカに音声出力させるタイミングを決定する。例えば、決定部133は、コンテキストが音声出力タイミングに関する条件を満たす場合、スピーカに音声出力させると決定する。
例えば、決定部133は、コンテキストが条件を満たしたタイミングで、スピーカに音声出力させると決定する。例えば、決定部133は、音声情報を用いて推定されるコンテキストに基づいて、スピーカに音声出力させるタイミングを決定する。
例えば、決定部133は、音声情報が途切れた場合、スピーカに音声出力させると決定する。例えば、決定部133は、音声情報によりユーザの発話が途切れたと推定される場合、スピーカに音声出力させると決定する。
例えば、決定部133は、音声情報が途切れたタイミングで、スピーカに音声出力させると決定する。例えば、決定部133は、音声情報によりユーザの発話が途切れたと推定されるタイミングで、スピーカに音声出力させると決定する。例えば、決定部133は、コンテキストに基づいて、スピーカに音声出力させる出力情報を決定する。決定部133は、過去に音声出力を行った状況との類似性に基づいて、スピーカに音声出力させるタイミングを決定する。例えば、決定部133は、センサ情報が入力とし、音声の出力タイミングの決定に用いられるモデルにより、スピーカに音声出力させるタイミングを決定する。
図1の例では、決定部133は、日時DT1におけるコンテキストがユーザの発話中に対応するコンテキストCN1であるため、音声出力するタイミングではないと決定する。例えば、決定部133は、推定したコンテキスト情報に基づいて、情報を出力すると決定する。例えば、決定部133は、推定部132によりユーザの発話が中断したと推定されたため、出力情報を音声として出力すると決定する。例えば、決定部133は、ユーザの発話が中断したと推定したため、コンテキストを音声として出力すると決定する。
図1の例では、決定部133は、推定部132により推定されたコンテキスト情報に基づいて、出力するコンテンツを決定する。例えば、決定部133は、コンテンツ情報記憶部123に記憶されたコンテンツから、出力するコンテンツを決定する。
図1の例では、決定部133は、コンテンツ情報記憶部123に記憶されたコンテンツのうち、コンテキスト情報のトピックに対応するコンテンツを音声出力すると決定する。例えば、決定部133は、コンテンツ情報記憶部123に記憶されたコンテンツのうち、トピック「X月Y日のAエリアの天気」に対応するコンテンツCT21を音声出力すると決定する。
(出力部134)
出力部134は、各種情報を出力する。例えば、出力部134は、各種情報を外部の情報処理装置へ送信することにより、各種情報を出力する。出力部134は、各種情報を外部装置へ出力(送信)してもよい。出力部134は、通信部110を介して各種情報を外部装置へ送信してもよい。
例えば、出力部134は、音声出力部112により所定の出力情報を音声出力する。例えば、出力部134は、音声出力部112に指示することにより、所定の出力情報を音声出力部112に音声出力させる。
図1の例では、出力部134は、図1中の空間SP1−2に示すように、「X月Y日のAエリアの天気は…」という内容の音声情報AD21を音声出力する。例えば、出力部134は、「X月Y日のAエリアの天気は…」という内容の音声情報AD21を音声出力部112に音声出力させる。
〔3.処理フロー〕
次に、図7を用いて、実施形態に係る決定システム1による決定処理の手順について説明する。図7は、実施形態に係る決定処理の一例を示すフローチャートである。
図7に示すように、スマートスピーカ100は、センサにより検知されたセンサ情報を取得する(ステップS101)。図1の例では、スマートスピーカ100は、発話PA11〜PA13等の一連の発話、すなわち複数のユーザによる会話を取得する。
そして、スマートスピーカ100は、センサ情報を用いて推定されるコンテキストに基づいて、スピーカに音声出力させるタイミングを決定する(ステップS102)。図1の例では、スマートスピーカ100は、ユーザの発話が中断したと推定したため、出力情報を音声として出力すると決定する。
〔4.音声出力の内容及び態様の決定〕
図1の例では、ユーザの発話から推定されるトピックに応じた内容のコンテンツを音声出力する場合を示したが、スマートスピーカ100は、種々の情報を音声出力してもよい。例えば、スマートスピーカ100は、発話を行うユーザの情報に応じて、音声出力するコンテンツを決定してもよい。また、スマートスピーカ100は、補足ユーザが複数いる場合、あるユーザの情報に応じて音声出力する場合、そのユーザが利用する携帯端末10に行わせてもよい。これらの点について、図8及び図9を用いて説明する。図8及び図9は、実施形態に係る決定処理の一例を示す図である。図8及び図9に示す例では、ユーザの会話(発話)からトピックが推定されない点において、図1と相違する。なお、図8及び図9において、図1と同様の点については、適宜説明を省略する。
〔4−1.ユーザの携帯端末による音声出力〕
まず、図8を用いて、コンテンツをユーザが利用する携帯端末10に音声出力させる場合を説明する。図8では、空間SP1−1において、ユーザU11〜U13等が発話を行う。例えば、ユーザU11が、スマートスピーカ100の周囲において、「XXX」という発話PA21を行う。そして、スマートスピーカ100は、音センサにより「XXX」という発話PA21(音声情報)を検知する。なお、発話PA21の「XXX」は、トピックの推定ができない発話であるものとする。
また、例えば、ユーザU13が、スマートスピーカ100の周囲において、「YYY」という発話PA22を行う。このように、図8の例では、ユーザU13が、ユーザU11の発話に対して「YYY」という発話PA22を行う。そして、スマートスピーカ100は、音センサにより発話PA22(音声情報)を検知する。なお、発話PA22の「YYY」は、トピックの推定ができない発話であるものとする。
また、例えば、ユーザU12が、スマートスピーカ100の周囲において、「ZZZ」という発話PA23を行う。このように、図8の例では、ユーザU12が、ユーザU13の発話に対して「ZZZ」という発話PA23を行う。そして、スマートスピーカ100は、音センサにより発話PA23(音声情報)を検知する。なお、発話PA23の「ZZZ」は、トピックの推定ができない発話であるものとする。図8の例では、ユーザU11〜U13は、発話PA21〜PA23のように、特に意味のない音声を発話したものとする。
そして、スマートスピーカ100は、検知した発話PA21〜PA23等の音声を用いてユーザを推定する(ステップS21)。例えば、スマートスピーカ100は、ユーザ情報記憶部121に記憶された情報を用いて、スマートスピーカ100により発話(音声)が検知されたユーザを推定する。
図8の例では、スマートスピーカ100は、発話PA21〜PA23と、ユーザ情報記憶部121中に記憶された音声とを用いてユーザを推定する。例えば、スマートスピーカ100は、発話PA21〜PA23と、ユーザ情報記憶部121中の音声VP11〜音声VP13等とを比較することより、補足ユーザを推定する。
例えば、スマートスピーカ100は、発話PA21を解析して抽出した発話PA21の特徴情報と、音声VP11〜音声VP13等と比較することにより、発話PA21を行ったユーザを推定する。例えば、スマートスピーカ100は、声紋認証等に関する種々の従来技術を適宜用いて発話PA21がどの音声VP11〜音声VP13に対応するかを推定してもよい。図8の例では、スマートスピーカ100は、発話PA21を行ったユーザが音声VP11に対応するユーザU11であると推定する。
また、スマートスピーカ100は、発話PA22を行ったユーザが音声VP13に対応するユーザU13であると推定する。また、スマートスピーカ100は、発話PA23を行ったユーザが音声VP12に対応するユーザU12であると推定する。このように、図8の例では、スマートスピーカ100は、ユーザU11〜U13を補足ユーザと推定する。なお、上記は一例であり、スマートスピーカ100は、種々の情報を適宜用いて、補足ユーザを推定してもよい。また、スマートスピーカ100は、各発話が行われる度にその発話のユーザを推定してもよい。
図8の例では、スマートスピーカ100は、推定情報記憶部122−1に示すように、ユーザU11〜U13を日時DT1における補足ユーザとして格納する。
また、スマートスピーカ100は、検知した発話PA21〜PA23等の音声を用いてコンテキストを推定する(ステップS22)。例えば、スマートスピーカ100は、検知した発話PA21〜PA23等に基づいて、ユーザの状況や発話(会話)の内容等を推定する。
図8の例では、補足ユーザであるユーザU11〜U13が日時DT1において発話PA21〜PA23を行っており、スマートスピーカ100は、日時DT1におけるコンテキストをユーザが発話中に対応するコンテキストCN1と推定する。図8の例では、スマートスピーカ100は、推定情報記憶部122−1に示すように、発話中に対応するコンテキストCN1を日時DT1におけるコンテキストとして格納する。
また、スマートスピーカ100は、ユーザの発話の内容に基づいて会話のトピック(話題)に関する情報を推定する。例えば、スマートスピーカ100は、発話PA21〜PA23等に基づいてトピックに関する情報を推定する。図8の例では、スマートスピーカ100は、発話PA21〜PA23からトピックを推定できなかったものとして、以下説明する。図8の例では、スマートスピーカ100は、推定情報記憶部122−1に示すように、トピック「無し」として格納する。
そして、発話PA21〜PA23が行われた日時DT1の後において、ユーザの発話が中断する(ステップS23)。図8の例では、日時DT1の後の所定期間(例えば30秒等)において、ユーザの発話が中断する。
また、スマートスピーカ100は、ユーザの発話が中断された空間SP1−2において、コンテキストを推定する(ステップS24)。例えば、スマートスピーカ100は、検知したセンサ情報に基づいて、ユーザの状況や発話(会話)の内容等を推定する。
図8の例では、ユーザの会話が中断しているため、スマートスピーカ100は、日時DT2におけるコンテキストをユーザの発話の中断に対応するコンテキストCN2と推定する。図8の例では、スマートスピーカ100は、推定情報記憶部122−2に示すように、ユーザの発話の中断に対応するコンテキストCN2を日時DT2におけるコンテキストとして格納する。
また、図8の例では、スマートスピーカ100は、日時DT2におけるトピックが日時DT1から変化が無いと推定する。例えば、スマートスピーカ100は、日時DT2におけるトピックが無いと推定する。また、スマートスピーカ100は、日時DT2における補足ユーザが日時DT1から変化が無いと推定する。例えば、スマートスピーカ100は、日時DT2における補足ユーザが日時DT1から継続してユーザU11、U12、U13の3人であると推定する。
そして、スマートスピーカ100は、推定したコンテキスト情報に基づいて、情報を出力すると決定する(ステップS25)。例えば、スマートスピーカ100は、ユーザの発話が中断したと推定したため、出力情報を音声として出力すると決定する。図8の例では、スマートスピーカ100は、ユーザの発話が中断したと推定したため、コンテキストを音声として出力すると決定する。
そこで、スマートスピーカ100は、推定したコンテキスト情報に基づいて、出力するコンテンツを決定する(ステップS26)。図8の例では、スマートスピーカ100は、コンテンツ情報記憶部123に記憶されたコンテンツから、出力するコンテンツを決定する。
図8の例では、コンテキスト情報のトピックが「無し」であるため、スマートスピーカ100は、コンテンツ情報記憶部123に記憶されたコンテンツのうち、ユーザの情報に対応するコンテンツを音声出力すると決定する。例えば、スマートスピーカ100は、コンテンツ情報記憶部123に記憶されたコンテンツのうち、ユーザU11の興味「スポーツ」に対応するコンテンツCT11を音声出力すると決定する。
また、図8の例では、スマートスピーカ100の周囲には、他のユーザU12、U13もいるため、スマートスピーカ100は、ユーザU11が利用する携帯端末10にコンテンツCT11を音声出力させると決定する。そして、スマートスピーカ100は、コンテンツCT11に対応する音声情報AD11をユーザU11が利用する携帯端末10に出力(送信)する。
そして、スマートスピーカ100から音声情報AD11を受信した携帯端末10は、図8中の空間SP1−2に示すように、「サッカーX国リーグの開幕戦でXXが…」という内容の音声情報AD11を音声出力する。なお、スマートスピーカ100は、他のユーザU12、U13についても各ユーザU12、U13の情報に応じたコンテンツを、ユーザU12、U13の各々が利用する携帯端末10に出力させてもよい。
上述したように、スマートスピーカ100は、検知したセンサ情報に基づいて推定したコンテキストに応じて、音声出力のタイミングを決定することにより、音声出力のタイミングを適切に決定することができる。また、スマートスピーカ100は、補足ユーザが複数存在し、音声出力するコンテンツが一のユーザに対応する場合、その一のユーザの携帯端末10に音声出力させることにより、他のユーザに不要な情報が提供されることを抑制し、ユーザの満足度を高めることができる。
〔4−2.スマートスピーカによる音声出力〕
次に、図9を用いて、一のユーザの情報に対応するコンテンツをスマートスピーカ100が音声出力する場合を説明する。
図9では、空間SP1−1において、ユーザU11が発話を行う。例えば、ユーザU11が、スマートスピーカ100の周囲において、「XXX」という発話PA31を行う。そして、スマートスピーカ100は、音センサにより「XXX」という発話PA31(音声情報)を検知する。なお、発話PA31の「XXX」は、トピックの推定ができない発話であるものとする。
そして、スマートスピーカ100は、検知した発話PA31等の音声を用いてユーザを推定する(ステップS31)。例えば、スマートスピーカ100は、ユーザ情報記憶部121に記憶された情報を用いて、スマートスピーカ100により発話(音声)が検知されたユーザを推定する。
図9の例では、スマートスピーカ100は、発話PA31と、ユーザ情報記憶部121中に記憶された音声とを用いてユーザを推定する。例えば、スマートスピーカ100は、発話PA31と、ユーザ情報記憶部121中の音声VP11〜音声VP13等とを比較することより、補足ユーザを推定する。
例えば、スマートスピーカ100は、発話PA31を解析して抽出した発話PA31の特徴情報と、音声VP11〜音声VP13等と比較することにより、発話PA31を行ったユーザを推定する。例えば、スマートスピーカ100は、声紋認証等に関する種々の従来技術を適宜用いて発話PA31がどの音声VP11〜音声VP13に対応するかを推定してもよい。図9の例では、スマートスピーカ100は、発話PA31を行ったユーザが音声VP11に対応するユーザU11であると推定する。
図9の例では、スマートスピーカ100は、推定情報記憶部122−1に示すように、ユーザU11を日時DT1における補足ユーザとして格納する。
また、スマートスピーカ100は、検知した発話PA31等の音声を用いてコンテキストを推定する(ステップS32)。例えば、スマートスピーカ100は、検知した発話PA31等に基づいて、ユーザの状況や発話(会話)の内容等を推定する。
図9の例では、補足ユーザであるユーザU11が日時DT1において発話PA31を行っており、スマートスピーカ100は、日時DT1におけるコンテキストをユーザが発話中に対応するコンテキストCN1と推定する。図9の例では、スマートスピーカ100は、推定情報記憶部122−1に示すように、発話中に対応するコンテキストCN1を日時DT1におけるコンテキストとして格納する。
また、スマートスピーカ100は、ユーザの発話の内容に基づいて会話のトピック(話題)に関する情報を推定する。例えば、スマートスピーカ100は、発話PA31等に基づいてトピックに関する情報を推定する。図9の例では、スマートスピーカ100は、発話PA31からトピックを推定できなかったものとして、以下説明する。図9の例では、スマートスピーカ100は、推定情報記憶部122−1に示すように、トピック「無し」として格納する。
そして、発話PA31が行われた日時DT1の後において、ユーザの発話が中断する(ステップS33)。図9の例では、日時DT1の後の所定期間(例えば30秒等)において、ユーザの発話が中断する。
また、スマートスピーカ100は、ユーザの発話が中断された空間SP1−2において、コンテキストを推定する(ステップS34)。例えば、スマートスピーカ100は、検知したセンサ情報に基づいて、ユーザの状況や発話(会話)の内容等を推定する。
図9の例では、ユーザの会話が中断しているため、スマートスピーカ100は、日時DT2におけるコンテキストをユーザの発話の中断に対応するコンテキストCN2と推定する。図9の例では、スマートスピーカ100は、推定情報記憶部122−2に示すように、ユーザの発話の中断に対応するコンテキストCN2を日時DT2におけるコンテキストとして格納する。
また、図9の例では、スマートスピーカ100は、日時DT2におけるトピックが日時DT1から変化が無いと推定する。例えば、スマートスピーカ100は、日時DT2におけるトピックが無いと推定する。また、スマートスピーカ100は、日時DT2における補足ユーザが日時DT1から変化が無いと推定する。例えば、スマートスピーカ100は、日時DT2における補足ユーザが日時DT1から継続してユーザU11の1人であると推定する。
そして、スマートスピーカ100は、推定したコンテキスト情報に基づいて、情報を出力すると決定する(ステップS35)。例えば、スマートスピーカ100は、ユーザの発話が中断したと推定したため、出力情報を音声として出力すると決定する。図9の例では、スマートスピーカ100は、ユーザの発話が中断したと推定したため、コンテキストを音声として出力すると決定する。
そこで、スマートスピーカ100は、推定したコンテキスト情報に基づいて、出力するコンテンツを決定する(ステップS36)。図9の例では、スマートスピーカ100は、コンテンツ情報記憶部123に記憶されたコンテンツから、出力するコンテンツを決定する。
図9の例では、コンテキスト情報のトピックが「無し」であるため、スマートスピーカ100は、コンテンツ情報記憶部123に記憶されたコンテンツのうち、ユーザの情報に対応するコンテンツを音声出力すると決定する。例えば、スマートスピーカ100は、コンテンツ情報記憶部123に記憶されたコンテンツのうち、ユーザU11の興味「スポーツ」に対応するコンテンツCT11を音声出力すると決定する。そして、スマートスピーカ100は、図9中の空間SP1−2に示すように、「サッカーX国リーグの開幕戦でXXが…」という内容の音声情報AD11を音声出力する。
上述したように、スマートスピーカ100は、検知したセンサ情報に基づいて推定したコンテキストに応じて、音声出力のタイミングを決定することにより、音声出力のタイミングを適切に決定することができる。また、スマートスピーカ100は、補足ユーザが1人である場合、音声出力するコンテンツが一のユーザに対応するコンテンツであっても、音声出力することにより、他のユーザが存在しない場合は、一のユーザに対応したコンテンツであっても音声出力することにより、ユーザの満足度を高めることができる。
〔5.効果〕
上述してきたように、実施形態に係るスマートスピーカ100は、取得部131と、決定部133とを有する。取得部131は、センサにより検知されたセンサ情報を取得する。決定部133は、取得部131により取得されたセンサ情報を用いて推定されるコンテキストに基づいて、スピーカに音声出力させるタイミングを決定する。
このように、実施形態に係るスマートスピーカ100は、センサ情報を用いて推定されるコンテキストに基づいて、スピーカに音声出力させるタイミングを決定することにより、音声出力のタイミングを適切に決定することができる。
また、実施形態に係るスマートスピーカ100において、取得部131は、所定の空間に配置されたセンサにより検知されたセンサ情報を取得する。決定部133は、コンテキストに基づいて、所定の空間に配置されたスピーカに音声出力させるタイミングを決定する。
このように、実施形態に係るスマートスピーカ100は、所定の空間に配置されたセンサにより検知されたセンサ情報を用いて、所定の空間に配置されたスピーカに音声出力させるタイミングを決定することにより、音声出力のタイミングを適切に決定することができる。
また、実施形態に係るスマートスピーカ100において、決定部133は、コンテキストが音声出力タイミングに関する条件を満たす場合、スピーカに音声出力させると決定する。
このように、実施形態に係るスマートスピーカ100は、コンテキストが音声出力タイミングに関する条件を満たす場合、スピーカに音声出力させると決定することにより、音声出力のタイミングを適切に決定することができる。
また、実施形態に係るスマートスピーカ100において、決定部133は、コンテキストが条件を満たしたタイミングで、スピーカに音声出力させると決定する。
このように、実施形態に係るスマートスピーカ100は、コンテキストが条件を満たしたタイミングで、スピーカに音声出力させると決定することにより、音声出力のタイミングを適切に決定することができる。
また、実施形態に係るスマートスピーカ100において、取得部131は、マイクにより検知された音声情報を含むセンサ情報を取得する。決定部133は、音声情報を用いて推定されるコンテキストに基づいて、スピーカに音声出力させるタイミングを決定する。
このように、実施形態に係るスマートスピーカ100は、マイクにより検知された音声情報を用いて推定されるコンテキストに基づいて、スピーカに音声出力させるタイミングを決定することにより、音声出力のタイミングを適切に決定することができる。
また、実施形態に係るスマートスピーカ100において、決定部133は、音声情報が途切れた場合、スピーカに音声出力させると決定する。
このように、実施形態に係るスマートスピーカ100は、音声情報が途切れた場合、スピーカに音声出力させると決定することにより、音声出力のタイミングを適切に決定することができる。
また、実施形態に係るスマートスピーカ100において、決定部133は、音声情報によりユーザの発話が途切れたと推定される場合、スピーカに音声出力させると決定する。
このように、実施形態に係るスマートスピーカ100は、音声情報によりユーザの発話が途切れたと推定される場合、スピーカに音声出力させると決定することにより、音声出力のタイミングを適切に決定することができる。
また、実施形態に係るスマートスピーカ100において、決定部133は、音声情報が途切れたタイミングで、スピーカに音声出力させると決定する。
このように、実施形態に係るスマートスピーカ100は、音声情報が途切れたタイミングで、スピーカに音声出力させると決定することにより、音声出力のタイミングを適切に決定することができる。
また、実施形態に係るスマートスピーカ100において、決定部133は、音声情報によりユーザの発話が途切れたと推定されるタイミングで、スピーカに音声出力させると決定する。
このように、実施形態に係るスマートスピーカ100は、音声情報によりユーザの発話が途切れたと推定されるタイミングで、スピーカに音声出力させると決定することにより、音声出力のタイミングを適切に決定することができる。
また、実施形態に係るスマートスピーカ100において、決定部133は、コンテキストに基づいて、スピーカに音声出力させる出力情報を決定する。
このように、実施形態に係るスマートスピーカ100は、コンテキストに基づいて、スピーカに音声出力させる出力情報を決定することにより、音声出力の内容を適切に決定することができる。
また、実施形態に係るスマートスピーカ100において、決定部133は、過去に音声出力を行った状況との類似性に基づいて、スピーカに音声出力させるタイミングを決定する。
このように、実施形態に係るスマートスピーカ100は、過去に音声出力を行った状況との類似性に基づいて、スピーカに音声出力させるタイミングを決定することにより、音声出力の内容を適切に決定することができる。
また、実施形態に係るスマートスピーカ100において、決定部133は、センサ情報が入力とし、音声の出力タイミングの決定に用いられるモデルにより、スピーカに音声出力させるタイミングを決定する。
このように、実施形態に係るスマートスピーカ100は、センサ情報が入力とし、音声の出力タイミングの決定に用いられるモデルにより、スピーカに音声出力させるタイミングを決定することにより、音声出力の内容を適切に決定することができる。
〔6.ハードウェア構成〕
上述してきた実施形態に係るスマートスピーカ100は、例えば図10に示すような構成のコンピュータ1000によって実現される。図10は、スマートスピーカの機能を実現するコンピュータの一例を示すハードウェア構成図である。コンピュータ1000は、CPU1100、RAM1200、ROM1300、HDD1400、通信インターフェイス(I/F)1500、入出力インターフェイス(I/F)1600、及びメディアインターフェイス(I/F)1700を有する。
CPU1100は、ROM1300またはHDD1400に格納されたプログラムに基づいて動作し、各部の制御を行う。ROM1300は、コンピュータ1000の起動時にCPU1100によって実行されるブートプログラムや、コンピュータ1000のハードウェアに依存するプログラム等を格納する。
HDD1400は、CPU1100によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を格納する。通信インターフェイス1500は、ネットワークNを介して他の機器からデータを受信してCPU1100へ送り、CPU1100が生成したデータをネットワークNを介して他の機器へ送信する。
CPU1100は、入出力インターフェイス1600を介して、ディスプレイやプリンタ等の出力装置、及び、キーボードやマウス等の入力装置を制御する。CPU1100は、入出力インターフェイス1600を介して、入力装置からデータを取得する。また、CPU1100は、生成したデータを入出力インターフェイス1600を介して出力装置へ出力する。
メディアインターフェイス1700は、記録媒体1800に格納されたプログラムまたはデータを読み取り、RAM1200を介してCPU1100に提供する。CPU1100は、かかるプログラムを、メディアインターフェイス1700を介して記録媒体1800からRAM1200上にロードし、ロードしたプログラムを実行する。記録媒体1800は、例えばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。
例えば、コンピュータ1000がスマートスピーカ100として機能する場合、コンピュータ1000のCPU1100は、RAM1200上にロードされたプログラムを実行することにより、制御部130の機能を実現する。コンピュータ1000のCPU1100は、これらのプログラムを記録媒体1800から読み取って実行するが、他の例として、他の装置からネットワークNを介してこれらのプログラムを取得してもよい。
以上、本願の実施形態及び変形例のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の行に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。
〔7.その他〕
また、上記実施形態及び変形例において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
また、上述してきた実施形態及び変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
また、上述してきた「部(section、module、unit)」は、「手段」や「回路」などに読み替えることができる。例えば、取得部は、取得手段や取得回路に読み替えることができる。