JP2022133293A

JP2022133293A - 情報処理システム、及び情報処理方法

Info

Publication number: JP2022133293A
Application number: JP2022093542A
Authority: JP
Inventors: 幸司粂谷; Koji Kumeya
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2018-03-20
Filing date: 2022-06-09
Publication date: 2022-09-13
Anticipated expiration: 2038-03-20
Also published as: JP7088703B2; JP7349533B2; JP2019164615A

Abstract

【課題】音声データを送信した処理ユニット以外の処理ユニットが処理の結果を受信できる情報処理システムを提供する。
【解決手段】処理ユニット２ａ～２ｃはそれぞれ、音声入力部２１１、音声データ生成部２１５、音声データ送信部２１３、及び処理結果データ受信部２１３を備える。音声入力部２１１は、特定のコマンドを示す第１音声と、複数の処理ユニット２ａ～２ｃのうちの少なくとも１つを特定する第２音声とを入力する。音声データ生成部２１５は音声データを生成し、音声データ送信部２１３は音声データをサーバ３に送信する。処理結果データ受信部２１３はサーバ３から処理結果データを受信する。処理結果データは、特定のコマンドに対応する処理の実行結果を示す。複数の処理ユニット２ａ～２ｃのうち、音声データを送信した処理ユニットと、音声データによって特定された処理ユニットとが処理結果データを受信する。
【選択図】図１

Description

本発明は、情報処理システム、及び情報処理方法に関する。

ユーザの発話に応じた検索結果をユーザに提供する情報提供システムが知られている（例えば、特許文献１参照）。特許文献１には、車載端末と、サーバと、検索エンジンとを備えた情報提供システムが開示されている。車載端末は、ユーザの発話を音声認識処理によって文字列に変換してサーバに送信する。サーバは、検索エンジンに対して、文字列に応じた検索を要求する。検索エンジンは検索結果をサーバに送信し、サーバは、検索エンジンから取得した検索結果を車載端末に送信する。

特開２０１７－１９４８５０号公報

しかしながら、特許文献１に開示された技術によれば、発話（音声）に対応する文字列をサーバに送信した端末のみが、検索結果（処理の結果）を受信する。したがって、発話（音声）に対応する文字列をサーバに送信した端末以外の端末は、検索結果（処理の結果）を受信することができない。

本発明は、上記課題に鑑み、音声データをサーバに送信した処理ユニットに加えて、音声データをサーバに送信した処理ユニット以外の処理ユニットも処理の結果を受信することができる情報処理システム、及び情報処理方法を提供することを目的とする。

本発明の情報処理システムは、複数の処理ユニットを備える。前記処理ユニットは、音声入力部と、音声データ生成部と、音声データ送信部と、少なくとも１つの処理結果データ受信部とを備える。前記音声入力部は、特定のコマンドを示す第１音声と、前記複数の処理ユニットのうちの少なくとも１つを特定する第２音声とを入力する。前記音声データ生成部は、前記第１音声に対応する第１音声データ及び前記第２音声に対応する第２音声データを生成する。前記音声データ送信部は、前記第１音声データ及び前記第２音声データをサーバに送信する。前記少なくとも１つの処理結果データ受信部は、前記サーバから処理結果データを受信する。前記処理結果データは、前記特定のコマンドに対応する処理の実行結果を示す。前記複数の処理ユニットのうち、前記第１音声データ及び前記第２音声データを送信した処理ユニットと、前記第２音声データによって特定された処理ユニットとが、前記処理結果データを受信する。

本発明の情報処理方法は、特定のコマンドを示す第１音声と、複数の処理ユニットのうちの少なくとも１つを特定する第２音声とを入力するステップと、前記第１音声に対応する第１音声データ及び前記第２音声に対応する第２音声データを生成するステップと、前記第１音声データ及び前記第２音声データをサーバに送信するステップと、前記複数の処理ユニットのうち、前記第１音声データ及び前記第２音声データを送信した処理ユニットと、前記第２音声データによって特定された処理ユニットとが、処理結果データを前記サーバから受信するステップとを含む。前記処理結果データは、前記特定のコマンドに対応する処理の実行結果を示す。

本発明によれば、音声データをサーバに送信した処理ユニットに加えて、音声データをサーバに送信した処理ユニット以外の処理ユニットも処理の結果を受信することができる。

本発明の実施形態１に係る情報処理システムの構成を示す図である。本発明の実施形態１に係る第１スマートスピーカの構成を示す図である。本発明の実施形態１に係るサーバの構成を示す図である。本発明の実施形態１に係る管理テーブルを示す図である。本発明の実施形態１に係る第１スマートスピーカの動作を示すフローチャートである。本発明の実施形態１に係るサーバの動作を示すフローチャートである。本発明の実施形態２に係る情報処理システムの構成を示す図である。本発明の実施形態２に係る第１スマートスピーカの構成を示す図である。本発明の実施形態２に係る第１サーバの構成を示す図である。（ａ）は本発明の実施形態２に係る第１管理テーブルを示す図である。（ｂ）は本発明の実施形態２に係る第２管理テーブルを示す図である。本発明の実施形態２に係る第１端末の構成を示す図である。本発明の実施形態２に係る第１サーバの動作を示すフローチャートである。本発明の実施形態２に係る第１端末の動作を示すフローチャートである。

以下、図面を参照して本発明の実施形態を説明する。ただし、本発明は以下の実施形態に限定されない。なお、説明が重複する箇所については、適宜説明を省略する場合がある。また、図中、同一又は相当部分については同一の参照符号を付して説明を繰り返さない。

［実施形態１］
図１は、実施形態１に係る情報処理システム１の構成を示す図である。図１に示すように、情報処理システム１は、第１処理ユニット２ａ～第３処理ユニット２ｃと、サーバ３とを備える。

本実施形態において、第１処理ユニット２ａは、第１スマートスピーカ２１ａを含む。第２処理ユニット２ｂは、第２スマートスピーカ２１ｂを含む。第３処理ユニット２ｃは、第３スマートスピーカ２１ｃを含む。第１スマートスピーカ２１ａ～第３スマートスピーカ２１ｃはそれぞれ音声入出力端末の一例である。

第１スマートスピーカ２１ａ～第３スマートスピーカ２１ｃはそれぞれ、例えばインターネット回線を介して、サーバ３との間で通信を行う。具体的には、第１スマートスピーカ２１ａ～第３スマートスピーカ２１ｃはそれぞれ、ユーザが発生した音声を入力し、入力した音声を音声データ（デジタルデータ）に変換してサーバ３へ送信する。

詳しくは、第１スマートスピーカ２１ａ～第３スマートスピーカ２１ｃはそれぞれ、起動コマンドを示すデータを記憶している。第１スマートスピーカ２１ａ～第３スマートスピーカ２１ｃは、ユーザが起動コマンドを示す音声を発声した場合、レディ状態となる。第１スマートスピーカ２１ａ～第３スマートスピーカ２１ｃは、レディ状態となってから所定の期間が経過する前にユーザが音声を発声すると、その音声を音声データに変換してサーバ３へ送信する。

サーバ３は、第１スマートスピーカ２１ａ～第３スマートスピーカ２１ｃのいずれか１つから音声データを受信すると、受信した音声データが特定のコマンドを示すか否かを判定する。音声データが特定のコマンドを示す場合、サーバ３は、特定のコマンドに対応する処理の実行結果を示す処理結果データを取得する。本実施形態において、処理結果データは音声データである。サーバ３は、音声データを送信したスマートスピーカに、処理結果データを送信する。なお、以下の説明において、音声データを送信したスマートスピーカを「音声送信スマートスピーカ」と記載する場合がある。

本実施形態において、サーバ３は、音声送信スマートスピーカ以外のスマートスピーカにも処理結果データ（音声データ）を送信する。具体的には、サーバ３は、受信した音声データに、第１スマートスピーカ２１ａ～第３スマートスピーカ２１ｃのうちの少なくとも１つを指定する指定キーワードが含まれる場合、音声送信スマートスピーカと、指定キーワードが指定するスマートスピーカとに、処理結果データ（音声データ）を送信する。なお、以下の説明において、指定キーワードが指定するスマートスピーカを「指定スマートスピーカ」と記載する場合がある。

続いて図１及び図２を参照して、第１スマートスピーカ２１ａの構成を説明する。図２は、実施形態１に係る第１スマートスピーカ２１ａの構成を示す図である。図２に示すように、第１スマートスピーカ２１ａは、音声入力部２１１と、音声出力部２１２と、通信部２１３と、記憶部２１４と、制御部２１５とを備える。

音声入力部２１１は、ユーザが発声した音声を集音して、アナログ電気信号に変換する。アナログ電気信号は、制御部２１５に入力される。音声入力部２１１は、例えば、マイクロフォンである。なお、以下の説明において、ユーザが発声した音声を「ユーザ音声」と記載する場合がある。

音声出力部２１２は、サーバ３から受信した音声データに対応する音声を出力する。音声出力部２１２は、例えば、スピーカである。

通信部２１３は、サーバ３との間の通信を制御する。通信部２１３は、例えば、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）ボード又は無線ＬＡＮボードを備える。具体的には、通信部２１３は、音声データをサーバ３に送信する。また、通信部２１３は、サーバ３から音声データを受信する。

本実施形態において、通信部２１３は、音声データ送信部の一例である。また、通信部２１３は、処理結果データ受信部の一例である。詳しくは、特定のコマンドを示す音声を音声入力部２１１が入力すると、通信部２１３は、特定のコマンドを示す音声データを送信する。更に、図１を参照して説明した指定キーワードを示す音声を音声入力部２１１が入力すると、通信部２１３は、指定キーワードを示す音声データを送信する。また、通信部２１３は、図１を参照して説明した処理結果データ（音声データ）を受信する。

記憶部２１４は、例えばＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）及びＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）のような半導体メモリーを備える。記憶部２１４は更に、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）のようなストレージデバイスを備えてもよい。記憶部２１４は、制御部２１５が実行する制御プログラムを記憶する。記憶部２１４は更に、図１を参照して説明した起動コマンドを示すデータを記憶する。

制御部２１５は、例えばＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＭＰＵ（ＭｉｃｒｏＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）、又はＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）のようなプロセッサを備える。制御部２１５は、記憶部２１４に記憶された制御プログラムに基づいて、第１スマートスピーカ２１ａの動作を制御する。

具体的には、制御部２１５は、音声入力部２１１から入力されたアナログ電気信号（ユーザ音声）をデジタル信号（音声データ）に変換して、通信部２１３にデジタル信号を送信させる。また、制御部２１５は、通信部２１３が受信したデジタル信号（音声データ）をアナログ電気信号に変換して、音声出力部２１２に音声を出力させる。

詳しくは、制御部２１５は、音声入力部２１１がユーザ音声を入力すると、記憶部２１４に記憶された起動コマンドを示すデータを参照して、ユーザ音声に対応する音声データが起動コマンドを示すか否かを判定する。制御部２１５は、ユーザ音声に対応する音声データが起動コマンドを示す場合、レディ状態となる。制御部２１５は、レディ状態となってから所定の期間が経過する前に音声入力部２１１がユーザ音声を入力すると、ユーザ音声に対応する音声データを記憶部２１４に保存する。なお、記憶部２１４は、所定の期間を示すデータを記憶している。所定の期間は、例えば８秒間である。

本実施形態において、制御部２１５は、所定の期間が経過するまでの間、音声入力部２１１がユーザ音声を入力する度に、ユーザ音声に対応する音声データを記憶部２１４に保存する。制御部２１５は、所定の期間が経過すると、記憶部２１４に音声データが保存されているか否かを判定する。制御部２１５は、記憶部２１４に音声データが保存されている場合、記憶部２１４に保存されている音声データを通信部２１３に送信させる。

以上、図１及び図２を参照して、第１スマートスピーカ２１ａの構成を説明した。なお、第２スマートスピーカ２１ｂ及び第３スマートスピーカ２１ｃの構成は、第１スマートスピーカ２１ａの構成と同様であるため、その説明は割愛する。

続いて図１及び図３を参照して、サーバ３の構成を説明する。図３は、実施形態１に係るサーバ３の構成を示す図である。図３に示すように、サーバ３は、通信部３１と、音声認識部３２と、記憶部３３と、制御部３４とを備える。

通信部３１は、第１スマートスピーカ２１ａ～第３スマートスピーカ２１ｃとの間の通信を制御する。通信部３１は、例えば、ＬＡＮボード又は無線ＬＡＮボードを備える。具体的には、通信部３１は、第１スマートスピーカ２１ａ～第３スマートスピーカ２１ｃから音声データを受信する。また、通信部３１は、第１スマートスピーカ２１ａ～第３スマートスピーカ２１ｃへ音声データを送信する。

本実施形態において、通信部３１は、音声データ受信部の一例である。また、通信部３１は、処理結果データ送信部の一例である。詳しくは、通信部３１は、特定のコマンドを示す音声データを受信する。更に、通信部３１は、図１を参照して説明した指定キーワードを示す音声データを受信する。また、通信部３１は、図１を参照して説明した処理結果データ（音声データ）を送信する。

音声認識部３２は、通信部３１が受信した音声データを音声認識技術によりテキスト情報（以下、「認識結果テキスト」と記載する場合がある。）に変換する。音声認識部３２は、例えば、音声認識ＬＳＩ（ＬａｒｇｅＳｃａｌｅＩｎｔｅｇｒａｔｉｏｎ）を備える。

記憶部３３は、例えばＲＡＭ及びＲＯＭのような半導体メモリーを備える。更に、記憶部３３は、ＨＤＤのようなストレージデバイスを備える。記憶部３３は、制御部３４が実行する制御プログラムを記憶する。記憶部３３は更に、管理テーブル３３１を記憶する。管理テーブル３３１には、図１を参照して説明した指定キーワードが登録される。

制御部３４は、例えばＣＰＵ又はＭＰＵのようなプロセッサを備える。また、制御部３４は、記憶部３３に記憶された制御プログラムに基づいて、サーバ３の動作を制御する。

具体的には、制御部３４は、記憶部３３に記憶されているキーワード群を参照して、認識結果テキストに特定のコマンドを示す文字列が含まれるか否かを判定する。あるいは、制御部３４は、意図推定処理により認識結果テキストを解析して、認識結果テキストに特定のコマンドを示す文字列が含まれるか否かを判定する。制御部３４が意図推定処理を実行する場合、記憶部３３は、コーパスを記憶する。制御部３４は、認識結果テキストに特定のコマンドを示す文字列が含まれる場合、特定のコマンドに対応する処理を実行して処理結果データを取得する。例えば、特定のコマンドは、検索キーワードと、検索処理の実行を促すキーワードとを示す。この場合、制御部３４は、検索キーワードに基づいて検索処理を実行し、検索結果を示すデータを取得する。

制御部３４は、通信部３１に処理結果データを送信させる。具体的には、制御部３４は、管理テーブル３３１を参照して、認識結果テキストに指定キーワードを示す文字列が含まれるか否かを判定する。認識結果テキストに指定キーワードを示す文字列が含まれていない場合、通信部３１は、音声送信スマートスピーカに処理結果データを送信する。一方、認識結果テキストに指定キーワードを示す文字列が含まれている場合、通信部３１は、音声送信スマートスピーカと指定スマートスピーカとに処理結果データを送信する。

なお、サーバ３は、他のサーバに、特定のコマンドに対応する処理の実行を要求してもよい。この場合、サーバ３は、他のサーバから処理結果データを取得（受信）する。

続いて図４を参照して、管理テーブル３３１を説明する。図４は、実施形態１に係る管理テーブル３３１を示す図である。図４に示すように、管理テーブル３３１は、スマートスピーカ登録欄４１と、指定キーワード登録欄４２とを有する。

スマートスピーカ登録欄４１には、サーバ３との間で通信が可能なスマートスピーカを識別するスマートスピーカ識別情報が登録される。本実施形態では、スマートスピーカ登録欄４１に、第１スマートスピーカ２１ａ～第３スマートスピーカ２１ｃを識別するスマートスピーカ識別情報が登録される。スマートスピーカ識別情報は、ユーザが任意に決定して登録する。

指定キーワード登録欄４２には、スマートスピーカ登録欄４１に登録されたスマートスピーカを特定するキーワード（指定キーワード）が登録される。指定キーワードは、ユーザが任意に決定して登録する。例えば、指定キーワードは、スマートスピーカが設置された場所の名称であり得る。図４に示す指定キーワード登録欄４２には、第１スマートスピーカ２１ａの指定キーワードとして「Ａ地点」が登録されている。同様に、第２スマートスピーカ２１ｂの指定キーワードとして「Ｂ地点」が登録されており、第３スマートスピーカ２１ｃの指定キーワードとして「Ｃ地点」が登録されている。管理テーブル３３１は、スマートスピーカ識別情報と指定キーワードとを関連付ける。

なお、第１スマートスピーカ２１ａ～第３スマートスピーカ２１ｃは、音声データをサーバ３に送信する際に、自機のスマートスピーカ識別情報を送信する。スマートスピーカ識別情報は、第１スマートスピーカ２１ａ～第３スマートスピーカ２１ｃの記憶部２１４（図２）に記憶されている。サーバ３は、音声データと共に受信したスマートスピーカ識別情報に基づいて、音声データを送信したスマートスピーカに処理結果データを送信する。

続いて図１、図２及び図５を参照して、第１スマートスピーカ２１ａの動作を説明する。図５は、実施形態１に係る第１スマートスピーカ２１ａの動作を示すフローチャートである。図５に示す動作は、第１スマートスピーカ２１ａの音声入力部２１１がユーザ音声を入力するとスタートする。

図５に示すように、音声入力部２１１がユーザ音声を入力すると、制御部２１５は、ユーザ音声に対応する音声データを生成する（ステップＳ１）。制御部２１５は、音声データを生成すると、記憶部２１４に記憶されている起動コマンドを示すデータを参照して、音声データが起動コマンドを示すか否かを判定する（ステップＳ２）。

制御部２１５は、音声データが起動コマンドを示すと判定すると（ステップＳ２のＹｅｓ）、所定の期間、レディ状態となる（ステップＳ３）。レディ状態において、制御部２１５は、音声入力部２１１がユーザ音声を入力すると、ユーザ音声に対応する音声データを記憶部２１４に保存する。制御部２１５は、所定の期間が経過すると、記憶部２１４に音声データが保存されているか否かを判定する（ステップＳ４）。

制御部２１５は、記憶部２１４に音声データが保存されていると判定すると（ステップＳ４のＹｅｓ）、記憶部２１４に保存された音声データと、記憶部２１４に記憶されているスマートスピーカ識別情報とをサーバ３に送信して（ステップＳ５）、図５に示す動作を終了する。

また、制御部２１５は、音声データが起動コマンドを示さないと判定した場合（ステップＳ２のＮｏ）、又は、記憶部２１４に音声データが保存されていないと判定した場合（ステップＳ４のＮｏ）、図５に示す動作を終了する。

以上、図１、図２及び図５を参照して第１スマートスピーカ２１ａの動作を説明した。なお、第２スマートスピーカ２１ｂ及び第３スマートスピーカ２１ｃは、第１スマートスピーカ２１ａと同様に、図５に示す動作を実行する。

続いて図１、図３、図４及び図６を参照して、サーバ３の動作を説明する。図６は、実施形態１に係るサーバ３の動作を示すフローチャートである。図６に示す動作は、サーバ３の通信部３１が音声データ及びスマートスピーカ識別情報を受信するとスタートする。

図６に示すように、通信部３１が音声データ及びスマートスピーカ識別情報を受信すると、音声認識部３２は、音声データをテキスト情報に変換して、認識結果テキストを生成する（ステップＳ１１）。この結果、制御部３４が、認識結果テキストを取得する。また、制御部３４は、通信部３１が音声データ及びスマートスピーカ識別情報を受信すると、処理結果データ（音声データ）の送信先として、通信部３１が受信したスマートスピーカ識別情報を記憶部３３に保存する。

制御部３４は、認識結果テキストを取得すると、認識結果テキストから特定のコマンドを認識できるか否かを判定する（ステップＳ１２）。換言すると、制御部３４は、認識結果テキストに特定のコマンドを示す文字列が含まれるか否かを判定する。例えば、制御部３４は、記憶部３３に記憶されているキーワード群を参照して、認識結果テキストに特定のコマンドを示す文字列が含まれるか否かを判定する。あるいは、制御部３４は、記憶部３３に記憶されているコーパスを用いた意図推定処理により、認識結果テキストに特定のコマンドを示す文字列が含まれるか否かを判定する。

制御部３４は、認識結果テキストから特定のコマンドを認識できると判定すると（ステップＳ１２のＹｅｓ）、認識した特定のコマンドを記憶部３３に保存する（ステップＳ１３）。

制御部３４は、認識した特定のコマンドを記憶部３３に保存すると、記憶部３３に記憶されている管理テーブル３３１を参照して、認識結果テキストから指定キーワードを認識できるか否かを判定する（ステップＳ１４）。換言すると、制御部３４は、認識結果テキストに指定キーワードを示す文字列が含まれるか否かを判定する。

制御部３４は、認識結果テキストから指定キーワードを認識できると判定すると（ステップＳ１４のＹｅｓ）、認識した指定キーワードに対応するスマートスピーカ識別情報を、処理結果データ（音声データ）の送信先として記憶部３３に保存する（ステップＳ１５）。

制御部３４は、スマートスピーカ識別情報を記憶部３３に保存すると、記憶部３３に保存した特定のコマンドに対応する処理結果データ（音声データ）を取得する（ステップＳ１６）。あるいは、制御部３４は、認識結果テキストから指定キーワードを認識できないと判定すると（ステップＳ１４のＮｏ）、記憶部３３に保存した特定のコマンドに対応する処理結果データ（音声データ）を取得する（ステップＳ１６）。具体的には、制御部３４は、特定のコマンドに対応する処理を実行して、処理結果データを取得する。あるいは、制御部３４は、他のサーバに、特定のコマンドに対応する処理の実行を要求して、他のサーバから処理結果データを取得する。

制御部３４は、処理結果データを取得すると、処理結果データの送信先として記憶部３３に保存したスマートスピーカ識別情報を参照して、通信部３１に処理結果データ（音声データ）を送信させ（ステップＳ１７）、図６に示す動作を終了する。詳しくは、認識結果テキストから指定キーワードを認識できた場合（ステップＳ１４のＹｅｓ）、サーバ３は、音声送信スマートスピーカと指定スマートスピーカとに処理結果データを送信する。一方、認識結果テキストから指定キーワードを認識できない場合（ステップＳ１４のＮｏ）、サーバ３は、音声送信スマートスピーカに処理結果データを送信する。

また、制御部３４は、認識結果テキストから特定のコマンドを認識できないと判定すると（ステップＳ１２のＮｏ）、エラーフラグをＯＮにする（ステップＳ１８）。制御部３４は、エラーフラグをＯＮにすると、エラーメッセージを示す音声データを通信部３１に送信させ（ステップＳ１７）、図６に示す動作を終了する。詳しくは、サーバ３は、音声送信スマートスピーカにエラーメッセージ（音声データ）を送信する。エラーメッセージは、コマンドを認識できない旨を示す。

以上、図１～図６を参照して、本発明の実施形態１について説明した。本実施形態によれば、音声データをサーバに送信したスマートスピーカ（処理ユニット）に加えて、音声データをサーバに送信したスマートスピーカ（処理ユニット）以外のスマートスピーカ（処理ユニット）も処理の結果を受信することができる。例えば、第１スマートスピーカ２１ａのユーザが起動コマンドを示す音声を発声した後、所定の期間内に、検索キーワードに基づく検索の実行を促す音声と、Ｂ地点を示す音声とを発声すると、検索キーワードに基づく検索結果を示す音声が、第１スマートスピーカ２１ａ及び第２スマートスピーカ２１ｂから出力される。

なお、本実施形態において、サーバ３の記憶部３３は、第１スマートスピーカ２１ａ～第３スマートスピーカ２１ｃのそれぞれの指定キーワードを記憶したが、第１スマートスピーカ２１ａ～第３スマートスピーカ２１ｃのそれぞれの指定キーワードに加えて、第１スマートスピーカ２１ａ～第３スマートスピーカ２１ｃの全てを指定する指定キーワードを更に記憶してもよい。例えば、第１スマートスピーカ２１ａ～第３スマートスピーカ２１ｃの全てを指定する指定キーワードは、「オール（ＡＬＬ）」であり得る。この場合、例えば、第１スマートスピーカ２１ａのユーザが起動コマンドを示す音声を発声した後、所定の期間内に、検索キーワードに基づく検索の実行を促す音声と、「オール」を示す音声とを発声すると、検索キーワードに基づく検索結果を示す音声が、第１スマートスピーカ２１ａ～第３スマートスピーカ２１ｃから出力される。

［実施形態２］
続いて図７～図１２を参照して本発明の実施形態２について説明する。但し、実施形態１と異なる事項を説明し、実施形態１と同じ事項についての説明は割愛する。実施形態２は、情報処理システム１がウエブ会議システムである点で実施形態１と異なる。

図７は、実施形態２に係る情報処理システム１の構成を示す図である。図７に示すように、情報処理システム１（ウエブ会議システム）は、第１処理ユニット２ａ～第３処理ユニット２ｃと、第１サーバ３と、第２サーバ４とを備える。なお、第１サーバ３は、実施形態１において説明したサーバ３に対応する。

本実施形態において、第１処理ユニット２ａは、第１スマートスピーカ２１ａと、第１端末２２ａと、第１表示装置２３ａとを含む。第２処理ユニット２ｂは、第２スマートスピーカ２１ｂと、第２端末２２ｂと、第２表示装置２３ｂとを含む。第３処理ユニット２ｃは、第３スマートスピーカ２１ｃと、第３端末２２ｃと、第３表示装置２３ｃとを含む。第１スマートスピーカ２１ａ～第３スマートスピーカ２１ｃはそれぞれ音声入出力端末の一例であり、第１端末２２ａ～第３端末２２ｃはそれぞれ情報処理端末の一例である。

また、本実施形態において、第１スマートスピーカ２１ａ及び第１表示装置２３ａは、第１端末２２ａの周辺装置であり、第２スマートスピーカ２１ｂ及び第２表示装置２３ｂは、第２端末２２ｂの周辺装置であり、第３スマートスピーカ２１ｃ及び第３表示装置２３ｃは、第３端末２２ｃの周辺装置である。

本実施形態において、第１サーバ３は、例えばインターネット回線を介して、第１スマートスピーカ２１ａ～第３スマートスピーカ２１ｃの各々との間で通信を行う。更に、第１サーバ３は、例えばインターネット回線を介して、第１端末２２ａ～第３端末２２ｃの各々との間で通信を行う。

第１サーバ３は、第１スマートスピーカ２１ａ～第３スマートスピーカ２１ｃから受信した音声データに基づいて処理結果データを取得する。本実施形態において、処理結果データは、音声データ又は端末用コマンドである。

第１サーバ３は、処理結果データが音声データである場合、音声送信スマートスピーカに処理結果データ（音声データ）を送信する。更に、実施形態１において説明したように、第１サーバ３は、音声送信スマートスピーカ以外のスマートスピーカにも処理結果データ（音声データ）を送信する。詳しくは、第１サーバ３は、受信した音声データに指定キーワードが含まれる場合、音声送信スマートスピーカと指定スマートスピーカとに処理結果データ（音声データ）を送信する。

第１サーバ３は、処理結果データが端末用コマンドである場合、音声送信スマートスピーカに接続している端末に処理結果データ（端末用コマンド）を送信する。以下、音声送信スマートスピーカに接続している端末を「接続端末」と記載する場合がある。

詳しくは、第１サーバ３は、第１スマートスピーカ２１ａ～第３スマートスピーカ２１ｃと第１端末２２ａ～第３端末２２ｃとの対応関係を記憶している。第１サーバ３は、第１端末２２ａ～第３端末２２ｃから定期的に要求信号を受信する。要求信号は、第１サーバ３に対し、処理結果データ（端末用コマンド）の送信を要求する。第１サーバ３は、処理結果データが端末用コマンドである場合、接続端末から要求信号を受信すると、接続端末へ処理結果データ（端末用コマンド）を送信する。

更に、第１サーバ３は、接続端末以外の端末にも処理結果データ（端末用コマンド）を送信する。詳しくは、第１サーバ３は、受信した音声データに指定キーワードが含まれる場合、接続端末と、指定スマートスピーカに接続している端末とに、処理結果データ（端末用コマンド）を送信する。なお、以下の説明において、指定スマートスピーカに接続している端末を「指定端末」と記載する場合がある。

第２サーバ４は、例えばインターネット回線を介して、第１端末２２ａ～第３端末２２ｃの各々との間で通信を行うことにより、第１端末２２ａ～第３端末２２ｃの間でウエブ会議を実行させる。具体的には、第２サーバ４は、第１端末２２ａから受信した音声データ及び撮像データを、第２端末２２ｂ及び第３端末２２ｃへ送信する。同様に、第２サーバ４は、第２端末２２ｂから受信した音声データ及び撮像データを、第１端末２２ａ及び第３端末２２ｃへ送信する。また、第２サーバ４は、第３端末２２ｃから受信した音声データ及び撮像データを、第１端末２２ａ及び第２端末２２ｂへ送信する。

続いて図７を参照して、第１処理ユニット２ａに含まれる第１スマートスピーカ２１ａ、第１端末２２ａ、及び第１表示装置２３ａの動作について説明する。

第１スマートスピーカ２１ａは、ユーザ音声に対応する音声データを第１端末２２ａへ送信する。また、第１スマートスピーカ２１ａは、第１端末２２ａから音声データを受信する。第１スマートスピーカ２１ａは、第１端末２２ａから受信した音声データに対応する音声を出力する。更に、第１スマートスピーカ２１ａは撮像部を備え、撮像データを第１端末２２ａへ送信する。

また、第１スマートスピーカ２１ａは、レディ状態においても、音声データ及び撮像データを第１端末２２ａへ送信し、第１端末２２ａから音声データを受信する。更に、実施形態１において説明したように、第１スマートスピーカ２１ａがレディ状態となってから所定の期間が経過するまでの間にユーザが音声を発声すると、第１スマートスピーカ２１ａは、ユーザ音声に対応する音声データを第１サーバ３へ送信する。

第１端末２２ａは、第１スマートスピーカ２１ａから受信した音声データ及び撮像データを第２サーバ４へ送信する。また、第１端末２２ａは、第２サーバ４から音声データ及び撮像データを受信する。第１端末２２ａは、第２サーバ４から受信した音声データを第１スマートスピーカ２１ａへ送信する。また、第１端末２２ａは、第２サーバ４から受信した撮像データを第１表示装置２３ａに出力する。第１表示装置２３ａは、第１端末２２ａから入力された撮像データに対応する映像を表示する。

更に、第１端末２２ａは、第１サーバ３へ要求信号を送信して、第１サーバ３に対し処理結果データ（端末用コマンド）の送信を要求する。第１端末２２ａは、第１サーバ３から端末用コマンドを受信すると、受信した端末用コマンドに対応する処理を実行する。

なお、第２処理ユニット２ｂに含まれる第２スマートスピーカ２１ｂ、第２端末２２ｂ、及び第２表示装置２３ｂの動作は、第１処理ユニット２ａに含まれる第１スマートスピーカ２１ａ、第１端末２２ａ、及び第１表示装置２３ａの動作と同様であるため、その説明は省略する。また、第３処理ユニット２ｃに含まれる第３スマートスピーカ２１ｃ、第３端末２２ｃ、及び第３表示装置２３ｃの動作は、第１処理ユニット２ａに含まれる第１スマートスピーカ２１ａ、第１端末２２ａ、及び第１表示装置２３ａの動作と同様であるため、その説明は省略する。

続いて図７及び図８を参照して、実施形態２に係る第１スマートスピーカ２１ａの構成を説明する。図８は、実施形態２に係る第１スマートスピーカ２１ａの構成を示す図である。

図８に示すように、第１スマートスピーカ２１ａは、音声入力部２１１、音声出力部２１２、第１通信部２１３、記憶部２１４、制御部２１５、撮像部２１６、及び第２通信部２１７を備える。なお、第１通信部２１３は、実施形態１において説明した通信部２１３に対応する。

本実施形態において、制御部２１５は音声データ生成部の一例である。また、第１通信部２１３は音声データ送信部の一例であるとともに、第１処理結果データ受信部の一例である。

撮像部２１６は、第１スマートスピーカ２１ａの周辺環境を撮像して画像信号（アナログ電気信号）を出力する。例えば、撮像部２１６は、ＣＣＤ（Ｃｈａｒｇｅ－ＣｏｕｐｌｅｄＤｅｖｉｃｅ）のような撮像素子を備える。

第２通信部２１７は、第１端末２２ａとの間の通信を制御する。第２通信部２１７は、例えば、Ｂｌｕｅｔｏｏｔｈ（登録商標）のような近距離無線通信規格に準じた無線通信モジュールを備える。あるいは、第２通信部２１７は、例えば、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）端子を備えるＵＳＢインターフェースであり得る。

第２通信部２１７は、音声入力部２１１が入力した音声に対応する音声データを第１端末２２ａへ送信する。また、第２通信部２１７は、撮像部２１６から出力された画像信号に対応する撮像データを第１端末２２ａへ送信する。更に、第２通信部２１７は、第１端末２２ａから音声データを受信する。

制御部２１５は、音声入力部２１１から入力されたアナログ電気信号（ユーザ音声）をデジタル信号（音声データ）に変換して、第２通信部２１７にデジタル信号を送信させる。また、制御部２１５は、撮像部２１６から入力された画像信号（アナログ電気信号）をデジタル信号（撮像データ）に変換して、第２通信部２１７にデジタル信号を送信させる。

更に、制御部２１５は、第２通信部２１７が受信したデジタル信号（音声データ）をアナログ電気信号に変換して、音声出力部２１２に音声を出力させる。また、実施形態１と同様に、制御部２１５は、第１通信部２１３が受信したデジタル信号（音声データ）をアナログ電気信号に変換して、音声出力部２１２に音声を出力させる。したがって、本実施形態において、音声出力部２１２は、第１通信部２１３が第１サーバ３から受信した音声データに対応する音声に加えて、第２通信部２１７が第１端末２２ａから受信した音声データに対応する音声を出力する。

更に、制御部２１５は、レディ状態となってから所定の期間が経過する前に音声入力部２１１がユーザ音声を入力すると、ユーザ音声に対応する音声データを第２通信部２１７に送信させる一方で、ユーザ音声に対応する音声データの複製物を記憶部２１４に保存する。制御部２１５は、所定の期間が経過すると、記憶部２１４に保存されている音声データ（複製物）を第１通信部２１３に送信させる。

以上、図７及び図８を参照して、第１スマートスピーカ２１ａの構成を説明した。なお、第２スマートスピーカ２１ｂ及び第３スマートスピーカ２１ｃの構成は、第１スマートスピーカ２１ａの構成と同様であるため、その説明は割愛する。

続いて図７及び図９を参照して、第１サーバ３の構成を説明する。図９は、実施形態２に係る第１サーバ３の構成を示す図である。図９に示すように、第１サーバ３は、通信部３１と、音声認識部３２と、記憶部３３と、制御部３４とを備える。

本実施形態において、記憶部３３は、第１管理テーブル３３１と、第２管理テーブル３３２とを記憶する。第１管理テーブル３３１は、実施形態１において説明した管理テーブル３３１に対応する。したがって、第１管理テーブル３３１には、指定キーワードが登録されている。第２管理テーブル３３２には、第１スマートスピーカ２１ａ～第３スマートスピーカ２１ｃと第１端末２２ａ～第３端末２２ｃとの対応関係が登録されている。

また、記憶部３３は、端末用記憶領域３３３を有する。本実施形態において、端末用記憶領域３３３は、第１記憶領域３３３ａと、第２記憶領域３３３ｂと、第３記憶領域３３３ｃとを含む。第１記憶領域３３３ａは、第１端末２２ａに送信する端末用コマンド（処理結果データ）を記憶する領域である。同様に、第２記憶領域３３３ｂは、第２端末２２ｂに送信する端末用コマンド（処理結果データ）を記憶する領域であり、第３記憶領域３３３ｃは、第３端末２２ｃに送信する端末用コマンド（処理結果データ）を記憶する領域である。

制御部３４は、通信部３１に処理結果データを送信させる。具体的には、制御部３４は、処理結果データが音声データであるか端末用コマンドであるかを判定する。制御部３４は、認識結果テキストに指定キーワードを示す文字列が含まれているか否かを示す判定結果と、処理結果データが音声データであるか端末用コマンドであるかを示す判定結果とに基づいて、処理結果データの送信先を決定する。

詳しくは、処理結果データが音声データであり、認識結果テキストに指定キーワードを示す文字列が含まれていない場合、通信部３１は、実施形態１と同様に、音声送信スマートスピーカに処理結果データを送信する。また、処理結果データが音声データであり、認識結果テキストに指定キーワードを示す文字列が含まれている場合、通信部３１は、実施形態１と同様に、音声送信スマートスピーカと指定スマートスピーカとに処理結果データを送信する。

一方、処理結果データが端末用コマンドあり、認識結果テキストに指定キーワードを示す文字列が含まれていない場合、制御部３４は、第１記憶領域３３３ａ～第３記憶領域３３３ｃのうち、接続端末に対応する記憶領域に端末用コマンドを記憶させる。通信部３１が接続端末から要求信号を受信すると、制御部３４が、接続端末に対応する記憶領域から端末用コマンドを読み出し、通信部３１が、記憶部３３から読み出された端末用コマンドを接続端末に送信する。

また、処理結果データが端末用コマンドあり、認識結果テキストに指定キーワードを示す文字列が含まれている場合、制御部３４は、第１記憶領域３３３ａ～第３記憶領域３３３ｃのうち、接続端末に対応する記憶領域と、指定端末に対応する記憶領域とに端末用コマンドを記憶させる。通信部３１が接続端末から要求信号を受信すると、制御部３４が、接続端末に対応する記憶領域から端末用コマンドを読み出し、通信部３１が、記憶部３３から読み出された端末用コマンドを接続端末に送信する。また、通信部３１が指定端末から要求信号を受信すると、制御部３４が、指定端末に対応する記憶領域から端末用コマンドを読み出し、通信部３１が、記憶部３３から読み出された端末用コマンドを指定端末に送信する。

続いて図１０（ａ）及び図１０（ｂ）を参照して、第１管理テーブル３３１及び第２管理テーブル３３２を説明する。図１０（ａ）は、実施形態２に係る第１管理テーブル３３１を示す図である。図１０（ｂ）は、実施形態２に係る第２管理テーブル３３２を示す図である。図１０（ａ）に示すように、第１管理テーブル３３１は、図４を参照して説明した管理テーブル３３１と同様に、スマートスピーカ登録欄４１と、指定キーワード登録欄４２とを有する。

図１０（ｂ）に示すように、第２管理テーブル３３２は、スマートスピーカ登録欄１０１と、端末登録欄１０２とを有する。スマートスピーカ登録欄１０１には、図１０（ａ）に示すスマートスピーカ登録欄４１と同様に、スマートスピーカ識別情報が登録される。端末登録欄１０２には、サーバ３との間で通信が可能な端末を識別する端末識別情報が登録される。第２管理テーブル３３２は、スマートスピーカ識別情報と端末識別情報とを関連付ける。

本実施形態では、端末登録欄１０２に、第１端末２２ａ～第３端末２２ｃを識別する端末識別情報が登録される。端末識別情報は、ユーザが任意に決定して登録する。例えば、ユーザは、スマートスピーカ識別情報を登録する際に、スマートスピーカ識別情報に関連付けて端末識別情報を登録し得る。

なお、第１端末２２ａ～第３端末２２ｃは、要求信号を第１サーバ３に送信する際に、自機の端末識別情報を送信する。第１端末２２ａ～第３端末２２ｃはそれぞれ、自機の端末識別情報を記憶している。第１サーバ３は、要求信号と共に受信した端末識別情報に基づいて、要求信号を送信した端末に処理結果データを送信する。

続いて図７及び図１１を参照して、第１端末２２ａの構成を説明する。図１１は、実施形態２に係る第１端末２２ａの構成を示す図である。図１１に示すように、第１端末２２ａは、第１通信部２２１、第２通信部２２２、出力部２２３、記憶部２２４、及び制御部２２５を備える。本実施形態において、第１端末２２ａは、ノート型ＰＣ（パーソナルコンピュータ）又はデスクトップ型ＰＣのような情報処理装置である。あるいは、第１端末２２ａは、タブレットＰＣ又はスマートフォンのような携帯型の情報処理装置である。

第１通信部２２１は、第１サーバ３との間の通信を制御する。また、第１通信部２２１は、第２サーバ４との間の通信を制御する。第１通信部２２１は、例えば、ＬＡＮボード又は無線ＬＡＮボードを備える。本実施形態において、第１通信部２２１は、第２処理結果データ受信部の一例である。また、第１通信部２２１は、要求信号送信部の一例である。

具体的には、第１通信部２２１は、要求信号と、図１０（ｂ）を参照して説明した端末識別情報とを第１サーバ３に送信する。また、第１通信部２２１は、第１サーバ３から処理結果データ（端末用コマンド）を受信する。

更に、第１通信部２２１は、音声データ及び撮像データを第２サーバ４に送信する。また、第１通信部２２１は、音声データ及び撮像データを第２サーバ４から受信する。

第２通信部２２２は、第１スマートスピーカ２１ａとの間の通信を制御する。第２通信部２２２は、例えば、Ｂｌｕｅｔｏｏｔｈ（登録商標）のような近距離無線通信規格に準じた無線通信モジュールを備える。あるいは、第２通信部２２２は、例えば、ＵＳＢ端子を備えるＵＳＢインターフェースであり得る。

第２通信部２２２は、第１スマートスピーカ２１ａから音声データを受信する。また、第２通信部２２２は、第１スマートスピーカ２１ａへ音声データを送信する。更に、第２通信部２２２は、第１スマートスピーカ２１ａから撮像データを受信する。

出力部２２３は、撮像データを第１表示装置２３ａに出力する。出力部２２３は、例えば、ＨＤＭＩ（登録商標）端子又はＤｉｓｐｌａｙｐｏｒｔのようなデジタル映像インターフェースである。なお、出力部２２３は、Ｄ－ＳＵＢ端子のようなアナログ映像インターフェースであってもよい。

記憶部２２４は、例えばＲＡＭ及びＲＯＭのような半導体メモリーを備える。更に、記憶部２２４は、ＨＤＤのようなストレージデバイスを備える。記憶部２２４は、制御部２２５が実行する制御プログラムを記憶する。また、記憶部２２４は、図１０（ｂ）を参照して説明した端末識別情報を記憶する。本実施形態において、記憶部２２４は更に、ウエブ会議用アプリケーションソフトウエアを記憶する。

制御部２２５は、例えばＣＰＵ又はＭＰＵのようなプロセッサを備える。また、制御部２２５は、記憶部２２４に記憶された制御プログラムに基づいて、第１端末２２ａの動作を制御する。

具体的には、制御部２２５は、定期的に要求信号を生成し、第１通信部２２１を介して要求信号と端末識別情報とを第１サーバ３に送信する。例えば、制御部２２５は、３０秒ごと、又は１分ごとに、第１通信部２２１を介して要求信号と接続端末識別情報とを送信する。また、制御部２２５は、第１通信部２２１を介して第１サーバ３から処理結果データ（端末用コマンド）を受信すると、端末用コマンドに対応する処理を実行する。

例えば、端末用コマンドは、ウエブ会議の終了を命令するコマンドであり得る。端末用コマンドがウエブ会議の終了を命令するコマンドである場合、制御部２２５は、ウエブ会議用アプリケーションソフトウエアの実行を停止する。あるいは、端末用コマンドは、印刷の実行を命令するコマンドであり得る。端末用コマンドが印刷の実行を命令するコマンドである場合、制御部２２５は、第１端末２２ａに接続されているプリンターに印刷を要求する。

続いて図７及び図１１を参照して、第１端末２２ａの制御部２２５がウエブ会議用アプリケーションソフトウエアに基づいて実行する処理について説明する。制御部２２５は、ウエブ会議用アプリケーションソフトウエアを実行することにより、第２処理ユニット２ｂの第２端末２２ｂと第３処理ユニット２ｃの第３端末２２ｃとの間でウエブ会議を実行する。

具体的には、制御部２２５は、第２通信部２２２を介して第１スマートスピーカ２１ａから受信した音声データ及び撮像データを、第１通信部２２１を介して第２サーバ４へ送信する。この結果、第２処理ユニット２ｂの第２スマートスピーカ２１ｂ、及び第３処理ユニット２ｃの第３スマートスピーカ２１ｃから、第１スマートスピーカ２１ａに入力された音声が出力される。また、第２処理ユニット２ｂの第２表示装置２３ｂ、及び第３処理ユニット２ｃの第３表示装置２３ｃが、第１スマートスピーカ２１ａによって撮像された映像を表示する。

また、制御部２２５は、第１通信部２２１を介して第２サーバ４から受信した音声データを、第２通信部２２２を介して第１スマートスピーカ２１ａに送信する。この結果、第１スマートスピーカ２１ａから、第２処理ユニット２ｂの第２スマートスピーカ２１ｂによって入力された音声が出力される。また、第１スマートスピーカ２１ａから、第３処理ユニット２ｃの第３スマートスピーカ２１ｃによって入力された音声が出力される。

また、制御部２２５は、第１通信部２２１を介して第２サーバ４から受信した撮像データを、出力部２２３を介して第１表示装置２３ａに出力する。この結果、第１表示装置２３ａが、第２処理ユニット２ｂの第２スマートスピーカ２１ｂによって撮像された映像、及び第３処理ユニット２ｃの第３スマートスピーカ２１ｃによって撮像された映像を表示する。

以上、図７及び図１１を参照して、第１端末２２ａの構成を説明した。なお、第２端末２２ｂ及び第３端末２２ｃの構成は第１端末２２ａの構成と同様であるため、その説明は省略する。

続いて図７、図９、図１０（ａ）、図１０（ｂ）及び図１２を参照して、第１サーバ３の動作を説明する。図１２は、実施形態２に係る第１サーバ３の動作を示すフローチャートである。図１２に示す動作は、第１サーバ３の通信部３１が音声データ及びスマートスピーカ識別情報を受信するとスタートする。

図１２に示すように、通信部３１が音声データ及びスマートスピーカ識別情報を受信すると、図６を参照して説明した動作と同様に、音声認識部３２が、音声データをテキスト情報に変換して、認識結果テキストを生成する（ステップＳ２１）。また、制御部３４は、通信部３１が音声データ及びスマートスピーカ識別情報を受信すると、処理結果データ（音声データ）の送信先として、通信部３１が受信したスマートスピーカ識別情報を記憶部３３に保存する。

制御部３４は、認識結果テキストを取得すると、図６を参照して説明した動作と同様に、認識結果テキストから特定のコマンドを認識できるか否かを判定する（ステップＳ２２）。

制御部３４は、認識結果テキストから特定のコマンドを認識できると判定すると（ステップＳ２２のＹｅｓ）、図６を参照して説明した動作と同様に、認識した特定のコマンドを記憶部３３に保存する（ステップＳ２３）。

制御部３４は、認識した特定のコマンドを記憶部３３に保存すると、図６を参照して説明した動作と同様に、記憶部３３に記憶されている第１管理テーブル３３１を参照して、認識結果テキストから指定キーワードを認識できるか否かを判定する（ステップＳ２４）。

制御部３４は、認識結果テキストから指定キーワードを認識できると判定すると（ステップＳ２４のＹｅｓ）、図６を参照して説明した動作と同様に、認識した指定キーワードに対応するスマートスピーカ識別情報を、処理結果データ（音声データ）の送信先として記憶部３３に保存する（ステップＳ２５）。

制御部３４は、スマートスピーカ識別情報を記憶部３３に保存すると、記憶部３３に保存した特定のコマンドが、処理結果データとして音声データを取得させるコマンドであるのか、処理結果データとして端末用コマンドを取得させるコマンドであるのかを判定する（ステップＳ２６）。あるいは、制御部３４は、認識結果テキストから指定キーワードを認識できないと判定すると（ステップＳ２４のＮｏ）、記憶部３３に保存した特定のコマンドが、処理結果データとして音声データを取得させるコマンドであるのか、処理結果データとして端末用コマンドを取得させるコマンドであるのかを判定する（ステップＳ２６）。

制御部３４は、特定のコマンドが音声データを取得させるコマンドであると判定すると（ステップＳ２６の「音声データ」）、特定のコマンドに対応する処理を実行して、音声データ（処理結果データ）を取得する（ステップＳ２７）。あるいは、制御部３４は、他のサーバに、特定のコマンドに対応する処理の実行を要求して、他のサーバから音声データ（処理結果データ）を取得する（ステップＳ２７）。

制御部３４は、音声データ（処理結果データ）を取得すると、処理結果データの送信先として記憶部３３に保存したスマートスピーカ識別情報を参照して、通信部３１に音声データ（処理結果データ）を送信させ（ステップＳ２８）、図１２に示す動作を終了する。詳しくは、認識結果テキストから指定キーワードを認識できた場合（ステップＳ２４のＹｅｓ）、第１サーバ３は、音声送信スマートスピーカと指定スマートスピーカとに音声データ（処理結果データ）を送信する。一方、認識結果テキストから指定キーワードを認識できない場合（ステップＳ２４のＮｏ）、第１サーバ３は、音声送信スマートスピーカに音声データ（処理結果データ）を送信する。

一方、制御部３４は、特定のコマンドが端末用コマンドを取得させるコマンドであると判定すると（ステップＳ２６の「コマンド」）、特定のコマンドに対応する処理を実行して、端末用コマンド（処理結果データ）を取得する（ステップＳ２９）。

制御部３４は、端末用コマンド（処理結果データ）を取得すると、処理結果データの送信先として記憶部３３に保存したスマートスピーカ識別情報と、第２管理テーブル３３２とを参照して、第１記憶領域３３３ａ～第３記憶領域３３３ｃのうちの少なくとも１つに端末用コマンドを記憶させる（ステップＳ３０）。

制御部３４は、端末用コマンドを端末用記憶領域３３３に記憶した後に、通信部３１が要求用信号を受信すると、端末用記憶領域３３３に記憶した端末用コマンド（処理結果データ）を通信部３１に送信させ（ステップＳ３１）、図１２に示す動作を終了する。詳しくは、認識結果テキストから指定キーワードを認識できた場合（ステップＳ２４のＹｅｓ）、第１サーバ３は、接続端末と指定端末とに端末用コマンド（処理結果データ）を送信する。一方、認識結果テキストから指定キーワードを認識できない場合（ステップＳ２４のＮｏ）、第１サーバ３は、接続端末に端末用コマンド（処理結果データ）を送信する。

また、制御部３４は、認識結果テキストから特定のコマンドを認識できないと判定すると（ステップＳ２２のＮｏ）、図６を参照して説明した動作と同様に、エラーフラグをＯＮにして（ステップＳ３２）、エラーメッセージを示す音声データを通信部３１に送信させ（ステップＳ２８）、図１２に示す動作を終了する。詳しくは、第１サーバ３は、音声送信スマートスピーカにエラーメッセージ（音声データ）を送信する。

続いて図１１及び図１３を参照して、第１端末２２ａの動作を説明する。図１３は、実施形態２に係る第１端末２２ａの動作を示すフローチャートである。図１３に示す動作は、定期的に実行される。

詳しくは、図１３に示すように、制御部２２５は、第１通信部２２１を介して第１サーバ３に要求信号を送信する（ステップＳ４１）。制御部２２５は、要求信号を送信した後、第１通信部２２１が第１サーバ３から端末用コマンドを受信したか否かを判定する（ステップＳ４２）。制御部２２５は、第１通信部２２１が端末用コマンドを受信したと判定すると（ステップＳ４２のＹｅｓ）、受信した端末用コマンドに対応する処理を実行して（ステップＳ４３）、図１３に示す動作を終了する。あるいは、制御部２２５、第１通信部２２１が端末用コマンドを受信しないと判定すると（ステップＳ４２のＮｏ）、図１３に示す動作を終了する。

なお、第２端末２２ｂの制御部２２５及び第３端末２２ｃの制御部２２５も、第１端末２２ａの制御部２２５と同様の動作を実行する。

以上、図７～図１３を参照して、本発明の実施形態２について説明した。本実施形態によれば、音声データをサーバに送信した処理ユニットに加えて、音声データをサーバに送信した処理ユニット以外の処理ユニットも処理の結果を受信することができる。例えば、第１処理ユニット２ａ（第１端末２２ａ）のユーザが起動コマンドを示す音声を発声した後、所定の期間内に、ウエブ会議の終了を促す音声と、Ｂ地点を示す音声とを発声すると、第１端末２２ａ及び第２端末２２ｂがウエブ会議用アプリケーションの実行を停止する。あるいは、第１処理ユニット２ａ（第１端末２２ａ）のユーザが起動コマンドを示す音声を発声した後、所定の期間内に、ウエブ会議の終了を促す音声と、「オール」を示す音声とを発声すると、第１端末２２ａ～第３端末２２ｃがウエブ会議用アプリケーションの実行を停止する。

なお、本実施形態において、第１スマートスピーカ２１ａ～第３スマートスピーカ２１ｃが撮像部２１６を備える構成を説明したが、第１端末２２ａ～第３端末２２ｃが撮像部を備えてもよい。あるいは、第１端末２２ａ～第３端末２２ｃに周辺装置としてカメラ装置が接続されてもよい。

また、本実施形態において、情報処理システム１はウエブ会議システムであったが、情報処理システム１はテレビ会議システム又は電話会議システムであってもよい。この場合、第１端末２２ａ～第３端末２２ｃは、ＬＡＮを介して接続される。

情報処理システム１がテレビ会議システム又は電話会議システムである場合、第２サーバ４は省略され得る。また、情報処理システム１が電話会議システムである場合、第１端末２２ａ～第３端末２２ｃは、電話会議専用のマイク／スピーカ装置であり得る。また、情報処理システム１が電話会議システムである場合、第１表示装置２３ａ～第３表示装置２３ｃは省略され得る。

また、本実施形態において、第１処理ユニット２ａ～第３処理ユニット２ｃが第１端末２２ａ～第３端末２２ｃを含む構成について説明したが、第１スマートスピーカ２１ａ～第３スマートスピーカ２１ｃが第１端末２２ａ～第３端末２２ｃの機能を有してもよい。この場合、第１端末２２ａ～第３端末２２ｃは省略され得る。

以上、本発明の実施形態１、２について図面を参照しながら説明した。但し、本発明は、上記の実施形態に限られず、その要旨を逸脱しない範囲で種々の態様において実施することが可能である。

例えば、本発明による実施形態では、情報処理システム１は、３つの処理ユニットを備えたが、情報処理システム１は、２つの処理ユニット又は４つ以上の処理ユニットを備えてもよい。

また、本発明による実施形態において、第１スマートスピーカ２１ａ～第３スマートスピーカ２１ｃの制御部２１５は、所定の期間が経過した後にユーザ音声をサーバ３に送信したが、第１スマートスピーカ２１ａ～第３スマートスピーカ２１ｃの制御部２１５は、所定の期間が経過する前にユーザ音声をサーバ３に送信してもよい。具体的には、第１スマートスピーカ２１ａ～第３スマートスピーカ２１ｃの制御部２１５は、音声データを、所定回数（例えば、２回）、記憶部２１４に保存すると、記憶部２１４に保存した音声データをサーバ３に送信してもよい。

本発明は、スマートスピーカのような音声入出力端末を使用するシステムに有用である。

１情報処理システム
２ａ第１処理ユニット
２ｂ第２処理ユニット
２ｃ第３処理ユニット
３サーバ
２１ａ第１スマートスピーカ
２１ｂ第２スマートスピーカ
２１ｃ第３スマートスピーカ
２２ａ第１端末
２２ｂ第２端末
２２ｃ第３端末
３１通信部
３２音声認識部
３４制御部
２１１音声入力部
２１３通信部
２１５制御部
２２１第１通信部
３３３端末用記憶領域
３３３ａ第１記憶領域
３３３ｂ第２記憶領域
３３３ｃ第３記憶領域

Claims

複数の処理ユニットを備えた情報処理システムであって、
前記処理ユニットは、
特定のコマンドを示す第１音声と、前記複数の処理ユニットのうちの少なくとも１つを特定する第２音声とを入力する音声入力部と、
前記第１音声に対応する第１音声データ及び前記第２音声に対応する第２音声データを生成する音声データ生成部と、
前記第１音声データ及び前記第２音声データをサーバに送信する音声データ送信部と、
前記サーバから処理結果データを受信する少なくとも１つの処理結果データ受信部と
を備え、
前記処理結果データは、前記特定のコマンドに対応する処理の実行結果を示し、
前記複数の処理ユニットのうち、前記第１音声データ及び前記第２音声データを送信した処理ユニットと、前記第２音声データによって特定された処理ユニットとが、前記処理結果データを受信する、情報処理システム。
前記処理ユニットは、音声入出力端末を含み、
前記音声入出力端末は、前記音声入力部、前記音声データ生成部、前記音声データ送信部、及び前記処理結果データ受信部を備える、請求項１に記載の情報処理システム。
前記処理ユニットは、音声入出力端末及び情報処理端末を含み、
前記音声入出力端末は、前記音声入力部、前記音声データ生成部、及び前記音声データ送信部を備え、
前記情報処理端末は、前記処理結果データ受信部を備える、請求項１に記載の情報処理システム。
前記少なくも１つの処理結果データ受信部は、第１処理結果データ受信部及び第２処理結果データ受信部を含み、
前記処理ユニットは、音声入出力端末及び情報処理端末を含み、
前記音声入出力端末は、前記音声入力部、前記音声データ生成部、前記音声データ送信部、及び前記第１処理結果データ受信部を備え、
前記情報処理端末は、前記第２処理結果データ受信部を備える、請求項１に記載の情報処理システム。
前記情報処理端末は、
前記サーバに対してデータの送信を要求する要求信号を生成する制御部と、
前記要求信号を前記サーバに送信する要求信号送信部と
を更に備える、請求項３又は請求項４に記載の情報処理システム。
前記情報処理システムは、前記サーバを備え、
前記サーバは、
前記第１音声データ及び前記第２音声データを受信する音声データ受信部と、
前記第１音声データ及び前記第２音声データをテキスト情報に変換する音声認識部と、
前記テキスト情報に基づいて前記処理結果データを取得する制御部と、
前記処理結果データを送信する処理結果データ送信部と
を備え、
前記処理結果データ送信部は、前記第１音声データ及び前記第２音声データを送信した前記処理ユニットと、前記第２音声データによって特定された前記処理ユニットとに、前記処理結果データを送信する、請求項１から請求項５のいずれか１項に記載の情報処理システム。
前記サーバは、前記複数の処理ユニットの各々に対応する記憶領域を有し、
前記サーバの前記制御部は、前記記憶領域のうち、前記第１音声データ及び前記第２音声データを送信した前記処理ユニットに対応する記憶領域と、前記第２音声データによって特定された前記処理ユニットに対応する記憶領域とに、前記処理結果データを記憶させる、請求項６に記載の情報処理システム。
特定のコマンドを示す第１音声と、複数の処理ユニットのうちの少なくとも１つを特定する第２音声とを入力するステップと、
前記第１音声に対応する第１音声データ及び前記第２音声に対応する第２音声データを生成するステップと、
前記第１音声データ及び前記第２音声データをサーバに送信するステップと、
前記複数の処理ユニットのうち、前記第１音声データ及び前記第２音声データを送信した処理ユニットと、前記第２音声データによって特定された処理ユニットとが、処理結果データを前記サーバから受信するステップと
を含み、
前記処理結果データは、前記特定のコマンドに対応する処理の実行結果を示す、情報処理方法。