以下、図面を参照して本発明の実施形態を説明する。ただし、本発明は以下の実施形態に限定されない。なお、説明が重複する箇所については、適宜説明を省略する場合がある。また、図中、同一又は相当部分については同一の参照符号を付して説明を繰り返さない。
[実施形態1]
まず図1を参照して、遠隔対話システム1の構成を説明する。図1は、本実施形態に係る遠隔対話システム1の構成を示す図である。図1に示すように、遠隔対話システム1は、第1処理ユニット2a~第3処理ユニット2cと、第1サーバ3と、第2サーバ4とを備える。本実施形態において、遠隔対話システム1は、ウエブ会議システムである。
第1処理ユニット2aは、第1スマートスピーカ21aと、第1端末22aと、第1表示装置23aとを含む。第2処理ユニット2bは、第2スマートスピーカ21bと、第2端末22bと、第2表示装置23bとを含む。第3処理ユニット2cは、第3スマートスピーカ21cと、第3端末22cと、第3表示装置23cとを含む。第1スマートスピーカ21a~第3スマートスピーカ21cはそれぞれ音声入力装置の一例である。また、第1端末22a~第3端末22cはそれぞれ音声送受信装置の一例である。
本実施形態において、第1端末22a~第3端末22cは、例えばノート型PC(パーソナルコンピュータ)又はデスクトップ型PCのような情報処理装置である。あるいは、第1端末22a~第3端末22cは、例えばタブレットPC又はスマートフォンのような携帯型の情報処理装置である。また、第1スマートスピーカ21a及び第1表示装置23aは、第1端末22aの周辺装置であり、第2スマートスピーカ21b及び第2表示装置23bは、第2端末22bの周辺装置であり、第3スマートスピーカ21c及び第3表示装置23cは、第3端末22cの周辺装置である。
第1サーバ3は、例えばインターネット回線を介して、第1スマートスピーカ21a~第3スマートスピーカ21cの各々との間で通信を行う。具体的には、第1サーバ3は、第1スマートスピーカ21a~第3スマートスピーカ21cから音声データを受信する。また、第1サーバ3は、第1スマートスピーカ21a~第3スマートスピーカ21cへ音声データを送信する。
詳しくは、第1サーバ3は、第1スマートスピーカ21a~第3スマートスピーカ21cのいずれか1つから音声データを受信すると、受信した音声データから処理コマンドを認識できるか否かを判定する。詳しくは、第1サーバ3は、受信した音声データを音声認識処理によってテキスト情報に変換し、テキスト情報から処理コマンドを認識できるか否かを判定する。
第1サーバ3は、音声データから処理コマンドを認識できた場合、処理コマンドに対応する処理の実行結果を示す処理結果データを取得する。処理結果データは音声データである。第1サーバ3は、音声データを送信したスマートスピーカに、処理結果データを送信する。例えば、処理コマンドは、検索キーワードと、検索処理の実行を促すキーワードとを示す。この場合、第1サーバ3は、検索キーワードに基づいて検索処理を実行し、検索結果を示すデータを取得する。なお、第1サーバ3は、他のサーバに、処理コマンドに対応する処理の実行を要求してもよい。この場合、第1サーバ3は、他のサーバから処理結果データを取得(受信)する。
第2サーバ4は、例えばインターネット回線を介して、第1端末22a~第3端末22cの各々との間で通信を行うことにより、第1端末22a~第3端末22cの間でウエブ会議を実行させる。具体的には、第2サーバ4は、第1端末22aから受信した音声データ及び撮像データを、第2端末22b及び第3端末22cへ送信する。同様に、第2サーバ4は、第2端末22bから受信した音声データ及び撮像データを、第1端末22a及び第3端末22cへ送信する。また、第2サーバ4は、第3端末22cから受信した音声データ及び撮像データを、第1端末22a及び第2端末22bへ送信する。
続いて図1を参照して、第1処理ユニット2aに含まれる第1スマートスピーカ21a、第1端末22a、及び第1表示装置23aの動作について説明する。
第1スマートスピーカ21aは、ユーザが発生した音声を入力し、入力した音声を音声データ(デジタルデータ)に変換して第1端末22aへ送信する。また、第1スマートスピーカ21aは、第1端末22aから音声データを受信する。第1スマートスピーカ21aは、第1端末22aから受信した音声データに対応する音声を出力する。更に、第1スマートスピーカ21aは撮像部を備え、撮像データを第1端末22aへ送信する。
また、第1スマートスピーカ21aは、起動コマンドを示すデータを記憶している。第1スマートスピーカ21aは、ユーザが起動コマンドを示す音声を発声した場合、レディ状態となる。第1スマートスピーカ21aは、レディ状態となってから所定の期間が経過する前にユーザが音声を発声すると、その音声を音声データに変換して第1サーバ3へ送信する。なお、以下の説明において、起動コマンドを示す音声を「起動コマンド音声」と記載する場合がある。
第1スマートスピーカ21aは、レディ状態になると、無効処理を実行する。本実施形態において、第1スマートスピーカ21aは、無効処理として、ミュート処理を実行する。具体的には、第1スマートスピーカ21aは、第1端末22aへの音声データの送信を遮断する。
第1端末22aは、第1スマートスピーカ21aから受信した音声データ及び撮像データを第2サーバ4へ送信する。また、第1端末22aは、第2サーバ4から音声データ及び撮像データを受信する。第1端末22aは、第2サーバ4から受信した音声データを第1スマートスピーカ21aへ送信する。また、第1端末22aは、第2サーバ4から受信した撮像データを第1表示装置23aに出力する。第1表示装置23aは、第1端末22aから入力された撮像データに対応する映像を表示する。
なお、第2処理ユニット2bに含まれる第2スマートスピーカ21b、第2端末22b、及び第2表示装置23bは、第1処理ユニット2aに含まれる第1スマートスピーカ21a、第1端末22a、及び第1表示装置23aと同様に動作するため、その説明は省略する。また、第3処理ユニット2cに含まれる第3スマートスピーカ21c、第3端末22c、及び第3表示装置23cも、第1処理ユニット2aに含まれる第1スマートスピーカ21a、第1端末22a、及び第1表示装置23aと同様に動作するため、その説明は省略する。
続いて図1及び図2を参照して、第1スマートスピーカ21aの構成を説明する。図2は、本実施形態に係る第1スマートスピーカ21aの構成を示す図である。
図2に示すように、第1スマートスピーカ21aは、音声入力部211と、音声出力部212と、撮像部213と、第1通信部214と、第2通信部215と、記憶部216と、制御部217とを備える。
音声入力部211は、ユーザが発声した音声を集音して、アナログ電気信号に変換する。アナログ電気信号は、制御部217に入力される。音声入力部211は、例えば、マイクロフォンである。なお、以下の説明において、ユーザが発声した音声を「ユーザ音声」と記載する場合がある。
音声出力部212は、第1端末22aから受信した音声データに対応する音声を出力する。また、音声出力部212は、第1サーバ3から受信した音声データに対応する音声を出力する。音声出力部212は、例えば、スピーカである。
撮像部213は、第1スマートスピーカ21aの周辺環境を撮像して画像信号(アナログ電気信号)を出力する。例えば、撮像部213は、CCD(Charge-Coupled Device)のような撮像素子を備える。
第1通信部214は、第1サーバ3との間の通信を制御する。第1通信部214は、例えば、LAN(Local Area Network)ボード又は無線LANボードを備える。具体的には、第1通信部214は、音声データを第1サーバ3に送信する。また、第1通信部214は、第1サーバ3から音声データを受信する。
第2通信部215は、第1端末22aとの間の通信を制御する。第2通信部215は、例えば、Bluetooth(登録商標)のような近距離無線通信規格に準じた無線通信モジュールを備える。あるいは、第2通信部215は、例えば、USB(Universal Serial Bus)端子を備えるUSBインターフェースであり得る。
第2通信部215は、音声入力部211が入力した音声に対応する音声データを第1端末22aへ送信する。また、第2通信部215は、撮像部213から出力された画像信号に対応する撮像データを第1端末22aへ送信する。更に、第2通信部215は、第1端末22aから音声データを受信する。
記憶部216は、例えばRAM(Random Access Memory)及びROM(Read Only Memory)のような半導体メモリーを備える。記憶部216は更に、HDD(Hard Disk Drive)のようなストレージデバイスを備えてもよい。記憶部216は、制御部217が実行する制御プログラムを記憶する。記憶部216は更に、図1を参照して説明した起動コマンドを示すデータを記憶する。
制御部217は、例えばCPU(Central Processing Unit)、MPU(Micro Processing Unit)、ASIC(Application Specific Integrated Circuit)、又はDSP(Digital Signal Processor)のようなプロセッサを備える。制御部217は、記憶部216に記憶された制御プログラムに基づいて、第1スマートスピーカ21aの動作を制御する。
具体的には、制御部217は、音声入力部211から入力されたアナログ電気信号(ユーザ音声)をデジタル信号(音声データ)に変換して、第2通信部215にデジタル信号を送信させる。また、制御部217は、撮像部213から入力された画像信号(アナログ電気信号)をデジタル信号(撮像データ)に変換して、第2通信部215にデジタル信号を送信させる。また、制御部217は、第2通信部215が受信したデジタル信号(音声データ)をアナログ電気信号に変換して、音声出力部212に音声を出力させる。
更に、制御部217は、レディ状態になると、音声入力部211から入力されたアナログ電気信号(ユーザ音声)をデジタル信号(音声データ)に変換して、第1通信部214にデジタル信号を送信させる。また、制御部217は、第1通信部214が受信したデジタル信号(音声データ)をアナログ電気信号に変換して、音声出力部212に音声を出力させる。
詳しくは、制御部217は、ユーザ音声に対応する音声データから起動コマンドを検知する。具体的には、制御部217は、音声入力部211がユーザ音声を入力すると、記憶部216に記憶された起動コマンドを示すデータを参照して、ユーザ音声に対応する音声データが起動コマンドを示すか否かを判定する。制御部217は、ユーザ音声に対応する音声データが起動コマンドを示す場合、レディ状態となる。制御部217は、レディ状態となってから所定の期間が経過する前に音声入力部211がユーザ音声を入力すると、ユーザ音声を音声データに変換して、第1通信部214を介して第1サーバ3へ音声データを送信する。なお、記憶部216は、所定の期間を示すデータを記憶している。所定の期間は、例えば8秒間である。
図1を参照して説明したように、第1サーバ3は、第1スマートスピーカ21aから処理コマンドを示す音声データを受信すると、処理結果データ(音声データ)を第1スマートスピーカ21aへ送信する。この結果、第1通信部214が第1サーバ3からデジタル信号(音声データ)を受信する。制御部217は、第1通信部214が受信したデジタル信号(音声データ)をアナログ電気信号に変換して、音声出力部212に音声を出力させる。
本実施形態において、制御部217は、ユーザ音声から起動コマンドを検知すると、ミュート処理を実行する。詳しくは、制御部217は、レディ状態となってから所定の期間が経過するまで、第2通信部215による音声データの送信を遮断する。具体的には、制御部217は、レディ状態となってから所定の期間が経過するまで、音声入力部211が入力したユーザ音声に対応する音声データの第1端末22aへの送信を遮断する。
以上、図1及び図2を参照して、第1スマートスピーカ21aの構成を説明した。なお、第2スマートスピーカ21b及び第3スマートスピーカ21cの構成は、第1スマートスピーカ21aの構成と同様であるため、その説明は割愛する。
続いて図1及び図3を参照して、第1端末22aの構成を説明する。図3は、本実施形態に係る第1端末22aの構成を示す図である。図3に示すように、第1端末22aは、第1通信部221、第2通信部222、出力部223、記憶部224、及び制御部225を備える。
第1通信部221は、第2サーバ4との間の通信を制御する。第1通信部221は、送信部の一例である。第1通信部221は、例えば、LANボード又は無線LANボードを備える。第1通信部221は、音声データ及び撮像データを第2サーバ4に送信する。換言すると、第1通信部221は、第2端末22b及び第3端末22cへ音声データ及び撮像データを送信する。また、第1通信部221は、音声データ及び撮像データを第2サーバ4から受信する。換言すると、第1通信部221は、第2端末22b及び第3端末22cから、音声データ及び撮像データを受信する。
第2通信部222は、第1スマートスピーカ21aとの間の通信を制御する。第2通信部222は、受信部の一例である。第2通信部222は、例えば、Bluetooth(登録商標)のような近距離無線通信規格に準じた無線通信モジュールを備える。あるいは、第2通信部222は、例えば、USB端子を備えるUSBインターフェースであり得る。
第2通信部222は、第1スマートスピーカ21aから音声データを受信する。また、第2通信部222は、第1スマートスピーカ21aへ音声データを送信する。更に、第2通信部222は、第1スマートスピーカ21aから撮像データを受信する。
出力部223は、撮像データを第1表示装置23aに出力する。出力部223は、例えば、HDMI(登録商標)端子又はDisplayportのようなデジタル映像インターフェースである。なお、出力部223は、D-SUB端子のようなアナログ映像インターフェースであってもよい。
記憶部224は、例えばRAM及びROMのような半導体メモリーを備える。更に、記憶部224は、HDDのようなストレージデバイスを備える。記憶部224は、制御部225が実行する制御プログラムを記憶する。また、記憶部224は、ウエブ会議用アプリケーションソフトウエアを記憶する。
制御部225は、例えばCPU又はMPUのようなプロセッサを備える。また、制御部225は、記憶部224に記憶された制御プログラムに基づいて、第1端末22aの動作を制御する。
以下、制御部225がウエブ会議用アプリケーションソフトウエアに基づいて実行する処理について説明する。制御部225は、ウエブ会議用アプリケーションソフトウエアを実行することにより、第2処理ユニット2bの第2端末22bと第3処理ユニット2cの第3端末22cとの間でウエブ会議を実行する。
具体的には、制御部225は、第2通信部222を介して第1スマートスピーカ21aから受信した音声データ及び撮像データを、第1通信部221を介して第2サーバ4へ送信する。この結果、第2処理ユニット2bの第2スマートスピーカ21b、及び第3処理ユニット2cの第3スマートスピーカ21cから、第1スマートスピーカ21aが入力した音声が出力される。また、第2処理ユニット2bの第2表示装置23b、及び第3処理ユニット2cの第3表示装置23cが、第1スマートスピーカ21aによって撮像された映像を表示する。
また、制御部225は、第1通信部221を介して第2サーバ4から受信した音声データを、第2通信部222を介して第1スマートスピーカ21aに送信する。この結果、第1スマートスピーカ21aから、第2処理ユニット2bの第2スマートスピーカ21bが入力した音声が出力される。また、第1スマートスピーカ21aから、第3処理ユニット2cの第3スマートスピーカ21cが入力した音声が出力される。
また、制御部225は、第1通信部221を介して第2サーバ4から受信した撮像データを、出力部223を介して第1表示装置23aに出力する。この結果、第1表示装置23aが、第2処理ユニット2bの第2スマートスピーカ21bによって撮像された映像、及び第3処理ユニット2cの第3スマートスピーカ21cによって撮像された映像を表示する。
以上、図1及び図3を参照して、第1端末22aの構成を説明した。なお、第2端末22b及び第3端末22cの構成は第1端末22aの構成と同様であるため、その説明は省略する。
続いて図1、図2及び図4を参照して、第1スマートスピーカ21aの動作を説明する。図4は、実施形態1に係る第1スマートスピーカ21aの動作を示すフローチャートである。図4に示す動作は、第1スマートスピーカ21aの音声入力部211がユーザ音声を入力するとスタートする。
図4に示すように、音声入力部211がユーザ音声を入力すると、制御部217は、ユーザ音声に対応する音声データを生成する(ステップS1)。以下、ユーザ音声に対応する音声データを「ユーザ音声データ」と記載する場合がある。制御部217は、ユーザ音声データを生成すると、記憶部216に記憶されている起動コマンドを示すデータを参照して、ユーザ音声データが起動コマンドを示すか否かを判定する(ステップS2)。
制御部217は、ユーザ音声データが起動コマンドを示さないと判定した場合(ステップS2のNo)、図4に示す動作を終了する。一方、制御部217は、ユーザ音声データが起動コマンドを示すと判定すると(ステップS2のYes)、レディ状態となり、ミュート処理を開始する(ステップS3)。
制御部217は、ミュート処理を開始すると、音声入力部211がユーザ音声を入力したか否かを判定する(ステップS4)。制御部217は、音声入力部211がユーザ音声を入力したと判定すると(ステップS4のYes)、ユーザ音声データを生成し(ステップS5)、第1通信部214を介して第1サーバ3にユーザ音声データを送信する(ステップS6)。
制御部217は、ユーザ音声データを送信すると、所定の期間が経過したか否かを判定する(ステップS7)。制御部217は、所定の期間が経過していないと判定すると(ステップS7のNo)、再度、所定の期間が経過したか否かを判定する(ステップS7)。換言すると、制御部217は、所定の期間が経過するまでステップS7の処理を繰り返し実行する。制御部217は、所定の期間が経過したと判定すると(ステップS7のYes)、ミュート処理を終了して(ステップS8)、図4に示す動作を終了する。
また、制御部217は、音声入力部211がユーザ音声を入力していないと判定すると(ステップS4のNo)、所定の期間が経過したか否かを判定する(ステップS9)。制御部217は、所定の期間が経過していないと判定すると(ステップS9のNo)、再度、音声入力部211がユーザ音声を入力したか否かを判定する(ステップS4)。換言すると、制御部217は、所定の期間が経過するまでの間、ユーザ音声が入力されるまで、ステップS4の処理とステップS9の処理とを繰り返し実行する。制御部217は、所定の期間が経過したと判定すると(ステップS9のYes)、ミュート処理を終了して(ステップS8)、図4に示す動作を終了する。
以上、図1、図2及び図4を参照して第1スマートスピーカ21aの動作を説明した。なお、第2スマートスピーカ21b及び第3スマートスピーカ21cは、第1スマートスピーカ21aと同様に、図4に示す動作を実行する。
続いて図1~図3及び図5を参照して、実施形態1に係る無効処理について説明する。図5は、実施形態1に係る無効処理を示す図である。図5において、横軸は時間軸である。図5は、第1スマートスピーカ21aに入力されたユーザ音声、ユーザ音声に対応する音声データ、第1スマートスピーカ21aから第1サーバ3へ送信される音声データ、及び第1スマートスピーカ21aから第1端末22aへ送信される音声データを示す。
図5に示すように、ユーザ音声として、起動コマンドを示す第1音声51(起動コマンド音声)が入力されると、第1音声51に対応する第1音声データ51aが生成され、第1音声データ51aが第1端末22aへ送信される。その結果、第1音声データ51aが、第1端末22aから第2端末22b及び第3端末22cへ送信される。第1音声データ51aは、起動コマンドを示す。したがって、第2スマートスピーカ21b及び第3スマートスピーカ21cから起動コマンド音声が出力されて、第2スマートスピーカ21b及び第3スマートスピーカ21cの音声入力部211が、起動コマンド音声を入力する。
第1音声51の入力後、所定の期間が経過する前に第2音声52が入力されると、第2音声52に対応する第2音声データ52aが生成される。第2音声データ52aは、第1サーバ3へ送信される。本実施形態では、第1音声51の入力後にミュート処理が開始されているため、第2音声データ52aは第1端末22aに送信されない。したがって、第2音声データ52aは、第2端末22b及び第3端末22cに送信されない。
また、第2音声52の入力後、所定の期間の経過前から経過後にわたって第3音声53が入力された場合、所定の期間の経過前はミュート処理が実行されているため、第3音声53に対応する第3音声データ53aは第1端末22aに送信されない。したがって、所定の期間の経過前において、第3音声データ53aは、第2端末22b及び第3端末22cに送信されない。一方、所定の期間の経過後は、ミュート処理が終了しているため、第3音声データ53aは第1端末22aへ送信される。したがって、第3音声データ53aは、第2端末22b及び第3端末22cへ送信される。
以上、図1~図5を参照して本発明の実施形態1について説明した。本実施形態によれば、第1処理ユニット2a~第3処理ユニット2cのユーザが意図しない処理コマンドが、第1スマートスピーカ21a~第3スマートスピーカ21cから第1サーバ3に送信されることを抑制できる。
例えば、第1スマートスピーカ21aに対してユーザが起動コマンドを発声した後に処理コマンドを発声しても、第1スマートスピーカ21aから第1端末22aへ処理コマンドを示す音声データが送信されない。したがって、第1スマートスピーカ21aに対してユーザが発声した処理コマンドを示す音声は、第2スマートスピーカ21b及び第3スマートスピーカ21cから出力されない。この結果、第2処理ユニット2bのユーザ及び第3処理ユニット2cのユーザが意図しない処理コマンドが、第2スマートスピーカ21b及び第3スマートスピーカ21cから第1サーバ3に送信されることを抑制することができる。
[実施形態2]
続いて図1~図3及び図6を参照して、本発明の実施形態2について説明する。但し、実施形態1と異なる事項を説明し、実施形態1と同じ事項についての説明は割愛する。実施形態2は、第1スマートスピーカ21a~第3スマートスピーカ21cが、ミュート処理を開始したことを示す通知信号を第1端末22a~第3端末22cへ送信する点で、実施形態1と異なる。
まず、図1、図2及び図6を参照して第1スマートスピーカ21aの動作を説明する。図6は、実施形態2に係る第1スマートスピーカ21aの動作を示すフローチャートである。図6に示す動作は、図4に示す動作と比べて、通知信号を送信する処理(ステップS10)が追加されている。詳しくは、制御部217は、ミュート処理を開始すると(ステップS3)、ミュート処理を開始したことを示す通知信号を、第2通信部215を介して第1端末22aへ送信する(ステップS10)。
以上、図1、図2及び図6を参照して、第1スマートスピーカ21aの動作を説明した。なお、第2スマートスピーカ21b及び第3スマートスピーカ21cは、第1スマートスピーカ21aと同様に、図6に示す動作を実行する。
続いて図1及び図3を参照して、第1端末22a~第3端末22cの動作を説明する。本実施形態において、第1端末22aの制御部225は、第2通信部222が通知信号を受信すると、第1表示装置23aに、ミュート処理が実行されていることを示す画像を表示させる。更に、第1端末22aの制御部225は、第1通信部221及び第2サーバ4を介して、第2端末22b及び第3端末22cに通知信号を送信する。第2端末22bの制御部225は、第1通信部221が通知信号を受信すると、第2表示装置23bに、ミュート処理が実行されていることを示す画像を表示させる。同様に、第3端末22cの制御部225は、第1通信部221が通知信号を受信すると、第3表示装置23cに、ミュート処理が実行されていることを示す画像を表示させる。
第2スマートスピーカ21bが通知信号を第2端末22bへ送信した場合も同様に、第1表示装置23a~第3表示装置23cは、ミュート処理が実行されていることを示す画像を表示する。また、第3スマートスピーカ21cが通知信号を第3端末22cへ送信した場合も同様に、第1表示装置23a~第3表示装置23cは、ミュート処理が実行されていることを示す画像を表示する。
以上、図1~図3及び図6を参照して、本発明の実施形態2について説明した。本実施形態によれば、第1スマートスピーカ21a~第3スマートスピーカ21cのいずれかがミュート処理を開始した場合に、ウエブ会議のユーザに対し、ミュート処理が実行されていることを通知することができる。
[実施形態3]
続いて図1~図3、図7及び図8を参照して、本発明の実施形態3について説明する。但し、実施形態1、2と異なる事項を説明し、実施形態1、2と同じ事項についての説明は割愛する。実施形態3は、第1スマートスピーカ21a~第3スマートスピーカ21cが、ミュート処理中に別音データを第1端末22a~第3端末22cへ送信する点で、実施形態1、2と異なる。
まず図2を参照して、第1スマートスピーカ21aの構成を説明する。本実施形態において、記憶部216は、別音データを記憶している。別音データは、起動コマンド及び処理コマンドとは異なる音声を示す。例えば、別音データは、ピー音のような効果音を示す。あるいは、別音データは、ミュート処理が実行されていることを通知する音声を示す。第2スマートスピーカ21bの記憶部216、及び第3スマートスピーカ21cの記憶部216も、第1スマートスピーカ21aと同様に、別音データを記憶している。
続いて、図1、図2及び図7を参照して第1スマートスピーカ21aの動作を説明する。図7は、実施形態3に係る第1スマートスピーカ21aの動作を示すフローチャートである。図7に示す動作は、図4に示す動作と比べて、別音データを送信する処理が追加されている(ステップS11)。
具体的には、制御部217は、音声データが起動コマンドを示すと判定すると(ステップS2のYes)、レディ状態となり、ミュート処理を開始する(ステップS3)。詳しくは、制御部217は、音声入力部211が入力したユーザ音声に対応する音声データの第1端末22aへの送信を遮断する。制御部217は、ミュート処理を開始すると、別音データの送信を開始する(ステップS11)。別音データは、第2通信部215から第1端末22aへ送信される。また、制御部217は、所定の期間が経過したと判定すると(ステップS7のYes、あるいはステップS9のYes)、別音データの送信を終了する(ステップS12)。この結果、制御部217がレディ状態となってから所定の期間が経過するまでの間に、第2通信部215から第1端末22aへ別音データが送信される。
以上、図1、図2及び図7を参照して、第1スマートスピーカ21aの動作を説明した。なお、第2スマートスピーカ21b及び第3スマートスピーカ21cは、第1スマートスピーカ21aと同様に、図7に示す動作を実行する。
続いて図1~図3及び図8を参照して、実施形態3に係る無効処理について説明する。図8は、実施形態3に係る無効処理を示す図である。図8において、横軸は時間軸である。図8は、第1スマートスピーカ21aに入力されたユーザ音声、ユーザ音声に対応する音声データ、第1スマートスピーカ21aから第1サーバ3へ送信される音声データ、及び第1スマートスピーカ21aから第1端末22aへ送信される音声データを示す。
図8に示すように、本実施形態では、第1音声51(起動コマンド音声)が入力されてから所定の期間が経過するまでの間、別音データ54が第1端末22aへ送信される。この結果、起動コマンド音声が入力されてから所定の期間が経過するまでの間、別音データ54が第2端末22b及び第3端末22cへ送信される。
以上、図1~図3、図7及び図8を参照して、本発明の実施形態3について説明した。本実施形態によれば、第1スマートスピーカ21a~第3スマートスピーカ21cのいずれかがミュート処理を開始した場合に、ウエブ会議のユーザに対し、ミュート処理が実行されていることを通知することができる。例えば、別音データがピー音を示す場合、第1スマートスピーカ21aによってミュート処理が開始されると、第2スマートスピーカ21b及び第3スマートスピーカ21cからピー音が出力される。したがって、第2処理ユニット2b及び第3処理ユニット2cのユーザは、ピー音を聞くことにより、ミュート処理が実行されていることを知ることができる。
[実施形態4]
続いて図1~図3、図9及び図10を参照して、本発明の実施形態4について説明する。但し、実施形態1~3と異なる事項を説明し、実施形態1~3と同じ事項についての説明は割愛する。実施形態4は、第1スマートスピーカ21a~第3スマートスピーカ21cが、レディ状態となると、無効コマンドを示す音声データを第1端末22a~第3端末22cへ送信する点で、実施形態1~3と異なる。
まず図2を参照して、第1スマートスピーカ21aの構成を説明する。本実施形態において、記憶部216は、無効コマンドを示す音声データを記憶している。無効コマンドは、起動コマンドを無効にするコマンドである。例えば、第1スマートスピーカ21aの音声入力部211が、起動コマンド音声を入力した後に、無効コマンドを示す音声を入力した場合、第1スマートスピーカ21aの制御部217は、レディ状態となった後に、無効コマンドに応じて、起動コマンド音声の入力を待つ状態に戻る。したがって、ユーザが、無効コマンドを示す音声を発声した後に、処理コマンドを示す音声を発声しても、処理コマンドを示す音声データは第1サーバ3へ送信されない。以下、無効コマンドを示す音声を「無効コマンド音声」と記載する場合がある。
なお、第2スマートスピーカ21bの記憶部216、及び第3スマートスピーカ21cの記憶部216も、第1スマートスピーカ21aと同様に、無効コマンドを示す音声データを記憶している。
続いて図1、図2及び図9を参照して、第1スマートスピーカ21aの動作を説明する。図9は、実施形態4に係る第1スマートスピーカ21aの動作を示すフローチャートである。図9に示す動作は、第1スマートスピーカ21aの音声入力部211がユーザ音声を入力するとスタートする。
図9に示すように、音声入力部211がユーザ音声を入力すると、制御部217は、ユーザ音声データを生成する(ステップS21)。制御部217は、ユーザ音声データを生成すると、記憶部216に記憶されている起動コマンドを示すデータを参照して、ユーザ音声データが起動コマンドを示すか否かを判定する(ステップS22)。
制御部217は、ユーザ音声データが起動コマンドを示さないと判定した場合(ステップS22のNo)、図9に示す動作を終了する。一方、制御部217は、ユーザ音声データが起動コマンドを示すと判定すると(ステップS22のYes)、レディ状態となり、ミュート処理を開始する(ステップS23)。
制御部217は、ミュート処理を開始すると、無効コマンドを示す音声データを、第2通信部215を介して第1端末22aへ送信する(ステップS24)。この結果、第2端末22b及び第3端末22cへ無効コマンドを示す音声データが送信され、第2スマートスピーカ21b及び第3スマートスピーカ21cから無効コマンド音声が出力される。
制御部217は、無効コマンドを示す音声データを送信すると、ミュート処理を終了する(ステップS25)。制御部217は、ミュート処理を終了すると、音声入力部211がユーザ音声を入力したか否かを判定する(ステップS26)。制御部217は、音声入力部211がユーザ音声を入力したと判定すると(ステップS26のYes)、ユーザ音声データを生成する(ステップS27)。制御部217は、ユーザ音声データを生成すると、第1通信部214を介して第1サーバ3にユーザ音声データを送信して(ステップS28)、図9に示す動作を終了する。
また、制御部217は、音声入力部211がユーザ音声を入力していないと判定すると(ステップS26のNo)、所定の期間が経過したか否かを判定する(ステップS29)。制御部217は、所定の期間が経過していないと判定すると(ステップS29のNo)、再度、音声入力部211がユーザ音声を入力したか否かを判定する(ステップS26)。換言すると、制御部217は、所定の期間が経過するまでの間、ユーザ音声が入力されるまで、ステップS26の処理とステップS29の処理とを繰り返し実行する。制御部217は、所定の期間が経過したと判定すると(ステップS29のYes)、図9に示す動作を終了する。
以上、図1、図2及び図9を参照して第1スマートスピーカ21aの動作を説明した。なお、第2スマートスピーカ21b及び第3スマートスピーカ21cは、第1スマートスピーカ21aと同様に、図9に示す動作を実行する。
続いて図1~図3及び図10を参照して、実施形態4に係る無効処理について説明する。図10は、実施形態4に係る無効処理を示す図である。図10において、横軸は時間軸である。図10は、第1スマートスピーカ21aに入力されたユーザ音声、ユーザ音声に対応する音声データ、第1スマートスピーカ21aから第1サーバ3へ送信される音声データ、及び第1スマートスピーカ21aから第1端末22aへ送信される音声データを示す。
図10に示すように、本実施形態では、第1音声51(起動コマンド音声)が入力されると、無効コマンド音声を示す無効コマンド音声データ55が第1端末22aへ送信される。したがって、無効コマンド音声データ55が第2端末22b及び第3端末22cへ送信される。この結果、第2スマートスピーカ21b及び第3スマートスピーカ21cから、起動コマンド音声に続いて無効コマンド音声が出力される。
また、本実施形態では、無効コマンド音声データ55が第1端末22aへ送信されるとミュート処理が終了する。したがって、第2音声データ52aは、第1サーバ3に加えて、第1端末22aにも送信される。この結果、第2音声データ52aが第2端末22b及び第3端末22cに送信されて、第2スマートスピーカ21b及び第3スマートスピーカ21cから第2音声52が出力される。但し、第2スマートスピーカ21b及び第3スマートスピーカ21cから無効コマンド音声が出力された後に第2音声52が出力されるため、第2スマートスピーカ21b及び第3スマートスピーカ21cは、第2音声データ52aを第1サーバ3へ送信しない。
また、本実施形態では、所定の期間が経過する前にミュート処理が終了する。したがって、第3音声データ53aが第1端末22aにそのまま送信される。
以上、図1~図3、図9及び図10を参照して、本発明の実施形態4について説明した。本実施形態によれば、第1処理ユニット2a~第3処理ユニット2cのユーザが意図しない処理コマンドが、第1スマートスピーカ21a~第3スマートスピーカ21cから第1サーバ3に送信されることを抑制できる。
例えば、第1スマートスピーカ21aに対してユーザが起動コマンドを発声した後に処理コマンドを発声しても、第2スマートスピーカ21b及び第3スマートスピーカ21cから無効コマンド音声が出力された後に、第2スマートスピーカ21b及び第3スマートスピーカ21cから処理コマンドを示す音声が出力される。したがって、第2スマートスピーカ21b及び第3スマートスピーカ21cは、処理コマンドを第1サーバ3に送信しない。よって、第2処理ユニット2bのユーザ及び第3処理ユニット2cのユーザが意図しない処理コマンドが、第2スマートスピーカ21b及び第3スマートスピーカ21cから第1サーバ3に送信されることを抑制することができる。
更に、本実施形態によれば、第1端末22a~第3端末22c間におけるユーザ音声の送受信が中断されない。したがって、ウエブ会議において音声出力が中断されないため、効率よく会議を進めることができる。
[実施形態5]
続いて図1~図3、及び図11~図13を参照して、本発明の実施形態5について説明する。但し、実施形態1~4と異なる事項を説明し、実施形態1~4と同じ事項についての説明は割愛する。実施形態5は、第1スマートスピーカ21a~第3スマートスピーカ21cが、無効処理として音量レベル低下処理を実行する点で、実施形態1~4と異なる。
まず図1及び図2を参照して、第1スマートスピーカ21aの構成を説明する。本実施形態において、制御部217は、音量レベル低下処理を実行する。音量レベル低下処理は、ユーザ音声に対応する音声データの音量レベルを低下させた低音量レベル音声データを、第2通信部215から第1端末22aに送信する処理である。
詳しくは、制御部217は、レディ状態となってから所定の期間が経過するまでの間に音声入力部211がユーザ音声を入力すると、低音量レベル音声データを生成する。具体的には、制御部217は、音声入力部211がユーザ音声を入力すると、ユーザ音声データを生成し、ユーザ音声データの音量レベルを低下させることにより、低音量レベル音声データを生成する。低音量レベル音声データの音量レベルは、低音量レベル音声データに対応する音声が音声出力部212から出力されても、音声入力部211がその音声を入力できない音量レベルに設定される。例えば、制御部217は、ユーザ音声データの音量レベルを50%低下させる。あるいは、制御部217は、ユーザ音声データの音量レベルを0レベルまで低下させてもよい。
第2スマートスピーカ21bの制御部217、及び第3スマートスピーカ21cの制御部217も、第1スマートスピーカ21aと同様に、音量レベル低下処理を実行する。
続いて図1、図2、図11及び図12を参照して、第1スマートスピーカ21aの動作を説明する。図11及び図12は、実施形態5に係る第1スマートスピーカ21aの動作を示すフローチャートである。図11及び図12に示す動作は、第1スマートスピーカ21aの音声入力部211がユーザ音声を入力するとスタートする。
図11に示すように、音声入力部211がユーザ音声を入力すると、制御部217は、ユーザ音声データを生成する(ステップS31)。制御部217は、ユーザ音声データを生成すると、記憶部216に記憶されている起動コマンドを示すデータを参照して、ユーザ音声データが起動コマンドを示すか否かを判定する(ステップS32)。
制御部217は、ユーザ音声データが起動コマンドを示さないと判定した場合(ステップS32のNo)、図11及び図12に示す動作を終了する。一方、制御部217は、ユーザ音声データが起動コマンドを示すと判定すると(ステップS32のYes)、レディ状態となり、音声入力部211がユーザ音声を入力したか否かを判定する(ステップS33)。
制御部217は、音声入力部211がユーザ音声を入力したと判定すると(ステップS33のYes)、ユーザ音声データを生成し(ステップS34)、ユーザ音声データの音量レベルを低下させて低音量レベル音声データを生成する(ステップS35)。制御部217は、低音量レベル音声データを生成すると、第1通信部214を介して第1サーバ3にユーザ音声データを送信し、第2通信部215を介して第1端末22aに低音量レベル音声データを送信する(ステップS36)。
また、制御部217は、音声入力部211がユーザ音声を入力していないと判定すると(ステップS33のNo)、所定の期間が経過したか否かを判定する(ステップS37)。制御部217は、所定の期間が経過していないと判定すると(ステップS37のNo)、再度、音声入力部211がユーザ音声を入力したか否かを判定する(ステップS33)。換言すると、制御部217は、所定の期間が経過するまでの間、ユーザ音声が入力されるまで、ステップS33の処理とステップS37の処理とを繰り返し実行する。制御部217は、所定の期間が経過したと判定すると(ステップS37のYes)、図11及び図12に示す動作を終了する。
また、図12に示すように、制御部217は、ユーザ音声データ及び低音量レベル音声データを送信すると、所定の期間が経過したか否かを判定する(ステップS38)。制御部217は、所定の期間が経過していないと判定すると(ステップS38のNo)、音声入力部211がユーザ音声を入力したか否かを判定する(ステップS39)。制御部217は、音声入力部211がユーザ音声を入力していないと判定すると(ステップS39のNo)、所定の期間が経過したか否かを判定し(ステップS38)、所定の期間が経過したと判定すると(ステップS38のYes)、図11及び図12に示す動作を終了する。
また、制御部217は、音声入力部211がユーザ音声を入力したと判定すると(ステップS39のYes)、ユーザ音声に対応する低音量レベル音声データを生成し(ステップS40)、第1通信部214を介して第1サーバ3に低音量レベル音声データを送信する(ステップS41)。制御部217は、低音量レベル音声データを送信すると、所定の期間が経過したか否かを判定し(ステップS38)、所定の期間が経過したと判定すると(ステップS38のYes)、図11及び図12に示す動作を終了する。
以上、図1、図2、図11及び図12を参照して第1スマートスピーカ21aの動作を説明した。なお、第2スマートスピーカ21b及び第3スマートスピーカ21cは、第1スマートスピーカ21aと同様に、図11及び図12に示す動作を実行する。
続いて図1~図3及び図13を参照して、実施形態5に係る無効処理について説明する。図13は、実施形態5に係る無効処理を示す図である。図13において、横軸は時間軸である。図13は、第1スマートスピーカ21aに入力されたユーザ音声、ユーザ音声に対応する音声データ、第1スマートスピーカ21aから第1サーバ3へ送信される音声データ、及び第1スマートスピーカ21aから第1端末22aへ送信される音声データを示す。
図13に示すように、本実施形態では、第2音声データ52aに対応する低音量レベル音声データ52bが第1端末22aに送信される。低音量レベル音声データ52bは、第2音声データ52aの音量レベルを低下させた音声データである。また、所定の期間の経過前に、第3音声データ53aの一部に対応する低音量レベル音声データ53bが第1端末22aへ送信される。低音量レベル音声データ53bは、第3音声データ53aのうちの所定の期間経過前の部分の音量レベルを低下させた音声データである。
第1端末22aは、第1スマートスピーカ21aから受信した低音量レベル音声データ52b、53bを、第2サーバ4を介して第2端末22b及び第3端末22cへ送信する。したがって、所定の期間が経過する前に、第2スマートスピーカ21b及び第3スマートスピーカ21cから、低音量レベル音声データ52b、53bに対応するユーザ音声が出力される。しかしながら、低音量レベル音声データ52b、53bの音量レベルは、ユーザ音声が音声出力部212から出力されても音声入力部211がユーザ音声を入力しない音量レベルに設定されている。したがって、第2スマートスピーカ21b及び第3スマートスピーカ21cの音声入力部211は、低音量レベル音声データ52b、53bに対応するユーザ音声を入力しない。
以上、図1~図3、及び図11~図13を参照して、本発明の実施形態5について説明した。本実施形態によれば、第1処理ユニット2a~第3処理ユニット2cのユーザが意図しない処理コマンドが、第1スマートスピーカ21a~第3スマートスピーカ21cから第1サーバ3へ送信されることを抑制することができる。
例えば、第1スマートスピーカ21aに対してユーザが起動コマンドを発声した後に処理コマンドを発声した場合、第2スマートスピーカ21b及び第3スマートスピーカ21cから、処理コマンドを示す小音量の音声が出力される。しかしながら、処理コマンドを示す音声の音量は小さいため、第2スマートスピーカ21b及び第3スマートスピーカ21cの音声入力部211は、処理コマンドを示す音声を入力しない。この結果、第1スマートスピーカ21aに対してユーザが発声した処理コマンドは、第2スマートスピーカ21b及び第3スマートスピーカ21cから第1サーバ3へ送信されない。よって、第2処理ユニット2bのユーザ及び第3処理ユニット2cのユーザが意図しない処理コマンドが、第2スマートスピーカ21b及び第3スマートスピーカ21cから第1サーバ3へ送信されることを抑制することができる。
[実施形態6]
続いて図1~図3、及び図14~図16を参照して、本発明の実施形態6について説明する。但し、実施形態1~5と異なる事項を説明し、実施形態1~5と同じ事項についての説明は割愛する。実施形態6は、第1スマートスピーカ21a~第3スマートスピーカ21cが、レディ状態となると、重畳音声データを第1端末22a~第3端末22cへ送信する点で、実施形態1~5と異なる。
まず図2を参照して、第1スマートスピーカ21aの構成を説明する。本実施形態において、記憶部216は、実施形態3と同様に、別音データを記憶している。また、制御部217は、実施形態5と同様に、低音量レベル音声データを生成する。制御部217は更に、低音量レベル音声データに別音データを重畳させて、重畳音声データを生成する。本実施形態において、制御部217は、レディ状態となってから所定の期間が経過するまでの間に音声入力部211がユーザ音声を入力すると、第2通信部215を介して第1端末22aに重畳音声データを送信する。第2スマートスピーカ21b及び第3スマートスピーカ21cも同様に、別音データを記憶しており、レディ状態となってから所定の期間が経過するまでの間に音声入力部211がユーザ音声を入力すると、第2通信部215から重畳音声データを送信する。
続いて、図1、図2、図14及び図15を参照して第1スマートスピーカ21aの動作を説明する。図14及び図15は、実施形態6に係る第1スマートスピーカ21aの動作を示すフローチャートである。図14及び図15に示す動作は、図11及び図12に示す動作と比べて、重畳音声データを生成する処理が追加されている(ステップS51及びステップS52)。
具体的には、図14に示すように、制御部217は、低音量レベル音声データを生成すると(ステップS35)、低音量レベル音声データに別音データを重畳させて、重畳音声データを生成する(ステップS51)。制御部217は、重畳音声データを生成すると、第1通信部214を介して第1サーバ3にユーザ音声データを送信し、第2通信部215を介して第1端末22aに重畳音声データを送信する(ステップS36)。
また、図15に示すように、制御部217は、低音量レベル音声データを生成すると(ステップS40)、低音量レベル音声データに別音データを重畳させて、重畳音声データを生成する(ステップS52)。制御部217は、重畳音声データを生成すると、第2通信部215を介して第1端末22aに重畳音声データを送信する(ステップS41)。
以上、図1、図2、図14及び図15を参照して第1スマートスピーカ21aの動作を説明した。なお、第2スマートスピーカ21b及び第3スマートスピーカ21cは、第1スマートスピーカ21aと同様に、図14及び図15に示す動作を実行する。
続いて図1~図3及び図16を参照して、実施形態6に係る無効処理について説明する。図16は、実施形態6に係る無効処理を示す図である。図16において、横軸は時間軸である。図16は、第1スマートスピーカ21aに入力されたユーザ音声、ユーザ音声に対応する音声データ、第1スマートスピーカ21aから第1サーバ3へ送信される音声データ、及び第1スマートスピーカ21aから第1端末22aへ送信される音声データを示す。
図16に示すように、本実施形態では、第2音声データ52aに対応する重畳音声データ52cが第1端末22aへ送信される。重畳音声データ52cは、第2音声データ52aの音量レベルを低下させた低音量レベル音声データに別音データを重畳した音声データであり、重畳音声を示す。また、所定の期間の経過前に、第3音声データ53aの一部に対応する重畳音声データ53cが第1端末22aへ送信される。重畳音声データ53cは、第3音声データ53aのうちの所定の期間経過前の部分の音量レベルを低下させた音声データに別音データを重畳した音声データであり、重畳音声を示す。
第1端末22aは、第1スマートスピーカ21aから受信した重畳音声データ52c、53cを、第2サーバ4を介して第2端末22b及び第3端末22cへ送信する。したがって、所定の期間が経過する前に、第2スマートスピーカ21b及び第3スマートスピーカ21cから重畳音声が出力されて、第2スマートスピーカ21bの音声入力部211及び第3スマートスピーカ21cの音声入力部211に重畳音声が入力される。その結果、第2スマートスピーカ21b及び第3スマートスピーカ21cから第1サーバ3へ重畳音声データ52cが送信される。
第1サーバ3は、第2スマートスピーカ21b及び第3スマートスピーカ21cから重畳音声データ52cを受信すると、重畳音声データ52cから処理コマンドを認識できるか否かを判定する。重畳音声データ52cは、既に説明したように、低音量レベル音声データに別音データを重畳した音声データである。そのため、低音量レベル音声データが処理コマンドを示す場合であっても、処理コマンドを示す音声データに別音声データが重畳されているため、第1サーバ3は、重畳音声データ52cから処理コマンドを認識することができない。
以上、図1~図3、及び図14~図16を参照して、本発明の実施形態6について説明した。本実施形態によれば、第1処理ユニット2a~第3処理ユニット2cのユーザが意図しない処理コマンドが、第1スマートスピーカ21a~第3スマートスピーカ21cから第1サーバ3へ送信されることを抑制することができる。
例えば、第1スマートスピーカ21aに対してユーザが起動コマンドを発声した後に処理コマンドを発声した場合、第2スマートスピーカ21b及び第3スマートスピーカ21cから、処理コマンドを示す音声に別の音声が重畳された重畳音声が出力される。換言すると、第2スマートスピーカ21b及び第3スマートスピーカ21cは、処理コマンドを示す音声とは異なる音声を出力する。よって、第2処理ユニット2b及び第3処理ユニット2cのユーザが意図しない処理コマンドが、第2スマートスピーカ21b及び第3スマートスピーカ21cから第1サーバ3へ送信されることを抑制することができる。
以上、本発明の実施形態1~6について図面(図1~図16)を参照しながら説明した。但し、本発明は、上記の実施形態に限られず、その要旨を逸脱しない範囲で種々の態様において実施することが可能である。
例えば、本発明による実施形態において、第1スマートスピーカ21a~第3スマートスピーカ21cが撮像部213を備える構成を説明したが、第1端末22a~第3端末22cが撮像部を備えてもよい。あるいは、第1端末22a~第3端末22cに周辺装置としてカメラ装置が接続されてもよい。
また、本発明による実施形態において、遠隔対話システム1はウエブ会議システムであったが、遠隔対話システム1はテレビ会議システム又は電話会議システムであってもよい。この場合、第1端末22a~第3端末22cは、LANを介して接続される。
遠隔対話システム1がテレビ会議システム又は電話会議システムである場合、第2サーバ4は省略され得る。また、遠隔対話システム1が電話会議システムである場合、第1端末22a~第3端末22cは、電話会議専用のマイク/スピーカ装置であり得る。また、遠隔対話システム1が電話会議システムである場合、第1表示装置23a~第3表示装置23cは省略され得る。
また、本発明による実施形態において、第1処理ユニット2a~第3処理ユニット2cが第1端末22a~第3端末22cを含む構成について説明したが、第1スマートスピーカ21a~第3スマートスピーカ21cが第1端末22a~第3端末22cの機能を有してもよい。この場合、第1端末22a~第3端末22cは省略され得る。
また、本発明による実施形態において、遠隔対話システム1は3つの処理ユニットを備えたが、遠隔対話システム1は、2つの処理ユニット又は4つ以上の処理ユニットを備えてもよい。