JP5862585B2

JP5862585B2 - コミュニケーションシステム及びロボット

Info

Publication number: JP5862585B2
Application number: JP2013059420A
Authority: JP
Inventors: 宏直林; 拓也岩田
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2013-03-22
Filing date: 2013-03-22
Publication date: 2016-02-16
Anticipated expiration: 2033-03-22
Also published as: US10277185B2; US20150381132A1; JP2014186421A; CN105027542B; WO2014147989A1; CN105027542A

Description

本発明はコミュニケーションシステム、ロボット、音量制御の方法及びロボットの制御プログラムに関する。

近年、ロボットを人がいる場所（例えば会場）に置き、ロボットと人とのコミュニケーションを実行させることが行われている。例えば特許文献１では、ロボットの周囲にいる人間の人数を検出して、その人数に応じて、ロボットの周囲にいる人間に異なる注意をスピーカを用いて促すコミュニケーションロボットの技術が開示されている。

特開２００７−１１８１２９号公報

上述のようにロボットと人とのコミュニケーションを実行する場合に、ロボット（ロボットが遠隔操作型のロボットである場合にはロボットを遠隔操作する人）は、ロボット周辺の人の会話の状態について十分に認識することができないという問題点があった。即ち、ロボット周辺の人は現在雑談をしているのか、それとも誰かのスピーチ等を静かに聞いているのか、ということについて、ロボット又はこれを操作する人は認識することができなかった。そのため、例えばロボット周辺の人が誰かのスピーチを静かに聞いている最中に、ロボットが大声をあげる動作を実行してしまうことが生じ得る。このように、ロボットの挙動が、周囲の雰囲気を乱してしまうということがあり得る。

本発明は、このような問題点を解決するためになされたものであり、周囲の環境に応じてコミュニケーションの音量を変更することができるコミュニケーションシステム、ロボット、音量制御の方法及びロボットの制御プログラムを提供することを目的とする。

本発明にかかるコミュニケーションシステムは、第１のマイクロフォン、第１のスピーカ、第２のスピーカ、第２のマイクロフォン、話者数判定部及び制御部を備える。第１のマイクロフォンは、周囲の音声を音声信号として取得する。第１のスピーカは、前記第１のマイクロフォンの近傍に設けられ、音声を出力する。第２のスピーカは、前記第１のマイクロフォンから前記音声信号を取得し、音声として出力する。第２のマイクロフォンは、周囲の音声を音声信号として取得し、取得した当該音声信号を前記第１のスピーカに対して出力する。話者数判定部は、前記第１のマイクロフォンが取得した音声信号に基づき、前記第１のマイクロフォンの周囲の話者の人数を示す話者数を判定する。制御部は、前記話者数判定部の判定に基づいて、前記第１のスピーカの音量を制御する。このような構成により、コミュニケーションシステムは、第１のマイクロフォンの周囲の話者の人数に応じて第１のスピーカの音量を制御することができる。そのため、コミュニケーションシステムは、第１のマイクロフォンの周囲の環境に応じて、コミュニケーションの音量を変更することができる。

前記制御部は、前記話者数が閾値未満であった場合には、当該人数が閾値以上であった場合と比較して、前記第１のスピーカの音量を小さくするように制御してもよい。このような構成により、第１のマイクロフォンの周囲の話者の人数が閾値未満のときには、その近傍にある第１のスピーカから出力される音声の音量が小さくなる。そのため、コミュニケーションシステムは、第１のスピーカの周囲でなされるスピーチを妨害してしまうことを防ぐことができる。

前記制御部は、前記話者数が閾値未満であった場合に、所定の時間よりも少ない時間だけ当該人数が閾値以上になったときでも、前記第１のスピーカの音量を小さくしたままに制御してもよい。このような構成により、第１のマイクロフォンの周囲でスピーチがなされている場合に、短い間だけ多数の人の声がしたようなときでも、第１のスピーカの音量を小さいままにすることができる。これにより、コミュニケーションシステムは、第１のスピーカの周囲でなされるスピーチを妨害してしまうことを防ぐことができる。

前記制御部は、前記話者数が閾値以上であった場合に、所定の時間よりも少ない時間だけ当該人数が閾値未満になったときでも、前記第１のスピーカの音量を大きくしたままに制御してもよい。このような構成により、第１のマイクロフォンの周囲で多数の人の会話がなされている場合に、短い間だけ静かな状態になったときでも、第１のスピーカの音量をそのままにすることができる。これにより、コミュニケーションシステムは、第１のスピーカの音量を小さくしてしまうことによって、第２のスピーカ及び第２のマイクロフォンを使って話をする人のコミュニケーションが阻害されてしまうことを防ぐことができる。

前記制御部は、前記話者数が特定の時間内に所定数よりも大きく減少する場合に、前記第１のスピーカの音量を小さくするように制御してもよい。このような構成により、制御部は、第１のマイクロフォンの周囲の状態を、多くの人が雑談している状態から、聴衆がスピーチを静かに待っている状態に変化したことを検出して、第１のスピーカの音量を小さくすることができる。これにより、コミュニケーションシステムは、第１のスピーカの周囲でなされるスピーチを妨害してしまうことを防ぐことができる。

前記制御部は、前記話者数が閾値以下であり、かつ減少している場合に、前記第１のスピーカの音量を小さくするように制御してもよい。このような構成により、制御部は、第１のマイクロフォンの周囲の状態が、聴衆がスピーチを静かに待っている状態であることを検出して、第１のスピーカの音量を小さくすることができる。これにより、コミュニケーションシステムは、第１のスピーカの周囲でなされるスピーチを妨害してしまうことを防ぐことができる。

前記コミュニケーションシステムは、前記第１のマイクロフォンが取得した音声と、前記第２のマイクロフォンが取得した音声との大きさを比較した比較結果を出力する比較部をさらに備え、前記制御部は、前記比較部の比較結果に基づいて前記第１のスピーカの音量を制御してもよい。これにより、コミュニケーションシステムは、第１のスピーカの音量を、第１のスピーカの周囲の音声の大きさに合わせたものにすることができる。

前記制御部は、一定時間内における前記話者数に基づいて前記第１のスピーカの音量を制御してもよい。これにより、短い時間のみにおいて話者数が変化した場合でも、制御端末はその変化にとらわれず、マイクの周囲の正確な状態の判定をすることができる。

前記話者数判定部は、一定時間内における前記話者数として前記一定時間内に会話をした個人の数をカウントしてもよい。これにより、話者数判定部は、異なる人同士が異なる時刻で会話をしている場合において、正確に会話をした合計の人数を把握することができる。従って制御部は、第１のマイクロフォンの周囲の正確な状態の判定をすることができる。

本発明にかかるロボットは、人間との間で音声を用いたコミュニケーションを実行するロボットであって、スピーカ、マイクロフォン、話者数判定部及び制御部を備える。スピーカは、音声を出力する。マイクロフォンは、前記ロボットの周囲の音声を音声信号として取得する。話者数判定部は、前記マイクロフォンが取得した音声信号に基づき、前記ロボットの周囲の話者の人数を判定する。制御部は、前記話者数判定部の判定に基づいて、前記スピーカの音量を制御する。このような構成により、ロボットは、周囲の話者の人数に応じてスピーカの音量を制御することができる。そのため、ロボットは、周囲の環境に応じて、コミュニケーションの音量を変更することができる。

本発明にかかる音量制御の方法は、周囲の音声を音声信号として取得する第１のマイクロフォンと、前記第１のマイクロフォンの近傍に設けられ、音声を出力する第１のスピーカと、前記第１のマイクロフォンから前記音声信号を取得し、音声として出力する第２のスピーカと、周囲の音声を音声信号として取得し、取得した当該音声信号を前記第１のスピーカに対して出力する第２のマイクロフォンと、が設けられたコミュニケーションシステムにおける音量制御の方法である。この音量制御の方法は、少なくとも以下のステップ（ａ）〜（ｂ）を含む。
（ａ）前記第１のマイクロフォンが取得した音声信号に基づき、前記第１のマイクロフォンの周囲の話者の人数を判定すること、及び
（ｂ）前記判定に基づいて、前記第１のスピーカの音量を制御すること。
このような構成により、コミュニケーションシステムは、第１のマイクロフォンの周囲の話者の人数に応じて第１のスピーカの音量を制御することができる。そのため、コミュニケーションシステムは、第１のマイクロフォンの周囲の環境に応じて、コミュニケーションの音量を変更することができる。

本発明にかかるロボットの制御プログラムは、音声を出力するスピーカと、周囲の音声を音声信号として取得するマイクロフォンを備えたロボットの制御プログラムである。このロボットの制御プログラムは、少なくとも以下のステップ（ａ）〜（ｂ）をロボットに実行させる。
（ａ）前記マイクロフォンが取得した音声信号に基づき、前記ロボットの周囲の話者の人数を判定すること、及び
（ｂ）前記判定に基づいて、前記スピーカの音量を制御すること。
このような構成により、ロボットは、周囲の話者の人数に応じてスピーカの音量を制御することができる。そのため、ロボットは、周囲の環境に応じて、コミュニケーションの音量を変更することができる。

本発明により、周囲の環境に応じてコミュニケーションの音量を変更することができるコミュニケーションシステム、ロボット、音量制御の方法及びロボットの制御プログラムを提供することができる。

実施の形態１にかかるロボットの外観の例を示す図である。実施の形態１にかかるロボットの頭部の構成例を示す図である。実施の形態１にかかるロボットの内部構成の一例を示すブロック構成図である。実施の形態１にかかるロボットを有するコミュニケーションシステムの一例を示した構成図である。実施の形態１にかかるロボットの周辺にいる人間の話し声の大きさの一例を示したグラフである。実施の形態１にかかる話者数判定部が判定した話者数のグラフの例である。実施の形態１にかかる制御端末の状態判定の処理の一例を示したフローチャートである。実施の形態１において、話者数判定部の判定した話者数及び移動平均話者数の一例を示すグラフである。関連技術にかかるコミュニケーションシステムの構成図である。実施の形態１にかかるロボットの処理の一例を示すブロック構成図である。実施の形態２にかかるロボットの内部構成の一例を示すブロック構成図である。実施の形態２にかかるロボットを有するコミュニケーションシステムの一例を示した構成図である。実施の形態３にかかるロボットの内部構成の一例を示すブロック構成図である。実施の形態３にかかるロボットを有するコミュニケーションシステムの一例を示した構成図である。

実施の形態１
以下、図面を参照して本発明の実施の形態１について説明する。図１は、本実施の形態１にかかるロボット１００の外観の例を示す図である。ロボット１００は、人間の形を模して製造された遠隔操作ロボットであり、頭部１０１、胴体部１０２、右腕部１０３、左腕部１０４、右足部１０５及び左足部１０６を備える。ロボット１００は、遠隔操作により、各部を動かすことが可能である。

図２は、頭部１０１の構成例を示す図である。頭部１０１は、右目１１１、左目１１２、口１１３、右耳１１４及び左耳１１５を有する。右目１１１、左目１１２は、それぞれ人間の顔の右目及び左目に対応する箇所に設けられており、右目１１１はカメラとして機能する。ロボット１００は、このカメラにより周囲の環境を撮影して、遠隔操作をする人（以下、遠隔操作者と記載）にその撮影データを送信することができる。遠隔操作者はその撮影データを映像として見ることにより、ロボット１００の周囲の環境を視認することができる。

口１１３は、人間の顔の口に対応する箇所に設けられている。口１１３にはスピーカが設けられており、遠隔操作側から送信された音声信号をそのスピーカにより音声として再生して、ロボット１００の周囲の人間に聞こえるようにすることができる。

右耳１１４及び左耳１１５は、人間の顔の右耳及び左耳に対応する箇所に設けられている。右耳１１４にはマイクロフォン（以下、マイクと略記）が設けられており、ロボット１００はそのマイクにより周囲の物音（例えばロボット１００の周囲の人間の会話）を取得して、それを電気信号の音声データとして遠隔操作者に送信することができる。遠隔操作者はその音声データをスピーカで音声として聞くことにより、ロボット１００の周囲の物音を確認することができる。

図３は、ロボット１００の内部構成の一例を示すブロック構成図である。ロボット１００は、カメラ１２１、スピーカ１２２、マイク１２３、話者数判定部１２４、制御部１２５及び可動部１２６を備える。カメラ１２１は、右目１１１に設けられた前述のカメラである。スピーカ１２２は、口１１３に設けられた前述のスピーカである。マイク１２３は、右耳１１４に設けられた前述のマイクである。

話者数判定部１２４は、マイク１２３から取得した周囲の物音に基づいて、ロボット１００の周囲で話している話者が何人いるかを判定する。この処理の詳細については後述する。

制御部１２５は、遠隔操作側からの制御信号に応じてロボット１００の各部を制御するものであり、例えばＣＰＵ（Central Processing Unit）、メモリ、その他の回路で構成されるＩＣ（Integrated Circuit）である。制御部１２５は、例えば、制御信号に応じて、スピーカ１２２の音量を調整することができる。可動部１２６は、制御部１２５からの制御に応じて頭部１０１〜左足部１０６を動かすことを可能にするユニットであり、例えばアクチュエータである。

図４は、以上に示した構成を有するロボット１００を有するコミュニケーションシステムの一例を示した構成図である。図４において、コミュニケーションシステム１０は、ロボット１００、ネットワーク２００及び遠隔操作側３００を備え、ロボット１００はネットワーク２００を介して遠隔操作側３００に接続されている。

図４には、ロボット１００の構成要素として、スピーカ１２２（第１のスピーカ）、マイク１２３（第１のマイクロフォン）、話者数判定部１２４、制御部１２５の他にアンプ１２７が記載されている。アンプ１２７は、遠隔操作側３００からの音声信号を増幅してスピーカ１２２に供給する。その他、ロボット１００は図１〜図３に示した構成要素を有しているが、図４ではそれらの記載は省略されている。

ネットワーク２００は有線又は無線のネットワークである。遠隔操作側３００は、ロボット１００の遠隔操作者がその遠隔操作を実行するところであり、マイク３０１（第２のマイクロフォン）、アンプ３０２、スピーカ３０３（第２のスピーカ）、エコーキャンセラ３０４及び制御端末３０５を備える。

以下、遠隔操作側３００の各部について説明する。マイク３０１は、ネットワーク２００を介してスピーカ１２２に接続されている。遠隔操作者は、マイク３０１に自身の音声を入力することにより、その音声は電気信号に変換され、ネットワーク２００、アンプ１２７を介してスピーカ１２２に送出される。上述の通り、スピーカ１２２はその音声信号を音声に変換して出力する。このようにして、遠隔操作者は自身の音声を、遠く離れたロボット１００から出力させることができる。

アンプ３０２は、マイク１２３が出力した音声信号を、ネットワーク２００を介して取得し、増幅してスピーカ３０３に出力する。スピーカ３０３は、音声信号を音声に変換して出力する。このようにして、遠隔操作者はロボット１００の周囲の物音を聞くことができる。

エコーキャンセラ３０４は、スピーカ１２２、マイク１２３、マイク３０１、スピーカ３０３により生じるエコーを打ち消すユニットである。エコーキャンセラ３０４は、マイク３０１とスピーカ１２２とを接続する接続線と、アンプ３０２とマイク１２３とを接続する接続線との間に設けられている。

遠隔操作者がマイク３０１から自身の音声を入力することにより、スピーカ１２２からその音声が出力される。このとき、この音声がマイク１２３から入力されることにより、スピーカ３０３から音声が出力されてしまう。すなわち、エコーが生じてしまう。エコーキャンセラ３０４は、このエコーの発生を防止するため、マイク３０１に出力された遠隔操作者の音声信号を接続線から検出し、それをキャンセルさせるキャンセル信号をアンプ３０２とマイク１２３とを接続する接続線に出力する。これにより、エコーキャンセラ３０４は、エコーの発生を防止することができる。

制御端末３０５は、話者数判定部１２４が出力した判定結果を取得し、それに基づいてロボット１００の制御を実行する。例えば制御端末３０５は、ロボット１００のスピーカ１２２の音量を自動的に制御することができる。以下、この制御の詳細について説明する。

図５は、ロボット１００の周辺にいる人間の話し声の大きさの一例を示したグラフである。図５では、ロボット１００の周辺に、Ａさん〜Ｆさんの６人の人間がいることを前提としている。図５において、横軸は時刻を示し、縦軸は話し声の大きさを示している。また、図５において初期時刻はｔ０である。

図５において、Ａさんは時刻ｔ０〜ｔ１では無言であり、時刻ｔ１〜ｔ２では小さな声で話し、時刻ｔ２〜ｔ３では無言であり、時刻ｔ３〜ｔ４では小さな声で話し、時刻ｔ４〜ｔ５では無言であり、時刻ｔ５〜ｔ６では大きな声で話し、時刻ｔ６以降では無言である。Ｂさんは時刻ｔ０〜ｔ７では無言であり、時刻ｔ７〜ｔ８では中程度の声で話し、時刻ｔ８〜ｔ９では無言であり、時刻ｔ９以降では中程度の声で話している。Ｃさんは時刻ｔ０〜ｔ１０では小さな声で話し、時刻ｔ１０〜ｔ１１では無言であり、時刻ｔ１１〜ｔ１２では小さな声で話し、時刻ｔ１２以降では大きな声で話している。Ｄさんは時刻ｔ０〜ｔ１３では無言であり、時刻ｔ１３〜ｔ１４では大きな声で話し、時刻ｔ１４以降では無言である。Ｅさんは時刻ｔ０〜ｔ１５では無言であり、時刻ｔ１５〜ｔ１６では小さな声で話し、時刻ｔ１６以降では無言である。Ｆさんは時刻ｔ０以降から無言である。このように、人の話し声は大きな声や小さな声が混じっているほか、長いスパンで見ると一人の音声は連続しているわけではなく断続的であるのが特徴である。マイク１２３は、このような話し声を音声データとして取得する。

マイク１２３が取得した音声データは、ネットワーク２００、アンプ３０２を介してスピーカ３０３に入力される。さらに、マイク１２３が取得した音声データは、話者数判定部１２４に入力される。

話者数判定部１２４は、マイク１２３が取得した音声データから、現在話している人間（話者）の数を判定する。ここで、人間の声は、各人の声帯の固有振動が異なる。そのため、同時に２人以上の声が発せられている場合でも、話者数判定部１２４は音声データを解析することにより、２以上の異なる固有振動を検出する。これにより、話者数判定部１２４は、２人以上が声を出していることを判定する。このようにして、話者数判定部１２４は、マイク１２３の周囲の話者の人数を示す話者数を判定する。

図６は、話者数判定部１２４が判定した話者数のグラフの例である。図６において、横軸は時刻を示し、縦軸は特定の時刻における話者数を示している。図６において、初期時刻ｔ２０では、マイク１２３の周辺（即ちロボット１００の周辺）の話者数は１人である。時刻ｔ２１では、話者数は０人に減少する。時刻ｔ２２では、話者数は１人に戻る。時刻ｔ２３では、話者数は２人に増加する。時刻ｔ２４では、話者数は３人になり、すぐ後に４人に増加する。時刻ｔ２５では、話者数は２人に減少する。時刻ｔ２６では、話者数は１人になる。時刻ｔ２７では、話者数は２人に戻る。時刻ｔ２８では、話者数は一時１人になるが、すぐ２人に戻る。時刻ｔ２９では、話者数は１人になる。時刻ｔ３０では、話者数は２人に戻る。時刻ｔ３１では、話者数は３人になる。時刻ｔ３２では、話者数は２人になる。

話者数判定部１２４は、以上のようにして、マイク１２３の周囲の話者の人数を判定する。話者数判定部１２４は、ネットワーク２００を介して制御端末３０５に出力する。制御端末３０５は、その判定結果に基づいて、スピーカ１２２の音量を制御する。

さらに話者数判定部１２４は、話者数判定部１２４が判定した現在のマイク１２３の周囲の話者数及びある一定時間内の過去のマイク１２３の周囲の話者数に基づいて、周囲の話者数の単純移動平均（以下、移動平均話者数と記載）を算出する。移動平均話者数のデータも、話者数判定部１２４が判定結果として制御端末３０５に出力する。

以下の説明においては、制御端末３０５が、プログラムに基づいて自動的にスピーカ１２２の音量を設定し、スピーカ１２２の音量を制御する制御信号を出力することにより、スピーカ１２２の音量を制御する。ただし、遠隔操作者は、制御端末３０５に表示された判定結果に基づいて、制御端末３０５を操作することにより、スピーカ１２２の音量を制御してもよい。具体的には、制御端末３０５から、スピーカ１２２の音量を制御する制御信号を制御部１２５に出力し、制御部１２５はその制御信号に応じてスピーカ１２２の音量を制御する。これにより、遠隔操作者は、スピーカ１２２の音量を制御することができる。

ここで、話者数判定部１２４は、マイク１２３が取得した音声のうちで、一定レベル以上の音量を有する声を出す人を話者数にカウントし、一定レベル未満の音量を有する声を出す人は話者数にカウントしていない。「一定レベル以上の音量を有する声を出す人」は、通常の対人距離において人と会話をしている人であり、「一定レベル未満の音量を有する声を出す人」は、ささやき声やウィスパーボイスといった小さい声で人と会話をしている人を示している。話者数判定部１２４は、例えば音圧レベルの閾値を５５ｄＢとし、それ以上の音量を有する声を出している人を話者数にカウントすることによって、一定レベル以上の音量を有する声を出す人のみを話者数にカウントする。一般的な会話の音圧レベルは約６０ｄＢであるのに対し、ささやき声の音圧レベルは３０〜４０ｄＢであって、音圧レベルの閾値を５５ｄＢとすることにより、一般的な会話をする人のみを話者数にカウントすることができるからである。なお音圧レベルの閾値は、５０ｄＢや４０ｄＢなど、他の値でもよい。

制御端末３０５は、設定された閾値及び話者数判定部１２４が算出した移動平均話者数に基づいて、周囲の状態を以下の３つの状態に分類して判定する。
ａ．多数の人が雑談をしている状態
ｂ．誰かが話し始めるのを比較的静かに待っている状態（スピーチ待ちの状態）
ｃ．特定の人がスピーチを行っている状態又はスピーチが間もなくなされる状態
以下、詳細について説明する。

制御端末３０５には、マイク１２３の周囲の話者数において、第１の閾値Ｒ１として１．５、第２の閾値Ｒ１'として２．５、第３の閾値Ｒ２として３．５、第４の閾値Ｒ２'として４．５が設定されている。ここで第１の閾値Ｒ１〜第４の閾値Ｒ２'の大小関係はＲ１＜Ｒ１'＜Ｒ２＜Ｒ２'である。

さらに、移動平均話者数のある時間での傾きα（微分値）の閾値として第５の閾値Ｒ３及び第６の閾値Ｒ３'（Ｒ３及びＲ３'は何らかの負の数である）が設定されている。ここで、第１の閾値Ｒ１、第２の閾値Ｒ１'及び第５の閾値Ｒ３は、周囲の状況が、特定の人がスピーチを行っている状態等であるかスピーチ待ちの状態であるかを制御端末３０５が判定するための閾値である。また、第３の閾値Ｒ２、第４の閾値Ｒ２'及び第６の閾値Ｒ３'は、周囲の状況が、多数の人が雑談をしている状態であるかスピーチ待ちの状態であるかを制御端末３０５が判定するための閾値である。以下、具体的な制御端末３０５の判定について説明する。

話者数判定部１２４が算出した移動平均話者数が第３の閾値Ｒ２以上であれば（即ち移動平均話者数が３．５人以上であれば）、原則として、制御端末３０５は周囲の状況を多数の人が雑談している状態（状態ａ）であると判定する。少数ではない人数の人が会話をしているため、周囲の状態はスピーチ等がなされている状態ではなく、雑談が行われている状態であると考えられるためである。

ただし、移動平均話者数が第３の閾値Ｒ２以上であっても、移動平均話者数が第４の閾値Ｒ２'未満であり、かつ移動平均話者数のある時間での傾きα（微分値）が第６の閾値Ｒ３'未満である場合に、制御端末３０５は周囲の状況を状態ｂであると判定する。つまり、制御端末３０５は、周囲の状況を、多数の人が雑談をしている状態からスピーチ待ちの状態に急に遷移したと判定する。ここで第６の閾値Ｒ３'は、移動平均話者数が第４の閾値Ｒ２'未満であるときに、移動平均話者数が傾き第６の閾値Ｒ３'で減少することにより、特定の時間内（例えば３秒以内）に移動平均話者数が第３の閾値Ｒ２未満まで減少するとみなされる値である。

制御端末３０５は、話者数判定部１２４が算出した移動平均話者数が第１の閾値Ｒ１以上かつ第３の閾値Ｒ２未満であれば、原則として、周囲の状況を、誰かが話し始めるのを静かに待っている状態（状態ｂ）であると判定する。周囲の状態は、少数の人が会話している状態であり、特定の人がスピーチしている状態又はスピーチが間もなくなされる状態ではないものの、周囲の人が好きのままに雑談している状態でもない。従って、周囲の状態は、スピーチ等を周囲の人が待ちながら、少数の人が話をしている状態であると考えるのが妥当である。

ただし、移動平均話者数が第１の閾値Ｒ１以上であっても、移動平均話者数が第２の閾値Ｒ１'未満であり、かつ移動平均話者数のある時刻での傾きαが第５の閾値Ｒ３未満である場合に、制御端末３０５は周囲の状況を状態ｃであると判定する。つまり、制御端末３０５は、周囲の状況を、スピーチ待ちの状態から特定の人がスピーチを行っている状態等に急に遷移したと判定する。ここで第５の閾値Ｒ３は、移動平均話者数が第２の閾値Ｒ１'未満であるときに、移動平均話者数が傾き第５の閾値Ｒ３で減少することにより、特定の時間内に移動平均話者数が第１の閾値Ｒ１未満まで減少するとみなされる値である。

話者数判定部１２４が算出した移動平均話者数が第１の閾値Ｒ１未満であれば、制御端末３０５は周囲の状況を、特定の人がスピーチしている状態又はスピーチが間もなくなされる状態（状態ｃ）であると判定する。マイク１２３の周囲の話者数が１人である場合には、周囲では会話が行われておらず、聞き手に対しての祝辞・式辞・講演などのスピーチがなされていると考えられるためである。また、周囲の話者数が０人である場合には、マイク１２３の周囲の人は、間もなく開始されるスピーチを待っているため話をしていない状態であると考えられる。

まとめると、制御端末３０５は、マイク１２３の周囲の状態が上述の状態ａ、ｂ、ｃのいずれの状態であるかを、次の通りに判定する。制御端末３０５は、移動平均話者数が第３の閾値Ｒ２以上であれば、原則としてマイク１２３の周囲の状態が状態ａであると判定する。しかし制御端末３０５は、移動平均話者数が第４の閾値Ｒ２'未満かつ第３の閾値Ｒ２以上であって移動平均話者数の傾きが第６の閾値Ｒ３'未満である場合にはマイク１２３の周囲の状態が状態ｂであると判定する。制御端末３０５は、移動平均話者数が第３の閾値Ｒ２未満で第１の閾値Ｒ１以上であれば、原則としてマイク１２３の周囲の状態が状態ｂであると判定する。しかし制御端末３０５は、移動平均話者数が第２の閾値Ｒ１'未満かつ第１の閾値Ｒ１以上であって移動平均話者数の傾きが第５の閾値Ｒ３未満である場合にマイク１２３の周囲の状態が状態ｃであると判定する。制御端末３０５は、移動平均話者数が第１の閾値Ｒ１未満であれば、マイク１２３の周囲の状態が状態ｃであると判定する。

図７は、ある特定の時刻における制御端末３０５の状態判定の処理の一例を示したフローチャートである。以下、制御端末３０５の状態判定処理の例について説明する。

制御端末３０５は、まず、移動平均話者数が第１の閾値Ｒ１未満であるか否かを判定する（ステップＳ１）。移動平均話者数が第１の閾値Ｒ１未満であれば（ステップＳ１のＹｅｓ）、制御端末３０５は、マイク１２３の周囲の状態を状態ｃと判定する（ステップＳ２）。

移動平均話者数が第１の閾値Ｒ１以上であれば（ステップＳ１のＮｏ）、制御端末３０５は、移動平均話者数が第３の閾値Ｒ２以上であるか否かを判定する（ステップＳ３）。

移動平均話者数が第３の閾値Ｒ２未満である場合（ステップＳ３のＮｏ）、制御端末３０５はさらに、移動平均話者数が第２の閾値Ｒ１'未満であり、かつ移動平均話者数の傾きαが第５の閾値Ｒ３未満であるか否かを判定する（ステップＳ４）。

移動平均話者数が第２の閾値Ｒ１'未満であり、かつ移動平均話者数の傾きαが第５の閾値Ｒ３未満である場合（ステップＳ４のＹｅｓ）、制御端末３０５は、マイク１２３の周囲の状態を状態ｃと判定する（ステップＳ２）。

移動平均話者数が第２の閾値Ｒ１'以上であるか、又は移動平均話者数の傾きαが第５の閾値Ｒ３以上である場合（ステップＳ４のＮｏ）、制御端末３０５は、マイク１２３の周囲の状態を状態ｂと判定する（ステップＳ５）。

ステップＳ３の判定処理に戻って説明を続ける。移動平均話者数が第３の閾値Ｒ２以上である場合（ステップＳ３のＹｅｓ）、制御端末３０５はさらに、移動平均話者数が第３の閾値Ｒ２'未満であり、かつ移動平均話者数の傾きαが第６の閾値Ｒ３'未満であるか否かを判定する（ステップＳ６）。

移動平均話者数が第３の閾値Ｒ２'未満であり、かつ移動平均話者数の傾きαが第６の閾値Ｒ３'未満である場合（ステップＳ６のＹｅｓ）、制御端末３０５は、マイク１２３の周囲の状態を状態ｂと判定する（ステップＳ５）。

移動平均話者数が第３の閾値Ｒ２'以上であるか、又は移動平均話者数の傾きαが第６の閾値Ｒ３'以上である場合（ステップＳ６のＮｏ）、制御端末３０５は、マイク１２３の周囲の状態を状態ａと判定する（ステップＳ７）。

なお制御端末３０５は、話者数判定部１２４が算出した移動平均話者数が、閾値Ｒ１又はＲ２との大小関係が変化した状態になっても、所定の時間Ｔ以上その状態が継続しなければ、周囲の状態が変化したとみなさない。即ち、周囲の状態が所定の時間Ｔ未満だけ変化したと見なされた状態でも、制御端末３０５は、周囲の状態が変化したとは判定しない。これは、実際には周囲の状態が変化していないにもかかわらず、周囲の状態が変化したと制御端末３０５が判定することを避けるための措置である。所定の時間Ｔは、マイク１２３の周囲の状態が一時的に変化したと見なせる程度の短い時間であり、例えば１〜５秒程度の時間である（以降も同様である）。

図８は、話者数判定部１２４の判定した話者数及び移動平均話者数の一例を示すグラフである。この図８を用いて、制御端末３０５がスピーカ１２２の音量を制御する一例を説明する。なお図８において、横軸は時刻を示し、縦軸は話者数を示している。図８の実線のグラフは、特定の時刻におけるマイク１２３の周囲の話者数の経過を示すグラフである。実線のグラフにかかるデータは、話者数判定部１２４が判定結果として制御端末３０５に出力する。

図８の点線のグラフは、対象とする時刻よりも前の時刻の話者数を考慮に入れて話者数判定部１２４が算出した移動平均話者数のグラフである。この点線のグラフにかかるデータも、話者数判定部１２４が判定結果として制御端末３０５に出力する。

図８において、期間Ａ（即ち時刻ｔ４１〜ｔ４２）では、移動平均話者数が第３の閾値Ｒ２を超えている。また、移動平均話者数の傾きは第６の閾値Ｒ３'以上である。従って、上述の図７の処理フローにおいて、制御端末３０５はステップＳ１−Ｓ３−Ｓ６の判定を実行し、周囲の状況を、多数の人が雑談している状態（状態ａ）であると判定する（ステップＳ７）。

このとき、制御端末３０５は、スピーカ１２２の音量を大きい音量（例えば７０ｄＢ）にする制御を実行する。即ち、制御端末３０５は、スピーカ１２２の音量を小さくしない。これは、周囲の人が雑談中のため、スピーカ１２２の音量を小さくしなくても、周囲の人が迷惑するようなことがないと考えられるためである。逆に、制御端末３０５がスピーカ１２２の音量を小さくしてしまうと、スピーカ１２２からの音声が、周囲の音声と比較して小さくなりすぎてしまい、ロボット１００の会話相手（即ちロボット１００の遠隔操作者の会話相手）に聞こえなくなってしまう可能性がある。従って、制御端末３０５は、期間Ａにおいて、当初設定されているスピーカ１２２の音量を大きい音量にする。

さらに図８において、時刻ｔ４３では、移動平均話者数が第１の閾値Ｒ１未満であり、かつ移動平均話者数の傾きα（α＜０）が第５の閾値Ｒ３未満になっている。以上から、制御端末３０５は、ステップＳ１の判定を実行し、マイク１２３の周囲の状態が、少数の人が会話している状態（状態ｂ）から、特定の人がスピーチしている状態等（状態ｃ）に遷移したと判定する（ステップＳ２）。この判定に基づいて、制御端末３０５は、スピーカ１２２の音量を小さくする（例えば音量を５０ｄＢにする）制御を実行する。この状態は、スピーチが間もなくなされる状態にすぐ移行すると考えられる。そのため、制御端末３０５は、予めスピーカの音量を下げる制御をして、周囲が静かな環境にすぐ移行することに対して対応するのがよいと考えられるからである。

時刻ｔ４３の後も、周囲の移動平均話者数が第１の閾値Ｒ１以下になっている。制御端末３０５はここから、周囲の状況を、特定の人がスピーチしている状態等（状態ｃ）であると判定する。従って、制御端末３０５は、スピーカ１２２の音量を小さくしたままに制御する。

以上のようにして、制御端末３０５は、時刻ｔ４３以降の期間Ｂにおいて、スピーカ１２２の音量を小さくする制御を実行する。

なお、制御端末３０５が、マイク１２３の周囲の状態が状態ｂであると判定した場合には、スピーカ１２２の音量を中程度にする（例えば音量を６０ｄＢにする）制御を実行する。このように、マイク１２３の周囲の状態が状態ａ、状態ｂ、状態ｃの順に、制御端末３０５はスピーカ１２２の音量を大きく設定する。

なお制御端末３０５は、話者数判定部１２４が算出した移動平均話者数ではなく、話者数判定部１２４が判定した現在のマイク１２３の周囲の話者数に基づいて、図７に示した判定処理を実行してもよい。このとき、図８の期間Ｂ内の時刻ｔ４５〜ｔ４６、時刻ｔ４７〜ｔ４８においては、マイク１２３の周囲の話者数が２人（即ち、第１の閾値Ｒ１以上）になる。しかし、時刻ｔ４５〜ｔ４６、時刻ｔ４７〜ｔ４８の期間は、それぞれ所定の時間Ｔ未満の期間である。従って、制御端末３０５は、特定の人がスピーチを行っている状態（状態ｃ）が継続していると判定する。これにより、制御端末３０５は、期間Ｂにおいてスピーカ１２２の音量を小さくしたままに制御し、元の音量に戻さない。

ただし、制御端末３０５が移動平均話者数に基づいて図７に示した判定処理を実行することにより、マイク１２３周辺の現在の話者数がわずかな時間だけ変動しても、その変動が緩和されて状態が判定される。つまり、制御端末３０５が判定するマイク１２３周辺の状態が頻繁に切り替わることを防ぐことができる。従って、制御端末３０５のマイク１２３の音量の制御が頻繁に変わることを防ぐためには、制御端末３０５が移動平均話者数に基づいて図７に示した判定処理を実行する方が望ましい。

以上説明した実施の形態１にかかるコミュニケーションシステム１０は、周囲の環境に応じて音量を変更することができる。このコミュニケーションシステム１０は、マイク１２３、スピーカ１２２、スピーカ３０３、マイク３０１、話者数判定部１２４及び制御端末３０５を少なくとも備える。マイク１２３は、周囲の音声を音声信号として取得する。スピーカ１２２は、マイク１２３の近傍（例えばマイク１２３から数十ｃｍ〜１ｍ程度の距離）に設けられ、音声を出力する。スピーカ３０３は、マイク１２３から音声信号を取得し、音声として出力する。マイク３０１は、周囲の音声を音声信号として取得し、取得した当該音声信号をスピーカ１２２に対して出力する。話者数判定部１２４は、マイク１２３が取得した音声信号に基づき、マイク１２３の周囲の話者の人数を判定する。制御端末３０５は、話者数判定部１２４の判定に基づいて、スピーカ１２２の音量を制御する。このような構成により、コミュニケーションシステム１０は、マイク１２３の周囲の話者の人数に応じてスピーカ１２２の音量を制御することができる。そのため、コミュニケーションシステム１０は、マイク１２３の周囲の環境に応じて、コミュニケーションの音量を変更することができる。

図９は、従来のコミュニケーションシステムの構成を示した構成図である。図９にかかるコミュニケーションシステム９０は、ロボット７００、ネットワーク８００及び遠隔操作側９００を備え、ロボット７００はネットワーク８００を介して遠隔操作側９００に接続されている。

ロボット７００は、スピーカ７０１、マイク７０２、アンプ７０３及び制御部７０４を備える。スピーカ７０１、マイク７０２、アンプ７０３は、それぞれ図４のスピーカ１２２、マイク１２３、アンプ１２７に対応する。制御部７０４は、スピーカ１２２及びマイク１２３の制御を実行する。

遠隔操作側９００は、マイク９０１、アンプ９０２、スピーカ９０３及びエコーキャンセラ９０４を備える。マイク９０１、アンプ９０２、スピーカ９０３及びエコーキャンセラ９０４は、それぞれ図４のマイク３０１、アンプ３０２、スピーカ３０３及びエコーキャンセラ３０４に対応する。

コミュニケーションシステム９０では、遠隔操作側９００にいる遠隔操作者は、離れたところにあるマイク７０２が取得した音声をスピーカ９０３で聞く。また遠隔操作者は、マイク９０１に対して発声することによって、自身の音声を離れたところにあるスピーカ７０１から出力する。このようにして、遠隔操作者は、離れたところにいる人（即ちロボット７００の近傍にいる人）と会話をすることができる。

しかし、遠隔操作者は、ロボット７００の周囲の環境を正確に認識することができなかった。即ち、遠隔操作者は、ロボット７００周辺の人は現在雑談をしているのか、それとも誰かのスピーチ等を静かに聞いているのか、ということについて、認識することができなかった。そのため、例えばロボット周辺の人が誰かのスピーチを静かに聞いている最中に、遠隔操作者がマイク９０１でロボット７００の近くの人に話しかけると、スピーカ７０１から大きな声が出てしまい、周囲の雰囲気を乱してしまうということがあり得る。

これに対し、実施の形態１にかかるコミュニケーションシステム１０は、マイク１２３の周囲の環境に応じて、コミュニケーションの音量を変更することができる。

なお制御端末３０５は、話者数判定部１２４が判定したマイク１２３の周囲の話者の人数が閾値未満であった場合には、当該人数が閾値以上であった場合と比較して、スピーカ１２２の音量を小さくするように制御してもよい（ここで、周囲の話者の人数とは、話者数判定部１２４が判定した現在のマイク１２３の周囲の話者数でもよいし、話者数判定部１２４が算出した移動平均話者数でもよい。これは以下の説明でも同様である。）。このような構成により、マイク１２３の周囲の話者の人数が閾値未満のときには、その近傍にあるスピーカ１２２から出力される音声の音量が小さくなる。そのため、コミュニケーションシステム１０は、スピーカ１２２の周囲でなされるスピーチを妨害してしまうことを防ぐことができる。

制御端末３０５は、話者数判定部１２４が判定したマイク１２３の周囲の話者の人数が閾値未満であった場合に、所定の時間Ｔよりも少ない時間だけ当該人数が閾値以上になったときでも、スピーカ１２２の音量を小さくしたままに制御してもよい。このような構成により、制御端末３０５は、マイク１２３の周囲でスピーチがなされている場合に、短い間だけ多数の人の声がしたようなときでも、スピーカ１２２の音量を小さいままにすることができる。これにより、コミュニケーションシステム１０は、スピーカ１２２の周囲でなされるスピーチを妨害してしまうことを防ぐことができる。

制御端末３０５は、話者数判定部１２４が判定したマイク１２３の周囲の話者の人数が閾値以上であった場合に、所定の時間Ｔよりも少ない時間だけ当該人数が閾値未満になったときでも、スピーカ１２２の音量を大きくしたままに制御してもよい。このような構成により、マイク１２３の周囲で多数の人の会話がなされている場合に、短い間だけ静かな状態になったときでも、スピーカ１２２の音量をそのままにすることができる。これにより、コミュニケーションシステム１０は、スピーカ１２２の音量を小さくしてしまうことによって、スピーカ３０３及びマイク３０１を使って話をする人（遠隔操作者）のコミュニケーションが阻害されてしまうことを防ぐことができる。

制御端末３０５は、話者数判定部１２４が判定したマイク１２３の周囲の話者の人数が特定の時間内に所定数よりも大きく減少する場合に（つまり傾きαが所定の傾き未満である場合に）、スピーカ１２２の音量を小さくするように制御してもよい。このような構成により、制御端末３０５は、マイク１２３の周囲の状態を、多くの人が雑談している状態から、聴衆がスピーチを静かに待っている状態に変化したことを検出して、スピーカ１２２の音量を小さくすることができる。これにより、コミュニケーションシステム１０は、スピーカ１２２の周囲でなされるスピーチを妨害してしまうことを防ぐことができる。

制御端末３０５は、話者数判定部１２４が判定したマイク１２３の周囲の話者の人数が閾値以下であり、かつ減少している場合に、スピーカ１２２の音量を小さくするように制御してもよい。このような構成により、制御端末３０５は、マイク１２３の周囲の状態が、聴衆がスピーチを静かに待っている状態であることを検出して、スピーカ１２２の音量を小さくすることができる。これにより、コミュニケーションシステム１０は、スピーカ１２２の周囲でなされるスピーチを妨害してしまうことを防ぐことができる。

なお、制御端末３０５の代わりに、ロボット１００の制御部１２５が図７に記載した処理フローを実行してもよい。ここでロボット１００は、人間との間で音声を用いたコミュニケーションを実行するロボットであって、スピーカ１２２、マイク１２３、話者数判定部１２４及び制御部１２５を備える。

図１０は、そのようなロボットの処理の一例を示すブロック構成図である。スピーカ１２２は、音声を出力する。マイク１２３は、ロボット１００の周囲の音声を音声信号として取得する。話者数判定部１２４は、マイク１２３が取得した音声信号に基づき、ロボット１００の周囲の話者の人数を判定する。制御部１２５は、話者数判定部１２４の判定に基づいて、スピーカ１２２の音量を制御する。このような構成により、ロボット１００は、周囲の話者の人数に応じてスピーカ１２２の音量を制御することができる。そのため、ロボット１００は、周囲の環境に応じて、自律的にコミュニケーションの音量を変更することができる。

さらに実施の形態１では、コミュニケーションシステムにおける音量制御の方法についても開示している。このコミュニケーションシステムは、周囲の音声を音声信号として取得するマイク１２３と、マイク１２３の近傍に設けられ、音声を出力するスピーカ１２２と、マイク１２３から音声信号を取得し、音声として出力するスピーカ３０３と、周囲の音声を音声信号として取得し、取得した当該音声信号をスピーカに対して出力するマイク３０１と、を有する。この音量制御の方法は、少なくとも以下のステップ（ａ）〜（ｂ）を含む。
（ａ）マイク１２３が取得した音声信号に基づき、マイク１２３の周囲の話者の人数を判定すること、及び
（ｂ）前記判定に基づいて、スピーカ１２２の音量を制御すること。
このような構成により、コミュニケーションシステムは、マイク１２３の周囲の話者の人数に応じてスピーカ１２２の音量を制御することができる。そのため、コミュニケーションシステムは、スピーカ１２２の周囲の環境に応じて、コミュニケーションの音量を変更することができる。

図７に示したフローチャートの処理方法は、あくまで一例である。例えば、図７において、制御端末３０５は、ステップＳ３ではなくステップＳ１の判定を先に実行してもよい。また、第１の閾値Ｒ１、第２の閾値Ｒ１'、第３の閾値Ｒ２及び第４の閾値Ｒ２'の値はあくまで具体例であり、Ｒ１＜Ｒ１'＜Ｒ２＜Ｒ２'の大小関係を満たすのであれば他の値でもよい。第５の閾値Ｒ３及び第６の閾値Ｒ３'の値についても、第１の閾値Ｒ１〜第４の閾値Ｒ２'の値に基づいて変更することができる。

なお、上述の処理例では、制御端末３０５は、マイク１２３の周囲の状態が状態ａである場合には、スピーカ１２２の音量を音量７０ｄＢに設定した。ここで制御端末３０５は、マイク１２３の周囲の状態が状態ａであるときにスピーカ１２２の音量を常に音量７０ｄＢにしなくともよく、スピーカ１２２の音量が少し（例えば１、２ｄＢ程度）変化するようにスピーカ１２２の音量を調整してもよい。マイク１２３の周囲の状態が状態ｂ、状態ｃであるときも同様である。このようにしても、マイク１２３の周囲の状態が状態ａ、状態ｂ、状態ｃの順に、制御端末３０５はスピーカ１２２の音量を大きく設定していればよい。

なお、マイク１２３の周囲の状態が状態ｂであるとき、制御端末３０５は状態ａのときとスピーカ１２２の音量を同じに設定していてもよい。

なお、上述の状態ａ、ｂ、ｃを制御端末３０５が判定する方法は、他にも考えられる。以下、状態ａ、ｂ、ｃについて順番に説明する。

例えば、以下の状態を制御端末３０５が検出した場合には、制御端末３０５はマイク１２３の周囲の状態が状態ａであると判定することができる。制御端末３０５は、マイク１２３の周囲において所定レベル以上の音量の大きな声又は普通の音量の声の話者が多数あり、その声が一定時間以上続いたと判定した場合に、マイク１２３の周囲の状態が状態ａであると判定することができる。ここで「所定レベル以上の音量」とは、例えば大声の音量である７０〜８０ｄＢ程度の音量をいい、「普通の音量」とは、例えば一般的な話し声の音量である６０ｄＢ程度のことをいう（以下も同様である）。そして「一定時間」とは、マイク１２３の周囲の状態を特定するのに十分長い時間であり、例えば７〜１０秒程度の時間である（以降も同様である）。この時間は、スピーチ中に時々起る数秒程度の笑い声や話し声を、「多数の人が雑談をしている」状態であると判定しないために設定されている。「話者が多数」とは、例えば話者が４人以上（上述の第３の閾値Ｒ２以上）いる場合を示す。

さらに、制御端末３０５は、上述の通りマイク１２３の周囲の状態が状態ａであると判定した場合に、所定の時間Ｔよりも少ない時間だけ上述の条件を満たさない場合でも、マイク１２３の周囲の状態が状態ａであると判定してもよい。これは、多数の人が雑談している状態であっても、一瞬会話がない静かな状態になることもあり得るため、その状態を状態ｂ又は状態ｃと判定すると、スピーカの音量が現実の状態に基づいて正しく制御されなくなってしまうからである。なお所定の時間Ｔは、上述の通り、例えば１秒〜５秒程度の時間である。

さらに、制御端末３０５は、ある時刻におけるマイク１２３の周囲の話者数が第３の閾値Ｒ２以上である場合だけではなく、一定時間内におけるマイク１２３の周囲の個人の話者数が所定の数よりも多い場合に、マイク１２３の周囲の状態が状態ａであると判定してもよい。なお一定時間の定義は上述の通りである。

例えば、制御端末３０５は、１０秒の間に、５人以上の話者がマイク１２３の周囲にいた場合に、マイク１２３の周囲の状態が状態ａであると判定することができる。ここで話者数判定部１２４は、例えば１０秒の間に最初にＡさんとＢさんとＣさんが会話をし、次にＡさんとＤさんとＥさんが会話をした場合に、５人の話者がマイク１２３の周囲にいたと判定する。話者数判定部１２４は、上述の通り異なる固有振動を検出することにより、会話をしたのがＡさん〜Ｅさんのいずれであるかを判定する。

これは、多数の人がマイク１２３の周囲で雑談をしている場合であっても、常に人が話をしているわけではなく、話の中断があることを考慮したものである。そのような中断が短い時間（例えば１〜３秒）あったときに、制御端末３０５がその短い時間の状態だけを考慮してマイク１２３の周囲の状態が状態ｂ又は状態ｃであると判定すると、スピーカの音量が現実の状態に基づいて正しく制御されなくなってしまう。しかし、制御端末３０５は、会話の中断があっても、一定時間内におけるマイク１２３の周囲の個人の話者数が所定の数よりも多い場合に、マイク１２３の周囲の状態が状態ａであると判定することにより、マイク１２３の周囲の正確な状態の判定をすることができる。

さらに、この判定方法は、特に雑談においてある話者が相手を変えて話をする場合に、正確な状態の判定をすることが可能となる。例えば、１０秒の間に最初にＡさんとＢさんとＣさんが会話をし、次にＡさんとＤさんとＥさんが会話をした場合には、特定の時刻における話者の人数は３人、即ち第３の閾値Ｒ２未満であるものの、一定時間内における個人の話者の人数は５人、即ち第３の閾値Ｒ２以上になる。このようなときに、制御端末３０５がその特定の時刻の状態だけを考慮してマイク１２３の周囲の状態が状態ｂであると判定すると、スピーカの音量が現実の状態に基づいて正しく制御されなくなってしまう。しかしながら、制御端末３０５は、ある特定の時刻における話者の人数が少ない場合であっても、一定時間内におけるマイク１２３の周囲の個人の話者数が所定の数よりも多い場合に、マイク１２３の周囲の状態が状態ａであると判定する。これにより、制御端末３０５はマイク１２３の周囲の正確な状態の判定をすることができる。

また、以下の状態を制御端末３０５が検出した場合には、制御端末３０５はマイク１２３の周囲の状態が状態ｂであると判定することができる。制御端末３０５は、マイク１２３の周囲において所定レベル以上の音量の大きな声又は普通の音量の声を出す話者の数が、特定の時間以内に所定の数以上減少した場合に、マイク１２３の周囲の状態が状態ｂであると判定してもよい。ここで「所定レベル以上の音量」、「普通の音量」の例は上述した通りである。

制御端末３０５は、一般的な話し声を出している話者の数が、例えば３秒以内に４人以上減少した場合に、マイク１２３の周囲の状態が状態ａから状態ｂに遷移したと判定することができる。このように、所定レベル以上の音量の大きな声又は普通の音量の声を出す話者の数が短い時間に急激に減少した場合に、制御端末３０５は、マイク１２３の周囲の状態が状態ｂであると判定することができる。この状態は、多数の人がマイク１２３の周囲で雑談をしていた状態から、スピーチが間もなく開始されることをきっかけにして、雑談をしていた人がそれをやめる状態に移行した状態を示している。

さらに制御端末３０５は、マイク１２３の周囲において所定レベル以上の音量の大きな声又は普通の音量の声を出す話者の数が一定以下である状態において、一定時間内に所定の数以上話者数が減少した場合に、マイク１２３の周囲の状態が状態ａから状態ｂになったと判定することができる。例えば制御端末３０５は、一般的な話し声を出している話者の数が特定の時刻において１０人以下である場合に、１０秒以内に４人以上話者の数が減少した場合に、マイク１２３の周囲の状態が状態ａから状態ｂになったと判定することができる。このように、制御端末３０５は、所定レベル以上の音量の大きな声又は普通の音量の声を出す話者の数が一定以下であって、話者の数がさらに減少を続けている場合に、マイク１２３の周囲の状態が状態ｂであると判定することができる。この状態は、雑談をする人が多くなかった状態から、スピーチが間もなく開始されることをきっかけにして、雑談をしていた人が順次それをやめる状態に移行した状態を示している。

さらに、以下の状態を制御端末３０５が検出した場合には、制御端末３０５はマイク１２３の周囲の状態が状態ｃであると判定することができる。制御端末３０５は、マイク１２３の周囲において、一定時間以上、所定レベル以上の音量の大きな声を出す話者が少数（１人〜３人程度）いる場合に、マイク１２３の周囲の状態が状態ｃであると判定することができる。これは、少数の人がマイク１２３の周囲でスピーチをしている状態を示している。また、スピーチをする人は１人に限られず、２人、３人といった複数かつ少数の人でもよい。これは、例えば式場において、司会とゲストのトークがなされるような場合があり得るからである。

このとき、話者数判定部１２４は、上述の一定レベル未満の音量を有する声を出す人を、「一定レベル未満の音量を有する話者」として話者数にカウントしてもよい。制御端末３０５は、話者数判定部１２４がマイク１２３の周囲に一定レベル未満の音量を有する話者がいると判定した場合でも、マイク１２３の周囲の状態が状態ｃであると判定することができる。「一定レベル未満の音量」とは、例えばささやき声又はウィスパーボイスといった小さい声の音量であり、３０〜４０ｄＢ程度の音量をいう。これは、少数の人がマイク１２３の周囲でスピーチをしている一方で、他の人がスピーチの邪魔にならないよう、小さな声で話をしている状態を示している。

さらに、制御端末３０５は、所定の時間Ｔよりも少ない時間（例えば３秒〜５秒未満の時間）、所定レベル以上の音量の大きな声又は普通の音量の声を出す話者が所定の数以上いる場合であっても、マイク１２３の周囲の状態が状態ｃであると判定することができる。この処理は、スピーチの間の時間に笑い声や雑談が起こる場合に、その時間内の状態だけを検出して多数の人が雑談をしている状態であると制御端末３０５が判定して、スピーカ１２２の音量を現実に適さないやり方で制御してしまうことを防ぐための処理である。

さらに、制御端末３０５は、所定の時間Ｔよりも少ない時間（例えば２秒〜５秒未満の時間）、所定レベル以上の音量の大きな声を出す話者がいなくなった場合であっても、マイク１２３の周囲の状態が状態ｃであると判定することができる。この処理は、スピーチをしている人が話をする間に小休止を挟む場合に、その間の状態だけを検出して状態ｂであると制御端末３０５が判定して、スピーカ１２２の音量を現実に適さないやり方で制御してしまうことを防ぐための処理である。

さらに、制御端末３０５は、多数の話者がいる状態ａの状態から、話者の数が減少して少数（例えば２、３人）になった場合でも、マイク１２３の周囲の状態が状態ｃであると判定することができる。これは、マイク１２３の周囲の状態が、聴衆が雑談をしている状態からスピーチが間もなく始まる状態に変化した場合に、スピーチが開始されることに気が付かず少数の人が会話をしている状態を示している。このため、制御端末３０５は、現実の状態を適切に反映させて、スピーカ１２２の音量を小さく制御することができる。

以上のように、制御端末３０５は、特定の時刻における話者の人数ではなく、話者数判定部１２４が判定したある一定時間内における話者数に基づいて、スピーカ１２２の音量を制御することもできる。これにより、短い時間のみにおいて話者数が変化した場合でも、制御端末３０５はその変化にとらわれず、マイク１２３の周囲の正確な状態の判定をすることができる。

また、話者数判定部１２４は、一定時間内におけるマイク１２３の周囲の話者数として、一定時間内に会話をした個人の数をカウントしてもよい。これにより、話者数判定部１２４は、異なる人同士が異なる時刻で会話をしている場合において、正確に会話をした合計の人数を把握することができる。従って制御端末３０５は、マイク１２３の周囲の正確な状態の判定をすることができる。

実施の形態２
以下、図面を参照して本発明の実施の形態２について説明する。実施の形態２にかかるロボットの外観図及び頭部の構成については実施の形態１と同様であるため説明を省略する。

図１１は、実施の形態２にかかるロボット１００の内部構成の一例を示すブロック構成図である。図１１にかかるロボット１００は、図３にかかるロボット１００と比べて、比較部１２８を新たに備える。

図１２は、ロボット１００を有するコミュニケーションシステムの一例を示した構成図である。コミュニケーションシステム２０において比較部１２８は、マイク３０１から出力される音声信号と、マイク１２３から出力される音声信号とを比較することにより、スピーカ１２２が出力する音声とマイク１２３の周囲にある音声との大きさを比較する。つまり、比較部１２８は、ロボット１００が出す音声の大きさと、ロボット１００の周囲にいる人が出す音声の大きさとを比較する。

比較部１２８は、その比較結果を制御端末３０５に出力し、制御端末３０５はその比較結果を表示する。遠隔操作者は、制御端末３０５に表示された比較結果に基づいて、制御端末３０５からスピーカ１２２の音量を制御する。これにより、コミュニケーションシステム３０は、スピーカ１２２の音量を、スピーカ１２２の周囲の音声の大きさに合わせたものにすることができる。

例えば、比較部１２８は、スピーカ１２２が出力する音声の音量が６５ｄＢであり、マイク１２３から取得した音声の音量が５５ｄＢであると判定すると仮定する。このとき、遠隔操作者は、ロボット１００から出力される音声がロボット１００の周囲の音声よりも大きい状態（即ちロボット１００が周囲の人と比較してうるさい状態）にあると判定する。遠隔操作者は、この判定により、制御端末３０５から、スピーカ１２２の音量を１０ｄＢ程度小さくするように、制御部１２５に制御信号を出力する。これにより、スピーカ１２２の音量を、ロボット周囲の音声の音量に追従して小さくすることができる。

逆に、比較部１２８は、スピーカ１２２が出力する音声の音量が５０ｄＢであり、マイク１２３から取得した音声の音量が６０ｄＢであると判定すると仮定する。このとき、遠隔操作者は、ロボット１００から出力される音声がロボット１００の周囲の音声よりも小さい状態（即ちロボット１００の音声が周囲の人に聞こえにくい状態）にあると判定する。遠隔操作者は、この判定により、制御端末３０５から、スピーカ１２２の音量を１０ｄＢ程度大きくするように、制御部１２５に制御信号を出力する。これにより、スピーカ１２２の音量を、ロボット周囲の音声の音量に追従して大きくすることができる。

遠隔操作者は、ロボット１００と離れた場所にいるため、ロボット１００の発する音声と、ロボット１００周辺の人が発する音声とを直接聞くことができない。そのため、遠隔操作者は、ロボット１００の発する音声の音量を間違って設定してしまう可能性がある。例えば、ロボット１００の発する音声の音量がロボット１００周辺の人が発する音声の音量に比べて大きすぎてしまい、ロボット１００の周辺の人の会話やスピーチの妨げになってしまうことがありえる。その逆に、ロボット１００の発する音声の音量がロボット１００周辺の人が発する音声の音量に比べて小さすぎてしまい、ロボット１００の周辺にいる人が、ロボット１００を介して遠隔操作者と会話をするのに支障が出ることもありえる。実施の形態２にかかるロボット１００及びコミュニケーションシステム３０は、ロボット１００の発する音声の音量をロボット１００周辺の人が発する音声の音量に合わせることにより、このような課題を解決することができる。

なお、制御部１２５は、比較部１２８の比較結果に基づいて、自動的にスピーカ１２２の音量を制御してもよい。制御部１２５の具体的な制御方法については上述の通りである。つまり制御部１２５は、比較部１２８の比較結果に基づいて、スピーカ１２２が出力する音声の音量と、マイク１２３から取得した音声の音量とをほぼ同程度の大きさにするように、スピーカ１２２の音量を制御する。

実施の形態３
以下、図面を参照して本発明の実施の形態２について説明する。実施の形態３にかかるロボットの外観図及び頭部の構成については実施の形態１と同様であるため説明を省略する。

図１３は、実施の形態３にかかるロボット１００の内部構成の一例を示すブロック構成図である。図１３にかかるロボット１００は、図３にかかるロボット１００と比べて、話者数判定部１２４を内部に備えていない。

図１４は、ロボット１００を有するコミュニケーションシステムの一例を示した構成図である。コミュニケーションシステム３０において話者数判定部は、遠隔操作側３００に話者数判定部３０６として備えられている。話者数判定部３０６が実行する処理は実施の形態１にかかる話者数判定部１２４と同様であり、説明を省略する。話者数判定部３０６は判定結果を制御端末３０５に出力する。

制御端末３０５は、判定結果に基づいてスピーカ１２２の音量を制御するよう、制御信号を制御部１２５に出力する。制御端末３０５のスピーカ１２２の音量制御の方法は実施の形態１に説明した方法と同様である。制御部１２５は制御信号に基づいてスピーカ１２２の音量を制御する。

このように、実施の形態３では、話者数判定部３０６がロボット１００ではなく遠隔操作側３００に備えられている。これは、話者数判定部３０６がロボット１００に備えられている場合に、その判定結果を制御端末３０５に出力するときにネットワーク２００により生ずる遅延の影響を抑制するための構成である。ここで、話者数判定部３０６は、マイク１２３から出力された音声信号がエコーキャンセラ３０４によりエコーキャンセルされる前の音声信号を用いて判定を実行する。

実施の形態２にかかる比較部１２８も、図１４にかかる話者数判定部３０６と同様にして、ロボット１００ではなく遠隔操作側３００に備えさせることができる。

なお、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。例えば、実施の形態１におけるロボット１００は遠隔操作者によって操作される遠隔操作ロボットであるとして説明したが、自律的に周囲の状況を判定し、音声等を出力するロボットであってもよい。このようなロボットであっても、実施の形態１と同様の判定方法により、スピーカの音量を環境に合わせて制御することができる。さらに、ロボット１００の代わりに、同様の構成部品を備えたコンピュータがコミュニケーションシステム１０に備えられていても、コミュニケーションシステム１０は同様の効果を奏することができる。

実施の形態１において、話者数判定部１２４は、周囲の話者数の移動平均を算出せず、他のフィルタ処理を実行して、周囲の話者数の時間における遷移を算出することができる。制御部１２５は、その遷移にかかるデータに基づいて、スピーカ１２２の音量を、実施の形態１と同様に制御する。

実施の形態１に示した処理フローは、制御方法の１つとして、コンピュータ（例えばパーソナルコンピュータ、携帯端末、ロボット）に実行させることができる。例えば、処理フローを制御プログラムとしてコンピュータに実行させてもよい。このコンピュータは、音声を出力するスピーカと、周囲の音声を音声信号として取得するマイクロフォンを備えている。コンピュータは、マイクロフォンが取得した音声信号に基づき、ロボットの周囲の話者の人数を判定する。次にコンピュータは、その判定に基づいて、前記スピーカの音量を制御する。以上のようにして、コンピュータは処理を実行する。実施の形態２、３に示した処理についても、同様にコンピュータに実行させることができる。

プログラムは、様々なタイプの非一時的なコンピュータ可読媒体（non-transitory computer readable medium）を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体（tangible storage medium）を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体（例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ）、光磁気記録媒体（例えば光磁気ディスク）、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−Ｒ／Ｗ、半導体メモリ（例えば、マスクＲＯＭ、ＰＲＯＭ（Programmable ROM）、ＥＰＲＯＭ（Erasable PROM）、フラッシュＲＯＭ、ＲＡＭ（Random Access Memory））を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体（transitory computer readable medium）によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。

１０、２０、３０コミュニケーションシステム
１００ロボット
１０１頭部
１０２胴体部
１０３右腕部
１０４左腕部
１０５右足部
１０６左足部
１１１右目
１１２左目
１１３口
１１４右耳
１１５左耳
１２１カメラ
１２２スピーカ
１２３マイク
１２４話者数判定部
１２５制御部
１２６可動部
１２７アンプ
１２８比較回路
２００ネットワーク
３００遠隔操作側
３０１マイク
３０２アンプ
３０３スピーカ
３０４エコーキャンセラ
３０５制御端末
３０６話者数判定部

Claims

ロボットと、前記ロボットとネットワークを介して接続されている遠隔操作側とを備えたコミュニケーションシステムであって、
周囲の音声を音声信号として取得する第１のマイクロフォンと、
前記第１のマイクロフォンの近傍に設けられ、音声を出力する第１のスピーカと、
前記第１のマイクロフォンから前記音声信号を取得し、音声として出力する第２のスピーカと、
周囲の音声を音声信号として取得し、取得した当該音声信号を前記第１のスピーカに対して出力する第２のマイクロフォンと、
前記第１のマイクロフォンが取得した音声信号に基づき、前記第１のマイクロフォンの周囲の話者の人数を示す話者数を判定する話者数判定部と、
前記話者数判定部の判定に基づいて、前記第１のスピーカの音量を制御する制御部と、
を備え、
前記第１のマイクロフォン及び前記第１のスピーカは、前記ロボットに配置され、
前記第２のマイクロフォン及び前記第２のスピーカは、前記遠隔操作側に配置され、
前記制御部は、前記話者数が閾値未満であった場合には、当該人数が閾値以上であった場合と比較して、前記第１のスピーカの音量を小さくするように制御し、かつ、前記話者数が閾値未満であった場合に、所定の時間よりも少ない時間だけ当該人数が閾値以上になったときでも、前記第１のスピーカの音量を小さくしたままに制御する、
コミュニケーションシステム。
ロボットと、前記ロボットとネットワークを介して接続されている遠隔操作側とを備えたコミュニケーションシステムであって、
周囲の音声を音声信号として取得する第１のマイクロフォンと、
前記第１のマイクロフォンの近傍に設けられ、音声を出力する第１のスピーカと、
前記第１のマイクロフォンから前記音声信号を取得し、音声として出力する第２のスピーカと、
周囲の音声を音声信号として取得し、取得した当該音声信号を前記第１のスピーカに対して出力する第２のマイクロフォンと、
前記第１のマイクロフォンが取得した音声信号に基づき、前記第１のマイクロフォンの周囲の話者の人数を示す話者数を判定する話者数判定部と、
前記話者数判定部の判定に基づいて、前記第１のスピーカの音量を制御する制御部と、
を備え、
前記第１のマイクロフォン及び前記第１のスピーカは、前記ロボットに配置され、
前記第２のマイクロフォン及び前記第２のスピーカは、前記遠隔操作側に配置され、
前記制御部は、前記話者数が閾値未満であった場合には、当該人数が閾値以上であった場合と比較して、前記第１のスピーカの音量を小さくするように制御し、かつ、前記話者数が閾値以上であった場合に、所定の時間よりも少ない時間だけ当該人数が閾値未満になったときでも、前記第１のスピーカの音量を大きくしたままに制御する、
コミュニケーションシステム。
ロボットと、前記ロボットとネットワークを介して接続されている遠隔操作側とを備えたコミュニケーションシステムであって、
周囲の音声を音声信号として取得する第１のマイクロフォンと、
前記第１のマイクロフォンの近傍に設けられ、音声を出力する第１のスピーカと、
前記第１のマイクロフォンから前記音声信号を取得し、音声として出力する第２のスピーカと、
周囲の音声を音声信号として取得し、取得した当該音声信号を前記第１のスピーカに対して出力する第２のマイクロフォンと、
前記第１のマイクロフォンが取得した音声信号に基づき、前記第１のマイクロフォンの周囲の話者の人数を示す話者数を判定する話者数判定部と、
前記話者数判定部の判定に基づいて、前記第１のスピーカの音量を制御する制御部と、
を備え、
前記第１のマイクロフォン及び前記第１のスピーカは、前記ロボットに配置され、
前記第２のマイクロフォン及び前記第２のスピーカは、前記遠隔操作側に配置され、
前記制御部は、前記話者数が特定の時間内に所定数よりも大きく減少する場合に、前記第１のスピーカの音量を小さくするように制御する、
コミュニケーションシステム。
ロボットと、前記ロボットとネットワークを介して接続されている遠隔操作側とを備えたコミュニケーションシステムであって、
周囲の音声を音声信号として取得する第１のマイクロフォンと、
前記第１のマイクロフォンの近傍に設けられ、音声を出力する第１のスピーカと、
前記第１のマイクロフォンから前記音声信号を取得し、音声として出力する第２のスピーカと、
周囲の音声を音声信号として取得し、取得した当該音声信号を前記第１のスピーカに対して出力する第２のマイクロフォンと、
前記第１のマイクロフォンが取得した音声信号に基づき、前記第１のマイクロフォンの周囲の話者の人数を示す話者数を判定する話者数判定部と、
前記話者数判定部の判定に基づいて、前記第１のスピーカの音量を制御する制御部と、
を備え、
前記第１のマイクロフォン及び前記第１のスピーカは、前記ロボットに配置され、
前記第２のマイクロフォン及び前記第２のスピーカは、前記遠隔操作側に配置され、
前記制御部は、前記話者数が閾値以下であり、かつ減少している場合に、前記第１のスピーカの音量を小さくするように制御する、
コミュニケーションシステム。
ロボットと、前記ロボットとネットワークを介して接続されている遠隔操作側とを備えたコミュニケーションシステムであって、
周囲の音声を音声信号として取得する第１のマイクロフォンと、
前記第１のマイクロフォンの近傍に設けられ、音声を出力する第１のスピーカと、
前記第１のマイクロフォンから前記音声信号を取得し、音声として出力する第２のスピーカと、
周囲の音声を音声信号として取得し、取得した当該音声信号を前記第１のスピーカに対して出力する第２のマイクロフォンと、
前記第１のマイクロフォンが取得した音声信号に基づき、前記第１のマイクロフォンの周囲の話者の人数を示す話者数を判定する話者数判定部と、
前記話者数判定部の判定に基づいて、前記第１のスピーカの音量を制御する制御部と、
前記第１のマイクロフォンが取得した音声と、前記第２のマイクロフォンが取得した音声との大きさを比較した比較結果を出力する比較部と、
を備え、
前記第１のマイクロフォン及び前記第１のスピーカは、前記ロボットに配置され、
前記第２のマイクロフォン及び前記第２のスピーカは、前記遠隔操作側に配置され、
前記制御部は、前記比較部の比較結果に基づいて前記第１のスピーカの音量を制御する、
コミュニケーションシステム。
ロボットと、前記ロボットとネットワークを介して接続されている遠隔操作側とを備えたコミュニケーションシステムであって、
周囲の音声を音声信号として取得する第１のマイクロフォンと、
前記第１のマイクロフォンの近傍に設けられ、音声を出力する第１のスピーカと、
前記第１のマイクロフォンから前記音声信号を取得し、音声として出力する第２のスピーカと、
周囲の音声を音声信号として取得し、取得した当該音声信号を前記第１のスピーカに対して出力する第２のマイクロフォンと、
前記第１のマイクロフォンが取得した音声信号に基づき、前記第１のマイクロフォンの周囲の話者の人数を示す話者数を判定する話者数判定部と、
前記話者数判定部の判定に基づいて、前記第１のスピーカの音量を制御する制御部と、
を備え、
前記第１のマイクロフォン及び前記第１のスピーカは、前記ロボットに配置され、
前記第２のマイクロフォン及び前記第２のスピーカは、前記遠隔操作側に配置され、
前記制御部は、一定時間内における前記話者数に基づいて前記第１のスピーカの音量を制御する、
コミュニケーションシステム。
前記話者数判定部は、一定時間内における前記話者数として前記一定時間内に会話をした個人の数をカウントする、
請求項６に記載のコミュニケーションシステム。
人間との間で音声を用いたコミュニケーションを実行するロボットであって、
音声を出力するスピーカと、
前記ロボットの周囲の音声を音声信号として取得するマイクロフォンと、
前記マイクロフォンが取得した音声信号に基づき、前記ロボットの周囲の話者の人数を示す話者数を判定する話者数判定部と、
前記話者数判定部の判定に基づいて、前記スピーカの音量を制御する制御部と、
を備え、
前記制御部は、前記話者数が閾値未満であった場合には、当該人数が閾値以上であった場合と比較して、前記スピーカの音量を小さくするように制御し、かつ、前記話者数が閾値未満であった場合に、所定の時間よりも少ない時間だけ当該人数が閾値以上になったときでも、前記スピーカの音量を小さくしたままに制御する、
ロボット。
人間との間で音声を用いたコミュニケーションを実行するロボットであって、
音声を出力するスピーカと、
前記ロボットの周囲の音声を音声信号として取得するマイクロフォンと、
前記マイクロフォンが取得した音声信号に基づき、前記ロボットの周囲の話者の人数を示す話者数を判定する話者数判定部と、
前記話者数判定部の判定に基づいて、前記スピーカの音量を制御する制御部と、
を備え、
前記制御部は、前記話者数が閾値未満であった場合には、当該人数が閾値以上であった場合と比較して、前記スピーカの音量を小さくするように制御し、かつ、前記話者数が閾値以上であった場合に、所定の時間よりも少ない時間だけ当該人数が閾値未満になったときでも、前記スピーカの音量を大きくしたままに制御する、
ロボット。
人間との間で音声を用いたコミュニケーションを実行するロボットであって、
音声を出力するスピーカと、
前記ロボットの周囲の音声を音声信号として取得するマイクロフォンと、
前記マイクロフォンが取得した音声信号に基づき、前記ロボットの周囲の話者の人数を示す話者数を判定する話者数判定部と、
前記話者数判定部の判定に基づいて、前記スピーカの音量を制御する制御部と、
を備え、
前記制御部は、前記話者数が特定の時間内に所定数よりも大きく減少する場合に、前記スピーカの音量を小さくするように制御する、
ロボット。
人間との間で音声を用いたコミュニケーションを実行するロボットであって、
音声を出力するスピーカと、
前記ロボットの周囲の音声を音声信号として取得するマイクロフォンと、
前記マイクロフォンが取得した音声信号に基づき、前記ロボットの周囲の話者の人数を示す話者数を判定する話者数判定部と、
前記話者数判定部の判定に基づいて、前記スピーカの音量を制御する制御部と、
を備え、
前記制御部は、前記話者数が閾値以下であり、かつ減少している場合に、前記スピーカの音量を小さくするように制御する、
ロボット。
人間との間で音声を用いたコミュニケーションを実行するロボットであって、
音声を出力するスピーカと、
前記ロボットの周囲の音声を音声信号として取得するマイクロフォンと、
前記マイクロフォンが取得した音声信号に基づき、前記ロボットの周囲の話者の人数を示す話者数を判定する話者数判定部と、
前記話者数判定部の判定に基づいて、前記スピーカの音量を制御する制御部と、
を備え、
前記制御部は、一定時間内における前記話者数に基づいて前記スピーカの音量を制御する、
ロボット。
前記話者数判定部は、一定時間内における前記話者数として前記一定時間内に会話をした個人の数をカウントする、
請求項１２に記載のロボット。
周囲の音声を音声信号として取得する第１のマイクロフォンと、
前記第１のマイクロフォンの近傍に設けられ、音声を出力する第１のスピーカと、
前記第１のマイクロフォンから前記音声信号を取得し、音声として出力する第２のスピーカと、
周囲の音声を音声信号として取得し、取得した当該音声信号を前記第１のスピーカに対して出力する第２のマイクロフォンと、が設けられたコミュニケーションシステムにおける音量制御の方法であって、
前記第１のマイクロフォンが取得した音声信号に基づき、前記第１のマイクロフォンの周囲の話者の人数を示す話者数を判定するステップと、
前記判定に基づいて、前記第１のスピーカの音量を制御するステップと、
を備え、
前記コミュニケーションシステムは、ロボットと、前記ロボットとネットワークを介して接続されている遠隔操作側とを含み、
前記第１のマイクロフォン及び前記第１のスピーカは、前記ロボットに配置され、
前記第２のマイクロフォン及び前記第２のスピーカは、前記遠隔操作側に配置され、
前記制御するステップでは、前記話者数が閾値未満であった場合には、当該人数が閾値以上であった場合と比較して、前記第１のスピーカの音量を小さくするように制御し、かつ、前記話者数が閾値未満であった場合に、所定の時間よりも少ない時間だけ当該人数が閾値以上になったときでも、前記第１のスピーカの音量を小さくしたままに制御する、
音量制御の方法。
周囲の音声を音声信号として取得する第１のマイクロフォンと、
前記第１のマイクロフォンの近傍に設けられ、音声を出力する第１のスピーカと、
前記第１のマイクロフォンから前記音声信号を取得し、音声として出力する第２のスピーカと、
周囲の音声を音声信号として取得し、取得した当該音声信号を前記第１のスピーカに対して出力する第２のマイクロフォンと、が設けられたコミュニケーションシステムにおける音量制御の方法であって、
前記第１のマイクロフォンが取得した音声信号に基づき、前記第１のマイクロフォンの周囲の話者の人数を示す話者数を判定するステップと、
前記判定に基づいて、前記第１のスピーカの音量を制御するステップと、
を備え、
前記コミュニケーションシステムは、ロボットと、前記ロボットとネットワークを介して接続されている遠隔操作側とを含み、
前記第１のマイクロフォン及び前記第１のスピーカは、前記ロボットに配置され、
前記第２のマイクロフォン及び前記第２のスピーカは、前記遠隔操作側に配置され、
前記制御するステップでは、前記話者数が閾値以上であった場合に、所定の時間よりも少ない時間だけ当該人数が閾値未満になったときでも、前記第１のスピーカの音量を大きくしたままに制御する、
音量制御の方法。
周囲の音声を音声信号として取得する第１のマイクロフォンと、
前記第１のマイクロフォンの近傍に設けられ、音声を出力する第１のスピーカと、
前記第１のマイクロフォンから前記音声信号を取得し、音声として出力する第２のスピーカと、
周囲の音声を音声信号として取得し、取得した当該音声信号を前記第１のスピーカに対して出力する第２のマイクロフォンと、が設けられたコミュニケーションシステムにおける音量制御の方法であって、
前記第１のマイクロフォンが取得した音声信号に基づき、前記第１のマイクロフォンの周囲の話者の人数を示す話者数を判定するステップと、
前記判定に基づいて、前記第１のスピーカの音量を制御するステップと、
を備え、
前記コミュニケーションシステムは、ロボットと、前記ロボットとネットワークを介して接続されている遠隔操作側とを含み、
前記第１のマイクロフォン及び前記第１のスピーカは、前記ロボットに配置され、
前記第２のマイクロフォン及び前記第２のスピーカは、前記遠隔操作側に配置され、
前記制御するステップでは、前記話者数が特定の時間内に所定数よりも大きく減少する場合に、前記第１のスピーカの音量を小さくするように制御する、
音量制御の方法。
周囲の音声を音声信号として取得する第１のマイクロフォンと、
前記第１のマイクロフォンの近傍に設けられ、音声を出力する第１のスピーカと、
前記第１のマイクロフォンから前記音声信号を取得し、音声として出力する第２のスピーカと、
周囲の音声を音声信号として取得し、取得した当該音声信号を前記第１のスピーカに対して出力する第２のマイクロフォンと、が設けられたコミュニケーションシステムにおける音量制御の方法であって、
前記第１のマイクロフォンが取得した音声信号に基づき、前記第１のマイクロフォンの周囲の話者の人数を示す話者数を判定するステップと、
前記判定に基づいて、前記第１のスピーカの音量を制御するステップと、
を備え、
前記コミュニケーションシステムは、ロボットと、前記ロボットとネットワークを介して接続されている遠隔操作側とを含み、
前記第１のマイクロフォン及び前記第１のスピーカは、前記ロボットに配置され、
前記第２のマイクロフォン及び前記第２のスピーカは、前記遠隔操作側に配置され、
前記制御するステップでは、前記話者数が閾値以下であり、かつ減少している場合に、前記第１のスピーカの音量を小さくするように制御する、
音量制御の方法。
周囲の音声を音声信号として取得する第１のマイクロフォンと、
前記第１のマイクロフォンの近傍に設けられ、音声を出力する第１のスピーカと、
前記第１のマイクロフォンから前記音声信号を取得し、音声として出力する第２のスピーカと、
周囲の音声を音声信号として取得し、取得した当該音声信号を前記第１のスピーカに対して出力する第２のマイクロフォンと、
前記第１のマイクロフォンが取得した音声と、前記第２のマイクロフォンが取得した音声との大きさを比較した比較結果を出力する比較部と、が設けられたコミュニケーションシステムにおける音量制御の方法であって、
前記第１のマイクロフォンが取得した音声信号に基づき、前記第１のマイクロフォンの周囲の話者の人数を示す話者数を判定するステップと、
前記判定に基づいて、前記第１のスピーカの音量を制御するステップと、
を備え、
前記コミュニケーションシステムは、ロボットと、前記ロボットとネットワークを介して接続されている遠隔操作側とを含み、
前記第１のマイクロフォン及び前記第１のスピーカは、前記ロボットに配置され、
前記第２のマイクロフォン及び前記第２のスピーカは、前記遠隔操作側に配置され、
前記制御するステップでは、前記比較部の比較結果に基づいて前記第１のスピーカの音量を制御する、
音量制御の方法。
周囲の音声を音声信号として取得する第１のマイクロフォンと、
前記第１のマイクロフォンの近傍に設けられ、音声を出力する第１のスピーカと、
前記第１のマイクロフォンから前記音声信号を取得し、音声として出力する第２のスピーカと、
周囲の音声を音声信号として取得し、取得した当該音声信号を前記第１のスピーカに対して出力する第２のマイクロフォンと、が設けられたコミュニケーションシステムにおける音量制御の方法であって、
前記第１のマイクロフォンが取得した音声信号に基づき、前記第１のマイクロフォンの周囲の話者の人数を示す話者数を判定するステップと、
前記判定に基づいて、前記第１のスピーカの音量を制御するステップと、
を備え、
前記コミュニケーションシステムは、ロボットと、前記ロボットとネットワークを介して接続されている遠隔操作側とを含み、
前記第１のマイクロフォン及び前記第１のスピーカは、前記ロボットに配置され、
前記第２のマイクロフォン及び前記第２のスピーカは、前記遠隔操作側に配置され、
前記制御するステップでは、一定時間内における前記話者数に基づいて前記第１のスピーカの音量を制御する、
音量制御の方法。
前記判定するステップでは、一定時間内における前記話者数として前記一定時間内に会話をした個人の数をカウントする、
請求項１９に記載の音量制御の方法。
音声を出力するスピーカと、周囲の音声を音声信号として取得するマイクロフォンを備えたロボットの制御プログラムであって、
前記マイクロフォンが取得した音声信号に基づき、前記ロボットの周囲の話者の人数を示す話者数を判定するステップと、
前記判定に基づいて、前記スピーカの音量を制御するステップと、
をロボットに実行させ、
前記制御するステップでは、前記話者数が閾値未満であった場合には、当該人数が閾値以上であった場合と比較して、前記スピーカの音量を小さくするように制御し、かつ、前記話者数が閾値未満であった場合に、所定の時間よりも少ない時間だけ当該人数が閾値以上になったときでも、前記スピーカの音量を小さくしたままに制御する、
制御プログラム。
音声を出力するスピーカと、周囲の音声を音声信号として取得するマイクロフォンを備えたロボットの制御プログラムであって、
前記マイクロフォンが取得した音声信号に基づき、前記ロボットの周囲の話者の人数を示す話者数を判定するステップと、
前記判定に基づいて、前記スピーカの音量を制御するステップと、
をロボットに実行させ、
前記制御するステップでは、前記話者数が閾値未満であった場合には、当該人数が閾値以上であった場合と比較して、前記スピーカの音量を小さくするように制御し、かつ、前記話者数が閾値以上であった場合に、所定の時間よりも少ない時間だけ当該人数が閾値未満になったときでも、前記スピーカの音量を大きくしたままに制御する、
制御プログラム。
音声を出力するスピーカと、周囲の音声を音声信号として取得するマイクロフォンを備えたロボットの制御プログラムであって、
前記マイクロフォンが取得した音声信号に基づき、前記ロボットの周囲の話者の人数を示す話者数を判定するステップと、
前記判定に基づいて、前記スピーカの音量を制御するステップと、
をロボットに実行させ、
前記制御するステップでは、前記話者数が特定の時間内に所定数よりも大きく減少する場合に、前記スピーカの音量を小さくするように制御する、
制御プログラム。
音声を出力するスピーカと、周囲の音声を音声信号として取得するマイクロフォンを備えたロボットの制御プログラムであって、
前記マイクロフォンが取得した音声信号に基づき、前記ロボットの周囲の話者の人数を示す話者数を判定するステップと、
前記判定に基づいて、前記スピーカの音量を制御するステップと、
をロボットに実行させ、
前記制御するステップでは、前記話者数が閾値以下であり、かつ減少している場合に、前記スピーカの音量を小さくするように制御する、
制御プログラム。
音声を出力するスピーカと、周囲の音声を音声信号として取得するマイクロフォンを備えたロボットの制御プログラムであって、
前記マイクロフォンが取得した音声信号に基づき、前記ロボットの周囲の話者の人数を示す話者数を判定するステップと、
前記判定に基づいて、前記スピーカの音量を制御するステップと、
をロボットに実行させ、
前記制御するステップでは、一定時間内における前記話者数に基づいて前記スピーカの音量を制御する、
制御プログラム。
前記判定するステップでは、一定時間内における前記話者数として前記一定時間内に会話をした個人の数をカウントする、
請求項２５に記載の制御プログラム。