JP5862585B2 - コミュニケーションシステム及びロボット - Google Patents

コミュニケーションシステム及びロボット Download PDF

Info

Publication number
JP5862585B2
JP5862585B2 JP2013059420A JP2013059420A JP5862585B2 JP 5862585 B2 JP5862585 B2 JP 5862585B2 JP 2013059420 A JP2013059420 A JP 2013059420A JP 2013059420 A JP2013059420 A JP 2013059420A JP 5862585 B2 JP5862585 B2 JP 5862585B2
Authority
JP
Japan
Prior art keywords
speaker
microphone
speakers
robot
audio signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2013059420A
Other languages
English (en)
Other versions
JP2014186421A (ja
Inventor
宏直 林
宏直 林
拓也 岩田
拓也 岩田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Priority to JP2013059420A priority Critical patent/JP5862585B2/ja
Priority to US14/769,971 priority patent/US10277185B2/en
Priority to PCT/JP2014/001299 priority patent/WO2014147989A1/ja
Priority to CN201480010701.1A priority patent/CN105027542B/zh
Publication of JP2014186421A publication Critical patent/JP2014186421A/ja
Application granted granted Critical
Publication of JP5862585B2 publication Critical patent/JP5862585B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers
    • H03G3/20Automatic control
    • H03G3/30Automatic control in amplifiers having semiconductor devices
    • H03G3/32Automatic control in amplifiers having semiconductor devices the control being dependent upon ambient noise level or sound level
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63HTOYS, e.g. TOPS, DOLLS, HOOPS OR BUILDING BLOCKS
    • A63H11/00Self-movable toy figures
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63HTOYS, e.g. TOPS, DOLLS, HOOPS OR BUILDING BLOCKS
    • A63H13/00Toy figures with self-moving parts, with or without movement of the toy as a whole
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63HTOYS, e.g. TOPS, DOLLS, HOOPS OR BUILDING BLOCKS
    • A63H3/00Dolls
    • A63H3/28Arrangements of sound-producing means in dolls; Means in dolls for producing sounds
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63HTOYS, e.g. TOPS, DOLLS, HOOPS OR BUILDING BLOCKS
    • A63H2200/00Computerized interactive toys, e.g. dolls

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Manipulator (AREA)
  • Toys (AREA)

Description

本発明はコミュニケーションシステム、ロボット、音量制御の方法及びロボットの制御プログラムに関する。
近年、ロボットを人がいる場所(例えば会場)に置き、ロボットと人とのコミュニケーションを実行させることが行われている。例えば特許文献1では、ロボットの周囲にいる人間の人数を検出して、その人数に応じて、ロボットの周囲にいる人間に異なる注意をスピーカを用いて促すコミュニケーションロボットの技術が開示されている。
特開2007−118129号公報
上述のようにロボットと人とのコミュニケーションを実行する場合に、ロボット(ロボットが遠隔操作型のロボットである場合にはロボットを遠隔操作する人)は、ロボット周辺の人の会話の状態について十分に認識することができないという問題点があった。即ち、ロボット周辺の人は現在雑談をしているのか、それとも誰かのスピーチ等を静かに聞いているのか、ということについて、ロボット又はこれを操作する人は認識することができなかった。そのため、例えばロボット周辺の人が誰かのスピーチを静かに聞いている最中に、ロボットが大声をあげる動作を実行してしまうことが生じ得る。このように、ロボットの挙動が、周囲の雰囲気を乱してしまうということがあり得る。
本発明は、このような問題点を解決するためになされたものであり、周囲の環境に応じてコミュニケーションの音量を変更することができるコミュニケーションシステム、ロボット、音量制御の方法及びロボットの制御プログラムを提供することを目的とする。
本発明にかかるコミュニケーションシステムは、第1のマイクロフォン、第1のスピーカ、第2のスピーカ、第2のマイクロフォン、話者数判定部及び制御部を備える。第1のマイクロフォンは、周囲の音声を音声信号として取得する。第1のスピーカは、前記第1のマイクロフォンの近傍に設けられ、音声を出力する。第2のスピーカは、前記第1のマイクロフォンから前記音声信号を取得し、音声として出力する。第2のマイクロフォンは、周囲の音声を音声信号として取得し、取得した当該音声信号を前記第1のスピーカに対して出力する。話者数判定部は、前記第1のマイクロフォンが取得した音声信号に基づき、前記第1のマイクロフォンの周囲の話者の人数を示す話者数を判定する。制御部は、前記話者数判定部の判定に基づいて、前記第1のスピーカの音量を制御する。このような構成により、コミュニケーションシステムは、第1のマイクロフォンの周囲の話者の人数に応じて第1のスピーカの音量を制御することができる。そのため、コミュニケーションシステムは、第1のマイクロフォンの周囲の環境に応じて、コミュニケーションの音量を変更することができる。
前記制御部は、前記話者数が閾値未満であった場合には、当該人数が閾値以上であった場合と比較して、前記第1のスピーカの音量を小さくするように制御してもよい。このような構成により、第1のマイクロフォンの周囲の話者の人数が閾値未満のときには、その近傍にある第1のスピーカから出力される音声の音量が小さくなる。そのため、コミュニケーションシステムは、第1のスピーカの周囲でなされるスピーチを妨害してしまうことを防ぐことができる。
前記制御部は、前記話者数が閾値未満であった場合に、所定の時間よりも少ない時間だけ当該人数が閾値以上になったときでも、前記第1のスピーカの音量を小さくしたままに制御してもよい。このような構成により、第1のマイクロフォンの周囲でスピーチがなされている場合に、短い間だけ多数の人の声がしたようなときでも、第1のスピーカの音量を小さいままにすることができる。これにより、コミュニケーションシステムは、第1のスピーカの周囲でなされるスピーチを妨害してしまうことを防ぐことができる。
前記制御部は、前記話者数が閾値以上であった場合に、所定の時間よりも少ない時間だけ当該人数が閾値未満になったときでも、前記第1のスピーカの音量を大きくしたままに制御してもよい。このような構成により、第1のマイクロフォンの周囲で多数の人の会話がなされている場合に、短い間だけ静かな状態になったときでも、第1のスピーカの音量をそのままにすることができる。これにより、コミュニケーションシステムは、第1のスピーカの音量を小さくしてしまうことによって、第2のスピーカ及び第2のマイクロフォンを使って話をする人のコミュニケーションが阻害されてしまうことを防ぐことができる。
前記制御部は、前記話者数が特定の時間内に所定数よりも大きく減少する場合に、前記第1のスピーカの音量を小さくするように制御してもよい。このような構成により、制御部は、第1のマイクロフォンの周囲の状態を、多くの人が雑談している状態から、聴衆がスピーチを静かに待っている状態に変化したことを検出して、第1のスピーカの音量を小さくすることができる。これにより、コミュニケーションシステムは、第1のスピーカの周囲でなされるスピーチを妨害してしまうことを防ぐことができる。
前記制御部は、前記話者数が閾値以下であり、かつ減少している場合に、前記第1のスピーカの音量を小さくするように制御してもよい。このような構成により、制御部は、第1のマイクロフォンの周囲の状態が、聴衆がスピーチを静かに待っている状態であることを検出して、第1のスピーカの音量を小さくすることができる。これにより、コミュニケーションシステムは、第1のスピーカの周囲でなされるスピーチを妨害してしまうことを防ぐことができる。
前記コミュニケーションシステムは、前記第1のマイクロフォンが取得した音声と、前記第2のマイクロフォンが取得した音声との大きさを比較した比較結果を出力する比較部をさらに備え、前記制御部は、前記比較部の比較結果に基づいて前記第1のスピーカの音量を制御してもよい。これにより、コミュニケーションシステムは、第1のスピーカの音量を、第1のスピーカの周囲の音声の大きさに合わせたものにすることができる。
前記制御部は、一定時間内における前記話者数に基づいて前記第1のスピーカの音量を制御してもよい。これにより、短い時間のみにおいて話者数が変化した場合でも、制御端末はその変化にとらわれず、マイクの周囲の正確な状態の判定をすることができる。
前記話者数判定部は、一定時間内における前記話者数として前記一定時間内に会話をした個人の数をカウントしてもよい。これにより、話者数判定部は、異なる人同士が異なる時刻で会話をしている場合において、正確に会話をした合計の人数を把握することができる。従って制御部は、第1のマイクロフォンの周囲の正確な状態の判定をすることができる。
本発明にかかるロボットは、人間との間で音声を用いたコミュニケーションを実行するロボットであって、スピーカ、マイクロフォン、話者数判定部及び制御部を備える。スピーカは、音声を出力する。マイクロフォンは、前記ロボットの周囲の音声を音声信号として取得する。話者数判定部は、前記マイクロフォンが取得した音声信号に基づき、前記ロボットの周囲の話者の人数を判定する。制御部は、前記話者数判定部の判定に基づいて、前記スピーカの音量を制御する。このような構成により、ロボットは、周囲の話者の人数に応じてスピーカの音量を制御することができる。そのため、ロボットは、周囲の環境に応じて、コミュニケーションの音量を変更することができる。
本発明にかかる音量制御の方法は、周囲の音声を音声信号として取得する第1のマイクロフォンと、前記第1のマイクロフォンの近傍に設けられ、音声を出力する第1のスピーカと、前記第1のマイクロフォンから前記音声信号を取得し、音声として出力する第2のスピーカと、周囲の音声を音声信号として取得し、取得した当該音声信号を前記第1のスピーカに対して出力する第2のマイクロフォンと、が設けられたコミュニケーションシステムにおける音量制御の方法である。この音量制御の方法は、少なくとも以下のステップ(a)〜(b)を含む。
(a)前記第1のマイクロフォンが取得した音声信号に基づき、前記第1のマイクロフォンの周囲の話者の人数を判定すること、及び
(b)前記判定に基づいて、前記第1のスピーカの音量を制御すること。
このような構成により、コミュニケーションシステムは、第1のマイクロフォンの周囲の話者の人数に応じて第1のスピーカの音量を制御することができる。そのため、コミュニケーションシステムは、第1のマイクロフォンの周囲の環境に応じて、コミュニケーションの音量を変更することができる。
本発明にかかるロボットの制御プログラムは、音声を出力するスピーカと、周囲の音声を音声信号として取得するマイクロフォンを備えたロボットの制御プログラムである。このロボットの制御プログラムは、少なくとも以下のステップ(a)〜(b)をロボットに実行させる。
(a)前記マイクロフォンが取得した音声信号に基づき、前記ロボットの周囲の話者の人数を判定すること、及び
(b)前記判定に基づいて、前記スピーカの音量を制御すること。
このような構成により、ロボットは、周囲の話者の人数に応じてスピーカの音量を制御することができる。そのため、ロボットは、周囲の環境に応じて、コミュニケーションの音量を変更することができる。
本発明により、周囲の環境に応じてコミュニケーションの音量を変更することができるコミュニケーションシステム、ロボット、音量制御の方法及びロボットの制御プログラムを提供することができる。
実施の形態1にかかるロボットの外観の例を示す図である。 実施の形態1にかかるロボットの頭部の構成例を示す図である。 実施の形態1にかかるロボットの内部構成の一例を示すブロック構成図である。 実施の形態1にかかるロボットを有するコミュニケーションシステムの一例を示した構成図である。 実施の形態1にかかるロボットの周辺にいる人間の話し声の大きさの一例を示したグラフである。 実施の形態1にかかる話者数判定部が判定した話者数のグラフの例である。 実施の形態1にかかる制御端末の状態判定の処理の一例を示したフローチャートである。 実施の形態1において、話者数判定部の判定した話者数及び移動平均話者数の一例を示すグラフである。 関連技術にかかるコミュニケーションシステムの構成図である。 実施の形態1にかかるロボットの処理の一例を示すブロック構成図である。 実施の形態2にかかるロボットの内部構成の一例を示すブロック構成図である。 実施の形態2にかかるロボットを有するコミュニケーションシステムの一例を示した構成図である。 実施の形態3にかかるロボットの内部構成の一例を示すブロック構成図である。 実施の形態3にかかるロボットを有するコミュニケーションシステムの一例を示した構成図である。
実施の形態1
以下、図面を参照して本発明の実施の形態1について説明する。図1は、本実施の形態1にかかるロボット100の外観の例を示す図である。ロボット100は、人間の形を模して製造された遠隔操作ロボットであり、頭部101、胴体部102、右腕部103、左腕部104、右足部105及び左足部106を備える。ロボット100は、遠隔操作により、各部を動かすことが可能である。
図2は、頭部101の構成例を示す図である。頭部101は、右目111、左目112、口113、右耳114及び左耳115を有する。右目111、左目112は、それぞれ人間の顔の右目及び左目に対応する箇所に設けられており、右目111はカメラとして機能する。ロボット100は、このカメラにより周囲の環境を撮影して、遠隔操作をする人(以下、遠隔操作者と記載)にその撮影データを送信することができる。遠隔操作者はその撮影データを映像として見ることにより、ロボット100の周囲の環境を視認することができる。
口113は、人間の顔の口に対応する箇所に設けられている。口113にはスピーカが設けられており、遠隔操作側から送信された音声信号をそのスピーカにより音声として再生して、ロボット100の周囲の人間に聞こえるようにすることができる。
右耳114及び左耳115は、人間の顔の右耳及び左耳に対応する箇所に設けられている。右耳114にはマイクロフォン(以下、マイクと略記)が設けられており、ロボット100はそのマイクにより周囲の物音(例えばロボット100の周囲の人間の会話)を取得して、それを電気信号の音声データとして遠隔操作者に送信することができる。遠隔操作者はその音声データをスピーカで音声として聞くことにより、ロボット100の周囲の物音を確認することができる。
図3は、ロボット100の内部構成の一例を示すブロック構成図である。ロボット100は、カメラ121、スピーカ122、マイク123、話者数判定部124、制御部125及び可動部126を備える。カメラ121は、右目111に設けられた前述のカメラである。スピーカ122は、口113に設けられた前述のスピーカである。マイク123は、右耳114に設けられた前述のマイクである。
話者数判定部124は、マイク123から取得した周囲の物音に基づいて、ロボット100の周囲で話している話者が何人いるかを判定する。この処理の詳細については後述する。
制御部125は、遠隔操作側からの制御信号に応じてロボット100の各部を制御するものであり、例えばCPU(Central Processing Unit)、メモリ、その他の回路で構成されるIC(Integrated Circuit)である。制御部125は、例えば、制御信号に応じて、スピーカ122の音量を調整することができる。可動部126は、制御部125からの制御に応じて頭部101〜左足部106を動かすことを可能にするユニットであり、例えばアクチュエータである。
図4は、以上に示した構成を有するロボット100を有するコミュニケーションシステムの一例を示した構成図である。図4において、コミュニケーションシステム10は、ロボット100、ネットワーク200及び遠隔操作側300を備え、ロボット100はネットワーク200を介して遠隔操作側300に接続されている。
図4には、ロボット100の構成要素として、スピーカ122(第1のスピーカ)、マイク123(第1のマイクロフォン)、話者数判定部124、制御部125の他にアンプ127が記載されている。アンプ127は、遠隔操作側300からの音声信号を増幅してスピーカ122に供給する。その他、ロボット100は図1〜図3に示した構成要素を有しているが、図4ではそれらの記載は省略されている。
ネットワーク200は有線又は無線のネットワークである。遠隔操作側300は、ロボット100の遠隔操作者がその遠隔操作を実行するところであり、マイク301(第2のマイクロフォン)、アンプ302、スピーカ303(第2のスピーカ)、エコーキャンセラ304及び制御端末305を備える。
以下、遠隔操作側300の各部について説明する。マイク301は、ネットワーク200を介してスピーカ122に接続されている。遠隔操作者は、マイク301に自身の音声を入力することにより、その音声は電気信号に変換され、ネットワーク200、アンプ127を介してスピーカ122に送出される。上述の通り、スピーカ122はその音声信号を音声に変換して出力する。このようにして、遠隔操作者は自身の音声を、遠く離れたロボット100から出力させることができる。
アンプ302は、マイク123が出力した音声信号を、ネットワーク200を介して取得し、増幅してスピーカ303に出力する。スピーカ303は、音声信号を音声に変換して出力する。このようにして、遠隔操作者はロボット100の周囲の物音を聞くことができる。
エコーキャンセラ304は、スピーカ122、マイク123、マイク301、スピーカ303により生じるエコーを打ち消すユニットである。エコーキャンセラ304は、マイク301とスピーカ122とを接続する接続線と、アンプ302とマイク123とを接続する接続線との間に設けられている。
遠隔操作者がマイク301から自身の音声を入力することにより、スピーカ122からその音声が出力される。このとき、この音声がマイク123から入力されることにより、スピーカ303から音声が出力されてしまう。すなわち、エコーが生じてしまう。エコーキャンセラ304は、このエコーの発生を防止するため、マイク301に出力された遠隔操作者の音声信号を接続線から検出し、それをキャンセルさせるキャンセル信号をアンプ302とマイク123とを接続する接続線に出力する。これにより、エコーキャンセラ304は、エコーの発生を防止することができる。
制御端末305は、話者数判定部124が出力した判定結果を取得し、それに基づいてロボット100の制御を実行する。例えば制御端末305は、ロボット100のスピーカ122の音量を自動的に制御することができる。以下、この制御の詳細について説明する。
図5は、ロボット100の周辺にいる人間の話し声の大きさの一例を示したグラフである。図5では、ロボット100の周辺に、Aさん〜Fさんの6人の人間がいることを前提としている。図5において、横軸は時刻を示し、縦軸は話し声の大きさを示している。また、図5において初期時刻はt0である。
図5において、Aさんは時刻t0〜t1では無言であり、時刻t1〜t2では小さな声で話し、時刻t2〜t3では無言であり、時刻t3〜t4では小さな声で話し、時刻t4〜t5では無言であり、時刻t5〜t6では大きな声で話し、時刻t6以降では無言である。Bさんは時刻t0〜t7では無言であり、時刻t7〜t8では中程度の声で話し、時刻t8〜t9では無言であり、時刻t9以降では中程度の声で話している。Cさんは時刻t0〜t10では小さな声で話し、時刻t10〜t11では無言であり、時刻t11〜t12では小さな声で話し、時刻t12以降では大きな声で話している。Dさんは時刻t0〜t13では無言であり、時刻t13〜t14では大きな声で話し、時刻t14以降では無言である。Eさんは時刻t0〜t15では無言であり、時刻t15〜t16では小さな声で話し、時刻t16以降では無言である。Fさんは時刻t0以降から無言である。このように、人の話し声は大きな声や小さな声が混じっているほか、長いスパンで見ると一人の音声は連続しているわけではなく断続的であるのが特徴である。マイク123は、このような話し声を音声データとして取得する。
マイク123が取得した音声データは、ネットワーク200、アンプ302を介してスピーカ303に入力される。さらに、マイク123が取得した音声データは、話者数判定部124に入力される。
話者数判定部124は、マイク123が取得した音声データから、現在話している人間(話者)の数を判定する。ここで、人間の声は、各人の声帯の固有振動が異なる。そのため、同時に2人以上の声が発せられている場合でも、話者数判定部124は音声データを解析することにより、2以上の異なる固有振動を検出する。これにより、話者数判定部124は、2人以上が声を出していることを判定する。このようにして、話者数判定部124は、マイク123の周囲の話者の人数を示す話者数を判定する。
図6は、話者数判定部124が判定した話者数のグラフの例である。図6において、横軸は時刻を示し、縦軸は特定の時刻における話者数を示している。図6において、初期時刻t20では、マイク123の周辺(即ちロボット100の周辺)の話者数は1人である。時刻t21では、話者数は0人に減少する。時刻t22では、話者数は1人に戻る。時刻t23では、話者数は2人に増加する。時刻t24では、話者数は3人になり、すぐ後に4人に増加する。時刻t25では、話者数は2人に減少する。時刻t26では、話者数は1人になる。時刻t27では、話者数は2人に戻る。時刻t28では、話者数は一時1人になるが、すぐ2人に戻る。時刻t29では、話者数は1人になる。時刻t30では、話者数は2人に戻る。時刻t31では、話者数は3人になる。時刻t32では、話者数は2人になる。
話者数判定部124は、以上のようにして、マイク123の周囲の話者の人数を判定する。話者数判定部124は、ネットワーク200を介して制御端末305に出力する。制御端末305は、その判定結果に基づいて、スピーカ122の音量を制御する。
さらに話者数判定部124は、話者数判定部124が判定した現在のマイク123の周囲の話者数及びある一定時間内の過去のマイク123の周囲の話者数に基づいて、周囲の話者数の単純移動平均(以下、移動平均話者数と記載)を算出する。移動平均話者数のデータも、話者数判定部124が判定結果として制御端末305に出力する。
以下の説明においては、制御端末305が、プログラムに基づいて自動的にスピーカ122の音量を設定し、スピーカ122の音量を制御する制御信号を出力することにより、スピーカ122の音量を制御する。ただし、遠隔操作者は、制御端末305に表示された判定結果に基づいて、制御端末305を操作することにより、スピーカ122の音量を制御してもよい。具体的には、制御端末305から、スピーカ122の音量を制御する制御信号を制御部125に出力し、制御部125はその制御信号に応じてスピーカ122の音量を制御する。これにより、遠隔操作者は、スピーカ122の音量を制御することができる。
ここで、話者数判定部124は、マイク123が取得した音声のうちで、一定レベル以上の音量を有する声を出す人を話者数にカウントし、一定レベル未満の音量を有する声を出す人は話者数にカウントしていない。「一定レベル以上の音量を有する声を出す人」は、通常の対人距離において人と会話をしている人であり、「一定レベル未満の音量を有する声を出す人」は、ささやき声やウィスパーボイスといった小さい声で人と会話をしている人を示している。話者数判定部124は、例えば音圧レベルの閾値を55dBとし、それ以上の音量を有する声を出している人を話者数にカウントすることによって、一定レベル以上の音量を有する声を出す人のみを話者数にカウントする。一般的な会話の音圧レベルは約60dBであるのに対し、ささやき声の音圧レベルは30〜40dBであって、音圧レベルの閾値を55dBとすることにより、一般的な会話をする人のみを話者数にカウントすることができるからである。なお音圧レベルの閾値は、50dBや40dBなど、他の値でもよい。
制御端末305は、設定された閾値及び話者数判定部124が算出した移動平均話者数に基づいて、周囲の状態を以下の3つの状態に分類して判定する。
a.多数の人が雑談をしている状態
b.誰かが話し始めるのを比較的静かに待っている状態(スピーチ待ちの状態)
c.特定の人がスピーチを行っている状態又はスピーチが間もなくなされる状態
以下、詳細について説明する。
制御端末305には、マイク123の周囲の話者数において、第1の閾値R1として1.5、第2の閾値R1'として2.5、第3の閾値R2として3.5、第4の閾値R2'として4.5が設定されている。ここで第1の閾値R1〜第4の閾値R2'の大小関係はR1<R1'<R2<R2'である。
さらに、移動平均話者数のある時間での傾きα(微分値)の閾値として第5の閾値R3及び第6の閾値R3'(R3及びR3'は何らかの負の数である)が設定されている。ここで、第1の閾値R1、第2の閾値R1'及び第5の閾値R3は、周囲の状況が、特定の人がスピーチを行っている状態等であるかスピーチ待ちの状態であるかを制御端末305が判定するための閾値である。また、第3の閾値R2、第4の閾値R2'及び第6の閾値R3'は、周囲の状況が、多数の人が雑談をしている状態であるかスピーチ待ちの状態であるかを制御端末305が判定するための閾値である。以下、具体的な制御端末305の判定について説明する。
話者数判定部124が算出した移動平均話者数が第3の閾値R2以上であれば(即ち移動平均話者数が3.5人以上であれば)、原則として、制御端末305は周囲の状況を多数の人が雑談している状態(状態a)であると判定する。少数ではない人数の人が会話をしているため、周囲の状態はスピーチ等がなされている状態ではなく、雑談が行われている状態であると考えられるためである。
ただし、移動平均話者数が第3の閾値R2以上であっても、移動平均話者数が第4の閾値R2'未満であり、かつ移動平均話者数のある時間での傾きα(微分値)が第6の閾値R3'未満である場合に、制御端末305は周囲の状況を状態bであると判定する。つまり、制御端末305は、周囲の状況を、多数の人が雑談をしている状態からスピーチ待ちの状態に急に遷移したと判定する。ここで第6の閾値R3'は、移動平均話者数が第4の閾値R2'未満であるときに、移動平均話者数が傾き第6の閾値R3'で減少することにより、特定の時間内(例えば3秒以内)に移動平均話者数が第3の閾値R2未満まで減少するとみなされる値である。
制御端末305は、話者数判定部124が算出した移動平均話者数が第1の閾値R1以上かつ第3の閾値R2未満であれば、原則として、周囲の状況を、誰かが話し始めるのを静かに待っている状態(状態b)であると判定する。周囲の状態は、少数の人が会話している状態であり、特定の人がスピーチしている状態又はスピーチが間もなくなされる状態ではないものの、周囲の人が好きのままに雑談している状態でもない。従って、周囲の状態は、スピーチ等を周囲の人が待ちながら、少数の人が話をしている状態であると考えるのが妥当である。
ただし、移動平均話者数が第1の閾値R1以上であっても、移動平均話者数が第2の閾値R1'未満であり、かつ移動平均話者数のある時刻での傾きαが第5の閾値R3未満である場合に、制御端末305は周囲の状況を状態cであると判定する。つまり、制御端末305は、周囲の状況を、スピーチ待ちの状態から特定の人がスピーチを行っている状態等に急に遷移したと判定する。ここで第5の閾値R3は、移動平均話者数が第2の閾値R1'未満であるときに、移動平均話者数が傾き第5の閾値R3で減少することにより、特定の時間内に移動平均話者数が第1の閾値R1未満まで減少するとみなされる値である。
話者数判定部124が算出した移動平均話者数が第1の閾値R1未満であれば、制御端末305は周囲の状況を、特定の人がスピーチしている状態又はスピーチが間もなくなされる状態(状態c)であると判定する。マイク123の周囲の話者数が1人である場合には、周囲では会話が行われておらず、聞き手に対しての祝辞・式辞・講演などのスピーチがなされていると考えられるためである。また、周囲の話者数が0人である場合には、マイク123の周囲の人は、間もなく開始されるスピーチを待っているため話をしていない状態であると考えられる。
まとめると、制御端末305は、マイク123の周囲の状態が上述の状態a、b、cのいずれの状態であるかを、次の通りに判定する。制御端末305は、移動平均話者数が第3の閾値R2以上であれば、原則としてマイク123の周囲の状態が状態aであると判定する。しかし制御端末305は、移動平均話者数が第4の閾値R2'未満かつ第3の閾値R2以上であって移動平均話者数の傾きが第6の閾値R3'未満である場合にはマイク123の周囲の状態が状態bであると判定する。制御端末305は、移動平均話者数が第3の閾値R2未満で第1の閾値R1以上であれば、原則としてマイク123の周囲の状態が状態bであると判定する。しかし制御端末305は、移動平均話者数が第2の閾値R1'未満かつ第1の閾値R1以上であって移動平均話者数の傾きが第5の閾値R3未満である場合にマイク123の周囲の状態が状態cであると判定する。制御端末305は、移動平均話者数が第1の閾値R1未満であれば、マイク123の周囲の状態が状態cであると判定する。
図7は、ある特定の時刻における制御端末305の状態判定の処理の一例を示したフローチャートである。以下、制御端末305の状態判定処理の例について説明する。
制御端末305は、まず、移動平均話者数が第1の閾値R1未満であるか否かを判定する(ステップS1)。移動平均話者数が第1の閾値R1未満であれば(ステップS1のYes)、制御端末305は、マイク123の周囲の状態を状態cと判定する(ステップS2)。
移動平均話者数が第1の閾値R1以上であれば(ステップS1のNo)、制御端末305は、移動平均話者数が第3の閾値R2以上であるか否かを判定する(ステップS3)。
移動平均話者数が第3の閾値R2未満である場合(ステップS3のNo)、制御端末305はさらに、移動平均話者数が第2の閾値R1'未満であり、かつ移動平均話者数の傾きαが第5の閾値R3未満であるか否かを判定する(ステップS4)。
移動平均話者数が第2の閾値R1'未満であり、かつ移動平均話者数の傾きαが第5の閾値R3未満である場合(ステップS4のYes)、制御端末305は、マイク123の周囲の状態を状態cと判定する(ステップS2)。
移動平均話者数が第2の閾値R1'以上であるか、又は移動平均話者数の傾きαが第5の閾値R3以上である場合(ステップS4のNo)、制御端末305は、マイク123の周囲の状態を状態bと判定する(ステップS5)。
ステップS3の判定処理に戻って説明を続ける。移動平均話者数が第3の閾値R2以上である場合(ステップS3のYes)、制御端末305はさらに、移動平均話者数が第3の閾値R2'未満であり、かつ移動平均話者数の傾きαが第6の閾値R3'未満であるか否かを判定する(ステップS6)。
移動平均話者数が第3の閾値R2'未満であり、かつ移動平均話者数の傾きαが第6の閾値R3'未満である場合(ステップS6のYes)、制御端末305は、マイク123の周囲の状態を状態bと判定する(ステップS5)。
移動平均話者数が第3の閾値R2'以上であるか、又は移動平均話者数の傾きαが第6の閾値R3'以上である場合(ステップS6のNo)、制御端末305は、マイク123の周囲の状態を状態aと判定する(ステップS7)。
なお制御端末305は、話者数判定部124が算出した移動平均話者数が、閾値R1又はR2との大小関係が変化した状態になっても、所定の時間T以上その状態が継続しなければ、周囲の状態が変化したとみなさない。即ち、周囲の状態が所定の時間T未満だけ変化したと見なされた状態でも、制御端末305は、周囲の状態が変化したとは判定しない。これは、実際には周囲の状態が変化していないにもかかわらず、周囲の状態が変化したと制御端末305が判定することを避けるための措置である。所定の時間Tは、マイク123の周囲の状態が一時的に変化したと見なせる程度の短い時間であり、例えば1〜5秒程度の時間である(以降も同様である)。
図8は、話者数判定部124の判定した話者数及び移動平均話者数の一例を示すグラフである。この図8を用いて、制御端末305がスピーカ122の音量を制御する一例を説明する。なお図8において、横軸は時刻を示し、縦軸は話者数を示している。図8の実線のグラフは、特定の時刻におけるマイク123の周囲の話者数の経過を示すグラフである。実線のグラフにかかるデータは、話者数判定部124が判定結果として制御端末305に出力する。
図8の点線のグラフは、対象とする時刻よりも前の時刻の話者数を考慮に入れて話者数判定部124が算出した移動平均話者数のグラフである。この点線のグラフにかかるデータも、話者数判定部124が判定結果として制御端末305に出力する。
図8において、期間A(即ち時刻t41〜t42)では、移動平均話者数が第3の閾値R2を超えている。また、移動平均話者数の傾きは第6の閾値R3'以上である。従って、上述の図7の処理フローにおいて、制御端末305はステップS1−S3−S6の判定を実行し、周囲の状況を、多数の人が雑談している状態(状態a)であると判定する(ステップS7)。
このとき、制御端末305は、スピーカ122の音量を大きい音量(例えば70dB)にする制御を実行する。即ち、制御端末305は、スピーカ122の音量を小さくしない。これは、周囲の人が雑談中のため、スピーカ122の音量を小さくしなくても、周囲の人が迷惑するようなことがないと考えられるためである。逆に、制御端末305がスピーカ122の音量を小さくしてしまうと、スピーカ122からの音声が、周囲の音声と比較して小さくなりすぎてしまい、ロボット100の会話相手(即ちロボット100の遠隔操作者の会話相手)に聞こえなくなってしまう可能性がある。従って、制御端末305は、期間Aにおいて、当初設定されているスピーカ122の音量を大きい音量にする。
さらに図8において、時刻t43では、移動平均話者数が第1の閾値R1未満であり、かつ移動平均話者数の傾きα(α<0)が第5の閾値R3未満になっている。以上から、制御端末305は、ステップS1の判定を実行し、マイク123の周囲の状態が、少数の人が会話している状態(状態b)から、特定の人がスピーチしている状態等(状態c)に遷移したと判定する(ステップS2)。この判定に基づいて、制御端末305は、スピーカ122の音量を小さくする(例えば音量を50dBにする)制御を実行する。この状態は、スピーチが間もなくなされる状態にすぐ移行すると考えられる。そのため、制御端末305は、予めスピーカの音量を下げる制御をして、周囲が静かな環境にすぐ移行することに対して対応するのがよいと考えられるからである。
時刻t43の後も、周囲の移動平均話者数が第1の閾値R1以下になっている。制御端末305はここから、周囲の状況を、特定の人がスピーチしている状態等(状態c)であると判定する。従って、制御端末305は、スピーカ122の音量を小さくしたままに制御する。
以上のようにして、制御端末305は、時刻t43以降の期間Bにおいて、スピーカ122の音量を小さくする制御を実行する。
なお、制御端末305が、マイク123の周囲の状態が状態bであると判定した場合には、スピーカ122の音量を中程度にする(例えば音量を60dBにする)制御を実行する。このように、マイク123の周囲の状態が状態a、状態b、状態cの順に、制御端末305はスピーカ122の音量を大きく設定する。
なお制御端末305は、話者数判定部124が算出した移動平均話者数ではなく、話者数判定部124が判定した現在のマイク123の周囲の話者数に基づいて、図7に示した判定処理を実行してもよい。このとき、図8の期間B内の時刻t45〜t46、時刻t47〜t48においては、マイク123の周囲の話者数が2人(即ち、第1の閾値R1以上)になる。しかし、時刻t45〜t46、時刻t47〜t48の期間は、それぞれ所定の時間T未満の期間である。従って、制御端末305は、特定の人がスピーチを行っている状態(状態c)が継続していると判定する。これにより、制御端末305は、期間Bにおいてスピーカ122の音量を小さくしたままに制御し、元の音量に戻さない。
ただし、制御端末305が移動平均話者数に基づいて図7に示した判定処理を実行することにより、マイク123周辺の現在の話者数がわずかな時間だけ変動しても、その変動が緩和されて状態が判定される。つまり、制御端末305が判定するマイク123周辺の状態が頻繁に切り替わることを防ぐことができる。従って、制御端末305のマイク123の音量の制御が頻繁に変わることを防ぐためには、制御端末305が移動平均話者数に基づいて図7に示した判定処理を実行する方が望ましい。
以上説明した実施の形態1にかかるコミュニケーションシステム10は、周囲の環境に応じて音量を変更することができる。このコミュニケーションシステム10は、マイク123、スピーカ122、スピーカ303、マイク301、話者数判定部124及び制御端末305を少なくとも備える。マイク123は、周囲の音声を音声信号として取得する。スピーカ122は、マイク123の近傍(例えばマイク123から数十cm〜1m程度の距離)に設けられ、音声を出力する。スピーカ303は、マイク123から音声信号を取得し、音声として出力する。マイク301は、周囲の音声を音声信号として取得し、取得した当該音声信号をスピーカ122に対して出力する。話者数判定部124は、マイク123が取得した音声信号に基づき、マイク123の周囲の話者の人数を判定する。制御端末305は、話者数判定部124の判定に基づいて、スピーカ122の音量を制御する。このような構成により、コミュニケーションシステム10は、マイク123の周囲の話者の人数に応じてスピーカ122の音量を制御することができる。そのため、コミュニケーションシステム10は、マイク123の周囲の環境に応じて、コミュニケーションの音量を変更することができる。
図9は、従来のコミュニケーションシステムの構成を示した構成図である。図9にかかるコミュニケーションシステム90は、ロボット700、ネットワーク800及び遠隔操作側900を備え、ロボット700はネットワーク800を介して遠隔操作側900に接続されている。
ロボット700は、スピーカ701、マイク702、アンプ703及び制御部704を備える。スピーカ701、マイク702、アンプ703は、それぞれ図4のスピーカ122、マイク123、アンプ127に対応する。制御部704は、スピーカ122及びマイク123の制御を実行する。
遠隔操作側900は、マイク901、アンプ902、スピーカ903及びエコーキャンセラ904を備える。マイク901、アンプ902、スピーカ903及びエコーキャンセラ904は、それぞれ図4のマイク301、アンプ302、スピーカ303及びエコーキャンセラ304に対応する。
コミュニケーションシステム90では、遠隔操作側900にいる遠隔操作者は、離れたところにあるマイク702が取得した音声をスピーカ903で聞く。また遠隔操作者は、マイク901に対して発声することによって、自身の音声を離れたところにあるスピーカ701から出力する。このようにして、遠隔操作者は、離れたところにいる人(即ちロボット700の近傍にいる人)と会話をすることができる。
しかし、遠隔操作者は、ロボット700の周囲の環境を正確に認識することができなかった。即ち、遠隔操作者は、ロボット700周辺の人は現在雑談をしているのか、それとも誰かのスピーチ等を静かに聞いているのか、ということについて、認識することができなかった。そのため、例えばロボット周辺の人が誰かのスピーチを静かに聞いている最中に、遠隔操作者がマイク901でロボット700の近くの人に話しかけると、スピーカ701から大きな声が出てしまい、周囲の雰囲気を乱してしまうということがあり得る。
これに対し、実施の形態1にかかるコミュニケーションシステム10は、マイク123の周囲の環境に応じて、コミュニケーションの音量を変更することができる。
なお制御端末305は、話者数判定部124が判定したマイク123の周囲の話者の人数が閾値未満であった場合には、当該人数が閾値以上であった場合と比較して、スピーカ122の音量を小さくするように制御してもよい(ここで、周囲の話者の人数とは、話者数判定部124が判定した現在のマイク123の周囲の話者数でもよいし、話者数判定部124が算出した移動平均話者数でもよい。これは以下の説明でも同様である。)。このような構成により、マイク123の周囲の話者の人数が閾値未満のときには、その近傍にあるスピーカ122から出力される音声の音量が小さくなる。そのため、コミュニケーションシステム10は、スピーカ122の周囲でなされるスピーチを妨害してしまうことを防ぐことができる。
制御端末305は、話者数判定部124が判定したマイク123の周囲の話者の人数が閾値未満であった場合に、所定の時間Tよりも少ない時間だけ当該人数が閾値以上になったときでも、スピーカ122の音量を小さくしたままに制御してもよい。このような構成により、制御端末305は、マイク123の周囲でスピーチがなされている場合に、短い間だけ多数の人の声がしたようなときでも、スピーカ122の音量を小さいままにすることができる。これにより、コミュニケーションシステム10は、スピーカ122の周囲でなされるスピーチを妨害してしまうことを防ぐことができる。
制御端末305は、話者数判定部124が判定したマイク123の周囲の話者の人数が閾値以上であった場合に、所定の時間Tよりも少ない時間だけ当該人数が閾値未満になったときでも、スピーカ122の音量を大きくしたままに制御してもよい。このような構成により、マイク123の周囲で多数の人の会話がなされている場合に、短い間だけ静かな状態になったときでも、スピーカ122の音量をそのままにすることができる。これにより、コミュニケーションシステム10は、スピーカ122の音量を小さくしてしまうことによって、スピーカ303及びマイク301を使って話をする人(遠隔操作者)のコミュニケーションが阻害されてしまうことを防ぐことができる。
制御端末305は、話者数判定部124が判定したマイク123の周囲の話者の人数が特定の時間内に所定数よりも大きく減少する場合に(つまり傾きαが所定の傾き未満である場合に)、スピーカ122の音量を小さくするように制御してもよい。このような構成により、制御端末305は、マイク123の周囲の状態を、多くの人が雑談している状態から、聴衆がスピーチを静かに待っている状態に変化したことを検出して、スピーカ122の音量を小さくすることができる。これにより、コミュニケーションシステム10は、スピーカ122の周囲でなされるスピーチを妨害してしまうことを防ぐことができる。
制御端末305は、話者数判定部124が判定したマイク123の周囲の話者の人数が閾値以下であり、かつ減少している場合に、スピーカ122の音量を小さくするように制御してもよい。このような構成により、制御端末305は、マイク123の周囲の状態が、聴衆がスピーチを静かに待っている状態であることを検出して、スピーカ122の音量を小さくすることができる。これにより、コミュニケーションシステム10は、スピーカ122の周囲でなされるスピーチを妨害してしまうことを防ぐことができる。
なお、制御端末305の代わりに、ロボット100の制御部125が図7に記載した処理フローを実行してもよい。ここでロボット100は、人間との間で音声を用いたコミュニケーションを実行するロボットであって、スピーカ122、マイク123、話者数判定部124及び制御部125を備える。
図10は、そのようなロボットの処理の一例を示すブロック構成図である。スピーカ122は、音声を出力する。マイク123は、ロボット100の周囲の音声を音声信号として取得する。話者数判定部124は、マイク123が取得した音声信号に基づき、ロボット100の周囲の話者の人数を判定する。制御部125は、話者数判定部124の判定に基づいて、スピーカ122の音量を制御する。このような構成により、ロボット100は、周囲の話者の人数に応じてスピーカ122の音量を制御することができる。そのため、ロボット100は、周囲の環境に応じて、自律的にコミュニケーションの音量を変更することができる。
さらに実施の形態1では、コミュニケーションシステムにおける音量制御の方法についても開示している。このコミュニケーションシステムは、周囲の音声を音声信号として取得するマイク123と、マイク123の近傍に設けられ、音声を出力するスピーカ122と、マイク123から音声信号を取得し、音声として出力するスピーカ303と、周囲の音声を音声信号として取得し、取得した当該音声信号をスピーカに対して出力するマイク301と、を有する。この音量制御の方法は、少なくとも以下のステップ(a)〜(b)を含む。
(a)マイク123が取得した音声信号に基づき、マイク123の周囲の話者の人数を判定すること、及び
(b)前記判定に基づいて、スピーカ122の音量を制御すること。
このような構成により、コミュニケーションシステムは、マイク123の周囲の話者の人数に応じてスピーカ122の音量を制御することができる。そのため、コミュニケーションシステムは、スピーカ122の周囲の環境に応じて、コミュニケーションの音量を変更することができる。
図7に示したフローチャートの処理方法は、あくまで一例である。例えば、図7において、制御端末305は、ステップS3ではなくステップS1の判定を先に実行してもよい。また、第1の閾値R1、第2の閾値R1'、第3の閾値R2及び第4の閾値R2'の値はあくまで具体例であり、R1<R1'<R2<R2'の大小関係を満たすのであれば他の値でもよい。第5の閾値R3及び第6の閾値R3'の値についても、第1の閾値R1〜第4の閾値R2'の値に基づいて変更することができる。
なお、上述の処理例では、制御端末305は、マイク123の周囲の状態が状態aである場合には、スピーカ122の音量を音量70dBに設定した。ここで制御端末305は、マイク123の周囲の状態が状態aであるときにスピーカ122の音量を常に音量70dBにしなくともよく、スピーカ122の音量が少し(例えば1、2dB程度)変化するようにスピーカ122の音量を調整してもよい。マイク123の周囲の状態が状態b、状態cであるときも同様である。このようにしても、マイク123の周囲の状態が状態a、状態b、状態cの順に、制御端末305はスピーカ122の音量を大きく設定していればよい。
なお、マイク123の周囲の状態が状態bであるとき、制御端末305は状態aのときとスピーカ122の音量を同じに設定していてもよい。
なお、上述の状態a、b、cを制御端末305が判定する方法は、他にも考えられる。以下、状態a、b、cについて順番に説明する。
例えば、以下の状態を制御端末305が検出した場合には、制御端末305はマイク123の周囲の状態が状態aであると判定することができる。制御端末305は、マイク123の周囲において所定レベル以上の音量の大きな声又は普通の音量の声の話者が多数あり、その声が一定時間以上続いたと判定した場合に、マイク123の周囲の状態が状態aであると判定することができる。ここで「所定レベル以上の音量」とは、例えば大声の音量である70〜80dB程度の音量をいい、「普通の音量」とは、例えば一般的な話し声の音量である60dB程度のことをいう(以下も同様である)。そして「一定時間」とは、マイク123の周囲の状態を特定するのに十分長い時間であり、例えば7〜10秒程度の時間である(以降も同様である)。この時間は、スピーチ中に時々起る数秒程度の笑い声や話し声を、「多数の人が雑談をしている」状態であると判定しないために設定されている。「話者が多数」とは、例えば話者が4人以上(上述の第3の閾値R2以上)いる場合を示す。
さらに、制御端末305は、上述の通りマイク123の周囲の状態が状態aであると判定した場合に、所定の時間Tよりも少ない時間だけ上述の条件を満たさない場合でも、マイク123の周囲の状態が状態aであると判定してもよい。これは、多数の人が雑談している状態であっても、一瞬会話がない静かな状態になることもあり得るため、その状態を状態b又は状態cと判定すると、スピーカの音量が現実の状態に基づいて正しく制御されなくなってしまうからである。なお所定の時間Tは、上述の通り、例えば1秒〜5秒程度の時間である。
さらに、制御端末305は、ある時刻におけるマイク123の周囲の話者数が第3の閾値R2以上である場合だけではなく、一定時間内におけるマイク123の周囲の個人の話者数が所定の数よりも多い場合に、マイク123の周囲の状態が状態aであると判定してもよい。なお一定時間の定義は上述の通りである。
例えば、制御端末305は、10秒の間に、5人以上の話者がマイク123の周囲にいた場合に、マイク123の周囲の状態が状態aであると判定することができる。ここで話者数判定部124は、例えば10秒の間に最初にAさんとBさんとCさんが会話をし、次にAさんとDさんとEさんが会話をした場合に、5人の話者がマイク123の周囲にいたと判定する。話者数判定部124は、上述の通り異なる固有振動を検出することにより、会話をしたのがAさん〜Eさんのいずれであるかを判定する。
これは、多数の人がマイク123の周囲で雑談をしている場合であっても、常に人が話をしているわけではなく、話の中断があることを考慮したものである。そのような中断が短い時間(例えば1〜3秒)あったときに、制御端末305がその短い時間の状態だけを考慮してマイク123の周囲の状態が状態b又は状態cであると判定すると、スピーカの音量が現実の状態に基づいて正しく制御されなくなってしまう。しかし、制御端末305は、会話の中断があっても、一定時間内におけるマイク123の周囲の個人の話者数が所定の数よりも多い場合に、マイク123の周囲の状態が状態aであると判定することにより、マイク123の周囲の正確な状態の判定をすることができる。
さらに、この判定方法は、特に雑談においてある話者が相手を変えて話をする場合に、正確な状態の判定をすることが可能となる。例えば、10秒の間に最初にAさんとBさんとCさんが会話をし、次にAさんとDさんとEさんが会話をした場合には、特定の時刻における話者の人数は3人、即ち第3の閾値R2未満であるものの、一定時間内における個人の話者の人数は5人、即ち第3の閾値R2以上になる。このようなときに、制御端末305がその特定の時刻の状態だけを考慮してマイク123の周囲の状態が状態bであると判定すると、スピーカの音量が現実の状態に基づいて正しく制御されなくなってしまう。しかしながら、制御端末305は、ある特定の時刻における話者の人数が少ない場合であっても、一定時間内におけるマイク123の周囲の個人の話者数が所定の数よりも多い場合に、マイク123の周囲の状態が状態aであると判定する。これにより、制御端末305はマイク123の周囲の正確な状態の判定をすることができる。
また、以下の状態を制御端末305が検出した場合には、制御端末305はマイク123の周囲の状態が状態bであると判定することができる。制御端末305は、マイク123の周囲において所定レベル以上の音量の大きな声又は普通の音量の声を出す話者の数が、特定の時間以内に所定の数以上減少した場合に、マイク123の周囲の状態が状態bであると判定してもよい。ここで「所定レベル以上の音量」、「普通の音量」の例は上述した通りである。
制御端末305は、一般的な話し声を出している話者の数が、例えば3秒以内に4人以上減少した場合に、マイク123の周囲の状態が状態aから状態bに遷移したと判定することができる。このように、所定レベル以上の音量の大きな声又は普通の音量の声を出す話者の数が短い時間に急激に減少した場合に、制御端末305は、マイク123の周囲の状態が状態bであると判定することができる。この状態は、多数の人がマイク123の周囲で雑談をしていた状態から、スピーチが間もなく開始されることをきっかけにして、雑談をしていた人がそれをやめる状態に移行した状態を示している。
さらに制御端末305は、マイク123の周囲において所定レベル以上の音量の大きな声又は普通の音量の声を出す話者の数が一定以下である状態において、一定時間内に所定の数以上話者数が減少した場合に、マイク123の周囲の状態が状態aから状態bになったと判定することができる。例えば制御端末305は、一般的な話し声を出している話者の数が特定の時刻において10人以下である場合に、10秒以内に4人以上話者の数が減少した場合に、マイク123の周囲の状態が状態aから状態bになったと判定することができる。このように、制御端末305は、所定レベル以上の音量の大きな声又は普通の音量の声を出す話者の数が一定以下であって、話者の数がさらに減少を続けている場合に、マイク123の周囲の状態が状態bであると判定することができる。この状態は、雑談をする人が多くなかった状態から、スピーチが間もなく開始されることをきっかけにして、雑談をしていた人が順次それをやめる状態に移行した状態を示している。
さらに、以下の状態を制御端末305が検出した場合には、制御端末305はマイク123の周囲の状態が状態cであると判定することができる。制御端末305は、マイク123の周囲において、一定時間以上、所定レベル以上の音量の大きな声を出す話者が少数(1人〜3人程度)いる場合に、マイク123の周囲の状態が状態cであると判定することができる。これは、少数の人がマイク123の周囲でスピーチをしている状態を示している。また、スピーチをする人は1人に限られず、2人、3人といった複数かつ少数の人でもよい。これは、例えば式場において、司会とゲストのトークがなされるような場合があり得るからである。
このとき、話者数判定部124は、上述の一定レベル未満の音量を有する声を出す人を、「一定レベル未満の音量を有する話者」として話者数にカウントしてもよい。制御端末305は、話者数判定部124がマイク123の周囲に一定レベル未満の音量を有する話者がいると判定した場合でも、マイク123の周囲の状態が状態cであると判定することができる。「一定レベル未満の音量」とは、例えばささやき声又はウィスパーボイスといった小さい声の音量であり、30〜40dB程度の音量をいう。これは、少数の人がマイク123の周囲でスピーチをしている一方で、他の人がスピーチの邪魔にならないよう、小さな声で話をしている状態を示している。
さらに、制御端末305は、所定の時間Tよりも少ない時間(例えば3秒〜5秒未満の時間)、所定レベル以上の音量の大きな声又は普通の音量の声を出す話者が所定の数以上いる場合であっても、マイク123の周囲の状態が状態cであると判定することができる。この処理は、スピーチの間の時間に笑い声や雑談が起こる場合に、その時間内の状態だけを検出して多数の人が雑談をしている状態であると制御端末305が判定して、スピーカ122の音量を現実に適さないやり方で制御してしまうことを防ぐための処理である。
さらに、制御端末305は、所定の時間Tよりも少ない時間(例えば2秒〜5秒未満の時間)、所定レベル以上の音量の大きな声を出す話者がいなくなった場合であっても、マイク123の周囲の状態が状態cであると判定することができる。この処理は、スピーチをしている人が話をする間に小休止を挟む場合に、その間の状態だけを検出して状態bであると制御端末305が判定して、スピーカ122の音量を現実に適さないやり方で制御してしまうことを防ぐための処理である。
さらに、制御端末305は、多数の話者がいる状態aの状態から、話者の数が減少して少数(例えば2、3人)になった場合でも、マイク123の周囲の状態が状態cであると判定することができる。これは、マイク123の周囲の状態が、聴衆が雑談をしている状態からスピーチが間もなく始まる状態に変化した場合に、スピーチが開始されることに気が付かず少数の人が会話をしている状態を示している。このため、制御端末305は、現実の状態を適切に反映させて、スピーカ122の音量を小さく制御することができる。
以上のように、制御端末305は、特定の時刻における話者の人数ではなく、話者数判定部124が判定したある一定時間内における話者数に基づいて、スピーカ122の音量を制御することもできる。これにより、短い時間のみにおいて話者数が変化した場合でも、制御端末305はその変化にとらわれず、マイク123の周囲の正確な状態の判定をすることができる。
また、話者数判定部124は、一定時間内におけるマイク123の周囲の話者数として、一定時間内に会話をした個人の数をカウントしてもよい。これにより、話者数判定部124は、異なる人同士が異なる時刻で会話をしている場合において、正確に会話をした合計の人数を把握することができる。従って制御端末305は、マイク123の周囲の正確な状態の判定をすることができる。
実施の形態2
以下、図面を参照して本発明の実施の形態2について説明する。実施の形態2にかかるロボットの外観図及び頭部の構成については実施の形態1と同様であるため説明を省略する。
図11は、実施の形態2にかかるロボット100の内部構成の一例を示すブロック構成図である。図11にかかるロボット100は、図3にかかるロボット100と比べて、比較部128を新たに備える。
図12は、ロボット100を有するコミュニケーションシステムの一例を示した構成図である。コミュニケーションシステム20において比較部128は、マイク301から出力される音声信号と、マイク123から出力される音声信号とを比較することにより、スピーカ122が出力する音声とマイク123の周囲にある音声との大きさを比較する。つまり、比較部128は、ロボット100が出す音声の大きさと、ロボット100の周囲にいる人が出す音声の大きさとを比較する。
比較部128は、その比較結果を制御端末305に出力し、制御端末305はその比較結果を表示する。遠隔操作者は、制御端末305に表示された比較結果に基づいて、制御端末305からスピーカ122の音量を制御する。これにより、コミュニケーションシステム30は、スピーカ122の音量を、スピーカ122の周囲の音声の大きさに合わせたものにすることができる。
例えば、比較部128は、スピーカ122が出力する音声の音量が65dBであり、マイク123から取得した音声の音量が55dBであると判定すると仮定する。このとき、遠隔操作者は、ロボット100から出力される音声がロボット100の周囲の音声よりも大きい状態(即ちロボット100が周囲の人と比較してうるさい状態)にあると判定する。遠隔操作者は、この判定により、制御端末305から、スピーカ122の音量を10dB程度小さくするように、制御部125に制御信号を出力する。これにより、スピーカ122の音量を、ロボット周囲の音声の音量に追従して小さくすることができる。
逆に、比較部128は、スピーカ122が出力する音声の音量が50dBであり、マイク123から取得した音声の音量が60dBであると判定すると仮定する。このとき、遠隔操作者は、ロボット100から出力される音声がロボット100の周囲の音声よりも小さい状態(即ちロボット100の音声が周囲の人に聞こえにくい状態)にあると判定する。遠隔操作者は、この判定により、制御端末305から、スピーカ122の音量を10dB程度大きくするように、制御部125に制御信号を出力する。これにより、スピーカ122の音量を、ロボット周囲の音声の音量に追従して大きくすることができる。
遠隔操作者は、ロボット100と離れた場所にいるため、ロボット100の発する音声と、ロボット100周辺の人が発する音声とを直接聞くことができない。そのため、遠隔操作者は、ロボット100の発する音声の音量を間違って設定してしまう可能性がある。例えば、ロボット100の発する音声の音量がロボット100周辺の人が発する音声の音量に比べて大きすぎてしまい、ロボット100の周辺の人の会話やスピーチの妨げになってしまうことがありえる。その逆に、ロボット100の発する音声の音量がロボット100周辺の人が発する音声の音量に比べて小さすぎてしまい、ロボット100の周辺にいる人が、ロボット100を介して遠隔操作者と会話をするのに支障が出ることもありえる。実施の形態2にかかるロボット100及びコミュニケーションシステム30は、ロボット100の発する音声の音量をロボット100周辺の人が発する音声の音量に合わせることにより、このような課題を解決することができる。
なお、制御部125は、比較部128の比較結果に基づいて、自動的にスピーカ122の音量を制御してもよい。制御部125の具体的な制御方法については上述の通りである。つまり制御部125は、比較部128の比較結果に基づいて、スピーカ122が出力する音声の音量と、マイク123から取得した音声の音量とをほぼ同程度の大きさにするように、スピーカ122の音量を制御する。
実施の形態3
以下、図面を参照して本発明の実施の形態2について説明する。実施の形態3にかかるロボットの外観図及び頭部の構成については実施の形態1と同様であるため説明を省略する。
図13は、実施の形態3にかかるロボット100の内部構成の一例を示すブロック構成図である。図13にかかるロボット100は、図3にかかるロボット100と比べて、話者数判定部124を内部に備えていない。
図14は、ロボット100を有するコミュニケーションシステムの一例を示した構成図である。コミュニケーションシステム30において話者数判定部は、遠隔操作側300に話者数判定部306として備えられている。話者数判定部306が実行する処理は実施の形態1にかかる話者数判定部124と同様であり、説明を省略する。話者数判定部306は判定結果を制御端末305に出力する。
制御端末305は、判定結果に基づいてスピーカ122の音量を制御するよう、制御信号を制御部125に出力する。制御端末305のスピーカ122の音量制御の方法は実施の形態1に説明した方法と同様である。制御部125は制御信号に基づいてスピーカ122の音量を制御する。
このように、実施の形態3では、話者数判定部306がロボット100ではなく遠隔操作側300に備えられている。これは、話者数判定部306がロボット100に備えられている場合に、その判定結果を制御端末305に出力するときにネットワーク200により生ずる遅延の影響を抑制するための構成である。ここで、話者数判定部306は、マイク123から出力された音声信号がエコーキャンセラ304によりエコーキャンセルされる前の音声信号を用いて判定を実行する。
実施の形態2にかかる比較部128も、図14にかかる話者数判定部306と同様にして、ロボット100ではなく遠隔操作側300に備えさせることができる。
なお、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。例えば、実施の形態1におけるロボット100は遠隔操作者によって操作される遠隔操作ロボットであるとして説明したが、自律的に周囲の状況を判定し、音声等を出力するロボットであってもよい。このようなロボットであっても、実施の形態1と同様の判定方法により、スピーカの音量を環境に合わせて制御することができる。さらに、ロボット100の代わりに、同様の構成部品を備えたコンピュータがコミュニケーションシステム10に備えられていても、コミュニケーションシステム10は同様の効果を奏することができる。
実施の形態1において、話者数判定部124は、周囲の話者数の移動平均を算出せず、他のフィルタ処理を実行して、周囲の話者数の時間における遷移を算出することができる。制御部125は、その遷移にかかるデータに基づいて、スピーカ122の音量を、実施の形態1と同様に制御する。
実施の形態1に示した処理フローは、制御方法の1つとして、コンピュータ(例えばパーソナルコンピュータ、携帯端末、ロボット)に実行させることができる。例えば、処理フローを制御プログラムとしてコンピュータに実行させてもよい。このコンピュータは、音声を出力するスピーカと、周囲の音声を音声信号として取得するマイクロフォンを備えている。コンピュータは、マイクロフォンが取得した音声信号に基づき、ロボットの周囲の話者の人数を判定する。次にコンピュータは、その判定に基づいて、前記スピーカの音量を制御する。以上のようにして、コンピュータは処理を実行する。実施の形態2、3に示した処理についても、同様にコンピュータに実行させることができる。
プログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば光磁気ディスク)、CD−ROM、CD−R、CD−R/W、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(Random Access Memory))を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。
10、20、30 コミュニケーションシステム
100 ロボット
101 頭部
102 胴体部
103 右腕部
104 左腕部
105 右足部
106 左足部
111 右目
112 左目
113 口
114 右耳
115 左耳
121 カメラ
122 スピーカ
123 マイク
124 話者数判定部
125 制御部
126 可動部
127 アンプ
128 比較回路
200 ネットワーク
300 遠隔操作側
301 マイク
302 アンプ
303 スピーカ
304 エコーキャンセラ
305 制御端末
306 話者数判定部

Claims (26)

  1. ロボットと、前記ロボットとネットワークを介して接続されている遠隔操作側とを備えたコミュニケーションシステムであって、
    周囲の音声を音声信号として取得する第1のマイクロフォンと、
    前記第1のマイクロフォンの近傍に設けられ、音声を出力する第1のスピーカと、
    前記第1のマイクロフォンから前記音声信号を取得し、音声として出力する第2のスピーカと、
    周囲の音声を音声信号として取得し、取得した当該音声信号を前記第1のスピーカに対して出力する第2のマイクロフォンと、
    前記第1のマイクロフォンが取得した音声信号に基づき、前記第1のマイクロフォンの周囲の話者の人数を示す話者数を判定する話者数判定部と、
    前記話者数判定部の判定に基づいて、前記第1のスピーカの音量を制御する制御部と、
    を備え
    前記第1のマイクロフォン及び前記第1のスピーカは、前記ロボットに配置され、
    前記第2のマイクロフォン及び前記第2のスピーカは、前記遠隔操作側に配置され、
    前記制御部は、前記話者数が閾値未満であった場合には、当該人数が閾値以上であった場合と比較して、前記第1のスピーカの音量を小さくするように制御し、かつ、前記話者数が閾値未満であった場合に、所定の時間よりも少ない時間だけ当該人数が閾値以上になったときでも、前記第1のスピーカの音量を小さくしたままに制御する、
    コミュニケーションシステム。
  2. ロボットと、前記ロボットとネットワークを介して接続されている遠隔操作側とを備えたコミュニケーションシステムであって、
    周囲の音声を音声信号として取得する第1のマイクロフォンと、
    前記第1のマイクロフォンの近傍に設けられ、音声を出力する第1のスピーカと、
    前記第1のマイクロフォンから前記音声信号を取得し、音声として出力する第2のスピーカと、
    周囲の音声を音声信号として取得し、取得した当該音声信号を前記第1のスピーカに対して出力する第2のマイクロフォンと、
    前記第1のマイクロフォンが取得した音声信号に基づき、前記第1のマイクロフォンの周囲の話者の人数を示す話者数を判定する話者数判定部と、
    前記話者数判定部の判定に基づいて、前記第1のスピーカの音量を制御する制御部と、
    を備え、
    前記第1のマイクロフォン及び前記第1のスピーカは、前記ロボットに配置され、
    前記第2のマイクロフォン及び前記第2のスピーカは、前記遠隔操作側に配置され、
    前記制御部は、前記話者数が閾値未満であった場合には、当該人数が閾値以上であった場合と比較して、前記第1のスピーカの音量を小さくするように制御し、かつ、前記話者数が閾値以上であった場合に、所定の時間よりも少ない時間だけ当該人数が閾値未満になったときでも、前記第1のスピーカの音量を大きくしたままに制御する、
    コミュニケーションシステム。
  3. ロボットと、前記ロボットとネットワークを介して接続されている遠隔操作側とを備えたコミュニケーションシステムであって、
    周囲の音声を音声信号として取得する第1のマイクロフォンと、
    前記第1のマイクロフォンの近傍に設けられ、音声を出力する第1のスピーカと、
    前記第1のマイクロフォンから前記音声信号を取得し、音声として出力する第2のスピーカと、
    周囲の音声を音声信号として取得し、取得した当該音声信号を前記第1のスピーカに対して出力する第2のマイクロフォンと、
    前記第1のマイクロフォンが取得した音声信号に基づき、前記第1のマイクロフォンの周囲の話者の人数を示す話者数を判定する話者数判定部と、
    前記話者数判定部の判定に基づいて、前記第1のスピーカの音量を制御する制御部と、
    を備え、
    前記第1のマイクロフォン及び前記第1のスピーカは、前記ロボットに配置され、
    前記第2のマイクロフォン及び前記第2のスピーカは、前記遠隔操作側に配置され、
    前記制御部は、前記話者数が特定の時間内に所定数よりも大きく減少する場合に、前記第1のスピーカの音量を小さくするように制御する、
    コミュニケーションシステム。
  4. ロボットと、前記ロボットとネットワークを介して接続されている遠隔操作側とを備えたコミュニケーションシステムであって、
    周囲の音声を音声信号として取得する第1のマイクロフォンと、
    前記第1のマイクロフォンの近傍に設けられ、音声を出力する第1のスピーカと、
    前記第1のマイクロフォンから前記音声信号を取得し、音声として出力する第2のスピーカと、
    周囲の音声を音声信号として取得し、取得した当該音声信号を前記第1のスピーカに対して出力する第2のマイクロフォンと、
    前記第1のマイクロフォンが取得した音声信号に基づき、前記第1のマイクロフォンの周囲の話者の人数を示す話者数を判定する話者数判定部と、
    前記話者数判定部の判定に基づいて、前記第1のスピーカの音量を制御する制御部と、
    を備え、
    前記第1のマイクロフォン及び前記第1のスピーカは、前記ロボットに配置され、
    前記第2のマイクロフォン及び前記第2のスピーカは、前記遠隔操作側に配置され、
    前記制御部は、前記話者数が閾値以下であり、かつ減少している場合に、前記第1のスピーカの音量を小さくするように制御する、
    コミュニケーションシステム。
  5. ロボットと、前記ロボットとネットワークを介して接続されている遠隔操作側とを備えたコミュニケーションシステムであって、
    周囲の音声を音声信号として取得する第1のマイクロフォンと、
    前記第1のマイクロフォンの近傍に設けられ、音声を出力する第1のスピーカと、
    前記第1のマイクロフォンから前記音声信号を取得し、音声として出力する第2のスピーカと、
    周囲の音声を音声信号として取得し、取得した当該音声信号を前記第1のスピーカに対して出力する第2のマイクロフォンと、
    前記第1のマイクロフォンが取得した音声信号に基づき、前記第1のマイクロフォンの周囲の話者の人数を示す話者数を判定する話者数判定部と、
    前記話者数判定部の判定に基づいて、前記第1のスピーカの音量を制御する制御部と、
    前記第1のマイクロフォンが取得した音声と、前記第2のマイクロフォンが取得した音声との大きさを比較した比較結果を出力する比較部と、
    を備え、
    前記第1のマイクロフォン及び前記第1のスピーカは、前記ロボットに配置され、
    前記第2のマイクロフォン及び前記第2のスピーカは、前記遠隔操作側に配置され、
    前記制御部は、前記比較部の比較結果に基づいて前記第1のスピーカの音量を制御する、
    コミュニケーションシステム。
  6. ロボットと、前記ロボットとネットワークを介して接続されている遠隔操作側とを備えたコミュニケーションシステムであって、
    周囲の音声を音声信号として取得する第1のマイクロフォンと、
    前記第1のマイクロフォンの近傍に設けられ、音声を出力する第1のスピーカと、
    前記第1のマイクロフォンから前記音声信号を取得し、音声として出力する第2のスピーカと、
    周囲の音声を音声信号として取得し、取得した当該音声信号を前記第1のスピーカに対して出力する第2のマイクロフォンと、
    前記第1のマイクロフォンが取得した音声信号に基づき、前記第1のマイクロフォンの周囲の話者の人数を示す話者数を判定する話者数判定部と、
    前記話者数判定部の判定に基づいて、前記第1のスピーカの音量を制御する制御部と、
    を備え、
    前記第1のマイクロフォン及び前記第1のスピーカは、前記ロボットに配置され、
    前記第2のマイクロフォン及び前記第2のスピーカは、前記遠隔操作側に配置され、
    前記制御部は、一定時間内における前記話者数に基づいて前記第1のスピーカの音量を制御する、
    コミュニケーションシステム。
  7. 前記話者数判定部は、一定時間内における前記話者数として前記一定時間内に会話をした個人の数をカウントする、
    請求項6に記載のコミュニケーションシステム。
  8. 人間との間で音声を用いたコミュニケーションを実行するロボットであって、
    音声を出力するスピーカと、
    前記ロボットの周囲の音声を音声信号として取得するマイクロフォンと、
    前記マイクロフォンが取得した音声信号に基づき、前記ロボットの周囲の話者の人数を示す話者数を判定する話者数判定部と、
    前記話者数判定部の判定に基づいて、前記スピーカの音量を制御する制御部と、
    を備え、
    前記制御部は、前記話者数が閾値未満であった場合には、当該人数が閾値以上であった場合と比較して、前記スピーカの音量を小さくするように制御し、かつ、前記話者数が閾値未満であった場合に、所定の時間よりも少ない時間だけ当該人数が閾値以上になったときでも、前記スピーカの音量を小さくしたままに制御する、
    ロボット。
  9. 人間との間で音声を用いたコミュニケーションを実行するロボットであって、
    音声を出力するスピーカと、
    前記ロボットの周囲の音声を音声信号として取得するマイクロフォンと、
    前記マイクロフォンが取得した音声信号に基づき、前記ロボットの周囲の話者の人数を示す話者数を判定する話者数判定部と、
    前記話者数判定部の判定に基づいて、前記スピーカの音量を制御する制御部と、
    を備え、
    前記制御部は、前記話者数が閾値未満であった場合には、当該人数が閾値以上であった場合と比較して、前記スピーカの音量を小さくするように制御し、かつ、前記話者数が閾値以上であった場合に、所定の時間よりも少ない時間だけ当該人数が閾値未満になったときでも、前記スピーカの音量を大きくしたままに制御する、
    ロボット。
  10. 人間との間で音声を用いたコミュニケーションを実行するロボットであって、
    音声を出力するスピーカと、
    前記ロボットの周囲の音声を音声信号として取得するマイクロフォンと、
    前記マイクロフォンが取得した音声信号に基づき、前記ロボットの周囲の話者の人数を示す話者数を判定する話者数判定部と、
    前記話者数判定部の判定に基づいて、前記スピーカの音量を制御する制御部と、
    を備え、
    前記制御部は、前記話者数が特定の時間内に所定数よりも大きく減少する場合に、前記スピーカの音量を小さくするように制御する、
    ロボット。
  11. 人間との間で音声を用いたコミュニケーションを実行するロボットであって、
    音声を出力するスピーカと、
    前記ロボットの周囲の音声を音声信号として取得するマイクロフォンと、
    前記マイクロフォンが取得した音声信号に基づき、前記ロボットの周囲の話者の人数を示す話者数を判定する話者数判定部と、
    前記話者数判定部の判定に基づいて、前記スピーカの音量を制御する制御部と、
    を備え、
    前記制御部は、前記話者数が閾値以下であり、かつ減少している場合に、前記スピーカの音量を小さくするように制御する、
    ロボット。
  12. 人間との間で音声を用いたコミュニケーションを実行するロボットであって、
    音声を出力するスピーカと、
    前記ロボットの周囲の音声を音声信号として取得するマイクロフォンと、
    前記マイクロフォンが取得した音声信号に基づき、前記ロボットの周囲の話者の人数を示す話者数を判定する話者数判定部と、
    前記話者数判定部の判定に基づいて、前記スピーカの音量を制御する制御部と、
    を備え、
    前記制御部は、一定時間内における前記話者数に基づいて前記スピーカの音量を制御する、
    ロボット。
  13. 前記話者数判定部は、一定時間内における前記話者数として前記一定時間内に会話をした個人の数をカウントする、
    請求項12に記載のロボット。
  14. 周囲の音声を音声信号として取得する第1のマイクロフォンと、
    前記第1のマイクロフォンの近傍に設けられ、音声を出力する第1のスピーカと、
    前記第1のマイクロフォンから前記音声信号を取得し、音声として出力する第2のスピーカと、
    周囲の音声を音声信号として取得し、取得した当該音声信号を前記第1のスピーカに対して出力する第2のマイクロフォンと、が設けられたコミュニケーションシステムにおける音量制御の方法であって、
    前記第1のマイクロフォンが取得した音声信号に基づき、前記第1のマイクロフォンの周囲の話者の人数を示す話者数を判定するステップと、
    前記判定に基づいて、前記第1のスピーカの音量を制御するステップと、
    を備え、
    前記コミュニケーションシステムは、ロボットと、前記ロボットとネットワークを介して接続されている遠隔操作側とを含み、
    前記第1のマイクロフォン及び前記第1のスピーカは、前記ロボットに配置され、
    前記第2のマイクロフォン及び前記第2のスピーカは、前記遠隔操作側に配置され、
    前記制御するステップでは、前記話者数が閾値未満であった場合には、当該人数が閾値以上であった場合と比較して、前記第1のスピーカの音量を小さくするように制御し、かつ、前記話者数が閾値未満であった場合に、所定の時間よりも少ない時間だけ当該人数が閾値以上になったときでも、前記第1のスピーカの音量を小さくしたままに制御する、
    音量制御の方法。
  15. 周囲の音声を音声信号として取得する第1のマイクロフォンと、
    前記第1のマイクロフォンの近傍に設けられ、音声を出力する第1のスピーカと、
    前記第1のマイクロフォンから前記音声信号を取得し、音声として出力する第2のスピーカと、
    周囲の音声を音声信号として取得し、取得した当該音声信号を前記第1のスピーカに対して出力する第2のマイクロフォンと、が設けられたコミュニケーションシステムにおける音量制御の方法であって、
    前記第1のマイクロフォンが取得した音声信号に基づき、前記第1のマイクロフォンの周囲の話者の人数を示す話者数を判定するステップと、
    前記判定に基づいて、前記第1のスピーカの音量を制御するステップと、
    を備え、
    前記コミュニケーションシステムは、ロボットと、前記ロボットとネットワークを介して接続されている遠隔操作側とを含み、
    前記第1のマイクロフォン及び前記第1のスピーカは、前記ロボットに配置され、
    前記第2のマイクロフォン及び前記第2のスピーカは、前記遠隔操作側に配置され、
    前記制御するステップでは、前記話者数が閾値以上であった場合に、所定の時間よりも少ない時間だけ当該人数が閾値未満になったときでも、前記第1のスピーカの音量を大きくしたままに制御する、
    音量制御の方法。
  16. 周囲の音声を音声信号として取得する第1のマイクロフォンと、
    前記第1のマイクロフォンの近傍に設けられ、音声を出力する第1のスピーカと、
    前記第1のマイクロフォンから前記音声信号を取得し、音声として出力する第2のスピーカと、
    周囲の音声を音声信号として取得し、取得した当該音声信号を前記第1のスピーカに対して出力する第2のマイクロフォンと、が設けられたコミュニケーションシステムにおける音量制御の方法であって、
    前記第1のマイクロフォンが取得した音声信号に基づき、前記第1のマイクロフォンの周囲の話者の人数を示す話者数を判定するステップと、
    前記判定に基づいて、前記第1のスピーカの音量を制御するステップと、
    を備え、
    前記コミュニケーションシステムは、ロボットと、前記ロボットとネットワークを介して接続されている遠隔操作側とを含み、
    前記第1のマイクロフォン及び前記第1のスピーカは、前記ロボットに配置され、
    前記第2のマイクロフォン及び前記第2のスピーカは、前記遠隔操作側に配置され、
    前記制御するステップでは、前記話者数が特定の時間内に所定数よりも大きく減少する場合に、前記第1のスピーカの音量を小さくするように制御する、
    音量制御の方法。
  17. 周囲の音声を音声信号として取得する第1のマイクロフォンと、
    前記第1のマイクロフォンの近傍に設けられ、音声を出力する第1のスピーカと、
    前記第1のマイクロフォンから前記音声信号を取得し、音声として出力する第2のスピーカと、
    周囲の音声を音声信号として取得し、取得した当該音声信号を前記第1のスピーカに対して出力する第2のマイクロフォンと、が設けられたコミュニケーションシステムにおける音量制御の方法であって、
    前記第1のマイクロフォンが取得した音声信号に基づき、前記第1のマイクロフォンの周囲の話者の人数を示す話者数を判定するステップと、
    前記判定に基づいて、前記第1のスピーカの音量を制御するステップと、
    を備え、
    前記コミュニケーションシステムは、ロボットと、前記ロボットとネットワークを介して接続されている遠隔操作側とを含み、
    前記第1のマイクロフォン及び前記第1のスピーカは、前記ロボットに配置され、
    前記第2のマイクロフォン及び前記第2のスピーカは、前記遠隔操作側に配置され、
    前記制御するステップでは、前記話者数が閾値以下であり、かつ減少している場合に、前記第1のスピーカの音量を小さくするように制御する、
    音量制御の方法。
  18. 周囲の音声を音声信号として取得する第1のマイクロフォンと、
    前記第1のマイクロフォンの近傍に設けられ、音声を出力する第1のスピーカと、
    前記第1のマイクロフォンから前記音声信号を取得し、音声として出力する第2のスピーカと、
    周囲の音声を音声信号として取得し、取得した当該音声信号を前記第1のスピーカに対して出力する第2のマイクロフォンと、
    前記第1のマイクロフォンが取得した音声と、前記第2のマイクロフォンが取得した音声との大きさを比較した比較結果を出力する比較部と、が設けられたコミュニケーションシステムにおける音量制御の方法であって、
    前記第1のマイクロフォンが取得した音声信号に基づき、前記第1のマイクロフォンの周囲の話者の人数を示す話者数を判定するステップと、
    前記判定に基づいて、前記第1のスピーカの音量を制御するステップと、
    を備え、
    前記コミュニケーションシステムは、ロボットと、前記ロボットとネットワークを介して接続されている遠隔操作側とを含み、
    前記第1のマイクロフォン及び前記第1のスピーカは、前記ロボットに配置され、
    前記第2のマイクロフォン及び前記第2のスピーカは、前記遠隔操作側に配置され、
    前記制御するステップでは、前記比較部の比較結果に基づいて前記第1のスピーカの音量を制御する、
    音量制御の方法。
  19. 周囲の音声を音声信号として取得する第1のマイクロフォンと、
    前記第1のマイクロフォンの近傍に設けられ、音声を出力する第1のスピーカと、
    前記第1のマイクロフォンから前記音声信号を取得し、音声として出力する第2のスピーカと、
    周囲の音声を音声信号として取得し、取得した当該音声信号を前記第1のスピーカに対して出力する第2のマイクロフォンと、が設けられたコミュニケーションシステムにおける音量制御の方法であって、
    前記第1のマイクロフォンが取得した音声信号に基づき、前記第1のマイクロフォンの周囲の話者の人数を示す話者数を判定するステップと、
    前記判定に基づいて、前記第1のスピーカの音量を制御するステップと、
    を備え、
    前記コミュニケーションシステムは、ロボットと、前記ロボットとネットワークを介して接続されている遠隔操作側とを含み、
    前記第1のマイクロフォン及び前記第1のスピーカは、前記ロボットに配置され、
    前記第2のマイクロフォン及び前記第2のスピーカは、前記遠隔操作側に配置され、
    前記制御するステップでは、一定時間内における前記話者数に基づいて前記第1のスピーカの音量を制御する、
    音量制御の方法。
  20. 前記判定するステップでは、一定時間内における前記話者数として前記一定時間内に会話をした個人の数をカウントする、
    請求項19に記載の音量制御の方法。
  21. 音声を出力するスピーカと、周囲の音声を音声信号として取得するマイクロフォンを備えたロボットの制御プログラムであって、
    前記マイクロフォンが取得した音声信号に基づき、前記ロボットの周囲の話者の人数を示す話者数を判定するステップと、
    前記判定に基づいて、前記スピーカの音量を制御するステップと、
    をロボットに実行させ、
    前記制御するステップでは、前記話者数が閾値未満であった場合には、当該人数が閾値以上であった場合と比較して、前記スピーカの音量を小さくするように制御し、かつ、前記話者数が閾値未満であった場合に、所定の時間よりも少ない時間だけ当該人数が閾値以上になったときでも、前記スピーカの音量を小さくしたままに制御する、
    制御プログラム。
  22. 音声を出力するスピーカと、周囲の音声を音声信号として取得するマイクロフォンを備えたロボットの制御プログラムであって、
    前記マイクロフォンが取得した音声信号に基づき、前記ロボットの周囲の話者の人数を示す話者数を判定するステップと、
    前記判定に基づいて、前記スピーカの音量を制御するステップと、
    をロボットに実行させ、
    前記制御するステップでは、前記話者数が閾値未満であった場合には、当該人数が閾値以上であった場合と比較して、前記スピーカの音量を小さくするように制御し、かつ、前記話者数が閾値以上であった場合に、所定の時間よりも少ない時間だけ当該人数が閾値未満になったときでも、前記スピーカの音量を大きくしたままに制御する、
    制御プログラム。
  23. 音声を出力するスピーカと、周囲の音声を音声信号として取得するマイクロフォンを備えたロボットの制御プログラムであって、
    前記マイクロフォンが取得した音声信号に基づき、前記ロボットの周囲の話者の人数を示す話者数を判定するステップと、
    前記判定に基づいて、前記スピーカの音量を制御するステップと、
    をロボットに実行させ、
    前記制御するステップでは、前記話者数が特定の時間内に所定数よりも大きく減少する場合に、前記スピーカの音量を小さくするように制御する、
    制御プログラム。
  24. 音声を出力するスピーカと、周囲の音声を音声信号として取得するマイクロフォンを備えたロボットの制御プログラムであって、
    前記マイクロフォンが取得した音声信号に基づき、前記ロボットの周囲の話者の人数を示す話者数を判定するステップと、
    前記判定に基づいて、前記スピーカの音量を制御するステップと、
    をロボットに実行させ、
    前記制御するステップでは、前記話者数が閾値以下であり、かつ減少している場合に、前記スピーカの音量を小さくするように制御する、
    制御プログラム。
  25. 音声を出力するスピーカと、周囲の音声を音声信号として取得するマイクロフォンを備えたロボットの制御プログラムであって、
    前記マイクロフォンが取得した音声信号に基づき、前記ロボットの周囲の話者の人数を示す話者数を判定するステップと、
    前記判定に基づいて、前記スピーカの音量を制御するステップと、
    をロボットに実行させ、
    前記制御するステップでは、一定時間内における前記話者数に基づいて前記スピーカの音量を制御する、
    制御プログラム。
  26. 前記判定するステップでは、一定時間内における前記話者数として前記一定時間内に会話をした個人の数をカウントする、
    請求項25に記載の制御プログラム。
JP2013059420A 2013-03-22 2013-03-22 コミュニケーションシステム及びロボット Expired - Fee Related JP5862585B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2013059420A JP5862585B2 (ja) 2013-03-22 2013-03-22 コミュニケーションシステム及びロボット
US14/769,971 US10277185B2 (en) 2013-03-22 2014-03-07 Communication system and robot
PCT/JP2014/001299 WO2014147989A1 (ja) 2013-03-22 2014-03-07 コミュニケーションシステム及びロボット
CN201480010701.1A CN105027542B (zh) 2013-03-22 2014-03-07 通讯系统以及机器人

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013059420A JP5862585B2 (ja) 2013-03-22 2013-03-22 コミュニケーションシステム及びロボット

Publications (2)

Publication Number Publication Date
JP2014186421A JP2014186421A (ja) 2014-10-02
JP5862585B2 true JP5862585B2 (ja) 2016-02-16

Family

ID=51579689

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013059420A Expired - Fee Related JP5862585B2 (ja) 2013-03-22 2013-03-22 コミュニケーションシステム及びロボット

Country Status (4)

Country Link
US (1) US10277185B2 (ja)
JP (1) JP5862585B2 (ja)
CN (1) CN105027542B (ja)
WO (1) WO2014147989A1 (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105375897A (zh) * 2015-11-30 2016-03-02 北京光年无限科技有限公司 一种面向智能机器人的环境信息处理方法和装置
JP6668170B2 (ja) * 2016-06-07 2020-03-18 株式会社ソニー・インタラクティブエンタテインメント 情報処理装置、情報処理方法、およびコンピュータプログラム
WO2018094272A1 (en) 2016-11-18 2018-05-24 Robert Bosch Start-Up Platform North America, LLC, Series 1 Robotic creature and method of operation
CN106782519A (zh) * 2016-12-23 2017-05-31 深圳先进技术研究院 一种机器人
US11220008B2 (en) * 2017-07-18 2022-01-11 Panasonic Intellectual Property Management Co., Ltd. Apparatus, method, non-transitory computer-readable recording medium storing program, and robot
CN107295196A (zh) * 2017-07-24 2017-10-24 上海斐讯数据通信技术有限公司 一种智能调整移动终端输出音量的方法及系统
JP2019072787A (ja) * 2017-10-13 2019-05-16 シャープ株式会社 制御装置、ロボット、制御方法、および制御プログラム
CN109686378B (zh) * 2017-10-13 2021-06-08 华为技术有限公司 语音处理方法和终端
JP2019104087A (ja) * 2017-12-13 2019-06-27 カシオ計算機株式会社 デバイス制御装置、デバイス制御方法及びプログラム
JP7200492B2 (ja) * 2018-03-26 2023-01-10 カシオ計算機株式会社 機器の制御装置、機器の制御方法及びプログラム
EP3795225A4 (en) 2018-05-15 2022-03-30 Sony Group Corporation CONTROL DEVICE, CONTROL METHOD AND PROGRAM
CN114475423B (zh) * 2022-01-29 2023-09-26 奇瑞汽车股份有限公司 音频的播放控制方法、装置及计算机存储介质

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08318052A (ja) * 1995-05-24 1996-12-03 Ricoh Elemex Corp 不特定多数の観客の反応に対応するロボットシステム
JP2003235019A (ja) * 2002-02-07 2003-08-22 Nippon Telegr & Teleph Corp <Ntt> 通信支援装置
JP2005202076A (ja) * 2004-01-14 2005-07-28 Sony Corp 発話制御装置及び方並びにロボット装置
US8687820B2 (en) * 2004-06-30 2014-04-01 Polycom, Inc. Stereo microphone processing for teleconferencing
JP2007060460A (ja) * 2005-08-26 2007-03-08 Yamaha Corp 遠隔会議システム
JP4822319B2 (ja) * 2005-10-27 2011-11-24 株式会社国際電気通信基礎技術研究所 コミュニケーションロボットおよびそれを用いた注意制御システム
US20070274531A1 (en) * 2006-05-24 2007-11-29 Sony Ericsson Mobile Communications Ab Sound pressure monitor
JP2008061060A (ja) * 2006-09-01 2008-03-13 Matsushita Electric Ind Co Ltd 会議システム
CN101271318A (zh) * 2007-03-21 2008-09-24 明基电通股份有限公司 交互式家庭娱乐机器人及相关控制方法
US8170241B2 (en) * 2008-04-17 2012-05-01 Intouch Technologies, Inc. Mobile tele-presence system with a microphone system
EP2211564B1 (en) * 2009-01-23 2014-09-10 Harman Becker Automotive Systems GmbH Passenger compartment communication system
JP2010231688A (ja) * 2009-03-30 2010-10-14 Brother Ind Ltd 受付装置
JP2011253375A (ja) * 2010-06-02 2011-12-15 Sony Corp 情報処理装置、および情報処理方法、並びにプログラム
US8963722B2 (en) * 2010-10-14 2015-02-24 Sony Corporation Apparatus and method for playing and/or generating audio content for an audience
TW201225649A (en) * 2010-12-07 2012-06-16 Acer Inc Television system and interaction method thereof
CN102172044B (zh) * 2011-04-29 2014-11-05 华为终端有限公司 音频输出的控制方法及设备

Also Published As

Publication number Publication date
US10277185B2 (en) 2019-04-30
US20150381132A1 (en) 2015-12-31
JP2014186421A (ja) 2014-10-02
CN105027542B (zh) 2018-01-16
WO2014147989A1 (ja) 2014-09-25
CN105027542A (zh) 2015-11-04

Similar Documents

Publication Publication Date Title
JP5862585B2 (ja) コミュニケーションシステム及びロボット
CN114080589B (zh) 自动主动降噪(anr)控制以改善用户交互
EP3081011B1 (en) Name-sensitive listening device
US9191740B2 (en) Method and apparatus for in-ear canal sound suppression
US20170318374A1 (en) Headset, an apparatus and a method with automatic selective voice pass-through
CN113905320B (zh) 为考虑语音检测而调节声音回放的方法和系统
US9286883B1 (en) Acoustic echo cancellation and automatic speech recognition with random noise
JP2022516491A (ja) 音声対話の方法、装置、及びシステム
US20200374404A1 (en) Method and apparatus for in-ear canal sound suppression
JP2022092784A (ja) 遠隔会議システム、通信端末、遠隔会議方法及びプログラム
JP6874437B2 (ja) コミュニケーションロボット、プログラム及びシステム
WO2022181013A1 (ja) 会議システム
US10924710B1 (en) Method for managing avatars in virtual meeting, head-mounted display, and non-transitory computer readable storage medium
JP7286303B2 (ja) 会議支援システム及び会議用ロボット
WO2024084855A1 (ja) 遠隔会話支援方法、遠隔会話支援装置、遠隔会話システム、及び、プログラム
US20240135947A1 (en) Latency handling for point-to-point communications
EP4075822A1 (en) Microphone mute notification with voice activity detection
JP7035686B2 (ja) 遠隔通話装置、遠隔通話プログラム、及び遠隔通話方法
US20200098363A1 (en) Electronic device
JP2022082570A (ja) 情報処理装置、プログラム、及び情報処理システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150525

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150908

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151104

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20151201

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20151214

R151 Written notification of patent or utility model registration

Ref document number: 5862585

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

LAPS Cancellation because of no payment of annual fees