JP5559898B2

JP5559898B2 - 通信システムにおける音声レベルを変化させるための制御システム、制御方法、および、プログラム

Info

Publication number: JP5559898B2
Application number: JP2013021272A
Authority: JP
Inventors: ニクラス・エンボム; ヨーン・スコグルンド; アンドリュー・ジョン・マクドナルド; ビョルン・ボルカー
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2012-02-07
Filing date: 2013-02-06
Publication date: 2014-07-23
Anticipated expiration: 2033-02-06
Also published as: US20130201272A1; CN103247297A; AU2013200366A1; JP2013162525A; CN103247297B; EP2627083A3; JP5837646B2; JP2014158310A; EP2627083A2; CA2803615A1; KR101501183B1; KR20130091278A

Description

発明の詳細な説明
この出願は、２０１２年２月７日に出願された米国特許出願第１３／３６８，１７３の利益を主張するものであり、その全ての内容は引用によりここに援用される。

発明の分野
本開示は、一般に、単一話し手モードと複数話し手モードとを利用した（二重モードの）会議システムのための自動利得制御（ＡＧＣ）機構に関する。

背景
自動利得制御（ＡＧＣ）機構は、個々の話し声が適切なレベルで録音されるようにマイクロフォンの利得（デジタルまたはアナログ）を設定することを目的としている。しかしながら、話している個人（単一の話し手）または話している複数の個人（複数の話し手）によってマイクロフォンが使用される場合、ＡＧＣ機構は、話している個人の数を適切に判断しなければ、話している各個人の利得を適切に調整し得ない。

ミーティングの最中に（たとえば、ヘッドセットを用いて）個人が話し、他の人（ミーティングの参加者でない人）が背後で話している場合、利得の変化によって悪影響が起こり得る。より具体的には、システム（たとえば、マイクロフォンシステム）は、現実に／意図的に話しているのは実際には１人のみしかいない場合に、話している個人が複数いると判定し、話している個人が複数いるという事に基づいて利得を変化させ得る。このため、話しているのが１人なのか複数人かを判断するだけではなく、現実にまたは意図的に話しているのが１人なのか複数人なのかを適切に判断することができるＡＧＣ機構が必要とされている。

米国特許出願公開第２００９／０００２４８０号米国特許出願公開第２００９／００１５６５８号米国特許第６，１２５，３４３号米国特許第６，２９７，８４６号米国特許第６，４５７，０４３号米国特許第６，６０６，１１１号米国特許第６，６１１，２８１号米国特許第６，７９５，１０６号米国特許第６，８０４，３４０号米国特許第６，９４０，５４５号米国特許第７，６３６，４５３号米国特許第７，６６４，２４６号米国特許第７，８０６，６０４号

概要
この概要では、本開示におけるいくつかの局面についての基本的な理解をもたらすために、選択された概念を単純化して説明する。この概要は、開示についての概観を克明に記載するものではなく、開示される主要な要素もしくは重要な要素を特定したり、開示の範囲を規定することを意図したものでもない。この概要は、以下に記載される詳細な説明の前段階として、開示されるいくつかの概念を単に示すものである。

本発明の局面は、通信システムにおける音声レベルを変化させるための制御システムを提供する。制御システムは、音声信号および映像信号を受信するための少なくとも１つの受信ユニットと、音声信号または映像信号のいずれかについての認識を行うことによって話している個人の数を決定するための決定ユニットと、話している個人について決定された数に基づいて音声信号の利得を調整するための利得調整ユニットとを含む。

本発明の実施形態によれば、認識は、話している個人の数を決定するために、顔認識またはスピーチ分析のいずれかを実施することによって行われる。

本発明の他の実施形態によれば、認識は、話している個人の数を決定するために、音声信号に対してスピーチ分析を実施することによって行われる。

本発明のさらに他の実施形態によれば、認識は、映像信号に対して顔認識を実施することによって行われる。

本発明の付加的な実施形態によれば、制御システムは、話している個人の数についての決定に基づいて単一話し手モードと複数話し手モードとの間で切り替えるための切替ユニットをさらに含む。

本発明の他の実施形態によれば、顔認識は、１つの顔または複数の顔を検知するために実施される。

本発明のさらに他の実施形態によれば、制御システムは、検知された顔の数に基づいて単一話し手モードと複数話し手モードとの間で切り替えるための切替ユニットをさらに含む。

本発明の付加的な実施形態によれば、切替ユニットは、複数の顔の検知に応答して単一話し手モードから複数話し手モードに切り替え、利得調整ユニットは、複数話し手モードにおいて第１の頻度で音声信号の利得を調整し、切替ユニットは、単一の顔のみの検知に応答して複数話し手モードから単一話し手モードに切り替え、利得調整ユニットは、単一話し手モードにおいて第２の頻度で音声信号の利得を調整し、第１の頻度は、第２の頻度とは異なる。

本発明の他の実施形態によれば、第１の頻度は、第２の頻度よりも大きい頻度である。
本発明のさらに他の実施形態によれば、検知ユニットは、検知されたスピーチの音量を少なくとも１つの閾値と比較することによって、検知されたスピーチの音量が所与の音量範囲外にあるかどうかを判定し、検知ユニットは、検知されたスピーチの音量が所与の音量範囲外となる事象の発生に基づいて、検知されたスピーチの音量が所定長さの時間にわたって所与の音量範囲外にあるかどうかを判定し、検知ユニットは、検知されたスピーチの音量に基づいて第１の頻度と判定し、検知ユニットは、検知されたスピーチの音量に基づいて第２の頻度と判定する。

本発明の付加的な実施形態によれば、少なくとも１つの受信ユニットは、音声信号および映像信号の両方を有するデータのストリームを受信する。

本発明の他の実施形態によれば、少なくとも１つの受信ユニットは、音声信号を受信するための第１の受信ユニットを含み、少なくとも１つの受信ユニットは、映像信号を受信するための第２の受信ユニットを含む。

本発明のさらに他の実施形態によれば、第１の受信ユニットはマイクロフォンであり、第２の受信ユニットはカメラである。

本発明の局面は、通信システムにおける音声レベルを変化させるための制御方法をさらに提供する。制御方法は、音声信号を受信するステップと、映像信号を受信するステップと、話している個人の数を決定するために映像信号または音声信号のいずれかについての認識を行うステップと、話している個人について決定された数に基づいて音声信号の利得を調整するステップとを含む。

本発明の付加的な実施形態によれば、認識は、映像信号に対して顔認識を実施することによって行われる。

加えて、本発明の局面は、通信システムにおいて音声レベルを変化させるための制御方法を提供する。制御方法は、映像信号を取得するステップと、音声信号を取得するステップと、音声信号において少なくとも１人のユーザのスピーチを検知するステップと、１つの顔または複数の顔のいずれかを検知するために映像信号に対して顔認識を実施するステップと、検知された１つの顔または複数の顔の数に基づいて、話している個人の数を決定するステップと、話している個人について決定された数に基づいて、単一話し手モードと複数話し手モードとの間で切り替えるステップと、複数の顔の検知に応答して単一話し手モードから複数話し手モードに切り替えるステップと、単一の顔のみの検知に応答して複数話し手モードから単一話し手モードに切り替えるステップと、複数話し手モードにおいて第１の頻度で音声信号の利得を調整するステップと、単一話し手モードにおいて第２の頻度に音声信号の利得を調整するステップとを含み、第１の頻度は、第２の頻度より大きい。

本発明のさらに他の実施形態によれば、制御方法は、検知されたスピーチの音量を少なくとも１つの閾値と比較することによって、検知されたスピーチの音量が所与の音量範囲外にあるかどうかを判定するステップと、検知されたスピーチの音量が所与の音量範囲外となる事象の発生に基づいて、検知されたスピーチが所定長さの時間にわたって所与の音量範囲外にあるかどうかを判定するステップと、検知されたスピーチの音量に基づいて第１の頻度と判定するステップと、検知されたスピーチの音量に基づいて第２の頻度と判定するステップとをさらに含む。

本発明の適用可能性についてのさらに他の範囲は、以下に記載される詳細な説明によって明らかになるであろう。本発明の精神および範囲内における様々な変更および修正は、詳細な説明から当業者にとって明らかなものであることから、詳細な説明および具体例は、本発明の好ましい実施形態を示す一方で、例示のみを目的としていることを理解されたい。

本開示におけるこれらおよび他の目的、特徴、および特性は、明細書の一部を構成する添付の請求項および図面と併せて以下の詳細な説明を検討することによって当業者にとってより明らかなものとなるであろう。

ここに記載される１つ以上の実施形態に係る会議システムの一局面を示す回路図である。ここに記載される１つ以上の実施形態に係る映像分析方法の一局面を示すフローチャートである。ここに記載される１つ以上の実施形態に係る音声分析方法の一局面を示すフローチャートである。ここに記載される１つ以上の実施形態に係る会議システムの制御部（たとえば、利得制御部１５０）の一局面を示す回路図である。

ここに設けられる見出しは、便宜のみを目的としたものであり、請求項に記載の発明の範囲または意味に影響を与えるとは限らない。

図面において、同じ参照符号および頭字語は、理解の容易化および利便性のために、同じまたは類似の構造または機能を伴う要素または行為を特定するものである。図面については、以下の詳細な説明の中で詳細に説明される。

詳細な説明
本発明の様々な例が記載される。以下の記載は、これらの例の完全な理解のため、および実施可能な記載のために、具体的な詳細を提供するものである。当業者は、これらの多くの詳細が無くとも本発明を実施することができることを理解するであろう。同様に、当業者は、本発明がここに詳細に記載されていない多くの他の自明な特徴も含み得ることを理解するであろう。関連する記載を不必要に不明確化すること避けるために、いくつかの周知の構造または機能については、以下では詳細に示されない、または記載されない。

図１は、本発明の１つ以上の実施形態に係る会議システム１００の一局面を示す回路図である。図１において、会議システムは、画像取得ユニット１１０（または画像取得回路／回路素子１１０）と、スピーチ取得ユニット１２０（またはスピーチ取得回路／回路素子１２０）と、顔検知ユニット１３０（または顔検知回路／回路素子１３０）と、スピーチ検知ユニット１４０（またはスピーチ検知回路／回路素子１４０）と、利得制御部１５０（モードを切り替えるための切替ユニットを内部または外部に含み得る）と、映像エンコーダ１６０と、音声エンコーダ１７０と、ネットワーク１８０とを含む。

画像取得ユニット１１０は、画像の取得、検知、および／または感知を行う装置（たとえば、カメラまたは他の類似の装置）である。画像取得ユニット１１０は、画像センサを含んでもよい。たとえば、画像取得ユニット１１０は、ＣＣＤ（電荷結合素子）画像センサ、ＣＭＯＳ（相補型金属酸化物半導体）画像センサ、または他の類似の画像センサのような任意のタイプの画像センサであってもよい。

画像取得ユニット１１０は、カメラを介して画像を取得、検知、および／または感知してもよく、入力信号または受信信号から画像データを受信、取得、検知、感知、および／または抽出してもよい。取得、検知、感知、および／または抽出された画像は、顔検知ユニット１３０に提供される。画像は、有線または無線による伝送によって顔検知ユニット１３０に提供されてもよい。

スピーチ取得ユニットまたは装置１２０は、音声もしくはスピーチを取得および／または感知するための、音声もしくはスピーチの取得および／または感知を行う装置（たとえば、マイクロフォンまたは他の類似の装置）である。

スピーチ取得ユニット１２０は、音声もしくはスピーチ（データまたは信号）をマイクロフォンを介して取得および／または感知してもよい、または音声のデータ／信号もしくはスピーチのデータ／信号を入力信号または受信信号から受信、取得、感知、および／または抽出してもよい。取得、感知、および／または抽出された音声もしくはスピーチ（以下では、音声データまたは音声信号という）は、有線または無線の伝送を介してスピーチ検知ユニット１４０に提供される。

画像取得ユニット１１０およびスピーチ取得ユニット１２０は、２つの別個のユニットまたは装置として開示されているが、画像取得ユニット１１０（たとえば、カメラ）およびスピーチ取得ユニット１２０（たとえば、マイクロフォン）は、（いくつかまたは全ての開示される実施形態において）単一の装置として一体化、または互いに結合されてもよい。

加えて、画像および音声／スピーチは、単一の装置において同時に取得、検知、感知、および／または抽出されてもよく、複数の装置から同時に取得、検知、感知、および／または抽出されてもよい。

画像および音声／スピーチは、会議システム１００へと伝送されてもよい（すなわち、併せて単一の信号として）。画像および音声／スピーチが併せて単一の信号として伝送される場合（または別個の信号として伝送される場合）、画像取得ユニット１１０およびスピーチ取得ユニット１２０は、受信信号から画像データを抽出する単一の画像抽出ユニットまたは装置１１０（または別個の信号として伝送される場合は、２つの画像抽出ユニット１１０，１２０）および音声もしくはスピーチを受信信号から抽出する音声もしくはスピーチ抽出ユニットまたは装置１２０とそれぞれ置き換えられてもよい。このため、画像抽出ユニット１１０は、受信信号から画像データを抽出し、抽出した画像を顔検知ユニット１３０に提供し、音声もしくはスピーチ抽出ユニット１２０は、音声もしくはスピーチを受信信号から抽出し、抽出した音声もしくはスピーチをスピーチ検知ユニット１４０に提供する。

画像取得／抽出ユニット１１０およびスピーチ取得／抽出ユニット１２０は、２つの別個のユニットもしくは装置として開示されているが、画像取得／抽出ユニット１１０および音声もしくはスピーチ取得／抽出ユニット１２０は、（いくつかまたは全ての開示される実施形態において）単一の装置として一体化、または互いに結合されてもよい。

加えて、以下のステップ２１０についての詳細な記載は、その全体または一部が画像取得ユニット１１０に対応する。このため、ステップ２１０の詳細がここに援用される（ステップ２１０に関する詳細な記載は、その全体または一部が画像取得ユニット１１０に援用される）。

以下のステップ３１０についての詳細な記載は、その全体または一部が音声もしくはスピーチ取得／抽出ユニット１２０に対応する。このため、ステップ３１０の詳細がここに援用される（ステップ３１０に関する詳細な記載は、その全体または一部が音声もしくはスピーチ取得／抽出ユニット１２０に援用される）。

顔検知ユニット１３０（または顔検知回路／回路素子１３０）は、画像取得ユニット１１０によって取得された話し手の数を判定するために、画像内の人の数を検知する。たとえば、顔検知ユニット１３０は、画像取得ユニット１１０によって取得された人の顔を検知する。顔検知ユニット１３０は、画像取得ユニット１１０によって取得された人の頭（または人体、人）を代わりに検知することができる。顔検知ユニット１３０は、検知された顔、頭、および人などの数を利得制御部１５０に提供する。

以下のステップ２２０および／またはステップ２３０についての詳細な記載は、その全体または一部が顔検知ユニット１３０に対応する。このため、ステップ２２０および／またはステップ２３０についての詳細がここに援用される（ステップ２２０および／ステップ２３０に関する詳細な記載の全体または一部が、顔検知ユニット１３０に援用される）。

加えて、画像取得ユニット１１０によって顔検知ユニット１３０に提供される映像（もしくは画像）データまたは映像（もしくは画像）信号は、顔検知ユニット１３０によって映像エンコーダ１６０へと伝送される。

スピーチ検知ユニット１４０（もしくはスピーチ検知回路／回路素子１４０）は、取得された音声もしくはスピーチの信号またはデータ内のスピーチを検知する。スピーチ検知ユニット１４０は、検知されたスピーチもしくは音声を利得制御部１５０に提供する。スピーチ検知ユニット１４０は、能動的なスピーチと考えられるものを保持（および利得制御部に転送）し、能動的なスピーチと考えられないものを無視してもよい。たとえば、全てのスピーチが利得制御部１５０に送られ、全ての雑音が消去される。最後に、スピーチ検知ユニット１４０は、信号内の異なる声の数を検知するために使用されてもよい。

以下のステップ３２０および／またはステップ３３０についての詳細な記載は、その全体または一部が音声もしくはスピーチ検知ユニット１４０に対応する。このため、ステップ３２０および／またはステップ３３０についての詳細がここに援用される（ステップ３２０および／または３３０に関する詳細な記載は、その全体または一部が音声もしくはスピーチ検知ユニット１４０に援用される）。

利得制御部１５０は、検知された顔または頭の数を顔検知ユニット１３０から受け取り、検知されたスピーチ／音声の信号またはデータをスピーチ検知ユニット１４０から受け取る。受け取った情報（たとえば、検知された顔または頭の数、ならびに検知されたスピーチ／音声のデータ／信号）に基づき、利得制御部１５０は、受け取った（スピーチ取得ユニット１２０またはスピーチ検知ユニット１４０から受け取った）音声の利得を調整し、利得の調整された音声信号を音声エンコーダ１７０に出力する。

以下のステップ２２０、ステップ２３０、ステップ２４０、ステップ２５０、ステップ３３０、ステップ３４０、および／またはステップ３５０に記載の詳細は、その全体または一部が利得制御部１５０に対応する。このため、ステップ２２０、ステップ２３０、ステップ２４０、ステップ２５０、ステップ３３０、ステップ３４０、および／またはステップ３５０の詳細がここに援用される（ステップ２２０、ステップ２３０、ステップ２４０、ステップ２５０、ステップ３３０、ステップ３４０、および／またはステップ３５０に関する詳細な記載の全体または一部が利得制御部１５０に援用される）。

映像エンコーダ１６０は、映像信号を顔検知ユニット１３０から受信し、映像信号を符号化し、符号化された映像信号を出力する。映像エンコーダ１６０は、デジタル映像用に映像の圧縮および／または伸長を可能にする装置である。映像エンコーダ１６０は、受信した映像信号に対して映像符号化を行い、映像符号化信号を生成してネットワーク１８０に出力する。

音声エンコーダ１７０は、利得の調整された音声信号を利得制御部１５０から受信し、利得の調整された音声信号を符号化し、符号化された音声信号を提供する。音声エンコーダ１７０は、データ（音声）圧縮を可能にする装置である。音声エンコーダ１７０は、利得の調整された音声信号に対して音声符号化を行い、音声符号化信号を生成してネットワーク１８０に提供する。

図２は、上記の会議システムのうちの少なくとも１つによって行われ得る例示的な映像分析方法を示すフローチャートである。図２において、映像分析方法は、映像信号を受信するステップ（ステップ２１０）、映像分析ステップ（ステップ２２０）、比較ステップ（反復型のステップとなり得るステップ２３０）、および／またはＡＧＣ−Ｔ値を設定するステップ（ステップ２４０および／または２５０）を含んでもよい。

ステップ２１０において、会議システム１００は、少なくとも画像取得ユニット１１０に関して詳細に記載されたように、映像信号を受信する。このため、画像取得ユニット１１０に関する詳細な記載がここに援用される。

ステップ２２０において、会議システム１００は、少なくとも顔検知ユニット１３０に関して詳細に記載されたように、受信した映像信号について映像分析を行う。このため、顔検知ユニット１３０に関する詳細な記載がここに援用される（顔検知ユニット１３０に関する詳細な記載の全体または一部がステップ２２０に援用される）。より具体的には、ステップ２１０において（たとえば、画像取得ユニット１１０によって）取得された、話している個人の数を判定するために、ステップ２２０において、画像中の人の数が（たとえば、顔検知ユニット１３０によって）検知される。

ステップ２２０における顔（もしくは頭や体など）検知は、（デジタル）画像中の人間の顔（もしくは頭や体など）の場所と大きさを判定することによって行われる。たとえば、顔検知においては、顔の特徴が検知され、顔の特徴と考えられないもの（体、椅子、机、木など）は無視される。加えて、ステップ２２０において、検知は従来の方法によって行われてもよい。

ステップ２３０において、所定の時間（より長い時間）にわたって映像中に複数の顔が存在するかどうか、および／または所定の時間（以上の時間）にわたって映像中に単一の顔が存在するかどうかについての判定が行われる（所定の時間は、１秒、２秒、３秒などであってもよい）。ステップ２３０は、ステップ２４０および／または２５０においてＡＧＣ閾値（ＡＧＣ−Ｔ）を出力することができるように行ってもよく、これにより、単一の顔が検知されたかどうか（たとえば、話している単一の個人のみを検知する）、または複数の顔が検知されたかどうか（たとえば、話している複数の個人を検知する）についての判定をレベル分析ユニット、スピーチ検知ユニット１４０、および／または利得制御部１５０に対して知らせるための手段が提供される。

ＡＧＣ−Ｔ値は、２つの値（たとえば、２進値／論理値）を含むことができる。第１のＡＧＣ−Ｔ値は、複数の個人が話している旨の判定（もしくは検知）を表わす（または複数話し手モードに切り替えるための判定／命令を表わす）「真」値（たとえば、０または１の値）であり、第２のＡＧＣ−Ｔ値は、単一の個人が話しているという判定（もしくは検知）を表わす（または単一話し手モードに切り替えるための判定／命令を表わす）「偽」値（たとえば、１または０の値）である。ＡＧＣ−Ｔ値は、顔検知ユニット１３０（たとえば、ステップ２３０）からの単一の出力または２つの異なる出力として、レベル分析ユニット（またはスピーチ検知ユニット１４０および／もしくは利得制御部１５０）の単一の入力または２つの異なる入力に提供されてもよい。

言い換えると、ステップ２３０においては、所定の時間（以上）にわたって映像中に単一の顔が検知されたかどうかの判定、または複数の顔が検知されたかどうかの判定に基づき、出力されてレベル分析ユニット、スピーチ検知ユニット１４０、および／または利得制御部１５０に提供される（たとえば、レベル分析ステップ３３０への入力）ＡＧＣ−Ｔ値に基づいて単一話し手モードまたは複数話し手モード（複数の話し手モードともいわれる）に切り替えるかどうかについての判定を行ってもよい。

会議システム１００は、単一話し手モードまたは複数話し手モードで自動的に開始してもよい。代替的に、会議システム１００は、初期化モードで開始してもよい（すなわち、特定のモードで開始するように自動的に設定されていない場合）。たとえば、ステップ２３０において、初期化の間（現状で単一話し手モードまたは複数の話し手モードのいずれにもない）、所定の時間（以上）にわたって映像中に単一の顔が検知されたか（否か）、または複数の顔が検知されたか（否か）についての判定が行われる（たとえば、初期化期間は、たとえば１秒、２秒、３秒などである）。初期化期間において複数の顔が映像中に検知されたと判定された場合（または単一の顔が検知されなかったと判定された場合）、利得制御部は、（たとえば、複数の話し手モードの値に対応するＡＧＣ−Ｔ値の受け取りに基づいて）システムを複数の話し手モードに設定する。初期化期間において単一の顔のみが映像中に検知されたと判定された場合（または複数の顔が検知されなかったと判定された場合、もしくは複数より小さい数の顔が検知された場合）、利得制御部は、（たとえば、単一話し手モードの値に対応するＡＧＣ−Ｔ値の受け取りに基づいて）システムを単一話し手モードに設定する。

ステップ２３０において、初期化期間の後（単一話し手モードまたは複数話し手モードのいずれかの最中にある）、所定の時間（たとえば、１秒、２秒、３秒など）（以上）にわたって映像中に単一の顔が検知されたか（否か）、または複数の顔（または複数の顔より小さい数）が検知されたか（否か）についての判定が行われ、現状のモードは切り替えることができる（単一話し手モードから複数話し手モード、およびその逆もまた同様）。

単一の顔のみが映像中に検知されたと判定された場合（または複数の顔が検知されなかったと判定された場合、もしくは複数の顔より小さい数の顔が検知されたと判定された場合）、利得制御部は、（たとえば、単一話し手モードの値に対応するＡＧＣ−Ｔ値の受け取りに基づいて）システムを単一話し手モードに切り替える。

映像中に複数の顔が検知されたと判定された場合（または単一の顔が検知されなかったと判定された場合）、利得制御部は、（たとえば、複数の話し手モードの値に対応するＡＧＣ−Ｔ値の受け取りに基づいて）システムを複数の話し手モードに切り替える。

利得制御部は、いずれのモードにおいてもスピーチ信号の利得を調整（変更）することが可能であってもよい。利得制御部がスピーチの利得を調整し得る頻度は、いずれのモードにおいても同じ頻度で行われてもよい。代替的な実施形態において、検知されたスピーチ信号に対して単一話し手モードにおいて与えられる利得の変化は、検知されたスピーチ信号に対して複数話し手モードにおいて与えられる利得変化と比して遅い頻度で与えられてもよい。なぜなら、複数の顔が検知された場合と比して、単一の顔が検知された場合において実際の入力信号の大きさは急速に変化しそうにないためである。たとえば、利得制御部が単一話し手モードにおいてスピーチ信号の利得を変化させる頻度は０．５秒ごととなり得る一方で、利得制御部が複数話し手モードにおいてスピーチ信号の利得を変化させる頻度は０．１秒ごととなり得る。このため、複数話し手モードにおいて利得制御部をより早く応答させることにより、利得制御は、話している複数の個人の音量をより急速に（ほぼ）同じレベルにすることができる。複数の話し手に対して急速な利得の変化を与え、結果として複数の個人の声が（ほぼ）同じレベルで聞こえるようにすることによって、一人の個人がマイクロフォンの近くに居て、他の話し手がマイクロフォンから大きく離れている場合において、システム全体が少なくとも恩恵を受け得る。

代替的な実施形態において、ＡＧＣ−Ｔ値を単一話し手モードに設定すると判定された場合、（利得制御部１５０を介した）自動利得制御は、話している個人のみに「固定」（lock onto）し得て（選択／検知された話している個人のみに対して利得を増大させる制御を行う）、話している個人の信号に所定量の（増大した）利得が与えられ得る（話している個人の利得のみを変化／増大させる、または話している個人の利得を増大させる一方で、検知／固定された話している個人を除いた全ての利得、他の検知された話をしている複数の個人の利得、および／または検知された雑音の利得を減少させる）。

同様に（上記の段落に記載された代替的な実施形態において）、ＡＧＣ−Ｔ値を複数話し手モードに設定すると判定された場合、（利得制御部１５０を介した）自動利得制御は、検知された話している複数の個人に固定され（検知された話している複数の個人に対する増大した利得制御を維持する）、声（または音声）と考えられる一部および全ての信号に対して所定量の利得が与えられ得る。全ての開示された時間（全ての与えられた例において、たとえば「所定の時間」）は、たとえばユーザによる設定など、全ての実用的手段によっていつでも設定され得る、または装置によって予め定められるもしくは予め設定され得る、または以前の判定時間を用いた適合アルゴリズムに基づいて定められてもよい。

ステップ２３０において、所定の時間にわたって複数の顔（または単一の顔など）が映像中に存在するか（否か）についての判定は、顔検知ユニット１３０および／または利得制御部１５０によって行われ得る。このため、顔検知ユニット１３０および／または利得制御部に関する詳細な記載がここに援用される（顔検知ユニット１３０および／または利得制御部に関する詳細な記載は、その全体または一部がステップ２３０に援用される）。図３は、上記の会議システムの少なくとも１つによって行われ得る音声分析方法の例を表わすフローチャートである。

ステップ３１０において、会議システム１００は、少なくともスピーチ取得ユニット１２０に関して詳細に記載したように、音声信号を受信する。このため、スピーチ取得ユニット１２０に関する詳細な記載がここに援用される。

ステップ３２０において、会議システム１００は、少なくともスピーチ検知ユニット１４０に関して詳細に記載したように、受信した映像信号についてのスピーチ分析を行う。このため、スピーチ検知ユニット１４０に関する詳細な記載がここに援用される（スピーチ検知ユニット１４０に関する詳細な記載の全体または一部がステップ３２０に援用される）。より具体的には、（たとえばスピーチ取得ユニット１２０によって）ステップ３１０において取得されたスピーチまたは音声の全てを判定するために、ステップ３２０において、一部および全てのスピーチ／音声が（たとえば、スピーチ検知ユニット１４０によって）取得される。簡単にいえば、（ステップ３２０において）スピーチ検知ユニット１４０は、単に能動的なスピーチを検知してもよい。これに加え、ステップ３２０において、従来の方法によって検知が行われてもよい。

代替的な実施形態において、ステップ３２０では、スピーチ検知ユニット１４０は、検知されたスピーチ／音声を使用して、話している個人の数の判定を支援してもよい（または、図２に示されるように映像分析に置き換えてもよい）。たとえば、複数のスピーチ取得ユニット（複数のマイクロフォン、または空間的に分離された複数のマイクロフォン）を使用することにより、話している異なる個人について受信した音声信号の時間的な遅れの差異を用いて、話している個人の数を複数の話し手信号から判定してもよい。より具体的には、ステップ３２０において、スピーチ検知ユニット１４０が話している個人の数（１人の個人、２人の個人など）を正確に判定できる場合、（話している単一の個人または話している複数の個人を示す）ＡＧＣ−Ｔ値をスピーチ検知ユニット１４０が（ステップ３２０において）提供すると考えられることから、図２に示される映像分析の全てが不要となる。

能動的なスピーチの検知（のみ）に基づき、処理はステップ３２０からステップ３３０に進み得る。そうでなければ、能動的なスピーチが検知されるまで、システムはステップ３２０を継続する。

ステップ３３０において、会議システム１００は、少なくともスピーチ検知ユニット１４０および／または利得制御部１５０に関して詳細に記載したように、受信した音声／スピーチ信号についてのレベル分析を行う。このため、スピーチ検知ユニット１４０および／または利得制御部１５０に関する詳細な記載がここに援用される（スピーチ検知ユニット１４０および／または利得制御部１５０に関する詳細な記載の全体または一部がステップ３３０に援用される）。これに加え、ステップ３３０におけるレベル分析は、スピーチ検知ユニット１４０および／または利得制御部１５０と別個にまたは連動して作動するレベル分析ユニットによって行われてもよい。

たとえば、ステップ３３０（ステップ３３０ａともよばれる）において、各音声／スピーチ信号のレベル（または音量）が判定される。より具体的には、ステップ３３０（またはステップ３３０ａ）において、検知された（能動的な）音声は、（検知されたスピーチが特定のレベルを上回るかどうか、音量が大きすぎるかどうかを示すために）上限と比較され、（検知されたスピーチの音量が特定のレベルを下回るかどうか、音量が小さすぎるかどうかを示すために）下限と比較される。

ステップ３３０において（ステップ３３０ｂともよばれ、ステップ３３０ｂはステップ３３０ａの後に行われる）、特定の閾値を上回る音量または下回る音量が検知された場合、スピーチ検知ユニット１４０および／または利得制御部１５０は、検知された音量が特定の時間にわたって特定の閾値を上回るかどうか、または検知された音量が特定の閾値を下回るかどうかを判定する（たとえば、特定の時間は、１秒、２秒、３秒などであってもよい）。

最後に、ステップ３３０（ステップ３３０ａおよび３３０ｂ）において（たとえば）利得制御部１５０によって行われる分析は、利得制御部１５０による利得変化値の判定（ステップ３４０）および／または利得変化の付与（ステップ３５０）の前に与えられるＡＧＣ−Ｔ値も考慮する。

検知された（能動的な）スピーチの音量が特定の時間にわたって特定の閾値よりも高いおよび／または低いという判定（のみ）に基づいて、処理はステップ３３０からステップ３４０に進んでもよい。そうでなければ、システムは、検知された（能動的な）音声が特定の時間にわたって特定の範囲外となるまで（特定の時間にわたって特定の閾値を上回る、または下回る）ステップ３３０を継続する。

ステップ３４０において、会議システム１００は、少なくともスピーチ検知ユニット１４０および／または利得制御部１５０に関して詳細に記載されたように、検知された音声／スピーチ信号の各々の利得調整値についての判定を行う。このため、スピーチ検知ユニット１４０および／または利得制御部１５０に関する詳細な記載がここに援用される（スピーチ検知ユニット１４０および／または利得制御部１５０に関する詳細な記載の全体または一部がステップ３３０に援用される）。より具体的には、ステップ３４０において、複数話し手モードとすることに基づいてより急速／急激に利得を変化させるかどうか、これに対して単一話し手モードとすることに基づいて利得を急激に変化させないかどうかを判定する。このため、ステップ３４０において、単一話し手モードおよび複数話し手モードにおける利得変化の頻度が判定される。

代替的に、単一話し手モードにある場合、ステップ３４０では、利得制御部が単一の個人（話し手）のスピーチ信号の利得を調整し得るように、利得制御部に対する利得調整値を判定および付与することもできる。この代替的な方法において、複数話し手モードにある場合、ステップ３４０では、利得制御部が個人（話し手）のスピーチ信号の各々の利得を調整し得るように、利得制御部に対する利得調整値を判定および付与することもできる。

ステップ３５０において、会議システム１００は、スピーチ取得ユニット１２０によって取得された受信音声／スピーチまたはスピーチ検知ユニット１４０によって検知された音声／スピーチにおけるスピーチ信号に対する利得調整を行う。

ステップ３５０において、少なくとも利得制御部１５０に関して詳細に記載されたように利得調整を行うことが、ここに援用される（利得調整部１５０に関して記載された詳細の全体または一部がステップ３５０に援用される）。

図４は、本発明の実施形態に係る利得制御部１５０（コンピュータ装置１０００ともよばれる）の一局面を示す回路図である。

コンピュータ装置１０００（たとえば、利得制御部１５０）のごく基本的な構成において、コンピュータ装置１０００は、一般的に１つ以上のプロセッサ１０１０とシステムメモリ１０２０とを含む。メモリバス１０３０は、プロセッサ１０１０とシステムメモリ１０２０との間の通信に使用することができる。

所望の構成に応じて、コンピュータ装置１０００の１つ以上のプロセッサ１０１０は、マイクロプロセッサ、マイクロコントローラ、デジタル信号プロセッサ、またはこれらの任意の組み合わせを含む任意のタイプであってもよいが、これらに限定されるものではない。プロセッサ１０１０は、レベル１キャッシュ１０１１およびレベル２キャッシュ１０１２などの１つ以上のレベルのキャッシングと、プロセッサコア１０１３と、レジスタ１０１４とを含むことができる。プロセッサコア１０１３は、算術論理演算ユニット（ＡＬＵ）、浮動小数点演算ユニット（ＦＰＵ）、デジタル信号処理コア（ＤＳＰコア）、またはこれらの任意の組み合わせを含むことができる。メモリ制御部１０１５は、プロセッサ１０１０と併せて使用することもでき、一部の適用例においては、メモリ制御部１０１５は、プロセッサ１０１０の内部部品とすることもできる。

所望の構成に応じて、システムメモリ１０２０は、揮発性メモリ（ＲＡＭ）、不揮発性メモリ（ＲＯＭ、フラッシュメモリなど）、またはこれらの任意の組み合わせを含むタイプとすることができるが、これらに限定されるものではない。システムメモリ１０２０は、一般的に、オペレーティングシステム１０２１と、１つ以上のアプリケーション１０２２と、プログラムデータ１０２４とを含む。アプリケーション１０２２は、認証アルゴリズム１０２３を含む。プログラムデータ１０２４は、サービスデータ１０２５を含む。

コンピュータ装置１０００は、付加的な特徴または機能、および付加的なインターフェイスを有し、基本的構成１００１と任意の必要な装置およびインターフェイスとの間の通信を容易にすることができる。たとえば、バス／インターフェイス制御部１０４０を使用して、記憶インターフェイスバス１０４１を介した基本的構成１００１と１つ以上のデータ記憶装置１０５０との間の通信を容易にすることができる。データ記憶装置１０５０は、取り外し可能な記憶装置１０５１、取り外し不可能な記憶装置１０５２、またはこれらの組み合わせとすることができる。取り外し可能な記憶装置および取り外し不可能な記憶装置の例をいくつか挙げると、フレキシブルディスクドライブおよびハードディスクドライブ（ＨＤＤ）などの磁気ディスク装置、コンパクトディスク（ＣＤ）ドライブまたはデジタル多用途ディスク（ＤＶＤ）ドライブなどの光ディスクドライブ、半導体ドライブ（ＳＳＤ）、およびテープドライブなどがある。例示的なコンピュータ記憶媒体は、コンピュータ読み取り可能な指示、データ構造、プログラムモジュール、または他のデータなどの情報を記憶するための任意の方法または技術に適用される、揮発性および不揮発性媒体ならびに取り外し可能な媒体および取り外し不可能な媒体を含むことができる。

システムメモリ１０２０、取り外し可能な記憶装置１０５１、および取り外し不可能な記憶装置１０５２は、すべてがコンピュータ記憶媒体の例である。コンピュータ記憶媒体は、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリ、もしくは他のメモリ技術、ＣＤ−ＲＯＭ、デジタル多用途ディスク（ＤＶＤ）もしくは他の光記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置、もしくは他の磁気記憶装置、または必要な情報を記憶することができ、他のコンピュータ装置１０００によってアクセスすることができる任意の他の媒体を含むが、これらに限定されるものではない。任意のこのようなコンピュータ記憶装置は、コンピュータ装置１０００の一部とすることができる。

コンピュータ装置１０００は、バス／インターフェイス制御部８４０を介して様々なインターフェイス装置（たとえば、出力インターフェイス、周辺インターフェイス、通信インターフェイスなど）から基本的構成１００１への通信を容易にするためのインターフェイスバス１０４２も含むことができる。例示的な出力装置１０６０は、ディスプレイまたはスピーカなどの様々な外部装置に対して１つ以上のＡ／Ｖポート１０６３を介して通信するように構成することができるグラフィクス処理ユニット１０６１と音声処理ユニット１０６２とを含む。例示的な周辺インターフェイス１０７０は、入力装置（たとえば、キーボード、マウス、ペン、音声入力装置、タッチ入力装置など）または他の周辺装置（たとえば、プリンタ、スキャナなど）などの外部装置に対して１つ以上のＩ／Ｏポート１０７３を介して通信するように構成することができるシリアルインターフェイス制御部１０７１またはパラレルインターフェイス制御部１０７２を含む。例示的な通信装置１０８０は、１つ以上の通信ポート１０８２を介してネットワーク通信によって１つ以上の他のコンピュータ装置１０９０との通信を容易にするように構成することができるネットワーク制御部１０８１を含む。通信接続は、通信媒体の一例である。通信媒体は、コンピュータ読み取り可能な指示、データ構造、プログラムモジュール、または搬送波もしくは他の搬送機構などの変調データ信号における他のデータとして一般的に具現化され得て、任意の情報配信媒体を含む。「変調データ信号」は、信号において情報を符号化するように１つ以上の特徴が設定または変更される信号とすることができる。限定ではなく一例として、通信媒体は、有線ネットワークまたは直接有線接続などの有線媒体、ならびに音響、ラジオ周波数（ＲＦ）、赤外線（ＩＲ）および他の無線媒体などの無線媒体を含むことができる。ここで使用されるコンピュータ読み取り可能媒体の用語は、記憶媒体および通信媒体の両方を含むことができる。

コンピュータ装置１０００は、携帯電話、パーソナルデータアシスタント（ＰＤＡ）、パーソナルメディアプレーヤ装置、無線ウェブ視聴装置、パーソナルヘッドセット装置、特定用途向け装置、または上記の機能のいくつかを含むハイブリッド装置など、省スペースの持ち運び可能な（または携帯）電子機器の一部として適用することができる。コンピュータ装置１０００は、ラップトップ型コンピュータおよびラップトップ型でないコンピュータの構成の両方を含むパーソナルコンピュータとして適用することもできる。

システムの局面に関し、ハードウェアへの適用とソフトウェアへの適用との間の差異は小さなものである。ハードウェアまたはソフトウェアの使用は、概して（常にというわけではなく、ハードウェアとソフトウェアとの間の選択は、特定の状況においては重要なものとなり得る）費用対効果の妥協点を示す設計上の選択的事項である。ここに記載の処理および／またはシステムおよび／または他の技術を利用することができる様々な手段があり（たとえば、ハードウェア、ソフトウェア、および／またはファームウェア）、好ましい手段は、処理および／またはシステムおよび／または他の技術が展開される背景によって変わる。たとえば、速度および精度が最重要であると開発者が判断した場合、開発者は、主にハードウェアおよび／またはファームウェアの手段を選択してもよい。柔軟性が最重要である場合、開発者は、主にソフトウェアによる適用を選択してもよい。１つ以上の他の場合において、開発者は、ハードウェア、ソフトウェア、および／またはファームウェアのいくつかの組み合わせを選択してもよい。

上記の詳細な記載は、装置および／または処理の様々な実施形態について、ブロック図、フローチャート、および／または例を使用して規定した。このようなブロック図、フローチャート、および／または例が１つ以上の機能および／または動作を含む限りにおいて、当業者は、このようなブロック図、フローチャート、または例の範囲内における機能および／または動作の各々が、幅広いハードウェア、ソフトウェア、ファームウェア、または実質的にこれらの任意の組み合わせによって個々および／または集合的に実施することができることを理解するであろう。

ある実施形態において、ここに記載される主題のいくつかの部分は、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、デジタル信号プロセッサ（ＤＳＰ）または他の集積形態によって実施してもよい。当業者は、ここに記載される実施形態のいくつかの局面について、その全体または一部が、集積回路において、１つ以上のコンピュータ上で実行される１つ以上のコンピュータプログラムとして（たとえば、１つ以上のコンピュータシステム上で実行される１つ以上のプログラムとして）、１つ以上のプロセッサ上で実行される１つ以上のプログラムとして（たとえば、１つ以上のマイクロプロセッサ上で実行される１つ以上のプログラムとして）、ファームウェアとして、または実質的にこれらの任意の組み合わせとして均等に実施することができると認識し、回路の設計および／またはソフトウェアおよび／またはファームウェアのコードの記載がこの開示を鑑みて当業者の技術範囲に入ると認識するであろう。

これに加え、当業者は、ここに記載される主題の機構が、様々な形態でプログラム製品として配布することができ、ここに記載される主題の例示的な実施形態は、実際に配布を行うために使用される信号担持媒体の特定のタイプに関わらず適用することができることを理解するであろう。信号担持媒体の例は、フロッピー（登録商標）ディスク、ハードディスクドライブ、コンパクトディスク（ＣＤ）、デジタル映像ディスク（ＤＶＤ）、デジタルテープ、コンピュータメモリなどの記録可能型媒体、ならびにデジタルおよび／またはアナログ通信媒体などの伝送型媒体（たとえば、光ファイバケーブル、導波管、有線通信リンク、無線通信リンクなど）を含むが、これらに限定されるものではない。

当業者は、ここに規定される方法で装置および／または処理を記載し、工学的にこのような記載の装置および／または処理をデータ処理システムに統合することは当該技術分野において通常なされるものであると認識するであろう。すなわち、ここに記載の装置および／または処理の少なくとも一部は、妥当な量の実験を介してデータ処理システムに統合することができる。当業者は、一般的なデータ処理システムが、システムユニット筺体、映像表示装置、揮発性および不揮発性メモリなどのメモリ、マイクロプロセッサおよびデジタル信号プロセッサなどのプロセッサ、オペレーティングシステム、ドライバ、グラフィカルユーザインターフェイス、およびアプリケーションプログラムなどのコンピュータ上の実態のうちの１つ以上、タッチパッドまたはタッチスクリーンなどの１つ以上の相互作用装置、および／またはフィードバックループと制御モータとを含む制御システム（たとえば、位置および／速度を感知するためのフィードバック、部品および／または量を移動および／または調整するための制御モータ）を概して含むことを理解するであろう。一般的なデータ処理システムは、データコンピューティング／通信システムおよび／またはネットワークコンピューティング／通信システムに一般的に見られる任意の適切な市販の部品を利用することにより実施され得る。

ここで使用される実質的に複数形および／または単数形の用語に関し、当業者は、文脈および／または適用において適切と認める場合に、複数形から単数形、および／または単数形から複数形に変換することができる。様々な単数形／複数形の置き換えが、明瞭化のためにここに明示的に規定されてもよい。

例示的な実施形態が、本開示において示され、記載される。実施形態は、様々な他の組み合わせおよび環境において使用することができ、ここに示される発明の概念の範囲内において変更または修正することができる。いくつかのこのような変化形態は、一時的でないコンピュータ読み取り可能媒体に記憶されたプログラムを使用し、コンピュータおよび／またはコンピュータシステムが上記の方法の変化形の一部またはすべてを実行することができるようにすることを含んでもよい。このような変形例は、本発明の精神および範囲から逸脱しているとは捉えられず、当該技術において当業者によって自明となり得るこのような変形例の全ては、以下の特許請求項の範囲に含まれることが意図される。

Claims

通信システムにおける音声レベルを変化させるための制御システムであって、前記制御システムは、
音声信号および映像信号を受信する少なくとも１つの受信ユニットと、
前記映像信号について実施された顔認識において検知された顔の数に基づいて話している個人の数を決定する決定ユニットと、
前記顔認識において検知された顔の数に基づいて単一話し手モードまたは複数話し手モードへと切り替え、前記単一話し手モードまたは前記複数話し手モードかに基づいて前記音声信号の利得を調整する利得制御部とを備え、
検知された前記顔の数が１であることに応じて、前記利得制御部は、前記単一話し手モードに切り替えて、第１の頻度で前記音声信号の利得を調整し、
検知された前記顔の数が１より大きいことに応じて、前記利得制御部は、前記複数話し手モードに切り替えて、前記第１の頻度とは異なる第２の頻度で前記音声信号の利得を調整する、制御システム。
前記決定ユニットは、顔認識において検知された前記顔の数と、前記音声信号に対して実行されたスピーチ分析において検知されたアクティブなスピーチとに基づいて、話している前記個人の数を決定する、請求項１に記載の制御システム。
前記音声信号に対してスピーチ分析を実施することによってアクティブなスピーチを検知するスピーチ検知部をさらに備える、請求項２に記載の制御システム。
前記映像信号に対して顔認識を実施することによって顔の数を検知する顔検知ユニットをさらに備える、請求項１に記載の制御システム。
前記利得制御部は、前記顔認識において検知された顔の数および前記スピーチ分析において検知されたアクティブなスピーチの数に基づいて、前記単一話し手モードまたは前記複数話し手モードへと切り替える、請求項２に記載の制御システム。
前記検知された顔の数が１であることに応じて、前記利得制御部は、前記単一話し手モードへ切り替える前に予め定められた時間期間以上前記映像信号において一つの顔が検知されたと判定する、請求項１に記載の制御システム。
前記検知された顔の数が１より大きいことに応じて、前記利得制御部は、前記複数話し手モードへ切り替える前に予め定められた時間期間以上前記映像信号において１より大きい数の顔が検知されたと判定する、請求項１に記載の制御システム。
前記第２の頻度は、前記第１の頻度より高い、請求項１に記載の制御システム。
前記決定ユニットは、検知されたアクティブなスピーチの音量を少なくとも１つの閾値と比較し、
前記利得制御部は、前記検知されたアクティブなスピーチの音量と前記少なくとも１つの閾値との比較の結果に基づいて、前記第１の頻度または前記第２の頻度と判定する、請求項２に記載の制御システム。
前記利得制御部は、前記検知されたアクティブなスピーチの音量が、予め定められた時間期間に対する閾値の少なくとも１つより高いか低いかに基づいて、前記第１の頻度または前記第２の頻度と判定する、請求項１に記載の制御システム。
前記少なくとも１つの受信ユニットは、前記音声信号を受信するための第１の受信ユニットを含み、
前記少なくとも１つの受信ユニットは、前記映像信号を受信するための第２の受信ユニットを含む、請求項１に記載の制御システム。
前記第１の受信ユニットはマイクロフォンであり、
前記第２の受信ユニットはカメラである、請求項１１に記載の制御システム。
通信システムにおける音声レベルを変化させるための制御方法であって、前記制御方法は、
音声信号を受信するステップと、
映像信号を受信するステップと、
前記映像信号について実施された顔認識処理において検知された顔の数に基づいて、話している個人の数を決定するステップと、
前記検知された顔の数が１に等しいことに応じて、単一話し手モードに切り替えて、第１の頻度で前記音声信号の利得を調整するステップと、
前記検知された顔の数が１より大きいことに応じて、複数話し手モードに切り替えて、前記第１の頻度とは異なる第２の頻度で前記音声信号の利得を調整するステップとを備える、制御方法。
前記話している個人の数の決定は、前記顔認識において検知された顔の数と、音声信号について実行されたスピーチ分析において検知されたアクティブなスピーチとに基づく、請求項１３に記載の制御方法。
話している前記音声信号におけるアクティブスピーチを検知するために、前記音声信号に対してスピーチ分析を実施するステップをさらに備える、請求項１３に記載の制御方法。
前記映像信号における顔の数を検知するために、前記映像信号に対する顔認識処理を実施するステップをさらに備える、請求項１３に記載の制御方法。
通信システムにおいて音声レベルを変化させるための制御方法であって、前記制御方法は、
映像信号を取得するステップと、
音声信号を取得するステップと、
前記音声信号において少なくとも１人のユーザのスピーチを検知するステップと、
１つの顔または複数の顔のいずれかを検知するために前記映像信号に対して顔認識を実施するステップと、
検知された１つの顔または複数の顔の前記数に基づいて、話している個人の顔の前記数を判定するステップと、
話している個人について決定された前記数に基づいて、単一話し手モードと複数話し手モードとの間で切り替えるステップと、
複数の顔の前記検知に応答して前記単一話し手モードから前記複数話し手モードに切り替えるステップと、
単一の顔のみの前記検知に応答して前記複数話し手モードから前記単一話し手モードに切り替えるステップと、
前記複数話し手モードにおいて第１の頻度で前記音声信号の前記利得を調整するステップと、
前記単一話し手モードにおいて第２の頻度で前記音声信号の前記利得を調整するステップとを備え、前記第１の頻度は、前記第２の頻度よりも大きい、制御方法。
検知されたスピーチの前記音量を少なくとも１つの閾値と比較することによって、検知されたスピーチの前記音量が所与の音量範囲外にあるかどうかを判定するステップと、
検知されたスピーチの前記音量が前記所与の音量範囲外にあるという事象の発生に基づいて、前記検知されたスピーチの前記音量が所定長さの時間にわたって前記所与の音量範囲外にあるかどうかを判定するステップと、
検知されたスピーチの前記音量に基づいて前記第１の頻度と判定するステップと、
検知されたスピーチの前記音量に基づいて前記第２の頻度と判定するステップとを備える、請求項１７に記載の制御方法。
通信システムにおける音声レベルを変化させるためのコンピュータによって実行されるプログラムであって、前記プログラムは、前記コンピュータに、
映像信号を取得するステップと、
音声信号を取得するステップと、
前記音声信号において少なくとも１人のユーザのスピーチを検知するステップと、
１つの顔または複数の顔のいずれかを検知するために前記映像信号に対して顔認識を実施するステップと、
検知された１つの顔または複数の顔の前記数に基づいて、話している個人の顔の前記数を判定するステップと、
話している個人について決定された前記数に基づいて、単一話し手モードと複数話し手モードとの間で切り替えるステップと、
複数の顔の前記検知に応答して前記単一話し手モードから前記複数話し手モードに切り替えるステップと、
単一の顔のみの前記検知に応答して前記複数話し手モードから前記単一話し手モードに切り替えるステップと、
前記複数話し手モードにおいて第１の頻度で前記音声信号の前記利得を調整するステップと、
前記単一話し手モードにおいて第２の頻度で前記音声信号の前記利得を調整するステップとを実行させ、
前記第１の頻度は、前記第２の頻度よりも大きい、プログラム。