JP5559898B2 - 通信システムにおける音声レベルを変化させるための制御システム、制御方法、および、プログラム - Google Patents

通信システムにおける音声レベルを変化させるための制御システム、制御方法、および、プログラム Download PDF

Info

Publication number
JP5559898B2
JP5559898B2 JP2013021272A JP2013021272A JP5559898B2 JP 5559898 B2 JP5559898 B2 JP 5559898B2 JP 2013021272 A JP2013021272 A JP 2013021272A JP 2013021272 A JP2013021272 A JP 2013021272A JP 5559898 B2 JP5559898 B2 JP 5559898B2
Authority
JP
Japan
Prior art keywords
speech
detected
gain
speaker mode
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2013021272A
Other languages
English (en)
Other versions
JP2013162525A (ja
Inventor
ニクラス・エンボム
ヨーン・スコグルンド
アンドリュー・ジョン・マクドナルド
ビョルン・ボルカー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of JP2013162525A publication Critical patent/JP2013162525A/ja
Application granted granted Critical
Publication of JP5559898B2 publication Critical patent/JP5559898B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0324Details of processing therefor
    • G10L21/034Automatic adjustment
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • G10L21/057Time compression or expansion for improving intelligibility
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • H04M3/567Multimedia conference systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Control Of Amplification And Gain Control (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Telephonic Communication Services (AREA)
  • Circuits Of Receivers In General (AREA)

Description

発明の詳細な説明
この出願は、2012年2月7日に出願された米国特許出願第13/368,173の利益を主張するものであり、その全ての内容は引用によりここに援用される。
発明の分野
本開示は、一般に、単一話し手モードと複数話し手モードとを利用した(二重モードの)会議システムのための自動利得制御(AGC)機構に関する。
背景
自動利得制御(AGC)機構は、個々の話し声が適切なレベルで録音されるようにマイクロフォンの利得(デジタルまたはアナログ)を設定することを目的としている。しかしながら、話している個人(単一の話し手)または話している複数の個人(複数の話し手)によってマイクロフォンが使用される場合、AGC機構は、話している個人の数を適切に判断しなければ、話している各個人の利得を適切に調整し得ない。
ミーティングの最中に(たとえば、ヘッドセットを用いて)個人が話し、他の人(ミーティングの参加者でない人)が背後で話している場合、利得の変化によって悪影響が起こり得る。より具体的には、システム(たとえば、マイクロフォンシステム)は、現実に/意図的に話しているのは実際には1人のみしかいない場合に、話している個人が複数いると判定し、話している個人が複数いるという事に基づいて利得を変化させ得る。このため、話しているのが1人なのか複数人かを判断するだけではなく、現実にまたは意図的に話しているのが1人なのか複数人なのかを適切に判断することができるAGC機構が必要とされている。
米国特許出願公開第2009/0002480号 米国特許出願公開第2009/0015658号 米国特許第6,125,343号 米国特許第6,297,846号 米国特許第6,457,043号 米国特許第6,606,111号 米国特許第6,611,281号 米国特許第6,795,106号 米国特許第6,804,340号 米国特許第6,940,545号 米国特許第7,636,453号 米国特許第7,664,246号 米国特許第7,806,604号
概要
この概要では、本開示におけるいくつかの局面についての基本的な理解をもたらすために、選択された概念を単純化して説明する。この概要は、開示についての概観を克明に記載するものではなく、開示される主要な要素もしくは重要な要素を特定したり、開示の範囲を規定することを意図したものでもない。この概要は、以下に記載される詳細な説明の前段階として、開示されるいくつかの概念を単に示すものである。
本発明の局面は、通信システムにおける音声レベルを変化させるための制御システムを提供する。制御システムは、音声信号および映像信号を受信するための少なくとも1つの受信ユニットと、音声信号または映像信号のいずれかについての認識を行うことによって話している個人の数を決定するための決定ユニットと、話している個人について決定された数に基づいて音声信号の利得を調整するための利得調整ユニットとを含む。
本発明の実施形態によれば、認識は、話している個人の数を決定するために、顔認識またはスピーチ分析のいずれかを実施することによって行われる。
本発明の他の実施形態によれば、認識は、話している個人の数を決定するために、音声信号に対してスピーチ分析を実施することによって行われる。
本発明のさらに他の実施形態によれば、認識は、映像信号に対して顔認識を実施することによって行われる。
本発明の付加的な実施形態によれば、制御システムは、話している個人の数についての決定に基づいて単一話し手モードと複数話し手モードとの間で切り替えるための切替ユニットをさらに含む。
本発明の他の実施形態によれば、顔認識は、1つの顔または複数の顔を検知するために実施される。
本発明のさらに他の実施形態によれば、制御システムは、検知された顔の数に基づいて単一話し手モードと複数話し手モードとの間で切り替えるための切替ユニットをさらに含む。
本発明の付加的な実施形態によれば、切替ユニットは、複数の顔の検知に応答して単一話し手モードから複数話し手モードに切り替え、利得調整ユニットは、複数話し手モードにおいて第1の頻度で音声信号の利得を調整し、切替ユニットは、単一の顔のみの検知に応答して複数話し手モードから単一話し手モードに切り替え、利得調整ユニットは、単一話し手モードにおいて第2の頻度で音声信号の利得を調整し、第1の頻度は、第2の頻度とは異なる。
本発明の他の実施形態によれば、第1の頻度は、第2の頻度よりも大きい頻度である。
本発明のさらに他の実施形態によれば、検知ユニットは、検知されたスピーチの音量を少なくとも1つの閾値と比較することによって、検知されたスピーチの音量が所与の音量範囲外にあるかどうかを判定し、検知ユニットは、検知されたスピーチの音量が所与の音量範囲外となる事象の発生に基づいて、検知されたスピーチの音量が所定長さの時間にわたって所与の音量範囲外にあるかどうかを判定し、検知ユニットは、検知されたスピーチの音量に基づいて第1の頻度と判定し、検知ユニットは、検知されたスピーチの音量に基づいて第2の頻度と判定する。
本発明の付加的な実施形態によれば、少なくとも1つの受信ユニットは、音声信号および映像信号の両方を有するデータのストリームを受信する。
本発明の他の実施形態によれば、少なくとも1つの受信ユニットは、音声信号を受信するための第1の受信ユニットを含み、少なくとも1つの受信ユニットは、映像信号を受信するための第2の受信ユニットを含む。
本発明のさらに他の実施形態によれば、第1の受信ユニットはマイクロフォンであり、第2の受信ユニットはカメラである。
本発明の局面は、通信システムにおける音声レベルを変化させるための制御方法をさらに提供する。制御方法は、音声信号を受信するステップと、映像信号を受信するステップと、話している個人の数を決定するために映像信号または音声信号のいずれかについての認識を行うステップと、話している個人について決定された数に基づいて音声信号の利得を調整するステップとを含む。
本発明の実施形態によれば、認識は、話している個人の数を決定するために、顔認識またはスピーチ分析のいずれかを実施することによって行われる。
本発明の他の実施形態によれば、認識は、話している個人の数を決定するために、音声信号に対してスピーチ分析を実施することによって行われる。
本発明の付加的な実施形態によれば、認識は、映像信号に対して顔認識を実施することによって行われる。
加えて、本発明の局面は、通信システムにおいて音声レベルを変化させるための制御方法を提供する。制御方法は、映像信号を取得するステップと、音声信号を取得するステップと、音声信号において少なくとも1人のユーザのスピーチを検知するステップと、1つの顔または複数の顔のいずれかを検知するために映像信号に対して顔認識を実施するステップと、検知された1つの顔または複数の顔の数に基づいて、話している個人の数を決定するステップと、話している個人について決定された数に基づいて、単一話し手モードと複数話し手モードとの間で切り替えるステップと、複数の顔の検知に応答して単一話し手モードから複数話し手モードに切り替えるステップと、単一の顔のみの検知に応答して複数話し手モードから単一話し手モードに切り替えるステップと、複数話し手モードにおいて第1の頻度で音声信号の利得を調整するステップと、単一話し手モードにおいて第2の頻度に音声信号の利得を調整するステップとを含み、第1の頻度は、第2の頻度より大きい。
本発明のさらに他の実施形態によれば、制御方法は、検知されたスピーチの音量を少なくとも1つの閾値と比較することによって、検知されたスピーチの音量が所与の音量範囲外にあるかどうかを判定するステップと、検知されたスピーチの音量が所与の音量範囲外となる事象の発生に基づいて、検知されたスピーチが所定長さの時間にわたって所与の音量範囲外にあるかどうかを判定するステップと、検知されたスピーチの音量に基づいて第1の頻度と判定するステップと、検知されたスピーチの音量に基づいて第2の頻度と判定するステップとをさらに含む。
本発明の適用可能性についてのさらに他の範囲は、以下に記載される詳細な説明によって明らかになるであろう。本発明の精神および範囲内における様々な変更および修正は、詳細な説明から当業者にとって明らかなものであることから、詳細な説明および具体例は、本発明の好ましい実施形態を示す一方で、例示のみを目的としていることを理解されたい。
本開示におけるこれらおよび他の目的、特徴、および特性は、明細書の一部を構成する添付の請求項および図面と併せて以下の詳細な説明を検討することによって当業者にとってより明らかなものとなるであろう。
ここに記載される1つ以上の実施形態に係る会議システムの一局面を示す回路図である。 ここに記載される1つ以上の実施形態に係る映像分析方法の一局面を示すフローチャートである。 ここに記載される1つ以上の実施形態に係る音声分析方法の一局面を示すフローチャートである。 ここに記載される1つ以上の実施形態に係る会議システムの制御部(たとえば、利得制御部150)の一局面を示す回路図である。
ここに設けられる見出しは、便宜のみを目的としたものであり、請求項に記載の発明の範囲または意味に影響を与えるとは限らない。
図面において、同じ参照符号および頭字語は、理解の容易化および利便性のために、同じまたは類似の構造または機能を伴う要素または行為を特定するものである。図面については、以下の詳細な説明の中で詳細に説明される。
詳細な説明
本発明の様々な例が記載される。以下の記載は、これらの例の完全な理解のため、および実施可能な記載のために、具体的な詳細を提供するものである。当業者は、これらの多くの詳細が無くとも本発明を実施することができることを理解するであろう。同様に、当業者は、本発明がここに詳細に記載されていない多くの他の自明な特徴も含み得ることを理解するであろう。関連する記載を不必要に不明確化すること避けるために、いくつかの周知の構造または機能については、以下では詳細に示されない、または記載されない。
図1は、本発明の1つ以上の実施形態に係る会議システム100の一局面を示す回路図である。図1において、会議システムは、画像取得ユニット110(または画像取得回路/回路素子110)と、スピーチ取得ユニット120(またはスピーチ取得回路/回路素子120)と、顔検知ユニット130(または顔検知回路/回路素子130)と、スピーチ検知ユニット140(またはスピーチ検知回路/回路素子140)と、利得制御部150(モードを切り替えるための切替ユニットを内部または外部に含み得る)と、映像エンコーダ160と、音声エンコーダ170と、ネットワーク180とを含む。
画像取得ユニット110は、画像の取得、検知、および/または感知を行う装置(たとえば、カメラまたは他の類似の装置)である。画像取得ユニット110は、画像センサを含んでもよい。たとえば、画像取得ユニット110は、CCD(電荷結合素子)画像センサ、CMOS(相補型金属酸化物半導体)画像センサ、または他の類似の画像センサのような任意のタイプの画像センサであってもよい。
画像取得ユニット110は、カメラを介して画像を取得、検知、および/または感知してもよく、入力信号または受信信号から画像データを受信、取得、検知、感知、および/または抽出してもよい。取得、検知、感知、および/または抽出された画像は、顔検知ユニット130に提供される。画像は、有線または無線による伝送によって顔検知ユニット130に提供されてもよい。
スピーチ取得ユニットまたは装置120は、音声もしくはスピーチを取得および/または感知するための、音声もしくはスピーチの取得および/または感知を行う装置(たとえば、マイクロフォンまたは他の類似の装置)である。
スピーチ取得ユニット120は、音声もしくはスピーチ(データまたは信号)をマイクロフォンを介して取得および/または感知してもよい、または音声のデータ/信号もしくはスピーチのデータ/信号を入力信号または受信信号から受信、取得、感知、および/または抽出してもよい。取得、感知、および/または抽出された音声もしくはスピーチ(以下では、音声データまたは音声信号という)は、有線または無線の伝送を介してスピーチ検知ユニット140に提供される。
画像取得ユニット110およびスピーチ取得ユニット120は、2つの別個のユニットまたは装置として開示されているが、画像取得ユニット110(たとえば、カメラ)およびスピーチ取得ユニット120(たとえば、マイクロフォン)は、(いくつかまたは全ての開示される実施形態において)単一の装置として一体化、または互いに結合されてもよい。
加えて、画像および音声/スピーチは、単一の装置において同時に取得、検知、感知、および/または抽出されてもよく、複数の装置から同時に取得、検知、感知、および/または抽出されてもよい。
画像および音声/スピーチは、会議システム100へと伝送されてもよい(すなわち、併せて単一の信号として)。画像および音声/スピーチが併せて単一の信号として伝送される場合(または別個の信号として伝送される場合)、画像取得ユニット110およびスピーチ取得ユニット120は、受信信号から画像データを抽出する単一の画像抽出ユニットまたは装置110(または別個の信号として伝送される場合は、2つの画像抽出ユニット110,120)および音声もしくはスピーチを受信信号から抽出する音声もしくはスピーチ抽出ユニットまたは装置120とそれぞれ置き換えられてもよい。このため、画像抽出ユニット110は、受信信号から画像データを抽出し、抽出した画像を顔検知ユニット130に提供し、音声もしくはスピーチ抽出ユニット120は、音声もしくはスピーチを受信信号から抽出し、抽出した音声もしくはスピーチをスピーチ検知ユニット140に提供する。
画像取得/抽出ユニット110およびスピーチ取得/抽出ユニット120は、2つの別個のユニットもしくは装置として開示されているが、画像取得/抽出ユニット110および音声もしくはスピーチ取得/抽出ユニット120は、(いくつかまたは全ての開示される実施形態において)単一の装置として一体化、または互いに結合されてもよい。
加えて、以下のステップ210についての詳細な記載は、その全体または一部が画像取得ユニット110に対応する。このため、ステップ210の詳細がここに援用される(ステップ210に関する詳細な記載は、その全体または一部が画像取得ユニット110に援用される)。
以下のステップ310についての詳細な記載は、その全体または一部が音声もしくはスピーチ取得/抽出ユニット120に対応する。このため、ステップ310の詳細がここに援用される(ステップ310に関する詳細な記載は、その全体または一部が音声もしくはスピーチ取得/抽出ユニット120に援用される)。
顔検知ユニット130(または顔検知回路/回路素子130)は、画像取得ユニット110によって取得された話し手の数を判定するために、画像内の人の数を検知する。たとえば、顔検知ユニット130は、画像取得ユニット110によって取得された人の顔を検知する。顔検知ユニット130は、画像取得ユニット110によって取得された人の頭(または人体、人)を代わりに検知することができる。顔検知ユニット130は、検知された顔、頭、および人などの数を利得制御部150に提供する。
以下のステップ220および/またはステップ230についての詳細な記載は、その全体または一部が顔検知ユニット130に対応する。このため、ステップ220および/またはステップ230についての詳細がここに援用される(ステップ220および/ステップ230に関する詳細な記載の全体または一部が、顔検知ユニット130に援用される)。
加えて、画像取得ユニット110によって顔検知ユニット130に提供される映像(もしくは画像)データまたは映像(もしくは画像)信号は、顔検知ユニット130によって映像エンコーダ160へと伝送される。
スピーチ検知ユニット140(もしくはスピーチ検知回路/回路素子140)は、取得された音声もしくはスピーチの信号またはデータ内のスピーチを検知する。スピーチ検知ユニット140は、検知されたスピーチもしくは音声を利得制御部150に提供する。スピーチ検知ユニット140は、能動的なスピーチと考えられるものを保持(および利得制御部に転送)し、能動的なスピーチと考えられないものを無視してもよい。たとえば、全てのスピーチが利得制御部150に送られ、全ての雑音が消去される。最後に、スピーチ検知ユニット140は、信号内の異なる声の数を検知するために使用されてもよい。
以下のステップ320および/またはステップ330についての詳細な記載は、その全体または一部が音声もしくはスピーチ検知ユニット140に対応する。このため、ステップ320および/またはステップ330についての詳細がここに援用される(ステップ320および/または330に関する詳細な記載は、その全体または一部が音声もしくはスピーチ検知ユニット140に援用される)。
利得制御部150は、検知された顔または頭の数を顔検知ユニット130から受け取り、検知されたスピーチ/音声の信号またはデータをスピーチ検知ユニット140から受け取る。受け取った情報(たとえば、検知された顔または頭の数、ならびに検知されたスピーチ/音声のデータ/信号)に基づき、利得制御部150は、受け取った(スピーチ取得ユニット120またはスピーチ検知ユニット140から受け取った)音声の利得を調整し、利得の調整された音声信号を音声エンコーダ170に出力する。
以下のステップ220、ステップ230、ステップ240、ステップ250、ステップ330、ステップ340、および/またはステップ350に記載の詳細は、その全体または一部が利得制御部150に対応する。このため、ステップ220、ステップ230、ステップ240、ステップ250、ステップ330、ステップ340、および/またはステップ350の詳細がここに援用される(ステップ220、ステップ230、ステップ240、ステップ250、ステップ330、ステップ340、および/またはステップ350に関する詳細な記載の全体または一部が利得制御部150に援用される)。
映像エンコーダ160は、映像信号を顔検知ユニット130から受信し、映像信号を符号化し、符号化された映像信号を出力する。映像エンコーダ160は、デジタル映像用に映像の圧縮および/または伸長を可能にする装置である。映像エンコーダ160は、受信した映像信号に対して映像符号化を行い、映像符号化信号を生成してネットワーク180に出力する。
音声エンコーダ170は、利得の調整された音声信号を利得制御部150から受信し、利得の調整された音声信号を符号化し、符号化された音声信号を提供する。音声エンコーダ170は、データ(音声)圧縮を可能にする装置である。音声エンコーダ170は、利得の調整された音声信号に対して音声符号化を行い、音声符号化信号を生成してネットワーク180に提供する。
図2は、上記の会議システムのうちの少なくとも1つによって行われ得る例示的な映像分析方法を示すフローチャートである。図2において、映像分析方法は、映像信号を受信するステップ(ステップ210)、映像分析ステップ(ステップ220)、比較ステップ(反復型のステップとなり得るステップ230)、および/またはAGC−T値を設定するステップ(ステップ240および/または250)を含んでもよい。
ステップ210において、会議システム100は、少なくとも画像取得ユニット110に関して詳細に記載されたように、映像信号を受信する。このため、画像取得ユニット110に関する詳細な記載がここに援用される。
ステップ220において、会議システム100は、少なくとも顔検知ユニット130に関して詳細に記載されたように、受信した映像信号について映像分析を行う。このため、顔検知ユニット130に関する詳細な記載がここに援用される(顔検知ユニット130に関する詳細な記載の全体または一部がステップ220に援用される)。より具体的には、ステップ210において(たとえば、画像取得ユニット110によって)取得された、話している個人の数を判定するために、ステップ220において、画像中の人の数が(たとえば、顔検知ユニット130によって)検知される。
ステップ220における顔(もしくは頭や体など)検知は、(デジタル)画像中の人間の顔(もしくは頭や体など)の場所と大きさを判定することによって行われる。たとえば、顔検知においては、顔の特徴が検知され、顔の特徴と考えられないもの(体、椅子、机、木など)は無視される。加えて、ステップ220において、検知は従来の方法によって行われてもよい。
ステップ230において、所定の時間(より長い時間)にわたって映像中に複数の顔が存在するかどうか、および/または所定の時間(以上の時間)にわたって映像中に単一の顔が存在するかどうかについての判定が行われる(所定の時間は、1秒、2秒、3秒などであってもよい)。ステップ230は、ステップ240および/または250においてAGC閾値(AGC−T)を出力することができるように行ってもよく、これにより、単一の顔が検知されたかどうか(たとえば、話している単一の個人のみを検知する)、または複数の顔が検知されたかどうか(たとえば、話している複数の個人を検知する)についての判定をレベル分析ユニット、スピーチ検知ユニット140、および/または利得制御部150に対して知らせるための手段が提供される。
AGC−T値は、2つの値(たとえば、2進値/論理値)を含むことができる。第1のAGC−T値は、複数の個人が話している旨の判定(もしくは検知)を表わす(または複数話し手モードに切り替えるための判定/命令を表わす)「真」値(たとえば、0または1の値)であり、第2のAGC−T値は、単一の個人が話しているという判定(もしくは検知)を表わす(または単一話し手モードに切り替えるための判定/命令を表わす)「偽」値(たとえば、1または0の値)である。AGC−T値は、顔検知ユニット130(たとえば、ステップ230)からの単一の出力または2つの異なる出力として、レベル分析ユニット(またはスピーチ検知ユニット140および/もしくは利得制御部150)の単一の入力または2つの異なる入力に提供されてもよい。
言い換えると、ステップ230においては、所定の時間(以上)にわたって映像中に単一の顔が検知されたかどうかの判定、または複数の顔が検知されたかどうかの判定に基づき、出力されてレベル分析ユニット、スピーチ検知ユニット140、および/または利得制御部150に提供される(たとえば、レベル分析ステップ330への入力)AGC−T値に基づいて単一話し手モードまたは複数話し手モード(複数の話し手モードともいわれる)に切り替えるかどうかについての判定を行ってもよい。
会議システム100は、単一話し手モードまたは複数話し手モードで自動的に開始してもよい。代替的に、会議システム100は、初期化モードで開始してもよい(すなわち、特定のモードで開始するように自動的に設定されていない場合)。たとえば、ステップ230において、初期化の間(現状で単一話し手モードまたは複数の話し手モードのいずれにもない)、所定の時間(以上)にわたって映像中に単一の顔が検知されたか(否か)、または複数の顔が検知されたか(否か)についての判定が行われる(たとえば、初期化期間は、たとえば1秒、2秒、3秒などである)。初期化期間において複数の顔が映像中に検知されたと判定された場合(または単一の顔が検知されなかったと判定された場合)、利得制御部は、(たとえば、複数の話し手モードの値に対応するAGC−T値の受け取りに基づいて)システムを複数の話し手モードに設定する。初期化期間において単一の顔のみが映像中に検知されたと判定された場合(または複数の顔が検知されなかったと判定された場合、もしくは複数より小さい数の顔が検知された場合)、利得制御部は、(たとえば、単一話し手モードの値に対応するAGC−T値の受け取りに基づいて)システムを単一話し手モードに設定する。
ステップ230において、初期化期間の後(単一話し手モードまたは複数話し手モードのいずれかの最中にある)、所定の時間(たとえば、1秒、2秒、3秒など)(以上)にわたって映像中に単一の顔が検知されたか(否か)、または複数の顔(または複数の顔より小さい数)が検知されたか(否か)についての判定が行われ、現状のモードは切り替えることができる(単一話し手モードから複数話し手モード、およびその逆もまた同様)。
単一の顔のみが映像中に検知されたと判定された場合(または複数の顔が検知されなかったと判定された場合、もしくは複数の顔より小さい数の顔が検知されたと判定された場合)、利得制御部は、(たとえば、単一話し手モードの値に対応するAGC−T値の受け取りに基づいて)システムを単一話し手モードに切り替える。
映像中に複数の顔が検知されたと判定された場合(または単一の顔が検知されなかったと判定された場合)、利得制御部は、(たとえば、複数の話し手モードの値に対応するAGC−T値の受け取りに基づいて)システムを複数の話し手モードに切り替える。
利得制御部は、いずれのモードにおいてもスピーチ信号の利得を調整(変更)することが可能であってもよい。利得制御部がスピーチの利得を調整し得る頻度は、いずれのモードにおいても同じ頻度で行われてもよい。代替的な実施形態において、検知されたスピーチ信号に対して単一話し手モードにおいて与えられる利得の変化は、検知されたスピーチ信号に対して複数話し手モードにおいて与えられる利得変化と比して遅い頻度で与えられてもよい。なぜなら、複数の顔が検知された場合と比して、単一の顔が検知された場合において実際の入力信号の大きさは急速に変化しそうにないためである。たとえば、利得制御部が単一話し手モードにおいてスピーチ信号の利得を変化させる頻度は0.5秒ごととなり得る一方で、利得制御部が複数話し手モードにおいてスピーチ信号の利得を変化させる頻度は0.1秒ごととなり得る。このため、複数話し手モードにおいて利得制御部をより早く応答させることにより、利得制御は、話している複数の個人の音量をより急速に(ほぼ)同じレベルにすることができる。複数の話し手に対して急速な利得の変化を与え、結果として複数の個人の声が(ほぼ)同じレベルで聞こえるようにすることによって、一人の個人がマイクロフォンの近くに居て、他の話し手がマイクロフォンから大きく離れている場合において、システム全体が少なくとも恩恵を受け得る。
代替的な実施形態において、AGC−T値を単一話し手モードに設定すると判定された場合、(利得制御部150を介した)自動利得制御は、話している個人のみに「固定」(lock onto)し得て(選択/検知された話している個人のみに対して利得を増大させる制御を行う)、話している個人の信号に所定量の(増大した)利得が与えられ得る(話している個人の利得のみを変化/増大させる、または話している個人の利得を増大させる一方で、検知/固定された話している個人を除いた全ての利得、他の検知された話をしている複数の個人の利得、および/または検知された雑音の利得を減少させる)。
同様に(上記の段落に記載された代替的な実施形態において)、AGC−T値を複数話し手モードに設定すると判定された場合、(利得制御部150を介した)自動利得制御は、検知された話している複数の個人に固定され(検知された話している複数の個人に対する増大した利得制御を維持する)、声(または音声)と考えられる一部および全ての信号に対して所定量の利得が与えられ得る。全ての開示された時間(全ての与えられた例において、たとえば「所定の時間」)は、たとえばユーザによる設定など、全ての実用的手段によっていつでも設定され得る、または装置によって予め定められるもしくは予め設定され得る、または以前の判定時間を用いた適合アルゴリズムに基づいて定められてもよい。
ステップ230において、所定の時間にわたって複数の顔(または単一の顔など)が映像中に存在するか(否か)についての判定は、顔検知ユニット130および/または利得制御部150によって行われ得る。このため、顔検知ユニット130および/または利得制御部に関する詳細な記載がここに援用される(顔検知ユニット130および/または利得制御部に関する詳細な記載は、その全体または一部がステップ230に援用される)。図3は、上記の会議システムの少なくとも1つによって行われ得る音声分析方法の例を表わすフローチャートである。
ステップ310において、会議システム100は、少なくともスピーチ取得ユニット120に関して詳細に記載したように、音声信号を受信する。このため、スピーチ取得ユニット120に関する詳細な記載がここに援用される。
ステップ320において、会議システム100は、少なくともスピーチ検知ユニット140に関して詳細に記載したように、受信した映像信号についてのスピーチ分析を行う。このため、スピーチ検知ユニット140に関する詳細な記載がここに援用される(スピーチ検知ユニット140に関する詳細な記載の全体または一部がステップ320に援用される)。より具体的には、(たとえばスピーチ取得ユニット120によって)ステップ310において取得されたスピーチまたは音声の全てを判定するために、ステップ320において、一部および全てのスピーチ/音声が(たとえば、スピーチ検知ユニット140によって)取得される。簡単にいえば、(ステップ320において)スピーチ検知ユニット140は、単に能動的なスピーチを検知してもよい。これに加え、ステップ320において、従来の方法によって検知が行われてもよい。
代替的な実施形態において、ステップ320では、スピーチ検知ユニット140は、検知されたスピーチ/音声を使用して、話している個人の数の判定を支援してもよい(または、図2に示されるように映像分析に置き換えてもよい)。たとえば、複数のスピーチ取得ユニット(複数のマイクロフォン、または空間的に分離された複数のマイクロフォン)を使用することにより、話している異なる個人について受信した音声信号の時間的な遅れの差異を用いて、話している個人の数を複数の話し手信号から判定してもよい。より具体的には、ステップ320において、スピーチ検知ユニット140が話している個人の数(1人の個人、2人の個人など)を正確に判定できる場合、(話している単一の個人または話している複数の個人を示す)AGC−T値をスピーチ検知ユニット140が(ステップ320において)提供すると考えられることから、図2に示される映像分析の全てが不要となる。
能動的なスピーチの検知(のみ)に基づき、処理はステップ320からステップ330に進み得る。そうでなければ、能動的なスピーチが検知されるまで、システムはステップ320を継続する。
ステップ330において、会議システム100は、少なくともスピーチ検知ユニット140および/または利得制御部150に関して詳細に記載したように、受信した音声/スピーチ信号についてのレベル分析を行う。このため、スピーチ検知ユニット140および/または利得制御部150に関する詳細な記載がここに援用される(スピーチ検知ユニット140および/または利得制御部150に関する詳細な記載の全体または一部がステップ330に援用される)。これに加え、ステップ330におけるレベル分析は、スピーチ検知ユニット140および/または利得制御部150と別個にまたは連動して作動するレベル分析ユニットによって行われてもよい。
たとえば、ステップ330(ステップ330aともよばれる)において、各音声/スピーチ信号のレベル(または音量)が判定される。より具体的には、ステップ330(またはステップ330a)において、検知された(能動的な)音声は、(検知されたスピーチが特定のレベルを上回るかどうか、音量が大きすぎるかどうかを示すために)上限と比較され、(検知されたスピーチの音量が特定のレベルを下回るかどうか、音量が小さすぎるかどうかを示すために)下限と比較される。
ステップ330において(ステップ330bともよばれ、ステップ330bはステップ330aの後に行われる)、特定の閾値を上回る音量または下回る音量が検知された場合、スピーチ検知ユニット140および/または利得制御部150は、検知された音量が特定の時間にわたって特定の閾値を上回るかどうか、または検知された音量が特定の閾値を下回るかどうかを判定する(たとえば、特定の時間は、1秒、2秒、3秒などであってもよい)。
最後に、ステップ330(ステップ330aおよび330b)において(たとえば)利得制御部150によって行われる分析は、利得制御部150による利得変化値の判定(ステップ340)および/または利得変化の付与(ステップ350)の前に与えられるAGC−T値も考慮する。
検知された(能動的な)スピーチの音量が特定の時間にわたって特定の閾値よりも高いおよび/または低いという判定(のみ)に基づいて、処理はステップ330からステップ340に進んでもよい。そうでなければ、システムは、検知された(能動的な)音声が特定の時間にわたって特定の範囲外となるまで(特定の時間にわたって特定の閾値を上回る、または下回る)ステップ330を継続する。
ステップ340において、会議システム100は、少なくともスピーチ検知ユニット140および/または利得制御部150に関して詳細に記載されたように、検知された音声/スピーチ信号の各々の利得調整値についての判定を行う。このため、スピーチ検知ユニット140および/または利得制御部150に関する詳細な記載がここに援用される(スピーチ検知ユニット140および/または利得制御部150に関する詳細な記載の全体または一部がステップ330に援用される)。より具体的には、ステップ340において、複数話し手モードとすることに基づいてより急速/急激に利得を変化させるかどうか、これに対して単一話し手モードとすることに基づいて利得を急激に変化させないかどうかを判定する。このため、ステップ340において、単一話し手モードおよび複数話し手モードにおける利得変化の頻度が判定される。
代替的に、単一話し手モードにある場合、ステップ340では、利得制御部が単一の個人(話し手)のスピーチ信号の利得を調整し得るように、利得制御部に対する利得調整値を判定および付与することもできる。この代替的な方法において、複数話し手モードにある場合、ステップ340では、利得制御部が個人(話し手)のスピーチ信号の各々の利得を調整し得るように、利得制御部に対する利得調整値を判定および付与することもできる。
ステップ350において、会議システム100は、スピーチ取得ユニット120によって取得された受信音声/スピーチまたはスピーチ検知ユニット140によって検知された音声/スピーチにおけるスピーチ信号に対する利得調整を行う。
ステップ350において、少なくとも利得制御部150に関して詳細に記載されたように利得調整を行うことが、ここに援用される(利得調整部150に関して記載された詳細の全体または一部がステップ350に援用される)。
図4は、本発明の実施形態に係る利得制御部150(コンピュータ装置1000ともよばれる)の一局面を示す回路図である。
コンピュータ装置1000(たとえば、利得制御部150)のごく基本的な構成において、コンピュータ装置1000は、一般的に1つ以上のプロセッサ1010とシステムメモリ1020とを含む。メモリバス1030は、プロセッサ1010とシステムメモリ1020との間の通信に使用することができる。
所望の構成に応じて、コンピュータ装置1000の1つ以上のプロセッサ1010は、マイクロプロセッサ、マイクロコントローラ、デジタル信号プロセッサ、またはこれらの任意の組み合わせを含む任意のタイプであってもよいが、これらに限定されるものではない。プロセッサ1010は、レベル1キャッシュ1011およびレベル2キャッシュ1012などの1つ以上のレベルのキャッシングと、プロセッサコア1013と、レジスタ1014とを含むことができる。プロセッサコア1013は、算術論理演算ユニット(ALU)、浮動小数点演算ユニット(FPU)、デジタル信号処理コア(DSPコア)、またはこれらの任意の組み合わせを含むことができる。メモリ制御部1015は、プロセッサ1010と併せて使用することもでき、一部の適用例においては、メモリ制御部1015は、プロセッサ1010の内部部品とすることもできる。
所望の構成に応じて、システムメモリ1020は、揮発性メモリ(RAM)、不揮発性メモリ(ROM、フラッシュメモリなど)、またはこれらの任意の組み合わせを含むタイプとすることができるが、これらに限定されるものではない。システムメモリ1020は、一般的に、オペレーティングシステム1021と、1つ以上のアプリケーション1022と、プログラムデータ1024とを含む。アプリケーション1022は、認証アルゴリズム1023を含む。プログラムデータ1024は、サービスデータ1025を含む。
コンピュータ装置1000は、付加的な特徴または機能、および付加的なインターフェイスを有し、基本的構成1001と任意の必要な装置およびインターフェイスとの間の通信を容易にすることができる。たとえば、バス/インターフェイス制御部1040を使用して、記憶インターフェイスバス1041を介した基本的構成1001と1つ以上のデータ記憶装置1050との間の通信を容易にすることができる。データ記憶装置1050は、取り外し可能な記憶装置1051、取り外し不可能な記憶装置1052、またはこれらの組み合わせとすることができる。取り外し可能な記憶装置および取り外し不可能な記憶装置の例をいくつか挙げると、フレキシブルディスクドライブおよびハードディスクドライブ(HDD)などの磁気ディスク装置、コンパクトディスク(CD)ドライブまたはデジタル多用途ディスク(DVD)ドライブなどの光ディスクドライブ、半導体ドライブ(SSD)、およびテープドライブなどがある。例示的なコンピュータ記憶媒体は、コンピュータ読み取り可能な指示、データ構造、プログラムモジュール、または他のデータなどの情報を記憶するための任意の方法または技術に適用される、揮発性および不揮発性媒体ならびに取り外し可能な媒体および取り外し不可能な媒体を含むことができる。
システムメモリ1020、取り外し可能な記憶装置1051、および取り外し不可能な記憶装置1052は、すべてがコンピュータ記憶媒体の例である。コンピュータ記憶媒体は、RAM、ROM、EEPROM、フラッシュメモリ、もしくは他のメモリ技術、CD−ROM、デジタル多用途ディスク(DVD)もしくは他の光記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置、もしくは他の磁気記憶装置、または必要な情報を記憶することができ、他のコンピュータ装置1000によってアクセスすることができる任意の他の媒体を含むが、これらに限定されるものではない。任意のこのようなコンピュータ記憶装置は、コンピュータ装置1000の一部とすることができる。
コンピュータ装置1000は、バス/インターフェイス制御部840を介して様々なインターフェイス装置(たとえば、出力インターフェイス、周辺インターフェイス、通信インターフェイスなど)から基本的構成1001への通信を容易にするためのインターフェイスバス1042も含むことができる。例示的な出力装置1060は、ディスプレイまたはスピーカなどの様々な外部装置に対して1つ以上のA/Vポート1063を介して通信するように構成することができるグラフィクス処理ユニット1061と音声処理ユニット1062とを含む。例示的な周辺インターフェイス1070は、入力装置(たとえば、キーボード、マウス、ペン、音声入力装置、タッチ入力装置など)または他の周辺装置(たとえば、プリンタ、スキャナなど)などの外部装置に対して1つ以上のI/Oポート1073を介して通信するように構成することができるシリアルインターフェイス制御部1071またはパラレルインターフェイス制御部1072を含む。例示的な通信装置1080は、1つ以上の通信ポート1082を介してネットワーク通信によって1つ以上の他のコンピュータ装置1090との通信を容易にするように構成することができるネットワーク制御部1081を含む。通信接続は、通信媒体の一例である。通信媒体は、コンピュータ読み取り可能な指示、データ構造、プログラムモジュール、または搬送波もしくは他の搬送機構などの変調データ信号における他のデータとして一般的に具現化され得て、任意の情報配信媒体を含む。「変調データ信号」は、信号において情報を符号化するように1つ以上の特徴が設定または変更される信号とすることができる。限定ではなく一例として、通信媒体は、有線ネットワークまたは直接有線接続などの有線媒体、ならびに音響、ラジオ周波数(RF)、赤外線(IR)および他の無線媒体などの無線媒体を含むことができる。ここで使用されるコンピュータ読み取り可能媒体の用語は、記憶媒体および通信媒体の両方を含むことができる。
コンピュータ装置1000は、携帯電話、パーソナルデータアシスタント(PDA)、パーソナルメディアプレーヤ装置、無線ウェブ視聴装置、パーソナルヘッドセット装置、特定用途向け装置、または上記の機能のいくつかを含むハイブリッド装置など、省スペースの持ち運び可能な(または携帯)電子機器の一部として適用することができる。コンピュータ装置1000は、ラップトップ型コンピュータおよびラップトップ型でないコンピュータの構成の両方を含むパーソナルコンピュータとして適用することもできる。
システムの局面に関し、ハードウェアへの適用とソフトウェアへの適用との間の差異は小さなものである。ハードウェアまたはソフトウェアの使用は、概して(常にというわけではなく、ハードウェアとソフトウェアとの間の選択は、特定の状況においては重要なものとなり得る)費用対効果の妥協点を示す設計上の選択的事項である。ここに記載の処理および/またはシステムおよび/または他の技術を利用することができる様々な手段があり(たとえば、ハードウェア、ソフトウェア、および/またはファームウェア)、好ましい手段は、処理および/またはシステムおよび/または他の技術が展開される背景によって変わる。たとえば、速度および精度が最重要であると開発者が判断した場合、開発者は、主にハードウェアおよび/またはファームウェアの手段を選択してもよい。柔軟性が最重要である場合、開発者は、主にソフトウェアによる適用を選択してもよい。1つ以上の他の場合において、開発者は、ハードウェア、ソフトウェア、および/またはファームウェアのいくつかの組み合わせを選択してもよい。
上記の詳細な記載は、装置および/または処理の様々な実施形態について、ブロック図、フローチャート、および/または例を使用して規定した。このようなブロック図、フローチャート、および/または例が1つ以上の機能および/または動作を含む限りにおいて、当業者は、このようなブロック図、フローチャート、または例の範囲内における機能および/または動作の各々が、幅広いハードウェア、ソフトウェア、ファームウェア、または実質的にこれらの任意の組み合わせによって個々および/または集合的に実施することができることを理解するであろう。
ある実施形態において、ここに記載される主題のいくつかの部分は、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、デジタル信号プロセッサ(DSP)または他の集積形態によって実施してもよい。当業者は、ここに記載される実施形態のいくつかの局面について、その全体または一部が、集積回路において、1つ以上のコンピュータ上で実行される1つ以上のコンピュータプログラムとして(たとえば、1つ以上のコンピュータシステム上で実行される1つ以上のプログラムとして)、1つ以上のプロセッサ上で実行される1つ以上のプログラムとして(たとえば、1つ以上のマイクロプロセッサ上で実行される1つ以上のプログラムとして)、ファームウェアとして、または実質的にこれらの任意の組み合わせとして均等に実施することができると認識し、回路の設計および/またはソフトウェアおよび/またはファームウェアのコードの記載がこの開示を鑑みて当業者の技術範囲に入ると認識するであろう。
これに加え、当業者は、ここに記載される主題の機構が、様々な形態でプログラム製品として配布することができ、ここに記載される主題の例示的な実施形態は、実際に配布を行うために使用される信号担持媒体の特定のタイプに関わらず適用することができることを理解するであろう。信号担持媒体の例は、フロッピー(登録商標)ディスク、ハードディスクドライブ、コンパクトディスク(CD)、デジタル映像ディスク(DVD)、デジタルテープ、コンピュータメモリなどの記録可能型媒体、ならびにデジタルおよび/またはアナログ通信媒体などの伝送型媒体(たとえば、光ファイバケーブル、導波管、有線通信リンク、無線通信リンクなど)を含むが、これらに限定されるものではない。
当業者は、ここに規定される方法で装置および/または処理を記載し、工学的にこのような記載の装置および/または処理をデータ処理システムに統合することは当該技術分野において通常なされるものであると認識するであろう。すなわち、ここに記載の装置および/または処理の少なくとも一部は、妥当な量の実験を介してデータ処理システムに統合することができる。当業者は、一般的なデータ処理システムが、システムユニット筺体、映像表示装置、揮発性および不揮発性メモリなどのメモリ、マイクロプロセッサおよびデジタル信号プロセッサなどのプロセッサ、オペレーティングシステム、ドライバ、グラフィカルユーザインターフェイス、およびアプリケーションプログラムなどのコンピュータ上の実態のうちの1つ以上、タッチパッドまたはタッチスクリーンなどの1つ以上の相互作用装置、および/またはフィードバックループと制御モータとを含む制御システム(たとえば、位置および/速度を感知するためのフィードバック、部品および/または量を移動および/または調整するための制御モータ)を概して含むことを理解するであろう。一般的なデータ処理システムは、データコンピューティング/通信システムおよび/またはネットワークコンピューティング/通信システムに一般的に見られる任意の適切な市販の部品を利用することにより実施され得る。
ここで使用される実質的に複数形および/または単数形の用語に関し、当業者は、文脈および/または適用において適切と認める場合に、複数形から単数形、および/または単数形から複数形に変換することができる。様々な単数形/複数形の置き換えが、明瞭化のためにここに明示的に規定されてもよい。
例示的な実施形態が、本開示において示され、記載される。実施形態は、様々な他の組み合わせおよび環境において使用することができ、ここに示される発明の概念の範囲内において変更または修正することができる。いくつかのこのような変化形態は、一時的でないコンピュータ読み取り可能媒体に記憶されたプログラムを使用し、コンピュータおよび/またはコンピュータシステムが上記の方法の変化形の一部またはすべてを実行することができるようにすることを含んでもよい。このような変形例は、本発明の精神および範囲から逸脱しているとは捉えられず、当該技術において当業者によって自明となり得るこのような変形例の全ては、以下の特許請求項の範囲に含まれることが意図される。

Claims (19)

  1. 通信システムにおける音声レベルを変化させるための制御システムであって、前記制御システムは、
    音声信号および映像信号を受信する少なくとも1つの受信ユニットと、
    記映像信号について実施された顔認識において検知された顔の数に基づいて話している個人の数を決定する決定ユニットと、
    前記顔認識において検知された顔の数に基づいて単一話し手モードまたは複数話し手モードへと切り替え、前記単一話し手モードまたは前記複数話し手モードかに基づいて前記音声信号の利得を調整する利制御部とを備え
    検知された前記顔の数が1であることに応じて、前記利得制御部は、前記単一話し手モードに切り替えて、第1の頻度で前記音声信号の利得を調整し、
    検知された前記顔の数が1より大きいことに応じて、前記利得制御部は、前記複数話し手モードに切り替えて、前記第1の頻度とは異なる第2の頻度で前記音声信号の利得を調整する、制御システム。
  2. 前記決定ユニットは、顔認識において検知された前記顔の数と、前記音声信号に対して実行されたスピーチ分析において検知されたアクティブなスピーチとに基づいて、話している前記個人の数を決定する、請求項1に記載の制御システム。
  3. 記音声信号に対してスピーチ分析を実施することによってアクティブなスピーチを検知するスピーチ検知部をさらに備える、請求項に記載の制御システム。
  4. 記映像信号に対して顔認識を実施することによって顔の数を検知する顔検知ユニットをさらに備える、請求項1に記載の制御システム。
  5. 前記利得制御部は、前記顔認識において検知された顔の数および前記スピーチ分析において検知されたアクティブなスピーチの数に基づいて、前記単一話し手モードまたは前記複数話し手モードへと切り替える、請求項に記載の制御システム。
  6. 前記検知された顔の数が1であることに応じて、前記利得制御部は、前記単一話し手モードへ切り替える前に予め定められた時間期間以上前記映像信号において一つの顔が検知されたと判定する、請求項に記載の制御システム。
  7. 前記検知された顔の数が1より大きいことに応じて、前記利得制御部は、前記複数話し手モードへ切り替える前に予め定められた時間期間以上前記映像信号において1より大きい数の顔が検知されたと判定する、請求項に記載の制御システム。
  8. 前記第の頻度は、前記第の頻度より高い、請求項に記載の制御システム。
  9. 前記決定ユニットは、検知されたアクティブなスピーチの音量を少なくとも1つの閾値と比較し、
    前記利得制御部は、前記検知されたアクティブなスピーチの音量と前記少なくとも1つの閾値との比較の結果に基づいて、前記第1の頻度または前記第2の頻度と判定する、請求項に記載の制御システム。
  10. 前記利得制御部は、前記検知されたアクティブなスピーチの音量が、予め定められた時間期間に対する閾値の少なくとも1つより高いか低いかに基づいて、前記第1の頻度または前記第2の頻度と判定する、請求項1に記載の制御システム。
  11. 前記少なくとも1つの受信ユニットは、前記音声信号を受信するための第1の受信ユニットを含み、
    前記少なくとも1つの受信ユニットは、前記映像信号を受信するための第2の受信ユニットを含む、請求項1に記載の制御システム。
  12. 前記第1の受信ユニットはマイクロフォンであり、
    前記第2の受信ユニットはカメラである、請求項11に記載の制御システム。
  13. 通信システムにおける音声レベルを変化させるための制御方法であって、前記制御方法は、
    音声信号を受信するステップと、
    映像信号を受信するステップと、
    前記映像信号について実施された顔認識処理において検知された顔の数に基づいて、話している個人の数を決定するステップと、
    前記検知された顔の数が1に等しいことに応じて、単一話し手モードに切り替えて、第1の頻度で前記音声信号の利得を調整するステップと、
    前記検知された顔の数が1より大きいことに応じて、複数話し手モードに切り替えて、前記第1の頻度とは異なる第2の頻度で前記音声信号の利得を調整するステップとを備える、制御方法。
  14. 前記話している個人の数の決定は、前記顔認識において検知された顔の数と、音声信号について実行されたスピーチ分析において検知されたアクティブなスピーチとに基づく、請求項13に記載の制御方法。
  15. している前記音声信号におけるアクティブスピーチを検知するために、前記音声信号に対してスピーチ分析を実施するステップをさらに備える、請求項13に記載の制御方法。
  16. 記映像信号における顔の数を検知するために、前記映像信号に対する顔認識処理を実施するステップをさらに備える、請求項13に記載の制御方法。
  17. 通信システムにおいて音声レベルを変化させるための制御方法であって、前記制御方法は、
    映像信号を取得するステップと、
    音声信号を取得するステップと、
    前記音声信号において少なくとも1人のユーザのスピーチを検知するステップと、
    1つの顔または複数の顔のいずれかを検知するために前記映像信号に対して顔認識を実施するステップと、
    検知された1つの顔または複数の顔の前記数に基づいて、話している個人の顔の前記数を判定するステップと、
    話している個人について決定された前記数に基づいて、単一話し手モードと複数話し手モードとの間で切り替えるステップと、
    複数の顔の前記検知に応答して前記単一話し手モードから前記複数話し手モードに切り替えるステップと、
    単一の顔のみの前記検知に応答して前記複数話し手モードから前記単一話し手モードに切り替えるステップと、
    前記複数話し手モードにおいて第1の頻度で前記音声信号の前記利得を調整するステップと、
    前記単一話し手モードにおいて第2の頻度で前記音声信号の前記利得を調整するステップとを備え、前記第1の頻度は、前記第2の頻度よりも大きい、制御方法。
  18. 検知されたスピーチの前記音量を少なくとも1つの閾値と比較することによって、検知されたスピーチの前記音量が所与の音量範囲外にあるかどうかを判定するステップと、
    検知されたスピーチの前記音量が前記所与の音量範囲外にあるという事象の発生に基づいて、前記検知されたスピーチの前記音量が所定長さの時間にわたって前記所与の音量範囲外にあるかどうかを判定するステップと、
    検知されたスピーチの前記音量に基づいて前記第1の頻度と判定するステップと、
    検知されたスピーチの前記音量に基づいて前記第2の頻度と判定するステップとを備える、請求項17に記載の制御方法。
  19. 通信システムにおける音声レベルを変化させるためのコンピュータによって実行されるプログラムであって、前記プログラムは、前記コンピュータに、
    映像信号を取得するステップと、
    音声信号を取得するステップと、
    前記音声信号において少なくとも1人のユーザのスピーチを検知するステップと、
    1つの顔または複数の顔のいずれかを検知するために前記映像信号に対して顔認識を実施するステップと、
    検知された1つの顔または複数の顔の前記数に基づいて、話している個人の顔の前記数を判定するステップと、
    話している個人について決定された前記数に基づいて、単一話し手モードと複数話し手モードとの間で切り替えるステップと、
    複数の顔の前記検知に応答して前記単一話し手モードから前記複数話し手モードに切り替えるステップと、
    単一の顔のみの前記検知に応答して前記複数話し手モードから前記単一話し手モードに切り替えるステップと、
    前記複数話し手モードにおいて第1の頻度で前記音声信号の前記利得を調整するステップと、
    前記単一話し手モードにおいて第2の頻度で前記音声信号の前記利得を調整するステップとを実行させ、
    前記第1の頻度は、前記第2の頻度よりも大きい、プログラム。
JP2013021272A 2012-02-07 2013-02-06 通信システムにおける音声レベルを変化させるための制御システム、制御方法、および、プログラム Expired - Fee Related JP5559898B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US13/368,173 2012-02-07
US13/368,173 US20130201272A1 (en) 2012-02-07 2012-02-07 Two mode agc for single and multiple speakers

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2014116605A Division JP5837646B2 (ja) 2012-02-07 2014-06-05 通信システムにおける音声レベルを変化させるための制御システムおよび制御方法

Publications (2)

Publication Number Publication Date
JP2013162525A JP2013162525A (ja) 2013-08-19
JP5559898B2 true JP5559898B2 (ja) 2014-07-23

Family

ID=47681767

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2013021272A Expired - Fee Related JP5559898B2 (ja) 2012-02-07 2013-02-06 通信システムにおける音声レベルを変化させるための制御システム、制御方法、および、プログラム
JP2014116605A Active JP5837646B2 (ja) 2012-02-07 2014-06-05 通信システムにおける音声レベルを変化させるための制御システムおよび制御方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2014116605A Active JP5837646B2 (ja) 2012-02-07 2014-06-05 通信システムにおける音声レベルを変化させるための制御システムおよび制御方法

Country Status (7)

Country Link
US (1) US20130201272A1 (ja)
EP (1) EP2627083A3 (ja)
JP (2) JP5559898B2 (ja)
KR (1) KR101501183B1 (ja)
CN (1) CN103247297B (ja)
AU (1) AU2013200366A1 (ja)
CA (1) CA2803615A1 (ja)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11431312B2 (en) 2004-08-10 2022-08-30 Bongiovi Acoustics Llc System and method for digital signal processing
US10848118B2 (en) 2004-08-10 2020-11-24 Bongiovi Acoustics Llc System and method for digital signal processing
US10158337B2 (en) 2004-08-10 2018-12-18 Bongiovi Acoustics Llc System and method for digital signal processing
US10701505B2 (en) 2006-02-07 2020-06-30 Bongiovi Acoustics Llc. System, method, and apparatus for generating and digitally processing a head related audio transfer function
US10848867B2 (en) 2006-02-07 2020-11-24 Bongiovi Acoustics Llc System and method for digital signal processing
US9883318B2 (en) 2013-06-12 2018-01-30 Bongiovi Acoustics Llc System and method for stereo field enhancement in two-channel audio systems
US9906858B2 (en) 2013-10-22 2018-02-27 Bongiovi Acoustics Llc System and method for digital signal processing
US20150146099A1 (en) * 2013-11-25 2015-05-28 Anthony Bongiovi In-line signal processor
US10304458B1 (en) 2014-03-06 2019-05-28 Board of Trustees of the University of Alabama and the University of Alabama in Huntsville Systems and methods for transcribing videos using speaker identification
US10820883B2 (en) 2014-04-16 2020-11-03 Bongiovi Acoustics Llc Noise reduction assembly for auscultation of a body
US9412393B2 (en) * 2014-04-24 2016-08-09 International Business Machines Corporation Speech effectiveness rating
US9380150B1 (en) * 2015-09-16 2016-06-28 Captioncall, Llc Methods and devices for automatic volume control of a far-end voice signal provided to a captioning communication service
FR3056813B1 (fr) * 2016-09-29 2019-11-08 Dolphin Integration Circuit audio et procede de detection d'activite
JP2019062514A (ja) * 2016-12-26 2019-04-18 キヤノン株式会社 音声処理装置及びその制御方法
US20210090545A1 (en) * 2017-04-12 2021-03-25 Hewlett-Packard Development Company, L.P. Audio setting modification based on presence detection
EP3457716A1 (en) * 2017-09-15 2019-03-20 Oticon A/s Providing and transmitting audio signal
CN108401129A (zh) * 2018-03-22 2018-08-14 广东小天才科技有限公司 基于穿戴式设备的视频通话方法、装置、终端及存储介质
WO2019200119A1 (en) 2018-04-11 2019-10-17 Bongiovi Acoustics Llc Audio enhanced hearing protection system
WO2020028833A1 (en) 2018-08-02 2020-02-06 Bongiovi Acoustics Llc System, method, and apparatus for generating and digitally processing a head related audio transfer function
CN109521990B (zh) * 2018-11-20 2022-06-21 深圳市吉美文化科技有限公司 音频播放控制方法、装置、电子设备及可读存储介质
US11321047B2 (en) 2020-06-11 2022-05-03 Sorenson Ip Holdings, Llc Volume adjustments
JP7453720B1 (ja) 2023-12-25 2024-03-21 富士精工株式会社 ワックスサーモエレメント及びワックスサーモエレメントの製造方法

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2618082B2 (ja) * 1990-04-04 1997-06-11 三菱電機株式会社 音声会議装置
US5138277A (en) * 1990-09-28 1992-08-11 Hazeltine Corp. Signal processing system having a very long time constant
JPH07226930A (ja) * 1994-02-15 1995-08-22 Toshiba Corp 通信会議システム
US5508734A (en) * 1994-07-27 1996-04-16 International Business Machines Corporation Method and apparatus for hemispheric imaging which emphasizes peripheral content
JPH1032804A (ja) * 1996-07-12 1998-02-03 Ricoh Co Ltd テレビ会議装置
US5987106A (en) * 1997-06-24 1999-11-16 Ati Technologies, Inc. Automatic volume control system and method for use in a multimedia computer system
JP2000174909A (ja) * 1998-12-08 2000-06-23 Nec Corp 会議端末制御装置
US6795106B1 (en) * 1999-05-18 2004-09-21 Intel Corporation Method and apparatus for controlling a video camera in a video conferencing system
US20020072816A1 (en) * 2000-12-07 2002-06-13 Yoav Shdema Audio system
JP2003230049A (ja) * 2002-02-06 2003-08-15 Sharp Corp カメラ制御方法及びカメラ制御装置並びにテレビ会議システム
JP4048499B2 (ja) * 2004-02-27 2008-02-20 ソニー株式会社 Agc回路及びagc回路の利得制御方法
JP4770178B2 (ja) * 2005-01-17 2011-09-14 ソニー株式会社 カメラ制御装置、カメラシステム、電子会議システムおよびカメラ制御方法
JP2007147762A (ja) * 2005-11-24 2007-06-14 Fuji Xerox Co Ltd 発話者予測装置および発話者予測方法
US7664246B2 (en) * 2006-01-13 2010-02-16 Microsoft Corporation Sorting speakers in a network-enabled conference
JP5436743B2 (ja) * 2006-03-30 2014-03-05 京セラ株式会社 通信端末装置および通信制御装置
US8422692B1 (en) * 2007-03-09 2013-04-16 Core Brands, Llc Audio distribution system
US20090210491A1 (en) * 2008-02-20 2009-08-20 Microsoft Corporation Techniques to automatically identify participants for a multimedia conference event
US8447023B2 (en) * 2010-02-01 2013-05-21 Polycom, Inc. Automatic audio priority designation during conference
US8395653B2 (en) * 2010-05-18 2013-03-12 Polycom, Inc. Videoconferencing endpoint having multiple voice-tracking cameras
US20120005591A1 (en) * 2010-06-30 2012-01-05 Nokia Corporation Method and Apparatus for Presenting User Information Based on User Location Information
US20120013750A1 (en) * 2010-07-16 2012-01-19 Gn Netcom A/S Sound Optimization Via Camera
US9232071B2 (en) * 2011-12-16 2016-01-05 Qualcomm Incorporated Optimizing audio processing functions by dynamically compensating for variable distances between speaker(s) and microphone(s) in a mobile device

Also Published As

Publication number Publication date
US20130201272A1 (en) 2013-08-08
CN103247297A (zh) 2013-08-14
AU2013200366A1 (en) 2013-08-22
JP2013162525A (ja) 2013-08-19
CN103247297B (zh) 2016-03-30
EP2627083A3 (en) 2013-12-04
JP5837646B2 (ja) 2015-12-24
JP2014158310A (ja) 2014-08-28
EP2627083A2 (en) 2013-08-14
CA2803615A1 (en) 2013-08-07
KR101501183B1 (ko) 2015-03-10
KR20130091278A (ko) 2013-08-16

Similar Documents

Publication Publication Date Title
JP5559898B2 (ja) 通信システムにおける音声レベルを変化させるための制御システム、制御方法、および、プログラム
US9626150B2 (en) Audio input from user
EP3535754B1 (en) Improved reception of audio commands
US9462230B1 (en) Catch-up video buffering
US9071692B2 (en) Systems and methods for managing teleconference participant mute state
US20150088515A1 (en) Primary speaker identification from audio and video data
US20140241702A1 (en) Dynamic audio perspective change during video playback
WO2016176951A1 (zh) 声音信号优化方法及装置
KR20160102300A (ko) 상황 종속적 트랜션트 억제
KR101508092B1 (ko) 화상 회의를 지원하는 방법 및 시스템
US11405584B1 (en) Smart audio muting in a videoconferencing system
US20230095526A1 (en) Target speaker mode
JP3838159B2 (ja) 音声認識対話装置およびプログラム
US9282279B2 (en) Quality enhancement in multimedia capturing
JP6942289B2 (ja) 情報処理装置、サウンドマスキングシステム、制御方法、及び制御プログラム
US11895479B2 (en) Steering of binauralization of audio
TWI687917B (zh) 語音系統及聲音偵測方法
CN106708463B (zh) 调节拍摄的视频文件的音量的方法及设备
US20160372111A1 (en) Directing voice input
US20240029754A1 (en) Audio source separation for audio devices
CN117044233A (zh) 情境感知声景控制
WO2023049407A1 (en) Target speaker mode
KR20150073637A (ko) 대화 지원 서비스 제공 시스템 및 방법
TW202120953A (zh) 基於雷達之雜音過濾技術
WO2022232458A1 (en) Context aware soundscape control

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140114

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140414

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140507

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140606

R150 Certificate of patent or registration of utility model

Ref document number: 5559898

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: R3D02

LAPS Cancellation because of no payment of annual fees