JP2021524697A

JP2021524697A - 補助信号を用いたオーディオデバイスの送信制御

Info

Publication number: JP2021524697A
Application number: JP2021500205A
Authority: JP
Inventors: デイビッドグナワン; グレンエヌ．ディキンズ
Original assignee: ドルビーラボラトリーズライセンシングコーポレイション
Priority date: 2018-07-12
Filing date: 2019-07-10
Publication date: 2021-09-13
Anticipated expiration: 2039-07-10
Also published as: US11500610B2; US20210232360A1; KR102466293B1; JP6942282B2; KR20210029816A; CN112384975A; EP3821429A1; WO2020014371A1; EP3821429B1

Abstract

オーディオデバイスのための送信制御の装置および方法。オーディオデバイスはマイクロホン以外のソースを使用して迷惑音（ｎｕｉｓａｎｃｅ）を決定し、これを使用してゲインを計算し、送信決定を行う。ゲインを使用することは、それ自体で送信決定を使用するよりも、よりきめ細かな迷惑音軽減をもたらす。

Description

関連出願の相互参照
本出願は２０１８年７月１２日に出願された米国仮出願第６２／６９７，０１０号、および２０１８年７月１２日に出願された欧州特許出願第１８１８３０３４．０号からの優先権の利益を主張するものであり、それらの各々は参照によりその全体が本明細書に組み込まれる。

本発明はオーディオ処理に関し、特に、電気通信システムのための送信制御に関する。

本明細書に別段の指示がない限り、この節に記載されるアプローチは、本出願の特許請求の範囲の先行技術ではなく、この節に含めることによって先行技術であることは自認されない。

音声アクティビティ検出（ｖｏｉｃｅａｃｔｉｖｉｔｙｄｅｔｅｃｔｉｏｎ：ＶＡＤ）は、音声とノイズの混合を含む信号中の音声の存在のバイナリまたは確率的インジケータを決定するための技法である。しばしば、音声アクティビティ検出の性能は、分類または検出の精度に基づく。不連続な送信へのアプローチから利益を得るシステムにおいて、音声認識の性能を改善するため、または信号を送信する決定を制御するために、音声アクティビティ検出アルゴリズムを使用することによって、研究作業が動機付けられる。音声アクティビティ検出は、ノイズ推定、エコー適応、およびノイズ抑圧システムにおけるゲイン係数のフィルタリングのような特定のアルゴリズムチューニングのような信号処理機能を制御するためにも使用される。

音声アクティビティ検出の出力は、後続の制御またはメタデータのために直接使用することができ、および／またはリアルタイムオーディオ信号に作用するオーディオ処理アルゴリズムの性質を制御するために使用することができる。

音声アクティビティ検出のための関心のある１つの特定のアプリケーションは、送信制御の分野である。音声が非アクティブの間に、エンドポイントが送信を中止し、または低減されたデータレート信号を送信することができる通信システムの場合、音声アクティビティ検出器の設計および性能は、システムの知覚される品質にとって重要である。このような検出器は、最終的にバイナリ決定を行わなければならず、短い時間フレーム上で観測可能な多くの特徴において、低いレイテンシを達成するために、実質的に重複する音声およびノイズの特性が存在するという基本的な問題に直面する。従って、そのような検出器は、誤った警報の発生率と、誤った決定に起因して所望の音声が失われる可能性との間のトレードオフに常に直面しなければならない。低いレイテンシ、感度、および特異性という、相反する要件は、最適な解決策を完全に有さないか、または、システムの効率または最適性が用途および期待される入力信号に依存する動作環境を少なくとも作り出す。

特許文献１は、送信制御決定を行うために、短期の音声アクティビティの検出をオーディオ特徴の長期の集約と組み合わせるシステムを論じている。

特許文献２は、発話セグメント中のキーストロークノイズを抑制するために、キーストロークの聴覚的検出と共にキーストロークイベントの検出を使用することを論じている。

米国特許出願公開第２０１５／００３２４４６号明細書米国特許出願公開第２０１０／０１４５６８９号明細書

多くの既存のシステムの１つの問題は、マイクロホンを使用して収集された音響情報を主に考慮することである。マイクロホン以外のコンポーネントを使用して迷惑音（ｎｕｉｓａｎｃｅ）を検出するシステムが必要とされている。

多くの既存のシステムに伴う別の問題は、聴覚信号内の各それぞれの迷惑イベントの影響を低減するために、各迷惑イベントを個別に考慮することである。よりきめ細かい迷惑さの決定を行うために、迷惑イベントを集約するシステムが必要とされている。

上記の問題とその解決策の欠如を考慮して、本明細書で説明される実施形態は経時的に迷惑イベントを集約し、送信決定自体に加えて送信のゲインを制御することに向けられる。

一実施形態によれば、方法は、オーディオデバイスのための送信制御を実行する。この方法は、マイクロホンを使用してオーディオ入力を受信することを含む。この方法は、マイクロホン以外のソースを使用して補助入力を受信するステップをさらに含む。この方法は、オーディオ入力に対して音声アクティビティ検出を実行して、音声アクティビティ信頼レベルを生成することをさらに含む。この方法は、経時的に補助入力を集約して、迷惑レベルを生成するステップをさらに含む。この方法は、音声アクティビティ信頼レベルおよび迷惑レベルを結合して、送信決定レベルおよびゲインレベルを生成することをさらに含む。

送信決定レベルが送信を示す場合、本方法は、オーディオ入力にゲインレベルを適用して修正されたオーディオ入力をもたらすことと、修正されたオーディオ入力を送信することと、をさらに含む。

補助入力は複数の補助入力であってもよく、マイクロホン以外のソースはマイクロホン以外の複数のソースであってもよい。

マイクロホン以外のソースは、振動センサ、システムイベントログ、加速度計、コンポーネントアクティビティログ、および二次入力ログのうちの１つとすることができる。システムイベントログには、キーボードの押下イベントとマウスのクリックイベントが記録されてもよい。オーディオデバイスはファンを含むことができ、コンポーネントアクティビティログは、ファンのファン速度を記録してもよい。二次入力ログには、オーディオデバイスに接続されている接続デバイスに関する情報が記録されてもよい。

音声アクティビティ信頼レベルと迷惑レベルとを組み合わせることは、音声アクティビティ信頼レベル、迷惑レベル、および遠端アクティビティレベルを組み合わせて送信決定レベルおよびゲインレベルを生成することを含んでもよい。

ゲインレベルは、音声アクティビティ信頼レベルおよび迷惑レベルの線形結合であってもよい。

迷惑レベルは、複数の迷惑レベルであってもよい。ゲインレベルは、音声アクティビティ信頼レベルおよび複数の迷惑レベルの線形結合であってもよい。

別の実施形態によれば、非一時的コンピュータ可読媒体は、プロセッサによって実行されるときに、上述の１つ以上の方法を含む処理を実行するための装置を制御するコンピュータプログラムを記憶する。

別の実施形態によれば、装置は、オーディオデバイスのための送信制御を実行する。この装置は、マイクロホンと、マイクロホン以外のソースと、プロセッサと、メモリとを含む。プロセッサは、オーディオデバイスを制御して、マイクロホンを使用してオーディオ入力を受信するように構成される。プロセッサは、オーディオデバイスを制御して、マイクロホン以外のソースを使用して補助入力を受信するようさらに構成される。プロセッサは、オーディオデバイスを制御して、オーディオ入力に対して音声アクティビティ検出を実行し、音声アクティビティ信頼レベルを生成するようにさらに構成される。プロセッサは、オーディオデバイスを制御して、経時的に補助入力を集約して、迷惑レベルを生成するようにさらに構成される。プロセッサは、オーディオデバイスを制御して、音声アクティビティ信頼レベルおよび迷惑レベルを組み合わせ、送信決定レベルおよびゲインレベルを生成するようにさらに構成される。

装置は、送信機をさらに含むことができる。送信決定レベルが送信を示すとき、プロセッサは、オーディオデバイスを制御して、オーディオ入力にゲインレベルを適用し、修正されたオーディオ入力をもたらし、および送信機を制御して、修正されたオーディオ入力を送信するようにさらに構成される。

装置は、キーボードをさらに含んでもよく、マイクロホン以外のソースはキーボード押下イベンを記録するシステムイベントログであってもよい。

装置はファンをさらに含むことができ、マイクロホン以外のソースはファンのファン速度を記録するコンポーネントアクティビティログとすることができる。

この装置は、この方法に関して上述したものと同様の詳細を含むことができる。

以下の詳細な説明および添付の図面は、様々な実施形態の性質および利点のさらなる理解を提供する。

送信制御システム１００のブロック図である。オーディオデバイスのための送信制御の方法２００のフローチャートである。オーディオデバイス３００のブロック図である。音声アクティビティ検出器４００のブロック図である。

本明細書では、バイノーラルオーディオ処理のための技法について説明する。以下の説明では、説明の目的で、本発明の完全な理解を提供するために、多数の実施例および特定の詳細が記載される。しかし、特許請求の範囲によって定義される本発明はこれらの例における特徴の一部またはすべてを単独で、または以下で説明される他の特徴と組み合わせて含むことができ、本明細書で説明される特徴および概念の修正および均等物をさらに含むことができることは、当業者には明らかであろう。

以下の説明では、様々な方法、プロセス、および手順が詳述される。特定のステップを特定の順序で説明することができるが、そのような順序は主に便宜上および明確にするためのものである。特定のステップは、２回以上繰り返されてもよく、他のステップの前または後に生じてもよく（それらのステップが別の順序で記載されている場合であっても）、他のステップと並行して生じてもよい。第２のステップは第２のステップが開始される前に第１のステップが完了されなければならない場合にのみ、第１のステップに続くことが必要とされる。このような状況は、文脈から明らかでない場合に特に指摘される。

本明細書では、「および（ａｎｄ）」、「または（ｏｒ）」、「および／または（ａｎｄ／ｏｒ）」という用語が使用されている。このような用語は、包括的な意味を有するものとして読まれるべきである。例えば、「ＡおよびＢ」は少なくとも次のものを意味し得る：「ＡおよびＢの両方」、「少なくともＡおよびＢの両方」。別の例として、「ＡまたはＢ」は少なくとも次のものを意味し得る：「少なくともＡ」、「少なくともＢ」、「ＡおよびＢの両方」、「少なくともＡおよびＢの両方」。別の例として、「Ａおよび／またはＢ」は少なくとも次のものを意味し得る：「ＡおよびＢ」、「ＡまたはＢ」。排他的論理和が意図される場合、そのようなことが具体的に言及される（例えば、「ＡまたはＢのいずれか」、「ＡおよびＢのうちの多くとも１つ」）。

本書では、「迷惑（ｎｕｉｓａｎｃｅ）」という用語を使用する。一般に、迷惑という用語は、システムの所望の入力とは異なる入力を指すために使用される。システムの所望の入力は実施形態に応じて変化し、これはまた、迷惑として分類されるものに影響を及ぼす。例えば、通信エンドポイントの場合、所望の入力は一般に音声（スピーチ）であり、迷惑は、音声（スピーチ）として誤って分類されるか、または音声（スピーチ）にマイナスの影響を及ぼす可能性がある他の音である。迷惑は、それが所望の用途にどのように悪影響を及ぼすかによって判断される。テレビ会議環境では、誰かが話していないときに迷惑音が織り込まれることが多く、少なくとも話そうとしたり、会議の重要な部分であったりする場合は迷惑音でさえも受け入れられ、それほど迷惑ではない。テレビ会議エンドポイントにおける主な迷惑は、誰かが話していないときに音が漏れることである。多くのシステムは迷惑をかけている人にフィードバックを与えない。実際、彼らは迷惑音を聞くことができない唯一の人であり、皮肉なことに、彼らは迷惑音であることに気づいていない。多くの場合、望ましくない音は静かな（話していない）ユーザから来るものであり、従って、これが迷惑音と考えられる。

図１は、送信制御システム１００のブロック図である。送信制御システム１００は、音声アクティビティ検出器１０２と、アグリゲータ１０４と、コンバイナ１０６とを含む。送信制御システム１００は、ラップトップコンピュータ、通信エンドポイント（例えば、スピーカホン）などのオーディオデバイスのコンポーネントとして実装されてもよい。オーディオデバイスは、（簡潔にするために）図示されていない他のコンポーネントを含むことができる。

音声アクティビティ検出器１０２はオーディオ入力１１０を受信し、オーディオ入力１１０に対して音声アクティビティ検出を実行し、オーディオ入力１１０の音声アクティビティ信頼レベル１１２を生成する。オーディオ入力１１０は、マイクロホン（図示せず）などのオーディオデバイスの別のコンポーネントによってキャプチャすることができる。音声アクティビティ検出器１０２は、音声アクティビティ信頼レベル１１２をコンバイナ１０６に供給する。音声アクティビティ信頼レベル１１２は０と１との間の範囲であってもよく、０は検出された音声アクティビティの低い（またはない）尤度を示し、１は検出された音声アクティビティの高い尤度を示す。

アグリゲータ１０４は補助入力１１４を受信し、経時的に補助入力１１４を集約し、集約された補助入力１１４に基づいて迷惑レベル１１６を生成する。アグリゲータ１０４は、迷惑レベル１１６をコンバイナ１０６に供給する。

一般に、補助入力１１４は、マイクロホン以外のオーディオデバイスのコンポーネントからの入力に対応する。これらの他のコンポーネントは、センサ、ならびにオーディオデバイスのコンポーネント（マイクロホン以外）からのイベントログを含む。従って、補助入力の数は、オーディオデバイスの詳細に応じて変化する。例えば、キーボードおよびファンを含むラップトップコンピュータの実施形態では、補助入力は、キーボードからのイベントログ（キークリックを示す）およびファンからのデバイスアクティビティログ（例えば、ファン速度データを含む）を含むことができる。補助入力のさらなる詳細は、以降のセクションで提供される。

補助入力１１４は複数の補助入力とすることができ、アグリゲータ１０４は複数の補助入力のそれぞれを集約することができる。アグリゲータ１０４は複数のアグリゲータであってもよく、各アグリゲータは複数の補助入力のそれぞれ１つを集約する。迷惑レベル１１６は複数の迷惑レベルであってもよく、各迷惑レベルは複数の補助入力のそれぞれに対応する。（図を乱雑にすることを回避するために、補助入力１１４、アグリゲータ１０４、および迷惑レベル１１６を１回だけ示すが、複数の要素と見なすこともできる。）アグリゲータ１０４は、複数の迷惑レベルを個々の迷惑レベルとしてコンバイナ１０６に供給することができ、またはそれらを組み合わせて組み合わせ迷惑レベルにすることができる。

コンバイナ１０６は、音声アクティビティ信頼レベル１１２および迷惑レベル１１６を結合して、送信決定レベル１２０およびゲインレベル１２２を生成する。（送信決定レベル１２０およびゲインレベル１２２は、オーディオデバイスの他のコンポーネントに供給され、そのさらなる動作を制御する。）送信決定レベル１２０はバイナリ値であってもよく、ここで、「０」はオーディオ入力１１０が送信されるべきではないことを示し、「１」はオーディオ入力１１０が送信されるべきことを示す。一般に、音声アクティビティ信頼レベル１１２が高く、迷惑レベル１１６が低いとき、送信決定レベル１２０は、オーディオ入力１１０が送信されるべきであることを示す。音声アクティビティ信頼レベル１１２が低く、迷惑レベル１１６が高い場合、送信決定レベル１２０は、オーディオ入力１１０が送信されるべきでないことを示す。

ゲインレベル１２２は、オーディオ入力１１０に適用されるべきゲインに対応する。一般に、ゲインは、正（増加、またはブースト）または負（減少、または減衰）であってもよい。ここで、ゲインレベル１２２は一般に減衰である。ゲインレベル１２２は、単に送信決定レベル１２０を使用するよりも、オーディオ入力１１０の送信に対するよりきめ細かい制御を可能にする。例えば、音声アクティビティ信頼レベル１１２が高でも低でもない場合、高い迷惑レベル１１６はゲインレベル１２２が高であることをもたらすことができ、低い迷惑レベル１１６はゲインレベル１２２が低であることをもたらすことができる。オーディオ入力１１０および集約された補助入力１１４の両方の音声アクティビティに基づいて動作し、送信決定レベル１２０およびゲインレベル１２２の両方を生成することによって、コンバイナ１０６は、多くの既存のシステムよりもよりきめ細かく迷惑決定を実行する。

このきめ細かい決定は、多くの要因を含む。１つの要因は、送信制御システム１００が個々の迷惑イベントの検出に使用される期間よりも長い期間を使用することである。これは、他のアクティビティの性質、そのコンテキスト、および進行中の会議または他の会議参加者にわたる対話という点での意味も考慮に入れることによって、個々の迷惑イベントの分類を改善する。このアプローチを使用することによって、送信制御システム１００は、個々の迷惑音イベントに突然作用して各イベントを除去するのではなく、参加者が協力して通信している程度に基づいて、または、進行中の音声（スピーチ）がない場合に生じるノイズの場合に典型的である明らかなオーディオ迷惑音である程度に基づいて、参加者を除去するか、または会議に戻すかのいずれかのために、より確実に移行する。

（補助入力１１４がマイクロホンによっても検出される可能性のあるイベント（例えば、キーボード押下イベントの騒々しいもの）に対応する場合であっても、集約手段は、個々のキー押下イベントが、多くの現存するシステムの場合のように、オーディオ入力１１０から直接的に除去されないことに留意されたい。）

コンバイナ１０６は、遠端アクティビティレベル１３０に基づいて、送信決定レベル１２０およびゲインレベル１２２を生成することもできる。遠端アクティビティレベル１３０はバイナリ値であってもよく、ここで、「１」は遠端アクティビティを示し、「０」は遠端アクティビティがないことを示し、または遠端アクティビティレベル１３０は、０と１との間の範囲であってもよい。遠端アクティビティレベル１３０は、遠端から導出されたアクティビティ、信号、または特徴に基づいてもよい。例えば、入力信号または遠端アクティビティ上の有意な信号の存在を考える。このような場合、ローカルエンドポイントにおけるアクティビティは、特に、自然な会話または音声対話で予想されるパターンまたは関連関係がない場合、迷惑を表す可能性がより高い。例えば、音声は、遠端からのアクティビティの終わりの後またはその近くで起こるべきである。遠端アクティビティレベル１３０が有意かつ継続的な音声アクティビティを示す場合に生じる短いバーストは、迷惑状態を示してもよい。

コンバイナ１０６が音声アクティビティ信頼レベル１１２、迷惑レベル１１６、および遠端アクティビティレベル１３０をどのように組み合わせるかについての具体的な詳細は、送信制御システム１００を含むオーディオデバイスの特定の実施形態に応じて変化してもよいが、これらの具体的な詳細は後続のセクションで詳述される。簡単に述べると、コンバイナ１０６は、送信するための全体的な決定（送信決定レベル１２０）を決定し、さらに、出力オーディオに適用されるべき各ブロックにおけるゲイン（ゲインレベル１２２）を出力する。ゲインは、２つの機能のうちの１つ以上を達成するために存在する。第１の機能は、識別された音声セグメントの前後で信号が無音に戻る自然な音声フレーズを達成することである。これは、フェージングインの程度（通常、２０〜１００ｍｓのオーダー）およびフェージングアウトの程度（通常、１００〜２０００ｍｓのオーダー）を含む。一実施形態では、１０ｍｓ（または単一ブロック）のフェードインおよび３００ｍｓのフェードアウトが有効であり得る。第２の機能は、迷惑状態で発生する送信フレームの影響を低減することであり、この場合、最近累積された統計に起因して、音声フレームオンセット検出は、無声の非定常ノイズイベントまたは他の妨害に関連する可能性が高い。

図２は、オーディオデバイスのための送信制御の方法２００のフローチャートである。方法２００は、送信制御システム１００（図１参照）によって、または送信制御システム１００を含むオーディオデバイスによって実行されてもよい。方法２００は、トランスミッション制御システム１００の動作を制御するために、方法ステップのうちの１つ以上に対応する１つ以上のコンピュータプログラムを実行するプロセッサによって実施することができる。

２０２において、マイクロホンを使用してオーディオ入力が受信される。一例として、スピーカホンはマイクロホンを含み、マイクロホンを使用して、近くの音に対応するオーディオ入力を受信する。

２０４において、マイクロホン以外のソースを使用して補助入力が受信される。上述したように、補助入力は、マイクロホン以外の複数のソースからの複数の補助入力であってもよい。一例として、ラップトップコンピュータはキーボードを含むことができ、ソースはキー押下を記録するイベントログであり、補助入力１１４は、キー押下である。別の例として、ラップトップコンピュータはファンも含んでもよく、第２のソースはファンの動作パラメータを記録するデバイスアクティビティログであり、第２の補助入力１１４は、ファン速度である。

２０６において、音声アクティビティ検出は、オーディオ入力に対して実行されて、音声アクティビティ信頼レベルを生成する。例えば、音声アクティビティ検出器１０２（図１参照）は、オーディオ入力１１０に対して音声アクティビティ検出を実行して、音声アクティビティ信頼レベル１１２を生成してもよい。

２０８において、補助入力は、経時的に集約されて、迷惑レベルを生成する。例えば、アグリゲータ１０４（図１参照）は、経時的に補助入力１１４を集約して、迷惑レベル１１６を生成してもよい。上述したように、補助入力は複数の補助入力であってもよく、迷惑レベル１１６は複数の迷惑レベルであってもよい。

２１０において、音声アクティビティ信頼レベルおよび迷惑レベルが組み合わされて、送信決定レベルおよびゲインレベルが生成される。例えば、コンバイナ１０６（図１参照）は、音声アクティビティ信頼レベル１１２および迷惑レベル１１６を結合して、送信決定レベル１２０およびゲインレベル１２２を生成してもよい。

さらなるオプションとして、遠端アクティビティレベルを音声アクティビティ信頼レベルおよび迷惑レベルと組み合わせて、送信決定レベルおよびゲインレベルを生成してもよい。例えば、コンバイナ１０６（図１参照）は、遠端アクティビティレベル１３０を受信し、その結合プロセスに遠端アクティビティレベル１３０を含めて、送信決定レベル１２０およびゲインレベル１２２を得ることができる。

送信決定レベルが送信を示さない（例えば、０）場合、方法は２０２に戻る。送信決定レベルが送信を示す（例えば、それが１）場合、方法は２１２および２１４に続く。一例として、オーディオデバイスは、送信制御システム１００から送信決定レベル１２０（図１参照）を受信することができる。

２１２において、ゲインレベルがオーディオ入力に適用され、修正されたオーディオ入力が得られる。一例として、オーディオデバイス（図１の送信制御システム１００を含む）は、オーディオ入力１１０にゲインレベル１２２を適用して、修正されたオーディオ入力をもたらすことができる。

２１４において、修正されたオーディオ入力が送信される。一例として、オーディオデバイス（図１の送信制御システム１００を含む）は、修正されたオーディオ入力を送信してもよい。

補助入力（または複数の補助入力）を集約して、経時的な迷惑を測定し、オーディオ入力に（経時的な迷惑に基づいて）ゲインを生成して適用することによって、実施形態は、よりきめ細かい送信制御プロセスを実装する。

図３は、オーディオデバイス３００のブロック図である。オーディオデバイス３００は、送信制御システム１００（図１参照）を実装することができ、または方法２００（図２参照）のステップのうちの１つ以上を実行することができる。オーディオデバイス３００の例は、通信エンドポイント（例えば、スピーカホン）、ラップトップコンピュータ、携帯電話、スピーカおよびマイクロホンを有するヘッドセット、スピーカおよびマイクロホンを有するイヤホンなどを含む。オーディオデバイス３００は、バス３１４によって接続された、プロセッサ３０２、メモリ３０４、入力／出力インタフェース３０６、ラウドスピーカ３０８、マイクロホン３１０、および補助コンポーネント３１２を含む。オーディオデバイス３００は、（簡潔にするために）図示されていない他のコンポーネントを含んでもよい。

プロセッサ３０２は、一般に、オーディオデバイス３００の動作を制御する。プロセッサ３０２は、送信制御システム１００（図１参照）の機能を実施することができる。例えば、プロセッサは、音声アクティビティ検出器１０２（図１参照）の音声アクティビティ検出機能、アグリゲータ１０４の集約機能、およびコンバイナ１０６の結合機能を実行することができる。プロセッサ３０２は、例えば１つ以上のコンピュータプログラムを実行することによって、オーディオデバイス３００を制御して、方法２００（図２参照）の１つ以上のステップを実行することができる。

メモリ３０４は、一般に、オーディオデバイス３００によって生成され、使用されるデータを記憶する。このデータは、プロセッサ３０２によって実行されるコンピュータプログラム、オーディオデバイス３００の入力および出力信号に対応するデータ（例えば、オーディオ入力１１０）、オーディオデバイス３００の動作中に生成されるデータ（例えば、補助入力１１４）、オーディオデバイス３００によって生成される中間データ（例えば、音声アクティビティ信頼レベル１１２、迷惑レベル１１６、送信決定レベル１２０、およびゲインレベル１２２）などを含み得る。

入力／出力インタフェース３０６は、一般に、オーディオデバイス３００を他の装置にインタフェースで接続し、オーディオデバイス３００と他の装置との間で信号を交換する。例えば、入力／出力インタフェース３０６は、遠端アクティビティレベル１３０を受信し、修正されたオーディオ入力３２０を送信する。例えば、オーディオデバイス３００が通信エンドポイント（例えば、スピーカホン）である場合、遠端アクティビティレベル１３０は、１つ以上の遠隔通信エンドポイントから受信され、修正されたオーディオ入力３２０は１つ以上の遠隔通信エンドポイントによる出力のために、ゲイン１２２によって修正されたオーディオ入力１１０に対応する。また、入力／出力インタフェース３０６は他のデバイスと他の信号を交換することができ、例えば、他のデバイスは、オーディオデバイス３００が取り込んだオーディオ信号を、ラウドスピーカ３０８から出力するために送信することができる。入力／出力インタフェース３０６は、有線または無線の送信機を含んでもよい。

ラウドスピーカ３０８は、一般に、オーディオデバイス３００のオーディオ出力３２２を出力する。例えば、オーディオデバイス３００が通信エンドポイントである場合、オーディオ出力３２２は、入力／出力インタフェース３０６を介して遠隔通信エンドポイントから受信されたオーディオ信号を含む。別の例として、オーディオデバイス３００がヘッドセットであるとき、オーディオ出力３２２は、修正されたオーディオ入力３２０に対応するサイドトーンを含む（サイドトーンが、接続がアクティブであることをユーザが知覚するのを助けるため）。

マイクロホン３１０は、一般に、オーディオ入力１１０を含むオーディオデバイス３００の近傍のオーディオを捕捉する。

補助コンポーネント３１２は、一般に、補助入力１１４を生成する。上述のように、補助コンポーネント３１２は、センサまたはオーディオデバイス３００の別のコンポーネントであってもよい。補助入力１１４は補助入力１１４の動作の結果であってもよく（例えば、コンポーネントについて）、または補助コンポーネントの出力自体であってもよい（例えば、センサについて）。例えば、補助コンポーネント３１２がキーボードである場合、補助入力１１４は、キー押下データ（メモリ３０４によってログに記憶されてもよい）に対応する。別の例として、補助コンポーネント３１２が振動センサである場合、補助入力１１４は、オーディオデバイス３００の振動のセンサデータ（メモリ３０４によってログに記憶され得る）に対応する。

オーディオデバイス３００の各コンポーネントのうちの１つのみが図３に示されているが、そのような説明は主に説明を容易にするためである。オーディオデバイス３００のコンポーネントの数は、実施形態のフォームファクタに従って所望に応じて調整することができる。例えば、補助コンポーネント３１２は、キーボード、ファン、および加速度計などの複数の補助コンポーネントとすることができる。

オーディオデバイスのコンポーネントの配置は、実施形態の形状要因に従って所望に応じて調整することができる。例えば、オーディオデバイス３００は、移動電話およびヘッドセットのような２つの装置を含むことができる。

図４は、音声アクティビティ検出器４００のブロック図である。一実施形態では、音声アクティビティ検出器は音声アクティビティ検出器１０２（図１参照）として使用することができる。他の実施形態では、音声アクティビティ検出器１０２の詳細は図４に示されるものとは異なってもよく、主な関心事は音声アクティビティ検出器１０２が音声アクティビティ信頼レベル１１２を生成することであり、これは図４に示される方法以外の方法で行われてもよい。しかしながら、図４に示される詳細は、音声アクティビティ信頼レベル１１２に対してロバストな結果を供給する。一般に、音声アクティビティ検出器４００は、特徴の集約、およびより大きな間隔にわたるこれらの特徴からの統計の追加作成（いくつかのブロックまたはフレーム、またはオンライン平均化）を使用し、これらの特徴を使用する規則を適用して、いくらかのレイテンシを伴って音声の存在を示す。音声アクティビティ検出器４００は、変換および帯域ブロック４０１、調和性ブロック４０２、スペクトル束ブロック４０３、ノイズモデルブロック４０４、エネルギー特徴ブロック４０５、他の特徴ブロック４０６、集約ブロック４０８、および音声検出ブロック４０９を含む。

変換および帯域ブロック４０１は、オーディオ入力１１０の信号スペクトルパワーを表すために、周波数ベースの変換および知覚的に間隔を置いた帯域のセットを使用する。音声のための変換サブ帯域の初期ブロックサイズまたはサンプリングは、例えば８〜１６０ｍｓの範囲であり、１つの特定の実施形態では２０ｍｓの値が有用である。

調和性ブロック４０２は、オーディオ入力１１０から調和性特徴を抽出し、抽出された調和性特徴を集約ブロック４０８に供給する。スペクトル束ブロック４０３は、オーディオ入力１１０からスペクトル束特徴を抽出し、抽出されたスペクトルフラックス特徴を集約ブロック４０８に供給する。

ノイズモデルブロック４０４は、オーディオ入力１１０ｌのより長い期間の特徴を集約するが、直接には使用されない。むしろ、帯域内の瞬間的なスペクトルをノイズモデルと比較して、集約ブロック４０８に供給されるエネルギー測度を作成する。

エネルギー特徴ブロック４０５は、オーディオ入力１１０からエネルギー特徴を抽出し、抽出されたエネルギー特徴を集約ブロック４０８に供給する。

他の特徴ブロック４０６は、他のブロックによって処理されたもの以外のいくつかの特徴を抽出する。これらの他の特徴は、特定の実施形態、または他の設計基準に基づいて選択されてもよい。他の特徴の例としては、オーディオ入力１１０の正規化されたスペクトル、およびオーディオ入力１１０の絶対エネルギーが挙げられる。

集約ブロック４０８は、単一ブロックに関連する短い特徴からデータを収集、フィルタリング、または集約して、特徴および統計のセットを作成し、これらの特徴および統計は、追加の訓練されたまたは調整された規則への特徴として再び使用される。一例では、集約ブロック４０８はデータならびに平均および分散をスタックする。あるいは、集約ブロック４０８は、オンライン統計値（例えば、平均および分散についての無限インパルス応答ＩＩＲ）を使用してもよい。

音声検出ブロック４０９は、オーディオ入力のより大きな領域にわたる音声の存在に関する遅延決定を生成して、音声アクティビティ信頼レベル１１２を生成する。統計のフレームまたは時定数のサイズの例は、２４０ｍｓのオーダーであり、１００〜２０００ｍｓの範囲の値が適用可能である。この出力は、最初の開始後の音声の有無に基づいて、オーディオのフレームの継続または完了を制御するために使用される。音声検出ブロック４０９は、集約された特徴および統計におけるレイテンシおよび追加情報が与えられるので、オンセットルールよりもより具体的および詳細である。

音声アクティビティ検出器４００の詳細は、その他の点では特許文献１に記載されている通りであってもよい。

補助コンポーネントおよび補助入力
（図１の補助入力１１４、図２のステップ２０４、図３の補助コンポーネント３１２などに関して）上述したように、多数のタイプの補助入力を生成することができる多数のタイプの補助コンポーネントが存在してもよい。これらの補助入力は、（例えば、マイクロホンによって直接捕捉されないという点で）オーディオ入力１１０とは異なるが、それでもなお、迷惑に寄与するか、または迷惑を示すことがある。補助入力は、１つ以上のイベントログに保管されてもよい。補助入力は、振動データ、システムイベントデータ、加速度データ、コンポーネントアクティビティデータ、および二次デバイスデータを含むことができる。

振動データは、振動センサにより生成されるデータに対応する。例えば、補助コンポーネント３１２（図３参照）が振動センサである場合、振動データはオーディオデバイス３００の振動に対応する。一般に、振動は音声によって生じる振動とは異なる機械的振動に対応し、従って、マイクロホンによって捕捉される信号とは異なる。例えば、オーディオデバイス３００がテーブル上にあり、誰かがテーブルを叩いている場合、この機械的振動は振動センサによって感知される。振動センサは、圧電センサであってもよい。

システムイベントデータは、オーディオデバイス３００のコンポーネントの動作に関連するイベントに対応する。例えば、キーボードを含むラップトップコンピュータの場合、システムイベントデータは、キーボードドライバシステムまたはシステム基本入力／出力オペレーティングシステム（ＢＩＯＳ）によって捕捉されるようなキーボード押下イベントに対応する。同様に、マウスの場合、システムイベントデータはマウスクリックイベントに対応する。システムイベントの結果はマイクロホンによって検出されてもよいが（例えば、タイピングが大きいとき）、集約されているシステムイベントデータは、マイクロホンから供給されないことに留意されたい。

加速度データは、加速度計によって生成されたデータに対応する。一例として、オーディオデバイス３００が激しい動きをしている場合、これは、音声送信状態よりも迷惑状態（例えば、風ノイズなど）を示すことができる。同様に、オーディオデバイス３００が床に落とされた場合、加速度データは、音声送信状態よりも迷惑状態を示す。

コンポーネントアクティビティデータは、迷惑を生成し得るオーディオデバイス３００のコンポーネントのアクティビティデータに対応する。一例はファンであり、その場合、コンポーネントアクティビティデータは、ファン速度などのアクティビティを示す。別の例はハードディスクドライブであり、その場合、コンポーネントアクティビティデータは、ドライブが回転しているかどうか、データアクセスの実行などのアクティビティを示す。システムイベントデータと同様に、コンポーネントアクティビティデータは、コンポーネントドライバまたはシステムＢＩＯＳによってキャプチャされてもよい。

二次装置データは、オーディオデバイス３００とは別個であるが関連するコンポーネントのアクティビティに対応する。例えば、ラップトップコンピュータ（オーディオデバイス３００）は、ラップトップのスクリーンを投影するためのプロジェクタに接続されてもよい；プロジェクタはその動作中にファンを実行することが多いので、二次装置データはプロジェクタが接続されていること、またはプロジェクタのファンがアクティブであることを示すことができる。別の例として、通信エンドポイント（オーディオデバイス３００）はキーボードに接続されてもよく；二次装置データはキーボードが接続されていること、またはキーボード押下イベントが発生していることを示してもよい（システムイベントデータと同様）。

集計と組み合わせ
上述したように（例えば、図１のアグリゲータ１０４、図２のステップ２０８などに関して）、補助入力１１４は、経時的に集約されて、迷惑レベル１１６を生成する。コンバイナ１０６（図１参照）は、アグリゲータ１０４と協働して、集約を実行することができる。集約のパラメータは、一般に、インクリメント量、デクリメント量、および減衰時間を含む。迷惑レベル１１６の集約は、また、トークバーストが終了したかどうかなど、追加のパラメータに基づいてもよい。これらのパラメータの値は、一般に、補助入力およびオーディオデバイスの詳細に従って構成され、所望に応じて調整されてもよい。

例えば、迷惑レベル１１６は、最小値と最大値との間の範囲であってもよい。迷惑レベル１１６は最小値から始まる。補助入力１１４に存在する各イベントは、インクリメント量だけ（しかし、最大値より高くはない）迷惑レベル１１６を増加させる。減衰時間の各インターバルの後、迷惑レベル１１６は、減分量だけ（しかし、最小値より低くはない）減少される。

補助入力１１４がキーボード押下に対応する場合の具体例は、以下の通りである。迷惑レベル１１６は、０〜１の範囲であってもよく、（補助入力１１４によって供給されるように）各キーボード押下イベントに対して０．２だけ増分されてもよく、１０秒の時定数で減衰してもよい。さらに、（例えば、６０％を超える音声アクティビティ信頼レベル１１２によって示されるように）高レベルの音声アクティビティを有するトークバーストの終了時に、減衰時間（減衰定数）は１秒に短縮される。

補助入力１１４が振動に対応する場合の別の具体例は、以下の通りである。迷惑レベル１１６は、０〜１の範囲であってもよく、（補助入力１１４によって供給されるように）振動測定値が定義された閾値を超えるたびに０．１ずつ増分されてもよく、１０秒の時定数で減衰してもよい。

補助入力１１４が加速に対応する場合の別の具体例は、以下の通りである。迷惑レベル１１６は、０〜１の範囲であってもよく、（補助入力１１４によって供給されるように）加速度測定値が定義された閾値を超えるたびに０．１ずつ増分されてもよく、１０秒の時定数で減衰してもよい。

補助入力１１４がファン速度に対応する場合の別の具体例は、以下の通りである。迷惑レベル１１６は、０と１の範囲であってもよく、（補助入力１１４によって供給されるように）第１の閾値未満のファン速度値は０に対応し、第２の閾値を超えるファン速度値は１に対応し、第１の閾値と第２の閾値との間のファン速度値は、０と１との間に線形にマッピングされる。

上述したように、補助入力１１４（図１参照）は、多数の補助入力の１つとすることができる。例えば、補助コンポーネント３１２（図３参照）は、各々が対応する補助入力１１４を生成する多数の補助コンポーネントのうちの１つであってもよい。アグリゲータ１０４は、複数の補助入力に関するいくつかのオプションのうちの１つ以上を実装してもよい。１つのオプションは、アグリゲータ１０４が複数の補助入力を、コンバイナ１０６に供給する対応する複数の迷惑レベルに集約することができることである。別のオプションは、アグリゲータ１０４が複数の迷惑レベルのうちの１つ以上を、コンバイナ１０６に供給する結合迷惑レベルに結合することができることである。例えば、アグリゲータ１０４が第１の補助入力および第２の補助入力を受信し、第１の迷惑レベルおよび第２の迷惑レベルを生成する場合、アグリゲータは、第１および第２の迷惑レベルを線形に結合して、結合迷惑レベルを生成することができる。別のオプションは、アグリゲータ１０４が複数の迷惑レベルの最大迷惑レベルを迷惑レベル１１６として供給することである。

上述したように、コンバイナ１０６（図１参照）は、音声アクティビティ信頼レベル１１２および迷惑レベル１１６を結合して、送信決定レベル１２０およびゲインレベル１２２を生成する。例えば、音声アクティビティ信頼レベル１１２が高く（例えば、８０％を超）、迷惑レベル１１６が低い（例えば、２０％未満［範囲が０から１である場合、０．２］）場合、送信決定レベル１２０は、オーディオ入力１１０が送信されるべきであることを示す。音声アクティビティ信頼レベル１１２が低く（例えば、２０％未満）、迷惑レベル１１６が高い（例えば、８０％超）場合、送信決定レベル１２０は、オーディオ入力１１０が送信されないことを示す。音声アクティビティ信頼レベル１１２が高くも低くもない場合、コンバイナ１０６は、音声アクティビティ信頼レベル１１２および迷惑レベル１１６を結合して、ゲインレベル１２２を生成する。一般に、ゲインレベル１２２は、音声アクティビティ信頼レベル１１２が与えられると、経時的な迷惑レベル１１６の集約に従って計算される。

１つのオプションは、コンバイナ１０６が音声アクティビティ信頼レベル１１２および迷惑レベル１１６の線形結合を実行することである。例えば、音声アクティビティ信頼レベル１１２が５０％であり、迷惑レベルが２０％である場合、ゲインレベル１２２は４０％であってもよい。（４０％のゲインは、修正されたオーディオ入力３２０のレベルがオーディオ入力１１０のレベルの４０％であることを意味する。）別の例として、音声アクティビティ信頼レベル１１２が５０％であり、迷惑レベルが８０％である場合、ゲインレベル１２２は１０％であってもよい。これらの例では、ゲインレベルは、音声アクティビティ信頼レベルに１００％の残りを掛けたものから迷惑レベルを引いたものとして計算される。

迷惑レベル１１６が複数の迷惑レベル（例えば、複数の補助ソースからのイベントの集約から生じる）である場合、コンバイナ１０６は、最初に、複数の迷惑レベルを結合迷惑レベルに結合し（線形結合、最大値などのいずれかを使用して）、次に、結合迷惑レベルおよび音声アクティビティ信頼レベル１１２の線形結合を実行してもよい。

上述のように、コンバイナ１０６は、音声アクティビティ信頼レベル１１２および迷惑レベル１１６を生成するときに、遠端アクティビティレベル１３０を考慮することもできる。一実施形態によれば、遠端アクティビティレベル１３０は、バイナリ値であってもよい。遠端アクティビティレベル１３０が高い場合、コンバイナ１０６は、音声アクティビティ信頼レベル１１２および迷惑レベル１１６に低減（たとえば、２０％）を適用することができる。遠端アクティビティレベル１３０が低い場合、コンバイナ１０６は、音声アクティビティ信頼レベル１１２および迷惑レベル１１６を通常通りに結合することができる。

別の実施形態によれば、遠端アクティビティレベル１３０は、０と１との間の範囲であってもよい。遠端アクティビティレベル１３０が低い（例えば、０．２未満）場合、コンバイナ１０６は、「０」バイナリ値に関して上述したように動作することができる。遠端アクティビティレベル１３０が高い（例えば、０．８を超える）場合、コンバイナ１０６は、「１」バイナリ値に関して上述したように動作することができる。遠端アクティビティレベル１３０が低くも高くもない場合（例えば、０．２と０．８との間）、コンバイナ１０６は、音声アクティビティ信頼レベル１１２および迷惑レベル１１６に線形低減（例えば、遠端アクティビティレベル１３０が０．８である場合に最大２０％に達する）を適用することができる。

実施形態の例
一実施形態は、遠隔会議環境で使用されるラップトップコンピュータである。ラップトップコンピュータは、その補助コンポーネント３１２としてファンおよびキーボードを有する（図３参照）。アグリゲータ１０４（図１参照）は、ファンからの補助入力１１４を範囲［０，１］の第１の迷惑レベルに集約し、キーボードからの補助入力１１４を範囲［０，１］の第２の迷惑レベルに集約し、その２つの線形結合を迷惑レベル１１６としてコンバイナ１０６に供給する。

別の例示的な実施形態は、テレビ会議エンドポイント、例えばスピーカホンである。スピーカホンは、その補助コンポーネント３１２（図３参照）として、加速度計および振動センサを有する。アグリゲータ１０４（図１参照）は、加速度計からの補助入力１１４を範囲［０，１］の第１の迷惑レベルに集約し、振動センサからの補助入力１１４を範囲［０，１］の第２の迷惑レベルに集約し、その２つの最大値を迷惑レベル１１６としてコンバイナ１０６に供給する。

実施詳細
一実施形態は、ハードウェア、コンピュータ可読媒体上に格納された実行可能モジュール、または両方の組合せ（例えば、プログラマブル論理アレイ）で実装され得る。別段の指定がない限り、実施形態によって実行されるステップは特定の実施形態にあってもよいが、本質的に任意の特定のコンピュータまたは他の装置に関連する必要はない。特に、様々な汎用マシンが本明細書の教示に従って書かれたプログラムと共に使用されてもよく、または、必要とされる方法ステップを実行するために、より特殊化された装置（例えば、集積回路）を構築することがより便利であってもよい。従って、実施形態は、各々が少なくとも１つのプロセッサと、少なくとも１つのデータ記憶システム（揮発性および不揮発性メモリおよび／または記憶素子を含む）と、少なくとも１つの入力デバイスまたはポートと、少なくとも１つの出力デバイスまたはポートとを備える、１つまたは複数のプログラマブルコンピュータシステム上で実行される１つまたは複数のコンピュータプログラムで実施することができる。プログラムコードは、入力データに適用され、本明細書に記載する機能を実行し、出力情報を生成する。出力情報は、既知の方法で、１つ以上の出力装置に適用される。

そのような各コンピュータプログラムは、好ましくは、汎用または専用プログラマブルコンピュータによって読み取り可能な記憶媒体またはデバイス（例えば、ソリッドステートメモリまたは媒体、または磁気もしくは光学媒体）に記憶されるか、またはダウンロードされて、記憶媒体またはデバイスがコンピュータシステムによって読み取られて本明細書に記載の手順を実行するときにコンピュータを構成および動作させる。本発明のシステムは、また、コンピュータプログラムで構成されたコンピュータ読み取り可能な記憶媒体として実現されると考えることができ、その場合、構成された記憶媒体は、コンピュータシステムを特定の所定の方法で動作させて、本明細書に記載する機能を実行させる。（ソフトウェア自体および無形または一時的な信号は、それらが特許性のない主題である限り除外される。）

上記の説明は、本発明の様々な実施形態を、本発明の態様をどのように実施することができるかの例と共に示す。上記の例および実施形態は、唯一の実施形態であると見なされるべきではなく、以下の特許請求の範囲によって定義される本発明の柔軟性および利点を例示するために提示される。上記の開示および以下の特許請求の範囲に基づいて、他の配置、実施形態、実装および同等物は当業者に明らかであり、特許請求の範囲によって定義される本発明の精神および範囲から逸脱することなく使用され得る。

本発明の様々な態様は、以下の列挙された例示的な実施形態（ＥＥＥ）から理解され得る：
ＥＥＥ１．マイクロホンを使用してオーディオ入力を受信することと、
前記マイクロホン以外のソースを使用して補助入力を受信することと、
前記オーディオ入力に対して音声アクティビティ検出を実行して、音声アクティビティ信頼レベルを生成することと、
前記補助入力を経時的に集約して、迷惑レベルを生成することと、
音声アクティビティ信頼レベルおよび迷惑レベルを組み合わせて、送信決定レベルおよびゲインレベルを生成することと、を含む、オーディオデバイスの送信制御方法。
ＥＥＥ２．前記送信決定レベルが送信を示すとき、
前記ゲインレベルを前記オーディオ入力に適用して、修正されたオーディオ入力をもたらすことと、
前記修正されたオーディオ入力を送信することと、をさらに含む、ＥＥＥ１に記載の方法。
ＥＥＥ３．前記補助入力は複数の補助入力であり、前記マイクロホン以外の前記ソースは、前記マイクロホン以外の複数のソースである、ＥＥＥ１または２に記載の方法。
ＥＥＥ４．前記マイクロホン以外のソースは、振動センサ、システムイベントログ、加速度計、コンポーネントアクティビティログ、および二次入力ログのうちの１つでＥＥＥ１〜３のいずれか１つに記載の方法。
ＥＥＥ５．前記システムイベントログは、キーボード押下イベントおよびマウスクリックイベントを記録する、ＥＥＥ４記載の方法。
ＥＥＥ６．前記オーディオデバイスはファンを含み、前記コンポーネントアクティビティログは、前記ファンのファン速度を記録する、ＥＥＥ４に記載の方法。
ＥＥＥ７．前記二次入力ログは、前記オーディオデバイスに接続された、接続された装置に関連する情報を記録する、ＥＥＥ４に記載の方法。
ＥＥＥ８．前記音声アクティビティ信頼レベルおよび前記迷惑レベルを組み合わせることは、
前記音声アクティビティ信頼レベル、前記迷惑レベル、および遠端アクティビティレベルを組み合わせて、前記送信決定レベルおよび前記ゲインレベルを生成することを含む、ＥＥＥ１〜７のいずれか１つに記載の方法。
ＥＥＥ９．前記ゲインレベルは、前記音声アクティビティ信頼レベルと前記迷惑レベルとの線形結合である、ＥＥＥ１〜８のいずれか１つに記載の方法。
ＥＥＥ１０．前記迷惑レベルは、複数の迷惑レベルである、ＥＥＥ１〜９のいずれか１つに記載の方法。
ＥＥＥ１１．前記ゲインレベルは、前記音声アクティビティ信頼レベルおよび前記複数の迷惑レベルの線形結合である、ＥＥＥ１０に記載の方法。
ＥＥＥ１２．プロセッサによって実行されるとき、ＥＥＥ１〜１２のいずれか１つの方法を含む処理を実行する装置を制御するコンピュータプログラムを記憶する非一時的コンピュータ可読媒体。
ＥＥＥ１３．マイクロホンと、
マイクロホン以外のソースと、
プロセッサと、
メモリと、を備え、
前記プロセッサは、オーディオデバイスを制御して、前記マイクロホンを使用してオーディオ入力を受信するように構成され、
前記プロセッサは、前記オーディオデバイスを制御して、前記マイクロホン以外の前記ソースを使用して補助入力を受信するように構成され、
前記プロセッサは、前記オーディオデバイスを制御して、前記オーディオ入力に対する音声アクティビティの検出を実行し、音声アクティビティ信頼レベルを生成するように構成され、
前記プロセッサは、前記オーディオデバイスを制御して、前記補助入力を経時的に集約して、迷惑レベルを生成するように構成され、
前記プロセッサは、前記オーディオデバイスを制御して、前記音声アクティビティの信頼レベルおよび前記迷惑レベルを組み合わせて、送信決定レベルおよびゲインレベルを生成するように構成されている、オーディオデバイスの送信制御のための装置。
ＥＥＥ１４．送信機をさらに備え、前記送信決定レベルが送信を示すとき、
前記プロセッサは、前記オーディオデバイスを制御して、前記オーディオ入力に前記ゲインレベルを適用し、修正されたオーディオ入力をもたらすように構成され、
前記プロセッサは、前記送信機を制御して、前記修正されたオーディオ入力を送信するように構成される、ＥＥＥ１３に記載の装置。
ＥＥＥ１５．前記マイクロホン以外の複数のソースをさらに含み、前記マイクロホン以外の前記複数のソースは前記マイクロホン以外のソースを含み、前記補助入力は、複数の補助入力である、ＥＥＥ１３〜１４のいずれか１つに記載の装置。
ＥＥＥ１６．前記マイクロホン以外の前記ソースは、振動センサ、システムイベントログ、加速度計、コンポーネントアクティビティログ、および二次入力ログのうちの１つである、ＥＥＥ１３〜１５のいずれか１つに記載の装置。
ＥＥＥ１７．キーボードをさらに含み、前記マイクロホン以外の前記ソースは、キーボード押下イベントを記録するシステムイベントログである、ＥＥＥ１３−１６のいずれか１つの装置。
ＥＥＥ１８．ファンをさらに含み、前記マイクロホン以外の前記ソースは、前記ファンのファン速度を記録するコンポーネントアクティビティログである、ＥＥＥ１３〜１７のいずれか１つに記載の装置。
ＥＥＥ１９．前記プロセッサは、前記オーディオデバイスを制御して、前記音声アクティビティ信頼レベル、前記迷惑レベル、および遠端アクティビティレベルを組み合わせて、前記送信決定レベルおよび前記ゲインレベルを生成するようにさらに構成される、ＥＥＥ１３〜１８のいずれか１つに記載の装置。
ＥＥＥ２０．前記ゲインレベルは、前記音声アクティビティ信頼レベルおよび前記迷惑レベルの線形結合である、ＥＥＥ１３〜１９のいずれか１つに記載の装置。

Claims

マイクロホンを使用してオーディオ入力を受信することと、
前記マイクロホン以外のソースを使用して補助入力を受信することと、
前記オーディオ入力に対して音声アクティビティ検出を実行して、音声アクティビティ信頼レベルを生成することと、
前記補助入力に存在する個々の迷惑イベントを検出することと、
前記迷惑イベントを経時的に集約して、迷惑レベルを生成することと、
音声アクティビティ信頼レベルおよび迷惑レベルを組み合わせて、送信決定レベルおよびゲインレベルを生成することと、を含む、オーディオデバイスの送信制御方法。
前記送信決定レベルが送信を示すとき、
前記ゲインレベルを前記オーディオ入力に適用して、修正されたオーディオ入力をもたらすことと、
前記修正されたオーディオ入力を送信することと、をさらに含む、請求項１に記載の方法。
前記補助入力は複数の補助入力であり、前記マイクロホン以外の前記ソースは、前記マイクロホン以外の複数のソースである、請求項１または２に記載の方法。
前記マイクロホン以外の前記ソースは、振動センサおよび加速度計のうちの１つである、請求項１〜３のいずれか一項に記載の方法。
前記マイクロホン以外の前記ソースは、システムイベントログ、コンポーネントアクティビティログ、および二次入力ログのうちの１つである、請求項１〜３のいずれか一項に記載の方法。
前記システムイベントログは、キーボード押下イベントおよびマウスクリックイベントを記録する、請求項５に記載の方法。
前記オーディオデバイスはファンを含み、前記コンポーネントアクティビティログは、前記ファンのファン速度を記録する、請求項５に記載の方法。
前記二次入力ログは、前記オーディオデバイスに接続された、接続された装置に関連する情報を記録する、請求項５に記載の方法。
前記音声アクティビティ信頼レベルおよび前記迷惑レベルを組み合わせることは、
前記音声アクティビティ信頼レベル、前記迷惑レベル、および遠端アクティビティレベルを組み合わせて、前記送信決定レベルおよび前記ゲインレベルを生成することを含む、請求項１〜８のいずれか一項に記載の方法。
前記ゲインレベルは、前記音声アクティビティ信頼レベルと前記迷惑レベルとの線形結合である、請求項１〜９のいずれか一項に記載の方法。
前記迷惑レベルは、複数の迷惑レベルである、請求項１〜１０のいずれか一項に記載の方法。
前記ゲインレベルは、前記音声アクティビティ信頼レベルおよび前記複数の迷惑レベルの線形結合である、請求項１１に記載の方法。
プロセッサによって実行されるとき、請求項１〜１２のいずれか一項の方法を含む処理を実行する装置を制御するコンピュータプログラムを記憶する非一時的コンピュータ可読媒体。
マイクロホンと、
マイクロホン以外のソースと、
プロセッサと、
メモリと、を備え、
前記プロセッサは、オーディオデバイスを制御して、前記マイクロホンを使用してオーディオ入力を受信するように構成され、
前記プロセッサは、前記オーディオデバイスを制御して、前記マイクロホン以外の前記ソースを使用して補助入力を受信するように構成され、
前記プロセッサは、前記オーディオデバイスを制御して、前記オーディオ入力に対する音声アクティビティの検出を実行し、音声アクティビティ信頼レベルを生成するように構成され、
前記プロセッサは、前記オーディオデバイスを制御して、前記補助入力に存在する個々の迷惑イベントを検出するように構成され、
前記プロセッサは、前記オーディオデバイスを制御して、前記迷惑イベントを経時的に集約して、迷惑レベルを生成するように構成され、
前記プロセッサは、前記オーディオデバイスを制御して、前記音声アクティビティの信頼レベルおよび前記迷惑レベルを組み合わせて、送信決定レベルおよびゲインレベルを生成するように構成されている、オーディオデバイスの送信制御のための装置。
送信機をさらに備え、前記送信決定レベルが送信を示すとき、
前記プロセッサは、前記オーディオデバイスを制御して、前記オーディオ入力に前記ゲインレベルを適用し、修正されたオーディオ入力をもたらすように構成され、
前記プロセッサは、前記送信機を制御して、前記修正されたオーディオ入力を送信するように構成される、請求項１４に記載の装置。
前記マイクロホン以外の複数のソースをさらに含み、前記マイクロホン以外の前記複数のソースは、前記マイクロホン以外のソースを含み、
前記補助入力は、複数の補助入力である、請求項１４または１５に記載の装置。
前記マイクロホン以外の前記ソースは、振動センサおよび加速度計のうちの１つである、請求項１４から１６のいずれか一項に記載の装置。
前記マイクロホン以外の前記ソースは、システムイベントログ、コンポーネントアクティビティログ、および二次入力ログのうちの１つである、請求項１４から１６のいずれか一項に記載の装置。
キーボードをさらに含み、前記マイクロホン以外の前記ソースは、キーボード押下イベントを記録するシステムイベントログである、請求項１４から１８のいずれか一項に記載の装置。
ファンをさらに含み、前記マイクロホン以外の前記ソースは、前記ファンのファン速度を記録するコンポーネントアクティビティログである、請求項１４から１９のいずれか一項に記載の装置。
前記プロセッサは、前記オーディオデバイスを制御して、前記音声アクティビティ信頼レベル、前記迷惑レベル、および遠端アクティビティレベルを組み合わせて、前記送信決定レベルおよび前記ゲインレベルを生成するようにさらに構成される、請求項１４から２０のいずれか一項に記載の装置。
前記ゲインレベルは、前記音声アクティビティ信頼レベルおよび前記迷惑レベルの線形結合である、請求項１４から２１のいずれか一項に記載の装置。