JP2021524697A - 補助信号を用いたオーディオデバイスの送信制御 - Google Patents

補助信号を用いたオーディオデバイスの送信制御 Download PDF

Info

Publication number
JP2021524697A
JP2021524697A JP2021500205A JP2021500205A JP2021524697A JP 2021524697 A JP2021524697 A JP 2021524697A JP 2021500205 A JP2021500205 A JP 2021500205A JP 2021500205 A JP2021500205 A JP 2021500205A JP 2021524697 A JP2021524697 A JP 2021524697A
Authority
JP
Japan
Prior art keywords
level
microphone
input
audio
voice activity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021500205A
Other languages
English (en)
Other versions
JP6942282B2 (ja
Inventor
デイビッド グナワン
デイビッド グナワン
グレン エヌ. ディキンズ
グレン エヌ. ディキンズ
Original Assignee
ドルビー ラボラトリーズ ライセンシング コーポレイション
ドルビー ラボラトリーズ ライセンシング コーポレイション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ドルビー ラボラトリーズ ライセンシング コーポレイション, ドルビー ラボラトリーズ ライセンシング コーポレイション filed Critical ドルビー ラボラトリーズ ライセンシング コーポレイション
Publication of JP2021524697A publication Critical patent/JP2021524697A/ja
Application granted granted Critical
Publication of JP6942282B2 publication Critical patent/JP6942282B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0324Details of processing therefor
    • G10L21/034Automatic adjustment
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/08Mouthpieces; Microphones; Attachments therefor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

オーディオデバイスのための送信制御の装置および方法。オーディオデバイスはマイクロホン以外のソースを使用して迷惑音(nuisance)を決定し、これを使用してゲインを計算し、送信決定を行う。ゲインを使用することは、それ自体で送信決定を使用するよりも、よりきめ細かな迷惑音軽減をもたらす。

Description

関連出願の相互参照
本出願は2018年7月12日に出願された米国仮出願第62/697,010号、および2018年7月12日に出願された欧州特許出願第18183034.0号からの優先権の利益を主張するものであり、それらの各々は参照によりその全体が本明細書に組み込まれる。
本発明はオーディオ処理に関し、特に、電気通信システムのための送信制御に関する。
本明細書に別段の指示がない限り、この節に記載されるアプローチは、本出願の特許請求の範囲の先行技術ではなく、この節に含めることによって先行技術であることは自認されない。
音声アクティビティ検出(voice activity detection:VAD)は、音声とノイズの混合を含む信号中の音声の存在のバイナリまたは確率的インジケータを決定するための技法である。しばしば、音声アクティビティ検出の性能は、分類または検出の精度に基づく。不連続な送信へのアプローチから利益を得るシステムにおいて、音声認識の性能を改善するため、または信号を送信する決定を制御するために、音声アクティビティ検出アルゴリズムを使用することによって、研究作業が動機付けられる。音声アクティビティ検出は、ノイズ推定、エコー適応、およびノイズ抑圧システムにおけるゲイン係数のフィルタリングのような特定のアルゴリズムチューニングのような信号処理機能を制御するためにも使用される。
音声アクティビティ検出の出力は、後続の制御またはメタデータのために直接使用することができ、および/またはリアルタイムオーディオ信号に作用するオーディオ処理アルゴリズムの性質を制御するために使用することができる。
音声アクティビティ検出のための関心のある1つの特定のアプリケーションは、送信制御の分野である。音声が非アクティブの間に、エンドポイントが送信を中止し、または低減されたデータレート信号を送信することができる通信システムの場合、音声アクティビティ検出器の設計および性能は、システムの知覚される品質にとって重要である。このような検出器は、最終的にバイナリ決定を行わなければならず、短い時間フレーム上で観測可能な多くの特徴において、低いレイテンシを達成するために、実質的に重複する音声およびノイズの特性が存在するという基本的な問題に直面する。従って、そのような検出器は、誤った警報の発生率と、誤った決定に起因して所望の音声が失われる可能性との間のトレードオフに常に直面しなければならない。低いレイテンシ、感度、および特異性という、相反する要件は、最適な解決策を完全に有さないか、または、システムの効率または最適性が用途および期待される入力信号に依存する動作環境を少なくとも作り出す。
特許文献1は、送信制御決定を行うために、短期の音声アクティビティの検出をオーディオ特徴の長期の集約と組み合わせるシステムを論じている。
特許文献2は、発話セグメント中のキーストロークノイズを抑制するために、キーストロークの聴覚的検出と共にキーストロークイベントの検出を使用することを論じている。
米国特許出願公開第2015/0032446号明細書 米国特許出願公開第2010/0145689号明細書
多くの既存のシステムの1つの問題は、マイクロホンを使用して収集された音響情報を主に考慮することである。マイクロホン以外のコンポーネントを使用して迷惑音(nuisance)を検出するシステムが必要とされている。
多くの既存のシステムに伴う別の問題は、聴覚信号内の各それぞれの迷惑イベントの影響を低減するために、各迷惑イベントを個別に考慮することである。よりきめ細かい迷惑さの決定を行うために、迷惑イベントを集約するシステムが必要とされている。
上記の問題とその解決策の欠如を考慮して、本明細書で説明される実施形態は経時的に迷惑イベントを集約し、送信決定自体に加えて送信のゲインを制御することに向けられる。
一実施形態によれば、方法は、オーディオデバイスのための送信制御を実行する。この方法は、マイクロホンを使用してオーディオ入力を受信することを含む。この方法は、マイクロホン以外のソースを使用して補助入力を受信するステップをさらに含む。この方法は、オーディオ入力に対して音声アクティビティ検出を実行して、音声アクティビティ信頼レベルを生成することをさらに含む。この方法は、経時的に補助入力を集約して、迷惑レベルを生成するステップをさらに含む。この方法は、音声アクティビティ信頼レベルおよび迷惑レベルを結合して、送信決定レベルおよびゲインレベルを生成することをさらに含む。
送信決定レベルが送信を示す場合、本方法は、オーディオ入力にゲインレベルを適用して修正されたオーディオ入力をもたらすことと、修正されたオーディオ入力を送信することと、をさらに含む。
補助入力は複数の補助入力であってもよく、マイクロホン以外のソースはマイクロホン以外の複数のソースであってもよい。
マイクロホン以外のソースは、振動センサ、システムイベントログ、加速度計、コンポーネントアクティビティログ、および二次入力ログのうちの1つとすることができる。システムイベントログには、キーボードの押下イベントとマウスのクリックイベントが記録されてもよい。オーディオデバイスはファンを含むことができ、コンポーネントアクティビティログは、ファンのファン速度を記録してもよい。二次入力ログには、オーディオデバイスに接続されている接続デバイスに関する情報が記録されてもよい。
音声アクティビティ信頼レベルと迷惑レベルとを組み合わせることは、音声アクティビティ信頼レベル、迷惑レベル、および遠端アクティビティレベルを組み合わせて送信決定レベルおよびゲインレベルを生成することを含んでもよい。
ゲインレベルは、音声アクティビティ信頼レベルおよび迷惑レベルの線形結合であってもよい。
迷惑レベルは、複数の迷惑レベルであってもよい。ゲインレベルは、音声アクティビティ信頼レベルおよび複数の迷惑レベルの線形結合であってもよい。
別の実施形態によれば、非一時的コンピュータ可読媒体は、プロセッサによって実行されるときに、上述の1つ以上の方法を含む処理を実行するための装置を制御するコンピュータプログラムを記憶する。
別の実施形態によれば、装置は、オーディオデバイスのための送信制御を実行する。この装置は、マイクロホンと、マイクロホン以外のソースと、プロセッサと、メモリとを含む。プロセッサは、オーディオデバイスを制御して、マイクロホンを使用してオーディオ入力を受信するように構成される。プロセッサは、オーディオデバイスを制御して、マイクロホン以外のソースを使用して補助入力を受信するようさらに構成される。プロセッサは、オーディオデバイスを制御して、オーディオ入力に対して音声アクティビティ検出を実行し、音声アクティビティ信頼レベルを生成するようにさらに構成される。プロセッサは、オーディオデバイスを制御して、経時的に補助入力を集約して、迷惑レベルを生成するようにさらに構成される。プロセッサは、オーディオデバイスを制御して、音声アクティビティ信頼レベルおよび迷惑レベルを組み合わせ、送信決定レベルおよびゲインレベルを生成するようにさらに構成される。
装置は、送信機をさらに含むことができる。送信決定レベルが送信を示すとき、プロセッサは、オーディオデバイスを制御して、オーディオ入力にゲインレベルを適用し、修正されたオーディオ入力をもたらし、および送信機を制御して、修正されたオーディオ入力を送信するようにさらに構成される。
装置は、キーボードをさらに含んでもよく、マイクロホン以外のソースはキーボード押下イベンを記録するシステムイベントログであってもよい。
装置はファンをさらに含むことができ、マイクロホン以外のソースはファンのファン速度を記録するコンポーネントアクティビティログとすることができる。
この装置は、この方法に関して上述したものと同様の詳細を含むことができる。
以下の詳細な説明および添付の図面は、様々な実施形態の性質および利点のさらなる理解を提供する。
送信制御システム100のブロック図である。 オーディオデバイスのための送信制御の方法200のフローチャートである。 オーディオデバイス300のブロック図である。 音声アクティビティ検出器400のブロック図である。
本明細書では、バイノーラルオーディオ処理のための技法について説明する。以下の説明では、説明の目的で、本発明の完全な理解を提供するために、多数の実施例および特定の詳細が記載される。しかし、特許請求の範囲によって定義される本発明はこれらの例における特徴の一部またはすべてを単独で、または以下で説明される他の特徴と組み合わせて含むことができ、本明細書で説明される特徴および概念の修正および均等物をさらに含むことができることは、当業者には明らかであろう。
以下の説明では、様々な方法、プロセス、および手順が詳述される。特定のステップを特定の順序で説明することができるが、そのような順序は主に便宜上および明確にするためのものである。特定のステップは、2回以上繰り返されてもよく、他のステップの前または後に生じてもよく(それらのステップが別の順序で記載されている場合であっても)、他のステップと並行して生じてもよい。第2のステップは第2のステップが開始される前に第1のステップが完了されなければならない場合にのみ、第1のステップに続くことが必要とされる。このような状況は、文脈から明らかでない場合に特に指摘される。
本明細書では、「および(and)」、「または(or)」、「および/または(and/or)」という用語が使用されている。このような用語は、包括的な意味を有するものとして読まれるべきである。例えば、「AおよびB」は少なくとも次のものを意味し得る:「AおよびBの両方」、「少なくともAおよびBの両方」。別の例として、「AまたはB」は少なくとも次のものを意味し得る:「少なくともA」、「少なくともB」、「AおよびBの両方」、「少なくともAおよびBの両方」。別の例として、「Aおよび/またはB」は少なくとも次のものを意味し得る:「AおよびB」、「AまたはB」。排他的論理和が意図される場合、そのようなことが具体的に言及される(例えば、「AまたはBのいずれか」、「AおよびBのうちの多くとも1つ」)。
本書では、「迷惑(nuisance)」という用語を使用する。一般に、迷惑という用語は、システムの所望の入力とは異なる入力を指すために使用される。システムの所望の入力は実施形態に応じて変化し、これはまた、迷惑として分類されるものに影響を及ぼす。例えば、通信エンドポイントの場合、所望の入力は一般に音声(スピーチ)であり、迷惑は、音声(スピーチ)として誤って分類されるか、または音声(スピーチ)にマイナスの影響を及ぼす可能性がある他の音である。迷惑は、それが所望の用途にどのように悪影響を及ぼすかによって判断される。テレビ会議環境では、誰かが話していないときに迷惑音が織り込まれることが多く、少なくとも話そうとしたり、会議の重要な部分であったりする場合は迷惑音でさえも受け入れられ、それほど迷惑ではない。テレビ会議エンドポイントにおける主な迷惑は、誰かが話していないときに音が漏れることである。多くのシステムは迷惑をかけている人にフィードバックを与えない。実際、彼らは迷惑音を聞くことができない唯一の人であり、皮肉なことに、彼らは迷惑音であることに気づいていない。多くの場合、望ましくない音は静かな(話していない)ユーザから来るものであり、従って、これが迷惑音と考えられる。
図1は、送信制御システム100のブロック図である。送信制御システム100は、音声アクティビティ検出器102と、アグリゲータ104と、コンバイナ106とを含む。送信制御システム100は、ラップトップコンピュータ、通信エンドポイント(例えば、スピーカホン)などのオーディオデバイスのコンポーネントとして実装されてもよい。オーディオデバイスは、(簡潔にするために)図示されていない他のコンポーネントを含むことができる。
音声アクティビティ検出器102はオーディオ入力110を受信し、オーディオ入力110に対して音声アクティビティ検出を実行し、オーディオ入力110の音声アクティビティ信頼レベル112を生成する。オーディオ入力110は、マイクロホン(図示せず)などのオーディオデバイスの別のコンポーネントによってキャプチャすることができる。音声アクティビティ検出器102は、音声アクティビティ信頼レベル112をコンバイナ106に供給する。音声アクティビティ信頼レベル112は0と1との間の範囲であってもよく、0は検出された音声アクティビティの低い(またはない)尤度を示し、1は検出された音声アクティビティの高い尤度を示す。
アグリゲータ104は補助入力114を受信し、経時的に補助入力114を集約し、集約された補助入力114に基づいて迷惑レベル116を生成する。アグリゲータ104は、迷惑レベル116をコンバイナ106に供給する。
一般に、補助入力114は、マイクロホン以外のオーディオデバイスのコンポーネントからの入力に対応する。これらの他のコンポーネントは、センサ、ならびにオーディオデバイスのコンポーネント(マイクロホン以外)からのイベントログを含む。従って、補助入力の数は、オーディオデバイスの詳細に応じて変化する。例えば、キーボードおよびファンを含むラップトップコンピュータの実施形態では、補助入力は、キーボードからのイベントログ(キークリックを示す)およびファンからのデバイスアクティビティログ(例えば、ファン速度データを含む)を含むことができる。補助入力のさらなる詳細は、以降のセクションで提供される。
補助入力114は複数の補助入力とすることができ、アグリゲータ104は複数の補助入力のそれぞれを集約することができる。アグリゲータ104は複数のアグリゲータであってもよく、各アグリゲータは複数の補助入力のそれぞれ1つを集約する。迷惑レベル116は複数の迷惑レベルであってもよく、各迷惑レベルは複数の補助入力のそれぞれに対応する。(図を乱雑にすることを回避するために、補助入力114、アグリゲータ104、および迷惑レベル116を1回だけ示すが、複数の要素と見なすこともできる。)アグリゲータ104は、複数の迷惑レベルを個々の迷惑レベルとしてコンバイナ106に供給することができ、またはそれらを組み合わせて組み合わせ迷惑レベルにすることができる。
コンバイナ106は、音声アクティビティ信頼レベル112および迷惑レベル116を結合して、送信決定レベル120およびゲインレベル122を生成する。(送信決定レベル120およびゲインレベル122は、オーディオデバイスの他のコンポーネントに供給され、そのさらなる動作を制御する。)送信決定レベル120はバイナリ値であってもよく、ここで、「0」はオーディオ入力110が送信されるべきではないことを示し、「1」はオーディオ入力110が送信されるべきことを示す。一般に、音声アクティビティ信頼レベル112が高く、迷惑レベル116が低いとき、送信決定レベル120は、オーディオ入力110が送信されるべきであることを示す。音声アクティビティ信頼レベル112が低く、迷惑レベル116が高い場合、送信決定レベル120は、オーディオ入力110が送信されるべきでないことを示す。
ゲインレベル122は、オーディオ入力110に適用されるべきゲインに対応する。一般に、ゲインは、正(増加、またはブースト)または負(減少、または減衰)であってもよい。ここで、ゲインレベル122は一般に減衰である。ゲインレベル122は、単に送信決定レベル120を使用するよりも、オーディオ入力110の送信に対するよりきめ細かい制御を可能にする。例えば、音声アクティビティ信頼レベル112が高でも低でもない場合、高い迷惑レベル116はゲインレベル122が高であることをもたらすことができ、低い迷惑レベル116はゲインレベル122が低であることをもたらすことができる。オーディオ入力110および集約された補助入力114の両方の音声アクティビティに基づいて動作し、送信決定レベル120およびゲインレベル122の両方を生成することによって、コンバイナ106は、多くの既存のシステムよりもよりきめ細かく迷惑決定を実行する。
このきめ細かい決定は、多くの要因を含む。1つの要因は、送信制御システム100が個々の迷惑イベントの検出に使用される期間よりも長い期間を使用することである。これは、他のアクティビティの性質、そのコンテキスト、および進行中の会議または他の会議参加者にわたる対話という点での意味も考慮に入れることによって、個々の迷惑イベントの分類を改善する。このアプローチを使用することによって、送信制御システム100は、個々の迷惑音イベントに突然作用して各イベントを除去するのではなく、参加者が協力して通信している程度に基づいて、または、進行中の音声(スピーチ)がない場合に生じるノイズの場合に典型的である明らかなオーディオ迷惑音である程度に基づいて、参加者を除去するか、または会議に戻すかのいずれかのために、より確実に移行する。
(補助入力114がマイクロホンによっても検出される可能性のあるイベント(例えば、キーボード押下イベントの騒々しいもの)に対応する場合であっても、集約手段は、個々のキー押下イベントが、多くの現存するシステムの場合のように、オーディオ入力110から直接的に除去されないことに留意されたい。)
コンバイナ106は、遠端アクティビティレベル130に基づいて、送信決定レベル120およびゲインレベル122を生成することもできる。遠端アクティビティレベル130はバイナリ値であってもよく、ここで、「1」は遠端アクティビティを示し、「0」は遠端アクティビティがないことを示し、または遠端アクティビティレベル130は、0と1との間の範囲であってもよい。遠端アクティビティレベル130は、遠端から導出されたアクティビティ、信号、または特徴に基づいてもよい。例えば、入力信号または遠端アクティビティ上の有意な信号の存在を考える。このような場合、ローカルエンドポイントにおけるアクティビティは、特に、自然な会話または音声対話で予想されるパターンまたは関連関係がない場合、迷惑を表す可能性がより高い。例えば、音声は、遠端からのアクティビティの終わりの後またはその近くで起こるべきである。遠端アクティビティレベル130が有意かつ継続的な音声アクティビティを示す場合に生じる短いバーストは、迷惑状態を示してもよい。
コンバイナ106が音声アクティビティ信頼レベル112、迷惑レベル116、および遠端アクティビティレベル130をどのように組み合わせるかについての具体的な詳細は、送信制御システム100を含むオーディオデバイスの特定の実施形態に応じて変化してもよいが、これらの具体的な詳細は後続のセクションで詳述される。簡単に述べると、コンバイナ106は、送信するための全体的な決定(送信決定レベル120)を決定し、さらに、出力オーディオに適用されるべき各ブロックにおけるゲイン(ゲインレベル122)を出力する。ゲインは、2つの機能のうちの1つ以上を達成するために存在する。第1の機能は、識別された音声セグメントの前後で信号が無音に戻る自然な音声フレーズを達成することである。これは、フェージングインの程度(通常、20〜100msのオーダー)およびフェージングアウトの程度(通常、100〜2000msのオーダー)を含む。一実施形態では、10ms(または単一ブロック)のフェードインおよび300msのフェードアウトが有効であり得る。第2の機能は、迷惑状態で発生する送信フレームの影響を低減することであり、この場合、最近累積された統計に起因して、音声フレームオンセット検出は、無声の非定常ノイズイベントまたは他の妨害に関連する可能性が高い。
図2は、オーディオデバイスのための送信制御の方法200のフローチャートである。方法200は、送信制御システム100(図1参照)によって、または送信制御システム100を含むオーディオデバイスによって実行されてもよい。方法200は、トランスミッション制御システム100の動作を制御するために、方法ステップのうちの1つ以上に対応する1つ以上のコンピュータプログラムを実行するプロセッサによって実施することができる。
202において、マイクロホンを使用してオーディオ入力が受信される。一例として、スピーカホンはマイクロホンを含み、マイクロホンを使用して、近くの音に対応するオーディオ入力を受信する。
204において、マイクロホン以外のソースを使用して補助入力が受信される。上述したように、補助入力は、マイクロホン以外の複数のソースからの複数の補助入力であってもよい。一例として、ラップトップコンピュータはキーボードを含むことができ、ソースはキー押下を記録するイベントログであり、補助入力114は、キー押下である。別の例として、ラップトップコンピュータはファンも含んでもよく、第2のソースはファンの動作パラメータを記録するデバイスアクティビティログであり、第2の補助入力114は、ファン速度である。
206において、音声アクティビティ検出は、オーディオ入力に対して実行されて、音声アクティビティ信頼レベルを生成する。例えば、音声アクティビティ検出器102(図1参照)は、オーディオ入力110に対して音声アクティビティ検出を実行して、音声アクティビティ信頼レベル112を生成してもよい。
208において、補助入力は、経時的に集約されて、迷惑レベルを生成する。例えば、アグリゲータ104(図1参照)は、経時的に補助入力114を集約して、迷惑レベル116を生成してもよい。上述したように、補助入力は複数の補助入力であってもよく、迷惑レベル116は複数の迷惑レベルであってもよい。
210において、音声アクティビティ信頼レベルおよび迷惑レベルが組み合わされて、送信決定レベルおよびゲインレベルが生成される。例えば、コンバイナ106(図1参照)は、音声アクティビティ信頼レベル112および迷惑レベル116を結合して、送信決定レベル120およびゲインレベル122を生成してもよい。
さらなるオプションとして、遠端アクティビティレベルを音声アクティビティ信頼レベルおよび迷惑レベルと組み合わせて、送信決定レベルおよびゲインレベルを生成してもよい。例えば、コンバイナ106(図1参照)は、遠端アクティビティレベル130を受信し、その結合プロセスに遠端アクティビティレベル130を含めて、送信決定レベル120およびゲインレベル122を得ることができる。
送信決定レベルが送信を示さない(例えば、0)場合、方法は202に戻る。送信決定レベルが送信を示す(例えば、それが1)場合、方法は212および214に続く。一例として、オーディオデバイスは、送信制御システム100から送信決定レベル120(図1参照)を受信することができる。
212において、ゲインレベルがオーディオ入力に適用され、修正されたオーディオ入力が得られる。一例として、オーディオデバイス(図1の送信制御システム100を含む)は、オーディオ入力110にゲインレベル122を適用して、修正されたオーディオ入力をもたらすことができる。
214において、修正されたオーディオ入力が送信される。一例として、オーディオデバイス(図1の送信制御システム100を含む)は、修正されたオーディオ入力を送信してもよい。
補助入力(または複数の補助入力)を集約して、経時的な迷惑を測定し、オーディオ入力に(経時的な迷惑に基づいて)ゲインを生成して適用することによって、実施形態は、よりきめ細かい送信制御プロセスを実装する。
図3は、オーディオデバイス300のブロック図である。オーディオデバイス300は、送信制御システム100(図1参照)を実装することができ、または方法200(図2参照)のステップのうちの1つ以上を実行することができる。オーディオデバイス300の例は、通信エンドポイント(例えば、スピーカホン)、ラップトップコンピュータ、携帯電話、スピーカおよびマイクロホンを有するヘッドセット、スピーカおよびマイクロホンを有するイヤホンなどを含む。オーディオデバイス300は、バス314によって接続された、プロセッサ302、メモリ304、入力/出力インタフェース306、ラウドスピーカ308、マイクロホン310、および補助コンポーネント312を含む。オーディオデバイス300は、(簡潔にするために)図示されていない他のコンポーネントを含んでもよい。
プロセッサ302は、一般に、オーディオデバイス300の動作を制御する。プロセッサ302は、送信制御システム100(図1参照)の機能を実施することができる。例えば、プロセッサは、音声アクティビティ検出器102(図1参照)の音声アクティビティ検出機能、アグリゲータ104の集約機能、およびコンバイナ106の結合機能を実行することができる。プロセッサ302は、例えば1つ以上のコンピュータプログラムを実行することによって、オーディオデバイス300を制御して、方法200(図2参照)の1つ以上のステップを実行することができる。
メモリ304は、一般に、オーディオデバイス300によって生成され、使用されるデータを記憶する。このデータは、プロセッサ302によって実行されるコンピュータプログラム、オーディオデバイス300の入力および出力信号に対応するデータ(例えば、オーディオ入力110)、オーディオデバイス300の動作中に生成されるデータ(例えば、補助入力114)、オーディオデバイス300によって生成される中間データ(例えば、音声アクティビティ信頼レベル112、迷惑レベル116、送信決定レベル120、およびゲインレベル122)などを含み得る。
入力/出力インタフェース306は、一般に、オーディオデバイス300を他の装置にインタフェースで接続し、オーディオデバイス300と他の装置との間で信号を交換する。例えば、入力/出力インタフェース306は、遠端アクティビティレベル130を受信し、修正されたオーディオ入力320を送信する。例えば、オーディオデバイス300が通信エンドポイント(例えば、スピーカホン)である場合、遠端アクティビティレベル130は、1つ以上の遠隔通信エンドポイントから受信され、修正されたオーディオ入力320は1つ以上の遠隔通信エンドポイントによる出力のために、ゲイン122によって修正されたオーディオ入力110に対応する。また、入力/出力インタフェース306は他のデバイスと他の信号を交換することができ、例えば、他のデバイスは、オーディオデバイス300が取り込んだオーディオ信号を、ラウドスピーカ308から出力するために送信することができる。入力/出力インタフェース306は、有線または無線の送信機を含んでもよい。
ラウドスピーカ308は、一般に、オーディオデバイス300のオーディオ出力322を出力する。例えば、オーディオデバイス300が通信エンドポイントである場合、オーディオ出力322は、入力/出力インタフェース306を介して遠隔通信エンドポイントから受信されたオーディオ信号を含む。別の例として、オーディオデバイス300がヘッドセットであるとき、オーディオ出力322は、修正されたオーディオ入力320に対応するサイドトーンを含む(サイドトーンが、接続がアクティブであることをユーザが知覚するのを助けるため)。
マイクロホン310は、一般に、オーディオ入力110を含むオーディオデバイス300の近傍のオーディオを捕捉する。
補助コンポーネント312は、一般に、補助入力114を生成する。上述のように、補助コンポーネント312は、センサまたはオーディオデバイス300の別のコンポーネントであってもよい。補助入力114は補助入力114の動作の結果であってもよく(例えば、コンポーネントについて)、または補助コンポーネントの出力自体であってもよい(例えば、センサについて)。例えば、補助コンポーネント312がキーボードである場合、補助入力114は、キー押下データ(メモリ304によってログに記憶されてもよい)に対応する。別の例として、補助コンポーネント312が振動センサである場合、補助入力114は、オーディオデバイス300の振動のセンサデータ(メモリ304によってログに記憶され得る)に対応する。
オーディオデバイス300の各コンポーネントのうちの1つのみが図3に示されているが、そのような説明は主に説明を容易にするためである。オーディオデバイス300のコンポーネントの数は、実施形態のフォームファクタに従って所望に応じて調整することができる。例えば、補助コンポーネント312は、キーボード、ファン、および加速度計などの複数の補助コンポーネントとすることができる。
オーディオデバイスのコンポーネントの配置は、実施形態の形状要因に従って所望に応じて調整することができる。例えば、オーディオデバイス300は、移動電話およびヘッドセットのような2つの装置を含むことができる。
図4は、音声アクティビティ検出器400のブロック図である。一実施形態では、音声アクティビティ検出器は音声アクティビティ検出器102(図1参照)として使用することができる。他の実施形態では、音声アクティビティ検出器102の詳細は図4に示されるものとは異なってもよく、主な関心事は音声アクティビティ検出器102が音声アクティビティ信頼レベル112を生成することであり、これは図4に示される方法以外の方法で行われてもよい。しかしながら、図4に示される詳細は、音声アクティビティ信頼レベル112に対してロバストな結果を供給する。一般に、音声アクティビティ検出器400は、特徴の集約、およびより大きな間隔にわたるこれらの特徴からの統計の追加作成(いくつかのブロックまたはフレーム、またはオンライン平均化)を使用し、これらの特徴を使用する規則を適用して、いくらかのレイテンシを伴って音声の存在を示す。音声アクティビティ検出器400は、変換および帯域ブロック401、調和性ブロック402、スペクトル束ブロック403、ノイズモデルブロック404、エネルギー特徴ブロック405、他の特徴ブロック406、集約ブロック408、および音声検出ブロック409を含む。
変換および帯域ブロック401は、オーディオ入力110の信号スペクトルパワーを表すために、周波数ベースの変換および知覚的に間隔を置いた帯域のセットを使用する。音声のための変換サブ帯域の初期ブロックサイズまたはサンプリングは、例えば8〜160msの範囲であり、1つの特定の実施形態では20msの値が有用である。
調和性ブロック402は、オーディオ入力110から調和性特徴を抽出し、抽出された調和性特徴を集約ブロック408に供給する。スペクトル束ブロック403は、オーディオ入力110からスペクトル束特徴を抽出し、抽出されたスペクトルフラックス特徴を集約ブロック408に供給する。
ノイズモデルブロック404は、オーディオ入力110lのより長い期間の特徴を集約するが、直接には使用されない。むしろ、帯域内の瞬間的なスペクトルをノイズモデルと比較して、集約ブロック408に供給されるエネルギー測度を作成する。
エネルギー特徴ブロック405は、オーディオ入力110からエネルギー特徴を抽出し、抽出されたエネルギー特徴を集約ブロック408に供給する。
他の特徴ブロック406は、他のブロックによって処理されたもの以外のいくつかの特徴を抽出する。これらの他の特徴は、特定の実施形態、または他の設計基準に基づいて選択されてもよい。他の特徴の例としては、オーディオ入力110の正規化されたスペクトル、およびオーディオ入力110の絶対エネルギーが挙げられる。
集約ブロック408は、単一ブロックに関連する短い特徴からデータを収集、フィルタリング、または集約して、特徴および統計のセットを作成し、これらの特徴および統計は、追加の訓練されたまたは調整された規則への特徴として再び使用される。一例では、集約ブロック408はデータならびに平均および分散をスタックする。あるいは、集約ブロック408は、オンライン統計値(例えば、平均および分散についての無限インパルス応答IIR)を使用してもよい。
音声検出ブロック409は、オーディオ入力のより大きな領域にわたる音声の存在に関する遅延決定を生成して、音声アクティビティ信頼レベル112を生成する。統計のフレームまたは時定数のサイズの例は、240msのオーダーであり、100〜2000msの範囲の値が適用可能である。この出力は、最初の開始後の音声の有無に基づいて、オーディオのフレームの継続または完了を制御するために使用される。音声検出ブロック409は、集約された特徴および統計におけるレイテンシおよび追加情報が与えられるので、オンセットルールよりもより具体的および詳細である。
音声アクティビティ検出器400の詳細は、その他の点では特許文献1に記載されている通りであってもよい。
補助コンポーネントおよび補助入力
(図1の補助入力114、図2のステップ204、図3の補助コンポーネント312などに関して)上述したように、多数のタイプの補助入力を生成することができる多数のタイプの補助コンポーネントが存在してもよい。これらの補助入力は、(例えば、マイクロホンによって直接捕捉されないという点で)オーディオ入力110とは異なるが、それでもなお、迷惑に寄与するか、または迷惑を示すことがある。補助入力は、1つ以上のイベントログに保管されてもよい。補助入力は、振動データ、システムイベントデータ、加速度データ、コンポーネントアクティビティデータ、および二次デバイスデータを含むことができる。
振動データは、振動センサにより生成されるデータに対応する。例えば、補助コンポーネント312(図3参照)が振動センサである場合、振動データはオーディオデバイス300の振動に対応する。一般に、振動は音声によって生じる振動とは異なる機械的振動に対応し、従って、マイクロホンによって捕捉される信号とは異なる。例えば、オーディオデバイス300がテーブル上にあり、誰かがテーブルを叩いている場合、この機械的振動は振動センサによって感知される。振動センサは、圧電センサであってもよい。
システムイベントデータは、オーディオデバイス300のコンポーネントの動作に関連するイベントに対応する。例えば、キーボードを含むラップトップコンピュータの場合、システムイベントデータは、キーボードドライバシステムまたはシステム基本入力/出力オペレーティングシステム(BIOS)によって捕捉されるようなキーボード押下イベントに対応する。同様に、マウスの場合、システムイベントデータはマウスクリックイベントに対応する。システムイベントの結果はマイクロホンによって検出されてもよいが(例えば、タイピングが大きいとき)、集約されているシステムイベントデータは、マイクロホンから供給されないことに留意されたい。
加速度データは、加速度計によって生成されたデータに対応する。一例として、オーディオデバイス300が激しい動きをしている場合、これは、音声送信状態よりも迷惑状態(例えば、風ノイズなど)を示すことができる。同様に、オーディオデバイス300が床に落とされた場合、加速度データは、音声送信状態よりも迷惑状態を示す。
コンポーネントアクティビティデータは、迷惑を生成し得るオーディオデバイス300のコンポーネントのアクティビティデータに対応する。一例はファンであり、その場合、コンポーネントアクティビティデータは、ファン速度などのアクティビティを示す。別の例はハードディスクドライブであり、その場合、コンポーネントアクティビティデータは、ドライブが回転しているかどうか、データアクセスの実行などのアクティビティを示す。システムイベントデータと同様に、コンポーネントアクティビティデータは、コンポーネントドライバまたはシステムBIOSによってキャプチャされてもよい。
二次装置データは、オーディオデバイス300とは別個であるが関連するコンポーネントのアクティビティに対応する。例えば、ラップトップコンピュータ(オーディオデバイス300)は、ラップトップのスクリーンを投影するためのプロジェクタに接続されてもよい;プロジェクタはその動作中にファンを実行することが多いので、二次装置データはプロジェクタが接続されていること、またはプロジェクタのファンがアクティブであることを示すことができる。別の例として、通信エンドポイント(オーディオデバイス300)はキーボードに接続されてもよく;二次装置データはキーボードが接続されていること、またはキーボード押下イベントが発生していることを示してもよい(システムイベントデータと同様)。
集計と組み合わせ
上述したように(例えば、図1のアグリゲータ104、図2のステップ208などに関して)、補助入力114は、経時的に集約されて、迷惑レベル116を生成する。コンバイナ106(図1参照)は、アグリゲータ104と協働して、集約を実行することができる。集約のパラメータは、一般に、インクリメント量、デクリメント量、および減衰時間を含む。迷惑レベル116の集約は、また、トークバーストが終了したかどうかなど、追加のパラメータに基づいてもよい。これらのパラメータの値は、一般に、補助入力およびオーディオデバイスの詳細に従って構成され、所望に応じて調整されてもよい。
例えば、迷惑レベル116は、最小値と最大値との間の範囲であってもよい。迷惑レベル116は最小値から始まる。補助入力114に存在する各イベントは、インクリメント量だけ(しかし、最大値より高くはない)迷惑レベル116を増加させる。減衰時間の各インターバルの後、迷惑レベル116は、減分量だけ(しかし、最小値より低くはない)減少される。
補助入力114がキーボード押下に対応する場合の具体例は、以下の通りである。迷惑レベル116は、0〜1の範囲であってもよく、(補助入力114によって供給されるように)各キーボード押下イベントに対して0.2だけ増分されてもよく、10秒の時定数で減衰してもよい。さらに、(例えば、60%を超える音声アクティビティ信頼レベル112によって示されるように)高レベルの音声アクティビティを有するトークバーストの終了時に、減衰時間(減衰定数)は1秒に短縮される。
補助入力114が振動に対応する場合の別の具体例は、以下の通りである。迷惑レベル116は、0〜1の範囲であってもよく、(補助入力114によって供給されるように)振動測定値が定義された閾値を超えるたびに0.1ずつ増分されてもよく、10秒の時定数で減衰してもよい。
補助入力114が加速に対応する場合の別の具体例は、以下の通りである。迷惑レベル116は、0〜1の範囲であってもよく、(補助入力114によって供給されるように)加速度測定値が定義された閾値を超えるたびに0.1ずつ増分されてもよく、10秒の時定数で減衰してもよい。
補助入力114がファン速度に対応する場合の別の具体例は、以下の通りである。迷惑レベル116は、0と1の範囲であってもよく、(補助入力114によって供給されるように)第1の閾値未満のファン速度値は0に対応し、第2の閾値を超えるファン速度値は1に対応し、第1の閾値と第2の閾値との間のファン速度値は、0と1との間に線形にマッピングされる。
上述したように、補助入力114(図1参照)は、多数の補助入力の1つとすることができる。例えば、補助コンポーネント312(図3参照)は、各々が対応する補助入力114を生成する多数の補助コンポーネントのうちの1つであってもよい。アグリゲータ104は、複数の補助入力に関するいくつかのオプションのうちの1つ以上を実装してもよい。1つのオプションは、アグリゲータ104が複数の補助入力を、コンバイナ106に供給する対応する複数の迷惑レベルに集約することができることである。別のオプションは、アグリゲータ104が複数の迷惑レベルのうちの1つ以上を、コンバイナ106に供給する結合迷惑レベルに結合することができることである。例えば、アグリゲータ104が第1の補助入力および第2の補助入力を受信し、第1の迷惑レベルおよび第2の迷惑レベルを生成する場合、アグリゲータは、第1および第2の迷惑レベルを線形に結合して、結合迷惑レベルを生成することができる。別のオプションは、アグリゲータ104が複数の迷惑レベルの最大迷惑レベルを迷惑レベル116として供給することである。
上述したように、コンバイナ106(図1参照)は、音声アクティビティ信頼レベル112および迷惑レベル116を結合して、送信決定レベル120およびゲインレベル122を生成する。例えば、音声アクティビティ信頼レベル112が高く(例えば、80%を超)、迷惑レベル116が低い(例えば、20%未満[範囲が0から1である場合、0.2])場合、送信決定レベル120は、オーディオ入力110が送信されるべきであることを示す。音声アクティビティ信頼レベル112が低く(例えば、20%未満)、迷惑レベル116が高い(例えば、80%超)場合、送信決定レベル120は、オーディオ入力110が送信されないことを示す。音声アクティビティ信頼レベル112が高くも低くもない場合、コンバイナ106は、音声アクティビティ信頼レベル112および迷惑レベル116を結合して、ゲインレベル122を生成する。一般に、ゲインレベル122は、音声アクティビティ信頼レベル112が与えられると、経時的な迷惑レベル116の集約に従って計算される。
1つのオプションは、コンバイナ106が音声アクティビティ信頼レベル112および迷惑レベル116の線形結合を実行することである。例えば、音声アクティビティ信頼レベル112が50%であり、迷惑レベルが20%である場合、ゲインレベル122は40%であってもよい。(40%のゲインは、修正されたオーディオ入力320のレベルがオーディオ入力110のレベルの40%であることを意味する。)別の例として、音声アクティビティ信頼レベル112が50%であり、迷惑レベルが80%である場合、ゲインレベル122は10%であってもよい。これらの例では、ゲインレベルは、音声アクティビティ信頼レベルに100%の残りを掛けたものから迷惑レベルを引いたものとして計算される。
迷惑レベル116が複数の迷惑レベル(例えば、複数の補助ソースからのイベントの集約から生じる)である場合、コンバイナ106は、最初に、複数の迷惑レベルを結合迷惑レベルに結合し(線形結合、最大値などのいずれかを使用して)、次に、結合迷惑レベルおよび音声アクティビティ信頼レベル112の線形結合を実行してもよい。
上述のように、コンバイナ106は、音声アクティビティ信頼レベル112および迷惑レベル116を生成するときに、遠端アクティビティレベル130を考慮することもできる。一実施形態によれば、遠端アクティビティレベル130は、バイナリ値であってもよい。遠端アクティビティレベル130が高い場合、コンバイナ106は、音声アクティビティ信頼レベル112および迷惑レベル116に低減(たとえば、20%)を適用することができる。遠端アクティビティレベル130が低い場合、コンバイナ106は、音声アクティビティ信頼レベル112および迷惑レベル116を通常通りに結合することができる。
別の実施形態によれば、遠端アクティビティレベル130は、0と1との間の範囲であってもよい。遠端アクティビティレベル130が低い(例えば、0.2未満)場合、コンバイナ106は、「0」バイナリ値に関して上述したように動作することができる。遠端アクティビティレベル130が高い(例えば、0.8を超える)場合、コンバイナ106は、「1」バイナリ値に関して上述したように動作することができる。遠端アクティビティレベル130が低くも高くもない場合(例えば、0.2と0.8との間)、コンバイナ106は、音声アクティビティ信頼レベル112および迷惑レベル116に線形低減(例えば、遠端アクティビティレベル130が0.8である場合に最大20%に達する)を適用することができる。
実施形態の例
一実施形態は、遠隔会議環境で使用されるラップトップコンピュータである。ラップトップコンピュータは、その補助コンポーネント312としてファンおよびキーボードを有する(図3参照)。アグリゲータ104(図1参照)は、ファンからの補助入力114を範囲[0,1]の第1の迷惑レベルに集約し、キーボードからの補助入力114を範囲[0,1]の第2の迷惑レベルに集約し、その2つの線形結合を迷惑レベル116としてコンバイナ106に供給する。
別の例示的な実施形態は、テレビ会議エンドポイント、例えばスピーカホンである。スピーカホンは、その補助コンポーネント312(図3参照)として、加速度計および振動センサを有する。アグリゲータ104(図1参照)は、加速度計からの補助入力114を範囲[0,1]の第1の迷惑レベルに集約し、振動センサからの補助入力114を範囲[0,1]の第2の迷惑レベルに集約し、その2つの最大値を迷惑レベル116としてコンバイナ106に供給する。
実施詳細
一実施形態は、ハードウェア、コンピュータ可読媒体上に格納された実行可能モジュール、または両方の組合せ(例えば、プログラマブル論理アレイ)で実装され得る。別段の指定がない限り、実施形態によって実行されるステップは特定の実施形態にあってもよいが、本質的に任意の特定のコンピュータまたは他の装置に関連する必要はない。特に、様々な汎用マシンが本明細書の教示に従って書かれたプログラムと共に使用されてもよく、または、必要とされる方法ステップを実行するために、より特殊化された装置(例えば、集積回路)を構築することがより便利であってもよい。従って、実施形態は、各々が少なくとも1つのプロセッサと、少なくとも1つのデータ記憶システム(揮発性および不揮発性メモリおよび/または記憶素子を含む)と、少なくとも1つの入力デバイスまたはポートと、少なくとも1つの出力デバイスまたはポートとを備える、1つまたは複数のプログラマブルコンピュータシステム上で実行される1つまたは複数のコンピュータプログラムで実施することができる。プログラムコードは、入力データに適用され、本明細書に記載する機能を実行し、出力情報を生成する。出力情報は、既知の方法で、1つ以上の出力装置に適用される。
そのような各コンピュータプログラムは、好ましくは、汎用または専用プログラマブルコンピュータによって読み取り可能な記憶媒体またはデバイス(例えば、ソリッドステートメモリまたは媒体、または磁気もしくは光学媒体)に記憶されるか、またはダウンロードされて、記憶媒体またはデバイスがコンピュータシステムによって読み取られて本明細書に記載の手順を実行するときにコンピュータを構成および動作させる。本発明のシステムは、また、コンピュータプログラムで構成されたコンピュータ読み取り可能な記憶媒体として実現されると考えることができ、その場合、構成された記憶媒体は、コンピュータシステムを特定の所定の方法で動作させて、本明細書に記載する機能を実行させる。(ソフトウェア自体および無形または一時的な信号は、それらが特許性のない主題である限り除外される。)
上記の説明は、本発明の様々な実施形態を、本発明の態様をどのように実施することができるかの例と共に示す。上記の例および実施形態は、唯一の実施形態であると見なされるべきではなく、以下の特許請求の範囲によって定義される本発明の柔軟性および利点を例示するために提示される。上記の開示および以下の特許請求の範囲に基づいて、他の配置、実施形態、実装および同等物は当業者に明らかであり、特許請求の範囲によって定義される本発明の精神および範囲から逸脱することなく使用され得る。
本発明の様々な態様は、以下の列挙された例示的な実施形態(EEE)から理解され得る:
EEE1.マイクロホンを使用してオーディオ入力を受信することと、
前記マイクロホン以外のソースを使用して補助入力を受信することと、
前記オーディオ入力に対して音声アクティビティ検出を実行して、音声アクティビティ信頼レベルを生成することと、
前記補助入力を経時的に集約して、迷惑レベルを生成することと、
音声アクティビティ信頼レベルおよび迷惑レベルを組み合わせて、送信決定レベルおよびゲインレベルを生成することと、を含む、オーディオデバイスの送信制御方法。
EEE2.前記送信決定レベルが送信を示すとき、
前記ゲインレベルを前記オーディオ入力に適用して、修正されたオーディオ入力をもたらすことと、
前記修正されたオーディオ入力を送信することと、をさらに含む、EEE1に記載の方法。
EEE3.前記補助入力は複数の補助入力であり、前記マイクロホン以外の前記ソースは、前記マイクロホン以外の複数のソースである、EEE1または2に記載の方法。
EEE4.前記マイクロホン以外のソースは、振動センサ、システムイベントログ、加速度計、コンポーネントアクティビティログ、および二次入力ログのうちの1つでEEE1〜3のいずれか1つに記載の方法。
EEE5.前記システムイベントログは、キーボード押下イベントおよびマウスクリックイベントを記録する、EEE4記載の方法。
EEE6.前記オーディオデバイスはファンを含み、前記コンポーネントアクティビティログは、前記ファンのファン速度を記録する、EEE4に記載の方法。
EEE7.前記二次入力ログは、前記オーディオデバイスに接続された、接続された装置に関連する情報を記録する、EEE4に記載の方法。
EEE8.前記音声アクティビティ信頼レベルおよび前記迷惑レベルを組み合わせることは、
前記音声アクティビティ信頼レベル、前記迷惑レベル、および遠端アクティビティレベルを組み合わせて、前記送信決定レベルおよび前記ゲインレベルを生成することを含む、EEE1〜7のいずれか1つに記載の方法。
EEE9.前記ゲインレベルは、前記音声アクティビティ信頼レベルと前記迷惑レベルとの線形結合である、EEE1〜8のいずれか1つに記載の方法。
EEE10.前記迷惑レベルは、複数の迷惑レベルである、EEE1〜9のいずれか1つに記載の方法。
EEE11.前記ゲインレベルは、前記音声アクティビティ信頼レベルおよび前記複数の迷惑レベルの線形結合である、EEE10に記載の方法。
EEE12.プロセッサによって実行されるとき、EEE1〜12のいずれか1つの方法を含む処理を実行する装置を制御するコンピュータプログラムを記憶する非一時的コンピュータ可読媒体。
EEE13.マイクロホンと、
マイクロホン以外のソースと、
プロセッサと、
メモリと、を備え、
前記プロセッサは、オーディオデバイスを制御して、前記マイクロホンを使用してオーディオ入力を受信するように構成され、
前記プロセッサは、前記オーディオデバイスを制御して、前記マイクロホン以外の前記ソースを使用して補助入力を受信するように構成され、
前記プロセッサは、前記オーディオデバイスを制御して、前記オーディオ入力に対する音声アクティビティの検出を実行し、音声アクティビティ信頼レベルを生成するように構成され、
前記プロセッサは、前記オーディオデバイスを制御して、前記補助入力を経時的に集約して、迷惑レベルを生成するように構成され、
前記プロセッサは、前記オーディオデバイスを制御して、前記音声アクティビティの信頼レベルおよび前記迷惑レベルを組み合わせて、送信決定レベルおよびゲインレベルを生成するように構成されている、オーディオデバイスの送信制御のための装置。
EEE14.送信機をさらに備え、前記送信決定レベルが送信を示すとき、
前記プロセッサは、前記オーディオデバイスを制御して、前記オーディオ入力に前記ゲインレベルを適用し、修正されたオーディオ入力をもたらすように構成され、
前記プロセッサは、前記送信機を制御して、前記修正されたオーディオ入力を送信するように構成される、EEE13に記載の装置。
EEE15.前記マイクロホン以外の複数のソースをさらに含み、前記マイクロホン以外の前記複数のソースは前記マイクロホン以外のソースを含み、前記補助入力は、複数の補助入力である、EEE13〜14のいずれか1つに記載の装置。
EEE16.前記マイクロホン以外の前記ソースは、振動センサ、システムイベントログ、加速度計、コンポーネントアクティビティログ、および二次入力ログのうちの1つである、EEE13〜15のいずれか1つに記載の装置。
EEE17.キーボードをさらに含み、前記マイクロホン以外の前記ソースは、キーボード押下イベントを記録するシステムイベントログである、EEE13−16のいずれか1つの装置。
EEE18.ファンをさらに含み、前記マイクロホン以外の前記ソースは、前記ファンのファン速度を記録するコンポーネントアクティビティログである、EEE13〜17のいずれか1つに記載の装置。
EEE19.前記プロセッサは、前記オーディオデバイスを制御して、前記音声アクティビティ信頼レベル、前記迷惑レベル、および遠端アクティビティレベルを組み合わせて、前記送信決定レベルおよび前記ゲインレベルを生成するようにさらに構成される、EEE13〜18のいずれか1つに記載の装置。
EEE20.前記ゲインレベルは、前記音声アクティビティ信頼レベルおよび前記迷惑レベルの線形結合である、EEE13〜19のいずれか1つに記載の装置。

Claims (22)

  1. マイクロホンを使用してオーディオ入力を受信することと、
    前記マイクロホン以外のソースを使用して補助入力を受信することと、
    前記オーディオ入力に対して音声アクティビティ検出を実行して、音声アクティビティ信頼レベルを生成することと、
    前記補助入力に存在する個々の迷惑イベントを検出することと、
    前記迷惑イベントを経時的に集約して、迷惑レベルを生成することと、
    音声アクティビティ信頼レベルおよび迷惑レベルを組み合わせて、送信決定レベルおよびゲインレベルを生成することと、を含む、オーディオデバイスの送信制御方法。
  2. 前記送信決定レベルが送信を示すとき、
    前記ゲインレベルを前記オーディオ入力に適用して、修正されたオーディオ入力をもたらすことと、
    前記修正されたオーディオ入力を送信することと、をさらに含む、請求項1に記載の方法。
  3. 前記補助入力は複数の補助入力であり、前記マイクロホン以外の前記ソースは、前記マイクロホン以外の複数のソースである、請求項1または2に記載の方法。
  4. 前記マイクロホン以外の前記ソースは、振動センサおよび加速度計のうちの1つである、請求項1〜3のいずれか一項に記載の方法。
  5. 前記マイクロホン以外の前記ソースは、システムイベントログ、コンポーネントアクティビティログ、および二次入力ログのうちの1つである、請求項1〜3のいずれか一項に記載の方法。
  6. 前記システムイベントログは、キーボード押下イベントおよびマウスクリックイベントを記録する、請求項5に記載の方法。
  7. 前記オーディオデバイスはファンを含み、前記コンポーネントアクティビティログは、前記ファンのファン速度を記録する、請求項5に記載の方法。
  8. 前記二次入力ログは、前記オーディオデバイスに接続された、接続された装置に関連する情報を記録する、請求項5に記載の方法。
  9. 前記音声アクティビティ信頼レベルおよび前記迷惑レベルを組み合わせることは、
    前記音声アクティビティ信頼レベル、前記迷惑レベル、および遠端アクティビティレベルを組み合わせて、前記送信決定レベルおよび前記ゲインレベルを生成することを含む、請求項1〜8のいずれか一項に記載の方法。
  10. 前記ゲインレベルは、前記音声アクティビティ信頼レベルと前記迷惑レベルとの線形結合である、請求項1〜9のいずれか一項に記載の方法。
  11. 前記迷惑レベルは、複数の迷惑レベルである、請求項1〜10のいずれか一項に記載の方法。
  12. 前記ゲインレベルは、前記音声アクティビティ信頼レベルおよび前記複数の迷惑レベルの線形結合である、請求項11に記載の方法。
  13. プロセッサによって実行されるとき、請求項1〜12のいずれか一項の方法を含む処理を実行する装置を制御するコンピュータプログラムを記憶する非一時的コンピュータ可読媒体。
  14. マイクロホンと、
    マイクロホン以外のソースと、
    プロセッサと、
    メモリと、を備え、
    前記プロセッサは、オーディオデバイスを制御して、前記マイクロホンを使用してオーディオ入力を受信するように構成され、
    前記プロセッサは、前記オーディオデバイスを制御して、前記マイクロホン以外の前記ソースを使用して補助入力を受信するように構成され、
    前記プロセッサは、前記オーディオデバイスを制御して、前記オーディオ入力に対する音声アクティビティの検出を実行し、音声アクティビティ信頼レベルを生成するように構成され、
    前記プロセッサは、前記オーディオデバイスを制御して、前記補助入力に存在する個々の迷惑イベントを検出するように構成され、
    前記プロセッサは、前記オーディオデバイスを制御して、前記迷惑イベントを経時的に集約して、迷惑レベルを生成するように構成され、
    前記プロセッサは、前記オーディオデバイスを制御して、前記音声アクティビティの信頼レベルおよび前記迷惑レベルを組み合わせて、送信決定レベルおよびゲインレベルを生成するように構成されている、オーディオデバイスの送信制御のための装置。
  15. 送信機をさらに備え、前記送信決定レベルが送信を示すとき、
    前記プロセッサは、前記オーディオデバイスを制御して、前記オーディオ入力に前記ゲインレベルを適用し、修正されたオーディオ入力をもたらすように構成され、
    前記プロセッサは、前記送信機を制御して、前記修正されたオーディオ入力を送信するように構成される、請求項14に記載の装置。
  16. 前記マイクロホン以外の複数のソースをさらに含み、前記マイクロホン以外の前記複数のソースは、前記マイクロホン以外のソースを含み、
    前記補助入力は、複数の補助入力である、請求項14または15に記載の装置。
  17. 前記マイクロホン以外の前記ソースは、振動センサおよび加速度計のうちの1つである、請求項14から16のいずれか一項に記載の装置。
  18. 前記マイクロホン以外の前記ソースは、システムイベントログ、コンポーネントアクティビティログ、および二次入力ログのうちの1つである、請求項14から16のいずれか一項に記載の装置。
  19. キーボードをさらに含み、前記マイクロホン以外の前記ソースは、キーボード押下イベントを記録するシステムイベントログである、請求項14から18のいずれか一項に記載の装置。
  20. ファンをさらに含み、前記マイクロホン以外の前記ソースは、前記ファンのファン速度を記録するコンポーネントアクティビティログである、請求項14から19のいずれか一項に記載の装置。
  21. 前記プロセッサは、前記オーディオデバイスを制御して、前記音声アクティビティ信頼レベル、前記迷惑レベル、および遠端アクティビティレベルを組み合わせて、前記送信決定レベルおよび前記ゲインレベルを生成するようにさらに構成される、請求項14から20のいずれか一項に記載の装置。
  22. 前記ゲインレベルは、前記音声アクティビティ信頼レベルおよび前記迷惑レベルの線形結合である、請求項14から21のいずれか一項に記載の装置。
JP2021500205A 2018-07-12 2019-07-10 補助信号を用いたオーディオデバイスの送信制御 Active JP6942282B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201862697010P 2018-07-12 2018-07-12
EP18183034.0 2018-07-12
EP18183034 2018-07-12
US62/697,010 2018-07-12
PCT/US2019/041219 WO2020014371A1 (en) 2018-07-12 2019-07-10 Transmission control for audio device using auxiliary signals

Publications (2)

Publication Number Publication Date
JP2021524697A true JP2021524697A (ja) 2021-09-13
JP6942282B2 JP6942282B2 (ja) 2021-09-29

Family

ID=67390127

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021500205A Active JP6942282B2 (ja) 2018-07-12 2019-07-10 補助信号を用いたオーディオデバイスの送信制御

Country Status (6)

Country Link
US (1) US11500610B2 (ja)
EP (1) EP3821429B1 (ja)
JP (1) JP6942282B2 (ja)
KR (1) KR102466293B1 (ja)
CN (1) CN112384975A (ja)
WO (1) WO2020014371A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11557307B2 (en) * 2019-10-20 2023-01-17 Listen AS User voice control system

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7447630B2 (en) 2003-11-26 2008-11-04 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement
US7464029B2 (en) 2005-07-22 2008-12-09 Qualcomm Incorporated Robust separation of speech signals in a noisy environment
US8041026B1 (en) * 2006-02-07 2011-10-18 Avaya Inc. Event driven noise cancellation
US8954324B2 (en) * 2007-09-28 2015-02-10 Qualcomm Incorporated Multiple microphone voice activity detector
US8630685B2 (en) * 2008-07-16 2014-01-14 Qualcomm Incorporated Method and apparatus for providing sidetone feedback notification to a user of a communication device with multiple microphones
US9009053B2 (en) * 2008-11-10 2015-04-14 Google Inc. Multisensory speech detection
US8213635B2 (en) 2008-12-05 2012-07-03 Microsoft Corporation Keystroke sound suppression
US8626498B2 (en) 2010-02-24 2014-01-07 Qualcomm Incorporated Voice activity detection based on plural voice activity detectors
WO2011140110A1 (en) * 2010-05-03 2011-11-10 Aliphcom, Inc. Wind suppression/replacement component for use with electronic systems
AU2011279009A1 (en) * 2010-07-15 2013-02-07 Aliph, Inc. Wireless conference call telephone
EP2437517B1 (en) * 2010-09-30 2014-04-02 Nxp B.V. Sound scene manipulation
CN102300140B (zh) 2011-08-10 2013-12-18 歌尔声学股份有限公司 一种通信耳机的语音增强方法及降噪通信耳机
GB201120392D0 (en) * 2011-11-25 2012-01-11 Skype Ltd Processing signals
CN103325386B (zh) 2012-03-23 2016-12-21 杜比实验室特许公司 用于信号传输控制的方法和系统
WO2014043024A1 (en) 2012-09-17 2014-03-20 Dolby Laboratories Licensing Corporation Long term monitoring of transmission and voice activity patterns for regulating gain control
US9363596B2 (en) 2013-03-15 2016-06-07 Apple Inc. System and method of mixing accelerometer and microphone signals to improve voice quality in a mobile device
US8880119B1 (en) * 2013-05-16 2014-11-04 Michael P. Naghdi Tracking system
US9332368B1 (en) 2013-07-08 2016-05-03 Google Inc. Accelerometer or transducer on a device
CN105518774B (zh) 2013-09-04 2017-05-31 高通股份有限公司 用于采集配置数据的设备和方法
EP3111626B1 (en) 2014-02-28 2021-09-22 Dolby Laboratories Licensing Corporation Perceptually continuous mixing in a teleconference
KR101551666B1 (ko) 2015-03-30 2015-09-09 주식회사 더열림 노이즈의 프로파일화 및 그 적용이 가능한 보청기, 이를 이용한 노이즈 적용 보청기시스템
KR101704926B1 (ko) * 2015-10-23 2017-02-23 한양대학교 산학협력단 음향 환경 분류를 이용한 심화신경망의 앙상블이 구성된 통계모델 기반의 음성 검출 장치 및 음성 검출 방법
WO2017146970A1 (en) 2016-02-23 2017-08-31 Dolby Laboratories Licensing Corporation Auxiliary signal for detecting microphone impairment
DK3373603T3 (da) * 2017-03-09 2020-09-14 Oticon As Høreanordning, der omfatter en trådløs lydmodtager
EP3675517B1 (en) * 2018-12-31 2021-10-20 GN Audio A/S Microphone apparatus and headset

Also Published As

Publication number Publication date
US11500610B2 (en) 2022-11-15
US20210232360A1 (en) 2021-07-29
KR102466293B1 (ko) 2022-11-14
JP6942282B2 (ja) 2021-09-29
KR20210029816A (ko) 2021-03-16
CN112384975A (zh) 2021-02-19
EP3821429A1 (en) 2021-05-19
WO2020014371A1 (en) 2020-01-16
EP3821429B1 (en) 2022-09-14

Similar Documents

Publication Publication Date Title
US10566008B2 (en) Method and apparatus for acoustic echo suppression
EP3348047B1 (en) Audio signal processing
CN111149370B (zh) 会议系统中的啸叫检测
US8515097B2 (en) Single microphone wind noise suppression
US8718562B2 (en) Processing audio signals
KR20170034405A (ko) 바람 잡음 검출을 위한 방법 및 장치
JP6959917B2 (ja) 音響装置における再生管理のためのイベント検出
EP2896126B1 (en) Long term monitoring of transmission and voice activity patterns for regulating gain control
US11664040B2 (en) Apparatus and method for reducing noise in an audio signal
JP3507020B2 (ja) 反響抑圧方法、反響抑圧装置及び反響抑圧プログラム記憶媒体
JP6942282B2 (ja) 補助信号を用いたオーディオデバイスの送信制御
US11195539B2 (en) Forced gap insertion for pervasive listening
US11694708B2 (en) Audio device and method of audio processing with improved talker discrimination
US11804221B2 (en) Audio device and method of audio processing with improved talker discrimination
US11527232B2 (en) Applying noise suppression to remote and local microphone signals
JPH04156600A (ja) 音声認識装置
WO2021239254A1 (en) A own voice detector of a hearing device
GB2573380A (en) Method and apparatus for acoustic echo suppression
EP3332558A2 (en) Event detection for playback management in an audio device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210303

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20210708

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210810

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210907

R150 Certificate of patent or registration of utility model

Ref document number: 6942282

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150