JP2021525903A

JP2021525903A - 自動ミキシング用のインテリジェント音声起動のためのシステムおよび方法

Info

Publication number: JP2021525903A
Application number: JP2020566629A
Authority: JP
Inventors: マイケルライアンレスター; ホセロベルトレガルブト; デイヴィッドグラントケイソン
Original assignee: Shure Acquisition Holdings Inc
Current assignee: Shure Acquisition Holdings Inc
Priority date: 2018-05-31
Filing date: 2019-05-30
Publication date: 2021-09-27
Anticipated expiration: 2039-05-30
Also published as: US11798575B2; US20190371354A1; JP7422685B2; WO2019232235A1; EP3803867A1; US10997982B2; US20220093117A1; CN112334981B; TW202004736A; TWI831787B; CN112334981A; EP3803867B1

Abstract

実施形態は自動ミキサが、音声認識期間の間に受信された音声を失うまたは廃棄することなく、音声検出に基づいて、マイクロフォンをオンおよびオフにゲート制御することを可能にする。例示の方法は、入力オーディオ信号を受信し、記憶するステップを含む。方法はまた、入力オーディオ信号の最初の区分に基づいて、入力オーディオ信号が音声を備えることを決定するステップと、入力オーディオ信号と、スピーカに供給される対応する出力オーディオ信号との間の遅延を決定するステップとを含む。方法はまた、遅延を縮小するステップをさらに含み、遅延を縮小するステップは、時間圧縮されたオーディオ信号を作成するように、記憶された入力オーディオ信号の１つまたは複数の区分を除去するステップと、時間圧縮されたオーディオ信号を、対応する出力オーディオ信号として供給するステップとを含む。方法はまた、遅延が閾値持続時間未満であることを決定するステップと、応答的に、入力オーディオ信号を、対応する出力オーディオ信号として供給するステップとを含む。

Description

相互参照
本出願は、その内容がその全体において本明細書に組み込まれている、２０１８年５月３１日に出願した米国特許仮出願第６２／６７８，８６３号の優先権を主張するものである。

本出願は、一般にマイクロフォン自動ミキシングのための音声起動に関する。詳細には、本出願は、音声検出、ミックスに含めるための意思決定、および場合によってはチャネル取得の間の、失われた音声を取り除くために、自動ミキシングにおける起動の前にオーディオを圧縮するための新規なシステムおよび方法の使用に関する。

講堂、重役会議室、ビデオ会議状況など、会議およびプレゼンテーション環境は、音源からの音を捕捉するためのマイクロフォンの使用が関わり得る。音源は、例えば、話者を含み得る。捕捉された音は、環境内のスピーカ、テレビ放送、および／またはウェブ放送を通して聴衆に広められ得る。

これらの環境のいくつかにおいて、任意の所与の時点で、オンにされた２つ以上のマイクロフォンが存在することができ、各話者が彼または彼女自身のマイクロフォンを有することを可能にする。自動ミキシングシステムは、２つ以上のマイクロフォンがオーディオを受信していて、スピーカが受信されたオーディオを出力することを試みるときに存在し得る干渉、帰還、および他のオーディオ問題を低減しながら、高品質オーディオ出力をもたらすために、一時に１つのマイクロフォンが「オン」になることを可能にするために用いられ得る。

これらの設定において、自動ミキシングシステムは、マイクロフォンからオーディオを受信し、それを分析して、オーディオが音声、不規則な雑音、または何か他のものであるかを決定することができ、オーディオが音声であると決定した後にのみ、マイクロフォンが「アクティブ」にされ、受信されたオーディオがスピーカを通して再生されるようになる。これは、自動ミキシングシステムが、受信されたオーディオが音声を含むかどうかを決定している時間の間に受信された音声の損失に繋がる。いくつかの場合には、これは最初の音節、さらには音声区分の語全体が失われる可能性があり、それによってユーザエクスペリエンスを低減させることを意味し得る。

したがって、これらの関心事に対処する方法およびシステムに対する機会がある。より具体的には、受信されたオーディオが音声を含むかどうかを決定するために用いられる通常は廃棄される音声を再生することを可能にできる方法およびシステムに対する機会がある。

本発明は上記の問題を、中でも、特に自動ミキシング環境において、音声検出およびチャネル取得の間の失われた音声を低減するために、受信されたオーディオの時間圧縮を、可変速度再生と組み合わせるように設計されたシステムおよび方法をもたらすことによって解決することを目的とする。

第１の例において、方法は、入力オーディオ信号を受信するステップと、入力オーディオ信号を記憶するステップと、入力オーディオ信号の最初の区分に基づいて、入力オーディオ信号が音声を備えることを決定するステップとを含む。方法はまた、入力オーディオ信号と、スピーカに供給される対応する出力オーディオ信号との間の遅延を決定するステップを含む。方法は、遅延を縮小するステップをさらに含み、遅延を縮小するステップは、時間圧縮されたオーディオ信号を作成するように、記憶された入力オーディオ信号の１つまたは複数の区分を除去するステップと、時間圧縮されたオーディオ信号を、対応する出力オーディオ信号として供給するステップとを含む。方法は、遅延が閾値持続時間未満であることを決定するステップをさらに含む。方法は、応答的に、入力オーディオ信号を、対応する出力オーディオ信号として供給するステップをさらに含む。

第２の例において、オーディオ信号を自動ミキシングするためのシステムは、入力オーディオ信号を受信するように構成されたマイクロフォンと、入力オーディオ信号に対応する出力オーディオ信号を再生するように構成されたスピーカと、プロセッサとを含む。プロセッサは、入力オーディオ信号を受信することと、入力オーディオ信号を記憶することと、入力オーディオ信号の最初の区分に基づいて、入力オーディオ信号が音声を備えることを決定することと、入力オーディオ信号と、対応する出力オーディオ信号との間の遅延を決定することとを行うように構成される。プロセッサはまた、遅延を縮小するように構成され、遅延を縮小することは、時間圧縮されたオーディオ信号を作成するように、記憶された入力オーディオ信号の１つまたは複数の区分を除去することと、時間圧縮されたオーディオ信号を、対応する出力オーディオ信号として供給することとを含む。プロセッサは、遅延が閾値持続時間未満であることを決定するようにさらに構成される。プロセッサは、応答的に、入力オーディオ信号を、対応する出力オーディオ信号として供給するようにさらに構成される。

第３の例において、非一時的コンピュータ可読メモリは、プロセッサによって実行されたとき、働きのセットを行わせる、該メモリに記憶された命令を有し、働きのセットは、入力オーディオ信号を受信することと、入力オーディオ信号を記憶することと、入力オーディオ信号の最初の区分に基づいて、入力オーディオ信号が音声を備えることを決定することと、入力オーディオ信号と、スピーカに供給される対応する出力オーディオ信号との間の遅延を決定することとを含む。働きのセットは、遅延を縮小することをさらに含み、遅延を縮小することは、時間圧縮されたオーディオ信号を作成するように、記憶された入力オーディオ信号の１つまたは複数の区分を除去することと、時間圧縮されたオーディオ信号を、対応する出力オーディオ信号として供給することとを含む。働きのセットは、遅延が閾値持続時間未満であることを決定することをさらに含む。働きのセット、応答的に、入力オーディオ信号を、対応する出力オーディオ信号として供給することをさらに含む。

これらおよび他の実施形態、ならびに様々な置換および態様は、本発明の原理が使用され得る様々なやり方を示す例示的実施形態を説明する、以下の詳細な説明および添付の図面から明らかになり、より十分に理解されるであろう。

本開示の実施形態による、複数のマイクロフォンを含む例示的環境の概略表示を示す図である。本開示の実施形態による例示のシステムの簡略化されたブロック図である。本開示の実施形態による、入力オーディオ信号、出力オーディオ信号、および遅延を時間と共に示す簡略化されたグラフである。本開示の実施形態によるオーディオ信号の例示の区分を示す図である。本開示の実施形態による例示の方法を示すフローチャートである。

以下の説明は、その原理による本発明の１つまたは複数の特定の実施形態を述べ、示し、および例示する。この説明は、本発明を、本明細書で述べられる実施形態に限定するためではなく、当業者がこれらの原理を理解し、その理解によって、本明細書で述べられる実施形態だけでなく、これらの原理に従って思い付き得る他の実施形態にもそれらを応用することができることを可能にするように、本発明の原理を説明し、教示するためにもたらされる。本発明の範囲は、逐語的に、または均等論のもとに、添付の特許請求の範囲内にあり得るすべてのこのような実施形態を包括するものである。

説明および図面において、類似のまたは実質的に同様な要素は、同じ参照番号でラベル付けされ得ることが留意されるべきである。しかし、ときにはこれらの要素は、異なる番号で、例えば、そのようなラベル付けがより明瞭な説明を容易にする場合などにおいて、ラベル付けされ得る。さらに、本明細書に記載される図面は、必ずしも原寸に比例して描かれておらず、いくつかの事例では、比率は一定の特徴をより明瞭に示すために誇張されている場合がある。このようなラベル付けおよび図面の実践は、基礎となる実質的な目的を必ずしも示唆しない。上記で述べられたように、本明細書は全体として捉えられ、本明細書で教示され、当業者に理解されるように、本発明の原理に従って解釈されることが意図される。

本明細書で述べられ示される例示的システム、構成要素、およびアーキテクチャに関してまた、当業者には理解されるように、実施形態は、１つまたは複数のシステム、ハードウェア、ソフトウェア、またはファームウェア構成もしくは構成要素、またはそれらの任意の組み合わせを含む、数多くの構成および構成要素によって具体化され、またはそれらにおいて使用され得ることが理解されるべきである。したがって、図面は、本明細書で企図される実施形態の１つまたは複数のための構成要素を含んだ例示的システムを示すが、各実施形態に関して、システムにおいて１つまたは複数の構成要素はなくてもよく、または必要でない場合もあることが理解されるべきである。

上記のように、多くの環境は、それらの受信されたオーディオを、一時に１つ、スピーカを通して、出力することを目的とする複数のマイクロフォンを利用し得る。例えば、パネルディスカッション、会議、重役会議室、ミーティングなどはすべて、ときには各スピーカが対応するマイクロフォンを有する１対１の関係を有して、複数のスピーカおよび複数のマイクロフォンを含み得る。

近接して同時に動作する複数のマイクロフォンによって引き起こされる帰還、干渉、クロストーク、および他の悪影響を低減するために、自動ミキシングシステムが用いられ得る。自動ミキシングシステムは、所与の時点で１つのマイクロフォンのみがアクティブになることを可能にし得る。どのマイクロフォンがアクティブになるべきかを決定するために、自動ミキシングシステムは、マイクロフォンが音声、雑音、無音、または何らかの他の分類のオーディオを含むかどうかを決定するように、各マイクロフォンによって受信されたオーディオ信号を分析するように構成され得る。しかし、この分析は、ゼロでない時間が完了されることを必要とする。結果として、音声に対して分析されているオーディオ、および分析が完了されつつある間に受信されるオーディオの両方が、失われ得る。これは数十ミリ秒まで小さくなり得るが、いくつかの場合、分析は１秒以上かかる可能性があり、音声の最初の１秒以上が失われることを意味する。これは話者および聴衆が経験するかなり耳障りなものとなり、不十分なユーザエクスペリエンスに繋がり得る。

一般に、自動ミキシングシステムは、音声が受信されているかどうかを決定するために必要な時間と、受信されたオーディオが音声を含むことにシステムが有する信頼度との間のトレードオフを含む。したがって、自動ミキサが、所与のマイクロフォンが音声を受信しているかどうかを決定するために用いられる時間を縮小するとき、自動ミキサはまた、マイクロフォンが実際に音声を受信しているかどうかの信頼度を低減させ、これは自動ミキシングにおいて雑音が含まれるようになる可能性を増加させる。したがって、より速い音声検出を用いることによって、より少ない音声が失われるまたは廃棄される一方で、マイクロフォンが、たとえそれが単に雑音、無音、または他の音声でないものを含んだオーディオを受信していたとしても、誤ってアクティブにされるようになる可能性がより高くなる。

これらの問題を念頭において、本開示の例示の実施形態は、自動ミキシングシステムがマイクロフォンからオーディオを受信し、受信されたオーディオに基づいて、含まれる音声が存在することを決定し、および、かなりの情報を失わずに時間圧縮された入力オーディオを再生することを可能にし得る。これは、マイクロフォン内にオーディオを受信すること、およびオーディオをデータストレージまたはメモリに記憶することによってなされ得る。記憶されたオーディオ信号は、次いで、追加の入力オーディオが継続して受信され、記憶されながら、分析され得る。記憶されたオーディオの最初の部分は、それが音声を含むかどうかを決定するために分析され得る。最初の部分が音声を含む場合、自動ミキサは、最初の部分が受信されたマイクロフォンが、「アクティブ」にされるべきということを決定することができ、これはマイクロフォンによって受信されたオーディオがスピーカを介して出力される、別のデバイスに送信される、また他のやり方でそのオーディオに対して行われる何らかの処置を有するべきであることを意味する。

次いで、マイクロフォンによって受信された入力オーディオがシステムによって出力されること（例えば、リアルタイム再生）を直ちに可能にするのではなく、入力オーディオは連続して記憶され、時間圧縮されることができ、および縮小されたオーディオ信号はシステムによって出力され得る。追加の入力オーディオを受信および圧縮することを継続しながら、縮小されたオーディオ信号を再生することによって、再生は徐々にリアルタイムに追い付くことができる。

オーディオが音声を含むかどうかを決定する分析の持続時間が１秒であった場合、通常は失われたまたは廃棄された可能性のある１秒間の受信されたオーディオが存在することになる。しかし、本明細書で開示される実施形態において、その受信されたオーディオは代わりに、時間圧縮され、遅延を有して出力される（ここで遅延は、入力オーディオが受信されるとき、および対応する出力が供給されるときの間の時間の差に対応する）。次いで、より多くの入力が受信され、圧縮され、および出力されるのに従って、１秒の遅延は時間と共に徐々に縮小される。追加の入力オーディオは、入力オーディオとシステム出力との間の遅延が閾値量（例えば、１ピッチ期間）未満に縮小されるまで、圧縮され、出力される。遅延が閾値未満まで縮小されたとき、システムは、遅延がゼロまで縮小されるように、より小さな時間圧縮を行うことができ（例えば、システムが１０ｍｓの圧縮を行うようになる場合、システムは、依然として存在する残りの遅延の量に適合する、より小さな圧縮量を選ぶことができる）、その後にシステム出力は単に、マイクロフォンによって受信された圧縮されていない入力オーディオとなる。

本明細書で開示される実施形態の結果として、自動ミキシングシステムは、マイクロフォンに受信されたすべての関連する情報を出力する（すなわち、語または関連する音声が失われない）ように構成され、システムは、大量の音声情報を失うことなく、またはマイクロフォンの誤った起動もしくは「オンへのゲート制御」を可能にすることなく、音声検出でのより高い信頼度を有することができる。本明細書で開示される実施形態はこれらの目標を、システムがリアルタイム再生に追い付くまで、過去のサンプルのバッファから受信されたオーディオを出力し、および現在の出力に対して将来の時点に存在するサンプルとのクロスフェードを利用することによって、２倍まで高速の平均レート（または時間の次元での２倍の圧縮）で、過去からの受信されたオーディオを出力することによって、達成する。出力オーディオ信号、および入力の受信されたオーディオ信号が、時間ベースを解決した（例えば、出力が入力に追い付いた）後、システムは、チャネルが解放され、音声検出の別の反復が必要になるまで、単に新たに受信されたオーディオを出力し、圧縮システムをリセットする。

図１は本明細書で開示される方法およびシステムが用いられ得る例示の環境１００を示す。図１は、複数のマイクロフォン１０２Ａ〜Ｃ、コンピューティングデバイス１１０、およびスピーカ１０４Ａ〜Ｂを示す。図１は１つの可能な環境を示すが、本明細書で開示される概念および特徴は、非限定的に、重役会議室、会議室、オフィス、劇場その他を含む、任意の適切な環境に応用され得ることが理解されるべきである。

マイクロフォン１０２Ａ〜Ｃは、入力オーディオ信号を受信するように構成された任意のマイクロフォンタイプでよい。いくつかの例において、話す人ごとに１つのマイクロフォンがあってよく、１人または複数の人々がマイクロフォンを共有してよく、または人ごとに複数のマイクロフォンがあってよい。用いられ得るマイクロフォンのタイプは、表面（例えば、テーブル）上にまたはその中に位置決めされ得るバウンダリマイクロフォンおよびボタンマイクロフォン、１つの方向での音に主として敏感なショットガンマイクロフォン、ならびに多くの他のタイプのマイクロフォンを含み得る。各マイクロフォンまたはマイクロフォンのセットは、所与の環境での使用に合わせられた特定のピックアップパターンを有することができる。マイクロフォンに対する典型的なポーラパターンは、全指向性、カーディオイド、サブカーディオイド、スーパーカーディオイド、ハイパーカーディオイド、双指向性、およびアレイビーム形成型パターンを含むことができる。特定のマイクロフォンまたはカートリッジのために選ばれるポーラパターンは、音源がどこに位置するか、望ましくない雑音を除外したいか、および／または他の配慮に依存し得る。

マイクロフォン１０２Ａ〜Ｃは、コンピューティングデバイス１１０に電子的におよび／または通信可能に結合され得る。これは有線を介してよく、または無線でなされてもよい。

入力オーディオ信号は、マイクロフォンに対応する人々１１２Ａ〜Ｃのうちの１人によって供給され得る。したがって、入力オーディオ信号は、有声音声、無声音声、無音、雑音、およびその他を含み得る。所与の入力オーディオ信号の要素に関する追加の詳細は、以下でさらに詳しく論じられる。

スピーカ１０４Ａ〜Ｂは、オーディオ信号を出力するように構成された任意の適切なスピーカでよい。スピーカ１０４Ａ〜Ｂは、コンピューティングデバイス１１０に電子的におよび／または通信可能に結合され得る。これは有線を通して、または無線でなされ得る。

本明細書で開示される様々な実施形態は、１つまたは複数のマイクロフォンを介して入力オーディオを受信すること、およびスピーカ１０４Ａ〜Ｂを介して出力することを述べる。しかし、いくつかの実施形態では、出力は、代わりにまたは追加として、別の場所における遠隔のスピーカへの伝送を含み得る（例えば、遠隔会議環境、ウェブキャストなどにおいて）。したがって、様々な開示される実施形態は、スピーカを介した出力、またはスピーカを用いた信号の出力を述べるが、これらはまた、または代替として、別個の遠隔のスピーカを有する別のデバイスまたはシステム（例えば、遠隔会議システムの遠端）に信号を出力することを指し得ることが理解されるべきである。

図２は、いくつかの点で図１のシステムと同様または同一のシステムの簡略化されたブロック図を示し、マイクロフォン１０２Ａ〜Ｎと、コンピューティングデバイス１１０と、スピーカ１０４とを含む。

コンピューティングデバイス１１０は、本明細書で述べられる様々な機能および働きを遂行するように構成された、プロセッサ２１０とメモリ２１２とを含む任意の適切なコンピューティングデバイスでよい。いくつかの例において、コンピューティングデバイス１１０は、自動ミキサ、ラップトップもしくはデスクトップコンピュータ、またはマイクロフォンからのオーディオ信号を受信し、分析するように構成された任意の他のデバイスでよい。

コンピューティングデバイス１１０は、この開示（および添付の図面）で述べられるものなどの多様な機能または働きを行うように構成され得る。コンピューティングデバイス１１０は、例えば、プロセッサ２１０、メモリ２１２を含む様々な構成要素を含み得る。コンピューティングデバイス１１０はまた、ディスプレイ、ユーザインタフェース、および／または１つまたは複数の他の電子的構成要素を含み得る。本明細書で開示される例は、物理的に互いに近接して位置し得る、またはそうでない場合がある構成要素を有する、コンピューティングデバイスおよび／またはシステムを指し得ることが理解されるべきである。いくつかの実施形態は、クラウドをベースとするシステムまたはデバイスの形をとることができ、「コンピューティングデバイス」という用語は、分散システムおよびデバイス（クラウドに基づくものなど）、ならびに本明細書で述べられる機能のうちの１つまたは複数を遂行するように構成されたソフトウェア、ファームウェア、および他の構成要素を含むことが理解されるべきである。さらに、上記のように、コンピューティングデバイス１１０の１つまたは複数の特徴は、物理的に遠隔とすることができ、例えば、通信インタフェースを介してコンピューティングデバイスに通信可能に結合され得る。

プロセッサ２１０は、汎用プロセッサ（例えば、マイクロプロセッサ）および／または専用プロセッサ（例えば、デジタル信号プロセッサ（ＤＳＰ））を含み得る。プロセッサ２１０は、非限定的に、マイクロプロセッサ、マイクロコントローラをベースとするプラットフォーム、集積回路、１つまたは複数のフィールドプログラマブルゲートアレイ（ＦＰＧＡ）、グラフィックスプロセッサユニット（ＧＰＵ）、および／または１つまたは複数の特定用途向け集積回路（ＡＳＩＣ）など、任意の適切な処理デバイスまたは処理デバイスのセットとすることができる。

メモリ２１２は、揮発性メモリ（例えば、不揮発性ＲＡＭ、磁気ＲＡＭ、強誘電体ＲＡＭなどを含むＲＡＭ）、不揮発性メモリ（例えば、ディスクメモリ、ＦＬＡＳＨ（登録商標）メモリ、ＥＰＲＯＭ、ＥＥＰＲＯＭ、メモリスタをベースとする不揮発性固体メモリなど）、不変メモリ（例えば、ＥＰＲＯＭ）、読取専用メモリ、および／または大容量記憶デバイス（例えば、ハードドライブ、固体ドライブなど）とすることができる。いくつかの例において、メモリ２１２は、複数の種類のメモリ、具体的には揮発性メモリおよび不揮発性メモリを含む。

メモリ２１２は、本開示の方法を動作させるためのソフトウェアなど、命令の１つまたは複数のセットが埋め込まれ得る、コンピュータ可読媒体とすることができる。命令は、本明細書で述べられるような方法またはロジックのうちの１つまたは複数を具体化することができる。例えば、命令は命令の実行の間に、メモリ２１２のうちの任意の１つまたは複数内、コンピュータ可読媒体内、および／またはプロセッサ２１０内に完全に、または少なくとも部分的に存在する。

「非一時的コンピュータ可読媒体」および「コンピュータ可読媒体」という用語は、集中化または分散化されたデータベース、および／または命令の１つまたは複数のセットを記憶する関連付けられたキャッシュおよびサーバなど、単一の媒体または複数の媒体を含む。さらに、「非一時的コンピュータ可読媒体」および「コンピュータ可読媒体」という用語は、プロセッサによる実行のための命令のセットを記憶する、エンコードする、または運ぶことができる、またはシステムに本明細書で開示される方法または動作のうちの任意の１つまたは複数を行わせる、任意の有形の媒体を含む。本明細書で用いられる「コンピュータ可読媒体」という用語は、任意のタイプのコンピュータ可読記憶デバイスおよび／または記憶ディスクを含むこと、および伝搬する信号を除外することが明示的に定義される。

プロセッサ２１０は、所与のマイクロフォン１０２Ａから入力オーディオ信号を受信するように構成され得る。次いでプロセッサ２１０は、受信された入力オーディオ信号をメモリ２１２に記憶し得る。いくつかの例において、入力オーディオ信号は循環バッファに記憶され得る。プロセッサ２１０は、到来するオーディオを、それが受信されるのに従って連続して記憶するように構成され得る。

到来する入力オーディオ信号を記憶することを続けながら、プロセッサ１１０は、メモリに記憶された入力オーディオ信号の最初の区分を分析して、入力オーディオ信号の最初の区分に基づいて、入力オーディオ信号が音声を備えることを決定することができる。いくつかの例において、最初の区分は入力オーディオ信号の１秒の区分とすることができる。他の例では、入力オーディオ信号のより短いまたはより長い持続時間が用いられ得る。さらに、最初の区分は、圧縮されていない入力オーディオとすることができる。

最初の区分を分析することにおいて、プロセッサ２１０は、１つまたは複数のフィルタを用いて入力オーディオ信号および／または入力オーディオ信号の最初の区分をフィルタリングすることができる。プロセッサ２１０はまた、入力オーディオ信号が音声を備えることを示す、様々な音声パターンおよび／または信号要素を検出するために、１つまたは複数のアルゴリズムをオーディオ信号／最初の区分に適用することができる。最初の区分が音声を含むことが決定された場合、コンピューティングデバイス１１０は、応答的に、マイクロフォン１０２Ａ（すなわち、入力オーディオ信号をもたらしたマイクロフォン）がアクティブにされるべきであることまたはオンにゲート制御されるべきであることを決定し得る。この分析の全体の処理、およびマイクロフォンがオンにゲート制御されるべきであるとの決定は、おおよそ１秒かかり得る。しかし、特にシステムが、音声の検出の信頼度または確実性と、検出の速度との間の、トレードオフに基づいて動作するように設計される場合、他の持続時間も用いられ得ることが留意されるべきである。

いくつかの例において、コンピューティングデバイス１１０はまた、オーディオ信号が圧縮可能な周期的コンテンツを含むかどうかの決定に関して、１つまたは複数の信頼度メトリクスを決定し得る。本明細書で述べられる基本周期および他の要素の決定に関して、信頼度メトリクスが決定され得る。

コンピューティングデバイス１１０はまた、入力オーディオ信号に対応する外部バッファ信号の制御に基づいて、入力オーディオ信号と出力オーディオ信号との間の遅延を測定するように構成され得る。遅延は、入力オーディオ信号の所与の要素（例えば、語、音節、またはオーディオ信号の他の個別の部分など）が受信されるときと、対応する要素が出力されるときとの間の、時間差の測度である。いくつかの例において、特に要素がかなりの量のオーディオ情報を含む場合、対応する出力要素は入力要素と同一となり得る。

遅延は、初めは入力オーディオ信号が音声を備えるかどうかを決定するために必要な時間となり得る。この分析時間の間、入力オーディオはメモリに記憶され続ける。しかし、入力オーディオが音声を含むかどうかについての決定が未だされていないので、入力オーディオは未だ出力されない。したがって、分析が１秒かかる場合、コンピューティングデバイスが入力オーディオ信号は音声を備えると決定する時点での初期遅延量は１秒である。

次いで、入力オーディオ信号が（以下でさらに詳しく論じられるように、１つまたは複数の区分の除去によって）時間圧縮され、出力されるので、入力オーディオ信号と、対応する出力オーディオ信号との間の遅延は縮小される。これは、時間圧縮されたオーディオは、平均で入力速度の２倍までで再生または出力され得、結果として遅延の縮小となるからである。したがって圧縮が２倍である場合は、遅延はしたがって、オーディオ信号内に音声があったかどうかを決定するための分析の持続時間とおおよそ同じ持続時間にわたって、ほとんどゼロまで縮小され得る。しかし、圧縮がより少ない場合は、遅延における縮小は、より長い持続時間で遂行され得る。したがって遅延における縮小は、圧縮の量に依存し、音声コンテンツに対して圧縮を適用することの適切さ、および遅延がほとんどゼロまで縮小される持続時間は、圧縮の量に反比例的に対応する。

したがって遅延は、時間圧縮された信号が出力される時間と共に変化する。入力オーディオ信号が音声を備えることが決定された時点において、初期システム遅延の値は、入力オーディオ信号の最初の区分の持続時間である。この初期値はまたこの反復の最大遅延であり、なぜなら時間が進み、入力オーディオ信号が時間圧縮され、出力されるのに従って、遅延は徐々に減少するからである。

コンピューティングデバイス１１０はプロセッサ２１０によって、遅延を縮小するように構成され得る。遅延を縮小することは、記憶された入力オーディオ信号の１つまたは複数の区分を除去して、時間圧縮されたまたは「縮小された」オーディオ信号を作成することと、縮小されたオーディオ信号を出力することとを含むことができる。縮小されたオーディオ信号は、それが作成された入力オーディオ信号に対応し、縮小されたオーディオ信号が出力されるのに従って、入力オーディオの所与の要素が受信されたときから、縮小されたオーディオ信号の対応する要素が出力されるときまでの遅延は縮小される。

上記のように、入力オーディオ信号は受信され、メモリに記憶され得る。これは、ますます多くの入力オーディオ信号が受信されるのに従って、それがメモリ内の循環バッファに記憶されるように、ローリングをベースになされ得る。

入力オーディオ信号を時間圧縮するために、１つまたは複数のアルゴリズム、関数、または他の動作がなされ得る。いくつかの例において、入力オーディオ信号は高周波を除去し、信号のＤＣの側面を取り除くようにフィルタリングされ得る。信号はまた、ダウンサンプリングされ、個別のウィンドウ（例えば、２５ｍｓウィンドウ）にブロック化され得る。

いくつかの例において、プロセッサ２１０は、入力オーディオ信号に対応する基本周期を決定し得る。基本周期は、円形平均化振幅差関数（ＣＡＭＤＦ：ｃｉｒｃｕｌａｒａｖｅｒａｇｅｄｍａｇｎｉｔｕｄｅｄｉｆｆｅｒｅｎｃｅｆｕｎｃｔｉｏｎ）または他の適切な周期推定関数を、入力オーディオ信号に適用することによって決定され得る。アルゴリズムに関する遅延は、ＣＡＭＤＦ、平均二乗平均差関数（ＡＳＭＤＦ）、自己相関、ゼロクロス検出、またはＹＩＮアルゴリズムもしくはマクラウドピッチ法（ＭＰＭ）などの組み合わせアルゴリズムなどの、時間領域周期検出を適用することによって最小化され得る。周波数領域技法も、予め定義された周波数マップに対する、ピリオドグラム、高調波積スペクトル、ケプストラム分析、スペクトル再割り当て、Ｇｒａｎｄｋｅ補間、および最尤推定など、待ち時間のトレードオフにおいて用いられ得る。ＣＡＭＤＦまたは他の適切な周期推定関数は、声の予想される基本周波数範囲によって束縛され得る。

ＣＡＭＤＦまたは他の適切な周期推定関数を適用することは、信号自己相関の推定を生成することができ、次いでこれは基本周期を検出するために用いられ得る。

いくつかの例において、ＣＡＭＤＦまたは他の適切な周期推定関数は、推定される基本周期を生成し得る。推定される基本周期は、次いで基本周期の、より精密化されたおよびより正確な推定を生成するように、高分解能平均化振幅差関数に渡され得る。

コンピューティングデバイス１１０は、決定された基本周期が、入力オーディオ信号に対応する１つまたは複数の声門音周期（ｇｌｏｔｔａｌｐｅｒｉｏｄ）に対応し得ることを決定することができる。声門音周期は、人の口の、彼または彼女が話すのに従った、声門の動きに相関するオーディオ信号の反復周期とすることができる。いくつかの例において、入力オーディオ信号は、最も顕著な声門閉鎖の特徴を決定するために、プロセッサ２１０によって探索され得る。次いで他の声門閉鎖の特徴が、基本周期および決定された最も顕著な声門閉鎖の特徴に基づいて決定され得る。この情報から、次いで声門音周期が決定され得る。

いくつかの例において、入力オーディオ信号はメモリ２１２内の循環バッファに記憶され得る。入力オーディオ信号の１つまたは複数の推定される声門音周期が決定された後、オーディオ信号を区分に分解するために、時間領域ピッチ同期重畳加算法（ＴＤ−ＰＳＯＬＡ：ｔｉｍｅ−ｄｏｍａｉｎｐｉｔｃｈｓｙｎｃｈｒｏｎｏｕｓｏｖｅｒｌａｐａｄｄ）または他の適切な時間領域クロスフェード処理が用いられ得る。ウィンドウ型周波数領域バッファ（ｗｉｎｄｏｗｅｄｆｒｅｑｕｅｎｃｙｄｏｍａｉｎｂｕｆｆｅｒ）の除去などの、周波数領域時間除去技法も用いられ得る。いくつかの例において、これらの区分は推定される声門音周期とすることができる。縮小されたオーディオ信号を作成するように、入力オーディオ信号から１つまたは複数の区分が除去され得る。１つまたは複数の区分の除去は、信号が、信号のピッチを変えずに時間内に縮小されるようになされ得る。

除去されることになる識別されたオーディオ区分は、オーディオの１つまたは複数の異なる分類に対応し得る。例えば、いくつかの区分は有声音声を含むことができ、いくつかは無声音声を含むことができ、いくつかは無音を含むことができ、およびいくつかは雑音または他のオーディオ信号要素を含むことができる。有声音声は、音素の発音の間に人の声帯が振動するときに生成される音声を指すことができる。例えば、有声音声は、「ｅｒａｓｅ」という語の前半とすることができる。一方、無声音声は、声帯の使用を含まなくてよい。無声音声は、例えば、「ｅｒａｓｅ」という語の後半とすることができる。無音区分は、有声または無声音声を含まない、オーディオ信号の区分とすることができる。分類はまた、周期的コンテンツ、非周期的コンテンツ、および静音または無音コンテンツと呼ばれ得る。

図４は、オーディオ信号のサンプル部分４００を示す。図４において、区分４１０は雑音に対応することができ、区分４２０は無音に対応することができ、区分４３０は有声音声に対応することができ、および区分４４０は無声音声に対応することができる。

オーディオ信号の１つまたは複数の区分を除去するとき、除去は、区分が該当するタイプまたは分類に依存し得る。例えば、オーディオの所与の部分が周期的コンテンツを含む場合は、１つまたは複数の非隣接の推定される周期が除去され得る。具体的な例では、他のすべての推定される周期が除去され得る。

オーディオの部分が非周期的コンテンツを含む場合は、いくつかの例において、除去されるオーディオ区間の長さは、圧縮率を最大化しながら、圧縮の間に良好な主観的オーディオ品質を維持するやり方で決定される。

また、オーディオの部分が無音を含む場合は、除去されるオーディオ区間の長さも、圧縮を最大化しながら、圧縮の間に良好な主観的オーディオ品質を維持するやり方で決定される。

非周期的または無音期間の除去は、時間領域重畳加算法または他の適切な時間領域クロスフェード（ＴＤ−ＰＳＯＬＡと同様であるが、ピッチ同期ではない）を用いてなされ得る。

いくつかの例において、所与の入力オーディオ信号は、周期的、非周期的、および無音オーディオ区分の組み合わせを含み得る。これらの例では、コンピューティングデバイス１１０は、非周期的コンテンツより無音の除去を優先させ、および周期的コンテンツより非周期的コンテンツの除去を優先させるように構成され得る。これは結果として、正しいピッチ維持し、信号の時間の次元を縮小しながら、最も少ない量の関連するオーディオデータの除去となり得る。

除去を優先順位付けすることはまた、他より、１つの分類のより多数を除去することを含み得る。例えば、所与の信号が、無音、周期的コンテンツ、および非周期的コンテンツから構成される、除去されることになる複数の識別されたオーディオ区分を含む場合は、除去は、無音区分のうちのいくつかまたはすべてを除去することのみを含むことができる。他の例において、除去は、あらゆる非周期的コンテンツに対して、比例した量の無音区分を除去すること、または互いに対して何らかの他の比率で、識別されたオーディオ区分を除去することを含むことができる。このようにして、入力オーディオ信号は、出力信号に含まれる音声を理解するために必要な重要なオーディオコンテンツを除去せずに、縮小され得る。

入力オーディオ信号の１つまたは複数の区分が除去された後、残りの区分は、結果としての縮小された出力オーディオ信号を形成するように、組み合わされ得る。縮小された出力オーディオ信号は、次いで出力のためにスピーカに供給され得る。

次いで、時間と共に、追加の入力オーディオが連続して受信され、上述のように時間圧縮されるのに従って、入力オーディオと出力オーディオとの間の遅延は徐々に縮小される。

上記で示されたように、周期的音声コンテンツ、無声音声または雑音コンテンツ、無音、および本明細書で述べられる他の要素の可能性を決定するために、１つまたは複数の信頼度メトリクスが計算され得る。時間圧縮の主観的知覚の可能性を低減するために、オーディオ区分をどれだけ頻繁に除去することになるかを知らせるために、１つまたは複数の他の信頼度メトリクスが用いられ得る。加えて、１つまたは複数の信頼度メトリクスは、同期的除去、非同期的除去を行うか、または圧縮のためのより適切な機会が生じるまで待つかを伝えることができる。

プロセッサ２１０は、遅延を、それが変化するのに従って監視し、遅延が閾値持続時間未満であることを決定するように構成され得る。遅延が閾値持続時間未満になった後、次いでプロセッサは、時間圧縮を行わずに、入力オーディオを直接出力として供給することができる。これを行うために、プロセッサ２１０は、圧縮、区分除去、または基本もしくは推定される声門音周期除去を行わずに、縮小されたオーディオ信号を供給することから入力オーディオ信号を直接出力として供給することへ遷移するために、残りの遅延量に適合する、より小さな圧縮を行い得る。

いくつかの例において、閾値は、１つの基本周期、または入力オーディオ信号に対応する、または無音もしくは雑音の間に生じるジャンプに関係する、何らかの他のジャンプ期間とすることができる。プロセッサは、遅延がこの閾値未満であると決定した後、次いでリアルタイム再生に切り換わることができる。

いくつかの例において、プロセッサ２１０は、現在の入力オーディオ信号が無音を備えると決定する（すなわち、入力が無音になることを待つ）ことができ、次いで応答的に、無音領域の間の良好な主観的オーディオ品質に適したジャンプを行い得る。これは、人が話している最中に、リアルタイム再生への非同期的ジャンプが生じる可能性を低減し、結果として、意味のある情報が失われる確率をより低くする。それはまた、時間圧縮された縮小されたオーディオ信号の出力から、圧縮されていない入力オーディオ信号への最もシームレスな遷移をもたらす。

図３は、入力オーディオ信号対時間、対応する出力オーディオ信号対時間、および入力と出力との間の遅延対時間を示す簡略化されたグラフを示す。

Ｔ０からＴ１まで、コンピューティングデバイスは、入力オーディオ信号が音声を備えるかどうかを決定するために、入力オーディオ信号に対して分析を行うことができる。いくつかの例において、この分析は、分析においてＴ０からＴ１までの入力信号を用いて生じ得る。他の例では、分析はＴ０の前からの入力オーディオ信号を用いて（すなわち、分析の開始の前に受信されたオーディオを用いて）生じ得る。これは、入力オーディオが音声を含むかどうかを決定する処理の始まりの前に、コンピューティングデバイスがオーディオを受信し、記憶するときに生じ得る。

Ｔ１において、コンピューティングデバイスは入力オーディオ信号が音声を備えると決定しており、応答的に、マイクロフォンはアクティブにされるべきであることまたはオンにゲート制御されるべきであることを決定する。

またＴ１において、入力オーディオ信号と対応する出力との間の遅延は、（Ｔ１−Ｔ０）秒であることが分かる。（Ｔ１−Ｔ０）秒はまた、入力オーディオ信号が音声を備えることを決定するために必要であった持続時間である。したがってＴ１において、出力は入力からＴ１−Ｔ０秒だけ遅れているということができる。

Ｔ０からＴ１までの期間の間またはその後に、入力オーディオ信号区分３０１は記憶され、上述のように時間圧縮される。図３に示される例において、区分３０１は、ピッチを変化させずに、もとの持続時間の半分まで圧縮される。時間圧縮された信号は、次いでスピーカを介して出力され、Ｔ１で始まり、Ｔ１．５で終了する。これは図３において区分３１１として示される。

Ｔ１からＴ１．５まで、縮小されたオーディオ信号区分３１１が出力されている間、第２の入力オーディオ信号区分３０２が受信され、記憶され、および上述のように時間圧縮される。図３に示される例において、区分３０２は、ピッチを変化させずに、もとの持続時間の半分まで圧縮される。時間圧縮された信号は、次いでスピーカを介して出力され、Ｔ１．５で始まり、Ｔ１．７５で終了する。これは区分３１２として示される。

この処理は、対応するオーディオ信号区分が出力される間、出力が入力に追い付くまで、入力オーディオ信号の後継の区分に対して完了される。入力と対応する出力との間の時間の差は、図３に遅延として視覚化され、これは最大で（Ｔ１−Ｔ０）秒で始まり、出力が追い付くのに従って徐々に減少する。図３に示される例において、圧縮係数は各区分に対して２倍であり、出力はそれが入力として受信された速度の平均で２倍で再生することを意味する。したがって、Ｔ１−Ｔ０が１秒である場合、Ｔ２−Ｔ１も１秒であり（例えば、各時間Ｔは、１秒の変化に対応する）、次いで受信された入力オーディオの２秒間（Ｔ０からＴ２まで）は、その時間の半分で、Ｔ１からＴ２まで、出力として再生され得る。

次いで時間Ｔ２において、出力は入力に追い付き、遅延はほとんどゼロである。この時点で、コンピューティングデバイスは、任意の圧縮または時間縮小を行わずに、入力信号を直接出力として供給するために、無音領域内でジャンプをするように、入力信号内の比較的無音を待つことができる。

図５は、本開示の実施形態による例示の方法５００のフローチャートを示す。方法５００は、自動ミキサが、音声認識期間の間に受信された音声を失うまたは廃棄することなく、音声検出に基づいてマイクロフォンをオンおよびオフにゲート制御することを可能にすることができる。図５のフローチャートは、メモリ（メモリ２１２など）に記憶された機械可読命令を表し、プロセッサ（プロセッサ２１０など）によって実行されたとき、コンピューティングデバイス１１０および／または１つまたは複数のシステムもしくはデバイスに、本明細書で述べられる１つまたは複数の機能を遂行させることができる１つまたは複数のプログラムを含み得る。例示のプログラムは、図５に示されるフローチャートを参照して述べられるが、本明細書で述べられる機能を遂行するために、多くの他の方法が代替として用いられ得る。例えば、ブロックの実行の順序は、並べ替えられるまたは互いに直列もしくは並列に行われてよく、ブロックは方法５００を行うために変更され、取り除かれ、および／または組み合わされてよい。さらに、方法５００は図１〜４の構成要素に関連して開示されるので、それらの構成要素のいくつかの機能は、以下では詳しく述べられない。

方法５００はブロック５０２で開始し得る。ブロック５０４で、方法５００は、マイクロフォンを介して入力オーディオ信号を受信するステップを含み得る。ブロック５０６で、方法５００は、入力オーディオ信号を記憶するステップを含み得る。上述のように本明細書の実施形態は、述べられる他の機能または働きと同時発生的に、入力オーディオ信号を、それが受信されるのに従って連続して記憶するステップを含み得る。

ブロック５０８で、方法５００は、入力オーディオ信号が音声を備えるかどうかを決定するステップを含み得る。上記のように、入力オーディオ信号の最初の区分を分析するステップ、１つまたは複数のフィルタを適用するステップ、または他のやり方で信号内の音声の存在を検出するステップを含むことができる。音声が検出されない場合、方法はブロック５０４に戻って参照する。

音声が検出された場合、方法５００は、外部バッファ信号の制御に基づいて、入力オーディオ信号と、対応する出力信号との間の遅延を測定するステップを含み得る。上記のように、この遅延の初期値は、ブロック５０８でオーディオ信号内に音声があるかどうかを決定するために必要な時間とすることができる。入力オーディオ信号内に音声があると決定された後、入力オーディオ信号は出力され始め得る。したがって、遅延は、音声があるかどうかを決定するために必要な時間のために、導入され得る。

ブロック５１２で、方法５００は、遅延が閾値未満かどうかを決定するステップを含み得る。この閾値は、基本周期、または入力もしくは出力オーディオ信号に対応する何らかの他の期間とすることができる。入力オーディオ信号が最初に出力されるとき、遅延は最大になり得る。最大遅延は、入力オーディオ信号内に音声があるかどうかを決定するために必要な時間とすることができる。

遅延が閾値より大きい場合、方法５００はブロック５１４に進み得る。ブロック５１４で、方法５００は、入力オーディオ信号の１つまたは複数の区分、具体的には無音を含む区分を除去するステップを含み得る。ブロック５１６で、方法５００は、無声音声を含む１つまたは複数の区分を除去するステップを含み得る。ブロック５１８で、方法５００は、有声音声を含んだ１つまたは複数の区分を除去するステップを含み得る。ブロック５１４、５１６、および５１８は、オーディオ信号の様々な区分の除去を含み、これは基本周期に関して上述されたように遂行され得る。

ブロック５２０で、方法５００は縮小されたオーディオ信号を作成するステップを含み得る。この縮小されたオーディオ信号は、時間の次元において圧縮され得るが、周波数またはピッチにおいては何ら圧縮され得ない。

ブロック５２２で、方法５００は、縮小されたオーディオ信号を、出力のためにスピーカに供給するステップを含み得る。上記で示されたように、これはまた、例えば遠隔会議シナリオにおいて、縮小されたオーディオ信号を遠隔のスピーカまたはコンピューティングデバイスに供給するステップを、さらにまたは代替として含み得ることが留意されるべきである。

方法５００は次いで、遅延が閾値未満に縮小されたかどうかを決定するように、ブロック５１２に戻ることができる。遅延が閾値未満である場合、方法５００はブロック５２４に進むことができる。

ブロック５２４で、方法５００は、無音、無声音声、または有声音声を除去するのではなく、入力オーディオを直接スピーカに供給するステップを含み得る。いくつかの例において、ブロック５２４は、有声音声の基本周期に関係しないジャンプ、または、縮小されたオーディオ信号を供給することから入力オーディオ信号を出力として供給することへの遷移を含み得る。方法５００は、次いでブロック５２６で終了し得る。

本明細書で開示される実施形態は説明のためのものであり、したがって１つまたは複数の処置の順序および時間依存性は逆にされてよく、または様々な処置は同時にまたは同時発生的に生じ得ることが理解されるべきである。例えば、いくつかの例において、オーディオ信号が音声を含むことを決定するステップは、遅延の決定、遅延の縮小、記憶された入力オーディオの１つまたは複数の区分の除去、およびより多くのものと、同時に遂行され得る。いくつかの例は、１つの処置が他に続く線形処理で遂行されるものとして本明細書で述べられ得る。しかし他の例は、本明細書で述べられる処置の１つまたは複数を同時に遂行することを含み得る。

本出願では、離接語の使用は、接続語を含むものである。定冠詞または不定冠詞の使用は基数を表すものではない。具体的には、「ｔｈｅ」＋対象物、または「ａ」および「ａｎ」＋対象物への言及はまた、このような対象物の可能な複数の１つを意味するものである。さらに接続詞「ｏｒ」は、相互に排他的な代替物ではなく、同時に存在する特徴を伝えるために用いられ得る。言い換えれば、接続詞「ｏｒ」は、「ａｎｄ／ｏｒ（および／または）」を含むものと理解されるべきである。用語「ｉｎｃｌｕｄｅｓ」、「ｉｎｃｌｕｄｉｎｇ」、および「ｉｎｃｌｕｄｅ」という用語は包含的であり、それぞれ「ｃｏｍｐｒｉｓｅｓ」、「ｃｏｍｐｒｉｓｉｎｇ」、および「ｃｏｍｐｒｉｓｅ」と同じ適用範囲を有する。

上述の実施形態、および特に、いずれの「好ましい」実施形態も、実装形態の可能な例であり、単に本発明の原理の明瞭な理解のために説明されるものである。本明細書で述べられる技法の精神および原理から実質的に逸脱せずに、上述の実施形態に対して多くの変形および変更が行われ得る。すべての変更は、この開示の範囲内おいて本明細書に含まれ、添付の特許請求の範囲によって保護されるものである。

Claims

入力オーディオ信号を受信するステップと、
前記入力オーディオ信号を記憶するステップと、
前記入力オーディオ信号の最初の区分に基づいて、前記入力オーディオ信号が音声を備えることを決定するステップと、
外部バッファ信号の制御に基づいて、前記入力オーディオ信号と、スピーカに供給される対応する出力オーディオ信号との間の遅延を測定するステップと、
前記遅延を縮小するステップであって、
時間圧縮されたオーディオ信号を作成するように、前記記憶された入力オーディオ信号の１つまたは複数の区分を除去するステップ、および
前記時間圧縮されたオーディオ信号を、前記対応する出力オーディオ信号として供給するステップ、
を含む、前記遅延を縮小するステップと、
前記遅延が閾値持続時間未満であることを決定するステップと、
応答的に、前記入力オーディオ信号を、前記対応する出力オーディオ信号として供給するステップと
を含む、方法。
前記入力オーディオ信号と前記対応する出力オーディオ信号との間の前記遅延は、時間と共に変化し、前記入力オーディオ信号が音声を備えることが決定された時点において前記入力オーディオ信号の前記最初の区分の持続時間を備える、請求項１に記載の方法。
前記遅延を縮小するステップは、
前記入力オーディオ信号に対応する基本周期を決定するステップと、
前記基本周期に基づいて、前記入力オーディオ信号に対応する除去のための１つまたは複数のオーディオ区分を決定するステップと
をさらに含む、請求項１に記載の方法。
前記基本周期は、円形平均化振幅差関数を前記入力オーディオ信号に適用することによって決定される、請求項３に記載の方法。
前記基本周期は、（ａ）平均二乗平均差関数、（ｂ）自己相関関数、（ｃ）ゼロクロス検出、（ｄ）ＹＩＮアルゴリズム、（ｅ）マクラウドピッチ法、および（ｆ）ピリオドグラムのうちの、１つまたは複数を前記入力オーディオ信号に適用することによって決定される、請求項３に記載の方法。
前記基本周期は、（ａ）高調波積スペクトル、（ｂ）ケプストラムピッチ検出アルゴリズム、（ｃ）スペクトル再割り当て、および（ｄ）最尤推定のうちの、１つまたは複数を前記入力オーディオ信号の周波数領域表示に適用することによって決定される、請求項３に記載の方法。
除去のための前記オーディオ区分は、循環バッファに記憶され、前記記憶された入力オーディオ信号の１つまたは複数の区分を除去するステップは、周期的オーディオコンテンツの１つまたは複数の区分を除去するステップを含む、請求項３に記載の方法。
周期的オーディオコンテンツの１つまたは複数の区分を除去するステップは、複数の非隣接周期的領域を除去するステップを含む、請求項７に記載の方法。
前記記憶された入力オーディオ信号の１つまたは複数の区分を除去するステップは、時間領域ピッチ同期重畳加算法（ＴＤ−ＰＳＯＬＡ）関数を前記入力オーディオ信号に適用するステップを含む、請求項１に記載の方法。
前記記憶された入力オーディオ信号の１つまたは複数の区分を除去するステップは、重畳および加算を用いた周波数領域バッファ除去を、前記入力オーディオ信号の周波数領域表示に適用するステップを含む、請求項１に記載の方法。
前記記憶された入力オーディオ信号の１つまたは複数の区分を除去するステップは、無声音声を含んだ１つまたは複数の区分を除去するステップを含む、請求項１に記載の方法。
前記記憶された入力オーディオ信号の１つまたは複数の区分を除去するステップは、音声を含まない１つまたは複数の区分を除去するステップを含む、請求項１に記載の方法。
前記記憶された入力オーディオ信号の１つまたは複数の区分を除去するステップは、（ｉ）無音を備える区分、（ｉｉ）非周期的コンテンツを備える区分、および（ｉｉｉ）周期的コンテンツを備える区分に基づいて、前記入力オーディオ信号の区分を分類するステップを含み、前記方法は、分類（ｉ）区分の除去を第１に、分類（ｉｉ）区分の除去を第２に、および分類（ｉｉｉ）区分の除去を第３に優先順位付けするステップをさらに含む、請求項１に記載の方法。
前記遅延が前記閾値持続時間未満であることを決定するステップは、前記遅延が、前記入力オーディオ信号の１つの基本周期未満であることを決定するステップを含む、請求項１に記載の方法。
前記遅延が前記閾値持続時間未満であることを決定するステップに応答して、
前記入力オーディオ信号が無音を備えることを決定するステップと、
応答的に、前記入力オーディオ信号を前記対応する出力信号として供給することによって、リアルタイム再生に戻るようにジャンプを行うステップと
をさらに含む、請求項１に記載の方法。
オーディオ信号を自動ミキシングするためのシステムであって、
入力オーディオ信号を受信するように構成されたマイクロフォンと、
前記入力オーディオ信号に対応する出力オーディオ信号を再生するように構成されたスピーカと、
プロセッサとを備え、前記プロセッサは、
前記入力オーディオ信号を受信することと、
前記入力オーディオ信号を記憶することと、
前記入力オーディオ信号の最初の区分に基づいて、前記入力オーディオ信号が音声を備えることを決定することと、
前記入力オーディオ信号と、前記対応する出力オーディオ信号との間の遅延を決定することと、
前記遅延を縮小することであり、
時間圧縮されたオーディオ信号を作成するように、前記記憶された入力オーディオ信号の１つまたは複数の区分を除去すること、および
前記時間圧縮されたオーディオ信号を、前記対応する出力オーディオ信号として供給すること、
を含む、前記遅延を縮小することと、
前記遅延が閾値持続時間未満であることを決定することと、
応答的に、前記入力オーディオ信号を、前記対応する出力オーディオ信号として供給することと
を行うように構成される、システム。
複数のそれぞれのマイクロフォンオーディオ信号を受信するように構成された複数のマイクロフォンをさらに備え、前記プロセッサは、
前記複数のそれぞれのマイクロフォンオーディオ信号を受信することと、
前記複数のそれぞれのマイクロフォンオーディオ信号の少なくとも一部分を記憶することと、
前記複数のそれぞれのマイクロフォンオーディオ信号のそれぞれの、それぞれの最初の区分に基づいて、第１のマイクロフォンオーディオ信号が音声を備えることを決定することと、
前記入力オーディオ信号を、前記第１のマイクロフォンオーディオ信号として設定することと
を行うようにさらに構成される、請求項１６に記載のシステム。
前記遅延を縮小することは、
前記入力オーディオ信号に適用された円形平均化振幅差関数に基づいて、前記入力オーディオ信号に対応する基本周期を決定することと、
前記基本周期に基づいて、前記入力オーディオ信号に対応する周期的コンテンツを含んだ１つまたは複数のオーディオ区分を決定することと
をさらに含む、請求項１６に記載のシステム。
周期的コンテンツを含んだ前記オーディオ区分は、循環バッファに記憶され、前記記憶された入力オーディオ信号の１つまたは複数の区分を除去することは、周期的コンテンツを含んだ複数の非隣接オーディオ区分を除去することを含む、請求項１８に記載のシステム。
前記遅延を縮小することは、
前記入力オーディオ信号に適用される（ａ）平均二乗平均差関数、（ｂ）自己相関関数、（ｃ）ゼロクロス検出、（ｄ）ＹＩＮアルゴリズム、（ｅ）マクラウドピッチ法、および（ｆ）ピリオドグラムのうちの、１つまたは複数に基づいて、前記入力オーディオ信号に対応する基本周期を決定することと、
前記基本周期に基づいて、前記入力オーディオ信号に対応する周期的コンテンツを含んだ１つまたは複数のオーディオ区分を決定することと
をさらに含む、請求項１６に記載のシステム。
前記遅延を縮小することは、
前記入力オーディオ信号の周波数領域表示の（ａ）高調波積スペクトル、（ｂ）ケプストラムピッチ検出アルゴリズム、（ｃ）スペクトル再割り当て、および（ｄ）最尤推定のうちの、１つまたは複数に基づいて、前記入力オーディオ信号に対応する基本周期を決定することと、
前記基本周期に基づいて、前記入力オーディオ信号に対応する周期的コンテンツを含んだ１つまたは複数のオーディオ区分を決定することと
をさらに含む、請求項１６に記載のシステム。
前記記憶された入力オーディオ信号の１つまたは複数の区分を除去することは、重畳および加算を用いた周波数領域バッファ除去を、前記入力オーディオ信号の前記周波数領域表示に適用することを含む、請求項２１に記載のシステム。
前記記憶された入力オーディオ信号の１つまたは複数の区分を除去することは、時間領域ピッチ同期重畳加算法（ＴＤ−ＰＳＯＬＡ）関数を前記入力オーディオ信号に適用することを含む、請求項１６に記載のシステム。
前記記憶された入力オーディオ信号の１つまたは複数の区分を除去することは、（ｉ）無音を備える区分、（ｉｉ）非周期的コンテンツを備える区分、および（ｉｉｉ）周期的コンテンツを備える区分に基づいて、前記入力オーディオ信号の区分を分類することを含み、前記プロセッサは、分類（ｉ）区分の除去を第１に、分類（ｉｉ）区分の除去を第２に、および分類（ｉｉｉ）区分の除去を第３に優先順位付けするようにさらに構成される、請求項１６に記載のシステム。
前記遅延が前記閾値持続時間未満であることを決定することに応答して、前記プロセッサは、
前記入力オーディオ信号が無音を備えることを決定することと、
応答的に、前記入力オーディオ信号を前記対応する出力信号として供給することによって、リアルタイム再生に戻るようにジャンプを行うことと
を行うようにさらに構成される、請求項１６に記載のシステム。
プロセッサによって実行されたとき、働きのセットを行わせる命令を備えた、非一時的コンピュータ可読メモリであって、
前記働きのセットは、
入力オーディオ信号を受信することと、
前記入力オーディオ信号を記憶することと、
前記入力オーディオ信号の最初の区分に基づいて、前記入力オーディオ信号が音声を備えることを決定することと、
前記入力オーディオ信号と、スピーカに供給される対応する出力オーディオ信号との間の遅延を決定することと、
前記遅延を縮小することであり、
時間圧縮されたオーディオ信号を作成するように、前記記憶された入力オーディオ信号の１つまたは複数の区分を除去すること、および
前記時間圧縮されたオーディオ信号を、前記対応する出力オーディオ信号として供給すること、
を含む、前記遅延を縮小することと、
前記遅延が閾値持続時間未満であることを決定することと、
応答的に、前記入力オーディオ信号を、前記対応する出力オーディオ信号として供給することと
を含む、非一時的コンピュータ可読メモリ。