JP2021525903A - 自動ミキシング用のインテリジェント音声起動のためのシステムおよび方法 - Google Patents

自動ミキシング用のインテリジェント音声起動のためのシステムおよび方法 Download PDF

Info

Publication number
JP2021525903A
JP2021525903A JP2020566629A JP2020566629A JP2021525903A JP 2021525903 A JP2021525903 A JP 2021525903A JP 2020566629 A JP2020566629 A JP 2020566629A JP 2020566629 A JP2020566629 A JP 2020566629A JP 2021525903 A JP2021525903 A JP 2021525903A
Authority
JP
Japan
Prior art keywords
audio signal
input audio
delay
determining
sections
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020566629A
Other languages
English (en)
Other versions
JP7422685B2 (ja
Inventor
マイケル ライアン レスター
マイケル ライアン レスター
ホセ ロベルト レガルブト
ホセ ロベルト レガルブト
デイヴィッド グラント ケイソン
デイヴィッド グラント ケイソン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shure Acquisition Holdings Inc
Original Assignee
Shure Acquisition Holdings Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shure Acquisition Holdings Inc filed Critical Shure Acquisition Holdings Inc
Publication of JP2021525903A publication Critical patent/JP2021525903A/ja
Application granted granted Critical
Publication of JP7422685B2 publication Critical patent/JP7422685B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/0308Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02163Only one microphone
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • G10L21/043Time compression or expansion by changing speed
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • H04M3/568Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants
    • H04M3/569Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants using the instant speaker's algorithm

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Telephone Function (AREA)

Abstract

実施形態は自動ミキサが、音声認識期間の間に受信された音声を失うまたは廃棄することなく、音声検出に基づいて、マイクロフォンをオンおよびオフにゲート制御することを可能にする。例示の方法は、入力オーディオ信号を受信し、記憶するステップを含む。方法はまた、入力オーディオ信号の最初の区分に基づいて、入力オーディオ信号が音声を備えることを決定するステップと、入力オーディオ信号と、スピーカに供給される対応する出力オーディオ信号との間の遅延を決定するステップとを含む。方法はまた、遅延を縮小するステップをさらに含み、遅延を縮小するステップは、時間圧縮されたオーディオ信号を作成するように、記憶された入力オーディオ信号の1つまたは複数の区分を除去するステップと、時間圧縮されたオーディオ信号を、対応する出力オーディオ信号として供給するステップとを含む。方法はまた、遅延が閾値持続時間未満であることを決定するステップと、応答的に、入力オーディオ信号を、対応する出力オーディオ信号として供給するステップとを含む。

Description

相互参照
本出願は、その内容がその全体において本明細書に組み込まれている、2018年5月31日に出願した米国特許仮出願第62/678,863号の優先権を主張するものである。
本出願は、一般にマイクロフォン自動ミキシングのための音声起動に関する。詳細には、本出願は、音声検出、ミックスに含めるための意思決定、および場合によってはチャネル取得の間の、失われた音声を取り除くために、自動ミキシングにおける起動の前にオーディオを圧縮するための新規なシステムおよび方法の使用に関する。
講堂、重役会議室、ビデオ会議状況など、会議およびプレゼンテーション環境は、音源からの音を捕捉するためのマイクロフォンの使用が関わり得る。音源は、例えば、話者を含み得る。捕捉された音は、環境内のスピーカ、テレビ放送、および/またはウェブ放送を通して聴衆に広められ得る。
これらの環境のいくつかにおいて、任意の所与の時点で、オンにされた2つ以上のマイクロフォンが存在することができ、各話者が彼または彼女自身のマイクロフォンを有することを可能にする。自動ミキシングシステムは、2つ以上のマイクロフォンがオーディオを受信していて、スピーカが受信されたオーディオを出力することを試みるときに存在し得る干渉、帰還、および他のオーディオ問題を低減しながら、高品質オーディオ出力をもたらすために、一時に1つのマイクロフォンが「オン」になることを可能にするために用いられ得る。
これらの設定において、自動ミキシングシステムは、マイクロフォンからオーディオを受信し、それを分析して、オーディオが音声、不規則な雑音、または何か他のものであるかを決定することができ、オーディオが音声であると決定した後にのみ、マイクロフォンが「アクティブ」にされ、受信されたオーディオがスピーカを通して再生されるようになる。これは、自動ミキシングシステムが、受信されたオーディオが音声を含むかどうかを決定している時間の間に受信された音声の損失に繋がる。いくつかの場合には、これは最初の音節、さらには音声区分の語全体が失われる可能性があり、それによってユーザエクスペリエンスを低減させることを意味し得る。
したがって、これらの関心事に対処する方法およびシステムに対する機会がある。より具体的には、受信されたオーディオが音声を含むかどうかを決定するために用いられる通常は廃棄される音声を再生することを可能にできる方法およびシステムに対する機会がある。
本発明は上記の問題を、中でも、特に自動ミキシング環境において、音声検出およびチャネル取得の間の失われた音声を低減するために、受信されたオーディオの時間圧縮を、可変速度再生と組み合わせるように設計されたシステムおよび方法をもたらすことによって解決することを目的とする。
第1の例において、方法は、入力オーディオ信号を受信するステップと、入力オーディオ信号を記憶するステップと、入力オーディオ信号の最初の区分に基づいて、入力オーディオ信号が音声を備えることを決定するステップとを含む。方法はまた、入力オーディオ信号と、スピーカに供給される対応する出力オーディオ信号との間の遅延を決定するステップを含む。方法は、遅延を縮小するステップをさらに含み、遅延を縮小するステップは、時間圧縮されたオーディオ信号を作成するように、記憶された入力オーディオ信号の1つまたは複数の区分を除去するステップと、時間圧縮されたオーディオ信号を、対応する出力オーディオ信号として供給するステップとを含む。方法は、遅延が閾値持続時間未満であることを決定するステップをさらに含む。方法は、応答的に、入力オーディオ信号を、対応する出力オーディオ信号として供給するステップをさらに含む。
第2の例において、オーディオ信号を自動ミキシングするためのシステムは、入力オーディオ信号を受信するように構成されたマイクロフォンと、入力オーディオ信号に対応する出力オーディオ信号を再生するように構成されたスピーカと、プロセッサとを含む。プロセッサは、入力オーディオ信号を受信することと、入力オーディオ信号を記憶することと、入力オーディオ信号の最初の区分に基づいて、入力オーディオ信号が音声を備えることを決定することと、入力オーディオ信号と、対応する出力オーディオ信号との間の遅延を決定することとを行うように構成される。プロセッサはまた、遅延を縮小するように構成され、遅延を縮小することは、時間圧縮されたオーディオ信号を作成するように、記憶された入力オーディオ信号の1つまたは複数の区分を除去することと、時間圧縮されたオーディオ信号を、対応する出力オーディオ信号として供給することとを含む。プロセッサは、遅延が閾値持続時間未満であることを決定するようにさらに構成される。プロセッサは、応答的に、入力オーディオ信号を、対応する出力オーディオ信号として供給するようにさらに構成される。
第3の例において、非一時的コンピュータ可読メモリは、プロセッサによって実行されたとき、働きのセットを行わせる、該メモリに記憶された命令を有し、働きのセットは、入力オーディオ信号を受信することと、入力オーディオ信号を記憶することと、入力オーディオ信号の最初の区分に基づいて、入力オーディオ信号が音声を備えることを決定することと、入力オーディオ信号と、スピーカに供給される対応する出力オーディオ信号との間の遅延を決定することとを含む。働きのセットは、遅延を縮小することをさらに含み、遅延を縮小することは、時間圧縮されたオーディオ信号を作成するように、記憶された入力オーディオ信号の1つまたは複数の区分を除去することと、時間圧縮されたオーディオ信号を、対応する出力オーディオ信号として供給することとを含む。働きのセットは、遅延が閾値持続時間未満であることを決定することをさらに含む。働きのセット、応答的に、入力オーディオ信号を、対応する出力オーディオ信号として供給することをさらに含む。
これらおよび他の実施形態、ならびに様々な置換および態様は、本発明の原理が使用され得る様々なやり方を示す例示的実施形態を説明する、以下の詳細な説明および添付の図面から明らかになり、より十分に理解されるであろう。
本開示の実施形態による、複数のマイクロフォンを含む例示的環境の概略表示を示す図である。 本開示の実施形態による例示のシステムの簡略化されたブロック図である。 本開示の実施形態による、入力オーディオ信号、出力オーディオ信号、および遅延を時間と共に示す簡略化されたグラフである。 本開示の実施形態によるオーディオ信号の例示の区分を示す図である。 本開示の実施形態による例示の方法を示すフローチャートである。
以下の説明は、その原理による本発明の1つまたは複数の特定の実施形態を述べ、示し、および例示する。この説明は、本発明を、本明細書で述べられる実施形態に限定するためではなく、当業者がこれらの原理を理解し、その理解によって、本明細書で述べられる実施形態だけでなく、これらの原理に従って思い付き得る他の実施形態にもそれらを応用することができることを可能にするように、本発明の原理を説明し、教示するためにもたらされる。本発明の範囲は、逐語的に、または均等論のもとに、添付の特許請求の範囲内にあり得るすべてのこのような実施形態を包括するものである。
説明および図面において、類似のまたは実質的に同様な要素は、同じ参照番号でラベル付けされ得ることが留意されるべきである。しかし、ときにはこれらの要素は、異なる番号で、例えば、そのようなラベル付けがより明瞭な説明を容易にする場合などにおいて、ラベル付けされ得る。さらに、本明細書に記載される図面は、必ずしも原寸に比例して描かれておらず、いくつかの事例では、比率は一定の特徴をより明瞭に示すために誇張されている場合がある。このようなラベル付けおよび図面の実践は、基礎となる実質的な目的を必ずしも示唆しない。上記で述べられたように、本明細書は全体として捉えられ、本明細書で教示され、当業者に理解されるように、本発明の原理に従って解釈されることが意図される。
本明細書で述べられ示される例示的システム、構成要素、およびアーキテクチャに関してまた、当業者には理解されるように、実施形態は、1つまたは複数のシステム、ハードウェア、ソフトウェア、またはファームウェア構成もしくは構成要素、またはそれらの任意の組み合わせを含む、数多くの構成および構成要素によって具体化され、またはそれらにおいて使用され得ることが理解されるべきである。したがって、図面は、本明細書で企図される実施形態の1つまたは複数のための構成要素を含んだ例示的システムを示すが、各実施形態に関して、システムにおいて1つまたは複数の構成要素はなくてもよく、または必要でない場合もあることが理解されるべきである。
上記のように、多くの環境は、それらの受信されたオーディオを、一時に1つ、スピーカを通して、出力することを目的とする複数のマイクロフォンを利用し得る。例えば、パネルディスカッション、会議、重役会議室、ミーティングなどはすべて、ときには各スピーカが対応するマイクロフォンを有する1対1の関係を有して、複数のスピーカおよび複数のマイクロフォンを含み得る。
近接して同時に動作する複数のマイクロフォンによって引き起こされる帰還、干渉、クロストーク、および他の悪影響を低減するために、自動ミキシングシステムが用いられ得る。自動ミキシングシステムは、所与の時点で1つのマイクロフォンのみがアクティブになることを可能にし得る。どのマイクロフォンがアクティブになるべきかを決定するために、自動ミキシングシステムは、マイクロフォンが音声、雑音、無音、または何らかの他の分類のオーディオを含むかどうかを決定するように、各マイクロフォンによって受信されたオーディオ信号を分析するように構成され得る。しかし、この分析は、ゼロでない時間が完了されることを必要とする。結果として、音声に対して分析されているオーディオ、および分析が完了されつつある間に受信されるオーディオの両方が、失われ得る。これは数十ミリ秒まで小さくなり得るが、いくつかの場合、分析は1秒以上かかる可能性があり、音声の最初の1秒以上が失われることを意味する。これは話者および聴衆が経験するかなり耳障りなものとなり、不十分なユーザエクスペリエンスに繋がり得る。
一般に、自動ミキシングシステムは、音声が受信されているかどうかを決定するために必要な時間と、受信されたオーディオが音声を含むことにシステムが有する信頼度との間のトレードオフを含む。したがって、自動ミキサが、所与のマイクロフォンが音声を受信しているかどうかを決定するために用いられる時間を縮小するとき、自動ミキサはまた、マイクロフォンが実際に音声を受信しているかどうかの信頼度を低減させ、これは自動ミキシングにおいて雑音が含まれるようになる可能性を増加させる。したがって、より速い音声検出を用いることによって、より少ない音声が失われるまたは廃棄される一方で、マイクロフォンが、たとえそれが単に雑音、無音、または他の音声でないものを含んだオーディオを受信していたとしても、誤ってアクティブにされるようになる可能性がより高くなる。
これらの問題を念頭において、本開示の例示の実施形態は、自動ミキシングシステムがマイクロフォンからオーディオを受信し、受信されたオーディオに基づいて、含まれる音声が存在することを決定し、および、かなりの情報を失わずに時間圧縮された入力オーディオを再生することを可能にし得る。これは、マイクロフォン内にオーディオを受信すること、およびオーディオをデータストレージまたはメモリに記憶することによってなされ得る。記憶されたオーディオ信号は、次いで、追加の入力オーディオが継続して受信され、記憶されながら、分析され得る。記憶されたオーディオの最初の部分は、それが音声を含むかどうかを決定するために分析され得る。最初の部分が音声を含む場合、自動ミキサは、最初の部分が受信されたマイクロフォンが、「アクティブ」にされるべきということを決定することができ、これはマイクロフォンによって受信されたオーディオがスピーカを介して出力される、別のデバイスに送信される、また他のやり方でそのオーディオに対して行われる何らかの処置を有するべきであることを意味する。
次いで、マイクロフォンによって受信された入力オーディオがシステムによって出力されること(例えば、リアルタイム再生)を直ちに可能にするのではなく、入力オーディオは連続して記憶され、時間圧縮されることができ、および縮小されたオーディオ信号はシステムによって出力され得る。追加の入力オーディオを受信および圧縮することを継続しながら、縮小されたオーディオ信号を再生することによって、再生は徐々にリアルタイムに追い付くことができる。
オーディオが音声を含むかどうかを決定する分析の持続時間が1秒であった場合、通常は失われたまたは廃棄された可能性のある1秒間の受信されたオーディオが存在することになる。しかし、本明細書で開示される実施形態において、その受信されたオーディオは代わりに、時間圧縮され、遅延を有して出力される(ここで遅延は、入力オーディオが受信されるとき、および対応する出力が供給されるときの間の時間の差に対応する)。次いで、より多くの入力が受信され、圧縮され、および出力されるのに従って、1秒の遅延は時間と共に徐々に縮小される。追加の入力オーディオは、入力オーディオとシステム出力との間の遅延が閾値量(例えば、1ピッチ期間)未満に縮小されるまで、圧縮され、出力される。遅延が閾値未満まで縮小されたとき、システムは、遅延がゼロまで縮小されるように、より小さな時間圧縮を行うことができ(例えば、システムが10msの圧縮を行うようになる場合、システムは、依然として存在する残りの遅延の量に適合する、より小さな圧縮量を選ぶことができる)、その後にシステム出力は単に、マイクロフォンによって受信された圧縮されていない入力オーディオとなる。
本明細書で開示される実施形態の結果として、自動ミキシングシステムは、マイクロフォンに受信されたすべての関連する情報を出力する(すなわち、語または関連する音声が失われない)ように構成され、システムは、大量の音声情報を失うことなく、またはマイクロフォンの誤った起動もしくは「オンへのゲート制御」を可能にすることなく、音声検出でのより高い信頼度を有することができる。本明細書で開示される実施形態はこれらの目標を、システムがリアルタイム再生に追い付くまで、過去のサンプルのバッファから受信されたオーディオを出力し、および現在の出力に対して将来の時点に存在するサンプルとのクロスフェードを利用することによって、2倍まで高速の平均レート(または時間の次元での2倍の圧縮)で、過去からの受信されたオーディオを出力することによって、達成する。出力オーディオ信号、および入力の受信されたオーディオ信号が、時間ベースを解決した(例えば、出力が入力に追い付いた)後、システムは、チャネルが解放され、音声検出の別の反復が必要になるまで、単に新たに受信されたオーディオを出力し、圧縮システムをリセットする。
図1は本明細書で開示される方法およびシステムが用いられ得る例示の環境100を示す。図1は、複数のマイクロフォン102A〜C、コンピューティングデバイス110、およびスピーカ104A〜Bを示す。図1は1つの可能な環境を示すが、本明細書で開示される概念および特徴は、非限定的に、重役会議室、会議室、オフィス、劇場その他を含む、任意の適切な環境に応用され得ることが理解されるべきである。
マイクロフォン102A〜Cは、入力オーディオ信号を受信するように構成された任意のマイクロフォンタイプでよい。いくつかの例において、話す人ごとに1つのマイクロフォンがあってよく、1人または複数の人々がマイクロフォンを共有してよく、または人ごとに複数のマイクロフォンがあってよい。用いられ得るマイクロフォンのタイプは、表面(例えば、テーブル)上にまたはその中に位置決めされ得るバウンダリマイクロフォンおよびボタンマイクロフォン、1つの方向での音に主として敏感なショットガンマイクロフォン、ならびに多くの他のタイプのマイクロフォンを含み得る。各マイクロフォンまたはマイクロフォンのセットは、所与の環境での使用に合わせられた特定のピックアップパターンを有することができる。マイクロフォンに対する典型的なポーラパターンは、全指向性、カーディオイド、サブカーディオイド、スーパーカーディオイド、ハイパーカーディオイド、双指向性、およびアレイビーム形成型パターンを含むことができる。特定のマイクロフォンまたはカートリッジのために選ばれるポーラパターンは、音源がどこに位置するか、望ましくない雑音を除外したいか、および/または他の配慮に依存し得る。
マイクロフォン102A〜Cは、コンピューティングデバイス110に電子的におよび/または通信可能に結合され得る。これは有線を介してよく、または無線でなされてもよい。
入力オーディオ信号は、マイクロフォンに対応する人々112A〜Cのうちの1人によって供給され得る。したがって、入力オーディオ信号は、有声音声、無声音声、無音、雑音、およびその他を含み得る。所与の入力オーディオ信号の要素に関する追加の詳細は、以下でさらに詳しく論じられる。
スピーカ104A〜Bは、オーディオ信号を出力するように構成された任意の適切なスピーカでよい。スピーカ104A〜Bは、コンピューティングデバイス110に電子的におよび/または通信可能に結合され得る。これは有線を通して、または無線でなされ得る。
本明細書で開示される様々な実施形態は、1つまたは複数のマイクロフォンを介して入力オーディオを受信すること、およびスピーカ104A〜Bを介して出力することを述べる。しかし、いくつかの実施形態では、出力は、代わりにまたは追加として、別の場所における遠隔のスピーカへの伝送を含み得る(例えば、遠隔会議環境、ウェブキャストなどにおいて)。したがって、様々な開示される実施形態は、スピーカを介した出力、またはスピーカを用いた信号の出力を述べるが、これらはまた、または代替として、別個の遠隔のスピーカを有する別のデバイスまたはシステム(例えば、遠隔会議システムの遠端)に信号を出力することを指し得ることが理解されるべきである。
図2は、いくつかの点で図1のシステムと同様または同一のシステムの簡略化されたブロック図を示し、マイクロフォン102A〜Nと、コンピューティングデバイス110と、スピーカ104とを含む。
コンピューティングデバイス110は、本明細書で述べられる様々な機能および働きを遂行するように構成された、プロセッサ210とメモリ212とを含む任意の適切なコンピューティングデバイスでよい。いくつかの例において、コンピューティングデバイス110は、自動ミキサ、ラップトップもしくはデスクトップコンピュータ、またはマイクロフォンからのオーディオ信号を受信し、分析するように構成された任意の他のデバイスでよい。
コンピューティングデバイス110は、この開示(および添付の図面)で述べられるものなどの多様な機能または働きを行うように構成され得る。コンピューティングデバイス110は、例えば、プロセッサ210、メモリ212を含む様々な構成要素を含み得る。コンピューティングデバイス110はまた、ディスプレイ、ユーザインタフェース、および/または1つまたは複数の他の電子的構成要素を含み得る。本明細書で開示される例は、物理的に互いに近接して位置し得る、またはそうでない場合がある構成要素を有する、コンピューティングデバイスおよび/またはシステムを指し得ることが理解されるべきである。いくつかの実施形態は、クラウドをベースとするシステムまたはデバイスの形をとることができ、「コンピューティングデバイス」という用語は、分散システムおよびデバイス(クラウドに基づくものなど)、ならびに本明細書で述べられる機能のうちの1つまたは複数を遂行するように構成されたソフトウェア、ファームウェア、および他の構成要素を含むことが理解されるべきである。さらに、上記のように、コンピューティングデバイス110の1つまたは複数の特徴は、物理的に遠隔とすることができ、例えば、通信インタフェースを介してコンピューティングデバイスに通信可能に結合され得る。
プロセッサ210は、汎用プロセッサ(例えば、マイクロプロセッサ)および/または専用プロセッサ(例えば、デジタル信号プロセッサ(DSP))を含み得る。プロセッサ210は、非限定的に、マイクロプロセッサ、マイクロコントローラをベースとするプラットフォーム、集積回路、1つまたは複数のフィールドプログラマブルゲートアレイ(FPGA)、グラフィックスプロセッサユニット(GPU)、および/または1つまたは複数の特定用途向け集積回路(ASIC)など、任意の適切な処理デバイスまたは処理デバイスのセットとすることができる。
メモリ212は、揮発性メモリ(例えば、不揮発性RAM、磁気RAM、強誘電体RAMなどを含むRAM)、不揮発性メモリ(例えば、ディスクメモリ、FLASH(登録商標)メモリ、EPROM、EEPROM、メモリスタをベースとする不揮発性固体メモリなど)、不変メモリ(例えば、EPROM)、読取専用メモリ、および/または大容量記憶デバイス(例えば、ハードドライブ、固体ドライブなど)とすることができる。いくつかの例において、メモリ212は、複数の種類のメモリ、具体的には揮発性メモリおよび不揮発性メモリを含む。
メモリ212は、本開示の方法を動作させるためのソフトウェアなど、命令の1つまたは複数のセットが埋め込まれ得る、コンピュータ可読媒体とすることができる。命令は、本明細書で述べられるような方法またはロジックのうちの1つまたは複数を具体化することができる。例えば、命令は命令の実行の間に、メモリ212のうちの任意の1つまたは複数内、コンピュータ可読媒体内、および/またはプロセッサ210内に完全に、または少なくとも部分的に存在する。
「非一時的コンピュータ可読媒体」および「コンピュータ可読媒体」という用語は、集中化または分散化されたデータベース、および/または命令の1つまたは複数のセットを記憶する関連付けられたキャッシュおよびサーバなど、単一の媒体または複数の媒体を含む。さらに、「非一時的コンピュータ可読媒体」および「コンピュータ可読媒体」という用語は、プロセッサによる実行のための命令のセットを記憶する、エンコードする、または運ぶことができる、またはシステムに本明細書で開示される方法または動作のうちの任意の1つまたは複数を行わせる、任意の有形の媒体を含む。本明細書で用いられる「コンピュータ可読媒体」という用語は、任意のタイプのコンピュータ可読記憶デバイスおよび/または記憶ディスクを含むこと、および伝搬する信号を除外することが明示的に定義される。
プロセッサ210は、所与のマイクロフォン102Aから入力オーディオ信号を受信するように構成され得る。次いでプロセッサ210は、受信された入力オーディオ信号をメモリ212に記憶し得る。いくつかの例において、入力オーディオ信号は循環バッファに記憶され得る。プロセッサ210は、到来するオーディオを、それが受信されるのに従って連続して記憶するように構成され得る。
到来する入力オーディオ信号を記憶することを続けながら、プロセッサ110は、メモリに記憶された入力オーディオ信号の最初の区分を分析して、入力オーディオ信号の最初の区分に基づいて、入力オーディオ信号が音声を備えることを決定することができる。いくつかの例において、最初の区分は入力オーディオ信号の1秒の区分とすることができる。他の例では、入力オーディオ信号のより短いまたはより長い持続時間が用いられ得る。さらに、最初の区分は、圧縮されていない入力オーディオとすることができる。
最初の区分を分析することにおいて、プロセッサ210は、1つまたは複数のフィルタを用いて入力オーディオ信号および/または入力オーディオ信号の最初の区分をフィルタリングすることができる。プロセッサ210はまた、入力オーディオ信号が音声を備えることを示す、様々な音声パターンおよび/または信号要素を検出するために、1つまたは複数のアルゴリズムをオーディオ信号/最初の区分に適用することができる。最初の区分が音声を含むことが決定された場合、コンピューティングデバイス110は、応答的に、マイクロフォン102A(すなわち、入力オーディオ信号をもたらしたマイクロフォン)がアクティブにされるべきであることまたはオンにゲート制御されるべきであることを決定し得る。この分析の全体の処理、およびマイクロフォンがオンにゲート制御されるべきであるとの決定は、おおよそ1秒かかり得る。しかし、特にシステムが、音声の検出の信頼度または確実性と、検出の速度との間の、トレードオフに基づいて動作するように設計される場合、他の持続時間も用いられ得ることが留意されるべきである。
いくつかの例において、コンピューティングデバイス110はまた、オーディオ信号が圧縮可能な周期的コンテンツを含むかどうかの決定に関して、1つまたは複数の信頼度メトリクスを決定し得る。本明細書で述べられる基本周期および他の要素の決定に関して、信頼度メトリクスが決定され得る。
コンピューティングデバイス110はまた、入力オーディオ信号に対応する外部バッファ信号の制御に基づいて、入力オーディオ信号と出力オーディオ信号との間の遅延を測定するように構成され得る。遅延は、入力オーディオ信号の所与の要素(例えば、語、音節、またはオーディオ信号の他の個別の部分など)が受信されるときと、対応する要素が出力されるときとの間の、時間差の測度である。いくつかの例において、特に要素がかなりの量のオーディオ情報を含む場合、対応する出力要素は入力要素と同一となり得る。
遅延は、初めは入力オーディオ信号が音声を備えるかどうかを決定するために必要な時間となり得る。この分析時間の間、入力オーディオはメモリに記憶され続ける。しかし、入力オーディオが音声を含むかどうかについての決定が未だされていないので、入力オーディオは未だ出力されない。したがって、分析が1秒かかる場合、コンピューティングデバイスが入力オーディオ信号は音声を備えると決定する時点での初期遅延量は1秒である。
次いで、入力オーディオ信号が(以下でさらに詳しく論じられるように、1つまたは複数の区分の除去によって)時間圧縮され、出力されるので、入力オーディオ信号と、対応する出力オーディオ信号との間の遅延は縮小される。これは、時間圧縮されたオーディオは、平均で入力速度の2倍までで再生または出力され得、結果として遅延の縮小となるからである。したがって圧縮が2倍である場合は、遅延はしたがって、オーディオ信号内に音声があったかどうかを決定するための分析の持続時間とおおよそ同じ持続時間にわたって、ほとんどゼロまで縮小され得る。しかし、圧縮がより少ない場合は、遅延における縮小は、より長い持続時間で遂行され得る。したがって遅延における縮小は、圧縮の量に依存し、音声コンテンツに対して圧縮を適用することの適切さ、および遅延がほとんどゼロまで縮小される持続時間は、圧縮の量に反比例的に対応する。
したがって遅延は、時間圧縮された信号が出力される時間と共に変化する。入力オーディオ信号が音声を備えることが決定された時点において、初期システム遅延の値は、入力オーディオ信号の最初の区分の持続時間である。この初期値はまたこの反復の最大遅延であり、なぜなら時間が進み、入力オーディオ信号が時間圧縮され、出力されるのに従って、遅延は徐々に減少するからである。
コンピューティングデバイス110はプロセッサ210によって、遅延を縮小するように構成され得る。遅延を縮小することは、記憶された入力オーディオ信号の1つまたは複数の区分を除去して、時間圧縮されたまたは「縮小された」オーディオ信号を作成することと、縮小されたオーディオ信号を出力することとを含むことができる。縮小されたオーディオ信号は、それが作成された入力オーディオ信号に対応し、縮小されたオーディオ信号が出力されるのに従って、入力オーディオの所与の要素が受信されたときから、縮小されたオーディオ信号の対応する要素が出力されるときまでの遅延は縮小される。
上記のように、入力オーディオ信号は受信され、メモリに記憶され得る。これは、ますます多くの入力オーディオ信号が受信されるのに従って、それがメモリ内の循環バッファに記憶されるように、ローリングをベースになされ得る。
入力オーディオ信号を時間圧縮するために、1つまたは複数のアルゴリズム、関数、または他の動作がなされ得る。いくつかの例において、入力オーディオ信号は高周波を除去し、信号のDCの側面を取り除くようにフィルタリングされ得る。信号はまた、ダウンサンプリングされ、個別のウィンドウ(例えば、25msウィンドウ)にブロック化され得る。
いくつかの例において、プロセッサ210は、入力オーディオ信号に対応する基本周期を決定し得る。基本周期は、円形平均化振幅差関数(CAMDF:circular averaged magnitude difference function)または他の適切な周期推定関数を、入力オーディオ信号に適用することによって決定され得る。アルゴリズムに関する遅延は、CAMDF、平均二乗平均差関数(ASMDF)、自己相関、ゼロクロス検出、またはYINアルゴリズムもしくはマクラウドピッチ法(MPM)などの組み合わせアルゴリズムなどの、時間領域周期検出を適用することによって最小化され得る。周波数領域技法も、予め定義された周波数マップに対する、ピリオドグラム、高調波積スペクトル、ケプストラム分析、スペクトル再割り当て、Grandke補間、および最尤推定など、待ち時間のトレードオフにおいて用いられ得る。CAMDFまたは他の適切な周期推定関数は、声の予想される基本周波数範囲によって束縛され得る。
CAMDFまたは他の適切な周期推定関数を適用することは、信号自己相関の推定を生成することができ、次いでこれは基本周期を検出するために用いられ得る。
いくつかの例において、CAMDFまたは他の適切な周期推定関数は、推定される基本周期を生成し得る。推定される基本周期は、次いで基本周期の、より精密化されたおよびより正確な推定を生成するように、高分解能平均化振幅差関数に渡され得る。
コンピューティングデバイス110は、決定された基本周期が、入力オーディオ信号に対応する1つまたは複数の声門音周期(glottal period)に対応し得ることを決定することができる。声門音周期は、人の口の、彼または彼女が話すのに従った、声門の動きに相関するオーディオ信号の反復周期とすることができる。いくつかの例において、入力オーディオ信号は、最も顕著な声門閉鎖の特徴を決定するために、プロセッサ210によって探索され得る。次いで他の声門閉鎖の特徴が、基本周期および決定された最も顕著な声門閉鎖の特徴に基づいて決定され得る。この情報から、次いで声門音周期が決定され得る。
いくつかの例において、入力オーディオ信号はメモリ212内の循環バッファに記憶され得る。入力オーディオ信号の1つまたは複数の推定される声門音周期が決定された後、オーディオ信号を区分に分解するために、時間領域ピッチ同期重畳加算法(TD−PSOLA:time−domain pitch synchronous overlap add)または他の適切な時間領域クロスフェード処理が用いられ得る。ウィンドウ型周波数領域バッファ(windowed frequency domain buffer)の除去などの、周波数領域時間除去技法も用いられ得る。いくつかの例において、これらの区分は推定される声門音周期とすることができる。縮小されたオーディオ信号を作成するように、入力オーディオ信号から1つまたは複数の区分が除去され得る。1つまたは複数の区分の除去は、信号が、信号のピッチを変えずに時間内に縮小されるようになされ得る。
除去されることになる識別されたオーディオ区分は、オーディオの1つまたは複数の異なる分類に対応し得る。例えば、いくつかの区分は有声音声を含むことができ、いくつかは無声音声を含むことができ、いくつかは無音を含むことができ、およびいくつかは雑音または他のオーディオ信号要素を含むことができる。有声音声は、音素の発音の間に人の声帯が振動するときに生成される音声を指すことができる。例えば、有声音声は、「erase」という語の前半とすることができる。一方、無声音声は、声帯の使用を含まなくてよい。無声音声は、例えば、「erase」という語の後半とすることができる。無音区分は、有声または無声音声を含まない、オーディオ信号の区分とすることができる。分類はまた、周期的コンテンツ、非周期的コンテンツ、および静音または無音コンテンツと呼ばれ得る。
図4は、オーディオ信号のサンプル部分400を示す。図4において、区分410は雑音に対応することができ、区分420は無音に対応することができ、区分430は有声音声に対応することができ、および区分440は無声音声に対応することができる。
オーディオ信号の1つまたは複数の区分を除去するとき、除去は、区分が該当するタイプまたは分類に依存し得る。例えば、オーディオの所与の部分が周期的コンテンツを含む場合は、1つまたは複数の非隣接の推定される周期が除去され得る。具体的な例では、他のすべての推定される周期が除去され得る。
オーディオの部分が非周期的コンテンツを含む場合は、いくつかの例において、除去されるオーディオ区間の長さは、圧縮率を最大化しながら、圧縮の間に良好な主観的オーディオ品質を維持するやり方で決定される。
また、オーディオの部分が無音を含む場合は、除去されるオーディオ区間の長さも、圧縮を最大化しながら、圧縮の間に良好な主観的オーディオ品質を維持するやり方で決定される。
非周期的または無音期間の除去は、時間領域重畳加算法または他の適切な時間領域クロスフェード(TD−PSOLAと同様であるが、ピッチ同期ではない)を用いてなされ得る。
いくつかの例において、所与の入力オーディオ信号は、周期的、非周期的、および無音オーディオ区分の組み合わせを含み得る。これらの例では、コンピューティングデバイス110は、非周期的コンテンツより無音の除去を優先させ、および周期的コンテンツより非周期的コンテンツの除去を優先させるように構成され得る。これは結果として、正しいピッチ維持し、信号の時間の次元を縮小しながら、最も少ない量の関連するオーディオデータの除去となり得る。
除去を優先順位付けすることはまた、他より、1つの分類のより多数を除去することを含み得る。例えば、所与の信号が、無音、周期的コンテンツ、および非周期的コンテンツから構成される、除去されることになる複数の識別されたオーディオ区分を含む場合は、除去は、無音区分のうちのいくつかまたはすべてを除去することのみを含むことができる。他の例において、除去は、あらゆる非周期的コンテンツに対して、比例した量の無音区分を除去すること、または互いに対して何らかの他の比率で、識別されたオーディオ区分を除去することを含むことができる。このようにして、入力オーディオ信号は、出力信号に含まれる音声を理解するために必要な重要なオーディオコンテンツを除去せずに、縮小され得る。
入力オーディオ信号の1つまたは複数の区分が除去された後、残りの区分は、結果としての縮小された出力オーディオ信号を形成するように、組み合わされ得る。縮小された出力オーディオ信号は、次いで出力のためにスピーカに供給され得る。
次いで、時間と共に、追加の入力オーディオが連続して受信され、上述のように時間圧縮されるのに従って、入力オーディオと出力オーディオとの間の遅延は徐々に縮小される。
上記で示されたように、周期的音声コンテンツ、無声音声または雑音コンテンツ、無音、および本明細書で述べられる他の要素の可能性を決定するために、1つまたは複数の信頼度メトリクスが計算され得る。時間圧縮の主観的知覚の可能性を低減するために、オーディオ区分をどれだけ頻繁に除去することになるかを知らせるために、1つまたは複数の他の信頼度メトリクスが用いられ得る。加えて、1つまたは複数の信頼度メトリクスは、同期的除去、非同期的除去を行うか、または圧縮のためのより適切な機会が生じるまで待つかを伝えることができる。
プロセッサ210は、遅延を、それが変化するのに従って監視し、遅延が閾値持続時間未満であることを決定するように構成され得る。遅延が閾値持続時間未満になった後、次いでプロセッサは、時間圧縮を行わずに、入力オーディオを直接出力として供給することができる。これを行うために、プロセッサ210は、圧縮、区分除去、または基本もしくは推定される声門音周期除去を行わずに、縮小されたオーディオ信号を供給することから入力オーディオ信号を直接出力として供給することへ遷移するために、残りの遅延量に適合する、より小さな圧縮を行い得る。
いくつかの例において、閾値は、1つの基本周期、または入力オーディオ信号に対応する、または無音もしくは雑音の間に生じるジャンプに関係する、何らかの他のジャンプ期間とすることができる。プロセッサは、遅延がこの閾値未満であると決定した後、次いでリアルタイム再生に切り換わることができる。
いくつかの例において、プロセッサ210は、現在の入力オーディオ信号が無音を備えると決定する(すなわち、入力が無音になることを待つ)ことができ、次いで応答的に、無音領域の間の良好な主観的オーディオ品質に適したジャンプを行い得る。これは、人が話している最中に、リアルタイム再生への非同期的ジャンプが生じる可能性を低減し、結果として、意味のある情報が失われる確率をより低くする。それはまた、時間圧縮された縮小されたオーディオ信号の出力から、圧縮されていない入力オーディオ信号への最もシームレスな遷移をもたらす。
図3は、入力オーディオ信号対時間、対応する出力オーディオ信号対時間、および入力と出力との間の遅延対時間を示す簡略化されたグラフを示す。
T0からT1まで、コンピューティングデバイスは、入力オーディオ信号が音声を備えるかどうかを決定するために、入力オーディオ信号に対して分析を行うことができる。いくつかの例において、この分析は、分析においてT0からT1までの入力信号を用いて生じ得る。他の例では、分析はT0の前からの入力オーディオ信号を用いて(すなわち、分析の開始の前に受信されたオーディオを用いて)生じ得る。これは、入力オーディオが音声を含むかどうかを決定する処理の始まりの前に、コンピューティングデバイスがオーディオを受信し、記憶するときに生じ得る。
T1において、コンピューティングデバイスは入力オーディオ信号が音声を備えると決定しており、応答的に、マイクロフォンはアクティブにされるべきであることまたはオンにゲート制御されるべきであることを決定する。
またT1において、入力オーディオ信号と対応する出力との間の遅延は、(T1−T0)秒であることが分かる。(T1−T0)秒はまた、入力オーディオ信号が音声を備えることを決定するために必要であった持続時間である。したがってT1において、出力は入力からT1−T0秒だけ遅れているということができる。
T0からT1までの期間の間またはその後に、入力オーディオ信号区分301は記憶され、上述のように時間圧縮される。図3に示される例において、区分301は、ピッチを変化させずに、もとの持続時間の半分まで圧縮される。時間圧縮された信号は、次いでスピーカを介して出力され、T1で始まり、T1.5で終了する。これは図3において区分311として示される。
T1からT1.5まで、縮小されたオーディオ信号区分311が出力されている間、第2の入力オーディオ信号区分302が受信され、記憶され、および上述のように時間圧縮される。図3に示される例において、区分302は、ピッチを変化させずに、もとの持続時間の半分まで圧縮される。時間圧縮された信号は、次いでスピーカを介して出力され、T1.5で始まり、T1.75で終了する。これは区分312として示される。
この処理は、対応するオーディオ信号区分が出力される間、出力が入力に追い付くまで、入力オーディオ信号の後継の区分に対して完了される。入力と対応する出力との間の時間の差は、図3に遅延として視覚化され、これは最大で(T1−T0)秒で始まり、出力が追い付くのに従って徐々に減少する。図3に示される例において、圧縮係数は各区分に対して2倍であり、出力はそれが入力として受信された速度の平均で2倍で再生することを意味する。したがって、T1−T0が1秒である場合、T2−T1も1秒であり(例えば、各時間Tは、1秒の変化に対応する)、次いで受信された入力オーディオの2秒間(T0からT2まで)は、その時間の半分で、T1からT2まで、出力として再生され得る。
次いで時間T2において、出力は入力に追い付き、遅延はほとんどゼロである。この時点で、コンピューティングデバイスは、任意の圧縮または時間縮小を行わずに、入力信号を直接出力として供給するために、無音領域内でジャンプをするように、入力信号内の比較的無音を待つことができる。
図5は、本開示の実施形態による例示の方法500のフローチャートを示す。方法500は、自動ミキサが、音声認識期間の間に受信された音声を失うまたは廃棄することなく、音声検出に基づいてマイクロフォンをオンおよびオフにゲート制御することを可能にすることができる。図5のフローチャートは、メモリ(メモリ212など)に記憶された機械可読命令を表し、プロセッサ(プロセッサ210など)によって実行されたとき、コンピューティングデバイス110および/または1つまたは複数のシステムもしくはデバイスに、本明細書で述べられる1つまたは複数の機能を遂行させることができる1つまたは複数のプログラムを含み得る。例示のプログラムは、図5に示されるフローチャートを参照して述べられるが、本明細書で述べられる機能を遂行するために、多くの他の方法が代替として用いられ得る。例えば、ブロックの実行の順序は、並べ替えられるまたは互いに直列もしくは並列に行われてよく、ブロックは方法500を行うために変更され、取り除かれ、および/または組み合わされてよい。さらに、方法500は図1〜4の構成要素に関連して開示されるので、それらの構成要素のいくつかの機能は、以下では詳しく述べられない。
方法500はブロック502で開始し得る。ブロック504で、方法500は、マイクロフォンを介して入力オーディオ信号を受信するステップを含み得る。ブロック506で、方法500は、入力オーディオ信号を記憶するステップを含み得る。上述のように本明細書の実施形態は、述べられる他の機能または働きと同時発生的に、入力オーディオ信号を、それが受信されるのに従って連続して記憶するステップを含み得る。
ブロック508で、方法500は、入力オーディオ信号が音声を備えるかどうかを決定するステップを含み得る。上記のように、入力オーディオ信号の最初の区分を分析するステップ、1つまたは複数のフィルタを適用するステップ、または他のやり方で信号内の音声の存在を検出するステップを含むことができる。音声が検出されない場合、方法はブロック504に戻って参照する。
音声が検出された場合、方法500は、外部バッファ信号の制御に基づいて、入力オーディオ信号と、対応する出力信号との間の遅延を測定するステップを含み得る。上記のように、この遅延の初期値は、ブロック508でオーディオ信号内に音声があるかどうかを決定するために必要な時間とすることができる。入力オーディオ信号内に音声があると決定された後、入力オーディオ信号は出力され始め得る。したがって、遅延は、音声があるかどうかを決定するために必要な時間のために、導入され得る。
ブロック512で、方法500は、遅延が閾値未満かどうかを決定するステップを含み得る。この閾値は、基本周期、または入力もしくは出力オーディオ信号に対応する何らかの他の期間とすることができる。入力オーディオ信号が最初に出力されるとき、遅延は最大になり得る。最大遅延は、入力オーディオ信号内に音声があるかどうかを決定するために必要な時間とすることができる。
遅延が閾値より大きい場合、方法500はブロック514に進み得る。ブロック514で、方法500は、入力オーディオ信号の1つまたは複数の区分、具体的には無音を含む区分を除去するステップを含み得る。ブロック516で、方法500は、無声音声を含む1つまたは複数の区分を除去するステップを含み得る。ブロック518で、方法500は、有声音声を含んだ1つまたは複数の区分を除去するステップを含み得る。ブロック514、516、および518は、オーディオ信号の様々な区分の除去を含み、これは基本周期に関して上述されたように遂行され得る。
ブロック520で、方法500は縮小されたオーディオ信号を作成するステップを含み得る。この縮小されたオーディオ信号は、時間の次元において圧縮され得るが、周波数またはピッチにおいては何ら圧縮され得ない。
ブロック522で、方法500は、縮小されたオーディオ信号を、出力のためにスピーカに供給するステップを含み得る。上記で示されたように、これはまた、例えば遠隔会議シナリオにおいて、縮小されたオーディオ信号を遠隔のスピーカまたはコンピューティングデバイスに供給するステップを、さらにまたは代替として含み得ることが留意されるべきである。
方法500は次いで、遅延が閾値未満に縮小されたかどうかを決定するように、ブロック512に戻ることができる。遅延が閾値未満である場合、方法500はブロック524に進むことができる。
ブロック524で、方法500は、無音、無声音声、または有声音声を除去するのではなく、入力オーディオを直接スピーカに供給するステップを含み得る。いくつかの例において、ブロック524は、有声音声の基本周期に関係しないジャンプ、または、縮小されたオーディオ信号を供給することから入力オーディオ信号を出力として供給することへの遷移を含み得る。方法500は、次いでブロック526で終了し得る。
本明細書で開示される実施形態は説明のためのものであり、したがって1つまたは複数の処置の順序および時間依存性は逆にされてよく、または様々な処置は同時にまたは同時発生的に生じ得ることが理解されるべきである。例えば、いくつかの例において、オーディオ信号が音声を含むことを決定するステップは、遅延の決定、遅延の縮小、記憶された入力オーディオの1つまたは複数の区分の除去、およびより多くのものと、同時に遂行され得る。いくつかの例は、1つの処置が他に続く線形処理で遂行されるものとして本明細書で述べられ得る。しかし他の例は、本明細書で述べられる処置の1つまたは複数を同時に遂行することを含み得る。
本出願では、離接語の使用は、接続語を含むものである。定冠詞または不定冠詞の使用は基数を表すものではない。具体的には、「the」+対象物、または「a」および「an」+対象物への言及はまた、このような対象物の可能な複数の1つを意味するものである。さらに接続詞「or」は、相互に排他的な代替物ではなく、同時に存在する特徴を伝えるために用いられ得る。言い換えれば、接続詞「or」は、「and/or(および/または)」を含むものと理解されるべきである。用語「includes」、「including」、および「include」という用語は包含的であり、それぞれ「comprises」、「comprising」、および「comprise」と同じ適用範囲を有する。
上述の実施形態、および特に、いずれの「好ましい」実施形態も、実装形態の可能な例であり、単に本発明の原理の明瞭な理解のために説明されるものである。本明細書で述べられる技法の精神および原理から実質的に逸脱せずに、上述の実施形態に対して多くの変形および変更が行われ得る。すべての変更は、この開示の範囲内おいて本明細書に含まれ、添付の特許請求の範囲によって保護されるものである。

Claims (26)

  1. 入力オーディオ信号を受信するステップと、
    前記入力オーディオ信号を記憶するステップと、
    前記入力オーディオ信号の最初の区分に基づいて、前記入力オーディオ信号が音声を備えることを決定するステップと、
    外部バッファ信号の制御に基づいて、前記入力オーディオ信号と、スピーカに供給される対応する出力オーディオ信号との間の遅延を測定するステップと、
    前記遅延を縮小するステップであって、
    時間圧縮されたオーディオ信号を作成するように、前記記憶された入力オーディオ信号の1つまたは複数の区分を除去するステップ、および
    前記時間圧縮されたオーディオ信号を、前記対応する出力オーディオ信号として供給するステップ、
    を含む、前記遅延を縮小するステップと、
    前記遅延が閾値持続時間未満であることを決定するステップと、
    応答的に、前記入力オーディオ信号を、前記対応する出力オーディオ信号として供給するステップと
    を含む、方法。
  2. 前記入力オーディオ信号と前記対応する出力オーディオ信号との間の前記遅延は、時間と共に変化し、前記入力オーディオ信号が音声を備えることが決定された時点において前記入力オーディオ信号の前記最初の区分の持続時間を備える、請求項1に記載の方法。
  3. 前記遅延を縮小するステップは、
    前記入力オーディオ信号に対応する基本周期を決定するステップと、
    前記基本周期に基づいて、前記入力オーディオ信号に対応する除去のための1つまたは複数のオーディオ区分を決定するステップと
    をさらに含む、請求項1に記載の方法。
  4. 前記基本周期は、円形平均化振幅差関数を前記入力オーディオ信号に適用することによって決定される、請求項3に記載の方法。
  5. 前記基本周期は、(a)平均二乗平均差関数、(b)自己相関関数、(c)ゼロクロス検出、(d)YINアルゴリズム、(e)マクラウドピッチ法、および(f)ピリオドグラムのうちの、1つまたは複数を前記入力オーディオ信号に適用することによって決定される、請求項3に記載の方法。
  6. 前記基本周期は、(a)高調波積スペクトル、(b)ケプストラムピッチ検出アルゴリズム、(c)スペクトル再割り当て、および(d)最尤推定のうちの、1つまたは複数を前記入力オーディオ信号の周波数領域表示に適用することによって決定される、請求項3に記載の方法。
  7. 除去のための前記オーディオ区分は、循環バッファに記憶され、前記記憶された入力オーディオ信号の1つまたは複数の区分を除去するステップは、周期的オーディオコンテンツの1つまたは複数の区分を除去するステップを含む、請求項3に記載の方法。
  8. 周期的オーディオコンテンツの1つまたは複数の区分を除去するステップは、複数の非隣接周期的領域を除去するステップを含む、請求項7に記載の方法。
  9. 前記記憶された入力オーディオ信号の1つまたは複数の区分を除去するステップは、時間領域ピッチ同期重畳加算法(TD−PSOLA)関数を前記入力オーディオ信号に適用するステップを含む、請求項1に記載の方法。
  10. 前記記憶された入力オーディオ信号の1つまたは複数の区分を除去するステップは、重畳および加算を用いた周波数領域バッファ除去を、前記入力オーディオ信号の周波数領域表示に適用するステップを含む、請求項1に記載の方法。
  11. 前記記憶された入力オーディオ信号の1つまたは複数の区分を除去するステップは、無声音声を含んだ1つまたは複数の区分を除去するステップを含む、請求項1に記載の方法。
  12. 前記記憶された入力オーディオ信号の1つまたは複数の区分を除去するステップは、音声を含まない1つまたは複数の区分を除去するステップを含む、請求項1に記載の方法。
  13. 前記記憶された入力オーディオ信号の1つまたは複数の区分を除去するステップは、(i)無音を備える区分、(ii)非周期的コンテンツを備える区分、および(iii)周期的コンテンツを備える区分に基づいて、前記入力オーディオ信号の区分を分類するステップを含み、前記方法は、分類(i)区分の除去を第1に、分類(ii)区分の除去を第2に、および分類(iii)区分の除去を第3に優先順位付けするステップをさらに含む、請求項1に記載の方法。
  14. 前記遅延が前記閾値持続時間未満であることを決定するステップは、前記遅延が、前記入力オーディオ信号の1つの基本周期未満であることを決定するステップを含む、請求項1に記載の方法。
  15. 前記遅延が前記閾値持続時間未満であることを決定するステップに応答して、
    前記入力オーディオ信号が無音を備えることを決定するステップと、
    応答的に、前記入力オーディオ信号を前記対応する出力信号として供給することによって、リアルタイム再生に戻るようにジャンプを行うステップと
    をさらに含む、請求項1に記載の方法。
  16. オーディオ信号を自動ミキシングするためのシステムであって、
    入力オーディオ信号を受信するように構成されたマイクロフォンと、
    前記入力オーディオ信号に対応する出力オーディオ信号を再生するように構成されたスピーカと、
    プロセッサとを備え、前記プロセッサは、
    前記入力オーディオ信号を受信することと、
    前記入力オーディオ信号を記憶することと、
    前記入力オーディオ信号の最初の区分に基づいて、前記入力オーディオ信号が音声を備えることを決定することと、
    前記入力オーディオ信号と、前記対応する出力オーディオ信号との間の遅延を決定することと、
    前記遅延を縮小することであり、
    時間圧縮されたオーディオ信号を作成するように、前記記憶された入力オーディオ信号の1つまたは複数の区分を除去すること、および
    前記時間圧縮されたオーディオ信号を、前記対応する出力オーディオ信号として供給すること、
    を含む、前記遅延を縮小することと、
    前記遅延が閾値持続時間未満であることを決定することと、
    応答的に、前記入力オーディオ信号を、前記対応する出力オーディオ信号として供給することと
    を行うように構成される、システム。
  17. 複数のそれぞれのマイクロフォンオーディオ信号を受信するように構成された複数のマイクロフォンをさらに備え、前記プロセッサは、
    前記複数のそれぞれのマイクロフォンオーディオ信号を受信することと、
    前記複数のそれぞれのマイクロフォンオーディオ信号の少なくとも一部分を記憶することと、
    前記複数のそれぞれのマイクロフォンオーディオ信号のそれぞれの、それぞれの最初の区分に基づいて、第1のマイクロフォンオーディオ信号が音声を備えることを決定することと、
    前記入力オーディオ信号を、前記第1のマイクロフォンオーディオ信号として設定することと
    を行うようにさらに構成される、請求項16に記載のシステム。
  18. 前記遅延を縮小することは、
    前記入力オーディオ信号に適用された円形平均化振幅差関数に基づいて、前記入力オーディオ信号に対応する基本周期を決定することと、
    前記基本周期に基づいて、前記入力オーディオ信号に対応する周期的コンテンツを含んだ1つまたは複数のオーディオ区分を決定することと
    をさらに含む、請求項16に記載のシステム。
  19. 周期的コンテンツを含んだ前記オーディオ区分は、循環バッファに記憶され、前記記憶された入力オーディオ信号の1つまたは複数の区分を除去することは、周期的コンテンツを含んだ複数の非隣接オーディオ区分を除去することを含む、請求項18に記載のシステム。
  20. 前記遅延を縮小することは、
    前記入力オーディオ信号に適用される(a)平均二乗平均差関数、(b)自己相関関数、(c)ゼロクロス検出、(d)YINアルゴリズム、(e)マクラウドピッチ法、および(f)ピリオドグラムのうちの、1つまたは複数に基づいて、前記入力オーディオ信号に対応する基本周期を決定することと、
    前記基本周期に基づいて、前記入力オーディオ信号に対応する周期的コンテンツを含んだ1つまたは複数のオーディオ区分を決定することと
    をさらに含む、請求項16に記載のシステム。
  21. 前記遅延を縮小することは、
    前記入力オーディオ信号の周波数領域表示の(a)高調波積スペクトル、(b)ケプストラムピッチ検出アルゴリズム、(c)スペクトル再割り当て、および(d)最尤推定のうちの、1つまたは複数に基づいて、前記入力オーディオ信号に対応する基本周期を決定することと、
    前記基本周期に基づいて、前記入力オーディオ信号に対応する周期的コンテンツを含んだ1つまたは複数のオーディオ区分を決定することと
    をさらに含む、請求項16に記載のシステム。
  22. 前記記憶された入力オーディオ信号の1つまたは複数の区分を除去することは、重畳および加算を用いた周波数領域バッファ除去を、前記入力オーディオ信号の前記周波数領域表示に適用することを含む、請求項21に記載のシステム。
  23. 前記記憶された入力オーディオ信号の1つまたは複数の区分を除去することは、時間領域ピッチ同期重畳加算法(TD−PSOLA)関数を前記入力オーディオ信号に適用することを含む、請求項16に記載のシステム。
  24. 前記記憶された入力オーディオ信号の1つまたは複数の区分を除去することは、(i)無音を備える区分、(ii)非周期的コンテンツを備える区分、および(iii)周期的コンテンツを備える区分に基づいて、前記入力オーディオ信号の区分を分類することを含み、前記プロセッサは、分類(i)区分の除去を第1に、分類(ii)区分の除去を第2に、および分類(iii)区分の除去を第3に優先順位付けするようにさらに構成される、請求項16に記載のシステム。
  25. 前記遅延が前記閾値持続時間未満であることを決定することに応答して、前記プロセッサは、
    前記入力オーディオ信号が無音を備えることを決定することと、
    応答的に、前記入力オーディオ信号を前記対応する出力信号として供給することによって、リアルタイム再生に戻るようにジャンプを行うことと
    を行うようにさらに構成される、請求項16に記載のシステム。
  26. プロセッサによって実行されたとき、働きのセットを行わせる命令を備えた、非一時的コンピュータ可読メモリであって、
    前記働きのセットは、
    入力オーディオ信号を受信することと、
    前記入力オーディオ信号を記憶することと、
    前記入力オーディオ信号の最初の区分に基づいて、前記入力オーディオ信号が音声を備えることを決定することと、
    前記入力オーディオ信号と、スピーカに供給される対応する出力オーディオ信号との間の遅延を決定することと、
    前記遅延を縮小することであり、
    時間圧縮されたオーディオ信号を作成するように、前記記憶された入力オーディオ信号の1つまたは複数の区分を除去すること、および
    前記時間圧縮されたオーディオ信号を、前記対応する出力オーディオ信号として供給すること、
    を含む、前記遅延を縮小することと、
    前記遅延が閾値持続時間未満であることを決定することと、
    応答的に、前記入力オーディオ信号を、前記対応する出力オーディオ信号として供給することと
    を含む、非一時的コンピュータ可読メモリ。
JP2020566629A 2018-05-31 2019-05-30 自動ミキシング用のインテリジェント音声起動のためのシステムおよび方法 Active JP7422685B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201862678863P 2018-05-31 2018-05-31
US62/678,863 2018-05-31
PCT/US2019/034692 WO2019232235A1 (en) 2018-05-31 2019-05-30 Systems and methods for intelligent voice activation for auto-mixing

Publications (2)

Publication Number Publication Date
JP2021525903A true JP2021525903A (ja) 2021-09-27
JP7422685B2 JP7422685B2 (ja) 2024-01-26

Family

ID=66952043

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020566629A Active JP7422685B2 (ja) 2018-05-31 2019-05-30 自動ミキシング用のインテリジェント音声起動のためのシステムおよび方法

Country Status (6)

Country Link
US (2) US10997982B2 (ja)
EP (1) EP3803867B1 (ja)
JP (1) JP7422685B2 (ja)
CN (1) CN112334981B (ja)
TW (1) TWI831787B (ja)
WO (1) WO2019232235A1 (ja)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9554207B2 (en) 2015-04-30 2017-01-24 Shure Acquisition Holdings, Inc. Offset cartridge microphones
US9565493B2 (en) 2015-04-30 2017-02-07 Shure Acquisition Holdings, Inc. Array microphone system and method of assembling the same
US10367948B2 (en) 2017-01-13 2019-07-30 Shure Acquisition Holdings, Inc. Post-mixing acoustic echo cancellation systems and methods
WO2019232235A1 (en) * 2018-05-31 2019-12-05 Shure Acquisition Holdings, Inc. Systems and methods for intelligent voice activation for auto-mixing
CN112335261B (zh) 2018-06-01 2023-07-18 舒尔获得控股公司 图案形成麦克风阵列
US11297423B2 (en) 2018-06-15 2022-04-05 Shure Acquisition Holdings, Inc. Endfire linear array microphone
WO2020061353A1 (en) 2018-09-20 2020-03-26 Shure Acquisition Holdings, Inc. Adjustable lobe shape for array microphones
US11558693B2 (en) 2019-03-21 2023-01-17 Shure Acquisition Holdings, Inc. Auto focus, auto focus within regions, and auto placement of beamformed microphone lobes with inhibition and voice activity detection functionality
CN113841419A (zh) 2019-03-21 2021-12-24 舒尔获得控股公司 天花板阵列麦克风的外壳及相关联设计特征
WO2020191380A1 (en) 2019-03-21 2020-09-24 Shure Acquisition Holdings,Inc. Auto focus, auto focus within regions, and auto placement of beamformed microphone lobes with inhibition functionality
CN114051738B (zh) 2019-05-23 2024-10-01 舒尔获得控股公司 可操纵扬声器阵列、系统及其方法
US11302347B2 (en) 2019-05-31 2022-04-12 Shure Acquisition Holdings, Inc. Low latency automixer integrated with voice and noise activity detection
WO2021041275A1 (en) 2019-08-23 2021-03-04 Shore Acquisition Holdings, Inc. Two-dimensional microphone array with improved directivity
US12028678B2 (en) 2019-11-01 2024-07-02 Shure Acquisition Holdings, Inc. Proximity microphone
CN111031354B (zh) * 2019-12-09 2020-12-01 腾讯科技(深圳)有限公司 一种多媒体播放方法、装置及存储介质
US11552611B2 (en) 2020-02-07 2023-01-10 Shure Acquisition Holdings, Inc. System and method for automatic adjustment of reference gain
US11557288B2 (en) * 2020-04-10 2023-01-17 International Business Machines Corporation Hindrance speech portion detection using time stamps
WO2021243368A2 (en) 2020-05-29 2021-12-02 Shure Acquisition Holdings, Inc. Transducer steering and configuration systems and methods using a local positioning system
US20220232321A1 (en) * 2021-01-21 2022-07-21 Orcam Technologies Ltd. Systems and methods for retroactive processing and transmission of words
EP4285605A1 (en) 2021-01-28 2023-12-06 Shure Acquisition Holdings, Inc. Hybrid audio beamforming system
EP4427465A1 (en) 2021-11-05 2024-09-11 Shure Acquisition Holdings, Inc. Distributed algorithm for automixing speech over wireless networks

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001056696A (ja) * 1999-08-18 2001-02-27 Nippon Telegr & Teleph Corp <Ntt> 音声蓄積再生方法および音声蓄積再生装置
WO2007013180A1 (ja) * 2005-07-27 2007-02-01 Kabushiki Kaisha Audio-Technica 会議用音声システム
JP2008292720A (ja) * 2007-05-24 2008-12-04 Yamaha Corp 音声送信装置
JP2010266778A (ja) * 2009-05-18 2010-11-25 Panasonic Corp 再生装置

Family Cites Families (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4373191A (en) 1980-11-10 1983-02-08 Motorola Inc. Absolute magnitude difference function generator for an LPC system
US5555447A (en) 1993-05-14 1996-09-10 Motorola, Inc. Method and apparatus for mitigating speech loss in a communication system
US5768263A (en) * 1995-10-20 1998-06-16 Vtel Corporation Method for talk/listen determination and multipoint conferencing system using such method
US6480667B1 (en) * 1997-12-23 2002-11-12 Intel Corporation Method of time shifting to simultaneously record and play a data stream
DE69932786T2 (de) 1998-05-11 2007-08-16 Koninklijke Philips Electronics N.V. Tonhöhenerkennung
KR100298300B1 (ko) 1998-12-29 2002-05-01 강상훈 포만트유사도측정에의한피솔라를이용한음성파형부호화방식
US7558381B1 (en) 1999-04-22 2009-07-07 Agere Systems Inc. Retrieval of deleted voice messages in voice messaging system
US6889183B1 (en) 1999-07-15 2005-05-03 Nortel Networks Limited Apparatus and method of regenerating a lost audio segment
US7013267B1 (en) 2001-07-30 2006-03-14 Cisco Technology, Inc. Method and apparatus for reconstructing voice information
CA2359771A1 (en) 2001-10-22 2003-04-22 Dspfactory Ltd. Low-resource real-time audio synthesis system and method
US7130309B2 (en) 2002-02-20 2006-10-31 Intel Corporation Communication device with dynamic delay compensation and method for communicating voice over a packet-switched network
WO2004027754A1 (en) 2002-09-17 2004-04-01 Koninklijke Philips Electronics N.V. A method of synthesizing of an unvoiced speech signal
US6987591B2 (en) 2003-07-17 2006-01-17 Her Majesty The Queen In Right Of Canada, As Represented By The Minister Of Industry Through The Communications Research Centre Canada Volume hologram
US8244536B2 (en) 2003-08-27 2012-08-14 General Motors Llc Algorithm for intelligent speech recognition
US7412376B2 (en) * 2003-09-10 2008-08-12 Microsoft Corporation System and method for real-time detection and preservation of speech onset in a signal
US7830862B2 (en) 2005-01-07 2010-11-09 At&T Intellectual Property Ii, L.P. System and method for modifying speech playout to compensate for transmission delay jitter in a voice over internet protocol (VoIP) network
EP1681670A1 (en) 2005-01-14 2006-07-19 Dialog Semiconductor GmbH Voice activation
US20070174047A1 (en) 2005-10-18 2007-07-26 Anderson Kyle D Method and apparatus for resynchronizing packetized audio streams
KR100883652B1 (ko) 2006-08-03 2009-02-18 삼성전자주식회사 음성 구간 검출 방법 및 장치, 및 이를 이용한 음성 인식시스템
US8280728B2 (en) 2006-08-11 2012-10-02 Broadcom Corporation Packet loss concealment for a sub-band predictive coder based on extrapolation of excitation waveform
US8346546B2 (en) 2006-08-15 2013-01-01 Broadcom Corporation Packet loss concealment based on forced waveform alignment after packet loss
US7974643B2 (en) 2006-11-09 2011-07-05 Qualcomm Incorporated Reducing mobile-terminated call set up by identifying and mitigating overlap between paging and system information broadcast
CN101207468B (zh) 2006-12-19 2010-07-21 华为技术有限公司 丢帧隐藏方法、系统和装置
EP1970894A1 (fr) 2007-03-12 2008-09-17 France Télécom Procédé et dispositif de modification d'un signal audio
EP2381580A1 (en) 2007-04-13 2011-10-26 Global IP Solutions (GIPS) AB Adaptive, scalable packet loss recovery
CN101833954B (zh) 2007-06-14 2012-07-11 华为终端有限公司 一种实现丢包隐藏的方法和装置
CN101325631B (zh) 2007-06-14 2010-10-20 华为技术有限公司 一种估计基音周期的方法和装置
CN101325537B (zh) 2007-06-15 2012-04-04 华为技术有限公司 一种丢帧隐藏的方法和设备
CN101119323A (zh) 2007-09-21 2008-02-06 腾讯科技(深圳)有限公司 解决网络抖动的方法及装置
WO2009109069A1 (en) 2008-03-07 2009-09-11 Arcsoft (Shanghai) Technology Company, Ltd. Implementing a high quality voip device
US9142221B2 (en) * 2008-04-07 2015-09-22 Cambridge Silicon Radio Limited Noise reduction
US9147385B2 (en) 2009-12-15 2015-09-29 Smule, Inc. Continuous score-coded pitch correction
CN101894558A (zh) 2010-08-04 2010-11-24 华为技术有限公司 丢帧恢复方法、设备以及语音增强方法、设备和系统
CN102915737B (zh) 2011-07-31 2018-01-19 中兴通讯股份有限公司 一种浊音起始帧后丢帧的补偿方法和装置
EP3537436B1 (en) 2011-10-24 2023-12-20 ZTE Corporation Frame loss compensation method and apparatus for voice frame signal
PL401372A1 (pl) * 2012-10-26 2014-04-28 Ivona Software Spółka Z Ograniczoną Odpowiedzialnością Hybrydowa kompresja danych głosowych w systemach zamiany tekstu na mowę
CN103903627B (zh) 2012-12-27 2018-06-19 中兴通讯股份有限公司 一种语音数据的传输方法及装置
CN104347076B (zh) 2013-08-09 2017-07-14 中国电信股份有限公司 网络音频丢包掩蔽方法和装置
JP6281336B2 (ja) 2014-03-12 2018-02-21 沖電気工業株式会社 音声復号化装置及びプログラム
US9940944B2 (en) * 2014-08-19 2018-04-10 Qualcomm Incorporated Smart mute for a communication device
US9521057B2 (en) 2014-10-14 2016-12-13 Amazon Technologies, Inc. Adaptive audio stream with latency compensation
US10452339B2 (en) * 2015-06-05 2019-10-22 Apple Inc. Mechanism for retrieval of previously captured audio
US9779755B1 (en) * 2016-08-25 2017-10-03 Google Inc. Techniques for decreasing echo and transmission periods for audio communication sessions
US10290303B2 (en) * 2016-08-25 2019-05-14 Google Llc Audio compensation techniques for network outages
US10475471B2 (en) * 2016-10-11 2019-11-12 Cirrus Logic, Inc. Detection of acoustic impulse events in voice applications using a neural network
US20190295540A1 (en) * 2018-03-23 2019-09-26 Cirrus Logic International Semiconductor Ltd. Voice trigger validator
WO2019232235A1 (en) * 2018-05-31 2019-12-05 Shure Acquisition Holdings, Inc. Systems and methods for intelligent voice activation for auto-mixing

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001056696A (ja) * 1999-08-18 2001-02-27 Nippon Telegr & Teleph Corp <Ntt> 音声蓄積再生方法および音声蓄積再生装置
WO2007013180A1 (ja) * 2005-07-27 2007-02-01 Kabushiki Kaisha Audio-Technica 会議用音声システム
JP2008292720A (ja) * 2007-05-24 2008-12-04 Yamaha Corp 音声送信装置
JP2010266778A (ja) * 2009-05-18 2010-11-25 Panasonic Corp 再生装置

Also Published As

Publication number Publication date
JP7422685B2 (ja) 2024-01-26
US11798575B2 (en) 2023-10-24
TW202004736A (zh) 2020-01-16
WO2019232235A1 (en) 2019-12-05
CN112334981B (zh) 2024-08-13
US10997982B2 (en) 2021-05-04
CN112334981A (zh) 2021-02-05
EP3803867A1 (en) 2021-04-14
EP3803867B1 (en) 2024-01-10
TWI831787B (zh) 2024-02-11
US20220093117A1 (en) 2022-03-24
US20190371354A1 (en) 2019-12-05

Similar Documents

Publication Publication Date Title
JP7422685B2 (ja) 自動ミキシング用のインテリジェント音声起動のためのシステムおよび方法
JP6921907B2 (ja) オーディオ分類および処理のための装置および方法
JP6801023B2 (ja) ボリューム平準化器コントローラおよび制御方法
CN110503976B (zh) 音频分离方法、装置、电子设备及存储介质
JP6053984B2 (ja) 等化器コントローラおよび制御方法
EP2388780A1 (en) Apparatus and method for extending or compressing time sections of an audio signal
JP5103974B2 (ja) マスキングサウンド生成装置、マスキングサウンド生成方法およびプログラム
WO2016063879A1 (ja) 音声合成装置および方法
JP2000511651A (ja) 記録されたオーディオ信号の非均一的時間スケール変更
US8600758B2 (en) Reconstruction of a smooth speech signal from a stuttered speech signal
JP6023823B2 (ja) 音声信号を混合する方法、装置及びコンピュータプログラム
US20120237040A1 (en) System and Method for Automated Audio Mix Equalization and Mix Visualization
US20190281404A1 (en) Adaptive audio construction
JP2009075280A (ja) コンテンツ再生装置
JP5412204B2 (ja) 適応的な話速変換装置及びプログラム
Soens et al. Robust temporal alignment of spontaneous and dubbed speech and its application for Automatic Dialogue Replacement
KR100359988B1 (ko) 실시간 화속 변환 장치
JP2024008102A (ja) 信号処理装置、信号処理プログラム及び信号処理方法
US20140185830A1 (en) Methods, systems, and apparatus for audio backtracking control
EP3327723A1 (en) Method for slowing down a speech in an input media content
JP2024102698A (ja) アバター動作制御装置およびアバター動作制御方法
Mixdorff et al. The Cartoon Task–Exploring Auditory-Visual Prosody in Dialogs

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220527

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230424

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230501

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20230801

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231002

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231218

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240116

R150 Certificate of patent or registration of utility model

Ref document number: 7422685

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150