JP2024501427A - パーベイシブリスニング向けに編成されたギャップ - Google Patents

パーベイシブリスニング向けに編成されたギャップ Download PDF

Info

Publication number
JP2024501427A
JP2024501427A JP2023533817A JP2023533817A JP2024501427A JP 2024501427 A JP2024501427 A JP 2024501427A JP 2023533817 A JP2023533817 A JP 2023533817A JP 2023533817 A JP2023533817 A JP 2023533817A JP 2024501427 A JP2024501427 A JP 2024501427A
Authority
JP
Japan
Prior art keywords
audio
gap
playback
signal
examples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023533817A
Other languages
English (en)
Inventor
グレアム ハインズ,クリストファー
ジョン サウスウェル,ベンジャミン
Original Assignee
ドルビー ラボラトリーズ ライセンシング コーポレイション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ドルビー ラボラトリーズ ライセンシング コーポレイション filed Critical ドルビー ラボラトリーズ ライセンシング コーポレイション
Publication of JP2024501427A publication Critical patent/JP2024501427A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/301Automatic calibration of stereophonic sound system, e.g. with test microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/307Frequency adjustment, e.g. tone control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2227/00Details of public address [PA] systems covered by H04R27/00 but not provided for in any of its subgroups
    • H04R2227/005Audio distribution systems for home, i.e. multi-room use
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

少なくとも第1の時間間隔中のコンテンツストリームの少なくとも第1及び第2オーディオ再生信号の少なくとも第1周波数レンジ内に減衰又は“ギャップ”が挿入されて、少なくとも第1及び第2改変オーディオ再生信号を生成し得る。対応するオーディオ機器再生音が、少なくとも第1及び第2オーディオ機器によって提供され得る。少なくとも1つのマイクロフォンが、少なくとも第1オーディオ機器再生音及び第2オーディオ機器再生音を検出し、対応するマイクロフォン信号を生成し得る。少なくとも第1周波数レンジ内のマイクロフォン信号からオーディオデータが抽出されて、抽出オーディオデータを生成し得る。該抽出オーディオデータに少なくとも部分的に基づいて、遠距離場オーディオ環境インパルス応答及び/又はオーディオ環境雑音が推定され得る。

Description

本出願は、2021年5月4日に出願された米国仮出願第63/201,561号、及び2020年12月8日に出願された米国仮出願第63/120,887号に対する優先権を主張するものであり、それらの全てをそれらの全体にてここに援用する。
この開示は、オーディオ処理システム及び方法に関する。
オーディオ機器及びシステムが広く展開されている。オーディオ環境インパルス応答及びオーディオ環境雑音を推定するための既存のシステム及び方法は、一部の状況において満足のいく結果を提供することができるが、改善されたシステム及び方法が望ましい。
表記及び用語体系
特許請求の範囲中を含め、この開示全体を通して、用語“スピーカ”、“ラウドスピーカ”、及び“オーディオ再生トランスデューサ”は、単一のスピーカフィードによって駆動される任意の音放出トランスデューサ(又はトランスデューサのセット)を表すように同義的に使用される。典型的なヘッドフォンセットは2つのスピーカを含む。スピーカは、単一の共通スピーカフィード又は複数のスピーカフィードによって駆動され得る複数のトランスデューサ(例えば、ウーファ及びツイータ)を含むように実装されることがある。一部の例において、(1つ以上の)スピーカフィードは、異なるトランスデューサに結合された異なる回路分岐において異なる処理を受け得る。
特許請求の範囲中を含め、この開示全体を通して、信号又はデータに“対して”処理を実行するという表現(例えば、信号又はデータをフィルタリングする、スケーリングする、変換する、又はそれに利得を適用する)は、信号又はデータに対して直接的に、あるいは信号又はデータの処理されたバージョンに対して(例えば、処理実行前の予備的なフィルタリング又は前処理を受けた信号のバージョンに対して)、処理を実行することを表すよう、広い意味で使用される。
特許請求の範囲中を含め、この開示全体を通して、
特許請求の範囲中を含め、この開示全体を通して、“システム”という表現は、機器、システム、又はサブシステムを表すよう、広い意味で使用される。例えば、デコーダを実装するサブシステムはデコーダシステムと称されることができ、そのようなサブシステムを含むシステム(例えば、サブシステムが入力のうちのM個を生成し、他のX-M個の入力が外部ソースから受信されて、複数の入力に応答してX個の出力信号を生成するシステム)も、デコーダシステムと称されることができる。
特許請求の範囲中を含め、この開示全体を通して、用語“プロセッサ”は、データ(例えば、オーディオ、又はビデオ若しくは他の画像データ)に対して処理を実行するようにプログラム可能な、又はその他の方法で(例えば、ソフトウェア又はファームウェアを用いて)構成可能なシステム又は機器を表すよう、広い意味で使用される。プロセッサの例は、フィールドプログラマブルゲートアレイ(又は他の構成可能な集積回路若しくはチップセット)、オーディオ若しくは他のサウンドデータに対してパイプライン処理を実行するようにプログラム及び/又はその他の方法で構成されたデジタル信号プロセッサ、プログラマブル汎用プロセッサ若しくはコンピュータ、及びプログラマブルマイクロプロセッサチップ若しくはチップセットを含む。
特許請求の範囲中を含め、この開示全体を通して、用語“結合する”又は“結合される”は、直接的又は間接的のいずれの接続も意味するよう、広い意味で使用される。従って、第1の機器が第2の機器に結合する場合、その接続は、直接的な接続を介してであってもよいし、あるいは、他の機器及び接続を介する間接的な接続を介してであってもよい。
ここで使用されるとき、“スマート機器”は、概して、Bluetooth(登録商標)、Zigbee、近距離通信、Wi-Fi、ライトフィデリティ(Li-Fi)、3G、4G、5Gなどの様々な無線プロトコルを介して1つ以上の他の機器(又はネットワーク)と通信するように構成され、ある程度インタラクティブに及び/又は自律的に動作することができる電子機器である。幾つかの注目すべきタイプのスマート機器は、スマートフォン、スマートカー、スマートサーモスタット、スマートドアベル、スマートロック、スマート冷蔵庫、ファブレット及びタブレット、スマートウォッチ、スマートバンド、スマートキーチェーン、並びにスマートオーディオ機器である。用語“スマート機器”は、例えば人工知能などのユビキタスコンピューティングの一部の特性を示す機器も指し得る。
ここでは、“スマートオーディオ機器”という表現を、単一目的オーディオ機器又は多目的オーディオ機器(例えば、仮想アシスタント機能の少なくとも一部の態様を実装するオーディオ機器)のいずれのスマート機器も表すように使用する。単一目的オーディオ機器は、少なくとも1つのマイクロフォンを含むかそれに結合されるかして(及びオプションで、少なくとも1つのスピーカ及び/又は少なくとも1つのカメラも含むかそれに結合されるかして)、主に又は主として単一の目的を達成するように設計された機器(例えば、テレビジョン(TV))である。例えば、TVは、典型的に、番組素材からのオーディオを再生することができる(及び再生することが可能であると考えられる)が、ほとんどの場合、現代のTVは何らかのオペレーティングシステムを走らせ、その上で、テレビを見るアプリケーションを含むアプリケーションがローカルに走る。この意味で、(1つ以上の)スピーカ及び(1つ以上の)マイクロフォンを有する単一目的オーディオ機器は、しばしば、それら(1つ以上の)スピーカ及び(1つ以上の)マイクロフォンを直接使用するためにローカルアプリケーション及び/又はサービスを走らせるように構成される。ゾーン又はユーザ設定エリアにわたるオーディオの再生を達成するために、幾つかの単一目的オーディオ機器が一緒にグループとなるように構成されることがある。
1つの一般的なタイプの多目的オーディオ機器は、以下のようなオーディオ機器であり、すなわち、仮想アシスタント機能の少なくとも一部の態様を実装するが、仮想アシスタント機能の他の態様は、例えば当該多目的オーディオ機器が通信するように構成される1つ以上のサーバなどの、1つ以上の他の機器によって実装され得るオーディオ機器である。このような多目的オーディオ機器をここでは“仮想アシスタント”と称することがある。仮想アシスタントは、少なくとも1つのマイクロフォンを含むかそれに結合されるかする(及びオプションで、少なくとも1つのスピーカ及び/又は少なくとも1つのカメラも含むかそれに結合されるかする)機器(例えば、スマートスピーカ又は音声アシスタント統合機器)である。一部の例において、仮想アシスタントは、ある意味でクラウド対応である又はその他の方法で仮想アシスタント自体内又は上に完全には実装されないアプリケーションのために複数の機器(仮想アシスタントとは異なる)を利用する能力を提供し得る。換言すれば、例えば音声認識機能といった、仮想アシスタント機能の少なくとも一部の態様が、仮想アシスタントが例えばインターネットなどのネットワークを介して通信し得る1つ以上のサーバ又は他の機器によって(少なくとも部分的に)実装され得る。時々、例えば離散的且つ条件付きで定められる手法で、複数の仮想アシスタントが協働し得る。例えば、2つ以上の仮想アシスタントは、それらのうちの1つ、例えばウェイクワードを聞いたことを最も確信している1つがウェイクワードに応答するという意味で協働し得る。接続されたそれら仮想アシスタントは、一部の実装において、仮想アシスタントとし得る(又はそれを実装し得る)1つのメインアプリケーションによって管理され得る一種のコンステレーションを形成し得る。
ここでは、“ウェイクワード”は、任意のサウンド(例えば、人間によって発声される単語、又は何らかの他の音)を表すよう、広い意味で使用され、スマートオーディオ機器が、(該スマートオーディオ機器に含まれるかそれに結合されるかした少なくとも1つのマイクロフォン、又は少なくとも1つの他のマイクロフォンを用いた)サウンドの検出(“聴き取り”)に応答してアウェイクするように構成される。この文脈において、“アウェイク”するとは、機器がサウンドコマンドを待っている(換言すれば、サウンドコマンドをリッスンしている)状態に入ることを表す。一部の例において、ここで“ウェイクワード”と称され得るものは、例えば句など、2つ以上の単語を含み得る。
ここでは、“ウェイクワード検出器”という表現は、リアルタイムのサウンド(例えば、発話)フィーチャとトレーニングされたモデルとの間のアライメントを継続的に探索するように構成された機器(又は機器を構成するための命令を含むソフトウェア)を表す。典型的に、ウェイクワードイベントは、ウェイクワードが検出された確率が所定の閾値を超えているとウェイクワード検出器によって判定されるたびにトリガされる。例えば、上記閾値は、誤受入れ率と誤拒絶率との間の妥当な妥協を与えるように調整された所定の閾値とし得る。ウェイクワードイベントに続いて、機器は、コマンドをリッスンし、受信したコマンドをより大きくてより計算集約的な認識器に渡す状態(これを“アウェイク”状態又は“注意力”の状態と称し得る)に入り得る。
ここで使用されるとき、用語“番組ストリーム”及び“コンテンツストリーム”は、それらのうち少なくとも一部が共に聴かれるように意図された1つ以上のオーディオ信号、一部の例ではビデオ信号、の集まりを指す。例には、音楽のセレクション、映画サウンドトラック、映画、テレビ番組、テレビ番組のオーディオ部分、ポッドキャスト、ライブ音声通話、スマートアシスタントからの合成音声応答などが含まれる。一部の例において、コンテンツストリームは、例えば2つ以上の言語での同じ会話といった、オーディオ信号の少なくとも一部の複数バージョンを含み得る。そのような例において、同時にはオーディオデータの1つのバージョン又はその一部(例えば、単一言語に対応するバージョン)のみが再生されることが意図される。
本開示の少なくとも一部の態様は、1つ以上のオーディオ処理方法によって実装され得る。一部の例において、それら(1つ以上の)方法は、少なくとも部分的に、制御システムによって実装されることができ、及び/又は1つ以上の非一時的媒体上に格納された命令(例えば、ソフトウェア)を介して実装されることができる。一部の方法は、制御システムにより、コンテンツストリームの第1時間間隔中のコンテンツストリームの第1オーディオ再生信号の第1周波数レンジ内に第1ギャップを挿入させて、オーディオ環境の第1オーディオ機器向けの第1改変オーディオ再生信号を生成することを含み得る。第1ギャップは、第1周波数レンジ内の第1オーディオ再生信号の減衰であるか、それを生じさせるかし得る。
一部のこのような方法は、制御システムにより、第1オーディオ機器に第1改変オーディオ再生信号を再生させて、第1オーディオ機器再生音を生成することを含み得る。一部のこのような方法は、制御システムにより、コンテンツストリームの第1時間間隔中のコンテンツストリームの第2オーディオ再生信号の第1周波数レンジ内に第1ギャップを挿入させて、オーディオ環境の第2オーディオ機器向けの第2改変オーディオ再生信号を生成することを含み得る。一部のこのような方法は、制御システムにより、第2オーディオ機器に第2改変オーディオ再生信号を再生させて、第2オーディオ機器再生音を生成することを含み得る。
一部のこのような方法は、制御システムにより、オーディオ環境の少なくとも1つのマイクロフォンに、少なくとも第1オーディオ機器再生音及び第2オーディオ機器再生音を検出させ、少なくとも第1オーディオ機器再生音及び第2オーディオ機器再生音に対応するマイクロフォン信号を生成させることを含み得る。一部のこのような方法は、制御システムにより、少なくとも第1周波数レンジ内のマイクロフォン信号からオーディオデータを抽出して、抽出オーディオデータを生成することを含み得る。一部のこのような方法は、制御システムにより、抽出オーディオデータに少なくとも部分的に基づいて、遠距離場オーディオ環境インパルス応答又はオーディオ環境雑音のうちの少なくとも一方を推定することを含み得る。
一部のこのような方法はまた、ターゲットオーディオ機器に、コンテンツストリームの未改変オーディオ再生信号を再生させて、ターゲットオーディオ機器再生音を生成することを含み得る。一部のこのような方法はまた、制御システムにより、抽出オーディオデータに少なくとも部分的に基づいて、ターゲットオーディオ機器可聴性又はターゲットオーディオ機器位置のうちの少なくとも一方を推定することを含み得る。一部のこのような例において、未改変オーディオ再生信号は、第1ギャップを含まない。一部のこのような例において、未改変オーディオ再生信号は、いずれの周波数レンジにも挿入されたギャップを含まないとし得る。一部のこのような例によれば、マイクロフォン信号はまた、ターゲットオーディオ機器再生音にも対応し得る。
一部の例によれば、第1改変オーディオ再生信号を生成することは、制御システムにより、コンテンツストリームの第2乃至第N時間間隔中の第1オーディオ再生信号の第2乃至第N周波数レンジ内に第2乃至第Nギャップを挿入させることを含むことができ、ここで、Nは、2より大きい整数である。一部のこのような例において、第2改変オーディオ再生信号を生成することは、制御システムにより、コンテンツストリームの第2乃至第N時間間隔中の第2オーディオ再生信号の第2乃至第N周波数レンジ内に第2乃至第Nギャップを挿入させることを含み得る。
一部の方法は、制御システムにより、コンテンツストリームの第1時間間隔中のコンテンツストリームの第3乃至第Mオーディオ再生信号の第1周波数レンジ内に第1ギャップを挿入させて、オーディオ環境の第3乃至第Mオーディオ機器向けの第3乃至第M改変オーディオ再生信号を生成することを含ことができ、ここで、Mは、3より大きい整数である。一部のこのような方法は、制御システムにより、第3乃至第Mオーディオ機器に第3乃至第M改変オーディオ再生信号のうち対応するものを再生させて、第3乃至第Mオーディオ機器再生音を生成することを含み得る。一部のこのような例において、マイクロフォン信号を生成することは、制御システムにより、オーディオ環境の少なくとも1つのマイクロフォンに第3乃至第Mオーディオ機器再生音を検出させることを含み得る。一部のこのような例において、第1乃至第M改変オーディオ再生信号を生成することは、制御システムにより、コンテンツストリームの第2乃至第N時間間隔中の第1乃至第Mオーディオ再生信号の第2乃至第N周波数レンジ内に第2乃至第Nギャップを挿入させることを含み得る。
一部の例において、少なくとも第1ギャップは知覚的にマスクされ得る。一部の例によれば、第1ギャップを挿入させることは、第1ギャップを挿入するための命令を送信することを含み得る。他の例において、第1ギャップを挿入させることは、第1ギャップを挿入することを含み得る。
一部の例において、少なくとも第1周波数レンジは周波数バンドに対応し得る。一部のこのような例において、周波数バンドは、メル尺度で等間隔にされた複数の周波数バンドのうちの1つとし得る。しかしながら、一部の例において、少なくとも第1の周波数レンジは周波数ビンに対応してもよい。
一部の例によれば、第1オーディオ機器に第1改変オーディオ再生信号を再生させることは、第1改変オーディオ再生信号を再生する命令を第1オーディオ機器に送信することを含み得る。一部の例において、第1改変オーディオ再生信号及び第2改変オーディオ再生信号は、少なくとも部分的に相関性があるとし得る。
ここで説明される動作、機能、及び/又は方法の一部又は全てが、1つ以上の非一時的媒体に格納された命令(例えば、ソフトウェア)に従って1つ以上の機器によって実行され得る。そのような非一時的媒体は、以下に限られないが、ランダムアクセスメモリ(RAM)デバイス、読み出し専用メモリ(ROM)デバイスなどを含め、ここで説明されるものなどのメモリデバイスを含み得る。従って、この開示で説明される主題の一部発明的態様は、ソフトウェアを格納した1つ以上の非一時的媒体を介して実装されることができる。
本開示の少なくとも一部の態様は、装置によって実装されてもよい。例えば、1つ以上の機器が、ここで開示される方法を少なくとも部分的に実行するように構成され得る。一部の実装形態において、装置は、インタフェースシステム及び制御システムを有するオーディオ処理システムであり、又はそれを含む。制御システムは、1つ以上の汎用シングルチップ又はマルチチッププロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)若しくは他のプログラマブルロジックデバイス、ディスクリートのゲート若しくはトランジスタロジック、ディスクリートのハードウェアコンポーネント、又はこれらの組み合わせを含み得る。
この明細書に記載される事項の1つ以上の実装の詳細が、添付の図面及び以下の説明にて記述される。他の特徴、態様、及び利点が、明細書、図面、及び特許請求の範囲から明らかになる。なお、以下の図の相対的な寸法は、縮尺通りに描かれていないことがある。
様々な図における似通った参照符号及び名称は同様の要素を指し示す。
オーディオ環境内の背景雑音を推定するためのシステムの一例を示している。 オーディオ環境の一例を示している。 この開示の様々な態様を実装することが可能な装置のコンポーネントの例を示すブロック図である。 改変オーディオ再生信号のスペクトログラムの一例である。 周波数ドメインにおけるギャップの一例を示すグラフである。 時間ドメインにおけるギャップの一例を示すグラフである。 オーディオ環境の複数のオーディオ機器向けに編成されたギャップを含む改変オーディオ再生信号の一例を示している。 ギャップを作成するのに使用されるフィルタ応答と、測定セッション中に使用されるマイクロフォン信号の周波数領域を測定するのに使用されるフィルタ応答との例を示すグラフである。 図3B、3C、3D、3E、3F、3G、3H、3I、及び3Jは、ギャップ割り当て戦略の例を示すグラフである。 図3B、3C、3D、3E、3F、3G、3H、3I、及び3Jは、ギャップ割り当て戦略の例を示すグラフである。 図3B、3C、3D、3E、3F、3G、3H、3I、及び3Jは、ギャップ割り当て戦略の例を示すグラフである。 図3B、3C、3D、3E、3F、3G、3H、3I、及び3Jは、ギャップ割り当て戦略の例を示すグラフである。 図3B、3C、3D、3E、3F、3G、3H、3I、及び3Jは、ギャップ割り当て戦略の例を示すグラフである。 図3B、3C、3D、3E、3F、3G、3H、3I、及び3Jは、ギャップ割り当て戦略の例を示すグラフである。 図3B、3C、3D、3E、3F、3G、3H、3I、及び3Jは、ギャップ割り当て戦略の例を示すグラフである。 図3B、3C、3D、3E、3F、3G、3H、3I、及び3Jは、ギャップ割り当て戦略の例を示すグラフである。 図3B、3C、3D、3E、3F、3G、3H、3I、及び3Jは、ギャップ割り当て戦略の例を示すグラフである。 図4、図5A、及び図5Bは、一部の実装に従った、複数のオーディオ機器がどのように協調して測定セッションを行うのかの例を示すフロー図である。 図4、図5A、及び図5Bは、一部の実装に従った、複数のオーディオ機器が測定セッションをどのようにして連携させるのかの例を示すフロー図である。 図4、図5A、及び図5Bは、一部の実装に従った、複数のオーディオ機器が測定セッションをどのようにして連携させるのかの例を示すフロー図である。 測定セッションに参加し、基準データを共有する2つの編成されたオーディオ機器の例を示している。 オーディオ環境内のオーディオ機器に対応する可聴性グラフの例を示している。 オーディオ環境の他の一例を示している。 オーディオ環境の他の一例を示している。 例えば図1Cに示したものなどの装置によって実行され得る方法の一例を概説するフロー図である。 編成ギャップ挿入のためのシステムの一例のブロック図を提示している。 開示される方法の他の一例を概説するフロー図である。
メディア及び娯楽コンテンツの感動的な空間再生を達成するには、利用可能なスピーカの物理的レイアウト及び相対的能力が評価されて考慮に入れられるべきである。同様に、高品質の音声駆動インタラクション(仮想アシスタント及び遠隔の話者の両方との)を提供するために、ユーザは、聞かれる必要があるとともに、ラウドスピーカを介して再生される会話を聞く必要もある。より多くの協働機器がオーディオ環境に追加されるにつれて、機器がより一般的に便利な音声範囲内にあることになるので、ユーザに対する組み合わされた有用性が増加することが予想される。より多数のスピーカは、メディアプレゼンテーションの空間性が活用され得るので、より大きな没入感を可能にする。
機器間での十分な協調及び協働は、潜在的に、これらの機会及び経験が実現されることを可能にし得る。各オーディオ機器に関する音響情報は、そのような協調及び協働の重要な要素である。そのような音響情報は、オーディオ環境内の様々な位置からの各ラウドスピーカの可聴性、及びオーディオ環境内の雑音の量を含み得る。
スマートオーディオ機器のコンステレーションをマッピング及び較正する一部の先行方法は、専用の較正手順を必要とし、それによれば、1つ以上のマイクロフォンが記録する間に、既知の刺激がオーディオ機器から再生される(一度に1つのオーディオ機器が再生することが多い)。このプロセスは、創造的なサウンド設計を通じて、限られた層のユーザにとって魅力的なものになり得るが、機器が追加されたり、除去されたり、さらには単に移動されたりするときにプロセスを繰り返し再実行する必要があることが、広範な採用に対する障壁を生じさせる。このような手順をユーザに課すことは、機器の通常動作を妨げることになるとともに、一部のユーザをいら立たせてしまい得る。これまた普及しているさらに初歩的な手法は、ソフトウェアアプリケーション(“アプリ”)を介した手動ユーザ介入、及び/又はユーザがオーディオ環境内のオーディオ機器の物理的位置を指し示すガイド付きプロセスである。このような手法は、ユーザの採用に対する更なる障壁を生じさせ、専用の較正手順よりも比較的少ない情報のみをシステムに提供し得る。
較正及びマッピングアルゴリズムは、一般に、オーディオ環境内の各オーディオ機器について幾らかの基本的な音響情報を必要とする。ある範囲の異なる基本的音響測定及び測定される音響特性を使用する数多くのそのような方法が提案されている。そのようなアルゴリズムでの使用のためにマイクロフォン信号から導出される音響特性の例は、以下を含む:
・ 機器間の物理的距離の推定値(音響測距);
・ 機器間の角度の推定値(到来方向(DoA));
・ 機器間のインパルス応答(例えば、掃引正弦波刺激又は他の測定信号による)の推定値;及び
・ 背景雑音の推定値。
しかしながら、既存の較正及びマッピングアルゴリズムは一般に、例えば、オーディオ環境内での人々の移動や、オーディオ環境内のオーディオ機器の位置変更など、オーディオ環境の音響シーンの変化に応答するようには実装されていない。
再生コンテンツをマイクロフォン出力信号と相関させることを試み、そして、マイクロフォンによってキャプチャされた再生コンテンツ(“エコー”と呼ばれている)の推定値をマイクロフォン出力から減算することによって、マイクロフォン出力信号(背景雑音及び再生コンテンツの両方を示す)から背景雑音を推定することの問題に対処することが提案されている。マイクロフォンが音をキャプチャするときに生成されるマイクロフォン出力信号のコンテンツは、(1つ以上の)スピーカから発せられる再生コンテンツX及び背景雑音Nを示し、WX+Nと表されることができ、ここで、Wは、再生コンテンツを示す音を発する(1つ以上の)スピーカと、マイクロフォンと、音が(1つ以上の)スピーカからマイクロフォンまで伝播する環境(例えば、部屋)と、によって決定される伝達関数である。例えば、雑音Nを推定するための学術的に提案されている方法(図1Aを参照して説明される)では、線形フィルタW’が、マイクロフォン出力信号からの減算のためのエコー(マイクロフォンによってキャプチャされた再生コンテンツ)WXの推定W’Xを容易にするように適応される。システムに非線形性が存在する場合であっても、計算コストのために、フィルタW’の非線形実装はめったに実施されない。
図1Aは、オーディオ環境内の背景雑音を推定するためのシステムの一例を示している。この例において、図1Aは、再生コンテンツを示す音を(1つ以上の)スピーカが発するオーディオ環境内の背景雑音を推定するための上述の従来方法(エコーキャンセレーションと呼ばれることがある)を実装するためのシステムの図である。オーディオ環境E内のスピーカシステムS(例えば、1つのスピーカ)に再生信号Xが与えられる。同じオーディオ環境E内にマイクロフォンMが位置する。再生信号Xに応答して、スピーカシステムSが音を発し、それが、環境雑音N及びユーザ発話LとともにマイクロフォンMに到達する。マイクロフォン出力信号は、Y=WX+N+Lであり、Wは、スピーカシステムS、再生環境E、及びマイクロフォンMの合成応答である伝達関数を表す。
図1Aのシステムによって実施される一般的な方法は、様々な適応フィルタ法のうちのいずれかを使用して、Y及びXから伝達関数Wを適応的に推論するものである。図1Aに示すように、伝達関数の近似W’であるように線形フィルタW’が適応的に決定される。マイクロフォン信号Mによって示される再生信号コンテンツ(“エコー”)はW’Xとして推定され、W’XがYから減算されて、雑音N及びユーザ発話Lの推定値Y’=WX-W’X+N+Lを生み出す。雑音補償用途にとって興味深いことに、Y’に比例してXのレベルを調整することは、正のバイアスが推定に存在する場合にフィードバックループを生じさせる。Y’の増加はXのレベルを増加させることになり、それがN及びLの推定値(Y’)に上向きバイアスを導入し、それがXのレベルを増加させることになり、以下同様である。この形式のソリューションは、かなりの量のエコーWXをマイクロフォン信号Mから除去するためにYからのW’Xの減算を生じさせる適応フィルタW’の能力に大きく依存する。
図1Aのシステムを安定に保つためには、通常、信号Y’の更なるフィルタリングが必要とされる。当該分野における大抵の雑音補償形態は精彩を欠いた性能を示すので、大抵のソリューションは典型的に、雑音推定を下方にバイアスし、システムを安定に保つために積極的な時間平滑化を導入する可能性が高い。これは、抑制されて非常にゆっくり作用する補償という犠牲を伴う。
雑音推定のための上述の学術的方法を実装すると主張しているシステム(図1Aを参照して説明するタイプの)の従来実装は、通常、実装されるプロセスに付随する問題を無視しており、該問題とは、以下のうちの一部又は全てを含む:
・ ソリューションの学術的シミュレーションが40dB以上のエコー低減を示すにもかかわらず、実際の実装は概して、非線形性、背景雑音の存在、及びエコー経路Wの非定常性に起因して、40dBを遥かに下回るエコー低減しか達成しない;
・ そのようなシステムでは環境雑音及び特定の再生コンテンツが“リーク”を引き起こすときがある(例えば、再生コンテンツが、バズ音(buzz)、ラトル音(rattle)、及び歪みに起因して、再生システムの非線形領域を励起するとき)。これらの例において、マイクロフォン出力信号はかなりの量の残留エコーを含み、それが背景雑音として誤って解釈されることになる。そのような場合、残留誤差信号が大きくなるので、フィルタW’の適応も不安定になり得る。また、マイクロフォン信号が高レベルの雑音によって損なわれるとき、フィルタW’の適応が不安定になり得る;及び
・ 広い周波数レンジ(例えば、典型的な音楽の再生をカバーするもの)にわたって動作する雑音補償メディア再生(noise compensated media playback,NCMP)を実行するのに有用な雑音推定値(Y’)を生成するのに必要な計算複雑性が高い。
環境雑音条件を補償するための雑音補償(例えば、スピーカ再生コンテンツの自動的なレベリング)は、よく知られており、望まれる機能であるが、以前は最適なやり方で実装されていなかった。マイクロフォンを用いて環境雑音条件を測定すると、スピーカ再生コンテンツも測定し、雑音補償を実施するために必要とされる雑音推定(例えば、オンライン雑音推定)についての大きな難題を提示する。
オーディオ環境内の人は一般に、任意の所与の部屋の臨界音響距離の外側にいるとし得るので、同様の距離だけ離れた他の機器から導入されるエコーが依然として著しいエコー影響を表し得る。洗練されたマルチチャネルエコーキャンセレーションが利用可能であり、且つ要求性能を何らかの形で達成する場合であっても、キャンセラにリモートエコー基準を提供する器材は、許容できない帯域幅及び複雑さのコストを有し得る。
一部の開示される実装は、人、機器、及びオーディオ条件(例えば雑音及び/又はエコーなど)を含む音響空間の絶え間ない(例えば、連続した、又は少なくとも進行中の)特徴付けを介して、オーディオ環境内のオーディオ機器のコンステレーションを継続的に較正する方法を提供する。一部の開示される例において、そのようなプロセスは、オーディオ環境のオーディオ機器をよってメディアが再生されている間であっても継続する。
ここで使用されるとき、再生信号内の“ギャップ”は、そこで(又はその中で)再生コンテンツが欠落している(又は所定の閾値未満のレベルを持つ)再生信号の時間(又は時間間隔)を表す。例えば、“ギャップ”は、ある時間間隔中の、ある周波数レンジ内の、再生コンテンツの減衰とし得る。一部の開示される実装において、コンテンツストリームのオーディオ再生信号の1つ以上の周波数レンジ内にギャップを挿入して、改変オーディオ再生信号を生成することができ、改変オーディオ再生信号がオーディオ環境内で再生又は“プレイバック”され得る。一部のそのような実装において、N個の時間間隔中のオーディオ再生信号のN個の周波数レンジにN個のギャップが挿入され得る。
一部のそのような実装形態によれば、M個のオーディオ機器がそれらのギャップを時間及び周波数において編成し、それによって、ギャップ周波数及び時間間隔における(各機器それぞれに対する)遠距離場の正確な検出を可能にし得る。これらの“編成(orchestrated)ギャップ”は本開示の重要な態様である。一部の例において、Mは、オーディオ環境の全てのオーディオ機器に対応する数とし得る。一部の例において、Mは、ターゲットオーディオ機器を除いたオーディオ環境の全てのオーディオ機器に対応する数であってもよく、ターゲットオーディオ機器とは、例えば、当該ターゲットオーディオ機器の相対的な可聴性、位置、非線形性、及び/又は他の特性を評価するために、それが再生したオーディオがオーディオ環境のM個の編成された機器の1つ以上のマイクロフォン(例えば、オーディオ環境のM個の編成されたオーディオ機器の1つ以上のマイクロフォン)によってサンプリングされるオーディオ機器である。一部の例において、ターゲットオーディオ機器は、いずれの周波数レンジにも挿入されたギャップを含まない未改変オーディオ再生信号を再生し得る。他の例において、Mは、オーディオ環境のオーディオ機器のうちのサブセット、例えば、複数の参加している非ターゲットオーディオ機器、に対応する数であってもよい。
編成ギャップは、オーディオ環境内のリスナーに対して低い知覚的影響(例えば、無視できる知覚的影響)しか持たないことが望ましい。従って、一部の例において、ギャップパラメータは、知覚的影響を最小限に抑えるように選択され得る。
一部の例において、改変オーディオ再生信号がオーディオ環境内で再生されている間に、ターゲット機器は、いずれの周波数レンジにも挿入されたギャップを含まない未改変オーディオ再生信号を再生し得る。そのような例において、ターゲット機器の相対的な可聴性及び/又は位置は、改変オーディオ再生信号を再生しているM個のオーディオ機器の視点から推定され得る。
図1Bは、オーディオ環境の一例を示している。ここで提供される他の図と同様に、図1Bに示す要素のタイプ及び数は単に例として与えられるに過ぎない。他の実装は、より多くの、より少ない、及び/又は異なるタイプ及び数の要素を含み得る。
この例によれば、オーディオ環境100は、主居住空間101aと、主居住空間101aに隣接する部屋101bとを含んでいる。ここでは、壁102とドア111が、主居住空間101aを部屋101bから仕切っている。この例において、主居住空間101aと部屋101bとの間の音響分離の量は、ドア111が開いているのか閉じているのかに依存し、開いている場合、ドア111が開いている程度に依存する。
図1Bに対応する時点において、スマートテレビ(TV)103aがオーディオ環境100内に位置する。この例によれば、スマートTV103aは、左ラウドスピーカ103b及び右ラウドスピーカ103cを含む。
この例において、図1Bに対応する時点で、スマートオーディオ機器104、105、106、107、108、及び109もオーディオ環境100内に位置する。この例によれば、スマートオーディオ機器104-109の各々が、少なくとも1つのマイクロフォン及び少なくとも1つのラウドスピーカを含む。しかしながら、この例において、スマートオーディオ機器104-109は、様々な能力を持った様々なサイズのラウドスピーカを含む。
この例によれば、少なくとも1つの音響イベントがオーディオ環境100内で発生している。この例では、音声コマンド112を発している話者110によって1つの音響イベントが発生される。
この例において、別の音響イベントが、少なくとも部分的に可変要素103によって発生される。ここでは、可変要素103はオーディオ環境100のドアである。この例によれば、ドア103が開くと、環境の外側からの音105が、オーディオ環境100の内側でいっそう明瞭に知覚され得る。さらに、ドア103の角度が変わることが、オーディオ環境100内のエコー経路の一部を変化させる。この例によれば、要素104は、ドア103の位置を変えることによって生じるオーディオ環境100のインパルス応答の可変要素を表す。
図1Cは、この開示の様々な態様を実装することが可能な装置のコンポーネントの例を示すブロック図である。ここで提供される他の図と同様に、図1Cに示す要素のタイプ及び数は単に例として与えられるに過ぎない。他の実装は、より多くの、より少ない、及び/又は異なるタイプ及び数の要素を含み得る。一部の例によれば、装置150は、ここに開示される方法の少なくとも一部を実行するように構成され得る。一部の実装において、装置150は、オーディオシステムの1つ以上のコンポーネントであってもよいし、それを含んでいてもよい。例えば、装置150は、一部の実装形態において、例えばスマートオーディオ機器などのオーディオ機器とし得る。図1Bに示す例において、スマートTV103a及びスマートオーディオ機器104-109は装置150の例である。一部の例によれば、図1Bのオーディオ環境100は、ここでスマートホームハブと称することがあるものなどの編成側機器を含み得る。スマートホームハブ(又は他の編成側機器)は、装置150の例とし得る。他の例において、装置150は、モバイル機器(例えばセルラー電話など)、ラップトップコンピュータ、タブレット機器、テレビ、又は他のタイプの機器であってもよい。
一部の代わりの実装によれば、装置150はサーバであるかそれを含むかであってもよい。一部のそのような例において、装置150はエンコーダであるかそれを含むかであってもよい。従って、一部の例において、装置150は、例えばホームオーディオ環境などのオーディオ環境内での使用向けに構成された機器であることができ、他の例において、装置150は、例えばサーバといった、“クラウド”内での使用向けに構成された機器であることができる。
この例において、装置150は、インタフェースシステム155及び制御システム160を含む。インタフェースシステム155は、一部の実装において、オーディオ環境の1つ以上の他の機器と通信するように構成され得る。オーディオ環境は、一部の例において、ホームオーディオ環境とし得る。他の例において、オーディオ環境は、例えばオフィス環境、自動車環境、列車環境、街路若しくは歩道環境、公園環境などの、他のタイプの環境であってもよい。インタフェースシステム155は、一部の実装において、オーディオ環境のオーディオ機器と制御情報及び関連データを交換するように構成され得る。制御情報及び関連データは、一部の例において、装置150が実行している1つ以上のソフトウェアアプリケーションに関係し得る。
インタフェースシステム155は、一部の実装において、コンテンツストリームを受信又は提供するように構成され得る。コンテンツストリームはオーディオデータを含み得る。オーディオデータはオーディオ信号を含み得るが、それに限られない。一部の例において、オーディオデータは、例えばチャネルデータ及び/又は空間メタデータなどの空間データを含み得る。メタデータは、例えば、ここで“エンコーダ”として参照されることがあるものによって提供されているとし得る。一部の例において、コンテンツストリームは、ビデオデータと、該ビデオデータに対応するオーディオデータとを含み得る。
インタフェースシステム155は、1つ以上のネットワークインタフェース及び/又は1つ以上の外部機器インタフェース(例えば1つ以上のユニバーサルシリアルバス(USB)インタフェースなど)を含み得る。一部の実装によれば、インタフェースシステム155は、1つ以上の無線インタフェースを含み得る。インタフェースシステム155は、例えば1つ以上のマイクロフォン、1つ以上のスピーカ、ディスプレイシステム、タッチセンサシステム、及び/又はジェスチャセンサシステムなどの、ユーザインタフェースを実装するための1つ以上の機器を含み得る。一部の例において、インタフェースシステム155は、制御システム160と、例えば図1Cに示すオプションのメモリシステム165などのメモリシステムとの間の1つ以上のインタフェースを含み得る。しかしながら、一部の例において、制御システム160がメモリシステムを含んでいてもよい。インタフェースシステム155は、一部の実装において、環境内の1つ以上のマイクロフォンから入力を受信するように構成され得る。
一部の実装において、制御システム160は、ここに開示される方法を少なくとも部分的に実行するように構成され得る。制御システム160は、例えば、汎用のシングルチップ又はマルチチッププロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、又は他のプログラマブルロジックデバイス、ディスクリートのゲート若しくはトランジスタロジック、及び/又はディスクリートのハードウェアコンポーネントを含み得る。
一部の実装において、制御システム160は、2つ以上の機器内に存在してもよい。例えば、一部の実装では、制御システム160の一部が、ここに描かれる環境のうちの1つ内の機器内に存在し、制御システム160の他の一部が、例えばサーバ、モバイル機器(例えば、スマートフォン若しくはタブレットコンピュータ)などの、環境の外部にある機器内に存在し得る。他の例において、制御システム160の一部が、ここに描かれる環境のうちの1つ内の機器内に存在し、制御システム160の他の一部が、環境の1つ以上の他の機器内に存在してもよい。例えば、制御システム機能は、環境の複数のスマートオーディオ機器にわたって分散されてもよく、あるいは、編成側機器(例えば、ここでスマートホームハブと称され得るものなど)及び環境の1つ以上の他の機器によって共有されてもよい。他の例において、制御システム160の一部が、例えばサーバなどの、クラウドベースのサービスを実装している機器内に存在し、制御システム160の他の一部が、例えば他のサーバ、メモリ機器などの、クラウドベースのサービスを実装している他の機器内に存在してもよい。インタフェースシステム155も、一部の例において、2つ以上の機器内に存在してもよい。
ここで説明される方法の一部又は全てが、1つ以上の非一時的媒体に格納された命令(例えば、ソフトウェア)に従って1つ以上の機器によって実行され得る。そのような非一時的媒体は、以下に限られないが、ランダムアクセスメモリ(RAM)デバイス、読み出し専用メモリ(ROM)デバイスなどを含め、ここで説明されるものなどのメモリデバイスを含み得る。1つ以上の非一時的媒体は、例えば、図1Cに示すオプションのメモリシステム165内及び/又は制御システム160内に存在し得る。従って、この開示で説明される主題の様々な発明的態様は、ソフトウェアを格納した1つ以上の非一時的媒体にて実装されることができる。ソフトウェアは、例えば、ここに開示される方法の一部又は全てを実行するように少なくとも1つの機器を制御するための命令を含み得る。ソフトウェアは、例えば、図1Cの制御システム160などの制御システムの1つ以上のコンポーネントによって実行可能であるとし得る。
一部の例において、装置150は、図1Cに示すオプションのマイクロフォンシステム170を含み得る。オプションのマイクロフォンシステム170は、1つ以上のマイクロフォンを含み得る。一部の例によれば、オプションのマイクロフォンシステム170は、マイクロフォンのアレイを含み得る。マイクロフォンのアレイは、一部の例において、例えば制御システム160からの命令に従って、受信側ビームフォーミング向けに構成され得る。一部の例において、マイクロフォンのアレイは、例えば制御システム160からの命令に従って、到来方向(DoA)及び/又は到来時間(ToA)情報を決定するように構成され得る。代わりに、あるいは加えて、制御システム160は、例えばマイクロフォンシステム170から受信したマイクロフォン信号に従って、到来方向(DoA)及び/又は到来時間(ToA)情報を決定するように構成されてもよい。
一部の実装において、マイクロフォンのうち1つ以上は、例えばスピーカシステムのスピーカ、スマートオーディオ機器など他の機器の一部であるか、それに付随するかであってもよい。一部の例において、装置150はマイクロフォンシステム170を含んでいなくてもよい。しかしながら、一部のそのような実装において、装置150は、とはいえ、インタフェースシステム160を介してオーディオ環境内の1つ以上のマイクロフォンについてのマイクロフォンデータを受信するように構成され得る。一部のそのような実装において、装置150のクラウドベース実装が、インタフェースシステム160を介してオーディオ環境内の1つ以上のマイクロフォンからマイクロフォンデータ又は該マイクロフォンデータに対応するデータを受信するように構成され得る。
一部の実装によれば、装置150は、図1Cに示すオプションのラウドスピーカシステム175を含み得る。オプションのラウドスピーカシステム175は、ここでは“スピーカ”又はより一般的に“オーディオ再生トランスデューサ”と称することもあるものである1つ以上のラウドスピーカを含み得る。一部の例(例えば、クラウドベース実装)において、装置150はラウドスピーカシステム175を含んでいなくてもよい。
一部の実装において、装置150は、図1Cに示すオプションのセンサシステム180を含み得る。オプションのセンサシステム180は、1つ以上のタッチセンサ、ジェスチャセンサ、動き検出器などを含み得る。一部の実装によれば、オプションのセンサシステム180は、1つ以上のカメラを含み得る。一部の実装において、カメラは独立したカメラとし得る。一部の例において、オプションのセンサシステム180の1つ以上のカメラは、単一目的のオーディオ機器又は仮想アシスタントとし得るものであるスマートオーディオ機器内に存在してもよい。一部のそのような例において、オプションのセンサシステム180の1つ以上のカメラは、テレビ、携帯電話、又はスマートスピーカ内に存在してもよい。一部の例において、装置150はセンサシステム180を含んでいなくてもよい。しかしながら、一部のそのような実装において、装置150は、とはいえ、インタフェースシステム160を介してオーディオ環境内の1つ以上のセンサについてのセンサデータを受信するように構成され得る。
一部の実装において、装置150は、図1Cに示すオプションのディスプレイシステム185を含み得る。オプションのディスプレイシステム185は、例えば1つ以上の発光ダイオード(LED)ディスプレイなどの1つ以上のディスプレイを含み得る。一部の例において、オプションのディスプレイシステム185は、1つ以上の有機発光ダイオード(OLED)ディスプレイを含み得る。一部の例において、オプションのディスプレイシステム185は、スマートオーディオ機器の1つ以上のディスプレイを含み得る。他の例において、オプションのディスプレイシステム185は、テレビジョンディスプレイ、ラップトップディスプレイ、モバイル機器ディスプレイ、又は他のタイプのディスプレイを含んでいてもよい。装置150がディスプレイシステム185を含む一部の例において、センサシステム180は、ディスプレイシステム185の1つ以上のディスプレイに近接したタッチセンサシステム及び/又はジェスチャセンサシステムを含み得る。一部のそのような実装によれば、制御システム160は、1つ以上のグラフィカルユーザインタフェース(GUI)を提示するようにディスプレイシステム185を制御するように構成され得る。
一部のそのような例によれば、装置150はスマートオーディオ機器であるか、それを含むかであってもよい。一部のそのような実装において、装置150はウェイクワード検出器であるか、それを含むかであってもよい。例えば、装置150は仮想アシスタントであるか、それを含むかであってもよい。
上述のように、一部の実装において、コンテンツストリームのオーディオ再生信号の1つ以上の周波数レンジに1つ以上の“ギャップ”(ここでは“強制ギャップ”又は“パラメータ化強制ギャップ”とも称する)が挿入されて、改変オーディオ再生信号を生成し得る。改変オーディオ再生信号がオーディオ環境内で再生又は“プレイバック”され得る。一部のそのような実装において、N個の時間間隔中のオーディオ再生信号のN個の周波数レンジにN個のギャップが挿入され得る。一部のそのような実装形態によれば、M個のオーディオ機器がそれらのギャップを時間及び周波数において編成し、それによって、ギャップ周波数及び時間間隔における(各機器それぞれに対する)遠距離場の正確な検出を可能にし得る。
一部の例において、各強制ギャップを再生信号の異なる周波数バンド(又はバンドセット)にして一連の強制ギャップが再生信号に挿入され、ギャップが発生する時間間隔中に且つギャップが挿入される(1つ以上の)周波数バンド内で発生するという意味で各強制ギャップ“内”に発生する非再生音をパーベイシブ(pervasive)リスナーがモニタすることを可能にする。図2Aは、改変オーディオ再生信号のスペクトログラムの一例である。この例において、改変オーディオ再生信号は、一例に従ってオーディオ再生信号にギャップを挿入することによって作り出されたものである。より具体的には、図2Aのスペクトログラムを生成するために、開示される方法をオーディオ再生信号に対して実行して、その周波数バンド内に強制ギャップ(例えば、図2Aに示されるギャップG1、G2、及びG3)を導入し、それによって改変オーディオ再生信号を生成した。図2Aに示すスペクトログラムにおいて、横軸に沿った位置は時間を示し、縦軸に沿った位置は、時点における改変オーディオ再生信号のコンテンツの周波数を示す。小さい領域各々(この例では、各サブ領域が、縦及び横の座標を持つ点を中心とする)におけるドットの密度は、対応する周波数及び時点における改変オーディオ再生信号のコンテンツのエネルギーを示しており、密度の高い領域は、コンテンツが大きいエネルギーを持つことを示し、密度の低い領域は、コンテンツが低いエネルギーを持つことを示す。故に、ギャップG1は、ギャップG2又はG3が発生する時間(換言すれば、その間にギャップG2又はG3が発生する時間間隔)よりも早い時間に(換言すれば、時間間隔中に)に発生し、ギャップG1は、ギャップG2又はG3が挿入された周波数バンドよりも高い周波数バンドに挿入されている。
一部の開示される方法に従った再生信号への強制ギャップの導入は、(例えば、ユーザ及びユーザの環境をより良く聞くために)機器がコンテンツの再生ストリームを一時停止するという単純な機器動作とは異なる。一部の開示される方法に従った再生信号への強制ギャップの導入が、再生中に導入ギャップから生じるアーチファクトの知覚可能性を大幅に低減(又は除去)するように最適化されることで、好ましくは、強制ギャップがユーザに知覚可能な影響を持たない又は最小限にしか持たないようにされるが、再生環境内のマイクロフォンの出力信号が強制ギャップを示すように(例えば、ギャップを利用してパーベイシブリスニング法を実現することができるように)される。一部の開示される方法に従って導入された強制ギャップを用いることにより、音響エコーキャンセラを使用しなくても、パーベイシブリスニングシステムが非再生音(例えば、再生環境における背景アクティビティ及び/又は雑音を示す音)をモニタすることができる。
図2B及び図2Cを参照して、次に、オーディオ再生信号の周波数バンドに挿入され得るパラメータ化強制ギャップの例と、そのような強制ギャップのパラメータの選択に関する基準とを説明する。図2Bは、周波数ドメインにおけるギャップの一例を示すグラフである。図2Cは、時間ドメインにおけるギャップの一例を示すグラフである。これらの例において、パラメータ化強制ギャップは、バンド減衰Gを用いた再生コンテンツの減衰であり、時間及び周波数の両方でのそのプロファイルは、図2B及び図2Cに示すプロファイルに似たものである。ここでは、ギャップは、中心周波数f及びバンド幅B(図2Bにも示す)よって定められるレンジ(“バンド”)の周波数にわたって再生信号に減衰Gを適用することによって強制され、減衰は、周波数バンド内の各周波数(例えば、周波数バンド内の各周波数ビン内)において、図2Cに示すものに似たプロファイルで時間の関数として変化する。(バンドにわたる周波数の関数としての)減衰Gの最大値は、(バンドの最低周波数における)0dBから中心周波数f(図2Bに示す)における最大減衰(抑制深さ)Zまで増加するように、そして、(中心周波数より上で周波数の上昇とともに)(バンドの最高周波数における)0dBまで減少する。
この例において、図2Bのグラフは、バンド内の信号のオーディオコンテンツにギャップを強制するためにオーディオ信号の周波数成分に適用される周波数(すなわち、周波数ビン)の関数としてのバンド減衰Gのプロファイルを示している。オーディオ信号は再生信号(例えば、マルチチャネル再生信号のチャネル)とすることができ、オーディオコンテンツは再生コンテンツとすることができる。
この例によれば、図2Cのグラフは、図2Bに示したギャップをバンド内の信号のオーディオコンテンツに強制するために、中心周波数をfとする周波数成分に適用される、時間の関数としてのバンド減衰Gのプロファイルを示している。バンド内の他の周波数成分の各々について、時間の関数としてのバンド利得は、図2Cに示すものと同様のプロファイルを持ち得るが、図2Cの抑制深さZは、補間された抑制深さkZによって置き換えられ得る。ここで、kは、kZが図2Bに示すプロファイルを持つような、(周波数の関数として)この例では0から1までの範囲の係数である。一部の例において、各周波数成分について、減衰Gはまた、例えば、ギャップの導入から生じる音楽的アーチファクトを低減させるために、0dBから抑制深さkZ(例えば、中心周波数において、図2Cに示すようにk=1)まで(例えば、時間の関数として)補間され得る。この後者の補間の3つの領域(時間間隔)t1、t2、及びt3が図2Cに示されている。
従って、ギャップ強制処理が特定の周波数バンド(例えば、図2Bに示すように、中心周波数fを中心とするバンド)に対して行われるとき、この例では、バンド内の各周波数成分(例えば、バンド内の各ビン)に適用される減衰Gは、図2Cに示す軌跡に従う。0dBから開始して、t1秒で深さ-kZ dBまで低下し、t2秒間そこに留まり、そして最後にt3秒で上昇して0dBに戻る。一部の実装において、トータル時間t1+t2+t3は、マイクロフォンフィードを分析するために使用されている周波数変換の時間分解能と、ユーザにとってあまり邪魔にならない妥当な持続時間とを考慮して選択され得る。単一機器実装のためのt1、t2、及びt3の幾つかの例を、下の表1に示す。
一部の開示される方法は、オーディオ再生信号の全周波数スペクトルをカバーし、Bcount個のバンド(Bcountは数であり、例えば、Bcount=49である)を含む所定の固定されたバンディング構造に従って強制ギャップを挿入することを含む。それらのバンドのいずれかにもギャップを強制するために、そのような例におけるバンドにバンド減衰が適用される。具体的には、第jバンドに対し、該バンドによって定義される周波数領域にわたって減衰Gが適用され得る。
以下の表1は、単一機器実装向けの、パラメータt1、t2、t3の値の例、各バンドについての深さZ、及びバンド数Bcountの例を示している。
Figure 2024501427000002
バンドの数及び各バンドの幅を決定する際に、ギャップの知覚的影響と有用性との間にトレードオフが存在し、ギャップを有するより狭いバンドは、それらが典型的により小さい知覚的影響を持つという点でいっそう良好であるのに対して、ギャップを有するより広いバンドは、例えば背景雑音又は再生環境状態の変化に応答して、全周波数スペクトルの全ての周波数バンドにおいて、雑音推定(及び他のパーベイシブリスニング法)を実施するのに、及び新たな雑音推定(又はパーベイシブリスニングによってモニタされる他の値)に収束するのに必要な時間(“収束”時間)を短縮するのに、いっそう良好である。限られた数のギャップのみを一度に強制することができる場合、多数の小さなバンドにおいて順次にギャップを強制する方が、より少数のより大きなバンドにおいて順次にギャップを強制するよりも長い時間がかかることになり、比較的長い収束時間をもたらす。(ギャップを有する)より大きなバンドは、一度に背景雑音(又はパーベイシブリスニングによってモニタされる他の値)についての多くの情報を提供するが、概して、より大きい知覚的影響を持つ。
本発明者による初期の研究では、エコー影響が主に(又は完全に)近距離場である単一機器の状況においてギャップを設けていた。近距離場エコーは、スピーカからマイクロフォンまでのオーディオの直接経路によって大きく影響を受ける。この特性は、より大きなエンクロージャ及びかなりの音響デカップリングを有する機器を例外として、殆ど全ての小型の二重オーディオ機器(例えばスマートオーディオ機器など)に当てはまる。例えば表1に示したものなどの、短くて知覚的にマスクされるギャップを再生に導入することにより、オーディオ機器は、オーディオ機器自体のエコーを通して、オーディオ機器が展開される音響空間を垣間見ることができる。
しかしながら、同じオーディオ環境内で他のオーディオ機器もコンテンツを再生しているとき、本発明者は、単一のオーディオ機器のギャップが、遠距離場エコー破損に起因してあまり有用でなくなることを発見した。遠距離場エコー破損は頻繁に、局所的なエコーキャンセレーションの性能を低下させ、システム全体の性能を有意に悪化させる。遠距離場エコー破損は、様々な理由で除去するのが困難である。1つの理由は、基準信号を取得することが、追加の遅延推定のために、増加したネットワーク帯域幅及び追加の複雑さを必要とし得ることである。さらに、雑音条件が増加し、応答が長くなる(より残響があり、時間的に広がる)につれて、遠距離場インパルス応答を推定することがいっそう困難になる。加えて、遠距離場エコー破損は、通常、近距離場エコー及び他の遠距離場エコー源と相関があり、遠距離場インパルス応答推定を更に難題にする。
本発明者が発見したことには、オーディオ環境内の複数のオーディオ機器がそれらのギャップを時間及び周波数において編成する場合、それら複数のオーディオ機器が改変オーディオ再生信号を再生するときに、(各オーディオ機器に対する)遠距離場のいっそう明瞭な知覚が得られ得る。本発明者がこれまた発見したことには、複数のオーディオ機器が改変オーディオ再生信号を再生するときにターゲットオーディオ機器が未改変オーディオ再生信号を再生する場合、メディアコンテンツが再生されている間であっても、ターゲット機器の相対的な可聴性及び位置を、複数のオーディオ機器の各々の視点から推定することができる。
また、おそらく直観に反して、本発明者が発見したことには、単一機器実装のために以前使用されていたガイドラインを破ること(例えば、表1に示すよりも長い期間にわたってギャップを開いたままにすること)が、複数の機器が編成ギャップを介して協働測定を行うのに適した実装につながる。
例えば、一部の編成ギャップ実装において、(最大でも何十センチメートルか離れ得るものである単一機器上の固定のマイクロフォン-スピーカ音響経路長とは対照的に)メートルのオーダーであり得るオーディオ環境内の複数の分散された機器間の様々な音響経路長(音響遅延)を受け入れるために、t2が、表1に示したものよりも長くなり得る。一部の例において、編成されるオーディオ機器間に最大8メートルの隔たりを可能にするために、デフォルトt2値は、表1に示した80ミリ秒なる値よりも例えば25ミリ秒大きくなり得る。一部の編成ギャップ実装において、デフォルトt2値は、別の理由のために表1に示した80ミリ秒なる値よりも長くなることがあり、すなわち、編成ギャップ実装では、編成される全てのオーディオ機器がその間にZ減衰の値に達するのに十分な量の時間が経過することを確実にするために、編成されるオーディオ機器のタイミングのミスアライメントを受け入れるべく、t2はもっと長いことが好ましい。一部の例において、タイミングのミスアライメントに対処するために、t2のデフォルト値に追加の5ミリ秒が付加され得る。従って、一部の編成ギャップ実装において、t2のデフォルト値は110ミリ秒とすることができ、最小値は70ミリ秒であり、最大値は150ミリ秒である。
一部の編成ギャップ実装において、t1及び/又はt3も、表1に示された値とは異なり得る。一部の例において、t1及び/又はt3は、タイミングの問題及び物理的距離の不一致に起因して、機器が自身の減衰期間に出入りする異なる時間をリスナーが知覚することができない結果として調整され得る。少なくとも部分的に、(複数の機器が異なる位置からオーディオを再生することから生じる)空間的なマスキングのために、編成されるオーディオ機器が自身の減衰期間に出入りする複数の時間をリスナーが知覚できることが、単一機器シナリオにおいてよりも少なくなる傾向がある。従って、一部の編成ギャップ実装において、表1に示した単一機器の例と比較して、t1及びt3の最小値が減少され得るとともに、t1及びt3の最大値が増加され得る。一部のそのような例によれば、t1及びt3の最小値は、2、3、又は4ミリ秒に減少され、t1及びt3の最大値は、20、25、又は30ミリ秒に増加され得る。
編成ギャップを用いた測定の例
図2Dは、オーディオ環境の複数のオーディオ機器向けに編成されたギャップを含む改変オーディオ再生信号の一例を示している。この実装においては、オーディオ環境の複数のスマート機器が、互いの相対的可聴性を推定するためにギャップを編成する。この例では、1つのギャップに対応する1つの測定セッションが時間間隔中の行われ、該測定セッションは、図1Bの主居住空間100a内の機器のみを含む。この例によれば、先行する可聴性データが、部屋101bに位置するものであるスマートオーディオ機器109が既に、他のオーディオ機器には殆ど聞こえないものとして分類され、別のゾーンに置かれていることを示している。
図2Dに示す例において、編成ギャップは、バンド減衰Gを用いた再生コンテンツの減衰であり、kは、測定されている周波数バンドの中心周波数を表す。図2Dに示される要素は以下の通りである:
グラフ203は、図1Bのスマートオーディオ機器103についてのdB単位でのGのプロットである;
グラフ204は、図1Bのスマートオーディオ機器104についてのdB単位でのGのプロットである;
グラフ205は、図1Bのスマートオーディオ機器105についてのdB単位でのGのプロットである;
グラフ206は、図1Bのスマートオーディオ機器106についてのdB単位でのGのプロットである;
グラフ207は、図1Bのスマートオーディオ機器107についてのdB単位でのGのプロットである;
グラフ208は、図1Bのスマートオーディオ機器108についてのdB単位でのGのプロットである;及び
グラフ209は、図1Bのスマートオーディオ機器109についてのdB単位でのGのプロットである。
ここで使用されるとき、用語“セッション”(ここでは“測定セッション”とも称する)は、その間に周波数レンジの測定が実行される期間を指す。測定セッションにおいて、バンド幅が関連付けられた周波数のセットと、参加するオーディオ機器のセットとが指定され得る。
1つのオーディオ機器が、オプションで、測定セッションの“ターゲット”オーディオ機器として指名され得る。ターゲットオーディオ機器が測定セッションに含まれる場合、一部の例によれば、ターゲットオーディオ機器は、強制ギャップを無視することを許され、測定セッション中に未改変オーディオ再生信号を再生することになる。一部のそのような例によれば、他の参加オーディオ機器は、測定中の周波数レンジ内のターゲット機器再生音を含め、ターゲット機器再生音を聞くことになる。
ここで使用されるとき、用語“可聴性”は、機器が他の機器のスピーカ出力を聞くことができる程度を指す。可聴性の幾つかの例を下で提供する。
図2Dに示す例によれば、時点t1にて、編成側機器は、ターゲットオーディオ機器であるスマートオーディオ機器103との測定セッションを開始し、周波数kを含む測定すべき1つ以上のビン中心周波数を選択する。編成側機器は、一部の例において、リーダー(例えば、図4を参照して後述するように決定される)として動作するスマートオーディオ機器とし得る。他の例において、編成側機器は、例えばスマートホームハブなどの他の編成側機器であってもよい。この測定セッションは、時点t1から時点t2まで実行される。他の参加スマートオーディオ機器であるスマートオーディオ機器104-108は、自身の出力にギャップを適用して改変オーディオ再生信号を再生し、一方、スマートオーディオ機器103は未改変オーディオ再生信号を再生する。
編成ギャップを含む改変オーディオ再生信号を再生しているオーディオ環境100のスマートオーディオ機器のうちのサブセット(スマートオーディオ機器104-108)は、M個のオーディオ機器ととして参照され得るものの一例である。この例によれば、スマートオーディオ機器109も未改変オーディオ再生信号を再生する。従って、スマートオーディオ機器109は、M個のオーディオ機器のうちの1つではない。しかしながら、スマートオーディオ機器109は、オーディオ環境の他のスマートオーディオ機器に聞こえないので、スマートオーディオ機器109及びターゲットオーディオ機器(この例ではスマートオーディオ機器103)がどちらも未改変オーディオ再生信号を再生することにはかかわらず、スマートオーディオ機器109は、この例におけるターゲットオーディオ機器ではない。
編成ギャップは、測定セッション中にオーディオ環境内のリスナーに対して低い知覚的影響(例えば、無視できる知覚的影響)しか持たないことが望ましい。従って、一部の例において、ギャップパラメータは、知覚的影響を最小限に抑えるように選択され得る。幾つかの例を、図3B-図3Jを参照して以下にて説明する。
この時間(時点t1から時点t2までの測定セッション)の間、スマートオーディオ機器104-108は、この測定セッションの時間-周波数データについて、ターゲットオーディオ機器(スマートオーディオ機器103)から基準オーディオビンを受信する。この例において、基準オーディオビンは、スマートオーディオ機器103がエコーキャンセレーションのためのローカル基準として使用する再生信号に対応する。スマートオーディオ機器103は、可聴性測定とエコーキャンセレーションとの目的で、これらの基準オーディオビンへのアクセスを持つ。
この例によれば、時点t2にて第1の測定セッションが終了し、編成側機器が新たな測定セッションを開始し、今度は、周波数kを含まない1つ以上のビン中心周波数を選択する。図2Dに示す例において、t2からt3までの期間の間、周波数kについてのギャップは適用されず、故に、グラフは全ての機器に対してユニティ利得を示している。一部のそのような例において、編成側機器は、周波数kを含まないビン中心周波数のための一連の測定セッションで複数の周波数レンジの各々に一連のギャップを挿入させ得る。例えば、編成側機器は、スマートオーディオ機器103がターゲットオーディオ機器のままである間に、第2乃至第Nの後続の測定セッションの目的で、第2乃至第N時間間隔中のオーディオ再生信号の第2乃至第N周波数レンジに第2乃至第Nギャップを挿入させ得る。
一部のそのような例において、編成側機器は、次いで、例えばスマートオーディオ機器104といった、別のターゲットオーディオ機器を選択し得る。編成側機器は、スマートオーディオ機器103に、編成ギャップを有する改変オーディオ再生信号を再生しているM個のスマートオーディオ機器のうちの1つとなるように命令し得る。編成側機器は、新たなターゲットオーディオ機器に、未改変オーディオ再生信号を再生するように命令し得る。一部のそのような例によれば、編成側機器が新たなターゲットオーディオ機器についてN個の測定セッションを行わせた後に、編成側機器は別のターゲットオーディオ機器を選択し得る。一部のそのような例において、編成側機器は、オーディオ環境内の参加オーディオ機器の各々について測定セッションが実行されるまで、測定セッションを行わせ続け得る。
図2Dに示す例において、異なるタイプの測定セッションが時点t3とt4との間で行われる。この例によれば、時点t3にて、ユーザ入力(例えば、編成側機器として動作しているスマートオーディオ機器への音声コマンド)に応答して、編成側機器は、オーディオ環境100のラウドスピーカセットアップを完全に較正するために、新たなセッションを開始する。一般に、ユーザは、例えば時点t3とt4との間に行われるような“セットアップ”又は“再較正”測定セッションにおいては、比較的高い知覚的影響を持つ編成ギャップに比較的寛容であり得る。従って、この例において、kを含め、周波数の大きな連続セットが測定のために選択される。この例によれば、スマートオーディオ機器106が、この測定セッション中の最初のターゲットオーディオ機器として選択される。従って、時点t3からt4までの測定セッションの第1フェーズ中に、スマートオーディオ機器のうちスマートオーディオ機器106を除く全てがギャップを適用することになる。
ギャップ帯域幅
図3Aは、ギャップを作成するのに使用されるフィルタ応答と、測定セッション中に使用されるマイクロフォン信号の周波数領域を測定するのに使用されるフィルタ応答との例を示すグラフである。この例によれば、図3Aの要素は以下の通りである:
要素301は、出力信号内にギャップを生成するのに使用されるフィルタの振幅応答を表す;
要素302は、要素301によって生じるギャップに対応する周波数領域を測定するのに使用されるフィルタの振幅応答を表す;
要素303及び304は、周波数f1及びf2にある、301の-3dBポイントを表す;
要素305及び306は、周波数f3及びf4にある、302の-3dBポイントを表す。
ギャップ応答301の帯域幅(BW_gap)は、-3dBポイント303と304との間の差を取ることによって見出され、BW_gap=f2-f1であり、また、BW_measure(測定応答302の帯域幅)=f4-f3である。
一例によれば、測定の品質は次のように表され得る:
quality=BW_gap/BW_measure=(f-f)/(f-f
測定応答の帯域幅は通常は固定されるので、ギャップフィルタ応答の帯域幅を増加させる(例えば、帯域幅を広げる)ことによって測定の品質を調整することができる。しかしながら、導入されるギャップの帯域幅は、その知覚可能性に比例する。従って、ギャップフィルタ応答の帯域幅は、一般に、測定の品質及びギャップの知覚可能性の両方を考慮して決定されるべきである。品質値の幾つかの例を表2に示す。
Figure 2024501427000003
表2は“最小”及び“最大”値を示しているが、これらの値はこの例でのものに過ぎない。他の実装は、1.5よりも低い品質値及び/又は3よりも高い品質値を伴い得る。
ギャップ割り当て戦略
ギャップは、以下によって定義され得る:
・ 中心周波数及び測定帯域幅での周波数スペクトルの基礎分割;
・ “バンディング”と称する構造におけるこれらの最小測定帯域幅の集約;
・ 時間の継続時間、減衰深さ、及び周波数スペクトルの合意された分割に適合する1つ以上の連続した周波数の包含;
・ ギャップの始めと終わりで減衰深さを傾斜させるなどの、他の時間的挙動。
一部の実装によれば、ギャップは、適用可能な知覚可能性制約を満たしながら、可能な限り短い時間で可聴スペクトルのうち可能な限り多くを測定及び観測することを目標とする戦略に従って選択され得る。
図3B、3C、3D、3E、3F、3G、3H、3I及び3Jは、ギャップ割り当て戦略の例を示すグラフである。これらの例では、時間が横軸に沿った距離によって表され、周波数が縦軸に沿った距離によって表される。これらのグラフは、様々なギャップ割り当て戦略によって生成されるパターンと、完全なオーディオスペクトルを測定するのにかかる時間と、を示すための例を提供する。これらの例において、各編成ギャップ測定セッションは長さにして10秒である。他の開示される実装と同様に、これらのグラフは単に例として提供されるに過ぎない。他の実装は、より多くの、より少ない、及び/又は異なるタイプ、数及び/又はシーケンスの要素を含み得る。例えば、他の実装では、各編成ギャップ測定セッションは10秒より長くても短くてもよい。これらの例において、図3B-3Jに表される時間/周波数空間の陰影付けられていない領域310(これをここでは“タイル”と称することがある)は、指し示される(10秒の)時間-周波数期間におけるギャップを表す。中程度に陰影付けられた領域315は、少なくとも一度測定された周波数タイルを表す。薄く陰影づけられた領域320は未だ測定されていない。
参加オーディオ機器が“部屋中を聞く”ため(例えば、オーディオ環境内の雑音、エコーなどを評価するため)に編成ギャップを挿入することを目下のタスクが必要とすると仮定すると、測定セッション完了時間は、図3B-図3Jに示されているようなものとなる。各オーディオ機器が順番にターゲットにされて他のオーディオ機器によって聞かれることをタスクが必要とする場合、それらの時間に、プロセスに参加するオーディオ機器の数を乗算する必要がある。例えば、各オーディオ機器が順番にターゲットにされる場合、図3Bで測定セッション完了時間として示されている3分20秒(3m20s)は、7つのオーディオ機器のシステムが7*3m20s=23m20s後に完全にマッピングされることを意味する。周波数/バンドを循環して、複数のギャップが一度に強制されるとき、これらの例において、ギャップは、スペクトルをカバーするときの効率のために、周波数において可能な限り遠く離される。
図3B及び図3Cは、1つのギャップ割り当て戦略に従った編成ギャップのシーケンスの例を示すグラフである。これらの例において、ギャップ割り当て戦略は、順次の各測定セッション中に一度にN個の周波数バンド全体(周波数バンドの各々が少なくとも1つの周波数ビンを含み、大抵の場合は複数の周波数ビンを含む)にギャップを作ることを含む。図3BではN=1であり、図3CではN=3であり、後者が意味することは、図3Cの例が同一時間間隔中に3つのギャップを挿入することを伴うということである。これらの例において、使用されるバンディング構造は、20バンドメル(Mel)離隔配置である。一部のこのような例によれば、20個全ての周波数バンドが測定された後、シーケンスが再開し得る。3m20sは完全な測定に達するのに妥当な時間であるが、300Hz-8kHzのクリティカルな音声領域でパンチングされるギャップは非常に広く、多くの時間がこの領域外の測定に充てられる。300Hz-8kHzの周波数レンジ内の比較的広いギャップのために、この特定の戦略は、ユーザにとって非常に知覚しやすいものとなる。
図3D及び図3Eは、別のギャップ割り当て戦略に従った編成ギャップのシーケンスの例を示すグラフである。これらの例において、ギャップ割り当て戦略は、図3B及び図3Cに示されるバンディング構造を、約300Hzから8kHzの“最適化”周波数領域にマッピングするように変更することを含む。全体的な割り当て戦略は、その他の点では図3B及び3Cによって表されるものから変更されないが、ここでは20番目のバンドが無視されるので、シーケンスが僅かに早く終了する。ここで強制されるギャップの帯域幅は依然として知覚可能である。しかしながら、特に、一度に複数の周波数バンドにギャップが強制的に入れられる場合に、最適化周波数領域の測定が非常に迅速であることが利益となる。
図3F、図3G、及び図3Hは、別のギャップ割り当て戦略に従った編成ギャップのシーケンスの例を示すグラフである。これらの例において、ギャップ割り当て戦略は“強制ビンギャップ”アプローチを含み、それにおいては、周波数バンド全体にわたっての代わりに、複数の単一周波数ビン内にギャップが強制される。図3F、図3G、及び図3H中の複数の横線が、図3D及び図3Eに示されるバンディング構造を表す。19個のバンドを伴うギャップ割り当て戦略から170個のビンを伴うギャップ割り当て戦略への変更は、最適化されたスペクトルを測定するのにかかる時間を大幅に増加させ、ここでは、N=1である図3Fに示す例で、単一の測定セッションが完了するのに25分を超える時間がかかっている。
図3F、図3G、及び図3Hによって表されるギャップ割り当て戦略の主な利点は、プロセスの知覚可能性が著しく低くなることである。N=3(図3Gに示されるように)又はN=5を選択することは、図3F及び図3Gのプロットに示されるように、図3Fの例の測定セッション時間を1/Nに減少させ、知覚可能性は依然として管理可能である。
しかしながら、図3F、図3G、及び図3Hによって表されるギャップ割り当て戦略には、依然として2つの有意な欠点がある。1つは、バンディング構造の対数的性質が無視されていることであり、より高い周波数でのギャップの帯域幅が、人間の知覚に当てはまるものに基づけば控えめ過ぎる。他の欠点は、周波数を順次歩進させることは、次のバンドに移る前に各バンドを完全に測定することになることである。バンドが完全に測定されていなくても、欠けたデータの補完及びバンディングプロセスでの平均化を通して、アルゴリズムは依然としてある程度の信頼度で機能することができる。
図3I及び図3Jは、別のギャップ割り当て戦略に従った編成ギャップのシーケンスの例を示すグラフである。これらの例では、ギャップの帯域幅が周波数とともに増加するが、図3I及び図3J中の横線によって表される基礎バンディング構造よりも控えめな割合で増加する。周波数と共にギャップの帯域幅を増加させることは、挿入されたギャップの知覚可能性に悪影響を与えることなく、全体的な測定セッション時間を減少させる。第2の改善は、強制される各ギャップについて、図3I及び3Jによって表されるギャップ割り当て戦略は、連続する複数の周波数バンド内の複数の周波数ビンを選択することを含むことである(これは図3Iにおいていっそう明白である)。これらの例によれば、各バンド内の先に測定されたビンを記憶/追跡することによって、そのバンドが再訪されるときに、そのバンド内の次の連続したビンが測定される。このプロセスは、完全なスペクトルを測定するのにかかる時間に影響を及ぼさないが、各バンドの少なくとも一部を少なくとも一度測定するのにかかる時間を急速に短縮する。図3I及び図3Jによって表されるギャップ割り当て戦略はまた、上述のギャップ割り当て戦略よりも識別しにくいパターン及び構造を持ち、知覚可能性の影響を更に低下させる。
図4、図5A、及び図5Bは、一部の実装に従った、複数のオーディオ機器がどのように協調して測定セッションを行うのかの例を示すフロー図である。図4-図5Bに示すブロックは、ここで説明される他の方法のブロックのように、必ずしも示される順序で実行される必要はない。例えば、一部の実装において、図4のブロック401の処理は、ブロック400の処理の前に実行されてもよい。また、このような方法は、図示及び/又は説明されるものよりも多数又は少数のブロックを含んでもよい。
これらの例によれば、あるスマートオーディオ機器が編成側機器(ここでは“リーダー”と称することもある)であり、一度に1つの機器のみが編成側機器となり得る。他の例において、編成側機器は、ここでスマートホームハブと称するものであってもよい。編成側機器は、図1Cを参照して上述した装置150の一例であり得る。
図4は、この例に従った全ての参加オーディオ機器によって実行されるブロックを示している。この例において、ブロック400は、全ての他の参加オーディオ機器のリストを取得することを含む。一部のそのような例によれば、ブロック400は、各参加オーディオ機器の音響ゾーン、グループなどのインジケーションを取得することを含み得る。ブロック400のリストは、例えば、ネットワークパケットを介して他のオーディオ機器からの情報を集約することによって作成されることができ、他のオーディオ機器は、例えば、測定セッションに参加する自身の意図をブロードキャストすることができる。オーディオ環境に対してオーディオ機器が追加及び/又は除去されるとき、ブロック400のリストが更新され得る。一部のそのような例において、ブロック400のリストは、最も重要な機器(例えば、図1Bの主居住空間101a内に現在あるオーディオ機器)のみに関してリストを最新に保つために、様々なヒューリスティックに従って更新されてもよい。
図4に示す例において、リンク404は、ブロック400のリストを、リーダーシップ交渉プロセスであるブロック401に渡すことを示している。ブロック401のこの交渉プロセスは、特定の実装形態に応じて異なる形態をとり得る。最も単純な実施形態では、全ての機器が同じスキームを実施できると仮定して、機器間での何度もの通信ラウンドなしに、最も低い又は最も高い機器IDコード(又は他の一意の機器識別子)に対する英数字ソートでリーダーを決定し得る。より複雑な実装では、機器が互いに交渉して、どの機器がリーダーに最も適しているかを決定し得る。例えば、測定セッションを容易にする目的で、編成された情報を集約する機器がリーダーでもあることが好都合であり得る。最長の動作可能時間を有する機器、最大の計算能力を有する機器、及び/又は主電源に接続されている機器を、リーダーの地位の良好な候補としてもよい。一般に、複数の機器間でこのようなコンセンサスを構成することは困難な問題ではあるが、数多くの既存の満足いくプロトコル及びソリューション(例えば、Paxosプロトコル)を持つ問題である。理解されることには、多くのそのようなプロトコルが存在し、適したものとなる。
次いで、全ての参加オーディオ機器が、ブロック403を実行することに進み、これは、リンク406がこの例において無条件リンクであることを意味する。ブロック403については、図5Bを参照して後述する。機器がリーダーである場合、その機器はブロック402を実行する。この例において、リンク405はリーダーの地位のチェックを含む。リーダーシッププロセスを、以下にて図5Aを参照して説明する。それに限定されないが他のオーディオ機器へのメッセージを含んだ、このリーダーシッププロセスからの出力が、図4のリンク407によって示されている。
図5Aは、編成側機器又はリーダーによって実行されるプロセスの例を示している。ブロック501は、測定すべきターゲット機器を選択することと、例えば、測定セッション中に使用されるギャップの開始時間及び終了時間、並びに周波数におけるギャップの位置及びサイズといった、ギャップ割り当て戦略を選択することとを含む。一部の例において、ブロック501は、図2Cを参照して上述したように、時点t1、t2、及び/又はt3を選択することを含み得る。異なるアプリケーションは、前述の選択について異なる戦略を動機付け得る。例えば、測定すべきターゲット機器は、一部の例において、例えば、最近測定されていない優先機器及び周波数バンドなど、“緊急性”の測定に部分的に基づいて選択され得る。一部の例において、特定のアプリケーション又は使用事例に基づいて、特定のターゲット機器が測定するのにいっそう重要であることがある。例えば、空間プレゼンテーションにおける“左”及び“右”チャネルに使用されるスピーカの位置は、一般に、測定するのに重要であり得る。
この例によれば、編成側機器がブロック501の選択を行った後、図5Aのプロセスはブロック502に続く。この例において、ブロック502は、ブロック501で決定された情報を他の参加オーディオ機器に送信することを含む。一部の例において、ブロック502は、該情報を他の参加オーディオ機器に、例えば、ローカルWi-Fiネットワーク上で、Bluetooth(登録商標)を介してなど、無線通信を介して送信することを含み得る。一部の例において、ブロック502は、例えば、測定セッション中に使用されるギャップの開始時間及び終了時間、並びに周波数におけるギャップの位置及びサイズといった、ギャップ割り当て戦略の詳細を、他の参加オーディオ機器に送信することを含み得る。他の例において、他の参加オーディオ機器は、複数のギャップ割り当て戦略の各々に関する情報を格納していることができる。一部のそのような例において、ブロック502は、例えばギャップ割り当て戦略1、ギャップ割り当て戦略2など、選択すべき格納ギャップ割り当て戦略のインジケーションを送信することを含み得る。一部の例において、ブロック502は、例えば図5Bを参照して後述するように、“セッション開始”インジケーションを送信することを含み得る。
この例によれば、編成側機器がブロック502を実行した後、図5Aのプロセスはブロック503に続き、編成側機器は、現在の測定セッションが終了するのを待つ。この例では、ブロック503にて、編成側機器は、他の参加オーディオ機器の全てがそれらのセッションを終了したというコンファメーション(確認)を待つ。
この例において、編成側機器がブロック503で他の参加オーディオ機器の全てからコンファメーションを受信した後、図5Aのプロセスはブロック500に続き、編成側機器に測定セッションについての情報が提供される。このような情報は、将来の測定セッションの選択及びタイミングに影響を与え得る。一部の実施形態において、ブロック500は、他の参加オーディオ機器の全てからの、測定セッション中に取得された測定値を受け入れることを含む。受信される測定値のタイプは、特定の実装に依存し得る。一部の例によれば、受信される測定値はマイクロフォン信号であることができ、あるいはそれを含むことができる。代わりに、あるいは加えて、一部の例において、受信される測定値は、マイクロフォン信号から抽出されたオーディオデータであることができ、あるいはそれを含むことができる。一部の実装において、編成側機器は、受信した測定値に対して1つ以上の処理を実行し得る(又は実行させ得る)。例えば、編成側機器は、抽出されたオーディオデータに少なくとも部分的に基づいて、ターゲットオーディオ機器の可聴性又はターゲットオーディオ機器の位置を推定し得る(又は推定させ得る)。一部の実装は、抽出されたオーディオデータに少なくとも部分的に基づいて、遠距離場オーディオ環境インパルス応答及び/又はオーディオ環境雑音を推定することを含み得る。
図5Aに示す例において、ブロック500が実行された後、プロセスはブロック501に戻る。一部のそのような例において、プロセスは、ブロック500が実行されてから所定の期間後にブロック501に戻る。一部の例において、プロセスは、ユーザ入力に応答してブロック501に戻り得る。
図5Bは、編成側機器以外の参加オーディオ機器によって実行されるプロセスの例を示している。ここでは、ブロック510は、他の参加オーディオ機器の各々が編成側機器に伝達(例えば、ネットワークパケット)を送信し、各機器が1つ以上の測定セッションに参加する意図をシグナリングすることを含む。一部の実施形態において、ブロック510はまた、1つ以上の先行する測定セッションの結果をリーダーに送信することを含み得る。
この例において、ブロック515がブロック510に続く。この例によれば、ブロック515は、例えば“セッション開始”パケットを介して示されるような、新たな測定セッションが開始することの通知を待つことを含む。
この例によれば、ブロック520は、編成側機器によって提供される情報に従ってギャップ割り当て戦略を適用することを含み、該情報は、例えば、ブロック515で待っていた“セッション開始”パケットと共に提供される。この例において、ブロック520は、ギャップ割り当て戦略を適用して、測定セッション中に参加オーディオ機器(存在する場合に、ターゲットオーディオ機器を除く)によって再生される改変オーディオ再生信号を生成することを含む。この例によれば、ブロック520は、オーディオ機器マイクロフォンを介してオーディオ機器再生音を検出し、測定セッション中に対応するマイクロフォン信号を生成することを含む。リンク522によって示唆されるように、一部の例において、ブロック520は、編成側機器によって示される全ての測定セッションが完了する(例えば、編成側機器から受信される“停止”インジケーション(例えば、停止パケット)に従って、又は所定の継続時間の後に)まで繰り返され得る。一部の例において、ブロック520は、複数のターゲットオーディオ機器の各々について繰り返され得る。
最後に、ブロック525は、測定セッション中に適用されたギャップの挿入を止めることを含む。この例において、ブロック525の後、図5Bのプロセスはブロック510に戻る。一部のそのような例において、プロセスは、ブロック525が実行されてから所定の期間後にブロック510に戻る。一部の例において、プロセスは、ユーザ入力に応答してブロック510に戻り得る。
一部の実装において、周波数領域、継続時間、及びセットシーケンスにおけるターゲット機器の順序は、一意の機器ID/名称のみに基づく単純なアルゴリズムによって決定され得る。例えば、ターゲット機器の順序は、何らかの合意された語彙/英数字順に行われてもよく、周波数及びギャップ継続時間は、全ての機器に共通の現在日時に基づいてもよい。そのような単純化された実施形態は、より低いシステム複雑性を持つが、システムのいっそう動的なニーズに適応できないことがある。
ギャップを通じて明らかにされるマイクロフォン信号についての測定例
編成ギャップ測定セッションの期間にわたって測定されるサブバンド信号は、部屋の中の雑音に、ターゲット機器が指名されている場合にターゲット機器からの直接刺激を加えたものに対応する。このセクションでは、マッピング、較正、雑音抑制、及び/又はエコー減衰アプリケーションにおける更なる使用のために、これらのサブバンド信号から決定される音響特性及び関連情報の例を示す。
測距
一部の例によれば、編成ギャップ測定セッション中に測定されたサブバンド信号は、例えば、推定されたダイレクト対リバーブ比に基づいて、オーディオ機器間のおおよその距離を推定するために使用され得る。例えば、おおよその距離は、ターゲットオーディオ機器が出力音圧レベル(SPL)を公表することができる場合に、及び測定オーディオ機器のスピーカからマイクロフォンまでの距離が分かっている場合に、1/r法則に基づいて推定され得る。
DoA
一部の例において、編成ギャップ測定セッション中に測定されたサブバンド信号は、オーディオ環境内で1人以上の人及び/又は1つ以上のオーディオ機器によって発せられた音(例えば、発話)の到来方向(DoA)及び/又は到来時間(ToA)を推定するために使用され得る。一部のそのような例において、その1人以上の人及び/又は1つ以上のオーディオ機器の現在位置に対応する音響ゾーンが推定され得る。幾つかの例について、図8A以降を参照して後述する。
背景雑音
一部の例によれば、背景雑音は、音楽又は他のオーディオデータがオーディオ環境内のラウドスピーカによって再生されている間であっても、編成ギャップ測定セッション中に測定されたサブバンド信号に従って推定され得る。一部のそのような例によれば、背景雑音(background noise)は、データの各フレーム内で見出されるエネルギーに対してミニマムフォロワ(時間ウィンドウ中の信号の最小値を抽出するフィルタ)を実行することによって、例えば、次式:
Figure 2024501427000004
に従って、推定され得る。
上述の式において、Kは、アプリケーションにおける周波数ビン又は周波数バンドの総数を表し、kは、現在の測定ラウンドにおいて考慮されている周波数ビン又はバンドを表す。十分な測定ラウンドの後、BackGroundNoiseは、フルスペクトルについての推定値を含むものとなる。
基準共有
測定セッション中に、全ての参加オーディオ機器がリッスンしていて、1つのオーディオ機器が再生している場合、全てのオーディオ機器は、測定セッション中に再生コンテンツの比較的クリーンな記録を受信することになる。前の見出しで説明したように、そのようなマイクロフォン信号から幾つかの音響特性が導出され得る。この再生信号に対する“基準”信号がマイクロフォン信号と共に処理される場合、更なるクラスの音響特性が導出され得る。基準信号(これをここでは、基準信号に対応する周波数ビンを示す“基準ビン”として参照することもある)は、例えば、測定セッションの過程でターゲット機器によって再生されたオーディオ情報のコピーとし得る。基準信号は、一部の例において、エコー抑制のためにターゲット機器によって使用され得る。
一部の例において、測定セッションは、狭いレンジの周波数に基づき得る。従って、このクラスの音響特性を生成することには、基準情報の全帯域幅より少ない帯域幅のみが必要とされ得る。基準情報の全帯域幅より少ない帯域幅のみが必要とされる場合、これは、ネットワーク接続上でそのような基準データを提供することを、実施するのがいっそう実現可能なものとする。例えば、50Hzの帯域幅を有する典型的な周波数領域は、(48kHzのサンプリングレートを仮定し、且つ複素周波数ビンの表現が使用されると仮定して)元々の信号のうち、100%*(50/24000)*2=0.5%に相当する。また、他の参加オーディオ機器の全てに同じ基準情報を提示して、メッセージをブロードキャストするときに関連ネットワーク効率を更に利用し得る。
非線形性
1つ以上のターゲットオーディオ機器に対する編成ギャップ測定セッションを含む一部の例によれば、再生されたオーディオデータにおける非線形性の存在が検出され得る。一部のそのような例は、ある範囲の再生レベルにおいて可聴性の推定値を取得し、可聴性の推定値が線形であるか否かを決定することを含み得る。
図6は、測定セッションに参加し、基準データを共有する2つの編成されたオーディオ機器の例を示している。ここで提供される他の図と同様に、図6に示す要素のタイプ及び数は単に例として与えられるに過ぎない。他の実装は、より多くの、より少ない、及び/又は異なるタイプ及び数の要素を含み得る。
図6中の参照符号は、オーディオ機器601aについては“a”を後ろに付し、オーディオ機器601bについては“b”を後ろに付している。図6の要素は以下を含む:
600:2つのオーディオ機器が測定セッションに参加しているシステム;
601a:図1Cの装置150の例あり、図1Cに示した制御システム160の例を実装するものである、測定セッションに参加しているオーディオ機器;
601b:装置150の別の例であり、図1Cに示した制御システム160の例を実装し、この例ではターゲット機器である、測定セッションに参加している別のオーディオ機器;
602:オーディオコンテンツ(例えば、音楽、映画サウンドトラック、又はポッドキャスト)を生成するメディア再生エンジン;
603:ギャップ挿入モジュール;
604:Wi-Fi、Bluetooth(登録商標)、又は他の無線プロトコルを介してネットワークパケットを送受信するように構成されたネットワーク接続モジュール;
605:マイクロフォン信号及び基準信号を受け入れ、この開示で説明される音響特性のうちのいずれかを生成するように構成された音響特性計算ブロック;
606a:オーディオ機器601aに取り付けられた1つ以上のラウドスピーカ;
606b:オーディオ機器601bに取り付けられた1つ以上のラウドスピーカ;
607a:ギャップ挿入された(改変)オーディオコンテンツに対応する、ラウドスピーカ606aによって生成される再生音;
607b:この例ではオーディオ機器601bはターゲット機器であるので、未改変(ギャップなし)オーディオコンテンツに対応する、ラウドスピーカ606bによって生成される再生音;
608a:オーディオ機器601aに取り付けられて607a及び607bの両方を検出する1つ以上のマイクロフォン;
608b:オーディオ機器601bに取り付けられて607a及び607bの両方を検出する1つ以上のマイクロフォン;
609:少なくとも現在の測定セッションに関連する基準オーディオを含んだ、オーディオ機器601bからオーディオ機器601aに伝送されるネットワークパケット;
610:メディア再生エンジン602によって生成されたメディア信号;
611:メディア信号610に追加の変更(1つ以上のギャップ)が与えられたもの;
612:614に相当した、609のネットワークパケットから抽出された基準信号;
613:現在の測定セッションについての測定領域に対応するマイクロフォン信号;及び
614:基準信号。
図6では、測定セッションがアクティブである。オーディオ機器601bは、ターゲット機器として動作しており、測定セッション中に(1つ以上の)測定領域(オーディオ機器601aによってメディアコンテンツに挿入された(1つ以上の)ギャップ)内でメディアコンテンツを再生することが許される。オーディオ機器601aも測定セッションに参加している。この例において、オーディオ機器601aは、編成側機器の制御システムによって、出て行くメディア信号610aに(ギャップ挿入モジュール603を用いて)1つ以上の適切なギャップを挿入するように命令されている。
再生中、この例では、オーディオ機器601bが、現在の測定セッションに関連する周波数における同じ測定領域に対応する基準信号614bを再生メディア610bから抽出する。基準信号614bは、例えば、ネットワークパケットに挿入され、609としてローカルネットワーク上で他の全ての参加オーディオ機器に送信(ブロードキャスト)され得る。基準信号614bは、測定セッションがアクティブである間に徐々にストリーミングされてもよいし、代わりに、測定セッションが終了したときに1つのいっそう大きい伝達として送信されてもよい。他の参加オーディオ機器が、この基準信号614bを受信するとともに、自身のマイクロフォン(608)で対応するマイクロフォン信号613を抽出する。ターゲット機器であるオーディオ機器601bもマイクロフォン信号を記録し、基準信号を受信するが、その情報が同じ機器上に存在するので、609のネットワーク伝送はスキップする。
図6に示す例において、信号613及び612/614が音響特性ブロック605に提示され、音響特性ブロック210が、両方の信号を同時に用いて音響特性を計算するように構成される。なお、タイミング及び同期の態様は、具体的な実施形態の実装詳細に従って様々であることができ、ネットワークパケットタイムスタンプ、及び基準信号とマイクロフォン信号との相互相関が、更なる分析のために適切にデータをアライメントするために使用され得る。
可聴性及びインパルス応答
一部の例によれば(例えば、図6に示したような実装において)、測定セッション中に、基準信号r及びマイクロフォン信号mの両方が記録され、P個のオーディオフレームの期間にわたって近く時間アライメントされ得る。我々は、
Figure 2024501427000005
と表すことができる。
上記の式においてCは寸法(サイズ)nの複素数空間を表し、r(t)及びm(t)は長さnの複素ベクトルを表し、nは所与の測定セッションに使用される複素周波数ビンの数を表す。従って、m(t)はサブバンドドメインのマイクロフォン信号を表す。我々はまた、
Figure 2024501427000006
と表すことができる。
上記の式において、Zは全ての整数の集合を表し、tは、両端を含めて1からPの範囲内の任意の整数を表す。
この定式化にて、rから信号mを予測する線形伝達関数Hを推定することを試みて、古典的なチャネル識別問題が解かれ得る。この問題に対する既存のソリューションは、適応有限インパルス応答(FIR)フィルタ、オフライン(非因果的)ウィーナーフィルタ、及び数多くの他の統計的信号処理方法を含む。伝達関数Hの大きさを可聴性と呼ぶことがあり、これは、一部の用途において、機器がどれだけ“相互可聴”であるかに基づいて機器の互いに対する関連性をランク付けするために使用され得る有用な音響特性である。一部の例によれば、伝達関数Hの大きさは、例えば上述したように、再生されたオーディオデータがオーディオ機器非線形性を示すかを決定するために、ある範囲のオーディオ機器再生レベルにて決定され得る。
図7は、オーディオ環境内のオーディオ機器に対応する可聴性グラフの例を示している。この例において、図7は、典型的なオープンプランの居住環境の周りの様々な位置にある7つのオーディオ機器のグループに対して幾つかの測定セッションを実行した実験結果を示している。図7に示す横軸は周波数(Hz)を表し、縦軸はHのトータルレベルをdB単位で表し、この開示ではこれを“可聴性”として参照する。図7に(集合として)表示された全ての音響測定値は、“DOLBY-OBSIDIAN/Kitchen”と名付けられた1つの特定のオーディオ機器をターゲットオーディオ機器としたときの編成測定セッションに対応する。各オーディオ機器の可聴性が、周波数の関数としてオーディオ機器可聴性を示す太い破線として、及び平均オーディオ機器可聴性レベルを示す、同じパターンを持つが太線で表されていない破線として、の両方で示されている。この図から、“Kitchen”オーディオ機器と様々な他のオーディオ機器との間の全体的な可聴性又はレベルの差を見てとることができる。さらに、図7にて観察し得ることには、可聴性が周波数にわたって異なっており、この例における音響特性測定において達成することが可能であった詳細のレベルを明らかにしている。Kitchenオーディオ機器それ自身のエコーレベルを測定する“自己可聴性”を表すラインはライン701a及び701bであり、これらは適切なことに最も大きい。“Kitchen”に最も近いオーディオ機器である“Kitchen2”は、平均して僅か2dBだけ静かであり、一部のオーディオ周波数では“Kitchen”オーディオ機器よりも大きな音を測定するときもある。離れた部屋に位置するオーディオ機器は、非常に低い可聴性を持つと測定され、平均して自己可聴性より45dB静かである。様々な位置で同じ部屋に置かれた残りのオーディオ機器は、その間のどこかで可聴性測定値を記録している。
複数のスマートオーディオ機器を含む編成システムは、ユーザからの発話がいつ検出されるかを決定するように構成され得る。例えば、エコーキャンセレーションが使用されない又は十分でない場合であっても、メディアコンテンツが再生されている間に、編成ギャップに関連付けられた周波数バンド内で発話が検出され得る。
図8Aは、オーディオ環境の他の一例を示している。図8Aは、オーディオインタラクションのためのスマートオーディオ機器(機器1.1)と、オーディオ出力のためのスピーカ(1.3)と、マイクロフォン1.5と、制御可能なライト(1.2)とのセットを含んだシステムを含むオーディオ環境(この例では居住空間)の図である。一部の例において、マイクロフォン1.5のうち1つ以上は、機器1.1、ライト1.2、又はスピーカ1.3のうちの1つの一部であることができ、あるいはそれに付随することができる。代わりに、あるいは加えて、マイクロフォン1.5のうち1つ以上は、環境の別の部分に取り付けられてもよく、例えば、壁、天井、家具、家電機器、又は環境の別の機器に取り付けられてもよい。一例において、スマートオーディオ機器1.1の各々が、少なくとも1つのマイクロフォン1.5を含む(及び/又はそれと通信するように構成される)。図8Aのシステムは、本開示の1つ以上の実施形態を実装するように構成され得る。様々な方法を用いて、情報が、図8Aのマイクロフォン1.5から集合的に取得され、話すユーザの位置推定を提供するように構成された機器(例えば、分類器)に提供され得る。
居住空間(例えば、図8Aのもの)には、人が仕事若しくは活動を行う又は敷居を跨ぐ一組の自然活動ゾーンが存在する。ここではユーザゾーンと称することがあるこれらのエリアは、一部の例において、幾何学的位置の座標又は他の印を指定することなく、ユーザによって定義され得る。図8Aに示す例において、ユーザゾーンは以下を含み得る:
1.キッチンシンク及び食品調理エリア(居住空間の左上領域内);
2.冷蔵庫ドア(シンク及び食品調理エリアの右側);
3.食事エリア(居住空間の左下領域);
4.居住空間のオープンエリア(シンク及び調理エリアと食事エリアの右側);
5.TVソファ(オープンエリアの右);
6.TVそれ自体;
7.テーブル;及び
8.ドアエリア又は入口(居住空間の右上領域)。
一部の実施形態によれば、ユーザに起因する音(例えば、発話又は雑音)がどこで生じたか又はどこから来たかを推定するシステムは、その推定(又は推定のための複数の仮説)に幾らかの決定された信頼度を有し得る。例えば、ユーザがたまたまシステムの環境のゾーン間の境界近くにいる場合、ユーザの位置の不確実な推定は、ユーザがそれらのゾーンの各々にいることの決定された信頼度を含み得る。
図8Bは、オーディオ環境の他の一例を示している。図8Bにおいて、環境809(音響空間)は、直接発話802を発するユーザ(801)と、スマートオーディオ機器(803及び805)、オーディオ出力のためのスピーカ、及びマイクロフォンのセットを含んだシステムの一例とを含んでいる。該システムは、本開示の一実施形態に従って構成され得る。ユーザ801(ここでは話者として参照することもある)によって発せれた発話が、編成された時間-周波数ギャップ内でシステムの(1つ以上の)要素によって認識され得る。
より具体的には、図8Bのシステムの要素は以下を含む:
802:(ユーザ801によって生成された)直接ローカルボイス;
803:(1つ以上のラウドスピーカに結合された)ボイスアシスタント機器。機器803は、機器805よりもユーザ801の近くに位置しており、故に、機器803を“近い”機器と称することがあり、機器805を“遠い”機器と称することがある;
804:近い機器803内の(又はそれに結合された)複数のマイクロフォン;
805:(1つ以上のラウドスピーカに結合された)ボイスアシスタント機器;
806:遠い機器805内の(又はそれに結合された)複数のマイクロフォン;
807:家庭用機器(例えば、ランプ);及び
808:家庭用機器807内の(又はそれに結合された)複数のマイクロフォン。一部の例において、マイクロフォン808の各々は、一部の例において機器803又は805の少なくとも一方とし得るものである分類器を実装するように構成された機器と通信するように構成され得る。
図8Bのシステムはまた、少なくとも1つの分類器を含み得る。例えば、機器803(又は機器805)が分類器を含み得る。代わりに、あるいは加えて、分類器は、機器803及び/又は805と通信するように構成され得る別の機器によって実装されてもよい。一部の例において、分類器は、別のローカル機器(例えば、環境809内の機器)によって実装され得るが、他の例において、分類器は、環境809の外部に位置するリモート機器(例えば、サーバ)によって実装され得る。
一部の実装において、例えばここに開示されるものなどの分類器を実装するように制御システム(例えば、図1Cの制御システム160)が構成され得る。代わりに、あるいは加えて、制御システム160は、分類器からの出力に少なくとも部分的に基づいて、ユーザが現在位置するユーザゾーンの推定を決定するように構成され得る。
図8Cは、例えば図1Cに示したものなどの装置によって実行され得る方法の一例を概説するフロー図である。方法830のブロックは、ここで説明される他の方法のように、必ずしも示される順序で実行される必要はない。また、このような方法は、図示及び/又は説明されるものよりも多数又は少数のブロックを含んでもよい。この実装において、方法830は、環境内のユーザの位置を推定することを含む。
この例において、ブロック835は、環境内の複数のマイクロフォンの各マイクロフォンから出力信号を受信することを含む。この例において、複数のマイクロフォンの各々は、環境のマイクロフォン位置に存在する。この例によれば、上記出力信号は、再生コンテンツ内の編成ギャップ中に測定されたユーザの現在の発話に対応する。ブロック835は、例えば、制御システム(例えば図1Cの制御システム160など)が、インタフェースシステム(例えば図1Cのインタフェースシステム155など)を介して、環境内の複数のマイクロフォンの各マイクロフォンから出力信号を受信することを含み得る。
一部の例において、環境内のマイクロフォンのうちの少なくとも一部は、1つ以上の他のマイクロフォンによって提供される出力信号に対して非同期である出力信号を提供してもよい。例えば、複数のマイクロフォンのうちの第1のマイクロフォンは、第1のサンプルクロックに従ってオーディオデータをサンプリングすることができ、複数のマイクロフォンのうちの第2のマイクロフォンは、第2のサンプルクロックに従ってオーディオデータをサンプリングすることができる。一部の例において、環境内のマイクロフォンのうちの少なくとも1つは、スマートオーディオ機器内に含められることができ、あるいはそれと通信するように構成されることができる。
この例によれば、ブロック840は、各マイクロフォンの出力信号から複数の現在の音響特徴を決定することを含む。この例において、“現在の音響特徴”は、ブロック835の“現在の発話”から導出された音響特徴である。一部の実装において、ブロック840は、1つ以上の他の機器から複数の現在の音響特徴を受信することを含んでもよい。例えば、ブロック840は、1つ以上の他の機器によって実装された1つ以上の発話検出器から複数の現在の音響特徴のうちの少なくとも一部を受信することを含み得る。代わりに、あるいは加えて、一部の実装において、ブロック840は、出力信号から複数の現在の音響特徴を決定し得る。
音響特徴が単一の機器によって決定されるのか複数の機器によって決定されるのかにかかわらず、音響特徴は非同期に決定され得る。音響特徴が複数の機器によって決定される場合、それらの機器が音響特徴を決定するプロセスを協調して行うように構成されたものでない限り、音響特徴は一般に非同期に決定されることになる。音響特徴が単一の機器によって決定される場合、一部の実装において、そうとはいえ、その単一の機器は各マイクロフォンの出力信号を異なる時間に受信し得るので、音響特徴は非同期に決定され得る。一部の例において、環境内のマイクロフォンのうちの少なくとも一部は、1つ以上の他のマイクロフォンによって提供される出力信号に対して非同期である出力信号を提供し得るので、音響特徴は非同期に決定され得る。
一部の例において、音響特徴は、出力再生信号中の編成ギャップ中に測定された発話に対応する発話信頼性メトリックを含み得る。
代わりに、あるいは加えて、音響特徴は、以下のうちの1つ以上を含み得る:
・ 人間の発話に対して重み付けられた周波数バンド内のバンドパワー。例えば、音響特徴は、特定の周波数バンド(例えば、400Hz-1.5kHz)のみに基づいてもよい。より高い周波数及びより低い周波数は、この例において無視され得る;
・ 再生コンテンツ内に編成されたギャップに対応する周波数バンド又はビンにおけるバンドごと又はビンごとの音声アクティビティ検出器信頼度;
・ 音響特徴は、乏しい信号対雑音比を持つマイクロフォンを無視するように、長期雑音推定値に少なくとも部分的に基づき得る;
・ 発話ピーク性の尺度としての尖度。尖度は、長い残響テールによる不鮮明化の指標とすることができる。
この例によれば、ブロック845は、上記複数の現在の音響特徴に分類器を適用することを含む。一部のそのような例において、分類器を適用することは、環境内の複数のユーザゾーンにおいてユーザによって為された複数の以前の発話から導出された以前に決定された音響特徴に対してトレーニングされたモデルを適用することを含み得る。様々な例をここで提供する。
一部の例において、ユーザゾーンは、シンクエリア、食品調理エリア、冷蔵庫エリア、食事エリア、ソファエリア、テレビエリア、寝室エリア、及び/又は戸口エリアを含み得る。一部の例によれば、ユーザゾーンのうちの1つ以上は、所定のユーザゾーンであり得る。一部のそのような例において、1つ以上の所定のユーザゾーンは、トレーニングプロセス中にユーザによって選択可能であったとし得る。
一部の実装において、分類器を適用することは、以前の発話に対してトレーニングされたガウス混合モデルを適用することを含み得る。一部のそのような実装によれば、分類器を適用することは、以前の発話の正規化された発話信頼度、正規化された平均受信レベル、又は最大受信レベルのうちの1つ以上に対してトレーニングされたガウス混合モデルを適用することを含み得る。しかしながら、代わりの実装において、分類器を適用することは、例えばここに開示される他のモデルのうちの1つなどの異なるモデルに基づいてもよい。一部の例において、モデルは、ユーザゾーンとラベル付けされた訓練データを用いて訓練され得る。しかしながら、一部の例において、分類器を適用することは、ユーザゾーンとラベル付けされていないラベルなし訓練データを用いてトレーニングされたモデルを適用することを含む。
一部の例において、以前の発話は音声発話であった又はそれを含んでいたとし得る。一部のそのような例によれば、以前の発話及び現在の発話は、同じスピーチの発話であったとし得る
この例において、ブロック850は、分類器からの出力に少なくとも部分的に基づいて、ユーザが現在位置するユーザゾーンの推定を決定することを含む。一部のそのような例において、該推定は、複数のマイクロフォンの幾何学的位置を参照せずに決定され得る。例えば、該推定は、個々のマイクロフォンの座標を参照せずに決定され得る。一部の例において、該推定は、ユーザの幾何学的位置を推定することなく決定され得る。しかしながら、代わりの実装において、位置推定は、例えば座標系を参照して、オーディオ環境内の1人以上の人及び/又は1つ以上のオーディオ機器の幾何学的位置を推定することを含み得る。
方法830の一部の実装は、推定されたユーザゾーンに従って少なくとも1つのスピーカを選択することを含み得る。一部のそのような実装は、推定されたユーザゾーンに音を提供するように、少なくとも1つの選択されたスピーカを制御することを含み得る。代わりに、あるいは加えて、方法830の一部の実装は、推定されたユーザゾーンに従って少なくとも1つのマイクロフォンを選択することを含み得る。一部のそのような実装は、少なくとも1つの選択されたマイクロフォンによって出力された信号をスマートオーディオ機器に提供することを含み得る。
図9は、編成ギャップ挿入のためのシステムの一例のブロック図を提示している。図9のシステムは、図1Cの装置150の例であるオーディオ機器901aを含み、オーディオ機器901aは、雑音推定サブシステム(雑音推定器)64、雑音補償利得適用サブシステム(雑音補償サブシステム)62、及び強制ギャップ適用サブシステム(強制ギャップ適用器)70を実装するように構成された制御システム160aを含んでいる。この例において、オーディオ機器901b-901nも再生環境E内に存在する。この実装において、オーディオ機器901b-901nの各々は、図1Cの装置150の例であり、各々が、雑音推定サブシステム64、雑音補償サブシステム62、及び強制ギャップ適用サブシステム70のインスタンスを実装するように構成された制御システムを含む。
この例によれば、図9のシステムはまた、これまた図1Cの装置150の例である編成側機器905を含む。一部の例において、編成側機器905は、例えばスマートオーディオ機器などの再生環境のオーディオ機器とし得る。一部のそのような例において、編成側機器905は、オーディオ機器901a-901nのうちの1つによって実装され得る。他の例において、編成側機器905は、ここでスマートホームハブと称するものなど、他のタイプの機器であってもよい。この例によれば、編成側機器905は、オーディオ機器901a-901nから雑音推定値910a-910nを受信し、緊急信号915a-915nを、オーディオ機器901a-901nに、それぞれの強制ギャップ適用器70のインスタンス各々を制御するために提供するように構成された制御システムを含む。この実装において、強制ギャップ適用器70の各インスタンスは、緊急信号915a-915nに基づいて、ギャップを挿入するかどうかを決定し、挿入する場合には、どのようなタイプのギャップを挿入するかを決定するように構成される。
この例によれば、オーディオ機器901a-901nはまた、存在する場合に、オーディオ機器901a-901nの各々が実装しているのがどのようなギャップであるかを示す、現在ギャップデータ920a-920nを、編成側機器905に提供するように構成される。一部の例において、現在ギャップデータ920a-920nは、オーディオ機器が適用中であるギャップのシーケンスと、対応する時間(例えば、各ギャップ又は全てのギャップについての開始時間と時間間隔)とを示し得る。一部の実装において、編成側機器905の制御システムは、例えば、最近のギャップデータ、どのオーディオ機器が最近の緊急信号を受信したか、などを示すデータ構造を維持するように構成され得る。図9のシステムにおいて、強制ギャップ適用サブシステム70の各インスタンスは、緊急信号915a-915nに応答して動作し、その結果、編成側機器905は、再生信号におけるギャップの必要性に基づいて強制ギャップ挿入を制御する。
一部の例によれば、緊急信号915a-915nは、緊急値セット[U,U,…,U]のシーケンスを示すことができ、ここで、Nは、その中にサブシステム70が強制ギャップを挿入し得る(再生信号の周波数レンジ全体の)周波数バンド(例えば、それらのバンドの各々に1つの強制ギャップが挿入される)の所定の数であり、Uは、その中にサブシステム70が強制ギャップを挿入し得る“i”番目のバンドについての緊急値である。(時間に対応する)各緊急度値セットの緊急度値は、緊急度を決定するための任意の開示実施形態に従って生成されることができ、N個のバンドにおける(その時間における)強制ギャップの挿入(サブシステム70による)の緊急度を示すことができる。
一部の実装において、緊急信号915a-915nは、N個の周波数バンドの各々についてギャップ挿入の確率を定義する確率分布によって決定される固定の(時不変の)緊急度値セット[U,U,…,U]を示し得る。一部の例によれば、確率分布は、結果(サブシステム70の各インスタンスの応答)が受信側オーディオ機器901a-901nの全てにわたって決定論的(同じ)であるように、擬似ランダム機構を用いて実現される。従って、そのような固定の緊急度値セットに応答して、サブシステム70は、より低い緊急度値(すなわち、擬似ランダム確率分布によって決定される低めの確率値)を持つバンドに、(平均で)より少ない強制ギャップを挿入し、より高い緊急度値(すなわち、高めの確率値)を持つバンドに、(平均で)より多くの強制ギャップを挿入するように構成され得る。一部の実装において、緊急信号915a-915nは、例えばシーケンス中の異なる時間ごとの異なる緊急度値セットといった、緊急値セット[U,U,…,U]のシーケンスを示し得る。そのような異なる緊急度値セットは各々、異なる時間の各々について異なる擬似ランダム確率分布によって決定され得る。
次に、緊急度値、又は緊急度値を示す信号(U)を決定するための方法(これは、開示されるパーベイシブリスニング法の数多くの異なる実施形態のいずれかにおいて実装され得る)を説明する。
周波数バンドについての緊急度値は、そのバンドにギャップを強制する必要性を示す。緊急度値Uを決定するための3つの戦略を提示し、ここで、Uは、バンドkにおける強制ギャップ挿入の緊急度を表し、ベクトルUは、Bcount個の周波数バンドのセットの全てのバンドについての緊急度値を含むベクトル:
Figure 2024501427000007
を表す。
第1の戦略(ここでは方法1と称することもある)は、固定の緊急度値を決定する。この方法は最も単純であり、単に緊急度ベクトルUが所定の固定量であることを許す。固定の知覚自由度メトリックとともに使用されるとき、これは、時間にわたって強制ギャップをランダムに挿入するシステムを実装するために使用されることができる。一部のそのような方法は、パーベイシブリスニングアプリケーションによって供給される時間依存の緊急度値を必要としない。従って:
Figure 2024501427000008
であり、ここで、X=Bcountであり、(k=1からk=Bcountまでの範囲内のkについての)各値uは、“k”バンドに対する所定の固定緊急度値を表す。全てのuを1.0に設定することは、全ての周波数バンドにおいて等しい程度の緊急性を表す。
第2の戦略(ここでは方法2と称することもある)は、先行ギャップの発生からの経過時間に依存する緊急度値を決定する。一部の実装において、緊急性は時間とともに徐々に増加し、そして、強制されたギャップ又は既存のギャップのいずれかがパーベイシブリスニング結果の更新(例えば、背景雑音推定値更新)を引き起こすと低い値に戻る。
従って、各周波数バンド(バンドk)における緊急度値Uは、バンドkにおいてギャップが(パーベイシブリスナーによって)知覚されてからの時間の長さ(例えば、秒数)に対応し得る。一部の例において、各周波数バンドの緊急度値Uは、
(t)=min(t-t,Umax
として決定されることができ、ここで、tは、バンドkで最後のギャップが見られた時間を表し、Umaxは、緊急性を最大サイズに制限するチューニングパラメータを表す。なお、tは、再生コンテンツ内に元々存在するギャップの存在に基づいて更新し得る。例えば、雑音補償では、再生環境内の現在の雑音状態が、出力再生信号内のギャップとみなされるものを決定し得る。すなわち、再生信号は、ギャップが発生するには静かな環境である場合には、環境がノイジーである場合よりも静かでなければならない。同様に、典型的に人間の発話によって占有される周波数バンドについての緊急性は、典型的に、再生環境内のユーザによる音声発話の発生又は不発生に依存するパーベイシブリスニング法を実施するときにいっそう重要なものとなる。
第3の戦略(ここでは方法3と称することもある)は、イベントベースである緊急度値を決定する。この文脈において、“イベントベース”は、再生環境の外部の、あるいは再生環境内で発生したと検出又は推測された、何らかのイベント又はアクティビティ(又は情報の必要性)に依存することを表す。パーベイシブリスニングサブシステムによって決定される緊急性は、新たなユーザ挙動の開始又は再生環境条件の変化とともに突然変化し得る。例えば、そのような変化は、パーベイシブリスニング向けに構成された1つ以上の機器に、決定を行うために、あるいは、新たな条件に対して再生経験を迅速に調整するために、あるいは、一般的な緊急性又は各バンド内のギャップ間の所望の密度及び時間における変化を実現するために、バックグラウンドアクティビティを観察する緊急の必要性を生じさせ得る。下の表3は、状況及びシナリオ、並びに緊急性における対応するイベントベース変化の幾つかの例を提供する。
Figure 2024501427000009
第4の戦略(ここでは方法4と称することもある)は、方法1、2、及び3のうちの2つ以上の組み合わせを用いて緊急度値を決定する。例えば、方法1、2、及び3の各々を、次のタイプの一般的な定式化:
(t)=u*min(t-t,Umax)*V
によって表されるジョイント戦略へと組み合わせることができ、ここで、uは、各周波数バンドの相対的な重要性を制御する固定の無単位の重み付け係数を表し、Vは、緊急性の迅速な変更を必要とする状況又はユーザ挙動の変化に応答して変調されるスカラー値を表し、t及びUmaxは上で定義したものである。一部の例において、値Vは、通常動作下では1.0の値のままであることが期待される。
複数機器の状況の一部の例において、オーディオ環境のスマートオーディオ機器の強制ギャップ適用器は、環境雑音Nの正確な推定を達成するために、編成されたやり方で協働し得る。一部のそのような実装において、時間及び周波数においてどこに強制ギャップが導入されるかの決定は、別個の編成側機器(この中の他の箇所でスマートホームハブと称しているものなど)によって実装される編成側機器905によって為され得る。一部の代わりの実装において、時間及び周波数においてどこに強制ギャップが導入されるかの決定は、スマートオーディオ機器のうちリーダーとして動作している1つ(例えば、編成側機器905として動作しているスマートオーディオ機器)によって為され得る。
一部の実装において、編成側機器905は、雑音推定値910a-910nを受信し、雑音推定値910a-910nに少なくとも部分的に基づき得るギャップコマンドをオーディオ機器901a-901nに提供するように構成された制御システムを含み得る。一部のそのような例において、編成側機器905は、緊急信号の代わりにギャップコマンドを提供し得る。一部のそのような実装によれば、強制ギャップ適用器70は、緊急信号に基づいて、ギャップを挿入すべきか、そして、挿入すべき場合に、どのようなタイプのギャップを挿入すべきかを決定する必要はなく、代わりに単にギャップコマンドに従って動作すればよい。
一部のそのような実装において、ギャップコマンドは、挿入すべき1つ以上の特定のギャップの特性(例えば、周波数レンジ又はBcount、Z、t1、t2、及び/又はt3)と、該1つ以上の特定のギャップの挿入についての(1つ以上の)時間とを示し得る。例えば、ギャップコマンドは、図3B-図3Jに示して上述したもののうちの1つなど、ギャップ及び対応する時間間隔のシーケンスを示し得る。一部の例において、ギャップコマンドはデータ構造を示してもよく、受信側オーディオ機器が、そこから、挿入すべきギャップ及び対応する時間間隔のシーケンスの特性にアクセスし得る。該データ構造は、例えば、受信側オーディオ機器に前もって提供されているとし得る。一部のそのような例において、編成側機器905は、ギャップコマンドをいつ送信すべきか、及びどのタイプのギャップコマンドを送信すべきかを決定するための緊急度計算を行うように構成された制御システムを含み得る。
一部の例によれば、緊急信号は、オーディオ機器901a-901nのうちの1つ以上の雑音推定要素64によって少なくとも部分的に推定されて、編成側機器905に送信され得る。強制ギャップを特定の周波数領域及び時間的位置に編成するかの決定は、一部の例において、オーディオ機器901a-901nのうちの1つ以上からのこれらの緊急信号の集約によって少なくとも部分的に決定され得る。例えば、緊急度によって通知される選択を行う開示のアルゴリズムは、代わりに、複数のオーディオ機器の緊急信号にわたって計算される最大緊急度、例えば、緊急度=maximum(緊急度A,緊急度B,緊急度C,…)を用いてもよく、ここで、緊急度A/B/Cは、雑音補償を実装する3つの別々の機器例の緊急信号として理解される。
雑音補償システム(例えば、図9のもの)は、(例えば、米国仮特許出願第62/663,302号(ここに援用する)に記載されるように実装されるときに)エコーキャンセレーションを弱くしたり存在しないようにしたりして機能することができるが、特に音楽、TV、及び映画コンテンツの場合に、コンテンツ依存応答時間に悩まされることがある。雑音補償システムが再生環境内の背景雑音のプロファイルの変化に応答するのに要する時間は、ユーザ体験にとって非常に重要であり、実際の雑音推定値の精度よりも重要である時もある。再生コンテンツが、背景雑音をぼかすためのギャップを殆ど又は全く提供しないとき、雑音推定値は、雑音状態が変化するときにも固定されたままとなり得る。雑音推定スペクトルにおける欠損値を補間・補完することは典型的には有用であるが、雑音推定スペクトルの大きな領域がロックアップされて古びたものとなることが依然としてあり得る。
図9のシステムの一部の実施形態は、(雑音推定器64による)背景雑音推定値が、再生環境Eにおける背景雑音Nのプロファイルの典型的な変化に応答するのに十分な頻度で更新され得るのに十分な頻度で(例えば、強制ギャップ適用器70の出力の関心ある各周波数バンドにおいて)発生する強制ギャップを(再生信号内に)提供するように動作可能であり得る。一部の例において、サブシステム70は、雑音補償サブシステム62から出力される補償済みオーディオ再生信号(K個のチャネルを有し、Kは正の整数である)に強制ギャップを導入するように構成され得る。ここで、雑音推定器64は、補償済みオーディオ再生信号の各チャネル内のギャップ(サブシステム70によって挿入された強制ギャップを含む)を探索し、それらのギャップが発生する周波数バンドについて(及び時間間隔において)雑音推定値を生成するように構成され得る。この例において、オーディオ機器901aの雑音推定器64は、雑音推定値910aを雑音補償サブシステム62に提供するように構成される。一部の例によれば、オーディオ機器901aの雑音推定器64はまた、検出されたギャップに関して結果として得られた情報を用いて、その緊急度値が補償済みオーディオ再生信号の周波数バンドに強制ギャップを挿入することについての緊急性を追跡するものである推定緊急度信号を生成する(及び編成側機器905に提供する)ように構成されてもよい。
この例において、雑音推定器64は、マイクロフォンフィード(マイク)(再生環境E内のマイクロフォンMの出力)と、補償済みオーディオ再生信号の基準(再生環境E内のスピーカシステムSへの入力)との両方を受け入れるように構成される。この例によれば、サブシステム64において生成された雑音推定値が雑音補償サブシステム62に提供され、雑音補償サブシステム62が、(コンテンツソース22からの)入力再生信号23の各周波数バンドを所望の再生レベルに平準化するように、入力再生信号23に補償利得を適用する。この例において、雑音補償済みオーディオ再生信号(サブシステム62からの出力)及びバンドごとの緊急性メトリック(編成側機器905から出力される緊急度信号によって示される)が強制ギャップ適用器70に提供され、強制ギャップ適用器70が、(好ましくは最適化プロセスに従って)補償済み再生信号内にギャップを強制する。各々が雑音補償済み再生信号(強制ギャップ適用器70からの出力)の異なるチャネルのコンテンツを示すものである(1つ以上の)スピーカフィードが、スピーカシステムSの各スピーカに提供される。
図9のシステムの一部の実装は、それが実行する雑音推定の要素としてエコーキャンセレーションを実行し得るが、図9のシステムの他の実装はエコーキャンセレーションを実行しない。従って、エコーキャンセレーションを実施するための要素は図9には具体的に示していない。
図9には、信号の時間ドメインから周波数ドメインへの(及び/又は周波数ドメインから時間ドメインへの)変換は示していないが、(サブシステム62における)雑音補償利得の適用、(編成側機器905、雑音推定器64、及び/又は強制ギャップ適用器70における)ギャップ強制のためのコンテンツの分析、及び(強制ギャップ適用器70による)強制ギャップの挿入は、便宜のために同じ変換ドメインにおいて実装されることができ、結果として得られる出力オーディオは、再生の前又は伝送のための更なる符号化の前にPCM(時間ドメイン)オーディオに再合成され得る。一部の例によれば、各参加機器は、この中の他の箇所で説明される方法を用いて、このようなギャップの強制を調整する。一部のそのような例において、導入されるギャップは相等しくてもよい。一部の例において、導入されるギャップは同期されてもよい。
各参加機器上に存在してギャップを挿入する強制ギャップ適用器70の使用により、(図9のシステムの雑音補償サブシステム62から出力される)補償済み再生信号の各チャネル内のギャップの数が、図9のシステムによって実装されるエコーキャンセラに対する要求を大幅に低減させるため、及び一部のケースではエコーキャンセレーションの必要性を完全になくしさえするために、(強制ギャップ適用器70を使用しない場合に発生するギャップの数に対して)増加され得る。
一部の開示される実装において、強制ギャップ適用器70とスピーカシステムSとの間に、例えば時間ドメインピーク制限又はスピーカ保護などの単純な後処理回路を実装することが可能である。しかしながら、スピーカフィードをブースト及び圧縮する能力を有する後処理は、強制ギャップ適用器によって挿入された強制ギャップの品質を取り消してしまったり低下させてしまったりする可能性があり、故に、それらのタイプの後処理は、好ましくは、強制ギャップ適用器70より前の信号処理経路内のポイントに実装される。
図10は、開示される方法の他の一例を概説するフロー図である。方法1000のブロックは、ここで説明される他の方法のように、必ずしも示される順序で実行される必要はない。また、このような方法は、図示及び/又は説明されるものよりも多数又は少数のブロックを含んでもよい。この例において、方法1000はオーディオ処理方法である。
方法1000は、例えば図1Cに示して上述した装置150などの装置又はシステムによって実行され得る。一部の例において、方法1000のブロックは、オーディオ環境内の1つ以上の機器によって実行されることができ、例えば、オーディオシステムコントローラ(例えば、ここでスマートホームハブと称するもの)などの編成側機器によって、又は例えばスマートスピーカ、テレビ、テレビ制御モジュール、ラップトップコンピュータ、モバイル機器(セルラー電話など)などのオーディオシステムの別のコンポーネントによって実行され得る。他の例において、オーディオ環境は、例えばオフィス環境、自動車環境、列車環境、街路若しくは歩道環境、公園環境などの、他のタイプの環境であってもよい。しかしながら、代わりの実装において、方法1000の少なくとも一部のブロックは、例えばサーバなどの、クラウドベースのサービスを実装する機器によって実行され得る。
この実装において、ブロック1005は、制御システムにより、コンテンツストリームの第1時間間隔中のコンテンツストリームの第1オーディオ再生信号の第1周波数レンジ内に第1ギャップを挿入させて、オーディオ環境の第1オーディオ機器向けの第1改変オーディオ再生信号を生成することを含む。この例において、第1ギャップは、第1周波数レンジ内の第1オーディオ再生信号の減衰に一致する。この例において、ブロック1010は、制御システムにより、第1オーディオ機器に第1改変オーディオ再生信号を再生させて、第1オーディオ機器再生音を生成することを含む。
この例において、ブロック1015は、制御システムにより、コンテンツストリームの第1時間間隔中のコンテンツストリームの第2オーディオ再生信号の第1周波数レンジ内に第1ギャップを挿入させて、オーディオ環境の第2オーディオ機器向けの第2改変オーディオ再生信号を生成することを含む。この例によれば、ブロック1020は、制御システムにより、第2オーディオ機器に第2改変オーディオ再生信号を再生させて、第2オーディオ機器再生音を生成することを含む。
この実装によれば、ブロック1025は、制御システムにより、オーディオ環境の少なくとも1つのマイクロフォンに、少なくとも第1オーディオ機器再生音及び第2オーディオ機器再生音を検出させ、少なくとも第1オーディオ機器再生音及び第2オーディオ機器再生音に対応するマイクロフォン信号を生成させることを含む。この例において、ブロック1030は、制御システムにより、少なくとも第1周波数レンジ内のマイクロフォン信号からオーディオデータを抽出して、抽出オーディオデータを生成することを含む。この実装によれば、ブロック1035は、制御システムにより、抽出オーディオデータに少なくとも部分的に基づいて、遠距離場オーディオ環境インパルス応答又はオーディオ環境雑音のうちの少なくとも一方を推定することを含む。
一部の実装において、方法1000は、ターゲットオーディオ機器に、コンテンツストリームの未改変オーディオ再生信号を再生させて、ターゲットオーディオ機器再生音を生成することを含み得る。一部のこのような実装は、制御システムにより、抽出オーディオデータに少なくとも部分的に基づいて、ターゲットオーディオ機器可聴性又はターゲットオーディオ機器位置のうちの少なくとも一方を推定することを含み得る。一部のこのような例において、未改変オーディオ再生信号は、第1ギャップを含まない。一部の例において、未改変オーディオ再生信号は、いずれの周波数レンジにも挿入されたギャップを含まない。一部のこのような例において、マイクロフォン信号はまた、ターゲットオーディオ機器再生音にも対応する。
一部の実装によれば、第1改変オーディオ再生信号を生成することは、制御システムにより、コンテンツストリームの第2乃至第N時間間隔中の第1オーディオ再生信号の第2乃至第N周波数レンジ内に第2乃至第Nギャップを挿入させることを含み得る。一部のこのような例において、第2改変オーディオ再生信号を生成することは、制御システムにより、コンテンツストリームの第2乃至第N時間間隔中の第2オーディオ再生信号の第2乃至第N周波数レンジ内に第2乃至第Nギャップを挿入させることを含み得る。一部の例によれば、少なくとも第1ギャップ(一部の例では全てのギャップ)は、知覚的にマスクされ得る。
一部の実装において、方法1000は、制御システムにより、コンテンツストリームの第1時間間隔中のコンテンツストリームの第3乃至第Mオーディオ再生信号の第1周波数レンジ内に第1ギャップを挿入させて、オーディオ環境の第3乃至第Mオーディオ機器向けの第3乃至第M改変オーディオ再生信号を生成することを含み得る。一部のこのような例は、制御システムにより、第3乃至第Mオーディオ機器に第3乃至第M改変オーディオ再生信号のうち対応するものを再生させて、第3乃至第Mオーディオ機器再生音を生成することを含むことができ、マイクロフォン信号を生成することは、制御システムにより、オーディオ環境の少なくとも1つのマイクロフォンに第3乃至第Mオーディオ機器再生音を検出させることを含む。一部のこのような例において、第1乃至第M改変オーディオ再生信号を生成することは、制御システムにより、コンテンツストリームの第2乃至第N時間間隔中の第1乃至第Mオーディオ再生信号の第2乃至第N周波数レンジ内に第2乃至第Nギャップを挿入させることを含む。
一部の例において、少なくとも第1周波数レンジは周波数バンドに対応し得る。一部のこのような例において、周波数バンドは、メル尺度で等間隔にされた複数の周波数バンドのうちの1つとし得る。しかしながら、一部の例において、少なくとも第1の周波数レンジは周波数ビンに対応してもよい。
一部の実装において、方法1000は、基準ビンを第1機器から第2機器に送信させることを含み得る。第1機器は、一部の例において、ターゲット機器とし得る。基準ビンは、例えば、第1周波数レンジにおけるターゲット機器の出力に対応し得る。
一部の例によれば、第1ギャップを挿入させることは、第1ギャップを挿入するための命令を送信することを含み得る。一部の代わりの実装において、第1ギャップを挿入させることは、第1ギャップを挿入することを含み得る。
一部の実装において、第1オーディオ機器に第1改変オーディオ再生信号を再生させることは、第1改変オーディオ再生信号を再生する命令を第1オーディオ機器に送信することを含み得る。一部の例によれば、第1改変オーディオ再生信号及び第2改変オーディオ再生信号は、少なくとも部分的に相関性があるとし得る。
本開示の一部の態様は、開示される方法の1つ以上の例を実行するように構成される(例えば、プログラムされる)システム又は装置、並びに、開示される方法の1つ以上の例又はそのステップを実装するためのコードを格納する有形のコンピュータ読み取り可能媒体(例えば、ディスク)を含む。例えば、一部の開示されるシステムは、開示される方法の一実施形態又はそのステップを含め、多様な処理のうちのいずれかをデータに対して実行するようにソフトウェア又はファームウェアでプログラミングされた又はその他の方法で構成された、プログラム可能な汎用プロセッサ、デジタル信号プロセッサ、又はマイクロプロセッサであるか、それを含むかであることができる。そのような汎用プロセッサは、入力装置と、メモリと、それに対してアサートされるデータに応答して開示される方法の1つ以上の例(又はそのステップ)を実行するようにプログラムされる(及び/又はその他の方法で構成される)プロセッシングサブシステムと、を含むコンピュータシステムであるか、それを含むかであるとし得る。
一部の実施形態は、開示された方法の1つ以上の例の実行を含め、(1つ以上の)オーディオ信号に対して必要な処理を実行するように構成された(例えば、プログラムされた、及びその他の方法で構成された)コンフィギュラブル(例えば、プログラマブル)デジタル信号プロセッサ(DSP)として実装され得る。あるいは、開示されるシステム(又はその要素)の実施形態は、開示された方法の1つ以上の例を含む多様な処理のうちのいずれかを実行するように、ソフトウェア若しくはファームウェアでプログラムされた、及び/又はその他の方法で構成された、汎用プロセッサ(例えば、入力デバイス及びメモリを含み得るパーソナルコンピュータ(PC)又は他のコンピュータシステム若しくはマイクロプロセッサ)として実装され得る。あるいは、本発明のシステムの一部の実施形態の要素は、開示された方法の1つ以上の例を実行するように構成された(例えば、プログラムされた)汎用プロセッサ又はDSPとして実装されてもよく、システムはまた、他の要素(例えば、1つ以上のラウドスピーカ及び/又は1つ以上のマイクロフォン)を含む。開示された方法の1つ以上の例を実行するように構成された汎用プロセッサは、入力デバイス(例えば、マウス及び/又はキーボード)、メモリ、及びディスプレイデバイスに結合され得る。
本開示の他の一態様は、開示された方法又はそのステップの1つ以上の例を実行するためのコード(例えば、実行するように実行可能なコーダ)を格納するコンピュータ読み取り可能媒体(例えば、ディスク又は他の有形記憶媒体)である。
本開示の特定の実施形態及び本開示の用途をここで説明してきたが、当業者に明らかになることには、ここで説明されて特許請求される本開示の範囲から逸脱することなく、ここで説明された実施形態及び用途に対する数多くのバリエーションが可能である。理解されるべきことには、本開示の特定の形態が図示されて説明されているが、本開示は、記載及び図示された特定の実施形態又は記載された特定の方法に限定されるべきでない。

Claims (17)

  1. 制御システムにより、コンテンツストリームの第1時間間隔中の前記コンテンツストリームの第1オーディオ再生信号の第1周波数レンジ内に第1ギャップを挿入させて、オーディオ環境の第1オーディオ機器向けの第1改変オーディオ再生信号を生成するステップであり、前記第1ギャップは、前記第1周波数レンジ内の前記第1オーディオ再生信号の減衰を有する、ステップと、
    前記制御システムにより、前記第1オーディオ機器に前記第1改変オーディオ再生信号を再生させて、第1オーディオ機器再生音を生成するステップと、
    前記制御システムにより、前記コンテンツストリームの前記第1時間間隔中の前記コンテンツストリームの第2オーディオ再生信号の前記第1周波数レンジ内に前記第1ギャップを挿入させて、前記オーディオ環境の第2オーディオ機器向けの第2改変オーディオ再生信号を生成するステップと、
    前記制御システムにより、前記第2オーディオ機器に前記第2改変オーディオ再生信号を再生させて、第2オーディオ機器再生音を生成するステップと、
    前記制御システムにより、前記オーディオ環境の少なくとも1つのマイクロフォンに、少なくとも前記第1オーディオ機器再生音及び前記第2オーディオ機器再生音を検出させ、少なくとも前記第1オーディオ機器再生音及び前記第2オーディオ機器再生音に対応するマイクロフォン信号を生成させるステップと、
    前記制御システムにより、少なくとも前記第1周波数レンジ内の前記マイクロフォン信号からオーディオデータを抽出して、抽出オーディオデータを生成するステップと、
    前記制御システムにより、前記抽出オーディオデータに少なくとも部分的に基づいて、遠距離場オーディオ環境インパルス応答又はオーディオ環境雑音のうちの少なくとも一方を推定するステップと、
    を有するオーディオ処理方法。
  2. ターゲットオーディオ機器に、前記コンテンツストリームの未改変オーディオ再生信号を再生させて、ターゲットオーディオ機器再生音を生成するステップと、
    前記制御システムにより、前記抽出オーディオデータに少なくとも部分的に基づいて、ターゲットオーディオ機器可聴性又はターゲットオーディオ機器位置のうちの少なくとも一方を推定するステップであり、
    前記未改変オーディオ再生信号は、前記第1ギャップを含まず、
    前記マイクロフォン信号はまた、前記ターゲットオーディオ機器再生音にも対応する、ステップと、
    を更に有する請求項1に記載のオーディオ処理方法。
  3. 前記未改変オーディオ再生信号は、いずれの周波数レンジにも挿入されたギャップを含まない、請求項2に記載のオーディオ処理方法。
  4. 前記第1改変オーディオ再生信号を生成することは、前記制御システムにより、前記コンテンツストリームの第2乃至第N時間間隔中の前記第1オーディオ再生信号の第2乃至第N周波数レンジ内に第2乃至第Nギャップを挿入させることを含み、
    前記第2改変オーディオ再生信号を生成することは、前記制御システムにより、前記コンテンツストリームの第2乃至第N時間間隔中の前記第2オーディオ再生信号の第2乃至第N周波数レンジ内に第2乃至第Nギャップを挿入させることを含む、
    請求項1乃至3のいずれか一項に記載のオーディオ処理方法。
  5. 前記制御システムにより、前記コンテンツストリームの前記第1時間間隔中の前記コンテンツストリームの第3乃至第Mオーディオ再生信号の前記第1周波数レンジ内に前記第1ギャップを挿入させて、前記オーディオ環境の第3乃至第Mオーディオ機器向けの第3乃至第M改変オーディオ再生信号を生成するステップと、
    前記制御システムにより、前記第3乃至第Mオーディオ機器に前記第3乃至第M改変オーディオ再生信号のうち対応するものを再生させて、第3乃至第Mオーディオ機器再生音を生成するステップであり、前記マイクロフォン信号を生成することは、前記制御システムにより、前記オーディオ環境の前記少なくとも1つのマイクロフォンに前記第3乃至第Mオーディオ機器再生音を検出させることを含む、ステップと、
    を更に有する請求項1乃至3のいずれか一項に記載のオーディオ処理方法。
  6. 前記第1乃至第M改変オーディオ再生信号を生成することは、前記制御システムにより、前記コンテンツストリームの第2乃至第N時間間隔中の前記第1乃至第Mオーディオ再生信号の第2乃至第N周波数レンジ内に第2乃至第Nギャップを挿入させることを含む、請求項5に記載のオーディオ処理方法。
  7. 少なくとも前記第1ギャップは知覚的にマスクされる、請求項1乃至6のいずれか一項に記載のオーディオ処理方法。
  8. 少なくとも前記第1周波数レンジは周波数バンドに対応する、請求項1乃至7のいずれか一項に記載のオーディオ処理方法。
  9. 前記周波数バンドは、メル尺度で等間隔にされた複数の周波数バンドのうちの1つである、請求項8に記載のオーディオ処理方法。
  10. 少なくとも前記第1周波数レンジは周波数ビンに対応する、請求項1乃至9のいずれか一項に記載のオーディオ処理方法。
  11. 当該オーディオ処理方法は更に、基準ビンを第1機器から第2機器に送信させることを有し、前記基準ビンは、前記第1周波数レンジにおける前記ターゲット機器の出力に対応する、請求項1乃至10のいずれか一項に記載のオーディオ処理方法。
  12. 前記第1ギャップを挿入させることは、前記第1ギャップを挿入するための命令を送信すること、又は前記第1ギャップを挿入することを有する、請求項1乃至11のいずれか一項に記載のオーディオ処理方法。
  13. 前記第1オーディオ機器に前記第1改変オーディオ再生信号を再生させることは、前記第1改変オーディオ再生信号を再生する命令を前記第1オーディオ機器に送信することを有する、請求項1乃至12のいずれか一項に記載のオーディオ処理方法。
  14. 前記第1改変オーディオ再生信号及び前記第2改変オーディオ再生信号は、少なくとも部分的に相関性がある、請求項1乃至13のいずれか一項に記載のオーディオ処理方法。
  15. 請求項1乃至14のいずれか一項に記載のオーディオ処理方法を実行するように構成された装置。
  16. 請求項1乃至14のいずれか一項に記載のオーディオ処理方法を実行するように構成されたシステム。
  17. ソフトウェアを格納した1つ以上の非一時的媒体であって、前記ソフトウェアは、請求項1乃至14のいずれか一項に記載のオーディオ処理方法を実行するように1つ以上の機器を制御するための命令を含む、1つ以上の非一時的媒体。
JP2023533817A 2020-12-03 2021-12-02 パーベイシブリスニング向けに編成されたギャップ Pending JP2024501427A (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US202063120887P 2020-12-03 2020-12-03
US63/120,887 2020-12-03
US202163201561P 2021-05-04 2021-05-04
US63/201,561 2021-05-04
PCT/US2021/061658 WO2022120082A1 (en) 2020-12-03 2021-12-02 Insertion of forced gaps for pervasive listening

Publications (1)

Publication Number Publication Date
JP2024501427A true JP2024501427A (ja) 2024-01-12

Family

ID=79283227

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023533817A Pending JP2024501427A (ja) 2020-12-03 2021-12-02 パーベイシブリスニング向けに編成されたギャップ

Country Status (4)

Country Link
US (1) US20240107252A1 (ja)
EP (1) EP4256814A1 (ja)
JP (1) JP2024501427A (ja)
WO (1) WO2022120082A1 (ja)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2375779A3 (en) * 2010-03-31 2012-01-18 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Apparatus and method for measuring a plurality of loudspeakers and microphone array
JP7195344B2 (ja) * 2018-07-27 2022-12-23 ドルビー ラボラトリーズ ライセンシング コーポレイション パーベイシブ・リステニングのための強制ギャップ挿入

Also Published As

Publication number Publication date
EP4256814A1 (en) 2023-10-11
WO2022120082A1 (en) 2022-06-09
US20240107252A1 (en) 2024-03-28

Similar Documents

Publication Publication Date Title
US20230319190A1 (en) Acoustic echo cancellation control for distributed audio devices
WO2008041878A2 (en) System and procedure of hands free speech communication using a microphone array
US11096005B2 (en) Sound reproduction
US20220322010A1 (en) Rendering audio over multiple speakers with multiple activation criteria
US20240163340A1 (en) Coordination of audio devices
JP2024501426A (ja) パーベイシブ音響マッピング
CN104580764A (zh) 电话会议系统中的超声配对信号控制
US10602276B1 (en) Intelligent personal assistant
US11968268B2 (en) Coordination of audio devices
US11195539B2 (en) Forced gap insertion for pervasive listening
JP2024501427A (ja) パーベイシブリスニング向けに編成されたギャップ
CN116547751A (zh) 针对遍布式聆听插入强制间隙
CN116547753A (zh) 机器学习辅助的空间噪声估计和抑制
RU2818982C2 (ru) Управление акустической эхокомпенсацией для распределенных аудиоустройств
Härmä Ambient telephony: Scenarios and research challenges
Garre et al. An Acoustic Echo Cancellation System based on Adaptive Algorithm
US20230421952A1 (en) Subband domain acoustic echo canceller based acoustic state estimator
US20240056757A1 (en) Orchestration of acoustic direct sequence spread spectrum signals for estimation of acoustic scene metrics
US20240048931A1 (en) Orchestration of acoustic direct sequence spread spectrum signals for estimation of acoustic scene metrics
US20240114309A1 (en) Progressive calculation and application of rendering configurations for dynamic applications
EP3884683B1 (en) Automatic microphone equalization
CN108141694B (zh) 音频设备中的回放管理的事件检测
CN116806431A (zh) 通过相互设备可听性在用户位置处的可听性
WO2022119990A1 (en) Audibility at user location through mutual device audibility
EP4292271A1 (en) Echo reference prioritization and selection

Legal Events

Date Code Title Description
A529 Written submission of copy of amendment under article 34 pct

Free format text: JAPANESE INTERMEDIATE CODE: A529

Effective date: 20230731