JP2024500916A - バイノーラルオーディオ録音のための知覚強化 - Google Patents

バイノーラルオーディオ録音のための知覚強化 Download PDF

Info

Publication number
JP2024500916A
JP2024500916A JP2023538159A JP2023538159A JP2024500916A JP 2024500916 A JP2024500916 A JP 2024500916A JP 2023538159 A JP2023538159 A JP 2023538159A JP 2023538159 A JP2023538159 A JP 2023538159A JP 2024500916 A JP2024500916 A JP 2024500916A
Authority
JP
Japan
Prior art keywords
noise reduction
signal
features
audio
reduction gains
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023538159A
Other languages
English (en)
Inventor
マー,ユエンシーン
シュアン,ズーウェイ
リウ,ヤーン
Original Assignee
ドルビー ラボラトリーズ ライセンシング コーポレイション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ドルビー ラボラトリーズ ライセンシング コーポレイション filed Critical ドルビー ラボラトリーズ ライセンシング コーポレイション
Publication of JP2024500916A publication Critical patent/JP2024500916A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • H04R1/1083Reduction of ambient noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/301Automatic calibration of stereophonic sound system, e.g. with test microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • H04R1/1016Earpieces of the intra-aural type
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • H04R1/1058Manufacture or assembly
    • H04R1/1075Mountings of transducers in earphones or headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/03Synergistic effects of band splitting and sub-band processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/11Transducers incorporated or for use in hand-held devices, e.g. mobile phones, PDA's, camera's
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/033Headphones for stereophonic communication
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/07Synergistic effects of band splitting and sub-band processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

オーディオ処理の方法は、バイノーラルオーディオ信号をキャプチャすること、機械学習モデルを使用してノイズリダクションゲインを計算すること、及び修正されたバイノーラルオーディオ信号を生成することを含む。本方法は、フロントカメラやリアカメラなどの異なるカメラによってキャプチャされたビデオを考慮して、オーディオにさまざまな補正を実行することをさらに含み得る。本方法は、フロントカメラとリアカメラとの間を切り替えるときにバイノーラルオーディオの滑らかな切り替えを行うことをさらに含み得る。本方法では、バイノーラルオーディオにおいてノイズが減少し、組み合わされたビデオとバイノーラルオーディオのユーザの知覚が向上し得る。

Description

(関連出願の相互参照)
本出願は、2020年1月20日に出願された米国仮特許出願第63/139,329号及び2021年12月9日に出願された米国仮特許出願第63/287,730号及び2020年12月22日に出願されたPCT出願第PCT/CN2020/138221号に対する優先権を主張するものであり、これらのすべては、その全体が参照により本明細書に組み込まれる。
本開示は、オーディオ処理、特にノイズ抑制に関する。
ここに別段の記載がない限り、このセクションに記載されているアプローチは、本出願の特許請求の範囲に対する先行技術ではなく、このセクションに含めることによって先行技術であると認められるものではない。
消費者の間では、オーディオビジュアルキャプチャ用のデバイスの人気が高まっている。そのようなデバイスは、Sony Action Cam(商標)カメラ及びGoPro(登録商標)カメラなどのポータブルカメラ、及びカメラ機能が統合された携帯電話を含む。一般的に、デバイスは、例えばモノラル又はステレオマイクを使用して、ビデオをキャプチャすることと同時にオーディオをキャプチャする。YouTube(登録商標)サービス及びTwitch.tv(商標)サービスなどのオーディオビジュアルコンテンツ共有システムも人気が高まっている。ユーザは、次いで、キャプチャしたオーディオビジュアルコンテンツをキャプチャと同時にブロードキャストする、又はキャプチャしたオーディオビジュアルコンテンツをコンテンツ共有システムにアップロードする。このコンテンツはユーザによって生成されるため、通常プロによって生成されるプロが生成するコンテンツ(PGC)に対して、ユーザ生成コンテンツ(UGC)と呼ばれる。UGCは多くの場合、プロの機器よりも安価で機能が少ない消費者向けの機器を使用して作成される点でPGCとは異なる。UGCとPGCとの間のもう一つの違いは、UGCは屋外などの制御されていない環境でキャプチャされることが多いのに対し、PGCはレコーディングスタジオなどの制御された環境でキャプチャされることが多いことである。
バイノーラルオーディオは、ユーザの耳の位置にある2つのマイクを使用して録音されたオーディオを含む。キャプチャされたバイノーラルオーディオは、ヘッドフォンで再生するとき、没入感のあるリスニング体験をもたらす。ステレオオーディオと比較して、バイノーラルオーディオはユーザの頭と耳の頭の影も含むため、バイノーラルオーディオがキャプチャされると、両耳間の時間差と両耳間のレベル差をもたらす。
既存のオーディオビジュアルキャプチャシステムにはいくつかの問題がある。1つの問題は、多くの既存のキャプチャデバイスはモノラル又はステレオマイクしか含まず、バイノーラルオーディオのキャプチャが特に困難であることである。別の問題は、PGCが制御された環境でキャプチャされることが多いため、UGCオーディオはPGCオーディオには存在しない定常及び非定常のノイズがあることが多いことである。別の問題は、独立したオーディオ及びビデオキャプチャデバイスが、目と耳を使用した人間の知覚と矛盾するオーディオ及びビデオストリームをもたらす可能性があることである。
実施形態は、バイノーラルオーディオと同時にビデオをキャプチャし、キャプチャされたバイノーラルオーディオに対してノイズリダクションなどの知覚強化を実行することに関する。結果として得られるバイノーラルオーディオは、その後、キャプチャされたビデオと組み合わせて消費されると、ステレオ又はモノラルオーディオとは異なる方法で認識される。
一実施形態によると、オーディオ処理のコンピュータ実装された方法は、オーディオキャプチャデバイスによって、左チャネルと右チャネルを含む少なくとも2つのチャネルを持つオーディオ信号をキャプチャすることを含む。この方法は、さらに、機械学習システムによって、少なくとも2つのチャネルの各チャネルについて複数のノイズリダクションゲインを計算することを含む。この方法は、さらに、各チャネルについての複数のノイズリダクションゲインに基づいて、複数の共有ノイズリダクションゲインを計算することを含む。この方法は、さらに、少なくとも2つのチャネルの各チャネルに複数の共有ノイズリダクションゲインを適用することによって、修正されたオーディオ信号を生成することを含む。
その結果、ノイズがキャプチャされたバイノーラルオーディオにおいて低減され得る。
機械学習システムは、モノラルモデル、バイノーラルモデル、又はモノラルモデルとバイノーラルモデルの両方を使用し得る。
この方法は、さらに、ビデオキャプチャデバイスによって、オーディオ信号をキャプチャすることと同時にビデオ信号をキャプチャすることを含み得る。この方法は、さらに、フロントカメラとリアカメラとの間を切り替えることを含み得、切り替えることは、第1の平滑化パラメータを使用してオーディオ信号の左/右補正を平滑化すること、及び第2の平滑化パラメータを使用してオーディオ信号の前/後補正を平滑化することを含む。オーディオ信号をキャプチャすることと同時にビデオ信号をキャプチャすることは、オーディオ信号に対して補正を実行することを含み得、この補正は、左/右補正、前/後補正、及びステレオイメージ幅制御補正の少なくとも1つを含む。ステレオイメージ幅制御補正は、オーディオ信号の左チャネルと右チャネルから中央チャネルとサイドチャネルを生成すること、幅調整係数によってサイドチャネルを減衰させること、及び中央チャネルと減衰されたサイドチャネルから修正されたオーディオ信号を生成することを含み得る。
別の実施形態によれば、装置はプロセッサを含む。プロセッサは、ここで説明する1つ以上の方法を実装するよう装置を制御するように構成される。装置は、ここで説明する1つ以上の方法と同様の詳細をさらに含み得る。
別の実施形態によれば、非一時的コンピュータ可読媒体は、プロセッサによって実行されると、ここで説明する1つ以上の方法を含む処理を実行するように装置を制御するコンピュータプログラムを格納する。
以下の詳細な説明と添付の図面は、様々な実装の性質と利点のさらなる理解を提供する。
オーディオビジュアルキャプチャシステム100の定型化された俯瞰図である。
オーディオ処理システム200のブロック図である。
オーディオ処理システム300のブロック図である。
オーディオ処理システム400のブロック図である。
オーディオ処理システム500のブロック図である。
ビデオキャプチャシステム100(図1参照)を使用した自撮り(selfie(セルフィー))モードでのバイノーラルオーディオキャプチャを示す定型化された俯瞰図である。
バイカッドフィルタ(bi-quad filter)を使用して実装されたハイシェルフフィルタの大きさ特性(magnitude response(振幅特性))の例を示すグラフである。
自撮りモードでの様々なオーディオキャプチャアングルを示す定型化された俯瞰図である。
異なる焦点距離fに対する減衰係数αのグラフである。
ビデオキャプチャシステム100(図1参照)を使用した通常モードでのバイノーラルオーディオキャプチャを示す定型化された俯瞰図である。
一実施形態による、ここに記載された特徴及び処理を実装するためのデバイスアーキテクチャ1100である。
オーディオ処理の方法1200のフローチャートである。
オーディオ処理の方法1300のフローチャートである。
ここでは、オーディオ処理に関する技術について説明する。以下の説明では、説明のために、本開示の完全な理解を提供するために、多数の例と具体的な詳細を記載する。しかしながら、請求項によって定義される本開示は、これらの例の特徴の一部又は全部を単独で、又は以下に記載される他の特徴と組み合わせて含むことができ、さらに、ここに記載される特徴及び概念の修正及び均等物を含むことができることは、当業者には明らかである。
以下の説明では、様々な方法、プロセス及び手順を詳述する。特定のステップが一定の順序で記述されることがあるが、このような順序は主に便宜と明確さのためである。特定のステップは、複数回繰り返されてもよく、他のステップが別の順序で説明されている場合でも、他のステップの前又は後に発生してもよく、他のステップと並行して発生してもよい。第2のステップは、第2のステップが開始される前に第1のステップが完了されなければならない場合にのみ、第1のステップに続く必要がある。このような状況は、文脈から明らかでない場合に具体的に指摘される。
この文書では、「及び」、「又は」及び「及び/又は」という用語が使用されている。このような用語は、包括的な意味を持つと解釈される。例えば、「A及びB」は、少なくとも以下を意味する場合がある:「AとBの両方」、「少なくともAとBの両方」。別の例として、「A又はB」は、少なくとも以下を意味する場合がある:「少なくともA」、「少なくともB」、「AとBの両方」、「少なくともAとBの両方」。別の例として、「A及び/又はB」は、少なくとも以下を意味する場合がある:「A及びB」、「A又はB」。排他的論理和(exclusive-or)が意図されている場合は、例えば、「A又はBのいずれか」、「多くてもAとBのいずれか1つ」などのように、そのことが具体的に記載される。
この文書は、ブロック、要素、コンポーネント、回路等などの構造に関連するさまざまな処理機能について説明しまする。一般に、これらの構造は、1つ以上のコンピュータプログラムによって制御されるプロセッサによって実装され得る。
図1は、オーディオビジュアルキャプチャシステム100の定型化された俯瞰図である。ユーザは概して、制御されていない環境で音声とビデオをキャプチャするために、例えばUGCをキャプチャするために、オーディオビジュアルキャプチャシステム100を使用する。オーディオビジュアルキャプチャシステム100は、ビデオキャプチャデバイス102、左のイヤホン104、及び右のイヤホン106を含む。
ビデオキャプチャデバイス102は、概してビデオデータをキャプチャするカメラを含む。ビデオキャプチャデバイス102は、フロントカメラ及びリアカメラと呼ばれる2つのカメラを含み得る。フロントカメラは、自撮りカメラとも呼ばれ、一般にビデオキャプチャデバイス102の一方の側、例えばディスプレイスクリーン又はタッチスクリーンを含む側に配置される。リアカメラは、一般にフロントカメラの側の反対側に配置される。ビデオキャプチャデバイス102は、携帯電話であってもよく、そのようなものとして、プロセッサ、揮発性及び不揮発性のメモリ及びストレージ、ラジオ、マイク、スピーカーなどのいくつかの追加コンポーネント及び機能を有してもよい。例えば、ビデオキャプチャデバイス102は、Apple iPhone(登録商標)携帯電話、Samsung Galaxy(商標)携帯電話などの携帯電話であり得る。ビデオキャプチャデバイス102は、一般に、ユーザが手に持って、ユーザの自撮り棒又は三脚に装着し、ユーザの肩マウントに装着し、空中ドローンに取り付けるなどしてもよい。
左のイヤホン104は、ユーザの左耳に配置され、マイクを含み、一般的に左バイノーラル信号をキャプチャする。左のイヤホン104は、オーディオデータをビデオデータと同時にキャプチャするために、左バイノーラル信号をビデオキャプチャデバイス102に提供する。左のイヤホン104は、例えば、Bluetooth(登録商標)プロトコルなどのIEEE 802.15.1標準プロトコルを介してビデオキャプチャデバイス102に無線で接続し得る。代替的には、左のイヤホン104は、ビデオキャプチャデバイス102からキャプチャされたオーディオデータとキャプチャされたビデオデータの両方を受信する、図示されていない別のデバイスに接続され得る。
右のイヤホン106は、ユーザの右耳に配置され、マイクを含み、一般的に右のバイノーラル信号をキャプチャする。右のイヤホン104は、左のイヤホン104に関して前述したのと同様の方法で、右のバイノーラル信号をビデオキャプチャデバイス102に提供する。右のイヤホン106は、他の点では左のイヤホン104と同様であり得る。
オーディオビジュアルキャプチャシステム100の使用例は、ユーザが通りを歩いて、イヤホン104及び106を使用してバイノーラルオーディオをキャプチャすると同時にビデオキャプチャデバイス102を使用してビデオをキャプチャすることである。その後、オーディオビジュアルキャプチャシステム100は、キャプチャしたコンテンツを放送するか、後で編集又はアップロードするためにキャプチャしたコンテンツを保存する。別の使用例は、ポッドキャスト、インタビュー、ニュースレポート、及び会議やイベント中のスピーチを録音することである。このような状況では、バイノーラル録音は、望ましい広さの感覚を提供することができる;しかし、環境ノイズの存在と、イヤホン104及び106を装着している人からの他の関心のあるソースの距離は、ノイズの圧倒的な存在のために、しばしば最適な再生体験にはならない。録音の空間キュー(spatial cue)を維持しながら、過剰なノイズを適切に減らすことは困難であるが、実際には非常に価値がある。
以下のセクションでは、例えば、キャプチャされたバイノーラルオーディオでノイズリダクションを実行するために、オーディオビジュアルキャプチャシステム100によって実装された追加のオーディオ処理技術について詳しく説明する。
1.キャプチャされたバイノーラルオーディオのノイズリダクション
図2はオーディオ処理システム200のブロック図である。オーディオ処理システム200は、オーディオビジュアルキャプチャシステム100(図1参照)のコンポーネントとして、例えばビデオキャプチャデバイス102のプロセッサによって実行される1つ以上のコンピュータプログラムとして実装され得る。オーディオ処理システム200は、変換システム202、ノイズリダクションシステム204、ミキシングシステム206、及び逆変換システム208を含む。
変換システム202は、左入力信号220及び右入力信号222を受信し、信号変換を行い、変換された左信号224及び変換された右信号226を生成する。左入力信号220は概して左イヤホン104によってキャプチャされた信号に対応し、右入力信号222は概して右イヤホン106によってキャプチャされた信号に対応する。つまり、入力信号220と222はバイノーラル信号に対応し、左入力信号220は左バイノーラル信号に、右入力信号222は右バイノーラル信号に対応する。変換された左入力信号224は変換された左入力信号220に、変換された右入力信号226は変換された右入力信号222に対応する。
信号変換は概して、入力信号を第1信号領域から第2信号領域に変換する。第1信号領域は時間領域であり得る。第2信号領域は周波数領域であり得る。信号変換は、高速フーリエ変換(FFT)、短時間フーリエ変換(STFT)、離散時間フーリエ変換(DTFT)、離散フーリエ変換(DFT)、離散サイン変換(DST)、離散コサイン変換(DCT)などのフーリエ変換;直交ミラーフィルタ(QMF)変換;複素直交ミラーフィルタ(CQMF)変換;ハイブリッド複素直交ミラーフィルタ(HCQMF)変換;などのうちの1つ以上であり得る。変換システム202は、変換を実行する前に入力信号のフレーミングを実行し得、変換はフレーム単位で実行される。フレームサイズは、5ミリ秒から15ミリ秒の間、例えば10ミリ秒であり得る。変換システム202は、変換領域のバンドにグループ化された変換された信号224及び226を出力し得る。バンドの数は、15から25の間、例えば20バンドであり得る。
ノイズリダクションシステム204は、変換された左信号224と変換された右信号226を受信し、ゲイン計算を行い、左ゲイン230と右ゲイン232を生成する。ノイズリダクションシステム204は、概して、ノイズリダクションゲイン230と232を計算するために、1つ以上の機械学習システムを実装する。特に、左のゲイン230は、変換された左の信号224に適用されるノイズリダクションゲインに対応し、右のゲイン232は、変換された右の信号226に適用されるノイズリダクションゲインに対応する。ノイズリダクションゲインは、左/右の信号の両方に適用される共有ノイズリダクションゲイン、例えば、両方の信号に適用されるゲインの単一のセットであり得る。機械学習システムとノイズリダクションゲインの詳細は、特に図3-5を参照して以下に提供される。
ミキシングシステム206は、変換された左信号224、変換された右信号226、左ゲイン230及び右ゲイン232を受信し、ミキシングを行い、ミキシングされた左信号234とミキシングされた右信号236を生成する。ミキシングシステム206は、概して、変換された左信号224と左ゲイン230をミキシングしてミキシングされた左信号234を生成し、変換された右信号226と右ゲイン232をミキシングしてミキシングされた右信号236を生成する。ミキシングのさらなる詳細は、特に図3-5を参照して以下に提供される。
逆変換システム208は、ミキシングされた左信号234とミキシングされた右信号236を受信し、逆信号変換を行い、修正された左信号240と修正された右信号242を生成する。逆信号変換は、概して、変換システム202によって実行される信号変換の逆に対応し、第2信号領域から第1信号領域に信号を変換して戻す。例えば、逆変換システム208は、ミキシングされた信号234と236をQMF領域から時間領域に変換し得る。その結果、修正された左信号240は左入力信号220のノイズ低減バージョンに対応し、修正された右信号242は右入力信号222のノイズ低減バージョンに対応する。
次に、オーディオビジュアルキャプチャシステム100は、UGCの生成の一部として、キャプチャされたビデオ信号とともに修正された左信号240と修正された右信号242を出力し得る。オーディオ処理システム200の追加の詳細は、特に図3-5を参照して以下に提供される。
図3は、オーディオ処理システム300のブロック図である。オーディオ処理システム300は、オーディオ処理システム200(図2参照)のより具体的な実施形態である。オーディオ処理システム300は、オーディオビジュアルキャプチャシステム100(図1参照)のコンポーネントとして、例えば、ビデオキャプチャデバイス102のプロセッサによって実行される1つ以上のコンピュータプログラムとして実装され得る。オーディオ処理システム300は、変換システム302a及び302b、ノイズリダクションシステム304a及び304b、ゲイン計算システム306、ミキシングシステム308a及び308b、逆変換システム310a及び310bを含む。
変換システム302a及び302bは、左入力信号320及び右入力信号322を受信し、信号変換を行い、変換された左信号324及び変換された右信号326を生成する。特に、変換システム302aは左入力信号320に基づいて変換された左信号324を生成し、変換システム302bは右入力信号322に基づいて変換された右信号326を生成する。入力信号320及び322は、イヤホン104及び106(図1参照)によってキャプチャされたバイノーラル信号に対応する。変換システム302a及び302bによって実行される信号変換は、概して、変換システム202(図2参照)に関して前述したような信号変換に対応する。
ノイズリダクションシステム304a及び304bは、変換された左信号324及び変換された右信号326を受信し、ゲイン計算を行い、左ゲイン330及び右ゲイン332を生成する。特に、ノイズリダクションシステム304aは、変換された左信号324に基づいて左ゲイン330を生成し、ノイズリダクションシステム304bは、変換された右信号326に基づいて右ゲイン332を生成する。ノイズリダクションシステム304aは、変換された左信号324を受信し、変換された左信号324に対して特徴抽出を行って特徴のセットを抽出し、トレーニングされたモデルに特徴のセットを入力することによって特徴のセットを処理し、特徴のセットを処理した結果として左ゲイン330を生成する。トレーニングされたモデルに特徴を入力して処理することを「分類(classification)」と呼ぶこともある。ノイズリダクションシステム304bは、変換された右信号326を受信し、変換された右信号326に対して特徴抽出を行って特徴のセットを抽出し、トレーニングされたモデルに特徴のセットを入力することによって特徴のセットを処理し、特徴のセットを処理した結果として右ゲイン332を生成する。
特徴は、時間的特徴、スペクトル特徴、時間周波数特徴などのうちの1つ以上を含み得る。時間的特徴は、自動補正係数(ACC)、線形予測符号化係数(LPCC)、ゼロ交差率(ZCR)などのうちの1つ以上を含み得る。スペクトル特徴は、スペクトル重心、スペクトルロールオフ、スペクトルエネルギー分布、スペクトル平坦度、スペクトルエントロピー、メル周波数ケプストラム係数(MFCC)などのうちの1つ以上を含み得る。時間周波数特徴は、スペクトル束、クロマなどのうちの1つ以上を含み得る。特徴はまた、上記の他の特徴の統計情報を含み得る。これらの統計は、平均、標準偏差、及び高次の統計、例えば、歪度、尖度などを含み得る。例えば、特徴は、スペクトルエネルギー分布の平均と標準偏差を含み得る。
トレーニングされたモデルは、機械学習システムの一部として実装され得る。機械学習システムは、リカレントニューラルネットワーク(RNN)、畳み込みニューラルネットワーク(CNN)などの1つ以上のニューラルネットワークを含み得る。トレーニングされたモデルは、抽出された特徴を入力として受信し、抽出された特徴を処理し、抽出された特徴を処理した結果としてゲインを出力する。ノイズリダクションシステム304aと304bは、どちらも同じトレーニングされたモデルを使用していることが留意され、例えば、各ノイズリダクションシステムは、トレーニングされたモデルのコピーを実装している。トレーニングされたモデルは、以下でさらに説明するように、モノラルのトレーニングデータを使用してオフラインでトレーニングされている。
ゲイン計算システム306は、左のゲイン330と右のゲイン332を受信し、数学関数に従ってゲイン330と332を組み合わせ、共有ゲイン334を生成する。数学関数は、最大、平均、範囲関数、比較関数などの1つ又は複数であり得る。例として、左のゲイン330、右のゲイン332、共有ゲイン334がそれぞれゲインのゲインベクトル、例えば20バンドのベクトルであるとする。最大について、共有ゲイン334のバンド1のゲインは、左のゲイン330のバンド1のゲイン及び右のゲイン332のバンド1のゲインの最大である;他の19バンドについても同様である。平均について、共有ゲイン334のバンド1のゲインは、左のゲイン330のバンド1のゲインと右のゲイン332のバンド1のゲインの平均である;他の19バンドについても同様である。
レンジ関数は、ゲイン330と332の各バンドにおけるゲインの範囲に基づいて、各バンドに異なる関数を適用する。例えば、ゲイン330と332の各々のバンド1におけるゲインがX1より小さい場合、最大を計算する。ゲインがX1からX2の場合、平均を計算する。ゲインがX2より大きい場合、最大を計算する。
差関数は、ゲイン330と332の各バンドにおけるゲイン間の差の比較に基づいて、各バンドに異なる関数を適用する。例えば、ゲイン330と332のバンド1におけるゲイン差がX1より小さい場合、平均を計算する;ゲイン差がX1以上の場合、最大を計算する。
オーディオ処理システム300は、速攻サウンド(quick-attack sounds)に存在する可能性のあるアーティファクトを減らすために、左ゲイン330を変換された左信号324に、右ゲイン332を変換された右信号326に適用する代わりに、共有ゲイン334を使用する。バイノーラルでキャプチャされた速攻サウンドは、左/右のマイク間の両耳間の時間差により、(変換システム302a及び302bの動作の一部として)入力信号320及び322のフレーム境界を越えることがある。このような場合、速攻サウンドのゲインは、一方のチャネルのフレームXで処理され、他方のチャネルのフレームX+1で処理され、これはアーティファクトをもたらす可能性がある。共有ゲイン、例えば各チャネルの特定のバンドのゲインの最大値を計算することは、アーティファクトの低下された認識をもたらす。
ノイズリダクションシステム304aと304b、及びゲイン計算システム306は、その他の点でノイズリダクションシステム204(図2参照)と同様であり得る。
ミキシングシステム308aと308bは、変換された左信号324、変換された右信号326、及び共有ゲイン334を受信し、共有ゲイン334を信号324と326に適用し、ミキシングされた左信号336とミキシングされた右信号338を生成する。特に、ミキシングシステム308aは、変換された左信号324に共有ゲイン334を適用してミキシングされた左信号336を生成し、ミキシングシステム308bは、変換された右信号326に共有ゲイン334を適用してミキシングされた右信号338を生成する。例えば、変換された左信号324は20バンドを持ち得、共有ゲイン334は20バンドを持つゲインベクトルであり得、ミキシングされた左信号336の所与のバンドの大きさの値(magnitude value(マグニチュード値))は、変換された左信号324の所与のバンドの大きさの値に共有ゲイン334の所与のバンドのゲイン値を乗算することによって生じる。ミキシングシステム308a及び308bは、その他の点ではミキシングシステム206(図2参照)と同様であり得る。
逆変換システム310aと310bは、ミキシングされた左信号336とミキシングされた右信号338を受信し、逆信号変換を行い、修正された左信号340と修正された右信号342を生成する。特に、逆変換システム310aは、ミキシングされた左信号336に逆信号変換を実行して修正された左信号340を生成し、逆変換システム310bは、ミキシングされた右信号338に逆信号変換を実行して修正された右信号342を生成する。逆変換システム310a及び310bによって実行される逆変換は、概して、変換システム302a及び302bによって実行される変換の逆変換に対応して、第2信号領域から第1信号領域に信号を変換して戻す。次に、修正された左信号340は左入力信号320のノイズ低減バージョンに対応し、修正された右信号342は右入力信号322のノイズ低減バージョンに対応する。逆変換システム310a及び310bは、その他の点では逆変換システム208(図2参照)と同様であり得る。
モノラルモデルトレーニング
前述のように、ノイズリダクションシステム304aと304bは、トレーニングされたモデルを使用して、変換された左信号324と変換された右信号326から左ゲイン330と右ゲイン332を生成する。このトレーニングされたモデルは、モノラルトレーニングデータを使用してオフラインでトレーニングされている。オフライントレーニングプロセスは、トレーニングフェーズとも呼ばれ得、通常の動作中にトレーニングされたモデルがオーディオ処理システム300によって使用される場合の動作フェーズと対比される。トレーニングフェーズは概して4つのステップがある。
まず、トレーニングデータのセットが生成される。トレーニングデータのセットは、さまざまなモノラルオーディオデータソースサンプルとさまざまなノイズサンプルをさまざまな信号対ノイズ比(SNR)でミキシングすることによって生成され得る。モノラルオーディオデータソースサンプルは、概して、スピーチ、音楽などを含むクリーンオーディオデータとも呼ばれるノイズフリーオーディオデータに対応する。ノイズサンプルは、交通騒音、ファン騒音、飛行機騒音、建設騒音、サイレン、赤ちゃんの泣き声などを含むノイズの多いオーディオデータに対応する。トレーニングデータは、約1~2時間のソースサンプルを15~25のノイズサンプルと5~10SNRでミキシングすることから、約100~200時間のコーパスをもたらし得る。各ソースサンプルは、15~60秒の間であり得、SNRは-45から0dBの範囲であり得る。例えば、スピーチの所与のソースサンプルは30秒であり、所与のソースサンプルは-40、-30、-20、-10、及び0dBの5SNRでの交通騒音のノイズサンプルとミキシングされ得、トレーニングデータのコーパスに600秒のトレーニングデータをもたらす。
2番目に、トレーニングデータのセットから特徴が抽出される。概して、特徴抽出プロセスは、変換の実行及び第2信号領域における特徴の抽出など、オーディオ処理システム、例えば200(図2参照)及び300(図3参照)などの動作中に使用されるものと同じである。抽出された特徴は、オーディオ処理システムの動作中に使用される特徴にも対応する。
3番目に、モデルはトレーニングデータのセットでトレーニングされる。概して、トレーニングは、モデルの出力と理想的な出力との比較に応じて、モデル内のノードの重みを調整することによって行われる。理想的な出力は、ノイズの多い入力を調整してノイズのない出力にするために必要なゲインに対応する。
最後に、モデルが十分にトレーニングされると、結果として得られるモデルは、動作フェーズで使用するために、オーディオ処理システム、例えば図2の200又は図3の300に提供される。
前述のように、トレーニングデータはモノラルトレーニングデータである。このモノラルトレーニングデータは、オーディオ処理システム300が各入力チャネルで使用する単一のモデルをもたらす。具体的には、ノイズリダクションシステム304aは、変換された左信号324を入力としてトレーニングされたモデルを使用し、ノイズリダクションシステム304bは変換された右信号326を入力としてトレーニングされたモデルを使用する;例えば、システム304aと304bはそれぞれトレーニングされたモデルのコピーを実装し得る。モデルは、図4-5に関して後述するように、バイノーラルトレーニングデータを使用してトレーニングすることもできる。
図4は、オーディオ処理システム400のブロック図である。オーディオ処理システム400は、オーディオ処理システム200(図2参照)のより具体的な実施形態である。オーディオ処理システム400は、オーディオビジュアルキャプチャシステム100(図1参照)のコンポーネントとして、例えば、ビデオキャプチャデバイス102のプロセッサによって実行される1つ以上のコンピュータプログラムとして実装され得る。オーディオ処理システム400は、オーディオ処理システム300(図3参照)と同様であるが、以下に詳述するように、トレーニングされたモデルに関連する違いがある。オーディオ処理システム400は、変換システム402a及び402b、ノイズリダクションシステム404、ミキシングシステム406a及び406b、並びに逆変換システム408a及び408bを含む。
変換システム402aと402bは、左入力信号420と右入力信号422を受信し、信号変換を行い、変換された左信号424と変換された右信号426を生成する。変換システム402aと402bは、変換システム302aと302b(図3参照)と同様の方法で動作し、簡潔にするためにその説明は繰り返さない。
ノイズリダクションシステム404は、変換された左信号424と変換された右信号426を受信し、ゲイン計算を行い、結合(joint)ゲイン430を生成する。結合ゲイン430は、変換された左信号424と変換された右信号426の両方に基づく。ノイズリダクションシステム404は、変換された左信号424と変換された右信号426に対して特徴抽出を実行して特徴の結合(joint)セットを抽出し、トレーニングされたモデルに特徴の結合セットを入力することによって特徴の結合セットを処理し、特徴の結合セットを処理した結果として結合ゲイン430を生成する。したがって、結合ゲイン430は共有ゲインに対応し、共有ゲイン430と呼ばれることもある。ノイズリダクションシステム404は、その他の点ではノイズリダクションシステム304a及び304b(図3参照)と同様であり、簡潔にするためにその説明は繰り返さない。例えば、特徴の結合セットは、ノイズリダクションシステム304a及び304bに関して上述したものと同様の特徴であり得る。トレーニングされたモデルは、後述するように、ノイズリダクションシステム404によって実装されたトレーニングされたモデルがバイノーラルトレーニングデータを使用してオフラインでトレーニングされている点を除いて、ノイズリダクションシステム304a及び304bに関して上述したトレーニングされたモデルと同様である。
オーディオ処理システム400は、ノイズリダクションシステム404がバイノーラルトレーニングデータを用いてトレーニングした結果として共有ゲイン430を出力するため、オーディオ処理システム300(図3参照)と異なり、ゲイン計算システムを持つ必要はないことに留意されたい。
ミキシングシステム406aと406bは、変換された左信号424、変換された右信号426、共有ゲイン430を受信し、信号424と426に共有ゲイン430を適用し、ミキシングされた左信号434とミキシングされた右信号436を生成する。特に、ミキシングシステム406aは、変換された左信号424に共有ゲイン430を適用してミキシングされた左信号434を生成し、ミキシングシステム406bは、変換された右信号426に共有ゲイン430を適用してミキシングされた右信号436を生成する。ミキシングシステム406a及び406bは、その他の点ではミキシングシステム308a及び308b(図3参照)と同様であり、簡潔にするためにその説明は繰り返さない。
逆変換システム408a及び408bは、ミキシングされた左信号434及びミキシングされた右信号436を受信し、逆信号変換を行い、修正された左信号440及び修正された右信号442を生成する。特に、逆変換システム408aは、ミキシングされた左信号434に対して逆信号変換を行い、修正された左信号440を生成し、逆変換システム408bは、ミキシングされた右信号436に対して逆信号変換を行い、修正された右信号442を生成する。逆変換システム408a及び408bによって実行される逆変換は、概して、変換システム402a及び402bによって実行される変換の逆変換に対応して、第2信号領域から第1信号領域に信号を変換して戻す。その結果、修正された左信号440は左入力信号420のノイズ低減バージョンに対応し、修正された右信号442は右入力信号422のノイズ低減バージョンに対応する。逆変換システム408a及び408bは、その他の点では逆変換システム310a及び310b(図3参照)と同様であり得る。
バイノーラルモデルトレーニング
前述のように、ノイズリダクションシステム404は、トレーニングされたモデルを使用して、変換された左信号424と変換された右信号426から共有ゲイン430を生成する。トレーニングされたモデルは、バイノーラルトレーニングデータを使用してオフラインでトレーニングされている。バイノーラルトレーニングデータの使用は、ノイズリダクションシステム304a及び304b(図3参照)のモデルをトレーニングするときに使用されるモノラルトレーニングデータの使用とは対照的である。バイノーラルトレーニングデータを使用したモデルのトレーニングは、概して、図3に関して前述したようにモノラルトレーニングデータを使用したモデルのトレーニングと類似しており、トレーニングフェーズは概して4つのステップがある。
まず、トレーニングデータのセットが生成される。オーディオデータソースサンプルは、図3に関して前述したモノラルオーディオデータソースサンプルの替わりに、バイノーラルオーディオデータソースサンプルである。バイノーラルオーディオデータソースサンプルをさまざまなSNRでノイズサンプルとミキシングすることは、約100~200時間の同様のコーパスをもたらす。
2番目に、トレーニングデータのセットから特徴が抽出される。特徴は、バイノーラルチャネルから組み合わせて、例えば、:左と右のチャネルから組み合わせて抽出される。バイノーラルチャネルから特徴を組み合わせて抽出することは、ノイズリダクションシステム304a及び304b(図3参照)のモデルをトレーニングするときに使用されるような単一チャネルからの抽出とは対照的である。
3番目に、モデルはトレーニングデータのセットでトレーニングされる。トレーニングプロセスは、概して、ノイズリダクションシステム304a及び304b(図3参照)のモデルをトレーニングするときに使用されるトレーニングプロセスと同様である。
最後に、モデルが十分にトレーニングされると、結果として得られたモデルは、動作フェーズで使用するために、オーディオ処理システム、例えば図4の400に提供される。
図5は、オーディオ処理システム500のブロック図である。オーディオ処理システム500は、オーディオ処理システム200(図2参照)のより具体的な実施形態である。オーディオ処理システム500は、オーディオビジュアルキャプチャシステム100(図1参照)のコンポーネントとして、例えば、ビデオキャプチャデバイス102のプロセッサによって実行される1つ以上のコンピュータプログラムとして実装され得る。オーディオ処理システム500は、オーディオ処理システム300(図3参照)とオーディオ処理システム400(図4参照)の両方と同様であり、以下に詳述するように、トレーニングされたモデルに関連する違いがある。オーディオ処理システム500は、変換システム502a及び502b、ノイズリダクションシステム504a、504b及び504c、ゲイン計算システム506、ミキシングシステム508a及び508b、並びに逆変換システム510a及び510bを含む。
変換システム502a及び502bは、左入力信号520及び右入力信号522を受信し、信号変換を行い、変換された左信号524及び変換された右信号526を生成する。変換システム502a及び02bは、変換システム302a及び302b(図3参照)又は402a及び402b(図4参照)と同様の方法で動作し、簡潔にするためにその説明は繰り返さない。
ノイズリダクションシステム504a、504b及び504cは、変換された左信号524及び変換された右信号526を受信し、ゲイン計算を行い、左ゲイン530、右ゲイン532、及び結合ゲイン534を生成する。特に、ノイズリダクションシステム504aは、変換された左信号524に基づいて左ゲイン530を生成し、ノイズリダクションシステム504bは、変換された右信号326に基づいて右ゲイン532を生成し、ノイズリダクションシステム504cは、変換された左信号524及び変換された右信号526の両方に基づいて結合ゲイン534を生成する。ノイズリダクションシステム504aは、変換された左信号524を受信し、変換された左信号524に対して特徴抽出を行って特徴のセットを抽出し、特徴のセットをトレーニングされたモノラルモデルに入力することによって特徴のセットを処理し、特徴のセットを処理した結果として左ゲイン530を生成する。ノイズリダクションシステム504bは、変換された右信号526を受信し、変換された右信号526に対して特徴抽出を行って特徴のセットを抽出し、特徴のセットをトレーニングされたモノラルモデルに入力することによって特徴のセットを処理し、特徴のセットを処理した結果として右ゲイン532を生成する。ノイズリダクションシステム504cは、変換された左信号524と変換された右信号526を受信し、変換された左信号524と変換された右信号526に対して特徴抽出を行って特徴のセットを抽出し、特徴のセットをトレーニングされたバイノーラルモデルに入力することによって特徴のセットを処理し、特徴のセットを処理した結果として結合ゲイン534を生成する。ノイズリダクションシステム504aと504bは、その他の点ではノイズリダクションシステム304aと304b(図3参照)と同様であり、ノイズリダクションシステム504cは、その他の点ではノイズリダクションシステム404(図4参照)と同様である。簡潔にするために、その説明は繰り返さない。
要約すると、ノイズリダクションシステム504a及び504bは、オーディオ処理システム300(図3参照)と同様のモノラルモデルを用いた機械学習システムを実装し、ノイズリダクションシステム504cは、オーディオ処理システム400(図4参照)と同様のバイノーラルモデルを用いた機械学習システムを実装している。したがって、オーディオ処理システム500は、オーディオ処理システム300と400の組み合わせとして見ることができる。
ゲイン計算システム506は、左のゲイン530、右のゲイン532、及び結合ゲイン534を受信し、数学関数に従ってゲイン530、532及び534を組み合わせ、共有ゲイン536を生成する。数学関数は、最大、平均、範囲関数、比較関数などの1つ以上であり得る。ゲイン530、532及び534は、バンドゲインのゲインベクトルであり得、数学関数は、ゲイン530、532及び534のそれぞれの所与のバンドに適用される。ゲイン計算システム506は、それ以外の点ではゲイン計算システム306(図3参照)と同様であり得、簡潔にするために、その説明は繰り返さない。
ミキシングシステム508aと508bは、変換された左信号524、変換された右信号526及び共有ゲイン536を受信し、共有ゲイン536を信号524と526に適用し、ミキシングされた左信号540とミキシングされた右信号542を生成する。特に、ミキシングシステム508aは、変換された左信号524に共有ゲイン536を適用してミキシングされた左信号540を生成し、ミキシングシステム508bは、変換された右信号526に共有ゲイン536を適用してミキシングされた右信号542を生成する。ミキシングシステム508a及び508bは、その他の点ではミキシングシステム308a及び308b(図3参照)と同様であり得、簡潔にするためにその説明は繰り返さない。
逆変換システム510aと510bは、ミキシングされた左信号540とミキシングされた右信号542を受信し、逆信号変換を行い、修正された左信号544と修正された右信号546を生成する。特に、逆変換システム510aは、ミキシングされた左信号540を逆信号変換して修正された左信号544を生成し、逆変換システム510bは、ミキシングされた右信号542を逆信号変換して修正された右信号546を生成する。逆変換システム510a及び510bによって実行される逆変換は、概して、変換システム502a及び502bによって実行される変換の逆変換に対応して、第2信号領域から第1信号領域に信号を変換して戻す。その結果、修正された左信号544は左入力信号520のノイズ低減バージョンに対応し、修正された右信号546は右入力信号522のノイズ低減バージョンに対応する。逆変換システム510a及び510bは、その他の点では、逆変換システム310a及び310b(図3参照)又は408a及び408b(図4参照)と同様であり得る。
モデルトレーニング
前述のように、ノイズリダクションシステム504a、504b、及び504cは、トレーニングされたモノラルモデルとトレーニングされたバイノーラルモデルを使用して、変換された左信号524と変換された右信号526からゲイン530、532及び534を生成する。モノラルモデルのトレーニングは、概して、ノイズリダクションシステム304a及び304b(図3参照)によって使用されるモデルのトレーニングと同様であり、バイノーラルモデルのトレーニングは、概して、ノイズリダクションシステム404(図4参照)で使用されるモデルのトレーニングと同様であり、簡潔にするためにその説明は繰り返されない。
2.組み合わされたバイノーラルオーディオとビデオキャプチャ
前述のように、UGCは組み合わされたオーディオとビデオキャプチャを含むことがよくある。ビデオとバイノーラルオーディオの同時キャプチャは特に困難である。そのような課題の1つは、バイノーラルオーディオキャプチャとビデオキャプチャが別々のデバイスによって実行される、例えば、携帯電話でビデオをキャプチャし、イヤホンでバイノーラルオーディオをキャプチャする場合である。携帯電話は一般的に、自撮りカメラとも呼ばれるフロントカメラと、メインカメラとも呼ばれるバックカメラの2つのカメラを含む。バック(メイン)カメラを使用している場合、これは通常モードと呼ばれることがある。フロント(自撮り)カメラを使用している場合、これは自撮りモードと呼ばれることがある。通常モードでは、ビデオキャプチャデバイスを持つユーザは、ビデオにキャプチャされたシーンの背後にいる。自撮りモードでは、ビデオキャプチャデバイスを持つユーザは、ビデオにキャプチャされたシーンに存在する。
バイノーラルオーディオキャプチャとビデオキャプチャが別々のデバイスで実行される場合、目と耳での環境の人間の知覚と比較して、キャプチャされたビデオデータとキャプチャされたバイノーラルオーディオデータとの間に不一致があり得る。このような不一致の一例は、通常モードでのビデオと同時にキャプチャされたバイノーラルオーディオの知覚対自撮りモードでのビデオと同時にキャプチャされたバイノーラルオーディオの知覚を含む。このような不一致の別の例は、通常モードと自撮りモードを切り替えるときに発生する不連続性を含む。以下のセクションでは、これらの不一致を補正するためのさまざまなプロセスについて説明する。
3.自撮りモードでのバイノーラルオーディオキャプチャ
図6は、ビデオキャプチャシステム100(図1参照)を使用した自撮りモードでのバイノーラルオーディオキャプチャを示す定型化された俯瞰図である。ビデオキャプチャデバイス102は、自撮りモードであり、フロントカメラを使用してシーン内のユーザを含むビデオをキャプチャする。ユーザは、シーンのバイノーラルオーディオをキャプチャするためにイヤホン104と106を装着している。ビデオキャプチャデバイス102は、ユーザがビデオキャプチャデバイス102を手に持っているか、ビデオキャプチャデバイス102を手に持つために自撮りスティックを使用しているかどうかなどによって、ユーザの前方約0.5mから1.5mの間にある。ビデオキャプチャデバイス102は、また、ユーザの近くにいる他の人、例えば、左の人と呼ばれるユーザの左側のユーザの後ろにいる人、右の人と呼ばれるユーザの右側のユーザの後ろにいる人をキャプチャする。音声はバイノーラルでキャプチャされるため、リスナーは、左側の人が発した音を後方且つ左側から発生したものとして知覚し、リスナーは右側の人が発した音を後方且つ右側から発生したものとして知覚する。これは、自撮りモードにおいていくつかの補正を含む。
3.1 左/右補正
イヤホン104及び106を装着したユーザとビデオキャプチャデバイス102のフロント(自撮り)カメラの反対の向きは、キャプチャされたバイノーラルオーディオコンテンツの左/右反転をもたらす。キャプチャされたオーディオビジュアルコンテンツの消費者は、右のイヤホンから来る音をビデオの左側に表れるソースから来るものとして知覚し、左のイヤホンから来る音をビデオの右側に表れるソースから来るものとして知覚し、これは、目で物を見て耳で聞くという私たちの経験とは矛盾している。
左/右補正は、入力から左チャネルを取得して出力の右チャネルに送信することを含む、又は方程式としてR’=Lで表され;入力から右チャネルを取り出して出力の左チャネルに送信することを含む、又は、方程式としてL’=Rで表される。
3.2 前/後補正
フロント(自撮り)カメラを使用するときに同じシーンの他の話者(speakers)を録画するために、イヤホン104と106を装着し、ビデオキャプチャデバイス102を持つユーザが他の話者の少し前、つまりカメラに近い位置に立つことが多い。したがって、キャプチャされたバイノーラルオーディオの場合、他の話者のスピーチはコンテンツを消費するリスナーの後ろから来る。一方、キャプチャされたビデオでは、すべての話者が前に表示される。
一般的にこれを補正し、オーディオとビデオの間の知覚的一貫性を高めるために、実施形態は、前/後補正を実装し得、これは、前方から来る音と同様の方法で音が知覚されるように、リスナーの後方から来る音のスペクトル形状を修正するように動作する。
ここに開示される実施形態は、ハイシェルフフィルタを使用してスペクトル形状修正を実装し得る。ハイシェルフフィルタは様々な方法で構築することができる。例えば、無限インパルス応答(IIR)フィルタ、例えばバイカッドフィルタを使用して実装され得る。
図7は、バイカッドフィルタを使用して実装されたハイシェルフフィルタの大きさの応答の例を示すグラフである。図7において、x軸は周波数(kHz)、y軸はフィルタが信号に適用するラウドネス調整の大きさ(magnitude)である。この例のハイシェルフ周波数は、人間の頭のシェーディング効果を考えると典型的な値である約3kHzである。後方のキャプチャされたオーディオは、図7に示すように5kHz以上のような高い周波数で減衰されるため、フィルタは、オーディオが前方に補正されるときにこれらの周波数をブーストするハイシェルフを実装する。
ここに開示された実施形態はまた、イコライザを使用してスペクトル形状修正を実施し得る。イコライザは、異なるゲインを持つ1つ以上のバンドで入力オーディオをブースト又は減衰させ、IIRフィルタ又は有限インパルス応答(FIR)フィルタによって実装され得る。イコライザは、より高い精度でスペクトルを形成することができ、一般的な構成では、前/後補正について、3から8kHzの周波数範囲で8から12dBのブーストである。
3.3 ステレオイメージ幅制御
図8は、自撮りモードでの様々なオーディオキャプチャアングルを示す定型化された俯瞰図である。角度θ1は、ビデオキャプチャデバイス102(図6参照)のマイクによってキャプチャされた右の人の音の角度に対応し、角度θ2は、右のイヤホン106によってキャプチャされた右の人の音の角度に対応する。ビデオキャプチャデバイス102にマイクがある場合と比較して、イヤホン104と106は、通常、他の話者が通常立っているであろう線に近いので、θ2>θ1となり、これは、他の話者のスピーチがサイド(側部)に近い方向から来ることを意味するが、ビデオシーンに基づいて、視聴者は、スピーチが中央に近い方向から来ることを期待する。
この問題に対処するために、実施形態は、バイノーラルオーディオの知覚される幅を圧縮することによって、ビデオとバイノーラルオーディオ記録の間の一貫性を改善するために、ステレオイメージ幅制御を実装し得る。1つの実装では、圧縮はバイノーラルオーディオのサイド成分の減衰によって達成される。まず、入力バイノーラルオーディオは、式(1.1)及び(1.2)に従って中央サイド表現(middle-side representation)に変換される。
Figure 2024500916000002
式(1.1)及び(1.2)において、L及びRは入力オーディオの左及び右チャネル、例えば図2の左及び右の入力信号220及び222であるのに対し、M及びSは変換の結果生じる中央及びサイド成分である。
次に、サイドチャネルSは減衰係数αによって減衰され、処理された出力オーディオL’及びR’は式(2.1)及び(2.2)で与えられる。
Figure 2024500916000003
減衰係数αは、フロント(自撮り)カメラの焦点距離fの関数とすることができ、式(3)で与えられる。
Figure 2024500916000004
式(3)において、fcはα=1期待される焦点距離=1、すなわちサイド成分Sの減衰が適用されない焦点距離であり、ベースライン焦点距離とも呼ばれる;γは、図9を参照してさらに詳しく説明する、アグレッシブ係数である。
図9は、異なる焦点距離fに対する減衰係数αのグラフである。図9において、x軸は10mmから35mmの範囲の焦点距離fであり、y軸は減衰係数α、ベースライン焦点距離fcは70mmであり、アグレッシブ係数γは[1.2 1.5 2.0 2.5]から選択可能である。アグレッシブ係数γは、カメラにさまざまなオプションを提供するために、デバイスメーカーによって選択可能であり得る。F=30mmを持つスマートフォンの一般的なフロント(自撮り)カメラの場合、αは0.5から0.7の範囲にある。
要約すると、ビデオがより小さい焦点距離でキャプチャされるとき、ビデオはズームアウトされて表示され、左の人と右の人のキャプチャされたオーディオはすべてビデオの中心から発生しているように見えるため、幅制御は、ビデオシーンに合うようにオーディオシーンを縮小することによって、キャプチャされたオーディオを補正する。
4.通常モードでのバイノーラルオーディオキャプチャ
図10は、ビデオキャプチャシステム100(図1参照)を使用した通常モードでのバイノーラルオーディオキャプチャを示す定型化された俯瞰図である。ビデオキャプチャデバイス102は通常モードであり、シーンにユーザを含まないビデオをキャプチャするためにリアカメラを使用する。ユーザは、シーンのバイノーラルオーディオをキャプチャするためにイヤホン104と106を装着している。ユーザがビデオシーン内でキャプチャされることが多い自撮りモード(図6及び図8を参照)とは対照的に、通常モードではユーザはビデオシーン内でキャプチャされることはあまりない。通常モードでは、イヤホン104及び106を装着し、ビデオキャプチャデバイス102を持つユーザは、通常、ビデオシーンの背後にいる。他の人は通常、左と右の人で示されているように、ビデオにキャプチャされるように、前にいる。角度θ1はビデオキャプチャデバイス102のマイクでキャプチャされた右の人の音の角度に対応し、角度θ2は右のイヤホン106でキャプチャされた右の人の音の角度に対応する。
通常モードでは、自撮りモードで行われ得るような左/右補正又は前/後補正のいずれかをオーディオ処理システムが行う必要はない。ステレオイメージ幅制御については、マイクがビデオキャプチャデバイス102にある場合と比較して、イヤホン104と106は通常は他の話者が通常立つ線から離れているため、θ2<θ1であるので、このモードではバイノーラルオーディオの知覚幅を少し広くすることができる。しかし、θ1とθ2との間の違いは自撮りモードと比較してそれほど大きくないため、簡単にするために、典型的なアプローチはバイノーラルオーディオをそのままにしておくことである。
5.通常モードと自撮りモードとの間の切り替え
自撮りモードと比べて通常モードでは異なるオーディオ処理が適用されることが多い。例えば、左/右補正は、自撮りモードでは行われるが、通常モードでは行われない。ユーザがモードを切り替える場合、オーディオ処理システムが切り替えを滑らかに行うことは有益である。切り替えは、放送やストリーミングのためにコンテンツをキャプチャする場合などのリアルタイム操作時と、後の処理やアップロードのためにコンテンツをキャプチャする場合などの非リアルタイム操作時に行われ得る。
5.1 左/右補正及びステレオイメージ幅制御のための平滑化
セクション3を思い出すと、左/右補正を行う式としてL’=RとR’=Lがある。これらは式(4.1-4.4)として書き換えることができる:
Figure 2024500916000005
式(4.1-4.4)では、自撮りモードでの左/右補正の減衰係数α=-1。
左/右補正は通常モードに必要とされないため、そのモードではα=-1。したがって、通常モードと自撮りモードとの間の切り替え中、αは1と-1との間で切り替わる。切り替えが滑らかであることを確実にするために、αは、その値を徐々に変更するべきである。滑らかな移行を実行するための式の一例は、式(5)で与えられる:
Figure 2024500916000006
式(5)では、tsは切り替えが実行される時間であり、1秒の移行時間が左/右補正切り替えに対して十分機能する。したがって、移行は非リアルタイムの場合にts-0.5で開始し、ts+0.5で終了する。リアルタイムの場合、式(5)はtsで開始し、1秒で終了するように修正され得る。1秒の値は、例えば0.5秒から1.5秒の範囲で、必要に応じて調整され得る。
ステレオイメージ幅制御は、式(6.1-6.4)で表されるように、同様の式のセットを使用する。
Figure 2024500916000007
しかし、式(6.1-6.4)では、減衰係数αは自撮りモードで0.5から0.7の範囲、通常モードで1.0である。
つまり、ステレオイメージ幅制御は、中央チャネルMとサイドチャネルSを生成し、幅調整係数αによってサイドチャネルを減衰させ、減衰された中央チャネルとサイドチャネルから修正されたオーディオ信号L’及びR’を生成することを含む。幅調整係数は、ビデオキャプチャデバイスの焦点距離に基づいて計算され、ビデオキャプチャデバイスがリアルタイムで焦点距離を変更したことに応じて、幅調整係数がリアルタイムで更新され得る。
ステレオイメージ幅制御と左/右補正の平滑化を組み合わせると、自撮りモードについて-0.5~-0.7の範囲、通常モードでは1.0のαがある。例としてα=-0.5を仮定することは式(7)をもたらす:
Figure 2024500916000008
式(7)において、tsは切り替えが行われる時間であり、1秒の移行時間が、左/右補正切り替えとステレイメージ幅制御切り替えを組み合わせに対して十分機能する。したがって、非リアルタイムの場合、移行はt-0.5で始まり、t+0.5で終了する。リアルタイムの場合、式(7)はtで始まり、1秒で終わるように修正され得る。1秒の値は、例えば0.5から1.5秒の範囲で、必要に応じて調整され得る。
5.2 前/後補正の平滑化
セクション3と4で説明したように、自撮りモードではスペクトル変形として前/後補正が適用され、通常モードでは前/後補正は適用されない。
xorgを前/後補正の入力とし、xfbを前/後補正の出力を表すとする。次に、前/後補正の平滑化出力は式(8)で与えられる。
Figure 2024500916000009
式(8)において、α=0は自撮りモードの場合、α=1は通常モードの場合である。滑らかな移行の式の例は、式(9)によって与えられる。
Figure 2024500916000010
式(9)において、tsは切り替えが行われる時間であり、6秒の移行時間が前/後補正に対して十分機能する。したがって、移行は非リアルタイムの場合にts-3で開始し、ts+3で終了する。リアルタイムの場合、式(9)はtsで開始し、6秒で終了するように修正され得る。6秒の値は、例えば3~9秒の範囲で、必要に応じて調整され得る。
前/後の平滑化は、左/右及びステレオイメージ幅平滑化(例えば1秒)に使用されるよりも長い移行時間(例えば6秒)が使用されるが、これは、前/後の移行は音色変化が伴うためであり、これは長い移行時間を使用することによって知覚されにくくなる。
6.例示的なデバイスアーキテクチャ
図11は、一実施形態による、ここに記載された特徴及びプロセスを実装するためのデバイスアーキテクチャ1100である。アーキテクチャ1100は、デスクトップコンピュータ、民生用のオーディオ/ビジュアル(AV)機器、ラジオ放送機器、モバイルデバイス、例えばスマートフォン、タブレットコンピュータ、ラップトップコンピュータ、ウェアラブルデバイスなどを含むがこれらに限定されない任意の電子デバイスに実装され得る。示されている例示的な実施形態では、アーキテクチャ1100は携帯電話用である。アーキテクチャ1100は、プロセッサ(複数可)1101、周辺機器インターフェース1102、オーディオサブシステム1103、スピーカー1104、マイク1105、センサ1106、例えば加速度計、ジャイロ、気圧計、磁力計、カメラなど、ロケーションプロセッサ1107、例えばGNSS受信機など、無線通信サブシステム1108、例えばWi-Fi(登録商標)、Bluetooth(登録商標)、セルラーなど、及びI/Oサブシステム(複数可)1109を含み、タッチコントローラ1110と他の入力コントローラ1111、タッチサーフェス1112と他の入力/制御デバイス1113を含む。より多く又はより少ないコンポーネントを持つ他のアーキテクチャを開示された実施形態を実装するために使用することもできる。
メモリインターフェース1114は、プロセッサ1101、周辺機器インターフェース1102及びメモリ1115、例えば、フラッシュ、RAM、ROMなどに結合される。メモリ1115は、オペレーティングシステム命令1116、通信命令1117、GUI命令1118、センサ処理命令1119、電話命令1120、電子メッセージ命令1121、ウェブブラウジング命令1122、オーディオ処理命令1123、GNSS/ナビゲーション命令1124及びアプリケーション/データ1125を含むがこれらに限定されない、コンピュータプログラムの命令及びデータを格納する。オーディオ処理命令1123は、ここで説明するオーディオ処理を実行するための命令を含む。
一実施形態によれば、アーキテクチャ1100は、ビデオデータをキャプチャし、バイノーラルオーディオデータ(図1参照)をキャプチャするイヤホンに接続する携帯電話に対応し得る。
図12は、オーディオ処理の方法1200のフローチャートである。方法1200は、例えば、1つ以上のコンピュータプログラムを実行することによって、ビデオキャプチャシステム100(図1参照)、オーディオ処理システム200(図2参照)などの機能を実装するために、図11のアーキテクチャ1100のコンポーネントを持つ、デバイス、例えば、ラップトップコンピュータ、携帯電話などによって実行され得る。
1202において、オーディオ信号がオーディオキャプチャデバイスによってキャプチャされる。オーディオ信号は、左チャネルと右チャネルを含む少なくとも2つのチャネルを持つ。例えば、左のイヤホン104(図1参照)は左チャネル(例えば図2の220)をキャプチャし、右のイヤホン106は右チャネル(例えば図2の222)をキャプチャし得る。
1204において、少なくとも2つのチャネルの各チャネルのノイズリダクションゲインが機械学習システムによって計算される。機械学習システムは特徴抽出を行い、抽出された特徴をトレーニングされたモデルに入力することによって抽出された特徴を処理し、特徴を処理した結果としてノイズリダクションゲインを出力し得る。トレーニングされたモデルは、モノラルモデル、バイノーラルモデル、又はモノラルモデルとバイノーラルモデルの両方である。1206でにおいて、共有ノイズリダクションゲインが各チャネルのノイズリダクションゲインに基づいて計算される。
ステップ1204と1206は、個々のステップとして、又は複合動作のサブステップとして実行され得る。例えば、ノイズリダクションシステム204(図2参照)は、左ゲイン230と右ゲイン232を共有ノイズリダクションゲインとして計算し得る。別の例として、ノイズリダクションシステム304a(図3参照)は、左ゲイン330を生成し得、ノイズリダクションシステム304bは、右ゲイン332を生成し得る;ゲイン計算システム306は、その後、数学関数に従ってゲイン330と332を組み合わせることによって、共有ゲイン334を生成し得る。別の例として、ノイズリダクションシステム404(図4参照)は、共有ノイズリダクションゲインとして結合ゲイン430を計算し得る。別の例として、ノイズリダクションシステム504a(図5参照)は、左ゲイン530を生成し得、ノイズリダクションシステム504bは、右ゲイン532を生成し得、ノイズリダクションシステム504cは、結合ゲイン534を生成し得る;ゲイン計算システム506は、次に、数学関数に従ってゲイン530、532及び534を組み合わせることによって、共有ゲイン536を生成し得る。
1208において、修正されたオーディオ信号が複数の共有ノイズリダクションゲインを少なくとも2つのチャネルの各チャネルに適用することによって生成される。例えば、ミキシングシステム206(図2参照)は、左ゲイン230と右ゲイン232を変換された左信号224と変換された右信号226に適用することによって、ミキシングされた左信号234とミキシングされた右信号236を生成し得る。別の例として、ミキシングシステム308a(図3参照)は、共有ゲイン334を変換された左信号324に適用することによってミキシングされた左信号336を生成し得、ミキシングシステム308bは、共有ゲイン334を変換された右信号326に適用することによってミキシングされた右信号338を生成し得る。別の例として、ミキシングシステム406a(図4参照)は、共有ゲイン430を変換された左信号424に適用することによってミキシングされた左信号434を生成し得、ミキシングシステム406bは、共有ゲイン430を変換された右信号426に適用することによってミキシングされた右信号436を生成し得る。別の例として、ミキシングシステム508a(図5参照)は、共有ゲイン536を変換された左信号524に適用することによってミキシングされた左信号540を生成し得、ミキシングシステム508bは、共有ゲイン536を変換された右信号526に適用することによってミキシングされた右信号542を生成し得る。
方法1200は、ここに記載されているオーディオ処理システムの他の機能に対応する追加のステップを含み得る。1つのそのような機能は、オーディオ信号を第1信号領域から第2信号領域に変換すること、第2信号領域でオーディオ処理を実行すること、及び処理されたオーディオ信号を第1信号領域に、例えば、図2の変換システム202と逆変換システム208を使用して、変換して戻すことである。別のそのような機能は、同時のビデオキャプチャとオーディオキャプチャであり、例えば、セクション3-4で説明されているように、前/後補正、左/右補正、及びステレオイメージ幅制御補正の1つ以上を含む。別のそのような機能は、自撮りモードと通常モードとの間を滑らかに切り替えることであり、例えば、セクション5で説明されているように、第1の平滑化パラメータを使用して左/右補正を平滑化することと、第2の平滑化パラメータを使用して前/後補正を平滑化することを含む。
7.代替実施形態
特徴の多くは組み合わせて上で説明されているが、これは主に組み合わせにから生じる相乗効果によるものである。特徴の多くは他の特徴とは独立して実装されていてもよく、それでも既存のシステムよりも利点をもたらす。
7.1シングルカメラシステム
ここでは、2つのカメラを持つビデオキャプチャデバイスのコンテキストで特徴のいくつかが説明されているが、特徴の多くは単一のカメラを持つビデオキャプチャデバイスにも適用可能である。例えば、シングル(単一の)カメラシステムでも、セクション4で説明したように通常モードで行われるバイノーラル調整の恩恵を受ける。
7.2ビデオキャプチャモードの滑らかな切り替え
図13は、オーディオ処理の方法1300のフローチャートである。方法1200(図12参照)は、ノイズリダクションを、セクション5で説明したように追加機能として滑らかな切り替えを伴って行うが、滑らかな切り替えはノイズリダクションとは独立して行われ得る。方法1300は、ノイズリダクションとは独立して滑らかな切り替えを行うことを記述する。方法1300は、例えば、1つ以上のコンピュータプログラムを実行することによって、ビデオキャプチャシステム100(図1参照)の機能を実装するために、図11のアーキテクチャ1100のコンポーネントを持つ、デバイス、例えば、ラップトップコンピュータ、携帯電話などによって実行され得る。
1302において、オーディオ信号がオーディオキャプチャデバイスによってキャプチャされる。オーディオ信号は、左チャネルと右チャネルを含む少なくとも2つのチャネルを持つ。例えば、左のイヤホン104(図1参照)は左チャネル(例えば図2の220)をキャプチャし得、右のイヤホン106は右チャネル(例えば図2の222)をキャプチャし得る。
1304において、ビデオ信号は、オーディオ信号をキャプチャすること(1302を参照)と同時に、ビデオキャプチャデバイスによってキャプチャされる。例えば、ビデオキャプチャデバイス102(図1参照)は、イヤホン104及び106でバイノーラルオーディオ信号をキャプチャすると同時にビデオ信号をキャプチャし得る。
1306において、オーディオ信号が補正されたオーディオ信号が生成するように補正される。補正は、前/後補正、左/右補正、及びステレオイメージ幅補正のうちの1つ以上を含み得る。
1308において、ビデオ信号が第1カメラモードから第2カメラモードに切り替えられる。例えば、ビデオキャプチャデバイス102(図1参照)は、自撮りモード(図6及び図8を参照)から通常モード(図10参照)に切り替え得る、又は通常モードから自撮りモードに切り替え得る。
1310において、補正されたオーディオ信号の滑らかな切り替えが、ビデオ信号を切り替えること(1308を参照)と同時に行われる。滑らかな切り替えは、ある種類の補正(例えば、左/右平滑化は式(5)を使用する、又は、組み合わされた左/右とステレオイメージ幅の平滑化は式(7)を使用する)を平滑化するための第1の平滑化パラメータと、別の種類の補正(例えば、前/後補正は式(9)を使用する)を平滑化するための第2の平滑化パラメータを使用し得る。
実装の詳細
一実施形態は、ハードウェア、コンピュータ可読媒体に格納された実行可能モジュール、又は両方の組み合わせ、例えばプログラマブルロジックアレイなどで実装され得る。特に明記されていない限り、実施形態によって実行されるステップは、それらが特定の実施形態にあっても、本質的に特定のコンピュータ又は他の装置に関連付けられる必要はない。特に、様々な汎用マシンが、ここでの教示に従って書かれたプログラムと共に使用される場合もあれば、必要な方法ステップを実行するために、例えば、集積回路などのより専門的な装置を構築する方が便利な場合もある。したがって、実施形態は、それぞれが少なくとも1つのプロセッサ、揮発性及び不揮発性のメモリ及び/又は記憶素子を含む少なくとも1つのデータストレージシステム、少なくとも1つの入力デバイス又はポート、及び少なくとも1つの出力デバイス又はポートを有する、1つ以上のプログラム可能なコンピュータシステムで実行される1つ以上のコンピュータプログラムで実装され得る。プログラムコードは、入力データに適用されて、ここで説明する機能を実行し、出力情報を生成する。出力情報は、既知の方法で1つ以上の出力デバイスに適用される。
このような各コンピュータプログラムは、好ましくは、ここに記載されている手順を実行するために、記憶媒体又はデバイスがコンピュータシステムによって読み取られるときに、コンピュータを設定及び操作するために、汎用又は特殊目的のプログラム可能なコンピュータによって読み取り可能な記憶媒体又はデバイス、例えば、ソリッドステートメモリ又は媒体、磁気又は光学媒体などに格納又はダウンロードされる。また、本発明のシステムは、コンピュータプログラムによって構成されたコンピュータ可読記憶媒体として実装され、そのように構成された記憶媒体は、コンピュータシステムをここに記載されている機能を実行するように特定の所定の方法で動作させると考えられ得る。ソフトウェア自体、及び無形又は一時的な信号は、特許を受けることができない主題である範囲で除外される。
ここに記載されているシステムの態様は、デジタル又はデジタル化されたオーディオファイルを処理するための適切なコンピュータベースの音響処理ネットワーク環境で実装され得る。適応型オーディオシステムの一部は、コンピュータ間で送信されるデータをバッファしてルーティングする役割を果たす1つ以上のルータ(図示せず)を含む、任意の数の個々のマシンを有する1つ以上のネットワークを含み得る。このようなネットワークは、さまざまな異なるネットワークプロトコル上に構築され得、インターネット、ワイドエリアネットワーク(WAN)、ローカルエリアネットワーク(LAN)、又はそれらの任意の組み合わせであり得る。
1つ以上のコンポーネント、ブロック、プロセス、又はその他の機能コンポーネントは、システムのプロセッサベースのコンピューティングデバイスの実行を制御するコンピュータプログラムを通じて実装され得る。また、ここで開示されているさまざまな機能は、ハードウェア、ファームウェアの任意の数の組み合わせを使用して、及び/又は、それらの動作、レジスタ転送、ロジックコンポーネント、及び/又はその他の特性に関して、さまざまな機械可読若しくはコンピュータ可読媒体に具現化されたデータ及び/又は命令として記述され得ることが留意されるべきである。そのようなフォーマットされたデータ及び/又は命令が具現化され得るコンピュータ可読媒体は、光学、磁気又は半導体記憶媒体などのさまざまな形態の物理的、非一時的、不揮発性の記憶媒体を含むが、これらに限定されない。
上記の説明は、本開示のさまざまな実施形態を、本開示の態様がどのように実装されるかの例とともに示している。上記の例及び実施形態は、唯一の実施形態と見なされるべきではなく、以下の請求項によって定義される本開示の柔軟性及び利点を説明するために提示される。上記の開示及び以下の請求項に基づいて、他の構成、実施形態、実装及び均等物が、当業者には明らかであり、請求項によって定義される開示の精神及び範囲から逸脱することなく採用することができる。

Claims (20)

  1. オーディオ処理のコンピュータ実装された方法であって、前記方法は:
    オーディオキャプチャデバイスによって、左チャネルと右チャネルを含む少なくとも2つのチャネルを持つオーディオ信号をキャプチャすること;
    機械学習システムによって、前記少なくとも2つのチャネルの各チャネルについての複数のノイズリダクションゲインを計算すること;
    前記各チャネルについての前記複数のノイズリダクションゲインに基づいて複数の共有ノイズリダクションゲインを計算すること;及び
    前記複数の共有ノイズリダクションゲインを前記少なくとも2つのチャネルの各チャネルに適用することによって、修正されたオーディオ信号を生成すること;を含む、
    方法。
  2. 前記オーディオ信号を第1信号領域から第2信号領域に変換することであって、前記第1信号領域は時間領域であり、前記複数のノイズリダクションゲインは、前記第2信号領域に変換された前記オーディオ信号に基づいて計算される、変換すること;及び
    前記修正されたオーディオ信号を前記第2信号領域から前記第1信号領域に変換すること;をさらに含む、
    請求項1に記載の方法。
  3. 前記複数のノイズリダクションゲインを計算すること、前記複数の共有ノイズリダクションゲインを計算すること、及び前記修正されたオーディオ信号を生成することは、前記オーディオ信号をキャプチャすることと同時に実行される、
    請求項1又は2に記載の方法。
  4. キャプチャされた前記オーディオ信号を格納することをさらに含み、
    前記複数のノイズリダクションゲインを計算すること、前記共有ノイズリダクションゲインを計算すること、前記修正されたオーディオ信号を生成することは、格納された前記オーディオ信号に対して実行される、
    請求項1又は2に記載の方法。
  5. 前記機械学習システムによって前記複数のノイズリダクションゲインを計算することは:
    各チャネルの複数の特徴を生成するように、前記少なくとも2つのチャネルの各チャネルで特徴抽出を行うこと;
    前記各チャネルの複数の特徴を処理することであって、前記各チャネルの複数の特徴を処理することは、前記各チャネルの複数の特徴を機械学習モデルに入力することを含む、処理すること;及び
    前記複数の特徴を前記機械学習モデルに入力した結果として、前記機械学習システムから前記複数のノイズリダクションゲインを出力すること;を含む、
    請求項1乃至4のいずれか1項に記載の方法。
  6. 前記機械学習モデルは、モノラルオーディオトレーニングデータを使用してオフラインでトレーニングされたモノラルモデルであり;
    前記複数の特徴は、前記左チャネルに対応する第1の複数の特徴、及び前記右チャネルに対応する第2の複数の特徴を含み;
    前記複数のノイズリダクションゲインは、前記第1の複数の特徴に対応する第1の複数のノイズリダクションゲイン、及び前記第2の複数の特徴に対応する第2の複数のノイズリダクションゲインを含む;
    請求項5に記載の方法。
  7. 前記機械学習モデルは、バイノーラルオーディオトレーニングデータを使用してオフラインでトレーニングされたバイノーラルモデルであり;
    前記複数の特徴は、前記左チャネルと前記右チャネルの両方に対応する結合の複数の特徴であり;
    前記複数の共有ノイズリダクションゲインは、前記左チャネルと前記右チャネルの両方に対応する前記結合の複数の特徴から生じる、
    請求項5に記載の方法。
  8. 前記機械学習モデルが、モノラルオーディオトレーニングデータを使用してオフラインでトレーニングされたモノラルモデルと、バイノーラル音声トレーニングデータを使用してオフラインでトレーニングされたバイノーラルモデルを含み;
    前記複数の特徴は、前記左チャネルに対応する第1の複数の特徴、前記右チャネルに対応する第2の複数の特徴、及び前記左チャネルと前記右チャネルの両方に対応する結合の複数の特徴を含み;
    前記複数のノイズリダクションゲインは、前記第1の複数の特徴に対応する第1の複数のノイズリダクションゲイン、前記第2の複数の特徴に対応する第2の複数のノイズリダクションゲイン、及び前記結合の複数の特徴に対応する結合の複数のノイズリダクションゲインを含む、
    請求項5に記載の方法。
  9. 前記オーディオキャプチャデバイスは、前記左チャネルをキャプチャする第1のイヤホン及び前記右チャネルをキャプチャする第2のイヤホン有し;
    前記複数のノイズリダクションゲインは、第1の複数のノイズリダクションゲイン及び第2の複数のノイズリダクションゲインを含み;
    前記複数の共有ノイズリダクションゲインを計算することは、数学関数に従って、前記第1の複数のノイズリダクションゲインと前記第2の複数のノイズリダクションゲインを組み合わせることを含む、
    請求項1乃至8のいずれか1項に記載の方法。
  10. 前記数学関数は、平均、最大、範囲関数、及び比較関数の1つ以上を含む、
    請求項9に記載の方法。
  11. 前記第1の複数のノイズリダクションゲインは、前記左チャネルの複数のバンドに対する第1のゲインベクトルに対応し、前記第2の複数のノイズリダクションゲインは、前記右チャネルの複数のバンドに対する第2のゲインベクトルに対応し;
    前記複数の共有ノイズリダクションゲインを計算することは、前記第1のゲインベクトル及び前記第2のゲインベクトルから、前記複数のバンドの各バンドの最大ゲインを選択することを含む、
    請求項9に記載の方法。
  12. 前記複数のノイズリダクションゲインは、さらに、結合の複数のノイズリダクションゲインを含み;
    前記複数の共有ノイズリダクションゲインを計算することは、前記数学関数に従って、前記第1の複数のノイズリダクションゲイン、前記第2の複数のノイズリダクションゲイン、及び前記結合の複数のノイズリダクションゲインを組み合わせることを含む、
    請求項9に記載の方法。
  13. ビデオキャプチャデバイスによって、前記オーディオ信号をキャプチャすることと同時にビデオ信号をキャプチャすることをさらに含み、
    前記ビデオキャプチャデバイスは携帯電話を含み、前記携帯電話はフロントカメラとリアカメラを含む、
    請求項1乃至12のいずれか1項に記載の方法。
  14. 前記フロントカメラと前記リアカメラの一方を使用する第1モードから、前記フロントカメラと前記リアカメラの他方を使用する第2モードへ切り替えることをさらに含み、前記切り替えることは、第1の平滑化パラメータを使用する前記オーディオ信号の左/右補正を平滑化すること、及び第2の平滑化パラメータを使用する前記オーディオ信号の前/後補正を平滑化することを含む、
    請求項13に記載の方法。
  15. 前記オーディオ信号をキャプチャすることと同時に前記ビデオ信号をキャプチャすることは、前記オーディオ信号に対する補正を実行することを含み、前記補正は、左/右補正、前/後補正、及びステレオイメージ幅制御補正のうちの少なくとも1つを含む、
    請求項13又は14に記載の方法。
  16. 前記ステレオイメージ幅制御補正を実行することは:
    前記オーディオ信号の左チャネルと右チャネルから中央チャネルとサイドチャネルを生成すること;
    幅調整係数によって前記サイドチャネルを減衰させること;及び
    前記中央チャネルと減衰された前記サイドチャネルから修正されたオーディオ信号を生成すること;を含む、
    請求項15に記載の方法。
  17. 前記幅調整係数は前記ビデオキャプチャデバイスの焦点距離に基づいて計算される、
    請求項16に記載の方法。
  18. 前記幅調整係数は、前記ビデオキャプチャデバイスがリアルタイムで前記焦点距離を変更することに応答して、リアルタイムで更新される、
    請求項16又は17に記載の方法。
  19. プロセッサによって実行されると、請求項1乃至18のいずれか1項に記載の方法を含む処理を実行するように装置を制御するコンピュータプログラムを格納する非一時的コンピュータ可読媒体。
  20. オーディオ処理のための装置であって、前記装置は:
    プロセッサを有し、前記プロセッサは、請求項1乃至18のいずれか1項に記載の方法を含む処理を実行するよう前記装置を制御するように構成される、
    装置。
JP2023538159A 2020-12-22 2021-12-14 バイノーラルオーディオ録音のための知覚強化 Pending JP2024500916A (ja)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
CN2020138221 2020-12-22
CNPCT/CN2020/138221 2020-12-22
US202163139329P 2021-01-20 2021-01-20
US63/139,329 2021-01-20
US202163287730P 2021-12-09 2021-12-09
US63/287,730 2021-12-09
PCT/US2021/063203 WO2022140103A1 (en) 2020-12-22 2021-12-14 Perceptual enhancement for binaural audio recording

Publications (1)

Publication Number Publication Date
JP2024500916A true JP2024500916A (ja) 2024-01-10

Family

ID=79287611

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023538159A Pending JP2024500916A (ja) 2020-12-22 2021-12-14 バイノーラルオーディオ録音のための知覚強化

Country Status (4)

Country Link
US (1) US20240080608A1 (ja)
EP (1) EP4268474A1 (ja)
JP (1) JP2024500916A (ja)
WO (1) WO2022140103A1 (ja)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10685663B2 (en) * 2018-04-18 2020-06-16 Nokia Technologies Oy Enabling in-ear voice capture using deep learning
US10361673B1 (en) * 2018-07-24 2019-07-23 Sony Interactive Entertainment Inc. Ambient sound activated headphone
US10721562B1 (en) * 2019-04-30 2020-07-21 Synaptics Incorporated Wind noise detection systems and methods

Also Published As

Publication number Publication date
EP4268474A1 (en) 2023-11-01
US20240080608A1 (en) 2024-03-07
WO2022140103A1 (en) 2022-06-30

Similar Documents

Publication Publication Date Title
US10924850B2 (en) Apparatus and method for audio processing based on directional ranges
EP3197182B1 (en) Method and device for generating and playing back audio signal
US9071900B2 (en) Multi-channel recording
US20220328056A1 (en) Sound Field Related Rendering
JP2024028526A (ja) 音場関連レンダリング
WO2019239011A1 (en) Spatial audio capture, transmission and reproduction
US20210211828A1 (en) Spatial Audio Parameters
WO2017121245A1 (zh) 环绕立体声实现方法、电子设备及存储介质
EP3599775A1 (en) Systems and methods for processing an audio signal for replay on stereo and multi-channel audio devices
JP2024500916A (ja) バイノーラルオーディオ録音のための知覚強化
CN116636233A (zh) 用于双耳音频录制的感知增强
CN1401203A (zh) 音频系统
GB2594265A (en) Apparatus, methods and computer programs for enabling rendering of spatial audio signals
US20240137723A1 (en) Generating Parametric Spatial Audio Representations
EP4312439A1 (en) Pair direction selection based on dominant audio direction
US20230084225A1 (en) Apparatus, Methods and Computer Programs for Repositioning Spatial Audio Streams
WO2024044113A2 (en) Rendering audio captured with multiple devices
WO2023215405A2 (en) Customized binaural rendering of audio content
CA3142575A1 (en) Stereo headphone psychoacoustic sound localization system and method for reconstructing stereo psychoacoustic sound signals using same