JP5642882B2 - 時間展開情報をもつ基底関数を使用する音楽信号の分解 - Google Patents

時間展開情報をもつ基底関数を使用する音楽信号の分解 Download PDF

Info

Publication number
JP5642882B2
JP5642882B2 JP2013536730A JP2013536730A JP5642882B2 JP 5642882 B2 JP5642882 B2 JP 5642882B2 JP 2013536730 A JP2013536730 A JP 2013536730A JP 2013536730 A JP2013536730 A JP 2013536730A JP 5642882 B2 JP5642882 B2 JP 5642882B2
Authority
JP
Japan
Prior art keywords
vector
basis functions
segments
audio signal
signal representation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2013536730A
Other languages
English (en)
Other versions
JP2013546018A (ja
Inventor
ビッサー、エリック
グオ、インイ
ジュ、モフェイ
リュ、サン−ウク
キム、レ−ホン
シン、ジョンウォン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of JP2013546018A publication Critical patent/JP2013546018A/ja
Application granted granted Critical
Publication of JP5642882B2 publication Critical patent/JP5642882B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Auxiliary Devices For Music (AREA)

Description

米国特許法第119条に基づく優先権の主張
本特許出願は、本出願の譲受人に譲渡され、2010年10月25日に出願された「CASA (COMPUTATIONAL AUDITORY SCENE ANALYSIS) FOR MUSIC APPLICATIONS: DECOMPOSITION OF MUSIC SIGNALS USING BASIS FUNCTION INVENTORY AND SPARSE RECOVERY」と題する仮出願第61/406,376号の優先権を主張する。
本開示は、オーディオ信号処理に関する。
ポータブルデバイス(たとえば、スマートフォン、ネットブック、ラップトップ、タブレットコンピュータ)またはビデオゲームコンソール上の多くの音楽アプリケーションは、シングルユーザ事例のために利用可能である。これらの事例では、デバイスのユーザは、メロディをハミングするか、歌を歌うか、または楽器をプレイし、その間、デバイスは、生じたオーディオ信号を記録する。記録された信号は、次いで、それのピッチ(pitch:音調)/ノート(note:音色)の等高(contour)についてアプリケーションによって分析され得、ユーザは、等高を補正するかまたは場合によっては改変すること、異なるピッチまたは楽器音色を用いて信号をアップミックスすることなど、処理動作を選択することができる。そのようなアプリケーションの例には、QUSICアプリケーション(QUALCOMM社、サンディエゴ、CA)、Guitar HeroおよびRock Band(Harmonix Music Systems、ケンブリッジ、MA)などのビデオゲーム、ならびにカラオケ、ワンマンバンド、および他の記録アプリケーションがある。
多くのビデオゲーム(たとえば、Guitar Hero、Rock Band)およびコンサート音楽シーンは、複数の楽器およびボーカリストが同時にプレイすることを伴い得る。現在の商用ゲームおよび音楽生成システムでは、これらのシナリオを別々に分析し、後処理し、アップミックスすることが可能であるように、それらのシナリオが、連続的にプレイされるか、または近接して配置されたマイクロフォンを用いてプレイされる必要がある。これらの制約は、音楽生成の場合、干渉を制御する能力および/または空間効果を記録する能力を制限し得、ビデオゲームの場合、制限されたユーザエクスペリエンスをもたらし得る。
一般的構成による、オーディオ信号を分解する方法は、オーディオ信号の時間的な複数のセグメントの各々について、周波数範囲にわたる対応する信号表現を計算することを含む。本方法はまた、複数の計算された信号表現と複数の基底関数とに基づいて、アクティブ化係数のベクトルを計算することを含む。本方法では、ベクトルの各アクティブ化係数は、複数の基底関数のうちの異なる基底関数に対応し、複数の基底関数の各々は、周波数範囲にわたる第1の対応する信号表現と、前記第1の対応する信号表現とは異なる、周波数範囲にわたる第2の対応する信号表現とを備える。また、特徴を読み取る機械にそのような方法を実行させる実体的な特徴を有するコンピュータ可読記憶媒体(たとえば、非一時的媒体)が開示される。
一般的構成による、オーディオ信号を分解するための装置は、オーディオ信号の時間的な複数のセグメントの各々について、周波数範囲にわたる対応する信号表現を計算するための手段と、複数の計算された信号表現と複数の基底関数とに基づいて、アクティブ化係数のベクトルを計算するための手段とを含む。本装置では、ベクトルの各アクティブ化係数は、複数の基底関数のうちの異なる基底関数に対応し、複数の基底関数の各々は、周波数範囲にわたる第1の対応する信号表現と、前記第1の対応する信号表現とは異なる、周波数範囲にわたる第2の対応する信号表現とを備える。
別の一般的構成による、オーディオ信号を分解するための装置は、オーディオ信号の時間的な複数のセグメントの各々について、周波数範囲にわたる対応する信号表現を計算するように構成された変換モジュールと、複数の計算された信号表現と複数の基底関数とに基づいて、アクティブ化係数のベクトルを計算するように構成された係数ベクトル計算器とを含む。本装置では、ベクトルの各アクティブ化係数は、複数の基底関数のうちの異なる基底関数に対応し、複数の基底関数の各々は、周波数範囲にわたる第1の対応する信号表現と、前記第1の対応する信号表現とは異なる、周波数範囲にわたる第2の対応する信号表現とを備える。
図1Aは、一般的構成による方法M100のフローチャートを示す。 図1Bは、方法M100の実装形態M200のフローチャートを示す。 図1Cは、一般的構成による、オーディオ信号を分解するための装置MF100のブロック図を示す。 図1Dは、別の一般的構成による、オーディオ信号を分解するための装置A100のブロック図を示す。 図2Aは、方法M100の実装形態M300のフローチャートを示す。 図2Bは、装置A100の実装形態A300のブロック図を示す。 図3Cは、装置A100の別の実装形態A310のブロック図を示す。 図3Aは、方法M200の実装形態M400のフローチャートを示す。 図3Bは、方法M200の実装形態M500のフローチャートを示す。 図4Aは、方法M100の実装形態M600のフローチャートを示す。 図4Bは、装置A100の実装形態A700のブロック図を示す。 図5は、装置A100の実装形態A800のブロック図を示す。 図6は、基底関数インベントリの第2の例を示す。 図7は、調波ホンク(honk)を伴う音声のスペクトログラムを示す。 図8は、図6のインベントリにおける図7のスペクトログラムのスパース表現を示す。 図9は、モデルBf=yを図示する。 図10は、方法M100によって生成された分離結果のプロットを示す。 図11は、図9のモデルの変形B’f=yを図示する。 図12は、ピアノとフルートとについてのノートのペンデンシ(pendency)中の基底関数の時間領域展開のプロットを示す。 図13は、方法M400によって生成された分離結果のプロットを示す。 図14は、ノートF5におけるピアノおよびフルートの基底関数のプロット(左)と、ノートF5におけるピアノおよびフルートのプリエンファシスされた(pre-emphasized:高域側増幅)基底関数のプロット(右)とを示す。 図15は、複数の音源がアクティブであるシナリオを図示する。 図16は、音源が互いに近接して位置し、ある音源が別の音源の後ろに位置するシナリオを図示する。 図17は、個々の空間クラスタを分析した結果を図示する。 図18は、基底関数インベントリの第1の例を示す。 図19は、ギターノートのスペクトログラムを示す。 図20は、図18のインベントリにおける図19のスペクトログラムのスパース表現を示す。 図21は、オンセット検出方法を2つの異なるコンポジット信号例に適用した結果のスペクトログラムを示す。 図22は、オンセット検出ベースの後処理を第1のコンポジット信号例に適用した結果を表す。 図23は、オンセット検出ベースの後処理を第1のコンポジット信号例に適用した結果を表す。 図24は、オンセット検出ベースの後処理を第1のコンポジット信号例に適用した結果を表す。 図25は、オンセット検出ベースの後処理を第1のコンポジット信号例に適用した結果を表す。 図26は、オンセット検出ベースの後処理を第2のコンポジット信号例に適用した結果を表す。 図27は、オンセット検出ベースの後処理を第2のコンポジット信号例に適用した結果を表す。 図28は、オンセット検出ベースの後処理を第2のコンポジット信号例に適用した結果を表す。 図29は、オンセット検出ベースの後処理を第2のコンポジット信号例に適用した結果を表す。 図30は、オンセット検出ベースの後処理を第2のコンポジット信号例に適用した結果を表す。 図31は、オンセット検出ベースの後処理を第2のコンポジット信号例に適用した結果を表す。 図32は、オンセット検出ベースの後処理を第2のコンポジット信号例に適用した結果を表す。 図33は、オンセット検出ベースの後処理を第1のコンポジット信号例に適用した結果を示すスペクトログラムである。 図34は、オンセット検出ベースの後処理を第1のコンポジット信号例に適用した結果を示すスペクトログラムである。 図35は、オンセット検出ベースの後処理を第1のコンポジット信号例に適用した結果を示すスペクトログラムである。 図36は、オンセット検出ベースの後処理を第1のコンポジット信号例に適用した結果を示すスペクトログラムである。 図37は、オンセット検出ベースの後処理を第1のコンポジット信号例に適用した結果を示すスペクトログラムである。 図38は、オンセット検出ベースの後処理を第1のコンポジット信号例に適用した結果を示すスペクトログラムである。 図39は、オンセット検出ベースの後処理を第1のコンポジット信号例に適用した結果を示すスペクトログラムである。 図40は、オンセット検出ベースの後処理を第2のコンポジット信号例に適用した結果を示すスペクトログラムである。 図41は、オンセット検出ベースの後処理を第2のコンポジット信号例に適用した結果を示すスペクトログラムである。 図42は、オンセット検出ベースの後処理を第2のコンポジット信号例に適用した結果を示すスペクトログラムである。 図43は、オンセット検出ベースの後処理を第2のコンポジット信号例に適用した結果を示すスペクトログラムである。 図44は、オンセット検出ベースの後処理を第2のコンポジット信号例に適用した結果を示すスペクトログラムである。 図45は、オンセット検出ベースの後処理を第2のコンポジット信号例に適用した結果を示すスペクトログラムである。 図46は、オンセット検出ベースの後処理を第2のコンポジット信号例に適用した結果を示すスペクトログラムである。 図47Aは、ピアノフルートテストケースに適用されたオンセット検出方法の性能を評価した結果を示す。 図47Bは、通信デバイスD20のブロック図を示す。 図48は、ハンドセットH100の前面図、後面図、および側面図を示す。
詳細な説明
ノートのペンデンシにわたる楽音のスペクトルの変化に関係する情報を含む基底関数インベントリとスパース復元技法とを使用するオーディオ信号の分解を開示する。そのような分解は、信号の分析、符号化、再生、および/または合成をサポートするために使用され得る。本明細書では、調波楽器(すなわち、非打楽器)および打楽器からの混合音を含むオーディオ信号の定量分析の例を示す。
それの文脈によって明確に限定されない限り、「信号」という用語は、本明細書では、ワイヤ、バス、または他の伝送媒体上に表されたメモリ位置(またはメモリ位置のセット)の状態を含む、それの通常の意味のいずれをも示すのに使用される。それの文脈によって明確に限定されない限り、「発生(generating)」という用語は、本明細書では、計算(computing)または別様の生成(producing)など、それの通常の意味のいずれをも示すのに使用される。それの文脈によって明確に限定されない限り、「計算(calculating)」という用語は、本明細書では、複数の値からの計算(computing)、評価、平滑化、および/または選択など、それの通常の意味のいずれをも示すのに使用される。それの文脈によって明確に限定されない限り、「取得(obtaining)」という用語は、計算(calculating)、導出、(たとえば、外部デバイスからの)受信、および/または(たとえば、記憶要素のアレイからの)検索など、それの通常の意味のいずれをも示すのに使用される。それの文脈によって明確に限定されない限り、「選択(selecting)」という用語は、2つ以上のセットのうちの少なくとも1つ、およびすべてよりも少数を識別、指示、適用、および/または使用することなど、それの通常の意味のいずれをも示すのに使用される。「備える(comprising)」という用語は、本明細書および特許請求の範囲において使用される場合、他の要素または動作を除外しない。「に基づく」(「AはBに基づく」など)という用語は、(i)「から導出される」(たとえば、「BはAのプリカーサー(precursor: 先駆体)である」)、(ii)「少なくとも〜に基づく」(たとえば、「Aは少なくともBに基づく」)、および特定の文脈で適当な場合に、(iii)「に等しい」(たとえば、「AはBに等しい」)という場合を含む、それの通常の意味のいずれをも示すのに使用される。同様に、「に応答して」という用語は、「少なくとも〜に応答して」を含む、それの通常の意味のいずれをも示すのに使用される。
マルチマイクロフォンオーディオ感知デバイスのマイクロフォンの「ロケーション」への言及は、文脈によって別段に規定されていない限り、マイクロフォンの音響的に敏感な面の中心のロケーションを示す。「チャネル」という用語は、特定の文脈に応じて、時々、信号経路を示すのに使用され、また他のときには、そのような経路によって搬送される信号を示すのに使用される。別段に規定されていない限り、「一連」という用語は、2つ以上のアイテムのシーケンスを示すのに使用される。「対数」という用語は、10を底とする対数を示すのに使用されるが、他の底(たとえば、底2)へのそのような演算の拡張は本開示の範囲内である。「周波数成分」という用語は、(たとえば、高速フーリエ変換によって生成される)信号の周波数領域表現のサンプル、あるいは信号のサブバンド(たとえば、バーク尺度またはメル尺度サブバンド)など、信号の周波数または周波数帯域のセットのうちの1つを示すのに使用される。
別段に規定されていない限り、特定の特徴を有する装置の動作のいかなる開示も、類似の特徴を有する方法を開示する(その逆も同様)ことをも明確に意図し、特定の構成による装置の動作のいかなる開示も、類似の構成による方法を開示する(その逆も同様)ことをも明確に意図する。「構成」という用語は、それの特定の文脈によって示されるように、方法、装置、および/またはシステムに関して使用され得る。「方法」、「プロセス」、「プロシージャ」、および「技法」という用語は、特定の文脈によって別段に規定されていない限り、一般的、互換的に使用される。「装置」および「デバイス」という用語も、特定の文脈によって別段に規定されていない限り、一般的、互換的に使用される。「要素」および「モジュール」という用語は、一般に、より大きい構成の一部分を示すのに使用される。それの文脈によって明確に限定されない限り、「システム」という用語は、本明細書では、「共通の目的を果たすために相互作用する要素のグループ」を含む、それの通常の意味のいずれをも示すのに使用される。また、文書の一部分の参照によるいかなる組込みも、その部分内で参照される用語または変数の定義が、その文書中の他の場所、ならびに組み込まれた部分中で参照される図に現れた場合、そのような定義を組み込んでいることを理解されたい。定冠詞によって最初に導入されない限り、請求項要素を修飾するために使用される序数用語(たとえば、「第1の」、「第2の」、「第3の」など)は、それ自体では、別の請求項要素に対するその請求項要素の優先順位または順序を示さず、むしろ、(序数用語の使用を除いて)同じ名称を有する別の請求項要素からその請求項要素を区別するにすぎない。それの文脈によって明確に限定されない限り、「複数」という用語は、本明細書では、1よりも大きい整数量を示すのに使用される。
本明細書で説明する方法は、キャプチャされた信号を一連のセグメントとして処理するように構成され得る。典型的なセグメント長は約5または10ミリ秒から約40または50ミリ秒にわたり、セグメントは、重複する(たとえば、隣接するセグメントが25%または50%だけ重複する)ことも重複しないこともある。1つの特定の例では、上記信号は、10ミリ秒の長さをそれぞれ有する一連の重複しないセグメントまたは「フレーム」に分割される。また、そのような方法によって処理されるセグメントは、異なる演算によって処理されるより大きいセグメントのセグメント(すなわち、「サブフレーム」)であり得、またはその逆も同様である。
2つ以上の楽器および/またはボーカル信号の混合から個々のノート/ピッチプロファイルを抽出するために音楽シーンを分解することが望ましいことがある。潜在的な使用事例には、複数のマイクロフォンを用いてコンサート/ビデオゲームシーンをテープに記録すること、空間/スパース復元処理を用いて楽器とボーカルとを分解すること、ピッチ/ノートプロファイルを抽出すること、補正ピッチ/ノートプロファイルを用いて個々の音源を部分的にまたは完全にアップミックスすることがある。そのような動作は、音楽アプリケーション(たとえば、QualcommのQUSICアプリケーション、Rock BandまたはGuitar Heroなどのビデオゲーム)の機能をマルチプレーヤ/シンガーシナリオに拡張するために使用され得る。
音楽アプリケーションが、(たとえば、図15に示すように)2人以上のボーカリストがアクティブであり、および/または複数の楽器が同時にプレイされるシナリオを処理することを可能にすることが望ましいことがある。そのような機能は、現実的な音楽テープ記録シナリオ(マルチピッチシーン)をサポートするために望ましいことがある。ユーザは、各音源を別々に編集および再合成する能力を希望し得るが、サウンドトラックを生成することは、それらの音源を同時に記録することを伴い得る。
本開示では、複数の音源が同時にアクティブになり得る音楽アプリケーションのための使用事例を可能にするために使用され得る方法について説明する。そのような方法は、基底関数インベントリベースのスパース復元(たとえば、スパース分解)技法を使用してオーディオ混合信号を分析するように構成され得る。
基底関数のセットについて(たとえば、効率的なスパース復元アルゴリズムを使用して)アクティブ化係数の最もスパースなベクトルを見つけることによって混合信号スペクトルを音源成分に分解することが望ましいことがある。アクティブ化係数ベクトルを(たとえば、基底関数のセットとともに)使用して、混合信号を再構成するかまたは混合信号の(たとえば、1つまたは複数の選択された楽器からの)選択された部分を再構成し得る。また、(たとえば、大きさ(magnitude)および時間サポートに従って)スパース係数ベクトルを後処理することが望ましいことがある。
図1Aに、一般的構成による、オーディオ信号を分解する方法M100のフローチャートを示す。方法M100は、オーディオ信号のフレームからの情報に基づいて、周波数範囲にわたる対応する信号表現を計算するタスクT100を含む。方法M100は、タスクT100によって計算された信号表現と、複数の基底関数とに基づいて、アクティブ化係数のベクトルを計算するタスクT200をも含み、アクティブ化係数の各々は、複数の基底関数のうちの異なる1つに対応する。
タスクT100は、周波数領域ベクトルとして信号表現を計算するように実装され得る。そのようなベクトルの各要素は、メルまたはバーク尺度に従って取得され得る、サブバンドのセットの対応する1つのサブバンドのエネルギーを示し得る。しかしながら、そのようなベクトルは、一般に、高速フーリエ変換(FFT)、または短時間フーリエ変換(STFT)など、離散フーリエ変換(DFT)を使用して計算される。そのようなベクトルは、たとえば、64、128、256、512、または1024ビンの長さを有し得る。一例では、オーディオ信号は、8kHzのサンプリングレートを有し、0〜4kHz帯域は、長さ32ミリ秒の各フレームについて256ビンの周波数領域ベクトルによって表される。別の例では、信号表現は、オーディオ信号の重複セグメントにわたる修正離散コサイン変換(MDCT)を使用して計算される。
さらなる一例では、タスクT100は、フレームの短期電力スペクトルを表すケプストラム係数(たとえば、メル周波数ケプストラム係数またはMFCC)のベクトルとして信号表現を計算するように実装される。この場合、タスクT100は、フレームのDFT周波数領域ベクトルの大きさにメル尺度フィルタバンクを適用することと、フィルタ出力の対数をとることと、対数値のDCTをとることとによって、そのようなベクトルを計算するように実装され得る。そのようなプロシージャは、たとえば、「STQ: DSR - Front-end feature extraction algorithm; compression algorithm」と題するETSI文書ES 201 108(欧州通信規格協会、2000年)に記載されているオーロラ規格に記述されている。
楽器は、一般に、明確な音色を有する。楽器の音色は、それのスペクトルエンベロープ(たとえば、周波数範囲にわたるエネルギーの分布)によって記述され得るので、異なる楽器の音色の範囲は、個々の楽器のスペクトルエンベロープを符号化する基底関数のインベントリを使用してモデル化され得る。
各基底関数は、周波数範囲にわたる対応する信号表現を備える。これらの信号表現の各々は、タスクT100によって計算された信号表現と同じ形態を有することが望ましいことがある。たとえば、各基底関数は、長さ64、128、256、512、または1024ビンの周波数領域ベクトルであり得る。代替的に、各基底関数は、MFCCのベクトルなどのケプストラム領域ベクトルであり得る。さらなる一例では、各基底関数はウェーブレット領域ベクトルである。
基底関数インベントリAは、各楽器n(たとえば、ピアノ、フルート、ギター、ドラムなど)の基底関数のセットAnを含み得る。たとえば、楽器の音色は、概して、各楽器nの基底関数のセットAnが、一般に、楽器ごとに異なり得るある所望のピッチ範囲にわたる各ピッチについて少なくとも1つの基底関数を含むようなピッチ従属である。たとえば、半音階スケールにチューニングされた楽器に対応する基底関数のセットは、オクターブ当たり12ピッチの各々の異なる基底関数を含み得る。ピアノの基底関数のセットは、ピアノの各キーについて異なる基底関数を含み、合計で88個の基底関数を含み得る。別の例では、各楽器の基底関数のセットは、5オクターブ(たとえば、56ピッチ)または6オクターブ(たとえば、67ピッチ)など、所望のピッチ範囲内の各ピッチについて異なる基底関数を含む。基底関数のこれらのセットAnは独立であり得、または2つ以上のセットが1つまたは複数の基底関数を共有し得る。
図6に、基底関数のセットの各基底関数が、異なる対応するピッチにおける楽器の音色を符号化する、特定の調波楽器の14個の基底関数のセットについてのプロット(ピッチインデックス対周波数)の一例を示す。音楽信号のコンテキストでは、人間ボイスは、インベントリが1つまたは複数の人間ボイスモデルの各々の基底関数のセットを含み得るような楽器と見なされ得る。図7に、調波ホンクを伴う音声のスペクトログラム(Hz単位の周波数対サンプル単位の時間)を示し、図8に、図6に示した調波基底関数セット中のこの信号の表現を示す。
基底関数のインベントリは、アドホック記録された個々の楽器記録から学習された一般的な楽器ピッチデータベースに基づき得、および/または(たとえば、独立の成分分析(ICA:independent component analysis)、期待値最大化(EM:expectation-maximization)などの分離方式を使用した)混合の分離されたストリームに基づき得る。
タスクT100によって計算された信号表現と、インベントリAからの複数Bの基底関数とに基づいて、タスクT200はアクティブ化係数のベクトルを計算する。このベクトルの各係数は、複数Bの基底関数のうちの異なる1つに対応する。たとえば、タスクT200は、複数Bの基底関数に従って、ベクトルが信号表現のための最も有望なモデルを示すように、ベクトルを計算するように構成され得る。図9に、そのようなモデルBf=yを示し、ここで、複数Bの基底関数は、Bの列が個々の基底関数であり、fが基底関数アクティブ化係数の列ベクトルであり、yが、記録された混合信号のフレーム(たとえば、スペクトログラム周波数ベクトルの形態の5、10、または20ミリ秒フレーム)の列ベクトルであるような行列である。
タスクT200は、線形プログラミング問題を解くことによって、オーディオ信号の各フレームのアクティブ化係数ベクトルを復元するように構成され得る。そのような問題を解くために使用され得る方法の例には、非負値行列因子分解(NNMF:nonnegative matrix factorization)がある。NNMFに基づくシングルチャネル基準方法は、(たとえば、以下で説明するように)期待値最大化(EM)更新ルールを使用して、基底関数とアクティブ化係数とを同時に計算するように構成され得る。
既知または部分的に既知の基底関数空間における最もスパースなアクティブ化係数ベクトルを見つけることによって、オーディオ混合信号を(1つまたは複数の人間ボイスを含み得る)個々の楽器に分解することが望ましいことがある。たとえば、タスクT200は、既知の楽器基底関数のセットを使用して、(たとえば、効率的なスパース復元アルゴリズムを使用して)基底関数インベントリにおける最もスパースなアクティブ化係数ベクトルを見つけることによって、入力信号表現を音源成分(たとえば、1つまたは複数の個々の楽器)に分解するように構成され得る。
劣決定系の連立一次方程式(すなわち、式よりも多い未知数を有する系)の最小L1ノルム解は、しばしばそのシステムの最もスパースな解でもあることが知られている。L1ノルムの最小化によるスパース復元は、以下のように実行され得る。
ターゲットベクトルf0は、K<N個の非0成分を有する長さNのスパースベクトルであり(すなわち、「Kスパース」であり)、射影行列(すなわち、基底関数行列)Aは、サイズ約Kのセットについてインコヒーレント(ランダム様)であると仮定する。信号y=Af0であることがわかる。したがって、Af=yを条件とする
Figure 0005642882
(ただし、
Figure 0005642882

Figure 0005642882
として定義される)を解くことは、f0を正確に復元することになる。その上、扱いやすい(tractable)プログラムを解くことによって、
Figure 0005642882
個のインコヒーレント測定値からf0を復元することができる。測定値の数Mは、アクティブな成分の数にほぼ等しい。
1つの手法は、圧縮センシング(compressive sensing)からのスパース復元アルゴリズムを使用することである。圧縮センシング(「compressed sensing」とも呼ばれる)の一例では、信号復元Φx=yであり、yは、長さMの観測信号ベクトルであり、xは、yの凝縮(condensed)表現である、K<N個の非0成分を有する長さNのスパースベクトル(すなわち、「Kスパースモデル」)であり、Φは、サイズM×Nのランダム射影行列である。ランダム射影Φはフルランクではないが、それは高い確率でスパース/圧縮可能信号モデルに対して可逆である(すなわち、それは非適切な逆問題(ill-posed inverse problem)を解く)。
図10には、方法M100のスパース復元実装形態によって生成された分離結果のプロット(ピッチインデックス対フレームインデックス)が示されている。この場合、入力混合信号は、ノートC5−F5−G5−G#5−G5−F5−C5−D#5のシーケンスをプレイするピアノと、ノートC6−A#5−G#5−G5のシーケンスをプレイするフルートとを含む。ピアノの分離された結果は、破線(ピッチシーケンス0−5−7−8−7−5−0−3)で示され、フルートの分離された結果は、実線(ピッチシーケンス12−10−8−7)で示されている。
アクティブ化係数ベクトルfは、対応する基底関数セットAnのアクティブ化係数を含む各楽器nのサブベクトルfnを含むと見なされ得る。これらの楽器固有のアクティブ化サブベクトルは、(たとえば、後処理演算において)独立して処理され得る。たとえば、1つまたは複数のスパーシティ制約(たとえば、ベクトル要素の少なくとも半分が0であること、楽器固有のサブベクトル中の非0要素の数が最大値を超えないことなど)をエンフォースすることが望ましいことがある。アクティブ化係数ベクトルの処理は、各フレームについて各非0アクティブ化係数のインデックス番号を符号化すること、各非0アクティブ化係数のインデックスと値とを符号化すること、またはスパースベクトル全体を符号化することを含み得る。そのような情報は、示されたアクティブな基底関数を使用して混合信号を再生するため、または混合信号の特定の部分のみ(たとえば、特定の楽器によってプレイされるノートのみ)を再生するために、(たとえば、別の時間および/またはロケーションにおいて)使用され得る。
楽器によって生成されるオーディオ信号は、ノートと呼ばれる一連のイベントとしてモデル化され得る。ノートをプレイする調波楽器の音は、たとえば、(アタックとも呼ばれる)オンセット段階、(サスティーンとも呼ばれる)定常段階、および(リリースとも呼ばれる)オフセット段階の時間的に異なる領域に分割され得る。ノートの時間エンベロープの別の記述(ADSR)は、アタックとサスティーンとの間の追加のディケイ(decay)段階を含む。このコンテキストでは、ノートの持続時間は、アタック段階の開始からリリース段階の終了まで(または、同じ弦上の別のノートの開始など、そのノートを終了する別のイベントまで)の間隔として定義され得る。ノートは単一のピッチを有すると仮定されるが、インベントリは、単一のアタックと(たとえば、ビブラートまたはポルタメントなどのピッチベンディング効果によって生成される)複数のピッチとを有するノートをモデル化するようにも実装され得る。いくつかの楽器(たとえば、ピアノ、ギター、またはハープ)は、コードと呼ばれるイベントにおいて一度に2つ以上のノートを生成し得る。
異なる楽器によって生成されるノートはサスティーン段階中に同様の音色を有し得るので、そのような期間中にどの楽器がプレイしているかを識別することは困難であり得る。しかしながら、ノートの音色は、段階ごとに変化することが予想され得る。たとえば、アクティブな楽器を識別することは、サスティーン段階中よりもアタックまたはリリース段階中に容易であり得る。
図12に、ピアノ(破線)とフルート(実線)とについてのオクターブC5−C6における12個の異なるピッチの基底関数の時間領域展開のプロット(ピッチインデックス対時間領域フレームインデックス)を示す。たとえば、ピアノの基底関数の場合のアタック段階とサスティーン段階との間の関係は、フルートの基底関数の場合のアタック段階とサスティーン段階との間の関係とは著しく異なることがわかり得る。
アクティブ化係数ベクトルが適切な基底関数を示す可能性を高めるために、基底関数間の差を最大にすることが望ましいことがある。たとえば、基底関数が時間に対するノートのスペクトルの変化に関係する情報を含むことが望ましいことがある。
時間に対する音色の変化に基づいて基底関数を選択することが望ましいことがある。そのような手法は、ノートの音色のそのような時間領域展開に関係する情報を基底関数インベントリに符号化することを含み得る。たとえば、特定の楽器nの基底関数のセットAnは、2つ以上の対応する信号表現の各々がノートの展開における異なる時間(たとえば、アタック段階の時間、サスティーン段階の時間、およびリリース段階の時間)に対応するように、各ピッチにおいてこれらの信号表現を含み得る。これらの基底関数は、ノートをプレイする楽器の記録の対応するフレームから抽出され得る。
図1Cに、一般的構成による、オーディオ信号を分解するための装置MF100のブロック図を示す。装置MF100は、(たとえば、タスクT100に関して本明細書で説明したように)オーディオ信号のフレームからの情報に基づいて、周波数範囲にわたる対応する信号表現を計算するための手段F100を含む。装置MF100は、(たとえば、タスクT200に関して本明細書で説明したように)手段F100によって計算された信号表現と、複数の基底関数とに基づいて、アクティブ化係数の各々が複数の基底関数のうちの異なる1つに対応する、アクティブ化係数のベクトルを計算するための手段F200をも含む。
図1Dに、変換モジュール100と係数ベクトル計算器200とを含む、別の一般的構成による、オーディオ信号を分解するための装置A100のブロック図を示す。変換モジュール100は、(たとえば、タスクT100に関して本明細書で説明したように)オーディオ信号のフレームからの情報に基づいて、周波数範囲にわたる対応する信号表現を計算するように構成される。係数ベクトル計算器200は、(たとえば、タスクT200に関して本明細書で説明したように)変換モジュール100によって計算された信号表現と、複数の基底関数とに基づいて、アクティブ化係数の各々が複数の基底関数のうちの異なる1つに対応する、アクティブ化係数のベクトルを計算するように構成される。
図1Bに、基底関数インベントリが各ピッチにおける各楽器のための複数の信号表現を含む、方法M100の実装形態M200のフローチャートを示す。これらの複数の信号表現の各々は、周波数範囲にわたるエネルギーの複数の異なる分布(たとえば、複数の異なる音色)を記述する。インベントリはまた、異なる時間関係モダリティのための異なる複数の信号表現を含むように構成され得る。1つのそのような例では、インベントリは、各ピッチにおける弾かれた(bowed)弦の複数の信号表現と、各ピッチにおけるかき鳴らされた(plucked)(たとえば、ピッツィカート(pizzicato)の)弦の異なる複数の信号表現とを含む。
方法M200は、タスクT100の複数のインスタンス(この例では、タスクT100AおよびT100B)を含み、各インスタンスは、オーディオ信号の対応する異なるフレームからの情報に基づいて、周波数範囲にわたる対応する信号表現を計算する。様々な信号表現は連結され得、同様に、各基底関数は複数の信号表現の連結であり得る。この例では、タスクT200は、混合フレームの連結を各ピッチにおける信号表現の連結にマッチさせる。図11に、混合信号yのフレームp1とフレームp2とがマッチングのために連結された、図S5のモデルBf=yの変形B’f=yの例を示す。
インベントリは、各ピッチにおける複数の信号表現がトレーニング信号の連続するフレームからとられるように構築され得る。他の実装形態では、各ピッチにおける複数の信号表現が、時間的により大きいウィンドウにわたる(たとえば、連続するフレームではなく時間的に分離されたフレームを含む)ことが望ましいことがある。たとえば、各ピッチにおける複数の信号表現が、アタック段階と、サスティーン段階と、リリース段階とのうちの少なくとも2つからの信号表現を含むことが望ましいことがある。ノートの時間領域展開に関するより多くの情報を含むことによって、異なるノートの基底関数のセット間の差が増加され得る。
図14の左側には、ノートF5におけるピアノの基底関数(破線)とノートF5におけるフルートの基底関数(実線)とのプロット(振幅対周波数)が示されている。この特定のピッチにおける楽器の音色を示すこれらの基底関数がまったく同様であることがわかり得る。したがって、実際には、それらの間のある程度のミスマッチが予想され得る。よりロバストな分離結果では、インベントリの基底関数の間の差を最大にすることが望ましいことがある。
フルートの実際の音色は、ピアノの音色よりも多くの高周波エネルギーを含んでいるが、図14の左側のプロットに示す基底関数はこの情報を符号化しない。図14の右側に、ノートF5におけるピアノの基底関数(破線)とノートF5におけるフルートの基底関数(実線)との別のプロット(振幅対周波数)を示す。この場合、基底関数は、音源信号の高周波領域がプリエンファシスされていることを除いて、左側のプロットにおける基底関数と同じ音源信号から導出される。ピアノ音源信号は、フルート音源信号よりも著しくより少ない高周波エネルギーを含んでいるので、右側のプロットに示されている基底関数間の差は、左側のプロットに示されている基底関数間の差よりも明らかに大きい。
図2Aに、セグメントの高周波を強調するタスクT300を含む方法M100の実装形態M300のフローチャートを示す。この例では、タスクT100は、プリエンファシス後にセグメントの信号表現を計算するように構成される。図3Aに、タスクT300の複数のインスタンスT300A、T300Bを含む、方法M200の実装形態M400のフローチャートを示す。一例では、プリエンファシスタスクT300は、200Hzを上回るエネルギーと総エネルギーとの比を増加させる。
図2Bに、変換モジュール100の上流でオーディオ信号に対して高周波強調を実行するように構成されたプリエンファシスフィルタ300(たとえば、1次高域フィルタなどの高域フィルタ)を含む装置A100の実装形態A300のブロック図を示す。図2Cに、プリエンファシスフィルタ300が変換係数に対して高周波プリエンファシスを実行するように構成された、装置A100の別の実装形態A310のブロック図を示す。これらの場合、また、複数Bの基底関数に対して高周波プリエンファシス(たとえば、高域フィルタ処理)を実行することが望ましいことがある。図13に、図10の分離結果と同じ入力混合信号に関する、方法M300によって生成された分離結果のプロット(ピッチインデックス対フレームインデックス)を示す。
楽音は、ビブラートおよび/またはトレモロなどのカラーレーション効果を含み得る。ビブラートは、一般に、4または5から7、8、10、または12ヘルツまでの範囲内にある変調レートをもつ周波数変調である。ビブラートによるピッチ変化は、シンガーの場合には、0.6から2半音の間で変動し得、管弦楽器の場合には、概して+/−0.5半音よりも少ない(たとえば、弦楽器の場合には、0.2から0.35半音の間である)。トレモロは、一般に同様の変調レートを有する振幅変調である。
基底関数インベントリにおいてそのような効果をモデル化することは困難であり得る。そのような効果の存在を検出することが望ましいことがある。たとえば、ビブラートの存在は、4〜8Hzの範囲内の周波数領域ピークによって示され得る。また、そのような特性は、再生中に効果を復元するために使用され得るので、検出された効果のレベルの測定を(たとえば、このピークのエネルギーとして)記録することが望ましいことがある。トレモロの検出および定量化では、同様の処理が時間領域において実行され得る。効果が検出され、場合によっては定量化された後、ビブラートの場合には時間に対して周波数を平滑化することによって、またはトレモロの場合には時間に対して振幅を平滑化することによって変調を除去することが望ましいことがある。
図4Bに、変調レベル計算器MLCを含む装置A100の実装形態A700のブロック図を示す。計算器MLCは、上記で説明したように、オーディオ信号のセグメント中の検出された変調の測定(たとえば、時間または周波数領域における検出された変調ピークのエネルギー)を計算し、場合によっては記録するように構成される。
本開示では、複数の音源が同時にアクティブになり得る音楽アプリケーションのための使用事例を可能にするために使用され得る方法について説明する。そのような事例では、可能な場合、アクティブ化係数ベクトルを計算する前に音源を分離することが望ましいことがある。この目的を達成するために、マルチチャネル技法とシングルチャネル技法との組合せを提案する。
図3Bに、信号を空間クラスタに分離するタスクT500を含む方法M100の実装形態M500のフローチャートを示す。タスクT500は、音源をできる限り多くの空間クラスタに隔離するように構成され得る。一例では、タスクT500は、記録された音響シナリオをできる限り多くの空間クラスタに分離するために、マルチマイクロフォン処理を使用する。そのような処理は、マイクロフォン信号間の利得差および/または位相差に基づき得、そのような差は、周波数帯域全体にわたって評価されるか、あるいは複数の異なる周波数サブバンドまたは周波数ビンの各々において評価され得る。
空間分離方法のみでは、所望の分離レベルを達成するには不十分であり得る。たとえば、いくつかの音源は、マイクロフォンアレイに対して近接しすぎているか、または場合によっては準最適に構成されることがある(たとえば、複数のバイオリン奏者および/または調波楽器が1つのコーナーに位置し得、打楽器奏者が通常後方に位置する)。典型的な音楽バンドシナリオでは、音源は(たとえば、図16に示すように)互いに近接して位置するかまたは他の音源のさらに後ろに位置し得るので、空間情報のみを使用して、バンドに対して同じ概略的な方向にあるマイクロフォンのアレイによってキャプチャされた信号を処理することは、音源のすべてを互いから区別することができないことがある。タスクT100およびT200は、(たとえば、図17に示すように)個々の楽器を分離するために、本明細書で説明するシングルチャネル基底関数インベントリベースのスパース復元(たとえば、スパース分解)技法を使用して個々の空間クラスタを分析する。
計算しやすさのために、複数Bの基底関数は、基底関数のインベントリAよりもかなり小さいことが望ましいことがある。大きいインベントリから開始して、所与の分離タスクのためのインベントリを絞り込むことが望ましいことがある。一例では、そのような低減は、セグメントが打楽器からの音を含むのか調波楽器からの音を含むのかを決定することと、マッチングのためにインベントリから基底関数の適切な複数のBを選択することとによって実行され得る。打楽器は、調波音の場合の水平線とは反対にインパルス様のスペクトログラム(たとえば、垂直線)を有する傾向がある。
調波楽器は、一般に、ある基本ピッチおよび関連する音色と、この調波パターンの対応する高周波拡張とによって、スペクトログラムにおいて特徴づけられ得る。したがって、別の例では、スペクトルの高周波レプリカは、低周波スペクトルに基づいて予測され得るので、これらのスペクトルのより低いオクターブのみを分析することによって計算タスクを低減することが望ましいことがある。マッチングの後に、アクティブな基底関数を高周波に外挿し、混合信号から減算して、残差信号を取得し得、残差信号は、符号化されおよび/またはさらに分解され得る。
そのような低減はまた、グラフィカルユーザインターフェースにおけるユーザ選択を通して実行され、ならびに/あるいは、第1のスパース復元ランまたは最尤適合に基づく、可能性が最も高い楽器および/またはピッチの事前分類によって実行され得る。たとえば、スパース復元演算の第1のランを実行して、復元されたスパース係数の第1のセットを取得し得、この第1のセットに基づいて、適用可能なノート基底関数がスパース復元演算の別の実行のために絞り込まれ得る。
1つの低減手法は、いくつかのピッチ間隔においてスパーシティスコアを測定することによって、いくつかの楽器音の存在を検出することを含む。そのような手法は、初期ピッチ推定値に基づいて、1つまたは複数の基底関数のスペクトル形状を改良することと、方法M100において、改良された基底関数を複数Bとして使用することとを含み得る。
低減手法は、対応する基底関数に射影された音楽信号のスパーシティスコアを測定することによってピッチを識別するように構成され得る。最良のピッチスコアが与えられれば、基底関数の振幅形状は、楽器音を識別するために最適化され得る。アクティブな基底関数の低減されたセットは、次いで、方法M100において複数Bとして使用され得る。
図18に、ファーストラン手法において使用され得るスパース調波信号表現のための基底関数インベントリの一例を示す。図19に、ギターノートのスペクトログラム(Hz単位の周波数対サンプル単位の時間)を示し、図20に、図18に示す基底関数のセットにおけるこのスペクトログラムのスパース表現(基底関数番号対フレーム単位の時間)を示す。
図4Aに、そのような第1ランインベントリ低減を含む方法M100の実装形態M600のフローチャートを示す。方法M600は、(たとえば、メルまたはバーク尺度の場合のように、隣接する要素間の周波数距離が周波数とともに増加する)非線形周波数領域におけるセグメントの信号表現を計算するタスクT600を含む。一例では、タスクT600は、コンスタントQ変換(constant-Q transform)を使用して非線形信号表現を計算するように構成される。方法M600は、非線形信号表現と、複数の同様に非線形の基底関数とに基づいて、アクティブ化係数の第2のベクトルを計算するタスクT700をも含む。第2のアクティブ化係数ベクトルからの(たとえば、アクティブなピッチ範囲を示し得るアクティブ化された基底関数の識別情報からの)情報に基づいて、タスクT800は、タスクT200において使用する基底関数の複数Bを選択する。また、方法M200、M300、およびM400は、そのようなタスクT600、T700、およびT800を含むように実装され得ることに明確に留意されたい。
図5に、基底関数のより大きいセットから(たとえば、インベントリから)複数の基底関数を選択するように構成されたインベントリ低減モジュールIRMを含む装置A100の実装形態A800のブロック図を示す。モジュールIRMは、(たとえば、定Q変換に従って)非線形周波数領域におけるセグメントの信号表現を計算するように構成された第2の変換モジュール110を含む。モジュールIRMは、本明細書で説明するように、非線形周波数領域における計算された信号表現と、第2の複数の基底関数とに基づいて、アクティブ化係数の第2のベクトルを計算するように構成された第2の係数ベクトル計算器をも含む。モジュールIRMは、本明細書で説明するように、第2のアクティブ化係数ベクトルからの情報に基づいて、基底関数のインベントリの中から複数の基底関数を選択するように構成された基底関数セレクタをも含む。
方法M100は、オンセット検出(たとえば、楽音のオンセットを検出すること)と、調波楽器スパース係数を改良するための後処理とを含むことが望ましいことがある。アクティブ化係数ベクトルfは、楽器固有の基底関数セットBnのアクティブ化係数を含む、各楽器nの対応するサブベクトルfnを含むと見なされ得、これらのサブベクトルは独立して処理され得る。図21〜図46に、コンポジット信号例1(同じオクターブにおいてプレイするピアノおよびフルート)およびコンポジット信号例2(打楽器とともに同じオクターブにおいてプレイするピアノおよびフルート)に対してそのような方式を使用する音楽分解の態様を示す。
一般的なオンセット検出方法はスペクトルの大きさ(たとえば、エネルギー差)に基づき得る。たとえば、そのような方法は、スペクトルエネルギーおよび/またはピークスロープに基づいてピークを見つけることを含み得る。図21は、そのような方法を、それぞれ、コンポジット信号例1(同じオクターブにおいてプレイするピアノおよびフルート)およびコンポジット信号例2(打楽器とともに同じオクターブにおいてプレイするピアノおよびフルート)に適用した結果のスペクトログラム(Hz単位の周波数対フレーム単位の時間)を示しており、垂直線は検出されたオンセットを示す。
また、各個々の楽器のオンセットを検出することが望ましいことがある。たとえば、調波楽器の中のオンセット検出の方法は、時間的な対応する係数差に基づき得る。1つのそのような例では、調波楽器nのオンセット検出は、現在のフレームの楽器nの係数ベクトル(サブベクトルfn)の最大大きさの要素のインデックスが、前のフレームの楽器nの係数ベクトルの最大大きさの要素のインデックスに等しくない場合にトリガされる。そのような動作は、各楽器について反復され得る。
調波楽器のスパース係数ベクトルの後処理を実行することが望ましいことがある。たとえば、調波楽器では、大きい大きさを有し、および/または指定された基準を満たす(たとえば、十分に鋭い)アタックプロファイルを有する、対応するサブベクトルの係数を保持すること、ならびに/あるいは残差係数を除去(たとえば、ゼロアウト)することが望ましいことがある。
各調波楽器について、支配的な大きさと許容できるアタック時間とを有する係数が保持され、残差係数がゼロ化されるように、(たとえば、オンセット検出が示されたときに)各オンセットフレームにおいて係数ベクトルを後処理することが望ましいことがある。アタック時間は、時間に対する平均大きさなどの基準に従って評価され得る。1つのそのような例では、係数の現在の平均値が係数の過去の平均値よりも小さい場合(たとえば、フレーム(t−5)からフレーム(t+4)までなどの現在のウィンドウにわたる係数の値の和が、フレーム(t−15)からフレーム(t−6)までなどの過去のウィンドウにわたる係数の値の和よりも小さい場合)、現在のフレームtの楽器の各係数はゼロアウトされる(すなわち、アタック時間は許容できない)。各オンセットフレームにおける調波楽器の係数ベクトルのそのような後処理はまた、最大大きさをもつ係数を保持することと、他の係数をゼロアウトすることとを含み得る。各非オンセットフレームにおける各調波楽器について、前のフレーム中の値が0でなかった係数のみを保持し、ベクトルの他の係数をゼロアウトするように係数ベクトルを後処理することが望ましいことがある。
図22〜図25は、オンセット検出ベースの後処理をコンポジット信号例1(同じオクターブをプレイすることでのピアノおよびフルート)に適用した結果を示している。これらの図では、垂直軸はスパース係数インデックスであり、水平軸はフレーム単位の時間であり、垂直線は、オンセット検出が示されたフレームを示す。図22および図23は、それぞれ、後処理の前および後のピアノのスパース係数を示している。図24および図25は、それぞれ、後処理の前および後のフルートのスパース係数を示している。
図26〜図30は、オンセット検出ベースの後処理をコンポジット信号例2(打楽器とともに同じオクターブをプレイすることでのピアノおよびフルート)に適用した結果を示している。これらの図では、垂直軸はスパース係数インデックスであり、水平軸はフレーム単位の時間であり、垂直線は、オンセット検出が示されたフレームを示す。図26および図27は、それぞれ、後処理の前および後のピアノのスパース係数を示している。図28および図29は、それぞれ、後処理の前および後のフルートのスパース係数を示している。図30は、ドラムのスパース係数を示している。
図31〜図39は、本明細書で説明するオンセット検出方法をコンポジット信号例1(同じオクターブにおいてプレイするピアノおよびフルート)に適用した結果を示すスペクトログラムである。図31は、元のコンポジット信号のスペクトログラムを示している。図32は、後処理なしに再構成されたピアノ成分のスペクトログラムを示している。図33は、後処理を用いて再構成されたピアノ成分のスペクトログラムを示している。図34は、EMアルゴリズムを使用して取得されたインベントリによってモデル化されたピアノを示している。図35は、元のピアノを示している。図36は、後処理なしに再構成されたフルート成分のスペクトログラムを示している。図37は、後処理を用いて再構成されたフルート成分のスペクトログラムを示している。図38は、EMアルゴリズムを使用して取得されたインベントリによってモデル化されたフルートを示している。図39は、元のフルート成分のスペクトログラムを示している。
図40〜図46は、本明細書で説明するオンセット検出方法をコンポジット信号例2(同じオクターブにおいてプレイするピアノおよびフルートとドラム)に適用した結果を示すスペクトログラムである。図40は、元のコンポジット信号のスペクトログラムを示している。図41は、後処理なしに再構成されたピアノ成分のスペクトログラムを示している。図42は、後処理を用いて再構成されたピアノ成分のスペクトログラムを示している。図43は、後処理なしに再構成されたフルート成分のスペクトログラムを示している。図44は、後処理を用いて再構成されたフルート成分のスペクトログラムを示している。図45および図46は、それぞれ、再構成されたドラム成分のスペクトログラムおよび元のドラム成分のスペクトログラムを示している。
図47Aに、Vincentらによって記述された評価メトリクス(Performance Measurement in Blind Audio Source Separation、IEEE Trans.ASSP、第14巻、第4号、2006年7月、1462〜1469ページ)を使用して、ピアノフルートテストケースに適用された、本明細書で説明するオンセット検出方法の性能を評価した結果を示す。信号対干渉比(SIR)は、不要な音源の抑制の測定であり、
Figure 0005642882
として定義される。信号対アーティファクト比(SAR)は、分離プロセスによって導入された(音楽雑音などの)アーティファクトの測定であり、
Figure 0005642882
として定義される。信号対ひずみ比(SDR)は、上記の基準の両方を考慮するので、性能の全体的な測定であり、
Figure 0005642882
として定義される。この定量的評価は、許容できるレベルのアーティファクト生成を伴うロバストな音源分離を示す。
EMアルゴリズムは、初期基底関数行列を生成するため、および/または(たとえば、アクティブ化係数ベクトルに基づいて)基底関数行列を更新するために使用され得る。EM手法のための更新ルールの例について次に説明する。スペクトログラムVftが与えられれば、各時間フレームについてスペクトル基底ベクトル
Figure 0005642882
と重みベクトルPt(z)とを推定することが望まれる。これらの分布から行列分解が得られる。
以下のようにEMアルゴリズムを適用する。最初に、重みベクトルPt(z)とスペクトル基底ベクトル
Figure 0005642882
とをランダムに初期化する。次いで、収束するまで後続のステップ間を反復する。1)予想(E)ステップ − スペクトル基底ベクトル
Figure 0005642882
と重みベクトルPt(z)とが与えられれば、後の分布
Figure 0005642882
を推定する。この推定は、以下のように表され得る。
Figure 0005642882
2)最大化(M)ステップ − 後の分布
Figure 0005642882
が与えられれば、重みベクトルPt(z)とスペクトル基底ベクトル
Figure 0005642882
とを推定する。重みベクトルの推定は、以下のように表され得る。
Figure 0005642882
スペクトル基底ベクトルの推定は、以下のように表され得る。
Figure 0005642882
音響信号を受信するように構成された2つ以上のマイクロフォンのアレイを有するポータブルオーディオ感知デバイス内で本明細書で説明する方法を実行することが望ましいことがある。そのようなアレイを含むように実装され得、オーディオ記録および/またはボイス通信適用例のために使用され得るポータブルオーディオ感知デバイスの例には、電話ハンドセット(たとえば、セルラー電話ハンドセット)、ワイヤードまたはワイヤレスヘッドセット(たとえば、Bluetooth(登録商標)ヘッドセット)、ハンドヘルドオーディオおよび/またはビデオレコーダ、オーディオおよび/またはビデオコンテンツを記録するように構成されたパーソナルメディアプレーヤ、携帯情報端末(PDA)または他のハンドヘルドコンピューティングデバイス、およびノートブックコンピュータ、ラップトップコンピュータ、ネットブックコンピュータ、タブレットコンピュータ、または他のポータブルコンピューティングデバイスがある。ポータブルコンピューティングデバイスの種類は現在、ラップトップコンピュータ、ノートブックコンピュータ、ネットブックコンピュータ、ウルトラポータブルコンピュータ、タブレットコンピュータ、モバイルインターネットデバイス、スマートブック、およびスマートフォンなどの名称を有するデバイスを含む。そのようなデバイスは、ディスプレイスクリーンを含む上部パネルと、キーボードを含み得る下部パネルとを有し得、2つのパネルは、クラムシェルまたは他のヒンジ結合関係で接続され得る。そのようなデバイスは、上面上にタッチスクリーンディスプレイを含むタブレットコンピュータとして同様に実装され得る。そのような方法を実行するように構築され得、オーディオ記録および/またはボイス通信適用例のために使用され得るオーディオ感知デバイスの他の例には、テレビジョンディスプレイ、セットトップボックス、ならびにオーディオおよび/またはビデオ会議デバイスがある。
図47Bに、通信デバイスD20のブロック図を示す。デバイスD20は、本明細書で説明する装置A100(またはMF100)の実装形態を含むチップまたはチップセットCS10(たとえば、移動局モデム(MSM)チップセット)を含む。チップ/チップセットCS10は、装置A100またはMF100の動作の全部または一部を(たとえば、命令として)実行するように構成され得る1つまたは複数のプロセッサを含み得る。
チップ/チップセットCS10は、(たとえば、アンテナC40を介して)無線周波(RF)通信信号を受信することと、RF信号内で符号化されたオーディオ信号を復号し、(たとえば、ラウドスピーカーSP10を介して)再生することとを行うように構成された受信機を含む。チップ/チップセットCS10は、装置A100によって生成された出力信号に基づくオーディオ信号を符号化することと、符号化されたオーディオ信号を記述するRF通信信号を(たとえば、アンテナC40を介して)送信することと行うように構成された送信機をも含む。たとえば、チップ/チップセットCS10の1つまたは複数のプロセッサは、符号化されたオーディオ信号が分解された信号に基づくように、マルチチャネルオーディオ入力信号の1つまたは複数のチャネルに対して上記で説明した分解演算を実行するように構成され得る。この例では、デバイスD20はまた、ユーザ制御と対話とをサポートするためのキーパッドC10とディスプレイC20とを含む。
図48に、デバイスD20のインスタンスとして実装され得るハンドセットH100(たとえば、スマートフォン)の前面図、後面図、および側面図を示す。ハンドセットH100は、前面上に構成された3つのマイクロフォンMF10、MF20、およびMF30と、後面上に構成された2つのマイクロフォンMR10およびMR20とカメラレンズL10とを含む。ラウドスピーカーLS10は、マイクロフォンMF10の近くの前面の上部中央に構成され、(たとえば、スピーカーフォン適用例のための)2つの他のラウドスピーカーLS20L、LS20Rも設けられる。そのようなハンドセットのマイクロフォン間の最大距離は、一般に約10または12センチメートルである。本明細書で開示するシステム、方法、および装置の適用範囲は、本明細書で言及する特定の例に限定されないことが明確に開示される。
本明細書で開示した方法および装置は、概して任意の送受信および/またはオーディオ感知適用例において適用され、そのような適用例のモバイルまたは場合によってはポータブルインスタンスを含み、および/または遠距離音源からの信号成分を感知し得る。たとえば、本明細書で開示した構成の範囲は、符号分割多元接続(CDMA)無線インターフェースを採用するように構成されたワイヤレステレフォニー通信システム中に常駐する通信デバイスを含む。とはいえ、本明細書で説明した特徴を有する方法および装置は、ワイヤードおよび/またはワイヤレス(たとえば、CDMA、TDMA、FDMA、および/またはTD−SCDMA)送信チャネルを介したボイスオーバIP(VoIP)を採用するシステムなど、当業者に知られている広範囲の技術を採用する様々な通信システムのいずれにも常駐し得ることが、当業者には理解されよう。
本明細書で開示した通信デバイスは、パケット交換式であるネットワーク(たとえば、VoIPなどのプロトコルに従ってオーディオ送信を搬送するように構成されたワイヤードおよび/またはワイヤレスネットワーク)および/または回線交換式であるネットワークにおける使用に適応され得ることが明確に企図され、本明細書によって開示される。また、本明細書で開示した通信デバイスは、狭帯域コーディングシステム(たとえば、約4または5キロヘルツの可聴周波数範囲を符号化するシステム)での使用、ならびに/あるいは全帯域広帯域コーディングシステムおよびスプリットバンド広帯域コーディングシステムを含む、広帯域コーディングシステム(たとえば、5キロヘルツを超える可聴周波数を符号化するシステム)での使用に適応され得ることが明確に企図され、本明細書によって開示される。
説明した構成の上記の提示は、本明細書で開示した方法および他の構造を当業者が製造または使用できるように与えたものである。本明細書で図示および説明したフローチャート、ブロック図、および他の構造は例にすぎず、これらの構造の他の変形態も本開示の範囲内である。これらの構成に対する様々な変更が可能であり、本明細書で提示した一般原理は他の構成にも同様に適用され得る。したがって、本開示は、上記に示した構成に限定されるものではなく、原開示の一部をなす、出願した添付の特許請求の範囲を含む、本明細書において任意の方法で開示した原理および新規の特徴に一致する最も広い範囲が与えられるべきである。
情報および信号は、多種多様な技術および技法のいずれかを使用して表され得ることを当業者なら理解されよう。たとえば、上記の説明全体にわたって言及され得るデータ、命令、コマンド、情報、信号、ビット、およびシンボルは、電圧、電流、電磁波、磁界または磁性粒子、光場または光学粒子、あるいはそれらの任意の組合せによって表され得る。
本明細書で開示した構成の実装形態の重要な設計要件は、圧縮されたオーディオもしくはオーディオビジュアル情報(たとえば、本明細書で識別される例のうちの1つなど、圧縮形式に従って符号化されるファイルまたはストリーム)の再生などの計算集約的適用例、または広帯域通信(たとえば、12、16、44.1、48、または192kHzなど、8キロヘルツよりも高いサンプリングレートにおけるボイス通信)の適用例では特に、(一般に百万命令毎秒またはMIPSで測定される)処理遅延および/または計算複雑さを最小にすることを含み得る。
マルチマイクロフォン処理システムの目的は、全体で10〜12dBの雑音低減を達成すること、所望の話者の移動中にボイスレベルおよびカラーを保持すること、アグレッシブな雑音除去の代わりに雑音が背景に移動されたという知覚を得ること、音声の残響除去、および/またはよりアグレッシブな雑音低減のための後処理のオプションを可能にすることを含み得る。
本明細書で開示した装置(たとえば、装置A100、A300、A310、A700、およびMF100)は、意図された適用例に好適と見なされる、ソフトウェアとの、および/またはファームウェアとのハードウェアの任意の組合せで実装され得る。たとえば、そのような装置の要素は、たとえば、同じチップ上に、またはチップセット中の2つ以上のチップ間に常駐する電子デバイスおよび/または光デバイスとして作製され得る。そのようなデバイスの一例は、トランジスタまたは論理ゲートなどの論理要素の固定アレイまたはプログラマブルアレイであり、これらの要素のいずれも1つまたは複数のそのようなアレイとして実装され得る。これらの装置の要素のうちの任意の2つ以上、さらにはすべてが、同じ1つまたは複数のアレイ内に実装され得る。そのような1つまたは複数のアレイは、1つまたは複数のチップ内(たとえば、2つ以上のチップを含むチップセット内)に実装され得る。
本明細書で開示した装置の様々な実装形態の1つまたは複数の要素は、全体または一部が、マイクロプロセッサ、組込みプロセッサ、IPコア、デジタル信号プロセッサ、FPGA(フィールドプログラマブルゲートアレイ)、ASSP(特定用途向け標準製品)、およびASIC(特定用途向け集積回路)など、論理要素の1つまたは複数の固定アレイまたはプログラマブルアレイ上で実行するように構成された命令の1つまたは複数のセットとしても実装され得る。本明細書で開示した装置の実装形態の様々な要素のいずれも、1つまたは複数のコンピュータ(たとえば、「プロセッサ」とも呼ばれる、命令の1つまたは複数のセットまたはシーケンスを実行するようにプログラムされた1つまたは複数のアレイを含む機械)としても実施され得、これらの要素のうちの任意の2つ以上、さらにはすべてが、同じそのような1つまたは複数のコンピュータ内に実装され得る。
本明細書で開示したプロセッサまたは処理するための他の手段は、たとえば、同じチップ上に、またはチップセット中の2つ以上のチップ間に常駐する1つまたは複数の電子デバイスおよび/または光デバイスとして作製され得る。そのようなデバイスの一例は、トランジスタまたは論理ゲートなどの論理要素の固定アレイまたはプログラマブルアレイであり、これらの要素のいずれも1つまたは複数のそのようなアレイとして実装され得る。そのような1つまたは複数のアレイは、1つまたは複数のチップ内(たとえば、2つ以上のチップを含むチップセット内)に実装され得る。そのようなアレイの例には、マイクロプロセッサ、組込みプロセッサ、IPコア、DSP、FPGA、ASSP、およびASICなど、論理要素の固定アレイまたはプログラマブルアレイがある。本明細書で開示したプロセッサまたは処理するための他の手段は、1つまたは複数のコンピュータ(たとえば、命令の1つまたは複数のセットまたはシーケンスを実行するようにプログラムされた1つまたは複数のアレイを含む機械)あるいは他のプロセッサとしても実施され得る。本明細書で説明したプロセッサは、プロセッサが組み込まれているデバイスまたはシステム(たとえば、オーディオ感知デバイス)の別の動作に関係するタスクなど、本明細書で説明した音楽分解プロシージャに直接関係しないタスクを実行するかまたは命令の他のセットを実行するために使用することが可能である。また、本明細書で開示した方法の一部はオーディオ感知デバイスのプロセッサによって実行され、その方法の別の一部は1つまたは複数の他のプロセッサの制御下で実行されることが可能である。
本明細書で開示した構成に関して説明した様々な例示的なモジュール、論理ブロック、回路、およびテストならびに他の動作は、電子ハードウェア、コンピュータソフトウェア、またはその両方の組合せとして実装され得ることを、当業者なら諒解されよう。そのようなモジュール、論理ブロック、回路、および動作は、本明細書で開示した構成を生成するように設計された、汎用プロセッサ、デジタル信号プロセッサ(DSP)、ASICまたはASSP、FPGAまたは他のプログラマブル論理デバイス、個別ゲートまたはトランジスタ論理、個別ハードウェア構成要素、あるいはそれらの任意の組合せを用いて実装または実行され得る。たとえば、そのような構成は、少なくとも部分的に、ハードワイヤード回路として、特定用途向け集積回路へと作製された回路構成として、あるいは不揮発性記憶装置にロードされるファームウェアプログラム、または汎用プロセッサもしくは他のデジタル信号処理ユニットなどの論理要素のアレイによって実行可能な命令である機械可読コードとしてデータ記憶媒体からロードされるかもしくはデータ記憶媒体にロードされるソフトウェアプログラムとして実装され得る。汎用プロセッサはマイクロプロセッサであり得るが、代替として、プロセッサは、任意の従来のプロセッサ、コントローラ、マイクロコントローラ、または状態機械であり得る。プロセッサはまた、コンピューティングデバイスの組合せ、たとえば、DSPとマイクロプロセッサとの組合せ、複数のマイクロプロセッサ、DSPコアと連携する1つまたは複数のマイクロプロセッサ、あるいは任意の他のそのような構成として実装され得る。ソフトウェアモジュールは、RAM(ランダムアクセスメモリ)、ROM(読取り専用メモリ)、フラッシュRAMなどの不揮発性RAM(NVRAM)、消去可能プログラマブルROM(EPROM)、電気的消去可能プログラマブルROM(EEPROM)、レジスタ、ハードディスク、リムーバブルディスク、CD−ROM、または当技術分野で知られている任意の他の形態の記憶媒体中に常駐し得る。例示的な記憶媒体は、プロセッサが記憶媒体から情報を読み取り、記憶媒体に情報を書き込むことができるように、プロセッサに結合される。代替として、記憶媒体はプロセッサに一体化され得る。プロセッサおよび記憶媒体はASIC中に常駐し得る。ASICはユーザ端末中に常駐し得る。代替として、プロセッサおよび記憶媒体は、ユーザ端末中に個別構成要素として常駐し得る。
本明細書で開示した様々な方法(たとえば、方法M100、および本明細書で説明した様々な装置の動作の説明として開示した他の方法)は、プロセッサなどの論理要素のアレイによって実行され得、本明細書で説明した装置の様々な要素は、そのようなアレイ上で実行するように設計されたモジュールとして実装され得ることに留意されたい。本明細書で使用する「モジュール」または「サブモジュール」という用語は、ソフトウェア、ハードウェアまたはファームウェアの形態でコンピュータ命令(たとえば、論理式)を含む任意の方法、装置、デバイス、ユニットまたはコンピュータ可読データ記憶媒体を指すことができる。複数のモジュールまたはシステムは1つのモジュールまたはシステムに結合され得、1つのモジュールまたはシステムは、同じ機能を実行する複数のモジュールまたはシステムに分離され得ることを理解されたい。ソフトウェアまたは他のコンピュータ実行可能命令で実装されるとき、プロセスの要素は本質的に、ルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを用いて関連するタスクを実行するコードセグメントである。「ソフトウェア」という用語は、ソースコード、アセンブリ言語コード、機械コード、バイナリコード、ファームウェア、マクロコード、マイクロコード、論理要素のアレイによって実行可能な命令の1つまたは複数のセットまたはシーケンス、およびそのような例の任意の組合せを含むことを理解されたい。プログラムまたはコードセグメントは、プロセッサ可読記憶媒体に記憶され得、あるいは搬送波に埋め込まれたコンピュータデータ信号によって伝送媒体または通信リンクを介して送信され得る。
本明細書で開示した方法、方式、および技法の実装形態は、(たとえば、本明細書に記載する1つまたは複数のコンピュータ可読媒体中で)論理要素のアレイ(たとえば、プロセッサ、マイクロプロセッサ、マイクロコントローラ、または他の有限状態機械)を含む機械によって読取り可能および/または実行可能な命令の1つまたは複数のセットとしても実体的に実施され得る。「コンピュータ可読媒体」という用語は、情報を記憶または転送することができる、揮発性、不揮発性、取外し可能および取外し不可能な媒体を含む、任意の媒体を含み得る。コンピュータ可読媒体の例は、電子回路、半導体メモリデバイス、ROM、フラッシュメモリ、消去可能ROM(EROM)、フロッピー(登録商標)ディスケットまたは他の磁気ストレージ、CD−ROM/DVDまたは他の光ストレージ、ハードディスク、光ファイバー媒体、無線周波(RF)リンク、あるいは所望の情報を記憶するために使用され得、アクセスされ得る、任意の他の媒体を含む。コンピュータデータ信号は、電子ネットワークチャネル、光ファイバー、エアリンク、電磁リンク、RFリンクなどの伝送媒体を介して伝播することができるどんな信号をも含み得る。コードセグメントは、インターネットまたはイントラネットなどのコンピュータネットワークを介してダウンロードされ得る。いずれの場合も、本開示の範囲は、そのような実施形態によって限定されると解釈すべきではない。
本明細書で説明した方法のタスクの各々は、ハードウェアで直接実施され得るか、プロセッサによって実行されるソフトウェアモジュールで実施され得るか、またはその2つの組合せで実施され得る。本明細書で開示した方法の実装形態の典型的な適用例では、論理要素のアレイ(たとえば、論理ゲート)は、この方法の様々なタスクのうちの1つ、複数、さらにはすべてを実行するように構成される。タスクのうちの1つまたは複数(場合によってはすべて)は、論理要素のアレイ(たとえば、プロセッサ、マイクロプロセッサ、マイクロコントローラ、または他の有限状態機械)を含む機械(たとえば、コンピュータ)によって読取り可能および/または実行可能であるコンピュータプログラム製品(たとえば、ディスク、フラッシュメモリカードまたは他の不揮発性メモリカード、半導体メモリチップなど、1つまたは複数のデータ記憶媒体など)に埋め込まれたコード(たとえば、命令の1つまたは複数のセット)としても実装され得る。本明細書で開示した方法の実装形態のタスクは、2つ以上のそのようなアレイまたは機械によっても実行され得る。これらまたは他の実装形態では、タスクは、セルラー電話など、ワイヤレス通信用のデバイス、またはそのような通信機能を有する他のデバイス内で実行され得る。そのようなデバイスは、(たとえば、VoIPなどの1つまたは複数のプロトコルを使用して)回線交換および/またはパケット交換ネットワークと通信するように構成され得る。たとえば、そのようなデバイスは、符号化フレームを受信および/または送信するように構成されたRF回路を含み得る。
本明細書で開示した様々な方法は、ハンドセット、ヘッドセット、または携帯情報端末(PDA)などのポータブル通信デバイスによって実行され得、本明細書で説明した様々な装置は、そのようなデバイス内に含まれ得ることが明確に開示される。典型的なリアルタイム(たとえば、オンライン)適用例は、そのようなモバイルデバイスを使用して行われる電話会話である。
1つまたは複数の例示的な実施形態では、本明細書で説明した動作は、ハードウェア、ソフトウェア、ファームウェア、またはそれらの任意の組合せで実装され得る。ソフトウェアで実装する場合、そのような動作は、1つまたは複数の命令またはコードとしてコンピュータ可読媒体に記憶され得るか、あるいはコンピュータ可読媒体を介して送信され得る。「コンピュータ可読媒体」という用語は、コンピュータ可読記憶媒体と通信(たとえば、伝送)媒体の両方を含む。限定ではなく例として、コンピュータ可読記憶媒体は、(限定はしないが、ダイナミックまたはスタティックRAM、ROM、EEPROM、および/またはフラッシュRAMを含み得る)半導体メモリ、または強誘電体メモリ、磁気抵抗メモリ、オボニックメモリ、高分子メモリ、または相変化メモリなどの記憶要素のアレイ、CD−ROMまたは他の光ディスクストレージ、ならびに/あるいは磁気ディスクストレージまたは他の磁気ストレージデバイスを備えることができる。そのような記憶媒体は、コンピュータによってアクセスされ得る命令またはデータ構造の形態で情報を記憶し得る。通信媒体は、ある場所から別の場所へのコンピュータプログラムの転送を可能にする任意の媒体を含む、命令またはデータ構造の形態で所望のプログラムコードを搬送するために使用され得、コンピュータによってアクセスされ得る、任意の媒体を備えることができる。また、いかなる接続もコンピュータ可読媒体と適切に呼ばれる。たとえば、ソフトウェアが、同軸ケーブル、光ファイバーケーブル、ツイストペア、デジタル加入者回線(DSL)、または赤外線、無線、および/またはマイクロ波などのワイヤレス技術を使用して、ウェブサイト、サーバ、または他のリモートソースから送信される場合、同軸ケーブル、光ファイバーケーブル、ツイストペア、DSL、または赤外線、無線、および/またはマイクロ波などのワイヤレス技術は、媒体の定義に含まれる。本明細書で使用するディスク(disk)およびディスク(disc)は、コンパクトディスク(disc)(CD)、レーザディスク(disc)、光ディスク(disc)、デジタル多用途ディスク(disc)(DVD)、フロッピーディスク(disk)およびBlu−ray(登録商標) Disc(Blu−Ray Disc Association、ユニヴァーサルシティー、CA)を含み、ディスク(disk)は、通常、データを磁気的に再生し、ディスク(disc)はデータをレーザで光学的に再生する。上記の組合せもコンピュータ可読媒体の範囲内に含めるべきである。
本明細書で説明した音響信号処理装置(たとえば、装置A100またはMF100)は、いくつかの動作を制御するために音声入力を受容し、あるいは背景雑音から所望の雑音を分離することから利益を得ることがある、通信デバイスなどの電子デバイスに組み込まれ得る。多くの適用例では、複数の方向から発生した背景音から明瞭な所望の音を強調または分離することから利益を得ることがある。そのような適用例は、ボイス認識および検出、音声強調および分離、ボイスアクティブ化制御などの機能を組み込んだ電子デバイスまたはコンピューティングデバイスにおける人間機械インターフェースを含み得る。限られた処理機能のみを与えるデバイスに適したそのような音響信号処理装置を実装することが望ましいことがある。
本明細書で説明したモジュール、要素、およびデバイスの様々な実装形態の要素は、たとえば、同じチップ上にまたはチップセット中の2つ以上のチップ間に常駐する電子デバイスおよび/または光デバイスとして作製され得る。そのようなデバイスの一例は、トランジスタまたはゲートなど、論理要素の固定アレイまたはプログラマブルアレイである。本明細書で説明した装置の様々な実装形態の1つまたは複数の要素は、全体または一部が、マイクロプロセッサ、組込みプロセッサ、IPコア、デジタル信号プロセッサ、FPGA、ASSP、およびASICなど、論理要素の1つまたは複数の固定アレイまたはプログラマブルアレイ上で実行するように構成された命令の1つまたは複数のセットとしても実装され得る。
本明細書で説明した装置の実装形態の1つまたは複数の要素は、その装置が組み込まれているデバイスまたはシステムの別の動作に関係するタスクなど、装置の動作に直接関係しないタスクを実施するために、または装置の動作に直接関係しない命令の他のセットを実行するために使用されることが可能である。また、そのような装置の実装形態の1つまたは複数の要素は、共通の構造(たとえば、異なる要素に対応するコードの部分を異なる時間に実行するために使用されるプロセッサ、異なる要素に対応するタスクを異なる時間に実施するために実行される命令のセット、あるいは、異なる要素向けの動作を異なる時間に実施する電子デバイスおよび/または光デバイスの構成)を有することが可能である。
以下に、本願出願時に最初に添付した特許請求の範囲に記載された発明を付記する。
[1] オーディオ信号を分解する方法であって、前記方法は、 前記オーディオ信号の時間的な複数のセグメントの各々について、周波数範囲にわたる対応する信号表現を計算することと、 前記複数の計算された信号表現と複数の基底関数とに基づいて、アクティブ化係数のベクトルを計算することと、を備え、 前記ベクトルの各アクティブ化係数は、前記複数の基底関数のうちの異なる基底関数に対応し、 前記複数の基底関数の各々は、前記周波数範囲にわたる第1の対応する信号表現と、前記第1の対応する信号表現とは異なる、前記周波数範囲にわたる第2の対応する信号表現と、を備える、方法。
[2] 前記複数のセグメントのうちの少なくとも1つについて、(A)200ヘルツを上回る周波数における総エネルギーと(B)前記周波数範囲にわたる総エネルギーとの比が、前記対応するセグメントにおけるよりも前記計算された対応する信号表現において高い、[1]に記載の方法。
[3] 前記複数のセグメントのうちの少なくとも1つについて、前記計算された対応する信号表現における変調のレベルは、前記対応するセグメントにおける前記変調のレベルよりも低く、 前記変調が、振幅変調とピッチ変調とのうちの少なくとも1つである、[1]および[2]のいずれか一に記載の方法。
[4] 前記複数のセグメントのうちの前記少なくとも1つについて、前記対応する信号表現を前記計算することは、前記変調の前記レベルの測定を記録することを備える、[3]に記載の方法。
[5] 前記ベクトルの前記アクティブ化係数の少なくとも50パーセントが0値である、[1]から[4]のいずれか一に記載の方法。
[6] アクティブ化係数の前記ベクトルを前記計算することは、Bf=yの形の連立一次方程式の解を計算することを備え、 yは、前記複数の計算された信号表現を含むベクトルであり、 Bは、前記複数の基底関数を含む行列であり、 fはアクティブ化係数の前記ベクトルである、 [1]から[5]のいずれか一に記載の方法。
[7] アクティブ化係数の前記ベクトルを前記計算することは、アクティブ化係数の前記ベクトルのL1ノルムを最小限に抑えることを備える、[1]から[6]のいずれか一に記載の方法。
[8] 前記複数のセグメントのうちの少なくとも1つは、前記複数のセグメントの中にない前記オーディオ信号の少なくとも1つのセグメントによって前記オーディオ信号中で前記複数のセグメントの互いのセグメントから分離される、[1]から[7]のいずれか一に記載の方法。
[9] 前記複数の基底関数の各基底関数について、 前記第1の対応する信号表現は、前記周波数範囲にわたる対応する楽器の第1の音色を記述し、 前記第2の対応する信号表現は、前記第1の音色とは異なる、前記周波数範囲にわたる前記対応する楽器の第2の音色を記述する、[1]から[8]のいずれか一に記載の方法。
[10] 前記複数の基底関数の各基底関数について、 前記第1の音色は、対応するノートの第1の時間間隔中の音色であり、 前記第1の音色が、前記第1の時間間隔とは異なる、前記対応するノートの第2の時間間隔中の音色である、[9]に記載の方法。
[11] 前記複数のセグメントの各々について、前記対応する信号表現は、対応する周波数領域ベクトルに基づく、[1]から[10]のいずれか一に記載の方法。
[12] 前記方法は、アクティブ化係数の前記ベクトルを前記計算することより前に、前記複数のセグメントのうちの少なくとも1つからの情報に基づいて、基底関数のより大きいセットから前記複数の基底関数を選択することを備える、[1]から[11]のいずれか一に記載の方法。
[13] 前記方法は、 前記複数のセグメントのうちの少なくとも1つについて、非線形周波数領域における対応する信号表現を計算することと、 アクティブ化係数の前記ベクトルを前記計算することより前に、前記非線形周波数領域における前記計算された信号表現と、第2の複数の基底関数とに基づいて、アクティブ化係数の第2のベクトルを計算することと、を備え、 前記第2の複数の基底関数の各々は、前記非線形周波数領域における対応する信号表現を備える、[1]から[12]のいずれか一に記載の方法。
[14] 前記方法は、アクティブ化係数の前記計算された第2のベクトルからの情報に基づいて、基底関数のインベントリの中から前記複数の基底関数を選択することを備える、[13]に記載の方法。
[15] オーディオ信号を分解するための装置であって、前記装置は、 前記オーディオ信号の時間的な複数のセグメントの各々について、周波数範囲にわたる対応する信号表現を計算するための手段と、 前記複数の計算された信号表現と複数の基底関数とに基づいて、アクティブ化係数のベクトルを計算するための手段と、を備え、 前記ベクトルの各アクティブ化係数は、前記複数の基底関数のうちの異なる基底関数に対応し、 前記複数の基底関数の各々は、前記周波数範囲にわたる第1の対応する信号表現と、前記第1の対応する信号表現とは異なる、前記周波数範囲にわたる第2の対応する信号表現と、を備える、装置。
[16] 前記複数のセグメントのうちの少なくとも1つについて、(A)200ヘルツを上回る周波数における総エネルギーと(B)前記周波数範囲にわたる総エネルギーとの比が、前記対応するセグメントにおけるよりも前記計算された対応する信号表現において高い、[15]に記載の装置。
[17] 前記複数のセグメントのうちの少なくとも1つについて、前記計算された対応する信号表現における変調のレベルは、前記対応するセグメントにおける前記変調のレベルよりも低く、 前記変調は、振幅変調とピッチ変調とのうちの少なくとも1つである、[15]に記載の装置。
[18] 前記対応する信号表現を計算するための前記手段は、前記複数のセグメントのうちの前記少なくとも1つについて、前記変調の前記レベルの測定を記録するための手段を備える、[17]に記載の装置。
[19] 前記ベクトルの前記アクティブ化係数の少なくとも50パーセントが0値である、[15]に記載の装置。
[20] アクティブ化係数の前記ベクトルを計算するための前記手段は、Bf=yの形の連立一次方程式の解を計算するための手段を備え、 yは、前記複数の計算された信号表現を含むベクトルであり、 Bは、前記複数の基底関数を含む行列であり、 fは、アクティブ化係数の前記ベクトルである、[15]に記載の装置。
[21] アクティブ化係数の前記ベクトルを計算するための前記手段は、アクティブ化係数の前記ベクトルのL1ノルムを最小限に抑えるための手段を備える、[15]に記載の装置。
[22] 前記複数のセグメントのうちの少なくとも1つは、前記複数のセグメントの中にない前記オーディオ信号の少なくとも1つのセグメントによって前記オーディオ信号中で前記複数のセグメントの互いのセグメントから分離される、[15]に記載の装置。
[23] 前記複数の基底関数の各基底関数について、 前記第1の対応する信号表現は、前記周波数範囲にわたる対応する楽器の第1の音色を記述し、 前記第2の対応する信号表現は、前記第1の音色とは異なる、前記周波数範囲にわたる前記対応する楽器の第2の音色を記述する、[15]に記載の装置。
[24] 前記複数の基底関数の各基底関数について、 前記第1の音色は、対応するノートの第1の時間間隔中の音色であり、 前記第1の音色は、前記第1の時間間隔とは異なる、前記対応するノートの第2の時間間隔中の音色である、[23]に記載の装置。
[25] 前記複数のセグメントの各々について、前記対応する信号表現は、対応する周波数領域ベクトルに基づく、[15]に記載の装置。
[26] 前記装置は、アクティブ化係数の前記ベクトルを前記計算することより前に、前記複数のセグメントのうちの少なくとも1つからの情報に基づいて、基底関数のより大きいセットから前記複数の基底関数を選択するための手段を備える、[15]に記載の装置。
[27] 基底関数のより大きいセットから前記複数の基底関数を選択するための前記手段は、 前記複数のセグメントのうちの少なくとも1つについて、非線形周波数領域における対応する信号表現を計算するための手段と、 アクティブ化係数の前記ベクトルを前記計算することより前に、前記非線形周波数領域における前記計算された信号表現と、第2の複数の基底関数とに基づいて、アクティブ化係数の第2のベクトルを計算するための手段と、を備え、 前記第2の複数の基底関数の各々は、前記非線形周波数領域における対応する信号表現を備える、[15]に記載の装置。
[28] 前記装置は、アクティブ化係数の前記計算された第2のベクトルからの情報に基づいて、基底関数のインベントリの中から前記複数の基底関数を選択するための手段を備える、[27]に記載の装置。
[29] オーディオ信号を分解するための装置であって、前記装置は、 前記オーディオ信号の時間的な複数のセグメントの各々について、周波数範囲にわたる対応する信号表現を計算するように構成された変換モジュールと、 前記複数の計算された信号表現と複数の基底関数とに基づいて、アクティブ化係数のベクトルを計算するように構成された係数ベクトル計算器と、を備え、 前記ベクトルの各アクティブ化係数は、前記複数の基底関数のうちの異なる基底関数に対応し、 前記複数の基底関数の各々は、前記周波数範囲にわたる第1の対応する信号表現と、前記第1の対応する信号表現とは異なる、前記周波数範囲にわたる第2の対応する信号表現とを備える、装置。
[30] 前記複数のセグメントのうちの少なくとも1つについて、(A)200ヘルツを上回る周波数における総エネルギーと(B)前記周波数範囲にわたる総エネルギーとの比が、前記対応するセグメントにおけるよりも前記計算された対応する信号表現において高い、[29]に記載の装置。
[31] 前記複数のセグメントのうちの少なくとも1つについて、前記計算された対応する信号表現における変調のレベルは、前記対応するセグメントにおける前記変調のレベルよりも低く、 前記変調は、振幅変調とピッチ変調とのうちの少なくとも1つである、[29]に記載の装置。
[32] 前記装置は、前記複数のセグメントのうちの前記少なくとも1つについて、前記変調の前記レベルの測定を計算するように構成された変調レベル計算器を含む、[31]に記載の装置。
[33] 前記ベクトルの前記アクティブ化係数の少なくとも50パーセントが0値である、[29]に記載の装置。
[34] 前記係数ベクトル計算器は、Bf=yの形の連立一次方程式の解を計算するように構成され、 yは、前記複数の計算された信号表現を含むベクトルであり、 Bは、前記複数の基底関数を含む行列であり、 fは、アクティブ化係数の前記ベクトルである、[29]に記載の装置。
[35] 前記係数ベクトル計算器は、アクティブ化係数の前記ベクトルのL1ノルムを最小限に抑えるように構成された、[29]に記載の装置。
[36] 前記複数のセグメントのうちの少なくとも1つは、前記複数のセグメントの中にない前記オーディオ信号の少なくとも1つのセグメントによって前記オーディオ信号中で前記複数のセグメントの互いのセグメントから分離される、[29]に記載の装置。
[37] 前記複数の基底関数の各基底関数について、 前記第1の対応する信号表現は、前記周波数範囲にわたる対応する楽器の第1の音色を記述し、 前記第2の対応する信号表現は、前記第1の音色とは異なる、前記周波数範囲にわたる前記対応する楽器の第2の音色を記述する、[29]に記載の装置。
[38] 前記複数の基底関数の各基底関数について、 前記第1の音色は、対応するノートの第1の時間間隔中の音色であり、 前記第1の音色は、前記第1の時間間隔とは異なる、前記対応するノートの第2の時間間隔中の音色である、[37]に記載の装置。
[39] 前記複数のセグメントの各々について、前記対応する信号表現は、対応する周波数領域ベクトルに基づく、[29]に記載の装置。
[40] 前記装置は、アクティブ化係数の前記ベクトルを前記計算することより前に、前記複数のセグメントのうちの少なくとも1つからの情報に基づいて、基底関数のより大きいセットから前記複数の基底関数を選択するように構成されたインベントリ低減モジュールを備える、[29]に記載の装置。
[41] 前記インベントリ低減モジュールは、 前記複数のセグメントのうちの少なくとも1つについて、非線形周波数領域における対応する信号表現を計算するように構成された第2の変換モジュールと、 アクティブ化係数の前記ベクトルを前記計算することより前に、前記非線形周波数領域における前記計算された信号表現と、第2の複数の基底関数とに基づいて、アクティブ化係数の第2のベクトルを計算するように構成された第2の係数ベクトル計算器と、を備え、 前記第2の複数の基底関数の各々は、前記非線形周波数領域における対応する信号表現を備える、[29]に記載の装置。
[42] 前記装置は、アクティブ化係数の前記計算された第2のベクトルからの情報に基づいて、基底関数のインベントリの中から前記複数の基底関数を選択するように構成された基底関数セレクタを備える、[41]に記載の装置。
[43] 機械によって読み取られたとき、前記機械に[1]から[14]のいずれか一に記載の方法を実行させる実体的な特徴を備える機械可読記憶媒体。

Claims (40)

  1. オーディオ信号を分解する方法であって、前記オーディオ信号は、一連のノートとしてモデル化され、前記ノートは、オンセット段階、定常段階、およびオフセット段階を含む、時間的に異なる時間領域に分割され、前記方法は、
    前記オーディオ信号の時間的な複数のセグメントの各々について、周波数範囲にわたる対応する信号表現を計算することと、
    前記複数の計算された信号表現と、前記オーディオ信号を分解するための複数の基底関数とに基づいて、前記オーディオ信号の少なくとも選択された部分を再構成するためのアクティブ化係数のベクトルを計算することと、を備え、
    前記ベクトルの各アクティブ化係数は、前記複数の基底関数のうちの異なる基底関数に対応し、
    前記複数の基底関数の各々は、各々が前記ノートの前記異なる領域に対応する音色を表す、前記周波数範囲にわたる第1の対応する信号表現と記周波数範囲にわたる第2の対応する信号表現とを備え、前記ノートの前記異なる領域の前記音色に関係する情報は、基底関数が時間に対する前記音色の変化に基づいて選択されるように、前記複数の基底関数に符号化される、方法。
  2. 前記計算された対応する信号表現において、(A)200ヘルツを上回る周波数における総エネルギーと(B)前記周波数範囲にわたる総エネルギーとの比を増加させるために前記複数のセグメントのうちの少なくとも1つの前記オーディオ信号の200ヘルツを上回る高周波領域をプリエンファシスすることをさらに備える、請求項1に記載の方法。
  3. カラーレーション効果を検出するために、周波数領域または時間領域における前記オーディオ信号でのエネルギーピークを検出することをさらに備える、請求項1および2のいずれか一項に記載の方法。
  4. 前記複数のセグメントのうちの前記少なくとも1つについて、前記エネルギーピークを検出することは、前記対応する信号表現を計算することと、変調のレベルの測度を記録することを備える、請求項3に記載の方法。
  5. 前記ベクトルの前記アクティブ化係数の少なくとも50パーセントが0値である、請求項1から4のいずれか一項に記載の方法。
  6. アクティブ化係数の前記ベクトルを前記計算することは、Bf=yの形の連立一次方程式の解を計算することを備え、
    yは、前記複数の計算された信号表現を含むベクトルであり、
    Bは、前記複数の基底関数を含む行列であり、
    fは、アクティブ化係数の前記ベクトルである、請求項1から5のいずれか一項に記載の方法。
  7. アクティブ化係数の前記ベクトルを前記計算することは、アクティブ化係数の前記ベクトルのL1ノルムを最小限に抑えることを備える、請求項1から6のいずれか一項に記載の方法。
  8. 前記複数のセグメントのうちの少なくとも1つは、前記複数のセグメントの中にない前記オーディオ信号の少なくとも1つのセグメントによって前記オーディオ信号中で前記複数のセグメントの互いのセグメントから分離される、請求項1から7のいずれか一項に記載の方法。
  9. 前記複数の基底関数の各基底関数について、
    前記第1の対応する信号表現は、前記周波数範囲にわたる対応する楽器の第1の音色を記述し、
    前記第2の対応する信号表現は、前記第1の音色とは異なる、前記周波数範囲にわたる同じ対応する楽器の第2の音色を記述する、請求項1から8のいずれか一項に記載の方法。
  10. 前記複数のセグメントの各々について、前記対応する信号表現は、対応する周波数領域ベクトルに基づく、請求項1からのいずれか一項に記載の方法。
  11. 前記方法は、アクティブ化係数の前記ベクトルを前記計算することより前に、前記複数のセグメントのうちの少なくとも1つからの情報に基づいて、基底関数のより大きいセットから前記複数の基底関数を選択することを備える、請求項1から10のいずれか一項に記載の方法。
  12. 前記方法は、
    前記複数のセグメントのうちの少なくとも1つについて、非線形周波数領域における対応する信号表現を計算することと、
    アクティブ化係数の前記ベクトルを前記計算することより前に、前記非線形周波数領域における前記計算された信号表現と、第2の複数の基底関数とに基づいて、アクティブ化係数の第2のベクトルを計算することと、を備え、
    前記第2の複数の基底関数の各々は、前記非線形周波数領域における対応する信号表現を備える、請求項1から11のいずれか一項に記載の方法。
  13. 前記方法は、アクティブ化係数の前記計算された第2のベクトルからの情報に基づいて、基底関数のインベントリの中から前記複数の基底関数を選択することを備える、請求項12に記載の方法。
  14. オーディオ信号を分解するための装置であって、前記オーディオ信号は、一連のノートとしてモデル化され、前記ノートは、オンセット段階、定常段階、およびオフセット段階を含む、時間的に異なる時間領域に分割され、前記装置が、
    前記オーディオ信号の時間的な複数のセグメントの各々について、周波数範囲にわたる対応する信号表現を計算するための手段と、
    前記複数の計算された信号表現と、前記オーディオ信号を分解するための複数の基底関数とに基づいて、前記オーディオ信号の少なくとも選択された部分を再構成するためのアクティブ化係数のベクトルを計算するための手段と、を備え、
    前記ベクトルの各アクティブ化係数は、前記複数の基底関数のうちの異なる基底関数に対応し、
    前記複数の基底関数の各々は、各々が前記ノートの前記異なる領域に対応する音色を表す、前記周波数範囲にわたる第1の対応する信号表現と記周波数範囲にわたる第2の対応する信号表現とを備え、前記ノートの前記異なる領域の前記音色に関係する情報は、基底関数が時間に対する前記音色の変化に基づいて選択されるように、前記複数の基底関数に符号化される、装置。
  15. 前記計算された対応する信号表現において、(A)200ヘルツを上回る周波数における総エネルギーと(B)前記周波数範囲にわたる総エネルギーとの比を増加させるために前記複数のセグメントのうちの少なくとも1つの前記オーディオ信号の200ヘルツを上回る高周波領域をプリエンファシスすることをさらに備える、請求項14に記載の装置。
  16. カラーレーション効果を検出するために、周波数領域または時間領域における前記オーディオ信号でのエネルギーピークを検出するための手段をさらに備える、請求項14に記載の装置。
  17. 前記複数のセグメントのうちの前記少なくとも1つについて、前記エネルギーピークを検出するための手段は、前記対応する信号表現を計算するための手と、変調のレベルの測度を記録するための手段を備える、請求項16に記載の装置。
  18. 前記ベクトルの前記アクティブ化係数の少なくとも50パーセントが0値である、請求項14に記載の装置。
  19. アクティブ化係数の前記ベクトルを計算するための前記手段は、Bf=yの形の連立一次方程式の解を計算するための手段を備え、
    yは、前記複数の計算された信号表現を含むベクトルであり、
    Bは、基底関数の前記複数を含む行列であり、
    fは、アクティブ化係数の前記ベクトルである、請求項14に記載の装置。
  20. アクティブ化係数の前記ベクトルを計算するための前記手段は、アクティブ化係数の前記ベクトルのL1ノルムを最小限に抑えるための手段を備える、請求項14に記載の装置。
  21. 前記複数のセグメントのうちの少なくとも1つは、前記複数のセグメントの中にない前記オーディオ信号の少なくとも1つのセグメントによって前記オーディオ信号中で前記複数のセグメントの互いのセグメントから分離される、請求項14に記載の装置。
  22. 前記複数の基底関数の各基底関数について、
    前記第1の対応する信号表現は、前記周波数範囲にわたる対応する楽器の第1の音色を記述し、
    前記第2の対応する信号表現は、前記第1の音色とは異なる、前記周波数範囲にわたる前記対応する楽器の第2の音色を記述する、請求項14に記載の装置。
  23. 前記複数のセグメントの各々について、前記対応する信号表現は、対応する周波数領域ベクトルに基づく、請求項14に記載の装置。
  24. 前記装置が、アクティブ化係数の前記ベクトルを前記計算することより前に、前記複数のセグメントのうちの少なくとも1つからの情報に基づいて、基底関数のより大きいセットから前記複数の基底関数を選択するための手段を備える、請求項14に記載の装置。
  25. 基底関数のより大きいセットから前記複数の基底関数を選択するための前記手段は、
    前記複数のセグメントのうちの少なくとも1つについて、非線形周波数領域における対応する信号表現を計算するための手段と、
    アクティブ化係数の前記ベクトルを前記計算することより前に、前記非線形周波数領域における前記計算された信号表現と、第2の複数の基底関数とに基づいて、アクティブ化係数の第2のベクトルを計算するための手段と、を備え、
    前記第2の複数の基底関数の各々は、前記非線形周波数領域における対応する信号表現を備える、請求項14に記載の装置。
  26. 前記装置が、アクティブ化係数の前記計算された第2のベクトルからの情報に基づいて、基底関数のインベントリの中から前記複数の基底関数を選択するための手段を備える、請求項25に記載の装置。
  27. オーディオ信号を分解するための装置であって、前記オーディオ信号は、一連のノートとしてモデル化され、前記ノートは、オンセット段階、定常段階、およびオフセット段階を含む、時間的に異なる時間領域に分割され、前記装置は、
    前記オーディオ信号の時間的な複数のセグメントの各々について、周波数範囲にわたる対応する信号表現を計算するように構成された変換モジュールと、
    前記複数の計算された信号表現と、前記オーディオ信号を分解するための複数の基底関数とに基づいて、前記オーディオ信号の少なくとも選択された部分を再構成するためのアクティブ化係数のベクトルを計算するように構成された係数ベクトル計算器と、を備え、
    前記ベクトルの各アクティブ化係数は、前記複数の基底関数のうちの異なる基底関数に対応し、
    前記複数の基底関数の各々は、各々が前記ノートの前記異なる領域に対応する音色を表す、前記周波数範囲にわたる第1の対応する信号表現と記周波数範囲にわたる第2の対応する信号表現とを備え、前記ノートの前記異なる領域の前記音色に関係する情報は、基底関数が時間に対する前記音色の変化に基づいて選択されるように、前記複数の基底関数に符号化される、装置。
  28. 前記計算された対応する信号表現において、(A)200ヘルツを上回る周波数における総エネルギーと(B)前記周波数範囲にわたる総エネルギーとの比を増加させるために前記複数のセグメントのうちの少なくとも1つの前記オーディオ信号の200ヘルツを上回る高周波領域をプリエンファシスするためのプリエンファシスフィルタをさらに備える、請求項27に記載の装置。
  29. カラーレーション効果を検出するために、周波数領域または時間領域における前記オーディオ信号でのエネルギーピークを検出するための変調レベル計算器をさらに備える、請求項27に記載の装置。
  30. 前記変調レベル計算器は、前記複数のセグメントのうちの前記少なくとも1つについて、変調のレベルの測度を計算するように構成され、請求項29に記載の装置。
  31. 前記ベクトルの前記アクティブ化係数の少なくとも50パーセントが0値である、請求項27に記載の装置。
  32. 前記係数ベクトル計算器は、Bf=yの形の連立一次方程式の解を計算するように構成され、
    yは、前記複数の計算された信号表現を含むベクトルであり、
    Bは、前記複数の基底関数を含む行列であり、
    fは、アクティブ化係数の前記ベクトルである、請求項27に記載の装置。
  33. 前記係数ベクトル計算器が、アクティブ化係数の前記ベクトルのL1ノルムを最小限に抑えるように構成された、請求項27に記載の装置。
  34. 前記複数のセグメントのうちの少なくとも1つは、前記複数のセグメントの中にない前記オーディオ信号の少なくとも1つのセグメントによって前記オーディオ信号中で前記複数のセグメントの互いのセグメントから分離される、請求項27に記載の装置。
  35. 前記複数の基底関数の各基底関数について、
    前記第1の対応する信号表現は、前記周波数範囲にわたる対応する楽器の第1の音色を記述し、
    前記第2の対応する信号表現は、前記第1の音色とは異なる、前記周波数範囲にわたる前記対応する楽器の第2の音色を記述する、請求項27に記載の装置。
  36. 前記複数のセグメントの各々について、前記対応する信号表現は、対応する周波数領域ベクトルに基づく、請求項27に記載の装置。
  37. 前記装置は、アクティブ化係数の前記ベクトルを前記計算することより前に、前記複数のセグメントのうちの少なくとも1つからの情報に基づいて、基底関数のより大きいセットから前記複数の基底関数を選択するように構成されたインベントリ低減モジュールを備える、請求項27に記載の装置。
  38. 前記インベントリ低減モジュールは、
    前記複数のセグメントのうちの少なくとも1つについて、非線形周波数領域における対応する信号表現を計算するように構成された第2の変換モジュールと、
    アクティブ化係数の前記ベクトルを前記計算することより前に、前記非線形周波数領域における前記計算された信号表現と、第2の複数の基底関数とに基づいて、アクティブ化係数の第2のベクトルを計算するように構成された第2の係数ベクトル計算器と、を備え、
    前記第2の複数の基底関数の各々は、前記非線形周波数領域における対応する信号表現を備える、請求項37に記載の装置。
  39. 前記装置は、アクティブ化係数の前記計算された第2のベクトルからの情報に基づいて、基底関数のインベントリの中から前記複数の基底関数を選択するように構成された基底関数セレクタを備える、請求項38に記載の装置。
  40. 機械によって読み取られたとき、前記機械に請求項1から13のいずれか一項に記載の方法を実行させる実体的な特徴を備える機械可読記憶媒体。
JP2013536730A 2010-10-25 2011-10-25 時間展開情報をもつ基底関数を使用する音楽信号の分解 Expired - Fee Related JP5642882B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US40637610P 2010-10-25 2010-10-25
US61/406,376 2010-10-25
US13/280,295 2011-10-24
US13/280,295 US8805697B2 (en) 2010-10-25 2011-10-24 Decomposition of music signals using basis functions with time-evolution information
PCT/US2011/057712 WO2012058225A1 (en) 2010-10-25 2011-10-25 Decomposition of music signals using basis functions with time-evolution information

Publications (2)

Publication Number Publication Date
JP2013546018A JP2013546018A (ja) 2013-12-26
JP5642882B2 true JP5642882B2 (ja) 2014-12-17

Family

ID=45973723

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013536730A Expired - Fee Related JP5642882B2 (ja) 2010-10-25 2011-10-25 時間展開情報をもつ基底関数を使用する音楽信号の分解

Country Status (6)

Country Link
US (1) US8805697B2 (ja)
EP (1) EP2633523B1 (ja)
JP (1) JP5642882B2 (ja)
KR (1) KR101564151B1 (ja)
CN (1) CN103189915B (ja)
WO (1) WO2012058225A1 (ja)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012155189A1 (en) 2011-05-13 2012-11-22 National Ict Australia Ltd Method and apparatus for estimating neural recruitment - f
CA2835486C (en) 2011-05-13 2022-07-19 Saluda Medical Pty Limited Method and apparatus for measurement of neural response - a
WO2012155185A1 (en) 2011-05-13 2012-11-22 National Ict Australia Ltd Method and apparatus for measurement of neural response
US9872990B2 (en) 2011-05-13 2018-01-23 Saluda Medical Pty Limited Method and apparatus for application of a neural stimulus
US9558762B1 (en) * 2011-07-03 2017-01-31 Reality Analytics, Inc. System and method for distinguishing source from unconstrained acoustic signals emitted thereby in context agnostic manner
US9691395B1 (en) * 2011-12-31 2017-06-27 Reality Analytics, Inc. System and method for taxonomically distinguishing unconstrained signal data segments
JP5942420B2 (ja) * 2011-07-07 2016-06-29 ヤマハ株式会社 音響処理装置および音響処理方法
US9305570B2 (en) 2012-06-13 2016-04-05 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for pitch trajectory analysis
US9460729B2 (en) 2012-09-21 2016-10-04 Dolby Laboratories Licensing Corporation Layered approach to spatial audio coding
EP2908904B1 (en) 2012-11-06 2020-09-23 Saluda Medical Pty Limited System for controlling electrical conditions of tissue
WO2014210284A1 (en) 2013-06-27 2014-12-31 Dolby Laboratories Licensing Corporation Bitstream syntax for spatial voice coding
US9812150B2 (en) 2013-08-28 2017-11-07 Accusonus, Inc. Methods and systems for improved signal decomposition
JP6671021B2 (ja) 2013-11-22 2020-03-25 サルーダ・メディカル・ピーティーワイ・リミテッド 神経測定において神経反応を検出するための方法およびデバイス
US10468036B2 (en) * 2014-04-30 2019-11-05 Accusonus, Inc. Methods and systems for processing and mixing signals using signal decomposition
US9477895B2 (en) * 2014-03-31 2016-10-25 Mitsubishi Electric Research Laboratories, Inc. Method and system for detecting events in an acoustic signal subject to cyclo-stationary noise
US10564923B2 (en) 2014-03-31 2020-02-18 Sony Corporation Method, system and artificial neural network
ES2801348T3 (es) 2014-05-05 2021-01-11 Saluda Medical Pty Ltd Medición neurológica mejorada
EP4285985A3 (en) 2014-12-11 2024-01-17 Saluda Medical Pty Ltd Method and device for feedback control of neural stimulation
US9668066B1 (en) * 2015-04-03 2017-05-30 Cedar Audio Ltd. Blind source separation systems
AU2016245335B2 (en) 2015-04-09 2020-11-19 Saluda Medical Pty Ltd Electrode to nerve distance estimation
CA3019701A1 (en) 2016-04-05 2017-10-12 Saluda Medical Pty Ltd Improved feedback control of neuromodulation
EP3474747A4 (en) 2016-06-24 2020-01-22 Saluda Medical Pty Ltd NERVOUS STIMULATION FOR REDUCED ARTIFACT
US11212637B2 (en) 2018-04-12 2021-12-28 Qualcomm Incorproated Complementary virtual audio generation
CN112334184A (zh) 2018-04-27 2021-02-05 萨鲁达医疗有限公司 混合神经的神经刺激
CN109841232B (zh) * 2018-12-30 2023-04-07 瑞声科技(新加坡)有限公司 音乐信号中音符位置的提取方法和装置及存储介质
CN110111773B (zh) * 2019-04-01 2021-03-30 华南理工大学 基于卷积神经网络的音乐信号多乐器识别方法

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10149187A (ja) * 1996-11-19 1998-06-02 Yamaha Corp 音声情報抽出装置
US20010044719A1 (en) 1999-07-02 2001-11-22 Mitsubishi Electric Research Laboratories, Inc. Method and system for recognizing, indexing, and searching acoustic signals
US6691082B1 (en) * 1999-08-03 2004-02-10 Lucent Technologies Inc Method and system for sub-band hybrid coding
JP3881943B2 (ja) * 2002-09-06 2007-02-14 松下電器産業株式会社 音響符号化装置及び音響符号化方法
FR2867648A1 (fr) * 2003-12-10 2005-09-16 France Telecom Transcodage entre indices de dictionnaires multi-impulsionnels utilises en codage en compression de signaux numeriques
CN1886780A (zh) * 2003-12-15 2006-12-27 法国电信 声音合成和空间化方法
EP1755111B1 (en) 2004-02-20 2008-04-30 Sony Corporation Method and device for detecting pitch
US7415392B2 (en) * 2004-03-12 2008-08-19 Mitsubishi Electric Research Laboratories, Inc. System for separating multiple sound sources from monophonic input with non-negative matrix factor deconvolution
US7505902B2 (en) 2004-07-28 2009-03-17 University Of Maryland Discrimination of components of audio signals based on multiscale spectro-temporal modulations
JP3906230B2 (ja) 2005-03-11 2007-04-18 株式会社東芝 音響信号処理装置、音響信号処理方法、音響信号処理プログラム、及び音響信号処理プログラムを記録したコンピュータ読み取り可能な記録媒体
GB2430073A (en) 2005-09-08 2007-03-14 Univ East Anglia Analysis and transcription of music
US8190425B2 (en) * 2006-01-20 2012-05-29 Microsoft Corporation Complex cross-correlation parameters for multi-channel audio
US7953604B2 (en) * 2006-01-20 2011-05-31 Microsoft Corporation Shape and scale parameters for extended-band frequency coding
US7772478B2 (en) 2006-04-12 2010-08-10 Massachusetts Institute Of Technology Understanding music
US7612275B2 (en) 2006-04-18 2009-11-03 Nokia Corporation Method, apparatus and computer program product for providing rhythm information from an audio signal
US7842874B2 (en) 2006-06-15 2010-11-30 Massachusetts Institute Of Technology Creating music by concatenative synthesis
JP5007563B2 (ja) 2006-12-28 2012-08-22 ソニー株式会社 音楽編集装置および方法、並びに、プログラム
US8160273B2 (en) 2007-02-26 2012-04-17 Erik Visser Systems, methods, and apparatus for signal separation using data driven techniques
EP2148321B1 (en) 2007-04-13 2015-03-25 National Institute of Advanced Industrial Science and Technology Sound source separation system, sound source separation method, and computer program for sound source separation
JP5275612B2 (ja) * 2007-07-18 2013-08-28 国立大学法人 和歌山大学 周期信号処理方法、周期信号変換方法および周期信号処理装置ならびに周期信号の分析方法
JP4872871B2 (ja) 2007-09-27 2012-02-08 ソニー株式会社 音源方向検出装置、音源方向検出方法及び音源方向検出カメラ
US8483854B2 (en) * 2008-01-28 2013-07-09 Qualcomm Incorporated Systems, methods, and apparatus for context processing using multiple microphones
JP2009204808A (ja) * 2008-02-27 2009-09-10 Nippon Telegr & Teleph Corp <Ntt> 音響特徴抽出方法及び、その装置、そのプログラム、そのプログラムを記録した記録媒体
EP2211335A1 (en) * 2009-01-21 2010-07-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for obtaining a parameter describing a variation of a signal characteristic of a signal

Also Published As

Publication number Publication date
KR20130112898A (ko) 2013-10-14
CN103189915A (zh) 2013-07-03
US8805697B2 (en) 2014-08-12
WO2012058225A1 (en) 2012-05-03
KR101564151B1 (ko) 2015-10-28
CN103189915B (zh) 2015-06-10
EP2633523B1 (en) 2014-04-09
JP2013546018A (ja) 2013-12-26
EP2633523A1 (en) 2013-09-04
US20120101826A1 (en) 2012-04-26

Similar Documents

Publication Publication Date Title
JP5642882B2 (ja) 時間展開情報をもつ基底関数を使用する音楽信号の分解
JP5749346B2 (ja) マルチチャネルオーディオ信号を分解するための方法、装置およびコンピュータ可読記憶媒体
JP6069341B2 (ja) オーディオ・コーデックからの向上したクロマ抽出のための方法、エンコーダ、デコーダ、ソフトウェア・プログラム、記憶媒体
JP5961950B2 (ja) 音声処理装置
Canadas-Quesada et al. Percussive/harmonic sound separation by non-negative matrix factorization with smoothness/sparseness constraints
US9892758B2 (en) Audio information processing
CN107533848B (zh) 用于话音恢复的系统和方法
US9305570B2 (en) Systems, methods, apparatus, and computer-readable media for pitch trajectory analysis
US8219390B1 (en) Pitch-based frequency domain voice removal
Eklund Data augmentation techniques for robust audio analysis
CN117079623A (zh) 音频降噪模型训练方法、歌唱作品处理方法、设备和介质
Dittmar et al. An experimental approach to generalized Wiener filtering in music source separation
Pardo et al. Applying source separation to music
JP5879813B2 (ja) 複数音源の識別装置および複数音源に連動する情報処理装置
JP5573529B2 (ja) 音声処理装置およびプログラム
Yasuraoka et al. I-divergence-based dereverberation method with auxiliary function approach
Lagrange et al. Robust similarity metrics between audio signals based on asymmetrical spectral envelope matching
CN116803105A (zh) 音频内容识别
CN114566191A (zh) 录音的修音方法及相关装置
Badeau et al. Robust similarity metrics between audio signals based on asymmetrical spectral envelope matching
Armendáriz Informed Source Separation for Multiple Instruments of Similar Timbre

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140424

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140603

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140901

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140930

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141029

R150 Certificate of patent or registration of utility model

Ref document number: 5642882

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees