JP2015504539A - オーディオ・コーデックからの向上したクロマ抽出 - Google Patents
オーディオ・コーデックからの向上したクロマ抽出 Download PDFInfo
- Publication number
- JP2015504539A JP2015504539A JP2014543874A JP2014543874A JP2015504539A JP 2015504539 A JP2015504539 A JP 2015504539A JP 2014543874 A JP2014543874 A JP 2014543874A JP 2014543874 A JP2014543874 A JP 2014543874A JP 2015504539 A JP2015504539 A JP 2015504539A
- Authority
- JP
- Japan
- Prior art keywords
- block
- frequency
- frequency coefficients
- coefficients
- audio signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title description 4
- 230000005236 sound signal Effects 0.000 claims abstract description 110
- 238000000034 method Methods 0.000 claims abstract description 94
- 239000013598 vector Substances 0.000 claims abstract description 89
- 230000003595 spectral effect Effects 0.000 claims abstract description 27
- 230000010076 replication Effects 0.000 claims abstract description 5
- 230000000873 masking effect Effects 0.000 claims description 46
- 230000009466 transformation Effects 0.000 claims description 45
- 239000011159 matrix material Substances 0.000 claims description 34
- 230000001419 dependent effect Effects 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 8
- 230000001131 transforming effect Effects 0.000 claims description 8
- 230000006835 compression Effects 0.000 claims description 5
- 238000007906 compression Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 3
- 238000001228 spectrum Methods 0.000 description 25
- 238000006243 chemical reaction Methods 0.000 description 15
- 238000005070 sampling Methods 0.000 description 15
- 230000002829 reductive effect Effects 0.000 description 12
- 238000004364 calculation method Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 9
- 238000012545 processing Methods 0.000 description 9
- 230000001052 transient effect Effects 0.000 description 9
- 238000000354 decomposition reaction Methods 0.000 description 7
- 238000013139 quantization Methods 0.000 description 7
- 230000015572 biosynthetic process Effects 0.000 description 6
- 238000003786 synthesis reaction Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000003044 adaptive effect Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 230000009977 dual effect Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- JEIPFZHSYJVQDO-UHFFFAOYSA-N iron(III) oxide Inorganic materials O=[Fe]O[Fe]=O JEIPFZHSYJVQDO-UHFFFAOYSA-N 0.000 description 1
- 230000002427 irreversible effect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/54—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/0008—Associated control or indicating means
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/36—Accompaniment arrangements
- G10H1/38—Chord
- G10H1/383—Chord detection and/or recognition, e.g. for correction, or automatic bass generation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
- G10L19/038—Vector quantisation, e.g. TwinVQ audio
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/066—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for pitch analysis as part of wider processing for musical purposes, e.g. transcription, musical performance evaluation; Pitch recognition, e.g. in polyphonic sounds; Estimation or use of missing fundamental
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/131—Mathematical functions for musical analysis, processing, synthesis or composition
- G10H2250/215—Transforms, i.e. mathematical transforms into domains appropriate for musical signal processing, coding or compression
- G10H2250/221—Cosine transform; DCT [discrete cosine transform], e.g. for use in lossy audio compression such as MP3
- G10H2250/225—MDCT [Modified discrete cosine transform], i.e. based on a DCT of overlapping data
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
- G10L21/0388—Details of processing therefor
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Auxiliary Devices For Music (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本願はここに参照によってその全体において組み込まれる2011年11月30日に出願された米国仮特許出願第61/565,037号の優先権を主張するものである。
本稿は、音楽情報検索(MIR: music information retrieval)のための方法およびシステムに関する。詳細には、本稿は、オーディオ信号のエンコード・プロセスとの関連で(たとえばエンコード・プロセスの間に)オーディオ信号からクロマ・ベクトルを抽出するための方法およびシステムに関する。
Thr'spr[b]=max(Thrsc[b],sh[b]・Thrsc[b−1])
によって与えられ、最高のサブバンドから始まって30dB/Barkの傾きを近似する第二のフィルタリング動作は
Thrspr[b]=max(Thr'spr[b],sl[b]・Thr'spr[b+1])
によって与えられる。
Thr'[b]=max(Thrspr[b],Thrquiet[b])
として決定されうることを意味する。
Thr[b]=max(rpmn・Thrspr[b],min(Thr'[b],rpelev・Thrlast[b]))
として決定されてもよい。ここで、rpmn、rpelvは適切な平滑化パラメータである。過渡信号についてのマスキング閾値のこの還元はより高いSMR(Signal to Masking Ratio[信号対マスキング比])値を引き起こし、よりよい量子化に、ひいてはプレエコー・アーチファクトの形の可聴エラーの減少につながる。
・(長ブロックおよび短ブロックについての)MDCT係数のシーケンスの形で時間‐周波数領域におけるオーディオ信号301の表現;および
・(長ブロックおよび短ブロックについての)周波数(サブバンド)依存のマスキング閾値Thr[b]の形での信号依存の知覚的モデル、
を提供すると要約されうる。
XSIS[kN+1]=Xl[k]、k∈[0,…,Mshort−1]、l∈[0,…,N−1]
に従ってなされる。周波数係数のこのインターリーブは周波数係数の数を増し、よって分解能を増す。だが、異なる時点における同じ周波数のN個の低分解能係数が同じ時点の異なる周波数のN個の高分解能係数にマッピングされるので、±N/2ビンの分散をもつ誤差が導入される。それにもかかわらず、HE-AACまたはAACの場合、この方法は、Mshort=128の長さをもつN=8個の短ブロックの係数をインターリーブすることによって、Mlong=1024個の係数をもつスペクトルを推定することを許容する。
Claims (35)
- オーディオ信号のサンプルのブロックについてクロマ・ベクトルを決定する方法であって:
・スペクトル帯域複製ベースのオーディオ・エンコーダ(410)のコア・エンコーダ(412)から、前記オーディオ信号のサンプルのブロックから導出された周波数係数の対応するブロックを受領する段階であって、前記オーディオ・エンコーダは、周波数係数の前記ブロックから前記オーディオ信号のエンコードされたビットストリーム(305)を生成するよう適応されている、段階と;
・周波数係数の受領されたブロックに基づいて前記オーディオ信号のサンプルのブロックについてのクロマ・ベクトルを決定する段階とを含む、
方法。 - 前記スペクトル帯域複製ベースのオーディオ・エンコーダが:高効率先進オーディオ符号化、mp3PROおよびMPEG-D USACのいずれか一つを適用する、請求項1記載の方法。
- 周波数係数の前記ブロックが:
・MDCTと称される修正離散コサイン変換の係数のブロック;
・MDSTと称される修正離散サイン変換の係数のブロック;
・DFTと称される離散フーリエ変換の係数のブロック;および
・MCLTと称される修正複素重複変換の係数のブロック、
のうちいずれか一つである、請求項1または2記載の方法。 - ・前記サンプルの各ブロックが、それぞれM個のサンプルからなるN個の相続く短ブロックを含んでおり;
・前記周波数係数の各ブロックが、それぞれM個の周波数係数からなるN個の対応する短ブロックを含んでいる、
請求項1ないし3のうちいずれか一項記載の方法。 - ・M個の周波数係数の前記N個の短ブロックからの前記サンプルのブロックに対応する周波数係数の長ブロックを推定する段階であって、周波数係数の推定される長ブロックが周波数係数の前記N個の短ブロックに比べ増大した周波数分解能をもつ、段階と;
・前記オーディオ信号の前記サンプルのブロックについての前記クロマ・ベクトルを、周波数係数の推定された長ブロックに基づいて決定する段階とをさらに含む、
請求項4記載の方法。 - 周波数係数の長ブロックを推定する前記段階は、周波数係数の前記N個の短ブロックの対応する周波数係数をインターリーブし、それにより周波数係数のインターリーブされた長ブロックを与えることを含む、請求項5記載の方法。
- 周波数係数の長ブロックを推定する前記段階は、エネルギー圧縮属性をもつ変換、たとえばDCT-II変換を周波数係数のインターリーブされた長ブロックに適用することによって、周波数係数の前記N個の短ブロックのN個の対応する周波数係数を脱相関することを含む、請求項6記載の方法。
- 周波数係数の長ブロックを推定する前記段階は:
・周波数係数の前記N個の短ブロックの複数の部分集合を形成する段階であって、部分集合当たりの短ブロックの数Lは前記オーディオ信号に基づいて選択される、段階と;
・各部分集合について、周波数係数の前記短ブロックの対応する周波数係数をインターリーブし、それによりその部分集合の周波数係数のインターリーブされた中間ブロックを与える段階と;
・各部分集合について、エネルギー圧縮属性をもつ変換、たとえばDCT-II変換を、その部分集合の周波数係数の前記インターリーブされた中間ブロックに適用し、それにより前記複数の部分集合についての周波数係数の複数の推定された中間ブロックを与える段階とを含む、
請求項5記載の方法。 - 周波数係数の長ブロックを推定する前記段階は、M個の周波数係数のN個の短ブロックにポリフェーズ変換を適用することを含む、請求項5記載の方法。
- ・前記ポリフェーズ変換は、M個の周波数係数の前記N個の短ブロックをN×M個の周波数係数の正確な長ブロックに数学的に変換するための変換行列に基づき;
・前記ポリフェーズ変換は、変換行列係数のある割合を0と置いた前記変換行列の近似を利用する、
請求項9記載の方法。 - 前記変換行列係数の90%以上の割合が0と置かれる、請求項10記載の方法。
- 周波数係数の長ブロックを推定する前記段階は:
・周波数係数の前記N個の短ブロックの複数の部分集合を形成する段階であって、部分集合当たりの短ブロックの数Lは前記オーディオ信号に基づいて選択され、L<Nである、段階と;
・前記複数の部分集合に中間ポリフェーズ変換を適用して、周波数係数の複数の推定された中間ブロックを与える段階とを含み、
前記中間ポリフェーズ変換は、M個の周波数係数のL個の短ブロックをL×M個の周波数係数の正確な中間ブロックに数学的に変換するための中間変換行列に基づき;
前記中間ポリフェーズ変換は、中間変換行列係数のある割合を0と置いた前記中間変換行列の近似を利用する、
請求項5記載の方法。 - 前記割合が可変であり、それにより周波数係数の推定されるブロックの品質を変える、請求項10ないし12のうちいずれか一項記載の方法。
- M=128かつN=8である、請求項4ないし13のうちいずれか一項記載の方法。
- 請求項5ないし14のうちいずれか一項記載の方法であって、さらに:
・サンプルの複数のブロックに対応する周波数係数の超長ブロックを、周波数係数の対応する複数の長ブロックから推定する段階をさらに含み、周波数係数の推定される超長ブロックは、周波数係数の前記複数の長ブロックに比べ増大した周波数分解能をもつ、方法。 - 前記クロマ・ベクトルを決定する段階が、周波数係数の受領されたブロックから導出される周波数係数の第二のブロックに対して周波数依存の音響心理学的処理を適用する段階を含む、請求項1ないし15のうちいずれか一項記載の方法。
- 周波数係数の前記第二のブロックが、周波数係数の前記推定された長ブロックである、請求項5ないし7および9ないし11のうちいずれか一項を引用する場合の請求項16記載の方法。
- 周波数係数の前記第二のブロックが、周波数係数の前記受領されたブロックである、請求項1ないし4のうちいずれか一項を引用する場合の請求項16記載の方法。
- 周波数係数の前記第二のブロックが、周波数係数の前記複数の推定された中間ブロックの一つである、請求項8または12を引用する場合の請求項16記載の方法。
- 周波数係数の前記第二のブロックが、周波数係数の前記推定された超長ブロックである、請求項15を引用する場合の請求項16記載の方法。
- 周波数依存の音響心理学的処理を適用する前記段階が:
・周波数係数の前記第二のブロックの少なくとも一つの周波数係数から導出された値を、周波数依存のエネルギー閾値と比較する段階と;
・前記周波数係数が前記エネルギー閾値より小さければ、前記周波数係数を0と置く段階とを含む、
請求項16ないし20のうちいずれか一項記載の方法。 - 前記少なくとも一つの周波数係数から導出された前記値が、対応する複数の周波数についての複数の周波数係数から導出される平均エネルギーに対応する、請求項21記載の方法。
- 前記エネルギー閾値は、前記コア・エンコーダによって適用される音響心理学的モデルから導出される、請求項21または22記載の方法。
- 前記エネルギー閾値は、周波数係数のブロックを量子化するために前記コア・エンコーダによって使用される周波数依存のマスキング閾値から導出される、請求項23記載の方法。
- 前記クロマ・ベクトルを決定する段階が:
・前記第二のブロックの周波数係数の一部または全部を前記クロマ・ベクトルの諸音程クラスに分類する段階と;
・前記クロマ・ベクトルの諸音程クラスについての累積されたエネルギーを、分類された周波数係数に基づいて決定する段階とを含む、
請求項16ないし24のうちいずれか一項記載の方法。 - 前記周波数係数は、前記クロマ・ベクトルの諸音程クラスに関連付けられた諸帯域通過フィルタを使って分類される、請求項25記載の方法。
- ・前記オーディオ信号のサンプルのブロックのシーケンスからクロマ・ベクトルのシーケンスを決定し、それにより前記オーディオ信号のクロマグラムを与える段階をさらに含む、請求項1ないし26のうちいずれか一項記載の方法。
- オーディオ信号をエンコードするよう適応されたオーディオ・エンコーダであって:
・前記オーディオ信号のダウンサンプリングされた低周波数成分をエンコードするよう適応されたコア・エンコーダであって、前記コア・エンコーダは、サンプルのブロックを周波数領域に変換してそれにより周波数係数の対応するブロックを与えることによって、低周波数成分のサンプルのブロックをエンコードするよう適応されている、コア・エンコーダと;
・周波数係数のブロックに基づいて前記オーディオ信号の低周波数成分のサンプルのブロックのクロマ・ベクトルを決定するよう適応されたクロマ決定ユニットとを有する、
エンコーダ。 - 前記オーディオ信号の対応する高周波数成分をエンコードするよう適応されたスペクトル帯域複製エンコーダをさらに有する、請求項28記載のエンコーダ。
- ・前記コア・エンコーダおよび前記スペクトル帯域複製エンコーダによって与えられるデータから、エンコードされたビットストリームを生成するよう適応されたマルチプレクサをさらに有しており、前記マルチプレクサは、前記クロマ・ベクトルから導出された情報を、メタデータとして、エンコードされたビットストリームに加えるよう適応されている、請求項29記載のエンコーダ。
- 前記エンコードされたビットストリームは、MP4フォーマット、3GPフォーマット、3G2フォーマット、LATMフォーマットのうちのいずれか一つでエンコードされる、請求項30記載のエンコーダ。
- オーディオ信号をデコードするよう適応されたオーディオ・デコーダであって:
・エンコードされたビットストリームを受領するよう適応されており、前記エンコードされたビットストリームから周波数係数のブロックを抽出するよう適応されている多重分離およびデコード・ユニットであって、周波数係数の前記ブロックは、前記オーディオ信号のダウンサンプリングされた低周波数成分のサンプルの対応するブロックと関連付けられている、多重分離およびデコード・ユニットと;
・周波数係数の前記ブロックに基づいて前記オーディオ信号のサンプルの前記ブロックのクロマ・ベクトルを決定するよう適応されたクロマ決定ユニットとを有する、
デコーダ。 - プロセッサ上で実行され、該プロセッサ装置上で実行されたときに請求項1ないし27のうちいずれか一項記載の方法を実行するよう適応されたソフトウェア・プログラム。
- プロセッサ上で実行され、コンピューティング装置上で実行されたときに請求項1ないし27のうちいずれか一項記載の方法を実行するよう適応されたソフトウェア・プログラムを有する記憶媒体。
- コンピュータ上で実行されたときに請求項1ないし27のうちいずれか一項記載の方法を実行するための実行可能命令を有するコンピュータ・プログラム・プロダクト。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201161565037P | 2011-11-30 | 2011-11-30 | |
US61/565,037 | 2011-11-30 | ||
PCT/EP2012/073825 WO2013079524A2 (en) | 2011-11-30 | 2012-11-28 | Enhanced chroma extraction from an audio codec |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015504539A true JP2015504539A (ja) | 2015-02-12 |
JP6069341B2 JP6069341B2 (ja) | 2017-02-01 |
Family
ID=47720463
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014543874A Expired - Fee Related JP6069341B2 (ja) | 2011-11-30 | 2012-11-28 | オーディオ・コーデックからの向上したクロマ抽出のための方法、エンコーダ、デコーダ、ソフトウェア・プログラム、記憶媒体 |
Country Status (5)
Country | Link |
---|---|
US (1) | US9697840B2 (ja) |
EP (1) | EP2786377B1 (ja) |
JP (1) | JP6069341B2 (ja) |
CN (1) | CN103959375B (ja) |
WO (1) | WO2013079524A2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20180026533A (ko) * | 2015-07-06 | 2018-03-12 | 자일링크스 인코포레이티드 | 가변 대역폭 필터링 |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10225328B2 (en) | 2013-03-14 | 2019-03-05 | Aperture Investments, Llc | Music selection and organization using audio fingerprints |
US11271993B2 (en) | 2013-03-14 | 2022-03-08 | Aperture Investments, Llc | Streaming music categorization using rhythm, texture and pitch |
US10061476B2 (en) | 2013-03-14 | 2018-08-28 | Aperture Investments, Llc | Systems and methods for identifying, searching, organizing, selecting and distributing content based on mood |
US10242097B2 (en) * | 2013-03-14 | 2019-03-26 | Aperture Investments, Llc | Music selection and organization using rhythm, texture and pitch |
US10623480B2 (en) | 2013-03-14 | 2020-04-14 | Aperture Investments, Llc | Music categorization using rhythm, texture and pitch |
EP2830058A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Frequency-domain audio coding supporting transform length switching |
EP2830061A1 (en) * | 2013-07-22 | 2015-01-28 | Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for encoding and decoding an encoded audio signal using temporal noise/patch shaping |
JP6220701B2 (ja) * | 2014-02-27 | 2017-10-25 | 日本電信電話株式会社 | サンプル列生成方法、符号化方法、復号方法、これらの装置及びプログラム |
WO2015136159A1 (en) * | 2014-03-14 | 2015-09-17 | Berggram Development Oy | Method for offsetting pitch data in an audio file |
US20220147562A1 (en) | 2014-03-27 | 2022-05-12 | Aperture Investments, Llc | Music streaming, playlist creation and streaming architecture |
TW202242853A (zh) | 2015-03-13 | 2022-11-01 | 瑞典商杜比國際公司 | 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流 |
US10157372B2 (en) * | 2015-06-26 | 2018-12-18 | Amazon Technologies, Inc. | Detection and interpretation of visual indicators |
US9944127B2 (en) * | 2016-08-12 | 2018-04-17 | 2236008 Ontario Inc. | System and method for synthesizing an engine sound |
KR20180088184A (ko) * | 2017-01-26 | 2018-08-03 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
EP3382701A1 (en) | 2017-03-31 | 2018-10-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for post-processing an audio signal using prediction based shaping |
EP3382700A1 (en) * | 2017-03-31 | 2018-10-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for post-processing an audio signal using a transient location detection |
IT201800005091A1 (it) * | 2018-05-04 | 2019-11-04 | "Procedimento per monitorare lo stato di funzionamento di una stazione di lavorazione, relativo sistema di monitoraggio e prodotto informatico" | |
JP7230464B2 (ja) * | 2018-11-29 | 2023-03-01 | ヤマハ株式会社 | 音響解析方法、音響解析装置、プログラムおよび機械学習方法 |
WO2020178321A1 (en) * | 2019-03-06 | 2020-09-10 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Downmixer and method of downmixing |
CN111863030A (zh) * | 2020-07-30 | 2020-10-30 | 广州酷狗计算机科技有限公司 | 音频检测方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001154698A (ja) * | 1999-11-29 | 2001-06-08 | Victor Co Of Japan Ltd | オーディオ符号化装置及びその方法 |
JP2006018023A (ja) * | 2004-07-01 | 2006-01-19 | Fujitsu Ltd | オーディオ信号符号化装置、および符号化プログラム |
US20090107321A1 (en) * | 2006-04-14 | 2009-04-30 | Koninklijke Philips Electronics N.V. | Selection of tonal components in an audio spectrum for harmonic and key analysis |
WO2011051279A1 (en) * | 2009-10-30 | 2011-05-05 | Dolby International Ab | Complexity scalable perceptual tempo estimation |
WO2011071610A1 (en) * | 2009-12-07 | 2011-06-16 | Dolby Laboratories Licensing Corporation | Decoding of multichannel aufio encoded bit streams using adaptive hybrid transformation |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6930235B2 (en) * | 2001-03-15 | 2005-08-16 | Ms Squared | System and method for relating electromagnetic waves to sound waves |
US7627481B1 (en) | 2005-04-19 | 2009-12-01 | Apple Inc. | Adapting masking thresholds for encoding a low frequency transient signal in audio data |
KR100715949B1 (ko) | 2005-11-11 | 2007-05-08 | 삼성전자주식회사 | 고속 음악 무드 분류 방법 및 그 장치 |
US9123350B2 (en) | 2005-12-14 | 2015-09-01 | Panasonic Intellectual Property Management Co., Ltd. | Method and system for extracting audio features from an encoded bitstream for audio classification |
EP2406787B1 (en) * | 2009-03-11 | 2014-05-14 | Google, Inc. | Audio classification for information retrieval using sparse features |
ES2400661T3 (es) * | 2009-06-29 | 2013-04-11 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Codificación y decodificación de extensión de ancho de banda |
-
2012
- 2012-11-28 EP EP12824762.4A patent/EP2786377B1/en not_active Not-in-force
- 2012-11-28 US US14/359,697 patent/US9697840B2/en not_active Expired - Fee Related
- 2012-11-28 WO PCT/EP2012/073825 patent/WO2013079524A2/en active Application Filing
- 2012-11-28 CN CN201280058961.7A patent/CN103959375B/zh not_active Expired - Fee Related
- 2012-11-28 JP JP2014543874A patent/JP6069341B2/ja not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001154698A (ja) * | 1999-11-29 | 2001-06-08 | Victor Co Of Japan Ltd | オーディオ符号化装置及びその方法 |
JP2006018023A (ja) * | 2004-07-01 | 2006-01-19 | Fujitsu Ltd | オーディオ信号符号化装置、および符号化プログラム |
US20090107321A1 (en) * | 2006-04-14 | 2009-04-30 | Koninklijke Philips Electronics N.V. | Selection of tonal components in an audio spectrum for harmonic and key analysis |
WO2011051279A1 (en) * | 2009-10-30 | 2011-05-05 | Dolby International Ab | Complexity scalable perceptual tempo estimation |
WO2011071610A1 (en) * | 2009-12-07 | 2011-06-16 | Dolby Laboratories Licensing Corporation | Decoding of multichannel aufio encoded bit streams using adaptive hybrid transformation |
Non-Patent Citations (2)
Title |
---|
JPN6015032819; Emmanuel Ravelli etc.: 'Audio Signal Representations for Indexing in the T' IEEE TRANSACTIONS ON AUDIO,SPEECH,AND LANGUAGE PRO 18, 201003, 434-446, IEEE * |
JPN6015032821; Gerald Schuller etc.: 'Fast Audio Feature Extraction From Compressed Audi' IEEE JOURNAL OF SELECTED TOPICS IN SIGNAL PROCESSI Vol.5, 201110, 1262-1271, IEEE * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20180026533A (ko) * | 2015-07-06 | 2018-03-12 | 자일링크스 인코포레이티드 | 가변 대역폭 필터링 |
KR102644069B1 (ko) | 2015-07-06 | 2024-03-05 | 자일링크스 인코포레이티드 | 가변 대역폭 필터링 |
Also Published As
Publication number | Publication date |
---|---|
CN103959375B (zh) | 2016-11-09 |
US20140310011A1 (en) | 2014-10-16 |
JP6069341B2 (ja) | 2017-02-01 |
WO2013079524A2 (en) | 2013-06-06 |
US9697840B2 (en) | 2017-07-04 |
WO2013079524A3 (en) | 2013-07-25 |
EP2786377B1 (en) | 2016-03-02 |
EP2786377A2 (en) | 2014-10-08 |
CN103959375A (zh) | 2014-07-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6069341B2 (ja) | オーディオ・コーデックからの向上したクロマ抽出のための方法、エンコーダ、デコーダ、ソフトウェア・プログラム、記憶媒体 | |
KR101370515B1 (ko) | 복합 확장 인지 템포 추정 시스템 및 추정방법 | |
JP6262668B2 (ja) | 帯域幅拡張パラメータ生成装置、符号化装置、復号装置、帯域幅拡張パラメータ生成方法、符号化方法、および、復号方法 | |
JP4950210B2 (ja) | オーディオ圧縮 | |
US8793123B2 (en) | Apparatus and method for converting an audio signal into a parameterized representation using band pass filters, apparatus and method for modifying a parameterized representation using band pass filter, apparatus and method for synthesizing a parameterized of an audio signal using band pass filters | |
JP5642882B2 (ja) | 時間展開情報をもつ基底関数を使用する音楽信号の分解 | |
JP6185457B2 (ja) | 効率的なコンテンツ分類及びラウドネス推定 | |
TWI492224B (zh) | 用以對音訊信號進行編碼之編碼器、設備、電腦程式產品及方法 | |
GB2403881A (en) | Automatic classification/identification of similarly compressed audio files | |
Ravelli et al. | Audio signal representations for indexing in the transform domain | |
EP1441330B1 (en) | Method of encoding and/or decoding digital audio using time-frequency correlation and apparatus performing the method | |
Khaldi et al. | HHT-based audio coding | |
RU2409874C2 (ru) | Сжатие звуковых сигналов | |
US10950251B2 (en) | Coding of harmonic signals in transform-based audio codecs | |
Zhang et al. | MDCT spectrum separation: Catching the fine spectral structures for stereo coding | |
WO2011114192A1 (en) | Method and apparatus for audio coding | |
Zhou et al. | A robust audio fingerprinting algorithm in MP3 compressed domain | |
Sato et al. | Range-constrained phase reconstruction for recovering time-domain signal from quantized amplitude and phase spectrogram | |
Santoro et al. | Multiple F0 Estimation in the Transform Domain. | |
Fink et al. | Enhanced Chroma Feature Extraction from HE-AAC Encoder | |
Yu et al. | Comparison of two different approaches to detect perceptual noise for MPEG-4 AAC | |
Disse | el Est Spec dio C |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150818 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20151112 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160412 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160705 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20161206 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20161226 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6069341 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |