JP5295433B2 - 複雑さがスケーラブルな知覚的テンポ推定 - Google Patents
複雑さがスケーラブルな知覚的テンポ推定 Download PDFInfo
- Publication number
- JP5295433B2 JP5295433B2 JP2012534723A JP2012534723A JP5295433B2 JP 5295433 B2 JP5295433 B2 JP 5295433B2 JP 2012534723 A JP2012534723 A JP 2012534723A JP 2012534723 A JP2012534723 A JP 2012534723A JP 5295433 B2 JP5295433 B2 JP 5295433B2
- Authority
- JP
- Japan
- Prior art keywords
- tempo
- audio signal
- determining
- encoded bitstream
- payload
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000005236 sound signal Effects 0.000 claims abstract description 196
- 238000000034 method Methods 0.000 claims abstract description 193
- 230000003595 spectral effect Effects 0.000 claims abstract description 48
- 230000010076 replication Effects 0.000 claims abstract description 16
- 238000001228 spectrum Methods 0.000 claims description 166
- 238000010183 spectrum analysis Methods 0.000 claims description 21
- 238000011049 filling Methods 0.000 claims description 12
- 238000012935 Averaging Methods 0.000 claims description 5
- 239000000945 filler Substances 0.000 claims description 4
- 238000009877 rendering Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 2
- 238000012937 correction Methods 0.000 description 42
- 230000006870 function Effects 0.000 description 34
- 238000010079 rubber tapping Methods 0.000 description 25
- 238000006243 chemical reaction Methods 0.000 description 11
- 230000033764 rhythmic process Effects 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 9
- 230000008447 perception Effects 0.000 description 9
- 230000006835 compression Effects 0.000 description 8
- 238000007906 compression Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 8
- 238000000605 extraction Methods 0.000 description 7
- 238000005070 sampling Methods 0.000 description 7
- 230000009466 transformation Effects 0.000 description 7
- 238000002474 experimental method Methods 0.000 description 6
- 238000007781 pre-processing Methods 0.000 description 5
- 230000002829 reductive effect Effects 0.000 description 5
- 238000013459 approach Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000001419 dependent effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000007774 longterm Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000003252 repetitive effect Effects 0.000 description 4
- 230000035945 sensitivity Effects 0.000 description 4
- 241000282412 Homo Species 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 230000001934 delay Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000036651 mood Effects 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 230000001052 transient effect Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000009977 dual effect Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000002156 mixing Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000000053 physical method Methods 0.000 description 2
- 230000001020 rhythmical effect Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 102000001690 Factor VIII Human genes 0.000 description 1
- 108010054218 Factor VIII Proteins 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000001010 compromised effect Effects 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000011173 large scale experimental method Methods 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 230000035515 penetration Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 229920001690 polydopamine Polymers 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000011435 rock Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/36—Accompaniment arrangements
- G10H1/40—Rhythm
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/076—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction of timing, tempo; Beat detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2230/00—General physical, ergonomic or hardware implementation of electrophonic musical tools or instruments, e.g. shape or architecture
- G10H2230/005—Device type or category
- G10H2230/015—PDA [personal digital assistant] or palmtop computing devices used for musical purposes, e.g. portable music players, tablet computers, e-readers or smart phones in which mobile telephony functions need not be used
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2240/00—Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
- G10H2240/075—Musical metadata derived from musical analysis or for use in electrophonic musical instruments
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Auxiliary Devices For Music (AREA)
- Electrophonic Musical Instruments (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
Description
WO2006/037366A1は、音楽作品の時間領域PCM表現に基づいてエンコードされたリズム・パターンを生成する装置および方法を記載している。US7518053B1は、二つのオーディオ・ストリームからビート(beat)を抽出し、それら二つのオーディオ・ストリームのビートを整列させる方法を記載している。
ここで、fMAXはカバーされる周波数範囲、fSはサンプリング周波数、tは時間分解能、すなわち1フレームによってカバーされるオーディオ信号の時間区間である。fS=44100Hzのサンプリング周波数について、これは、AACフレームについての時間分解能t=1024/44100Hz=23,219msに対応する。HE-AACが、そのコア・エンコーダ(AAC)がサンプリング周波数の半分で機能する「デュアル・レート・システム」として定義される実施形態では、t=1024/22050Hz=46,4399msの最大時間分解能が達成できる。
MDCTdB[i]=10log10(MDCT[i]2)
のように計算されてもよい。
mMel=1127.01048ln(1+fHz/700)
によって与えられる。ここで、fHzはHzで表した周波数であり、mMelはメルで表した周波数である。メル・スケール変換は、人間の非線形な周波数知覚をモデル化するために行われてもよく、さらに、人間の非線形な周波数敏感さをモデル化するために周波数に重みが割り当てられてもよい。これは、メル周波数スケール上で(または他の任意の非線形な知覚的に動機付けされた周波数スケール上で)50%重なる三角フィルタを使うことによって行われてもよい。ここで、フィルタのフィルタ重みはフィルタの帯域幅の逆数である(非線形な敏感さ)。これは、図3のbに示されている。この図は例示的なメル・スケール・フィルタバンクを示している。フィルタ302はフィルタ303より大きな帯域幅をもつことが見て取れる。結果として、フィルタ302のフィルタ重みは、フィルタ303のフィルタ重みより小さい。
1.音楽トラックの根底にある拍子、たとえば4/4拍子または3/4拍子を判別する。
2.パラメータMMSBEATSTRENGTHに基づく関心範囲へのテンポの折り畳み。
3.知覚的な速さ測定値MMSCentroidに基づくテンポ補正。
いくつかの態様を記載しておく。
〔態様1〕
スペクトル帯域複製データを含むオーディオ信号のエンコードされたビットストリームから前記オーディオ信号のテンポ情報を抽出する方法であって:
・前記オーディオ信号のある時間区間について、前記エンコードされたビットストリーム中に含まれるスペクトル帯域複製データの量に関連付けられたペイロード量を決定する段階と;
・前記決定する段階を、前記オーディオ信号の前記エンコードされたビットストリームの一連の時間区間について繰り返し、それによりペイロード量のシーケンスを決定する段階と;
・ペイロード量の前記シーケンスにおける周期性を同定する段階と;
・同定された周期性から、前記オーディオ信号のテンポ情報を抽出する段階とを含む、
方法。
〔態様2〕
態様1記載の方法であって、ペイロード量を決定する段階が:
・前記時間区間における前記エンコードされたビットストリームの一つまたは複数の充填要素フィールドに含まれるデータの量を決定する段階と;
・前記時間区間における前記エンコードされたビットストリームの前記一つまたは複数の充填要素フィールドに含まれるデータの量に基づいて前記ペイロード量を決定する段階とを含む、
方法。
〔態様3〕
態様2記載の方法であって、ペイロード量を決定する段階が:
・前記時間区間における前記エンコードされたビットストリームの前記一つまたは複数の充填要素フィールドに含まれるスペクトル帯域複製ヘッダ・データの量を決定する段階と;
・前記時間区間における前記エンコードされたビットストリームの前記一つまたは複数の充填要素フィールドに含まれる正味のデータ量を、前記時間区間における前記エンコードされたビットストリームの前記一つまたは複数の充填要素フィールドに含まれるスペクトル帯域複製ヘッダ・データの量を控除することによって決定する段階と;
・前記ペイロード量を前記正味のデータ量に基づいて決定する段階とを含む、
方法。
〔態様4〕
前記ペイロード量が前記正味のデータ量に対応する、態様3記載の方法。
〔態様5〕
態様1ないし4のうちいずれか一項記載の方法であって、
・前記エンコードされたビットストリームが複数のフレームを含み、各フレームは、前記オーディオ信号の、所定の長さの時間の抜粋に対応し、
・前記時間区間が、前記エンコードされたビットストリームの一フレームに対応する、
方法。
〔態様6〕
態様1ないし5のうちいずれか一項記載の方法であって、前記繰り返しが前記エンコードされたビットストリームのすべてのフレームについて実行される、方法。
〔態様7〕
態様1ないし6のうちいずれか一項記載の方法であって、周期性を同定することが:
・ペイロード量の前記シーケンスにおけるピークの周期性を同定することを含む、
方法。
〔態様8〕
態様1ないし7のうちいずれか一項記載の方法であって、周期性を同定することが:
・ペイロード量の前記シーケンスに対してスペクトル解析を実行し、一組のパワー値および対応する周波数を与える段階と;
・ペイロード量の前記シーケンスにおける周期性を、前記一組のパワー値における相対的な最大を判別し、対応する周波数として周期性を選択することによって、同定する段階とを含む、
方法。
〔態様9〕
態様8記載の方法であって、スペクトル解析の実行が:
・ペイロード量の前記シーケンスの複数のサブシーケンスに対してスペクトル解析を実行し、複数組のパワー値を与える段階と;
・前記複数組のパワー値を平均する段階とを含む、
方法。
〔態様10〕
前記複数のサブシーケンスが部分的に重なり合う、態様9記載の方法。
〔態様11〕
スペクトル解析の実行が、フーリエ変換を実行することを含む、態様8ないし10のうちいずれか一項記載の方法。
〔態様12〕
態様8ないし11のうちいずれか一項記載の方法であって、さらに:
・前記複数組のパワー値に、対応する周波数の人間の知覚上の選好に関連した重みを乗算する段階を含む、
方法。
〔態様13〕
態様8ないし12のうちいずれか一項記載の方法であって、テンポ情報を抽出する段階が:
・前記一組のパワー値の絶対的な最大値に対応する周波数を決定することを含み、前記周波数が前記オーディオ信号の物理的に顕著なテンポに対応する、
方法。
〔態様14〕
態様1ないし13のうちいずれか一項記載の方法であって、前記オーディオ信号が音楽信号を含み、テンポ情報を抽出する段階が、前記音楽信号のテンポを推定することを含む、方法。
〔態様15〕
オーディオ信号の知覚的に顕著なテンポを推定する方法であって:
・前記オーディオ信号から変調スペクトルを決定する段階であって、前記変調スペクトルは複数の生起周波数および対応する複数の重要性値を含み、前記重要性値は前記オーディオ信号における前記対応する生起周波数の相対的な重要性を示す、段階と;
・物理的に顕著なテンポを、前記複数の重要性値のうちの最大値に対応する生起周波数として決定する段階と;
・前記変調スペクトルから前記オーディオ信号の拍メトリックを決定する段階と;
・前記変調スペクトルから知覚的テンポ指標を決定する段階と;
・知覚的に顕著なテンポを、前記物理的に顕著なテンポを前記拍メトリックに基づいて修正することによって決定する段階とを含み、前記修正する段階は、前記知覚的テンポ指標と前記物理的に顕著なテンポとの間の関係を考慮に入れる、
方法。
〔態様16〕
態様15記載の方法であって、前記オーディオ信号が時間軸に沿ったPCMサンプルのシーケンスによって表現され、変調スペクトルを決定する段階が:
・PCMサンプルの前記シーケンスから、複数の相続く、部分的に重なり合うサブシーケンスを選択する段階と;
・前記複数の相続くサブシーケンスについての、あるスペクトル分解能を有する複数の相続くパワー・スペクトルを決定する段階と;
・知覚的な非線形変換を使って前記複数の相続くパワー・スペクトルのスペクトル分解能を凝縮する段階と;
・前記複数の相続く凝縮されたパワー・スペクトルに対して時間軸に沿ったスペクトル解析を実行し、それにより前記複数の重要性値およびその対応する生起周波数を与える段階とを含む、
方法。
〔態様17〕
態様15記載の方法であって、前記オーディオ信号が時間軸に沿った、相続くMDCT係数ブロックのシーケンスによって表現され、変調スペクトルを決定する段階が:
・知覚的な非線形変換を使ってブロック中のMDCT係数の数を凝縮すること;および
・相続く凝縮されたMDCT係数ブロックのシーケンスに対して時間軸に沿ったスペクトル解析を実行し、それにより前記複数の重要性値およびその対応する生起周波数を与えることを含む、
方法。
〔態様18〕
態様15記載の方法であって、前記オーディオ信号が、スペクトル帯域複製データおよび時間軸に沿った複数の相続くフレームを含むエンコードされたビットストリームによって表現され、変調スペクトルを決定する段階が:
・前記エンコードされたビットストリームのフレームのシーケンスにおけるスペクトル帯域複製データの量に関連付けられたペイロード量のシーケンスを決定する段階と;
・ペイロード量の前記シーケンスから、複数の相続く、部分的に重なり合うサブシーケンスを選択する段階と;
・前記複数の相続くサブシーケンスに対して時間軸に沿ったスペクトル解析を実行し、それにより前記複数の重要性値およびその対応する生起周波数を与える段階とを含む、
方法。
〔態様19〕
態様15ないし18のうちいずれか一項記載の方法であって、変調スペクトルを決定する段階が:
・前記複数の重要性値に、対応する生起周波数の人間の知覚上の選好に関連する重みを乗算する段階を含む、
方法。
〔態様20〕
態様15ないし19のうちいずれか一項記載の方法であって、物理的に顕著なテンポを決定する段階が:
・前記物理的に顕著なテンポを、前記複数の重要性値のうちの絶対的な最大値に対応する生起周波数として決定することを含む、
方法。
〔態様21〕
態様15ないし20のうちいずれか一項記載の方法であって、拍メトリックを決定する段階が:
・複数の0でない周波数遅延について、前記変調スペクトルの自己相関を決定する段階と;
・自己相関の最大および対応する周波数遅延を同定する段階と;
・前記対応する周波数遅延および前記物理的に顕著なテンポに基づいて前記拍メトリックを決定する段階とを含む、
方法。
〔態様22〕
態様15ないし20のうちいずれか一項記載の方法であって、泊メトリックを決定する段階が:
・前記変調スペクトルと複数の拍メトリックにそれぞれ対応する複数の合成されたタッピング関数との間の相互相関を決定する段階と;
・最大の相互相関を与える拍メトリックを選択する段階とを含む、
方法。
〔態様23〕
態様15ないし22のうちいずれか一項記載の方法であって、前記拍メトリックが:
・3/4拍子の場合の3;または
・4/4拍子の場合の2
のうちの一つである、方法。
〔態様24〕
態様15ないし23のうちいずれか一項記載の方法であって、知覚的テンポ指標を決定する段階が:
・前記複数の重要性値の平均値を、前記複数の重要性値のうちの最大値によって規格化したものとして第一の知覚的テンポ指標を決定することを含む、
方法。
〔態様25〕
態様24記載の方法であって、知覚的に顕著なテンポを決定する段階が:
・前記第一の知覚的テンポ指標が第一の閾値を超えるかどうかを判定し;
・前記第一の閾値を超える場合にのみ前記物理的に顕著なテンポを修正することを含む、
方法。
〔態様26〕
態様15ないし25のうちいずれか一項記載の方法であって、知覚的テンポ指標を決定する段階が:
・前記複数の重要性値のうちの最大値として第二の知覚的テンポ指標を決定することを含む、
方法。
〔態様27〕
態様26記載の方法であって、知覚的に顕著なテンポを決定する段階が:
・前記第二の知覚的テンポ指標が第二の閾値を下回るかどうかを判定し;
・前記第二の知覚的テンポ指標が前記第二の閾値を下回る場合に前記物理的に顕著なテンポを修正することを含む、
方法。
〔態様28〕
態様15ないし27のうちいずれか一項記載の方法であって、知覚的テンポ指標を決定する段階が:
・前記変調スペクトルの重心生起周波数として、第三の知覚的テンポ指標を決定することを含む、
方法。
〔態様29〕
態様28記載の方法であって、知覚的に顕著なテンポを決定する段階が:
・前記第三の知覚的テンポ指標と前記物理的に顕著なテンポとの間のミスマッチを判別し;
・ミスマッチが判別される場合に、前記物理的に顕著なテンポを修正することを含む、
方法。
〔態様30〕
態様29記載の方法であって、ミスマッチの判別が:
・前記第三の知覚的テンポ指標が第三の閾値を下回り、前記物理的に顕著なテンポが第四の閾値を上回ることを判別する、または
・前記第三の知覚的テンポ指標が第五の閾値を上回り、前記物理的に顕著なテンポが第六の閾値を下回ることを判別することを含む、
方法。
〔態様31〕
態様15ないし30のうちいずれか一項記載の方法であって、前記物理的に顕著なテンポを前記拍メトリックに基づいて修正することが:
・拍レベルを、根底にある拍子の、次の、より高い拍レベルに上げること、または
・拍レベルを、根底にある拍子の、次の、より低い拍レベルに下げることを含む、
方法。
〔態様32〕
態様31記載の方法であって、前記拍レベルを上げることまたは下げることが:
・3/4拍子の場合、前記物理的に顕著なテンポに3をかけるまたは前記物理的に顕著なテンポを3で割ること;および
・4/4拍子の場合、前記物理的に顕著なテンポに2をかけるまたは前記物理的に顕著なテンポを2で割ることを含む、
方法。
〔態様33〕
プロセッサ上での実行のために適応され、コンピューティング・デバイス上で実行されるときに態様1ないし32のうちいずれか一項記載の方法の段階を実行するよう適応されたソフトウェア・プログラム。
〔態様34〕
プロセッサ上での実行のために適応され、コンピューティング・デバイス上で実行されるときに態様1ないし32のうちいずれか一項記載の方法の段階を実行するよう適応されたソフトウェア・プログラムを有する記憶媒体。
〔態様35〕
コンピュータ上で実行されるときに態様1ないし32のうちいずれか一項記載の方法を実行するための実行可能命令を含むコンピュータ・プログラム・プロダクト。
〔態様36〕
・オーディオ信号を記憶するよう構成された記憶ユニットと;
・前記オーディオ信号をレンダリングするよう構成されたオーディオ・レンダリング・ユニットと;
・前記オーディオ信号についてのテンポ情報を求めるユーザーの要求を受け取るよう構成されたユーザー・インターフェースと;
・前記オーディオ信号に対して態様1ないし32のうちいずれか一項記載の方法の段階を実行することによってテンポ情報を決定するよう構成されたプロセッサとを有する、
ポータブル電子装置。
〔態様37〕
オーディオ信号のスペクトル帯域複製データを含むエンコードされたビットストリームから、前記オーディオ信号のテンポ情報を抽出するよう構成されたシステムであって:
・前記オーディオ信号のある時間区間の前記エンコードされたビットストリーム中に含まれるスペクトル帯域複製データの量に関連付けられたペイロード量を決定する手段と;
・上記の決定する段階を、前記オーディオ信号の前記エンコードされたビットストリームの一連の時間区間について繰り返し、それによりペイロード量のシーケンスを決定する手段と;
・ペイロード量の前記シーケンスにおける周期性を同定する手段と;
・同定された周期性から前記オーディオ信号のテンポ情報を抽出する手段とを有する、
システム。
〔態様38〕
オーディオ信号の知覚的に顕著なテンポを推定するよう構成されたシステムであって:
・前記オーディオ信号から変調スペクトルを決定する手段であって、前記変調スペクトルは複数の生起周波数および対応する複数の重要性値を含み、前記重要性値は前記オーディオ信号における対応する生起周波数の相対的な重要性を示す、手段と;
・物理的に顕著なテンポを、前記複数の重要性値の最大値に対応する生起周波数として決定する手段と;
・前記変調スペクトルを解析することによって前記オーディオ信号の拍メトリックを決定する手段と;
・前記変調スペクトルから知覚的テンポ指標を決定する手段と;
・前記拍メトリックに基づいて前記物理的に顕著なテンポを修正することによって知覚的に顕著なテンポを決定する手段とを有しており、前記修正する段階は、前記知覚的テンポ指標と前記物理的に顕著なテンポとの間の関係を考慮に入れる、
システム。
〔態様39〕
オーディオ信号のメタデータを含むエンコードされたビットストリームを生成する方法であって:
・前記オーディオ信号のテンポに関連付けられたメタデータを決定する段階と;
・前記メタデータをエンコードされたビットストリーム中に挿入する段階とを含む、
方法。
〔態様40〕
前記メタデータが、前記オーディオ信号の物理的に顕著なテンポおよび/または知覚的に顕著なテンポを表すデータを含む、態様39記載の方法。
〔態様41〕
態様39または40記載の方法であって、前記メタデータが、前記オーディオ信号からの変調スペクトルを表すデータを含み、前記変調スペクトルは、複数の生起周波数および対応する複数の重要性値を含み、前記重要性値は前記オーディオ信号における対応する生起周波数の相対的な重要性を示す、方法。
〔態様42〕
態様39ないし41のうちいずれか一項記載の方法であって、さらに:
・HE-AAC、MP3、AAC、ドルビー・デジタルまたはドルビー・デジタル・プラスのエンコーダのうちの一つを使って、前記オーディオ信号を、前記エンコードされたビットストリームのペイロード・データのシーケンスにエンコードする段階を含む、
方法。
〔態様43〕
オーディオ信号のメタデータを含むエンコードされたビットストリームから、前記オーディオ信号のテンポに関連付けられたデータを抽出する方法であって:
・前記エンコードされたビットストリームの前記メタデータを識別する段階と;
・前記エンコードされたビットストリームの前記メタデータから、前記オーディオ信号のテンポに関連付けられたデータを抽出する段階とを含む、
方法。
〔態様44〕
メタデータを含むオーディオ信号のエンコードされたビットストリームであって、前記メタデータは:
・前記オーディオ信号の物理的に顕著なテンポおよび/または知覚的に顕著なテンポ;
・前記オーディオ信号からの変調スペクトル、
の少なくとも一つを表すデータを含み、前記変調スペクトルは、複数の生起周波数および対応する複数の重要性値を含み、前記重要性値は前記オーディオ信号における対応する生起周波数の相対的な重要性を示す、
ビットストリーム。
〔態様45〕
オーディオ信号のメタデータを含むエンコードされたビットストリームを生成するよう構成されたオーディオ・エンコーダであって、当該エンコーダは:
・前記オーディオ信号のテンポに関連付けられたメタデータを決定する手段と;
・前記メタデータを前記エンコードされたビットストリーム中に挿入する手段とを有する、
エンコーダ。
〔態様46〕
オーディオ信号のメタデータを含むエンコードされたビットストリームから、前記オーディオ信号のテンポに関連付けられたデータを抽出するよう構成されたオーディオ・デコーダであって、当該デコーダは:
・前記エンコードされたビットストリームの前記メタデータを識別する手段と;
・前記エンコードされたビットストリームの前記メタデータから、前記オーディオ信号のテンポに関連付けられたデータを抽出する段階とを含む、
デコーダ。
Claims (24)
- オーディオ信号の圧縮されたスペクトル帯域複製エンコードされたビットストリームから前記オーディオ信号のテンポ情報を抽出する方法であって、前記エンコードされたビットストリームはスペクトル帯域複製データを含み、当該方法は:
・前記オーディオ信号のある時間区間について、前記エンコードされたビットストリーム中に含まれるスペクトル帯域複製データの量に関連付けられたペイロード量を決定する段階と;
・前記決定する段階を、前記オーディオ信号の前記エンコードされたビットストリームの一連の時間区間について繰り返し、それによりペイロード量のシーケンスを決定する段階と;
・ペイロード量の前記シーケンスにおける周期性を同定する段階と;
・同定された周期性から、前記オーディオ信号のテンポ情報を抽出する段階とを含む、
方法。 - 請求項1記載の方法であって、ペイロード量を決定する段階が:
・前記時間区間における前記エンコードされたビットストリームの一つまたは複数の充填要素フィールドに含まれるデータの量を決定する段階と;
・前記時間区間における前記エンコードされたビットストリームの前記一つまたは複数の充填要素フィールドに含まれるデータの量に基づいて前記ペイロード量を決定する段階とを含む、
方法。 - 請求項2記載の方法であって、ペイロード量を決定する段階が:
・前記時間区間における前記エンコードされたビットストリームの前記一つまたは複数の充填要素フィールドに含まれるスペクトル帯域複製ヘッダ・データの量を決定する段階と;
・前記時間区間における前記エンコードされたビットストリームの前記一つまたは複数の充填要素フィールドに含まれる正味のデータ量を、前記時間区間における前記エンコードされたビットストリームの前記一つまたは複数の充填要素フィールドに含まれるスペクトル帯域複製ヘッダ・データの量を控除することによって決定する段階と;
・前記ペイロード量を前記正味のデータ量に基づいて決定する段階とを含む、
方法。 - 前記ペイロード量が前記正味のデータ量に対応する、請求項3記載の方法。
- 請求項1ないし4のうちいずれか一項記載の方法であって、
・前記エンコードされたビットストリームが複数のフレームを含み、各フレームは、前記オーディオ信号の、所定の長さの時間の抜粋に対応し、
・前記時間区間が、前記エンコードされたビットストリームの一フレームに対応する、
方法。 - 請求項1ないし5のうちいずれか一項記載の方法であって、前記繰り返しが前記エンコードされたビットストリームのすべてのフレームについて実行される、方法。
- 請求項1ないし6のうちいずれか一項記載の方法であって、周期性を同定することが:
・ペイロード量の前記シーケンスにおけるピークの周期性を同定することを含む、
方法。 - 請求項1ないし7のうちいずれか一項記載の方法であって、周期性を同定することが:
・ペイロード量の前記シーケンスに対してスペクトル解析を実行し、一組のパワー値および対応する周波数を与える段階と;
・ペイロード量の前記シーケンスにおける周期性を、前記一組のパワー値における相対的な最大を判別し、対応する周波数として周期性を選択することによって、同定する段階とを含む、
方法。 - 請求項8記載の方法であって、スペクトル解析の実行が:
・ペイロード量の前記シーケンスの複数のサブシーケンスに対してスペクトル解析を実行し、複数組のパワー値を与える段階と;
・前記複数組のパワー値を平均する段階とを含む、
方法。 - 前記複数のサブシーケンスが部分的に重なり合う、請求項9記載の方法。
- スペクトル解析の実行が、フーリエ変換を実行することを含む、請求項8ないし10のうちいずれか一項記載の方法。
- 請求項8ないし11のうちいずれか一項記載の方法であって、さらに:
・前記複数組のパワー値に、対応する周波数の人間の知覚上の選好に関連した重みを乗算する段階を含む、
方法。 - 請求項8ないし12のうちいずれか一項記載の方法であって、テンポ情報を抽出する段階が:
・前記一組のパワー値の絶対的な最大値に対応する周波数を決定することを含み、前記周波数が前記オーディオ信号の物理的に顕著なテンポに対応する、
方法。 - 請求項1ないし13のうちいずれか一項記載の方法であって、前記オーディオ信号が音楽信号を含み、テンポ情報を抽出する段階が、前記音楽信号のテンポを推定することを含む、方法。
- プロセッサ上での実行のために適応され、コンピューティング・デバイス上で実行されるときに請求項1ないし14のうちいずれか一項記載の方法の段階を実行するよう適応されたソフトウェア・プログラム。
- プロセッサ上での実行のために適応され、コンピューティング・デバイス上で実行されるときに請求項1ないし14のうちいずれか一項記載の方法の段階を実行するよう適応されたソフトウェア・プログラムを有する記憶媒体。
- コンピュータ上で実行されるときに請求項1ないし14のうちいずれか一項記載の方法を実行するための実行可能命令を含むコンピュータ・プログラム。
- ・オーディオ信号を記憶するよう構成された記憶ユニットと;
・前記オーディオ信号をレンダリングするよう構成されたオーディオ・レンダリング・ユニットと;
・前記オーディオ信号についてのテンポ情報を求めるユーザーの要求を受け取るよう構成されたユーザー・インターフェースと;
・前記オーディオ信号に対して請求項1ないし14のうちいずれか一項記載の方法の段階を実行することによってテンポ情報を決定するよう構成されたプロセッサとを有する、
ポータブル電子装置。 - オーディオ信号の圧縮されたスペクトル帯域複製エンコードされたビットストリームから、前記オーディオ信号のテンポ情報を抽出するよう構成されたシステムであって、前記エンコードされたビットストリームは前記オーディオ信号のスペクトル帯域複製データを含み、当該システムが:
・前記オーディオ信号のある時間区間の前記エンコードされたビットストリーム中に含まれるスペクトル帯域複製データの量に関連付けられたペイロード量を決定する手段と;
・上記の決定する段階を、前記オーディオ信号の前記エンコードされたビットストリームの一連の時間区間について繰り返し、それによりペイロード量のシーケンスを決定する手段と;
・ペイロード量の前記シーケンスにおける周期性を同定する手段と;
・同定された周期性から前記オーディオ信号のテンポ情報を抽出する手段とを有する、
システム。 - オーディオ信号のメタデータを含むエンコードされたビットストリームを生成する方法であって:
・前記オーディオ信号のテンポに関連付けられたメタデータを決定する段階であって、前記テンポは請求項1ないし14のうちいずれか一項記載の方法に基づいて決定されている、段階と;
・前記メタデータをエンコードされたビットストリーム中に挿入する段階とを含む、
方法。 - 前記メタデータが、前記オーディオ信号の物理的に顕著なテンポおよび/または知覚的に顕著なテンポを表すデータを含む、請求項20記載の方法。
- 請求項20または21記載の方法であって、前記メタデータが、前記オーディオ信号からの変調スペクトルを表すデータを含み、前記変調スペクトルは、複数の生起周波数および対応する複数の重要性値を含み、前記重要性値は前記オーディオ信号における対応する生起周波数の相対的な重要性を示す、方法。
- 請求項20ないし22のうちいずれか一項記載の方法であって、さらに:
・HE-AAC、MP3、AAC、ドルビー・デジタルまたはドルビー・デジタル・プラスのエンコーダのうちの一つを使って、前記オーディオ信号を、前記エンコードされたビットストリームのペイロード・データのシーケンスにエンコードする段階を含む、
方法。 - オーディオ信号のメタデータを含むエンコードされたビットストリームを生成するよう構成されたオーディオ・エンコーダであって、当該エンコーダは:
・前記オーディオ信号のテンポに関連付けられたメタデータを決定する手段であって、前記テンポは請求項1ないし14のうちいずれか一項記載の方法の段階に基づいて決定されている、手段と;
・前記メタデータを前記エンコードされたビットストリーム中に挿入する手段とを有する、
エンコーダ。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US25652809P | 2009-10-30 | 2009-10-30 | |
US61/256,528 | 2009-10-30 | ||
PCT/EP2010/066151 WO2011051279A1 (en) | 2009-10-30 | 2010-10-26 | Complexity scalable perceptual tempo estimation |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013122581A Division JP5543640B2 (ja) | 2009-10-30 | 2013-06-11 | 複雑さがスケーラブルな知覚的テンポ推定 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013508767A JP2013508767A (ja) | 2013-03-07 |
JP5295433B2 true JP5295433B2 (ja) | 2013-09-18 |
Family
ID=43431930
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012534723A Expired - Fee Related JP5295433B2 (ja) | 2009-10-30 | 2010-10-26 | 複雑さがスケーラブルな知覚的テンポ推定 |
JP2013122581A Expired - Fee Related JP5543640B2 (ja) | 2009-10-30 | 2013-06-11 | 複雑さがスケーラブルな知覚的テンポ推定 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013122581A Expired - Fee Related JP5543640B2 (ja) | 2009-10-30 | 2013-06-11 | 複雑さがスケーラブルな知覚的テンポ推定 |
Country Status (10)
Country | Link |
---|---|
US (1) | US9466275B2 (ja) |
EP (2) | EP2988297A1 (ja) |
JP (2) | JP5295433B2 (ja) |
KR (2) | KR101612768B1 (ja) |
CN (2) | CN104157280A (ja) |
BR (1) | BR112012011452A2 (ja) |
HK (1) | HK1168460A1 (ja) |
RU (2) | RU2507606C2 (ja) |
TW (1) | TWI484473B (ja) |
WO (1) | WO2011051279A1 (ja) |
Families Citing this family (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2565008C2 (ru) * | 2008-03-10 | 2015-10-10 | Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. | Устройство и метод для обработки аудио сигнала, содержащего переходный сигнал |
US20100324913A1 (en) * | 2009-06-18 | 2010-12-23 | Jacek Piotr Stachurski | Method and System for Block Adaptive Fractional-Bit Per Sample Encoding |
JP5569228B2 (ja) * | 2010-08-02 | 2014-08-13 | ソニー株式会社 | テンポ検出装置、テンポ検出方法およびプログラム |
US8719019B2 (en) * | 2011-04-25 | 2014-05-06 | Microsoft Corporation | Speaker identification |
JP6185457B2 (ja) * | 2011-04-28 | 2017-08-23 | ドルビー・インターナショナル・アーベー | 効率的なコンテンツ分類及びラウドネス推定 |
JP5807453B2 (ja) * | 2011-08-30 | 2015-11-10 | 富士通株式会社 | 符号化方法、符号化装置および符号化プログラム |
EP2786377B1 (en) * | 2011-11-30 | 2016-03-02 | Dolby International AB | Chroma extraction from an audio codec |
DE102012208405A1 (de) * | 2012-05-21 | 2013-11-21 | Rohde & Schwarz Gmbh & Co. Kg | Messgerät und Verfahren zur verbesserten Abbildung von Spektralverläufen |
US9992490B2 (en) * | 2012-09-26 | 2018-06-05 | Sony Corporation | Video parameter set (VPS) syntax re-ordering for easy access of extension parameters |
US20140162628A1 (en) * | 2012-12-07 | 2014-06-12 | Apple Inc. | Methods for Validating Radio-Frequency Test Systems Using Statistical Weights |
US9704478B1 (en) * | 2013-12-02 | 2017-07-11 | Amazon Technologies, Inc. | Audio output masking for improved automatic speech recognition |
WO2015093668A1 (ko) * | 2013-12-20 | 2015-06-25 | 김태홍 | 오디오 신호 처리 장치 및 방법 |
GB2522644A (en) * | 2014-01-31 | 2015-08-05 | Nokia Technologies Oy | Audio signal analysis |
WO2015124597A1 (en) * | 2014-02-18 | 2015-08-27 | Dolby International Ab | Estimating a tempo metric from an audio bit-stream |
US20170245070A1 (en) * | 2014-08-22 | 2017-08-24 | Pioneer Corporation | Vibration signal generation apparatus and vibration signal generation method |
CN104299621B (zh) * | 2014-10-08 | 2017-09-22 | 北京音之邦文化科技有限公司 | 一种音频文件的节奏感强度获取方法及装置 |
KR20160102815A (ko) * | 2015-02-23 | 2016-08-31 | 한국전자통신연구원 | 잡음에 강인한 오디오 신호 처리 장치 및 방법 |
US9372881B1 (en) | 2015-12-29 | 2016-06-21 | International Business Machines Corporation | System for identifying a correspondence between a COBOL copybook or PL/1 include file and a VSAM or sequential dataset |
US20210407484A1 (en) * | 2017-01-09 | 2021-12-30 | Inmusic Brands, Inc. | Systems and methods for providing audio-file loop-playback functionality |
CN108989706A (zh) * | 2017-06-02 | 2018-12-11 | 北京字节跳动网络技术有限公司 | 基于音乐节奏生成特效的方法及装置 |
JP6946442B2 (ja) * | 2017-09-12 | 2021-10-06 | AlphaTheta株式会社 | 楽曲解析装置および楽曲解析プログラム |
CN108320730B (zh) * | 2018-01-09 | 2020-09-29 | 广州市百果园信息技术有限公司 | 音乐分类方法及节拍点检测方法、存储设备及计算机设备 |
US11443724B2 (en) * | 2018-07-31 | 2022-09-13 | Mediawave Intelligent Communication | Method of synchronizing electronic interactive device |
WO2020207593A1 (en) * | 2019-04-11 | 2020-10-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder, apparatus for determining a set of values defining characteristics of a filter, methods for providing a decoded audio representation, methods for determining a set of values defining characteristics of a filter and computer program |
CN110585730B (zh) * | 2019-09-10 | 2021-12-07 | 腾讯科技(深圳)有限公司 | 游戏的节奏感测试方法、装置以及相关设备 |
CN110853677B (zh) * | 2019-11-20 | 2022-04-26 | 北京雷石天地电子技术有限公司 | 歌曲的鼓声节拍识别方法、装置、终端和非临时性计算机可读存储介质 |
CN111785237B (zh) * | 2020-06-09 | 2024-04-19 | Oppo广东移动通信有限公司 | 音频节奏确定方法、装置、存储介质和电子设备 |
CN112866770B (zh) * | 2020-12-31 | 2023-12-05 | 北京奇艺世纪科技有限公司 | 一种设备控制方法、装置、电子设备及存储介质 |
WO2022227037A1 (zh) * | 2021-04-30 | 2022-11-03 | 深圳市大疆创新科技有限公司 | 音频处理、视频处理方法、装置、设备及存储介质 |
Family Cites Families (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
SE512719C2 (sv) | 1997-06-10 | 2000-05-02 | Lars Gustaf Liljeryd | En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion |
DE19736669C1 (de) | 1997-08-22 | 1998-10-22 | Fraunhofer Ges Forschung | Verfahren und Vorrichtung zum Erfassen eines Anschlags in einem zeitdiskreten Audiosignal sowie Vorrichtung und Verfahren zum Codieren eines Audiosignals |
US6240379B1 (en) * | 1998-12-24 | 2001-05-29 | Sony Corporation | System and method for preventing artifacts in an audio data encoder device |
US6978236B1 (en) | 1999-10-01 | 2005-12-20 | Coding Technologies Ab | Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching |
US7069208B2 (en) | 2001-01-24 | 2006-06-27 | Nokia, Corp. | System and method for concealment of data loss in digital audio transmission |
US7447639B2 (en) | 2001-01-24 | 2008-11-04 | Nokia Corporation | System and method for error concealment in digital audio transmission |
US7013269B1 (en) | 2001-02-13 | 2006-03-14 | Hughes Electronics Corporation | Voicing measure for a speech CODEC system |
JP4646099B2 (ja) * | 2001-09-28 | 2011-03-09 | パイオニア株式会社 | オーディオ情報再生装置及びオーディオ情報再生システム |
US20040083110A1 (en) | 2002-10-23 | 2004-04-29 | Nokia Corporation | Packet loss recovery based on music signal classification and mixing |
WO2006037366A1 (en) * | 2004-10-08 | 2006-04-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for generating an encoded rhythmic pattern |
US20060111621A1 (en) * | 2004-11-03 | 2006-05-25 | Andreas Coppi | Musical personal trainer |
US7177804B2 (en) * | 2005-05-31 | 2007-02-13 | Microsoft Corporation | Sub-band voice codec with multi-stage codebooks and redundant coding |
US20070036228A1 (en) * | 2005-08-12 | 2007-02-15 | Via Technologies Inc. | Method and apparatus for audio encoding and decoding |
US7518053B1 (en) * | 2005-09-01 | 2009-04-14 | Texas Instruments Incorporated | Beat matching for portable audio |
JP4949687B2 (ja) * | 2006-01-25 | 2012-06-13 | ソニー株式会社 | ビート抽出装置及びビート抽出方法 |
JP4632136B2 (ja) * | 2006-03-31 | 2011-02-16 | 富士フイルム株式会社 | 楽曲テンポ抽出方法、装置及びプログラム |
US20080059154A1 (en) * | 2006-09-01 | 2008-03-06 | Nokia Corporation | Encoding an audio signal |
US7645929B2 (en) * | 2006-09-11 | 2010-01-12 | Hewlett-Packard Development Company, L.P. | Computational music-tempo estimation |
JP4799333B2 (ja) | 2006-09-14 | 2011-10-26 | シャープ株式会社 | 楽曲分類方法、楽曲分類装置及びコンピュータプログラム |
TWI443647B (zh) * | 2007-02-14 | 2014-07-01 | Lg Electronics Inc | 用以將以物件為主之音訊信號編碼與解碼之方法與裝置 |
CN100462878C (zh) * | 2007-08-29 | 2009-02-18 | 南京工业大学 | 智能机器人识别舞蹈音乐节奏的方法 |
JP5098530B2 (ja) | 2007-09-12 | 2012-12-12 | 富士通株式会社 | 復号化装置、復号化方法および復号化プログラム |
US8344234B2 (en) | 2008-04-11 | 2013-01-01 | Pioneer Corporation | Tempo detecting device and tempo detecting program |
US8392200B2 (en) * | 2009-04-14 | 2013-03-05 | Qualcomm Incorporated | Low complexity spectral band replication (SBR) filterbanks |
-
2010
- 2010-10-18 TW TW099135450A patent/TWI484473B/zh not_active IP Right Cessation
- 2010-10-26 US US13/503,136 patent/US9466275B2/en not_active Expired - Fee Related
- 2010-10-26 CN CN201410392507.6A patent/CN104157280A/zh active Pending
- 2010-10-26 EP EP15178512.8A patent/EP2988297A1/en not_active Withdrawn
- 2010-10-26 KR KR1020147000929A patent/KR101612768B1/ko not_active IP Right Cessation
- 2010-10-26 WO PCT/EP2010/066151 patent/WO2011051279A1/en active Application Filing
- 2010-10-26 RU RU2012117702/28A patent/RU2507606C2/ru not_active IP Right Cessation
- 2010-10-26 KR KR1020127010356A patent/KR101370515B1/ko not_active IP Right Cessation
- 2010-10-26 CN CN201080048994.4A patent/CN102754147B/zh not_active Expired - Fee Related
- 2010-10-26 EP EP10778909.1A patent/EP2494544B1/en not_active Not-in-force
- 2010-10-26 JP JP2012534723A patent/JP5295433B2/ja not_active Expired - Fee Related
- 2010-10-26 BR BR112012011452A patent/BR112012011452A2/pt not_active IP Right Cessation
-
2012
- 2012-09-18 HK HK12109169.2A patent/HK1168460A1/xx not_active IP Right Cessation
-
2013
- 2013-06-11 JP JP2013122581A patent/JP5543640B2/ja not_active Expired - Fee Related
- 2013-10-17 RU RU2013146355/28A patent/RU2013146355A/ru not_active Application Discontinuation
Also Published As
Publication number | Publication date |
---|---|
BR112012011452A2 (pt) | 2016-05-03 |
US20120215546A1 (en) | 2012-08-23 |
EP2494544A1 (en) | 2012-09-05 |
WO2011051279A1 (en) | 2011-05-05 |
CN102754147A (zh) | 2012-10-24 |
RU2012117702A (ru) | 2013-11-20 |
RU2507606C2 (ru) | 2014-02-20 |
TWI484473B (zh) | 2015-05-11 |
KR20140012773A (ko) | 2014-02-03 |
CN104157280A (zh) | 2014-11-19 |
RU2013146355A (ru) | 2015-04-27 |
KR101370515B1 (ko) | 2014-03-06 |
JP2013508767A (ja) | 2013-03-07 |
TW201142818A (en) | 2011-12-01 |
CN102754147B (zh) | 2014-10-22 |
JP2013225142A (ja) | 2013-10-31 |
KR101612768B1 (ko) | 2016-04-18 |
EP2988297A1 (en) | 2016-02-24 |
US9466275B2 (en) | 2016-10-11 |
HK1168460A1 (en) | 2012-12-28 |
EP2494544B1 (en) | 2015-09-02 |
JP5543640B2 (ja) | 2014-07-09 |
KR20120063528A (ko) | 2012-06-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5543640B2 (ja) | 複雑さがスケーラブルな知覚的テンポ推定 | |
CN103582913B (zh) | 有效内容分类及响度估计 | |
EP2659481B1 (en) | Scene change detection around a set of seed points in media data | |
US9697840B2 (en) | Enhanced chroma extraction from an audio codec | |
US9892758B2 (en) | Audio information processing | |
MX2012009787A (es) | Aparato y metodo para modificar una señal de audio usando modelado de envolvente. | |
Lerch | An introduction to audio content analysis: Music Information Retrieval tasks and applications | |
Cunningham et al. | Data reduction of audio by exploiting musical repetition | |
Hollosi et al. | Complexity Scalable Perceptual Tempo Estimation from HE-AAC Encoded Music | |
CN114677995A (zh) | 音频处理方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130115 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130411 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130514 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130611 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |