JP5384952B2 - 特徴量抽出装置、特徴量抽出方法、およびプログラム - Google Patents
特徴量抽出装置、特徴量抽出方法、およびプログラム Download PDFInfo
- Publication number
- JP5384952B2 JP5384952B2 JP2009006702A JP2009006702A JP5384952B2 JP 5384952 B2 JP5384952 B2 JP 5384952B2 JP 2009006702 A JP2009006702 A JP 2009006702A JP 2009006702 A JP2009006702 A JP 2009006702A JP 5384952 B2 JP5384952 B2 JP 5384952B2
- Authority
- JP
- Japan
- Prior art keywords
- frequency
- mel
- music data
- same number
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000605 extraction Methods 0.000 title claims description 66
- 238000000034 method Methods 0.000 claims description 38
- 239000013598 vector Substances 0.000 claims description 37
- 238000004364 calculation method Methods 0.000 claims description 35
- 230000008569 process Effects 0.000 claims description 31
- 238000005070 sampling Methods 0.000 claims description 24
- 230000010354 integration Effects 0.000 claims description 21
- 238000012545 processing Methods 0.000 claims description 19
- 238000013500 data storage Methods 0.000 claims description 14
- 230000009466 transformation Effects 0.000 claims description 8
- 239000000284 extract Substances 0.000 claims description 4
- 230000006870 function Effects 0.000 description 25
- 238000006243 chemical reaction Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 239000000470 constituent Substances 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 238000013139 quantization Methods 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/63—Querying
- G06F16/632—Query formulation
- G06F16/634—Query by example, e.g. query by humming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/683—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Library & Information Science (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Auxiliary Devices For Music (AREA)
Description
図1は、本発明の一実施形態に係る楽曲検索システム1の構成を示す図である。楽曲検索システム1は、ユーザが操作可能に設けられた端末10と、端末10と通信可能に設けられた楽曲検索装置20と、を備える。楽曲検索装置20は、楽曲データベース21、特徴量抽出部22、楽曲特徴データベース23、および楽曲検索部24を備える。
図2は、特徴量抽出部22の構成を示すブロック図である。特徴量抽出部22は、MDCT係数抽出部31、分類部32、積算部33、および特徴量算出部34を備える。
以下に、楽曲データベース21に記憶されている複数のAAC形式の楽曲データのうち1曲の楽曲データ(以降、「対象楽曲データ」と呼ぶ)のAACCEPを特徴量抽出部22により求める手順について、図4のフローチャートを参照しながら説明する。
図7は、MFCCとの類似度を示す図である。図7において、MFCCのグラフでは、ある特定の1曲のWAVE形式の楽曲データの特徴量と、所定の100曲のWAVE形式の楽曲データの特徴量と、のコサイン距離を算出し、近いものから順に並べたものを表す。また、図7において、MP3CEPのグラフでは、上述の特定の1曲のMP3形式の楽曲データの特徴量と、上述の所定の100曲のMP3形式の楽曲データの特徴量と、を従来の方法により求め、これらのコサイン距離を算出したものである。一方、図7において、AACCEPのグラフは、上述の特定の1曲のAAC形式の楽曲データの特徴量と、上述の所定の100曲のAAC形式の楽曲データの特徴量と、を上述の特徴量抽出部22により求め、これらのコサイン距離を算出したものである。
10・・・端末
20・・・楽曲検索装置
22・・・特徴量抽出部
31・・・MDCT係数抽出部
32・・・分類部
33・・・積算部
34・・・特徴量算出部
321・・・メル周波数算出部
322・・・メル周波数分割部
323・・・元周波数算出部
324・・・ナイキスト周波数算出部
325・・・ナイキスト周波数分割部
326・・・中心周波数分割部
327・・・MDCT係数分類部
Claims (7)
- AAC形式の楽曲データの特徴量を求める特徴量抽出装置であって、
前記AAC形式の楽曲データからMDCT係数を抽出するMDCT係数抽出手段と、
前記MDCT係数抽出手段により抽出されたMDCT係数をメル周波数領域上に配置し、所定数のメルフィルタバンクと同数に均等に分類する分類手段と、
前記分類手段により分類されたMDCT係数をメルフィルタバンクごとに、所定の窓関数を掛けて切出し、積算する積算手段と、
前記積算手段による積算結果の対数コサイン変換を行って、前記特徴量を算出する特徴量算出手段と、
を備え、
前記分類手段は、
前記AAC形式の楽曲データのサンプリング周波数をメル尺度に変換して、メル周波数とするメル周波数算出部と、
前記メル周波数を前記メルフィルタバンクと同数に分割し、分割した各メル周波数の最小値および最大値を算出するメル周波数分割部と、
前記メル周波数分割部により算出された各メル周波数の最小値および最大値を線形尺度に変換して、元周波数の最小値および最大値とする元周波数算出部と、
前記AAC形式の楽曲データのサンプリング周波数から上限周波数を算出する上限周波数算出部と、
前記上限周波数算出部により算出された上限周波数を、所定数のフィルタバンクと同数の周波数帯域に均等に分割する上限周波数分割部と、
前記各周波数帯域の中心周波数を、前記元周波数の最小値から最大値までの間に含まれるものごとに分類することで、前記メルフィルタバンクと同数に分類する中心周波数分類部と、
前記MDCT係数抽出手段により抽出された前記フィルタバンクと同数の各MDCT係数を、前記中心周波数分類部により前記メルフィルタバンクと同数に分類された中心周波数に対応させることで、前記メルフィルタバンクと同数に分類するMDCT係数分類部と、
を備え、
前記積算手段は、前記MDCT係数分類部により分類されたMDCT係数を前記メルフィルタバンクごとに、前記所定の窓関数を掛けて切出し、積算することを特徴とする特徴量抽出装置。 - 前記MDCT係数抽出手段は、
前記AAC形式の楽曲データを非圧縮PCM形式の楽曲データに変換する複数の処理のうち、前記AAC形式の楽曲データからMDCT係数を抽出する処理を行うことを特徴とする請求項1に記載の特徴量抽出装置。 - 前記積算手段は、前記MDCT係数分類部により分類されたMDCT係数に対して所定の係数を掛けて高域強調を行った後に、高域強調を行ったMDCT係数を前記メルフィルタバンクごとに、前記所定の窓関数を掛けて切出し、積算することを特徴とする請求項1または2に記載の特徴量抽出装置。
- 請求項1乃至3のいずれかに記載の特徴量抽出装置と、
複数のAAC形式の楽曲データを記憶する楽曲データ記憶手段と、
前記特徴量抽出装置により、前記楽曲データ記憶手段に記憶された複数のAAC形式の楽曲データのそれぞれの特徴量を求め、求めた特徴量のそれぞれを記憶する特徴量記憶手段と、
を備えることを特徴とする特徴量データベース作成装置。 - 請求項4に記載の特徴量データベース作成装置と、
前記楽曲データ記憶手段に記憶された複数のAAC形式の楽曲データの中から、ユーザによる楽曲データの選択を受け付ける楽曲データ選択受付手段と、
前記特徴量記憶手段により記憶された特徴量の特徴ベクトルを求める特徴ベクトル生成部と、
前記特徴ベクトル生成部により求められた特徴ベクトルの中から、前記楽曲データ選択受付手段により選択を受け付けた楽曲データの特徴ベクトルとの距離が所定量以下である特定特徴ベクトルを検索する特定特徴ベクトル検索手段と、
前記楽曲データ記憶手段に記憶された複数のAAC形式の楽曲データの中から、特徴ベクトルが前記特定特徴ベクトルである楽曲データを検索する楽曲検索手段と、
を備えることを特徴とする楽曲検索システム。 - AAC形式の楽曲データの特徴量を求める特徴量抽出方法であって、
前記AAC形式の楽曲データからMDCT係数を抽出する第1のステップと、
前記第1のステップにおいて抽出したMDCT係数をメル周波数領域上に配置し、所定数のメルフィルタバンクと同数に均等に分類する第2のステップと、
前記第2のステップにおいて分類したMDCT係数をメルフィルタバンクごとに、所定の窓関数を掛けて切出し、積算する第3のステップと、
前記第3のステップにおける積算結果の対数コサイン変換を行って、前記特徴量を算出する第4のステップと、
を備え、
前記第2のステップは、
前記AAC形式の楽曲データのサンプリング周波数をメル尺度に変換して、メル周波数とする第5のステップと、
前記メル周波数を前記メルフィルタバンクと同数に分割し、分割した各メル周波数の最小値および最大値を算出する第6のステップと、
前記第6のステップにおいて算出した各メル周波数の最小値および最大値を線形尺度に変換して、元周波数の最小値および最大値とする第7のステップと、
前記AAC形式の楽曲データのサンプリング周波数から上限周波数を算出する第8のステップと、
前記第8のステップにおいて算出した上限周波数を、所定数のフィルタバンクと同数の周波数帯域に均等に分割する第9のステップと、
前記各周波数帯域の中心周波数を、前記元周波数の最小値から最大値までの間に含まれるものごとに分類することで、前記メルフィルタバンクと同数に分類する第10のステップと、
前記第1のステップにおいて抽出した前記フィルタバンクと同数の各MDCT係数を、前記第10のステップにおいて前記メルフィルタバンクと同数に分類した中心周波数に対応させることで、前記メルフィルタバンクと同数に分類する第11のステップと、
を備え、
前記第3のステップでは、前記第11のステップにおいて分類したMDCT係数を前記メルフィルタバンクごとに、前記所定の窓関数を掛けて切出し、積算することを特徴とする特徴量抽出方法。 - AAC形式の楽曲データの特徴量を求める特徴量抽出方法を、コンピュータに実行させるためのプログラムであって、
前記AAC形式の楽曲データからMDCT係数を抽出する第1のステップと、
前記第1のステップにおいて抽出したMDCT係数をメル周波数領域上に配置し、所定数のメルフィルタバンクと同数に均等に分類する第2のステップと、
前記第2のステップにおいて分類したMDCT係数をメルフィルタバンクごとに、所定の窓関数を掛けて切出し、積算する第3のステップと、
前記第3のステップにおける積算結果の対数コサイン変換を行って、前記特徴量を算出する第4のステップと、
をコンピュータに実行させ、
前記第2のステップは、
前記AAC形式の楽曲データのサンプリング周波数をメル尺度に変換して、メル周波数とする第5のステップと、
前記メル周波数を前記メルフィルタバンクと同数に分割し、分割した各メル周波数の最小値および最大値を算出する第6のステップと、
前記第6のステップにおいて算出した各メル周波数の最小値および最大値を線形尺度に変換して、元周波数の最小値および最大値とする第7のステップと、
前記AAC形式の楽曲データのサンプリング周波数から上限周波数を算出する第8のステップと、
前記第8のステップにおいて算出した上限周波数を、所定数のフィルタバンクと同数の周波数帯域に均等に分割する第9のステップと、
前記各周波数帯域の中心周波数を、前記元周波数の最小値から最大値までの間に含まれるものごとに分類することで、前記メルフィルタバンクと同数に分類する第10のステップと、
前記第1のステップにおいて抽出した前記フィルタバンクと同数の各MDCT係数を、前記第10のステップにおいて前記メルフィルタバンクと同数に分類した中心周波数に対応させることで、前記メルフィルタバンクと同数に分類する第11のステップと、
を備え、
前記第3のステップでは、前記第11のステップにおいて分類したMDCT係数を前記メルフィルタバンクごとに、前記所定の窓関数を掛けて切出し、積算するためのプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009006702A JP5384952B2 (ja) | 2009-01-15 | 2009-01-15 | 特徴量抽出装置、特徴量抽出方法、およびプログラム |
US12/572,135 US8301284B2 (en) | 2009-01-15 | 2009-10-01 | Feature extraction apparatus, feature extraction method, and program thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009006702A JP5384952B2 (ja) | 2009-01-15 | 2009-01-15 | 特徴量抽出装置、特徴量抽出方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010164762A JP2010164762A (ja) | 2010-07-29 |
JP5384952B2 true JP5384952B2 (ja) | 2014-01-08 |
Family
ID=42337809
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009006702A Expired - Fee Related JP5384952B2 (ja) | 2009-01-15 | 2009-01-15 | 特徴量抽出装置、特徴量抽出方法、およびプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US8301284B2 (ja) |
JP (1) | JP5384952B2 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104221079B (zh) * | 2012-02-21 | 2017-03-01 | 塔塔顾问服务有限公司 | 利用频谱特性进行声音分析的改进的梅尔滤波器组结构 |
KR101306912B1 (ko) * | 2012-03-06 | 2013-09-11 | 주식회사 다음커뮤니케이션 | 검색 시스템 및 그의 검색 방법 |
US8977374B1 (en) * | 2012-09-12 | 2015-03-10 | Google Inc. | Geometric and acoustic joint learning |
US20150331930A1 (en) * | 2014-05-16 | 2015-11-19 | Here Global B.V. | Method and apparatus for classification of media based on metadata |
JP6791258B2 (ja) * | 2016-11-07 | 2020-11-25 | ヤマハ株式会社 | 音声合成方法、音声合成装置およびプログラム |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002135122A (ja) * | 2000-10-19 | 2002-05-10 | Nec Corp | オーディオ信号符号化装置 |
JP2003316818A (ja) * | 2002-02-21 | 2003-11-07 | Kddi Corp | 情報検索方法及びその装置、コンピュータプログラム |
US9123350B2 (en) * | 2005-12-14 | 2015-09-01 | Panasonic Intellectual Property Management Co., Ltd. | Method and system for extracting audio features from an encoded bitstream for audio classification |
JP2008262000A (ja) * | 2007-04-11 | 2008-10-30 | Toshiba Corp | オーディオ信号特徴検出装置及び特徴検出方法 |
-
2009
- 2009-01-15 JP JP2009006702A patent/JP5384952B2/ja not_active Expired - Fee Related
- 2009-10-01 US US12/572,135 patent/US8301284B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US20100185713A1 (en) | 2010-07-22 |
JP2010164762A (ja) | 2010-07-29 |
US8301284B2 (en) | 2012-10-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7460994B2 (en) | Method and apparatus for producing a fingerprint, and method and apparatus for identifying an audio signal | |
JP4067969B2 (ja) | 信号を特徴付ける方法および装置、および、索引信号を生成する方法および装置 | |
CN109493881B (zh) | 一种音频的标签化处理方法、装置和计算设备 | |
JP5826291B2 (ja) | 音声信号からの特徴フィンガープリントの抽出及びマッチング方法 | |
US9589283B2 (en) | Device, method, and medium for generating audio fingerprint and retrieving audio data | |
JP5901790B2 (ja) | メディアデータにおける低計算量反復検出 | |
CN101002254B (zh) | 音频信号的鲁棒分类设备和方法、建立并操作音频信号数据库的方法 | |
Singh et al. | Multimedia analysis for disguised voice and classification efficiency | |
JP5512126B2 (ja) | オーディオ入力信号についての特徴のセットを導出する方法 | |
JP2004530153A6 (ja) | 信号を特徴付ける方法および装置、および、索引信号を生成する方法および装置 | |
CN101057275B (zh) | 矢量变换装置以及矢量变换方法 | |
CN109684506B (zh) | 一种视频的标签化处理方法、装置和计算设备 | |
KR20120064582A (ko) | 멀티미디어 컨텐츠 검색 방법 및 장치 | |
WO2007070007A1 (en) | A method and system for extracting audio features from an encoded bitstream for audio classification | |
WO2006004050A1 (ja) | 特定音響信号含有区間検出システム及びその方法並びにプログラム | |
JP5384952B2 (ja) | 特徴量抽出装置、特徴量抽出方法、およびプログラム | |
JP2000101439A (ja) | 情報処理装置および方法、情報記録装置および方法、記録媒体、並びに提供媒体 | |
KR100888804B1 (ko) | 동영상 데이터의 동일성 판단 및 동일 구간 검출 방법 및장치 | |
Panagiotou et al. | PCA summarization for audio song identification using Gaussian mixture models | |
US6772113B1 (en) | Data processing apparatus for processing sound data, a data processing method for processing sound data, a program providing medium for processing sound data, and a recording medium for processing sound data | |
CN102214219B (zh) | 音视频内容检索系统及其方法 | |
Chang et al. | Cover song identification with direct chroma feature extraction from AAC files | |
KR100764346B1 (ko) | 구간유사도 기반의 자동 음악요약 방법 및 시스템 | |
JP6234134B2 (ja) | 音声合成装置 | |
JP3648931B2 (ja) | 反復変換音声符号化方法および装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110929 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120719 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120807 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130423 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130620 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130917 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131003 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |