JP4597919B2 - 音響信号特徴抽出方法、抽出装置、抽出プログラム、該プログラムを記録した記録媒体、および該特徴を利用した音響信号検索方法、検索装置、検索プログラム、並びに該プログラムを記録した記録媒体 - Google Patents
音響信号特徴抽出方法、抽出装置、抽出プログラム、該プログラムを記録した記録媒体、および該特徴を利用した音響信号検索方法、検索装置、検索プログラム、並びに該プログラムを記録した記録媒体 Download PDFInfo
- Publication number
- JP4597919B2 JP4597919B2 JP2006183131A JP2006183131A JP4597919B2 JP 4597919 B2 JP4597919 B2 JP 4597919B2 JP 2006183131 A JP2006183131 A JP 2006183131A JP 2006183131 A JP2006183131 A JP 2006183131A JP 4597919 B2 JP4597919 B2 JP 4597919B2
- Authority
- JP
- Japan
- Prior art keywords
- acoustic signal
- frequency
- feature
- signal
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
最初に、図1から図4を参照して本発明の原理について説明する。本発明は、音響特徴の抽出の際、音響特徴を抽出する各時点で、音響信号の周波数の変動に応じて、音響特徴を抽出する周波数をずらす構成を有することを特徴としている。例えば、音響信号のパワースペクトログラムが、周波数軸を対数で表した場合に、図1のように表されるとする。このとき、音響特徴は、図2のように、f1,f2,…,fc,…,fkの各周波数のパワーにとして抽出される。このとき、この音響信号の周波数をa倍にして再生すると、図3のように、そのパワースペクトログラムは、パワースペクトログラム値の変化の特徴を維持したまま、周波数軸方向にa倍だけずれたものになる。すなわち、このa倍を移調やピッチシフトとすれば、aの値さえ分かれば、移調やピッチシフトによる周波数変動の影響を吸収することが可能となる。
次に、本発明の第1実施形態に係る音響信号検索装置1について説明する。音響信号検索装置1は、検索したい音響信号、すなわち参照信号を入力し、これより長い音響信号である蓄積信号中から参照信号と類似する信号を含む区間を検出するものである。また、音響信号検索装置1は、上述した原理を適用して音響信号の周波数変動があっても、当該変動に対して頑健、つまり、その変動を吸収して検索を可能にするものである。なお、本明細書において蓄積信号中で参照信号に類似する信号を含む区間を検出するとは、この区間が始まる区間の先頭の時点を検出することと定義する。
次に、上述した第1実施形態の実装例について説明する。
まず、音響信号としては、音楽CDなどで用いられる音響信号(サンプリング周波数44.1kHz、16bit量子化、ステレオ)をダウンサンプリング、モノラル化、量子化ビット数を変更した音響信号(サンプリング周波数11.025kHz、8ビット量子化、モノラル)を用いる。そして、この音響信号に対し、まず、1024点のFFT(Fast Fourier Transform)を10msごとに行い、10msごとにその時点のパワースペクトルを抽出する。そして、この10msごとにスペクトルを時間方向に並べたものとして、スペクトログラムを得る。また、((1/x3)×fc,(1/x2)×fc,(1/x)×fc,x×fc,x2×fc,x3×fc)の各周波数においてパワーを抽出し、抽出した各周波数のパワーの平均値を算出し、算出した平均値で各周波数のパワーを正規化したものを特徴ベクトルとする。ここで、xは71/6である。
次に、本発明の第2実施形態に係る音響信号検索装置2について説明する。音響信号検索装置2は、検索したい音響信号、すなわち参照信号を入力し、これより長い信号である蓄積信号中から参照信号と類似する信号を含む区間を検出するものである。また、音響信号検索装置2は、音響信号に大きな妨害音(加法性雑音)が重畳し、周波数変動が発生した場合であっても、当該変動に対して頑健に、つまり、その変動を吸収して検索を可能にするものである。
図9における音響信号検索装置2は、スペクトログラム分割部20と、基準周波数検出部21と、特徴抽出部22と、符号化部24と、索引生成部25と、類似度計算部23とを備えている。なお、図14において、実線は、参照信号のスペクトログラムを対象とした処理の流れを示したものであり、破線は、蓄積信号のスペクトログラムを対象とした処理の流れを示したものである。
を出力するかわりに、探索閾値を超え、もっとも大きな区間類似度を有する区間のみを出
力するようにしてもよい。
次に、上述した第2実施形態の実装例について説明する。
音響信号は、音楽CDなどで用いられる音響信号(サンプリング周波数44.1kHz、16bit量子化、ステレオ)をダウンサンプリング、モノラル化、量子化ビット数を変更した音響信号(サンプリング周波数11.025kHz、8ビット量子化、モノラル)を用いる。そして、この音響信号に対し、まず、1024点のFFT(Fast Fourier Transform)を10msごとに行い、10msごとにその時点のパワースペクトルを抽出する。そして、この10msごとにスペクトルを時間方向に並べたものとして、スペクトログラムを得る。そして、周波数軸方向でのスペクトログラムの分割数は本実施形態に記載の装置で利用される4とし、各帯域において、((1/x3)×fc,(1/x2)×fc,(1/x)×fc,x×fc,x2×fc,x3×fc)の各周波数においてパワーを抽出し、抽出した各周波数のパワーの平均値を算出し、算出した平均値で各周波数のパワーを正規化したものを特徴ベクトルとする。ここで、xは71/27としている。
11 基準周波数検出部
12 特徴抽出部
13 類似度計算部
Claims (11)
- 入力される音響信号の時間周波数スペクトログラムに基づいて、当該音響信号の特徴量を抽出する音響信号特徴抽出装置における音響信号特徴抽出方法であって、
前記時間周波数スペクトログラムの時間間隔ごとに、前記時間周波数スペクトログラムの所定の基準特徴部を抽出し、
抽出した前記所定の基準特徴部の周波数を前記時間間隔ごとの基準周波数とし、
対数軸上で予め定められた間隔の複数の周波数を、当該基準周波数を基準として抽出し、抽出した各周波数のパワースペクトル値に基づいて前記時間間隔ごとの音響信号の特徴量を抽出する
ことを特徴とする音響信号特徴抽出方法。 - 前記所定の基準特徴部とは、パワースペクトル値が各時間間隔において最大値となる部分であることを特徴とする請求項1に記載の音響信号特徴抽出方法。
- 前記所定の基準特徴部とは、時間軸で連続する幾つかの時間周波数スペクトログラムの中で、パワースペクトル値が最大値となる部分
であることを特徴とする請求項1に記載の音響信号特徴抽出方法。 - 前記所定の基準特徴部とは、時間軸で連続する幾つかの時間周波数スペクトログラムのパワースペクトル値の重心となる部分
であることを特徴とする請求項1に記載の音響信号特徴抽出方法。 - 参照音響信号に基づいて、当該参照音響信号に類似する音を含む区間を、入力される検索対象音響信号から検索する音響信号検索装置における音響信号検索方法であって、
前記参照音響信号及び前記検索対象音響信号それぞれの時間周波数スペクトログラムから、前記時間周波数スペクトログラムの時間間隔ごとの所定の基準特徴部を抽出し、
前記参照音響信号の時間周波数スペクトログラムから抽出した前記所定の基準特徴部の周波数を前記時間間隔ごとの前記参照音響信号の基準周波数とし、
前記検索対象音響信号の時間周波数スペクトログラムから抽出した前記所定の基準特徴部の周波数を前記時間間隔ごとの前記検索対象音響信号の基準周波数とし、
対数軸上で予め定められた間隔の複数の周波数を、前記参照音響信号の基準周波数を基準として抽出し、抽出した各周波数のパワースペクトル値に基づいて前記参照音響信号の前記時間間隔ごとの音響信号の特徴量を抽出し、抽出した特徴量に基づいて前記参照音響信号の信号全体の時間長を一区間とする参照特徴量を算出し、
対数軸上で予め定められた間隔の複数の周波数を、前記検索対象音響信号の基準周波数を基準として抽出し、抽出した各周波数のパワースペクトル値に基づいて前記検索対象音響信号の前記時間間隔ごとの特徴量を抽出し、
抽出した前記検索対象音響信号の前記特徴量に基づいて前記区間ごとの区間特徴量を算出し、
算出した区間特徴量と、前記参照特徴量とに基づいて類似度を算出し、
算出した類似度に基づいて、前記参照音響信号の音に類似する前記検索対象音響信号の区間を検索し、検索により検出した前記参照音響信号の音に類似する前記検索対象音響信号の区間を出力する
ことを特徴とする音響信号検索方法。 - 入力される音響信号の時間周波数スペクトログラムに基づいて、当該音響信号の特徴量を抽出する音響信号特徴抽出装置であって、
前記時間周波数スペクトログラムの時間間隔ごとに、前記時間周波数スペクトログラムの所定の基準特徴部を抽出し、抽出した前記所定の基準特徴部の周波数を前記時間間隔ごとの基準周波数とする基準周波数検出手段と、
対数軸上で予め定められた間隔の複数の周波数を、当該基準周波数を基準として抽出し、抽出した各周波数のパワースペクトル値に基づいて前記時間間隔ごとの音響信号の特徴量を抽出する特徴量抽出手段と、
を備えたことを特徴とする音響信号特徴抽出装置。 - 参照音響信号に基づいて、当該参照音響信号に類似する音を含む区間を、入力される検索対象音響信号から検索する音響信号検索装置であって、
前記参照音響信号及び前記検索対象音響信号それぞれの時間周波数スペクトログラムから、前記時間周波数スペクトログラムの時間間隔ごとの所定の基準特徴部を抽出し、前記参照音響信号の時間周波数スペクトログラムから抽出した前記所定の基準特徴部の周波数を前記時間間隔ごとの前記参照音響信号の基準周波数とし、前記検索対象音響信号の時間周波数スペクトログラムから抽出した前記所定の基準特徴部の周波数を前記時間間隔ごとの前記検索対象音響信号の基準周波数とする基準周波数検出手段と、
対数軸上で予め定められた間隔の複数の周波数を、前記参照音響信号の基準周波数を基準として抽出し、抽出した各周波数のパワースペクトル値に基づいて前記参照音響信号の前記時間間隔ごとの特徴量を抽出し、抽出した特徴量に基づいて前記参照音響信号の信号全体の時間長を一区間とする参照特徴量を算出し、対数軸上で予め定められた間隔の複数の周波数を、前記検索対象音響信号の基準周波数を基準として抽出し、抽出した各周波数のパワースペクトル値に基づいて前記検索対象音響信号の前記時間間隔ごとの特徴量を抽出する特徴抽出手段と、
前記特徴抽出手段が抽出した前記検索対象音響信号の前記特徴量に基づいて前記区間ごとの区間特徴量を算出し、算出した区間特徴量と、前記参照特徴量とに基づいて類似度を算出し、算出した類似度に基づいて、前記参照音響信号の音に類似する前記検索対象音響信号の区間を検索し、検索により検出した前記参照音響信号の音に類似する前記検索対象音響信号の区間を出力する類似度計算手段と、
を備えたことを特徴とする音響信号検索装置。 - 入力される音響信号の時間周波数スペクトログラムに基づいて、当該音響信号の特徴量を抽出する音響信号特徴抽出装置のコンピュータに、
前記時間周波数スペクトログラムの時間間隔ごとに、前記時間周波数スペクトログラムの所定の基準特徴部を抽出するステップと、
抽出した前記所定の基準特徴部の周波数を前記時間間隔ごとの基準周波数とするステップと、
対数軸上で予め定められた間隔の複数の周波数を、当該基準周波数を基準として抽出し、抽出した各周波数のパワースペクトル値に基づいて前記時間間隔ごとの音響信号の特徴量を抽出するステップと、
を実行させるための音響信号特徴抽出プログラム。 - 参照音響信号に基づいて、当該参照音響信号に類似する音を含む区間を、入力される検索対象音響信号から検索する音響信号検索装置のコンピュータに、
参照音響信号及び検索対象音響信号の時間周波数スペクトログラムを入力するステップと、
前記参照音響信号及び前記検索対象音響信号それぞれの時間周波数スペクトログラムから、前記時間周波数スペクトログラムの時間間隔ごとの所定の基準特徴部を抽出するステップと、
前記参照音響信号の時間周波数スペクトログラムから抽出した前記所定の基準特徴部の周波数を前記時間間隔ごとの前記参照音響信号の基準周波数とし、前記検索対象音響信号の時間周波数スペクトログラムから抽出した前記所定の基準特徴部の周波数を前記時間間隔ごとの前記検索対象音響信号の基準周波数とするステップと、
対数軸上で予め定められた間隔の複数の周波数を、前記参照音響信号の基準周波数を基準として抽出し、抽出した各周波数のパワースペクトル値に基づいて前記参照音響信号の前記時間間隔ごとの特徴量を抽出し、抽出した特徴量に基づいて前記参照音響信号の信号全体の時間長を一区間とする参照特徴量を算出するステップと、
対数軸上で予め定められた間隔の複数の周波数を、前記検索対象音響信号の基準周波数を基準として抽出し、抽出した各周波数のパワースペクトル値に基づいて前記検索対象音響信号の前記時間間隔ごとの特徴量を抽出するステップと、
抽出した前記検索対象音響信号の前記特徴量に基づいて前記区間ごとの区間特徴量を算出するステップと、
前記類似度計算手段が、算出した区間特徴量と、前記参照特徴量とに基づいて類似度を算出するステップと、
算出した類似度に基づいて、前記参照音響信号の音に類似する前記検索対象音響信号の区間を検索し、検索により検出した前記参照音響信号の音に類似する前記検索対象音響信号の区間を出力するステップと、
を実行させるための音響信号検索プログラム。 - 請求項8に記載の音響信号特徴抽出プログラムを記録したコンピュータ読み取り可能な記録媒体。
- 請求項9に記載の音響信号検索プログラムを記録したコンピュータ読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006183131A JP4597919B2 (ja) | 2006-07-03 | 2006-07-03 | 音響信号特徴抽出方法、抽出装置、抽出プログラム、該プログラムを記録した記録媒体、および該特徴を利用した音響信号検索方法、検索装置、検索プログラム、並びに該プログラムを記録した記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006183131A JP4597919B2 (ja) | 2006-07-03 | 2006-07-03 | 音響信号特徴抽出方法、抽出装置、抽出プログラム、該プログラムを記録した記録媒体、および該特徴を利用した音響信号検索方法、検索装置、検索プログラム、並びに該プログラムを記録した記録媒体 |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2008015002A JP2008015002A (ja) | 2008-01-24 |
JP2008015002A5 JP2008015002A5 (ja) | 2010-10-14 |
JP4597919B2 true JP4597919B2 (ja) | 2010-12-15 |
Family
ID=39072112
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006183131A Expired - Fee Related JP4597919B2 (ja) | 2006-07-03 | 2006-07-03 | 音響信号特徴抽出方法、抽出装置、抽出プログラム、該プログラムを記録した記録媒体、および該特徴を利用した音響信号検索方法、検索装置、検索プログラム、並びに該プログラムを記録した記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4597919B2 (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010086020A1 (en) * | 2009-01-30 | 2010-08-05 | Telefonaktiebolaget Lm Ericsson (Publ) | Audio signal quality prediction |
US8930185B2 (en) | 2009-08-28 | 2015-01-06 | International Business Machines Corporation | Speech feature extraction apparatus, speech feature extraction method, and speech feature extraction program |
JP5561041B2 (ja) * | 2010-09-06 | 2014-07-30 | 大日本印刷株式会社 | 音響データの関連情報検索装置 |
JP5462827B2 (ja) * | 2011-03-28 | 2014-04-02 | 日本電信電話株式会社 | 特定音響信号含有区間検出装置、方法、及びプログラム |
JP2013117688A (ja) * | 2011-12-05 | 2013-06-13 | Sony Corp | 音響処理装置、音響処理方法、プログラム、記録媒体、サーバ装置、音響再生装置および音響処理システム |
CN108962231B (zh) * | 2018-07-04 | 2021-05-28 | 武汉斗鱼网络科技有限公司 | 一种语音分类方法、装置、服务器及存储介质 |
CN115696699B (zh) * | 2022-09-28 | 2024-09-24 | 重庆长安汽车股份有限公司 | 一种氛围灯律动的处理方法、装置、设备及介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004530153A (ja) * | 2001-02-28 | 2004-09-30 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | 信号を特徴付ける方法および装置、および、索引信号を生成する方法および装置 |
JP2004334160A (ja) * | 2002-09-24 | 2004-11-25 | Matsushita Electric Ind Co Ltd | 特徴量抽出装置 |
JP2004536348A (ja) * | 2001-07-20 | 2004-12-02 | グレースノート インコーポレイテッド | 録音の自動識別 |
JP2005512108A (ja) * | 2000-06-20 | 2005-04-28 | ユニバーシティ オブ ニュー ハンプシャー | カオスシステムを使用してオーディオファイルの圧縮及び解凍を行うための方法及び装置 |
-
2006
- 2006-07-03 JP JP2006183131A patent/JP4597919B2/ja not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005512108A (ja) * | 2000-06-20 | 2005-04-28 | ユニバーシティ オブ ニュー ハンプシャー | カオスシステムを使用してオーディオファイルの圧縮及び解凍を行うための方法及び装置 |
JP2004530153A (ja) * | 2001-02-28 | 2004-09-30 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | 信号を特徴付ける方法および装置、および、索引信号を生成する方法および装置 |
JP2004536348A (ja) * | 2001-07-20 | 2004-12-02 | グレースノート インコーポレイテッド | 録音の自動識別 |
JP2004334160A (ja) * | 2002-09-24 | 2004-11-25 | Matsushita Electric Ind Co Ltd | 特徴量抽出装置 |
Also Published As
Publication number | Publication date |
---|---|
JP2008015002A (ja) | 2008-01-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101578279B1 (ko) | 데이터 스트림 내 콘텐트를 식별하는 방법 및 시스템 | |
EP2659480B1 (en) | Repetition detection in media data | |
Typke et al. | A survey of music information retrieval systems | |
JP4597919B2 (ja) | 音響信号特徴抽出方法、抽出装置、抽出プログラム、該プログラムを記録した記録媒体、および該特徴を利用した音響信号検索方法、検索装置、検索プログラム、並びに該プログラムを記録した記録媒体 | |
EP2791935B1 (en) | Low complexity repetition detection in media data | |
JP4945877B2 (ja) | 高い雑音、歪み環境下でサウンド・楽音信号を認識するシステムおよび方法 | |
JP4327202B2 (ja) | 特定音響信号含有区間検出システム及びその方法並びにプログラム | |
JP5907511B2 (ja) | オーディオメディア認識のためのシステム及び方法 | |
US8589171B2 (en) | System and method for custom marking a media file for file matching | |
JP2006501502A (ja) | オーディオトラックのオーディオサムネイルを生成するシステムおよび方法 | |
JP2005322401A (ja) | メディア・セグメント・ライブラリを生成する方法、装置およびプログラム、および、カスタム・ストリーム生成方法およびカスタム・メディア・ストリーム発信システム | |
CN103729368B (zh) | 一种基于局部频谱图像描述子的鲁棒音频识别方法 | |
WO2014096832A1 (en) | Audio analysis system and method using audio segment characterisation | |
CN100545834C (zh) | 基于特征的音频内容识别的方法和装置 | |
KR20080082022A (ko) | 음악 특성 기반 유사도 측정 장치 및 그 방법과 그를이용한 음악 추천 시스템 및 그 방법 | |
Ghosal et al. | Song/instrumental classification using spectrogram based contextual features | |
Guzman-Zavaleta et al. | A robust audio fingerprinting method using spectrograms saliency maps | |
JP2007072023A (ja) | 情報処理装置及び情報処理方法 | |
JP5772957B2 (ja) | 音響処理装置、音響処理システム、ビデオ処理システム、制御方法および制御プログラム | |
CN113032616A (zh) | 音频推荐的方法、装置、计算机设备和存储介质 | |
JP5462827B2 (ja) | 特定音響信号含有区間検出装置、方法、及びプログラム | |
Six et al. | A robust audio fingerprinter based on pitch class histograms: applications for ethnic music archives | |
Brinkman et al. | Online music recognition: the Echoprint system | |
Rosão et al. | Trends in onset detection | |
KR101302568B1 (ko) | 허밍 질의 기반 음원 검색 고속화 시스템 및 그 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080801 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100826 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100914 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100922 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 4597919 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131001 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |