JP2000305578A - 音楽データベース作成装置、作成方法およびそのプログラム記録媒体 - Google Patents

音楽データベース作成装置、作成方法およびそのプログラム記録媒体

Info

Publication number
JP2000305578A
JP2000305578A JP11118208A JP11820899A JP2000305578A JP 2000305578 A JP2000305578 A JP 2000305578A JP 11118208 A JP11118208 A JP 11118208A JP 11820899 A JP11820899 A JP 11820899A JP 2000305578 A JP2000305578 A JP 2000305578A
Authority
JP
Japan
Prior art keywords
identifier
music
frequency
calculating
music database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11118208A
Other languages
English (en)
Inventor
Kenichi Minami
憲一 南
Yumiko Matsuura
由美子 松浦
Atsuki Tomioka
淳樹 富岡
Haruhiko Kojima
治彦 児島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP11118208A priority Critical patent/JP2000305578A/ja
Publication of JP2000305578A publication Critical patent/JP2000305578A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 比較的単純な処理により実時間で音楽情報に
識別子を付与できる。 【解決手段】 入力音楽情報を周波数分析してスペクト
ログラムを算出し(205)、その時間軸方向のエッジ
強度ediを算出し(207)、エッジ強度ediを周
波数方向において加算してエッジ強度和EDを算出し
(209)、そのED又はEDが増加か、減少か、継続
かを示すデータを識別子として音楽情報のヘッダに付け
てデータベースに格納する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、音楽信号から曲
ごとに異なる特徴量を算出し、特徴量を識別子として音
楽信号に対応づけてデータベースに記憶する方法、装置
およびその方法を実現するためのプログラムを記録した
記録媒体に関する。
【0002】
【従来の技術】音楽情報にID(識別子)を付与する方
法としては、ピッチの変化パターンを求める方法(蔭山
他、「ハミング歌唱を手掛かりとするメロディ検索」、
電子情報通信学校論文誌、Vol.J77−D−II、N
o.8、1994)や特徴ベクトルのヒストグラムに基
づく方法(柏野他、「マルチモーダルアクティブ探索を
用いた画像・音響時系列の高速探索」、電子情報通信学
会技術報告、PRMU98−80、1998)、MID
I信号のような中間記述に変換する方法、また近年では
電子透かしによる方法などが提案されている。これらの
技術は、音楽の検索、管理、著作権保護などに利用され
ている。
【0003】また、音楽信号のスペクトルの安定性を求
める方法は、様々な音源が混在している音信号から音楽
を検出する方法(南他、「音解析による映像インデクシ
ング」、電子情報通信学会総合大会、D−12−64、
1997)として提案されている。
【0004】
【発明が解決しようとする課題】ピッチの変化パターン
を求める方法は、ピッチの抽出を正確に行うことが難し
いため、童謡などの単純な音楽にしか適応できない。ヒ
ストグラムを利用する方法では、既知の音楽に対してヒ
ストグラムを作成しておかなければならない。例えば放
送音声で未知の音楽が流れた場合には、音楽であること
を人間が判断し、音楽の区間を切り出してヒストグラム
を求め、それを登録する、といった作業が必要になる。
未知の音楽に対して実時間での処理が困難である。MI
DI信号に変換する方法では、予めメロディが分かって
いないと変換が難しく、電子透かしでは音質の劣化が問
題となる。
【0005】このように、従来の方法はある条件下にお
いては有効であるものの、実時間性と簡便性を備えたも
のはなかった。一方、スペクトルの安定性を求める方法
では、音声信号と混った音楽の検出を行うことが可能に
なる。未知の音楽が存在した場合でもその区間を特定で
きる。しかし、音楽データの識別を扱ったものではな
い。
【0006】この発明は、比較的単純な処理により、実
時間かつ少ない情報量で音楽信号に識別子を付与して記
憶することができる音楽データベース作成方法、装置お
よびプログラム記録媒体を提供することを目的とする。
【0007】
【課題を解決するための手段】この発明によれば音楽信
号を周波数分析して、周波数スペクトルを求め、その周
波数スペクトルのピークの周波数方向に対する安定性を
示す安定性係数を算出し、その安定性係数の時間的変化
に基づいた識別子を決定し、その識別子と音楽信号とを
対応付けて記録手段に記憶する。
【0008】安定性係数の算出は、周波数分析結果をス
ペクトログラムとして画像情報に変換し、そのスペクト
ログラムから時間方向におけるエッジ強度を算出し、そ
のエッジ強度を安定性係数とする。更に識別子の決定
は、エッジ強度の時間的変化を、増加、減少、継続の3
パターンのうち何れかで表現し、そのパターンの時間的
変化を識別子とする。
【0009】この発明では周波数方向に対する安定性を
特徴量として用いる。「周波数方向に対する安定性」
は、スペクトルのピークの周波数方向の(一定時間当た
りの)変動量の逆数、即ちエッジ強度の和として算出さ
れる。音楽では特定のピッチ成分が支配的であるため、
その周囲の周波数成分よりも優勢となり周波数方向にわ
たる差分(微分)が大きくなる。そのためにエッジ強度
の和の値が高くなると音楽であるか否かが判断できる。
【0010】ここで、エッジ強度の和が一定時間毎に求
められ、その時系列を識別子として求める。この識別子
は音楽によって異なるので、音楽区間を切り出すための
手がかりとなる。従って、識別子と音楽データとを対応
付けてデータベースとして記憶させれば、所望の音楽デ
ータを実時間で認識できるようになる。一定時間(処理
フレーム)毎に算出されるエッジ強度の時間的変化を増
加・減少・継続の3パターンで表現することにより少な
い情報量で識別子を付与することができる。例えば、エ
ッジ強度が時間の経過と共に、{50,20,30,3
0,60,100,120,100}と求まった時に、
増加を01、減少を10、継続を00と表せば{10,
01,00,01,01,01,10}というように識
別子を決定できる。
【0011】識別子の要素となるエッジ強度をそのまま
の数値で表現すると、1つの値に8bit必要である
が、上記3パターンで表現すれば、1つの値に2bit
で十分である。そのため、識別子の情報量を少なくする
ことができる。検索においては、この識別子を手がかり
として用いることができるようになる。ここで、例え
ば、DPマッチング、エッジ強度分布の類似性を手がか
りとして用いればよい。
【0012】
【発明の実施の形態】以下に、この発明の実施例につい
て図面を参照して説明する。図1は、この発明の一実施
形態の音楽データベース作成装置の概略構成を示すブロ
ック図である。この実施形態の音楽データベース作成装
置は、音楽情報を入力する音楽入力部101と、音楽情
報を蓄積する音楽蓄積部102と、音楽情報の信号を周
波数解析する周波数解析部103と、周波数スペクトル
のピークの周波数方向に対する安定性を算出する安定性
算出部104と、安定性の時間的変化を識別子として音
楽情報に付与する識別子付与部105から構成されてい
る。
【0013】データベース音楽情報と識別子とを同一の
ファイルで管理する場合、入力音楽情報に識別子を付与
した後で、蓄積する。また、別個のファイルで管理する
場合も考えられる。そのとき、入力音楽情報に識別子を
付与した後で、入力音楽情報が予め蓄積されていれば識
別子を蓄積し、入力音楽情報が予め蓄積されていなけれ
ば音楽情報および識別子を蓄積する。
【0014】データベースに識別子と音楽情報とを関連
づけて記憶するには、音楽ファィルと識別子を別個のフ
ァイルとして管理する場合、音楽のファイル名のテーブ
ルと識別子のテーブルに通し番号を付与する。識別子と
音楽情報とを同一のファイルで管理する場合には、音楽
ファイルのヘッダ情報として識別子を記憶させる、また
は音楽情報に識別子を電子透かしとして埋め込むことが
考えられる。
【0015】図2は、この発明の一実施例の音楽識別装
置の処理の流れを示したフローチャートである。この発
明をソフトウェアで実現した場合でも同様の処理の流れ
となる。まず、音楽情報を音楽情報入力処理201で入
力し、判断処理202において、その入力された音楽情
報が音楽蓄積部102に予め蓄積されているデータかど
うかを判断し、予め蓄積されていなければ、音楽蓄積処
理203でその音楽情報を音楽蓄積部102に蓄積す
る。音楽情報が音楽蓄積部102に予め蓄積されていれ
ば、処理204でその音楽情報に識別が付与されている
かを調べ、付与されていれば処理を終了し、識別子が付
与されている場合、及び音楽蓄積部102に蓄積されて
いない場合は、次にFFT処理205において入力され
た音楽情報の信号を適当なフレーム長とフレームシフト
でFFT(高速フーリエ変換)処理する。フレーム長と
フレームシフトは、サンプリング周波数が8kHzのと
きに各々512ポイント、80ポイント程度で良い。サ
ンプリング周波数が高い場合には、信号にローパスフィ
ルタをかけたのちダウンサンプリングすることも可能で
ある。FFT処理はフレームシフトの回数をtとしたと
きにフレームシフト長×tが処理窓幅WDになるまで繰
り返し行う。その判断を判断処理206において行う。
処理窓幅WDは通常0.5s程度の長さで行うが、任意
に設定することも可能である。尚、FFT処理以外に、
ウェーブレット変換やフィルタバンク等の周波数解析手
法を用いることも可能である。
【0016】FFT処理が終了すると、処理窓幅WDの
時間幅を持つサウンドスペクトログラムが得られる。図
3Aは、10s程度のサウンドスペクトログラムの例を
示している。このような画像に対し、周波数iにおける
時間方向のエッジ強度ediをエッジ強度算出処理20
7で求める。エッジ強度は周波数方向の差分値を時間方
向に足し合わせることにより求めることが可能である。
つまりスペクトログラムを、x方向をj(時間軸)、y
方向をi(周波数軸)とした画像として考えて、周波数
iにおけるエッジの強さediを次式で算出する。
【0017】edi=Σj=0 t {f(j,i−1)−2
f(j,i)+f(j,i+1)} 上式はディジタル画像についてエッジを2次差分(アナ
ログ画像では2次微分)として求めた場合の例である。
ここで、f(j,i)は画素(j,i)の輝度、tはエ
ッジを検出する時間方向の範囲の長さ=処理窓幅WD
で、i={1,2,3,…,N−1}(Nは周波数方向
の画素数=帯域幅BD)である。
【0018】エッジの強さを1次差分(微分)から定義
することも可能である。その場合次のように計算され
る。 edi=Σj=0 t {f(j,i+1)−f(j,i)} この処理を周波数iが帯域幅BDになるまで繰り返す。
この繰り返しの判断を処理209で行う。処理209で
ediを帯域幅BD分加算してED=Σi=1 N- 1 |ed
i|を求めてエッジ強度の和EDを算出する。
【0019】以上の処理を信号全体に対して行った場合
の一部の区間におけるエッジ強度和EDを図3Bに示
す。信号全体に対して以上の処理を行ったかの判断を処
理210で行う。識別子付与処理211では、蓄積され
た音楽情報に、求められたEDを識別子として書き込
む。書き込む場所は、音楽情報のヘッダー部分でも良い
し、音楽情報を適当な長さを持つ区間に分割し、区間ご
とに書き込んで良い。また、エッジ強度和EDそのもの
の値を書き込む他、エッジ強度和EDの値が増加したか
減少したかあるいは変化がないか、といった情報だけを
書き込むことも可能である。さらに、識別子に割り当て
られるビット長に応じて、適当な時間間隔でEDの平均
値や最大値、あるいはEDがあるしきい値以上か否かと
いった情報などを識別子とすることも可能である。
【0020】予めデータベース(音楽蓄積部)に記憶さ
れたものに識別子を付与して再びデータベースに記憶す
る場合もある。
【0021】
【発明の効果】(1)請求項1、4および7の発明によ
れば、音楽情報の信号を周波数解析し、周波数スペクト
ルのピークの周波数方向に対する安定性を算出し、前記
安定性の時間的変化を識別子として音楽情報に付与する
ことによって、音楽情報の識別が可能であるから、実時
間で効率的に音楽データベースを作成することができ
る。
【0022】(2)請求項2、5および8の発明は、周
波数スペクトルのピークの周波数方向に対する安定性を
算出する際に、周波数解析によって算出されたサウンド
スペクトログラムから時間軸方向のエッジ強度を算出
し、エッジ強度を安定性の指標として用いることによ
り、曲ごとに異なる特徴量(識別子)を容易に求めるこ
とが可能となる。
【0023】(3)請求項3、6および9の発明は、エ
ッジ強度の時間的変化を増加、減少、継続の3パターン
の何れかで表現することにより、少ない情報量で音楽を
識別することが可能となる。
【図面の簡単な説明】
【図1】この発明の一実施形態の音楽データベース作成
装置の概略機能構成を示すブロック図。
【図2】この発明の一実施形態の音楽データベース作成
装置の処理の流れとこの発明をソフトウェアで実現した
場合の処理の流れを示すフローチャート。
【図3】この発明の一実施形態の音楽データベース作成
装置において得られるサウンドスペクトログラムとエッ
ジ強度の様子を示す図。
フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 3/00 515A 7/10 (72)発明者 富岡 淳樹 東京都新宿区西新宿三丁目19番2号 日本 電信電話株式会社内 (72)発明者 児島 治彦 東京都新宿区西新宿三丁目19番2号 日本 電信電話株式会社内 Fターム(参考) 5B075 ND14 NK06 NK13 NR05 5B082 AA00 EA01 EA07 GA07 5D015 AA06 FF01

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】 音楽情報を示す音響信号を入力し各々区
    別して記録手段に記録する音楽データベース作成装置に
    おいて、 前記音響信号を周波数分析して周波数スペクトルを算出
    する手段と、 前記周波数スペクトルのピークの周波数方向に対する安
    定性を示す安定性係数を算出する手段と、 前記安定性係数の時間的変化に基づいた識別子を決定す
    る手段とを有し、 前記記録手段は前記識別子と前記音響信号とを対応付け
    て記憶することを特徴とする音楽データベース作成装
    置。
  2. 【請求項2】 前記安定性係数算出手段は、 前記周波数分析結果をスペクトログラムとして画像情報
    に変換する手段と、 前記スペクトログラムから時間方向のエッジ強度を算出
    し、 前記エッジ強度を安定性係数とする手段とよりなること
    を特徴とする請求項1記載の音楽データベース作成装
    置。
  3. 【請求項3】 前記識別子決定手段は、 前記エッジ強度の時間的変化を、増加、減少、継続、の
    3パターンのうち何れかで表現し、 前記パターンの時間的変化を識別子とする手段であるこ
    とを特徴とする請求項2記載の音楽データベース作成装
    置。
  4. 【請求項4】 音楽情報を示す音響信号を入力し各々区
    別して記録手段に記録する音楽データベース作成方法に
    おいて、 前記音響信号を周波数分析して周波数スペクトルを算出
    する過程と、 前記周波数スペクトルのピークの周波数方向に対する安
    定性を示す安定性係数を算出する過程と、 前記安定性係数の時間的変化に基づいた識別子を決定す
    る過程とを有し、 前記記録手段は前記識別子と前記音響信号とを対応付け
    て記憶することを特徴とする音楽データベース作成方
    法。
  5. 【請求項5】 前記安定性係数算出過程は、 前記周波数分析結果をスペクトログラムとして画像情報
    に変換する過程と、 前記スペクトログラムから時間方向のエッジ強度を算出
    し、 前記エッジ強度を安定性係数とする過程とよりなること
    を特徴とする請求項4記載の音楽データベース作成方
    法。
  6. 【請求項6】 前記識別子決定過程は、 前記エッジ強度の時間的変化を、増加、減少、継続、の
    3パターンのうち何れかで表現し、 前記パターンの時間的変化を識別子とすることを特徴と
    する請求項5記載の音楽データベース作成方法。
  7. 【請求項7】 前記音響信号を周波数分析して周波数ス
    ペクトルを算出する処理と、 前記周波数スペクトルのピークの周波数方向に対する安
    定性を示す安定性係数を算出する処理と、 前記安定性係数の時間的変化に基づいた識別子を決定す
    る処理と、 前記識別子と前記音響信号とを対応付けて記録手段に記
    憶する処理と、をコンピュータが実行することを特徴と
    する音楽データベース作成処理プログラム記録媒体。
  8. 【請求項8】 前記安定性係数算出処理は、 前記周波数分析結果をスペクトログラムとして画像情報
    に変換する処理と、 前記スペクトログラムから時間方向のエッジ強度を算出
    し、 前記エッジ強度を安定性係数とする処理とよりなること
    を特徴とする請求項7記載の音楽データベース作成処理
    プログラム記録媒体。
  9. 【請求項9】 前記識別子決定処理は、 前記エッジ強度の時間的変化を、増加、減少、継続、の
    3パターンのうち何れかで表現し、 前記パターンの時間的変化を識別子とすることを特徴と
    する請求項8記載の音楽データベース作成処理プログラ
    ム記録媒体。
JP11118208A 1999-04-26 1999-04-26 音楽データベース作成装置、作成方法およびそのプログラム記録媒体 Pending JP2000305578A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11118208A JP2000305578A (ja) 1999-04-26 1999-04-26 音楽データベース作成装置、作成方法およびそのプログラム記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11118208A JP2000305578A (ja) 1999-04-26 1999-04-26 音楽データベース作成装置、作成方法およびそのプログラム記録媒体

Publications (1)

Publication Number Publication Date
JP2000305578A true JP2000305578A (ja) 2000-11-02

Family

ID=14730889

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11118208A Pending JP2000305578A (ja) 1999-04-26 1999-04-26 音楽データベース作成装置、作成方法およびそのプログラム記録媒体

Country Status (1)

Country Link
JP (1) JP2000305578A (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002304185A (ja) * 2001-04-04 2002-10-18 Video Research:Kk 著作権管理システム、著作権管理方法及びプログラム
JP2006512625A (ja) * 2002-12-24 2006-04-13 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオ信号にメタデータでマーキングする方法及びシステム
JP2007322598A (ja) * 2006-05-31 2007-12-13 Victor Co Of Japan Ltd 楽曲分類装置、楽曲分類方法、及び楽曲分類プログラム
US7477739B2 (en) 2002-02-05 2009-01-13 Gracenote, Inc. Efficient storage of fingerprints
US7904503B2 (en) 2000-08-23 2011-03-08 Gracenote, Inc. Method of enhancing rendering of content item, client system and server system
US7921296B2 (en) 2001-02-12 2011-04-05 Gracenote, Inc. Generating and matching hashes of multimedia content
GB2487795A (en) * 2011-02-07 2012-08-08 Slowink Ltd Indexing media files based on frequency content
JP2012226080A (ja) * 2011-04-19 2012-11-15 Sony Corp 楽曲検索装置および方法、プログラム、並びに記録媒体
US9578289B2 (en) 2007-05-02 2017-02-21 Sony Corporation Dynamic mixed media package

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7904503B2 (en) 2000-08-23 2011-03-08 Gracenote, Inc. Method of enhancing rendering of content item, client system and server system
US7921296B2 (en) 2001-02-12 2011-04-05 Gracenote, Inc. Generating and matching hashes of multimedia content
JP2002304185A (ja) * 2001-04-04 2002-10-18 Video Research:Kk 著作権管理システム、著作権管理方法及びプログラム
US7477739B2 (en) 2002-02-05 2009-01-13 Gracenote, Inc. Efficient storage of fingerprints
JP2006512625A (ja) * 2002-12-24 2006-04-13 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオ信号にメタデータでマーキングする方法及びシステム
JP4871592B2 (ja) * 2002-12-24 2012-02-08 エーエムビーエックス ユーケー リミテッド オーディオ信号にメタデータでマーキングする方法及びシステム
JP2007322598A (ja) * 2006-05-31 2007-12-13 Victor Co Of Japan Ltd 楽曲分類装置、楽曲分類方法、及び楽曲分類プログラム
JP4665836B2 (ja) * 2006-05-31 2011-04-06 日本ビクター株式会社 楽曲分類装置、楽曲分類方法、及び楽曲分類プログラム
US9578289B2 (en) 2007-05-02 2017-02-21 Sony Corporation Dynamic mixed media package
GB2487795A (en) * 2011-02-07 2012-08-08 Slowink Ltd Indexing media files based on frequency content
JP2012226080A (ja) * 2011-04-19 2012-11-15 Sony Corp 楽曲検索装置および方法、プログラム、並びに記録媒体

Similar Documents

Publication Publication Date Title
Li et al. Localized audio watermarking technique robust against time-scale modification
KR100776495B1 (ko) 오디오 데이터베이스에서의 검색 방법
US6604072B2 (en) Feature-based audio content identification
CN103797483B (zh) 用于标识数据流中的内容的方法和系统
JP4067969B2 (ja) 信号を特徴付ける方法および装置、および、索引信号を生成する方法および装置
US6748360B2 (en) System for selling a product utilizing audio content identification
JP5565374B2 (ja) オーディオ作品のセグメンテーションを変更するための装置
JP3891111B2 (ja) 音響信号処理装置及び方法、信号記録装置及び方法、並びにプログラム
JP5507997B2 (ja) 調音およびキー分析のためのオーディオスペクトル中の音成分の選択
CN103729368B (zh) 一种基于局部频谱图像描述子的鲁棒音频识别方法
US20050038635A1 (en) Apparatus and method for characterizing an information signal
US20070157795A1 (en) Method for generating a visualizing map of music
JP2004530153A6 (ja) 信号を特徴付ける方法および装置、および、索引信号を生成する方法および装置
US20040260540A1 (en) System and method for spectrogram analysis of an audio signal
US20170024615A1 (en) System and method for editing video and audio clips
JP2001119555A (ja) 時系列化された一次元のデータにおける電子透かし
JP2000305578A (ja) 音楽データベース作成装置、作成方法およびそのプログラム記録媒体
CN105280196A (zh) 副歌检测方法及系统
JP4267463B2 (ja) 音声コンテンツを特定する方法、音声信号の記録の一部分を特定する特徴を形成する方法およびシステム、音声ストリームが音声信号の既知の記録の少なくとも一部分を含んでいるか否かを判断する方法、コンピュータ・プログラム、音声信号の記録を特定するシステム
CN109271501B (zh) 一种音频数据库的管理方法及系统
CN109829265B (zh) 一种音频作品的侵权取证方法和系统
JP6462111B2 (ja) 情報信号の指紋を生成するための方法及び装置
CN115985273A (zh) 基于多传感器数据融合的记谱方法及系统
Li et al. Audio watermarking based on music content analysis: robust against time scale modification
JP2000315094A (ja) 広帯域音響検出方法および装置およびこのプログラム記録媒体