JPH11272287A

JPH11272287A - 楽曲識別方法及び楽曲識別システム

Info

Publication number: JPH11272287A
Application number: JP10088308A
Authority: JP
Inventors: Shuichi Arai; 秀一荒井; Yoshikazu Ito; 義和伊藤; Hiroshi Tanaka; 博田中
Original assignee: Video Research Co Ltd
Current assignee: Video Research Co Ltd
Priority date: 1998-03-18
Filing date: 1998-03-18
Publication date: 1999-10-08
Anticipated expiration: 2018-03-18
Also published as: JP3964979B2

Abstract

(57)【要約】【課題】自動的に正確且つ多数の楽曲の識別を、少な
い計算量で高速に行う。【解決手段】モニタリング・サイトは、受信された楽
曲について、放送源又は送信元からパワーベクトルＰ
(l)を算出する（ステップＳ１０１）。つぎに、パワー
ベクトルのフレームｌをシフトさせながら放送音からの
ブロックを作成する（ステップＳ１０３）。さらに、ブ
ロックをＮフレーム毎取り出し、ブロック列を構成する
（ステップＳ１０５）。ブロックとセントロイドとの距
離を計算して、ブロック列に基づきクラスタリングを行
い、区間コードに変換する（ステップＳ１０７）。この
区間コードと辞書データの区間コードとを比較してマッ
チングをとり楽曲を認識する（ステップＳ１０９）。マ
ッチングされた楽曲は、他の情報とともにログデータフ
ァイルがフォーマットされてメモリに記録される。（ス
テップＳ１１１）。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、楽曲識別方法及び
楽曲識別システムに係り、特に放送局又は送信元から放
送又は送信された楽曲とそれに関連する情報とを自動認
識することができる楽曲識別方法及び楽曲識別システム
に関する。

【０００２】

【従来の技術】近年、テレビ、ラジオ又はインターネッ
トなどのマスメディア上での音楽が現代社会に与える影
響は、もはや無視できないものとなっている。このよう
な放送又は送信を統計的に処理をして、楽曲の知的財産
権者・演奏者・楽曲製作販売会社等より、音楽放送楽曲
を自動識別する要請が高まっている。放送された楽曲に
ついて、例えば、どのような楽曲がどこからどれだけ放
送されたか（放送時間、回数等）を調べるための楽曲識
別方法が必要とされる。

【０００３】一般に、ラジオ・テレビ等で楽曲が音楽放
送及び送信される形態としては、例えば、以下のような
場合等がある。

【０００４】レコード・ＣＤ・テープ等市販の媒体か
らの再生、放送局のスタジオ・劇場等からのライブ中継、コンサートや演奏会場等での録音・録画媒体の再生放
送、インターネット、衛星放送等の新しいメディアを介し
ての放送及び送信。

【０００５】従来においては、各放送局から放送された
プログラム（楽曲）をすべて録音又は録画をし、後ほど
これらを再生することにより、人が実際にこれらを聴い
て、放送された楽曲を識別していた。さらに、人手を介
して、認識された楽曲について放送局、放送時間、放送
回数等のデータについて、集計作業が行われていた。

【０００６】

【発明が解決しようとする課題】上述したように、従来
の放送音楽楽曲の識別には、人が録画・録音を再生して
判断していたので、多くの人手がかかることとなる。さ
らに、従来においては、人手を介して行うため、確認ミ
スが生じやすくなり、信頼性もあまり高くないという問
題点があった。また、人によって認識できる楽曲数、楽
曲名、ジャンル等に限界があるという問題点があった。

【０００７】また、テレビやラジオ等では、楽曲が放送
用に編集されていたり、楽曲と音声が重畳していたりす
る場合があるので、部分マッチングも考慮しなければな
らない。そのため、パターン数が非常に多く、マッチン
グの計算量が膨大となる。

【０００８】本発明は、上記の点に鑑み、高い信頼性を
持って自動的に楽曲の識別をし、放送局、時間回数等の
その楽曲に関する情報を求めることができる楽曲識別方
法及び楽曲識別システムを提供することを目的とする。

【０００９】また、本発明は、放送されたプログラムか
らリアルタイムで楽曲スポッティング、即ち、不特定の
楽曲から任意の楽曲の区間を抽出しタグ付けを行うこと
により、正確且つ多数の楽曲の識別を少ない計算量で高
速に行うことを目的とする。

【００１０】

【課題を解決するための手段】本発明の第１の解決手段
によると、受信された楽曲について、複数の帯域チャネ
ル毎のパワーデータを算出するステップと、算出された
前記パワーデータのフレームを複数含むブロックを作成
するステップと、連続した前記ブロックを複数含むブロ
ック列を作成するステップと、作成された前記ブロック
列について、前記ブロック単位でクラスタリングを行う
ことによりクラスタ番号で表わした区間コードに変換す
るステップと、前記区間コードと辞書データとを比較
し、マッチングされた楽曲を認識するステップとを備え
た楽曲識別方法を提供する。

【００１１】本発明の第２の解決手段によると、楽曲信
号を受信する受信部と、前記受信部により受信された前
記楽曲信号を複数の帯域チャネルに分離して、前記帯域
チャネル毎のパワーデータを出力する帯域フィルタ部
と、時刻情報を出力する時計部と、受信された楽曲につ
いて、複数の帯域チャネル毎のパワーデータを算出する
手段と、算出された前記パワーデータのフレームを複数
含むブロックを作成する手段と、連続した前記ブロック
を複数含むブロック列を作成する手段と、作成された前
記ブロック列について、前記ブロック単位でクラスタリ
ングを行うことによりクラスタ番号で表わした区間コー
ドに変換する手段と、前記区間コードと辞書データとを
比較し、マッチングされた楽曲を認識する手段と、前記
時刻情報及び／又は前記楽曲コードを含むログデータを
出力する手段を含む楽曲識別部を備えた楽曲識別システ
ムを提供する。

【００１２】

【発明の実施の形態】Ａ．楽曲の識別まずはじめに、楽曲を識別するための分析方法について
説明する。

【００１３】（１）パワーの算出まず、図１に、パワー算出までのプロセスの説明図を示
す。音の強度を示すパワーは、以下のように求められ
る。

【００１４】図１（Ａ）は、楽曲信号の帯域信号Ｓ_I(n
T)を示す。ここで、Iは、帯域チャネル番号、Ｔは、サ
ンプリング周波数である。図１（Ｂ）は、この楽曲信号
を、フレーム間隔Ｆintで切り出し窓関数をかけたもの
である。図中、ｌは、フレーム番号を示す。窓関数とし
ては、例えば、方形窓、Hamming窓、Hanning窓、Blackm
an窓等がある。また、図1（Ｃ）及び（Ｄ）は、それぞ
れ、以下の式により求めた、フレームごとの平均振幅Ｖ
_I(l)及び平均パワーP_I(l)を示す。

【００１５】

【数１】

【数２】ここで、Ｖmaxは、振幅の最大値である。

【００１６】つぎに、フレーム間隔Ｆint及びフレーム
長Ｆlenについて説明する。図２に、フレーム構成の説
明図を示す。

【００１７】まず、図２（Ａ）に、サンプリング周波数
とフレームの説明図を示す。本発明では、楽曲のサンプ
リング周波数は、例えば、11.025kHz（周期約0.0907m
s）としている。また、フレームは、例えば、1024個の
サンプリング時間である92.88msごとに、ある区間の平
均パワーデータを吐き出すのものである。そして、例え
ば、この1024サンプルがフレーム間隔Ｆintであり、本
発明の手法の基本単位となる。

【００１８】図３に、フレームのずれによって生じるパ
ワー誤差の説明図を示す。

【００１９】フレームがずれると、算出されるパワーに
誤差が生じる。そして、フレーム間隔が最大１／２フレ
ームずれることによる自局間のパワーベクトルの距離を
自局間距離とし、他の楽曲のパワーベクトルとの距離を
他局間距離として、それらの確率分布により識別精度の
目安とすることができる。

【００２０】ところで、フレーム長Ｆlen については、
以下のようになる。すなわち、この手法では、比較する
データどうしの時間ずれをカバーする工夫があるが、最
小単位はこのフレームなので、１フレーム＝92.88ms以
内の時間ずれは吸収できないこになってしまう。そし
て、この問題から受けるダメージを検討したところ、２
分の１フレームずれた時に、そのダメージが最大になる
ことがわかった。

【００２１】そこで、本発明においては、フレーム間隔
は1024sample(92.88ms)でも、吐き出すデータは前後大
幅にオーバーラップさせて、この問題を小さく抑えるよ
うにした。ここでは、図２（Ｂ）に示すように、例え
ば、８フレーム分である8192sample区間（＝８×1024）
の平均パワーを求めることで、問題を解消している。つ
まり１フレーム進んでも、Ａ／Ｄサンプリングデータの
中身は８分の１しか新データと入れ替えずに、平均パワ
ーを計算し出力していくので、最も誤差が大きくなる２
分の１フレームずれにおいても、その影響は受けにくく
なる。このように、本発明では、一例としてフレーム長
Ｆlenは、８１９２サンプルとしている。

【００２２】ここで、実際の楽曲認識を行うと、放送さ
れた楽曲と辞書側のフレームとが完全に一致するとは限
らず、最大１／２フレームまでのずれが生じることがあ
る。

【００２３】（２）ブロック化図４に、ひとつの帯域チャネル番号についてのブロック
の説明図を示す。

【００２４】図４（Ａ）示すように、ブロックとは、ひ
とつの帯域チャネル番号に対して考えると、フレームが
複数多重化されたものであり、本発明では一例として、
フレーム２０個分、１ブロックの周期は1.86秒とする。
ブロックの各要素は、例えば、以下のように、１行２０
列で表現される。

【００２５】Ｂ＝ [Ｐ(0) Ｐ(1) Ｐ(2) Ｐ(3) Ｐ(4) …
Ｐ(18) Ｐ(19)] また、図４（Ｂ）に示すように、ブロックが１０個集ま
ったものがブロック列であり、ここでは、例えば、18.6
秒である。

【００２６】図５に、各帯域チャネル番号毎のパワーベ
クトルの説明図を示す。ここでは、各帯域チャネル番号
Ｉごとにフレーム番号ｌのパワーＰI(l)が図示される。
フレーム番号ｌによって、パワーベクトルＰ(l)は、次
のように表示される。

【００２７】

【数３】つぎに、図６に、帯域チャネル番号毎のブロック構成図
を示す。

【００２８】図に示すように、フレームが２０個集まっ
てブロックになるので、ブロックの要素は、各帯域チャ
ネルを考慮して詳細には行２０列となる。そして、１ブ
ロックには、１００個の平均パワーが含まれることにな
る。これが本発明の認識手法の１単位となる。

【００２９】図７に、一般的な各帯域チャネル番号毎の
パワーベクトルのブロック構成の説明図を示す。図示の
ように、楽曲Ｍ１のフレーム番号ｌからＮフレーム分の
パワーベクトルをブロック化したデータであるブロック
Ｂ^N _M1(l)は、次式のように表わされる。

【００３０】

【数４】（３）ブロックのクラスタリングここで、パワーベクトルによるブロック列の識別を考え
る。まず、高速化や時間ずれ対策を勘案しない場合を考
えると、単にフレームを各帯域チャネル毎に２００ヶ集
めて１ブロックとした場合と同じで、行２００列（＝１
０００）のパワー行列となる。この場合、１ブロックに
１０００個の平均パワーが詰まった状態で、認識行為を
１単位実行することになるので、２００フレーム＝18.6
secで認識結果を出す。

【００３１】しかし、１０００個で１ブロックのデータ
を一括して辞書にブロック転送し、辞書の方にも、１０
００個で１ブロックの辞書データが登録曲数分用意して
マッチングを実行するとすれば、大変な処理量になる。
すなわち、まず登録曲第１番と１０００個のデータを比
較計算し、次に登録曲第２番と１０００個マッチングを
とり、・・・最後第Ｎ番との比較まで行って終了となる
ため、辞書内の登録曲数に比例して、認識結果が出るま
での時間が膨大に膨れ上がることになる。辞書に、例え
ば１万曲あれば、１０００万個（＝1000x10000）のデー
タを比較しなければならない。しかも、それだけ時間を
かけても、楽曲の全演奏時間中のわずか18.6秒(１ブロ
ック時間)の区間を比較しただけに過ぎない。一般に、
このマッチング処理は、辞書データの全総数との総当た
りで比較するので、１曲の全区間を辞書化すると、また
辞書数が増え、総当たり回数もそれに比例して増加する
ことになってしまう。

【００３２】そこで、本発明では、クラスタリングを行
うことで識別処理スピードをあげる方法を取っている。
クラスタリングとは、例えば、「ＬＢＧアルゴリズム」
と呼ばれるような、一般に使われている手法を採用する
が、これに限られず適宜の手法を採用することができ
る。即ち、入力ベクトル（ここでは、１００次元のブロ
ックのパワーデータのこと）と各クラスタ（小集合）と
の距離を求め、その距離が最小のクラスタの番号を持っ
て量子化（置き換え）を行う。距離の計算は、例えば、
ユークリッド距離又は２乗和等から求めることができ
る。

【００３３】図８に、ブロックのクラスタリングの説明
図を示す。

【００３４】この例では、クラスタ番号＃Ｑのクラスタ
球は、各軸は、前述の１ブロック＝５行２０列の要素で
１００軸になるので、１００次元の球体のイメージとな
る。セントロイドＸ_#Qは、各球体イメージの中心(重
心）である。分類する数は、クラスタリングするブロッ
ク数には関係なく常に一定（例えば１２８）とする。た
だし、例えば１万曲とかの数多くの楽曲で辞書を作る場
合に、例えば２５６等に増やすことにより、分離性能を
さらに十分とることができる。

【００３５】このように各クラスタのセントロイドＸ_#Q
とクラスタ番号＃Ｑとが対応したベクトル量子化辞書を
備え、まず、１００次元のベクトルが距離計算によって
辞書から参照されてクラスタ番号＃Ｑになる（ベクトル
量子化）。これにより、１００次元が１次元に量子化さ
れる。なお、このような、辞書は、ベクトル量子化する
際の量子化歪み等を用いて、あまり距離が小さくならな
いベクトルが多く出現する場合、辞書を作成し直しする
こともできる。

【００３６】本発明では、このようなクラスタリングに
より、ブロック列中に含まれる、例えば１０個のブロッ
クそれぞれにクラスタ番号＃Ｑを対応させるようにし
た。クラスタ番号＃Ｑは、例えば、＃１から＃１２８ま
でとし、これは区間コードと呼ばれる。

【００３７】１ブロック（５行２０列の１００個のデー
タ）は、１つのクラスタの番号値におきかえられる。ブ
ロック列は、ブロックが１０個連なったものであるが、
本来５行２０列の１０個分で１０００個のパワーデータ
で表現されるべきものが、以上のアイデアで１０個のク
ラスタ番号で表わすことができる。例えば以下のように
表現される。これが「区間コードへの変換」である。

【００３８】ブロック列＝[#11 #124 #45 #87 #23 #78
#101 #3 #99 #44] １行１０列＝１０個の要素に変換クラスタリングのメリットは、データ数が１００分の１
に減少され、さらに、いろいろな値を取りうるパワー値
ではなく、単純な整数値（例えば１２８）なので、楽曲
の識別を高速化できる点である。

【００３９】（４）辞書化における辞書区間データ「楽曲コード」は、１曲分をすべてブロック列にして区
間コードに変換したものである。区間コードは、例えば
１０ブロックの長さであるが、楽曲コードは、この区間
コードが曲の始めから終わりまで連続したものである。
このような楽曲コードを使い辞書登録する手法も考えら
れるが、その場合不完全演奏（途中でカット等）には対
応しにくい。その点区間コードは、これに対処すること
ができる。

【００４０】さて、ブロック１０個でブロック列１個を
作っただけならば、通常３分から５分程ある楽曲データ
中、わずか18.6秒の区間を辞書化したに過ぎない。ま
た、楽曲が、つねに曲の頭から演奏されると決まってい
れば、曲の頭部分18.6秒だけを辞書化しても良いが、実
際はそうではないので、曲の途中のどこから演奏されて
も良いようにする必要がある。そこで、本発明では、１
ブロックずつ後ろへずらしながら、ブロック列を作成す
るようにした。

【００４１】図９に、区間コードの整列についての説明
図を示す。

【００４２】まず、ブロック列は常に１０ブロックで一
塊とする。次々とスタートポイントを後ろにずらしなが
ら、ブロック列を作っていくと、曲の最後に、ブロック
列がぶつかり、ここで終了となる。これ以上ずらすと、
ブロック列が９ブロック構成、８ブロック構成・・・等
と短くなってしまう。こうして作成されたブロック列を
総称して「区間データ」と呼ぶ。区間データのブロック
列数は、曲の長さによって異なることになる。

【００４３】このような方法で曲１、曲２…と希望する
楽曲ごとに区間データを作成する。すると辞書曲数のお
よそ１００倍もの区間データに膨れあがってしまう（た
とえば１ブロック＝約２秒で、演奏時間２００秒の曲を
２秒ずらしては、次々と区間データをおこすので、２秒
×１００sampleが２００秒÷２秒分必要なので、２００
秒×１００倍）。本発明の認識では、リアルタイム認識
が目標であるので、これを総当たり検索させたのでは時
間がかかってしまう。

【００４４】そこで、つぎに、区間コードを辞書順に整
列するプロセスをとる。「区間コードを辞書順に整列」
とは、ブロック列に与えられた１０個のクラスター番号
をソートすることで、上１桁から数字の若い順番になら
べ変え、次に上２桁目、上３桁目…全１０桁をチェック
して並べ替える。リアルタイム認識の実際では、ブロッ
ク列の頭から時間経過に従いブロック列が１個ずつ生成
されるので、あらかじめ辞書をソートしておけば、１ブ
ロックデータが起きるたびに、それ以外の候補が自動的
に棄却されていく。ソートによりデータマッチングのた
めの探索木構造のデータベースを作成し、これを採用す
ることで、データマッチングまでの時間が短縮できる。

【００４５】（５）楽曲識別における楽曲区間デ−タさて、以上の説明のみでは、オンエアされたサンプリン
グデータは、ブロック単位で辞書とスタートポイントが
一致していなければならない。ブロック単位は1.86秒な
ので、辞書とはまったく無関係に非同期でサンプリング
されるデータには、この最大1.86秒のずれを補正する方
法を持たさなければならない。

【００４６】そこで、本発明では、フレーム２０個でひ
とかたまりのブロックにする時に、まずスタート位置か
ら２０個のフレームでブロック化する作業と平行して、
スタート位置を１フレームずらした（遅れた）場所から
ブロック化するようにした。さらに、同じく２フレーム
ずらした場所からブロック化する。さらに同じく３フレ
ーム目から…、というようにして、最後に２０フレーム
遅れでブロック化するという作業が平行して行われる。

【００４７】図１０に、楽曲識別における区間データの
説明図を示す。

【００４８】上述の例ではＮ＝２０であるので、このよ
うな２０種類の位置ずれブロックは、それぞれ１０個集
めて、２０種類のブロック列をつくる。１ブロックに含
まれる１００個の平均パワーデータは、あらかじめ用意
された辞書のクラスタ空間において、どのクラスタに最
も近いかを判定し、そのクラスタ番号に置き換える。こ
の判定は、各クラスタのセントロイドとの距離（１００
次元での誤差２乗和）が最小のものを基準として判断さ
れる。こうして２０種類のブロック列は、２０種類の区
間コードに置き換えられる。なお、１ブロック２０フレ
ームであるので、２１フレーム遅れは遅れなしスタート
のブロックと同じであるから、２１フレーム遅れのデー
タは不要となる。さらに言えば、２１フレーム遅れは第
２回目の認識作業での遅れなしブロック列で、２２フレ
ーム遅れは同じく第２回目の認識作業での１フレーム遅
れのブロック列…ということで延々とつづくことにな
る。

【００４９】さて１回の認識動作においては、92.88ms
（１フレーム）遅れで２０種類の区間コードが時間とと
もに次々と先頭ブロックから順にデータが生成されて、
1.86秒で１ブロックを作り出し、つぎに、ソートされた
探索木構造のデータベースと比較されて、該当しないも
のを除きながら、マッチングしたものを認識していく。

【００５０】認識は、１区間コードのブロック数分（例
えば１０回分）探索木を枝別れすれば、かならず１つの
「結論」に帰着することになる。そして、最終的に何回
枝別れすれば、１つの楽曲名に特定できるかを実験した
ところ、１０回程あれば満足できるものとなった。場合
によっては、枝別れは１５回（１５ブロック＝１区間コ
ード）としても良いし、また、枝別れは１０回（１０ブ
ロック＝１区間コード）のままで、クラスターの数を１
２８から例えば２５６としても良い。

【００５１】さて探索木を１０回枝別れする途中で、途
切れてしまう場合は、辞書にそのような区間コードが存
在しないことになり、認識結果は出力されない。辞書に
区間コードが見当たらないとは、未登録の楽曲だけでは
なく、アナウンサーの声や、その他辞書に登録されない
ような全ての音の場合に発生する。

【００５２】本発明のような認識方法の分野では、２４
時間つねにリアルタイム認識状態である必要があるた
め、このような高速化は非常に有益である。

【００５３】このように、辞書データは、主に以下のよ
うな２つの機能を有する。

【００５４】１）全登録楽曲についてのクラスタリング
のためのデータベース、２）全登録楽曲についてのソートされた探索木構造にな
った区間コードのデータベース。

【００５５】前者１）は、未知の音が来た場合、それが
音楽であろうが、トークショーであろうが、とりあえず
フレーム数分（例えば２０種類）の時間ずれ区間データ
を作るために参照する辞書データである。後者２）は、
その区間コードが登録楽曲かどうか、照合するための辞
書データである。辞書の再構築については、上記２）は
追加削除の度に実施するが、上記１）は大きく構成が変
わった時のみの実施でよい。

【００５６】（６）識別動作つぎに、認識結果が出力されるまでの動作を説明する。

【００５７】探索木上を１つの区間データが走るのなら
ば、回答は１つに帰着するのだけであるが、本発明で
は、時間ずれ対応で、１フレーム(92.88ms)遅れで、次
から次へと２０種類の区間コードが探索木の上を走査さ
れていく。このとき、スローテンポの曲などではデータ
内容の時間変化が少ない場合があり、同時に走る２０種
類の認識用区間コードの中で、時間がぴったり同期して
いるものは、当然、うまく１０回枝別れして正しい答え
を出す。しかし、１フレームずれ程度の別な区間コード
の方でも、同じ枝別れ経路をたどり、同じ場所に帰着す
る（正答が返される）場合がある。そこで、２０種類の
区間コードで認識させたとき、たとえ複数から同じ認識
結果がでても、それを１つにまとめて出力する事で、第
１回目の認識単位は完了する。

【００５８】また、楽曲名等とともに、このときの時刻
を、その楽曲がオンエア開始した時刻としてストアす
る。この後も第２回目、３回目…と認識行為は継続する
ものの、途中で１０回枝別れできなくなる状況（例え
ば、曲が終わってアナウンサーの声に変わったとき等）
が複数回継続し出現したならば、その楽曲は中断または
終了したと判定し、その時刻をオンエアが終了した時刻
としてストアする。

【００５９】具体例を、実際に放送現場で多用されてい
る、２曲連続してかける場合の手法で説明する。例え
ば、１曲目をフェードアウトさせ、完全に音が消えきら
ない少し手前で２曲目を標準レベルからのカットインで
オンエアすることは非常に多くみられる。この場合、フ
ェードアウト中は平均パワーレベルが時間とともにスラ
イドしていくので、認識率は落ちるかもしれない。区間
コードが１０回枝別れできない事態がある回数連続した
時点で、この１曲めは終了と判定される。もしフェード
アウトの傾きが緩やかであれば、次の曲がカットインし
てきたところで終了と判定される。一方、２曲目の方は
カットインの時点では、まだ１曲目の音が十分下がりき
っていなければ認識できない状況であり、十分下がった
時点で、初めて２曲目が認識され、その時刻が記録され
る。

【００６０】もうひとつの特徴はこの手法は、辞書にあ
る楽曲の全区間を細かく切った区間コードを利用して認
識するので、単なるｘ時ｘ分ｘ秒からｘ分ｘ秒間演奏さ
れたという演奏事実の確認にとどまらず、ある曲のどの
区間（たとえば、さびの部分だけ、頭の１分２０秒間だ
け）がオンエアされたかを付帯データとして出力できる
ことにある。

【００６１】Ｂ．楽曲識別システムつぎに、「Ａ．楽曲の識別」で述べた識別方法を実現す
るシステムへの応用について説明する。

【００６２】（１）モニタリング・サイト図１１に、本発明に係る楽曲識別システムの構成図を示
す。

【００６３】本発明に係るシステムは、テレビ放送局
１、ラジオ放送局２、テレビ用認識部２０、ラジオ用認
識部３０、時計部６、帯域フィルタ部７、モニタリング
・サイト８、センター設備９、通信線１０及び楽曲辞書
作成装置１１を備える。さらに、テレビ用認識部２０
は、テレビ音声受信機３及び録音機４を含むテレビ用受
信部２１を複数個有する。ラジオ用認識部３０は、ラジ
オ受信機５及び録音機４を含むラジオ用受信部３１を複
数個有する。

【００６４】テレビ音声受信機３、ラジオ受信機５及び
録音機４は、それぞれ複数の受信機回路を含むことがで
きる。録音機４は、例えば２４時間等の長時間録音が可
能なものであり常時録音することにより、それぞれテレ
ビ音声受信機３及びラジオ受信機５に障害が発生した時
などの予備のバックアップ受信機として機能する。時計
部６は、障害や瞬断の時刻等を記録するため、各録音機
４にデータを供給するとともに、モニタリング・サイト
８にも時刻データを供給する。帯域フィルタ部７は、テ
レビ用認識部２０及びラジオ用認識部３０で受信された
音声信号を帯域分離するもので、複数のデジタルフィル
タ又はアナログフィルタ、Ａ／Ｄコンバータ等を備え
る。

【００６５】モニタリング・サイト８は、コンピュー
タ、内部メモリ、通信手段等を備え、テレビ用及びラジ
オ用認識部２０及び３０が設置された場所情報、受信信
号の放送源又は送信元の情報などの必要な各種情報を把
握及び管理する。モニタリング・サイト８は、楽曲識
別、楽曲データ記憶、楽曲スポッティング演算、放送時
間や局の特定、ログファイルやログデータの作成及び編
集、センターコンピュータとの通信機能等を有する。

【００６６】センター設備９は、コンピュータ、辞書デ
ータ記憶部等のメモリ、通信手段等を備え、各地域に配
備された複数のモニタリング・サイト８とそれぞれ通信
線１０を介して接続される。センター設備９は、識別結
果の受信や新譜データの送信等のデータの通信、システ
ム運用等を行う。また、楽曲辞書作成装置１１とも接続
され、辞書データを受信する。楽曲辞書作成装置１１
は、例えば新譜データ等の楽曲の辞書データを作成した
り、記憶したりする機器である。

【００６７】通信線１０は、一般の電話回線、ＩＳＤＮ
回線、専用線、個別配線等適宜の接続線を用いることが
できる。

【００６８】図１２に、帯域フィルタ部７の構成図の一
例を示す。ここでは、バンドパスフィルタ（ＢＰＦ）と
してデジタルフィルタを用いた回路構成を示すが、アナ
ログフィルタ等により適宜帯域フィルタを構成すること
もできる。

【００６９】帯域フィルタ部７は、Ａ／Ｄコンバータ７
０１、複数のバンドパスフィルタ７０２、バスライン７
０３及びマイクロプロセッサ７０４を備える。

【００７０】テレビ用及びラジオ用認識部２０及び３０
からの音声信号は、帯域フィルタ部７の入力端子７０５
に入力される。入力端子７０５からの音声信号は、Ａ／
Ｄコンバータ７０１でデジタルデータに変換され、バン
ドパスフイルタ７０２で楽曲信号のパワーデータのスペ
クトラムを取り出す。バンドパスフィルタ７０２は、複
数個用いられ、例えばヤマハ（商標）のＹＳＳ２３１等
を用いることにより実現できる。ここでは、一例とし
て、５個のバンドパスフィルタＢＰＦ１〜ＢＰＦ５が使
用されている。バンドパスフィルタ７０２の特性の設定
は、マイクロプロセッサ７０４により行われる。バスラ
イン７０３は、データライン（細線）及びアドレスライ
ン（太線）を有する。出力データは、マイクロプロセッ
サ７０４の制御により、バスライン７０３を介して、出
力端子７０６から出力される。

【００７１】図１３に、帯域フィルタ部７の設定条件の
説明図を示す。

【００７２】図１３（Ａ）は、ひとつのデジタルフィル
タのバンドパスフイルタ特性の設定条件を示したもので
ある。また、図１３（Ｂ）は、各デジタルフイルターの
パラメータを示す。このように、本発明の実施の形態で
は、バンドパスフイルタの通過特性は、聴覚特性を考慮
し、一例としてベースの音域である100Hz 〜200Hzを基
準に１オクターブ間隔にし、計５チャンネル備えるよう
にしている。各々のバンドパスフィルタ７０２により、
通過帯域別に取り出された音声デジタル信号は、マイク
ロプロセッサ７０４により、フレーム別且つ帯域別のパ
ワーの算出が行われる。

【００７３】フレーム単位にされた楽曲データは、バス
ライン７０３より出力端子７０６を通じて、帯域フィル
タ部７から出力される。この出力信号は、モニタリング
・サイト８に送られ楽曲のスポッティグ認識とログファ
イルの収集等を行う。

【００７４】（２）楽曲スポッティングの概要図１４に、楽曲スポットティングの概要のフローチャー
トを示す。

【００７５】まず、モニタリング・サイト８は、受信さ
れた楽曲について、辞書作成時と同様に、随時、放送源
又は送信元からパワーベクトルＰ(l)を算出する（ステ
ップＳ１０１）。つぎに、パワーベクトルのフレームｌ
をシフトさせながら放送音からのブロックＢ^N(l)、Ｂ
^N(l+1)、・・・、を作成する（ステップＳ１０３）。さ
らに、ブロックＢN(l)をＮフレーム毎取り出し、ブロッ
ク間にオーバラップを生じないように、次式のようにブ
ロック列ＢＬ^N(l)を構成する（ステップＳ１０５）。

【００７６】

【数５】前述のように、各ブロックとセントロイドＸ_#Qとの距離
を計算して、ブロック列ＢＬ^N(l)に基づきクラスタリン
グを行い、区間コードＣL(l)に変換する（ステップＳ１
０７）。この区間コードと辞書データの区間コードとを
比較してマッチングをとり楽曲を認識する（ステップＳ
１０９）。受信した楽曲の中から辞書データと比較して
マッチングされた楽曲は、他の情報とともにログデータ
ファイルがフォーマットされてメモリに記録される。
（ステップＳ１１１）。この後、求められたログデータ
は、適当なタイミングで通信路１０を介して、センター
設備９に伝送される。

【００７７】図１５に、ログフォーマットの説明図の一
例を示す。

【００７８】ログフォーマット中には、例えば、認識さ
れた年月日時分秒等の時刻情報、受信した地区名や都道
府県名等の場所情報、放送局名や送信局等の放送源又は
送信元情報、楽曲コード等の各データが含まれる。モニ
タリング・サイト８に楽曲認識されたデータは、このよ
うなフォーマットでログファイルに書き込まれ、センタ
ー設備９内部のコンピュータからの指示で又は自らの制
御でログデータを送る。

【００７９】（３）センター設備及び楽曲辞書作成装置図１６に、楽曲辞書作成装置の構成図を示す。つぎに、
この図を参照して、楽曲の辞書作成方法について述べ
る。

【００８０】楽曲辞書作成装置１１は、各楽曲再生機器
より楽曲を再生を行うもので、市販する楽曲は一般的に
ＣＤ、テープレーコード等で販売されているので、通
常、複数の再生機器が必要となる。楽曲辞書作成装置１
１は、例えばＣＤプレーヤ１１０１、テープレコーダー
１１０２、レコードプレーヤ１１０３等の再生機器、ス
イッチ１１０４、帯域フィルタ１１０５及びコンピュー
タ１１０６を備える。再生装置としては、このほかにも
ＭＤ、レーザーディスク、ビデオ等多様な再生装置を備
えることができる。スイッチ１１０４は、例えばアナロ
グスイッチ、ディジタルスイッチであり、各再生装置を
切り替える。帯域フィルタ１１０５は、モニタリング・
サイト８に接続される図１２に示した帯域フィルタ部７
の構成と同様であり、特性も同様に設定されている。な
お、コンピュータ１１０６は、センター設備９内に備え
るようにしても良い。

【００８１】各再生装置から再生された楽曲は、図１２
に示した帯域フィルタ部７と同様に、帯域フイルタ１１
０５等を通過してフレーム化及びブロック化等が行われ
る。コンピュータ１１０６は、スイッチ１１０４のゲー
ト指示を行うことにより、希望の再生機器より再生され
た楽曲を、図１４で説明した手順でパワーベクトルの算
出、ブロックの作成、ブロック列の構成、クラスタリン
グ等が行われ、辞書データを作成する。作成された辞書
データは、楽曲辞書作成装置１１はセンター設備９に転
送され、また、内部の辞書データ記憶部に記録される。
楽曲辞書作成装置１１で作成された楽曲の辞書データ
は、センター設備９及び通信線１０を通してモニタリン
グ・サイト８に辞書データとして伝送され、そこに多数
の楽曲の辞書データが保存されている。また、モニタリ
ング・サイト８の内部メモリは、モニタリング・サイト
８からログデータが送信されたときにこのときに辞書デ
ータの更新作業も同時に行うことができる。モニタリン
グサイト８では、図１４のステップＳ１０９に示したよ
うな辞書データメモリとして、楽曲認識のデータマッチ
ングのデーターとして使用する。

【００８２】図１７に、辞書データのフォーマットの説
明図を示す。

【００８３】この例では、辞書データとして、楽曲コー
ド（楽曲の名称）、作曲家名、作詞家名、歌手名又は演
奏家名等の著作者に関する情報、及び楽曲の構成データ
等が含まれる。

【００８４】本発明では、前述ような楽曲スポッティン
グを行うことにより、楽曲の途中から放送が開始されて
も高速に確実に認識を行うことができる。

【００８５】また、識別処理は、モニタリング・サイト
８又はセンター設備９の他にも、適宜の部分に設けられ
たコンピューター及びメモリ等により実行することもで
きる。

【００８６】さらに、ブロック列及び区間コードの長さ
は、音楽が時間の流れに対してどのような変化をしてい
くかにより適宜設定することができる。また、クラスタ
数は、その瞬間での音質の構成比をどのくらい細かく分
類するかにより、適宜設定することができる。その他、
フレーム、ブロック、ブロック列等のデータ構成は適宜
変更することができる。例えば、辞書に登録される楽曲
のジャンルの偏り（例えば演奏速度、音質構成など）
や、曲数等によって適宜パラメータを変更してもよい。

【００８７】

【発明の効果】以上のように、本発明によると、高い信
頼性を持って自動的に楽曲の識別をし、放送局、時間回
数等のその楽曲に関する情報を求めることができる楽曲
識別方法及び楽曲識別システムを提供することができ
る。

【００８８】また、本発明によると、放送されたプログ
ラムからリアルタイムで楽曲スポッティング、即ち、不
特定の楽曲から任意の楽曲の区間を抽出しタグ付けをす
ることにより、正確且つ多数の楽曲の識別を少ない計算
量で高速に行うことができる。

【００８９】

【図面の簡単な説明】

【図１】パワー算出までのプロセスの説明図。

【図２】フレーム構成の説明図。

【図３】フレームのずれによって生じるパワー誤差の説
明図。

【図４】ひとつの帯域チャネル番号についてのブロック
の説明図。

【図５】各帯域チャネル番号毎のパワーベクトルの説明
図。

【図６】帯域チャネル番号毎のブロック構成図。

【図７】一般的な各帯域チャネル番号毎のパワーベクト
ルのブロック構成の説明図。

【図８】ブロックのクラスタリングの説明図。

【図９】区間コードの整列についての説明図。

【図１０】楽曲識別における区間データの説明図。

【図１１】本発明に係る楽曲識別システムの構成図。

【図１２】帯域フィルタ部７の構成図。

【図１３】帯域フィルタ部７の設定条件の説明図。

【図１４】楽曲スポットティングの概要のフローチャー
ト。

【図１５】ログフォーマットの説明図。

【図１６】楽曲辞書作成装置の構成図。

【図１７】辞書データのフォーマットの説明図。

【符号の説明】

１テレビ放送局２ラジオ放送局３テレビ音声受信機４録音機５ラジオ受信機６時計部７帯域フィルタ部８モニタリング・サイト９センター設備１０通信線１１楽曲辞書作成装置

Claims

【特許請求の範囲】

【請求項１】受信された楽曲について、複数の帯域チャ
ネル毎のパワーデータを算出するステップと、算出された前記パワーデータのフレームを複数含むブロ
ックを作成するステップと、連続した前記ブロックを複数含むブロック列を作成する
ステップと、作成された前記ブロック列について、前記ブロック単位
でクラスタリングを行うことによりクラスタ番号で表わ
した区間コードに変換するステップと、前記区間コードと辞書データとを比較し、マッチングさ
れた楽曲を認識するステップとを備えた楽曲識別方法。
【請求項２】前記認識された楽曲について、時刻情報、
楽曲の放送源若しくは送信元の情報及び／又は楽曲コー
ドを含むログデータを出力又は記憶するステップをさら
に備えた請求項１に記載の楽曲識別方法。
【請求項３】前記パワーデータは、前後の複数のフレームのパワーデータの平均としたこと
を特徴とする請求項１又は２に記載の楽曲識別方法。
【請求項４】前記ブロックは、受信された楽曲の前記フレームをひとつずつ前記ブロッ
クに含まれるフレーム数の長さ分までシフトすることに
より、複数種類作成されることを特徴とする請求項１乃
至３のいずれかに記載の楽曲識別方法。
【請求項５】前記クラスタ番号は、分離した帯域数毎及び前記フレーム数毎の多次元の空間
領域を複数のクラスタに分けたときの、前記ブロックと
最も距離の近いセントロイドのクラスタ番号であること
を特徴とする請求項１乃至４のいずれかに記載の楽曲識
別方法。
【請求項６】前記辞書データは、楽曲ソースから再生された楽曲について、複数の帯域チ
ャネル毎のパワーベクトルを算出するステップと、算出された前記パワーベクトルのフレームを複数含むブ
ロックを作成するステップと、連続した前記ブロックを複数含むブロック列を作成する
ステップと、作成された前記ブロック列について、前記ブロック単位
でクラスタリングを行うことによりクラスタ番号で表わ
した区間コードに変換するステップとにより作成される
ことを特徴とする請求項１乃至５のいずれかに記載の楽
曲識別方法。
【請求項７】前記辞書データは、楽曲全体に対して前記ブロック列の長さで切り出して複
数の前記区間コードで表現した区間データと、さらにひとつずつ前記区間データに含まれるブロック数
の長さ分までシフトすることにより、それぞれ楽曲全体
に対して前記ブロック列の長さで切り出して複数の前記
区間コードで表現した複数の区間データとを備えること
を特徴とする請求項１乃至６のいずれかに記載の楽曲識
別方法。
【請求項８】前記辞書データの各区間コードは、辞書順
に整列されていることを特徴とする請求項１乃至７のい
ずれかに記載の楽曲識別方法。
【請求項９】楽曲信号を受信する受信部と、前記受信部により受信された前記楽曲信号を複数の帯域
チャネルに分離して、前記帯域チャネル毎のパワーデー
タを出力する帯域フィルタ部と、時刻情報を出力する時計部と、受信された楽曲について、複数の帯域チャネル毎のパワ
ーデータを算出する手段と、算出された前記パワーデー
タのフレームを複数含むブロックを作成する手段と、連
続した前記ブロックを複数含むブロック列を作成する手
段と、作成された前記ブロック列について、前記ブロッ
ク単位でクラスタリングを行うことによりクラスタ番号
で表わした区間コードに変換する手段と、前記区間コー
ドと辞書データとを比較し、マッチングされた楽曲を認
識する手段と、前記時刻情報及び／又は前記楽曲コード
を含むログデータを出力する手段を含む楽曲識別部を備
えた楽曲識別システム。
【請求項１０】前記楽曲識別部と通信線を介して接続さ
れ、前記楽曲辞書作成部により作成された前記辞書デー
タを前記楽曲識別部に送信し、一方、前記楽曲識別部に
より作成された前記ログデータを前記楽曲識別部から受
信するセンター設備をさらに備えた請求項９に記載の楽
曲識別システム。
【請求項１１】再生された楽曲信号を複数の帯域チャネ
ルに分離して、前記帯域チャネル毎のパワーデータを出
力する帯域フィルタ手段と、受信された楽曲について、複数の帯域チャネル毎のパワ
ーデータを算出する手段と、算出された前記パワーデータのフレームを複数含むブロ
ックを作成する手段と、連続した前記ブロックを複数含むブロック列を作成する
手段と、作成された前記ブロック列について、前記ブロック単位
でクラスタリングを行うことによりクラスタ番号で表わ
した区間コードに変換する手段とを備え、前記辞書デー
タを作成する楽曲辞書作成部をさらに備えた請求項９又
は１０に記載の楽曲識別システム。
【請求項１２】前記受信部に対する予備装置として楽曲
を受信及び録音する録音部をさらに備えた請求項９乃至
１１のいずれかに記載の楽曲識別システム。
【請求項１３】前記ログデータは、前記受信部が設置された場所情報及び／又は楽曲の放送
源若しくは送信元の情報を含むことを特徴とする請求項
９乃至１２のいずれかに記載の楽曲識別システム。
【請求項１４】前記辞書データは、楽曲コード、著作者
に関する情報及び／又は楽曲の構成データを含むことを
特徴とする請求項９乃至１３のいずれかに記載の楽曲識
別システム。