JP5440051B2

JP5440051B2 - コンテンツ同定方法、コンテンツ同定システム、コンテンツ検索装置及びコンテンツ利用装置

Info

Publication number: JP5440051B2
Application number: JP2009210599A
Authority: JP
Inventors: 定浩安良; 丈嗣内藤
Original assignee: JVCKenwood Corp
Current assignee: JVCKenwood Corp
Priority date: 2009-09-11
Filing date: 2009-09-11
Publication date: 2014-03-12
Anticipated expiration: 2029-09-11
Also published as: JP2011059504A

Description

本発明は、詳細が不明なコンテンツデータに係わる情報を検出することができるコンテンツ同定方法、コンテンツ同定システム、コンテンツ検索装置及びコンテンツ利用装置に関する。

本来、デジタルコンテンツデータの利用は、正規のコンテンツ流通に従い利用許諾されたユーザーにのみ許諾されるべきである。ところが、近年では、正規管理コンテンツが、デジタル化によりその複製、配布が個人の環境においても容易に行える場合があり、一旦不正に複製されたデジタルコンテンツデータはインターネットのような広域ネットワークを介して大量に配布されることが起きている。

通信の自由が保障された現代において、デジタルコンテンツデータの利用許諾が適正に管理された環境以外の環境下では、コンテンツの不正流出を完全に防止することは困難であり、コンテンツデータの内容、コンテンツデータの出所などが不明となりがちである。

しかしながら、このような出所不明、内容不明なコンテンツデータの曲名等の情報を特定することができれば、そのコンテンツが不正なコンテンツであるか否かを確認することが可能である。また、上述のような目的以外にもテレビやラジオ等から放送される楽曲等の詳細な情報を知りたいという要望もある。

特許文献１ならびに特許文献２に開示されている技術によれば、予め音楽データからその楽曲データに固有となるフィンガープリントデータを算出し、後に、その楽曲データの一部から同様な方法で算出されたフィンガープリントと比較することで、その楽曲に関する情報を検出する方法があり、フィンガープリントデータを多数データベースに登録しておくことで、詳細な情報が不明な音楽データの同定をすることも可能となる。

特表２００４−５０５３２８号公報特表２００６−５０６６５９号公報

しかしながら、従来技術においては、圧縮処理、エフェクト処理等によるコンテンツ加工に対する耐性を高めているため、コンテンツ識別情報を検出する精度が低減されており、コンテンツデータから抽出する部分データの部位によっては、他のコンテンツの部位と類似するため、誤判定を起こすことがあった。

そこで、本発明は、コンテンツの同定に際し、より精度よくコンテンツデータの同定を行うことのできるコンテンツ同定方法、コンテンツ同定システム、コンテンツ検索装置及びコンテンツ利用装置を提供することを課題とする。

上記課題を解決するために、本発明のコンテンツ同定方法は、
（１）コンテンツデータから複数の部分データを抽出する部分データ抽出ステップと、
（２）部分データの特性に基づいて、部分データ毎に部分特徴データを算出する特徴データ演算ステップと、
（３）部分データそれぞれの特徴量を算出する特徴量算出ステップと、
（４）特徴量算出ステップで算出された各特徴量に基づいて、部分データがそのコンテンツデータを特定するための前記特徴データとして有効かどうかの度合いを示す重付情報を部分データ毎に生成する重付算出ステップと、
（５）各コンテンツデータの被検索用特徴データと、当該コンテンツデータを特定するコンテンツ識別情報とを関連づけて蓄積するデータベースを検索して、部分特徴データと一致又は近似する被検索用特徴データのコンテンツ識別情報を部分特徴データ毎に抽出するデータベース照合ステップと、
（６）前記データベース照合ステップにより抽出された複数のコンテンツ識別情報について、各コンテンツ識別情報の検索に用いた部分特徴データの重付情報に基づいて重み付けを行うことで、前記抽出された複数のコンテンツ識別情報から真のコンテンツ識別情報を選択する評価ステップと
を備える。

また、本発明のコンテンツ同定システムは、コンテンツデータから複数の部分データを抽出する部分データ抽出部と、複数の部分データについて、それぞれの部分データの特性に基づいて部分特徴データを算出する特徴データ演算部と、部分データそれぞれの特徴量を算出する特徴量算出部と、特徴量算出部が算出した各特徴量に基づいて、部分データがそのコンテンツデータを特定するための特徴データとして有効かどうかの度合いを示す重付情報を部分データ毎に生成する重付算出部と、各コンテンツデータの被検索用特徴データと、当該コンテンツデータを特定するコンテンツ識別情報とを関連づけて蓄積するデータベースと、データベースに蓄積された被検索用特徴データ群を検索して、部分特徴データと一致又は近似する被検索用特徴データのコンテンツ識別情報を部分特徴データ毎に抽出するデータベース照合部と、データベース照合部により抽出された複数のコンテンツ識別情報について、各コンテンツ識別情報の検索に用いた部分特徴データの重付情報に基づいて重み付けを行うことで、抽出された複数のコンテンツ識別情報から真のコンテンツ識別情報を選択する評価部とを備える。

これらの発明によれば、出所不明のコンテンツに対して、特徴データ（フィンガープリントデータ）を算出し、この特徴データについて、データベース内の被検索用特徴データ群と照合することで、同一又は近似する被検索用特徴データからコンテンツ識別情報を検出し、当該コンテンツを特定することができる。特に、本発明では、コンテンツデータから複数の部分データを抽出し、その部分データ毎に特徴データ（部分特徴データ）を算出して検索を行うため、データ照合の処理負担を軽減することができる。また、このとき、個々の部分データに対してコンテンツ識別情報を検索し、複数のコンテンツ識別情報を抽出するとともに、各部分データにその部位の特徴に応じた重付けをすることにより、楽曲を特定するためにより有効な部位に対するコンテンツ識別情報を真のコンテンツ識別情報とすることができ、同定処理の精度を高め、誤判定を低減することができる。

上記発明では、コンテンツデータが音楽データの場合に、そのコンテンツデータを複数フレームに区切り、フレーム毎に音楽データを時間周波数変換し、フレーム毎に所定の周波数帯域のパワーを評価量として算出し、その評価量、又は、複数フレーム分の評価量を合計したものを特徴量とすることが好ましい。

このような発明では、コンテンツデータが音楽データである場合に、フレーム単位で特定の周波数帯域の出力（パワー）を算出し、それらを評価量とすることから、ボーカルや所定の楽器など、所定の周波数帯域における出力の大小から、楽曲の特徴を評価するのに適したフレームを抽出し、その特徴量の順位により重付けを行うことができる。

上記発明では、コンテンツデータが音楽データの場合に、コンテンツデータを複数フレームに区切り、各フレームにおける実効レベルを算出して評価量とし、複数フレーム分の評価量において、コンテンツデータの平均実効レベル以上のレベルを一定時間継続しているかを示す指標を特徴量として算出することが好ましい。

このような発明では、コンテンツデータが音楽データである場合に、フレーム単位で実効レベルを算出し、平均実効レベル以上のレベルが継続している時間を特徴量とすることから、ボーカルや所定の楽器などの突発的・断片的な出力増大などを排除して、安定した楽曲の特徴を評価するのに適したフレームを抽出し、その特徴量の順位により重付けを行うことができる。

上記発明では、コンテンツデータが音楽データの場合に、コンテンツデータを複数フレームに区切り、各フレームについて、時間周波数変換した周波数スペクトルの概形を判定する評価量を算出し、その評価量から複数フレームを代表する値を算出して、その代表する値を特徴量とすることが好ましい。

このような発明では、コンテンツデータが音楽データである場合に、フレーム単位で特定の周波数スペクトルの概形を評価量とし、その中から代表的なフレームの評価量を求めることから、例えば、スペクトルの概形の平坦度などから楽曲の特徴を評価するのに適した代表的なフレームの特徴量を基準として重付けを行うことができる。

上記発明では、コンテンツデータが符号化データの場合に、コンテンツデータから、符号化ストリーム中に存在する補助データをフレーム単位で読み取り、補助データを用いて所定の周波数帯域の最大振幅レベル量を評価量として算出し、その評価量、又は、複数フレーム分の評価量を合計したものを特徴量として算出することが好ましい。

このような発明では、コンテンツデータが圧縮されているなど、コンテンツデータが符号化データである場合に、符号化の際に生成された補助データを読み取り、補助データに含まれる周波数帯域全体の最大振幅レベル量を評価量とすることから、ボーカルや所定の楽器など所定の周波数帯域における最大振幅レベルから、楽曲の特徴を評価するのに適したフレームを抽出し、その特徴量の順位により重付けを行うことができる。特に、本発明では、符号化データを復号することなく評価量を抽出することができるため、復号に要する処理負担を軽減することができる。

上記発明では、複数フレームについて算出した複数の特徴量について並び替えを行い、所定の範囲に属する特徴量に対応した複数フレームの集まりを、抽出すべき部分データとし、この抽出すべき部分データに対応する特徴量に基づき、当該部分データについての重付情報を算出することが好ましい。

この場合には、複数のフレームに対する評価量を複数合計したものを特徴量とし、その特徴量に応じて並び替えを行い、上位の複数フレームの集まりをそのまま部分データとして利用することから、コンテンツの特定に適した部分データのみを抽出することができる。

さらに、他の発明は、上記コンテンツ同定システム及び同定方法を応用したコンテンツ検索に利用可能なコンテンツ検索装置及びコンテンツ利用装置である。

具体的に、本発明のコンテンツ検索装置は、コンテンツデータを受信する受信部と、受信部が受信したコンテンツデータから、複数の部分データを抽出する部分データ抽出部と、複数の部分データについて、それぞれの内容に関する特性に基づく部分特徴データを算出する特徴データ演算部と、各部分データが示す特徴量を算出する特徴量算出部と、特徴量算出部が算出した各特徴量に基づいて、部分データがそのコンテンツデータを特定するための特徴データとして有効かどうかの度合いを示す重付情報を部分データ毎に生成する重付算出部と、各コンテンツデータの被検索用特徴データと、当該コンテンツデータを特定するコンテンツ識別情報とを関連づけて蓄積するデータベースを検索して、部分特徴データと一致又は近似する被検索用特徴データのコンテンツ識別情報を部分特徴データ毎に抽出するデータベース照合部と、データベース照合部により抽出された複数のコンテンツ識別情報について、各コンテンツ識別情報の検索に用いた部分特徴データの重付情報基づいて重み付けを行うことで、抽出された複数のコンテンツ識別情報から真のコンテンツ識別情報を選択する評価部と、評価部が選択した真のコンテンツ識別情報を送信する送信部とを備える。

一方、本発明のコンテンツ利用装置は、コンテンツデータから、複数の部分データを抽出する部分データ抽出部と、部分データそれぞれの特徴量を算出する特徴量算出部と、特徴量算出部が算出した各特徴量に基づいて、部分データがそのコンテンツデータを特定するための特徴データとして有効かどうかの度合いを示す重付情報を部分データ毎に生成する重付算出部とを備える。

上記コンテンツ利用装置の発明では、各コンテンツデータを特定するコンテンツ識別情報を蓄積するデータベースを検索して、部分データと一致又は近似するコンテンツデータのコンテンツ識別情報を取得し、取得されたコンテンツ識別情報について、データベースの検索に用いた部分データの重付情報を照合し、その照合結果に基づいて、抽出された複数のコンテンツ識別情報から真のコンテンツ識別情報を選択する評価部をさらに備えることが好ましい。

これらの発明によれば、出所が不明な音楽ファイルや、曲名が不明な音楽などを、コンテンツ利用装置に読み込ませたり、コンテンツ検索装置に送信することで、コンテンツ識別情報を取得することができ、楽曲の特定などを容易に行うことができる。

本発明によれば、コンテンツデータから最適な部位抽出により得られた複数の部分データを用いて、コンテンツデータの特徴を算出し、算出された特徴に基づいてコンテンツ識別情報を検出し、さらに部分データに対応する重付情報を加味して、コンテンツ識別情報の評価を行うことで、他のコンテンツと誤判定する確率を低くすることができる。

（ａ）は、実施形態に共通のコンテンツデータ同定システムの概略構成を示すブロック図であり、（ｂ）は、部分データ抽出部の内部構成を示すブロック図である。実施形態に共通のコンテンツデータ同定システムの動作を示すフローチャート図である。第１実施形態に係る特徴量算出部のブロック図を示す図である。第１実施形態に係るセグメントパワー算出方法を示す図である。 MP4ファイルフォーマットの概要を示す図である。 AAC符号化ストリームの構成図を示す図である。第１実施形態に係る振幅ビット数算出方法を示す図である。第１実施形態に係る重付算出部のブロック図を示す図である。第１実施形態に係る評価部のフローチャートを示す図である。第２実施形態に係る特徴量算出部のブロック図を示す図である。第２実施形態に係る継続時間判定部の動作例を示す図である。第２実施形態に係る特徴量算出部のデータ構成図を示す図である。第３実施形態に係る音楽検索システムの構成を示すブロック図である。第３実施形態に係る音楽検索システムの変更例を示すブロック図である。

［コンテンツ同定システム及び同定方法の概要］
以下に添付図面を参照して、本発明に係るコンテンツ同定システム及びコンテンツ同定方法の実施形態を詳細に説明する。図１は、各実施形態に共通のコンテンツデータ同定システムの概略構成を示すブロック図である。なお、説明中で用いられる「モジュール」とは、装置や機器等のハードウェア、或いはその機能を持ったソフトウェア、又はこれらの組み合わせなどによって構成され、所定の動作を達成するための機能単位を示す。

（コンテンツ同定システムの概略構成）
コンテンツ同定システムは、楽曲データの検索システムや、楽曲データの再生を制御する管理システム、楽曲データの改変を検出する改変検出システムなどにおいて、楽曲データの情報（曲名やアーティスト、レーベル、発売日等）を同定する部分として適用されるシステムである。

なお、本実施形態では、コンテンツデータの一例として、楽曲を記録したＰＣＭデータ、又は楽曲の音響データを圧縮した符号化データ（ＭＰＥＧ−２／４ＡＡＣ符号化方式（ＡＡＣ）及び、ＭＰＥＧ−２／４ＡＡＣ＋ＳＢＲ（ＨＥＡＡＣ）符号化方式等）を対象に説明する。符号化データを納めるコンテナは、放送、通信、蓄積といった用途により異なっており、例えばＡＡＣ、ＨＥＡＡＣにおいて、ＢＳ／地上波デジタル放送では、ADTS（Audio Data Transport Stream)フォーマットが使用されており、コンテンツ配信の用途では、ＭＰ４ファイルフォーマットが使用される。

具体的に、本実施形態に係るコンテンツ同定システムは、図１（ａ）及び（ｂ）に示すように、部分データ抽出部１１と、フィンガープリント算出部１２と、データベース照合部１３と、データベース１４と、評価部１５とを備えている。

部分データ抽出部１１は、コンテンツ同定システムに入力されたコンテンツデータＤ１から複数の部分データＤ２を抽出するとともに、抽出した各部分データＤ２が、そのコンテンツデータを特定するためのフィンガープリント（特徴データ）を抽出するのに有効であるかどうかを示す重付情報Ｄ３を生成するモジュールである。この部分データ抽出部１１で抽出された部分データＤ２は、フィンガープリント算出部１２に入力され、生成された重付情報Ｄ３は、評価部１５に入力される。なお、入力されたコンテンツデータを所定の方式のデータにエンコードするエンコーダを部分データ抽出部１１の前段に設けても良い。

本実施形態において部分データ抽出部１１には、同図（ｂ）に拡大して示すように、特徴量算出部１１２と、重付算出部１１３とが含まれており、部分データ抽出部１１に入力されたコンテンツデータから、部分データが切り出され、各部分データは、フィンガープリント算出部１２に出力されるとともに、特徴量算出部１１２と重付算出部１１３とを経て、重付情報Ｄ３として評価部１５に出力される。

特徴量算出部１１２は、各部分データＤ２が示す特徴量を、部分データ毎に算出するモジュールである。一方、重付算出部１１３は、特徴量算出部１１２が算出した各特徴量に基づいて、各部分データが、そのコンテンツデータＤ１を特定するための特徴データとして有効かどうかを示す重付情報Ｄ３を生成するモジュールである。この重付算出部１１３で算出された重付情報Ｄ３は、算出の基礎となった各部分データに対応付けられて評価部１５に出力される。

フィンガープリント算出部１２は、複数の部分データＤ２に対し、所定の関数を用いて、それぞれの内容に関する特性に基づくフィンガープリントである部分特徴データＤ４を算出する特徴データ演算部である。

具体的にこのフィンガープリントを算出する方法としては、入力されたデジタルコンテンツデータを人間が視聴する場合において、音量の変化や、周波数スペクトルの変化等のデジタルコンテンツデータの品質を司る要素を抽出する特性を有し、その品質を損なわない程度に改変されても変化しない値を出力する関数、例えば、音響や映像などのデジタルコンテンツデータの内容に関する特性に基づいた値（フィンガープリント）を算出する関数を用いる。

そのようなフィンガープリント算出部１２が複数の部分データＤ２から部分特徴データＤ４を算出する方法として、例えば、スペクトル・スライス・フィンガープリント、マルチスライス・フィンガープリント、ＬＰＣ係数、ケプストラム係数、スペクトルピークの周波数成分を含む種々の方法を用いることができる。例えば、線形予測符号化（ＬＰＣ）分析は、信号の予測可能な線形な特性であるスペクトル形状の他にスペクトルピークを抽出するものであり、また、ケプストラム係数は、音声や多くの楽器のような調波構造の信号を特徴付けるのに有用であり、これらを利用して、フィンガープリントを算出することができる。また、これらの方法に限定されるわけではなく、種々のフィンガープリントを算出する方法を用いることができる。

なお、フィンガープリント算出部１２では、部分データＤ２が圧縮された符号化データの場合に、その部分データＤ２を復号した後、部分特徴データＤ４を算出することが可能であり、これにより、同定の対象となるデジタルコンテンツデータが、圧縮及び復号されたり、アナログ変換された後、再度デジタル変換するなどして、劣化していたとしても、オリジナルのデジタルデータと同程度のフィンガープリントを算出することができるようになっている。

データベース照合部１３は、データベース１４に蓄積された被検索用特徴データ群を照合して、部分特徴データＤ４と一致又は近似する被検索用特徴データのコンテンツ識別情報を検索して抽出するモジュールである。データベース１４には、各コンテンツデータの被検索用特徴データと、当該コンテンツデータを特定するコンテンツ識別情報とが関連づけられて蓄積されており、データベース照合部１３は、部分特徴データＤ４に含まれる特徴量をパラメータとして、データベース１４に含まれる楽曲を検索する。このデータベース照合部１３で検出された楽曲を特定するコンテンツ識別情報として評価部１５に出力される。

評価部１５は、データベース照合部１３により抽出された複数のコンテンツ識別情報について、各コンテンツ識別情報の検索に用いた部分特徴データの重付情報を照合し、その照合結果に基づいて、抽出された複数のコンテンツ識別情報から真のコンテンツ識別情報を選択するモジュールである。

詳述すると、この評価部１５には、部分データ抽出部１１から重付情報Ｄ３が入力され、データベース照合部１３からコンテンツ識別情報Ｄ５が入力される。このコンテンツ識別情報Ｄ５は、複数の部分データのそれぞれに対して検索されるものであることから、例えば、部分データをｎ個抽出した場合、ｎ個のコンテンツ識別情報のうち、すべてが同一のコンテンツ識別情報とならない可能性があり、このときには、ｍ種類（ｍ≦ｎ）の異なるコンテンツ識別情報Ｄ５が存在することになる。そのため、評価部１５では、同一のコンテンツ識別情報については、対応する重付情報Ｄ３をコンテンツ識別情報毎に加算して統合し、ｍ個の異なったコンテンツ識別情報に対応するｍ個の重付情報を生成する。そして、統合された重付情報が最大となるコンテンツ識別情報を、真のコンテンツ識別情報Ｄ５と判断する。

（コンテンツ同定方法の概略）
以上の構成を有するコンテンツ同定システムを動作させることによって、本発明のコンテンツ同定方法を実施することができる。図２は、コンテンツ同定システムの動作を示すフローチャート図である。

図２に示すように、先ず、同定の対象となるコンテンツデータＤ１を取得する（Ｓ１０１）。このコンテンツデータＤ１の取得方法としては、音楽ファイルや符号化データファイルを読み込むか、或いはマイクなどの音声入力デバイスにより音声データを録音するなどが挙げられる。

このようにして取得されたコンテンツデータＤ１は、部分データ抽出部１１に入力され、部分データ抽出部１１において、コンテンツデータから複数の部分データを抽出する（Ｓ１０２）。具体的に、このステップＳ１０２では、部分データ抽出部１１において、コンテンツデータＤ１中の任意の部分を部分データとして切り出し、切り出された部分データＤ２をフィンガープリント算出部１２に出力するとともに、部分データ抽出部１１において特徴量の算出を行う。この後、重付情報Ｄ３の生成処理（Ｓ１０３〜Ｓ１０４）と、コンテンツ識別情報Ｄ５の検索処理（Ｓ１０５〜Ｓ１０７）とを並行して実行する。

重付情報Ｄ３の生成処理では、各部分データＤ２が示す特徴量を算出する（Ｓ１０３）とともに、ステップＳ１０３で算出された各特徴量に基づいて、部分データＤ２がそのコンテンツデータを特定するための特徴データとして有効かどうかを示す重付情報を生成する（Ｓ１０４）。このとき、部分データＤ２が圧縮された符号化データである場合は、その部分データＤ２を復号した後、関数による演算を行い、部分特徴データＤ４を算出する。そして、この重付算出部１１３で生成された重付情報Ｄ３は、算出の基礎となった各部分データに対応付けられて評価部１５に入力される。

一方、コンテンツ識別情報Ｄ５の検索処理では、複数の部分データに対し、部分特徴データＤ４を算出する（Ｓ１０５）。具体的には、フィンガープリント算出部１２において、複数の部分データＤ２に対して所定の関数を用い、それぞれの内容に関する特性に基づくフィンガープリントを、部分特徴データＤ４として算出する。このステップＳ１０５で算出された部分特徴データＤ４は、データベース照合部１３に入力される。

次いで、データベース１４を照合し、部分特徴データと一致又は近似する被検索用特徴データを検索する（Ｓ１０６）。この検索された被検索用特徴データに関連づけられたコンテンツ識別情報Ｄ５を抽出し（Ｓ１０７）、評価部１５に入力する。

その後、ステップＳ１０７により抽出された複数のコンテンツ識別情報Ｄ５について、各コンテンツ識別情報の検索に用いた部分特徴データＤ４の重付情報Ｄ３を照合し、各コンテンツ識別情報の評価を行う（Ｓ１０９）。そして、各重付情報の照合結果に基づいて、抽出された複数のコンテンツ識別情報の中から真のコンテンツ識別情報を選択して、出力する（Ｓ１１０）。

詳述すると、上述した重付情報Ｄ３の生成処理（Ｓ１０３〜Ｓ１０４）と、コンテンツ識別情報Ｄ５の検索処理（Ｓ１０５〜Ｓ１０７）の結果、評価部１５には、部分データ抽出部１１から重付情報Ｄ３が入力され、データベース照合部１３からコンテンツ識別情報Ｄ５が入力される。このとき、評価部１５では、入力されたコンテンツ識別情報Ｄ５が単一である場合には、そのコンテンツ識別情報を真のコンテンツ識別情報とする。また、複数のコンテンツ識別情報が入力された場合、評価部１５は、同一のコンテンツ識別情報について、対応する重付情報Ｄ３をコンテンツ識別情報毎に加算して統合し、ｍ個の異なったコンテンツ識別情報に対応するｍ個の重付情報を生成し、統合された重付情報が最大となるコンテンツ識別情報を、真のコンテンツ識別情報Ｄ５として選択する。

（各実施形態に共通の作用・効果）
このような上記コンテンツ同定システム及び同定方法によれば、出所不明のコンテンツに関して、特徴データ（フィンガープリントデータ）を算出し、この特徴データについてデータベース１４内の被検索用特徴データ群と照合することで、同一又は近似する被検索用特徴データのコンテンツ識別情報を検出し、当該コンテンツを特定することができる。

特に、部分データ抽出部１１により、コンテンツデータから複数の部分データを抽出し、その部分データ毎にフィンガープリント（部分特徴データ）を算出して検索を行うため、データ照合の処理負担を軽減することができる。また、このとき、個々の部分データに対してコンテンツ識別情報を検索し、複数のコンテンツ識別情報を抽出するとともに、各部分データにその部位の特徴に応じた重付けをすることにより、楽曲を特定するためにより有効な部位に対するコンテンツ識別情報を真のコンテンツ識別情報とすることができ、同定処理の精度を高め、誤判定を低減することができる。

［第１実施形態］
以上説明した概略構成を有するコンテンツ同定システム及びコンテンツ同定方法の第１実施形態について説明する。本実施形態では、上述した各部分データの重付情報を算出する際に、コンテンツデータが音楽データであるか、符号化データあるかに応じて特徴量の算出方法を切り換えるとともに、コンテンツデータが音楽データの場合には、コンテンツデータを複数フレームに区切り、各フレームに関する周波数帯域パワーを評価量として算出し、コンテンツデータが符号化データの場合には、符号化ストリーム中に存在する補助データを用いて評価量を算出する。

（特徴量の算出）
図３は、本実施形態に係る特徴量算出部１１２の内部構成を示すブロック図である。同図に示すように、本実施形態に係る特徴量算出部１１２は、データ形式判定部１９と、符号化データ系モジュール群１６と、音楽データ系モジュール群１７とを備えている。

データ形式判定部１９は、コンテンツデータの内容が、ＰＣＭデータ（音楽データ）であるか、符号化データであるかなど、入力されたコンテンツデータ（ここでは、部分データＤ２）のデータ形式を判定するモジュールである。このデータ形式の判定は、例えば、部分データが抽出される前のコンテンツデータの拡張子（ｗａｖ、ａａｃ、ｍｐ４等）や、ファイルの先頭ヘッダを取得し解析することにより、そのファイル形式やデータ構造を判定する。そして、このデータ形式判定部１９は、入力されたコンテンツデータの形式に応じて、符号化データ系モジュール群１６又は音楽データ系モジュール群１７を選択して、コンテンツデータを出力する。なお、入力されたコンテンツデータを所定の方式のデータにエンコードするエンコーダを部分データ抽出部１１の前段等に設けてあれば、データ形式判定部は必要なく、符号化データ系モジュール群１６と音楽データ系モジュール群１７のうち、どちらか一方を備えていれば良い。

符号化データ系モジュール群１６は、コンテンツデータが符号化データである場合に、当該コンテンツデータが示す特徴量を部分データ毎に算出するモジュール群である。一方、音楽データ系モジュール群１７は、コンテンツデータが音楽データである場合に、コンテンツデータが示す特徴量を、部分データ毎に算出するモジュール群である。これらのモジュール群１６及び１７が算出した特徴量は、部分データ毎に重付算出部１１３に入力される。

(1)音楽データに関する特徴量の算出
上記音楽データ系モジュール群１７には、フレーム化部１７１と、時間周波数変換部１７２と、フレームパワー算出部１７３と、フレームメモリ１７４と、セグメントパワー算出部１７５とが含まれる。

フレーム化部１７１は、コンテンツデータを一定時間（ＦＮサンプル）単位でフレームに区切るモジュールである。また、時間周波数変換部１７２は、フレームデータを周波数スペクトルに変換するモジュールである。

フレームパワー算出部１７３は、聴覚特性に基づき、周波数スペクトルをまとめて周波数バンド（band）を構成し、周波数バンド毎のバンドパワーを算出し、さらにフレーム計算対象バンドであるband LMTまでのバンドパワーを合計したフレームパワーを算出するモジュールである。フレームメモリ１７４は、このフレームパワー算出部１７３で算出された各フレームパワーを蓄積するメモリ装置である。

セグメントパワー算出部１７５は、セグメントを構成するのに必要なフレーム数Ｍ個のフレームパワーを合計して、セグメントパワーを算出し、このセグメントパワーが特徴量に相当することになる。なお、評価量をフレーム毎に合計せずに評価量を特徴量としてもよい。

このような構成を有する音楽データ系モジュール群１７では、以下の手順により特徴量の算出を行う。図４は、本実施形態における特徴量の算出処理を模式的に示す説明図である。

先ず、データ形式判定部１９において、対象となっているコンテンツデータがＰＣＭデータであると判定された場合は、フレーム化部１７１において、コンテンツデータのセグメントを、一定時間（ＦＮサンプル)単位でフレームに区切る（Ｓ２０１及びＳ２０２）。なお、本実施形態では、コンテンツデータをＮ個のセグメントに区切り、各セグメントからＭ個のフレームを抽出している。このフレームは、本実施形態では、各フレームの時間的に重複するように区切られている。そして、ここで生成されたフレームは、時間周波数変換部１７２に入力される。

次いで、時間周波数変換部１７２では、フレームデータを周波数スペクトルに変換し（Ｓ２０３）、フレームパワー算出部１７３に入力する。フレームパワー算出部１７３では、聴覚特性に基づき、周波数スペクトルをまとめて周波数バンド（band)を構成し、周波数バンド毎のバンドパワーを求める（Ｓ２０４）。そして、フレーム計算対象バンドであるband LMTまでのバンドパワーを合計したフレームパワーを求めて、フレームメモリ１７４に蓄積する。

これらの処理を、コンテンツデータを構成するセグメントについて実行して、コンテンツデータから生成されるすべてのフレームに対して行う。そして、セグメントパワー算出部１７５では、セグメントを構成するのに必要なフレーム数Ｍ個のフレームパワーを合計して、セグメントパワーを算出する（Ｓ２０５）。このセグメントパワー算出部１７５で算出されたセグメントパワーが特徴量に相当することになる。ここでは、Ｎ個のセグメントに対するセグメントパワー（特徴量）が算出される。なお、フレームパワーを特徴量としても良い。

(2)符号化データに関する特徴量の算出
他方、上記符号化データ系モジュール群１６には、図３に示すように、ＡＡＣ／ＨＥＡＡＣパーサー部１６１と、フレーム振幅ビット数算出部１６２と、フレームメモリ１６３と、セグメント振幅ビット数算出部１６４とが含まれる。

ＡＡＣ／ＨＥＡＡＣパーサー部１６１は、コンテンツデータに含まれるビットストリームから補助データであるglobal_gain値とscalefactor(sfb)値の抽出を行うモジュールである。フレーム振幅ビット数算出部１６２は、スケールファクタバンドsfb毎にSCALE(sfb)を計算した後、フレーム振幅ビット数を算出するモジュールである。

フレームメモリ１６３は、フレーム振幅ビット数算出部１６２が算出したフレーム毎のフレーム振幅ビット数を蓄積するメモリ装置である。セグメント振幅ビット数算出部１６４は、フレームメモリ１６３に蓄えられたフレーム振幅ビット数の合計量を計算し、セグメント振幅ビット数を算出するモジュールである。

このような構成を有する符号化データ系モジュール群１６では、以下の手順により特徴量の算出を行う。なお、ここでは、MPEG-2/4 AAC符号化方式（AAC)及び、MPEG-2/4 AAC+SBR(HEAAC)符号化方式を想定した例を示す。符号化データを納めるコンテナは、放送、通信、蓄積といった用途により異なっており、AAC、HEAACでは、ＢＳ／地上波デジタル放送では、ADTS（Audio Data Transport Stream)フォーマットが使用されており、コンテンツ配信の用途では、MP4ファイルフォーマットが使用される。

図５は、MP4ファイルフォーマットの概要を示したデータ構成図である。このMP4ファイルフォーマット（ISO/IEC14496-14)は、ＩＳＯベースメディアファイルフォーマット（ISO/IEC14496-12)に対して、ＭＰＥＧ−４のオブジェクト符号化に対応するための追加や、動画、音声などのビットストリームに関する記述を拡張したものである。ＩＳＯベースメディアファイルフォーマットは、オブジェクト指向のデータ構造、すなわち木構造を持ち、各オブジェクトをボックス（ｂｏｘ)と呼んでいる。図５では、MP4ファイルフォーマットに含まれる主なボックスについて示している。

図５において、ftypeは、互換性のあるファイルタイプを記述するボックスであり、ファイルの先頭にただ１つだけ含まれる。moovは、すべてのメタデータを含むコンテナボックスであり、ファイル中にただ１つ含まれる。mdatは、メディアデータの全体を含むコンテナボックスであり、メディアデータ本体は、細分化されチャンクと呼ばれる固まりにまとめられて配置される。

また、moovの下位には、さらに複数のｂｏｘが存在している。これらの下位のｂｏｘのうち、stsdには、ビットレート、サンプリング周波数、符号化タイプなどの情報が記述されており、stscには、各チャンクに存在するオーディオフレーム（オーディオアクセスユニット：AAU)の数が記述されている。また、下位のｂｏｘのうち、stszには、ファイルに存在するオーディオフレームの総数と、各オーディオフレームのサイズが記述されており、stsoには、ファイルに存在するチャンクの総数と各チャンクのファイル先頭からのオフセット位置が記述されている。すなわち、moovに記述されている情報からmdatにある任意のオーディオフレームにアクセスすることが可能となっている。

次に、ＭＰＥＧ−２／４ＡＡＣ符号化ストリームについて説明する。図６は、ＡＡＣによりステレオ音声を符号化した際のストリーム構成を示す説明図である。このＭＰＥＧ−２／４ＡＡＣ符号化によるフォーマットは、raw_data_streamと呼ばれており、複数のraw_data_blockが集まって構成されている。図５に示したmdatボックスには、このような複数のraw_data_blockが集合した形式のデータが収められている。1AAUに相当するraw_data_blockは、エレメントと呼ばれる単位が集まった形で構成されており、L, Rチャンネル用のCPE(Channel Pair Element)、スタッフィングバイト挿入用のFILL(Fill Element)、1AAUの終わりを示すEND(Term Element)が存在する（但し、FILLは存在しない場合がある。）。

そして、CPEには、L/Rチャンネルで共通の窓関数を表す情報（common_window)や、チャンネル毎の情報（individual_channel_stream）が存在し、individual_channel_streamには、窓関数のシーケンス処理を表す情報（window_sequence)、周波数バンド幅を表す情報（max_sfb)、量子化ステップを表す情報(global_gain)、拡大縮小用パラメータを表す情報（scale_factor_data)、量子化データを示す情報（spectral_data)が存在する。scale_factor_data、及びspectral_dataについては、ハフマン符号により可変長符号化がなされているため、情報を取り出すためには復号が必要となる。

また、HEAAC(AAC+SBR）符号化方式では、AACにSBR（Spectral band Replication）ツールを適用したものであり、0〜11kHzまでの帯域は、通常のAACで符号化を行ない、11kHz〜16kHzの帯域は実際のスペクトルを符号化するのではなく、低域から高域を再構成するためのパラメータ情報だけを送るようにする。その結果として、高域部分のビット量を低域部分に回すことが可能になり、低ビットレートでありながら高音質化を実現することができる。このHEAACの場合は、FILLエレメント部分にSBRツール用のストリーム情報が付加されている。

AACにおける量子化式は、式１、２で表現される。MDCT(Modified Discrete Cosine Transform)により時間周波数変換して得られた周波数スペクトルがmdct_line(sfb, k)であり、その周波数スペクトルをglobal_gain、scalefactor(sfb)のパラメータを用いて量子化したものが、x_quant(sfb, k)である。x_quant(sfb, k)、scalefactor(sfb)はハフマン符号化されてspectral_data、scale_factor_dataとなり、図６のように配置され伝送される。また、global_gainもサイド情報として伝送される。

AACデコーダ側で行なわれる逆量子化は、式２を変形すると、式３、４のようになる。

式３中のx'は、復号された周波数スペクトルであるため、スペクトル構造を捉えるのには適しているが、周波数スペクトル算出までにAAC復号に要する時間の半分を使用してしまうので望ましくない。そこで、式３の21/4×SCALE(sfb)という値は、聴覚特性に基づいた周波数バンドであるスケールファクタバンド(sfb)に含まれる、周波数スペクトルの最大振幅値（正規化値）であると考えることができるので、変化量であるSCALE(sfb)をそのまま使うことを考える。

このSCALE(sfb)は、式５のように定義して、式の変形を行うと式６になる。これより、SCALE(sfb)は周波数スペクトルの最大振幅値をビット表現した値であると言えるので、情報量としての扱いができることが分かる。

そして、コンテンツデータが符号化データの場合の特徴量算出部１１２では、ＡＡＣ／ＨＥＡＡＣパーサー部１６１によって、ビットストリームからglobal_gain値とscalefactor(sfb)値の抽出を行う。図６に示したように、ステレオ音声の場合には、individual_channel_streamが２つ存在し、それぞれがglobal_gain値とscalefactor(sfb)を有している。本実施形態では、演算量削減、及びモノ音声との整合性を考えて、最初に出現するindividual_channel_streamのglobal_gain値とscalefactor(sfb)だけを抽出することとする。これらを抽出した後は、次のraw_data_blockの先頭にスキップし、残りの情報は読み取らないようにする。

フレーム振幅ビット数算出部１６２では、式４を用いて、スケールファクタバンドsfb毎にSCALE(sfb)を計算した後、式7を用いてフレーム振幅ビット数を算出する。これは、周波数軸方向のビット数の合計となる。式７に出てくるwidth(sfb)は、スケールファクタバンドに含まれる周波数スペクトルの本数を表す。スケールファクタバンドに含まれる周波数スペクトルの本数は異なっているので、本数で割ることにより、各スケールファクタバンドの重み付けを均等化する。

そして、求めたフレーム振幅ビット数をフレームメモリ１６３に蓄積する。以上の作業をＡＡＣ／ＨＥＡＡＣパーサー部１６１と連携して、全オーディオフレームに対して行うことで、全オーディオフレームのフレーム振幅ビット数がフレームメモリ１６３に蓄積されることとなる。

次いで、セグメント振幅ビット数算出部１６４では、式８を用いてフレームメモリ１６３に蓄えられたフレーム振幅ビット数の合計量を計算し、セグメント振幅ビット数とする。これは、時間軸方向のビット数合計となる。

詳述すると、図７に示すように、フレーム毎にフレーム計算対象sfbであるsfbLMTまでの加算を行い、さらに、セグメント分割したフレーム数であるＭ個の加算を行うことで、セグメント振幅ビット数が求まる。セグメント振幅ビット数が特徴量に相当する。なお、フレーム毎のフレーム振幅ビット数を特徴量としても良い。フレーム計算対象sfbであるsfbLMTを決定することは、使用する周波数帯域を決定することに他ならないため、フィンガープリントを有効に働かせるために、フィンガープリント算出に使用している周波数帯域を考慮して決定すべきである。決定する値は固定であっても、コンテンツや求める特徴部分に応じて可変であってもよい。例えば０〜２０００[Hz] 程度の周波数帯域が使用される。同様に、セグメント分割したフレーム数Ｍについても、フィンガープリント算出で使用される時間単位以上になるようにフレーム数Ｍを決定すべきであり、フィンガープリントの時間単位の２倍程度が好ましく、例えば３秒〜６秒程度の値が使用される。

（重付情報の算出）
次いで、重付情報の算出について説明する。図８は、重付算出部１１３の内部構成を示すブロック図である。同図に示すように、重付算出部１１３は、インデックスソート部１１３ａと、情報割当部１１３ｂとを備えている。

インデックスソート部１１３ａは、特徴量算出部１１２で算出されたセグメント毎の特徴量の大小により、対応するセグメント番号の並び替えを行い、上位からＮtop個（例えばＮtop＝５程度）のセグメントを部分データとして出力するモジュールである。なお、ここでの特徴量の大小とは、コンテンツデータが符号化データであるときには、セグメント振幅ビット数の大小であり、コンテンツデータが音楽データであるときには、セグメントパワーの大小である。

情報割当部１１３ｂは、インデックスソート部１１３ａにおいて、部分データとして出力された上位のセグメント特徴量を有するセグメントに対して、重付情報を割り当てるモジュールである。この情報割当部１１３ｂによって割り当てられた重付情報は、出力される部分データと関連づけられて出力される。

このような構成を有する重付算出部１１３における重付算出処理は、以下の手順により行われる。

先ず、特徴量算出部１１２によって算出されたセグメント特徴量（符号化データ：セグメント振幅ビット数、音楽データ：セグメントパワー）の大小に基づいて、インデックスソート部１１３ａで、対応するセグメント番号の並び替えを行う。そして、インデックスソート部１１３ａにおいて、最大のセグメント特徴量を持つセグメントを１位、次に大きい値を持つセグメントを２位、以下、Ｎtop位までの順位付けをし、Ｎtop位までのセグメント特徴量に対応するセグメントを部分データとして情報割当部１１３ｂに対して出力する。

次いで、情報割当部１１３ｂにおいて、式９に基づき、重付情報の割り当てを行う。式９において、MAX_WEIGHTは、重付情報の最大値を表す値であり、分母は、セグメント特徴量の最大値（max_bval)と最小値(min_bval)の差分量であり、変動幅を表す。セグメント特徴量の変動幅は楽曲に依存するため、この変動幅をMAX_WEIGHTの範囲に割り当てることになる。target_bvalは、１位〜Ｎ位のセグメント特徴量である。なお、ここでは、計算された重付情報が１より小さい場合には、１に丸めている。また、本実施形態では、重み付け量のスレッショルドを設けており、それよりも下の値が１位〜Ｎtop位に発生した場合には、部分データ数が調整されて、部分データ及び重付情報が生成されないようになっている。

（評価処理）
次いで、コンテンツ識別情報及び重付情報に基づく、コンテンツデータの評価処理について説明する。図９は、本実施形態における評価部１５における評価処理時の動作を示すフローチャート図である。

先ず、評価部１５に、部分データ抽出部１１の出力である重付情報w[n] が入力されるとともに（Ｓ３０１）、データベース照合部１３の出力であるコンテンツ識別情報id[n]が入力される（Ｓ３０２）。次いで、各種ワーク配列を初期化する。ここでは、統合された重付情報を作成するために使用されるe[i] (i = 0 〜 n-1)をゼロに初期化し、コンテンツ識別情報の種類分けに使用されるc[i] (i = 0 〜 n-1）を例えばINIT= (-1)として初期化する（Ｓ３０３）。また、配列インデックス変数ｋ及び種類分け変数tagも初期化する（Ｓ３０４）。

次いで、ループ処理によって、コンテンツ識別情報の種類分けに使用されるc[i]について、kの値を0からnへ１ずつ増加させつつ、c[k]にINIT以外の値が代入されているかを判断し、当該コンテンツ識別情報が、既に種類分けが行われたかどうかを検査する（Ｓ３０５〜Ｓ３０７）。もし、INIT以外が代入されていれば（Ｓ３０６：Ｙ）、kをインクリメントし、次のc[k]について同様の検査を繰り返す（Ｓ３０６，Ｓ３０７）。なお、ステップＳ３０５において、kがデータ数nに達したならば、ループを終了し、ステップＳ３１３に移行する（Ｓ３０５：Ｎ）。

ステップＳ３０６において、c[k]の値にINITが代入されている場合（Ｓ３０６：Ｎ）、まだ種類分けが行われていないid[k]を比較用変数cvalに代入する（Ｓ３０８）。次いで、ステップＳ３０９ａ〜Ｓ３０９ｂでは、種類分けが行われていない現在のインデックスkからn-1まで、ループ処理により、ステップＳ３１０〜Ｓ３１１を実行する。

ステップＳ３１０では、id[i]がcvalと一致し、かつ、c[i]がINITであるかを判定し、この条件が満たされているときには（Ｓ３１０：Ｙ）、ステップＳ３１１において、種類分け変数tagの値をc[i]に付け、tag単位の重付情報に統合するためにtag毎に重付情報w[i]を加算し、e[tag]に保存する。ステップＳ３０９ａ〜Ｓ３０９ｂのループ処理において、ステップＳ３１０の条件が満たされないiについては（Ｓ３１０：Ｎ）、ステップＳ３１１をスキップして、tag単位の重付情報への統合は行わず、ｉをインクリメントさせる。このループ処理を繰り返し、ｉが（ｎ−１）に到達することにより、ループ処理Ｓ３０９ａ〜Ｓ３０ｂを抜けだし、ステップＳ３１２に移行する。ステップＳ３１２において、kとtagの値をそれぞれインクリメントし、ループ処理により、上記ステップＳ３０５〜Ｓ３１１までの処理を繰り返す。

以上のステップＳ３０５〜Ｓ３１１までの処理を、ｋがｎに到達するまで実行した後（Ｓ３０５：Ｎ）、ステップＳ１１３において、統合された重付情報の配列e[i] (i = 0 〜 tag)の中から最大値を有するインデックスmaxを探索し、ステップＳ３１４において、インデックスmaxが持つコンテンツ識別情報id[max]を、真のコンテンツ識別情報であると判定して、出力する。

なお、本実施形態では、符号化データの例としてMP4ファイルフォーマットを用いた例を示したが、これに制限されるものではなく、ＢＳ／地上波デジタル放送で用いられているADTS（Audio Data Transport Stream)フォーマットを使用してもよい。また、符号化方式についても、MPEG-2/4 AAC符号化方式（AAC)及び、MPEG-2/4 AAC+SBR(HEAAC)符号化方式に制限されるものではなく、MP3等の類似した符号化方式や、AACと関連のある符号化方式においても有効である。

（本実施形態の作用・効果）
以上説明した本実施形態では、コンテンツデータが音楽データである場合、フレーム単位で特定の周波数帯域の出力（パワー）を算出し、それらを評価量とすることができ、ボーカルや所定の楽器など、所定の周波数帯域における出力の大小から、楽曲の特徴を評価するのに適したフレームを抽出し、その特徴量の順位により重付けを行うことができる。

また、本実施形態では、コンテンツデータが符号化データである場合に、符号化の際に生成された補助データを読み取り、補助データに含まれる周波数帯域全体の最大振幅レベル量を評価量とすることから、符号化データを復号することなく評価量を抽出することができ、復号に要する処理負担を軽減しつつ、周波数帯域における最大振幅レベルに基づく楽曲の特徴を評価することができる。

さらに、本実施形態では、複数のフレームに対する評価量を複数合計したものを特徴量とし、その特徴量に応じて並び替えを行い、上位の複数フレームの集まりをそのまま部分データとして利用することから、コンテンツの特定に適した部分データのみを抽出することができる。

［第２実施形態］
次いで、本発明の第２実施形態について説明する。この第２実施形態では、コンテンツデータが音楽データの場合に特徴量を算出する際、コンテンツデータを複数フレームに区切り、各フレームについて、コンテンツデータの平均出力レベル以上のレベルを一定時間継続しているかを示す評価量を算出するとともに、時間周波数変換した周波数スペクトルの概形を判定する評価量を算出することを特徴とする。なお、本実施形態において、上述した第１実施形態と同一の構成要素には同一の符号を付し、その機能等は特に言及しない限り同一であり、その説明は省略する。

（特徴量算出部の構成）
図１０は、本実施形態に係る特徴量算出部１１２の内部構成を示したブロック図である。本実施形態では、第１実施形態と比較して、コンテンツデータが符号化データである場合の処理は同じであるが、コンテンツデータがＰＣＭデータ（音楽データ）である場合の処理が異なっている。

具体的に、本実施形態に係る音楽データ系モジュール群１８は、フレーム化部１８１と、実効レベル算出部１８２と、スペクトル平坦度算出部１８３と、フレームメモリ１８４とを備えている。

フレーム化部１８１は、コンテンツデータを一定時間（ＦＮサンプル）単位でフレームに区切るモジュールである。実効レベル算出部１８２は、フレームデータの二乗平均平方根（RMS）を算出して、算出結果を実効レベルとして算出するモジュールである。算出された実効レベルは、フレームメモリ１８４に蓄積される。スペクトル平坦度算出部１８３は、フレームデータにハニング窓等の窓関数を掛けた後、時間周波数変換を行い、パワースペクトルを求めた後、スペクトル平坦度を表す指標に変換する。算出されたスペクトル平坦度は、フレームメモリ１８４に蓄積される。

さらに、本実施形態に係る音楽データ系モジュール群１８は、セグメント化部１８５と、平坦度判定部１８６と、継続時間判定部１８７と、評価量統合部１８８とを備えている。

セグメント化部１８５は、フレームメモリ１８４に蓄えられたフレーム単位の実効レベルデータ及びスペクトル平坦度データを複数フレーム分まとめることで、１セグメントの情報とするモジュールである。平坦度判定部１８６は、セグメントを構成するフレームの実効レベルデータが最大値を有するフレームを、そのセグメントを代表するフレームと見なして、そのフレームに対応したスペクトル平坦度をそのセグメントのスペクトル平坦度と算定するモジュールである。この平坦度判定部１８６で算定された平坦度は、評価量Ｆとして評価量統合部１８８に入力される。

継続時間判定部１８７は、セグメントを構成するフレームの実効レベルデータのうち、所定のスレッショルド（しきい値）を超えるフレームが連続する最大個数を計算するモジュールである。ここでのスレッショルドレベル決定方法としては、全フレームNFRの実効レベルデータの平均である平均実効レベルを算出するとともに、全フレーム中の最大実効レベルを算出し、これら平均実効レベル及び最大実効レベルの２つの値から最終のスレッショルドレベルを算定する。この継続時間判定部１８７で算定された継続時間は、評価量Ｐとして評価量統合部１８８に入力される。評価量統合部１８８は、平坦度判定部１８６及び継続時間判定部１８７により算出された評価量Ｐ及び評価量Ｆを乗算することで、セグメント特徴量を算出するモジュールである。

（音楽データ系における特徴量の算出）
このような構成を有する音楽データ系モジュール群１８では、以下の手順により特徴量の算出を行う。

先ず、データ形式判定部１９において、対象となるコンテンツデータがＰＣＭデータであると判定された場合に、入力されたＰＣＭデータは、フレーム化部１８１においてコンテンツデータを一定時間（ＦＮサンプル）単位でフレームに区切る。このフレーム毎に区切られたデータは、スペクトル平坦度算出部１８３及び実効レベル算出部１８２に入力される。

実効レベル算出部１８２では、フレームデータ毎の二乗平均平方根（RMS）を式１０により算出して、フレームメモリ１８４に蓄積する。

一方、スペクトル平坦度算出部１８３では、フレームデータにハニング窓等の窓関数を掛けた後、時間周波数変換を行い、パワースペクトルを求める。そして、聴覚特性に基づき、周波数スペクトルをまとめて周波数バンド（ＦＢ個）を構成し、周波数バンド毎のバンドパワーを求めた後、スペクトル平坦度（スペクトラルフラットネスメジャー）を計算し、その結果をフレームメモリ１８４に蓄積する。スペクトル平坦度（スペクトラルフラットネスメジャー）については、式１１、１２、１３により算出される。

以上の処理を、すべてのフレームに対して行うことで、全フレームの情報がフレームメモリ１８４に蓄積される。そして、セグメント化部１８５では、フレームメモリ１８４に蓄えられたフレーム単位の実効レベルデータ及びスペクトル平坦度データを複数フレーム分まとめることで、１セグメントの情報とする。

継続時間判定部１８７では、セグメントを構成するフレームの実効レベルデータのうち、所定のスレッショルドを超えるフレームが連続する最大個数を計算する。このスレッショルドレベルの決定方法は、全フレームNFRの実効レベルデータの平均である平均実効レベルを式１４により求め、全フレーム中の最大実効レベルを式１５により求める。得られた２つの値から最終のスレッショルドレベルを式１６により求める。式中、RATIOはコンテンツに依存した定数であり、例えば、０．６６である。

図１１には、１セグメントに属するフレームの数を１０とした場合の継続時間判定部１８７の動作例を示す。この場合、fr２〜fr5までthresholdRMSを超えて連続しているので、個数は４となる。後半fr7〜fr9までthresholdRMSを超えて連続しているが、最大個数である４個を超えていないので、そのまま４個となる。この結果から、評価量Ｐを式１７により算出する。

平坦度判定部１８６では、セグメントを構成するフレームの実効レベルデータが最大値を有するフレームを、そのセグメントを代表するフレームと見なして、そのフレームに対応したスペクトル平坦度をそのセグメントを代表するスペクトル平坦度とする。スペクトル平坦度は、式１１よりGm/Amが０〜１の値となるため、０〜−∞の値が発生する。よって、このままでは扱いづらいので、トーナリティという指標に式１８により変換し、これを評価量Fとする。

式１８中、SFMdBmax=-60[dB]とすると、SFMdB=0[dB]の場合は、F＝０となりノイズ性と判断され、SFMdB=-60[dB]以上の場合は、F＝１となりトーン性と判断される。

図１２は、本発明の第２実施形態における特徴量算出部１１２について、前述した手順をデータ構成の観点から示したものである。同図に示すように、本実施形態では、コンテンツデータの各セグメントからフレームを構成し（Ｓ４０１及びＳ４０２）、フレーム毎の実効レベル（RMS)を算出する（Ｓ４０５）と同時に、そのフレームのスペクトル平坦度を算出する（Ｓ４０４）。そして、実効レベル（RMS)については、複数フレームから１つのセグメントを構成し、評価量Ｐを求める。また、セグメント内の最大実効レベルを有するフレームに対応するスペクトル平坦度を評価量Ｆとする。

評価量統合部１８８においては、以上のようにして求めた評価量Ｐと評価量Ｆとを乗算し、セグメント特徴量として出力する。セグメント特徴量としての値が高くなるケースは、ノイズ的でなく音楽的な信号で、かつ一定の高い音量レベルが持続した場合であるため、楽曲のサビ部分等に相当する。

なお、本実施形態では、継続時間判定部１８７で算出した評価量と、平坦度判定部１８６で算出した評価量の両方を用いてセグメント特徴量を算出したが、本発明はこれに限定されるものではなく、継続時間判定部１８７で算出した評価量と、平坦度判定部１８６で算出した評価量のどちらか一方を用いて、セグメント特徴量を算出してもよい。その際、平坦度判定部１８６では、各フレームのスペクトル平坦度について、セグメントを構成するフレーム分だけ合計して、セグメント特徴量とする。

（重付算出及び評価処理）
このようにして算出されたセグメント毎の特徴量は、上述した第１実施形態と同様に、重付算出部１１３に入力される。なお、コンテンツデータが符号化であるときの特徴量は、上記符号化データ系モジュール１６において、上記第１実施形態と同様に算出される。

そして、重付算出部１１３では、図８に示したように、インデックスソート部１１３ａにおいて、セグメント毎の特徴量の大小により、対応するセグメント番号の並び替えを行い、上位からＮtop個（例えばＮtop＝５程度）のセグメントを部分データとして出力する。なお、ここでの特徴量の大小とは、コンテンツデータが符号化データであるときには、セグメント振幅ビット数の大小であり、コンテンツデータが音楽データであるときには、上記評価量Ｐと評価量Ｆとを乗算して得られた値の大小である。

その後、重付算出部１１３では、情報割当部１１３ｂにおいて、上位のセグメント特徴量を有する所定数のセグメントに対して、重付情報を割り当てる。この情報割当部１１３ｂによって割り当てられた重付情報は、出力される部分データと関連づけられて評価部１５へ出力され、真のコンテンツ識別情報の算出に供される。この真のコンテンツ識別情報は、上記第１実施形態と同様、図９に示した評価部１５の動作によりコンテンツ識別情報及び重付情報に基づく評価処理により算出される。

（本実施形態の作用・効果）
以上説明したように、本実施形態では、コンテンツデータが音楽データである場合、フレーム単位で特定の周波数スペクトルの概形を評価量Ｆとするとともに、コンテンツデータの平均実効レベル以上のレベルを一定時間継続しているかを示す評価量Ｐとし、これらから特徴量とするため、ボーカルや所定の楽器など所定の周波数帯域における出力の継続時間から、突発的・断片的な出力増大などを排除して、楽曲の特徴を評価するのに適したフレームを抽出し、その特徴量の順位により重付けを行うことができる。

［第３実施形態］
次いで、本発明の第３実施形態について説明する。この第３実施形態では、上述した第１実施形態及び第２実施形態に係るコンテンツ同定システム及びコンテンツ同定方法を、音楽検索システムに応用した場合を例示する。

本実施形態において、音楽検索システムは、ユーザーが使用するコンテンツ利用装置２０と、コンテンツ検索サービスを提供する側のコンテンツ検索装置３０とから構成される。なお、本実施形態において、上述した第１実施形態と同一の構成要素には同一の符号を付し、その機能等は特に言及しない限り同一であり、その説明は省略する。

コンテンツ利用装置２０は、検索したい楽曲などの音声ファイルや、音響データを入力することにより、その楽曲を特定する「真のコンテンツ識別情報」を検索するユーザーインターフェースであり、例えば、パーソナルコンピュータや携帯電話機、PDA（Personal Digital Assistance）、ゲーム専用機など、アプリケーションを実行する機能と、インターネット等の通信ネットワークに接続する通信機能を備えた情報端末である。

コンテンツ検索装置３０は、コンテンツ利用装置２０からの要求に応じて、検索対象となる楽曲を特定するためのコンテンツ識別情報を検索し、検索結果をコンテンツ利用装置２０に返信する装置であり、例えば、インターネット等の通信ネットワーク上のサーバー装置とすることができる。

図１３に示すように、コンテンツ利用装置２０は、上述した部分データ抽出部１１と、フィンガープリント算出部１２と、評価部１５とを備えている。また、コンテンツ利用装置２０は、コンテンツデータ取得部２１と、ファイル管理部２２と、録音部２３と、通信部２４とを備えている。

部分データ抽出部１１は、コンテンツデータＤ１から複数の部分データＤ２を抽出するとともに、抽出した各部分データＤ２が、そのコンテンツデータを特定するためのフィンガープリント（特徴データ）を抽出するのに有効であるかどうかを示す重付情報Ｄ３を生成するモジュールである。本実施形態では、この部分データ抽出部１１には、コンテンツデータ取得部２１が接続されており、このコンテンツデータ取得部２１を通じて、検索対象となるコンテンツデータを取得する。コンテンツデータ取得部２１には、例えば、音楽ファイルを読み込むファイル管理部２２や、音楽の音響を、マイクなどの入力デバイスを通じて録音し、音声データとして取得する録音部２３が接続されている。この部分データ抽出部１１で抽出された部分データＤ２は、フィンガープリント算出部１２に入力され、生成された重付情報Ｄ３は、評価部１５に入力される。

本実施形態においても部分データ抽出部１１では、入力されたコンテンツデータから部分データが切り出され、各部分データは、フィンガープリント算出部１２に出力されるとともに、特徴量が算出され、その特徴量に応じた重付情報が、評価部１５に出力される。

フィンガープリント算出部１２は、複数の部分データＤ２に対し、所定の関数を用いて、それぞれの内容に関する特性に基づくフィンガープリントである部分特徴データＤ４を算出する特徴データ演算部である。本実施形態では、このフィンガープリント算出部１２で算出された部分データ毎の特徴データは、部分特徴データとして、通信部２４，３１を通じてコンテンツ検索装置３０へ送信される。この通信部２４は、インターネット等の通信ネットワークに接続するための通信デバイスであり、コンテンツ検索装置３０側の通信部３１との間で、データの送受信が可能となっている。

評価部１５は、データベース照合部１３により抽出された複数のコンテンツ識別情報について、各コンテンツ識別情報の検索に用いた部分特徴データの重付情報を照合し、その照合結果に基づいて、抽出された複数のコンテンツ識別情報から真のコンテンツ識別情報を選択するモジュールである。本実施形態においても、この評価部１５には、部分データ抽出部１１から重付情報Ｄ３が入力され、データベース照合部１３からコンテンツ識別情報Ｄ５が入力される。そのため、評価部１５では、同一のコンテンツ識別情報については、対応する重付情報Ｄ３をコンテンツ識別情報毎に加算して統合し、ｍ個の異なったコンテンツ識別情報に対応するｍ個の重付情報を生成する。そして、統合された重付情報が最大となるコンテンツ識別情報を、真のコンテンツ識別情報Ｄ５と判断する。

一方、コンテンツ検索装置３０は、コンテンツ利用装置２０から送信されたフィンガープリントを受信する通信部３１と、その受信されたフィンガープリントについて、データベース１４を検索するデータベース照合部１３とが備えられている。

このデータベース照合部１３は、データベース１４に蓄積された被検索用特徴データ群を照合して、部分特徴データＤ４と一致又は近似する被検索用特徴データのコンテンツ識別情報を検索して抽出するモジュールである。このデータベース１４には、各コンテンツデータの被検索用特徴データと、当該コンテンツデータを特定するコンテンツ識別情報とが関連づけられて蓄積されており、データベース照合部１３は、部分特徴データＤ４に含まれる特徴量をパラメータとして、データベース１４に含まれる楽曲を検索する。このデータベース照合部１３で検出された楽曲を特定するコンテンツ識別情報Ｄ５が、コンテンツ利用装置２０に返信される。

（変更例）
以上説明した本実施形態に係るコンテンツ検索システムでは、部分データの抽出、フィンガープリントの算出をユーザー側のコンテンツ利用装置２０で行ったが、例えば、図１４に示すように、部分データ抽出部１１及びフィンガープリント算出部１２をコンテンツ検索装置３０側に配置するようにしてもよい。

この場合、コンテンツ利用装置２０側では、コンテンツデータ取得部２１で取得した音楽ファイルや音声データを通信部２４，３１を通じて、コンテンツ検索装置３０へ送信し、コンテンツ検索装置３０側で部分データの抽出からフィンガープリントの算出、データベースの照合を行う。そして、部分データ抽出部１１で生成された重付情報Ｄ３と、データベース照合部１３が検出したコンテンツ識別情報Ｄ５とが、通信部３１、２４を通じて、コンテンツ利用装置２０に返信され、コンテンツ利用装置２０側の評価部１５において、上記評価処理を実行する。

また、上記コンテンツ利用装置に、上記コンテンツ識別情報に基づく利用制限機能を設け、コンテンツを提供するサービス側で管理されているコンテンツデータが不正に視聴されるのを禁止するようにしてもよい。また、各実施形態においてセグメント毎に特徴量を算出したがフレーム毎の評価量を特徴量として用いても良い。

（本実施形態の作用・効果）
本実施形態によれば、出所が不明な音楽ファイルや、曲名が不明な音楽などを、コンテンツ利用装置２０に読み込ませて、コンテンツ検索装置３０に送信することで、真のコンテンツ識別情報を取得することができ、楽曲の特定をより精度良く行うことができる。

Ｄ１…コンテンツデータ
Ｄ２…部分データ
Ｄ３…重付情報
Ｄ４…部分特徴データ
Ｄ５…コンテンツ識別情報
１１…部分データ抽出部
１２…フィンガープリント算出部
１３…データベース照合部
１４…データベース
１５…評価部
１６…符号化データ系モジュール群
１７…音楽データ系モジュール群
１８…音楽データ系モジュール群
１９…データ形式判定部
２０…コンテンツ利用装置
２１…コンテンツデータ取得部
２２…ファイル管理部
２３…録音部
２４，３１…通信部
３０…コンテンツ検索装置
１１２…特徴量算出部
１１３…重付算出部
１１３ａ…インデックスソート部
１１３ｂ…情報割当部
１６１…ＡＡＣ／ＨＥＡＡＣパーサー部
１６２…フレーム振幅ビット数算出部
１６３…フレームメモリ
１６４…セグメント振幅ビット数算出部
１７１…フレーム化部
１７２…時間周波数変換部
１７３…フレームパワー算出部
１７４…フレームメモリ
１７５…セグメントパワー算出部
１８１…フレーム化部
１８２…実効レベル算出部
１８３…スペクトル平坦度算出部
１８４…フレームメモリ
１８５…セグメント化部
１８６…平坦度判定部
１８７…継続時間判定部
１８８…評価量統合部

Claims

コンテンツデータから複数の部分データを抽出する部分データ抽出ステップと、
部分データの特性に基づいて、部分データ毎に部分特徴データを算出する特徴データ演算ステップと、
部分データそれぞれの特徴量を算出する特徴量算出ステップと、
特徴量算出ステップで算出された各特徴量に基づいて、部分データがそのコンテンツデータを特定するための特徴データとして有効かどうかの度合いを示す重付情報を部分データ毎に生成する重付算出ステップと、
各コンテンツデータの被検索用特徴データと、当該コンテンツデータを特定するコンテンツ識別情報とを関連づけて蓄積するデータベースを検索して、部分特徴データと一致又は近似する被検索用特徴データのコンテンツ識別情報を部分特徴データ毎に抽出するデータベース照合ステップと、
前記データベース照合ステップにより抽出された複数のコンテンツ識別情報について、各コンテンツ識別情報の検索に用いた部分特徴データの重付情報に基づいて重み付けを行うことで、前記抽出された複数のコンテンツ識別情報から真のコンテンツ識別情報を選択する評価ステップと
を備えることを特徴とするコンテンツ同定方法。
前記特徴量算出ステップでは、前記コンテンツデータが音楽データの場合に、そのコンテンツデータを複数フレームに区切り、前記フレーム毎に前記音楽データを時間周波数変換し、フレーム毎に所定の周波数帯域のパワーを評価量として算出し、その評価量、又は、複数フレーム分の評価量を合計したものを前記特徴量とすることを特徴とする請求項１に記載のコンテンツ同定方法。
前記特徴量算出ステップでは、前記コンテンツデータが音楽データの場合に、コンテンツデータを複数フレームに区切り、各フレームにおける実効レベルを算出して評価量とし、複数フレーム分の評価量において、コンテンツデータの平均実効レベル以上のレベルを一定時間継続しているかを示す指標を前記特徴量として算出することを特徴とする請求項１に記載のコンテンツ同定方法。
前記特徴量算出ステップでは、前記コンテンツデータが音楽データの場合に、コンテンツデータを複数フレームに区切り、各フレームについて、時間周波数変換した周波数スペクトルの概形を判定する評価量を算出し、その前記評価量から複数フレームを代表する値を算出して、その代表する値を前記特徴量とすることを特徴とする請求項１に記載のコンテンツ同定方法。
前記特徴量算出ステップでは、前記コンテンツデータが符号化データの場合に、コンテンツデータから、符号化ストリーム中に存在する補助データをフレーム単位で読み取り、前記補助データを用いて所定の周波数帯域の最大振幅レベル量を評価量として算出し、その評価量、又は、複数フレーム分の評価量を合計したものを前記特徴量として算出することを特徴とする請求項１に記載のコンテンツ同定方法。
前記重付算出ステップでは、前記複数フレームについて算出した複数の特徴量について並び替えを行い、所定の範囲に属する特徴量に対応した前記複数フレームの集まりを、抽出すべき部分データとし、この抽出すべき部分データに対応する特徴量に基づき、当該部分データについての前記重付情報を算出することを特徴とする請求項２乃至５のいずれか１項に記載のコンテンツ同定方法。
コンテンツデータから複数の部分データを抽出する部分データ抽出部と、
前記複数の部分データについて、それぞれの部分データの特性に基づいて部分特徴データを算出する特徴データ演算部と、
部分データそれぞれの特徴量を算出する特徴量算出部と、
前記特徴量算出部が算出した各特徴量に基づいて、前記部分データがそのコンテンツデータを特定するための特徴データとして有効かどうかの度合いを示す重付情報を部分データ毎に生成する重付算出部と、
各コンテンツデータの被検索用特徴データと、当該コンテンツデータを特定するコンテンツ識別情報とを関連づけて蓄積するデータベースと、
前記データベースに蓄積された被検索用特徴データ群を検索して、前記部分特徴データと一致又は近似する被検索用特徴データのコンテンツ識別情報を部分特徴データ毎に抽出するデータベース照合部と、
前記データベース照合部により抽出された複数のコンテンツ識別情報について、各コンテンツ識別情報の検索に用いた部分特徴データの重付情報に基づいて重み付けを行うことで、前記抽出された複数のコンテンツ識別情報から真のコンテンツ識別情報を選択する評価部と
を備えることを特徴とするコンテンツ同定システム。
前記特徴量算出部は、前記コンテンツデータが音楽データの場合に、コンテンツデータを複数フレームに区切り、前記フレーム毎に前記音楽データを時間周波数変換し、フレーム毎に所定の周波数帯域のパワーを評価量として算出し、その評価量、又は、複数フレーム分の評価量を合計したものを前記特徴量として算出することを特徴とする請求項７に記載のコンテンツ同定システム。
前記特徴量算出部は、前記コンテンツデータが音楽データの場合に、コンテンツデータを複数フレームに区切り、各フレームにおける実効レベルを算出して評価量とし、複数フレーム分の評価量において、コンテンツデータの平均実効レベル以上のレベルを一定時間継続しているかを示す指標を前記特徴量として算出することを特徴とする請求項７に記載のコンテンツ同定システム。
前記特徴量算出部は、前記コンテンツデータが音楽データの場合に、コンテンツデータを複数フレームに区切り、各フレームについて、時間周波数変換した周波数スペクトルの概形を判定する評価量を算出し、前記評価量から複数フレームを代表する値を算出して前記特徴量とすることを特徴とする請求項７に記載のコンテンツ同定システム。
前記特徴量算出部は、前記コンテンツデータが符号化データの場合に、コンテンツデータから、符号化ストリーム中に存在する補助データをフレーム単位で読み取り、前記補助データを用いて所定の周波数帯域の最大振幅レベル量を評価量として算出し、その評価量、又は、複数フレーム分の評価量を合計したものを前記特徴量として算出することを特徴とする請求項７に記載のコンテンツ同定システム。
前記重付算出部は、前記特徴量算出部が、前記複数フレームについて算出した複数の特徴量について並び替えを行い、所定の範囲に属する特徴量に対応した前記複数フレームの集まりを、抽出すべき部分データとし、この抽出すべき部分データに対応する特徴量に基づき、当該部分データについての前記重付情報を算出することを特徴とする請求項８乃至１１のいずれか１項に記載のコンテンツ同定システム。
コンテンツデータを受信する受信部と、
前記受信部が受信したコンテンツデータから、複数の部分データを抽出する部分データ抽出部と、
前記複数の部分データについて、それぞれの内容に関する特性に基づく部分特徴データを算出する特徴データ演算部と、
前記各部分データが示す特徴量を算出する特徴量算出部と、
前記特徴量算出部が算出した各特徴量に基づいて、前記部分データがそのコンテンツデータを特定するための特徴データとして有効かどうかの度合いを示す重付情報を部分データ毎に生成する重付算出部と、
各コンテンツデータの被検索用特徴データと、当該コンテンツデータを特定するコンテンツ識別情報とを関連づけて蓄積するデータベースを検索して、前記部分特徴データと一致又は近似する被検索用特徴データのコンテンツ識別情報を部分特徴データ毎に抽出するデータベース照合部と、
前記データベース照合部により抽出された複数のコンテンツ識別情報について、各コンテンツ識別情報の検索に用いた部分特徴データの重付情報に基づいて重み付けを行うことで、前記抽出された複数のコンテンツ識別情報から真のコンテンツ識別情報を選択する評価部と、
前記評価部が選択した前記真のコンテンツ識別情報を送信する送信部と
を備えることを特徴とするコンテンツ検索装置。
前記特徴量算出部は、前記コンテンツデータが音楽データの場合に、コンテンツデータを複数フレームに区切り、前記フレーム毎に前記音楽データを時間周波数変換し、各フレームに関する所定の周波数帯域のパワーを評価量として算出し、その評価量、又は、複数フレーム分の評価量を合計したものを前記特徴量として算出することを特徴とする請求項１３に記載のコンテンツ検索装置。
前記特徴量算出部は、前記コンテンツデータが音楽データの場合に、コンテンツデータを複数フレームに区切り、各フレームにおける実効レベルを算出して評価量とし、複数フレーム分の評価量において、コンテンツデータの平均実効レベル以上のレベルを一定時間継続しているかを示す指標を前記特徴量として算出することを特徴とする請求項１３に記載のコンテンツ検索装置。
前記特徴量算出部は、前記コンテンツデータが音楽データの場合に、コンテンツデータを複数フレームに区切り、各フレームについて、時間周波数変換した周波数スペクトルの概形を判定する評価量を算出し、前記評価量から複数フレームを代表する値を算出して前記特徴量とすることを特徴とする請求項１３に記載のコンテンツ検索装置。
前記特徴量算出部は、前記コンテンツデータが符号化データの場合に、コンテンツデータから、符号化ストリーム中に存在する補助データをフレーム単位で読み取り、前記補助データを用いて所定の周波数帯域の最大振幅レベル量を評価量として算出し、その評価量、又は、複数フレーム分の評価量を合計したものを前記特徴量として算出することを特徴とする請求項１３に記載のコンテンツ検索装置。
前記重付算出部は、前記特徴量算出部が、前記複数フレームについて算出した複数の特徴量について並び替えを行い、所定の範囲に属する特徴量に対応した前記複数フレームの集まりを、抽出すべき部分データとし、この抽出すべき部分データに対応する特徴量に基づき、当該部分データについての前記重付情報を算出することを特徴とする請求項１４乃至１７のいずれか１項に記載のコンテンツ検索装置。
コンテンツデータから、複数の部分データを抽出する部分データ抽出部と、
部分データそれぞれの特徴量を算出する特徴量算出部と、
前記特徴量算出部が算出した各特徴量に基づいて、前記部分データがそのコンテンツデータを特定するための特徴データとして有効かどうかの度合いを示す重付情報を部分データ毎に生成する重付算出部と、
各コンテンツデータを特定するコンテンツ識別情報を蓄積するデータベースを検索して、前記部分データと一致又は近似するコンテンツデータのコンテンツ識別情報を部分特徴データ毎に取得し、取得されたコンテンツ識別情報について、前記データベースの検索に用いた部分データの重付情報に基づいて重み付けを行うことで、前記抽出された複数のコンテンツ識別情報から真のコンテンツ識別情報を選択する評価部と
を備えることを特徴とするコンテンツ利用装置。
前記特徴量算出部は、前記コンテンツデータが音楽データの場合に、コンテンツデータを複数フレームに区切り、前記フレーム毎に前記音楽データを時間周波数変換し、フレーム毎に所定の周波数帯域のパワーを評価量として算出し、その評価量、又は、複数フレーム分の評価量を合計したものを前記特徴量として算出することを特徴とする請求項１９に記載のコンテンツ利用装置。
コンテンツデータから、複数の部分データを抽出する部分データ抽出部と、
部分データそれぞれの特徴量を算出する特徴量算出部と、
前記特徴量算出部が算出した各特徴量に基づいて、前記部分データがそのコンテンツデータを特定するための特徴データとして有効かどうかの度合いを示す重付情報を部分データ毎に生成する重付算出部と
を備え、
前記特徴量算出部は、前記コンテンツデータが音楽データの場合に、コンテンツデータを複数フレームに区切り、各フレームにおける実効レベルを算出して評価量とし、複数フレーム分の評価量において、コンテンツデータの平均実効レベル以上のレベルを一定時間継続しているかを示す指標を前記特徴量として算出することを特徴とするコンテンツ利用装置。
コンテンツデータから、複数の部分データを抽出する部分データ抽出部と、
部分データそれぞれの特徴量を算出する特徴量算出部と、
前記特徴量算出部が算出した各特徴量に基づいて、前記部分データがそのコンテンツデータを特定するための特徴データとして有効かどうかの度合いを示す重付情報を部分データ毎に生成する重付算出部と
を備え、
前記特徴量算出部は、前記コンテンツデータが音楽データの場合に、コンテンツデータを複数フレームに区切り、各フレームについて、時間周波数変換した周波数スペクトルの概形を判定する評価量を算出し、前記評価量から複数フレームを代表する値を算出して前記特徴量とすることを特徴とするコンテンツ利用装置。
コンテンツデータから、複数の部分データを抽出する部分データ抽出部と、
部分データそれぞれの特徴量を算出する特徴量算出部と、
前記特徴量算出部が算出した各特徴量に基づいて、前記部分データがそのコンテンツデータを特定するための特徴データとして有効かどうかの度合いを示す重付情報を部分データ毎に生成する重付算出部と
を備え、
前記特徴量算出部は、前記コンテンツデータが符号化データの場合に、コンテンツデータから、符号化ストリーム中に存在する補助データをフレーム単位で読み取り、前記補助データを用いて所定の周波数帯域の最大振幅レベル量を評価量として算出し、その評価量、又は、複数フレーム分の評価量を合計したものを前記特徴量として算出することを特徴とするコンテンツ利用装置。
前記重付算出部は、前記特徴量算出部が、前記複数フレームについて算出した複数の特徴量について並び替えを行い、所定の範囲に属する特徴量に対応した前記複数フレームの集まりを、抽出すべき部分データとし、この抽出すべき部分データに対応する特徴量に基づき、当該部分データについての前記重付情報を算出することを特徴とする請求項２０乃至２３のいずれか１項に記載のコンテンツ利用装置。