JP5440051B2 - コンテンツ同定方法、コンテンツ同定システム、コンテンツ検索装置及びコンテンツ利用装置 - Google Patents

コンテンツ同定方法、コンテンツ同定システム、コンテンツ検索装置及びコンテンツ利用装置 Download PDF

Info

Publication number
JP5440051B2
JP5440051B2 JP2009210599A JP2009210599A JP5440051B2 JP 5440051 B2 JP5440051 B2 JP 5440051B2 JP 2009210599 A JP2009210599 A JP 2009210599A JP 2009210599 A JP2009210599 A JP 2009210599A JP 5440051 B2 JP5440051 B2 JP 5440051B2
Authority
JP
Japan
Prior art keywords
data
content
feature
partial
feature amount
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009210599A
Other languages
English (en)
Other versions
JP2011059504A (ja
Inventor
定浩 安良
丈嗣 内藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JVCKenwood Corp
Original Assignee
JVCKenwood Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JVCKenwood Corp filed Critical JVCKenwood Corp
Priority to JP2009210599A priority Critical patent/JP5440051B2/ja
Publication of JP2011059504A publication Critical patent/JP2011059504A/ja
Application granted granted Critical
Publication of JP5440051B2 publication Critical patent/JP5440051B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Description

本発明は、詳細が不明なコンテンツデータに係わる情報を検出することができるコンテンツ同定方法、コンテンツ同定システム、コンテンツ検索装置及びコンテンツ利用装置に関する。
本来、デジタルコンテンツデータの利用は、正規のコンテンツ流通に従い利用許諾されたユーザーにのみ許諾されるべきである。ところが、近年では、正規管理コンテンツが、デジタル化によりその複製、配布が個人の環境においても容易に行える場合があり、一旦不正に複製されたデジタルコンテンツデータはインターネットのような広域ネットワークを介して大量に配布されることが起きている。
通信の自由が保障された現代において、デジタルコンテンツデータの利用許諾が適正に管理された環境以外の環境下では、コンテンツの不正流出を完全に防止することは困難であり、コンテンツデータの内容、コンテンツデータの出所などが不明となりがちである。
しかしながら、このような出所不明、内容不明なコンテンツデータの曲名等の情報を特定することができれば、そのコンテンツが不正なコンテンツであるか否かを確認することが可能である。また、上述のような目的以外にもテレビやラジオ等から放送される楽曲等の詳細な情報を知りたいという要望もある。
特許文献1ならびに特許文献2に開示されている技術によれば、予め音楽データからその楽曲データに固有となるフィンガープリントデータを算出し、後に、その楽曲データの一部から同様な方法で算出されたフィンガープリントと比較することで、その楽曲に関する情報を検出する方法があり、フィンガープリントデータを多数データベースに登録しておくことで、詳細な情報が不明な音楽データの同定をすることも可能となる。
特表2004−505328号公報 特表2006−506659号公報
しかしながら、従来技術においては、圧縮処理、エフェクト処理等によるコンテンツ加工に対する耐性を高めているため、コンテンツ識別情報を検出する精度が低減されており、コンテンツデータから抽出する部分データの部位によっては、他のコンテンツの部位と類似するため、誤判定を起こすことがあった。
そこで、本発明は、コンテンツの同定に際し、より精度よくコンテンツデータの同定を行うことのできるコンテンツ同定方法、コンテンツ同定システム、コンテンツ検索装置及びコンテンツ利用装置を提供することを課題とする。
上記課題を解決するために、本発明のコンテンツ同定方法は、
(1)コンテンツデータから複数の部分データを抽出する部分データ抽出ステップと、
(2)部分データの特性に基づいて、部分データ毎に部分特徴データを算出する特徴データ演算ステップと、
(3)部分データそれぞれの特徴量を算出する特徴量算出ステップと、
(4)特徴量算出ステップで算出された各特徴量に基づいて、部分データがそのコンテンツデータを特定するための前記特徴データとして有効かどうかの度合いを示す重付情報を部分データ毎に生成する重付算出ステップと、
(5)各コンテンツデータの被検索用特徴データと、当該コンテンツデータを特定するコンテンツ識別情報とを関連づけて蓄積するデータベースを検索して、部分特徴データと一致又は近似する被検索用特徴データのコンテンツ識別情報を部分特徴データ毎に抽出するデータベース照合ステップと、
(6)前記データベース照合ステップにより抽出された複数のコンテンツ識別情報について、各コンテンツ識別情報の検索に用いた部分特徴データの重付情報に基づいて重み付けを行うことで、前記抽出された複数のコンテンツ識別情報から真のコンテンツ識別情報を選択する評価ステップと
を備える。
また、本発明のコンテンツ同定システムは、コンテンツデータから複数の部分データを抽出する部分データ抽出部と、複数の部分データについて、それぞれの部分データの特性に基づいて部分特徴データを算出する特徴データ演算部と、部分データそれぞれの特徴量を算出する特徴量算出部と、特徴量算出部が算出した各特徴量に基づいて、部分データがそのコンテンツデータを特定するための特徴データとして有効かどうかの度合いを示す重付情報を部分データ毎に生成する重付算出部と、各コンテンツデータの被検索用特徴データと、当該コンテンツデータを特定するコンテンツ識別情報とを関連づけて蓄積するデータベースと、データベースに蓄積された被検索用特徴データ群を検索して、部分特徴データと一致又は近似する被検索用特徴データのコンテンツ識別情報を部分特徴データ毎に抽出するデータベース照合部と、データベース照合部により抽出された複数のコンテンツ識別情報について、各コンテンツ識別情報の検索に用いた部分特徴データの重付情報に基づいて重み付けを行うことで、抽出された複数のコンテンツ識別情報から真のコンテンツ識別情報を選択する評価部とを備える。
これらの発明によれば、出所不明のコンテンツに対して、特徴データ(フィンガープリントデータ)を算出し、この特徴データについて、データベース内の被検索用特徴データ群と照合することで、同一又は近似する被検索用特徴データからコンテンツ識別情報を検出し、当該コンテンツを特定することができる。特に、本発明では、コンテンツデータから複数の部分データを抽出し、その部分データ毎に特徴データ(部分特徴データ)を算出して検索を行うため、データ照合の処理負担を軽減することができる。また、このとき、個々の部分データに対してコンテンツ識別情報を検索し、複数のコンテンツ識別情報を抽出するとともに、各部分データにその部位の特徴に応じた重付けをすることにより、楽曲を特定するためにより有効な部位に対するコンテンツ識別情報を真のコンテンツ識別情報とすることができ、同定処理の精度を高め、誤判定を低減することができる。
上記発明では、コンテンツデータが音楽データの場合に、そのコンテンツデータを複数フレームに区切り、フレーム毎に音楽データを時間周波数変換し、フレーム毎に所定の周波数帯域のパワーを評価量として算出し、その評価量、又は、複数フレーム分の評価量を合計したものを特徴量とすることが好ましい。
このような発明では、コンテンツデータが音楽データである場合に、フレーム単位で特定の周波数帯域の出力(パワー)を算出し、それらを評価量とすることから、ボーカルや所定の楽器など、所定の周波数帯域における出力の大小から、楽曲の特徴を評価するのに適したフレームを抽出し、その特徴量の順位により重付けを行うことができる。
上記発明では、コンテンツデータが音楽データの場合に、コンテンツデータを複数フレームに区切り、各フレームにおける実効レベルを算出して評価量とし、複数フレーム分の評価量において、コンテンツデータの平均実効レベル以上のレベルを一定時間継続しているかを示す指標を特徴量として算出することが好ましい。
このような発明では、コンテンツデータが音楽データである場合に、フレーム単位で実効レベルを算出し、平均実効レベル以上のレベルが継続している時間を特徴量とすることから、ボーカルや所定の楽器などの突発的・断片的な出力増大などを排除して、安定した楽曲の特徴を評価するのに適したフレームを抽出し、その特徴量の順位により重付けを行うことができる。
上記発明では、コンテンツデータが音楽データの場合に、コンテンツデータを複数フレームに区切り、各フレームについて、時間周波数変換した周波数スペクトルの概形を判定する評価量を算出し、その評価量から複数フレームを代表する値を算出して、その代表する値を特徴量とすることが好ましい。
このような発明では、コンテンツデータが音楽データである場合に、フレーム単位で特定の周波数スペクトルの概形を評価量とし、その中から代表的なフレームの評価量を求めることから、例えば、スペクトルの概形の平坦度などから楽曲の特徴を評価するのに適した代表的なフレームの特徴量を基準として重付けを行うことができる。
上記発明では、コンテンツデータが符号化データの場合に、コンテンツデータから、符号化ストリーム中に存在する補助データをフレーム単位で読み取り、補助データを用いて所定の周波数帯域の最大振幅レベル量を評価量として算出し、その評価量、又は、複数フレーム分の評価量を合計したものを特徴量として算出することが好ましい。
このような発明では、コンテンツデータが圧縮されているなど、コンテンツデータが符号化データである場合に、符号化の際に生成された補助データを読み取り、補助データに含まれる周波数帯域全体の最大振幅レベル量を評価量とすることから、ボーカルや所定の楽器など所定の周波数帯域における最大振幅レベルから、楽曲の特徴を評価するのに適したフレームを抽出し、その特徴量の順位により重付けを行うことができる。特に、本発明では、符号化データを復号することなく評価量を抽出することができるため、復号に要する処理負担を軽減することができる。
上記発明では、複数フレームについて算出した複数の特徴量について並び替えを行い、所定の範囲に属する特徴量に対応した複数フレームの集まりを、抽出すべき部分データとし、この抽出すべき部分データに対応する特徴量に基づき、当該部分データについての重付情報を算出することが好ましい。
この場合には、複数のフレームに対する評価量を複数合計したものを特徴量とし、その特徴量に応じて並び替えを行い、上位の複数フレームの集まりをそのまま部分データとして利用することから、コンテンツの特定に適した部分データのみを抽出することができる。
さらに、他の発明は、上記コンテンツ同定システム及び同定方法を応用したコンテンツ検索に利用可能なコンテンツ検索装置及びコンテンツ利用装置である。
具体的に、本発明のコンテンツ検索装置は、コンテンツデータを受信する受信部と、受信部が受信したコンテンツデータから、複数の部分データを抽出する部分データ抽出部と、複数の部分データについて、それぞれの内容に関する特性に基づく部分特徴データを算出する特徴データ演算部と、各部分データが示す特徴量を算出する特徴量算出部と、特徴量算出部が算出した各特徴量に基づいて、部分データがそのコンテンツデータを特定するための特徴データとして有効かどうかの度合いを示す重付情報を部分データ毎に生成する重付算出部と、各コンテンツデータの被検索用特徴データと、当該コンテンツデータを特定するコンテンツ識別情報とを関連づけて蓄積するデータベースを検索して、部分特徴データと一致又は近似する被検索用特徴データのコンテンツ識別情報を部分特徴データ毎に抽出するデータベース照合部と、データベース照合部により抽出された複数のコンテンツ識別情報について、各コンテンツ識別情報の検索に用いた部分特徴データの重付情報基づいて重み付けを行うことで、抽出された複数のコンテンツ識別情報から真のコンテンツ識別情報を選択する評価部と、評価部が選択した真のコンテンツ識別情報を送信する送信部とを備える。
一方、本発明のコンテンツ利用装置は、コンテンツデータから、複数の部分データを抽出する部分データ抽出部と、部分データそれぞれの特徴量を算出する特徴量算出部と、特徴量算出部が算出した各特徴量に基づいて、部分データがそのコンテンツデータを特定するための特徴データとして有効かどうかの度合いを示す重付情報を部分データ毎に生成する重付算出部とを備える。
上記コンテンツ利用装置の発明では、各コンテンツデータを特定するコンテンツ識別情報を蓄積するデータベースを検索して、部分データと一致又は近似するコンテンツデータのコンテンツ識別情報を取得し、取得されたコンテンツ識別情報について、データベースの検索に用いた部分データの重付情報を照合し、その照合結果に基づいて、抽出された複数のコンテンツ識別情報から真のコンテンツ識別情報を選択する評価部をさらに備えることが好ましい。
これらの発明によれば、出所が不明な音楽ファイルや、曲名が不明な音楽などを、コンテンツ利用装置に読み込ませたり、コンテンツ検索装置に送信することで、コンテンツ識別情報を取得することができ、楽曲の特定などを容易に行うことができる。
本発明によれば、コンテンツデータから最適な部位抽出により得られた複数の部分データを用いて、コンテンツデータの特徴を算出し、算出された特徴に基づいてコンテンツ識別情報を検出し、さらに部分データに対応する重付情報を加味して、コンテンツ識別情報の評価を行うことで、他のコンテンツと誤判定する確率を低くすることができる。
(a)は、実施形態に共通のコンテンツデータ同定システムの概略構成を示すブロック図であり、(b)は、部分データ抽出部の内部構成を示すブロック図である。 実施形態に共通のコンテンツデータ同定システムの動作を示すフローチャート図である。 第1実施形態に係る特徴量算出部のブロック図を示す図である。 第1実施形態に係るセグメントパワー算出方法を示す図である。 MP4ファイルフォーマットの概要を示す図である。 AAC符号化ストリームの構成図を示す図である。 第1実施形態に係る振幅ビット数算出方法を示す図である。 第1実施形態に係る重付算出部のブロック図を示す図である。 第1実施形態に係る評価部のフローチャートを示す図である。 第2実施形態に係る特徴量算出部のブロック図を示す図である。 第2実施形態に係る継続時間判定部の動作例を示す図である。 第2実施形態に係る特徴量算出部のデータ構成図を示す図である。 第3実施形態に係る音楽検索システムの構成を示すブロック図である。 第3実施形態に係る音楽検索システムの変更例を示すブロック図である。
[コンテンツ同定システム及び同定方法の概要]
以下に添付図面を参照して、本発明に係るコンテンツ同定システム及びコンテンツ同定方法の実施形態を詳細に説明する。図1は、各実施形態に共通のコンテンツデータ同定システムの概略構成を示すブロック図である。なお、説明中で用いられる「モジュール」とは、装置や機器等のハードウェア、或いはその機能を持ったソフトウェア、又はこれらの組み合わせなどによって構成され、所定の動作を達成するための機能単位を示す。
(コンテンツ同定システムの概略構成)
コンテンツ同定システムは、楽曲データの検索システムや、楽曲データの再生を制御する管理システム、楽曲データの改変を検出する改変検出システムなどにおいて、楽曲データの情報(曲名やアーティスト、レーベル、発売日等)を同定する部分として適用されるシステムである。
なお、本実施形態では、コンテンツデータの一例として、楽曲を記録したPCMデータ、又は楽曲の音響データを圧縮した符号化データ(MPEG−2/4 AAC符号化方式(AAC)及び、MPEG−2/4 AAC+SBR(HEAAC)符号化方式等)を対象に説明する。符号化データを納めるコンテナは、放送、通信、蓄積といった用途により異なっており、例えばAAC、HEAACにおいて、BS/地上波デジタル放送では、ADTS(Audio Data Transport Stream)フォーマットが使用されており、コンテンツ配信の用途では、MP4ファイルフォーマットが使用される。
具体的に、本実施形態に係るコンテンツ同定システムは、図1(a)及び(b)に示すように、部分データ抽出部11と、フィンガープリント算出部12と、データベース照合部13と、データベース14と、評価部15とを備えている。
部分データ抽出部11は、コンテンツ同定システムに入力されたコンテンツデータD1から複数の部分データD2を抽出するとともに、抽出した各部分データD2が、そのコンテンツデータを特定するためのフィンガープリント(特徴データ)を抽出するのに有効であるかどうかを示す重付情報D3を生成するモジュールである。この部分データ抽出部11で抽出された部分データD2は、フィンガープリント算出部12に入力され、生成された重付情報D3は、評価部15に入力される。なお、入力されたコンテンツデータを所定の方式のデータにエンコードするエンコーダを部分データ抽出部11の前段に設けても良い。
本実施形態において部分データ抽出部11には、同図(b)に拡大して示すように、特徴量算出部112と、重付算出部113とが含まれており、部分データ抽出部11に入力されたコンテンツデータから、部分データが切り出され、各部分データは、フィンガープリント算出部12に出力されるとともに、特徴量算出部112と重付算出部113とを経て、重付情報D3として評価部15に出力される。
特徴量算出部112は、各部分データD2が示す特徴量を、部分データ毎に算出するモジュールである。一方、重付算出部113は、特徴量算出部112が算出した各特徴量に基づいて、各部分データが、そのコンテンツデータD1を特定するための特徴データとして有効かどうかを示す重付情報D3を生成するモジュールである。この重付算出部113で算出された重付情報D3は、算出の基礎となった各部分データに対応付けられて評価部15に出力される。
フィンガープリント算出部12は、複数の部分データD2に対し、所定の関数を用いて、それぞれの内容に関する特性に基づくフィンガープリントである部分特徴データD4を算出する特徴データ演算部である。
具体的にこのフィンガープリントを算出する方法としては、入力されたデジタルコンテンツデータを人間が視聴する場合において、音量の変化や、周波数スペクトルの変化等のデジタルコンテンツデータの品質を司る要素を抽出する特性を有し、その品質を損なわない程度に改変されても変化しない値を出力する関数、例えば、音響や映像などのデジタルコンテンツデータの内容に関する特性に基づいた値(フィンガープリント)を算出する関数を用いる。
そのようなフィンガープリント算出部12が複数の部分データD2から部分特徴データD4を算出する方法として、例えば、スペクトル・スライス・フィンガープリント、マルチスライス・フィンガープリント、LPC係数、ケプストラム係数、スペクトルピークの周波数成分を含む種々の方法を用いることができる。例えば、線形予測符号化(LPC) 分析は、信号の予測可能な線形な特性であるスペクトル形状の他にスペクトルピークを抽出するものであり、また、ケプストラム係数は、音声や多くの楽器のような調波構造の信号を特徴付けるのに有用であり、これらを利用して、フィンガープリントを算出することができる。また、これらの方法に限定されるわけではなく、種々のフィンガープリントを算出する方法を用いることができる。
なお、フィンガープリント算出部12では、部分データD2が圧縮された符号化データの場合に、その部分データD2を復号した後、部分特徴データD4を算出することが可能であり、これにより、同定の対象となるデジタルコンテンツデータが、圧縮及び復号されたり、アナログ変換された後、再度デジタル変換するなどして、劣化していたとしても、オリジナルのデジタルデータと同程度のフィンガープリントを算出することができるようになっている。
データベース照合部13は、データベース14に蓄積された被検索用特徴データ群を照合して、部分特徴データD4と一致又は近似する被検索用特徴データのコンテンツ識別情報を検索して抽出するモジュールである。データベース14には、各コンテンツデータの被検索用特徴データと、当該コンテンツデータを特定するコンテンツ識別情報とが関連づけられて蓄積されており、データベース照合部13は、部分特徴データD4に含まれる特徴量をパラメータとして、データベース14に含まれる楽曲を検索する。このデータベース照合部13で検出された楽曲を特定するコンテンツ識別情報として評価部15に出力される。
評価部15は、データベース照合部13により抽出された複数のコンテンツ識別情報について、各コンテンツ識別情報の検索に用いた部分特徴データの重付情報を照合し、その照合結果に基づいて、抽出された複数のコンテンツ識別情報から真のコンテンツ識別情報を選択するモジュールである。
詳述すると、この評価部15には、部分データ抽出部11から重付情報D3が入力され、データベース照合部13からコンテンツ識別情報D5が入力される。このコンテンツ識別情報D5は、複数の部分データのそれぞれに対して検索されるものであることから、例えば、部分データをn個抽出した場合、n個のコンテンツ識別情報のうち、すべてが同一のコンテンツ識別情報とならない可能性があり、このときには、m種類(m≦n)の異なるコンテンツ識別情報D5が存在することになる。そのため、評価部15では、同一のコンテンツ識別情報については、対応する重付情報D3をコンテンツ識別情報毎に加算して統合し、m個の異なったコンテンツ識別情報に対応するm個の重付情報を生成する。そして、統合された重付情報が最大となるコンテンツ識別情報を、真のコンテンツ識別情報D5と判断する。
(コンテンツ同定方法の概略)
以上の構成を有するコンテンツ同定システムを動作させることによって、本発明のコンテンツ同定方法を実施することができる。図2は、コンテンツ同定システムの動作を示すフローチャート図である。
図2に示すように、先ず、同定の対象となるコンテンツデータD1を取得する(S101)。このコンテンツデータD1の取得方法としては、音楽ファイルや符号化データファイルを読み込むか、或いはマイクなどの音声入力デバイスにより音声データを録音するなどが挙げられる。
このようにして取得されたコンテンツデータD1は、部分データ抽出部11に入力され、部分データ抽出部11において、コンテンツデータから複数の部分データを抽出する(S102)。具体的に、このステップS102では、部分データ抽出部11において、コンテンツデータD1中の任意の部分を部分データとして切り出し、切り出された部分データD2をフィンガープリント算出部12に出力するとともに、部分データ抽出部11において特徴量の算出を行う。この後、重付情報D3の生成処理(S103〜S104)と、コンテンツ識別情報D5の検索処理(S105〜S107)とを並行して実行する。
重付情報D3の生成処理では、各部分データD2が示す特徴量を算出する(S103)とともに、ステップS103で算出された各特徴量に基づいて、部分データD2がそのコンテンツデータを特定するための特徴データとして有効かどうかを示す重付情報を生成する(S104)。このとき、部分データD2が圧縮された符号化データである場合は、その部分データD2を復号した後、関数による演算を行い、部分特徴データD4を算出する。そして、この重付算出部113で生成された重付情報D3は、算出の基礎となった各部分データに対応付けられて評価部15に入力される。
一方、コンテンツ識別情報D5の検索処理では、複数の部分データに対し、部分特徴データD4を算出する(S105)。具体的には、フィンガープリント算出部12において、複数の部分データD2に対して所定の関数を用い、それぞれの内容に関する特性に基づくフィンガープリントを、部分特徴データD4として算出する。このステップS105で算出された部分特徴データD4は、データベース照合部13に入力される。
次いで、データベース14を照合し、部分特徴データと一致又は近似する被検索用特徴データを検索する(S106)。この検索された被検索用特徴データに関連づけられたコンテンツ識別情報D5を抽出し(S107)、評価部15に入力する。
その後、ステップS107により抽出された複数のコンテンツ識別情報D5について、各コンテンツ識別情報の検索に用いた部分特徴データD4の重付情報D3を照合し、各コンテンツ識別情報の評価を行う(S109)。そして、各重付情報の照合結果に基づいて、抽出された複数のコンテンツ識別情報の中から真のコンテンツ識別情報を選択して、出力する(S110)。
詳述すると、上述した重付情報D3の生成処理(S103〜S104)と、コンテンツ識別情報D5の検索処理(S105〜S107)の結果、評価部15には、部分データ抽出部11から重付情報D3が入力され、データベース照合部13からコンテンツ識別情報D5が入力される。このとき、評価部15では、入力されたコンテンツ識別情報D5が単一である場合には、そのコンテンツ識別情報を真のコンテンツ識別情報とする。また、複数のコンテンツ識別情報が入力された場合、評価部15は、同一のコンテンツ識別情報について、対応する重付情報D3をコンテンツ識別情報毎に加算して統合し、m個の異なったコンテンツ識別情報に対応するm個の重付情報を生成し、統合された重付情報が最大となるコンテンツ識別情報を、真のコンテンツ識別情報D5として選択する。
(各実施形態に共通の作用・効果)
このような上記コンテンツ同定システム及び同定方法によれば、出所不明のコンテンツに関して、特徴データ(フィンガープリントデータ)を算出し、この特徴データについてデータベース14内の被検索用特徴データ群と照合することで、同一又は近似する被検索用特徴データのコンテンツ識別情報を検出し、当該コンテンツを特定することができる。
特に、部分データ抽出部11により、コンテンツデータから複数の部分データを抽出し、その部分データ毎にフィンガープリント(部分特徴データ)を算出して検索を行うため、データ照合の処理負担を軽減することができる。また、このとき、個々の部分データに対してコンテンツ識別情報を検索し、複数のコンテンツ識別情報を抽出するとともに、各部分データにその部位の特徴に応じた重付けをすることにより、楽曲を特定するためにより有効な部位に対するコンテンツ識別情報を真のコンテンツ識別情報とすることができ、同定処理の精度を高め、誤判定を低減することができる。
[第1実施形態]
以上説明した概略構成を有するコンテンツ同定システム及びコンテンツ同定方法の第1実施形態について説明する。本実施形態では、上述した各部分データの重付情報を算出する際に、コンテンツデータが音楽データであるか、符号化データあるかに応じて特徴量の算出方法を切り換えるとともに、コンテンツデータが音楽データの場合には、コンテンツデータを複数フレームに区切り、各フレームに関する周波数帯域パワーを評価量として算出し、コンテンツデータが符号化データの場合には、符号化ストリーム中に存在する補助データを用いて評価量を算出する。
(特徴量の算出)
図3は、本実施形態に係る特徴量算出部112の内部構成を示すブロック図である。同図に示すように、本実施形態に係る特徴量算出部112は、データ形式判定部19と、符号化データ系モジュール群16と、音楽データ系モジュール群17とを備えている。
データ形式判定部19は、コンテンツデータの内容が、PCMデータ(音楽データ)であるか、符号化データであるかなど、入力されたコンテンツデータ(ここでは、部分データD2)のデータ形式を判定するモジュールである。このデータ形式の判定は、例えば、部分データが抽出される前のコンテンツデータの拡張子(wav、aac、mp4等)や、ファイルの先頭ヘッダを取得し解析することにより、そのファイル形式やデータ構造を判定する。そして、このデータ形式判定部19は、入力されたコンテンツデータの形式に応じて、符号化データ系モジュール群16又は音楽データ系モジュール群17を選択して、コンテンツデータを出力する。なお、入力されたコンテンツデータを所定の方式のデータにエンコードするエンコーダを部分データ抽出部11の前段等に設けてあれば、データ形式判定部は必要なく、符号化データ系モジュール群16と音楽データ系モジュール群17のうち、どちらか一方を備えていれば良い。
符号化データ系モジュール群16は、コンテンツデータが符号化データである場合に、当該コンテンツデータが示す特徴量を部分データ毎に算出するモジュール群である。一方、音楽データ系モジュール群17は、コンテンツデータが音楽データである場合に、コンテンツデータが示す特徴量を、部分データ毎に算出するモジュール群である。これらのモジュール群16及び17が算出した特徴量は、部分データ毎に重付算出部113に入力される。
(1)音楽データに関する特徴量の算出
上記音楽データ系モジュール群17には、フレーム化部171と、時間周波数変換部172と、フレームパワー算出部173と、フレームメモリ174と、セグメントパワー算出部175とが含まれる。
フレーム化部171は、コンテンツデータを一定時間(FNサンプル)単位でフレームに区切るモジュールである。また、時間周波数変換部172は、フレームデータを周波数スペクトルに変換するモジュールである。
フレームパワー算出部173は、聴覚特性に基づき、周波数スペクトルをまとめて周波数バンド(band)を構成し、周波数バンド毎のバンドパワーを算出し、さらにフレーム計算対象バンドであるband LMTまでのバンドパワーを合計したフレームパワーを算出するモジュールである。フレームメモリ174は、このフレームパワー算出部173で算出された各フレームパワーを蓄積するメモリ装置である。
セグメントパワー算出部175は、セグメントを構成するのに必要なフレーム数M個のフレームパワーを合計して、セグメントパワーを算出し、このセグメントパワーが特徴量に相当することになる。なお、評価量をフレーム毎に合計せずに評価量を特徴量としてもよい。
このような構成を有する音楽データ系モジュール群17では、以下の手順により特徴量の算出を行う。図4は、本実施形態における特徴量の算出処理を模式的に示す説明図である。
先ず、データ形式判定部19において、対象となっているコンテンツデータがPCMデータであると判定された場合は、フレーム化部171において、コンテンツデータのセグメントを、一定時間(FNサンプル)単位でフレームに区切る(S201及びS202)。なお、本実施形態では、コンテンツデータをN個のセグメントに区切り、各セグメントからM個のフレームを抽出している。このフレームは、本実施形態では、各フレームの時間的に重複するように区切られている。そして、ここで生成されたフレームは、時間周波数変換部172に入力される。
次いで、時間周波数変換部172では、フレームデータを周波数スペクトルに変換し(S203)、フレームパワー算出部173に入力する。フレームパワー算出部173では、聴覚特性に基づき、周波数スペクトルをまとめて周波数バンド(band)を構成し、周波数バンド毎のバンドパワーを求める(S204)。そして、フレーム計算対象バンドであるband LMTまでのバンドパワーを合計したフレームパワーを求めて、フレームメモリ174に蓄積する。
これらの処理を、コンテンツデータを構成するセグメントについて実行して、コンテンツデータから生成されるすべてのフレームに対して行う。そして、セグメントパワー算出部175では、セグメントを構成するのに必要なフレーム数M個のフレームパワーを合計して、セグメントパワーを算出する(S205)。このセグメントパワー算出部175で算出されたセグメントパワーが特徴量に相当することになる。ここでは、N個のセグメントに対するセグメントパワー(特徴量)が算出される。なお、フレームパワーを特徴量としても良い。
(2)符号化データに関する特徴量の算出
他方、上記符号化データ系モジュール群16には、図3に示すように、AAC/HEAACパーサー部161と、フレーム振幅ビット数算出部162と、フレームメモリ163と、セグメント振幅ビット数算出部164とが含まれる。
AAC/HEAACパーサー部161は、コンテンツデータに含まれるビットストリームから補助データであるglobal_gain値とscalefactor(sfb)値の抽出を行うモジュールである。フレーム振幅ビット数算出部162は、スケールファクタバンドsfb毎にSCALE(sfb)を計算した後、フレーム振幅ビット数を算出するモジュールである。
フレームメモリ163は、フレーム振幅ビット数算出部162が算出したフレーム毎のフレーム振幅ビット数を蓄積するメモリ装置である。セグメント振幅ビット数算出部164は、フレームメモリ163に蓄えられたフレーム振幅ビット数の合計量を計算し、セグメント振幅ビット数を算出するモジュールである。
このような構成を有する符号化データ系モジュール群16では、以下の手順により特徴量の算出を行う。なお、ここでは、MPEG-2/4 AAC符号化方式(AAC)及び、MPEG-2/4 AAC+SBR(HEAAC)符号化方式を想定した例を示す。符号化データを納めるコンテナは、放送、通信、蓄積といった用途により異なっており、AAC、HEAACでは、BS/地上波デジタル放送では、ADTS(Audio Data Transport Stream)フォーマットが使用されており、コンテンツ配信の用途では、MP4ファイルフォーマットが使用される。
図5は、MP4ファイルフォーマットの概要を示したデータ構成図である。このMP4ファイルフォーマット(ISO/IEC14496-14)は、ISOベースメディアファイルフォーマット(ISO/IEC14496-12)に対して、MPEG−4のオブジェクト符号化に対応するための追加や、動画、音声などのビットストリームに関する記述を拡張したものである。ISOベースメディアファイルフォーマットは、オブジェクト指向のデータ構造、すなわち木構造を持ち、各オブジェクトをボックス(box)と呼んでいる。図5では、MP4ファイルフォーマットに含まれる主なボックスについて示している。
図5において、ftypeは、互換性のあるファイルタイプを記述するボックスであり、ファイルの先頭にただ1つだけ含まれる。moovは、すべてのメタデータを含むコンテナボックスであり、ファイル中にただ1つ含まれる。mdatは、メディアデータの全体を含むコンテナボックスであり、メディアデータ本体は、細分化されチャンクと呼ばれる固まりにまとめられて配置される。
また、moovの下位には、さらに複数のboxが存在している。これらの下位のboxのうち、stsdには、ビットレート、サンプリング周波数、符号化タイプなどの情報が記述されており、stscには、各チャンクに存在するオーディオフレーム(オーディオアクセスユニット:AAU)の数が記述されている。また、下位のboxのうち、stszには、ファイルに存在するオーディオフレームの総数と、各オーディオフレームのサイズが記述されており、stsoには、ファイルに存在するチャンクの総数と各チャンクのファイル先頭からのオフセット位置が記述されている。すなわち、moovに記述されている情報からmdatにある任意のオーディオフレームにアクセスすることが可能となっている。
次に、MPEG−2/4 AAC符号化ストリームについて説明する。図6は、AACによりステレオ音声を符号化した際のストリーム構成を示す説明図である。このMPEG−2/4 AAC符号化によるフォーマットは、raw_data_streamと呼ばれており、複数のraw_data_blockが集まって構成されている。図5に示したmdatボックスには、このような複数のraw_data_blockが集合した形式のデータが収められている。1AAUに相当するraw_data_blockは、エレメントと呼ばれる単位が集まった形で構成されており、L, Rチャンネル用のCPE(Channel Pair Element)、 スタッフィングバイト挿入用のFILL(Fill Element)、1AAUの終わりを示すEND(Term Element)が存在する(但し、FILLは存在しない場合がある。)。
そして、CPEには、L/Rチャンネルで共通の窓関数を表す情報(common_window)や、チャンネル毎の情報(individual_channel_stream)が存在し、individual_channel_streamには、窓関数のシーケンス処理を表す情報(window_sequence)、周波数バンド幅を表す情報(max_sfb)、量子化ステップを表す情報(global_gain)、拡大縮小用パラメータを表す情報(scale_factor_data)、量子化データを示す情報(spectral_data)が存在する。scale_factor_data、及びspectral_dataについては、ハフマン符号により可変長符号化がなされているため、情報を取り出すためには復号が必要となる。
また、HEAAC(AAC+SBR)符号化方式では、AACにSBR(Spectral band Replication)ツールを適用したものであり、0〜11kHzまでの帯域は、通常のAACで符号化を行ない、11kHz〜16kHzの帯域は実際のスペクトルを符号化するのではなく、低域から高域を再構成するためのパラメータ情報だけを送るようにする。その結果として、高域部分のビット量を低域部分に回すことが可能になり、低ビットレートでありながら高音質化を実現することができる。このHEAACの場合は、FILLエレメント部分にSBRツール用のストリーム情報が付加されている。
AACにおける量子化式は、式1、2で表現される。MDCT(Modified Discrete Cosine Transform)により時間周波数変換して得られた周波数スペクトルがmdct_line(sfb, k)であり、その周波数スペクトルをglobal_gain、scalefactor(sfb)のパラメータを用いて量子化したものが、x_quant(sfb, k)である。x_quant(sfb, k)、scalefactor(sfb)はハフマン符号化されてspectral_data、scale_factor_dataとなり、図6のように配置され伝送される。また、global_gainもサイド情報として伝送される。

AACデコーダ側で行なわれる逆量子化は、式2を変形すると、式3、4のようになる。


式3中のx'は、復号された周波数スペクトルであるため、スペクトル構造を捉えるのには適しているが、周波数スペクトル算出までにAAC復号に要する時間の半分を使用してしまうので望ましくない。そこで、式3の21/4×SCALE(sfb)という値は、聴覚特性に基づいた周波数バンドであるスケールファクタバンド(sfb)に含まれる、周波数スペクトルの最大振幅値(正規化値)であると考えることができるので、変化量であるSCALE(sfb)をそのまま使うことを考える。
このSCALE(sfb)は、式5のように定義して、式の変形を行うと式6になる。これより、SCALE(sfb)は周波数スペクトルの最大振幅値をビット表現した値であると言えるので、情報量としての扱いができることが分かる。

そして、コンテンツデータが符号化データの場合の特徴量算出部112では、AAC/HEAACパーサー部161によって、ビットストリームからglobal_gain値とscalefactor(sfb)値の抽出を行う。図6に示したように、ステレオ音声の場合には、individual_channel_streamが2つ存在し、それぞれがglobal_gain値とscalefactor(sfb)を有している。本実施形態では、演算量削減、及びモノ音声との整合性を考えて、最初に出現するindividual_channel_streamのglobal_gain値とscalefactor(sfb)だけを抽出することとする。これらを抽出した後は、次のraw_data_blockの先頭にスキップし、残りの情報は読み取らないようにする。
フレーム振幅ビット数算出部162では、式4を用いて、スケールファクタバンドsfb毎にSCALE(sfb)を計算した後、式7を用いてフレーム振幅ビット数を算出する。これは、周波数軸方向のビット数の合計となる。式7に出てくるwidth(sfb)は、スケールファクタバンドに含まれる周波数スペクトルの本数を表す。スケールファクタバンドに含まれる周波数スペクトルの本数は異なっているので、本数で割ることにより、各スケールファクタバンドの重み付けを均等化する。
そして、求めたフレーム振幅ビット数をフレームメモリ163に蓄積する。以上の作業をAAC/HEAACパーサー部161と連携して、全オーディオフレームに対して行うことで、全オーディオフレームのフレーム振幅ビット数がフレームメモリ163に蓄積されることとなる。
次いで、セグメント振幅ビット数算出部164では、式8を用いてフレームメモリ163に蓄えられたフレーム振幅ビット数の合計量を計算し、セグメント振幅ビット数とする。これは、時間軸方向のビット数合計となる。
詳述すると、図7に示すように、フレーム毎にフレーム計算対象sfbであるsfbLMTまでの加算を行い、さらに、セグメント分割したフレーム数であるM個の加算を行うことで、セグメント振幅ビット数が求まる。セグメント振幅ビット数が特徴量に相当する。なお、フレーム毎のフレーム振幅ビット数を特徴量としても良い。フレーム計算対象sfbであるsfbLMTを決定することは、使用する周波数帯域を決定することに他ならないため、フィンガープリントを有効に働かせるために、フィンガープリント算出に使用している周波数帯域を考慮して決定すべきである。決定する値は固定であっても、コンテンツや求める特徴部分に応じて可変であってもよい。例えば0〜2000[Hz] 程度の周波数帯域が使用される。同様に、セグメント分割したフレーム数Mについても、フィンガープリント算出で使用される時間単位以上になるようにフレーム数Mを決定すべきであり、フィンガープリントの時間単位の2倍程度が好ましく、例えば3秒〜6秒程度の値が使用される。
(重付情報の算出)
次いで、重付情報の算出について説明する。図8は、重付算出部113の内部構成を示すブロック図である。同図に示すように、重付算出部113は、インデックスソート部113aと、情報割当部113bとを備えている。
インデックスソート部113aは、特徴量算出部112で算出されたセグメント毎の特徴量の大小により、対応するセグメント番号の並び替えを行い、上位からNtop個(例えばNtop=5程度)のセグメントを部分データとして出力するモジュールである。なお、ここでの特徴量の大小とは、コンテンツデータが符号化データであるときには、セグメント振幅ビット数の大小であり、コンテンツデータが音楽データであるときには、セグメントパワーの大小である。
情報割当部113bは、インデックスソート部113aにおいて、部分データとして出力された上位のセグメント特徴量を有するセグメントに対して、重付情報を割り当てるモジュールである。この情報割当部113bによって割り当てられた重付情報は、出力される部分データと関連づけられて出力される。
このような構成を有する重付算出部113における重付算出処理は、以下の手順により行われる。
先ず、特徴量算出部112によって算出されたセグメント特徴量(符号化データ:セグメント振幅ビット数、音楽データ:セグメントパワー)の大小に基づいて、インデックスソート部113aで、対応するセグメント番号の並び替えを行う。そして、インデックスソート部113aにおいて、最大のセグメント特徴量を持つセグメントを1位、次に大きい値を持つセグメントを2位、以下、Ntop位までの順位付けをし、Ntop位までのセグメント特徴量に対応するセグメントを部分データとして情報割当部113bに対して出力する。
次いで、情報割当部113bにおいて、式9に基づき、重付情報の割り当てを行う。式9において、MAX_WEIGHTは、重付情報の最大値を表す値であり、分母は、セグメント特徴量の最大値(max_bval)と最小値(min_bval)の差分量であり、変動幅を表す。セグメント特徴量の変動幅は楽曲に依存するため、この変動幅をMAX_WEIGHTの範囲に割り当てることになる。target_bvalは、1位〜N位のセグメント特徴量である。なお、ここでは、計算された重付情報が1より小さい場合には、1に丸めている。また、本実施形態では、重み付け量のスレッショルドを設けており、それよりも下の値が1位〜Ntop位に発生した場合には、部分データ数が調整されて、部分データ及び重付情報が生成されないようになっている。
(評価処理)
次いで、コンテンツ識別情報及び重付情報に基づく、コンテンツデータの評価処理について説明する。図9は、本実施形態における評価部15における評価処理時の動作を示すフローチャート図である。
先ず、評価部15に、部分データ抽出部11の出力である重付情報w[n] が入力されるとともに(S301)、データベース照合部13の出力であるコンテンツ識別情報id[n]が入力される(S302)。次いで、各種ワーク配列を初期化する。ここでは、統合された重付情報を作成するために使用されるe[i] (i = 0 〜 n-1)をゼロに初期化し、コンテンツ識別情報の種類分けに使用されるc[i] (i = 0 〜 n-1)を例えばINIT= (-1)として初期化する(S303)。また、配列インデックス変数k及び種類分け変数tagも初期化する(S304)。
次いで、ループ処理によって、コンテンツ識別情報の種類分けに使用されるc[i]について、kの値を0からnへ1ずつ増加させつつ、c[k]にINIT以外の値が代入されているかを判断し、当該コンテンツ識別情報が、既に種類分けが行われたかどうかを検査する(S305〜S307)。もし、INIT以外が代入されていれば(S306:Y)、kをインクリメントし、次のc[k]について同様の検査を繰り返す(S306,S307)。なお、ステップS305において、kがデータ数nに達したならば、ループを終了し、ステップS313に移行する(S305:N)。
ステップS306において、c[k]の値にINITが代入されている場合(S306:N)、まだ種類分けが行われていないid[k]を比較用変数cvalに代入する(S308)。次いで、ステップS309a〜S309bでは、種類分けが行われていない現在のインデックスkからn-1まで、ループ処理により、ステップS310〜S311を実行する。
ステップS310では、id[i]がcvalと一致し、かつ、c[i]がINITであるかを判定し、この条件が満たされているときには(S310:Y)、ステップS311において、種類分け変数tagの値をc[i]に付け、tag単位の重付情報に統合するためにtag毎に重付情報w[i]を加算し、e[tag]に保存する。ステップS309a〜S309bのループ処理において、ステップS310の条件が満たされないiについては(S310:N)、ステップS311をスキップして、tag単位の重付情報への統合は行わず、iをインクリメントさせる。このループ処理を繰り返し、iが(n−1)に到達することにより、ループ処理S309a〜S30bを抜けだし、ステップS312に移行する。ステップS312において、kとtagの値をそれぞれインクリメントし、ループ処理により、上記ステップS305〜S311までの処理を繰り返す。
以上のステップS305〜S311までの処理を、kがnに到達するまで実行した後(S305:N)、ステップS113において、統合された重付情報の配列e[i] (i = 0 〜 tag)の中から最大値を有するインデックスmaxを探索し、ステップS314において、インデックスmaxが持つコンテンツ識別情報id[max]を、真のコンテンツ識別情報であると判定して、出力する。
なお、本実施形態では、符号化データの例としてMP4ファイルフォーマットを用いた例を示したが、これに制限されるものではなく、BS/地上波デジタル放送で用いられているADTS(Audio Data Transport Stream)フォーマットを使用してもよい。また、符号化方式についても、MPEG-2/4 AAC符号化方式(AAC)及び、MPEG-2/4 AAC+SBR(HEAAC)符号化方式に制限されるものではなく、MP3等の類似した符号化方式や、AACと関連のある符号化方式においても有効である。
(本実施形態の作用・効果)
以上説明した本実施形態では、コンテンツデータが音楽データである場合、フレーム単位で特定の周波数帯域の出力(パワー)を算出し、それらを評価量とすることができ、ボーカルや所定の楽器など、所定の周波数帯域における出力の大小から、楽曲の特徴を評価するのに適したフレームを抽出し、その特徴量の順位により重付けを行うことができる。
また、本実施形態では、コンテンツデータが符号化データである場合に、符号化の際に生成された補助データを読み取り、補助データに含まれる周波数帯域全体の最大振幅レベル量を評価量とすることから、符号化データを復号することなく評価量を抽出することができ、復号に要する処理負担を軽減しつつ、周波数帯域における最大振幅レベルに基づく楽曲の特徴を評価することができる。
さらに、本実施形態では、複数のフレームに対する評価量を複数合計したものを特徴量とし、その特徴量に応じて並び替えを行い、上位の複数フレームの集まりをそのまま部分データとして利用することから、コンテンツの特定に適した部分データのみを抽出することができる。
[第2実施形態]
次いで、本発明の第2実施形態について説明する。この第2実施形態では、コンテンツデータが音楽データの場合に特徴量を算出する際、コンテンツデータを複数フレームに区切り、各フレームについて、コンテンツデータの平均出力レベル以上のレベルを一定時間継続しているかを示す評価量を算出するとともに、時間周波数変換した周波数スペクトルの概形を判定する評価量を算出することを特徴とする。なお、本実施形態において、上述した第1実施形態と同一の構成要素には同一の符号を付し、その機能等は特に言及しない限り同一であり、その説明は省略する。
(特徴量算出部の構成)
図10は、本実施形態に係る特徴量算出部112の内部構成を示したブロック図である。本実施形態では、第1実施形態と比較して、コンテンツデータが符号化データである場合の処理は同じであるが、コンテンツデータがPCMデータ(音楽データ)である場合の処理が異なっている。
具体的に、本実施形態に係る音楽データ系モジュール群18は、フレーム化部181と、実効レベル算出部182と、スペクトル平坦度算出部183と、フレームメモリ184とを備えている。
フレーム化部181は、コンテンツデータを一定時間(FNサンプル)単位でフレームに区切るモジュールである。実効レベル算出部182は、フレームデータの二乗平均平方根(RMS)を算出して、算出結果を実効レベルとして算出するモジュールである。算出された実効レベルは、フレームメモリ184に蓄積される。スペクトル平坦度算出部183は、フレームデータにハニング窓等の窓関数を掛けた後、時間周波数変換を行い、パワースペクトルを求めた後、スペクトル平坦度を表す指標に変換する。算出されたスペクトル平坦度は、フレームメモリ184に蓄積される。
さらに、本実施形態に係る音楽データ系モジュール群18は、セグメント化部185と、平坦度判定部186と、継続時間判定部187と、評価量統合部188とを備えている。
セグメント化部185は、フレームメモリ184に蓄えられたフレーム単位の実効レベルデータ及びスペクトル平坦度データを複数フレーム分まとめることで、1セグメントの情報とするモジュールである。平坦度判定部186は、セグメントを構成するフレームの実効レベルデータが最大値を有するフレームを、そのセグメントを代表するフレームと見なして、そのフレームに対応したスペクトル平坦度をそのセグメントのスペクトル平坦度と算定するモジュールである。この平坦度判定部186で算定された平坦度は、評価量Fとして評価量統合部188に入力される。
継続時間判定部187は、セグメントを構成するフレームの実効レベルデータのうち、所定のスレッショルド(しきい値)を超えるフレームが連続する最大個数を計算するモジュールである。ここでのスレッショルドレベル決定方法としては、全フレームNFRの実効レベルデータの平均である平均実効レベルを算出するとともに、全フレーム中の最大実効レベルを算出し、これら平均実効レベル及び最大実効レベルの2つの値から最終のスレッショルドレベルを算定する。この継続時間判定部187で算定された継続時間は、評価量Pとして評価量統合部188に入力される。評価量統合部188は、平坦度判定部186及び継続時間判定部187により算出された評価量P及び評価量Fを乗算することで、セグメント特徴量を算出するモジュールである。
(音楽データ系における特徴量の算出)
このような構成を有する音楽データ系モジュール群18では、以下の手順により特徴量の算出を行う。
先ず、データ形式判定部19において、対象となるコンテンツデータがPCMデータであると判定された場合に、入力されたPCMデータは、フレーム化部181においてコンテンツデータを一定時間(FNサンプル)単位でフレームに区切る。このフレーム毎に区切られたデータは、スペクトル平坦度算出部183及び実効レベル算出部182に入力される。
実効レベル算出部182では、フレームデータ毎の二乗平均平方根(RMS)を式10により算出して、フレームメモリ184に蓄積する。
一方、スペクトル平坦度算出部183では、フレームデータにハニング窓等の窓関数を掛けた後、時間周波数変換を行い、パワースペクトルを求める。そして、聴覚特性に基づき、周波数スペクトルをまとめて周波数バンド(FB個)を構成し、周波数バンド毎のバンドパワーを求めた後、スペクトル平坦度(スペクトラルフラットネスメジャー)を計算し、その結果をフレームメモリ184に蓄積する。スペクトル平坦度(スペクトラルフラットネスメジャー)については、式11、12、13により算出される。


以上の処理を、すべてのフレームに対して行うことで、全フレームの情報がフレームメモリ184に蓄積される。そして、セグメント化部185では、フレームメモリ184に蓄えられたフレーム単位の実効レベルデータ及びスペクトル平坦度データを複数フレーム分まとめることで、1セグメントの情報とする。
継続時間判定部187では、セグメントを構成するフレームの実効レベルデータのうち、所定のスレッショルドを超えるフレームが連続する最大個数を計算する。このスレッショルドレベルの決定方法は、全フレームNFRの実効レベルデータの平均である平均実効レベルを式14により求め、全フレーム中の最大実効レベルを式15により求める。得られた2つの値から最終のスレッショルドレベルを式16により求める。式中、RATIOはコンテンツに依存した定数であり、例えば、0.66である。


図11には、1セグメントに属するフレームの数を10とした場合の継続時間判定部187の動作例を示す。この場合、fr2〜fr5までthresholdRMSを超えて連続しているので、個数は4となる。後半fr7〜fr9までthresholdRMSを超えて連続しているが、最大個数である4個を超えていないので、そのまま4個となる。この結果から、評価量Pを式17により算出する。
平坦度判定部186では、セグメントを構成するフレームの実効レベルデータが最大値を有するフレームを、そのセグメントを代表するフレームと見なして、そのフレームに対応したスペクトル平坦度をそのセグメントを代表するスペクトル平坦度とする。スペクトル平坦度は、式11よりGm/Amが0〜1の値となるため、0〜−∞の値が発生する。よって、このままでは扱いづらいので、トーナリティという指標に式18により変換し、これを評価量Fとする。

式18中、SFMdBmax=-60[dB]とすると、SFMdB=0[dB]の場合は、F=0となりノイズ性と判断され、SFMdB=-60[dB]以上の場合は、F=1となりトーン性と判断される。
図12は、本発明の第2実施形態における特徴量算出部112について、前述した手順をデータ構成の観点から示したものである。同図に示すように、本実施形態では、コンテンツデータの各セグメントからフレームを構成し(S401及びS402)、フレーム毎の実効レベル(RMS)を算出する(S405)と同時に、そのフレームのスペクトル平坦度を算出する(S404)。そして、実効レベル(RMS)については、複数フレームから1つのセグメントを構成し、評価量Pを求める。また、セグメント内の最大実効レベルを有するフレームに対応するスペクトル平坦度を評価量Fとする。
評価量統合部188においては、以上のようにして求めた評価量Pと評価量Fとを乗算し、セグメント特徴量として出力する。セグメント特徴量としての値が高くなるケースは、ノイズ的でなく音楽的な信号で、かつ一定の高い音量レベルが持続した場合であるため、楽曲のサビ部分等に相当する。
なお、本実施形態では、継続時間判定部187で算出した評価量と、平坦度判定部186で算出した評価量の両方を用いてセグメント特徴量を算出したが、本発明はこれに限定されるものではなく、継続時間判定部187で算出した評価量と、平坦度判定部186で算出した評価量のどちらか一方を用いて、セグメント特徴量を算出してもよい。その際、平坦度判定部186では、各フレームのスペクトル平坦度について、セグメントを構成するフレーム分だけ合計して、セグメント特徴量とする。
(重付算出及び評価処理)
このようにして算出されたセグメント毎の特徴量は、上述した第1実施形態と同様に、重付算出部113に入力される。なお、コンテンツデータが符号化であるときの特徴量は、上記符号化データ系モジュール16において、上記第1実施形態と同様に算出される。
そして、重付算出部113では、図8に示したように、インデックスソート部113aにおいて、セグメント毎の特徴量の大小により、対応するセグメント番号の並び替えを行い、上位からNtop個(例えばNtop=5程度)のセグメントを部分データとして出力する。なお、ここでの特徴量の大小とは、コンテンツデータが符号化データであるときには、セグメント振幅ビット数の大小であり、コンテンツデータが音楽データであるときには、上記評価量Pと評価量Fとを乗算して得られた値の大小である。
その後、重付算出部113では、情報割当部113bにおいて、上位のセグメント特徴量を有する所定数のセグメントに対して、重付情報を割り当てる。この情報割当部113bによって割り当てられた重付情報は、出力される部分データと関連づけられて評価部15へ出力され、真のコンテンツ識別情報の算出に供される。この真のコンテンツ識別情報は、上記第1実施形態と同様、図9に示した評価部15の動作によりコンテンツ識別情報及び重付情報に基づく評価処理により算出される。
(本実施形態の作用・効果)
以上説明したように、本実施形態では、コンテンツデータが音楽データである場合、フレーム単位で特定の周波数スペクトルの概形を評価量Fとするとともに、コンテンツデータの平均実効レベル以上のレベルを一定時間継続しているかを示す評価量Pとし、これらから特徴量とするため、ボーカルや所定の楽器など所定の周波数帯域における出力の継続時間から、突発的・断片的な出力増大などを排除して、楽曲の特徴を評価するのに適したフレームを抽出し、その特徴量の順位により重付けを行うことができる。
[第3実施形態]
次いで、本発明の第3実施形態について説明する。この第3実施形態では、上述した第1実施形態及び第2実施形態に係るコンテンツ同定システム及びコンテンツ同定方法を、音楽検索システムに応用した場合を例示する。
本実施形態において、音楽検索システムは、ユーザーが使用するコンテンツ利用装置20と、コンテンツ検索サービスを提供する側のコンテンツ検索装置30とから構成される。なお、本実施形態において、上述した第1実施形態と同一の構成要素には同一の符号を付し、その機能等は特に言及しない限り同一であり、その説明は省略する。
コンテンツ利用装置20は、検索したい楽曲などの音声ファイルや、音響データを入力することにより、その楽曲を特定する「真のコンテンツ識別情報」を検索するユーザーインターフェースであり、例えば、パーソナルコンピュータや携帯電話機、PDA(Personal Digital Assistance)、ゲーム専用機など、アプリケーションを実行する機能と、インターネット等の通信ネットワークに接続する通信機能を備えた情報端末である。
コンテンツ検索装置30は、コンテンツ利用装置20からの要求に応じて、検索対象となる楽曲を特定するためのコンテンツ識別情報を検索し、検索結果をコンテンツ利用装置20に返信する装置であり、例えば、インターネット等の通信ネットワーク上のサーバー装置とすることができる。
図13に示すように、コンテンツ利用装置20は、上述した部分データ抽出部11と、フィンガープリント算出部12と、評価部15とを備えている。また、コンテンツ利用装置20は、コンテンツデータ取得部21と、ファイル管理部22と、録音部23と、通信部24とを備えている。
部分データ抽出部11は、コンテンツデータD1から複数の部分データD2を抽出するとともに、抽出した各部分データD2が、そのコンテンツデータを特定するためのフィンガープリント(特徴データ)を抽出するのに有効であるかどうかを示す重付情報D3を生成するモジュールである。本実施形態では、この部分データ抽出部11には、コンテンツデータ取得部21が接続されており、このコンテンツデータ取得部21を通じて、検索対象となるコンテンツデータを取得する。コンテンツデータ取得部21には、例えば、音楽ファイルを読み込むファイル管理部22や、音楽の音響を、マイクなどの入力デバイスを通じて録音し、音声データとして取得する録音部23が接続されている。この部分データ抽出部11で抽出された部分データD2は、フィンガープリント算出部12に入力され、生成された重付情報D3は、評価部15に入力される。
本実施形態においても部分データ抽出部11では、入力されたコンテンツデータから部分データが切り出され、各部分データは、フィンガープリント算出部12に出力されるとともに、特徴量が算出され、その特徴量に応じた重付情報が、評価部15に出力される。
フィンガープリント算出部12は、複数の部分データD2に対し、所定の関数を用いて、それぞれの内容に関する特性に基づくフィンガープリントである部分特徴データD4を算出する特徴データ演算部である。本実施形態では、このフィンガープリント算出部12で算出された部分データ毎の特徴データは、部分特徴データとして、通信部24,31を通じてコンテンツ検索装置30へ送信される。この通信部24は、インターネット等の通信ネットワークに接続するための通信デバイスであり、コンテンツ検索装置30側の通信部31との間で、データの送受信が可能となっている。
評価部15は、データベース照合部13により抽出された複数のコンテンツ識別情報について、各コンテンツ識別情報の検索に用いた部分特徴データの重付情報を照合し、その照合結果に基づいて、抽出された複数のコンテンツ識別情報から真のコンテンツ識別情報を選択するモジュールである。本実施形態においても、この評価部15には、部分データ抽出部11から重付情報D3が入力され、データベース照合部13からコンテンツ識別情報D5が入力される。そのため、評価部15では、同一のコンテンツ識別情報については、対応する重付情報D3をコンテンツ識別情報毎に加算して統合し、m個の異なったコンテンツ識別情報に対応するm個の重付情報を生成する。そして、統合された重付情報が最大となるコンテンツ識別情報を、真のコンテンツ識別情報D5と判断する。
一方、コンテンツ検索装置30は、コンテンツ利用装置20から送信されたフィンガープリントを受信する通信部31と、その受信されたフィンガープリントについて、データベース14を検索するデータベース照合部13とが備えられている。
このデータベース照合部13は、データベース14に蓄積された被検索用特徴データ群を照合して、部分特徴データD4と一致又は近似する被検索用特徴データのコンテンツ識別情報を検索して抽出するモジュールである。このデータベース14には、各コンテンツデータの被検索用特徴データと、当該コンテンツデータを特定するコンテンツ識別情報とが関連づけられて蓄積されており、データベース照合部13は、部分特徴データD4に含まれる特徴量をパラメータとして、データベース14に含まれる楽曲を検索する。このデータベース照合部13で検出された楽曲を特定するコンテンツ識別情報D5が、コンテンツ利用装置20に返信される。
(変更例)
以上説明した本実施形態に係るコンテンツ検索システムでは、部分データの抽出、フィンガープリントの算出をユーザー側のコンテンツ利用装置20で行ったが、例えば、図14に示すように、部分データ抽出部11及びフィンガープリント算出部12をコンテンツ検索装置30側に配置するようにしてもよい。
この場合、コンテンツ利用装置20側では、コンテンツデータ取得部21で取得した音楽ファイルや音声データを通信部24,31を通じて、コンテンツ検索装置30へ送信し、コンテンツ検索装置30側で部分データの抽出からフィンガープリントの算出、データベースの照合を行う。そして、部分データ抽出部11で生成された重付情報D3と、データベース照合部13が検出したコンテンツ識別情報D5とが、通信部31、24を通じて、コンテンツ利用装置20に返信され、コンテンツ利用装置20側の評価部15において、上記評価処理を実行する。
また、上記コンテンツ利用装置に、上記コンテンツ識別情報に基づく利用制限機能を設け、コンテンツを提供するサービス側で管理されているコンテンツデータが不正に視聴されるのを禁止するようにしてもよい。また、各実施形態においてセグメント毎に特徴量を算出したがフレーム毎の評価量を特徴量として用いても良い。
(本実施形態の作用・効果)
本実施形態によれば、出所が不明な音楽ファイルや、曲名が不明な音楽などを、コンテンツ利用装置20に読み込ませて、コンテンツ検索装置30に送信することで、真のコンテンツ識別情報を取得することができ、楽曲の特定をより精度良く行うことができる。
D1…コンテンツデータ
D2…部分データ
D3…重付情報
D4…部分特徴データ
D5…コンテンツ識別情報
11…部分データ抽出部
12…フィンガープリント算出部
13…データベース照合部
14…データベース
15…評価部
16…符号化データ系モジュール群
17…音楽データ系モジュール群
18…音楽データ系モジュール群
19…データ形式判定部
20…コンテンツ利用装置
21…コンテンツデータ取得部
22…ファイル管理部
23…録音部
24,31…通信部
30…コンテンツ検索装置
112…特徴量算出部
113…重付算出部
113a…インデックスソート部
113b…情報割当部
161…AAC/HEAACパーサー部
162…フレーム振幅ビット数算出部
163…フレームメモリ
164…セグメント振幅ビット数算出部
171…フレーム化部
172…時間周波数変換部
173…フレームパワー算出部
174…フレームメモリ
175…セグメントパワー算出部
181…フレーム化部
182…実効レベル算出部
183…スペクトル平坦度算出部
184…フレームメモリ
185…セグメント化部
186…平坦度判定部
187…継続時間判定部
188…評価量統合部

Claims (24)

  1. コンテンツデータから複数の部分データを抽出する部分データ抽出ステップと、
    部分データの特性に基づいて、部分データ毎に部分特徴データを算出する特徴データ演算ステップと、
    部分データそれぞれの特徴量を算出する特徴量算出ステップと、
    特徴量算出ステップで算出された各特徴量に基づいて、部分データがそのコンテンツデータを特定するための特徴データとして有効かどうかの度合いを示す重付情報を部分データ毎に生成する重付算出ステップと、
    各コンテンツデータの被検索用特徴データと、当該コンテンツデータを特定するコンテンツ識別情報とを関連づけて蓄積するデータベースを検索して、部分特徴データと一致又は近似する被検索用特徴データのコンテンツ識別情報を部分特徴データ毎に抽出するデータベース照合ステップと、
    前記データベース照合ステップにより抽出された複数のコンテンツ識別情報について、各コンテンツ識別情報の検索に用いた部分特徴データの重付情報に基づいて重み付けを行うことで、前記抽出された複数のコンテンツ識別情報から真のコンテンツ識別情報を選択する評価ステップと
    を備えることを特徴とするコンテンツ同定方法。
  2. 前記特徴量算出ステップでは、前記コンテンツデータが音楽データの場合に、そのコンテンツデータを複数フレームに区切り、前記フレーム毎に前記音楽データを時間周波数変換し、フレーム毎に所定の周波数帯域のパワーを評価量として算出し、その評価量、又は、複数フレーム分の評価量を合計したものを前記特徴量とすることを特徴とする請求項1に記載のコンテンツ同定方法。
  3. 前記特徴量算出ステップでは、前記コンテンツデータが音楽データの場合に、コンテンツデータを複数フレームに区切り、各フレームにおける実効レベルを算出して評価量とし、複数フレーム分の評価量において、コンテンツデータの平均実効レベル以上のレベルを一定時間継続しているかを示す指標を前記特徴量として算出することを特徴とする請求項1に記載のコンテンツ同定方法。
  4. 前記特徴量算出ステップでは、前記コンテンツデータが音楽データの場合に、コンテンツデータを複数フレームに区切り、各フレームについて、時間周波数変換した周波数スペクトルの概形を判定する評価量を算出し、その前記評価量から複数フレームを代表する値を算出して、その代表する値を前記特徴量とすることを特徴とする請求項1に記載のコンテンツ同定方法。
  5. 前記特徴量算出ステップでは、前記コンテンツデータが符号化データの場合に、コンテンツデータから、符号化ストリーム中に存在する補助データをフレーム単位で読み取り、前記補助データを用いて所定の周波数帯域の最大振幅レベル量を評価量として算出し、その評価量、又は、複数フレーム分の評価量を合計したものを前記特徴量として算出することを特徴とする請求項1に記載のコンテンツ同定方法。
  6. 前記重付算出ステップでは、前記複数フレームについて算出した複数の特徴量について並び替えを行い、所定の範囲に属する特徴量に対応した前記複数フレームの集まりを、抽出すべき部分データとし、この抽出すべき部分データに対応する特徴量に基づき、当該部分データについての前記重付情報を算出することを特徴とする請求項2乃至5のいずれか1項に記載のコンテンツ同定方法。
  7. コンテンツデータから複数の部分データを抽出する部分データ抽出部と、
    前記複数の部分データについて、それぞれの部分データの特性に基づいて部分特徴データを算出する特徴データ演算部と、
    部分データそれぞれの特徴量を算出する特徴量算出部と、
    前記特徴量算出部が算出した各特徴量に基づいて、前記部分データがそのコンテンツデータを特定するための特徴データとして有効かどうかの度合いを示す重付情報を部分データ毎に生成する重付算出部と、
    各コンテンツデータの被検索用特徴データと、当該コンテンツデータを特定するコンテンツ識別情報とを関連づけて蓄積するデータベースと、
    前記データベースに蓄積された被検索用特徴データ群を検索して、前記部分特徴データと一致又は近似する被検索用特徴データのコンテンツ識別情報を部分特徴データ毎に抽出するデータベース照合部と、
    前記データベース照合部により抽出された複数のコンテンツ識別情報について、各コンテンツ識別情報の検索に用いた部分特徴データの重付情報に基づいて重み付けを行うことで、前記抽出された複数のコンテンツ識別情報から真のコンテンツ識別情報を選択する評価部と
    を備えることを特徴とするコンテンツ同定システム。
  8. 前記特徴量算出部は、前記コンテンツデータが音楽データの場合に、コンテンツデータを複数フレームに区切り、前記フレーム毎に前記音楽データを時間周波数変換し、フレーム毎に所定の周波数帯域のパワーを評価量として算出し、その評価量、又は、複数フレーム分の評価量を合計したものを前記特徴量として算出することを特徴とする請求項7に記載のコンテンツ同定システム。
  9. 前記特徴量算出部は、前記コンテンツデータが音楽データの場合に、コンテンツデータを複数フレームに区切り、各フレームにおける実効レベルを算出して評価量とし、複数フレーム分の評価量において、コンテンツデータの平均実効レベル以上のレベルを一定時間継続しているかを示す指標を前記特徴量として算出することを特徴とする請求項7に記載のコンテンツ同定システム。
  10. 前記特徴量算出部は、前記コンテンツデータが音楽データの場合に、コンテンツデータを複数フレームに区切り、各フレームについて、時間周波数変換した周波数スペクトルの概形を判定する評価量を算出し、前記評価量から複数フレームを代表する値を算出して前記特徴量とすることを特徴とする請求項7に記載のコンテンツ同定システム。
  11. 前記特徴量算出部は、前記コンテンツデータが符号化データの場合に、コンテンツデータから、符号化ストリーム中に存在する補助データをフレーム単位で読み取り、前記補助データを用いて所定の周波数帯域の最大振幅レベル量を評価量として算出し、その評価量、又は、複数フレーム分の評価量を合計したものを前記特徴量として算出することを特徴とする請求項7に記載のコンテンツ同定システム。
  12. 前記重付算出部は、前記特徴量算出部が、前記複数フレームについて算出した複数の特徴量について並び替えを行い、所定の範囲に属する特徴量に対応した前記複数フレームの集まりを、抽出すべき部分データとし、この抽出すべき部分データに対応する特徴量に基づき、当該部分データについての前記重付情報を算出することを特徴とする請求項乃至11のいずれか1項に記載のコンテンツ同定システム。
  13. コンテンツデータを受信する受信部と、
    前記受信部が受信したコンテンツデータから、複数の部分データを抽出する部分データ抽出部と、
    前記複数の部分データについて、それぞれの内容に関する特性に基づく部分特徴データを算出する特徴データ演算部と、
    前記各部分データが示す特徴量を算出する特徴量算出部と、
    前記特徴量算出部が算出した各特徴量に基づいて、前記部分データがそのコンテンツデータを特定するための特徴データとして有効かどうかの度合いを示す重付情報を部分データ毎に生成する重付算出部と、
    各コンテンツデータの被検索用特徴データと、当該コンテンツデータを特定するコンテンツ識別情報とを関連づけて蓄積するデータベースを検索して、前記部分特徴データと一致又は近似する被検索用特徴データのコンテンツ識別情報を部分特徴データ毎に抽出するデータベース照合部と、
    前記データベース照合部により抽出された複数のコンテンツ識別情報について、各コンテンツ識別情報の検索に用いた部分特徴データの重付情報基づいて重み付けを行うことで、前記抽出された複数のコンテンツ識別情報から真のコンテンツ識別情報を選択する評価部と、
    前記評価部が選択した前記真のコンテンツ識別情報を送信する送信部と
    を備えることを特徴とするコンテンツ検索装置。
  14. 前記特徴量算出部は、前記コンテンツデータが音楽データの場合に、コンテンツデータを複数フレームに区切り、前記フレーム毎に前記音楽データを時間周波数変換し、各フレームに関する所定の周波数帯域のパワーを評価量として算出し、その評価量、又は、複数フレーム分の評価量を合計したものを前記特徴量として算出することを特徴とする請求項13に記載のコンテンツ検索装置。
  15. 前記特徴量算出部は、前記コンテンツデータが音楽データの場合に、コンテンツデータを複数フレームに区切り、各フレームにおける実効レベルを算出して評価量とし、複数フレーム分の評価量において、コンテンツデータの平均実効レベル以上のレベルを一定時間継続しているかを示す指標を前記特徴量として算出することを特徴とする請求項13に記載のコンテンツ検索装置。
  16. 前記特徴量算出部は、前記コンテンツデータが音楽データの場合に、コンテンツデータを複数フレームに区切り、各フレームについて、時間周波数変換した周波数スペクトルの概形を判定する評価量を算出し、前記評価量から複数フレームを代表する値を算出して前記特徴量とすることを特徴とする請求項13に記載のコンテンツ検索装置。
  17. 前記特徴量算出部は、前記コンテンツデータが符号化データの場合に、コンテンツデータから、符号化ストリーム中に存在する補助データをフレーム単位で読み取り、前記補助データを用いて所定の周波数帯域の最大振幅レベル量を評価量として算出し、その評価量、又は、複数フレーム分の評価量を合計したものを前記特徴量として算出することを特徴とする請求項13に記載のコンテンツ検索装置。
  18. 前記重付算出部は、前記特徴量算出部が、前記複数フレームについて算出した複数の特徴量について並び替えを行い、所定の範囲に属する特徴量に対応した前記複数フレームの集まりを、抽出すべき部分データとし、この抽出すべき部分データに対応する特徴量に基づき、当該部分データについての前記重付情報を算出することを特徴とする請求項14乃至17のいずれか1項に記載のコンテンツ検索装置。
  19. コンテンツデータから、複数の部分データを抽出する部分データ抽出部と、
    部分データそれぞれの特徴量を算出する特徴量算出部と、
    前記特徴量算出部が算出した各特徴量に基づいて、前記部分データがそのコンテンツデータを特定するための特徴データとして有効かどうかの度合いを示す重付情報を部分データ毎に生成する重付算出部と、
    各コンテンツデータを特定するコンテンツ識別情報を蓄積するデータベースを検索して、前記部分データと一致又は近似するコンテンツデータのコンテンツ識別情報を部分特徴データ毎に取得し、取得されたコンテンツ識別情報について、前記データベースの検索に用いた部分データの重付情報基づいて重み付けを行うことで、前記抽出された複数のコンテンツ識別情報から真のコンテンツ識別情報を選択する評価部と
    を備えることを特徴とするコンテンツ利用装置。
  20. 前記特徴量算出部は、前記コンテンツデータが音楽データの場合に、コンテンツデータを複数フレームに区切り、前記フレーム毎に前記音楽データを時間周波数変換し、フレーム毎に所定の周波数帯域のパワーを評価量として算出し、その評価量、又は、複数フレーム分の評価量を合計したものを前記特徴量として算出することを特徴とする請求項19に記載のコンテンツ利用装置。
  21. コンテンツデータから、複数の部分データを抽出する部分データ抽出部と、
    部分データそれぞれの特徴量を算出する特徴量算出部と、
    前記特徴量算出部が算出した各特徴量に基づいて、前記部分データがそのコンテンツデータを特定するための特徴データとして有効かどうかの度合いを示す重付情報を部分データ毎に生成する重付算出部と
    を備え、
    前記特徴量算出部は、前記コンテンツデータが音楽データの場合に、コンテンツデータを複数フレームに区切り、各フレームにおける実効レベルを算出して評価量とし、複数フレーム分の評価量において、コンテンツデータの平均実効レベル以上のレベルを一定時間継続しているかを示す指標を前記特徴量として算出することを特徴とするコンテンツ利用装置。
  22. コンテンツデータから、複数の部分データを抽出する部分データ抽出部と、
    部分データそれぞれの特徴量を算出する特徴量算出部と、
    前記特徴量算出部が算出した各特徴量に基づいて、前記部分データがそのコンテンツデータを特定するための特徴データとして有効かどうかの度合いを示す重付情報を部分データ毎に生成する重付算出部と
    を備え、
    前記特徴量算出部は、前記コンテンツデータが音楽データの場合に、コンテンツデータを複数フレームに区切り、各フレームについて、時間周波数変換した周波数スペクトルの概形を判定する評価量を算出し、前記評価量から複数フレームを代表する値を算出して前記特徴量とすることを特徴とするコンテンツ利用装置。
  23. コンテンツデータから、複数の部分データを抽出する部分データ抽出部と、
    部分データそれぞれの特徴量を算出する特徴量算出部と、
    前記特徴量算出部が算出した各特徴量に基づいて、前記部分データがそのコンテンツデータを特定するための特徴データとして有効かどうかの度合いを示す重付情報を部分データ毎に生成する重付算出部と
    を備え、
    前記特徴量算出部は、前記コンテンツデータが符号化データの場合に、コンテンツデータから、符号化ストリーム中に存在する補助データをフレーム単位で読み取り、前記補助データを用いて所定の周波数帯域の最大振幅レベル量を評価量として算出し、その評価量、又は、複数フレーム分の評価量を合計したものを前記特徴量として算出することを特徴とするコンテンツ利用装置。
  24. 前記重付算出部は、前記特徴量算出部が、前記複数フレームについて算出した複数の特徴量について並び替えを行い、所定の範囲に属する特徴量に対応した前記複数フレームの集まりを、抽出すべき部分データとし、この抽出すべき部分データに対応する特徴量に基づき、当該部分データについての前記重付情報を算出することを特徴とする請求項20乃至23のいずれか1項に記載のコンテンツ利用装置。
JP2009210599A 2009-09-11 2009-09-11 コンテンツ同定方法、コンテンツ同定システム、コンテンツ検索装置及びコンテンツ利用装置 Active JP5440051B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009210599A JP5440051B2 (ja) 2009-09-11 2009-09-11 コンテンツ同定方法、コンテンツ同定システム、コンテンツ検索装置及びコンテンツ利用装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009210599A JP5440051B2 (ja) 2009-09-11 2009-09-11 コンテンツ同定方法、コンテンツ同定システム、コンテンツ検索装置及びコンテンツ利用装置

Publications (2)

Publication Number Publication Date
JP2011059504A JP2011059504A (ja) 2011-03-24
JP5440051B2 true JP5440051B2 (ja) 2014-03-12

Family

ID=43947180

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009210599A Active JP5440051B2 (ja) 2009-09-11 2009-09-11 コンテンツ同定方法、コンテンツ同定システム、コンテンツ検索装置及びコンテンツ利用装置

Country Status (1)

Country Link
JP (1) JP5440051B2 (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012226106A (ja) * 2011-04-19 2012-11-15 Sony Corp 楽曲区間検出装置および方法、プログラム、記録媒体、並びに楽曲信号検出装置
JP5732994B2 (ja) * 2011-04-19 2015-06-10 ソニー株式会社 楽曲検索装置および方法、プログラム、並びに記録媒体
KR101916665B1 (ko) 2011-12-05 2018-11-09 한국전자통신연구원 만화 출판물에 대한 핑거프린팅 시스템 및 방법
EP3026922B1 (en) 2013-07-26 2021-01-06 Panasonic Intellectual Property Management Co., Ltd. Video receiving device, appended information display method, and appended information display system
JP6194484B2 (ja) 2013-07-30 2017-09-13 パナソニックIpマネジメント株式会社 映像受信装置、付加情報表示方法および付加情報表示システム
WO2015033500A1 (ja) 2013-09-04 2015-03-12 パナソニックIpマネジメント株式会社 映像受信装置、映像認識方法および付加情報表示システム
JP6240899B2 (ja) 2013-09-04 2017-12-06 パナソニックIpマネジメント株式会社 映像受信装置、映像認識方法および付加情報表示システム
CN105144735A (zh) 2014-03-26 2015-12-09 松下知识产权经营株式会社 影像接收装置、影像识别方法以及附加信息显示系统
US10194216B2 (en) 2014-03-26 2019-01-29 Panasonic Intellectual Property Management Co., Ltd. Video reception device, video recognition method, and additional information display system
KR102035859B1 (ko) * 2014-05-28 2019-10-25 주식회사 펨토바이오메드 점도 측정 방법
WO2016009637A1 (ja) 2014-07-17 2016-01-21 パナソニックIpマネジメント株式会社 認識データ生成装置、画像認識装置および認識データ生成方法
JP6432047B2 (ja) * 2014-08-21 2018-12-05 パナソニックIpマネジメント株式会社 コンテンツ認識装置およびコンテンツ認識方法
KR102436168B1 (ko) 2014-12-31 2022-08-24 피씨엠에스 홀딩스, 인크. 청취 로그 및 음악 라이브러리를 생성하기 위한 시스템 및 방법
JP6547577B2 (ja) 2015-10-15 2019-07-24 富士通株式会社 検査装置、検査プログラムおよび検査方法
KR102431737B1 (ko) 2017-02-28 2022-08-11 삼성전자주식회사 멀티미디어 데이터에서 하이라이트를 찾는 방법 및 그를 이용한 장치

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6990453B2 (en) * 2000-07-31 2006-01-24 Landmark Digital Services Llc System and methods for recognizing sound and music signals in high noise and distortion
US8266142B2 (en) * 2007-06-06 2012-09-11 Dolby Laboratories Licensing Corporation Audio/Video fingerprint search accuracy using multiple search combining
JP5115966B2 (ja) * 2007-11-16 2013-01-09 独立行政法人産業技術総合研究所 楽曲検索システム及び方法並びにそのプログラム

Also Published As

Publication number Publication date
JP2011059504A (ja) 2011-03-24

Similar Documents

Publication Publication Date Title
JP5440051B2 (ja) コンテンツ同定方法、コンテンツ同定システム、コンテンツ検索装置及びコンテンツ利用装置
US7460994B2 (en) Method and apparatus for producing a fingerprint, and method and apparatus for identifying an audio signal
JP5826291B2 (ja) 音声信号からの特徴フィンガープリントの抽出及びマッチング方法
KR100949232B1 (ko) 인코딩 장치, 디코딩 장치 및 그 방법
JP4067969B2 (ja) 信号を特徴付ける方法および装置、および、索引信号を生成する方法および装置
EP1760693B1 (en) Extraction and matching of characteristic fingerprints from audio signals
CN101002254B (zh) 音频信号的鲁棒分类设备和方法、建立并操作音频信号数据库的方法
RU2455709C2 (ru) Способ и устройство для обработки аудиосигнала
CN101223577B (zh) 对低比特率音频信号进行编码/解码的方法和设备
EP2786377B1 (en) Chroma extraction from an audio codec
EP2490215A2 (en) Method and apparatus to extract important spectral component from audio signal and low bit-rate audio signal coding and/or decoding method and apparatus using the same
KR100707177B1 (ko) 디지털 신호 부호화/복호화 방법 및 장치
US20030088328A1 (en) Encoding device and decoding device
JP2004530153A6 (ja) 信号を特徴付ける方法および装置、および、索引信号を生成する方法および装置
JP2005157390A (ja) 付加情報の挿入されたmpeg−4bsacオーディオビットストリームの符号化方法および復号化方法ならびに符号化装置および復号化装置
KR102614021B1 (ko) 오디오 컨텐츠 인식 방법 및 장치
CN1823482B (zh) 水印嵌入方法和装置
US6772113B1 (en) Data processing apparatus for processing sound data, a data processing method for processing sound data, a program providing medium for processing sound data, and a recording medium for processing sound data
US20100185713A1 (en) Feature extraction apparatus, feature extraction method, and program thereof
Yin et al. Robust online music identification using spectral entropy in the compressed domain
Shieh Audio content based feature extraction on subband domain
Kobayakawa et al. A Partial Retrieval of Music Data with Different Bit Rate using MPEG-4 TwinVQ Audio Compression

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20111012

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120329

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130214

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130723

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130730

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130910

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130917

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131008

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131021

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131119

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131202

R150 Certificate of patent or registration of utility model

Ref document number: 5440051

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150