JP2008192102A - Metadata generation device and metadata generation method - Google Patents
Metadata generation device and metadata generation method Download PDFInfo
- Publication number
- JP2008192102A JP2008192102A JP2007028864A JP2007028864A JP2008192102A JP 2008192102 A JP2008192102 A JP 2008192102A JP 2007028864 A JP2007028864 A JP 2007028864A JP 2007028864 A JP2007028864 A JP 2007028864A JP 2008192102 A JP2008192102 A JP 2008192102A
- Authority
- JP
- Japan
- Prior art keywords
- metadata
- level
- data
- extraction unit
- music
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、コンテンツのメタデータを生成する技術に関する。 The present invention relates to a technique for generating content metadata.
メタデータとはコンテンツの関連情報であり、コンテンツの作成日時や作成者、データ形式、タイトルなどのコンテンツ付随情報を示すことが多い。たとえばMP3(MPEG1 Aidio Layer-3)ファイルには、ID3タグと呼ばれる規格により、曲名やアーティスト名などをテキストデータとして記述した書誌情報が埋め込まれている。最近、ID3タグによる記入サイズが拡張されて、記入できる項目が増加し、画像データを含めることも可能となっている。 Metadata is content-related information, and often indicates content-related information such as the date and time of creation, creator, data format, and title. For example, in an MP3 (MPEG1 Aidio Layer-3) file, bibliographic information in which a song title, artist name, etc. are written as text data is embedded according to a standard called ID3 tag. Recently, the entry size by the ID3 tag has been expanded, the number of items that can be entered has increased, and image data can also be included.
また近年では、音楽データを解析して、音楽の特徴量を解析して抽出しようとする試みがなされている。音楽の特徴量であるリズムなどをメタデータとして抽出することで、音楽をジャンル分けするような処理も可能になる。このように1つのコンテンツから、様々な種類のメタデータを抽出することが可能であり、メタデータの種類が増えることで、メタデータを利用した様々なアプリケーションの実現が可能となる。 In recent years, attempts have been made to analyze music data and analyze and extract music features. By extracting rhythms or the like that are characteristic features of music as metadata, it is possible to perform processing such as categorizing music. As described above, various types of metadata can be extracted from one content, and by increasing the number of types of metadata, various applications using the metadata can be realized.
メタデータをアプリケーションに応用するためには、メタデータの抽出精度を高めることが好ましい。たとえば、MP3ファイルからは、音楽の特徴量から導出されるメタデータと、またID3タグに記述されたメタデータとを抽出することができるが、これらのメタデータはそれぞれ独立に存在しているのであって、それらを統合して処理する試みはなされていない。本発明者は、独立して存在しているコンテンツデータやメタデータを、互いに関連づけて処理することにより、メタデータを効果的に生成できる技術を開発するに至った。 In order to apply metadata to an application, it is preferable to increase the accuracy of metadata extraction. For example, from MP3 files, metadata derived from music features and metadata described in ID3 tags can be extracted, but these metadata exist independently. There have been no attempts to integrate and process them. The present inventor has developed a technique that can effectively generate metadata by processing content data and metadata that exist independently in association with each other.
上記課題を解決するために、本発明のある態様のメタデータ生成装置は、コンテンツデータから第1レベルのメタデータを抽出する第1メタデータ抽出部と、第1レベルのメタデータから、第2レベルのメタデータを抽出する第2メタデータ抽出部とを備えて、コンテンツに関連するメタデータを階層的に生成する。このメタデータ生成装置において、前記第1メタデータ抽出部は、コンテンツデータに含まれる第1データから、複数種類の第1レベルのメタデータを抽出し、前記第2メタデータ抽出部は、複数種類の第1レベルのメタデータから、第2レベルのメタデータを抽出する。 In order to solve the above-described problem, a metadata generation apparatus according to an aspect of the present invention includes a first metadata extraction unit that extracts first-level metadata from content data, and a second metadata from the first-level metadata. A second metadata extraction unit for extracting level metadata, and hierarchically generating metadata related to the content. In the metadata generation apparatus, the first metadata extraction unit extracts a plurality of types of first level metadata from the first data included in the content data, and the second metadata extraction unit includes a plurality of types. The second level metadata is extracted from the first level metadata.
本発明の別の態様のメタデータ生成方法は、コンテンツデータから第1レベルのメタデータを抽出するステップと、第1レベルのメタデータから、第2レベルのメタデータを抽出するステップとを備えて、コンテンツに関連するメタデータを階層的に生成するメタデータ生成方法に関する。この方法において、第1レベルのメタデータを抽出するステップは、コンテンツデータに含まれる1種類のデータから、複数種類の第1レベルのメタデータを抽出し、第2レベルのメタデータを抽出するステップは、複数種類の第1レベルのメタデータから、1種類の第2レベルのメタデータを抽出する。 A metadata generation method according to another aspect of the present invention includes a step of extracting first level metadata from content data, and a step of extracting second level metadata from the first level metadata. The present invention relates to a metadata generation method for hierarchically generating metadata related to content. In this method, the step of extracting the first level metadata includes a step of extracting a plurality of types of first level metadata and extracting a second level metadata from one type of data included in the content data. Extracts one type of second level metadata from a plurality of types of first level metadata.
なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システム、記録媒体、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。 It should be noted that any combination of the above-described constituent elements and a conversion of the expression of the present invention between a method, an apparatus, a system, a recording medium, a computer program, etc. are also effective as an aspect of the present invention.
本発明によると、メタデータを効果的に生成する技術を提供することができる。 According to the present invention, it is possible to provide a technique for effectively generating metadata.
図1は、本発明の実施例にかかる情報処理システムの使用環境を示す。情報処理システム1は、アプリケーションを実行する情報処理装置10と、情報処理装置10における処理結果を出力する表示機器12とを備える。表示機器12は、画像を出力するディスプレイ部を有して構成され、さらに音声を出力する音声出力部を有するテレビであってよい。表示機器12は、情報処理装置10に有線ケーブルで接続されてよく、また無線LAN(Local Area Network)などにより無線接続されてもよい。情報処理システム1において、情報処理装置10は、ケーブル14を介してインターネットなどの外部ネットワークに接続する。なお、無線通信により外部ネットワークへの接続が行われてもよい。情報処理装置10は、ゲームデータが記録されたメディアを装着されて、そのゲームデータを実行し、ゲームアプリケーションの処理結果を示す画像信号および音声信号を生成するゲーム装置であってよい。
FIG. 1 shows a use environment of an information processing system according to an embodiment of the present invention. The
本実施例において情報処理装置10は、外部ネットワークに接続するコンテンツ提供サーバから、音楽ファイルや映像ファイルなどのコンテンツデータを受信して、再生する機能を有する。コンテンツデータは、ファイル形式のデータであってもよく、またストリーミング形式のデータであってもよい。コンテンツデータとして、たとえば評論家による音楽アルバムの評論ファイルなどが含まれてもよい。なおコンテンツデータは、ネットワーク経由ではなく、光ディスクや光磁気ディスク、ブルーレイディスクなどの記録メディアから供給されてもよい。情報処理装置10は、取得したコンテンツデータから、コンテンツに関連するメタデータを階層的に生成するメタデータ生成装置として機能する。情報処理装置10は、従来にない新しいメタデータを抽出する機能ももつ。情報処理装置10は、コンテンツデータを大容量の補助記憶装置に一旦記憶し、このコンテンツデータからメタデータを生成すると、コンテンツデータとは別にメタデータファイルを補助記憶装置に記憶する。生成されたメタデータは、コンテンツデータの検索などに利用される。
In the present embodiment, the
図2は、本発明の実施例にかかるコンテンツ配信システムを示す。コンテンツ配信システム2では、インターネットなどのネットワーク16を介して、ユーザ端末である情報処理装置10と、コンテンツ提供者が保有する端末であるコンテンツ提供サーバ18a、18b、18c(以後、総称して「コンテンツ提供サーバ18」とよぶ)とが通信可能に接続される。コンテンツ提供者は、コンテンツデータをコンテンツ提供サーバ18に保存して、情報処理装置10が、コンテンツデータをコンテンツ提供サーバ18からダウンロードできるようにする。
FIG. 2 shows a content distribution system according to an embodiment of the present invention. In the
情報処理装置10は、ユーザから操作されることにより、所望のコンテンツデータを保持するコンテンツ提供サーバ18にアクセスし、そのコンテンツデータをダウンロードする。コンテンツ提供サーバ18は、たとえば複数曲が入った音楽アルバムのデジタルコンテンツを保持しており、ユーザは、料金を支払うことで、所望のアルバムファイルを取得できる。情報処理装置10は、コンテンツ提供サーバ18からダウンロードしたコンテンツデータを、補助記憶装置の所定の領域に格納する。
When operated by the user, the
図3は、情報処理装置10の機能ブロック図を示す。情報処理装置10は、電源ボタン20、LED22、システムコントローラ24、デバイスコントローラ30、メディアドライブ32、ハードディスクドライブ34、スイッチ36、無線インタフェース38、メインコントローラ100、メインメモリ102および出力処理部200を有して構成される。
FIG. 3 shows a functional block diagram of the
電源ボタン20は、ユーザからの操作入力が行われる入力部であって、情報処理装置10への電源供給をオンまたはオフするために操作される。電源ボタン20は押下ボタンであってよく、押下されることで電源のオンまたはオフが制御されてもよい。なお電源ボタン20は、タッチセンサなど、ユーザが電源のオンオフを行える他の構造をとってもよい。LED22は、電源のオンまたはオフの状態を点灯表示する。システムコントローラ24は、電源ボタン20の押下状態または非押下状態を検出し、電源オフの状態から押下状態への状態遷移を検出すると、メインコントローラ100を起動し、またLED22を点灯制御する。情報処理装置10に電源ケーブルが差し込まれている場合、システムコントローラ24は、電源オフの状態であってもスタンバイモードを維持して、電源ボタン20の押下を監視する。
The power button 20 is an input unit where an operation input from a user is performed, and is operated to turn on or off the power supply to the
デバイスコントローラ30は、サウスブリッジのようにデバイス間の情報の受け渡しを実行するLSI(Large-Scale Integrated Circuit)として構成される。図示のように、デバイスコントローラ30には、システムコントローラ24、メディアドライブ32、ハードディスクドライブ34、スイッチ36およびメインコントローラ100などのデバイスが接続される。デバイスコントローラ30は、それぞれのデバイスの電気特性の違いやデータ転送速度の差を吸収し、データ転送のタイミングを制御する。
The
メディアドライブ32は、アプリケーションデータを記録したメディア50を装着して駆動し、メディア50からアプリケーションデータを読み出すドライブ装置である。メディア50は、光ディスクや光磁気ディスク、ブルーレイディスクなどの読出専用の記録メディアであってよい。
The
ハードディスクドライブ34は、内蔵ハードディスクを駆動し、磁気ヘッドを用いてデータの書込/読出を行う補助記憶装置である。コンテンツ提供サーバ18からダウンロードされるコンテンツデータおよびメディア50から供給されるコンテンツデータは、ハードディスクドライブ34に格納される。スイッチ36は、イーサネットスイッチ(イーサネットは登録商標)であって、外部の機器と有線または無線で接続して、情報の送受信を行うデバイスである。本実施例では、スイッチ36にケーブル14が差し込まれ、ネットワーク16に通信可能に接続している。さらにスイッチ36は無線インタフェース38に接続し、無線インタフェース38は、Bluetooth(登録商標)プロトコルやIEEE802.11プロトコルなどの通信プロトコルで無線通信機能をもつ無線コントローラ40と接続する。無線コントローラ40は、ユーザからの操作入力が行われる入力部として機能する。
The
メインコントローラ100は、マルチコアCPUを備え、1つのCPUの中に1つの汎用的なプロセッサコアと、複数のシンプルなプロセッサコアを有する。汎用プロセッサコアをPPU(Power Processing Unit)と呼び、残りのプロセッサコアをSPU(Synergistic-Processing Unit)と呼ぶ。
The
メインコントローラ100は、主記憶装置であるメインメモリ102に接続するメモリコントローラを備える。PPUはレジスタを有し、演算実行主体としてメインプロセッサを備えて、各アプリケーションにおける基本処理単位としてのタスクを各SPUに効率的に割り当てる。なお、PPU自身がタスクを実行してもよい。SPUはレジスタを有し、演算実行主体としてのサブプロセッサとローカルな記憶領域としてのローカルメモリ(専用RAM)を備える。SPUは制御ユニットとして専用のDMA(Direct Memory Access)コントローラをもち、メインメモリ102とローカルメモリの間のデータ転送を行うことで、データを高速にストリーム処理でき、また出力処理部200に内蔵されるフレームメモリとローカルメモリの間で高速なデータ転送を実現できる。
The
出力処理部200は、表示機器12に接続されて、アプリケーションの処理結果である映像信号および音声信号を出力する。出力処理部200は、画像処理機能を実現するGPU(Graphics Processing Unit)を備える。GPUは、HDMI(High Definition Multimedia Interface)を採用し、アナログを介さずに、映像信号をデジタル出力できる。
The
図4は、メタデータ生成処理を実行するメインコントローラ100の内部構成を示す。メインコントローラ100は、低レベルメタデータ抽出部120、中レベルメタデータ抽出部140および高レベルメタデータ抽出部160を備える。図4において、さまざまな処理を行う機能ブロックとして記載される各要素は、ハードウェア的には、CPU(Central Processing Unit)、メモリ、その他のLSIで構成することができ、ソフトウェア的には、メモリにロードされたプログラムなどによって実現される。既述したように、メインコントローラ100には1つのPPUと複数のSPUとが設けられており、PPUおよびSPUがそれぞれ単独または協同して、各機能ブロックを構成できる。したがって、これらの機能ブロックがハードウェアのみ、ソフトウェアのみ、またはそれらの組合せによっていろいろな形で実現できることは当業者には理解されるところであり、いずれかに限定されるものではない。
FIG. 4 shows an internal configuration of the
低レベルメタデータ抽出部120、中レベルメタデータ抽出部140および高レベルメタデータ抽出部160は、コンテンツデータ110a、110b(以下、総称する場合は「コンテンツデータ110」と呼ぶ)から階層的なメタデータを抽出する。低レベルメタデータ抽出部120は、コンテンツデータ110に含まれるデータを直接利用して、低レベル(1次レベル)のメタデータを抽出する。中レベルメタデータ抽出部140は、低レベルメタデータ抽出部120で抽出された低レベルメタデータを利用して、中レベル(2次レベル)のメタデータを抽出する。高レベルメタデータ抽出部160は、中レベルメタデータ抽出部140で抽出された中レベルメタデータを利用して、高レベル(3次レベル)のメタデータを抽出する。このように、メインコントローラ100は、段階的(階層的)にメタデータを生成し、コンテンツデータの検索などに有用なメタデータを高精度に生成する。本実施例におけるメタデータの階層化は、信号処理の観点からいえば、各階層におけるメタデータのレベルが揃うように、解析処理、認識処理、理解処理の順に実行される。なお、解析処理から認識処理までを1階層、すなわち1次レベルと設定してもよく、この場合は、メタデータが2階層で抽出されることになる。
The low-level
まず低レベルメタデータ抽出部120は、解析処理を実行し、コンテンツデータを物理量として解析した低レベルのメタデータを抽出する。低レベルメタデータ抽出部120は、信号処理を実行して、複数のコンテンツデータ110a、110bから、低レベルメタデータを抽出してもよい。ここで、複数のコンテンツデータ110のうち、1つのコンテンツデータ110aが、メタデータの作成対象として存在し、他のコンテンツデータ110bなどが、コンテンツデータ110a用のメタデータを作成するための補助的なデータとして利用されてもよい。たとえば、コンテンツデータ110aが、音楽データを圧縮したMP3ファイルであり、一方、コンテンツデータ110bが、その音楽に対する評論のテキストファイルである場合、コンテンツデータ110bは、コンテンツデータ110aの音楽データに対するメタデータを作成するために利用されてもよい。なお、この場合に、コンテンツデータ110aが、コンテンツデータ110bのメタデータを作成するために利用されることも可能である。
First, the low-level
MP3ファイルは、圧縮された音楽データに加えて、ID3タグと呼ばれる規格により、曲名やアーティスト名などのテキストデータを含み、さらに、音楽アルバムのジャケット写真の画像データを含むこともある。本実施例の情報処理装置10において、低レベルメタデータ抽出部120は、MP3ファイルから、3種類のデータ、すなわち音楽データ、テキストデータおよび画像データを取得し、それぞれのデータから低レベルメタデータを抽出する。このとき低レベルメタデータ抽出部120は、MP3ファイルに含まれる1種類のデータから、複数種類の低レベルメタデータを抽出してもよい。たとえば低レベルメタデータ抽出部120は、圧縮された音楽データから、複数種類の低レベルメタデータを抽出してもよく、またテキストデータから、複数種類の低レベルメタデータを抽出してもよい。
In addition to compressed music data, the MP3 file includes text data such as a song name and an artist name according to a standard called an ID3 tag, and may further include image data of a jacket photo of a music album. In the
低レベルメタデータ抽出部120は、音楽データに対して高速フーリエ変換などの信号処理を施すことで、時間−音程解析を実行することができ、物理量としての音程解析結果を低レベルのメタデータとして抽出できる。また同様に音楽データのビート特徴量を解析することも可能であり、これにより音楽中の音の変化位置を解析できる。このビート特徴量も、低レベルのメタデータとして抽出される。また、低レベルメタデータ抽出部120は、テキストデータを形態素解析することで、低レベルのメタデータを抽出でき、さらに画像データを画像解析することで、低レベルのメタデータを抽出できる。
The low-level
次に、中レベルメタデータ抽出部140は、認識処理を実行し、低レベルのメタデータをユニークに変換することで、中レベルのメタデータを抽出する。たとえば、音程解析結果をある単位のセグメントごとに分割して認識処理することで、メインの楽器や声などの高さ、大きさなどの音楽特徴量が中レベルのメタデータとして抽出される。また、ビート特徴量から、より高精度なビート情報が中レベルのメタデータとして抽出される。解析処理において、1つの音楽データから、音程解析結果とビート特徴量とが低レベルメタデータとして抽出されている場合、これらを相互に利用して、より高精度な中レベルの音楽特徴量および/またはビート情報を抽出することも可能である。また、認識処理では、低レベルメタデータ抽出部120における形態素解析の結果から、キーワードや、文章中の構文を中レベルメタデータとして抽出することができ、また、中レベルメタデータ抽出部140における画像解析の結果から、画像中に含まれる人の数や、明るさ(雰囲気)などの画像特徴量を中レベルメタデータとして抽出することもできる。
Next, the intermediate level
高レベルメタデータ抽出部160は、理解処理を実行し、中レベルのメタデータから、クラス化した高レベルのメタデータ、換言するとシンボリック化した高レベルのメタデータを抽出する。たとえば、音楽特徴量やビート情報などから、その音楽のジャンルや、楽器の有無などが高レベルのメタデータとして抽出される。また、抽出したキーワードや構文から、楽曲やキーワードの関係を高レベルメタデータとして抽出することができ、また、中レベルの画像特徴量から特定した人の顔などを高レベルメタデータとして抽出することができる。
The high-level
メインコントローラ100において、コンテンツデータ110a、110bに含まれる複数種類のデータから、複数種類の低レベルのメタデータが抽出され、また、これらから複数種類の中レベルのメタデータが生成される。高レベルメタデータ抽出部160は、異なる種類の中レベルのメタデータから、たとえば高レベルの音楽特徴量を抽出することも可能である。このように、音楽データ、テキストデータおよび/または画像データなど、異なる種類のデータを起原として生成された中レベルのメタデータを統合して処理し、1種類の高レベルのメタデータを抽出することで、高レベルメタデータの生成精度を高めることが可能となる。
In the
図5は、図4に示すメインコントローラ100の詳細を示す。図5において、メインコントローラ100は、MP3ファイルであるコンテンツデータ110aおよび音楽評論のテキストデータであるコンテンツデータ110bから、階層的にメタデータを生成する。MP3ファイルは、圧縮された音楽データ112a、JPEG記録されたジャケット写真画像データ112b、およびテキストデータで記述された音楽書誌データ112cを含む。なお、ジャケット写真画像データ112bおよび/または音楽書誌データ112cについては、ネットワーク16上のコンテンツ提供サーバ18から、MP3ファイルとは別にダウンロードされたファイルであってもよい。
FIG. 5 shows details of the
低レベルメタデータ抽出部120は、ビート特徴量解析部122、時間−音程解析部124、画像解析部126、形態素解析部128および形態素解析部130を備え、コンテンツデータを物理量として解析した低レベルのメタデータを抽出する。ビート特徴量解析部122および時間−音程解析部124は、情報圧縮された音楽データ112aをデコードしてモノラル処理した音楽信号から、低レベルメタデータを抽出する。画像解析部126は、ジャケット写真画像データ112bから低レベルメタデータを抽出し、同様に、形態素解析部128および形態素解析部130は、それぞれ音楽書誌データ112cおよび音楽評論データ112dから低レベルメタデータを抽出する。低レベルメタデータ抽出部120において、ビート特徴量解析部122および時間−音程解析部124が、音楽データ112aから、それぞれメタデータを抽出する。これにより、コンテンツデータ110aに含まれる音楽データ112aから、複数のメタデータを抽出することになり、多面的な低レベルメタデータの取得を実現できるとともに、後段の中レベルおよび高レベルのメタデータの抽出精度を高めることができる。また、低レベルメタデータ抽出部120において、それぞれ種類の異なる音楽データ112a、ジャケット写真画像データ112b、音楽書誌データ112cおよび音楽評論データ112dから、複数の低レベルのメタデータを抽出することで、後段の中レベルおよび高レベルのメタデータの抽出精度を高めることもできる。
The low-level
ビート特徴量解析部122は、情報圧縮された音楽データ112aをデコードしてモノラル処理した音楽信号を、楽器特徴量に応じた帯域に音楽信号を分割する。次に、ビート信号に対応する帯域を選択して平滑化することにより、音のアタックタイムとリリースタイムの候補位置を求め、各帯域の自己相関関数から基本周期を求める。これにより、ビート特徴量解析部122は、ビート特徴量を抽出する。
The beat feature value analysis unit 122 divides the music signal obtained by decoding the monaural processed
時間−音程解析部124は、情報圧縮された音楽データ112aをデコードしてモノラル処理した音楽信号を、短時間のインターバルで周波数分析し、時間−周波数の特徴量を求める。この周波数分析には、たとえば高速フーリエ変換(FFT)器、またはバンドパスフィルタの集合体であるフィルタバンクが利用されてもよい。時間−音程解析部124は、44.1kHzのサンプリング周波数のデジタル信号を音程に対応した帯域で分割した後、1〜20msのインターバルで標本化して、時間−周波数(音程)特徴量を抽出する。
The time-
画像解析部126は、ジャケット写真画像データ112bから、オブジェクトセグメンテーション処理を実行し、ジャケット写真中のオブジェクトの解析を行う。また画像解析部126は、色解析処理を行い、色相ヒストグラムを求めてもよい。従来、ジャケット写真画像データ112bの画像解析結果をメタデータとして利用するものはないが、本実施例の情報処理システム1では、これを新たに低レベルのメタデータとして取り扱うことで、メタデータの種類を増やすことができ、中レベル以降のメタデータ抽出処理における選択肢を広げることができる。
The
形態素解析部128は、音楽書誌データ112cから、書誌データを抽出する。たとえば書誌データには、アルバムタイトル、アーティスト名、楽曲名、作詞者、作曲者、レーベル名、ジャンルなどが含まれてもよい。形態素解析部130は、音楽評論データ112dを形態素解析して、形態素を品詞に分類する。ここで音楽評論データ112dは、音楽評論家により、MP3ファイルに含まれる音楽アルバムを評論、批評したテキストデータであるものとする。なお音楽評論データ112dを処理する形態素解析部130は複数設けられてもよい。その場合、それぞれの形態素解析部は、解析結果を異ならせるように、異なる辞書などを利用して形態素解析を実行してもよい。これにより、様々な形態素解析を実行することができ、後段のキーワード抽出部150が、異なる解析結果をもとに、バリエーションに富んだキーワードを抽出することが可能となる。なお同様に、音楽書誌データ112cを処理する形態素解析部128が複数設けられてもよい。
The
このように低レベルメタデータ抽出部120は、様々なコンテンツデータを物理量として解析した低レベルのメタデータを複数抽出することで、後段の中レベルメタデータ抽出部140および高レベルメタデータ抽出部160におけるメタデータ抽出処理の選択肢の幅を広げることができるとともに、低レベルメタデータの組合せをダイナミックに変更することも可能とする。
As described above, the low-level
中レベルメタデータ抽出部140は、ビート情報抽出部142、中レベル音楽特徴量抽出部144、画像特徴量抽出部146、キーワード抽出部148およびキーワード抽出部150を備え、低レベルメタデータをユニークに変換した中レベルのメタデータを生成する。ビート情報抽出部142は、音楽データ112aから抽出されたビート特徴量および時間−音程特徴量から、中レベルのメタデータを抽出する。中レベル音楽特徴量抽出部144も同様に、音楽データ112aから抽出されたビート特徴量および時間−音程特徴量から、中レベルのメタデータを抽出する。ビート情報抽出部142および中レベル音楽特徴量抽出部144は、1つの音楽データ112aから抽出された異なる種類の低レベルメタデータをもとに、それぞれ中レベルのメタデータを生成する。複数種類の低レベルメタデータを利用することで、生成する中レベルメタデータの正確度を高めることができる。画像特徴量抽出部146は、画像解析部126で解析された画像解析データから、中レベルのメタデータを抽出する。キーワード抽出部148は、形態素解析部128による形態素解析データから中レベルのメタデータを抽出する。同様にキーワード抽出部150は、形態素解析部130による形態素解析データから中レベルのメタデータを抽出する。
The intermediate level
ビート情報抽出部142は、ビート特徴量解析部122で抽出されたビート特徴量と、時間−音程解析部124で抽出された時間−音程特徴量から、音楽信号のビート位置を高精度に抽出する。ビート特徴量として音楽の基本周期が抽出され、また時間−音程特徴量として時間ごとの音程量が抽出されているため、ビート情報抽出部142は、抽出された基本周期を、時間ごとの音程量で補正等することで、正確なビート位置を抽出することができる。ビート情報抽出部142で抽出されたビート位置は、後段の高レベル音楽特徴量抽出部162に供給される。なお、抽出されたビート位置は、異なる音楽同士をつなげるリミックス処理に利用されてもよい。正確なビート位置を抽出することで、なめらかなリミックス処理を実現できる。
The beat
中レベル音楽特徴量抽出部144は、ビート特徴量解析部122で抽出されたビート特徴量と、時間−音程解析部124で抽出された時間−音程特徴量から、音符情報や、小節ごとの音の強さやテンポ、楽曲構造などの中レベル音楽特徴量を抽出する。従来、これらの中レベル音楽特徴量は、時間−音程解析部124により抽出された時間−音楽特徴量のみから導出されていたが、中レベル音楽特徴量抽出部144は、ビート特徴量として抽出された音楽の基本周期をさらに利用することで、楽曲構造や、テンポなどの抽出精度を高めることが可能となる。
The medium level music feature
画像特徴量抽出部146は、画像解析部126で抽出された画像解析データから、オブジェクトの位置、大きさ、色相などの画像特徴量を抽出する。
The image feature
キーワード抽出部148は、形態素解析部128で抽出された形態素解析データから、キーワードを抽出する。またキーワード抽出部150も、形態素解析部130で抽出された形態素解析データから、キーワードを抽出する。キーワード抽出部150は、たとえば音楽評論に一般に使用される用語をテーブルとして保持している。そのような用語は、「バラード」、「聴きやすい」、「落ち着く」などのキーワードであってもよく、キーワード抽出部150は、テーブルに含まれる用語を、形態素解析部130で抽出された形態素解析データから抽出する。
The
高レベルメタデータ抽出部160は、高レベル音楽特徴量抽出部162、顔抽出部164および評価抽出部166を備える。高レベルメタデータ抽出部160は、ビート情報抽出部142、中レベル音楽特徴量抽出部144、画像特徴量抽出部146およびキーワード抽出部148で抽出された中レベルメタデータから、高レベルのメタデータを抽出する。顔抽出部164は、画像特徴量抽出部146で抽出された中レベルメタデータから高レベルのメタデータを抽出する。評価抽出部166は、キーワード抽出部148およびキーワード抽出部150で抽出された中レベルメタデータから高レベルのメタデータを抽出する。
The high level
高レベルメタデータ抽出部160は、高レベルの音楽特徴量として、音楽のジャンル、楽器音、ムード、音質、速さ、音の良さなどの音楽全体に対する特徴量を高レベルメタデータとして抽出する。また、高レベル特徴量として、全体のエネルギに対するリズム楽器のエネルギの割合であったり、また単位時間あたりの音符数などを抽出することもできる。高レベルメタデータ抽出部160は、ビート情報抽出部142、中レベル音楽特徴量抽出部144、画像特徴量抽出部146およびキーワード抽出部148で抽出された中レベルメタデータを受け取ることで、高レベル音楽特徴量を高精度に抽出する。
The high-level
たとえば高レベル音楽特徴量抽出部162は、ビート情報抽出部142から供給される正確なビート情報および中レベル音楽特徴量抽出部144から供給される正確な中レベル音楽特徴量から、楽曲構造やテンポなどを高精度に把握でき、したがって、音楽の速さやムードなどを正確に推定し抽出することができる。また、高レベル音楽特徴量抽出部162は、これらの中レベルメタデータから、音楽のジャンルを推定して抽出することもできる。またジャンルについていえば、キーワード抽出部148から供給されるキーワードにジャンルが含まれており、推定したジャンルと、キーワードに含まれたジャンルとから、新たに正確なジャンルを決定してもよい。たとえば、キーワードとして「バラード」のジャンルが抽出されていた場合であっても、楽曲構造やテンポなどから、若干激しいロック調の音楽であることが推定された場合には、その音楽のジャンルをロックとして高レベル音楽特徴量を抽出してもよい。なお、この場合に、バラードとロックの間のジャンル、たとえばポップをジャンルとして抽出してもよい。このように、書誌データと、実際の音楽を解析、認識処理した結果を突き合わせることで、高精度なメタデータを抽出することが可能となる。また、画像特徴量抽出部146から供給される画像特徴量により、たとえばジャケット写真に明るい色が使用されている場合には、高レベル音楽特徴量抽出部162が、楽しい音楽であろうことを推測し、他の要素、たとえばテンポや使用される楽器などから、明るい曲調の音楽であるとして高レベル音楽特徴量を抽出してもよい。従来では、ジャケット写真の色調や、それに含まれるオブジェクトの特徴量などを、メタデータとして利用する試みはなされていなかった。一方、本実施例では、高レベル音楽特徴量抽出部162が、画像特徴量抽出部146から供給される画像特徴量も含めて高レベルのメタデータを生成することで、新しいメタデータを抽出できるだけでなく、メタデータの抽出精度を高めることが可能となる。
For example, the high-level music feature
顔抽出部164は、画像特徴量から顔を抽出する。たとえば、この抽出結果は、たとえば顔認識処理などにより、抽出された顔が誰であるかを判別するアプリケーションで利用されてもよい。 The face extraction unit 164 extracts a face from the image feature amount. For example, the extraction result may be used in an application that determines who the extracted face is by, for example, face recognition processing.
評価抽出部166は、キーワード抽出部148およびキーワード抽出部150で抽出されたキーワードを関連づける。たとえば音楽評論データ112dに、同一アーティストによるアルバムリストなどが含まれている場合は、音楽書誌データ112cにおける書誌データとアルバムリストが紐付けられる処理が行われてもよい。
The
以上、本発明を実施例をもとに説明した。この実施例は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。 In the above, this invention was demonstrated based on the Example. This embodiment is an exemplification, and it will be understood by those skilled in the art that various modifications can be made to the combination of each component and each processing process, and such modifications are also within the scope of the present invention. .
実施例ではMP3の音楽ファイルのメタデータを生成する例について説明したが、コンテンツデータは、これに限らず、単なる音声ファイルであってもよく、また動画データであってもよく、さらにいえば、メタデータを作成する必要がある対象全てが含まれてもよい。 In the embodiment, the example of generating the metadata of the MP3 music file has been described. However, the content data is not limited to this, and may be a simple audio file or video data. All targets for which metadata needs to be created may be included.
実施例では、情報処理装置10がメタデータ生成装置として機能する例について説明したが、たとえばコンテンツ提供サーバ18が、メタデータ生成装置として機能してもよい。この場合、コンテンツ提供サーバ18は、コンテンツデータとともに、コンテンツデータから生成したメタデータを情報処理装置10に配信してもよい。
In the embodiment, the example in which the
1・・・情報処理システム、10・・・情報処理装置、12・・・表示機器、100・・・メインコントローラ、110・・・コンテンツデータ、112a・・・音楽データ、112b・・・ジャケット写真画像データ、112c・・・音楽書誌データ、112d・・・音楽評論データ、120・・・低レベルメタデータ抽出部、122・・・ビート特徴量解析部、124・・・時間−音程解析部、126・・・画像解析部、128・・・形態素解析部、130・・・形態素解析部、140・・・中レベルメタデータ抽出部、142・・・ビート情報抽出部、144・・・中レベル音楽特徴量抽出部、146・・・画像特徴量抽出部、148・・・キーワード抽出部、150・・・キーワード抽出部、160・・・高レベルメタデータ抽出部、162・・・高レベル音楽特徴量抽出部、164・・・顔抽出部、166・・・評価抽出部。
DESCRIPTION OF
Claims (6)
第1レベルのメタデータから、第2レベルのメタデータを抽出する第2メタデータ抽出部とを備えて、コンテンツに関連するメタデータを階層的に生成するメタデータ生成装置であって、
前記第1メタデータ抽出部は、コンテンツデータに含まれる第1データから、複数種類の第1レベルのメタデータを抽出し、
前記第2メタデータ抽出部は、複数種類の第1レベルのメタデータから、第2レベルのメタデータを抽出することを特徴とするメタデータ生成装置。 A first metadata extraction unit for extracting first level metadata from content data;
A metadata generation device that hierarchically generates metadata related to content, including a second metadata extraction unit that extracts second level metadata from first level metadata;
The first metadata extraction unit extracts a plurality of types of first level metadata from first data included in content data,
The second metadata extraction unit extracts second level metadata from a plurality of types of first level metadata.
前記第2メタデータ抽出部は、前記第1メタデータ抽出部においてコンテンツデータに含まれる異なる種類の第1データおよび第2データをもとに抽出された複数種類のメタデータから、第2レベルのメタデータを抽出することを特徴とする請求項1に記載のメタデータ生成装置。 The first metadata extraction unit extracts a plurality of types of first-level metadata from first data included in content data and second data having different types from the first data,
The second metadata extraction unit is configured to extract a second level from a plurality of types of metadata extracted based on different types of first data and second data included in the content data in the first metadata extraction unit. The metadata generation apparatus according to claim 1, wherein metadata is extracted.
前記第2メタデータ抽出部は、前記第1メタデータ抽出部においてコンテンツデータに含まれる異なる種類の第1データおよび第2データをもとに抽出された複数種類のメタデータから、複数種類の第2レベルのメタデータを抽出し、
前記第3メタデータ抽出部は、前記第2メタデータ抽出部において抽出された複数種類の第2レベルのメタデータから、第3レベルのメタデータを抽出することを特徴とする請求項2に記載のメタデータ生成装置。 The first metadata extraction unit extracts a plurality of types of first-level metadata from first data included in content data and second data having different types from the first data,
The second metadata extraction unit includes a plurality of types of first data from a plurality of types of metadata extracted based on different types of first data and second data included in the content data in the first metadata extraction unit. Extract two levels of metadata,
3. The third metadata extraction unit according to claim 2, wherein the third metadata extraction unit extracts third level metadata from a plurality of types of second level metadata extracted by the second metadata extraction unit. Metadata generation device.
第1レベルのメタデータから、第2レベルのメタデータを抽出するステップとを備えて、コンテンツに関連するメタデータを階層的に生成するメタデータ生成方法であって、
第1レベルのメタデータを抽出するステップは、コンテンツデータに含まれる1種類のデータから、複数種類の第1レベルのメタデータを抽出し、
第2レベルのメタデータを抽出するステップは、複数種類の第1レベルのメタデータから、1種類の第2レベルのメタデータを抽出する
ことを特徴とするメタデータ生成方法。 Extracting first level metadata from content data;
A metadata generation method for hierarchically generating metadata related to content, comprising: extracting second level metadata from first level metadata;
The step of extracting the first level metadata extracts a plurality of types of first level metadata from one type of data included in the content data,
The step of extracting the second level metadata includes extracting one type of second level metadata from a plurality of types of first level metadata.
コンテンツデータに含まれる1種類のデータから、複数種類の第1レベルのメタデータを抽出する機能と、
複数種類の第1レベルのメタデータから、1種類の第2レベルのメタデータを抽出する機能と、を実現させて、コンテンツに関連するメタデータを階層的に生成させることを特徴とするプログラム。 On the computer,
A function of extracting a plurality of types of first level metadata from one type of data included in the content data;
A program that realizes a function of extracting one type of second level metadata from a plurality of types of first level metadata, and hierarchically generates metadata related to the content.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007028864A JP2008192102A (en) | 2007-02-08 | 2007-02-08 | Metadata generation device and metadata generation method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007028864A JP2008192102A (en) | 2007-02-08 | 2007-02-08 | Metadata generation device and metadata generation method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008192102A true JP2008192102A (en) | 2008-08-21 |
Family
ID=39752119
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007028864A Pending JP2008192102A (en) | 2007-02-08 | 2007-02-08 | Metadata generation device and metadata generation method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008192102A (en) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012194653A (en) * | 2011-03-15 | 2012-10-11 | Nec Corp | Data processing device, data processing system, data processing method, and program |
WO2014102992A1 (en) * | 2012-12-28 | 2014-07-03 | 株式会社日立製作所 | Data processing system and data processing method |
CN111488364A (en) * | 2019-01-29 | 2020-08-04 | 顺丰科技有限公司 | Data processing method, device, equipment and computer readable storage medium |
JP2020537198A (en) * | 2017-10-03 | 2020-12-17 | グーグル エルエルシー | Identify music as a particular song |
JP2021533446A (en) * | 2018-07-31 | 2021-12-02 | マーベル ワールド トレード リミテッド | Systems and methods for generating metadata that describes unstructured data objects at the storage edge |
-
2007
- 2007-02-08 JP JP2007028864A patent/JP2008192102A/en active Pending
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012194653A (en) * | 2011-03-15 | 2012-10-11 | Nec Corp | Data processing device, data processing system, data processing method, and program |
WO2014102992A1 (en) * | 2012-12-28 | 2014-07-03 | 株式会社日立製作所 | Data processing system and data processing method |
JP5903171B2 (en) * | 2012-12-28 | 2016-04-13 | 株式会社日立製作所 | Data processing system and data processing method |
JPWO2014102992A1 (en) * | 2012-12-28 | 2017-01-12 | 株式会社日立製作所 | Data processing system and data processing method |
JP2020537198A (en) * | 2017-10-03 | 2020-12-17 | グーグル エルエルシー | Identify music as a particular song |
US11256472B2 (en) | 2017-10-03 | 2022-02-22 | Google Llc | Determining that audio includes music and then identifying the music as a particular song |
JP7143327B2 (en) | 2017-10-03 | 2022-09-28 | グーグル エルエルシー | Methods, Computer Systems, Computing Systems, and Programs Implemented by Computing Devices |
JP2021533446A (en) * | 2018-07-31 | 2021-12-02 | マーベル ワールド トレード リミテッド | Systems and methods for generating metadata that describes unstructured data objects at the storage edge |
US11727064B2 (en) | 2018-07-31 | 2023-08-15 | Marvell Asia Pte Ltd | Performing computations during idle periods at the storage edge |
US11734363B2 (en) | 2018-07-31 | 2023-08-22 | Marvell Asia Pte, Ltd. | Storage edge controller with a metadata computational engine |
US11748418B2 (en) | 2018-07-31 | 2023-09-05 | Marvell Asia Pte, Ltd. | Storage aggregator controller with metadata computation control |
CN111488364A (en) * | 2019-01-29 | 2020-08-04 | 顺丰科技有限公司 | Data processing method, device, equipment and computer readable storage medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI716413B (en) | Method of fading between a first audio section and a second destination audio section, a computer program product, and an audio system | |
US7890520B2 (en) | Processing apparatus and associated methodology for content table generation and transfer | |
Burgoyne et al. | Music information retrieval | |
CN101256811B (en) | Apparatus and method for producing play list | |
JP4871592B2 (en) | Method and system for marking audio signals with metadata | |
Porter et al. | Dunya: A system for browsing audio music collections exploiting cultural context | |
US20160196812A1 (en) | Music information retrieval | |
US11074897B2 (en) | Method and apparatus for training adaptation quality evaluation model, and method and apparatus for evaluating adaptation quality | |
US20200228596A1 (en) | Streaming music categorization using rhythm, texture and pitch | |
JP2011165131A (en) | Information processor, method, and program | |
JP2008192102A (en) | Metadata generation device and metadata generation method | |
Roma et al. | Querying freesound with a microphone | |
JP4848874B2 (en) | Information processing apparatus, playback apparatus, communication method, playback method, and computer program | |
Srinivasamurthy et al. | Saraga: Open datasets for research on indian art music | |
JP2012088402A (en) | Information processor, information processing method, and program | |
Beveridge et al. | Popular music and the role of vocal melody in perceived emotion | |
Jang et al. | Super MBox: an efficient/effective content-based music retrieval system | |
WO2011118037A1 (en) | Category generating program, category generating device, and category generating method | |
Cortès et al. | BAF: an audio fingerprinting dataset for broadcast monitoring | |
Doudpota et al. | Mining movies for song sequences with video based music genre identification system | |
Waters et al. | Music metadata in a new key: Metadata and annotation for music in a digital world | |
Poojary et al. | Automatic Tonic Identification in Indian Art Music | |
KR100740490B1 (en) | Method of playing multimedia file and multimedia player using the method | |
Sordo et al. | A musically aware system for browsing and interacting with audio music collections | |
Della Ventura | Analytical techniques for the identification of a musical score: The musical dna |