JP2008192102A - Metadata generation device and metadata generation method - Google Patents

Metadata generation device and metadata generation method Download PDF

Info

Publication number
JP2008192102A
JP2008192102A JP2007028864A JP2007028864A JP2008192102A JP 2008192102 A JP2008192102 A JP 2008192102A JP 2007028864 A JP2007028864 A JP 2007028864A JP 2007028864 A JP2007028864 A JP 2007028864A JP 2008192102 A JP2008192102 A JP 2008192102A
Authority
JP
Japan
Prior art keywords
metadata
level
data
extraction unit
music
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007028864A
Other languages
Japanese (ja)
Inventor
Makoto Akaha
誠 赤羽
Satoru Sasa
哲 佐々
Hirotoshi Maekawa
博俊 前川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Interactive Entertainment Inc
Original Assignee
Sony Computer Entertainment Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Computer Entertainment Inc filed Critical Sony Computer Entertainment Inc
Priority to JP2007028864A priority Critical patent/JP2008192102A/en
Publication of JP2008192102A publication Critical patent/JP2008192102A/en
Pending legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide a technology for effectively generating metadata. <P>SOLUTION: In this metadata generation device, a low-level metadata extraction part 120 extracts low-level metadata from content data, and a medium-level metadata extraction part 140 extracts medium-level metadata from the low-level metadata. A beat feature amount analysis part 122 and a time-interval analysis part 124 extract low-level metadata respectively from the same music data 112a. A beat information extraction part 142 and a medium-level music feature amount extraction part 144 extract medium-level metadata respectively from the low-level metadata extracted by the beat feature amount analysis part 122 and the time-interval analysis part 124. <P>COPYRIGHT: (C)2008,JPO&INPIT

Description

本発明は、コンテンツのメタデータを生成する技術に関する。   The present invention relates to a technique for generating content metadata.

メタデータとはコンテンツの関連情報であり、コンテンツの作成日時や作成者、データ形式、タイトルなどのコンテンツ付随情報を示すことが多い。たとえばMP3(MPEG1 Aidio Layer-3)ファイルには、ID3タグと呼ばれる規格により、曲名やアーティスト名などをテキストデータとして記述した書誌情報が埋め込まれている。最近、ID3タグによる記入サイズが拡張されて、記入できる項目が増加し、画像データを含めることも可能となっている。   Metadata is content-related information, and often indicates content-related information such as the date and time of creation, creator, data format, and title. For example, in an MP3 (MPEG1 Aidio Layer-3) file, bibliographic information in which a song title, artist name, etc. are written as text data is embedded according to a standard called ID3 tag. Recently, the entry size by the ID3 tag has been expanded, the number of items that can be entered has increased, and image data can also be included.

また近年では、音楽データを解析して、音楽の特徴量を解析して抽出しようとする試みがなされている。音楽の特徴量であるリズムなどをメタデータとして抽出することで、音楽をジャンル分けするような処理も可能になる。このように1つのコンテンツから、様々な種類のメタデータを抽出することが可能であり、メタデータの種類が増えることで、メタデータを利用した様々なアプリケーションの実現が可能となる。   In recent years, attempts have been made to analyze music data and analyze and extract music features. By extracting rhythms or the like that are characteristic features of music as metadata, it is possible to perform processing such as categorizing music. As described above, various types of metadata can be extracted from one content, and by increasing the number of types of metadata, various applications using the metadata can be realized.

メタデータをアプリケーションに応用するためには、メタデータの抽出精度を高めることが好ましい。たとえば、MP3ファイルからは、音楽の特徴量から導出されるメタデータと、またID3タグに記述されたメタデータとを抽出することができるが、これらのメタデータはそれぞれ独立に存在しているのであって、それらを統合して処理する試みはなされていない。本発明者は、独立して存在しているコンテンツデータやメタデータを、互いに関連づけて処理することにより、メタデータを効果的に生成できる技術を開発するに至った。   In order to apply metadata to an application, it is preferable to increase the accuracy of metadata extraction. For example, from MP3 files, metadata derived from music features and metadata described in ID3 tags can be extracted, but these metadata exist independently. There have been no attempts to integrate and process them. The present inventor has developed a technique that can effectively generate metadata by processing content data and metadata that exist independently in association with each other.

上記課題を解決するために、本発明のある態様のメタデータ生成装置は、コンテンツデータから第1レベルのメタデータを抽出する第1メタデータ抽出部と、第1レベルのメタデータから、第2レベルのメタデータを抽出する第2メタデータ抽出部とを備えて、コンテンツに関連するメタデータを階層的に生成する。このメタデータ生成装置において、前記第1メタデータ抽出部は、コンテンツデータに含まれる第1データから、複数種類の第1レベルのメタデータを抽出し、前記第2メタデータ抽出部は、複数種類の第1レベルのメタデータから、第2レベルのメタデータを抽出する。   In order to solve the above-described problem, a metadata generation apparatus according to an aspect of the present invention includes a first metadata extraction unit that extracts first-level metadata from content data, and a second metadata from the first-level metadata. A second metadata extraction unit for extracting level metadata, and hierarchically generating metadata related to the content. In the metadata generation apparatus, the first metadata extraction unit extracts a plurality of types of first level metadata from the first data included in the content data, and the second metadata extraction unit includes a plurality of types. The second level metadata is extracted from the first level metadata.

本発明の別の態様のメタデータ生成方法は、コンテンツデータから第1レベルのメタデータを抽出するステップと、第1レベルのメタデータから、第2レベルのメタデータを抽出するステップとを備えて、コンテンツに関連するメタデータを階層的に生成するメタデータ生成方法に関する。この方法において、第1レベルのメタデータを抽出するステップは、コンテンツデータに含まれる1種類のデータから、複数種類の第1レベルのメタデータを抽出し、第2レベルのメタデータを抽出するステップは、複数種類の第1レベルのメタデータから、1種類の第2レベルのメタデータを抽出する。   A metadata generation method according to another aspect of the present invention includes a step of extracting first level metadata from content data, and a step of extracting second level metadata from the first level metadata. The present invention relates to a metadata generation method for hierarchically generating metadata related to content. In this method, the step of extracting the first level metadata includes a step of extracting a plurality of types of first level metadata and extracting a second level metadata from one type of data included in the content data. Extracts one type of second level metadata from a plurality of types of first level metadata.

なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システム、記録媒体、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。   It should be noted that any combination of the above-described constituent elements and a conversion of the expression of the present invention between a method, an apparatus, a system, a recording medium, a computer program, etc. are also effective as an aspect of the present invention.

本発明によると、メタデータを効果的に生成する技術を提供することができる。   According to the present invention, it is possible to provide a technique for effectively generating metadata.

図1は、本発明の実施例にかかる情報処理システムの使用環境を示す。情報処理システム1は、アプリケーションを実行する情報処理装置10と、情報処理装置10における処理結果を出力する表示機器12とを備える。表示機器12は、画像を出力するディスプレイ部を有して構成され、さらに音声を出力する音声出力部を有するテレビであってよい。表示機器12は、情報処理装置10に有線ケーブルで接続されてよく、また無線LAN(Local Area Network)などにより無線接続されてもよい。情報処理システム1において、情報処理装置10は、ケーブル14を介してインターネットなどの外部ネットワークに接続する。なお、無線通信により外部ネットワークへの接続が行われてもよい。情報処理装置10は、ゲームデータが記録されたメディアを装着されて、そのゲームデータを実行し、ゲームアプリケーションの処理結果を示す画像信号および音声信号を生成するゲーム装置であってよい。   FIG. 1 shows a use environment of an information processing system according to an embodiment of the present invention. The information processing system 1 includes an information processing apparatus 10 that executes an application and a display device 12 that outputs a processing result in the information processing apparatus 10. The display device 12 may be a television set that includes a display unit that outputs an image and further includes an audio output unit that outputs audio. The display device 12 may be connected to the information processing apparatus 10 by a wired cable, or may be wirelessly connected by a wireless local area network (LAN) or the like. In the information processing system 1, the information processing apparatus 10 is connected to an external network such as the Internet via a cable 14. Connection to an external network may be performed by wireless communication. The information processing apparatus 10 may be a game apparatus that is loaded with a medium on which game data is recorded, executes the game data, and generates an image signal and an audio signal indicating the processing result of the game application.

本実施例において情報処理装置10は、外部ネットワークに接続するコンテンツ提供サーバから、音楽ファイルや映像ファイルなどのコンテンツデータを受信して、再生する機能を有する。コンテンツデータは、ファイル形式のデータであってもよく、またストリーミング形式のデータであってもよい。コンテンツデータとして、たとえば評論家による音楽アルバムの評論ファイルなどが含まれてもよい。なおコンテンツデータは、ネットワーク経由ではなく、光ディスクや光磁気ディスク、ブルーレイディスクなどの記録メディアから供給されてもよい。情報処理装置10は、取得したコンテンツデータから、コンテンツに関連するメタデータを階層的に生成するメタデータ生成装置として機能する。情報処理装置10は、従来にない新しいメタデータを抽出する機能ももつ。情報処理装置10は、コンテンツデータを大容量の補助記憶装置に一旦記憶し、このコンテンツデータからメタデータを生成すると、コンテンツデータとは別にメタデータファイルを補助記憶装置に記憶する。生成されたメタデータは、コンテンツデータの検索などに利用される。   In the present embodiment, the information processing apparatus 10 has a function of receiving and reproducing content data such as a music file and a video file from a content providing server connected to an external network. The content data may be file format data or streaming format data. As content data, for example, a review file of a music album by a critic may be included. The content data may be supplied from a recording medium such as an optical disc, a magneto-optical disc, or a Blu-ray disc instead of via a network. The information processing apparatus 10 functions as a metadata generation apparatus that hierarchically generates metadata related to content from the acquired content data. The information processing apparatus 10 also has a function of extracting new metadata that has not existed before. When the information processing apparatus 10 temporarily stores content data in a large-capacity auxiliary storage device and generates metadata from the content data, the information processing apparatus 10 stores a metadata file in the auxiliary storage device separately from the content data. The generated metadata is used for searching content data.

図2は、本発明の実施例にかかるコンテンツ配信システムを示す。コンテンツ配信システム2では、インターネットなどのネットワーク16を介して、ユーザ端末である情報処理装置10と、コンテンツ提供者が保有する端末であるコンテンツ提供サーバ18a、18b、18c(以後、総称して「コンテンツ提供サーバ18」とよぶ)とが通信可能に接続される。コンテンツ提供者は、コンテンツデータをコンテンツ提供サーバ18に保存して、情報処理装置10が、コンテンツデータをコンテンツ提供サーバ18からダウンロードできるようにする。   FIG. 2 shows a content distribution system according to an embodiment of the present invention. In the content distribution system 2, the information processing apparatus 10 that is a user terminal and the content providing servers 18 a, 18 b, and 18 c that are terminals owned by the content provider (hereinafter collectively “content”) via the network 16 such as the Internet. And a providing server 18 ”) that are communicably connected. The content provider stores the content data in the content providing server 18 so that the information processing apparatus 10 can download the content data from the content providing server 18.

情報処理装置10は、ユーザから操作されることにより、所望のコンテンツデータを保持するコンテンツ提供サーバ18にアクセスし、そのコンテンツデータをダウンロードする。コンテンツ提供サーバ18は、たとえば複数曲が入った音楽アルバムのデジタルコンテンツを保持しており、ユーザは、料金を支払うことで、所望のアルバムファイルを取得できる。情報処理装置10は、コンテンツ提供サーバ18からダウンロードしたコンテンツデータを、補助記憶装置の所定の領域に格納する。   When operated by the user, the information processing apparatus 10 accesses the content providing server 18 that holds desired content data, and downloads the content data. The content providing server 18 holds, for example, digital contents of a music album containing a plurality of songs, and the user can acquire a desired album file by paying a fee. The information processing apparatus 10 stores the content data downloaded from the content providing server 18 in a predetermined area of the auxiliary storage device.

図3は、情報処理装置10の機能ブロック図を示す。情報処理装置10は、電源ボタン20、LED22、システムコントローラ24、デバイスコントローラ30、メディアドライブ32、ハードディスクドライブ34、スイッチ36、無線インタフェース38、メインコントローラ100、メインメモリ102および出力処理部200を有して構成される。   FIG. 3 shows a functional block diagram of the information processing apparatus 10. The information processing apparatus 10 includes a power button 20, an LED 22, a system controller 24, a device controller 30, a media drive 32, a hard disk drive 34, a switch 36, a wireless interface 38, a main controller 100, a main memory 102, and an output processing unit 200. Configured.

電源ボタン20は、ユーザからの操作入力が行われる入力部であって、情報処理装置10への電源供給をオンまたはオフするために操作される。電源ボタン20は押下ボタンであってよく、押下されることで電源のオンまたはオフが制御されてもよい。なお電源ボタン20は、タッチセンサなど、ユーザが電源のオンオフを行える他の構造をとってもよい。LED22は、電源のオンまたはオフの状態を点灯表示する。システムコントローラ24は、電源ボタン20の押下状態または非押下状態を検出し、電源オフの状態から押下状態への状態遷移を検出すると、メインコントローラ100を起動し、またLED22を点灯制御する。情報処理装置10に電源ケーブルが差し込まれている場合、システムコントローラ24は、電源オフの状態であってもスタンバイモードを維持して、電源ボタン20の押下を監視する。   The power button 20 is an input unit where an operation input from a user is performed, and is operated to turn on or off the power supply to the information processing apparatus 10. The power button 20 may be a push button, and the power on or off may be controlled by being pressed. The power button 20 may have another structure such as a touch sensor that allows the user to turn on / off the power. The LED 22 illuminates and displays the power on / off state. The system controller 24 detects whether the power button 20 is pressed or not, and when detecting a state transition from the power-off state to the pressed state, activates the main controller 100 and controls the lighting of the LED 22. When the power cable is inserted into the information processing apparatus 10, the system controller 24 maintains the standby mode even when the power is off, and monitors the pressing of the power button 20.

デバイスコントローラ30は、サウスブリッジのようにデバイス間の情報の受け渡しを実行するLSI(Large-Scale Integrated Circuit)として構成される。図示のように、デバイスコントローラ30には、システムコントローラ24、メディアドライブ32、ハードディスクドライブ34、スイッチ36およびメインコントローラ100などのデバイスが接続される。デバイスコントローラ30は、それぞれのデバイスの電気特性の違いやデータ転送速度の差を吸収し、データ転送のタイミングを制御する。   The device controller 30 is configured as an LSI (Large-Scale Integrated Circuit) that exchanges information between devices like a south bridge. As illustrated, devices such as a system controller 24, a media drive 32, a hard disk drive 34, a switch 36, and the main controller 100 are connected to the device controller 30. The device controller 30 absorbs the difference in electrical characteristics of each device and the difference in data transfer speed, and controls the timing of data transfer.

メディアドライブ32は、アプリケーションデータを記録したメディア50を装着して駆動し、メディア50からアプリケーションデータを読み出すドライブ装置である。メディア50は、光ディスクや光磁気ディスク、ブルーレイディスクなどの読出専用の記録メディアであってよい。   The media drive 32 is a drive device that loads and drives a medium 50 that records application data, and reads application data from the medium 50. The medium 50 may be a read-only recording medium such as an optical disc, a magneto-optical disc, or a Blu-ray disc.

ハードディスクドライブ34は、内蔵ハードディスクを駆動し、磁気ヘッドを用いてデータの書込/読出を行う補助記憶装置である。コンテンツ提供サーバ18からダウンロードされるコンテンツデータおよびメディア50から供給されるコンテンツデータは、ハードディスクドライブ34に格納される。スイッチ36は、イーサネットスイッチ(イーサネットは登録商標)であって、外部の機器と有線または無線で接続して、情報の送受信を行うデバイスである。本実施例では、スイッチ36にケーブル14が差し込まれ、ネットワーク16に通信可能に接続している。さらにスイッチ36は無線インタフェース38に接続し、無線インタフェース38は、Bluetooth(登録商標)プロトコルやIEEE802.11プロトコルなどの通信プロトコルで無線通信機能をもつ無線コントローラ40と接続する。無線コントローラ40は、ユーザからの操作入力が行われる入力部として機能する。   The hard disk drive 34 is an auxiliary storage device that drives a built-in hard disk and writes / reads data using a magnetic head. Content data downloaded from the content providing server 18 and content data supplied from the medium 50 are stored in the hard disk drive 34. The switch 36 is an Ethernet switch (Ethernet is a registered trademark), and is a device that transmits and receives information by connecting to an external device in a wired or wireless manner. In the present embodiment, the cable 14 is inserted into the switch 36 and is communicably connected to the network 16. Further, the switch 36 is connected to a wireless interface 38, and the wireless interface 38 is connected to a wireless controller 40 having a wireless communication function using a communication protocol such as Bluetooth (registered trademark) protocol or IEEE802.11 protocol. The wireless controller 40 functions as an input unit where operation input from the user is performed.

メインコントローラ100は、マルチコアCPUを備え、1つのCPUの中に1つの汎用的なプロセッサコアと、複数のシンプルなプロセッサコアを有する。汎用プロセッサコアをPPU(Power Processing Unit)と呼び、残りのプロセッサコアをSPU(Synergistic-Processing Unit)と呼ぶ。   The main controller 100 includes a multi-core CPU, and includes one general-purpose processor core and a plurality of simple processor cores in one CPU. The general-purpose processor core is called a PPU (Power Processing Unit), and the remaining processor cores are called a SPU (Synergistic-Processing Unit).

メインコントローラ100は、主記憶装置であるメインメモリ102に接続するメモリコントローラを備える。PPUはレジスタを有し、演算実行主体としてメインプロセッサを備えて、各アプリケーションにおける基本処理単位としてのタスクを各SPUに効率的に割り当てる。なお、PPU自身がタスクを実行してもよい。SPUはレジスタを有し、演算実行主体としてのサブプロセッサとローカルな記憶領域としてのローカルメモリ(専用RAM)を備える。SPUは制御ユニットとして専用のDMA(Direct Memory Access)コントローラをもち、メインメモリ102とローカルメモリの間のデータ転送を行うことで、データを高速にストリーム処理でき、また出力処理部200に内蔵されるフレームメモリとローカルメモリの間で高速なデータ転送を実現できる。   The main controller 100 includes a memory controller connected to a main memory 102 that is a main storage device. The PPU has a register, has a main processor as an operation execution subject, and efficiently assigns a task as a basic processing unit in each application to each SPU. Note that the PPU itself may execute the task. The SPU has a register, and includes a sub-processor as an operation execution subject and a local memory (dedicated RAM) as a local storage area. The SPU has a dedicated DMA (Direct Memory Access) controller as a control unit, and can transfer data at high speed by transferring data between the main memory 102 and the local memory, and is built in the output processing unit 200. High-speed data transfer can be realized between the frame memory and the local memory.

出力処理部200は、表示機器12に接続されて、アプリケーションの処理結果である映像信号および音声信号を出力する。出力処理部200は、画像処理機能を実現するGPU(Graphics Processing Unit)を備える。GPUは、HDMI(High Definition Multimedia Interface)を採用し、アナログを介さずに、映像信号をデジタル出力できる。   The output processing unit 200 is connected to the display device 12 and outputs a video signal and an audio signal that are processing results of the application. The output processing unit 200 includes a GPU (Graphics Processing Unit) that realizes an image processing function. The GPU employs HDMI (High Definition Multimedia Interface) and can digitally output a video signal without using analog.

図4は、メタデータ生成処理を実行するメインコントローラ100の内部構成を示す。メインコントローラ100は、低レベルメタデータ抽出部120、中レベルメタデータ抽出部140および高レベルメタデータ抽出部160を備える。図4において、さまざまな処理を行う機能ブロックとして記載される各要素は、ハードウェア的には、CPU(Central Processing Unit)、メモリ、その他のLSIで構成することができ、ソフトウェア的には、メモリにロードされたプログラムなどによって実現される。既述したように、メインコントローラ100には1つのPPUと複数のSPUとが設けられており、PPUおよびSPUがそれぞれ単独または協同して、各機能ブロックを構成できる。したがって、これらの機能ブロックがハードウェアのみ、ソフトウェアのみ、またはそれらの組合せによっていろいろな形で実現できることは当業者には理解されるところであり、いずれかに限定されるものではない。   FIG. 4 shows an internal configuration of the main controller 100 that executes the metadata generation process. The main controller 100 includes a low level metadata extraction unit 120, a medium level metadata extraction unit 140, and a high level metadata extraction unit 160. In FIG. 4, each element described as a functional block for performing various processes can be configured by a CPU (Central Processing Unit), a memory, and other LSIs in terms of hardware. This is realized by a program loaded on the computer. As described above, the main controller 100 is provided with one PPU and a plurality of SPUs, and each of the PPUs and SPUs can be configured individually or in cooperation with each other. Therefore, it is understood by those skilled in the art that these functional blocks can be realized in various forms by hardware only, software only, or a combination thereof, and is not limited to any one.

低レベルメタデータ抽出部120、中レベルメタデータ抽出部140および高レベルメタデータ抽出部160は、コンテンツデータ110a、110b(以下、総称する場合は「コンテンツデータ110」と呼ぶ)から階層的なメタデータを抽出する。低レベルメタデータ抽出部120は、コンテンツデータ110に含まれるデータを直接利用して、低レベル(1次レベル)のメタデータを抽出する。中レベルメタデータ抽出部140は、低レベルメタデータ抽出部120で抽出された低レベルメタデータを利用して、中レベル(2次レベル)のメタデータを抽出する。高レベルメタデータ抽出部160は、中レベルメタデータ抽出部140で抽出された中レベルメタデータを利用して、高レベル(3次レベル)のメタデータを抽出する。このように、メインコントローラ100は、段階的(階層的)にメタデータを生成し、コンテンツデータの検索などに有用なメタデータを高精度に生成する。本実施例におけるメタデータの階層化は、信号処理の観点からいえば、各階層におけるメタデータのレベルが揃うように、解析処理、認識処理、理解処理の順に実行される。なお、解析処理から認識処理までを1階層、すなわち1次レベルと設定してもよく、この場合は、メタデータが2階層で抽出されることになる。   The low-level metadata extraction unit 120, the medium-level metadata extraction unit 140, and the high-level metadata extraction unit 160 are hierarchical metadata from the content data 110a and 110b (hereinafter collectively referred to as “content data 110”). Extract data. The low-level metadata extraction unit 120 extracts low-level (primary level) metadata by directly using data included in the content data 110. The intermediate level metadata extraction unit 140 extracts intermediate level (secondary level) metadata using the low level metadata extracted by the low level metadata extraction unit 120. The high level metadata extraction unit 160 uses the medium level metadata extracted by the medium level metadata extraction unit 140 to extract high level (third level) metadata. As described above, the main controller 100 generates metadata step by step (hierarchical), and generates metadata useful for searching content data with high accuracy. From the viewpoint of signal processing, the hierarchization of metadata in this embodiment is executed in the order of analysis processing, recognition processing, and understanding processing so that the level of metadata in each layer is uniform. Note that the process from the analysis process to the recognition process may be set as one level, that is, the primary level. In this case, metadata is extracted in two levels.

まず低レベルメタデータ抽出部120は、解析処理を実行し、コンテンツデータを物理量として解析した低レベルのメタデータを抽出する。低レベルメタデータ抽出部120は、信号処理を実行して、複数のコンテンツデータ110a、110bから、低レベルメタデータを抽出してもよい。ここで、複数のコンテンツデータ110のうち、1つのコンテンツデータ110aが、メタデータの作成対象として存在し、他のコンテンツデータ110bなどが、コンテンツデータ110a用のメタデータを作成するための補助的なデータとして利用されてもよい。たとえば、コンテンツデータ110aが、音楽データを圧縮したMP3ファイルであり、一方、コンテンツデータ110bが、その音楽に対する評論のテキストファイルである場合、コンテンツデータ110bは、コンテンツデータ110aの音楽データに対するメタデータを作成するために利用されてもよい。なお、この場合に、コンテンツデータ110aが、コンテンツデータ110bのメタデータを作成するために利用されることも可能である。   First, the low-level metadata extraction unit 120 executes an analysis process, and extracts low-level metadata obtained by analyzing content data as a physical quantity. The low level metadata extraction unit 120 may extract low level metadata from the plurality of content data 110a and 110b by performing signal processing. Here, among the plurality of content data 110, one content data 110a exists as a creation target of metadata, and other content data 110b and the like are auxiliary for creating metadata for the content data 110a. It may be used as data. For example, when the content data 110a is an MP3 file obtained by compressing music data, and the content data 110b is a review text file for the music, the content data 110b includes metadata about the music data of the content data 110a. It may be used to create. In this case, the content data 110a can be used to create metadata of the content data 110b.

MP3ファイルは、圧縮された音楽データに加えて、ID3タグと呼ばれる規格により、曲名やアーティスト名などのテキストデータを含み、さらに、音楽アルバムのジャケット写真の画像データを含むこともある。本実施例の情報処理装置10において、低レベルメタデータ抽出部120は、MP3ファイルから、3種類のデータ、すなわち音楽データ、テキストデータおよび画像データを取得し、それぞれのデータから低レベルメタデータを抽出する。このとき低レベルメタデータ抽出部120は、MP3ファイルに含まれる1種類のデータから、複数種類の低レベルメタデータを抽出してもよい。たとえば低レベルメタデータ抽出部120は、圧縮された音楽データから、複数種類の低レベルメタデータを抽出してもよく、またテキストデータから、複数種類の低レベルメタデータを抽出してもよい。   In addition to compressed music data, the MP3 file includes text data such as a song name and an artist name according to a standard called an ID3 tag, and may further include image data of a jacket photo of a music album. In the information processing apparatus 10 according to the present embodiment, the low-level metadata extraction unit 120 acquires three types of data, that is, music data, text data, and image data, from the MP3 file, and obtains low-level metadata from each data. Extract. At this time, the low level metadata extraction unit 120 may extract a plurality of types of low level metadata from one type of data included in the MP3 file. For example, the low-level metadata extraction unit 120 may extract a plurality of types of low-level metadata from compressed music data, or may extract a plurality of types of low-level metadata from text data.

低レベルメタデータ抽出部120は、音楽データに対して高速フーリエ変換などの信号処理を施すことで、時間−音程解析を実行することができ、物理量としての音程解析結果を低レベルのメタデータとして抽出できる。また同様に音楽データのビート特徴量を解析することも可能であり、これにより音楽中の音の変化位置を解析できる。このビート特徴量も、低レベルのメタデータとして抽出される。また、低レベルメタデータ抽出部120は、テキストデータを形態素解析することで、低レベルのメタデータを抽出でき、さらに画像データを画像解析することで、低レベルのメタデータを抽出できる。   The low-level metadata extraction unit 120 can perform time-pitch analysis by performing signal processing such as fast Fourier transform on the music data, and the pitch analysis result as a physical quantity is converted into low-level metadata. Can be extracted. Similarly, it is possible to analyze the beat feature amount of the music data, thereby analyzing the change position of the sound in the music. This beat feature amount is also extracted as low-level metadata. The low-level metadata extraction unit 120 can extract low-level metadata by performing morphological analysis on text data, and can extract low-level metadata by performing image analysis on the image data.

次に、中レベルメタデータ抽出部140は、認識処理を実行し、低レベルのメタデータをユニークに変換することで、中レベルのメタデータを抽出する。たとえば、音程解析結果をある単位のセグメントごとに分割して認識処理することで、メインの楽器や声などの高さ、大きさなどの音楽特徴量が中レベルのメタデータとして抽出される。また、ビート特徴量から、より高精度なビート情報が中レベルのメタデータとして抽出される。解析処理において、1つの音楽データから、音程解析結果とビート特徴量とが低レベルメタデータとして抽出されている場合、これらを相互に利用して、より高精度な中レベルの音楽特徴量および/またはビート情報を抽出することも可能である。また、認識処理では、低レベルメタデータ抽出部120における形態素解析の結果から、キーワードや、文章中の構文を中レベルメタデータとして抽出することができ、また、中レベルメタデータ抽出部140における画像解析の結果から、画像中に含まれる人の数や、明るさ(雰囲気)などの画像特徴量を中レベルメタデータとして抽出することもできる。   Next, the intermediate level metadata extraction unit 140 executes a recognition process, and extracts the intermediate level metadata by uniquely converting the low level metadata. For example, by dividing the pitch analysis result into segments of a certain unit and performing recognition processing, music features such as the height and size of the main musical instrument and voice are extracted as medium level metadata. Further, more accurate beat information is extracted as intermediate level metadata from the beat feature amount. In the analysis process, when the pitch analysis result and the beat feature value are extracted as low-level metadata from one music data, they are mutually used to obtain a more accurate medium-level music feature value and / or Alternatively, beat information can be extracted. Further, in the recognition process, keywords and syntax in the text can be extracted as medium level metadata from the result of morphological analysis in the low level metadata extraction unit 120, and an image in the medium level metadata extraction unit 140 can be extracted. From the result of the analysis, the number of people included in the image and image feature quantities such as brightness (atmosphere) can be extracted as medium level metadata.

高レベルメタデータ抽出部160は、理解処理を実行し、中レベルのメタデータから、クラス化した高レベルのメタデータ、換言するとシンボリック化した高レベルのメタデータを抽出する。たとえば、音楽特徴量やビート情報などから、その音楽のジャンルや、楽器の有無などが高レベルのメタデータとして抽出される。また、抽出したキーワードや構文から、楽曲やキーワードの関係を高レベルメタデータとして抽出することができ、また、中レベルの画像特徴量から特定した人の顔などを高レベルメタデータとして抽出することができる。   The high-level metadata extraction unit 160 executes an understanding process, and extracts high-level metadata classified into classes, in other words, high-level metadata symbolized from medium-level metadata. For example, the genre of the music, the presence / absence of an instrument, and the like are extracted as high-level metadata from the music feature amount and beat information. Also, it is possible to extract the relationship between music and keywords as high-level metadata from the extracted keywords and syntax, and to extract human faces, etc., identified from medium-level image feature quantities as high-level metadata. Can do.

メインコントローラ100において、コンテンツデータ110a、110bに含まれる複数種類のデータから、複数種類の低レベルのメタデータが抽出され、また、これらから複数種類の中レベルのメタデータが生成される。高レベルメタデータ抽出部160は、異なる種類の中レベルのメタデータから、たとえば高レベルの音楽特徴量を抽出することも可能である。このように、音楽データ、テキストデータおよび/または画像データなど、異なる種類のデータを起原として生成された中レベルのメタデータを統合して処理し、1種類の高レベルのメタデータを抽出することで、高レベルメタデータの生成精度を高めることが可能となる。   In the main controller 100, a plurality of types of low-level metadata are extracted from a plurality of types of data included in the content data 110a and 110b, and a plurality of types of medium-level metadata are generated therefrom. The high-level metadata extraction unit 160 can also extract, for example, high-level music feature amounts from different types of medium-level metadata. As described above, medium-level metadata generated from different types of data such as music data, text data, and / or image data is integrated and processed to extract one type of high-level metadata. This makes it possible to increase the generation accuracy of high-level metadata.

図5は、図4に示すメインコントローラ100の詳細を示す。図5において、メインコントローラ100は、MP3ファイルであるコンテンツデータ110aおよび音楽評論のテキストデータであるコンテンツデータ110bから、階層的にメタデータを生成する。MP3ファイルは、圧縮された音楽データ112a、JPEG記録されたジャケット写真画像データ112b、およびテキストデータで記述された音楽書誌データ112cを含む。なお、ジャケット写真画像データ112bおよび/または音楽書誌データ112cについては、ネットワーク16上のコンテンツ提供サーバ18から、MP3ファイルとは別にダウンロードされたファイルであってもよい。   FIG. 5 shows details of the main controller 100 shown in FIG. In FIG. 5, the main controller 100 generates metadata hierarchically from content data 110 a that is an MP3 file and content data 110 b that is text data of music reviews. The MP3 file includes compressed music data 112a, JPEG-recorded jacket photo image data 112b, and music bibliographic data 112c described in text data. The jacket photo image data 112b and / or the music bibliographic data 112c may be a file downloaded from the content providing server 18 on the network 16 separately from the MP3 file.

低レベルメタデータ抽出部120は、ビート特徴量解析部122、時間−音程解析部124、画像解析部126、形態素解析部128および形態素解析部130を備え、コンテンツデータを物理量として解析した低レベルのメタデータを抽出する。ビート特徴量解析部122および時間−音程解析部124は、情報圧縮された音楽データ112aをデコードしてモノラル処理した音楽信号から、低レベルメタデータを抽出する。画像解析部126は、ジャケット写真画像データ112bから低レベルメタデータを抽出し、同様に、形態素解析部128および形態素解析部130は、それぞれ音楽書誌データ112cおよび音楽評論データ112dから低レベルメタデータを抽出する。低レベルメタデータ抽出部120において、ビート特徴量解析部122および時間−音程解析部124が、音楽データ112aから、それぞれメタデータを抽出する。これにより、コンテンツデータ110aに含まれる音楽データ112aから、複数のメタデータを抽出することになり、多面的な低レベルメタデータの取得を実現できるとともに、後段の中レベルおよび高レベルのメタデータの抽出精度を高めることができる。また、低レベルメタデータ抽出部120において、それぞれ種類の異なる音楽データ112a、ジャケット写真画像データ112b、音楽書誌データ112cおよび音楽評論データ112dから、複数の低レベルのメタデータを抽出することで、後段の中レベルおよび高レベルのメタデータの抽出精度を高めることもできる。   The low-level metadata extraction unit 120 includes a beat feature amount analysis unit 122, a time-pitch analysis unit 124, an image analysis unit 126, a morpheme analysis unit 128, and a morpheme analysis unit 130. Extract metadata. The beat feature amount analysis unit 122 and the time-pitch analysis unit 124 extract low-level metadata from a music signal obtained by decoding the monaural processed music data 112a. The image analysis unit 126 extracts low-level metadata from the jacket photo image data 112b. Similarly, the morpheme analysis unit 128 and the morpheme analysis unit 130 extract low-level metadata from the music bibliographic data 112c and the music review data 112d, respectively. Extract. In the low level metadata extraction unit 120, the beat feature amount analysis unit 122 and the time-pitch analysis unit 124 extract metadata from the music data 112a, respectively. As a result, a plurality of metadata is extracted from the music data 112a included in the content data 110a, and multifaceted low-level metadata can be obtained. Extraction accuracy can be increased. Further, the low level metadata extraction unit 120 extracts a plurality of low level metadata from the music data 112a, the jacket photo image data 112b, the music bibliographic data 112c, and the music review data 112d, which are different from each other. It is also possible to improve the accuracy of extracting medium and high level metadata.

ビート特徴量解析部122は、情報圧縮された音楽データ112aをデコードしてモノラル処理した音楽信号を、楽器特徴量に応じた帯域に音楽信号を分割する。次に、ビート信号に対応する帯域を選択して平滑化することにより、音のアタックタイムとリリースタイムの候補位置を求め、各帯域の自己相関関数から基本周期を求める。これにより、ビート特徴量解析部122は、ビート特徴量を抽出する。   The beat feature value analysis unit 122 divides the music signal obtained by decoding the monaural processed music data 112a into a band corresponding to the instrument feature value. Next, by selecting and smoothing the band corresponding to the beat signal, the sound attack time and release time candidate positions are obtained, and the fundamental period is obtained from the autocorrelation function of each band. Thereby, the beat feature amount analysis unit 122 extracts a beat feature amount.

時間−音程解析部124は、情報圧縮された音楽データ112aをデコードしてモノラル処理した音楽信号を、短時間のインターバルで周波数分析し、時間−周波数の特徴量を求める。この周波数分析には、たとえば高速フーリエ変換(FFT)器、またはバンドパスフィルタの集合体であるフィルタバンクが利用されてもよい。時間−音程解析部124は、44.1kHzのサンプリング周波数のデジタル信号を音程に対応した帯域で分割した後、1〜20msのインターバルで標本化して、時間−周波数(音程)特徴量を抽出する。   The time-pitch analysis unit 124 performs frequency analysis on a music signal obtained by decoding and monaurally processing the information-compressed music data 112a at a short time interval to obtain a time-frequency feature quantity. For this frequency analysis, for example, a Fast Fourier Transform (FFT) unit or a filter bank which is an aggregate of bandpass filters may be used. The time-pitch analysis unit 124 divides a digital signal having a sampling frequency of 44.1 kHz by a band corresponding to the pitch, samples the digital signal at intervals of 1 to 20 ms, and extracts a time-frequency (pitch) feature quantity.

画像解析部126は、ジャケット写真画像データ112bから、オブジェクトセグメンテーション処理を実行し、ジャケット写真中のオブジェクトの解析を行う。また画像解析部126は、色解析処理を行い、色相ヒストグラムを求めてもよい。従来、ジャケット写真画像データ112bの画像解析結果をメタデータとして利用するものはないが、本実施例の情報処理システム1では、これを新たに低レベルのメタデータとして取り扱うことで、メタデータの種類を増やすことができ、中レベル以降のメタデータ抽出処理における選択肢を広げることができる。   The image analysis unit 126 executes an object segmentation process from the jacket photo image data 112b, and analyzes an object in the jacket photo. The image analysis unit 126 may perform a color analysis process to obtain a hue histogram. Conventionally, there is nothing that uses the image analysis result of the jacket photo image data 112b as metadata. However, in the information processing system 1 of the present embodiment, this is newly handled as low-level metadata, so that the type of metadata And the choices in the metadata extraction processing at the intermediate level and later can be expanded.

形態素解析部128は、音楽書誌データ112cから、書誌データを抽出する。たとえば書誌データには、アルバムタイトル、アーティスト名、楽曲名、作詞者、作曲者、レーベル名、ジャンルなどが含まれてもよい。形態素解析部130は、音楽評論データ112dを形態素解析して、形態素を品詞に分類する。ここで音楽評論データ112dは、音楽評論家により、MP3ファイルに含まれる音楽アルバムを評論、批評したテキストデータであるものとする。なお音楽評論データ112dを処理する形態素解析部130は複数設けられてもよい。その場合、それぞれの形態素解析部は、解析結果を異ならせるように、異なる辞書などを利用して形態素解析を実行してもよい。これにより、様々な形態素解析を実行することができ、後段のキーワード抽出部150が、異なる解析結果をもとに、バリエーションに富んだキーワードを抽出することが可能となる。なお同様に、音楽書誌データ112cを処理する形態素解析部128が複数設けられてもよい。   The morphological analysis unit 128 extracts bibliographic data from the music bibliographic data 112c. For example, the bibliographic data may include an album title, artist name, song name, songwriter, composer, label name, genre, and the like. The morpheme analysis unit 130 performs morpheme analysis on the music review data 112d and classifies the morpheme into parts of speech. Here, it is assumed that the music review data 112d is text data in which a music reviewer reviews and criticizes a music album included in the MP3 file. A plurality of morpheme analyzers 130 that process the music review data 112d may be provided. In that case, each morpheme analysis unit may perform morpheme analysis using different dictionaries or the like so that the analysis results are different. Accordingly, various morphological analyzes can be performed, and the keyword extraction unit 150 in the subsequent stage can extract keywords rich in variations based on different analysis results. Similarly, a plurality of morphological analysis units 128 for processing the music bibliographic data 112c may be provided.

このように低レベルメタデータ抽出部120は、様々なコンテンツデータを物理量として解析した低レベルのメタデータを複数抽出することで、後段の中レベルメタデータ抽出部140および高レベルメタデータ抽出部160におけるメタデータ抽出処理の選択肢の幅を広げることができるとともに、低レベルメタデータの組合せをダイナミックに変更することも可能とする。   As described above, the low-level metadata extraction unit 120 extracts a plurality of low-level metadata obtained by analyzing various content data as physical quantities, so that the intermediate-level metadata extraction unit 140 and the high-level metadata extraction unit 160 in the subsequent stage are extracted. Can expand the range of metadata extraction processing options, and can also dynamically change the combination of low-level metadata.

中レベルメタデータ抽出部140は、ビート情報抽出部142、中レベル音楽特徴量抽出部144、画像特徴量抽出部146、キーワード抽出部148およびキーワード抽出部150を備え、低レベルメタデータをユニークに変換した中レベルのメタデータを生成する。ビート情報抽出部142は、音楽データ112aから抽出されたビート特徴量および時間−音程特徴量から、中レベルのメタデータを抽出する。中レベル音楽特徴量抽出部144も同様に、音楽データ112aから抽出されたビート特徴量および時間−音程特徴量から、中レベルのメタデータを抽出する。ビート情報抽出部142および中レベル音楽特徴量抽出部144は、1つの音楽データ112aから抽出された異なる種類の低レベルメタデータをもとに、それぞれ中レベルのメタデータを生成する。複数種類の低レベルメタデータを利用することで、生成する中レベルメタデータの正確度を高めることができる。画像特徴量抽出部146は、画像解析部126で解析された画像解析データから、中レベルのメタデータを抽出する。キーワード抽出部148は、形態素解析部128による形態素解析データから中レベルのメタデータを抽出する。同様にキーワード抽出部150は、形態素解析部130による形態素解析データから中レベルのメタデータを抽出する。   The intermediate level metadata extraction unit 140 includes a beat information extraction unit 142, an intermediate level music feature amount extraction unit 144, an image feature amount extraction unit 146, a keyword extraction unit 148, and a keyword extraction unit 150, and uniquely sets the low level metadata. Generate converted medium level metadata. The beat information extraction unit 142 extracts medium level metadata from the beat feature value and the time-pitch feature value extracted from the music data 112a. Similarly, the medium level music feature amount extraction unit 144 extracts medium level metadata from the beat feature amount and the time-pitch feature amount extracted from the music data 112a. The beat information extracting unit 142 and the medium level music feature amount extracting unit 144 generate medium level metadata based on different types of low level metadata extracted from one music data 112a. By using a plurality of types of low-level metadata, the accuracy of the generated intermediate-level metadata can be increased. The image feature amount extraction unit 146 extracts medium level metadata from the image analysis data analyzed by the image analysis unit 126. The keyword extraction unit 148 extracts medium level metadata from the morpheme analysis data by the morpheme analysis unit 128. Similarly, the keyword extraction unit 150 extracts medium level metadata from the morpheme analysis data obtained by the morpheme analysis unit 130.

ビート情報抽出部142は、ビート特徴量解析部122で抽出されたビート特徴量と、時間−音程解析部124で抽出された時間−音程特徴量から、音楽信号のビート位置を高精度に抽出する。ビート特徴量として音楽の基本周期が抽出され、また時間−音程特徴量として時間ごとの音程量が抽出されているため、ビート情報抽出部142は、抽出された基本周期を、時間ごとの音程量で補正等することで、正確なビート位置を抽出することができる。ビート情報抽出部142で抽出されたビート位置は、後段の高レベル音楽特徴量抽出部162に供給される。なお、抽出されたビート位置は、異なる音楽同士をつなげるリミックス処理に利用されてもよい。正確なビート位置を抽出することで、なめらかなリミックス処理を実現できる。   The beat information extraction unit 142 extracts the beat position of the music signal with high accuracy from the beat feature amount extracted by the beat feature amount analysis unit 122 and the time-pitch feature amount extracted by the time-pitch analysis unit 124. . Since the basic period of music is extracted as the beat feature amount, and the pitch amount for each time is extracted as the time-pitch feature amount, the beat information extraction unit 142 uses the extracted basic cycle as the pitch amount for each time. The correct beat position can be extracted by performing correction or the like. The beat position extracted by the beat information extraction unit 142 is supplied to the subsequent high-level music feature amount extraction unit 162. The extracted beat position may be used for remix processing for connecting different music. By extracting accurate beat positions, smooth remix processing can be realized.

中レベル音楽特徴量抽出部144は、ビート特徴量解析部122で抽出されたビート特徴量と、時間−音程解析部124で抽出された時間−音程特徴量から、音符情報や、小節ごとの音の強さやテンポ、楽曲構造などの中レベル音楽特徴量を抽出する。従来、これらの中レベル音楽特徴量は、時間−音程解析部124により抽出された時間−音楽特徴量のみから導出されていたが、中レベル音楽特徴量抽出部144は、ビート特徴量として抽出された音楽の基本周期をさらに利用することで、楽曲構造や、テンポなどの抽出精度を高めることが可能となる。   The medium level music feature amount extraction unit 144 uses the beat feature amount extracted by the beat feature amount analysis unit 122 and the time-pitch feature amount extracted by the time-pitch analysis unit 124 to obtain note information and sound for each measure. Medium-level music features such as music strength, tempo, and music structure. Conventionally, these intermediate level music feature values are derived only from the time-music feature value extracted by the time-pitch analysis unit 124, but the intermediate level music feature value extraction unit 144 is extracted as a beat feature value. By further utilizing the basic period of the music, it is possible to improve the extraction accuracy such as the music structure and tempo.

画像特徴量抽出部146は、画像解析部126で抽出された画像解析データから、オブジェクトの位置、大きさ、色相などの画像特徴量を抽出する。   The image feature amount extraction unit 146 extracts image feature amounts such as the position, size, and hue of the object from the image analysis data extracted by the image analysis unit 126.

キーワード抽出部148は、形態素解析部128で抽出された形態素解析データから、キーワードを抽出する。またキーワード抽出部150も、形態素解析部130で抽出された形態素解析データから、キーワードを抽出する。キーワード抽出部150は、たとえば音楽評論に一般に使用される用語をテーブルとして保持している。そのような用語は、「バラード」、「聴きやすい」、「落ち着く」などのキーワードであってもよく、キーワード抽出部150は、テーブルに含まれる用語を、形態素解析部130で抽出された形態素解析データから抽出する。   The keyword extraction unit 148 extracts keywords from the morpheme analysis data extracted by the morpheme analysis unit 128. The keyword extraction unit 150 also extracts keywords from the morpheme analysis data extracted by the morpheme analysis unit 130. The keyword extraction unit 150 holds, for example, terms commonly used in music reviews as a table. Such terms may be keywords such as “ballad”, “easy to hear”, “settled”, etc., and the keyword extraction unit 150 extracts the terms included in the table from the morphological analysis extracted by the morphological analysis unit 130. Extract from the data.

高レベルメタデータ抽出部160は、高レベル音楽特徴量抽出部162、顔抽出部164および評価抽出部166を備える。高レベルメタデータ抽出部160は、ビート情報抽出部142、中レベル音楽特徴量抽出部144、画像特徴量抽出部146およびキーワード抽出部148で抽出された中レベルメタデータから、高レベルのメタデータを抽出する。顔抽出部164は、画像特徴量抽出部146で抽出された中レベルメタデータから高レベルのメタデータを抽出する。評価抽出部166は、キーワード抽出部148およびキーワード抽出部150で抽出された中レベルメタデータから高レベルのメタデータを抽出する。   The high level metadata extraction unit 160 includes a high level music feature amount extraction unit 162, a face extraction unit 164, and an evaluation extraction unit 166. The high-level metadata extraction unit 160 uses the high-level metadata from the medium-level metadata extracted by the beat information extraction unit 142, the medium level music feature amount extraction unit 144, the image feature amount extraction unit 146, and the keyword extraction unit 148. To extract. The face extraction unit 164 extracts high-level metadata from the medium level metadata extracted by the image feature amount extraction unit 146. The evaluation extraction unit 166 extracts high-level metadata from the medium level metadata extracted by the keyword extraction unit 148 and the keyword extraction unit 150.

高レベルメタデータ抽出部160は、高レベルの音楽特徴量として、音楽のジャンル、楽器音、ムード、音質、速さ、音の良さなどの音楽全体に対する特徴量を高レベルメタデータとして抽出する。また、高レベル特徴量として、全体のエネルギに対するリズム楽器のエネルギの割合であったり、また単位時間あたりの音符数などを抽出することもできる。高レベルメタデータ抽出部160は、ビート情報抽出部142、中レベル音楽特徴量抽出部144、画像特徴量抽出部146およびキーワード抽出部148で抽出された中レベルメタデータを受け取ることで、高レベル音楽特徴量を高精度に抽出する。   The high-level metadata extraction unit 160 extracts, as high-level metadata, feature quantities for the entire music such as music genre, musical instrument sound, mood, sound quality, speed, and sound quality as high-level music feature quantities. Further, as the high level feature quantity, it is possible to extract the ratio of the energy of the rhythm instrument to the total energy, the number of notes per unit time, and the like. The high level metadata extraction unit 160 receives the medium level metadata extracted by the beat information extraction unit 142, the medium level music feature amount extraction unit 144, the image feature amount extraction unit 146, and the keyword extraction unit 148. Extract music features with high accuracy.

たとえば高レベル音楽特徴量抽出部162は、ビート情報抽出部142から供給される正確なビート情報および中レベル音楽特徴量抽出部144から供給される正確な中レベル音楽特徴量から、楽曲構造やテンポなどを高精度に把握でき、したがって、音楽の速さやムードなどを正確に推定し抽出することができる。また、高レベル音楽特徴量抽出部162は、これらの中レベルメタデータから、音楽のジャンルを推定して抽出することもできる。またジャンルについていえば、キーワード抽出部148から供給されるキーワードにジャンルが含まれており、推定したジャンルと、キーワードに含まれたジャンルとから、新たに正確なジャンルを決定してもよい。たとえば、キーワードとして「バラード」のジャンルが抽出されていた場合であっても、楽曲構造やテンポなどから、若干激しいロック調の音楽であることが推定された場合には、その音楽のジャンルをロックとして高レベル音楽特徴量を抽出してもよい。なお、この場合に、バラードとロックの間のジャンル、たとえばポップをジャンルとして抽出してもよい。このように、書誌データと、実際の音楽を解析、認識処理した結果を突き合わせることで、高精度なメタデータを抽出することが可能となる。また、画像特徴量抽出部146から供給される画像特徴量により、たとえばジャケット写真に明るい色が使用されている場合には、高レベル音楽特徴量抽出部162が、楽しい音楽であろうことを推測し、他の要素、たとえばテンポや使用される楽器などから、明るい曲調の音楽であるとして高レベル音楽特徴量を抽出してもよい。従来では、ジャケット写真の色調や、それに含まれるオブジェクトの特徴量などを、メタデータとして利用する試みはなされていなかった。一方、本実施例では、高レベル音楽特徴量抽出部162が、画像特徴量抽出部146から供給される画像特徴量も含めて高レベルのメタデータを生成することで、新しいメタデータを抽出できるだけでなく、メタデータの抽出精度を高めることが可能となる。   For example, the high-level music feature amount extraction unit 162 uses the accurate beat information supplied from the beat information extraction unit 142 and the accurate medium-level music feature amount supplied from the middle-level music feature amount extraction unit 144 to determine the music structure and tempo. Therefore, it is possible to accurately estimate and extract the speed and mood of music. The high-level music feature amount extraction unit 162 can also estimate and extract music genres from these medium-level metadata. As for the genre, a genre is included in the keyword supplied from the keyword extraction unit 148, and a new accurate genre may be determined from the estimated genre and the genre included in the keyword. For example, even if the genre of “ballad” is extracted as a keyword, if the music structure or tempo is estimated to be slightly intense rock music, the genre of the music is locked. A high-level music feature amount may be extracted. In this case, a genre between ballad and rock, for example, pop may be extracted as a genre. In this way, it is possible to extract highly accurate metadata by matching the bibliographic data with the result of analyzing and recognizing actual music. Further, according to the image feature amount supplied from the image feature amount extraction unit 146, for example, when a bright color is used for a jacket photo, the high-level music feature amount extraction unit 162 estimates that the music will be fun. However, the high-level music feature value may be extracted from other elements such as the tempo and the musical instrument used, assuming that the music has a bright tone. Conventionally, no attempt has been made to use the color tone of a jacket photo or the feature amount of an object included in the jacket photo as metadata. On the other hand, in this embodiment, the high-level music feature amount extraction unit 162 can extract new metadata by generating high-level metadata including the image feature amount supplied from the image feature amount extraction unit 146. In addition, it is possible to increase the accuracy of metadata extraction.

顔抽出部164は、画像特徴量から顔を抽出する。たとえば、この抽出結果は、たとえば顔認識処理などにより、抽出された顔が誰であるかを判別するアプリケーションで利用されてもよい。   The face extraction unit 164 extracts a face from the image feature amount. For example, the extraction result may be used in an application that determines who the extracted face is by, for example, face recognition processing.

評価抽出部166は、キーワード抽出部148およびキーワード抽出部150で抽出されたキーワードを関連づける。たとえば音楽評論データ112dに、同一アーティストによるアルバムリストなどが含まれている場合は、音楽書誌データ112cにおける書誌データとアルバムリストが紐付けられる処理が行われてもよい。   The evaluation extraction unit 166 associates the keywords extracted by the keyword extraction unit 148 and the keyword extraction unit 150. For example, when the music review data 112d includes an album list by the same artist, a process in which the bibliographic data and the album list in the music bibliographic data 112c are linked may be performed.

以上、本発明を実施例をもとに説明した。この実施例は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。   In the above, this invention was demonstrated based on the Example. This embodiment is an exemplification, and it will be understood by those skilled in the art that various modifications can be made to the combination of each component and each processing process, and such modifications are also within the scope of the present invention. .

実施例ではMP3の音楽ファイルのメタデータを生成する例について説明したが、コンテンツデータは、これに限らず、単なる音声ファイルであってもよく、また動画データであってもよく、さらにいえば、メタデータを作成する必要がある対象全てが含まれてもよい。   In the embodiment, the example of generating the metadata of the MP3 music file has been described. However, the content data is not limited to this, and may be a simple audio file or video data. All targets for which metadata needs to be created may be included.

実施例では、情報処理装置10がメタデータ生成装置として機能する例について説明したが、たとえばコンテンツ提供サーバ18が、メタデータ生成装置として機能してもよい。この場合、コンテンツ提供サーバ18は、コンテンツデータとともに、コンテンツデータから生成したメタデータを情報処理装置10に配信してもよい。   In the embodiment, the example in which the information processing apparatus 10 functions as a metadata generation apparatus has been described. However, for example, the content providing server 18 may function as a metadata generation apparatus. In this case, the content providing server 18 may distribute the metadata generated from the content data to the information processing apparatus 10 together with the content data.

本発明の実施例にかかる情報処理システムの使用環境を示す図である。It is a figure which shows the use environment of the information processing system concerning the Example of this invention. 本発明の実施例にかかるコンテンツ配信システムを示す図である。It is a figure which shows the content delivery system concerning the Example of this invention. 情報処理装置の機能ブロック図を示す図である。It is a figure which shows the functional block diagram of information processing apparatus. メタデータ生成処理を実行するメインコントローラの内部構成を示す図である。It is a figure which shows the internal structure of the main controller which performs a metadata production | generation process. 図4に示すメインコントローラの詳細を示す図である。It is a figure which shows the detail of the main controller shown in FIG.

符号の説明Explanation of symbols

1・・・情報処理システム、10・・・情報処理装置、12・・・表示機器、100・・・メインコントローラ、110・・・コンテンツデータ、112a・・・音楽データ、112b・・・ジャケット写真画像データ、112c・・・音楽書誌データ、112d・・・音楽評論データ、120・・・低レベルメタデータ抽出部、122・・・ビート特徴量解析部、124・・・時間−音程解析部、126・・・画像解析部、128・・・形態素解析部、130・・・形態素解析部、140・・・中レベルメタデータ抽出部、142・・・ビート情報抽出部、144・・・中レベル音楽特徴量抽出部、146・・・画像特徴量抽出部、148・・・キーワード抽出部、150・・・キーワード抽出部、160・・・高レベルメタデータ抽出部、162・・・高レベル音楽特徴量抽出部、164・・・顔抽出部、166・・・評価抽出部。 DESCRIPTION OF SYMBOLS 1 ... Information processing system, 10 ... Information processing apparatus, 12 ... Display apparatus, 100 ... Main controller, 110 ... Content data, 112a ... Music data, 112b ... Jacket picture Image data, 112c ... Music bibliographic data, 112d ... Music review data, 120 ... Low level metadata extraction unit, 122 ... Beat feature amount analysis unit, 124 ... Time-pitch analysis unit, 126 ... Image analysis unit, 128 ... Morphological analysis unit, 130 ... Morphological analysis unit, 140 ... Medium level metadata extraction unit, 142 ... Beat information extraction unit, 144 ... Medium level Music feature extraction unit, 146... Image feature extraction unit, 148... Keyword extraction unit, 150... Keyword extraction unit, 160. 162 ... high-level music characteristic quantity extracting section, 164 ... face extraction unit, 166 ··· evaluation extractor.

Claims (6)

コンテンツデータから第1レベルのメタデータを抽出する第1メタデータ抽出部と、
第1レベルのメタデータから、第2レベルのメタデータを抽出する第2メタデータ抽出部とを備えて、コンテンツに関連するメタデータを階層的に生成するメタデータ生成装置であって、
前記第1メタデータ抽出部は、コンテンツデータに含まれる第1データから、複数種類の第1レベルのメタデータを抽出し、
前記第2メタデータ抽出部は、複数種類の第1レベルのメタデータから、第2レベルのメタデータを抽出することを特徴とするメタデータ生成装置。
A first metadata extraction unit for extracting first level metadata from content data;
A metadata generation device that hierarchically generates metadata related to content, including a second metadata extraction unit that extracts second level metadata from first level metadata;
The first metadata extraction unit extracts a plurality of types of first level metadata from first data included in content data,
The second metadata extraction unit extracts second level metadata from a plurality of types of first level metadata.
第2レベルのメタデータから、第3レベルのメタデータを抽出する第3メタデータ抽出部をさらに備えることを特徴とする請求項1に記載のメタデータ生成装置。   The metadata generation apparatus according to claim 1, further comprising a third metadata extraction unit that extracts third level metadata from the second level metadata. 前記第1メタデータ抽出部は、コンテンツデータに含まれる第1データと、第1データとは種類の異なる第2データから、複数種類の第1レベルのメタデータを抽出し、
前記第2メタデータ抽出部は、前記第1メタデータ抽出部においてコンテンツデータに含まれる異なる種類の第1データおよび第2データをもとに抽出された複数種類のメタデータから、第2レベルのメタデータを抽出することを特徴とする請求項1に記載のメタデータ生成装置。
The first metadata extraction unit extracts a plurality of types of first-level metadata from first data included in content data and second data having different types from the first data,
The second metadata extraction unit is configured to extract a second level from a plurality of types of metadata extracted based on different types of first data and second data included in the content data in the first metadata extraction unit. The metadata generation apparatus according to claim 1, wherein metadata is extracted.
前記第1メタデータ抽出部は、コンテンツデータに含まれる第1データと、第1データとは種類の異なる第2データから、複数種類の第1レベルのメタデータを抽出し、
前記第2メタデータ抽出部は、前記第1メタデータ抽出部においてコンテンツデータに含まれる異なる種類の第1データおよび第2データをもとに抽出された複数種類のメタデータから、複数種類の第2レベルのメタデータを抽出し、
前記第3メタデータ抽出部は、前記第2メタデータ抽出部において抽出された複数種類の第2レベルのメタデータから、第3レベルのメタデータを抽出することを特徴とする請求項2に記載のメタデータ生成装置。
The first metadata extraction unit extracts a plurality of types of first-level metadata from first data included in content data and second data having different types from the first data,
The second metadata extraction unit includes a plurality of types of first data from a plurality of types of metadata extracted based on different types of first data and second data included in the content data in the first metadata extraction unit. Extract two levels of metadata,
3. The third metadata extraction unit according to claim 2, wherein the third metadata extraction unit extracts third level metadata from a plurality of types of second level metadata extracted by the second metadata extraction unit. Metadata generation device.
コンテンツデータから第1レベルのメタデータを抽出するステップと、
第1レベルのメタデータから、第2レベルのメタデータを抽出するステップとを備えて、コンテンツに関連するメタデータを階層的に生成するメタデータ生成方法であって、
第1レベルのメタデータを抽出するステップは、コンテンツデータに含まれる1種類のデータから、複数種類の第1レベルのメタデータを抽出し、
第2レベルのメタデータを抽出するステップは、複数種類の第1レベルのメタデータから、1種類の第2レベルのメタデータを抽出する
ことを特徴とするメタデータ生成方法。
Extracting first level metadata from content data;
A metadata generation method for hierarchically generating metadata related to content, comprising: extracting second level metadata from first level metadata;
The step of extracting the first level metadata extracts a plurality of types of first level metadata from one type of data included in the content data,
The step of extracting the second level metadata includes extracting one type of second level metadata from a plurality of types of first level metadata.
コンピュータに、
コンテンツデータに含まれる1種類のデータから、複数種類の第1レベルのメタデータを抽出する機能と、
複数種類の第1レベルのメタデータから、1種類の第2レベルのメタデータを抽出する機能と、を実現させて、コンテンツに関連するメタデータを階層的に生成させることを特徴とするプログラム。
On the computer,
A function of extracting a plurality of types of first level metadata from one type of data included in the content data;
A program that realizes a function of extracting one type of second level metadata from a plurality of types of first level metadata, and hierarchically generates metadata related to the content.
JP2007028864A 2007-02-08 2007-02-08 Metadata generation device and metadata generation method Pending JP2008192102A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007028864A JP2008192102A (en) 2007-02-08 2007-02-08 Metadata generation device and metadata generation method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007028864A JP2008192102A (en) 2007-02-08 2007-02-08 Metadata generation device and metadata generation method

Publications (1)

Publication Number Publication Date
JP2008192102A true JP2008192102A (en) 2008-08-21

Family

ID=39752119

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007028864A Pending JP2008192102A (en) 2007-02-08 2007-02-08 Metadata generation device and metadata generation method

Country Status (1)

Country Link
JP (1) JP2008192102A (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012194653A (en) * 2011-03-15 2012-10-11 Nec Corp Data processing device, data processing system, data processing method, and program
WO2014102992A1 (en) * 2012-12-28 2014-07-03 株式会社日立製作所 Data processing system and data processing method
CN111488364A (en) * 2019-01-29 2020-08-04 顺丰科技有限公司 Data processing method, device, equipment and computer readable storage medium
JP2020537198A (en) * 2017-10-03 2020-12-17 グーグル エルエルシー Identify music as a particular song
JP2021533446A (en) * 2018-07-31 2021-12-02 マーベル ワールド トレード リミテッド Systems and methods for generating metadata that describes unstructured data objects at the storage edge

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012194653A (en) * 2011-03-15 2012-10-11 Nec Corp Data processing device, data processing system, data processing method, and program
WO2014102992A1 (en) * 2012-12-28 2014-07-03 株式会社日立製作所 Data processing system and data processing method
JP5903171B2 (en) * 2012-12-28 2016-04-13 株式会社日立製作所 Data processing system and data processing method
JPWO2014102992A1 (en) * 2012-12-28 2017-01-12 株式会社日立製作所 Data processing system and data processing method
JP2020537198A (en) * 2017-10-03 2020-12-17 グーグル エルエルシー Identify music as a particular song
US11256472B2 (en) 2017-10-03 2022-02-22 Google Llc Determining that audio includes music and then identifying the music as a particular song
JP7143327B2 (en) 2017-10-03 2022-09-28 グーグル エルエルシー Methods, Computer Systems, Computing Systems, and Programs Implemented by Computing Devices
JP2021533446A (en) * 2018-07-31 2021-12-02 マーベル ワールド トレード リミテッド Systems and methods for generating metadata that describes unstructured data objects at the storage edge
US11727064B2 (en) 2018-07-31 2023-08-15 Marvell Asia Pte Ltd Performing computations during idle periods at the storage edge
US11734363B2 (en) 2018-07-31 2023-08-22 Marvell Asia Pte, Ltd. Storage edge controller with a metadata computational engine
US11748418B2 (en) 2018-07-31 2023-09-05 Marvell Asia Pte, Ltd. Storage aggregator controller with metadata computation control
CN111488364A (en) * 2019-01-29 2020-08-04 顺丰科技有限公司 Data processing method, device, equipment and computer readable storage medium

Similar Documents

Publication Publication Date Title
TWI716413B (en) Method of fading between a first audio section and a second destination audio section, a computer program product, and an audio system
US7890520B2 (en) Processing apparatus and associated methodology for content table generation and transfer
Burgoyne et al. Music information retrieval
CN101256811B (en) Apparatus and method for producing play list
JP4871592B2 (en) Method and system for marking audio signals with metadata
Porter et al. Dunya: A system for browsing audio music collections exploiting cultural context
US20160196812A1 (en) Music information retrieval
US11074897B2 (en) Method and apparatus for training adaptation quality evaluation model, and method and apparatus for evaluating adaptation quality
US20200228596A1 (en) Streaming music categorization using rhythm, texture and pitch
JP2011165131A (en) Information processor, method, and program
JP2008192102A (en) Metadata generation device and metadata generation method
Roma et al. Querying freesound with a microphone
JP4848874B2 (en) Information processing apparatus, playback apparatus, communication method, playback method, and computer program
Srinivasamurthy et al. Saraga: Open datasets for research on indian art music
JP2012088402A (en) Information processor, information processing method, and program
Beveridge et al. Popular music and the role of vocal melody in perceived emotion
Jang et al. Super MBox: an efficient/effective content-based music retrieval system
WO2011118037A1 (en) Category generating program, category generating device, and category generating method
Cortès et al. BAF: an audio fingerprinting dataset for broadcast monitoring
Doudpota et al. Mining movies for song sequences with video based music genre identification system
Waters et al. Music metadata in a new key: Metadata and annotation for music in a digital world
Poojary et al. Automatic Tonic Identification in Indian Art Music
KR100740490B1 (en) Method of playing multimedia file and multimedia player using the method
Sordo et al. A musically aware system for browsing and interacting with audio music collections
Della Ventura Analytical techniques for the identification of a musical score: The musical dna