JP5344715B2 - コンテンツ検索装置およびコンテンツ検索プログラム - Google Patents

コンテンツ検索装置およびコンテンツ検索プログラム Download PDF

Info

Publication number
JP5344715B2
JP5344715B2 JP2010536802A JP2010536802A JP5344715B2 JP 5344715 B2 JP5344715 B2 JP 5344715B2 JP 2010536802 A JP2010536802 A JP 2010536802A JP 2010536802 A JP2010536802 A JP 2010536802A JP 5344715 B2 JP5344715 B2 JP 5344715B2
Authority
JP
Japan
Prior art keywords
feature
content
data
user
feature quantity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010536802A
Other languages
English (en)
Other versions
JPWO2010053160A1 (ja
Inventor
美紀 長谷山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hokkaido University NUC
Original Assignee
Hokkaido University NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hokkaido University NUC filed Critical Hokkaido University NUC
Publication of JPWO2010053160A1 publication Critical patent/JPWO2010053160A1/ja
Application granted granted Critical
Publication of JP5344715B2 publication Critical patent/JP5344715B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/765Interface circuits between an apparatus for recording and another apparatus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/41Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/435Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/102Programmed access in sequence to addressed parts of tracks of operating record carriers
    • G11B27/105Programmed access in sequence to addressed parts of tracks of operating record carriers of operating discs
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/34Indicating arrangements 
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/266Channel or content management, e.g. generation and management of keys and entitlement messages in a conditional access system, merging a VOD unicast channel into a multicast channel
    • H04N21/26603Channel or content management, e.g. generation and management of keys and entitlement messages in a conditional access system, merging a VOD unicast channel into a multicast channel for automatically generating descriptors from content, e.g. when it is not made available by its provider, using content analysis techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/432Content retrieval operation from a local storage medium, e.g. hard-disk
    • H04N21/4325Content retrieval operation from a local storage medium, e.g. hard-disk by playing back content from the storage medium
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/482End-user interface for program selection
    • H04N21/4828End-user interface for program selection for searching program descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/82Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only
    • H04N9/8205Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only involving the multiplexing of an additional signal and the colour video signal
    • H04N9/8227Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only involving the multiplexing of an additional signal and the colour video signal the additional signal being at least another television signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/066Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for pitch analysis as part of wider processing for musical purposes, e.g. transcription, musical performance evaluation; Pitch recognition, e.g. in polyphonic sounds; Estimation or use of missing fundamental
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2220/00Input/output interfacing specifically adapted for electrophonic musical tools or instruments
    • G10H2220/005Non-interactive screen display of musical or status data
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/121Musical libraries, i.e. musical databases indexed by musical parameters, wavetables, indexing schemes using musical parameters, musical rule bases or knowledge bases, e.g. for automatic composing methods
    • G10H2240/131Library retrieval, i.e. searching a database or selecting a specific musical piece, segment, pattern, rule or parameter set
    • G10H2240/141Library retrieval matching, i.e. any of the steps of matching an inputted segment or phrase with musical database contents, e.g. query by humming, singing or playing; the steps may include, e.g. musical analysis of the input, musical feature extraction, query formulation, or details of the retrieval process
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/91Television signal processing therefor

Description

本発明は、類似するコンテンツデータを検索するコンテンツ検索装置およびコンテンツ検索プログラムに関する。
近年の情報通信ネットワークや記憶媒体の発達に伴い、ユーザは大量のコンテンツデータを取得することができるようになった。ユーザは、自身が作成したコンテンツデータを取得できるのみならず、配信サイトなどに接続してコンテンツデータを取得することができる。このコンテンツデータは、画像データ、動画データ、音楽データ等の各種のコンテンツデータが含まれる。画像データは、静止画等のデータである。動画データは、テレビ録画物、ビデオ録画物、映画やアニメーションなどのデータである。音楽データは、クラッシック音楽、歌謡曲、BGMなどのデータである。
これらコンテンツデータの数は膨大である。従ってユーザは、膨大な数のコンテンツデータから所望のコンテンツデータを検索するために、コンピュータにより実現される検索システムを利用することが一般的である。
一般的には、これらの各コンテンツ種別について、所望のコンテンツを検索する装置が開示されている。例えば動画データを検索する検索装置(例えば、特許文献1参照。)、音楽データを検索する検索装置(例えば、特許文献2参照。)などがある。また、楽曲の繰り返し区間を検出する方法もある(例えば、非特許文献1参照。)。
国際公開第2002/033589号 特開2005−10771号公報
M. A. Bartsch and G. H. Wake_eld, "To chatch a chorus: using chroma-based representations for audio thumbnailing," Proc. WAS-PAA'01, pp. 15-18, 2001.
しかしながら、上記特許文献1または特許文献2に記載の検索システムにおいては、各種コンテンツデータのうち、特定の1種類のコンテンツデータのみを検索対象としている。従って、従来の検索システムにおいては、動画像、画像、音楽のそれぞれのコンテンツの検索において個別の検索システムを用いなければならなかった。また、動画像と画像、画像と音楽、および音楽と動画像など、異なるコンテンツ種別のコンテンツデータから、類似するコンテンツを検索することはできなかった。
また、従来、各コンテンツデータについて予め、作成者、コンテンツ内容等のメタデータが付与されており、これらのメタデータを用いて類似するコンテンツデータを検索する検索システムが多い。このような検索システムを利用する場合、予め各コンテンツデータにメタデータを付与する必要があり、膨大な数のコンテンツデータの処理をするに際し、弊害となるおそれがある。
そこで、ユーザが、コンテンツ種別を意識することなく、またメタデータがなくとも所望のコンテンツデータを容易に検索することができる技術の開発が期待されている。
従って本発明の目的は、異なる種別のコンテンツデータについて、類似するコンテンツデータを検索するコンテンツ検索装置およびコンテンツ検索プログラムを提供することである。
上記課題を解決するために、本発明の第1の特徴は、異なる種別のコンテンツデータについて、類似するコンテンツデータを検索するコンテンツ検索装置に関する。即ち本発明の第1の特徴に係るコンテンツ検索装置は、画像特徴、音響特徴および意味特徴のうちいずれか一つ以上を有する複数のコンテンツデータが、コンテンツ識別子に対応づけて記憶装置に記憶されたコンテンツデータ記憶部と、コンテンツデータ記憶部に記憶された各コンテンツデータについて、各コンテンツデータが有する画像特徴、音響特徴および意味特徴のうちいずれか一つ以上の特徴量を算出し、コンテンツ識別子と、画像特徴、音響特徴および意味特徴の特徴種別と、その特徴量とを関連づけた特徴量データを、記憶装置に記憶する特徴量算出手段と、特徴量データにおいて、コンテンツ識別子に対応づけられた特徴種別の特徴量から、コンテンツ識別子に対応づけられていない特徴種別の未知の特徴量を算出し、特徴推定値として特徴量データに記憶する未知特徴量算出手段と、特徴量データに記憶されている特徴量および特徴推定値に基づいて、各コンテンツデータの類似度を示す距離を算出する距離算出手段と、距離算出手段によって算出された距離に基づいて、コンテンツデータに対応するサムネイルの表示位置を決定して、表示装置に表示する表示手段とを備える。
ここで、未知特徴量算出手段は、例えば、特徴量データにおいて、コンテンツ識別子に対応づけられた特徴種別の特徴量から、主成分分析を用いて特徴推定値を算出する。また他の例としては、未知特徴量算出手段は、特徴量データにおいて、コンテンツ識別子に対応づけられた特徴種別の特徴量から、正準相関分析を用いて特徴推定値を算出する。
特徴量算出手段は、音響特徴の特徴量を算出する際、音響信号のうち繰り返し現れるメロディーを特定し、その繰り返しメロディーの特徴量を、音響特徴の特徴量としても良い。
第1の特徴に係るコンテンツ検索装置は、さらに、ユーザ識別子と、当該ユーザの嗜好に合うコンテンツ識別子とが関連づけられたユーザ嗜好データが、記憶装置に記憶されたユーザ嗜好データ記憶部と、各コンテンツ識別子について、ユーザ嗜好データにおいて当該コンテンツに関連づけられたユーザ識別子の集合を作成するとともに、各集合において、ユーザ間に有向辺を作成し、各集合を代表する重要ユーザを決定する重要ユーザ決定手段と、をさらに備えても良い。この場合、距離算出手段は、ユーザ嗜好データにおいて重要ユーザのユーザ識別子に関連づけられたコンテンツ識別子を抽出し、抽出したコンテンツ識別子に対応する特徴量および特徴推定値に基づいて、各コンテンツデータの類似度を示す距離を算出することが好ましい。
表示手段はさらに、ユーザ嗜好データにおいて、所定のコンテンツに関連づけられた複数のユーザの識別子を抽出し、複数のユーザの識別子のそれぞれをノードと、ユーザ間の有向辺を考慮したノード間のリンクを含むユーザネットワークを表示して、表示装置に表示しても良い。
本発明の第2の特徴は、異なる種別のコンテンツデータについて、類似するコンテンツデータを検索するコンテンツ検索プログラムに関する。即ち本発明の第2の特徴に係るコンテンツ検索プログラムは、コンピュータに、画像特徴、音響特徴および意味特徴のうちいずれか一つ以上を有する複数のコンテンツデータが、コンテンツ識別子に対応づけて記憶装置に記憶された各コンテンツデータについて、各コンテンツデータが有する画像特徴、音響特徴および意味特徴のうちいずれか一つ以上の特徴量を算出し、コンテンツ識別子と、画像特徴、音響特徴および意味特徴の特徴種別と、その特徴量とを関連づけた特徴量データを、記憶装置に記憶する特徴量算出手段と、特徴量データにおいて、コンテンツ識別子に対応づけられた特徴種別の特徴量から、コンテンツ識別子に対応づけられていない特徴種別の未知の特徴量を算出し、特徴推定値として特徴量データに記憶する未知特徴量算出手段と、特徴量データに記憶されている特徴量および特徴推定値に基づいて、各コンテンツデータの類似度を示す距離を算出する距離算出手段と、距離算出手段によって算出された距離に基づいて、コンテンツデータに対応するサムネイルの表示位置を決定して、表示装置に表示する表示手段として実現させる。
ここで、未知特徴量算出手段は、例えば、特徴量データにおいて、コンテンツ識別子に対応づけられた特徴種別の特徴量から、主成分分析を用いて特徴推定値を算出する。また他の例としては、未知特徴量算出手段は、特徴量データにおいて、コンテンツ識別子に対応づけられた特徴種別の特徴量から、正準相関分析を用いて特徴推定値を算出する。
特徴量算出手段は、音響特徴の特徴量を算出する際、音響信号のうち繰り返し現れるメロディーを特定し、その繰り返しメロディーの特徴量を、音響特徴の特徴量としても良い。
第2の特徴に係るコンテンツ検索プログラムは、ユーザ識別子と、当該ユーザの嗜好に合うコンテンツ識別子とが関連づけられたユーザ嗜好データが、記憶装置に記憶されたユーザ嗜好データにおいて当該コンテンツに関連づけられたユーザ識別子の集合を、各コンテンツ識別子について作成するとともに、各集合において、ユーザ間に有向辺を作成し、各集合を代表する重要ユーザを決定する重要ユーザ決定手段と、をさらにコンピュータに実行させても良い。この場合、距離算出手段は、ユーザ嗜好データにおいて重要ユーザのユーザ識別子に関連づけられたコンテンツ識別子を抽出し、抽出したコンテンツ識別子に対応する特徴量および特徴推定値に基づいて、各コンテンツデータの類似度を示す距離を算出することが好ましい。
表示手段はさらに、ユーザ嗜好データにおいて、所定のコンテンツに関連づけられた複数のユーザの識別子を抽出し、複数のユーザの識別子のそれぞれをノードと、ユーザ間の有向辺を考慮したノード間のリンクを含むユーザネットワークを表示して、表示装置に表示しても良い。
本発明によれば、異なる種別のコンテンツデータについて、類似するコンテンツデータを検索するコンテンツ検索装置およびコンテンツ検索プログラムを提供することができる。
図1は、本発明の実施の形態に係るコンテンツ検索装置の機能を説明する図である。 図2は、本発明の実施の形態に係るコンテンツ検索装置で算出する特徴量を説明する図である。 図3は、本発明の実施の形態に係るコンテンツ検索装置で算出する未知の特徴量を説明する図である。 図4は、本発明の実施の形態に係るコンテンツ検索装置のハードウェア構成を説明する図である。 図5は、本発明の実施の形態に係るコンテンツ検索装置の特徴量データのデータ構造とデータの一例を説明する図である。 図6は、本発明の実施の形態に係るコンテンツ検索装置の画像特徴量算出処理を説明するフローチャートである。 図7は、本発明の実施の形態に係るコンテンツ検索装置の意味特徴量算出処理を説明するフローチャートである。 図8は、本発明の実施の形態に係るコンテンツ検索装置の音響特徴量算出処理を説明するフローチャートである。 図9は、本発明の実施の形態に係るコンテンツ検索装置において、主成分分析による未知特徴量算出処理を説明するフローチャートである。 図10は、本発明の実施の形態に係るコンテンツ検索装置において、正準相関分析による未知特徴量算出処理を説明するフローチャートである。 図11は、本発明の実施の形態に係るコンテンツ検索装置において、重みなし距離を算出する距離算出処理を説明するフローチャートである。 図12は、本発明の実施の形態に係るコンテンツ検索装置において、重み付き距離を算出する距離算出処理を説明するフローチャートである。 図13は、本発明の実施の形態に係るコンテンツ検索装置において、画面中央にクエリコンテンツデータのサムネイルを表示し、その周囲に検索結果のコンテンツデータのサムネイルを表示する画面構成を説明する図である。 図14は、本発明の実施の形態に係るコンテンツ検索装置において、クエリコンテンツデータを指定する画面の一例を説明する図である。 図15は、本発明の実施の形態に係るコンテンツ検索装置において、画面中央にクエリコンテンツデータのサムネイルを表示し、その周囲に検索結果のコンテンツデータのサムネイルを表示する画面の一例を説明する図である。 図16は、本発明の実施の形態に係るコンテンツ検索装置において、コンテンツデータの種別毎に表示エリアを分けて表示する画面構成を説明する図である。 図17は、本発明の実施の形態に係るコンテンツ検索装置において、コンテンツデータの種別毎に表示エリアを分けて表示する画面の一例を説明する図である。 図18は、本発明の実施の形態に係るコンテンツ検索装置において、画面左上にクエリコンテンツデータのサムネイルを表示し、クエリコンテンツデータのサムネイルから放射状に検索結果のコンテンツデータのサムネイルを表示する画面構成を説明する図である。 図19は、本発明の実施の形態に係るコンテンツ検索装置において、画面左上にクエリコンテンツデータのサムネイルを表示し、クエリコンテンツデータのサムネイルから放射状に、検索結果の一つの動画データにフォーカスをあてて表示する画面の一例を説明する図である。 図20は、本発明の実施の形態に係るコンテンツ検索装置において、画面左上にクエリコンテンツデータのサムネイルを表示し、クエリコンテンツデータのサムネイルから放射状に、検索結果の一つの音楽データにフォーカスをあてて表示する画面の一例を説明する図である。 図21は、本発明の実施の形態に係るコンテンツ検索装置において、画面左上にクエリコンテンツデータのサムネイルを表示し、クエリコンテンツデータのサムネイルから放射状に、検索結果の一つの画像データにフォーカスをあてて表示する画面の一例を説明する図である。 図22は、本発明の実施の形態に係るコンテンツ検索装置において、クロマベクトル算出の概要を説明する図である。 図23は、本発明の実施の形態に係るコンテンツ検索装置において、遷移行列を説明する図である。 図24は、本発明の実施の形態に係るコンテンツ検索装置において、正準相関分析で得られた相関行列を説明する図である。 図25は、本発明の第2の変形例に係るコンテンツ検索装置の機能を説明する図である。 図26は、本発明の第2の変形例に係るコンテンツ検索装置において、重要ユーザを決定する重要ユーザ決定処理を説明するフローチャートである。 図27は、本発明の第2の変形例に係るコンテンツ検索装置において、ユーザネットワークを表示する画面の一例を説明する図である。
次に、図面を参照して、本発明の実施の形態を説明する。以下の図面の記載において、同一又は類似の部分には同一又は類似の符号を付している。
(実施の形態)
図1に示すように、本発明の実施の形態に係るコンテンツ検索装置1は、異なる種別のコンテンツデータについて、類似するコンテンツデータを検索する。具体的にはコンテンツ検索装置1は、コンテンツデータ記憶部30に記憶された各種コンテンツデータについて、各コンテンツデータから特徴量を算出する。この際、コンテンツ検索装置1は、各種コンテンツデータにメタデータが付与されているか否かにかかわらず、特徴量を算出する。
さらにコンテンツ検索装置1は、各コンテンツデータの未知の特徴量を、算出可能な特徴量から推定する。コンテンツ検索装置1は、算出された特徴量および推定された特徴量から、各コンテンツデータの距離を算出し、類似度を決定し、表示装置105に検索結果を3次元の空間として表現して表示する。
本発明の実施の形態において「コンテンツデータ」は、画像データ、動画データおよび音楽データを示す。またコンテンツデータとして、テキストデータが含まれていても良い。また本発明の実施の形態において「特徴量」は、画像特徴量、意味特徴量および音響特徴量を示す。画像特徴量は、静止画の画像データや動画の各フレームのデータの色ヒストグラムに基づいて算出される。意味特徴量は、単語が出現する頻度などに基づいて算出される。音響特徴量は、音階の時間変化に基づいて算出される。
図2および図3を参照して、各コンテンツデータについて、算出される特徴量と、推定される未知の特徴量とを説明する。
図2に示すように、画像データは画像特徴を有しているので、コンテンツ検索装置1は、画像データから画像特徴量を算出する。また、画像データにメタデータが付与されている場合、コンテンツ検索装置1は、画像データのメタデータから意味特徴量も算出する。さらにコンテンツ検索装置1は、未知特徴量として音響特徴量を算出するとともに、メタデータがない場合、さらに意味特徴量も算出する。これにより、図3に示すように画像データは、画像特徴量、意味特徴量および音響特徴量の全ての特徴量を有する。
図2に示すように、音楽データは音響特徴を有しているので、コンテンツ検索装置1は、音楽データから音響特徴量を算出する。また、音楽データにメタデータが付与されている場合、コンテンツ検索装置1は、音楽データのメタデータから意味特徴量も算出する。さらにコンテンツ検索装置1は、未知特徴量として画像特徴量を算出するとともに、メタデータがない場合、さらに意味特徴量も算出する。これにより、図3に示すように音楽データは、画像特徴量、意味特徴量および音響特徴量の全ての特徴量を有する。
図2に示すように、動画データは画像特徴および音響特徴を有しているので、コンテンツ検索装置1は、動画データから画像特徴量および音響特徴量を算出する。また、動画データにメタデータが付与されている場合、コンテンツ検索装置1は、動画データのメタデータから意味特徴量も算出する。また、動画データに人の声やキャプションなどが含まれている場合、これらのデータをテキストデータとして抽出することにより、コンテンツ検索装置1は、動画データの意味特徴量も算出する。意味特徴量が算出されない場合、さらにコンテンツ検索装置1は、未知特徴量として意味特徴量を算出する。これにより、図3に示すように動画データは、画像特徴量、意味特徴量および音響特徴量の全ての特徴量を有する。
このように、本発明の実施の形態に係るコンテンツ検索装置1は、コンテンツの種別にかかわらず、各コンテンツデータについて、画像特徴量、意味特徴量および音響特徴量を算出することができる。さらに、コンテンツ検索装置1は、各コンテンツデータに対応付けられた画像特徴量、意味特徴量および音響特徴量に基づいてコンテンツ間の距離を算出し、コンテンツの類似度を算出することができる。従って、コンテンツの種別にかかわらず、類似するコンテンツを検索することができる。
このようなコンテンツ検索装置1は、例えば、画像データに類似する音楽データを検索することにより、画像に合う音楽を抽出することができる。また、コンテンツ検索装置1は、音楽データに類似する動画データを検索することにより、音楽に合う動画を抽出することができる。
(コンテンツ検索装置のハードウェア構成)
図4に示すように、本発明の実施の形態に係るコンテンツ検索装置1は、中央処理制御装置101、ROM(Read Only Memory)102、RAM(Random Access Memory)103及び入出力インタフェース109が、バス110を介して接続されている。入出力インタフェース109には、入力装置104、表示装置105、通信制御装置106、記憶装置107及びリムーバブルディスク108が接続されている。
中央処理制御装置101は、入力装置104からの入力信号に基づいてROM102からコンテンツ検索装置1を起動するためのブートプログラムを読み出して実行し、更に記憶装置107に記憶されたオペレーティングシステムを読み出す。更に中央処理制御装置101は、入力装置104や通信制御装置106などの入力信号に基づいて、各種装置の制御を行ったり、RAM103や記憶装置107などに記憶されたプログラム及びデータを読み出してRAM103にロードするとともに、RAM103から読み出されたプログラムのコマンドに基づいて、データの計算又は加工など、後述する一連の処理を実現する処理装置である。
入力装置104は、操作者が各種の操作を入力するキーボード、マウスなどの入力デバイスにより構成されており、操作者の操作に基づいて入力信号を作成し、入出力インタフェース109及びバス110を介して中央処理制御装置101に送信される。表示装置105は、CRT(Cathode Ray Tube)ディスプレイや液晶ディスプレイなどであり、中央処理制御装置101からバス110及び入出力インタフェース109を介して表示装置105において表示させる出力信号を受信し、例えば中央処理制御装置101の処理結果などを表示する装置である。通信制御装置106は、LANカードやモデムなどの装置であり、コンテンツ検索装置1をインターネットやLANなどの通信ネットワークに接続する装置である。通信制御装置106を介して通信ネットワークと送受信したデータは入力信号又は出力信号として、入出力インタフェース109及びバス110を介して中央処理制御装置101に送受信される。
記憶装置107は半導体記憶装置や磁気ディスク装置であって、中央処理制御装置101で実行されるプログラムやデータが記憶されている。リムーバブルディスク108は、光ディスクやフレキシブルディスクのことであり、ディスクドライブによって読み書きされた信号は、入出力インタフェース109及びバス110を介して中央処理制御装置101に送受信される。
本発明の実施の形態に係るコンテンツ検索装置1の記憶装置107には、コンテンツ検索プログラムが記憶されるとともに、図1に示すように、記憶装置107は、コンテンツデータ記憶部30、特徴量データ記憶部34および距離データ記憶部35を備える。また、コンテンツ検索プログラムがコンテンツ検索装置1の中央処理制御装置101に読み込まれ実行されることによって、特徴量算出手段10、未知特徴量算出手段14、距離算出手段15および表示手段16が、コンテンツ検索装置1に実装される。
次に図1を参照して、本発明の実施の形態に係るコンテンツ検索装置1を説明する。
記憶装置107は、コンテンツデータ記憶部30、特徴量データ記憶部34および距離データ記憶部35を備える。
コンテンツデータ記憶部30は、コンテンツデータが記憶された記憶領域である。コンテンツデータは、画像特徴、音響特徴および意味特徴のうちいずれか一つ以上を有している。コンテンツデータ記憶部30において、各コンテンツデータは、コンテンツ識別子に対応づけられて記憶されている。コンテンツデータ記憶部30は、画像データ記憶部31、動画データ記憶部32および記憶された音楽データ記憶部33を備える。画像データ記憶部31には、画像データ31aがコンテンツ識別子と関連づけられて記憶されている。画像データ記憶部31に、複数の画像データが記憶されていても良い。動画データ記憶部32には、動画データ32aがコンテンツ識別子と関連づけられて記憶されている。動画データ記憶部32に、複数の動画データが記憶されていても良い。音楽データ記憶部33には、音楽データ33aがコンテンツ識別子と関連づけられて記憶されている。音楽データ記憶部33に、複数の音楽データが記憶されていても良い。
特徴量データ記憶部34には、特徴量データ34aが記憶されている。特徴量データは、各コンテンツデータの画像特徴量、音響特徴量および意味特徴量を関連づけたデータである。特徴量データ34aは、各コンテンツ識別子と、画像特徴量、音響特徴量および意味特徴量を関連づけたデータである。各特徴量は、後述する特徴量算出手段10によって算出された特徴量、または未知特徴量算出手段14によって算出された特徴量である。
図5を参照して、本発明の実施の形態に係る特徴量データ34aを説明する。図5(a)に示す特徴量データ34aは、コンテンツ識別子、コンテンツ種別、画像特徴量、音響特徴量および意味特徴量の各項目を有する。コンテンツ識別子は、各コンテンツデータ記憶部30に記憶されたコンテンツデータに関連づけられた識別子である。コンテンツ種別は、コンテンツデータ記憶部30に記憶されたコンテンツの種別であり、図5に示す例では、画像、音楽および動画のいずれかの種別を有する。画像特徴量、音響特徴量および意味特徴量の各項目には、コンテンツデータの各特徴の特徴量が関連づけられている。
特徴量算出手段10によって各コンテンツデータの特徴量が算出されると、図5(a)に示すように、特徴量算出手段10によって算出された特徴量が特徴量データ34aに登録される。図5(a)に示すように、コンテンツ種別が「画像」の場合、画像特徴量が、関連づけられる。コンテンツ種別が「音楽」の場合、音響特徴量が関連づけられる。コンテンツ種別が「動画」の場合、画像特徴量および音響特徴量がそれぞれ関連づけられる。メタデータ、音声データまたはキャプチャデータ等からテキストデータを取得できる場合、各コンテンツ識別子に、意味特徴量が関連づけられる場合もある。
さらに未知特徴量算出手段14によって各コンテンツデータの未知の特徴量が算出されると、図5(b)に示すように、特徴量算出手段10によって算出された特徴量が特徴量データ34aに登録され、各コンテンツデータについて、画像特徴量、音響特徴量および意味特徴量が関連づけられる。図5(b)に示すように、コンテンツ種別が「画像」の場合、音響特徴量が、コンテンツ種別が「音楽」の場合、画像特徴量が、それぞれ新たに関連づけられる。各コンテンツデータについて特徴量算出手段10によって意味特徴量が関連づけられていない場合、未知特徴量算出手段14によって算出される意味特徴量が関連づけられる。
距離データ記憶部35には、距離データ35aが記憶されている。距離データ35aは、コンテンツデータ記憶部30に記憶される各コンテンツデータの任意の2つのコンテンツデータのコンテンツ識別子と、画像特徴量、意味特徴量および音響特徴量のそれぞれの類似度を示す距離を関連づけたデータである。後述する特徴量算出手段10および未知特徴量算出手段14によって、コンテンツデータ記憶部30に記憶される全てのコンテンツデータについて、画像特徴量、意味特徴量および音響特徴量が算出され、コンテンツ識別子に対応付けられた特徴量データ34aが生成される。さらに距離算出手段15は、特徴量データ34aから任意の2つのコンテンツデータの画像特徴量、意味特徴量および音響特徴量を抽出し、画像特徴、意味特徴および音響特徴のそれぞれについて、この2つのコンテンツデータの類似度となる距離を算出する。距離算出手段15は、この2つのコンテンツデータの識別子と、画像特徴の距離、意味特徴の距離および音響特徴の距離を関連づけて、距離データ35aを生成する。
中央処理制御装置101には、コンテンツ検索プログラムがインストールされることにより、特徴量算出手段10、未知特徴量算出手段14、距離算出手段15および表示手段16が実装される。
特徴量算出手段10は、コンテンツデータ記憶部30に記憶された各コンテンツデータについて、各コンテンツデータが有する画像特徴、音響特徴および意味特徴のうちいずれか一つ以上の特徴量を算出し、コンテンツ識別子と、画像特徴、音響特徴および意味特徴の特徴種別と、その特徴量とを関連づけた特徴量データ34aを、記憶装置107の特徴量データ記憶部34に記憶する。特徴量算出手段10は、画像特徴量算出手段11、意味特徴量算出手段12および音響特徴量算出手段13を備える。
画像特徴量算出手段11は、画像データ記憶部31に記憶された画像データ31aについて、画像特徴量として、色ヒストグラムを算出する。さらに画像特徴量算出手段11は、動画データ記憶部32に記憶された動画データ32aのうち映像データについて、全フレームからそれぞれ色ヒストグラムを算出し、そのベクトルメジアンを画像特徴量とする。
図6(a)を参照して、本発明の実施の形態に係る画像特徴量算出手段11が、画像データ31aについて画像特徴量を算出する処理を説明する。各画像データについて、ステップS101ないしステップS103の処理が繰り返される。
具体的には、ステップS101において画像特徴量算出手段11は、一つのコンテンツ識別子に対応する画像データについて、RGB表示系における色ヒストグラムを算出する。このときのRGBの各ビン数は、例えば4、4および4とする。次にステップS102において画像特徴量算出手段11は、ステップS101で得られたベクトルを、当該画像データの画像特徴量として出力する。ステップS101においてRGBのビン数を4、4および4にした場合、このベクトルは64次元である。ステップS103において画像特徴量算出手段11は、ステップS102で出力した画像特徴量を、当該画像データのコンテンツ識別子に対応する画像特徴量として、特徴量データ34aに記録する。
図6(b)を参照して、本発明の実施の形態に係る画像特徴量算出手段11が、動画データ32aについて画像特徴量を算出する処理を説明する。各動画データの映像データについて、ステップS151ないしステップS155の処理が繰り返される。
具体的には、ステップS151において画像特徴量算出手段11は、一つのコンテンツ識別子に対応する動画データの映像データ部分を抽出し、各フレームについて、64次元ベクトルを算出する。まずステップS151において画像特徴量算出手段11は、一つのフレームの画像データについて、RGB表示系における色ヒストグラムを算出する。このときのRGBの各ビン数は、例えば4、4および4とする。次にステップS152において画像特徴量算出手段11は、ステップS151で得られたベクトルを、当該フレームの特徴量として出力する。ステップS151においてRGBのビン数を4、4および4にした場合、ステップS152で取得されるベクトルは64次元である。
一つの動画データの映像データ部分の各フレームについて64次元ベクトルが取得されると、ステップS153において、各フレームの64次元ベクトルからベクトルメジアンを算出し、ステップS154として当該映像データの画像特徴量として出力する。ステップS155において画像特徴量算出手段11は、ステップS154で出力した画像特徴量を、当該動画データのコンテンツ識別子に対応する画像特徴量として、特徴量データ34aに記録する。
意味特徴量算出手段12は、意味特徴量を算出する。画像データ31a、動画データ32aおよび音楽データ33aにテキスト形式のメタデータが付与されている場合、意味特徴量算出手段12は、これらのメタデータから意味特徴量を算出する。意味特徴量算出手段12は、さらに、動画データ32aに人の声やキャプチャのデータが含まれている場合、これらのデータをテキスト形式に変換して意味特徴量を算出しても良い。また意味特徴量算出手段12は、音楽データ33aに歌声が含まれている場合、この歌声のデータをテキスト形式に変換して歌詞データを取得し、意味特徴量を算出しても良い。
図7を参照して、本発明の実施の形態に係る意味特徴量算出手段12が、各コンテンツデータについて意味特徴量を算出する処理を説明する。各コンテンツデータのテキストデータについて、ステップS201ないしステップS208の処理が繰り返される。
まず意味特徴量算出手段12は、各コンテンツデータのテキストデータに含まれる各単語について、ステップS201ないしステップS205の処理を繰り返し、TFIDFを取得する。TFIDFは、テキスト中の特徴的な単語について、TF(Term Frequency:出現頻度)およびIDF(Inverse Document Frequency:逆出現頻度)の二つの指標に基づいて算出される。
ステップS201において意味特徴量算出手段12は、各単語がコンテンツ中に出現する回数TFを算出する。次にステップS202において意味特徴量算出手段12は、各単語が出現するコンテンツ数DFを算出し、ステップS203において、ステップS202で算出されたDFを用いてIDFを算出する。ステップS204において意味特徴量算出手段12は、ステップS201で算出されたTFと、ステップS203で算出されたIDFとを用いて、各単語のTFIDFを算出する。ステップS205において意味特徴量算出手段12は、ステップS204で算出したTFIDFを正規化する。
所定のコンテンツに含まれる各単語について、TFIDFが正規化されると、ステップS206において意味特徴量算出手段12は、特徴ベクトルとして算出する。特徴ベクトルは、全コンテンツに含まれる単語数を次元数とするベクトルである。ステップS207において意味特徴量算出手段12は、ステップS206において算出された特徴ベクトルを、当該コンテンツデータのコンテンツ識別子に対応する意味特徴量として、特徴量データ34aに記録する。
音響特徴量算出手段13は、音楽データ記憶部33に記憶された音楽データ33aについて、音響特徴量を算出する。さらに音響特徴量算出手段13は、動画データ記憶部32に記憶された動画データ32aのうち音響データについて、音響特徴量を算出する。
図8を参照して、本発明の実施の形態に係る音響特徴量算出手段13が、音楽データ33aと動画データ32aのうちの音響データについて画像特徴量を算出する処理を説明する。各音楽データまたは音響データの音響信号について、ステップS301ないしステップS306の処理が繰り返される。
ステップS301ないしステップS304において音響特徴量算出手段13は、各時刻の音響信号についてクロマベクトルを算出する。具体的には音響特徴量算出手段13は、ステップS301において、所定時刻の音響信号について帯域通過フィルタを施し、ステップS302において、各音階に対するパワーを抽出する。これにより、各時刻における音階のパワーの分布を得ることができる。ステップS303において音響特徴量算出手段13は、ステップS302で抽出した各音階に対応する周波数のパワーを、オクターブ毎に換算し、ステップS304において各周波数パワーを要素とするクロマベクトルを算出する。
所定の音楽データまたは音響データの各時刻の音響信号についてクロマベクトルが算出されると、ステップS305において音響特徴量算出手段13は、各時刻のクロマベクトルから、その時間変化を表す音階の遷移行列を算出する。このとき音響特徴量算出手段13は、所定時刻の1単位時間前のクロマベクトルから、所定時刻のクロマベクトルを推定した際の平均二乗誤差が最小となるように、遷移行列を算出する。ステップS306において音響特徴量算出手段13は、ステップS305において算出された音階の遷移行列の各要素を、当該コンテンツデータのコンテンツ識別子に対応する音響特徴量として、特徴量データ34aに記録する。
未知特徴量算出手段14は、特徴量データ34aにおいて、コンテンツ識別子に対応づけられた特徴種別の特徴量から、コンテンツ識別子に対応づけられていない特徴種別の未知の特徴量を算出し、特徴推定値として特徴量データ34aに記憶する。
例えば、図2に示すように、画像データ31aについて、画像特徴量算出手段11によって画像特徴量が算出される。しかし画像データ31aは音響信号を有していないので、音響特徴量は算出されない。また、画像データ31aにメタデータが付与されていない場合、意味特徴量は算出されない。そこで、未知特徴量算出手段14は、画像データ31aについて、図3に示すように音響特徴量および意味特徴量を算出する。
動画データ32aについて、画像特徴量算出手段11によって画像特徴量が算出されるとともに、音響特徴量算出手段13によって音響特徴量が算出される。動画データ32aにメタデータが付与されていない場合や、人の声やキャプションなどが含まれていない場合、意味特徴量は算出されない。そこで、未知特徴量算出手段14は、動画データ32aについて、図3に示すように意味特徴量を算出する。
音楽データ33aについて、音響特徴量算出手段13によって音響特徴量が算出される。しかし音楽データ33aは画像信号を有していないので、画像特徴量は算出されない。また、音楽データ33aにメタデータが付与されていない場合、意味特徴量は算出されない。そこで、未知特徴量算出手段14は、音楽データ33aについて、図3に示すように画像特徴量および意味特徴量を算出する。
未知の特徴量を算出するためには、異なる特徴間の相関が求める必要がある。未知の特徴量を算出する方法としては、主成分分析による方法、正準相関分析による方法などが考えられる。
正準相関分析が異なる特徴間の相関求めるのに最適な方法であるのに対して、主成分分析による方法では、同一特徴間での相関も求める。その一方、主成分分析では、全ての特徴間で相関が求まっていることから、どの特徴が既知である、未知であることの拘束は存在しない。従って、主成分分析では、計算量を削減することができる。
これに対し正準相関分析による方法では、既知のデータ、未知のデータがはっきりとしている場合に、最適な相関を算出することが可能である。
未知特徴量算出手段14は、データの状況や、要求される処理能力等に応じて、いずれかの計算手法を選択することが好ましい。
図9を参照して、未知特徴量算出手段14の主成分分析による未知特徴量算出処理を説明する。未知特徴量算出手段14は、特徴量算出手段10によって得られた各特徴量に対して主成分分析を施し、その固有空間を得る。このように算出される固有空間を用いて、未知特徴量算出手段14は、各コンテンツデータにおける未知の特徴量を算出することができる。
まずステップS401におよびステップS402において未知特徴量算出手段14は、各コンテンツデータについて、その特徴値のベクトルxを算出する。具体的にはステップS401において未知特徴量算出手段14は、特徴量データ34aから、所定のコンテンツデータについて、画像特徴ベクトル(画像特徴量)、音響特徴ベクトル(音響特徴量)および意味特徴ベクトル(意味特徴量)を抽出する。ステップS402において未知特徴量算出手段14は、ステップS401で抽出した各ベクトルを並べて、ベクトルxを求める。このとき、画像データの音響特徴量などの未知の特徴量については、デフォルト値を設定する。
全てのコンテンツデータについてベクトルxが算出されると、ステップS403において未知特徴量算出手段14は、各コンテンツのベクトルxについて主成分分析を施し、固有ベクトルを並べた行列Uを取得する。
ステップS404ないしステップS409において未知特徴量算出手段14は、各コンテンツデータについて特徴値が関連づけられていない特徴種別について、特徴値を算出する。具体的には、ステップS404において未知特徴量算出手段14は、所定のコンテンツデータのベクトルxについて、全ての特徴量が関連づけられているか判定する。例えば、コンテンツデータが動画データの場合で、かつ、動画データにメタデータが関連づけられている場合や、動画データ中に人の声やキャプションが含まれている場合である。全ての特徴量が関連づけられている場合、未知特徴量算出手段14は、次のコンテンツデータについて、ステップS404を処理する。
一方、いずれかの特徴量が関連づけられていない場合、ステップS405において未知特徴量算出手段14は、コンテンツ種別に応じて処理をふりわける。コンテンツデータが画像データの場合、ステップS406において未知特徴量算出手段14は、ステップS403で取得した行列Uを利用して、当該コンテンツデータの音響特徴を推定したベクトルを算出する。当該コンテンツデータに意味特徴量が関連づけられていない場合、未知特徴量算出手段14はさらに、当該コンテンツデータの意味特徴を推定したベクトルを算出する。
コンテンツデータが音楽データの場合、ステップS407において未知特徴量算出手段14は、ステップS403で取得した行列Uを利用して、当該コンテンツデータの画像特徴を推定したベクトルを算出する。当該コンテンツデータに意味特徴量が関連づけられていない場合、未知特徴量算出手段14はさらに、当該コンテンツデータの意味特徴を推定したベクトルを算出する。
コンテンツデータが動画データの場合、ステップS408において未知特徴量算出手段14は、ステップS403で取得した行列Uを利用して、当該コンテンツデータの意味特徴を推定したベクトルを算出する。
ステップS406ないしステップS408で、行列Uを利用して未知の特徴量が算出されると、ステップS409において、算出された特徴量を、当該コンテンツデータの識別子に関連づけて特徴量データ34aに登録する。
全てのコンテンツデータについてステップS404ないしステップS409が実行されると、未知特徴量算出処理は終了する。
図10を参照して、未知特徴量算出手段14の正準相関分析による未知特徴量算出処理を説明する。未知特徴量算出手段14は、特徴量算出手段10によって得られた各特徴量に対して正準相関分析を施し、その特徴の相関が最大となる正準相関係数およびその相関を得る。
まずステップS501において未知特徴量算出手段14は、特徴量データ34aを読み出し、各コンテンツデータの特徴量を抽出する。ステップS502において未知特徴量算出手段14は、ステップS501で抽出した特徴量に対して、正準相関分析を施す。ステップS503において未知特徴量算出手段14は、特徴量間の相関が最大となる正準相関係数およびその相関を算出する。
ステップS504ないしステップS506において未知特徴量算出手段14は、各コンテンツデータについて特徴値が関連づけられていない特徴種別について、特徴値を算出する。具体的には、ステップS604において未知特徴量算出手段14は、所定のコンテンツデータのベクトルxについて、全ての特徴量が関連づけられているか判定する。例えば、コンテンツデータが動画データの場合で、かつ、動画データにメタデータが関連づけられている場合や、動画データ中に人の声やキャプションが含まれている場合である。全ての特徴量が関連づけられている場合、未知特徴量算出手段14は、次のコンテンツデータについて、ステップS504を処理する。
一方、いずれかの特徴量が関連づけられていない場合、ステップS505において未知特徴量算出手段14は、ステップS503で算出した正準相関係数およびその相関を用いて、未知の特徴量を算出する。ステップS506において未知特徴量算出手段14は、ステップS505で算出した各特徴量を、当該コンテンツデータの識別子に関連づけて特徴量データ34aに登録する。
全てのコンテンツデータについてステップS504ないしステップS506が実行されると、未知特徴量算出処理は終了する。
距離算出手段15は、特徴量データ34aに記憶されている特徴量および特徴推定値に基づいて、各コンテンツデータの類似度を示す距離を算出する。各コンテンツデータが類似するほど距離は小さくなり、類似しないほど距離は大きくなる。算出された距離は、特徴データ記憶部34に記憶される。
本発明の実施の形態においてコンテンツ検索装置1は、全てのコンテンツデータについて、コンテンツ種別を問うことなく、画像特徴量、意味特徴量および音響特徴量が関連づけることができる。従って、画像データと音楽データの類似性、動画データと音楽データの類似性など、異なるコンテンツ間の類似度を算出することができる。
従って、ユーザは特定のコンテンツの種類を指定することなく、異なるコンテンツ種別のコンテンツについて、類似するコンテンツを検索することができる。
類似性の高いコンテンツを関連づけることにより、例えば「画像に合う音楽」や「動画に合う音楽」などを抽出することができる。従って、従来は知っているコンテンツでなければ関連づけができなかったところ、本発明の実施の形態によれば、操作者にとって未知のコンテンツを結びつけて新たなコンテンツを制作したり、コンテンツ制作の発想を支援することができる。
また、本発明の実施の形態においては、画像特徴、意味特徴および音響特徴のそれぞれについて距離を算出する。従って距離算出手段15は、「動画データの映像データ(画像特徴)に類似する音楽データ」や、「動画データの意味特徴に類似する画像データ」など、一つの特徴に着目して類似するコンテンツを検索することもできる。
本発明の最良の実施の形態において距離算出手段15は、各特徴について、重みなしの距離、および重み付き距離のいずれかを算出する。図11および図12を参照して、距離算出手段15による距離算出処理を説明する。
図11を参照して、重みなしの距離を算出する処理を説明する。図11では、コンテンツデータ記憶部31に記憶された所定のクエリコンテンツデータと、それ以外の検索対象のコンテンツデータとの距離を算出する場合について説明する。図11に示す例では、特徴量のL2距離を、コンテンツ間の距離として出力する。
距離算出手段15は、特徴量データ34から、ステップS601においてクエリコンテンツデータのコンテンツ識別子に関連づけられた特徴量を抽出するとともに、ステップS602において検索対象コンテンツデータのコンテンツ識別子に関連づけられた特徴量を抽出する。ステップS601およびステップS602で抽出される特徴量は、特徴量算出手段10および未知特徴量算出手段14によって算出された画像特徴量、意味特徴量および音響特徴量である。
ステップS603において距離算出手段15は、クエリコンテンツと検索対象コンテンツ間の距離として、ステップS601およびステップS602で抽出した各特徴量のベクトルのL2距離を算出する。距離算出手段15は、画像特徴の重みなし距離、意味特徴の重みなし距離、および音響特徴の重みなし距離をそれぞれ算出する。ステップS604において、ステップS603で算出した各特徴のL2距離を、コンテンツ間の距離として出力する。
さらに、距離算出手段15は、他の検索対象コンテンツについてもステップS601ないしステップS604の処理を繰り返し、クエリコンテンツと、各々の検索対象コンテンツについて、画像特徴、意味特徴および音響特徴のそれぞれの距離を出力する。
図12を参照して、重み付き距離を算出する処理を説明する。図12に示す例では、共分散行列を用いて算出されるマハラノビス汎距離を、コンテンツ間の距離として出力する。
まずステップS651において距離算出手段15は、各コンテンツデータについて、画像特徴、意味特徴および音響特徴の共分散行列を求める。ステップS652において距離算出手段15は、ステップS651で算出した各特徴の共分散行列から、マハラノビス汎距離に基づいた各特徴の重み付き距離を算出する。
距離算出手段15によって算出されたコンテンツ間の距離は、表示手段16によって各コンテンツが表示される位置の算出に用いられる。
表示手段16は、クエリコンテンツが与えられた場合に、そのクエリコンテンツに類似するコンテンツの検索や、その結果を表示する。表示手段16は、距離算出手段15によって算出された距離に基づいて、各コンテンツデータに対応するサムネイルの表示位置を決定して、表示装置105に表示する。表示手段16は例えば、クエリコンテンツを画面の中央に表示する。さらに表示手段16は、距離が小さく類似するコンテンツをクエリコンテンツの近くに表示するとともに、距離が大きく類似しないコンテンツをクエリコンテンツの遠くに表示する。
表示手段16は、例えば、多次元尺度構成法(MDS:MultiDimensional Scaling)を用いて、コンテンツ間の距離に基づく表示位置を決定し、表示装置105に表示する。「多次元尺度構成法」は、多変量解析の一手法である。「多次元尺度構成法」は、分類対象物の関係を低次元空間における点の位置関係によって表現する。本発明の実施の形態においては、各コンテンツにおいて算出された特徴ベクトル間の距離に対して適用することで、コンテンツ間の類似関係を保持した検索結果を可視化する。
表示手段16は、さらに、画像データ、映像データおよび音楽データの各種コンテンツを再生するユーザインタフェースである。表示手段16は、映像データの再生、画像データの再生、音楽データの再生などを実現する。
表示手段16による画像データの再生を説明する。表示手段16は、画像データ記憶部31の画像データ31aのサムネイルを、表示装置105の表示画面の任意の位置に配置するとともに、画像データ31aを再生する。このとき、表示手段16は、画像データ31aに含まれる色に光る装飾を画像データ31aの縦横のサイズに合わせて生成する。表示手段16は、画像データ31aの周囲にこの装飾を配置して表示する。このように、画像データ31aの周囲に装飾を行うことにより、動画データ32aと同時に画面に表示する場合、その動画データ32aとのコンテンツ種別の差異を明確にする視覚効果が得られる。
表示手段16による映像データの再生を説明する。表示手段16は、動画データ記憶部32の動画データ32aのサムネイルを、表示装置105の表示画面の任意の位置に配置するとともに、動画データ32aを再生する。このとき表示手段16は、再生中の動画データ32aの現在のフレームを表示するとともに、現在再生中のフレームより後方のフレームの画像を、3次元空間上で再生中のフレームの後方に配置して表示する。表示手段16は、動画データ32aの再生に伴って、現在再生しているフレームの画像と、その後に表示されるフレームの画像を常に更新する。これにより、動画データ32aの再生中に、画像が奥から手前に向かって流れているような視覚効果が得られる。
表示手段16による音楽データの再生を説明する。表示手段16は、音楽データ記憶部33の音楽データ33aのサムネイルを、表示装置105の表示画面の任意の位置に配置するとともに、音楽データ33aを再生する。このとき表示手段16は、音楽データ33aのサムネイルの配置された位置で、サムネイルを回転させるなどのアニメーションを行うことにより、音楽データ33aが再生中であることを表す視覚効果が得られる。表示手段16は、音楽データ33aの信号長や、音楽データ33aをフーリエ変換し、この結果に基づいて、アニメーションデータを生成し、表示装置105に表示する。
クエリコンテンツが与えられた場合に、表示手段16が、そのクエリコンテンツに類似するコンテンツの検索結果を表示する場合を説明する。本発明の実施の形態においては、動画データ等のコンテンツデータの再生中に、ユーザによって検索指示が入力されると、コンテンツ検索装置1の表示手段16は、再生中のコンテンツデータを、クエリコンテンツデータとして、コンテンツデータ記憶部30から類似するコンテンツを検索し、表示装置105に検索結果を表示する。
コンテンツの検索においては、距離算出手段15によって算出されたコンテンツ間の距離に基づいて、コンテンツデータ記憶部30に記憶された各種コンテンツデータから、クエリコンテンツデータとの距離の小さいコンテンツデータが抽出される。具体的には、表示手段16は、距離データ35aから、クエリコンテンツデータと距離の小さいコンテンツ識別子を抽出し、抽出されたコンテンツ識別子に対応するコンテンツデータを、類似するコンテンツデータとして出力する。ここで、距離データ35aは画像特徴、意味特徴および音響特徴のそれぞれについて距離が算出されているので、画像特徴、意味特徴および音響特徴の各パラメータに重みを設定して類似するコンテンツデータを出力してもよい。これによれば、表示手段16は、画像特徴のみに着目して類似するコンテンツデータを検索することができる。また表示手段16は、音響特徴を3、意味特徴を7とする重みを設定して、類似するコンテンツデータを検索することができる。
表示手段16は、類似するコンテンツデータを検索すると、多次元尺度構成法によって算出された位置関係に基づいて、そのコンテンツデータのサムネイルを表示装置105に表示する。表示装置105の表示画面において、クエリコンテンツデータのサムネイルの表示位置を原点とした2次元空間で表示される。表示手段16は、多次元尺度構成法を用い算出された座標をそれぞれの検索結果に与え、各検索結果の表示位置および大きさを決定する。さらにユーザによってそのコンテンツデータのサムネイルが選択されると、表示手段16は、選択されたサムネイルのコンテンツデータをクエリコンテンツデータとした類似コンテンツを検索することができる。
表示手段16が、クエリコンテンツデータと、クエリコンテンツデータに類似するコンテンツデータを表示する際、例えば、図13、図16および図18に示すような表示パターンが考えられる。図13、図16および図18の表示パターンで表示した具体例を、それぞれ図14、図15、図17および図19ないし図21に示す。図15、図17および図19ないし図21において、二重枠で囲まれている画像のサムネイルは、画像データのサムネイルである。また一重枠で囲まれている画像のサムネイルは、動画データのサムネイルである。この動画データのサムネイルでは、動画データが再生されていても良い。また、音譜の画像のサムネイルは、音楽データのサムネイルである。この音楽データが再生されている間、その音楽データのサムネイルは、回転するなどして再生中であることを示すアニメーションが実行される。
図13に示す例では、画面中央にクエリコンテンツデータのサムネイルを表示し、その周囲に検索結果のコンテンツデータのサムネイルを表示している。クエリコンテンツデータのサムネイルに近いほど、類似するコンテンツデータである。図13に示す例では、画像データ、動画データ、音楽データ等のコンテンツの種別に関係なく、検索結果のコンテンツデータのサムネイルが表示される。
この場合、動画データ32a等のコンテンツデータの再生中に、ユーザによって検索指示が入力された場合、クエリコンテンツデータのサムネイルを中心として、多次元尺度構成法を用いて算出された2次元空間の座標に基づいて、検索結果のコンテンツデータのサムネイルの座標を再計算し、表示装置105の表示画面に配置する。図13に示す例において、表示されている複数のコンテンツの位置関係によって、ユーザは、クエリコンテンツデータと検索されたコンテンツデータの類似する度合い、および検索されたコンテンツデータ同士が類似する度合いを、視覚的に把握することができる。
図14および図15を参照して、図13に示す例に従ってサムネイルを表示した画面例を説明する。まず図14において、本発明の実施の形態に係るコンテンツ検索装置1が、最初に表示する画面である。図14の中央に、クエリコンテンツデータを指定する枠が設けられている。ユーザによって、この枠にクエリコンテンツデータが設定されると、本発明の実施の形態に係るコンテンツ検索装置1は、コンテンツデータ記憶部30に記憶された各種コンテンツデータのうち、クエリコンテンツデータに類似するコンテンツデータを検索し、図15に示す画面の様に、その結果を表示する。図15においては、中心にクエリコンテンツデータのサムネイルが表示される。またクエリコンテンツデータのサムネイルの周辺には、類似するコンテンツデータのサムネイルが表示され、類似するほど近くに表示される。
図16に示す例では、画面中央にクエリコンテンツデータのサムネイルを表示し、その周囲に検索結果のコンテンツデータのサムネイルを表示する点で図13に示す例と類似する。図13に示す例では、検索結果のコンテンツデータのサムネイルを表示する際、コンテンツ種別に関係なく表示していたが、図16に示す例では、コンテンツデータの種別毎に表示エリアを分けている点が異なる。図16に示す例では、検索結果のコンテンツデータのサムネイルのうち、画面左に画像データのサムネイルを、画面右上に音楽データのサムネイルを、画面右下に動画データのサムネイルを表示している。
この場合、動画データ32a等のコンテンツ再生中に、ユーザによって検索指示が入力された場合、表示手段16は、クエリコンテンツデータのサムネイルを中心として、多次元尺度構成法を用いて2次元空間の座標を算出する。さらに表示手段16は、算出された2次元空間の座標に基づいて、検索結果のコンテンツデータのコンテンツ種別ごとに、そのサムネイルの座標を再計算し、表示装置105の表示画面に配置する。図16に示す例において、表示されている複数のコンテンツのエリアおよび位置関係によって、ユーザは、検索されたコンテンツの種別、クエリコンテンツデータと検索されたコンテンツデータの類似する度合い、および検索されたコンテンツデータ同士が類似する度合いを、視覚的に把握することができる。
図17を参照して、図16に示す例に従ってサムネイルを表示した画面例を説明する。図17に示す例では、中央にクエリコンテンツデータのサムネイルが表示されている。また、クエリコンテンツデータのサムネイルの左側には画像データのサムネイルが、右上には音楽データのサムネイルが、右下には動画データのサムネイルが、それぞれ表示されている。
図18に示す例では、画面左上にクエリコンテンツデータのサムネイルを表示し、クエリコンテンツデータのサムネイルから放射状に検索結果のコンテンツデータのサムネイルを表示する。図18に示す例では、画像データ、動画データ、音楽データ等の、クエリコンテンツデータと同じ種類のコンテンツデータについて、検索結果のコンテンツデータのサムネイルが表示される。
この場合、動画データ32a等のコンテンツ再生中に、ユーザによって検索指示が入力された場合、表示手段16は、クエリを画面端に配置し、クエリコンテンツデータのサムネイルを中心として多次元尺度構成法を用いて算出された2次元空間の座標に基づいて、検索結果のコンテンツデータのサムネイルの座標を、メディア別に再計算し表示装置105の表示画面に配置する。
一つのメディアにフォーカスを当てた配置で表示される検索結果は、表示されているコンテンツの位置関係によって、クエリコンテンツデータと検索結果が類似する度合いを視覚的に把握することができる。図18に示す例では、画像データ、動画データおよび音楽データのいずれか一つのメディアにのみフォーカスを当てて、検索結果を表示する。この場合、フォーカスが当てられていないコンテンツ種別のサムネイルについては、座標を再計算する必要はない。
図19ないし図21を参照して、図18に示す例に従ってサムネイルを表示した画面例を説明する。図19ないし図21に示す画面例は、例えば図15または図17において示されたサムネイルのいずれか一つが選択された場合に、その選択されたサムネイルのコンテンツ種別にフォーカスをあてて検索結果を表示した画面例である。ここで、「フォーカスをあてる」とは、「動画像」、「音響」または「画像」のいずれかのコンテンツ種別を特定して検索および表示することを言う。フォーカスを当てない場合は、「動画像」、「音響」および「画像」の全てのコンテンツ種別について検索および表示することを言う。
図19では、動画データにフォーカスをあてて、クエリの動画データに類似する動画データのサムネイルが表示されている。各サムネイルでは、動画が再生されている。また、画面の中央から各サムネイルに向かって、これから再生されるフレームの複数の画像が3次元的に表示されている。図20では、音楽データにフォーカスをあてて、クエリコンテンツデータに類似する音楽データのサムネイルが表示されている。図21では、画像データにフォーカスをあてて、動画データに類似する画像データのサムネイルが表示されている。
(効果)
このように本発明の実施の形態に係るコンテンツ検索装置1によれば、各種コンテンツについて、画像特徴量、意味特徴量および音響特徴量を算出する。従って、コンテンツ検索装置1は、画像データと音楽データ、動画データと画像データ、動画データと音楽データなど、コンテンツ種別にかかわらず、類似するコンテンツデータを検索することができる。
さらに、検索されたコンテンツデータについて、表示手段16は、コンテンツ種別ごとに表示することもできる。また、所定のコンテンツに着目して、そのコンテンツをクエリコンテンツデータとして、そのコンテンツに類似するコンテンツを検索することもできる。
なお、コンテンツデータとして、文字や音声のみからなるテキストデータを用いても良い。テキストデータから、特徴量算出手段10の意味特徴量算出手段12が意味特徴量を算出することができる。さらに、未知特徴量算出手段14が画像特徴量および音響特徴量を算出することができる。これによりテキストデータについても、画像特徴量、意味特徴量および音響特徴量を算出することができるので、距離算出手段15は、テキストデータと音楽データ、テキストデータと画像データ、テキストデータと動画データのそれぞれについても距離を算出できる。従って、テキストデータについても、コンテンツ種別にかかわらず類似するコンテンツデータを検索することができる。
以下で、各処理手段の詳細なアルゴリズムについて説明する。
(特徴量算出処理のアルゴリズム)
以下で、特徴量算出手段10による特徴量算出処理のアルゴリズムを説明する。本発明の実施の形態においては、画像データ31aと、動画データ32aの映像データの画像特徴量として、色ヒストグラムが用いられる。画像データ31a、動画データ32aおよび音楽データ33aの意味特徴量として、TFIDFが用いられる。動画データ32aの音響データと、音楽データ33aの音響特徴量として、音階の遷移に基づく特徴量が用いられる。
まず、画像特徴量算出手段11による画像特徴量算出のアルゴリズムを説明する。本発明の実施の形態において画像特徴量算出手段11は、静止画像fstill からHSV色ヒストグラムを求め、その要素を順に並べたベクトルvstillを静止画像fstillの特徴ベクトルとして用いる。このとき、得られる特徴ベクトルはp次元である。またその値は、色相、彩度、明度のヒストグラムのビン数の積となる。また、画像特徴量算出手段11は、動画像信号fvideoの各フレームについて、HSV色ヒストグラムを求め、その要素を順に並べたベクトルを算出する。さらに、画像特徴量算出手段11は、全フレームの特徴ベクトルの全体からベクトルメジアンを求め、それを画像特徴ベクトルvfideoとする。
つぎに、意味特徴量算出手段12による意味特徴量算出のアルゴリズムを説明する。本発明の実施の形態において意味特徴量算出手段12は、動画像信号ffideoのコンテンツに含まれるテキストに対して、以下の処理によりTF−IDFを算出する。TF−IDF法は、あるコンテンツ中に出現するそれぞれの単語に対して、そのコンテンツを特徴づける度合いを算出する手法である。TF−IDF法では、単語が特徴的である度合を以下の式により算出する。
上式により算出されるTFIDF(t,C)の値は、TF(t,C)が大きくDF(t)が小さいほど大きくなる。つまり、単語tがコンテンツC中に多く出現し、他のコンテンツ中にあまり出現しなければ、TFIDF(t,C)の値は大きくなる。ここで、コンテンツ中の単語の総数が多い場合にTFIDFが大きくなりやすいため、コンテンツ間でTFIDFの値を比較する際、正規化した値を用いることが望ましい。そこで、意味特徴量算出手段12は、TFIDFの値を以下の式により正規化する。
本発明の最良の実施の形態において、意味特徴量算出手段12は、TF−IDF法を動画像信号ffideoに適用することで、コンテンツCにおけるテキストの特徴ベクトル
を得る。なお、TF−IDF法以外の特徴量として、各コンテンツCがテキストtを持つ場合に
そうでない場合を
とし、
とする特徴量も利用できる。
さらに、音響特徴量算出手段13による音響特徴量算出のアルゴリズムを説明する。本発明の実施の形態において音響特徴量算出手段13は、楽曲中の音階の遷移に着眼したメロディーを表す指標を算出する。本発明の実施の形態においては、音響信号fmusicおよび動画像信号ffideoに含まれる音響信号から、音階の遷移に基づく特徴量を算出する。前処理としてハニング窓である窓関数h(t)を用いた短時間フーリエ変換(STFT)を、高速フーリエ変換(FFT)によって計算する。FFTのフレームは時間軸方向にシフトすることで、楽曲全体に処理が施される。本発明の実施の形態において音響特徴量算出手段13は、全ての処理対象区間からクロマベクトルを算出する。さらに、音響特徴量算出手段13は、得られるクロマベクトルを用いて、音階の遷移行列を、メロディーを表す指標として算出する。
以下で、クロマベクトルの算出および音階の遷移行列の算出について説明する。
まず、クロマベクトルの算出について説明する。一般に楽音が12音階によって進行していることから、本発明の実施の形態ではクロマベクトルを12次元で表現し、ベクトルの各次元が平均律の異なる音階のパワーを表すものとする。図22に、クロマベクトル算出の概要を示す。音響特徴量算出手段13は、時刻tの入力楽曲信号に対するSTFTを計算した後に、周波数軸を対数スケールの周波数gに変換して、パワースペクトルΨ(g,t)を求める。対数スケールの周波数はcent単位で表し、Hzで表された周波数gHzを、次のようにcentで表された周波数gcentに変換する。
平均律の半音は100centに、1オクターブは1200centに相当するため、音名c(cは1≦c≦12の整数で音階C,Cis,・ ・ ・ ,Bに対応)、オクターブ位置hの周波数

と表すことができる。
この対数スケール軸のパワースペクトルΨ(g,t)から、音階c の位置のパワーをOctからOctのオクターブ範囲で加算して、12次元のベクトル
の各次元
を求める。ここで、BPGc,gは、音階c、オクターブ位置hのパワーを通過させるバンドパスフィルタで、
ハニング窓の形状で定義する。本発明の実施の形態では、算出されるベクトル
を以下の式により正規化を行うことで、クロマベクトルx(t)を算出する。
本発明の実施の形態では、このようにクロマベクトルを算出することで、多重音を含む楽曲信号においても音階のパワーの分布を適切に得ることができる。
つぎに、音階の遷移行列の算出について説明する。本発明の最良の実施の形態において音響特徴量算出手段13は、クロマベクトルx(t)を用いて音階の遷移行列を算出する。本発明の実施の形態において、時刻tにおけるクロマベクトルの集合をXt=[x(1),x(2),・・・,x(T−1)]としたとき、時刻tからt+1への音階の遷移を遷移行列Aを用いて次式によって表す。
このとき、遷移行列Aは、次式のように得られる。
上式により得られる遷移行列Aは12×12となり、その各要素は時刻tからt+1へ音階が遷移する度合いを表す。例えば楽曲のメロディーがC→D→A→Dと演奏される場合、図23に示されるような遷移行列Aの要素が高くなる。このとき、遷移行列Aは、音階のパワーの分布であるクロマベクトルXに基づいて算出されるために、多重音を含む楽曲信号においても主要な音階の遷移が行列Aの要素に反映される。したがって、楽曲の特徴的な音階の遷移を、遷移行列Aは表現可能であると考えられる。本発明の実施の形態では、
と表すと、音響信号fmusicおよび動画像信号fvideoに含まれる音響信号の特徴ベクトルとして、それぞれ
を用いる。
本発明の実施の形態では、式(1)により音階の遷移を表現する。従って、従来では推定困難とされる特定の楽器音の示す基本周波数を推定することなく、音階の遷移であるメロディーを遷移行列Aとして得ることができる。これにより、行列Aの要素を特徴量として用いることができる。
(未知特徴量算出処理のアルゴリズム)
以下で、未知特徴量算出手段14による未知特徴量算出処理のアルゴリズムを説明する。未知特徴量算出手段14は、主成分分析あるいは正準相関分析に基づいて、未知の特徴量を分析する。
まず主成分分析による未知特徴量算出処理を説明する。主成分分析は、多変量解析の分野において多変数データからの説明変数を抽出する手法として用いられる。以下では、主成分分析に基づく特徴量推定の方法について具体的に説明を行う。
本発明の実施の形態において未知特徴量算出手段14は、データベース中に存在する全てのコンテンツCj(j=1,2,・・・,N)に対してその画像特徴ベクトルv、音響特徴ベクトルa、および意味に基づく特徴ベクトルwを求める。未知特徴量算出手段14は、それらを順に並べたベクトル
を求める。尚、v、a、wのいずれかが未知の場合、未知特徴量算出手段14は、そのベクトルの要素は全て同じ値とする。さらに未知特徴量算出手段14は、得られるベクトルx、x、・・・、xに対して主成分分析を施し、その固有ベクトルu、u、・・・、u(D次元)を順に並べた行列
を得る。この行列を用いることで、本発明の実施の形態においては、新しいコンテンツに対して未知の特徴量を以下のように推定する。
まず画像データについて説明する。
未知特徴量算出手段14は、画像特徴v、音響特徴a、意味特徴wのうち、音響特徴および意味特徴が未知である場合、ベクトルxを
とする。未知特徴量算出手段14は、その音響特徴および意味特徴を推定したベクトル

として求める。ただし、
は、x(j=1,2,・・・,N)の平均ベクトルである。
次に音楽データについて説明する。
未知特徴量算出手段14は、画像特徴v、音響特徴a、意味特徴wのうち、画像特徴および意味特徴が未知である場合、ベクトルxを、
とする。未知特徴量算出手段14は、その画像特徴および意味特徴を推定したベクトルxpcaを式(2)で得る。
さらに動画データについて説明する。
未知特徴量算出手段14は、画像特徴v、音響特徴a、意味特徴wのうち、意味特徴が未知である場合、ベクトルxを
とする。未知特徴量算出手段14は、その意味特徴を推定したベクトルxpcaを式(2)で得る。
本発明の実施の形態において特徴量算出手段10は、あらかじめ対象の内容を表すテキストが付与された画像データ、音楽データ、および動画データの各コンテンツデータから画像、音響、および意味の各々について特徴量を算出する。その後、未知特徴量算出手段14は、得られた各特徴量に対して主成分分析を施し、その固有空間を得る。このように算出される固有空間を用いて、本発明の実施の形態に係るコンテンツ検索装置1は、各データにおける未知の特徴量の推定を可能とする。ただし、主成分分析を施す画像データ、音楽データ、および動画データの各コンテンツデータから得られる各特徴量は対象データの特性を十分に反映するように広く選択されていることが好ましい。
つぎに正準相関分析による未知特徴量算出処理を説明する。まず、R組の変数群
が与えられ、これらR組の変数群に関するn個のデータ
をR個の行列
によって表現する。
未知特徴量算出手段14は、正準相関分析では線形変換
で得られる重みベクトルwを求める。ただし、未知特徴量算出手段14は、
に含まれる各成分の平均は0とする。
ここで、未知数からなるn次元のベクトルyを導入し、未知特徴量算出手段14は、yとXの各成分について次式のように、差の平方和を最小とするwを推定する。
未知特徴量算出手段14は、まず、yを既知として、上式をベクトルwの各成分について最小とすると、最小二乗法の性質より
となる。なお、等号は
のときに成立する。
次にy′y=1の条件でQ(y)を最小にするためには、同一の条件下でQ(y)の第2項の符号を変えた部分をyについて最大にすればよい。したがってyは
の固有値問題の解として求まる。また、未知特徴量算出手段14は、上式を満たす
個の正の固有値λ(k=1,2,・・・,N)を得る。これらに対応する固有ベクトルy(k=1,2,・・・,N)から得られる重みベクトルを順に並べた行列を
とおくと、次式が成立する。
ここで、Λijは正準相関係数μk(k=1,2,・・・,N)を対角要素とする相関行列である。
以上に示す正準相関分析を用いることにより未知特徴量算出手段14は、異なるR組の変数群間の相関が最大となる線形変換を求めることができる。本発明の実施の形態に係る未知特徴量算出手段14は、図24に示すように、メディア数をR=3、コンテンツ数をn個として正準相関分析を行い、相関行列を得る。これらの行列を用いることで本発明の実施の形態において未知特徴量算出手段14は、新しいコンテンツに対して既知の特徴から未知の特徴量を以下のいずれかの式により推定する。
未知特徴量算出手段14は、新しいコンテンツに対して既知の特徴から、未知の画像特徴量を以下のいずれかの式により推定する。
未知特徴量算出手段14は、新しいコンテンツに対して既知の特徴から、未知の音響特徴量を以下のいずれかの式により推定する。
未知特徴量算出手段14は、新しいコンテンツに対して既知の特徴から、未知の意味特徴量を以下のいずれかの式により推定する。
また未知特徴量算出手段14は、未知の特徴が推定されたベクトル
を得る。
本発明の実施の形態において特徴量算出手段10は、あらかじめ対象の内容を表すテキストが付与された画像データ、音楽データ、および動画データの各コンテンツデータから画像、音響、および意味の各々について特徴量を算出する。その後、未知特徴量算出手段14は、得られた各特徴量に対して正準相関分析を施し、各特徴の相関が最大となる正準相関係数およびその相関を得る。これにより本発明の実施の形態において、そのままでは比較できなかった各特徴量を比較することが可能となる。ただし、正準相関分析を施す画像データ、音楽データ、および動画データの各コンテンツデータから得られる各特徴量は対象データの特性を十分に反映するように広く選択されていることが好ましい。
(距離算出処理のアルゴリズム)
以下で、距離算出手段15による距離算出処理のアルゴリズムを説明する。距離算出手段15は、重みなし距離または重み付き距離を算出する。
まず重みなし距離を算出する場合の距離算出処理を説明する。
今、クエリコンテンツがC、対象コンテンツがCであるとする。このとき距離算出手段15は、それらコンテンツ間における画像特徴の重みなし距離
、音響特徴の重みなし距離
、および意味特徴の重みなし距離
をそれぞれ以下の式で算出する。
ただし、ベクトル
はそれぞれ、未知特徴量算出手段14による未知特徴量算出処理で得られるCおよびCのベクトルxにおける画像特徴のベクトルである。同様に
は、音響特徴および意味特徴のベクトルである。
つぎに重み付き距離を算出する場合の距離算出処理を説明する。距離算出手段15は、マハラノビス汎距離に基づいたそれらコンテンツ間における画像特徴の重み付き距離
、音響特徴の重み付き距離
、および意味特徴の重み付き距離
をそれぞれ以下の式で算出する。
ここで、行列W、W、W はそれぞれ、検索・分類対象の全コンテンツにおける画像、音響、意味特徴の共分散行列であり、次式により求められる。
ただし、
であり、Nは全コンテンツ数である。
(表示処理のアルゴリズム)
以下で、表示手段16による表示処理のアルゴリズムを説明する。表示手段16は、距離算出手段15によって出力された距離データ35に基づいて、検索結果を表示装置105の表示画面に表示する。所定のコンテンツとクエリコンテンツの距離が小さいほど、具体的にはコンテンツが類似するほど、そのコンテンツのサムネイルをクエリコンテンツのサムネイル近くに表示する。一方、所定のコンテンツとクエリコンテンツの距離が大きいほど、具体的にはコンテンツが類似しないほど、そのコンテンツのサムネイルをクエリコンテンツのサムネイル遠くに表示する。
本発明の実施の形態において、多次元尺度構成法(MDS)を、各コンテンツにおいて算出された特徴ベクトル間の距離に対し適用することで、コンテンツ間の類似関係を保持した検索結果が可視化される。
n個のコンテンツにおいて算出された特徴ベクトルをx,...,x とし、x,x間の距離を2乗した値を要素とするn×nの行列をDとする。また、単位行列から、全要素が1/nの行列を引いた結果、得られるn×n行列をJとする。さらに、
とし、i番目のコンテンツに対するk次元空間の推定位置を
、それをn行集めたn×k行列を求めるXとすると、
は次式を最小化する。
Pの固有値のうち、最大のk個の固有値を対角要素とする行列をΛk、対応する固有ベクトルの行列をQとすると、多次元尺度構成法によるコンテンツの配置
は以下の式により算出される。
ただし、Pは最小でもk個の正の固有値が存在するものとする。式(3)により得られるコンテンツの配置
は、式(3)を最小化し、コンテンツ間の距離を最小二乗の基準によりk次元で近似する解となる。
このように本発明の実施の形態に係るコンテンツ検索装置1は、画像、動画または音楽のいずれかのコンテンツデータから、画像、意味、音響のいずれか一つ以上の特徴量を算出する。さらにコンテンツ検索装置1は、それぞれのコンテンツデータについて算出された特徴量から、コンテンツデータに未知な特徴量を算出し、各コンテンツデータに、画像、意味および音響の全ての特徴量を関連づけることができる。
このようなコンテンツ検索装置1によれば、画像データに類似する音楽データ、動画データに類似する画像データなど、コンテンツの種別に関わらず、横断的に検索することができる。従って、ユーザは、コンテンツ検索装置1を使用してクエリコンテンツデータから類似するコンテンツデータを次々と検索することができる。ユーザは大量のコンテンツデータから所望のコンテンツデータを検索することができる。また、横断的に検索結果を出力することにより、画像データに似合う音楽データが検索されるなど、感覚的な検索結果を取得することができる。
(第1の変形例)
本発明の第1の変形例として、音響信号の繰り返し部分に着目した特徴量を算出する場合について説明する。ここで、繰り返し部分とは、例えば曲の「サビ」の部分である。
本発明の実施の形態においては、楽曲全体から特徴量を算出している。従って、算出される特徴量はその時間長により平滑化されてしまい、抽出精度が劣化する可能性がある。そこで、第1の変形例においては、楽曲の繰り返し区間を検出する手法を導入することで、楽曲中に最も多く現れる区間を検出し、その区間より得られる遷移行列を用いて楽曲間の類似度を算出する。このように、楽曲の繰り返し区間から算出される類似度を用いることで、第1の変形例においては、高精度な類似楽曲を抽出することができる。
本発明の第1の変形例に係るコンテンツ検索装置1aは、図1を参照して説明した本発明の実施の形態に係るコンテンツ検索装置1と比べて、音響特徴量算出手段13の処理が異なる。
音響特徴量算出手段13は、音響信号のうち繰り返し現れるメロディーを特定し、その繰り返しメロディーの特徴量を、音響特徴の特徴量とする。従って特徴量データ記憶部34に記憶される音響特徴は、音響信号の繰り返し区間についての特徴量であって、その楽曲の特徴にフォーカスをあてた特徴量であると考えられる。本発明の第1の変形例に異なるコンテンツ検索装置1aにおいて、音響特徴量算出手段13が処理する楽曲は、コンテンツデータ記憶部30の動画データ記憶部32に記憶された動画データのうち音響データ部分と、音楽データ記憶部33に記憶された音楽データである。
つぎに、本発明の第1の変形例に係る音響特徴量算出手段13の処理を説明する。音響特徴量算出手段13は、前処理として楽曲信号を固定長のフレームに分割し、時刻tにおけるフレームから特徴量としてクロマベクトルXを算出する。さらに音響特徴量算出手段13は、全てのフレームの組み合わせに対して算出される類似度を用いることで、繰り返し区間を検出する。
具体的に音響特徴量算出手段13は、XとXt−l(0≦l≦t)間の相関係数を類似度r(t,l)(−1≦r(t、l)≦1)として求める。類似度r(t,l)を、横軸がt、縦軸がlのt−l平面に描画した場合、楽曲中の繰り返し区間に対応して、類似度が連続して高くなる領域が時間軸に並行な線分として現れる。したがって、このような線分を検出することで、音響特徴量算出手段13は、楽曲中の繰り返し区間を得ることができる。
ただし、各要素がほぼ等しいクロマベクトルは、他のクロマベクトルとの類似度が高くなってしまう傾向があり、t−l平面中に類似度の高い直線として現れる場合がある。このような直線を除去するために、本発明の第1の変形例に係る音響特徴量算出手段13は、移動平均フィルタを用いて時間軸に並行な線分を強調することで、高精度に繰り返し区間を検出する。
本発明の第1の変形例では、このように得られる楽曲の繰り返し区間の中から、最も多く繰り返されるメロディーを含む区間に注目する。一般に、楽曲中で最も代表的な主題が提示される部分は繰り返されることが多いことから、音響特徴量算出手段13は、このような区間から抽出される特徴量を用いることで、楽曲間の適切な類似度を算出する。
次に、音響特徴量算出手段13が、繰り返し区間から、楽曲の音階の遷移を表す特徴量を算出する処理を説明する。本発明の第1の変形例では、クロマベクトルXからXt+1への時間変化が、遷移行列Aを用いて次式によって表される。
このとき、繰り返し区間中のtに関する
の平均を最小とする行列Aは、次式のように得られる。
ただし、X、Xt+1は、それぞれ、
で表される。ここで、Tは、繰り返し区間から算出されるクロマベクトルの総数を表す。このように得られる遷移行列のサイズは、L×L(L=12)である。
本発明の第1の変形例においては、式(4)により遷移行列Aを算出することにより、従来では困難であった、音階の遷移を表す特徴量を得ることができる。
次に、音響特徴量算出手段13は、音階の遷移を表す特徴量を用いて、その遷移行列の相関係数を、楽曲間の類似度として算出する。
ここで、クエリ楽曲の繰り返し区間n(n=1,2,・・・N;Nは繰り返し区間の総数)より算出される音階の遷移行列を
、コンテンツデータ記憶部30に記憶された楽曲の繰り返し区間m(m=1,2,・・・M;Mは繰り返し区間の総数)より算出される音階の遷移行列を
とする。
このとき音響特徴量算出手段13は、クエリ楽曲の繰り返し区間nとコンテンツデータ記憶部30に記憶された楽曲の繰り返し区間mの相関係数を、次式により算出する。
ただし、
は、次式により得られる。
(第2の変形例)
図25を参照して、本発明の第2の変形例に係るコンテンツ検索装置1bを説明する。図25に示すコンテンツ検索装置1bは、図1に示す本発明の実施の形態に係るコンテンツ検索装置1と比較して、記憶装置107がユーザ嗜好データ記憶部36および重要ユーザデータ記憶部37を備えている点と、中央処理制御装置101が、重要ユーザ決定手段17を備えている点が異なる。また、図25において距離算出手段15aおよび表示手段16aの処理は、図1に示した距離算出手段15および表示手段16のそれぞれの処理と一部の処理が異なる。
ユーザ嗜好データ記憶部36は、ユーザ嗜好データ36aが記憶された記憶領域である。ユーザ嗜好データ36aは、ユーザ識別子と、当該ユーザの嗜好に合うコンテンツ識別子とが関連づけられたデータである。
ユーザ嗜好データ36aは例えば、ユーザによって使用されるユーザ端末で保存されているプレイリストから生成されても良い。コンテンツ検索装置1bは、ユーザ端末から、ユーザの識別子とプレイリストで記録されているコンテンツの識別子とを受信して、ユーザ嗜好データ36aを生成しても良い。
また、ユーザ嗜好データ36aは、例えば、ユーザ端末に嗜好にあうコンテンツを入力する画面を表示し、ユーザによって個別に特定されたコンテンツをコンテンツ検索装置1bが受信して、ユーザの識別子とその受信したコンテンツ識別子とを関連づけることにより、ユーザ嗜好データ36aを生成しても良い。
重要ユーザデータ記憶部37には、重要ユーザデータ37aが記憶されている。重要ユーザデータ37aは、そのコンテンツを好むユーザの集合のうち、その集合を代表する重要ユーザの識別子が記憶されたデータである。従って、重要ユーザデータ37aは、コンテンツの識別子と、そのコンテンツの重要ユーザの識別子が対応づけられたデータである。
後述する重要ユーザ決定手段17が、重要ユーザを決定するとともに、重要ユーザデータ37aを生成して、重要ユーザデータ記憶部37に記憶する。
重要ユーザは、一つのコンテンツについて一人だけ選ばれても良い。また、重要ユーザは、下記の式(6)で算出されるスコアが一定値以上のユーザであって、各コンテンツについて、複数のユーザが選ばれても良い。
重要ユーザ決定手段17は、各コンテンツ識別子について、ユーザ嗜好データ36aにおいて当該コンテンツに関連づけられたユーザ識別子の集合を作成するとともに、各集合において、ユーザ間に有向辺を作成し、各集合を代表する重要ユーザを決定する。重要ユーザは、例えば、その重要ユーザに関連づけられたコンテンツ識別子によって、他の多数のユーザの特徴を表現できるユーザである。重要ユーザは、入力されたキーワードに関して適格な情報を持つとされるユーザである。理想的には、重要ユーザには、比較的少ない数のコンテンツ識別子が関連づけられており、それらコンテンツ識別子が、他のユーザにも関連づけられていることが好ましい。
重要ユーザ決定手段17は、ユーザの嗜好に基づいてユーザ間に有向辺を作成し、ユーザのネットワークを形成する。ユーザが共通のコンテンツを有している場合に、有向辺(リンク)が設けられ、共通のコンテンツを有していない場合は、有向辺が設けられない。この有向辺は、所持しているコンテンツが多いユーザがリンク元となり、少ないユーザがリンク先となる。
重要ユーザ決定手段17は、このネットワークに対し、HITS(Hypertext Induced. Topic Selection)アルゴリズムを適用し、オーソリティを決定する。本発明の第2の変形例において重要ユーザ決定手段17は、このオーソリティとなるユーザを重要ユーザとして出力する。
図26を参照して、本発明の第2の変形例に係る重要ユーザ決定手段17による重要ユーザ決定処理を説明する。
まずステップS701において重要ユーザ決定手段17は、ユーザ嗜好データ36aを読み出し、ステップS702において、同一コンテンツを好むユーザの集合を作成する。このユーザの集合は、コンテンツ識別子1つに対して、1つ作成される。さらに、ステップS703において重要ユーザ決定手段17は、それぞれの集合において、ユーザの好むコンテンツに基づき、各ユーザ間に有向辺を作成する。
ステップS704において重要ユーザ決定手段17は、ステップS703において作成されたユーザ間が有向辺で関連づけられたコンテンツごとの集合を、ユーザのネットワークと定義する。ステップS705において重要ユーザ決定手段17は、ステップS704で定義されたネットワークに対し、HITSアルゴリズムを適用する。ステップS706において重要ユーザ決定手段17は、オーソリティを重要ユーザとして決定し、出力する。
距離算出手段15aは、ユーザ嗜好データ36aにおいて重要ユーザのユーザ識別子に関連づけられたコンテンツ識別子を抽出する。さらに距離算出手段15aは、特徴量データ34aから、抽出したコンテンツ識別子に対応する特徴量および特徴推定値を抽出し、その特徴量および特徴推定値に基づいて、各コンテンツデータの類似度を示す距離を算出する。
特徴量データ34aに記憶されている特徴量および特徴推定値に基づいて、各コンテンツデータの類似度を示す距離を算出する際、距離算出手段15aは、ユーザ嗜好データ36aにおいて重要ユーザのユーザ識別子に関連づけられたコンテンツ識別子を考慮して、各コンテンツデータの類似度を示す距離を算出する。
クエリコンテンツを好みとするユーザのネットワーク内における重要ユーザは、ネットワーク内の全てのユーザが好みとするコンテンツを適切に表現していると考えられる。従って、距離算出手段15aは、ユーザ嗜好データ36aにおいて重要ユーザの識別子に関連づけられたコンテンツ識別子の集合に対して、重要ユーザでないユーザの嗜好データを考慮することなく、主成分分析や正準相関分析を施しても良い。さらに距離算出手段15aは、主成分分析や正準相関分析した後、市街地距離やマハラノビス距離に基づいて距離を算出し、コンテンツ間の類似度を算出しても良い。特定の重要ユーザに関連づけられたコンテンツのみを用いて類似度を算出することにより、少ない計算量で、精度の高い類似度を算出することができる。
表示手段16aは、距離算出手段19によって算出された距離に基づいて、コンテンツデータに対応するサムネイルの表示位置を決定して、例えば図27に示すような画面を、表示装置105に表示する。さらに表示手段16aは、ユーザ嗜好データ36aにおいて、所定のコンテンツに関連づけられた複数のユーザの識別子を抽出し、複数のユーザの識別子のそれぞれをノードと、ユーザ間の有向辺を考慮したノード間のリンクを含むユーザネットワークを表示して、表示装置105に表示する。
このユーザネットワークが表示装置105に表示されると、ノードが選択されると、表示手段16aは、ユーザ嗜好データ36aにおいて、そのノードに対応するユーザの識別子に対応づけられたコンテンツの識別子を抽出し、そのコンテンツの識別子の一覧を表示手段16aに表示しても良い。例えば、ユーザは、自分の類似度の高いユーザ、すなわちユーザネットワークで近くに表示され、太いリンクで接続されたユーザのノードを選択して、そのユーザが興味を示しているコンテンツの一覧を参照することができる。これによりユーザは、自身と嗜好の近いユーザのコンテンツリストの中から、自分の嗜好に合ったコンテンツを把握することができる。
ここで、ユーザネットワークのリンクの距離は、特徴量の類似度によって決定される。また、ユーザネットワークのリンクの太さは、ユーザ嗜好データ36aにおいて、これらのユーザの識別子に関連づけられたコンテンツの識別子のうち、共通するコンテンツの識別子の数に対応する。例えば、ユーザの嗜好コンテンツの特徴量の類似度が高く、また共通するコンテンツを多く所有している場合、ノード間のリンクの長さは短くなり、そのリンクは太くなる。
このような本発明の第2の変形例に係るコンテンツ検索装置1bは、同一のコンテンツを好むユーザの集合を、コンテンツ毎に作成する。そして、各ユーザが好むコンテンツの包含関係に基づき、各ユーザ間に有向辺を作成する。これにより得られる有向グラフに対してリンク解析等を適用することで、それぞれのネットワークにおける重要ユーザを抽出することができる。
さらに、その重要ユーザの嗜好にあったコンテンツリストに基づいて、コンテンツの類似度を算出することにより、類似度の精度を維持しつつ、計算量を削減することができる。
また、このユーザネットワークを表示し、そのユーザの嗜好にあったコンテンツリストを取得することで、ユーザは、新たなコンテンツを知ることができる。
(詳細なアルゴリズム)
まず、重要ユーザ決定手段17による、HITSを用いたユーザの好みに基づくネットワークの作成処理を説明する。
本発明の第2の変形例において、各ユーザが同一のコンテンツを好む場合に、各々のユーザは同一のネットワークに属するものとする。また、各々のコンテンツに対応するネットワークは、各ユーザ間のリンク関係を要素とする次式で表される行列L(k∈{1,2,・・・,N;Nはコンテンツの総数})を用いて定義される。ここで、行列Lのi行j列の要素はL(i,j)で表される。ユーザiの好むコンテンツ総数は、Fで表される。ユーザiとユーザjが好む共通のコンテンツ数は、Ci,jで表される。
以上により、本発明の第2の変形例は、得られる行列Lに対してリンク解析等の処理を施すことにより、ユーザが好みとするコンテンツを考慮したネットワーク内における重要ユーザ(以降、オーソリティ(authority)とも呼ぶ)を抽出することができる。したがって、抽出されるオーソリティが好みとするコンテンツに注目し検索することにより、個々のユーザの嗜好を考慮した類似コンテンツを提示することができる。
以降では、ユーザの嗜好を考慮した類似コンテンツの検索を実現するため、オーソリティを抽出する具体的な方法の一例としてHITSアルゴリズムを用いた方法について説明する。
HITSは、入力されたキーワードに関して的確な情報をもつとされるユーザ(オーソリティ)と、これらのオーソリティに複数のリンクをもつユーザ(ハブ)を、リンク解析により求める手法である。このようなオーソリティとハブは、「良いオーソリティは複数のハブからリンクを張られ、また良いハブは複数のオーソリティへリンクを張る」と再帰的に定義される。この定義に基づいてリンク解析によりスコア付けを行うことでオーソリティおよびハブが求められる。
ここで、本発明においてリンクは、ユーザ嗜好データにおいて各ユーザに関連づけられた好みのコンテンツの特徴量によって算出される。例えば、画像データについてユーザが青の画像が多い場合、同じく青の画像が多いユーザと、太いリンクで結ばれることになる。
以下において、HITSの処理手順が示される。
手順(1)
全てのユーザをベース集合とし、ベース集合に属するユーザのリンクパターンを全て調べ、隣接行列L=[lij]が作成される。ここで隣接行列は、ユーザiからユーザjへのリンクが存在する場合にはlij=1とし、それ以外は0とした行列である。ただし、HITSでは、同一ホストlに属するユーザ間のリンクの存在は無視して、隣接行列が作成される。
手順(2)
ユーザiに対し、オーソリティスコアaと、ハブスコアhの2種類のスコアが、式(6)および式(7)のようにそれぞれ定義される。さらに、式(6)、式(7)により両スコアが算出される。
ここで、nは、ベース集合に属するユーザの総数を表す。αおよびβは、正規化定数を表す。「式(6)で得られるaを、式(7)のaに代入」する処理と、「式(7)で得られるhを式(6)のhに代入」する処理とが、aとhが変化しなくなるまで繰り返されて更新される。この更新処理が、ベース集合に含まれる全てのユーザに対して行われる。
手順(3)
オーソリティスコアが大きいユーザ、ハブスコアが大きいユーザをそれぞれオーソリティ、ハブとする。この手順(3)を、各ユーザのオーソリティスコアとハブスコアが収束するまで反復する。
式(6)では、ユーザiにリンクを張るユーザのハブスコアの総和から、ユーザiのオーソリティスコアを算出する。また式(7)では、ユーザiからリンクを張られているユーザのオーソリティスコアの総和からユーザiのハブスコアを算出している。この算出処理を収束するまで繰り返すことにより、重要ユーザ決定手段17は、上で述べた再帰的な定義に適合するオーソリティとハブを得る。
次に、重要ユーザ決定手段17によるオーソリティに基づいた、距離算出手段15aの距離算出処理を説明する。
本発明の第2の変形例では、本発明の実施の形態で説明した距離算出法を用いることで、上述したHITSにより決定されるオーソリティが好みとするコンテンツの特徴を考慮して、距離を算出する。距離の算出方法について以下で、市街地距離に基づく距離算出と、マハラノビス汎距離に基づく距離算出とについて説明する。
まず、市街地距離に基づく距離算出処理を説明する。
距離算出手段15aは、HITSにより決定されるオーソリティが好みとするコンテンツの集合に対して、本発明の実施の形態の距離算出手段15で説明した主成分分析あるいは正準相関分析を施す。これにより距離算出手段15aは、行列UおよびW、W、W、Λva=Λ(av)、Λaw=Λ(wa)、Λvw=Λ(wv)を求め、ベクトルxpcaおよびベクトルxccaを得る。さらに距離算出手段15aは、本発明の実施の形態の距離算出手段15で説明した算出方法に従い、ベクトルpcaおよびベクトルxccaを用いて距離を算出する。
次に、マハラノビス汎距離に基づく距離算出処理を説明する。
距離算出手段15aは、HITSにより決定されるクエリコンテンツqに対するオーソリティが好みとする全コンテンツを用いて、重み行列を算出する。ここで、オーソリティが好みとする全コンテンツとは、ユーザ嗜好データ36aにおいて、オーソリティであるユーザの識別子に関連づけられたコンテンツ識別子に対応するコンテンツである。重み行列は、下記の式によって算出される。
距離算出手段15aは、以上の重み行列を用いて、本発明の実施の形態の距離算出手段15で説明した算出方法に従い、距離を算出する。
ここで、クエリコンテンツを好みとするユーザのネットワーク内におけるオーソリティはネットワーク内の全てのユーザが好みとするコンテンツを適切に表現している。したがって、距離算出手段15aは、以上のように距離を算出することで、オーソリティが好みとするコンテンツを考慮した距離に対する重み付けが可能となる。これにより、コンテンツ検索装置1bは、ユーザの嗜好を反映した類似コンテンツの検索または分類を実現することができる。
次に、表示手段16aが表示するユーザネットワークについて詳述する。
本発明の第2の変形例において、動画像信号等のコンテンツの再生中にユーザネットワーク表示が、ユーザによって操作されることにより、再生中のコンテンツを好みとするユーザのネットワークが構築され、表示手段16aは、その構築結果を表示装置105に表示する。ユーザネットワークは、多次元尺度構成法によって算出された3次元空間の座標位置関係に基づいて表示される。ユーザネットワークにおいて、ネットワーク内に存在する各ユーザはノードして表示される。ネットワーク内の任意のユーザが選択されると、表示手段16aは、そのユーザが好みとするコンテンツの一覧を表示する。
ここで表示手段16aは、選択されたユーザと、ネットワーク内におけるオーソリティとなるユーザと、ハブとなるユーザを、それぞれ異なる色や模様で表示する。また、ネットワークにおけるユーザ同士のリンク関係を、線の太さとボールの流れで表現する。本発明の第2の変形例では、リンク元からリンク先にボールが流れるように表示をすることにより、リンクの方向を表示する。このとき、式(5)で算出されるネットワークを表現する行列の要素の値に従って、その値が大きいほど線を太く、そのリンク方向をボールの流れで表現する。
以上により可視化されるユーザネットワークは、各ユーザの嗜好を反映したユーザ同士のリンク関係やその度合いを視覚的に表現することができる。さらに、ユーザが好みとするコンテンツをクエリとして検索操作が入力されると、表示手段16aは、表示される検索結果をクエリを中心として多次元尺度構成法を用いて算出された2次元空間の座標に基づいて、座標を再計算し配置して表示する。これにより、ネットワーク内のユーザの嗜好を反映した検索結果が表示され、表示されている複数のコンテンツの位置関係によって、ユーザに、コンテンツ同士が類似する度合いを視覚的に把握させることができる。
(その他の実施の形態)
上記のように、本発明の実施の形態、第1の変形例および第2の変形例によって記載したが、この開示の一部をなす論述及び図面はこの発明を限定するものであると理解すべきではない。この開示から当業者には様々な代替実施の形態、実施例及び運用技術が明らかとなる。
例えば、本発明の実施の形態に記載したコンテンツ検索装置は、図1に示すように一つのハードウェア上に構成されても良いし、その機能や処理数に応じて複数のハードウェア上に構成されても良い。又、既存の情報システム上に実現されても良い。
本発明はここでは記載していない様々な実施の形態等を含むことは勿論である。従って、本発明の技術的範囲は上記の説明から妥当な特許請求の範囲に係る発明特定事項によってのみ定められるものである。

Claims (12)

  1. 異なる種別のコンテンツデータについて、類似するコンテンツデータを検索するコンテンツ検索装置であって、
    画像特徴、音響特徴および意味特徴のうちいずれか一つ以上を有する複数のコンテンツデータが、コンテンツ識別子に対応づけて記憶装置に記憶されたコンテンツデータ記憶部と、
    前記コンテンツデータ記憶部に記憶された各コンテンツデータについて、各コンテンツデータが有する画像特徴、音響特徴および意味特徴のうちいずれか一つ以上の特徴量を算出し、前記コンテンツ識別子と、画像特徴、音響特徴および意味特徴の特徴種別と、その特徴量とを関連づけた特徴量データを、前記記憶装置に記憶する特徴量算出手段と、
    前記特徴量データにおいて、前記コンテンツ識別子に対応づけられた特徴種別の特徴量から、前記コンテンツ識別子に対応づけられていない特徴種別の未知の特徴量を算出し、特徴推定値として前記特徴量データに記憶する未知特徴量算出手段と、
    前記特徴量データに記憶されている前記特徴量および前記特徴推定値に基づいて、各コンテンツデータの類似度を示す距離を算出する距離算出手段と、
    前記距離算出手段によって算出された距離に基づいて、前記コンテンツデータに対応するサムネイルの表示位置を決定して、表示装置に表示する表示手段
    とを備えることを特徴とするコンテンツ検索装置。
  2. 前記未知特徴量算出手段は、前記特徴量データにおいて、前記コンテンツ識別子に対応づけられた特徴種別の特徴量から、主成分分析を用いて前記特徴推定値を算出する
    ことを特徴とする請求項1に記載のコンテンツ検索装置。
  3. 前記未知特徴量算出手段は、前記特徴量データにおいて、前記コンテンツ識別子に対応づけられた特徴種別の特徴量から、正準相関分析を用いて前記特徴推定値を算出する
    ことを特徴とする請求項1に記載のコンテンツ検索装置。
  4. 前記特徴量算出手段は、音響特徴の特徴量を算出する際、音響信号のうち繰り返し現れるメロディーを特定し、その繰り返しメロディーの特徴量を、前記音響特徴の特徴量とする
    ことを特徴とする請求項1に記載のコンテンツ検索装置。
  5. ユーザ識別子と、当該ユーザの嗜好に合うコンテンツ識別子とが関連づけられたユーザ嗜好データが、前記記憶装置に記憶されたユーザ嗜好データ記憶部と、
    各前記コンテンツ識別子について、前記ユーザ嗜好データにおいて当該コンテンツに関連づけられたユーザ識別子の集合を作成するとともに、各集合において、ユーザ間に有向辺を作成し、各集合を代表する重要ユーザを決定する重要ユーザ決定手段と、をさらに備え、
    前記距離算出手段は、前記ユーザ嗜好データにおいて前記重要ユーザのユーザ識別子に関連づけられた前記コンテンツ識別子を抽出し、抽出した前記コンテンツ識別子に対応する前記特徴量および前記特徴推定値に基づいて、各コンテンツデータの類似度を示す距離を算出する
    ことを特徴とする請求項1に記載のコンテンツ検索装置。
  6. 前記表示手段はさらに、前記ユーザ嗜好データにおいて、所定のコンテンツに関連づけられた複数のユーザの識別子を抽出し、前記複数のユーザの識別子のそれぞれをノードと、前記ユーザ間の有向辺を考慮した前記ノード間のリンクを含むユーザネットワークを表示して、表示装置に表示する
    ことを特徴とする請求項5に記載のコンテンツ検索装置。
  7. 異なる種別のコンテンツデータについて、類似するコンテンツデータを検索するコンテンツ検索プログラムであって、
    コンピュータに、
    画像特徴、音響特徴および意味特徴のうちいずれか一つ以上を有する複数のコンテンツデータが、コンテンツ識別子に対応づけて記憶装置に記憶された各コンテンツデータについて、各コンテンツデータが有する画像特徴、音響特徴および意味特徴のうちいずれか一つ以上の特徴量を算出し、前記コンテンツ識別子と、画像特徴、音響特徴および意味特徴の特徴種別と、その特徴量とを関連づけた特徴量データを、前記記憶装置に記憶する特徴量算出手段と、
    前記特徴量データにおいて、前記コンテンツ識別子に対応づけられた特徴種別の特徴量から、前記コンテンツ識別子に対応づけられていない特徴種別の未知の特徴量を算出し、特徴推定値として前記特徴量データに記憶する未知特徴量算出手段と、
    前記特徴量データに記憶されている前記特徴量および前記特徴推定値に基づいて、各コンテンツデータの類似度を示す距離を算出する距離算出手段と、
    前記距離算出手段によって算出された距離に基づいて、前記コンテンツデータに対応するサムネイルの表示位置を決定して、表示装置に表示する表示手段
    とを備えることを特徴とするコンテンツ検索プログラム。
  8. 前記未知特徴量算出手段は、前記特徴量データにおいて、前記コンテンツ識別子に対応づけられた特徴種別の特徴量から、主成分分析を用いて前記特徴推定値を算出する
    ことを特徴とする請求項7に記載のコンテンツ検索プログラム。
  9. 前記未知特徴量算出手段は、前記特徴量データにおいて、前記コンテンツ識別子に対応づけられた特徴種別の特徴量から、正準相関分析を用いて前記特徴推定値を算出する
    ことを特徴とする請求項7に記載のコンテンツ検索プログラム。
  10. 前記特徴量算出手段は、音響特徴の特徴量を算出する際、音響信号のうち繰り返し現れるメロディーを特定し、その繰り返しメロディーの特徴量を、前記音響特徴の特徴量とする
    ことを特徴とする請求項7に記載のコンテンツ検索プログラム。
  11. ユーザ識別子と、当該ユーザの嗜好に合うコンテンツ識別子とが関連づけられたユーザ嗜好データが、前記記憶装置に記憶されたユーザ嗜好データにおいて当該コンテンツに関連づけられたユーザ識別子の集合を、各前記コンテンツ識別子について作成するとともに、各集合において、ユーザ間に有向辺を作成し、各集合を代表する重要ユーザを決定する重要ユーザ決定手段と、をさらに前記コンピュータに実行させ、
    前記距離算出手段は、前記ユーザ嗜好データにおいて前記重要ユーザのユーザ識別子に関連づけられた前記コンテンツ識別子を抽出し、抽出した前記コンテンツ識別子に対応する前記特徴量および前記特徴推定値に基づいて、各コンテンツデータの類似度を示す距離を算出する
    ことを特徴とする請求項7に記載のコンテンツ検索プログラム。
  12. 前記表示手段はさらに、前記ユーザ嗜好データにおいて、所定のコンテンツに関連づけられた複数のユーザの識別子を抽出し、前記複数のユーザの識別子のそれぞれをノードと、前記ユーザ間の有向辺を考慮した前記ノード間のリンクを含むユーザネットワークを表示して、表示装置に表示する
    ことを特徴とする請求項11に記載のコンテンツ検索プログラム。
JP2010536802A 2008-11-07 2009-11-06 コンテンツ検索装置およびコンテンツ検索プログラム Active JP5344715B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US19323208P 2008-11-07 2008-11-07
US61/193,232 2008-11-07
PCT/JP2009/069005 WO2010053160A1 (ja) 2008-11-07 2009-11-06 コンテンツ検索装置およびコンテンツ検索プログラム

Publications (2)

Publication Number Publication Date
JPWO2010053160A1 JPWO2010053160A1 (ja) 2012-04-05
JP5344715B2 true JP5344715B2 (ja) 2013-11-20

Family

ID=42152967

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010536802A Active JP5344715B2 (ja) 2008-11-07 2009-11-06 コンテンツ検索装置およびコンテンツ検索プログラム

Country Status (3)

Country Link
US (1) US9077949B2 (ja)
JP (1) JP5344715B2 (ja)
WO (1) WO2010053160A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101942459B1 (ko) * 2016-06-01 2019-01-28 네이버 주식회사 음원 컨텐츠 및 메타 정보를 이용한 플레이리스트 자동 생성 방법 및 시스템
KR20190009821A (ko) * 2019-01-21 2019-01-29 네이버 주식회사 음원 컨텐츠 및 메타 정보를 이용한 플레이리스트 자동 생성 방법 및 시스템

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8788588B2 (en) * 2006-05-03 2014-07-22 Samsung Electronics Co., Ltd. Method of providing service for user search, and apparatus, server, and system for the same
JP5515890B2 (ja) * 2010-03-15 2014-06-11 オムロン株式会社 画像処理装置、画像処理方法、画像処理システム、制御プログラムおよび記録媒体
FR2959037A1 (fr) * 2010-04-14 2011-10-21 Orange Vallee Procede de creation d'une sequence media par groupes coherents de fichiers medias
US8918414B2 (en) * 2010-04-28 2014-12-23 Rakuten, Inc. Information providing device, information providing method, information providing processing program, and recording medium having information providing processing program recorded thereon
US9230019B2 (en) * 2010-12-23 2016-01-05 Virtuanet Llc Semantic information processing
JP5408208B2 (ja) 2011-03-30 2014-02-05 カシオ計算機株式会社 画像表示システム、画像表示装置並びにプログラム
US20120259792A1 (en) * 2011-04-06 2012-10-11 International Business Machines Corporation Automatic detection of different types of changes in a business process
US8819012B2 (en) * 2011-08-30 2014-08-26 International Business Machines Corporation Accessing anchors in voice site content
US9384272B2 (en) * 2011-10-05 2016-07-05 The Trustees Of Columbia University In The City Of New York Methods, systems, and media for identifying similar songs using jumpcodes
JP5862243B2 (ja) * 2011-11-30 2016-02-16 キヤノンマーケティングジャパン株式会社 情報処理装置、及びその制御方法、プログラム
JP5375944B2 (ja) * 2011-12-28 2013-12-25 カシオ計算機株式会社 画像の表示制御装置、画像表示システム、画像表示方法並びにプログラム
JP2013137667A (ja) * 2011-12-28 2013-07-11 Nec Corp データ管理システムおよびデータ管理方法
US20130226957A1 (en) * 2012-02-27 2013-08-29 The Trustees Of Columbia University In The City Of New York Methods, Systems, and Media for Identifying Similar Songs Using Two-Dimensional Fourier Transform Magnitudes
JP5367112B2 (ja) * 2012-03-22 2013-12-11 株式会社東芝 データ分析支援装置およびデータ分析支援処理プログラム
AU2012202352A1 (en) * 2012-04-20 2013-11-07 Canon Kabushiki Kaisha Method, system and apparatus for determining a hash code representing a portion of an image
US10204170B2 (en) 2012-12-21 2019-02-12 Highspot, Inc. News feed
US10055418B2 (en) 2014-03-14 2018-08-21 Highspot, Inc. Narrowing information search results for presentation to a user
JP6018014B2 (ja) * 2013-04-24 2016-11-02 日本電信電話株式会社 情報処理装置、特徴量変換システム、表示制御方法及び表示制御プログラム
JP5851455B2 (ja) * 2013-08-06 2016-02-03 日本電信電話株式会社 共通信号含有区間有無判定装置、方法、及びプログラム
US9465995B2 (en) 2013-10-23 2016-10-11 Gracenote, Inc. Identifying video content via color-based fingerprint matching
US9984310B2 (en) * 2015-01-23 2018-05-29 Highspot, Inc. Systems and methods for identifying semantically and visually related content
JP6368677B2 (ja) * 2015-04-06 2018-08-01 日本電信電話株式会社 写像学習方法、情報圧縮方法、装置、及びプログラム
US11062228B2 (en) * 2015-07-06 2021-07-13 Microsoft Technoiogy Licensing, LLC Transfer learning techniques for disparate label sets
JP6461773B2 (ja) * 2015-11-30 2019-01-30 日本電信電話株式会社 ベクトル量子化器生成方法、ベクトル量子化方法、装置、及びプログラム
US9645999B1 (en) 2016-08-02 2017-05-09 Quid, Inc. Adjustment of document relationship graphs
EP3842904A1 (en) * 2017-05-12 2021-06-30 QlikTech International AB Interactive data exploration
US11157553B2 (en) 2017-05-25 2021-10-26 J.W. Pepper & Son, Inc. Sheet music search and discovery system
US10885900B2 (en) 2017-08-11 2021-01-05 Microsoft Technology Licensing, Llc Domain adaptation in speech recognition via teacher-student learning
US11182424B2 (en) * 2018-05-08 2021-11-23 Spotify Ab Image based content search and recommendations
US11055349B2 (en) * 2018-12-28 2021-07-06 Intel Corporation Efficient storage and processing of high-dimensional feature vectors
US11263493B2 (en) 2019-06-25 2022-03-01 Spotify Ab Automatic metadata detector based on images
CN111324773A (zh) * 2020-02-12 2020-06-23 腾讯科技(深圳)有限公司 一种背景音乐构建方法、装置、电子设备和存储介质
US20240015370A1 (en) * 2020-11-13 2024-01-11 Sony Group Corporation Information processing apparatus, information processing method, and information processing program

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001031503A1 (fr) * 1999-10-27 2001-05-03 Fujitsu Limited Dispositif et procede de structuration/tri d'informations multimedia
JP2006344155A (ja) * 2005-06-10 2006-12-21 Hokkaido Univ 画像表示位置決定装置、画像表示位置決定方法、画像表示位置決定プログラム、及びこれを記録したコンピュータ読取可能な記録媒体

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6041311A (en) * 1995-06-30 2000-03-21 Microsoft Corporation Method and apparatus for item recommendation using automated collaborative filtering
US6430307B1 (en) * 1996-06-18 2002-08-06 Matsushita Electric Industrial Co., Ltd. Feature extraction system and face image recognition system
US6480841B1 (en) * 1997-09-22 2002-11-12 Minolta Co., Ltd. Information processing apparatus capable of automatically setting degree of relevance between keywords, keyword attaching method and keyword auto-attaching apparatus
US6629097B1 (en) * 1999-04-28 2003-09-30 Douglas K. Keith Displaying implicit associations among items in loosely-structured data sets
AU2001283004A1 (en) * 2000-07-24 2002-02-05 Vivcom, Inc. System and method for indexing, searching, identifying, and editing portions of electronic multimedia files
EP2273388A1 (en) 2000-10-20 2011-01-12 Sharp Kabushiki Kaisha Dynamic image content search information managing apparatus
JP4695853B2 (ja) 2003-05-26 2011-06-08 パナソニック株式会社 音楽検索装置
US7231389B2 (en) 2003-05-26 2007-06-12 Matsushita Electric Industrial Co., Ltd. Music search device
WO2007066450A1 (ja) * 2005-12-08 2007-06-14 Nec Corporation 楽曲における区画を抽出する区画自動抽出システム、区画自動抽出方法および区画自動抽出プログラム
JP2007193222A (ja) * 2006-01-20 2007-08-02 Casio Comput Co Ltd メロディ入力装置及び楽曲検索装置
JP4670803B2 (ja) * 2006-12-04 2011-04-13 株式会社デンソー 操作推定装置およびプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001031503A1 (fr) * 1999-10-27 2001-05-03 Fujitsu Limited Dispositif et procede de structuration/tri d'informations multimedia
JP2006344155A (ja) * 2005-06-10 2006-12-21 Hokkaido Univ 画像表示位置決定装置、画像表示位置決定方法、画像表示位置決定プログラム、及びこれを記録したコンピュータ読取可能な記録媒体

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CSNG200800796009; 道山 大悟、長谷山 美紀: '映像検索のための画像及び音響信号によるシーン間の相違度定義に関する検討' 電子情報通信学会技術研究報告 第107巻、第488号, 20080211, p.55-59, 社団法人電子情報通信学会 *
CSNG200800796011; 小川 貴弘、長谷山 美紀: 'カーネル主成分分析を用いた画像の意味的特徴量の推定法に関する考察' 電子情報通信学会技術研究報告 第107巻、第488号, 20080211, p.67-72, 社団法人電子情報通信学会 *
JPN6013035566; 道山 大悟、長谷山 美紀: '映像検索のための画像及び音響信号によるシーン間の相違度定義に関する検討' 電子情報通信学会技術研究報告 第107巻、第488号, 20080211, p.55-59, 社団法人電子情報通信学会 *
JPN6013035568; 小川 貴弘、長谷山 美紀: 'カーネル主成分分析を用いた画像の意味的特徴量の推定法に関する考察' 電子情報通信学会技術研究報告 第107巻、第488号, 20080211, p.67-72, 社団法人電子情報通信学会 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101942459B1 (ko) * 2016-06-01 2019-01-28 네이버 주식회사 음원 컨텐츠 및 메타 정보를 이용한 플레이리스트 자동 생성 방법 및 시스템
KR20190009821A (ko) * 2019-01-21 2019-01-29 네이버 주식회사 음원 컨텐츠 및 메타 정보를 이용한 플레이리스트 자동 생성 방법 및 시스템
KR102031282B1 (ko) * 2019-01-21 2019-10-11 네이버 주식회사 음원 컨텐츠 및 메타 정보를 이용한 플레이리스트 자동 생성 방법 및 시스템

Also Published As

Publication number Publication date
JPWO2010053160A1 (ja) 2012-04-05
US20110225153A1 (en) 2011-09-15
WO2010053160A1 (ja) 2010-05-14
US9077949B2 (en) 2015-07-07

Similar Documents

Publication Publication Date Title
JP5344715B2 (ja) コンテンツ検索装置およびコンテンツ検索プログラム
CN103793446B (zh) 音乐视频的生成方法和系统
US11636342B2 (en) Searching for music
EP1703491B1 (en) Method for classifying audio data
EP1615204B1 (en) Method for classifying music
JP2008090612A (ja) 情報処理装置および方法、プログラム、並びに記録媒体
JP4560544B2 (ja) 楽曲検索装置、楽曲検索方法および楽曲検索プログラム
JP2011060182A (ja) コンテンツ選択システム
JP5527548B2 (ja) 情報分析装置、情報分析方法、及びプログラム
Melo et al. Graph-based feature extraction: A new proposal to study the classification of music signals outside the time-frequency domain
JP5161867B2 (ja) コンテンツ空間形成装置、その方法、コンピュータ、プログラムおよび記録媒体
JP2002373177A (ja) 類似オブジェクト検索方法及び装置
CN106663110B (zh) 音频序列对准的概率评分的导出
JP4305836B2 (ja) コンテンツ検索表示装置およびコンテンツ検索表示方法
Balkema et al. Music playlist generation by assimilating GMMs into SOMs
JP2000067081A (ja) 文書検索方法、そのプログラムを記録した記録媒体、及び文書検索装置
JP2003316819A (ja) オブジェクト分類検索装置及びそれを実行するためのプログラム
Wan et al. Content-based audio retrieval with relevance feedback
JP2007183927A (ja) 情報処理装置および方法、並びにプログラム
JP4346531B2 (ja) テキストデータ学習分析システム、テキストデータ学習装置、テキストデータ分析装置、方法及びプログラム
JP2022033579A (ja) 楽曲構造解析装置
Lashari et al. Performance comparison of musical instrument family classification using soft set
Chen et al. Hierarchical representation based on Bayesian nonparametric tree-structured mixture model for playing technique classification
EP4250134A1 (en) System and method for automated music pitching
Moffat Evaluation of Synthesised Sound Effects

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121101

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20121101

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130723

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130809

R150 Certificate of patent or registration of utility model

Ref document number: 5344715

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250