JP5145939B2 - 楽曲における区画を抽出する区画自動抽出システム、区画自動抽出方法および区画自動抽出プログラム - Google Patents

楽曲における区画を抽出する区画自動抽出システム、区画自動抽出方法および区画自動抽出プログラム Download PDF

Info

Publication number
JP5145939B2
JP5145939B2 JP2007549033A JP2007549033A JP5145939B2 JP 5145939 B2 JP5145939 B2 JP 5145939B2 JP 2007549033 A JP2007549033 A JP 2007549033A JP 2007549033 A JP2007549033 A JP 2007549033A JP 5145939 B2 JP5145939 B2 JP 5145939B2
Authority
JP
Japan
Prior art keywords
section
frequent
segment
identification information
music
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007549033A
Other languages
English (en)
Other versions
JPWO2007066450A1 (ja
Inventor
昭雄 山田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2007549033A priority Critical patent/JP5145939B2/ja
Publication of JPWO2007066450A1 publication Critical patent/JPWO2007066450A1/ja
Application granted granted Critical
Publication of JP5145939B2 publication Critical patent/JP5145939B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/061Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction of musical phrases, isolation of musically relevant segments, e.g. musical thumbnail generation, or for temporal structure analysis of a musical piece, e.g. determination of the movement sequence of a musical work
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/121Musical libraries, i.e. musical databases indexed by musical parameters, wavetables, indexing schemes using musical parameters, musical rule bases or knowledge bases, e.g. for automatic composing methods
    • G10H2240/131Library retrieval, i.e. searching a database or selecting a specific musical piece, segment, pattern, rule or parameter set

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、楽曲における印象的な区画を自動抽出する区画自動抽出システム、区画自動抽出方法および区画自動抽出プログラムに関する。
楽曲の音響データから特徴的な区画を抽出する区画抽出システムの一例が、特許文献1に記載されている。
図1は、従来の区画抽出システムの構成例を示すブロック図である。図1に示すように、従来の区画抽出システムは、小フレーム分割手段501と、フレーム特徴量抽出手段502と、フレーム特徴量比較手段503と、共通区画抽出手段504と、後処理手段505とを備える。
このような構成を有する従来の区画抽出システムは、次のように動作する。
小フレーム分割手段501は、入力された音響信号を、複数のフレームに分割する。なお、フレームは、音響データを微小時間間隔で区切ることによって生成される各要素である。
次に、フレーム特徴量抽出手段502は、フレーム毎に、音響信号を特徴付ける12次元ベクトルを生成する。フレーム特徴量比較手段503は、楽曲を構成する全フレームの12次元ベクトルをそれぞれ比較することによって、フレーム間における類似度を算出する。フレーム特徴量比較手段503は、得られた類似度を閾値に基づいて処理することで、複数の同一または同一に近いフレームのペアを示したリストを生成する。
共通区画抽出手段504は、同一フレームが同じ順序で出現する区画を抜き出すことによって、その楽曲で繰り返し現れるフレーズを抽出することができる。
最後に、後処理手段505は、繰り返し現れるフレーズの中から、仮定された「さび」定義に該当する部分を選び出し、その部分を、楽曲における特徴的な区画として、自動抽出する。
特許文献2には、BGM(Background Music)が流れることが多い、テレビジョン番組内で盛り上がるシーンおよび重要なシーンを容易に検索でき、そのシーンからの頭出し再生が可能な録画装置の例が記載されている。
特許文献3には、時間的に連続する検索キーによる音声音楽信号の検索において、非定常な雑音を含む音声音楽信号を精度よく、高速に検索できる、前後の検索結果利用型類似音楽検索装置の例が記載されている。
特許文献4および5には、時間情報とともに記憶された特徴量列の間で共通する部分を、部分対部分で比較することにより探す技術の例が記載されている。
特開2004−233965号公報(段落0038−0045) 特開2004−140675号公報(段落0010−0012) 特開2004−333605号公報(段落0022−0028) 特許第3451985号公報(段落0020−0023) 特開2003−196658号公報(段落0028−0030)
既存の区画抽出方式は、必ずしも一般的なユーザにとって印象的な区画を自動抽出することができないという問題点を有する。
特許文献1に記載された方式では、楽曲内でのメロディの周期性に着目して、繰り返されるメロディを自動的に抜き出すことによって、「特徴的な区画(さびと称する)」が抽出される。
しかしながら、あくまで頻繁に繰り返される部分が選ばれるため、その区画は必ずしもユーザが認知している特徴的な区画とは限らない。
たとえ、あるショートフレーズが楽曲中で1度しか流れなくても、ユーザがそのシュートフレーズを積極的にまたは受動的に何度か聞いた経験があるならば、そのショートフレーズこそ特徴的な区画として定義することが望ましい。
あるいは、ユーザが、あるショートフレーズを一度しか聞いたことがなくても、ユーザがそのシュートフレーズを聴取した時に、例えばそれと関連づけられた映像など他のメディアにおいて強い印象を受けたことがあるならば、そのシュートフレーズこそ特徴的な区画として定義することが望ましい。
特許文献2に記載された録画装置は、テレビジョン番組の音声信号をチェックしてBGMの開始部分およびBGMの切り替わった部分を検出し、検出箇所のサムネイル画像を生成する。
しかし、生成されるサムネイル画像は、単にBGMの開始部分およびBGMの切り替わった部分に過ぎない。そのような検索処理に関わる技術にもとづいて、楽曲における区画を抽出するための構成が想起されることは不可能である。
また、特許文献3に記載された類似音楽検索装置は、音声音楽信号から逐次的に切り出した各信号部分のような時間的に連続する複数の信号の特徴量を検索キーとする場合に、検索キーに類似する部分を高速に検索する。そのため、ユーザが認知している特徴的な区画が検索されるとは限らない。
そこで、本発明は、一般ユーザに広く認知されている可能性が高いと推定される部位を楽曲中に表れる回数とは無関係に自動的に抽出し、抽出した部位を楽曲における印象的な区画として種々のアプリケーションに提供可能な区画自動抽出システム、区画自動抽出方法および区画自動抽出プログラムを提供することを目的とする。
本発明による区画自動抽出システムは、楽曲の印象的な区画を示す情報を自動抽出する区画自動抽出システムであって、音響信号を含む一つ以上のコンテンツ情報中に繰り返し出現する前記音響信号の一部を含む区画を、頻出区画として特定し、前記頻出区画を抽出する頻出区画抽出部と、音響信号を含む楽曲信号中に、前記頻出区画抽出部が抽出した頻出区画が存在するか否かを判断する共通区画判断部と、前記共通区画判断部が、前記頻出区画は前記楽音信号中に存在する、と判断した場合に、前記頻出区画に対応する前記楽曲信号の区画を特定可能な情報を出力する共通区画出力部と、を備える。
前記頻出区画抽出部は、あらかじめ定められた条件で区切られたコンテンツ情報中の音響信号の各区画を識別可能な音響区画識別情報を生成し、前記頻出区画を特定する音響区画識別情報を、頻出区画識別情報として抽出し、前記共通区画判断部は、あらかじめ定められた条件で区切られた楽曲信号の各区画を識別可能な楽曲区画識別情報を生成し、前記頻出区画識別情報と前記楽曲区画識別情報とを比較し、前記共通区画出力部は、前記頻出区画識別情報が前記楽曲区画識別情報のいずれかに合致する場合に、合致した前記楽曲区画識別情報を示す情報を出力してもよい。
そのような構成によれば、コンテンツおよび楽曲信号を区切るための所定の条件に応じた印象的な区画を自動抽出することができる。
前記音響区画識別情報および前記楽曲区画識別情報は、特徴量を含む情報であって、前記頻出区画抽出部は、各音響区画識別情報に含まれる特徴量をそれぞれ比較することによって、前記頻出区画を特定し、前記共通区画判断部は、前記頻出区画識別情報に含まれる特徴量と、各楽曲区画識別情報に含まれる各特徴量と、を比較し、前記共通区画出力部は、前記頻出区画識別情報に含まれる特徴量が、前記各楽曲区画識別情報に含まれる各特徴量のいずれかに合致する場合に、合致した前記楽曲区画識別情報を示す情報を出力してもよい。
そのような構成によれば、特徴量を比較して印象的な区画を自動抽出することができる。
前記頻出区画抽出部によって抽出された頻出区画識別情報に基づいて、前記楽曲区画識別情報に含まれる特徴量と同じ種類の特徴量を含む第2の頻出区画識別情報を生成する第2の抽出部が、さらに含まれ、前記共通区画判断部は、前記頻出区画抽出部によって抽出された頻出区画識別情報に含まれる特徴量と異なる種類の特徴量を含む前記楽曲区画識別情報を生成し、前記第2の頻出区画識別情報に含まれる特徴量と、前記楽曲区画識別情報に含まれる各特徴量と、を比較してもよい。
そのような構成によれば、処理件数の多い頻出区画抽出にかかる処理を簡便にし、一方特徴量を比較する処理を精緻に行うことで処理精度を維持することができる。
前記頻出区画抽出部は、入力された重み付け情報に応じて前記頻出区画を抽出してもよい。
そのような構成によれば、重み付け情報に応じて印象的な区画を自動抽出することができる。
前記頻出区画抽出部は、前記コンテンツ情報の音響信号の帯域を制限する第1のフィルタリング部を備え、前記共通区画判断部は、前記楽曲信号の音響信号の帯域を制限する第2のフィルタリング部を備えてもよい。
そのような構成によれば、コンテンツ情報または楽曲信号に雑音が混在している場合であっても、正しく印象的な区画を自動抽出することができる。
前記頻出区画抽出部は、複数のコンテンツ情報をあらかじめ定められた基準で抽出する部分集合生成部を備えてもよい。
そのような構成によれば、特定のコンテンツを対象として印象的な区画を自動抽出することができる。
前記コンテンツ情報はテレビジョン番組であって、前記部分集合生成部は、同一シリーズに属するテレビジョン番組を抽出してもよい。
そのような構成によれば、同一シリーズに属するテレビジョン番組を対象として印象的な区画を自動抽出することができる。
本発明による区画自動抽出方法は、楽曲の印象的な区画を示す情報を自動抽出する区画自動抽出システムが行う区画自動抽出方法であって、音響信号を含む一つ以上のコンテンツ情報中に繰り返し出現する音響信号の一部を含む区画を、頻出区画として特定し、前記頻出区画を抽出する頻出区画抽出ステップと、音響信号を含む楽曲信号中に、前記頻出区画抽出ステップにおいて抽出した頻出区画が存在するか否かを判断する共通区画判断ステップと、前記共通区画判断ステップにおいて前記頻出区画は前記楽音信号中に存在すると判断した場合に、前記頻出区画に対応する前記楽曲信号の部分を特定可能な情報を出力する共通区画出力ステップと、を含む。
前記頻出区画抽出ステップでは、あらかじめ定められた条件で区切られたコンテンツ情報中の音響信号の各区画を識別可能な音響区画識別情報を生成し、前記頻出区画を特定する音響区画識別情報を、頻出区画識別情報として抽出し、前記共通区画判断ステップでは、あらかじめ定められた条件で区切られた楽曲信号の各区画を識別可能な楽曲区画識別情報を生成し、前記頻出区画識別情報と前記楽曲区画識別情報とを比較し、前記共通区画出力ステップでは、前記頻出区画識別情報が前記楽曲区画識別情報のいずれかに合致する場合に、合致した前記楽曲区画識別情報を示す情報を出力してもよい。
そのような構成によれば、コンテンツおよび楽曲信号を区切るための所定の条件に応じた印象的な区画を自動抽出することができる。
前記音響区画識別情報および前記楽曲区画識別情報は、特徴量を含む情報であって、前記頻出区画抽出ステップでは、各音響区画識別情報に含まれる特徴量をそれぞれ比較することによって頻出区画を特定し、前記共通区画判断ステップでは、前記頻出区画識別情報に含まれる特徴量と、各楽曲区画識別情報に含まれる各特徴量と、を比較し、前記共通区画出力ステップでは、前記頻出区画識別情報に含まれる特徴量が、前記各楽曲区画識別情報に含まれる各特徴量のいずれかに合致する場合に、合致した前記楽曲区画識別情報を示す情報を出力してもよい。
そのような構成によれば、特徴量を比較して印象的な区画を自動抽出することができる。
前記頻出区画抽出ステップで抽出された頻出区画識別情報に基づいて、前記楽曲区画識別情報に含まれる特徴量と同じ種類の特徴量を含む第2の頻出区画識別情報を生成する第2の頻出区画抽出ステップが、さらに含まれ、前記共通区画判断ステップでは、前記頻出区画抽出ステップで抽出された頻出区画識別情報に含まれる特徴量と異なる種類の特徴量を含む前記楽曲区画識別情報を生成し、前記第2の頻出区画識別情報に含まれる特徴量と、前記楽曲区画識別情報に含まれる各特徴量と、を比較してもよい。
そのような構成によれば、処理件数の多い頻出区画抽出にかかる処理を簡便にし、一方特徴量を比較する処理を精緻に行うことで処理精度を維持することができる。
前記頻出区画抽出ステップでは、入力された重み付け情報に応じて前記頻出区画を抽出してもよい。
そのような構成によれば、重み付け情報に応じて印象的な区画を自動抽出することができる。
前記コンテンツ情報の音響信号の帯域を制限する第1のフィルタリングステップと、前記楽音信号の音響信号の帯域を制限する第2のフィルタリングステップと、がさらに含まれ、前記頻出区画抽出ステップでは、前記第1のフィルタリングステップで音響信号の帯域が制限されたコンテンツ情報中に繰り返し出現する音響信号の一部を含む区画を、前記頻出区画として特定し、前記頻出区画を抽出し、前記共通区画判断ステップでは、前記第2のフィルタリングステップで音響信号の帯域が制限された楽音信号中に、前記頻出区画抽出ステップにおいて抽出した頻出区画が存在するか否かを判断してもよい。
そのような構成によれば、コンテンツ情報や楽曲信号に雑音が混在している場合であっても、正しく印象的な区画を自動抽出することができる。
複数のコンテンツ情報をあらかじめ定められた基準で抽出する部分集合生成ステップがさらに含まれ、前記頻出区画抽出ステップでは、前記部分集合生成ステップで抽出された複数のコンテンツ情報中に繰り返し出現する音響信号の一部を含む区画を、前記頻出区画として特定し、前記頻出区画を抽出してもよい。
そのような構成によれば、特定のコンテンツを対象として印象的な区画を自動抽出することができる。
前記コンテンツ情報は、テレビジョン番組であって、前記部分集合生成ステップでは、同一シリーズに属するテレビジョン番組を抽出してもよい。
そのような構成によれば、同一シリーズに属するテレビジョン番組を対象として印象的な区画を自動抽出することができる。
本発明による区画自動抽出プログラムは、楽曲の印象的な区画を示す情報を自動抽出する処理をコンピュータに実行させる区画自動抽出プログラムであって、前記コンピュータに、音響信号を含む一つ以上のコンテンツ情報中に繰り返し出現する音響信号の一部の区画を、頻出区画として特定し、前記頻出区画を抽出する頻出区画抽出処理と、音響信号を含む楽曲信号中に、前記頻出区画抽出処理で抽出した頻出区画が存在するか否かを判断する共通区画判断処理と、前記共通区画判断処理において前記頻出区画は前記楽音信号中に存在すると判断した場合に、前記頻出区画に対応する前記楽曲信号の部分を特定可能な情報を出力する共通区画出力処理と、を実行させる。
前記頻出区画抽出処理では、あらかじめ定められた条件で区切られたコンテンツ情報中の音響信号の各区画を識別可能な音響区画識別情報を生成し、前記頻出区画を特定する音響区画識別情報を、頻出区画識別情報として抽出し、前記共通区画判断処理では、あらかじめ定められた条件で区切られた楽曲信号の各区画を識別可能な楽曲区画識別情報を生成し、前記頻出区画識別情報と前記楽曲区画識別情報とを比較し、前記共通区画出力処理では、前記頻出区画識別情報が前記楽曲区画識別情報のいずれかに合致する場合に、合致した前記楽曲区画識別情報を示す情報を出力してもよい。
そのような構成によれば、コンテンツおよび楽曲信号を区切るための所定の条件に応じた印象的な区画を自動抽出することができる。
前記音響区画識別情報および前記楽曲区画識別情報は、特徴量を含む情報であって、前記頻出区画抽出処理では、各音響区画識別情報に含まれる特徴量をそれぞれ比較することによって頻出区画を特定し、前記共通区画判断処理では、前記頻出区画識別情報に含まれる特徴量と、各楽曲区画識別情報に含まれる各特徴量と、を比較し、前記共通区画出力処理では、前記頻出区画識別情報に含まれる特徴量が、前記楽曲区画識別情報に含まれる各特徴量のいずれかに合致する場合に、合致した前記楽曲区画識別情報を示す情報を出力してもよい。
そのような構成によれば、特徴量を比較して印象的な区画を自動抽出することができる。
前記頻出区画抽出処理で抽出された頻出区画識別情報に基づいて、前記楽曲区画識別情報に含まれる特徴量と同じ種類の特徴量を含む第2の頻出区画識別情報を生成する第2の頻出区画抽出処理を、さらに前記コンピュータに実行させ、前記共通区画判断処理では、前記頻出区画抽出処理で抽出された頻出区画識別情報に含まれる特徴量と異なる種類の特徴量を含む楽曲区画識別情報を生成し、前記第2の頻出区画識別情報に含まれる特徴量と、前記楽曲区画識別情報に含まれる各特徴量と、を比較してもよい。
そのような構成によれば、処理件数の多い頻出区画抽出にかかる処理を簡便にし、一方特徴量を比較する処理を精緻に行うことで処理精度を維持することができる。
前記頻出区画抽出処理では、入力された重み付け情報に応じて前記頻出区画を抽出してもよい。
そのような構成によれば、重み付け情報に応じて印象的な区画を自動抽出することができる。
前記コンテンツ情報の音響信号の帯域を制限する第1のフィルタリング処理と、前記楽音信号の音響信号の帯域を制限する第2のフィルタリング処理と、をさらに前記コンピュータに実行させ、前記頻出区画抽出処理では、前記第1のフィルタリング処理で音響信号の帯域が制限されたコンテンツ情報中に繰り返し出現する音響信号の一部を含む区画を、前記頻出区画として特定し、前記頻出区画を抽出し、前記共通区画判断処理では、前記第2のフィルタリング処理で音響信号の帯域が制限された楽音信号中に、前記頻出区画抽出ステップにおいて抽出した頻出区画が存在するか否かを判断してもよい。
そのような構成によれば、コンテンツ情報や楽曲信号に雑音が混在している場合であっても、正しく印象的な区画を自動抽出することができる。
複数のコンテンツ情報をあらかじめ定められた基準で抽出する部分集合生成処理を、さらに前記コンピュータに実行させ、前記頻出区画抽出処理では、前記部分集合生成処理で抽出された複数のコンテンツ情報中に繰り返し出現する音響信号の一部を含む区画を、前記頻出区画として特定し、前記頻出区画を抽出してもよい。
そのような構成によれば、特定のコンテンツを対象として印象的な区画を自動抽出することができる。
前記コンテンツ情報は、テレビジョン番組であって、前記部分集合生成処理では、同一シリーズに属するテレビジョン番組を抽出してもよい。
そのような構成によれば、同一シリーズに属するテレビジョン番組を対象として印象的な区画を自動抽出することができる。
本発明による区画自動抽出システムの好ましい一態様は、例えば、楽曲を内部で利用しているコンテンツ群から、ユーザに頻繁に露出されている楽曲区画を調査してその部分を識別するための区画署名特徴量を生成する手段と、解析対象である楽曲の部分区画を識別するための署名特徴量を生成する手段と、二つの署名特徴量の比較により共通する部分を特定する共通区画抽出手段を備える。
このような構成を採用することで、ある楽曲において、種々のメディアを通して頻繁に視聴者に提示されている部分を自動的に一意に特定することができ、本発明の目的を達成することができる。
本発明によれば、楽曲中に表れる回数とは無関係に、一般ユーザに広く認知されている可能性が高いと推定される部位を自動的に抽出し、それを楽曲における印象的な区画として種々のアプリケーションに提供することができるという効果がある。すなわち、テレビジョン番組等のコンテンツを用いて、音楽コンテンツの分析をすることができるという効果がある。
従来の区画抽出システムの構成例を示すブロック図である。 図2は本発明による区画自動抽出システムの第1の実施の形態を示すブロック図である。 図3は本発明による区画自動抽出システムの第2の実施の形態を示すブロック図である。 図4は本発明による区画自動抽出システムの第3の実施の形態を示すブロック図である。 図5は本発明による区画自動抽出システムの第4の実施の形態を示すブロック図である。
符号の説明
100、200 区画情報生成部
101 音響署名生成部
102 重要区画抽出部
111、211 音響署名生成部
112 共通区画抽出部
201 音響区画署名生成部
実施の形態1.
以下、本発明の第1の実施の形態を図面を参照して説明する。図2は、本発明による区画自動抽出システムの第1の実施の形態を示すブロック図である。図2に示す区画自動抽出システムは、楽曲における印象的な区画情報を生成する区画情報生成部100を備える。
区画情報生成部100は、第1の音響署名生成部101と、重要区画抽出部102と、第2の音響署名生成部111と、共通区画抽出部112とを含む。なお、第1の音響署名生成部101と重要区画抽出部102が、頻出区画抽出部を構成し、第2の音響署名生成部111と共通区画抽出部112が、共通区画判断部を構成し、共通区画抽出部112が共通区画出力部を構成する。
区画情報生成部100は、楽曲信号と、楽曲を内部で利用しているコンテンツ群と、に基づいて、楽曲における印象的な区画を示す区画情報を生成する。
印象的な区画は、一般に広く認知されている部分、例えばコンテンツ群においてよく現れるフレーズ(例えば、メロディの一節)である。
なお、以下の説明では、楽曲の一部または全体についての音響信号を楽曲信号と表記する。
楽曲信号は、一般の楽曲についての音響信号であって、例えば、データベース(図示せず。)の該当領域に記憶される。
コンテンツ群は、楽曲信号を含むコンテンツの集合であって、例えば、テレビジョン番組に代表される音声付映像コンテンツ、または、ウェブ(Web)ページまたはブログ(Blog)などの、背景音楽が重畳されたインターネットリソースなどである。
コンテンツ群は、例えば、区画自動抽出システムの管理者等によってあらかじめ無作為に、または、楽曲信号に応じて選択される。選択されたコンテンツ群は、通信ネットワークを介して、区画自動抽出システムにダウンロードされる。
第1の音響署名生成部101は、コンテンツ群が入力されると、すべてのコンテンツについて、音響トラック(音響信号)を識別するためのメタデータである音響署名を生成する。
音響署名は、時間情報とその時間における音楽特徴量とのペアを時系列に並べた集合からなる。換言すると、音楽署名は、あらかじめ定められた条件で区切られたコンテンツ情報中の音響信号の各区画を識別するための音響区画識別情報である。
音響署名については、オーディオシグナチャー(Audio Signature)として、様々な特徴量表現形態が開発されている。
例えば、アイ・エス・オー(ISO)とアイ・イー・シー(IEC)の共同国際標準でMPEG−7オーディオとして知られる規格(ISO/IEC 15938−4)の6.2章に、音響署名の最良の実装例が示されている。すなわち、音響署名は、コンテンツ毎に、音楽特徴量が時間情報とともに時系列的に順次格納された情報である。
重要区画抽出部102は、音響署名生成部101によって生成された複数の音響署名に基づいて、一つまたは複数のコンテンツの中で頻出する音響信号の一部分(以下「音響信号部分」と称する。)を探し出す。重要区画抽出部102は、その音響信号部分を、音響区画署名として出力する。音響区画署名は、頻出区画識別情報の一例であり、広く認知されているフレーズを示す。
重要区画抽出部102は、ある一つのコンテンツの音響署名中に繰り返し現れる音楽特徴量を検索するだけでなく、複数のコンテンツに共通して含まれる音楽特徴量を検索する。
そのため、重要区画抽出部102は、一つのコンテンツ中には一度しか現れないが、いろいろなコンテンツに共通して現れるフレーズを、広く認知されているフレーズつまり音響区画署名として抽出することができる。
重要区画抽出部102は、音響署名のような時間情報つき特徴量列の間で共通する部分を、部分対部分比較(部分同士の比較)を行って探す技術として、例えば特許文献4または特許文献5などに公開されている技術、あるいは、前述した国際標準規格(ISO/IEC 15938−4)等において提示されている技術などを利用する。
重要区画抽出部102は、コンテンツ群の中で頻出する音響信号部分を識別するための時間情報と、頻出する音響信号部分の音楽特徴量と、を含む音響区画署名を生成する。すなわち、音響区画署名は、コンテンツ群の中で頻出する音響信号部分(例えばフレーズ)が属する区画に対応する音響署名である。
重要区画抽出部102は、入力される複数の音響署名を対象に上記の処理を行うことによって、入力されたコンテンツ群において繰り返されている音響信号部分群を特定するための複数の音響区画署名を生成する。
重要区画抽出部102は、生成された音響区画署名に、重要度を付与する。
重要度のもっとも簡単な例は、繰り返し回数である。
なお、重要度は、繰り返し回数に限らず適宜変更可能である。
例えば、重要区画抽出部102は、単純に繰り返し回数をカウントする代わりに、外部からコンテンツに関する重み情報を入力し、繰り返される区画ごとに、その区画に対応する重み情報を加算していき、その加算された重み情報の合計を、その区画の重要度としてもよい。
重み情報とは、時間ごとの視聴率などの客観指標値、または、コンテンツの部位ごとにあらかじめ設定された指標値などである。重み情報は、例えば、導入部は低く、コマーシャル挿入前およびエンディング付近など制作者が盛り上がりを設定する部位は高く設定された指標値などの人為的なパタンをさす。
なお、以下の説明において、重要区画抽出部102によって生成された複数の音響区画署名を音響区画署名群と表記する場合がある。
一方、もうひとつの入力である楽曲信号は、第2の音響署名生成部111に入力される。
第2の音響署名生成部111は、入力された楽曲信号から、音響署名生成部101で用いられたものと同じ種類の音楽特徴量を含む音響署名を生成する。すなわち、第2の音響署名生成部111は、入力された楽曲信号を識別するためのメタデータである音響署名を生成する。
音響署名は、あらかじめ定められた条件で区切られた楽曲信号の各区画を識別するための楽曲区画識別情報の一例である。
第2の音響署名生成部111によって生成された楽曲信号の音響署名と、重要区画抽出部102によって生成された音響区画署名群とは、共に共通区画抽出部112に入力される。
共通区画抽出部112は、音響区画署名群に含まれる各音響区画署名に相当する、楽曲信号の音響署名の一部の区画を特定し、その特定された区画の時間情報(区画情報)を出力する。
すなわち、共通区画抽出部112は、各音響区画署名に含まれる音楽特徴量と、楽曲信号の音響署名に含まれる音楽特徴量と、を比較する。共通区画抽出部112は、音楽特徴量において、音響区画署名が楽曲信号の音響署名の一部分と合致する場合に、合致した部分の楽曲信号を特定可能な時間情報を出力する。
なお、以下の説明では、合致した部分の楽曲信号を、共通区画と表記する場合がある。
共通区画抽出部112は、音響区画署名と、楽曲について生成された楽曲信号の音響署名と、の比較である、部分対全体比較を行うことによって、共通区画の有無を判断する。共通区画抽出部112は、共通区画があると、その共通区画を特定可能な時間情報を出力する。部分対全体比較は、技術的には先に説明した部分対部分比較と全く等価である。
共通区画抽出部112は、全ての音響区画署名と楽曲信号の音響署名とが合致しない場合には、共通区画の時間情報を出力しない。
共通区画の時間情報が出力されない場合には、入力された楽曲信号は、入力されたコンテンツ群において頻繁に利用されている部分を有していないということとなり、その楽曲信号には、印象的な区画は存在しないことになる。
なお、区画自動抽出システムは、コンピュータで実現可能である。区画自動抽出システムを構成する各構成要素、すなわち、区画情報生成部100、第1の音響署名生成部101、重要区画抽出部102、第2の音響署名生成部111および共通区画抽出部112は、コンピュータの処理装置(CPU)に上述した機能を実現させるためのプログラムによって実現可能である。
このプログラムは、例えば、コンピュータによって読み取り可能な記録媒体(メモリ等)に記録される。この場合、コンピュータの処理装置(CPU)が、その記録媒体から、そのプログラムを読み取り、その読み取られたプログラムを実行する。
区画自動抽出システムを構成する各構成要素が、コンピュータで実現可能であること、プログラムによって実現可能であること、および、プログラムが記録媒体に記録されていることは、第1の実施の形態に限らず、以下の各実施の形態でも同様である。
以上に説明したように、第1の実施の形態によれば、楽曲内部の構造にかかわらずユーザが何度も耳にする特定フレーズを楽曲における印象的な区画として選ぶことができるという効果がある。
実施の形態2.
次に、本発明の第2の実施の形態を図面を参照して説明する。図3は、本発明による区画自動抽出システムの第2の実施の形態を示すブロック図である。図3に示す区画自動抽出システムは、楽曲における印象的な区画情報を生成する区画情報生成部200を備える。
区画情報生成部200は、第1の実施の形態の構成要素に加えて、音響区画署名生成部201を備えるとともに、第2の音響署名生成部111に代えて第2の音響署名生成部211を備える。
区画情報生成部200は、楽曲信号と、楽曲を内部で利用しているコンテンツ群と、に基づいて、楽曲における印象的な区画を示す区画情報を生成する。なお、第1の実施の形態における音響署名生成部101、重要区画抽出部102および共通区画抽出部112と同様の構成部については、図2で示したものと同一の符号を付し、説明を省略する。
コンテンツ群が区画情報生成部200に入力されると、第1の実施の形態と同様に、音響署名生成部101および重要区画抽出部102によって、音響区画署名群が生成される。
以下の説明では、重要区画抽出部102によって生成された音響区画署名を第1の音響区画署名と表記し、複数の第1の音響区画署名を第1の音響区画署名群と表記する。
第2の実施の形態において、重要区画抽出部102は、音響署名同士を簡便に比較することにより、高速に処理を行う。
音響区画署名生成部201は、第1の音響区画署名群から、音響署名生成部101が生成したものとは異なる種類の音楽特徴量を含む第2の音響区画署名群を生成する。
異なる種類の音楽特徴量は、例えば、第1の音響区画署名に含まれる音楽特徴量のパラメータを変更したもの、その音楽特徴量の一部のみを抜き出したもの、あるいは、その音楽特徴量に別の音楽特徴量を加えたものである。
音響区画署名生成部201は、第1の音響区画署名群を変換して、第2の音響区画署名群を生成してもよい。
また、音響区画署名生成部201は、第1の音響区画署名群を直接変換する代わりに、時間情報のみを重要区画抽出部102から受け取り、音楽特徴量を、入力されたコンテンツ群から直接生成しても構わない。
音響署名生成部211は、入力された楽曲信号から、音響区画署名生成部201が生成したものと同じ種類の音楽特徴量を含む音響署名を生成する。
音響署名生成部211によって生成された音響署名と、音響区画署名生成部201によって生成された第2の音響区画署名群とは、共に共通区画抽出部112に入力される。
共通区画抽出部112の動作は、第1の実施の形態と同様であって、音響区画署名生成部201および音響署名生成部211の出力から、楽曲における印象的な区画を示す共通区画を特定し、その共通区画を特定可能な時間情報(区画情報)を生成する。
なお、第2の実施の形態において、共通区画抽出部112は、第2の音響区画署名群と楽曲信号の音響署名とを精緻に比較することによって、共通区画を特定可能な時間情報を出力する。
以上に説明したように、第2の実施の形態によれば、第1の実施の形態による効果に加えて、繰り返し処理が非常に多いコンテンツ群内部での第1の音響署名比較処理では、簡便な音響署名比較を行って高速性を実現し、同時に、繰り返し数が格段に減る第2の音響区画署名群と音響署名との比較では、精緻な処理を実現することができる。
実施の形態3.
次に、本発明の第3の実施の形態を図面を参照して説明する。図4は、本発明による区画自動抽出システムの第3の実施の形態を示すブロック図である。図4に示す区画自動抽出システムは、区画情報生成部100と、入力信号の加工を行う第1のフィルタリング部301と、第2のフィルタリング部302とを備える。
なお、図4には、区画情報生成部として、第1の実施の形態における区画情報生成部100を例示したが、第2の実施の形態の区画情報生成部200が用いられてもよい。
第1のフィルタリング部301は、コンテンツ群内の楽音信号に重畳される発話内容および各種特殊効果を少なくするために、コンテンツ群内の楽音信号から特定帯域の信号をカットする機能を有する。特に、発話音声の帯域の信号のみを阻止する帯域阻止フィルタが、第1のフィルタリング部301の典型的な実施例である。
第2のフィルタリング部302は、楽曲信号から特定帯域の信号をカットする機能を有する。
第2のフィルタリング部302は、共通区画抽出部112の誤動作を防ぐために、第1のフィルタリング部301と同じ周波数特性を持つとともに、楽音信号を含むコンテンツ群の記録時に生じる楽音信号の低域ないし高域の一部阻止または抑制と同様の帯域カット特性を有してもよい。
この場合、コンテンツ群に含まれる楽音信号の低域ないし高域の一部が、コンテンツ群の記録時にカットされていても、音響署名生成部111に入力される楽音信号の帯域を、コンテンツ群に含まれる楽音信号の帯域に合わせることが可能となる。よって、共通区画抽出部112の誤動作を防ぐことが可能になる。
第3の実施の形態によれば、第1および第2の実施の形態による効果に加えて、コンテンツが、音楽だけが静かに流れる場面ばかりでない場合においても、楽曲における印象的な区画情報の生成を高い確率で実現することができる。
実施の形態4.
次に、本発明の第4の実施の形態を図面を参照して説明する。図5は、本発明による区画自動抽出システムの第4の実施の形態を示すブロック図である。図5に示す区画自動抽出システムは、区画情報生成部100と、入力されたコンテンツ群の加工を行うサブセット生成部401とを備える。
なお、図5には、区画情報生成部として、第1の実施の形態における区画情報生成部100を例示したが、第2の実施の形態の区画情報生成部200が用いられてもよい。
また、第4に実施の形態に、図4に示した第1のフィルタリング部301および第2のフィルタリング部302が追加されてもよい。
サブセット生成部401は、入力されたコンテンツ群の部分集合(サブセット)を生成する。例えば、サブセット生成部401は、複数のコンテンツ情報をあらかじめ定められた基準にしたがって抽出する。
部分集合は、例えば、同一シリーズに属するテレビジョン番組についてのコンテンツのみを集めたもの、視聴者層がほぼ重なるコンテンツのみを集めたもの、特定事象に関連したコンテンツのみを集めたものである。
同一シリーズのテレビジョン番組は、連続性を持つ一連のテレビジョン番組であって、例えば、主人公および主題の共通な2編以上の映画またはドラマ、あるいは、ある期間連続的に行われるスポーツの試合などである。
視聴者は、種々のコンテンツ群全体から強い印象を受ける場合もあるが、一般に視聴者が受ける印象は、特定のコンテンツグループと強く結びついている場合が多い。
第4の実施の形態によれば、第1、第2および第3の実施の形態による効果に加えて、例えば、特定のドラマ番組において主題歌として使われている楽曲の、そのドラマ内で繰り返し使われた部位を適切に抽出することができる。
なお、上記の各実施の形態では、音響信号の特徴量を示す情報として音楽署名を例示しているが、楽曲がプロモーション用のミュージッククリップなどの映像つき楽曲である場合には、音響署名に代えて映像署名を利用する構成としてもよい。
さらには、歌詞などの楽曲に同期したテキスト情報が付随する場合には、テキスト内容そのものを同一性確認のための信号署名として用いてもよい。
本発明は、音楽の楽曲信号から印象的な区画を自動抽出することに適用できる。
例えば、楽曲データベースの検索結果として、検索された楽曲を示す情報をユーザに通知する場合に、検索された楽曲の印象的な区画を自動抽出することにより、画面にテキストでタイトルを表示する代わりに、印象的な区画を演奏して通知することができる。
この場合、例えば、表示による通知ができない場面での楽曲選択といった用途に適用でき、自動車内または満員電車内で利用される音楽端末などにおいて有効である。
また、カラオケでの楽曲選択時など楽曲を選ぶ際に、タイトルなどの代わりに、自動抽出された印象的な区画を通知することにより、利用者がタイトルなどの書誌情報を正確に覚えていない場合であっても、利用者は、記憶に残っているフレーズと通知されたフレーズとを比べることで、楽曲選択を行うことができる。
さらに、映像編集などの折に効果音を探し出すにあたって、広く使われている人気のフレーズを選択肢として自動抽出して提示するといった用途にも適用可能である。

Claims (24)

  1. 楽曲から楽曲中の印象的な区画を示す情報を抽出する区画自動抽出システムであって、
    楽曲の一部を用いて作成された複数のコンテンツ情報中に共通して出現する音響区画を頻出区画として抽出する頻出区画抽出部と、
    楽曲信号中に、前記頻出区画の音響が存在するか否かを判断する共通区画判断部と、
    前記楽曲信号中に前記頻出区画の音響が存在する、と判断した場合に、前記頻出区画に対応する前記楽曲信号の区画を特定可能な情報を出力する共通区画出力部と、
    を備える区画自動抽出システム。
  2. 前記頻出区画抽出部は、あらかじめ定められた条件で区切られたコンテンツ情報中の音響信号の各区画を識別可能な音響区画識別情報を生成し、前記頻出区画を特定する音響区画識別情報を、頻出区画識別情報として抽出し、
    前記共通区画判断部は、あらかじめ定められた条件で区切られた楽曲信号の各区画を識別可能な楽曲区画識別情報を生成し、前記頻出区画識別情報と前記楽曲区画識別情報とを比較し、
    前記共通区画出力部は、前記頻出区画識別情報が前記楽曲区画識別情報のいずれかに合致する場合に、合致した前記楽曲区画識別情報を示す情報を出力する、
    請求項1記載の区画自動抽出システム。
  3. 前記音響区画識別情報および前記楽曲区画識別情報は、特徴量を含む情報であって、
    前記頻出区画抽出部は、各音響区画識別情報に含まれる特徴量をそれぞれ比較することによって、前記頻出区画を特定し、
    前記共通区画判断部は、前記頻出区画識別情報に含まれる特徴量と、各楽曲区画識別情報に含まれる各特徴量と、を比較し、
    前記共通区画出力部は、前記頻出区画識別情報に含まれる特徴量が、前記各楽曲区画識別情報に含まれる各特徴量のいずれかに合致する場合に、合致した前記楽曲区画識別情報を示す情報を出力する、
    請求項2記載の区画自動抽出システム。
  4. 前記頻出区画抽出部によって抽出された頻出区画識別情報に基づいて、前記楽曲区画識別情報に含まれる特徴量と同じ種類の特徴量を含む第2の頻出区画識別情報を生成する第2の抽出部を、さらに含み、
    前記共通区画判断部は、前記頻出区画抽出部によって抽出された頻出区画識別情報に含まれる特徴量と異なる種類の特徴量を含む前記楽曲区画識別情報を生成し、前記第2の頻出区画識別情報に含まれる特徴量と、前記楽曲区画識別情報に含まれる各特徴量と、を比較する、
    請求項3記載の区画自動抽出システム。
  5. 前記頻出区画抽出部は、入力された重み付け情報に応じて前記頻出区画を抽出する、
    請求項1ないし4のいずれか1項に記載の区画自動抽出システム。
  6. 前記頻出区画抽出部は、前記コンテンツ情報の音響信号の帯域を制限する第1のフィルタリング部を備え、
    前記共通区画判断部は、前記楽曲信号の音響信号の帯域を制限する第2のフィルタリング部を備える、
    請求項1ないし5のいずれか1項に記載の区画自動抽出システム。
  7. 前記頻出区画抽出部は、複数のコンテンツ情報をあらかじめ定められた基準で抽出する部分集合生成部を備える、
    請求項1ないし6のいずれか1項に記載の区画自動抽出システム。
  8. 前記コンテンツ情報は、テレビジョン番組であって、
    前記部分集合生成部は、同一シリーズに属するテレビジョン番組を抽出する、
    請求項7記載の区画自動抽出システム。
  9. 楽曲から楽曲中の印象的な区画を示す情報を抽出する区画自動抽出システムが行う区画自動抽出方法であって、
    楽曲の一部を用いて作成された複数のコンテンツ情報中に共通して出現する音響区画を頻出区画として抽出する頻出区画抽出ステップと、
    楽曲信号中に、前記頻出区画の音響が存在するか否かを判断する共通区画判断ステップと、
    前記楽曲信号中に前記頻出区画の音響が存在すると判断した場合に、前記頻出区画に対応する前記楽曲信号の区画を特定可能な情報を出力する共通区画出力ステップと、
    を含む区画自動抽出方法。
  10. 前記頻出区画抽出ステップでは、あらかじめ定められた条件で区切られたコンテンツ情報中の音響信号の各区画を識別可能な音響区画識別情報を生成し、前記頻出区画を特定する音響区画識別情報を、頻出区画識別情報として抽出し、
    前記共通区画判断ステップでは、あらかじめ定められた条件で区切られた楽曲信号の各区画を識別可能な楽曲区画識別情報を生成し、前記頻出区画識別情報と前記楽曲区画識別情報とを比較し、
    前記共通区画出力ステップでは、前記頻出区画識別情報が前記楽曲区画識別情報のいずれかに合致する場合に、合致した前記楽曲区画識別情報を示す情報を出力する、
    請求項9記載の区画自動抽出方法。
  11. 前記音響区画識別情報および前記楽曲区画識別情報は、特徴量を含む情報であって、
    前記頻出区画抽出ステップでは、各音響区画識別情報に含まれる特徴量をそれぞれ比較することによって頻出区画を特定し、
    前記共通区画判断ステップでは、前記頻出区画識別情報に含まれる特徴量と、各楽曲区画識別情報に含まれる各特徴量と、を比較し、
    前記共通区画出力ステップでは、前記頻出区画識別情報に含まれる特徴量が、前記各楽曲区画識別情報に含まれる各特徴量のいずれかに合致する場合に、合致した前記楽曲区画識別情報を示す情報を出力する、
    請求項10記載の区画自動抽出方法。
  12. 前記頻出区画抽出ステップで抽出された頻出区画識別情報に基づいて、前記楽曲区画識別情報に含まれる特徴量と同じ種類の特徴量を含む第2の頻出区画識別情報を生成する第2の頻出区画抽出ステップを、さらに含み、
    前記共通区画判断ステップでは、前記頻出区画抽出ステップで抽出された頻出区画識別情報に含まれる特徴量と異なる種類の特徴量を含む前記楽曲区画識別情報を生成し、前記第2の頻出区画識別情報に含まれる特徴量と、前記楽曲区画識別情報に含まれる各特徴量と、を比較する、
    請求項11記載の区画自動抽出方法。
  13. 前記頻出区画抽出ステップでは、入力された重み付け情報に応じて前記頻出区画を抽出する、
    請求項9ないし12のいずれか1項に記載の区画自動抽出方法。
  14. 前記コンテンツ情報の音響信号の帯域を制限する第1のフィルタリングステップと、
    前記楽音信号の音響信号の帯域を制限する第2のフィルタリングステップと、をさらに含み、
    前記頻出区画抽出ステップでは、前記第1のフィルタリングステップで音響信号の帯域が制限されたコンテンツ情報中に繰り返し出現する音響信号の一部を含む区画を、前記頻出区画として特定し、前記頻出区画を抽出し、
    前記共通区画判断ステップでは、前記第2のフィルタリングステップで音響信号の帯域が制限された楽音信号中に、前記頻出区画抽出ステップにおいて抽出した頻出区画が存在するか否かを判断する、
    請求項9ないし13のいずれか1項に記載の区画自動抽出方法。
  15. 複数のコンテンツ情報をあらかじめ定められた基準で抽出する部分集合生成ステップをさらに含み、
    前記頻出区画抽出ステップでは、前記部分集合生成ステップで抽出された複数のコンテンツ情報中に繰り返し出現する音響信号の一部を含む区画を、前記頻出区画として特定し、前記頻出区画を抽出する、
    請求項9ないし14のいずれか1項に記載の区画自動抽出方法。
  16. 前記コンテンツ情報は、テレビジョン番組であって、
    前記部分集合生成ステップでは、同一シリーズに属するテレビジョン番組を抽出する、
    請求項15記載の区画自動抽出方法。
  17. 楽曲から楽曲中の印象的な区画を示す情報を抽出する処理をコンピュータに実行させる区画自動抽出プログラムであって、
    前記コンピュータに、
    楽曲の一部を用いて作成された複数のコンテンツ情報中に共通して出現する音響区画を頻出区画として抽出する頻出区画抽出処理と、
    楽曲信号中に、前記頻出区画の音響が存在するか否かを判断する共通区画判断処理と、
    前記楽曲信号中に前記頻出区画の音響が存在すると判断した場合に、前記頻出区画に対応する前記楽曲信号の区画を特定可能な情報を出力する共通区画出力処理と、
    を実行させるための区画自動抽出プログラム。
  18. 前記頻出区画抽出処理では、あらかじめ定められた条件で区切られたコンテンツ情報中の音響信号の各区画を識別可能な音響区画識別情報を生成し、前記頻出区画を特定する音響区画識別情報を、頻出区画識別情報として抽出し、
    前記共通区画判断処理では、あらかじめ定められた条件で区切られた楽曲信号の各区画を識別可能な楽曲区画識別情報を生成し、前記頻出区画識別情報と前記楽曲区画識別情報とを比較し、
    前記共通区画出力処理では、前記頻出区画識別情報が前記楽曲区画識別情報のいずれかに合致する場合に、合致した前記楽曲区画識別情報を示す情報を出力する、
    請求項17記載の区画自動抽出プログラム。
  19. 前記音響区画識別情報および前記楽曲区画識別情報は、特徴量を含む情報であって、
    前記頻出区画抽出処理では、各音響区画識別情報に含まれる特徴量をそれぞれ比較することによって頻出区画を特定し、
    前記共通区画判断処理では、前記頻出区画識別情報に含まれる特徴量と、各楽曲区画識別情報に含まれる各特徴量と、を比較し、
    前記共通区画出力処理では、前記頻出区画識別情報に含まれる特徴量が、前記楽曲区画識別情報に含まれる各特徴量のいずれかに合致する場合に、合致した前記楽曲区画識別情報を示す情報を出力する、
    請求項18記載の区画自動抽出プログラム。
  20. 前記頻出区画抽出処理で抽出された頻出区画識別情報に基づいて、前記楽曲区画識別情報に含まれる特徴量と同じ種類の特徴量を含む第2の頻出区画識別情報を生成する第2の頻出区画抽出処理を、さらに前記コンピュータに実行させ、
    前記共通区画判断処理では、前記頻出区画抽出処理で抽出された頻出区画識別情報に含まれる特徴量と異なる種類の特徴量を含む楽曲区画識別情報を生成し、前記第2の頻出区画識別情報に含まれる特徴量と、前記楽曲区画識別情報に含まれる各特徴量と、を比較する、
    請求項19記載の区画自動抽出プログラム。
  21. 前記頻出区画抽出処理では、入力された重み付け情報に応じて前記頻出区画を抽出する、
    請求項17ないし20のいずれか1項に記載の区画自動抽出プログラム。
  22. 前記コンテンツ情報の音響信号の帯域を制限する第1のフィルタリング処理と、
    前記楽音信号の音響信号の帯域を制限する第2のフィルタリング処理と、をさらに前記コンピュータに実行させ、
    前記頻出区画抽出処理では、前記第1のフィルタリング処理で音響信号の帯域が制限されたコンテンツ情報中に繰り返し出現する音響信号の一部を含む区画を、前記頻出区画として特定し、前記頻出区画を抽出し、
    前記共通区画判断処理では、前記第2のフィルタリング処理で音響信号の帯域が制限された楽音信号中に、前記頻出区画抽出ステップにおいて抽出した頻出区画が存在するか否かを判断する、
    請求項17ないし21のいずれか1項に記載の区画自動抽出プログラム。
  23. 複数のコンテンツ情報をあらかじめ定められた基準で抽出する部分集合生成処理を、さらに前記コンピュータに実行させ、
    前記頻出区画抽出処理では、前記部分集合生成処理で抽出された複数のコンテンツ情報中に繰り返し出現する音響信号の一部を含む区画を、前記頻出区画として特定し、前記頻出区画を抽出する、
    請求項17ないし22のいずれか1項に記載の区画自動抽出プログラム。
  24. 前記コンテンツ情報は、テレビジョン番組であって、
    前記部分集合生成処理では、同一シリーズに属するテレビジョン番組を抽出する、
    請求項23記載の区画自動抽出プログラム。
JP2007549033A 2005-12-08 2006-10-06 楽曲における区画を抽出する区画自動抽出システム、区画自動抽出方法および区画自動抽出プログラム Expired - Fee Related JP5145939B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007549033A JP5145939B2 (ja) 2005-12-08 2006-10-06 楽曲における区画を抽出する区画自動抽出システム、区画自動抽出方法および区画自動抽出プログラム

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2005354285 2005-12-08
JP2005354285 2005-12-08
JP2007549033A JP5145939B2 (ja) 2005-12-08 2006-10-06 楽曲における区画を抽出する区画自動抽出システム、区画自動抽出方法および区画自動抽出プログラム
PCT/JP2006/320073 WO2007066450A1 (ja) 2005-12-08 2006-10-06 楽曲における区画を抽出する区画自動抽出システム、区画自動抽出方法および区画自動抽出プログラム

Publications (2)

Publication Number Publication Date
JPWO2007066450A1 JPWO2007066450A1 (ja) 2009-05-14
JP5145939B2 true JP5145939B2 (ja) 2013-02-20

Family

ID=38122601

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007549033A Expired - Fee Related JP5145939B2 (ja) 2005-12-08 2006-10-06 楽曲における区画を抽出する区画自動抽出システム、区画自動抽出方法および区画自動抽出プログラム

Country Status (3)

Country Link
US (1) US20090132074A1 (ja)
JP (1) JP5145939B2 (ja)
WO (1) WO2007066450A1 (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8458737B2 (en) 2007-05-02 2013-06-04 The Nielsen Company (Us), Llc Methods and apparatus for generating signatures
GB2457694B (en) * 2008-02-21 2012-09-26 Snell Ltd Method of Deriving an Audio-Visual Signature
CN102982810B (zh) 2008-03-05 2016-01-13 尼尔森(美国)有限公司 生成签名的方法和装置
US7994410B2 (en) * 2008-10-22 2011-08-09 Classical Archives, LLC Music recording comparison engine
JP5344715B2 (ja) * 2008-11-07 2013-11-20 国立大学法人北海道大学 コンテンツ検索装置およびコンテンツ検索プログラム
EP2387708B1 (en) 2009-01-16 2019-05-01 New York University Automated real-time particle characterization and three-dimensional velocimetry with holographic video microscopy
US8713030B2 (en) * 2009-06-05 2014-04-29 Kabushiki Kaisha Toshiba Video editing apparatus
US9715581B1 (en) * 2011-11-04 2017-07-25 Christopher Estes Digital media reproduction and licensing
JP5949203B2 (ja) * 2012-06-21 2016-07-06 富士通株式会社 変更プログラム、変更方法、および変更装置
WO2016077472A1 (en) 2014-11-12 2016-05-19 New York University Colloidal fingerprints for soft materials using total holographic characterization
US10572447B2 (en) * 2015-03-26 2020-02-25 Nokia Technologies Oy Generating using a bidirectional RNN variations to music
TWI731030B (zh) 2016-02-08 2021-06-21 紐約大學 蛋白質聚集體之全像特性化技術
JP7439755B2 (ja) * 2018-10-19 2024-02-28 ソニーグループ株式会社 情報処理装置、情報処理方法及び情報処理プログラム
US11543338B2 (en) 2019-10-25 2023-01-03 New York University Holographic characterization of irregular particles
US11948302B2 (en) 2020-03-09 2024-04-02 New York University Automated holographic video microscopy assay

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09292892A (ja) * 1996-04-26 1997-11-11 Brother Ind Ltd 楽音再生装置
JPH10136297A (ja) * 1996-10-01 1998-05-22 Matsushita Electric Ind Co Ltd デジタルビデオデータから索引付け情報を抽出する方法と装置
JP2000259168A (ja) * 1999-01-19 2000-09-22 Internatl Business Mach Corp <Ibm> 音声信号を分析する方法及びコンピュータ
JP2000312343A (ja) * 1998-06-01 2000-11-07 Nippon Telegr & Teleph Corp <Ntt> 高速信号探索方法、装置およびその記録媒体
JP2001109471A (ja) * 1999-10-12 2001-04-20 Nippon Telegr & Teleph Corp <Ntt> 音楽検索装置,音楽検索方法および音楽検索プログラムを記録した記録媒体
JP2001283569A (ja) * 2000-03-30 2001-10-12 Seiko Epson Corp さびサーチ装置
JP2003005769A (ja) * 2001-06-26 2003-01-08 Sharp Corp 楽音生成装置、楽音生成方法及び楽音生成プログラムを記録した記録媒体
JP2004102023A (ja) * 2002-09-11 2004-04-02 Nippon Telegr & Teleph Corp <Ntt> 特定音響信号検出方法、信号検出装置、信号検出プログラム及び記録媒体

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7062442B2 (en) * 2001-02-23 2006-06-13 Popcatcher Ab Method and arrangement for search and recording of media signals
KR100836574B1 (ko) * 2002-10-24 2008-06-10 도꾸리쯔교세이호진 상교기쥬쯔 소고겡뀨죠 악곡재생방법, 장치 및 음악음향데이터 중의 대표 모티프구간 검출방법
EP1531458B1 (en) * 2003-11-12 2008-04-16 Sony Deutschland GmbH Apparatus and method for automatic extraction of important events in audio signals

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09292892A (ja) * 1996-04-26 1997-11-11 Brother Ind Ltd 楽音再生装置
JPH10136297A (ja) * 1996-10-01 1998-05-22 Matsushita Electric Ind Co Ltd デジタルビデオデータから索引付け情報を抽出する方法と装置
JP2000312343A (ja) * 1998-06-01 2000-11-07 Nippon Telegr & Teleph Corp <Ntt> 高速信号探索方法、装置およびその記録媒体
JP2000259168A (ja) * 1999-01-19 2000-09-22 Internatl Business Mach Corp <Ibm> 音声信号を分析する方法及びコンピュータ
JP2001109471A (ja) * 1999-10-12 2001-04-20 Nippon Telegr & Teleph Corp <Ntt> 音楽検索装置,音楽検索方法および音楽検索プログラムを記録した記録媒体
JP2001283569A (ja) * 2000-03-30 2001-10-12 Seiko Epson Corp さびサーチ装置
JP2003005769A (ja) * 2001-06-26 2003-01-08 Sharp Corp 楽音生成装置、楽音生成方法及び楽音生成プログラムを記録した記録媒体
JP2004102023A (ja) * 2002-09-11 2004-04-02 Nippon Telegr & Teleph Corp <Ntt> 特定音響信号検出方法、信号検出装置、信号検出プログラム及び記録媒体

Also Published As

Publication number Publication date
JPWO2007066450A1 (ja) 2009-05-14
US20090132074A1 (en) 2009-05-21
WO2007066450A1 (ja) 2007-06-14

Similar Documents

Publication Publication Date Title
JP5145939B2 (ja) 楽曲における区画を抽出する区画自動抽出システム、区画自動抽出方法および区画自動抽出プログラム
US20180144194A1 (en) Method and apparatus for classifying videos based on audio signals
JP4683253B2 (ja) Av信号処理装置および方法、プログラム、並びに記録媒体
JP4873018B2 (ja) データ処理装置、データ処理方法、及び、プログラム
US20080046406A1 (en) Audio and video thumbnails
US20060245724A1 (en) Apparatus and method of detecting advertisement from moving-picture and computer-readable recording medium storing computer program to perform the method
CN104980790B (zh) 语音字幕的生成方法和装置、播放方法和装置
CN108307250B (zh) 一种生成视频摘要的方法及装置
KR20070121810A (ko) 복합 뉴스 스토리 합성
JP2006319980A (ja) イベントを利用した動画像要約装置、方法及びプログラム
KR101648931B1 (ko) 리듬 게임 제작 방법, 장치 및 이를 컴퓨터에서 실행하기 위한 컴퓨터 프로그램
Venkatesh et al. Artificially synthesising data for audio classification and segmentation to improve speech and music detection in radio broadcast
JP4601306B2 (ja) 情報検索装置、情報検索方法、およびプログラム
KR20060089922A (ko) 음성 인식을 이용한 데이터 추출 장치 및 방법
CN101355673B (zh) 信息处理装置和信息处理方法
GB2600933A (en) Apparatus and method for analysis of audio recordings
JP2004289530A (ja) 記録再生装置
JP2007208651A (ja) コンテンツ視聴装置
JP2007060606A (ja) ビデオの自動構造抽出・提供方式からなるコンピュータプログラム
CN113012723B (zh) 多媒体文件播放方法、装置、电子设备
JP2009147775A (ja) 番組再生方法、装置、プログラム及び媒体
Shao et al. Automatically generating summaries for musical video
Zhang et al. Automatic generation of music thumbnails
Janin et al. Joke-o-Mat HD: browsing sitcoms with human derived transcripts
Kotsakis et al. Feature-based language discrimination in radio productions via artificial neural training

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090924

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120221

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120417

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121030

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121112

R150 Certificate of patent or registration of utility model

Ref document number: 5145939

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151207

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees