JP2007121456A - 情報処理装置、情報処理方法、およびプログラム - Google Patents

情報処理装置、情報処理方法、およびプログラム Download PDF

Info

Publication number
JP2007121456A
JP2007121456A JP2005310407A JP2005310407A JP2007121456A JP 2007121456 A JP2007121456 A JP 2007121456A JP 2005310407 A JP2005310407 A JP 2005310407A JP 2005310407 A JP2005310407 A JP 2005310407A JP 2007121456 A JP2007121456 A JP 2007121456A
Authority
JP
Japan
Prior art keywords
level feature
low
feature quantity
error
calculated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005310407A
Other languages
English (en)
Other versions
JP4987282B2 (ja
Inventor
Yoshiyuki Kobayashi
由幸 小林
Susumu Takatsuka
進 高塚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2005310407A priority Critical patent/JP4987282B2/ja
Priority to EP06255369A priority patent/EP1780703A1/en
Priority to US11/584,612 priority patent/US7738982B2/en
Priority to KR1020060103227A priority patent/KR20070044780A/ko
Priority to CN2006100643410A priority patent/CN101030366B/zh
Publication of JP2007121456A publication Critical patent/JP2007121456A/ja
Application granted granted Critical
Publication of JP4987282B2 publication Critical patent/JP4987282B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/571Chords; Chord sequences
    • G10H2210/576Chord progression
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/005Algorithms for electrophonic musical instruments or musical processing, e.g. for automatic composition or resource allocation
    • G10H2250/011Genetic algorithms, i.e. using computational steps analogous to biological selection, recombination and mutation on an initial population of, e.g. sounds, pieces, melodies or loops to compose or otherwise generate, e.g. evolutionary music or sound synthesis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】楽曲データなどのコンテンツデータから対応する特徴量を抽出できるアルゴリズムを利用し、精度よく特徴量を演算する。
【解決手段】ステップS141で、低レベル特徴量を入力として高レベル特徴量の精度を出力するリジェクト領域抽出式を学習によって得る高精度リジェクト処理が実行させる。ステップS142で、高レベル特徴量を求めたい楽曲の入力データの低レベル特徴量が演算され、ステップS143で、リジェクト領域抽出式により高レベル特徴量の特徴量抽出精度が演算される。ステップS144で、特徴量抽出精度が所定の閾値以上であるか否か判定され、閾値以上である場合だけ、処理はステップS145に進み、高レベル特徴量の演算が実行される。本発明は、楽曲や映像の高レベル特徴量を取得するシステムに適用できる。
【選択図】図38

Description

本発明は、情報処理装置、情報処理方法、およびプログラムに関し、特に、例えば、楽曲データに基づいて前記楽曲データの特徴量を抽出するアルゴリズムを生成し、生成したアルゴリズムを用いて高い精度で特徴量を演算するようにした情報処理装置、情報処理方法、およびプログラムに関する。
従来、楽曲データを入力として前記楽曲データの特徴量(楽曲データの速さ、明るさ、にぎやかさ等)を出力するアルゴリズムの自動生成に関する発明が提案されている(例えば、特許文献1参照)。
米国特許出願公報 US2004/0181401A1
特許文献1に記載の発明では、図1に示すように、楽曲データとそのメタデータから特徴量を抽出する特徴量抽出アルゴリズムを作成しており、当該アルゴリズムにより計算された特徴量は楽曲によっては誤差が大きい可能性があるが、計算された特徴量がどの程度の誤差を持っているのかを推定することができない。
したがって、生成された特徴量抽出アルゴリズムによって特徴量を計算する際、どの程度の誤差が予想されるかを推定する方法の出現が望まれている。
本発明はこのような状況に鑑みてなされたものであり、楽曲データなどのコンテンツデータから対応する特徴量を抽出できるアルゴリズムを利用し、当該アルゴリズムにより計算された特徴量の誤差を精度よく推定できるようにするものである。
本発明の一側面である情報処理装置は、コンテンツデータの特徴量を演算する情報処理装置において、前記コンテンツデータまたは前記コンテンツデータに対応するメタデータを入力として低レベル特徴量を出力する低レベル特徴量抽出式を用いて前記低レベル特徴量を演算する第1の演算手段と、演算された前記低レベル特徴量を入力として前記コンテンツデータの特徴を示す高レベル特徴量を出力する高レベル特徴量抽出式を用いて前記高レベル特徴量を演算する第2の演算手段と、演算された前記高レベル特徴量と、予め得られている前記コンテンツデータに対応する高レベル特徴量との誤差を算出する算出手段と、前記低レベル特徴量を入力として前記誤差を出力する誤差推定式を、算出された前記誤差を教師データとする学習によって生成する生成手段と、前記コンテンツデータに対応する高レベル特徴量を取得する場合、演算された前記低レベル特徴量を生成した前記誤差推定式に適用して対応する誤差を推定し、推定した前記誤差に応じて前記第2の演算手段に前記高レベル特徴量を演算させる制御手段とを含む。
前記算出手段は、演算された前記高レベル特徴量と、予め得られている前記コンテンツデータに対応する高レベル特徴量との2乗誤差を算出するようにすることができる。
前記制御手段は、前記コンテンツデータに対応する高レベル特徴量を取得する場合、演算された前記低レベル特徴量を生成した前記誤差推定式に適用して対応する誤差を推定し、推定した前記誤差が閾値よりも小さいときだけ、前記第2の演算手段に前記高レベル特徴量を演算させるようにすることができる。
本発明の一側面である情報処理方法は、コンテンツデータの特徴量を演算する情報処理装置の情報処理方法において、前記コンテンツデータまたは前記コンテンツデータに対応するメタデータを入力として低レベル特徴量を出力する低レベル特徴量抽出式を用いて前記低レベル特徴量を演算し、演算された前記低レベル特徴量を入力として前記コンテンツデータの特徴を示す高レベル特徴量を出力する高レベル特徴量抽出式を用いて前記高レベル特徴量を演算し、演算された前記高レベル特徴量と、予め得られている前記コンテンツデータに対応する高レベル特徴量との誤差を算出し、前記低レベル特徴量を入力として前記誤差を出力する誤差推定式を、算出された前記誤差を教師データとする学習によって生成し、前記コンテンツデータに対応する高レベル特徴量を取得する場合、演算された前記低レベル特徴量を生成した前記誤差推定式に適用して対応する誤差を推定し、推定した前記誤差に応じて前記高レベル特徴量を演算させる。
本発明の一側面であるプログラムは、コンテンツデータの特徴量を演算するためのプログラムであって、前記コンテンツデータまたは前記コンテンツデータに対応するメタデータを入力として低レベル特徴量を出力する低レベル特徴量抽出式を用いて前記低レベル特徴量を演算し、演算された前記低レベル特徴量を入力として前記コンテンツデータの特徴を示す高レベル特徴量を出力する高レベル特徴量抽出式を用いて前記高レベル特徴量を演算し、演算された前記高レベル特徴量と、予め得られている前記コンテンツデータに対応する高レベル特徴量との誤差を算出し、前記低レベル特徴量を入力として前記誤差を出力する誤差推定式を、算出された前記誤差を教師データとする学習によって生成し、前記コンテンツデータに対応する高レベル特徴量を取得する場合、演算された前記低レベル特徴量を生成した前記誤差推定式に適用して対応する誤差を推定し、推定した前記誤差に応じて前記高レベル特徴量を演算させる。
本発明の一側面においては、コンテンツデータまたは前記コンテンツデータに対応するメタデータを入力として低レベル特徴量を出力する低レベル特徴量抽出式を用いて前記低レベル特徴量が演算され、演算された前記低レベル特徴量を入力として前記コンテンツデータの特徴を示す高レベル特徴量を出力する高レベル特徴量抽出式を用いて前記高レベル特徴量が演算され、演算された前記高レベル特徴量と、予め得られている前記コンテンツデータに対応する高レベル特徴量との誤差が算出され、前記低レベル特徴量を入力として前記誤差を出力する誤差推定式が、算出された前記誤差を教師データとする学習によって生成される。そして、前記コンテンツデータに対応する高レベル特徴量を取得する場合、演算された前記低レベル特徴量を生成した前記誤差推定式に適用して対応する誤差が推定され、推定された前記誤差に応じて前記高レベル特徴量を演算させる。
本発明の一側面によれば、楽曲データなどのコンテンツデータから対応する特徴量を抽出できるアルゴリズムを利用し、当該アルゴリズムにより計算された特徴量の誤差を精度よく推定することができる。
以下に本発明の実施の形態を説明するが、本発明の構成要件と、明細書または図面に記載の実施の形態との対応関係を例示すると、次のようになる。この記載は、本発明をサポートする実施の形態が、明細書または図面に記載されていることを確認するためのものである。従って、明細書または図面中には記載されているが、本発明の構成要件に対応する実施の形態として、ここには記載されていない実施の形態があったとしても、そのことは、その実施の形態が、その構成要件に対応するものではないことを意味するものではない。逆に、実施の形態が構成要件に対応するものとしてここに記載されていたとしても、そのことは、その実施の形態が、その構成要件以外の構成要件には対応しないものであることを意味するものでもない。
本発明の一側面である情報処理装置(例えば、図5の高レベル特徴量演算部26)は、コンテンツデータの特徴量を演算する情報処理装置において、前記コンテンツデータまたは前記コンテンツデータに対応するメタデータを入力として低レベル特徴量を出力する低レベル特徴量抽出式を用いて前記低レベル特徴量を演算する第1の演算手段(例えば、図6の低レベル特徴量演算部41)と、演算された前記低レベル特徴量を入力として前記コンテンツデータの特徴を示す高レベル特徴量を出力する高レベル特徴量抽出式を用いて前記高レベル特徴量を演算する第2の演算手段(例えば、図6の高レベル特徴量演算部42)と、演算された前記高レベル特徴量と、予め得られている前記コンテンツデータに対応する高レベル特徴量との誤差を算出する算出手段(例えば、図6の2乗誤差演算部43)と、前記低レベル特徴量を入力として前記誤差を出力する誤差推定式を、算出された前記誤差を教師データとする学習によって生成する生成手段(例えば、図6のリジェクト領域抽出式学習部44)と、前記コンテンツデータに対応する高レベル特徴量を取得する場合、演算された前記低レベル特徴量を生成した前記誤差推定式に適用して対応する誤差を推定し、推定した前記誤差に応じて前記第2の演算手段に前記高レベル特徴量を演算させる制御手段(例えば、図6の特徴量抽出精度演算部45)とを含む。
本発明の一側面である情報処理方法は、コンテンツデータの特徴量を演算する情報処理装置の情報処理方法において、前記コンテンツデータまたは前記コンテンツデータに対応するメタデータを入力として低レベル特徴量を出力する低レベル特徴量抽出式を用いて前記低レベル特徴量を演算し、演算された前記低レベル特徴量を入力として前記コンテンツデータの特徴を示す高レベル特徴量を出力する高レベル特徴量抽出式を用いて前記高レベル特徴量を演算し、演算された前記高レベル特徴量と、予め得られている前記コンテンツデータに対応する高レベル特徴量との誤差を算出し、前記低レベル特徴量を入力として前記誤差を出力する誤差推定式を、算出された前記誤差を教師データとする学習によって生成し(例えば、図38のステップS141)、前記コンテンツデータに対応する高レベル特徴量を取得する場合、演算された前記低レベル特徴量を生成した前記誤差推定式に適用して対応する誤差を推定し、推定した前記誤差に応じて前記高レベル特徴量を演算させる(例えば、図38のステップS144およびS145)。
本発明の一側面であるプログラムは、コンテンツデータの特徴量を演算するためのプログラムであって、前記コンテンツデータまたは前記コンテンツデータに対応するメタデータを入力として低レベル特徴量を出力する低レベル特徴量抽出式を用いて前記低レベル特徴量を演算し、演算された前記低レベル特徴量を入力として前記コンテンツデータの特徴を示す高レベル特徴量を出力する高レベル特徴量抽出式を用いて前記高レベル特徴量を演算し、演算された前記高レベル特徴量と、予め得られている前記コンテンツデータに対応する高レベル特徴量との誤差を算出し、前記低レベル特徴量を入力として前記誤差を出力する誤差推定式を、算出された前記誤差を教師データとする学習によって生成し(例えば、図38のステップS141)、前記コンテンツデータに対応する高レベル特徴量を取得する場合、演算された前記低レベル特徴量を生成した前記誤差推定式に適用して対応する誤差を推定し、推定した前記誤差に応じて前記高レベル特徴量を演算させる(例えば、図38のステップS144およびS145)。
以下、本発明を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。
図2は、本発明の一実施の形態である特徴量抽出アルゴリズム生成装置20(図5)によって生成される特徴量抽出アルゴリズムの概要を示している。この特徴長抽出アルゴリズム11は、コンテンツデータ(楽曲データ)とそれに対応するメタデータ(属性データ)を入力として低レベル特徴量を出力する低レベル特徴量抽出部12、および、低レベル特徴量を入力として高レベル特徴量を出力する高レベル特徴量抽出部14から構成される。
低レベル特徴量抽出部12は、入力データに所定の演算を施す1以上のオペレータ(演算子)が組み合わされたm種類の低レベル特徴量抽出式から成る低レベル特徴量抽出式リスト13を有している。したがって、低レベル特徴量抽出部12は、m種類の低レベル特徴量を高レベル特徴量抽出部14に出力する。
図3は低レベル特徴量抽出式の例を示している。例えば、図3Aに示す低レベル特徴量抽出式f1は、楽曲の波形データを入力として、各チャンネル(例えば、L(Left)チャンネルとR(Right)チャンネル)間で波形データの平均値(Mean)を演算し、演算された平均値を時間軸に沿って高速フーリエ変換(FFT)を行い、FFT結果から周波数の標準偏差(StDev)を求め、その結果を低レベル特徴量aとして出力する。
また例えば、図3Bに示す低レベル特徴量抽出式f2は、楽曲のコード進行データを入力として、時間軸に沿ってマイナーコードの出現率(Ratio)を求め、その結果を低レベル特徴量bとして出力する。
なお、低レベル特徴量抽出部12の出力である低レベル特徴量は、それ単体で意味のある値である必要ない。
高レベル特徴量抽出部14は、入力されるm種類の低レベル特徴量のうちの1種類以上の低レベル特徴量に比較的単純な演算(四則演算、累乗演算など)を行い、その演算結果を高レベル特徴量として出力するk種類の高レベル特徴量抽出式を有している。したがって、高レベル特徴量抽出部14は、k種類の高レベル特徴量を出力する。
図4は高レベル特徴量抽出式の例を示している。例えば、図4Aに示す高レベル特徴量抽出式F1は、低レベル特徴量a,b,c,d,eに四則演算を行い、その結果を1種類の高レベル特徴量である速さの値として出力する。
また例えば、図4Bに示す低レベル特徴量抽出式F2は、低レベル特徴量a,c,d,eに四則演算と累乗演算を行い、その結果を1種類の高レベル特徴量である明るさの値として出力する。
次に、図5は、本発明の一実施の形態である特徴量抽出アルゴリズム生成装置20の構成例を示している。この特徴量抽出アルゴリズム生成装置20は、最適な低レベル特徴量抽出式と高レベル特徴量抽出式をジェネティック(Genetic)な学習によって生成するものであり、m種類の低レベル特徴量抽出式から成る低レベル特徴量抽出式リストをn個生成する低レベル特徴量抽出式リスト生成部21、低レベル特徴量抽出式リスト生成部21から供給されるn個の低レベル特徴量抽出式リストにl曲分の入力データ(コンテンツデータやメタデータ)を代入して、各入力データに対応するm種類の低レベル特徴量をn組得る低レベル特徴量演算部24、低レベル特徴量演算部24からのn組の出力と対応する教師データ(l曲にそれぞれ対応するk項目の高レベル特徴量)に基づいて高レベル特徴量抽出式を学習によって推定する高レベル特徴量抽出式学習部25、学習が進められて最終的に生成されるた高レベル特徴量抽出式を用いて高レベル特徴量を演算する高レベル特徴量演算部26、および、各部の動作の繰り返し(ループ)を制御する制御部27から構成される。
低レベル特徴量抽出式リスト生成部21は、第1世代の低レベル特徴量抽出式リストについてはランダムに、第2世代以降の低レベル特徴量抽出式リストについては前世代の低レベル特徴量抽出式リストに基づく低レベル特徴量を用いて学習された高レベル特徴量抽出式の精度などに基づいて生成する。
低レベル特徴量抽出式リスト生成部21に内蔵されたオペレータ組検出部22は、生成された低レベル特徴量抽出式中に頻出する複数のオペレータの組み合わせを検出する。オペレータ生成部23は、オペレータ組検出部22によって検出された複数のオペレータの組み合わせを新たな1種類のオペレータとして登録する。
高レベル特徴量抽出式学習部25は、n組の低レベル特徴量にそれぞれ対応し、k種類の高レベル特徴量抽出式を生成するとともに、各高レベル特徴量抽出式の推定精度と各高レベル特徴量抽出式における各低レベル特徴量の寄与率を算出して低レベル特徴量抽出式リスト生成部21に出力する。また、高レベル特徴量抽出式学習部25は、学習の最終世代において、n組の低レベル特徴量抽出式リストのうち、得られた高レベル特徴量の平均精度が最も高かったリストのm組の低レベル特徴量抽出式と、これに対応するk種類の高レベル特徴量抽出式を高レベル特徴量演算部26に供給する。
高レベル特徴量演算部26は、最後に高レベル特徴量抽出式学習部25から供給された低レベル特徴量抽出式、高レベル特徴量抽出式を用いて高レベル特徴量を演算する。
図6は、高レベル特徴量演算部26の詳細な構成例を示している。
この高レベル特徴量演算部26は、入力データ(コンテンツデータとそれに対応するメタデータ)を最終的な低レベル特徴量抽出式リストに代入して低レベル特徴量を演算する低レベル特徴量演算部41、低レベル特徴量演算部41による演算結果を最終的な高レベル特徴量抽出式に代入して高レベル特徴量を演算する高レベル特徴量演算部42、高レベル特徴量演算部42による演算結果と教師データ(入力データに対応する高レベル特徴量)と2乗誤差を演算する2乗誤差演算部43、低レベル特徴量演算部41の演算結果である低レベル特徴量を入力、2乗誤差演算部43の演算結果である2乗誤差を出力とするリジェクト領域抽出式を学習により生成するリジェクト領域抽出式学習部44、および、入力データをリジェクト領域抽出式学習部44によって生成されたリジェクト領域抽出式に代入し、入力データに対応して演算される高レベル特徴量の特徴抽出精度(2乗誤差)を推定し、推定した特徴抽出精度が所定の閾値以上である場合だけ高レベル特徴量演算部42に高レベル特徴量を演算させる特徴量抽出精度演算部45から構成される。
次に、特徴量抽出アルゴリズム生成装置20の動作について説明する。
図7は特徴量抽出アルゴリズム生成装置20の基本的な動作である特徴量抽出アルゴリズム生成処理を説明するフローチャートである。
ステップS1において、制御部27は、学習ループパラメータGを1に初期化して学習ループを開始する。なお、学習ループは、ユーザなどによって予め設定されている学習回数gだけ繰り返される。
ステップS2において、低レベル特徴量抽出式リスト生成部21は、図8に示すように、m種類の低レベル特徴量抽出式から成る低レベル特徴量抽出式リストをn個生成して低レベル特徴量演算部24に出力する。
ステップS2の処理(低レベル特徴量抽出式リスト生成処理)について、図9のフローチャートを参照して詳述する。
ステップS11において、低レベル特徴量抽出式リスト生成部21は、生成する低レベル特徴量抽出式リストが第1世代であるか否かを判定する。なお、この判定は学習ループパラメータGが0であるとき、生成する低レベル特徴量抽出式リストが第1世代であると判定するようにする。生成する低レベル特徴量抽出式リストが第1世代であると判定された場合、処理はステップS12に進む。ステップS12において、低レベル特徴量抽出式リスト生成部21は、第1世代の低レベル特徴量抽出式リストをランダムに生成する。
反対に、ステップS11において、生成する低レベル特徴量抽出式リストが第1世代ではないと判定された場合、処理はステップS13に進む。ステップS13において、低レベル特徴量抽出式リスト生成部21は、次世代の低レベル特徴量抽出式リストを、前世代の低レベル特徴量抽出式リストに基づいてジェネティック(Genetic)に生成する。
ステップS12の処理(第1世代リストランダム生成処理)について、図10を参照して説明する。ステップS21において、制御部27は、リストループパラメータNを1に初期化してリストループを開始する。なお、リストループは、予め設定されているリスト数nだけ繰り返される。
ステップS22において、制御部27は、式ループパラメータMを1に初期化して式ループを開始する。なお、式ループは、1個の低レベル特徴量抽出式リストを構成する低レベル特徴量抽出式数mだけ繰り返される。
ここで、式ループにおいて生成される低レベル特徴量抽出式の記述方法について図11を参照して説明する。低レベル特徴量抽出式は、入力データが左端に記述され、その右側に1種類以上のオペレータが演算の順序に対応して記述される。各オペレータには、適宜、処理対称軸とパラメータが含まれる。
例えば、図11の例の場合、12TomesMが入力データであり、32#Differential,32#MaxIndex,16#LPF_1;O.861などがオペレータである。また、オペレータ中の32#,16#などが処理対称軸を示している。例えば、12TomesMは、入力データがモノラルのPCM(pulse coded modulation sound source)波形データを時間軸方向にであることを示している。48#はチャンネル軸、32#は周波数軸と音程軸、16#は時間軸を示す。オペレータ中の0.861はローパスフィルタ処理におけるパラメータであり、例えば透過させる周波数の閾値を示している。
図10に戻る。ステップS23において、低レベル特徴量抽出式リスト生成部21は、生成するリストNの低レベル特徴量抽出式Mの入力データをランダムに決定する。
入力データの種類としては、例えば図12に示すWav,12Tones,Chord,Keyなどが考えられる。入力データであるWAVは、図13に示すようなPCM波形データであり、保有次元は時間軸とチャンネル軸である。入力データである12Tonesは、PCM波形データを時間軸に沿って音程毎に解析したものであり、保有次元は時間軸と音程軸である。入力データであるChordは、図14に示すような楽曲のコード進行(C,C#,D,・・・,Bm)を示すデータであり、保有次元は時間軸と音程軸である。入力データであるKeyは、楽曲のキー(C,C#,D,・・・,B)を示すデータであり、保有次元は時間軸と音程軸である。
図10に戻る。ステップS24において、低レベル特徴量抽出式リスト生成部21は、生成するリストNの低レベル特徴量抽出式Mの処理対称軸とパラメータをランダムに1つ決定する。パラメータの種類としては、平均値(Mean)、高速フーリエ変換(FFT)、標準偏差(StDev)、出現率(Ratio)、ローパスフィルタ(LPF)、ハイパスフィルタ(HPF)、絶対値(ABS)、微分(Differential)、最大値(MaxIndex)、不偏分散(UVariance)などが考えられる。なお、決定されたオペレータによっては処理対称軸が固定されていることがあるので、その場合、パラメータに固定されている処理対称軸を採用する。また、パラメータを必要とするオペレータが決定された場合、パラメータもランダムまたは予め設定されている値に決定する。
ステップS25において、低レベル特徴量抽出式リスト生成部21は、現時点で生成されているリストNの低レベル特徴量抽出式Mの演算結果がスカラ(1次元)であるか、または次元数が所定の値(例えば、1または2程度の小さい数)以下であるか否かを判定し、否と判定した場合、ステップS24の処理に戻ってオペレータを1つ追加する。そして、図16に示すように演算結果の保有次元数が少なくなり、ステップS25において、リストNの低レベル特徴量抽出式Mの演算結果がスカラであるか、または次元数が所定の値(例えば、1または2程度の小さい数)以下であると判定された場合、処理はステップS26に進む。
ステップS26において、制御部27は、式ループパラメータMが最大値mよりも小さいか否かを判定し、式ループパラメータMが最大値mよりも小さい場合、式ループパラメータMを1だけインクリメントして処理をステップS23に戻す。反対に、式ループパラメータMが最大値mよりも小さくない場合(式ループパラメータMが最大値mと同値の場合)、式ループを抜けて処理をステップS27に進める。ここまでの処理により、低レベル特徴量抽出式リストが1個生成されたことになる。
ステップS27において、制御部27は、リストループパラメータNが最大値nよりも小さいか否かを判定し、リストループパラメータNが最大値nよりも小さい場合、リストループパラメータNを1だけインクリメントして処理をステップS22に戻す。反対に、リストループパラメータNが最大値nよりも小さくない場合(リストループパラメータNが最大値nと同値の場合)、リストループを抜けて第1世代リストランダム生成処理を終了する。ここまでの処理により、第1世代の低レベル特徴量抽出式リストがn個生成されたことになる。
次に、図9のステップS13の処理(次世代リストジェネティック生成処理)について、図17を参照して説明する。ステップS31において、低レベル特徴量抽出式リスト生成部21は、選択数ns、交差数nx、突然変異数nmをランダムに決定する。ただし、選択数ns、交差数nx、突然変異数nmの和はnとする。なお、選択数ns、交差数nx、突然変異数nmは予め設定した定数を採用してもよい。
ステップS32において、低レベル特徴量抽出式リスト生成部21は、決定した選択数nsに基づいて、ns個の低レベル特徴量抽出式リストを生成する。ステップS33において、低レベル特徴量抽出式リスト生成部21は、決定した交差数nxに基づいて、nx個の低レベル特徴量抽出式リストを生成する。ステップS34において、低レベル特徴量抽出式リスト生成部21は、決定した突然変異数nmに基づいて、nm個の低レベル特徴量抽出式リストを生成する。
ステップS32の選択生成処理について、図18のフローチャートを参照して詳述する。この選択生成処理では、次世代のn個の低レベル特徴量抽出式リストのうちの選択数ns個が生成される。
ステップS41において、低レベル特徴量抽出式リスト生成部21は、前世代(1世代前)のn個の低レベル特徴量抽出式リストを、高レベル特徴量抽出式学習部25から入力された高レベル特徴量抽出式の推定精度の平均値が高い順に並び替える。そして、ステップS32において、低レベル特徴量抽出式リスト生成部21は、並び替えた前世代のn個の低レベル特徴量抽出式リストのうち、上位ns個を次世代の低レベル特徴量抽出式リストとして採用する。以上で選択生成処理は終了される。
図17のステップS33の交差生成処理について、図19のフローチャートを参照して説明する。この交差生成処理では、次世代のn個の低レベル特徴量抽出式リストのうちの交差数nx個が生成される。
ステップS51において、制御部27は、交差ループパラメータNXを1に初期化して交差ループを開始する。なお、交差ループは、交差数nxだけ繰り返される。
ステップS52において、低レベル特徴量抽出式リスト生成部21は、前世代の低レベル特徴量抽出式リストから、高レベル特徴量抽出式学習部25から入力された高レベル特徴量抽出式の推定精度の平均値が高い方のものが優先的に選択されるように重み付けをした後、ランダムに2個の低レベル特徴量抽出式リストA,Bを選択する。なお、ここでの選択は、上述した選択生成処理で選択されたns個の低レベル特徴量抽出式リストを選択候補から除外してもよいし、選択候補に残しておいてもよい。
ステップS53において、制御部27は、式ループパラメータMを1に初期化して式ループを開始する。なお、式ループは、1個の低レベル特徴量抽出式リストに含まれる式数mだけ繰り返される。
ステップS54において、低レベル特徴量抽出式リスト生成部21は、低レベル特徴量抽出式リストA,Bに含まれる2m本の低レベル特徴量抽出式リストから、高レベル特徴量抽出式学習部25から入力された高レベル特徴量抽出式における寄与率が高い方のものが優先的に選択されるように重み付けをした後、ランダムに1本の低レベル特徴量抽出式を選択して次世代の低レベル特徴量抽出式リストに追加する。
ステップS55において、制御部27は、式ループパラメータMが最大値mよりも小さいか否かを判定し、式ループパラメータMが最大値mよりも小さい場合、式ループパラメータMを1だけインクリメントして処理をステップS54に戻す。反対に、式ループパラメータMが最大値mよりも小さくない場合(式ループパラメータMが最大値mと同値の場合)、式ループを抜けて処理をステップS56に進める。ここまでの処理により、低レベル特徴量抽出式リストが1個生成されたことになる。
ステップS56において、制御部27は、交差ループパラメータNXが最大値nxよりも小さいか否かを判定し、交差ループパラメータNXが最大値nxよりも小さい場合、交差ループパラメータNXを1だけインクリメントして処理をステップS52に戻す。反対に、交差ループパラメータNXが最大値nxよりも小さくない場合(交差ループパラメータNXが最大値nxと同値の場合)、交差ループを抜けて交差生成処理を終了する。ここまでの処理により、交差数nx個の低レベル特徴量抽出式リストが生成されたことになる。
図17のステップS34の突然変異生成処理について、図20のフローチャートを参照して説明する。この突然変異生成処理では、次世代のn個の低レベル特徴量抽出式リストのうちの突然変異数nm個が生成される。
ステップS61において、制御部27は、突然変異ループパラメータNMを1に初期化して突然変異ループを開始する。なお、突然変異ループは、突然変異数nmだけ繰り返される。
ステップS62において、低レベル特徴量抽出式リスト生成部21は、前世代の低レベル特徴量抽出式リストから、高レベル特徴量抽出式学習部25から入力された高レベル特徴量抽出式の推定精度の平均値が高い方のものが優先的に選択されるように重み付けをした後、ランダムに1個の低レベル特徴量抽出式リストAを選択する。なお、ここでの選択は、上述した選択生成処理で選択されたns個の低レベル特徴量抽出式リストを選択候補から除外してもよいし、選択候補に残しておいてもよい。また、上述した交差生成処理のステップS52の処理で選択された低レベル特徴量抽出式リストを選択候補から除外してもよいし、選択候補に残しておいてもよい。
ステップS63において、制御部27は、式ループパラメータMを1に初期化して式ループを開始する。なお、式ループは、1個の低レベル特徴量抽出式リストに含まれる式数mだけ繰り返される。
ステップS64において、低レベル特徴量抽出式リスト生成部21は、低レベル特徴量抽出式リストAに含まれるm本の低レベル特徴量抽出式のうちのM番目のものに注目して、M番目の低レベル特徴量抽出式の演算結果である低レベル特徴量の寄与率が、低レベル特徴量抽出式リストAに含まれる他の低レベル特徴量抽出式の演算結果である低レベル特徴量の寄与率に比較して低いか否かを判定する。具体的には、例えば低レベル特徴量抽出式リストAに含まれるm本の低レベル特徴量抽出式のうち、演算結果である低レベル特徴量の寄与率が低い方の所定の順番までに属するか否かを判定する。
ステップS64において、M番目の低レベル特徴量抽出式の演算結果である低レベル特徴量の寄与率が他よりも低いと判定した場合、処理はステップS65に進み、低レベル特徴量抽出式リスト生成部21は、M番目の低レベル特徴量抽出式をランダムに変形して次世代の低レベル特徴量抽出式リストに追加する。
反対に、ステップS64において、M番目の低レベル特徴量抽出式の演算結果である低レベル特徴量の寄与率が他よりも低くないと判定した場合、処理はステップS66に進み、低レベル特徴量抽出式リスト生成部21は、M番目の低レベル特徴量抽出式をそのまま次世代の低レベル特徴量抽出式リストに追加する。
ステップS67において、制御部27は、式ループパラメータMが最大値mよりも小さいか否かを判定し、式ループパラメータMが最大値mよりも小さい場合、式ループパラメータMを1だけインクリメントして処理をステップS64に戻す。反対に、式ループパラメータMが最大値mよりも小さくない場合(式ループパラメータMが最大値mと同値の場合)、式ループを抜けて処理をステップS68に進める。ここまでの処理により、低レベル特徴量抽出式リストが1個生成されたことになる。
ステップS68において、制御部27は、突然変異ループパラメータNMが最大値nmよりも小さいか否かを判定し、突然変異ループパラメータNMが最大値nmよりも小さい場合、突然変異ループパラメータNMを1だけインクリメントして処理をステップS62に戻す。反対に、突然変異ループパラメータNMが最大値nmよりも小さくない場合(突然変異ループパラメータNMが最大値nmと同値の場合)、突然変異ループを抜けて突然変異生成処理を終了する。ここまでの処理により、突然変異数nm個の低レベル特徴量抽出式リストが生成されたことになる。
以上説明した次世代リストジェネティック生成処理によれば、前世代の低レベル特徴量抽出式リストに対応する推定精度が高いもの、低レベル特徴量抽出式に対応する寄与率が高いものは次世代に継承され、推定精度や寄与率が低いものは次世代に継承されず淘汰されることになる。したがって、世代が進むに連れて、低レベル特徴量抽出式リストに対応する推定精度は向上し、低レベル特徴量抽出式に対応する寄与率も向上することが期待できる。
図7に戻る。ステップS3において、低レベル特徴量演算部24は、低レベル特徴量抽出式リスト生成部21から入力されたn個の低レベル特徴量抽出式リストに曲C1乃至Clのl曲分の入力データ(コンテンツデータやメタデータ)を代入して低レベル特徴量を演算する。なお、ここで入力されるl曲分の入力データは、それぞれk項目の教師データ(対応する高レベル特徴量)が予め得られているものを使用する。例えば、低レベル特徴量演算部24は、図21Aに示されるような保有次元が音程軸と時間軸である入力データに対して#16Meanのオペレータに相当する演算を実行した場合、図21Bに示すように時間軸を処理対象軸にして各音程の値の平均値が算出される。
そして演算結果として得られる図22に示すようなn組の各入力データに対応するm種類の低レベル特徴量を高レベル特徴量抽出式学習部25に出力する。
図7に戻る。ステップS4において、高レベル特徴量抽出式学習部25は、低レベル特徴量演算部24から入力された各入力データにそれぞれ対応して演算されたn組の低レベル特徴量と、対応する教師データ(図23に示すように、各入力データ(楽曲C1乃至Cl)にそれぞれ対応するk種類の高レベル特徴量)に基づいて、1組がk種類の高レベル特徴量抽出式の組をn組、学習によって推定する(生成する)。また、各高レベル特徴量抽出式の推定精度と各高レベル特徴量抽出式における各低レベル特徴量の寄与率を算出して低レベル特徴量抽出式リスト生成部21に出力する。
ステップS4における高レベル特徴量抽出式学習処理について、図24のフローチャートを参照して詳述する。
ステップS71において、制御部27は、リストループパラメータNを1に初期化してリストループを開始する。なお、リストループは、予め設定されているリスト数nだけ繰り返される。ステップS72において、制御部27は、教師データループパラメータKを1に初期化して教師データループを開始する。なお、教師データループは、予め設定されている教師データの種類数kだけ繰り返される。
ステップS73において、制御部27は、アルゴリズムループパラメータAを1に初期化してアルゴリズムループを開始する。なお、アルゴリズムループは、学習アルゴリズムの種類数aだけ繰り返される。
適用する学習アルゴリズムとしては、例えば、Regression(回帰解析)、Classify(クラス分類)、SVM(Support Vector Machine)、およびGP(Genetic Programming)を挙げることができる。
Regressionに属する学習アルゴリズムとしては、図25に示すように、教師データと低レベル特徴量が線形の関係にあるとの仮定に基づいて教師データとYの2乗誤差が最小となるようにパラメータbnを学習するもの、および、図26に示すように、教師データと低レベル特徴量が非線形の関係にあるとの仮定に基づいて教師データとYの2乗誤差が最小となるようにパラメータbnmを学習するものを挙げることができる。
Classifyに属する学習アルゴリズムとしては、図27に示すように、各クラス(同図の場合、男性ボーカルクラスと女性ボーカルクラス)のそれぞれの中心からのユークリッド距離dを算出してユークリッド距離dが最短のクラスに分類するもの、図28に示すように、各クラス(同図の場合、男性ボーカルクラスと女性ボーカルクラス)の平均ベクトルとの相関correlを算出して相関correlが最大のクラスに分類するもの、図29に示すように、各クラス(同図の場合、男性ボーカルクラスと女性ボーカルクラス)のそれぞれの中心からのマハラノビス距離dを算出してマハラノビス距離dが最短のクラスに分類するもの、図30Aに示すように、各クラス群(同図の場合、男性ボーカルクラス群と女性ボーカルクラス群)の分布を複数のクラスで表現し、それぞれのクラス群の中心からのユークリッド距離dを算出してユークリッド距離dが最短のクラスに分類するもの、および、図30Bに示すように、各クラス群(同図の場合、男性ボーカルクラス群と女性ボーカルクラス群)の分布を複数のクラスで表現し、それぞれのクラス群の中心からのマハラノビス距離dを算出してマハラノビス距離dが最短のクラスに分類するものを挙げることができる。
SVMに属する学習アルゴリズムとしては、図31に示すように、各クラス(同図の場合、男性ボーカルクラスと女性ボーカルクラス)の境界面をサポートベクトルで表現し、分離面と境界付近のベクトルとの距離(マージン)が最大になるようにパラメータbnmを学習するものを挙げることができる。
GPに属する学習アルゴリズムとしては、図32に示すように、低レベル特徴量を組み合わせた式をGPで生成するもの、図33Aに示すように、低レベル特徴量を組み合わせた式を交差させるもの、および、図33Bに示すように、低レベル特徴量を組み合わせた式を突然変異させるものを挙げることができる。
例えば、上述した全ての学習アルゴリズムを用いる場合、学習アルゴリズムの種類数aは11とされる。
図24に戻る。ステップS74において、制御部27は、クロスバリデーションループパラメータCを1に初期化してクロスバリデーションループを開始する。なお、クロスバリデーションループは、予め設定されているクロスバリデーション回数cだけ繰り返される。
ステップS75において、高レベル特徴量抽出式学習部25は、k種類の教師データのうち、K番目の種類のl曲分の教師データ(高レベル特徴量)をランダムに学習用と評価用に2分割する(クロスバリデーション)。以下、教師データのうち、学習用に分類されたものを学習用データ、評価用に分類されたものを評価用データと称する。
ステップS76において、高レベル特徴量抽出式学習部25は、N番目の低レベル特徴量抽出式リストを用いて演算されたm種類の低レベル特徴量と学習用データとをa番目の学習アルゴリズムに適用して高レベル特徴量抽出式を学習により推定する。この学習に際しては、演算量の削減と過学習(オーバフィッティング)を抑止するために、m種類の低レベル特徴量のうちのいくつかをジェネティックに選択して使用する。
この低レベル特徴量を選択するときの評価値には、関数である情報量基準AIC(Akaike Information Criterion)、または情報量基準BIC(Bayesian Information Criterion)を用いる。情報量基準AICおよびBICは学習モデル(いまの場合、選択されている低レベル特徴量)の選択基準として用いるものであり、その値が小さいほど学習モデルほど良い(評価が高い)とされる。
AICは次式のように表記される。
AIC=−2×最大対数尤度+2×自由パラメータ数
例えば、学習アルゴリズムにRegression(線形)が採用されている場合(図25の場合)、自由パラメータ数=n+1、対数尤度=−0.5×学習用データ数×((log2π)+1+log(平均2乗誤差))であるので、
AIC=学習用データ数×((log2π)+1+log(平均2乗誤差))+2×(n+1)
となる。
BICは次式のように表記される。
BIC=−2×最大対数尤度+log(学習用データ数)×自由パラメータ数
例えば、学習アルゴリズムにRegression(線形)が採用されている場合(図25の場合)、 BIC=学習用データ数×((log2π)+1+log(平均2乗誤差))+log(学習用データ数)×(n+1)
となる。BICはAICと比較して、学習用データ数が増加してもその値が増加し難いことが特徴である。
ここで、ステップS76の学習アルゴリズムに基づく学習処理について、図34を参照して説明する。この学習処理に際しては、上述したように、演算量の削減と過学習(オーバフィッティング)を抑止するために、m種類の低レベル特徴量のうちのいくつかをジェネティックに選択して使用する。
ステップS91において、高レベル特徴量抽出式学習部25は、m種類の低レベル特徴量のうち、選択するもの(学習に使用するもの)をランダムに抽出した初期集団をp組生成する。
ステップS92において、高レベル特徴量抽出式学習部25は、ジェネティックアルゴリズム(GA:遺伝的アルゴリズム)による特徴選択ループを開始する。このGAによる特徴選択ループは、後述するステップS98において所定の条件を満たすまで繰り返される。
ステップS93において、制御部27は、初期集団ループパラメータPを1に初期化して初期集団ループを開始する。なお、初期集団ループは、ステップS91の処理で生成された低レベル特徴量の初期集団数pだけ繰り返される。
ステップS94において、高レベル特徴量抽出式学習部25は、P番目の初期集団に含まれる低レベル特徴量と教師データのうちの学習用データとを用い、a番目の学習アルゴリズムに適用して高レベル特徴量抽出式を学習により推定する。
ステップS95において、高レベル特徴量抽出式学習部25は、ステップS94の処理結果として得られた高レベル特徴量の評価値として、情報量基準AICまたはBICを演算する。ステップS96において、制御部27は、初期集団ループパラメータPが最大値pよりも小さいか否かを判定し、初期集団ループパラメータPが最大値pよりも小さい場合、初期集団ループパラメータPを1だけインクリメントして処理をステップS94に戻す。反対に、初期集団ループパラメータPが最大値pよりも小さくない場合(初期集団ループパラメータPが最大値pと同値の場合)、初期集団ループを抜けて処理をステップS97に進める。この初期集団ループにより、各初期集団に基づいて学習された高レベル特徴量抽出式の評価値として情報基準量を得ることができる。
ステップS97において、高レベル特徴量抽出式学習部25は、学習に使用する低レベル特徴量からなるp組の初期集団を、その評価値(情報量基準)に基づいてジェネティックに更新する。具体的には、図17のステップS32乃至S34と同様に、選択、交差、突然変異によって初期集団を更新する。この更新により、当初はランダムに生成された初期集団が高レベル特徴量抽出式の評価値を向上させる学習が進められたものとなる。
ステップS98において、制御部27は、p組の初期集団にそれぞれ対応する高レベル特徴量抽出式のうち、最も評価値の高い(情報基準量が小さい)のものの評価値が、GAによる特徴選択ループが繰り返される毎に向上している(情報基準量が減少している)間は処理をステップS93に戻す。反対に、p組の初期集団にそれぞれ対応する高レベル特徴量抽出式のうち、最も評価値の高いのものの評価値が、GAによる特徴選択ループが繰り返されても向上しなくなってきた(情報基準量が減少しなくなってきた)場合、GAによる特徴選択ループを抜け、最も評価値の高いを高レベル特徴量抽出式を後段の処理(図24のステップS77の処理)に出力する。そして、学習アルゴリズムに基づく学習処理は終了される。
図24に戻る。ステップS77において、高レベル特徴量抽出式学習部25は、ステップS76の処理で得た高レベル特徴量抽出式を評価用データを用いて評価する。具体的には、得られた高レベル特徴量抽出式を用いて高レベル特徴量を演算し、評価用データとの2乗誤差を算出する。
ステップS78において、制御部27は、クロスバリデーションループパラメータCが最大値cよりも小さいか否かを判定し、クロスバリデーションループパラメータCが最大値cよりも小さい場合、クロスバリデーションループパラメータCを1だけインクリメントして処理をステップS75に戻す。反対に、クロスバリデーションループパラメータCが最大値cよりも小さくない場合(クロスバリデーションループパラメータCが最大値cと同値の場合)、クロスバリデーションループを抜けて処理をステップS79に進める。ここまでの処理により、c本の学習結果、すなわち、高レベル特徴量抽出式が得られたことになる。このクロスバリデーションループにより、学習用データと評価用データがランダムに変換されるので、高レベル特徴量抽出式が過学習されていないことを確認することができる。
ステップS79において、高レベル特徴量抽出式学習部25は、クロスバリデーションループによって得られたc本の学習結果、すなわち、高レベル特徴量抽出式のうち、ステップS77の処理における評価値が最も高いものを選択する。
ステップS80において、制御部27は、アルゴリズムループパラメータAが最大値aよりも小さいか否かを判定し、アルゴリズムループパラメータAが最大値aよりも小さい場合、アルゴリズムループパラメータAを1だけインクリメントして処理をステップS74に戻す。反対に、アルゴリズムループパラメータAが最大値aよりも小さくない場合(アルゴリズムループパラメータAが最大値aと同値の場合)、アルゴリズムループを抜けて処理をステップS81に進める。このアルゴリズムループにより、A種類の学習アルゴリズムによって学習されたK番目の種類の高レベル特徴量抽出式がa本得られたことになる。そこで、ステップS81において、高レベル特徴量抽出式学習部25は、アルゴリズムループによって得られたa本の学習結果、すなわち、高レベル特徴量抽出式のうち、ステップS77の処理における評価値が最も高いものを選択する。
ステップS82において、制御部27は、教師データループパラメータKが最大値kよりも小さいか否かを判定し、教師データループパラメータKが最大値kよりも小さい場合、教師データループパラメータKを1だけインクリメントして処理をステップS73に戻す。反対に、教師データループパラメータKが最大値kよりも小さくない場合(教師データループパラメータKが最大値kと同値の場合)、教師データループを抜けて処理をステップS83に進める。この教師データループにより、N番目の低レベル特徴量抽出式リストに対応する、k種類の高レベル特徴量抽出式が得られたことになる。
ステップS83において、制御部27は、リストループパラメータNが最大値nよりも小さいか否かを判定し、リストループパラメータNが最大値nよりも小さい場合、リストループパラメータNを1だけインクリメントして処理をステップS72に戻す。反対に、リストループパラメータNが最大値nよりも小さくない場合(リストループパラメータNが最大値nと同値の場合)、リストループを抜けて処理をステップS84に進める。このリストループにより、n個の低レベル特徴量抽出式リストにそれぞれ対応する、k種類の高レベル特徴量抽出式が得られたことになる。
ステップS84において、高レベル特徴量抽出式学習部25は、得られたn個の低レベル特徴量抽出式リストにそれぞれ対応する、k種類の高レベル特徴量抽出式の推定精度と各高レベル特徴量抽出式における各低レベル特徴量の寄与率を算出して低レベル特徴量抽出式リスト生成部21に出力する。以上で、高レベル特徴量抽出式学習処理が終了される。
図7に戻る。ステップS5において、制御部27は、学習ループパラメータGが最大値gよりも小さいか否かを判定し、学習ループパラメータGが最大値gよりも小さい場合、学習ループパラメータGを1だけインクリメントして処理をステップS2に戻す。反対に、学習ループパラメータGが最大値gよりも小さくない場合(学習ループパラメータGが最大値gと同値の場合)、学習ループを抜けて処理をステップS6に進める。なお、ステップS1乃至S5の学習ルールが特徴量抽出アルゴリズムの学習過程であり、これ以降のステップS6は、特徴量抽出アルゴリズムを用いた高レベル特徴量の演算のための処理である。
ステップS6において、高レベル特徴量抽出式学習部25は、学習の最終世代において、n組の低レベル特徴量抽出式リストのうち、得られた高レベル特徴量の平均精度が最も高かったリストのm組の低レベル特徴量抽出式と、これに対応するk種類の高レベル特徴量抽出式を高レベル特徴量演算部26に供給する。ステップS7において、高レベル特徴量演算部26は、高レベル特徴量抽出式学習部25から供給された低レベル特徴量抽出式、高レベル特徴量抽出式のうち、最後に高レベル特徴量抽出式学習部25から供給された低レベル特徴量抽出式、高レベル特徴量抽出式を用いて高レベル特徴量を演算する。なお、ステップS7の処理については図38以降を参照して後述する。
以上、特徴量抽出アルゴリズム生成装置20による特徴量抽出アルゴリズム生成処理の説明を終了する。
次に、上述した特徴量抽出アルゴリズム生成処理におけるステップS1乃至S6の学習ループが繰り返されて低レベル特徴量抽出式リストの世代が進み成長したとき、すなわち、低レベル特徴量抽出式の寄与度が向上したり、対応する高レベル特徴量抽出式の推定精度が向上したりしたときに実行する新規オペレータ生成処理について説明する。
低レベル特徴量抽出式リストの世代が進み成長した場合、低レベル特徴量抽出式リストの中には、図35に示すように複数のオペレータの順列(以下、オペレータの組み合わせと称する)が異なる低レベル特徴量抽出式上に頻出することになる。そこで、異なる低レベル特徴量抽出式上に頻出する複数のオペレータの組み合わせを新たなオペレータの1つとして、低レベル特徴量抽出式リスト生成部21において使用するオペレータに登録するようにする。
例えば、図35の場合、3つのオペレータの組み合わせ”32#FFT,Log,32#FFT”が5本の低レベル特徴量抽出式に出現している。この”32#FFT,Log,32#FFT”が1つのオペレータNewOperator1として登録された場合、次世代以降の低レベル特徴量抽出式には、例えば図36に示すようにオペレータNewOperator1が含まれることになる。
この新規オペレータ生成処理について、図37のフローチャートを参照して説明する。ステップS101において、オペレータ組検出部22は、所定の数(例えば、1乃至5程度)以下のオペレータからなるオペレータの順列(順序のあるオペレータの組み合わせ)を生成する。ここで生成されるオペレータの組み合わせ数をogとする。
ステップS102において、制御部27は、組み合わせループパラメータOGを1に初期化して組み合わせループを開始する。なお、組み合わせループは、オペレータの組み合わせ数ogだけ繰り返される。
ステップS103において、og番目のオペレータの組み合わせの出現頻度Countを1に初期化する。ステップS104において、制御部27は、リストループパラメータNを0に初期化してリストループを開始する。なお、リストループは、予め設定されているリスト数nだけ繰り返される。ステップS105において、制御部27は、式ループパラメータMを1に初期化して式ループを開始する。なお、式ループは、1個の低レベル特徴量抽出式リストを構成する低レベル特徴量抽出式数mだけ繰り返される。
ステップS106において、オペレータ組検出部22は、N番目の低レベル特徴量抽出式リストを構成するM番目の低レベル特徴量抽出式上にog番目のオペレータの組み合わせが存在するか否かを判定し、存在すると判定した場合、処理をステップS107に進めて出現頻度Countを1だけインクリメントする。反対に、og番目のオペレータの組み合わせが存在しないと判定した場合、ステップS107をスキップして、処理をステップS108に進める。
ステップS108において、制御部27は、式ループパラメータMが最大値mよりも小さいか否かを判定し、式ループパラメータMが最大値mよりも小さい場合、式ループパラメータMを1だけインクリメントして処理をステップS106に戻す。反対に、式ループパラメータMが最大値mよりも小さくない場合(式ループパラメータMが最大値mと同値の場合)、式ループを抜けて処理をステップS109に進める。
ステップS109において、制御部27は、リストループパラメータNが最大値nよりも小さいか否かを判定し、リストループパラメータNが最大値nよりも小さい場合、リストループパラメータNを1だけインクリメントして処理をステップS105に戻す。反対に、リストループパラメータNが最大値nよりも小さくない場合(リストループパラメータNが最大値nと同値の場合)、リストループを抜けて処理をステップS110に進める。
ステップS110において、制御部27は、組み合わせループパラメータOGが最大値ogよりも小さいか否かを判定し、組み合わせループパラメータOGが最大値ogよりも小さい場合、組み合わせループパラメータOGを1だけインクリメントして処理をステップS103に戻す。反対に、組み合わせループパラメータOGが最大値ogよりも小さくない場合(組み合わせループパラメータOGが最大値ogと同値の場合)、組み合わせループを抜けて処理をステップS110に進める。ここまでの処理により、全てオペレータの組み合わせにそれぞれ対応する出現頻度Countが検出されたことになる。
ステップS111において、オペレータ組検出部22は、出現頻度Countが所定の閾値以上のオペレータの組み合わせを抽出してオペレータ生成部23に出力する。ステップS112において、オペレータ生成部23は、オペレータ組検出部22から入力されたオペレータの組み合わせを新たな1つのオペレータとして登録する。以上で新規オペレータ生成処理が終了される。
以上説明したように、新規オペレータ生成処理によれば、出現頻度の高い、すなわち、高レベル特徴量を演算する上で有効であると考えられるオペレータの組み合わせが1つのオペレータとされ、次世代以降の低レベル特徴量抽出式において使用されるので、低レベル特徴量抽出式の作成速度と成長速度が向上する。また、有効な低レベル特徴量抽出式が早期に発見されることとなる。さらに、従来、人手により発見していた有効であると考えられるオペレータの組み合わせを自動的に検出できるので、この点も新規オペレータ生成処理が奏する効果のひとつである。
次に、上述した図7のステップS7の処理について、図38のフローチャートを参照して説明する。ステップS141において、高レベル特徴量演算部26は、高レベル特徴量抽出式学習部25から供給された最終的な高レベル特徴量抽出式のうち、高い精度の演算結果を得られるもののみを選択するための高精度リジェクト処理を実行する。
高精度リジェクト処理は、高レベル特徴量の精度は低レベル特徴量の値に因果関係があるとの考えに基づき、低レベル特徴量を入力として高レベル特徴量の精度を出力するリジェクト領域抽出式を学習によって得るものである。高精度リジェクト処理について、図39のフローチャートを参照して説明する。
ステップS151において、高レベル特徴量演算部26の低レベル特徴量演算部41は、最終的な低レベル特徴量抽出式リストを取得する。高レベル特徴量演算部26の高レベル特徴量演算部42は、最終的な高レベル特徴量抽出式を取得する。
ステップS152において、制御部27は、コンテンツループパラメータLを1に初期化してコンテンツループを開始する。なお、コンテンツループは、高精度リジェクト処理を実行するために用意できる入力データ(コンテンツデータとメタデータ)の数lだけ繰り返される。なお、用意できる入力データに対応する高レベル特徴量も、教師データとして用意されているものとする。
ステップS153において、低レベル特徴量演算部41は、ステップS151の処理で取得した最終的な低レベル特徴量抽出式リストにL番目の入力データを代入し、その演算結果であるm種類の低レベル特徴量を高レベル特徴量演算部42およびリジェクト領域抽出式学習部44に出力する。高レベル特徴量演算部42は、ステップS151の処理で取得した最終的な高レベル特徴量抽出式に、低レベル特徴量演算部41から入力されたm種類の低レベル特徴量を代入し、その演算結果である高レベル特徴量を2乗誤差演算部43に出力する。
ステップS154において、2乗誤差演算部43は、高レベル特徴量演算部42から入力された高レベル特徴量と、教師データ(入力データに対応する真の高レベル特徴量)との2乗誤差を演算してリジェクト領域抽出式学習部44に出力する。この演算結果である2乗誤差が、高レベル特徴量演算部42において演算される高レベル特徴量抽出式の精度(以下、特徴抽出精度と称する)となる。
ステップS155において、制御部27は、コンテンツループパラメータLが最大値lよりも小さいか否かを判定し、コンテンツループパラメータLが最大値lよりも小さい場合、コンテンツループパラメータLを1だけインクリメントして処理をステップS153に戻す。反対に、コンテンツループパラメータLが最大値lよりも小さくない場合(コンテンツループパラメータLが最大値lと同値の場合)、コンテンツループを抜けて処理をステップS156に進める。ここまでの処理により、各入力データにそれぞれ対応する、演算によって得られた高レベル特徴量と教師データとの2乗誤差が得られたことになる。
ステップS156において、リジェクト領域抽出式学習部44は、低レベル特徴量演算部41から入力される低レベル特徴量と2乗誤差演算部43から入力される2乗誤差とに基づく学習により、低レベル特徴量を入力としてそれに基づいて演算される高レベル特徴量の特徴抽出精度を出力とするリジェクト領域抽出式を生成し、生成したリジェクト領域抽出式を特徴量抽出精度演算部45に供給する。以上で高精度リジェクト処理を終了され、処理は図38のステップS142に進められる。
ステップS142において、低レベル特徴量演算部41は、高レベル特徴量を求めたい楽曲の入力データを、最終的な低レベル特徴量抽出式リストにL番目の入力データを代入して低レベル特徴量を演算し、演算結果を高レベル特徴量演算部42および特徴量抽出精度演算部45に出力する。
ステップS143において、特徴量抽出精度演算部45は、低レベル特徴量演算部41から入力される低レベル特徴量を、リジェクト領域抽出式学習部44から供給されたリジェクト領域抽出式に代入して、低レベル特徴量演算部41から入力される低レベル特徴量に基づいて演算される高レベル特徴量の特徴量抽出精度(すなわち、高レベル特徴量演算部42で演算される高レベル特徴量に対して推定される2乗誤差)を演算する。
ステップS144において、特徴量抽出精度演算部45は、ステップS143の処理で演算した特徴量抽出精度が所定の閾値以上であるか否かを判定し、演算した特徴量抽出精度が所定の閾値以上であると判定した場合、処理はステップS145に進み、特徴量抽出精度演算部45は、高レベル特徴量演算部42に対して高レベル特徴量の演算を実行させる。高レベル特徴量演算部42は、ステップS142の処理で低レベル特徴量演算部41から入力されたm種類の低レベル特徴量を、最終的な高レベル特徴量抽出式に代入して高レベル特徴量を演算する。そして、ここで演算された高レベル特徴量が出力されて、高精度高レベル特徴量演算処理が終了される。
なお、ステップS144において、演算した特徴量抽出精度が所定の閾値よりも小さいと判定された場合、ステップS145はスキップされて高精度高レベル特徴量演算処理が終了される。
したがって、高精度高レベル特徴量演算処理によれば、高レベル特徴量抽出式により計算される高レベル特徴量の精度を推定することができる。また、高い精度が期待できない高レベル特徴量を演算しないので、無駄な演算を省略することが可能となる。
以上説明したように、本発明を適用した特徴量抽出アルゴリズム生成装置20による特徴量抽出アルゴリズム学習処理によれば、楽曲データから対応する特徴量を抽出できるアルゴリズムを、高精度で速やかに生成することが可能となるだけでなく、高精度の高レベル特徴量だけを少ない演算量で取得することが可能となる。
なお、本発明は、楽曲の高レベル特徴量を取得する場合だけでなく、映像データなどあらゆる種類のコンテンツデータの高レベル特徴量を取得する場合に適用することが可能である。
ところで、上述した一連の処理は、ハードウェアにより実行させることもできるが、ソフトウェアにより実行させることもできる。一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、記録媒体からインストールされる。
このパーソナルコンピュータ100は、CPU(Central Processing Unit)101を内蔵している。CPU101にはバス104を介して、入出力インタフェース105が接続されている。バス104には、ROM(Read Only Memory)102およびRAM(Random Access Memory)103が接続されている。
入出力インタフェース105には、ユーザが操作コマンドを入力するキーボード、マウス等の入力デバイスよりなる入力部106、操作画面などを表示するCRT(Cathode Ray Tube)またはLCD(Liquid Crystal Display)等のディスプレイよりなる出力部107、プログラムや各種データを格納するハードディスクドライブなどよりなる記憶部108、およびモデム、LAN(Local Area Network)アダプタなどよりなり、インタネットに代表されるネットワークを介した通信処理を実行する通信部109が接続されている。また、磁気ディスク(フレキシブルディスクを含む)、光ディスク(CD-ROM(Compact Disc-Read Only Memory)、DVD(Digital Versatile Disc)を含む)、光磁気ディスク(MD(Mini Disc)を含む)、もしくは半導体メモリなどの記録媒体111に対してデータを読み書きするドライブ110が接続されている。
このパーソナルコンピュータ100に上述した一連の処理を実行させるプログラムは、記録媒体111に格納された状態でパーソナルコンピュータ100に供給され、ドライブ110によって読み出されて記憶部108に内蔵されるハードディスクドライブにインストールされている。記憶部108にインストールされているプログラムは、入力部106に入力されるユーザからのコマンドに対応するCPU101の指令によって、記憶部108からRAM103にロードされて実行される。
なお、本明細書において、プログラムに基づいて実行されるステップは、記載された順序に従って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。
また、プログラムは、1台のコンピュータにより処理されるものであってもよいし、複数のコンピュータによって分散処理されるものであってもよい。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであってもよい。

また、本明細書において、システムとは、複数の装置により構成される装置全体を表すものである。
なお、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。
従来の特徴量抽出アルゴリズムを説明するための図である。 本発明を適用した特徴量抽出アルゴリズム生成装置によって生成される特徴量抽出アルゴリズムの概要を示す図である。 低レベル特徴量抽出式の例を示す図である。 高レベル特徴量抽出式の例を示ず図である。 本発明を適用した特徴量抽出アルゴリズム生成装置の構成例を示すブロック図である。 図5の高レベル特徴量演算部の構成例を示すブロック図である。 特徴量抽出アルゴリズム学習処理を説明するフローチャートである。 低レベル特徴量抽出式リストの例を示す図である。 低レベル特徴量抽出式リスト生成処理を説明するフローチャートである。 第1世代リストランダム生成処理を説明するフローチャートである。 低レベル特徴量抽出式の記述方法を示す図である。 入力データの例を示す図である。 入力データWavを説明する図である。 入力データChordを説明する図である。 入力データKeyを説明する図である。 低レベル特徴量抽出式の保有次元を説明する図である。 次世代リストジェネティック生成処理を説明するフローチャートである。 選択生成処理を説明するフローチャートである。 交差生成処理を説明するフローチャートである。 突然変異生成処理を説明するフローチャートである。 オペレータMeanの演算を説明するための図である。 低レベル特徴量演算部の処理を説明するための図である。 教師データの例を示す図である。 高レベル特徴量抽出式学習処理を説明するフローチャートである。 学習アルゴリズムの例を説明するための図である。 学習アルゴリズムの例を説明するための図である。 学習アルゴリズムの例を説明するための図である。 学習アルゴリズムの例を説明するための図である。 学習アルゴリズムの例を説明するための図である。 学習アルゴリズムの例を説明するための図である。 学習アルゴリズムの例を説明するための図である。 学習アルゴリズムの例を説明するための図である。 学習アルゴリズムの例を説明するための図である。 学習アルゴリズムに基づく学習処理を説明するフローチャートである。 オペレータの組み合わせの例を示す図である。 オペレータの組み合わせの例を示す図である。 新規オペレータ生成処理を説明するフローチャートである。 高精度高レベル特徴量演算処理を説明するフローチャートである。 高精度リジェクト処理を説明するフローチャートである。 汎用パーソナルコンピュータの構成例を示すブロック図である。
符号の説明
20 特徴量抽出アルゴリズム生成装置, 21 低レベル特徴量抽出式リスト生成部, 22 オペレータ組検出部, 23 オペレータ生成部, 24 低レベル特徴量演算部, 25 高レベル特徴量抽出式学習部, 26 高レベル特徴量演算部,27 制御部, 41 低レベル特徴量演算部, 42 高レベル特徴量演算部, 43 2乗誤差演算部, 44 リジェクト領域抽出式学習部, 45 特徴量抽出精度演算部, 100 パーソナルコンピュータ, 101 CPU, 111 記録媒体

Claims (5)

  1. コンテンツデータの特徴量を演算する情報処理装置において、
    前記コンテンツデータまたは前記コンテンツデータに対応するメタデータを入力として低レベル特徴量を出力する低レベル特徴量抽出式を用いて前記低レベル特徴量を演算する第1の演算手段と、
    演算された前記低レベル特徴量を入力として前記コンテンツデータの特徴を示す高レベル特徴量を出力する高レベル特徴量抽出式を用いて前記高レベル特徴量を演算する第2の演算手段と、
    演算された前記高レベル特徴量と、予め得られている前記コンテンツデータに対応する高レベル特徴量との誤差を算出する算出手段と、
    前記低レベル特徴量を入力として前記誤差を出力する誤差推定式を、算出された前記誤差を教師データとする学習によって生成する生成手段とを含み、
    前記コンテンツデータに対応する高レベル特徴量を取得する場合、演算された前記低レベル特徴量を生成した前記誤差推定式に適用して対応する誤差を推定し、推定した前記誤差に応じて前記第2の演算手段に前記高レベル特徴量を演算させる演算制御手段と
    を含む情報処理装置。
  2. 前記算出手段は、演算された前記高レベル特徴量と、予め得られている前記コンテンツデータに対応する高レベル特徴量との2乗誤差を算出する
    請求項1に記載の情報処理装置。
  3. 前記制御手段は、演算された前記低レベル特徴量を生成した前記誤差推定式に適用して対応する誤差を推定し、推定した前記誤差が閾値よりも小さいときだけ、前記第2の演算手段に前記高レベル特徴量を演算させる
    請求項1に記載の情報処理装置。
  4. コンテンツデータの特徴量を演算する情報処理装置の情報処理方法において、
    前記コンテンツデータまたは前記コンテンツデータに対応するメタデータを入力として低レベル特徴量を出力する低レベル特徴量抽出式を用いて前記低レベル特徴量を演算し、
    演算された前記低レベル特徴量を入力として前記コンテンツデータの特徴を示す高レベル特徴量を出力する高レベル特徴量抽出式を用いて前記高レベル特徴量を演算し、
    演算された前記高レベル特徴量と、予め得られている前記コンテンツデータに対応する高レベル特徴量との誤差を算出し、
    前記低レベル特徴量を入力として前記誤差を出力する誤差推定式を、算出された前記誤差を教師データとする学習によって生成し、
    前記コンテンツデータに対応する高レベル特徴量を取得する場合、演算された前記低レベル特徴量を生成した前記誤差推定式に適用して対応する誤差を推定し、推定した前記誤差に応じて前記高レベル特徴量を演算させる
    ステップを含む情報処理方法。
  5. コンテンツデータの特徴量を演算するためのプログラムであって、
    前記コンテンツデータまたは前記コンテンツデータに対応するメタデータを入力として低レベル特徴量を出力する低レベル特徴量抽出式を用いて前記低レベル特徴量を演算し、
    演算された前記低レベル特徴量を入力として前記コンテンツデータの特徴を示す高レベル特徴量を出力する高レベル特徴量抽出式を用いて前記高レベル特徴量を演算し、
    演算された前記高レベル特徴量と、予め得られている前記コンテンツデータに対応する高レベル特徴量との誤差を算出し、
    前記低レベル特徴量を入力として前記誤差を出力する誤差推定式を、算出された前記誤差を教師データとする学習によって生成し、
    前記コンテンツデータに対応する高レベル特徴量を取得する場合、演算された前記低レベル特徴量を生成した前記誤差推定式に適用して対応する誤差を推定し、推定した前記誤差に応じて前記高レベル特徴量を演算させる
    ステップを含む処理をコンピュータに実行させるプログラム。
JP2005310407A 2005-10-25 2005-10-25 情報処理装置、情報処理方法、およびプログラム Expired - Fee Related JP4987282B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2005310407A JP4987282B2 (ja) 2005-10-25 2005-10-25 情報処理装置、情報処理方法、およびプログラム
EP06255369A EP1780703A1 (en) 2005-10-25 2006-10-18 Information processing apparatus, information processing method and program
US11/584,612 US7738982B2 (en) 2005-10-25 2006-10-23 Information processing apparatus, information processing method and program
KR1020060103227A KR20070044780A (ko) 2005-10-25 2006-10-24 정보 처리 장치, 정보 처리 방법, 및 프로그램
CN2006100643410A CN101030366B (zh) 2005-10-25 2006-10-25 信息处理装置,信息处理方法以及程序

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005310407A JP4987282B2 (ja) 2005-10-25 2005-10-25 情報処理装置、情報処理方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2007121456A true JP2007121456A (ja) 2007-05-17
JP4987282B2 JP4987282B2 (ja) 2012-07-25

Family

ID=37696076

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005310407A Expired - Fee Related JP4987282B2 (ja) 2005-10-25 2005-10-25 情報処理装置、情報処理方法、およびプログラム

Country Status (5)

Country Link
US (1) US7738982B2 (ja)
EP (1) EP1780703A1 (ja)
JP (1) JP4987282B2 (ja)
KR (1) KR20070044780A (ja)
CN (1) CN101030366B (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2461259A2 (en) 2010-11-09 2012-06-06 Sony Corporation Information processing device and method, information processing system, and program
EP2579169A1 (en) 2011-10-04 2013-04-10 Sony Corporation Information processing apparatus, information processing method, and computer readable medium

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4935047B2 (ja) * 2005-10-25 2012-05-23 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
JP4333700B2 (ja) * 2006-06-13 2009-09-16 ソニー株式会社 和音推定装置及び方法
JP4239109B2 (ja) * 2006-10-20 2009-03-18 ソニー株式会社 情報処理装置および方法、プログラム、並びに記録媒体
KR101061128B1 (ko) * 2008-04-16 2011-08-31 엘지전자 주식회사 오디오 신호 처리 방법 및 이의 장치
WO2009128662A2 (en) * 2008-04-16 2009-10-22 Lg Electronics Inc. A method and an apparatus for processing an audio signal

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06175687A (ja) * 1992-12-04 1994-06-24 Fujitsu Ltd 音声認識装置
JPH08263660A (ja) * 1995-03-22 1996-10-11 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 信号認識方法、信号認識装置、信号認識装置の学習方法及び信号認識装置の学習装置
JP2002501637A (ja) * 1997-03-10 2002-01-15 フラウンホーファー−ゲゼルシャフト ツル フェルデング デル アンゲヴァンテン フォルシュング エー.ファー. 前選択と棄却クラスによる確実な識別
JP2002278547A (ja) * 2001-03-22 2002-09-27 Matsushita Electric Ind Co Ltd 楽曲検索方法、楽曲検索用データ登録方法、楽曲検索装置及び楽曲検索用データ登録装置
JP2003162294A (ja) * 2001-10-05 2003-06-06 Sony Internatl Europ Gmbh 感情検出方法及び感情検出装置
US20040181401A1 (en) * 2002-12-17 2004-09-16 Francois Pachet Method and apparatus for automatically generating a general extraction function calculable on an input signal, e.g. an audio signal to extract therefrom a predetermined global characteristic value of its contents, e.g. a descriptor
JP2005141430A (ja) * 2003-11-05 2005-06-02 Sharp Corp 楽曲検索システムおよび楽曲検索方法
JP2005173569A (ja) * 2003-11-12 2005-06-30 Sony Internatl Europ Gmbh オーディオ信号の分類装置及び方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19649296C2 (de) * 1996-11-28 2002-01-17 Blue Chip Music Gmbh Verfahren zur Tonhöhenerkennung bei zupf- oder schlagerregten Saiteninstrumenten
US6996525B2 (en) * 2001-06-15 2006-02-07 Intel Corporation Selecting one of multiple speech recognizers in a system based on performance predections resulting from experience

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06175687A (ja) * 1992-12-04 1994-06-24 Fujitsu Ltd 音声認識装置
JPH08263660A (ja) * 1995-03-22 1996-10-11 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 信号認識方法、信号認識装置、信号認識装置の学習方法及び信号認識装置の学習装置
JP2002501637A (ja) * 1997-03-10 2002-01-15 フラウンホーファー−ゲゼルシャフト ツル フェルデング デル アンゲヴァンテン フォルシュング エー.ファー. 前選択と棄却クラスによる確実な識別
JP2002278547A (ja) * 2001-03-22 2002-09-27 Matsushita Electric Ind Co Ltd 楽曲検索方法、楽曲検索用データ登録方法、楽曲検索装置及び楽曲検索用データ登録装置
JP2003162294A (ja) * 2001-10-05 2003-06-06 Sony Internatl Europ Gmbh 感情検出方法及び感情検出装置
US20040181401A1 (en) * 2002-12-17 2004-09-16 Francois Pachet Method and apparatus for automatically generating a general extraction function calculable on an input signal, e.g. an audio signal to extract therefrom a predetermined global characteristic value of its contents, e.g. a descriptor
JP2005141430A (ja) * 2003-11-05 2005-06-02 Sharp Corp 楽曲検索システムおよび楽曲検索方法
JP2005173569A (ja) * 2003-11-12 2005-06-30 Sony Internatl Europ Gmbh オーディオ信号の分類装置及び方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2461259A2 (en) 2010-11-09 2012-06-06 Sony Corporation Information processing device and method, information processing system, and program
EP2579169A1 (en) 2011-10-04 2013-04-10 Sony Corporation Information processing apparatus, information processing method, and computer readable medium

Also Published As

Publication number Publication date
US20070095197A1 (en) 2007-05-03
KR20070044780A (ko) 2007-04-30
EP1780703A1 (en) 2007-05-02
JP4987282B2 (ja) 2012-07-25
US7738982B2 (en) 2010-06-15
CN101030366A (zh) 2007-09-05
CN101030366B (zh) 2011-06-01

Similar Documents

Publication Publication Date Title
JP4935047B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP4948118B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP4987282B2 (ja) 情報処理装置、情報処理方法、およびプログラム
Turnbull et al. Fast recognition of musical genres using RBF networks
US20130066452A1 (en) Information processing device, estimator generating method and program
Wang et al. Robust and efficient joint alignment of multiple musical performances
JP2007122186A (ja) 情報処理装置、情報処理方法、およびプログラム
JP2020154564A (ja) 学習方法、学習プログラムおよび学習装置
US8712936B2 (en) Information processing apparatus, information processing method, and program
JP4392621B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP2009104274A (ja) 情報処理装置、情報処理方法、およびプログラム
JP2009110212A (ja) 情報処理装置、情報処理方法、およびプログラム
JP4392622B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP6233432B2 (ja) 混合モデルの選択方法及び装置
JP7224263B2 (ja) モデル生成方法、モデル生成装置及びプログラム
WO2023053918A1 (ja) 予測モデル作成方法、予測方法、予測モデル作成装置、予測装置、予測モデル作成プログラム、予測プログラム
WO2024102074A1 (en) Melody extraction from polyphonic symbolic music
JP2013164863A (ja) 情報処理装置、情報処理方法、およびプログラム
JP2008181294A (ja) 情報処理装置および方法、並びにプログラム
Jastrzebska et al. Optical music recognition as the case of imbalanced pattern recognition: A study of complex classifiers
JP2019200743A (ja) 生成装置、生成方法、生成プログラムおよびプログラムパラメータ
Helmbold Graham Charles Grindlay March 2005
Bosio et al. Microarray classification with hierarchical data representation and novel feature selection criteria
Hasui Computer Aided Composition System with Interactive Selective Population Climbing

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20091109

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091124

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100113

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100601

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100723

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100928

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101228

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20110112

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20110401

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120425

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150511

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees