JP2009123124A - 楽曲検索システム及び方法並びにそのプログラム - Google Patents

楽曲検索システム及び方法並びにそのプログラム Download PDF

Info

Publication number
JP2009123124A
JP2009123124A JP2007298695A JP2007298695A JP2009123124A JP 2009123124 A JP2009123124 A JP 2009123124A JP 2007298695 A JP2007298695 A JP 2007298695A JP 2007298695 A JP2007298695 A JP 2007298695A JP 2009123124 A JP2009123124 A JP 2009123124A
Authority
JP
Japan
Prior art keywords
music
pieces
piece
voice quality
identification information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007298695A
Other languages
English (en)
Other versions
JP5115966B2 (ja
Inventor
Hiromasa Fujiwara
弘将 藤原
Masataka Goto
真孝 後藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Advanced Industrial Science and Technology AIST
Original Assignee
National Institute of Advanced Industrial Science and Technology AIST
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Advanced Industrial Science and Technology AIST filed Critical National Institute of Advanced Industrial Science and Technology AIST
Priority to JP2007298695A priority Critical patent/JP5115966B2/ja
Priority to US12/183,432 priority patent/US8271112B2/en
Publication of JP2009123124A publication Critical patent/JP2009123124A/ja
Application granted granted Critical
Publication of JP5115966B2 publication Critical patent/JP5115966B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/632Query formulation
    • G06F16/634Query by example, e.g. query by humming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/638Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/121Musical libraries, i.e. musical databases indexed by musical parameters, wavetables, indexing schemes using musical parameters, musical rule bases or knowledge bases, e.g. for automatic composing methods
    • G10H2240/131Library retrieval, i.e. searching a database or selecting a specific musical piece, segment, pattern, rule or parameter set
    • G10H2240/141Library retrieval matching, i.e. any of the steps of matching an inputted segment or phrase with musical database contents, e.g. query by humming, singing or playing; the steps may include, e.g. musical analysis of the input, musical feature extraction, query formulation, or details of the retrieval process

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Mathematical Physics (AREA)
  • Acoustics & Sound (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)

Abstract

【課題】 声質が類似する歌声を含む未知の楽曲の検索をすることができる楽曲検索システムを提供する。
【解決手段】 複数の楽曲について、それぞれの楽曲の歌声の声質特徴量と各楽曲の識別情報とを声質特徴量蓄積手段2に蓄積する。類似度計算手段3は、複数の楽曲の中から一つの楽曲が選択されると、該一つの楽曲の声質特徴量とその他の前記複数の楽曲のそれぞれの声質特徴量とに基づいて、該一つの楽曲とその他の複数の楽曲の声質類似度を計算する。類似楽曲検索表示手段5は、類似度計算手段3により計算された声質類似度に基づいて、一つの楽曲中の歌声の声質に類似する歌声を含む複数の楽曲の複数の識別情報をディスプレイ10上に表示する。楽曲データ再生手段6は、ディスプレイ10上に表示された複数の識別情報の表示から選択された識別情報に対応する楽曲データを再生する。
【選択図】図2

Description

本発明は、声質が類似する楽曲を検索できる楽曲検索システム及び方法並びにそのプログラムに関するものである。
近年、音楽検索が重要性を増してきている。携帯型音楽プレーヤやWeb上でのオンライン楽曲販売サービスの普及により、ユーザ達は膨大な量の楽曲から好みの楽曲を検索し、どんな時でもどんな場所でも聴きたい音楽を鑑賞出来るようになった。これにより、自分の好みの楽曲を手がかりに、まだ聴いたことのない楽曲を発見したいという要求が生じてきた。しかし、探したい対象の楽曲が未知で、「好み」のような曖昧な情報のみが手がかりの場合、従来の歌手名、ジャンル名等の書誌情報のみに基づく検索システムは無力だった。このような動向から、楽曲の内容に基づく音楽検索システムに関して、多くの研究がなされてきた(非特許文献1乃至9)。
Aucouturier,J.−J.and Pachet,F.:Music Similarity Measures:What’s the Use?,Proceedings of the 3rd International Conference on Music Information Retrieval(IS−MIR2002),pp.157−163(2002). Logan,B.:Content−BasedPlaylistGeneration:Ex−ploratoryExperiments,Proceedings of the 3rd International Conference on Music Information Retrieval(ISMIR2002),pp.295−296(2003). Allamanche,E.,Herre,J.,Hellmuth,O.,Kastner,T.and Ertel,C.:A Multiple Feature Model for Musical Similarity Retrieval,Proceedings of the 4th International Conference on Music Information Retrieval(ISMIR2003),pp.217−218(2003). Berenzweig,A.,Logan,B.,Ellis,D.P.W.and Whit−man,B.:A Large−Scale Evaluation of Acoustic and Subjective Music SimilarityMeasures,Computer Music Journal,Vol.28,No.2,pp.63−76(2004). McKinney,M.F.and Breebaart,J.:Features for audio and music classification,Proceedings of the 4th International Conference on Music Information Retrieval(ISMIR2003),pp.151−158(2003). Tzanetakis,G.,Gao,J.and Steenkiste,P.:AScalable Peer−to−Peer System for Music Content and Information Retrieval,Proceedings of the 4th International Conference on Music Information Retrieval(ISMIR2003),pp.209−214(2003). Pampalk,E.,Flexer,A.and Widmer,G.:Improvements of Audio−based Music Similarity and Genre Classification,Proceedings of the 6th International Conference on Music Information Retrieval(ISMIR2005),pp.628−633(2005). Flexer,A.,Gouyou,F.,Dixon,S.and Widmer,G.:Probabilistic combination of features for music classification,Proceedings of the 7th International Conference on Music Information Retrieval(ISMIR2006),pp.628−633(2006). Pohle,T.,Knees,P.,Schedl,M.and Widmer,G.:Independent Component Analysis for Music Similarity Computation,Proceedings of the 7th International Conference on Music Information Retrieval(ISMIR2006),pp.228−233(2006).
しかし、これらの研究で示された楽曲検索技術では、音楽の内容を表現するのに、主に楽曲の曲調を表現するMFCC、スペクトル重心、ロールオフ、フラックスなどの特徴量を用いており、歌声(ボーカル)の声質などのより詳細な内容を表現する特徴量は用いられていなかった。そのため従来は、声質が類似する歌声を含む楽曲の検索をすることができなかった。
本発明の目的は、声質が類似する歌声を含む未知の楽曲の検索をすることができる楽曲検索システム及び方法並びにそのプログラムを提供することにある。
上記目的に加えて、本発明の他の目的は、声質と曲調が類似する歌声を含む未知の楽曲の検索をすることができる楽曲検索システム及び方法並びにそのプログラムを提供することにある。
上記目的に加えて、本発明のさらに他の目的は、ある楽曲中の歌声の声質と類似する歌声を含み、しかも別の楽曲の曲調と類似する曲調の未知の楽曲を検索することができる楽曲検索システム及び方法並びにそのプログラムを提供することにある。
上記目的に加えて、本発明のさらに他の目的は、声質または曲調が類似する未知の楽曲の選択が容易な楽曲検索システムを提供することにある。
本発明の楽曲検索システムは、声質特徴量蓄積手段と、類似度計算手段と、類似楽曲検索表示手段と、楽曲データ再生手段とを備えている。声質特徴量蓄積手段は、複数の楽曲について、それぞれの楽曲中の歌声の声質特徴量と各楽曲の識別情報とを蓄積する。複数の楽曲は、歌声と伴奏音とからなる楽曲だけでなく、歌声のみから楽曲のいずれも含まれる。そして楽曲の歌声の声質特徴量を抽出するためには、歌声と伴奏音からなる楽曲では、伴奏音の影響を低減(伴奏音を抑制)した音響信号中から声質に関する特徴量(声質特徴量)を抽出する。抽出方法は、任意である。声質特徴量としては、声質の特徴を示すものであればどのようなものでも用いることができる。例えば、公知のLPCメルケプストラム係数(LPMCC)とΔF0(歌手の歌い方を表現する特徴量で、F0軌跡の時間変化係数)を声質特徴量として用いることができる。また「楽曲の識別情報」とは、楽曲を選択する際にディスプレイに表示する情報を含むものであり、例えば、曲名、歌手名、楽曲のジャンル等である。声質特徴量は、予め検索対象とするすべての楽曲について求めておき、声質特徴量蓄積手段に蓄積しておくことになる。なお新たな楽曲についても、声質特徴量の追加登録をできるようにしてもよいのは勿論である。
そして楽曲データ蓄積手段には、複数の識別情報と対応させて複数の楽曲データを蓄積する。楽曲データは、楽曲データ再生手段によって再生する際に利用する音響信号に対応するデータである。
類似度計算手段は、複数の楽曲の中から一つの楽曲が選択されると、該一つの楽曲の声質特徴量とその他の複数の楽曲のそれぞれの声質特徴量とに基づいて、選択された一つの楽曲とその他の複数の楽曲の声質類似度を計算する。すなわち選択された楽曲の音質特徴量と、その他の複数の楽曲の声質特徴量(声質特徴量蓄積手段に蓄積された残りの楽曲の声質特徴量)のすべてとの間において、類似度を計算する。楽曲の選択は、例えば、ディスプレイ上に複数の楽曲の少なくとも一部の識別情報を表示し、表示さした識別情報を選択することにより、楽曲を選択するようにしてもよい。またディスプレイ上の特定の入力場所に、手入力により、楽曲の曲名を入力する等により楽曲を選択してもよく、選択方法は任意である。また類似度の計算方法も、任意であって、特定の類似度計算方法に限定されるものではない。類似度の計算には、例えば、2つの楽曲間の類似尺度としては、相互情報量の他、COS尺度、距離尺度EMD(Earth Mover's Distance)等も用いることができる。
類似楽曲検索表示手段は、類似度計算手段により計算された複数の声質類似度に基づいて、一つの楽曲中の歌声の声質に類似する歌声を含む複数の楽曲の複数の識別情報をディスプレイ上に表示する。類似する歌声を含む複数の楽曲の複数の識別情報をディスプレイ上に表示する表示様式は、類似度の大小関係が分かるものであればどのような様式であってもよい。例えば、類似度の大小関係が判る表示様式としては、類似度の大きい順番に識別情報を順番に並べてディスプレイ上に表示する様式や、類似度の大きい順番に識別情報をディスプレイ上に一つずつ順番に表示する様式や、ディスプレイ上に表示する複数の識別情報の大きさ(寸法)を類似度の大きさに比例して大きくなるように定める様式等を用いることができる。
また楽曲データ再生手段は、ディスプレイ上に表示された複数の識別情報の表示から、1以上の識別情報が選択されると、選択された識別情報の表示に対応する楽曲データを楽曲データ蓄積手段に蓄積された複数の楽曲データから抽出して再生する。楽曲の再生により、検索結果を実際に確認することが可能になる。なお楽曲データ再生手段による楽曲データの再生は、楽曲データの先頭から再生してもよいが、いわゆる楽曲のサビ部分だけを再生するようにしてもよい。また楽曲中の複数の歌声部分から選択した適宜の部分から楽曲データを再生するようにしてもよい。
本発明によれば、ユーザが気に入った楽曲中の歌声の声質と似た歌声を含む楽曲を、未知の複数の楽曲中から高い精度で検索することができる。
声質に加えて、楽曲の曲調も類似する楽曲を選択できるようにしてもよい。その場合には、複数の楽曲について、それぞれの楽曲の歌声の声質特徴量及び曲調特徴量と各楽曲の識別情報とを蓄積する声質及び曲調特徴量蓄積手段と曲調類似度計算手段とを用意する。ここで曲調特徴量を抽出するためには、歌声と伴奏音からなる楽曲では、歌声の影響を低減(歌声を抑制)した音響信号中から伴奏音に関する特徴量(曲調特徴量)を抽出する。抽出方法は、任意である。曲調特徴量としては、伴奏音の特徴を示すものであればどのようなものでも用いることができる。例えば、MFCC、スペクトル重心、ロールオフ、フラックスなどの特徴量を用いることができる。
曲調類似度計算手段は、複数の楽曲の中から一つの楽曲が選択されると、一つの楽曲の曲調特徴量とその他の複数の楽曲のそれぞれの曲調特徴量とに基づいて、一つの楽曲とその他の複数の楽曲の曲調類似度を計算する。すなわち選択された楽曲の曲調特徴量と、その他の複数の楽曲の曲調特徴量(声質及び曲調特徴量蓄積手段に蓄積された残りの楽曲の曲調特徴量)のすべてとの間において、類似度を計算する。また類似度の計算方法も、任意であって、特定の類似度計算方法に限定されるものではない。曲調の類似度の計算にも、例えば、2つの楽曲間の類似尺度として、相互情報量を使用することができる。また類似尺度しては、相互情報量の他、COS尺度、距離尺度EMD(Earth Mover's Distance)等も用いることができる。
類似楽曲検索表示手段は、声質類似度計算手段により計算された声質類似度と、曲調類似度計算手段により計算された曲調類似度とに基づいて、声質が類似する歌声を含み且つ曲調が類似する複数の楽曲の複数の識別情報をディスプレイ上に表示する。声質が類似する歌声を含み且つ曲調が類似する複数の楽曲は、1つの楽曲の声質類似度及び曲調類似度の平均値を基準としてもよく、声質類似度及び曲調類似度のそれぞれに所定の重み付けをした値の平均値を基準として検索を行って、平均値の大きい順に検索された複数の楽曲の識別情報をディスプレイ上に並べるようにしてもよい。また縦軸及び横軸の一方が声質類似度を示し、他方が曲調類似度を示し、一つの楽曲の識別情報を、該一つの楽曲の声質類似度の位置で軸と直交する第1の仮想線と曲調類似度の位置で軸と直交する第2の仮想線の交差点またはその近傍に表示する表示様式により、平面上に複数の楽曲の識別情報を分散して配置したような状態で表示するようにしてもよい。すなわち声質類似度及び曲調類似度が共に同じ値で、この値がそれぞれ異なる複数の楽曲の識別情報は、縦軸と横軸の交点から縦軸と横軸の間の45度の角度方向に延びる仮想中央線上に並んで配置されることになる。この場合、声質類似度及び曲調類似度が共に最も大きい楽曲の識別情報が縦軸と横軸の交点に位置するようにすると、交点近傍の識別情報を選択すれば、声質及び曲調が共に類似した楽曲を素早く見つけることが可能になる。
声質の類似を検索する際に基準とする楽曲と曲調の類似を検索する際に基準とする楽曲とを異ならせてもよい。すなわち声質はある楽曲中の歌声(例えば一人の女性がロックを歌っている楽曲の歌声)の声質と類似し、曲調は他の楽曲(例えばコーラスグループがポップスを歌っている楽曲)の曲調と類似する楽曲を検索できるようにしてもよい。この場合に、声質及び曲調特徴量蓄積手段と、声質類似度計算手段と、曲調類似度計算手段、類似楽曲検索表示手段と、楽曲データ再生手段とを用いる。声質類似度計算手段は、複数の楽曲の中から一つの楽曲が選択されると、該一つの楽曲の声質特徴量とその他の複数の楽曲のそれぞれの声質特徴量とに基づいて、一つの楽曲とその他の複数の楽曲の声質類似度を計算する。また曲調類似度計算手段は、複数の楽曲の中から他の一つの楽曲が選択されると、他の一つの楽曲の曲調特徴量とその他の複数の楽曲のそれぞれの曲調特徴量とに基づいて、他の一つの楽曲とその他の複数の楽曲の曲調類似度を計算する。そして類似楽曲検索表示手段は、声質類似度計算手段により計算された声質類似度と、曲調類似度計算手段により計算された曲調類似度とに基づいて、一つの楽曲中の歌声と声質が類似する歌声を含み且つ他の一つの楽曲中の楽曲と曲調が類似する複数の楽曲についての複数の識別情報をディスプレイ上に表示する。ディスプレイ上への識別情報の表示様式は任意である。例えば、前述のように、縦軸及び横軸の一方が声質類似度を示し、他方が曲調類似度を示し、一つの楽曲の識別情報を、該一つの楽曲の声質類似度の位置で軸と直交する第1の仮想線と該一つの楽曲の曲調類似度の位置で軸と直交する第2の仮想線の交差点またはその近傍に表示する表示様式を用いることができる。この表示様式を用いると、声質と曲調が類似する複数の楽曲を、類似の程度と共に一目で認識することができる。
上記基本発明では、毎回類似度を計算しているが、予め類似度を計算しておき類似度蓄積手段に蓄積しておいてもよい。声質が類似する楽曲を検索する場合には、複数の楽曲について、それぞれの楽曲の歌声の声質特徴量とその他の複数の楽曲の声質特徴量とに基づいて算出された各楽曲とその他の複数の楽曲との間の複数の声質類似度と、各楽曲の識別情報とを蓄積する類似度蓄積手段を用意する。そして類似楽曲検索表示手段は、複数の楽曲の中から一つの楽曲が選択されると、類似度蓄積手段から、該一つの楽曲とその他の複数の楽曲との間の複数の声質類似度を読み出し、複数の声質類似度に基づいて一つの楽曲中の歌声の声質と類似する歌声を含む複数の楽曲の複数の識別情報をディスプレイ上に表示するように構成する。このようにすると事前に類似度の計算を行っておくため、検索時間を早くすることができる。
また声質と曲調が類似する楽曲を検索する場合には、類似度蓄積手段は、複数の楽曲について、それぞれの楽曲の歌声の声質特徴量とその他の複数の楽曲の声質特徴量とに基づいて算出された各楽曲とその他の複数の楽曲との間の複数の声質類似度と、複数の楽曲について、それぞれの楽曲の曲調特徴量とその他の複数の楽曲の曲調特徴量とに基づいて算出された各楽曲とその他の複数の楽曲との間の複数の曲調類似度と、各楽曲の識別情報とを蓄積する。そして類似楽曲検索表示手段は、複数の楽曲の中から一つの楽曲が選択されると、類似度蓄積手段から、該一つの楽曲とその他の複数の楽曲との間の複数の声質類似度及び複数の曲調類似度を読み出し、複数の声質類似度及び複数の曲調類似度に基づいて一つの楽曲中の歌声の声質と類似する歌声を含み及び該一つの楽曲の曲調と類似する複数の楽曲の複数の識別情報をディスプレイ上に表示する。このようにすると事前に類似度の計算を行っておくため、検索時間を早くすることができる。
本発明を、コンピュータが実行する方法の発明として特定すると、コンピュータは以下のステップを実行することになる。まず複数の楽曲について、それぞれの楽曲の歌声の声質特徴量と各楽曲の識別情報とを声質特徴量蓄積手段に記憶するステップを実行する。次に複数の識別情報と対応させて複数の楽曲データを楽曲データ蓄積手段に蓄積するステップを実行する。そして複数の楽曲の中から一つの楽曲が選択されると、該一つの楽曲の声質特徴量とその他の複数の楽曲のそれぞれの声質特徴量とに基づいて、該一つの楽曲と前記その他の複数の楽曲の声質類似度を計算するステップを実行する。更に類似度計算手段により計算された声質類似度に基づいて、一つの楽曲中の歌声の声質に類似する歌声を含む複数の楽曲の複数の識別情報をディスプレイ上に表示するステップを実行する。そしてディスプレイ上に表示された複数の識別情報の表示から、一つの識別情報が選択され、更に再生指令が入力されると、選択された識別情報の表示に対応する楽曲データを楽曲データ蓄積手段に蓄積された複数の楽曲データから抽出して楽曲再生手段により再生するステップを実行する。
本発明は上記ステップをコンピュータに実行させるプログラムとしても特定することができる。
本発明によれば、ユーザが気に入った楽曲中の歌声の声質と似た歌声を含む楽曲を、未知の複数の楽曲中から高い精度で検索することができる。またユーザが気に入った楽曲中の歌声の声質と似た歌声を含み且つ曲調が似た楽曲を、未知の複数の楽曲中から高い精度で検索することができる。更に、ユーザが気に入った一つの楽曲中の歌声の声質と似た歌声を含み且つ別の一つの楽曲の曲調と似た楽曲を、未知の複数の楽曲中から高い精度で検索することができる。
以下図面を参照して本発明の楽曲検索システム及び方法の実施の形態について詳細に説明する。図1は、楽曲検索システムの一実施の形態の基本的な技術的思想を概念的に示す図である。図1に示す一実施の形態の楽曲検索システムでは、データベースに予め登録された楽曲(target songs)TS1〜TSnの中から、ユーザが提示したクエリ(query)即ち選択した楽曲と類似した声質を持つ楽曲を検索し、ユーザに提示する。このシステムは、大きく分けてデータベース構築段階(楽曲の音響信号の分析及び声質特徴量の抽出)と実行段階(楽曲の検索)の2段階からなる。データベース構築段階では、検索対象の楽曲はダウンロードされたり、CDからリッピングされた後にデータベースDBに貯蓄される。そして、このシステムは各楽曲を分析し、歌声即ち歌声の声質を表現する特徴量(声質特徴量)を抽出する。実行段階では、ユーザが好みの楽曲をクエリとしてシステムに入力すると、システムはクエリの楽曲を分析し、楽曲の歌声の声質を表現する特徴量を抽出する。そして、システムはクエリの楽曲と、データベース中のそれぞれの楽曲で、歌声の声質の類似度を計算し、高い類似度を持つ楽曲を検索結果として出力する。
図2は、図1の概念を具体化した第1の楽曲検索システム1の具体的構成を示すブロック図である。この楽曲検索システム1は、声質特徴量蓄積手段2と、声質類似度計算手段3と、楽曲データ蓄積手段4と、類似楽曲検索表示手段5と、楽曲データ再生手段6、制御手段7と、楽曲選択手段8と、ディスプレイドライバ9と、ディスプレイ10とを備えている。ディスプレイドライバ9は、入力信号に基づいて、ディスプレイ10を駆動して各種の表示をディスプレイ10上に表示するための動作をする。そして楽曲選択手段8は、ディスプレイ10上に表示される各種の入力画面において、楽曲を選択するためにユーザによって操作される手段であって、例えばパソコンであればカーソルを動かすためのマウス等の操作手段である。また制御手段7は、システムをコンピュータで実現する場合において各種のプログラムを実行してデータを処理する際の中心をなすものであり、各手段からのデータを信号処理してディスプレイドライバ9に対して入力信号として出力するものである。
声質特徴量蓄積手段2は、複数の楽曲TS1〜TSnについて、それぞれの楽曲中の歌声の声質特徴量と各楽曲の識別情報とを蓄積するデータベースである。複数の楽曲には、歌声と伴奏音とからなる楽曲だけでなく、歌声のみからなる楽曲のいずれもが含まれる。声質特徴量蓄積手段2に蓄積するために、各楽曲の歌声の声質特徴量を抽出するためには、歌声と伴奏音からなる楽曲では、伴奏音の影響を低減(伴奏音を抑制)した音響信号中から声質に関する特徴量(声質特徴量)を抽出する。抽出方法は、任意であり、声質特徴量としては、声質の特徴を示すものであればどのようなものでも用いることができる。
本実施の形態では、声質特徴量蓄積手段2に蓄積する声質特徴量を以下のようにして抽出する。まず歌声の声質を表現する特徴ベクトルを計算するために、発明者が先に提案した歌手名同定手法における特徴抽出法を使用する。この手法は、「Fujihara,H.,Kitahara,T.,Goto,M.,Komatani,K.,Ogata,T.andOkuno,H.G.:Singer Identification Based on Accompaniment Sound Reduction and Reliable Frame Selection,Proceedings of the 6th International Conference on Music Information Retrieval(ISMIR2005),pp.329−336(2005)」に開示されている。この手法を用いると、楽曲中に混在する伴奏音の影響を低減することができる。そのため、伴奏音と歌声が混在した状態をそのまま表現するMFCCなどの特徴量と比較して、この特徴ベクトルは歌声の声質をよりよく表現することができる。
この特徴抽出手法は、伴奏音抑制、特徴抽出、高信頼度フレーム選択の3つの処理からなる。伴奏音抑制とは、伴奏音の影響を低減させるために、歌声の高調波構造に基づき歌声を分離・再合成する手法である。特徴抽出では、分離された歌声から特徴量を計算する。高信頼度フレーム選択では、抽出された特徴ベクトル列中から、歌声と信頼できる区間(フレーム)を選択し、歌声を含まない区間や伴奏音の影響を大きく受けている区間を除去する。
まず伴奏音抑制について説明する。伴奏音抑制では、楽曲中のメロディを再合成することで、伴奏音の影響を低減させる。伴奏音抑制は、以下の3つの処理からなる。
(1)歌声メロディの基本周波数(F0)を、発明者の一人である後藤真孝が先に提案したPreFEst法(Goto,M.:A realtime music−scene−description system:predominant−F0estimation for detecting melody and basslines in real−world audio signals,Speech Communication,Vol.43,No.4,pp.311−329(2004))を用いて推定する。
(2)推定された基本周波数F0に基づき、歌声メロディの高調波構造を抽出する。
(3)正弦波重畳モデルに基づき、メロディの音響信号を再合成する。
歌声メロディの基本周波数を推定するために、前述のPreFEst法を用いる。PreFEst法は、制限された周波数帯域内で、混合音中の最も優勢な基本周波数F0を推定する手法である。多くの場合、歌声のメロディラインは中高域で最も優勢な高調波構造である。そのため、適切に周波数帯域を制限することで、PreFEst法を用いればメロディの基本周波数F0を推定することができる。
次に、推定された基本周波数F0を用いて、基本周波数成分と高調波成分のパワーを抽出する。各高調波成分の抽出では、rcentの誤差を許容し、その範囲内で最大となる周波数成分のパワーを抽出する。時刻(t)におけるl次倍音(l=1,...,L)の周波数
と振幅

のようになる。ここで、S(t)(F)は複素スペクトルを表し、
によって推定された基本周波数F0を表す。後述する本実施の形態の実験例では、rを20に設定した。
最後に、正弦波重畳モデルを用いて、抽出された高調波構造から
のメロディの音響信号を再合成する。周波数が線形に変化するように、位相の変化は2次関数を用いて近似する。また、振幅の変化も線形近似する。再合成された音響信号s(k)は、
のように表現される。ここで、kは秒を単位とする時間であり、k=0は時刻(t)に相当する。また、Kは時刻tとt+1の間の間隔で、単位は秒である。θl、0は初期位相を表す。
次に特徴量の抽出について説明する。再合成された音響信号から、以下の2種類の特徴量を抽出する。
・LPCメルケプストラム係数(LPMCC)(徳田恵一,小林隆夫,今井聖:メル一般化ケプストラムの再帰的計算法,電子情報通信学会論文誌A,Vol.J71−A,No.1,pp.128−131(1988))
音響信号の個人性を表す特徴量は、スペクトル包絡に含まれていることが知られている。そこで本実施の形態では、そのような包絡を表現するスペクトル特徴量としてLPMCCを使用する。LPMCCが、音楽のモデリングによく使われるメル周波数ケプストラム係数(MFCC)などと比較して、歌手の個人性をよく表現することは、発明者等が以前行った歌手名同定の実験で確認されている(藤原弘将,北原鉄朗,後藤真孝,駒谷和範,尾形哲也,奥乃博:伴奏音抑制と高信頼度フレーム選択に基づく楽曲の歌手名同定手法,情報処理学会論文誌,Vol.47,No.6,pp.1831−1843(2006))。
・ΔF0
歌手の歌い方を表現する特徴量として基本周波数F0の軌跡の時間変化係数であるΔF0を使用する。ΔF0については、 発明者等が発表した論文に記載されているので説明は省略する[Ohishi, Y., Goto, M., Itou, K. and Takeda, K.: Discrimination between Singing and Speaking Voices, Proceedings of 9th European Conference on Speech Communication and Technology (Eurospeech 2005), pp. 1141.1144 (2005).]。
歌声は、ビブラート、オーバーシュートなど、短時間の時間変動が激しいので、この特徴量は、歌手の特性をよく表現すると期待される。
次に高信頼度フレーム選択について説明する。PreFEst法では、メロディは単に最も優勢な基本周波数F0として定義されているので、再合成された音響信号は歌声が存在する区間では歌声を含んでいるが、間奏部などではその他の楽器の音を含んでいる。さらに、歌声が存在する区間でも伴奏音の音量が大きい場合は、再合成された歌声は大きく歪んでいる場合がある。そのため、ここで得られた特徴ベクトル列は、一部に信頼できない区間を含んでいる可能性がある。そこで本実施の形態では、高信頼度フレーム選択によって、そのような信頼できない区間を除去し、信頼できる特徴量のみを用いて類似度計算できるようにした。これを実現するため、歌声混合ガウス分布(GMM)λと非歌声GMMλの2種類のGMMを導入する。歌声GMMλは歌声を含む区間から抽出された特徴量で学習され、非歌声GMMλは間奏部などから抽出された特徴量で学習される。特徴量xが与えられると、歌声/非歌声GMMの尤度

は、この特徴量がどの程度歌声(または歌声以外の音)に近いかを表現する。これらの尤度を用いて、特徴量xが信頼できるかどうかを次式で判定する。
ここでηは閾値を表す。全ての楽曲に対して閾値を定数として定めることは困難である。なぜなら、伴奏の影響が全体に大きい楽曲では選択されるフレームが少なくなりすぎる場合があるからである。そこで実施の形態では、楽曲全体の特徴量中の15%の特徴量が選択されるように、楽曲に応じて閾値を自動決定した。声質特徴量は、予め検索対象とするすべての楽曲について求めておき、声質特徴量蓄積手段2に蓄積しておくことになる。そこで本実施の形態では、すべての楽曲に関して、高信頼度フレームにおける声質特徴量を識別情報と共に声質特徴量蓄積手段2に蓄積している。なお新たな楽曲についても、声質特徴量の追加登録をできるようにしてもよいのは勿論である。「楽曲の識別情報」とは、楽曲を選択する際にディスプレイに表示する情報を含むものであり、例えば、曲名、歌手名、楽曲のジャンル等である。
楽曲データ蓄積手段4には、複数の識別情報と対応させて複数の楽曲データを蓄積する。楽曲データは、楽曲データ再生手段によって再生する際に利用する音響信号に対応するデータである。制御手段7は、ディスプレイドライバ9を介してディスプレイ10の画面上に楽曲選択のために使用する複数の楽曲の識別情報を表示させる。ユーザはマウス等の楽曲選択手段8を用いて、ディスプレイ10の画面上に表示された楽曲の識別情報から好みの1曲の楽曲をクエリとして選択する。なお楽曲選択手段8の構成は任意である。楽曲の選択は、例えば、ディスプレイ10上に複数の楽曲の少なくとも一部の識別情報を表示し、表示さした識別情報を選択することにより、楽曲を選択するようにしてもよい。またディスプレイ10上の特定の入力場所に、手入力により、楽曲の曲名を所定の入力窓に入力する等により楽曲を選択してもよく、選択方法は任意である。画面上の所定入力窓に好みの1曲の楽曲の識別情報(例えば曲面)をマニュアルで入力する場合には、キーボード入力装置が楽曲選択手段8の一部を構成することになる。そして楽曲選択手段8からの指令信号は制御手段7で処理される。
クエリとなる1曲が選択されると、類似度計算手段3は、選択された一つの楽曲の声質特徴量とその他の複数の楽曲のそれぞれの声質特徴量を声質特徴量蓄積手段2から読み出して、選択された一つの楽曲とその他の複数の楽曲の声質類似度を計算する。すなわち類似度計算手段3は、選択された楽曲の音質特徴量と、その他の複数の楽曲の声質特徴量(声質特徴量蓄積手段に蓄積された残りの楽曲の声質特徴量)のすべてとの間において、類似度を計算する。類似度計算手段3における類似度の計算方法は、任意である。本実施の形態では、2つの楽曲間の類似度尺度として、相互情報量を使用する。
本実施の形態では、2つの楽曲(XとY)間の類似度尺度として相互情報量を使用するために、楽曲の特徴ベクトルの分布を、混合ガウス分布モデル(GMM)を用いてモデル化する。そして楽曲から抽出された特徴ベクトル列から、EMアルゴリズムを用いて各楽曲に対して混合ガウス分布モデル(GMM)のパラメータを推定する。そして、楽曲Xと楽曲Yの間の類似度dCE(X、Y)を、以下のように計算する。
ここで、xとyは、それぞれ楽曲X、楽曲Yの特徴ベクトル列を表現する。ただし、これは高信頼度フレーム選択により選択されている。θとθはそれぞれ楽曲X、楽曲Yの混合ガウス分布モデル(GMM)のパラメータで、NGMM(x;θ)は、θをパラメータとする混合ガウス分布モデル(GMM)の確率密度関数を表す。
類似楽曲検索表示手段5は、類似度計算手段3により計算された複数の声質類似度に基づいて、一つの楽曲中の歌声の声質に類似する歌声を含む複数の楽曲の複数の識別情報をディスプレイ10上に表示するための指令を制御手段7へと出力する。制御手段7はこの指令に基づいて、類似する歌声を含む複数の楽曲の複数の識別情報をディスプレイ10上に表示する。表示様式は、類似度の大小関係が分かるものであればどのような様式であってもよい。例えば、類似度の大小関係が判る表示様式としては、類似度の大きい順番に識別情報を順番に並べてディスプレイ上に表示する様式や、類似度の大きい順番に識別情報をディスプレイ上に一つずつ順番に表示する様式や、ディスプレイ上に表示する複数の識別情報の大きさ(寸法)を類似度の大きさに比例して大きくなるように定める様式等を用いることができる。
また楽曲データ再生手段6は、ディスプレイ上に表示された複数の識別情報の表示から、楽曲選択手段8を用いて1以上の識別情報が選択されると、選択された識別情報の表示に対応する楽曲データを楽曲データ蓄積手段4に蓄積された複数の楽曲データから抽出して再生する。この楽曲の再生により、検索結果を実際に確認することが可能になる。複数の識別情報が選択される場合には、選択された順番に複数の楽曲データを再生してもよく、また声質類似度が大きい順番に複数の楽曲データを再生してもよい。
なお楽曲データ再生手段6による楽曲データの再生は、楽曲データの先頭から再生してもよいが、いわゆる楽曲のサビ部分だけを再生するようにしてもよい。また楽曲中の複数の歌声部分から選択した適宜の部分から楽曲データを再生するようにしてもよい。
図3は、図2に示した第1の楽曲検索システム1を、コンピュータを用いて実現する場合に用いるプログラムのアルゴリズムを示すフローチャートである。コンピュータでプログラムを実行すると、準備段階として、複数の楽曲について、それぞれの楽曲の歌声の声質特徴量と各楽曲の識別情報とを声質特徴量蓄積手段2に記憶し、また複数の識別情報と対応させて複数の楽曲データを楽曲データ蓄積手段4に蓄積する。そしてステップST1で複数の選択用楽曲の識別情報をディスプレイ上に表示する。そしてステップST2で複数の選択用楽曲の中から一つの楽曲が選択されるとステップST3へと進む。図4は、ディスプレイ10に表示される表示画面(検索結果を表示する画面)で実際に検索を行ったときの表示を示している。本実施の形態では、この表示画面を利用して好きな楽曲(クエリ)を選択する。その場合には、候補リスト表示部Lに表示された複数の楽曲の名称及び歌手の名前(識別情報)から好きな1曲の楽曲の識別情報をクリックとすると入力窓部Wに選択された識別情報が表示される。そして再生ボタンSをクリックすると、ステップST3の内容即ち声質類似度の計算が開始される。なおこの表示画面における候補リスト表示部Lは、後述する検索結果を表示する表示部としても兼用される。候補リスト表示部Lに表示された楽曲に好みの楽曲がない場合にはスライドボタンSLをスライドさせて次のN曲の楽曲を表示することができる。ステップST3では、選択された一つの楽曲の声質特徴量とその他の複数の楽曲のそれぞれの声質特徴量とに基づいて、該一つの楽曲とその他の複数の楽曲の声質類似度を計算する。そしてステップST4では、類似度計算手段3により計算された声質類似度に基づいて、一つの楽曲中の歌声の声質に類似する歌声を含む上位N曲の楽曲の識別情報をディスプレイ上に表示する。本実施の形態では、図4に示した表示画面の候補リスト表示部Lに表示せる複数の楽曲が、類似度の大きい順番に並び変えられて表示される。そしてステップST5で、ディスプレイ10上の候補リスト表示部Lに表示された複数の識別情報の表示から、一つの識別情報がクリックにより選択され、更に再生ボタンRPがクリックされて再生指令が入力されると、選択された識別情報の表示に対応する楽曲データを楽曲データ蓄積手段4に蓄積された複数の楽曲データから抽出して楽曲再生手段により再生する(ステップST6)。候補リスト表示部Lに表示された複数の識別情報の中に、選択したい楽曲の識別情報が表示されていない場合には、ステップST9において、スライドボタンSLをスライドさせて次のN曲の識別情報が表示される。また1曲の楽曲をステップST6において再生した後更に別の楽曲を再生する場合には、ステップST8へと進む。ステップST8では、候補リスト表示部Lの表示を初期の状態に戻すか否かの判定が行われる。初期状態に戻す場合には、ステップST4へと戻り、初期状態に戻さずに、現状の候補から再度選択する場合には、ステップST5へと戻る。
なおステップST5において、複数の楽曲を選択できるようにしてもよい。複数の楽曲を選択できるようにした場合には、ステップST6では選択された順番に複数の楽曲を再生するようにしてもよく、また類似度の大きい順番に複数の楽曲を再生するようにしてもよい。
図4の表示画面は、本実施の形態を用いて実際に実験を行った検索結果を表示しているので、この実験の条件と検索結果を説明する。まず歌声GMMと非歌声GMMの学習のために、「RWC研究用音楽データベース:ポピュラー音楽」(RWC−MDB−P−2001)(後藤真孝,橋口博樹,西村拓一,岡隆一:RWC研究用音楽データベース:研究目的で利用可能な著作権処理済み楽曲・楽器音データベース,情報処理学会論文誌,Vol.45,No.3,pp.728−738(2004))から、25曲を選択して使用した。そしてシステムの検索対象データベースとしての楽曲データ蓄積手段4中には、RWC−MDB−P−2001で歌声/非歌声GMMの構築に使わなかった75曲を登録した。図4の運用例では、女性歌手「緒方智美」が歌う「PROLOGUE」(RWC−MDB−P−2001No.7)がクエリとして入力されている。クエリの楽曲が与えられ、ユーザが検索ボタンSを押すと、類似度の計算に20秒程度の時間がかかった後に、候補リスト表示部Lに検索結果として楽曲が上位から順に並べられて出力される。この例では、検索結果として順位、楽曲名、歌手名、類似度の順に表示される。ユーザが検索結果リスト中の楽曲をクリックして再生ボタンRPをクリックするか楽曲の表示をダブルクリックすると、楽曲データ再生手段6にその楽曲が読み込まれ、再生が始まる。その他の楽曲をクエリとして入力した場合でも、ほとんどの場合で上位の10曲に選ばれた楽曲はクエリの楽曲と歌声の声質が似ていると感じられた。例えば、図4の例では、上位の21曲はクエリと同様に女性歌手の曲であった。また、図4中の上位15曲の歌声の声質はクエリの楽曲と類似していた。クエリの楽曲の歌手である「緒方智美」の別の楽曲は、上位の1番目、2番目にランクしていた一方で、比較的下位の10番目、12番目にもランクしていた。これは、10番目の曲と12番目の曲に関しては、歌唱スタイルがクエリの曲や1番目、2番目の曲と異なっていたことが原因である。一方、検索結果の下位にランクされた楽曲については、順位は楽曲の類似度を正しく反映していないように思われた。例えば、図4の例では、画面上のプレイリストの範囲外で22位より下位では男性歌声と女声歌声が混在していた。しかし、通常の検索用途では上位の10曲程度を提示すれば十分であり、問題にはならない。キーとなる楽曲が、複数の歌手によって歌われる楽曲や、歌声に深くエフェクトがかけられている曲では、検索結果が直感的な類似度を反映していない場合もあった。
次に、従来の内容に基づく音楽検索手法であるMFCCを用いた検索システムと比較して、本実施の形態の歌声の声質に基づく楽曲検索システムを評価する。比較の対象とする従来の検索システムでは、特徴量としてMFCCを使用し、特徴抽出の際に伴奏音抑制、高信頼度フレームを行わなかった。類似度の計算は本実施の形態の場合と同様にした。
実験手順について説明する。まず本実験には、6人の大学生(女性4人、男性2人)が被験者として参加した。被験者は、音楽の専門的な教育は受けていない。まず、被験者は図5のような画面が提示され3つの楽曲を聴くことが指示される。これらの3曲は、クエリの楽曲(図中の曲X)、本実施の形態の検索システムにより最上位にランクされた楽曲(図中の曲Aまたは曲B)、従来の検索システム(比較手法)により最上位にランクされた楽曲(図中の曲Bまたは曲A)から構成されている。そして、被験者は曲Aと曲Bのどちらがよりクエリの楽曲に似ているかを判定する。被験者は曲Aと曲Bのどちらの楽曲が本実施の形態のシステムによる検索結果かは知らされておらず、曲Aと曲Bの順はランダムに決定されている。また、被験者は3つの楽曲を好きな順番で何度でも繰り返し聴くことが出来る。RWC研究用音楽データベース:ポピュラー音楽(RWC−MDB−P−2001)中から、ジャンルや歌手の性別が多様になるように留意しながら図6に示すように10曲のクエリを選択した。図6に示す表において、3桁の数字はRWC研究用音楽データベース(RWC-MDB-P-2001) 中の楽曲番号を表す。それぞれのクエリを入力した際の、
本実施の形態の検索システムと従来の検索システム(MFCC) による最上位の検索結果が同じ行に記されている。また表中の「日」は日本語の歌詞であることを表しており,「英」は英語の歌詞であることを表している。
実験では、それぞれのクエリの曲について、被験者に以下の2つの質問をした。
質問1:歌声の声質に関して、曲A、曲Bのどちらがより曲Xに似ていると思いますか?
質問2:曲全体の音質に関して、曲A、曲Bのどちらがより曲Xに似ていると思いますか?
実験結果を図7と図8に示す。図7は、質問1(ボーカールの声質)に対する回答結果を示しており、図8は質問2(楽曲全体の音質)に対する回答結果を示している。即ち図7は、それぞれの楽曲について、被験者が本実施の形態の検索システムと従来の検索システムの検索結果のどちらの声質のほうがクエリの楽曲と類似していると回答したかの割合を表す。6人の被験者の10曲に対する回答のうち80%が、本実施の形態の検索システムの検索結果の歌声の声質のほうがよりクエリの楽曲と類似していると答えた。一方図8に示すように、曲全体の音質の類似度に関しては、70%の回答が従来の検索システムの検索結果がよりクエリに似ていると答えた。これらの実験結果から、本実施の検索システムによれば、伴奏音の影響が低減されて、歌声の声質の類似度に基づいて楽曲が検索できていることが確認された。実際、図6の表を見ると、従来の検索システムのように特徴量としてMFCCを用いた場合は、10曲中4曲でクエリと異なる性別の楽曲を出力しているが、本実施の形態の検索システムではそのような問題は発生していない。
また、本実施の形態の検索システムの検索結果は、単に歌声の声質の類似度だけでなく、歌唱スタイルの類似度の観点からも類似している例が見られた。例えば、RWC−MDB−P−2001の#053の楽曲がクエリとして使用された場合、本実施の形態の検索システムの検索結果と従来の検索システムの検索結果が共にクエリと同じ歌手の楽曲である。ところが、6人の被験者中の5人が、本実施の形態の検索システムの検索結果のほうがクエリと類似していると判断している。実験によって、本実施の形態の検索システムを、75曲の楽曲を用いて実際に運用し、声質の類似度に基づいて楽曲を検索するのに有効であることが確認できた。また本実施の形態の検索システムの検索結果が実際に声質の類似度に基づいていることを確かめるため、6人の被験者により被験者実験を行い、本実施の形態の検索システムの有効性を確認できた。なお本実験からは、2つの楽曲の類似尺度として、相互情報量を用いると、効果的であることが確認できた。一方で、相互情報量は計算の際に全ての特徴量を使用するため、計算時間が長くなったり、また必要な記憶容量が大きくなるという問題がある。しかしながら使用するコンピュータの演算速度が速くなり、また使用するメモリの価格が下がれば、この問題は解消するので、十分に実用可能である。なお類似尺度としては、Earth Mover’s Distance(EMD)(Berenzweig,A.,Logan,B.,Ellis,D.P.W.and Whitman,B.:ALarge−Scale Evaluation of Acoustic and Subjective Music Similarity Measures,Computer Music Journal,Vol.28,No.2,pp.63−76(2004))など、その他の類似尺度を導入すれば、計算時間を削減することができる。さらに、本実施の形態の楽曲検索システムをその他の音楽検索手法と統合することで、より柔軟で幅広い楽曲検索システムを開発することも可能である。
図9は、本発明の楽曲検索システムの第2の実施の形態の構成を示すブロック図である。本実施の形態は、第1の実施の形態の特徴である声質が類似する歌声を含む楽曲の検索に加えて、楽曲の曲調も類似する楽曲を選択できる。図9においては、図2に示した第1の実施の形態の構成と同様のブロックに、図2に示したブロックに付した符号の数に100の数を加えた数の符号を付してある。そして機能が同じブロック(手段)に関しては、説明を省略する。この楽曲探索システム101では、複数の楽曲について、それぞれの楽曲の歌声の声質特徴量と各楽曲の識別情報とを蓄積する声質特徴量蓄積手段102に加えて、各楽曲の曲調特徴量と識別情報とを蓄積する曲調特徴量蓄積手段111を備えている。なお声質特徴量蓄積手段102と曲調特徴量蓄積手段111とは一つの蓄積手段によって構成することができるのは勿論である。本実施の形態では、声質特徴量蓄積手段102と曲調特徴量蓄積手段111とによって声質及び曲調特徴量蓄積手段が構成されている。また本実施の形態では、曲調類似度計算手段112を更に備えている。曲調特徴量としては、例えば、MFCC(Mel-Frequency Cepstrum Coefficient)、スペクトル重心(Audio Spectrum Centroid)、ロールオフ(Roll Off)、フラックスなどの特徴量を用いることができる。
曲調類似度計算手段112は、楽曲選択手段108によって複数の楽曲の中から一つの楽曲が選択されると、一つの楽曲の曲調特徴量とその他の複数の楽曲のそれぞれの曲調特徴量とに基づいて、一つの楽曲とその他の複数の楽曲の曲調類似度を計算する。すなわち選択された楽曲の曲調特徴量と、その他の複数の楽曲の曲調特徴量(曲調特徴量蓄積手段111に蓄積された残りの楽曲の曲調特徴量)のすべてとの間において、類似度を計算する。類似度の計算方法も、任意であって、特定の類似度計算方法に限定されるものではない。曲調の類似度の計算にも、例えば、2つの楽曲間の類似尺度として、相互情報量の他、COS尺度、距離尺度EMD(Earth Mover's Distance)等を使用することができる。
類似楽曲検索表示手段105は、声質類似度計算手段103により計算された声質類似度と、曲調類似度計算手段111により計算された曲調類似度とに基づいて、声質が類似する歌声を含み且つ曲調が類似する複数の楽曲の複数の識別情報をディスプレイ110上に表示する指令を制御手段107に出力する。制御手段107は、この指令を受けてディスプレイ110上に複数の楽曲の複数の識別情報を表示する指令をディスプレイドライバ109に出力する。声質が類似する歌声を含み且つ曲調が類似する複数の楽曲を検索する場合には、1つの楽曲の声質類似度及び曲調類似度の平均値を基準としてもよく、声質類似度及び曲調類似度のそれぞれに所定の重み付けをした値の平均値を基準として検索を行って、平均値の大きい順に検索された複数の楽曲の識別情報をディスプレイ110上に図4の表示と同様の様式で並べるようにしてもよい。また図11に示すような、縦軸YA及び横軸XAの一方(図11では横軸)が声質類似度を示し、他方(図11の例で縦軸)が曲調類似度を示す表示様式を用いることができる。図11は、図11の右下に示した実際の表示様式の一部の領域(四角で囲んだ領域)を拡大して示したものである。この表示様式では、一つの楽曲の識別情報を、この一つの楽曲の声質類似度の位置で横軸XAと直交する第1の仮想線PL1と、曲調類似度の位置で縦軸YAと直交する第2の仮想線PL2の交差点またはその近傍に表示する。図11の例では、丸の図形の内部に識別情報として歌手名と楽曲名とが表示されている。図11のような表示様式を採用すると、各楽曲の識別情報を平面上に分散して配置したような状態で表示することができる。図11に示す様式で検索結果を表示する場合には、声質類似度及び曲調類似度が共に同じ値で、この値がそれぞれ異なる複数の楽曲の識別情報は、縦軸YAと横軸XAの交点から縦軸YAと横軸XAの間の45度の角度方向に延びる仮想中央線PC上に並んで配置されることになる。この場合、声質類似度及び曲調類似度が共に最も大きい楽曲の識別情報が縦軸YLと横軸XAの交点に位置するようにすると、交点近傍の識別情報を選択すれば、声質及び曲調が共に類似した楽曲を素早く見つけることが可能になる。
図11の表示様式(インターフェース)では、クエリとなる楽曲と検索対象の他の複数の楽曲の、歌手の声質の類似度と曲調の類似度を平面上に可視化することで、ユーザはクエリの楽曲と歌手の声質及び曲調が似ている曲を直感的な操作で探すことが可能である。また図11において、図中の円は、それぞれ一つの楽曲を表現している。左上の領域中の楽曲(この図では「西一男」の「永遠のレプリカ」)は、ユーザが提示したクエリとなる楽曲である。図中央部の大きな領域には、検索対象の楽曲を横軸方向は歌声の類似度の順に、縦軸方向は曲調の類似度の順にプロットした平面(以後類似度平面と呼ぶ)の一部が表示してある。類似度平面中では、左部に表示されている楽曲ほどクエリの楽曲に歌手の声質が類似し、上部に表示されている楽曲ほどクエリ楽曲と曲調が類似している。
また横軸XAに沿って配置されたスライダSL1及び縦軸YAに沿って配置されたスライダSL2は類似度平面中のどの領域を現在表示しているかを表しており、スライダSL1及びSL2を動かすことで任意の領域を表示することが可能である。また、領域中の任意の点をドラッグすることによっても、類似度平面中の表示領域を変更することが可能である。図右下部の、多くの白い点がある小さな領域は、類似度平面全体の中の検索対象の楽曲の分布を表しており、一つ一つの白い点が各楽曲に対応する。その中の薄い小さな四角の領域が現在図中央部に表示している範囲を表している。ユーザはこの領域を直接クリックすることでも、類似度平面中の表示領域を変更することが可能である。
また、図中央部の領域には類似度平面の一部が表示されているが、その際の縮尺は自由に変更することが可能である。つまり、倍率を小さくすることで、一画面に多くの楽曲を表示することも可能である。また、倍率を小さくすることで、一画面に表示される楽曲の数を少なくし、検索結果を見やすくすることも可能である。倍率の変更は縦軸と横軸で独立して行うことが可能である。
楽曲を表現する円をユーザがクリックするとその楽曲の再生を開始する。再生中の楽曲を表す円は他の円と比べて区別できるように描画され、再生中の位置が円の周囲に表示される帯状表示等でわかるように表示される。図11の例では、「風戸ヒサヨシ」の「言えない」が再生中で、現在約40%程度再生済みであることを表している。なお、楽曲を再生する際には、ユーザが楽曲を探しやすいように、サビ区間のみを再生することも可能である。この場合、サビ区間自動検出手法によりサビ区間をあらかじめ検出しておけばよい。
図10は、図9に示した第2の楽曲検索システム101を、コンピュータを用いて実現する場合に用いるプログラムのアルゴリズムを示すフローチャートである。コンピュータでプログラムを実行すると、準備段階として、複数の楽曲について、それぞれの楽曲の歌声の声質特徴量と各楽曲の識別情報とを声質特徴量蓄積手段102に記憶する。またそれぞれの楽曲の曲調特徴量と各楽曲の識別情報とを曲調特徴量蓄積手段111に蓄積する。さらに複数の識別情報と対応させて複数の楽曲データを楽曲データ蓄積手段104に蓄積する。そしてステップST101で複数の選択用楽曲の識別情報をディスプレイ上に表示する。そしてステップST102で複数の選択用楽曲の中から一つの楽曲が選択されるとステップST103へと進む。ステップST103では、選択された一つの楽曲の声質特徴量とその他の複数の楽曲のそれぞれの声質特徴量とに基づいて、該一つの楽曲とその他の複数の楽曲の声質類似度を計算する。そして次にステップST104へと進み、ステップST104では、一つの楽曲とその他の複数の楽曲の曲調類似度を計算する。そしてステップST105では、類似度計算手段103により計算された声質類似度と曲調類似度計算手段112により計算された曲調類似度とに基づいて、一つの楽曲中の歌声の声質に類似する歌声を含み且つ曲調が類似する上位N曲の楽曲の識別情報をディスプレイ上に表示する。そしてステップST106で、ディスプレイ110上の候補リスト表示部Lに表示された複数の識別情報の表示から、一つの識別情報がクリックにより選択され、選択された識別情報の表示に対応する楽曲データを楽曲データ蓄積手段104に蓄積された複数の楽曲データから抽出して楽曲再生手段により再生する(ステップST107)。候補リスト表示部Lに表示された複数の識別情報の中には、選択したい楽曲の識別情報が表示されていない場合には、ステップST110において、次のN曲の識別情報が表示される。また1曲の楽曲をステップST107において再生した後更に別の楽曲を再生する場合には、ステップST109へと進む。ステップST109では、候補リスト表示部Lの表示を初期の状態に戻すか否かの判定が行われる。初期状態に戻す場合には、ステップST105へと戻り、初期状態に戻さずに、現状の候補から再度選択する場合には、ステップST106へと戻る。なおステップST106において、複数の楽曲を選択できるようにしてもよい。この第2の実施の形態によれば、ユーザが好む楽曲中の歌声の声質と声質が似ており、しかもその楽曲と曲調が似た未知の楽曲に巡り合うことが可能になる。
なお声質の類似を検索する際に基準とする楽曲と曲調の類似を検索する際に基準とする楽曲を異ならせてもよい。すなわち声質はある楽曲中の歌声(例えば一人の女性がロックを歌っている楽曲の歌声)の声質と類似し、曲調は他の楽曲(例えばコーラスグループがポップスを歌っている楽曲)の曲調と類似する楽曲を検索できるようにしてもよい。図12は、このような検索を実現するための本発明の楽曲検索システムの第3の実施の形態の構成を示すブロック図である。また図13は、図12の実施の形態をコンピュータを用いて実現する場合に用いるプログラムのフローチャートを示す図である。本実施の形態の楽曲検索システムでは、ある一つの楽曲中の歌声の声質に類似する歌声を含み、しかも他の一つの楽曲の曲調と類似する曲調の楽曲を検索することができる。図12においては、図9に示した第2の実施の形態の構成と同様のブロックに、図9に示したブロックに付した符号の数に100の数を加えた数の符号を付してある。そして機能が同じブロック(手段)に関しては、説明を省略する。この楽曲探索システム101では、楽曲選択手段208が声質のための楽曲と曲調のための楽曲の選択に利用される。
第3の実施の形態でも、声質及び曲調特徴量蓄積手段(202及び211)と、声質類似度計算手段203と、曲調類似度計算手段212と、類似楽曲検索表示手段205と、楽曲データ再生手段206とを用いる。声質類似度計算手段202は、複数の楽曲の中から楽曲選択手段208により一つの楽曲M1が選択されると、該一つの楽曲M1の声質特徴量とその他の複数の楽曲のそれぞれの声質特徴量とに基づいて、一つの楽曲とその他の複数の楽曲の声質類似度を計算する。また曲調類似度計算手段212は、複数の楽曲の中から他の一つの楽曲M2が選択されると、他の一つの楽曲M2の曲調特徴量とその他の複数の楽曲のそれぞれの曲調特徴量とに基づいて、他の一つの楽曲M2とその他の複数の楽曲の曲調類似度を計算する。そして類似楽曲検索表示手段205は、声質類似度計算手段202により計算された声質類似度と、曲調類似度計算手段212により計算された曲調類似度とに基づいて、一つの楽曲M1中の歌声と声質が類似する歌声を含み且つ他の一つの楽曲M2中の楽曲と曲調が類似する複数の楽曲についての複数の識別情報をディスプレイ210上に表示する指令を制御手段207に出力する。ディスプレイ210上への識別情報の表示様式は任意である。例えば、図14に示すように、図11の様式と同様に、縦軸YA及び横軸XAの一方(この例では横軸)が声質類似度を示し、他方(この例では縦軸)が曲調類似度を示し、一つの楽曲の識別情報を、該一つの楽曲の声質類似度の位置で横軸XAと直交する第1の仮想線と該一つの楽曲の曲調類似度の位置で縦軸YAと直交する第2の仮想線の交差点またはその近傍に表示する表示様式を用いることができる。この表示様式を用いると、一つの楽曲M1と声質が類似し、他の楽曲M2と曲調が類似する複数の楽曲を、類似の程度と共に一目で認識することができる。
図14の表示様式(インタフェース)は、図11と比べると、クエリの楽曲M1及びM2を表示する図中の左上の領域が2つになっている。そして歌声の類似度を計算する際のクエリ楽曲M1と曲調の類似度を計算する際のクエリ楽曲M2を異なる楽曲にすることができる。これにより、ある楽曲の歌声は好きだが曲調はあまり好きでないという場合でも、検索対象の楽曲中から歌声と曲調が両方好きな楽曲を探してくることができる。この場合も操作方法は図11の場合と同様であり、検索結果を類似度平面にプロットすることにより、好みの楽曲を直観的な操作で探し出すことが可能である。
コンピュータで図13に示すアルゴリズムのプログラムを実行すると、準備段階として、複数の楽曲について、それぞれの楽曲の歌声の声質特徴量と各楽曲の識別情報とを声質特徴量蓄積手段202に記憶する。またそれぞれの楽曲の曲調特徴量と各楽曲の識別情報とを曲調特徴量蓄積手段211に蓄積する。さらに複数の識別情報と対応させて複数の楽曲データを楽曲データ蓄積手段204に蓄積する。そしてステップST201で複数の選択用楽曲の識別情報をディスプレイ上に表示する。ステップST202で複数の選択用楽曲の中から声質選択用の一つの楽曲(クエリ)が選択されるとステップST203へと進む。ステップST203では、選択された一つの楽曲の声質特徴量とその他の複数の楽曲のそれぞれの声質特徴量とに基づいて、該一つの楽曲とその他の複数の楽曲の声質類似度を計算する。次にステップST204で、複数の選択用楽曲の中から曲調選択用の他の一つの楽曲(クエリ)が選択される。そしてステップST205で、選択された他の一つの楽曲の曲調特徴量とその他の複数の楽曲のそれぞれの曲調特徴量とに基づいて、該他の一つの楽曲とその他の複数の楽曲の曲調類似度を計算する。次にステップST206では、類似度計算手段203により計算された声質類似度と曲調類似度計算手段212により計算された曲調類似度とに基づいて、一つの楽曲中の歌声の声質に類似する歌声を含み且つ他の一つの楽曲と曲調が類似する上位N曲の楽曲の識別情報をディスプレイ上に表示する。そしてステップST209で、ディスプレイ210上の候補リスト表示部Lに表示された複数の識別情報の表示から、一つの識別情報がクリックにより選択され、選択された識別情報の表示に対応する楽曲データを楽曲データ蓄積手段204に蓄積された複数の楽曲データから抽出して楽曲再生手段により再生する(ステップST210)。候補リスト表示部Lに表示された複数の識別情報の中には、選択したい楽曲の識別情報が表示されていない場合には、ステップST213において、次のN曲の識別情報が表示される。また1曲の楽曲をステップST210において再生した後更に別の楽曲を再生する場合には、ステップST211からステップST212へと進む。ステップST212では、候補リスト表示部Lの表示を初期の状態に戻すか否かの判定が行われる。初期状態に戻す場合には、ステップST206へと戻り、初期状態に戻さずに、現状の候補から再度選択する場合には、ステップST209へと戻る。なおステップST209において、複数の楽曲を選択できるようにしてもよい。またこの例では、ステップST204において曲調選択用の楽曲が選択されない場合には、ステップST207へと進んで、曲調の選択を中止するか否か判定される。ステップST207で曲調の選択が中止されると、ステップST208へと進み、先に選択した声質だけが類似する歌声を含む楽曲の検索だけが実行される。すなわちステップST208では、声質類似度が上記N曲の識別情報がディスプレイ210上に表示される。その後は、前述のステップST209〜ステップST213と同様である。
この第2の実施の形態によれば、ユーザが好む楽曲中の歌声の声質と声質が似ており、しかもその楽曲と曲調が似た未知の楽曲に巡り合うことが可能になる。
上記各実施の形態では、毎回類似度を計算しているが、予め類似度を計算しておき類似度蓄積手段に蓄積しておいてもよい。図15は、予め類似度を計算しておき類似度蓄積手段に蓄積しておく、第4の実施の形態の構成を示すブロック図である。図15においては、図2に示した第1の実施の形態の構成と同様のブロックに、図2に示したブロックに付した符号の数に300の数を加えた数の符号を付してある。声質が類似する楽曲を検索する場合には、複数の楽曲について、それぞれの楽曲の歌声の声質特徴量とその他の複数の楽曲の声質特徴量とに基づいて算出された各楽曲とその他の複数の楽曲との間の複数の声質類似度と、各楽曲の識別情報とを類似度蓄積手段313に蓄積する。類似楽曲検索表示手段305は、複数の楽曲の中から一つの楽曲が選択されると、類似度蓄積手段313から、該一つの楽曲とその他の複数の楽曲との間の複数の声質類似度を読み出し、複数の声質類似度に基づいて一つの楽曲中の歌声の声質と類似する歌声を含む複数の楽曲の複数の識別情報を制御手段307及びデジスプレイドライバ309を介してディスプレイ310上に表示する。このようにすると事前に類似度の計算を行っておくため、検索時間を早くすることができる。
図16は、図15に示した第4の楽曲検索システム301を、コンピュータを用いて実現する場合に用いるプログラムのアルゴリズムを示すフローチャートである。コンピュータでプログラムを実行すると、準備段階として、複数の楽曲について、それぞれの楽曲の歌声の声質特徴量とその他の複数の楽曲の前記声質特徴量とに基づいて算出された各楽曲とその他の複数の楽曲との間の複数の声質類似度と、各楽曲の識別情報とが類似度蓄積手段313に蓄積される。そしてステップST301で複数の選択用楽曲の識別情報をディスプレイ上に表示する。そしてステップST302で複数の選択用楽曲の中から一つの楽曲が選択されるとステップST303へと進む。ステップST303では、類似度蓄積手段313に蓄積された声質類似度に基づいて、一つの楽曲中の歌声の声質に類似する歌声を含む上位N曲の楽曲の識別情報をディスプレイ上に表示する。以下のステップST304乃至ステップST308は、図3のステップST5からステップST9と同様になる。
また声質と曲調が類似する楽曲を検索する場合、類似度蓄積手段313には、複数の楽曲について、それぞれの楽曲の歌声の声質特徴量とその他の複数の楽曲の声質特徴量とに基づいて算出された各楽曲とその他の複数の楽曲との間の複数の声質類似度と、複数の楽曲について、それぞれの楽曲の曲調特徴量とその他の複数の楽曲の曲調特徴量とに基づいて算出された各楽曲とその他の複数の楽曲との間の複数の曲調類似度と、各楽曲の識別情報とを蓄積しおけばよい。そして類似楽曲検索表示手段305は、複数の楽曲の中から一つの楽曲が選択されると、類似度蓄積手段313から、該一つの楽曲とその他の複数の楽曲との間の複数の声質類似度及び複数の曲調類似度を読み出し、複数の声質類似度及び複数の曲調類似度に基づいて一つの楽曲中の歌声の声質と類似する歌声を含み及び該一つの楽曲の曲調と類似する複数の楽曲の複数の識別情報をディスプレイ310上に表示する。
図17は、声質特徴量の類似度と曲調特徴量の類似度の両方を類似度蓄積手段313に蓄積する場合の楽曲検索システム301を、コンピュータを用いて実現する場合に用いるプログラムのアルゴリズムを示すフローチャートである。図16に示したフローチャートと比較すると、ステップST403において、曲調類似度を含めている点で相違するだけで、ステップST403を除くステップST401〜ステップST408の内容は、図16のステップST303を除くステップST301〜ステップST308と実質的に同じである。
なお上記第3の実施の形態と同様に、声質と曲調のクエリ楽曲をそれぞれ異なる楽曲とする場合にも、図15に示した実施の形態と同様に、事前にすべての類似度を計算して類似度蓄積手段313に蓄積しておき、図15の実施の形態と同様に、検索を行ってもよいのは勿論である。
本発明の楽曲検索システムの一実施の形態の基本的な技術的思想を概念的に示す図である。 図1の概念を具体化した第1の楽曲検索システムの具体的構成を示すブロック図である。 図2に示した第1の楽曲検索システムをコンピュータを用いて実現する場合に用いるプログラムのアルゴリズムを示すフローチャートである。 ディスプレイに表示される表示画面(検索結果を表示する画面)で実際に検索を行ったときの表示を示す図である。 被験者に提示する問題を示す画面の図である。 10曲のクエリを選択した結果を示す表である。 質問1(ボーカールの声質)に対する回答結果を示す図である。 質問2(楽曲全体の音質)に対する回答結果を示す図である。 本発明の楽曲検索システムの第2の実施の形態の構成を示すブロック図である。 図9に示した第2の楽曲検索システムを、コンピュータを用いて実現する場合に用いるプログラムのアルゴリズムを示すフローチャートである。 検索結果の表示様式の一例を示す図である。 本発明の楽曲検索システムの第3の実施の形態の構成を示すブロック図である。 図12の実施の形態をコンピュータを用いて実現する場合に用いるプログラムのフローチャートを示す図である。 図12の実施の形態による検索結果の表示様式を示す図である。 予め類似度を計算しておき類似度蓄積手段に蓄積しておく、第4の実施の形態の構成を示すブロック図である。 図15に示した第4の楽曲検索システムを、コンピュータを用いて実現する場合に用いるプログラムのアルゴリズムを示すフローチャートである。 図15に示した第4の楽曲検索システムを、コンピュータを用いて実現する場合に用いる別のプログラムのアルゴリズムを示すフローチャートである。
1 楽曲検索システム
2 声質特徴量蓄積手段
3 声質類似度計算手段
4 楽曲データ蓄積手段
5 類似楽曲検索表示手段
6 楽曲データ再生手段
7 制御手段
8 楽曲選択手段
9 ディスプレイドライバ
10 ディスプレイ

Claims (17)

  1. 複数の楽曲について、それぞれの楽曲の歌声の声質特徴量と各楽曲の識別情報とを蓄積する声質特徴量蓄積手段と、
    複数の前記識別情報と対応させて前記複数の楽曲データを蓄積する楽曲データ蓄積手段と、
    前記複数の楽曲の中から一つの楽曲が選択されると、該一つの楽曲の前記声質特徴量とその他の前記複数の楽曲のそれぞれの前記声質特徴量とに基づいて、該一つの楽曲と前記その他の複数の楽曲の声質類似度を計算する類似度計算手段と、
    前記類似度計算手段により計算された前記声質類似度に基づいて、前記一つの楽曲中の歌声の声質に類似する歌声を含む複数の楽曲の前記複数の識別情報をディスプレイ上に表示する類似楽曲検索表示手段と、
    前記ディスプレイ上に表示された前記複数の識別情報の表示から、1以上の前記識別情報が選択されると、前記選択された前記識別情報の表示に対応する前記楽曲データを前記楽曲データ蓄積手段に蓄積された複数の前記楽曲データから抽出して再生する楽曲データ再生手段とを備えていることを特徴とする楽曲検索システム。
  2. 前記類似楽曲検索表示手段は、前記類似度の大小関係が判る表示様式により、前記複数の楽曲の前記識別情報を前記ディスプレイ上に表示することを特徴とする請求項1に記載の楽曲検索システム。
  3. 複数の楽曲について、それぞれの楽曲の歌声の声質特徴量及び曲調特徴量と各楽曲の識別情報とを蓄積する声質及び曲調特徴量蓄積手段と、
    前記識別情報と対応させて前記複数の楽曲データを蓄積する楽曲データ蓄積手段と、
    前記複数の楽曲の中から一つの楽曲が選択されると、該一つの楽曲の前記声質特徴量とその他の前記複数の楽曲のそれぞれの前記声質特徴量とに基づいて、前記一つの楽曲と前記その他の複数の楽曲の声質類似度を計算する声質類似度計算手段と、
    前記複数の楽曲の中から一つの楽曲が選択されると、前記一つの楽曲の前記曲調特徴量とその他の前記複数の楽曲のそれぞれの前記曲調特徴量とに基づいて、前記一つの楽曲と前記その他の複数の楽曲の曲調類似度を計算する曲調類似度計算手段と、
    前記声質類似度計算手段により計算された前記声質類似度と、前記曲調類似度計算手段により計算された前記曲調類似度とに基づいて、前記声質が類似する歌声を含み且つ前記曲調が類似する複数の楽曲の前記複数の識別情報をディスプレイ上に表示する類似楽曲検索表示手段と、
    前記ディスプレイ上に表示された前記複数の識別情報の表示から、1以上の前記識別情報が選択されると、前記選択された前記識別情報の表示に対応する前記楽曲データを前記楽曲データ蓄積手段に蓄積された複数の前記楽曲データから抽出して再生する楽曲データ再生手段とを備えていることを特徴とする楽曲検索システム。
  4. 複数の楽曲について、それぞれの楽曲の歌声の声質特徴量及び曲調特徴量と各楽曲の識別情報とを蓄積する声質及び曲調特徴量蓄積手段と、
    前記識別情報と対応させて前記複数の楽曲データを蓄積する楽曲データ蓄積手段と、
    前記複数の楽曲の中から一つの楽曲が選択されると、該一つの楽曲の前記声質特徴量とその他の前記複数の楽曲のそれぞれの前記声質特徴量とに基づいて、前記一つの楽曲と前記その他の複数の楽曲の声質類似度を計算する声質類似度計算手段と、
    前記複数の楽曲の中から他の一つの楽曲が選択されると、前記他の一つの楽曲の前記曲調特徴量とその他の前記複数の楽曲のそれぞれの前記曲調特徴量とに基づいて、前記他の一つの楽曲と前記その他の複数の楽曲の曲調類似度を計算する曲調類似度計算手段と、
    前記声質類似度計算手段により計算された前記声質類似度と、前記曲調類似度計算手段により計算された前記曲調類似度とに基づいて、前記一つの楽曲中の前記歌声と前記声質が類似する歌声を含み且つ前記他の一つの楽曲中の前記楽曲と曲調が類似する複数の楽曲についての複数の前記識別情報をディスプレイ上に表示する類似楽曲検索表示手段と、
    前記ディスプレイ上に表示された前記複数の識別情報の表示から、1以上の前記識別情報が選択されると、前記選択された前記識別情報の表示に対応する前記楽曲データを前記楽曲データ蓄積手段に蓄積された複数の前記楽曲データから抽出して再生する楽曲データ再生手段とを備えていることを特徴とする楽曲検索システム。
  5. 前記類似楽曲検索表示手段は、前記類似度の大小関係が判る表示様式により、前記複数の楽曲の前記識別情報を前記ディスプレイ上に表示するように構成され、
    前記表示様式は、縦軸及び横軸の一方が前記声質類似度を示し、他方が前記曲調類似度を示し、一つの前記楽曲の前記識別情報を、該一つの楽曲の前記声質類似度の位置で軸と直交する第1の仮想線と該一つの楽曲の前記曲調類似度の位置で軸と直交する第2の仮想線の交差点またはその近傍に表示するように定められている請求項3または4に記載の楽曲検索システム。
  6. 複数の楽曲について、それぞれの楽曲の歌声の声質特徴量とその他の前記複数の楽曲の前記声質特徴量とに基づいて算出された各楽曲と前記その他の複数の楽曲との間の複数の声質類似度と、各楽曲の識別情報とを蓄積する類似度蓄積手段と、
    複数の前記識別情報と対応させて前記複数の楽曲データを蓄積する楽曲データ蓄積手段と、
    前記複数の楽曲の中から一つの楽曲が選択されると、前記類似度蓄積手段から、該一つの楽曲と前記その他の複数の楽曲との間の前記複数の声質類似度を読み出し、前記複数の声質類似度に基づいて前記一つの楽曲中の前記歌声の声質と類似する歌声を含む複数の楽曲の前記複数の識別情報をディスプレイ上に表示する類似楽曲検索表示手段と、
    前記ディスプレイ上に表示された前記複数の識別情報の表示から、1以上の前記識別情報が選択されると、前記選択された前記識別情報の表示に対応する前記楽曲データを前記楽曲データ蓄積手段に蓄積された複数の前記楽曲データから抽出して再生する楽曲データ再生手段とを備えていることを特徴とする楽曲検索システム。
  7. 複数の楽曲について、それぞれの楽曲の歌声の声質特徴量とその他の前記複数の楽曲の前記声質特徴量とに基づいて算出された各楽曲と前記その他の複数の楽曲との間の複数の声質類似度と、前記複数の楽曲について、それぞれの楽曲の曲調特徴量とその他の前記複数の楽曲の前記曲調特徴量とに基づいて算出された各楽曲と前記その他の複数の楽曲との間の複数の曲調類似度と、各楽曲の識別情報とを蓄積する類似度蓄積手段と、
    前記識別情報と対応させて前記複数の楽曲データを蓄積する楽曲データ蓄積手段と、
    前記複数の楽曲の中から一つの楽曲が選択されると、前記類似度蓄積手段から、該一つの楽曲と前記その他の複数の楽曲との間の前記複数の声質類似度及び前記複数の曲調類似度を読み出し、前記複数の声質類似度及び前記複数の曲調類似度に基づいて前記一つの楽曲中の前記歌声の声質と類似する歌声を含み及び該一つの楽曲の曲調と類似する複数の楽曲の前記複数の識別情報をディスプレイ上に表示する類似楽曲検索表示手段と、
    前記ディスプレイ上に表示された前記複数の識別情報の表示から、1以上の前記識別情報が選択されると、前記選択された前記識別情報の表示に対応する前記楽曲データを前記楽曲データ蓄積手段に蓄積された複数の前記楽曲データから抽出して再生する楽曲データ再生手段とを備えていることを特徴とする楽曲検索システム。
  8. 複数の楽曲について、それぞれの楽曲の歌声の声質特徴量と各楽曲の識別情報とを声質特徴量蓄積手段に記憶するステップと、
    複数の前記識別情報と対応させて前記複数の楽曲データを楽曲データ蓄積手段に蓄積するステップと、
    前記複数の楽曲の中から一つの楽曲が選択されると、該一つの楽曲の前記声質特徴量とその他の前記複数の楽曲のそれぞれの前記声質特徴量とに基づいて、該一つの楽曲と前記その他の複数の楽曲の声質類似度を計算するステップと、
    計算された前記声質類似度に基づいて、前記一つの楽曲中の歌声の声質に類似する歌声を含む複数の楽曲の前記複数の識別情報をディスプレイ上に表示するステップと、
    前記ディスプレイ上に表示された前記複数の識別情報の表示から、1以上の前記識別情報が選択されると、前記選択された前記識別情報の表示に対応する前記楽曲データを前記楽曲データ蓄積手段に蓄積された複数の前記楽曲データから抽出して楽曲再生手段により再生するステップとをコンピュータが実行することを特徴とする楽曲検索方法。
  9. 複数の楽曲について、それぞれの楽曲の歌声の声質特徴量及び曲調特徴量と各楽曲の識別情報とを声質及び曲調特徴量蓄積手段に蓄積するステップと、
    前記識別情報と対応させて前記複数の楽曲データを蓄積する楽曲データ蓄積手段と、
    前記複数の楽曲の中から一つの楽曲が選択されると、該一つの楽曲の前記声質特徴量とその他の前記複数の楽曲のそれぞれの前記声質特徴量とに基づいて、前記一つの楽曲と前記その他の複数の楽曲の声質類似度を計算するステップと、
    前記複数の楽曲の中から一つの楽曲が選択されると、前記一つの楽曲の前記曲調特徴量とその他の前記複数の楽曲のそれぞれの前記曲調特徴量とに基づいて、前記一つの楽曲と前記その他の複数の楽曲の曲調類似度を計算するステップと、
    前記声質類似度と前記曲調類似度とに基づいて、前記声質が類似する歌声を含み且つ前記曲調が類似する複数の楽曲の前記複数の識別情報をディスプレイ上に表示するステップと、
    前記ディスプレイ上に表示された前記複数の識別情報の表示から、1以上の前記識別情報が選択されると、前記選択された前記識別情報の表示に対応する前記楽曲データを前記楽曲データ蓄積手段に蓄積された複数の前記楽曲データから抽出して楽曲データ再生手段により再生するステップとコンピュータを用いて実行することを特徴とする楽曲検索方法。
  10. 複数の楽曲について、それぞれの楽曲の歌声の声質特徴量及び曲調特徴量と各楽曲の識別情報とを声質及び曲調特徴量蓄積手段に蓄積するステップと、
    前記識別情報と対応させて前記複数の楽曲データを楽曲データ蓄積手段に蓄積するステップと、
    前記複数の楽曲の中から一つの楽曲が選択されると、該一つの楽曲の前記声質特徴量とその他の前記複数の楽曲のそれぞれの前記声質特徴量とに基づいて、前記一つの楽曲と前記その他の複数の楽曲の声質類似度を計算するステップと、
    前記複数の楽曲の中から他の一つの楽曲が選択されると、前記他の一つの楽曲の前記曲調特徴量とその他の前記複数の楽曲のそれぞれの前記曲調特徴量とに基づいて、前記他の一つの楽曲と前記その他の複数の楽曲の曲調類似度を計算するステップと、
    前記声質類似度と前記曲調類似度とに基づいて、前記一つの楽曲中の前記歌声と前記声質が類似する歌声を含み且つ前記他の一つの楽曲中の前記楽曲と曲調が類似する複数の楽曲についての複数の前記識別情報をディスプレイ上に表示するステップと、
    前記ディスプレイ上に表示された前記複数の識別情報の表示から、1以上の前記識別情報が選択されると、前記選択された前記識別情報の表示に対応する前記楽曲データを前記楽曲データ蓄積手段に蓄積された複数の前記楽曲データから抽出して楽曲データ再生手段により再生するステップとをコンピュータを用いて実行することを特徴とする楽曲検索方法。
  11. 複数の楽曲について、それぞれの楽曲の歌声の声質特徴量とその他の前記複数の楽曲の前記声質特徴量とに基づいて算出された各楽曲と前記その他の複数の楽曲との間の複数の声質類似度と、各楽曲の識別情報とを類似度蓄積手段に蓄積するステップと、
    複数の前記識別情報と対応させて前記複数の楽曲データを楽曲データ蓄積手段に蓄積するステップと、
    前記複数の楽曲の中から一つの楽曲が選択されると、前記類似度蓄積手段から、該一つの楽曲と前記その他の複数の楽曲との間の前記複数の声質類似度を読み出し、前記複数の声質類似度に基づいて前記一つの楽曲中の前記歌声の声質と類似する歌声を含む複数の楽曲の前記複数の識別情報をディスプレイ上に表示するステップと、
    前記ディスプレイ上に表示された前記複数の識別情報の表示から、1以上の前記識別情報が選択されると、前記選択された前記識別情報の表示に対応する前記楽曲データを前記楽曲データ蓄積手段に蓄積された複数の前記楽曲データから抽出して楽曲データ再生手段により再生するステップとをコンピュータを用いて実行することを特徴とする楽曲検索方法。
  12. 複数の楽曲について、それぞれの楽曲の歌声の声質特徴量とその他の前記複数の楽曲の前記声質特徴量とに基づいて算出された各楽曲と前記その他の複数の楽曲との間の複数の声質類似度と、前記複数の楽曲について、それぞれの楽曲の曲調特徴量とその他の前記複数の楽曲の前記曲調特徴量とに基づいて算出された各楽曲と前記その他の複数の楽曲との間の複数の曲調類似度と、各楽曲の識別情報とを類似度蓄積手段に蓄積するステップと、
    前記識別情報と対応させて前記複数の楽曲データを楽曲データ蓄積手段に蓄積するステップと、
    前記複数の楽曲の中から一つの楽曲が選択されると、前記類似度蓄積手段から、該一つの楽曲と前記その他の複数の楽曲との間の前記複数の声質類似度及び前記複数の曲調類似度を読み出し、前記複数の声質類似度及び前記複数の曲調類似度に基づいて前記一つの楽曲中の前記歌声の声質と類似する歌声を含み及び該一つの楽曲の曲調と類似する複数の楽曲の前記複数の識別情報をディスプレイ上に表示するステップと、
    前記ディスプレイ上に表示された前記複数の識別情報の表示から、1以上の前記識別情報が選択されると、前記選択された前記識別情報の表示に対応する前記楽曲データを前記楽曲データ蓄積手段に蓄積された複数の前記楽曲データから抽出して楽曲データ再生手段で再生するステップとをコンピュータを用いて実行することを特徴とする楽曲検索方法。
  13. 複数の楽曲について、それぞれの楽曲の歌声の声質特徴量と各楽曲の識別情報とを声質特徴量蓄積手段に記憶するステップと、
    複数の前記識別情報と対応させて前記複数の楽曲データを楽曲データ蓄積手段に蓄積するステップと、
    前記複数の楽曲の中から一つの楽曲が選択されると、該一つの楽曲の前記声質特徴量とその他の前記複数の楽曲のそれぞれの前記声質特徴量とに基づいて、該一つの楽曲と前記その他の複数の楽曲の声質類似度を計算するステップと、
    前記類似度計算手段により計算された前記声質類似度に基づいて、前記一つの楽曲中の歌声の声質に類似する歌声を含む複数の楽曲の前記複数の識別情報をディスプレイ上に表示するステップと、
    前記ディスプレイ上に表示された前記複数の識別情報の表示から、1以上の前記識別情報が選択されると、前記選択された前記識別情報の表示に対応する前記楽曲データを前記楽曲データ蓄積手段に蓄積された複数の前記楽曲データから抽出して楽曲再生手段により再生するステップとをコンピュータに実行させるように構成された楽曲検索用プログラム。
  14. 複数の楽曲について、それぞれの楽曲の歌声の声質特徴量及び曲調特徴量と各楽曲の識別情報とを声質及び曲調特徴量蓄積手段に蓄積するステップと、
    前記識別情報と対応させて前記複数の楽曲データを蓄積する楽曲データ蓄積手段と、
    前記複数の楽曲の中から一つの楽曲が選択されると、該一つの楽曲の前記声質特徴量とその他の前記複数の楽曲のそれぞれの前記声質特徴量とに基づいて、前記一つの楽曲と前記その他の複数の楽曲の声質類似度を計算するステップと、
    前記複数の楽曲の中から一つの楽曲が選択されると、前記一つの楽曲の前記曲調特徴量とその他の前記複数の楽曲のそれぞれの前記曲調特徴量とに基づいて、前記一つの楽曲と前記その他の複数の楽曲の曲調類似度を計算するステップと、
    前記声質類似度と前記曲調類似度とに基づいて、前記声質が類似する歌声を含み且つ前記曲調が類似する複数の楽曲の前記複数の識別情報をディスプレイ上に表示するステップと、
    前記ディスプレイ上に表示された前記複数の識別情報の表示から、1以上の前記識別情報が選択されると、前記選択された前記識別情報の表示に対応する前記楽曲データを前記楽曲データ蓄積手段に蓄積された複数の前記楽曲データから抽出して楽曲データ再生手段により再生するステップとをコンピュータに実行させるように構成された楽曲検索用プログラム。
  15. 複数の楽曲について、それぞれの楽曲の歌声の声質特徴量及び曲調特徴量と各楽曲の識別情報とを声質及び曲調特徴量蓄積手段に蓄積するステップと、
    前記識別情報と対応させて前記複数の楽曲データを楽曲データ蓄積手段に蓄積するステップと、
    前記複数の楽曲の中から一つの楽曲が選択されると、該一つの楽曲の前記声質特徴量とその他の前記複数の楽曲のそれぞれの前記声質特徴量とに基づいて、前記一つの楽曲と前記その他の複数の楽曲の声質類似度を計算するステップと、
    前記複数の楽曲の中から他の一つの楽曲が選択されると、前記他の一つの楽曲の前記曲調特徴量とその他の前記複数の楽曲のそれぞれの前記曲調特徴量とに基づいて、前記他の一つの楽曲と前記その他の複数の楽曲の曲調類似度を計算するステップと、
    前記声質類似度と前記曲調類似度とに基づいて、前記一つの楽曲中の前記歌声と前記声質が類似する歌声を含み且つ前記他の一つの楽曲中の前記楽曲と曲調が類似する複数の楽曲についての複数の前記識別情報をディスプレイ上に表示するステップと、
    前記ディスプレイ上に表示された前記複数の識別情報の表示から、1以上の前記識別情報が選択されると、前記選択された前記識別情報の表示に対応する前記楽曲データを前記楽曲データ蓄積手段に蓄積された複数の前記楽曲データから抽出して楽曲データ再生手段により再生するステップとをコンピュータに実行させるように構成された楽曲検索用プログラム。
  16. 複数の楽曲について、それぞれの楽曲の歌声の声質特徴量とその他の前記複数の楽曲の前記声質特徴量とに基づいて算出された各楽曲と前記その他の複数の楽曲との間の複数の声質類似度と、各楽曲の識別情報とを類似度蓄積手段に蓄積するステップと、
    複数の前記識別情報と対応させて前記複数の楽曲データを楽曲データ蓄積手段に蓄積するステップと、
    前記複数の楽曲の中から一つの楽曲が選択されると、前記類似度蓄積手段から、該一つの楽曲と前記その他の複数の楽曲との間の前記複数の声質類似度を読み出し、前記複数の声質類似度に基づいて前記一つの楽曲中の前記歌声の声質と類似する歌声を含む複数の楽曲の前記複数の識別情報をディスプレイ上に表示するステップと、
    前記ディスプレイ上に表示された前記複数の識別情報の表示から、1以上の前記識別情報が選択されると、前記選択された前記識別情報の表示に対応する前記楽曲データを前記楽曲データ蓄積手段に蓄積された複数の前記楽曲データから抽出して楽曲データ再生手段により再生するステップとをコンピュータに実行させるように構成された楽曲検索用プログラム。
  17. 複数の楽曲について、それぞれの楽曲の歌声の声質特徴量とその他の前記複数の楽曲の前記声質特徴量とに基づいて算出された各楽曲と前記その他の複数の楽曲との間の複数の声質類似度と、前記複数の楽曲について、それぞれの楽曲の曲調特徴量とその他の前記複数の楽曲の前記曲調特徴量とに基づいて算出された各楽曲と前記その他の複数の楽曲との間の複数の曲調類似度と、各楽曲の識別情報とを類似度蓄積手段に蓄積するステップと、
    前記識別情報と対応させて前記複数の楽曲データを楽曲データ蓄積手段に蓄積するステップと、
    前記複数の楽曲の中から一つの楽曲が選択されると、前記類似度蓄積手段から、該一つの楽曲と前記その他の複数の楽曲との間の前記複数の声質類似度及び前記複数の曲調類似度を読み出し、前記複数の声質類似度及び前記複数の曲調類似度に基づいて前記一つの楽曲中の前記歌声の声質と類似する歌声を含み及び該一つの楽曲の曲調と類似する複数の楽曲の前記複数の識別情報をディスプレイ上に表示するステップと、
    前記ディスプレイ上に表示された前記複数の識別情報の表示から、1以上の前記識別情報が選択されると、前記選択された前記識別情報の表示に対応する前記楽曲データを前記楽曲データ蓄積手段に蓄積された複数の前記楽曲データから抽出して楽曲データ再生手段で再生するステップとをコンピュータに実行させるように構成された楽曲検索用プログラム。
JP2007298695A 2007-11-16 2007-11-16 楽曲検索システム及び方法並びにそのプログラム Expired - Fee Related JP5115966B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2007298695A JP5115966B2 (ja) 2007-11-16 2007-11-16 楽曲検索システム及び方法並びにそのプログラム
US12/183,432 US8271112B2 (en) 2007-11-16 2008-07-31 Music information retrieval system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007298695A JP5115966B2 (ja) 2007-11-16 2007-11-16 楽曲検索システム及び方法並びにそのプログラム

Publications (2)

Publication Number Publication Date
JP2009123124A true JP2009123124A (ja) 2009-06-04
JP5115966B2 JP5115966B2 (ja) 2013-01-09

Family

ID=40642809

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007298695A Expired - Fee Related JP5115966B2 (ja) 2007-11-16 2007-11-16 楽曲検索システム及び方法並びにそのプログラム

Country Status (2)

Country Link
US (1) US8271112B2 (ja)
JP (1) JP5115966B2 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011059504A (ja) * 2009-09-11 2011-03-24 Victor Co Of Japan Ltd コンテンツ同定方法、コンテンツ同定システム、コンテンツ検索装置及びコンテンツ利用装置
JP2012247956A (ja) * 2011-05-26 2012-12-13 Yamaha Corp データ検索装置およびプログラム
JP2015129868A (ja) * 2014-01-08 2015-07-16 Psソリューションズ株式会社 音響信号検出システム、音響信号検出方法、音響信号検出サーバー、音響信号検出装置、及び音響信号検出プログラム
JP2015176221A (ja) * 2014-03-13 2015-10-05 カシオ計算機株式会社 登山情報検索装置、登山情報検索方法、およびプログラム
US9747927B2 (en) 2014-02-21 2017-08-29 National Institute Of Advanced Industrial Science And Technology System and method for multifaceted singing analysis
WO2023120737A1 (ja) * 2021-12-24 2023-06-29 ダイキン工業株式会社 コンテンツ提案装置
JP2023095780A (ja) * 2021-12-24 2023-07-06 ダイキン工業株式会社 コンテンツ提案装置

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8732221B2 (en) * 2003-12-10 2014-05-20 Magix Software Gmbh System and method of multimedia content editing
JP4622808B2 (ja) * 2005-10-28 2011-02-02 日本ビクター株式会社 楽曲分類装置、楽曲分類方法、楽曲分類プログラム
EP1826716A1 (en) * 2006-02-22 2007-08-29 Sony Deutschland Gmbh Method for updating a user profile
EP2261896B1 (en) 2008-07-29 2017-12-06 Yamaha Corporation Performance-related information output device, system provided with performance-related information output device, and electronic musical instrument
US8954175B2 (en) * 2009-03-31 2015-02-10 Adobe Systems Incorporated User-guided audio selection from complex sound mixtures
US20100306657A1 (en) * 2009-06-01 2010-12-02 3Dlabs Inc., Ltd. Audio-Enhanced User Interface for Browsing
US20110029928A1 (en) * 2009-07-31 2011-02-03 Apple Inc. System and method for displaying interactive cluster-based media playlists
US8233999B2 (en) * 2009-08-28 2012-07-31 Magix Ag System and method for interactive visualization of music properties
US8327268B2 (en) * 2009-11-10 2012-12-04 Magix Ag System and method for dynamic visual presentation of digital audio content
JP5782677B2 (ja) 2010-03-31 2015-09-24 ヤマハ株式会社 コンテンツ再生装置および音声処理システム
US9189887B2 (en) * 2010-09-09 2015-11-17 Sony Corporation Information processing apparatus and information processing method
US9317561B2 (en) * 2010-12-30 2016-04-19 Dolby Laboratories Licensing Corporation Scene change detection around a set of seed points in media data
JP5333517B2 (ja) * 2011-05-26 2013-11-06 ヤマハ株式会社 データ処理装置およびプログラム
EP2573761B1 (en) 2011-09-25 2018-02-14 Yamaha Corporation Displaying content in relation to music reproduction by means of information processing apparatus independent of music reproduction apparatus
US10496250B2 (en) 2011-12-19 2019-12-03 Bellevue Investments Gmbh & Co, Kgaa System and method for implementing an intelligent automatic music jam session
JP5494677B2 (ja) 2012-01-06 2014-05-21 ヤマハ株式会社 演奏装置及び演奏プログラム
US9141186B2 (en) * 2012-03-22 2015-09-22 Htc Corporation Systems and methods for providing access to media content
US20130254661A1 (en) * 2012-03-22 2013-09-26 Htc Corporation Systems and methods for providing access to media content
US9305570B2 (en) * 2012-06-13 2016-04-05 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for pitch trajectory analysis
US20140032537A1 (en) * 2012-07-30 2014-01-30 Ajay Shekhawat Apparatus, system, and method for music identification
US20140086419A1 (en) * 2012-09-27 2014-03-27 Manjit Rana Method for capturing and using audio or sound signatures to analyse vehicle accidents and driver behaviours
US9215539B2 (en) * 2012-11-19 2015-12-15 Adobe Systems Incorporated Sound data identification
CN104006961A (zh) * 2014-04-29 2014-08-27 北京工业大学 基于经验模态分解与倒频谱的摆线锥齿轮故障诊断方法
US20160092159A1 (en) * 2014-09-30 2016-03-31 Google Inc. Conversational music agent
US9390695B2 (en) * 2014-10-27 2016-07-12 Northwestern University Systems, methods, and apparatus to search audio synthesizers using vocal imitation
US10082939B2 (en) 2015-05-15 2018-09-25 Spotify Ab Playback of media streams at social gatherings
US10719290B2 (en) 2015-05-15 2020-07-21 Spotify Ab Methods and devices for adjustment of the energy level of a played audio stream
US20160335046A1 (en) 2015-05-15 2016-11-17 Spotify Ab Methods and electronic devices for dynamic control of playlists
US10452710B2 (en) 2015-09-30 2019-10-22 Microsoft Technology Licensing, Llc Selecting content items based on received term using topic model
CN106250400B (zh) * 2016-07-19 2021-03-26 腾讯科技(深圳)有限公司 一种音频数据处理方法、装置以及系统
US10891872B1 (en) * 2019-06-18 2021-01-12 School of Rock, LLC Method and apparatus of music education
CN110399522B (zh) * 2019-07-03 2020-05-15 中国传媒大学 一种基于lstm与分层匹配的音乐哼唱检索方法及装置
US11158297B2 (en) * 2020-01-13 2021-10-26 International Business Machines Corporation Timbre creation system

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000285141A (ja) * 1999-01-27 2000-10-13 Ricoh Co Ltd 画像検索装置,画像分類装置およびそれらの装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2002014974A (ja) * 2000-06-30 2002-01-18 Fuji Photo Film Co Ltd 検索装置及び検索システム
JP2004152110A (ja) * 2002-10-31 2004-05-27 Olympus Corp 検索条件設定方法及び検索条件設定装置
WO2006075432A1 (ja) * 2005-01-17 2006-07-20 Matsushita Electric Industrial Co., Ltd. 音楽再生装置、方法、記録媒体、および集積回路

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5812688A (en) * 1992-04-27 1998-09-22 Gibson; David A. Method and apparatus for using visual images to mix sound
EP1246164A1 (en) * 2001-03-30 2002-10-02 Sony France S.A. Sound characterisation and/or identification based on prosodic listening
US20060212442A1 (en) * 2001-05-16 2006-09-21 Pandora Media, Inc. Methods of Presenting and Providing Content to a User
CN1842856B (zh) * 2003-09-01 2010-06-16 皇家飞利浦电子股份有限公司 媒体项的选择
EP1904816A4 (en) * 2005-07-18 2014-12-24 Diego Giuseppe Tognola METHOD AND SYSTEM FOR PROCESSING SIGNALS

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000285141A (ja) * 1999-01-27 2000-10-13 Ricoh Co Ltd 画像検索装置,画像分類装置およびそれらの装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2002014974A (ja) * 2000-06-30 2002-01-18 Fuji Photo Film Co Ltd 検索装置及び検索システム
JP2004152110A (ja) * 2002-10-31 2004-05-27 Olympus Corp 検索条件設定方法及び検索条件設定装置
WO2006075432A1 (ja) * 2005-01-17 2006-07-20 Matsushita Electric Industrial Co., Ltd. 音楽再生装置、方法、記録媒体、および集積回路

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSNJ200710002087; 宮沢 祐光: '好みの楽曲を選定するための楽曲類似度測定方法' 第68回(平成18年)全国大会講演論文集(2) 人工知能と認知科学 , 20060307, 2-181〜2-182ページ, 社団法人情報処理学会 *
JPN6012009557; 宮沢 祐光: '好みの楽曲を選定するための楽曲類似度測定方法' 第68回(平成18年)全国大会講演論文集(2) 人工知能と認知科学 , 20060307, 2-181〜2-182ページ, 社団法人情報処理学会 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011059504A (ja) * 2009-09-11 2011-03-24 Victor Co Of Japan Ltd コンテンツ同定方法、コンテンツ同定システム、コンテンツ検索装置及びコンテンツ利用装置
JP2012247956A (ja) * 2011-05-26 2012-12-13 Yamaha Corp データ検索装置およびプログラム
JP2015129868A (ja) * 2014-01-08 2015-07-16 Psソリューションズ株式会社 音響信号検出システム、音響信号検出方法、音響信号検出サーバー、音響信号検出装置、及び音響信号検出プログラム
US9747927B2 (en) 2014-02-21 2017-08-29 National Institute Of Advanced Industrial Science And Technology System and method for multifaceted singing analysis
JP2015176221A (ja) * 2014-03-13 2015-10-05 カシオ計算機株式会社 登山情報検索装置、登山情報検索方法、およびプログラム
WO2023120737A1 (ja) * 2021-12-24 2023-06-29 ダイキン工業株式会社 コンテンツ提案装置
JP2023095780A (ja) * 2021-12-24 2023-07-06 ダイキン工業株式会社 コンテンツ提案装置

Also Published As

Publication number Publication date
US8271112B2 (en) 2012-09-18
US20090132077A1 (en) 2009-05-21
JP5115966B2 (ja) 2013-01-09

Similar Documents

Publication Publication Date Title
JP5115966B2 (ja) 楽曲検索システム及び方法並びにそのプログラム
Tzanetakis et al. Marsyas: A framework for audio analysis
Zhang Automatic singer identification
Goto A chorus section detection method for musical audio signals and its application to a music listening station
JP5329968B2 (ja) 非テキストベースの情報を記憶し、検索する方法
KR100895009B1 (ko) 음악추천 시스템 및 그 방법
US20060224260A1 (en) Scan shuffle for building playlists
Goto SmartMusicKIOSK: Music listening station with chorus-search function
Chai Semantic segmentation and summarization of music: methods based on tonality and recurrent structure
Logan et al. A content-based music similarity function
CN110010159B (zh) 声音相似度确定方法及装置
Tzanetakis et al. A framework for audio analysis based on classification and temporal segmentation
Niyazov et al. Content-based music recommendation system
Zhang et al. System and method for automatic singer identification
Dannenberg et al. Panel: new directions in music information retrieval
KR20160116356A (ko) 신호 성분 분석을 이용한 음악 인기도 예측 시스템 및 방법
Fujihara et al. Hyperlinking Lyrics: A Method for Creating Hyperlinks Between Phrases in Song Lyrics.
JP4916945B2 (ja) 楽曲情報付与サーバ、端末、及び楽曲情報付与システム
Van Balen Automatic recognition of samples in musical audio
KR100702059B1 (ko) 고객 특성이 피드백 반영되는 질의 풀 기반의 유비쿼터스음악 정보 검색 시스템 및 방법
JP2003131674A (ja) 楽曲検索システム
JP3934556B2 (ja) 信号識別子の抽出方法及びその装置、信号識別子からデータベースを作成する方法及びその装置、及び、検索時間領域信号を参照する方法及びその装置
Dupont et al. Audiocycle: Browsing musical loop libraries
Somerville et al. Multitimbral musical instrument classification
JP4447540B2 (ja) カラオケ唱歌録音作品の鑑賞システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100108

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120217

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120228

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120501

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121002

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121010

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5115966

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151026

Year of fee payment: 3

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees