JP2009123124A

JP2009123124A - 楽曲検索システム及び方法並びにそのプログラム

Info

Publication number: JP2009123124A
Application number: JP2007298695A
Authority: JP
Inventors: Hiromasa Fujiwara; 弘将藤原; Masataka Goto; 真孝後藤
Original assignee: National Institute of Advanced Industrial Science and Technology AIST
Current assignee: National Institute of Advanced Industrial Science and Technology AIST
Priority date: 2007-11-16
Filing date: 2007-11-16
Publication date: 2009-06-04
Anticipated expiration: 2027-11-16
Also published as: US8271112B2; US20090132077A1; JP5115966B2

Abstract

【課題】声質が類似する歌声を含む未知の楽曲の検索をすることができる楽曲検索システムを提供する。
【解決手段】複数の楽曲について、それぞれの楽曲の歌声の声質特徴量と各楽曲の識別情報とを声質特徴量蓄積手段２に蓄積する。類似度計算手段３は、複数の楽曲の中から一つの楽曲が選択されると、該一つの楽曲の声質特徴量とその他の前記複数の楽曲のそれぞれの声質特徴量とに基づいて、該一つの楽曲とその他の複数の楽曲の声質類似度を計算する。類似楽曲検索表示手段５は、類似度計算手段３により計算された声質類似度に基づいて、一つの楽曲中の歌声の声質に類似する歌声を含む複数の楽曲の複数の識別情報をディスプレイ１０上に表示する。楽曲データ再生手段６は、ディスプレイ１０上に表示された複数の識別情報の表示から選択された識別情報に対応する楽曲データを再生する。
【選択図】図２

Description

本発明は、声質が類似する楽曲を検索できる楽曲検索システム及び方法並びにそのプログラムに関するものである。

近年、音楽検索が重要性を増してきている。携帯型音楽プレーヤやＷｅｂ上でのオンライン楽曲販売サービスの普及により、ユーザ達は膨大な量の楽曲から好みの楽曲を検索し、どんな時でもどんな場所でも聴きたい音楽を鑑賞出来るようになった。これにより、自分の好みの楽曲を手がかりに、まだ聴いたことのない楽曲を発見したいという要求が生じてきた。しかし、探したい対象の楽曲が未知で、「好み」のような曖昧な情報のみが手がかりの場合、従来の歌手名、ジャンル名等の書誌情報のみに基づく検索システムは無力だった。このような動向から、楽曲の内容に基づく音楽検索システムに関して、多くの研究がなされてきた（非特許文献１乃至９）。
Ａｕｃｏｕｔｕｒｉｅｒ，Ｊ．−Ｊ．ａｎｄＰａｃｈｅｔ，Ｆ．：ＭｕｓｉｃＳｉｍｉｌａｒｉｔｙＭｅａｓｕｒｅｓ：Ｗｈａｔ’ｓｔｈｅＵｓｅ？，Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ３ｒｄＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭｕｓｉｃＩｎｆｏｒｍａｔｉｏｎＲｅｔｒｉｅｖａｌ（ＩＳ−ＭＩＲ２００２），ｐｐ．１５７−１６３（２００２）．Ｌｏｇａｎ，Ｂ．：Ｃｏｎｔｅｎｔ−ＢａｓｅｄＰｌａｙｌｉｓｔＧｅｎｅｒａｔｉｏｎ：Ｅｘ−ｐｌｏｒａｔｏｒｙＥｘｐｅｒｉｍｅｎｔｓ，Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ３ｒｄＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭｕｓｉｃＩｎｆｏｒｍａｔｉｏｎＲｅｔｒｉｅｖａｌ（ＩＳＭＩＲ２００２），ｐｐ．２９５−２９６（２００３）．Ａｌｌａｍａｎｃｈｅ，Ｅ．，Ｈｅｒｒｅ，Ｊ．，Ｈｅｌｌｍｕｔｈ，Ｏ．，Ｋａｓｔｎｅｒ，Ｔ．ａｎｄＥｒｔｅｌ，Ｃ．：ＡＭｕｌｔｉｐｌｅＦｅａｔｕｒｅＭｏｄｅｌｆｏｒＭｕｓｉｃａｌＳｉｍｉｌａｒｉｔｙＲｅｔｒｉｅｖａｌ，Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ４ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭｕｓｉｃＩｎｆｏｒｍａｔｉｏｎＲｅｔｒｉｅｖａｌ（ＩＳＭＩＲ２００３），ｐｐ．２１７−２１８（２００３）．Ｂｅｒｅｎｚｗｅｉｇ，Ａ．，Ｌｏｇａｎ，Ｂ．，Ｅｌｌｉｓ，Ｄ．Ｐ．Ｗ．ａｎｄＷｈｉｔ−ｍａｎ，Ｂ．：ＡＬａｒｇｅ−ＳｃａｌｅＥｖａｌｕａｔｉｏｎｏｆＡｃｏｕｓｔｉｃａｎｄＳｕｂｊｅｃｔｉｖｅＭｕｓｉｃＳｉｍｉｌａｒｉｔｙＭｅａｓｕｒｅｓ，ＣｏｍｐｕｔｅｒＭｕｓｉｃＪｏｕｒｎａｌ，Ｖｏｌ．２８，Ｎｏ．２，ｐｐ．６３−７６（２００４）．ＭｃＫｉｎｎｅｙ，Ｍ．Ｆ．ａｎｄＢｒｅｅｂａａｒｔ，Ｊ．：Ｆｅａｔｕｒｅｓｆｏｒａｕｄｉｏａｎｄｍｕｓｉｃｃｌａｓｓｉｆｉｃａｔｉｏｎ，Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ４ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭｕｓｉｃＩｎｆｏｒｍａｔｉｏｎＲｅｔｒｉｅｖａｌ（ＩＳＭＩＲ２００３），ｐｐ．１５１−１５８（２００３）．Ｔｚａｎｅｔａｋｉｓ，Ｇ．，Ｇａｏ，Ｊ．ａｎｄＳｔｅｅｎｋｉｓｔｅ，Ｐ．：ＡＳｃａｌａｂｌｅＰｅｅｒ−ｔｏ−ＰｅｅｒＳｙｓｔｅｍｆｏｒＭｕｓｉｃＣｏｎｔｅｎｔａｎｄＩｎｆｏｒｍａｔｉｏｎＲｅｔｒｉｅｖａｌ，Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ４ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭｕｓｉｃＩｎｆｏｒｍａｔｉｏｎＲｅｔｒｉｅｖａｌ（ＩＳＭＩＲ２００３），ｐｐ．２０９−２１４（２００３）．Ｐａｍｐａｌｋ，Ｅ．，Ｆｌｅｘｅｒ，Ａ．ａｎｄＷｉｄｍｅｒ，Ｇ．：ＩｍｐｒｏｖｅｍｅｎｔｓｏｆＡｕｄｉｏ−ｂａｓｅｄＭｕｓｉｃＳｉｍｉｌａｒｉｔｙａｎｄＧｅｎｒｅＣｌａｓｓｉｆｉｃａｔｉｏｎ，Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ６ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭｕｓｉｃＩｎｆｏｒｍａｔｉｏｎＲｅｔｒｉｅｖａｌ（ＩＳＭＩＲ２００５），ｐｐ．６２８−６３３（２００５）．Ｆｌｅｘｅｒ，Ａ．，Ｇｏｕｙｏｕ，Ｆ．，Ｄｉｘｏｎ，Ｓ．ａｎｄＷｉｄｍｅｒ，Ｇ．：Ｐｒｏｂａｂｉｌｉｓｔｉｃｃｏｍｂｉｎａｔｉｏｎｏｆｆｅａｔｕｒｅｓｆｏｒｍｕｓｉｃｃｌａｓｓｉｆｉｃａｔｉｏｎ，Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ７ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭｕｓｉｃＩｎｆｏｒｍａｔｉｏｎＲｅｔｒｉｅｖａｌ（ＩＳＭＩＲ２００６），ｐｐ．６２８−６３３（２００６）．Ｐｏｈｌｅ，Ｔ．，Ｋｎｅｅｓ，Ｐ．，Ｓｃｈｅｄｌ，Ｍ．ａｎｄＷｉｄｍｅｒ，Ｇ．：ＩｎｄｅｐｅｎｄｅｎｔＣｏｍｐｏｎｅｎｔＡｎａｌｙｓｉｓｆｏｒＭｕｓｉｃＳｉｍｉｌａｒｉｔｙＣｏｍｐｕｔａｔｉｏｎ，Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ７ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭｕｓｉｃＩｎｆｏｒｍａｔｉｏｎＲｅｔｒｉｅｖａｌ（ＩＳＭＩＲ２００６），ｐｐ．２２８−２３３（２００６）．

しかし、これらの研究で示された楽曲検索技術では、音楽の内容を表現するのに、主に楽曲の曲調を表現するＭＦＣＣ、スペクトル重心、ロールオフ、フラックスなどの特徴量を用いており、歌声（ボーカル）の声質などのより詳細な内容を表現する特徴量は用いられていなかった。そのため従来は、声質が類似する歌声を含む楽曲の検索をすることができなかった。

本発明の目的は、声質が類似する歌声を含む未知の楽曲の検索をすることができる楽曲検索システム及び方法並びにそのプログラムを提供することにある。

上記目的に加えて、本発明の他の目的は、声質と曲調が類似する歌声を含む未知の楽曲の検索をすることができる楽曲検索システム及び方法並びにそのプログラムを提供することにある。

上記目的に加えて、本発明のさらに他の目的は、ある楽曲中の歌声の声質と類似する歌声を含み、しかも別の楽曲の曲調と類似する曲調の未知の楽曲を検索することができる楽曲検索システム及び方法並びにそのプログラムを提供することにある。

上記目的に加えて、本発明のさらに他の目的は、声質または曲調が類似する未知の楽曲の選択が容易な楽曲検索システムを提供することにある。

本発明の楽曲検索システムは、声質特徴量蓄積手段と、類似度計算手段と、類似楽曲検索表示手段と、楽曲データ再生手段とを備えている。声質特徴量蓄積手段は、複数の楽曲について、それぞれの楽曲中の歌声の声質特徴量と各楽曲の識別情報とを蓄積する。複数の楽曲は、歌声と伴奏音とからなる楽曲だけでなく、歌声のみから楽曲のいずれも含まれる。そして楽曲の歌声の声質特徴量を抽出するためには、歌声と伴奏音からなる楽曲では、伴奏音の影響を低減（伴奏音を抑制）した音響信号中から声質に関する特徴量（声質特徴量）を抽出する。抽出方法は、任意である。声質特徴量としては、声質の特徴を示すものであればどのようなものでも用いることができる。例えば、公知のＬＰＣメルケプストラム係数（ＬＰＭＣＣ）とΔＦ０（歌手の歌い方を表現する特徴量で、Ｆ０軌跡の時間変化係数）を声質特徴量として用いることができる。また「楽曲の識別情報」とは、楽曲を選択する際にディスプレイに表示する情報を含むものであり、例えば、曲名、歌手名、楽曲のジャンル等である。声質特徴量は、予め検索対象とするすべての楽曲について求めておき、声質特徴量蓄積手段に蓄積しておくことになる。なお新たな楽曲についても、声質特徴量の追加登録をできるようにしてもよいのは勿論である。

そして楽曲データ蓄積手段には、複数の識別情報と対応させて複数の楽曲データを蓄積する。楽曲データは、楽曲データ再生手段によって再生する際に利用する音響信号に対応するデータである。

類似度計算手段は、複数の楽曲の中から一つの楽曲が選択されると、該一つの楽曲の声質特徴量とその他の複数の楽曲のそれぞれの声質特徴量とに基づいて、選択された一つの楽曲とその他の複数の楽曲の声質類似度を計算する。すなわち選択された楽曲の音質特徴量と、その他の複数の楽曲の声質特徴量（声質特徴量蓄積手段に蓄積された残りの楽曲の声質特徴量）のすべてとの間において、類似度を計算する。楽曲の選択は、例えば、ディスプレイ上に複数の楽曲の少なくとも一部の識別情報を表示し、表示さした識別情報を選択することにより、楽曲を選択するようにしてもよい。またディスプレイ上の特定の入力場所に、手入力により、楽曲の曲名を入力する等により楽曲を選択してもよく、選択方法は任意である。また類似度の計算方法も、任意であって、特定の類似度計算方法に限定されるものではない。類似度の計算には、例えば、２つの楽曲間の類似尺度としては、相互情報量の他、ＣＯＳ尺度、距離尺度ＥＭＤ（Earth Mover's Distance)等も用いることができる。

類似楽曲検索表示手段は、類似度計算手段により計算された複数の声質類似度に基づいて、一つの楽曲中の歌声の声質に類似する歌声を含む複数の楽曲の複数の識別情報をディスプレイ上に表示する。類似する歌声を含む複数の楽曲の複数の識別情報をディスプレイ上に表示する表示様式は、類似度の大小関係が分かるものであればどのような様式であってもよい。例えば、類似度の大小関係が判る表示様式としては、類似度の大きい順番に識別情報を順番に並べてディスプレイ上に表示する様式や、類似度の大きい順番に識別情報をディスプレイ上に一つずつ順番に表示する様式や、ディスプレイ上に表示する複数の識別情報の大きさ（寸法）を類似度の大きさに比例して大きくなるように定める様式等を用いることができる。

また楽曲データ再生手段は、ディスプレイ上に表示された複数の識別情報の表示から、１以上の識別情報が選択されると、選択された識別情報の表示に対応する楽曲データを楽曲データ蓄積手段に蓄積された複数の楽曲データから抽出して再生する。楽曲の再生により、検索結果を実際に確認することが可能になる。なお楽曲データ再生手段による楽曲データの再生は、楽曲データの先頭から再生してもよいが、いわゆる楽曲のサビ部分だけを再生するようにしてもよい。また楽曲中の複数の歌声部分から選択した適宜の部分から楽曲データを再生するようにしてもよい。

本発明によれば、ユーザが気に入った楽曲中の歌声の声質と似た歌声を含む楽曲を、未知の複数の楽曲中から高い精度で検索することができる。

声質に加えて、楽曲の曲調も類似する楽曲を選択できるようにしてもよい。その場合には、複数の楽曲について、それぞれの楽曲の歌声の声質特徴量及び曲調特徴量と各楽曲の識別情報とを蓄積する声質及び曲調特徴量蓄積手段と曲調類似度計算手段とを用意する。ここで曲調特徴量を抽出するためには、歌声と伴奏音からなる楽曲では、歌声の影響を低減（歌声を抑制）した音響信号中から伴奏音に関する特徴量（曲調特徴量）を抽出する。抽出方法は、任意である。曲調特徴量としては、伴奏音の特徴を示すものであればどのようなものでも用いることができる。例えば、ＭＦＣＣ、スペクトル重心、ロールオフ、フラックスなどの特徴量を用いることができる。

曲調類似度計算手段は、複数の楽曲の中から一つの楽曲が選択されると、一つの楽曲の曲調特徴量とその他の複数の楽曲のそれぞれの曲調特徴量とに基づいて、一つの楽曲とその他の複数の楽曲の曲調類似度を計算する。すなわち選択された楽曲の曲調特徴量と、その他の複数の楽曲の曲調特徴量（声質及び曲調特徴量蓄積手段に蓄積された残りの楽曲の曲調特徴量）のすべてとの間において、類似度を計算する。また類似度の計算方法も、任意であって、特定の類似度計算方法に限定されるものではない。曲調の類似度の計算にも、例えば、２つの楽曲間の類似尺度として、相互情報量を使用することができる。また類似尺度しては、相互情報量の他、ＣＯＳ尺度、距離尺度ＥＭＤ（Earth Mover's Distance)等も用いることができる。

類似楽曲検索表示手段は、声質類似度計算手段により計算された声質類似度と、曲調類似度計算手段により計算された曲調類似度とに基づいて、声質が類似する歌声を含み且つ曲調が類似する複数の楽曲の複数の識別情報をディスプレイ上に表示する。声質が類似する歌声を含み且つ曲調が類似する複数の楽曲は、１つの楽曲の声質類似度及び曲調類似度の平均値を基準としてもよく、声質類似度及び曲調類似度のそれぞれに所定の重み付けをした値の平均値を基準として検索を行って、平均値の大きい順に検索された複数の楽曲の識別情報をディスプレイ上に並べるようにしてもよい。また縦軸及び横軸の一方が声質類似度を示し、他方が曲調類似度を示し、一つの楽曲の識別情報を、該一つの楽曲の声質類似度の位置で軸と直交する第１の仮想線と曲調類似度の位置で軸と直交する第２の仮想線の交差点またはその近傍に表示する表示様式により、平面上に複数の楽曲の識別情報を分散して配置したような状態で表示するようにしてもよい。すなわち声質類似度及び曲調類似度が共に同じ値で、この値がそれぞれ異なる複数の楽曲の識別情報は、縦軸と横軸の交点から縦軸と横軸の間の４５度の角度方向に延びる仮想中央線上に並んで配置されることになる。この場合、声質類似度及び曲調類似度が共に最も大きい楽曲の識別情報が縦軸と横軸の交点に位置するようにすると、交点近傍の識別情報を選択すれば、声質及び曲調が共に類似した楽曲を素早く見つけることが可能になる。

声質の類似を検索する際に基準とする楽曲と曲調の類似を検索する際に基準とする楽曲とを異ならせてもよい。すなわち声質はある楽曲中の歌声（例えば一人の女性がロックを歌っている楽曲の歌声）の声質と類似し、曲調は他の楽曲（例えばコーラスグループがポップスを歌っている楽曲）の曲調と類似する楽曲を検索できるようにしてもよい。この場合に、声質及び曲調特徴量蓄積手段と、声質類似度計算手段と、曲調類似度計算手段、類似楽曲検索表示手段と、楽曲データ再生手段とを用いる。声質類似度計算手段は、複数の楽曲の中から一つの楽曲が選択されると、該一つの楽曲の声質特徴量とその他の複数の楽曲のそれぞれの声質特徴量とに基づいて、一つの楽曲とその他の複数の楽曲の声質類似度を計算する。また曲調類似度計算手段は、複数の楽曲の中から他の一つの楽曲が選択されると、他の一つの楽曲の曲調特徴量とその他の複数の楽曲のそれぞれの曲調特徴量とに基づいて、他の一つの楽曲とその他の複数の楽曲の曲調類似度を計算する。そして類似楽曲検索表示手段は、声質類似度計算手段により計算された声質類似度と、曲調類似度計算手段により計算された曲調類似度とに基づいて、一つの楽曲中の歌声と声質が類似する歌声を含み且つ他の一つの楽曲中の楽曲と曲調が類似する複数の楽曲についての複数の識別情報をディスプレイ上に表示する。ディスプレイ上への識別情報の表示様式は任意である。例えば、前述のように、縦軸及び横軸の一方が声質類似度を示し、他方が曲調類似度を示し、一つの楽曲の識別情報を、該一つの楽曲の声質類似度の位置で軸と直交する第１の仮想線と該一つの楽曲の曲調類似度の位置で軸と直交する第２の仮想線の交差点またはその近傍に表示する表示様式を用いることができる。この表示様式を用いると、声質と曲調が類似する複数の楽曲を、類似の程度と共に一目で認識することができる。

上記基本発明では、毎回類似度を計算しているが、予め類似度を計算しておき類似度蓄積手段に蓄積しておいてもよい。声質が類似する楽曲を検索する場合には、複数の楽曲について、それぞれの楽曲の歌声の声質特徴量とその他の複数の楽曲の声質特徴量とに基づいて算出された各楽曲とその他の複数の楽曲との間の複数の声質類似度と、各楽曲の識別情報とを蓄積する類似度蓄積手段を用意する。そして類似楽曲検索表示手段は、複数の楽曲の中から一つの楽曲が選択されると、類似度蓄積手段から、該一つの楽曲とその他の複数の楽曲との間の複数の声質類似度を読み出し、複数の声質類似度に基づいて一つの楽曲中の歌声の声質と類似する歌声を含む複数の楽曲の複数の識別情報をディスプレイ上に表示するように構成する。このようにすると事前に類似度の計算を行っておくため、検索時間を早くすることができる。

また声質と曲調が類似する楽曲を検索する場合には、類似度蓄積手段は、複数の楽曲について、それぞれの楽曲の歌声の声質特徴量とその他の複数の楽曲の声質特徴量とに基づいて算出された各楽曲とその他の複数の楽曲との間の複数の声質類似度と、複数の楽曲について、それぞれの楽曲の曲調特徴量とその他の複数の楽曲の曲調特徴量とに基づいて算出された各楽曲とその他の複数の楽曲との間の複数の曲調類似度と、各楽曲の識別情報とを蓄積する。そして類似楽曲検索表示手段は、複数の楽曲の中から一つの楽曲が選択されると、類似度蓄積手段から、該一つの楽曲とその他の複数の楽曲との間の複数の声質類似度及び複数の曲調類似度を読み出し、複数の声質類似度及び複数の曲調類似度に基づいて一つの楽曲中の歌声の声質と類似する歌声を含み及び該一つの楽曲の曲調と類似する複数の楽曲の複数の識別情報をディスプレイ上に表示する。このようにすると事前に類似度の計算を行っておくため、検索時間を早くすることができる。

本発明を、コンピュータが実行する方法の発明として特定すると、コンピュータは以下のステップを実行することになる。まず複数の楽曲について、それぞれの楽曲の歌声の声質特徴量と各楽曲の識別情報とを声質特徴量蓄積手段に記憶するステップを実行する。次に複数の識別情報と対応させて複数の楽曲データを楽曲データ蓄積手段に蓄積するステップを実行する。そして複数の楽曲の中から一つの楽曲が選択されると、該一つの楽曲の声質特徴量とその他の複数の楽曲のそれぞれの声質特徴量とに基づいて、該一つの楽曲と前記その他の複数の楽曲の声質類似度を計算するステップを実行する。更に類似度計算手段により計算された声質類似度に基づいて、一つの楽曲中の歌声の声質に類似する歌声を含む複数の楽曲の複数の識別情報をディスプレイ上に表示するステップを実行する。そしてディスプレイ上に表示された複数の識別情報の表示から、一つの識別情報が選択され、更に再生指令が入力されると、選択された識別情報の表示に対応する楽曲データを楽曲データ蓄積手段に蓄積された複数の楽曲データから抽出して楽曲再生手段により再生するステップを実行する。

本発明は上記ステップをコンピュータに実行させるプログラムとしても特定することができる。

本発明によれば、ユーザが気に入った楽曲中の歌声の声質と似た歌声を含む楽曲を、未知の複数の楽曲中から高い精度で検索することができる。またユーザが気に入った楽曲中の歌声の声質と似た歌声を含み且つ曲調が似た楽曲を、未知の複数の楽曲中から高い精度で検索することができる。更に、ユーザが気に入った一つの楽曲中の歌声の声質と似た歌声を含み且つ別の一つの楽曲の曲調と似た楽曲を、未知の複数の楽曲中から高い精度で検索することができる。

以下図面を参照して本発明の楽曲検索システム及び方法の実施の形態について詳細に説明する。図１は、楽曲検索システムの一実施の形態の基本的な技術的思想を概念的に示す図である。図１に示す一実施の形態の楽曲検索システムでは、データベースに予め登録された楽曲（target songs）ＴＳ１〜ＴＳｎの中から、ユーザが提示したクエリ（query）即ち選択した楽曲と類似した声質を持つ楽曲を検索し、ユーザに提示する。このシステムは、大きく分けてデータベース構築段階（楽曲の音響信号の分析及び声質特徴量の抽出）と実行段階（楽曲の検索）の２段階からなる。データベース構築段階では、検索対象の楽曲はダウンロードされたり、ＣＤからリッピングされた後にデータベースＤＢに貯蓄される。そして、このシステムは各楽曲を分析し、歌声即ち歌声の声質を表現する特徴量（声質特徴量）を抽出する。実行段階では、ユーザが好みの楽曲をクエリとしてシステムに入力すると、システムはクエリの楽曲を分析し、楽曲の歌声の声質を表現する特徴量を抽出する。そして、システムはクエリの楽曲と、データベース中のそれぞれの楽曲で、歌声の声質の類似度を計算し、高い類似度を持つ楽曲を検索結果として出力する。

図２は、図１の概念を具体化した第１の楽曲検索システム１の具体的構成を示すブロック図である。この楽曲検索システム１は、声質特徴量蓄積手段２と、声質類似度計算手段３と、楽曲データ蓄積手段４と、類似楽曲検索表示手段５と、楽曲データ再生手段６、制御手段７と、楽曲選択手段８と、ディスプレイドライバ９と、ディスプレイ１０とを備えている。ディスプレイドライバ９は、入力信号に基づいて、ディスプレイ１０を駆動して各種の表示をディスプレイ１０上に表示するための動作をする。そして楽曲選択手段８は、ディスプレイ１０上に表示される各種の入力画面において、楽曲を選択するためにユーザによって操作される手段であって、例えばパソコンであればカーソルを動かすためのマウス等の操作手段である。また制御手段７は、システムをコンピュータで実現する場合において各種のプログラムを実行してデータを処理する際の中心をなすものであり、各手段からのデータを信号処理してディスプレイドライバ９に対して入力信号として出力するものである。

声質特徴量蓄積手段２は、複数の楽曲ＴＳ１〜ＴＳｎについて、それぞれの楽曲中の歌声の声質特徴量と各楽曲の識別情報とを蓄積するデータベースである。複数の楽曲には、歌声と伴奏音とからなる楽曲だけでなく、歌声のみからなる楽曲のいずれもが含まれる。声質特徴量蓄積手段２に蓄積するために、各楽曲の歌声の声質特徴量を抽出するためには、歌声と伴奏音からなる楽曲では、伴奏音の影響を低減（伴奏音を抑制）した音響信号中から声質に関する特徴量（声質特徴量）を抽出する。抽出方法は、任意であり、声質特徴量としては、声質の特徴を示すものであればどのようなものでも用いることができる。

本実施の形態では、声質特徴量蓄積手段２に蓄積する声質特徴量を以下のようにして抽出する。まず歌声の声質を表現する特徴ベクトルを計算するために、発明者が先に提案した歌手名同定手法における特徴抽出法を使用する。この手法は、「Ｆｕｊｉｈａｒａ，Ｈ．，Ｋｉｔａｈａｒａ，Ｔ．，Ｇｏｔｏ，Ｍ．，Ｋｏｍａｔａｎｉ，Ｋ．，Ｏｇａｔａ，Ｔ．ａｎｄＯｋｕｎｏ，Ｈ．Ｇ．：ＳｉｎｇｅｒＩｄｅｎｔｉｆｉｃａｔｉｏｎＢａｓｅｄｏｎＡｃｃｏｍｐａｎｉｍｅｎｔＳｏｕｎｄＲｅｄｕｃｔｉｏｎａｎｄＲｅｌｉａｂｌｅＦｒａｍｅＳｅｌｅｃｔｉｏｎ，Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ６ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭｕｓｉｃＩｎｆｏｒｍａｔｉｏｎＲｅｔｒｉｅｖａｌ（ＩＳＭＩＲ２００５），ｐｐ．３２９−３３６（２００５）」に開示されている。この手法を用いると、楽曲中に混在する伴奏音の影響を低減することができる。そのため、伴奏音と歌声が混在した状態をそのまま表現するＭＦＣＣなどの特徴量と比較して、この特徴ベクトルは歌声の声質をよりよく表現することができる。

この特徴抽出手法は、伴奏音抑制、特徴抽出、高信頼度フレーム選択の３つの処理からなる。伴奏音抑制とは、伴奏音の影響を低減させるために、歌声の高調波構造に基づき歌声を分離・再合成する手法である。特徴抽出では、分離された歌声から特徴量を計算する。高信頼度フレーム選択では、抽出された特徴ベクトル列中から、歌声と信頼できる区間（フレーム）を選択し、歌声を含まない区間や伴奏音の影響を大きく受けている区間を除去する。

まず伴奏音抑制について説明する。伴奏音抑制では、楽曲中のメロディを再合成することで、伴奏音の影響を低減させる。伴奏音抑制は、以下の３つの処理からなる。

（１）歌声メロディの基本周波数（Ｆ０）を、発明者の一人である後藤真孝が先に提案したＰｒｅＦＥｓｔ法（Ｇｏｔｏ，Ｍ．：Ａｒｅａｌｔｉｍｅｍｕｓｉｃ−ｓｃｅｎｅ−ｄｅｓｃｒｉｐｔｉｏｎｓｙｓｔｅｍ：ｐｒｅｄｏｍｉｎａｎｔ−Ｆ０ｅｓｔｉｍａｔｉｏｎｆｏｒｄｅｔｅｃｔｉｎｇｍｅｌｏｄｙａｎｄｂａｓｓｌｉｎｅｓｉｎｒｅａｌ−ｗｏｒｌｄａｕｄｉｏｓｉｇｎａｌｓ，ＳｐｅｅｃｈＣｏｍｍｕｎｉｃａｔｉｏｎ，Ｖｏｌ．４３，Ｎｏ．４，ｐｐ．３１１−３２９（２００４））を用いて推定する。

（２）推定された基本周波数Ｆ０に基づき、歌声メロディの高調波構造を抽出する。

（３）正弦波重畳モデルに基づき、メロディの音響信号を再合成する。

歌声メロディの基本周波数を推定するために、前述のＰｒｅＦＥｓｔ法を用いる。ＰｒｅＦＥｓｔ法は、制限された周波数帯域内で、混合音中の最も優勢な基本周波数Ｆ０を推定する手法である。多くの場合、歌声のメロディラインは中高域で最も優勢な高調波構造である。そのため、適切に周波数帯域を制限することで、ＰｒｅＦＥｓｔ法を用いればメロディの基本周波数Ｆ０を推定することができる。

次に、推定された基本周波数Ｆ０を用いて、基本周波数成分と高調波成分のパワーを抽出する。各高調波成分の抽出では、ｒｃｅｎｔの誤差を許容し、その範囲内で最大となる周波数成分のパワーを抽出する。時刻（ｔ）におけるｌ次倍音（ｌ＝１，．．．，Ｌ）の周波数

と振幅

は

のようになる。ここで、Ｓ^（ｔ）（Ｆ）は複素スペクトルを表し、

によって推定された基本周波数Ｆ０を表す。後述する本実施の形態の実験例では、ｒを２０に設定した。

最後に、正弦波重畳モデルを用いて、抽出された高調波構造から

のメロディの音響信号を再合成する。周波数が線形に変化するように、位相の変化は２次関数を用いて近似する。また、振幅の変化も線形近似する。再合成された音響信号ｓ（ｋ）は、

のように表現される。ここで、ｋは秒を単位とする時間であり、ｋ＝０は時刻（ｔ）に相当する。また、Ｋは時刻ｔとｔ＋１の間の間隔で、単位は秒である。θ_ｌ、０は初期位相を表す。

次に特徴量の抽出について説明する。再合成された音響信号から、以下の２種類の特徴量を抽出する。

・ＬＰＣメルケプストラム係数（ＬＰＭＣＣ）（徳田恵一，小林隆夫，今井聖：メル一般化ケプストラムの再帰的計算法，電子情報通信学会論文誌Ａ，Ｖｏｌ．Ｊ７１−Ａ，Ｎｏ．１，ｐｐ．１２８−１３１（１９８８））
音響信号の個人性を表す特徴量は、スペクトル包絡に含まれていることが知られている。そこで本実施の形態では、そのような包絡を表現するスペクトル特徴量としてＬＰＭＣＣを使用する。ＬＰＭＣＣが、音楽のモデリングによく使われるメル周波数ケプストラム係数（ＭＦＣＣ）などと比較して、歌手の個人性をよく表現することは、発明者等が以前行った歌手名同定の実験で確認されている(藤原弘将，北原鉄朗，後藤真孝，駒谷和範，尾形哲也，奥乃博：伴奏音抑制と高信頼度フレーム選択に基づく楽曲の歌手名同定手法，情報処理学会論文誌，Ｖｏｌ．４７，Ｎｏ．６，ｐｐ．１８３１−１８４３（２００６））。

・ΔＦ０
歌手の歌い方を表現する特徴量として基本周波数Ｆ０の軌跡の時間変化係数であるΔＦ０を使用する。ΔＦ０については、発明者等が発表した論文に記載されているので説明は省略する［Ohishi, Y., Goto, M., Itou, K. and Takeda, K.: Discrimination between Singing and Speaking Voices, Proceedings of 9th European Conference on Speech Communication and Technology (Eurospeech 2005), pp. 1141.1144 (2005).］。

歌声は、ビブラート、オーバーシュートなど、短時間の時間変動が激しいので、この特徴量は、歌手の特性をよく表現すると期待される。

次に高信頼度フレーム選択について説明する。ＰｒｅＦＥｓｔ法では、メロディは単に最も優勢な基本周波数Ｆ０として定義されているので、再合成された音響信号は歌声が存在する区間では歌声を含んでいるが、間奏部などではその他の楽器の音を含んでいる。さらに、歌声が存在する区間でも伴奏音の音量が大きい場合は、再合成された歌声は大きく歪んでいる場合がある。そのため、ここで得られた特徴ベクトル列は、一部に信頼できない区間を含んでいる可能性がある。そこで本実施の形態では、高信頼度フレーム選択によって、そのような信頼できない区間を除去し、信頼できる特徴量のみを用いて類似度計算できるようにした。これを実現するため、歌声混合ガウス分布（ＧＭＭ）λ_Ｖと非歌声ＧＭＭλ_Ｎの２種類のＧＭＭを導入する。歌声ＧＭＭλ_Ｖは歌声を含む区間から抽出された特徴量で学習され、非歌声ＧＭＭλ_Ｎは間奏部などから抽出された特徴量で学習される。特徴量ｘが与えられると、歌声／非歌声ＧＭＭの尤度

と

は、この特徴量がどの程度歌声（または歌声以外の音）に近いかを表現する。これらの尤度を用いて、特徴量ｘが信頼できるかどうかを次式で判定する。

ここでηは閾値を表す。全ての楽曲に対して閾値を定数として定めることは困難である。なぜなら、伴奏の影響が全体に大きい楽曲では選択されるフレームが少なくなりすぎる場合があるからである。そこで実施の形態では、楽曲全体の特徴量中の１５％の特徴量が選択されるように、楽曲に応じて閾値を自動決定した。声質特徴量は、予め検索対象とするすべての楽曲について求めておき、声質特徴量蓄積手段２に蓄積しておくことになる。そこで本実施の形態では、すべての楽曲に関して、高信頼度フレームにおける声質特徴量を識別情報と共に声質特徴量蓄積手段２に蓄積している。なお新たな楽曲についても、声質特徴量の追加登録をできるようにしてもよいのは勿論である。「楽曲の識別情報」とは、楽曲を選択する際にディスプレイに表示する情報を含むものであり、例えば、曲名、歌手名、楽曲のジャンル等である。

楽曲データ蓄積手段４には、複数の識別情報と対応させて複数の楽曲データを蓄積する。楽曲データは、楽曲データ再生手段によって再生する際に利用する音響信号に対応するデータである。制御手段７は、ディスプレイドライバ９を介してディスプレイ１０の画面上に楽曲選択のために使用する複数の楽曲の識別情報を表示させる。ユーザはマウス等の楽曲選択手段８を用いて、ディスプレイ１０の画面上に表示された楽曲の識別情報から好みの１曲の楽曲をクエリとして選択する。なお楽曲選択手段８の構成は任意である。楽曲の選択は、例えば、ディスプレイ１０上に複数の楽曲の少なくとも一部の識別情報を表示し、表示さした識別情報を選択することにより、楽曲を選択するようにしてもよい。またディスプレイ１０上の特定の入力場所に、手入力により、楽曲の曲名を所定の入力窓に入力する等により楽曲を選択してもよく、選択方法は任意である。画面上の所定入力窓に好みの１曲の楽曲の識別情報（例えば曲面）をマニュアルで入力する場合には、キーボード入力装置が楽曲選択手段８の一部を構成することになる。そして楽曲選択手段８からの指令信号は制御手段７で処理される。

クエリとなる１曲が選択されると、類似度計算手段３は、選択された一つの楽曲の声質特徴量とその他の複数の楽曲のそれぞれの声質特徴量を声質特徴量蓄積手段２から読み出して、選択された一つの楽曲とその他の複数の楽曲の声質類似度を計算する。すなわち類似度計算手段３は、選択された楽曲の音質特徴量と、その他の複数の楽曲の声質特徴量（声質特徴量蓄積手段に蓄積された残りの楽曲の声質特徴量）のすべてとの間において、類似度を計算する。類似度計算手段３における類似度の計算方法は、任意である。本実施の形態では、２つの楽曲間の類似度尺度として、相互情報量を使用する。

本実施の形態では、２つの楽曲（ＸとＹ）間の類似度尺度として相互情報量を使用するために、楽曲の特徴ベクトルの分布を、混合ガウス分布モデル（ＧＭＭ）を用いてモデル化する。そして楽曲から抽出された特徴ベクトル列から、ＥＭアルゴリズムを用いて各楽曲に対して混合ガウス分布モデル（ＧＭＭ）のパラメータを推定する。そして、楽曲Ｘと楽曲Ｙの間の類似度ｄ_ＣＥ（Ｘ、Ｙ）を、以下のように計算する。

ここで、ｘ_ｉとｙ_ｊは、それぞれ楽曲Ｘ、楽曲Ｙの特徴ベクトル列を表現する。ただし、これは高信頼度フレーム選択により選択されている。θ_Ｘとθ_Ｙはそれぞれ楽曲Ｘ、楽曲Ｙの混合ガウス分布モデル（ＧＭＭ）のパラメータで、Ｎ_ＧＭＭ（ｘ；θ）は、θをパラメータとする混合ガウス分布モデル（ＧＭＭ）の確率密度関数を表す。

類似楽曲検索表示手段５は、類似度計算手段３により計算された複数の声質類似度に基づいて、一つの楽曲中の歌声の声質に類似する歌声を含む複数の楽曲の複数の識別情報をディスプレイ１０上に表示するための指令を制御手段７へと出力する。制御手段７はこの指令に基づいて、類似する歌声を含む複数の楽曲の複数の識別情報をディスプレイ１０上に表示する。表示様式は、類似度の大小関係が分かるものであればどのような様式であってもよい。例えば、類似度の大小関係が判る表示様式としては、類似度の大きい順番に識別情報を順番に並べてディスプレイ上に表示する様式や、類似度の大きい順番に識別情報をディスプレイ上に一つずつ順番に表示する様式や、ディスプレイ上に表示する複数の識別情報の大きさ（寸法）を類似度の大きさに比例して大きくなるように定める様式等を用いることができる。

また楽曲データ再生手段６は、ディスプレイ上に表示された複数の識別情報の表示から、楽曲選択手段８を用いて１以上の識別情報が選択されると、選択された識別情報の表示に対応する楽曲データを楽曲データ蓄積手段４に蓄積された複数の楽曲データから抽出して再生する。この楽曲の再生により、検索結果を実際に確認することが可能になる。複数の識別情報が選択される場合には、選択された順番に複数の楽曲データを再生してもよく、また声質類似度が大きい順番に複数の楽曲データを再生してもよい。

なお楽曲データ再生手段６による楽曲データの再生は、楽曲データの先頭から再生してもよいが、いわゆる楽曲のサビ部分だけを再生するようにしてもよい。また楽曲中の複数の歌声部分から選択した適宜の部分から楽曲データを再生するようにしてもよい。

図３は、図２に示した第１の楽曲検索システム１を、コンピュータを用いて実現する場合に用いるプログラムのアルゴリズムを示すフローチャートである。コンピュータでプログラムを実行すると、準備段階として、複数の楽曲について、それぞれの楽曲の歌声の声質特徴量と各楽曲の識別情報とを声質特徴量蓄積手段２に記憶し、また複数の識別情報と対応させて複数の楽曲データを楽曲データ蓄積手段４に蓄積する。そしてステップＳＴ１で複数の選択用楽曲の識別情報をディスプレイ上に表示する。そしてステップＳＴ２で複数の選択用楽曲の中から一つの楽曲が選択されるとステップＳＴ３へと進む。図４は、ディスプレイ１０に表示される表示画面（検索結果を表示する画面）で実際に検索を行ったときの表示を示している。本実施の形態では、この表示画面を利用して好きな楽曲（クエリ）を選択する。その場合には、候補リスト表示部Ｌに表示された複数の楽曲の名称及び歌手の名前（識別情報）から好きな１曲の楽曲の識別情報をクリックとすると入力窓部Ｗに選択された識別情報が表示される。そして再生ボタンＳをクリックすると、ステップＳＴ３の内容即ち声質類似度の計算が開始される。なおこの表示画面における候補リスト表示部Ｌは、後述する検索結果を表示する表示部としても兼用される。候補リスト表示部Ｌに表示された楽曲に好みの楽曲がない場合にはスライドボタンＳＬをスライドさせて次のＮ曲の楽曲を表示することができる。ステップＳＴ３では、選択された一つの楽曲の声質特徴量とその他の複数の楽曲のそれぞれの声質特徴量とに基づいて、該一つの楽曲とその他の複数の楽曲の声質類似度を計算する。そしてステップＳＴ４では、類似度計算手段３により計算された声質類似度に基づいて、一つの楽曲中の歌声の声質に類似する歌声を含む上位Ｎ曲の楽曲の識別情報をディスプレイ上に表示する。本実施の形態では、図４に示した表示画面の候補リスト表示部Ｌに表示せる複数の楽曲が、類似度の大きい順番に並び変えられて表示される。そしてステップＳＴ５で、ディスプレイ１０上の候補リスト表示部Ｌに表示された複数の識別情報の表示から、一つの識別情報がクリックにより選択され、更に再生ボタンＲＰがクリックされて再生指令が入力されると、選択された識別情報の表示に対応する楽曲データを楽曲データ蓄積手段４に蓄積された複数の楽曲データから抽出して楽曲再生手段により再生する（ステップＳＴ６）。候補リスト表示部Ｌに表示された複数の識別情報の中に、選択したい楽曲の識別情報が表示されていない場合には、ステップＳＴ９において、スライドボタンＳＬをスライドさせて次のＮ曲の識別情報が表示される。また１曲の楽曲をステップＳＴ６において再生した後更に別の楽曲を再生する場合には、ステップＳＴ８へと進む。ステップＳＴ８では、候補リスト表示部Ｌの表示を初期の状態に戻すか否かの判定が行われる。初期状態に戻す場合には、ステップＳＴ４へと戻り、初期状態に戻さずに、現状の候補から再度選択する場合には、ステップＳＴ５へと戻る。

なおステップＳＴ５において、複数の楽曲を選択できるようにしてもよい。複数の楽曲を選択できるようにした場合には、ステップＳＴ６では選択された順番に複数の楽曲を再生するようにしてもよく、また類似度の大きい順番に複数の楽曲を再生するようにしてもよい。

図４の表示画面は、本実施の形態を用いて実際に実験を行った検索結果を表示しているので、この実験の条件と検索結果を説明する。まず歌声ＧＭＭと非歌声ＧＭＭの学習のために、「ＲＷＣ研究用音楽データベース：ポピュラー音楽」（ＲＷＣ−ＭＤＢ−Ｐ−２００１）（後藤真孝，橋口博樹，西村拓一，岡隆一：ＲＷＣ研究用音楽データベース：研究目的で利用可能な著作権処理済み楽曲・楽器音データベース，情報処理学会論文誌，Ｖｏｌ．４５，Ｎｏ．３，ｐｐ．７２８−７３８（２００４））から、２５曲を選択して使用した。そしてシステムの検索対象データベースとしての楽曲データ蓄積手段４中には、ＲＷＣ−ＭＤＢ−Ｐ−２００１で歌声／非歌声ＧＭＭの構築に使わなかった７５曲を登録した。図４の運用例では、女性歌手「緒方智美」が歌う「ＰＲＯＬＯＧＵＥ」（ＲＷＣ−ＭＤＢ−Ｐ−２００１Ｎｏ．７）がクエリとして入力されている。クエリの楽曲が与えられ、ユーザが検索ボタンＳを押すと、類似度の計算に２０秒程度の時間がかかった後に、候補リスト表示部Ｌに検索結果として楽曲が上位から順に並べられて出力される。この例では、検索結果として順位、楽曲名、歌手名、類似度の順に表示される。ユーザが検索結果リスト中の楽曲をクリックして再生ボタンＲＰをクリックするか楽曲の表示をダブルクリックすると、楽曲データ再生手段６にその楽曲が読み込まれ、再生が始まる。その他の楽曲をクエリとして入力した場合でも、ほとんどの場合で上位の１０曲に選ばれた楽曲はクエリの楽曲と歌声の声質が似ていると感じられた。例えば、図４の例では、上位の２１曲はクエリと同様に女性歌手の曲であった。また、図４中の上位１５曲の歌声の声質はクエリの楽曲と類似していた。クエリの楽曲の歌手である「緒方智美」の別の楽曲は、上位の１番目、２番目にランクしていた一方で、比較的下位の１０番目、１２番目にもランクしていた。これは、１０番目の曲と１２番目の曲に関しては、歌唱スタイルがクエリの曲や１番目、２番目の曲と異なっていたことが原因である。一方、検索結果の下位にランクされた楽曲については、順位は楽曲の類似度を正しく反映していないように思われた。例えば、図４の例では、画面上のプレイリストの範囲外で２２位より下位では男性歌声と女声歌声が混在していた。しかし、通常の検索用途では上位の１０曲程度を提示すれば十分であり、問題にはならない。キーとなる楽曲が、複数の歌手によって歌われる楽曲や、歌声に深くエフェクトがかけられている曲では、検索結果が直感的な類似度を反映していない場合もあった。

次に、従来の内容に基づく音楽検索手法であるＭＦＣＣを用いた検索システムと比較して、本実施の形態の歌声の声質に基づく楽曲検索システムを評価する。比較の対象とする従来の検索システムでは、特徴量としてＭＦＣＣを使用し、特徴抽出の際に伴奏音抑制、高信頼度フレームを行わなかった。類似度の計算は本実施の形態の場合と同様にした。

実験手順について説明する。まず本実験には、６人の大学生（女性４人、男性２人）が被験者として参加した。被験者は、音楽の専門的な教育は受けていない。まず、被験者は図５のような画面が提示され３つの楽曲を聴くことが指示される。これらの３曲は、クエリの楽曲（図中の曲Ｘ）、本実施の形態の検索システムにより最上位にランクされた楽曲（図中の曲Ａまたは曲Ｂ）、従来の検索システム（比較手法）により最上位にランクされた楽曲（図中の曲Ｂまたは曲Ａ）から構成されている。そして、被験者は曲Ａと曲Ｂのどちらがよりクエリの楽曲に似ているかを判定する。被験者は曲Ａと曲Ｂのどちらの楽曲が本実施の形態のシステムによる検索結果かは知らされておらず、曲Ａと曲Ｂの順はランダムに決定されている。また、被験者は３つの楽曲を好きな順番で何度でも繰り返し聴くことが出来る。ＲＷＣ研究用音楽データベース：ポピュラー音楽（ＲＷＣ−ＭＤＢ−Ｐ−２００１）中から、ジャンルや歌手の性別が多様になるように留意しながら図６に示すように１０曲のクエリを選択した。図６に示す表において、３桁の数字はＲＷＣ研究用音楽データベース(RWC-MDB-P-2001) 中の楽曲番号を表す。それぞれのクエリを入力した際の、
本実施の形態の検索システムと従来の検索システム(MFCC) による最上位の検索結果が同じ行に記されている。また表中の「日」は日本語の歌詞であることを表しており，「英」は英語の歌詞であることを表している。

実験では、それぞれのクエリの曲について、被験者に以下の２つの質問をした。

質問１：歌声の声質に関して、曲Ａ、曲Ｂのどちらがより曲Ｘに似ていると思いますか？
質問２：曲全体の音質に関して、曲Ａ、曲Ｂのどちらがより曲Ｘに似ていると思いますか？
実験結果を図７と図８に示す。図７は、質問１（ボーカールの声質）に対する回答結果を示しており、図８は質問２（楽曲全体の音質）に対する回答結果を示している。即ち図７は、それぞれの楽曲について、被験者が本実施の形態の検索システムと従来の検索システムの検索結果のどちらの声質のほうがクエリの楽曲と類似していると回答したかの割合を表す。６人の被験者の１０曲に対する回答のうち８０％が、本実施の形態の検索システムの検索結果の歌声の声質のほうがよりクエリの楽曲と類似していると答えた。一方図８に示すように、曲全体の音質の類似度に関しては、７０％の回答が従来の検索システムの検索結果がよりクエリに似ていると答えた。これらの実験結果から、本実施の検索システムによれば、伴奏音の影響が低減されて、歌声の声質の類似度に基づいて楽曲が検索できていることが確認された。実際、図６の表を見ると、従来の検索システムのように特徴量としてＭＦＣＣを用いた場合は、１０曲中４曲でクエリと異なる性別の楽曲を出力しているが、本実施の形態の検索システムではそのような問題は発生していない。

また、本実施の形態の検索システムの検索結果は、単に歌声の声質の類似度だけでなく、歌唱スタイルの類似度の観点からも類似している例が見られた。例えば、ＲＷＣ−ＭＤＢ−Ｐ−２００１の＃０５３の楽曲がクエリとして使用された場合、本実施の形態の検索システムの検索結果と従来の検索システムの検索結果が共にクエリと同じ歌手の楽曲である。ところが、６人の被験者中の５人が、本実施の形態の検索システムの検索結果のほうがクエリと類似していると判断している。実験によって、本実施の形態の検索システムを、７５曲の楽曲を用いて実際に運用し、声質の類似度に基づいて楽曲を検索するのに有効であることが確認できた。また本実施の形態の検索システムの検索結果が実際に声質の類似度に基づいていることを確かめるため、６人の被験者により被験者実験を行い、本実施の形態の検索システムの有効性を確認できた。なお本実験からは、２つの楽曲の類似尺度として、相互情報量を用いると、効果的であることが確認できた。一方で、相互情報量は計算の際に全ての特徴量を使用するため、計算時間が長くなったり、また必要な記憶容量が大きくなるという問題がある。しかしながら使用するコンピュータの演算速度が速くなり、また使用するメモリの価格が下がれば、この問題は解消するので、十分に実用可能である。なお類似尺度としては、ＥａｒｔｈＭｏｖｅｒ’ｓＤｉｓｔａｎｃｅ（ＥＭＤ）（Ｂｅｒｅｎｚｗｅｉｇ，Ａ．，Ｌｏｇａｎ，Ｂ．，Ｅｌｌｉｓ，Ｄ．Ｐ．Ｗ．ａｎｄＷｈｉｔｍａｎ，Ｂ．：ＡＬａｒｇｅ−ＳｃａｌｅＥｖａｌｕａｔｉｏｎｏｆＡｃｏｕｓｔｉｃａｎｄＳｕｂｊｅｃｔｉｖｅＭｕｓｉｃＳｉｍｉｌａｒｉｔｙＭｅａｓｕｒｅｓ，ＣｏｍｐｕｔｅｒＭｕｓｉｃＪｏｕｒｎａｌ，Ｖｏｌ．２８，Ｎｏ．２，ｐｐ．６３−７６（２００４））など、その他の類似尺度を導入すれば、計算時間を削減することができる。さらに、本実施の形態の楽曲検索システムをその他の音楽検索手法と統合することで、より柔軟で幅広い楽曲検索システムを開発することも可能である。

図９は、本発明の楽曲検索システムの第２の実施の形態の構成を示すブロック図である。本実施の形態は、第１の実施の形態の特徴である声質が類似する歌声を含む楽曲の検索に加えて、楽曲の曲調も類似する楽曲を選択できる。図９においては、図２に示した第１の実施の形態の構成と同様のブロックに、図２に示したブロックに付した符号の数に１００の数を加えた数の符号を付してある。そして機能が同じブロック（手段）に関しては、説明を省略する。この楽曲探索システム１０１では、複数の楽曲について、それぞれの楽曲の歌声の声質特徴量と各楽曲の識別情報とを蓄積する声質特徴量蓄積手段１０２に加えて、各楽曲の曲調特徴量と識別情報とを蓄積する曲調特徴量蓄積手段１１１を備えている。なお声質特徴量蓄積手段１０２と曲調特徴量蓄積手段１１１とは一つの蓄積手段によって構成することができるのは勿論である。本実施の形態では、声質特徴量蓄積手段１０２と曲調特徴量蓄積手段１１１とによって声質及び曲調特徴量蓄積手段が構成されている。また本実施の形態では、曲調類似度計算手段１１２を更に備えている。曲調特徴量としては、例えば、ＭＦＣＣ(Mel-Frequency Cepstrum Coefficient)、スペクトル重心（Audio Spectrum Centroid）、ロールオフ（Roll Off）、フラックスなどの特徴量を用いることができる。

曲調類似度計算手段１１２は、楽曲選択手段１０８によって複数の楽曲の中から一つの楽曲が選択されると、一つの楽曲の曲調特徴量とその他の複数の楽曲のそれぞれの曲調特徴量とに基づいて、一つの楽曲とその他の複数の楽曲の曲調類似度を計算する。すなわち選択された楽曲の曲調特徴量と、その他の複数の楽曲の曲調特徴量（曲調特徴量蓄積手段１１１に蓄積された残りの楽曲の曲調特徴量）のすべてとの間において、類似度を計算する。類似度の計算方法も、任意であって、特定の類似度計算方法に限定されるものではない。曲調の類似度の計算にも、例えば、２つの楽曲間の類似尺度として、相互情報量の他、ＣＯＳ尺度、距離尺度ＥＭＤ（Earth Mover's Distance)等を使用することができる。

類似楽曲検索表示手段１０５は、声質類似度計算手段１０３により計算された声質類似度と、曲調類似度計算手段１１１により計算された曲調類似度とに基づいて、声質が類似する歌声を含み且つ曲調が類似する複数の楽曲の複数の識別情報をディスプレイ１１０上に表示する指令を制御手段１０７に出力する。制御手段１０７は、この指令を受けてディスプレイ１１０上に複数の楽曲の複数の識別情報を表示する指令をディスプレイドライバ１０９に出力する。声質が類似する歌声を含み且つ曲調が類似する複数の楽曲を検索する場合には、１つの楽曲の声質類似度及び曲調類似度の平均値を基準としてもよく、声質類似度及び曲調類似度のそれぞれに所定の重み付けをした値の平均値を基準として検索を行って、平均値の大きい順に検索された複数の楽曲の識別情報をディスプレイ１１０上に図４の表示と同様の様式で並べるようにしてもよい。また図１１に示すような、縦軸ＹＡ及び横軸ＸＡの一方（図１１では横軸）が声質類似度を示し、他方（図１１の例で縦軸）が曲調類似度を示す表示様式を用いることができる。図１１は、図１１の右下に示した実際の表示様式の一部の領域（四角で囲んだ領域）を拡大して示したものである。この表示様式では、一つの楽曲の識別情報を、この一つの楽曲の声質類似度の位置で横軸ＸＡと直交する第１の仮想線ＰＬ１と、曲調類似度の位置で縦軸ＹＡと直交する第２の仮想線ＰＬ２の交差点またはその近傍に表示する。図１１の例では、丸の図形の内部に識別情報として歌手名と楽曲名とが表示されている。図１１のような表示様式を採用すると、各楽曲の識別情報を平面上に分散して配置したような状態で表示することができる。図１１に示す様式で検索結果を表示する場合には、声質類似度及び曲調類似度が共に同じ値で、この値がそれぞれ異なる複数の楽曲の識別情報は、縦軸ＹＡと横軸ＸＡの交点から縦軸ＹＡと横軸ＸＡの間の４５度の角度方向に延びる仮想中央線ＰＣ上に並んで配置されることになる。この場合、声質類似度及び曲調類似度が共に最も大きい楽曲の識別情報が縦軸ＹＬと横軸ＸＡの交点に位置するようにすると、交点近傍の識別情報を選択すれば、声質及び曲調が共に類似した楽曲を素早く見つけることが可能になる。

図１１の表示様式（インターフェース）では、クエリとなる楽曲と検索対象の他の複数の楽曲の、歌手の声質の類似度と曲調の類似度を平面上に可視化することで、ユーザはクエリの楽曲と歌手の声質及び曲調が似ている曲を直感的な操作で探すことが可能である。また図１１において、図中の円は、それぞれ一つの楽曲を表現している。左上の領域中の楽曲(この図では「西一男」の「永遠のレプリカ」)は、ユーザが提示したクエリとなる楽曲である。図中央部の大きな領域には、検索対象の楽曲を横軸方向は歌声の類似度の順に、縦軸方向は曲調の類似度の順にプロットした平面(以後類似度平面と呼ぶ)の一部が表示してある。類似度平面中では、左部に表示されている楽曲ほどクエリの楽曲に歌手の声質が類似し、上部に表示されている楽曲ほどクエリ楽曲と曲調が類似している。

また横軸ＸＡに沿って配置されたスライダＳＬ１及び縦軸ＹＡに沿って配置されたスライダＳＬ２は類似度平面中のどの領域を現在表示しているかを表しており、スライダＳＬ１及びＳＬ２を動かすことで任意の領域を表示することが可能である。また、領域中の任意の点をドラッグすることによっても、類似度平面中の表示領域を変更することが可能である。図右下部の、多くの白い点がある小さな領域は、類似度平面全体の中の検索対象の楽曲の分布を表しており、一つ一つの白い点が各楽曲に対応する。その中の薄い小さな四角の領域が現在図中央部に表示している範囲を表している。ユーザはこの領域を直接クリックすることでも、類似度平面中の表示領域を変更することが可能である。

また、図中央部の領域には類似度平面の一部が表示されているが、その際の縮尺は自由に変更することが可能である。つまり、倍率を小さくすることで、一画面に多くの楽曲を表示することも可能である。また、倍率を小さくすることで、一画面に表示される楽曲の数を少なくし、検索結果を見やすくすることも可能である。倍率の変更は縦軸と横軸で独立して行うことが可能である。

楽曲を表現する円をユーザがクリックするとその楽曲の再生を開始する。再生中の楽曲を表す円は他の円と比べて区別できるように描画され、再生中の位置が円の周囲に表示される帯状表示等でわかるように表示される。図１１の例では、「風戸ヒサヨシ」の「言えない」が再生中で、現在約４０％程度再生済みであることを表している。なお、楽曲を再生する際には、ユーザが楽曲を探しやすいように、サビ区間のみを再生することも可能である。この場合、サビ区間自動検出手法によりサビ区間をあらかじめ検出しておけばよい。

図１０は、図９に示した第２の楽曲検索システム１０１を、コンピュータを用いて実現する場合に用いるプログラムのアルゴリズムを示すフローチャートである。コンピュータでプログラムを実行すると、準備段階として、複数の楽曲について、それぞれの楽曲の歌声の声質特徴量と各楽曲の識別情報とを声質特徴量蓄積手段１０２に記憶する。またそれぞれの楽曲の曲調特徴量と各楽曲の識別情報とを曲調特徴量蓄積手段１１１に蓄積する。さらに複数の識別情報と対応させて複数の楽曲データを楽曲データ蓄積手段１０４に蓄積する。そしてステップＳＴ１０１で複数の選択用楽曲の識別情報をディスプレイ上に表示する。そしてステップＳＴ１０２で複数の選択用楽曲の中から一つの楽曲が選択されるとステップＳＴ１０３へと進む。ステップＳＴ１０３では、選択された一つの楽曲の声質特徴量とその他の複数の楽曲のそれぞれの声質特徴量とに基づいて、該一つの楽曲とその他の複数の楽曲の声質類似度を計算する。そして次にステップＳＴ１０４へと進み、ステップＳＴ１０４では、一つの楽曲とその他の複数の楽曲の曲調類似度を計算する。そしてステップＳＴ１０５では、類似度計算手段１０３により計算された声質類似度と曲調類似度計算手段１１２により計算された曲調類似度とに基づいて、一つの楽曲中の歌声の声質に類似する歌声を含み且つ曲調が類似する上位Ｎ曲の楽曲の識別情報をディスプレイ上に表示する。そしてステップＳＴ１０６で、ディスプレイ１１０上の候補リスト表示部Ｌに表示された複数の識別情報の表示から、一つの識別情報がクリックにより選択され、選択された識別情報の表示に対応する楽曲データを楽曲データ蓄積手段１０４に蓄積された複数の楽曲データから抽出して楽曲再生手段により再生する（ステップＳＴ１０７）。候補リスト表示部Ｌに表示された複数の識別情報の中には、選択したい楽曲の識別情報が表示されていない場合には、ステップＳＴ１１０において、次のＮ曲の識別情報が表示される。また１曲の楽曲をステップＳＴ１０７において再生した後更に別の楽曲を再生する場合には、ステップＳＴ１０９へと進む。ステップＳＴ１０９では、候補リスト表示部Ｌの表示を初期の状態に戻すか否かの判定が行われる。初期状態に戻す場合には、ステップＳＴ１０５へと戻り、初期状態に戻さずに、現状の候補から再度選択する場合には、ステップＳＴ１０６へと戻る。なおステップＳＴ１０６において、複数の楽曲を選択できるようにしてもよい。この第２の実施の形態によれば、ユーザが好む楽曲中の歌声の声質と声質が似ており、しかもその楽曲と曲調が似た未知の楽曲に巡り合うことが可能になる。

なお声質の類似を検索する際に基準とする楽曲と曲調の類似を検索する際に基準とする楽曲を異ならせてもよい。すなわち声質はある楽曲中の歌声（例えば一人の女性がロックを歌っている楽曲の歌声）の声質と類似し、曲調は他の楽曲（例えばコーラスグループがポップスを歌っている楽曲）の曲調と類似する楽曲を検索できるようにしてもよい。図１２は、このような検索を実現するための本発明の楽曲検索システムの第３の実施の形態の構成を示すブロック図である。また図１３は、図１２の実施の形態をコンピュータを用いて実現する場合に用いるプログラムのフローチャートを示す図である。本実施の形態の楽曲検索システムでは、ある一つの楽曲中の歌声の声質に類似する歌声を含み、しかも他の一つの楽曲の曲調と類似する曲調の楽曲を検索することができる。図１２においては、図９に示した第２の実施の形態の構成と同様のブロックに、図９に示したブロックに付した符号の数に１００の数を加えた数の符号を付してある。そして機能が同じブロック（手段）に関しては、説明を省略する。この楽曲探索システム１０１では、楽曲選択手段２０８が声質のための楽曲と曲調のための楽曲の選択に利用される。

第３の実施の形態でも、声質及び曲調特徴量蓄積手段（２０２及び２１１）と、声質類似度計算手段２０３と、曲調類似度計算手段２１２と、類似楽曲検索表示手段２０５と、楽曲データ再生手段２０６とを用いる。声質類似度計算手段２０２は、複数の楽曲の中から楽曲選択手段２０８により一つの楽曲Ｍ１が選択されると、該一つの楽曲Ｍ１の声質特徴量とその他の複数の楽曲のそれぞれの声質特徴量とに基づいて、一つの楽曲とその他の複数の楽曲の声質類似度を計算する。また曲調類似度計算手段２１２は、複数の楽曲の中から他の一つの楽曲Ｍ２が選択されると、他の一つの楽曲Ｍ２の曲調特徴量とその他の複数の楽曲のそれぞれの曲調特徴量とに基づいて、他の一つの楽曲Ｍ２とその他の複数の楽曲の曲調類似度を計算する。そして類似楽曲検索表示手段２０５は、声質類似度計算手段２０２により計算された声質類似度と、曲調類似度計算手段２１２により計算された曲調類似度とに基づいて、一つの楽曲Ｍ１中の歌声と声質が類似する歌声を含み且つ他の一つの楽曲Ｍ２中の楽曲と曲調が類似する複数の楽曲についての複数の識別情報をディスプレイ２１０上に表示する指令を制御手段２０７に出力する。ディスプレイ２１０上への識別情報の表示様式は任意である。例えば、図１４に示すように、図１１の様式と同様に、縦軸ＹＡ及び横軸ＸＡの一方（この例では横軸）が声質類似度を示し、他方（この例では縦軸）が曲調類似度を示し、一つの楽曲の識別情報を、該一つの楽曲の声質類似度の位置で横軸ＸＡと直交する第１の仮想線と該一つの楽曲の曲調類似度の位置で縦軸ＹＡと直交する第２の仮想線の交差点またはその近傍に表示する表示様式を用いることができる。この表示様式を用いると、一つの楽曲Ｍ１と声質が類似し、他の楽曲Ｍ２と曲調が類似する複数の楽曲を、類似の程度と共に一目で認識することができる。

図１４の表示様式（インタフェース）は、図１１と比べると、クエリの楽曲Ｍ１及びＭ２を表示する図中の左上の領域が２つになっている。そして歌声の類似度を計算する際のクエリ楽曲Ｍ１と曲調の類似度を計算する際のクエリ楽曲Ｍ２を異なる楽曲にすることができる。これにより、ある楽曲の歌声は好きだが曲調はあまり好きでないという場合でも、検索対象の楽曲中から歌声と曲調が両方好きな楽曲を探してくることができる。この場合も操作方法は図１１の場合と同様であり、検索結果を類似度平面にプロットすることにより、好みの楽曲を直観的な操作で探し出すことが可能である。

コンピュータで図１３に示すアルゴリズムのプログラムを実行すると、準備段階として、複数の楽曲について、それぞれの楽曲の歌声の声質特徴量と各楽曲の識別情報とを声質特徴量蓄積手段２０２に記憶する。またそれぞれの楽曲の曲調特徴量と各楽曲の識別情報とを曲調特徴量蓄積手段２１１に蓄積する。さらに複数の識別情報と対応させて複数の楽曲データを楽曲データ蓄積手段２０４に蓄積する。そしてステップＳＴ２０１で複数の選択用楽曲の識別情報をディスプレイ上に表示する。ステップＳＴ２０２で複数の選択用楽曲の中から声質選択用の一つの楽曲（クエリ）が選択されるとステップＳＴ２０３へと進む。ステップＳＴ２０３では、選択された一つの楽曲の声質特徴量とその他の複数の楽曲のそれぞれの声質特徴量とに基づいて、該一つの楽曲とその他の複数の楽曲の声質類似度を計算する。次にステップＳＴ２０４で、複数の選択用楽曲の中から曲調選択用の他の一つの楽曲（クエリ）が選択される。そしてステップＳＴ２０５で、選択された他の一つの楽曲の曲調特徴量とその他の複数の楽曲のそれぞれの曲調特徴量とに基づいて、該他の一つの楽曲とその他の複数の楽曲の曲調類似度を計算する。次にステップＳＴ２０６では、類似度計算手段２０３により計算された声質類似度と曲調類似度計算手段２１２により計算された曲調類似度とに基づいて、一つの楽曲中の歌声の声質に類似する歌声を含み且つ他の一つの楽曲と曲調が類似する上位Ｎ曲の楽曲の識別情報をディスプレイ上に表示する。そしてステップＳＴ２０９で、ディスプレイ２１０上の候補リスト表示部Ｌに表示された複数の識別情報の表示から、一つの識別情報がクリックにより選択され、選択された識別情報の表示に対応する楽曲データを楽曲データ蓄積手段２０４に蓄積された複数の楽曲データから抽出して楽曲再生手段により再生する（ステップＳＴ２１０）。候補リスト表示部Ｌに表示された複数の識別情報の中には、選択したい楽曲の識別情報が表示されていない場合には、ステップＳＴ２１３において、次のＮ曲の識別情報が表示される。また１曲の楽曲をステップＳＴ２１０において再生した後更に別の楽曲を再生する場合には、ステップＳＴ２１１からステップＳＴ２１２へと進む。ステップＳＴ２１２では、候補リスト表示部Ｌの表示を初期の状態に戻すか否かの判定が行われる。初期状態に戻す場合には、ステップＳＴ２０６へと戻り、初期状態に戻さずに、現状の候補から再度選択する場合には、ステップＳＴ２０９へと戻る。なおステップＳＴ２０９において、複数の楽曲を選択できるようにしてもよい。またこの例では、ステップＳＴ２０４において曲調選択用の楽曲が選択されない場合には、ステップＳＴ２０７へと進んで、曲調の選択を中止するか否か判定される。ステップＳＴ２０７で曲調の選択が中止されると、ステップＳＴ２０８へと進み、先に選択した声質だけが類似する歌声を含む楽曲の検索だけが実行される。すなわちステップＳＴ２０８では、声質類似度が上記Ｎ曲の識別情報がディスプレイ２１０上に表示される。その後は、前述のステップＳＴ２０９〜ステップＳＴ２１３と同様である。

この第２の実施の形態によれば、ユーザが好む楽曲中の歌声の声質と声質が似ており、しかもその楽曲と曲調が似た未知の楽曲に巡り合うことが可能になる。

上記各実施の形態では、毎回類似度を計算しているが、予め類似度を計算しておき類似度蓄積手段に蓄積しておいてもよい。図１５は、予め類似度を計算しておき類似度蓄積手段に蓄積しておく、第４の実施の形態の構成を示すブロック図である。図１５においては、図２に示した第１の実施の形態の構成と同様のブロックに、図２に示したブロックに付した符号の数に３００の数を加えた数の符号を付してある。声質が類似する楽曲を検索する場合には、複数の楽曲について、それぞれの楽曲の歌声の声質特徴量とその他の複数の楽曲の声質特徴量とに基づいて算出された各楽曲とその他の複数の楽曲との間の複数の声質類似度と、各楽曲の識別情報とを類似度蓄積手段３１３に蓄積する。類似楽曲検索表示手段３０５は、複数の楽曲の中から一つの楽曲が選択されると、類似度蓄積手段３１３から、該一つの楽曲とその他の複数の楽曲との間の複数の声質類似度を読み出し、複数の声質類似度に基づいて一つの楽曲中の歌声の声質と類似する歌声を含む複数の楽曲の複数の識別情報を制御手段３０７及びデジスプレイドライバ３０９を介してディスプレイ３１０上に表示する。このようにすると事前に類似度の計算を行っておくため、検索時間を早くすることができる。

図１６は、図１５に示した第４の楽曲検索システム３０１を、コンピュータを用いて実現する場合に用いるプログラムのアルゴリズムを示すフローチャートである。コンピュータでプログラムを実行すると、準備段階として、複数の楽曲について、それぞれの楽曲の歌声の声質特徴量とその他の複数の楽曲の前記声質特徴量とに基づいて算出された各楽曲とその他の複数の楽曲との間の複数の声質類似度と、各楽曲の識別情報とが類似度蓄積手段３１３に蓄積される。そしてステップＳＴ３０１で複数の選択用楽曲の識別情報をディスプレイ上に表示する。そしてステップＳＴ３０２で複数の選択用楽曲の中から一つの楽曲が選択されるとステップＳＴ３０３へと進む。ステップＳＴ３０３では、類似度蓄積手段３１３に蓄積された声質類似度に基づいて、一つの楽曲中の歌声の声質に類似する歌声を含む上位Ｎ曲の楽曲の識別情報をディスプレイ上に表示する。以下のステップＳＴ３０４乃至ステップＳＴ３０８は、図３のステップＳＴ５からステップＳＴ９と同様になる。

また声質と曲調が類似する楽曲を検索する場合、類似度蓄積手段３１３には、複数の楽曲について、それぞれの楽曲の歌声の声質特徴量とその他の複数の楽曲の声質特徴量とに基づいて算出された各楽曲とその他の複数の楽曲との間の複数の声質類似度と、複数の楽曲について、それぞれの楽曲の曲調特徴量とその他の複数の楽曲の曲調特徴量とに基づいて算出された各楽曲とその他の複数の楽曲との間の複数の曲調類似度と、各楽曲の識別情報とを蓄積しおけばよい。そして類似楽曲検索表示手段３０５は、複数の楽曲の中から一つの楽曲が選択されると、類似度蓄積手段３１３から、該一つの楽曲とその他の複数の楽曲との間の複数の声質類似度及び複数の曲調類似度を読み出し、複数の声質類似度及び複数の曲調類似度に基づいて一つの楽曲中の歌声の声質と類似する歌声を含み及び該一つの楽曲の曲調と類似する複数の楽曲の複数の識別情報をディスプレイ３１０上に表示する。

図１７は、声質特徴量の類似度と曲調特徴量の類似度の両方を類似度蓄積手段３１３に蓄積する場合の楽曲検索システム３０１を、コンピュータを用いて実現する場合に用いるプログラムのアルゴリズムを示すフローチャートである。図１６に示したフローチャートと比較すると、ステップＳＴ４０３において、曲調類似度を含めている点で相違するだけで、ステップＳＴ４０３を除くステップＳＴ４０１〜ステップＳＴ４０８の内容は、図１６のステップＳＴ３０３を除くステップＳＴ３０１〜ステップＳＴ３０８と実質的に同じである。
なお上記第３の実施の形態と同様に、声質と曲調のクエリ楽曲をそれぞれ異なる楽曲とする場合にも、図１５に示した実施の形態と同様に、事前にすべての類似度を計算して類似度蓄積手段３１３に蓄積しておき、図１５の実施の形態と同様に、検索を行ってもよいのは勿論である。

本発明の楽曲検索システムの一実施の形態の基本的な技術的思想を概念的に示す図である。図１の概念を具体化した第１の楽曲検索システムの具体的構成を示すブロック図である。図２に示した第１の楽曲検索システムをコンピュータを用いて実現する場合に用いるプログラムのアルゴリズムを示すフローチャートである。ディスプレイに表示される表示画面（検索結果を表示する画面）で実際に検索を行ったときの表示を示す図である。被験者に提示する問題を示す画面の図である。１０曲のクエリを選択した結果を示す表である。質問１（ボーカールの声質）に対する回答結果を示す図である。質問２（楽曲全体の音質）に対する回答結果を示す図である。本発明の楽曲検索システムの第２の実施の形態の構成を示すブロック図である。図９に示した第２の楽曲検索システムを、コンピュータを用いて実現する場合に用いるプログラムのアルゴリズムを示すフローチャートである。検索結果の表示様式の一例を示す図である。本発明の楽曲検索システムの第３の実施の形態の構成を示すブロック図である。図１２の実施の形態をコンピュータを用いて実現する場合に用いるプログラムのフローチャートを示す図である。図１２の実施の形態による検索結果の表示様式を示す図である。予め類似度を計算しておき類似度蓄積手段に蓄積しておく、第４の実施の形態の構成を示すブロック図である。図１５に示した第４の楽曲検索システムを、コンピュータを用いて実現する場合に用いるプログラムのアルゴリズムを示すフローチャートである。図１５に示した第４の楽曲検索システムを、コンピュータを用いて実現する場合に用いる別のプログラムのアルゴリズムを示すフローチャートである。

１楽曲検索システム
２声質特徴量蓄積手段
３声質類似度計算手段
４楽曲データ蓄積手段
５類似楽曲検索表示手段
６楽曲データ再生手段
７制御手段
８楽曲選択手段
９ディスプレイドライバ
１０ディスプレイ

Claims

複数の楽曲について、それぞれの楽曲の歌声の声質特徴量と各楽曲の識別情報とを蓄積する声質特徴量蓄積手段と、
複数の前記識別情報と対応させて前記複数の楽曲データを蓄積する楽曲データ蓄積手段と、
前記複数の楽曲の中から一つの楽曲が選択されると、該一つの楽曲の前記声質特徴量とその他の前記複数の楽曲のそれぞれの前記声質特徴量とに基づいて、該一つの楽曲と前記その他の複数の楽曲の声質類似度を計算する類似度計算手段と、
前記類似度計算手段により計算された前記声質類似度に基づいて、前記一つの楽曲中の歌声の声質に類似する歌声を含む複数の楽曲の前記複数の識別情報をディスプレイ上に表示する類似楽曲検索表示手段と、
前記ディスプレイ上に表示された前記複数の識別情報の表示から、１以上の前記識別情報が選択されると、前記選択された前記識別情報の表示に対応する前記楽曲データを前記楽曲データ蓄積手段に蓄積された複数の前記楽曲データから抽出して再生する楽曲データ再生手段とを備えていることを特徴とする楽曲検索システム。
前記類似楽曲検索表示手段は、前記類似度の大小関係が判る表示様式により、前記複数の楽曲の前記識別情報を前記ディスプレイ上に表示することを特徴とする請求項１に記載の楽曲検索システム。
複数の楽曲について、それぞれの楽曲の歌声の声質特徴量及び曲調特徴量と各楽曲の識別情報とを蓄積する声質及び曲調特徴量蓄積手段と、
前記識別情報と対応させて前記複数の楽曲データを蓄積する楽曲データ蓄積手段と、
前記複数の楽曲の中から一つの楽曲が選択されると、該一つの楽曲の前記声質特徴量とその他の前記複数の楽曲のそれぞれの前記声質特徴量とに基づいて、前記一つの楽曲と前記その他の複数の楽曲の声質類似度を計算する声質類似度計算手段と、
前記複数の楽曲の中から一つの楽曲が選択されると、前記一つの楽曲の前記曲調特徴量とその他の前記複数の楽曲のそれぞれの前記曲調特徴量とに基づいて、前記一つの楽曲と前記その他の複数の楽曲の曲調類似度を計算する曲調類似度計算手段と、
前記声質類似度計算手段により計算された前記声質類似度と、前記曲調類似度計算手段により計算された前記曲調類似度とに基づいて、前記声質が類似する歌声を含み且つ前記曲調が類似する複数の楽曲の前記複数の識別情報をディスプレイ上に表示する類似楽曲検索表示手段と、
前記ディスプレイ上に表示された前記複数の識別情報の表示から、１以上の前記識別情報が選択されると、前記選択された前記識別情報の表示に対応する前記楽曲データを前記楽曲データ蓄積手段に蓄積された複数の前記楽曲データから抽出して再生する楽曲データ再生手段とを備えていることを特徴とする楽曲検索システム。
複数の楽曲について、それぞれの楽曲の歌声の声質特徴量及び曲調特徴量と各楽曲の識別情報とを蓄積する声質及び曲調特徴量蓄積手段と、
前記識別情報と対応させて前記複数の楽曲データを蓄積する楽曲データ蓄積手段と、
前記複数の楽曲の中から一つの楽曲が選択されると、該一つの楽曲の前記声質特徴量とその他の前記複数の楽曲のそれぞれの前記声質特徴量とに基づいて、前記一つの楽曲と前記その他の複数の楽曲の声質類似度を計算する声質類似度計算手段と、
前記複数の楽曲の中から他の一つの楽曲が選択されると、前記他の一つの楽曲の前記曲調特徴量とその他の前記複数の楽曲のそれぞれの前記曲調特徴量とに基づいて、前記他の一つの楽曲と前記その他の複数の楽曲の曲調類似度を計算する曲調類似度計算手段と、
前記声質類似度計算手段により計算された前記声質類似度と、前記曲調類似度計算手段により計算された前記曲調類似度とに基づいて、前記一つの楽曲中の前記歌声と前記声質が類似する歌声を含み且つ前記他の一つの楽曲中の前記楽曲と曲調が類似する複数の楽曲についての複数の前記識別情報をディスプレイ上に表示する類似楽曲検索表示手段と、
前記ディスプレイ上に表示された前記複数の識別情報の表示から、１以上の前記識別情報が選択されると、前記選択された前記識別情報の表示に対応する前記楽曲データを前記楽曲データ蓄積手段に蓄積された複数の前記楽曲データから抽出して再生する楽曲データ再生手段とを備えていることを特徴とする楽曲検索システム。
前記類似楽曲検索表示手段は、前記類似度の大小関係が判る表示様式により、前記複数の楽曲の前記識別情報を前記ディスプレイ上に表示するように構成され、
前記表示様式は、縦軸及び横軸の一方が前記声質類似度を示し、他方が前記曲調類似度を示し、一つの前記楽曲の前記識別情報を、該一つの楽曲の前記声質類似度の位置で軸と直交する第１の仮想線と該一つの楽曲の前記曲調類似度の位置で軸と直交する第２の仮想線の交差点またはその近傍に表示するように定められている請求項３または４に記載の楽曲検索システム。
複数の楽曲について、それぞれの楽曲の歌声の声質特徴量とその他の前記複数の楽曲の前記声質特徴量とに基づいて算出された各楽曲と前記その他の複数の楽曲との間の複数の声質類似度と、各楽曲の識別情報とを蓄積する類似度蓄積手段と、
複数の前記識別情報と対応させて前記複数の楽曲データを蓄積する楽曲データ蓄積手段と、
前記複数の楽曲の中から一つの楽曲が選択されると、前記類似度蓄積手段から、該一つの楽曲と前記その他の複数の楽曲との間の前記複数の声質類似度を読み出し、前記複数の声質類似度に基づいて前記一つの楽曲中の前記歌声の声質と類似する歌声を含む複数の楽曲の前記複数の識別情報をディスプレイ上に表示する類似楽曲検索表示手段と、
前記ディスプレイ上に表示された前記複数の識別情報の表示から、１以上の前記識別情報が選択されると、前記選択された前記識別情報の表示に対応する前記楽曲データを前記楽曲データ蓄積手段に蓄積された複数の前記楽曲データから抽出して再生する楽曲データ再生手段とを備えていることを特徴とする楽曲検索システム。
複数の楽曲について、それぞれの楽曲の歌声の声質特徴量とその他の前記複数の楽曲の前記声質特徴量とに基づいて算出された各楽曲と前記その他の複数の楽曲との間の複数の声質類似度と、前記複数の楽曲について、それぞれの楽曲の曲調特徴量とその他の前記複数の楽曲の前記曲調特徴量とに基づいて算出された各楽曲と前記その他の複数の楽曲との間の複数の曲調類似度と、各楽曲の識別情報とを蓄積する類似度蓄積手段と、
前記識別情報と対応させて前記複数の楽曲データを蓄積する楽曲データ蓄積手段と、
前記複数の楽曲の中から一つの楽曲が選択されると、前記類似度蓄積手段から、該一つの楽曲と前記その他の複数の楽曲との間の前記複数の声質類似度及び前記複数の曲調類似度を読み出し、前記複数の声質類似度及び前記複数の曲調類似度に基づいて前記一つの楽曲中の前記歌声の声質と類似する歌声を含み及び該一つの楽曲の曲調と類似する複数の楽曲の前記複数の識別情報をディスプレイ上に表示する類似楽曲検索表示手段と、
前記ディスプレイ上に表示された前記複数の識別情報の表示から、１以上の前記識別情報が選択されると、前記選択された前記識別情報の表示に対応する前記楽曲データを前記楽曲データ蓄積手段に蓄積された複数の前記楽曲データから抽出して再生する楽曲データ再生手段とを備えていることを特徴とする楽曲検索システム。
複数の楽曲について、それぞれの楽曲の歌声の声質特徴量と各楽曲の識別情報とを声質特徴量蓄積手段に記憶するステップと、
複数の前記識別情報と対応させて前記複数の楽曲データを楽曲データ蓄積手段に蓄積するステップと、
前記複数の楽曲の中から一つの楽曲が選択されると、該一つの楽曲の前記声質特徴量とその他の前記複数の楽曲のそれぞれの前記声質特徴量とに基づいて、該一つの楽曲と前記その他の複数の楽曲の声質類似度を計算するステップと、
計算された前記声質類似度に基づいて、前記一つの楽曲中の歌声の声質に類似する歌声を含む複数の楽曲の前記複数の識別情報をディスプレイ上に表示するステップと、
前記ディスプレイ上に表示された前記複数の識別情報の表示から、１以上の前記識別情報が選択されると、前記選択された前記識別情報の表示に対応する前記楽曲データを前記楽曲データ蓄積手段に蓄積された複数の前記楽曲データから抽出して楽曲再生手段により再生するステップとをコンピュータが実行することを特徴とする楽曲検索方法。
複数の楽曲について、それぞれの楽曲の歌声の声質特徴量及び曲調特徴量と各楽曲の識別情報とを声質及び曲調特徴量蓄積手段に蓄積するステップと、
前記識別情報と対応させて前記複数の楽曲データを蓄積する楽曲データ蓄積手段と、
前記複数の楽曲の中から一つの楽曲が選択されると、該一つの楽曲の前記声質特徴量とその他の前記複数の楽曲のそれぞれの前記声質特徴量とに基づいて、前記一つの楽曲と前記その他の複数の楽曲の声質類似度を計算するステップと、
前記複数の楽曲の中から一つの楽曲が選択されると、前記一つの楽曲の前記曲調特徴量とその他の前記複数の楽曲のそれぞれの前記曲調特徴量とに基づいて、前記一つの楽曲と前記その他の複数の楽曲の曲調類似度を計算するステップと、
前記声質類似度と前記曲調類似度とに基づいて、前記声質が類似する歌声を含み且つ前記曲調が類似する複数の楽曲の前記複数の識別情報をディスプレイ上に表示するステップと、
前記ディスプレイ上に表示された前記複数の識別情報の表示から、１以上の前記識別情報が選択されると、前記選択された前記識別情報の表示に対応する前記楽曲データを前記楽曲データ蓄積手段に蓄積された複数の前記楽曲データから抽出して楽曲データ再生手段により再生するステップとコンピュータを用いて実行することを特徴とする楽曲検索方法。
複数の楽曲について、それぞれの楽曲の歌声の声質特徴量及び曲調特徴量と各楽曲の識別情報とを声質及び曲調特徴量蓄積手段に蓄積するステップと、
前記識別情報と対応させて前記複数の楽曲データを楽曲データ蓄積手段に蓄積するステップと、
前記複数の楽曲の中から一つの楽曲が選択されると、該一つの楽曲の前記声質特徴量とその他の前記複数の楽曲のそれぞれの前記声質特徴量とに基づいて、前記一つの楽曲と前記その他の複数の楽曲の声質類似度を計算するステップと、
前記複数の楽曲の中から他の一つの楽曲が選択されると、前記他の一つの楽曲の前記曲調特徴量とその他の前記複数の楽曲のそれぞれの前記曲調特徴量とに基づいて、前記他の一つの楽曲と前記その他の複数の楽曲の曲調類似度を計算するステップと、
前記声質類似度と前記曲調類似度とに基づいて、前記一つの楽曲中の前記歌声と前記声質が類似する歌声を含み且つ前記他の一つの楽曲中の前記楽曲と曲調が類似する複数の楽曲についての複数の前記識別情報をディスプレイ上に表示するステップと、
前記ディスプレイ上に表示された前記複数の識別情報の表示から、１以上の前記識別情報が選択されると、前記選択された前記識別情報の表示に対応する前記楽曲データを前記楽曲データ蓄積手段に蓄積された複数の前記楽曲データから抽出して楽曲データ再生手段により再生するステップとをコンピュータを用いて実行することを特徴とする楽曲検索方法。
複数の楽曲について、それぞれの楽曲の歌声の声質特徴量とその他の前記複数の楽曲の前記声質特徴量とに基づいて算出された各楽曲と前記その他の複数の楽曲との間の複数の声質類似度と、各楽曲の識別情報とを類似度蓄積手段に蓄積するステップと、
複数の前記識別情報と対応させて前記複数の楽曲データを楽曲データ蓄積手段に蓄積するステップと、
前記複数の楽曲の中から一つの楽曲が選択されると、前記類似度蓄積手段から、該一つの楽曲と前記その他の複数の楽曲との間の前記複数の声質類似度を読み出し、前記複数の声質類似度に基づいて前記一つの楽曲中の前記歌声の声質と類似する歌声を含む複数の楽曲の前記複数の識別情報をディスプレイ上に表示するステップと、
前記ディスプレイ上に表示された前記複数の識別情報の表示から、１以上の前記識別情報が選択されると、前記選択された前記識別情報の表示に対応する前記楽曲データを前記楽曲データ蓄積手段に蓄積された複数の前記楽曲データから抽出して楽曲データ再生手段により再生するステップとをコンピュータを用いて実行することを特徴とする楽曲検索方法。
複数の楽曲について、それぞれの楽曲の歌声の声質特徴量とその他の前記複数の楽曲の前記声質特徴量とに基づいて算出された各楽曲と前記その他の複数の楽曲との間の複数の声質類似度と、前記複数の楽曲について、それぞれの楽曲の曲調特徴量とその他の前記複数の楽曲の前記曲調特徴量とに基づいて算出された各楽曲と前記その他の複数の楽曲との間の複数の曲調類似度と、各楽曲の識別情報とを類似度蓄積手段に蓄積するステップと、
前記識別情報と対応させて前記複数の楽曲データを楽曲データ蓄積手段に蓄積するステップと、
前記複数の楽曲の中から一つの楽曲が選択されると、前記類似度蓄積手段から、該一つの楽曲と前記その他の複数の楽曲との間の前記複数の声質類似度及び前記複数の曲調類似度を読み出し、前記複数の声質類似度及び前記複数の曲調類似度に基づいて前記一つの楽曲中の前記歌声の声質と類似する歌声を含み及び該一つの楽曲の曲調と類似する複数の楽曲の前記複数の識別情報をディスプレイ上に表示するステップと、
前記ディスプレイ上に表示された前記複数の識別情報の表示から、１以上の前記識別情報が選択されると、前記選択された前記識別情報の表示に対応する前記楽曲データを前記楽曲データ蓄積手段に蓄積された複数の前記楽曲データから抽出して楽曲データ再生手段で再生するステップとをコンピュータを用いて実行することを特徴とする楽曲検索方法。
複数の楽曲について、それぞれの楽曲の歌声の声質特徴量と各楽曲の識別情報とを声質特徴量蓄積手段に記憶するステップと、
複数の前記識別情報と対応させて前記複数の楽曲データを楽曲データ蓄積手段に蓄積するステップと、
前記複数の楽曲の中から一つの楽曲が選択されると、該一つの楽曲の前記声質特徴量とその他の前記複数の楽曲のそれぞれの前記声質特徴量とに基づいて、該一つの楽曲と前記その他の複数の楽曲の声質類似度を計算するステップと、
前記類似度計算手段により計算された前記声質類似度に基づいて、前記一つの楽曲中の歌声の声質に類似する歌声を含む複数の楽曲の前記複数の識別情報をディスプレイ上に表示するステップと、
前記ディスプレイ上に表示された前記複数の識別情報の表示から、１以上の前記識別情報が選択されると、前記選択された前記識別情報の表示に対応する前記楽曲データを前記楽曲データ蓄積手段に蓄積された複数の前記楽曲データから抽出して楽曲再生手段により再生するステップとをコンピュータに実行させるように構成された楽曲検索用プログラム。
複数の楽曲について、それぞれの楽曲の歌声の声質特徴量及び曲調特徴量と各楽曲の識別情報とを声質及び曲調特徴量蓄積手段に蓄積するステップと、
前記識別情報と対応させて前記複数の楽曲データを蓄積する楽曲データ蓄積手段と、
前記複数の楽曲の中から一つの楽曲が選択されると、該一つの楽曲の前記声質特徴量とその他の前記複数の楽曲のそれぞれの前記声質特徴量とに基づいて、前記一つの楽曲と前記その他の複数の楽曲の声質類似度を計算するステップと、
前記複数の楽曲の中から一つの楽曲が選択されると、前記一つの楽曲の前記曲調特徴量とその他の前記複数の楽曲のそれぞれの前記曲調特徴量とに基づいて、前記一つの楽曲と前記その他の複数の楽曲の曲調類似度を計算するステップと、
前記声質類似度と前記曲調類似度とに基づいて、前記声質が類似する歌声を含み且つ前記曲調が類似する複数の楽曲の前記複数の識別情報をディスプレイ上に表示するステップと、
前記ディスプレイ上に表示された前記複数の識別情報の表示から、１以上の前記識別情報が選択されると、前記選択された前記識別情報の表示に対応する前記楽曲データを前記楽曲データ蓄積手段に蓄積された複数の前記楽曲データから抽出して楽曲データ再生手段により再生するステップとをコンピュータに実行させるように構成された楽曲検索用プログラム。
複数の楽曲について、それぞれの楽曲の歌声の声質特徴量及び曲調特徴量と各楽曲の識別情報とを声質及び曲調特徴量蓄積手段に蓄積するステップと、
前記識別情報と対応させて前記複数の楽曲データを楽曲データ蓄積手段に蓄積するステップと、
前記複数の楽曲の中から一つの楽曲が選択されると、該一つの楽曲の前記声質特徴量とその他の前記複数の楽曲のそれぞれの前記声質特徴量とに基づいて、前記一つの楽曲と前記その他の複数の楽曲の声質類似度を計算するステップと、
前記複数の楽曲の中から他の一つの楽曲が選択されると、前記他の一つの楽曲の前記曲調特徴量とその他の前記複数の楽曲のそれぞれの前記曲調特徴量とに基づいて、前記他の一つの楽曲と前記その他の複数の楽曲の曲調類似度を計算するステップと、
前記声質類似度と前記曲調類似度とに基づいて、前記一つの楽曲中の前記歌声と前記声質が類似する歌声を含み且つ前記他の一つの楽曲中の前記楽曲と曲調が類似する複数の楽曲についての複数の前記識別情報をディスプレイ上に表示するステップと、
前記ディスプレイ上に表示された前記複数の識別情報の表示から、１以上の前記識別情報が選択されると、前記選択された前記識別情報の表示に対応する前記楽曲データを前記楽曲データ蓄積手段に蓄積された複数の前記楽曲データから抽出して楽曲データ再生手段により再生するステップとをコンピュータに実行させるように構成された楽曲検索用プログラム。
複数の楽曲について、それぞれの楽曲の歌声の声質特徴量とその他の前記複数の楽曲の前記声質特徴量とに基づいて算出された各楽曲と前記その他の複数の楽曲との間の複数の声質類似度と、各楽曲の識別情報とを類似度蓄積手段に蓄積するステップと、
複数の前記識別情報と対応させて前記複数の楽曲データを楽曲データ蓄積手段に蓄積するステップと、
前記複数の楽曲の中から一つの楽曲が選択されると、前記類似度蓄積手段から、該一つの楽曲と前記その他の複数の楽曲との間の前記複数の声質類似度を読み出し、前記複数の声質類似度に基づいて前記一つの楽曲中の前記歌声の声質と類似する歌声を含む複数の楽曲の前記複数の識別情報をディスプレイ上に表示するステップと、
前記ディスプレイ上に表示された前記複数の識別情報の表示から、１以上の前記識別情報が選択されると、前記選択された前記識別情報の表示に対応する前記楽曲データを前記楽曲データ蓄積手段に蓄積された複数の前記楽曲データから抽出して楽曲データ再生手段により再生するステップとをコンピュータに実行させるように構成された楽曲検索用プログラム。
複数の楽曲について、それぞれの楽曲の歌声の声質特徴量とその他の前記複数の楽曲の前記声質特徴量とに基づいて算出された各楽曲と前記その他の複数の楽曲との間の複数の声質類似度と、前記複数の楽曲について、それぞれの楽曲の曲調特徴量とその他の前記複数の楽曲の前記曲調特徴量とに基づいて算出された各楽曲と前記その他の複数の楽曲との間の複数の曲調類似度と、各楽曲の識別情報とを類似度蓄積手段に蓄積するステップと、
前記識別情報と対応させて前記複数の楽曲データを楽曲データ蓄積手段に蓄積するステップと、
前記複数の楽曲の中から一つの楽曲が選択されると、前記類似度蓄積手段から、該一つの楽曲と前記その他の複数の楽曲との間の前記複数の声質類似度及び前記複数の曲調類似度を読み出し、前記複数の声質類似度及び前記複数の曲調類似度に基づいて前記一つの楽曲中の前記歌声の声質と類似する歌声を含み及び該一つの楽曲の曲調と類似する複数の楽曲の前記複数の識別情報をディスプレイ上に表示するステップと、
前記ディスプレイ上に表示された前記複数の識別情報の表示から、１以上の前記識別情報が選択されると、前記選択された前記識別情報の表示に対応する前記楽曲データを前記楽曲データ蓄積手段に蓄積された複数の前記楽曲データから抽出して楽曲データ再生手段で再生するステップとをコンピュータに実行させるように構成された楽曲検索用プログラム。