JP2006155157A

JP2006155157A - 自動選曲装置

Info

Publication number: JP2006155157A
Application number: JP2004343848A
Authority: JP
Inventors: Masahiro Yoshida; 昌弘吉田
Original assignee: Sanyo Electric Co Ltd
Current assignee: Sanyo Electric Co Ltd
Priority date: 2004-11-29
Filing date: 2004-11-29
Publication date: 2006-06-15

Abstract

【課題】この発明は、ユーザによる手入力が不要となる自動選曲装置を提供することを目的とする。
【解決手段】音楽の楽曲データとその曲の心理的な印象を表す空間の座標値である音楽感性空間座標値とが登録されているデータベース、ユーザの音声を検出する音声入力手段、音声入力手段によって検出された音声信号から、物理的特徴量を抽出する音声分析手段、音声分析手段によって抽出された物理的特徴量に基づいて、ユーザの感情を表す感情情報を生成する感情情報生成手段、感情情報生成手段によって得られた感情情報に基づいて、推奨する曲の心理的な印象を表す空間の座標値である音楽感性空間座標値を決定する感情情報／音楽感性空間座標変換手段、感情情報／音楽感性空間座標変換手段によって決定された音楽感性空間座標値に最も近い曲を、データベースから選曲する選曲手段、ならびに選曲手段によって選曲された曲を再生する再生手段を備えている。
【選択図】図１

Description

この発明は、カーオーディオ機器、ホームオーディオ機器等に利用される自動選曲装置に関する。

感性語によって音楽を検索するシステムが提案されている（「音楽感性空間を用いた感性語による音楽データベース検索システム」情報処理学会論文誌 Vol.42 No12 ２００１）。この従来の検索システムでは、データベース中の曲をマッピングするための検索空間をＳＤ法ならびに因子分析により生成する。また、データベースに新たな曲を登録する際には、ＧＡとニューラルネットワークにより構成された自動インデクシングシステムにより検索空間へのマッピングを行う。検索の際には、８つの感性語対の度合い（１〜７）をニューラルネットワークにユーザが入力することにより、ニューラルネットワークはそれらの入力に対応する感性空間中の座標を出力するので、検索システムはその出力座標値からユークリッド距離の最も近い曲から順番に検索候補としてユーザに提示を行う。

なお、感性語対として、「明るい−暗い」、「重い−軽い」、「かたい−やわらかい」、「安定−不安定」、「澄んだ−濁った」、「滑らか−歯切れのよい」、「激しい−穏やか」および「厚い−薄い」の８種類が使用されている。

従来の検索装置では、感性語対の度合いをユーザが手入力する必要があった。車に設置されたカーオーディオ機器にこのような検索装置を利用した場合には、ユーザによる入力を更に簡略化することが望まれる。
特開２００１−３０６５８０号公報「音楽感性空間を用いた感性語による音楽データベース検索システム」情報処理学会論文誌 Vol.42 No12

この発明は、感性語対の度合いをユーザが手入力しなくても、ユーザの現在の感情に適した曲を自動的に選曲できるようになる自動選曲装置を提供することを目的とする。

請求項１に記載の発明は、音楽の楽曲データとその曲の心理的な印象を表す空間の座標値である音楽感性空間座標値とが登録されているデータベース、ユーザの音声を検出する音声入力手段、音声入力手段によって検出された音声信号から、物理的特徴量を抽出する音声分析手段、音声分析手段によって抽出された物理的特徴量に基づいて、ユーザの感情を表す感情情報を生成する感情情報生成手段、感情情報生成手段によって得られた感情情報に基づいて、推奨する曲の心理的な印象を表す空間の座標値である音楽感性空間座標値を決定する感情情報／音楽感性空間座標変換手段、感情情報／音楽感性空間座標変換手段によって決定された音楽感性空間座標値に最も近い曲を、データベースから選曲する選曲手段、ならびに選曲手段によって選曲された曲を再生する再生手段を備えていることを特徴とする。

請求項２に記載の発明は、請求項１に記載の自動選曲装置において、聞きたい曲の曲印象値をユーザに入力させるための曲印象値入力手段、曲印象値入力手段によって入力された曲印象値に基づいて、推奨する曲の心理的な印象を表す空間の座標値である音楽感性空間座標値を決定する曲印象値／音楽感性空間座標変換手段、ならびに感情情報生成手段によって得られた感情情報を学習用入力信号とし、曲印象値／音楽感性空間座標変換手段によって得られた音楽感性空間座標値を教師信号として、感情情報／音楽感性空間座標変換手段を学習させる学習手段を備えていることを特徴とする。

請求項３に記載の発明は、音楽の楽曲データとそれに対応する感情空間座標値とが登録されているデータベース、ユーザの音声を検出する音声入力手段、音声入力手段によって検出された音声信号から、物理的特徴量を抽出する音声分析手段、音声分析手段によって抽出された物理的特徴量に基づいて、ユーザの感情を表す空間の座標値である感情空間座標値を生成する感情情報生成手段、感情情報生成手段によって生成された感情空間座標値に最も近い曲を、データベースから選曲する選曲手段、ならびに選曲手段によって選曲された曲を再生する再生手段を備えていることを特徴とする。

請求項４に記載の発明は、請求項１乃至３に記載の自動選曲装置において、音声入力手段によって検出された音声信号から、再生手段によって出力されかつ音声入力手段によって検出された音声信号成分を除去し、除去後の音声信号を音声分析手段に与える手段を備えていることを特徴とする。

この発明によれば、感性語対の度合いをユーザが手入力しなくても、ユーザの現在の感情に適した曲を自動的に選曲できるようになる。

以下、図面を参照して、この発明を音楽データベース検索システムに適用した場合の実施例について説明する。

まず、第１実施例について説明する。
〔１〕自動選曲装置の構成についての説明
図１は、自動選曲装置の構成を示している。

データベース部９には、複数の曲の楽曲データが登録されるとともに、各曲の音楽感性空間中の座標値が各曲のインデックス情報として登録されている。「音楽感性空間」は、曲の心理的な印象を表す空間であり、音楽感性に関する複数の因子軸を有する空間である。この例では、音楽感性に関する因子は３種類あり、因子軸も３種類あるものとする。

音声入力部１は、マイクロフォンおよびＡ／Ｄコンバータから構成されており、ユーザの音声を検出する。音声分析部（物理的特徴量抽出部）２は、音声入力部１によって検出された音声データ波形を解析し、周波数特性、ピッチ、振幅、立ち上がり強度等の物理的特徴量を抽出する。

感情推定部（感情情報生成手段）１０は、音声分析部２によって抽出された入力音声の物理的特徴量に基づいて、ユーザの感情を表す感情情報を生成する。感情推定部１０は、音声分析部２によって抽出された入力音声の物理的特徴量を、感情を表す「喜び−怒り」、「哀しみ−楽しみ」および「興奮−平常」の３種類の感性語対毎の感情値に変換する物理的特徴量／感情値変換部３と、物理的特徴量／感情値変換部３によって得られた３種類の感情値から、感情空間の座標値を求める感情値／感情空間座標変換部４とを備えている。「感情空間」は、感情を表す空間であり、感情に関する複数の因子軸を有する空間である。この例では、感情に関する因子は３種類あり、因子軸も３種類あるものとする。物理的特徴量／感情値変換部３としては、回帰式に基づいて変換を行うものが用いられる。感情値／感情空間座標変換部４としてはニューラルネットワークが用いられる。

音楽感性空間推奨座標決定部５は、音楽感性空間推奨座標決定ルール記録部６に記録されたルールに基づいて、感情推定部１０内の感情値／感情空間座標変換部４によって得られた感情空間の座標値を、音楽感性空間の座標値に変換する。音楽感性空間推奨座標決定部５としてはニューラルネットワークが用いられる。選曲部７は、音楽感性空間推奨座標決定部５によって得られた音楽感性空間の座標値と、データベース部９に記録されている各登録曲の音楽感性空間の座標値とを比較し、空間距離が最も近い曲を選曲する。つまり、空間距離が最も近い曲の楽曲データをデータベース部９から読み出して、再生部８に送る。再生部８は、Ｄ／Ａコンバータおよびスピーカから構成されており、選曲部７によって選曲された曲を再生する。

以下、データベースの構築方法、感情推定部１０の学習方法、音楽感性空間推奨座標決定部５の学習方法等について説明する。

〔２〕データベース構築についての説明
図２は、データベースの構築方法を説明するための説明図である。

１０１は、聴取実験に基づいて、サンプル曲に対する音楽感性空間座標値を生成するとともに教師信号を生成する初期学習教師信号生成部である。１０２は、データベース部９に追加したい曲の音楽感性空間座標値を自動的に算出するための自動インデクシング部である。

〔２−１〕初期学習教師信号生成部１０１についての説明
初期学習教師信号生成部１０１は、聴取実験に基づいてサンプル曲に対する曲印象値を算出する曲印象評価部１１１と、曲印象評価部１１１によって得られた曲印象値を用いて因子分析を行う因子分析部１１２とを備えている。

曲印象評価部１１１について説明する。複数の被験者に対して、１００曲のサンプル曲を提示し、曲印象を表す複数の感性語対それぞれに対して７段階評価を行ってもらった。曲印象を表す感性語対としては、「明るい−暗い」、「重い−軽い」、「安定−不安定」および「力強い−弱々しい」の４種類を用いた。

この実験結果から、各サンプル曲それぞれについて、各感性語対毎の曲印象値を算出した。各感性語対毎の曲印象値は、その感性語対の評価値の平均値で表される。

因子分析部１１２は、各サンプル曲の各感性語対毎の曲印象値を多変量とする因子分析を行い、各サンプル曲毎に、各因子を軸とした、曲印象の心理的な相関を表す空間（音楽感性空間）の座標データを得る。このように、音楽感性空間は、音楽感性に関する複数の因子軸を有する空間である。この例では、音楽感性に関する因子は３種類あり、因子軸も３種類あるものとする。

データベース部９には、各曲の楽曲データが登録されるとともに、各曲の感性空間中の座標値が各曲のインデックス情報として登録される。

〔２−２〕自動インデクシング部１０２についての説明
自動インデクシング部１０２は、新規登録曲を解析して、テンポ、リズム、周波数等の物理的特徴量を抽出する物理的特徴量抽出部１２１と、物理的特徴量抽出部１２１によって抽出された物理的特徴量を各感性語対毎の曲印象値に変換する物理的特徴量／曲印象値変換部１２２と、物理的特徴量／曲印象値変換部１２２によって得られた各感性語対毎の曲印象値を音楽感性空間座標値に変換する曲印象値／音楽感性空間座標変換部１２３とを備えている。

自動インデクシング部１０２によって得られた新規登録曲の音楽感性空間座標値は、新規登録曲の曲データとともに、データベース部９に登録される。

図３は、自動インデクシング部１０２の構成をより具体的に示している。
物理的特徴量／曲印象値変換部１２２は、「明るい−暗い」、「重い−軽い」、「安定−不安定」および「力強い−弱々しい」の４種類の感性語対それぞれに対応する回帰分析部１２２ａ〜１２２ｄから構成されている。曲印象値／音楽感性空間座標変換部１２３は、ニューラルネットワークから構成されている。

物理的特徴量／曲印象値変換部１２２内の各回帰分析部１２２ａ〜１２２ｄには、それぞれに対応する感性語対に関係した複数の物理的特徴量が入力される。各回帰分析部１２２ａ〜１２２ｄに入力される物理特徴量の種類は予め定められている。

各回帰分析部１２２ａ〜１２２ｄは、次の回帰式（１）に基づいて、物理的特徴量を対応する感性語対の曲印象値に変換する。

上記式（１）において、ＯＵＴは、当該回帰分析部の出力値であり、当該回帰分析部に対応する感性語対に関する曲印象値の推定値を表している。Ｉｎ〔ｋ〕は、当該回帰分析部に入力するｋ番目の物理的特徴量を表している。Ｗ〔ｋ〕は、Ｉｎ〔ｋ〕に対する重み係数である。Ｗ〔０〕は、重み係数である。

上記式（１）の各重み係数Ｗ〔ｋ〕，Ｗ〔０〕は、上述したサンプル曲を用いた聴取実験結果と、それに用いられた各サンプル曲の物理的特徴量に基づいて予め求められている。重み係数Ｗ〔ｋ〕，Ｗ〔０〕は、次のようにして決定される。上述した聴取実験結果、つまり、各サンプル曲毎に求められた感性語対毎の曲印象値を教師信号（出力値ＯＵＴ）とする。また、各サンプル曲毎に物理的特徴量抽出部１２１によって抽出された物理的特徴量を入力値Ｉｎとする。そして、全曲それぞれに対する回帰分析結果が、その曲に対する教師信号に最も近い値となるような重み係数Ｗ〔ｋ〕，Ｗ〔０〕を算出する。

曲印象値／音楽感性空間座標変換部１２３を構成するニューラルネットワークの学習について説明する。学習時の入力信号は、上述した聴取実験結果、つまり、各サンプル曲毎に求められた感性語対毎の曲印象値である。学習時の教師信号は、因子分析部１１２によって得られた各サンプル曲の音楽感性空間座標値（各因子軸の座標値）である。この学習により、ニューラルネットワークの内部状態が決定される。

〔３〕感情推定部１０の学習方法についての説明
図４は、感情推定部１０の学習方法を説明するための説明図である。

２０１は、聴取実験に基づいて感情推定部１０の教師信号を生成する初期学習教師信号生成部である。２０２は、音声入力部１から入力された音声に対して感情空間座標値を自動的に算出するための自動インデクシング部である。自動インデクシング部２０２は、図１の音声分析部（物理的特徴量抽出部）２と、感情推定部１０を構成する物理的特徴量／感情値変換部３および感情値／感情空間座標変換部４とからなる。

〔３−１〕初期学習教師信号生成部２０１についての説明
初期学習教師信号生成部２０１は、聴取実験に基づいてサンプル音声に対する感情値を算出する感情評価部２１１と、感情評価部２１１によって得られた感情値を用いて因子分析を行う因子分析部２１２とを備えている。

感情評価部２１１について説明する。複数の被験者に対して、２００種類のサンプル音声を提示し、感情を表す複数の感性語対それぞれに対して７段階評価を行ってもらった。感情を表す感性語対としては、「喜び−怒り」、「哀しみ−楽しみ」および「興奮−平常」の３種類を用いた。

この実験結果から、各サンプル音声それぞれについて、各感性語対毎の感情値を算出した。各感性語対毎の感情値は、その感性語対の感情値の平均値で表される。

因子分析部２１２は、各サンプル音声の各感性語対毎の感情値を多変量とする因子分析を行い、各サンプル音声毎に、各因子を軸とした、感情を表す空間（感情空間）の座標データを得る。このように、感情空間は、感情に関する複数の因子軸を有する空間である。この例では、感情に関する因子は３種類あり、因子軸も３種類あるものとする。

〔３−２〕自動インデクシング部２０２についての説明
図５は、自動インデクシング部２０２の構成をより具体的に示している。

物理的特徴量／感情値変換部３は、「喜び−怒り」、「哀しみ−楽しみ」および「興奮−平常」の３種類の感性語対それぞれに対応する回帰分析部２２２ａ〜２２２ｃから構成されている。感情値／感情空間座標変換部４は、ニューラルネットワークから構成されている。

物理的特徴量／感情値変換部３内の各回帰分析部２２２ａ〜２２２ｃには、それぞれに対応する感性語対に関係した複数の物理的特徴量が入力される。各回帰分析部２２２ａ〜２２２ｃに入力される物理特徴量の種類は予め定められている。

各回帰分析部２２２ａ〜２２２ｃは、次の回帰式（２）に基づいて、物理的特徴量を対応する感性語対の曲印象値に変換する。

上記式（２）において、ＯＵＴは、当該回帰分析部の出力値であり、当該回帰分析部に対応する感性語対に関する感情の推定値を表している。Ｉｎ〔ｋ〕は、当該回帰分析部に入力するｋ番目の物理的特徴量を表している。Ｗ〔ｋ〕は、Ｉｎ〔ｋ〕に対する重み係数である。Ｗ〔０〕は、重み係数である。

上記式（２）の各重み係数Ｗ〔ｋ〕，Ｗ〔０〕は、上述したサンプル音声を用いた聴取実験結果と、それに用いられた各サンプル音声の物理的特徴量に基づいて予め求められている。重み係数Ｗ〔ｋ〕，Ｗ〔０〕は、次のようにして決定される。上述した聴取実験結果、つまり、各サンプル音声毎に求められた感性語対毎の感情値を教師信号（出力値ＯＵＴ）とする。また、各サンプル音声毎に物理的特徴量抽出部２によって抽出された物理的特徴量を入力値Ｉｎとする。そして、全サンプル音声それぞれに対する回帰分析結果が、そのサンプル音声に対する教師信号に最も近い値となるような重み係数Ｗ〔ｋ〕，Ｗ〔０〕を算出する。

感情値／感情空間座標変換部４を構成するニューラルネットワークの学習について説明する。学習時の入力信号は、上述した聴取実験結果、つまり、各サンプル音声毎に求められた感性語対毎の感情値である。学習時の教師信号は、因子分析部２１２によって得られた各サンプル音声の感情空間座標値（各因子軸の座標値）である。この学習により、ニューラルネットワークの内部状態が決定される。

〔４〕音楽感性空間推奨座標決定部５の学習方法についての説明
音楽感性空間推奨座標決定部５を構成するニューラルネットワークの学習について説明する。

複数の被験者に対して、「喜び−怒り」、「哀しみ−楽しみ」および「興奮−平常」の３種類の感性語対で表現できる、感情の各状態において、聞きたい曲の曲印象値を、アンケート調査した。曲印象値としては、「明るい−暗い」、「重い−軽い」、「安定−不安定」および「力強い−弱々しい」の４種類の感性語対の曲印象値（各７段階）を用いた。この実験結果から、感情の各状態それぞれについて、各感性語対毎の曲印象値を算出した。各感性語対毎の曲印象値は、その感性語対の評価値の平均値で表される。

なお、複数の被験者に対して、「喜び−怒り」、「哀しみ−楽しみ」および「興奮−平常」の３種類の感性語対で表現できる、感情の各状態において、聞きたい曲を予め４種類の感性語対の曲印象値が分かっているサンプル曲から選択してもらってもよい。また、心理学や音楽に詳しい専門家に用途などを考慮し、推奨する印象値を決定してもらってもよい。

上記感情の各状態毎に、その状態に対応する「喜び−怒り」、「哀しみ−楽しみ」および「興奮−平常」の３種類の感性語対の感情値を、感情推定部１０内の感情値／感情空間座標変換部４によって、感情空間座標値に変換する。そして、得られた上記感情の各状態に対応する感情空間座標値を、音楽感性空間推奨座標決定部５を構成するニューラルネットワークの学習時の入力信号とする。

また、上記感情の各状態に対して、回答として得られた「明るい−暗い」、「重い−軽い」、「安定−不安定」および「力強い−弱々しい」の４種類の感性語対の曲印象値を、図２の曲印象値／音楽感性空間座標変換部１２３によって、音楽感性空間座標に変換する。そして、得られた上記感情の各状態に対応する音楽感性空間座標値を、音楽感性空間推奨座標決定部５を構成するニューラルネットワークの学習時の教師信号とする。

このようにしてニューラルネットワークの学習を行ない、学習により得られたニューラルネットワークの係数を音楽感性空間推奨座標決定ルール記録部６に記憶させておく。
上記第１実施例では、音声入力部１によって検出されたユーザの音声からユーザの現在の感情が推定され、推定されたユーザの現在の感情に適した曲が自動的に選曲されるようになる。

図６は、第２実施例を示している。図６において、図１と同じものには同じ符号を付してある。

第２実施例では、第１実施例に比べて、曲印象値入力部２１、曲印象値／音楽感性空間座標値変換部２２、入力切替部２３および学習部２４が追加されている。入力切替部２３は、ユーザからの指示に基づいて、第１実施例のように音楽感性空間推奨座標決定部５からの音楽感性空間座標値を選曲部７に送るか、または曲印象値／音楽感性空間座標値変換部２２からの音楽感性空間座標値を選曲部７に送るかを切り替えるものである。

曲印象値／音楽感性空間座標値変換部２２からの音楽感性空間座標値を選曲部７に送るように入力切替部２３が切り替えられた場合の動作について説明する。この場合には、ユーザが直接入力した曲印象値に基づいて、選曲が行われる。

具体的には、曲印象値入力部２１には、「明るい−暗い」、「重い−軽い」、「安定−不安定」および「力強い−弱々しい」の４種類の感性語対の曲印象値がユーザによって入力される。曲印象値入力部２１に入力された曲印象値は、曲印象値／音楽感性空間座標値変換部２２によって感性空間座標値に変換される。曲印象値／音楽感性空間座標値変換部２２は、図２において説明した曲印象値／音楽感性空間座標値変換部１２３と同じものを用いることができる。曲印象値／音楽感性空間座標値変換部２２によって得られた感性空間座標値は、入力切替部２３を介して、選曲部７に送られる。

選曲部７は、曲印象値／音楽感性空間座標値変換部２２によって得られた感性空間座標値と、データベース部９に記録されている各登録曲の音楽感性空間の座標値とを比較し、空間距離が最も近い曲を選曲する。つまり、空間距離が最も近い曲の楽曲データをデータベース部９から読み出して、再生部８に送る。再生部８は、選曲部７によって選曲された曲を再生する。

なお、曲印象値入力部２１に入力された曲印象値を用いて選曲を行っている場合には、学習部２４は、音声入力部１に入力されたユーザの音声と、曲印象値入力部２１に入力された曲印象値とに基づいて、音楽感性推奨座標決定部５を構成するニューラルネットワークを再学習させて、音楽感性推奨座標決定ルール記録部６内に記憶されている当該ニューラルネットワークの係数を更新させる。

具体的には、音声入力部１に入力されたユーザの音声に対して感情推定部１０によって得られる感情空間座標値を上記ニューラルネットワーク（音楽感性推奨座標決定部５）の入力とし、曲印象値入力部２１に入力された曲印象値に対して曲印象値／音楽感性空間座標値変換部２２によって得られた感性空間座標値を上記ニューラルネットワークの教師信号として、上記ニューラルネットワークを再学習させる。

図７は、第３実施例を示している。図７において、図１と同じものには同じ符号を付してある。

第３実施例では、第１実施例と比べてデータベース部９Ａに登録されているインデックス情報の種類が異なるとともに、感性空間推奨座標決定部５が省略されている。

第１実施例では、データベース部９には、複数の曲の楽曲データが登録されるとともに、各曲の音楽感性空間中の座標値が各曲のインデックス情報として登録されていた。第３実施例では、データベース部９Ａに、各曲の楽曲データが登録されるとともに、各曲に対応する感情空間座標値が各曲のインデックス情報として登録されている。

各曲に対応する感情空間座標値は、第１実施例のデータベース部９に登録されていた各曲の音楽感性空間中の座標値を、第１実施例の音楽感性推奨座標決定部５による変換処理とは、逆の変換処理を行うことにより求められる。

選曲部７Ａには、感情推定部１０によって得られた入力音声に対応する感情空間座標値が入力される。選曲部７Ａは、感情推定部１０によって得られた入力音声に対応する感情空間座標値と、データベース部９Ａに記録されている各登録曲に対応する感情空間座標値とを比較し、空間距離が最も近い曲を選曲する。つまり、空間距離が最も近い曲の楽曲データをデータベース部９Ａから読み出して、再生部８に送る。再生部８は、選曲部７Ａによって選曲された曲を再生する。

図８は、第４実施例を示している。図８において、図１と同じものには同じ符号を付してある。

音声入力部１は、マイクロフォン３１およびＡ／Ｄコンバータ３２から構成されている。再生部８は、Ｄ／Ａコンバータ４１およびスピーカ４２から構成されている。

音声入力部１には、ユーザの音声とともに、再生部８から出力されている音楽も入力される。ユーザの音声から感情を精度よく推定するためには、音声入力部１によって検出される音声信号から、再生部８から出力されている音楽の信号を除去する必要がある。

そこで、第４実施例では、音声入力部１によって検出される音声信号から、再生部８から出力されている音楽の信号を除去するために、ＦＩＲフィルタ５１およびＦＩＲフィルタ５１のフィルタ係数を適応的に更新するフィルタ係数更新部５２とが設けられている。

さらに、この例では、このように構成した自動選曲装置３００の音声入力部１および再生部８を、携帯型電話機４００のハンズフリー通話を行う装置として利用している。つまり、音声分析部２の入力端子を携帯型電話機４００の音声入力端子に接続するとともに、選曲部７の出力端子を携帯型電話機４００の音声出力端子に接続する。

自動選曲装置３００の音声入力部１および再生部８を、携帯型電話機４００のハンズフリー通話を行う装置として利用した場合、ＦＩＲフィルタ５１はエコーキャンセラとして利用することが可能となる。しかも、ＦＩＲフィルタ５１のフィルタ係数は常に最適な係数を保持しているため、エコーキャンセラのための初期計算が不要である。さらに、携帯型電話機４００への音楽信号の混入も防ぐことが可能である。

また、携帯型電話機４００と自動選曲装置３００との併用により、携帯電話機４００による通話時の会話を基に、バックミュージックの自動選曲、多重送信などが可能となり、相乗効果が期待できる。

第１実施例による自動選曲装置の構成を示すブロック図である。データベースの構築方法を説明するための説明図である。自動インデクシング部１０２の構成をより具体的に示すブロック図である。感情推定部１０の学習方法を説明するための説明図である。自動インデクシング部２０２の構成をより具体的に示している。第２実施例による自動選曲装置の構成を示すブロック図である。第３実施例による自動選曲装置の構成を示すブロック図である。第４実施例による自動選曲装置の構成を示すブロック図である。

符号の説明

１音声入力部
２音声分析部（物理的特徴量抽出部）
３物理的特徴量／感情値変換部
４感情値／感情空間座標変換部
５音楽感性空間推奨座標決定部
６音楽感性空間推奨座標決定ルール記録部
７，７Ａ選曲部
８再生部
９，９Ａデータベース部
１０感情推定部
２１曲印象値入力部
２２曲印象値／音楽感性空間座標値変換部
２３入力切替部
２４学習部

Claims

音楽の楽曲データとその曲の心理的な印象を表す空間の座標値である音楽感性空間座標値とが登録されているデータベース、
ユーザの音声を検出する音声入力手段、音声入力手段によって検出された音声信号から、物理的特徴量を抽出する音声分析手段、音声分析手段によって抽出された物理的特徴量に基づいて、ユーザの感情を表す感情情報を生成する感情情報生成手段、
感情情報生成手段によって得られた感情情報に基づいて、推奨する曲の心理的な印象を表す空間の座標値である音楽感性空間座標値を決定する感情情報／音楽感性空間座標変換手段、
感情情報／音楽感性空間座標変換手段によって決定された音楽感性空間座標値に最も近い曲を、データベースから選曲する選曲手段、ならびに
選曲手段によって選曲された曲を再生する再生手段、
を備えていることを特徴とする自動選曲装置。
聞きたい曲の曲印象値をユーザに入力させるための曲印象値入力手段、
曲印象値入力手段によって入力された曲印象値に基づいて、推奨する曲の心理的な印象を表す空間の座標値である音楽感性空間座標値を決定する曲印象値／音楽感性空間座標変換手段、ならびに
感情情報生成手段によって得られた感情情報を学習用入力信号とし、曲印象値／音楽感性空間座標変換手段によって得られた音楽感性空間座標値を教師信号として、感情情報／音楽感性空間座標変換手段を学習させる学習手段、
を備えていることを特徴とする請求項１に記載の自動選曲装置。
音楽の楽曲データとそれに対応する感情空間座標値とが登録されているデータベース、
ユーザの音声を検出する音声入力手段、音声入力手段によって検出された音声信号から、物理的特徴量を抽出する音声分析手段、音声分析手段によって抽出された物理的特徴量に基づいて、ユーザの感情を表す空間の座標値である感情空間座標値を生成する感情情報生成手段、
感情情報生成手段によって生成された感情空間座標値に最も近い曲を、データベースから選曲する選曲手段、ならびに
選曲手段によって選曲された曲を再生する再生手段、
を備えていることを特徴とする自動選曲装置。
音声入力手段によって検出された音声信号から、再生手段によって出力されかつ音声入力手段によって検出された音声信号成分を除去し、除去後の音声信号を音声分析手段に与える手段を備えていることを特徴とする請求項１、２および３のいずれかに記載の自動選曲装置。