JP3697515B2 - Music impression scale evaluation value automatic assigning device - Google Patents

Music impression scale evaluation value automatic assigning device Download PDF

Info

Publication number
JP3697515B2
JP3697515B2 JP2002283389A JP2002283389A JP3697515B2 JP 3697515 B2 JP3697515 B2 JP 3697515B2 JP 2002283389 A JP2002283389 A JP 2002283389A JP 2002283389 A JP2002283389 A JP 2002283389A JP 3697515 B2 JP3697515 B2 JP 3697515B2
Authority
JP
Japan
Prior art keywords
music
impression
evaluation value
gram
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2002283389A
Other languages
Japanese (ja)
Other versions
JP2004118010A (en
Inventor
忠彦 熊本
公子 内元
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Information and Communications Technology
Original Assignee
National Institute of Information and Communications Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Information and Communications Technology filed Critical National Institute of Information and Communications Technology
Priority to JP2002283389A priority Critical patent/JP3697515B2/en
Publication of JP2004118010A publication Critical patent/JP2004118010A/en
Application granted granted Critical
Publication of JP3697515B2 publication Critical patent/JP3697515B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Electrophonic Musical Instruments (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、楽曲データの処理装置に関するものであり、特に楽曲データから該楽曲の印象尺度評価値を自動的に付与する装置に関わる。
【0002】
【従来の技術】
音楽などの芸術作品に対する評価、例えばその作品に対する印象を決定することは、従来コンピュータなどの処理にはなじまないと考えられていた。そのため、例えば楽曲の印象によって作品の印象を分類するとしても、分類作業自体は人間が行うものであった。従って、まったく新しい楽曲に対して新しい印象値をコンピュータによって付与することが課題となっている。
【0003】
本件出願人らをはじめとして、従来までの研究によると、コンピュータにおいて楽曲印象尺度評価値を自動的に付与するということは、コンピュータが処理可能な楽曲データから、どのような楽曲特徴量を抽出し、どのような計算式を用いて、どのような楽曲印象尺度評価値を出力するのか、という問題を中心に議論が進められている。
ここで、楽曲印象尺度評価値とは、楽曲印象を所定の印象尺度に基づいて数値化したものであり、楽曲特徴量とは、楽曲データから抽出し、楽曲印象尺度評価値を計算するために用いられる物理的特徴量を指している。
【0004】
従って、上記の課題は楽曲印象尺度評価値の設計、楽曲特徴量の設計、楽曲印象尺度評価値計算式の設計についての技術的課題と言うことができ、いくつかの研究が行われてきたが、いずれも断片的なものにとどまり、未だに全体的な設計が行われて的確な楽曲印象尺度評価値を自動的に付与する装置は提供されていない。
【0005】
例えば、楽曲印象尺度評価値の設計において、非特許文献1によれば、SD(Semantic Differential)法に基づく主観評価実験データに対する因子分析の結果から、音楽感性空間と呼ばれる5次元の因子空間を構成し、ユーザが入力する印象と楽曲が有する印象とをこの空間内の座標値として表している。
【0006】
しかしながら、因子軸の意味の解釈は人手によるので個人差があり、楽曲に付与された座標値が実際にどのような印象を表しているのかを端的に示すことは難しい。また、楽曲の印象を1つの点で表しているため、すべての印象尺度(非特許文献1のシステムでは8個)に何らかの値を入力しなければならず、印象尺度に対する評価として「どちらでもない(楽曲印象尺度評価値が不定な状態)」を認めていない。
そのため、明るい楽曲を検索するつもりで、明るさに関する印象尺度の評価を「明るい」にしても、実際には明るさ以外の印象尺度に対して「どちらとも言えない」に相当する値(1点〜7点の7段階評価では4点)を持つ楽曲が検索されることになる。
【0007】
【非特許文献1】
池添剛、梶川嘉延、野村康雄:「音楽感性空間を用いた感性語による音楽データベース検索システム」 情処学論,42,12,pp.3201-3212(2001)
【0008】
また、楽曲特徴量の設計においては、非特許文献1〜3に発表された研究などがある。これらの研究をはじめとする従来の楽曲データを対象とする楽曲検索研究では、楽曲特徴量として、音の高さや強さ、長さ、リズムやテンポ、拍子、調性(短調/長調)等の音楽構成要素に対する平均や分散、時間的割合といった静的な特徴量を用いていることが多い。
しかしながら、本来時系列データである楽曲を静的な特徴量だけで表現するのは本質的に限界があるものと考えられる。
【0009】
【非特許文献2】
佐藤聡、菊地幸平、北上始:「音楽データを対象としたイメージ検索のための感情価の自動生成」、情処研報,データベースシステム118-8,情報学基礎54-8,pp.57-64(1999)
【非特許文献3】
佐藤聡、小川潤、堀野義博、北上始:「感情に基づく音楽作品検索システムの実現に向けての検討」、信学技報(音声),SP2000-137,pp.51-56(2001)
【0010】
従来研究(非特許文献2〜4)でも、このような音の時間的推移を考慮した特徴量として、連続する3音の音の高さや長さの推移をパターン化したものなどが提案されているが、連続する音の数が一定であり、限定的な時間推移しか取り扱えなかった。
【0011】
【非特許文献4】
辻康博、星守、大森匡:「曲の局所パターン特徴量を用いた類似曲検索・感性語による検索」、信学技報(音声),SP96-124,pp.17-24(1997)
【0012】
【発明が解決しようとする課題】
本発明は上記従来の技術が有する問題に鑑みて創出されたものであって、楽曲データを用いて楽曲印象尺度評価値を自動的に付与する楽曲印象尺度評価値自動付与装置を提供することを課題とし、特に高精度な楽曲印象尺度評価値の付与技術の提供を目的とする。
【0013】
【問題を解決するための手段】
本発明は上記課題の解決を図るため、次のような手段を創出した。
すなわち、少なくともコンピュータ処理が可能な所定のデータ規格に基づく楽曲データに対して、当該楽曲が有する印象を所定の印象尺度における評価値として自動的に数値化し、付与する楽曲印象尺度評価値自動付与装置を提供する。
本装置は、楽曲データを入力する入力手段と、楽曲データにおける、楽曲印象に係る物理的特徴量である楽曲基本特徴量を抽出する楽曲基本特徴量抽出手段を備える。そして、楽曲基本特徴量から、Nグラムを生成するNグラム生成手段と、異なりNグラムを用いてNグラム特徴量を生成するNグラム特徴量生成手段を備える。
【0014】
予め、複数の楽曲からNグラム特徴量と被験者による印象尺度に基づく評価値である印象値データとを用い、該Nグラム特徴量を説明変数、該印象値データを目的変数として重回帰式を構成し、該重回帰式を楽曲印象尺度評価値計算式として外部記憶手段に備えておく。
さらに、入力した楽曲データのNグラム特徴量に対して該楽曲印象尺度評価値計算式による演算を行う楽曲印象尺度評価値演算手段と、楽曲印象尺度評価値を出力する出力手段とを備える。
【0015】
ここで、前記Nグラム特徴量生成手段が、前記異なりNグラムの相対出現頻度と、所定の重み値を乗じてNグラム特徴量を生成してもよい。
【0016】
楽曲印象尺度評価値自動付与装置が、複数の印象尺度についての評価値を付与する構成において、Nグラム特徴量生成手段が、印象尺度毎にNグラム特徴量を生成すると共に、楽曲印象尺度評価値演算手段とが、該印象尺度毎に、該Nグラム特徴量を用いて演算を行う構成でもよい。
【0017】
前記データ規格が、MIDI(musical instrument digital interface)規格であってもよい。
【0018】
本発明の楽曲印象尺度評価値自動付与装置は、入力手段から楽曲データを入力し、楽曲データが含む複数のトラックチャンク及び/又はチャネルを分割し、各トラックチャンク及び/又はチャネル毎に楽曲基本特徴量抽出手段に出力するストリーム分割手段を備えてもよい。
【0019】
楽曲基本特徴量が、音の高さ、音の強さ、音の長さ、音色情報とすることができる。
【0020】
前記Nグラム特徴量生成手段において、複数のN値についてNグラム特徴量を生成する構成でもよい。
【0021】
印象尺度に、「静かな」・「落ち着いた」・「爽やかな」・「明るい」・「荘厳な」・「ゆったりとした」・「綺麗な」・「楽しい」・「気持ちが落ち着く」・「心が癒される」の少なくともいずれかの文言、又はその同意語、又はその反意語としてもよい。
【0022】
【発明の実施の形態】
本発明の実施形態を図面に示した実施例に基づいて説明する。なお、実施形態は、本発明の主旨から逸脱しないかぎり適宜変更可能なものである。
図1には本発明による楽曲印象尺度評価値自動付与装置(以下、本装置と呼ぶ。)の構成図を示すと共に、図2に該装置における処理のフローチャートを示す。
【0023】
本装置(1)は、主に演算等の処理を司る中核であるCPU(2)と、ユーザーに対して処理内容や結果を示す表示装置であるモニタ(3)、ユーザーが本装置(1)の操作を行うキーボード(4)、及びCPUと連動して作用するメモリ(5)や、データを記憶可能な外部記憶装置(6)から構成される。
このような構成の装置として公知のパーソナルコンピュータがあり、本装置(1)はパーソナルコンピュータ上に実装することが可能である。
【0024】
このような本装置(1)を用い、本発明では標準MIDIファイルを入力し、自動的に楽曲印象尺度評価値を付与し、それを出力する技術を創出した。各処理は図2に示す通りであり、標準MIDIファイル(20)から楽曲の印象に係る物理的特徴量である楽曲基本特徴量を抽出(21)し、それを用いて連続する楽曲基本特徴量の組み合わせからNグラムを生成した後、必要に応じ、重みや出現頻度を用いてNグラム特徴量を生成する。(22)
楽曲の特徴を表すのに有効なものを選択して楽曲特徴量の抽出(23)を行い、楽曲印象尺度評価値計算式に用いる。この演算処理を行うことで、本発明が目的とする楽曲印象尺度評価値(25)が算出される。
本実施例において、 出力される。
次に各処理について詳述する。
【0025】
標準MIDIファイル(20)は、本装置(1)に備えた外部記憶手段に楽曲MIDIデータ(7)として記録されている。図1においては別体としているが、同じく外部記憶手段であるハードディスク(6)内に記録してもよいし、ネットワーク接続された別のコンピュータにおける外部記憶手段に記録してもよい。
CPU(2)は楽曲データ入力部(9)の処理によって楽曲MIDIデータ(7)を読み出し、楽曲基本特徴量抽出部(10)に送る。
【0026】
楽曲基本特徴量抽出部(10)において、標準MIDIファイル形式(フォーマット0または1)のデータ(7)から各トラックチャンク及び各チャネル毎に楽曲基本特徴量を抽出するストリーム分割機能を有する。標準MIDIデータ(7)の場合には、トラックチャンク及びチャネルが並列的に記載されているため、各ストリームを別個に切り分けて抽出し、それぞれを1つのストリームデータとする。
【0027】
例えば、1トラックチャンク・3チャネルの楽曲からは3つのストリームデータが生成される。本実施例において、抽出される楽曲基本特徴量は、音の高さ、音の強さ、音の長さ、音色情報の4種類であり、それぞれノートナンバー値、オンベロシティ値、ノートオンメッセージからノートオフメッセージが到着するまでの時間(ミリ秒)、GM(General MIDI)規格に基づく音色番号に対応している。
【0028】
ここで、楽曲基本特徴量の抽出例としてストリームデータの一例を図3に示す。ストリームデータ(30)において、各行の第1列が音の長さ(31)、第2列が音の高さ(32)、第3列が音の強さ(33)、第4列が音色情報(34)に対応している。
また、同一トラックチャンク同一チャネルにおいて、2音以上が同時に発音している場合を「和音」と定義し、和音がある場合は、2音目以降の楽曲基本特徴量(音の長さを除く)を第5列以降(35)(36)(37)に繰り返し記述する。
各チャネルにおいて、そのチャネル(例えば38)の無音状態を休符と定義し、音の長さを0、音の長さ以外を記号「s」で表す。
このように楽曲基本特徴量抽出部(10)で抽出されたデータは、ハードディスク(6)に記録される。
【0029】
Nグラム特徴量の生成(22)は、Nグラム生成部(11)及びNグラム特徴量生成部(12)において処理する。Nグラム特徴量は、後処理で用いる楽曲特徴量の候補となる特徴量であり、以下の手順で楽曲基本特徴量から生成される。
まず、Nグラム生成部(11)では、ハードディスク(6)上の楽曲基本特徴量データを用い、各ストリ−ムデータから4種類の楽曲基本特徴量を分離し、音色情報からはunigram(1グラム、N=1)を、それ以外の特徴量からはNグラム(N=1,2,3,4,5)を生成する。
【0030】
例えば、図3に示されたストリームデータ(30)の音の高さからは図4のようなNグラム(40)(41)(42)(43)(44)が生成される。なお、和音(39a)(39b)(39c)は、値の大きい順に並べ替えられ、リスト形式の入れ子(45)として記述される。
生成された結果はハードディスク(6)などに記録する。
【0031】
次に、Nグラム特徴量生成部(12)において、音色情報以外の楽曲基本特徴量から生成されたNグラムの各要素(x12・・xN)を表1、表2の抽象化ルールに基づいて置換する。
【0032】
【表1】

Figure 0003697515
【0033】
【表2】
Figure 0003697515
【0034】
表1のルールは、各Nグラムの第1要素x1に適用され、楽曲基本特徴量の種類に応じてその要素を置換する。このとき、リスト形式の入れ子を1つの記号(例えば79-71-62(45))で記述するとともに、楽曲基本特徴量の種類を示すためのタグとして、音の高さならh、音の強さならv、音の長さならd) を付加する(例えばh79-71-62)。
【0035】
一方、表2のルールは、各Nグラムの第2要素以降xi(i=2,3,・・・,N)に適用され、その直前の要素xi-1との比較結果に応じてxiを対応する記号で置換する。
このとき、xi-1とxiの比較は、それぞれの最大値同士、最小値同士で行われるが、和音以外では最大値=最小値として扱われる。
以上の処理の結果、例えば、図4のNグラムは抽象化され、図5のようになる。
【0036】
以上のようにして抽象化されたNグラムの異なりNグラムを、本発明では「Nグラム特徴量」と呼ぶ。そして、それぞれのNグラム特徴量は、その相対出現頻度に重みwを掛けたものを値として持つ。
但し、相対出現頻度は、楽曲基本特徴量の種類毎、Nグラム統計量のN値毎に計算され、小数点第4位で四捨五入される。例えば、図5のbigram(50)からは4つのNグラム特徴量が生成され、(hs sx)(51)(52)の相対出現頻度は0.400、それ以外(53)(54)(55)の相対出現頻度は0.200となる。
【0037】
一方、重みwには表3に示すような3種類の重み付け方法を用意した。
本発明では以上のNグラム生成部(11)及びNグラム特徴量生成部(12)における処理によって、Nグラム特徴量を生成し、ハードディスク(6)に記録する。もっとも、本発明のNグラム特徴量生成プロセスは、上記の構成による相対出現頻度や重みを用いることに限定されるものではなく、公知のNグラム統計量の算出方法から逸脱しない範囲で任意に設定することができる。
【0038】
【表3】
Figure 0003697515
【0039】
ここで、本発明の楽曲印象尺度評価値自動付与装置(1)は、前記した楽曲特徴量及び楽曲印象尺度評価値計算式を決めるため、具体的には、図6に示した設計手順に従って設計している。図に明らかなように、本設計手順は、本装置(1)を使用する際と極めて近い工程を含んでいる。以下、この流れに沿って、各手順を説明する。
楽曲が有する印象を数値化する際の基準となるデータを得るために、SD法に基づく主観評価実験(65)として、以下のような印象評価実験を行った。
【0040】
被験者は、男性39名、女性61名の計100名であり、プロレベル(演奏家としての収入があるような人)1名、セミプロレベル(音楽大学などで専門的に勉強したような人)7名、アマチュアレベル(バンドやオーケストラ、合唱団などに入っているような人)20名、趣味レベル(以上の条件には該当しないけれども一応演奏できるような人)46名、未経験者(ほとんど演奏できないような人)26名と音楽経験が豊かでない人も多数含まれている。
【0041】
印象に基づく楽曲検索は、音楽経験の豊富な人というよりも、そうでない人に対して特に有効な検索手段であり、そういう人の音楽感性を反映したデータを利用することは本装置(1)を設計する上で重要なことと言える。
また、実験で用いた楽曲(60)は標準MIDIファイル形式のクラシック80曲であり、インターネット上で公開されていたものを採用している。但し、実験時間の都合により、楽曲聴取に要する平均試聴時間が1分前後となるよう楽曲の長さを調整する。被験者は、各楽曲を2回まで試聴することができ、その間にすべての印象尺度に対し7段階評価もしくは「どちらでもない」の評価を行うことが求められる。
【0042】
本装置(1)で用いる印象尺度は、任意に設定することができるが、例えば本件出願人が特願2002−203694号において開示した印象尺度の設計方法に基づいて設計することができ、表4に示す10個の印象尺度を用いる。
【0043】
【表4】
Figure 0003697515
【0044】
ここで、各印象尺度の7段階評価結果に対し点数を割り振った。例えば、明るさに関する印象尺度では、「とても明るい」を7点、「明るい」を6点、「少
し明るい」を5点、「どちらとも言えない」を4点、「少し暗い」を3点、「暗い」を2点、「とても暗い」を1点とし、「どちらでもない」は無得点とした。
これにより、各印象尺度において楽曲印象尺度評価値がどのような印象を表現しているのか明確になるし、ユーザが入力する「どちらでもない」という評価結果をその印象尺度に関しては点がない状態だと考えれば、「どちらでもない(無得点)」と「どちらとも言えない(4点)」の区別が可能となる。
以上の結果得られた80000個(100人×80曲×10印象尺度)のデータから各楽曲毎の平均を求め、印象値データ(800個=80曲×10印象尺度)(66)とした。但し、無得点のデータは事前に除外し、計算には用いなかった。
【0045】
一方、80曲の楽曲データ(60)は本装置(1)の楽曲データ入力部(9)から入力され、上記の処理により楽曲基本特徴量抽出部(10)において、楽曲基本特徴量の抽出(61)が行われる。
同様に、上記処理によりNグラム生成部(11)及びNグラム特徴量生成部(12)において、Nグラム特徴量の生成(62)を行う。
【0046】
ここで、Nグラム特徴量生成部(12)において、上記のように表1、表2の抽象化ルールに基づいて置換するが、表5には抽象化処理による異なりNグラム数の変化を音の高さの場合を例に示す。
【0047】
【表5】
Figure 0003697515
【0048】
表5に示したように、抽象化により異なりNグラム(すなわちNグラム特徴量)の数は約半分に減少しているが、それでもまだ1,000のオーダーである。
本発明の設計で用いる重回帰分析の性質上、説明変数となるNグラム特徴量の数は、目的変数である印象値データのサンプル数(ここでは楽曲データ数80である。)よりも2個以上(3個以上が推奨されている)少なくなければならない。(非特許文献5参照。)
【0049】
【非特許文献5】
菅民郎:「多変量統計分析」、現代数学社、京都(2000)
【0050】
そこで本実施例においてはNグラム特徴量生成部(12)で、Nグラム特徴量の数が多くても77個を超えないよう、以下のような方法でNグラム特徴量の選択処理(63)を行う。
まず、各楽曲におけるNグラム特徴量の相対出現頻度がいずれの楽曲においても0.010未満であったNグラム特徴量を除外した。この操作により、Nグラム特徴量の数は表6のように変化した。但し、この操作は音色情報に対しては行っていない。
【0051】
【表6】
Figure 0003697515
【0052】
次に、Nグラム特徴量と印象値データとの相関係数を求め、その絶対値が大きかった特徴量(最大77個)を重回帰分析のための説明変数として選択(64)した。このとき、Nグラム特徴量のN値の組み合わせとして、unigramのみ、bigramのみ、bigramとtrigram、bigramから4-gramまで、bigramから5-gramまでの5通りを用意したので、この5グループのそれぞれにおいてNグラム特徴量の選択(64)を行った。
【0053】
楽曲特徴量及び楽曲印象尺度評価値計算式を決定するために、上記で選択されたNグラム特徴量(64)を説明変数、印象尺度m(m=1,2,・・・、10)における楽曲印象尺度評価値データ(SD法に基づく印象評価実験の結果)(66)を目的変数とする重回帰分析(変数増加法)(67)を行う。
このとき、説明変数に用いるNグラム特徴量のN値の組み合わせは、5通りあり、重みタイプには上記のw1,w2,w3の3種類を用いるので、結局、各印象尺度毎に15回の重回帰分析(67)を行う。
【0054】
ここで、各印象尺度毎に15回の重回帰分析を行うが、その中で自由度修正済み決定係数R2‘が最も大きかった重回帰式を楽曲印象尺度評価値計算式として採用し(68)、その重回帰式を構成する説明変数(Nグラム特徴量)を楽曲特徴量(69)と定義する。
【0055】
自由度修正済み決定係数について簡単に説明すると、サンプル数と説明変数の数との差が小さい(すなわち自由度が低い)と、決定係数が大きくなる傾向がある。この不具合を修正したのが自由度修正済み決定係数であり、次の式で計算される。
【数1】
Figure 0003697515
ただし、Se:残差平方和、Syy:偏差平方和、n:サンプル数、q:説明変数の数
なお、自由度修正済み決定係数については、非特許文献5に記載されている。
【0056】
本設計方法において、各印象尺度において R2‘が最大となるN値の組み合わせ及び重みタイプを、そのときのR2‘とともに表7に示す。なお、表7は、N=5のNグラム特徴量(5-gram)が用いられなかったことを示しており、Nグラム特徴量におけるN値としては4までで十分なことを示唆している。
【0057】
【表7】
Figure 0003697515
【0058】
ここで、印象尺度1の場合を例に、設計された楽曲特徴量と楽曲印象尺度評価値計算式(69)の偏回帰係数及び定数項を表8に示す。印象尺度1の場合の重みタイプは表7よりw1なので、楽曲から抽出される楽曲特徴量の相対出現頻度に重み1(表3参照)を掛けた値が楽曲印象尺度評価値計算式(重回帰式)に代入され、その楽曲の印象尺度1における楽曲印象尺度評価値が算出される。
【0059】
【表8】
Figure 0003697515
【0060】
以上の繰り返しにより、各印象尺度毎の楽曲特徴量、楽曲印象尺度評価値計算式(69)が定義され、本装置(1)の設計が完了する。定義された印象尺度ごとの楽曲特徴量、楽曲印象尺度評価値計算式は、外部記憶手段である印象値データベース(8)に記録され、本装置(1)の楽曲印象尺度評価値演算部(13)から随時呼び出し可能とする。
印象値データベースは、ハードディスク(6)上に設けてもよい。
【0061】
以下、再び本装置(1)のフローチャート(図2)に基づいて説述する。
Nグラム特徴量生成部(12)において生成(22)され、ハードディスク(6)に記録されたNグラム特徴量を用いて、次の楽曲印象尺度評価値演算部(13)において、楽曲印象尺度評価値の演算を行う。
【0062】
楽曲印象尺度評価値演算部(13)においては、まずNグラム特徴量から各印象尺度毎の楽曲特徴量を印象値データベース(8)を参照して抽出(23)し、同データベース(8)内の楽曲印象尺度評価値計算式に代入し演算処理(24)する。
該演算の結果は、実数値で各印象尺度毎に1個の楽曲印象尺度評価値(25)が楽曲印象尺度評価値出力部(14)から出力される。
【0063】
図7には本発明で開発した楽曲印象尺度評価値自動付与装置(1)のモニタ(3)に表示される画面(70)の一例を示す。
楽曲MIDIデータ(7)は楽曲1曲分のファイルを指定するときにはボタン(71)を、複数の楽曲を収容したフォルダごと指定するときはボタン(72)をキーボード(4)やマウス(図示しない)などで指示する。
【0064】
楽曲印象尺度評価値の自動付与」ボタン(73)を指示することにより、上記で指定されていれば当該楽曲MIDIデータ(7)を、指定されていなければ、デフォルトで定義されたフォルダ内の楽曲MIDIデータ(7)を、以上に説述したCPU(2)における各処理により処理し、最終的に楽曲印象尺度評価値出力部(14)が、規定のファイルmidi.iwtとしてハードディスク(6)に保存する。
【0065】
ここで、midi.iwtは、csv(カンマ区切り)形式のファイルであり、1行1楽曲で、各行の第1要素に標準MIDIファイル名(拡張子は含まない)、第m+1要素に印象尺度mに対する楽曲印象尺度評価値という並びで登録される。
なお、本装置(1)の出力は、ハードディスク(6)への記録に限らず、任意の外部記憶装置、モニタ(3)などへの表示により行うこともできる。
また、本装置(1)は単独で用いるだけでなく、他の任意の装置、例えばジュークボックスや楽曲を検索する装置などに付属させてもよい。また、本装置にネットワークアダプタを備えてネットワーク上に設け、他の端末からアクセスできるようにしてもよい。
【0066】
【発明の効果】
本発明は上記の構成を備えるので、次の効果を奏する。
本発明によれば、標準MIDIデータなど、コンピュータで処理可能な楽曲データから楽曲基本特徴量を抽出し、Nグラムを生成すると共に、Nグラムのうち、異なりNグラムを用いてNグラム特徴量を生成することにより、コンピュータ処理に適した形態で当該楽曲の楽曲特徴を抽出することができる。
そして、該楽曲特徴量から所定の楽曲印象尺度評価値計算式による演算を行うため、高精度な楽曲印象尺度評価値の算出を行うことができる。
これにより、簡便・高速な処理が可能な楽曲印象尺度評価値自動付与装置を提供することができる。
【図面の簡単な説明】
【図1】 本発明による楽曲印象尺度評価値自動付与装置の一実施例の構成図である。
【図2】 本発明における一実施例の処理のフローチャートである。
【図3】 楽曲基本特徴量の抽出例である。
【図4】 生成されたNグラムの一例である。
【図5】 抽象化されたNグラムの一例である。
【図6】 本発明による楽曲印象尺度評価値自動付与装置の設計方法のフローチャートである。
【図7】 本発明による楽曲印象尺度評価値自動付与装置の表示画面の一例である。
【符号の説明】
楽曲印象尺度評価値自動付与装置
2 CPU
3 モニタ
4 キーボード
5 メモリ
6 外部記憶手段(ハードディスク)
7 楽曲MIDIデータ
8 印象値データベース
9 楽曲データ入力部
10 楽曲基本特徴量抽出部
11 Nグラム生成部
12 Nグラム特徴量生成部
13 楽曲印象尺度評価値演算部
14 楽曲印象尺度評価値出力部[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a music data processing device, and more particularly to a device for automatically assigning an impression scale evaluation value of the music from the music data.
[0002]
[Prior art]
Conventionally, it has been thought that the evaluation of an artistic work such as music, for example, the determination of an impression of the work, is not compatible with the processing of a computer or the like. Therefore, for example, even if the impression of a work is classified based on the impression of the music, the classification work itself is performed by a human. Therefore, it is a problem to give a new impression value to a completely new piece of music by a computer.
[0003]
According to previous studies including the present applicants, automatically assigning a music impression scale evaluation value in a computer means that what kind of music feature value is extracted from music data that can be processed by the computer. The discussion is focused on the question of what calculation formula is used to output what kind of music impression scale evaluation value .
Here, the music impression scale evaluation value is a numerical value of the music impression based on a predetermined impression scale , and the music feature amount is extracted from the music data and is used to calculate the music impression scale evaluation value. Refers to the physical feature used.
[0004]
Therefore, it can be said that the above problem is a technical problem about the design of the music impression scale evaluation value , the design of the music feature amount, and the design of the music impression scale evaluation value calculation formula. However, all of them are fragmented, and an apparatus for automatically assigning an accurate music impression scale evaluation value after the overall design has not been provided yet.
[0005]
For example, in the design of music impression scale evaluation values , according to Non-Patent Document 1, a five-dimensional factor space called music sensitivity space is constructed from the result of factor analysis on subjective evaluation experimental data based on the SD (Semantic Differential) method. And the impression which a user inputs and the impression which a music has are represented as a coordinate value in this space.
[0006]
However, since the interpretation of the meaning of the factor axis is manual, there are individual differences, and it is difficult to clearly show what impression the coordinate values given to the music actually represent. In addition, since the impression of the music is represented by one point, some value must be input to all the impression scales (eight in the system of Non-Patent Document 1). (The music impression scale evaluation value is indefinite) ”is not recognized.
Therefore, even if the evaluation of the impression scale related to brightness is “bright” with the intention of searching for a bright music, a value equivalent to “cannot say either” for an impression scale other than brightness (1 point) The music having 4 points in the 7-step evaluation of -7 points is searched.
[0007]
[Non-Patent Document 1]
Takeshi Ikezoe, Yoshinobu Kajikawa, Yasuo Nomura: "Music database search system using Kansei words using music Kansei space" linguistics theory, 42, 12, pp. 3201-3212 (2001)
[0008]
Further, there are studies published in Non-Patent Documents 1 to 3 in the design of music feature quantities. In the music search research for conventional music data such as these studies, the music features such as pitch, strength, length, rhythm, tempo, time signature, tonality (minor / major), etc. In many cases, static features such as an average, a variance, and a time ratio for music components are used.
However, it is considered that there is an inherent limitation in expressing music that is originally time-series data with only static feature values.
[0009]
[Non-Patent Document 2]
Akira Sato, Kohei Kikuchi, Hajime Kitakami: “Automatic generation of emotional values for image retrieval for music data”, Information Processing Research Reports, Database System 118-8, Informatics Fundamentals 54-8, pp.57- 64 (1999)
[Non-Patent Document 3]
Jun Sato, Jun Ogawa, Yoshihiro Horino, Hajime Kitakami: “Examination for realization of emotion-based music search system”, IEICE Technical Report (voice), SP2000-137, pp.51-56 (2001)
[0010]
Also in the conventional research (Non-Patent Documents 2 to 4), as a feature amount considering the temporal transition of such a sound, a pattern in which the transition of the pitch and length of three consecutive sounds is proposed. However, the number of consecutive sounds was constant, and only a limited time transition could be handled.
[0011]
[Non-Patent Document 4]
Yasuhiro Tsuji, Satoshi Hoshi, and Satoshi Omori: “Searching for similar songs using local pattern features and search by sensitivity word”, IEICE Technical Report (voice), SP96-124, pp.17-24 (1997)
[0012]
[Problems to be solved by the invention]
The present invention was created in view of the above-described problems of the prior art, and provides an apparatus for automatically assigning a music impression scale evaluation value that automatically assigns a music impression scale evaluation value using music data. It is an object to provide a technique for assigning an evaluation value of a highly accurate music impression scale .
[0013]
[Means for solving problems]
In order to solve the above problems, the present invention has created the following means.
That is, an apparatus for automatically assigning a music impression scale evaluation value that automatically quantifies and gives an impression value of a music piece as an evaluation value in a predetermined impression scale with respect to music data based on a predetermined data standard capable of at least computer processing I will provide a.
The apparatus includes input means for inputting music data, and music basic feature quantity extraction means for extracting a music basic feature quantity that is a physical feature quantity related to a music impression in the music data. And the N-gram production | generation means which produces | generates N-gram feature-value using N-gram unlike the N-gram production | generation means which produces | generates N-gram from music basic feature-value is provided.
[0014]
Using multiple N-gram features and impression value data, which is an evaluation value based on an impression scale by a subject, from multiple pieces of music, a multiple regression equation is constructed using the N-gram features as explanatory variables and the impression value data as objective variables Then, the multiple regression equation is prepared in the external storage means as a music impression scale evaluation value calculation formula.
Further, music impression scale evaluation value calculating means for calculating the music impression scale evaluation value calculation formula for the N-gram feature amount of the input music data, and output means for outputting the music impression scale evaluation value.
[0015]
Here, the N-gram feature value generation unit may generate an N-gram feature value by multiplying the different N-gram relative appearance frequency and a predetermined weight value.
[0016]
Music Impression evaluation value automatically given device, in a configuration for imparting an evaluation value for a plurality of Impression, the N-gram feature amount generating means, to generate a N-gram feature amount for each Impression, music Impression evaluation value The calculation means may be configured to perform calculation using the N-gram feature value for each impression scale.
[0017]
The data standard may be a MIDI (musical instrument digital interface) standard.
[0018]
The music impression scale evaluation value automatic assigning apparatus of the present invention inputs music data from the input means, divides a plurality of track chunks and / or channels included in the music data, and basic music features for each track chunk and / or channel. You may provide the stream division | segmentation means output to a quantity extraction means.
[0019]
The music basic feature amount can be the pitch, the strength, the length, and the timbre information.
[0020]
The N-gram feature value generating means may generate N-gram feature values for a plurality of N values.
[0021]
The impression scale is "quiet", "calm", "refreshing", "bright", "sublime", "relaxed", "beautiful", "fun", "feeling calm", " It may be at least one of the words “heart is healed”, its synonym, or its antonym.
[0022]
DETAILED DESCRIPTION OF THE INVENTION
Embodiments of the present invention will be described based on examples shown in the drawings. The embodiment can be changed as appropriate without departing from the gist of the present invention.
FIG. 1 shows a block diagram of a music impression scale evaluation value automatic assigning apparatus (hereinafter referred to as this apparatus) according to the present invention, and FIG. 2 shows a flowchart of processing in the apparatus.
[0023]
The apparatus (1) includes a CPU (2) that is a core mainly responsible for processing such as computation, a monitor (3) that is a display device that indicates processing contents and results to the user, and a user who operates the apparatus (1). And a memory (5) that operates in conjunction with the CPU, and an external storage device (6) capable of storing data.
There is a known personal computer as an apparatus having such a configuration, and the apparatus (1) can be mounted on the personal computer.
[0024]
Using this apparatus (1), in the present invention, a technique for inputting a standard MIDI file, automatically assigning a music impression scale evaluation value , and outputting it is created. Each process is as shown in FIG. 2, and a music basic feature value, which is a physical feature value related to the impression of the music, is extracted (21) from the standard MIDI file (20), and a continuous music basic feature value is used. After generating N-grams from the combinations, N-gram feature values are generated using weights and appearance frequencies as necessary. (22)
A music feature quantity is extracted (23) by selecting an effective one for expressing the characteristics of the music, and used for the music impression scale evaluation value calculation formula. By performing this calculation process, the music impression scale evaluation value (25) targeted by the present invention is calculated.
In this embodiment, it is output.
Next, each process will be described in detail.
[0025]
The standard MIDI file (20) is recorded as music MIDI data (7) in the external storage means provided in the apparatus (1). Although it is shown as a separate body in FIG. 1, it may be recorded in a hard disk (6) which is also an external storage means, or may be recorded in an external storage means in another computer connected to the network.
The CPU (2) reads out the music MIDI data (7) by the processing of the music data input unit (9) and sends it to the music basic feature quantity extraction unit (10).
[0026]
The music basic feature quantity extraction unit (10) has a stream dividing function for extracting the music basic feature quantity for each track chunk and each channel from the data (7) in the standard MIDI file format (format 0 or 1). In the case of the standard MIDI data (7), since the track chunk and the channel are described in parallel, each stream is separated and extracted, and each stream is set as one stream data.
[0027]
For example, three stream data are generated from music of one track chunk and three channels. In this embodiment, there are four types of music basic feature values to be extracted: pitch, tone strength, tone length, and timbre information, which are based on the note number value, on velocity value, and note on message, respectively. It corresponds to the time (milliseconds) until the note-off message arrives and the tone number based on the GM (General MIDI) standard.
[0028]
Here, an example of stream data is shown in FIG. In the stream data (30), the first column of each row is the sound length (31), the second column is the sound pitch (32), the third column is the sound intensity (33), and the fourth column is the timbre. Corresponds to information (34).
In addition, when two or more sounds are sounded simultaneously in the same channel of the same track chunk, it is defined as “chord”, and when there is a chord, the basic features of the music after the second sound (excluding the length of the sound) Are repeatedly described in the fifth column and thereafter (35) (36) (37).
In each channel, the silence state of the channel (for example, 38) is defined as a rest, the length of the sound is 0, and other than the length of the sound is represented by the symbol “s”.
The data extracted in this way by the music basic feature quantity extraction unit (10) is recorded in the hard disk (6).
[0029]
The generation (22) of the N-gram feature value is processed in the N-gram generation unit (11) and the N-gram feature value generation unit (12). The N-gram feature value is a feature value that is a candidate song feature value used in post-processing, and is generated from the song basic feature value in the following procedure.
First, in the N-gram generation unit (11), the music basic feature value data on the hard disk (6) is used to separate four types of music basic feature values from each stream data, and unigram (1 gram, N = 1) and N-grams (N = 1, 2, 3, 4, 5) are generated from the other feature values.
[0030]
For example, N-grams (40) (41) (42) (43) (44) as shown in FIG. 4 are generated from the pitch of the stream data (30) shown in FIG. The chords (39a) (39b) (39c) are rearranged in descending order and are described as a nested list (45).
The generated result is recorded on the hard disk (6) or the like.
[0031]
Next, in the N-gram feature value generation unit (12), the elements (x 1 x 2 ... X N ) of the N-gram generated from the music basic feature values other than the timbre information are abstracted as shown in Table 1 and Table 2. Replace based on rules.
[0032]
[Table 1]
Figure 0003697515
[0033]
[Table 2]
Figure 0003697515
[0034]
Table 1 rule is applied to the first element x 1 of each N-gram, replacing the element in accordance with the type of music the basic feature amount. At this time, the nesting in the list format is described with one symbol (for example, 79-71-62 (45)), and as a tag for indicating the type of the basic feature amount of the music, h is the pitch of the sound, Then add v, and d) if the length of the sound (eg h79-71-62).
[0035]
On the other hand, the rule of Table 2 is applied to the second and subsequent elements x i (i = 2, 3,..., N) of each N-gram, and according to the comparison result with the element x i-1 immediately before that. Replace x i with the corresponding symbol.
At this time, the comparison between x i−1 and x i is performed between the maximum values and the minimum values, but the maximum value = minimum value is treated except for chords.
As a result of the above processing, for example, the N-gram in FIG. 4 is abstracted as shown in FIG.
[0036]
N-grams different from the N-grams abstracted as described above are referred to as “N-gram feature values” in the present invention . Each N-gram feature value has a value obtained by multiplying the relative appearance frequency by the weight w.
However, the relative appearance frequency is calculated for each type of the music basic feature value and for each N value of the N-gram statistic, and is rounded off to the fourth decimal place. For example, four N-gram feature quantities are generated from the bigram (50) in FIG. 5, the relative appearance frequency of (hs sx) (51) (52) is 0.400, and other (53) (54) (55) The relative appearance frequency is 0.200.
[0037]
On the other hand, three kinds of weighting methods as shown in Table 3 were prepared for the weight w.
In the present invention, N-gram feature values are generated and recorded in the hard disk (6) by the processing in the N-gram generation unit (11) and the N-gram feature value generation unit (12). However, the N-gram feature value generation process of the present invention is not limited to the use of the relative appearance frequency and weight according to the above configuration, and is arbitrarily set within a range not departing from the known N-gram statistic calculation method. can do.
[0038]
[Table 3]
Figure 0003697515
[0039]
Here, the music impression scale evaluation value automatic assigning device (1) of the present invention is designed according to the design procedure shown in FIG. 6 in order to determine the music feature amount and the music impression scale evaluation value calculation formula. are doing. As is apparent from the figure, the present design procedure includes a process very close to the use of the apparatus (1). Hereinafter, each procedure will be described along this flow.
The following impression evaluation experiment was conducted as a subjective evaluation experiment (65) based on the SD method in order to obtain data serving as a reference for digitizing the impression of music.
[0040]
The subjects were 100 men, 39 men and 61 women, 1 professional level (person who has income as a performer), semi-professional level (person who studied professionally at a music university, etc.) 7 people, amateur level (people who are in bands, orchestras, choirs, etc.) 20 people, hobby level (people who do not meet the above conditions but can play once) 46 people, inexperienced people (almost played) There are a lot of people who are not rich in music experience and 26 people.
[0041]
The music search based on impression is a search means particularly effective for a person who does not have much music experience rather than a person with rich music experience, and it is this apparatus (1) that uses data reflecting the music sensitivity of such a person. It can be said that it is important in designing.
In addition, the music (60) used in the experiment is a classic 80 music in the standard MIDI file format, and the music published on the Internet is adopted. However, the length of the musical piece is adjusted so that the average trial listening time required for listening to the musical piece is about 1 minute for the convenience of the experimental time. The subject can audition each song up to twice, and during that time, it is required to perform a 7-step evaluation or “neither” evaluation on all impression scales.
[0042]
The impression scale used in the apparatus (1) can be arbitrarily set. For example, the impression scale can be designed based on the impression scale design method disclosed by the applicant in Japanese Patent Application No. 2002-203694. 10 impression scales are used.
[0043]
[Table 4]
Figure 0003697515
[0044]
Here, a score was assigned to the seven-level evaluation result of each impression scale. For example, in the impression scale for brightness, “very bright” is 7 points, “bright” is 6 points, “slightly bright” is 5 points, “cannot be said” is 4 points, “slightly dark” is 3 points, “Dark” was 2 points, “Very dark” was 1 point, and “None” was not scored.
This makes it clear what kind of impression the music impression scale evaluation value represents in each impression scale, and states that the evaluation result that the user inputs is “Neither” is not related to the impression scale If it thinks so, it will become possible to distinguish between “Neither” (no score) and “Neither” (4 points).
The average of each piece of music was obtained from the data of 80000 pieces (100 people x 80 pieces x 10 impression scales) obtained as a result of the above, and used as impression value data (800 pieces = 80 pieces x 10 impression scales) (66). However, unscored data was excluded in advance and not used in the calculation.
[0045]
On the other hand, the music data (60) of 80 songs is input from the music data input unit (9) of the apparatus (1), and the music basic feature value extraction unit (10) extracts the music basic feature value ( 61) is performed.
Similarly, N-gram feature value generation (62) is performed in the N-gram generation unit (11) and the N-gram feature value generation unit (12) by the above processing.
[0046]
Here, in the N-gram feature value generation unit (12), the replacement is performed based on the abstraction rules in Tables 1 and 2 as described above. An example of the height of is shown.
[0047]
[Table 5]
Figure 0003697515
[0048]
As shown in Table 5, the number of N-grams (that is, N-gram features) is reduced by about half depending on abstraction, but it is still on the order of 1,000.
Due to the nature of the multiple regression analysis used in the design of the present invention, the number of N-gram feature quantities that are explanatory variables is two more than the number of impression value data samples (here, the number of music data is 80) that is an objective variable. There must be less (more than 3 are recommended). (See Non-Patent Document 5.)
[0049]
[Non-Patent Document 5]
Tamaro Sasa: “Multivariate Statistical Analysis”, Contemporary Mathematics, Kyoto (2000)
[0050]
Therefore, in this embodiment, the N-gram feature quantity generation unit (12) selects N-gram feature quantity by the following method (63) so that it does not exceed 77 even if the number of N-gram feature quantities is large. I do.
First, the N gram feature quantity in which the relative appearance frequency of the N gram feature quantity in each music piece was less than 0.010 in any music piece was excluded. By this operation, the number of N-gram feature values changed as shown in Table 6. However, this operation is not performed on the timbre information.
[0051]
[Table 6]
Figure 0003697515
[0052]
Next, the correlation coefficient between the N-gram feature value and the impression value data was obtained, and feature values (77 at the maximum) whose absolute values were large were selected (64) as explanatory variables for the multiple regression analysis. At this time, as the combinations of N values of N-gram feature values, there are 5 types from unigram only, bigram only, bigram and trigram, bigram to 4-gram, bigram to 5-gram. The N-gram feature value was selected (64).
[0053]
In order to determine the music feature quantity and the music impression scale evaluation value calculation formula, the N-gram feature quantity (64) selected above is used as an explanatory variable, impression scale m (m = 1, 2,..., 10). A multiple regression analysis (variable increasing method) (67) is performed with the music impression scale evaluation value data (result of impression evaluation experiment based on the SD method) (66) as an objective variable.
At this time, there are five combinations of N values of N-gram feature values used as explanatory variables, and the above three types of w 1 , w 2 , and w 3 are used as weight types. 15 multiple regression analyzes (67) are performed.
[0054]
Here, the multiple regression analysis is performed 15 times for each impression scale, and the multiple regression formula having the largest degree of freedom-corrected determination coefficient R 2 ′ is adopted as the music impression scale evaluation value calculation formula (68 ), An explanatory variable (N-gram feature value) constituting the multiple regression equation is defined as a music feature value (69).
[0055]
Briefly describing the degree-of-freedom-corrected determination coefficient, if the difference between the number of samples and the number of explanatory variables is small (that is, the degree of freedom is low), the determination coefficient tends to increase. This defect has been corrected by a determination coefficient with a corrected degree of freedom, which is calculated by the following formula.
[Expression 1]
Figure 0003697515
However, S e: residual sum of squares, S yy: sum of squared deviations, n: number of samples, q: the number of explanatory variables It should be noted that the degree of freedom corrected coefficient of determination, are described in Non-Patent Document 5.
[0056]
In this design method, combinations of N values and weight types that maximize R 2 ′ in each impression scale are shown in Table 7 together with R 2 ′ at that time. Table 7 shows that N = 5 N-gram feature value (5-gram) was not used, suggesting that up to 4 is sufficient as the N value in N-gram feature value. .
[0057]
[Table 7]
Figure 0003697515
[0058]
Here, taking the case of impression scale 1 as an example, Table 8 shows the designed music feature quantity, partial regression coefficient and constant term of the music impression scale evaluation value calculation formula (69). Since the weight type in the case of impression scale 1 is w 1 from Table 7, the value obtained by multiplying the relative appearance frequency of the music feature amount extracted from the music by weight 1 (see Table 3) is the music impression scale evaluation value calculation formula (weight) The music impression scale evaluation value in the impression scale 1 of the music is calculated.
[0059]
[Table 8]
Figure 0003697515
[0060]
By repeating the above, the music feature amount for each impression scale and the music impression scale evaluation value calculation formula (69) are defined, and the design of the apparatus (1) is completed. The music feature amount and the music impression scale evaluation value calculation formula for each defined impression scale are recorded in the impression value database (8) which is an external storage means, and the music impression scale evaluation value calculation unit (13) of this apparatus (1). ) From time to time.
The impression value database may be provided on the hard disk (6).
[0061]
Hereinafter, description will be given again based on the flowchart (FIG. 2) of the apparatus (1).
N-gram feature quantity generator is (12) generating (22) at, using the N-gram feature amounts recorded in the hard disk (6), in the next music Impression evaluation value calculation unit (13), the music Impression Evaluation Calculate the value .
[0062]
In the music impression scale evaluation value calculation unit (13), first, the music feature quantity for each impression scale is extracted from the N-gram feature quantity with reference to the impression value database (8) (23), and is stored in the database (8). The music impression scale evaluation value calculation formula is substituted for the calculation processing (24).
The result of the calculation is a real value, and one music impression scale evaluation value (25) for each impression scale is output from the music impression scale evaluation value output unit (14).
[0063]
FIG. 7 shows an example of a screen (70) displayed on the monitor (3) of the music impression scale evaluation value automatic assigning device (1) developed in the present invention.
In the music MIDI data (7), a button (71) is designated when a file for one music piece is designated, and a button (72) is designated for a folder containing a plurality of music pieces, a keyboard (4) or a mouse (not shown). Etc.
[0064]
By instructing the “automatic assignment of music impression scale evaluation value ” button (73), the music MIDI data (7) is specified in the folder defined by default if not specified. The music MIDI data (7) is processed by each processing in the CPU (2) described above, and the music impression scale evaluation value output unit (14) is finally used as the prescribed file midi.iwt on the hard disk (6). Save to.
[0065]
Here, midi.iwt is a csv (comma delimited) format file, one song per line, the standard MIDI file name (not including the extension) in the first element of each line, and the impression scale m in the m + 1 element. Are registered in a sequence of music impression scale evaluation values .
The output of the device (1) is not limited to recording on the hard disk (6), but can also be performed by display on an arbitrary external storage device, monitor (3) or the like.
The device (1) is not only used alone, but may be attached to any other device, for example, a jukebox or a device for searching for music. In addition, this apparatus may be provided with a network adapter on the network so that it can be accessed from other terminals.
[0066]
【The invention's effect】
Since this invention is provided with said structure, there exists the following effect.
According to the present invention, a basic music feature quantity is extracted from computer-processable music data such as standard MIDI data, and N-grams are generated, and different N-grams of N-grams are used to obtain N-gram feature quantities. By generating, the music feature of the music can be extracted in a form suitable for computer processing.
Since a calculation based on a predetermined music impression scale evaluation value calculation formula is performed from the music feature amount, a highly accurate music impression scale evaluation value can be calculated.
Thereby, a music impression scale evaluation value automatic assigning device capable of simple and high-speed processing can be provided.
[Brief description of the drawings]
FIG. 1 is a configuration diagram of an embodiment of a music impression scale evaluation value automatic assigning device according to the present invention.
FIG. 2 is a flowchart of a process according to an embodiment of the present invention.
FIG. 3 is an example of extracting a music basic feature amount;
FIG. 4 is an example of a generated N-gram.
FIG. 5 is an example of an abstracted N-gram.
FIG. 6 is a flowchart of a method for designing a music impression scale evaluation value automatic assigning device according to the present invention.
FIG. 7 is an example of a display screen of the music impression scale evaluation value automatic assigning device according to the present invention.
[Explanation of symbols]
1 Music impression scale evaluation value automatic assigning device 2 CPU
3 Monitor 4 Keyboard 5 Memory 6 External storage means (hard disk)
7 Music MIDI Data 8 Impression Value Database 9 Music Data Input Unit 10 Music Basic Feature Extraction Unit 11 N Gram Generation Unit 12 N Gram Feature Quantity Generation Unit 13 Music Impression Scale Evaluation Value Calculation Unit 14 Music Impression Scale Evaluation Value Output Unit

Claims (8)

少なくともコンピュータ処理が可能な所定のデータ規格に基づく楽曲データに対して、当該楽曲が有する印象を所定の印象尺度における評価値として自動的に数値化し、付与する楽曲印象尺度評価値自動付与装置であって、該装置が、
楽曲データを入力する入力手段と、
該楽曲データにおける、楽曲印象に係る物理的特徴量である楽曲基本特徴量を抽出する楽曲基本特徴量抽出手段と、
該楽曲基本特徴量から、Nグラムを生成するNグラム生成手段と、
該Nグラムのうち、異なりNグラムを用いてNグラム特徴量を生成するNグラム特徴量生成手段と、
予め、複数の楽曲からNグラム特徴量と被験者による印象尺度に基づく評価値である印象値データとを用い、該Nグラム特徴量を説明変数、該印象値データを目的変数として重回帰式を構成し、該重回帰式を楽曲印象尺度評価値計算式として外部記憶手段に備え、
入力した楽曲データのNグラム特徴量に対して該楽曲印象尺度評価値計算式による演算を行う楽曲印象尺度評価値演算手段と、
楽曲印象尺度評価値を出力する出力手段と
を備えることを特徴とする楽曲印象尺度評価値自動付与装置。
A music impression scale evaluation value automatic assigning apparatus that automatically quantifies and assigns an impression value of a music piece as an evaluation value in a predetermined impression scale for music data based on a predetermined data standard capable of at least computer processing. The device is
Input means for inputting music data;
A music basic feature quantity extracting means for extracting a music basic feature quantity that is a physical feature quantity related to a music impression in the music data;
N-gram generating means for generating N-gram from the music basic feature amount;
N-gram feature value generating means for generating N-gram feature values using different N-grams among the N-grams;
Using multiple N-gram features and impression value data, which is an evaluation value based on an impression scale by a subject, from multiple pieces of music, a multiple regression equation is constructed using the N-gram features as explanatory variables and the impression value data as objective variables The multiple regression equation is provided in the external storage means as a musical impression scale evaluation value calculation formula,
Music impression scale evaluation value calculation means for performing calculation by the music impression scale evaluation value calculation formula for the N-gram feature amount of the input music data ;
An apparatus for automatically assigning a music impression scale evaluation value, comprising: output means for outputting a music impression scale evaluation value .
前記Nグラム特徴量生成手段が、
前記異なりNグラムの相対出現頻度と、所定の重み値を乗じてNグラム特徴量を生成する
請求項1に記載の楽曲印象尺度評価値自動付与装置。
The N-gram feature quantity generating means is
The music impression scale evaluation value automatic assigning device according to claim 1, wherein an N-gram feature value is generated by multiplying the relative appearance frequency of the different N-grams and a predetermined weight value.
前記楽曲印象尺度評価値自動付与装置が、複数の印象尺度についての評価値を付与する構成において、
前記Nグラム特徴量生成手段が、該印象尺度毎にNグラム特徴量を生成すると共に、
前記楽曲印象尺度評価値演算手段が、該印象尺度毎に、該Nグラム特徴量を用いて演算を行う
請求項1又は2に記載の楽曲印象尺度評価値自動付与装置。
The music Impression evaluation value automatically given device, in a configuration for imparting an evaluation value for a plurality of Impression,
The N-gram feature value generating means generates an N-gram feature value for each impression scale,
The music impression scale evaluation value automatic assigning apparatus according to claim 1 or 2 , wherein the music impression scale evaluation value calculation means performs calculation using the N-gram feature value for each impression scale .
前記データ規格が、MIDI(musical instrument digital interface)規格である
請求項1ないしに記載の楽曲印象尺度評価値自動付与装置。
The data standard, MIDI (musical instrument digital interface) music Impression evaluation value automatically given according to to the claims 1 to standard 3.
前記楽曲印象尺度評価値自動付与装置において、
入力手段から楽曲データを入力し、楽曲データが含む複数のトラックチャンク及び/又はチャネルを分割し、各トラックチャンク及び/又はチャネル毎に楽曲基本特徴量抽出手段に出力する
ストリーム分割手段を備えた
請求項1ないしに記載の楽曲印象尺度評価値自動付与装置。
In the music impression scale evaluation value automatic assigning device,
A stream dividing unit is provided that inputs music data from the input unit, divides a plurality of track chunks and / or channels included in the music data, and outputs the track chunks and / or channels to the music basic feature amount extracting unit for each track chunk and / or channel. Item 5. The apparatus for automatically assigning musical score evaluation values according to items 1 to 4 .
前記楽曲基本特徴量が、音の高さ、音の強さ、音の長さ、音色情報である
請求項1ないしに記載の楽曲印象尺度評価値自動付与装置。
The music basic feature quantity, the sound level, sound intensity, the length of the sound, the music Impression evaluation value automatically given according to 5 claims 1 a tone color information.
前記Nグラム生成手段において、
複数のN値についてNグラムを生成する
請求項1ないしに記載の楽曲印象尺度評価値自動付与装置。
In the N-gram generating means,
Claims 1 to generate the N-gram for a plurality of N values music Impression evaluation value automatically given according to 6.
前記印象尺度が、
「静かな」・「落ち着いた」・「爽やかな」・「明るい」・「荘厳な」・「ゆったりとした」・「綺麗な」・「楽しい」・「気持ちが落ち着く」・「心が癒される」
の少なくともいずれかの文言、又はその同意語、又はその反意語である
請求項1ないしに記載の楽曲印象尺度評価値自動付与装置。
The impression scale is
"Quiet", "Relaxed", "Refreshing", "Bright", "Scenic", "Loose", "Beautiful", "Fun", "Relaxing", "Healing""
At least one of the language of, or synonyms, or music Impression evaluation value automatically given apparatus according to claims 1 to 7 which is the antonym.
JP2002283389A 2002-09-27 2002-09-27 Music impression scale evaluation value automatic assigning device Expired - Lifetime JP3697515B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002283389A JP3697515B2 (en) 2002-09-27 2002-09-27 Music impression scale evaluation value automatic assigning device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002283389A JP3697515B2 (en) 2002-09-27 2002-09-27 Music impression scale evaluation value automatic assigning device

Publications (2)

Publication Number Publication Date
JP2004118010A JP2004118010A (en) 2004-04-15
JP3697515B2 true JP3697515B2 (en) 2005-09-21

Family

ID=32277266

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002283389A Expired - Lifetime JP3697515B2 (en) 2002-09-27 2002-09-27 Music impression scale evaluation value automatic assigning device

Country Status (1)

Country Link
JP (1) JP3697515B2 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4616337B2 (en) * 2005-03-31 2011-01-19 パイオニア株式会社 Playback order change support unit, music information playback apparatus, and playback order change support method
JP5414160B2 (en) * 2007-08-09 2014-02-12 株式会社東芝 Kansei evaluation apparatus and method
JP4943370B2 (en) * 2008-04-09 2012-05-30 日本電信電話株式会社 Impression degree estimation method and apparatus and program and program for content viewing and computer-readable recording medium

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3433818B2 (en) * 1993-03-31 2003-08-04 日本ビクター株式会社 Music search device
JP2001306580A (en) * 2000-04-27 2001-11-02 Matsushita Electric Ind Co Ltd Music database retrieving device
JP3612272B2 (en) * 2000-10-13 2005-01-19 日本電信電話株式会社 Music information search device, music information search method, and computer-readable recording medium storing music information search program
JP2002183152A (en) * 2000-12-18 2002-06-28 Jinyama Shunichi Device and method for music retrieval and recording medium with recorded software for music retrieval
JP4027051B2 (en) * 2001-03-22 2007-12-26 松下電器産業株式会社 Music registration apparatus, music registration method, program thereof and recording medium
US7373209B2 (en) * 2001-03-22 2008-05-13 Matsushita Electric Industrial Co., Ltd. Sound features extracting apparatus, sound data registering apparatus, sound data retrieving apparatus, and methods and programs for implementing the same

Also Published As

Publication number Publication date
JP2004118010A (en) 2004-04-15

Similar Documents

Publication Publication Date Title
Panda et al. Audio features for music emotion recognition: a survey
Gabrielsson et al. The role of structure in the musical expression of emotions
Canazza et al. Modeling and control of expressiveness in music performance
Mion et al. Score-independent audio features for description of music expression
KR101170208B1 (en) System and method for music recommendation
CN101199002A (en) Speech analyzer detecting pitch frequency, speech analyzing method, and speech analyzing program
Reymore et al. Using auditory imagery tasks to map the cognitive linguistic dimensions of musical instrument timbre qualia.
Aljanaki et al. A data-driven approach to mid-level perceptual musical feature modeling
JPH09293083A (en) Music retrieval device and method
Schubert et al. Voicelikeness of musical instruments: A literature review of acoustical, psychological and expressiveness perspectives
Hasegawa Gérard Grisey and the ‘nature’of harmony
Farbood et al. Interpreting expressive performance through listener judgments of musical tension
Yang et al. Examining emotion perception agreement in live music performance
Yang Computational modelling and analysis of vibrato and portamento in expressive music performance
JP3697515B2 (en) Music impression scale evaluation value automatic assigning device
Goodchild Orchestral gestures: Music-theoretical perspectives and emotional responses
Van Balen Audio description and corpus analysis of popular music
JP4584511B2 (en) Regular speech synthesizer
Ockelford Zygonic theory: Introduction, scope, and prospects
Albrecht Expressive Meaning and the Empirical Analysis of Musical Gesture: The Progressive Exposure Method and the Second Movement of Beethoven's Pathetique Sonata
Temperley et al. Mediant mixture and “blue notes” in rock: An exploratory study
Politis et al. Determining the chromatic index of music
Hussain et al. The emergence of bunched vowels from retroflex approximants in endangered Dardic languages
Kanato et al. An automatic singing impression estimation method using factor analysis and multiple regression
Ramos et al. Communication of emotions in music between Brazilian composer, performers, and listeners.

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20040416

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050113

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050126

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050328

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050525

R150 Certificate of patent or registration of utility model

Ref document number: 3697515

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term