JP3508978B2 - 音楽演奏に含まれる楽器音の音源種類判別方法 - Google Patents

音楽演奏に含まれる楽器音の音源種類判別方法

Info

Publication number
JP3508978B2
JP3508978B2 JP12586497A JP12586497A JP3508978B2 JP 3508978 B2 JP3508978 B2 JP 3508978B2 JP 12586497 A JP12586497 A JP 12586497A JP 12586497 A JP12586497 A JP 12586497A JP 3508978 B2 JP3508978 B2 JP 3508978B2
Authority
JP
Japan
Prior art keywords
sound source
note
source type
notes
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP12586497A
Other languages
English (en)
Other versions
JPH10319948A (ja
Inventor
邦夫 柏野
洋 村瀬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP12586497A priority Critical patent/JP3508978B2/ja
Publication of JPH10319948A publication Critical patent/JPH10319948A/ja
Application granted granted Critical
Publication of JP3508978B2 publication Critical patent/JP3508978B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Auxiliary Devices For Music (AREA)
  • Electrophonic Musical Instruments (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、複数種類の楽器
による音楽演奏に対する自動採譜装置、採譜支援装置、
および音楽演奏の記号化装置などの構成要素として用い
られる、音楽演奏に含まれる楽器音の音源種類を判別す
る方法に関する。
【0002】
【従来の技術】従来、音楽演奏に含まれる楽器音の音源
種類判別方法に関しては、各楽器音のパワースペクトル
の特徴に着目して、各単音ごとに判別分析を行って楽器
音を判別する方法が知られている。しかし、この方法で
は、一般の楽器演奏にしばしば見られるように、同時に
数多くの単音が発音している場合には、各単音に由来す
るパワースペクトルが重なり合うことによって安定した
特徴の抽出が困難となるため、精度の高い判別分析が行
い難いという欠点があった。
【0003】また、予め対象とする楽器音の音響信号波
形またはスペクトログラムを蓄積しておき、入力音響信
号を所定の時間窓(フレーム)ごとに区分した上で、各
区分に対して、蓄積したその音響信号波形またはスペク
トログラムと照合を行い、最もよく当てはまる音響信号
波形またはスペクトログラムを選択することによって楽
器音を判別する方法が知られている。しかし、この方法
では、ある時間区分ごとに処理が行われ、旋律、ベース
ラインなどといった、時間をまたがった単音のつながり
の情報が考慮されていないため、例えばフルートによっ
て演奏されているメロディーの流れの中で、フルートと
認識されるべき単音が突然トランペットの音と誤認識さ
れる例があるなど、特に、表情豊かな演奏に見られるよ
うな単音の特徴が大きく変動する演奏や、比較的同時発
音数の多い演奏などにおいて、音楽的に不自然な楽器音
判定誤りが生じることが多いという欠点があった。
【0004】従って、上記の各方法は、同時に数多くの
単音が発音している場合や、一連の演奏において単音の
性質が局所的に大きく変動するような場合にあっては、
十分に高精度な、音楽演奏に含まれる楽器音の音源種類
判別処理が期待し難い。
【0005】
【発明が解決しようとする課題】この発明は、同時に数
多くの単音が発音している場合や、一連の演奏において
単音の性質が局所的に大きく変動するような場合であっ
ても適用することのできる、音楽演奏に含まれる楽器音
の音源種類判別の処理方法を提供し、従来の方法と比較
して音楽演奏に含まれる楽器音の音源種類判別処理を高
い精度で行うことを目的としている。
【0006】
【課題を解決するための手段】この発明によれば、音楽
演奏の音響信号に含まれている単音を単音抽出過程で抽
出し、その抽出した単音の音源種類、すなわちその単音
を演奏している楽器名が何であるかの候補を、その各候
補に対する確信度とともに音源種類候補生成過程で求
め、一連の音楽演奏において、旋律など、単音どうしの
関連性を、抽出した単音について単音関連性評価過程で
評価し、音源種類候補生成過程により求めた音源種類候
補とその確信度および単音関連性評価過程で求めた単音
の関連性に基づいて、単音をノードとし、関連性の高い
単音どうしをリンクとして表現したグラフを単音グラフ
作成過程で作成し、この単音グラフ作成過程によって作
成された単音グラフ上で、関連性の強い単音は同一の楽
器種類で演奏される可能性が大きいという音楽の一般的
性質を利用して、音源種類候補生成過程によって求めた
音源種類候補に対する確信度を変更した上で、最も確信
度の高い音源種類候補を選択して出力することを音源種
類選択過程で行う。
【0007】
【発明の実施の形態】次に、この発明の実施形態につい
て図面を用いて説明する。図1は、この発明方法を適用
した音楽演奏に含まれる楽器音の音源種類判別装置の一
実施形態を示すブロック図である。この音楽演奏に含ま
れる楽器音の音源種類判別装置は、単音抽出手段1と、
音源種類候補生成手段2と、単音関連性評価手段3と、
単音グラフ作成手段4と、音源種類選択手段5で構成さ
れ、音楽音響信号を入力とし、演奏に含まれる単音の発
音時刻、音高、および楽器種類を表した記号の列を出力
する。
【0008】単音抽出手段1は、音楽演奏の音響信号を
入力とし、周波数解析、周波数成分の抽出、および単音
の立上り検出を行うことによって単音を抽出する。音源
種類候補生成手段2は、単音抽出手段1の出力する単音
の音響信号波形を、予め蓄積してある対象とする楽器音
の単音の音響信号波形と照合することによって、音源種
類の候補を生成する。
【0009】単音関連性評価手段3は、単音抽出手段1
の出力する単音を入力とし、異なる二つの単音どうしの
関連性を、音高の遷移確率、音色の類似性、時間の近接
性、および演奏における相対的音高の性質の観点から評
価する。単音グラフ作成手段4は、音源種類候補生成手
段2および単音関連性評価手段3の各出力に基づいて、
単音をノードとし、関連性の高い単音どうしをリンクと
して表現したグラフ(ベイジアンネットワーク)を作成
する。
【0010】音源種類選択手段5は、単音グラフ作成手
段4で出力される単音グラフ上で、関連性の強い単音は
同一の楽器種類で演奏される可能性が大きいという音楽
の一般的性質を利用して、ベイジアンネットワーク上に
おける確率伝搬操作によって音源種類候補生成手段2で
出力された音源名候補に対する確信度を変更した上で、
最も確信度の高い音源種類候補を選択して出力する。
【0011】次に、上述した各手段1、2、3、4、5
における各処理の流れを、図2から図6にそれぞれ示す
流れ図を参照して具体的に説明する。単音抽出手段1で
は、まず装置への入力となる音楽演奏の音響信号波形を
読み込む(ステップ101)。音響信号波形の例を図7
に示す。図7は、ある曲をバイオリン、フルート、およ
びピアノを用いてアンサンブル演奏した音響信号の例で
ある。次に、読み込んだ波形に対し周波数解析を行っ
て、スペクトログラムを得る(ステップ102)。スペ
クトログラムは、音響信号に含まれるパワーを、横軸時
間、縦軸周波数の平面上に表現したものである。スペク
トログラムの例を図8に示す。図8は、中心周波数の異
なる多数の帯域通過フィルタを用いて得たものである。
図8において、各時点上の縦線の途中が右へ山状にわん
曲している部分は、その縦軸における周波数成分のパワ
ーの大きさを表す。続いて、ステップ102で得たスペ
クトログラムに対して、周波数成分を抽出する(ステッ
プ103)。周波数成分とは、スペクトログラム上にお
ける一連のローカルピークのことである。周波数成分抽
出は、スペクトログラムをまず周波数方向に走査してパ
ワーのローカルピークを検出し、このローカルピークを
時間方向に接続することによって行う。抽出された周波
数成分の例を図9に示す。図9では、周波数成分が線分
で表されており、その立上りに●印がつけられている。
このような周波数成分がいくつか集まって単音が形成さ
れるが、音楽演奏においては、打楽器音などの例外を除
けば、同じ単音を形成する周波数成分は、立上り時刻が
近接しており、また周波数が整数倍の関係にあることが
知られている。そこで、各周波数成分の立上り時刻の近
接性に基づいて、同時に発音している単音を形成する周
波数成分をひとまとめにする(ステップ104)。それ
ぞれのまとまりには、複数の単音が含まれている可能性
があるので、それぞれのまとまりにおいて、周波数成分
の周波数を低い周波数から順に調べ、整数倍の関係にな
い成分を抽出する。これによって、単音の基本周波数を
得ることができる(ステップ105)。このようにし
て、単音の基本周波数、立上り時刻、および立下り時刻
が得られるので、これらを単音の情報として出力する
(ステップ106)。この段階では、まだそれぞれの単
音がいかなる種類の音源であるかを判別する処理は行わ
れていない。なお図9における各●印の所に付けた数字
の左の値は、発生時刻対応に付けた番号であり、右の値
は同一時刻内で付けた番号である。
【0012】音源種類候補生成手段2(図3)では、ま
ず単音抽出手段1で出力された単音抽出結果を読み込む
(ステップ201)。次に、それぞれの単音に相当する
時間区間の入力音響信号について、これに含まれている
可能性のある単音の記憶波形(以下、候補波形という)
を、あらかじめ蓄積した音響信号波形の中から選択する
(ステップ202)。この選択は例えば次のように行
う。単音に相当する時間区間の入力音響信号について先
に抽出した周波数成分を用いて基本周波数およびパワー
包絡等の音の特徴量を抽出する。この特徴量は、その入
力音響信号に含まれている可能性のある音の記憶波形を
選択するために用いられる。音の記憶波形は、図に示し
ていない波形記憶手段にあらかじめ蓄積されているの
で、これを順に検査する。即ち各記憶波形ごとにその基
本周波数と、入力音響信号の抽出された周波数成分の周
波数とを比較し、ある範囲内に収まっているかどうかを
調べ、もしある範囲に収まっていなければ、その記憶波
形は当該入力音響信号に含まれている可能性は低いの
で、その記憶波形は候補から外す。前記ある範囲は例え
ば次のようにして決める。即ち記憶波形の基本周波数を
その大きさ順に並べた場合、ある基本周波数についてみ
ると、そのすぐ下の基本周波数との間の半分だけ低い周
波数から、すぐ上の基本周波数との間の半分だけ高い周
波数までの範囲に入るものを候補とする。例えば半音ご
との記憶波形を設ける場合は、半音は6%ずつ周波数が
高くなっているから、基本周波数±3%の範囲にあるも
のを候補とする。前記ある範囲に収まっていれば、さら
に特徴量に矛盾(例えば発音不可能な音域であるなど)
があるかどうかを調べ、もし矛盾があれば、その記憶波
形は候補から外す。続いて、それぞれの単音に相当する
時間区間の入力音響信号と、ステップ202で選択した
候補波形との照合を行う(ステップ203)。この照合
は、単音の多様性や変動を吸収するために候補波形を入
力音響信号波形に適応させる処理を含めて特願平9−3
1813「音響信号分離方法」の明細書中で述べた方法
を用いて行うことができる。
【0013】即ち、候補波形に対して適応のためのフィ
ルタ演算を適用した結果の波形を足し合わせた波形と、
単音に相当する時間区間の入力音響信号との平均自乗誤
差が最小となるようなフィルタ係数を求めるために、連
立方程式を作成する。フィルタとしてFIR型を用いる
ことにすれば、候補波形にフィルタ演算を適用した結果
の波形は yn (k) =Σm=0 M-1 n (m) rn (k−m) (1) と書ける。ここでkは標本化された時刻、nは候補波形
を数える添字、yn (k)はこのフィルタ演算を適用した
結果の波形、hはFIRフィルタのインパルス応答、r
は候補波形、Mはフィルタの次数である。すると、候補
波形にフィルタ演算を適用した結果の波形を足し合わせ
た波形と、この区分入力音響信号との平均自乗誤差は J=E[{z(k) −Σn=0 N-1 n (k) }2 ] (2) と書ける。ここでz(k) は区分入力音響信号波形、Nは
候補波形の数、Eは時間平均を表す。これを最小化する
ための必要条件は、全てのnとmに関して、偏微分∂J
/∂hn (m) が0となることである。この条件を用いる
と、N×M個の連立一次方程式 Σn=0 N-1 Σm=0 M-1 E[ri (k-j) rn (k-m) ]hn (m) =E[ri (k-m) z(k) ] (3) を導くことができる。方程式(3)を解くことによっ
て、入力音響信号を、最も少ない誤差で解釈するため
の、各候補波形に対するフィルタ係数を求めることがで
きる。各候補波形に対して式(1)のフィルタ演算を行
った結果得られる波形の平均パワーが大きいと、その候
補波形が入力音響信号中に大きい割合で含まれていると
判断できる。そこで、ステップ202で選択された候補
波形の種類を音源種類候補とし、上記フィルタ演算の結
果の平均パワーを、その音源種類が入力音響信号中に含
まれている確信度として出力する(ステップ204)。
【0014】図10は、音源種類候補生成手段2によっ
て生成された、音源種類候補の情報をともなった単音を
示したものである。図は、横方向が時間を、また縦方向
が単音の音高を表す。それぞれの四角形が単音を表す。
四角形の上部の数字は、単音の通し番号と、音高を表す
番号である(例えば11−58は、音高番号が58番
の、通し番号11番の単音である)。それぞれの四角形
に表示されているバーグラフは、上位3位までの音源種
類に対する確信度を示している。音源種類がバイオリン
はVで、フルートはFで、ピアノはPでそれぞれ示して
いる。
【0015】単音関連性評価手段3、単音グラフ作成手
段4、および音源種類選択手段5が、この発明の中心を
なす部分である。単音関連性評価手段3(図4)では、
はじめに、単音抽出手段1で得た単音抽出結果を読み込
み(ステップ301)、それぞれの単音を一つずつ選択
しながら処理を行う。まず、選択した単音(これを単音
Aとよぶ)に対して、その読み込んだ単音中に関連性の
ある単音があるかどうかを検索する(ステップ30
2)。もしなければ、次の単音を選択するが、選択でき
る単音がなければ処理を終了する。もし単音Aと関連性
のある単音が検索されれば、その単音(これを単音Bと
よぶ)と単音Aとの関連性の高さを評価する。このこと
は逆に単音Aから単音Bへの遷移の現れにくさによって
も評価することができる。つまり遷移の現れにくさが小
さい程、関連性が高いことになり、この評価は次のよう
にして行うことができる。なお、以下で、単音Bは単音
Aよりも発音開始時刻が前であるとする。
【0016】まず、単音Bと単音Aの音色の非類似性P
1 を評価する(ステップ303)。これは、音源種類候
補生成手段2で得た確信度をベクトルと見て、そのノル
ムの値を用いて行う。確信度が0〜1までの範囲の値で
ある方が良いので、例えば、単音Bの確信度が フルート 0.8 バイオリン 0.3 ピアノ 0.1 であり、単音Aの確信度が フルート 0.7 バイオリン 0.8 ピアノ 0.3 であったならば、音色間の距離Dは、次式で求められ
る。
【0017】 D={(0.8−0.7)2 +(0.3−0.8)2 +(0.1−0.3)2 1/2 (4) この距離の値Dを、予め一連の旋律中に現れる単音につ
いてどの程度の距離Dをもった単音が現れるかの統計
(ヒストグラム)をとっておけば、(4)式で求められ
た距離の値を、確率値に変換することができる。この確
率値をP1 として単音Bと単音Aの類似性の評価値とす
る。
【0018】次に、単音Bと単音Aの音高の関係を評価
する(ステップ304)。これは、予め対象とする楽曲
のジャンル(ジャズ、ポップスなど)において、音高の
遷移の統計をとっておき、この統計データに基づいて行
う。例えば、単音Bの音高がC4(「中央ド」)であ
り、単音Aの音高がE4(そのすぐ上の「ミ」)であっ
たならば、統計データを参照してドからミへの遷移の現
れる確率P2 を得て、音高の関係の評価値とする。
【0019】次に、単音Bと単音Aの時間関係を評価す
る(ステップ305)。すなわち、単音Bの終了時刻を
B とし、単音Aの開始時刻をtA とすると、次式を時
間関係の評価値とする。 W(δt)=exp((tB −tA )/τ) (5) τは時定数であり、Wは単音A,B間の遷移、つまり
「音の流れやすさ」の評価尺度における時間窓に相当す
る。この値が小さいほど、単音Bと単音Aの時間的な関
係が密接であることを表す。
【0020】次に、単音Bと単音Aの役割を評価する
(ステップ306)。ここで、単音の役割とは、主旋律
(アンサンブル演奏の場合、その時刻において最高音と
なることが多い)、ベースライン(同、最低音となるこ
とが多い)などのような、演奏における音楽的な役割の
ことである。ある役割をもつ音は、同じ役割をもつ音と
の連続性が大きいと考えられる。この役割の評価も遷移
の現われやすさとして次のように確率で表すことができ
る。
【0021】 P3 (nk ,nk-1 )=P(Sk |Sk-1 ) Sk はk番目の単音の役割を表し、これを単音の役割可
担性と呼ぶ、例えばP(Sk |Sk-1 )はnk-1 が最高
(最低)音であったときnk も最高(最低)音である確
率を表す。この役割可担性は次式のようにN−gram
の形を用いて表すこともできる。
【0022】 P3 =P(Sk |Sk-1 ,Sk-2 ,…,Sk-N+1 ) Sk-1 ,Sk-2 ,…,Sk-N+1 はそれぞれ最高音又は最
低音であり、この系列の次のSk が最高(最低)音であ
る確率がP3 である。P3 は統計的分析によって得るこ
とができるが、次の実験式として求めることもできる。
【0023】P3 =aq+b a,bは定数で、qは既存の単音の内の音の流れ(mu
sic stream)上の最大10個前までの単音に
占める最高(最低)音であった単音の割合である。次
に、ステップ303〜ステップ306で得られた評価値
を統合して出力する(ステップ307)。評価値の統合
は、それぞれの評価値の対数の重みつきの和 Z(A,B)=WΣi {−wi log Pi ( A,B)} を計算することによって行う。この評価値が小さいほ
ど、単音Bと単音Aの関連性が高いことを表す。続い
て、ステップ302に戻って、次の単音の組合せを選択
して、関連する可能性のある全ての組合せを評価するま
で処理を繰り返す。
【0024】単音グラフ作成手段4(図5)では、単音
をノードとし、いわゆる最急降下法によって、局所的に
最も関連性の高い単音どうし、つまり前記Zが最小とな
る方向に順次単音をリンクで結びつけて、時間を追って
順次グラフを生成する処理を行う。まず、音源種類候補
生成手段2で生成された、音源種類候補の情報をともな
った単音のうちで、未処理の単音を検索し(ステップ4
01)、未処理の単音がなければ処理を終了する。未処
理の単音があれば、その単音(これを単音Aとする)の
ノードを作成する(ステップ402)。次に、単音関連
性評価手段3の処理結果を用いて、既に作成した単音ノ
ード(単音Aよりも早い開始時刻をもつ単音に対応す
る)の中から、単音Aと最大の関連(Zが最小)をもつ
単音(これを単音Bとする)を選択する(ステップ40
3)。続いて、単音Bから見て単音Aが最大の関連(Z
が最小)をもつかどうかを調べ(ステップ404)、も
しもたないならば、ステップ401に戻り、もしもつな
らば、単音Bに既に下位の(時間的に後の)リンクが存
在しているかどうかを調べる(ステップ405)。もし
なければ、直ちに、またもし既にリンクがあれば、これ
を切断した上で(ステップ406)、単音Bのノードか
ら単音Aのノードにリンクを作成して(ステップ40
7)、ステップ401に戻る。このようにして作成され
たグラフは、強い関連をもつ単音のつながりをグラフの
構造として表現したものである。
【0025】図12に示すように、新ノードnk から既
存ノードnのリンク候補l1 〜l4のうちで、最大の関
連があるものl1 を選択し、そのリンクl1 で接続され
るノードnk-3 からのリンク候補g1 〜g3 のうちで最
も関連があるものg1 を選択し、l1 =g1 であれば、
それをリンクとし、ノードnk-3 からリンクg1 以外の
方向にリンクが存在していれば、そのリンクは切断す
る。
【0026】音源種類選択手段5では、単音グラフ作成
手段4で作成されたグラフを用いて、単音の音源種類確
信度を更新した上で、確信度最大の音源種類を選択す
る。音源種類確信度の更新の基礎となる原理はベイズの
定理に基づくものであり、原理としては公知のもの(例
えば、柏野邦夫ほか:「音楽情景分析の処理モデルOP
TIMAにおける単音の認識」、電子情報通信学会論文
誌、J79−D−II、pp.1751−1761、19
96年11月)である。この原理に基づいて確信度の更
新を行うグラフは、ベイジアンネットワークと呼ばれ
る。
【0027】ベイジアンネットワークによれば、各ノー
ドにおける確信度ベクトル(ここでは、音源種類候補に
対する確信度)と、リンクで結ばれたノード間の条件付
確率とを与えることによって、ノードの確信度ベクトル
を、リンクを考慮した上での値に更新することができ
る。これは、各ノードにおける確信度ベクトルを、その
ノードよりも上位(ここでは、時間的に前)のノードに
よってもたらされるそのノードへの影響πと、そのノー
ドよりも下位のノードによってもたらされるそのノード
への影響λとの積で与えられることと、λとπとが、グ
ラフ上をそれぞれ上位方向・下位方向にたどりながら順
次定めることができるという性質によるものである。
【0028】単音グラフ作成手段4(図6)において
は、まず、下位方向から上位方向にたどりながら、各ノ
ードにおけるλ値を計算する(ステップ501)。次
に、グラフを上位方向から下位方向にたどりながら、各
ノードにおけるπ値を計算する(ステップ502)。こ
の後、各ノードにおいて、λ値とπ値との積を計算する
ことにより、各ノードでの確信度が求められる(ステッ
プ503)。最後に、各ノードで確信度最大の音源種類
候補を出力する(ステップ504)。
【0029】ステップ501から503を簡単な例で説
明する。ノードAとノードBが、この順にリンクで結ば
れており、ノードAには、音源種類候補と確信度が が、またノードBには、 と与えられているとする。さらに、リンクで結ばれてい
る単音が同じ音源種類で演奏されている確率を0.9、
違う音源種類で演奏されている確率を0.1とする(こ
れらの値は、単音関連性評価過程で計算される単音どう
しの関連性の強さによって変えることも考えられる)。
このとき、ステップ501では、下位ノードであるノー
ドBのλA を用いてノードAのλA を更新する。更新式
は、ベイジアンネットワークにおける情報伝搬法より、 と与えられるので(αは正規化定数)、 となる(ステップ501)。次に、ノードAのπA を用
いてノードBのπB を更新する。更新式は、ベイジアン
ネットワークにおける情報伝搬法より、ノードBのほか
にはノードAから直接リンクのつながっているノードが
ない場合には、 と与えられる(βは正規化定数)。この例では、πA
等確率と仮定すると、単にπB も等確率となる(ステッ
プ502)。結局、ノードAの音源種類候補における確
信度Pを計算すると、πとλの積より、 と計算でき(ステップ503)、フルートの可能性が高
いノードBと関連が強いという情報によって、ノードA
がフルートの単音である可能性が、以前に増して強まっ
たことが分かる。なお図10の単音ノードに対し、単音
からの作成処理及び音源種類仮説選択処理中のステップ
503までの処理を行った単音グラフを図11に示す。
【0030】前記評価値の統合した値Zにおける各評価
値の重みwi としては例えば音色類似性に対してはw1
=1.0、音高遷移性に対してはw2 =0.35、役割
可担性についてはw3 =1.0、a=0.8、b=0.
1時間関係についてはτ=2秒とそれぞれ選定される。
なおこれら評価値は少くとも1つ用いればよく、この場
合、前記重みwi が小さいもの程、省略可能である。関
連性評価をZで定義して、Zが最小となるように単音を
順次つないだが、関連性が高いものを順次つなぐように
関連性評価をしてもよい。
【0031】
【発明の効果】次に、この発明を適用した装置の認識精
度を評価する実験について述べる。実験では、テスト曲
として3パートのアンサンブルにアレンジした図14に
示す曲を用いた。その曲を高音のパートから順にバイオ
リン、フルート、およびピアノで演奏し、スタジオでモ
ノラル収録して実験用の音響信号試料とした。
【0032】この実験では音源同定処理の精度を測るた
め、音高と時刻については人手で正解を与えて実験し
た。実験に用いたパラメータ値w1 〜w3 、τ,a,b
は先に例として上げたものを用いた。音源同定精度Rの
定義は R=100((right −wrong )/total ・1/2 +1/2
)(%) とした。rightは出力に含まれる音符のうち音高と
音色の両方が正しく認識された音符の数、wrongは
出力に含まれる音符のうち、音高と音色のどちらか又は
両方が正しくない音符の数、totalは入力(正解)
に含まれる総音符数である。テンプレートフィルタリン
グのタップ数は40とした。テスト曲の演奏は、テンプ
レートの蓄積に用いたものとは別の各楽器個体を用い
た。
【0033】図10は、既に述べたように、音源種類候
補生成手段2によって出力された音源種類候補である。
また図11は、音源種類選択手段のステップ503まで
の処理を行った結果である。図10と図11を比較する
と、バイオリンのパート、フルートのパート、ピアノの
パートが正しくリンクによって結ばれ、確信度の更新に
よって、各ノードにおいてはそれぞれのパートに対応す
る音源種類の確信度が最大となっていることが分かる。
【0034】図13に実験結果の同定確度を、図15に
記載結果を楽譜形式でそれぞれ示し、図15Aは従来法
の結果、図15Bはこの発明方法の結果であり、また音
価の同定処理は行わず、全て四分音符として実時間上に
示している。図15、A、Bを比較すると、この発明方
法によればいくつかの音符の同定誤りが正しく修正され
ていることがわかる。
【0035】また図13によれば単音関連性評価手段3
で用いた3つの要因は、音源同定精度の改善に対してい
ずれも効果的であり、3つ全てを用いた場合には、これ
ら関連情報を用いない場合に比べ、誤りをおよそ2/3
に減少させることができた。また音高遷移性と音色類似
性については単独で用いただけでは、音源同定精度に対
してはかえって低下させる結果となっている。この図1
4からは役割可担性のみを用いてもよく、また、音高遷
移性と音色類似性の組合せ、音高遷移性と役割可担性の
組合せ、音色類似性と役割可担性の組合せの順に音源同
定精度がよくなっている。全体を用いると、関連性情報
(単音間の音の流れ)を考慮しない場合は66.3%で
あった音源同定精度が、関連情報を考慮したこの発明に
よれば78.9%まで向上した。
【0036】実験の結果をまとめると、音源種類判定の
正解率は関連性情報を適用しない場合は66.3[%]
であるが、関連性情報を適用した場合は78.9[%]
に向上した。関連性情報の適用、すなわちこの発明の中
心部分である単音関連性評価過程、単音グラフ作成過
程、および音源種類選択過程の処理により、音源種類判
定の正解率が向上していることが分かる。
【0037】以上、説明したように、この発明によれ
ば、音楽演奏における単音の音楽的なつながりを考慮し
て楽器種類の判別を行うことによって、同時に数多くの
単音が発音している場合や、一連の演奏において単音の
性質が局所的に大きく変動するような場合であって、従
来の方法に比較して高い精度で音楽演奏に含まれる楽器
音の音源種類判別処理を行うことができる。
【図面の簡単な説明】
【図1】この発明による音楽演奏に含まれる楽器音の音
源種類判別方法を適用した機能構成を示すブロック図。
【図2】図1中の単音抽出手段1の処理手順を示す流れ
図。
【図3】図1中の音源種類候補生成手段2の処理手順を
示す流れ図。
【図4】図1中の単音関連性評価手段3の処理手順を示
す流れ図。
【図5】図1中の単音グラフ作成手段4の処理手順を示
す流れ図。
【図6】図1中の音源種類選択手段5の処理手順を示す
流れ図。
【図7】入力音響信号波形の一例を示す図。
【図8】図7の波形に対して周波数解析を行った結果得
られたスペクトログラムを示す図。
【図9】図8のスペクトログラムに対して周波数成分抽
出処理を行った結果を示す図。
【図10】図9の周波数成分に対して単音抽出処理およ
び音源種類仮説生成処理を行って得られた単音ノードを
示す図。
【図11】図10の単音ノードに対して、単音グラフ作
成処理および音源種類仮説選択処理の中のステップ50
3までの処理を行った結果を示す図。
【図12】単音グラフ作成の説明図。
【図13】テスト曲に対する音源同定実験結果を同定確
度として示した図。
【図14】この発明方法による処理精度を評価する実験
に用いた楽譜を示す図。
【図15】前記実験結果を楽譜形式で示した図で、Aは
従来法、Bはこの発明方法による図である。
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平6−67654(JP,A) 特開 平5−333857(JP,A) 特開 平4−261592(JP,A) 特開 平5−100660(JP,A) 特開 平5−181464(JP,A) (58)調査した分野(Int.Cl.7,DB名) G10H 1/00 - 1/00 102 G10G 1/00 - 3/04

Claims (3)

    (57)【特許請求の範囲】
  1. 【請求項1】 音楽演奏の音響信号に含まれている単音
    を抽出する単音抽出過程と、 上記抽出された単音の音源種類(単音を演奏している楽
    器名)の候補を、その各候補に対する確信度とともに出
    力する音源種類候補生成過程と、 一連の音楽演奏において、各単音の関連性の高さを
    価する単音関連性評価過程と、 上記音源種類候補生成過程および上記単音関連性評価過
    程の各出力に基づいて、単音をノードとし、関連性の高
    い単音どうしをリンクとして表現したグラフを作成する
    単音グラフ作成過程と、 この単音グラフ作成過程によって作成された単音グラフ
    上で、関連性の強い単音は同一の楽器種類で演奏される
    可能性が大きいという音楽の一般的性質を利用して、上
    記音源種類候補生成過程によって出力された音源種類候
    補に対する確信度を変更した上で、最も確信度の高い音
    源種類候補を選択して出力する音源種類選択過程とを有
    することを特徴とする、音楽演奏に含まれる楽器音の音
    源種類判別方法。
  2. 【請求項2】 上記単音関連性評価過程は、異なる二つ
    の単音どうしの関連性を、音高の遷移確率、音色の類似
    性、および時間の近接性の、少くとも一つについてのそ
    れぞれの評価値を用いて評価することを特徴とする請求
    項1記載の音楽演奏に含まれる楽器音の音源種類判別方
    法。
  3. 【請求項3】 上記単音グラフ作成過程は、単音をノー
    ドとし、関連性の高い単音どうしをリンクとして、上記
    音源種類選択過程での上記確信度の変更を、確率値の伝
    搬によって行うことができるベイジアンネットワークを
    作成することを特徴とする請求項1または2記載の音楽
    演奏に含まれる楽器音の音源種類判別方法。
JP12586497A 1997-05-15 1997-05-15 音楽演奏に含まれる楽器音の音源種類判別方法 Expired - Fee Related JP3508978B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP12586497A JP3508978B2 (ja) 1997-05-15 1997-05-15 音楽演奏に含まれる楽器音の音源種類判別方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP12586497A JP3508978B2 (ja) 1997-05-15 1997-05-15 音楽演奏に含まれる楽器音の音源種類判別方法

Publications (2)

Publication Number Publication Date
JPH10319948A JPH10319948A (ja) 1998-12-04
JP3508978B2 true JP3508978B2 (ja) 2004-03-22

Family

ID=14920833

Family Applications (1)

Application Number Title Priority Date Filing Date
JP12586497A Expired - Fee Related JP3508978B2 (ja) 1997-05-15 1997-05-15 音楽演奏に含まれる楽器音の音源種類判別方法

Country Status (1)

Country Link
JP (1) JP3508978B2 (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001027895A (ja) * 1999-07-14 2001-01-30 Canon Inc 信号分離方法及び装置
DE60038535T2 (de) 1999-08-26 2009-07-02 Sony Corp. Verfahren und vorrichtung, speicherverfahren und - vorrichtung zur informationsbeschaffung und verarbeitung
KR100671505B1 (ko) * 2005-04-21 2007-02-28 인하대학교 산학협력단 베이즈법을 적용한 악기신호의 인식 및 장르분류 방법
RU2427077C2 (ru) * 2005-12-05 2011-08-20 Телефонактиеболагет Лм Эрикссон (Пабл) Обнаружение эхосигнала
JP2007193222A (ja) * 2006-01-20 2007-08-02 Casio Comput Co Ltd メロディ入力装置及び楽曲検索装置
JP2007240552A (ja) * 2006-03-03 2007-09-20 Kyoto Univ 楽器音認識方法、楽器アノテーション方法、及び楽曲検索方法
JP4333700B2 (ja) * 2006-06-13 2009-09-16 ソニー株式会社 和音推定装置及び方法
WO2009101703A1 (ja) * 2008-02-15 2009-08-20 Pioneer Corporation 楽曲データ分析装置及び楽器種類検出装置、楽曲データ分析方法及び楽器種類検出装置並びに楽曲データ分析用プログラム及び楽器種類検出用プログラム
JP4666320B2 (ja) * 2008-05-08 2011-04-06 Necエンジニアリング株式会社 リミッタ・コンプレッサ装置
KR101092228B1 (ko) * 2009-12-21 2011-12-12 세종대학교산학협력단 음원 분류를 위한 악기 인식 시스템 및 방법
JP2013015601A (ja) * 2011-07-01 2013-01-24 Dainippon Printing Co Ltd 音源の識別装置および音源に連動する情報処理装置
CN103854644B (zh) * 2012-12-05 2016-09-28 中国传媒大学 单声道多音音乐信号的自动转录方法及装置
JP6565548B2 (ja) * 2015-09-29 2019-08-28 ヤマハ株式会社 音響解析装置
CN111681674B (zh) * 2020-06-01 2024-03-08 中国人民大学 一种基于朴素贝叶斯模型的乐器种类识别方法和系统

Also Published As

Publication number Publication date
JPH10319948A (ja) 1998-12-04

Similar Documents

Publication Publication Date Title
Turetsky et al. Ground-truth transcriptions of real music from force-aligned midi syntheses
US7064262B2 (en) Method for converting a music signal into a note-based description and for referencing a music signal in a data bank
Marolt A connectionist approach to automatic transcription of polyphonic piano music
US7035742B2 (en) Apparatus and method for characterizing an information signal
Dixon On the computer recognition of solo piano music
Goto A robust predominant-F0 estimation method for real-time detection of melody and bass lines in CD recordings
Brossier Automatic annotation of musical audio for interactive applications
Eronen Automatic musical instrument recognition
Klapuri et al. Robust multipitch estimation for the analysis and manipulation of polyphonic musical signals
Yoshii et al. Drum sound recognition for polyphonic audio signals by adaptation and matching of spectrogram templates with harmonic structure suppression
Klapuri Musical meter estimation and music transcription
JP3508978B2 (ja) 音楽演奏に含まれる楽器音の音源種類判別方法
Zhu et al. Precise pitch profile feature extraction from musical audio for key detection
Zhu et al. Music key detection for musical audio
US6766288B1 (en) Fast find fundamental method
Vincent et al. Instrument identification in solo and ensemble music using independent subspace analysis
Wager et al. Deep autotuner: A pitch correcting network for singing performances
Heydarian Automatic recognition of Persian musical modes in audio musical signals
Giannoulis et al. Improving instrument recognition in polyphonic music through system integration
Li et al. Pitch detection in polyphonic music using instrument tone models
Gillet et al. Drum Track Transcription of Polyphonic Music Using Noise Subspace Projection.
Kitahara et al. Instrogram: A new musical instrument recognition technique without using onset detection nor f0 estimation
JP3934556B2 (ja) 信号識別子の抽出方法及びその装置、信号識別子からデータベースを作成する方法及びその装置、及び、検索時間領域信号を参照する方法及びその装置
Yin et al. Music transcription using an instrument model
Chuan et al. The KUSC classical music dataset for audio key finding

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7426

Effective date: 20031218

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20031218

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090109

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090109

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100109

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees