JP4973537B2 - 音響処理装置およびプログラム - Google Patents

音響処理装置およびプログラム

Info

Publication number
JP4973537B2
JP4973537B2 JP2008037654A JP2008037654A JP4973537B2 JP 4973537 B2 JP4973537 B2 JP 4973537B2 JP 2008037654 A JP2008037654 A JP 2008037654A JP 2008037654 A JP2008037654 A JP 2008037654A JP 4973537 B2 JP4973537 B2 JP 4973537B2
Authority
JP
Japan
Prior art keywords
peak
matrix
similarity
unit
section
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008037654A
Other languages
English (en)
Other versions
JP2009198581A5 (ja
JP2009198581A (ja
Inventor
ビースァン オン
セバスチャン シュトライヒ
琢哉 藤島
慶太 有元
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2008037654A priority Critical patent/JP4973537B2/ja
Priority to EP09152985.9A priority patent/EP2093753B1/en
Priority to US12/378,719 priority patent/US8494668B2/en
Publication of JP2009198581A publication Critical patent/JP2009198581A/ja
Publication of JP2009198581A5 publication Critical patent/JP2009198581A5/ja
Application granted granted Critical
Publication of JP4973537B2 publication Critical patent/JP4973537B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/056Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction or identification of individual instrumental parts, e.g. melody, chords, bass; Identification or separation of instrumental parts by their characteristic voices or timbres
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/066Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for pitch analysis as part of wider processing for musical purposes, e.g. transcription, musical performance evaluation; Pitch recognition, e.g. in polyphonic sounds; Estimation or use of missing fundamental
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/131Mathematical functions for musical analysis, processing, synthesis or composition
    • G10H2250/135Autocorrelation

Description

本発明は、音楽的な特徴が類似する複数の区間の反復を音響信号から検出する技術に関する。
演奏音の音楽的な特徴が所定の条件を満たす区間を楽曲のなかから特定する様々な技術が従来から提案されている。例えば特許文献1には、楽曲の演奏音を収録した音響信号のうち音楽的な特徴が相類似する複数の区間を適宜に統合することで楽曲のサビの区間を特定する技術が開示されている。
特開2004−233965号公報
特許文献1の技術によれば、音楽的な構造が単純で明瞭な楽曲(例えばイントロやサビの配置が明瞭なポップスやロックの楽曲)においてサビが長時間にわたって連続する場合には、サビの区間を高精度に特定することが可能である。しかし、楽曲のサビ(chorus, refrain)の特定のみを目的とする特許文献1の技術では、時間長の短い区間が連続して反復される区間(例えば、電子音楽の楽曲のうち1小節や2小節程度の短い区間を単位としてドラムスやベースやリズムギターの演奏音が反復される区間)を高精度に特定することは困難である。以上の事情に鑑みて、本発明は、楽曲のなかで短い区間が反復される区間についても高精度に特定するという課題の解決をひとつの目的とする。
以上の課題を解決するために、本発明に係る音響処理装置は、複数の反復区間が配列されたループ領域を音響信号から特定する装置であって、複数の単位区間の各々について音響信号の特徴量を抽出する特徴抽出手段と、各単位区間の特徴量の相互間の類似度を算定する類似度算定手段と、音響信号と時間差を付与した音響信号とにおける単位区間の特徴量の類似度が高い領域に対応した類似線分を、時間軸と時間差軸とを含む平面に配置した類似度マトリクスを生成する第1マトリクス生成手段と、類似度が高い区間の割合に応じた反復確度を類似度マトリクスにおける時間差毎に算定する確度算定手段と、反復確度の分布における複数のピークを特定するピーク特定手段と、ピーク特定手段が特定した各ピークの位置に基準線を配置した基準マトリクスを生成する第2マトリクス生成手段と、類似度マトリクスの時間軸上における複数の時点の各々について、当該時点に対応した位置に配置された基準マトリクスの各基準線と類似度マトリクスの各類似線分との相関値を算定する相関算定手段と、相関値の分布におけるピークを基準としてループ領域を特定する区間特定手段とを具備する。
以上の構成においては、類似度マトリクスから算定された反復確度の分布における各ピークの位置に応じて設定された基準マトリクスを類似度マトリクスと照合することでループ領域が特定されるから、時間長の短い反復区間で構成されるループ領域についても高精度に検出することが可能である。
本発明の好適な態様において、ピーク特定手段は、反復確度の分布におけるピークの周期を特定する周期特定手段と、反復確度の分布において周期特定手段が特定した周期で現れる複数のピークを選択するピーク選択手段とを含む。周期特定手段による周期の特定には、自己相関演算や周波数分析(フーリエ変換)など公知の技術が任意に利用される。
ところで、反復確度の分布から特定されるピークの個数が多過ぎると(すなわち基準マトリクスのサイズが大き過ぎると)、短時間のループ領域を検出することが困難となる。一方、ピークの個数が少な過ぎると、短時間の反復を含む多数の区間がループ領域として検出される。そこで、さらに好適な態様において、ピーク特定手段は、反復確度の分布から特定するピークの個数を所定の範囲内に制限する。以上の態様においては、ピーク特定手段の特定するピークの個数が所定の範囲内に制限されるから、適度な時間長のループ領域を高精度に特定できるという利点がある。例えば、短時間の反復もループ領域として検出するためには所定の閾値を下回る個数にピークの個数が制限され、短時間の反復の検出を抑制するためには所定の閾値を上回る個数にピークの個数が制限される。
相関値の分布におけるピークの位置からループ領域を特定するための方法は任意であるが、例えば、相関値の分布におけるピークの時点から、基準マトリクスのサイズに応じた基準長が経過するまでの区間をループ領域として特定する方法が好適である。ただし、例えば基準マトリクスのサイズを上回る時間長にわたってループ領域が継続する場合、相関値の分布から検出されるピークの頂上部が平坦である可能性がある。したがって、頂上部が平坦なピークが検出された場合、当該ピークの前縁を始点とし、基準マトリクスのサイズに応じた基準長がピークの後縁から経過した時点を終点とする区間をループ領域として特定する方法が好適に採用される。
以上の総ての態様に係る音響処理装置は、入力音の処理に専用されるDSP(Digital Signal Processor)などのハードウェア(電子回路)によって実現されるほか、CPU(Central Processing Unit)などの汎用の演算処理装置とプログラムとの協働によっても実現される。本発明のプログラムは、複数の反復区間が配列されたループ領域を音響信号から特定するためのプログラムであって、複数の単位区間の各々について音響信号の特徴量を抽出する特徴抽出処理と、各単位区間の特徴量の相互間の類似度を算定する類似度算定処理と、音響信号と時間差を付与した音響信号とにおける単位区間の特徴量の類似度が高い領域に対応した類似線分を、時間軸と時間差軸とを含む平面に配置した類似度マトリクスを生成する第1マトリクス生成処理と、類似度が高い区間の割合に応じた反復確度を類似度マトリクスにおける時間差毎に算定する確度算定処理と、反復確度の分布における複数のピークを特定するピーク特定処理と、ピーク特定処理で特定した各ピークの位置に基準線を配置した基準マトリクスを生成する第2マトリクス生成処理と、類似度マトリクスの時間軸上における複数の時点の各々について、当該時点に対応した位置に配置された基準マトリクスの各基準線と類似度マトリクスの各類似線分との相関値を算定する相関算定処理と、相関値の分布におけるピークを基準としてループ領域を特定する区間特定処理とをコンピュータに実行させる。本発明のプログラムによれば、以上の各態様に係る音響処理装置と同様の作用および効果が奏される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。
図1は、本発明の実施の形態に係る音響処理装置のブロック図である。図1に示すように、音響処理装置100には信号生成装置12が接続される。信号生成装置12は、楽曲の演奏音(楽音や音声)の時間波形を表す音響信号Vを生成して音響処理装置100に出力する。例えば、記録媒体(例えば光ディスクや半導体記憶回路)から音響信号Vを取得して出力する再生装置や、通信網から音響信号Vを受信して出力する通信装置が信号生成装置12として好適である。
音響処理装置100は、信号生成装置12から供給される音響信号Vについてループ領域を特定する。図2に示すように、ループ領域Lは、始点tBから終点tEにわたる楽曲のうち音楽的な特徴の類似する複数の区間(以下「反復区間」という)SRが連続的に反復されるひとつまたは複数の区間である。
図1に示すように、音響処理装置100は、制御装置14と記憶装置16とを具備する。制御装置14は、プログラムを実行することで図1の各要素として機能する演算処理装置(CPU)である。記憶装置16は、制御装置14が実行するプログラムや制御装置14が使用する各種のデータを記憶する。半導体記憶装置や磁気記憶装置など公知の記録媒体が記憶装置16として任意に採用される。なお、制御装置14の各要素はDSPなどの専用の電子回路でも実現される。また、制御装置14の各要素は複数の集積回路に分散して配置されてもよい。
図1の特徴抽出部22は、音響信号Vを時間軸上で区分した複数の単位区間(フレーム)の各々について音響信号Vの音響的な特徴量Fを抽出する。単位区間は、反復区間SRと比較して充分に短い時間長に設定される。特徴量Fの好例はPCP(Pitch Class Profile)である。PCPは、音響信号Vの周波数スペクトルを1オクターブに相当する周波数帯域毎に分割して各々を加算したスペクトルにおいて、12個の半音階(C,C#,D,……,A#,B)の各々に対応する周波数成分の強度値の集合(すなわち、各半音階に対応する周波数成分の強度を複数のオクターブにわたって加算した数値を要素とする12次元ベクトル)である。したがって、離散フーリエ変換(短時間フーリエ変換)を含む周波数分析を音響信号Vに対して実行する手段が特徴抽出部22として好適である。なお、PCPについては特開2000-298475号公報に詳述されている。もっとも、本発明で利用される特徴量Fの種類はPCPに限定されない。
類似度算定部24は、各単位区間の特徴量Fの相互間の類否の指標となる数値(以下「類似度」という)SMを算定する。さらに詳述すると、類似度算定部24は、複数の単位区間から2個の単位区間を選択する全通りの組合せについて各単位区間の特徴量Fの類似度SMを算定する。特徴量Fがベクトルとして記述される場合、例えば各単位区間の特徴量Fのユークリッド距離やコサイン角が類似度SMとして算定される。
図3は、類似度算定部24による算定の結果を示す概念図である。図3においては、ひとつの楽曲の始点tBから終点tEまでの時間の経過が縦軸と横軸とに図示されている。類似度SMが高い2個の単位区間の組合せに相当する地点が太線で図示されている。直線Aは、楽曲内の同じ単位区間について算定される類似度SMが最大(特徴量Fの一致)であることを意味する。図3においては直線Aを挟んで一方の領域(右上の領域)のみに類似度SMが図示されている。図3に示すように、楽曲のうち時点t1から時点t2までの区間s1と、時点t2から時点t3までの区間s2と、時点t3から時点t4までの区間s3とについて特徴量Fの類似度SMが高い場合を以下では想定する。
図1のマトリクス生成部26は、類似度算定部24が算定した類似度SMに基づいて類似度マトリクスMAを生成する。図4は、類似度マトリクスMAの内容を例示する概念図である。図4に示すように、類似度マトリクスMAは、時間軸に沿ってシフト量dだけ遅延させた音響信号Vの各単位区間の特徴量Fと遅延前の音響信号Vの各単位区間の特徴量Fとの類似度SMを、時間軸Tと時間差軸D(シフト量d)とを含むT-D平面内に表現した行列である。時間軸Tは、楽曲の始点tBから終点tEまでの時間の経過を示す。また、時間差軸Dは、時間軸に沿った音響信号Vのシフト量(遅延量)dを示す。図4に太線で図示したように、類似度マトリクスMAには、楽曲のうち他の単位区間との類似度SMが高い単位区間を示す線分(以下「類似線分」という)GAが描画される。
図3に例示したように区間s1(t1〜t2)と区間s2(t2〜t3)とでは各単位区間の特徴量Fが類似するから、図5に示すように、時間長(t2−t1)だけ遅延させた音響信号Vの区間s1の特徴量Fは、遅延前の音響信号Vのうち当該区間s1に時間軸上で対応する区間s2の特徴量Fに類似する。したがって、図4に示すように、類似度マトリクスMAにおける時間差軸Dのうちシフト量dが(t2−t1)である時点には、時間軸Tのうち区間s2に対応する類似線分GA(X1〜X2)が描画される。点X1は図3の点X1aに対応し、点X2は図3の点X2aに対応する。同様に、点X2から点X3(図3の点X3aに対応する点)までの類似線分GAは、楽曲の区間s2(t2〜t3)と区間s3(t3〜t4)とで各単位区間の類似度SMが高いことを意味する。また、図5に示すように時間長(t3−t1)だけ遅延させた音響信号Vの区間s1(t1〜t2)と遅延前の音響信号Vの区間s3(t3〜t4)とで特徴量Fが類似することは、図4の類似度マトリクスMAのうち点X4(図3の点X4aに対応)から点X5(図3の点X5aに対応)までの類似線分GAで表現される。
図1に示すように、マトリクス生成部26は、時間/時間差特定部262と雑音除去部264とで構成される。時間/時間差特定部262は、類似度算定部24が算定した類似度SMをT-D平面に配列する。雑音除去部264は、時間/時間差特定部262による処理後の類似度SMに対して閾値処理とフィルタ処理とを実行する。閾値処理は、類似度算定部24が算定した類似度SMを所定の閾値との大小に応じて2値化する処理である。すなわち、閾値を上回る類似度SMは第1値b1(例えば「1」)に変換され、閾値を下回る類似度SMは第2値b2(例えば「0」)に変換される。類似度マトリクスMAにおいて第1値b1が直線状に連続する区間が図4の類似線分GAに相当する。
なお、少数の単位区間のみで類似度SMが高くなる場合には、類似度マトリクスMA内において第2値b2の分布する領域内に少数の第1値b1が点在する場合がある。また、実際には音楽的に類似する区間であっても僅かな単位区間にて特徴量Fが非類似となる場合があるから、第1値b1の複数の配列が僅かな間隔(第2値b2の領域)をあけて時間軸Tの方向に離間する場合がある。雑音除去部264が実行するフィルタ処理(Morphological Filtering)は、閾値処理後にT-D平面に分散的に点在する第1値b1を除去する処理や、時間軸Tの方向に僅かな間隔をあけて配列する第1値b1の複数の配列を連結する処理を含む。すなわち、雑音除去部264は、所定長を上回る類似線分GA以外の第1値b1(雑音)をフィルタ処理によってT-D平面から除去する。以上の処理によって図4の類似度マトリクスMAが生成される。
図1の確度算定部32は、類似度マトリクスMAにおける時間差軸D上のシフト量d毎に反復確度Rを算定する。反復確度Rは、シフト量dだけ遅延させた音響信号Vの始点tBから遅延前の音響信号Vの終点tEまでの区間のうち類似度SMが高いと判定された区間(類似線分GA)の割合を示す数値である。例えば、図4に示すように、シフト量dに対応する反復確度R(d)は、当該シフト量dに対応した類似度SMの総数N(d)(シフト量dに対応する第1値b1および第2値b2の総数)のうち第1値b1に設定された類似度SMの個数nの割合(すなわち類似線分GAの長さの総和)として算定される(R(d)=n/N(d))。個数N(d)による除算は、シフト量d毎の個数N(d)の相違に依存しないように反復確度R(d)を正規化する処理である。類似度SMの総数N(d)は、音響信号Vの全区間(tB〜tE)からシフト量dを減算した区間の単位区間の総数に相当する。以上の定義から理解されるように、反復確度R(d)は、シフト量dだけ遅延させた音響信号Vと遅延前の音響信号Vとで相類似する区間(特徴量Fが相類似する単位区間の総数)の割合を示す指標である。
図4においては、確度算定部32が各シフト量dについて算定した反復確度Rの時間差軸Dに沿った分布(以下「確度分布」という)rが類似度マトリクスMAに併記されている。音響信号Vがループ領域Lを含む場合、確度分布rには、ループ領域L内の各反復区間SRの周期に相当する間隔をあけてピークPRが現れる。図1のピーク特定部34は、確度分布rにおけるm個(mは2以上の自然数)のピークPRを特定する。例えば以下に説明するように、確度分布rの自己相関演算を利用して各ピークPRが特定される。
ピーク特定部34は、周期特定部344とピーク選択部346とで構成される。周期特定部344は、確度分布rにおける各ピークPRの周期TRを特定する。周期TRの特定には確度分布rに対する自己相関演算が利用される。すなわち、周期特定部344は、第1に、確度分布rを時間差軸Dの方向に移動(シフト)させながら移動の前後の確度分布rの相関値(相互相関値)CAを算定することでシフト量Δと相関値CAとの関係を特定する。図6は、シフト量Δと相関値CAとの関係を示す概念図である。図6に示すように、シフト量Δが確度分布rの周期に接近するほど相関値CAは増大する。
第2に、周期特定部344は、自己相関演算の結果に基づいて確度分布rにおける各ピークPRの周期TRを特定する。例えば、周期特定部344は、図6に示すように、相関値CAの分布に現れる多数のピークのうちシフト量Δがゼロの地点からみて所定個のピークについて相隣接する各ピークの間隔Δpを算定し、間隔Δpの最大値を確度分布rにおけるピークPRの周期TRとして特定する。
図1のピーク選択部346は、確度分布rの複数のピークPRのうち周期特定部344が特定した周期TRで現れるm個のピークPRを選択する。図7は、ピーク選択部346が確度分布rからピークPRを選択する処理を説明するための概念図である。なお、図7においては確度分布rの各ピークPRが便宜的に縦線として図示されている。図7に示すように、ピーク選択部346は、確度分布rの複数のピークPRのうち反復確度Rが最大となるひとつのピークPR0を選択し、ピークPR0から時間差軸Dの正方向および負方向に周期Tの整数倍だけ離間した地点を中心とする所定の範囲a内に存在するピークPRを選択する。
ピーク選択部346は、確度分布rから選択するピークPRの個数mを閾値TH1(例えばTH1=5)以下に制限する。例えば、確度分布rから検出されるピークPRの個数が閾値TH1を上回る場合には、時間差軸Dの原点に近いm個(m=TH1)のピークPRを選択する。一方、楽曲が明瞭なループ領域Lを含まない場合には確度分布rのピークPRの個数は少ないから、確度分布rから検出されるピークPRの個数mが所定の閾値TH2(TH2<TH1、例えばTH2=3)を下回る場合、ピーク選択部346は、楽曲がループ領域Lを含まないことを画像の表示や音声の出力によって利用者に報知する。すなわち、ピーク選択部346が最終的に選択するピークPRの個数mは閾値TH1以下かつ閾値TH2以上の範囲内に制限される。閾値TH1や閾値TH2は利用者からの指示に応じて可変に制御される。なお、ピーク特定部34が4個のピークPRを特定した場合(m=4)を以下では想定する。
図1のマトリクス生成部36は、ピーク特定部34が特定したm個のピークPRの位置に基づいて基準マトリクスMBを生成する。図7においては、基準マトリクスMBが確度分布rに併記されている。基準マトリクスMBは、M行M列(Mは2以上の自然数)の正方行列である。基準マトリクスMBの第1列は時間差軸Dの原点に対応し、基準マトリクスMBの第M列は、時間差軸Dのうちピーク特定部34が特定した第m番目のピークPR(m個のピークPRのうち時間差軸Dの原点から最遠のピークPR)の位置に対応する。すなわち、基準マトリクスMBのサイズ(列数および行数)は、ピーク特定部34が特定した第m番目のピークPRの位置に応じて可変に設定される。
図7に示すように、マトリクス生成部36は、第1に、基準マトリクスMBのM列のうちピーク特定部34が特定した各ピークPRの位置(シフト量d)に対応するm個の列(以下「ピーク対応列」という)Cpを選択する。図7のピーク対応列Cp1は、時間差軸Dの原点(基準マトリクスMBの第1列)からみて第1番目のピークPRの位置に対応する列である。同様に、ピーク対応列Cp2は第2番目のピークPR(PR0)の位置に対応し、ピーク対応列Cp3は第3番目のピークPRの位置に対応し、ピーク対応列Cp4(第M列)は第4番目のピークPRに対応する。
第2に、マトリクス生成部36は、m個のピーク対応列Cpの各々に属するM個の数値のうち正対角線(第1行第1列から第M行第M列に至る直線)上から第M行までの数値を第1値b1(例えば「1」)に設定するとともに他の総ての数値を第2値b2(例えば「0」)に設定することで基準マトリクスMBを生成する。図7においては、第1値b1に設定された領域が太線で図示されている。
以上に説明したように基準マトリクスMBの各ピーク対応列Cpには、第1値b1を配列した直線(以下「基準線」という)GBが設定される。確度分布rにはループ領域L内の各反復区間SRに対応した周期でピークPRが現れる。したがって、類似度マトリクスMAのうちループ領域Lが存在する領域には、基準マトリクスMBの基準線GBに類似する態様で類似線分GAが存在する可能性が高い。
図1の相関算定部42は、マトリクス生成部26が生成した類似度マトリクスMA内の各領域とマトリクス生成部36が生成した基準マトリクスMBとを照合することで両者の相関値(相互相関値)CBを算定する。図8は、相関算定部42による処理の内容を説明するための概念図である。図8に示すように、類似度マトリクスMAの第1列(時間差軸Dの原点)と基準マトリクスMBの第1列とが合致するように基準マトリクスMBを類似度マトリクスMAに重ねて配置し、基準マトリクスMBを、第1行が時間軸Tの原点に合致する位置から時間軸Tの方向に移動させた各場合について相関値CBを算定する。
相関値CBは、基準マトリクスMBの各基準線GBの配列の態様(間隔や全長)と類似度マトリクスMAの各類似線分GAの配列の態様との相関(類否)の指標となる数値である。例えば、基準マトリクスMB内の各数値(b1,b2)と類似度マトリクスMAのうち基準マトリクスMBに重なるM行M列の領域内の各類似度SM(b1,b2)とで対応する数値を乗算して得られる複数(M×M個)の数値を加算することで相関値CBが算定される。
以上の処理によって、図8に示すように、類似度マトリクスMAの時間軸T上における複数の時点の各々について相関値CB(時間軸Tと相関値CBとの関係)が算定される。相関値CBの定義から理解されるように、基準マトリクスMBの各基準線GBと類似度マトリクスMAのうち基準マトリクスMBに対応する領域内の各類似線分GAとで態様が類似するほど相関値CBは増加する。
図1の区間特定部44は、相関算定部42が算定した相関値CBの分布に現れるピークを基準としてループ領域Lを特定する。図1に示すように、区間特定部44は、閾値処理部442とピーク検出部444と区間決定部446とで構成される。図9は、区間特定部44の各要素による処理の内容を説明する概念図である。
図9の部分(b)に示すように、閾値処理部442は、相関算定部42が算定した相関値CB(図9の部分(a))のうち所定の閾値THCを下回る成分を除去する。すなわち、閾値THCを下回る相関値CBがゼロに変更される。ピーク検出部444は、閾値処理部442による処理後の相関値CBの分布からピークPCを検出するとともに各ピークPCの位置LPを特定する。
基準マトリクスMBの行数Mに対応する時間長(以下「基準長」という)と楽曲内のループ領域Lの時間長とが略一致する場合、基準マトリクスMBが時間軸T上のループ領域Lに重なる場合だけ相関値CBの数値は増大する。したがって、図9の部分(b)に示すように、相関値CBの分布には頂上部が先鋭なピークPC(PC1)が現れる。先鋭なピークPCが検出されると、ピーク検出部444は、ピークPCの頂上部を位置LPとして特定する。一方、楽曲内のループ領域Lの時間長が基準長を上回る場合、基準マトリクスMBが時間軸T上のループ領域Lの範囲内で移動する限りは相関値CBが高い数値を維持する。したがって、相関値CBの分布には頂上部が平坦なピークPC(PC2,PC3)が現れる。平坦なピークPCが検出されると、ピーク検出部444は、ピークPCの後縁(立下がり時点)を位置LPとして特定する。
区間決定部446は、ピーク検出部444が検出した位置LPを基準としてループ領域Lを特定する。ピーク検出部444が先鋭なピークPC(PC1)の位置LPを検出した場合、区間決定部446は、位置LPを始点として基準長Wが経過する時点までの区間をループ領域L(m個の反復区間SRの集合)として特定する。また、ピーク検出部444が平坦なピークPC(PC2,PC3)の後縁の位置LPを検出した場合、区間決定部446は、ピークPCの前縁を始点として位置LPから基準長Wが経過する時点までの区間をループ領域Lとして特定する。すなわち、ピークPCが平坦である場合、ループ領域Lは、ピークPCの前縁から後縁までの区間に相当する個数の反復区間SRとm個の反復区間SRとを連結した区間となる。
以上の形態においては、類似度マトリクスMAから算定された確度分布rの各ピークPRの位置LPに応じて設定された基準マトリクスMBがループ領域Lの特定に利用されるから、時間長の短い反復区間SRで構成されるループ領域Lについても高精度に検出することが可能である。
また、基準マトリクスMBの生成に利用されるピークPRの個数mが多過ぎると(すなわち基準マトリクスMBの基準線GBの本数が多過ぎると)、長時間にわたって類似線分GAが基準マトリクスMBに類似するループ領域Lしか検出されないという問題がある。一方、ピークPRの個数mが少な過ぎると、過度に多数のループ領域Lが検出されるという問題がある。本形態においては、基準マトリクスMBの生成に利用されるピークPRの個数mが閾値TH1と閾値TH2との間に制限されるから、適度な時間長のループ領域Lを適切に検出できるという利点がある。
さらに、頂上部が先鋭なピークPCに加えて頂上部が平坦なピークPCも相関値CBの分布から検出され、かつ、平坦なピークPCについては、後縁(位置LP)から基準長Wが経過する時点までの区間がループ領域Lとして特定される。したがって、基準長Wを上回る時間長のループ領域Lも高精度に検出することが可能である。
<変形例>
以上の各形態には様々な変形が加えられる。具体的な変形の態様を例示すれば以下の通りである。なお、以下に例示する各態様を任意に組合わせてもよい。
(1)変形例1
確度分布rからピークPRを検出する方法は任意である。例えば、ピーク特定部34の周期特定部344は、図10に示すように、相関値CAの分布におけるシフト量Δの原点(Δ=0)から相関値CAの最大値(ピーク)の地点までの間隔を周期TRとして特定する。一方、ピーク選択部346は、図11に示すように、確度分布rにおける時間差軸Dの原点から正方向に周期TRの整数倍だけ離間した地点を中心とする所定の範囲a内に存在するピークPRを選択する。
また、確度分布rに現れるピークPRの周期TRを特定する方法は自己相関演算に限定されない。例えば、離散フーリエ変換などの周波数分析を確度分布rに対して実行することで確度分布rの周波数スペクトル(あるいはケプストラム)を特定し、周波数スペクトルのピークの周波数から周期TRを特定する構成が採用される。
(2)変形例2
ループ領域Lの検出の結果を利用する具体的な方法は任意である。例えば、音響処理装置100が検出したループ領域Lの各反復区間SRを適宜に連結することで新規な楽曲を編成することが可能である。また、ループ領域Lの検出の結果は楽曲の構成の分析(ループ領域Lの割合の測定)にも利用される。
本発明の実施形態に係る音響処理装置のブロック図である。 楽曲におけるループ領域および反復区間を示す概念図である。 類似度算定部による算定の結果を示す概念図である。 類似度マトリクスおよび確度分布を示す概念図である。 音響信号のシフト量と各区間の類否について説明するための概念図である。 相関値の分布を示す概念図である。 確度分布におけるピークの選択と基準マトリクスとを示す概念図である。 類似度マトリクスと基準マトリクスとの相関を算定する処理を示す概念図である。 ループ領域を特定する処理を示す概念図である。 確度分布のピークの周期を特定する方法の別例を示す概念図である。 確度分布のピークを検出する方法の別例を示す概念図である。
符号の説明
100……音響処理装置、12……信号生成装置、14……制御装置、16……記憶装置、22……特徴抽出部、24……類似度算定部、26……マトリクス生成部、262……時間/時間差特定部、264……雑音除去部、32……確度算定部、34……ピーク特定部、344……周期特定部、346……ピーク選択部、36……マトリクス生成部、42……相関算定部、44……区間特定部。

Claims (6)

  1. 複数の反復区間が配列されたループ領域を音響信号から特定する装置であって、
    複数の単位区間の各々について前記音響信号の特徴量を抽出する特徴抽出手段と、
    前記各単位区間の特徴量の相互間の類似度を算定する類似度算定手段と、
    前記音響信号と時間差を付与した前記音響信号とにおける前記単位区間の特徴量の類似度が高い領域に対応した類似線分を、時間軸と時間差軸とを含む平面に配置した類似度マトリクスを生成する第1マトリクス生成手段と、
    類似度が高い区間の割合に応じた反復確度を前記類似度マトリクスにおける時間差毎に算定する確度算定手段と、
    前記反復確度の分布における複数のピークを特定するピーク特定手段と、
    前記ピーク特定手段が特定した前記各ピークの位置に基準線を配置した基準マトリクスを生成する第2マトリクス生成手段と、
    前記類似度マトリクスの時間軸上における複数の時点の各々について、当該時点に対応した位置に配置された前記基準マトリクスの各基準線と前記類似度マトリクスの各類似線分との相関値を算定する相関算定手段と、
    前記相関値の分布におけるピークを基準として前記ループ領域を特定する区間特定手段と
    を具備する音響処理装置。
  2. 前記ピーク特定手段は、
    前記反復確度の分布におけるピークの周期を特定する周期特定手段と、
    前記反復確度の分布において前記周期特定手段が特定した周期で現れる複数のピークを選択するピーク選択手段と
    を含む請求項1の音響処理装置。
  3. 前記ピーク特定手段は、前記反復確度の分布から特定するピークの個数を所定の範囲内に制限する
    請求項1または請求項2の音響処理装置。
  4. 前記区間特定手段は、前記相関値の分布におけるピークの時点から、前記基準マトリクスのサイズに応じた基準長が経過するまでの区間をループ領域として特定する
    請求項1から請求項3の何れかの音響処理装置。
  5. 前記区間特定手段は、前記相関値の分布において頂上部が平坦なピークが検出された場合に、当該ピークの前縁を始点とし、前記基準マトリクスのサイズに応じた基準長がピークの後縁から経過した時点を終点とする区間をループ領域として特定する
    請求項1から請求項4の何れかの音響処理装置。
  6. 複数の反復区間が配列されたループ領域を音響信号から特定するためのプログラムであって、
    複数の単位区間の各々について前記音響信号の特徴量を抽出する特徴抽出処理と、
    前記各単位区間の特徴量の相互間の類似度を算定する類似度算定処理と、
    前記音響信号と時間差を付与した前記音響信号とにおける前記単位区間の特徴量の類似度が高い領域に対応した類似線分を、時間軸と時間差軸とを含む平面に配置した類似度マトリクスを生成する第1マトリクス生成処理と、
    類似度が高い区間の割合に応じた反復確度を前記類似度マトリクスにおける時間差毎に算定する確度算定処理と、
    前記反復確度の分布における複数のピークを特定するピーク特定処理と、
    前記ピーク特定処理で特定した前記各ピークの位置に基準線を配置した基準マトリクスを生成する第2マトリクス生成処理と、
    前記類似度マトリクスの時間軸上における複数の時点の各々について、当該時点に対応した位置に配置された前記基準マトリクスの各基準線と前記類似度マトリクスの各類似線分との相関値を算定する相関算定処理と、
    前記相関値の分布におけるピークを基準として前記ループ領域を特定する区間特定処理と
    をコンピュータに実行させるプログラム。
JP2008037654A 2008-02-19 2008-02-19 音響処理装置およびプログラム Expired - Fee Related JP4973537B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2008037654A JP4973537B2 (ja) 2008-02-19 2008-02-19 音響処理装置およびプログラム
EP09152985.9A EP2093753B1 (en) 2008-02-19 2009-02-17 Sound signal processing apparatus and method
US12/378,719 US8494668B2 (en) 2008-02-19 2009-02-19 Sound signal processing apparatus and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008037654A JP4973537B2 (ja) 2008-02-19 2008-02-19 音響処理装置およびプログラム

Publications (3)

Publication Number Publication Date
JP2009198581A JP2009198581A (ja) 2009-09-03
JP2009198581A5 JP2009198581A5 (ja) 2010-09-24
JP4973537B2 true JP4973537B2 (ja) 2012-07-11

Family

ID=40688300

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008037654A Expired - Fee Related JP4973537B2 (ja) 2008-02-19 2008-02-19 音響処理装置およびプログラム

Country Status (3)

Country Link
US (1) US8494668B2 (ja)
EP (1) EP2093753B1 (ja)
JP (1) JP4973537B2 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7659471B2 (en) * 2007-03-28 2010-02-09 Nokia Corporation System and method for music data repetition functionality
JP5454317B2 (ja) * 2010-04-07 2014-03-26 ヤマハ株式会社 音響解析装置
JP5560861B2 (ja) * 2010-04-07 2014-07-30 ヤマハ株式会社 楽曲解析装置
WO2012091938A1 (en) 2010-12-30 2012-07-05 Dolby Laboratories Licensing Corporation Ranking representative segments in media data
JP5333517B2 (ja) * 2011-05-26 2013-11-06 ヤマハ株式会社 データ処理装置およびプログラム
CN102956238B (zh) 2011-08-19 2016-02-10 杜比实验室特许公司 用于在音频帧序列中检测重复模式的方法及设备
JP2013050530A (ja) 2011-08-30 2013-03-14 Casio Comput Co Ltd 録音再生装置およびプログラム
CN103999150B (zh) * 2011-12-12 2016-10-19 杜比实验室特许公司 媒体数据中的低复杂度重复检测
JP5610235B2 (ja) * 2012-01-17 2014-10-22 カシオ計算機株式会社 録音再生装置およびプログラム
US9047854B1 (en) * 2014-03-14 2015-06-02 Topline Concepts, LLC Apparatus and method for the continuous operation of musical instruments
JP7035509B2 (ja) * 2017-12-22 2022-03-15 ヤマハ株式会社 表示制御方法、プログラムおよび情報処理装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6057502A (en) * 1999-03-30 2000-05-02 Yamaha Corporation Apparatus and method for recognizing musical chords
US6542869B1 (en) * 2000-05-11 2003-04-01 Fuji Xerox Co., Ltd. Method for automatic analysis of audio including music and speech
US20030205124A1 (en) * 2002-05-01 2003-11-06 Foote Jonathan T. Method and system for retrieving and sequencing music by rhythmic similarity
US7284004B2 (en) * 2002-10-15 2007-10-16 Fuji Xerox Co., Ltd. Summarization of digital files
JP4243682B2 (ja) * 2002-10-24 2009-03-25 独立行政法人産業技術総合研究所 音楽音響データ中のサビ区間を検出する方法及び装置並びに該方法を実行するためのプログラム
US7179982B2 (en) * 2002-10-24 2007-02-20 National Institute Of Advanced Industrial Science And Technology Musical composition reproduction method and device, and method for detecting a representative motif section in musical composition data
JP4203308B2 (ja) * 2002-12-04 2008-12-24 パイオニア株式会社 楽曲構造検出装置及び方法
JP4767691B2 (ja) * 2005-07-19 2011-09-07 株式会社河合楽器製作所 テンポ検出装置、コード名検出装置及びプログラム
JP4465626B2 (ja) * 2005-11-08 2010-05-19 ソニー株式会社 情報処理装置および方法、並びにプログラム
US7659471B2 (en) * 2007-03-28 2010-02-09 Nokia Corporation System and method for music data repetition functionality

Also Published As

Publication number Publication date
EP2093753B1 (en) 2016-04-13
US8494668B2 (en) 2013-07-23
JP2009198581A (ja) 2009-09-03
EP2093753A1 (en) 2009-08-26
US20090216354A1 (en) 2009-08-27

Similar Documents

Publication Publication Date Title
JP4973537B2 (ja) 音響処理装置およびプログラム
Jensen Multiple scale music segmentation using rhythm, timbre, and harmony
JP4767691B2 (ja) テンポ検出装置、コード名検出装置及びプログラム
US20140338515A1 (en) Method for extracting representative segments from music
CN101740025A (zh) 评估演唱者的嗓音性能的方法和使用该方法的设备
US20060075883A1 (en) Audio signal analysing method and apparatus
CN108292499A (zh) 技巧确定装置和记录介质
Kirchhoff et al. Evaluation of features for audio-to-audio alignment
Caetano et al. Automatic segmentation of the temporal evolution of isolated acoustic musical instrument sounds using spectro-temporal cues
Hellmer et al. Quantifying microtiming patterning and variability in drum kit recordings: A method and some data
Paiva et al. On the Detection of Melody Notes in Polyphonic Audio.
JPWO2019043798A1 (ja) 楽曲解析装置および楽曲解析プログラム
JP6263382B2 (ja) 音声信号処理装置、音声信号処理装置の制御方法、プログラム
JP6263383B2 (ja) 音声信号処理装置、音声信号処理装置の制御方法、プログラム
JP2017067902A (ja) 音響処理装置
JP5153517B2 (ja) コード名検出装置及びコード名検出用コンピュータ・プログラム
Vinutha et al. Reliable tempo detection for structural segmentation in sarod concerts
JP3684274B2 (ja) 和音抽出装置
JP5728918B2 (ja) 情報処理装置
JP6252421B2 (ja) 採譜装置、及び採譜システム
JP2015055755A (ja) 通信カラオケシステム
JP6565529B2 (ja) 自動アレンジ装置及びプログラム
JP2007536586A (ja) 音信号の特徴を記述する装置および方法
Müller et al. Tempo and Beat Tracking
KR101106185B1 (ko) 여러 음을 가진 오디오 신호에서 하모닉 구조 모델과 유동적인 길이를 갖는 분석 창을 이용한 멜로디 추출 방법 및 시스템

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100806

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100806

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120220

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120313

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120326

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150420

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees