JP2013164584A - 音響処理装置 - Google Patents

音響処理装置 Download PDF

Info

Publication number
JP2013164584A
JP2013164584A JP2013002987A JP2013002987A JP2013164584A JP 2013164584 A JP2013164584 A JP 2013164584A JP 2013002987 A JP2013002987 A JP 2013002987A JP 2013002987 A JP2013002987 A JP 2013002987A JP 2013164584 A JP2013164584 A JP 2013164584A
Authority
JP
Japan
Prior art keywords
coefficient sequence
harmonic
coefficient
frequency
acoustic signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2013002987A
Other languages
English (en)
Inventor
Janner Geordi
ジェイナー ジョルディ
Marxer Ricardo
マークサー リカルド
Bonada Jordi
ボナダ ジョルディ
Kazunobu Kondo
多伸 近藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2013002987A priority Critical patent/JP2013164584A/ja
Publication of JP2013164584A publication Critical patent/JP2013164584A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/40Rhythm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/051Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction or detection of onsets of musical sounds or notes, i.e. note attack timings
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/056Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction or identification of individual instrumental parts, e.g. melody, chords, bass; Identification or separation of instrumental parts by their characteristic voices or timbres
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/025Envelope processing of music signals in, e.g. time domain, transform domain or cepstrum domain
    • G10H2250/031Spectrum envelope processing

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

【課題】音響信号から特定の成分を分離するときの処理遅延を低減する。
【解決手段】調波性評価部40は、基本周波数が相違する複数の基底ベクトルを含む基底行列を適用した音響信号x(t)の振幅スペクトルX[j,u]の非負値行列因子分解で係数行列を生成し、各周波数が音響信号x(t)の基本周波数である尤度を係数行列から算定するとともに、尤度が高い調波成分を分離するための調波係数列Mh[u]と尤度が低い非調波成分を分離するための非調波係数列Mn[u]とを生成する。過渡性評価部50は、各単位期間内での音響信号x(t)の時間重心を単位帯域毎に算定し、時間重心に応じて検出した発音点を分離するための発音点係数列Ma[u]を生成する。係数列合成部60は、音響信号x(t)から打楽器音を分離するための処理係数列M[u]を調波係数列Mh[u]と非調波係数列Mn[u]と発音点係数列Ma[u]とから生成する。
【選択図】図1

Description

本発明は、音響信号の特定の成分を分離する技術に関し、特に、音響信号の打楽器音(パーカッシブ音)の分離に好適に採用される。
音響信号から打楽器音を分離(強調または抑圧)する技術が従来から提案されている。例えば非特許文献1や非特許文献2には、音響信号のスペクトログラムを表現する観測行列に対する非負値行列因子分解(NMF:Non-negative Matrix Factorization)で音響信号から打楽器音を分離する技術が開示されている。
M. Helen and T. Virtanen, "Separation of drums from polyphonic music using non-negative matrix factorization and support vector machine", in Proc. EUSIPCO. Citeseer, 2005, vol. 2005 O. Gillet and G. Richard, "Transcription and separation of drum signals from polyphonic music", Audio, Speech, and Language Processing, IEEE Transactions on, vol. 16, no 3, p. 529-540, 2008
しかし、非特許文献1や非特許文献2の技術に利用される一般的な非負値行列因子分解には、数秒程度の長時間にわたる音響信号のスペクトログラムが必要であるため、音響信号が入力されてから実際に分離が完了するまでの処理遅延が大きいという問題がある。以上の事情を考慮して、本発明は、音響信号から特定の成分を分離するときの処理遅延を低減することを目的とする。
以上の課題を解決するために本発明が採用する手段を説明する。なお、本発明の理解を容易にするために、以下の説明では、本発明の要素と後述の実施形態の要素との対応を括弧書で付記するが、本発明の範囲を実施形態の例示に限定する趣旨ではない。
本発明の第1態様に係る音響処理装置は、音響信号から特定の成分が分離されるように周波数毎の係数値が設定された処理係数列(例えば処理係数列M[u])を生成する装置であって、基本周波数が相違する音響のスペクトルを示す複数の基底ベクトル(例えば基底ベクトルB[c])を含む基底行列を適用した音響信号の非負値行列因子分解により、各基底ベクトルの加重値を示す係数行列(例えば係数行列G[u])を順次に生成する係数行列生成手段(例えば係数行列生成部42)と、複数の周波数の各々が音響信号の基本周波数に該当する尤度(例えば尤度L[f,u])を係数行列から算定する尤度算定手段(例えば尤度算定部44)と、尤度が高い調波周波数と尤度が低い非調波周波数とに複数の周波数を選別し、音響信号のうち調波周波数の成分を強調するための調波係数列(例えば調波係数列Mh[u])と非調波周波数の成分を強調するための非調波係数列(例えば非調波係数列Mn[u])とを生成する第1係数列生成手段(例えば第1係数列生成部46)と、各単位期間内での音響信号の波形の時間重心(例えば時間重心Tg[f,u])を周波数軸上の単位帯域毎に算定する重心算定手段(例えば重心算定部52)と、音響信号の各単位帯域内の成分の発音点を当該単位帯域の時間重心に応じて検出し、各発音点を分離するための発音点係数列(例えば発音点係数列Ma[u])を検出結果に応じて生成する第2係数列生成手段(例えば第2係数列生成部54)と、調波係数列と非調波係数列と発音点係数列とに応じて処理係数列を生成する係数列合成手段(例えば係数列合成部60)とを具備する。
本発明の音響処理装置においては、相異なる基本周波数に対応する複数の基底ベクトルを含む既知の基底行列を適用した非負値行列因子分解(例えば音響信号の1個の単位期間の振幅スペクトルに対する非負値行列因子分解)で係数行列が算定され、係数行列から特定された尤度に応じて音響信号の各周波数の調波/非調波を選別した結果から調波係数列および非調波係数列が生成される。また、各単位期間内での音響信号の周波数帯域毎の波形の時間重心に応じて発音点係数列が生成される。すなわち、少なくとも1個の単位期間の音響信号から処理係数列を生成することが可能である。したがって、数秒単位の長時間にわたる音響信号が必要な非特許文献1や非特許文献2の技術と比較して処理遅延が低減されるという利点がある。なお、本発明の音響処理装置は、複数種の音響成分が混合された音響信号のうちアタック部(発音開始の直後の立上がり部)が顕著な非調波成分の分離に特に好適に利用される。アタック部が顕著な非調波成分の典型例としては打楽器音(パーカッシブ音)が例示され得る。
本発明の好適な態様において、第2係数列生成手段は、発音点係数列と、音響信号のうち各発音点に後続する減衰区間を分離するための減衰音係数列(例えば減衰音係数列Md[u])とを生成し、係数列合成手段は、調波係数列と非調波係数列と発音点係数列と減衰音係数列とに応じて処理係数列を生成する。以上の態様では、発音点に後続する減衰区間を分離するための減衰音係数列が発音点係数列とともに処理係数列に反映されるから、打撃操作後に音響が減衰しつつ継続する打楽器音も高精度に分離できるという利点がある。
ところで、発音点係数列のみを適用した分離処理では調波成分の発音点も分離される可能性がある。そこで、本発明の好適な態様の係数列合成手段は、調波係数列の係数値が所定の閾値(例えば閾値τ3)を下回る周波数の係数値が音響信号を維持する数値(例えば1)に設定され、調波係数列の係数値が閾値を上回る周波数の係数値が音響信号を抑制する数値(例えば0)に設定された補正係数列(例えば補正係数列Mr[u])を生成する係数列変換手段(例えば係数列変換部62)と、補正係数列と非調波係数列と発音点係数列とに応じて処理係数列を生成する合成処理手段(例えば合成処理部64)とを含む。以上の態様では、調波係数列の係数値が閾値を上回る周波数(すなわち調波成分に該当する可能性が高い周波数)の係数値が音響信号を抑制する数値(例えば0)に設定された補正係数列が処理係数列に反映されるから、調波成分が打楽器音とともに分離される可能性を低減できるという利点がある。
本発明の好適な態様において、各基底ベクトルは、基本周波数が相違する調波構造を示す複数の調波構造モデル(例えば調波構造モデルE[j])と、相異なる周波数帯域を示す複数の帯域モデル(例えば帯域モデルU[k])との組合せ毎に用意され、尤度算定手段は、一の周波数の調波構造モデルに対応する各基底ベクトルについて算定された係数行列内の加重値を、当該調波構造モデルと複数の帯域モデルの各々との組合せに対応する複数の係数行列について加算することで、一の周波数の尤度を算定する。調波構造モデル帯域モデルとの各組合せに対応する複数の基底ベクトルを基底行列として適用した非負値行列因子分解で係数行列が生成され、係数行列から各周波数の尤度が算定されるから、音響信号が複数の調波成分を含む場合でも各周波数を高精度に調波周波数と非調波周波数とに選別できるという利点がある。
本発明の好適な態様において、第1係数列生成手段は、係数行列の複数の加重値のうち各調波周波数に対応する加重値を抽出して基底行列に乗算した調波成分(例えば調波成分Sh[j,u])の強度に応じて調波係数列の各係数値を算定し、係数行列の複数の加重値のうち各非調波周波数に対応する加重値を抽出して基底行列に乗算した非調波成分(例えば非調波成分Sn[j,u])の強度に応じて非調波係数列の各係数値を算定する。以上の態様によれば、調波係数列および非調波係数列を簡易な演算で生成できるという利点がある。
ところで、打楽器音に加えて低音域のベース音成分も例えば楽曲のリズムパートを画定するうえで音楽的に重要な要素である。しかし、非特許文献1や非特許文献2にはベース音成分の分離について言及されていない。以上の事情を考慮して、本発明の第2態様に係る音響処理装置は、音響信号から特定の成分が分離されるように周波数毎の係数値が設定された処理係数列を生成する装置であって、複数の周波数の各々が音響信号の基本周波数に該当する尤度を算定する尤度算定手段(例えば尤度算定部72)と、音響信号のうち尤度が高い調波周波数の成分を強調するための調波係数列(例えば調波係数列Mh[u])と、尤度が低い非調波周波数の成分を強調するための非調波係数列(例えば非調波係数列Mn[u])と、周波数が所定値を下回る範囲内で尤度が高い成分を強調するためのベース係数列(例えばベース係数列Mb[u])とを生成する第1係数列生成手段(例えば第1係数列生成部74)と、調波係数列と非調波係数列とベース係数列とに応じて処理係数列を生成する係数列合成手段(例えば係数列合成部60)とを具備する。第2態様の音響処理装置においては、周波数が所定値を下回る範囲内で尤度が高い成分(ベース音成分)を強調するためのベース係数列が調波係数列および非調波係数列に加えて生成されるから、調波成分および非調波成分に加えてベース音成分も音響信号から分離することが可能である。なお、好適な態様における調波係数列は、音響信号の調波性の音響成分のうちベース音成分以外の調波成分が強調されるように生成されるが、ベース音成分を包含する調波成分が強調されるように調波係数列を生成することも可能である。第2態様の具体例は例えば第2実施形態として後述される。
第2態様の好適例に係る音響処理装置は、各単位期間内での音響信号の波形の時間重心を周波数軸上の単位帯域毎に算定する重心算定手段と、音響信号の各単位帯域内の成分の発音点を当該単位帯域の時間重心に応じて検出し、各発音点を分離するための発音点係数列を検出結果に応じて生成する第2係数列生成手段とを具備し、第2係数列生成手段は、非調波係数列とベース係数列とに応じて加重した各単位帯域の時間重心の代表値(例えば代表値Tm[u])が第1閾値(例えば閾値τm)を上回る単位期間について、加重前の時間重心が第2閾値(例えば閾値τ2)を上回る場合に発音点として検出する。以上の態様では、非調波係数列とベース係数列とに応じて加重された時間重心の代表値が第1閾値を上回る単位期間について、加重前の時間重心が第2閾値を上回る場合に発音点として検出される。したがって、非調波成分およびベース音成分の少なくとも一方が優勢な時点を発音点として検出できるという利点がある。加重後の複数の時間重心の代表値としては、中央値や平均値が好適である。なお、以上の態様の具体例は例えば第3実施形態として後述される。
以上の各態様に係る音響処理装置は、処理係数列の生成に専用されるDSP(Digital Signal Processor)などのハードウェア(電子回路)によって実現されるほか、CPU(Central Processing Unit)等の汎用の演算処理装置とプログラムとの協働によっても実現される。例えば、本発明の第1態様に係るプログラムは、音響信号から打楽器音が分離されるように周波数毎の係数値が設定された処理係数列を生成するためのプログラムであって、コンピュータに、基本周波数が相違する音響のスペクトルを示す複数の基底ベクトルを含む基底行列を適用した音響信号の非負値行列因子分解により、各基底ベクトルの加重値を示す係数行列を順次に生成する係数行列生成処理と、複数の周波数の各々が音響信号の基本周波数に該当する尤度を係数行列から算定する尤度算定処理と、尤度が高い調波周波数と尤度が低い非調波周波数とに複数の周波数を選別し、音響信号のうち調波周波数の成分を強調するための調波係数列と非調波周波数の成分を強調するための非調波係数列とを生成する第1係数列生成処理と、各単位期間内での音響信号の波形の時間重心を周波数軸上の単位帯域毎に算定する重心算定処理と、音響信号の各単位帯域内の成分の発音点を当該単位帯域の時間重心に応じて検出し、各発音点を分離するための発音点係数列を検出結果に応じて生成する第2係数列生成処理と、調波係数列と非調波係数列と発音点係数列とに応じて処理係数列を生成する係数列合成処理とを実行させる。以上のプログラムによれば、本発明に係る音響処理装置と同様の作用および効果が奏される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされるほか、通信網を介した配信の形態で提供されてコンピュータにインストールされる。
本発明の好適な実施形態に係る音響処理装置のブロック図である。 解析処理部のブロック図である。 係数行列生成部による非負値行列因子分解の説明図である。 基底ベクトルの説明図である。 第1係数列生成部のブロック図である。 過渡性評価部のブロック図である。 時間重心が算定される単位帯域の説明図である。 時間重心および発音点の説明図である。 係数列合成部のブロック図である。 第2実施形態における調波性評価部のブロック図である。 第2実施形態における尤度系列の説明図である。 第2実施形態の尤度分離部が実行する処理のフローチャートである。
<第1実施形態>
図1は、本発明の好適な実施形態に係る音響処理装置100のブロック図である。図1に示すように、音響処理装置100には信号供給装置12と放音装置14とが接続される。信号供給装置12は、相異なる音源が発音した複数種の音響の混合音を示す音響信号x(t)を音響処理装置100に供給する。具体的には、弦楽器や管楽器等の楽器の楽音や人間の発声音等の調波性の音響(調波成分)と、打楽器の演奏音等の非調波性の音響(非調波成分)との混合音を示す音響信号x(t)が信号供給装置12から音響処理装置100に供給される。例えば周囲の音響を収音して音響信号x(t)を生成する収音機器や、可搬型または内蔵型の記録媒体から音響信号x(t)を取得する再生装置や、通信網から音響信号x(t)を受信する通信装置が信号供給装置12として採用され得る。
音響処理装置100は、信号供給装置12が供給する音響信号x(t)から音響信号y(t)を生成する。音響信号y(t)は、音響信号x(t)のうち特定の成分を分離(強調または抑制)した信号である。本実施形態の音響処理装置100は、音響信号x(t)に含まれる打楽器音を強調(理想的には抽出)した音響信号y(t)を生成する。放音装置14(例えばスピーカやヘッドホン)は、音響処理装置100が生成した音響信号y(t)に応じた音波を再生する。
図1に示すように、音響処理装置100は、演算処理装置22と記憶装置24とを具備するコンピュータシステムで実現される。記憶装置24は、演算処理装置22が実行するプログラムPGMや演算処理装置22が使用する各種の情報(例えば基底行列B)を記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶装置24として任意に採用される。なお、音響信号x(t)を記憶装置24に格納した構成(したがって信号供給装置12は省略される)も採用され得る。
演算処理装置22は、記憶装置24に記憶されたプログラムPGMを実行することで、音響信号x(t)から音響信号y(t)を生成するための複数の要素(周波数分析部32,解析処理部34,信号処理部36,波形合成部38)として機能する。なお、演算処理装置22の各機能を複数の集積回路に分散した構成や、専用の電子回路(DSP)が各機能を実現する構成も採用され得る。
周波数分析部32は、音響信号x(t)の振幅スペクトルX[j,u]を時間軸上の単位期間(フレーム)毎に順次に生成する。記号jは、周波数上に離散的に設定されたJ個の周波数(周波数帯域)のうち任意の1個の周波数を示し(j=1〜J),記号uは、時間軸上の任意の1個の単位期間(時間軸上の特定の時点)を示す。振幅スペクトルX[j,u]の生成には短時間フーリエ変換等の公知の周波数分析が任意に採用され得る。通過帯域が相違する複数の帯域通過フィルタで構成されるフィルタバンクを周波数分析部32として採用することも可能である。
解析処理部34は、音響信号x(t)のうち打楽器音(パーカッシブ音)を分離するための処理係数列(マスク)M[u]を単位期間毎に順次に生成する。処理係数列M[u]は、相異なる周波数に対応するJ個の係数値m[j,u](m[1,u]〜m[J,u])の系列である。係数値m[j,u]は、音響信号x(t)の特性(振幅スペクトルX[j,u])に応じて可変に設定される。具体的には、周波数軸上のJ個の周波数のうち音響信号x(t)にて打楽器音が優勢である周波数の係数値m[j,u]ほど大きい数値に設定される。本実施形態では、係数値m[j,u]が0以上かつ1以下の範囲内で可変に設定される場合を想定する。
信号処理部36は、解析処理部34が生成した処理係数列M[u]を音響信号x(t)の振幅スペクトルX[j,u]に作用させる処理(以下「分離処理」という)で音響信号y(t)の振幅スペクトルY[j,u]を単位期間毎に順次に生成する。各単位期間の振幅スペクトルX[j,u]の分離処理には、その振幅スペクトルX[j,u]から生成された処理係数列M[u]が適用される。具体的には、信号処理部36は、以下の数式(1)で表現されるように、処理係数列M[u]の各係数値m[j,u]を振幅スペクトルX[j,u]に乗算することで振幅スペクトルY[j,u]を算定する。すなわち、処理係数列M[u]の係数値m[j,u]は、音響信号x(t)のうち第j番目の周波数の成分に対する利得(スペクトルゲイン)に相当する。
Figure 2013164584
以上の説明から理解されるように、係数値m[j,u]の数値1は、分離処理の前後にわたり音響信号x(t)の強度を維持(強調)させる数値を意味し、係数値m[j,u]の数値0は、分離処理により音響信号x(t)を抑制(除去)させる数値を意味する。前述の通り、打楽器音が優勢な周波数の係数値m[j,u]ほど1に近付くから、音響信号x(t)の打楽器音を強調(抽出)した音響信号y(t)の振幅スペクトルY[j,u]が信号処理部36による分離処理で生成される。
図1の波形合成部38は、信号処理部36が生成した振幅スペクトルY[j,u]から時間領域の音響信号y(t)を生成する。具体的には、波形合成部38は、振幅スペクトルY[j,u]と音響信号x(t)の位相スペクトルとから時間領域の波形信号を単位期間毎に生成し、相前後する単位期間について相互に連結することで音響信号y(t)を生成する。波形合成部38が生成した音響信号y(t)が放音装置14に供給されて音波として再生される。
解析処理部34の具体的な構成を以下に説明する。図1に示すように、解析処理部34は、調波性評価部40と過渡性評価部50と係数列合成部60とを含んで構成される。解析処理部34の各要素の具体的な構成および動作を以下に詳述する。
<調波性評価部40>
調波性評価部40は、音響信号x(t)の調波性(基音成分と複数の倍音成分とで構成される調波構造の明瞭度)を評価した結果に応じて単位期間毎に調波係数列Mh[u]と非調波係数列Mn[u]とを生成する。調波係数列Mh[u](h:harmonic)は、相異なる周波数に対応するJ個の係数値h[j,u](h[1,u]〜h[J,u])の系列であり、非調波係数列Mn[u](n:non-harmonic)は、相異なる周波数に対応するJ個の係数値n[j,u](n[1,u]〜n[J,u])の系列である。各係数値h[j,u]および各係数値n[j,u]は、0以上かつ1以下の範囲内で可変に設定される。概略的には、調波係数列Mh[u]のうち音響信号x(t)の調波性が高い成分の周波数の係数値h[j,u]ほど大きい数値に設定され、非調波係数列Mn[u]のうち音響信号x(t)の調波性が低い成分の周波数の係数値n[j,u]ほど大きい数値に設定されるという傾向がある。
図2は、調波性評価部40のブロック図である。図2に示すように、本実施形態の調波性評価部40は、係数行列生成部42と尤度算定部44と第1係数列生成部46とを含んで構成される。係数行列生成部42は、周波数分析部32が生成した振幅スペクトルX[j,u]の非負値行列因子分解で係数行列(アクティベーション行列)G[u]を単位期間毎に順次に生成する。すなわち、図3に示すように、基底行列Bと係数行列G[u]との積が振幅スペクトルX[j,u]に近似する(X[j,u]≒BG[u])ように係数行列G[u]が生成される。
基底行列Bは、図3に示すように、相異なる基本周波数に対応する音響のスペクトル(調波構造)を示すC個の基底ベクトルB[c](B[1]〜B[C])を配列したJ行C列の非負値行列であり、事前に用意されて記憶装置24に記憶される。係数行列生成部42は、記憶装置24に記憶された基底行列Bを事前情報(教師情報)として利用した振幅スペクトルX[j,u]の非負値行列因子分解で係数行列G[u]を生成する。
具体的には、本実施形態の係数行列生成部42は、以下の数式(2)で表現される更新式を所定回(例えば15回)にわたり反復することで係数行列G[u]を算定する。数式(2)の記号○は、行列間の要素毎の乗算(アダマール積)を意味し、記号−(分数の括線)は、行列の要素毎の除算を意味する。また、記号.2は、行列の要素毎の自乗を意味し、記号Tは、行列の転置を意味する。係数行列G[u]の各要素の初期値(初回の数式(2)の演算に適用される係数行列G[u]の各要素の数値)は例えば乱数に設定される。
Figure 2013164584
音響信号x(t)の振幅スペクトルX[j,u]はJ行1列の非負値行列(J次ベクトル)として表現されるから、係数行列生成部42が生成する係数行列G[u]は、図3に示すように、C個の加重値g[c,u](g[1,u]〜g[C,u])で構成されるC行1列の非負値行列(C次ベクトル)である。係数行列G[u]の第c番目の加重値g[c,u]は、基底行列Bの第c列に位置する基底ベクトルB[c]のゲイン(C個の基底ベクトルB[1]〜B[C]の線形結合で振幅スペクトルX[j,u]を近似した場合における基底ベクトルB[c]の係数)を意味するスカラ量である。
記憶装置24に格納される基底行列B(各基底ベクトルB[c])について以下に詳述する。各基底ベクトルB[c]の生成には、周波数が経時的に変化する参照信号Ψ[n]が使用される。記号nは、時間軸上に離散的に設定された任意の1個の標本点を意味する。本実施形態の参照信号Ψ[n]は、図4の部分(A)に示すように、周波数が時間の経過とともに上昇するチャープ(chirp)信号である。参照信号Ψ[n]は、相異なる周波数に対応するJ個の参照信号ψ[j,n](ψ[1,n]〜ψ[J,n])に時間軸上で区分される。なお、周波数に対する一次関数で表現される参照信号Ψ[n]や周波数に対して階段状に変化する参照信号Ψ[n]を利用することも可能である。
各参照信号ψ[j,n]について図4の部分(B)の調波構造モデルE[j](E[1]〜E[J])が生成される。調波構造モデルE[j]は、参照信号ψ[j,n]の周波数を基本周波数とした基本成分と各倍音周波数に対応する倍音成分とを周波数軸上に配置した調波構造(倍音構造)の振幅スペクトルに相当する。各参照信号ψ[j,n]の周波数は相違するから、J個の調波構造モデルE[1]〜E[J]の各々が示す調波構造(基本周波数および各倍音周波数)は相違する。また、図4の部分(C)には、相異なる周波数帯域を指定するK個の帯域モデルU[1]〜U[K]のうち第k番目(k=1〜K)の帯域モデルU[k]が実線で図示され、他の帯域モデルU[k]が破線で併記されている。各帯域モデルU[k]は、特定帯域を選択的に通過させる帯域通過フィルタの周波数特性に相当する。
図4の部分(D)に示すように、基底行列Bの各基底ベクトルB[c]は、1個の調波構造モデルE[j]と1個の帯域モデルU[k]とを乗算した振幅スペクトルに相当する。J個の調波構造モデルE[1]〜E[J]とK個の帯域モデルU[1]〜U[K]とから1個の調波構造モデルE[j]と1個の帯域モデルU[k]とを選択する全通りの組合せについて基底ベクトルB[c]が用意される。したがって、調波構造モデルE[j]で規定される基本周波数と帯域モデルU[k]で規定される分布帯域との少なくとも一方は各基底ベクトルB[c]の間で相違し、基底行列Bを構成する基底ベクトルB[c]の個数(基底行列Bの列数)Cは、調波構造モデルE[j]の個数Jと帯域モデルU[k]の個数Kとの乗算値となる(C=J×K)。
以上の条件で生成されたC個の基底ベクトルB[c](B[1]〜B[C])が基底行列Bとして記憶装置24に記憶され、係数行列生成部42による係数行列G[u](加重値g[1,u]〜g[C,u])の算定に使用される。以上の説明から理解されるように、相異なる調波構造を表現するC個の基底ベクトルB[1]〜B[C]のうち、音響信号x(t)内の各調波成分に近似する調波構造を示す基底ベクトルB[c]の加重値g[c,u]ほど大きい数値となる。なお、音響処理装置100の演算処理装置22が参照信号Ψ[n]から基底行列Bを生成して記憶装置24に格納することも可能であるが、外部装置にて生成された基底行列Bが音響処理装置100に供給されて記憶装置24に格納される構成も好適である。
図2の尤度算定部44は、J個の周波数の各々が音響信号x(t)の各成分の基本周波数に該当する尤度(ピッチ尤度)L[j,u](L[1,u]〜L[J,u])を、係数行列生成部42が生成する係数行列G[u]から単位期間毎に順次に生成する。具体的には、尤度算定部44は、以下の数式(3)の演算で尤度L[j,u]を算定する。
Figure 2013164584
数式(3)では、係数行列G[u]を構成するC個((J×K)個)の加重値g[1,u]〜g[C,u]のうち、第j番目の調波構造モデルE[j]と第k番目の帯域モデルU[k]とから生成された基底ベクトルB[c]に対応する加重値g[c,u]が、便宜的に記号g[j,k,u]として表記されている。数式(3)から理解されるように、第j番目の周波数の尤度L[j,u]は、係数行列G[u]を構成するC個の加重値g[1,u]〜g[C,u]のうち、その周波数の1個の調波構造モデルE[j]とK個の帯域モデルU[1]〜U[K]の各々との組合せのK個の基底ベクトルB[c]に対応するK個の加重値g[j,1,u]〜g[j,K,u]の加算値として算定される。前述のように、音響信号x(t)内の調波成分に近似する調波構造を示す基底ベクトルB[c]の加重値g[c,u]ほど大きい数値となるから、音響信号x(t)のうち調波成分が優勢な周波数の尤度L[j,u]ほど大きい数値になるという傾向がある。したがって、尤度L[j,u]は、音響信号x(t)のうち第j番目の周波数の成分が調波成分に該当する確度の評価指標(調波性の尺度)として利用され得る。
図2の第1係数列生成部46は、音響信号x(t)のうち調波成分を強調するための調波係数列Mh[u]と非調波成分を強調するための非調波係数列Mn[u]とを、尤度算定部44が周波数毎に算定した尤度L[j,u](L[1,u]〜L[J,u])に応じて単位期間毎に生成する。図5は、第1係数列生成部46のブロック図である。図5に示すように、第1係数列生成部46は、周波数選別部462と成分分離部464と係数設定部466とを含んで構成される。
周波数選別部462は、周波数軸上のJ個の周波数を、音響信号x(t)の調波成分が優勢な調波周波数と非調波成分が優勢な非調波周波数とに選別する。具体的には、尤度L[j,u]が高い周波数が調波周波数に選別され、尤度L[j,u]が低い周波数が非調波周波数に選別される。例えば、周波数選別部462は、各尤度L[j,u]を所定の閾値τ1と比較したうえで、J個の周波数のうち尤度L[j,u]が閾値τ1を上回る各周波数を調波周波数に選別し、尤度L[j,u]が閾値τ1を下回る各周波数を非調波周波数に選別する。
成分分離部464は、周波数選別部462による選別結果に応じて調波成分Sh[j,u]と非調波成分Sn[j,u]とを単位期間毎に生成する。具体的には、成分分離部464は、以下の数式(4A)のように、係数行列G[u]のうち各調波周波数に対応する加重値g[c,u]を抽出した係数行列Gh[u]を基底行列Bに乗算することで調波成分Sh[j,u]を生成し、数式(4B)のように、係数行列G[u]のうち各非調波周波数に対応する加重値g[c,u]を抽出した係数行列Gn[u]を基底行列Bに乗算することで非調波成分Sn[j,u]を生成する。
Figure 2013164584
数式(4A)の係数行列Gh[u]は、係数行列生成部42が生成した係数行列G[u]内のC個の加重値g[c,u]のうち、各調波周波数を基本周波数とする基底ベクトルB[c]に対応した各加重値g[c,u]の数値を維持し、残余の加重値g[c,u](すなわち非調波周波数に対応する加重値g[c,u])をゼロに変更したC行1列の行列(C次ベクトル)である。基底行列Bと係数行列G[u]との積が音響信号x(t)の振幅スペクトルX[j,u]に近似するように係数行列G[u]は生成されるから、数式(4A)で算定される調波成分Sh[j,u]は、音響信号x(t)に含まれる調波成分の振幅スペクトルの推定値に相当する。他方、数式(4B)の係数行列Gn[u]は、係数行列G[u]内のC個の加重値g[c,u]のうち、各非調波周波数を基本周波数とする基底ベクトルB[c]に対応した各加重値g[c,u]の数値を維持し、残余の各加重値g[c,u](すなわち調波周波数に対応する加重値g[c,u])をゼロに変更したC行1列の行列である。したがって、数式(4B)で算定される非調波成分Sn[j,u]は、音響信号x(t)に含まれる非調波成分の振幅スペクトルの推定値に相当する。
図5の係数設定部466は、成分分離部464が生成した調波成分Sh[j,u]の強度と非調波成分Sn[j,u]の強度とに応じて調波係数列Mh[u]と非調波係数列Mn[u]とを生成する。具体的には、係数設定部466は、以下の数式(5A)の演算で調波係数列Mh[u]の各係数値h[j,u]を算定し、以下の数式(5B)の演算で非調波係数列Mn[u]の各係数値n[j,u]を算定する。
Figure 2013164584
数式(5A)から理解されるように、調波係数列Mh[u]のJ個の係数値h[j,u]のうち音響信号x(t)にて調波成分が優勢な周波数の係数値h[j,u]ほど大きい数値に設定され、非調波係数列Mn[u]のJ個の係数値n[j,u]のうち音響信号x(t)にて非調波成分が優勢な周波数(典型的には打楽器音が優勢な周波数)の係数値n[j,u]ほど大きい数値に設定される。したがって、調波係数列Mh[u]の各係数値h[j,u]を音響信号x(t)の振幅スペクトルX[j,u]に乗算した場合には音響信号x(t)の調波成分が強調され、非調波係数列Mn[u]の各係数値n[j,u]を音響信号x(t)の振幅スペクトルX[j,u]に乗算した場合には音響信号x(t)の非調波成分が強調される。以上が調波性評価部40の具体的な構成および動作である。
<過渡性評価部50>
図1の過渡性評価部50は、音響信号x(t)の過渡性(信号強度の時間的な変動の度合)を評価した結果に応じて単位期間毎に発音点係数列Ma[u]と減衰音係数列Md[u]とを生成する。発音点係数列Ma[u](a:attack)は、音響信号x(t)の各成分の発音点(transient)を強調(抽出)するための係数列であり、相異なる周波数に対応するJ個の係数値a[j,u](a[1,u]〜a[J,u])を含んで構成される。概略的には、発音点係数列Ma[u]のうち音響信号x(t)の各成分の発音点に対応する各係数値a[j,u]が1(音響信号x(t)の強度を維持する数値)に設定され、残余の各係数値a[j,u]は0(すなわち音響信号x(t)の強度を抑制する数値)に設定されるという傾向がある。他方、減衰音係数列Md[u](d:decay)は、音響信号x(t)の各成分の発音点に後続する減衰区間(すなわち各成分の強度が経時的に減衰する区間)を強調するための係数列であり、相異なる周波数に対応するJ個の係数値d[j,u](d[1,u]〜d[J,u])を含んで構成される。概略的には、減衰音係数列Md[u]のうち音響信号x(t)の各成分の減衰区間に対応する各係数値d[j,u]が1に設定され、残余の各係数値d[j,u]は0に設定されるという傾向がある。各係数値a[j,u]および各係数値d[j,u]は、0以上かつ1以下の範囲内で可変に設定される。
図6は、過渡性評価部50のブロック図である。図6に示すように、本実施形態の過渡性評価部50は、重心算定部52と第2係数列生成部54とを含んで構成される。重心算定部52は、図7のように周波数軸上の全帯域をF個の帯域(以下「単位帯域」という)Q[1]〜Q[F]に区分し、各単位帯域Q[f](f=1〜F)の時間重心Tg[f,u](Tg[1,u]〜Tg[F,u])を単位期間毎に算定する。例えば周波数軸上の全帯域が1500Hz単位で区分されて14個(F=14)の単位帯域Q[f]が設定される。時間重心Tg[f,u]は、1個の単位期間内の音響信号x(t)のうち第f番目の単位帯域Q[f]内の成分の波形の時間軸上の重心位置を意味する。重心算定部52は、例えば以下の数式(6)の演算で時間重心Tg[f,u]を算定する。
Figure 2013164584
数式(6)の記号Σqは、1個の単位帯域Q[f]を図7のように音響信号x(t)の振幅スペクトルX[j,u]のピーク毎に区分した各帯域q[f]内での総和を意味し、記号EQ[ ]は、単位帯域Q[f]内での平均を意味する。数式(6)の記号θx[j,u]は、音響信号x(t)の位相角(位相スペクトル)を意味し、角周波数ωによる位相角θx[j,u]の微分(周波数軸上での位相角の変化率{−Δθx[j,u]/Δω})は群遅延を意味する。数式(6)で算定される時間重心Tg[f,u]は、図8に示すように、単位期間の時間軸上の中心点Pc(Tg[f,u]=0)と音響信号x(t)のうち単位帯域Q[f]内の成分の波形の重心点Pgとの距離(中心点Pcに対する偏心の度合)に相当する。
音響信号x(t)の発音点の到来前および発音点の経過後の定常的な状態(音響信号x(t)のエネルギーが安定した状態)では重心点Pgは中心点Pcと略一致する(Tg[f,u]≒0)。他方、音響信号x(t)の発音点では重心点Pgが中心点Pcの後方(図面上の右方)に移動するから、重心算定部52が算定する時間重心Tg[f,u]は、音響信号x(t)の単位帯域Q[f]内の成分の発音点にて瞬間的に増加する。以上の傾向を考慮して、本実施形態では、時間重心Tg[f,u]が所定の閾値τ2を上回る時点を発音点として検出する。
図6の第2係数列生成部54は、重心算定部52が算定した時間重心Tg[f,u]に応じて発音点係数列Ma[u]および減衰音係数列Md[u]を生成する。図6に示すように、本実施形態の第2係数列生成部54は、発音点係数列Ma[u]を生成する第1処理部542と減衰音係数列Md[u]を生成する第2処理部544とを含んで構成される。
第1処理部542は、各単位帯域Q[f]の時間重心Tg[f,u]が閾値τ2を上回る時点を発音点として検出し、音響信号x(t)の各単位帯域Q[f]内の発音点に対応する成分を分離するための発音点係数列Ma[u]を単位期間毎に生成する。具体的には、第1処理部542は、以下の数式(7)で表現される通り、周波数軸上のF個の単位帯域Q[1]〜Q[F]のうち時間重心Tg[f,u]が閾値τ2を上回る単位帯域Q[f](すなわち発音が開始された単位帯域Q[f])内の各周波数の係数値a[j,u]を1に設定し、残余の各周波数の係数値a[j,u]を0に設定した発音点係数列Ma[u]を生成する。したがって、発音点係数列Ma[u]を音響信号x(t)の振幅スペクトルX[j,u]に乗算した場合には、音響信号x(t)の各単位帯域Q[f]内の成分の発音点が強調(抽出)される。
Figure 2013164584
第2処理部544は、以下の数式(8)で表現される通り、現在(第u番目)の単位期間を最後尾とするN個(Nは2以上の自然数)の単位期間にわたる時間重心Tg[f,u]の最大値max{Tg[f,u]}が閾値τ2を上回り(すなわち現在の単位期間が発音点の直後に位置し)、かつ、直前の単位期間からの時間重心Tg[f,u]の変化量ΔTg[f,u]が負数(ΔTg[f,u]=Tg[f,u]−Tg[f,u-1]<0)となる(すなわち、前回の発音点の到来後に新たな発音点が到来していない)単位帯域Q[f]内の各周波数の係数値d[j,u]を1に設定し、残余の各周波数の係数値d[j,u]を0に設定した減衰音係数列Md[u]を生成する。したがって、減衰音係数列Md[u]を音響信号x(t)の振幅スペクトルX[j,u]に乗算した場合には、音響信号x(t)の各単位帯域Q[f]内の成分のうち発音点の直後から時間重心Tg[f,u]が単調減少するN個以下の単位期間の集合が可変長の減衰区間として強調(抽出)される。以上が過渡性評価部50の具体的な構成および動作である。
Figure 2013164584
<係数列合成部60>
図1の係数列合成部60は、調波性評価部40が生成した調波係数列Mh[u]および非調波係数列Mn[u]と、過渡性評価部50が生成した発音点係数列Ma[u]および減衰音係数列Md[u]とに応じた処理係数列M[u](相異なる周波数に対応するJ個の係数値m[1,u]〜m[J,u]の系列)を単位期間毎に順次に生成する。図9は、係数列合成部60のブロック図である。図9に示すように、係数列合成部60は、係数列変換部62と合成処理部64とを含んで構成される。
過渡性評価部50による発音点係数列Ma[u]の生成には音響信号x(t)の各成分の調波性が加味されないから、過渡性評価部50が生成する発音点係数列Ma[u]を音響信号x(t)の分離処理に適用した場合には、音響信号x(t)の打楽器音の発音点に加えて調波成分(打楽器音以外の調波性の楽音)の発音点も強調される可能性がある。以上の傾向を考慮して、本実施形態の係数列変換部62は、発音点係数列Ma[u]による調波成分の強調を抑制するための補正係数列Mr[u]を、調波性評価部40(第1係数列生成部46)が生成した調波係数列Mh[u]から生成する。
具体的には、係数列変換部62は、以下の数式(9)で表現される通り、調波係数列Mh[u]の係数値h[j,u]が所定の閾値τ3を下回る各周波数(すなわち調波成分に該当する可能性が低い周波数)の係数値r[j,u]を1に設定し、係数値h[j,u]が閾値τ3を上回る各周波数(すなわち調波成分に該当する可能性が高い周波数)の係数値r[j,u]を0に設定する。
Figure 2013164584
図9の合成処理部64は、調波性評価部40が生成した非調波係数列Mn[u]と、過渡性評価部50が生成した発音点係数列Ma[u]および減衰音係数列Md[u]と、係数列変換部62が生成した補正係数列Mr[u]とに応じた処理係数列M[u]を単位期間毎に生成する。具体的には、合成処理部64は、以下の数式(10)の演算で処理係数列M[u]を算定する。
Figure 2013164584
数式(10)の記号〈 〉0,1は、内部の数値を0以上かつ1以下の範囲内に制限する演算(例えば1を上回る数値を1に変換するとともに0を下回る数値を0に変換する演算)を意味する。数式(10)から理解されるように、処理係数列M[u]の係数値m[j,u]は、補正係数列Mr[u]の係数値r[j,u]と発音点係数列Ma[u]の係数値a[j,u]との乗算値に、発音点係数列Ma[u]の係数値a[j,u]と減衰音係数列Md[u]の係数値d[j,u]と非調波係数列Mn[u]の係数値n[j,u]との乗算値を加算して0以上1以下の範囲内に制限した数値(m[j,u]=〈r[j,u]a[j,u]+a[j,u]d[j,u]n[j,u]〉0,1)に設定される。すなわち、発音点係数列Ma[u]の係数値a[j,u]や減衰音係数列Md[u]の係数値d[j,u]が大きい(発音点および減衰区間に該当する可能性が高い)ほど、または、補正係数列Mr[u]の係数値r[j,u]および非調波係数列Mn[u]の係数値n[j,u]が大きい(非調波成分に該当する可能性が高い)ほど、処理係数列M[j,u]の係数値m[j,u]は大きい数値に設定される。したがって、係数列合成部60(合成処理部64)が生成した処理係数列M[u]を音響信号x(t)に作用させることで、音響信号x(t)のうち調波性が低い成分の発音点および減衰区間(すなわち打楽器音)を強調した音響信号y(t)が生成される。
以上に説明した本実施形態では、相異なる基本周波数に対応するC個の基底ベクトルB[1]〜B[C]を含む既知の基底行列Bを適用した音響信号x(t)の非負値行列因子分解で係数行列G[u]が算定され、係数行列G[u]から特定された尤度L[j,u]に応じて音響信号x(t)の各周波数の調波/非調波を判定した結果から調波係数列Mh[u]および非調波係数列Mn[u]が単位期間毎に生成される。また、単位期間内における音響信号x(t)の時間重心Tg[f,u]に応じて発音点係数列Ma[u]および減衰音係数列Md[u]が単位期間毎に生成される。以上の説明から理解されるように、1個の単位期間内の音響信号x(t)から単位期間毎に処理係数列M[u]を生成することが可能である。したがって、数秒程度の長時間にわたる音響信号が必要な非特許文献1や非特許文献2の技術と比較して処理遅延が低減されるという利点がある。
なお、各単位期間内の時間重心Tg[f,u]に応じた発音点係数列Ma[u]および減衰音係数列Md[u]のみを利用して処理係数列M[u](M[u]=Ma[u]○Md[u])を生成する構成では、音響信号x(t)の調波成分が打楽器音とともに分離される可能性がある。本実施形態では、音響信号x(t)の調波/非調波に応じた調波係数列Mh[u]および非調波係数列Mn[u]が処理係数列M[u]に反映されるから、音響信号x(t)の調波成分が打楽器音とともに分離される可能性は低減される。すなわち、発音点係数列Ma[u]および減衰音係数列Md[u]のみを利用する構成と比較して、音響信号x(t)の打楽器音を高精度に分離することが可能である。本実施形態では特に、調波係数列Mh[u]から生成された補正係数列Mr[u]が処理係数列M[u]に反映されるから、発音点係数列Ma[u]の作用で調波成分が打楽器音とともに分離される可能性を充分に低減できるという利点がある。
また、本実施形態では、発音点に後続する減衰区間を分離するための減衰音係数列Md[u]が発音点係数列Ma[u]とともに処理係数列M[u]に反映されるから、瞬間的にのみ音響が発生する打楽器音に加えて、打撃操作後に音響が減衰しつつ継続する打楽器音も高精度に分離できるという利点がある。
<第2実施形態>
本発明の第2実施形態を以下に説明する。なお、以下に例示する各構成において作用や機能が第1実施形態と同様である要素については、第1実施形態の説明で参照した符号を流用して各々の詳細な説明を適宜に省略する。
第2実施形態の演算処理装置22は、第1実施形態の調波性評価部40(図2)に代えて図10の調波性評価部70として機能する。第1実施形態の調波性評価部40は、音響信号x(t)のうち調波成分を強調するための調波係数列Mh[u]と非調波成分を強調するための非調波係数列Mn[u]とを生成する。他方、第2実施形態の調波性評価部70は、第1実施形態と同様の調波係数列Mh[u]および非調波係数列Mn[u]に加えて、音響信号x(t)のうちベース音成分を強調するためのベース係数列Mb[u]を生成する。ベース音成分は、調波成分のうち基本周波数が低音域に位置する音響成分である。ベース係数列Mb[u]は、調波係数列Mh[u]や非調波係数列Mn[u]と同様に、相異なる周波数に対応するJ個の係数値b[j,u](b[1,u]〜b[J,u])の系列である。各係数値b[j,u]は、0以上かつ1以下の範囲内で可変に設定される。概略的には、ベース係数列Mb[u]のうち音響信号x(t)のベース音成分が優勢な周波数の係数値b[j,u]ほど大きい数値に設定されるという傾向がある。
図10に示す通り、第2実施形態の調波性評価部70は、尤度算定部72と第1係数列生成部74とを含んで構成される。尤度算定部72は、音響信号x(t)の基本周波数の候補として事前に選定されたI個の周波数(以下「候補周波数」という)の各々に対応する尤度L[1,u]〜L[I,u]の系列(以下「尤度系列」という)L[u]を単位期間毎に順次に算定する。尤度系列L[u]は、図11の部分(A)に例示される通り、I行1列の行列(I次ベクトル)である。尤度系列L[u]のうち第i番目(i=1〜I)の尤度L[i,u]は、第i番目の候補周波数が音響信号x(t)の基本周波数に該当する確度を意味する。尤度算定部72による各尤度L[i,u]の算定には、第1実施形態における尤度L[i,u]の算定と同様の方法(非負値行列因子分解)も採用され得るが、以下の説明では第1実施形態とは別個の方法を便宜的に例示する。なお、第1実施形態では、周波数軸上のJ個の周波数のうち第j番目の1個の周波数の振幅値を振幅スペクトルX[j,u]と表記したが、第2実施形態では、周波数軸上のJ個の周波数にわたる振幅値の分布(相異なる周波数に対応するJ個の振幅値の系列)を振幅スペクトルX[u]と便宜的に表記する。
図11の部分(A)に示すように、所定の参照行列Wと尤度系列L[u]との乗算で音響信号x(t)の振幅スペクトルX[u]を近似する場合を想定する。参照行列Wは、相異なる候補周波数に対応するI個の調波構造モデルE[1]〜E[I]を横方向に配列したJ行I列の行列(ピッチモデル)である。1個の調波構造モデルE[i]は、第1実施形態(図4の部分(B))と同様に、第i番目の候補周波数を基本周波数として基音成分と複数の倍音成分とを周波数軸上に配列した調波構造の振幅スペクトル(周波数軸上のJ個の周波数の各々における振幅値の系列)を表現する。以上の説明から理解される通り、尤度系列L[u]の各尤度L[i,u]を加重値とした各調波構造モデルE[i]の加重和として振幅スペクトルX[u]は近似的に表現される。
図11の部分(B)に示すように、参照行列Wの逆行列W-1(I行J列)を想定すると、尤度系列L[u]は、参照行列Wの逆行列W-1と音響信号x(t)の振幅スペクトルX[u]との乗算で表現される。以上の関係を利用して、第2実施形態の尤度算定部72は、周波数分析部32が算定した振幅スペクトルX[u]に参照行列Wの逆行列W-1を乗算することで尤度系列L[u]を算定する。参照行列Wの逆行列W-1は、例えば事前に用意された参照行列Wから算定されて参照行列Wとともに記憶装置24に格納される。逆行列W-1の算定には、例えばチーホノフ(Tikhonov)正則化が好適に利用される。チーホノフ正規化については、例えば、Ricard Marxer, Jordi Janer,"A TIKHONOV REGULARIZATION METHOD FOR SPECTRUM DECOMPOSITION IN LOW LATENCY AUDIO SOURCE SEPARATION",ICASSP IEEE (2012), p. 277-280にも詳述されている。
図10の第1係数列生成部74は、尤度算定部72が算定した尤度系列L[u]を利用して調波係数列Mh[u]と非調波係数列Mn[u]とベース係数列Mb[u]とを単位期間毎に生成する。図10に示すように、第2実施形態の第1係数列生成部74は、尤度分離部742と成分分離部744と係数設定部746とを含んで構成される。
尤度分離部742は、尤度算定部72が単位期間毎に算定した尤度系列L[u]から調波尤度系列Lh[u]と非調波尤度系列Ln[u]とベース尤度系列Lb[u]とを単位期間毎に順次に算定する。すなわち、尤度系列L[u]が調波成分と非調波成分とベース音成分とについて分離される。図12は、尤度分離部742が実行する処理のフローチャートである。音響信号x(t)の単位期間毎に図12の処理が実行される。
図12の処理を開始すると、尤度分離部742は、尤度系列L[u]の各尤度L[i,u]を加重値η[i]で加重する(S1)。例えば各尤度L[i,u]に加重値η[i]が乗算される。周波数軸上の高い周波数(基本周波数)に対応する加重値η[i]ほど小さい数値となるように、加重値η[i]は候補周波数に応じた数値に設定される。例えば、各候補周波数の逆数が加重値η[i]の好例である。
尤度分離部742は、加重後の尤度系列L[u](η[1]L[1,u]〜η[I]L[I,u])に存在する複数のピークのうち所定値FAを下回る低音域内で最優勢のピークの候補周波数をベース音成分の基本周波数F0_bとして特定する(S2)。例えば、低音域内に存在する複数のピークのうち加重後の尤度(η[i]L[i,u])が最大となるピークの候補周波数が基本周波数F0_bとして特定される。音響信号x(t)に想定されるベース音成分の基本周波数が低音域に包含されるように所定値FAは設定される。例えば所定値FAは150Hzに設定され、150Hzを下回る低音域内の複数の候補周波数からベース音成分の基本周波数F0_bが特定される。なお、ベース音成分の基本周波数F0_bを推定する方法は以上の例示に限定されず、公知の技術が任意に採用される。
以上の手順でベース音成分の基本周波数F0_bを特定すると、尤度分離部742は、尤度算定部72が算定した尤度系列L[u]のうち基本周波数F0_bを含む所定の範囲内の周波数に対応する各尤度L[i,u]をゼロに設定するとともに残余の各尤度L[i,u]を維持することで尤度系列LA[u]を生成する(S3)。すなわち、尤度系列L[u]のうち音響信号x(t)のベース音成分に起因する成分が尤度系列LA[u]では抑制(理想的には除去)される。尤度系列L[u]のうち尤度L[i,u]がゼロに変更される範囲は、例えば周波数分析部32の短時間フーリエ変換に適用される窓関数の窓幅に応じて可変に設定される。そして、尤度分離部742は、尤度算定部72が算定した尤度系列L[u]から尤度系列LA[u]を減算することでベース尤度系列Lb[u](Lb[u]=L[u]−LA[u])を算定する(S4)。以上の説明から理解される通り、尤度分離部742が算定するベース尤度系列Lb[u]は、音響信号x(t)のうちベース音成分の基本周波数F0_bにて大きい数値となるI個の係数(すなわちI個の候補周波数の各々がベース音成分の基本周波数F0_bに該当する尤度)の系列である。
尤度分離部742は、尤度算定部72が算定した尤度系列L[u]から非調波尤度系列Ln[u]を生成する(S5)。具体的には、尤度分離部742は、尤度系列L[u]に存在する複数のピークの各々について、当該ピークに対応する候補周波数(すなわち、調波成分の基本周波数に該当する可能性が高い候補周波数)を含む所定の範囲内の各尤度L[i,u]をゼロに設定するとともに残余の各尤度L[i,u]を維持することで非調波尤度系列Ln[u]を生成する。すなわち、尤度系列L[u]のうち音響信号x(t)の調波成分(ベース音成分を含む)に起因する成分が抑制(理想的には除去)され、非調波成分に起因する成分が相対的に強調(理想的には抽出)される。尤度系列L[u]のうち尤度L[i,u]がゼロに変更される範囲は、例えば周波数分析部32による短時間フーリエ変換に適用される窓関数の窓幅に応じて可変に設定される。以上の説明から理解される通り、尤度分離部742が生成する非調波尤度系列Ln[u]は、音響信号x(t)のうち調波成分の基本周波数以外の周波数(非調波成分の周波数)にて大きい数値となるI個の係数(すなわちI個の候補周波数の各々が非調波成分の周波数に該当する尤度)の系列である。
尤度分離部742は、尤度算定部72が算定した尤度系列L[u]から調波尤度系列Lh[u]を生成する(S6)。具体的には、尤度分離部742は、ステップS4で算定したベース尤度系列Lb[u]とステップS5で算定した非調波尤度系列Ln[u]とを尤度系列L[u]から減算することで調波尤度系列Lh[u](Lh[u]=L[u]−Lb[u]−Ln[u])を算定する。以上の説明から理解される通り、尤度分離部742が算定する調波尤度系列Lh[u]は、音響信号x(t)のうち調波成分(ベース音成分を除く)の基本周波数にて大きい数値となるI個の係数(すなわちI個の候補周波数の各々が調波成分の基本周波数に該当する尤度)の系列である。以上が図10の尤度分離部742の動作の具体例である。
図10の成分分離部744は、尤度分離部742による演算結果(Lh[u],Ln[u],Lb[u])に応じて調波成分Sh[j,u]と非調波成分Sn[j,u]とベース音成分Sb[j,u]とを単位期間毎に順次に生成する。具体的には、成分分離部744は、以下の数式(11A)の通り、記憶装置24に格納された参照行列W(図11の部分(A))に調波尤度系列Lh[u]を乗算することで調波成分Sh[u]を生成する。同様に、成分分離部744は、非調波尤度系列Ln[u]を参照行列Wに乗算することで非調波成分Sn[u]を生成し(数式(11B))、ベース尤度系列Lb[u]を参照行列Wに乗算することでベース音成分Sb[u]を生成する(数式(11C))。
Figure 2013164584
図11の部分(A)を参照して説明した通り、参照行列Wに尤度系列L[u]を乗算することで音響信号x(t)の振幅スペクトルX[u]が算定される。前述の通り、調波尤度系列Lh[u]のうち音響信号x(t)の調波成分の基本周波数に対応する尤度L[i,u]ほど大きい数値に設定されるから、数式(11A)で算定される調波成分Sh[u]は、音響信号x(t)のうちベース音成分を除く調波成分の振幅スペクトル(J行1列の行列)に相当する。同様に、数式(11B)の非調波成分Sn[u]は音響信号x(t)の非調波成分の振幅スペクトルに相当し、数式(11C)のベース音成分Sb[u]は音響信号x(t)のベース音成分の振幅スペクトルに相当する。
図10の係数設定部746は、成分分離部744による処理結果を利用して調波係数列Mh[u]と非調波係数列Mn[u]とベース係数列Mb[u]とを単位期間毎に順次に生成する。具体的には、係数設定部746は、以下の数式(12A)の演算で調波係数列Mh[u]の各係数値h[j,u]を算定し、数式(12B)の演算で非調波係数列Mn[u]の各係数値n[j,u]を算定し、数式(12C)の演算でベース係数列Mb[u]の各係数値b[j,u]を算定する。なお、以下の数式における記号Sh[j,u]は、調波成分(振幅スペクトル)Sh[u]のうち周波数軸上の第j番目の周波数に対応する振幅値を意味する。同様に、記号Sn[j,u]は非調波成分Sn[u]の振幅値を意味し、記号Sb[j,u]はベース音成分Sb[u]の振幅値を意味する。
Figure 2013164584

以上に説明した通り、第2実施形態の第1係数列生成部74は、尤度算定部72が算定した各尤度L[i,u](尤度系列L[u])に応じて調波係数列Mh[u]と非調波係数列Mn[u]とベース係数列Mb[u]とを生成する要素として機能する。なお、以上の例示では、調波成分Sh[u]がベース音成分を包含しない構成を例示したが、ベース音成分を含む調波性の音響成分を調波成分Sh[u]として推定することも可能である。例えば、前述のステップS6にて非調波尤度系列Ln[u]のみを尤度系列L[u]から減算することで調波尤度系列Lh[u](Lh[u]=L[u]−Ln[u])を算定する構成が採用される。調波成分Sh[u]がベース音成分も包含する構成では、尤度系列L[u]のうち各ピーク以外の候補周波数をゼロに設定することで調波尤度系列Lh[u]を算定することも可能である。
第2実施形態の係数列合成部60は、調波性評価部70が生成した調波係数列Mh[u],非調波係数列Mn[u]およびベース係数列Mb[u]と、過渡性評価部50が生成した発音点係数列Ma[u]および減衰音係数列Md[u]とに応じた処理係数列M[u](係数値m[1,u]〜m[J,u])を生成する。具体的には、係数列合成部60は、以下の数式(13A)から数式(13H)の何れかの演算で処理係数列M[u]を生成する。例えば、数式(13A)から数式(13H)のうち利用者からの指示に応じて選択された演算式が処理係数列M[u]の生成に適用される。
Figure 2013164584
数式(13A)における右辺の第1項{Mt[u]○(Mb[u]+Mn[u])}は、非調波成分およびベース音成分の発音点の抽出に寄与し、第2項(Md[u]○Mn[u])は、非調波成分の減衰区間の抽出に寄与する。音響信号x(t)のベース音成分には、打楽器音等の非調波成分と同様に、音楽のリズムの画定に優先的に寄与する(例えば楽曲の各拍点で発音される可能性が高い)という傾向がある。したがって、数式(13A)で算定される処理係数列M[u]は、楽曲の複数の演奏パートのうちベース音成分と打楽器等の非調波成分とで構成されるリズムパートを音響信号x(t)から分離するように作用する。
数式(13B)で算定される処理係数列M[u]は、音響信号x(t)のうちベース音成分以外の調波成分の分離に利用される。また、数式(13C)の処理係数列M[u]はベース音成分の分離に利用され、数式(13D)の処理係数列M[u]は非調波成分の分離に利用される。他方、数式(13E)の処理係数列M[u]は、音響信号x(t)の各成分(調波/非調波は不問)の発音点を分離するように作用する。また、数式(13F)の処理係数列M[u]は、音響信号x(t)の各成分(調波/非調波は不問)の発音点とともに減衰区間も分離するように作用する。
数式(13G)の処理係数列M[u]は、非調波成分の発音点の分離に利用され、数式(13H)の処理係数列M[u]は、非調波成分の発音点および減衰区間の分離に利用される。以上に例示した通り、各係数列(Mh[u],Mn[u],Mb[u],Mt[u],Md[u])を選択的に合成することで、音響信号x(t)の各種の成分を分離(強調または抑圧)することが可能である。
第2実施形態においても第1実施形態と同様の効果が実現される。また、第2実施形態では、音響信号x(t)の調波成分および非調波成分に加えてベース音成分を分離できるという利点がある。
<第3実施形態>
音響信号x(t)のベース音成分は、基本周波数が低音域に位置する調波成分に該当するが、音楽のリズムの画定に優先的に寄与する傾向があるという前述の音楽的な性質は、旋律を担当する調波成分よりも打楽器音等の非調波成分に類似する。以上のように楽曲のリズムパートとしてのベース音成分の側面に着目して、第3実施形態では、音響信号x(t)の非調波成分およびベース音成分の双方の発音点において発音点係数列Ma[u]の係数値a[j,u]を増加させる。第3実施形態では、過渡性評価部50の第2係数列生成部54(第1処理部542)が発音点係数列Ma[u]を算定する動作が第1実施形態や第2実施形態とは相違する。そこで、以下では、第3実施形態における第1処理部542の動作の具体例を中心に説明する。なお、調波性評価部70が調波係数列Mh[u]および非調波係数列Mn[u]に加えてベース係数列Mb[u]を生成する構成は第2実施形態と同様である。
第3実施形態の第1処理部542(図6)は、調波性評価部70が算定した非調波係数列Mn[u]とベース係数列Mb[u]とに応じた加重値ν[j,u]を単位期間毎に算定する。具体的には、以下の数式(14)で表現される通り、非調波係数列Mn[u]の各係数値n[j,u]とベース係数列Mb[u]の各係数値b[j,u]との加算値が加重値ν[j,u]として周波数毎に算定される。したがって、係数値n[j,u]および係数値b[j,u]の一方が大きい(非調波成分およびベース音成分の少なくとも一方が音響信号x(t)にて優勢である)ほど加重値ν[j,u]は大きい数値に設定される。
Figure 2013164584
第2係数列生成部54の第1処理部542は、重心算定部52が算定した時間重心Tg[f,u]を数式(14)の加重値ν[j,u]により加重することで各単位帯域Q[f]の時間重心Tw[f,u]を単位期間毎に算定する。具体的には、第1処理部542は、以下の数式(15)の演算で加重後の時間重心Tw[f,u]を算定する。数式(15)から理解される通り、加重値ν[j,u]が大きい(非調波成分およびベース音成分の一方が優勢である)ほど時間重心Tw[f,u]は加重前の時間重心Tg[f,u]と比較して大きい数値に調整される。
Figure 2013164584
第1処理部542は、相異なる単位帯域Q[f]に対応するF個の加重後の時間重心Tw[f,u](Tw[1,u]〜Tw[F,u])の代表値Tm[u]を算定する。例えば時間重心Tw[1,u]〜Tw[F,u]の平均値や中央値(メディアン)が代表値Tm[u]として好適である。そして、第1処理部542は、前掲の数式(7)に代えて、以下の数式(7A)の演算で発音点係数列Ma[u]の各係数値a[j,u]を算定する。
Figure 2013164584

すなわち、数式(7A)から理解される通り、代表値Tm[u]が閾値τmを上回る単位期間では、加重前の時間重心Tg[f,u]が閾値τ2(例えばτ2=0.3)を上回る単位帯域Q[f]内の各周波数の係数値a[j,u]が1に設定される(すなわち発音点として検出される)とともに残余の各係数値a[j,u]が0に設定される。他方、代表値Tm[u]が閾値τmを下回る単位期間では、時間重心Tg[f,u]と閾値τ2との間の大小に関わらず係数値a[j,u]は0に設定される。閾値τmは、所定の正数に設定される。閾値τ2を上回る数値(例えば0.4)が閾値τmとして好適である。
第3実施形態においても第1実施形態や第2実施形態と同様の効果が実現される。また、第3実施形態では、非調波係数列Mn[u]とベース係数列Mb[u]とに応じた加重値ν[j,u]で時間重心Tg[f,u]を加重した時間重心Tw[f,u]の代表値Tm[u]が閾値τmを上回る場合に、時間重心Tgが閾値τ2を上回る単位帯域Q[f]内の各周波数の係数値a[j,u]が1に設定される。したがって、音響信号x(t)の非調波成分およびベース音成分の少なくとも一方が優勢な単位期間において各成分の発音点を検出できるという利点がある。
<変形例>
以上の各形態には様々な変形が加えられる。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様は併合され得る。
(1)前述の各形態では、減衰音係数列Md[u]を発音点係数列Ma[u]とともに処理係数列M[u]に反映させたが、打撃操作の直後に演奏音が停止する種類の打楽器音(すなわち減衰区間が充分に短い打楽器音)を分離する場合や、打楽器音の発音点のみを分離する必要がある場合(減衰区間まで分離する必要がない場合)には、減衰音係数列Md[u]を省略することも可能である。また、前述の各形態では、時間重心Tg[f,u]に応じて減衰区間を可変に設定したが、時間重心Tg[f,u]に応じて検出された発音点を起点とした固定長の減衰区間が分離されるように減衰音係数列Md[u]を生成することも可能である。
(2)前述の各形態では、音響信号x(t)の打楽器音を強調する場合を例示したが、音響信号x(t)の打楽器音を抑制する(調波成分を強調する)ための処理係数列M'[u]を生成することも可能である。例えば、数式(10)で算定した処理係数列M[u]の各係数値m[j,u]を所定値(例えば1)から減算することで係数列合成部60が処理係数列M'[u]を生成する。以上の説明から理解されるように、係数列合成部60は、音響信号x(t)から打楽器音を分離(強調または抑制)するための処理係数列(M[u],M'[u])を生成する手段として包括される。なお、音響信号x(t)のピッチ推定や和音(コード)同定等の音楽情報解析では、音響信号x(t)内の打楽器音が推定精度を低下させる原因となり得る。信号処理部36が前述の処理係数列M'[u]を音響信号x(t)させて生成される音響信号y(t)では音響信号x(t)の打楽器音が抑制されるから、音響信号y(t)を対象として音楽情報解析を実行することで、推定精度を向上させることが可能である。
(3)前述の各形態では、音響信号x(t)のうち1個の単位期間の振幅スペクトルX[j,u]の非負値行列因子分解で係数行列G[u](C行1列)を生成したが、複数個の単位期間にわたる振幅スペクトルX[j,u]の時系列(すなわち音響信号x(t)のスペクトログラム)を非負値行列因子分解の対象として係数行列G[u]を算定することも可能である。H個(Hは2以上の自然数)の振幅スペクトルX[j,u]で構成される観測行列について既知の基底行列Bを適用した非負値行列因子分解を実行した場合、H個の加重値の時系列で各々が構成されるC個の係数ベクトルg[c,u]を配列したC行H列の係数行列G[u]が生成される。以上の構成では、前述の数式(3)の演算に代えて、係数ベクトルg[c,u]内のH個の加重値の最大値を、調波構造モデルE[j]が共通する各基底ベクトルB[c]に対応するK個の係数ベクトルg[c,u]について加算することで尤度L[j,u]を算定することが可能である。
(4)前述の各形態では、尤度L[j,u]と閾値τ1との大小に応じて各周波数を調波周波数と非調波周波数とに選別したが、各周波数を調波周波数と非調波周波数とに選別する方法は適宜に変更される。例えば、尤度L[j,u]の降順で上位に位置する所定個の周波数を調波周波数に選別するとともに残余の周波数を非調波周波数に選別することも可能である。また、前述の各形態では、発音点係数列Ma[u]の各係数値a[j,u]と閾値τ3との大小に応じて補正係数列Mr[u]の各係数値r[j,u]を設定したが(数式(9))、補正係数列Mr[u]の各係数値r[j,u]を係数値a[j,u]に応じて設定する方法は適宜に変更される。例えば、係数値a[j,u]の昇順で上位に位置する所定個の周波数の係数値r[j,u]を1に設定するとともに残余の係数値r[j,u]を0に設定することも可能である。
(5)前述の各形態では、音響処理装置100が生成した音響信号y(t)を再生したが、音響処理装置100の用途は以上の例示(打楽器音の分離および再生)に限定されない。例えば、処理係数列M[u](または処理係数列M[u]と前述の変形例に係る処理係数列M'[u]との双方)を利用して音響信号x(t)を打楽器音の音響信号y(t)と残余の調波成分の音響信号z(t)とに分離し、音響信号y(t)および音響信号z(t)とを個別に加工したうえで混合することも可能である。例えば、打楽器音の音響信号y(t)の音量を増加させたうえで音響信号z(t)と混合すれば、打楽器音で規定されるリズムが顕在化した音響信号を生成することが可能である。また、調波成分の音響信号z(t)の音高(ピッチ)を変化させたうえで音響信号y(t)と混合すれば、打楽器音の聴感的な印象(音程感)を変化させずに調波成分のみの音高を変化させた音響信号を生成することが可能である。あるいは、音響信号y(t)および音響信号z(t)の各々のテンポを個別に制御することもできる。
(6)前述の各形態では、処理係数列M[u]を生成する解析処理部34と処理係数列M[u]を音響信号x(t)に作用させる信号処理部36とを兼備する音響処理装置100を例示したが、音響信号x(t)(または振幅スペクトルX[j,u])から処理係数列M[u]を生成する音響処理装置(処理係数列生成装置とも換言され得る)としても本発明は実施され得る。すなわち、信号処理部36を省略することも可能である。
100……音響処理装置、12……信号供給装置、14……放音装置、22……演算処理装置、24……記憶装置、32……周波数分析部、34……解析処理部、36……信号処理部、38……波形合成部、40,70……調波性評価部、42……係数行列生成部、44,72……尤度算定部、46,74……第1係数列生成部、462……周波数選別部、464,744……成分分離部、466,746……係数設定部、50……過渡性評価部、52……重心算定部、54……第2係数列生成部、542……第1処理部、544……第2処理部、60……係数列合成部、62……係数列変換部、64……合成処理部、742……尤度分離部、B……基底行列、B[c](B[1]〜B[C])……基底ベクトル、G[u]……係数行列、x(t),y(t)……音響信号、X[j,u],Y[j,u]……振幅スペクトル、M[u](m[1,u]〜m[J,u])……処理係数列、Mh[u](h[1,u]〜h[J,u])……調波係数列、Mn[u](n[1,u]〜n[J,u])……非調波係数列、Mb[u](b[1,u]〜b[J,u])……ベース係数列、Ma[u](a[1,u]〜a[J,u])……発音点係数列、Md[u](d[1,u]〜d[J,u])……減衰音係数列、Mr[u](r[1,u]〜r[J,u])……補正係数列。

Claims (7)

  1. 音響信号から特定の成分が分離されるように周波数毎の係数値が設定された処理係数列を生成する装置であって、
    複数の周波数の各々が前記音響信号の基本周波数に該当する尤度を算定する尤度算定手段と、
    前記音響信号のうち前記尤度が高い調波周波数の成分を強調するための調波係数列と前記尤度が低い非調波周波数の成分を強調するための非調波係数列とを生成する第1係数列生成手段と、
    各単位期間内での前記音響信号の波形の時間重心を周波数軸上の単位帯域毎に算定する重心算定手段と、
    前記音響信号の各単位帯域内の成分の発音点を当該単位帯域の時間重心に応じて検出し、前記各発音点を分離するための発音点係数列を前記検出結果に応じて生成する第2係数列生成手段と、
    前記調波係数列と前記非調波係数列と前記発音点係数列とに応じて前記処理係数列を生成する係数列合成手段と
    を具備する音響処理装置。
  2. 前記第2係数列生成手段は、前記発音点係数列と、前記音響信号のうち前記各発音点に後続する減衰区間を分離するための減衰音係数列とを生成し、
    前記係数列合成手段は、前記調波係数列と前記非調波係数列と前記発音点係数列と前記減衰音係数列とに応じて前記処理係数列を生成する
    請求項1の音響処理装置。
  3. 前記係数列合成手段は、
    前記調波係数列の係数値が所定の閾値を下回る周波数の係数値が前記音響信号を維持する数値に設定され、前記調波係数列の係数値が前記閾値を上回る周波数の係数値が前記音響信号を抑制する数値に設定された補正係数列を生成する係数列変換手段と、
    前記補正係数列と前記非調波係数列と前記発音点係数列とに応じて前記処理係数列を生成する合成処理手段とを含む
    請求項1または請求項2の音響処理装置。
  4. 基本周波数が相違する音響のスペクトルを示す複数の基底ベクトルを含む基底行列を適用した前記音響信号の非負値行列因子分解により、各基底ベクトルの加重値を示す係数行列を順次に生成する係数行列生成手段を具備し、
    前記各基底ベクトルは、基本周波数が相違する調波構造を示す複数の調波構造モデルと、相異なる周波数帯域を示す複数の帯域モデルとの組合せ毎に用意され、
    前記尤度算定手段は、一の周波数の調波構造モデルに対応する各基底ベクトルについて算定された前記係数行列内の加重値を、当該調波構造モデルと前記複数の帯域モデルの各々との組合せに対応する複数の係数行列について加算することで、前記一の周波数の尤度を算定する
    請求項1から請求項3の何れかの音響処理装置。
  5. 前記第1係数列生成手段は、前記係数行列の複数の加重値のうち前記各調波周波数に対応する加重値を抽出して前記基底行列に乗算した調波成分の強度に応じて前記調波係数列の各係数値を算定し、前記係数行列の複数の加重値のうち前記各非調波周波数に対応する加重値を抽出して前記基底行列に乗算した非調波成分の強度に応じて前記非調波係数列の各係数値を算定する
    請求項1から請求項4の何れかの音響処理装置。
  6. 前記第1係数列生成手段は、周波数が所定値を下回る範囲内で前記尤度が高い成分を強調するためのベース係数列を、前記尤度算定手段が算定した前記尤度に応じて、前記調波係数列および前記非調波係数列とともに生成し、
    前記係数列合成手段は、前記調波係数列と前記非調波係数列と前記ベース係数列と前記発音点係数列とに応じて前記処理係数列を生成する
    請求項1から請求項5の何れかの音響処理装置。
  7. 前記第2係数列生成手段は、前記非調波係数列と前記ベース係数列とに応じて加重した各単位帯域の時間重心の代表値が第1閾値を上回る単位期間について、加重前の時間重心が第2閾値を上回る場合に発音点として検出する
    請求項6の音響処理装置。
JP2013002987A 2012-01-12 2013-01-10 音響処理装置 Pending JP2013164584A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013002987A JP2013164584A (ja) 2012-01-12 2013-01-10 音響処理装置

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2012003984 2012-01-12
JP2012003984 2012-01-12
JP2013002987A JP2013164584A (ja) 2012-01-12 2013-01-10 音響処理装置

Publications (1)

Publication Number Publication Date
JP2013164584A true JP2013164584A (ja) 2013-08-22

Family

ID=49175938

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013002987A Pending JP2013164584A (ja) 2012-01-12 2013-01-10 音響処理装置

Country Status (1)

Country Link
JP (1) JP2013164584A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015029545A1 (ja) * 2013-08-30 2015-03-05 日本電気株式会社 信号処理装置、信号処理方法および信号処理プログラム
WO2015029546A1 (ja) * 2013-08-30 2015-03-05 日本電気株式会社 信号処理装置、信号処理方法および信号処理プログラム
JP2015125239A (ja) * 2013-12-26 2015-07-06 Pioneer DJ株式会社 音声信号処理装置、音声信号処理装置の制御方法、プログラム
EP3220386A1 (en) * 2016-03-18 2017-09-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for harmonic-percussive-residual sound separation using a structure tensor on spectrograms
WO2022070234A1 (ja) * 2020-09-29 2022-04-07 日本電気株式会社 信号処理装置、信号処理方法、及びコンピュータ読み取り可能な記憶媒体

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10236019B2 (en) 2013-08-30 2019-03-19 Nec Corporation Signal processing apparatus, signal processing method, and signal processing program
WO2015029546A1 (ja) * 2013-08-30 2015-03-05 日本電気株式会社 信号処理装置、信号処理方法および信号処理プログラム
JPWO2015029545A1 (ja) * 2013-08-30 2017-03-02 日本電気株式会社 信号処理装置、信号処理方法および信号処理プログラム
JPWO2015029546A1 (ja) * 2013-08-30 2017-03-02 日本電気株式会社 信号処理装置、信号処理方法および信号処理プログラム
US10276178B2 (en) 2013-08-30 2019-04-30 Nec Corporation Signal processing apparatus, signal processing method, and signal processing program
WO2015029545A1 (ja) * 2013-08-30 2015-03-05 日本電気株式会社 信号処理装置、信号処理方法および信号処理プログラム
JP2015125239A (ja) * 2013-12-26 2015-07-06 Pioneer DJ株式会社 音声信号処理装置、音声信号処理装置の制御方法、プログラム
CN109247030A (zh) * 2016-03-18 2019-01-18 弗劳恩霍夫应用研究促进协会 使用频谱图上的结构张量进行谐波-打击乐-残余声音分离的装置和方法
EP3220386A1 (en) * 2016-03-18 2017-09-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for harmonic-percussive-residual sound separation using a structure tensor on spectrograms
US10770051B2 (en) 2016-03-18 2020-09-08 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for harmonic-percussive-residual sound separation using a structure tensor on spectrograms
CN109247030B (zh) * 2016-03-18 2023-03-10 弗劳恩霍夫应用研究促进协会 使用频谱图上的结构张量进行谐波-打击乐-残余声音分离的装置和方法
WO2022070234A1 (ja) * 2020-09-29 2022-04-07 日本電気株式会社 信号処理装置、信号処理方法、及びコンピュータ読み取り可能な記憶媒体
JP7485061B2 (ja) 2020-09-29 2024-05-16 日本電気株式会社 信号処理装置、信号処理方法、及びプログラム

Similar Documents

Publication Publication Date Title
Lehner et al. On the reduction of false positives in singing voice detection
US8889976B2 (en) Musical score position estimating device, musical score position estimating method, and musical score position estimating robot
Abeßer et al. Feature-based extraction of plucking and expression styles of the electric bass guitar
JP5088030B2 (ja) 演奏音の類似度を評価する方法、装置およびプログラム
JP5961950B2 (ja) 音声処理装置
JP5454317B2 (ja) 音響解析装置
JP5846043B2 (ja) 音声処理装置
JP2013164584A (ja) 音響処理装置
CN107533848B (zh) 用于话音恢复的系统和方法
JP2010210758A (ja) 音声を含む信号の処理方法及び装置
Shah et al. Chroma feature extraction
JP2017161574A (ja) 音信号処理方法および音信号処理装置
JP6044119B2 (ja) 音響解析装置およびプログラム
Grosche et al. Automatic transcription of recorded music
Benetos et al. Auditory spectrum-based pitched instrument onset detection
JP6565548B2 (ja) 音響解析装置
Dittmar et al. Real-time guitar string detection for music education software
JP2014134688A (ja) 音響解析装置
JP2017067902A (ja) 音響処理装置
US20230335090A1 (en) Information processing device, information processing method, and program
JP6299140B2 (ja) 音響処理装置および音響処理方法
JP2015200685A (ja) アタック位置検出プログラムおよびアタック位置検出装置
Singh et al. Efficient pitch detection algorithms for pitched musical instrument sounds: A comparative performance evaluation
Derrien A very low latency pitch tracker for audio to MIDI conversion
JP5573529B2 (ja) 音声処理装置およびプログラム

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20150410