JP4375471B2 - 信号処理装置、信号処理方法、およびプログラム - Google Patents

信号処理装置、信号処理方法、およびプログラム Download PDF

Info

Publication number
JP4375471B2
JP4375471B2 JP2007261600A JP2007261600A JP4375471B2 JP 4375471 B2 JP4375471 B2 JP 4375471B2 JP 2007261600 A JP2007261600 A JP 2007261600A JP 2007261600 A JP2007261600 A JP 2007261600A JP 4375471 B2 JP4375471 B2 JP 4375471B2
Authority
JP
Japan
Prior art keywords
signal
frequency
octave
audio signal
low
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007261600A
Other languages
English (en)
Other versions
JP2009092791A (ja
Inventor
由幸 小林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2007261600A priority Critical patent/JP4375471B2/ja
Priority to CN2008101614630A priority patent/CN101404155B/zh
Priority to US12/245,067 priority patent/US8301279B2/en
Publication of JP2009092791A publication Critical patent/JP2009092791A/ja
Application granted granted Critical
Publication of JP4375471B2 publication Critical patent/JP4375471B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10GREPRESENTATION OF MUSIC; RECORDING MUSIC IN NOTATION FORM; ACCESSORIES FOR MUSIC OR MUSICAL INSTRUMENTS NOT OTHERWISE PROVIDED FOR, e.g. SUPPORTS
    • G10G3/00Recording music in notation form, e.g. recording the mechanical operation of a musical instrument
    • G10G3/04Recording music in notation form, e.g. recording the mechanical operation of a musical instrument using electrical means
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01HMEASUREMENT OF MECHANICAL VIBRATIONS OR ULTRASONIC, SONIC OR INFRASONIC WAVES
    • G01H3/00Measuring characteristics of vibrations by using a detector in a fluid
    • G01H3/04Frequency
    • G01H3/08Analysing frequencies present in complex vibrations, e.g. comparing harmonics present
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Auxiliary Devices For Music (AREA)
  • Electrophonic Musical Instruments (AREA)

Description

本発明は、信号処理装置、信号処理方法、およびプログラムに関し、特に、オーディオ信号を各音程成分に分類する場合に用いて好適な信号処理装置、信号処理方法、およびプログラムに関する。
従来、入力されたオーディオ信号に対応する楽譜を自動的に生成する自動採譜や、入力されたオーディオ信号の音楽的特徴を検出するために利用することを目的として、複数の音程解析の手法が提案されている。
音程解析とは、所定のサンプリング周波数でサンプリングされたディジタルのオーディオ(音楽)信号を、いわゆる、ド、ド♯、レ、レ♯、ミ、ファ、ファ♯、ソ、ソ♯、ラ、ラ♯、シに相当する、各音程C,C♯,D,D♯,E,F,F♯,G,G♯,A,A♯,B毎の情報に解析する処理である。
ここで、C,C♯,D,D♯,E,F,F♯,G,G♯,A,A♯,Bの12の音程は、1オクターブを構成するものである。なお、以下、低域側(低周波数側)のオクターブから高域側(高周波数側)のオクターブまでを順に、オクターブO1,O2,O3,・・・と称する。また、例えば、オクターブO1のCをC1、オクターブO2のA♯をA♯2と称する。
1オクターブの音程は、それより1オクターブ低い音程より、周波数が倍となる関係がある。換言すれば、音程は、周波数に対して、対数(指数)で分布する。例えば、オクターブO3のAの音程A3の周波数(中心周波数)が440Hzであるとすれば、その1オクターブ高いオクターブO4のAの音程A4の周波数は、440Hzの2倍の880Hzとなる。また、例えば、隣り合うCとC♯の周波数(中心周波数)の差は、高いオクターブほど広くなり、例えば、低域側であるオクターブO2(127.1Hz乃至254.2Hz)では、C2とC♯2の差は約6Hzとなり、高域側であるオクターブO6では、C6とC♯6の差が約123Hzとなっている。
さらに、あるオクターブの各音程の周波数帯域(帯域幅)も、その1オクターブ低い各音程の周波数帯域の2倍となる。
ところで、既存のオーディオ信号の音程解析の手法には、短時間フーリエ変換(STFT:short-time Fourier transform)を用いる手法(以下、STFT手法と称する)、ウェーブレット変換を用いる方法(以下、ウェーブレット変換手法と称する)などがある。また、本出願により提案されているオクターブ分割とバンドパスフィルタバンクを用いる手法(以下、オクターブ分割手法と称する)(例えば、特許文献1参照)もある。
STFT手法では、オーディオ信号の等間隔の周波数帯における周波数成分を解析するものであるので、上述したように、音程が周波数に対して対数で分布していることに起因して、低域側で解析精度が低下してしまう傾向がある。
ウェーブレット変換手法では、1/12オクターブ(1つの音程)を抽出することができる基底関数を用いることにより、理想的な時間軸解像度と周波数解像度で音程を推定することができるとされている。ただし、ウェーブレット変換手法では、膨大な演算量が必要とされる。
これに対して、オクターブ分割手法では、低域側において解析精度が低下しないことに加え、ウェーブレット変換手法に比較して少ない演算量で音程解析を行うことができる。
特開2005−275068
なお、従来においては、オーディオ信号の高域側を音程解析の対象として重視せず、主に低域側を音程解析の対象としていたが、近年、高域側も音程解析の対象とする傾向にある。
しかしながら、オクターブ分割手法では、上述したように、低域側においてSTFT手法やウェーブレット手法に対する優位性を示すが、高域側においてはSTFT手法やウェーブレット手法に対する優位性を示すことができない。
よって、オーディオ信号の高域側と低域側を効率よく音程解析できる手法の出現が望まれている。
本発明は、このような状況に鑑みてなされたものであり、オーディオ信号の高域側と低域側を効率よく音程解析できるようにするものである。
本発明の一側面である信号処理装置は、オーディオ信号を解析する信号処理装置において、入力されたオーディオ信号から高周波数側の高域信号を抽出する第1の抽出手段と、入力されたオーディオ信号から低周波数側の低域信号を抽出する第2の抽出手段と、前記オーディオ信号から抽出された前記高域信号を、短時間フーリエ変換を用いて解析することにより、前記高域信号に含まれる複数の音程成分を解析する高域処理手段と、前記オーディオ信号から抽出された前記低域信号を複数のオクターブ成分に分割し、各オクターブ成分から複数の音程低分を抽出することにより、前記低域信号に含まれる複数の音程成分を解析する低域処理手段と、解析された前記高域信号に含まれる前記複数の音程成分と、解析された前記低域信号に含まれる前記複数の音程成分とを組み合わせる合成手段とを含むことを特徴とする。
前記高域処理手段は、前記オーディオ信号から抽出された前記高域信号を、短時間フーリエ変換を用いて解析することにより、等間隔の周波数帯成分を取得するSTFT手段と、各音程を構成する複数の前記周波数帯のエネルギを加算して、分割された前記高域信号に含まれる複数の音程成分を解析する加算手段とを含むようにすることができる。
前記低域処理手段は、前記オーディオ信号から抽出された前記低域信号を、さらに、高周波数側の高域成分と低周波数側の低域成分とに分割し、前記高域成分と前記低域成分のそれぞれをダウンサンプリングすることを繰り返すことにより、前記オーディオ信号から抽出された前記低域信号を複数のオクターブ成分に分割するオクターブ分割手段と、前記複数のオクターブ成分それぞれをフィルタリングすることにより、複数の音程成分を抽出するフィルタリング手段とを含むようにすることができる。
前記低域処理手段は、前記オーディオ信号から抽出された前記低域信号を再サンプリングする再サンプリング手段をさらに含むようにすることができる。
本発明の一側面である信号処理方法は、オーディオ信号を解析する信号処理装置の信号処理方法において、入力されたオーディオ信号から高周波数側の高域信号を抽出し、入力されたオーディオ信号から低周波数側の低域信号を抽出し、前記オーディオ信号から抽出された前記高域信号を、短時間フーリエ変換を用いて解析することにより、前記高域信号に含まれる複数の音程成分を解析し、前記オーディオ信号から抽出された前記低域信号を複数のオクターブ成分に分割し、各オクターブ成分から複数の音程低分を抽出することにより、前記低域信号に含まれる複数の音程成分を解析し、解析された前記高域信号に含まれる前記複数の音程成分と、解析された前記低域信号に含まれる前記複数の音程成分とを組み合わせるステップを含むことを特徴とする。
本発明の一側面であるプログラムは、オーディオ信号を解析する信号処理装置の制御用のプログラムであって、入力されたオーディオ信号から高周波数側の高域信号を抽出し、入力されたオーディオ信号から低周波数側の低域信号を抽出し、前記オーディオ信号から抽出された前記高域信号を、短時間フーリエ変換を用いて解析することにより、前記高域信号に含まれる複数の音程成分を解析し、前記オーディオ信号から抽出された前記低域信号を複数のオクターブ成分に分割し、各オクターブ成分から複数の音程低分を抽出することにより、前記低域信号に含まれる複数の音程成分を解析し、解析された前記高域信号に含まれる前記複数の音程成分と、解析された前記低域信号に含まれる前記複数の音程成分とを組み合わせるステップを含む処理を信号処理装置のコンピュータに実行させることを特徴とする。
本発明の一側面においては、入力されたオーディオ信号から高周波数側の高域信号と低周波数側の低域信号が抽出され、抽出された高域信号が、短時間フーリエ変換を用いて解析されることにより、高域信号に含まれる複数の音程成分が解析される。また、抽出された低域信号が複数のオクターブ成分に分割され、各オクターブ成分から複数の音程低分を抽出することにより、低域信号に含まれる複数の音程成分が解析される。そして、解析された高域信号に含まれる複数の音程成分と、解析された低域信号に含まれる複数の音程成分とが組み合わされる。
本発明の一側面によれば、オーディオ信号の高域側と低域側を効率よく音程解析することができる。
以下、本発明の一実施の形態であるオーディオ信号解析装置について説明するが、その前に、当該オーディオ信号解析装置が処理対象とするオーディオ信号について、図1を参照して説明する。なお、図1は、オーディオ信号の音程と周波数との関係を示している。
処理対象とするオーディオ信号は、図示するように63.55Hz乃至32534.8Hzの範囲の周波数成分を含むものであり、低域側から順に9つのオクターブO1乃至O9に区分される。各オクターブにおいては、周波数の低い方から、C,C♯,D,D♯,E,F,F♯,G,G♯,A,A♯,Bの12の音程が含まれるものとする。
なお、オクターブO1のC,C♯,D,D♯,E,F,F♯,G,G♯,A,A♯,Bの12の音程(以下、C乃至Bの12音程とも称する)を、それぞれ、C1,C♯1,D1,D♯1,E1,F1,F♯1,G1,G♯1,A1,A♯1,B1(以下、C1乃至B1の12音程とも称する)と称する。オクターブO2乃至O9についても同様である。
なお、各オクターブの12の音程の周波数は、図1の場合、オクターブO3のA、すなわち、A3を基準音とし、その周波数(中心周波数)を440Hzとして次のように決定されている。
すなわち、音程は周波数に対して対数で分布するので、1オクターブを12の音程に分類する場合、隣り合う音程どうしの周波数の比(中心周波数の比)は、1:12√2(2の12乗根)となる。また、各音程の周波数範囲も、隣り合う音程どうしの比は、1:12√2(2の12乗根)となる。
例えば、図1に示すように、オクターブ3のA3の音程の1つ高い音程A♯3の周波数(中心周波数)は、A3の周波数440.0の12√2倍の466.2Hzとなり、A♯3の音程の1つ高い音程B3の周波数は、A♯3の12√2倍の493.9Hzとなる。同様に、他の音程の周波数についても、基準音に基づいて決定される。
そして、CからBまでの12音程ごとの区切りを1オクターブとするので、1オクターブの周波数範囲は、Cの周波数範囲の最低周波数からBの周波数範囲の最高周波数までとなる。例えば、オクターブO4の場合、C4の周波数範囲の最低周波数からB4の周波数範囲の最高周波数までの508.4Hz乃至1016.7Hzとなる。また例えば、オクターブO5の場合、C5の周波数範囲の最低周波数からB5の周波数範囲の最高周波数までの508.4Hz乃至1016.7Hz乃至2033.4Hzとなる。なお、本明細書において、周波数に関するXHz乃至YHz(X,Yは任意の数値)の記載は、XHz以上YHz未満を表すものとする。
なお、図1において、オクターブO4と、オクターブO3およびO5の一部の音程を除き、オクターブO1乃至O9それぞれの12の音程の中心周波数と周波数範囲の図示が省略されている。
次に、図2は、本発明の一実施の形態であるオーディオ信号解析装置の構成例を示している。このオーディオ信号解析装置10は、時系列信号として入力されるオーディオ信号に解析処理を行うことにより、オーディオ信号をオクターブ毎に12の音程に分類し、各音程のエネルギを算出するものである。
オーディオ信号解析装置10による処理結果は、オーディオ信号のメロディ、コード進行、テンポ、音符の数などといった音楽的の特徴を解析する、いわゆる音楽解析に利用することができる。
オーディオ信号解析装置10は、入力されるオーディオ信号のうちの高域側の信号(以下、高域信号と称する)を抽出するハイパスフィルタ(HPF)11、入力されるオーディオ信号の低域側の信号(以下、低域信号と称する)を抽出するローパスフィルタ(LPF)12、抽出された高域信号を処理対象としてSTFT手法により音程解析を行う高域処理部13、抽出された低域信号を処理対象としてオクターブ分割手法により音程解析を行う低域処理部14、および、高域処理部13による音程解析の結果と低域処理部14による音程解析の結果とを組み合わせる合成部15から構成される。
なお、オーディオ信号解析装置10に入力されるオーディオ信号は、所定のサンプリングレートでサンプリングされたものである。例えば、CD(Compact Disk)から再生されたオーディオ信号が入力される場合、そのサンプリング周波数は、44.1kHzである。
ハイパスフィルタ11は、入力されるオーディオ信号のうちの高域信号(例えば、オクターブO7のC7の最低周波数に相当する4066.8Hz以上の周波数成分)を抽出して高域処理部13に出力する。
ローパスフィルタ12は、入力されるオーディオ信号のうち、ハイパスフィルタ11によって抽出されない低域信号(いまの例の場合、オクターブO6のB6の最高周波数に相当する4066.8Hz未満の周波数成分)を抽出して低域処理部14に出力する。
なお、ハイパスフィルタ11によって抽出される高域信号とローパスフィルタ12によって抽出される低域信号の境界は、上述した例のようにオクターブO6とオクターブO7の境界に固定されたものではなく可変である。例えば、後述する高域処理部13においてはSTFT手法により、オーディオ信号が等間隔の周波数帯に分割されるが、1つの音程に含まれる周波数帯の数が所定の数以上になるように、当該境界を決定するようにしてもよい。また、最終的に要求される処理時間や解析精度に応じて当該境界を決定するようにしてもよい。
高域処理部13は、図3に示すように、ハイパスフィルタ11から入力される高域信号に対して短時間フーリエ変換を行うSTFT部21、および、各音程に含まれる周波数成分のエネルギを加算することにより、各音程のエネルギを算出するエネルギ加算部22から構成される。
STFT部21は、ハイパスフィルタ11から入力される高域信号を、図4に示すように、重複部分(オーバーラップ)を設けて所定の時間幅を有するフレーム毎に区切り、各フレームの高域信号に対して、図5に示すように、窓関数をかけた後に高速フーリエ変換(FFT:Fast Fourier Transform)を行う。この結果、各フレームの高域信号が等間隔の周波数帯に分割されるとともに、各周波数帯のエネルギが算出される。
エネルギ加算部22は、図6に示すように、STFT部21の出力に基づき、各音程に含まれる各周波数帯のエネルギを加算することによって各音程のエネルギを算出する。
次に、低域処理部14は、図7に示すように、ローパスフィルタ12から入力される低域信号の再サンプリングを行う再標本化部31、再サンプリングされた低域信号をオクターブO1乃至O6に分割するオクターブ分割ブロック32、および、各オクターブの周波数成分からそれぞれB乃至Cの12音程を抽出するバンドパスフィルタブロック(以下、BPFBと称する)33−1乃至33−6から構成される。
再標本化部31は、入力される低域信号を、後段のオクターブ分割ブロック32の処理に適するように(後述)、所定のサンプリング周波数で再サンプリング(再標本化)し、再サンプリングした低域信号をオクターブ分割ブロック32に出力する。
オクターブ分割ブロック32は、再標本化部31から入力される再サンプリングされた低域信号を、オクターブO1乃至O6の周波数成分に分割し、分割したオクターブO1乃至O6の周波数成分を、それぞれ対応するBPFB33−1乃至33−6に出力する。すなわち、オクターブ分割ブロック32は、オクターブO1の周波数成分をBPFB33−1に、オクターブO2の周波数成分をBPFB33−2に出力する。オクターブO3乃至O6の周波数成分についても同様である。
より具体的には、オクターブ分割ブロック32では、入力される低域信号をさらにその周波数に応じて、高域側成分と低域側成分とに2分割し、それぞれを、現状のサンプリング周波数の1/2のサンプリング周波数でダウンサンプリングすることにより、高域側成分のダウンサンプリング結果が、オクターブO6のオーディオ信号として抽出される。
一方、低周波数成分のダウンサンプリング結果は、さらにまた、高域側成分と低域側成分とに2分割され、現状の1/2のサンプリング周波数にダウンサンプリングされる。そして、やはり、高域側成分のダウンサンプリング結果が、前回よりも1オクターブ低いオクターブO5のオーディオ信号として抽出される。これ以降同様に、オクターブO4以下のオーディオ信号が抽出される。
このように、オクターブ分割ブロック32では、高域側成分と低域側成分とに分割する処理と、現状の1/2のサンプリング周期にダウンサンプリングする処理とが繰り返されることにより、各オクターブのオーディオ信号が抽出されるので、オクターブ分割ブロック32に入力されるオーディオ信号のサンプリング周波数を2n(n=1,2,・・・)で割った値が、各オクターブの境界周波数となる。
したがって、仮に、再標本化部31を設けず、再標本化されていない低域信号がそのままオクターブ分割ブロック32に供給された場合、以下のような不都合が生じる。
例えば、オーディオ信号解析装置10に入力されるオーディオ信号のサンプリング周波数が44.1kHzである場合、オクターブ分割ブロック32では、そのオーディオ信号が周波数帯域分割されることにより、高域側成分として、44.1/2乃至((44.1/2)/2)kHzの周波数範囲のオーディオ信号が抽出されることになる。この最低周波数と最高周波数は、図1で示したオクターブO1乃至O9のいずれの境界周波数とも一致しないので、抽出される高周波数成分の低域側や高域側は、所望のオクターブの音程の一部の周波数成分が欠けたもの、あるいは、所望のオクターブに隣接する他のオクターブの音程の一部の周波数成分が含まれたものとなってしまう。
このような不都合を発生させないため、再標本化部31では、入力される低域信号を、所定の2オクターブの境界周波数を基準とし、その基準とした周波数の2のべき乗倍のサンプリング周波数で再サンプリングするようになされている。
具体的には、例えば、オクターブO4とO5の境界周波数である1016.7Hzを基準とし、その25倍、すなわち、32534.7Hzを新たなサンプリング周波数としてオーディオ信号を再サンプリングする。なお、基準とする境界周波数の選定、および2のべき乗数の選定は任意であり、例えば、どの高さの音程を含むオクターブを重視して抽出するか等によって決定する。
BPFB33−1乃至33−6は、それぞれC乃至Bの12音程それぞれの周波数範囲のオーディオ信号を通過帯域とする12のバンドパスフィルタを内蔵しており、オクターブ分割ブロック32から入力される1オクターブ分のオーディオ信号を、フィルタリングすることにより、C乃至Bの12音程のオーディオ信号を抽出する。
例えば、BPFB33−1では、オクターブ分割ブロック32から入力されるオクターブO1のオーディオ信号がフィルタリングされ、C1乃至B1の12音程の信号成分が抽出される。また例えば、BPFB33−2では、オクターブ分割ブロック32から入力されるオクターブO2のオーディオ信号がフィルタリングされ、C2乃至B2の12音程の信号成分が抽出される。BPFB33−3乃至33−6についても同様である。
次に、オクターブ分割ブロック32の詳細な構成例について、図8および図9を参照して説明する。図8に示すように、オクターブ分割ブロック32は、オクターブ分割部51−1乃至51−5から構成される。そして、図9に示すように、オクターブ分割部51−1は、ハイパスフィルタ(HFP)71−1、ダウンサンプリング(DS)部72−1、ローパスフィルタ(LPF)73−1、ダウンサンプリング部74−1、ハイパスフィルタ75、およびダウンサンプリング部76から構成される。オクターブ分割部51−2は、ハイパスフィルタ72−1、ダウンサンプリング部72−2、ローパスフィルタ73−2、およびダウンサンプリング部74−2から構成される。オクターブ分割部51−3乃至51−5についても、オクターブ分割部51−2と同様に構成される。
すなわち、オクターブ分割部51−5は、再標本化部31から入力された、32534.7Hzのサンプリング周波数で再サンプリングされたオーディオ信号のうち、図10に示すように高域側の1/2の周波数帯域の成分(以下、高域側成分と称する)を抽出するハイパスフィルタ71−5、抽出された高域側成分を1/2のサンプリング周波数にダウンサンプリングするダウンサンプリング部72−5、再標本化部31から入力された、32534.7Hzのサンプリング周波数で再サンプリングされたオーディオ信号のうち、低域側の1/2の周波数帯域の成分(以下、低域側成分と称する)を抽出するハイパスフィルタ73−5、および抽出された低域側成分を1/2のサンプリング周波数にダウンサンプリングするダウンサンプリング部74−5から構成される。
そして、ダウンサンプリング部72−5から出力されるダウンサンプリング後の高域側成分がオクターブO6のオーディオ信号として、後段のBPFB33−6に供給される。また、ダウンサンプリング部74−5から出力されるダウンサンプリング後の低域側成分がオクターブ分割部51−4に供給される。
なお、ハイパスフィルタ71−5によって抽出され、ダウンサンプリング部72−5によって1/2のサンプリング周波数でダウンサンプリングされた高域側成分は、ダウンサンプリング前の状態に比較して、低域側に折り返して出現する。すなわち、ダウンサンプリング後の高域側成分は、周波数軸上の音程の信号成分の配列がダウンサンプリング前の配列(図10)の逆となり、図11に示すようにB,A♯,A,G♯,G,F♯,F,E,D♯,D,C♯,Cとなる。
オクターブ分割部51−i(i=4,3,2)についても同様に構成されており、入力されたオーディオ信号が、高域側成分と低域成分とに分割され、高域側成分と低域側成分のそれぞれが、1/2のサンプリング周波数にダウンサンプリングされ、ダウンサンプリング後の高域側成分がオクターブO(i+1)のオーディオ信号として、後段のBPFB33−(i+1)に供給され、ダウンサンプリング後の低域側成分がオクターブ分割部51−(i−1)に供給される。
なお、オクターブ分割部51−1では、ダウンサンプリング後の低域側成分のうちの高域側成分がさらに抽出されて、1/2のサンプリング周波数にダウンサンプリングされ、このダウンサンプリング結果がオクターブO1のオーディオ信号として、BPFB33−1に供給される。
次に、BPFB33−1乃至33−6の詳細な構成例について、図12および図13を参照して説明する。図12は、BPFB33−1の構成例を示している。
BPFB33−1は、C1乃至B1の12音程の各周波数範囲に応じた通過帯域をそれぞれ有するバンドパスフィルタ(以下、BPFと称する)91−1乃至91−12から構成される。BPF91−1乃至91−12は、それぞれ上段のオクターブ分割ブロック32から入力されるオクターブO1のオーディオ信号からC1乃至B1の12音程を抽出するようになされている。
ただし、オクターブ分割ブロック32から入力される1オクターブ分のオーディオ信号は、図11に示されたように、周波数軸上の音程の並びが高低逆になっているので、これに対応するため、BPF91−1乃至91−12の周波数特性は、図13に示すように設計されている。
すなわち、BPF91−1は、オクターブ分割ブロック32のオクターブ分割部51−1から入力されるオクターブO1のオーディオ信号から音程C1のオーディオ信号を抽出する特性を有する。BPF91−2は、オクターブO1のオーディオ信号から、音程C♯1のオーディオ信号を抽出する特性を有する。BPF91−3乃至91−12についても同様に、それぞれ音程D1乃至B1のオーディオ信号を抽出する特性を有する。
なお、BPFB33−2乃至33−6についても、BPFB33−1と同様に構成される。ただし、BPFB33−2乃至33−6のそれぞれを構成する12個のBPFの周波数特性と、BPFB33−1を構成するBPF91−1乃至91−12の周波数特性とは当然ながら異なるものである。
次に、オーディオ信号解析装置10による解析処理について、図14のフローチャートを参照して説明する。
解析処理の対象とするオーディオ信号がオーディオ信号解析装置10に入力され、オーディオ信号解析装置10においてハイパスフィルタ11とローパスフィルタ12に供給されると、ステップS1において、ハイパスフィルタ11は、入力されたオーディオ信号のうちの高域信号を抽出して高域処理部13に供給する。ローパスフィルタ12は、入力されたオーディオ信号のうちの低域信号を抽出して低域処理部14に供給する。
ステップS2において、高域処理部13は、ハイパスフィルタ11から供給された高域信号を処理対象としてSTFT手法により音程解析を行い、音程解析の結果を合成部15に出力する。
高域処理部13によるステップS2の処理(高域信号音程解析処理)の詳細について、図15のフローチャートを参照して説明する。
ステップS11において、高域処理部13のSTFT部21は、ハイパスフィルタ11から供給された高域信号を、重複部分を設けて所定の時間幅を有するフレーム毎に区切り、ステップS12において、各フレームの高域信号に対して窓関数をかけた後に高速フーリエ変換(FFT)を行い、この結果得られる、各フレームの高域信号の等間隔の周波数帯毎のエネルギをエネルギ加算部22に出力する。
ステップS13において、エネルギ加算部22は、STFT部21の出力に基づき、各音程に含まれる周波数帯のエネルギを加算することによって各音程のエネルギを算出し、高域信号の音程解析の結果として合成部15に出力する。以上で、高域処理部13による高域信号音程解析処理の説明を終了する。
図14に戻る。ステップS3において、低域処理部14は、ローパスフィルタ12から供給された低域信号を処理対象としてオクターブ分割手法により音程解析を行い、音程解析の結果を合成部15に出力する。
低域処理部14によるステップS3の処理(低域信号音程解析処理)の詳細について、図16のフローチャートを参照して説明する。
ステップS21において、低域処理部14の再標本化部31は、ローパスフィルタ12から供給された低域信号を、所定のサンプリング周波数(例えば、32534.7Hz)で再サンプリング(再標本化)し、再サンプリングした低域信号をオクターブ分割ブロック32に供給する。
ステップS22において、オクターブ分割ブロック32は、再標本化部31から供給された再サンプリングされた低域信号を、オクターブO1乃至O6の周波数成分に分割し、分割したオクターブO1乃至O6の周波数成分を、対応するBPFB33−1乃至33−6に出力する。
ステップS3において、BPFB33−1乃至33−6は、それぞれ、オクターブ分割ブロック32から入力された1オクターブ分のオーディオ信号をフィルタリングすることにより、C乃至Bの12音程のオーディオ信号を抽出し、低域信号の音程解析の結果として合成部15に出力する。以上で、低域処理部14による低域信号音程解析処理の説明を終了する。
図14に戻る。なお、以上に詳述したステップS2の処理とステップS3の処理は、その実行順序を逆にしてもよいし、並行して実行するようにしてもよい。
ステップS4において、合成部15は、高域処理部13による音程解析の結果と低域処理部14による音程解析の結果とを組み合わせて、オーディオ信号解析装置10に入力されたオーディオ信号の解析結果として後段に出力する。以上で、オーディオ信号解析装置10による解析処理の説明を終了する。
以上に説明したように、オーディオ信号解析装置10によれば、オーディオ信号の高域側と低域側とをそれぞれに適した異なる音程解析手法を適用するので、オーディオ信号を効率よく音程解析することができる。
また特に、オーディオ信号の高域側をSTFT手法によって解析することにより、高域側をオクターブ分割手法によって解析する場合に比較して、より少ない計算量で解析結果を得ることができる。
さらに、高域処理部13から副産物としてSTFTの処理結果を得ることができるので、このSTFTの処理結果を音楽解析などに利用することができる。
ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。
図17は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
このコンピュータにおいて、CPU(Central Processing Unit)301,ROM(Read Only Memory)302,RAM(Random Access Memory)303は、バス304により相互に接続されている。
バス304には、さらに、入出力インタフェース305が接続されている。入出力インタフェース305には、キーボード、マウス、マイクロホンなどよりなる入力部306、ディスプレイ、スピーカなどよりなる出力部307、ハードディスクや不揮発性のメモリなどよりなる記憶部308、ネットワークインタフェースなどよりなる通信部309、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア321乃至324を駆動するドライブ310が接続されている。
以上のように構成されるコンピュータでは、CPU301が、例えば、記憶部308に記憶されているプログラムを、入出力インタフェース305およびバス304を介して、RAM303にロードして実行することにより、上述した一連の処理が行われる。
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
また、プログラムは、1台のコンピュータにより処理されるものであってもよいし、複数のコンピュータによって分散処理されるものであってもよい。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであってもよい。
なお、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。
オーディオ信号のオクターブと音程と周波数の関係を説明する図である。 本発明を適用したオーディオ信号解析装置の構成例を示すブロック図である。 図2の高域処理部の構成例を示すブロック図である。 図3のSTFT部の処理を説明する図である。 図3のSTFT部の処理を説明する図である。 図3のエネルギ加算部の処理を説明する図である。 図2の低域処理部の構成例を示すブロック図である。 図7のオクターブ分割ブロックの構成例を示すブロック図である。 図8のオクターブ分割部の構成例を示すブロック図である。 図9のハイパスフィルタの処理を説明する図である。 図9のダウンサンプリング部の処理を説明する図である。 図7のバンドパスフィルタブロックの構成例を示すブロック図である。 図12のバンドパスフィルタの周波数特性を示す図である。 オーディオ信号解析装置の解析処理を説明するフローチャートである。 図14のステップS2の処理を説明するフローチャートである。 図14のステップS3の処理を説明するフローチャートである。 コンピュータの構成例を示すブロックである。
符号の説明
10 オーディオ信号解析装置, 11 ハイパスフィルタ, 12 ローパスフィルタ, 13 高域処理部, 14 低域処理部, 15 合成部, 21 STFT部, 22 エネルギ加算部, 31 最標本化部, 32 オクターブ分割ブロック, 33 バンドパスフィルタブロック, 301 CPU

Claims (6)

  1. オーディオ信号を解析する信号処理装置において、
    入力されたオーディオ信号から高周波数側の高域信号を抽出する第1の抽出手段と、
    入力されたオーディオ信号から低周波数側の低域信号を抽出する第2の抽出手段と、
    前記オーディオ信号から抽出された前記高域信号を、短時間フーリエ変換を用いて解析することにより、前記高域信号に含まれる複数の音程成分を解析する高域処理手段と、
    前記オーディオ信号から抽出された前記低域信号を複数のオクターブ成分に分割し、各オクターブ成分から複数の音程低分を抽出することにより、前記低域信号に含まれる複数の音程成分を解析する低域処理手段と、
    解析された前記高域信号に含まれる前記複数の音程成分と、解析された前記低域信号に含まれる前記複数の音程成分とを組み合わせる合成手段と
    を含むことを特徴とする信号処理装置。
  2. 前記高域処理手段は、
    前記オーディオ信号から抽出された前記高域信号を、短時間フーリエ変換を用いて解析することにより、等間隔の周波数帯成分を取得するSTFT(short-time Fourier transform)手段と、
    各音程を構成する複数の前記周波数帯のエネルギを加算して、分割された前記高域信号に含まれる複数の音程成分を解析する加算手段とを含む
    ことを特徴とする請求項1に記載の信号処理装置。
  3. 前記低域処理手段は、
    前記オーディオ信号から抽出された前記低域信号を、さらに、高周波数側の高域成分と低周波数側の低域成分とに分割し、前記高域成分と前記低域成分のそれぞれをダウンサンプリングすることを繰り返すことにより、前記オーディオ信号から抽出された前記低域信号を複数のオクターブ成分に分割するオクターブ分割手段と、
    前記複数のオクターブ成分それぞれをフィルタリングすることにより、複数の音程成分を抽出するフィルタリング手段とを含む
    ことを特徴とする請求項1に記載の信号処理装置。
  4. 前記低域処理手段は、
    前記オーディオ信号から抽出された前記低域信号を再サンプリングする再サンプリング手段をさらに含む
    ことを特徴とする請求項3に記載の信号処理装置。
  5. オーディオ信号を解析する信号処理装置の信号処理方法において、
    入力されたオーディオ信号から高周波数側の高域信号を抽出し、
    入力されたオーディオ信号から低周波数側の低域信号を抽出し、
    前記オーディオ信号から抽出された前記高域信号を、短時間フーリエ変換を用いて解析することにより、前記高域信号に含まれる複数の音程成分を解析し、
    前記オーディオ信号から抽出された前記低域信号を複数のオクターブ成分に分割し、各オクターブ成分から複数の音程低分を抽出することにより、前記低域信号に含まれる複数の音程成分を解析し、
    解析された前記高域信号に含まれる前記複数の音程成分と、解析された前記低域信号に含まれる前記複数の音程成分とを組み合わせる
    ステップを含むことを特徴とする信号処理方法。
  6. オーディオ信号を解析する信号処理装置の制御用のプログラムであって、
    入力されたオーディオ信号から高周波数側の高域信号を抽出し、
    入力されたオーディオ信号から低周波数側の低域信号を抽出し、
    前記オーディオ信号から抽出された前記高域信号を、短時間フーリエ変換を用いて解析することにより、前記高域信号に含まれる複数の音程成分を解析し、
    前記オーディオ信号から抽出された前記低域信号を複数のオクターブ成分に分割し、各オクターブ成分から複数の音程低分を抽出することにより、前記低域信号に含まれる複数の音程成分を解析し、
    解析された前記高域信号に含まれる前記複数の音程成分と、解析された前記低域信号に含まれる前記複数の音程成分とを組み合わせる
    ステップを含む処理を信号処理装置のコンピュータに実行させることを特徴とするプログラム。
JP2007261600A 2007-10-05 2007-10-05 信号処理装置、信号処理方法、およびプログラム Expired - Fee Related JP4375471B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2007261600A JP4375471B2 (ja) 2007-10-05 2007-10-05 信号処理装置、信号処理方法、およびプログラム
CN2008101614630A CN101404155B (zh) 2007-10-05 2008-09-27 信号处理设备、信号处理方法
US12/245,067 US8301279B2 (en) 2007-10-05 2008-10-03 Signal processing apparatus, signal processing method, and program therefor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007261600A JP4375471B2 (ja) 2007-10-05 2007-10-05 信号処理装置、信号処理方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2009092791A JP2009092791A (ja) 2009-04-30
JP4375471B2 true JP4375471B2 (ja) 2009-12-02

Family

ID=40523962

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007261600A Expired - Fee Related JP4375471B2 (ja) 2007-10-05 2007-10-05 信号処理装置、信号処理方法、およびプログラム

Country Status (3)

Country Link
US (1) US8301279B2 (ja)
JP (1) JP4375471B2 (ja)
CN (1) CN101404155B (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5552794B2 (ja) * 2009-10-23 2014-07-16 大日本印刷株式会社 音響信号の符号化方法および装置
JP5533021B2 (ja) * 2010-02-26 2014-06-25 大日本印刷株式会社 音響信号の符号化方法および装置
JP2012103603A (ja) 2010-11-12 2012-05-31 Sony Corp 情報処理装置、楽曲区間抽出方法、及びプログラム
SG193429A1 (en) * 2011-03-31 2013-10-30 Univ Nanyang Tech Listening device and accompanying signal processing method
US8717006B2 (en) * 2011-07-05 2014-05-06 Bae Systems National Security Solutions Inc. Method of performing synthetic instrument based noise analysis using proportional bandwidth spectrum analysis techniques
JP2014010275A (ja) * 2012-06-29 2014-01-20 Sony Corp 情報処理装置、情報処理方法及びプログラム
CN107481727B (zh) * 2017-06-23 2020-05-29 罗时志 一种基于电音基调控制的音频信号处理方法及系统
WO2019049293A1 (ja) * 2017-09-07 2019-03-14 ヤマハ株式会社 コード情報抽出装置、コード情報抽出方法およびコード情報抽出プログラム
CN109817189B (zh) * 2018-12-29 2023-09-08 珠海市蔚科科技开发有限公司 音频信号的调节方法、音效调节设备及系统
CN110010151A (zh) * 2018-12-31 2019-07-12 瑞声科技(新加坡)有限公司 一种音频信号处理方法及设备、存储介质
CN109979483B (zh) * 2019-03-29 2020-11-03 广州市百果园信息技术有限公司 音频信号的旋律检测方法、装置以及电子设备
DE102019114930B3 (de) * 2019-06-04 2020-06-25 Voith Patent Gmbh Verfahren und Anordnung zur Überwachung von Anlagen
CN112562703B (zh) * 2020-11-17 2024-07-26 普联国际有限公司 一种音频的高频优化方法、装置和介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1997017692A1 (en) * 1995-11-07 1997-05-15 Euphonics, Incorporated Parametric signal modeling musical synthesizer
JP2001243692A (ja) * 2000-02-25 2001-09-07 Teac Corp 記録媒体再生装置
US20050228518A1 (en) * 2002-02-13 2005-10-13 Applied Neurosystems Corporation Filter set for frequency analysis
KR100836574B1 (ko) * 2002-10-24 2008-06-10 도꾸리쯔교세이호진 상교기쥬쯔 소고겡뀨죠 악곡재생방법, 장치 및 음악음향데이터 중의 대표 모티프구간 검출방법
US7026536B2 (en) * 2004-03-25 2006-04-11 Microsoft Corporation Beat analysis of musical signals
JP4649859B2 (ja) 2004-03-25 2011-03-16 ソニー株式会社 信号処理装置および方法、記録媒体、並びにプログラム
JP4660739B2 (ja) * 2006-09-01 2011-03-30 独立行政法人産業技術総合研究所 音分析装置およびプログラム

Also Published As

Publication number Publication date
CN101404155B (zh) 2010-12-29
CN101404155A (zh) 2009-04-08
US8301279B2 (en) 2012-10-30
JP2009092791A (ja) 2009-04-30
US20090093896A1 (en) 2009-04-09

Similar Documents

Publication Publication Date Title
JP4375471B2 (ja) 信号処理装置、信号処理方法、およびプログラム
US7482530B2 (en) Signal processing apparatus and method, recording medium and program
JP6017687B2 (ja) オーディオ信号分析
JP4818335B2 (ja) 信号帯域拡張装置
JP6027087B2 (ja) スペクトル挙動の変換を実行する音響信号処理システム及び方法
US9111526B2 (en) Systems, method, apparatus, and computer-readable media for decomposition of a multichannel music signal
JP4065314B2 (ja) 対象音分析装置、対象音分析方法および対象音分析プログラム
JP5283757B2 (ja) オーディオ信号のスペクトルの複数の局部重心周波数を決定するための装置及び方法
WO2006120829A1 (ja) 混合音分離装置
JP4170217B2 (ja) ピッチ波形信号生成装置、ピッチ波形信号生成方法及びプログラム
US9646592B2 (en) Audio signal analysis
RU2712652C1 (ru) Устройство и способ для гармонического/перкуссионного/остаточного разделения звука с использованием структурного тензора на спектрограммах
RU2714579C1 (ru) Устройство и способ реконструкции фазовой информации с использованием структурного тензора на спектрограммах
JP2005266797A (ja) 音源信号分離装置及び方法、並びにピッチ検出装置及び方法
JP2012181475A (ja) 音響信号における特徴抽出方法及び当該特徴を用いた音響信号の処理方法
JP6235198B2 (ja) 音声信号処理方法、音声信号処理装置およびプログラム
JP2006505818A (ja) オーディオ成分を生成する方法および装置
JP5711645B2 (ja) オーディオ信号出力装置およびオーディオ信号出力方法
JP4419486B2 (ja) 音声分析生成装置、及びプログラム
JP3019603B2 (ja) 音声の基本周波数の抽出装置
JP5495858B2 (ja) 音楽音響信号のピッチ推定装置及び方法
JP5732910B2 (ja) 音響信号の符号化方法および装置
JP3120490B2 (ja) 音声制御装置及び音声制御電子楽器
Tachibana et al. Singing Voice Enhancement for Monaural Music Signals Based on Multiple Time-Frequency Analysis
JP2005309139A (ja) コードブック生成装置、話者認識装置、プログラム及びコードブック生成方法

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090812

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090818

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090831

R151 Written notification of patent or utility model registration

Ref document number: 4375471

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120918

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120918

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130918

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees