JP4419249B2 - Acoustic signal analysis method and apparatus, and acoustic signal processing method and apparatus - Google Patents

Acoustic signal analysis method and apparatus, and acoustic signal processing method and apparatus Download PDF

Info

Publication number
JP4419249B2
JP4419249B2 JP2000030861A JP2000030861A JP4419249B2 JP 4419249 B2 JP4419249 B2 JP 4419249B2 JP 2000030861 A JP2000030861 A JP 2000030861A JP 2000030861 A JP2000030861 A JP 2000030861A JP 4419249 B2 JP4419249 B2 JP 4419249B2
Authority
JP
Japan
Prior art keywords
evaluation
harmonic
frame
acoustic signal
pitch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2000030861A
Other languages
Japanese (ja)
Other versions
JP2001222289A (en
Inventor
孝司 櫛田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2000030861A priority Critical patent/JP4419249B2/en
Publication of JP2001222289A publication Critical patent/JP2001222289A/en
Application granted granted Critical
Publication of JP4419249B2 publication Critical patent/JP4419249B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Description

【0001】
【発明の属する技術分野】
この発明は、複数種類の音響信号が混在する音響信号から特定の調波構造を探索してピッチを抽出する音響信号分析方法及び装置、並びに抽出されたピッチを持つ音声信号を強調又は抑圧する音響信号処理方法及び装置に関する。
【0002】
【従来の技術】
複数種類の音響信号が混在した音響信号から、人の音声、特定の楽器音等の調波構造を持った音響信号を強調・抑圧したり、分離抽出したりする技術が知られている。例えば音声信号に対しては、雑音と音声信号とが混在した音響信号から雑音のみを抑制する雑音抑制方式(特開平9−153769号等)が、また音楽に対しては演奏に含まれる旋律の分離や除去に関する方式(特開平11−143460号)等がそれぞれ提案されている。
【0003】
人の声のように周波数領域で調波構造を持つ信号は、時間領域において周期性を持つ。この周期性を求める技術はピッチ推定等と呼ばれるが、このピッチ推定の手法としては、従来は、時間領域で求める方法、周波数領域でケプストラムを求める方法、自己相関領域で求める方法、波形の特異性を調べる方法等が知られている。しかし、これらの方法は、対象とする信号が単一のピッチを持つ信号でない場合に不都合を生じたり、ノイズによって抽出誤りが発生し易い等の問題がある。
【0004】
これに対し、周波数領域での調波構造に着目したピッチ推定方法が既に提案されている(特開平6−202627号、特開平9−257559号等)が、これらは時間領域の信号を周波数分析して得られたスペクトラムの時系列に対し、ピークのオンセット、オフセットのグルーピングを行ったり、フレーム間でピークを接続したりするため、各周波数成分のピーク単位でのフレーム間処理が必要となり、処理量が多い上、オンセット、オフセットの評価が、その時間の同期性に焦点を当てているため、例えばオンセット直後の各成分のレベル変化の連動性の評価までは行われない等の問題があった。また、オフセットまで評価するには、対象となった音が終わるまで評価ができないため、リアルタイムの処理には向かないと言う問題がある。
【0005】
【発明が解決しようとする課題】
この発明は、このような問題点に鑑みなされたもので、立上り直後の各成分のレベル変化の連動性を捉えることができ、リアルタイム性に優れ、少ない演算量で精度の高いピッチ推定が可能な音響信号分析方法及び装置、並びに推定されたピッチを持つ音声信号を強調又は抑圧する音響信号処理方法及び装置を提供することを目的とする。
【0006】
【課題を解決するための手段】
この発明に係る音響信号分析方法は、入力音響信号を所定の時間長を持つフレーム毎に切り出して、各フレーム毎に周波数分析を行い、各フレームの周波数分析結果からピーク成分を検出し、ピーク成分から基本周波数毎の調波構造が含まれる度合いをフレーム内の調波性評価値として求める調波性評価を行うと共に、前記各フレームの周波数分析結果の振幅のフレーム間差分に対して調波性評価を行い、これら少なくとも2種類の調波性評価値を含む総合評価値が所定の閾値よりも大きい基本周波数から選択された基本周波数を前記入力音響信号のピッチとして検出することを特徴とする。
【0007】
また、この発明に係る音響信号分析装置は、入力音響信号から切り出され周波数分析された所定の時間長を持つ各フレームの周波数分析結果からピーク成分を検出し、ピーク成分から基本周波数毎の調波構造が含まれる度合いをフレーム内の調波性評価値として求める調波性評価を行うフレーム内調波性評価手段と、前記各フレームの周波数分析結果の振幅のフレーム間差分に対して調波性評価を行うフレーム間差分調波性評価手段と、前記フレーム内調波性評価手段とフレーム間差分調波性評価手段の評価結果値を含む総合評価値が所定の閾値よりも大きい基本周波数から選択された基本周波数を前記音響信号のピッチとして検出する総合評価手段とを備えてなることを特徴とする。
【0008】
この発明に係る音響信号分析方法及び装置によれば、周波数領域における各成分の振幅のフレーム間差分についての調波性評価を、フレーム内での調波性評価と関連付けて継続的に行うため、個別ピークについての立上り、立下りの同期を調べなくても、比較的少ない演算量で、調波構造を持った成分の組の立上り及び立下りを捉えることができる。
【0009】
フレーム間差分に対する調波性評価は、フレーム内での調波性評価の結果得られた周波数成分毎の調波構造を評価してピッチ候補として求められた基本周波数についてのみ行うようにすれば、演算量を更に削減することができる。また、周波数分析結果からスペクトル包絡、予めデータとして基本周波数毎に記憶されたスペクトル包絡とを比較することにより評価して、このスペクトル包絡評価の結果を前記総合評価値に含ませることにより入力音響信号のピッチを検出するようにしてもよい。スペクトル包絡評価は、フレーム内での調波性評価の結果得られた周波数成分毎の調波構造を評価してピッチ候補として求められた基本周波数についてのみ行うようにしてもよい。即ち、ピッチ候補毎にそのピッチを形成する調波構造を有する各倍音成分によって形作られるスペクトル包絡の形状(とその時間変化)とを調べて、音の種別を判定すると共に、本来のピッチの整数倍、整数分の1等のピッチエラーを排除することができる。
【0010】
また、ピッチ候補を更に絞り込んで演算量を削減するため、フレーム内での調波性評価の結果から各基本周波数毎の前記調波性評価値のピークを示すローカルピークをそれぞれ検出し、これらローカルピークをそれぞれ時間軸方向にトラッキングすることによりフレーム内調波性及び各成分の変動の同時性及び連動性とその連続性を評価して、その評価値の大きい基本周波数をピッチ候補として求めるようにしても良い。このようにすると、継続して評価を行っているので、例えば立ち上がり直後の各成分のレベル変化の連動性及びその連続性も捉えることができ、リアルタイム性が要求される場合にも十分対応可能である。
【0011】
さらに、上述した音響信号処理方法及び装置を用いて、検出されたピッチを有する音声信号を、入力音響信号から強調又は抑圧することにより、入力音響信号から特定の音声信号のみを抽出したり、特定の音声信号以外の例えば環境音のみを抽出するといった処理をリアルタイムで行うことが可能になる。
【0012】
【発明の実施の形態】
以下、図面を参照して、この発明の好ましい実施の形態について説明する。
図1は、この発明の一実施例に係る音響信号強調・抑圧装置の構成を示すブロック図である。
処理対象である入力信号は、例えばスポーツの実況放送等のモノラル又はステレオの音響信号であり、この入力信号はフレーム分解部1に入力されている。フレーム分解部1は、例えば44.1kHzでサンプリングされた時間波形信号のサンプルを例えば2048点等の所定の長さのフレームに分解する。フレームは、例えば1/4フレームピッチだけずらして3/4をオーバーラップさせながら切り出される。図2(a)は、切り出したフレームの波形を示している。フレーム分解部1で切り出された入力信号は、ハニング(Hanning)窓部2において、周波数分析のための窓関数を掛けられる。図2(b)は窓関数を掛けた波形を示している。ハニング窓部2で窓関数を掛けられた出力は、FFT(Fast Fourier Transformation)部3でフーリエ変換されて周波数領域の信号に変換される。FFT部3の出力は、ピッチ検出部4に供給され、ここで入力音声に含まれる調波構造のピッチが検出される。一方、FFT部3の出力は、強調・抑圧部5にも供給されている。強調・抑圧部5では、ピッチ検出部4で検出されたピッチに基づいて、特定の音声信号、例えばアナウンサーの声などを強調又は抑圧することにより、特定の音声と環境音とを分離する処理を実行する。強調・抑圧処理された周波数領域の信号は、IFFT(Inverse FFT)部6で逆フーリエ変換されて、時間領域の信号に戻される。この信号は、フレーム合成部7で時間領域での窓の合成処理により、フレーム合成され、出力信号として出力される。
【0013】
図3は、ピッチ検出部4の詳細を示すブロック図である。
FFT部3から出力される複素スペクトルは、調波構造評価部11及び振幅計算部12に入力される。振幅計算部12は、複素スペクトルから、図2(c)に示すような周波数分析結果の振幅を計算する。調波構造評価部11は、フレーム内調波性評価手段を構成するもので、振幅計算部12で計算された周波数分析結果の振幅からそのピーク値を検出するピーク検出部13と、このピーク検出部13で検出されたピーク値に基づき、ピーク成分の周波数をFFTの分解能よりも高い分解能で得るための補間処理を実行するスペクトル内挿部14と、得られた周波数のピーク成分から基本となる周波数毎の調波性の評価を行う調波性評価部15とを備えている。
【0014】
スペクトル内挿部14は、補間手法として複素スペクトル内挿法を用いたもので、例えば「打楽器音を音源とした音源分離システム」(電子情報通信学会論文誌,'94/5 Vol.J77-D-II No.5,P903-911)等にその詳細が示されている。この手法は、基本的には、区間周波数fの成分が存在するピークの前後にある複素スペクトルzm,zm+1(m=[f])から区間周波数f及び振幅aを次のように推定する手法である。いま、単位ベクトルuを、
【0015】
【数1】
u=(zm+1−zm)/|zm+1−zm|
【0016】
と定義すると、区間周波数fと振幅aは、
【0017】
【数2】
f=m+(u,zm+1)/[(u,zm+1)−(u,zm)]
a=π(f−m)(u,zm)/sin(πf)
【0018】
また、ハニング窓を使用したFFTに上述した式を適用すると、得られた区間周波数f及び振幅aに誤差を生じるので、次のようにハニング窓に対応するように補正する。
【0019】
【数3】
z=3(f−m)−1
f′=m+z
a′=6z(z−1)sinπ(f−m)a/sinπz
【0020】
調波性評価部15における調波性評価の手法としては、ヒストグラムによる方法、分析フィルタの周波数から推定する方法、Harmonic Sieve法等の既存の手法が利用できる。例えばヒストグラムによる方法を例にとると、この方法は、周波数領域をヒストグラムをとるための複数の区間に分割し、ピークを示す区間の度数を累積していく方法である。累積の際には、低いピーク周波数から高いピーク周波数にかけて順番に加算すべき頻度を整数1,2,3,…で除す。また、ピークの振幅などで重み付けする場合もある。そして、得られたヒストグラムそのものを調波性評価値とする(「調和構造を利用した精密な基本周波数の推定」,鈴木誠史、佐野恵理他,信学技報SP93-5,p25-27、「Period Histogram and Product Spectrum:New Methods for Fundamental-Frequency Measurement」,M.R.Schroeder,The Journal of Acoustical Society of America,Vol.43,No.4 1968.p830)。
【0021】
調波構造評価部11で得られた調波性評価値を図2(d)に示す。この調波性評価値は、調波性ピーク検出部16でピーク検出される。図2(e)には、ピーク検出されたローカルピーク値が示されている。以上の検出は、フレーム毎に行われる。
【0022】
フレーム毎に検出された調波性評価値のピークは、調波性ピークトラッキング部17に入力される。調波性ピークトラッキング部17は、図4(a),(b)に示すように、調波性評価値のピーク値を時間方向に追跡してピッチ候補を求める。ここでは、ある一定レベルに達したものだけを追跡したり、レベルの大きい順に追跡対象を有限個決定するなどして計算量を削減するようにしても良い。
【0023】
一方、振幅計算部12で計算された振幅値は、フレーム間振幅差分計算部18に入力され、ここで例えば、図5(a),(b)に示したような各周波数毎の振幅のフレーム間差分が、同図(c)のように求められる。なお、差分をとるフレーム間隔は1フレームでも2フレーム以上でも良い。フレーム間振幅差分計算部18で求められた振幅のフレーム間差分は、調波性評価部19に供給される。調波性評価部19は、振幅のフレーム間差分に対して調波性評価を行うことにより、基本周波数別に調波構造を形成する各成分が一斉に連動して変動する度合いを調べる。その際、調査対象とする基本周波数を調波性ピークトラッキング部17でトラッキング対象となっているものに限定することで演算量を減らすことが出来る。図5(d)は、フレーム間差分の調波性評価値の例を示したものである。
【0024】
また、振幅計算部12で計算された振幅値は、スペクトル包絡評価部20にも入力されている。スペクトル包絡評価部20は、基本周波数毎にその調波構造を形成する各成分振幅からスペクトル包絡を得て、それを評価する。この場合にも、調査対象とする基本周波数を調波性ピークトラッキング部17でトラッキング対象となっているものに限定することで演算量を減らすことが出来る。スペクトル評価は、予め対象とする音のスペクトルが予想できる場合に、それをデータとして予め持っておいて時系列方向に連続して比較しても良いし、データの基本周波数別に持っておいても良い。この評価は、スペクトル包絡の形から、ありえないスペクトルを排除したり、人の声が含まれているかどうか等、対象の種類を区別するというだけでなく、整数倍、整数分の1等のピッチ誤りの対策にもなる。
【0025】
調波性ピークトラッキング部17、調波性評価部19及びスペクトル包絡評価部20からの各評価値は、総合評価部21に入力されている。総合評価部21は、総合評価選択部22と調波性評価部23とを備える。総合評価選択部22は、トラッキングされているピーク値のうちのどのピークが有効なピッチであるかを選択する。その際、調波性評価部19で得られた振幅のフレーム間差分に対する調波性評価値と、スペクトル包絡評価部20で得られたスペクトル包絡の情報及び評価値とを使用する。調波性評価部23は、これらの評価値を調波性ピークトラッキング部17で追跡しているピッチ候補の属性として関連付けると共に、その履歴を必要期間保持することにより、現在トラッキング対象となっているピッチ候補のそれぞれについて、例えばその候補の過去の振幅差分に対する評価を得たい場合、そのピッチ候補のトラッキング履歴を辿ることによって、過去のある時点でその候補と対応付けられていた振幅差分に対する評価値を得る。このようにして現在及び過去において、各ピッチ候補に関連付けられた、フレーム内での調波性の評価値、振幅差分に対する調波性評価値、スペクトル包絡情報及び評価値、それぞれの現在までの値を総合的に判断することで、調波構造を持つ成分のピッチを得ることができる。具体的には、フレーム内調波性評価履歴をv1、フレーム間調波性評価履歴をv2、スペクトル包絡評価履歴をv3とすると、総合評価値Vは、
【0026】
【数4】
V(v1、v2、v3)
【0027】
となるが、過去nフレームの加重平均を線形結合の形で評価するようにしてもよい。この総合的評価方法を図6に示す。
まず、全ての候補を非選択状態とし(S1)、iを1として(S2)、i番目の候補のフレーム内調波性評価履歴v1(i)による評価f1(i)(S4)、フレーム間調波性評価履歴v2(i)による評価f2(i)(S5)及びスペクトル包絡評価履歴v3(i)による評価f3(i)(S6)を順に実行し、総合評価値s[i]に加算していく。ここで、α、β、γは、各評価履歴に対する重みである。総合評価値s[i]が所定の閾値Vthよりも大きいかどうかを判定し(S7)、もし大きければこのi番目の候補を選択状態とする(S8)。iを1つ増やして(S9)同様の操作をiがn以上になるまで続行する(S3)。この処理により選択状態となった候補をそのままピッチ選択結果として出力しても良いが、単一の選択結果を得たい場合、選択された候補の中で最も評価の高いものを選択するようにしても良い(S10)。
【0028】
なお、調波性の評価方法が、完全に線形であるような場合には、振幅に対するフレーム内での調波性評価値のフレーム間の差分と、振幅のフレーム間差分に対する調波性評価値とは、結果的に同じになるが、必ずしも線形でない。また、一般には、対象とする周波数の範囲が広いので、最初はより少ない数の倍音を対象として調波性を評価することで演算量を削減し、最後には既に特定された付近のみの周波数範囲をより多くの倍音を対象として調波性を評価することで、演算量を削減するようにしても良い。更に、成分の組単位でのスペクトル包絡評価は、時間軸方向に連続して行うことにより、基本周波数毎のスペクトル包絡の時間変動を調べても良い。このピッチ抽出方法において、一度有効なピッチと判断されたピッチ候補の有効かどうかの判定基準を下げることで、その後、該当する調波成分のレベルが下がっても有効なピッチとして判断するようにしても良い。
【0029】
次に強調・抑圧部5について説明する。
図7は、強調・抑圧部5の詳細を示すブロック図である。FFT部3から出力される複素スペクトルは、振幅計算部31に入力され、ここで前述と同様に周波数毎の振幅値が求められる。この振幅計算部31で求められた周波数毎の振幅は、ピーク検出部32に入力され、ここで振幅のピークが抽出される。なお、ここまでは、ピッチ検出部4の処理と共用することもできる。抽出されたピークは、倍音位置ピーク選択部33に入力されている。倍音位置ピーク選択部33は、ピッチ検出部4から与えられるピッチPitchに基づき、調波構造の基音と倍音の位置を計算し、その位置のピークを検出する。即ち、基本周波数をpとしたとき、n番目の成分(n=1,2,3,…)の周波数fはf=npとなる。求められた基音と倍音の位置は、スペクトル内挿部34に供給されている。スペクトル内挿部34は、前述したのと同様の処理により、各倍音に対応するピークの周波数、振幅、位相をその付近の成分(複素スペクトル)を使用して補間する。補間されたピークの窓関数による成分が窓による成分計算部35において周波数領域で計算される。そして、計算された成分列を減算器36で元の複素スペクトルから差し引くことにより、周波数領域で対象成分を抑圧することができる。
【0030】
なお、以上は抑圧の例であるが、強調の場合には成分計算部35で求められた対象成分のみを出力したり、又はこれと、元の複素スペクトルのそれぞれに所望の定数を掛けたものとを加算したものを出力すればよい。そして、この強調・抑圧部5で周波数領域で強調・抑圧処理された複素スペクトルをIFFT部6で時間領域に変換し、フレーム合成部7でフレーム合成することで強調・抑圧された出力音声を得ることが出来る。
【0031】
また、入力信号がステレオ信号の場合、ステレオ信号からある特定の位置に定位した音の調波性を検出する場合には、調波性評価部において定位を考慮することにより、定位が既知であるような音源からの調波構造を有した音を検出する際の効率と精度を高めることができる。
【0032】
【発明の効果】
以上述べたように、この発明によれば、フレーム内での調波性評価と共に周波数分析結果のフレーム間差分の調波性評価を行って、これらの評価値から総合的に判断してピッチを検出するようにしているので、立上り直後の各成分のレベル変化の連動性を捉えることができ、リアルタイム性に優れ、少ない演算量で精度の高いピッチ推定が可能という効果を奏する。
【図面の簡単な説明】
【図1】 この発明の一実施例に係る音響信号強調・抑圧装置の構成を示すブロック図である。
【図2】 同装置の各部の信号波形及び評価値を示す図である。
【図3】 同装置におけるピッチ検出部の詳細ブロック図である。
【図4】 同装置における調波性ピークトラッキングを説明するための図である。
【図5】 同装置におけるフレーム間振幅差分値とその調波性評価値とを示す図である。
【図6】 同装置における総合評価部の処理を示すフローチャートである。
【図7】 同装置における強調・抑圧部の詳細ブロック図である。
【符号の説明】
1…フレーム分解部、2…ハニング窓部、3…FFT部、4…ピッチ検出部、5…強調・抑圧部、6…IFFT部、7…フレーム合成部、11…調波性構造評価部、12…振幅演算部、13…ピーク検出部、14…スペクトル内挿部、15,19,23…調波性評価部、16…調波性ピーク検出部、17…調波性ピークトラッキング部、18…フレーム間振幅差分計算部、20…スペクトル包絡評価部、21…総合評価部、22…総合評価選択部。
[0001]
BACKGROUND OF THE INVENTION
The present invention relates to an acoustic signal analysis method and apparatus for extracting a pitch by searching for a specific harmonic structure from an acoustic signal in which a plurality of types of acoustic signals are mixed, and an acoustic signal for enhancing or suppressing an audio signal having the extracted pitch. The present invention relates to a signal processing method and apparatus.
[0002]
[Prior art]
A technique is known in which an acoustic signal having a harmonic structure such as a human voice or a specific musical instrument sound is emphasized / suppressed or separated and extracted from an acoustic signal in which a plurality of types of acoustic signals are mixed. For example, for audio signals, a noise suppression method (Japanese Patent Laid-Open No. 9-153769, etc.) for suppressing only noise from an acoustic signal in which noise and audio signals are mixed, and for music, a melody included in the performance is used. A method relating to separation and removal (Japanese Patent Laid-Open No. 11-143460) has been proposed.
[0003]
A signal having a harmonic structure in the frequency domain, such as a human voice, has periodicity in the time domain. The technique for obtaining this periodicity is called pitch estimation, etc., but this pitch estimation method has been conventionally used in the time domain, the cepstrum in the frequency domain, the autocorrelation domain, or the waveform specificity. There are known methods for examining the above. However, these methods have problems such as inconvenience when the target signal is not a signal having a single pitch, and an extraction error easily occurs due to noise.
[0004]
On the other hand, pitch estimation methods focusing on the harmonic structure in the frequency domain have already been proposed (JP-A-6-202627, JP-A-9-257559, etc.). In order to perform peak onset and offset grouping for the time series of the spectrum obtained in this way, or to connect peaks between frames, inter-frame processing is required for each frequency component peak, Since the amount of processing is large and the evaluation of onset and offset focuses on the synchronism of the time, for example, it is not possible to evaluate the level change of each component immediately after onset was there. In addition, there is a problem that the evaluation up to the offset is not suitable for real-time processing because the evaluation cannot be performed until the target sound ends.
[0005]
[Problems to be solved by the invention]
The present invention has been made in view of such a problem, and can grasp the interlocking of the level change of each component immediately after the rise, has excellent real-time characteristics, and can perform highly accurate pitch estimation with a small amount of calculation. It is an object of the present invention to provide an acoustic signal analysis method and apparatus, and an acoustic signal processing method and apparatus for enhancing or suppressing an audio signal having an estimated pitch.
[0006]
[Means for Solving the Problems]
The acoustic signal analysis method according to the present invention cuts out an input acoustic signal for each frame having a predetermined time length, performs frequency analysis for each frame , detects a peak component from the frequency analysis result of each frame, To determine the degree to which the harmonic structure for each fundamental frequency is included as a harmonic evaluation value within the frame, and to adjust the harmonics with respect to the interframe difference in the amplitude of the frequency analysis result of each frame. The evaluation is performed, and a fundamental frequency selected from fundamental frequencies whose total evaluation value including these at least two types of harmonic evaluation values is larger than a predetermined threshold is detected as the pitch of the input acoustic signal.
[0007]
The acoustic signal analyzing apparatus according to the present invention detects a peak component from a frequency analysis result of each frame having a predetermined time length cut out from an input acoustic signal and subjected to frequency analysis, and generates harmonics for each fundamental frequency from the peak component. Intra- frame harmonic evaluation means for performing harmonic evaluation to obtain the degree of inclusion of the structure as the harmonic evaluation value in the frame, and harmonic characteristics with respect to the inter-frame difference in the amplitude of the frequency analysis result of each frame Inter-frame differential harmonic evaluation means for performing an evaluation, and a fundamental frequency whose total evaluation value including evaluation result values of the intra-frame harmonic evaluation means and the inter-frame differential harmonic evaluation means is larger than a predetermined threshold And a comprehensive evaluation means for detecting the fundamental frequency as a pitch of the acoustic signal.
[0008]
According to the acoustic signal analysis method and apparatus according to the present invention, in order to continuously perform harmonic evaluation on the inter-frame difference in the amplitude of each component in the frequency domain in association with harmonic evaluation in the frame, The rise and fall of a set of components having a harmonic structure can be captured with a relatively small amount of computation without examining the rise and fall synchronization for individual peaks.
[0009]
If the harmonic evaluation for the interframe difference is performed only for the fundamental frequency obtained as a pitch candidate by evaluating the harmonic structure for each frequency component obtained as a result of the harmonic evaluation in the frame, The amount of calculation can be further reduced. Further, by evaluating the spectral envelope from the frequency analysis result by comparing the spectral envelope previously stored for each fundamental frequency as data, the result of the spectral envelope evaluation is included in the comprehensive evaluation value to input the acoustic signal. The pitch may be detected. Spectral envelope evaluation may be performed only for the fundamental frequency obtained as a pitch candidate by evaluating the harmonic structure for each frequency component obtained as a result of harmonic evaluation in the frame. That is, for each pitch candidate, the spectrum envelope shape (and its temporal change) formed by each harmonic component having a harmonic structure that forms the pitch is examined to determine the type of sound, and the original pitch integer It is possible to eliminate pitch errors such as double and 1 / integer.
[0010]
Further, in order to further narrow down the pitch candidates and reduce the amount of calculation, local peaks indicating the peak of the harmonic evaluation value for each fundamental frequency are detected from the result of the harmonic evaluation in the frame, and these local peaks are detected. By tracking each peak in the time axis direction, the intra-frame harmonics and the simultaneity and linkage of each component and its continuity are evaluated, and a fundamental frequency with a large evaluation value is obtained as a pitch candidate. May be. In this way, since the evaluation is continuously performed, for example, it is possible to grasp the interlocking and continuity of the level change of each component immediately after the start-up, and can sufficiently cope with the case where real-time property is required. is there.
[0011]
Furthermore, by using the above-described acoustic signal processing method and apparatus, a specific audio signal is extracted from the input acoustic signal by extracting or identifying the audio signal having the detected pitch from the input acoustic signal. For example, it is possible to perform processing such as extracting only environmental sounds other than the audio signal in real time.
[0012]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, preferred embodiments of the present invention will be described with reference to the drawings.
FIG. 1 is a block diagram showing the configuration of an acoustic signal enhancement / suppression device according to one embodiment of the present invention.
The input signal to be processed is, for example, a monaural or stereo sound signal such as a live broadcast of sports, and this input signal is input to the frame decomposing unit 1. The frame decomposition unit 1 decomposes a sample of a time waveform signal sampled at, for example, 44.1 kHz into a frame having a predetermined length such as 2048 points. For example, the frames are cut out while overlapping by 3/4 with a shift of 1/4 frame pitch. FIG. 2A shows the waveform of the cut frame. The input signal cut out by the frame decomposing unit 1 is multiplied by a window function for frequency analysis in a Hanning window unit 2. FIG. 2B shows a waveform multiplied by a window function. The output multiplied by the window function in the Hanning window 2 is Fourier transformed by an FFT (Fast Fourier Transformation) unit 3 to be converted into a frequency domain signal. The output of the FFT unit 3 is supplied to the pitch detection unit 4 where the pitch of the harmonic structure included in the input speech is detected. On the other hand, the output of the FFT unit 3 is also supplied to the enhancement / suppression unit 5. The emphasis / suppression unit 5 performs a process of separating the specific sound and the environmental sound by enhancing or suppressing a specific sound signal, for example, an announcer's voice, based on the pitch detected by the pitch detection unit 4. Execute. The frequency domain signal subjected to the enhancement / suppression process is subjected to inverse Fourier transform by an IFFT (Inverse FFT) unit 6 and returned to a time domain signal. This signal is frame-synthesized by the window synthesis process in the time domain by the frame synthesis unit 7 and output as an output signal.
[0013]
FIG. 3 is a block diagram showing details of the pitch detection unit 4.
The complex spectrum output from the FFT unit 3 is input to the harmonic structure evaluation unit 11 and the amplitude calculation unit 12. The amplitude calculation unit 12 calculates the amplitude of the frequency analysis result as shown in FIG. 2C from the complex spectrum. The harmonic structure evaluation unit 11 constitutes an intra-frame harmonic evaluation unit. The peak detection unit 13 detects the peak value from the amplitude of the frequency analysis result calculated by the amplitude calculation unit 12, and this peak detection. Based on the peak value detected by the unit 13, the spectrum interpolation unit 14 executes an interpolation process for obtaining the frequency of the peak component with a resolution higher than the resolution of the FFT, and is based on the obtained peak component of the frequency. And a harmonic evaluation unit 15 for evaluating the harmonics for each frequency.
[0014]
The spectrum interpolation unit 14 uses a complex spectrum interpolation method as an interpolation method. For example, “a sound source separation system using a percussion instrument as a sound source” (Journal of the Institute of Electronics, Information and Communication Engineers, '94 / 5 Vol.J77-D -II No.5, P903-911) and so on. This method basically estimates the section frequency f and the amplitude a from the complex spectrum zm, zm + 1 (m = [f]) before and after the peak where the component of the section frequency f exists. It is a technique. Now, the unit vector u
[0015]
[Expression 1]
u = (zm + 1-zm) / | zm + 1-zm |
[0016]
If defined, the interval frequency f and the amplitude a are
[0017]
[Expression 2]
f = m + (u, zm + 1) / [(u, zm + 1)-(u, zm)]
a = π (fm) (u, zm) / sin (πf)
[0018]
Further, when the above-described equation is applied to FFT using a Hanning window, an error occurs in the obtained section frequency f and amplitude a. Therefore, correction is performed so as to correspond to the Hanning window as follows.
[0019]
[Equation 3]
z = 3 (fm) -1
f ′ = m + z
a ′ = 6z (z−1) sinπ (fm) a / sinπz
[0020]
As a harmonic evaluation method in the harmonic evaluation unit 15, existing methods such as a method using a histogram, a method of estimating from a frequency of an analysis filter, and a Harmonic Sieve method can be used. For example, taking a histogram method as an example, this method is a method of dividing a frequency region into a plurality of sections for taking a histogram, and accumulating the frequency of the section showing the peak. When accumulating, the frequency to be added in order from the low peak frequency to the high peak frequency is divided by integers 1, 2, 3,. In some cases, weighting is performed by the amplitude of the peak. The obtained histogram itself is used as the harmonic evaluation value ("Precision of fundamental frequency using harmonic structure", Seiji Suzuki, Eri Sano et al., IEICE Tech. Period Histogram and Product Spectrum: New Methods for Fundamental-Frequency Measurement ”, MR Schroeder, The Journal of Acoustical Society of America, Vol. 43, No. 4 1968.p830).
[0021]
The harmonic evaluation value obtained by the harmonic structure evaluation unit 11 is shown in FIG. This harmonic evaluation value is peak-detected by the harmonic peak detector 16. FIG. 2E shows a local peak value from which a peak is detected. The above detection is performed for each frame.
[0022]
The peak of the harmonic evaluation value detected for each frame is input to the harmonic peak tracking unit 17. As shown in FIGS. 4A and 4B, the harmonic peak tracking unit 17 tracks the peak value of the harmonic evaluation value in the time direction to obtain a pitch candidate. Here, the amount of calculation may be reduced by tracking only a certain level or by determining a finite number of tracking targets in descending order of level.
[0023]
On the other hand, the amplitude value calculated by the amplitude calculation unit 12 is input to the inter-frame amplitude difference calculation unit 18, where, for example, an amplitude frame for each frequency as shown in FIGS. 5 (a) and 5 (b). The difference between the two is obtained as shown in FIG. The frame interval for taking the difference may be one frame or two frames or more. The inter-frame difference in amplitude obtained by the inter-frame amplitude difference calculation unit 18 is supplied to the harmonic evaluation unit 19. The harmonic evaluation unit 19 performs the harmonic evaluation on the amplitude difference between frames, thereby examining the degree to which the components forming the harmonic structure for each fundamental frequency fluctuate together. At that time, the amount of calculation can be reduced by limiting the fundamental frequency to be investigated to those to be tracked by the harmonic peak tracking unit 17. FIG. 5 (d) shows an example of the harmonic evaluation value of the inter-frame difference.
[0024]
The amplitude value calculated by the amplitude calculator 12 is also input to the spectrum envelope evaluation unit 20. The spectrum envelope evaluation unit 20 obtains a spectrum envelope from each component amplitude forming the harmonic structure for each fundamental frequency, and evaluates it. Also in this case, it is possible to reduce the amount of calculation by limiting the fundamental frequency to be investigated to those to be tracked by the harmonic peak tracking unit 17. Spectral evaluation can be performed in advance when the target sound spectrum can be predicted, and the data can be stored in advance in the time-series direction, or by the fundamental frequency of the data. good. This evaluation not only excludes the impossible spectrum from the shape of the spectrum envelope, but also distinguishes the target type, such as whether or not a human voice is included, as well as pitch errors such as integer multiples, integer fractions, etc. It will also be a countermeasure.
[0025]
Each evaluation value from the harmonic peak tracking unit 17, the harmonic evaluation unit 19, and the spectrum envelope evaluation unit 20 is input to the comprehensive evaluation unit 21. The comprehensive evaluation unit 21 includes a comprehensive evaluation selection unit 22 and a harmonic evaluation unit 23. The comprehensive evaluation selection unit 22 selects which of the tracked peak values is an effective pitch. At that time, the harmonic evaluation value for the inter-frame difference in amplitude obtained by the harmonic evaluation unit 19 and the spectrum envelope information and evaluation value obtained by the spectrum envelope evaluation unit 20 are used. The harmonic evaluation unit 23 associates these evaluation values as attributes of the pitch candidates tracked by the harmonic peak tracking unit 17 and retains the history for a necessary period of time, thereby being a target for tracking. For each of the pitch candidates, for example, when it is desired to obtain an evaluation of the past amplitude difference of the candidate, by tracking the tracking history of the pitch candidate, an evaluation value for the amplitude difference associated with the candidate at a past time Get. Thus, in the present and in the past, the harmonic evaluation value in the frame, the harmonic evaluation value for the amplitude difference, the spectral envelope information and the evaluation value, the values up to the present, associated with each pitch candidate. Therefore, the pitch of the component having the harmonic structure can be obtained. Specifically, if the intra-frame harmonic evaluation history is v1, the inter-frame harmonic evaluation history is v2, and the spectral envelope evaluation history is v3, the overall evaluation value V is
[0026]
[Expression 4]
V (v1, v2, v3)
[0027]
However, the weighted average of the past n frames may be evaluated in the form of a linear combination. This comprehensive evaluation method is shown in FIG.
First, all candidates are set to a non-selected state (S1), i is set to 1 (S2), the evaluation is based on the intraframe harmonic evaluation history v1 (i) of the i-th candidate, f1 (i) (S4), and between frames The evaluation f2 (i) (S5) based on the harmonic evaluation history v2 (i) and the evaluation f3 (i) (S6) based on the spectrum envelope evaluation history v3 (i) are sequentially executed and added to the overall evaluation value s [i]. I will do it. Here, α, β, and γ are weights for each evaluation history. It is determined whether or not the comprehensive evaluation value s [i] is larger than a predetermined threshold value Vth (S7). If it is larger, the i-th candidate is selected (S8). i is incremented by 1 (S9), and the same operation is continued until i becomes n or more (S3). Candidates that have been selected by this processing may be output as pitch selection results as they are. However, if you want to obtain a single selection result, select the one with the highest evaluation among the selected candidates. (S10).
[0028]
When the harmonic evaluation method is completely linear, the difference between the harmonic evaluation values within the frame with respect to the amplitude and the harmonic evaluation value with respect to the amplitude difference between the frames. Results in the same, but not necessarily linear. In general, since the target frequency range is wide, the amount of computation is reduced by evaluating harmonics for a smaller number of overtones at the beginning, and finally only frequencies that have already been identified. The amount of calculation may be reduced by evaluating the harmonics for a range of more harmonics. Further, the spectral envelope evaluation for each component group may be continuously performed in the time axis direction to examine the temporal variation of the spectral envelope for each fundamental frequency. In this pitch extraction method, by lowering the criteria for determining whether or not a pitch candidate that has been determined to be effective once is effective, it is determined that the pitch is effective even if the level of the corresponding harmonic component decreases thereafter. Also good.
[0029]
Next, the emphasis / suppression unit 5 will be described.
FIG. 7 is a block diagram showing details of the emphasis / suppression unit 5. The complex spectrum output from the FFT unit 3 is input to the amplitude calculation unit 31, where an amplitude value for each frequency is obtained in the same manner as described above. The amplitude for each frequency obtained by the amplitude calculation unit 31 is input to the peak detection unit 32, where an amplitude peak is extracted. In addition, so far, it can also share with the process of the pitch detection part 4. FIG. The extracted peak is input to the overtone position peak selection unit 33. The harmonic position peak selection unit 33 calculates the positions of the fundamental and harmonics of the harmonic structure based on the pitch Pitch given from the pitch detection unit 4, and detects the peak at that position. That is, when the fundamental frequency is p, the frequency f of the nth component (n = 1, 2, 3,...) Is f = np. The obtained fundamental and harmonic positions are supplied to the spectrum interpolation unit 34. The spectrum interpolation unit 34 interpolates the frequency, amplitude, and phase of the peak corresponding to each harmonic using a component (complex spectrum) in the vicinity thereof by the same process as described above. The component of the interpolated peak window function is calculated in the frequency domain by the window component calculation unit 35. The target component can be suppressed in the frequency domain by subtracting the calculated component sequence from the original complex spectrum by the subtractor 36.
[0030]
Although the above is an example of suppression, in the case of emphasis, only the target component obtained by the component calculation unit 35 is output, or this is multiplied by a desired constant for each of the original complex spectra. What is necessary is just to output what added. Then, the complex spectrum enhanced / suppressed in the frequency domain by the emphasis / suppression unit 5 is converted into the time domain by the IFFT unit 6, and the frame synthesis unit 7 performs frame synthesis to obtain enhanced / suppressed output speech. I can do it.
[0031]
Further, when the input signal is a stereo signal, when detecting the harmonic nature of the sound localized at a specific position from the stereo signal, the localization is known by considering the localization in the harmonic evaluation section. Efficiency and accuracy in detecting a sound having a harmonic structure from such a sound source can be improved.
[0032]
【The invention's effect】
As described above, according to the present invention, the harmonicity evaluation within the frame is performed together with the harmonicity evaluation of the inter-frame difference of the frequency analysis result, and the pitch is determined by comprehensively judging from these evaluation values. Since detection is performed, it is possible to grasp the interlocking of the level changes of each component immediately after the rise, and it is excellent in real-time property, and there is an effect that it is possible to estimate the pitch with high accuracy with a small amount of calculation.
[Brief description of the drawings]
FIG. 1 is a block diagram showing a configuration of an acoustic signal enhancement / suppression device according to an embodiment of the present invention.
FIG. 2 is a diagram showing signal waveforms and evaluation values of each part of the apparatus.
FIG. 3 is a detailed block diagram of a pitch detector in the same device.
FIG. 4 is a diagram for explaining harmonic peak tracking in the same device.
FIG. 5 is a diagram showing an inter-frame amplitude difference value and its harmonic evaluation value in the same apparatus.
FIG. 6 is a flowchart showing processing of a comprehensive evaluation unit in the apparatus.
FIG. 7 is a detailed block diagram of an emphasis / suppression unit in the same device.
[Explanation of symbols]
DESCRIPTION OF SYMBOLS 1 ... Frame decomposition part, 2 ... Hanning window part, 3 ... FFT part, 4 ... Pitch detection part, 5 ... Enhancement / suppression part, 6 ... IFFT part, 7 ... Frame composition part, 11 ... Harmonic structure evaluation part, DESCRIPTION OF SYMBOLS 12 ... Amplitude calculating part, 13 ... Peak detection part, 14 ... Spectral interpolation part, 15, 19, 23 ... Harmonicity evaluation part, 16 ... Harmonic peak detection part, 17 ... Harmonic peak tracking part, 18 ... inter-frame amplitude difference calculation section, 20 ... spectrum envelope evaluation section, 21 ... comprehensive evaluation section, 22 ... comprehensive evaluation selection section.

Claims (12)

入力音響信号を所定の時間長を持つフレーム毎に切り出して、各フレーム毎に周波数分析を行い、
各フレームの周波数分析結果からピーク成分を検出し、ピーク成分から基本周波数毎の調波構造が含まれる度合いをフレーム内の調波性評価値として求める調波性評価を行うと共に、前記各フレームの周波数分析結果の振幅のフレーム間差分に対して調波性評価を行い、
これら少なくとも2種類の調波性評価値を含む総合評価値が所定の閾値よりも大きい基本周波数から選択された基本周波数を前記入力音響信号のピッチとして検出する
ことを特徴とする音響信号分析方法。
Cut out the input acoustic signal for each frame with a predetermined time length, perform frequency analysis for each frame,
The peak component is detected from the frequency analysis result of each frame , and the harmonicity evaluation is performed to obtain the degree of the harmonic structure included in each frame from the peak component as the harmonic evaluation value in the frame. Perform harmonic evaluation on the difference between the amplitudes of the frequency analysis results,
A method of analyzing an acoustic signal , comprising: detecting a fundamental frequency selected from fundamental frequencies having a comprehensive evaluation value including at least two types of harmonic evaluation values greater than a predetermined threshold as the pitch of the input acoustic signal.
前記フレーム間差分に対する調波性評価は、前記フレーム内での調波性評価の結果得られた周波数成分毎の調波構造を評価してピッチ候補として求められた基本周波数についてのみ行うようにしたことを特徴とする請求項1記載の音響信号分析方法。Harmonicity evaluation of the inter-frame difference has to perform only the fundamental frequency determined as a pitch candidate by evaluating the results obtained frequency components for each of the harmonic structure of the harmonic assessment within the frame The acoustic signal analysis method according to claim 1. 前記周波数分析結果からスペクトル包絡を、予めデータとして基本周波数毎に記憶されたスペクトル包絡とを比較することにより評価して、このスペクトル包絡評価の結果を前記総合評価値に含ませることにより前記入力音響信号のピッチを検出するようにしたことを特徴とする請求項1又は2記載の音響信号分析方法。 A spectrum envelope is evaluated from the frequency analysis result by comparing with a spectrum envelope stored in advance for each fundamental frequency as data, and the result of spectrum envelope evaluation is included in the comprehensive evaluation value to thereby input the input sound. 3. The acoustic signal analysis method according to claim 1, wherein a pitch of the signal is detected. 前記スペクトル包絡評価は、前記フレーム内での調波性評価の結果得られた周波数成分毎の調波構造を評価してピッチ候補として求められた基本周波数についてのみ行うようにしたことを特徴とする請求項3記載の音響信号分析方法。The spectrum envelope evaluation is performed only for the fundamental frequency obtained as a pitch candidate by evaluating the harmonic structure for each frequency component obtained as a result of the harmonic evaluation in the frame. The acoustic signal analysis method according to claim 3. 前記フレーム内での調波性評価の結果から各基本周波数毎の前記調波性評価値のピークを示すローカルピークをそれぞれ検出し、これらローカルピークをそれぞれ時間軸方向にトラッキングすることによりフレーム内調波性及び各成分の変動の同時性及び連動性とその連続性を評価して、その評価値の大きい基本周波数をピッチ候補として求めるようにしたことを特徴とする請求項1〜4のいずれか1項記載の音響信号分析方法。The local peak indicating a peak of the harmonic evaluation value for each fundamental frequency from the results of the harmonic assessment within the frame respectively detected, intraframe tone by tracking them locally peaks in the respective time axis direction 5. The simultaneity and continuity of wave characteristics and fluctuations of each component and its continuity are evaluated, and a fundamental frequency having a large evaluation value is obtained as a pitch candidate. The acoustic signal analysis method according to claim 1. 入力音響信号から切り出され周波数分析された所定の時間長を持つ各フレームの周波数分析結果からピーク成分を検出し、ピーク成分から基本周波数毎の調波構造が含まれる度合いをフレーム内の調波性評価値として求める調波性評価を行うフレーム内調波性評価手段と、
前記各フレームの周波数分析結果の振幅のフレーム間差分に対して調波性評価を行うフレーム間差分調波性評価手段と、
前記フレーム内調波性評価手段とフレーム間差分調波性評価手段の評価結果値を含む総合評価値が所定の閾値よりも大きい基本周波数から選択された基本周波数を前記音響信号のピッチとして検出する総合評価手段と
を備えてなることを特徴とする音響信号分析装置。
The peak component is detected from the frequency analysis result of each frame having a predetermined time length that is cut out from the input acoustic signal and subjected to frequency analysis, and the degree of harmonics within the frame is determined from the peak component to include the harmonic structure for each fundamental frequency. In- frame harmonic evaluation means for performing harmonic evaluation obtained as an evaluation value ;
Inter-frame differential harmonic evaluation means for performing harmonic evaluation on the inter-frame difference of the amplitude of the frequency analysis result of each frame;
A fundamental frequency selected from fundamental frequencies whose total evaluation value including evaluation result values of the intra-frame harmonic evaluation means and the inter-frame differential harmonic evaluation means is larger than a predetermined threshold is detected as the pitch of the acoustic signal. An acoustic signal analyzer comprising: a comprehensive evaluation means.
前記フレーム間差分調波性評価手段は、前記フレーム内調波性評価手段の評価の結果得られた周波数成分毎の調波構造を評価してピッチ候補として求められた基本周波数についてのみ調波性の評価を行うものであることを特徴とする請求項6記載の音響信号分析装置。The inter-frame differential harmonic evaluation means evaluates the harmonic structure for each frequency component obtained as a result of the evaluation by the intra-frame harmonic evaluation means, and only the fundamental frequency obtained as a pitch candidate. The acoustic signal analysis apparatus according to claim 6, wherein 前記周波数分析結果からスペクトル包絡を、予めデータとして基本周波数毎に記憶されたスペクトル包絡とを比較することにより評価して、このスペクトル包絡評価の結果を前記総合評価値に含ませることによりピッチ検出に反映させるべく前記総合評価手段に出力するスペクトル包絡評価手段を更に備えたことを特徴とする請求項6又は7記載の音響信号分析装置。 Spectral envelope is evaluated from the frequency analysis result by comparing with spectral envelope stored in advance for each fundamental frequency as data, and the result of spectral envelope evaluation is included in the comprehensive evaluation value for pitch detection. 8. The acoustic signal analyzing apparatus according to claim 6, further comprising spectrum envelope evaluation means for outputting to the comprehensive evaluation means for reflection. 前記スペクトル包絡評価手段は、前記フレーム内調波性評価手段の評価の結果得られた周波数成分毎の調波構造を評価してピッチ候補として求められた基本周波数についてのみスペクトル包絡評価を行うものであることを特徴とする請求項8記載の音響信号分析装置。The spectrum envelope evaluation means evaluates the harmonic structure of each frequency component obtained as a result of the evaluation by the intra-frame harmonic evaluation means, and performs spectrum envelope evaluation only for the fundamental frequency obtained as a pitch candidate. The acoustic signal analyzer according to claim 8, wherein the acoustic signal analyzer is provided. 前記フレーム内調波性評価手段での評価結果から各基本周波数毎の前記調波性評価値のピークを示すローカルピークをそれぞれ検出する調波性ピーク検出手段と、
前記ローカルピークをそれぞれ時間軸方向にトラッキングすることによりフレーム内調波性及び各成分の変動の同時性及び連動性とその連続性を評価して、その評価値の大きい基本周波数をピッチ候補として求める調波性ピークトラッキング手段と
を更に備えたことを特徴とする請求項6〜9のいずれか1項記載の音響信号分析装置。
Harmonic peak detection means for detecting local peaks each indicating a peak of the harmonic evaluation value for each fundamental frequency from the evaluation result in the intra-frame harmonic evaluation means;
By tracking the local peaks in the time axis direction, the intra-frame harmonics and the simultaneity and continuity of the fluctuation of each component are evaluated, and the fundamental frequency having a large evaluation value is obtained as a pitch candidate. The acoustic signal analyzer according to any one of claims 6 to 9, further comprising harmonic peak tracking means.
請求項1〜5のいずれか1項記載の音響信号分析方法を含み、この方法により検出されたピッチに基づいて、前記入力音響信号から前記検出されたピッチを持つ音声信号を強調又は抑圧することを特徴とする音響信号処理方法。A sound signal analysis method according to any one of claims 1 to 5, wherein the audio signal having the detected pitch is emphasized or suppressed from the input sound signal based on the pitch detected by the method. An acoustic signal processing method characterized by the above. 請求項6〜10のいずれか1項記載の音響信号分析装置を含み、この装置により検出されたピッチに基づいて、前記入力音響信号から前記検出されたピッチを持つ音声信号を強調又は抑圧する強調・抑圧手段を備えたことを特徴とする音響信号処理装置。An audio signal analysis device according to any one of claims 6 to 10, wherein the audio signal having the detected pitch is emphasized or suppressed from the input audio signal based on the pitch detected by the device. An acoustic signal processing device comprising suppression means.
JP2000030861A 2000-02-08 2000-02-08 Acoustic signal analysis method and apparatus, and acoustic signal processing method and apparatus Expired - Fee Related JP4419249B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000030861A JP4419249B2 (en) 2000-02-08 2000-02-08 Acoustic signal analysis method and apparatus, and acoustic signal processing method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000030861A JP4419249B2 (en) 2000-02-08 2000-02-08 Acoustic signal analysis method and apparatus, and acoustic signal processing method and apparatus

Publications (2)

Publication Number Publication Date
JP2001222289A JP2001222289A (en) 2001-08-17
JP4419249B2 true JP4419249B2 (en) 2010-02-24

Family

ID=18555819

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000030861A Expired - Fee Related JP4419249B2 (en) 2000-02-08 2000-02-08 Acoustic signal analysis method and apparatus, and acoustic signal processing method and apparatus

Country Status (1)

Country Link
JP (1) JP4419249B2 (en)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4502246B2 (en) * 2003-04-24 2010-07-14 株式会社河合楽器製作所 Pitch determination device
US7567900B2 (en) 2003-06-11 2009-07-28 Panasonic Corporation Harmonic structure based acoustic speech interval detection method and device
EP1755112B1 (en) 2004-02-20 2008-05-28 Sony Corporation Method and apparatus for separating a sound-source signal
JP2006243664A (en) * 2005-03-07 2006-09-14 Nippon Telegr & Teleph Corp <Ntt> Device, method, and program for signal separation, and recording medium
WO2009039897A1 (en) * 2007-09-26 2009-04-02 Fraunhofer - Gesellschaft Zur Förderung Der Angewandten Forschung E.V. Apparatus and method for extracting an ambient signal in an apparatus and method for obtaining weighting coefficients for extracting an ambient signal and computer program
JP5547414B2 (en) * 2009-03-09 2014-07-16 八幡電気産業株式会社 Audio signal adjustment apparatus and adjustment method thereof
JP6321334B2 (en) * 2013-07-22 2018-05-09 日本放送協会 Signal processing apparatus and program
JP7275711B2 (en) * 2019-03-20 2023-05-18 ヤマハ株式会社 How audio signals are processed

Also Published As

Publication number Publication date
JP2001222289A (en) 2001-08-17

Similar Documents

Publication Publication Date Title
JP4958303B2 (en) Noise suppression method and apparatus
US8889976B2 (en) Musical score position estimating device, musical score position estimating method, and musical score position estimating robot
US20170287507A1 (en) Pitch detection algorithm based on pwvt
EP1895507B1 (en) Pitch estimation, apparatus, pitch estimation method, and program
US7593847B2 (en) Pitch detection method and apparatus
JP5507997B2 (en) Selection of sound components in the audio spectrum for articulation and key analysis
Manfredi et al. Perturbation measurements in highly irregular voice signals: Performances/validity of analysis software tools
JP5127982B2 (en) Music search device
JP4419249B2 (en) Acoustic signal analysis method and apparatus, and acoustic signal processing method and apparatus
Denbigh et al. Pitch extraction and separation of overlapping speech
CN107210029B (en) Method and apparatus for processing a series of signals for polyphonic note recognition
JP2005292207A (en) Method of music analysis
US8995230B2 (en) Method of extracting zero crossing data from full spectrum signals
Sharma et al. Evaluation of pitch estimation in noisy speech for application in non-intrusive speech quality assessment
Borum et al. Additive analysis/synthesis using analytically derived windows
Maula et al. Spectrum identification of peking as a part of traditional instrument of gamelan
Rao et al. A comparative study of various pitch detection algorithms
JP7461192B2 (en) Fundamental frequency estimation device, active noise control device, fundamental frequency estimation method, and fundamental frequency estimation program
Kumaraswamy et al. Improved pitch detection using fourier approximation method
JP2880683B2 (en) Noise suppression device
Sarlin Pitch Detection Algorithms and their application on tom drums
Wu Guitar Sound Analysis and Pitch Detection
Bahatti et al. Sinusoidal features extraction: Application to the analysis and synthesis of a musical signal
Bahatti et al. Short-term sinusoidal modeling of an oriental music signal by using CQT transform
Kharvatkar et al. Detection of Pitch Frequency of Indian Classical Music Based on Hilbert-Huang Transform for Automatic Note Transcription

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061222

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090630

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090714

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090911

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20091110

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20091123

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121211

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131211

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees