JP6018141B2 - オーディオ信号処理装置、オーディオ信号処理方法およびオーディオ信号処理プログラム - Google Patents

オーディオ信号処理装置、オーディオ信号処理方法およびオーディオ信号処理プログラム Download PDF

Info

Publication number
JP6018141B2
JP6018141B2 JP2014165296A JP2014165296A JP6018141B2 JP 6018141 B2 JP6018141 B2 JP 6018141B2 JP 2014165296 A JP2014165296 A JP 2014165296A JP 2014165296 A JP2014165296 A JP 2014165296A JP 6018141 B2 JP6018141 B2 JP 6018141B2
Authority
JP
Japan
Prior art keywords
audio signal
filter
unit
filter coefficient
signal processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014165296A
Other languages
English (en)
Other versions
JP2016042117A (ja
Inventor
拓磨 工藤
拓磨 工藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
P Softhouse Co Ltd
Original Assignee
P Softhouse Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by P Softhouse Co Ltd filed Critical P Softhouse Co Ltd
Priority to JP2014165296A priority Critical patent/JP6018141B2/ja
Priority to US15/503,297 priority patent/US9881633B2/en
Priority to KR1020177003791A priority patent/KR101890265B1/ko
Priority to PCT/JP2014/074281 priority patent/WO2016024363A1/ja
Publication of JP2016042117A publication Critical patent/JP2016042117A/ja
Application granted granted Critical
Publication of JP6018141B2 publication Critical patent/JP6018141B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Stereophonic System (AREA)

Description

本発明は、複数の音源が混在しているオーディオ信号から特定の音源を分離して抽出または除去する技術に関する。
複数の音源が混在しているオーディオ信号から特定の音源の音を分離して抽出する技術には様々なものが存在する。例えば、マイクロフォンアレイからの複数の入力信号をもとに、独立成分分析を用いて音源の方向を特定することで、音源分離を行う手法がある。この手法に関して、精度の向上を目的とするもの、計算量を削減するための工夫を凝らしたものなど、多数の文献が存在する(例えば、下記特許文献1)。
特開2011−215317号公報
上記従来の技術は、独立成分分析を発展させたものであり、独立成分分析はN個の音源を分離するには少なくともN個のマイクロフォンが必要となる。したがって、例えば、市販されている音楽のように、予め録音されたステレオチャネル信号を処理する場合に、このステレオチャネル信号という情報のみでは情報量が少なく、充分な分離の効果が得られないという課題があった。
また、上記従来の技術は、録音時のハードウェア構成に依存した技術であり、事前の学習処理、長期間の信号の解析を行う必要があり、定常音をリアルタイムに抽出もしくは除去することができないという課題があった。
本発明は、上記に鑑みてなされたものであって、事前の学習処理や長期間の信号の解析などを行わずに、瞬時的な信号処理のみで、複数の音源が含まれるオーディオ信号の中から定常音をリアルタイムに抽出もしくは除去することができるオーディオ信号処理装置、オーディオ信号処理方法およびオーディオ信号処理プログラムを得ることを目的とする。
上述した課題を解決し、目的を達成するために、本発明は、複数の音源が混在しているオーディオ信号から特定の音源を分離して抽出または除去するオーディオ信号処理装置であって、入力されたオーディオ信号に短時間フーリエ変換を施す短時間フーリエ変換部と、前記短時間フーリエ変換部が生成した周波数領域の信号に基づいて、当該周波数領域の信号波形に含まれるピーク部の波形が定常音であるか否かを判定する定常音判定部と、前記定常音判定部による判定結果に基づいてフィルタ係数を動的に演算するフィルタ係数演算部と、前記フィルタ係数演算部が演算したフィルタ係数によって動作し、前記短時間フーリエ変換部による出力信号をフィルタリングする櫛型フィルタ部と、前記櫛型フィルタ部の出力を時間領域の信号に変換して出力する逆フーリエ変換部と、を備えたことを特徴とする。
この発明によれば、録音時のハードウェア構成には依存せず、また、事前の学習処理や長期間の信号の解析などを行わずに、瞬時的な信号処理のみで、複数の音源が含まれるオーディオ信号の中から定常音をリアルタイムに抽出もしくは除去することができる、という効果を奏する。
定常音の一例として発振周波数が440Hzの正弦波の時間波形とそのスペクトルを示す図である。 非定常音の一例として中心周波数が440Hzの正弦波の振幅変調波の時間波形とそのスペクトルを示す図である。 非定常音の一例として中心周波数が440Hzの正弦波の周波数変調波の時間波形とそのスペクトルを示す図である。 複数の音源が混在したある楽曲のオーディオ信号の時間波形とそのスペクトルを示す図である。 周波数領域におけるピーク部の先鋭さを判定するための一手法を説明する図である。 音程の揺らぎが中心周波数に依存することを説明する図である。 本実施の形態に係るオーディオ信号処理装置を実現するための一例を示す機能ブロック図である。 本実施の形態に係るオーディオ信号処理方法を実現するための処理を時系列に示したフローチャートである。 周波数領域におけるピーク部の先鋭さを判定するための他の手法を説明する図である。 本実施の形態に係るオーディオ信号処理装置およびオーディオ信号処理方法を実現するためのハードウェア構成の一例を示す図である。
以下に添付図面を参照し、本発明の実施の形態に係るオーディオ信号処理装置、オーディオ信号処理方法およびオーディオ信号処理プログラムについて説明する。なお、以下に示す実施の形態により本発明が限定されるものではない。
(本発明の原理)
まず、本発明の原理について説明する。本発明は、音量および音程が不変である定常音を短時間フーリエ変換(Short Time Fast Fourier Transform:STFFT)したときに周波数軸上で非常に鋭いピークを持つことに着目している。図1は、定常音の一例を示す図であり、発振周波数が440Hzの正弦波の時間波形(a)とそのスペクトル(b)を示している。図2は、非定常音の一例を示す図であり、中心周波数が440Hzの正弦波を振幅変調したときの時間波形とそのスペクトルを示している。図3は、非定常音の他の例を示す図であり、中心周波数が440Hzの正弦波を周波数変調したときの時間波形とそのスペクトルを示している。なお、図1〜図3に示すスペクトルは、何れも44.1kHzのサンプリング周波数でサンプリングした2048点のサンプリングデータに対して短時間フーリエ変換を行ったときの、0Hzから2kHzの周波数領域を抜き出している。
図1〜図3に示す周波数特性を見ると、図1に示される定常音では440Hzの位置で先鋭なピークを持っていることが分かる。また、図2および図3示される非定常音でも、図1と同一の周波数軸上にピークを持つが、変調されているために側波帯の成分が発現し、ピークの先鋭さが鈍っていることが分かる。この事実から、ピーク周辺の周波数成分を解析し、ピークの先鋭さを判別することによって、オーディオ信号が定常音か否かを判断することが可能となる。
図1〜図3は正弦波に対する解析結果であるが、複数の音源が混在しているオーディオ信号であっても、定常音と非定常音とは周波数領域において同一の特性を有している。一方、図4は、複数の音源が混在したある楽曲のオーディオ信号の時間波形とそのスペクトルを示す図であり、図1と同条件で短時間フーリエ変換を行っている。図4を参照すると、時間波形、周波数特性ともに複雑な形状であるが、周波数軸上に先鋭度の高いピーク部が複数箇所(例えばR1,R2,R3)存在することが分かる。
図4に示される先鋭なピーク部(例えばR1〜R3)は、定常音の成分と判定でき、この楽曲のオーディオ信号においては、ボーカルの成分に相当する。一方、先鋭なピーク部以外の周波数領域は、リズム楽器などの音量や音程の変化の大きい非定常音の成分と判定することができる。
したがって、短時間フーリエ変換を行った後の信号に対して、周波数領域における先鋭なピーク部の成分のみを通過するような櫛型フィルタを適用することで、ボーカル音、すなわち定常音のみを抽出することが可能となる。これとは逆に、先鋭なピーク部の成分のみを阻止する櫛型フィルタを適用することで、定常音を除去した信号を得ることが可能となる。
つぎに、周波数領域におけるピーク部の先鋭さを判定するための一手法について説明する。図5は、当該手法を説明する図であり、図5(a)は、定常音の一例として図1(b)に示したスペクトル、すなわち発振周波数が440Hzの正弦波を短時間フーリエ変換したときのスペクトルを示し、図5(b)は、非定常音の一例として図2(b)に示したスペクトル、すなわち中心周波数が440Hzの正弦波の振幅変調波を短時間フーリエ変換したときのスペクトルを示している。
図5(a)において、破線で示されるK1は、440Hzの正弦波を短時間フーリエ変換した信号波形に対し、周波数軸方向に低域通過フィルタを適用して周波数成分の形状を平滑化したときの波形を示している。図5(b)においても同様であり、破線で示されるK2は、中心周波数が440Hzの正弦波の振幅変調波を短時間フーリエ変換した信号波形に対し、周波数軸方向に低域通過フィルタを適用して周波数成分の形状を平滑化したときの波形を示している。
ここで、スペクトル上のピーク部における最大値(例えば図5(a)では“P1”、以下「スペクトルのピーク値」と称する)と、平滑化した波形上における最大値(例えば図5()では“PK1”、以下「平滑化波形のピーク値」と称する)と、を比較すると、定常音の場合には、図5(a)に示すように、スペクトルのピーク値P1と平滑化波形のピーク値PK1との差(P1−PK1)は大きく、非定常音の場合には、図5(b)に示すように、スペクトルのピーク値P2と平滑化波形のピーク値PK2との差(P2−PK2)は小さいことが分かる。
上述したように、定常音の場合には、スペクトル上に先鋭なピーク部を有する一方で、ピーク部以外の領域で信号レベルは小さく、平滑化処理によってピーク部の成分は抑制される。その結果、平滑化前と平滑化後のピーク部分の差分は大きい値となる。これに対し、非定常音の場合には、側波帯の成分が強く存在するため、平滑化処理を行うと波形全体が持ち上がり、ピーク部の成分も大きくなる。その結果、平滑化前と平滑化後のピーク部分の差分は、定常音の場合に比して小さくなる。
以上の性質をもとにすると、短時間フーリエ変換により算出された周波数成分と、低域通過フィルタを適用し平滑化された値とを比較し、平滑化前の成分が平滑化後の成分よりも設定閾値以上大きい箇所を定常音として判定することができる。
なお、図5では振幅をデシベル値(すなわち対数値)で表しているが、計算回数の削減のために対数値ではなく実数値を用いてもよい。また、図5は振幅スペクトルであるが、パワースペクトルを用いてもよい。この場合、設定閾値や、低域通過フィルタのパラメータを適切に調整する必要があることは言うまでもない。
なお、周波数成分に対して低域通過フィルタを適用するときには、音程の変化量が周波数軸上でどれだけの幅になるのかを考慮する必要がある。図6は、音程の揺らぎが中心周波数に依存することを説明する図である。なお、図6(a)は、図3(b)に示した中心周波数が440Hzの正弦波による周波数変調波を短時間フーリエ変換したときのスペクトルを再掲したものである。これに対し、図6(b)は、中心周波数が440Hzの2倍である880Hzの正弦波による周波数変調波を、図6(a)と同一条件で短時間フーリエ変換したときのスペクトルを示すものである。
中心周波数以外の条件が同一の周波数変調波の場合、中心周波数が2倍になれば、揺らぎの範囲も2倍になる。よって、中心周波数が880Hzの周波数変調波は中心周波数が440Hzの周波数変調波に比して、揺らぎの範囲も2倍になる。図6(a)に示すように、中心周波数が440Hzの周波数変調波における揺らぎの範囲が400Hzから480Hzであるとした場合、揺らぎの範囲が2倍に当たる800Hzから960Hzの範囲を図6(b)に示せば、ピーク部の波形の広がりに一致している。この事実から理解できるように、定常音の判定のために低域通過フィルタを適用する際には、高い周波数帯ほどより平滑になるようフィルタ係数を調整することが肝要である。このようなフィルタ係数の調整により、音程の揺らぎを考慮した適切な判定が可能となる。
上述した手法により、定常音の判定ができた後は、その判定結果に基づいて、櫛型フィルタを構成する。定常音の判定のための低域通過フィルタを第1のフィルタとすれば、櫛型フィルタは第2のフィルタである。第1のフィルタは、第2のフィルタのフィルタ係数を決定するための一手段である。第1のフィルタによって決定されたフィルタ係数に従って動的に構成される櫛型フィルタに、短時間フーリエ変換処理後の信号を入力し、櫛型フィルタの出力を逆フーリエ変換することにより所望するオーディオ信号、すなわち定常音を抽出したオーディオ信号、もしくは、定常音を除去したオーディオ信号を得ることができる。
(本発明を実現するための構成例)
図7は、本実施の形態に係るオーディオ信号処理装置を実現するための一例を示すブロック図である。図7に示すように、本実施の形態に係るオーディオ信号処理装置は、入力部1、短時間フーリエ変換部4、定常音判定部5、フィルタ係数演算部6、櫛型フィルタ部7、逆フーリエ変換部8および出力部9を備えて構成される。
入力部1は、例えばストレージ装置、外部ネットワークに接続されるサーバであり、この入力部1を介してオーディオ信号2が装置内に取り込まれる。短時間フーリエ変換部4は、取り込まれたオーディオ信号2に対して窓関数3を適用しながら短時間フーリエ変換を施す。ここで、短時間フーリエ変換部4が行う短時間フーリエ変換処理について補足する。
一度の短時間フーリエ変換で分析できるオーディオ信号波形の長さは、用いられる窓関数およびFFTサイズにより決まる。例えば44.1キロヘルツで離散化されたデジタルオーディオ波形を処理する場合、窓関数およびFFTサイズとしては、例えば2048点を用いる。すると時間軸上の幅は約46.5ミリ秒であり、周波数軸上で約22ヘルツ刻みのデータが得られ、周波数分解能と時間分解能のバランスがよい。これよりも周波数分解能を高くする場合はFFTサイズを大きくし、時間分解能を高くする場合にはFFTサイズを小さくする。例えば、窓関数およびFFTサイズを1024点とすれば、時間軸上の幅は約23.2ミリ秒であり、周波数軸上で約43ヘルツ刻みのデータが得られる。すなわち、窓関数およびFFTサイズを1/2とすることにより、時間分解能は2倍となり、周波数分解能は1/2となる。逆に、窓関数およびFFTサイズを2倍にすることにより、時間分解能は1/2となり、周波数分解能は2倍になる。
図7に戻り、短時間フーリエ変換部4が生成した周波数領域の信号は、定常音判定部5および櫛型フィルタ部7に入力される。定常音判定部5には、平滑化処理部51およびピーク先鋭度判定部52が設けられる。平滑化処理部51は、短時間フーリエ変換部4の出力信号を平滑化する処理を行う。ピーク先鋭度判定部52は、短時間フーリエ変換部4の出力信号と平滑化処理部51からの出力信号との出力差、すなわち平滑化前の出力信号の値と、平滑化後の出力信号の値との差分を閾値判定し、閾値以上の箇所を先鋭度の高いピーク部と判定する。ピーク先鋭度判定部52によるこの判定処理は、着目する周波数領域上で行われる。このため、ピーク先鋭度判定部52によって判定された箇所は、定常音として判定された箇所になる。
ピーク先鋭度判定部52による判定結果、すなわち定常音判定部5による判定結果は、フィルタ係数演算部6に入力される。フィルタ係数演算部6は、時々刻々と送られてくる定常音判定部5による判定結果に基づいて、櫛型フィルタ部7のフィルタ特性を決めるフィルタ係数を演算する。櫛型フィルタ部7は、フィルタ係数演算部6が演算したフィルタ係数によって動作し、短時間フーリエ変換部4による出力信号をフィルタリングする。逆フーリエ変換部8は、櫛型フィルタ部7から出力される周波数領域の信号を時間領域の信号に変換して出力部9に出力する。出力部9は、例えばDA変換器、スピーカなどの音声出力機器であり、逆フーリエ変換部8が生成した信号を出力部9に入力することで所望のオーディオ信号を再生することができる。なお、定常音を抽出したオーディオ信号を得る場合と、定常音を除去したオーディオ信号を得る場合との切り替えは、櫛型フィルタ部7のフィルタ特性を変更することで、自在に行うことができる。
図8は、本実施の形態に係るオーディオ信号処理方法を実現するための処理を時系列に示したフローチャートである。すなわち、本実施の形態に係るオーディオ信号処理方法では、処理対象のオーディオ信号を入力し(ステップS101)、当該オーディオ信号に窓関数を乗算し(ステップS102)、窓関数を乗算した信号に対して短時間フーリエ変換を行い(ステップS103)、短時間フーリエ変換した信号におけるピーク値の先鋭度を判定し(ステップS104)、ピーク値の先鋭度に関する判定結果に基づいて櫛型フィルタのフィルタ特性を決めるフィルタ係数を決定し(ステップS105)、短時間フーリエ変換の出力に対し、決定したフィルタ係数を用いて動的に構成される櫛型フィルタにてフィルタ処理を行い(ステップS106)、櫛型フィルタ処理の出力に対して逆フーリエ変換を行い(ステップS107)、最後に、逆フーリエ変換した信号を出力する(ステップS108)。
上記の処理において、ステップS104の処理は、ステップS103の処理で生成された周波数領域の信号波形に含まれるピーク部の波形が定常音であるか否かを判定する処理に対応する。なお、このステップS104の処理は、図7の平滑化処理部51の処理で説明したように、周波数軸方向に低域通過フィルタを適用して短時間フーリエ変換した信号波形の形状を平滑化する処理とすることができる。また、このステップS104の処理は、下述する図9の処理を適用してもよい。
図9は、周波数領域におけるピーク部の先鋭さを判定するための他の手法を説明する図である。図5では、周波数軸方向に低域通過フィルタを適用して短時間フーリエ変換した信号波形の形状を平滑化する処理を説明したが、ここでは低域通過フィルタを用いない手法について説明する。
図9は、図4(b)に示したスペクトルを再掲したものである。図9に示すような複数の音源が混在した楽曲の場合、スペクトル上に先鋭なピーク部と、先鋭ではないピーク部とが表れることは前述の通りであるが、ここで説明する手法は、予め設定した周波数幅Δfに対するピーク値からの低下量Δpを評価する手法である。具体的には、低下量Δpと周波数幅Δfとの比である、振幅低下率m(=Δp/Δf)を用いて評価する。例えば、図9の左側に示すピーク部では、振幅低下率m1(=Δp1/Δf)が小さいので、先鋭なピーク部とは判定しない。一方、図9の右側に示すピーク部では、振幅低下率m2(=Δp2/Δf)が大きいので、先鋭なピーク部と判定する。判定手法は、例えば閾値による判定とすることができる。なお、この判定の際、図6で説明したように、周波数軸上での揺らぎを考慮することが好ましい。
最後に、本実施の形態に係るオーディオ信号処理装置およびオーディオ信号処理方法を実現するためのハードウェア構成について説明する。図10は、本実施の形態に係るオーディオ信号処理装置およびオーディオ信号処理方法を実現するためのハードウェア構成の一例を示す図である。
図10において、CPU11は、全体的な制御を司るプロセッサである。ROM12は、制御プログラムを格納しているリード・オンリー・メモリである。RAM13は、作業用のメモリエリアなどとして利用されるランダム・アクセス・メモリである。ストレージ14は、ハードディスクやシリコンメモリなどの外部記憶装置であり、例えばオーディオ信号の入力として用いられる。なお、オーディオ信号は外部ネットワーク15に接続される図示しないサーバ装置を介して入力することも可能である。
オーディオ出力装置16は、デジタルオーディオ信号をアナログ化するDA変換器やスピーカなどで構成される。操作子群17は、オーディオ信号の再生を制御するための操作ボタンや操作アイコンである。表示器18は、再生状態を表示する手段である。内部ネットワーク19は、各構成部間の通信を実現するための通信手段であり、内部バス、無線通信手段、ネットワークアダプタなどである。
本実施の形態に係るオーディオ信号処理装置およびオーディオ信号処理方法をプロセッサもしくはコンピュータにて実行させるための命令群で構成されるプログラムは、例えばROM12に記憶されるか、もしくは、RAM13内に保持される。ストレージ14に記憶されたオーディオ信号、もしくは、外部ネットワーク15を介して図示しないサーバから入力されるオーディオ信号に対し、CPU11がRAM13をワーキングメモリとして使用しながら上述の波形処理を行い、オーディオ出力装置16から音として出力される。以上の構成により、複数の音源が含まれるオーディオ信号の中から定常音をリアルタイムに抽出もしくは除去することができるオーディオ信号処理装置、オーディオ信号処理方法を実現することができる。
以上説明したように、本実施の形態に係るオーディオ信号処理装置およびオーディオ信号処理方法によれば、入力されたオーディオ信号に短時間フーリエ変換を施して周波数領域の信号を生成し、当該周波数領域の信号波形に含まれるピーク部の波形が定常音であるか否かを判定し、当該判定結果に基づいて櫛型フィルタ処理を行う際のフィルタ係数を動的に演算し、演算したフィルタ係数によって動作する櫛型フィルタの出力を時間領域の信号に変換して出力することとしたので、入力信号のチャンネル数に依存せず、事前の学習などを行わずに、比較的簡単な構成でリアルタイムに定常音を抽出もしくは除去することが可能となる。
なお、以上の実施の形態に示した構成は、本発明の内容の一例を示すものであり、別の公知の技術と組み合わせることも可能であるし、本発明の要旨を逸脱しない範囲で、構成の一部を省略、変更することも可能である。
例えば、バンドパスフィルタ、ステレオ信号の振幅比から音像の定位を推定するなどの一般的な信号処理との組み合わせも有効である。例えば中央位置にボーカルとドラムの音源が存在するマスタリングされた楽曲の場合、従来であればボーカルとドラムを個別に分離することはできないが、本発明を用いることでボーカルのみを除去するといったことも可能となる。
1 入力部、2 オーディオ信号、3 窓関数、4 短時間フーリエ変換部、5 定常音判定部、6 フィルタ係数演算部、7 櫛型フィルタ部、8 逆フーリエ変換部、9 出力部、11 CPU、12 ROM、13 RAM、14 ストレージ、15 外部ネットワーク、16 オーディオ出力装置、17 操作子群、18 表示器、19 内部ネットワーク、51 平滑化処理部、52 ピーク先鋭度判定部。

Claims (5)

  1. 複数の音源が混在しているオーディオ信号から特定の音源を分離して抽出または除去するオーディオ信号処理装置であって、
    入力されたオーディオ信号に短時間フーリエ変換を施す短時間フーリエ変換部と、
    前記短時間フーリエ変換部が生成した周波数領域の信号を低域通過フィルタを適用して平滑化する平滑化処理部および前記周波数領域の信号と前記平滑化処理部の出力信号との出力差に基づいて前記周波数領域の信号波形に含まれるピーク部の波形の先鋭度を判定するピーク先鋭度判定部を有し、前記周波数領域の信号波形に含まれるピーク部の波形が定常音であるか否かを判定する定常音判定部と、
    前記定常音判定部による判定結果に基づいてフィルタ係数を動的に演算するフィルタ係数演算部と、
    前記フィルタ係数演算部が演算したフィルタ係数によって動作し、前記短時間フーリエ変換部による出力信号をフィルタリングする櫛型フィルタ部と、
    前記櫛型フィルタ部の出力を時間領域の信号に変換して出力する逆フーリエ変換部と、
    を備え、
    前記定常音判定部は、前記低域通過フィルタを適用する際には、高い周波数帯ほどより平滑になるようフィルタ係数を調整する
    ことを特徴とするオーディオ信号処理装置。
  2. 前記櫛型フィルタ部のフィルタ係数は、前記低域通過フィルタのフィルタ係数に従って動的に構成されることを特徴とする請求項1に記載のオーディオ信号処理装置。
  3. 複数の音源が混在しているオーディオ信号から特定の音源を分離して抽出または除去するオーディオ信号処理方法であって、
    入力されたオーディオ信号に短時間フーリエ変換を施す第1のステップと、
    前記第1のステップで生成した周波数領域の信号を低域通過フィルタを適用して平滑化する第2のステップと、
    前記周波数領域の信号と前記第2のステップによる出力信号との出力差に基づいて前記周波数領域の信号波形に含まれるピーク部の波形の先鋭度を判定する第3のステップと、
    前記第3のステップによる判定結果に基づいて前記ピーク部の波形が定常音であるか否かを判定する第4のステップと、
    前記第4のステップによる判定結果に基づいて、櫛型フィルタ処理によるフィルタ係数を動的に演算する第5のステップと、
    前記第1のステップで生成した周波数領域の信号を、前記第5のステップで演算したフィルタ係数を用いてフィルタリングする第6のステップと、
    前記第6のステップによるフィルタ出力を時間領域の信号に変換して出力する第7のステップと、
    を含み、
    前記第2のステップにおいて、前記低域通過フィルタを適用する際には、高い周波数帯ほどより平滑になるようフィルタ係数を調整する
    ことを特徴とするオーディオ信号処理方法。
  4. 前記櫛型フィルタ処理によるフィルタ係数は、前記低域通過フィルタのフィルタ係数に従って動的に決定されることを特徴とする請求項3に記載のオーディオ信号処理方法。
  5. 請求項3または請求項4に記載されたオーディオ信号処理方法をプロセッサに実行させるオーディオ信号処理プログラム。
JP2014165296A 2014-08-14 2014-08-14 オーディオ信号処理装置、オーディオ信号処理方法およびオーディオ信号処理プログラム Active JP6018141B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2014165296A JP6018141B2 (ja) 2014-08-14 2014-08-14 オーディオ信号処理装置、オーディオ信号処理方法およびオーディオ信号処理プログラム
US15/503,297 US9881633B2 (en) 2014-08-14 2014-09-12 Audio signal processing device, audio signal processing method, and audio signal processing program
KR1020177003791A KR101890265B1 (ko) 2014-08-14 2014-09-12 오디오 신호 처리 장치, 오디오 신호 처리 방법 및 오디오 신호 처리 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체
PCT/JP2014/074281 WO2016024363A1 (ja) 2014-08-14 2014-09-12 オーディオ信号処理装置、オーディオ信号処理方法およびオーディオ信号処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014165296A JP6018141B2 (ja) 2014-08-14 2014-08-14 オーディオ信号処理装置、オーディオ信号処理方法およびオーディオ信号処理プログラム

Publications (2)

Publication Number Publication Date
JP2016042117A JP2016042117A (ja) 2016-03-31
JP6018141B2 true JP6018141B2 (ja) 2016-11-02

Family

ID=55304005

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014165296A Active JP6018141B2 (ja) 2014-08-14 2014-08-14 オーディオ信号処理装置、オーディオ信号処理方法およびオーディオ信号処理プログラム

Country Status (4)

Country Link
US (1) US9881633B2 (ja)
JP (1) JP6018141B2 (ja)
KR (1) KR101890265B1 (ja)
WO (1) WO2016024363A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112492453A (zh) * 2019-09-12 2021-03-12 深圳市德晟达电子科技有限公司 一种针对音频接口的自动化检测方法
KR102382208B1 (ko) 2020-07-21 2022-04-04 브레인소프트주식회사 복합음을 구성하는 순음의 추출 방법

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3309895B2 (ja) * 1996-03-25 2002-07-29 日本電信電話株式会社 雑音低減方法
JP3472046B2 (ja) 1996-08-23 2003-12-02 株式会社国際電気通信基礎技術研究所 信号分離装置
JP2002149200A (ja) 2000-08-31 2002-05-24 Matsushita Electric Ind Co Ltd 音声処理装置及び音声処理方法
EP1755111B1 (en) 2004-02-20 2008-04-30 Sony Corporation Method and device for detecting pitch
JP2005266797A (ja) 2004-02-20 2005-09-29 Sony Corp 音源信号分離装置及び方法、並びにピッチ検出装置及び方法
JP4413043B2 (ja) * 2004-03-09 2010-02-10 日本電信電話株式会社 周期性ノイズ抑圧方法、周期性ノイズ抑圧装置、周期性ノイズ抑圧プログラム
JP4533126B2 (ja) * 2004-12-24 2010-09-01 日本電信電話株式会社 近接音分離収音方法、近接音分離収音装置、近接音分離収音プログラム、記録媒体
JP4757158B2 (ja) 2006-09-20 2011-08-24 富士通株式会社 音信号処理方法、音信号処理装置及びコンピュータプログラム
JP2011215317A (ja) 2010-03-31 2011-10-27 Sony Corp 信号処理装置、および信号処理方法、並びにプログラム
JP2012177828A (ja) * 2011-02-28 2012-09-13 Pioneer Electronic Corp ノイズ検出装置、ノイズ低減装置及びノイズ検出方法
US9088336B2 (en) * 2012-09-06 2015-07-21 Imagination Technologies Limited Systems and methods of echo and noise cancellation in voice communication
US9117457B2 (en) * 2013-02-28 2015-08-25 Signal Processing, Inc. Compact plug-in noise cancellation device

Also Published As

Publication number Publication date
US20170236529A1 (en) 2017-08-17
JP2016042117A (ja) 2016-03-31
KR101890265B1 (ko) 2018-08-21
KR20170029004A (ko) 2017-03-14
US9881633B2 (en) 2018-01-30
WO2016024363A1 (ja) 2016-02-18

Similar Documents

Publication Publication Date Title
JP5898534B2 (ja) 音響信号処理装置および音響信号処理方法
KR20180050652A (ko) 음향 신호를 사운드 객체들로 분해하는 방법 및 시스템, 사운드 객체 및 그 사용
JP6401521B2 (ja) 信号処理装置及び信号処理方法
JP6138015B2 (ja) 音場測定装置、音場測定方法および音場測定プログラム
JP2015531084A5 (ja)
US9712127B2 (en) Intelligent method and apparatus for spectral expansion of an input signal
JP6018141B2 (ja) オーディオ信号処理装置、オーディオ信号処理方法およびオーディオ信号処理プログラム
CN105324815B (zh) 信号处理装置和信号处理方法
JP5915281B2 (ja) 音響処理装置
EP3772224B1 (en) Vibration signal generation apparatus and vibration signal generation program
JP5046786B2 (ja) 擬似重低音生成装置
JP2005173055A (ja) 音響信号除去装置、音響信号除去方法及び音響信号除去プログラム
JP7276469B2 (ja) 波源方向推定装置、波源方向推定方法、およびプログラム
JP6930089B2 (ja) 音響処理方法および音響処理装置
JP5760442B2 (ja) 定位解析装置および音響処理装置
WO2019009204A1 (ja) 信号処理装置、制御方法、プログラム及び記憶媒体
JP4986893B2 (ja) 高調波生成装置
JP2018074382A (ja) ノイズ検出装置及びノイズ検出方法
JP6296573B2 (ja) スピーカを駆動するための力の変化の信号を生成する信号生成装置、スピーカ
Tarr The Development of Audio Software with Distortion
KR20190086872A (ko) 고조파를 제거한 미디 파일 생성 방법 및 오디오 파일 변환 방법
JP5495858B2 (ja) 音楽音響信号のピッチ推定装置及び方法
WO2019016881A1 (ja) スピーカを駆動するための力の変化の信号を生成する信号生成装置、スピーカ、スピーカ用フィルタ
JP5494085B2 (ja) 音響処理装置
Fong Adaptive Pitch Detection employing the use of Fast Fourier Transform and Autocorrelation Function

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160203

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20160510

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160721

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20160722

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20160812

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160920

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160929

R150 Certificate of patent or registration of utility model

Ref document number: 6018141

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250