JP6004792B2 - 音響処理装置、音響処理方法、及び音響処理プログラム - Google Patents
音響処理装置、音響処理方法、及び音響処理プログラム Download PDFInfo
- Publication number
- JP6004792B2 JP6004792B2 JP2012150534A JP2012150534A JP6004792B2 JP 6004792 B2 JP6004792 B2 JP 6004792B2 JP 2012150534 A JP2012150534 A JP 2012150534A JP 2012150534 A JP2012150534 A JP 2012150534A JP 6004792 B2 JP6004792 B2 JP 6004792B2
- Authority
- JP
- Japan
- Prior art keywords
- unit
- acoustic feature
- acoustic
- sound
- stationary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000012545 processing Methods 0.000 title claims description 68
- 238000003672 processing method Methods 0.000 title claims description 6
- 238000000034 method Methods 0.000 claims description 123
- 239000013598 vector Substances 0.000 claims description 82
- 238000001514 detection method Methods 0.000 claims description 35
- 238000001228 spectrum Methods 0.000 description 121
- 238000004364 calculation method Methods 0.000 description 45
- 238000006243 chemical reaction Methods 0.000 description 21
- 230000005236 sound signal Effects 0.000 description 18
- 230000006870 function Effects 0.000 description 10
- 238000002474 experimental method Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 230000001186 cumulative effect Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 4
- 238000012935 Averaging Methods 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 3
- 230000007786 learning performance Effects 0.000 description 3
- 230000001629 suppression Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 230000002349 favourable effect Effects 0.000 description 2
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000032683 aging Effects 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 238000001816 cooling Methods 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000009408 flooring Methods 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000002023 wood Substances 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Manipulator (AREA)
Description
上述の態様によれば、雑音の特性の変化に対する適応性と動作の安定性を両立させることができる。
上述の態様によれば、雑音の特性における急激な変動に対する適応性が向上する。
上述の態様によれば、非定常雑音の特性の変化に対する適応性が向上する。
上述の態様によれば、制御対象の機器に対する指示に基づいて、当該機器の動作によって生ずる自己雑音に対する適応性が向上する。
以下、図面を参照しながら本発明の第1の実施形態について詳しく説明する。
図1は、本実施形態に係る音響処理装置1の構成を示す概略図である。
音響処理装置1は、収音部11、動作検出部12、周波数領域変換部131、パワー算出部132、雑音推定部133、テンプレート記憶部134、減算部135、時間領域変換部136、テンプレート生成部138、テンプレート再構成部139及び出力部14を含んで構成される。
周波数領域変換部131は、変換した複素入力スペクトルY(k,l)をパワー算出部132及び減算部135に出力する。
定常雑音推定部1331は、パワー算出部132から入力されたパワースペクトル|Y(k,l)|2を再帰的に(recursively)平均する。これにより、定常雑音推定部1331は、雑音の定常成分(stationary portion)のパワースペクトルλSNE(k,l)を算出する。
以下の説明では、非定常成分のパワースペクトルλTE(k,l)を非定常雑音レベルと呼ぶことがある。ここで、テンプレート推定部1332は、入力された動作信号が表す特徴ベクトルF(l)に基づいて、テンプレート記憶部134に記憶されている特徴ベクトルF’(l)を選択する。テンプレート記憶部134には、後述するように、特徴ベクトルF’(l)と雑音スペクトルベクトル|N’n(k,l)|2とが対応付けて記憶されている。以下の説明では、特徴ベクトルF’(l)と、これに対応付けられた雑音スペクトルベクトル|N’n(k,l)|2との組をテンプレート(template)と呼ぶ。テンプレート推定部1332が特徴ベクトルF’(l)を選択する処理について後述する。
音声判定信号が非音声であることを示す場合、加算部1333は、定常雑音推定部1331から入力された定常雑音レベルλSNE(k,l)を雑音パワースペクトルλtot(k,l)として減算部135に出力する。
利得算出部1351は、パワー算出部132から入力されたパワースペクトル|Y(k,l)|2と加算部1333から入力された雑音パワースペクトルλtot(k,l)とに基づいて、利得GSS(k,l)を、例えば式(2)を用いて算出する。
出力部14は、時間領域変換部136から入力された目標音響信号x’(t)を音響処理装置1の外部に出力する。
音声判定部1381は、収音部11から入力された音響信号y(t)に対して音声区間検出(Voice Activity Detection;VAD)を行う。音声判定部1381は、音声区間検出を有音区間毎に行う。有音区間は、音響信号の振幅の立ち上がり(onset)から立ち下り(decay)に挟まれる区間である。立ち上がりとは、無音区間の後、音響信号のパワーが予め定めたパワーよりも大きくなる部分である。立ち下がりとは、無音区間の前に、音響信号のパワーが予め定めたパワーよりも小さくなる部分である。音声判定部1381は、例えば、ある時間間隔(例えば、10ms)毎のパワー値が、その直前において予め定めたパワー閾値よりも小さく、現在においてそのパワー閾値を上回る場合に、立ち上がりと判定する。これに対して、音声判定部1381は、パワー値が、その直前において予め定めたパワー閾値よりも大きく、現在においてそのパワー閾値よりも小さい場合に、立ち下がりと判定する。
なお、パワー算出部1382は、音声判定部1381から入力された音声判定信号が音声であることを示す場合には、パワースペクトル|N’n(k,l)|2を出力しない。
次に、定常雑音推定部1331がHRLE法を用いて定常雑音レベルλSNE(k,l)の算出する処理について説明する。
図2は、HRLE法を用いた定常雑音レベルλSNE(k,l)の算出に係る処理を表すフローチャートである。
(ステップS101)定常雑音推定部1331は、パワースペクトル|Y(k,l)|2に基づき対数スペクトルYL(k,l)を算出する。ここで、YL(k,l)=20log10|Y(k,l)|である。その後、ステップS102に進む。
(ステップS102)定常雑音推定部1331は、算出した対数スペクトルYL(k,l)が属する階級(bin)Iy(k,l)を定める。ここで、Iy(k,l)=floor(YL(k,l)−Lmin)/Lstepである。floor(…)は、実数…、又は…よりも小さい最大の整数を与える床関数(floor function)である。Lmin、Lstepは、それぞれ予め定めた最小レベル、階級毎のレベルの幅である。その後、ステップS103に進む。
(ステップS105)定常雑音推定部1331は、累積頻度xに対応する累積度数S(k,l,Imax)・x/100に最も近似する累積度数S(k,l,i)を与える階数iを、推定階数Ix(k,l)として定める。即ち、推定階数Ix(k,l)は、累積度数S(k,l,i)との間で次の関係がある。Ix(k,l)=arg minI[S(k,l,Imax)・x/100−S(k,l,I)]その後、ステップS106に進む。
(ステップS106)定常雑音推定部1331は、推定階数Ix(k,l)を対数レベルλHRLE(k,l)に換算する。ここで、λHRLE(k,l)=Lmin+Lstep・Ix(k,l)である。そして、対数レベルλHRLE(k,l)を、線形領域に変換して定常雑音レベルλSNE(k,l)を算出する。即ち、λSNE(k,l)=10(λSNE(k,l)/20)である。その後、処理を終了する。
次に、テンプレート推定部1332は、特徴ベクトルF’(l)を選択する処理について説明する。
テンプレート推定部1332は、例えば、最近傍探索法(nearest neighbor search algorithm)を用いて、特徴ベクトルF’(l)を選択する。最近傍探索法では、入力された特徴ベクトルF(l)と記憶されている特徴ベクトルF’(l)との間の類似度を表す指標値として、ユークリッド距離(Euclidean distance)d(F(l),F’(l))を算出する。ユークリッド距離d(F(l),F’(l))は、式(3)で表される。
テンプレート推定部1332は、算出した重み付き平均値λ’’TE(k,l)を非定常成分のパワースペクトルλTE(k,l)として加算部1333へ出力する。
次に、KD木について説明する。KD木とは、多次元のユークリッド空間にある点(この例では、特徴ベクトルF’(l))を分類する空間分割データ構造である。KD木では、例えば、特徴ベクトルF’(l)の次元毎の中央値が選択され、その中央値を通過しその次元の座標軸に垂直な平面を分割平面として定められている。即ち、KD木では、次のような再帰的な構造を有する。
(1)ある次元nにおける中央値(median)をとる特徴ベクトルF’(l)を根ノード(root node、親ノード、parent nodeとも呼ばれる)と定められている。その次元nにおいて中央値よりも大きい値をとる特徴ベクトルF’(l)と、中央値よりも小さい値をとる特徴ベクトルF’(l)がそれぞれ葉ノード(leaf node、子ノードchild nodeとも呼ばれる)として分類される。
(2)その次元nにおいて、中央値よりも大きい値をとる葉ノードの候補と、中央値よりも小さい値をとる葉ノードの候補それぞれについて、他の次元n’(例えば、次元n+1)において中央値をとる特徴ベクトルF’(l)を根ノードと定める。即ち、次元n’について、それぞれ定められた根ノードが、次元nにおける根ノードに対する葉ノードとなる。
(3)葉ノードの候補がなくなるまで、処理対象の次元を変更して(1)、(2)が順次繰り返される。
この対応関係を表す情報として、出発点である根ノード、次元ごとの根ノード並びに葉ノードにそれぞれ対応する特徴ベクトルF’(l)を示すインデックスを示す構造情報が、KD木の構成要素を示す情報としてテンプレート記憶部134に記憶されている。
次に、テンプレート推定部1332は、二分探索法を用いて特徴ベクトルF’(l)を探索する処理について説明する。
図3は、本実施形態に係る特徴ベクトルF’(l)の探索処理を示すフローチャートである。
(ステップS201)テンプレート推定部1332は、予め定めた出発点である根ノードを設定する。その後、ステップS202に進む。
(ステップS202)テンプレート推定部1332は、根ノードの特徴ベクトルF’(l)に係るユークリッド距離d(F(l),F’(l))、(以下、単に距離と呼ぶ)を算出する。その後、ステップS203に進む。
(ステップS203)テンプレート推定部1332は、その根ノードに対する葉ノードそれぞれについて距離を算出する。その後、ステップS204に進む。
(ステップS204)テンプレート推定部1332は、距離が小さいほうの葉ノードを選択し、選択した葉ノードが末端の葉ノードであるか否か判断する。選択した葉ノードが末端の葉ノードである場合には(ステップS204 YES)、ステップS206に進む。選択した葉ノードが末端の葉ノードでない場合には(ステップS204 NO)、ステップS205に進む。
(ステップS206)テンプレート推定部1332は、根ノードに対する距離が、その葉ノードに対する距離よりも大きいか否か判断する。これにより、他の葉ノードを探索対象から除外するか否かを判断する。葉ノードに対する距離のほうが大きいと判断された場合には(ステップS206 YES)、テンプレート推定部1332は、その根ノードを葉ノードと定め、ステップS206を繰り返す。葉ノードに対する距離が根ノードに対する距離と等しいか又は小さいと判断された場合には(ステップS206 NO)、ステップS207に進む。
(ステップS207)テンプレート推定部1332は、その根ノードに係る他方の葉ノードであって未処理の葉ノードの有無を判断する。かかる葉ノードがあると判断された場合には(ステップS207 YES)、ステップS208に進む。かかる葉ノードがないと判断された場合には(ステップS207 NO)、ステップS209に進む。
(ステップS208)テンプレート推定部1332は、その他方の葉ノードを、出発点である根ノードと定め、ステップS202に進む。
(ステップS209)テンプレート推定部1332は、算出した距離が最小となる特徴ベクトルF’(l)を選択する。その後、処理を終了する。
次に、テンプレートを更新する処理について説明する。テンプレート更新部1383は、入力された動作信号が表す特徴ベクトルF(l)に基づいて、テンプレート記憶部134に記憶されている特徴ベクトルF’(l)を選択する。ここで、テンプレート更新部1383は、例えば、特徴ベクトルF(l)とのユークリッド距離d(F(l),F’(l))が最も小さい特徴ベクトルF’(l)を、上述の探索方法を用いて選択する。以下では、選択した特徴ベクトルF’(l)に係るユークリッド距離を最小距離dmin(F(l),F’(l))と呼ぶ。
次に本実施形態に係るテンプレート更新処理について説明する。
図4は、本実施形態に係るテンプレート更新処理を示すフローチャートである。
(ステップS301)周波数領域変換部131は、収音部11から入力された音響信号y(t)を、周波数領域で表された複素入力スペクトルY(k,l)に変換する。周波数領域変換部131は、変換した複素入力スペクトルY(k,l)をパワー算出部132及び減算部135に出力する。その後、ステップS302に進む。
利得算出部1351は、算出した利得GSS(k,l)をフィルタ部1352に出力する。その後、ステップS306に進む。
(ステップS310)テンプレート更新部1383は、入力された動作信号が示す特徴ベクトルF(l)と入力されたパワースペクトルλTE(k,l)の組を対応付けたテンプレートをテンプレート記憶部134に記憶する(テンプレート追加)。その後、ステップS312に進む。
(ステップS311)テンプレート更新部1383は、選択した特徴ベクトルF’(l)に対応するパワースペクトルλ’TE(k,l−1)をテンプレート記憶部134から読み出す。テンプレート更新部1383は、例えば、式(6)を用いて読み出したパワースペクトルλ’TE(k,l−1)と入力されたパワースペクトルλTE(k,l)とを、それぞれ係数η、(1−η)で重み付け加算して更新パワースペクトルλTE(k,l)を算出する。テンプレート更新部1383は、算出した更新パワースペクトルλTE(k,l)を、読み出したパワースペクトルλ’TE(k,l−1)に係る特徴ベクトルF’(l)と対応づけてテンプレート記憶部134に記憶する(テンプレート更新)。その後、ステップS312に進む。
(ステップS313)テンプレート再構成部139は、テンプレート記憶部134に記憶された特徴ベクトルF’(l)のKD木を再構成する。その後、処理を終了する。
(ステップS320)音響処理装置1は目標音響信号を生成し、その後、処理を終了する。
次に、音響処理装置1が、目標音響信号を生成する処理(ステップS320)について述べる。
図5は、本実施形態に係る目標音響信号を生成する処理を示すフローチャートである。
なお、パワー算出部1382にも、音声判定部1381から音声であることを示す音声判定信号が入力され、パワースペクトル|N’n(k,l)|2をテンプレート更新部1383に出力しない。従って、ステップS308−311の処理は行われない。
その後、ステップS322に進む。
(ステップS323)フィルタ部1352は、周波数領域変換部131から入力された複素入力スペクトルY(k,l)に利得算出部1351から入力された利得GSS(k,l)を乗算して推定目標スペクトルX’(k,l)を算出する。これにより、パワースペクトル|Y(k,l)|2から雑音パワースペクトルλtot(k,l)を減算する。フィルタ部1352は、算出した推定目標スペクトルX’(k,l)を時間領域変換部136に出力する。その後、ステップS324に進む。
これにより、テンプレート記憶部134に記憶されたパワースペクトルが雑音の非定常性に適応して更新され、更新されたパワースペクトルが非定常雑音の減算に用いられる。そして、本実施形態では、更新したパワースペクトルを用いることで非定常雑音が抑圧される。本実施形態では、初期状態においてテンプレート記憶部134に多数のテンプレートを記憶させず、例えばモータや可動部が経年変化することにより雑音の特性が変動した場合でも、雑音を効果的に抑圧することができる。
次に本発明の第2の実施形態について、上述の実施形態と同一構成又は処理と同一の符号を付して説明する。
図6は、本実施形態に係る音響処理装置2の構成を示す概略図である。
音響処理装置2は、収音部11、動作検出部12、周波数領域変換部131、パワー算出部132、雑音推定部233、テンプレート記憶部134、減算部135、時間領域変換部136、テンプレート生成部238、及び出力部14を含んで構成される。即ち、音響処理装置2は音響処理装置1(図1)の雑音推定部133及びテンプレート生成部138の代わりに、それぞれ雑音推定部233及びテンプレート生成部238を備える。
雑音推定部233は、定常雑音推定部1331、テンプレート推定部2332及び加算部1333を含んで構成される。即ち、雑音推定部233は、雑音推定部133のテンプレート推定部1332(図1)の代わりにテンプレート推定部2332を備える。
テンプレート生成部238は、音声判定部1381、パワー算出部1382及びテンプレート更新部2383を含んで構成される。即ち、テンプレート生成部238は、テンプレート生成部138(図1)のテンプレート更新部1383の代わりにテンプレート更新部2383を備える。
但し、テンプレート更新部2383は、さらに、テンプレート記憶部134に記憶されているテンプレートのうち、予め定めた時間t’以上、使用されていないテンプレートを削除する。使用されたテンプレートとは、テンプレート推定部2332が、入力された特徴ベクトルF(l)とのユークリッド距離d(F(l),F’(l))が最小の特徴ベクトルF’(l)に係るテンプレートである。テンプレート推定部2332において上述のK−NN法が採用されている場合には、そのユークリッド距離d(F(l),F’(l))が第1番目から第K番目に小さい特徴ベクトルF’(l)に係るテンプレートである。
他方、テンプレート推定部2332は、上述のユークリッド距離d(F(l),F’(l))が最小の特徴ベクトルF’(l)を定めたとき、その時刻を示す時刻情報を生成する。テンプレート推定部2332は、その特徴ベクトルF’(l)に係るテンプレートと対応付けてテンプレート記憶部134に記憶された時刻情報を、生成した時刻情報に更新する。上述のK−NN法が採用されている場合には、テンプレート推定部2332が、上述のユークリッド距離d(F(l),F’(l))が第1番目から第K番目に小さい特徴ベクトルF’(l)にかかるテンプレート対応した時刻情報を、生成した時刻情報に更新する。
テンプレート更新部2383は、テンプレート記憶部134に記憶された時刻情報が示す時刻から現時刻までの経過時間が所定時間t’よりも大きい経過時間に対応するテンプレートを、予め定めた時間間隔(例えば、フレーム間隔)で探索する。テンプレート更新部2383は、かかるテンプレートが発見されたとき、発見されたテンプレートをテンプレート記憶部134から消去する。
図7は、本実施形態に係るテンプレート更新処理を示すフローチャートである。
本実施形態に係るテンプレート更新処理は、ステップS301−S311の後で、ステップS414−S416を実行し、その後、ステップS312、S313を実行する。
(ステップS414)テンプレート更新部2383は、追加又は更新したテンプレートと対応付けて、その追加又は更新の時刻を示す時刻情報をそのテンプレートに対応付けてテンプレート記憶部134に記憶する。その後、ステップS415に進む。
(ステップS415)テンプレート更新部2383は、テンプレート記憶部134に記憶された時刻情報が示す時刻から現時刻までの経過時間が所定時間t’よりも大きい経過時間に対応するテンプレートの有無を判断する。このようなテンプレートがあると判断されたとき(ステップS415 YES)、ステップS416に進む。このようなテンプレートがないと判断されたとき(ステップS415 NO)、ステップS312に進む。
(ステップS416)テンプレート更新部2383は、所定時間t’よりも大きい経過時間に対応するテンプレートをテンプレート記憶部134から消去する。その後、ステップS312に進む。
以上に説明したように、本実施形態では、記憶部に記憶されている音響特徴量のうち、使用頻度が予め定めた頻度よりも、使用されていない音響特徴量を削除する。これにより、雑音の抑圧性能を劣化させることなく探索対象となる音響特徴量の数を減らし、音響特徴量の探索に係る処理量を低減することができる。
その他、音響信号のサンプリング周波数は16kHz、フレームシフトは10msである。ユークリッド距離の閾値Tは、0.0001、KD木の更新間隔τは50ms、忘却係数ηは0.9である。
図8は、推定誤差の一例を示す図である。
図8において、横軸は繰り返し回数、縦軸は推定誤差を示す。実線は、本実施形態、破線は従来技術(テンプレート推定法、Template Estimation,TE)を示す。縦軸の推定誤差は、正規化雑音推定誤差(Normalized Noise Estimation Error、NNEE)である。NNEEは、式(7)で示される指標値ε(l)を予め定めたフレーム数Lの区間内で平均した値ε’である。
図9において、横軸は繰り返し回数、縦軸はテンプレートの数を示す。実線は、本実施形態、破線は従来技術(テンプレート推定法、Template Estimation,TE)を示す。図9において、テンプレートの数とは、各技術において雑音の推定に用いるために記憶されたテンプレートの数である。本実施形態では、テンプレート記憶部134に記憶されたテンプレートの数である。
本実施形態では、繰り返し回数1から20にかけて200個から800個に増加するが、従来技術では200個から8,000個に増加する。繰り返し回数の20回に注目すると、本実施形態では、テンプレートの数は、従来技術の1/10である。本実施形態では周囲の環境に応じてテンプレートが更新されるため、テンプレートが必要以上に増加することが抑制され、テンプレートの探索に係る処理が低減する。
図10は、原信号のスペクトログラムを示す図である。
図10において、横軸は時刻を示し、縦軸は周波数を示す。各周波数、各時刻におけるパワーを、濃淡で示す。明るい部分ほどパワーが大きいことを示す。図10において、時刻0−2秒における「stationary noise」は、この区間において定常雑音が提示されていることを示す。時刻2−4秒における「Non−stationary+Stationary Noise」は、この区間において非定常雑音と定常雑音がともに提示されていることを示す。時刻4−6秒における「Noise+Speech」は、この区間において非定常雑音、定常雑音と音声がともに提示されていることを示す。
図11において、横軸、縦軸の関係、濃淡の関係は図10と同様である。図11に示す定常雑音は、HRLE法を用いて推定した定常雑音である。図11によれば、HRLE法を用いて推定した定常雑音は、図10に示す定常雑音又はこの定常雑音による成分を近似できるが、非定常雑音をほとんど推定できないことを示す。
図12において、横軸、縦軸の関係、濃淡の関係は図10と同様である。図12に示す雑音は、従来技術を用いて推定した雑音を示す。図12と図10を比較すると、定常雑音のみの区間(0−2秒)、定常雑音と非定常雑音が提示されている区間(2−4秒)のスペクトログラムは互いに近似する。しかし、図12の時刻4.6秒の周波数5−6kHzにみられるように、音声の成分が主である部分のパワーが周囲よりも大きい。これは、従来技術では、音声が主であるにも関わらず雑音が誤検出されることを示す。
図13において、横軸、縦軸の関係、濃淡の関係は図10と同様である。図13に示す雑音は、本実施形態を用いて推定した雑音を示す。図13と図12を比較すると、各区間ともに図13は図12よりも全体的に滑らかである。つまり、本実施形態のほうが、安定して雑音を推定できることを示す。特に、時刻4.6秒の周波数5−6kHzにおいて周囲よりもパワーが大きくなる現象が、図13では表れていない。これは本実施形態のほうが従来技術よりも音声による影響が少ないことを示す。
実験は、内径が縦4.0m、横7.0m、高さ3.0mで、残響時間(reverberation time)RT20が0.2秒の室内で行われた。実験において、動作音と動作信号のセット(計3セット、各100秒)を用いた。動作音が発生している際に、参加者に236個の単語のいずれかを発声させた。本実験では、動作音と人間の音声の他に、背景雑音(Backgraound Noise、BGN)を生成した。以下の説明では、次の条件(1)−(4)について実験した結果について述べる。条件(1)では、背景雑音のエネルギーを一定とし、音声のS/N比(signal−to−noise ratio、SNR)は3dBである。条件(2)では、背景雑音のエネルギーを一定とし、音声のS/N比(signal−to−noise ratio、SNR)は−3dBである。条件(3)、(4)では、条件(2)に対して、更に時間経過によって振幅が変動するガウシアン白色雑音(Gaussian white noise)を追加した。このガウシアン白色雑音は、非定常な背景雑音を模する音源である。条件(3)、(4)における音声のS/N比の平均値は、それぞれ、−3.1dB、−3.2dBである。
図14において各行は、指標値としてNNEE、LSD、SNR、WCRを用いたことを示す。各列は、条件(1)、条件(2)それぞれについて、評価対象の信号を示す。最左列から右側に順に、未処理の入力信号(未処理)、HRLEによって推定した定常雑音を除去した音響信号(HRLE)、従来のテンプレート推定法を用いて推定した音響信号(TE)、本実施形態により推定した音響信号(本実施形態)を示す。太字で示した数値は、評価対象の信号の中で最も推定精度が優れることを示す信号に係る数値である。
条件(1)では、各指標値ともに本実施形態が最も良好なことを示す。条件(2)では、NNEE、LSD、WCRについては、本実施形態が最も良好であるが、SNRについては、TEに次いで良好である。但し、TEについてのSNRは5.49dBであるのに対し、本実施形態についてのSNRは5.24dBであり、両者の間の差は、0.25dBに過ぎない。
図15において各行は、指標値としてLSD、SNR、WCRを用いたことを示す。各列は、条件(3)、条件(4)それぞれについて、評価対象の信号を示す。最左列から右側に順に、未処理、HRLE、TE、本実施形態を示す。太字で示した数値は、評価対象の信号の中で最も推定精度が優れることを示す信号に係る数値である。
条件(3)、(4)ともに、各指標値ともに本実施形態が最も良好なことを示す。従って、本実施形態では、他の方法よりも雑音の変動に対して頑強であることを示す。
また、上述した実施形態における音響処理装置1、2の一部、または全部を、LSI(Large Scale Integration)等の集積回路として実現しても良い。音響処理装置1、2の各機能ブロックは個別にプロセッサ化してもよいし、一部、または全部を集積してプロセッサ化しても良い。また、集積回路化の手法はLSIに限らず専用回路、または汎用プロセッサで実現しても良い。また、半導体技術の進歩によりLSIに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いても良い。
1332、2332…テンプレート推定部、1333…加算部、
134…テンプレート記憶部、135…減算部、1351…利得算出部、
1352…フィルタ部、
136…時間領域変換部、138、238…テンプレート生成部、1381…音声判定部、1382…パワー算出部、1383、2383…テンプレート更新部、
139…テンプレート再構成部、14…出力部
Claims (6)
- 自装置を組み込むロボットの駆動部の動作を検出する動作検出部と、
入力された音響信号の音響特徴量に基づいて定常雑音成分の音響特徴量を推定する定常雑音推定部と、
前記音響信号の音響特徴量から、前記定常雑音推定部が推定した前記定常雑音成分の音響特徴量に基づいて前記定常雑音成分を除去した非定常成分の音響特徴量を算出する音響特徴量処理部と、
前記音響信号が音声であるか音声以外の非音声であるかを判定する音声判定部と、
前記音声判定部が非音声であると判定するとき、前記動作を表す動作データと前記非定常成分の音響特徴量とを記憶部に対応付けて記憶する更新部と、
前記音声判定部が音声であると判定するとき、前記記憶部から前記動作データに対応する非定常成分の音響特徴量を取得する推定部と、
前記定常雑音成分の音響特徴量と前記非定常成分の音響特徴量とを加算した雑音成分の音響特徴量を、前記音響信号の音響特徴量から減算して目標音響信号の音響特徴量を算出する減算部と、
を備えることを特徴とする音響処理装置。 - 前記更新部は、前記動作検出部が検出した動作を示す動作データに対応する非定常成分の音響特徴量を前記記憶部から選択し、前記選択した非定常成分の音響特徴量を、前記推定部が取得した非定常成分の音響特徴量と重み付け加算した値に更新することを特徴とする請求項1に記載の音響処理装置。
- 前記更新部は、前記動作検出部が検出した動作を示す動作データとの類似度が、前記記憶部に記憶された動作データのいずれに対しても、予め定めた類似度よりも類似していないことを示す場合、前記動作検出部が検出した動作を示す動作データと前記推定部が推定した非定常成分の音響特徴量を対応付けて前記記憶部に記憶することを特徴とする請求項1又は2に記載の音響処理装置。
- 前記動作データは、前記駆動部の動作状態を示すパラメータを複数個含む特徴ベクトルを示すことを特徴とし、
前記記憶部に記憶される複数の動作データが示す特徴ベクトル間の関係としてKD木を表す構造情報を構成する構成部を備え、
前記推定部は、前記構造情報を参照して前記動作データが表す特徴ベクトルとの距離に基づいて二分探索を行って前記記憶部から所定の個数の特徴ベクトルを選択することを特徴とする請求項1から請求項3のいずれか一項に記載の音響処理装置。 - 音響処理装置における音響処理方法であって、
自装置を組み込むロボットの駆動部の動作を検出する動作検出過程と、
入力された音響信号の音響特徴量に基づいて定常雑音成分の音響特徴量を推定する定常雑音推定過程と、
前記音響信号の音響特徴量から、前記定常雑音推定過程において推定された前記定常雑音成分の音響特徴量に基づいて前記定常雑音成分を除去した非定常成分の音響特徴量を算出する音響特徴量処理過程と、
前記音響信号が音声であるか音声以外の非音声であるかを判定する音声判定過程と、
前記音声判定過程において非音声であると判定されるとき、前記動作を表す動作データと前記非定常成分の音響特徴量とを記憶部に対応付けて記憶する更新過程と、
前記音声判定過程において音声であると判定されるとき、前記記憶部から前記動作データに対応する非定常成分の音響特徴量を取得する推定過程と、
前記定常雑音成分の音響特徴量と前記非定常成分の音響特徴量とを加算した雑音成分の音響特徴量を、前記音響信号の音響特徴量から減算して目標音響信号の音響特徴量を算出する減算過程と、
を有することを特徴とする音響処理方法。 - 音響処理装置のコンピュータに、
自装置を組み込むロボットの駆動部の動作を検出する動作検出手順、
入力された音響信号の音響特徴量に基づいて定常雑音成分の音響特徴量を推定する定常雑音推定手順、
前記音響信号の音響特徴量から、前記定常雑音推定手順において推定された前記定常雑音成分の音響特徴量に基づいて前記定常雑音成分を除去した非定常成分の音響特徴量を算出する音響特徴量処理手順、
前記音響信号が音声であるか音声以外の非音声であるかを判定する音声判定過程と、
前記音声判定過程において非音声であると判定されるとき、前記動作を表す動作データと前記非定常成分の音響特徴量とを記憶部に対応付けて記憶する更新手順、
前記音声判定過程において音声であると判定されるとき、前記記憶部から前記動作データに対応する非定常成分の音響特徴量を取得する推定手順、
前記定常雑音成分の音響特徴量と前記非定常成分の音響特徴量とを加算した雑音成分の音響特徴量を、前記音響信号の音響特徴量から減算して目標音響信号の音響特徴量を算出する減算手順、
を実行させるための音響処理プログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201161504755P | 2011-07-06 | 2011-07-06 | |
US61/504,755 | 2011-07-06 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013020252A JP2013020252A (ja) | 2013-01-31 |
JP6004792B2 true JP6004792B2 (ja) | 2016-10-12 |
Family
ID=47438672
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012150534A Expired - Fee Related JP6004792B2 (ja) | 2011-07-06 | 2012-07-04 | 音響処理装置、音響処理方法、及び音響処理プログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US8995671B2 (ja) |
JP (1) | JP6004792B2 (ja) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5904021B2 (ja) * | 2012-06-07 | 2016-04-13 | ソニー株式会社 | 情報処理装置、電子機器、情報処理方法、及びプログラム |
US10741194B2 (en) | 2013-04-11 | 2020-08-11 | Nec Corporation | Signal processing apparatus, signal processing method, signal processing program |
KR102109381B1 (ko) * | 2013-07-11 | 2020-05-12 | 삼성전자주식회사 | 전기기기 및 그 제어 방법 |
US9264809B2 (en) * | 2014-05-22 | 2016-02-16 | The United States Of America As Represented By The Secretary Of The Navy | Multitask learning method for broadband source-location mapping of acoustic sources |
KR101904423B1 (ko) * | 2014-09-03 | 2018-11-28 | 삼성전자주식회사 | 오디오 신호를 학습하고 인식하는 방법 및 장치 |
JP6261749B2 (ja) * | 2014-09-10 | 2018-01-17 | 三菱電機株式会社 | 雑音抑圧装置、雑音抑圧方法および雑音抑圧プログラム |
JP6301891B2 (ja) * | 2015-09-29 | 2018-03-28 | 日本電信電話株式会社 | 学習装置、識別装置、その方法、およびプログラム |
US11270717B2 (en) | 2019-05-08 | 2022-03-08 | Microsoft Technology Licensing, Llc | Noise reduction in robot human communication |
US20220335964A1 (en) * | 2019-10-15 | 2022-10-20 | Nec Corporation | Model generation method, model generation apparatus, and program |
CN115206323B (zh) * | 2022-09-16 | 2022-11-29 | 江门市鸿裕达电机电器制造有限公司 | 一种风扇语音控制系统的语音识别方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000222000A (ja) * | 1999-01-29 | 2000-08-11 | Canon Inc | 音声認識装置 |
JP3885002B2 (ja) * | 2002-06-28 | 2007-02-21 | キヤノン株式会社 | 情報処理装置およびその方法 |
US7840308B2 (en) * | 2004-09-10 | 2010-11-23 | Honda Motor Co., Ltd. | Robot device control based on environment and position of a movable robot |
JP4910293B2 (ja) * | 2005-02-16 | 2012-04-04 | カシオ計算機株式会社 | 電子カメラ、ノイズ低減装置及びノイズ低減制御プログラム |
JP4581789B2 (ja) * | 2005-03-30 | 2010-11-17 | 日産自動車株式会社 | 音声認識装置および方法 |
JP5555987B2 (ja) * | 2008-07-11 | 2014-07-23 | 富士通株式会社 | 雑音抑圧装置、携帯電話機、雑音抑圧方法及びコンピュータプログラム |
JP5535746B2 (ja) | 2009-05-22 | 2014-07-02 | 本田技研工業株式会社 | 音データ処理装置及び音データ処理方法 |
JP5310494B2 (ja) * | 2009-11-09 | 2013-10-09 | 日本電気株式会社 | 信号処理方法、情報処理装置、及び信号処理プログラム |
-
2012
- 2012-07-04 JP JP2012150534A patent/JP6004792B2/ja not_active Expired - Fee Related
- 2012-07-06 US US13/543,125 patent/US8995671B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2013020252A (ja) | 2013-01-31 |
US20130010974A1 (en) | 2013-01-10 |
US8995671B2 (en) | 2015-03-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6004792B2 (ja) | 音響処理装置、音響処理方法、及び音響処理プログラム | |
JP5411936B2 (ja) | 音声信号区間推定装置と音声信号区間推定方法及びそのプログラムと記録媒体 | |
JP5949550B2 (ja) | 音声認識装置、音声認識方法、及びプログラム | |
JP3836815B2 (ja) | 音声認識装置、音声認識方法、該音声認識方法をコンピュータに対して実行させるためのコンピュータ実行可能なプログラムおよび記憶媒体 | |
JP5842056B2 (ja) | 雑音推定装置、雑音推定方法、雑音推定プログラム及び記録媒体 | |
JP4586577B2 (ja) | 外乱成分抑圧装置、コンピュータプログラム、及び音声認識システム | |
JP5634959B2 (ja) | 雑音/残響除去装置とその方法とプログラム | |
JPH09258768A (ja) | 騒音下音声認識装置及び騒音下音声認識方法 | |
US7552049B2 (en) | Noise adaptation system of speech model, noise adaptation method, and noise adaptation program for speech recognition | |
JP4705414B2 (ja) | 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体 | |
JP5191500B2 (ja) | 雑音抑圧フィルタ算出方法と、その装置と、プログラム | |
JP2008145923A (ja) | 音声信号区間推定装置、その方法、そのプログラム及び記録媒体 | |
JP2014029407A (ja) | 雑音抑圧装置、方法、及びプログラム | |
Kumar | Performance measurement of a novel pitch detection scheme based on weighted autocorrelation for speech signals | |
JP4691079B2 (ja) | 音声信号区間推定装置、方法、プログラムおよびこれを記録した記録媒体 | |
JPH10133688A (ja) | 音声認識装置 | |
JP2006215228A (ja) | 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体 | |
JP6653687B2 (ja) | 音響信号処理装置、方法及びプログラム | |
JP2005321539A (ja) | 音声認識方法、その装置およびプログラム、その記録媒体 | |
JP4242320B2 (ja) | 音声認識方法、その装置およびプログラム、その記録媒体 | |
JP4762176B2 (ja) | 音声認識装置および音声認識プログラム | |
JP2004309959A (ja) | 音声認識装置および音声認識方法 | |
JP2024015817A (ja) | 閾値生成方法、閾値生成装置およびプログラム | |
JP2005195975A (ja) | 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体 | |
JP2015040931A (ja) | 信号処理装置、音声処理装置、信号処理方法および音声処理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20141127 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20151026 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20151104 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20151201 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160517 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160711 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160816 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160906 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6004792 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |