JP6004792B2 - 音響処理装置、音響処理方法、及び音響処理プログラム - Google Patents

音響処理装置、音響処理方法、及び音響処理プログラム Download PDF

Info

Publication number
JP6004792B2
JP6004792B2 JP2012150534A JP2012150534A JP6004792B2 JP 6004792 B2 JP6004792 B2 JP 6004792B2 JP 2012150534 A JP2012150534 A JP 2012150534A JP 2012150534 A JP2012150534 A JP 2012150534A JP 6004792 B2 JP6004792 B2 JP 6004792B2
Authority
JP
Japan
Prior art keywords
unit
acoustic feature
acoustic
sound
stationary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012150534A
Other languages
English (en)
Other versions
JP2013020252A (ja
Inventor
一博 中臺
一博 中臺
インジュ・ギョカン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Publication of JP2013020252A publication Critical patent/JP2013020252A/ja
Application granted granted Critical
Publication of JP6004792B2 publication Critical patent/JP6004792B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Manipulator (AREA)

Description

本発明は、音響処理装置、音響処理方法、及び音響処理プログラムに関する。
モータ等の動力源を備える機器、例えばロボット等は、動作に伴って動作音を発生させる。かかる機器に内蔵、または近傍に設置されるマイクロホンは、人間が発した音声等の目的音とともに機器の動作音を受信する。このような動作音を、自己雑音(ego−noise)という。このマイクロホンを用いて受信した目的音を利用するためには、機器の自己雑音を低減又は消去する必要がある。例えば、目的音に対して音声認識を行う際、自己雑音を低減しなければ所定の認識率を確保することができない。そこで、自己雑音を低減する技術が従来から提案されている。
例えば、特許文献1に記載の音データ処理装置では、機械装置の動作状態を取得し、取得された動作状態に対応する音データを取得し、単位時間における機器の種々の動作状態及び対応する音データをテンプレートとして記憶するデータベースから、取得された動作状態に最も近い動作状態のテンプレートの音データを検索し、取得された音データから取得された動作状態に最も近い動作状態のテンプレートの音データを減算して機械装置が発生するノイズを低減した出力を求める。
特開2010−271712号公報
しかしながら、特許文献1に記載の音データ処理装置では、事前に準備したテンプレートを用いる。周囲の雑音等、都度変化する様々な状況で雑音除去性能を確保するためには、多くのテンプレートが必要であった。他方、あらゆる状況に対応できるように数多くのテンプレートを準備することは現実的ではない。また、テンプレートが増加するほど処理時間が増大する。従って、限られた数のテンプレートを用いただけでは、雑音抑圧性能が確保できないという課題を生じていた。
本発明は上記の点に鑑みてなされたものであり、雑音抑圧性能を向上させる音響処理装置、音響処理方法、及び音響処理プログラムを提供する。
(1)本発明は上記の課題を解決するためになされたものであり、本発明の一態様は、自装置を組み込むロボットの駆動部の動作を検出する動作検出部と、入力された音響信号の音響特徴量に基づいて定常雑音成分の音響特徴量を推定する定常雑音推定部と、前記音響信号の音響特徴量から、前記定常雑音推定部が推定した前記定常雑音成分の音響特徴量に基づいて前記定常雑音成分を除去した非定常成分の音響特徴量を算出する音響特徴量処理部と、前記音響信号が音声であるか音声以外の非音声であるかを判定する音声判定部と、前記音声判定部が非音声であると判定するとき、前記動作を表す動作データと前記非定常成分の音響特徴量とを記憶部に対応付けて記憶する更新部と、前記音声判定部が音声であると判定するとき、前記記憶部から前記動作データに対応する非定常成分の音響特徴量を取得する推定部と、前記定常雑音成分の音響特徴量と前記非定常成分の音響特徴量とを加算した雑音成分の音響特徴量を、前記音響信号の音響特徴量から減算して目標音響信号の音響特徴量を算出する減算部と、を備えることを特徴とする音響処理装置である。
(2)本発明の他の態様は、上述の音響処理装置であって、前記更新部は、前記動作検出部が検出した動作を示す動作データに対応する非定常成分の音響特徴量を前記記憶部から選択し、前記選択した非定常成分の音響特徴量を、前記推定部が取得した非定常成分の音響特徴量重み付け加算した値に更新することを特徴とする。
(3)本発明の他の態様は、上述の音響処理装置であって、前記更新部は、前記動作検出部が検出した動作を示す動作データとの類似度が、前記記憶部に記憶された動作データのいずれに対しても、予め定めた類似度よりも類似していないことを示す場合、前記動作検出部が検出した動作を示す動作データと前記推定部が推定した非定常成分の音響特徴量を対応付けて前記記憶部に記憶することを特徴とする。
(4)本発明の他の態様は、上述の音響処理装置であって、前記動作データは、前記駆動部の動作状態を示すパラメータを複数個含む特徴ベクトルを示すことを特徴とし、前記記憶部に記憶される複数の動作データが示す特徴ベクトル間の関係としてKD木を表す構造情報を構成する構成部を備え、前記推定部は、前記構造情報を参照して前記動作データが表す特徴ベクトルとの距離に基づいて二分探索を行って前記記憶部から所定の個数の特徴ベクトルを選択することを特徴とする
(5)本発明の他の態様は、音響処理装置における音響処理方法であって、自装置を組み込むロボットの駆動部の動作を検出する動作検出過程と、入力された音響信号の音響特徴量に基づいて定常雑音成分の音響特徴量を推定する定常雑音推定過程と、前記音響信号の音響特徴量から、前記定常雑音推定過程において推定された前記定常雑音成分の音響特徴量に基づいて前記定常雑音成分を除去した非定常成分の音響特徴量を算出する音響特徴量処理過程と、前記音響信号が音声であるか音声以外の非音声であるかを判定する音声判定過程と、前記音声判定過程において非音声であると判定されるとき、前記動作を表す動作データと前記非定常成分の音響特徴量とを記憶部に対応付けて記憶する更新過程と、前記音声判定過程において音声であると判定されるとき、前記記憶部から前記動作データに対応する非定常成分の音響特徴量を取得する推定過程と、前記定常雑音成分の音響特徴量と前記非定常成分の音響特徴量とを加算した雑音成分の音響特徴量を、前記音響信号の音響特徴量から減算して目標音響信号の音響特徴量を算出する減算過程と、を有することを特徴とする音響処理方法である。
(6)本発明の他の態様は、音響処理装置のコンピュータに、自装置を組み込むロボットの駆動部の動作を検出する動作検出手順、入力された音響信号の音響特徴量に基づいて定常雑音成分の音響特徴量を推定する定常雑音推定手順、前記音響信号の音響特徴量から、前記定常雑音推定手順において推定された前記定常雑音成分の音響特徴量に基づいて前記定常雑音成分を除去した非定常成分の音響特徴量を算出する音響特徴量処理手順、前記音響信号が音声であるか音声以外の非音声であるかを判定する音声判定過程と、前記音声判定過程において非音声であると判定されるとき、前記動作を表す動作データと前記非定常成分の音響特徴量とを記憶部に対応付けて記憶する更新手順、前記音声判定過程において音声であると判定されるとき、前記記憶部から前記動作データに対応する非定常成分の音響特徴量を取得する推定手順、前記定常雑音成分の音響特徴量と前記非定常成分の音響特徴量とを加算した雑音成分の音響特徴量を、前記音響信号の音響特徴量から減算して目標音響信号の音響特徴量を算出する減算手順、を実行させるための音響処理プログラムである。
上述の態様によれば、更新された雑音成分の音響特徴量が雑音の除去に用いられるので、雑音除去性能が向上することができる。
上述の態様によれば、雑音の特性の変化に対する適応性と動作の安定性を両立させることができる。
上述の態様によれば、雑音の特性における急激な変動に対する適応性が向上する。
上述の態様によれば、非定常雑音の特性の変化に対する適応性が向上する。
上述の態様によれば、制御対象の機器に対する指示に基づいて、当該機器の動作によって生ずる自己雑音に対する適応性が向上する。
本発明の第1の実施形態に係る音響処理装置の構成を示す概略図である。 HRLE法を用いた定常雑音レベルの算出に係る処理を表すフローチャートである。 本実施形態に係る特徴ベクトルの探索処理を示すフローチャートである。 本実施形態に係るテンプレート更新処理を示すフローチャートである。 本実施形態に係る目標音響信号生成処理を示すフローチャートである。 本発明の第2の実施形態に係る音響処理装置の構成を示す概略図である。 本実施形態に係るテンプレート更新処理を示すフローチャートである。 推定誤差の一例を示す図である。 テンプレートの数の一例を示す図である。 原信号のスペクトログラムを示す図である。 定常雑音のスペクトログラムの一例を示す図である。 推定した雑音のスペクトログラムの一例を示す図である。 推定した雑音のスペクトログラムの他の例を示す図である。 実験結果の一例を示す表である。 実験結果の他の例を示す表である。
(第1の実施形態)
以下、図面を参照しながら本発明の第1の実施形態について詳しく説明する。
図1は、本実施形態に係る音響処理装置1の構成を示す概略図である。
音響処理装置1は、収音部11、動作検出部12、周波数領域変換部131、パワー算出部132、雑音推定部133、テンプレート記憶部134、減算部135、時間領域変換部136、テンプレート生成部138、テンプレート再構成部139及び出力部14を含んで構成される。
音響処理装置1は、テンプレート記憶部134において機器の動作を表す動作データとその動作におけるスペクトルとを対応付けて記憶し、雑音推定部133において入力された音響信号と入力された動作データに基づいて雑音のスペクトルを推定する。音響処理装置1は、減算部135において、入力された音響信号のスペクトルから推定した雑音のスペクトルを減算して推定目標スペクトルを算出する。そして、音響処理装置1は、算出した推定目標スペクトルに基づいて時間領域の目標音響信号を生成する。他方、音響処理装置1は、入力された音響信号が音声であるか音声以外の非音声であるかを判定し、入力された音響信号が非音声であると判定した場合、入力された音響信号のスペクトルに基づいて非定常雑音成分のスペクトルを算出する。音響処理装置1は、入力された動作データと非定常雑音成分の音響特徴量に基づいて、テンプレート記憶部134に記憶された音響特徴量を更新する。
収音部11は、受信した音波に基づいて電気信号である音響信号y(t)を生成し、生成した音響信号y(t)を周波数領域変換部131及びテンプレート生成部138に出力する。tは、時刻である。収音部11は、例えば、可聴帯域(20−20kHz)の音響信号を収録するマイクロホンである。
動作検出部12は、機器の動作を示す動作信号(動作データ)を生成し、生成した動作信号を雑音推定部133及びテンプレート生成部138に出力する。動作検出部12は、例えば、音響処理装置1を組み込んでいる機器、例えばロボットの動作信号を生成する。ここで、動作検出部12は、例えば、J個の(Jは、0よりも大きい整数、例えば、30)エンコーダ(位置センサ)を備え、各エンコーダは、機器が備える各モータ(駆動部)に取り付けられ、各関節の角度位置(angular position)θ(l)を計測する。jは、エンコーダのインデックスであって、0より大きくJと等しいかJより小さい整数である。lは、フレーム時刻を表すインデックスである。動作検出部12は、計測した角度位置(angular position)θ(l)の時間微分である角速度θ’(l)と、その時間微分である角加速度θ’’(l)を算出する。動作検出部12は、算出したエンコーダ毎の角度位置θ(l)、角速度θ’(l)、及び角加速度θ’’(l)をエンコーダ間で統合して、特徴ベクトルF(l)を構成する。特徴ベクトルF(l)は、[θ(l),θ’(l), θ’(l),θ(l),θ’(l),θ’(l),…,θ(l),θ’(l), θ’(l))]と動作の状態を示す3J次元のベクトルである。動作検出部12は、構成した特徴ベクトルF(l)を示す動作信号を生成する。
周波数領域変換部131は、収音部11から入力され、時間領域で表された音響信号y(t)を、周波数領域で表された複素入力スペクトル(complex input spectrum)Y(k,l)に変換する。kは、周波数を表すインデックス(frequency bin)である。ここで、周波数領域変換部131は、音響信号に対して、例えば、式(1)を用いてフレームl毎に離散フーリエ変換(Discrete Fourier Transform、DFT)を行う。
w(t)は、窓関数(window function)、例えばハミング窓(hamming window)である。Wは、窓長(window length)を示す整数である。Mは、シフト長(shift length)、即ち、処理対象となるフレームを一度に移動させるサンプル数である。
周波数領域変換部131は、変換した複素入力スペクトルY(k,l)をパワー算出部132及び減算部135に出力する。
パワー算出部132は、周波数領域変換部131から入力された複素入力スペクトルY(k,l)のパワースペクトル|Y(k,l)|を算出する。ここで、|…|は、複素数…の絶対値を示す。パワー算出部132は、算出したパワースペクトル|Y(k,l)|を減算部135及び雑音推定部133に出力する。
雑音推定部133は、定常雑音推定部1331、テンプレート推定部1332及び加算部1333を含んで構成される。
定常雑音推定部1331は、パワー算出部132から入力されたパワースペクトル|Y(k,l)|を再帰的に(recursively)平均する。これにより、定常雑音推定部1331は、雑音の定常成分(stationary portion)のパワースペクトルλSNE(k,l)を算出する。
以下の説明では、このパワースペクトルλSNE(k,l)を定常成分のパワースペクトルλSNE(k,l)又は定常雑音レベルλSNE(k,l)と呼ぶことがある。ここで、定常雑音推定部1331は、例えば、HRLE(Histogram−based Recursive Level Estimation)法を用いて定常雑音レベルλSNE(k,l)を算出する。HRLE法では、対数領域におけるパワースペクトル|Y(k,l)|のヒストグラム(頻度分布)を算出し、その累積分布と予め定めた累積頻度(百分位数、percentile)x(例えば、50%)に基づいて定常雑音レベルλSNE(k,l)を算出する。HRLE法を用いて定常雑音レベルλSNE(k,l)を算出する処理については後述する。
定常雑音推定部1331は、HRLE法に限らず、MCRA(Minima−Controlled Recursive Average)法等、他の方法を用いて定常雑音レベルλSNE(k,l)を算出してもよい。定常雑音推定部1331は、算出した定常雑音レベルλSNE(k,l)を加算部1333に出力する。
テンプレート推定部1332は、動作検出部12から入力された動作信号に基づいて非定常成分(non−stationary portion、非定常雑音成分)のパワースペクトルλTE(k,l)を推定し、推定した非定常成分のパワースペクトルλTE(k,l)を加算部1333へ出力する。
以下の説明では、非定常成分のパワースペクトルλTE(k,l)を非定常雑音レベルと呼ぶことがある。ここで、テンプレート推定部1332は、入力された動作信号が表す特徴ベクトルF(l)に基づいて、テンプレート記憶部134に記憶されている特徴ベクトルF’(l)を選択する。テンプレート記憶部134には、後述するように、特徴ベクトルF’(l)と雑音スペクトルベクトル|N’(k,l)|とが対応付けて記憶されている。以下の説明では、特徴ベクトルF’(l)と、これに対応付けられた雑音スペクトルベクトル|N’(k,l)|との組をテンプレート(template)と呼ぶ。テンプレート推定部1332が特徴ベクトルF’(l)を選択する処理について後述する。
なお、テンプレート推定部1332は、テンプレート記憶部134に記憶された特徴ベクトルF’(l)を総当りで探索(exhaustive key search)してもよいが、二分探索(binary search)を用いてもよい。二分探索を用いる場合には、特徴ベクトルF’(l)間において、KD木(KD tree、K−Dimensional tree)が構成されるようにしておく。テンプレート推定部1332は、二分探索を用いることで、総当りでの探索よりも格段に処理量を低減することができる。KD木及び二分探索については、後述する。
なお、距離がn(nは1よりも大きい整数)番目に小さい特徴ベクトルF’(l)を選択するためには、テンプレート推定部1332は、1〜n−1番目にユークリッド距離が小さい特徴ベクトルF’(l)を選択対象から除外して、上述の探索を行えばよい。
加算部1333には、テンプレート生成部138から音声判定信号が入力される。音声判定信号は、入力された音響信号が音声であるか(speech)、非音声であるか(non−speech)を示す信号である。音声判定信号が音声であることを示す場合、加算部1333は、定常雑音推定部1331から入力された定常雑音レベルλSNE(k,l)とテンプレート推定部1332から入力された非定常成分のパワースペクトルλTE(k,l)を加算する。加算部1333は、加算して生成した雑音パワースペクトルλtot(k,l)を減算部135に出力する。
音声判定信号が非音声であることを示す場合、加算部1333は、定常雑音推定部1331から入力された定常雑音レベルλSNE(k,l)を雑音パワースペクトルλtot(k,l)として減算部135に出力する。
減算部(音声特徴量処理部)135は、利得算出部1351及びフィルタ部1352を含んで構成される。減算部135では、以下に説明するようにパワースペクトル|Y(k,l)|から雑音パワースペクトルλtot(k,l)を減算することによって、雑音成分 を除去した音声のスペクトル(推定目標スペクトル)を推定する。
利得算出部1351は、パワー算出部132から入力されたパワースペクトル|Y(k,l)|と加算部1333から入力された雑音パワースペクトルλtot(k,l)とに基づいて、利得GSS(k,l)を、例えば式(2)を用いて算出する。
式(2)において、max(α,β)は、実数αとβのうち大きいほうの数を与える関数を示す。βは、予め定めた最小値を示す床係数(flooring parameter)である。ここで、関数maxの左辺は、フレームlにおける周波数kに係る、雑音が除去されたパワースペクトルの、雑音が除去されていないパワースペクトルの割合に対する平方根を示す。利得算出部1351は、算出した利得GSS(k,l)をフィルタ部1352に出力する。
フィルタ部1352は、周波数領域変換部131から入力された複素入力スペクトルY(k,l)に利得算出部1351から入力された利得GSS(k,l)を乗算して推定目標スペクトル(estimated target spectrum)X’(k,l)を算出する。つまり、推定目標スペクトルX’(k,l)は、入力された複素入力スペクトルY(k,l)から雑音スペクトルが減算された複素スペクトルを示す。フィルタ部1352は、算出した推定目標スペクトルX’(k,l)を時間領域変換部136及びテンプレート生成部138に出力する。
時間領域変換部(音声算出部)136は、フィルタ部1352から入力された推定目標スペクトルX’(k,l)を時間領域の目標音響信号x’(t)に変換する。ここで、時間領域変換部136は、フレームl毎に推定目標スペクトルX’(k,l)に対して、例えば逆離散フーリエ変換(Inverse Discrete Fourier Transform、IDFT)を行って、目標音響信号x’(t)を算出する。時間領域変換部136は、変換した目標音響信号x’(t)を出力部14に出力する。つまり、推定目標スペクトルX’(k,l)は目標音響信号x’(t)のスペクトルである。
出力部14は、時間領域変換部136から入力された目標音響信号x’(t)を音響処理装置1の外部に出力する。
テンプレート生成部138は、音声判定部1381、パワー算出部1382及びテンプレート更新部1383を含んで構成される。
音声判定部1381は、収音部11から入力された音響信号y(t)に対して音声区間検出(Voice Activity Detection;VAD)を行う。音声判定部1381は、音声区間検出を有音区間毎に行う。有音区間は、音響信号の振幅の立ち上がり(onset)から立ち下り(decay)に挟まれる区間である。立ち上がりとは、無音区間の後、音響信号のパワーが予め定めたパワーよりも大きくなる部分である。立ち下がりとは、無音区間の前に、音響信号のパワーが予め定めたパワーよりも小さくなる部分である。音声判定部1381は、例えば、ある時間間隔(例えば、10ms)毎のパワー値が、その直前において予め定めたパワー閾値よりも小さく、現在においてそのパワー閾値を上回る場合に、立ち上がりと判定する。これに対して、音声判定部1381は、パワー値が、その直前において予め定めたパワー閾値よりも大きく、現在においてそのパワー閾値よりも小さい場合に、立ち下がりと判定する。
音声判定部1381は、単位時間当りの(例えば、10ms)の零交差数(number of zero crossings)が、予め定めた数を越えたとき、音声区間であると判定する。零交差数とは、音響信号の振幅値が零を跨ぐ回数、即ち、負値から正値、又は正値から負値に変化する回数である。音声判定部1381は、零交差数が、予め定めた数を下回る場合、非音声区間であると判定する。音声判定部1381は、音声区間であると判定したとき、音声であることを示す音声判定信号を生成する。音声判定部1381は、非音声区間であると判定したとき、非音声であることを示す音声判定信号を生成する。音声判定部1381は、生成した音声判定信号を加算部1333及びパワー算出部1382に出力する。なお、非音声区間であると判定された場合、収音部11が収録する音響信号において、機器が発する自己雑音の成分が主である。
パワー算出部1382には、音声判定部1381から音声判定信号が入力され、フィルタ部1352から推定目標スペクトルX’(k,l)が入力される。音声判定信号が非音声を示す場合、入力された推定目標スペクトルX’(k,l)は、雑音から定常雑音成分が除去された非定常成分N’(k,l)である。その場合、パワー算出部1382は、非定常成分N’(k,l)のパワースペクトル|N’(k,l)|を算出し、算出したパワースペクトル|N’(k,l)|を非定常成分のパワースペクトルλTE(k,l)としてテンプレート更新部1383に出力する。
なお、パワー算出部1382は、音声判定部1381から入力された音声判定信号が音声であることを示す場合には、パワースペクトル|N’(k,l)|を出力しない。
テンプレート更新部1383には、動作検出部12から入力された動作信号と、パワー算出部1382から入力された非定常成分のパワースペクトルλTE(k,l)に基づいて、テンプレート記憶部134に記憶されたテンプレートを更新する。テンプレート更新部1383が、テンプレートを更新する処理については、後述する。
テンプレート再構成部139は、テンプレート記憶部134に記憶されたテンプレート毎の特徴ベクトルF’(l)について、予め定めた時間間隔τ毎にKD木を再構成する。再構成によって、KD木が有する再帰的な構造を回復するようにして、特徴ベクトルF’(l)の探索時間が増加することを防止する。KD木のテンプレートの再構成は、フレームl毎に行ってもよいが、τはフレーム間隔よりも長い時間間隔、例えば、50[ms]でもよい。これにより、テンプレートの更新による処理量の増加を抑制することができる。なお、テンプレート推定部1332及びテンプレート更新部1383が二分探索法を用いずに、例えば総当りで特徴ベクトルF’(l)を探索する場合には、テンプレート再構成部139を省略してもよい。
(定常雑音レベルを算出する処理)
次に、定常雑音推定部1331がHRLE法を用いて定常雑音レベルλSNE(k,l)の算出する処理について説明する。
図2は、HRLE法を用いた定常雑音レベルλSNE(k,l)の算出に係る処理を表すフローチャートである。
(ステップS101)定常雑音推定部1331は、パワースペクトル|Y(k,l)|に基づき対数スペクトルY(k,l)を算出する。ここで、Y(k,l)=20log10|Y(k,l)|である。その後、ステップS102に進む。
(ステップS102)定常雑音推定部1331は、算出した対数スペクトルY(k,l)が属する階級(bin)I(k,l)を定める。ここで、I(k,l)=floor(Y(k,l)−Lmin)/Lstepである。floor(…)は、実数…、又は…よりも小さい最大の整数を与える床関数(floor function)である。Lmin、Lstepは、それぞれ予め定めた最小レベル、階級毎のレベルの幅である。その後、ステップS103に進む。
(ステップS103)定常雑音推定部1331は、現フレームlにおける階級I(k,l)に対する度数N(k,l)を累積する。ここで、N(k,l,i)=αN(k,l−1,i)+(1−α)δ(i−I(k,l))である。αは、時間減衰係数(time decay parameter)である。α=1−1/(T・F)である。Tは、予め定めた時定数(time constant)であり、Fは、サンプリング周波数である。δ(…)は、ディラックのデルタ関数(Dirac’s delta function)である。即ち、度数N(k,l,i)は、前フレームl−1における階級I(k,l)に対する度数N(k,l−1,i)にαを乗じて減衰させた値に、1−αを加算して得られる。その後、ステップS104に進む。
(ステップS104)定常雑音推定部1331は、最下位の階級0から階級iまで度数N(k,l,i’)を加算して、累積度数S(k,l,i)を算出する。その後、ステップS105に進む。
(ステップS105)定常雑音推定部1331は、累積頻度xに対応する累積度数S(k,l,Imax)・x/100に最も近似する累積度数S(k,l,i)を与える階数iを、推定階数I(k,l)として定める。即ち、推定階数I(k,l)は、累積度数S(k,l,i)との間で次の関係がある。I(k,l)=arg min[S(k,l,Imax)・x/100−S(k,l,I)]その後、ステップS106に進む。
(ステップS106)定常雑音推定部1331は、推定階数I(k,l)を対数レベルλHRLE(k,l)に換算する。ここで、λHRLE(k,l)=Lmin+Lstep・I(k,l)である。そして、対数レベルλHRLE(k,l)を、線形領域に変換して定常雑音レベルλSNE(k,l)を算出する。即ち、λSNE(k,l)=10(λSNE(k,l)/20)である。その後、処理を終了する。
(特徴ベクトルを選択する処理)
次に、テンプレート推定部1332は、特徴ベクトルF’(l)を選択する処理について説明する。
テンプレート推定部1332は、例えば、最近傍探索法(nearest neighbor search algorithm)を用いて、特徴ベクトルF’(l)を選択する。最近傍探索法では、入力された特徴ベクトルF(l)と記憶されている特徴ベクトルF’(l)との間の類似度を表す指標値として、ユークリッド距離(Euclidean distance)d(F(l),F’(l))を算出する。ユークリッド距離d(F(l),F’(l))は、式(3)で表される。
式(3)において、F(l)、F’(l)は、それぞれ特徴ベクトルF(l)、F’(l)の第j番目の要素値を示す。テンプレート推定部1332は、ユークリッド距離d(F(l),F’(l))が最小となる特徴ベクトルF’(l)を選択し、選択した特徴ベクトルF’(l)に対応する雑音スペクトルベクトル|N’(k,l)|をテンプレート記憶部134から読み出す。テンプレート推定部1332は、読み出した雑音スペクトルベクトル|N’(k,l)|を非定常成分のパワースペクトルλTE(k,l)として加算部1333へ出力する。
テンプレート推定部1332は、テンプレート記憶部134に記憶された特徴ベクトルF’(l)を選択する際、例えば、k近傍法(k−nearest neighbor algorithm、k−NN)を用いてもよい。ここで、テンプレート推定部1332は、入力された特徴ベクトルF(l)と記憶された特徴ベクトルF’(l)毎のユークリッド距離d(F(l),F’(l))を算出する。テンプレート推定部1332は、ユークリッド距離d(F(l),F’(l))が最小となる特徴ベクトルF’(l)からK(Kは、1よりも大きい整数)番目に小さい特徴ベクトルF’(l)まで選択する。テンプレート推定部1332は、選択されたK個の特徴ベクトルF’(l)〜F’(l)のパワースペクトルλ TE〜λ TEを算出し、式(4)に示すように算出したパワースペクトルλ TE〜λ TEの重み付き平均値λ’’TE(k,l)を算出する。
式(4)において、wは、n番目のパワースペクトルλ TEに対する重み係数である。重み係数wは、式(5)で表される。
即ち、重み係数wは、対応する特徴ベクトルF’(l)に係るユークリッド距離d(F(l),F’(l))の逆数を、その総和Σn=1 が1となるように定められる。式(5)に示される重み係数wを用いた重み付き平均を距離逆数重み付け平均(Inverse Distance Weighted Average、IDWA)という。これにより、入力された特徴ベクトルF(l)に近似する特徴ベクトルF’(l)に係るパワースペクトルλTEほど大きい重み係数が与えられる。
テンプレート推定部1332は、算出した重み付き平均値λ’’TE(k,l)を非定常成分のパワースペクトルλTE(k,l)として加算部1333へ出力する。
(KD木)
次に、KD木について説明する。KD木とは、多次元のユークリッド空間にある点(この例では、特徴ベクトルF’(l))を分類する空間分割データ構造である。KD木では、例えば、特徴ベクトルF’(l)の次元毎の中央値が選択され、その中央値を通過しその次元の座標軸に垂直な平面を分割平面として定められている。即ち、KD木では、次のような再帰的な構造を有する。
(1)ある次元nにおける中央値(median)をとる特徴ベクトルF’(l)を根ノード(root node、親ノード、parent nodeとも呼ばれる)と定められている。その次元nにおいて中央値よりも大きい値をとる特徴ベクトルF’(l)と、中央値よりも小さい値をとる特徴ベクトルF’(l)がそれぞれ葉ノード(leaf node、子ノードchild nodeとも呼ばれる)として分類される。
(2)その次元において、中央値よりも大きい値をとる葉ノードの候補と、中央値よりも小さい値をとる葉ノードの候補それぞれについて、他の次元n’(例えば、次元+1)において中央値をとる特徴ベクトルF’(l)を根ノードと定める。即ち、次元n’について、それぞれ定められた根ノードが、次元nにおける根ノードに対する葉ノードとなる。
(3)葉ノードの候補がなくなるまで、処理対象の次元を変更して(1)、(2)が順次繰り返される。
従って、出発点である根ノード(例えば、第1次元)から末端の葉ノードまでの各ノードには、それぞれ1つの特徴ベクトルF’(l)が対応付けられる。また、ある根ノードについては、原則として2個の葉ノードを有する。また、末端の葉ノードとは、自ノードに対する葉ノードを有しないノードである。
この対応関係を表す情報として、出発点である根ノード、次元ごとの根ノード並びに葉ノードにそれぞれ対応する特徴ベクトルF’(l)を示すインデックスを示す構造情報が、KD木の構成要素を示す情報としてテンプレート記憶部134に記憶されている。
(二分探索法)
次に、テンプレート推定部1332は、二分探索法を用いて特徴ベクトルF’(l)を探索する処理について説明する。
図3は、本実施形態に係る特徴ベクトルF’(l)の探索処理を示すフローチャートである。
(ステップS201)テンプレート推定部1332は、予め定めた出発点である根ノードを設定する。その後、ステップS202に進む。
(ステップS202)テンプレート推定部1332は、根ノードの特徴ベクトルF’(l)に係るユークリッド距離d(F(l),F’(l))、(以下、単に距離と呼ぶ)を算出する。その後、ステップS203に進む。
(ステップS203)テンプレート推定部1332は、その根ノードに対する葉ノードそれぞれについて距離を算出する。その後、ステップS204に進む。
(ステップS204)テンプレート推定部1332は、距離が小さいほうの葉ノードを選択し、選択した葉ノードが末端の葉ノードであるか否か判断する。選択した葉ノードが末端の葉ノードである場合には(ステップS204 YES)、ステップS206に進む。選択した葉ノードが末端の葉ノードでない場合には(ステップS204 NO)、ステップS205に進む。
(ステップS205)テンプレート推定部1332は、選択した葉ノードを根ノードと定める。その後、ステップS202に進む。
(ステップS206)テンプレート推定部1332は、根ノードに対する距離が、その葉ノードに対する距離よりも大きいか否か判断する。これにより、他の葉ノードを探索対象から除外するか否かを判断する。葉ノードに対する距離のほうが大きいと判断された場合には(ステップS206 YES)、テンプレート推定部1332は、その根ノードを葉ノードと定め、ステップS206を繰り返す。葉ノードに対する距離が根ノードに対する距離と等しいか又は小さいと判断された場合には(ステップS206 NO)、ステップS207に進む。
(ステップS207)テンプレート推定部1332は、その根ノードに係る他方の葉ノードであって未処理の葉ノードの有無を判断する。かかる葉ノードがあると判断された場合には(ステップS207 YES)、ステップS208に進む。かかる葉ノードがないと判断された場合には(ステップS207 NO)、ステップS209に進む。
(ステップS208)テンプレート推定部1332は、その他方の葉ノードを、出発点である根ノードと定め、ステップS202に進む。
(ステップS209)テンプレート推定部1332は、算出した距離が最小となる特徴ベクトルF’(l)を選択する。その後、処理を終了する。
(テンプレートを更新する処理)
次に、テンプレートを更新する処理について説明する。テンプレート更新部1383は、入力された動作信号が表す特徴ベクトルF(l)に基づいて、テンプレート記憶部134に記憶されている特徴ベクトルF’(l)を選択する。ここで、テンプレート更新部1383は、例えば、特徴ベクトルF(l)とのユークリッド距離d(F(l),F’(l))が最も小さい特徴ベクトルF’(l)を、上述の探索方法を用いて選択する。以下では、選択した特徴ベクトルF’(l)に係るユークリッド距離を最小距離dmin(F(l),F’(l))と呼ぶ。
テンプレート更新部1383は、最小距離dmin(F(l),F’(l))が予め定めた距離の閾値Tと等しいか、又は閾値Tよりも大きいか否かを判断する。最小距離dmin(F(l),F’(l))が閾値Tと等しいか、又は閾値Tよりも大きいと判断された場合、テンプレート更新部1383は、入力された動作信号が示す特徴ベクトルF(l)と入力されたパワースペクトルλTE(k,l)の組を対応付け、新たなテンプレートを生成する。テンプレート更新部1383は、生成したテンプレートをテンプレート記憶部134に記憶する。
最小距離dmin(F(l),F’(l))が閾値Tよりも小さいと判断された場合、テンプレート更新部1383は、選択した特徴ベクトルF’(l)に対応するパワースペクトルλ’TE(k,l−1)をテンプレート記憶部134から読み出す。以下、読み出したパワースペクトルλ’TE(k,l)を記憶されたパワースペクトルλ’TE(k,l−1)と呼ぶことがある。テンプレート更新部1383は、式(6)に示すように記憶されたパワースペクトルλ’TE(k,l−1)と入力されたパワースペクトルλTE(k,l)とを、それぞれ係数η、(1−η)で重み付け加算して更新パワースペクトルλTE(k,l)を算出する。これにより、適応性(adaptability)、即ち、学習性能(learning quality)と安定性(stability)、即ち、誤りへの耐性(robustness against errors)とのバランスをとることができる。
係数ηは、忘却係数(forgetting parameter)と呼ばれる。係数ηは、0より大きく1より小さい実数、例えば、0.9である。テンプレート更新部1383は、適応性を重視する場合には、より小さい係数ηを用い、安定性を重視する場合には、より大きい係数ηを用いる。テンプレート更新部1383は、算出した更新パワースペクトルλTE(k,l)を、読み出したパワースペクトルλ’TE(k,l−1)に係る特徴ベクトルF’(l)と対応づけてテンプレート記憶部134に記憶する。
(テンプレート更新処理)
次に本実施形態に係るテンプレート更新処理について説明する。
図4は、本実施形態に係るテンプレート更新処理を示すフローチャートである。
(ステップS301)周波数領域変換部131は、収音部11から入力された音響信号y(t)を、周波数領域で表された複素入力スペクトルY(k,l)に変換する。周波数領域変換部131は、変換した複素入力スペクトルY(k,l)をパワー算出部132及び減算部135に出力する。その後、ステップS302に進む。
(ステップS302)パワー算出部132は、周波数領域変換部131から入力された複素入力スペクトルY(k,l)のパワースペクトル|Y(k,l)|を算出する。パワー算出部132は、算出したパワースペクトル|Y(k,l)|を利得算出部1351及び定常雑音推定部1331に出力する。その後、ステップS303に進む。
(ステップS303)定常雑音推定部1331は、パワー算出部132から入力されたパワースペクトル|Y(k,l)|に基づいて、例えばHRLE法を用いて定常雑音レベルλSNE(k,l)を算出する。定常雑音推定部1331は、算出した定常雑音レベルλSNE(k,l)を加算部1333に出力する。その後、ステップS304に進む。
(ステップS304)音声判定部1381は、収音部11から入力された音響信号y(t)に対して音声区間であるか否かを判定する。音声区間であると判定された場合(ステップS304 YES)、音声判定部1381は、音声であることを示す音声判定信号を生成し、生成した音声判定信号を加算部1333及びパワー算出部1382に出力する。その後、ステップS320に進む。非音声区間であると判定された場合(ステップS304 NO)、音声判定部1381は、非音声であることを示す音声判定信号を生成し、生成した音声判定信号を加算部1333及びパワー算出部1382に出力する。その後、ステップS305に進む。
(ステップS305)利得算出部1351は、パワー算出部132から入力されたパワースペクトル|Y(k,l)|と加算部1333から入力された雑音パワースペクトルλtot(k,l)とに基づいて、利得GSS(k,l)を、例えば式(2)を用いて算出する。
利得算出部1351は、算出した利得GSS(k,l)をフィルタ部1352に出力する。その後、ステップS306に進む。
(ステップS306)フィルタ部1352は、周波数領域変換部131から入力された複素入力スペクトルY(k,l)に利得算出部1351から入力された利得GSS(k,l)を乗算して推定目標スペクトルX’(k,l)を算出する。フィルタ部1352は、算出した推定目標スペクトルX’(k,l)を時間領域変換部136及びパワー算出部1382に出力する。その後、ステップS307に進む。
(ステップS307)パワー算出部1382には、音声判定部1381から非音声であることを示す音声判定信号が入力され、フィルタ部1352から推定目標スペクトルX’(k,l)が入力される。この場合、入力された推定目標スペクトルX’(k,l)は、雑音から定常雑音成分が除去された非定常成分N’(k,l)である。パワー算出部1382は、非定常成分N’(k,l)のパワースペクトル|N’(k,l)|を算出し、算出したパワースペクトル|N’(k,l)|をテンプレート更新部1383に出力する。その後、ステップS308に進む。
(ステップS308)テンプレート更新部1383には、動作検出部12から動作信号が入力され、パワー算出部1382からパワースペクトル|N’(k,l)|が非定常成分のパワースペクトルλTE(k,l)として入力される。テンプレート更新部1383は、入力された動作信号が表す特徴ベクトルF(l)に基づいて、最小距離dmin(F(l),F’(l))を与える特徴ベクトルF(l)を探索する。その後、ステップS309に進む。
(ステップS309)テンプレート更新部1383は、最小距離dmin(F(l),F’(l))が予め定めた距離の閾値Tと等しい、もしくは閾値Tよりも大きいか否かを判断する。最小距離dmin(F(l),F’(l))が閾値Tと等しい、又は閾値Tよりも大きいと判断された場合(ステップS309 YES)、ステップS310に進む。最小距離dmin(F(l),F’(l))が閾値Tよりも小さいと判断された場合(ステップS309 NO)、ステップS311に進む。
(ステップS310)テンプレート更新部1383は、入力された動作信号が示す特徴ベクトルF(l)と入力されたパワースペクトルλTE(k,l)の組を対応付けたテンプレートをテンプレート記憶部134に記憶する(テンプレート追加)。その後、ステップS312に進む。
(ステップS311)テンプレート更新部1383は、選択した特徴ベクトルF’(l)に対応するパワースペクトルλ’TE(k,l−1)をテンプレート記憶部134から読み出す。テンプレート更新部1383は、例えば、式(6)を用いて読み出したパワースペクトルλ’TE(k,l−1)と入力されたパワースペクトルλTE(k,l)とを、それぞれ係数η、(1−η)で重み付け加算して更新パワースペクトルλTE(k,l)を算出する。テンプレート更新部1383は、算出した更新パワースペクトルλTE(k,l)を、読み出したパワースペクトルλ’TE(k,l−1)に係る特徴ベクトルF’(l)と対応づけてテンプレート記憶部134に記憶する(テンプレート更新)。その後、ステップS312に進む。
(ステップS312)テンプレート再構成部139は、直近に特徴ベクトルF’(l)のKD木を再構成した時点からの経過時間tが予め定めた時間間隔τを経過したか否か判断する。時間間隔τを経過したと判断された場合(ステップS312 YES)、ステップS313に進む。時間間隔τを経過していないと判断された場合(ステップS312 NO)、処理を終了する。
(ステップS313)テンプレート再構成部139は、テンプレート記憶部134に記憶された特徴ベクトルF’(l)のKD木を再構成する。その後、処理を終了する。
(ステップS320)音響処理装置1は目標音響信号を生成し、その後、処理を終了する。
(目標音響信号生成処理)
次に、音響処理装置1が、目標音響信号を生成する処理(ステップS320)について述べる。
図5は、本実施形態に係る目標音響信号を生成する処理を示すフローチャートである。
(ステップS321)加算部1333には、音声判定部1381から音声であることを示す音声判定信号が入力され、定常雑音レベル(定常成分)λSNE(k,l)と非定常成分のパワースペクトルλTE(k,l)を加算する。加算部1333は、加算して生成した雑音パワースペクトルλtot(k,l)を利得算出部1351に出力する。
なお、パワー算出部1382にも、音声判定部1381から音声であることを示す音声判定信号が入力され、パワースペクトル|N’(k,l)|をテンプレート更新部1383に出力しない。従って、ステップS308−311の処理は行われない。
その後、ステップS322に進む。
(ステップS322)利得算出部1351は、パワー算出部132から入力されたパワースペクトル|Y(k,l)|と加算部1333から入力された雑音パワースペクトルλtot(k,l)とに基づいて、例えば式(2)を用いて利得GSS(k,l)を算出する。その後、ステップS323に進む。
(ステップS323)フィルタ部1352は、周波数領域変換部131から入力された複素入力スペクトルY(k,l)に利得算出部1351から入力された利得GSS(k,l)を乗算して推定目標スペクトルX’(k,l)を算出する。これにより、パワースペクトル|Y(k,l)|から雑音パワースペクトルλtot(k,l)を減算する。フィルタ部1352は、算出した推定目標スペクトルX’(k,l)を時間領域変換部136に出力する。その後、ステップS324に進む。
(ステップS324)時間領域変換部136は、フィルタ部1352から入力された推定目標スペクトルX’(k,l)を時間領域の目標音響信号x’(t)に変換し、変換した目標音響信号x’(t)を出力部14に出力する。出力部14は、時間領域変換部136から入力された目標音響信号x’(t)を音響処理装置1の外部に出力する。その後、処理を終了する。
以上に説明したように、本実施形態では、入力された音響信号が非音声であると判定された場合、入力された動作情報が示す特徴ベクトルと非定常雑音成分のパワースペクトルに基づいて、テンプレート記憶部134に記憶されたパワースペクトルを更新する。
これにより、テンプレート記憶部134に記憶されたパワースペクトルが雑音の非定常性に適応して更新され、更新されたパワースペクトルが非定常雑音の減算に用いられる。そして、本実施形態では、更新したパワースペクトルを用いることで非定常雑音が抑圧される。本実施形態では、初期状態においてテンプレート記憶部134に多数のテンプレートを記憶させず、例えばモータや可動部が経年変化することにより雑音の特性が変動した場合でも、雑音を効果的に抑圧することができる。
(第2の実施形態)
次に本発明の第2の実施形態について、上述の実施形態と同一構成又は処理と同一の符号を付して説明する。
図6は、本実施形態に係る音響処理装置2の構成を示す概略図である。
音響処理装置2は、収音部11、動作検出部12、周波数領域変換部131、パワー算出部132、雑音推定部233、テンプレート記憶部134、減算部135、時間領域変換部136、テンプレート生成部238、及び出力部14を含んで構成される。即ち、音響処理装置2は音響処理装置1(図1)の雑音推定部133及びテンプレート生成部138の代わりに、それぞれ雑音推定部233及びテンプレート生成部238を備える。
雑音推定部233は、定常雑音推定部1331、テンプレート推定部2332及び加算部1333を含んで構成される。即ち、雑音推定部233は、雑音推定部133のテンプレート推定部1332(図1)の代わりにテンプレート推定部2332を備える。
テンプレート生成部238は、音声判定部1381、パワー算出部1382及びテンプレート更新部2383を含んで構成される。即ち、テンプレート生成部238は、テンプレート生成部138(図1)のテンプレート更新部1383の代わりにテンプレート更新部2383を備える。
テンプレート推定部2332及びテンプレート更新部2383は、テンプレート推定部1332及びテンプレート更新部1383と同様な構成を備え、同様な処理を行う。
但し、テンプレート更新部2383は、さらに、テンプレート記憶部134に記憶されているテンプレートのうち、予め定めた時間t’以上、使用されていないテンプレートを削除する。使用されたテンプレートとは、テンプレート推定部2332が、入力された特徴ベクトルF(l)とのユークリッド距離d(F(l),F’(l))が最小の特徴ベクトルF’(l)に係るテンプレートである。テンプレート推定部2332において上述のK−NN法が採用されている場合には、そのユークリッド距離d(F(l),F’(l))が第1番目から第K番目に小さい特徴ベクトルF’(l)に係るテンプレートである。
そこで、テンプレート更新部2383は、追加又は更新したテンプレートをテンプレート記憶部134に記憶する際、その時刻を示す時刻情報を、そのテンプレートと対応付けて記憶する。
他方、テンプレート推定部2332は、上述のユークリッド距離d(F(l),F’(l))が最小の特徴ベクトルF’(l)を定めたとき、その時刻を示す時刻情報を生成する。テンプレート推定部2332は、その特徴ベクトルF’(l)に係るテンプレートと対応付けてテンプレート記憶部134に記憶された時刻情報を、生成した時刻情報に更新する。上述のK−NN法が採用されている場合には、テンプレート推定部2332が、上述のユークリッド距離d(F(l),F’(l))が第1番目から第K番目に小さい特徴ベクトルF’(l)にかかるテンプレート対応した時刻情報を、生成した時刻情報に更新する。
テンプレート更新部2383は、テンプレート記憶部134に記憶された時刻情報が示す時刻から現時刻までの経過時間が所定時間t’よりも大きい経過時間に対応するテンプレートを、予め定めた時間間隔(例えば、フレーム間隔)で探索する。テンプレート更新部2383は、かかるテンプレートが発見されたとき、発見されたテンプレートをテンプレート記憶部134から消去する。
次に本実施形態に係るテンプレート更新処理について説明する。
図7は、本実施形態に係るテンプレート更新処理を示すフローチャートである。
本実施形態に係るテンプレート更新処理は、ステップS301−S311の後で、ステップS414−S416を実行し、その後、ステップS312、S313を実行する。
(ステップS414)テンプレート更新部2383は、追加又は更新したテンプレートと対応付けて、その追加又は更新の時刻を示す時刻情報をそのテンプレートに対応付けてテンプレート記憶部134に記憶する。その後、ステップS415に進む。
(ステップS415)テンプレート更新部2383は、テンプレート記憶部134に記憶された時刻情報が示す時刻から現時刻までの経過時間が所定時間t’よりも大きい経過時間に対応するテンプレートの有無を判断する。このようなテンプレートがあると判断されたとき(ステップS415 YES)、ステップS416に進む。このようなテンプレートがないと判断されたとき(ステップS415 NO)、ステップS312に進む。
(ステップS416)テンプレート更新部2383は、所定時間t’よりも大きい経過時間に対応するテンプレートをテンプレート記憶部134から消去する。その後、ステップS312に進む。
なお、記憶部に記憶されている音響特徴量のうち、予め定めた時間よりも使用されていない時間が長い音響特徴量を削除する場合を例にとって説明したが、本実施形態ではこれには限られない。本実施形態では、記憶部に記憶されている音響特徴量のうち、予め定めた回数、例えば、使用された回数が少ない音響特徴量を削除するようにしてもよい。
以上に説明したように、本実施形態では、記憶部に記憶されている音響特徴量のうち、使用頻度が予め定めた頻度よりも、使用されていない音響特徴量を削除する。これにより、雑音の抑圧性能を劣化させることなく探索対象となる音響特徴量の数を減らし、音響特徴量の探索に係る処理量を低減することができる。
次に、第1の実施形態に係る音響処理装置1(図1)を動作させて行った実験例について説明する。実験は、次の条件で行った。収音部11として、人型ロボット(humanoid robot)の頭部の外周に装着されたマイクロホンを1個用いた。動作検出部12は、人型ロボットの腕(4自由度[degree of freedom])及び頭部(2自由度)の動作を検出する。腕、頭部を、予め定めた軌道に沿って動作させる。収音部11は、これらの動作に伴って生じる自己雑音を収録する。
その他、音響信号のサンプリング周波数は16kHz、フレームシフトは10msである。ユークリッド距離の閾値Tは、0.0001、KD木の更新間隔τは50ms、忘却係数ηは0.9である。
実験に先立ち、ロボットの動作に係る動作音(motor noise)と、その動作信号を用いて1回につき200秒間学習させた。学習において、その動作信号に基づく特徴ベクトルと動作音に基づくパワースペクトルとの組からなるテンプレートを生成し、テンプレート記憶部134に生成したテンプレートを記憶させた。学習は、最大20回繰り替した。
ここで、本実施形態における学習性能について説明する。性能の指標値として推定誤差とテンプレートの数を、実験に先立って行った学習時に観測した。
図8は、推定誤差の一例を示す図である。
図8において、横軸は繰り返し回数、縦軸は推定誤差を示す。実線は、本実施形態、破線は従来技術(テンプレート推定法、Template Estimation,TE)を示す。縦軸の推定誤差は、正規化雑音推定誤差(Normalized Noise Estimation Error、NNEE)である。NNEEは、式(7)で示される指標値ε(l)を予め定めたフレーム数Lの区間内で平均した値ε’である。
式(7)において、|N(k,l)|は、現実の雑音のパワースペクトルを示す。|N’(k,l)|は、本実施形態又は従来技術によって推定した雑音のパワースペクトルを示す。即ち、NNEEは、雑音のパワースペクトルの推定誤差を、そのパワースペクトルで正規化した値である。NNEEが小さいほど学習性能が優れることを示す。
図8によれば、本実施形態では、従来技術よりもNNEEが1.7dB低い。本実施形態では、繰り返し回数1から20にかけて、NNEEは、−6.1dBから−6.9dBに単調に低下する。これに対して、従来技術では、NNEEは、−4.7dBから−5.1dBに低下するが、必ずしも単調ではない。図7は、本実施形態のほう従来技術よりも学習性能が優れることを示す。
図9は、テンプレートの数の一例を示す図である。
図9において、横軸は繰り返し回数、縦軸はテンプレートの数を示す。実線は、本実施形態、破線は従来技術(テンプレート推定法、Template Estimation,TE)を示す。図9において、テンプレートの数とは、各技術において雑音の推定に用いるために記憶されたテンプレートの数である。本実施形態では、テンプレート記憶部134に記憶されたテンプレートの数である。
本実施形態では、繰り返し回数1から20にかけて200個から800個に増加するが、従来技術では200個から8,000個に増加する。繰り返し回数の20回に注目すると、本実施形態では、テンプレートの数は、従来技術の1/10である。本実施形態では周囲の環境に応じてテンプレートが更新されるため、テンプレートが必要以上に増加することが抑制され、テンプレートの探索に係る処理が低減する。
次に、動作例として雑音のスペクトログラムについて、原信号、定常雑音、従来技術を用いて推定した雑音、本実施形態を用いて推定した雑音、各々について説明する。
図10は、原信号のスペクトログラムを示す図である。
図10において、横軸は時刻を示し、縦軸は周波数を示す。各周波数、各時刻におけるパワーを、濃淡で示す。明るい部分ほどパワーが大きいことを示す。図10において、時刻0−2秒における「stationary noise」は、この区間において定常雑音が提示されていることを示す。時刻2−4秒における「Non−stationary+Stationary Noise」は、この区間において非定常雑音と定常雑音がともに提示されていることを示す。時刻4−6秒における「Noise+Speech」は、この区間において非定常雑音、定常雑音と音声がともに提示されていることを示す。
図11は、定常雑音のスペクトログラムの一例を示す図である。
図11において、横軸、縦軸の関係、濃淡の関係は図10と同様である。図11に示す定常雑音は、HRLE法を用いて推定した定常雑音である。図11によれば、HRLE法を用いて推定した定常雑音は、図10に示す定常雑音又はこの定常雑音による成分を近似できるが、非定常雑音をほとんど推定できないことを示す。
図12は、推定した雑音のスペクトログラムの一例を示す図である。
図12において、横軸、縦軸の関係、濃淡の関係は図10と同様である。図12に示す雑音は、従来技術を用いて推定した雑音を示す。図12と図10を比較すると、定常雑音のみの区間(0−2秒)、定常雑音と非定常雑音が提示されている区間(2−4秒)のスペクトログラムは互いに近似する。しかし、図12の時刻4.6秒の周波数5−6kHzにみられるように、音声の成分が主である部分のパワーが周囲よりも大きい。これは、従来技術では、音声が主であるにも関わらず雑音が誤検出されることを示す。
図13は、推定した雑音のスペクトログラムの他の例を示す図である。
図13において、横軸、縦軸の関係、濃淡の関係は図10と同様である。図13に示す雑音は、本実施形態を用いて推定した雑音を示す。図13と図12を比較すると、各区間ともに図13は図12よりも全体的に滑らかである。つまり、本実施形態のほうが、安定して雑音を推定できることを示す。特に、時刻4.6秒の周波数5−6kHzにおいて周囲よりもパワーが大きくなる現象が、図13では表れていない。これは本実施形態のほうが従来技術よりも音声による影響が少ないことを示す。
次に、実験方法及びその条件について説明する。
実験は、内径が縦4.0m、横7.0m、高さ3.0mで、残響時間(reverberation time)RT20が0.2秒の室内で行われた。実験において、動作音と動作信号のセット(計3セット、各100秒)を用いた。動作音が発生している際に、参加者に236個の単語のいずれかを発声させた。本実験では、動作音と人間の音声の他に、背景雑音(Backgraound Noise、BGN)を生成した。以下の説明では、次の条件(1)−(4)について実験した結果について述べる。条件(1)では、背景雑音のエネルギーを一定とし、音声のS/N比(signal−to−noise ratio、SNR)は3dBである。条件(2)では、背景雑音のエネルギーを一定とし、音声のS/N比(signal−to−noise ratio、SNR)は−3dBである。条件(3)、(4)では、条件(2)に対して、更に時間経過によって振幅が変動するガウシアン白色雑音(Gaussian white noise)を追加した。このガウシアン白色雑音は、非定常な背景雑音を模する音源である。条件(3)、(4)における音声のS/N比の平均値は、それぞれ、−3.1dB、−3.2dBである。
以下では、実験結果を示す指標値として、NNEEの他、対数スペクトル歪(Log−Spectral Distortion,LSD)、区間SNR(Segmental SNR)、単語認識率(Word Correct Rate,WCR)を用いた。
LSDは、式(8)に示すように推定した音響信号のパワースペクトル|X’(k,l)|についての全周波数帯域にわたる推定誤差をフレーム数L内で平均した値である。
式(8)において、Lm{…}は、max(20log10|X(k,l)|,δ)、δ=maxk,l{20log10|X(k,l)|}−50である。即ち、Lm{…}は、…のダイナミックレンジを20log10|X(k,l)|の最大値から、その最大値から50dBだけ小さい値の間に制限する関数である。従って、LSDが小さいほど、良好なことを表す。
区間SNRとは、式(9)に示すように、原音響信号の推定誤差に対する比をフレーム数L内で平均した値である。以下の説明では、単にSNRと呼ぶ。従って、SNRが大きいほど、良好なことを表す。
WCRは、推定した目標音響信号x’(t)に対して音声認識装置を用いて認識された単語の正解率である。認識対象の単語数は236であり、発話者は4名の男性と4名の女性である。本実験で用いた音声認識装置は、音響モデルである隠れマルコフモデル(Hidden Markov Model,HMM)と単語辞書を備える。本音声認識装置には、日本語新聞記事読み上げ音声コーパス(Japanese Newspaper Article Sentences[JNAS]corpus)を用いて事前学習を行った。JNASコーパスは、306名の話者による60時間の音声データを含む。従って、認識対象の単語、話者ともに不特定である。なお、音声認識装置で音響信号から抽出する音響特徴量は、13個の静的メル尺度対数スペクトル(Mel−Scale Log Spectrum,MSLS)と13個のデルタMSLSと1個のデルタパワーである。従って、WCRが高いほど、良好なことを表す。
図14は、実験結果の一例を示す表である。
図14において各行は、指標値としてNNEE、LSD、SNR、WCRを用いたことを示す。各列は、条件(1)、条件(2)それぞれについて、評価対象の信号を示す。最左列から右側に順に、未処理の入力信号(未処理)、HRLEによって推定した定常雑音を除去した音響信号(HRLE)、従来のテンプレート推定法を用いて推定した音響信号(TE)、本実施形態により推定した音響信号(本実施形態)を示す。太字で示した数値は、評価対象の信号の中で最も推定精度が優れることを示す信号に係る数値である。
条件(1)では、各指標値ともに本実施形態が最も良好なことを示す。条件(2)では、NNEE、LSD、WCRについては、本実施形態が最も良好であるが、SNRについては、TEに次いで良好である。但し、TEについてのSNRは5.49dBであるのに対し、本実施形態についてのSNRは5.24dBであり、両者の間の差は、0.25dBに過ぎない。
図15は、実験結果の他の例を示す表である。
図15において各行は、指標値としてLSD、SNR、WCRを用いたことを示す。各列は、条件(3)、条件(4)それぞれについて、評価対象の信号を示す。最左列から右側に順に、未処理、HRLE、TE、本実施形態を示す。太字で示した数値は、評価対象の信号の中で最も推定精度が優れることを示す信号に係る数値である。
条件(3)、(4)ともに、各指標値ともに本実施形態が最も良好なことを示す。従って、本実施形態では、他の方法よりも雑音の変動に対して頑強であることを示す。
上述では、音声判定部1381が入力された音響信号y(t)に対して非音声区間と判断した場合(ステップS304 N)、目標音響信号x’(t)を生成する処理(ステップS320)を行う場合を例にとって説明したが、本実施形態ではこれには限られない。本実施形態では、音声判定部1381が入力された音響信号y(t)に対して非音声区間と判断するか否に関わらず、目標音響信号x’(t)を生成する処理(ステップS320)を行うようにしてもよい。
上述では、動作検出部12が、音響処理装置1、2を組み込んでいる機器として、例えばロボットの動作信号を生成する場合を例にとって説明したが、上述した実施形態では、これには限られない。動作検出部12は、音響処理装置1による音響信号の処理中に動作し、動作音を周囲に放射する機器であればよい。そのような機器は、例えば、エンジン、DVDプレイヤ(Digital Versatile Disk Player)、HDD(Hard Disk Drive)等を搭載する車両等であってもよい。即ち、音響処理装置1は、動作の制御対象であって、かつ、その動作によって生じる音を直接取得することができない機器に組み込まれるようにしてもよい。
動作検出部12は、かかる機器に対する動作の開始、停止、その態様の変更等の指示を示す指示信号(指示データ、例えば、コマンド等)が当該機器から入力されるようにしてもよい。その場合、動作検出部12は、入力された指示信号が当該機器に自己雑音を発生させる指示を表す指示信号(自己雑音指示信号)か否かを判断する。動作検出部12は、入力された指示信号が自己雑音指示信号であると判断した場合に、上述の動作信号をテンプレート推定部1332、2332及びテンプレート更新部1383、2383に出力する。
ここで、動作検出部12は、例えば、予め自部が備える記憶部に自己雑音指示信号を記憶させておく。動作検出部12は、入力された指示信号と一致する自己雑音指示信号が記憶部にある場合、入力された指示信号が自己雑音指示信号であると判断する。動作検出部12は、入力された指示信号と一致する自己雑音指示信号がない場合に入力された指示信号が自己雑音指示信号であると判断する。自己雑音指示信号は、例えば、当該機器がロボットである場合には、その一部の構成を動作させるためのモータの回転を指示する指示信号や、そのモータを冷却するためのファンの動作を指示する指示信号が該当する。つまり、モータの回転やファンの動作に伴って発生する動作音が自己雑音として扱われる。自己雑音指示信号は、例えば、当該機器が車両である場合には、エンジンの回転や加速を指示する指示信号が該当する。つまり、エンジンの回転や車両の走行に伴って生じる動作音や風切音が自己雑音として扱われる。
これにより、テンプレート更新部1383、2383は、入力された指示信号が自己雑音指示信号であると判断された場合に、上述のテンプレートを更新する処理を行う。つまり、テンプレート更新部1383、2383は、上述の動作信号に基づくデータと自己雑音に基づく音響特徴量を含むテンプレートを生成し、生成したテンプレートをテンプレート記憶部134に記憶する。テンプレート推定部1332、2332は、このように生成されたテンプレートを探索の対象となるため、自己雑音による成分の音響特徴量を推定する。よって、音響処理装置1、2は、推定された自己雑音による成分の音響特徴量を入力された音響信号の音響特徴量から除去する。
なお、上述した実施形態における音響処理装置1、2の一部、例えば、周波数領域変換部131、パワー算出部132、雑音推定部133、233、減算部135、利得算出部1351、フィルタ部1352、時間領域変換部136、テンプレート生成部138、238、テンプレート再構成部139、をコンピュータで実現するようにしても良い。その場合、この制御機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピュータシステム」とは、音響処理装置1、2に内蔵されたコンピュータシステムであって、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
また、上述した実施形態における音響処理装置1、2の一部、または全部を、LSI(Large Scale Integration)等の集積回路として実現しても良い。音響処理装置1、2の各機能ブロックは個別にプロセッサ化してもよいし、一部、または全部を集積してプロセッサ化しても良い。また、集積回路化の手法はLSIに限らず専用回路、または汎用プロセッサで実現しても良い。また、半導体技術の進歩によりLSIに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いても良い。
以上、図面を参照してこの発明の一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。
1、2…音響処理装置、11…収音部、12…動作検出部、131…周波数領域変換部、132…パワー算出部、133、233…雑音推定部、1331…定常雑音推定部、
1332、2332…テンプレート推定部、1333…加算部、
134…テンプレート記憶部、135…減算部、1351…利得算出部、
1352…フィルタ部、
136…時間領域変換部、138、238…テンプレート生成部、1381…音声判定部、1382…パワー算出部、1383、2383…テンプレート更新部、
139…テンプレート再構成部、14…出力部

Claims (6)

  1. 自装置を組み込むロボットの駆動部の動作を検出する動作検出部と、
    入力された音響信号の音響特徴量に基づいて定常雑音成分の音響特徴量を推定する定常雑音推定部と、
    前記音響信号の音響特徴量から、前記定常雑音推定部が推定した前記定常雑音成分の音響特徴量に基づいて前記定常雑音成分を除去した非定常成分の音響特徴量を算出する音響特徴量処理部と、
    前記音響信号が音声であるか音声以外の非音声であるかを判定する音声判定部と、
    前記音声判定部が非音声であると判定するとき、前記動作を表す動作データと前記非定常成分の音響特徴量とを記憶部に対応付けて記憶する更新部と、
    前記音声判定部が音声であると判定するとき、前記記憶部から前記動作データに対応する非定常成分の音響特徴量を取得する推定部と、
    前記定常雑音成分の音響特徴量と前記非定常成分の音響特徴量とを加算した雑音成分の音響特徴量を、前記音響信号の音響特徴量から減算して目標音響信号の音響特徴量を算出する減算部と、
    を備えることを特徴とする音響処理装置。
  2. 前記更新部は、前記動作検出部が検出した動作を示す動作データに対応する非定常成分の音響特徴量を前記記憶部から選択し、前記選択した非定常成分の音響特徴量を、前記推定部が取得した非定常成分の音響特徴量と重み付け加算した値に更新することを特徴とする請求項1に記載の音響処理装置。
  3. 前記更新部は、前記動作検出部が検出した動作を示す動作データとの類似度が、前記記憶部に記憶された動作データのいずれに対しても、予め定めた類似度よりも類似していないことを示す場合、前記動作検出部が検出した動作を示す動作データと前記推定部が推定した非定常成分の音響特徴量を対応付けて前記記憶部に記憶することを特徴とする請求項1又は2に記載の音響処理装置。
  4. 前記動作データは、前記駆動部の動作状態を示すパラメータを複数個含む特徴ベクトルを示すことを特徴とし、
    前記記憶部に記憶される複数の動作データが示す特徴ベクトル間の関係としてKD木を表す構造情報を構成する構成部を備え、
    前記推定部は、前記構造情報を参照して前記動作データが表す特徴ベクトルとの距離に基づいて二分探索を行って前記記憶部から所定の個数の特徴ベクトルを選択することを特徴とする請求項1から請求項3のいずれか一項に記載の音響処理装置。
  5. 音響処理装置における音響処理方法であって、
    自装置を組み込むロボットの駆動部の動作を検出する動作検出過程と、
    入力された音響信号の音響特徴量に基づいて定常雑音成分の音響特徴量を推定する定常雑音推定過程と、
    前記音響信号の音響特徴量から、前記定常雑音推定過程において推定された前記定常雑音成分の音響特徴量に基づいて前記定常雑音成分を除去した非定常成分の音響特徴量を算出する音響特徴量処理過程と、
    前記音響信号が音声であるか音声以外の非音声であるかを判定する音声判定過程と、
    前記音声判定過程において非音声であると判定されるとき、前記動作を表す動作データと前記非定常成分の音響特徴量とを記憶部に対応付けて記憶する更新過程と、
    前記音声判定過程において音声であると判定されるとき、前記記憶部から前記動作データに対応する非定常成分の音響特徴量を取得する推定過程と、
    前記定常雑音成分の音響特徴量と前記非定常成分の音響特徴量とを加算した雑音成分の音響特徴量を、前記音響信号の音響特徴量から減算して目標音響信号の音響特徴量を算出する減算過程と、
    を有することを特徴とする音響処理方法。
  6. 音響処理装置のコンピュータに、
    自装置を組み込むロボットの駆動部の動作を検出する動作検出手順、
    入力された音響信号の音響特徴量に基づいて定常雑音成分の音響特徴量を推定する定常雑音推定手順、
    前記音響信号の音響特徴量から、前記定常雑音推定手順において推定された前記定常雑音成分の音響特徴量に基づいて前記定常雑音成分を除去した非定常成分の音響特徴量を算出する音響特徴量処理手順、
    前記音響信号が音声であるか音声以外の非音声であるかを判定する音声判定過程と、
    前記音声判定過程において非音声であると判定されるとき、前記動作を表す動作データと前記非定常成分の音響特徴量とを記憶部に対応付けて記憶する更新手順、
    前記音声判定過程において音声であると判定されるとき、前記記憶部から前記動作データに対応する非定常成分の音響特徴量を取得する推定手順、
    前記定常雑音成分の音響特徴量と前記非定常成分の音響特徴量とを加算した雑音成分の音響特徴量を、前記音響信号の音響特徴量から減算して目標音響信号の音響特徴量を算出する減算手順、
    を実行させるための音響処理プログラム。
JP2012150534A 2011-07-06 2012-07-04 音響処理装置、音響処理方法、及び音響処理プログラム Expired - Fee Related JP6004792B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201161504755P 2011-07-06 2011-07-06
US61/504,755 2011-07-06

Publications (2)

Publication Number Publication Date
JP2013020252A JP2013020252A (ja) 2013-01-31
JP6004792B2 true JP6004792B2 (ja) 2016-10-12

Family

ID=47438672

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012150534A Expired - Fee Related JP6004792B2 (ja) 2011-07-06 2012-07-04 音響処理装置、音響処理方法、及び音響処理プログラム

Country Status (2)

Country Link
US (1) US8995671B2 (ja)
JP (1) JP6004792B2 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5904021B2 (ja) * 2012-06-07 2016-04-13 ソニー株式会社 情報処理装置、電子機器、情報処理方法、及びプログラム
US10741194B2 (en) 2013-04-11 2020-08-11 Nec Corporation Signal processing apparatus, signal processing method, signal processing program
KR102109381B1 (ko) * 2013-07-11 2020-05-12 삼성전자주식회사 전기기기 및 그 제어 방법
US9264809B2 (en) * 2014-05-22 2016-02-16 The United States Of America As Represented By The Secretary Of The Navy Multitask learning method for broadband source-location mapping of acoustic sources
KR101904423B1 (ko) * 2014-09-03 2018-11-28 삼성전자주식회사 오디오 신호를 학습하고 인식하는 방법 및 장치
JP6261749B2 (ja) * 2014-09-10 2018-01-17 三菱電機株式会社 雑音抑圧装置、雑音抑圧方法および雑音抑圧プログラム
JP6301891B2 (ja) * 2015-09-29 2018-03-28 日本電信電話株式会社 学習装置、識別装置、その方法、およびプログラム
US11270717B2 (en) 2019-05-08 2022-03-08 Microsoft Technology Licensing, Llc Noise reduction in robot human communication
US20220335964A1 (en) * 2019-10-15 2022-10-20 Nec Corporation Model generation method, model generation apparatus, and program
CN115206323B (zh) * 2022-09-16 2022-11-29 江门市鸿裕达电机电器制造有限公司 一种风扇语音控制系统的语音识别方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000222000A (ja) * 1999-01-29 2000-08-11 Canon Inc 音声認識装置
JP3885002B2 (ja) * 2002-06-28 2007-02-21 キヤノン株式会社 情報処理装置およびその方法
US7840308B2 (en) * 2004-09-10 2010-11-23 Honda Motor Co., Ltd. Robot device control based on environment and position of a movable robot
JP4910293B2 (ja) * 2005-02-16 2012-04-04 カシオ計算機株式会社 電子カメラ、ノイズ低減装置及びノイズ低減制御プログラム
JP4581789B2 (ja) * 2005-03-30 2010-11-17 日産自動車株式会社 音声認識装置および方法
JP5555987B2 (ja) * 2008-07-11 2014-07-23 富士通株式会社 雑音抑圧装置、携帯電話機、雑音抑圧方法及びコンピュータプログラム
JP5535746B2 (ja) 2009-05-22 2014-07-02 本田技研工業株式会社 音データ処理装置及び音データ処理方法
JP5310494B2 (ja) * 2009-11-09 2013-10-09 日本電気株式会社 信号処理方法、情報処理装置、及び信号処理プログラム

Also Published As

Publication number Publication date
JP2013020252A (ja) 2013-01-31
US20130010974A1 (en) 2013-01-10
US8995671B2 (en) 2015-03-31

Similar Documents

Publication Publication Date Title
JP6004792B2 (ja) 音響処理装置、音響処理方法、及び音響処理プログラム
JP5411936B2 (ja) 音声信号区間推定装置と音声信号区間推定方法及びそのプログラムと記録媒体
JP5949550B2 (ja) 音声認識装置、音声認識方法、及びプログラム
JP3836815B2 (ja) 音声認識装置、音声認識方法、該音声認識方法をコンピュータに対して実行させるためのコンピュータ実行可能なプログラムおよび記憶媒体
JP5842056B2 (ja) 雑音推定装置、雑音推定方法、雑音推定プログラム及び記録媒体
JP4586577B2 (ja) 外乱成分抑圧装置、コンピュータプログラム、及び音声認識システム
JP5634959B2 (ja) 雑音/残響除去装置とその方法とプログラム
JPH09258768A (ja) 騒音下音声認識装置及び騒音下音声認識方法
US7552049B2 (en) Noise adaptation system of speech model, noise adaptation method, and noise adaptation program for speech recognition
JP4705414B2 (ja) 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体
JP5191500B2 (ja) 雑音抑圧フィルタ算出方法と、その装置と、プログラム
JP2008145923A (ja) 音声信号区間推定装置、その方法、そのプログラム及び記録媒体
JP2014029407A (ja) 雑音抑圧装置、方法、及びプログラム
Kumar Performance measurement of a novel pitch detection scheme based on weighted autocorrelation for speech signals
JP4691079B2 (ja) 音声信号区間推定装置、方法、プログラムおよびこれを記録した記録媒体
JPH10133688A (ja) 音声認識装置
JP2006215228A (ja) 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体
JP6653687B2 (ja) 音響信号処理装置、方法及びプログラム
JP2005321539A (ja) 音声認識方法、その装置およびプログラム、その記録媒体
JP4242320B2 (ja) 音声認識方法、その装置およびプログラム、その記録媒体
JP4762176B2 (ja) 音声認識装置および音声認識プログラム
JP2004309959A (ja) 音声認識装置および音声認識方法
JP2024015817A (ja) 閾値生成方法、閾値生成装置およびプログラム
JP2005195975A (ja) 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体
JP2015040931A (ja) 信号処理装置、音声処理装置、信号処理方法および音声処理方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20141127

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20151026

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20151104

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151201

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160517

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160711

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160816

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160906

R150 Certificate of patent or registration of utility model

Ref document number: 6004792

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees