JP2014145838A - 音響処理装置及び音響処理方法 - Google Patents

音響処理装置及び音響処理方法 Download PDF

Info

Publication number
JP2014145838A
JP2014145838A JP2013013251A JP2013013251A JP2014145838A JP 2014145838 A JP2014145838 A JP 2014145838A JP 2013013251 A JP2013013251 A JP 2013013251A JP 2013013251 A JP2013013251 A JP 2013013251A JP 2014145838 A JP2014145838 A JP 2014145838A
Authority
JP
Japan
Prior art keywords
unit
noise
sound
speech
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2013013251A
Other languages
English (en)
Inventor
Kazuhiro Nakadai
一博 中臺
Keisuke Nakamura
圭佑 中村
Tatsuya Higuchi
達矢 樋口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Priority to JP2013013251A priority Critical patent/JP2014145838A/ja
Priority to US14/155,446 priority patent/US9384760B2/en
Publication of JP2014145838A publication Critical patent/JP2014145838A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise

Abstract

【課題】計算コストの低減と音声認識率の向上を両立する音響処理装置及び音響処理方法を提供する。
【解決手段】第1雑音抑圧部は入力された音響信号に含まれる雑音成分を第1の抑圧量で抑圧し、第2雑音抑圧部は入力された音響信号に含まれる雑音成分を第1の抑圧量よりも大きい第2の抑圧量で抑圧し、音声区間検出部は第2雑音抑圧部が雑音成分を抑圧した音響信号について音声が含まれる音声区間であるか否かを予め定めた時間毎に検出し、音声認識部は第1雑音抑圧部が雑音成分を抑圧した音響信号のうち、音声区間検出部が音声区間であると検出した区間について音声認識処理を行う。
【選択図】図1

Description

本発明は、音響処理装置及び音響処理方法、に関する。
雑音下で音声認識を行うと認識率が低下することが知られている。そこで、多チャネルの音響信号を収録し、収録した音響信号に含まれる音声と雑音を分離して、雑音を分離した音声について音声認識を行なうことが提案されている。音源を分離する処理として、音源毎の方向を推定し、推定した方向のそれぞれへの感度が高い指向性フィルタを用いて音源毎の音響信号に分離する音源分離技術がある。
例えば、特許文献1に記載の音信号処理装置では、異なる位置に配置された複数のマイクから取得した複数チャネルの音信号に基づいて目的音の方向と区間を推定し、推定された方向と区間から所定の目的音の音信号を抽出する。具体的には、複数チャネルの音信号に対して時間周波数領域の観測信号を生成し、観測信号に基づいて目的音の方向と目的音が発生している区間を検出する。さらに、検出した目的音の方向と区間に基づいて目的音の時間方向の音量変化を示す時間エンベロープに対応する参照信号を生成し、該参照信号と観測信号とから共分散行列を計算し、計算した共分散行列の固有ベクトルから目的音の音信号を抽出する抽出フィルタを生成する。
特開2012−234150号公報
しかしながら、特許文献1に記載の音信号処理装置は、音を発生している音源数に関わらず、複数チャネルの音信号について音源方向を推定し、複数チャネルの音信号から音源毎の音響信号に分離するため計算コストが非常に高く処理時間が長い。また、同時に音を発生している音源数は変動することがあり、音源方向の推定精度が低下する。ひいては、音源毎の分離の度合いが不完全になるため音声認識率が低下していた。
本発明は上記の点に鑑みてなされたものであり、計算コストの低減と音声認識率の向上を両立する音響処理装置及び音響処理方法を提供する。
(1)本発明は上記の課題を解決するためになされたものであり、本発明の一態様は、入力された音響信号に含まれる雑音成分を第1の抑圧量で抑圧する第1雑音抑圧部と、前記入力された音響信号に含まれる雑音成分を前記第1の抑圧量よりも大きい第2の抑圧量で抑圧する第2雑音抑圧部と、前記第2雑音抑圧部が雑音成分を抑圧した音響信号について音声が含まれる音声区間であるか否かを予め定めた時間毎に検出する音声区間検出部と、前記第1雑音抑圧部が雑音成分を抑圧した音響信号のうち、前記音声区間検出部が音声区間であると検出した区間について音声認識処理を行う音声認識部と、を備えることを特徴とする音響処理装置である。
(2)本発明の他の態様は、上述の音響処理装置であって、少なくとも2チャネルの音響信号を入力する音響信号入力部を備え、前記第1雑音抑圧部及び第2雑音抑圧部の一方は、前記少なくとも2チャネルのそれぞれについて雑音成分を抑圧し、前記音声区間検出部は、前記一方が雑音成分を抑圧した音響信号の強度が、前記少なくとも2チャネルのうち最も大きいチャネルである強度最大チャネルの音響信号について前記音声区間であるか否かを検出し、前記音声認識部は、前記第1雑音抑圧部が雑音成分を抑圧した前記強度最大チャネルの音響信号のうち、前記音声区間検出部が音声区間であると検出した区間について音声認識処理を行うことを特徴とする。
(3)本発明の他の態様は、上述の音響処理装置であって、少なくとも2チャネルの音響信号を入力する音響信号入力部を備え、前記音響信号入力部が入力した少なくとも2チャネルの音響信号について音源の個数と音源毎の方向を推定する音源推定部と、前記音源推定部が推定した音源の個数が少なくとも2個である場合、前記少なくとも2チャネルの音響信号から前記音源毎の方向に基づいて当該音源毎の音響信号に分離する音源分離部と、前記音声認識部は、前記音源分離部が分離した音源毎の音響信号のそれぞれについて音声認識処理を行うことを特徴とする。
(4)本発明の他の態様は、上述の音響処理装置であって、前記音声区間検出部は、前記第2雑音抑圧部が雑音成分を抑圧した音響信号の強度と零交差数をフレーム毎に算出し、算出した強度及び零交差数に基づいて音声区間であるか否かを検出することを特徴とする。
(5)本発明の他の態様は、音響処理装置における音響処理方法であって、入力された音響信号に含まれる雑音成分を第1の抑圧量で抑圧する第1雑音抑圧過程と、前記入力された音響信号に含まれる雑音成分を前記第1の抑圧量よりも大きい第2の抑圧量で抑圧する第2雑音抑圧過程と、前記第2雑音抑圧過程で雑音成分を抑圧した音響信号について音声が含まれる音声区間であるか否かを予め定めた時間毎に検出する音声区間検出過程と、前記第1雑音抑圧過程で雑音成分を抑圧した音響信号のうち、前記音声区間検出過程で音声区間であると検出した区間について音声認識処理を行う音声認識過程と、を有することを特徴とする音響処理方法である。
上述の(1)、(5)の態様によれば、より大きい第2の抑圧量で雑音成分を抑圧した雑音除去信号に基づいて音声区間を正確に判定することができ、より小さい第1の抑圧量で雑音成分を抑圧した歪みの少ない音響信号を用いて音声認識率が向上する。
上述の(2)の態様によれば、最も強度が大きい音声の成分が含まれるチャネルについて音声区間検出や音声認識に係る処理がなされるため、雑音成分の影響をより低減して音声認識率を向上させることができる。
上述の(3)の態様によれば、同時に複数の音源が音を発生することが少ない場合には、音源毎の音響信号を分離する処理のように処理量の大きい処理を行う機会が限定される。そのため、複数の音源に対する音声認識において音声認識率を向上させるとともにシステム全体として処理量を低減することができる。
上述の(4)の態様によれば、音声と非音声とを明確に判別する手がかりとしてフレーム毎の強度と零交差数を用いるため、そのフレームが音声認識の対象となる音声区間であることが的確に判別されるので音声認識率が向上する。
本発明の第1の実施形態に係る音響処理装置の構成を示す概略ブロック図である。 ヒストグラムの一例を示す概念図である。 累積分布の一例を示す概念図である。 本実施形態に係る雑音推定処理を示すフローチャートである。 入力信号の一例を示す図である。 第2雑音除去信号の一例を示す図である。 零交差点の例を示す概念図である。 音声区間検出情報の例を示す図である。 音声区間信号の例を示す図である。 本実施形態に係る音響処理を示すフローチャートである。 本発明の第2の実施形態に係る音響処理装置の構成を示す概略ブロック図である。 本実施形態に係る音響処理を示すフローチャートである。 本発明の第3の実施形態に係る音響処理装置の構成を示す概略ブロック図である。 本実施形態に係る音響処理を示すフローチャートである。
(第1の実施形態)
以下、図面を参照しながら本発明の第1の実施形態について説明する。
図1は、本実施形態に係る音響処理装置1の構成を示す概略ブロック図である。
音響処理装置1は、収音部101、周波数領域変換部102、2個の雑音抑圧部103−1、103−2、2個の時間領域変換部107−1、107−2、音声区間検出部108、音声区間抽出部109及び音声認識部110を含んで構成される。
音響処理装置1は、雑音抑圧部103−1において、入力された音響信号に含まれる雑音成分を第1の抑圧量で抑圧し、雑音抑圧部103−2において、入力された音響信号に含まれる雑音成分を前記第1の抑圧量よりも大きい第2の抑圧量で抑圧する。また、音響処理装置1は、音声区間検出部108において、雑音抑圧部103−2で雑音成分が抑圧された音響信号について音声が含まれる音声区間であるか否かを予め定めた時間毎に検出する。音響処理装置1は、音声認識部110において、雑音抑圧部103−1で雑音成分が抑圧された音響信号のうち、音声区間検出部108で音声区間であると検出した区間について音声認識処理を行う。
収音部101は、到来した音波に基づいて電気信号である音響信号y(t)を生成し、生成した音響信号y(t)を周波数領域変換部102に出力する。tは、時刻である。収音部101は、例えば、可聴帯域(20Hz−20kHz)の音響信号を収録するマイクロホンである。
周波数領域変換部102は、収音部101から入力され、時間領域で表された音響信号y(t)を、周波数領域で表された複素入力スペクトルY(k,l)に変換する。kは、周波数を表すインデックスである。lは、各フレームを表すインデックスである。ここで、周波数領域変換部102は、音響信号y(t)について、例えば、フレームl毎に離散フーリエ変換(DFT:Discrete Fourier Transform)を行う。周波数領域変換部102は、音響信号y(t)に窓関数(例えば、ハミング窓)を乗算して、窓関数が乗算された音響信号について周波数領域で表された複素入力スペクトルY(k,l)に変換してもよい。
周波数領域変換部102は、変換した複素入力スペクトルY(k,l)を2個の雑音抑圧部103−1、103−2のそれぞれに出力する。
2個の雑音抑圧部103−1、103−2は、周波数領域変換部102から入力された複素入力スペクトルY(k,l)の雑音成分を推定し、推定した雑音成分を抑圧した音響信号のスペクトル(複素雑音除去スペクトル)X’(k,l)を算出する。2個の雑音抑圧部103−1、103−2の構成は、特に言及しない限り同様である。雑音抑圧部103−2については、雑音抑圧部103−1についての説明を援用する。但し、雑音抑圧部103−1で雑音成分を抑圧する抑圧量(第1の抑圧量)よりも、雑音抑圧部103−2で雑音成分を抑圧する抑圧量(第2の抑圧量)の方が大きい。
雑音抑圧部103−1は、パワー算出部104−1、雑音推定部105−1及び減算部106−1を含んで構成される。雑音抑圧部103−2は、パワー算出部104−2、雑音推定部105−2及び減算部106−2を含んで構成される。パワー算出部104−2、雑音推定部105−2及び減算部106−2は、パワー算出部104−1、雑音推定部105−1及び減算部106−1とそれぞれ同様な構成を備える。雑音抑圧部103−2については、主に雑音抑圧部103−1との差異点について説明する。
パワー算出部104−1は、周波数領域変換部102から入力された複素入力スペクトルY(k,l)に基づいてパワースペクトル|Y(k,l)|を算出する。以下の説明では、パワースペクトルを単にパワーと呼ぶことがある。ここで、|…|は、複素数…の絶対値を示す。パワー算出部104−1は、算出したパワースペクトル|Y(k,l)|を雑音推定部105−1及び減算部106−1に出力する。
パワー算出部104−2は、パワー算出部104−1と同様に、複素入力スペクトルY(k,l)に基づいて算出したパワースペクトル|Y(k,l)|を雑音推定部105−2及び減算部106−2に出力する。
雑音推定部105−1は、パワー算出部104−1から入力されたパワースペクトル|Y(k,l)|に含まれる雑音成分のパワースペクトルλ(k,l)を算出する。以下の説明では、雑音パワースペクトルλ(k,l)を雑音パワーλ(k,l)と呼ぶことがある。
雑音推定部105−2は、雑音推定部105−2と同様に、パワー算出部104−2から入力されたパワースペクトル|Y(k,l)|に基づいて雑音パワーλ(k,l)を算出する。
ここで、雑音推定部105−1、105−2は、例えば、HRLE(Histogram−based Recursive Level Estimation)法を用いて雑音パワーλ(k,l)を算出する。HRLE法では、対数領域におけるパワースペクトル|Y(k,l)|のヒストグラム(頻度分布)を算出し、その累積分布と予め定めた累積頻度Lxに基づいて雑音パワーλ(k,l)を算出する。HRLE法を用いて雑音パワーλ(k,l)を算出する処理については後述する。この累積頻度Lxは、収録された音響信号に含まれる背景雑音の雑音パワーを定める変数、言い換えれば減算部106−1、106−2で減算(抑圧)される雑音成分の抑圧量を制御するための制御変数である。累積頻度Lxが大きいほど、抑圧量が大きくなり、累積頻度Lxが小さいほど抑圧量は小さくなる。累積頻度Lxが0のときは、抑圧量も0になる。
なお、雑音推定部105−2でHRLE法を用いる場合には、雑音推定部105−1で用いられている累積頻度Lx(例えば、0.3)よりも大きい累積頻度Lx(例えば、0.92)を用いる。これにより、雑音推定部105−2での雑音成分の抑圧量は、雑音推定部105−1での雑音成分の抑圧量よりも大きくなる。
雑音推定部105−1、105−2は、HRLE法の代わりに、MCRA(Minima−Controlled Recursive Average)法等、他の方法を用いて雑音パワーλ(k,l)を算出してもよい。MCRA法を用いる場合には、累積頻度Lxの代わりにMCRA法で導入されている雑音の抑圧量を制御するための制御変数として、例えば、推定定常雑音の混合比αと定常雑音推定時の係数rのセットを用いてもよい。
雑音推定部105−1、105−2は、算出した雑音パワーλ(k,l)を減算部106−1、106−2に出力する。
減算部106−1は、パワー算出部104−1から入力されたパワースペクトル|Y(k,l)|から雑音パワーλ(k,l)を減算又は減算に相当する演算を行うことによって、雑音成分を除去した音響信号のスペクトル(複素雑音除去スペクトル)を算出する。
ここで、減算部106−1は、パワー算出部104−1から入力されたパワースペクトル|Y(k,l)|と雑音推定部105−1から入力された雑音パワーλ(k,l)とに基づいて、利得GSS(k,l)を、例えば式(1)を用いて算出する。
Figure 2014145838
式(1)において、max(α,β)は、実数αとβのうち大きいほうの数を与える関数を示す。βは、予め定めた利得GSS(k,l)の最小値である。ここで、関数maxの左側(実数αの側)は、フレームlにおける周波数kに係る雑音成分が除去されたパワースペクトル|Y(k,l)|−λ(k,l)の、雑音が除去されていないパワースペクトル|Y(k,l)|の比に対する平方根を示す。
減算部106−1は、周波数領域変換部102から入力された複素入力スペクトルY(k,l)に、算出した利得GSS(k,l)を乗算して複素雑音除去スペクトルX’(k,l)を算出する。つまり、複素雑音除去スペクトルX’(k,l)は、複素入力スペクトルY(k,l)からその雑音成分を示す雑音パワーが減算(抑圧)された複素スペクトルを示す。減算部106−1は、算出した複素雑音除去スペクトルX’(k,l)を時間領域変換部107−1に出力する。
減算部106−2は、減算部106−1と同様に、パワー算出部104−2から入力されたパワースペクトル|Y(k,l)|と雑音推定部105−1から入力された雑音パワーλ(k,l)に基づいて、複素雑音除去スペクトルX’’(k,l)を算出する。減算部106−2は、算出した複素雑音除去スペクトルX’’(k,l)を時間領域変換部107−2に出力する。
時間領域変換部107−1は、減算部106−1から入力された複素雑音除去スペクトルX’(k,l)を時間領域の第1雑音除去信号x’(t)に変換する。ここで、時間領域変換部107−1は、フレームl毎に複素雑音除去スペクトルX’(k,l)に対して、例えば逆離散フーリエ変換(Inverse Discrete Fourier Transform、IDFT)を行って、第1雑音除去信号x’(t)を算出する。時間領域変換部107−1は、変換した第1雑音除去信号x’(t)を音声区間抽出部109に出力する。第1雑音除去信号x’(t)は、音響信号y(t)から雑音抑圧部103−1で推定された雑音成分が所定の抑圧量(第1の抑圧量)で抑圧された音響信号である。
時間領域変換部107−2は、時間領域変換部107−1と同様な処理を行って、減算部106−2から入力された複素雑音除去スペクトルX’’(k,l)を時間領域の第2雑音除去信号x’’(t)に変換する。時間領域変換部107−2は、変換した第2雑音除去信号x’’(t)を音声区間検出部108に出力する。第2雑音除去信号x’’(t)は、音響信号y(t)から雑音抑圧部103−2で推定された雑音成分が第1の抑圧量よりも大きい第2の抑圧量で抑圧された音響信号である。
音声区間検出部108は、時間領域変換部107−2から入力された第2雑音除去信号x’’(t)について、人間が発声した音声を含む音声区間であるか否かを検出する。音声区間を検出する処理は、音声区間検出、VAD(Voice Activity Detection)と呼ばれる。
まず、音声区間検出部108は、第2雑音除去信号x’’(t)についてフレーム毎に有音区間であるか無音区間であるかを判定する。音声区間検出部108は、例えば、あるフレームを形成する信号値の強度が予め定めた強度の閾値を超える場合、そのフレームは有音区間であると判定する。音声区間検出部108は、その強度が予め定めた強度の閾値と等しいか、その強度の閾値よりも小さいとき、そのフレームは無音区間であると判定する。有音区間であるか否かの判定例については、後述する。
次に、音声区間検出部108は、有音区間であると判定したフレームについて、そのフレームが音声区間であるか否かを判定する。音声区間であるか否かを判定する処理の例については、後述する。
音声区間検出部108は、フレーム毎に音声区間であるか非音声区間であるかを示す音声区間検出情報を生成し、生成した音声区間検出情報を音声区間抽出部109に出力する。音声区間検出情報は、例えば、音声区間であることを示す場合、1である値を有し、非音声区間であることを示す場合、0である値を有する二値(バイナリ)情報であってもよい。
音声区間抽出部109は、時間領域変換部107−1から入力された第1雑音除去信号x’(t)から、音声区間検出部108から入力された音声区間検出情報が音声区間であることを示すフレームの信号を、音声区間信号z(t)として抽出する。音声区間抽出部109は、抽出した音声区間信号z(t)を音声認識部110に出力する。これにより、非音声区間の音響信号について、音声認識処理を施すことによって誤認識されることを回避する。
音声認識部110は、音声区間抽出部109から入力された音声区間信号z(t)について音声認識処理を行い、発話内容、例えば音韻列や単語を認識する。音声認識部110は、例えば、音響モデルである隠れマルコフモデル(HMM:Hidden Markov Model)と単語辞書を備える。音声認識部110は、補助雑音付加信号x(t)について音響特徴量、例えば、静的メル尺度対数スペクトル(MSLS:Mel−Scale Log Spectrum)、デルタMSLS及び1個のデルタパワーを、所定時間毎に算出する。音声認識部110は、算出した音響特徴量から音響モデルを用いて音韻を定め、定めた音韻からなる音韻列から単語辞書を用いて単語を認識する。
次に、雑音推定部105−1、105−2がHRLE法を用いて雑音パワーλ(k,l)を算出する雑音推定処理について説明する。
HRLE法は、ある周波数について、パワー毎の頻度を計数してヒストグラムを生成し、生成したヒストグラムにおいて計数した頻度をパワーについて累積した累積頻度を算出し、予め定めた累積頻度Lxを与えるパワーを雑音パワーと定める方法である。従って、累積頻度Lxが大きいほど、推定される雑音パワーが大きくなり、累積頻度Lxが小さいほど、推定される雑音パワーが小さくなる。
図2は、ヒストグラムの一例を示す概念図である。
図2において、横軸はパワーを示し、縦軸は頻度を示す。図2は、パワーの区間毎の頻度を示す。頻度は、所定の時間におけるフレーム毎に、算出されたパワー(スペクトル)があるパワーの区間に属すると判定された回数であり、度数とも呼ばれる。図2に示す例では、左側から2番目のパワーの区間に係る頻度が最も高いことを示す。このパワーの区間を、以下の説明では階級と呼ぶことがある。
図3は、累積分布の一例を示す概念図である。
図3において、横軸はパワーを示し、縦軸は累積頻度を示す。図3に示す累積頻度は、パワーの区間毎に図2に示す頻度を最も左側に示されている区間から順次累積した値である。累積頻度は、累積度数とも呼ばれる。Lxは、HRLE法を用いて雑音パワーを算出する際に用いる累積頻度を示す。図3の例では、累積頻度Lxに対応するパワーが、左から4番目のパワーの区間に係るパワーである。HRLE法では、このパワーが、雑音パワーと定められる。
次に、HRLE法に基づく具体的な雑音推定処理について説明する。
図4は、本実施形態に係る雑音推定処理を示すフローチャートである。
(ステップS101)雑音推定部105−1、105−2は、パワースペクトル|Y(k,l)|に基づき対数スペクトルY(k,l)を算出する。ここで、Y(k,l)は、式(2)で表される。
Figure 2014145838
その後、ステップS102に進む。
(ステップS102)雑音推定部105−1、105−2は、算出した対数スペクトルY(k,l)が属する階級I(k,l)を定める。ここで、I(k,l)は、式(3)で表される。
Figure 2014145838
式(3)において、floor(…)は、実数…、又は…よりも小さい最大の整数を与える床関数(floor function)である。Lmin、Lstepは、それぞれ予め定めた対数スペクトルY(k,l)の最小レベル、階級毎のレベルの幅である。その後、ステップS103に進む。
(ステップS103)雑音推定部105−1、105−2は、現フレームlにおける階級iに対する度数N(k,l,i)を、例えば式(4)を用いて累積する。
Figure 2014145838
式(4)において、αは、時間減衰係数(time decay parameter)である。ここで、α=1−1/(T・F)である。Tは、予め定めた時定数(time constant)であり、Fは、サンプリング周波数である。δ(…)は、ディラックのデルタ関数(Dirac’s delta function)である。即ち、度数N(k,l,i)は、前フレームl−1における階級I(k,l)に対する度数N(k,l−1,i)にαを乗じて減衰させた値に、1−αを加算して得られる。これにより、階級I(k,l)に対する度数N(k,l,I(k,l))が累積される。その後、ステップS104に進む。
(ステップS104)雑音推定部105−1、105−2は、最下位の階級0から階級iまで度数N(k,l,i’)を加算して、累積度数S(k,l,i)を算出する。その後、ステップS105に進む。
(ステップS105)雑音推定部105−1、105−2は、累積頻度Lxに対応する累積度数S(k,l,Imax)・Lxに最も近似する累積度数S(k,l,i)を与える階級iを、推定階級I(k,l)として定める。即ち、推定階級I(k,l)は、累積度数S(k,l,i)との間で式(5)に示す関係がある。
Figure 2014145838
式(5)において、arg min[…]は、…を最小とするiを与える関数である。
その後、ステップS106に進む。
(ステップS106)雑音推定部105−1、105−2は、推定階級I(k,l)を対数レベルλHRLE(k,l)に換算する。λHRLE(k,l)は、例えば、式(6)を用いて算出される。
Figure 2014145838
そして、対数レベルλHRLE(k,l)を、線形領域に変換して雑音パワーλ(k,l)を算出する。λ(k,l)は、例えば、式(7)を用いて算出される。
Figure 2014145838
その後、本フローチャートに係る処理を終了する。
次に、雑音抑圧による効果について説明する。
図5は、入力信号y(t)の一例を示す図である。
図5において、横軸は時刻を示し、縦軸は入力信号y(t)の信号値を示す。図5では、背景雑音が重畳しているため、全体にわたり信号値の絶対値の平均が約0.03と零よりも有意に大きい値をとる。従って、この信号値と同等又はそれよりも小さい音声は検知されない。
図6は、第2雑音除去信号x’’(t)の一例を示す図である。
図6において、横軸は時刻を示し、縦軸は第2雑音除去信号x’’(t)の信号値を示す。第2雑音除去信号x’’(t)の信号値の絶対値の平均は、例えば、時刻が20.0―20.7秒、21.3−23.0秒、24.0−25.7秒、26.4−27.4秒の各区間では、約0.002である。この値は、入力信号y(t)における約0.03よりも著しく小さいから、入力信号y(t)から背景雑音が抑圧されたことが示される。第2雑音除去信号x’’(t)では、左右方向に延びる2本の一点鎖線は、それぞれ音声区間検出部108が有音区間であるか否かを判定する際に用いる閾値を示す。この例では、閾値が、信号値(振幅)の絶対値が0.01であることを示す。ここで、音声区間検出部108は、信号値の絶対値のフレーム内の平均値を強度として用い、強度が閾値よりも大きいときに、そのフレームが有音区間と判定し、強度が閾値と等しいか閾値よりも小さいときに、そのフレームが無音区間であると判定する。なお、音声区間検出部108は、強度として信号値の二乗値のフレーム内の総和であるパワーを用いてもよい。
ここで、時刻が20.7−21.3秒、23.0−24.0秒、25.7−26.4秒であるときに発話された音声による音響信号の波形が明瞭に示されている。これらの区間は、いずれも有音区間と判定される。
次に、音声区間検出部108が音声区間であるか否かを判定する処理の例について説明する。
音声区間検出部108は、例えば、有音区間であると判定したフレーム内の零交差数(number of zero crossings)を計数する。零交差数とは、零交差点(ゼロクロス点(zero crossing)とも呼ばれる)の数である。零交差点とは、そのフレームを構成する信号値が零を跨ぐ点である。例えば、ある時刻での信号値1が負値である場合、その次の時刻の信号値2が正値に変化するとき、信号値1、2の間を結ぶ線分上における信号値が零となる点である。また、ある時刻での信号値3が正値である場合、その次の時刻の信号値4が負値に変化するとき、信号値3、4の間を結ぶ線分上における信号値が零となる点である。
音声区間検出部108は、計数した零交差数が予め定めた零交差数の閾値(例えば、フレーム長が32msである場合、15個)よりも大きい場合、そのフレームが音声区間であると判定し、それ以外の場合、そのフレームが非音声区間であると判定する。非音声区間には、無音区間も含まれる。
図7は、零交差点の例を示す概念図である。
図7において、横軸は時刻を示し、縦軸は第2雑音除去信号x’’(t)の信号値を示す。図7では、時刻と信号値の単位や目盛は省略されている。
図7において、時刻の変化によって振幅が周期的に変化する曲線は、各時刻における第2雑音除去信号x’’(t)の信号値を示す。図7では、信号値が正値から負値に変化する点、負値から正値に変化する点、それぞれ円で囲まれている。この円で囲まれている4つの点が、それぞれ零交差点である。
次に、音声区間検出部108が生成する音声区間検出情報の例を示す。
図8は、音声区間検出情報の例を示す図である。
図8において、横軸は時刻を示し、縦軸は音声区間検出情報を形成する信号値を示す。図8に示す例では、時刻が20.7−21.3秒、23.0−24.0秒、25.7−26.4秒である区間では、信号値が1であり、その他の時刻では、信号値が0である。つまり、音声区間検出情報は、時刻が20.7−21.3秒、23.0−24.0秒、25.7−26.4秒である区間でのフレームが音声区間であり、その他の時刻では非音声区間であることを示す。
次に、音声区間抽出部109が抽出した音声区間信号z(t)の例について説明する。
図9は、音声区間信号の例を示す図である。
図9において、横軸は時刻を示し、縦軸は音声区間信号z(t)の信号値を示す。図9の横軸が示す時刻の範囲は、図6、8の横軸が示す範囲と同様である。図9に示す例では、時刻が20.7−21.3秒、23.0−24.0秒、25.7−26.4秒である場合には第1雑音除去信号x’(t)の信号値が示されている。それ以外の時刻では、振幅が0である。第1雑音除去信号x’(t)のうち、図8に示される音声区間が、音声区間信号z(t)として抽出されていることを示す。抽出された音声区間信号z(t)について、音声認識部110が音声認識処理を行う。
次に、本実施形態に係る音響処理について説明する。
図10は、本実施形態に係る音響処理を示すフローチャートである。
(ステップS201)雑音抑圧部103−1は、音響信号y(t)に基づくパワースペクトル|Y(k,l)|に含まれる雑音成分として雑音パワーλ(k,l)を、例えばHRLE法を用いて第1の抑圧量で推定する。雑音抑圧部103−1は、パワースペクトル|Y(k,l)|から推定した雑音パワーλ(k,l)を減算して、第1の抑圧量で雑音成分が抑圧された複素雑音除去スペクトルX’(k,l)を算出する。その後、ステップS202に進む。
(ステップS202)雑音抑圧部103−2は、パワースペクトル|Y(k,l)|に含まれる雑音パワーλ(k,l)を第1の抑圧量よりも大きい第2の抑圧量での雑音成分を推定する。HRLE法が用いられる場合には、雑音抑圧部103−2における累積頻度Lxは、雑音抑圧部103−1における累積頻度Lxよりも大きい。雑音抑圧部103−2は、パワースペクトル|Y(k,l)|から推定した雑音パワーλ(k,l)を減算して、第2の抑圧量で雑音成分が抑圧された複素雑音除去スペクトルX’’(k,l)を算出する。その後、ステップS203に進む。
(ステップS203)音声区間検出部108は、複素雑音除去スペクトルX’’(k,l)に基づく第2雑音除去信号x’’(t)について、フレーム毎に音声区間か否かを検出する。ここで、音声区間検出部108は、第2雑音除去信号x’’(t)の信号値の強度に基づいてフレーム毎に有音区間であるか無音区間であるかを判定する。音声区間検出部108は、有音区間であると判定したフレームについて、フレーム毎に零交差数を計数し、計数した零交差数に基づいて、そのフレームが音声区間であるか否かを判定する。音声区間検出部108は、音声区間であるか非音声区間であるかを示す音声区間検出情報を生成する。その後、ステップS204に進む。
(ステップS204)音声区間抽出部109は、第1雑音除去信号x’(t)から、音声区間検出情報が音声区間であることを示すフレームの信号を、音声区間信号z(t)として抽出する。その後、ステップS204に進む。
(ステップS205)音声認識部110は、音声区間信号z(t)について音声認識処理を行い、発話内容を認識する。その後、処理を終了する。
なお、上述では、時間領域変換部107−1が第1雑音除去信号x’(t)を、そのまま音声区間抽出部109に出力する場合を例にとって説明したが、本実施形態ではこれには限られない。本実施形態では、時間領域変換部107−1が出力する第1雑音除去信号x’(t)に白色雑音やピンクノイズ等の補助雑音を所定の付加量で付加してもよい。そして、音声区間抽出部109は、補助雑音を付加した音響信号について音声区間と判定されたフレームの信号を音声区間信号z(t)として抽出してもよい。これにより、雑音成分を抑圧することによって生じた歪が緩和するため、音声認識率が向上する。
以上、説明したように、本実施形態では、入力された音響信号に含まれる雑音成分を第1の抑圧量で抑圧し、入力された音響信号に含まれる雑音成分を第1の抑圧量よりも大きい第2の抑圧量で抑圧する。また、本実施形態では、第2の抑圧量で雑音成分を抑圧した音響信号について音声が含まれる音声区間であるか否かを予め定めた時間毎に検出し、第1の抑圧量で雑音成分を抑圧した音響信号のうち、音声区間であると検出した区間について音声認識処理を行う。
雑音成分の抑圧量を大きくするほど、雑音成分がより除去され雑音に重畳された音声成分より精度よく抽出されるので、雑音成分が除去されていない音響信号よりも音声認識率が向上する。他方、抑圧量が大きいほど、抽出された音声成分の歪みが顕著になるため、却って音声認識率が低下することがある。しかし、音声区間の判定の手がかりになる物理量、例えば、強度や零交差数は、歪みに対する依存性が低く頑健(ロバスト)である反面、雑音成分に対する依存性が高い。
従って、本実施形態では、より大きい抑圧量で雑音成分を抑圧した雑音除去信号に基づいて音声区間を正確に判定することができ、より小さい抑圧量で雑音成分を抑圧した歪みの少ない音響信号を用いて音声認識率が向上する。
また、本実施形態では複数チャネルの音信号について音源方向を推定し、複数チャネルの音信号から音源毎の音響信号に分離する等の計算コストの高い処理を含めなくてもよい。そのため、計算コストの低減と音声認識率の向上を両立することができる。
(第2の実施形態)
次に、本発明の第2の実施形態について、前述した実施形態と同一の構成について同一の符号を付して説明する。
図11は、本実施形態に係る音響処理装置2の構成を示す概略ブロック図である。
音響処理装置2は、収音部201、周波数領域変換部202、2個の雑音抑圧部203−1、203−2、2個の時間領域変換部107−1、207−2、音声区間検出部108、音声区間抽出部109、音声認識部110及びチャネル選択部211を含んで構成される。即ち、音響処理装置2は、音響処理装置1(図1)において収音部101、雑音抑圧部103−1、103−2及び時間領域変換部107−2の代わりに、収音部201、雑音抑圧部203−1、203−2及び時間領域変換部207−2を備え、更にチャネル選択部211を備える。
収音部201は、到来した音波に基づいてN(Nは、2又は2よりも大きい整数)チャネルの音響信号を生成し、生成したNチャネルの音響信号を周波数領域変換部202に出力する。収音部201は、例えば、それぞれ異なる位置に配置され、音波を音響信号に変換するマイクロホンをN個備えたマイクロホンアレイである。
周波数領域変換部202は、収音部201から入力されたNチャネルの音響信号y(t)のそれぞれを、周波数領域変換部102と同様な処理を行って周波数領域で表された複素入力スペクトルY(k,l)に変換する。
周波数領域変換部202は、変換したNチャネルの複素入力スペクトルY(k,l)を2個の雑音抑圧部203−1、203−2のそれぞれに出力する。
雑音抑圧部203−1は、周波数領域変換部202から入力されたNチャネルの複素入力スペクトルY(k,l)のうち、チャネル選択部211から入力されたチャネル選択信号が示すチャネルについて第1の抑圧量で雑音成分を抑圧する。雑音抑圧部203−1が雑音成分を抑圧する処理は、雑音抑圧部103−1が雑音成分を抑圧する処理と同様であってもよい。雑音抑圧部203−1は、雑音成分を抑圧した複素雑音除去スペクトルX’(k,l)を時間領域変換部107−1に出力する。
ここで、雑音抑圧部203−1は、パワー算出部204−1、雑音推定部105−1及び減算部106−1を含んで構成される。
パワー算出部204−1は、周波数領域変換部202からNチャネルの複素入力スペクトルY(k,l)が入力され、チャネル選択部211からチャネル選択信号が入力される。チャネル選択信号については、後述する。パワー算出部204−1は、入力されたNチャネルの複素入力スペクトルY(k,l)のうち、チャネル選択信号が示すチャネルの複素入力スペクトルY(k,l)のパワースペクトル|Y(k,l)|を算出する。パワー算出部104−1は、算出したパワースペクトル|Y(k,l)|を雑音推定部105−1及び減算部106−1に出力する。
雑音抑圧部203−2は、周波数領域変換部202から入力されたNチャネルの複素入力スペクトルY(k,l)に含まれる雑音成分を、それぞれのチャネルについて第2の抑圧量で雑音成分を抑圧する。雑音抑圧部203−1が雑音成分を抑圧する処理は、雑音抑圧部103−1が雑音成分を抑圧する処理と同様であってもよい。雑音抑圧部203−2は、雑音成分を抑圧したNチャネルの複素雑音除去スペクトルX’’(k,l)を時間領域変換部207−2に出力する。
ここで、雑音抑圧部203−2は、パワー算出部204−2、雑音推定部205−2及び減算部206−2を含んで構成される。
パワー算出部204−2は、周波数領域変換部202からNチャネルの複素入力スペクトルY(k,l)が入力され、それぞれのチャネルについてパワースペクトル|Y(k,l)|を算出する。パワー算出部204−2は、算出したNチャネルのパワースペクトル|Y(k,l)|を雑音推定部205−2及び減算部206−2に出力する。
雑音推定部205−2は、パワー算出部204−2から入力されたNチャネルのパワースペクトル|Y(k,l)|に含まれる雑音成分のパワースペクトルλ(k,l)を、それぞれのチャネルについて算出する。雑音推定部205−2は、算出したNチャネルの雑音パワーλ(k,l)を減算部206−2に出力する。
減算部206−2は、パワー算出部204−2から入力されたNチャネルのパワースペクトル|Y(k,l)|から、それぞれ対応するチャネルの雑音パワーλ(k,l)を減算して複素雑音除去スペクトルX’’(k,l)を算出する。減算部206−2が雑音パワーλ(k,l)を減算する処理は、減算部106−1が雑音パワーλ(k,l)を減算する処理と同様であってもよい。
減算部206−2は、算出したNチャネルの複素雑音除去スペクトルX’’(k,l)を時間領域変換部207−2に出力する。
時間領域変換部207−2は、減算部206−2から入力されたNチャネルの複素雑音除去スペクトルX’’(k,l)をそれぞれのチャネルについて時間領域の第2雑音除去信号x’’(t)に変換する。時間領域変換部207−2が時間領域の第2雑音除去信号x’’(t)に変換する処理は、時間領域変換部107−2が時間領域の第2雑音除去信号x’’(t)に変換する処理と同様であってよい。時間領域変換部207−2は、変換したNチャネルの第2雑音除去信号x’’(t)をチャネル選択部211に出力する。
チャネル選択部211は、時間領域変換部207−2から入力されたNチャネルの第2雑音除去信号x’’(t)について、それぞれ強度を算出する。チャネル選択部211は、強度として、信号値(振幅)の絶対値の所定の長さの区間毎の平均値を用いてもよいし、信号値の二乗値のフレーム内の総和であるパワーを用いてもよい。所定の長さの区間とは、1フレームの時間間隔であってもよいし、予め定めた1より大きい整数個のフレームの時間間隔であってもよい。チャネル選択部211は、Nチャネルのうち算出した強度が最も大きいチャネルを選択する。チャネル選択部211は、選択したチャネルを示すチャネル選択信号をパワー算出部204−1に出力し、選択チャネルに係る第2雑音除去信号x’’(t)を音声区間検出部108に出力する。
次に、本実施形態に係る音響処理について説明する。
図12は、本実施形態に係る音響処理を示すフローチャートである。
本実施形態に係る音響処理は、図10に示す音響処理においてステップS202が省略され、さらにステップS306−S309を有する。ステップS306−S309は、ステップS201が実行される前に実行される。また、図12に示す音響処理では、ステップS201の後にステップS203が実行される。
(ステップS306)雑音抑圧部203−2は、音響信号y(t)のチャネル数であるNチャネルにおいて、チャネル毎にステップS307の処理を実行する。
(ステップS307)雑音抑圧部203−2は、音響信号y(t)に基づくパワースペクトル|Y(k,l)|に含まれる雑音成分として雑音パワーλ(k,l)を第2の抑圧量で雑音成分を推定する。雑音抑圧部203−2は、パワースペクトル|Y(k,l)|から推定した雑音パワーλ(k,l)を減算して、第2の抑圧量で雑音成分が抑圧された複素雑音除去スペクトルX’’(k,l)を算出する。その後、ステップS308に進む。
(ステップS308)処理対象のチャネルを未処理のチャネルがなくなるまで変更して、ステップS307の処理を繰り返す。未処理のチャネルがなくなった後、ステップS309に進む。
(ステップS309)チャネル選択部211は、Nチャネルの複素雑音除去スペクトルX’’(k,l)に基づく第2雑音除去信号x’’(t)について、チャネル毎に強度を算出する。チャネル選択部211は、Nチャネルのうち算出した強度が最も大きいチャネルを選択する。
その後、選択されたチャネルについてステップS201、S203−S205を実行する。
なお、本実施形態では、雑音抑圧部103−1は、Nチャネルのそれぞれについてパワースペクトル|Y(k,l)|に含まれる雑音成分として雑音パワーλ(k,l)を第1の抑圧量で雑音成分を抑圧した複素雑音除去スペクトルX’(k,l)を算出してもよい。そして、チャネル選択部211は、Nチャネルの複素雑音除去スペクトルX’(k,l)に基づく第1雑音除去信号x’(t)について、それぞれ強度を算出し、Nチャネルのうち算出した強度が最も大きいチャネルを選択してもよい。そして、音声区間抽出部109は、選択されたチャネルについて第1雑音除去信号x’(t)から、音声区間検出部108から入力された音声区間検出情報が音声区間であることを示すフレームの信号を、音声区間信号z(t)として抽出してもよい。この場合、雑音抑圧部203−2は、音響信号y(t)に基づくパワースペクトル|Y(k,l)|に含まれる雑音成分として雑音パワーλ(k,l)を第2の抑圧量で雑音成分を推定する。雑音抑圧部203−2は、選択されたチャネルのパワースペクトル|Y(k,l)|から推定した雑音パワーλ(k,l)を減算して、第2の抑圧量で雑音成分が抑圧された複素雑音除去スペクトルX’’(k,l)を算出してもよい。
上述したように、本実施形態では、少なくとも2チャネルのそれぞれについて第1の抑圧量及び第2の抑圧量の一方で雑音成分を抑圧し、その一方で雑音成分が抑圧された音響信号の強度が、少なくとも2チャネルのうち最も大きいチャネルの音響信号について音声区間であるか否かを検出する。そして、本実施形態では、第1の抑圧量で雑音成分が抑圧されたそのチャネルの音響信号のうち、音声区間であると検出した区間について音声認識処理を行う。
そのため、最も強度が大きい音声の成分が含まれるチャネルについて音声区間検出や音声認識に係る処理がなされるため、雑音成分の影響をより低減して音声認識率を向上させることができる。
(第3の実施形態)
以下、図面を参照しながら本発明の第3の実施形態について前述の実施形態と同一の構成については同一の符号を付して説明する。
図13は、本実施形態に係る音響処理装置3の構成を示す概略ブロック図である。
音響処理装置3は、収音部201、周波数領域変換部102、2個の雑音抑圧部103−1、103−2、2個の時間領域変換部107−1、107−2、音声区間検出部108、音声区間抽出部109、音声認識部310、音源推定部312及び音源分離部313を含んで構成される。
即ち、音響処理装置3は、音響処理装置1(図1)において収音部101及び音声認識部110の代わりに収音部201及び音声認識部310を備え、更に音源推定部312及び音源分離部313を備える。
音源推定部312は、収音部201から入力されたNチャネルの音響信号y(t)について音源方向と音源の個数を推定する。音源推定部312は、各チャネルの時間領域の音響信号y(t)についてフレームl毎に周波数領域の複素スペクトルY(k,l)に変換する。音源推定部312は、変換した複素スペクトルY(k,l)に基づいてフレームl毎に相関行列R(k,l)を算出する。相関行列R(k,l)は、チャネルm(mは、1からNのうちいずれかの整数)の入力信号とチャネルn(nは、1からNのうちいずれかの整数)の入力信号とのチャネル間相関を、第m行第n列の要素値として有する行列である。これにより、相関行列R(k,l)は、N行N列の正方行列になる。音源推定部312は、チャネル間相関を現在のフレームまでの予め定めた長さの区間について累積(移動平均)することによって相関行列R(k,l)を算出してもよい。
音源推定部312は、算出した相関行列R(k,l)について公知の演算方法(例えば、QR法)を用いて固有値展開を行い、フレームl毎にN個の固有値λ,…,λと固有値λ,…,λのそれぞれに対応する固有ベクトルe(k,l),…,e(k,l)を算出する。固有値λ,…,λの順序1,…,Nは、その大きさの降順である。
音源推定部312は、周波数k、方向ψ毎に伝達関数ベクトルG(k,ψ)が予め記憶された記憶部(図示せず)を備えている。伝達関数ベクトルG(k,ψ)は、方向ψにある音源から収音部201の各マイクロホン(チャネル)までの伝達関数を要素値として含むN列のベクトルである。伝達関数ベクトルG(k,ψ)は、ステアリングベクトル(steering vector)とも呼ばれる。
音源推定部312は、各フレームlについて、周波数k、方向ψ毎に、N個の固有ベクトルe(k,l),…,e(k,l)と読み出した伝達関数ベクトルG(k,ψ)に基づいて空間スペクトルP(k,ψ,l)を算出する。音源推定部312は、空間スペクトルP(k,ψ,l)を算出する際に、例えば、式(8)を用いる。
Figure 2014145838
式(8)において、Lは、目的音源数である。目的音源数とは、目的音として、その音源方向を検知する音源数の最大値である。Lは、0よりも大きく、Nよりも小さい予め設定された整数である。*は、ベクトル又は行列の複素共役を示す演算子である。即ち、式(8)は、空間スペクトルP(k,ψ,l)が、伝達関数ベクトルG(k,ψ)のノルムを、伝達関数ベクトルG(k,ψ)とN−L個の固有ベクトルeL+1(k,l),…,e(k,l)のそれぞれとの内積の総和で除算して算出されることを示す。理想的には、N−L個の固有ベクトルeL+1(k,l),…,e(k,l)の方向は、最大L個の音源方向ψに係る伝達関数ベクトルG(k,ψ)のそれぞれと直交する。そのため、最大L個の音源方向ψのそれぞれに係る空間スペクトルP(k,ψ,l)は、他の方向に係る空間スペクトルP(k,ψ,l)よりも大きい値をとる。
音源推定部312は、算出した空間スペクトルP(k,ψ,l)を予め定めた周波数帯域内で平均して、各フレームl、方向ψについて、平均化空間スペクトル<P(ψ,l)>を算出する。音源推定部312は、<P(ψ,l)>を算出する際、例えば、式(9)を用いる。
Figure 2014145838
式(9)において、kは、上述の周波数帯域における周波数の上限(上限周波数)に係るインデックスを示し、kは、その周波数帯域における周波数の下限(下限周波数)に係るインデックスを示す。上限周波数は、例えば、3.5kHzであり、下限周波数は、例えば、0.5kHzである。式(9)の右辺の分母k−k+1は、加算の対象となる空間スペクトルP(k,ψ,l)の個数を示す。
音源推定部312は、算出した平均化空間スペクトル<P(ψ,l)>に基づいて、方向ψを定める。ここで、音源推定部312は、平均化空間スペクトル<P(ψ,l)>が予め定めた閾値よりも大きくなる音源方向ψであって、平均化空間スペクトル<P(ψ,l)>が極大値をとる方向ψを選択する。音源推定部312は、選択した方向ψを音源の方向と定め、定めた音源の数を計数して音源数と定める。計数した音源の数が、L個よりも多い場合には、音源推定部312は、平均化空間スペクトル<P(ψ,l)>が最も大きくなる方向ψからL番目に大きくなる方向ψまで選択する。この場合、音源推定部312は、音源数をL個と定める。
音源推定部312は、選択した各音源の音源方向と音源数を示す音源方向情報を音源分離部313に出力する。
音源分離部313は、音源推定部312から入力された音源方向情報が示す音源数が1個よりも多いか否かを判定する。
音源数が1個よりも多いと判定された場合には、音源分離部313は、音源方向情報が示す各音源の音源方向に基づき収音部201から入力されたNチャネルの音響信号から各音源の音響信号を分離する。ここで、音源分離部313は、例えば、収音部201において各チャネルに対応したマイクロホンの配置に基づいて音源方向情報が示す音源毎の音源方向への指向性が最も高くなる空間フィルタ係数をチャネル毎に算出する。音源分離部313は、算出した空間フィルタ係数をNチャネルの音響信号にそれぞれ畳み込み演算を行って、その音源の音響信号を生成する。なお、音源分離部313は、音源方向と各チャネルのマイクロホンの配置に基づいて、その音源の音響信号を生成することができる方法であれば、上述の方法に限られない。例えば、音源分離部313は、特開2012−42953号公報に記載の音源分離方法を用いてもよい。
音源分離部313は、分離した音源毎の音響信号を音声認識部310に出力する。
音源分離部313は、音源数が1個又は0個と判定された場合には、収音部201から入力されたNチャネルの音響信号のうち、少なくともいずれかのチャネルの音響信号を周波数領域変換部102に出力する。音源分離部313は、例えば、Nチャネルの音響信号のうち最も強度が大きいチャネルを選択し、選択したチャネルの音響信号を周波数領域変換部102に出力してもよい。
音声認識部310は、音声区間抽出部109から音声区間信号z(t)が入力された場合、つまり、音源数が1個又は0個と判定された場合には、音声認識部110と同様に音声区間信号z(t)について音声認識処理を行う。
音声認識部310は、音源分離部313から音源毎の音響信号が入力された場合、つまり、音源数が1個より多いと判定された場合には、入力された音源毎の音響信号について音声認識処理を行う。
次に、本実施形態に係る音響処理について説明する。
図14は、本実施形態に係る音響処理を示すフローチャートである。
(ステップS401)音源推定部312は、Nチャネルの時間領域の音響信号y(t)についてフレームl毎に相関行列R(k,l)を算出する。音源推定部312は、算出した相関行列R(k,l)の固有ベクトルe,…,eと伝達関数ベクトルG(k,ψ)に基づいて空間スペクトルP(k,ψ,l)を算出する。音源推定部312は、算出した空間スペクトルP(k,ψ,l)を予め定めた周波数帯域内で平均して、各フレームl、音源方向ψについて、平均化空間スペクトル<P(ψ,l)>を算出する。音源推定部312は、算出した平均化空間スペクトル<P(ψ,l)>が極大値をとる方向ψを音源方向と定め、定めた音源の数を計数して音源数を推定する。その後、ステップS402に進む。
(ステップS402)音源分離部313は、音源推定部312が推定する音源数が1個よりも多いか否かを判定する。音源数が1個よりも多いと判定された場合には(ステップS402 YES)、ステップS403に進む。音源数が1個又は0個と判定された場合には(ステップS402 NO)、ステップS407に進む。
(ステップS403)音源分離部313は、推定された音源毎の音源方向に基づきNチャネルの音響信号から音源毎の音響信号を分離する。その後、ステップS404に進む。
(ステップS404)音声認識部310は、推定された音源毎にステップS405の処理を実行する。
(ステップS405)音声認識部310は、音源分離部313から入力された音源毎の音響信号について音声認識処理を行う。その後、ステップS406に進む。
(ステップS406)処理対象の音源を他の未処理の音源に変更し、未処理の音源がなくなるまでステップS405の処理を繰り返す。未処理の音源がなくなったら処理を終了する。
(ステップS407)音源分離部313は、Nチャネルの音響信号のうち、いずれかのチャネルの音響信号を選択し、選択したチャネルの音響信号を周波数領域変換部102に出力する。その後、ステップS201に進む。そして、選択したチャネルの音響信号についてステップS201−S205に係る処理が行われる。
なお、音源推定部312は、相関行列R(k,l)の代わりに相関行列R(k,l)に予め定めた雑音相関行列K(k,l)で除算した行列について固有値展開を行ってもよい。雑音相関行列は、雑音を示す音響信号のチャネル間相関を要素値として有する行列である。これにより、雑音成分の影響を抑制して音声認識率を向上させることができる。
また、音源分離部313が分離した音源毎の音響信号のそれぞれについて、図12を用いて説明した音響処理を行ってもよい。これにより、分離した音響信号に雑音成分が含まれていても、その雑音成分が抑圧されて音声認識処理が行われるので、音声認識率を向上させることができる。
上述したように、本実施形態では、少なくとも2チャネルの音響信号について音源の個数と音源毎の方向を推定し、推定した音源の個数が少なくとも2個である場合、少なくとも2チャネルの音響信号から音源毎の方向に基づいて当該音源毎の音響信号に分離する。また、本実施形態では、分離した音源毎の音響信号のそれぞれについて音声認識処理を行う。
即ち、推定した音源の個数が少なくとも2個である場合、音源毎の音響信号を分離し、分離された音響信号について音声認識処理を行う。会話等のように同時に複数の音源が音を発生することが少ない場合には、音源毎の音響信号を分離する処理のように処理量の大きい処理を行う機会が限定される。そのため、複数の音源に対する音声認識において音声認識率を向上させるとともにシステム全体として処理量を低減することができる。
なお、上述した実施形態における音響処理装置1、2、3の一部、例えば、周波数領域変換部102、202、雑音抑圧部103−1、103−2、203−1、203−2、時間領域変換部107−1、107−2、207−2、音声区間検出部108、音声区間抽出部109、音声認識部110、310、チャネル選択部211、音源推定部312、及び音源分離部313をコンピュータで実現するようにしてもよい。その場合、この制御機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、音響処理装置1、2、3に内蔵されたコンピュータシステムであって、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。
また、上述した実施形態における音響処理装置1、2、3の一部、または全部を、LSI(Large Scale Integration)等の集積回路として実現してもよい。音響処理装置1、2、3の各機能ブロックは個別にプロセッサ化してもよいし、一部、または全部を集積してプロセッサ化してもよい。また、集積回路化の手法はLSIに限らず専用回路、または汎用プロセッサで実現してもよい。また、半導体技術の進歩によりLSIに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いてもよい。
以上、図面を参照してこの発明の一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。
1、2、3…音響処理装置、101、201…収音部、
102、202…周波数領域変換部、
103−1、103−2、203−1、203−2…雑音抑圧部、
104−1、104−2、204−1、204−2…パワー算出部、
105−1、105−2、205−2…雑音推定部、
106−1、106−2、206−2…減算部、
107−1、107−2、207−2…時間領域変換部、108…音声区間検出部、
109…音声区間抽出部、110、310…音声認識部、211…チャネル選択部、
312…音源推定部、313…音源分離部

Claims (5)

  1. 入力された音響信号に含まれる雑音成分を第1の抑圧量で抑圧する第1雑音抑圧部と、
    前記入力された音響信号に含まれる雑音成分を前記第1の抑圧量よりも大きい第2の抑圧量で抑圧する第2雑音抑圧部と、
    前記第2雑音抑圧部が雑音成分を抑圧した音響信号について音声が含まれる音声区間であるか否かを予め定めた時間毎に検出する音声区間検出部と、
    前記第1雑音抑圧部が雑音成分を抑圧した音響信号のうち、前記音声区間検出部が音声区間であると検出した区間について音声認識処理を行う音声認識部と、
    を備えることを特徴とする音響処理装置。
  2. 少なくとも2チャネルの音響信号を入力する音響信号入力部を備え、
    前記第1雑音抑圧部及び第2雑音抑圧部の一方は、前記少なくとも2チャネルのそれぞれについて雑音成分を抑圧し、
    前記音声区間検出部は、前記一方が雑音成分を抑圧した音響信号の強度が、前記少なくとも2チャネルのうち最も大きいチャネルである最大強度チャネルの音響信号について音声区間であるか否かを検出し、
    前記音声認識部は、前記第1雑音抑圧部が雑音成分を抑圧した前記最大強度チャネルの音響信号のうち、前記音声区間検出部が音声区間であると検出した区間について音声認識処理を行うことを特徴とする請求項1に記載の音響処理装置。
  3. 少なくとも2チャネルの音響信号を入力する音響信号入力部を備え、
    前記音響信号入力部が入力した少なくとも2チャネルの音響信号について音源の個数と音源毎の方向を推定する音源推定部と、
    前記音源推定部が推定した音源の個数が少なくとも2個である場合、前記少なくとも2チャネルの音響信号から前記音源毎の方向に基づいて当該音源毎の音響信号に分離する音源分離部と、
    前記音声認識部は、前記音源分離部が分離した音源毎の音響信号のそれぞれについて音声認識処理を行うことを特徴とする請求項1に記載の音響処理装置。
  4. 前記音声区間検出部は、前記第2雑音抑圧部が雑音成分を抑圧した音響信号の強度と零交差数をフレーム毎に算出し、算出した強度及び零交差数に基づいて音声区間であるか否かを検出することを特徴とする請求項1から3のいずれかに記載の音響処理装置。
  5. 音響処理装置における音響処理方法であって、
    入力された音響信号に含まれる雑音成分を第1の抑圧量で抑圧する第1雑音抑圧過程と、
    前記入力された音響信号に含まれる雑音成分を前記第1の抑圧量よりも大きい第2の抑圧量で抑圧する第2雑音抑圧過程と、
    前記第2雑音抑圧過程で雑音成分を抑圧した音響信号について音声が含まれる音声区間であるか否かを予め定めた時間毎に検出する音声区間検出過程と、
    前記第1雑音抑圧過程で雑音成分を抑圧した音響信号のうち、前記音声区間検出過程で音声区間であると検出した区間について音声認識処理を行う音声認識過程と、
    を有することを特徴とする音響処理方法。
JP2013013251A 2013-01-28 2013-01-28 音響処理装置及び音響処理方法 Pending JP2014145838A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2013013251A JP2014145838A (ja) 2013-01-28 2013-01-28 音響処理装置及び音響処理方法
US14/155,446 US9384760B2 (en) 2013-01-28 2014-01-15 Sound processing device and sound processing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013013251A JP2014145838A (ja) 2013-01-28 2013-01-28 音響処理装置及び音響処理方法

Publications (1)

Publication Number Publication Date
JP2014145838A true JP2014145838A (ja) 2014-08-14

Family

ID=51223885

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013013251A Pending JP2014145838A (ja) 2013-01-28 2013-01-28 音響処理装置及び音響処理方法

Country Status (2)

Country Link
US (1) US9384760B2 (ja)
JP (1) JP2014145838A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017009701A (ja) * 2015-06-18 2017-01-12 本田技研工業株式会社 音声認識装置、および音声認識方法
JP2017032857A (ja) * 2015-08-04 2017-02-09 本田技研工業株式会社 音声処理装置及び音声処理方法
US9595259B2 (en) 2014-08-29 2017-03-14 Honda Motor Co., Ltd. Sound source-separating device and sound source-separating method
JP2019020678A (ja) * 2017-07-21 2019-02-07 株式会社レイトロン ノイズ低減装置および音声認識装置
JP2019045576A (ja) * 2017-08-30 2019-03-22 日本電信電話株式会社 目的音声抽出方法、目的音声抽出装置及び目的音声抽出プログラム

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015155975A (ja) * 2014-02-20 2015-08-27 ソニー株式会社 音信号処理装置、および音信号処理方法、並びにプログラム
WO2016033269A1 (en) * 2014-08-28 2016-03-03 Analog Devices, Inc. Audio processing using an intelligent microphone
JP6677614B2 (ja) * 2016-09-16 2020-04-08 株式会社東芝 会議支援システム、会議支援方法及びプログラム
JP2018159759A (ja) * 2017-03-22 2018-10-11 株式会社東芝 音声処理装置、音声処理方法およびプログラム
JP6646001B2 (ja) * 2017-03-22 2020-02-14 株式会社東芝 音声処理装置、音声処理方法およびプログラム
US10339962B2 (en) * 2017-04-11 2019-07-02 Texas Instruments Incorporated Methods and apparatus for low cost voice activity detector
JP6345327B1 (ja) * 2017-09-07 2018-06-20 ヤフー株式会社 音声抽出装置、音声抽出方法および音声抽出プログラム
CN109859749A (zh) * 2017-11-30 2019-06-07 阿里巴巴集团控股有限公司 一种语音信号识别方法和装置
WO2019197002A1 (en) * 2018-04-13 2019-10-17 Aalborg Universitet Generating sound zones using variable span filters

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006330389A (ja) * 2005-05-26 2006-12-07 Matsushita Electric Works Ltd 音声認識装置
JP2007093635A (ja) * 2005-09-26 2007-04-12 Doshisha 既知雑音除去装置
WO2008004499A1 (fr) * 2006-07-03 2008-01-10 Nec Corporation Procédé, dispositif et programme de suppression du bruit
JP2008122927A (ja) * 2006-09-13 2008-05-29 Honda Motor Co Ltd モータ雑音下におけるロボット用音声認識方法
JP2011191759A (ja) * 2010-03-11 2011-09-29 Honda Motor Co Ltd 音声認識装置及び音声認識方法
JP2012042953A (ja) * 2010-08-17 2012-03-01 Honda Motor Co Ltd 音源分離装置及び音源分離方法
US20120239394A1 (en) * 2011-03-18 2012-09-20 Fujitsu Limited Erroneous detection determination device, erroneous detection determination method, and storage medium storing erroneous detection determination program
JP2013011680A (ja) * 2011-06-28 2013-01-17 Fujitsu Ltd 話者判別装置、話者判別プログラム及び話者判別方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7617099B2 (en) * 2001-02-12 2009-11-10 FortMedia Inc. Noise suppression by two-channel tandem spectrum modification for speech signal in an automobile
US6678656B2 (en) * 2002-01-30 2004-01-13 Motorola, Inc. Noise reduced speech recognition parameters
WO2010052749A1 (ja) * 2008-11-04 2010-05-14 三菱電機株式会社 雑音抑圧装置
US8650029B2 (en) * 2011-02-25 2014-02-11 Microsoft Corporation Leveraging speech recognizer feedback for voice activity detection
JP2012234150A (ja) 2011-04-18 2012-11-29 Sony Corp 音信号処理装置、および音信号処理方法、並びにプログラム
US9137611B2 (en) * 2011-08-24 2015-09-15 Texas Instruments Incorporation Method, system and computer program product for estimating a level of noise
US9286907B2 (en) * 2011-11-23 2016-03-15 Creative Technology Ltd Smart rejecter for keyboard click noise
TWI474317B (zh) * 2012-07-06 2015-02-21 Realtek Semiconductor Corp 訊號處理裝置以及訊號處理方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006330389A (ja) * 2005-05-26 2006-12-07 Matsushita Electric Works Ltd 音声認識装置
JP2007093635A (ja) * 2005-09-26 2007-04-12 Doshisha 既知雑音除去装置
WO2008004499A1 (fr) * 2006-07-03 2008-01-10 Nec Corporation Procédé, dispositif et programme de suppression du bruit
JP2008122927A (ja) * 2006-09-13 2008-05-29 Honda Motor Co Ltd モータ雑音下におけるロボット用音声認識方法
JP2011191759A (ja) * 2010-03-11 2011-09-29 Honda Motor Co Ltd 音声認識装置及び音声認識方法
JP2012042953A (ja) * 2010-08-17 2012-03-01 Honda Motor Co Ltd 音源分離装置及び音源分離方法
US20120239394A1 (en) * 2011-03-18 2012-09-20 Fujitsu Limited Erroneous detection determination device, erroneous detection determination method, and storage medium storing erroneous detection determination program
JP2013011680A (ja) * 2011-06-28 2013-01-17 Fujitsu Ltd 話者判別装置、話者判別プログラム及び話者判別方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9595259B2 (en) 2014-08-29 2017-03-14 Honda Motor Co., Ltd. Sound source-separating device and sound source-separating method
JP2017009701A (ja) * 2015-06-18 2017-01-12 本田技研工業株式会社 音声認識装置、および音声認識方法
JP2017032857A (ja) * 2015-08-04 2017-02-09 本田技研工業株式会社 音声処理装置及び音声処理方法
US10622008B2 (en) 2015-08-04 2020-04-14 Honda Motor Co., Ltd. Audio processing apparatus and audio processing method
JP2019020678A (ja) * 2017-07-21 2019-02-07 株式会社レイトロン ノイズ低減装置および音声認識装置
JP2019045576A (ja) * 2017-08-30 2019-03-22 日本電信電話株式会社 目的音声抽出方法、目的音声抽出装置及び目的音声抽出プログラム

Also Published As

Publication number Publication date
US9384760B2 (en) 2016-07-05
US20140214418A1 (en) 2014-07-31

Similar Documents

Publication Publication Date Title
JP2014145838A (ja) 音響処理装置及び音響処理方法
JP6169910B2 (ja) 音声処理装置
JP6077957B2 (ja) 音声処理装置、音声処理方法、及び音声処理プログラム
JP5528538B2 (ja) 雑音抑圧装置
CN112447191A (zh) 信号处理装置以及信号处理方法
JP5127754B2 (ja) 信号処理装置
JP5706782B2 (ja) 音源分離装置及び音源分離方法
JP6261043B2 (ja) 音声処理装置、音声処理方法、及び音声処理プログラム
US20170140771A1 (en) Information processing apparatus, information processing method, and computer program product
JP5156043B2 (ja) 音声判別装置
JP2014137405A (ja) 音響処理装置及び音響処理方法
US10622008B2 (en) Audio processing apparatus and audio processing method
JP6334895B2 (ja) 信号処理装置及びその制御方法、プログラム
JP6543848B2 (ja) 音声処理装置、音声処理方法及びプログラム
JP2011033717A (ja) 雑音抑圧装置
US8423360B2 (en) Speech recognition apparatus, method and computer program product
JP5803125B2 (ja) 音声による抑圧状態検出装置およびプログラム
JP2001005486A (ja) 音声処理装置及び方法
JP2002366192A (ja) 音声認識方法及び音声認識装置
KR101361034B1 (ko) 하모닉 주파수 의존성을 이용한 독립벡터분석에 기반한 강한 음성 인식 방법 및 이를 이용한 음성 인식 시스템
Wu et al. Joint nonnegative matrix factorization for exemplar-based voice conversion
KR101610708B1 (ko) 음성 인식 장치 및 방법
JP6106618B2 (ja) 音声区間検出装置、音声認識装置、その方法、及びプログラム
JP6633579B2 (ja) 音響信号処理装置、方法及びプログラム
JP6653687B2 (ja) 音響信号処理装置、方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20151126

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20161214

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170117

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170314

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170808

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171010

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20180403