JP2014145838A - 音響処理装置及び音響処理方法 - Google Patents
音響処理装置及び音響処理方法 Download PDFInfo
- Publication number
- JP2014145838A JP2014145838A JP2013013251A JP2013013251A JP2014145838A JP 2014145838 A JP2014145838 A JP 2014145838A JP 2013013251 A JP2013013251 A JP 2013013251A JP 2013013251 A JP2013013251 A JP 2013013251A JP 2014145838 A JP2014145838 A JP 2014145838A
- Authority
- JP
- Japan
- Prior art keywords
- unit
- noise
- sound
- speech
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 title claims abstract description 79
- 238000003672 processing method Methods 0.000 title claims abstract description 7
- 230000001629 suppression Effects 0.000 claims abstract description 133
- 238000000034 method Methods 0.000 claims abstract description 83
- 230000008569 process Effects 0.000 claims abstract description 63
- 238000001514 detection method Methods 0.000 claims abstract description 56
- 230000005236 sound signal Effects 0.000 claims abstract description 38
- 238000000926 separation method Methods 0.000 claims description 27
- 238000004364 calculation method Methods 0.000 abstract description 30
- 230000006872 improvement Effects 0.000 abstract description 3
- 230000009467 reduction Effects 0.000 abstract description 3
- 238000001228 spectrum Methods 0.000 description 96
- 238000006243 chemical reaction Methods 0.000 description 37
- 230000001186 cumulative effect Effects 0.000 description 28
- 230000006870 function Effects 0.000 description 20
- 238000000605 extraction Methods 0.000 description 17
- 239000011159 matrix material Substances 0.000 description 17
- 238000010586 diagram Methods 0.000 description 16
- 238000012546 transfer Methods 0.000 description 9
- 230000007423 decrease Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
【解決手段】第1雑音抑圧部は入力された音響信号に含まれる雑音成分を第1の抑圧量で抑圧し、第2雑音抑圧部は入力された音響信号に含まれる雑音成分を第1の抑圧量よりも大きい第2の抑圧量で抑圧し、音声区間検出部は第2雑音抑圧部が雑音成分を抑圧した音響信号について音声が含まれる音声区間であるか否かを予め定めた時間毎に検出し、音声認識部は第1雑音抑圧部が雑音成分を抑圧した音響信号のうち、音声区間検出部が音声区間であると検出した区間について音声認識処理を行う。
【選択図】図1
Description
上述の(2)の態様によれば、最も強度が大きい音声の成分が含まれるチャネルについて音声区間検出や音声認識に係る処理がなされるため、雑音成分の影響をより低減して音声認識率を向上させることができる。
上述の(3)の態様によれば、同時に複数の音源が音を発生することが少ない場合には、音源毎の音響信号を分離する処理のように処理量の大きい処理を行う機会が限定される。そのため、複数の音源に対する音声認識において音声認識率を向上させるとともにシステム全体として処理量を低減することができる。
上述の(4)の態様によれば、音声と非音声とを明確に判別する手がかりとしてフレーム毎の強度と零交差数を用いるため、そのフレームが音声認識の対象となる音声区間であることが的確に判別されるので音声認識率が向上する。
以下、図面を参照しながら本発明の第1の実施形態について説明する。
図1は、本実施形態に係る音響処理装置1の構成を示す概略ブロック図である。
音響処理装置1は、収音部101、周波数領域変換部102、2個の雑音抑圧部103−1、103−2、2個の時間領域変換部107−1、107−2、音声区間検出部108、音声区間抽出部109及び音声認識部110を含んで構成される。
周波数領域変換部102は、収音部101から入力され、時間領域で表された音響信号y(t)を、周波数領域で表された複素入力スペクトルY(k,l)に変換する。kは、周波数を表すインデックスである。lは、各フレームを表すインデックスである。ここで、周波数領域変換部102は、音響信号y(t)について、例えば、フレームl毎に離散フーリエ変換(DFT:Discrete Fourier Transform)を行う。周波数領域変換部102は、音響信号y(t)に窓関数(例えば、ハミング窓)を乗算して、窓関数が乗算された音響信号について周波数領域で表された複素入力スペクトルY(k,l)に変換してもよい。
周波数領域変換部102は、変換した複素入力スペクトルY(k,l)を2個の雑音抑圧部103−1、103−2のそれぞれに出力する。
パワー算出部104−2は、パワー算出部104−1と同様に、複素入力スペクトルY(k,l)に基づいて算出したパワースペクトル|Y(k,l)|2を雑音推定部105−2及び減算部106−2に出力する。
雑音推定部105−2は、雑音推定部105−2と同様に、パワー算出部104−2から入力されたパワースペクトル|Y(k,l)|2に基づいて雑音パワーλ(k,l)を算出する。
雑音推定部105−1、105−2は、算出した雑音パワーλ(k,l)を減算部106−1、106−2に出力する。
ここで、減算部106−1は、パワー算出部104−1から入力されたパワースペクトル|Y(k,l)|2と雑音推定部105−1から入力された雑音パワーλ(k,l)とに基づいて、利得GSS(k,l)を、例えば式(1)を用いて算出する。
減算部106−2は、減算部106−1と同様に、パワー算出部104−2から入力されたパワースペクトル|Y(k,l)|2と雑音推定部105−1から入力された雑音パワーλ(k,l)に基づいて、複素雑音除去スペクトルX’’(k,l)を算出する。減算部106−2は、算出した複素雑音除去スペクトルX’’(k,l)を時間領域変換部107−2に出力する。
まず、音声区間検出部108は、第2雑音除去信号x’’(t)についてフレーム毎に有音区間であるか無音区間であるかを判定する。音声区間検出部108は、例えば、あるフレームを形成する信号値の強度が予め定めた強度の閾値を超える場合、そのフレームは有音区間であると判定する。音声区間検出部108は、その強度が予め定めた強度の閾値と等しいか、その強度の閾値よりも小さいとき、そのフレームは無音区間であると判定する。有音区間であるか否かの判定例については、後述する。
音声区間検出部108は、フレーム毎に音声区間であるか非音声区間であるかを示す音声区間検出情報を生成し、生成した音声区間検出情報を音声区間抽出部109に出力する。音声区間検出情報は、例えば、音声区間であることを示す場合、1である値を有し、非音声区間であることを示す場合、0である値を有する二値(バイナリ)情報であってもよい。
HRLE法は、ある周波数について、パワー毎の頻度を計数してヒストグラムを生成し、生成したヒストグラムにおいて計数した頻度をパワーについて累積した累積頻度を算出し、予め定めた累積頻度Lxを与えるパワーを雑音パワーと定める方法である。従って、累積頻度Lxが大きいほど、推定される雑音パワーが大きくなり、累積頻度Lxが小さいほど、推定される雑音パワーが小さくなる。
図2において、横軸はパワーを示し、縦軸は頻度を示す。図2は、パワーの区間毎の頻度を示す。頻度は、所定の時間におけるフレーム毎に、算出されたパワー(スペクトル)があるパワーの区間に属すると判定された回数であり、度数とも呼ばれる。図2に示す例では、左側から2番目のパワーの区間に係る頻度が最も高いことを示す。このパワーの区間を、以下の説明では階級と呼ぶことがある。
図3において、横軸はパワーを示し、縦軸は累積頻度を示す。図3に示す累積頻度は、パワーの区間毎に図2に示す頻度を最も左側に示されている区間から順次累積した値である。累積頻度は、累積度数とも呼ばれる。Lxは、HRLE法を用いて雑音パワーを算出する際に用いる累積頻度を示す。図3の例では、累積頻度Lxに対応するパワーが、左から4番目のパワーの区間に係るパワーである。HRLE法では、このパワーが、雑音パワーと定められる。
図4は、本実施形態に係る雑音推定処理を示すフローチャートである。
(ステップS101)雑音推定部105−1、105−2は、パワースペクトル|Y(k,l)|2に基づき対数スペクトルYL(k,l)を算出する。ここで、YL(k,l)は、式(2)で表される。
(ステップS102)雑音推定部105−1、105−2は、算出した対数スペクトルYL(k,l)が属する階級Iy(k,l)を定める。ここで、Iy(k,l)は、式(3)で表される。
(ステップS105)雑音推定部105−1、105−2は、累積頻度Lxに対応する累積度数S(k,l,Imax)・Lxに最も近似する累積度数S(k,l,i)を与える階級iを、推定階級Ix(k,l)として定める。即ち、推定階級Ix(k,l)は、累積度数S(k,l,i)との間で式(5)に示す関係がある。
その後、ステップS106に進む。
(ステップS106)雑音推定部105−1、105−2は、推定階級Ix(k,l)を対数レベルλHRLE(k,l)に換算する。λHRLE(k,l)は、例えば、式(6)を用いて算出される。
図5は、入力信号y(t)の一例を示す図である。
図5において、横軸は時刻を示し、縦軸は入力信号y(t)の信号値を示す。図5では、背景雑音が重畳しているため、全体にわたり信号値の絶対値の平均が約0.03と零よりも有意に大きい値をとる。従って、この信号値と同等又はそれよりも小さい音声は検知されない。
図6は、第2雑音除去信号x’’(t)の一例を示す図である。
図6において、横軸は時刻を示し、縦軸は第2雑音除去信号x’’(t)の信号値を示す。第2雑音除去信号x’’(t)の信号値の絶対値の平均は、例えば、時刻が20.0―20.7秒、21.3−23.0秒、24.0−25.7秒、26.4−27.4秒の各区間では、約0.002である。この値は、入力信号y(t)における約0.03よりも著しく小さいから、入力信号y(t)から背景雑音が抑圧されたことが示される。第2雑音除去信号x’’(t)では、左右方向に延びる2本の一点鎖線は、それぞれ音声区間検出部108が有音区間であるか否かを判定する際に用いる閾値を示す。この例では、閾値が、信号値(振幅)の絶対値が0.01であることを示す。ここで、音声区間検出部108は、信号値の絶対値のフレーム内の平均値を強度として用い、強度が閾値よりも大きいときに、そのフレームが有音区間と判定し、強度が閾値と等しいか閾値よりも小さいときに、そのフレームが無音区間であると判定する。なお、音声区間検出部108は、強度として信号値の二乗値のフレーム内の総和であるパワーを用いてもよい。
ここで、時刻が20.7−21.3秒、23.0−24.0秒、25.7−26.4秒であるときに発話された音声による音響信号の波形が明瞭に示されている。これらの区間は、いずれも有音区間と判定される。
音声区間検出部108は、例えば、有音区間であると判定したフレーム内の零交差数(number of zero crossings)を計数する。零交差数とは、零交差点(ゼロクロス点(zero crossing)とも呼ばれる)の数である。零交差点とは、そのフレームを構成する信号値が零を跨ぐ点である。例えば、ある時刻での信号値1が負値である場合、その次の時刻の信号値2が正値に変化するとき、信号値1、2の間を結ぶ線分上における信号値が零となる点である。また、ある時刻での信号値3が正値である場合、その次の時刻の信号値4が負値に変化するとき、信号値3、4の間を結ぶ線分上における信号値が零となる点である。
音声区間検出部108は、計数した零交差数が予め定めた零交差数の閾値(例えば、フレーム長が32msである場合、15個)よりも大きい場合、そのフレームが音声区間であると判定し、それ以外の場合、そのフレームが非音声区間であると判定する。非音声区間には、無音区間も含まれる。
図7において、横軸は時刻を示し、縦軸は第2雑音除去信号x’’(t)の信号値を示す。図7では、時刻と信号値の単位や目盛は省略されている。
図7において、時刻の変化によって振幅が周期的に変化する曲線は、各時刻における第2雑音除去信号x’’(t)の信号値を示す。図7では、信号値が正値から負値に変化する点、負値から正値に変化する点、それぞれ円で囲まれている。この円で囲まれている4つの点が、それぞれ零交差点である。
図8は、音声区間検出情報の例を示す図である。
図8において、横軸は時刻を示し、縦軸は音声区間検出情報を形成する信号値を示す。図8に示す例では、時刻が20.7−21.3秒、23.0−24.0秒、25.7−26.4秒である区間では、信号値が1であり、その他の時刻では、信号値が0である。つまり、音声区間検出情報は、時刻が20.7−21.3秒、23.0−24.0秒、25.7−26.4秒である区間でのフレームが音声区間であり、その他の時刻では非音声区間であることを示す。
図9は、音声区間信号の例を示す図である。
図9において、横軸は時刻を示し、縦軸は音声区間信号z(t)の信号値を示す。図9の横軸が示す時刻の範囲は、図6、8の横軸が示す範囲と同様である。図9に示す例では、時刻が20.7−21.3秒、23.0−24.0秒、25.7−26.4秒である場合には第1雑音除去信号x’(t)の信号値が示されている。それ以外の時刻では、振幅が0である。第1雑音除去信号x’(t)のうち、図8に示される音声区間が、音声区間信号z(t)として抽出されていることを示す。抽出された音声区間信号z(t)について、音声認識部110が音声認識処理を行う。
図10は、本実施形態に係る音響処理を示すフローチャートである。
(ステップS201)雑音抑圧部103−1は、音響信号y(t)に基づくパワースペクトル|Y(k,l)|2に含まれる雑音成分として雑音パワーλ(k,l)を、例えばHRLE法を用いて第1の抑圧量で推定する。雑音抑圧部103−1は、パワースペクトル|Y(k,l)|2から推定した雑音パワーλ(k,l)を減算して、第1の抑圧量で雑音成分が抑圧された複素雑音除去スペクトルX’(k,l)を算出する。その後、ステップS202に進む。
(ステップS205)音声認識部110は、音声区間信号z(t)について音声認識処理を行い、発話内容を認識する。その後、処理を終了する。
また、本実施形態では複数チャネルの音信号について音源方向を推定し、複数チャネルの音信号から音源毎の音響信号に分離する等の計算コストの高い処理を含めなくてもよい。そのため、計算コストの低減と音声認識率の向上を両立することができる。
次に、本発明の第2の実施形態について、前述した実施形態と同一の構成について同一の符号を付して説明する。
図11は、本実施形態に係る音響処理装置2の構成を示す概略ブロック図である。
音響処理装置2は、収音部201、周波数領域変換部202、2個の雑音抑圧部203−1、203−2、2個の時間領域変換部107−1、207−2、音声区間検出部108、音声区間抽出部109、音声認識部110及びチャネル選択部211を含んで構成される。即ち、音響処理装置2は、音響処理装置1(図1)において収音部101、雑音抑圧部103−1、103−2及び時間領域変換部107−2の代わりに、収音部201、雑音抑圧部203−1、203−2及び時間領域変換部207−2を備え、更にチャネル選択部211を備える。
周波数領域変換部202は、収音部201から入力されたNチャネルの音響信号y(t)のそれぞれを、周波数領域変換部102と同様な処理を行って周波数領域で表された複素入力スペクトルY(k,l)に変換する。
周波数領域変換部202は、変換したNチャネルの複素入力スペクトルY(k,l)を2個の雑音抑圧部203−1、203−2のそれぞれに出力する。
パワー算出部204−1は、周波数領域変換部202からNチャネルの複素入力スペクトルY(k,l)が入力され、チャネル選択部211からチャネル選択信号が入力される。チャネル選択信号については、後述する。パワー算出部204−1は、入力されたNチャネルの複素入力スペクトルY(k,l)のうち、チャネル選択信号が示すチャネルの複素入力スペクトルY(k,l)のパワースペクトル|Y(k,l)|2を算出する。パワー算出部104−1は、算出したパワースペクトル|Y(k,l)|2を雑音推定部105−1及び減算部106−1に出力する。
パワー算出部204−2は、周波数領域変換部202からNチャネルの複素入力スペクトルY(k,l)が入力され、それぞれのチャネルについてパワースペクトル|Y(k,l)|2を算出する。パワー算出部204−2は、算出したNチャネルのパワースペクトル|Y(k,l)|2を雑音推定部205−2及び減算部206−2に出力する。
減算部206−2は、パワー算出部204−2から入力されたNチャネルのパワースペクトル|Y(k,l)|2から、それぞれ対応するチャネルの雑音パワーλ(k,l)を減算して複素雑音除去スペクトルX’’(k,l)を算出する。減算部206−2が雑音パワーλ(k,l)を減算する処理は、減算部106−1が雑音パワーλ(k,l)を減算する処理と同様であってもよい。
減算部206−2は、算出したNチャネルの複素雑音除去スペクトルX’’(k,l)を時間領域変換部207−2に出力する。
図12は、本実施形態に係る音響処理を示すフローチャートである。
本実施形態に係る音響処理は、図10に示す音響処理においてステップS202が省略され、さらにステップS306−S309を有する。ステップS306−S309は、ステップS201が実行される前に実行される。また、図12に示す音響処理では、ステップS201の後にステップS203が実行される。
(ステップS307)雑音抑圧部203−2は、音響信号y(t)に基づくパワースペクトル|Y(k,l)|2に含まれる雑音成分として雑音パワーλ(k,l)を第2の抑圧量で雑音成分を推定する。雑音抑圧部203−2は、パワースペクトル|Y(k,l)|2から推定した雑音パワーλ(k,l)を減算して、第2の抑圧量で雑音成分が抑圧された複素雑音除去スペクトルX’’(k,l)を算出する。その後、ステップS308に進む。
(ステップS308)処理対象のチャネルを未処理のチャネルがなくなるまで変更して、ステップS307の処理を繰り返す。未処理のチャネルがなくなった後、ステップS309に進む。
その後、選択されたチャネルについてステップS201、S203−S205を実行する。
そのため、最も強度が大きい音声の成分が含まれるチャネルについて音声区間検出や音声認識に係る処理がなされるため、雑音成分の影響をより低減して音声認識率を向上させることができる。
以下、図面を参照しながら本発明の第3の実施形態について前述の実施形態と同一の構成については同一の符号を付して説明する。
図13は、本実施形態に係る音響処理装置3の構成を示す概略ブロック図である。
音響処理装置3は、収音部201、周波数領域変換部102、2個の雑音抑圧部103−1、103−2、2個の時間領域変換部107−1、107−2、音声区間検出部108、音声区間抽出部109、音声認識部310、音源推定部312及び音源分離部313を含んで構成される。
即ち、音響処理装置3は、音響処理装置1(図1)において収音部101及び音声認識部110の代わりに収音部201及び音声認識部310を備え、更に音源推定部312及び音源分離部313を備える。
音源推定部312は、周波数k、方向ψ毎に伝達関数ベクトルG(k,ψ)が予め記憶された記憶部(図示せず)を備えている。伝達関数ベクトルG(k,ψ)は、方向ψにある音源から収音部201の各マイクロホン(チャネル)までの伝達関数を要素値として含むN列のベクトルである。伝達関数ベクトルG(k,ψ)は、ステアリングベクトル(steering vector)とも呼ばれる。
音源推定部312は、選択した各音源の音源方向と音源数を示す音源方向情報を音源分離部313に出力する。
音源数が1個よりも多いと判定された場合には、音源分離部313は、音源方向情報が示す各音源の音源方向に基づき収音部201から入力されたNチャネルの音響信号から各音源の音響信号を分離する。ここで、音源分離部313は、例えば、収音部201において各チャネルに対応したマイクロホンの配置に基づいて音源方向情報が示す音源毎の音源方向への指向性が最も高くなる空間フィルタ係数をチャネル毎に算出する。音源分離部313は、算出した空間フィルタ係数をNチャネルの音響信号にそれぞれ畳み込み演算を行って、その音源の音響信号を生成する。なお、音源分離部313は、音源方向と各チャネルのマイクロホンの配置に基づいて、その音源の音響信号を生成することができる方法であれば、上述の方法に限られない。例えば、音源分離部313は、特開2012−42953号公報に記載の音源分離方法を用いてもよい。
音源分離部313は、分離した音源毎の音響信号を音声認識部310に出力する。
音声認識部310は、音源分離部313から音源毎の音響信号が入力された場合、つまり、音源数が1個より多いと判定された場合には、入力された音源毎の音響信号について音声認識処理を行う。
図14は、本実施形態に係る音響処理を示すフローチャートである。
(ステップS401)音源推定部312は、Nチャネルの時間領域の音響信号y(t)についてフレームl毎に相関行列R(k,l)を算出する。音源推定部312は、算出した相関行列R(k,l)の固有ベクトルe1,…,eNと伝達関数ベクトルG(k,ψ)に基づいて空間スペクトルP(k,ψ,l)を算出する。音源推定部312は、算出した空間スペクトルP(k,ψ,l)を予め定めた周波数帯域内で平均して、各フレームl、音源方向ψについて、平均化空間スペクトル<P(ψ,l)>を算出する。音源推定部312は、算出した平均化空間スペクトル<P(ψ,l)>が極大値をとる方向ψを音源方向と定め、定めた音源の数を計数して音源数を推定する。その後、ステップS402に進む。
(ステップS403)音源分離部313は、推定された音源毎の音源方向に基づきNチャネルの音響信号から音源毎の音響信号を分離する。その後、ステップS404に進む。
(ステップS405)音声認識部310は、音源分離部313から入力された音源毎の音響信号について音声認識処理を行う。その後、ステップS406に進む。
(ステップS406)処理対象の音源を他の未処理の音源に変更し、未処理の音源がなくなるまでステップS405の処理を繰り返す。未処理の音源がなくなったら処理を終了する。
また、音源分離部313が分離した音源毎の音響信号のそれぞれについて、図12を用いて説明した音響処理を行ってもよい。これにより、分離した音響信号に雑音成分が含まれていても、その雑音成分が抑圧されて音声認識処理が行われるので、音声認識率を向上させることができる。
即ち、推定した音源の個数が少なくとも2個である場合、音源毎の音響信号を分離し、分離された音響信号について音声認識処理を行う。会話等のように同時に複数の音源が音を発生することが少ない場合には、音源毎の音響信号を分離する処理のように処理量の大きい処理を行う機会が限定される。そのため、複数の音源に対する音声認識において音声認識率を向上させるとともにシステム全体として処理量を低減することができる。
また、上述した実施形態における音響処理装置1、2、3の一部、または全部を、LSI(Large Scale Integration)等の集積回路として実現してもよい。音響処理装置1、2、3の各機能ブロックは個別にプロセッサ化してもよいし、一部、または全部を集積してプロセッサ化してもよい。また、集積回路化の手法はLSIに限らず専用回路、または汎用プロセッサで実現してもよい。また、半導体技術の進歩によりLSIに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いてもよい。
102、202…周波数領域変換部、
103−1、103−2、203−1、203−2…雑音抑圧部、
104−1、104−2、204−1、204−2…パワー算出部、
105−1、105−2、205−2…雑音推定部、
106−1、106−2、206−2…減算部、
107−1、107−2、207−2…時間領域変換部、108…音声区間検出部、
109…音声区間抽出部、110、310…音声認識部、211…チャネル選択部、
312…音源推定部、313…音源分離部
Claims (5)
- 入力された音響信号に含まれる雑音成分を第1の抑圧量で抑圧する第1雑音抑圧部と、
前記入力された音響信号に含まれる雑音成分を前記第1の抑圧量よりも大きい第2の抑圧量で抑圧する第2雑音抑圧部と、
前記第2雑音抑圧部が雑音成分を抑圧した音響信号について音声が含まれる音声区間であるか否かを予め定めた時間毎に検出する音声区間検出部と、
前記第1雑音抑圧部が雑音成分を抑圧した音響信号のうち、前記音声区間検出部が音声区間であると検出した区間について音声認識処理を行う音声認識部と、
を備えることを特徴とする音響処理装置。 - 少なくとも2チャネルの音響信号を入力する音響信号入力部を備え、
前記第1雑音抑圧部及び第2雑音抑圧部の一方は、前記少なくとも2チャネルのそれぞれについて雑音成分を抑圧し、
前記音声区間検出部は、前記一方が雑音成分を抑圧した音響信号の強度が、前記少なくとも2チャネルのうち最も大きいチャネルである最大強度チャネルの音響信号について音声区間であるか否かを検出し、
前記音声認識部は、前記第1雑音抑圧部が雑音成分を抑圧した前記最大強度チャネルの音響信号のうち、前記音声区間検出部が音声区間であると検出した区間について音声認識処理を行うことを特徴とする請求項1に記載の音響処理装置。 - 少なくとも2チャネルの音響信号を入力する音響信号入力部を備え、
前記音響信号入力部が入力した少なくとも2チャネルの音響信号について音源の個数と音源毎の方向を推定する音源推定部と、
前記音源推定部が推定した音源の個数が少なくとも2個である場合、前記少なくとも2チャネルの音響信号から前記音源毎の方向に基づいて当該音源毎の音響信号に分離する音源分離部と、
前記音声認識部は、前記音源分離部が分離した音源毎の音響信号のそれぞれについて音声認識処理を行うことを特徴とする請求項1に記載の音響処理装置。 - 前記音声区間検出部は、前記第2雑音抑圧部が雑音成分を抑圧した音響信号の強度と零交差数をフレーム毎に算出し、算出した強度及び零交差数に基づいて音声区間であるか否かを検出することを特徴とする請求項1から3のいずれかに記載の音響処理装置。
- 音響処理装置における音響処理方法であって、
入力された音響信号に含まれる雑音成分を第1の抑圧量で抑圧する第1雑音抑圧過程と、
前記入力された音響信号に含まれる雑音成分を前記第1の抑圧量よりも大きい第2の抑圧量で抑圧する第2雑音抑圧過程と、
前記第2雑音抑圧過程で雑音成分を抑圧した音響信号について音声が含まれる音声区間であるか否かを予め定めた時間毎に検出する音声区間検出過程と、
前記第1雑音抑圧過程で雑音成分を抑圧した音響信号のうち、前記音声区間検出過程で音声区間であると検出した区間について音声認識処理を行う音声認識過程と、
を有することを特徴とする音響処理方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013013251A JP2014145838A (ja) | 2013-01-28 | 2013-01-28 | 音響処理装置及び音響処理方法 |
US14/155,446 US9384760B2 (en) | 2013-01-28 | 2014-01-15 | Sound processing device and sound processing method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013013251A JP2014145838A (ja) | 2013-01-28 | 2013-01-28 | 音響処理装置及び音響処理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2014145838A true JP2014145838A (ja) | 2014-08-14 |
Family
ID=51223885
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013013251A Pending JP2014145838A (ja) | 2013-01-28 | 2013-01-28 | 音響処理装置及び音響処理方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US9384760B2 (ja) |
JP (1) | JP2014145838A (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017009701A (ja) * | 2015-06-18 | 2017-01-12 | 本田技研工業株式会社 | 音声認識装置、および音声認識方法 |
JP2017032857A (ja) * | 2015-08-04 | 2017-02-09 | 本田技研工業株式会社 | 音声処理装置及び音声処理方法 |
US9595259B2 (en) | 2014-08-29 | 2017-03-14 | Honda Motor Co., Ltd. | Sound source-separating device and sound source-separating method |
JP2019020678A (ja) * | 2017-07-21 | 2019-02-07 | 株式会社レイトロン | ノイズ低減装置および音声認識装置 |
JP2019045576A (ja) * | 2017-08-30 | 2019-03-22 | 日本電信電話株式会社 | 目的音声抽出方法、目的音声抽出装置及び目的音声抽出プログラム |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015155975A (ja) * | 2014-02-20 | 2015-08-27 | ソニー株式会社 | 音信号処理装置、および音信号処理方法、並びにプログラム |
WO2016033269A1 (en) * | 2014-08-28 | 2016-03-03 | Analog Devices, Inc. | Audio processing using an intelligent microphone |
JP6677614B2 (ja) * | 2016-09-16 | 2020-04-08 | 株式会社東芝 | 会議支援システム、会議支援方法及びプログラム |
JP2018159759A (ja) * | 2017-03-22 | 2018-10-11 | 株式会社東芝 | 音声処理装置、音声処理方法およびプログラム |
JP6646001B2 (ja) * | 2017-03-22 | 2020-02-14 | 株式会社東芝 | 音声処理装置、音声処理方法およびプログラム |
US10339962B2 (en) * | 2017-04-11 | 2019-07-02 | Texas Instruments Incorporated | Methods and apparatus for low cost voice activity detector |
JP6345327B1 (ja) * | 2017-09-07 | 2018-06-20 | ヤフー株式会社 | 音声抽出装置、音声抽出方法および音声抽出プログラム |
CN109859749A (zh) * | 2017-11-30 | 2019-06-07 | 阿里巴巴集团控股有限公司 | 一种语音信号识别方法和装置 |
US11516614B2 (en) * | 2018-04-13 | 2022-11-29 | Huawei Technologies Co., Ltd. | Generating sound zones using variable span filters |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006330389A (ja) * | 2005-05-26 | 2006-12-07 | Matsushita Electric Works Ltd | 音声認識装置 |
JP2007093635A (ja) * | 2005-09-26 | 2007-04-12 | Doshisha | 既知雑音除去装置 |
WO2008004499A1 (fr) * | 2006-07-03 | 2008-01-10 | Nec Corporation | Procédé, dispositif et programme de suppression du bruit |
JP2008122927A (ja) * | 2006-09-13 | 2008-05-29 | Honda Motor Co Ltd | モータ雑音下におけるロボット用音声認識方法 |
JP2011191759A (ja) * | 2010-03-11 | 2011-09-29 | Honda Motor Co Ltd | 音声認識装置及び音声認識方法 |
JP2012042953A (ja) * | 2010-08-17 | 2012-03-01 | Honda Motor Co Ltd | 音源分離装置及び音源分離方法 |
US20120239394A1 (en) * | 2011-03-18 | 2012-09-20 | Fujitsu Limited | Erroneous detection determination device, erroneous detection determination method, and storage medium storing erroneous detection determination program |
JP2013011680A (ja) * | 2011-06-28 | 2013-01-17 | Fujitsu Ltd | 話者判別装置、話者判別プログラム及び話者判別方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7617099B2 (en) * | 2001-02-12 | 2009-11-10 | FortMedia Inc. | Noise suppression by two-channel tandem spectrum modification for speech signal in an automobile |
US6678656B2 (en) * | 2002-01-30 | 2004-01-13 | Motorola, Inc. | Noise reduced speech recognition parameters |
EP2362389B1 (en) * | 2008-11-04 | 2014-03-26 | Mitsubishi Electric Corporation | Noise suppressor |
US8650029B2 (en) * | 2011-02-25 | 2014-02-11 | Microsoft Corporation | Leveraging speech recognizer feedback for voice activity detection |
JP2012234150A (ja) | 2011-04-18 | 2012-11-29 | Sony Corp | 音信号処理装置、および音信号処理方法、並びにプログラム |
US9137611B2 (en) * | 2011-08-24 | 2015-09-15 | Texas Instruments Incorporation | Method, system and computer program product for estimating a level of noise |
US9286907B2 (en) * | 2011-11-23 | 2016-03-15 | Creative Technology Ltd | Smart rejecter for keyboard click noise |
TWI474317B (zh) * | 2012-07-06 | 2015-02-21 | Realtek Semiconductor Corp | 訊號處理裝置以及訊號處理方法 |
-
2013
- 2013-01-28 JP JP2013013251A patent/JP2014145838A/ja active Pending
-
2014
- 2014-01-15 US US14/155,446 patent/US9384760B2/en active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006330389A (ja) * | 2005-05-26 | 2006-12-07 | Matsushita Electric Works Ltd | 音声認識装置 |
JP2007093635A (ja) * | 2005-09-26 | 2007-04-12 | Doshisha | 既知雑音除去装置 |
WO2008004499A1 (fr) * | 2006-07-03 | 2008-01-10 | Nec Corporation | Procédé, dispositif et programme de suppression du bruit |
JP2008122927A (ja) * | 2006-09-13 | 2008-05-29 | Honda Motor Co Ltd | モータ雑音下におけるロボット用音声認識方法 |
JP2011191759A (ja) * | 2010-03-11 | 2011-09-29 | Honda Motor Co Ltd | 音声認識装置及び音声認識方法 |
JP2012042953A (ja) * | 2010-08-17 | 2012-03-01 | Honda Motor Co Ltd | 音源分離装置及び音源分離方法 |
US20120239394A1 (en) * | 2011-03-18 | 2012-09-20 | Fujitsu Limited | Erroneous detection determination device, erroneous detection determination method, and storage medium storing erroneous detection determination program |
JP2013011680A (ja) * | 2011-06-28 | 2013-01-17 | Fujitsu Ltd | 話者判別装置、話者判別プログラム及び話者判別方法 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9595259B2 (en) | 2014-08-29 | 2017-03-14 | Honda Motor Co., Ltd. | Sound source-separating device and sound source-separating method |
JP2017009701A (ja) * | 2015-06-18 | 2017-01-12 | 本田技研工業株式会社 | 音声認識装置、および音声認識方法 |
JP2017032857A (ja) * | 2015-08-04 | 2017-02-09 | 本田技研工業株式会社 | 音声処理装置及び音声処理方法 |
US10622008B2 (en) | 2015-08-04 | 2020-04-14 | Honda Motor Co., Ltd. | Audio processing apparatus and audio processing method |
JP2019020678A (ja) * | 2017-07-21 | 2019-02-07 | 株式会社レイトロン | ノイズ低減装置および音声認識装置 |
JP2019045576A (ja) * | 2017-08-30 | 2019-03-22 | 日本電信電話株式会社 | 目的音声抽出方法、目的音声抽出装置及び目的音声抽出プログラム |
Also Published As
Publication number | Publication date |
---|---|
US20140214418A1 (en) | 2014-07-31 |
US9384760B2 (en) | 2016-07-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2014145838A (ja) | 音響処理装置及び音響処理方法 | |
JP6169910B2 (ja) | 音声処理装置 | |
JP6077957B2 (ja) | 音声処理装置、音声処理方法、及び音声処理プログラム | |
JP5528538B2 (ja) | 雑音抑圧装置 | |
CN112447191A (zh) | 信号处理装置以及信号处理方法 | |
JP6169849B2 (ja) | 音響処理装置 | |
JP5127754B2 (ja) | 信号処理装置 | |
JP5706782B2 (ja) | 音源分離装置及び音源分離方法 | |
JP6261043B2 (ja) | 音声処理装置、音声処理方法、及び音声処理プログラム | |
US20170140771A1 (en) | Information processing apparatus, information processing method, and computer program product | |
JP5156043B2 (ja) | 音声判別装置 | |
US10622008B2 (en) | Audio processing apparatus and audio processing method | |
JP6543848B2 (ja) | 音声処理装置、音声処理方法及びプログラム | |
JP2011033717A (ja) | 雑音抑圧装置 | |
JP2015097355A (ja) | 収音装置及びその制御方法、プログラム | |
US8423360B2 (en) | Speech recognition apparatus, method and computer program product | |
JP5803125B2 (ja) | 音声による抑圧状態検出装置およびプログラム | |
KR101122590B1 (ko) | 음성 데이터 분할에 의한 음성 인식 장치 및 방법 | |
JP2001005486A (ja) | 音声処理装置及び方法 | |
KR101361034B1 (ko) | 하모닉 주파수 의존성을 이용한 독립벡터분석에 기반한 강한 음성 인식 방법 및 이를 이용한 음성 인식 시스템 | |
Wu et al. | Joint nonnegative matrix factorization for exemplar-based voice conversion | |
KR101610708B1 (ko) | 음성 인식 장치 및 방법 | |
JP6106618B2 (ja) | 音声区間検出装置、音声認識装置、その方法、及びプログラム | |
JP6633579B2 (ja) | 音響信号処理装置、方法及びプログラム | |
JP6653687B2 (ja) | 音響信号処理装置、方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20151126 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20161214 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170117 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170314 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170808 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20171010 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20180403 |