JP2015061306A - 音声処理装置及び音声処理用コンピュータプログラム - Google Patents
音声処理装置及び音声処理用コンピュータプログラム Download PDFInfo
- Publication number
- JP2015061306A JP2015061306A JP2013196118A JP2013196118A JP2015061306A JP 2015061306 A JP2015061306 A JP 2015061306A JP 2013196118 A JP2013196118 A JP 2013196118A JP 2013196118 A JP2013196118 A JP 2013196118A JP 2015061306 A JP2015061306 A JP 2015061306A
- Authority
- JP
- Japan
- Prior art keywords
- range
- frequency
- phase difference
- signal
- suppression
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012545 processing Methods 0.000 title claims abstract description 91
- 238000004590 computer program Methods 0.000 title claims description 8
- 230000001629 suppression Effects 0.000 claims abstract description 236
- 230000005236 sound signal Effects 0.000 claims abstract description 102
- 238000004364 calculation method Methods 0.000 claims description 61
- 238000006243 chemical reaction Methods 0.000 claims description 28
- 238000012937 correction Methods 0.000 claims description 23
- 230000002238 attenuated effect Effects 0.000 abstract description 6
- 238000010586 diagram Methods 0.000 description 11
- 230000004048 modification Effects 0.000 description 11
- 238000012986 modification Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 9
- 230000007423 decrease Effects 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 238000000034 method Methods 0.000 description 7
- 238000005070 sampling Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 5
- 238000001228 spectrum Methods 0.000 description 4
- 239000004065 semiconductor Substances 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 229910019687 S105-No Inorganic materials 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02168—Noise filtering characterised by the method used for estimating noise the estimation exclusively taking place during speech pauses
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
- G10L2025/786—Adaptive threshold
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- General Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- Circuit For Audible Band Transducer (AREA)
- Telephone Function (AREA)
Abstract
【解決手段】音声処理装置1は、第1及び第2の音声入力部(2−1、2−2)が生成した第1及び第2の音声信号を、第1及び第2の周波数信号に変換し、第1の周波数信号と第2の周波数信号間の位相差を各周波数について算出し、収音対象の音源の想定される方向に対応する、周波数ごとの第1の音声信号と第2の音声信号間の位相差の基準範囲外または基準範囲内に設定された各拡張範囲について、第1の周波数信号と第2の周波数信号間の位相差がその拡張範囲に含まれる周波数の数から存在率を算出し、存在率が所定値よりも高い第1の拡張範囲及び第1の拡張範囲よりも基準範囲の中心の位相差に近い第2の拡張範囲を基準範囲とともに第1及び第2の周波数信号を抑制範囲よりも減衰させない非抑制範囲に設定する。
【選択図】図2
Description
上記の一般的な記述及び下記の詳細な記述の何れも、例示的かつ説明的なものであり、請求項のように、本発明を限定するものではないことを理解されたい。
処理部6は、音声処理装置1が有するタッチパネルなどの操作部(図示せず)を介したユーザの操作により、例えば、通話が開始されると、呼び出し、応答、切断などの呼制御処理を実行する。
本実施形態では、目的音は、例えば、音声処理装置1を使用して通話するユーザの声であり、目的音の音源は、ユーザの口である。
なお、処理部6による音声処理の詳細については後述する。
図2は、処理部6の概略構成図である。処理部6は、時間周波数変換部11と、位相差算出部12と、存在率算出部13と、非抑制範囲設定部14と、抑圧係数算出部15と、信号補正部16と、周波数時間変換部17とを有する。
処理部6が有するこれらの各部は、例えば、処理部6が有するプロセッサ上で実行されるコンピュータプログラムによって実現される機能モジュールとして実装される。あるいは、処理部6が有するこれらの各部は、処理部6が有するプロセッサとは別個に、それらの各部の機能を実現する一つの集積回路として音声処理装置1に実装されてもよい。
時間周波数変換部11は、フレームごとに、第1及び第2の周波数信号を位相差算出部12及び信号補正部16へ出力する。
位相差算出部12は、各周波数帯域の位相差Δθfを存在率算出部13及び信号補正部16へ渡す。
存在率算出部13は、各拡張範囲についての存在率を非抑制範囲設定部14に通知する。
G(f,Δθf) = 1 (Δθfは、非抑制範囲内)
G(f,Δθf) = 0 (Δθfは、抑制範囲内)
この例では、抑圧係数G(f,Δθf)が1である場合には、第1及び第2の周波数信号は減衰せず、抑圧係数G(f,Δθf)が小さくなるほど、第1及び第2の周波数信号は減衰される。
信号補正部16は、補正後の第1及び第2の周波数信号を周波数時間変換部17へ渡す。
これにより、目的音の音源が位置する方向とは異なる方向からの音及び雑音が減衰するので、補正された第1及び第2の音声信号は、目的音を聞き取り易くした音声信号となる。
時間周波数変換部11は、第1及び第2の音声信号を周波数領域の第1及び第2の周波数信号に変換する(ステップS101)。そして時間周波数変換部11は、第1及び第2の周波数信号を、位相差算出部12及び信号補正部16へ渡す。
一方、着目拡張範囲がN番目の拡張範囲でなければ(ステップS107−No)、非抑制範囲設定部14は、基準範囲の中心の位相差に近い方から順に(n+1)番目の拡張範囲を、次の着目拡張範囲に設定する(ステップS109)。そして非抑制範囲設定部14は、ステップS105以降の処理を繰り返す。
一方、着目拡張範囲が基準範囲の中心の位相差に最も近い拡張範囲でなければ(ステップS204−No)、非抑制範囲設定部14は、基準範囲の中心の位相差に近い方から順に(n-1)番目の拡張範囲を、次の着目拡張範囲に設定する(ステップS206)。そして非抑制範囲設定部14は、ステップS202以降の処理を繰り返す。また、ステップS203またはS205の後、ステップS110以降の処理が実行される。
抑圧係数算出部15は、周波数ごとに、求めた抑圧係数を信号補正部16へ出力する。
(付記1)
集音した音声を表す第1の音声信号を生成する第1の音声入力部と、
前記第1の音声入力部と異なる位置に配置され、集音した音声を表す第2の音声信号を生成する第2の音声入力部と、
収音対象の音源の想定される方向に対応する、周波数ごとの前記第1の音声信号と前記第2の音声信号間の位相差の範囲を表す基準範囲と、前記基準範囲外または前記基準範囲内に、前記基準範囲の一端から順に並ぶように設定された、周波数ごとの前記第1の音声信号と前記第2の音声信号間の位相差の範囲を表す少なくとも一つの拡張範囲とを記憶する記憶部と、
前記第1の音声信号及び第2の音声信号を、それぞれ、所定の時間長を持つフレームごとに周波数領域の第1の周波数信号及び第2の周波数信号に変換する時間周波数変換部と、
前記フレームごとに、前記第1の周波数信号と前記第2の周波数信号間の位相差を複数の周波数のそれぞれについて算出する位相差算出部と、
前記フレームごとに、前記少なくとも一つの拡張範囲のそれぞれについて、前記第1及び第2の周波数信号が算出された周波数帯域に含まれる周波数の総数に対する、前記第1の周波数信号と前記第2の周波数信号間の位相差が当該拡張範囲に含まれる周波数の数の比である存在率を算出する存在率算出部と、
前記フレームごとに、前記少なくとも一つの拡張範囲のうち、前記存在率が所定値よりも高い第1の拡張範囲及び該第1の拡張範囲よりも前記基準範囲の中心の位相差に近い第2の拡張範囲と、前記基準範囲のうちの前記第1の拡張範囲よりも前記基準範囲の中心の位相差から離れた第3の拡張範囲と重ならない範囲を非抑制範囲に設定し、前記非抑制範囲に含まれない位相差の範囲を抑制範囲に設定する非抑制範囲設定部と、
前記フレームごとに、前記第1の周波数信号及び前記第2の周波数信号のうちの少なくとも一方について、前記第1の周波数信号と前記第2の周波数信号間の位相差が前記非抑制範囲に含まれる周波数の成分よりも、前記第1の周波数信号と前記第2の周波数信号間の位相差が前記抑制範囲に含まれる周波数の成分を減衰させる抑圧係数を算出する抑圧係数算出部と、
前記フレームごとに、前記第1及び第2の周波数信号のうちの前記少なくとも一方の各周波数の成分の振幅に、対応する周波数の前記抑圧係数を乗じることで第1及び第2の周波数信号のうちの前記少なくとも一方を補正する信号補正部と、
前記補正された第1及び第2の周波数信号のうちの前記少なくとも一方を、時間領域の補正後の音声信号に変換する周波数時間変換部と、
を有する音声処理装置。
(付記2)
前記少なくとも一つの拡張範囲の位相差の幅は、位相差が0に近い拡張範囲ほど狭くなるように設定される、付記1に記載の音声処理装置。
(付記3)
前記抑圧係数算出部は、前記拡張範囲の全てについて前記存在率が前記所定値以下の場合、前記第1の周波数信号及び前記第2の周波数信号のうちの前記少なくとも一方について、前記第1の周波数信号と前記第2の周波数信号間の位相差が前記非抑制範囲に含まれる周波数の成分よりも、前記第1の周波数信号と前記第2の周波数信号間の位相差が前記抑制範囲に含まれる周波数の成分を減衰させる第1の抑圧係数候補と、前記第1及び第2の周波数信号が雑音らしいほど前記第1の周波数信号及び前記第2の周波数信号のうちの前記少なくとも一方を減衰させる第2の抑圧係数候補とを算出し、周波数帯域全体において、前記第1の抑圧係数候補と前記第2の抑圧係数候補のうちの小さい方の値以下となるように前記抑圧係数を算出する、付記1または2に記載の音声処理装置。
(付記4)
前記基準範囲の中心の位相差から離れた拡張範囲ほど、当該拡張範囲に対する前記所定値が高くなるように前記所定値が設定される、付記1〜3の何れかに記載の音声処理装置。
(付記5)
前記非抑制範囲設定部は、フレームごとに、前記基準範囲の中心の位相差に近いほうから順に1番目から所定番目までの拡張範囲の前記存在率の合計が前記所定番目の拡張範囲についての前記所定値よりも高い場合、前記1番目から前記所定番目の拡張範囲と、前記基準範囲のうちの前記所定番目の拡張範囲よりも前記基準範囲の中心の位相差から離れた拡張範囲と重ならない範囲を非抑制範囲に設定する、付記4に記載の音声処理装置。
(付記6)
第1の音声入力部により集音した音声を表す第1の音声信号を生成し、
前記第1の音声入力部と異なる位置に配置された第2の音声入力部により集音した音声を表す第2の音声信号を生成し、
前記第1の音声信号及び第2の音声信号を、それぞれ、所定の時間長を持つフレームごとに周波数領域の第1の周波数信号及び第2の周波数信号に変換し、
前記フレームごとに、前記第1の周波数信号と前記第2の周波数信号間の位相差を複数の周波数のそれぞれについて算出し、
前記フレームごとに、収音対象の音源の想定される方向に対応する、周波数ごとの前記第1の音声信号と前記第2の音声信号間の位相差の範囲を表す基準範囲外または前記基準範囲内に、前記基準範囲の一端から順に並ぶように設定された、周波数ごとの前記第1の音声信号と前記第2の音声信号間の位相差の範囲を表す少なくとも一つの拡張範囲のそれぞれについて、前記第1及び第2の周波数信号が算出された周波数帯域に含まれる周波数の総数に対する、前記第1の周波数信号と前記第2の周波数信号間の位相差が当該拡張範囲に含まれる周波数の数の比である存在率を算出し、
前記フレームごとに、前記少なくとも一つの拡張範囲のうち、前記存在率が所定値よりも高い第1の拡張範囲及び該第1の拡張範囲よりも前記基準範囲の中心の位相差に近い第2の拡張範囲と、前記基準範囲のうちの前記第1の拡張範囲よりも前記基準範囲の中心の位相差から離れた第3の拡張範囲と重ならない範囲を非抑制範囲に設定し、前記非抑制範囲に含まれない位相差の範囲を抑制範囲に設定し、
前記フレームごとに、前記第1の周波数信号及び前記第2の周波数信号のうちの少なくとも一方について、前記第1の周波数信号と前記第2の周波数信号間の位相差が前記非抑制範囲に含まれる周波数の成分よりも、前記第1の周波数信号と前記第2の周波数信号間の位相差が前記抑制範囲に含まれる周波数の成分を減衰させる抑圧係数を算出し、
前記フレームごとに、前記第1及び第2の周波数信号のうちの前記少なくとも一方の各周波数の成分の振幅に、対応する周波数の前記抑圧係数を乗じることで第1及び第2の周波数信号のうちの前記少なくとも一方を補正し、
前記補正された第1及び第2の周波数信号のうちの前記少なくとも一方を、時間領域の補正後の音声信号に変換する、
ことを含む音声処理方法。
(付記7)
第1の音声入力部により生成された、集音した音声を表す第1の音声信号と、前記第1の音声入力部と異なる位置に配置された第2の音声入力部により生成された、集音した音声を表す第2の音声信号を、それぞれ、所定の時間長を持つフレームごとに周波数領域の第1の周波数信号及び第2の周波数信号に変換し、
前記フレームごとに、前記第1の周波数信号と前記第2の周波数信号間の位相差を複数の周波数のそれぞれについて算出し、
前記フレームごとに、収音対象の音源の想定される方向に対応する、周波数ごとの前記第1の音声信号と前記第2の音声信号間の位相差の範囲を表す基準範囲外または前記基準範囲内に、前記基準範囲の一端から順に並ぶように設定された、周波数ごとの前記第1の音声信号と前記第2の音声信号間の位相差の範囲を表す少なくとも一つの拡張範囲のそれぞれについて、前記第1及び第2の周波数信号が算出された周波数帯域に含まれる周波数の総数に対する、前記第1の周波数信号と前記第2の周波数信号間の位相差が当該拡張範囲に含まれる周波数の数の比である存在率を算出し、
前記フレームごとに、前記少なくとも一つの拡張範囲のうち、前記存在率が所定値よりも高い第1の拡張範囲及び該第1の拡張範囲よりも前記基準範囲の中心の位相差に近い第2の拡張範囲と、前記基準範囲のうちの前記第1の拡張範囲よりも前記基準範囲の中心の位相差から離れた第3の拡張範囲と重ならない範囲を非抑制範囲に設定し、前記非抑制範囲に含まれない位相差の範囲を抑制範囲に設定し、
前記フレームごとに、前記第1の周波数信号及び前記第2の周波数信号のうちの少なくとも一方について、前記第1の周波数信号と前記第2の周波数信号間の位相差が前記非抑制範囲に含まれる周波数の成分よりも、前記第1の周波数信号と前記第2の周波数信号間の位相差が前記抑制範囲に含まれる周波数の成分を減衰させる抑圧係数を算出し、
前記フレームごとに、前記第1及び第2の周波数信号のうちの前記少なくとも一方の各周波数の成分の振幅に、対応する周波数の前記抑圧係数を乗じることで第1及び第2の周波数信号のうちの前記少なくとも一方を補正し、
前記補正された第1及び第2の周波数信号のうちの前記少なくとも一方を、時間領域の補正後の音声信号に変換する、
ことをコンピュータに実行させるための音声処理用コンピュータプログラム。
2−1、2−2 音声入力部
3 アナログ/デジタル変換部
4 記憶部
5 記憶媒体アクセス装置
6 処理部
7 通信部
8 出力部
10 記憶媒体
11 時間周波数変換部
12 位相差算出部
13 存在率算出部
14 非抑制範囲設定部
15 抑圧係数算出部
16 信号補正部
17 周波数時間変換部
Claims (6)
- 集音した音声を表す第1の音声信号を生成する第1の音声入力部と、
前記第1の音声入力部と異なる位置に配置され、集音した音声を表す第2の音声信号を生成する第2の音声入力部と、
収音対象の音源の想定される方向に対応する、周波数ごとの前記第1の音声信号と前記第2の音声信号間の位相差の範囲を表す基準範囲と、前記基準範囲外または前記基準範囲内に、前記基準範囲の一端から順に並ぶように設定された、周波数ごとの前記第1の音声信号と前記第2の音声信号間の位相差の範囲を表す少なくとも一つの拡張範囲とを記憶する記憶部と、
前記第1の音声信号及び第2の音声信号を、それぞれ、所定の時間長を持つフレームごとに周波数領域の第1の周波数信号及び第2の周波数信号に変換する時間周波数変換部と、
前記フレームごとに、前記第1の周波数信号と前記第2の周波数信号間の位相差を複数の周波数のそれぞれについて算出する位相差算出部と、
前記フレームごとに、前記少なくとも一つの拡張範囲のそれぞれについて、前記第1及び第2の周波数信号が算出された周波数帯域に含まれる周波数の総数に対する、前記第1の周波数信号と前記第2の周波数信号間の位相差が当該拡張範囲に含まれる周波数の数の比である存在率を算出する存在率算出部と、
前記フレームごとに、前記少なくとも一つの拡張範囲のうち、前記存在率が所定値よりも高い第1の拡張範囲及び該第1の拡張範囲よりも前記基準範囲の中心の位相差に近い第2の拡張範囲と、前記基準範囲のうちの前記第1の拡張範囲よりも前記基準範囲の中心の位相差から離れた第3の拡張範囲と重ならない範囲を非抑制範囲に設定し、前記非抑制範囲に含まれない位相差の範囲を抑制範囲に設定する非抑制範囲設定部と、
前記フレームごとに、前記第1の周波数信号及び前記第2の周波数信号のうちの少なくとも一方について、前記第1の周波数信号と前記第2の周波数信号間の位相差が前記非抑制範囲に含まれる周波数の成分よりも、前記第1の周波数信号と前記第2の周波数信号間の位相差が前記抑制範囲に含まれる周波数の成分を減衰させる抑圧係数を算出する抑圧係数算出部と、
前記フレームごとに、前記第1及び第2の周波数信号のうちの前記少なくとも一方の各周波数の成分の振幅に、対応する周波数の前記抑圧係数を乗じることで第1及び第2の周波数信号のうちの前記少なくとも一方を補正する信号補正部と、
前記補正された第1及び第2の周波数信号のうちの前記少なくとも一方を、時間領域の補正後の音声信号に変換する周波数時間変換部と、
を有する音声処理装置。 - 前記少なくとも一つの拡張範囲の位相差の幅は、位相差が0に近い拡張範囲ほど狭くなるように設定される、請求項1に記載の音声処理装置。
- 前記抑圧係数算出部は、前記拡張範囲の全てについて前記存在率が前記所定値以下の場合、前記第1の周波数信号及び前記第2の周波数信号のうちの前記少なくとも一方について、前記第1の周波数信号と前記第2の周波数信号間の位相差が前記非抑制範囲に含まれる周波数の成分よりも、前記第1の周波数信号と前記第2の周波数信号間の位相差が前記抑制範囲に含まれる周波数の成分を減衰させる第1の抑圧係数候補と、前記第1及び第2の周波数信号が雑音らしいほど前記第1の周波数信号及び前記第2の周波数信号のうちの前記少なくとも一方を減衰させる第2の抑圧係数候補とを算出し、周波数帯域全体において、前記第1の抑圧係数候補と前記第2の抑圧係数候補のうちの小さい方の値以下となるように前記抑圧係数を算出する、請求項1または2に記載の音声処理装置。
- 前記基準範囲の中心の位相差から離れた拡張範囲ほど、当該拡張範囲に対する前記所定値が高くなるように前記所定値が設定される、請求項1〜3の何れか一項に記載の音声処理装置。
- 前記非抑制範囲設定部は、フレームごとに、前記基準範囲の中心の位相差に近いほうから順に1番目から所定番目までの拡張範囲の前記存在率の合計が前記所定番目の拡張範囲についての前記所定値よりも高い場合、前記1番目から前記所定番目の拡張範囲と、前記基準範囲のうちの前記所定番目の拡張範囲よりも前記基準範囲の中心の位相差から離れた拡張範囲と重ならない範囲を非抑制範囲に設定する、請求項4に記載の音声処理装置。
- 第1の音声入力部により生成された、集音した音声を表す第1の音声信号と、前記第1の音声入力部と異なる位置に配置された第2の音声入力部により生成された、集音した音声を表す第2の音声信号を、それぞれ、所定の時間長を持つフレームごとに周波数領域の第1の周波数信号及び第2の周波数信号に変換し、
前記フレームごとに、前記第1の周波数信号と前記第2の周波数信号間の位相差を複数の周波数のそれぞれについて算出し、
前記フレームごとに、収音対象の音源の想定される方向に対応する、周波数ごとの前記第1の音声信号と前記第2の音声信号間の位相差の範囲を表す基準範囲外または前記基準範囲内に、前記基準範囲の一端から順に並ぶように設定された、周波数ごとの前記第1の音声信号と前記第2の音声信号間の位相差の範囲を表す少なくとも一つの拡張範囲のそれぞれについて、前記第1及び第2の周波数信号が算出された周波数帯域に含まれる周波数の総数に対する、前記第1の周波数信号と前記第2の周波数信号間の位相差が当該拡張範囲に含まれる周波数の数の比である存在率を算出し、
前記フレームごとに、前記少なくとも一つの拡張範囲のうち、前記存在率が所定値よりも高い第1の拡張範囲及び該第1の拡張範囲よりも前記基準範囲の中心の位相差に近い第2の拡張範囲と、前記基準範囲のうちの前記第1の拡張範囲よりも前記基準範囲の中心の位相差から離れた第3の拡張範囲と重ならない範囲を非抑制範囲に設定し、前記非抑制範囲に含まれない位相差の範囲を抑制範囲に設定し、
前記フレームごとに、前記第1の周波数信号及び前記第2の周波数信号のうちの少なくとも一方について、前記第1の周波数信号と前記第2の周波数信号間の位相差が前記非抑制範囲に含まれる周波数の成分よりも、前記第1の周波数信号と前記第2の周波数信号間の位相差が前記抑制範囲に含まれる周波数の成分を減衰させる抑圧係数を算出し、
前記フレームごとに、前記第1及び第2の周波数信号のうちの前記少なくとも一方の各周波数の成分の振幅に、対応する周波数の前記抑圧係数を乗じることで第1及び第2の周波数信号のうちの前記少なくとも一方を補正し、
前記補正された第1及び第2の周波数信号のうちの前記少なくとも一方を、時間領域の補正後の音声信号に変換する、
ことをコンピュータに実行させるための音声処理用コンピュータプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013196118A JP6156012B2 (ja) | 2013-09-20 | 2013-09-20 | 音声処理装置及び音声処理用コンピュータプログラム |
US14/469,681 US9842599B2 (en) | 2013-09-20 | 2014-08-27 | Voice processing apparatus and voice processing method |
EP14182463.1A EP2851898B1 (en) | 2013-09-20 | 2014-08-27 | Voice processing apparatus, voice processing method and corresponding computer program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013196118A JP6156012B2 (ja) | 2013-09-20 | 2013-09-20 | 音声処理装置及び音声処理用コンピュータプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015061306A true JP2015061306A (ja) | 2015-03-30 |
JP6156012B2 JP6156012B2 (ja) | 2017-07-05 |
Family
ID=51417183
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013196118A Active JP6156012B2 (ja) | 2013-09-20 | 2013-09-20 | 音声処理装置及び音声処理用コンピュータプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US9842599B2 (ja) |
EP (1) | EP2851898B1 (ja) |
JP (1) | JP6156012B2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017181899A (ja) * | 2016-03-31 | 2017-10-05 | 富士通株式会社 | 雑音抑圧装置、音声認識装置、雑音抑圧方法、及び雑音抑圧プログラム |
JP2019075622A (ja) * | 2017-10-12 | 2019-05-16 | 株式会社デンソーアイティーラボラトリ | 騒音抑圧装置、騒音抑圧方法、プログラム |
JP2019078844A (ja) * | 2017-10-23 | 2019-05-23 | 富士通株式会社 | 音声処理用コンピュータプログラム、音声処理装置及び音声処理方法 |
JP2019197136A (ja) * | 2018-05-09 | 2019-11-14 | キヤノン株式会社 | 信号処理装置、信号処理方法、およびプログラム |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6520276B2 (ja) * | 2015-03-24 | 2019-05-29 | 富士通株式会社 | 雑音抑圧装置、雑音抑圧方法、及び、プログラム |
JP2016182298A (ja) * | 2015-03-26 | 2016-10-20 | 株式会社東芝 | 騒音低減システム |
JP6559576B2 (ja) * | 2016-01-05 | 2019-08-14 | 株式会社東芝 | 雑音抑圧装置、雑音抑圧方法及びプログラム |
JP6878776B2 (ja) * | 2016-05-30 | 2021-06-02 | 富士通株式会社 | 雑音抑圧装置、雑音抑圧方法及び雑音抑圧用コンピュータプログラム |
JP6677136B2 (ja) | 2016-09-16 | 2020-04-08 | 富士通株式会社 | 音声信号処理プログラム、音声信号処理方法及び音声信号処理装置 |
CN107146628A (zh) * | 2017-04-07 | 2017-09-08 | 宇龙计算机通信科技(深圳)有限公司 | 一种语音通话处理方法及移动终端 |
CN116597829B (zh) * | 2023-07-18 | 2023-09-08 | 西兴(青岛)技术服务有限公司 | 一种提高语音识别精度的降噪处理方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007318528A (ja) * | 2006-05-26 | 2007-12-06 | Fujitsu Ltd | 指向性集音装置、指向性集音方法、及びコンピュータプログラム |
JP2009080309A (ja) * | 2007-09-26 | 2009-04-16 | Toshiba Corp | 音声認識装置、音声認識方法、音声認識プログラム、及び音声認識プログラムを記録した記録媒体 |
WO2009069184A1 (ja) * | 2007-11-26 | 2009-06-04 | Fujitsu Limited | 音処理装置、補正装置、補正方法及びコンピュータプログラム |
JP2011139378A (ja) * | 2009-12-28 | 2011-07-14 | Fujitsu Ltd | 信号処理装置、マイクロホン・アレイ装置、信号処理方法、および信号処理プログラム |
JP2011164467A (ja) * | 2010-02-12 | 2011-08-25 | Nippon Telegr & Teleph Corp <Ntt> | モデル推定装置、音源分離装置、それらの方法及びプログラム |
JP2013135433A (ja) * | 2011-12-27 | 2013-07-08 | Fujitsu Ltd | 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム |
JP2013167805A (ja) * | 2012-02-16 | 2013-08-29 | Jvc Kenwood Corp | ノイズ低減装置、音声入力装置、無線通信装置、ノイズ低減方法、およびノイズ低減プログラム |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3484112B2 (ja) | 1999-09-27 | 2004-01-06 | 株式会社東芝 | 雑音成分抑圧処理装置および雑音成分抑圧処理方法 |
JP2002095084A (ja) | 2000-09-11 | 2002-03-29 | Oei Service:Kk | 指向性受信方式 |
JP2003337164A (ja) | 2002-03-13 | 2003-11-28 | Univ Nihon | 音到来方向検出方法及びその装置、音による空間監視方法及びその装置、並びに、音による複数物体位置検出方法及びその装置 |
JP4637725B2 (ja) * | 2005-11-11 | 2011-02-23 | ソニー株式会社 | 音声信号処理装置、音声信号処理方法、プログラム |
CN101512374B (zh) * | 2006-11-09 | 2012-04-11 | 松下电器产业株式会社 | 声源位置检测装置 |
JP2008216720A (ja) * | 2007-03-06 | 2008-09-18 | Nec Corp | 信号処理の方法、装置、及びプログラム |
DE112007003603T5 (de) * | 2007-08-03 | 2010-07-01 | FUJITSU LIMITED, Kawasaki-shi | Tonempfangsanordnung, Richtcharakteristik-Ableitungsverfahren, Richtcharakteristik-Ableitungsvorrichtung und Computerprogramm |
KR101444100B1 (ko) * | 2007-11-15 | 2014-09-26 | 삼성전자주식회사 | 혼합 사운드로부터 잡음을 제거하는 방법 및 장치 |
JP5255467B2 (ja) | 2009-02-02 | 2013-08-07 | クラリオン株式会社 | 雑音抑制装置、雑音抑制方法、及び、プログラム |
JP5272920B2 (ja) * | 2009-06-23 | 2013-08-28 | 富士通株式会社 | 信号処理装置、信号処理方法、および信号処理プログラム |
JP5534413B2 (ja) | 2010-02-12 | 2014-07-02 | Necカシオモバイルコミュニケーションズ株式会社 | 情報処理装置及びプログラム |
KR20110106715A (ko) * | 2010-03-23 | 2011-09-29 | 삼성전자주식회사 | 후방 잡음 제거 장치 및 방법 |
US8483397B2 (en) * | 2010-09-02 | 2013-07-09 | Hbc Solutions, Inc. | Multi-channel audio display |
US8898058B2 (en) * | 2010-10-25 | 2014-11-25 | Qualcomm Incorporated | Systems, methods, and apparatus for voice activity detection |
TWI412023B (zh) * | 2010-12-14 | 2013-10-11 | Univ Nat Chiao Tung | 可消除噪音且增進語音品質之麥克風陣列架構及其方法 |
JP5594133B2 (ja) * | 2010-12-28 | 2014-09-24 | ソニー株式会社 | 音声信号処理装置、音声信号処理方法及びプログラム |
KR20120080409A (ko) * | 2011-01-07 | 2012-07-17 | 삼성전자주식회사 | 잡음 구간 판별에 의한 잡음 추정 장치 및 방법 |
CN102982804B (zh) * | 2011-09-02 | 2017-05-03 | 杜比实验室特许公司 | 音频分类方法和系统 |
US8731477B2 (en) * | 2011-10-26 | 2014-05-20 | Blackberry Limited | Performing inter-frequency measurements in a mobile network |
-
2013
- 2013-09-20 JP JP2013196118A patent/JP6156012B2/ja active Active
-
2014
- 2014-08-27 US US14/469,681 patent/US9842599B2/en active Active
- 2014-08-27 EP EP14182463.1A patent/EP2851898B1/en active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007318528A (ja) * | 2006-05-26 | 2007-12-06 | Fujitsu Ltd | 指向性集音装置、指向性集音方法、及びコンピュータプログラム |
JP2009080309A (ja) * | 2007-09-26 | 2009-04-16 | Toshiba Corp | 音声認識装置、音声認識方法、音声認識プログラム、及び音声認識プログラムを記録した記録媒体 |
WO2009069184A1 (ja) * | 2007-11-26 | 2009-06-04 | Fujitsu Limited | 音処理装置、補正装置、補正方法及びコンピュータプログラム |
JP2011139378A (ja) * | 2009-12-28 | 2011-07-14 | Fujitsu Ltd | 信号処理装置、マイクロホン・アレイ装置、信号処理方法、および信号処理プログラム |
JP2011164467A (ja) * | 2010-02-12 | 2011-08-25 | Nippon Telegr & Teleph Corp <Ntt> | モデル推定装置、音源分離装置、それらの方法及びプログラム |
JP2013135433A (ja) * | 2011-12-27 | 2013-07-08 | Fujitsu Ltd | 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム |
JP2013167805A (ja) * | 2012-02-16 | 2013-08-29 | Jvc Kenwood Corp | ノイズ低減装置、音声入力装置、無線通信装置、ノイズ低減方法、およびノイズ低減プログラム |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017181899A (ja) * | 2016-03-31 | 2017-10-05 | 富士通株式会社 | 雑音抑圧装置、音声認識装置、雑音抑圧方法、及び雑音抑圧プログラム |
JP2019075622A (ja) * | 2017-10-12 | 2019-05-16 | 株式会社デンソーアイティーラボラトリ | 騒音抑圧装置、騒音抑圧方法、プログラム |
JP2019078844A (ja) * | 2017-10-23 | 2019-05-23 | 富士通株式会社 | 音声処理用コンピュータプログラム、音声処理装置及び音声処理方法 |
JP7013789B2 (ja) | 2017-10-23 | 2022-02-01 | 富士通株式会社 | 音声処理用コンピュータプログラム、音声処理装置及び音声処理方法 |
JP2019197136A (ja) * | 2018-05-09 | 2019-11-14 | キヤノン株式会社 | 信号処理装置、信号処理方法、およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
EP2851898A1 (en) | 2015-03-25 |
EP2851898B1 (en) | 2018-10-03 |
JP6156012B2 (ja) | 2017-07-05 |
US20150088494A1 (en) | 2015-03-26 |
US9842599B2 (en) | 2017-12-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6156012B2 (ja) | 音声処理装置及び音声処理用コンピュータプログラム | |
KR101210313B1 (ko) | 음성 향상을 위해 마이크로폰 사이의 레벨 차이를 활용하는시스템 및 방법 | |
JP5293817B2 (ja) | 音声信号処理装置及び音声信号処理方法 | |
JP5923994B2 (ja) | 音声処理装置及び音声処理方法 | |
JP5862349B2 (ja) | ノイズ低減装置、音声入力装置、無線通信装置、およびノイズ低減方法 | |
JP5874344B2 (ja) | 音声判定装置、音声判定方法、および音声判定プログラム | |
US8886499B2 (en) | Voice processing apparatus and voice processing method | |
CN106663445B (zh) | 声音处理装置、声音处理方法及程序 | |
JP6107151B2 (ja) | 雑音抑圧装置、方法、及びプログラム | |
JP5272920B2 (ja) | 信号処理装置、信号処理方法、および信号処理プログラム | |
JP6135106B2 (ja) | 音声強調装置、音声強調方法及び音声強調用コンピュータプログラム | |
KR20120080409A (ko) | 잡음 구간 판별에 의한 잡음 추정 장치 및 방법 | |
KR20080013734A (ko) | 음원 방향 추정 방법, 및 음원 방향 추정 장치 | |
JP5834948B2 (ja) | 残響抑制装置、残響抑制方法及び残響抑制用コンピュータプログラム | |
JP6668995B2 (ja) | 雑音抑圧装置、雑音抑圧方法及び雑音抑圧用コンピュータプログラム | |
JP6303340B2 (ja) | 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム | |
JP6446913B2 (ja) | 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム | |
JP2012037603A (ja) | 雑音推定装置、雑音推定方法および雑音推定プログラム | |
JP2011186384A (ja) | 雑音推定装置、雑音低減システム、雑音推定方法、及びプログラム | |
JP2016038513A (ja) | 音声切替装置、音声切替方法及び音声切替用コンピュータプログラム | |
JP6361271B2 (ja) | 音声強調装置、音声強調方法及び音声強調用コンピュータプログラム | |
JP6197367B2 (ja) | 通話装置及びマスキング音生成プログラム | |
JP6794887B2 (ja) | 音声処理用コンピュータプログラム、音声処理装置及び音声処理方法 | |
JP2017216525A (ja) | 雑音抑圧装置、雑音抑圧方法及び雑音抑圧用コンピュータプログラム | |
KR20100009936A (ko) | 음원 검출 시스템에서 돌발잡음 추정/제거 장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160606 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170425 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170509 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170522 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6156012 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |