JP2013135433A - 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム - Google Patents
音声処理装置、音声処理方法及び音声処理用コンピュータプログラム Download PDFInfo
- Publication number
- JP2013135433A JP2013135433A JP2011286450A JP2011286450A JP2013135433A JP 2013135433 A JP2013135433 A JP 2013135433A JP 2011286450 A JP2011286450 A JP 2011286450A JP 2011286450 A JP2011286450 A JP 2011286450A JP 2013135433 A JP2013135433 A JP 2013135433A
- Authority
- JP
- Japan
- Prior art keywords
- frequency
- range
- phase difference
- sound
- frequency band
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012545 processing Methods 0.000 title claims abstract description 125
- 238000004590 computer program Methods 0.000 title claims description 11
- 238000003672 processing method Methods 0.000 title claims description 7
- 238000006243 chemical reaction Methods 0.000 claims abstract description 31
- 238000001514 detection method Methods 0.000 claims description 82
- 230000005236 sound signal Effects 0.000 claims description 81
- 238000004364 calculation method Methods 0.000 claims description 34
- 238000012937 correction Methods 0.000 claims description 34
- 238000009434 installation Methods 0.000 abstract description 12
- 230000001629 suppression Effects 0.000 description 122
- 230000006870 function Effects 0.000 description 43
- 239000006185 dispersion Substances 0.000 description 21
- 238000001228 spectrum Methods 0.000 description 21
- 238000004891 communication Methods 0.000 description 17
- 238000000034 method Methods 0.000 description 17
- 238000010586 diagram Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 9
- 230000008859 change Effects 0.000 description 5
- 230000007423 decrease Effects 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 4
- 239000004065 semiconductor Substances 0.000 description 4
- 230000002238 attenuated effect Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 230000005764 inhibitory process Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2499/00—Aspects covered by H04R or H04S not otherwise provided for in their subgroups
- H04R2499/10—General applications
- H04R2499/13—Acoustic transducers and sound field adaptation in vehicles
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
Abstract
【解決手段】音声処理装置1は、二つの音声入力部(2−1、2−2)により集音された音をフレームごとに時間周波数変換して得られた第1の周波数信号と第2の周波数信号間の位相差を複数の周波数帯域について算出する位相差分算出部12と、複数の周波数帯域のうち、所定数のフレームにおいて所定の音源の方向について取り得る位相差の第1の範囲内にその位相差が含まれる率がその方向からの音に相当する条件を満たさない周波数帯域を検出する検出部13と、検出された周波数帯域について、第1の範囲よりも拡張した第2の範囲を設定する範囲設定部14と、第2の範囲内に位相差が含まれる場合の第1及び第2の周波数信号の振幅を、第2の範囲から位相差が外れた場合のその周波数信号の振幅よりも大きくする信号補正部16とを有する。
【選択図】図2
Description
上記の一般的な記述及び下記の詳細な記述の何れも、例示的かつ説明的なものであり、請求項のように、本発明を限定するものではないことを理解されたい。
この音声処理装置は、複数の音声入力部によりそれぞれ集音された音声信号間の位相差を複数の周波数帯域のそれぞれごとに求め、各周波数帯域の位相差から特定の音源の方向を推定し、その音源の方向以外から到来した音声信号を減衰させる。その際、この音声処理装置は、周波数帯域ごとに、直近の一定期間においてその位相差が集音対象の音源の方向に相当する位相差の範囲内に含まれている率を求める。そしてこの音声処理装置は、その率が低い周波数帯域については、マイクロホンごとの個体差またはマイクロホンの設置環境に起因して位相差が変動しているものと推定して、音声信号を減衰させない位相差の範囲を拡張する。
なお、音声処理装置6の詳細については後述する。
制御部7は、音声入力システム1が有するキーパッドなどの操作部(図示せず)を介したユーザの操作により、例えば、電話会議が開始されると、音声入力システム1と交換機あるいはSession Initiation Protocol(SIP)サーバとの間における、呼び出し、応答、切断などの呼制御処理を実行する。
そして制御部7は、音声処理装置6により補正された第1及び第2の音声信号を符号化し、その符号化された第1及び第2の音声信号を通信部8を介して出力する。制御部7は、例えば、国際電気通信連合 電気通信標準化部門(International Telecommunication Union Telecommunication Standardization Sector、ITU-T)による勧告G.711、G722.1、あるいはG.729Aに規定された音声符号化技術を用いることができる。
また制御部7は、通信部8を介して他の機器から受け取った、符号化された音声信号を復号し、その復号された音声信号を出力部9を介してスピーカ(図示せず)へ出力してもよい。
図2は、音声処理装置6の概略構成図である。音声処理装置6は、時間周波数変換部11と、位相差分算出部12と、検出部13と、抑制範囲設定部14と、抑制関数算出部15と、信号補正部16と、周波数時間変換部17とを有する。
音声処理装置6が有するこれらの各部は、それぞれ、別個の回路として音声処理装置6に実装されてもよく、あるいはそれらの各部の機能を実現する一つの集積回路であってもよい。あるいは、音声処理装置6が有するこれらの各部は、例えば、制御部7が有するプロセッサ上で実行されるコンピュータプログラムによって実現される機能モジュールとして実装されてもよい。
時間周波数変換部11は、フレームごとに、第1及び第2の周波数信号を位相差分算出部12及び信号補正部16へ出力する。
位相差分算出部12は、各周波数帯域の位相差Δθfを検出部13及び信号補正部16へ渡す。
また分散閾値Th2は、例えば、フレームごとに求められた各周波数帯域について達成率の最大値MAXARPfの分散のヒストグラムにおける、分散の最頻値または中央値以下で頻度が極小値となる分散値に設定される。
検出部13は、複数のサブ方向範囲のそれぞれについて位相差Δθfがそのサブ方向範囲についての位相差範囲内に含まれるか否かを表す評価値を周波数帯域ごとに算出する(ステップS101)。そして検出部13は、複数のサブ方向範囲のそれぞれについて周波数帯域ごとに評価値に基づいて達成率ARP(t)f nを更新する(ステップS102)。
抑制範囲設定部14は、メモリ回路を参照して、検出部13から通知された目的方向範囲に対応する各周波数帯域の位相差の中心値Cf nを特定し、その中心値Cf nを中心とする幅δfの領域を基準範囲とする。
抑制範囲設定部14は、緩和周波数帯域のMinDDLf n及びMaxDDUf nの絶対値|MinDDLf n|及び|MaxDDUf n|のうちの大きい方を非抑制範囲が拡張される幅dとする。
f=2 MinDDL2 n=-1.2 MaxDDU2 n=1.0
f=3 MinDDL3 n=-0.2 MaxDDU3 n=0.3
f=4 MinDDL4 n=-0.9 MaxDDU4 n=1.1
f=5 MinDDL5 n=-1.2 MaxDDU5 n=1.8
f=6 MinDDL6 n=-1.1 MaxDDU6 n=1.5
この場合、定数の組(ii)及び(iii)であれば、全ての緩和周波数帯域についてのMinDDLf n及びMaxDDUf nの絶対値が非抑制範囲を拡張する幅d以下となる。そこで、抑制範囲設定部14は、定数の組(ii)及び(iii)のうち、各緩和周波数帯域について幅dが小さくなる方、すなわち、定数の組(ii)を選択し、その組に従って、各周波数帯域についての非抑制範囲の拡張幅dを決定する。
G(f,Δθf) = 0 (Δθfは、非抑制範囲内)
G(f,Δθf) = 10 (Δθfは、非抑制範囲外)
信号補正部16は、補正後の第1及び第2の周波数信号を周波数時間変換部17へ渡す。
これにより、補正された第1及び第2の音声信号は、集音したい音源が位置する方向とは異なる方向からの音を減衰させることで、集音したい音源からの音を聞き取り易くした音声信号となる。
音声処理装置6は、第1及び第2の音声信号を取得する(ステップS201)。そして第1及び第2の音声信号を時間周波数変換部11へ渡す。時間周波数変換部11は、第1及び第2の音声信号を周波数領域の第1及び第2の周波数信号に変換する(ステップS202)。そして時間周波数変換部11は、第1及び第2の周波数信号を、位相差分算出部12及び信号補正部16へ渡す。
抑制範囲設定部14は、緩和周波数帯域の非抑制範囲が基準範囲よりも広くなるように、周波数帯域ごとの非抑制範囲を設定する(ステップS206)。そして抑制範囲設定部14は、非抑制範囲を抑制関数算出部15へ通知する。抑制関数算出部15は、各周波数帯域について非抑制範囲外の位相差を持つ第1及び第2の周波数信号を減衰させる抑制関数を決定する(ステップS207)。そして抑制関数算出部15は、抑制関数を信号補正部16へ渡す。
検出部13は、注目するサブ方向範囲についてのみ、位相差Δθfが位相差範囲内に含まれるか否かを表す評価値を周波数帯域ごとに算出する(ステップS301)。そして検出部13は、注目するサブ方向範囲についてのみ、各周波数帯域についての評価値に基づいて、達成率ARPf n0(t)を更新する(ステップS302)。ただし、noは、注目するサブ方向範囲を表す指標である。そして検出部13は、各周波数帯域について、直近の所定数のフレームにおける達成率の最大値MAXARPf n0を求める(ステップS303)。
抑制範囲設定部14は、注目するサブ方向範囲についての非抑制範囲を設定し、抑制関数算出部15は、その非抑制範囲に基づいて抑制関数を決定する。
一般に、各音声入力部からノイズの音源までの距離は、各音声入力部から集音しようとする音源までの距離よりも遠い。そのため、ノイズ成分のパワーは、集音しようとする音源から発した音声のパワーよりも小さい。そこで、雑音レベル決定部18は、音声処理装置61に入力された第1及び第2の音声信号の何れかについて、パワースペクトルが小さいフレームについて、各周波数帯域ごとのパワーの平均値を求めることにより、定常雑音モデルの推定ノイズスペクトルを算出する。
具体的には、雑音レベル決定部18は、各フレームの第1及び第2の周波数信号を時間周波数変換部11から受け取る度に、第1及び第2の周波数信号の一方のパワースペクトルの平均値pを次式に従って算出する。
また、特に雑音が白色雑音である場合、フレーム間でのパワースペクトルの相関性が無い。そこで雑音レベル決定部18は、最新のフレームと直前のフレーム間における、全ての周波数帯域にわたるパワースペクトルの相互相関値が所定の閾値以下である場合に限り、雑音レベルを更新してもよい。なお、所定の閾値は、例えば、0.1とすることができる。
一方、比(p/np)が所定の閾値以下である場合には、判定部19は、第1及び第2の周波数成分に含まれる雑音成分が多いため、そのフレームの第1及び第2の周波数信号を緩和周波数帯域及び非抑制範囲の決定に利用しない。そして音声処理装置61は、そのフレーム以前のフレームについて求められた抑制関数に基づいて、第1及び第2の周波数信号を補正する。あるいは、音声処理装置61は、比(p/np)が所定の閾値以下であるフレームについては、第1及び第2の周波数信号を補正しなくてもよい。なお、所定の閾値は、例えば、2〜5に設定される。
達成率の最小値 ≒ (1.0 - 達成率の最大値)
そこで、検出部13は、フレームごとに、各周波数帯域について達成率の最大値MAXARPfの分散を求め、その分散のヒストグラムを作成する。そして検出部13は、分散の最頻値または中央値以下で頻度が極小値となる分散値を特定し、その分散値をそのフレームにおける分散閾値Th2とする。なお、検出部13は、一つのフレームだけでなく、直近の複数のフレームについての各周波数帯域における達成率の最大値MAXARPfの分散の分布を求めてもよい。
(付記1)
第1の音声入力部により集音された音を表す第1の音声信号と、第2の音声入力部により集音された音を表す第2の音声信号とを、それぞれ、所定の時間長を持つフレームごとに周波数領域の第1の周波数信号と第2の周波数信号に変換する時間周波数変換部と、
前記フレームごとに、前記第1の周波数信号と前記第2の周波数信号との位相差を複数の周波数帯域のそれぞれについて算出する位相差分算出部と、
前記フレームごとに、前記複数の周波数帯域のそれぞれについて、所定の音源の方向について取り得る位相差の第1の範囲内に前記位相差が含まれるか否か判定することにより、所定数の前記フレームにおいて前記位相差が前記第1の範囲内に含まれる率を求め、前記複数の周波数帯域のうち、当該率が前記音源の方向からの音に相当する条件を満たさない周波数帯域を検出する検出部と、
前記検出部により検出された周波数帯域について、前記音源の方向についての前記第1の範囲よりも拡張した第2の範囲を設定する範囲設定部と、
前記第2の範囲内に前記位相差が含まれる場合の前記第1及び第2の周波数信号の少なくとも一方の振幅を、前記第2の範囲から前記位相差が外れた場合の当該一方の周波数信号の振幅よりも大きくすることで補正された第1及び第2の周波数信号を求める信号補正部と、
前記補正された第1及び第2の周波数信号を、それぞれ、時間領域の補正後の第1及び第2の音声信号に変換する周波数時間変換部と、
を有する音声処理装置。
(付記2)
前記検出部は、前記複数の周波数帯域のうち、前記率が第1の閾値以下である周波数帯域を、前記率が前記条件を満たさない周波数帯域であると判定する、付記1に記載の音声処理装置。
(付記3)
前記検出部は、前記複数の周波数帯域のそれぞれにおいて、複数の音源の方向のそれぞれについての前記所定数の前記フレームにおける前記率の最大値を求め、前記複数の周波数帯域のうち、前記複数の音源の方向のそれぞれにおける当該最大値の平均値が第2の閾値以下であり、かつ、前記複数の音源の方向のそれぞれにおける当該最大値の分散が第3の閾値以下である周波数帯域を、前記率が前記条件を満たさない周波数帯域であると判定する付記1に記載の音声処理装置。
(付記4)
前記検出部は、前記第2の閾値を、前記複数の音源の方向のうちの一つの方向からの音が前記所定数の前記フレームだけ連続したときに前記平均値が取り得る下限値に設定する、付記3に記載の音声処理装置。
(付記5)
前記検出部は、前記第3の閾値を、前記複数の音源の方向のうちの一つの方向からの音が前記所定数の前記フレームだけ連続したときに前記分散が取り得る下限値に設定する、付記3に記載の音声処理装置。
(付記6)
前記範囲設定部は、前記検出部により検出された周波数帯域について、当該周波数帯域における前記所定数のフレームのうちで前記位相差が前記第1の範囲から外れた量の最大値以上、前記第1の範囲を拡張することで前記第2の範囲を設定する、付記1〜5の何れか一項に記載の音声処理装置。
(付記7)
前記信号補正部は、前記第2の範囲から前記位相差が外れた場合の前記第1及び第2の周波数信号の少なくとも一方の周波数信号の振幅を減衰させることで補正された第1及び第2の周波数信号を求める付記1〜6の何れか一項に記載の音声処理装置。
(付記8)
前記信号補正部は、前記第2の範囲内に前記位相差が含まれる場合の前記第1及び第2の周波数信号の少なくとも一方の周波数信号の振幅を増幅させることで補正された第1及び第2の周波数信号を求める付記1〜6の何れか一項に記載の音声処理装置。
(付記9)
第1の音声入力部により集音された音を表す第1の音声信号と、第2の音声入力部により集音された音を表す第2の音声信号とを、それぞれ、所定の時間長を持つフレームごとに周波数領域の第1の周波数信号と第2の周波数信号に変換し、
前記フレームごとに、前記第1の周波数信号と前記第2の周波数信号との位相差を複数の周波数帯域のそれぞれについて算出し、
前記フレームごとに、前記複数の周波数帯域のそれぞれについて、所定の音源の方向について取り得る位相差の第1の範囲内に前記位相差が含まれるか否か判定することにより、所定数の前記フレームにおいて前記位相差が前記第1の範囲内に含まれる率を求め、前記複数の周波数帯域のうち、当該率が前記音源の方向からの音に相当する条件を満たさない周波数帯域を検出し、
前記検出部により検出された周波数帯域について、前記音源の方向についての前記第1の範囲よりも拡張した第2の範囲を設定し、
前記第2の範囲内に前記位相差が含まれる場合の前記第1及び第2の周波数信号の少なくとも一方の振幅を、前記第2の範囲から前記位相差が外れた場合の当該一方の周波数信号の振幅よりも大きくすることで補正された第1及び第2の周波数信号を求め、
前記補正された第1及び第2の周波数信号を、それぞれ、時間領域の補正後の第1及び第2の音声信号に変換する、
ことを含む音声処理方法。
(付記10)
第1の音声入力部により集音された音を表す第1の音声信号と、第2の音声入力部により集音された音を表す第2の音声信号とを、それぞれ、所定の時間長を持つフレームごとに周波数領域の第1の周波数信号と第2の周波数信号に変換し、
前記フレームごとに、前記第1の周波数信号と前記第2の周波数信号との位相差を複数の周波数帯域のそれぞれについて算出し、
前記フレームごとに、前記複数の周波数帯域のそれぞれについて、所定の音源の方向について取り得る位相差の第1の範囲内に前記位相差が含まれるか否か判定することにより、所定数の前記フレームにおいて前記位相差が前記第1の範囲内に含まれる率を求め、前記複数の周波数帯域のうち、当該率が前記音源の方向からの音に相当する条件を満たさない周波数帯域を検出し、
前記検出部により検出された周波数帯域について、前記音源の方向についての前記第1の範囲よりも拡張した第2の範囲を設定し、
前記第2の範囲内に前記位相差が含まれる場合の前記第1及び第2の周波数信号の少なくとも一方の振幅を、前記第2の範囲から前記位相差が外れた場合の当該一方の周波数信号の振幅よりも大きくすることで補正された第1及び第2の周波数信号を求め、
前記補正された第1及び第2の周波数信号を、それぞれ、時間領域の補正後の第1及び第2の音声信号に変換する、
ことをコンピュータに実行させる音声処理用コンピュータプログラム。
2−1、2−2 音声入力部
3 アナログ/デジタル変換部
4 記憶部
5 記憶媒体アクセス装置
6、61 音声処理装置
7 制御部
8 通信部
9 出力部
10 記憶媒体
11 時間周波数変換部
12 位相差分算出部
13 検出部
14 抑制範囲設定部
15 抑制関数算出部
16 信号補正部
17 周波数時間変換部
18 雑音レベル算出部
19 判定部
Claims (6)
- 第1の音声入力部により集音された音を表す第1の音声信号と、第2の音声入力部により集音された音を表す第2の音声信号とを、それぞれ、所定の時間長を持つフレームごとに周波数領域の第1の周波数信号と第2の周波数信号に変換する時間周波数変換部と、
前記フレームごとに、前記第1の周波数信号と前記第2の周波数信号との位相差を複数の周波数帯域のそれぞれについて算出する位相差分算出部と、
前記フレームごとに、前記複数の周波数帯域のそれぞれについて、所定の音源の方向について取り得る位相差の第1の範囲内に前記位相差が含まれるか否か判定することにより、所定数の前記フレームにおいて前記位相差が前記第1の範囲内に含まれる率を求め、前記複数の周波数帯域のうち、当該率が前記音源の方向からの音に相当する条件を満たさない周波数帯域を検出する検出部と、
前記検出部により検出された周波数帯域について、前記音源の方向についての前記第1の範囲よりも拡張した第2の範囲を設定する範囲設定部と、
前記第2の範囲内に前記位相差が含まれる場合の前記第1及び第2の周波数信号の少なくとも一方の振幅を、前記第2の範囲から前記位相差が外れた場合の当該一方の周波数信号の振幅よりも大きくすることで補正された第1及び第2の周波数信号を求める信号補正部と、
前記補正された第1及び第2の周波数信号を、それぞれ、時間領域の補正後の第1及び第2の音声信号に変換する周波数時間変換部と、
を有する音声処理装置。 - 前記検出部は、前記複数の周波数帯域のうち、前記率が第1の閾値以下である周波数帯域を、前記率が前記条件を満たさない周波数帯域であると判定する、請求項1に記載の音声処理装置。
- 前記検出部は、前記複数の周波数帯域のそれぞれにおいて、複数の音源の方向のそれぞれについての前記所定数の前記フレームにおける前記率の最大値を求め、前記複数の周波数帯域のうち、前記複数の音源の方向のそれぞれにおける当該最大値の平均値が第2の閾値以下であり、かつ、前記複数の音源の方向のそれぞれにおける当該最大値の分散が第3の閾値以下である周波数帯域を、前記率が前記条件を満たさない周波数帯域であると判定する請求項1に記載の音声処理装置。
- 前記範囲設定部は、前記検出部により検出された周波数帯域について、当該周波数帯域における前記所定数のフレームのうちで前記位相差が前記第1の範囲から外れた量の最大値以上、前記第1の範囲を拡張することで前記第2の範囲を設定する、請求項1〜3の何れか一項に記載の音声処理装置。
- 第1の音声入力部により集音された音を表す第1の音声信号と、第2の音声入力部により集音された音を表す第2の音声信号とを、それぞれ、所定の時間長を持つフレームごとに周波数領域の第1の周波数信号と第2の周波数信号に変換し、
前記フレームごとに、前記第1の周波数信号と前記第2の周波数信号との位相差を複数の周波数帯域のそれぞれについて算出し、
前記フレームごとに、前記複数の周波数帯域のそれぞれについて、所定の音源の方向について取り得る位相差の第1の範囲内に前記位相差が含まれるか否か判定することにより、所定数の前記フレームにおいて前記位相差が前記第1の範囲内に含まれる率を求め、前記複数の周波数帯域のうち、当該率が前記音源の方向からの音に相当する条件を満たさない周波数帯域を検出し、
前記検出部により検出された周波数帯域について、前記音源の方向についての前記第1の範囲よりも拡張した第2の範囲を設定し、
前記第2の範囲内に前記位相差が含まれる場合の前記第1及び第2の周波数信号の少なくとも一方の振幅を、前記第2の範囲から前記位相差が外れた場合の当該一方の周波数信号の振幅よりも大きくすることで補正された第1及び第2の周波数信号を求め、
前記補正された第1及び第2の周波数信号を、それぞれ、時間領域の補正後の第1及び第2の音声信号に変換する、
ことを含む音声処理方法。 - 第1の音声入力部により集音された音を表す第1の音声信号と、第2の音声入力部により集音された音を表す第2の音声信号とを、それぞれ、所定の時間長を持つフレームごとに周波数領域の第1の周波数信号と第2の周波数信号に変換し、
前記フレームごとに、前記第1の周波数信号と前記第2の周波数信号との位相差を複数の周波数帯域のそれぞれについて算出し、
前記フレームごとに、前記複数の周波数帯域のそれぞれについて、所定の音源の方向について取り得る位相差の第1の範囲内に前記位相差が含まれるか否か判定することにより、所定数の前記フレームにおいて前記位相差が前記第1の範囲内に含まれる率を求め、前記複数の周波数帯域のうち、当該率が前記音源の方向からの音に相当する条件を満たさない周波数帯域を検出し、
前記検出部により検出された周波数帯域について、前記音源の方向についての前記第1の範囲よりも拡張した第2の範囲を設定し、
前記第2の範囲内に前記位相差が含まれる場合の前記第1及び第2の周波数信号の少なくとも一方の振幅を、前記第2の範囲から前記位相差が外れた場合の当該一方の周波数信号の振幅よりも大きくすることで補正された第1及び第2の周波数信号を求め、
前記補正された第1及び第2の周波数信号を、それぞれ、時間領域の補正後の第1及び第2の音声信号に変換する、
ことをコンピュータに実行させる音声処理用コンピュータプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011286450A JP5810903B2 (ja) | 2011-12-27 | 2011-12-27 | 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム |
US13/659,410 US8886499B2 (en) | 2011-12-27 | 2012-10-24 | Voice processing apparatus and voice processing method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011286450A JP5810903B2 (ja) | 2011-12-27 | 2011-12-27 | 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013135433A true JP2013135433A (ja) | 2013-07-08 |
JP5810903B2 JP5810903B2 (ja) | 2015-11-11 |
Family
ID=48655412
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011286450A Active JP5810903B2 (ja) | 2011-12-27 | 2011-12-27 | 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US8886499B2 (ja) |
JP (1) | JP5810903B2 (ja) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015061306A (ja) * | 2013-09-20 | 2015-03-30 | 富士通株式会社 | 音声処理装置及び音声処理用コンピュータプログラム |
JP2016181789A (ja) * | 2015-03-24 | 2016-10-13 | 富士通株式会社 | 雑音抑圧装置、雑音抑圧方法、及び、プログラム |
JP2016189570A (ja) * | 2015-03-30 | 2016-11-04 | アイホン株式会社 | インターホン装置 |
JP2017015774A (ja) * | 2015-06-26 | 2017-01-19 | 富士通株式会社 | 雑音抑圧装置、雑音抑圧方法、及び雑音抑圧プログラム |
TWI587288B (zh) * | 2014-07-01 | 2017-06-11 | 弗勞恩霍夫爾協會 | 利用水平相校正處理音訊信號之音訊處理器及方法 |
WO2019065384A1 (ja) * | 2017-09-27 | 2019-04-04 | 株式会社Jvcケンウッド | 信号処理装置、信号処理方法、及びプログラム |
JP2020197565A (ja) * | 2019-05-31 | 2020-12-10 | 富士通株式会社 | 話者方向判定プログラム、話者方向判定方法、及び、話者方向判定装置 |
CN116645973A (zh) * | 2023-07-20 | 2023-08-25 | 腾讯科技(深圳)有限公司 | 定向音频增强方法、装置、存储介质及电子设备 |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8744645B1 (en) * | 2013-02-26 | 2014-06-03 | Honda Motor Co., Ltd. | System and method for incorporating gesture and voice recognition into a single system |
JP6754184B2 (ja) * | 2014-12-26 | 2020-09-09 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 音声認識装置及び音声認識方法 |
JP2016182298A (ja) * | 2015-03-26 | 2016-10-20 | 株式会社東芝 | 騒音低減システム |
JP6559576B2 (ja) * | 2016-01-05 | 2019-08-14 | 株式会社東芝 | 雑音抑圧装置、雑音抑圧方法及びプログラム |
JP6677136B2 (ja) | 2016-09-16 | 2020-04-08 | 富士通株式会社 | 音声信号処理プログラム、音声信号処理方法及び音声信号処理装置 |
US10706867B1 (en) * | 2017-03-03 | 2020-07-07 | Oben, Inc. | Global frequency-warping transformation estimation for voice timbre approximation |
US10142730B1 (en) | 2017-09-25 | 2018-11-27 | Cirrus Logic, Inc. | Temporal and spatial detection of acoustic sources |
JP7010136B2 (ja) * | 2018-05-11 | 2022-01-26 | 富士通株式会社 | 発声方向判定プログラム、発声方向判定方法、及び、発声方向判定装置 |
CN110992977B (zh) * | 2019-12-03 | 2021-06-22 | 北京声智科技有限公司 | 一种目标声源的提取方法及装置 |
US20210201937A1 (en) * | 2019-12-31 | 2021-07-01 | Texas Instruments Incorporated | Adaptive detection threshold for non-stationary signals in noise |
CN111857041A (zh) * | 2020-07-30 | 2020-10-30 | 东莞市易联交互信息科技有限责任公司 | 一种智能设备的运动控制方法、装置、设备和存储介质 |
EP4152321A1 (en) * | 2021-09-16 | 2023-03-22 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for narrowband direction-of-arrival estimation |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007318528A (ja) * | 2006-05-26 | 2007-12-06 | Fujitsu Ltd | 指向性集音装置、指向性集音方法、及びコンピュータプログラム |
JP2011071702A (ja) * | 2009-09-25 | 2011-04-07 | Fujitsu Ltd | 収音処理装置、収音処理方法、及びプログラム |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3716918B2 (ja) | 2001-09-06 | 2005-11-16 | 日本電信電話株式会社 | 収音装置、方法及びプログラム、記録媒体 |
SE0400997D0 (sv) * | 2004-04-16 | 2004-04-16 | Cooding Technologies Sweden Ab | Efficient coding of multi-channel audio |
EP1818909B1 (en) * | 2004-12-03 | 2011-11-02 | Honda Motor Co., Ltd. | Voice recognition system |
JP3906230B2 (ja) * | 2005-03-11 | 2007-04-18 | 株式会社東芝 | 音響信号処理装置、音響信号処理方法、音響信号処理プログラム、及び音響信号処理プログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP5070873B2 (ja) * | 2006-08-09 | 2012-11-14 | 富士通株式会社 | 音源方向推定装置、音源方向推定方法、及びコンピュータプログラム |
US8218033B2 (en) * | 2007-09-10 | 2012-07-10 | Sanyo Electric Co., Ltd. | Sound corrector, sound recording device, sound reproducing device, and sound correcting method |
JP4310371B2 (ja) * | 2007-09-11 | 2009-08-05 | パナソニック株式会社 | 音判定装置、音検知装置及び音判定方法 |
JP2010124370A (ja) * | 2008-11-21 | 2010-06-03 | Fujitsu Ltd | 信号処理装置、信号処理方法、および信号処理プログラム |
JP5255467B2 (ja) | 2009-02-02 | 2013-08-07 | クラリオン株式会社 | 雑音抑制装置、雑音抑制方法、及び、プログラム |
JP2011033717A (ja) | 2009-07-30 | 2011-02-17 | Secom Co Ltd | 雑音抑圧装置 |
JP5446745B2 (ja) | 2009-11-05 | 2014-03-19 | 富士通株式会社 | 音信号処理方法および音信号処理装置 |
-
2011
- 2011-12-27 JP JP2011286450A patent/JP5810903B2/ja active Active
-
2012
- 2012-10-24 US US13/659,410 patent/US8886499B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007318528A (ja) * | 2006-05-26 | 2007-12-06 | Fujitsu Ltd | 指向性集音装置、指向性集音方法、及びコンピュータプログラム |
JP2011071702A (ja) * | 2009-09-25 | 2011-04-07 | Fujitsu Ltd | 収音処理装置、収音処理方法、及びプログラム |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015061306A (ja) * | 2013-09-20 | 2015-03-30 | 富士通株式会社 | 音声処理装置及び音声処理用コンピュータプログラム |
US10770083B2 (en) | 2014-07-01 | 2020-09-08 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio processor and method for processing an audio signal using vertical phase correction |
TWI587288B (zh) * | 2014-07-01 | 2017-06-11 | 弗勞恩霍夫爾協會 | 利用水平相校正處理音訊信號之音訊處理器及方法 |
TWI587289B (zh) * | 2014-07-01 | 2017-06-11 | 弗勞恩霍夫爾協會 | 用以決定用於音訊信號之相位校正資料的計算器及方法 |
US10140997B2 (en) | 2014-07-01 | 2018-11-27 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Decoder and method for decoding an audio signal, encoder and method for encoding an audio signal |
US10192561B2 (en) | 2014-07-01 | 2019-01-29 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio processor and method for processing an audio signal using horizontal phase correction |
US10930292B2 (en) | 2014-07-01 | 2021-02-23 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio processor and method for processing an audio signal using horizontal phase correction |
US10283130B2 (en) | 2014-07-01 | 2019-05-07 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio processor and method for processing an audio signal using vertical phase correction |
JP2016181789A (ja) * | 2015-03-24 | 2016-10-13 | 富士通株式会社 | 雑音抑圧装置、雑音抑圧方法、及び、プログラム |
JP2016189570A (ja) * | 2015-03-30 | 2016-11-04 | アイホン株式会社 | インターホン装置 |
JP2017015774A (ja) * | 2015-06-26 | 2017-01-19 | 富士通株式会社 | 雑音抑圧装置、雑音抑圧方法、及び雑音抑圧プログラム |
WO2019065384A1 (ja) * | 2017-09-27 | 2019-04-04 | 株式会社Jvcケンウッド | 信号処理装置、信号処理方法、及びプログラム |
JP2019061108A (ja) * | 2017-09-27 | 2019-04-18 | 株式会社Jvcケンウッド | 信号処理装置、信号処理方法、及びプログラム |
JP2020197565A (ja) * | 2019-05-31 | 2020-12-10 | 富士通株式会社 | 話者方向判定プログラム、話者方向判定方法、及び、話者方向判定装置 |
JP7226107B2 (ja) | 2019-05-31 | 2023-02-21 | 富士通株式会社 | 話者方向判定プログラム、話者方向判定方法、及び、話者方向判定装置 |
CN116645973A (zh) * | 2023-07-20 | 2023-08-25 | 腾讯科技(深圳)有限公司 | 定向音频增强方法、装置、存储介质及电子设备 |
CN116645973B (zh) * | 2023-07-20 | 2023-09-29 | 腾讯科技(深圳)有限公司 | 定向音频增强方法、装置、存储介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
US20130166286A1 (en) | 2013-06-27 |
JP5810903B2 (ja) | 2015-11-11 |
US8886499B2 (en) | 2014-11-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5810903B2 (ja) | 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム | |
JP5293817B2 (ja) | 音声信号処理装置及び音声信号処理方法 | |
JP5923994B2 (ja) | 音声処理装置及び音声処理方法 | |
JP6156012B2 (ja) | 音声処理装置及び音声処理用コンピュータプログラム | |
KR100883712B1 (ko) | 음원 방향 추정 방법, 및 음원 방향 추정 장치 | |
JP6107151B2 (ja) | 雑音抑圧装置、方法、及びプログラム | |
US9264804B2 (en) | Noise suppressing method and a noise suppressor for applying the noise suppressing method | |
US8521530B1 (en) | System and method for enhancing a monaural audio signal | |
TWI463817B (zh) | 可適性智慧雜訊抑制系統及方法 | |
JP4519169B2 (ja) | 信号処理方法および信号処理装置 | |
JP6135106B2 (ja) | 音声強調装置、音声強調方法及び音声強調用コンピュータプログラム | |
JP6312826B2 (ja) | 補聴器システムの動作方法および補聴器システム | |
JP2012128411A (ja) | 音声判定装置および音声判定方法 | |
JP2010505283A (ja) | 風雑音を検出するための方法およびシステム | |
JP5834948B2 (ja) | 残響抑制装置、残響抑制方法及び残響抑制用コンピュータプログラム | |
JP2010514235A (ja) | 音量自動調整方法及びシステム | |
JP2011244232A (ja) | マイクロホンアレイ装置及び前記マイクロホンアレイ装置が実行するプログラム | |
JPWO2018173267A1 (ja) | 収音装置および収音方法 | |
JP2010112995A (ja) | 通話音声処理装置、通話音声処理方法およびプログラム | |
US8423357B2 (en) | System and method for biometric acoustic noise reduction | |
JP2017015774A (ja) | 雑音抑圧装置、雑音抑圧方法、及び雑音抑圧プログラム | |
JP6638248B2 (ja) | 音声判定装置、方法及びプログラム、並びに、音声信号処理装置 | |
JP7144078B2 (ja) | 信号処理装置、音声通話端末、信号処理方法および信号処理プログラム | |
JP6631127B2 (ja) | 音声判定装置、方法及びプログラム、並びに、音声処理装置 | |
JP4479625B2 (ja) | 騒音抑圧装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140904 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150713 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150721 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150729 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150818 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150831 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5810903 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |