JP2015061306A - 音声処理装置及び音声処理用コンピュータプログラム - Google Patents

音声処理装置及び音声処理用コンピュータプログラム Download PDF

Info

Publication number
JP2015061306A
JP2015061306A JP2013196118A JP2013196118A JP2015061306A JP 2015061306 A JP2015061306 A JP 2015061306A JP 2013196118 A JP2013196118 A JP 2013196118A JP 2013196118 A JP2013196118 A JP 2013196118A JP 2015061306 A JP2015061306 A JP 2015061306A
Authority
JP
Japan
Prior art keywords
range
frequency
phase difference
signal
suppression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013196118A
Other languages
English (en)
Other versions
JP6156012B2 (ja
Inventor
智佳子 松本
Chikako Matsumoto
智佳子 松本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2013196118A priority Critical patent/JP6156012B2/ja
Priority to US14/469,681 priority patent/US9842599B2/en
Priority to EP14182463.1A priority patent/EP2851898B1/en
Publication of JP2015061306A publication Critical patent/JP2015061306A/ja
Application granted granted Critical
Publication of JP6156012B2 publication Critical patent/JP6156012B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02168Noise filtering characterised by the method used for estimating noise the estimation exclusively taking place during speech pauses
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • G10L2025/786Adaptive threshold

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Telephone Function (AREA)

Abstract

【課題】音源の方向が正確に特定できない場合でも、音声信号の歪みを抑制しつつ、雑音を抑制できる音声処理装置を提供する。
【解決手段】音声処理装置1は、第1及び第2の音声入力部(2−1、2−2)が生成した第1及び第2の音声信号を、第1及び第2の周波数信号に変換し、第1の周波数信号と第2の周波数信号間の位相差を各周波数について算出し、収音対象の音源の想定される方向に対応する、周波数ごとの第1の音声信号と第2の音声信号間の位相差の基準範囲外または基準範囲内に設定された各拡張範囲について、第1の周波数信号と第2の周波数信号間の位相差がその拡張範囲に含まれる周波数の数から存在率を算出し、存在率が所定値よりも高い第1の拡張範囲及び第1の拡張範囲よりも基準範囲の中心の位相差に近い第2の拡張範囲を基準範囲とともに第1及び第2の周波数信号を抑制範囲よりも減衰させない非抑制範囲に設定する。
【選択図】図2

Description

本発明は、例えば、複数のマイクロホンを用いて音声を集音する音声処理装置及び音声処理用コンピュータプログラムに関する。
近年、携帯電話機、電話会議システム、またはハンズフリー機能を備えた電話機といった、複数のマイクロホンにより音声を集音する音声処理装置が開発されている。このような音声処理装置において、集音した音声のうち、特定方向からの音声を聞き取り易くするために、その特定方向以外からの音声を減衰させる技術が研究されている(例えば、特許文献1及び2を参照)。
例えば、特許文献1に開示された指向性集音装置は、複数方向に存在する音源からの音を周波数軸上の信号に変換し、周波数軸上の信号を抑制する抑制関数を算出し、その抑制関数を元の信号の周波数軸上の信号の振幅成分に乗算して周波数軸上の信号を補正する。この指向性集音装置は、各周波数軸上の信号の位相成分を同じ周波数ごとに算出し、位相成分の差分を算出し、その差分に基づいて、所定の方向に音源が存在する確率を示す確率値を特定する。そしてこの指向性集音装置は、その確率値に基づいて所定の方向の音源以外の音源からの音を抑制する抑制関数を算出する。
また、特許文献2に開示された雑音抑制装置は、2つ以上のマイクロホンが受信した音の音源を分離し、分離した音源のうち、目的音の音源方向を推定する。そしてこの雑音抑制装置は、目的音の音源方向を用いてマイクロホン間の位相差を検出し、検出された位相差を用いて位相差の中心値を更新し、更新された中心値を用いて生成された雑音抑制フィルタを用いて、マイクロホンが受信した音の雑音を抑制する。
特開2007−318528号公報 特開2010−176105号公報
しかしながら、集音された音声信号の信号対雑音比(Signal to Noise Ratio, SNR)が低いと、その音声信号から目的音と雑音とを分離することは困難である。そのため、SNRが低い場合には、音源方向の存在確率が正しく算出されなかったり、位相差の中心値が更新されない。その結果として、音源の方向が正しく推定されないおそれがあった。そのため、何れの先行技術でも、強調したい音声が誤って抑制されたり、あるいは、抑制すべき音声が抑制されず、結果として得られる音声信号が歪んでしまうおそれがあった。
そこで本明細書は、音源の方向が正確に特定できない場合でも、音声信号の歪みを抑制しつつ、雑音を抑制できる音声処理装置を提供することを目的とする。
一つの実施形態によれば、音声処理装置が提供される。この音声処理装置は、集音した音声を表す第1の音声信号を生成する第1の音声入力部と、第1の音声入力部と異なる位置に配置され、集音した音声を表す第2の音声信号を生成する第2の音声入力部と、収音対象の音源の想定される方向に対応する、周波数ごとの第1の音声信号と第2の音声信号間の位相差の範囲を表す基準範囲と、基準範囲外または基準範囲内に、基準範囲の一端から順に並ぶように設定された、周波数ごとの第1の音声信号と第2の音声信号間の位相差の範囲を表す少なくとも一つの拡張範囲とを記憶する記憶部と、第1の音声信号及び第2の音声信号を、それぞれ、所定の時間長を持つフレームごとに周波数領域の第1の周波数信号及び第2の周波数信号に変換する時間周波数変換部と、フレームごとに、第1の周波数信号と第2の周波数信号間の位相差を複数の周波数のそれぞれについて算出する位相差算出部と、フレームごとに、少なくとも一つの拡張範囲のそれぞれについて、第1及び第2の周波数信号が算出された周波数帯域に含まれる周波数の総数に対する、第1の周波数信号と第2の周波数信号間の位相差がその拡張範囲に含まれる周波数の数の比である存在率を算出する存在率算出部と、フレームごとに、少なくとも一つの拡張範囲のうち、存在率が所定値よりも高い第1の拡張範囲及び第1の拡張範囲よりも基準範囲の中心の位相差に近い第2の拡張範囲と、基準範囲のうちの第1の拡張範囲よりも基準範囲の中心の位相差から離れた第3の拡張範囲と重ならない範囲を非抑制範囲に設定し、非抑制範囲に含まれない位相差の範囲を抑制範囲に設定する非抑制範囲設定部と、フレームごとに、第1の周波数信号及び第2の周波数信号のうちの少なくとも一方について、第1の周波数信号と第2の周波数信号間の位相差が非抑制範囲に含まれる周波数の成分よりも、第1の周波数信号と第2の周波数信号間の位相差が抑制範囲に含まれる周波数の成分を減衰させる抑圧係数を算出する抑圧係数算出部と、フレームごとに、第1及び第2の周波数信号のうちの少なくとも一方の各周波数の成分の振幅に、対応する周波数の抑圧係数を乗じることで第1及び第2の周波数信号のうちの少なくとも一方を補正する信号補正部と、補正された第1及び第2の周波数信号のうちの少なくとも一方を、時間領域の補正後の音声信号に変換する周波数時間変換部とを有する。
本発明の目的及び利点は、請求項において特に指摘されたエレメント及び組み合わせにより実現され、かつ達成される。
上記の一般的な記述及び下記の詳細な記述の何れも、例示的かつ説明的なものであり、請求項のように、本発明を限定するものではないことを理解されたい。
本明細書に開示された音声処理装置は、音源の方向が正確に特定できない場合でも、音声信号の歪みを抑制しつつ、雑音を抑制できる。
音声処理装置の概略構成図である。 処理部の概略構成図である。 基準範囲及び拡張範囲の一例を示す図である。 基準範囲及び拡張範囲の他の一例を示す図である。 非抑制範囲と抑制範囲の一例を示す図である。 抑制範囲及び非抑制範囲と抑圧係数の関係の一例を示す図である。 音声処理の動作フローチャートである。 (a)は、この変形例による、基準範囲と拡張範囲の一例を示す図である。(b)及び(c)は、それぞれ、(a)に示された基準範囲及び拡張範囲に対して設定される非抑制範囲の一例を示す図である。 変形例による非抑制範囲の設定に関する動作フローチャートである。 振幅比と第2の抑圧係数の関係の一例を示す図である。
以下、図を参照しつつ、様々な実施形態による音声処理装置について説明する。この音声処理装置は、複数の音声入力部によりそれぞれ集音された音声信号間の位相差を複数の周波数のそれぞれごとに求める。そしてこの音声処理装置は、音声信号のうち、目的音の音源の想定される方向に相当する位相差の範囲である基準範囲から位相差が外れる周波数についての成分を雑音として減衰させる。ただし、この音声処理装置は、基準範囲と隣接する拡張範囲についても、その拡張範囲に位相差が含まれる周波数の数の割合が一定以上となる場合に、その拡張範囲も信号減衰の対象外とする。これにより、この音声処理装置は、目的音のSNRが低く、目的音の到来方向を正確に推定できない場合でも、目的音が減衰され難くすることで、雑音抑制による音声の歪みを抑制する。
図1は、一つの実施形態による音声処理装置の概略構成図である。音声処理装置1は、例えば、携帯電話機であり、音声入力部2−1及び2−2と、アナログ/デジタル変換部3と、記憶部4と、記憶媒体アクセス装置5と、処理部6と、通信部7と、出力部8とを有する。
音声入力部2−1及び2−2は、例えば、それぞれ、マイクロホンを有し、音声入力部2−1及び音声入力部2−2の周囲の音声を集音し、その音声の音量に応じたアナログ音声信号を生成してアナログ/デジタル変換部3へ出力する。なお、音声入力部2−1及び音声入力部2−2は、音源の位置に応じて各音声入力部間で音声が達する時間が異なるように、例えば、所定の間隔(例えば、数cm程度)を空けて配置される。例えば、音声入力部2−1は、携帯電話機の筐体の長手方向の一方の端部近傍に配置され、音声入力部2−2は、その筐体の長手方向の他方の端部近傍に配置される。そのため、音源の方向によって、二つの音声入力部2−1及び2−2で得られた音声信号間の位相差も変化する。したがって、この位相差を調べることにより、音声処理装置1は、音源の方向を推定できる。
アナログ/デジタル変換部3は、例えば、アンプと、アナログ/デジタル変換器とを有する。アナログ/デジタル変換部3は、音声入力部2−1及び2−2から受け取ったアナログ音声信号をアンプによりそれぞれ増幅する。そしてアナログ/デジタル変換部3は、、その増幅されたアナログ音声信号をアナログ/デジタル変換器により所定のサンプリング周期(例えば、8kHz)でサンプリングすることにより、デジタル化された音声信号を生成する。なお、以下では、便宜上、音声入力部2−1により生成されたアナログ音声信号をデジタル化した音声信号を第1の音声信号と呼び、音声入力部2−2により生成されたアナログ音声信号をデジタル化した音声信号を第2の音声信号と呼ぶ。アナログ/デジタル変換部3は、第1及び第2の音声信号を処理部6へ出力する。
記憶部4は、例えば、読み書き可能な半導体メモリと読み出し専用の半導体メモリとを有する。そして記憶部4は、音声処理装置1で用いられる各種コンピュータプログラム及び各種のデータを記憶する。
また記憶部4は、周波数ごとの、第1の音声信号と第2の音声信号間の位相差の範囲である基準範囲を示す情報を記憶する。さらに、記憶部4は、基準範囲の一端から順に並ぶように設定された、周波数ごとの第1の音声信号と第2の音声信号間の位相差の範囲である少なくとも一つの拡張範囲を示す情報を記憶する。なお、基準範囲を示す情報及び拡張範囲を示す情報は、例えば、周波数ごとの、基準範囲及び拡張範囲の両端の位相差を含む。あるいは、基準範囲及び各拡張範囲を表す情報は、周波数ごとの、基準範囲及び各拡張範囲の中心の位相差と、基準範囲及び各拡張範囲の位相差の幅を含んでもよい。なお、基準範囲及び拡張範囲の詳細については後述する。
記憶媒体アクセス装置5は、例えば、半導体メモリカードといった記憶媒体10にアクセスする装置である。記憶媒体アクセス装置5は、例えば、記憶媒体10に記憶された処理部6上で実行されるコンピュータプログラムを読み込み、処理部6に渡す。
処理部6は、一つまたは複数のプロセッサと、メモリ回路と、周辺回路とを有する。処理部6は、音声処理装置1全体を制御する。
処理部6は、音声処理装置1が有するタッチパネルなどの操作部(図示せず)を介したユーザの操作により、例えば、通話が開始されると、呼び出し、応答、切断などの呼制御処理を実行する。
また処理部6は、第1及び第2の音声信号に含まれる、集音対象の音である目的音以外の音または雑音を減衰させることにより第1及び第2の音声信号を補正して、その目的音を聞き取り易くする。そして処理部6は、補正された第1及び第2の音声信号を符号化し、その符号化された第1及び第2の音声信号を通信部7を介して出力する。また処理部6は、通信部7を介して他の機器から受け取った、符号化された音声信号を復号し、その復号された音声信号を出力部8へ出力する。
本実施形態では、目的音は、例えば、音声処理装置1を使用して通話するユーザの声であり、目的音の音源は、ユーザの口である。
なお、処理部6による音声処理の詳細については後述する。
通信部7は、処理部6により補正された第1及び第2の音声信号を他の機器へ送信する。そのために、通信部7は、例えば、無線処理部及びアンテナを有する。通信部7の無線処理部は、処理部6により符号化された音声信号を含むアップリンク信号を無線周波数を持つ搬送波に重畳する。そしてそのアップリンク信号は、アンテナを介して他の機器へ送信される。また通信部7は、他の機器から音声信号を含むダウンリンク信号を受信してもよい。そして通信部7は、そのダウンリンク信号を処理部6へ渡してもよい。
出力部8は、例えば、処理部6から受け取った音声信号をアナログ化するためのデジタル/アナログ変換器とスピーカとを有し、処理部6から受け取った音声信号を再生する。
以下、処理部6による音声処理の詳細について説明する。
図2は、処理部6の概略構成図である。処理部6は、時間周波数変換部11と、位相差算出部12と、存在率算出部13と、非抑制範囲設定部14と、抑圧係数算出部15と、信号補正部16と、周波数時間変換部17とを有する。
処理部6が有するこれらの各部は、例えば、処理部6が有するプロセッサ上で実行されるコンピュータプログラムによって実現される機能モジュールとして実装される。あるいは、処理部6が有するこれらの各部は、処理部6が有するプロセッサとは別個に、それらの各部の機能を実現する一つの集積回路として音声処理装置1に実装されてもよい。
時間周波数変換部11は、第1の音声信号を所定の時間長(例えば、数10msec)を持つフレーム単位に分割し、フレームごとに時間周波数変換することにより、周波数領域の信号である第1の周波数信号を算出する。同様に、時間周波数変換部11は、第2の音声信号をフレーム単位に分割し、フレームごとに時間周波数変換することにより、周波数領域の信号である第2の周波数信号を算出する。時間周波数変換部11は、例えば、時間周波数変換として、高速フーリエ変換(Fast Fourier Transform, FFT)、または修正離散コサイン変換(Modified Discrete Cosine Transform, MDCT)を利用できる。第1及び第2の周波数信号には、フレームに含まれるサンプリング点の総数の1/2個の周波数成分が含まれる。
時間周波数変換部11は、フレームごとに、第1及び第2の周波数信号を位相差算出部12及び信号補正部16へ出力する。
位相差算出部12は、フレームごとに、周波数ごとの第1の周波数信号の位相と第2の周波数信号の位相間の差を求める。例えば、位相差算出部12は、次式に従って周波数ごとの位相差Δθfを求める。
Figure 2015061306
ただし、S1fは、第1の周波数信号のうちの周波数fにおける成分を表し、S2fは、第2の周波数信号のうちの周波数fにおける成分を表す。またfsは、サンプリング周波数を表す。
位相差算出部12は、各周波数帯域の位相差Δθfを存在率算出部13及び信号補正部16へ渡す。
存在率算出部13は、フレームごとに、拡張範囲のそれぞれについて、第1及び第2の周波数信号が算出された周波数帯域に含まれる周波数の総数に対する、位相差Δθfが含まれる周波数の数の比を、その拡張範囲についての存在率として算出する。
ここで、基準範囲及び拡張範囲について説明する。基準範囲は、目的音の音源の想定される方向に相当する、第1の音声信号と第2の音声信号間の周波数ごとの位相差の範囲である。基準範囲は、例えば、音声処理装置1についての想定される標準的な持ち方と、音声入力部2−1、2−2の配置に応じて予め設定される。また、拡張範囲は、本実施形態では、基準範囲に相当する音の到来方向よりも目的音の到来方向である可能性は低いものの、ユーザによる音声処理装置1の持ち方などによっては目的音の到来方向となり得る音の方向に対応する位相差の範囲である。
図3は、基準範囲及び拡張範囲の一例を示す図である。図3において、横軸は周波数を表し、縦軸は位相差を表す。この例では、基準範囲301よりも位相差が小さい方に2個の拡張範囲302、303が設定されている。拡張範囲302は基準範囲301の位相差が小さい方の端部に隣接し、拡張範囲303は、拡張範囲302の位相差が小さい方の端部に隣接している。この例では、位相差が小さい拡張範囲ほど、その拡張範囲に含まれる位相差の幅が狭くなる。この理由は、位相差が小さいほど、音源は、音声入力部2−1と音声入力部2−2に対して等距離となる位置に近く、音源方向の推定精度が向上するためである。また図3に示されたテーブル300は、4kHzでの基準範囲及び各拡張範囲における端部の位相差dn(n=1〜4)及び基準範囲及び各拡張範囲の両端の位相差間の間隔Δdn(n=1〜3)を示す。この例では、第1及び第2の音声信号は、第1及び第2の音声入力部により生成されたアナログの音声信号がサンプリング周波数8kHzでサンプリングされることで生成されたものとする。そして、第1の音声入力部2−1と第2の音声入力部2−2間の距離が、(音速/サンプリング周波数)よりも小さいとする。この例では、第1及び第2の周波数信号の最も高い周波数(4kHz)成分について、基準範囲及び各拡張範囲の両端の位相差dn、dn+1と、その両端の位相差間の間隔Δdnとの間に以下の関係が成り立つように、基準範囲及び各拡張範囲が設定されている。
Figure 2015061306
図4は、基準範囲及び拡張範囲の他の一例を示す図である。図4において、横軸は周波数を表し、縦軸は位相差を表す。この例では、基準範囲401よりも位相差が大きい方に2個の拡張範囲402、403が設定されている。拡張範囲402は基準範囲401の位相差が大きい方の端部に隣接し、拡張範囲403は、拡張範囲402の位相差が大きい方の端部に隣接している。この例でも、位相差が小さいほど、拡張範囲も狭くなる。また図4に示されたテーブル400は、4kHzでの基準範囲及び各拡張範囲における端部の位相差dn(n=1〜4)及び基準範囲及び各拡張範囲の両端の位相差間の間隔Δdn(n=1〜3)を示す。なお、この例では、基準範囲及び各拡張範囲の両端の位相差dn、dn+1と、その両端の位相差間の間隔Δdnとの間に以下の関係が成り立つように、基準範囲及び拡張範囲が設定されている。
Figure 2015061306
上記の例では、拡張範囲は、基準範囲の一方の側にのみ設定されているが、拡張範囲は、基準範囲の両側に設定されてもよい。また、基準範囲よりも位相差が大きい方に設定される拡張範囲の数は、基準範囲よりも位相差が小さい方に設定される拡張範囲の数と異なっていてもよい。
存在率算出部13は、記憶部4から基準範囲及び各拡張範囲を表す情報を読み込む。そして存在率算出部13は、フレームごとに、各拡張範囲について、位相差がその拡張範囲に含まれる周波数の数をカウントする。そして存在率算出部13は、次式に従って、各拡張範囲について、第1及び第2の周波数信号が算出された周波数帯域に含まれる周波数の総数に対する、位相差がその拡張範囲に含まれる周波数の比である存在率を算出する。
Figure 2015061306
ここで、rn(n=1,2,..,N、ただしNは拡張範囲の数)は、基準範囲の中心の位相差に近い方から順にn番目の拡張範囲の存在率である。mnは、位相差がn番目の拡張範囲に含まれる周波数の数である。lは、フレームに含まれるサンプリング点の数(例えば、512または1024)である。
存在率算出部13は、各拡張範囲についての存在率を非抑制範囲設定部14に通知する。
非抑制範囲設定部14は、フレームごとに、各拡張範囲の存在率に基づいて、第1及び第2の周波数信号を減衰させる位相差の範囲である抑制範囲と、第1及び第2の周波数信号を減衰させない位相差の範囲である非抑制範囲とを設定する。
本実施形態では、非抑制範囲設定部14は、基準範囲の中心の位相差に近い方から順にn番目の拡張範囲(第1の拡張範囲)における存在率が所定値よりも高い場合、n番目の拡張範囲とともに、1〜(n-1)番目の拡張範囲(第2の拡張範囲)を、基準範囲とともに非抑制範囲に設定する。一方、非抑制範囲設定部14は、非抑制範囲以外の範囲を抑制範囲に設定する。なお、抑制範囲には、基準範囲の中心の位相差に近い方から順に(n+1)〜N番目の拡張範囲(第3の拡張範囲)が含まれる。所定値は、例えば、目的音の音源が基準範囲または1〜n番目の拡張範囲に相当する方向にあると推定される場合の存在率の下限値、例えば、0.5に設定される。
図5は、非抑制範囲と抑制範囲の一例を示す図である。図5において、横軸は周波数を表し、縦軸は位相差を表す。この例では、基準範囲500に近い方から順に、3個の拡張範囲501〜503が設定されている。そして、拡張範囲502についての存在率が所定値よりも高いとする。そのため、基準範囲500と、拡張範囲502及び拡張範囲501が非抑制範囲511となり、その他の範囲が抑制範囲となる。
なお、所定値は、拡張範囲ごとに設定されてもよい。基準範囲の定義上、基準範囲に近い位相差に対応する方向ほど、目的音の音源が存在する方向である確率が高い。そこで、例えば、基準範囲から離れた拡張範囲ほど、その拡張範囲に対して設定される所定値は高くてもよい。例えば、基準範囲に隣接する拡張範囲についての所定値は、0.5に設定され、基準範囲と注目する拡張範囲の間に存在する他の拡張範囲の数が一つ増える度に、所定値は0.05または0.1ずつ増加するように、各拡張範囲の所定値が設定されてもよい。これにより、雑音の到来方向を、目的音の到来方向と誤って認識してしまう可能性が低くなるので、非抑制範囲が広くなり過ぎて、雑音の抑制が不十分となることが防止される。
また、変形例によれば、非抑制範囲設定部14は、基準範囲の中心の位相差に近い方から順に、1〜n番目の拡張範囲の存在率の合計が所定値よりも高い場合に、1〜n番目の拡張範囲の全てを基準範囲とともに非抑制範囲に含めてもよい。これにより、第1の音声信号と第2の音声信号間の推定された周波数ごとの位相差のばらつきが大きい場合でも、非抑制範囲設定部14は、適切に非抑制範囲を設定できる。なお、この場合にも、非抑制範囲が広くなり過ぎて、雑音の抑制が不十分となることを防止するために、所定値は、基準範囲の中心の位相差から離れるほど高くなるように設定されることが好ましい。
非抑制範囲設定部14は、抑制範囲及び非抑制範囲を抑圧係数算出部15へ通知する。
抑圧係数算出部15は、フレームごとに、第1及び第2の周波数信号の各周波数成分のうち、位相差が非抑制範囲に含まれる周波数成分については減衰させず、一方、位相差が抑制範囲に含まれる周波数成分を減衰させる抑圧係数を算出する。抑圧係数算出部15は、例えば、周波数帯域fにおける抑圧係数G(f,Δθf)を以下のように設定する。
G(f,Δθf) = 1 (Δθfは、非抑制範囲内)
G(f,Δθf) = 0 (Δθfは、抑制範囲内)
この例では、抑圧係数G(f,Δθf)が1である場合には、第1及び第2の周波数信号は減衰せず、抑圧係数G(f,Δθf)が小さくなるほど、第1及び第2の周波数信号は減衰される。
また、抑圧係数算出部15は、非抑制範囲から外れた位相差となる周波数成分に対する抑圧係数G(f,Δθf)を、位相差と非抑制範囲の上限または下限との差の絶対値が大きくなるにつれて単調減少させてもよい。
図6は、抑制範囲及び非抑制範囲と抑圧係数の関係の一例を示す図である。図6の左側には、基準範囲及び拡張範囲と、設定された非抑制範囲が示され、図6の右側には、周波数4kHzにおける抑圧係数が示される。図6の左側において、横軸は周波数を表し、縦軸は位相差を表す。また図6の右側において、横軸は位相差を表し、縦軸は抑圧係数を表す。
ここで、基準範囲600のみが非抑制範囲に含まれるとする。すなわち、周波数4kHzにおいて、位相差d1〜d2の範囲が非抑制範囲に含まれるとする。この場合、折れ線611に示されるように、抑圧係数は、位相差d1〜d2の区間では1となり、位相差がd1よりも大きくなるほど、あるいは、d2よりも小さくなるほど、単調減少する。そして位相差がd1に対してΔdより大きくなるか、d2に対してΔdより小さくなると、抑圧係数は0で一定となる。
また、基準範囲600とともに、拡張範囲601が非抑制範囲に含まれるとする。すなわち、周波数4kHzにおいて、位相差d1〜d3の範囲が非抑制範囲に含まれるとする。この場合、折れ線612に示されるように、抑圧係数は、位相差d1〜d3の区間では1となり、位相差がd1よりも大きくなるほど、あるいは、d3よりも小さくなるほど、単調減少する。
なお、抑圧係数の算出方法は上記の例に限られない。抑圧係数は、位相差が非抑制範囲に含まれる周波数の成分よりも、位相差が抑制範囲に含まれる周波数の成分を減衰させるように算出されればよい。
抑圧係数算出部15は、各周波数の抑圧係数G(f,Δθf)を信号補正部16へ渡す。
信号補正部16は、フレームごとに、第1及び第2の周波数信号を、例えば、次式に従って、第1及び第2の周波数信号間の位相差Δθf及び抑圧係数算出部15から受け取った抑圧係数G(f,Δθf)に基づいて補正する。
Figure 2015061306
ここで、X(f)は、第1あるいは第2の周波数信号の振幅成分を表し、Y(f)は、補正後の第1あるいは第2の周波数信号の振幅成分を表す。またfは周波数帯域を表す。(5)式から明らかなように、抑圧係数G(f,Δθf)が小さいほど、Y(f)は小さくなる。したがって、位相差Δθfが非抑制範囲から外れている周波数における、第1及び第2の周波数信号の成分は信号補正部16によって減衰される。一方、位相差Δθfが非抑制範囲に含まれる周波数における、第1及び第2の周波数信号の成分は減衰されない。なお、信号補正部16は、(5)式に限らず、非抑制範囲から外れた位相差を持つ周波数における第1及び第2の周波数信号の成分を減衰させる他の関数に従って、第1及び第2の周波数信号を補正してもよい。
信号補正部16は、補正後の第1及び第2の周波数信号を周波数時間変換部17へ渡す。
周波数時間変換部17は、フレームごとに、補正された第1及び第2の周波数信号を、それぞれ、時間周波数変換部11が用いた時間周波数変換の逆変換を用いて時間領域の信号に変換することにより、補正された第1及び第2の音声信号を得る。
これにより、目的音の音源が位置する方向とは異なる方向からの音及び雑音が減衰するので、補正された第1及び第2の音声信号は、目的音を聞き取り易くした音声信号となる。
図7は、処理部6により実行される音声処理の動作フローチャートである。処理部6は、フレーム単位で以下の処理を実行する。
時間周波数変換部11は、第1及び第2の音声信号を周波数領域の第1及び第2の周波数信号に変換する(ステップS101)。そして時間周波数変換部11は、第1及び第2の周波数信号を、位相差算出部12及び信号補正部16へ渡す。
位相差算出部12は、複数の周波数のそれぞれについて第1の周波数信号と第2の周波数信号間の位相差Δθfを算出する(ステップS102)。そして位相差算出部12は、各周波数の位相差Δθfを存在率算出部13及び信号補正部16へ渡す。
存在率算出部13は、拡張範囲ごとに、存在率rnを算出する(ステップS103)。そして存在率算出部13は、各拡張範囲の存在率rnを非抑制範囲設定部14へ通知する。
非抑制範囲設定部14は、基準範囲の中心の位相差に近い方から順に、1番目の拡張範囲を着目拡張範囲に設定する(n=1)(ステップS104)。そして非抑制範囲設定部14は、着目拡張範囲の存在率rnが所定値Thよりも高いか否か判定する(ステップS105)。着目拡張範囲の存在率rnが所定値Thよりも高い場合(ステップS105−Yes)、非抑制範囲設定部14は、基準範囲の中心の位相差に近い方から順に、1〜n番目の拡張範囲を、基準範囲とともに非抑制範囲に設定する(ステップS106)。
一方、着目拡張範囲の存在率rnが所定値Th以下の場合(ステップS105−No)、非抑制範囲設定部14は、着目拡張範囲が基準範囲の中心の位相差から最も離れたN番目の拡張範囲か否か判定する(ステップS107)。着目拡張範囲がN番目の拡張範囲であれば(すなわち、n==N)(ステップS107−Yes)、非抑制範囲設定部14は、基準範囲のみを非抑制範囲に設定する(ステップS108)。
一方、着目拡張範囲がN番目の拡張範囲でなければ(ステップS107−No)、非抑制範囲設定部14は、基準範囲の中心の位相差に近い方から順に(n+1)番目の拡張範囲を、次の着目拡張範囲に設定する(ステップS109)。そして非抑制範囲設定部14は、ステップS105以降の処理を繰り返す。
ステップS106またはS108の後、抑圧係数算出部15は、周波数ごとに、位相差が非抑制範囲に含まれる第1及び第2の周波数信号を減衰させず、位相差が抑制範囲に含まれる第1及び第2の周波数信号を減衰させる抑圧係数を算出する(ステップS110)。そして抑圧係数算出部15は、周波数ごとの抑圧係数を信号補正部16へ出力する。
信号補正部16は、周波数ごとに、その周波数の抑圧係数を第1及び第2の周波数信号の振幅に乗じることで第1及び第2の周波数信号を補正する(ステップS111)。そして信号補正部16は、補正された第1及び第2の周波数信号を周波数時間変換部17へ出力する。
周波数時間変換部17は、補正された第1及び第2の周波数信号を時間領域の補正された第1及び第2の音声信号に変換する(ステップS112)。そして処理部6は、補正された第1及び第2の音声信号を出力し、その後、音声処理を終了する。
なお、ステップS103の処理とステップS104の処理の順序は入れ替えられてもよい。この場合には、最初に全ての拡張領域について存在率が算出される代わりに、着目拡張領域が設定される度に、その着目拡張領域の存在率が算出されてもよい。
以上に説明してきたように、この音声処理装置は、周波数ごとの第1の音声信号と第2の音声信号の位相差が多数含まれる拡張範囲まで、非抑制範囲に含める。これにより、第1及び第2の音声信号のSNRが低い場合でも、この音声処理装置は、雑音を減衰させつつ、目的音を減衰させてしまうことを抑制できるので、目的音が歪むことを防止できる。
なお、変形例によれば、基準範囲は、予め広く、例えば、目的音の想定される到来方向の範囲全体に対応するように設定され、基準範囲内に1以上の拡張範囲が設定されてもよい。この場合には、非抑制範囲設定部14は、例えば、基準範囲の外側に近い拡張範囲から順に存在率が所定値を超えるか否か調べる。そして非抑制範囲設定部14は、基準範囲のうち、存在率が最初に所定値よりも高くなった拡張範囲(第1の拡張範囲)よりも基準範囲の外側に位置する拡張範囲(第3の拡張範囲)と重ならない範囲を、非抑制範囲とする。
図8(a)は、この変形例による、基準範囲と拡張範囲の一例を示す図である。図8(a)において、横軸は周波数を表し、縦軸は位相差を表す。この例では、基準範囲800の中に、二つの拡張範囲801、802が設定されている。拡張範囲801は、その一端が基準範囲800の位相差が小さい方の端部と接するように設定され、拡張範囲802は、拡張範囲801の他端と接するように、拡張範囲801よりも基準範囲800の中心の位相差に近い位置に設定される。なお、この例でも、位相差が0に近いほど、拡張範囲は狭く設定されることが好ましい。
図8(b)及び図8(c)は、それぞれ、図8(a)に示された基準範囲及び拡張範囲に対して設定される非抑制範囲の一例を示す図である。図8(b)及び図8(c)において、横軸は周波数を表し、縦軸は位相差を表す。ここで、拡張範囲801の存在率が所定値以下であり、かつ、拡張範囲802の存在率が所定値よりも高い場合、図8(b)に示されるように、非抑制範囲設定部14は、非抑制範囲810を、基準範囲800から拡張範囲801を除いた範囲に設定する。一方、拡張範囲801及び拡張範囲802の何れの存在率も所定値以下である場合、図8(c)に示されるように、非抑制範囲設定部14は、非抑制範囲811を、基準範囲800から拡張範囲801及び802を除いた範囲に設定する。
図9は、この変形例による非抑制範囲設定部14の非抑制範囲の設定に関する動作フローチャートである。非抑制範囲設定部14は、図7に示された動作フローチャートにおけるステップS104〜S109の代わりに、以下に示す動作フローチャートに従って非抑制範囲及び抑制範囲を設定する。
非抑制範囲設定部14は、基準範囲の一端に隣接する、基準範囲の中心の位相差から最も遠い拡張範囲を着目拡張範囲に設定する(すなわち、n=N)(ステップS201)。そして非抑制範囲設定部14は、着目拡張範囲の存在率rnが所定値Thよりも高いか否か判定する(ステップS202)。着目拡張範囲の存在率rnが所定値Thよりも高い場合(ステップS202−Yes)、非抑制範囲設定部14は、基準範囲から、着目拡張範囲よりも基準範囲の外側に近い(n+1)〜N番目の拡張範囲を除いた範囲を非抑制範囲に設定する(ステップS203)。
一方、着目拡張範囲の存在率rnが所定値Th以下の場合(ステップS202−No)、非抑制範囲設定部14は、着目拡張範囲が基準範囲の中心の位相差に最も近い拡張範囲か否か判定する(ステップS204)。着目拡張範囲が基準範囲の中心の位相差に最も近い拡張範囲であれば(すなわち、n==1)(ステップS204−Yes)、非抑制範囲設定部14は、基準範囲からすべての拡張範囲を除いた範囲を非抑制範囲に設定する(ステップS205)。
一方、着目拡張範囲が基準範囲の中心の位相差に最も近い拡張範囲でなければ(ステップS204−No)、非抑制範囲設定部14は、基準範囲の中心の位相差に近い方から順に(n-1)番目の拡張範囲を、次の着目拡張範囲に設定する(ステップS206)。そして非抑制範囲設定部14は、ステップS202以降の処理を繰り返す。また、ステップS203またはS205の後、ステップS110以降の処理が実行される。
次に、第2の実施形態による音声処理装置について説明する。第2の実施形態による音声処理装置は、全ての拡張範囲について存在率が所定値以下となるか否かによって、抑圧係数の算出方法を変更する。
第2の実施形態による音声処理装置は、第1の実施形態による音声処理装置と比較して、抑圧係数算出部15による処理が異なる。そこで以下では、抑圧係数算出部15及び関連部分について説明する。第2の実施形態による音声処理装置のその他の構成要素については、第1の実施形態による音声処理装置の対応する構成要素についての説明を参照されたい。
抑圧係数算出部15は、何れかの拡張範囲について存在率が所定値よりも高くなる場合、第1の実施形態と同様に、第1の周波数信号と第2の周波数信号の位相差に基づいて抑圧係数を算出する。一方、抑圧係数算出部15は、全ての拡張範囲について存在率が所定値以下となる場合、位相差に基づく第1の抑圧係数候補と、位相差以外の雑音らしさを表す指標に基づく第2の抑圧係数候補を算出する。抑圧係数算出部15は、第1の抑圧係数候補を、上記の実施形態における抑圧係数と同様に、位相差が非抑制範囲に含まれる周波数の成分よりも、位相差が抑制範囲に含まれる周波数の成分を減衰させるように求める。ただし、第1の抑圧係数候補の最小値は、0よりも大きい値、例えば、0.1〜0.5に設定されることが好ましい。また、抑圧係数算出部15は、雑音らしさを表す指標が雑音である確率が高いことを示すほど、第2の抑圧係数候補の値を小さくすることが好ましい。そして抑圧係数算出部15は、全ての周波数について、第1の抑圧係数候補と第2の抑圧係数候補から、第1の抑圧係数候補及び第2の抑圧係数候補のうちの小さい方以下となるように、抑圧係数を算出する。
雑音らしさを表す指標として、例えば、第1の周波数信号の振幅と第2の周波数信号の振幅の比が利用される。例えば、第1の音声入力部2−1の方が、第2の音声入力部2−2よりも目的音の音源に近いことが想定される場合、振幅比R(f)は次式で算出される。
Figure 2015061306
ここで、A1(f)は、第1の周波数信号の周波数fの成分であり、A2(f)は、第2の周波数信号の周波数fの成分である。
一般に、マイクロホンの位置が音源に近いほど、音声信号に含まれるその音源からの音の成分も大きくなる。したがって、振幅比R(f)が小さいほど、その周波数成分の音源は第1の音声入力部2−1の方に近く、振幅比R(f)が大きいほど、その周波数成分の音源は第2の音声入力部2−2の方に近いと推定される。そのため、周波数fにおける振幅比R(f)が大きいほど、第1及び第2の周波数信号のうちの周波数fの成分は雑音成分である可能性が高いと推定される。そこで、抑圧係数算出部15は、振幅比R(f)が1未満の所定の閾値(例えば、0.6〜0.8)よりも大きい場合に第1及び第2の周波数信号を減衰させ、その所定の閾値以下の場合には、第1及び第2の周波数信号を減衰させないように、第2の抑圧係数候補を設定する。
図10は、振幅比と第2の抑圧係数候補の関係の一例を示す図である。図10において、横軸は振幅比R(f)を表し、縦軸は第2の抑圧係数候補を表す。そして折れ線1000は、振幅比R(f)と第2の抑圧係数候補の関係を表す。振幅比R(f)が閾値Th以下の場合、第2の抑圧係数候補は1、すなわち、第1及び第2の周波数信号を減衰させない値に設定される。そして振幅比R(f)が閾値Thよりも高くなるにつれて第2の抑圧係数候補は単調減少し、第2の閾値Th2以上となると、第2の抑圧係数候補は一定値Gminとなる。なお、Gminは、例えば、0.1〜0.5に設定される。
また、雑音らしさを表す指標として、振幅比の代わりに、第1の音声信号と第2の音声信号間の相互相関値が用いられてもよい。第1の音声入力部2−1と第2の音声入力部2−2の両方が、同一の目的音を集音していれば、第1の音声信号と第2の音声信号は類似する。そのため、相互相関値の絶対値は大きくなる。一方、第1の音声入力部2−1と第2の音声入力部2−2が異なる音源からの音を集音していれば、相互相関値の絶対値は小さくなる。そこで、抑圧係数算出部15は、相互相関値の絶対値が所定の閾値(例えば、0.5)未満の場合、第2の抑圧係数候補を、第1及び第2の周波数信号を減衰させる値(例えば、0.1〜0.5)に設定する。一方、抑圧係数算出部15は、相互相関値の絶対値が所定の閾値以上の場合、第2の抑圧係数候補を、第1及び第2の周波数信号を減衰させない値、すなわち、1に設定する。
さらにまた、雑音らしさを表す指標として、第1及び第2の音声入力部のうちの、目的音の音源に近いと推定される方の音声入力部により生成された音声信号の自己相関値が用いられてもよい。以下では、第1の音声入力部2−1の方が、第2の音声入力部2−2よりも目的音の音源に近いものとして説明する。
目的音が人の声である場合、第1の周波数信号には、時間的に連続する二つのフレーム間で類似性がある。そこで、抑圧係数算出部15は、時間的に連続する二つのフレームの第1の周波数信号間の自己相関値を算出する。そして抑圧係数算出部15は、自己相関値の絶対値が所定の閾値(例えば、0.5)未満の場合、第2の抑圧係数候補を、第1及び第2の周波数信号を減衰させる値(例えば、0.1〜0.5)に設定する。一方、抑圧係数算出部15は、自己相関値の絶対値が所定の閾値以上の場合、第2の抑圧係数候補を、第1及び第2の周波数信号を減衰させない値、すなわち、1に設定する。
さらにまた、雑音らしさを表す指標として、抑圧係数算出部15は、第1及び第2の音声入力部のうちの、目的音の音源に近いと推定される方の音声入力部により生成された音声信号の定常性が用いられてもよい。以下では、第1の音声入力部2−1の方が、第2の音声入力部2−2よりも目的音の音源に近いものとして説明する。
一般に、第1の音声信号の特定の周波数成分が定常雑音によるものである場合、その周波数成分の振幅は時間経過によってもあまり変化しない。したがって、周波数成分の振幅の変化が小さいほど、その周波数成分は定常雑音らしいと推定される。そこで、抑圧係数算出部15は、次式に従って周波数ごとに、第1の周波数信号の定常性を求める。
Figure 2015061306
ここで、If(i)は、現フレームの周波数fにおける第1の周波数信号の振幅スペクトルであり、If(i-1)は、一つ前のフレームの周波数fにおける第1の周波数信号の振幅スペクトルである。またIf,avgは、周波数fにおける第1の周波数信号の振幅スペクトルの長期的な平均値であり、例えば、直近の10〜100フレームの振幅スペクトルの平均値とすることができる。そしてSf(i)は、現フレームの周波数fについての定常性を表す。
抑圧係数算出部15は、Sf(i)が所定の閾値(例えば、0.5)以上である場合、周波数fに対する第2の抑圧係数候補を、第1及び第2の周波数信号を減衰させる値(例えば、0.1〜0.5)に設定する。一方、抑圧係数算出部15は、Sf(i)が所定の閾値未満の場合、第2の抑圧係数候補を、第1及び第2の周波数信号を減衰させない値、すなわち、1に設定する。なお、抑圧係数算出部15は、全ての周波数についてのSf(i)の平均値S(i)を現フレームの定常性として算出してもよい。そして抑圧係数算出部15は、S(i)が所定の閾値(例えば、0.5)以上である場合、全ての周波数に対する第2の抑圧係数候補を、第1及び第2の周波数信号を減衰させる値(例えば、0.1〜0.5)に設定してもよい。一方、抑圧係数算出部15は、S(i)が所定の閾値未満の場合、全ての周波数に対する第2の抑圧係数候補を、第1及び第2の周波数信号を減衰させない値、すなわち、1に設定してもよい。
抑圧係数算出部15は、第1の抑圧係数候補と第2の抑圧係数候補が算出された場合には、各周波数について、第1の抑圧係数候補と第2の抑圧係数候補のうちの小さい方を抑圧係数とする。あるいは、抑圧係数算出部15は、各周波数について、第1の抑圧係数候補に第2の抑圧係数候補を乗じて得られる値を抑圧係数としてもよい。
抑圧係数算出部15は、周波数ごとに、求めた抑圧係数を信号補正部16へ出力する。
この実施形態によれば、音声処理装置は、周波数ごとに算出された位相差が特定の拡張範囲内に集中しておらず、音源方向の特定が困難でも、複数の指標に基づいて抑圧係数を算出するので、より適切な抑圧係数を設定できる。
また、上記の各実施形態またはその変形例による音声処理装置は、第1及び第2の音声信号のうちの一方のみを補正してもよい。この場合には、上記の各実施形態またはその変形例において、抑圧係数は、第1及び第2の周波数信号のうちの補正対象となる方の周波数信号についてのみ算出されてもよい。そして信号補正部16は、その補正対象の周波数信号のみを補正し、周波数時間変換部17は、補正対象となった周波数信号のみを時間領域の信号に変換してもよい。
さらに、上記の各実施形態または変形例による音声処理装置の処理部が有する各機能をコンピュータに実現させるコンピュータプログラムは、磁気記録媒体あるいは光記録媒体といった、コンピュータによって読み取り可能な媒体に記録された形で提供されてもよい。
ここに挙げられた全ての例及び特定の用語は、読者が、本発明及び当該技術の促進に対する本発明者により寄与された概念を理解することを助ける、教示的な目的において意図されたものであり、本発明の優位性及び劣等性を示すことに関する、本明細書の如何なる例の構成、そのような特定の挙げられた例及び条件に限定しないように解釈されるべきものである。本発明の実施形態は詳細に説明されているが、本発明の精神及び範囲から外れることなく、様々な変更、置換及び修正をこれに加えることが可能であることを理解されたい。
以上説明した実施形態及びその変形例に関し、更に以下の付記を開示する。
(付記1)
集音した音声を表す第1の音声信号を生成する第1の音声入力部と、
前記第1の音声入力部と異なる位置に配置され、集音した音声を表す第2の音声信号を生成する第2の音声入力部と、
収音対象の音源の想定される方向に対応する、周波数ごとの前記第1の音声信号と前記第2の音声信号間の位相差の範囲を表す基準範囲と、前記基準範囲外または前記基準範囲内に、前記基準範囲の一端から順に並ぶように設定された、周波数ごとの前記第1の音声信号と前記第2の音声信号間の位相差の範囲を表す少なくとも一つの拡張範囲とを記憶する記憶部と、
前記第1の音声信号及び第2の音声信号を、それぞれ、所定の時間長を持つフレームごとに周波数領域の第1の周波数信号及び第2の周波数信号に変換する時間周波数変換部と、
前記フレームごとに、前記第1の周波数信号と前記第2の周波数信号間の位相差を複数の周波数のそれぞれについて算出する位相差算出部と、
前記フレームごとに、前記少なくとも一つの拡張範囲のそれぞれについて、前記第1及び第2の周波数信号が算出された周波数帯域に含まれる周波数の総数に対する、前記第1の周波数信号と前記第2の周波数信号間の位相差が当該拡張範囲に含まれる周波数の数の比である存在率を算出する存在率算出部と、
前記フレームごとに、前記少なくとも一つの拡張範囲のうち、前記存在率が所定値よりも高い第1の拡張範囲及び該第1の拡張範囲よりも前記基準範囲の中心の位相差に近い第2の拡張範囲と、前記基準範囲のうちの前記第1の拡張範囲よりも前記基準範囲の中心の位相差から離れた第3の拡張範囲と重ならない範囲を非抑制範囲に設定し、前記非抑制範囲に含まれない位相差の範囲を抑制範囲に設定する非抑制範囲設定部と、
前記フレームごとに、前記第1の周波数信号及び前記第2の周波数信号のうちの少なくとも一方について、前記第1の周波数信号と前記第2の周波数信号間の位相差が前記非抑制範囲に含まれる周波数の成分よりも、前記第1の周波数信号と前記第2の周波数信号間の位相差が前記抑制範囲に含まれる周波数の成分を減衰させる抑圧係数を算出する抑圧係数算出部と、
前記フレームごとに、前記第1及び第2の周波数信号のうちの前記少なくとも一方の各周波数の成分の振幅に、対応する周波数の前記抑圧係数を乗じることで第1及び第2の周波数信号のうちの前記少なくとも一方を補正する信号補正部と、
前記補正された第1及び第2の周波数信号のうちの前記少なくとも一方を、時間領域の補正後の音声信号に変換する周波数時間変換部と、
を有する音声処理装置。
(付記2)
前記少なくとも一つの拡張範囲の位相差の幅は、位相差が0に近い拡張範囲ほど狭くなるように設定される、付記1に記載の音声処理装置。
(付記3)
前記抑圧係数算出部は、前記拡張範囲の全てについて前記存在率が前記所定値以下の場合、前記第1の周波数信号及び前記第2の周波数信号のうちの前記少なくとも一方について、前記第1の周波数信号と前記第2の周波数信号間の位相差が前記非抑制範囲に含まれる周波数の成分よりも、前記第1の周波数信号と前記第2の周波数信号間の位相差が前記抑制範囲に含まれる周波数の成分を減衰させる第1の抑圧係数候補と、前記第1及び第2の周波数信号が雑音らしいほど前記第1の周波数信号及び前記第2の周波数信号のうちの前記少なくとも一方を減衰させる第2の抑圧係数候補とを算出し、周波数帯域全体において、前記第1の抑圧係数候補と前記第2の抑圧係数候補のうちの小さい方の値以下となるように前記抑圧係数を算出する、付記1または2に記載の音声処理装置。
(付記4)
前記基準範囲の中心の位相差から離れた拡張範囲ほど、当該拡張範囲に対する前記所定値が高くなるように前記所定値が設定される、付記1〜3の何れかに記載の音声処理装置。
(付記5)
前記非抑制範囲設定部は、フレームごとに、前記基準範囲の中心の位相差に近いほうから順に1番目から所定番目までの拡張範囲の前記存在率の合計が前記所定番目の拡張範囲についての前記所定値よりも高い場合、前記1番目から前記所定番目の拡張範囲と、前記基準範囲のうちの前記所定番目の拡張範囲よりも前記基準範囲の中心の位相差から離れた拡張範囲と重ならない範囲を非抑制範囲に設定する、付記4に記載の音声処理装置。
(付記6)
第1の音声入力部により集音した音声を表す第1の音声信号を生成し、
前記第1の音声入力部と異なる位置に配置された第2の音声入力部により集音した音声を表す第2の音声信号を生成し、
前記第1の音声信号及び第2の音声信号を、それぞれ、所定の時間長を持つフレームごとに周波数領域の第1の周波数信号及び第2の周波数信号に変換し、
前記フレームごとに、前記第1の周波数信号と前記第2の周波数信号間の位相差を複数の周波数のそれぞれについて算出し、
前記フレームごとに、収音対象の音源の想定される方向に対応する、周波数ごとの前記第1の音声信号と前記第2の音声信号間の位相差の範囲を表す基準範囲外または前記基準範囲内に、前記基準範囲の一端から順に並ぶように設定された、周波数ごとの前記第1の音声信号と前記第2の音声信号間の位相差の範囲を表す少なくとも一つの拡張範囲のそれぞれについて、前記第1及び第2の周波数信号が算出された周波数帯域に含まれる周波数の総数に対する、前記第1の周波数信号と前記第2の周波数信号間の位相差が当該拡張範囲に含まれる周波数の数の比である存在率を算出し、
前記フレームごとに、前記少なくとも一つの拡張範囲のうち、前記存在率が所定値よりも高い第1の拡張範囲及び該第1の拡張範囲よりも前記基準範囲の中心の位相差に近い第2の拡張範囲と、前記基準範囲のうちの前記第1の拡張範囲よりも前記基準範囲の中心の位相差から離れた第3の拡張範囲と重ならない範囲を非抑制範囲に設定し、前記非抑制範囲に含まれない位相差の範囲を抑制範囲に設定し、
前記フレームごとに、前記第1の周波数信号及び前記第2の周波数信号のうちの少なくとも一方について、前記第1の周波数信号と前記第2の周波数信号間の位相差が前記非抑制範囲に含まれる周波数の成分よりも、前記第1の周波数信号と前記第2の周波数信号間の位相差が前記抑制範囲に含まれる周波数の成分を減衰させる抑圧係数を算出し、
前記フレームごとに、前記第1及び第2の周波数信号のうちの前記少なくとも一方の各周波数の成分の振幅に、対応する周波数の前記抑圧係数を乗じることで第1及び第2の周波数信号のうちの前記少なくとも一方を補正し、
前記補正された第1及び第2の周波数信号のうちの前記少なくとも一方を、時間領域の補正後の音声信号に変換する、
ことを含む音声処理方法。
(付記7)
第1の音声入力部により生成された、集音した音声を表す第1の音声信号と、前記第1の音声入力部と異なる位置に配置された第2の音声入力部により生成された、集音した音声を表す第2の音声信号を、それぞれ、所定の時間長を持つフレームごとに周波数領域の第1の周波数信号及び第2の周波数信号に変換し、
前記フレームごとに、前記第1の周波数信号と前記第2の周波数信号間の位相差を複数の周波数のそれぞれについて算出し、
前記フレームごとに、収音対象の音源の想定される方向に対応する、周波数ごとの前記第1の音声信号と前記第2の音声信号間の位相差の範囲を表す基準範囲外または前記基準範囲内に、前記基準範囲の一端から順に並ぶように設定された、周波数ごとの前記第1の音声信号と前記第2の音声信号間の位相差の範囲を表す少なくとも一つの拡張範囲のそれぞれについて、前記第1及び第2の周波数信号が算出された周波数帯域に含まれる周波数の総数に対する、前記第1の周波数信号と前記第2の周波数信号間の位相差が当該拡張範囲に含まれる周波数の数の比である存在率を算出し、
前記フレームごとに、前記少なくとも一つの拡張範囲のうち、前記存在率が所定値よりも高い第1の拡張範囲及び該第1の拡張範囲よりも前記基準範囲の中心の位相差に近い第2の拡張範囲と、前記基準範囲のうちの前記第1の拡張範囲よりも前記基準範囲の中心の位相差から離れた第3の拡張範囲と重ならない範囲を非抑制範囲に設定し、前記非抑制範囲に含まれない位相差の範囲を抑制範囲に設定し、
前記フレームごとに、前記第1の周波数信号及び前記第2の周波数信号のうちの少なくとも一方について、前記第1の周波数信号と前記第2の周波数信号間の位相差が前記非抑制範囲に含まれる周波数の成分よりも、前記第1の周波数信号と前記第2の周波数信号間の位相差が前記抑制範囲に含まれる周波数の成分を減衰させる抑圧係数を算出し、
前記フレームごとに、前記第1及び第2の周波数信号のうちの前記少なくとも一方の各周波数の成分の振幅に、対応する周波数の前記抑圧係数を乗じることで第1及び第2の周波数信号のうちの前記少なくとも一方を補正し、
前記補正された第1及び第2の周波数信号のうちの前記少なくとも一方を、時間領域の補正後の音声信号に変換する、
ことをコンピュータに実行させるための音声処理用コンピュータプログラム。
1 音声処理装置
2−1、2−2 音声入力部
3 アナログ/デジタル変換部
4 記憶部
5 記憶媒体アクセス装置
6 処理部
7 通信部
8 出力部
10 記憶媒体
11 時間周波数変換部
12 位相差算出部
13 存在率算出部
14 非抑制範囲設定部
15 抑圧係数算出部
16 信号補正部
17 周波数時間変換部

Claims (6)

  1. 集音した音声を表す第1の音声信号を生成する第1の音声入力部と、
    前記第1の音声入力部と異なる位置に配置され、集音した音声を表す第2の音声信号を生成する第2の音声入力部と、
    収音対象の音源の想定される方向に対応する、周波数ごとの前記第1の音声信号と前記第2の音声信号間の位相差の範囲を表す基準範囲と、前記基準範囲外または前記基準範囲内に、前記基準範囲の一端から順に並ぶように設定された、周波数ごとの前記第1の音声信号と前記第2の音声信号間の位相差の範囲を表す少なくとも一つの拡張範囲とを記憶する記憶部と、
    前記第1の音声信号及び第2の音声信号を、それぞれ、所定の時間長を持つフレームごとに周波数領域の第1の周波数信号及び第2の周波数信号に変換する時間周波数変換部と、
    前記フレームごとに、前記第1の周波数信号と前記第2の周波数信号間の位相差を複数の周波数のそれぞれについて算出する位相差算出部と、
    前記フレームごとに、前記少なくとも一つの拡張範囲のそれぞれについて、前記第1及び第2の周波数信号が算出された周波数帯域に含まれる周波数の総数に対する、前記第1の周波数信号と前記第2の周波数信号間の位相差が当該拡張範囲に含まれる周波数の数の比である存在率を算出する存在率算出部と、
    前記フレームごとに、前記少なくとも一つの拡張範囲のうち、前記存在率が所定値よりも高い第1の拡張範囲及び該第1の拡張範囲よりも前記基準範囲の中心の位相差に近い第2の拡張範囲と、前記基準範囲のうちの前記第1の拡張範囲よりも前記基準範囲の中心の位相差から離れた第3の拡張範囲と重ならない範囲を非抑制範囲に設定し、前記非抑制範囲に含まれない位相差の範囲を抑制範囲に設定する非抑制範囲設定部と、
    前記フレームごとに、前記第1の周波数信号及び前記第2の周波数信号のうちの少なくとも一方について、前記第1の周波数信号と前記第2の周波数信号間の位相差が前記非抑制範囲に含まれる周波数の成分よりも、前記第1の周波数信号と前記第2の周波数信号間の位相差が前記抑制範囲に含まれる周波数の成分を減衰させる抑圧係数を算出する抑圧係数算出部と、
    前記フレームごとに、前記第1及び第2の周波数信号のうちの前記少なくとも一方の各周波数の成分の振幅に、対応する周波数の前記抑圧係数を乗じることで第1及び第2の周波数信号のうちの前記少なくとも一方を補正する信号補正部と、
    前記補正された第1及び第2の周波数信号のうちの前記少なくとも一方を、時間領域の補正後の音声信号に変換する周波数時間変換部と、
    を有する音声処理装置。
  2. 前記少なくとも一つの拡張範囲の位相差の幅は、位相差が0に近い拡張範囲ほど狭くなるように設定される、請求項1に記載の音声処理装置。
  3. 前記抑圧係数算出部は、前記拡張範囲の全てについて前記存在率が前記所定値以下の場合、前記第1の周波数信号及び前記第2の周波数信号のうちの前記少なくとも一方について、前記第1の周波数信号と前記第2の周波数信号間の位相差が前記非抑制範囲に含まれる周波数の成分よりも、前記第1の周波数信号と前記第2の周波数信号間の位相差が前記抑制範囲に含まれる周波数の成分を減衰させる第1の抑圧係数候補と、前記第1及び第2の周波数信号が雑音らしいほど前記第1の周波数信号及び前記第2の周波数信号のうちの前記少なくとも一方を減衰させる第2の抑圧係数候補とを算出し、周波数帯域全体において、前記第1の抑圧係数候補と前記第2の抑圧係数候補のうちの小さい方の値以下となるように前記抑圧係数を算出する、請求項1または2に記載の音声処理装置。
  4. 前記基準範囲の中心の位相差から離れた拡張範囲ほど、当該拡張範囲に対する前記所定値が高くなるように前記所定値が設定される、請求項1〜3の何れか一項に記載の音声処理装置。
  5. 前記非抑制範囲設定部は、フレームごとに、前記基準範囲の中心の位相差に近いほうから順に1番目から所定番目までの拡張範囲の前記存在率の合計が前記所定番目の拡張範囲についての前記所定値よりも高い場合、前記1番目から前記所定番目の拡張範囲と、前記基準範囲のうちの前記所定番目の拡張範囲よりも前記基準範囲の中心の位相差から離れた拡張範囲と重ならない範囲を非抑制範囲に設定する、請求項4に記載の音声処理装置。
  6. 第1の音声入力部により生成された、集音した音声を表す第1の音声信号と、前記第1の音声入力部と異なる位置に配置された第2の音声入力部により生成された、集音した音声を表す第2の音声信号を、それぞれ、所定の時間長を持つフレームごとに周波数領域の第1の周波数信号及び第2の周波数信号に変換し、
    前記フレームごとに、前記第1の周波数信号と前記第2の周波数信号間の位相差を複数の周波数のそれぞれについて算出し、
    前記フレームごとに、収音対象の音源の想定される方向に対応する、周波数ごとの前記第1の音声信号と前記第2の音声信号間の位相差の範囲を表す基準範囲外または前記基準範囲内に、前記基準範囲の一端から順に並ぶように設定された、周波数ごとの前記第1の音声信号と前記第2の音声信号間の位相差の範囲を表す少なくとも一つの拡張範囲のそれぞれについて、前記第1及び第2の周波数信号が算出された周波数帯域に含まれる周波数の総数に対する、前記第1の周波数信号と前記第2の周波数信号間の位相差が当該拡張範囲に含まれる周波数の数の比である存在率を算出し、
    前記フレームごとに、前記少なくとも一つの拡張範囲のうち、前記存在率が所定値よりも高い第1の拡張範囲及び該第1の拡張範囲よりも前記基準範囲の中心の位相差に近い第2の拡張範囲と、前記基準範囲のうちの前記第1の拡張範囲よりも前記基準範囲の中心の位相差から離れた第3の拡張範囲と重ならない範囲を非抑制範囲に設定し、前記非抑制範囲に含まれない位相差の範囲を抑制範囲に設定し、
    前記フレームごとに、前記第1の周波数信号及び前記第2の周波数信号のうちの少なくとも一方について、前記第1の周波数信号と前記第2の周波数信号間の位相差が前記非抑制範囲に含まれる周波数の成分よりも、前記第1の周波数信号と前記第2の周波数信号間の位相差が前記抑制範囲に含まれる周波数の成分を減衰させる抑圧係数を算出し、
    前記フレームごとに、前記第1及び第2の周波数信号のうちの前記少なくとも一方の各周波数の成分の振幅に、対応する周波数の前記抑圧係数を乗じることで第1及び第2の周波数信号のうちの前記少なくとも一方を補正し、
    前記補正された第1及び第2の周波数信号のうちの前記少なくとも一方を、時間領域の補正後の音声信号に変換する、
    ことをコンピュータに実行させるための音声処理用コンピュータプログラム。
JP2013196118A 2013-09-20 2013-09-20 音声処理装置及び音声処理用コンピュータプログラム Active JP6156012B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2013196118A JP6156012B2 (ja) 2013-09-20 2013-09-20 音声処理装置及び音声処理用コンピュータプログラム
US14/469,681 US9842599B2 (en) 2013-09-20 2014-08-27 Voice processing apparatus and voice processing method
EP14182463.1A EP2851898B1 (en) 2013-09-20 2014-08-27 Voice processing apparatus, voice processing method and corresponding computer program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013196118A JP6156012B2 (ja) 2013-09-20 2013-09-20 音声処理装置及び音声処理用コンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2015061306A true JP2015061306A (ja) 2015-03-30
JP6156012B2 JP6156012B2 (ja) 2017-07-05

Family

ID=51417183

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013196118A Active JP6156012B2 (ja) 2013-09-20 2013-09-20 音声処理装置及び音声処理用コンピュータプログラム

Country Status (3)

Country Link
US (1) US9842599B2 (ja)
EP (1) EP2851898B1 (ja)
JP (1) JP6156012B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017181899A (ja) * 2016-03-31 2017-10-05 富士通株式会社 雑音抑圧装置、音声認識装置、雑音抑圧方法、及び雑音抑圧プログラム
JP2019075622A (ja) * 2017-10-12 2019-05-16 株式会社デンソーアイティーラボラトリ 騒音抑圧装置、騒音抑圧方法、プログラム
JP2019078844A (ja) * 2017-10-23 2019-05-23 富士通株式会社 音声処理用コンピュータプログラム、音声処理装置及び音声処理方法
JP2019197136A (ja) * 2018-05-09 2019-11-14 キヤノン株式会社 信号処理装置、信号処理方法、およびプログラム

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6520276B2 (ja) * 2015-03-24 2019-05-29 富士通株式会社 雑音抑圧装置、雑音抑圧方法、及び、プログラム
JP2016182298A (ja) * 2015-03-26 2016-10-20 株式会社東芝 騒音低減システム
JP6559576B2 (ja) * 2016-01-05 2019-08-14 株式会社東芝 雑音抑圧装置、雑音抑圧方法及びプログラム
JP6878776B2 (ja) * 2016-05-30 2021-06-02 富士通株式会社 雑音抑圧装置、雑音抑圧方法及び雑音抑圧用コンピュータプログラム
JP6677136B2 (ja) 2016-09-16 2020-04-08 富士通株式会社 音声信号処理プログラム、音声信号処理方法及び音声信号処理装置
CN107146628A (zh) * 2017-04-07 2017-09-08 宇龙计算机通信科技(深圳)有限公司 一种语音通话处理方法及移动终端
CN116597829B (zh) * 2023-07-18 2023-09-08 西兴(青岛)技术服务有限公司 一种提高语音识别精度的降噪处理方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007318528A (ja) * 2006-05-26 2007-12-06 Fujitsu Ltd 指向性集音装置、指向性集音方法、及びコンピュータプログラム
JP2009080309A (ja) * 2007-09-26 2009-04-16 Toshiba Corp 音声認識装置、音声認識方法、音声認識プログラム、及び音声認識プログラムを記録した記録媒体
WO2009069184A1 (ja) * 2007-11-26 2009-06-04 Fujitsu Limited 音処理装置、補正装置、補正方法及びコンピュータプログラム
JP2011139378A (ja) * 2009-12-28 2011-07-14 Fujitsu Ltd 信号処理装置、マイクロホン・アレイ装置、信号処理方法、および信号処理プログラム
JP2011164467A (ja) * 2010-02-12 2011-08-25 Nippon Telegr & Teleph Corp <Ntt> モデル推定装置、音源分離装置、それらの方法及びプログラム
JP2013135433A (ja) * 2011-12-27 2013-07-08 Fujitsu Ltd 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム
JP2013167805A (ja) * 2012-02-16 2013-08-29 Jvc Kenwood Corp ノイズ低減装置、音声入力装置、無線通信装置、ノイズ低減方法、およびノイズ低減プログラム

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3484112B2 (ja) 1999-09-27 2004-01-06 株式会社東芝 雑音成分抑圧処理装置および雑音成分抑圧処理方法
JP2002095084A (ja) 2000-09-11 2002-03-29 Oei Service:Kk 指向性受信方式
JP2003337164A (ja) 2002-03-13 2003-11-28 Univ Nihon 音到来方向検出方法及びその装置、音による空間監視方法及びその装置、並びに、音による複数物体位置検出方法及びその装置
JP4637725B2 (ja) * 2005-11-11 2011-02-23 ソニー株式会社 音声信号処理装置、音声信号処理方法、プログラム
CN101512374B (zh) * 2006-11-09 2012-04-11 松下电器产业株式会社 声源位置检测装置
JP2008216720A (ja) * 2007-03-06 2008-09-18 Nec Corp 信号処理の方法、装置、及びプログラム
DE112007003603T5 (de) * 2007-08-03 2010-07-01 FUJITSU LIMITED, Kawasaki-shi Tonempfangsanordnung, Richtcharakteristik-Ableitungsverfahren, Richtcharakteristik-Ableitungsvorrichtung und Computerprogramm
KR101444100B1 (ko) * 2007-11-15 2014-09-26 삼성전자주식회사 혼합 사운드로부터 잡음을 제거하는 방법 및 장치
JP5255467B2 (ja) 2009-02-02 2013-08-07 クラリオン株式会社 雑音抑制装置、雑音抑制方法、及び、プログラム
JP5272920B2 (ja) * 2009-06-23 2013-08-28 富士通株式会社 信号処理装置、信号処理方法、および信号処理プログラム
JP5534413B2 (ja) 2010-02-12 2014-07-02 Necカシオモバイルコミュニケーションズ株式会社 情報処理装置及びプログラム
KR20110106715A (ko) * 2010-03-23 2011-09-29 삼성전자주식회사 후방 잡음 제거 장치 및 방법
US8483397B2 (en) * 2010-09-02 2013-07-09 Hbc Solutions, Inc. Multi-channel audio display
US8898058B2 (en) * 2010-10-25 2014-11-25 Qualcomm Incorporated Systems, methods, and apparatus for voice activity detection
TWI412023B (zh) * 2010-12-14 2013-10-11 Univ Nat Chiao Tung 可消除噪音且增進語音品質之麥克風陣列架構及其方法
JP5594133B2 (ja) * 2010-12-28 2014-09-24 ソニー株式会社 音声信号処理装置、音声信号処理方法及びプログラム
KR20120080409A (ko) * 2011-01-07 2012-07-17 삼성전자주식회사 잡음 구간 판별에 의한 잡음 추정 장치 및 방법
CN102982804B (zh) * 2011-09-02 2017-05-03 杜比实验室特许公司 音频分类方法和系统
US8731477B2 (en) * 2011-10-26 2014-05-20 Blackberry Limited Performing inter-frequency measurements in a mobile network

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007318528A (ja) * 2006-05-26 2007-12-06 Fujitsu Ltd 指向性集音装置、指向性集音方法、及びコンピュータプログラム
JP2009080309A (ja) * 2007-09-26 2009-04-16 Toshiba Corp 音声認識装置、音声認識方法、音声認識プログラム、及び音声認識プログラムを記録した記録媒体
WO2009069184A1 (ja) * 2007-11-26 2009-06-04 Fujitsu Limited 音処理装置、補正装置、補正方法及びコンピュータプログラム
JP2011139378A (ja) * 2009-12-28 2011-07-14 Fujitsu Ltd 信号処理装置、マイクロホン・アレイ装置、信号処理方法、および信号処理プログラム
JP2011164467A (ja) * 2010-02-12 2011-08-25 Nippon Telegr & Teleph Corp <Ntt> モデル推定装置、音源分離装置、それらの方法及びプログラム
JP2013135433A (ja) * 2011-12-27 2013-07-08 Fujitsu Ltd 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム
JP2013167805A (ja) * 2012-02-16 2013-08-29 Jvc Kenwood Corp ノイズ低減装置、音声入力装置、無線通信装置、ノイズ低減方法、およびノイズ低減プログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017181899A (ja) * 2016-03-31 2017-10-05 富士通株式会社 雑音抑圧装置、音声認識装置、雑音抑圧方法、及び雑音抑圧プログラム
JP2019075622A (ja) * 2017-10-12 2019-05-16 株式会社デンソーアイティーラボラトリ 騒音抑圧装置、騒音抑圧方法、プログラム
JP2019078844A (ja) * 2017-10-23 2019-05-23 富士通株式会社 音声処理用コンピュータプログラム、音声処理装置及び音声処理方法
JP7013789B2 (ja) 2017-10-23 2022-02-01 富士通株式会社 音声処理用コンピュータプログラム、音声処理装置及び音声処理方法
JP2019197136A (ja) * 2018-05-09 2019-11-14 キヤノン株式会社 信号処理装置、信号処理方法、およびプログラム

Also Published As

Publication number Publication date
EP2851898A1 (en) 2015-03-25
EP2851898B1 (en) 2018-10-03
JP6156012B2 (ja) 2017-07-05
US20150088494A1 (en) 2015-03-26
US9842599B2 (en) 2017-12-12

Similar Documents

Publication Publication Date Title
JP6156012B2 (ja) 音声処理装置及び音声処理用コンピュータプログラム
KR101210313B1 (ko) 음성 향상을 위해 마이크로폰 사이의 레벨 차이를 활용하는시스템 및 방법
JP5293817B2 (ja) 音声信号処理装置及び音声信号処理方法
JP5923994B2 (ja) 音声処理装置及び音声処理方法
JP5862349B2 (ja) ノイズ低減装置、音声入力装置、無線通信装置、およびノイズ低減方法
JP5874344B2 (ja) 音声判定装置、音声判定方法、および音声判定プログラム
US8886499B2 (en) Voice processing apparatus and voice processing method
CN106663445B (zh) 声音处理装置、声音处理方法及程序
JP6107151B2 (ja) 雑音抑圧装置、方法、及びプログラム
JP5272920B2 (ja) 信号処理装置、信号処理方法、および信号処理プログラム
JP6135106B2 (ja) 音声強調装置、音声強調方法及び音声強調用コンピュータプログラム
KR20120080409A (ko) 잡음 구간 판별에 의한 잡음 추정 장치 및 방법
KR20080013734A (ko) 음원 방향 추정 방법, 및 음원 방향 추정 장치
JP5834948B2 (ja) 残響抑制装置、残響抑制方法及び残響抑制用コンピュータプログラム
JP6668995B2 (ja) 雑音抑圧装置、雑音抑圧方法及び雑音抑圧用コンピュータプログラム
JP6303340B2 (ja) 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム
JP6446913B2 (ja) 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム
JP2012037603A (ja) 雑音推定装置、雑音推定方法および雑音推定プログラム
JP2011186384A (ja) 雑音推定装置、雑音低減システム、雑音推定方法、及びプログラム
JP2016038513A (ja) 音声切替装置、音声切替方法及び音声切替用コンピュータプログラム
JP6361271B2 (ja) 音声強調装置、音声強調方法及び音声強調用コンピュータプログラム
JP6197367B2 (ja) 通話装置及びマスキング音生成プログラム
JP6794887B2 (ja) 音声処理用コンピュータプログラム、音声処理装置及び音声処理方法
JP2017216525A (ja) 雑音抑圧装置、雑音抑圧方法及び雑音抑圧用コンピュータプログラム
KR20100009936A (ko) 음원 검출 시스템에서 돌발잡음 추정/제거 장치 및 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160606

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170425

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170509

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170522

R150 Certificate of patent or registration of utility model

Ref document number: 6156012

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150