JP6337519B2 - 音声処理装置、雑音抑圧方法、およびプログラム - Google Patents

音声処理装置、雑音抑圧方法、およびプログラム Download PDF

Info

Publication number
JP6337519B2
JP6337519B2 JP2014040649A JP2014040649A JP6337519B2 JP 6337519 B2 JP6337519 B2 JP 6337519B2 JP 2014040649 A JP2014040649 A JP 2014040649A JP 2014040649 A JP2014040649 A JP 2014040649A JP 6337519 B2 JP6337519 B2 JP 6337519B2
Authority
JP
Japan
Prior art keywords
noise
frequency
coefficient
value
suppression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014040649A
Other languages
English (en)
Other versions
JP2015166764A (ja
Inventor
智佳子 松本
智佳子 松本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2014040649A priority Critical patent/JP6337519B2/ja
Priority to US14/628,416 priority patent/US9761244B2/en
Priority to EP15156291.5A priority patent/EP2916322A1/en
Publication of JP2015166764A publication Critical patent/JP2015166764A/ja
Application granted granted Critical
Publication of JP6337519B2 publication Critical patent/JP6337519B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02087Noise filtering the noise being separate speech, e.g. cocktail party
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0324Details of processing therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Telephone Function (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Description

本発明は、音声処理装置、雑音抑圧方法、およびプログラムに関する。
携帯電話機や自動車内でのハンズフリー通話等の普及等に伴い、雑音環境下での通話時の雑音抑圧に対する要求がある。例えば、ロードノイズ等の定常雑音が大きい雑音環境で、雑音抑圧量を増やし、音声を聞きやすくする技術が求められている。このため、雑音環境下における発声データに対し、音声歪の少ない雑音抑圧を行うことが試みられている。
例えば、雑音を含む音声の所定時間分の信号を時間領域から周波数領域へ変換した信号の代表値に基づいて、雑音をどのレベルにまで抑制するかを示す目標値を推定する技術が知られている。所定の周波数帯域毎の音声の振幅成分に基づいて雑音抑制するための係数を算出し、算出した係数を元の信号の周波数軸上の信号に乗算することで、雑音を抑制する技術も知られている。雑音抑圧において、雑音抑圧の上下限を抑制する技術や、信号が音声らしいか非音声らしいかによって係数を補正する技術も知られている(例えば、特許文献1〜4参照)。
関連する技術として、音声信号から取得される複数の所定長のフレームが、音声フレームか、非音声フレームかを判別し、非音声フレームが非定常であることを示す非定常条件に基づいて、非定常フレームを検出する技術も知られている(例えば、特許文献5参照)。
国際公開番号WO2012/098579号公報 特開2001−267973号公報 特開2010−204392号公報 特開2007−183306号公報 特開2010−230814号公報
ところで、雑音を抑圧する際には、雑音を抑圧することにより音声の歪を起こさないように、雑音を一定比率で抑圧することが考えられる。このような抑圧を行うと、雑音は、ボリュームを絞ったような自然な雑音になると期待される。しかし、雑音そのものが大きい場合は、定常雑音、非定常雑音共に、残留雑音が大きくなってしまう。一方、単純に抑圧比率を下げて雑音抑圧量を増やすと、目的音声を雑音と誤って音声が過度に抑圧され、音声歪につながることがある。逆に、例えば、雑音を目的音声と誤ってしまうと、時間方向で抑圧量が激しく変化する場合がある。その変化が、振幅の激しい変化となり、雑音歪となることもある。
ひとつの側面によれば、本発明の目的は、音声の歪が少ない雑音抑圧を行えるようにすることである。
ひとつの態様である音声処理装置は、雑音由来係数算出部と、目的音判定部と、目的音率算出部と、抑圧信号生成部を有する。雑音由来係数算出部は、所定時間分の音声信号を時間周波数変換した周波数スペクトルの振幅値に基づき算出される周波数毎の定常雑音の目標値が上昇するに従って連続して単調減少する雑音由来係数を算出する。目的音判定部は、振幅値に基づき周波数スペクトルの周波数毎の成分が非定常であると判定された場合に、波数毎の成分が目的音であるか否かを判定する。目的音率算出部は、周波数スペクトルにおける目的音の割合を示す目的音率を算出する。抑圧信号生成部は、振幅値に基づき周波数スペクトルが定常であると判定された場合、雑音由来係数に基づく抑圧係数を振幅値に乗じることで、周波数時間変換して出力される抑圧信号を生成する。この構成において、抑圧信号生成部は、周波数毎の成分が目的音でないと判定された場合は、抑圧係数を、振幅値と目標値とに応じた定常雑音係数と、雑音由来係数とを乗じた値に基づく係数であって、目的音率に応じて算出された値とする。
ひとつの実施形態によれば、音声の歪が少ない雑音抑圧を行うことが可能になる。
第1の実施の形態による音声処理装置の機能的な構成の一例を示すブロック図である。 第1の実施の形態による定常雑音の目標値の一例を示す図である。 第1の実施の形態による雑音由来係数と定常雑音モデルの値との関係の一例を示す図である。 第1の実施の形態による係数算出テーブルの一例を示す図である。 第1の実施の形態による雑音由来係数の定常雑音モデルの値との関係を示す図である。 第1の実施の形態による雑音由来係数による作用について説明する図である。 第1の実施の形態による雑音歪が減少する現象について説明する図である。 第1の実施の形態による音声処理装置の動作を示すフローチャートである。 第2の実施の形態による音声処理装置の機能的な構成の一例を示すフローチャートである。 第2の実施の形態による音声処理装置の動作を示すフローチャートである。 第2の実施の形態による音声処理装置による雑音抑圧効果の一例を示す表である。 第3の実施の形態による音声処理装置の機能的な構成の一例を示す図である。 第3の実施の形態による音率別係数データテーブルの一例を示す図である。 第3の実施の形態による目的音判定値の周波数依存性を示す図である。 第3の実施の形態による音声処理装置の動作を示すフローチャートである。 第3の実施の形態による音の種類判別処理の詳細を示すフローチャートである。 第3の実施の形態による抑圧係数算出処理の詳細を示すフローチャートである。 第4の実施の形態による音声処理装置の機能的な構成の一例を示す図である。 第4の実施の形態による2つの音声信号を用いた目的音率算出の一例を示す図である。 第4の実施の形態による2つのマイクと音源の位置関係の一例を示す図である。 第4の実施の形態による残したい音源の方向の一例を示す図である。 第4の実施の形態による目的音率高と判定された場合の雑音抑圧係数の一例を示す図である。 雑音由来係数の定常雑音モデルの値に対する関係の例を示す図である。 雑音由来係数の定常雑音モデルの値に対する関係の別の例を示す図である。 標準的なコンピュータのハードウエア構成の一例を示す図である。
(第1の実施の形態)
以下、図面を参照しながら、第1の実施の形態による音声処理装置1について説明する。音声処理装置1は、入力された音声信号に対して雑音抑圧処理を行った音声を出力する装置である。音声処理装置1は、例えば、多機能携帯電話機の受信音または送信音、スピーカやイヤホン等音声出力装置の出力音、音声認識等のための入力音の前処理のために用いることが可能である。音声処理装置1は、例えば、多機能携帯電話機、車載通信装置、音声出力装置、音声認識装置などに備えられる。
図1は、第1の実施の形態による音声処理装置1の機能的な構成の一例を示すブロック図である。図1に示すように、音声処理装置1は、変換部5、定常雑音推定部7、定常判定部9、雑音由来係数算出部11、抑圧係数算出部13、抑圧信号生成部15、逆変換部17を有している。これらの各機能は、例えば、音声処理装置1が制御プログラムを予め読み込んで実行することにより実現される。また、音声処理装置1は、記憶部19を有している。
変換部5は、所定時間分の時間軸上の音声信号を、周波数スペクトルに変換する。このとき、音声信号には、目的音声、定常雑音、非定常雑音が混在しているものとする。変換部5は、時系列に所定時間の信号をフレームとして切り出して変換するが、このとき例えば、窓関数などを用いて、例えば時系列の前後の所定時間の少なくとも一部が重なるように処理を行うようにしてもよい。例えば、変換部5は、音声信号に対し、Fast Fourier Transform(FFT)を行う。フレームとは、周波数軸への変換の際に切り出される所定時間に対応する信号、すなわち、所定時間分の音声信号、または所定時間分の音声信号が変換された周波数スペクトルを指すものとする。
定常雑音推定部7は、周波数スペクトルの周波数毎の振幅値に基づき周波数毎の定常雑音の目標値を推定する。定常雑音推定部7は、例えば、周波数スペクトルの振幅スペクトルを時間軸方向に平滑化して、残留する雑音の目標値を周波数ごとに推定する。以下、推定された雑音の目標値を、定常雑音モデルの値ともいう。また、周波数毎に推定された目標値を総称して、定常雑音モデルという。
定常判定部9は、周波数スペクトルの周波数毎の振幅値に基づき、周波数毎の成分が定常であるか非定常であるかを判定する。具体的には、例えば特許文献5に記載の定常/非定常の判定を応用して、振幅スペクトル毎の時間変化率を算出し、時間変化率が閾値よりも高い場合は非定常、閾値よりも低い場合は定常とするようにしてもよい。
雑音由来係数算出部11は、目標値が上昇するに従ってなだらかに減少する「1」以下の雑音由来係数を算出する。算出式は、例えば記憶部19に記憶させておき、読み出すようにしてもよい。「1」以下の雑音由来係数を算出するとは、抑圧係数が「1」のときには抑圧せず、「1」より小さい値であるほど抑圧量が増えるという意味であり、厳密に「1」以下でなければならないということを意味しない。
抑圧係数算出部13は、定常判定部9で定常であると判定された場合は、雑音由来係数yに基づき、例えば、定数C(0<C≦1)と雑音由来係数yとを乗じて抑圧係数とする。非定常であると判定された場合は、抑圧係数算出部13は、「1」を抑圧係数とする。定数Cは、定常雑音を目標値からどの程度抑圧するかを示す値であり、例えば、記憶部19に予め記憶しておくようにしてもよい。「1」以下の定数Cを用いるとは、定数Cが「1」のときには抑圧せず、「1」より小さい値であるほど抑圧量が増えるという意味であり、厳密に「1」以下でなければならないということを意味しない。
抑圧信号生成部15は、周波数スペクトルの周波数毎の振幅値と、対応する抑圧係数とを乗じた抑圧信号を生成する。逆変換部17は、抑圧信号を周波数時間変換して出力する。これらをまとめて記載すると、式1、式2のようになる。
抑圧係数=定数C×雑音由来係数y(定常)・・・(式1)
抑圧係数=1(非定常) ・・・(式2)
抑圧係数を「1」とするとは、積極的に抑圧をしないという意味であり、厳密に「1」でなければならないということを意味しない。
図2は、定常雑音の目標値の一例を示す図である。図2において、横軸は周波数、縦軸は振幅値である。振幅スペクトル20は、変換部5で変換された周波数スペクトルの各周波数の振幅値の一例を示す。目標値22は、定常雑音推定部7で推定された各周波数の定常雑音の目標値を示す。定常雑音の目標値の算出は、例えば特許文献4に記載の方法など、従来の方法により行うことができる。図2が、自動車電話における雑音の一例を示しているとすると、比較的雑音の振幅値の低い部分は、例えば主に走行雑音であると考えられる。比較的雑音の振幅値の高い部分は、例えば走行雑音と同乗者の音声とが重畳された音声を示していると考えられる。このとき、目標値22は走行雑音とはほぼ同様の振幅値であり、同乗者の音声が抑圧されたような値となる。
図3は、雑音由来係数と定常雑音モデルの値との関係の一例を示す図である。図3において、横軸は、定常雑音モデルの値、縦軸は、雑音由来係数である。図3に示すように、雑音由来係数30は、定常雑音モデルの値が上昇するに従ってなだらかに減少する「1」以下の実数であるとすることができる。例えば、雑音由来係数yは、定常雑音モデルの値xにより、下記式3のように表してもよい。
y=1.0−0.00002x・・・(式3)
図4は、係数算出テーブル32の一例を示す図である。係数算出テーブル32は、例えば、記憶部19に記憶される。図4に示すように、係数算出テーブル32は、雑音由来係数の算出式と、定数Cとを有している。定数Cは、「1」以下の正の実数とすることができる。定数C=1の場合、実質的に定数Cはないものと同じとなり、抑圧係数は、雑音由来係数と等しくなる。
ここで、雑音由来係数の詳細について説明する。図5は、雑音由来係数の定常雑音モデルの値との関係を示す図である。雑音由来係数33、雑音由来係数34は、定常雑音モデルの値に対し、「1」を最大値として「なだらかに減少」する値となっている。雑音由来係数36は、「なだらかに減少」していない例である。雑音由来係数36では、定常雑音モデルの値に対し、雑音由来係数36が不整合に変化する不整合箇所38が存在している。不整合に変化するとは、定常雑音モデルの値に対する雑音由来係数36の変化率が、急激に変化することである。例えば、雑音由来係数36の定常雑音モデルの値に対する変化率のさらに微分値をとった場合に、曲線的でなく、特異点を持つような変化をすることをいう。音声処理装置1は、定常雑音モデルの値に対し、不整合箇所38等のような変化をしないように雑音由来係数を定めることにより、歪を防いでいる。
図6は、雑音由来係数による作用について説明する図である。図6において、定常雑音例40として、白色雑音における振幅スペクトル42と振幅スペクトル44とが示されている。定常雑音例40において、横軸は周波数、縦軸は振幅値を示す。振幅スペクトル42、振幅スペクトル44は、音声信号50における時間帯52と時間帯54を夫々時間周波数変換した信号を示している。音声信号50において、横軸は時間、縦軸は振幅である。
定常雑音例40において、周波数46に注目すると、振幅スペクトル42と振幅スペクトル44とでは、定常雑音モデルの値が異なっている。これらを夫々雑音由来係数30にて参照すると、振幅スペクトル42では、定常雑音モデルの値x1に対し、雑音由来係数30=y1が対応する。振幅スペクトル44では、定常雑音モデルの値x2に対し、雑音由来係数30=y2が対応する。このとき、定常雑音モデルの値が大きいほど、雑音由来係数30の値は小さくなっており、より雑音が抑圧される。
抑圧音声信号60は、雑音由来係数30を用いない、すなわち雑音由来係数30=1とした場合の雑音抑圧例を示している。抑圧音声信号62は、雑音由来係数30を用いて雑音抑圧を行った例を示している。抑圧音声信号70、抑圧音声信号72は、抑圧音声信号60、抑圧音声信号62を夫々振幅方向に拡大した例を示している。抑圧音声信号60、抑圧音声信号62、抑圧音声信号70、抑圧音声信号72は、横軸を時間、縦軸を振幅として表されている。
雑音由来係数30を用いない例では、処理後の抑圧音声信号70で振幅74となっている。雑音由来係数30を用いた例では、処理後の抑圧音声信号72で振幅76となっており、振幅74より縮小されている。このように、雑音由来係数30を用いることにより、音声信号50に対して、より雑音抑圧量が多く歪の少ない雑音抑圧が可能となる。
図7は、雑音ひずみが減少する現象について説明する図である。雑音歪とは、音声のうちの雑音に生ずる歪である。振幅スペクトル80は、雑音抑圧の対象となる入力信号の一例である。抑圧信号82は、雑音抑圧処理を行った後の出力信号の一例である。振幅スペクトル80および抑圧信号82は、周波数を横軸として示されている。振幅スペクトル80は、例えば音声処理装置1への入力信号を変換した周波数スペクトルの一例である。抑圧信号82は、例えば、雑音由来係数30を用いない(雑音由来係数30=1)場合の出力信号の例である。抑圧信号82では、例えばピーク84のように、周波数F付近に、雑音部分が目的音声として残されてしまう振幅成分が存在する。
抑圧音声信号86は、抑圧信号82における周波数Fの成分の振幅スペクトルの時間変化の一例を示している。抑圧音声信号88は、本実施の形態の雑音由来係数30を適用して抑圧した信号の周波数Fの成分の時間変化の一例を示している。抑圧音声信号86と抑圧音声信号88とを比較すると、雑音由来係数30を用いることにより、時間軸上での雑音の振幅変化が緩和することがわかる。よって、雑音歪が減少する。
図8は、本実施の形態による音声処理装置1の動作を示すフローチャートである。図8に示すように、音声処理装置1は、音声信号を受付ける(S101)。例えば、音声処理装置1は、マイク等により電気信号に変換されディジタル化された時間軸上の音声信号を受付ける。
変換部5は、音声信号を時間周波数変換し、周波数スペクトルを出力する(S102)。時間周波数変換は、例えば、時間軸上の音声信号から所定時間分を時系列に切り出し、高速フーリエ変換することにより行われる。定常雑音推定部7は、周波数スペクトルに基づき、定常雑音の目標値の推定を行う(S103)。すなわち、定常雑音推定部7は、周波数スペクトルの周波数毎の振幅値に基づき、周波数毎の定常雑音モデルの値を推定する。
雑音由来係数算出部11は、定常雑音モデルの値が上昇するに従ってなだらかに減少する「1」以下の雑音由来係数yを算出する(S104)。このとき例えば雑音由来係数算出部11は、係数算出テーブル32を参照して雑音由来係数yを算出する。
定常判定部9は、周波数スペクトルの周波数毎の振幅値に基づき、周波数毎の成分が定常であるか非定常であるかを判定する(S105)。定常であると判定された場合には(S105:YES)、抑圧係数算出部13は、「1」以下の定数Cと雑音由来係数yとを乗じて抑圧係数とする(S106)。このときの抑圧係数を、定常雑音抑圧係数ともいう。非定常であると判定された場合は(S105:NO)、抑圧係数算出部13は、「1」を抑圧係数とする(S107)。
抑圧信号生成部15は、周波数毎の振幅値と抑圧係数とを乗じた抑圧信号を生成する(S108)。逆変換部17は、抑圧信号を周波数時間変換して(S109)、出力する(S110)。音声処理装置1は、システム終了の入力がない場合にはS101から処理を繰り返す(S111:NO)。システム終了の入力があった場合には(S111:YES)、音声処理装置1は、処理を終了する。
以上説明したように、音声処理装置1において、雑音由来係数算出部11は、所定時間分の音声信号を時間周波数変換した周波数スペクトルの振幅値に基づき算出される周波数毎の定常雑音の目標値が上昇するに従ってなだらかに減少する雑音由来係数を算出する。抑圧信号生成部15は、周波数スペクトルの振幅値に基づき周波数スペクトルが定常であると判定された場合、雑音由来係数に基づく抑圧係数を振幅値に乗じることで、周波数時間変換して出力される抑圧信号を生成する。
すなわち、音声処理装置1は、所定時間分の時間軸上の音声信号を周波数スペクトルに変換する。音声処理装置1は、周波数スペクトルの周波数毎の振幅値に基づき、周波数毎の定常雑音の目標値を推定する。音声処理装置1は、目標値が上昇するに従ってなだらかに減少する「1」以下の雑音由来係数を算出する。音声処理装置1は、定常であると判定された周波数スペクトルの周波数成分では、1以下の定数と雑音由来係数とを乗じて抑圧係数とする。音声処理装置1は、非定常であると判定された周波数成分では、「1」を抑圧係数とする。音声処理装置1は、周波数毎の振幅値と抑圧係数とを乗じた抑圧信号を生成し、周波数時間変換して出力する。
以上のように、音声処理装置1においては、定常雑音モデルの値として推定される目標値が上昇するに従ってなだらかに減少する雑音由来係数が用いられる。推定された定常雑音モデルの値に基づいて、不整合のない連続した、なだらかに変化する雑音由来係数を用いることで、雑音抑圧により生ずる歪を低減しながら、雑音抑圧量の増大を実現できる。また、定常雑音モデルの値に応じた雑音由来係数を信号に乗じることにより、定常雑音モデルの値が大きい定常雑音ほど雑音の抑圧量を大きくすることができ、音声信号の振幅の変化が緩和される。
雑音由来係数により、周波数スペクトルの定常と判定された周波数成分が抑圧されるので、雑音が大きい場合にも歪の少ない雑音抑圧が可能である。定常雑音モデルの値に応じた雑音由来係数を用いることにより、必要以上の抑圧を防止することができ、雑音歪が低減される。また、定常と判定されない場合には抑圧を行わないので、音声を雑音として抑圧することが防止され、音声歪も低減される。
なお、定常判定部9は、上記の例では周波数成分毎に定常非定常を判定する場合について説明したが、フレーム毎に判定を行うようにしてもよい。この場合、抑圧係数算出部13は、定常と判定されたフレームに含まれる周波数成分について、式1に基づき抑圧係数を算出することが好ましい。
(第2の実施の形態)
以下、第2の実施の形態による音声処理装置130について図面を参照しながら説明する。第2の実施の形態による音声処理装置130において、第1の実施の形態による音声処理装置1と同様の構成および動作については、同一番号を付し、重複説明を省略する。
図9は、第2の実施の形態による音声処理装置130の機能的な構成の一例を示す図である。音声処理装置130は、音声処理装置1と同様に、変換部5、定常雑音推定部7、定常判定部9、雑音由来係数算出部11、抑圧信号生成部15、逆変換部17、記憶部19を有している。さらに音声処理装置130は、音声受付部132、目的音判定部134、抑圧係数算出部136を有している。
音声受付部132は、例えば、マイク等で電気信号に変換されたアナログ音声信号を受付け、ディジタル化して、時間軸上の音声信号として出力する。目的音判定部134は、定常判定部9で非定常と判定された場合に、判定された周波数成分が目的音であるか否かを判定する。
目的音の判定は、例えば、音声は振幅が大きいことから、「周波数スペクトルの振幅値/定常雑音モデルの値」が、閾値以上である周波数は目的音と判定する方法などを用いることができる。この方法によれば、周波数毎の成分が目的音であるか否かが判定される。この閾値は、例えば、雑音のみと考えられる音声信号の最大値を上回る値に設定される。この閾値は、例えば、実際に取得された複数の音声信号から統計的手法を用いて求めるようにしてもよい。
例えば、目的音であるか否かは、既に知られている別の判定方法で判定してもよい。例えば別の方法がある場合、上記の方法と共に所定の条件を満足する場合、または、いずれかの条件を満足する場合に、該当する周波数成分が目的音であると判定するようにしてもよい。
抑圧係数算出部136は、第1の実施の形態による抑圧係数算出部13と同様に、定常判定部9で定常であると判定された周波数成分の場合は、式1により抑圧係数を算出する。目的音であると判定された周波数成分については、抑圧係数算出部136は、式2のように、抑圧係数を「1」とする。定常でなく、目的音でもないと判定された場合には、抑圧係数算出部136は、抑圧係数を、下記式4により算出する。この抑圧係数を、非定常雑音抑圧係数ともいう。
抑圧係数=係数K(f)×定数C×雑音由来係数y・・・(式4)
なお、係数K(f)は、定常雑音モデルの値の当該周波数成分に対する割合を表す係数であり、当該周波数成分を定常雑音モデルまで抑圧した場合の係数である。係数K(f)は、定常雑音推定部7で推定された目標値と、変換部5で変換された各周波数成分に基づき下記式5のように算出される。
係数K(f)=各周波数の目標値(定常雑音モデルの値)/各周波数成分の振幅値・・・(式5)
図10は、第2の実施の形態による音声処理装置130の動作を示すフローチャートである。図10に示すように、音声処理装置130は、音声受付部132により、音声信号を受付ける(S151)。例えば、音声受付部132は、マイク等により電気信号に変換された時間軸上の音声信号を受付ける。
変換部5は、音声信号を時間周波数変換し、周波数軸上の周波数スペクトルを出力する(S152)。時間周波数変換は、例えば、時間軸上の音声信号から所定時間分を切り出し、高速フーリエ変換することにより行われる。定常雑音推定部7は、周波数スペクトルに基づき、定常雑音の目標値の推定を行う(S153)。すなわち、定常雑音推定部7は、周波数軸上の周波数スペクトルの周波数毎の振幅値に基づき、周波数毎の定常雑音モデルの値を推定する。
雑音由来係数算出部11は、定常雑音モデルの値が上昇するに従ってなだらかに減少する「1」以下の雑音由来係数yを算出する(S154)。このとき例えば雑音由来係数算出部11は、係数算出テーブル32を参照して雑音由来係数yを算出する。
定常判定部9は、周波数軸上の周波数スペクトルの周波数毎の振幅値に基づき、周波数毎の成分が定常であるか非定常であるかを判定する(S155)。定常であると判定された場合には(S155:YES)、抑圧係数算出部136は、式1により、「1」以下の定数Cと雑音由来係数yとを乗じて定常雑音抑圧係数を算出する(S156)。非定常であると判定された場合は(S155:NO)、目的音判定部134は、当該周波数成分が、目的音であるか否かを判定する(S157)。目的音であると判定された場合(S157:YES)、抑圧係数算出部136は、「1」を抑圧係数とする(S158)。目的音でないと判定された場合(S157:NO)、抑圧係数算出部136は、式4により、非定常雑音抑圧係数を算出する(S159)。
抑圧信号生成部15は、周波数毎の振幅値と抑圧係数とを乗じた抑圧信号を生成する(S160)。逆変換部17は、抑圧信号を周波数時間変換して(S161)、出力する(S162)。音声処理装置130は、システム終了の入力がない場合にはS151から処理を繰り返す(S163:NO)。システム終了の入力があった場合には(S163:YES)、音声処理装置130は、処理を終了する。
図11は、第2の実施の形態による音声処理装置130による雑音抑圧効果の一例を示す表である。図11に示すように、抑圧例180は、抑圧例182に比べて例えば雑音の平均レベルが約15dB大きい場合の例である。抑圧例180の場合、雑音抑圧量は、雑音由来係数を用いない従来の場合と比較して、定常雑音で3.4dB、非定常雑音で1.7dBの抑圧効果がある。音声抑圧量については、従来と同等である。抑圧例182の場合、雑音由来係数を用いない従来の場合と比較して、定常雑音で0.4dB、非定常雑音で0.6dBの抑圧効果がある。音声抑圧量については、従来と同様である。このように、本実施の形態による雑音抑圧では、音声抑圧に関しては従来と同等であり、歪の増大はない。雑音抑圧に関しては、雑音が大きい場合のほうが、雑音由来係数を用いない従来の例に比べて雑音抑圧効果が高いことが分かる。
以上説明したように、音声処理装置130は、所定時間分の時間軸上の音声信号を周波数軸上の周波数スペクトルに変換する。音声処理装置130は、周波数スペクトルの周波数毎の振幅値に基づき、周波数毎の定常雑音の目標値を推定する。音声処理装置130は、目標値が上昇するに従ってなだらかに減少する「1」以下の雑音由来係数を算出する。音声処理装置130は、定常であると判定された周波数スペクトルの周波数成分では、1以下の定数Cと雑音由来係数とを乗じて抑圧係数とする。音声処理装置130は、非定常であると判定された周波数成分では、さらに、目的音であるか否かを判定する。目的音であると判定された場合には、音声処理装置130は、「1」を抑圧係数とする目的音でないと判定された場合には、非定常雑音抑圧係数を算出する。音声処理装置130は、周波数毎の振幅値と抑圧係数とを乗じた抑圧信号を生成し、周波数時間変換して出力する。
以上のように、音声処理装置130においては、第1の実施の形態による音声処理装置1と同様に、定常雑音モデルの値として算出される目標値が上昇するに従ってなだらかに減少する雑音由来係数が用いられる。雑音由来係数により、周波数スペクトルの定常と判定された周波数成分が抑圧されるので、雑音が大きい場合にも歪の少ない雑音抑圧が可能である。さらに、音声処理装置130は、非定常であると判定された周波数成分について、目的音であるか否かを判定し、目的音である場合には、抑圧係数=1として抑圧を行わない。また、目的音でない場合には、音声処理装置130は、非定常雑音抑圧係数により抑圧を行う。よって、第1の実施の形態の音声処理装置1による効果に加え、より音声歪を低減しながら、効果的に雑音抑圧を行うことが可能となる。特に、定常雑音がより大きい場合に、雑音抑圧効果が高い。このように、目的音であるか否かの判定が行われるので、雑音抑圧量は大きくすることで雑音が抑圧され、音声抑圧量は小さくすることで、音声歪を低減することが可能となっている。
なお、目的音判定方法として、以下の方法を用いるようにしてもよい。すなわち、目的音判定部134は、音声は自己相関が高く、雑音は自己相関が低いことを利用して、該当フレームと時間方向で1つ前のフレームとの間の自己相関値が閾値よりも高い場合を目的音と判定するようにしてもよい。このとき、目的音であるか否かは、時間フレーム毎に算出される。また、この判定は、例えば、定常判定部9により、非定常であるとされた周波数成分を含むフレームに関して行うようにしてもよい。
上記のようにフレームに関して目的音を判定する場合には、定常判定部9は、周波数軸上の周波数スペクトルの周波数毎の振幅値に基づき、フレーム毎に周波数スペクトルが定常であるか非定常であるかを判定するようにしてもよい。具体的には、例えば特許文献5に記載の定常/非定常の判定を応用して、当該フレームの振幅スペクトルの時間変化率が閾値よりも高い場合は非定常、閾値よりも低い場合は定常とするようにしてもよい。時間変化率は、当該フレームの振幅スペクトルの平均値など、統計的代表値に関して算出する方法、周波数成分毎に時間変化率を算出して統計的代表値を時間変化率とする方法など、様々な変形例を適用することができる。別の方法としては、当該フレームの振幅スペクトルの統計的代表値が、当該フレームの定常雑音の目標値の統計的代表値を所定値以上上回っている場合に非定常と判定するなどの判定方法でもよい。なお、フレーム毎に定常であるか否かが判定される場合、抑圧係数算出部13は、定常であると判定されたフレームの全ての周波数成分に対して、上記式1により定常雑音抑圧係数を算出することが好ましい。
またフレーム毎に目的音を判定する方法を、上記の周波数毎に目的音を判定する方法と組み合わせて用いることもできる。例えば、目的音判定部134は、双方の判定方法により目的音であると判定された場合にのみ、当該周波数成分を目的音と判定するようにしてもよい。あるいは、目的音判定部134は、いずれかの方法で目的音と判定された場合に、当該フレームまたは当該周波数成分を目的音と判定するようにしてもよい。
(第3の実施の形態)
以下、第3の実施の形態による音声処理装置200について図面を参照しながら説明する。第3の実施の形態による音声処理装置200において、第1または第2の実施の形態による音声処理装置1、音声処理装置130と同様の構成および動作については、同一番号を付し、重複説明を省略する。
図12は、第3の実施の形態による音声処理装置200の機能的な構成の一例を示す図である。音声処理装置200は、音声処理装置1、音声処理装置130と同様に、変換部5、定常雑音推定部7、定常判定部9、雑音由来係数算出部11、抑圧信号生成部15、逆変換部17、記憶部19を有している。さらに音声処理装置200は、音声処理装置130と同様に、音声受付部132、目的音判定部134を有している。音声処理装置200は、さらに、目的音率算出部202、抑圧係数算出部204を有している。
目的音率算出部202は、変換部5で抽出した所定時間、すなわち、時間的なフレーム毎に、目的音率を算出する。目的音率とは、FFT長を1フレーム内の周波数成分の数として、下記式6により表される。
目的音率=1フレーム内で目的音であると判定された周波数の数/FFT長
・・・(式6)
抑圧係数算出部204は、抑圧係数算出部13、抑圧係数算出部136と同様に、定常判定部9で定常であると判定された周波数成分の場合は、式1により抑圧係数を算出する。目的音であると判定された周波数成分については、抑圧係数算出部204は、式2のように、抑圧係数を「1」とする。定常でなく、目的音でもないと判定された場合には、抑圧係数算出部204は、抑圧係数を、目的音率に応じて算出する。
図13は、音率別係数データテーブル210の一例を示す図である。図13に示すように、音率別係数データテーブル210は、目的音率に応じた抑圧係数の算出式、および第1および第2の所定値を格納したデータテーブルである。算出式は、目的音率に応じて3段階に分けて抑圧係数を算出する式である。
音率別係数データテーブル210では、目的音率が、予め定められた第1の所定値Th1以上の場合(目的音率高)、抑圧係数は、第2の実施の形態による音声処理装置130において算出した非定常抑圧係数と同様に式4で算出される。ここで便宜のため、式4を再び下記に示す。
目的音率高: 抑圧係数 = 係数K(f)×定数C×雑音由来係数y
・・・(式4)
目的音率が、第1の所定値Th1未満で、第1の所定値Th1より小さい第2の所定値Th2以上の場合(目的音率中)、抑圧係数は、下記式7で算出される。目的音率が、第2の所定値Th2未満の場合(目的音率低)、抑圧係数は、下記式8で算出される。
目的音率中: 抑圧係数 = 係数K(f)×定数C・・・(式7)
目的音率低: 抑圧係数 = 係数K(f)・・・(式8)
なお、第1の所定値Th1、第2の所定値Th2は、例えば、予め雑音が少ない状態で取得された、いくつかの音声信号について目的音率を算出し、算出された目的音率の分布の度合いに基づき決定するようにしてもよい。
図14は、目的音判定値の周波数依存性を示す図である。なお、目的音判定値とは、「周波数スペクトルの振幅値/定常雑音モデルの値」である。また、閾値219は、目的音判定値により、当該周波数成分が目的音であるか否かを判定するための閾値である。目的音判定値が閾値219を超えている場合には、その周波数成分は目的音であると判定される。
図14に示すように、目的音判定値214は、目的音率高と判定される場合の、目的音判定値の一例を示している。目的音判定値216は、目的音率中と判定される場合の、目的音判定値の一例を示している。目的音判定値218は、目的音率低と判定される場合の目的音判定値の一例を示している。このように、閾値219を超える目的音判定値を有する周波数成分が、目的音であると判定される。また、目的音と判定される周波数成分の数に応じて目的音率が判定される。
図15は、第3の実施の形態による音声処理装置200の動作を示すフローチャートである。図16は、音の種類判別処理の詳細を示すフローチャートである。図17は、抑圧係数算出処理の詳細を示すフローチャートである。
図15に示すように、音声処理装置200は、音声受付部132により、音声信号を受付ける(S231)。例えば、音声処理装置200は、マイク等により電気信号に変換された時間軸上の音声信号を受付ける。
変換部5は、音声信号を時間周波数変換し、周波数軸上の周波数スペクトルを出力する(S232)。時間周波数変換は、例えば、時間軸上の音声信号から所定時間分を切り出し、高速フーリエ変換することにより行われる。定常雑音推定部7は、周波数スペクトルに基づき、定常雑音の目標値の推定を行う(S233)。すなわち、定常雑音推定部7は、周波数軸上の周波数スペクトルの周波数毎の振幅値に基づき、周波数毎の定常雑音モデルの値を推定する。
雑音由来係数算出部11は、定常雑音モデルの値が上昇するに従ってなだらかに減少する「1」以下の雑音由来係数yを算出する(S234)。このとき例えば雑音由来係数算出部11は、係数算出テーブル32を参照して雑音由来係数yを算出する。
定常判定部9は、周波数軸上の周波数スペクトルの周波数毎の振幅値に基づき、周波数毎の成分が定常であるか非定常であるかを判定する。また、目的音率算出部202は、周波数毎の成分が目的音であるか否かを判定する(S235)。S235の処理の詳細については、後述される。目的音率算出部202は、目的音率を算出する(S236)。すなわち、後述する音の種類判別の結果に基づき、フレーム毎に目的音率を算出する。抑圧係数算出部204は、周波数毎に、抑圧係数を算出する(S237)。抑圧係数算出処理の詳細は、後述される。
抑圧信号生成部15は、周波数毎の振幅値と抑圧係数とを乗じた抑圧信号を生成する(S238)。逆変換部17は、抑圧信号を周波数時間変換して(S239)、出力する(S240)。音声処理装置200は、システム終了の入力がない場合にはS231から処理を繰り返す(S241:NO)。システム終了の入力があった場合には(S241:YES)、音声処理装置200は、処理を終了する。
次に、図16を参照しながら、音の種類判別処理について説明する。以下の処理において、変数nは、目的音と判定される周波数成分の数を計数するための変数である。変数iは、目的音であるか否かを判定済みの周波数成分の数を計数するための変数である。フラグflgは、当該周波数成分の音の種類を表すフラグであり、定常である場合は「0」、目的音である場合は「1」、定常でも目的音でもない場合は「2」で表される。定数FFT_Nは、FFT長である。
図16に示すように、定常判定部9は、n=0と設定する(S251)。定常判定部9は、i=0と設定する(S252)。定常判定部9は、一つの周波数成分について、定常的な音であるか否か判定する(S253)。当該周波数成分が定常的な音である場合(S253:YES)、定常判定部9は、当該周波数成分について、flg=0とする(S254)。S253で、定常的な音でないと判定された場合(S253:NO)、定常判定部9は、当該周波数成分について、flg=1と設定する(S255)。
目的音判定部134は、定常的な音でないと判定された周波数成分について、目的音であるか否か判定する(S256)。目的音であると判定された場合(S256:YES)、目的音判定部134は、n=n+1とする(S257)。目的音でないと判定された場合(S256:NO)、目的音判定部134は、flg=2とする(S258)。
S259では、定常判定部9が、i=i+1とし(S259)、変数iが、FFT長FFT_Nでない場合(S260:NO)、S253に戻って処理を繰り返す。変数iが、1フレームの周波数成分の数=FFT_Nとなった場合(S260:YES)、定常判定部9は、音の種類判別処理を終了し、図15の処理に戻す。なおS236では、目的音率算出部202は、目的音率=n/FFT_Nを算出する。
続いて、図17を参照しながら、抑圧係数算出処理の詳細について説明する。図17に示すように、抑圧係数算出部204は、i=0とする(S271)。抑圧係数算出部204は、一つの周波数成分について、flg=0である場合は(S272:YES)、定常雑音抑圧係数を算出する(S273)。すなわち、S253において定常であると判定されている場合に、抑圧係数算出部204は、式1により、「1」以下の定数Cと雑音由来係数yとを乗じて定常雑音抑圧係数を算出する(S273)。
抑圧係数算出部204は、flg=1の場合には(S272:NO、S274:YES)、抑圧係数=1とする。抑圧係数算出部204は、flg=2の場合には(S274:NO)、非定常雑音抑圧係数を算出する(S276)。すなわち、抑圧係数算出部204は、図16の処理において算出された目的音率に基づき、音率別係数データテーブル210を参照して、夫々の周波数成分毎の非定常雑音抑圧係数を算出する。抑圧係数算出部204は、i=i+1とし(S277)、i=FFT_Nとなるまで、S272から処理を繰り返す(S278:NO)。i=FFT_Nとなった場合は(S278:YES)、抑圧係数算出部204は、図15の処理に処理を戻す。
以上詳細に説明したように、第3の実施の形態による音声処理装置200は、目的音率に応じた雑音抑圧を行う。目的音率は、フレーム毎に目的音と判定される周波数成分の割合に応じて算出される。目的音率が高い場合には、当該フレームにおける非定常雑音が、より抑圧されるように抑圧係数が算出される。
以上のように、第3の実施の形態による音声処理装置200によれば、第1の実施の形態による音声処理装置1、第2の実施の形態による音声処理装置130による効果に加え、非定常雑音部分は、目的音率に応じた雑音抑圧が可能になる。例えば、目的音声か、目的音声でない非音声かの判定を行ったとしても、判定精度が100%でないために、雑音を目的音声と誤ってしまうと、時間方向で抑圧量が激しく変化する場合がある。それが、振幅の激しい変化となり、雑音歪となるが、このような雑音歪も、目的音率に応じて段階的に雑音抑圧を行うことで、より低減することが可能となる。
なお、上記第3の実施の形態においては、目的音率を3段階に分けたがこれに限定されない。より細かく、あるいはより荒い分け方の場合も、本実施の形態の雑音抑圧の変形の範囲と解釈される。
(第4の実施の形態)
以下、第4の実施の形態による音声処理装置300について図面を参照しながら説明する。第4の実施の形態による音声処理装置300において、第1から第3の実施の形態と同様の構成および動作については、同一番号を付し、重複説明を省略する。
図18は、第4の実施の形態による音声処理装置300の機能的な構成の一例を示す図である。音声処理装置300は、音声処理装置1、音声処理装置130、音声処理装置200と同様に、変換部5、定常雑音推定部7、定常判定部9、雑音由来係数算出部11、抑圧信号生成部15、逆変換部17、記憶部19を有している。さらに音声処理装置300は、音声処理装置200と同様に、音声受付部132、目的音率算出部202、抑圧係数算出部204を有している。加えて、音声処理装置300は、音声受付部303、第2の変換部305、目的音判定部307を有している。
音声処理装置300は、第2の実施の形態および第3の実施の形態による目的音判定部134に代えて、目的音判定部307により、目的音であるか否かの判定を行う。音声処理装置300は、2つの音声信号を受け付ける。音声受付部132は、一方の音声信号を受付ける。音声受付部303は、他方の音声信号を受付ける。2つの音声信号は、同時に異なる場所(空間的位置)で取得された音声の信号である。2つの音声信号は、例えば、異なる位置に配置された2つのマイクで収音された音声に基づく信号とすることができる。変換部305は、音声受付部303からの音声信号を周波数軸上の周波数スペクトルに変換する。
目的音判定部307は、2つの周波数スペクトルの位相差、または振幅比に基づき、当該周波数成分が目的音であるか否かを判定する。位相差を用いる場合には、2つの周波数スペクトルの位相差が、目的音の方向を示す値となっているか否かが判定される。すなわち、目的音判定部307は、2つの周波数スペクトルの周波数毎の位相差を算出し、算出した位相差が、所定の音源の方向についてとり得る位相差の範囲に含まれるか否かを判定する。
図19は、2つの音声信号を用いた目的音率算出の一例を示す図である。図19において、音声信号320、信号振幅322、目的音率330は、横軸を時間として表されている。音声信号320は、音声受付部132で受付けられた音声信号の波形を示す。信号振幅322は、音声信号320における特定周波数付近の音声信号の振幅の時間変化を表す。定常雑音モデル324は、信号振幅322から算出された定常雑音モデルの値である。目的音判定部307は、同様に算出される他方の周波数スペクトルの同一周波数成分の値を参照して、一方の周波数スペクトルとの位相差が目的音の方向を示しているか否かにより、判定を行う。目的音率330は、上記のような判定に基づき、フレーム毎の目的音率を第3の実施の形態と同様に算出し、時間変化として表した例を示している。目的音率330は、縦軸を目的音率として表されている。目的音率330の例で、例えば、目的音率330が目的音率高領域332に入る場合には、式4により抑圧係数が算出される。目的音率中領域334に入る場合には、式7により抑圧係数が算出される。目的音率低領域336に入る場合には、式8により抑圧係数が算出される。
図20は、2つのマイクと音源の位置関係の一例を示す図である。図21は、残したい音源の方向の一例を示す図である。図20において、音源340に対し、マイク342とマイク344とが互いに距離d離れた位置に備えられている。マイク342とマイク344との中点から音源340への方向は、2つのマイク342、マイク344を結んだ直線に対して角度θの方向である。また、マイク342と音源340との距離は、距離dsである。このとき、マイク342とマイク344での振幅スペクトル比Raは、下記式9で表される。
Ra=(ds/(ds+d×cosθ)) (0≦θ≦180)・・・(式9)
図21において、例えば、抑圧せずに残したい音源の方向が、角度θminから角度θmaxの領域346である場合、振幅スペクトルの比率Rは、下記式10の範囲となる。
Rmin≦R≦Rmax
Rmin=ds/(ds+d×cosθmin)
Rmax=ds/(ds+d×cosθmax)
・・・(式10)
式10を満たす振幅スペクトル比を有する場合、目的音判定部307は、当該周波数成分を目的音と判定する。
なお、本実施の形態において、目的音率算出部202は、2つの周波数スペクトルの位相差、または振幅比に基づき目的音であると判定された周波数成分の数を用いて、目的音率を算出する。
図22は、目的音率高と判定された場合の雑音抑圧係数の一例を示す図である。図22において、横軸は周波数、縦軸は抑圧係数を示す。図22に示すように、抑圧係数350は、雑音由来係数を用いない例である。抑圧係数352は、本実施の形態による抑圧係数の例である。抑圧係数小領域354を見ると分かるように、本実施の形態による抑圧係数は、従来例よりも低い抑圧係数が算出されており、より雑音を抑圧できることが分かる。
以上詳細に説明したように、本実施の形態においては、目的音判定部307が、2つの音声信号の位相差、または振幅比に基づき音源の方向が目的音の方向を示しているか否かにより目的音であるか否かを判定する。このように、音源の方向が規定できる場合には、同時に収音された2つの音声信号を用いて、目的音の判定を行うことができる。第4の実施の形態による音声処理装置300によれば、第3の実施の形態による音声処理装置200と同様の効果を奏することができる。さらに、音声として取得したい音源の方向を指定して、雑音抑圧を行うことができる。
(変形例)
以下、雑音由来係数の変形例について説明する。図23、図24は、雑音由来係数の定常雑音モデルの値xに対する関係の例を示す図である。図23、図24において、横軸は定常雑音モデルの値xであり、縦軸は、雑音由来係数yである。なお、定常雑音モデルの値xは、振幅の最大値=32768、とした場合の例である。雑音モデル係数yは、最大値のときに抑圧量が約6dB増すように調整したものである。定常雑音モデルの値x、雑音由来係数yの値は一例であり、これに限定されない。
図23の例では、例えば雑音由来係数yと定常雑音モデルの値xとの関係を示す雑音由来係数360は、下記の式11で表される。
y=1.0−ax (a=1.53×10−5)・・・(式11)
図24の例では、例えば雑音由来係数yと定常雑音モデルの値xとの関係を示す雑音由来係数362は、下記の式12で表される。
y=1.0−bx (b=4.66×10−10)・・・(式11)
図23、図24に示すように、雑音由来係数360、雑音由来係数362ともに、定常雑音モデルの値xが大きくなるに従って、なだらかに減少する値となっている。また、雑音由来係数362は、雑音由来係数360に比べて、定常雑音モデルの値xが大きい場合に、より抑圧量が大きくなるように設定されている。上記第1から第4の実施の形態のそれぞれに、雑音由来係数360、または雑音由来係数362を適用することができる。同様に設定された雑音由来係数yがなだらかに減少する他の計算式により、雑音由来係数yを算出することもできる。
以上説明したように、本変形例による雑音由来係数360または雑音由来係数362を上記第1から第4の実施の形態のいずれかに適用することにより、各実施の形態による効果と同様に、歪を生じさせない雑音抑圧が可能となる。雑音由来係数362を適用した場合には、雑音由来係数360を適用した場合と比較して、定常雑音モデルxが大きい場合に、より雑音抑圧量を大きくできる効果がある。
ここで、上記第1から第4の実施の形態および変形例による雑音抑圧方法の動作をコンピュータに行わせるために共通に適用されるコンピュータの例について説明する。図25は、標準的なコンピュータのハードウエア構成の一例を示すブロック図である。図25に示すように、コンピュータ400は、Central Processing Unit(CPU)402、メモリ404、入力装置406、出力装置408、外部記憶装置412、媒体駆動装置414、ネットワーク接続装置418等がバス410を介して接続されている。
CPU402は、コンピュータ400全体の動作を制御する演算処理装置である。メモリ404は、コンピュータ400の動作を制御するプログラムを予め記憶したり、プログラムを実行する際に必要に応じて作業領域として使用したりするための記憶部である。メモリ404は、例えばRandom Access Memory(RAM)、Read Only Memory(ROM)等である。入力装置406は、コンピュータの使用者により操作されると、その操作内容に対応付けられている使用者からの各種情報の入力を取得し、取得した入力情報をCPU402に送付する装置であり、例えばキーボード装置、マウス装置などである。出力装置408は、コンピュータ400による処理結果を出力する装置であり、表示装置などが含まれる。例えば表示装置は、CPU402により送付される表示データに応じてテキストや画像を表示する。
外部記憶装置412は、例えば、ハードディスク、フラッシュメモリなどの記憶装置であり、CPU402により実行される各種制御プログラムや、取得したデータ等を記憶しておく装置である。媒体駆動装置414は、可搬記録媒体416に書き込みおよび読み出しを行うための装置である。CPU402は、可搬記録媒体416に記録されている所定の制御プログラムを、媒体駆動装置414を介して読み出して実行することによって、各種の制御処理を行うようにすることもできる。可搬記録媒体416は、例えばCompact Disc(CD)−ROM、Digital Versatile Disc(DVD)、Universal Serial Bus(USB)メモリ等である。ネットワーク接続装置418は、有線または無線により外部との間で行われる各種データの授受の管理を行うインタフェース装置である。バス410は、上記各装置等を互いに接続し、データのやり取りを行う通信経路である。
上記第1から第4の実施の形態による雑音抑圧方法をコンピュータに実行させるプログラムは、例えば外部記憶装置412に記憶させる。CPU402は、外部記憶装置412からプログラムを読み出し、コンピュータ400に雑音抑圧の動作を行なわせる。このとき、まず、雑音抑圧の処理をCPU402に行わせるための制御プログラムを作成して外部記憶装置412に記憶させておく。そして、入力装置406から所定の指示をCPU402に与えて、この制御プログラムを外部記憶装置412から読み出させて実行させるようにする。また、このプログラムは、可搬記録媒体416に記憶するようにしてもよい。
なお、本発明は、以上に述べた実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲内で種々の構成または実施形態を採ることができる。例えば、上記第1から第4の実施の形態および変形例は上記に限定されず、論理的に可能な限りの組合せが可能である。
以上の実施形態に関し、さらに以下の付記を開示する。
(付記1)
所定時間分の音声信号を時間周波数変換した周波数スペクトルの振幅値に基づき算出される周波数毎の定常雑音の目標値が上昇するに従ってなだらかに減少する雑音由来係数を算出する雑音由来係数算出部と、
前記振幅値に基づき前記周波数スペクトルが定常であると判定された場合、前記雑音由来係数に基づく抑圧係数を前記振幅値に乗じることで、周波数時間変換して出力される抑圧信号を生成する抑圧信号生成部と、
を有することを特徴とする音声処理装置。
(付記2)
前記振幅値に基づき、前記周波数スペクトルの周波数毎の成分が非定常であると判定された場合に前記周波数毎の成分が目的音であるか否かを判定する目的音判定部、
をさらに有し、
前記抑圧信号生成部は、前記周波数毎の成分が目的音でないと判定された場合は、前記抑圧係数を前記振幅値と前記目標値とに応じた定常雑音係数と、前記雑音由来係数とを乗じた値に基づく係数とする
ことを特徴とする付記1に記載の音声処理装置。
(付記3)
前記目的音判定部は、前記周波数毎の振幅変動量、前記目標値と前記振幅値との比、および前記目標値と前記振幅値との差のうちの少なくとも一つに基づき、前記所定周波数の成分が目的音であるか否かを判定する、
ことを特徴とする付記2に記載の音声処理装置。
(付記4)
前記周波数スペクトルと、前記周波数スペクトルと対応する前記音声信号が取得された第1の空間的位置と異なる第2の空間的位置で取得された同一の音声の音声信号を時間周波数変換した周波数スペクトルとの周波数毎の振幅差、振幅比、および位相差のうちのいずれか少なくとも一つに基づき、前記周波数毎の成分が目的音であるか否かを判定する目的音判定部、
をさらに有し、
前記抑圧信号生成部は、前記周波数毎の成分が目的音でないと判定された場合は、前記抑圧係数を前記振幅値と前記目標値とに応じた定常雑音係数と、前記雑音由来係数とを乗じた値に基づく係数とする
ことを特徴とする付記1に記載の音声処理装置。
(付記5)
前記周波数スペクトルにおける前記目的音の割合を示す目的音率を算出する目的音率算出部、
をさらに有し、
前記抑圧信号生成部は、前記周波数スペクトルにおいて前記周波数毎の成分が目的音でないと判定された場合は、前記抑圧係数を前記目的音率に応じて算出された値とすることを特徴とする付記2から付記4のいずれかに記載の音声処理装置。
(付記6)
前記抑圧信号生成部は、前記目的音率が第1の所定値以上の場合に、前記抑圧係数を、前記雑音由来係数および前記定常雑音係数を乗じた値に基づく係数とすることを特徴とする付記5に記載の音声処理装置。
(付記7)
前記抑圧信号生成部は、前記目的音率が前記第1の所定値未満であって、前記第1の所定値よりも小さい第2の所定値以上の場合に、前記抑圧係数を前記定常雑音係数に基づく値とすることを特徴とする付記6に記載の音声処理装置。
(付記8)
前記抑圧信号生成部は、前記目的音率が前記第2の所定値未満の場合に、前記抑圧係数を前記定常雑音係数とすることを特徴とする付記7に記載の音声処理装置。
(付記9)
前記振幅値に基づき、前記周波数スペクトル、または前記周波数スペクトルのいずれかの周波数毎の成分が非定常であると判定された場合に前記周波数スペクトルが目的音であるか否かを判定する目的音判定部、
をさらに有し、
前記目的音判定部は、前記周波数スペクトルが非定常であると判定された場合に、前記所定時間に対応する前記周波数スペクトルと、前記所定時間の一つ前の所定時間に対応する周波数スペクトルとの相関値が一定値より高い場合に、前記所定時間に対応する前記周波数スペクトルを目的音であると判定し、
前記抑圧信号生成部は、前記周波数スペクトルが目的音でないと判定された場合は、前記抑圧係数を前記振幅値と前記目標値とに応じた定常雑音係数と、前記雑音由来係数とを乗じた値とする
ことを特徴とする付記1に記載の音声処理装置。
(付記10)
前記所定時間内の前記目標値の最大値に基づき前記最大値から前記雑音由来係数を算出するための正の係数をa、前記目標値をx、前記雑音由来係数をyとすると、
y=1−ax
であることを特徴とする付記1から付記9のいずれかに記載の音声処理装置。
(付記11)
前記所定時間内の前記目標値の最大値に基づき前記最大値から前記雑音由来係数を算出するための正の係数をb、前記目標値をx、前記雑音由来係数をyとすると、
y=1−bx
であることを特徴とする付記1から付記9のいずれかに記載の音声処理装置。
(付記12)
コンピュータによる雑音抑圧方法であって、
所定時間分の音声信号を時間周波数変換した周波数スペクトルの振幅値に基づき算出される周波数毎の定常雑音の目標値が上昇するに従ってなだらかに減少する雑音由来係数を算出し、
前記振幅値に基づき前記周波数スペクトルが定常であると判定された場合、前記雑音由来係数に基づく抑圧係数を前記振幅値に乗じることで、周波数時間変換して出力される抑圧信号を生成する、
ことを特徴とする雑音抑圧方法。
(付記13)
さらに、前記振幅値に基づき、前記周波数スペクトルの周波数毎の成分が非定常であると判定された場合に、前記周波数毎の成分が目的音であるか否かを判定し、
前記周波数毎の成分が目的音でないと判定された場合は、前記抑圧係数を前記振幅値と前記目標値とに応じた定常雑音係数と、前記雑音由来係数とを乗じた値に基づく係数とする
ことを特徴とする付記12に記載の雑音抑圧方法。
(付記14)
さらに、前記周波数スペクトルにおける前記目的音の割合を示す目的音率を算出し、
前記周波数毎の成分が目的音でないと判定された場合は、前記抑圧係数を前記目的音率に応じて算出された値とする
ことを特徴とする付記13に記載の雑音抑圧方法。
(付記15)
所定時間分の音声信号を時間周波数変換した周波数スペクトルの振幅値に基づき算出される周波数毎の定常雑音の目標値が上昇するに従ってなだらかに減少する雑音由来係数を算出し、
前記振幅値に基づき前記周波数スペクトルが定常であると判定された場合、前記雑音由来係数に基づく抑圧係数を前記振幅値に乗じることで、周波数時間変換して出力される抑圧信号を生成する
処理をコンピュータに実行させるプログラム。
1 音声処理装置
5 変換部
7 定常雑音推定部
9 定常判定部
11 雑音由来係数算出部
13 抑圧係数算出部
15 抑圧信号生成部
17 逆変換部
19 記憶部
20 振幅スペクトル
22 目標値
30 雑音由来係数
32 係数算出テーブル
33、34、36 雑音由来係数
38 不整合箇所
40 定常雑音例
42、44 振幅スペクトル
50 音声信号
52、54 時間帯
60、62、70、72 抑圧音声信号
74、76 振幅
80 振幅スペクトル
82 抑圧信号
86、88 抑圧音声信号

Claims (12)

  1. 所定時間分の音声信号を時間周波数変換した周波数スペクトルの振幅値に基づき算出される周波数毎の定常雑音の目標値が上昇するに従って連続して単調減少する雑音由来係数を算出する雑音由来係数算出部と、
    前記振幅値に基づき前記周波数スペクトルの周波数毎の成分が非定常であると判定された場合に、前記周波数毎の成分が目的音であるか否かを判定する目的音判定部と、
    前記周波数スペクトルにおける前記目的音の割合を示す目的音率を算出する目的音率算出部と、
    前記振幅値に基づき前記周波数スペクトルが定常であると判定された場合、前記雑音由来係数に基づく抑圧係数を前記振幅値に乗じることで、周波数時間変換して出力される抑圧信号を生成する抑圧信号生成部と、
    を有し、
    前記抑圧信号生成部は、前記周波数毎の成分が目的音でないと判定された場合は、前記抑圧係数を、前記振幅値と前記目標値とに応じた定常雑音係数と、前記雑音由来係数とを乗じた値に基づく係数であって、前記目的音率に応じて算出された値とする、
    ことを特徴とする音声処理装置。
  2. 前記目的音判定部は、前記周波数毎の振幅変動量、前記目標値と前記振幅値との比、および前記目標値と前記振幅値との差のうちの少なくとも一つに基づき、前記周波数毎の成分が目的音であるか否かを判定する、
    ことを特徴とする請求項に記載の音声処理装置。
  3. 所定時間分の音声信号を時間周波数変換した周波数スペクトルの振幅値に基づき算出される周波数毎の定常雑音の目標値が上昇するに従って連続して単調減少する雑音由来係数を算出する雑音由来係数算出部と、
    前記周波数スペクトルと、前記周波数スペクトルと対応する前記音声信号が取得された第1の空間的位置と異なる第2の空間的位置で取得された同一の音声の音声信号を時間周波数変換した周波数スペクトルとの周波数毎の振幅差、振幅比、および位相差のうちのいずれか少なくとも一つに基づき、前記周波数毎の成分が目的音であるか否かを判定する目的音判定部と、
    前記周波数スペクトルにおける前記目的音の割合を示す目的音率を算出する目的音率算出部
    前記振幅値に基づき前記周波数スペクトルが定常であると判定された場合、前記雑音由来係数に基づく抑圧係数を前記振幅値に乗じることで、周波数時間変換して出力される抑圧信号を生成する抑圧信号生成部と、
    有し、
    前記抑圧信号生成部は前記周波数毎の成分が目的音でないと判定された場合は、前記抑圧係数を、前記振幅値と前記目標値とに応じた定常雑音係数と、前記雑音由来係数とを乗じた値に基づく係数であって、前記目的音率に応じて算出された値とする
    ことを特徴とする音声処理装置
  4. 前記抑圧信号生成部は、前記目的音率が第1の所定値以上の場合、前記抑圧係数を、前記雑音由来係数および前記定常雑音係数を乗じた値に基づく係数とすることを特徴とする請求項1から請求項3のいずれかに記載の音声処理装置。
  5. 前記抑圧信号生成部は、前記目的音率が前記第1の所定値未満であって、前記第1の所定値よりも小さい第2の所定値以上の場合、前記抑圧係数を前記定常雑音係数に基づく値とすることを特徴とする請求項に記載の音声処理装置。
  6. 前記抑圧信号生成部は、前記目的音率が前記第2の所定値未満の場合、前記抑圧係数を前記定常雑音係数とすることを特徴とする請求項に記載の音声処理装置。
  7. 前記所定時間内の前記目標値の最大値に基づき前記最大値から前記雑音由来係数を算出するための正の係数をa、前記目標値をx、前記雑音由来係数をyとすると、
    y=1−ax
    であることを特徴とする請求項1から請求項のいずれかに記載の音声処理装置。
  8. 前記所定時間内の前記目標値の最大値に基づき前記最大値から前記雑音由来係数を算出するための正の係数をb、前記目標値をx、前記雑音由来係数をyとすると、
    y=1−bx
    であることを特徴とする請求項1から請求項のいずれかに記載の音声処理装置。
  9. コンピュータによる雑音抑圧方法であって、
    所定時間分の音声信号を時間周波数変換した周波数スペクトルの振幅値に基づき算出される周波数毎の定常雑音の目標値が上昇するに従って連続して単調減少する雑音由来係数を算出し、
    前記振幅値に基づき前記周波数スペクトルの周波数毎の成分が非定常であると判定された場合に、前記周波数毎の成分が目的音であるか否かを判定し、
    前記周波数スペクトルにおける前記目的音の割合を示す目的音率を算出し、
    前記振幅値に基づき前記周波数スペクトルが定常であると判定された場合、前記雑音由来係数に基づく抑圧係数を前記振幅値に乗じることで、周波数時間変換して出力される抑圧信号を生成
    前記抑圧信号の生成において、前記周波数毎の成分が目的音でないと判定された場合は、前記抑圧係数を、前記振幅値と前記目標値とに応じた定常雑音係数と、前記雑音由来係数とを乗じた値に基づく係数であって、前記目的音率に応じて算出された値とする、
    ことを特徴とする雑音抑圧方法。
  10. コンピュータによる雑音抑圧方法であって、
    所定時間分の音声信号を時間周波数変換した周波数スペクトルの振幅値に基づき算出される周波数毎の定常雑音の目標値が上昇するに従って連続して単調減少する雑音由来係数を算出し、
    前記周波数スペクトルと、前記周波数スペクトルと対応する前記音声信号が取得された第1の空間的位置と異なる第2の空間的位置で取得された同一の音声の音声信号を時間周波数変換した周波数スペクトルとの周波数毎の振幅差、振幅比、および位相差のうちのいずれか少なくとも一つに基づき、前記周波数毎の成分が目的音であるか否かを判定し、
    前記周波数スペクトルにおける前記目的音の割合を示す目的音率を算出し、
    前記振幅値に基づき前記周波数スペクトルが定常であると判定された場合、前記雑音由来係数に基づく抑圧係数を前記振幅値に乗じることで、周波数時間変換して出力される抑圧信号を生成し、
    前記抑圧信号の生成において、前記周波数毎の成分が目的音でないと判定された場合は、前記抑圧係数を、前記振幅値と前記目標値とに応じた定常雑音係数と、前記雑音由来係数とを乗じた値に基づく係数であって、前記目的音率に応じて算出された値とする
    ことを特徴とする雑音抑圧方法。
  11. 所定時間分の音声信号を時間周波数変換した周波数スペクトルの振幅値に基づき算出される周波数毎の定常雑音の目標値が上昇するに従って連続して単調減少する雑音由来係数を算出し、
    前記振幅値に基づき前記周波数スペクトルの周波数毎の成分が非定常であると判定された場合に、前記周波数毎の成分が目的音であるか否かを判定し、
    前記周波数スペクトルにおける前記目的音の割合を示す目的音率を算出し、
    前記振幅値に基づき前記周波数スペクトルが定常であると判定された場合、前記雑音由来係数に基づく抑圧係数を前記振幅値に乗じることで、周波数時間変換して出力される抑圧信号を生成する
    処理をコンピュータに実行させ
    前記抑圧信号の生成において、前記周波数毎の成分が目的音でないと判定された場合は、前記抑圧係数を、前記振幅値と前記目標値とに応じた定常雑音係数と、前記雑音由来係数とを乗じた値に基づく係数であって、前記目的音率に応じて算出された値とする、
    プログラム。
  12. 所定時間分の音声信号を時間周波数変換した周波数スペクトルの振幅値に基づき算出される周波数毎の定常雑音の目標値が上昇するに従って連続して単調減少する雑音由来係数を算出し、
    前記周波数スペクトルと、前記周波数スペクトルと対応する前記音声信号が取得された第1の空間的位置と異なる第2の空間的位置で取得された同一の音声の音声信号を時間周波数変換した周波数スペクトルとの周波数毎の振幅差、振幅比、および位相差のうちのいずれか少なくとも一つに基づき、前記周波数毎の成分が目的音であるか否かを判定し、
    前記周波数スペクトルにおける前記目的音の割合を示す目的音率を算出し、
    前記振幅値に基づき前記周波数スペクトルが定常であると判定された場合、前記雑音由来係数に基づく抑圧係数を前記振幅値に乗じることで、周波数時間変換して出力される抑圧信号を生成する
    処理をコンピュータに実行させ、
    前記抑圧信号の生成において、前記周波数毎の成分が目的音でないと判定された場合は、前記抑圧係数を、前記振幅値と前記目標値とに応じた定常雑音係数と、前記雑音由来係数とを乗じた値に基づく係数であって、前記目的音率に応じて算出された値とする
    プログラム。
JP2014040649A 2014-03-03 2014-03-03 音声処理装置、雑音抑圧方法、およびプログラム Active JP6337519B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2014040649A JP6337519B2 (ja) 2014-03-03 2014-03-03 音声処理装置、雑音抑圧方法、およびプログラム
US14/628,416 US9761244B2 (en) 2014-03-03 2015-02-23 Voice processing device, noise suppression method, and computer-readable recording medium storing voice processing program
EP15156291.5A EP2916322A1 (en) 2014-03-03 2015-02-24 Voice processing device, noise suppression method, and computer-readable recording medium storing voice processing program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014040649A JP6337519B2 (ja) 2014-03-03 2014-03-03 音声処理装置、雑音抑圧方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2015166764A JP2015166764A (ja) 2015-09-24
JP6337519B2 true JP6337519B2 (ja) 2018-06-06

Family

ID=52544402

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014040649A Active JP6337519B2 (ja) 2014-03-03 2014-03-03 音声処理装置、雑音抑圧方法、およびプログラム

Country Status (3)

Country Link
US (1) US9761244B2 (ja)
EP (1) EP2916322A1 (ja)
JP (1) JP6337519B2 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170051856A (ko) * 2015-11-02 2017-05-12 주식회사 아이티매직 사운드 신호에서 진단 신호를 추출하는 방법 및 진단 장치
CN105448304B (zh) * 2015-12-01 2019-01-15 珠海市杰理科技股份有限公司 语音信号噪声频谱估计方法、装置及降噪处理方法
JP6729187B2 (ja) 2016-08-30 2020-07-22 富士通株式会社 音声処理プログラム、音声処理方法及び音声処理装置
JP6652119B2 (ja) 2017-08-03 2020-02-19 セイコーエプソン株式会社 波長変換素子、波長変換素子の製造方法、光源装置及びプロジェクター
CN107833579B (zh) * 2017-10-30 2021-06-11 广州酷狗计算机科技有限公司 噪声消除方法、装置及计算机可读存储介质
WO2020250797A1 (ja) * 2019-06-14 2020-12-17 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
US11646009B1 (en) * 2020-06-16 2023-05-09 Amazon Technologies, Inc. Autonomously motile device with noise suppression
US11900961B2 (en) * 2022-05-31 2024-02-13 Microsoft Technology Licensing, Llc Multichannel audio speech classification
CN117037834B (zh) * 2023-10-08 2023-12-19 广州市艾索技术有限公司 一种会议语音数据智能采集方法及系统

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3269969B2 (ja) * 1996-05-21 2002-04-02 沖電気工業株式会社 背景雑音消去装置
JP3264831B2 (ja) * 1996-06-14 2002-03-11 沖電気工業株式会社 背景雑音消去装置
US6175602B1 (en) * 1998-05-27 2001-01-16 Telefonaktiebolaget Lm Ericsson (Publ) Signal noise reduction by spectral subtraction using linear convolution and casual filtering
JP2001267973A (ja) 2000-03-17 2001-09-28 Matsushita Electric Ind Co Ltd 騒音抑制装置および騒音抑制方法
JP4520732B2 (ja) * 2003-12-03 2010-08-11 富士通株式会社 雑音低減装置、および低減方法
WO2006123721A1 (ja) * 2005-05-17 2006-11-23 Yamaha Corporation 雑音抑圧方法およびその装置
JP4863713B2 (ja) 2005-12-29 2012-01-25 富士通株式会社 雑音抑制装置、雑音抑制方法、及びコンピュータプログラム
JP4753821B2 (ja) * 2006-09-25 2011-08-24 富士通株式会社 音信号補正方法、音信号補正装置及びコンピュータプログラム
US9159335B2 (en) * 2008-10-10 2015-10-13 Samsung Electronics Co., Ltd. Apparatus and method for noise estimation, and noise reduction apparatus employing the same
JP5413575B2 (ja) 2009-03-03 2014-02-12 日本電気株式会社 雑音抑圧の方法、装置、及びプログラム
JP5293329B2 (ja) 2009-03-26 2013-09-18 富士通株式会社 音声信号評価プログラム、音声信号評価装置、音声信号評価方法
JP5207479B2 (ja) * 2009-05-19 2013-06-12 国立大学法人 奈良先端科学技術大学院大学 雑音抑圧装置およびプログラム
US8571231B2 (en) * 2009-10-01 2013-10-29 Qualcomm Incorporated Suppressing noise in an audio signal
US8473287B2 (en) * 2010-04-19 2013-06-25 Audience, Inc. Method for jointly optimizing noise reduction and voice quality in a mono or multi-microphone system
CN103238183B (zh) 2011-01-19 2014-06-04 三菱电机株式会社 噪音抑制装置
JP2013148724A (ja) 2012-01-19 2013-08-01 Sony Corp 雑音抑圧装置、雑音抑圧方法およびプログラム
JP6169849B2 (ja) * 2013-01-15 2017-07-26 本田技研工業株式会社 音響処理装置
JP6020258B2 (ja) * 2013-02-28 2016-11-02 富士通株式会社 マイク感度差補正装置、方法、プログラム、及び雑音抑圧装置

Also Published As

Publication number Publication date
JP2015166764A (ja) 2015-09-24
EP2916322A1 (en) 2015-09-09
US9761244B2 (en) 2017-09-12
US20150248895A1 (en) 2015-09-03

Similar Documents

Publication Publication Date Title
JP6337519B2 (ja) 音声処理装置、雑音抑圧方法、およびプログラム
JP5875609B2 (ja) 雑音抑圧装置
JP5265056B2 (ja) 雑音抑圧装置
JP5870476B2 (ja) 雑音推定装置、雑音推定方法および雑音推定プログラム
JP5387459B2 (ja) 雑音推定装置、雑音低減システム、雑音推定方法、及びプログラム
JP6107151B2 (ja) 雑音抑圧装置、方法、及びプログラム
US9552828B2 (en) Audio signal processing device
JP6668995B2 (ja) 雑音抑圧装置、雑音抑圧方法及び雑音抑圧用コンピュータプログラム
CN104637491A (zh) 用于内部mmse计算的基于外部估计的snr的修改器
JP6339896B2 (ja) 雑音抑圧装置および雑音抑圧方法
CN104867499A (zh) 一种用于助听器的分频段维纳滤波去噪方法和系统
JP6371167B2 (ja) 残響抑制装置
CN111951818B (zh) 一种基于改进功率差噪声估计算法的双麦克风语音增强方法
JP2000330597A (ja) 雑音抑圧装置
JP2023536104A (ja) 機械学習を用いたノイズ削減
US9697848B2 (en) Noise suppression device and method of noise suppression
JP7013789B2 (ja) 音声処理用コンピュータプログラム、音声処理装置及び音声処理方法
JP6729186B2 (ja) 音声処理プログラム、音声処理方法及び音声処理装置
JP6631127B2 (ja) 音声判定装置、方法及びプログラム、並びに、音声処理装置
JP6059130B2 (ja) 雑音抑圧方法とその装置とプログラム
WO2019009204A1 (ja) 信号処理装置、制御方法、プログラム及び記憶媒体
JP2018063400A (ja) 音声処理装置及び音声処理プログラム
JP2011035573A (ja) 音信号処理装置および音信号処理方法
JP7226107B2 (ja) 話者方向判定プログラム、話者方向判定方法、及び、話者方向判定装置
JP6314803B2 (ja) 信号処理装置、信号処理方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20161102

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20171013

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20171031

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171122

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180410

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180423

R150 Certificate of patent or registration of utility model

Ref document number: 6337519

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150