JP2013150250A - 音声処理装置及び音声処理方法 - Google Patents

音声処理装置及び音声処理方法 Download PDF

Info

Publication number
JP2013150250A
JP2013150250A JP2012011084A JP2012011084A JP2013150250A JP 2013150250 A JP2013150250 A JP 2013150250A JP 2012011084 A JP2012011084 A JP 2012011084A JP 2012011084 A JP2012011084 A JP 2012011084A JP 2013150250 A JP2013150250 A JP 2013150250A
Authority
JP
Japan
Prior art keywords
frequency
audio signal
reverberation
sound
spectrum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012011084A
Other languages
English (en)
Other versions
JP5923994B2 (ja
Inventor
Takeshi Otani
猛 大谷
Taro Togawa
太郎 外川
Masanao Suzuki
政直 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2012011084A priority Critical patent/JP5923994B2/ja
Priority to US13/707,928 priority patent/US20130188799A1/en
Priority to EP12196924.0A priority patent/EP2624254A1/en
Priority to CN201210587249.8A priority patent/CN103220595B/zh
Publication of JP2013150250A publication Critical patent/JP2013150250A/ja
Priority to US14/822,119 priority patent/US9420370B2/en
Application granted granted Critical
Publication of JP5923994B2 publication Critical patent/JP5923994B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/002Damping circuit arrangements for transducers, e.g. motional feedback circuits
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B3/00Line transmission systems
    • H04B3/02Details
    • H04B3/20Reducing echo effects or singing; Opening or closing transmitting path; Conditioning for transmission in one direction or the other
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech

Abstract

【課題】スピーカ周囲の環境によらずに、スピーカから発する音から生じる残響を抑制可能な音声処理装置を提供する。
【解決手段】音声処理装置(6、61)は、第1の音声信号と、音声出力部8により再生された第1の音声信号を音声入力部4により集音した音を表す第2の音声信号とから周波数ごとの残響特性を推定する残響特性推定部11と、残響特性が大きい周波数ほど、第1の音声信号のその周波数の成分に対する減衰率を大きくするゲイン算出部12と、周波数ごとに決定された減衰率に応じて第1の音声信号を減衰させる補正部13とを有する。
【選択図】図3

Description

本発明は、例えば、スピーカから出力した音声信号による残響を抑制する音声処理装置及び音声処理方法に関する。
音を反射しやすい物体に囲まれた空間に配置されたスピーカから音を発すると、スピーカから直接リスナーに到達する音と、スピーカから発した音がその物体で1回以上反射されてから間接的にリスナーに到達する音がある。この間接的にリスナーに到達する音は残響音と呼ばれる。残響音がリスナーに達するタイミングは、スピーカからの音が直接リスナーに達するタイミングよりも遅いため、残響音が存在すると、直接リスナーに達した音と残響音とが重畳されて、リスナーにとってその重畳された音は聞き取り難くなる。特に近年、防水機能及びハンズフリー機能を備えた携帯電話機が利用可能となっている。このような携帯電話機が浴室といった残響が生じ易い空間で使用されると、その携帯電話機から発した音は残響音のために非常に聞き取り難くなるおそれがある。そこで、スピーカから発する音から生じる残響音を抑制する技術が研究されている(例えば、特許文献1を参照)。
例えば、特許文献1に開示された音響装置は、音響信号から変換されたデジタル信号に対して櫛型フィルタを用いてフィルタリングすることにより、特定の周波数帯域の周波数成分を減衰または無音化する。
特開2009−5274号公報
しかしながら、残響特性は、スピーカの周囲の環境によって変動する。そのため、櫛型フィルタが減衰させる周波数帯域が、残響特性が相対的に大きい周波数帯域と一致しないことがある。このような場合、スピーカから出力しようとする音声信号が櫛型フィルタを用いてフィルタリングされても、残響が効率的に抑制されない。その結果として、スピーカから出力された音の音質が改善されないばかりか、逆にその音質が劣化してしまうおそれがあった。
そこで本明細書は、スピーカ周囲の環境によらずに、スピーカから発する音から生じる残響を抑制可能な音声処理装置を提供することを目的とする。
一つの実施形態によれば、音声処理装置が提供される。この音声処理装置は、第1の音声信号と、音声出力部により再生された第1の音声信号を音声入力部により集音した音を表す第2の音声信号とから周波数ごとの残響特性を推定する残響特性推定部と、残響特性が大きい周波数ほど、第1の音声信号のその周波数の成分に対する減衰率を大きくするゲイン算出部と、周波数ごとに決定された減衰率に応じて第1の音声信号を減衰させる補正部とを有する。
本発明の目的及び利点は、請求項において特に指摘されたエレメント及び組み合わせにより実現され、かつ達成される。
上記の一般的な記述及び下記の詳細な記述の何れも、例示的かつ説明的なものであり、請求項のように、本発明を限定するものではないことを理解されたい。
本明細書に開示された音声処理装置は、スピーカ周囲の環境によらずに、スピーカから発する音から生じる残響を抑制できる。
第1の実施形態による音声処理装置が実装された携帯電話機の概略構成図である。 (a)は、スピーカ8から出力される再生音声信号についての直接音と残響音を表す模式図である。(b)は、マイクロホンにより集音された音に基づいて推定された残響の周波数特性の一例を表す図である。(c)は、スピーカから出力しようとする再生音声信号を補正するためのゲインの周波数特性の一例を示す図である。(d)は、オリジナルの再生音声信号の周波数特性と補正された再生音声信号の周波数特性の一例を示す図である。 第1の実施形態による音声処理装置の概略構成図である。 第1の実施形態による音声処理の動作フローチャートである。 第2の実施形態による音声処理装置の概略構成図である。 ゲインと再生音声信号の音質の劣化との関係を示す模式図である。 第2の実施形態による音声処理の動作フローチャートである。 各実施形態またはその変形例による音声処理装置の各部の機能を実現するコンピュータプログラムが動作することにより、音声処理装置として動作するコンピュータの構成図である。
以下、図を参照しつつ、様々な実施形態による音声処理装置について説明する。
この音声処理装置は、スピーカから出力される再生音をマイクロホンで集音した音に基づいて、音声処理装置が実装された音声再生装置周囲の残響特性を求める。そしてこの音声処理装置は、残響特性が大きい周波数ほど再生音声信号のその周波数成分を減衰させた後にスピーカから出力させることで、残響の抑制を図る。
図1は、第1の実施形態による音声処理装置が実装された携帯電話機の概略構成図である。図1に示されるように、携帯電話機1は、音声再生装置の一例であり、制御部2と、通信部3と、マイクロホン4と、アナログ/デジタル変換器5と、音声処理装置6と、デジタル/アナログ変換器7と、スピーカ8と、記憶部9とを有する。
このうち、制御部2、通信部3及び音声処理装置6は、それぞれ別個の回路として形成される。あるいはこれらの各部は、その各部に対応する回路が集積された一つの集積回路として携帯電話機1に実装されてもよい。さらに、これらの各部は、携帯電話機1が有するプロセッサ上で実行されるコンピュータプログラムにより実現される、機能モジュールであってもよい。
制御部2は、少なくとも一つのプロセッサ、不揮発性のメモリ及び揮発性のメモリ及びその周辺回路を有する。制御部2は、携帯電話機1が有するキーパッドなどの操作部(図示せず)を介した操作により通話が開始されると、携帯電話機1と基地局装置(図示せず)との間における、無線接続、切断などの呼制御処理を携帯電話機1が準拠する通信規格に従って実行する。そして制御部2は、その呼制御処理の結果に応じて、通信部3に対して音声通話またはデータ通信の開始または終了を指示する。さらに、制御部2は、通信部3を介して基地局装置から受信したダウンリンク信号に含まれる符号化された音声信号またはオーディオ信号を取り出し、その音声信号またはオーディオ信号を復号する。そして制御部2は、ハンズフリー機能が利用される場合、すなわち、ユーザがスピーカ8から離れている場合、復号した音声信号またはオーディオ信号を、再生音声信号として音声処理装置6へ出力する。なお、ハンズフリー機能が利用されない場合には、制御部2は、復号した音声信号またはオーディオ信号を直接デジタル/アナログ変換器7へ出力してもよい。
また制御部2は、マイクロホン4を介して入力された入力音声信号を符号化し、その符号化された入力音声信号を含むアップリンク信号を生成する。そして制御部2は、そのアップリンク信号を通信部3へ渡す。なお、音声信号に対する符号化方式としては、例えば、Third Generation Partnership Project(3GPP)により標準化されたAdaptive Multi-Rate-NarrowBand(AMR-NB)方式、またはAdaptive Multi-Rate-WideBand(AMR-WB)方式などが用いられる。
あるいは、制御部2は、操作部を介したユーザの操作に応じて、記憶部9に記憶されている符号化されたオーディオ信号またはビデオ信号を読み出し、そのオーディオ信号またはビデオ信号を復号してもよい。そして制御部2は、復号されたオーディオ信号またはビデオ信号に含まれるオーディオ信号を、再生音声信号として音声処理装置6へ出力してもよい。この場合、オーディオ信号に対する符号化方式としては、例えば、Moving Picture Experts Group (MPEG)において規格が制定されたMPEG-4 Advanced Audio Coding (MPEG-4 AAC)あるいはHigh-Efficiency AAC (HE-AAC)方式などが用いられる。
通信部3は、基地局装置との間で無線通信する。そして通信部3は、基地局装置から無線信号を受信して、その無線信号をベースバンド周波数を持つダウンリンク信号に変換する。そして通信部3は、ダウンリンク信号に対して分離、復調、誤り訂正復号などの受信処理を行った後、そのダウンリンク信号を制御部2へ渡す。また通信部3は、制御部2から受け取ったアップリンク信号に対して誤り訂正符号化、変調及び多重化などの送信処理を行った後、そのアップリンク信号を無線周波数を持つ搬送波に重畳して基地局装置へ送信する。
マイクロホン4は、音声入力部の一例であり、携帯電話機1の周囲の音を集音し、その音の強度に応じたアナログ音声信号を生成する。マイクロホン4にて集音される音には、例えば、音源から直接マイクロホン4に達する直接音だけでなく、音源からの音声が携帯電話機1の周囲の壁などによって反射されてからマイクロホン4に間接的に達する残響音が含まれることがある。そしてマイクロホン4は、そのアナログ音声信号をアナログ/デジタル変換器5へ出力する。また、例えば、ハンズフリー機能を用いてユーザが通話する場合には、スピーカ8から出力される再生音、及びその再生音から生じる残響音も、マイクロホン4にて集音される。
アナログ/デジタル変換器5は、マイクロホン4から受け取ったアナログ音声信号を所定のサンプリングピッチでサンプリングすることによりデジタル化された入力音声信号を生成する。また、アナログ/デジタル変換器5は、増幅器を有し、アナログ音声信号を増幅した後にデジタル化してもよい。
アナログ/デジタル変換器5は、入力音声信号を音声処理装置6及び制御部2へ出力する。
音声処理装置6は、入力音声信号を解析することにより、携帯電話機1の周囲の残響特性を推定する。そして音声処理装置6は、推定した残響特性に応じて、残響特性が大きい周波数ほど再生音声信号のその周波数成分を減衰させることにより、再生音声信号を補正する。そして音声処理装置6は、補正された再生音声信号をデジタル/アナログ変換器7を介してスピーカ8へ出力する。なお、音声処理装置6の詳細については後述する。
デジタル/アナログ変換器7は、音声処理装置6から受け取った再生音声信号をデジタル−アナログ変換することでアナログ化する。なお、デジタル/アナログ変換器7は、増幅器を有し、その増幅器により、アナログ化された再生音声信号を増幅してもよい。そしてデジタル/アナログ変換器7は、アナログ化された再生音声信号をスピーカ8へ出力する。
スピーカ8は、音声出力部の一例であり、デジタル/アナログ変換器7から受け取った再生音声信号を再生する。
記憶部9は、例えば、不揮発性の半導体メモリを有し、携帯電話機1で使用される様々なデータ、例えば、ユーザの個人情報、メールの履歴情報、電話番号、またはオーディオ信号若しくはビデオ信号を記憶する。
以下、音声処理装置6の詳細について説明する。
図2(a)は、スピーカ8から出力される再生音声信号についての直接音と残響音を表す模式図である。図2(a)において、矢印201は、スピーカ8から出力されてユーザ210に直接達する直接音を表す。また矢印202は、スピーカ8から出力された後、スピーカ8の周囲に存在する壁面211などで1回以上反射されてからユーザ210に達する残響音を表す。直接音201の経路長と比較して、残響音202の経路長は非常に長い。そのため、直接音201と残響音202とは互いに異なるタイミングでユーザ210に達するので、残響音があるとユーザ210にとって聞き難い音になることがある。
図2(b)は、マイクロホンにより集音された音に基づいて推定された残響特性の周波数スペクトルの一例を表す図である。図2(c)は、スピーカから出力しようとする再生音声信号を減衰させる率を表すゲインの周波数スペクトルの一例を示す図である。図2(b)において、横軸は周波数を表し、縦軸は残響の大きさを表す。そしてグラフ220は、残響特性の周波数スペクトルを表す。また図2(c)において、横軸は周波数を表し、縦軸はゲインを表す。そしてグラフ230は、ゲインの周波数スペクトルを表す。なお、再生音声信号を減衰させる率が大きいほど、ゲインは小さくなるものとする。図2(b)及び図2(c)に示されるように、音声処理装置6は、推定した残響が大きい周波数ほど、再生音声信号のその周波数成分を減衰させるよう、ゲインを小さくする。例えば、周波数f0にて残響が最大となる場合、音声処理装置6は、周波数f0におけるゲインを最も小さくする。
図2(d)は、オリジナルの再生音声信号から生じる残響音の周波数スペクトルと補正された再生音声信号から生じる残響音の周波数スペクトルの一例を示す図である。図2(d)において、横軸は周波数を表し、縦軸は残響音の大きさを表す。そしてグラフ241はオリジナルの再生音声信号から生じる残響音の周波数スペクトルを表し、一方、グラフ242はグラフ230で示されたゲインを用いて補正された再生音声信号から生じる残響音の周波数スペクトルを表す。図2(d)に示されるように、再生音声信号がスピーカ8から出力される前に、残響が大きい周波数ほど再生音声信号のその周波数成分を予め減衰させることで、スピーカ8から発した再生音から生じる残響も抑制される。
図3は、第1の実施形態による音声処理装置6の概略構成図である。音声処理装置6は、残響特性推定部11と、ゲイン算出部12と、補正部13とを有する。
音声処理装置6が有するこれらの各部は、それぞれ、別個の回路として音声処理装置6に実装されてもよく、あるいはそれらの各部の機能を実現する一つの集積回路であってもよい。
残響特性推定部11は、再生音声信号と、その再生音声信号がスピーカ8により再生され、マイクロホン4により集音されることにより得られた入力音声信号とに基づいて、スピーカ8からマイクロホン4への経路を含む音の経路のインパルス応答を求める。そして残響特性推定部11は、そのインパルス応答に応じて、スピーカ8から発した音に対する携帯電話機1の周囲の残響特性の周波数スペクトルを求める。
本実施形態では、残響特性推定部11は、有限インパルス応答型の適応フィルタを用いて、音の経路のインパルス応答を算出する。インパルス応答を表す適応フィルタの係数を、最小二乗法を用いて更新する場合、インパルス応答は次式に従って算出される。
Figure 2013150250
ここで、y(t)は、再生音声信号を表し、r(t)は、入力音声信号を表す。そしてw(t)は音の経路のインパルス応答を表す。またe(t)は、誤差信号を表す。さらに係数μは、インパルス応答w(t)の更新速度を決めるための収束係数であり、例えば、0.01〜0.1に設定される。演算子'*'は、畳み込み演算を表す。
残響特性推定部11は、インパルス応答w(t)を周波数領域の信号に変換することにより、残響特性の周波数スペクトルW(f)を求める。周波数スペクトルW(f)は、周波数ごとの残響特性を表す。なお、w(t)を周波数領域の信号に変換する時間周波数変換として、残響特性推定部11は、例えば、高速フーリエ変換(Fast Fourier Transform, FFT)または修正離散コサイン変換(Modified Discrete Cosine Transform, MDCT)を用いることができる。
また、マイクロホン4から出力された再生音がスピーカ8へ直接達する時間よりも、その再生音から生じた残響音がスピーカ8へ達する時間の方が遅い。そこで残響特性推定部11は、インパルス応答w(t)のうち、所定の時間t1以降の成分w1(t)を周波数領域の信号に変換することにより残響特性の周波数スペクトルを算出してもよい。なお、時間t1は、スピーカ8から出力された再生音から生じる残響音がマイクロホン4に達する時間、例えば、50msecに設定される。
残響特性推定部11は、インパルス応答w(t)を更新する度に、残響特性の周波数スペクトルW(f)も更新する。そして残響特性推定部11は、残響特性の周波数スペクトルW(f)をゲイン算出部12へ出力する。
ゲイン算出部12は、再生音声信号に対する周波数ごとの減衰率を、残響特性が大きい周波数ほど大きくする。本実施形態では、再生音声信号に対する周波数ごとの減衰率は、再生音声信号の周波数スペクトルに乗じるゲインにより表される。したがって、減衰率が大きいほど、ゲインは小さくなる。したがって、ゲイン算出部12は、残響特性の周波数スペクトルW(f)に基づいて、残響が大きい周波数ほど、その周波数についてのゲインを小さくする。
例えば、ゲイン算出部12は、次式に従ってゲインを算出する。
Figure 2013150250

なお、fは周波数であり、G(f)は、周波数ごとに定められるゲインである。|W(f)|2は、残響のパワースペクトルである。
さらに、ゲイン算出部12は、ゲインG(f)を、人の聴覚特性に合わせるために、例えば、次式に従って補正してもよい。
Figure 2013150250
ここでA(f)は、人の聴覚特性を表すA特性である。またG'(f)は、A特性に基づいて補正されたゲインである。
ゲイン算出部12は、補正されたゲインG'(f)を補正部13へ出力する。
補正部13は、周波数ごとに定められた減衰率に応じて、再生音声信号をスピーカ8へ出力する前に減衰させる。本実施形態では、補正部13は、ゲイン算出部12から受け取ったゲインG'(f)に基づいて、残響が大きい周波数ほど再生音声信号のその周波数成分を減衰させる。
そこで、補正部13は、所定長を持つフレームごとに、制御部2から受け取った再生音声信号を周波数領域の再生音スペクトルに変換する。なお、フレームの長さは、例えば、10msec〜100msecに設定される。また、再生音スペクトルを算出するために、補正部13は、例えば、FFTあるいはMDCTを用いることができる。
次に、補正部13は、次式のように、再生音スペクトルにゲインG'(f)を乗じることにより、再生音スペクトルを補正する。
Figure 2013150250
ここで、X(n,f)は、n番目のフレームについての再生音スペクトルであり、Y(n,f)は、補正された再生音スペクトルである。(4)式から明らかなように、ゲインG'(f)が小さいほど、補正された再生音スペクトルY(n,f)も小さくなる。そしてゲインG'(f)は、残響のパワースペクトルが大きいほど小さくなるので、結果として、残響が大きい周波数ほど、再生音スペクトルのその周波数成分も減衰される。
補正部13は、補正された再生音スペクトルY(n,f)を、再生音スペクトルを算出する際に用いた時間周波数変換の逆変換を用いて時間領域の信号に変換することにより、補正された再生音声信号を得る。
そして補正部13は、その補正された再生音声信号を携帯電話機1のデジタル/アナログ変換器7を介してスピーカ8へ出力する。
図4は、音声処理装置6により実行される音声処理の動作フローチャートである。
残響特性推定部11は、再生音声信号と、スピーカ8で再生された再生音声信号をマイクロホン4により集音して得られた入力音声信号とから、適応フィルタを用いてスピーカ8からマイクロホン4の音の経路のインパルス応答w(t)を求める(ステップS101)。残響特性推定部11は、インパルス応答w(t)を周波数領域の信号に変換することにより、残響特性の周波数スペクトルW(f)を算出する(ステップS102)。残響特性推定部11は、残響特性の周波数スペクトルW(f)をゲイン算出部12へ出力する。
ゲイン算出部12は、残響のパワースペクトル|W(f)|2の逆数をゲインG(f)として求める(ステップS103)。さらにゲイン算出部12は、そのゲインG(f)を人の聴覚特性に応じて補正することで補正されたゲインG'(f)を算出する(ステップS104)。ゲイン算出部12は、補正されたゲインG'(f)を補正部13へ出力する。
補正部13は、再生音声信号を周波数領域の信号に変換することで再生音スペクトルを求め、その再生音スペクトルにゲインG'(f)を乗じることで、残響が大きい周波数ほど再生音スペクトルのその周波数成分を減衰させる(ステップS105)。そして補正部13は、補正された再生音スペクトルを時間領域の信号に変換することで、補正された再生音声信号を算出する(ステップS106)。そして音声処理装置6は、その再生音声信号をデジタル/アナログ変換器7を介してスピーカ8へ出力し、音声信号処理を終了する。
以上に説明してきたように、この音声処理装置は、スピーカから発してマイクロホンにより集音された音に基づいて、スピーカ周囲の残響特性を推定し、その残響特性が大きい周波数ほど、再生音声信号のその周波数成分を減衰させる。そのため、この音声処理装置は、スピーカの周囲の環境によらず、スピーカからの再生音から生じる残響音を適切に抑制できる。
次に、第2の実施形態による音声処理装置について説明する。第2の実施形態による音声処理装置は、その音声処理装置が実装された音声再生装置の周囲のノイズのパワーと残響音のパワーとの比較結果、及び、残響量と歪み量の比較結果に応じてゲインを補正する。なお、第2の実施形態による音声処理装置も、図1に示された携帯電話機1に実装されるものとして、以下に説明する。
図5は、第2の実施形態による音声処理装置61の概略構成図である。音声処理装置61は、残響特性推定部11と、ゲイン算出部12と、補正部13と、ノイズスペクトル推定部14とを有する。
残響特性推定部11は、第1の実施形態と同様に、再生音声信号と、スピーカ8により再生された再生音声信号をマイクロホン4により集音することで得られた入力音声信号とに基づいて、携帯電話機1の周囲の周波数ごとの残響特性を求める。
ただし、本実施形態では、残響特性推定部11は、再生音声信号及び入力音声信号を周波数領域の信号に変換してから、残響特性を表す伝達関数を求める。さらに残響特性推定部11は、その伝達関数に従って、スピーカ8により再生された再生音から生じた残響音のスペクトルを求める。
そこで残響特性推定部11は、再生音声信号及び入力音声信号を、それぞれ、例えば、FFTまたはMDCTにより、所定長を持つフレーム単位で周波数領域の信号に変換する。なお、フレームの長さは、例えば、10msec〜100msecに設定される。そして残響特性推定部11は、有限インパルス応答型の適応フィルタを用いて伝達関数を算出する。伝達関数を表す適応フィルタの係数を、最小二乗法を用いて更新する場合、その伝達関数は次式に従って算出される。
Figure 2013150250
ここで、Y(n,f)は、フレームnにおける再生音声信号の周波数スペクトルを表し、R(n,f)は、フレームnにおける入力音声信号の周波数スペクトルを表す。そしてW(n,f)はフレームnについて算出された伝達関数である。またE(n,f)は、フレームnにおける誤差信号の周波数スペクトルを表す。さらに係数μは、伝達関数の更新速度を決めるための収束係数であり、例えば、0.01〜0.1に設定される。D1及びD2は、それぞれ、畳み込み演算に利用される期間に含まれる最初のフレームの位置及び最後のフレームの位置を表す。
さらに、残響特性推定部11は、次式に従って、再生音声信号の周波数スペクトルを残響特性の伝達関数で加重加算することにより、残響音の周波数スペクトルを表す残響スペクトルを推定する。
Figure 2013150250
ただし、Rv(n,f)は、フレームnにおける残響スペクトルである。残響特性推定部11は、フレームごとに、残響の伝達関数W(n,f)及び残響スペクトルRv(n,f)をゲイン算出部12へ出力する。
ノイズスペクトル推定部14は、音声処理装置61が実装された携帯電話機の周囲におけるノイズのスペクトルを推定する。本実施形態では、ノイズスペクトル推定部14は、入力音声信号に基づいて定常雑音モデルを推定することにより、入力音声信号に含まれるノイズのスペクトルを推定する。
一般に、マイクロホン4からノイズの音源までの距離は、マイクロホン4からスピーカ8までの距離よりも遠い。そのため、ノイズのパワーは、スピーカ8から出力された再生音のパワーよりも小さい。そこでノイズスペクトル推定部14は、音声処理装置61に入力された入力音声信号についてのパワースペクトルが小さいフレームについて、各周波数帯域ごとのパワーの平均値を求めることにより、ノイズのスペクトルを推定する。
具体的には、ノイズスペクトル推定部14は、入力音声信号をフレームごとに周波数領域の信号に変換して得られた入力音声の周波数スペクトルに基づいて、パワースペクトルの平均値pを次式に従って算出する。
Figure 2013150250
ここでFは、周波数帯域の総数である。またR(n,f)は、フレームnにおける入力音声信号の周波数スペクトルである。
次に、ノイズスペクトル推定部14は、最新のフレームのパワースペクトルの平均値pと、ノイズ成分のパワーの上限に相当する閾値Thrとを比較する。そしてノイズスペクトル推定部14は、平均値pが閾値Thr未満である場合、各周波数帯域について次式に従ってパワースペクトルを時間方向に平均することにより、最新のフレームについての推定ノイズスペクトルを算出する。
Figure 2013150250
ただし、N(n+1,f)及びN(n,f)は、それぞれ、フレーム(n+1)、nにおける推定ノイズスペクトルである。N(n,f)は、(8)式の計算が行われる際に、例えば、ノイズスペクトル推定部14が有するバッファから読み込まれる。また、係数αは忘却係数であり、例えば、0.01〜0.1の何れかの値に設定される。一方、平均値pが閾値Thr以上である場合、最新のフレームには、ノイズ以外の成分が含まれると推定されるので、ノイズスペクトル推定部14は推定ノイズスペクトルを更新しない。すなわち、N(n+1,f)=N(n,f)となる。
なお、ノイズスペクトル推定部14は、パワースペクトルの平均値pを算出する代わりに、全ての周波数帯域のパワースペクトルのうちの最大値を求め、その最大値を閾値Thrと比較してもよい。
また、特に入力音声信号に含まれるノイズが白色ノイズである場合、フレーム間でのノイズのパワースペクトルの相関性が無い。そこでノイズスペクトル推定部14は、最新のフレームと直前のフレーム間における、全ての周波数帯域にわたるパワースペクトルの相互相関値が所定の閾値以下である場合に限り、推定ノイズスペクトルを更新してもよい。なお、所定の閾値は、例えば、0.1とすることができる。
ノイズスペクトル推定部14は、フレームごとに、推定したノイズスペクトルをゲイン算出部12に出力するとともに、ノイズスペクトル推定部14が有するバッファに記憶する。
ゲイン算出部12は、第1の実施形態と同様に、残響が大きい周波数ほど、再生音声信号のその周波数成分を減衰させるように、周波数ごとのゲインを算出する。本実施形態では、ゲイン算出部12は、残響特性のスペクトルが大きい周波数ほどゲインが小さくなるように、次式に従ってゲインを算出する。
Figure 2013150250
G(n,f)は、フレームnにおける周波数fのゲインである。またMは、残響特性の周波数スペクトルの平均化に用いられるフレーム数であり、例えば、10〜20に設定される。
ここで、ゲインが小さいほど、再生音声信号にゲインを乗じることにより生じる再生音の歪み量が大きくなるので、その歪み量に起因して再生音声信号の音質も劣化する。
図6は、ゲインと再生音声信号の音質の劣化との関係を示す模式図である。図6において、横軸はゲインを表し、縦軸は音質の劣化度合いを表す。グラフ600は、再生音声信号にゲインを乗じることにより生じる歪み量に起因する再生音声信号の音質の劣化度合いとゲインとの関係を表す。一方、グラフ610は、再生音声信号にゲインを乗じることにより抑制される残響に起因する再生音声信号の音質の劣化度合いとゲインとの関係を表す。グラフ600に示されるように、ゲインが大きくなるにつれて、すなわち、再生音声信号に乗じる減衰率が小さくなるほど、歪み量も小さくなるので、歪み量に起因する音質の劣化度合いも低下する。一方、グラフ610に示されるように、ゲインが大きくなるほど、残響も抑制されなくなるので、残響に起因する音質の劣化度合いは大きくなる。そこで、例えば、グラフ600とグラフ610が交差するときのゲインG0を用いれば、歪み量に起因する音質劣化と残響に起因する音質劣化とのバランスがとれる。
そこで本実施形態では、ゲイン算出部12は、再生音の歪み量が再生音声信号に対する残響音の大きさの比を表す残響量よりも大きいほど、再生音声信号の減衰率を小さくするようゲインを補正して、歪み量による劣化度と残響量による劣化度の総和を小さくする。
そのために、ゲイン算出部12は、次式に従って、再生音声信号のスペクトルの和に対する残響音のスペクトルの和の比を、現在のフレームnの直前の所定数のフレームのそれぞれについて求め、その比を合計することによりフレームnにおける残響量を算出する。
Figure 2013150250
RR(n)は、フレームnにおける残響量である。またLは、残響量の算出に用いられるフレーム数であり、例えば、10〜20に設定される。
さらにゲイン算出部12は、次式に従って、現在のフレームnの直前の所定数のフレームのそれぞれにおける各周波数のゲインと1との差の総和を合計し、その合計をフレームnにおける歪み量として算出する。
Figure 2013150250
D(n)は、フレームnにおける歪み量である。またLは、歪み量の算出に用いられるフレーム数であり、残響量の算出に用いられるフレーム数と等しいことが好ましい。
歪み量が残響量よりも大きい場合には、ゲインを再生音声信号に乗じることによる再生音声の歪みの方が、残響よりも再生音声の劣化に対する影響が大きいと推定される。逆に、残響量が歪み量よりも大きい場合には、残響の方が、ゲインを乗じることによる再生音声の歪みよりも再生音声の劣化に対する影響が大きいと推定される。そこでゲイン算出部12は、歪み量に対する残響量の比(RR(n)/D(n))が大きいほど、再生音声信号をより減衰させて残響がより抑制されるように、ゲインを小さくする。逆に、ゲイン算出部12は、歪み量に対する残響量の比が小さいほど、再生音声信号の減衰量が小さくなるように、ゲインを大きくする。例えば、ゲイン算出部12は、次式に従って、ゲインを補正する。
Figure 2013150250
ただし、G(n,f)は、フレームnにおける、周波数fについての補正前のゲインであり、G'(n,f)は、補正後のフレームnにおける周波数fについてのゲインである。
また、音声処理装置61が実装された携帯電話機1の周囲のノイズの音量が大きいほど、残響音は聞こえ難くなる。そして残響が聞こえないなら、残響を抑制しても再生音の音質は殆ど改善されず、逆に残響の抑制による再生音の歪み量だけ再生音声信号の音質が劣化する。そこで、ノイズのスペクトルが大きいほど、ゲイン算出部12は、再生音声信号の減衰量を小さくするように、ゲインを補正する。ゲイン算出部12は、例えば次式に従って、ゲインを補正する。
Figure 2013150250
G"(n,f)は、ノイズのスペクトルに基づいて補正された後のフレームnにおける周波数fについてのゲインである。
ゲイン算出部12は、補正されたゲインG"(n,f)を補正部13へ出力する。
補正部13は、第1の実施形態による補正部13と同様の処理を実行することにより、再生音声信号を補正する。ただし補正部13は、(4)式において、G'(f)の代わりにゲイン算出部12から受け取ったG"(n,f)を再生音声信号のスペクトルX(n,f)に乗じる。
図7は、第2の実施形態による音声処理装置61により実行される音声処理の動作フローチャートである。
残響特性推定部11は、再生音声信号と、スピーカ8で再生された再生音声信号をマイクロホン4により集音して得られた入力音声信号とから、適応フィルタを用いて残響特性を表す伝達関数W(n,f)を求める(ステップS201)。さらに残響特性推定部11は、伝達関数W(n,f)を再生音声信号のスペクトルY(n,f)に乗じることにより残響スペクトルRv(n,f)を算出する(ステップS202)。残響特性推定部11は、伝達関数W(n,f)及び残響スペクトルRv(n,f)を、フレームごとにゲイン算出部12へ出力する。
またノイズスペクトル推定部14は、入力音声信号に基づいて、フレームごとにノイズのスペクトルを推定する(ステップS203)。そしてノイズスペクトル推定部14は、フレームごとに、ノイズのスペクトルをゲイン算出部12へ出力する。
ゲイン算出部12は、所定数のフレームの伝達関数W(n,f)の周波数ごとの平均値の逆数をゲインG(n,f)として求める(ステップS204)。さらにゲイン算出部12は、そのゲインG(n,f)を、直前の所定数のフレームについてのゲインによる再生音声信号の歪み量と残響量との比に従って補正する(ステップS205)。ゲイン算出部12は、歪み量と残響量との比によって補正されたゲインを、再生音声信号のスペクトルとノイズのスペクトルとの信号対雑音比(Signal to Noise Ratio, SNR)に従ってさらに補正する(ステップS206)。そしてゲイン算出部12は、補正されたゲインG"(n,f)を補正部13へ出力する。
補正部13は、再生音声信号を周波数領域の信号に変換することで再生音スペクトルを求め、その再生音スペクトルにゲインG"(n,f)を乗じることで、推定された残響が大きい周波数ほど再生音スペクトルのその周波数成分を減衰させる(ステップS207)。そして補正部13は、補正された再生音スペクトルを時間領域の信号に変換することで、補正された再生音声信号を算出する(ステップS208)。そして音声処理装置61は、その再生音声信号をデジタル/アナログ変換器7を介してスピーカ8へ出力し、音声信号処理を終了する。なお、音声処理装置61は、ステップS205の処理とステップS206の処理の順序を入れ替えてもよい。
以上に説明してきたように、第2の実施形態による音声処理装置は、再生音の歪み量と残響量の比に応じてゲインを補正する。そのため、この音声処理装置は、ゲインを乗じることにより生じる歪みによる再生音声信号の劣化と残響音による再生音声信号の劣化との総和が小さくなるように、再生音声信号を補正できる。またこの音声処理装置は、ノイズが大きく、残響音が聞き取り難い周波数については再生音声信号の減衰量を小さくするので、残響を抑制しつつ、再生音声の劣化を抑制できる。
なお、変形例によれば、ゲイン算出部12は、ノイズのスペクトルに対する再生音声信号のスペクトルのSNRが所定の閾値より大きい周波数についてのみ、再生音声信号を減衰させ、その他の周波数については再生音声信号を減衰させないように、ゲインを決定してもよい。この場合には、ゲインは、例えば次式のように決定される。
Figure 2013150250
ただしThSNRは、閾値であり、例えば、1〜1.2に設定される。
また他の変形例によれば、ゲイン算出部12は、歪み量と残響量の比に基づいてのみ、ゲインを補正してもよい。この場合には、ゲイン算出部12は、(12)式に従って算出されたゲインG'(n,f)を補正部13へ出力する。
さらに他の変形例によれば、ゲイン算出部12は、歪み量と残響量の比を、ゲインを補正するために利用せず、ノイズスペクトルと再生音声信号のスペクトルとのSNRに基づいてのみ、ゲインを補正してもよい。この場合には、ゲイン算出部12は、(9)式に従って算出したゲインG(n,f)で、(13)式または(14)式の右辺のG'(n,f)を置換することにより算出されるゲインG"(n,f)を補正部13へ出力すればよい。
さらに他の変形例によれば、ゲイン算出部12は、歪み量D(n)に起因する再生音声信号の音質劣化の度合いと残響量RR(n)に起因する再生音声信号の音質劣化の度合いとの差が小さくなるように、ゲインを補正してもよい。
この場合、ゲイン算出部12は、歪み量D(n)に起因する再生音声信号の音質劣化の度合いDegsdを、予め定められた関係式に従って推定してもよい。同様に、ゲイン算出部12は、残響量RR(n)に起因する再生音声信号の音質劣化の度合いDegrevを、予め定められた関係式に従って推定してもよい。これらの関係式を表すパラメータ、あるいは、歪み量D(n)と音質劣化度Degsdとの関係を表す参照テーブル及び残響量RR(n)と音質劣化度Degrevとの関係を表す参照テーブルは、例えば、ゲイン算出部12が有する不揮発性の半導体メモリに予め記憶される。そしてゲイン算出部12は、これらの参照テーブルを参照することにより、歪み量D(n)及び残響量RR(n)に対応する音質劣化度Degsd、Degrevを求める。
なお、音質劣化の度合いは、例えば、主観的あるいは客観的な音質の評価方法に基づいて求めた、各歪み量及び各残響量の音質を比較することにより予め決定される。例えば、客観的な音質の評価方法として、International Telecommunication Union Telecommunication Standardization Sector(ITU-T)により標準化されているpercceptual evaluation of speech quality(PESQ)またはperceived evaluation of audio quality(PEAQ)が利用できる。
この変形例では、ゲイン算出部12は、(12)式の代わりに、次式に従ってゲインを補正できる。
Figure 2013150250
なお、Thdegは閾値であり、例えば、1.4〜1.6に設定される。
なお、上記の各実施形態またはその変形例による音声処理装置は、各種のオーディオ機器、またはパーソナルコンピュータなど、マイクロホン及びスピーカと接続可能な様々な音声再生装置に実装可能である。
さらに、上記の各実施形態またはその変形例による音声処理装置の各部が有する各機能をコンピュータに実現させるコンピュータプログラムは、磁気記録媒体あるいは光記録媒体といった、コンピュータによって読み取り可能な媒体に記録された形で提供されてもよい。
図8は、上記の実施形態またはその変形例による音声処理装置の各部の機能を実現するコンピュータプログラムが動作することにより、音声処理装置として動作するコンピュータの構成図である。
コンピュータ100は、ユーザインターフェース部101と、オーディオインターフェース部102と、通信インターフェース部103と、記憶部104と、記憶媒体アクセス装置105と、プロセッサ106とを有する。プロセッサ106は、ユーザインターフェース部101、オーディオインターフェース部102、通信インターフェース部103、記憶部104及び記憶媒体アクセス装置105と、例えば、バスを介して接続される。
ユーザインターフェース部101は、例えば、キーボードとマウスなどの入力装置と、液晶ディスプレイといった表示装置とを有する。または、ユーザインターフェース部101は、タッチパネルディスプレイといった、入力装置と表示装置とが一体化された装置を有してもよい。そしてユーザインターフェース部101は、例えば、ユーザの操作に応じて、音声処理を開始させる操作信号をプロセッサ106へ出力する。
オーディオインターフェース部102は、コンピュータ100を、マイクロホン及びスピーカ(図示せず)と接続するためのインターフェース回路を有する。そしてオーディオインターフェース部102は、プロセッサ6から受け取った、残響を抑制すべく補正された際瀬員音声信号をスピーカへ出力する。あるいは、オーディオインターフェース部102は、マイクロホンから受け取った入力音声信号をプロセッサ106へ渡す。
通信インターフェース部103は、イーサネット(登録商標)などの通信規格に従った通信ネットワークに接続するための通信インターフェース及びその制御回路を有する。そして通信インターフェース部103は、通信ネットワークに接続された他の機器から、再生音声信号を取得し、プロセッサ106へ渡す。また通信インターフェース部103は、プロセッサ106から受け取った、入力音声信号を通信ネットワークを介して他の機器へ出力してもよい。
記憶部104は、例えば、読み書き可能な半導体メモリと読み出し専用の半導体メモリとを有する。そして記憶部104は、プロセッサ106上で実行される、音声処理を実行するためのコンピュータプログラム、及び音声処理で利用される様々なデータを記憶する。
記憶媒体アクセス装置105は、例えば、磁気ディスク、半導体メモリカード及び光記憶媒体といった記憶媒体107にアクセスする装置である。記憶媒体アクセス装置105は、例えば、記憶媒体107に記憶された、プロセッサ106上で実行される音声処理用のコンピュータプログラムを読み込み、プロセッサ106に渡す。
プロセッサ106は、上記の各実施形態の何れかまたは変形例による音声処理用コンピュータプログラムを実行することにより、スピーカを介して出力しようとする再生音声信号を、残響が大きい周波数ほど減衰させる。そしてプロセッサ106は、補正された音声信号をオーディオインターフェース部102を介してスピーカへ出力する。
ここに挙げられた全ての例及び特定の用語は、読者が、本発明及び当該技術の促進に対する本発明者により寄与された概念を理解することを助ける、教示的な目的において意図されたものであり、本発明の優位性及び劣等性を示すことに関する、本明細書の如何なる例の構成、そのような特定の挙げられた例及び条件に限定しないように解釈されるべきものである。本発明の実施形態は詳細に説明されているが、本発明の精神及び範囲から外れることなく、様々な変更、置換及び修正をこれに加えることが可能であることを理解されたい。
以上説明した実施形態及びその変形例に関し、更に以下の付記を開示する。
(付記1)
第1の音声信号と、音声出力部により再生された該第1の音声信号を音声入力部により集音した音を表す第2の音声信号とから周波数ごとの残響特性を推定する残響特性推定部と、
前記残響特性が大きい周波数ほど、前記第1の音声信号の当該周波数の成分に対する減衰率を大きくするゲイン算出部と、
周波数ごとに前記減衰率に応じて前記第1の音声信号を減衰させる補正部と、
を有する音声処理装置。
(付記2)
前記ゲイン算出部は、前記減衰率を乗じることによる前記第1の音声信号の歪み量と、前記残響特性の大きさを示す残響量の比を算出し、当該比が大きいほど、前記減衰率を大きくする、付記1に記載の音声処理装置。
(付記3)
前記ゲイン算出部は、前記歪み量による前記第1の音声信号の音質の第1の劣化度と、前記残響量による前記第1の音声信号の音質の第2の劣化度とを推定し、前記第1の劣化度と前記第2の劣化度との総和を小さくするように前記残響特性に基づいて求められた前記減衰率を補正する、付記2に記載の音声処理装置。
(付記4)
前記ゲイン算出部は、前記第1の劣化度が前記第2の劣化度よりも大きい場合、前記残響特性に基づいて求められた前記減衰率を低下させ、一方、前記第1の劣化度が前記第2の劣化度よりも小さい場合、前記残響特性に基づいて求められた前記減衰率を増加させる、付記3に記載の音声処理装置。
(付記5)
前記第2の音声信号に含まれる、ノイズ成分の周波数スペクトルを推定するノイズスペクトル推定部をさらに有し、
前記ゲイン算出部は、前記ノイズ成分が大きい周波数ほど、前記残響特性に基づいて求められた前記減衰率を低下させる、付記1〜4の何れか一項に記載の音声処理装置。
(付記6)
前記第2の音声信号に含まれる、ノイズ成分の周波数スペクトルを推定するノイズスペクトル推定部をさらに有し、
前記ゲイン算出部は、前記第1の音声信号のスペクトルが前記ノイズ成分のスペクトルよりも大きい周波数における前記減衰率を、前記第1の音声信号のスペクトルが前記ノイズ成分のスペクトル以下の周波数における前記減衰率よりも大きくする、付記1〜4の何れか一項に記載の音声処理装置。
(付記7)
第1の音声信号と、音声出力部により再生された該第1の音声信号を音声入力部により集音した音を表す第2の音声信号とから周波数ごとの残響特性を推定し、
前記残響特性が大きい周波数ほど、前記第1の音声信号の当該周波数の成分に対する減衰率を大きくし、
周波数ごとに前記減衰率に応じて前記第1の音声信号を減衰させる、
ことを含む音声処理方法。
(付記8)
第1の音声信号と、音声出力部により再生された該第1の音声信号を音声入力部により集音した音を表す第2の音声信号とから周波数ごとの残響特性を推定し、
前記残響特性が大きい周波数ほど、前記第1の音声信号の当該周波数の成分に対する減衰率を大きくし、
周波数ごとに前記減衰率に応じて前記第1の音声信号を減衰させる、
ことをコンピュータに実行させる音声処理用コンピュータプログラム。
1 携帯電話機
2 制御部
3 通信部
4 マイクロホン
5 アナログ/デジタル変換器
6、61 音声処理装置
7 デジタル/アナログ変換器
8 スピーカ
9 記憶部
11 残響特性推定部
12 ゲイン算出部
13 補正部
14 ノイズスペクトル推定部
100 コンピュータ
101 ユーザインターフェース部
102 オーディオインターフェース部
103 通信インターフェース部
104 記憶部
105 記憶媒体アクセス装置
106 プロセッサ
107 記憶媒体

Claims (6)

  1. 第1の音声信号と、音声出力部により再生された該第1の音声信号を音声入力部により集音した音を表す第2の音声信号とから周波数ごとの残響特性を推定する残響特性推定部と、
    前記残響特性が大きい周波数ほど、前記第1の音声信号の当該周波数の成分に対する減衰率を大きくするゲイン算出部と、
    周波数ごとに前記減衰率に応じて前記第1の音声信号を減衰させる補正部と、
    を有する音声処理装置。
  2. 前記ゲイン算出部は、前記減衰率を乗じることによる前記第1の音声信号の歪み量と、前記残響特性の大きさを示す残響量の比を算出し、当該比が大きいほど、前記減衰率を大きくする、請求項1に記載の音声処理装置。
  3. 前記ゲイン算出部は、前記歪み量による前記第1の音声信号の音質の第1の劣化度と、前記残響量による前記第1の音声信号の音質の第2の劣化度とを推定し、前記第1の劣化度と前記第2の劣化度との総和を小さくするように前記残響特性に基づいて求められた前記減衰率を補正する、請求項2に記載の音声処理装置。
  4. 前記第2の音声信号に含まれる、ノイズ成分の周波数スペクトルを推定するノイズスペクトル推定部をさらに有し、
    前記ゲイン算出部は、前記ノイズ成分が大きい周波数ほど、前記残響特性に基づいて求められた前記減衰率を低下させる、請求項1〜3の何れか一項に記載の音声処理装置。
  5. 前記第2の音声信号に含まれる、ノイズ成分の周波数スペクトルを推定するノイズスペクトル推定部をさらに有し、
    前記ゲイン算出部は、前記第1の音声信号のスペクトルが前記ノイズ成分のスペクトルよりも大きい周波数における前記減衰率を、前記第1の音声信号のスペクトルが前記ノイズ成分のスペクトル以下の周波数における前記減衰率よりも大きくする、請求項1〜3の何れか一項に記載の音声処理装置。
  6. 第1の音声信号と、音声出力部により再生された該第1の音声信号を音声入力部により集音した音を表す第2の音声信号とから周波数ごとの残響特性を推定し、
    前記残響特性が大きい周波数ほど、前記第1の音声信号の当該周波数の成分に対する減衰率を大きくし、
    周波数ごとに前記減衰率に応じて前記第1の音声信号を減衰させる、
    ことを含む音声処理方法。
JP2012011084A 2012-01-23 2012-01-23 音声処理装置及び音声処理方法 Expired - Fee Related JP5923994B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2012011084A JP5923994B2 (ja) 2012-01-23 2012-01-23 音声処理装置及び音声処理方法
US13/707,928 US20130188799A1 (en) 2012-01-23 2012-12-07 Audio processing device and audio processing method
EP12196924.0A EP2624254A1 (en) 2012-01-23 2012-12-13 Audio processing device and audio processing method for de-reverberation
CN201210587249.8A CN103220595B (zh) 2012-01-23 2012-12-28 音频处理装置和音频处理方法
US14/822,119 US9420370B2 (en) 2012-01-23 2015-08-10 Audio processing device and audio processing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012011084A JP5923994B2 (ja) 2012-01-23 2012-01-23 音声処理装置及び音声処理方法

Publications (2)

Publication Number Publication Date
JP2013150250A true JP2013150250A (ja) 2013-08-01
JP5923994B2 JP5923994B2 (ja) 2016-05-25

Family

ID=47563033

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012011084A Expired - Fee Related JP5923994B2 (ja) 2012-01-23 2012-01-23 音声処理装置及び音声処理方法

Country Status (4)

Country Link
US (2) US20130188799A1 (ja)
EP (1) EP2624254A1 (ja)
JP (1) JP5923994B2 (ja)
CN (1) CN103220595B (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9807215B2 (en) 2014-04-14 2017-10-31 Yamaha Corporation Sound emission and collection device, and sound emission and collection method
JP2020017901A (ja) * 2018-07-27 2020-01-30 株式会社Jvcケンウッド 無線通信装置、音声信号制御方法、およびプログラム

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE13750900T1 (de) * 2013-01-08 2016-02-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verbesserung der Sprachverständlichkeit bei Hintergrundrauschen durch SII-abhängige Amplifikation und Kompression
CN103987067B (zh) * 2014-03-21 2017-05-10 北京理工大学 一种基于数据挖掘的3g语音业务质量评估方法
CN105897997B (zh) * 2014-12-18 2019-03-08 北京千橡网景科技发展有限公司 用于调整音频增益的方法和设备
JP6547451B2 (ja) * 2015-06-26 2019-07-24 富士通株式会社 雑音抑圧装置、雑音抑圧方法、及び雑音抑圧プログラム
CN106098081B (zh) * 2016-06-01 2020-11-27 腾讯科技(深圳)有限公司 声音文件的音质识别方法及装置
JP6759927B2 (ja) * 2016-09-23 2020-09-23 富士通株式会社 発話評価装置、発話評価方法、および発話評価プログラム
WO2018163328A1 (ja) * 2017-03-08 2018-09-13 三菱電機株式会社 音響信号処理装置、音響信号処理方法、及びハンズフリー通話装置
CN107038013B (zh) * 2017-04-28 2020-08-14 Oppo广东移动通信有限公司 信号处理装置、移动终端及音频播放设备
CN110870211B (zh) * 2017-07-14 2021-10-15 杜比实验室特许公司 用于检测且补偿不准确回波预测的方法和系统
BR112020020279A2 (pt) 2018-04-09 2021-01-12 Sony Corporation Aparelho e método de processamento de informação, e, programa.
US10721580B1 (en) * 2018-08-01 2020-07-21 Facebook Technologies, Llc Subband-based audio calibration
US10937418B1 (en) * 2019-01-04 2021-03-02 Amazon Technologies, Inc. Echo cancellation by acoustic playback estimation
CN111179958A (zh) * 2020-01-08 2020-05-19 厦门亿联网络技术股份有限公司 一种语音晚期混响抑制方法及系统
EP4305621A1 (en) * 2021-03-11 2024-01-17 Dolby Laboratories Licensing Corporation Improving perceptual quality of dereverberation

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003517751A (ja) * 1999-05-20 2003-05-27 シグナルワークス, インコーポレイテッド スペクトル分析による近端話者検出のためのシステムと方法
JP2003224898A (ja) * 2002-01-29 2003-08-08 Matsushita Electric Ind Co Ltd 拡声明瞭度改善装置および拡声明瞭度改善方法
JP2004274234A (ja) * 2003-03-06 2004-09-30 Nippon Telegr & Teleph Corp <Ntt> 音響信号の残響除去方法、装置、及び音響信号の残響除去プログラム、そのプログラムを記録した記録媒体
JP2006157920A (ja) * 2004-12-01 2006-06-15 Herman Becker Automotive Systems-Wavemakers Inc 残響評価および抑制システム
JP2008058900A (ja) * 2006-09-04 2008-03-13 Internatl Business Mach Corp <Ibm> 残響除去における低コストのフィルタ係数決定法
WO2009093416A1 (ja) * 2008-01-21 2009-07-30 Panasonic Corporation 音声信号処理装置および方法
US20090281804A1 (en) * 2008-05-08 2009-11-12 Toyota Jidosha Kabushiki Kaisha Processing unit, speech recognition apparatus, speech recognition system, speech recognition method, storage medium storing speech recognition program
JP2011164335A (ja) * 2010-02-09 2011-08-25 Nippon Telegr & Teleph Corp <Ntt> 残響予測フィルタ算出装置、残響抑圧装置、残響予測フィルタ算出方法、残響抑圧方法、プログラム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1885154B1 (en) * 2006-08-01 2013-07-03 Nuance Communications, Inc. Dereverberation of microphone signals
JP2008197284A (ja) * 2007-02-09 2008-08-28 Sharp Corp フィルタ係数算出装置、フィルタ係数算出方法、制御プログラム、コンピュータ読み取り可能な記録媒体、および、音声信号処理装置
JP2009005274A (ja) 2007-06-25 2009-01-08 National Institute Of Advanced Industrial & Technology 音響装置及びハウリング抑制方法
US8831934B2 (en) * 2009-10-27 2014-09-09 Phonak Ag Speech enhancement method and system
JP5699844B2 (ja) * 2011-07-28 2015-04-15 富士通株式会社 残響抑制装置および残響抑制方法並びに残響抑制プログラム
JP5751110B2 (ja) * 2011-09-22 2015-07-22 富士通株式会社 残響抑制装置および残響抑制方法並びに残響抑制プログラム

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003517751A (ja) * 1999-05-20 2003-05-27 シグナルワークス, インコーポレイテッド スペクトル分析による近端話者検出のためのシステムと方法
JP2003224898A (ja) * 2002-01-29 2003-08-08 Matsushita Electric Ind Co Ltd 拡声明瞭度改善装置および拡声明瞭度改善方法
JP2004274234A (ja) * 2003-03-06 2004-09-30 Nippon Telegr & Teleph Corp <Ntt> 音響信号の残響除去方法、装置、及び音響信号の残響除去プログラム、そのプログラムを記録した記録媒体
JP2006157920A (ja) * 2004-12-01 2006-06-15 Herman Becker Automotive Systems-Wavemakers Inc 残響評価および抑制システム
JP2008058900A (ja) * 2006-09-04 2008-03-13 Internatl Business Mach Corp <Ibm> 残響除去における低コストのフィルタ係数決定法
WO2009093416A1 (ja) * 2008-01-21 2009-07-30 Panasonic Corporation 音声信号処理装置および方法
US20090281804A1 (en) * 2008-05-08 2009-11-12 Toyota Jidosha Kabushiki Kaisha Processing unit, speech recognition apparatus, speech recognition system, speech recognition method, storage medium storing speech recognition program
JP2011164335A (ja) * 2010-02-09 2011-08-25 Nippon Telegr & Teleph Corp <Ntt> 残響予測フィルタ算出装置、残響抑圧装置、残響予測フィルタ算出方法、残響抑圧方法、プログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9807215B2 (en) 2014-04-14 2017-10-31 Yamaha Corporation Sound emission and collection device, and sound emission and collection method
KR101837529B1 (ko) * 2014-04-14 2018-03-12 야마하 가부시키가이샤 방수음 장치 및 방수음 방법
US10038769B2 (en) 2014-04-14 2018-07-31 Yamaha Corporation Sound emission and collection device, and sound emission and collection method
JP2020017901A (ja) * 2018-07-27 2020-01-30 株式会社Jvcケンウッド 無線通信装置、音声信号制御方法、およびプログラム
JP7059852B2 (ja) 2018-07-27 2022-04-26 株式会社Jvcケンウッド 無線通信装置、音声信号制御方法、およびプログラム

Also Published As

Publication number Publication date
JP5923994B2 (ja) 2016-05-25
US9420370B2 (en) 2016-08-16
CN103220595A (zh) 2013-07-24
US20130188799A1 (en) 2013-07-25
EP2624254A1 (en) 2013-08-07
CN103220595B (zh) 2016-06-29
US20150350781A1 (en) 2015-12-03

Similar Documents

Publication Publication Date Title
JP5923994B2 (ja) 音声処理装置及び音声処理方法
JP6446893B2 (ja) エコー抑圧装置、エコー抑圧方法及びエコー抑圧用コンピュータプログラム
JP5834948B2 (ja) 残響抑制装置、残響抑制方法及び残響抑制用コンピュータプログラム
JP5293817B2 (ja) 音声信号処理装置及び音声信号処理方法
US8571231B2 (en) Suppressing noise in an audio signal
US8886499B2 (en) Voice processing apparatus and voice processing method
JP4836720B2 (ja) ノイズサプレス装置
JP4423300B2 (ja) 雑音抑圧装置
JP6135106B2 (ja) 音声強調装置、音声強調方法及び音声強調用コンピュータプログラム
JP6156012B2 (ja) 音声処理装置及び音声処理用コンピュータプログラム
JP5626366B2 (ja) 音声制御装置、音声制御方法及び音声制御プログラム
JP2008309955A (ja) ノイズサプレス装置
US9832299B2 (en) Background noise reduction in voice communication
US8767974B1 (en) System and method for generating comfort noise
JPWO2013054448A1 (ja) 音処理装置、音処理方法及びプログラム
US8406430B2 (en) Simulated background noise enabled echo canceller
JP6878776B2 (ja) 雑音抑圧装置、雑音抑圧方法及び雑音抑圧用コンピュータプログラム
JP5898515B2 (ja) 半導体装置及び音声通信装置
JP6111795B2 (ja) 信号処理装置、及び信号処理方法
JP6098038B2 (ja) 音声補正装置、音声補正方法及び音声補正用コンピュータプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140904

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150618

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150630

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150820

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160322

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160404

R150 Certificate of patent or registration of utility model

Ref document number: 5923994

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees