JP2013068809A - 残響抑制装置および残響抑制方法並びに残響抑制プログラム - Google Patents

残響抑制装置および残響抑制方法並びに残響抑制プログラム Download PDF

Info

Publication number
JP2013068809A
JP2013068809A JP2011207508A JP2011207508A JP2013068809A JP 2013068809 A JP2013068809 A JP 2013068809A JP 2011207508 A JP2011207508 A JP 2011207508A JP 2011207508 A JP2011207508 A JP 2011207508A JP 2013068809 A JP2013068809 A JP 2013068809A
Authority
JP
Japan
Prior art keywords
input signal
reverberation
suppression
amount
gain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011207508A
Other languages
English (en)
Other versions
JP5751110B2 (ja
Inventor
Takeshi Otani
猛 大谷
Masanao Suzuki
政直 鈴木
Taro Togawa
太郎 外川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2011207508A priority Critical patent/JP5751110B2/ja
Priority to US13/532,908 priority patent/US9093077B2/en
Priority to EP12173939.5A priority patent/EP2573768B1/en
Publication of JP2013068809A publication Critical patent/JP2013068809A/ja
Application granted granted Critical
Publication of JP5751110B2 publication Critical patent/JP5751110B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Control Of Amplification And Gain Control (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

【課題】雑音成分の大きさにかかわらず、音声を歪ませることなく残響成分のみを正確に抑制する。
【解決手段】音声の入力に応じてマイクロホンから得られる入力信号の電力の時間変化を解析することにより、前記音声が発声されている区間の末尾に続く残響区間における前記入力信号の電力の単位時間当たりの減少量を求める解析部と、前記解析部による解析結果に基づいて、前記入力信号を減衰させる比率を示す抑制ゲインを制御する抑制制御部とを備える。また、音声の入力に応じてマイクロホンから得られる入力信号の電力の時間変化を解析することにより、前記音声が発声されている区間の末尾に続く残響区間における前記入力信号の電力の単位時間当たりの減少量を求め、前記残響区間における前記入力信号の電力の単位時間当たりの減少量に基づいて、前記入力信号を減衰させる比率を示す抑制ゲインを制御する処理をコンピュータに実行させる。
【選択図】 図1

Description

本件開示は、携帯端末などに設けられたマイクロホンに入力される音声について残響を抑制する残響抑制装置および残響抑制方法並びに残響抑制プログラムに関する。
室内において携帯端末が利用される際に、利用者が発した音声は、携帯端末のマイクロホンに直接的に到達する他に、周囲の壁や天井などで反射した後にもマイクロホンに到達する。以下の説明では、マイクロホンに直接的に到達する音声を直接音と称し、周囲の壁や天井などで反射した後にマイクロホンに到達する音声を残響音と称する。また、音声の到達に応じてマイクロホンによって得られる信号を入力信号と称する。
例えば、浴室のような比較的狭い室内では、居間などの他の場所に比べて、周囲から反射された残響音が大きい。このため、浴室などで携帯端末の通話機能を利用する場合には、直接音に重畳された残響音のために、マイクロホンで得られる入力信号から明瞭な音声を再生することが困難になる場合がある。
マイクロホンで得られる入力信号に含まれる残響音成分を抑制する技術として、過去フレームのパワースペクトルから推定した残響パワースペクトルを、現フレームのパワースペクトルから減算する技術が提案されている(特許文献1参照)。この技法は、入力信号の時間変化に基づいて推定した発話末尾の残響区間での残差音声パワーおよび発話区間での減算パワーの重みつき総和を最小化するようにフィルタ係数を決定することにより、残響抑制を図っている。
特開2008−58900号公報
ところで、上述した特許文献1の技法は、残響の大きさにかかわらず、発話末尾の残響区間を推定している。このため、上述した技法を背景騒音が大きい環境での残響抑制に用いると、発話末尾の残響区間に、入力信号パワーに含まれる雑音成分が残響成分よりも大きい区間が含まれてしまう可能性がある。このような区間を残響成分が雑音成分よりも大きい区間と区別せずにフィルタ係数の学習を行うと、雑音成分を打ち消すようにフィルタ係数が更新されてしまう。このため、学習結果として得られたフィルタの特性と、本来除去すべき残響成分の特性を反映したフィルタ特性との誤差が大きくなる可能性がある。このようなフィルタは、以降の発話区間において、入力信号を過剰に抑制してしまうために、音声を歪ませてしまうおそれがある。
本件開示の残響抑制装置および残響抑制方法並びに残響抑制プログラムは、雑音成分の大きさにかかわらず、音声を歪ませることなく残響成分のみを正確に抑制することを目的とする。
一つの観点による残響抑制装置は、音声の入力に応じてマイクロホンから得られる入力信号の電力の時間変化を解析することにより、前記音声が発声されている区間の末尾に続く残響区間における前記入力信号の電力の単位時間当たりの減少量を求める解析部と、前記解析部による解析結果に基づいて、前記入力信号を減衰させる比率を示す抑制ゲインを制御する抑制制御部とを備える。
また、別の観点による残響抑制方法は、音声の入力に応じてマイクロホンから得られる入力信号の電力の時間変化を解析することにより、前記音声が発声されている区間の末尾に続く残響区間における前記入力信号の電力の単位時間当たりの減少量を求め、前記残響区間における前記入力信号の電力の単位時間当たりの減少量に基づいて、前記入力信号を減衰させる比率を示す抑制ゲインを制御する。
更に別の観点による残響抑制プログラムは、音声の入力に応じてマイクロホンから得られる入力信号の電力の時間変化を解析することにより、前記音声が発声されている区間の末尾に続く残響区間における前記入力信号の電力の単位時間当たりの減少量を求め、前記残響区間における前記入力信号の電力の単位時間当たりの減少量に基づいて、前記入力信号を減衰させる比率を示す抑制ゲインを制御する処理をコンピュータに実行させる。
本件開示の残響抑制装置および残響抑制方法並びに残響抑制プログラムによれば、雑音成分の大きさにかかわらず、音声を歪ませることなく残響成分のみを正確に抑制することができる。
残響抑制装置の一実施形態を示す図である。 入力信号の電力の時間変化の一例を示す図である。 残響抑制処理のフローチャートである。 入力信号の時間変化を解析する処理の一例を説明する図である。 残響区間における入力信号の単位時間当たりの減少量の環境による違いを説明する図である。 残響特性を説明する図である。 基準抑制ゲインを算出する処理の一例を説明する図である。 携帯端末のハードウェア構成の一例を示す図である。 入力信号の時間変化を解析する処理の一例のフローチャートである。 抑制ゲインを決定する処理の一例フローチャートである。 残響抑制装置の別実施形態を示す図である。 指標算出部の処理の別例を説明する図である。 入力信号の時間変化を解析する処理の別例のフローチャートである。 抑制ゲインを決定する処理の別例フローチャートである。
以下、図面に基づいて、本件開示の残響抑制装置および残響抑制方法並びに残響抑制プログラムの実施形態について詳細に説明する。
図1は、残響抑制装置100の一実施形態を示す図である。図1に例示した残響抑制装置100は、例えば、携帯電話などの通話機能を持つ携帯端末に搭載されたマイクロホン101によって得られた入力信号x(t)に含まれる残響成分を抑制することにより、出力信号y(t)を生成する。この出力信号y(t)は、出力端子Poutを介して出力される。
なお、本件開示の残響抑制装置100は、通話機能を持つ携帯型の情報端末や電話機の子機および携帯ゲーム機を含む様々な電子機器に搭載されたマイクロホン101で得られる入力信号の残響抑制に適用することができる。
図1に例示した残響抑制装置100は、変換部102と、解析部110と、抑制制御部120と、抑制適用部103と、逆変換部104とを含んでいる。変換部102は、例えば、入力信号x(t)をフレームごとに高速フーリエ変換処理することにより、各フレームの入力信号x(n,t)に対応する入力信号スペクトルX(n,f)を得る。さらに、変換部102は、入力信号スペクトルX(n,f)を用いて、式(1)のように常用対数を用いて表される入力パワースペクトルS(n,f)を算出してもよい。そして、この入力パワースペクトルS(n,f)を解析部110に入力してもよい。ここで、フレームは、フーリエ変換処理の分析の単位である。また、符号nはフレーム番号を示し、符号fは周波数番号を示す。
Figure 2013068809
解析部110は、各フレームの入力信号スペクトルX(n,f)あるいは入力パワースペクトルS(n,f)に基づいて、後述するようにして、音声が発声されている区間の末尾に続く残響区間における入力信号x(t)の時間変化の特徴を解析する。抑制制御部120は、解析部110による解析結果に基づいて、入力信号スペクトルX(n,f)に含まれる残響成分を抑制するために、ゲイン適用部103が入力信号スペクトルX(n,f)に適用する減衰率を示す抑制ゲインG(n,f)を制御する。そして、抑制適用部103は、この抑制ゲインG(n,f)を入力信号スペクトルX(n,f)に適用することにより、残響成分が過不足なく抑制された出力信号スペクトルY(n,f)を生成する。逆変換部104は、抑制適用部103によって生成された出力信号スペクトルY(n,f)に対して、例えば、高速フーリエ逆変換処理を適用することにより、出力信号y(t)を生成する。
次に、解析部110により、残響区間における入力信号x(t)の時間変化の特徴を解析する手法について説明する。
図2(A),(B)は、入力信号x(t)の時間変化の一例を示す図である。図2(A),(B)にそれぞれ示した入力信号x(t)は、いずれも同一の室内で、背景雑音の大きさを変えて取得されたものである。なお、図2は、図2(B)に示した入力信号x(t)を取得した際の平均的な背景雑音レベルの方が、図2(A)に示した入力信号x(t)を取得した際の平均的な背景雑音レベルよりも大きい例である。
図2(A)において符号Ta1,Ta3で示した区間および図2(B)において符号Tb1,Tb3で示した区間は、音声が発生している区間である。一方、図2(A)において符号Ta2,Ta4で示した区間および図2(B)において符号Tb2,Tb4で示した区間は、音声が発生している区間に続く残響区間である。
図2(A)に示した入力信号x(t)に現れた残響区間Ta2,Ta4に比べると、図2(B)に示した入力信号x(t)に現れた残響区間Tb2,Tb4は、残響成分が早い段階で背景雑音に埋もれてしまうために短くなっている。
しかし、図2(A)に示した残響区間Ta2,Ta4における入力信号x(t)の単位時間当たりの減少量と、図2(B)に示した残響区間Tb2,Tb4における入力信号x(t)の単位時間当たりの減少量はほぼ同等である。
なぜなら、残響成分は、それに先立って入力された音声に相関を持ち、室内の残響特性に応じて減衰していくので、残響区間での入力信号x(t)の単位時間当たりの減少量は、残響成分が残響特性に応じて減衰していく比率を示すからである。つまり、背景雑音に埋もれない範囲では、入力信号x(t)の残響区間における単位時間当たりの減少量に基づいて、残響成分が残響特性に応じて減衰していく比率を知ることができる。
したがって、図1に例示した解析部110により、残響区間における入力信号x(t)の単位時間当たりの減少量を求めることにより、背景雑音の大きさにかかわらず、マイクロホン101が配置された環境における残響成分の減衰しやすさを知ることができる。
例えば、入力信号x(t)の残響区間における単位時間当たりの減少量が小さい場合には、マイクロホン101が配置された環境において残響成分の減衰が遅いことを示している。逆に、入力信号x(t)の残響区間における単位時間当たりの減少量が大きい場合には、マイクロホン101が配置された環境において残響成分が速やかに減衰することを示している。このように、解析部110による解析結果として得られる残響区間における入力信号x(t)の単位時間当たりの減少量は、マイクロホン101が配置された環境において、残響成分が減衰していく比率を示している。
したがって、この解析結果に基づいて、図1に例示した抑制制御部120が抑制ゲインG(n,f)を制御することにより、マイクロホン101が配置された環境に適合する抑制ゲインG(n,f)を適用した残響抑制を実現することができる。
抑制制御部120は、例えば、残響区間における入力信号x(t)の単位時間当たりの減少量が大きい旨の解析結果が解析部110で得られた場合に、入力信号スペクトルX(n,f)に適用する抑制ゲインG(n,f)を小さくする制御を行ってもよい。抑制制御部120が、このような制御を行うことにより、残響成分が速やかに減衰する環境に配置されたマイクロホン101によって得られる入力信号x(t)への過剰な抑制を防ぐことができる。
図3は、図1に例示した残響抑制装置100による残響抑制処理のフローチャートの一例である。図3に例示したステップS301〜ステップS304は、残響抑制装置100が、入力信号x(t)をサンプリングして得られる第nフレームの入力信号x(n,t)の入力に応じて実行する処理である。
ステップS301で、図1に例示した解析部110は、変換部102を介して、第nフレームの入力信号x(n,t)に対応する入力信号スペクトルX(n,f)あるいは入力パワースペクトルS(n,f)を受け取る。なお、以下では、解析部110が、入力パワースペクトルS(n,f)を用いて、入力信号x(t)の時間変化を解析する場合を説明する。
次いで、解析部110は、それまでに受け取った各フレームの入力パワースペクトルS(j,f)(j=1〜n)に基づいて、入力信号x(t)の時間変化を解析する処理を行う(ステップS302)。ステップS302において、解析部110は、入力信号x(t)の残響区間における単位時間当たりの減少量を示す指標を求めてもよい。そして、解析部110は、求めた指標を、解析結果として出力してもよい。なお、解析部110は、第nフレームまでの入力信号(j,t)(j=1〜n)そのものの時間変化に基づいて、残響区間における入力信号x(t)の時間変化の特徴を抽出してもよい。
ステップS302の処理で得られた解析結果に基づいて、図1に例示した抑制制御部120は、現フレームの入力信号スペクトルX(n,f)に適用する抑制ゲインG(n,f)を決定する(ステップS303)。抑制制御部120は、例えば、解析部110による解析結果で示された残響区間における入力信号x(t)の単位時間当たりの減少量に応じて、基準となる抑制ゲインを補正することによって抑制ゲインG(n、f)を求めてもよい。
次いで、図1に例示した抑制適用部103と逆変換部104は、上述したようにして求められた抑制ゲインG(n,f)を用いて、第nフレームの入力信号x(n,t)に含まれる残響成分が抑制された出力信号y(n,t)を生成する(ステップS304)。抑制適用部103は、例えば、第nフレームの入力信号スペクトルX(n,f)に抑制ゲインG(n,f)を適用することにより、残響成分が抑制された出力信号スペクトルY(n,f)を生成してもよい。そして、この出力信号スペクトルY(n,f)を、逆変換部104が高速フーリエ逆変換することにより、時間領域の出力信号y(n,t)を生成してもよい。
上述したように、解析部110による解析結果は、背景雑音の大きさにかかわらず、室内環境における残響成分の減衰しやすさを示している。この解析結果に基づいて、抑制制御部120がフレームごとに決定する抑制ゲインG(n,f)は、背景雑音の大きさにかかわらず、入力信号x(t)に含まれる残響成分を抑制する上で適正な値となっている。
したがって、各フレームの入力信号x(n,t)について、上述したステップS301〜ステップS304の処理を実行することにより、背景雑音の大きさにかかわらず、残響成分のみが正確に抑制された出力信号y(t)を得ることができる。このようにして得られた出力信号y(t)には、入力信号x(t)に含まれる音声を表す成分が忠実に再現されているので、この出力信号y(t)に基づいて、元の音声を少ない歪みで再現することが可能である。
次に、図1に例示した解析部110について、更に説明する。図1に例示した解析部110は、変化量算出部111と、指標算出部112とを含んでいる。また、図1に例示した指標算出部112は、選択部113と、平均化部114とを含んでいる。
変化量算出部111は、変換部102から受け取った第nフレームの入力パワースペクトルS(n,f)と第n−1フレームの入力パワースペクトルS(n−1,f)との差に基づいて、変化量D(n)を算出する。
変化量算出部111は、変化量D(n)を、例えば、式(2)のように、各周波数番号についての入力パワースペクトルS(n,f)と第n−1フレームの入力パワースペクトルS(n−1,f)との差の総和として算出してもよい。
Figure 2013068809
図4は、入力信号x(t)の時間変化を解析する処理の一例を説明する図である。図4において、変換部102によるフーリエ解析処理の単位となる各フレームを、符号Fとフレーム番号との組み合わせで示した。つまり、図4において、符号F(n−4)からF(n+7)で示した各区間は、それぞれ第n−4フレーム〜第n+7フレームを示す。
図4に示した入力信号x(t)の例では、第n−2フレームから第n+1フレームまでの区間が、第n−3フレームまでの区間で発生されていた音声に対応する残響区間である。この残響区間に含まれる各フレームの入力信号x(j,t)(j=n−2〜n+1)に対応して、変化量算出部111が、上述した式(1)を用いて算出した入力パワースペクトルS(j,f)は、入力信号x(j,t)の減衰に相関を持って単調に減少する。
したがって、この区間に含まれる各フレームについて上述した式(2)を用いて算出される変化量D(j)(j=n−2〜n+1)は、入力信号x(t)が時間の経過に伴って減衰する比率を反映した値となる。つまり、変化量算出部111は、図4に示した第n−2フレームから第n+1フレームまでの区間の入力信号x(t)の変化を近似した直線Lの傾きを反映した値を、変化量D(j)(j=n−2〜n+1)として求めることができる。そして、各フレームについて得られた変化量D(j)(j=n−2〜n+1)の平均値を求めることにより、この区間において、入力信号x(t)が減衰していく比率を示す指標を算出することができる。
なお、変化量算出部111は、変化量D(n)を求める際に、入力信号x(t)に含まれる背景雑音成分の影響を抑制するような重み付けを適用してもよい。このような背景雑音成分の抑制を行うことにより、変化量算出部111は、入力信号x(t)の第nフレームにおける時間変化の傾向をより忠実に反映した変化量D(n)を求めることができる。
このようにして求められた変化量D(n)は、図1に例示した選択部113を介して平均化部114に渡される。そして、平均化部114は、選択部113を介して受け取った変化量D(n)について後述する平均化処理を行うことにより、平均変化量Dav(n)を算出する。
ここで、残響区間は、室内において発生した音声の消失に対応して入力信号x(t)が減衰していく区間である。したがって、変化量算出部111で得られた変化量D(n)のうち、負の値を持つ変化量D(n)は、残響区間において、入力信号x(t)が減衰していく比率を反映している。
つまり、選択部113が、負の値を持つ変化量D(n)を選択的に平均化部114に渡すことにより、平均化部114に、残響区間における入力信号x(t)の単位時間当たりの減少量を示す平均変化量Dav(n)を算出させることができる。
選択部113は、例えば、いずれも負の値を持つ所定の定数d1、d2で示される範囲に含まれる変化量D(n)を選択的に平均化部114に渡せばよい。また、平均化部114は、第nフレームの変化量D(n)と第n−1フレームまでの平均変化量Dav(n−1)とに所定の係数αを用いて表される重みをつけて加算することによって、第nフレームの平均変化量Dav(n)を求めてもよい。このような平均化部114によって算出される平均変化量Dav(n)は、式(3)のように表すことができる。
Figure 2013068809
なお、定数d2の値は、例えば、想定される最も残響成分が減衰しにくい環境において入力信号x(t)が減衰していく比率に基づいて決定してもよい。また、平均変化量Dav(n)の算出に利用する変化量D(n)の最小値を定数d1によって制限することにより、例えば、突発的なノイズによる影響を除去することができる。また、係数αの値は、変化量D(n)の値および第n−1フレームまでの平均変化量Dav(n−1)が、それぞれ適正な割合で平均変化量Dav(n)の値に反映されるように設定することができる。
このようにして算出された平均変化量Dav(n)には、入力信号x(t)が取得された環境において残響成分が減衰していく比率が反映されている。したがって、この平均変化量Dav(n)に基づいて、マイクロホン101が配置されている環境において、入力信号x(t)に対する残響抑制処理の必要性の有無を判断することが可能である。
図5は、残響区間における入力信号x(t)の単位時間当たりの減少量の環境による違いを説明する図である。図5において、実線で示したグラフは、浴室のように残響が比較的大きい室内における入力信号x1(t)の時間変化の例である。また、図5において、破線で示したグラフは、居間のように残響が小さい室内における入力信号x2(t)の時間変化の例である。
図5に示した入力信号x1(t)と入力信号x2(t)の比較すると、残響が大きい室内で取得された入力信号x1(t)の残響区間における単位時間当たりの減少量と、入力信号x1(t)の残響区間における単位時間当たりの減少量とに明らかな違いがある。そして、入力信号x2(t)に対する残響抑制処理が不要であるのに対して、入力信号x1(t)に対する残響抑制処理が不可欠であることを考えれば、両者の残響区間における単位時間当たりの減少量の中間に設けた閾値により残響抑制処理の要否を判断できる。
このような閾値を示す第1閾値Th1を予め決定しておけば、図1に例示した抑制制御部120による抑制ゲインを制御する処理に利用することができる。
上述した第1閾値Th1は、図5に例示した入力信号x2(t)のように、残響抑制処理が不要であるような入力信号x(t)の残響区間における単位時間当たりの減少量に基づいて決定してもよい。また、第1閾値Th1は、それぞれの残響区間において入力信号x1(t)が減衰する比率と入力信号x2(t)が減衰する比率との中間の比率で減衰する直線の傾きとして設定されてもよい。例えば、第1閾値Th1は、居間のような残響の影響が少ない環境で取得される入力信号x(t)の残響区間における単位時間当たりの減少量よりもわずかに少ない単位時間当たりの減少量を示すように設定してもよい。なお、図5において符号Th1で示した直線は、第1閾値Th1を傾きとして持つ直線である。
次に、図1に例示した抑制制御部120について、更に説明する。図1に例示した抑制制御部120は、残響特性保持部121と、推定部122と、ゲイン算出部123と、ゲイン補正部124と閾値保持部125とを含んでいる。
図1に例示した閾値保持部125は、上述したようにして予め決定された第1閾値Th1を保持している。また、残響特性保持部121は、残響抑制装置100による残響抑制の対象となる室内における測定などによって予め特定された残響特性γ(f)を保持している。この残響特性γ(f)は、例えば、残響音成分スペクトルXr(f)と入力信号スペクトルX(f)との関係を示す関数である。以下に、残響特性γ(f)を特定する方法の概略について説明する。
図6は、残響特性γ(f)を説明する図である。図6において、符号Soで示した音源で発生した音声は、直接にマイクロホン101に至る経路Pdの他に、符号Pr1,Pr2で示した経路のように、部屋Cの壁や天井で反射される経路を辿ってマイクロホンに至る。なお、経路Pr1,Pr2は、反射後にマイクロホン101に至る経路の一例である。
したがって、音源で発生した音声に応じて、マイクロホン101で観測される入力信号x(t)に対応する入力信号スペクトルX(f)は、式(4)のように、直接音成分スペクトルXd(f)と残響音成分スペクトルXr(f)との和で表される。
X(f)=Xd(f)+Xr(f) ・・・(4)
直接音成分スペクトルXd(f)は、音源Soによって発生した音声に対応する音声スペクトルφ(f)と、音源Soからマイクロホン101に直接至る経路Pdの伝達特性Hd(f)とを用いて、式(5)のように表すことができる。同様に、残響音成分スペクトルXr(f)は、音声スペクトルφ(f)と、部屋Cの壁や天井による反射を経てマイクロホン101に至る経路の伝達特性Hr(f)とを用いて、式(6)のように表すことができる。
Xd(f)=Hd(f)・φ(f) ・・・(5)
Xr(f)=Hr(f)・φ(f) ・・・(6)
これらの式(4)〜(6)を変形することにより、残響音成分スペクトルXr(f)と入力信号スペクトルX(f)との関係を示す式(7)が得られる。
Figure 2013068809
つまり、残響特性γ(f)は、音源Soからマイクロホン101に至る全ての経路による伝達にかかわる全体の伝達特性H(f)と残響音の伝達にかかわる伝達特性Hr(f)との比として得ることができる。そして、得られた残響特性γ(f)を残響特性保持部121に保持させることができる。なお、伝達特性H(f)および伝達特性Hr(f)は、例えば、浴室など、残響抑制処理の適用が望ましい所望の室内において、インパルス応答の観測を行うなど、公知の手法によって求めることができる。残響特性γ(f)を求める具体的な手法については、例えば、本出願人によって先に出願された特願2011−165274「残響抑制装置および残響抑制方法並びに残響抑制プログラム」を参照されたい。
推定部122は、残響特性保持部121に保持された残響特性γ(f)を用いて、現フレームである第nフレームの入力信号スペクトルX(n,f)に含まれる残響成分を示す残響パワースペクトルR(n,f)を推定する。
推定部122は、例えば、式(8)に示すように、残響特性γ(f)と現フレームに先立つ過去Mフレームの入力パワースペクトルS(n−d,f)(d=1〜M)との畳み込みとして、残響パワースペクトルR(n,f)を求めてもよい。
Figure 2013068809
図1に例示したゲイン算出部123は、推定部122で得られた残響パワースペクトルR(n,f)に基づいて、この残響パワースペクトルR(n,f)を除去するためのゲインを示す基準抑制ゲインGs(n,f)を、基準となる抑制ゲインとして算出する。ゲイン算出部123は、例えば、第nフレームの入力パワースペクトルS(n,f)と推定された残響パワースペクトルR(n,f)との差で示される音声残響比SRRの増大に応じて、単調に減少するように基準抑制ゲインGs(n,f)を算出してもよい。
図7は、基準抑制ゲインGs(n,f)を算出する処理の一例を説明する図である。図6の横軸は、音声残響比SRRを示し、縦軸は、基準抑制ゲインGs(n,f)の値を示す。
ゲイン算出部123は、図7に太い実線で示したような関数を用いて、第nフレームにおける周波数番号fについての音声残響比SRR(n,f)に対応する基準抑制ゲインGs(n,f)を算出してもよい。この関数を用いた場合に、ゲイン算出部123は、音声残響比SRR(n,f)が所定の値a1未満である場合に、基準抑制ゲインGs(n,f)として予め設定した上限値G0dBを出力する。一方、音声残響比SRR(n,f)が所定の値a2よりも大きい場合に、ゲイン算出部123は、基準抑制ゲインGs(n,f)として所定値0dBを出力する。そして、音声残響比SRR(n,f)が上述した値a1〜a2で示される範囲に含まれる場合に、ゲイン算出部123は、音声残響比SRR(n,f)の値に応じて単調に減少する値を基準抑制ゲインGs(n,f)として出力する。なお、上述した値a1は、例えば、背景雑音レベルなどに基づいて決定してもよい。また、値a2は、例えば、音声が発生している区間における音声残響比SRR(n,f)に基づいて決定してもよい。
ゲイン補正部124は、このようにしてゲイン算出部123で算出された基準抑制ゲインGs(n,f)に対して、上述した解析部110によって得られた解析結果に基づく補正を適用することにより、抑制ゲインG(n,f)を求める。
ゲイン補正部124は、例えば、式(9)を用いて、解析部110による解析によって入力信号x(t)の残響区間における単位時間当たりの減少量を示す指標として得られた平均変化量Dav(n)に基づいて、抑制ゲインG(n,f)を求めてもよい。式(9)によれば、平均変化量Dav(n)の値が上述した第1閾値Th1よりも大きい場合に、ゲイン補正部124は、抑制ゲインG(n,f)を基準抑制ゲインGs(n,f)とする。一方、平均変化量Dav(n)の値が上述した第1閾値Th1よりも大きい場合に、ゲイン補正部124は、抑制ゲインG(n,f)を所定値0dBとする。
Figure 2013068809
ここで、平均変化量Dav(n)の値が上述した第1閾値Th1よりも大きいことは、図5に例示した入力信号x1(t)と同様に、残響区間において入力信号x(t)が減衰していく比率が第1閾値Th1に対応する比率より小さいことを示している。一方、平均変化量Dav(n)の値が上述した第1閾値Th1よりも小さいことは、図5に例示した入力信号x2(t)と同様に、残響区間において入力信号x(t)が第1閾値Th1に対応する比率よりも大きい比率で減衰することを示している。
つまり、平均変化量Dav(n)の値と上述した第1閾値Th1との比較に基づいて、ゲイン補正部124は、入力信号x1(t)が取得された環境で残響成分が減衰しにくいか否か、すなわち、残響抑制が必要か否かを判断することができる。
ゲイン補正部124がこのようなゲイン補正を行うことにより、残響区間において入力信号x(t)が急峻に減衰する場合に、基準抑制ゲインGs(n,f)の値にかかわらず、抑制ゲインG(n,f)を所定値0dBとすることができる。つまり、残響成分が減衰しやすい環境と同程度な比率で入力信号x(t)が減衰する場合に、ゲイン補正部124は、抑制ゲインG(n,f)を所定値0dBとすることにより、入力信号x(t)に対する残響抑制を停止させることができる。一方、平均変化量Dav(n)の値と上述した第1閾値Th1との比較に基づいて、残響抑制が必要と判断された場合に、ゲイン補正部124による補正後の抑制ゲインG(n,f)は、残響特性γ(f)に基づいて算出された基準抑制ゲインGs(n,f)となる。なお、ゲイン補正部124は、上述した第1閾値Th1よりも大きい場合に、基準抑制ゲインGs(n,f)から平均変化量Dav(n)の値に応じた補正値を差し引くことにより、抑制ゲインG(n,f)を求めてもよい。例えば、ゲイン補正部124は、平均変化量Dav(n)の値が、残響特性γ(f)を与える環境において残響区間における入力信号x(t)が示す単位時間当たりの減衰量に近いほど小さくなるように、上述した補正値を決めてもよい。
このように、解析部110による解析結果に応じて、ゲイン補正部124が抑制ゲインG(n,f)を求めることにより、図1に示したマイクロホン101が配置された環境に応じた抑制ゲインG(n,f)の制御を実現することができる。したがって、マイクロホン101が配置された環境にかかわらず、上述したように、残響が減衰しにくい環境について特定された残響特性γ(f)を基づいて算出した基準抑制ゲインGs(n,f)を抑制ゲインの基準として用いることができる。
このようにして求められた抑制ゲインG(n,f)を用いて、抑制適用部103は、残響成分が抑制された出力信号スペクトルY(n,f)を求める処理を実行する。
抑制適用部103は、例えば、式(10)に示すようにして、第nフレームの入力パワースペクトルS(n,f)に抑制ゲインG(n,f)を適用することにより、出力信号スペクトルY(n,f)に対応する補正パワースペクトルS’(n,f)を求めてもよい。そして、この補正パワースペクトルS’(n,f)が、出力信号スペクトルY(n,f)を用いて式(11)のように表されることを利用して、出力信号スペクトルY(n,f)を算出してもよい。
S’(n,f)=S(n,f)−G(n,f) ・・・(10)
Figure 2013068809
このようにして算出された各フレームの出力信号スペクトルY(n,f)に対して、逆変換部104が高速フーリエ逆変換処理を適当することにより、出力信号y(t)を生成することができる。
上述したように、図1に例示した残響抑制装置100によれば、背景雑音の大きさにかかわらず、残響区間における入力信号x(t)の時間変化の特徴に基づき、適正な抑制ゲインG(n,f)を用いた残響抑制を適用することができる。つまり、本件開示の残響抑制装置によれば、雑音成分の大きさにかかわらず、音声を歪ませることなく残響成分のみを正確に抑制することができる。
また、図1に例示した抑制制御部120は、解析部110による各フレームの入力信号x(n,t)に応じた解析処理の結果を反映して、各フレームの抑制ゲインG(n,f)を算出する。したがって、入力信号x(t)が取得される環境の変化に応じて、解析部110による解析結果が変化すれば、その変化は抑制制御部120により抑制ゲインG(n,f)に反映される。例えば、マイクロホン101が入力信号x(t)を取得した環境が、浴室のような周囲からの反射が多い環境から、居間のように反射の少ない環境に変化した場合などに、この変化を抑制ゲインG(n,f)に反映することができる。したがって、居間から浴室に移動した場合などには、残響区間における入力信号x(t)についての解析結果の変化に応じて、以降の入力信号x(t)に対して、残響特性γ(f)に基づいて求めた基準抑制ゲインGs(f)を適用させることも可能である。これにより、本件開示の残響抑制装置100を有する携帯端末の利用者が浴室などに移動したことあるいは滞在していることを、通話中の相手に対して秘匿することも可能となる。
本件開示の残響抑制装置100は、例えば、携帯端末のハードウェアを用いて実現することができる。
図8は、携帯端末10のハードウェア構成の一例を示している。なお、図8に示した構成要素のうち、図1に示した構成要素と同等のものについては、同一の符号を付して示す。
携帯端末10は、プロセッサ21と、メモリ22と、マイクロホン101と、通信処理部105と、スピーカ106とを含んでいる。また、携帯端末10は、更に、記録処理部24と、着脱自在のメモリカード25と、表示制御部26と、液晶表示部27と、入力インタフェース(I/F:Interface)部28と、操作パネル29とを含んでいる。なお、図8に示した携帯端末10において、残響抑制装置100は、プロセッサ21とメモリ22とを含んでいる。
プロセッサ21と、メモリ22と、通信処理部105と、マイクロホン101と、スピーカ106と、記録処理部24と、表示制御部26と、入力I/F部28とは、バスを介して互いに接続されている。記録処理部24は、メモリカード25からのデータの読出処理およびメモリカード25へのデータの書込処理を行う。また、表示制御部26は、液晶表示部27による表示処理を制御する。入力I/F部28は、操作パネル29に対する操作を示す情報をプロセッサ21に伝達する処理を行う。
メモリ22は、携帯端末10のオペレーティングシステムとともに、プロセッサ21が上述した残響抑制処理を実行するためのアプリケーションプログラムを格納している。このアプリケーションプログラムは、本件開示の残響抑制方法に含まれる入力信号の時間変化を解析する処理および入力信号を補正する処理を実行するためのプログラムを含む。なお、上述した残響抑制処理を実行するためのアプリケーションプログラムは、例えば、メモリカード25に記録して頒布することができる。そして、このメモリカードを記録処理部24に装着して読み込み処理を行うことにより、残響抑制処理を実行するためのアプリケーションプログラムは、メモリ22に格納される。また、インターネットなどのネットワークと通信処理部105を介して、残響抑制処理を実行するためのアプリケーションプログラムをメモリ22に読み込ませることもできる。
また、上述したアプリケーションプログラムなどとともに、メモリ22に、上述した残響特性γ(f)を示す情報を格納しておくことにより、図1に例示した残響保持部121を実現してもよい。例えば、標準的な浴室において測定したインパルス応答に基づいて、本出願人によって先に出願された特願2011−165274の技法を用いて算出した残響特性γ(f)を表す情報をメモリ22に保持させておいてもよい。また、メモリ22に、上述した第1閾値Th1を示す情報を格納しておくことにより、図1に例示した閾値保持部125を実現してもよい。
また、プロセッサ21は、メモリ22に格納されたアプリケーションプログラムに含まれる入力信号の時間変化を解析する処理のプログラムを実行することにより、図1に示した解析部110の機能を果たしてもよい。プロセッサ21は、メモリ22に格納されたアプリケーションプログラムに含まれる入力信号を補正する処理のプログラムを実行することにより、図1に示した抑制制御部120および抑制適用部103の機能を果たしてもよい。また、メモリ22に格納されたアプリケーションプログラムは、高速フーリエ変換処理および高速フーリエ逆変換処理をプロセッサ21が実行するためのプログラムを含んでもよい。そして、プロセッサ21が、これらのプログラムを実行することにより、それぞれ変換部102および逆変換部104の機能を果たしてもよい。このように、プロセッサ21が、メモリ22に格納されたアプリケーションプログラムを実行することにより、図1に示した残響抑制装置100に含まれる各機能を実現することができる。
図9は、入力信号の時間変化を解析する処理の一例のフローチャートである。図9に示したステップS311〜ステップS316の処理は、図3に示したステップS302の処理の一例である。図8に示したプロセッサ21は、図9に示したフローチャートに含まれるステップS311〜ステップS316の処理を各部と協働して実行することにより、解析部110の機能を果たす。
プロセッサ21は、ステップS311において、まず、第nフレームの入力信号x(n,t)に高速フーリエ変換処理を適用して得られた入力信号スペクトルX(n,f)を受け取る。次いで、プロセッサ21は、上述した式(1)を用いて、入力信号スペクトルX(n,f)の入力パワースペクトルS(n,f)を算出する(ステップS312)。
次に、プロセッサ21は、第nフレームと第n−1フレームの入力パワースペクトルS(n,f)、S(n−1,f)および式(2)を用いて、第nフレームにおける入力パワースペクトルS(n,f)の変化量D(n)を算出する(ステップS313)。このように、プロセッサ21が、ステップS313の処理を実行することにより、図1に例示した変化量算出部111の機能を果たすことができる。
次に、プロセッサ21は、ステップS314〜ステップS316の処理を行うことにより、ステップS313で求めた変化量D(n)と式(3)を用いて、入力信号x(t)の残響区間における単位時間当たりの減少量を示す指標となる平均変化量Dav(n)を算出する。まず、プロセッサ21は、第nフレームにおける入力パワースペクトルS(n,f)の変化量D(n)が値d1、d2で示される範囲に含まれているか否かを判定する(ステップS314)。ステップ314の肯定判定の場合に、プロセッサ21は、第n−1フレームまでの平均変化量Dav(n−1)と変化量D(n)とに、それぞれ重みα、(1−α)を乗算して加算することにより、第nフレームまでの平均変化量Dav(n)を算出する(ステップS315)。一方、ステップ314の否定判定の場合に、プロセッサ21は、第n−1フレームまでの平均変化量Dav(n−1)の値をそのまま第nフレームまでの平均変化量Dav(n)として引き継ぐ(ステップS316)。このように、プロセッサ21が、図9に符号S320を付して示した矩形で囲まれたステップS314〜S316の処理を実行することにより、図1に例示した選択部112と平均化部114とを含む指標算出部112の機能を果たすことができる。
図10は、抑制ゲインを決定する処理の一例のフローチャートである。図10に示したステップS321〜ステップS326の処理は、図3に示したステップS303の処理の一例である。図8に示したプロセッサ21は、図10に示したフローチャートに含まれるステップS321〜ステップS326の処理を各部と協働して実行することにより、抑制制御部120の機能を果たす。
まず、プロセッサ21は、過去フレームの入力パワースペクトルS(n−d,f)(d=1〜M)と残響特性γ(f)とから、現フレームの入力パワースペクトルS(n,f)に含まれる残響パワースペクトルR(n,f)を推定する(ステップS321)。プロセッサ21は、例えば、残響パワースペクトルR(n,f)の推定処理に、上述した式(8)とメモリ22に保持された残響特性γ(f)とを用いてもよい。このように、プロセッサ21が、メモリ22と協働してステップ321の処理を実行することにより、図1に例示した残響特性保持部121および推定部122の機能を果たすことができる。
次に、プロセッサ21は、現フレームの入力パワースペクトルS(n,f)からステップS321で求めた残響パワースペクトルR(n,f)を差し引くことにより、音声残響比SRR(n,f)を算出する(ステップS322)。次いで、プロセッサ21は、ステップS322で算出した音声残響比SRR(n,f)に基づいて、基準抑制ゲインGs(n,f)を算出する(ステップS323)。プロセッサ21は、例えば、図7に示した関数を用いて、音声残響比SRR(n,f)の値に対応する基準抑制ゲインGs(n,f)を決定してもよい。このように、プロセッサ21が、ステップS322,S323の処理を実行することにより、図1に例示したゲイン算出部123の機能を果たすことができる。
その後、プロセッサ21は、上述したステップS302の処理によって得られた平均変化量Dav(n)と第1閾値Th1との比較に基づいて、入力信号x(t)に対する残響抑制処理の必要性を判定する(ステップS324)。平均変化量Dav(n)が第1閾値Th1以下である場合に(ステップS324の肯定判定)、プロセッサ21は、マイクロホン101が配置されている環境においては、残響音を抑制する必要性が小さいと判断する。この場合に、プロセッサ21は、基準抑制ゲインGs(n,f)を適用した場合よりも減衰率を小さくするように、抑制ゲインG(n,f)を求める(ステップS325)。ステップS325において、プロセッサ21は、例えば、ステップS323で得られた基準抑制ゲインGs(n,f)の値にかかわらず、抑制ゲインG(n,f)を一律に下限値0dBとしてもよい。
一方、平均変化量Dav(n)が第1閾値Th1よりも大きい場合に(ステップS324の否定判定)、プロセッサ21は、マイクロホン101が配置されている環境は、残響音が比較的大きい環境であると判断する。この場合に、プロセッサ21は、基準抑制ゲインGs(n,f)をそのまま抑制ゲインG(n,f)としてもよい(ステップS326)。
このように、プロセッサ21が、図10に符号S327を付して示した矩形で囲まれたステップS324〜ステップS326の処理を実行することにより、図1に例示したゲイン補正部124の機能を果たすことができる。
そして、上述したようにして算出された抑制ゲインG(n,f)と入力パワースペクトルS(n,f)とに基づいて、プロセッサ21は、残響成分が抑制された補正パワースペクトルS’(n,f)を算出する処理を行う。プロセッサ21は、例えば、上述した式(10)に示したように、第nフレームの入力パワースペクトルS(n,f)から抑制ゲインG(n,f)を減算することにより、出力信号スペクトルY(n,f)に対応する補正パワースペクトルS’(n,f)を求めてもよい。そして、このようにして得られた補正パワースペクトルS’(n,f)に基づいて、プロセッサ21は、上述した式(11)に基づいて、出力信号スペクトルY(n,f)を算出する処理を行う。これらの処理を実行することにより、プロセッサ21は、図1に例示した抑制適用部103の機能を実現することができる。
このようにして算出された各フレームの出力信号スペクトルY(n,f)に対して、プロセッサ21が高速フーリエ逆変換処理を適当することにより、出力信号y(t)を生成することができる。
このように、残響区間における入力信号x(t)の時間変化の傾向に基づいて抑制ゲインG(n,f)を決定する処理をプロセッサ21が実行することにより、背景雑音の大きさにかかわらず、適正な残響抑制が適用された出力信号y(t)を得ることができる。そして、プロセッサ21は、このようにして得られた出力信号y(t)を信号処理部105による信号処理に供することができる。
このように、図8に例示した残響抑制装置100を含む携帯端末10によれば、通信処理部105は、携帯端末10が配置された環境に応じて適正な残響抑制が適用された出力信号y(t)を受け取ることができる。このとき、信号処理部105に渡される出力信号y(t)は、残響区間における入力信号x(t)の時間変化の傾向に反映される残響成分のみが正確に抑制された信号である。したがって、出力信号y(t)は、マイクロホン101に入力された音声を歪ませることなく、忠実に再現している。
つまり、残響抑制装置100を有する携帯端末10によれば、利用者が携帯端末10を利用する環境にかかわらず、信号処理部105およびネットワークを介して、通話中の相手が利用する携帯端末などに、明瞭な音声を表す信号を送出することができる。したがって、本件開示の残響抑制装置100を有する携帯端末10の利用者が浴室などに移動したことあるいは滞在していることを、通話中の相手に対して秘匿することも可能である。
図11は、残響抑制装置100の別実施形態を示している。なお、図11に示した構成要素のうち、図1に示した構成要素と同等のものについては、同一の符号を付して示し、その説明は省略する。
図11に例示した解析部110は、雑音推定部115を含んでいる。また、図11に例示した解析部110の指標算出部112は、集計部116と、頻度算出部117とを含んでいる。また、図11に例示した抑制制御部120は、図1に例示した各部に加えて、補正制御部126を含んでいる。
雑音推定部115は、変換部102で得られた入力信号スペクトルX(n,f)に基づいて、第nフレームの入力信号x(t)の信号雑音比(SNR)θ(n,f)を推定する。雑音推定部115は、例えば、公知技術を用いて、入力信号スペクトルX(n,f)あるいは入力パワースペクトルS(n,f)に基づいて、雑音成分を示す雑音パワースペクトルN(n,f)を算出してもよい。そして、雑音推定部115は、式(12)に示すように、この雑音パワースペクトルN(n,f)を第nフレームの入力パワースペクトルS(n,f)から減算することにより、信号雑音比θ(n,f)を求めてもよい。
θ(n,f)=S(n,f)−N(n,f) ・・・(12)
雑音推定部115は、このようにして求めた各フレームの信号雑音比θ(n,f)を、図11に例示した指標算出部112に含まれる集計部116に入力する。集計部116は、信号雑音比θ(n,f)が正の値を持つ所定の定数θ1よりも大きい場合に、当該フレームについて変化量算出部111で得られた変化量D(n)を集計対象として、後述する集計処理を行う。
なお、上述した定数θ1は、例えば、残響区間に含まれる数フレームについて信号雑音比θ(n,f)を求める実験の結果などに基づいて決定することができる。このような定数θ1よりも信号雑音比θ(n,f)が大きいフレームの入力信号スペクトルX(n,f)は、マイクロホン101に入力された残響を含む音声を忠実に反映している。
したがって、雑音推定部115で得られた信号雑音比θ(n,f)と上述した定数θ1との比較に基づいて、集計部116は、雑音成分の影響の少ないフレームで得られた信頼性の高い変化量D(n)を集計対象とすることができる。
集計部116は、変化量D(n)の値として考えられる最小値Dminから最大値Dmaxまでの範囲をN分割して得られる各範囲対応するN個の階級K1〜KNごとに、変化量D(n)の出現度数を集計する。
集計部116は、例えば、集計対象の変化量D(n)の値が、p番目の階級Kpに対応する範囲の上限Kmaxp未満であって下限Kminp以上である場合に、この階級Kpの度数を更新することにより、出現度数の集計を行う。
集計部116による上述した処理は、信号雑音比θ(n,f)と定数θ1との比較結果に応じて、第n−1フレームまでの各階級Kj(j=1〜N)の度数を含む度数分布Hist(n−1、j)(j=1〜N)を更新する処理として、式(13)のように表すこともできる。このように、現フレームの信号雑音比θ(n,f)が所定値θ1よりも大きいとされた場合に限って、変化量D(n)を含む階級Kpの度数を示すHist(n−1、p)に値1を加算することによって度数分布Hist(n、j)(j=1〜N)を得ることができる。
Figure 2013068809
このような集計処理を行うことにより、集計部116は、第nフレームまでに現れた信頼性の高い変化量D(n)の度数分布Hist(n,j)(j=1〜N)を求めることができる。このようにして得られた度数分布Hist(n,j)(j=1〜N)に基づいて、頻度算出部117は、後述するようにして、入力信号x(t)の残響区間における単位時間当たりの減少量を示す指標を算出する。
図12は、指標算出部112の処理の別例を説明する図である。図12(A)において、符号x1(t)で示したグラフは、浴室のように残響の影響が大きい環境で取得された入力信号x1(t)の時間変化の例を示す。また、図12(A)において、符号x2(t)で示したグラフは、居間のように残響の影響が小さい環境で取得された入力信号x2(t)の時間変化の例を示す。
なお、図12(A)において、符号Tで示した区間は、音声が発生している区間を示す。また、図12(A)において、符号Th1で示した直線は、上述した第1閾値Th1に対応する単位時間当たりの減少量で示される傾きを持つ直線である。
図12(B)において、符号H1で示したグラフは、上述した入力信号x1(t)に応じて集計部116が変化量D(n)を集計することによって得られる度数分布H1を示す。また、図12(B)において、符号H2で示したグラフは、上述した入力信号x2(t)に応じて集計部116が変化量D(n)を集計することによって得られる度数分布H2を示す。なお、図12(B)において、符号K1で示した範囲は、上述した最小値Dminを階級の下限値とする第1階級K1である。また、なお、図12(B)において、符号KNで示した範囲は、上述した最大値Dmaxを階級の上限値とする階級KNである。
図12(A)に示した入力信号x1(t)は、音声が発生している区間Tに続く残響区間において、第1閾値Th1を傾きとして持つ直線に比べて緩やかに減衰する。これに対して、図12(A)に示した入力信号x2(t)の残響区間における減衰は、第1閾値Th1に対応する傾きとして持つ直線で示される減衰よりも急峻である。このような違いは、図12(B)に示した度数分布H1,H2のピーク位置の違いとして現れる。
図12(B)に示した度数分布H1において、符号P1は、入力信号x1(t)の残響区間における単位時間当たりの減少量に対応する度数のピークである。このように、残響区間における減衰が緩やかな入力信号x1(t)について得られる変化量D(n)の度数分布H1のピークP1の位置は、第1閾値Th1よりも、変化量0に近い位置となる。一方、図12(B)に示した度数分布H2において、符号P2は、入力信号x2(t)の残響区間における単位時間当たりの減少量に対応する度数のピークである。このように、残響区間において急峻に減衰する入力信号x1(t)について得られる変化量の度数分布H2のピークP2は、上述した第1閾値Th1よりも、変化量0から負の方向に遠い位置に現れる。なお、図12(B)において、第1閾値Th1が含まれる階級に対応する範囲を、符号Kkを付して示した。
十分な数のフレームについて変化量D(n)の度数分布を集計すれば、図12(B)に示したように、残響区間における単位時間当たりの減少量に対応するピークが度数分布に現れる。そして、この度数分布のピークの位置と第1閾値Th1との比較に基づいて、残響区間における入力信号x(t)の単位時間当たりの減少量と第1閾値Th1に対応する減少量とを比較することができる。例えば、度数分布のピークの位置が、第1閾値Th1よりも変化量0に近い場合には、入力信号x(t)の残響区間における減衰率は比較的緩やかであることが分かる。一方、度数分布のピークの位置が、第1閾値Th1よりも変化量0から負の方向に遠い位置にある場合には、入力信号x(t)は残響区間において急速に減衰することが分かる。
このような違いは、図12(B)に示した度数分布H1,H2について、第1閾値Th1よりも左側の範囲に分布する度数の和Sh1,Sh2が総和に占める割合を示す頻度δ1、δ2の違いにも反映される。例えば、図12(B)の例から、残響区間において急峻な減衰が現れる入力信号x2(t)に対応する度数分布H2について得られた頻度δ2の方が、入力信号x1(t)に対応する度数分布H1について得られる頻度δ1よりも大きくなることが分かる。
上述した違いは、集計部116によって、図12(B)に示したような明確なピークを持つ度数分布を得るために必要なフレーム数よりも少ない数のフレームについて変化量D(n)を集計して得られる度数分布Hist(n,j)(j=1〜N)にも現れる。
つまり、残響区間において入力信号x(t)の単位時間当たりの減少量が大きいほど、度数分布Hist(n,j)(j=1〜N)において、単位時間当たりの減少量が所定値以上であることを示す変化量D(n)の頻度δ(n)が大きくなる。したがって、単位時間当たりの減少量が所定値以上であることを示す変化量D(n)の頻度δ(n)を、残響区間において入力信号x(t)の単位時間当たりの減少量を示す指標として用いることができる。
図11に例示した頻度算出部117は、例えば、第nフレームまでの度数分布Hist(n,j)(j=1〜N)について、式(14)を用いることにより、第1閾値Th1に対応する減少量よりも大きな減少量が現れた頻度δ(n)を算出してもよい。式(14)において、頻度δ(n)は、例えば、階級K1〜階級Kkまでの各階級に含まれる度数の和Sh(n)と、全ての階級に含まれる度数の総和Sha(n)とを用いて表される。なお、階級Kkは、第1閾値Th1に対応する減少量を示す変化量が属する階級である。頻度算出部117は、例えば、図11に例示した閾値保持部125に保持された第1閾値Th1に基づいて、この第1閾値Th1で示される減少量を含む階級Kkを特定してもよい。
Figure 2013068809
図11に例示した指標算出部112は、上述したようにして頻度算出部117によって算出された頻度δ(n)を、入力信号x(t)の残響区間における単位時間当たりの減少量を示す指標として、抑制制御部120に渡す。
このようにして得られた頻度δ(n)は、入力信号x(t)の残響区間における単位時間当たりの減少量が、第1閾値Th1で示される傾きに対応する減少量以上である可能性の高さを示している。そして、入力信号x(t)の残響区間における単位時間当たりの減少量が、第1閾値Th1で示される傾きに対応する減少量以上である可能性が高い場合は、入力信号x(t)に対して残響抑制処理を適用する必要性は低い。逆に、入力信号x(t)の残響区間における単位時間当たりの減少量が、第1閾値Th1で示される傾きに対応する減少量以上である可能性が低い場合は、入力信号x(t)に対して残響抑制処理を適用する必要性は高いと判断できる。したがって、上述した平均変化量Dav(n)と同様に、この頻度δ(n)に基づいて、入力信号x(t)に対する残響抑制処理の要否を判断するための第2閾値Th2を設定することができる。この第2閾値Th2を、図11に例示した閾値保持部125に保持することにより、抑制制御部120の処理に用いてもよい。
第2閾値Th2の値は、例えば、残響区間に含まれる各フレームにおいて得られた変化量に対応するピークが第1閾値Th1を含む階級Kkに対応する範囲にあるような度数分布について、上述した式(14)を用いて得られる頻度に基づいて決定してもよい。
上述した雑音推定部115、集計部116および頻度算出部117を含む解析部110は、図1に例示した解析部110と同様に、図8に示したプロセッサ21とメモリ22とが協働することによって実現することができる。
図13は、入力信号x(t)の時間変化を解析する処理の別例のフローチャートである。
なお、図13に示すステップのうち、図9に示したステップと同等のものについては、同一の符号を付して示し、その説明は省略する。図13に示したステップS311〜ステップS313およびステップS331〜ステップS337の処理は、図3に示したステップS302の処理の一例である。図8に示したプロセッサ21は、図13に示したフローチャートに含まれる各ステップの処理を、図8に示した各部と協働して実行することにより、図11に示した解析部110の機能を果たす。
プロセッサ21は、ステップS313の処理に続いて、ステップS312で得られた入力パワースペクトルS(n,f)に基づいて、雑音パワースペクトルN(n,f)を算出する(ステップS331)。次いで、プロセッサ21は、ステップS331で得られた雑音パワースペクトルN(n,f)および入力パワースペクトルS(n,f)と上述した式(12)とに基づいて、信号雑音比θ(n)を算出する(ステップS332)。このように、プロセッサ21が、ステップS331〜ステップS332の処理を実行することにより、図11に例示した雑音推定部115の機能を実現することができる。
次に、プロセッサ21は、ステップS332で算出した信号雑音比θ(n)が所定値θ1より大きいか否かを判定する(ステップS333)。ステップS333の判定結果に応じて、プロセッサ21は、ステップS334〜ステップS336の処理を実行することにより、第nフレームまでの変化量D(n)についての度数分布Hist(n,j)(j=1〜N)の集計を行う。
例えば、プロセッサ21は、ステップS333の肯定判定の場合に、まず、変化量D(n)を含む階級Kpを特定する(ステップS334)。そして、プロセッサ21は、ステップS334で特定された階級Kpに含まれる変化量D(n)の出現に伴う度数分布Hist(n,j)(j=1〜N)の更新処理を行う(ステップS335)。このとき、プロセッサ21は、第n−1フレームまでの度数分布Hist(n−1,j)(j=1〜N)で示される階級Kpの度数に値1を加算するとともに、他の階級Kj(j≠p)の度数をそのまま度数分布Hist(n、j)(j≠p)として引き継いでもよい。一方、ステップS333の否定判定の場合に、プロセッサ21は、度数分布Hist(n−1、j)(j=1〜N)で示される各階級j(j=1〜N)の度数を、そのまま度数分布Hist(n、j)(j=1〜N)として引き継いでもよい(ステップS336)。このように、プロセッサ21が、ステップS333の判定結果に応じて、S334〜S336の処理を行うことにより、図11に例示した集計部116の機能を果たすことができる。
次いで、プロセッサ21は、上述した式(14)を用いて、第nフレームまでについての度数分布Hist(n,j)(j=1〜N)において、第1閾値Th1よりも小さい値を持つ変化量D(n)の頻度δ(n)を算出する(ステップS337)。このように、プロセッサ21が、ステップS337の処理を行うことにより、図11に例示した頻度算出部117の機能を果たすことができる。
また、図13に示したフローチャートにおいて、符号S320を付した矩形で囲まれた各ステップの処理をプロセッサ21が実行することにより、図11に例示した集計部116および頻度算出部117を含む指標算出部112の機能を実現することができる。
図11に例示した残響抑制装置100において、頻度算出部117は、上述したようにして得られた頻度δ(n)を、入力信号x(t)の残響区間における単位時間当たりの減少量を示す指標として抑制制御部120に通知する。
図11に例示した抑制制御部120に含まれる閾値保持部125は、上述した第1閾値Th1および第2閾値Th2を示す情報とともに後述する第3閾値Th3を示す情報を保持している。また、図11に例示した補正制御部126は、第nフレームより前に抑制適用部103に入力された抑制ゲインG(n−j,f)(j=1〜m)と第3閾値Th3とに基づいて、ゲイン補正部124による抑制ゲインG(n,f)の算出を制御する。
図11に例示したゲイン補正部124は、まず、解析部110によって得られた頻度δ(n)に基づいて、入力信号x(t)の残響区間における単位時間当たりの減少量を反映した補正ゲインG’(n,f)を算出する。ゲイン補正部124は、例えば、式(15)に示すように、頻度δ(n)と閾値保持部125に保持された情報で示される第2閾値Th2との比較結果に応じて、補正ゲインG’(n,f)に基準抑制ゲインGs(n,f)あるいは所定値0dBを設定してもよい。つまり、残響区間における入力信号x(t)の単位時間当たりの減少量が第1閾値Th1で示される傾きに対応する減少量以上である可能性が低い場合に、ゲイン補正部124は、補正ゲインG’(n,f)を基準抑制ゲインGs(n,f)とする。一方、入力信号x(t)の残響区間における単位時間当たりの減少量が第1閾値Th1で示される傾きに対応する減少量以上である可能性が高い場合に、ゲイン補正部124は、補正ゲインG’(n,f)=0dBとする。
Figure 2013068809
このようにして、ゲイン補正部124によって得られた第nフレームの補正ゲインG’(n,f)と過去mフレームの抑制ゲインG(n−j,f)(j=1〜m)に基づいて、補正制御部126は、次のようにして、抑制ゲインG(n,f)の算出処理を制御する。
補正制御部126は、まず、過去mフレームの抑制ゲインG(n−j,f)(j=1〜m)と第nフレームの補正ゲインG’(n,f)とに基づいて、第nフレームまでの期間の抑制ゲインG(n,f)の大きさの傾向を示す指標を算出する。補正制御部126は、第nフレームまでの抑制ゲインG(n,f)の大きさの傾向を示す指標として、例えば、式(16)で表される平均ゲインGav(n,f)を算出してもよい。
Gav(n,f)=βGav(n−1、f)+(1−β)G’(n,f) ・・・(16)
式(16)によれば、第nフレームまでの平均ゲインGav(n,f)は、第n−1フレームまでの平均ゲインGav(n−1、f)と第nフレームの補正ゲインG’(n,f)とに、所定の重み係数βで示される重みを適用して加算した結果である。この重み係数βの値を適切に調整することにより、式(16)により、現フレームに先立つmフレームにおいて適用された抑制ゲインG(n−j,f)(j=1〜m)の大きさを反映した平均ゲインGav(n,f)を求めることができる。
そして、補正制御部126は、このようにして求めた平均ゲインGav(n,f)と所定の第3閾値Th3との比較に基づいて、第nフレームの入力信号x(n,t)についての残響抑制の必要性を判断してもよい。この第3閾値Th3の値は、例えば、抑制適用部103によって抑制ゲインを適用したか否かが、出力信号y(t)から再生された音声の違いとして人間の聴覚で捉えられる最小の抑制ゲインに基づいて決定することができる。
補正制御部126は、例えば、平均ゲインGav(n)が第3閾値Th3以下である場合、すなわち、過去数フレームに渡る抑制作用が人間によって知覚されない程度に微小であるとされた場合に、残響抑制の必要性は低いと判断する。そして、この場合に、補正制御部126は、ゲイン補正部124に対して、補正ゲインG’(n,f)よりも小さい値を持つ抑制ゲインG(n,f)を求めさせる。一方、平均ゲインGav(n)が第3閾値Th3よりも大きい場合、すなわち、過去数フレームに渡る抑制作用が人間によって知覚される程度に大きいとされた場合に、補正制御部126は、残響抑制の必要性は高いと判断する。そして、この場合に、補正制御部126は、ゲイン補正部124に対して、例えば、式(15)を用いて求めた補正ゲインG’(n,f)をそのまま抑制ゲインG(n,f)として出力させる。
したがって、図11に例示したゲイン補正部124によって算出される抑制ゲインG(n,f)は、式(17)に示すように、平均ゲインGav(n,f)が第3閾値Th3より大きい場合に限って補正ゲインG’(n,f)となる。そして、他の場合に、ゲイン補正部124によって算出される抑制ゲインG(n,f)=0dBとなる。
Figure 2013068809
補正制御部126が、このような制御を行うことにより、効果が微小であることが予想されるフレームの入力信号x(n,t)を対象とする残響抑制作用を停止させ、出力信号y(n、t)から再生される音声の歪みを低減することができる。
図11に例示したゲイン補正部124および補正制御部126を含む抑制制御部120は、図1に例示した抑制制御部120と同様に、図8に示したプロセッサ21とメモリ22とが協働することによって実現することができる。
図14は、抑制ゲインを決定する処理の別例のフローチャートである。なお、図14に示すステップのうち、図10に示したステップと同等のものについては、同一の符号を付して示し、その説明は省略する。図14に示したステップS321〜ステップS323およびステップS341〜ステップS347の処理は、図3に示したステップS303の処理の一例である。図8に示したプロセッサ21は、図14に示したフローチャートに含まれる各ステップの処理を、図8に示した各部と協働して実行することにより、図11に示した抑制制御部120の機能を果たす。
プロセッサ21は、ステップS323の処理に続いて、上述したステップS337の処理によって得られた頻度δ(n)と第2閾値Th2との比較に基づいて、入力信号x(t)に対する残響抑制処理の必要性を判定する(ステップS341)。頻度δ(n)が第2閾値Th2よりも大きい場合に(ステップS341の肯定判定)、プロセッサ21は、マイクロホン101が配置されている環境においては、残響音を抑制する必要性が小さいと判断する。この場合に、プロセッサ21は、図10に示したステップS325と同様にして、基準抑制ゲインGs(n,f)よりも小さい値(例えば、値0dB)を持つ補正ゲインG’(n,f)を求める(ステップS342)。一方、頻度δ(n)が第2閾値Th2以下である場合に(ステップS341の否定判定)、プロセッサ21は、図10に示したステップS326と同様に、基準抑制ゲインGs(n,f)をそのまま補正ゲインG’(n,f)とする(ステップS343)。
このように、プロセッサ21が、ステップS341〜ステップS343の処理を実行することにより、上述した頻度δ(n)と第2閾値Th2との比較結果に基づいて補正ゲインG’(n,f)を算出するゲイン補正部124の機能を果たすことができる。
次に、プロセッサ21は、上述した式(16)を用いて、第nフレームまでの抑制ゲインG(n,f)の大きさの傾向を示す指標として、平均ゲインGav(n,f)を算出する(ステップS344)。次いで、プロセッサ21は、ステップS344の処理で得られた平均ゲインGav(n,f)が第3閾値Th3以下であるか否かを判定する(ステップS345)。そして、ステップS345の肯定判定の場合に、プロセッサ21は、残響抑制の必要性は低いと判断する。この場合に、プロセッサ21は、上述した補正ゲインG’(n,f)よりも小さい値(例えば、値0dB)を持つ抑制ゲインG(n,f)を求める(ステップS346)。一方、ステップS345の否定判定の場合に、プロセッサ21は、残響抑制の必要性は高いと判断する。そして、この場合に、プロセッサ21は、上述した補正ゲインG’(n,f)をそのまま抑制ゲインG(n,f)とする(ステップS347)。
このように、図14において符号S348を付した矩形で囲まれた各ステップの処理をプロセッサ21が実行することにより、図11に例示した補正制御部126の制御の下でゲイン補正部124が抑制ゲインG(n,f)を算出する機能を実現することができる。
なお、図1および図11に示した解析部110および抑制制御部120に含まれる各部は、図1および図11に例示した組み合わせに限らず、様々な組み合わせで適用することができる。
例えば、図11に例示した補正制御部126を、図1に示した抑制制御部120に適用してもよい。同様に、図11に示した雑音推定部115によって推定された信号雑音比θ(n,f)が定数θ1以上であるか否かに応じて、図1に示した選択部113と平均化部114とを含む指標算出部112による指標算出処理を制御してもよい。
100…残響抑制装置;101…マイクロホン;102…変換部;103…抑制適用部;104…逆変換部;105…通信処理部;106…スピーカ;110…解析部;111…変化量算出部;112…指標算出部;113…選択部;114…平均化部;115…雑音推定部;116…集計部;117…頻度算出部;120…抑制制御部;121…残響特性保持部;122…推定部;123…ゲイン算出部;124…ゲイン補正部;125…閾値保持部;126…補正制御部;10…携帯端末;21…プロセッサ;22…メモリ;24…記録処理部;25…メモリカード;26…表示制御部;27…液晶表示部;28…入力インタフェース(I/F)部;29…操作パネル

Claims (15)

  1. 音声の入力に応じてマイクロホンから得られる入力信号の電力の時間変化を解析することにより、前記音声が発声されている区間の末尾に続く残響区間における前記入力信号の電力の単位時間当たりの減少量を求める解析部と、
    前記解析部による解析結果に基づいて、前記入力信号を減衰させる比率を示す抑制ゲインを制御する抑制制御部と、
    を備えたことを特徴とする残響抑制装置。
  2. 請求項1に記載の残響抑制装置において、
    前記解析部は、
    前記入力信号を周波数解析する単位であるフレームごとに、当該フレームの前記入力信号のスペクトルに含まれる各周波数成分と、当該フレームより前のフレームについて求めたスペクトルに含まれる各周波数成分との差分に基づいて、前記各フレームにおける前記入力信号の電力の変化量を算出する変化量算出部と、
    前記各フレームにおける前記入力信号の電力の変化量に基づいて、前記残響区間における前記入力信号の電力の単位時間当たりの減少量を示す指標を算出する指標算出部とを有する
    ことを特徴とする残響抑制装置。
  3. 請求項2に記載の残響抑制装置において、
    前記解析部は、
    前記各フレームの信号雑音比を推定する雑音推定部を有し、
    前記指標算出部は、前記雑音推定部によって推定された信号雑音比が予め設定した所定値以下であるとされたフレームについて得られた前記変化量を用いて、前記残響区間における前記入力信号の電力の単位時間当たりの減少量を示す指標を算出する
    ことを特徴とする残響抑制装置。
  4. 請求項2または請求項3に記載の残響抑制装置において、
    前記抑制制御部は、
    残響抑制の対象となる現フレームよりも前の複数フレームにおける前記入力信号のスペクトルと前記マイクロホンが配置された室内の残響特性とに基づいて、前記現フレームの前記入力信号のスペクトルに含まれる残響成分を推定する推定部と、
    前記推定部によって推定された残響成分を除去するために前記現フレームにおける前記入力信号のスペクトルを減衰させる比率に相当する基準抑制ゲインを算出するゲイン算出部と、
    前記解析部による解析結果として得られる前記残響区間における前記入力信号の電力の単位時間当たりの減少量を示す指標に基づいて、前記基準抑制ゲインを補正することにより、前記入力信号に適用する抑制ゲインを求めるゲイン補正部とを備える
    ことを特徴とする残響抑制装置。
  5. 請求項4に記載の残響抑制装置において、
    前記指標算出部は、前記変化量算出部による算出結果のうち、前記残響区間における変化量として想定される所定の範囲に含まれる変化量を平均化することによって得られる平均変化量を、前記残響区間における前記入力信号の電力の前記単位時間当たりの減少量を示す指標として算出し、
    前記ゲイン補正部は、前記単位時間当たりの所定の減少量を示す所定の第1閾値よりも前記平均変化量が示す前記単位時間当たりの減少量が大きい場合に、前記現フレームの入力信号に適用する抑制ゲインを前記基準抑制ゲインよりも小さくする補正を行う
    ことを特徴とする残響抑制装置。
  6. 請求項4に記載の残響抑制装置において、
    前記指標算出部は、
    前記変化量算出部で得られる前記変化量の出現度数を累積することにより求めた度数分布に基づいて、前記単位時間当たりの減少量が所定の減少量以上であることを示す変化量の頻度を、前記残響区間における前記入力信号の電力の前記単位時間当たりの減少量を示す指標として算出し、
    前記ゲイン補正部は、前記単位時間当たりの減少量が所定の減少量以上であることを示す変化量の頻度が、所定の第2閾値を超える場合に、前記現フレームの入力信号に適用する抑制ゲインを前記基準抑制ゲインよりも小さくする補正を行う
    ことを特徴とする残響抑制装置。
  7. 請求項4に記載の残響抑制装置において、
    前記抑制制御部は、
    前記各フレームに適用された抑制ゲインを監視することにより、前記現フレームより前のフレームの入力信号に適用された抑制ゲインが所定の第3閾値よりも小さい傾向があることを検出した場合に、前記現フレームの入力信号に適用する抑制ゲインを小さくするように、前記ゲイン補正部を制御する補正制御部を有する
    ことを特徴とする残響抑制装置。
  8. 音声の入力に応じてマイクロホンから得られる入力信号の電力の時間変化を解析することにより、前記音声が発声されている区間の末尾に続く残響区間における前記入力信号の電力の単位時間当たりの減少量を求め、
    前記残響区間における前記入力信号の電力の単位時間当たりの減少量に基づいて、前記入力信号を減衰させる比率を示す抑制ゲインを制御する、
    ことを特徴とする残響抑制方法。
  9. 音声の入力に応じてマイクロホンから得られる入力信号の電力の時間変化を解析することにより、前記音声が発声されている区間の末尾に続く残響区間における前記入力信号の電力の単位時間当たりの減少量を求め、
    前記残響区間における前記入力信号の電力の単位時間当たりの減少量に基づいて、前記入力信号を減衰させる比率を示す抑制ゲインを制御する、
    処理をコンピュータに実行させる残響抑制プログラム。
  10. 請求項9に記載の残響抑制プログラムにおいて、
    前記入力信号の電力の時間変化の特徴を解析する処理は、
    前記入力信号を周波数解析する単位であるフレームごとに、当該フレームの前記入力信号のスペクトルに含まれる各周波数成分と、当該フレームより前のフレームについて求めたスペクトルに含まれる各周波数成分との差分に基づいて、前記各フレームにおける前記入力信号の電力の変化量を算出する処理と、
    前記各フレームにおける前記入力信号の電力の変化量に基づいて、前記残響区間における前記入力信号の電力の単位時間当たりの減少量を示す指標を算出する処理とを含む、
    ことを特徴とする残響抑制プログラム。
  11. 請求項10に記載の残響抑制プログラムにおいて、
    前記入力信号の電力の時間変化の特徴を解析する処理は、
    前記各フレームの信号雑音比を推定する処理を含み、
    前記指標を算出する処理は、前記信号雑音比が予め設定した所定値以下であると判定されたフレームについて得られた前記変化量を用いて、前記残響区間における前記入力信号の電力の単位時間当たりの減少量を示す指標を算出する
    ことを特徴とする残響抑制プログラム。
  12. 請求項10又は請求項11に記載の残響抑制プログラムにおいて、
    前記入力信号に適用する抑制ゲインを制御する処理は、
    残響抑制の対象となる現フレームよりも前の複数フレームにおける前記入力信号のスペクトルと前記マイクロホンが配置された室内の残響特性とに基づいて、前記現フレームの前記入力信号のスペクトルに含まれる残響成分を推定する処理と、
    推定された残響成分を除去するために前記現フレームにおける前記入力信号のスペクトルを減衰させる比率に相当する基準抑制ゲインを算出する処理と、
    前記残響区間における前記入力信号の電力の単位時間当たりの減少量を示す指標に基づいて、前記基準抑制ゲインを補正することにより、前記入力信号に適用する抑制ゲインを求める処理とを含む
    ことを特徴とする残響抑制プログラム。
  13. 請求項12に記載の残響抑制プログラムにおいて、
    前記残響区間における前記入力信号の電力の時間変化の特徴を示す指標を算出する処理は、
    前記残響区間における変化量として想定される所定の範囲に含まれる変化量を平均化することによって得られる平均変化量を、前記残響区間における前記入力信号の電力の前記単位時間当たりの減少量を示す指標として算出する処理を含み、
    前記抑制ゲインを求める処理は、
    前記単位時間当たりの所定の減少量を示す所定の第1閾値よりも前記平均変化量が示す前記単位時間当たりの減少量が大きい場合に、前記現フレームの入力信号に適用する抑制ゲインを前記基準抑制ゲインよりも小さくする補正を行う処理を含む
    ことを特徴とする残響抑制プログラム。
  14. 請求項12に記載の残響抑制プログラムにおいて、
    前記残響区間における前記入力信号の電力の時間変化の特徴を示す指標を算出する処理は、
    前記変化量の出現度数を累積することにより求めた度数分布に基づいて、前記単位時間当たりの減少量が所定の減少量以上であることを示す変化量の頻度を、前記残響区間における前記入力信号の電力の前記単位時間当たりの減少量を示す指標として算出する処理と、
    前記抑制ゲインを求める処理は、
    前記単位時間当たりの減少量が所定の減少量以上であることを示す変化量の頻度が、所定の第2閾値を超える場合に、前記現フレームの入力信号に適用する抑制ゲインを前記基準抑制ゲインよりも小さくする補正を行う処理とを含む
    ことを特徴とする残響抑制プログラム。
  15. 請求項12に記載の残響抑制プログラムにおいて、
    前記入力信号に適用する抑制ゲインを制御する処理は、
    前記各フレームに適用された抑制ゲインを監視することにより、前記現フレームより前のフレームの入力信号に適用された抑制ゲインが所定の第3閾値よりも小さい傾向があることを検出した場合に、前記現フレームの入力信号に適用する抑制ゲインを小さくするように、前記抑制ゲインを求める処理を制御する処理を含む
    ことを特徴とする残響抑制プログラム。
JP2011207508A 2011-09-22 2011-09-22 残響抑制装置および残響抑制方法並びに残響抑制プログラム Expired - Fee Related JP5751110B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2011207508A JP5751110B2 (ja) 2011-09-22 2011-09-22 残響抑制装置および残響抑制方法並びに残響抑制プログラム
US13/532,908 US9093077B2 (en) 2011-09-22 2012-06-26 Reverberation suppression device, reverberation suppression method, and computer-readable storage medium storing a reverberation suppression program
EP12173939.5A EP2573768B1 (en) 2011-09-22 2012-06-27 Reverberation suppression device, reverberation suppression method, and computer-readable storage medium storing a reverberation suppression program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011207508A JP5751110B2 (ja) 2011-09-22 2011-09-22 残響抑制装置および残響抑制方法並びに残響抑制プログラム

Publications (2)

Publication Number Publication Date
JP2013068809A true JP2013068809A (ja) 2013-04-18
JP5751110B2 JP5751110B2 (ja) 2015-07-22

Family

ID=47008263

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011207508A Expired - Fee Related JP5751110B2 (ja) 2011-09-22 2011-09-22 残響抑制装置および残響抑制方法並びに残響抑制プログラム

Country Status (3)

Country Link
US (1) US9093077B2 (ja)
EP (1) EP2573768B1 (ja)
JP (1) JP5751110B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019185062A (ja) * 2018-09-10 2019-10-24 百度在線網絡技術(北京)有限公司 音声インタラクション方法、端末機器及びコンピュータ読み取り可能な記憶媒体
KR102295993B1 (ko) * 2020-03-30 2021-09-01 부산대학교 산학협력단 음성 스펙트럼 감쇠율들의 통계치를 이용한 잔향시간 추정 방법

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2484140B (en) 2010-10-01 2017-07-12 Asio Ltd Data communication system
JP5923994B2 (ja) * 2012-01-23 2016-05-25 富士通株式会社 音声処理装置及び音声処理方法
CN102750956B (zh) * 2012-06-18 2014-07-16 歌尔声学股份有限公司 一种单通道语音去混响的方法和装置
JP6371167B2 (ja) * 2014-09-03 2018-08-08 リオン株式会社 残響抑制装置
GB201617409D0 (en) * 2016-10-13 2016-11-30 Asio Ltd A method and system for acoustic communication of data
GB201617408D0 (en) 2016-10-13 2016-11-30 Asio Ltd A method and system for acoustic communication of data
EP3337190B1 (en) * 2016-12-13 2021-03-10 Oticon A/s A method of reducing noise in an audio processing device
GB201704636D0 (en) 2017-03-23 2017-05-10 Asio Ltd A method and system for authenticating a device
GB2565751B (en) 2017-06-15 2022-05-04 Sonos Experience Ltd A method and system for triggering events
GB2570634A (en) 2017-12-20 2019-08-07 Asio Ltd A method and system for improved acoustic transmission of data
JP7264594B2 (ja) * 2018-02-23 2023-04-25 リオン株式会社 残響抑制装置及び補聴器
US11988784B2 (en) 2020-08-31 2024-05-21 Sonos, Inc. Detecting an audio signal with a microphone to determine presence of a playback device
EP4305621A1 (en) * 2021-03-11 2024-01-17 Dolby Laboratories Licensing Corporation Improving perceptual quality of dereverberation

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004537232A (ja) * 2001-07-20 2004-12-09 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 多数のマイクロフォンのエコーを抑圧する回路をポストプロセッサとして有する音響補強システム
JP2006129434A (ja) * 2004-10-01 2006-05-18 Nippon Telegr & Teleph Corp <Ntt> 自動利得制御方法、自動利得制御装置、自動利得制御プログラム及びこれを記録した記録媒体
JP2006157920A (ja) * 2004-12-01 2006-06-15 Herman Becker Automotive Systems-Wavemakers Inc 残響評価および抑制システム
JP2008507720A (ja) * 2004-07-22 2008-03-13 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声信号反響除去
JP2008288718A (ja) * 2007-05-15 2008-11-27 Yamaha Corp 音響エコーキャンセラ
JP2011065128A (ja) * 2009-08-20 2011-03-31 Mitsubishi Electric Corp 残響除去装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1469703B1 (en) 2004-04-30 2007-06-13 Phonak Ag Method of processing an acoustical signal and a hearing instrument
JP4107613B2 (ja) 2006-09-04 2008-06-25 インターナショナル・ビジネス・マシーンズ・コーポレーション 残響除去における低コストのフィルタ係数決定法
JP2011165274A (ja) 2010-02-10 2011-08-25 Elpida Memory Inc 半導体装置およびデータ処理システム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004537232A (ja) * 2001-07-20 2004-12-09 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 多数のマイクロフォンのエコーを抑圧する回路をポストプロセッサとして有する音響補強システム
JP2008507720A (ja) * 2004-07-22 2008-03-13 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声信号反響除去
JP2006129434A (ja) * 2004-10-01 2006-05-18 Nippon Telegr & Teleph Corp <Ntt> 自動利得制御方法、自動利得制御装置、自動利得制御プログラム及びこれを記録した記録媒体
JP2006157920A (ja) * 2004-12-01 2006-06-15 Herman Becker Automotive Systems-Wavemakers Inc 残響評価および抑制システム
JP2008288718A (ja) * 2007-05-15 2008-11-27 Yamaha Corp 音響エコーキャンセラ
JP2011065128A (ja) * 2009-08-20 2011-03-31 Mitsubishi Electric Corp 残響除去装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019185062A (ja) * 2018-09-10 2019-10-24 百度在線網絡技術(北京)有限公司 音声インタラクション方法、端末機器及びコンピュータ読み取り可能な記憶媒体
US11176938B2 (en) 2018-09-10 2021-11-16 Baidu Online Network Technology (Beijing) Co., Ltd. Method, device and storage medium for controlling game execution using voice intelligent interactive system
KR102295993B1 (ko) * 2020-03-30 2021-09-01 부산대학교 산학협력단 음성 스펙트럼 감쇠율들의 통계치를 이용한 잔향시간 추정 방법

Also Published As

Publication number Publication date
EP2573768A2 (en) 2013-03-27
JP5751110B2 (ja) 2015-07-22
EP2573768B1 (en) 2016-12-14
US9093077B2 (en) 2015-07-28
US20130077798A1 (en) 2013-03-28
EP2573768A3 (en) 2013-09-04

Similar Documents

Publication Publication Date Title
JP5751110B2 (ja) 残響抑制装置および残響抑制方法並びに残響抑制プログラム
US10827263B2 (en) Adaptive beamforming
US8705759B2 (en) Method for determining a signal component for reducing noise in an input signal
JP6134078B1 (ja) ノイズ抑制
RU2642353C2 (ru) Устройство и способ для обеспечения информированной оценки вероятности и присутствия многоканальной речи
US10403300B2 (en) Spectral estimation of room acoustic parameters
JP4532576B2 (ja) 処理装置、音声認識装置、音声認識システム、音声認識方法、及び音声認識プログラム
US20090117948A1 (en) Method for dereverberation of an acoustic signal
CN106161751B (zh) 一种噪声抑制方法及装置
RU2768514C2 (ru) Процессор сигналов и способ обеспечения обработанного аудиосигнала с подавленным шумом и подавленной реверберацией
Habets et al. Joint dereverberation and residual echo suppression of speech signals in noisy environments
GB2571371A (en) Signal processing for speech dereverberation
JP2013030956A (ja) 残響抑制装置および残響抑制方法並びに残響抑制プログラム
CN112272848A (zh) 使用间隙置信度的背景噪声估计
CN110140171B (zh) 使用波束形成的音频捕获
CN113160846B (zh) 噪声抑制方法和电子设备
US20190348056A1 (en) Far field sound capturing
CN112669869B (zh) 噪声抑制方法、设备、装置及存储介质
JP5406966B2 (ja) 反響消去装置、反響消去方法、反響消去プログラム
KR101537653B1 (ko) 주파수 또는 시간적 상관관계를 반영한 잡음 제거 방법 및 시스템
JP7235117B2 (ja) エコー消去装置、エコー消去方法、プログラム
JP2015037238A (ja) 残響抑圧装置とその方法と、プログラムとその記録媒体
KR20200095370A (ko) 음성 신호에서의 마찰음의 검출

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140603

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20141226

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150127

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150324

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150421

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150504

R150 Certificate of patent or registration of utility model

Ref document number: 5751110

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees