JP2018133654A - 音響処理装置、音響処理方法およびプログラム - Google Patents

音響処理装置、音響処理方法およびプログラム Download PDF

Info

Publication number
JP2018133654A
JP2018133654A JP2017024874A JP2017024874A JP2018133654A JP 2018133654 A JP2018133654 A JP 2018133654A JP 2017024874 A JP2017024874 A JP 2017024874A JP 2017024874 A JP2017024874 A JP 2017024874A JP 2018133654 A JP2018133654 A JP 2018133654A
Authority
JP
Japan
Prior art keywords
signal
observation
unit
dereverberation
filter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017024874A
Other languages
English (en)
Other versions
JP6677662B2 (ja
Inventor
籠嶋 岳彦
Takehiko Kagoshima
岳彦 籠嶋
谷口 徹
Toru Taniguchi
徹 谷口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2017024874A priority Critical patent/JP6677662B2/ja
Priority to US15/644,858 priority patent/US10152986B2/en
Priority to CN201710759632.XA priority patent/CN108429995B/zh
Publication of JP2018133654A publication Critical patent/JP2018133654A/ja
Application granted granted Critical
Publication of JP6677662B2 publication Critical patent/JP6677662B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/06Receivers
    • H04B1/16Circuits
    • H04B1/1646Circuits adapted for the reception of stereophonic signals
    • H04B1/1661Reduction of noise by manipulation of the baseband composite stereophonic signal or the decoded left and right channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/04Circuits for transducers, loudspeakers or microphones for correcting frequency response
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/305Electronic adaptation of stereophonic audio signals to reverberation of the listening space

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】残響除去処理の精度を向上させる。【解決手段】音響処理装置は、記憶部と、推定部と、除去部と、を備える。記憶部は、第1処理区間に含まれる第1観測信号に対して残響の除去が完了した信号を表す参照信号を記憶する。推定部は、遅延して入力される音響信号に残響除去フィルタを適用することによって得られる信号と音響信号とを加算して得られる信号として観測信号を表すモデルに基づいて、第2観測信号と、参照信号とを用いて、残響除去フィルタのフィルタ係数を推定する。除去部は、第2観測信号と、参照信号と、推定されたフィルタ係数を有する残響除去フィルタと、を用いて、第2観測信号から残響が除去された信号を表す出力信号を求める。【選択図】図5

Description

本発明の実施形態は、音響処理装置、音響処理方法およびプログラムに関する。
音源から直接届く直接音以外に、壁、床、および、天井などで反射して直接音よりも遅れて届く音を残響と呼ぶ。音源が音声の場合、残響が大きいと音韻が不明瞭になり聞き取りにくくなる。そこで従来、マイクロフォンで集音した音声から残響を除去して聞き取りやすくする信号処理技術が開発されている。
例えば、マイクロフォンで集音した観測信号を用いて、音源からマイクロフォンまでの伝達特性の逆特性を持つ逆フィルタを推定し、観測信号に逆フィルタをかけることによって残響を除去する技術が提案されている。また、所定の遅延を持つ過去の観測信号に残響除去フィルタを適用して得られる信号に音源信号を加算して得られる信号として現在の観測信号を表現する自己回帰モデルに基づいて、観測信号から残響除去フィルタを推定し、観測信号に残響除去フィルタをかけることによって残響を除去する技術が提案されている。
特許第5312248号 特許第5227393号
しかしながら、従来技術では、モデルが物理現象と整合しないこと、および、近似的なフィルタを用いることなどに起因して、残響除去の精度が低下する場合があった。
実施形態の音響処理装置は、記憶部と、推定部と、除去部と、を備える。記憶部は、第1処理区間に含まれる第1観測信号に対して残響の除去が完了した信号を表す参照信号を記憶する。推定部は、遅延して入力される音響信号に残響除去フィルタを適用することによって得られる信号と音響信号とを加算して得られる信号として観測信号を表すモデルに基づいて、第2観測信号と、参照信号とを用いて、残響除去フィルタのフィルタ係数を推定する。除去部は、第2観測信号と、参照信号と、推定されたフィルタ係数を有する残響除去フィルタと、を用いて、第2観測信号から残響が除去された信号を表す出力信号を求める。
自己回帰モデルを用いた音響処理装置の機能ブロック図。 自己回帰モデルが表す残響の物理的な意味を説明する図。 (3)式のモデルが表す残響の物理的な意味を説明する図。 (4)式のモデルを用いた音響処理装置の機能ブロック図。 第1の実施形態にかかる音響処理装置の構成ブロック図。 第1の実施形態における残響除去処理のフローチャート。 第1の実施形態の残響除去処理の概念図。 第2の実施形態にかかる音響処理装置の構成ブロック図。 第2の実施形態の残響除去処理の概念図。 第3の実施形態にかかる音響処理装置の構成ブロック図。 第4の実施形態にかかる音響処理装置の構成ブロック図。 第1から第4の実施形態にかかる音響処理装置のハードウェア図。
以下に添付図面を参照して、この発明にかかる音響処理装置の実施形態を詳細に説明する。以下では、音響信号として主に音声信号を用いる例を説明するが、音響信号は音声信号に限られるものではない。
上述の自己回帰モデルは、例えば以下の(1)式で表される。
Figure 2018133654
ここでs(t)は時刻tの音源信号、x(t)はマイクロフォンで集音された時刻tの観測信号、c(τ)は残響除去フィルタの係数、Kは直接音からの残響成分の遅延の上限を表す。このモデルに基づいて、観測信号から残響除去フィルタの係数が推定され、以下の(2)式で表されるフィルタリングによって残響が除去される。
Figure 2018133654
ここで、y(t)は残響が除去された目的信号を表している。またDは除去する残響の遅延の下限を表している。一般に遅延が小さい範囲では、音源信号そのものの成分と残響成分との区別が難しい。このため、音源信号成分を取り除いて歪みが生じることを避けるために所定の遅延Dが設定される。
図1は、上述の自己回帰モデルを用いた音響処理装置10の機能構成例を示すブロック図である。図1に示すように音響処理装置10は、受付部11と、推定部12と、除去部13と、を備えている。
受付部11は、観測信号x(t)の入力を受け付ける。例えば受付部11は、マイクロフォンなどの集音装置で集音された観測信号を入力する。推定部12は、観測信号x(t)を参照して残響除去フィルタ係数c(τ)を推定する。
除去部13は、(2)式に基づいてフィルタリングを行って目的信号y(t)を出力する。ここで、(2)式で表される残響除去フィルタは非再帰型フィルタ(FIR(Finite Impulse Response)フィルタ)であるため、フィルタは常に安定であり、出力が発散することはない。
図2は、音響処理装置10で用いられる自己回帰モデルが表す残響の物理的な意味を説明するための図である。図2に示すように、音源である話者33からの音源信号がマイクロフォン31で集音(観測)される。観測信号がスピーカ32などの音響出力装置から出力される。図2は、音源信号は直接音のみがマイクロフォン31で観測され、観測信号がスピーカ32で再生され、残響を伴って再度マイクロフォン31に集音されることを表している。
このように、自己回帰モデルは、話者33の口元のマイクロフォン31で集音した音声を会場に拡声放送し、会場で反射した音声が再度マイクロフォン31に集音される状況などの残響を表している。
残響が問題になる別の状況として、マイクロフォン31から離れた音源の音声を集音する状況がある。この場合のモデルは以下の(3)式で表される。図3は、このモデルが表す残響の物理的な意味を説明するための図である。
Figure 2018133654
図3は、音源である話者33から直接マイクロフォン31に到達する直接音と、音源信号が壁などで反射することによって減衰し遅延した信号とが加算された信号がマイクロフォン31で観測されることを表している。
残響を除去する信号処理は、一般に音声認識の前処理として用いられることが多い。これは、例えば話者33の口元から離れたマイクロフォン31で音声認識を行う場合、室内の残響によって音声認識の精度が低下するためである。このような用途における残響のモデルは、図3のように話者33から遠い位置にあるマイクロフォン31による集音のモデルとなる。
モデルが前提とする状況が異なる、すなわち、モデルが不整合であるため、図1に示すような自己回帰モデルを用いた手法では、図3に示す状況に対して、十分な残響除去の精度を得ることができない。
一方、上述したような逆フィルタを用いる手法は、図3のモデルに基づいている。(3)式のc(τ)を観測信号x(t)から求めることができたと仮定すると、残響が除去された目的信号y(t)は以下の(4)式で求められる。
Figure 2018133654
図4は、(4)式のモデルを用いた音響処理装置20の機能構成例を示すブロック図である。図4に示すように音響処理装置20は、受付部11と、推定部22と、除去部23と、記憶部24と、を備えている。受付部11は、図1と同様であるため同一の符号を付し説明を省略する。
推定部22は、(3)式のモデルに基づいて残響除去フィルタ係数c(τ)を推定する。除去部23は、(4)式に基づいて目的信号y(t)を計算する。このとき、過去の目的信号が必要であることから、除去部23は、記憶部24に算出した目的信号y(t)を記憶して用いている。
このような構成では、残響除去フィルタが再帰型フィルタ(IIR(Infinite Impulse Response)フィルタ)となる。このため、フィルタ係数が不安定となって発散する可能性があり、実際には実施することができない。
一般に残響除去で必要なフィルタの次数は数十以上であり、推定したフィルタ係数の安定性を保証することはできない。そのため、(4)式の再帰型残響除去フィルタの特性を近似する非再帰型の残響除去フィルタ(逆フィルタ)が推定され、(2)式によって残響除去が行われる。
このように、図4のような構成では、モデルに基づいた残響除去フィルタそのものではなく、近似的な逆フィルタを用いている。このため、近似による誤差が生じ、残響除去の精度が低下する場合がある。
以下の各実施形態にかかる音響処理装置は、音源から離れたマイクロフォンにより集音する状況に対して、その物理現象と合致したモデルに基づいて、フィルタ係数が不安定とならない手法により、残響除去フィルタを推定する。そして各実施形態にかかる音響処理装置は、推定したフィルタを用いて残響除去処理を行う。これにより、残響除去処理の精度を向上させることが可能となる。
(第1の実施形態)
図5は、第1の実施形態にかかる音響処理装置100の構成の一例を示すブロック図である。図5に示すように、音響処理装置100は、受付部11と、推定部102と、除去部103と、更新部104と、記憶部121と、記憶部122と、を備えている。受付部11は、図1と同様であるため同一の符号を付し説明を省略する。
音響処理装置100は、マイクロフォンなどで集音された観測信号x(t)を入力とし、残響が除去された目的信号y(t)を出力とする。本実施形態では、処理の対象となる処理区間に含まれる観測信号の全体に対して繰り返し残響除去処理が行われ、最後に得られた目的信号が出力される。処理区間は、例えば、音声認識などの音声処理の対象となる時系列の音響信号を含む区間である。繰り返しの回数をN回(Nは2以上の整数)とする。図中のn(nは1≦n≦Nを満たす整数)は何回目の繰り返しであるかを示すインデックスである。
記憶部121は、除去部103により出力される目的信号y(t)を記憶する。後述するように、記憶部121に記憶される目的信号は、除去部103による残響除去処理では直接には参照されない。
記憶部122は、観測信号から残響が除去された後の目的信号を記憶する。記憶部122に記憶される目的信号は、推定部102によるフィルタ係数の推定処理、および、除去部103による残響除去処理で参照される。例えば繰り返しのn回目に目的信号y(t)を求めるときには、繰り返しの(n−1)回目(この場合、nは2≦n≦N)に求められて記憶部122に記憶された目的信号yn−1(t)が参照される。処理を開始する時点(n=1)では目的信号は求められていないため、記憶部122は、参照する目的信号の初期値として観測信号を記憶しておく(y(t)=x(t))。
処理区間に含まれるすべての観測信号に対して除去部103により残響除去処理が実行された後、更新部104が、記憶部121に記憶された目的信号によって、記憶部122に記憶された目的信号を更新する。
除去部103により出力され記憶部121に記憶される目的信号を、以下では出力信号といい、記憶部122に記憶され除去部103により参照される目的信号を、以下では参照信号という場合がある。記憶部122は、ある処理区間(第1処理区間)に含まれる観測信号(第1観測信号)に対して残響の除去が完了した信号を表す参照信号を記憶する記憶部に相当する。
推定部102は、残響除去フィルタのフィルタ係数を推定する。推定部102は、音源から離れたマイクロフォンにより集音する状況に適合するモデルに基づいてフィルタ係数を推定する。このモデルは、例えば、遅延して入力される音響信号に残響除去フィルタを適用することによって得られる信号と音響信号とを加算して得られる信号として観測信号を表すモデルである。推定部102は、このモデルに基づいて、観測信号(第2観測信号)と、参照信号とを用いて、残響除去フィルタのフィルタ係数を推定する。
除去部103は、観測信号から残響を除去する残響除去処理を実行する。例えば除去部103は、観測信号(第2観測信号)と、記憶部122に記憶された参照信号と、推定部102により推定されたフィルタ係数を有する残響除去フィルタと、を用いて、観測信号から残響が除去された目的信号(出力信号)を求める。
本実施形態では、同じ処理区間に含まれる観測信号に対して、フィルタ係数の推定処理がN回繰り返し実行され、残響除去処理がN回繰り返し実行される。すなわち、記憶部122に記憶された参照信号を求めるために用いられた観測信号(第1観測信号)と、参照信号を用いて次の繰り返しで目的信号を求めるために用いられる観測信号(第2観測信号)とは、同じ処理区間に含まれる。
更新部104は、出力信号によって参照信号を更新する。例えば更新部104は、(n−1)回目に求められる出力信号が、繰り返しのn回目の参照信号として用いられるように記憶部122に記憶された参照信号を更新する。
上述の各部(受付部11、推定部102、除去部103、および、更新部104)は、例えば、1または複数のプロセッサにより実現される。例えば上述の各部は、CPU(Central Processing Unit)などのプロセッサにプログラムを実行させること、すなわちソフトウェアにより実現してもよい。上述の各部は、専用のIC(Integrated Circuit)などのプロセッサ、すなわちハードウェアにより実現してもよい。上述の各部は、ソフトウェアおよびハードウェアを併用して実現してもよい。複数のプロセッサを用いる場合、各プロセッサは、各部のうち1つを実現してもよいし、各部のうち2以上を実現してもよい。
記憶部121および記憶部122は、HDD(Hard Disk Drive)、光ディスク、メモリカード、RAM(Random Access Memory)などの一般的に利用されているあらゆる記憶媒体により構成することができる。また、記憶部121および記憶部122は、物理的に異なる記憶媒体としてもよいし、物理的に同一の記憶媒体の異なる記憶領域として実現してもよい。さらに記憶部121および記憶部122のそれぞれは、物理的に異なる複数の記憶媒体により実現してもよい。
次に、このように構成された第1の実施形態にかかる音響処理装置100による残響除去処理について図6を用いて説明する。図6は、第1の実施形態における残響除去処理の一例を示すフローチャートである。
受付部11は、例えばマイクロフォンなどにより集音された観測信号を受け付ける(ステップS101)。繰り返しの1回目の場合、観測信号x(t)が、参照信号y(t)として記憶部122に記憶される。
推定部102は、残響除去フィルタのフィルタ係数を推定する(ステップS102)。繰り返しの1回目では、推定部102は、記憶部122の参照信号y(t)と観測信号x(t)とを参照して残響除去フィルタのフィルタ係数c(τ)を推定する。
次に除去部103は、推定されたフィルタ係数c(τ)を有する残響除去フィルタで観測信号から残響を除去した出力信号を算出する(ステップS103)。例えば除去部103は、以下の(5)式に基づいて出力信号y(t)を求める。繰り返しの1回目(n=1)の場合、除去部103は、出力信号y(t)を算出する。
Figure 2018133654
除去部103は、出力信号y(t)を記憶部121に記憶する(ステップS104)。推定部102は、処理区間に含まれるすべての時刻tの観測信号を処理したか否かを判断する(ステップS105)。処理していない場合(ステップS105:No)、ステップS102に戻り、次の時刻tの観測信号に対して処理が繰り返される。
すべての時刻tの観測信号に対して出力信号y(t)が求められたら(ステップS105:Yes)、更新部104は、記憶部121に記憶されている出力信号y(t)を次回の繰り返しの参照信号として記憶部122の内容を更新する(ステップS106)。
次に、推定部102は、処理回数が繰り返し回数(N)に達したか否かを判断する(ステップS107)。達していない場合(ステップS107:No)、ステップS102に戻り、処理区間に含まれるすべての時刻tの観測信号に対して再度処理が繰り返される。
例えば繰り返しの2回目の場合、n=2として同様に推定部102および除去部103の処理が行われ出力信号y(t)が求められて記憶部121に記憶される。更新部104は、記憶部122の参照信号y(t)をy(t)で更新して次回の参照信号とする。以下同様に処理がN回繰り返される。
処理回数が繰り返し回数(N)に達した場合(ステップS107:Yes)、除去部103は、N回目の処理で得られた出力信号y(t)を、最終的な出力信号として出力し(ステップS108)、残響除去処理を終了する。
図7は、本実施形態の残響除去処理の流れを説明するための概念図である。丸印は各信号の1サンプル(ある時刻tの信号)を表している。x(t)は処理区間に含まれる各時刻tの観測信号を表す。y(t)は各時刻tの参照信号を表す。図7の例では、19個の観測信号を含む区間が処理区間とされる。
繰り返しの1回目では、観測信号x(t)が記憶部122に記憶され、参照信号y(t)として参照される。繰り返しの1回目で算出された出力信号y(t)は、2回目の参照信号として記憶部122に記憶される。繰り返しの2回目で算出された出力信号y(t)は、3回目の参照信号として記憶部122に記憶される。同様にして、繰り返し回数Nに達するまで処理が繰り返される。
次に、推定部102による残響除去フィルタ係数の推定処理の一例について説明する。なお推定処理は以下の例に限られるものではなく、ニューラルネットワークを用いた方法などの任意の方法を適用できる。
残響除去フィルタ係数を表すベクトルCを以下の(6)式で定義する。
Figure 2018133654
また、現在の時刻tに対して過去の参照信号を表すベクトルYn,t−Dを以下の(7)式で定義する。
Figure 2018133654
これらを用いると(5)式は以下の(8)式で表される。記号Tは行列の転置を表す。
Figure 2018133654
ここで、残響が取り除かれた出力信号y(t)が平均0分散σ(t)の時変正規分布に従うと仮定すると、フィルタ係数を表すベクトルCを求める問題は、以下の(9)式で表される目的関数E(C)を最大化するCを推定する問題に帰着される。
Figure 2018133654
ただし、N(x;μ,σ)は、平均μ、分散σの正規分布を表すxの関数である。目的関数E(C)を最大化するCは以下の(10)式で求められる。
Figure 2018133654
ここで、分散の推定値としてはσ(t)=yn−1(t)を用いることが可能であり、その場合のCは以下の(11)式で求められる。
Figure 2018133654
また、観測信号が十分に長い場合は、出力信号が時不変正規分布に従うと仮定して、分散を時間に依存しない定数としても精度よく残響除去フィルタ係数を求めることが可能である。この場合はσ(t)=1とすればよく、Cは以下の(12)式で求められる。
Figure 2018133654
第1の実施形態では、音源から離れたマイクロフォンで集音した場合の残響の物理モデルを模擬する(3)式のモデルに基づいて残響除去フィルタ係数を求め、その係数を参照信号に畳み込んで残響成分を求めている。このため、精度よく残響を除去することができる。推定された1セットの残響除去フィルタ係数を用いたフィルタリング処理の過程では、参照信号が出力信号で置き換えられることはなく、再帰型のフィルタとはならない。このため、出力が発散する問題は生じない。
上述した実施形態において、DおよびKの値は、1≦D≦Kを満たす任意の値を設定することができる。これらの値は集音環境における残響の特性に応じて設定すればよい。一般に遅れ時間が25ms以下の初期反射音については音声の明瞭性に影響を与えにくいことから、Dは25ms程度に相当する値をサンプリング周波数に応じて設定すればよい。残響時間が長い環境ではKの値は大き目に設定する必要がある。KとDの値の差が大きいほど計算量が大きくなる傾向があるため、性能と計算量のバランスを考慮して調整すればよい。
上述した実施形態では、除去部103は(5)式に基づいて出力信号を求めるものとして説明したが、これに限定されるものではない。例えば、(5)式のy(t)の符号とx(t)の符号が異なる場合にy(t)=0でクリッピングするようにしてもよい。または、(5)式のy(t)の絶対値がx(t)の絶対値を超える場合にy(t)の絶対値をx(t)の絶対値で制限するようにしてもよい。雑音などの影響によって残響除去フィルタの係数に誤差が生じた場合でも、残響除去による音質劣化の副作用を防止することができる。
(変形例)
第1の実施形態では、ある処理区間の観測信号全体に対して残響除去フィルタ係数を推定するものとして説明した。本変形例では、観測信号を所定の時間間隔で区切ったブロック毎に残響除去フィルタ係数の推定と残響除去処理を行う。すなわち、複数の観測信号を含む処理区間が分割されたブロックを処理区間(第1処理区間)として処理が実行される。
ブロック長をLとし、ブロックの番号を表すインデックスをbとすると、第b番目のブロックの範囲は、bL≦t≦bL+L−1となる。推定部102は、以下の(13)式を用いて残響除去フィルタ係数を求める。
Figure 2018133654
(13)式は、(12)式をブロック毎の処理に変更した式である。除去部103は、bL≦t≦bL+L−1の範囲で(5)式を用いて出力信号y(t)を求める。第1の実施形態と同様に、残響除去フィルタ係数の推定と出力信号の算出が、当該ブロックに対してN回繰り返される。最終的に得られた出力信号が当該ブロックの結果として出力される。第b番目のブロックの処理が完了したら、第(b+1)番目のブロックの観測信号を入力して同様に順次処理を行う。
本変形例によれば、観測信号が長く残響の特性が時間的に変動するような場合に、残響特性の変化に追従して精度よく残響を除去することが可能となる。また、リアルタイムの処理において順次残響を除去した目的信号を出力する必要があるような場合は、本変形例を用いることで、出力の遅延を低減することが可能となる。
このように、第1の実施形態にかかる音響処理装置では、繰り返しの各回で、前の回で求められた目的信号を参照するように、残響除去処理が繰り返し実行される。これにより、再帰型ではないフィルタにより精度よく残響を除去することが可能となる。
(第2の実施形態)
第2の実施形態にかかる音響処理装置は、上記変形例と同様に、複数の観測信号を含む処理区間が分割されたブロックを処理区間として残響除去処理を実行する。本実施形態では、前のブロック(第1処理区間)で求められた目的信号を参照信号として、後のブロック(第2処理区間)の残響除去処理が実行される。
図8は、第2の実施形態にかかる音響処理装置100−2の構成の一例を示すブロック図である。図8に示すように、音響処理装置100−2は、受付部11と、推定部102−2と、除去部103−2と、更新部104−2と、記憶部121と、記憶部122と、を備えている。
第2の実施形態では、推定部102−2、除去部103−2および更新部104−2の機能が第1の実施形態と異なっている。その他の構成および機能は、第1の実施形態にかかる音響処理装置100のブロック図である図5と同様であるので、同一符号を付し、ここでの説明は省略する。
推定部102−2は、前の処理区間(ブロック)で算出された目的信号を参照信号として、フィルタ係数の推定処理を実行する点が、第1の実施形態の推定部102と異なっている。除去部103−2は、前の処理区間(ブロック)で算出された目的信号を参照信号として、残響除去処理を実行する点が、第1の実施形態の除去部103と異なっている。更新部104−2は、前の処理区間(ブロック)で求められる出力信号が、次の処理区間(ブロック)の参照信号として用いられるように記憶部122に記憶された参照信号を更新する。
このように本実施形態では、ある処理区間(ブロック)に含まれる観測信号に対して、前の処理区間(ブロック)で算出された目的信号を参照信号として残響除去処理が実行される。すなわち、記憶部122に記憶された参照信号を求めるために用いられた観測信号(第1観測信号)と、参照信号を用いて次の繰り返しで目的信号を求めるために用いられる観測信号(第2観測信号)とは、異なる処理区間(ブロック)に含まれる。
本実施形態は、ブロック長Lと除去する残響の遅延の下限値Dが、L≦Dの関係を満たす場合に適用できる。L≦Dが成立する場合、あるブロックのフィルタ係数の推定処理で参照する参照信号が、直前のブロックの出力信号により確定している。すなわち、参照信号が現在のブロックで算出された出力信号で置き換えられることはなく、再帰型のフィルタとはならない。このため、出力が発散する問題は生じない。
図9は、第2の実施形態の残響除去処理の流れを説明するための概念図である。丸印は各信号の1サンプル(ある時刻tの信号)を表している。x(t)は処理区間に含まれる各時刻tの観測信号を表す。y(t)は各時刻tの参照信号を表す。破線はブロックの境界を示す。図9の例ではブロック長L=8となっている。
第(b−1)番目のブロックの処理を完了したと仮定し、第b番目のブロックを処理する手順を説明する。この時点で、記憶部122には第(b−1)番目のブロックとそれ以前のブロックで求められた目的信号が参照信号として記憶されている。第b番目のブロックに対しては参照信号の初期値として観測信号が記憶されている。
推定部102−2の処理について説明する。まず推定部102−2は、以下の(14)式、(15)式で表される行列Rおよびベクトルrを求める。
Figure 2018133654
Figure 2018133654
次に推定部102−2は、(14)式で求めた行列R、(15)式で求めたベクトルr、直前のブロックの行列R b−1、ベクトルr b−1、および、所定のスムージング係数αを用いて、当該ブロックの行列R およびベクトルr を、以下の(16)式、(17)式で求める。
Figure 2018133654
Figure 2018133654
αの値は、0<α<1の範囲で設定される。αは、例えばLが小さくなるほど1に近い値(例えば0.9)が用いられる。推定部102−2は、これらを用いて、残響除去フィルタ係数Cを以下の(18)式で求める。
Figure 2018133654
次に、除去部103−2は、(5)式を用いて当該ブロックの出力信号を算出し、記憶部121に記憶する。次に、更新部104−2は、記憶部122の当該ブロックの参照信号を記憶部121の出力信号で更新する。
本実施形態の推定部102−2の処理において、(14)式および(15)式のYn−1,t−Dが参照する範囲は、L≦Dが成立するため、常に第(b−1)番目のブロックかそれ以前のブロックに含まれている。例えば、残響の遅延の下限値D=10、上限値K=14の場合、Yn−1,t−Dが参照する範囲は図9の範囲401となる。
すなわち、本実施形態では、当該ブロックの最初(n=1)の残響除去フィルタ推定処理においても、参照信号が直前のブロックの出力信号として確定しているため、(3)式の残響モデルに基づいた残響除去フィルタの推定が可能であり、必ずしも繰り返しを行う必要がない。繰り返しを行わない場合は、繰り返す場合と比較して計算量を削減可能となる。
また本実施形態では、残響除去フィルタ係数は、当該ブロックだけで求めるのではなく、それ以前の信号の情報も利用して行列R およびベクトルr をスムージングしながら求められる。これにより、ブロックが短い場合でも高精度に残響除去が可能なフィルタ係数を安定して求めることが可能となる。
なお、スムージングを実行せず、第1の実施形態と同様の方法でフィルタ係数を求めてもよい。例えば、(18)式の代わりに、(10)式、(11)式、または、(12)式によりフィルタ係数を求めてもよい。また、最初のブロックなどのように直前のブロックの出力信号(参照信号)が存在しない場合は、当該ブロックの観測信号などを参照信号の初期値として用いればよい。
このように、第2の実施形態では高い残響除去性能を維持したままアルゴリズム遅延と演算量を低減することができる。このため、リアルタイム処理に適している。
(第3の実施形態)
第3の実施形態にかかる音響処理装置は、観測信号を周波数ごとに分けた観測信号(周波数別観測信号)に分割し、周波数別観測信号ごとに残響除去処理を行う。そして本実施形態にかかる音響処理装置は、周波数ごとに求めた、残響が除去された目的信号(周波数別目的信号)を統合して目的信号を求める。
図10は、第3の実施形態にかかる音響処理装置100−3の構成の一例を示すブロック図である。図10に示すように、音響処理装置100−3は、分割部1011と、音響処理部1001a〜1001dと、統合部1012と、を備えている。
音響処理部1001a〜1001dは、分割部1011により分割された周波数別観測信号を入力して音響除去処理を実行する。音響処理部1001a〜1001dは同様の機能を備えるため、以下では、区別する必要のない場合は単に音響処理部1001という。図10では4つの音響処理部1001を備える例を示しているが、分割する周波数の数に応じた個数の音響処理部1001を備えればよい。以下では、観測信号がF個の周波数領域に分割され、F個の音響処理部1001が備えられる例を説明する。
分割部1011は、入力された観測信号に帯域分割処理を行い、観測信号をF個の周波数帯域に分割し、F個の周波数別観測信号を出力する。帯域分割処理に伴い、周波数別観測信号のサンプリング周波数は、観測信号のサンプリング周波数と比較して低減される。
F個の音響処理部1001は、F個の周波数別観測信号のうち対応する周波数別観測信号がそれぞれ入力される。音響処理部1001は、入力された周波数別観測信号(第2観測信号)に対して残響除去処理を行って周波数別目的信号を出力する。
統合部1012は、F個の音響処理部1001からF個の周波数別目的信号を受け取り、F個の周波数別目的信号の周波数帯域を統合する処理を行い、観測信号と同じサンプリング周波数の目的信号を出力する。
分割部1011は、例えば高速フーリエ変換(FFT:Fast Fourier Transform)を用いて構成することが可能である。例えば分割部1011は、観測信号に対して所定のフレーム周期ごとに、窓関数を乗じて短時間波形を取得し、FFTを適用して帯域分割を行う。例えば、窓関数長(FFT長)を512サンプルとすると、周波数帯域数は512となる。対称性があるため処理すべき帯域数はほぼ半分のF=257となる。
FFTを適用して得られた信号のうち同じ周波数ビンに対応する値をフレーム間で連結した信号が周波数別観測信号となる。そのため、周波数別観測信号のサンプリング周期はフレーム周期と等しくなる。例えば、フレーム周期を128サンプルとすれば、周波数別観測信号のサンプリング周期は観測信号のサンプリング周期の128倍となる。
音響処理部1001は、上述した第1〜第2の実施形態の音響処理装置のいずれかを用いることができる。ただし、本実施形態の周波数別観測信号はFFT処理の結果として複素数となっているため、上述した実施形態における信号処理を複素数に拡張して用いる必要がある。具体的には、行列の転置を共役転置に、値の2乗を絶対値の2乗に変更するなどの拡張を行うことによって、複素数の信号に対しても残響除去を行うことができる。
音響処理部1001に含まれる除去部の機能は、上述した第1〜第2の実施形態と同様であってもよいし、複素数の信号の位相を無視して絶対値で残響成分を除去するようにしてもよい。この場合、除去部は、(5)式の代わりに以下の(19)式、(20)式で出力信号を求めればよい。
Figure 2018133654
Figure 2018133654
本実施形態によれば、出力信号のパワーが観測信号のパワー以下となるため、残響除去による副作用を防止して頑健な処理を行うことができる。
統合部1012は、F個の周波数別目的信号を受け取り、フレームごとに周波数帯域を統合して逆フーリエ変換(IFFT:Inverse FFT)を適用することにより、フレームごとの短時間波形を生成する。さらに統合部1012は、各短時間波形の端点での不連続を軽減する合成窓を適用した後に、フレーム周期だけずらして各フレームの短時間波形を重畳することにより目的信号を生成する。
本実施形態では、周波数別観測信号のサンプリング周波数が低減されるため、音響処理部1001における残響時間に関するパラメータ((5)式のDおよびK)の値が低減される。その結果、音響処理部1001の計算量は第1〜第2の実施形態と比較して大幅に削減され、分割部1011および統合部1012の計算量を含めても計算量が削減される。
分割部1011の構成は上記に限られるものではない。例えば分割部1011が、完全再構成フィルタバンクを用いるように構成してもよい。これは、例えば直交ミラーフィルタ(QMF:Quadrature Mirror Filter)に基づく分析フィルタと1/2サブサンプリングを多段に組み合わせた構成で実現される。
統合部1012は逆に、2倍オーバーサンプリングとQMFに基づく合成フィルタを多段に組み合わせた構成によって実現される。完全再構成フィルタバンクを用いた構成では、周波数別観測信号は実数の信号となるため、FFTを用いる構成と比較してさらに演算量が低減される。
上述した実施形態では、分割されたF個の周波数別観測信号のすべてに残響除去処理を行うものとして説明したが、一部の信号のみに残響除去処理を行うようにしてもよい。例えば、100Hz〜2000Hz程度の範囲に対応する帯域の周波数別観測信号にのみ残響除去処理を行うようにしてもよい。音声の主要な周波数成分はこの帯域に含まれているため、残響除去による明瞭化が可能となり、計算量を削減することができる。また、周波数別観測信号毎に異なるパラメータを設定するようにしてもよい。例えば、残響時間が比較的短い周波数には、(5)式のKを小さい値とすることにより、性能を低下させずに計算量を削減することができる。
(第4の実施形態)
第4の実施形態にかかる音響処理装置は、残響を除去した音響信号を基に音声認識処理を実行する機能を備える。
図11は、第4の実施形態にかかる音響処理装置100−4の構成の一例を示すブロック図である。図11に示すように、音響処理装置100−4は、マイクロフォン1101と、変換部1102と、残響除去部1103と、認識部1104と、を備えている。
マイクロフォン1101は、音声を集音して観測信号を出力する。例えばマイクロフォン1101は、残響を含んだアナログ音声信号である観測信号を出力する。マイクロフォン1101を音響処理装置100−4内に備えず、音響処理装置100−4に接続されたマイクロフォン1101から観測信号を入力するように構成してもよい。
変換部1102は、アナログ信号である観測信号をデジタル信号に変換する。マイクロフォン1101とともに変換部1102を音響処理装置100−4の外部に備えてもよい。この場合、残響除去部1103は、変換部1102により変換されたデジタル信号を観測信号として入力すればよい。
残響除去部1103は、上述した第1〜第3の実施形態に係る音響処理装置のいずれかを用いることができる。残響除去部1103で残響が除去された目的信号は認識部1104に入力される。
認識部1104は、入力された目的信号に対して音声認識処理を実行する。認識部1104は、任意の音声認識手法を用いて音声認識処理を実施すればよい。認識部1104の出力は、テキストデータでもよいし、認識された単語IDのような記号化された情報であってもよい。
残響除去部1103として、第3の実施形態に係る音響処理装置100−3を用いる場合、統合部1012において、統合された周波数別目的信号に対してIFFT処理を行わず、周波数別目的信号のまま認識部1104に入力するようにしてもよい。このような構成にすることで、認識部1104における特徴量抽出のためのFFT処理を省くことが可能となる。この結果、計算量を削減することができる。
本実施形態の音響処理装置100−4は、1台の計算機に実装してもよいし、認識部1104をサーバ上に実装し、残響除去部1103を端末上に実装して、これらの間をネットワークを介して通信するように構成してもよい。
第4の本実施形態の音響処理装置100−4は、マイクロフォン1101と音源とが離れていて残響が混入する集音環境においても、残響を除去して音韻が明瞭になった音声に音声認識処理を適用できる。すなわち、高い精度で認識処理を実行可能となる。
以上説明したとおり、第1から第4の実施形態によれば、残響除去処理の精度を向上させることが可能となる。
次に、第1から第4の実施形態にかかる音響処理装置のハードウェア構成について図12を用いて説明する。図12は、第1から第4の実施形態にかかる音響処理装置のハードウェア構成例を示す説明図である。
第1から第4の実施形態にかかる音響処理装置は、CPU(Central Processing Unit)51などの制御装置と、ROM(Read Only Memory)52やRAM(Random Access Memory)53などの記憶装置と、ネットワークに接続して通信を行う通信I/F54と、各部を接続するバス61を備えている。
第1から第4の実施形態にかかる音響処理装置で実行されるプログラムは、ROM52等に予め組み込まれて提供される。
第1から第4の実施形態にかかる音響処理装置で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM(Compact Disk Read Only Memory)、フレキシブルディスク(FD)、CD−R(Compact Disk Recordable)、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録してコンピュータプログラムプロダクトとして提供されるように構成してもよい。
さらに、第1から第4の実施形態にかかる音響処理装置で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、第1から第4の実施形態にかかる音響処理装置で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。
第1から第4の実施形態にかかる音響処理装置で実行されるプログラムは、コンピュータを上述した音響処理装置の各部として機能させうる。このコンピュータは、CPU51がコンピュータ読取可能な記憶媒体からプログラムを主記憶装置上に読み出して実行することができる。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
10、20、100、100−2、100−3、100−4 音響処理装置
11 受付部
12、22、102、102−2 推定部
13、23、103、103−2 除去部
24、121、122 記憶部
31、1101 マイクロフォン
32 スピーカ
104、104−2 更新部
1001 音響処理部
1011 分割部
1012 統合部
1102 変換部
1103 残響除去部
1104 認識部

Claims (10)

  1. 第1処理区間に含まれる第1観測信号に対して残響の除去が完了した信号を表す参照信号を記憶する記憶部と、
    遅延して入力される音響信号に残響除去フィルタを適用することによって得られる信号と音響信号とを加算して得られる信号として観測信号を表すモデルに基づいて、第2観測信号と、前記参照信号とを用いて、前記残響除去フィルタのフィルタ係数を推定する推定部と、
    前記第2観測信号と、前記参照信号と、推定された前記フィルタ係数を有する前記残響除去フィルタと、を用いて、前記第2観測信号から残響が除去された信号を表す出力信号を求める除去部と、
    を備える音響処理装置。
  2. 前記第2観測信号は、前記第1処理区間に含まれる観測信号であり、
    前記推定部は、前記第2観測信号と前記参照信号とを用いて前記フィルタ係数を推定する処理をN回(Nは2以上の整数)繰り返し、
    前記除去部は、前記第2観測信号から前記出力信号を求める処理をN回繰り返し、
    繰り返しの(n−1)回目(nは2≦n≦Nを満たす整数)に求められる前記出力信号が、繰り返しのn回目の前記参照信号として用いられるように前記記憶部に記憶された前記参照信号を更新する更新部をさらに備える、
    請求項1に記載の音響処理装置。
  3. 前記推定部は、繰り返しの1回目に、前記参照信号の代わりに前記第1観測信号を用いる、
    請求項2に記載の音響処理装置。
  4. 前記第1処理区間は、複数の観測信号を含む処理区間が分割された区間である、
    請求項1に記載の音響処理装置。
  5. 前記第2観測信号は、前記第1処理区間より後の第2処理区間に含まれる観測信号である、
    請求項1に記載の音響処理装置。
  6. 入力された観測信号を複数の周波数帯域に対応する複数の周波数別観測信号に分割する分割部をさらに備え、
    前記推定部は、前記周波数別観測信号を前記第2観測信号として前記フィルタ係数を推定し、
    前記除去部は、前記周波数別観測信号を前記第2観測信号として前記出力信号を求める、
    請求項1に記載の音響処理装置。
  7. 前記除去部によって出力された、複数の周波数帯域に対応する複数の出力信号を統合する統合部をさらに備える、
    請求項6に記載の音響処理装置。
  8. 前記出力信号に含まれる音声を認識する認識部をさらに備える、
    請求項1に記載の音響処理装置。
  9. 第1処理区間に含まれる第1観測信号に対して残響の除去が完了した信号を表す参照信号を記憶部に記憶させる記憶ステップと、
    遅延して入力される音響信号に残響除去フィルタを適用することによって得られる信号と音響信号とを加算して得られる信号として観測信号を表すモデルに基づいて、第2観測信号と、前記参照信号とを用いて、前記残響除去フィルタのフィルタ係数を推定する推定ステップと、
    前記第2観測信号と、前記参照信号と、推定された前記フィルタ係数を有する前記残響除去フィルタと、を用いて、前記第2観測信号から残響が除去された信号を表す出力信号を求める除去ステップと、
    を含む音響処理方法。
  10. コンピュータに、
    第1処理区間に含まれる第1観測信号に対して残響の除去が完了した信号を表す参照信号を記憶部に記憶させる記憶ステップと、
    遅延して入力される音響信号に残響除去フィルタを適用することによって得られる信号と音響信号とを加算して得られる信号として観測信号を表すモデルに基づいて、第2観測信号と、前記参照信号とを用いて、前記残響除去フィルタのフィルタ係数を推定する推定ステップと、
    前記第2観測信号と、前記参照信号と、推定された前記フィルタ係数を有する前記残響除去フィルタと、を用いて、前記第2観測信号から残響が除去された信号を表す出力信号を求める除去ステップと、
    を実行させるためのプログラム。
JP2017024874A 2017-02-14 2017-02-14 音響処理装置、音響処理方法およびプログラム Active JP6677662B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2017024874A JP6677662B2 (ja) 2017-02-14 2017-02-14 音響処理装置、音響処理方法およびプログラム
US15/644,858 US10152986B2 (en) 2017-02-14 2017-07-10 Acoustic processing apparatus, acoustic processing method, and computer program product
CN201710759632.XA CN108429995B (zh) 2017-02-14 2017-08-30 音响处理装置、音响处理方法以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017024874A JP6677662B2 (ja) 2017-02-14 2017-02-14 音響処理装置、音響処理方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2018133654A true JP2018133654A (ja) 2018-08-23
JP6677662B2 JP6677662B2 (ja) 2020-04-08

Family

ID=63104774

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017024874A Active JP6677662B2 (ja) 2017-02-14 2017-02-14 音響処理装置、音響処理方法およびプログラム

Country Status (3)

Country Link
US (1) US10152986B2 (ja)
JP (1) JP6677662B2 (ja)
CN (1) CN108429995B (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10354638B2 (en) 2016-03-01 2019-07-16 Guardian Glass, LLC Acoustic wall assembly having active noise-disruptive properties, and/or method of making and/or using the same
US10726855B2 (en) 2017-03-15 2020-07-28 Guardian Glass, Llc. Speech privacy system and/or associated method
US10373626B2 (en) 2017-03-15 2019-08-06 Guardian Glass, LLC Speech privacy system and/or associated method
US20180268840A1 (en) * 2017-03-15 2018-09-20 Guardian Glass, LLC Speech privacy system and/or associated method
US10304473B2 (en) 2017-03-15 2019-05-28 Guardian Glass, LLC Speech privacy system and/or associated method
CN109754821B (zh) * 2017-11-07 2023-05-02 北京京东尚科信息技术有限公司 信息处理方法及其系统、计算机系统和计算机可读介质
CN109410975B (zh) * 2018-10-31 2021-03-09 歌尔科技有限公司 一种语音降噪方法、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009110578A1 (ja) * 2008-03-03 2009-09-11 日本電信電話株式会社 残響除去装置、残響除去方法、残響除去プログラム、および記録媒体
JP2011164335A (ja) * 2010-02-09 2011-08-25 Nippon Telegr & Teleph Corp <Ntt> 残響予測フィルタ算出装置、残響抑圧装置、残響予測フィルタ算出方法、残響抑圧方法、プログラム

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10257583A (ja) * 1997-03-06 1998-09-25 Asahi Chem Ind Co Ltd 音声処理装置およびその音声処理方法
EP2013869B1 (en) 2006-05-01 2017-12-13 Nippon Telegraph And Telephone Corporation Method and apparatus for speech dereverberation based on probabilistic models of source and room acoustics
JP2008067070A (ja) * 2006-09-07 2008-03-21 Nippon Telegr & Teleph Corp <Ntt> 適応型ノイズフィルタ
JP4891805B2 (ja) * 2007-02-23 2012-03-07 日本電信電話株式会社 残響除去装置、残響除去方法、残響除去プログラム、記録媒体
JP4431836B2 (ja) * 2007-07-26 2010-03-17 株式会社カシオ日立モバイルコミュニケーションズ 音声取得装置、雑音除去システム、及び、プログラム
WO2009110574A1 (ja) 2008-03-06 2009-09-11 日本電信電話株式会社 信号強調装置、その方法、プログラム及び記録媒体
JP5172536B2 (ja) 2008-08-22 2013-03-27 日本電信電話株式会社 残響除去装置、残響除去方法、コンピュータプログラムおよび記録媒体
JP5312248B2 (ja) 2008-08-28 2013-10-09 本田技研工業株式会社 残響抑圧システムおよび残響抑圧方法
US8265290B2 (en) 2008-08-28 2012-09-11 Honda Motor Co., Ltd. Dereverberation system and dereverberation method
JP5172797B2 (ja) 2009-08-19 2013-03-27 日本電信電話株式会社 残響抑圧装置とその方法と、プログラムと記録媒体
JP5834948B2 (ja) * 2012-01-24 2015-12-24 富士通株式会社 残響抑制装置、残響抑制方法及び残響抑制用コンピュータプログラム
WO2014097470A1 (ja) * 2012-12-21 2014-06-26 Toa株式会社 残響除去装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009110578A1 (ja) * 2008-03-03 2009-09-11 日本電信電話株式会社 残響除去装置、残響除去方法、残響除去プログラム、および記録媒体
US20110002473A1 (en) * 2008-03-03 2011-01-06 Nippon Telegraph And Telephone Corporation Dereverberation apparatus, dereverberation method, dereverberation program, and recording medium
JP2011164335A (ja) * 2010-02-09 2011-08-25 Nippon Telegr & Teleph Corp <Ntt> 残響予測フィルタ算出装置、残響抑圧装置、残響予測フィルタ算出方法、残響抑圧方法、プログラム

Also Published As

Publication number Publication date
US20180233161A1 (en) 2018-08-16
CN108429995A (zh) 2018-08-21
CN108429995B (zh) 2020-03-13
JP6677662B2 (ja) 2020-04-08
US10152986B2 (en) 2018-12-11

Similar Documents

Publication Publication Date Title
JP6677662B2 (ja) 音響処理装置、音響処理方法およびプログラム
JP5227393B2 (ja) 残響除去装置、残響除去方法、残響除去プログラム、および記録媒体
JP4567655B2 (ja) 音声信号中の暗騒音を抑制する方法及び装置、並びに反響消去を伴う対応する装置
JP5140162B2 (ja) 雑音抑圧方法及び装置
JP2004520616A (ja) 雑音低減法および装置
CN108140396B (zh) 音频信号处理
JP2003534570A (ja) 適応ビームフォーマーにおいてノイズを抑制する方法
JPS5850360B2 (ja) 音声認識装置における前処理方法
JP2018531555A (ja) ビーム形成用途のための適応的位相歪曲のない振幅応答等化
JP2018531555A6 (ja) ビーム形成用途のための適応的位相歪曲のない振幅応答等化
US11622208B2 (en) Apparatus and method for own voice suppression
EP2562751A1 (en) Temporal interpolation of adjacent spectra
KR20220022286A (ko) 잔향 제거 오토 인코더를 이용한 잔향 환경 임베딩 추출 방법 및 장치
JP6221257B2 (ja) 信号処理装置、方法及びプログラム
JP4348393B2 (ja) 信号歪み除去装置、方法、プログラム及びそのプログラムを記録した記録媒体
Gan et al. Howling noise cancellation in time–frequency domain by deep neural networks
JP3649847B2 (ja) 残響除去方法及び装置
JP6728250B2 (ja) 音響処理装置、音響処理方法およびプログラム
JP2021071599A (ja) 雑音抑制装置、雑音抑制方法及び音声入力機器
JP2004274234A (ja) 音響信号の残響除去方法、装置、及び音響信号の残響除去プログラム、そのプログラムを記録した記録媒体
EP3185242A1 (en) Method and apparatus for processing audio content
JP5327735B2 (ja) 信号再生装置
JP2011002535A (ja) 音声対話システム、音声対話方法、及びプログラム
WO2023170756A1 (ja) 音響処理方法、音響処理システムおよびプログラム
JP4313740B2 (ja) 残響除去方法、プログラムおよび記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180912

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190725

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190903

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20191105

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191107

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200212

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200313

R151 Written notification of patent or utility model registration

Ref document number: 6677662

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151