JP2019004466A - 収音装置、放収音装置、信号処理方法、及びプログラム - Google Patents

収音装置、放収音装置、信号処理方法、及びプログラム Download PDF

Info

Publication number
JP2019004466A
JP2019004466A JP2018111926A JP2018111926A JP2019004466A JP 2019004466 A JP2019004466 A JP 2019004466A JP 2018111926 A JP2018111926 A JP 2018111926A JP 2018111926 A JP2018111926 A JP 2018111926A JP 2019004466 A JP2019004466 A JP 2019004466A
Authority
JP
Japan
Prior art keywords
sound
signal processing
collection device
processing method
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018111926A
Other languages
English (en)
Other versions
JP7334399B2 (ja
Inventor
良 田中
Makoto Tanaka
田中  良
クレーヴ パスカル
Cleve Pascal
クレーヴ パスカル
レンガラジャン バラス
Rengarajan Bharath
レンガラジャン バラス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Unified Communications Inc
Original Assignee
Yamaha Unified Communications Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Unified Communications Inc filed Critical Yamaha Unified Communications Inc
Publication of JP2019004466A publication Critical patent/JP2019004466A/ja
Application granted granted Critical
Publication of JP7334399B2 publication Critical patent/JP7334399B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R27/00Public address systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Telephone Function (AREA)

Abstract

【課題】従来の収音装置では、人の声だけでなく雑音に対してもビームフォーミングのフォーカス方向を調整する。このため、不要な雑音を収音し、人の声を断片的にしか収音できない可能性がある。【解決手段】収音装置は、複数のマイクと、前記複数のマイクの収音信号を処理して指向性を形成する指向性形成部と、前記指向性形成部の前段に配置された第1エコーキャンセラと、前記指向性形成部の後段に配置された第2エコーキャンセラと、を備えている。【選択図】図3

Description

この発明に係るいくつかの実施形態は、入力された信号を分析して人の話す声を収音する収音装置、放収音装置、信号処理方法、及びプログラムに関する。
マイクから離れた人の声を収音する場合、通常は収音したくない雑音や残響成分が人の声に対して相対的に大きくなる。したがって、収音したい声の音質は、著しく低下する。このため、雑音や残響成分を抑圧し、声のみを明瞭に収音することが求められる。
従来の収音装置においては、マイクで取得した音に対して音の到来方向を検出し、ビームフォーミングのフォーカス方向を調整することで人の声の収音を行なっている。
しかし、従来の収音装置では、人の声だけでなく雑音に対してもビームフォーミングのフォーカス方向を調整する。このため、不要な雑音を収音し、人の声を断片的にしか収音できない可能性がある。
この発明に係るいくつかの実施形態は、入力された信号を分析して人の話す声のみを収音する収音装置、放収音装置、信号処理方法、及びプログラムを提供することを目的とする。
収音装置は、複数のマイクと、前記複数のマイクの収音信号を処理して指向性を形成する指向性形成部と、前記指向性形成部の前段に配置された第1エコーキャンセラと、前記指向性形成部の後段に配置された第2エコーキャンセラと、を備えている。
放収音装置を模式的に示した斜視図である。 放収音装置のブロック図である。 放収音装置の機能ブロック図である。 音声判定部の構成を示すブロック図である。 到来方向とマイクによる音のズレとの関係を示す図である。 到来方向検出部の構成を示すブロック図である。 指向性形成部の構成を示すブロック図である。 放収音装置の動作を示すフローチャートである。
図1は、放収音装置10を模式的に示した斜視図である。図1においては、放音及び収音に係る主構成を記載して、その他の構成は記載していない。
放収音装置10は、直方体形状の筐体1、マイク11、マイク12、マイク13、スピーカ70L、及びスピーカ70Rを備えている。複数のマイク11、マイク12、及びマイク13は、筐体1の一側面に一列に並んで配置されている。スピーカ70L及びスピーカ70Rは対としてマイク11、マイク12、及びマイク13を挟んでマイク11、マイク12、及びマイク13の外側に配置されている。
この例においては、マイクの数は3個であるが、放収音装置10は、少なくとも2個以上のマイクが設置されていれば動作可能である。また、スピーカの数も2個に限るものではなく、放収音装置10は、少なくとも1個以上のスピーカが設置されていれば動作可能である。また、スピーカ70L又はスピーカ70Rは、筐体1と別の構成として設けられていてもよい。
図2は、放収音装置10のブロック図である。図2に示すように、放収音装置10は、マイク11、マイク12、マイク13、スピーカ70L、スピーカ70R、信号処理部15、メモリ150、及びインタフェース(I/F)19を備えている。
マイク11、マイク12、及びマイク13で取得された音声である収音信号は、信号処理部15で信号処理され、I/F19に入力される。I/F19は、例えば通信I/Fであり、該収音信号を、外部の装置(遠隔地)に送信する。あるいは、I/F19は、外部の装置から放音信号を受信する。メモリ150は、マイク11、マイク12、及びマイク13で取得された収音信号を録音データとして記録する。
信号処理部15は、マイク11、マイク12、及びマイク13で取得された音声を以下に詳細に説明するように信号処理する。また、信号処理部15は、I/F19から入力した放音信号を処理する。スピーカ70L又はスピーカ70Rは、信号処理部15で信号処理された信号を放音する。
なお、信号処理部15の機能は、パーソナルコンピュータ等の一般的な情報処理装置で実現することも可能である。この場合、情報処理装置は、メモリ150に記憶されたプログラム151、又はフラッシュメモリ等の記憶媒体に記憶されたプログラムを読み出して実行することにより、信号処理部15の機能を実現する。
図3は、放収音装置10の機能ブロック図である。図3に示すように、放収音装置10は、マイク11、マイク12、マイク13、スピーカ70L、スピーカ70R、信号処理部15、及びインタフェース(I/F)19を備えている。信号処理部15は、第1エコーキャンセラ31、第1エコーキャンセラ32、第1エコーキャンセラ33、指向性形成部(BF:Beam Forming)20、第2エコーキャンセラ40、音声判定部(VAD:Voice Activity Detection)50、及び到来方向検出部(DOA:Direction Of Arrival)60を備えている。
第1エコーキャンセラ31はマイク11の後段に、第1エコーキャンセラ32はマイク12の後段に、第1エコーキャンセラ33はマイク13の後段に、それぞれ設置されている。第1エコーキャンセラ31、第1エコーキャンセラ32、第1エコーキャンセラ33は、前段のマイクの収音信号のそれぞれに対して、エコーキャンセルを行う。これにより、第1エコーキャンセラ31、第1エコーキャンセラ32、及び第1エコーキャンセラ33は、スピーカ70L又はスピーカ70Rから各マイクに至るエコーを除去する。
第1エコーキャンセラ31、第1エコーキャンセラ32、第1エコーキャンセラ33が行うエコーキャンセルは、FIRフィルタ処理と減算処理からなる。第1エコーキャンセラ31、第1エコーキャンセラ32、及び第1エコーキャンセラ33エコーキャンセルは、インタフェース(I/F)19から信号処理部15へ入力されたスピーカ70L又はスピーカ70Rで放音する信号(放音信号)を入力し、FIRフィルタでエコー成分を推定し、第1エコーキャンセラ31、第1エコーキャンセラ32、及び第1エコーキャンセラ33へ入力された収音信号から、それぞれ推定したエコー成分を減算する処理である。
VAD50は、第1エコーキャンセラ32の後段に設置されている。すなわち、VAD50は、中央に位置するマイク12で収音した収音信号に対して音声であるか否かの判定を行う。VAD50で人の声が有ると判定された場合、音声フラグがDOA60に入力される。VAD50については後に詳細に述べる。なお、VAD50は、第1エコーキャンセラ32の後段に限られず、第1エコーキャンセラ32、又は第1エコーキャンセラ33の後段に設置されていてもよい。
DOA60は、第1エコーキャンセラ31及び第1エコーキャンセラ33の後段に設置されている。DOA60は、音声の到来方向を検出する。DOA60は、音声フラグが入力されると、マイク11及びマイク13で収音した収音信号に対して到来方向(θ)の検出を行う。到来方向(θ)については後で詳細に説明する。DOA60は、音声フラグが入力されたときのみ検出を行うため、人の声以外の雑音が発生したとしても、到来方向(θ)の値は変更しない。DOA60で検出された到来方向(θ)は、BF20へ入力される。DOA60については後に詳細に述べる。
BF20は、入力された到来方向(θ)を基に、ビームフォーミング処理を行う。ビームフォーミング処理により、到来方向(θ)の音にフォーカスすることができる。これにより、到来方向(θ)以外の方向から到来する雑音を最小化することができるため、到来方向(θ)の声音を選択的に収音することができる。BF20については後に詳細に述べる。
第2エコーキャンセラ40は、BF20でビームフォーミング処理を施された信号に対して、周波数スペクトル振幅乗算処理を行う。これにより、第2エコーキャンセラ40は、減算処理のみで除去できなかった残留エコー成分を除去することができる。周波数スペクトル振幅乗算処理は、どの様な処理であってもよいが、例えば、周波数領域におけるスペクトラルゲイン、スペクトラルサブトラクション、エコーサプレッサの少なくともいずれか1つ、又は全てを用いる。残留エコー成分は、例えば部屋の暗騒音のために、第1エコーキャンセラ31等で生じたエコー成分の推定誤差に起因する誤差成分や、スピーカ70L又はスピーカ70Rの放音レベルがある程度のレベルに達した場合に生じる筐体の振動音等である。第2エコーキャンセラ40は、第1エコーキャンセラにおける減算処理で推定したエコー成分のスペクトルと、入力信号のスペクトルと、に基づいて、残留エコー成分のスペクトルを推定し、スペクトルの振幅を乗算にて減衰させることで推定した残留エコー成分のスペクトルを入力信号から除外する。
以上の様に、本実施形態の信号処理部15は、減算処理により除去しきれない残留エコー成分も除去する。ただし、仮に前段で周波数スペクトル振幅乗算処理を行なうと、収音信号レベルのゲインの情報が失われるため、BF20における指向性形成の処理が困難となる。また、仮に前段で周波数スペクトル振幅乗算処理を行なうと、後述の倍音パワースペクトル、パワースペクトル変化率、パワースペクトル平坦率、フォルマント強度、倍音強度、パワー、パワーの一階差分、パワーの二階差分、ケプストラム係数、ケプストラム係数の一階差分、又はケプストラム係数の二階差分の情報が失われるため、VAD50において音声判定が困難となる。そこで、本実施形態の信号処理部15は、まず減算処理によりエコー成分を除去して、BF20による指向性形成処理、VAD50による音声音判定、及びDOA60における到来方向の検出処理を行い、指向性形成された後の信号に対して、周波数スペクトル振幅乗算処理を行なう。
次に、図4を用いてVAD50の機能について詳細に説明する。
VAD50は、音声信号の各種音声特徴量についてニューラルネットワーク57を用いて解析を行う。VAD50は、解析の結果、人の声が有ると判定した場合、音声フラグを出力する。
各種音声特徴量としては、例えば、ゼロクロス率41、倍音パワースペクトル42、パワースペクトル変化率43、パワースペクトル平坦率44、フォルマント強度45、倍音強度46、パワー47、パワーの一階差分48、パワーの二階差分49、ケプストラム係数51、ケプストラム係数の一階差分52、又はケプストラム係数の二階差分53が挙げられる。
ゼロクロス率41は、音声信号の時間領域においてゼロクロスとなる点の出現頻度を算出したものである。ゼロクロスは、音声の基本周波数であるピッチに対応する。倍音パワースペクトル42は、音声信号に含まれる倍音のそれぞれの周波数成分がどの位のパワーを有するかを表わしたものである。パワースペクトル変化率43は音声信号の周波数成分に対するパワーの変化率を表わしたものである。パワースペクトル平坦率44は、音声信号の周波数成分のうねりの度合いを表わしたものである。フォルマント強度45は、音声信号に含まれるフォルマント成分の強度を表わしたものである。倍音強度46は、音声信号に含まれる倍音のそれぞれの周波数成分の強度を表わしたものである。パワー47は、音声信号のパワーである。パワーの一階差分48は、パワー47の前回との差である。パワーの二階差分49は、パワーの一階差分48の前回との差である。ケプストラム係数51は、音声信号の離散コサイン変換の振幅の対数である。ケプストラム係数の一階差分52は、ケプストラム係数51の前回との差である。ケプストラム係数の二階差分53は、ケプストラム係数の一階差分52の前回との差である。
なお、ケプストラム係数51を求めるときの音声信号は、プリエンファシスフィルタを用いて高域を強調したものを用いてもよいし、音声信号の離散コサイン変換の振幅は、メルフィルタバンクを用いて圧縮をしたものを使用してもよい。
なお、音声特徴量としては、上述のパラメータには限定されず、人の声とその他の音を判別することができる指標となるものであれば使用できる。
ニューラルネットワーク57は、人間の判断事例から結果を導き出す手法であり、入力値に対し、人間が導き出した判断結果に近づくように各ノードの係数が決定されているものである。
ニューラルネットワーク57は、各ニューロンにおいて、各種音声特徴量(ゼロクロス率41、倍音パワースペクトル42、パワースペクトル変化率43、パワースペクトル平坦率44、フォルマント強度45、倍音強度46、パワー47、パワーの一階差分48、パワーの二階差分49、ケプストラム係数51、ケプストラム係数の一階差分52、又はケプストラム係数の二階差分53)についての値を入力することによって、この入力された値を基に所定の値を出力する。ニューラルネットワーク57は、再後段の2つのニューロンにおいて、それぞれ人の声であるという第1指標値と、人の声ではないという第2指標値とを出力する。最終的に、ニューラルネットワーク57は、第1指標値と第2指標値との差分が、所定の閾値を超える場合に、人の声であると判定する。これにより、ニューラルネットワーク57は、人間の判断事例を基に、音声信号が人の声であるか否かを判定することができる。
次に、図5及び図6を用いてDOA60の機能について詳細に説明する。図5は、到来方向とマイクによる音のズレとの関係を示す図である。図6は、DOA60の構成を示すブロック図である。図5において、一方向の矢印は、音源からの音声の到来する方向を示している。
DOA60は、図5及び図6に示すように、所定の距離(L1)を隔てて存在するマイク11及びマイク13を用いる。DOA60に音声フラグが入力されると、マイク11及びマイク13で収音した収音信号の相互相関関数が算出61される。ここで、音声の到来方向(θ)は、マイク11及びマイク13の並ぶ面に対して垂直な方向からのズレとして表すことができる。このため、マイク11に対してマイク13への入力信号は、到来方向(θ)分の音のズレ(L2)が生じる。
DOA60は、相互相関関数のピーク位置に基づいて、マイク11及びマイク13それぞれの入力信号の時間差を検出する。入力信号の時間差と音速の積により音のズレ(L2)が算出される。ここで、L2=L1×sinθである。L1は固定の数値であるため、L2から三角関数の演算により到来方向(θ)を検出63することができる。
なお、VAD50が解析の結果、人の声では無いと判定した場合、DOA60は音声の到来方向(θ)の検出を行わず、到来方向(θ)は、直前の到来方向(θ)に維持される。
次に、図7を用いてBF20の機能について詳細に説明する。図7は、BF20の構成を示すブロック図である。
BF20は、複数の適応型フィルタを内蔵しており、入力された音声信号をフィルタリングすることにより、ビームフォーミング処理を行う。適応型フィルタとしては、例えば、FIRフィルタにより構成される。図7においては、マイク毎にFIRフィルタ21、FIRフィルタ22、及びFIRフィルタ23の3つのFIRフィルタを示しているが、さらに多くのFIRフィルタを備えていてもよい。
DOA60から音声の到来方向(θ)が入力されると、ビーム係数更新部25はFIRフィルタの係数を更新する。例えば、ビーム係数更新部25は、更新された到来方向(θ)に基づくフォーカス角度での利得が1.0となる拘束条件のもと、出力信号が最小となるように、入力された音声信号に基づいて、適応アルゴリズムを用いてFIRフィルタの係数を更新する。これにより、到来方向(θ)以外の方向から到来する雑音を最小化することができるため、到来方向(θ)の声音を選択的に収音することができる。
BF20は、上述の様な処理を繰り返し、到来方向(θ)に対応した音声信号を出力する。これにより、信号処理部15は、常に人の声がある方向を到来方向(θ)として高感度で収音することができる。このように、信号処理部15は、人の声を追尾することができるため、雑音により人の声の音質が劣化することを抑制することができる。
以下、図8を用いて、放収音装置10の動作を説明する。図8は、放収音装置10の動作を示すフローチャートである。
まず、放収音装置10は、マイク11、マイク12、及びマイク13で収音を行なう(S11)。マイク11、マイク12、及びマイク13で収音された音声は、音声信号として、信号処理部15に入力される。
次に、第1エコーキャンセラ31、第1エコーキャンセラ32、第1エコーキャンセラ33は、第1エコーキャンセル処理を行う(S12)。第1エコーキャンセル処理は、上述のように、減算処理であり、第1エコーキャンセラ31、第1エコーキャンセラ32、及び第1エコーキャンセラ33へ入力された収音信号から、エコー成分を除去する処理である。
第1エコーキャンセル処理の後、VAD50は、音声信号を各種音声特徴量についてニューラルネットワーク57を用いて解析を行う(S13)。VAD50は、解析の結果、収音信号が音声であると判定した場合(S13:Yes)。VAD50は、音声フラグをDOA60へ出力する。VAD50は、人の声が無いと判定した場合(S13:No)。VAD50は、音声フラグをDOA60へ出力しない。そのため、到来方向(θ)は、直前の到来方向(θ)に維持される(S104)。これにより、音声フラグの入力が無い場合は、DOA60での到来方向(θ)の検出が省略されるため、無駄な処理を省略することができ、人の声以外の音源に対して感度が向けられることもない。
次に、音声フラグがDOA60へ出力されると、DOA60は到来方向(θ)を検出する(S14)。検出された到来方向(θ)は、BF20へ入力される。
BF20は、指向性を形成する(S15)。BF20は、入力された音声信号を到来方向(θ)に基づいてフィルタ係数を調整する。BF20は、調整されたフィルタを用いて、ビームフォーミング処理を行う。これにより、BF20は、到来方向(θ)に対応した音声信号を出力することにより、到来方向(θ)の声音を選択的に収音することができる。
次に、第2エコーキャンセラ40は、第2エコーキャンセル処理を行う(S16)。第2エコーキャンセラ40は、BF20でビームフォーミング処理を施された信号に対して、周波数スペクトル振幅乗算処理を行う。これにより、第2エコーキャンセラ40は、第1エコーキャンセル処理で除去できなかった残留エコー成分を除去することができる。エコー成分が除去された音声信号は、第2エコーキャンセラ40からインタフェース(I/F)19を介して信号処理部15へ入力される。
スピーカ70L又はスピーカ70Rは、信号処理部15で信号処理され、インタフェース(I/F)19を介して信号処理部15へ入力された音声信号に基づいて放音する(S17)。
なお、本実施形態では、放収音装置10として、放音及び収音の機能を有する放収音装置10を例示したが、この例に限らない。例えば、収音の機能を有する収音装置であってもよい。
本実施形態の説明は、すべての点で例示であって、制限的なものではない。本発明の範囲は、上述の実施形態ではなく、特許請求の範囲によって示される。さらに、本発明の範囲には、特許請求の範囲と均等の意味及び範囲内でのすべての変更が含まれることが意図される。
10…放収音装置
11,12,13…マイク
15…信号処理部
19…I/F
20…BF
21,22,23…FIRフィルタ
25…ビーム係数更新部
31,32,33…第1エコーキャンセラ
40…第2エコーキャンセラ
41…ゼロクロス率
42…倍音パワースペクトル
43…パワースペクトル変化率
44…パワースペクトル平坦率
45…フォルマント強度
46…倍音強度
47…パワー
48…一階差分
49…二階差分
50…VAD
51…ケプストラム係数
52…一階差分
53…二階差分
57…ニューラルネットワーク
60…DOA
61…算出
63…検出
70L…スピーカ
70R…スピーカ
150…メモリ
151…プログラム

Claims (20)

  1. 複数のマイクと、
    前記複数のマイクの収音信号を処理して指向性を形成する指向性形成部と、
    前記指向性形成部の前段に配置された第1エコーキャンセラと、
    前記指向性形成部の後段に配置された第2エコーキャンセラと、
    を備えた収音装置。
  2. 請求項1に記載の収音装置において、
    前記第1エコーキャンセラは、減算処理を行う、
    収音装置。
  3. 請求項1または請求項2に記載の収音装置において、
    前記第2エコーキャンセラは、周波数スペクトル振幅乗算処理を行う、
    収音装置。
  4. 請求項1乃至請求項3のいずれかに記載の収音装置において、
    前記第1エコーキャンセラは、前記複数のマイクの収音信号のそれぞれに対して、エコーキャンセルを行う、
    収音装置。
  5. 請求項1乃至請求項4のいずれかに記載の収音装置において、
    前記第1エコーキャンセラの後段に、音源の到来方向を検出する到来方向検出部を備えた、
    収音装置。
  6. 請求項5に記載の収音装置において、
    前記指向性形成部は、前記到来方向検出部で検出された到来方向に基づいて、指向性を形成する、
    収音装置。
  7. 請求項1乃至請求項6のいずれかに記載の収音装置において、
    前記第1エコーキャンセラの後段に、音声の判定を行う音声判定部を備えた、
    収音装置。
  8. 請求項5または請求項6に記載の収音装置において、
    前記第1エコーキャンセラの後段に、音声の判定を行う音声判定部を備え、
    前記到来方向検出部は、
    前記音声判定部において前記音声が有ると判定した場合に、前記到来方向を検出する処理を行い、
    前記音声判定部において前記音声が無いと判定された場合に、直前に検出した前記到来方向の値を保持する、
    収音装置。
  9. 請求項7または請求項8に記載の収音装置において、
    前記音声判定部は、ニューラルネットワークを用いて前記音声の判定を行う
    収音装置。
  10. 請求項1乃至請求項9のいずれかに記載の収音装置と、
    スピーカと、を備え、
    前記第1エコーキャンセラは、前記スピーカに入力する信号に基づいてエコーキャンセル処理を行う、
    放収音装置。
  11. 複数のマイクの収音信号の少なくともいずれか1つに第1エコーキャンセル処理を行い、
    前記第1エコーキャンセル処理後の前記収音信号を用いて指向性を形成し、
    前記指向性を形成した後に、第2エコーキャンセル処理を行う、
    信号処理方法。
  12. 請求項11に記載の信号処理方法において、
    前記第1エコーキャンセル処理は、推定されたエコー成分を減算する処理である、
    信号処理方法。
  13. 請求項11または請求項12に記載の信号処理方法において、
    前記第2エコーキャンセル処理は、周波数スペクトル振幅乗算処理である、
    信号処理方法。
  14. 請求項11乃至請求項13のいずれかに記載の信号処理方法において、
    前記第1エコーキャンセル処理は、前記複数のマイクの収音信号のそれぞれに対して、エコーキャンセルを行う、
    信号処理方法。
  15. 請求項11乃至請求項14のいずれかに記載の信号処理方法において、
    前記第1エコーキャンセル処理の後に、音源の到来方向を検出する、
    信号処理方法。
  16. 請求項15に記載の信号処理方法において、
    検出された前記到来方向に基づいて、指向性を形成する、
    信号処理方法。
  17. 請求項11乃至請求項16のいずれかに記載の信号処理方法において、
    前記第1エコーキャンセル処理の後に、音声であるか否かの判定を行う、
    信号処理方法。
  18. 請求項15または請求項16に記載の信号処理方法において、
    前記第1エコーキャンセル処理の後に、音声であるか否かの判定を行い、
    前記音声の判定において前記音声が有ると判定した場合に、前記到来方向を検出する処理を行い、
    前記音声の判定において前記音声が無いと判定された場合に、直前に検出した前記到来方向の値を保持する、
    信号処理方法。
  19. 請求項17または請求項18に記載の信号処理方法において、
    前記音声の判定において、ニューラルネットワークを用いて前記音声の判定を行う、
    信号処理方法。
  20. 複数のマイクの収音信号の少なくともいずれか1つに第1エコーキャンセル処理を行い、
    前記第1エコーキャンセル処理後の前記収音信号を用いて指向性を形成し、
    前記指向性を形成した後に、第2エコーキャンセル処理を行う、
    処理を収音装置に実行させるプログラム。
JP2018111926A 2017-06-12 2018-06-12 収音装置、放収音装置、信号処理方法、及びプログラム Active JP7334399B2 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201762518315P 2017-06-12 2017-06-12
US62/518,315 2017-06-12
US15/906,123 2018-02-27
US15/906,123 US20180358032A1 (en) 2017-06-12 2018-02-27 System for collecting and processing audio signals

Publications (2)

Publication Number Publication Date
JP2019004466A true JP2019004466A (ja) 2019-01-10
JP7334399B2 JP7334399B2 (ja) 2023-08-29

Family

ID=64334298

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018111926A Active JP7334399B2 (ja) 2017-06-12 2018-06-12 収音装置、放収音装置、信号処理方法、及びプログラム

Country Status (4)

Country Link
US (1) US20180358032A1 (ja)
JP (1) JP7334399B2 (ja)
CN (1) CN109036450A (ja)
DE (1) DE102018109246A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021133097A1 (ko) * 2019-12-27 2021-07-01 삼성전자 주식회사 전자 장치 및 신경망 기반의 잔여 에코 제거 방법

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105280195B (zh) * 2015-11-04 2018-12-28 腾讯科技(深圳)有限公司 语音信号的处理方法及装置
KR102580418B1 (ko) * 2017-02-07 2023-09-20 삼성에스디에스 주식회사 어쿠스틱 에코 제거 장치 및 방법
US11277685B1 (en) * 2018-11-05 2022-03-15 Amazon Technologies, Inc. Cascaded adaptive interference cancellation algorithms
EP3667662B1 (en) * 2018-12-12 2022-08-10 Panasonic Intellectual Property Corporation of America Acoustic echo cancellation device, acoustic echo cancellation method and acoustic echo cancellation program
CN109949820B (zh) * 2019-03-07 2020-05-08 出门问问信息科技有限公司 一种语音信号处理方法、装置及系统
CN110310625A (zh) * 2019-07-05 2019-10-08 四川长虹电器股份有限公司 语音断句方法及系统
CN110517703B (zh) 2019-08-15 2021-12-07 北京小米移动软件有限公司 一种声音采集方法、装置及介质
CN110954886B (zh) * 2019-11-26 2023-03-24 南昌大学 一种以二阶谱强度为参考的高频地波雷达一阶回波谱区域检测方法
CN110660407B (zh) * 2019-11-29 2020-03-17 恒玄科技(北京)有限公司 一种音频处理方法及装置
CN111161751A (zh) * 2019-12-25 2020-05-15 声耕智能科技(西安)研究院有限公司 复杂场景下的分布式麦克风拾音系统及方法
CN113645546B (zh) * 2020-05-11 2023-02-28 阿里巴巴集团控股有限公司 语音信号处理方法和系统及音视频通信设备
CN114023307B (zh) * 2022-01-05 2022-06-14 阿里巴巴达摩院(杭州)科技有限公司 声音信号处理方法、语音识别方法、电子设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004537233A (ja) * 2001-07-20 2004-12-09 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ エコー抑圧回路及びラウドスピーカ・ビームフォーマを有する音響補強システム
JP2010028653A (ja) * 2008-07-23 2010-02-04 Nippon Telegr & Teleph Corp <Ntt> エコー消去装置、エコー消去方法、そのプログラム、記録媒体
US20140056435A1 (en) * 2012-08-24 2014-02-27 Retune DSP ApS Noise estimation for use with noise reduction and echo cancellation in personal communication
JP2015037239A (ja) * 2013-08-13 2015-02-23 日本電信電話株式会社 残響抑圧装置とその方法と、プログラムとその記録媒体
WO2017052739A1 (en) * 2015-09-24 2017-03-30 Google Inc. Voice activity detection

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5012387B2 (ja) * 2007-10-05 2012-08-29 ヤマハ株式会社 音声処理システム
JP5293305B2 (ja) * 2008-03-27 2013-09-18 ヤマハ株式会社 音声処理装置
JP5386936B2 (ja) * 2008-11-05 2014-01-15 ヤマハ株式会社 放収音装置
CN104519212B (zh) * 2013-09-27 2017-06-20 华为技术有限公司 一种消除回声的方法及装置
JP6195073B2 (ja) * 2014-07-14 2017-09-13 パナソニックIpマネジメント株式会社 収音制御装置及び収音システム
GB2545263B (en) * 2015-12-11 2019-05-15 Acano Uk Ltd Joint acoustic echo control and adaptive array processing
US10433076B2 (en) * 2016-05-30 2019-10-01 Oticon A/S Audio processing device and a method for estimating a signal-to-noise-ratio of a sound signal
WO2018006856A1 (zh) * 2016-07-07 2018-01-11 腾讯科技(深圳)有限公司 一种回声消除的方法及终端、计算机存储介质
US10979805B2 (en) * 2018-01-04 2021-04-13 Stmicroelectronics, Inc. Microphone array auto-directive adaptive wideband beamforming using orientation information from MEMS sensors

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004537233A (ja) * 2001-07-20 2004-12-09 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ エコー抑圧回路及びラウドスピーカ・ビームフォーマを有する音響補強システム
JP2010028653A (ja) * 2008-07-23 2010-02-04 Nippon Telegr & Teleph Corp <Ntt> エコー消去装置、エコー消去方法、そのプログラム、記録媒体
US20140056435A1 (en) * 2012-08-24 2014-02-27 Retune DSP ApS Noise estimation for use with noise reduction and echo cancellation in personal communication
JP2015037239A (ja) * 2013-08-13 2015-02-23 日本電信電話株式会社 残響抑圧装置とその方法と、プログラムとその記録媒体
WO2017052739A1 (en) * 2015-09-24 2017-03-30 Google Inc. Voice activity detection

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021133097A1 (ko) * 2019-12-27 2021-07-01 삼성전자 주식회사 전자 장치 및 신경망 기반의 잔여 에코 제거 방법

Also Published As

Publication number Publication date
CN109036450A (zh) 2018-12-18
DE102018109246A1 (de) 2018-12-13
JP7334399B2 (ja) 2023-08-29
US20180358032A1 (en) 2018-12-13

Similar Documents

Publication Publication Date Title
JP7334399B2 (ja) 収音装置、放収音装置、信号処理方法、及びプログラム
JP7214379B2 (ja) 収音装置、収音方法及びプログラム
DK3253075T3 (en) A HEARING EQUIPMENT INCLUDING A RADIO FORM FILTER UNIT CONTAINING AN EXCHANGE UNIT
Araki et al. Exploring multi-channel features for denoising-autoencoder-based speech enhancement
KR101449433B1 (ko) 마이크로폰을 통해 입력된 사운드 신호로부터 잡음을제거하는 방법 및 장치
JP5444472B2 (ja) 音源分離装置、音源分離方法、及び、プログラム
US8462969B2 (en) Systems and methods for own voice recognition with adaptations for noise robustness
EP2701145A1 (en) Noise estimation for use with noise reduction and echo cancellation in personal communication
WO2012061145A1 (en) Systems, methods, and apparatus for voice activity detection
WO2013140399A1 (en) System and method for robust estimation and tracking the fundamental frequency of pseudo periodic signals in the presence of noise
WO2005125272A1 (ja) ハウリング抑圧装置、プログラム、集積回路、およびハウリング抑圧方法
US20120148056A1 (en) Method to reduce artifacts in algorithms with fast-varying gain
CN110495184B (zh) 拾音装置及拾音方法
CN111078185A (zh) 录制声音的方法及设备
WO2020074771A1 (en) Processing audio signals
CN106797517B (zh) 用于净化音频信号的多耳mmse分析技术
CN110199528B (zh) 远场声音捕获
Tashev et al. Microphone array post-processor using instantaneous direction of arrival
Taseska et al. Minimum Bayes risk signal detection for speech enhancement based on a narrowband DOA model
CN113838472A (zh) 一种语音降噪方法及装置
US20200243105A1 (en) Methods and apparatus for an adaptive blocking matrix
Jan et al. Joint blind dereverberation and separation of speech mixtures
US11495241B2 (en) Echo delay time estimation method and system thereof
JP6361360B2 (ja) 残響判定装置及びプログラム
KR101537653B1 (ko) 주파수 또는 시간적 상관관계를 반영한 잡음 제거 방법 및 시스템

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210517

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210517

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220518

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220614

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220909

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230110

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230316

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20230420

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20230420

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230614

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230614

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230718

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230731

R151 Written notification of patent or utility model registration

Ref document number: 7334399

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151