JP2022025908A - フィルタ処理方法、フィルタ処理装置、およびフィルタ処理プログラム - Google Patents

フィルタ処理方法、フィルタ処理装置、およびフィルタ処理プログラム Download PDF

Info

Publication number
JP2022025908A
JP2022025908A JP2020129083A JP2020129083A JP2022025908A JP 2022025908 A JP2022025908 A JP 2022025908A JP 2020129083 A JP2020129083 A JP 2020129083A JP 2020129083 A JP2020129083 A JP 2020129083A JP 2022025908 A JP2022025908 A JP 2022025908A
Authority
JP
Japan
Prior art keywords
filter
sound signal
signal
sound
speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020129083A
Other languages
English (en)
Inventor
良 田中
Makoto Tanaka
訓史 鵜飼
Norifumi Ukai
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2020129083A priority Critical patent/JP2022025908A/ja
Priority to EP21188168.5A priority patent/EP3945519A1/en
Priority to US17/386,631 priority patent/US20220036910A1/en
Publication of JP2022025908A publication Critical patent/JP2022025908A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0324Details of processing therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/04Circuits for transducers, loudspeakers or microphones for correcting frequency response
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/007Two-channel systems in which the audio signals are in digital form
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/307Frequency adjustment, e.g. tone control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02087Noise filtering the noise being separate speech, e.g. cocktail party
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Otolaryngology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】スペクトルに歪みを与えずに目的音の音声を分離するフィルタ処理方法、フィルタ処理装置およびフィルタ処理プログラムを提供する。【解決手段】フィルタ処理方法は、同じ音源の音がそれぞれ異なる音量で含まれている第1の音信号S1および第2の音信号S2を入力とし、第2の音信号S2に利得を1.0以下に制限した適応フィルタの係数を畳み込んでフィルタ信号を生成し、第1の音信号S1からフィルタ信号を除去する。【選択図】図4

Description

本発明の一実施形態は、音信号にフィルタ処理を行なうフィルタ処理方法、フィルタ処理装置、およびフィルタ処理プログラムに関する。
従来から、音信号から雑音成分を除去し、目的音として話者の音声を分離する音源分離装置が提案されている。例えば、特許文献1には、スペクトルサブトラクションを用いた雑音成分の除去方法が開示されている。
しかし、目的音と雑音成分の両方が音声である場合、特許文献1の様なスペクトルサブトラクションで目的音だけを分離することは困難である。
そこで、特許文献1は、目的音と雑音成分の両方が音声である場合でも、目的音を分離する音源分離装置を開示している。特許文献1の音源分離装置は、複数の音源信号のそれぞれのパワースペクトルを算出し、それぞれのパワースペクトルの差分を求める。音源分離装置は、求めたパワースペクトルの差分に基づいた利得で、音源信号の各周波数成分のレベルを変更する。
特開2001-100800号公報 再表2007-18293号公報
しかし、特許文献1の手法では、音源信号の各周波数成分に異なる利得を乗算する非線形処理を行なう。したがって、特許文献1の手法では、スペクトルに歪みを与える場合があり、音質を大きく劣化させてしまう場合がある。また、特許文献1の手法では、スペクトルの包絡成分に基づく信号処理(例えば音声認識処理)の精度を低下させてしまう。
そこで、本発明の一実施形態の目的の一つは、スペクトルに歪みを与えずに目的音の音声を分離するフィルタ処理方法、フィルタ処理装置、およびフィルタ処理プログラムを提供することにある。
本発明の一実施形態のフィルタ処理方法は、同じ音源の音がそれぞれ異なる音量で含まれている第1の音信号および第2の音信号を入力し、前記第2の音信号に適応フィルタの係数を畳み込んでフィルタ信号を生成し、前記第1の音信号から前記フィルタ信号を除去する。そして、フィルタ処理方法は、前記適応フィルタの係数の利得を1.0以下に制限する。
本発明の一実施形態によれば、スペクトルに歪みを与えずに目的音の音声を分離することができる。
収音装置1の外観概略図である。 収音装置1の構成を示すブロック図である。 プロセッサ12の機能的構成を示すブロック図である。 フィルタ処理方法を示すフローチャートである。 音声認識処理を行なう場合のプロセッサ12の機能的構成を示すブロック図である。 非線形処理を行なう場合のプロセッサ12の機能的構成を示すブロック図である。 変形例に係る収音装置1Aの外観概略図である。 音信号S3を入力する場合のプロセッサ12の機能的構成を示すブロック図である。
図1は、収音装置1の外観概略図である。収音装置1は、マイク15Aおよびマイク15Bを備えている。マイク15Aおよびマイク15Bは、それぞれ周囲の音を収音する。図1の例では、マイク15Aおよびマイク15Bは、それぞれ話者V1および話者V2の音声を収音する。
図2は、収音装置1の構成を示すブロック図である。収音装置1は、通信部11、プロセッサ12、RAM13、フラッシュメモリ14、マイク15A、およびマイク15Bを備えている。
収音装置1は、本発明のフィルタ処理装置の一例である。収音装置1は、マイク15Aおよびマイク15Bで取得した音信号にフィルタ処理を施す。図1において、マイク15Aで取得した音信号は、話者V1および話者V2の音声を含む。マイク15Bで取得した音信号も、話者V1および話者V2の音声を含む。
ここで、マイク15Aは、話者V1に近く、マイク15Bは、話者V2に近い。したがって、マイク15Aで取得した音信号における話者V1の音声の音量(以下、レベルと言う。)は、話者V2の音声のレベルよりも高い。また、マイク15Bで取得した音信号における話者V2の音声のレベルは、話者V1の音声のレベルよりも高い。つまり、マイク15Aで取得する音信号とマイク15Bで取得する音信号は、同じ音源の音がそれぞれ異なる音量で含まれている。
収音装置1は、マイク15Aで取得した音信号からレベルの低い話者V2の成分をフィルタ処理により除去する。また、収音装置1は、マイク15Bで取得した音信号からレベルの低い話者V1の成分をフィルタ処理により除去する。
収音装置1は、フィルタ処理を施した音信号を、例えば通信部11を介して他装置に送信する。なお、収音装置はさらにスピーカを備えていてもよい。この場合、スピーカは、通信部11を介して他装置から受信した音信号に基づいて放音する。この場合、収音装置1は、例えば遠隔地の他装置と接続して音声データの送受信を行なう遠隔会話装置を構成する。
プロセッサ12は、記憶媒体であるフラッシュメモリ14からプログラムを読み出し、RAM13に一時記憶することで、種々の動作を行う。プログラムは、フィルタ処理プログラム141を含む。フラッシュメモリ14は、他にもファームウェア等のプロセッサ12の動作用プログラムを記憶している。なお、プロセッサ12が読み出すプログラムは、自装置内のフラッシュメモリ14に記憶されている必要はない。例えば、プログラムは、サーバ等の外部装置の記憶媒体に記憶されていてもよい。この場合、プロセッサ12は、該サーバから都度プログラムをRAM13に読み出して実行すればよい。
マイク15Aは、第1の音信号S1を取得し、マイク15Bは、第2の音信号S2を取得する。なお、マイク15Aおよびマイク15Bは、それぞれ取得した音信号をデジタル変換してプロセッサ12に出力する。
プロセッサ12は、マイク15Aおよびマイク15Bで取得した音信号S1および音信号S2に対し、フィルタ処理を施す。図3は、プロセッサ12の機能的構成を示すブロック図である。図4は、フィルタ処理方法を示すフローチャートである。
プロセッサ12は、機能的に、フィルタバンク解析部121A、フィルタバンク解析部121B、フィルタ係数算出部122、フィルタ係数制限部123、FIR(Finite Impulse Response)フィルタ124、加算器125、およびフィルタバンク合成部126を備える。これら構成は、フィルタ処理プログラム141により実現される。
まず、プロセッサ12は、マイク15Aで取得した音信号S1およびマイク15Bで取得した音信号S2を入力する(S11)。これにより、プロセッサ12は、入力部として機能する。上述した様に、マイク15Aで取得した音信号S1およびマイク15Bで取得した音信号S2は、それぞれ話者V1および話者V2の音声を含む。
フィルタバンク解析部121Aは、マイク15Aで取得した音信号S1を周波数軸の音信号F1に変換し、個々の周波数成分を抽出する(S12)。同様に、フィルタバンク解析部121Bは、マイク15Bで取得した音信号S2を周波数軸の音信号F2に変換し、個々の周波数成分を抽出する(S12)。
フィルタ係数算出部122は、FIRフィルタ124のフィルタ係数C2を算出する(S13)。フィルタ係数C2は、FIRフィルタ124において音信号F2の各周波数成分に乗算する複素数で表現された係数である。
フィルタ係数制限部123は、フィルタ係数算出部122で算出されたフィルタ係数C2の利得を1.0以下に制限し(S14)、補正フィルタ係数C2’を算出する。これにより、フィルタ係数制限部123は、音信号F2の各周波数成分を増幅しないようにする。
FIRフィルタ124は、音信号F2に補正フィルタ係数C2’を畳み込んでフィルタ信号F2’を生成する(S15)。フィルタ係数C2は、フィルタ係数算出部122により更新されるため、補正フィルタ係数C2’も更新される。したがって、FIRフィルタ124は、適応フィルタとして機能する。
加算器125は、音信号F1からフィルタ信号F2’を減算し、音信号F1からフィルタ信号F2’の成分を除去する(S16)。加算器125は、減算後の音信号F1’を出力する。加算器125は、本発明の除去部に相当する。
フィルタバンク合成部126は、音信号F1’を時間軸の音信号S1’に変換する(S17)。
フィルタ係数算出部122は、音信号F2および音信号F1を入力する。フィルタ係数算出部122は、LMS(Least Mean Squares)等所定のアルゴリズムを用いてフィルタ係数を更新する。フィルタ係数算出部122は、音信号F2にフィルタ係数C2を畳み込んで更新用フィルタ信号を生成する。フィルタ係数算出部122は、当該更新用フィルタ信号を音信号F1から減算し、減算した後の信号を参照信号として、当該参照信号のレベルが最小となるようなフィルタ係数C2に更新する。算出したフィルタ係数C2は、時間経過とともに音信号F1に含まれる話者V2の音声を当該更新用フィルタ信号で除去するための係数に更新される。これにより、FIRフィルタ124の補正フィルタ係数C2’も音信号F1に含まれる話者V2の音声をフィルタ信号F2’で除去するための係数に更新される。
しかし、音信号F1および音信号F2は、いずれも話者V1の音声を含む。フィルタ係数算出部122は、上記参照信号のレベルが最小となるようなフィルタ係数C2を求めるため、音信号F1から話者V2の音声だけでなく話者V1の音声も除去するようなフィルタ係数C2に更新する。ただし、音信号F1の話者V1の音声のレベルは音信号F2の話者V1の音声のレベルより高い。したがって、フィルタ係数算出部122は、音信号F1から話者V1の音声を除去するために、1.0の利得を超える係数を算出する。
一方で、フィルタ係数制限部123は、フィルタ係数の利得を1.0以下に制限する。そのため、フィルタ信号F2’に含まれる話者V1の音声は、音信号F1に含まれる話者V1の音声よりも低いレベルになる。よって、音信号F1に含まれる話者V1の音声は、フィルタ信号F2’で除去されずに残る。
これにより、プロセッサ12は、話者V2の音声を雑音成分として除去し、話者V1の音声を目的音として分離することができる。
なお、音信号F1から話者V2の音声を除去して、話者V1の音声を除去しない様にするために、フィルタ係数算出部122は、音信号F2に含まれる話者V2の音声のレベルが高い場合に限り、フィルタ係数を更新することが好ましい。言い換えると、音信号F2に含まれる話者V2の音声のレベルが低い場合にはフィルタ係数を更新しないことが好ましい。そこで、フィルタ係数算出部122は、音信号F1に対する音信号F2の音量比(F2/F1)が所定の閾値を超える周波数成分に限り、フィルタ係数C2を更新してもよい。
なお、閾値はどの様な値であってもよい。例えば、閾値が1.0の場合、フィルタ係数算出部122は、音信号F2のレベルが音信号F1のレベルよりも大きい周波数成分に限り、フィルタ係数C2を更新する。したがって、閾値が1.0の場合、プロセッサ12は、雑音成分となる音声がマイク15Aよりもマイク15Bにおいて高レベルで収音された場合に限り当該音声を除去するフィルタ係数を算出する。閾値が1.0よりも大きな所定値(例えば1.5程度)の場合、プロセッサ12は、除去対象の雑音成分の音声がさらに大きなレベルの場合にのみ、フィルタ係数を更新する。そのため、フィルタ係数の更新が、音信号F1または話者V2の音声以外の外来雑音の影響を受けにくくなる。したがって、フィルタ係数の精度が向上し、フィルタ処理の効果が強くなる。すなわち、閾値は、1.0より大きな値において除去したい話者V2の音声の混入の度合いに応じて適宜設定することで、雑音成分とみなす音声を除去する効果を任意に設定することができる。
同様の処理は、マイク15Bで取得した音信号S2に対しても行なわれる。プロセッサ12は、音信号S2を周波数変換した音信号F2から、音信号S1のフィルタ信号を減算することで、話者V1の音声を除去し、話者V2の音声を目的音として分離することができる。
以上の構成により、収音装置1は、話者V1および話者V2が同時に発話した場合でも、話者V1および話者V2の音声をそれぞれ分離することができる。
本実施形態の収音装置1は、適応フィルタのフィルタ信号を音信号から減算する線形処理により目的音を分離するため、音信号のスペクトルに歪みを与えずに目的音の音声を分離することができる。
スペクトルの包絡成分は、人の声道特性に対応し、音声認識処理において非常に重要な情報である。そのため、本実施形態における目的音の分離は、音声認識処理に好適である。
図5は、さらに音声認識処理を行なう場合のプロセッサ12の機能的構成を示すブロック図である。図5のプロセッサ12は、さらに音声認識処理部127を備える。その他の構成は、図3に示したブロック図と同一である。
音声認識処理部127は、加算器125の出力信号に基づいて、音声認識処理を行なう。すなわち、音声認識処理部127は、話者V1の音声が分離された音信号F1’を用いて音声認識処理を行なう。上述の様に、本実施形態の収音装置1は、線形処理により話者V1の音声を分離するため、スペクトルの包絡成分に歪みを与えることがない。したがって、音声認識処理部127における音声認識の精度が向上する。
ただし、プロセッサ12は、フィルタ処理を施した音信号を遠隔地の他装置に送信する等して人が聞く場合、非線形処理を行なってもよい。
図6は、非線形処理を行なう場合のプロセッサ12の機能的構成を示すブロック図である。図6のプロセッサ12は、さらに非線形処理部128を備える。その他の構成は、図3に示したブロック図と同一である。
非線形処理部128は、加算器125の出力信号に非線形処理を行なう。非線形処理はどの様なものであってもよい。非線形処理は、スペクトルサブトラクションまたはウィーナーフィルタを用いて、音信号F1’からフィルタ信号F2’を除去する処理である。あるいは、非線形処理は、スペクトルサブトラクションまたはウィーナーフィルタを用いて、音信号F1’から残響成分を除去する処理であってもよい。また、非線形処理は、スペクトルサブトラクションまたはウィーナーフィルタを用いて、音信号F1’から定常ノイズ成分を除去する処理であってもよい。この様にして非線形処理部128は、例えば話者V1の音声を強調する処理を行なう。
次に、図7は、変形例に係る収音装置1Aの外観概略図である。変形例に係る収音装置1Aは、さらにマイク15Cを備えている。その他の構成は収音装置1と同一である。図7の例では、マイク15A、マイク15Bおよびマイク15Cは、それぞれ話者V1、話者V2、および話者V3の音声を収音する。マイク15Cは、音信号S3を取得する。マイク15Cで取得した音信号S3も、話者V1、話者V2、および話者V3の音声の成分を含む。ただし、音信号S3における話者V3の音声のレベルは、他の話者V1および話者V2のレベルよりも高い。
図8は、さらに音信号S3を入力する場合のプロセッサ12の機能的構成を示すブロック図である。プロセッサ12は、さらにフィルタバンク解析部121Cを備えている。フィルタバンク解析部121Cは、音信号S3を周波数軸の音信号F3に変換し、個々の周波数成分を抽出する。
フィルタ係数算出部122は、音信号F2,F3および音信号F1に基づいて、FIRフィルタ124のフィルタ係数を算出する。この例では、フィルタ係数算出部122は、フィルタ係数C2およびフィルタ係数C3を算出する。フィルタ係数制限部123は、フィルタ係数C2およびフィルタ係数C3の利得を1.0以下に制限した補正フィルタ係数C2’および補正フィルタ係数C3’を生成する。FIRフィルタ124は、補正フィルタ係数C2’および補正フィルタ係数C3’を、音信号F2および音信号F3に畳み込み、フィルタ信号F’を生成する。言い換えると、フィルタ信号F’は、音信号F2,F3に、補正フィルタ係数C2’,C3’をそれぞれ畳み込んだ和(F2*C2’+F3*C3’)で求められる。
音信号S2に含まれる話者V1の音声のレベルは、音信号S1に含まれる話者V1のレベルよりも低い。同じく、音信号S3に含まれる話者V1の音声のレベルは、音信号S1に含まれる話者V1のレベルよりも低い。したがって、フィルタ係数算出部122は、音信号S1に含まれる話者V1の音声を除去するために、利得1.0を超えるフィルタ係数C2,C3を算出する。しかし、フィルタ係数制限部123は、フィルタ係数C2およびフィルタ係数C3の利得を1.0以下に制限する。したがって、音信号S1からは、話者V2および話者V3の音声が除去され、話者V1の音声が分離される。
音信号S2および音信号S3に対する処理も同様である。音信号S2からは、話者V1および話者V3の音声が除去され、話者V2の音声が分離される。音信号S3からは、話者V1および話者V2の音声が除去され、話者V3の音声が分離される。
音信号の数がさらに増える場合も同様である。第2の音信号がN個の音信号を含む場合、フィルタ係数は、N個算出される。フィルタ信号は、N個の音信号とN個のフィルタ係数をそれぞれ畳み込んだ和(F1*C1’+F2*C2’+・・・+FN*CN’)で求められる。N個の音信号からは、それぞれ最もレベルの高い音声成分が分離される。
この様に、プロセッサ12は、さらに多数の話者の音声が含まれている場合で、複数の話者が同時に発話した場合でも、各マイクに最も近く、最もレベルの高い話者の音声を目的音として分離することができる。
本実施形態の説明は、すべての点で例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上述の実施形態ではなく、特許請求の範囲によって示される。さらに、本発明の範囲は、特許請求の範囲と均等の範囲を含む。
例えば、本実施形態では、周波数軸の音信号F2にフィルタ係数C2’を畳み込み、音信号F1から減算した後の音信号F1’を時間軸の音信号に変換した。しかし、FIRフィルタ124は、時間軸の音信号S2にフィルタ係数を畳み込んで時間軸のフィルタ信号を生成してもよい。この場合、加算器125は、当該時間軸のフィルタ信号を音信号S1から減算する。この場合でも、フィルタ係数算出部122は、周波数軸の音信号F1およびF2を入力して、周波数軸の補正フィルタ係数C2を算出する。フィルタ係数制限部123は、周波数軸のフィルタ係数C2の利得を1.0以下に制限する。利得が制限された補正フィルタ係数C2’は、時間軸のフィルタ係数に変換される。FIRフィルタ124は、当該時間軸のフィルタ係数を時間軸の音信号S2に畳み込んでフィルタ信号を生成する。
1,1A…収音装置
11…通信部
12…プロセッサ
13…RAM
14…フラッシュメモリ
15A,15B,15C…マイク
121A,121B,121C…フィルタバンク解析部
122…フィルタ係数算出部
123…フィルタ係数制限部
124…FIRフィルタ
125…加算器
126…フィルタバンク合成部
127…音声認識処理部
128…非線形処理部
141…フィルタ処理プログラム

Claims (13)

  1. 同じ音源の音がそれぞれ異なる音量で含まれている第1の音信号および第2の音信号を入力し、
    前記第2の音信号に適応フィルタの係数を畳み込んでフィルタ信号を生成し、
    前記第1の音信号から前記フィルタ信号を除去する、
    フィルタ処理方法であって、
    前記適応フィルタの係数の利得を1.0以下に制限する、
    フィルタ処理方法。
  2. 前記フィルタ信号を除去した後の第1の音信号を用いて音声認識処理を行なう、
    請求項1に記載のフィルタ処理方法。
  3. 前記フィルタ信号を除去した後の第1の音信号にさらに非線形処理を行なう、
    請求項1に記載のフィルタ処理方法。
  4. 前記第2の音信号は、N個の音信号を含み、
    前記適応フィルタの係数は、前記N個の係数を含み、
    前記フィルタ信号は、前記N個の音信号に前記N個の係数をそれぞれ畳み込んだ和で求められる、
    請求項1乃至請求項3のいずれか1項に記載のフィルタ処理方法。
  5. 前記制限は、周波数成分毎の利得を制限する処理である、
    請求項1乃至請求項4のいずれか1項に記載のフィルタ処理方法。
  6. 前記第1の音信号に対する前記第2の音信号の音量比が所定の閾値を超える場合に、前記係数を更新する、
    請求項1乃至請求項5のいずれか1項に記載のフィルタ処理方法。
  7. 同じ音源の音がそれぞれ異なる音量で含まれている第1の音信号および第2の音信号を入力する入力部と、
    前記第2の音信号に係数を畳み込んでフィルタ信号を生成する適応フィルタと、
    前記第1の音信号から前記フィルタ信号を除去する除去部と、
    前記適応フィルタの係数の利得を1.0以下に制限するフィルタ係数制限部と、
    を備えたフィルタ処理装置。
  8. 前記フィルタ信号を除去した後の第1の音信号を用いて音声認識処理を行なう音声認識処理部を備えた、
    請求項7に記載のフィルタ処理装置。
  9. 前記フィルタ信号を除去した後の第1の音信号にさらに非線形処理を行なう非線形処理部を備えた、
    請求項7に記載のフィルタ処理装置。
  10. 前記フィルタ係数制限部は、周波数成分毎の利得を制限する、
    請求項7乃至請求項9のいずれか1項に記載のフィルタ処理装置。
  11. 前記係数は、前記第1の音信号に対する前記第2の音信号の音量比が所定の閾値を超える場合に更新される、
    請求項7乃至請求項10のいずれか1項に記載のフィルタ処理装置。
  12. 前記第2の音信号は、N個の音信号を含み、
    前記適応フィルタの係数は、前記N個の係数を含み、
    前記フィルタ信号は、前記N個の音信号に前記N個の係数をそれぞれ畳み込んだ和で求められる、
    請求項7乃至請求項11のいずれか1項に記載のフィルタ処理装置。
  13. 同じ音源の音がそれぞれ異なる音量で含まれている第1の音信号および第2の音信号を入力し、
    前記第2の音信号に適応フィルタの係数を畳み込んでフィルタ信号を生成し、
    前記第1の音信号から前記フィルタ信号を除去する、
    処理をコンピュータに実行させるフィルタ処理プログラムであって、
    前記適応フィルタの係数の利得を1.0以下に制限する、
    処理をコンピュータに実行させるフィルタ処理プログラム。
JP2020129083A 2020-07-30 2020-07-30 フィルタ処理方法、フィルタ処理装置、およびフィルタ処理プログラム Pending JP2022025908A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2020129083A JP2022025908A (ja) 2020-07-30 2020-07-30 フィルタ処理方法、フィルタ処理装置、およびフィルタ処理プログラム
EP21188168.5A EP3945519A1 (en) 2020-07-30 2021-07-28 Filtering method, filtering device, and filtering program
US17/386,631 US20220036910A1 (en) 2020-07-30 2021-07-28 Filtering method, filtering device, and storage medium stored with filtering program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020129083A JP2022025908A (ja) 2020-07-30 2020-07-30 フィルタ処理方法、フィルタ処理装置、およびフィルタ処理プログラム

Publications (1)

Publication Number Publication Date
JP2022025908A true JP2022025908A (ja) 2022-02-10

Family

ID=77103963

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020129083A Pending JP2022025908A (ja) 2020-07-30 2020-07-30 フィルタ処理方法、フィルタ処理装置、およびフィルタ処理プログラム

Country Status (3)

Country Link
US (1) US20220036910A1 (ja)
EP (1) EP3945519A1 (ja)
JP (1) JP2022025908A (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7187183B2 (ja) * 2018-06-14 2022-12-12 株式会社トランストロン エコー抑圧装置、エコー抑圧方法およびエコー抑圧プログラム

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3176474B2 (ja) * 1992-06-03 2001-06-18 沖電気工業株式会社 適応ノイズキャンセラ装置
US5473701A (en) * 1993-11-05 1995-12-05 At&T Corp. Adaptive microphone array
US5627896A (en) * 1994-06-18 1997-05-06 Lord Corporation Active control of noise and vibration
JP3484112B2 (ja) 1999-09-27 2004-01-06 株式会社東芝 雑音成分抑圧処理装置および雑音成分抑圧処理方法
US7617099B2 (en) * 2001-02-12 2009-11-10 FortMedia Inc. Noise suppression by two-channel tandem spectrum modification for speech signal in an automobile
CN101238511B (zh) 2005-08-11 2011-09-07 旭化成株式会社 声源分离装置、音频识别装置、移动电话机、声源分离方法
EP1976122A1 (en) * 2007-03-31 2008-10-01 Sony Deutschland Gmbh Adaptive filter device
US9202475B2 (en) * 2008-09-02 2015-12-01 Mh Acoustics Llc Noise-reducing directional microphone ARRAYOCO
WO2014205141A1 (en) * 2013-06-18 2014-12-24 Creative Technology Ltd Headset with end-firing microphone array and automatic calibration of end-firing array
US11211061B2 (en) * 2019-01-07 2021-12-28 2236008 Ontario Inc. Voice control in a multi-talker and multimedia environment
US10789933B1 (en) * 2019-07-19 2020-09-29 Cirrus Logic, Inc. Frequency domain coefficient-based dynamic adaptation control of adaptive filter

Also Published As

Publication number Publication date
EP3945519A1 (en) 2022-02-02
US20220036910A1 (en) 2022-02-03

Similar Documents

Publication Publication Date Title
JP4913155B2 (ja) 音響エコーキャンセラ
US20060206320A1 (en) Apparatus and method for noise reduction and speech enhancement with microphones and loudspeakers
US20030185411A1 (en) Single channel sound separation
JP2007522706A (ja) オーディオ信号処理システム
WO2012053629A1 (ja) 音声処理装置及び音声処理方法
US11398220B2 (en) Speech processing device, teleconferencing device, speech processing system, and speech processing method
US20080004868A1 (en) Sub-band periodic signal enhancement system
JP2022025908A (ja) フィルタ処理方法、フィルタ処理装置、およびフィルタ処理プログラム
JP2007251354A (ja) マイクロホン、音声生成方法
CN113593518A (zh) 一种啸叫抑制方法、装置、入耳式耳机及存储介质
CN115620737A (zh) 语音信号处理装置、方法、电子设备和扩音系统
KR101789781B1 (ko) 낮은 임피던스의 단일 마이크에 의한 음성 신호로부터 잡음을 감쇄시키는 장치 및 방법
JP4527654B2 (ja) 音声通信装置
RU2589298C1 (ru) Способ повышения разборчивости и информативности звуковых сигналов в шумовой обстановке
JP2023544253A (ja) バイノーラル記録を処理するための方法及びデバイス
JP4185984B2 (ja) 音信号の加工装置および加工方法
JPH06289898A (ja) 音声信号処理装置
JP3847989B2 (ja) 信号抽出装置
CN114501211A (zh) 具有丽音通透性的主动降噪电路、方法、设备及存储介质
CN111699701B (zh) 声音信号处理装置和声音信号处理方法
JPH0956000A (ja) 補聴器
CN113870882A (zh) 啸叫抑制方法、系统、存储介质及耳机设备
JP3292098B2 (ja) 聴覚補助装置
van Waterschoot et al. Adaptive feedback cancellation for audio signals using a warped all-pole near-end signal model
JP2021097292A (ja) エコーキャンセル装置、エコーキャンセル方法およびエコーキャンセルプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230525

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240327

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240423

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240621