JP2023165528A - ビームフォーミング方法、ビームフォーミングシステム - Google Patents

ビームフォーミング方法、ビームフォーミングシステム Download PDF

Info

Publication number
JP2023165528A
JP2023165528A JP2022076676A JP2022076676A JP2023165528A JP 2023165528 A JP2023165528 A JP 2023165528A JP 2022076676 A JP2022076676 A JP 2022076676A JP 2022076676 A JP2022076676 A JP 2022076676A JP 2023165528 A JP2023165528 A JP 2023165528A
Authority
JP
Japan
Prior art keywords
filter
beamforming
mvdr
signal
input signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022076676A
Other languages
English (en)
Inventor
信彦 昼間
Nobuhiko Hiruma
洋一 藤坂
Yoichi Fujisaka
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Rion Co Ltd
Original Assignee
Rion Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rion Co Ltd filed Critical Rion Co Ltd
Priority to JP2022076676A priority Critical patent/JP2023165528A/ja
Priority to PCT/JP2023/017083 priority patent/WO2023214571A1/ja
Publication of JP2023165528A publication Critical patent/JP2023165528A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/0308Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】適切なビームフォーミングを実現する方法、装置及びシステムを提供する。【解決手段】入力を2チャンネルとした両耳聴取装置100の両耳ビームフォーマ1において、複数のマイクロホンに入力した音に対応する入力信号に対し、最小分散無歪応答法(minimum variance distortionless response;MVDR)を用いてビームフォーミングを行うビームフォーミング方法は、所定の設計がなされたMVDRフィルタ24-1~24-4に入力信号を通した結果に基づいて係数を算出し、係数を用いてFIRフィルタ27-1~27-4を切り替えるフィルタ更新工程と、入力信号をFIRフィルタで畳み込む畳み込み工程と、を含む。【選択図】図4

Description

本発明は、ビームフォーミング、特に、最小分散無歪応答法(minimum variance distortionless response;以下、「MVDR」と称する。)を用いた両耳ビームフォーミングの方法及びその方法を適用した装置やシステムに関する。
MVDRを用いた両耳ビームフォーミングは、所望の音声の空間情報を保持することが保証されているアルゴリズムであるものの、雑音の空間情報が歪み、雑音も所望の音声と同一方向から到来するように知覚されてしまうことが知られている(例えば、非特許文献1を参照。)。
また、両耳間相互相関度(interaural coherence;以下、「IC」と称する。)、両耳間レベル差及び両耳間時間差等のバイノーラルキューが、音源の定位の幅や拡散性を決定し、空間知覚に大きな役割を果たし、所望の音声と雑音との空間的分離が音声受信閾値(speech reception threshold;以下、「SRT」と称する。)の改善に役立つことが知られている(例えば、非特許文献2-4を参照。)。
Daniel Marquardtら著,「Interaural Coherence Preservation for Binaural Noise Reduction Using Partial Noise Estimation and Spectral Postfiltering」,「IEEE/ACM Transaction on Audio, Speech, and Language processing」,Vol.26,No.7,2018年7月 A. W. Bronkhorstら著,「The effect of head-induced interaural time and level differences on speech intelligibility in noise」,The Journal of the Acoustical Society of America,Vol.83,No.4,p.1508-1516,1988年4月 Iris Arweilerら著,「The influence of spectral characteristics of early reflections on speech intelligibility」,The Journal of the Acoustical Society of America,Vol.130,No.2,p.996-1005,2011年8月 Monica L. Hawleyら著,「The benefit of binaural hearing in a cocktail party: Effect of location and type of interferer」,The Journal of the Acoustical Society of America,Vol.115,No.2,p.833-843,2004年
上述したような背景の下で、ICを保持したMVDR-ICが提案されており、MVDR-ICを用いることで所望の音声のバイノーラルキューと拡散性雑音のICの特性を保持した処理が可能とされている。しかしながら、MVDR-ICのアルゴリズムにおいては、雑音抑圧とIC保持との間でトレードオフが生じるため、この点に関して改善が求められる。
そこで、本発明は、適切なビームフォーミングを実現する技術の提供を課題とする。
上記の課題を解決するため、本発明は以下のビームフォーミング方法及びこの方法が適用されたビームフォーミングシステム(ビームフォーミング装置)を採用する。なお、以下の括弧書中の文言はあくまで例示であり、本発明はこれに限定されるものではない。
すなわち、本発明の第1態様のビームフォーミング方法は、複数のマイクロホンに入力した音に対応する入力信号に対し、MVDRを用いてビームフォーミングを行うビームフォーミング方法であって、所定の設計がなされたMVDRフィルタに入力信号を通した結果に基づいて係数を算出し、係数を用いてFIRフィルタを切り替えるフィルタ更新工程と、入力信号をFIRフィルタで畳み込む畳み込み工程とを含んでいる。
好ましくは、第1態様のビームフォーミング方法において、MVDRフィルタは、入力信号に含まれる雑音成分の両耳間相互相関度を保持する度合いを踏まえて設計されている(第2態様)。
より好ましくは、第2態様のビームフォーミング方法において、度合いを変更可能とする調整工程をさらに含んでいる(第3態様)。
さらに好ましくは、第3態様のビームフォーミング方法において、MVDRフィルタは、そのコスト関数が度合いを制御するパラメータを含んだ式で表され、調整工程では、パラメータの値を変更可能とする(第4態様)。
MVDRフィルタを用いて拡散性雑音成分のICを保持したビームフォーミングを行う場合、すなわちMVDR-ICのアルゴリズムによりビームフォーミングを行う場合には、雑音抑圧性能とIC保持性能との間でトレードオフが生じる。
これに対し、上述したいずれかの態様のビームフォーミング方法においては、MVDRフィルタに所定の設計、より具体的には入力信号に含まれる雑音成分のIC保持の度合い(ひいてはトレードオフの度合い)を踏まえた設計がなされており、さらに、その度合い、より具体的には、度合いを制御するパラメータの値を変更可能とされている。したがって、上述したいずれかの態様のビームフォーミング方法によれば、畳み込み工程を経て外部に出力された音をユーザが確認しながらパラメータを適宜調整したり、或いは、環境に応じてパラメータを自動的に調整したりすることで、聴取環境に応じた適切なビームフォーミングを実現することができる。
また、好ましくは、上述した態様のビームフォーミング方法において、畳み込み工程では、第1の信号経路上で、入力信号を畳み込み、フィルタ更新工程では、第1の信号経路から分岐した第2の信号経路上で、入力信号に対応する周波数領域の信号に対して周波数帯域毎に所定の演算を行う周波数領域のゲインにMVDRのゲインを掛けた結果に基づいて、係数を算出する(第5態様)。
入力信号に対する周波数領域での各種のフィルタリングが第1の信号経路上で実行される場合には、周波数分析を行うまでの入力バッファリング及びフィルタリング後に周波数領域の信号を時間領域に合成する際に生じる遅延が周波数分解能に応じて大きくなることが問題となる。
これに対し、第5態様のビームフォーミング方法においては、第1の信号経路上から分岐した第2の信号経路上で周波数領域での周波数帯域毎に各種のゲイン演算が実行されて、この過程でMVDRのゲインが適用され、その結果を踏まえた係数が第2の信号経路上で算出されて第1の信号経路上のFIRフィルタに供給される。したがって、第5態様のビームフォーミング方法によれば、分析および合成による遅延がなく、第1の信号経路上のFIRフィルタによってフィルタリングが達成可能なため、ビームフォーミングを低遅延で実現することができ、より自然な聞こえを実現することができる。
以上のように、本発明によれば、適切なビームフォーミングを実現することができる。
一実施形態の両耳ビームフォーマ1を備えた両耳聴取装置100の構成例を簡略的に示すブロック図である。 両耳ビームフォーミングの基本構成例を示す図である。 両耳ビームフォーミングの基本構成例をより具体的に示す図である。 入力を2チャンネルとした両耳聴取装置100の構成例を詳細に示すブロック図である。 実施形態のフィルタバンクにおける処理の流れの一例を示す図である。 比較例のフィルタバンクにおける処理の流れの一例を示す図(1/2)である。 比較例のフィルタバンクにおける処理の流れの一例を示す図(2/2)である。 入力チャンネル数を増やした場合における両耳ビームフォーミングの基本構成例を示す図である。
以下、本発明の実施の形態について、図面を参照しながら説明する。なお、以下の実施形態は好ましい例示であり、本発明はこの例示に限定されるものではない。
図1は、一実施形態の両耳ビームフォーマ(両耳ビームフォーミング装置、両耳ビームフォーミングシステム)1を備えた両耳聴取装置100の構成例を簡略的に示すブロック図である。
両耳ビームフォーマ1は、周波数帯域毎にゲインを適用可能とした様々な両耳聴取装置(例えば、補聴器等)に搭載することができる。両耳聴取装置100は、例えば、複数チャンネルを有する音入力部10と、両耳ビームフォーマ1及びパラメータ調整部2を有する信号処理部20と、左右の2チャンネルを有する音出力部30と、ユーザの操作を受け付ける操作入力部40とで構成される。
音入力部10は、マイクロホンであり、複数のマイクロホンに入力した音を電気信号に変換して(以下、この信号を「入力信号」と称する。)、信号処理部20に送る。これを受けて、両耳ビームフォーマ1は、各マイクロホンの入力信号に対し、MVDRを用いたビームフォーミングを含む各種の信号処理を行って、処理後の信号を音出力部30に出力する。両耳ビームフォーマ1には、MVDR-ICのアルゴリズムが適用されている。なお、MVDRフィルタの詳細については、詳しく後述する。音出力部30は、マイクロホンやスピーカであり、両耳ビームフォーマ1から出力された左右の各チャンネル向けの信号を音に変換して外部に出力する。信号処理部20は、例えば、DSP(digital signal processor)等のプロセッサによる信号処理によって実装可能である。
ところで、両耳ビームフォーマ1での処理においては、上述したようにIC保持と雑音抑圧との間でトレードオフが生じる。そこで、両耳聴取装置100には、両耳ビームフォーマ1に対してトレードオフを外部から制御するための構成が設けられている。具体的には、雑音成分のIC保持の度合いを制御するためのパラメータ(以下、「トレードオフパラメータ」と称する。)に関し、例えば、複数種類の設定値がプリセットされており、ユーザの選択に応じて聴取環境に適したトレードオフパラメータに調整可能とされている。
操作入力部40は、例えば、操作ボタンやタッチパネル等である。操作入力部40は、ユーザの操作に応じて、トレードオフパラメータの設定値の変更を受け付けてパラメータ調整部2に通知する。これを受けて、パタメータ調整部2は、両耳ビームフォーマ1が処理の過程で使用するトレードオフパラメータの設定値をユーザにより選択された設定値に変更する。これにより、両耳ビームフォーマ1は、変更後のトレードオフパラメータを用いて、より正確には、トレードオフパラメータを用いた式をMVDRフィルタのコスト関数として、信号処理を行うこととなる。
なお、両耳ビームフォーマ1は、パラメータ調整部2を介して調整されうるトレードオフパラメータを用いて信号処理を行うことから、パラメータ調整部2を両耳ビームフォーマ1の一部として捉える(すなわち、信号処理部20全体を両耳ビームフォーマ1として捉える)ことも可能である。
また、上述したトレードオフパラメータの調整態様は、あくまで一例として挙げたものであり、これに限定されない。例えば、トレードオフパラメータに関して複数種類の設定値をプリセットするのに代えて、環境に応じたトレードオフパラメータを自動的に調整し適応アルゴリズム等を適用して自動化することも可能である。また、トレードオフパラメータの値を自動的に徐々に変更していき、変更後のトレードオフパラメータが反映された音をユーザがイヤホンで確認しながら、聞こえが最も良好であるとユーザが感じたところで操作入力部40を操作すると、その時点でのトレードオフパラメータの値を保存し、学習するよう構成することも可能である。
図2は、両耳ビームフォーマ1におけるビームフォーミングの基本構成例を示す図である。図2中の「w」は、左チャンネル出力用のMVDRフィルタであり、「w」は、右チャンネル出力用のMVDRフィルタである。
入力を2チャンネルとする場合には、図2に示されるように、フィルタw及びフィルタwのそれぞれに、入力2チャンネルの入力信号y,yが入力され、各フィルタw,wにおいて入力信号の指向性を分析した結果として、フィルタwからは信号zが出力され、フィルタwからは信号zが出力される。
図中の各信号は、以下の数式により定義される。なお、説明の便宜のため、定義の表現においては、左チャンネルに対応する信号を添え字が「L」の変数で表し、右チャンネルに対応する信号を添え字が「R」の変数で表している。また、左右両チャンネルの信号が重ねられた信号については、各チャンネルの信号と同じ変数を用いつつ書体を異ならせて表している。
Figure 2023165528000002
上記の数式において、「y」は入力信号を示し、「x」は入力信号に含まれる所望の音声信号(以下、単に「音声信号」と称する。)を示し、「n」は入力信号に含まれる雑音信号を示している。雑音信号に関して、「n」は指向性雑音信号を示し、「n」は拡散性雑音信号を示している。また、「s」はドライソースの音声信号を示し、「a」は音響伝達関数(acoustic transfer function;以下、「ATF」と称する。)、すなわち所望の音声が音源からマイクロホンに到達するまでの伝達関数を示している。「T」は転置を示している。これらの定義を踏まえ、MVDRフィルタのコスト関数JMVDRは、次の数式で表すことができる。
Figure 2023165528000003
上記の数式から分かるように、コスト関数JMVDRによれば、音声信号の保存が保証される。そして、このコスト関数JMVDRを最小化する解w,wは、それぞれ以下の数式により求められる。
Figure 2023165528000004
なお、上記の数式において、「*」及び「H」はいずれも共役転置を示し、「E」は期待値を示している。
ところで、上述したように「a」は所望の音声のATFを表しているが、これを実際の環境で直接的に推定することは困難である。そこで、フィルタ係数は、事前に音声区間及び雑音区間が既知であることを前提として、次の数式により算出される。
Figure 2023165528000005
なお、上記の数式において、「N」は入力チャンネル数を示している。
MVDRは、音声信号の歪みを最小化する上では最適なフィルタとなるが、その一方で、雑音信号も音声信号と同一方向から到来するように知覚されることが問題となる。この点に関し、拡散した雑音環境において所望の音声成分及び雑音成分がいずれも同一方向から到来する場合に、50%の音声明瞭度に相当するSRTは改善しないことが、上記の非特許文献4にて報告されている。そこで、両耳ビームフォーマ1においては、出力音声成分と残留雑音成分との空間的分離のために、ICを保持するMVDR-ICを採用している。MVDR-ICのコスト関数JMVDR-ICは、次の数式で表すことができる。
Figure 2023165528000006
上記の数式において、「λ」はトレードオフパラメータを示している。また、拡散性雑音成分の入力側及び出力側のIC(IC in,IC out)は、それぞれ以下の数式により求められる。
Figure 2023165528000007
拡散性雑音成分のICを保持することは、雑音を抑圧することとトレードオフになることが知られている。この点に関して、両耳ビームフォーマ1は、外部からトレードオフパラメータλを調整可能に構成されているため、聴取環境に応じて、ユーザ自ら、或いは自動的にトレードオフパラメータλを調整することができ、ビームフォーミングをより適切に実現することができる。
図3は、図2に示した基本構成例をより具体的に示す図である。図3に示されるように、入力を2チャンネルとする場合には、これに対応して4つのMVDRフィルタが設けられる。
4つのMVDRフィルタのうち、図3中の「wLL」及び「wLR」は、図2中に示した左チャンネル出力用のMVDRフィルタwに相当し、図3中の「wRL」及び「wRR」は、図2中に示した右チャンネル出力用のMVDRフィルタwに相当する。言い換えると、左チャンネル出力用のMVDRフィルタwは、フィルタwLL,wLRを要素に持つ行列として表されており、右チャンネル出力用のMVDRフィルタwは、フィルタwRL,wRRを要素に持つ行列として表されている。説明の便宜のため、以下の説明においては、フィルタwLLを「第1MVDRフィルタ」、フィルタwRLを「第2MVDRフィルタ」、フィルタwLRを「第3MVDRフィルタ」、フィルタwRRを「第4MVDRフィルタ」と称する。
左入力チャンネルの入力信号yは、第1MVDRフィルタwLL及び第2MVDRフィルタwRLに入力し、右入力チャンネルの入力信号yは、第3MVDRフィルタwLR及び第4MVDRフィルタwRRに入力し、各MVDRフィルタから入力信号の指向性を踏まえた結果が出力される。そして、第1MVDRフィルタwLLを経た信号と第3MVDRフィルタwLRを経た信号とが加算されて左チャンネルに出力され、第2MVDRフィルタwRLを経た信号と第4MVDRフィルタwRRを経た信号とが加算されて右チャンネルに出力されることとなる。
図4は、入力を2チャンネルとした両耳聴取装置100の構成例を詳細に示すブロック図である。なお、両耳ビームフォーマ1の理解を促進するため、図4においては、パラメータ調整部2及び操作入力部40の図示を省略している。
両耳聴取装置100は、2つのマイクロホン10と、両耳ビームフォーマ1と、2つのイヤホン30とを備えており、両耳ビームフォーマ1は、例えば、2つの入力バッファ21と、2つの変換部22と、2つの補聴処理部23と、4つのMVDRフィルタ24と、4つの乗算部25と、4つの逆変換部26と、4つのFIRフィルタ27と、2つの加算部28とを含む。
音がマイクロホン10に入力すると、入力信号が周波数分析のために入力バッファ21にバッファされたのち、変換部22が、所望のタイミングで入力信号(時間領域の信号)に対し高速フーリエ変換(以下、「FFT」と称する。)を行って周波数領域の信号を生成する。周波数領域の信号に対しては、補聴処理部23が、WDRC(wide dynamic range compression)による圧縮利得等を周波数帯域毎に計算して補聴処理を行い、乗算部25が、補聴処理後の信号に対してMVDRフィルタ24を適用し、逆変換部26が、MVDRフィルタ適用後の信号に対して逆高速フーリエ変換(以下、「IFFT」と称する。)を行う。IFFTにより、補聴処理ゲイン及びMVDRフィルタを加味した時間領域のインパルス応答、すなわちFIRフィルタ27の係数が得られる。IFFTにより得られた係数はFIRフィルタ27に供給され、FIRフィルタ27はこれを係数として入力信号の畳み込みを行う。
このようにして、周波数領域でなされる処理の結果としてビームフォーミングの内容を踏まえた係数が得られ、この係数がFIRフィルタ27に供給されることでFIRフィルタ27が切り替えられ、結果としてビームフォーミングの内容が切り替えられる。ビームフォーミングの内容を踏まえた係数を更新してFIRフィルタ27を切り替える「フィルタ更新部」には、局所的に捉えれば、係数を算出してFIRフィルタ27に供給する逆変換部26が該当し、広く捉えれば、周波数分析がなされてから係数が供給されるまでの処理に関わる構成、すなわち周波数分析に関わる変換部22、補聴処理部23、MVDRフィルタ24、乗算部25及びこれらを経た結果に基づき係数を算出してFIRフィルタ27に供給する逆変換部26が該当する。
図5は、実施形態のフィルタバンクの一例を示す図であり、実施形態において入力信号が入力バッファ21に入ってからFIRフィルタ27で処理されるまでの流れを示している。図5に示されるように、実施形態においては、周波数分析のライン(ステップSF1~SF4の信号経路)が入力信号のライン(ステップSS1~SS2の信号経路)から分岐して分離された、いわゆるサイドブランチ構成のフィルタバンクを採用している。サイドブランチ構成のフィルタバンクにおいては、周波数分析のライン上で実行される周波数領域の信号処理と入力信号のライン上で実行される時間領域の信号処理とが並行して実行される。
周波数分析のラインでは、FFTがなされた上で(ステップSF1)、周波数帯域毎に補聴処理がなされ(ステップSF2)、MVDRのゲインが適用されて(ステップSF3)、逆フーリエ変換がなされる(ステップSF4)。これにより、周波数分析の結果に基づいて決定された補聴処理ゲインとMVDRのゲインが加味されたFIRフィルタの係数が得られる。時間領域での畳み込み(FIRフィルタ)は周波数領域では乗算で表現されるが、この構成では周波数帯域毎に補聴処理が加えられるため、補聴処理が加えられたゲインにMVDRのゲインを掛けることでビームフォーミングを実現することができる。一方、入力信号のラインでは、バッファされた入力信号に対して(ステップSS1)、有限インパルス応答(FIR)の畳み込みを行って出力する(ステップSS2)。
このように、フィルタバンクをサイドブランチ構成とすることにより、周波数領域の補聴処理が加えられたゲインにMVDRのゲインを掛けることでビームフォーミングが実現でき、入力される時間領域信号にFIRフィルタを掛ける単純な構成となる。したがって、ビームフォーミングを実現するための追加の遅延が生じないため、信号処理の過程で生じうる遅延時間を短く抑制することができる。
図6及び図7は、比較例として、3つのフィルタバンクの例を示す図である。このうち、比較例1及び比較例2は、サイドブランチ構成でない、いわば分析・再構築系のフィルタバンクの一例を示しており、比較例3は、比較だけを目的として、実施形態の一部を敢えて変形させたサイドブランチ構成のフィルタバンクの一例を示している。
比較例1は、周波数分析のライン(ステップS3´~S5´の信号経路)が入力信号のライン(ステップS1´~S6´の信号経路)上に直列的に構成されており、入力信号のラインから分離されていない点、また、MVDRフィルタが入力信号に対して直接適用される点(ステップS1´)において、実施形態のフィルタバンクと異なっている。
一般的に、複数のマイクロホンを用いたアレイ信号処理を行う際には、システムの入力段でなされることが多く、その場合には入力段で処理の遅延が生じる(第1の遅延)。比較例1のフィルタバンクにおいては、時間領域の信号に対して直接MVDRフィルタが適用されるため(ステップS1´)、ここで第1の遅延が生じ、バッファされたサンプル数が多いほど遅延は大きくなる。
また、分析・再合成系のフィルタバンクでビームフォーミングを実現する場合には、入力信号をバッファし(ステップS2´)周波数分析して周波数領域で処理を加えた後に、その信号を時間領域に変換する必要があるため、分析から合成までの間にも遅延が生じる(第2の遅延)。比較例1のフィルタバンクにおいては、MVDRフィルタ適用後の信号に対し、入力信号のライン上で周波数分析がなされて時間領域の信号に変換された上で(ステップS3´~S5´)、信号の合成がなされるため(ステップS6´)、ここで第2の遅延が生じ、周波数分解能が高いほど遅延は大きくなる。
また、比較例2においては、MVDRフィルタが入力信号に対して直接適用されずに、周波数領域でなされる補聴処理のフィルタに対して適用されるため(S13´~S14´)、第1の遅延は生じないものの、サイドブランチ構成でないことから周波数領域の信号を時間領域に変換して合成する必要があるため、第2の遅延は避けられない。
そして、比較例3においては、サイドブランチ構成が採られているため、第2の遅延は周波数分析そのものに起因して生じうる範囲内に抑えられるものの、MVDRフィルタが入力信号に対して直接適用されるため(SS1´)、第1の遅延は避けられない。
このように、比較例のフィルタバンクにおいては、上記の2つの要因による大きな遅延の発生が避けられない。
これに対し、実施形態のフィルタバンクにおいては、MVDRフィルタが周波数分析のライン上で適用されるため、第1の遅延は発生しない。また、実施形態のフィルタバンクにおいては、周波数分析のラインが信号入力のラインから分離されており、周波数分析の結果に基づいて得られるFIRフィルタの係数を供給することで周波数分析の結果をFIRフィルタに反映させることができることから、比較例のように周波数領域から時間領域に信号を変換する処理が不要であるため、第2の遅延のうち、周波数分析そのものに起因して生じうる僅かな遅延以外は発生しない。
したがって、実施形態のフィルタバンクによれば、比較例のフィルタバンクと比較して、遅延時間を大幅に短縮することができるため自然な聞こえを実現することができ、また、処理に要する演算量が少なく済むため消費電力を低減することができる。
〔図4:MVDRフィルタ24を参照〕
また、図4に示されるように、両耳ビームフォーマ1は、入力2チャンネル(左マイクロホン10-1、右マイクロホン10-2)に対応して、4つのMVDRフィルタ24を有している。具体的には、第1MVDRフィルタ24-1(wLL)に左チャンネルの入力信号yが入力し、第2MVDRフィルタ24-2(wRL)及び第3MVDRフィルタ24-3(wLR)のそれぞれに左チャンネル及び右チャンネルの入力信号y,yが入力し、第4MVDRフィルタ24-4(wRR)に右チャンネルの入力信号yが入力する。
そして、左入力チャンネル用の第1補聴処理部23-1での補聴処理と第1MVDRフィルタ24-1の係数が加味された第1FIRフィルタ27-1で左チャンネルの入力信号yが畳み込まれ、左チャンネル用の第1補聴処理部23-1での補聴処理と第2MVDRフィルタ24-2の係数が加味された第2FIRフィルタ27-2で左チャンネルの入力信号yが畳み込まれ、右チャンネル用の第2補聴処理部23-2での補聴処理と第3MVDRフィルタ24-3の係数が加味された第3FIRフィルタ27-3で右チャンネルの入力信号yが畳み込まれ、右入力チャンネル用の第2補聴処理部23-2での補聴処理と第4MVDRフィルタ24-4の係数が加味された第4FIRフィルタ27-4で右チャンネルの入力信号yが畳み込まれる。
その上で、第1FIRフィルタ27-1及び第3FIRフィルタ27-3で畳み込まれた各信号が第1加算部28-1で加算されて、左イヤホン30-1に出力される。これにより、左チャンネルで音が出力される。また、第2FIRフィルタ27-2及び第4FIRフィルタ27-4で畳み込まれた各信号が第2加算部28-2で加算されて、右イヤホン30-2に出力される。これにより、右チャンネルで音が出力される。
以上のような構成を採ることにより、両耳ビームフォーマ1は、入力信号の指向性を踏まえて、入力信号に含まれる雑音信号を適度に抑制しながら所望の音声信号を際立たせることができ、結果として所望の音声信号が強調されたような状態を得られることから、所望の音声をより自然に、より聞こえ易くすることができる。
〔本発明の優位性〕
以上のように、上述した実施形態によれば、以下のような効果が得られる。
(1)両耳ビームフォーマ1において、トレードオフパラメータが外部から調整可能に構成されているため、環境に応じたトレードオフパラメータを外部から選択して、IC保持性能と雑音抑圧性能とのトレードオフを外部から調整することができる。例えば、両耳ビームフォーマ1のユーザが自ら、左右のイヤホン30-1,30-2から出力される音を確認しながら、トレードオフパラメータを適宜調整することができる。結果として、聴取環境に応じたより適切なビームフォーミングを実現することができる。
(2)サイドブランチ構成のフィルタバンクが用いられ、周波数領域での処理が時間領域での処理と並行して実行されるとともに、周波数領域のゲインにMVDRのゲインを掛けることによりビームフォーミングがなされるため、分析、再構築を行うフィルタバンクを用いる場合と比較して、処理の過程で発生する演算量が少なく済み、遅延を大幅に短縮することができる。結果として、ビームフォーミングを低遅延で実現することができ、より自然な聞こえを実現することができる。
本発明は、上述した実施形態に制約されることなく、種々に変形して実施することが可能である。
上述した実施形態においては、入力が2チャンネルの構成としているが、入力チャンネル数は任意の数Nに増やすことが可能である。
図8は、入力チャンネルをN個とした場合における両耳ビームフォーミングの基本構成例を示す図である。この場合には、左チャンネル出力用のMVDRフィルタw及び右チャンネル出力用のMVDRフィルタwのそれぞれに、2M=N個(M,Nは自然数)のマイクロホンの入力信号yL1,yL2,・・・,yLMが入力され、各フィルタw,wで入力信号の指向性を分析した結果として、フィルタwから信号zが出力され、フィルタwから信号zが出力されるように、MVDRフィルタw,wの各行列の要素となるMVDRフィルタ(図3及び図4に示される複数のMVDRフィルタに相当)を、入力チャンネル数に応じた個数で設けるとともに、それに対応する個数の乗算部、逆変換部、FIRフィルタ設けるよう構成すればよい。
その他、両耳ビームフォーマ1及び両耳聴取装置100に関する説明の過程で挙げた構成や数値等はあくまで例示であり、本発明の実施に際して適宜に変形が可能であることは言うまでもない。
1 両耳ビームフォーマ
2 パラメータ調整部 (調整工程、調整部)
10 マイクロホン
20 信号処理部
21 入力バッファ
22 変換部 (フィルタ更新工程、フィルタ更新部)
23 補聴処理部 (フィルタ更新工程、フィルタ更新部)
24 MVDRフィルタ (フィルタ更新工程、フィルタ更新部)
25 乗算部 (フィルタ更新工程、フィルタ更新部)
26 逆変換部 (フィルタ更新工程、フィルタ更新部)
27 FIRフィルタ (畳み込み工程、畳み込み部)
28 加算部
30 イヤホン
100 両耳聴取装置

Claims (10)

  1. 複数のマイクロホンに入力した音に対応する入力信号に対し、MVDRを用いてビームフォーミングを行うビームフォーミング方法であって、
    所定の設計がなされたMVDRフィルタに前記入力信号を通した結果に基づいて係数を算出し、前記係数を用いてFIRフィルタを切り替えるフィルタ更新工程と、
    前記入力信号を前記FIRフィルタで畳み込む畳み込み工程と
    を含むビームフォーミング方法。
  2. 請求項1に記載のビームフォーミング方法において、
    前記MVDRフィルタは、
    前記入力信号に含まれる雑音成分の両耳間相互相関度を保持する度合いを踏まえて設計されていることを特徴とするビームフォーミング方法。
  3. 請求項2に記載のビームフォーミング方法において、
    前記度合いを変更可能とする調整工程をさらに含むことを特徴とするビームフォーミング方法。
  4. 請求項3に記載のビームフォーミング方法において、
    前記MVDRフィルタは、
    そのコスト関数が前記度合いを制御するパラメータを含んだ式で表され、
    前記調整工程では、
    前記パラメータの値を変更可能とすることを特徴とするビームフォーミング方法。
  5. 請求項1から4のいずれかに記載のビームフォーミング方法において、
    前記畳み込み工程では、
    第1の信号経路上で、前記入力信号を畳み込み、
    前記フィルタ更新工程では、
    前記第1の信号経路から分岐した第2の信号経路上で、前記入力信号に対応する周波数領域の信号に対して周波数帯域毎に所定の演算を行う周波数領域のゲインにMVDRのゲインを掛けた結果に基づいて、前記係数を算出することを特徴とするビームフォーミング方法。
  6. 複数のマイクロホンに入力した音に対応する入力信号に対し、MVDRを用いてビームフォーミングを行うビームフォーミングシステムであって、
    所定の設計がなされたMVDRフィルタに前記入力信号を通した結果に基づいて係数を算出し、前記係数を用いてFIRフィルタを切り替えるフィルタ更新部と、
    前記入力信号を前記FIRフィルタで畳み込む畳み込み部と
    を備えたビームフォーミングシステム。
  7. 請求項6に記載のビームフォーミングシステムにおいて、
    前記MVDRフィルタは、
    前記入力信号に含まれる雑音成分の両耳間相互相関度を保持する度合いを踏まえて設計されていることを特徴とするビームフォーミングシステム。
  8. 請求項7に記載のビームフォーミングシステムにおいて、
    前記度合いを変更可能とする調整部をさらに備えたことを特徴とするビームフォーミングシステム。
  9. 請求項8に記載のビームフォーミングシステムにおいて、
    前記MVDRフィルタは、
    そのコスト関数が前記度合いを制御するパラメータを含んだ式で表され、
    前記調整部は、
    前記パラメータの値を変更可能とすることを特徴とするビームフォーミングシステム。
  10. 請求項6から9のいずれかに記載のビームフォーミングシステムにおいて、
    前記畳み込み部は、
    第1の信号経路上で、前記入力信号を畳み込み、
    前記フィルタ更新部は、
    前記第1の信号経路から分岐した第2の信号経路上で、前記入力信号に対応する周波数領域の信号に対して周波数帯域毎に所定の演算を行う周波数領域のゲインにMVDRのゲインを掛けた結果に基づいて、前記係数を算出することを特徴とするビームフォーミングシステム。
JP2022076676A 2022-05-06 2022-05-06 ビームフォーミング方法、ビームフォーミングシステム Pending JP2023165528A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2022076676A JP2023165528A (ja) 2022-05-06 2022-05-06 ビームフォーミング方法、ビームフォーミングシステム
PCT/JP2023/017083 WO2023214571A1 (ja) 2022-05-06 2023-05-01 ビームフォーミング方法、ビームフォーミングシステム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022076676A JP2023165528A (ja) 2022-05-06 2022-05-06 ビームフォーミング方法、ビームフォーミングシステム

Publications (1)

Publication Number Publication Date
JP2023165528A true JP2023165528A (ja) 2023-11-16

Family

ID=88646530

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022076676A Pending JP2023165528A (ja) 2022-05-06 2022-05-06 ビームフォーミング方法、ビームフォーミングシステム

Country Status (2)

Country Link
JP (1) JP2023165528A (ja)
WO (1) WO2023214571A1 (ja)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007123052A1 (ja) * 2006-04-20 2007-11-01 Nec Corporation 適応アレイ制御装置、方法、プログラム、及び適応アレイ処理装置、方法、プログラム
CN107316649B (zh) * 2017-05-15 2020-11-20 百度在线网络技术(北京)有限公司 基于人工智能的语音识别方法及装置

Also Published As

Publication number Publication date
WO2023214571A1 (ja) 2023-11-09

Similar Documents

Publication Publication Date Title
EP1417756B1 (en) Sub-band adaptive signal processing in an oversampled filterbank
EP1417679B1 (en) Sound intelligibility enhancement using a psychoacoustic model and an oversampled filterbank
EP2238592B1 (en) Method for reducing noise in an input signal of a hearing device as well as a hearing device
Gilloire et al. Using auditory properties to improve the behaviour of stereophonic acoustic echo cancellers
CN111128210B (zh) 具有声学回声消除的音频信号处理的方法和系统
US8892432B2 (en) Signal processing system, apparatus and method used on the system, and program thereof
KR20040019362A (ko) 후처리기로서 멀티 마이크로폰 에코 억제기를 가지는 음향보강 시스템
JP4957810B2 (ja) 音処理装置、音処理方法及び音処理プログラム
KR20040019339A (ko) 반향 억제기 및 확성기 빔 형성기를 구비한 사운드 보강시스템
AU2002322866A1 (en) Sound intelligibility enhancement using a psychoacoustic model and an oversampled filterbank
US9191755B2 (en) Spatial enhancement mode for hearing aids
US10117029B2 (en) Method of operating a hearing aid system and a hearing aid system
EP3008924A1 (en) Method of signal processing in a hearing aid system and a hearing aid system
Marquardt et al. Optimal binaural LCMV beamformers for combined noise reduction and binaural cue preservation
US10111016B2 (en) Method of operating a hearing aid system and a hearing aid system
DK180745B1 (en) Procedure by a hearing aid
EP4032321A1 (en) Enhancement of audio from remote audio sources
WO2023214571A1 (ja) ビームフォーミング方法、ビームフォーミングシステム
Corey et al. Binaural audio source remixing with microphone array listening devices
EP3886463A1 (en) Method at a hearing device
Xiao et al. Effect of target signals and delays on spatially selective active noise control for open-fitting hearables
CA2397084C (en) Sound intelligibilty enhancement using a psychoacoustic model and an oversampled filterbank
Vashkevich et al. Speech enhancement in a smartphone-based hearing aid
CN113286227A (zh) 用于抑制麦克风装置的固有噪声的方法
CN115529532A (zh) 用于对麦克风装置的信号进行定向信号处理的方法