JP7230427B2

JP7230427B2 - 音信号処理装置、ミキサ、および音信号処理方法

Info

Publication number: JP7230427B2
Application number: JP2018200308A
Authority: JP
Inventors: 祐治池ヶ谷
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2018-10-24
Filing date: 2018-10-24
Publication date: 2023-03-01
Anticipated expiration: 2038-10-24
Also published as: US20200137510A1; EP3644588B1; JP2020068466A; US11102605B2; EP3644588A1

Description

本発明の一実施形態は、音信号を処理する音信号処理装置、ミキサ、および音信号処理方法に関する。

特許文献１、特許文献２および非特許文献１には、音信号を処理する装置の一例として、オートマチックミキサが開示されている。非特許文献１に記載されている様に、オートマチックミキサにおけるゲイン制御の手法は、主にゲートタイプとゲインシェアリングタイプとの２種類存在する。ゲートタイプのゲイン制御は、複数の音信号のうち話者に対応する音信号を通過させ、他の音信号を遮断する。ゲインシェアリングタイプは、各音信号のレベルに応じたゲインを設定する。

特開２０１６－１２６１３６号公報米国特許第３９９２５８４号公報

"Automatic Microphone Mixer"、［online］、平成２５年４、［平成３０年９月１２日検索］、インターネット＜URL：https://jp.yamaha.com/files/download/other_assets/8/329528/Automixer_WhitePaper_ja.pdf＞

ゲートタイプのゲイン制御は、話者が変更されてから話者のマイクのゲインが上がるまでに時間差が生じる。そのため、新たな話者の発言の冒頭を収音することができない場合がある。

一方で、ゲインシェアリングタイプのゲイン制御は、話者の音声が複数のマイクに漏れて収音されると、最も話者に近いマイク以外のゲインが高くなるため、明瞭度が低下する。

そこで、本発明の一実施形態の目的は、発言の冒頭を適切に収音することができ、かつ明瞭度の低下も防止する音信号処理装置、ミキサおよび音信号処理方法を提供することにある。

本発明の一実施形態に係る音信号処理装置は、３チャンネル以上の音信号のうち２以上の一部チャンネルを所定の基準に基づき選択する選択手段と、前記選択手段で選択した前記一部チャンネルのうちそれぞれのチャンネルの音信号のゲインを、前記それぞれのチャンネルの音信号のレベルに応じて制御するゲイン制御部と、を備えている。

本発明の一実施形態によれば、発言の冒頭を適切に収音することができ、かつ明瞭度の低下も防止することができる。

アレイマイクロフォン１が設置された室内の立面図である。アレイマイクロフォン１が設置された室内の平面図である。アレイマイクロフォン１の構成を示すブロック図である。アレイマイクロフォン１の下面図である。ＡＵＴＯＭＩＸ３１の機能的構成を示すブロック図である。ＡＵＴＯＭＩＸ３１の動作を示すフローチャートである。アレイマイクロフォン１の動作を示すフローチャートである。ビーム形成部２１の機能的構成を示すブロック図である。アレイマイクロフォン１が設置された室内の平面図である。アレイマイクロフォン１が設置された室内の平面図である。アレイマイクロフォン１が設置された室内の平面図である。アレイマイクロフォン１Ａの構成を示すブロック図である。話者毎に設けられた複数のマイクの収音信号を入力する場合のアレイマイクロフォン１の構成を示すブロック図である。

本実施形態の音信号処理装置は、３チャンネル以上の音信号のうち２以上の一部チャンネルを所定の基準に基づき選択する選択手段と、前記選択手段で選択した前記一部チャンネルのうちそれぞれのチャンネルの音信号のゲインを、前記それぞれのチャンネルの音信号のレベルに応じて制御するゲイン制御部と、を備えている。

この様に、本実施形態の音信号処理装置は、まずゲートタイプのゲイン制御でチャンネル数を絞り込み、その後にゲインシェアリングタイプのゲイン制御を行なう。仮に、話者の音声が複数のマイクに漏れていたとしても、本実施形態のミキサは、ゲートタイプのゲイン制御でチャンネル数を絞り込むため、明瞭度の低下を防止することができる。また、本実施形態のミキサは、ゲインシェアリングタイプのゲイン制御を行なうため、発言の冒頭を適切に収音することができる。

なお、選択手段は、各チャンネルのレベルに基づいて、前記選択を行なうことが好ましい。選択手段は、例えば、最も高レベルの２つのチャンネルを選択する。これにより、チャンネルは、話者の音声を適切に収音しているマイクに絞り込まれるため、発言の冒頭を適切に収音することができ、かつ明瞭度の低下も防止することができる。

なお、ミキサは、複数のマイクと、前記複数のマイクの収音信号を用いて、３つ以上の収音ビームを形成し、前記３チャンネル以上の音信号として出力するビーム形成手段と、を備えていてもよい。

複数の収音ビームを形成する場合、ある程度の収音領域を有する。したがって、話者の音声は、複数の収音ビームのそれぞれに収音される可能性がある。そこで、本実施形態のミキサは、ゲートタイプのオートマチックミキサでビーム数を絞り込むため、明瞭度の低下を防止することができる。

特に、話者の音声は、隣接する複数の収音ビームのそれぞれに収音される可能性がある。そこで、選択手段は、前記３つ以上の収音ビームのうち、収音方向が互いに隣接する収音ビームは同時に選択しないことが好ましい。

以下、本実施形態の具体的構成について説明する。図１は、アレイマイクロフォン１が設置された室内の立面図であり、図２は平面図である。

アレイマイクロフォン１は、室内の天井に設置されている。アレイマイクロフォン１の直下には、会議机Ｔが設置されている。図１および図２の例では、会議机Ｔの周囲には、複数のユーザ（話者）ｈ１、ユーザｈ２、ユーザｈ３およびユーザｈ４がいる。アレイマイクロフォン１は、厚みの薄い直方体形状の筐体を有する。図１の例では、アレイマイクロフォン１の上面が天井に設置されている。なお、アレイマイクロフォン１は、例えば天井に吊り下げられていてもよい。また、アレイマイクロフォン１は、天井タイルとして設置されてもよい。また、アレイマイクロフォン１は、室内の設備として備え付けられていてもよいが、交換可能に構成されていてもよい。アレイマイクロフォン１が天井タイルとして設置される場合、当該天井タイルが交換可能に構成される。また、本実施形態のアレイマイクロフォン１は、天井に設置される態様であるが、必ずしも天井に設置される必要はない。例えば、アレイマイクロフォン１は、壁面、机上、あるいは床面等に設置されていてもよい。

図３は、アレイマイクロフォン１の構成を示すブロック図である。アレイマイクロフォン１は、複数のマイク１１－１乃至マイク１１－ｎ、ビーム形成部２１、オートミキサ（ＡＵＴＯＭＩＸ）３１、インタフェース（Ｉ／Ｆ）４１、および音源方向推定部２５を備えている。図４は、アレイマイクロフォン１の動作を示すフローチャートである。

ビーム形成部２１、ＡＵＴＯＭＩＸ３１、および音源方向推定部２５は、それぞれハードウェアにより構成されてもよいが、ソフトウェアにより構成されていてもよい。ソフトウェアにより構成される場合、ＣＰＵ等のプロセッサ（不図示）が、メモリ等の記憶媒体（不図示）に記憶されたソフトウェアを読み出して実行することでビーム形成部２１、ＡＵＴＯＭＩＸ３１、および音源方向推定部２５を構成する。なお、ソフトウェアは、アレイマイクロフォン１のメモリ等に記憶しておく必要はなく、サーバ等の他装置から都度ダウンロードして実行してもよい。

複数のマイク１１－１乃至マイク１１－ｎは、アレイマイクロフォン１の筐体の下面に配置されている。複数のマイク１１－１乃至マイク１１－ｎの収音方向は、アレイマイクロフォン１の下面に向けられている。

図４は、アレイマイクロフォン１を下面から見た図である。図４に示す多数の円は、複数のマイク１１－１乃至マイク１１－ｎを表す。複数のマイク１１－１乃至マイク１１－ｎは、図４に示す様に、平面配置されたアレイマイクを構成する。ただし、複数のマイク１１－１乃至マイク１１－ｎの配置は、図４に示す例に限るものではない。なお、複数のマイク１１－１乃至マイク１１－ｎは、無指向性マイクでも指向性マイクでもよい。

図３に示す様に、複数のマイク１１－１乃至マイク１１－ｎでそれぞれ収音した音信号（以下、収音信号と称する。）は、ビーム形成部２１に入力される。ビーム形成部２１は、複数のマイク１１－１乃至マイク１１－ｎの収音信号を所定の遅延量で遅延して合成する。これにより、ビーム形成部２１は、所定の方向に強い感度を有する収音ビームを形成し、それぞれ異なるチャンネルの収音信号として出力する。ビーム形成部２１は、複数の収音ビームを形成することができる。本実施形態の例では、最大で４つの収音ビーム（第１収音ビームｂ１、第２収音ビームｂ２、第３収音ビームｂ３、および第４収音ビームｂ４）を形成し、４チャンネルの収音信号を出力する。収音ビームの数、および各収音ビームの方向は、音源方向推定部２５で推定した音源方向に基づいて決定される。

４つの収音ビームに係る４チャンネルの収音信号は、それぞれＡＵＴＯＭＩＸ３１に入力される。ＡＵＴＯＭＩＸ３１は、本発明のミキサに相当する。

図５は、ＡＵＴＯＭＩＸ３１の機能的構成を示すブロック図である。図６は、ＡＵＴＯＭＩＸ３１の動作を示すフローチャートである。ＡＵＴＯＭＩＸ３１は、レベル検出部３０１、ゲート処理部３０２、およびゲインシェアリング処理部３０３を備えている。

レベル検出部３０１およびゲート処理部３０２は、４つの収音ビーム（第１収音ビームｂ１、第２収音ビームｂ２、第３収音ビームｂ３、および第４収音ビームｂ４）に係る４チャンネルの収音信号を入力する（Ｓ１）。

レベル検出部３０１は、各チャンネルの収音信号のレベルを検出する（Ｓ２）。レベル検出部３０１は、検出した各チャンネルの収音信号のレベルを比較する（Ｓ３）。この例では、レベル検出部３０１は、高レベルの収音信号２つを選択する。

ゲート処理部３０２は、選択手段に対応し、レベル検出部３０１で選択した２つのチャンネルの収音信号を通過させ、他のチャンネルの収音信号を遮断する、ゲート処理を行なう（Ｓ４）。ゲート処理部３０２は、ゲインシェアリング処理部３０３に、４つのチャンネルの収音信号のうち高レベルの２つチャンネルの収音信号のみ出力する。

ゲインシェアリング処理部３０３は、レベル検出部３０１から、各チャンネルの収音信号のレベルを示す情報を受信する。ゲインシェアリング処理部３０３は、機能的にゲイン制御部３１３と、ミキシング処理部３２３と、を備えている。ゲイン制御部３１３は、各チャンネルのレベルに応じて、それぞれのチャンネルの音信号のゲインを制御する（Ｓ５）。ミキシング処理部３２３は、音信号をミキシングする（Ｓ６）。具体的には、ミキシング処理部３２３は、ゲイン制御部３１３でゲイン調整されたそれぞれのチャンネルの音信号をミキシングする。このようにして、ゲインシェアリング処理部３０３は、各チャンネルのレベルに応じたゲインで収音信号をミキシングする、ゲインシェアリング処理を行なう。これにより、２つの収音ビームのうち高レベルの収音ビームが強調されるため、現在の話者の音声を明瞭に取得することができる。なお、ミキシング処理部３２３によるミキシング処理は本発明において必須ではない。ゲインシェアリング処理部３０３は、ゲイン制御部３１３でゲイン調整されたそれぞれのチャンネルの音信号をＩ／Ｆ４１に出力してもよい。この場合、例えば、遠隔地の装置において、ゲイン調整されたそれぞれのチャンネルの音信号をミキシングしてもよい。

図２に示した様に、４つの収音ビームは、それぞれ異なる方向に向けられている。しかし、各収音ビームは、それぞれある程度の収音領域を有する。したがって、話者の音声は、各収音ビームのそれぞれに漏れて収音される可能性がある。特に、低音域の音は高音域の音よりも回り込み易い。したがって、４つの収音ビームの全ての信号でゲインシェアリング処理を行なうと、低音域が強調されやすくなり、こもった様な音になる可能性がある。一方で、仮にゲート処理部３０２が１つの収音ビームに絞り込むと、話者が変更された場合に、新たな話者に切り替わるまで時間差が生じる。そのため、新たな話者の発言の冒頭を収音することができない場合がある。

これに対して、本実施形態のＡＵＴＯＭＩＸ３１は、まずゲート処理部３０２において４つの収音ビームを２つの収音ビームに絞り込む。これにより、ゲインシェアリング処理部３０３に入力される収音信号の数が絞り込まれる。よって、ＡＵＴＯＭＩＸ３１は、４つの収音ビームの全ての信号でゲインシェアリング処理を行なうよりも、明瞭度が向上する。また、ＡＵＴＯＭＩＸ３１は、最も高レベルの収音ビームだけでなく、次に高レベルの収音ビームの収音信号も用いてゲインシェアリング処理を行なう。他の収音ビームに係る収音信号もゲインシェアリング処理部３０３に入力されているため、話者が変更された場合でも新たな話者の発言の冒頭を適切に収音することができる。なお、上記例では、ゲート処理部３０２は、４つの収音ビームのうち高レベルの２つの収音ビームを選択した。しかし、選択する収音ビームの数は、２つではなく、３つでもよい。また、収音ビームの数は３つでもよいし、５つ以上でもよい。つまり、ゲート処理部３０２は、３チャンネル以上の音信号のうち２以上の一部チャンネルを選択すればよい。

なお、上記の例では、ゲート処理部３０２は、各チャンネルのレベルに基づいて、選択を行なった。しかし、ゲート処理部３０２は、後述する音源方向推定部２５による推定結果を用いて、収音ビームを選択してもよい。

ＡＵＴＯＭＩＸ３１でミキシングされた収音信号は、Ｉ／Ｆ４１に入力される。Ｉ／Ｆ４１は、例えばＵＳＢ等の通信Ｉ／Ｆである。Ｉ／Ｆ４１は、入力された収音信号を所定のデータ形式にエンコードし、パーソナルコンピュータ等の他装置に送信する。これにより、アレイマイクロフォン１は、収音した音声を遠隔地の装置に送信することができ、遠隔会議を実現することができる。なお、Ｉ／Ｆ４１は、遠隔地の装置から音信号を受信してもよい。Ｉ／Ｆ４１は、受信した音信号を不図示のスピーカに出力する。これにより、会議参加者は、遠隔地の音声を聞くことができる。

音源方向推定部２５は、複数のマイクの収音信号を用いて音源方向を推定する（図７のフローチャートに示すＳ１１）。音源方向推定部２５は、例えば複数のマイクの収音信号の相互相関を算出することにより、音源方向を推定する。音源方向推定部２５は、例えばある２つのマイクの収音信号の相互相関のピークを求めることで、これら２つのマイクに対する音源の方向を求めることができる。さらに、音源方向推定部２５は、別の２つのマイクの収音信号の相互相関のピークを求めることで、これら別の２つのマイクに対する音源の方向を求めることができる。音源方向推定部２５は、この様にして算出した複数の相互相関のピークに基づいて、音源方向を推定する。

２つのマイクによる音源方向の推定だけでは、１次元の方向（例えば平面方向または立面方向）しか推定できない。または、１次元の方向および音源との距離しか推定できない。しかし、音源方向推定部２５は、平面配置されたアレイマイクから、２組以上の複数のマイクを選択して、複数の相互相関のピークを求める。これにより、音源方向推定部２５は、２次元の方向（平面方向および立面方向）を推定する。また、音源方向推定部２５は、２次元の方向に加えて、音源との距離も推定することができる。

また、推定する音源の数および精度は、マイクの数および算出する相互相関の数が多いほど向上する。本実施形態の音源方向推定部２５は、２つの音源方向を推定する。すなわち、音源方向推定部２５は、各相互相関についてさらに２つのピーク（レベルの大きい側から２つのピーク）を求めることで、２つの音源方向を推定する。

なお、音源方向の推定手法は、上記の例に限らない。音源方向推定部２５は、例えば、ビーム形成部２１で形成された複数方向の収音ビームのレベルを比較することでも、音源方向を推定することができる。この場合、ビーム形成部２１は、予め室内の複数方向（例えば１０００方向）に収音ビームを形成する。音源方向推定部２５は、これら複数方向の収音ビームのレベルをそれぞれ求める。音源方向推定部２５は、これら複数方向の収音ビームの空間的なレベル分布を求める。音源方向推定部２５は、レベル分布に基づいて、音源の方向を複数推定する。

ただし、上述の様に多数（例えば１０００方向）の収音ビームを形成し、空間的なレベル分布を求める場合、演算量が非常に大きい。また、相互相関のピークに基づいて音源方向を推定する場合、多数の音源方向を推定することが困難である。そこで、本実施形態のアレイマイクロフォン１は、演算量を抑えるために、音源方向の推定数を抑えながら、音源方向の推定数よりも収音ビームの数を多くして、多数の音源に対応する。

ビーム形成部２１は、音源方向推定部２５が推定した音源方向に基づいて収音ビームの数および方向を制御する。図８は、ビーム形成部２１の機能的構成を示すブロック図である。

ビーム形成部２１は、機能的に、比較器２０１、遅延計算部２０２、遅延部２０３－１、遅延部２０３－２、遅延部２０３－３、および遅延部２０３－４を備えている。遅延部２０３－１は、遅延器２５１－１乃至遅延器２５１－ｎおよび加算器２５５を備えている。遅延部２０３－１、遅延部２０３－２、遅延部２０３－３、および遅延部２０３－４は、それぞれ同じ構成を有する。

ビーム形成部２１の各機能的構成は、ビーム形成部２１を構成する不図示のＣＰＵまたはＤＳＰ等のハードウェアがメモリからプログラムを読み出して実行することにより実現される。

比較器２０１は、音源方向推定部２５が推定した音源方向の情報を入力する。この例では、比較器２０１は、第１の音源方向ｄ１を示す情報および第２の音源方向ｄ２を示す情報を入力する。第１の音源方向ｄ１を示す情報は、平面方向を示す鉛直軸回りの角度θ１、および立面方向を示す水平軸回りの角度φ１、が含まれている。第２の音源方向ｄ２を示す情報は、鉛直軸回りの角度θ２および水平軸回りの角度φ２が含まれている。鉛直軸回りの角度は、図２に示すように、アレイマイクロフォン１の筐体を平面視した所定方向（図２では右方向）を基準とした相対角度で表される。水平軸回りの角度は、図１に示すように、アレイマイクロフォン１の筐体を立面視した所定方向（図１では右方向）を基準とした相対角度で表される。

比較器２０１は、音源方向推定部２５から入力された第１の音源方向ｄ１および第２の音源方向ｄ２に基づいて、収音ビームの数および方向を決定する。本実施形態では、最大で４つの収音ビームを形成する。したがって、比較器２０１は、第１収音ビームｂ１の方向を角度θ’１および角度φ’１に設定し、第２収音ビームｂ２の方向を角度θ’２および角度φ’２に設定し、第３収音ビームｂ３の方向を角度θ’３および角度φ’３に設定し、第４収音ビームｂ４の方向を角度θ’４および角度φ’４に設定する。

比較器２０１は、設定した各収音ビームの角度情報を、遅延計算部２０２に送信する。遅延計算部２０２は、受信した各収音ビームの角度情報に基づいて、遅延部２０３－１、遅延部２０３－２、遅延部２０３－３、および遅延部２０３－４における各遅延器２５１－１乃至遅延器２５１－ｎの遅延量を計算する。そして、遅延計算部２０２は、遅延部２０３－１、遅延部２０３－２、遅延部２０３－３、および遅延部２０３－４における各遅延器２５１－１乃至遅延器２５１－ｎの遅延量を設定する。遅延部２０３－１、遅延部２０３－２、遅延部２０３－３、および遅延部２０３－４における各遅延器２５１－１乃至遅延器２５１－ｎは、入力された収音信号を遅延して加算器２５５に出力する。加算器２５５は、これら収音信号を合成することで収音ビームを形成する。形成された収音ビームは、ＡＵＴＯＭＩＸ３１に出力される。

比較器２０１は、現在の各収音ビームの角度情報を、メモリ（不図示）に記憶している。比較器２０１は、第１の音源方向ｄ１および第２の音源方向ｄ２の角度と、現在の各収音ビームの角度と、を比較する（図７のフローチャートに示すＳ１２）。

比較器２０１は、第１の音源方向ｄ１および第２の音源方向ｄ２のそれぞれについて、所定角度範囲内に収音ビームが存在するか否かを判断する（Ｓ１３）。比較器２０１は、例えば角度θ１±５度および角度φ１±５度の範囲内に収音ビームが存在するか否かを判断する。比較器２０１は、第１の音源方向ｄ１および第２の音源方向ｄ２の両方について、所定角度範囲内に収音ビームが存在すると判断した場合、以後の処理をスキップする。これにより、現在の収音ビームの設定は保持される。

比較器２０１は、第１の音源方向ｄ１または第２の音源方向ｄ２のいずれかについて、所定角度範囲内に収音ビームが存在しないと判断した場合、現在のビーム数が最大数に達しているか否かを判断する（Ｓ１４）。この例では、収音ビームの最大数は４である。したがって、比較器２０１は、現在、４つの収音ビームを形成しているか否かを判断する。

比較器２０１は、現在３つ以下の収音ビームを形成していると判断した場合、新たな収音ビームを形成する（Ｓ１５）。比較器２０１は、新たな収音ビームの方向を、第１の音源方向ｄ１または第２の音源方向ｄ２に設定する。例えば、比較器２０１は、現在の収音ビームの数が３つである場合において、角度θ１±５度および角度φ１±５度の範囲内に収音ビームが存在しないと判断した場合に、第４収音ビームｂ４の角度θ’４および角度φ’４を、角度θ１および角度φ１に設定する。これにより、新たな第４収音ビームｂ４が音源方向に向けられる。

また、比較器２０１は、現在４つの収音ビームを形成していると判断した場合、最も過去に更新した収音ビームの角度を更新する（Ｓ１６）。

図９および図１０の平面図は、一例として、話者ｈ１が発言を終了し、話者ｈ２および新たな話者ｈ５が発言を行なう場合を説明する図である。

この場合、音源方向推定部２５は、話者ｈ５の方向に第１の音源方向ｄ１を推定する。また、音源方向推定部２５は、話者ｈ２の方向に第２の音源方向ｄ２を推定する。この場合、比較器２０１は、第１の音源方向の所定角度範囲内（例えば角度θ１±５度および角度φ１±５度の範囲内）に収音ビームが存在しないと判断する。そして、図１０の平面図に示す様に、比較器２０１は、例えば、最も過去に更新した収音ビームが第３収音ビームである場合に、第３収音ビームｂ３の角度θ’３および角度φ’３を、角度θ１および角度φ１に設定する。これにより、話者ｈ５の方向に第３収音ビームｂ３が向けられる。

そして、仮に話者ｈ５が発言を終了し、話者ｈ１が発言を再開した場合でも、第１収音ビームｂ１が話者ｈ１の方向に向けられているため、アレイマイクロフォン１は、話者ｈ１の発言の冒頭を欠くこと無く収音することができる。また、ゲート処理部３０２において、第１収音ビームｂ１および第３収音ビームｂ３が選択されていれば、高い明瞭度で発言の冒頭を適切に収音することができる。

この様に、アレイマイクロフォン１は、音源方向の推定数よりも収音ビームの数を多くして、現在推定している音源方向以外にも収音ビームを向けている。したがって、アレイマイクロフォン１は、話者が変更された場合でも、既に他の方向に向けられた収音ビームで新たな話者の発言を収音することができる。よって、アレイマイクロフォン１は、演算量を抑えながらも、新たな話者の発言の冒頭を収音することができる。また、ＡＵＴＯＭＩＸ３１は、４つの収音ビームの全ての信号でゲインシェアリング処理を行なうよりも明瞭度が向上する。ＡＵＴＯＭＩＸ３１は、最も高レベルの収音ビームだけでなく、次に高レベルの収音ビームの収音信号も用いてゲインシェアリング処理を行なう。他の収音ビームに係る収音信号もゲインシェアリング処理部３０３に入力されているため、話者が変更された場合でも新たな話者の発言の冒頭を適切に収音することができる。

なお、更新対象の収音ビームは、最も過去に更新した収音ビームに限らない。例えば、比較器２０１は、推定した音源方向に角度が最も近い収音ビームを更新の対象としてもよい。

また、上述の様に、ゲート処理部３０２は、音源方向推定部２５による推定結果を用いて、収音ビームを選択してもよい。つまり、ゲート処理部３０２は、音源方向推定部２５が推定した音源方向に対応する収音ビームを選択する。この場合も、ＡＵＴＯＭＩＸ３１は、３チャンネル以上の音信号のうち２以上の一部チャンネルを選択してゲインシェアリング処理を行なうため、明瞭度が向上し、かつ話者が変更された場合でも新たな話者の発言の冒頭を適切に収音することができる。

なお、比較器２０１は、収音ビーム毎に担当するエリアを定めていてもよい。例えば、図１１に示す様に、比較器２０１は、室内を平面視して、４つのエリアを設定する。そして、比較器２０１は、第１収音ビームの担当エリア（Ａｒｅａ１）、第２収音ビームの担当エリア（Ａｒｅａ２）、第３収音ビームの担当エリア（Ａｒｅａ３）、および第４収音ビームの担当エリア（Ａｒｅａ４）に設定する。そして、比較器２０１は、推定した音源方向が属するエリアを判断し、対応する収音ビームの角度を更新する。

比較器２０１は、エリア毎の音源方向の推定頻度を記録し、推定頻度に応じて更新対象とする収音ビームを決定してもよい。例えば、Ａｒｅａ１で音源方向の推定頻度が高く、Ａｒｅａ３で音源方向の推定頻度が低い場合、比較器２０１は、Ａｒｅａ３を担当する第３収音ビームの角度を、Ａｒｅａ１の方向に向けるように設定してもよい。

また、複数の収音ビームのうち少なくとも１つの収音ビームの収音方向は固定されていてもよい。固定する収音ビームの方向は、利用者が手動で設定してもよい。例えば、議長席等の発言頻度の高い話者が存在することが予め分かっている場合に、利用者は、収音ビームの方向を議長席の方向に設定する。これにより、アレイマイクロフォン１は、演算量をさらに抑えながらも、発言の冒頭を適切に収音することができる。

また、ゲート処理部３０２は、収音方向が互いに隣接する収音ビームを同時に選択しないようにしてもよい。特に、話者の音声は、隣接する複数の収音ビームのそれぞれに収音される可能性がある。そこで、ゲート処理部３０２は、収音方向が互いに隣接する収音ビームは同時に選択しないことで、より明瞭度を向上させることができる。

次に、図１２は、エコーキャンセラをさらに備えたアレイマイクロフォン１Ａの構成を示すブロック図である。図３のアレイマイクロフォン１と共通する構成には、同一の符号を付し、説明を省略する。図１２のアレイマイクロフォン１Ａは、ビーム形成部２１、およびＡＵＴＯＭＩＸ３１に接続されるＡＥＣ（エコーキャンセラ）５０－１、ＡＥＣ５０－２、ＡＥＣ５０－３、およびＡＥＣ５０－４を備えている。また、アレイマイクロフォン１Ａは、音源方向推定部２５および複数のマイクのいずれかにそれぞれ接続されるＡＥＣ５１－１、ＡＥＣ５１－２、ＡＥＣ５１－３、およびＡＥＣ５１－４を備えている。Ｉ／Ｆ４１は、遠隔地の装置から音信号を受信する。Ｉ／Ｆ４１は、受信した音信号をＡＥＣ５１－１、ＡＥＣ５１－２、ＡＥＣ５１－３、およびＡＥＣ５１－４に出力する。また、Ｉ／Ｆ４１は、受信した音信号をＡＥＣ５０－１、ＡＥＣ５０－２、ＡＥＣ５０－３、およびＡＥＣ５０－４に出力する。

ＡＥＣ５１－１、ＡＥＣ５１－２、ＡＥＣ５１－３、およびＡＥＣ５１－４は、それぞれ対応するマイクの収音信号を入力し、エコー成分を除去する処理を行なう。具体的には、ＡＥＣ５１－１、ＡＥＣ５１－２、ＡＥＣ５１－３、およびＡＥＣ５１－４は、それぞれ、デジタルフィルタからなる。ＡＥＣ５１－１、ＡＥＣ５１－２、ＡＥＣ５１－３、およびＡＥＣ５１－４は、スピーカからマイクに至る伝達関数を模擬したフィルタ係数を有する。ＡＥＣ５１－１、ＡＥＣ５１－２、ＡＥＣ５１－３、およびＡＥＣ５１－４は、遠隔地の装置から受信した音信号をフィルタ処理することでエコー成分を模擬した擬似エコー信号を生成する。ＡＥＣ５１－１、ＡＥＣ５１－２、ＡＥＣ５１－３、およびＡＥＣ５１－４は、マイクの収音信号から擬似エコー信号を除去する。これにより、音源方向推定部２５は、エコー成分が除去された後の収音信号で音源方向を推定することができる。

ＡＥＣ５０－１、ＡＥＣ５０－２、ＡＥＣ５０－３、およびＡＥＣ５０－４は、それぞれ第１収音ビームｂ１、第２収音ビームｂ２、第３収音ビームｂ３、および第４収音ビームｂ４に係る収音信号を入力し、エコー成分を除去する処理を行なう。エコー成分を除去する処理は、ＡＥＣ５１－１、ＡＥＣ５１－２、ＡＥＣ５１－３、およびＡＥＣ５１－４と同様である。この様に、アレイマイクロフォン１Ａは、収音ビームに係る収音信号からエコー成分を除去することで、全てのマイクの収音信号からエコー成分を除去するよりも演算量を抑えることができる。

なお、本実施形態では、ＡＵＴＯＭＩＸ３１は、複数の収音ビームに係る収音信号を入力した。しかし、ビーム形成部２１によるビーム形成および音源方向推定部２５による音源方向の推定は、必須ではない。例えば、図１３に示す様に、ＡＵＴＯＭＩＸ３１は、話者毎に設けられた複数のマイク１１－１乃至１１－ｎの収音信号を入力してもよい。この場合も、ＡＵＴＯＭＩＸ３１は、３チャンネル以上の音信号のうち２以上の一部チャンネルを選択して、選択した一部チャンネルの音信号のゲインを、それぞれのチャンネルの音信号のレベルに応じて制御してミキシングする。

最後に、本実施形態の説明は、すべての点で例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上述の実施形態ではなく、特許請求の範囲によって示される。さらに、本発明の範囲は、特許請求の範囲と均等の範囲を含む。

１…アレイマイクロフォン
１１－１～１１－ｎ…マイク
２１…ビーム形成部
２５…音源方向推定部
３１…ＡＵＴＯＭＩＸ
４１…Ｉ／Ｆ
２０１…比較器
２０２…遅延計算部
２０３－１，２０３－２，２０３－３，２０３－４…遅延部
２５１－１～２５１－ｎ…遅延器
２５５…加算器
３０１…レベル検出部
３０２…ゲート処理部
３０３…ゲインシェアリング処理部

Claims

複数のマイクと、
前記複数のマイクの収音信号を用いて、３つ以上の収音ビームを形成し、前記３つ以上の収音ビームに一対一で対応する３チャンネル以上の音信号を出力するビーム形成手段と、
前記ビーム形成手段によって、形成された前記３チャンネル以上の音信号のうち２以上の一部チャンネルを所定の基準に基づき選択する選択手段と、
前記選択手段で選択した前記一部チャンネルのうちそれぞれのチャンネルの音信号のゲインを、前記それぞれのチャンネルの音信号のレベルに応じて制御するゲイン制御部と、
を、備え、
前記選択手段は、前記３つ以上の収音ビームの収音方向が互いに隣接する収音ビームに対応するチャンネルを同時に選択しない、
音信号処理装置。
前記音信号をミキシングするミキシング処理部を備えた
請求項１に記載の音信号処理装置。
前記ミキシング処理部は、前記ゲイン制御部でゲイン調整された前記それぞれのチャンネルの音信号をミキシングする、
請求項２に記載の音信号処理装置。
前記選択手段は、各チャンネルのレベルに基づいて、前記選択を行なう、
請求項１乃至請求項３のいずれか１項に記載の音信号処理装置。
前記選択手段は、最も高レベルの２つのチャンネルを選択する、
請求項４に記載の音信号処理装置。
前記ビーム形成手段は、所定のエリア毎に収音ビームを形成する、
請求項１乃至請求項５のいずれか１項に記載の音信号処理装置。
前記複数のマイクは、天井タイルとして設置される、
請求項１乃至請求項６のいずれか１項に記載の音信号処理装置。
前記天井タイルは、交換可能に構成されている、
請求項７に記載の音信号処理装置。
前記複数のマイクは、平面配列されているアレイマイクロフォンを構成する、
請求項１乃至請求項８のいずれか１項に記載の音信号処理装置。
請求項１乃至請求項９のいずれか１項に記載の音信号処理装置を備えたミキサ。
複数のマイクの収音信号を用いて、３つ以上の収音ビームを形成し、前記３つ以上の収音ビームに一対一で対応する３チャンネル以上の音信号を出力することと、
前記３チャンネル以上の音信号のうち２以上の一部チャンネルを選択することと、
選択した前記一部チャンネルのうちそれぞれのチャンネルの音信号のゲインを、前記それぞれのチャンネルの音信号のレベルに応じて制御することと、
を備え、
前記３つ以上の収音ビームのうち、収音方向が互いに隣接する収音ビームに対応するチャンネルを同時に選択しない、音信号処理方法。
前記音信号をミキシングすること
を備えた請求項１１に記載の音信号処理方法。
前記ミキシングすることは、前記制御することでゲイン調整された前記それぞれのチャンネルの音信号をミキシングすることを含む、
請求項１２に記載の音信号処理方法。
各チャンネルのレベルに基づいて、前記選択を行なう、
請求項１１乃至請求項１３のいずれか１項に記載の音信号処理方法。
最も高レベルの２つのチャンネルを選択する、
請求項１４に記載の音信号処理方法。
所定のエリア毎に収音ビームを形成する、
請求項１１乃至請求項１５のいずれか１項に記載の音信号処理方法。