JP2016005181A

JP2016005181A - 集音装置、その制御方法、および、その制御プログラム

Info

Publication number: JP2016005181A
Application number: JP2014125485A
Authority: JP
Inventors: 中谷　政次; Masaji Nakatani; 政次中谷
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2014-06-18
Filing date: 2014-06-18
Publication date: 2016-01-12

Abstract

【課題】複数のマイクのそれぞれから出力される音声信号から音源の位置を正確に特定する。【解決手段】集音装置のＣＰＵが実行する処理は、各マイクの振幅比を算出するステップ（Ｓ１２２）と、各マイクの指向特性と、音源およびマイク間の距離による減衰とを反映した、音源位置情報に規定されているマイク出力比のうちから、算出した振幅比に最も近いマイク出力比を選択し、音源位置情報を参照して、選択したマイク出力比に対応する音源位置を取得するステップ（Ｓ１２４）とを含む。【選択図】図９

Description

本開示は、集音装置の制御に関し、特に、複数のマイクを有する集音装置の制御に関する。

従来、複数のマイクから出力された音声信号を信号処理することにより、音質を改善するための技術や、音源の方向を特定するための技術が開発されている。たとえば、特許文献１は、マイクの指向特性の劣化を抑制できるアレイマイクロホンを開示している。特許文献２は、受信した音声信号から音源の方向を検出し、音源の方向の受信指向性を高める集音装置を開示している。特許文献３は、音源方向または話者を特定できるマイクロフォン・スピーカを開示している。

特開平７−１３１８８６号公報特開２００７−１３４００号公報特開２００５−５７４００号公報

ところで、近年では、目的の音源から発せられた音声を強調して、周囲のノイズを低減することが可能なビームフォーミングという技術が開発されている。ビームフォーミングでは、目的の音源から発せられた音声信号を強調するために、音源の位置を正確に特定することが重要である。このため、音源の位置を正確に特定するための集音装置が望まれている。

特許文献１に開示されるアレイマイクロホンは、複数のマイクから出力されるそれぞれの信号レベルを等しくする。すなわち、当該アレイマイクロホンは、異なる感度特性を有するそれぞれのマイクの感度特性を等しくすることを目的とするものであり、音源の位置を特定することを目的とするものではない。

特許文献２に開示される集音装置は、音源から個々のマイクまでの距離差によって生じる音声信号の遅延を利用して、音源の方向を特定する。当該集音装置は、音源の方向を特定することができても、音源の位置を特定することはできない。

特許文献３に開示されるマイクロフォン・スピーカは、複数のマイクのうち、出力する音のレベルが一番高いマイクが向いている方向を音源の方向として特定する。当該マイクロフォン・スピーカは、音源の方向を特定することができても、音源の位置を特定することはできない。

本開示は上述のような問題点を解決するためになされたものであって、その目的は、複数のマイクのそれぞれから出力される音声信号から音源の位置を正確に特定することが可能な集音装置、その制御方法、および、その制御プログラムを提供することである。

一実施の形態に従うと、集音装置は、互いに異なる位置に設けられた複数のマイクと、互いに異なる位置にある仮想的な複数の音源の各々について、当該音源からの音声を仮に受けた場合における複数のマイクのそれぞれの信号出力レベルと、集音装置に対する当該音源の既知の位置とを互いに関連付けて音源位置情報として予め格納するための記憶部と、音声を実際に受けた時の複数のマイクのそれぞれの信号出力レベルに最も近い信号出力レベルを、音源位置情報に規定されている複数の信号出力レベルのうちから選択するための第１の選択部と、第１の選択部によって選択された信号出力レベルに対応する位置を集音装置に対する実音源の位置として音源位置情報から取得するための取得部とを備える。

好ましくは、集音装置は、複数のマイクのそれぞれによって出力される音声信号間の相関から、当該音声信号間の位相差または時間差を検出するための検出部と、位相差または時間差を用いて集音装置に対する実音源の位置を推定するための推定部と、取得部によって取得された実音源の位置と推定部によって推定された実音源の位置とを用いて実音源の位置を算出するための算出部とをさらに備える。

好ましくは、集音装置は、信号出力レベルが予め定められた信号出力レベルよりも低いマイクを複数のマイクのうちから選択するためのマイク選択部と、マイク選択部によって選択されたマイクから出力される音声信号をノイズ信号として、その他のマイクから出力される音声信号から減算するためのノイズ除去部とをさらに備える。

好ましくは、マイク選択部によって選択されたマイクと、当該マイクに近接するマイクとのそれぞれの信号出力レベルに最も近い信号出力レベルを、音源位置情報に規定されている複数の信号出力レベルのうちから選択するための第２の選択部と、音源位置情報を参照して、第２の選択部によって選択されたに信号出力レベルに対応する位置を集音装置に対するノイズ発生源の位置として決定するための決定部とをさらに備える。ノイズ除去部は、ノイズ発生源から複数のマイクの各々への音声の入射方向に応じて、差し引くノイズ信号の割合を変える。

好ましくは、集音装置は、モニタと、モニタの表示領域内のうち、実音源からの距離が一番近い領域に情報を表示するための表示制御部とをさらに備える。

他の実施の形態に従うと、集音装置の制御方法が提供される。集音装置は、互いに異なる位置に設けられた複数のマイクを備える。制御方法は、互いに異なる位置にある仮想的な複数の音源の各々について、当該音源からの音声を仮に受けた場合における複数のマイクのそれぞれの信号出力レベルと、集音装置に対する当該音源の既知の位置とを互いに関連付けて音源位置情報として予め格納するステップと、音声を実際に受けた時の複数のマイクのそれぞれの信号出力レベルに最も近い信号出力レベルを、音源位置情報に規定されている複数の信号出力レベルのうちから選択するステップと、選択するステップで選択された信号出力レベルに対応する位置を集音装置に対する実音源の位置として音源位置情報から取得するステップとを備える。

さらに他の実施の形態に従うと、集音装置の制御プログラムが提供される。集音装置は、プロセッサと、互いに異なる位置に設けられた複数のマイクを備える。制御プログラムは、プロセッサに、互いに異なる位置にある仮想的な複数の音源の各々について、当該音源からの音声を仮に受けた場合における複数のマイクのそれぞれの信号出力レベルと、集音装置に対する当該音源の既知の位置とを互いに関連付けて音源位置情報として予め格納するステップと、音声を実際に受けた時の複数のマイクのそれぞれの信号出力レベルに最も近い信号出力レベルを、音源位置情報に規定されている複数の信号出力レベルのうちから選択するステップと、選択するステップで選択された信号出力レベルに対応する位置を集音装置に対する実音源の位置として音源位置情報から取得するステップとを実行させる。

ある局面において、複数のマイクのそれぞれから出力される音声信号から音源の位置を正確に特定することがことできる。

本発明の上記および他の目的、特徴、局面および利点は、添付の図面と関連して理解される本発明に関する次の詳細な説明から明らかとなるであろう。

異なるタイプのマイクの指向特性を視覚的に示した図である。同じタイプのマイクの指向特性を視覚的に示した図である。第１の実施の形態に従う集音装置を構成するマイクアレイが音源から音声を受けている様子を示した図である。音源位置情報のデータ構造を示す図である。実際に第１の実施の形態に従う集音装置に格納される音源位置情報のデータ構造を示す図である。マイクの指向特性を考慮しない場合の音源位置情報のデータ構造を示す図である。第１の実施の形態に従う集音装置の主要なハードウェア構成の一例を示すブロック図である。第１の実施の形態に従う集音装置の機能構成を示すブロック図である。第１の実施の形態に従う集音装置が実行する処理の一部を表わすフローチャートである。第２の実施の形態に従う集音装置を構成するマイクアレイが音源から音声を受けている様子を示した図である。第２の実施の形態に従う集音装置の機能構成を示すブロック図である。第２の実施の形態に従う集音装置が実行する処理の一部を表わすフローチャートである。第３の実施の形態に従う集音装置が実行する処理の一部を表わすフローチャートである。第４の実施の形態に従う集音装置の機能構成を示すブロック図である。第４の実施の形態に従う集音装置が実行する処理の一部を表わすフローチャートである。第５の実施の形態に従う集音装置の主要なハードウェア構成の一例を示すブロック図である。

以下、図面を参照しつつ、本実施の形態について説明する。以下の説明では、同一の部品および構成要素には同一の符号を付してある。それらの名称および機能も同じである。したがって、これらについての詳細な説明は繰り返さない。また、以下で説明される各実施の形態は、選択的に組み合わされてもよい。

＜第１の実施の形態＞
［指向特性］
まず、以下で説明する集音装置１００の理解を容易にするために、図１および図２を参照して、マイクの指向特性について説明する。図１は、異なるタイプのマイクの指向特性を視覚的に示した図である。図２は、同じタイプのマイクの指向特性を視覚的に示した図である。

指向特性とは、マイクと音源との間の距離が一定であり、かつ、音源の音圧レベルが一定である場合における、各方向に対するマイクの音の感度のことをいう。通常、マイクの感度は、音源がマイクの正面にある時に最も高くなる。図１には、音源がマイクの正面にある場合における感度を基準とした各方向（すなわち、−９０度〜＋９０度）の感度が示される。なお、図１には、−９０度から＋９０度の範囲における指向特性が示されているが、図１に示される各マイクは、反対方向（すなわち、＋９０度〜＋１８０度、−９０度〜−１８０度）にも特有の指向特性を有する。

図１（Ａ）には、無指向性のマイク２０Ａの指向特性が示される。無指向性のマイク２０Ａの感度は、−９０度〜＋９０度でほとんど変わらない。すなわち、マイク２０Ａと音源との間の距離が一定であり、かつ、音源の音圧レベルが一定である場合には、マイク２０Ａは、どの方向から音声を受けても、同じような信号レベルの音声信号を出力する。多少の感度変化が生じる理由は、マイク２０Ａのパッケージや、マイク２０Ａの搭載方法などに起因する。

図１（Ｂ）には、単一指向性のマイク２０Ｂの指向特性が示される。単一指向性のマイク２０Ｂにおいては、マイク出力は、正面付近で最大となり、角度が大きくなるにつれて小さくなる。すなわち、マイク２０Ｂは、指向性を有する。

図１（Ｃ）には、双指向性のマイク２０Ｃの指向特性が示される。マイク２０Ｃにおいては、マイク出力は、正面付近で最大となり、角度が大きくなるにつれて小さくなる。マイク２０Ｃの指向性は、マイク２０Ｂよりも強い。

このように、マイクのタイプによってマイクの指向特性が異なる。また、同じタイプのマイクであってもマイクの指向特性が異なる場合がある。たとえば、図２（Ａ）および図２（Ｂ）に示されるように、同じタイプのマイク２０Ｄであっても、マイク２０Ｄの指向特性は異なっている。同じタイプのマイクであっても指向特性にばらつきが生じる理由は、マイクの製作工程における微細な組み立て誤差などに起因する。

このような指向特性にばらつきのあるマイクを用いて音源の位置が特定されると、誤った位置が音源位置として特定される。たとえば、音源が２つのマイクの中間にある場合には、本来は、同じ信号レベルの音声信号が各マイクから出力されるはずであるが、指向特性にばらつきがある場合には異なる信号レベルの音声信号が各マイクから出力される。このため、本来は、音源位置が、両マイクの中間に位置すると特定されるべきところを、音源が、どちらかのマイク寄りの場所に位置すると特定される。

以下で説明する集音装置１００は、各マイクの指向特性を用いて音源の位置を特定する。このため、集音装置１００は、マイクの指向特性にばらつきがあったとしても、音源の位置を正確に特定できる。集音装置１００は、特定した音源位置を、複数のマイクの各々から出力される音声信号の合成処理に用いる。音声信号の合成処理の詳細については後述する。

［概要］
図３を参照して、本実施の形態に従う集音装置１００の概要について説明する。図３は、集音装置１００を構成するマイクアレイ１０が音源１８から音声を受けている様子を示した図である。音源１８は、音声を発している人や、音声を発生する物体などを含む。

マイクアレイ１０は、マイク１Ａ〜１Ｃを有する。マイク１Ａ〜１Ｃは、たとえば、互いに間隔Ｌを空けて、同一直線状に等間隔に設けられる。音源１８の位置を特定するためには、３個以上のマイクが用いられることが望ましいが、マイクの数は、３個以上に限られない。マイクの数は、２個であってもよい。

以下では、説明を簡単にするために、マイク１Ａと音源１８との間の距離を直線距離Ｄ１とする。マイク１Ｂと音源１８との間の距離を直線距離Ｄ２とする。マイク１Ｃと音源１８との間の距離を直線距離Ｄ３とする。マイク１Ａから音源１８に向かう方向と、マイク列方向との間の角度を音声入射角θ１とする。マイク１Ｂから音源１８に向かう方向と、マイク列方向との間の角度を音声入射角θ２とする。マイク１Ｃから音源１８に向かう方向と、マイク列方向との間の角度を音声入射角θ３とする。

マイク１Ａ〜１Ｃは、互いに異なる指向特性を有する。一例として、図３に示されるように、マイク１Ａは、マイク列方向の角度を０度として、ｃｏｓ（９０−θ１）の指向特性Ｇ１を有する。マイク１Ｂは、マイク列に直交する方向の角度を０度として、０．８×ｃｏｓ（９０−θ２）の指向特性Ｇ２を有する。マイク１Ｃは、マイク列に直交する方向の角度を０度として、０．９×ｃｏｓ（９０−θ３）の指向特性Ｇ３を有する。

図３に示される指向特性Ｇ１〜Ｇ３は、図１（Ｃ）に示される双指向性のマイク２０Ｃの指向特性と類似しているが、マイク２０Ｃの指向特性に限定されない。たとえば、指向特性Ｇ１〜Ｇ３は、図１に示される無指向性のマイク２０Ａと類似していてもよいし、他の指向特性を有してもよい。また、図３に示される指向特性Ｇ１〜Ｇ３においては、ゲインのみが異なり、形状が同じであるが、各マイクは、様々な形状の指向特性を有してもよい。この場合には、個々のマイクの指向特性が計測されて反映させることが好ましい。

集音装置１００は、音源１８からの音声を受けてマイク１Ａ〜１Ｃから出力される音声信号（以下、「マイク出力」とも称する。）から、マイクアレイ１０に対する音源１８の位置（以下、「音源位置」とも称する。）を特定する。音源位置は、たとえば、マイク１Ａを基準として、マイク１Ａと音源１８との間のマイク列方向に対する距離（すなわち、音源距離Ｌ１）と、マイク１Ａと音源１８との間のマイク列方向に直交する方向に対する距離（すなわち、音源距離Ｄ）とで示される。

マイク出力の大きさは、マイクの指向特性と、音源１８の位置と、音源１８から発せられる音の大きさとによって決まる。したがって、音源１８の位置は、マイクの指向特性と、マイク出力の大きさと、音源１８から発せられる音の大きさとから特定され得る。ここで、音源１８から発せられる音の大きさは不明であるが、マイク１Ａ〜１Ｃのマイク出力の振幅比は、音源位置が一定である場合には、音源１８からの音声の大きさによらず不変である。このため、集音装置１００は、音源位置の特定時にマイク出力の振幅比を用いることで、音源１８から発せられる音の大きさを考慮する必要がなくなる。すなわち、音源１８の位置は、マイクの指向特性と、マイク出力の振幅比とで特定され得る。集音装置１００は、マイク１Ａ〜１Ｃの各々の指向特性を予め保持する。これにより、集音装置１００は、マイク出力の振幅比から音源１８の位置を特定できる。

従来方式による音源の位置特定方法では、各マイクの指向特性による音波の減衰が考慮されておらず、結果として、たとえば、マイク１Ａ寄りに音源１８が存在しているというように、大まかにしか音源位置を特定できなかった。本実施の形態に従う集音装置１００は、各マイクの指向特性による音波の減衰を用いることで、高精度に音源１８の位置を特定できる。

［音源位置情報のデータ構造］
図３を再び参照しつつ、図４〜図６を参照して、集音装置１００に格納される音源位置情報２１＿１について説明する。図４は、音源位置情報２１＿１のデータ構造を示す図である。図５は、実際に集音装置１００に格納される音源位置情報２１＿２のデータ構造を示す図である。図６は、マイクの指向特性が反映されていない音源位置情報２５のデータ構造を示す図である。図４に示されるように、音源位置情報２１＿１には、音源位置２１Ａと、指向特性２１Ｂと、マイク出力比２１Ｃとの関係が規定される。以下では、マイク１Ａ〜１Ｃの間隔Ｌが３００ｍｍであるとする。

音源位置２１Ａは、たとえば、上述の音源距離Ｌ１と、上述の音源距離Ｄとを含む。あるいは、音源位置２１Ａは、上述の音声入射角θ１〜θ３を含んでもよいし、上述の直線距離Ｄ１〜Ｄ３を含んでもよい。指向特性２１Ｂには、音源の位置ごとの指向特性が規定される。

たとえば、音源がＬ１＝０ｍｍ、Ｄ＝５００ｍｍの場所に位置する場合には、音源は、マイク１Ａと正対する。音源がＬ１＝３００ｍｍ、Ｄ＝５００ｍｍの場所に位置する場合に、音源は、マイク１Ｂと正対する。マイク１Ａの音声入射角θ１と、マイク１Ｂの音声入射角θ２と、マイク１Ｃの音声入射角θ３は、音源位置（すなわち、音源距離Ｌ１および音源距離Ｄ）によって決まる。また、直線距離Ｄ１〜Ｄ３も、（すなわち、音源距離Ｌ１および音源距離Ｄ）によって決まる。マイク１Ａ〜１Ｃのマイク出力は、直線距離Ｄ１〜Ｄ３に反比例する。

指向特性２１Ｂには、各方向から各マイクへの音声の入射量（指向入射量Ｇ１（Ｐ）〜Ｇ３（Ｐ））が示される。たとえば、マイク１Ａの指向特性Ｇ１をｃｏｓ（９０−θ１）とし、マイク１Ｂの指向特性Ｇ２を０．８×ｃｏｓ（９０−θ２）とし、マイク１Ｃの指向特性Ｇ３を０．９×ｃｏｓ（９０−θ３）とする。このとき、指向入射量Ｇ１（Ｐ）〜Ｇ３（Ｐ）は、音声入射角θ１〜θ３から算出される。図４の例では、指向入射量Ｇ１（Ｐ）〜Ｇ３（Ｐ）は、最大の入射量を１として正規化されている。

一例として、音源が、Ｌ１＝０ｍｍ、Ｄ＝５００ｍｍの場所に位置する場合には、マイク１Ａの音声入射角θ１が９０度となり、下記の式（１）から指向入射量Ｇ１（Ｐ）は１となる。

Ｇ１（Ｐ）＝ｃｏｓ（９０−θ１）＝ｃｏｓ０＝１・・・（１）
同様に、音源が、Ｌ１＝０ｍｍ、Ｄ＝５００ｍｍの場所に位置する場合には、下記の式（２）から、マイク１Ｂの音声入射角θ２が５９．０４度となり、下記の式（３）から指向入射量Ｇ１（Ｐ）は０．６９となる。

θ２＝Ｔａｎ^−１（Ｄ／Ｌ）＝Ｔａｎ^−１（５００／３００）＝５９．０４・・・（２）
Ｇ２（Ｐ）＝０．８×ｃｏｓ（９０−θ２）＝０．６９・・・（３）
この結果から、マイク１Ａの音声入射角が９０度で、マイク１Ｂの音声入射角が５９．０４度の場合において、マイク１Ａに対する音源距離と、マイク１Ｂに対する音源距離とが同一である時には、マイク１Ｂにはマイク１Ａの約６９％の音声が入力される。

同様の計算から、マイク１Ｃに対する指向入射量Ｇ３（Ｐ）は、０．５８となる。すなわち、マイク１Ａの音声入射角が９０度で、マイク１Ｃの音声入射角が３９．８１度の場合において、マイク１Ａに対する音源距離と、マイク１Ｂに対する音源距離とが同一である時には、マイク１Ｂにはマイク１Ａの約５８％の音声が入力される。

マイク出力比２１Ｃには、音源位置に基づいた各マイク出力の振幅比であるＶ１ｒａｔｉｏ、Ｖ２ｒａｔｉｏ、Ｖ３ｒａｔｉｏが規定される。これらの振幅比は、各マイクおよび音源間の距離（すなわち、音源距離）と、指向特性との両方の影響による音波の減衰率を示すものである。たとえば、音源が、Ｌ１＝０ｍｍ、Ｄ＝５００ｍｍの場所に位置する場合においては、マイク１Ａに対するマイク１Ｂの出力比Ｖ２ｒａｔｉｏは、マイク出力の大きさが音源距離に反比例することを利用して、下記の式（４）から０．５９となる。

Ｖ２ｒａｔｉｏ＝Ｇ２（Ｐ）×Ｄ１／Ｄ２＝０．５８×５００／７８１．０２＝０．３７・・・（４）
上記と同様の方法で、集音装置１００は、様々な位置から発せられた音声を受けた場合のマイク出力比を、音源の位置ごとに算出する。集音装置１００は、算出したマイク出力比と、音源位置とを互いに関連付けて音源位置情報２１＿１として後述の記憶部２０に格納する。これにより、集音装置１００は、図４に示されるような音源位置情報２１＿１を得ることができる。この結果、集音装置１００は、マイクの指向特性と、音源距離による減衰との両方を反映した音源位置情報２１＿１を得ることができる。これにより、集音装置１００は、マイク出力比２１Ｃと音源位置２１Ｄとの関係を正確に規定できる。

なお、実際に集音装置１００が取得できるデータは、各マイクからの出力だけである。このため、図５に示されるように、実際の音源位置情報２１＿２には、図４の音源位置情報２１＿１の一部である、マイク出力比２１Ｃと音源位置２１Ｄとが規定される。図６の音源位置２１Ｄは、図５の音源位置２１Ａから、音源距離Ｌ１と音源距離Ｄとを抜き出したものである。当然ながら、マイク出力比２１Ｃには、音源距離（すなわち、直線距離Ｄ１〜Ｄ３）、および指向特性（すなわち、指向入射量Ｇ１（Ｐ）〜Ｇ３（Ｐ））による音波の減衰が反映されている。

このように、集音装置１００は、互いに異なる位置にある仮想的な複数の音源の各々について、当該音源からの音声を仮に受けた場合における各マイクの出力比と、集音装置１００に対する当該音源の既知の位置とを互いに関連付けて音源位置情報２１＿２として予め格納する。

集音装置１００は、音源から音声を受けると、音源位置情報２１＿２を参照して、音源位置を特定する。たとえば、Ｌ１＝２００ｍｍ、Ｄ＝５００ｍｍの場所に位置する音源から音声を受けた場合に、マイク１Ａ〜１Ｃの出力比が、Ｖ１ｒａｔｉｏ：Ｖ２ｒａｔｉｏ：Ｖ３ｒａｔｉｏ＝１：０．８６：０．７であったとする。このとき、集音装置１００は、音源位置情報２１を参照して、この出力比と最も値が近い行２３（すなわち、Ｖ１ｒａｔｉｏ＝１、Ｖ２ｒａｔｉｏ＝０．８９、Ｖ３ｒａｔｉｏ＝０．６４の行）を選択して、音源位置をＬ１＝２００ｍｍ、Ｄ＝５００ｍｍと特定する。

比較のため、図６を参照して、マイクの指向特性を反映しない音源位置情報２５を用いて、音源位置を特定した場合について説明する。この場合には、集音装置１００は、上記の出力比と最も近い行２７を選択して、音源位置をＬ１＝５０ｍｍ、Ｄ＝５００ｍｍと特定する。この場合、集音装置１００は、誤った位置を音源位置として特定してしまう。このため、マイクの指向特性による音波の減衰を反映していない音源位置情報２５は、音源の方向を判断する程度にしか用いられない。

集音装置１００は、各マイクの指向特性を音源位置の特定処理に用いることで、指向特性にばらつきがあったとしても、正確に音源位置を特定できる。特に、指向特性が鋭いマイクほど、音声が入射される方向によってマイク出力に差が出るため、集音装置１００は、指向特性を反映しない場合に比べて、より正確に音源位置を特定できる。

なお、上記では、マイク出力比２１Ｃが音源位置情報２１＿２に規定される例について説明を行なったが、音源位置情報２１＿２には、マイク出力比２１Ｃの代わりに、各方向から音声を受けた時のマイク出力の電圧値が規定されてもよい。この場合、音源位置情報２１＿２には、マイクの正面を０度とした場合に、音源が０度の方向にある場合のマイク出力の電圧値や、音源が３０度の方向にある場合のマイク出力の電圧値などが規定される。

［ハードウェア構成］
図７を参照して、本実施の形態に従う集音装置１００の概要について説明する。図７は、集音装置１００の主要なハードウェア構成の一例を示すブロック図である。

集音装置１００は、マイクアンプ２Ａ〜２Ｄと、ＣＰＵ（Central Processing Unit）５と、マイクアレイ１０と、記憶部２０とを含む。マイクアレイ１０は、マイク１Ａ〜１Ｄを有する。マイク１Ａ〜１Ｄのそれぞれは、音声を受けて音声信号を出力する。マイクアンプ２Ａは、マイク１Ａからの音声信号を増幅して、ＣＰＵ５に出力する。マイクアンプ２Ｂは、マイク１Ｂからの音声信号を増幅して、ＣＰＵ５に出力する。マイクアンプ２Ｃは、マイク１Ｃからの音声信号を増幅して、ＣＰＵ５に出力する。マイクアンプ２Ｄは、マイク１Ｄからの音声信号を増幅して、ＣＰＵ５に出力する。実質的には、マイク出力は、マイクアンプ２Ａ〜２Ｄからの出力である。

なお、上述のようにマイクアンプ２Ａ〜２Ｄは、マイク１Ａ〜１Ｄの微小信号を増幅するものであるが、この他にも、マイク出力には、ＣＰＵ５の定格電圧に合わせるために、オフセット量も加算される。上述の図４〜図６を用いた説明において音源距離による減衰について説明したが、マイク出力は、実際にはマイクアンプ２Ａ〜２Ｄによる増幅と、オフセットとが加味された値になるため、単純に音源からの距離に反比例しない場合もある。このため、音源距離による減衰などに関しては、実際に使用するマイク１Ａ〜１Ｄおよびマイクアンプ２Ａ〜２Ｄの特性を測定して、この測定結果を用いることが望ましい。

ＣＰＵ５は、記憶部２０に格納された、オペレーティングシステムや集音装置１００の制御プログラムなどの各種プログラムを実行することで、集音装置１００の動作を制御する。より具体的には、ＣＰＵ５は、マイク１Ａ〜１Ｄから得られたマイク出力に基づいて、音源位置を特定し、その音源位置に対してビームフォーミングを行なう。ＣＰＵ５は、ビームフォーミングによって音源位置に対する音声信号を強調して音声信号１２として出力する。

記憶部２０は、ＲＯＭ（Read Only Memory）と、ＲＡＭ（Random Access Memory）と、外部記憶装置と、その他の記憶装置とを含む。記憶部２０には、上述の音源位置情報２１＿２が格納される。音源位置情報２１＿２には、上述したように、マイク１Ａ〜１Ｄのそれぞれの指向特性などが規定される。集音装置１００に設けられるマイクが互いに同じタイプである場合には、音源位置情報２１＿２には、１種類の指向特性が規定されてもよい。しかしながら、発明者らの実測では、同じタイプのマイクでも、±２ｄＢ程度の感度のばらつきが生じる。また、マイク出力が半減する音声入力角度は、同じタイプのマイク間で±１０度程度のばらつきが生じる。このため、集音装置１００は、同じタイプのマイクであったとしても、マイクごとに音源位置情報を保持することが好ましい。なお、マイクの指向特性のばらつきを抑えるために、スペックにばらつきが少ない高性能なマイクが使用された場合には、マイクのコストが上がってしまう。集音装置１００は、マイクごとに音源位置情報を保持するだけでよいので、このようなコストアップも抑えることができる。

［機能構成］
図８を参照して、集音装置１００の機能の一例について説明する。図８は、集音装置１００の機能構成を示すブロック図である。ＣＰＵ５は、第１の選択部２１０と、取得部２２０と、合成部２６０とを含む。

第１の選択部２１０は、音声を実際に受けた時のマイク１Ａ〜１Ｄのそれぞれの信号出力レベルに最も近い信号出力レベルを、音源位置情報２１＿２に規定されている信号出力レベルのうちから選択する。音源位置情報２１＿２に規定されている信号出力レベルは、たとえば、上述のマイク出力比２１Ｃを含む。なお、音源位置情報２１＿２には、マイク出力比２１Ｃの代わりに、マイク出力の信号強度や、マイク出力の振幅の大きさなどが規定されてもよい。第１の選択部２１０は、音源位置情報２１＿２に規定されている信号出力レベルのうちから選択した信号出力レベルを取得部２２０に出力する。

取得部２２０は、第１の選択部２１０によって選択された信号出力レベルに対応する位置を集音装置１００に対する実音源の位置（すなわち、音源位置）として音源位置情報２１＿２から取得する。取得部２２０は、音源位置情報２１＿２から取得した音源位置を合成部２６０に出力する。

合成部２６０は、取得部２２０によって取得された音源位置に基づいて、各マイクから出力される音声信号を合成する。一例として、合成部２６０は、音源からマイクまでの距離に応じて生じる音声信号の遅延を補正して、各信号を足し合わせる。たとえば、図３を再び参照して、音源距離Ｌ１が０ｍｍ、音源距離Ｄが５００ｍｍである場合、すなわち、音源１８がマイク１Ａの正面に位置する場合について考える。この場合、音源１８とマイク１Ａとの直線距離Ｄ１は５００ｍｍとなり、音源とマイク１Ａとの直線距離Ｄ２は５８３．１ｍｍとなる。すなわち、マイク１Ａから音源１８までの距離は、マイク１Ｂから音源１８までの距離に比べて、８３．１ｍｍ長い。このため、マイク１Ａへの音声よりもマイク１Ｂへの音声の方が遅れて入力される。マイク１Ｂに入力される音声の遅延時間は、距離差（すなわち、８３．１ｍｍ）を音速（たとえば、３４０ｍ／秒）で割ることにより算出される。合成部２６０は、マイク１Ａからの音声信号を算出した遅延時間の分だけ遅らせて、マイク１Ａの音声信号とマイク１Ｂの音声信号とを加算し、音源位置からの音波を増幅する。

これにより、集音装置１００は、クリアな音声を得ることができる。このような特定のマイクの音声信号を強調する技術をビームフォーミングという。音声信号の強調方法は、音声信号の加算する方法のみに限らず、音声信号を周波数帯域ごとに分け、それぞれに移相量を設定する方法や、フィルタリング振幅補正するような方法も含む。

また、音源から遠いマイクは、ノイズ音を多く含む可能性が高い。そのため、音源からマイクまでの距離が予め定められた距離よりも長い場合には、合成部２６０は、そのマイクから出力される音声信号を合成処理に用いないように機能してもよい。これにより、集音装置１００は、ノイズ音をカットでき、さらにクリアな音声を得ることできる。

［フローチャート］
図９を参照して、集音装置１００の制御構造について説明する。図９は、集音装置１００が実行する処理の一部を表わすフローチャートである。図９の処理は、ＣＰＵ５がプログラムを実行することにより実現される。他の局面において、処理の一部または全部が、回路素子その他のハードウェアによって実行されてもよい。

ステップＳ１１０において、ＣＰＵ５は、各マイクの振幅値を算出する。たとえば、ＣＰＵ５は、予め定められた時間（たとえば、数ミリ秒）内のマイク出力を平均して各マイクの振幅値を算出してもよいし、予め定められた時間（たとえば、数ミリ秒）内のマイク出力の最大値をマイクの振幅値としてもよい。

ステップＳ１１２において、ＣＰＵ５は、各マイクの振幅値が高い順に各マイクを順位付けする。ステップＳ１２０において、ＣＰＵ５は、複数の音源から音声を受けたか否かを判断する。隣接していないマイクの順位が連番になった場合には、ＣＰＵ５は、複数の音源から同時に音声を受けていると判断する。ＣＰＵ５は、複数の音源から音声を受けたと判断した場合に（ステップＳ１２０においてＹＥＳ）、本実施の形態に従う音声処理を中断する。そうでない場合には（ステップＳ１２０においてＮＯ）、ＣＰＵ５は、制御をステップＳ１２２に切り替える。

ステップＳ１２２において、ＣＰＵ５は、各マイクの振幅比を算出する。ＣＰＵ５は、たとえば、１位から３位のマイクの振幅比を算出する。ステップＳ１２４において、ＣＰＵ５は、第１の選択部２１０として、音源位置情報２１＿２に規定されているマイク出力比２１Ｃのうちから、算出した振幅比に最も近いマイク出力比を選択する。ＣＰＵ５は、取得部２２０として、音源位置情報２１＿２を参照して、選択したマイク出力比に対応する音源位置２１Ｄを取得する。ＣＰＵ５は、算出した振幅比が音源位置情報２１＿２に規定されている値の中間に当たる場合には、上の行を選択するなどの予め定められたルールに従って音源位置を取得する。

［小括］
以上のようにして、本実施の形態に従う集音装置１００は、各マイクの指向特性と、音源距離とを用いて算出されたマイク出力比を含んだ音源位置情報２１＿２を参照して音源位置を特定する。このため、集音装置１００は、マイクの指向特性や音源位置にばらつきがあったとしても、音源位置を正確に特定できる。

集音装置１００は、音源位置を正確に特定することにより、音声が音源から各マイクに入力されるまでの時間を正確に算出できる。これにより、集音装置１００は、各マイクの音声信号の遅延を高精度に補正できる。集音装置１００は、補正した各音声信号を足し合わせることにより、クリアな音声を得ることができる。

なお、集音装置１００に用いるマイクとしては、無指向性のマイクよりも、単一指向性あるいは双指向性などのマイクの方が望ましい。この理由は、音源位置の特定処理では、斜め方向からの音声入力が減衰されることにより、音声の入力方向ごとに差が顕著になるためである。また、使用するマイク個々による指向特性にばらつきがあると、信号振幅は位置によって定まらず、音源位置を誤検知してしまうが、集音装置１００は、個々の指向特性を保持するため、マイクの指向特性にばらつきがあったとしても正確に音源位置を特定できる。

＜第２の実施の形態＞
以下では、図１０を参照して、第２の実施の形態に従う集音装置１００Ａの概要について説明する。図１０は、集音装置１００Ａを構成するマイクアレイ１０が音源１８から音声を受けている様子を示した図である。第２の実施の形態に従う集音装置１００Ａは、各マイクに入力される音声の遅延時間から音源位置を特定する点で、第１の実施の形態に従う集音装置１００とは異なる。ハードウェア構成などのその他の点については第１の実施の形態に従う集音装置１００と同じであるので、それらの説明は繰り返さない。

集音装置１００Ａは、各マイクから出力される音声信号の波形から入力される音声の遅延時間を算出する。この遅延時間は、音源１８の周波数と音速と音源距離とによって決まる。集音装置１００Ａは、音源距離に応じて、各マイクの音声信号の位相がずれることを利用して音源距離を算出する。

たとえば、音源１８から３００Ｈｚの音声が発せられたとする。この音声の周期は、３．３３ミリ秒（＝１秒／３００Ｈｚ）となる。また、音速を３４０ｍ／秒とする。この場合、音源１８から５００ｍｍ離れた場所に位置するマイク１Ａには、音源１８からの音声が１．４７ミリ秒後（＝５００／３４０）に到達する。音源１８から５８３ｍｍ離れた場所に位置するマイク１Ｂには、音源１８からの音声が１．７２ミリ秒後（＝５８３／３４０）に到達する。音源１８から７８１ｍｍ離れた場所に位置するマイク１Ｃには、音源１８からの音声が２．３ミリ秒後（＝７８１／３４０）に到達する。

すなわち、マイク１Ａが音源１８からの音声を受けてから０．２５ミリ秒後（＝１．７２ミリ秒−１．４７ミリ秒）に、マイク１Ｂがこの音声を受ける。マイク１Ａが音源１８からの音声を受けてから０．８３秒後（＝２．３ミリ秒−１．４７ミリ秒）に、マイク１Ｃがこの音声を受ける。

これらの時間差を位相差に換算すると、マイク１Ａおよびマイク１Ｂ間では、２７度（３６０度×０．２５ミリ秒／３．３３ミリ秒）の位相差が生じる。マイク１Ａおよびマイク１Ｃ間では、８９．６度（３６０度×０．８３ミリ秒／３．３３ミリ秒）の位相差が生じる。

このように、マイク間の音声の遅延時間または位相差は、各マイクと音源１８との間の距離から算出され得るので、集音装置１００Ａは、マイク間の音声の遅延時間または位相差（以下では単に、「遅延時間」ともいう。）から音源位置を算出できる。遅延時間は、たとえば、各マイクの音声信号間の相関から算出される。各マイクからの音声信号の位相差や、信号レベルは、音源距離に応じて変わるが、各音声信号の波形は、音源距離に影響されず類似する。このため、集音装置１００Ａは、各音声信号の波形の相関性から、各音声信号間の遅延時間を算出できる。一例として、集音装置１００Ａは、１つのマイクから出力される音声信号を基準として、他のマイクから出力される音声信号をずらしながら相関値を順次算出する。集音装置１００Ａは、相関値が最大となる場合の音声信号のずれ量からマイク間の遅延時間を算出する。なお、集音装置１００Ａは、異なる方法で遅延時間を特定してもよい。たとえば、集音装置１００Ａは、各マイク出力の大きさが予め定められた閾値を超えた時間差を遅延時間としてもよい。

集音装置１００Ａは、マイク出力の大きさが予め定められた閾値を超えた場合に音源位置の特定を開始する。これにより、集音装置１００Ａは、音源１８から音声が発せられた直後に音声の遅延時間を計測できる。この結果、集音装置１００Ａは、音の反射や回折、反響といった影響を受けにくくなる。しかしながら、マイク信号には微小な雑音が常に重畳されており、集音装置１００Ａは、この雑音の影響を受けて音声の遅延時間の検出を誤ってしまう可能性もある。

このため、本実施の形態に従う集音装置１００Ａは、マイクの指向特性を含んだ音源位置情報２１＿２から特定した音源位置（以下、「音源位置Ａ」とも称する。）と、音声の遅延時間によって算出された音源位置（以下、「音源位置Ｂ」とも称する。）との両方を用いて最終的な音源位置を決定する。

たとえば、集音装置１００Ａは、音源位置Ａ，Ｂ間の距離が予め定められた距離よりも短い場合に、音源位置Ａと音源位置Ｂとの間のいずれかの位置（たとえば、中間）を最終的な音源位置として決定する。一例として、集音装置１００Ａは、音源位置Ａ，Ｂ間の距離が、マイク列方向で５０ｍｍ以内、マイク列方向に直交する方向で２００ｍｍ以内である場合に、音源位置Ａ，Ｂを平均化した位置（すなわち、音源位置Ａ，Ｂの中間）を音源位置として決定する。また、音源位置Ａ，Ｂ間の距離が、予め定められた距離よりも大きい場合には、音声の遅延時間によって算出された音源位置Ｂが雑音などの影響により誤検出された可能性があるため、集音装置１００Ａは、音源位置Ａを最終的な音源位置として採用する。

このように、集音装置１００Ａは、２つの手法を用いて音源位置を特定する。これにより、集音装置１００Ａは、雑音、反射、回折などの影響を受けずに音源位置を特定できる。この結果、集音装置１００Ａは、信頼性が高い高精度な音源位置の特定を実現できる。

［機能構成］
図１１を参照して、集音装置１００Ａの機能の一例について説明する。図１１は、集音装置１００Ａの機能構成を示すブロック図である。ＣＰＵ５は、第１の選択部２１０と、取得部２２０と、検出部２３０と、推定部２４０と、算出部２５０と、合成部２６０とを含む。第１の選択部２１０と、取得部２２０と、合成部２６０とについては、上述した通りであるので説明を繰り返さない。

検出部２３０は、マイク１Ａ〜１Ｄのそれぞれによって出力される音声信号間の相関から、当該音声信号間の位相差または時間差を検出する。一例として、検出部２３０は、１つのマイクから出力される音声信号を基準として、他のマイクから出力される音声信号をずらしながら相関値を順次算出する。検出部２３０は、相関値が最大となる音声信号間のずれ量を、各マイクの音声信号間の遅延時間または位相差として検出する。検出部２３０は、検出した遅延時間または位相差を推定部２４０に出力する。

推定部２４０は、検出部２３０によって検出された位相差または遅延時間を用いて音源位置を推定する。たとえば、推定部２４０は、遅延時間に音速を掛け合わせることで、各マイク間の音源距離の差を算出し、これらの差を用いて音源位置を推定する。一例として、図１０を再び参照して、マイク１Ａの音源距離とマイク１Ｂの音源距離と差が常に一定（たとえば、８３ｍｍ）になる線を描くと曲線５ＡＢのようになる。すなわち、曲線５ＡＢ上のいずれかの位置に音源が存在することになる。また、マイク１Ａの音源距離とマイク１Ｃの音源距離と差が常に一定（たとえば、２８１ｍｍ）になる線を描くと曲線５ＡＣのようになる。推定部２４０は、曲線５ＡＢと曲線５ＡＣとの交点の位置を音源位置として推定する。推定部２４０は、推定した音源位置を算出部２５０に出力する。

算出部２５０は、マイクの指向特性を用いて算出された音源位置（すなわち、音源位置Ａ）と、音声入力の遅延時間を用いて算出された音源位置（すなわち、音源位置Ｂ）とを用いて、音源位置を算出する。一例として、算出部２５０は、音源位置Ａと音源位置Ｂとのいずれかを最終的な音源位置として決定してもよい。算出部２５０は、音源位置Ａと音源位置Ｂとの間のいずれかの位置を最終的な音源位置として決定してもよい。算出部２５０は、音源位置Ａと音源位置Ｂとの中間を最終的な音源位置として決定してもよい。算出部２５０は、音源位置Ａと音源位置Ｂとの間の距離が予め定められた距離よりも長い場合には、最終的な音源位置を算出しないようにしてもよい。これにより、集音装置１００Ａは、音源位置の誤検知を減らすことができる。

［フローチャート］
図１２を参照して、集音装置１００Ａの制御構造について説明する。図１２は、集音装置１００Ａが実行する処理の一部を表わすフローチャートである。図１２の処理は、ＣＰＵ５がプログラムを実行することにより実現される。他の局面において、処理の一部または全部が、回路素子その他のハードウェアによって実行されてもよい。ステップＳ１１０〜Ｓ１２４については上述の通りであるので説明を繰り返さない。

ＣＰＵ５は、好ましくは、ステップＳ１１０〜Ｓ１２４の処理と、ステップＳ１３０〜Ｓ１３４の処理とを並行して実行する。これにより、集音装置１００Ａは、同じタイミングで音源位置を算出できる。

ステップＳ１３０において、ＣＰＵ５は、各マイクから得られた音声信号の位相差の検知を開始するか否かを判断する。たとえば、ＣＰＵ５は、一部または全部のマイク出力が予め定められた信号レベルを超えた場合に、位相差の検知を開始する。ＣＰＵ５は、位相差の検知を開始すると判断した場合には（ステップＳ１３０においてＹＥＳ）、制御をステップＳ１３２に切り替える。そうでない場合には（ステップＳ１３０においてＮＯ）、ＣＰＵ５は、ステップＳ１３０の処理を再び実行する。

ステップＳ１３２において、ＣＰＵ５は、検出部２３０として、各マイク出力の位相を計測する。ＣＰＵ５は、たとえば、音波のゼロクロス点など特定の出力レベルになった場合の時間を各マイクについて計測し、これらの時間差を入力音声の遅延時間または位相差とする。ステップＳ１３４において、ＣＰＵ５は、推定部２４０として、遅延時間から音源位置を算出する。音源位置の推定方法については上述の通りであるので説明を繰り返さない。好ましくは、集音装置１００Ａは、遅延時間と音源位置との関係を規定したデータテーブルを保持する。この場合、ＣＰＵ５は、データテーブルを参照して、遅延時間をパラメータとして音源位置を取得する。ステップＳ１４０において、ＣＰＵ５は、ステップＳ２１４で検知された音源位置と、ステップＳ１３４で検知された音源位置とを用いて最終的な音源位置を算出する。

［小括］
以上のようにして、本実施の形態に従う集音装置１００Ａは、マイクの指向特性を用いた方法と、音声入力の遅延時間を用いた方法との２種類の方法で音源位置を特定する。このため、集音装置１００Ａは、１種類の方法で音源位置を特定するよりも正確に音源位置を特定できる。

＜第３の実施の形態＞
［概要］
以下では、第３の実施の形態に従う集音装置１００Ｂの概要について説明する。第３の実施の形態に従う集音装置１００Ｂは、ノイズを除去する機能をさらに有する点で、第１の実施の形態に従う集音装置１００とは異なる。ハードウェア構成などのその他の点については第１の実施の形態に従う集音装置１００と同じであるので、それらの説明は繰り返さない。

本実施の形態に従う集音装置１００Ｂは、ビームフォーミングに用いるマイクを選択し、さらに、入力音声が小さいマイクをノイズ除去用のマイク（以下、「ノイズマイク」とも称する。）として選択する。たとえば、集音装置１００Ｂは、マイク出力の振幅比が予め定められた値（たとえば、０．３）よりも大きいものをビームフォーミングに用いるマイクとして選択する。これにより、集音装置１００Ｂは、音源からの音声を多く取り込んだマイクを用いてビームフォーミングを行なうことができる。

また、集音装置１００Ｂは、マイク出力の振幅比が予め定められた値（たとえば、０．３）よりも小さいマイクをノイズマイクとして選択する。これにより、集音装置１００Ｂは、音源からの音声を多く取り込んでいないマイクからの音声信号を用いてノイズ除去を行なうことができる。

［フローチャート］
図１３を参照して、集音装置１００Ｂの制御構造について説明する。図１３は、集音装置１００Ｂが実行する処理の一部を表わすフローチャートである。図１３の処理は、ＣＰＵ５がプログラムを実行することにより実現される。他の局面において、処理の一部または全部が、回路素子その他のハードウェアによって実行されてもよい。ステップＳ１１０〜Ｓ１２４については上述の通りであるので説明を繰り返さない。

ステップＳ１５０において、ＣＰＵ５は、マイク１Ａ〜１Ｄのうちから、信号出力レベルが予め定められた信号出力レベルよりも低いマイクをノイズマイクとして選択する。ステップＳ１５２において、ＣＰＵ５は、ノイズマイクが選択されたか否かを判断する。ステップＳ１５２において、ＣＰＵ５は、ノイズマイクが選択されたと判断した場合に（ステップＳ１５２においてＹＥＳ）、制御をステップＳ１６０に切り替える。そうでない場合には（ステップＳ１５２においてＮＯ）、ＣＰＵ５は、本実施の形態に従う音声処理を終了する。ステップＳ１６０において、ＣＰＵ５は、合成部２６０として、ノイズマイクから出力される音声信号をノイズ信号として、その他のマイクから出力される音声信号から減算する。

［小括］
以上のようにして、本実施の形態に従う集音装置１００Ｂは、音声信号の出力レベルが予め定められた出力レベルよりも小さいマイクをノイズ除去用のマイクとして選択する。これにより、音源からの音声を多く取り込んでいないマイクを用いてノイズ除去を行なうことができる。この結果、集音装置１００Ｂは、どのような方向から雑音を受けたとしても雑音を除去でき、クリアな音声を得ることができる。

＜第４の実施の形態＞
［概要］
以下では、第４の実施の形態に従う集音装置１００Ｃの概要について説明する。マイクに入力される雑音の大きさは、雑音のマイクの入射角や、マイクとノイズ発生源との間の距離によって変わる。このため、本実施の形態に従う集音装置１００Ｃは、マイクに対するノイズ発生源の位置（以下、「ノイズ位置」とも称する。）を特定し、音声信号から減算するノイズ信号の割合をノイズ位置によってマイクごとに変える。これにより、集音装置１００Ｃは、高精度に雑音を除去でき、非常にクリアな音声信号を生成できる。

［機能構成］
図１４を参照して、集音装置１００Ｃの機能の一例について説明する。図１４は、集音装置１００Ｃの機能構成を示すブロック図である。ＣＰＵ５は、第１の選択部２１０と、取得部２２０と、検出部２３０と、推定部２４０と、算出部２５０と、合成部２６０と、マイク選択部２７０と、第２の選択部２８０と、決定部２９０とを含む。合成部２６０は、ノイズ除去部２６２を有する。第１の選択部２１０と、取得部２２０と、検出部２３０と、推定部２４０と、算出部２５０とについては、図１１に示される機能構成と同じであるので説明を繰り返さない。

マイク選択部２７０は、マイク１Ａ〜１Ｄのうちから、音声を受けた場合の信号出力レベルが予め定められた信号出力レベルよりも低いマイクをノイズマイクとして選択する。マイク選択部２７０は、選択したマイクを識別するための情報を第２の選択部２８０に出力する。

第２の選択部２８０は、ノイズマイクと、ノイズマイクに近接するマイクとのそれぞれのマイク出力比に最も近い信号出力レベルを、音源位置情報２１＿２に規定されているマイク出力比のうちから選択する。たとえば、マイク選択部２７０がマイク１Ｄをノイズマイクとして選択した場合に、ノイズマイクから予め定められた範囲内にあるマイク１Ｃをノイズマイクに近接するマイクとして特定する。第２の選択部２８０は、マイク１Ｄと、マイク１Ｄに近接するマイク１Ｃとのそれぞれのマイク出力比に最も近い信号出力レベルを、音源位置情報２１＿２に規定されている複数の信号出力レベルのうちから選択する。

決定部２９０は、音源位置情報２１＿２を参照して、第２の選択部２８０によって選択されたに信号出力レベルに対応する位置を集音装置１００Ｃに対するノイズ発生源の位置（すなわち、ノイズ位置）として決定する。

ノイズ除去部２６２は、ノイズマイクから出力される音声信号をノイズ信号として、その他のマイクから出力される音声信号から減算する。より具体的には、ノイズ除去部２６２は、ノイズ発生源から各マイクへのノイズ音の入射方向に応じて、減算するノイズ信号の割合を変える。

［フローチャート］
図１５を参照して、集音装置１００Ｃの制御構造について説明する。図１５は、集音装置１００Ｃが実行する処理の一部を表わすフローチャートである。図１５の処理は、ＣＰＵ５がプログラムを実行することにより実現される。他の局面において、処理の一部または全部が、回路素子その他のハードウェアによって実行されてもよい。ステップＳ１１０〜Ｓ１５２については上述の通りであるので説明を繰り返さない。

ステップＳ１７２において、ＣＰＵ５は、ノイズマイクの音声出力レベルが予め定められたレベルを超えている否かを判断する。ＣＰＵ５は、ノイズマイクの音声出力レベルが予め定められたレベルを超えていると判断した場合には、ノイズ音がノイズマイクに入力されたと判断する。ＣＰＵ５は、ノイズ音がノイズマイクに入力されたと判断した場合に（ステップＳ１７２においてＹＥＳ）、制御をステップＳ１７４に切り替える。そうでない場合には（ステップＳ１７２においてＮＯ）、ＣＰＵ５は、本実施の形態に従う音声処理を中断する。

ステップＳ１７４において、ＣＰＵ５は、第２の選択部２８０として、ノイズマイクと、ノイズマイクに近接するマイクとのそれぞれについて振幅比を算出する。ＣＰＵ５は、音源位置情報２１＿２に規定されている振幅比（すなわち、マイク出力比２１Ｃ）から算出した振幅比に最も近い振幅比を選択する。ＣＰＵ５は、決定部２９０として、音源位置情報２１＿２を参照して、選択した信号出力レベルに対応する位置をノイズ位置として取得する。集音装置１００Ｃは、音源位置情報２１＿２のマイク出力比２１Ｃには各マイクの指向特性が反映されているので、ノイズ位置を正確に特定できる。

ステップＳ１７６において、ＣＰＵ５は、ノイズ除去部１６２として、ノイズ音が各マイクに入力される割合（以下、「ノイズ割合」とも称する。）を特定する。より具体的には、ＣＰＵ５は、各マイクの指向特性と、ノイズ位置から各マイクまでの距離とを用いて音声信号に含まれるノイズ割合を推定する。たとえば、マイク１Ｄ（図７参照）がノイズマイクとして選択されたとする。ＣＰＵ５は、マイク１Ｄから出力される音声信号をノイズ信号とする。ＣＰＵ５は、マイク１Ａ〜１Ｃの各々から出力される音声信号からノイズ信号を減算する割合を、マイク１Ａ〜１Ｃの各々とノイズ音源との間の距離によって変える。たとえば、ＣＰＵ５は、マイクとノイズ音源との間の距離が長いほど、ノイズ信号を減算する割合を小さくし、マイクとノイズ音源との間の距離が短いほど、ノイズ信号を減算する割合を大きくする。ＣＰＵ５は、最終的にマイク１Ａ〜１Ｃの各々の音声信号からノイズ信号を減算した各信号を合成することで最終的な音声信号を出力する。

［小括］
以上のようにして、本実施の形態に従う集音装置１００Ｃは、音声信号から減算するノイズ信号の割合をノイズ位置によってマイクごとに変える。これにより、集音装置１００Ｃは、高精度に雑音を除去でき、非常にクリアな音声信号を生成できる。

＜第５の実施の形態＞
［概要］
以下では、第５の実施の形態に従う集音装置１００Ｄの概要について説明する。本実施の形態に従う集音装置１００Ｄは、特定した音源位置に基づいて、モニタに情報を表示する点で第１の実施の形態に従う集音装置１００とは異なる。その他の点については第１の実施の形態に従う集音装置１００と同じであるので、それらの説明は繰り返さない。

近年、インフォメーションディスプレイなどの情報表示モニタが開発されている。情報表示モニタには、液晶モニタが採用されており、複数の液晶モニタが接続されることにより、情報表示モニタの大画面化が進んでいる。このような大型の画面を有する情報表示モニタに対して、特定のユーザにだけ情報が見えるように秘匿性を向上することが望まれている。また、快適な画面操作を実現することも望まれている。本実施の形態に従う集音装置１００Ｄは、このような秘匿性および操作性の向上を実現できる。

［ハードウェア構成］
図１６を参照して、本実施の形態に従う集音装置１００Ｄの概要について説明する。図１６は、集音装置１００Ｄの主要なハードウェア構成の一例を示すブロック図である。

図１６に示されるように、集音装置１００Ｄは、マイクアンプ２Ａ〜２Ｄと、ＣＰＵ５と、マイクアレイ１０と、記憶部２０と、音声認識システム２２と、モニタ２８とを含む。音声認識システム２２は、音声認識部２２Ａと、表示制御部２２Ｂとを有する。これらのハードウェア構成のうち図７に示さるハードウェア構成と同じものについては説明を繰り返さない。

ＣＰＵ５は、音声信号１２と音源位置示す信号２４とを音声認識システム２２に出力する。音声認識システム２２の音声認識部２２Ａは、入力された音声信号１２に基づいて、音声認識などの音声処理を行なう。音声認識システム２２は、モニタ２８に電気的に接続されている。

モニタ２８は、音声認識システム２２の音声認識結果に基づいた情報を表示する。より具体的には、記憶部２０は、音声認識結果と表示内容とを互いに関連付けた表示情報（図示しない）を保持する。表示制御部２２Ｂは、表示情報を参照して、音声認識システム２２の音声認識結果に対応する表示内容を取得し、取得した表示情報をモニタ２８に表示する。また、表示制御部２２Ｂは、モニタ２８の表示領域内のうち、音源位置からの距離が一番近い領域に情報を表示する。図１６には、表示制御部２２Ｂが、音源位置に一番近い表示領域２９に星印を表示している様子が示されている。

なお、音声認識部２２Ａによる音声認識機能や、表示制御部２２Ｂによる表示制御機能は、音声認識システム２２ではなくＣＰＵ５に搭載されてもよい。この場合には、音声認識システム２２は、必ずしも集音装置１００Ｄに組み込まれる必要はない。

［利点］
以上のようにして、本実施の形態に従う集音装置１００Ｄは、特定した音源位置を示す音源位置信号を音声認識システムに出力することで、音源位置付近に情報を表示できる。これにより、集音装置１００Ｄが、たとえば、音声による操作が可能な大画面のインフォメーションディスプレイとして利用された場合に、インフォメーションディスプレイは、音源位置に基づいて、話者が存在している画面の前だけに必要な情報を表示できる。これにより、インフォメーションディスプレイは、情報の秘匿性を向上できる。集音装置１００Ｄは、話者の前に操作画面を表示することもできる。これにより、集音装置１００Ｄは、快適な操作を実現できる。

今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。

１Ａ〜１Ｄ，２０Ａ〜２０Ｄマイク、２Ａ〜２Ｄマイクアンプ、５ＡＢ，５ＡＣ曲線、１０マイクアレイ、１２音声信号、１８音源、２０記憶部、２１＿１，２１＿２，２５音源位置情報、２１Ａ，２１Ｄ音源位置、２１Ｂ，Ｇ１〜Ｇ３指向特性、２１Ｃマイク出力比、２２音声認識システム、２２Ａ音声認識部、２２Ｂ表示制御部、２３，２７行、２４信号、２８モニタ、２９表示領域、１００，１００Ａ〜１００Ｄ集音装置、２１０第１の選択部、２２０取得部、２３０検出部、２４０推定部、２５０算出部、２６０合成部、２６２ノイズ除去部、２７０マイク選択部、２８０第２の選択部、２９０決定部、Ｄ，Ｌ１音源距離、Ｄ１〜Ｄ３直線距離、Ｇ１（ｐ）〜Ｇ３（ｐ）指向入射量、Ｌ間隔、Ｖ１ｒａｔｉｏ〜Ｖ３ｒａｔｉｏ出力比。

Claims

集音装置であって、
互いに異なる位置に設けられた複数のマイクと、
互いに異なる位置にある仮想的な複数の音源の各々について、当該音源からの音声を仮に受けた場合における前記複数のマイクのそれぞれの信号出力レベルと、前記集音装置に対する当該音源の既知の位置とを互いに関連付けて音源位置情報として予め格納するための記憶部と、
音声を実際に受けた時の前記複数のマイクのそれぞれの信号出力レベルに最も近い信号出力レベルを、前記音源位置情報に規定されている複数の信号出力レベルのうちから選択するための第１の選択部と、
前記第１の選択部によって選択された信号出力レベルに対応する位置を前記集音装置に対する実音源の位置として前記音源位置情報から取得するための取得部とを備える、集音装置。
前記集音装置は、
前記複数のマイクのそれぞれによって出力される音声信号間の相関から、当該音声信号間の位相差または時間差を検出するための検出部と、
前記位相差または前記時間差を用いて前記集音装置に対する前記実音源の位置を推定するための推定部と、
前記取得部によって取得された前記実音源の位置と前記推定部によって推定された前記実音源の位置とを用いて前記実音源の位置を算出するための算出部とをさらに備える、請求項１に記載の集音装置。
前記集音装置は、信号出力レベルが予め定められた信号出力レベルよりも低いマイクを前記複数のマイクのうちから選択するためのマイク選択部と、
前記マイク選択部によって選択されたマイクから出力される音声信号をノイズ信号として、その他のマイクから出力される音声信号から減算するためのノイズ除去部とをさらに備える、請求項１または２に記載の集音装置。
前記マイク選択部によって選択されたマイクと、当該マイクに近接するマイクとのそれぞれの信号出力レベルに最も近い信号出力レベルを、前記音源位置情報に規定されている複数の信号出力レベルのうちから選択するための第２の選択部と、
前記音源位置情報を参照して、前記第２の選択部によって選択されたに信号出力レベルに対応する位置を前記集音装置に対するノイズ発生源の位置として決定するための決定部とをさらに備え、
前記ノイズ除去部は、前記ノイズ発生源から前記複数のマイクの各々への音声の入射方向に応じて、差し引く前記ノイズ信号の割合を変える、請求項１〜３のいずれか１項に記載の集音装置。
前記集音装置は、
モニタと、
前記モニタの表示領域内のうち、前記実音源からの距離が一番近い領域に情報を表示するための表示制御部とをさらに備える、請求項１〜４のいずれか１項に記載の集音装置。
集音装置の制御方法であって、
前記集音装置は、互いに異なる位置に設けられた複数のマイクを備え、
前記制御方法は、
互いに異なる位置にある仮想的な複数の音源の各々について、当該音源からの音声を仮に受けた場合における前記複数のマイクのそれぞれの信号出力レベルと、前記集音装置に対する当該音源の既知の位置とを互いに関連付けて音源位置情報として予め格納するステップと、
音声を実際に受けた時の前記複数のマイクのそれぞれの信号出力レベルに最も近い信号出力レベルを、前記音源位置情報に規定されている複数の信号出力レベルのうちから選択するステップと、
前記選択するステップで選択された信号出力レベルに対応する位置を前記集音装置に対する実音源の位置として前記音源位置情報から取得するステップとを備える、制御方法。
集音装置の制御プログラムであって、
前記集音装置は、
プロセッサと、
互いに異なる位置に設けられた複数のマイクを備え、
前記制御プログラムは、前記プロセッサに、
互いに異なる位置にある仮想的な複数の音源の各々について、当該音源からの音声を仮に受けた場合における前記複数のマイクのそれぞれの信号出力レベルと、前記集音装置に対する当該音源の既知の位置とを互いに関連付けて音源位置情報として予め格納するステップと、
音声を実際に受けた時の前記複数のマイクのそれぞれの信号出力レベルに最も近い信号出力レベルを、前記音源位置情報に規定されている複数の信号出力レベルのうちから選択するステップと、
前記選択するステップで選択された信号出力レベルに対応する位置を前記集音装置に対する実音源の位置として前記音源位置情報から取得するステップとを実行させる、制御プログラム。