JP2016005181A - 集音装置、その制御方法、および、その制御プログラム - Google Patents
集音装置、その制御方法、および、その制御プログラム Download PDFInfo
- Publication number
- JP2016005181A JP2016005181A JP2014125485A JP2014125485A JP2016005181A JP 2016005181 A JP2016005181 A JP 2016005181A JP 2014125485 A JP2014125485 A JP 2014125485A JP 2014125485 A JP2014125485 A JP 2014125485A JP 2016005181 A JP2016005181 A JP 2016005181A
- Authority
- JP
- Japan
- Prior art keywords
- sound
- sound source
- microphone
- signal output
- microphones
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
【課題】複数のマイクのそれぞれから出力される音声信号から音源の位置を正確に特定する。【解決手段】集音装置のCPUが実行する処理は、各マイクの振幅比を算出するステップ(S122)と、各マイクの指向特性と、音源およびマイク間の距離による減衰とを反映した、音源位置情報に規定されているマイク出力比のうちから、算出した振幅比に最も近いマイク出力比を選択し、音源位置情報を参照して、選択したマイク出力比に対応する音源位置を取得するステップ(S124)とを含む。【選択図】図9
Description
本開示は、集音装置の制御に関し、特に、複数のマイクを有する集音装置の制御に関する。
従来、複数のマイクから出力された音声信号を信号処理することにより、音質を改善するための技術や、音源の方向を特定するための技術が開発されている。たとえば、特許文献1は、マイクの指向特性の劣化を抑制できるアレイマイクロホンを開示している。特許文献2は、受信した音声信号から音源の方向を検出し、音源の方向の受信指向性を高める集音装置を開示している。特許文献3は、音源方向または話者を特定できるマイクロフォン・スピーカを開示している。
ところで、近年では、目的の音源から発せられた音声を強調して、周囲のノイズを低減することが可能なビームフォーミングという技術が開発されている。ビームフォーミングでは、目的の音源から発せられた音声信号を強調するために、音源の位置を正確に特定することが重要である。このため、音源の位置を正確に特定するための集音装置が望まれている。
特許文献1に開示されるアレイマイクロホンは、複数のマイクから出力されるそれぞれの信号レベルを等しくする。すなわち、当該アレイマイクロホンは、異なる感度特性を有するそれぞれのマイクの感度特性を等しくすることを目的とするものであり、音源の位置を特定することを目的とするものではない。
特許文献2に開示される集音装置は、音源から個々のマイクまでの距離差によって生じる音声信号の遅延を利用して、音源の方向を特定する。当該集音装置は、音源の方向を特定することができても、音源の位置を特定することはできない。
特許文献3に開示されるマイクロフォン・スピーカは、複数のマイクのうち、出力する音のレベルが一番高いマイクが向いている方向を音源の方向として特定する。当該マイクロフォン・スピーカは、音源の方向を特定することができても、音源の位置を特定することはできない。
本開示は上述のような問題点を解決するためになされたものであって、その目的は、複数のマイクのそれぞれから出力される音声信号から音源の位置を正確に特定することが可能な集音装置、その制御方法、および、その制御プログラムを提供することである。
一実施の形態に従うと、集音装置は、互いに異なる位置に設けられた複数のマイクと、互いに異なる位置にある仮想的な複数の音源の各々について、当該音源からの音声を仮に受けた場合における複数のマイクのそれぞれの信号出力レベルと、集音装置に対する当該音源の既知の位置とを互いに関連付けて音源位置情報として予め格納するための記憶部と、音声を実際に受けた時の複数のマイクのそれぞれの信号出力レベルに最も近い信号出力レベルを、音源位置情報に規定されている複数の信号出力レベルのうちから選択するための第1の選択部と、第1の選択部によって選択された信号出力レベルに対応する位置を集音装置に対する実音源の位置として音源位置情報から取得するための取得部とを備える。
好ましくは、集音装置は、複数のマイクのそれぞれによって出力される音声信号間の相関から、当該音声信号間の位相差または時間差を検出するための検出部と、位相差または時間差を用いて集音装置に対する実音源の位置を推定するための推定部と、取得部によって取得された実音源の位置と推定部によって推定された実音源の位置とを用いて実音源の位置を算出するための算出部とをさらに備える。
好ましくは、集音装置は、信号出力レベルが予め定められた信号出力レベルよりも低いマイクを複数のマイクのうちから選択するためのマイク選択部と、マイク選択部によって選択されたマイクから出力される音声信号をノイズ信号として、その他のマイクから出力される音声信号から減算するためのノイズ除去部とをさらに備える。
好ましくは、マイク選択部によって選択されたマイクと、当該マイクに近接するマイクとのそれぞれの信号出力レベルに最も近い信号出力レベルを、音源位置情報に規定されている複数の信号出力レベルのうちから選択するための第2の選択部と、音源位置情報を参照して、第2の選択部によって選択されたに信号出力レベルに対応する位置を集音装置に対するノイズ発生源の位置として決定するための決定部とをさらに備える。ノイズ除去部は、ノイズ発生源から複数のマイクの各々への音声の入射方向に応じて、差し引くノイズ信号の割合を変える。
好ましくは、集音装置は、モニタと、モニタの表示領域内のうち、実音源からの距離が一番近い領域に情報を表示するための表示制御部とをさらに備える。
他の実施の形態に従うと、集音装置の制御方法が提供される。集音装置は、互いに異なる位置に設けられた複数のマイクを備える。制御方法は、互いに異なる位置にある仮想的な複数の音源の各々について、当該音源からの音声を仮に受けた場合における複数のマイクのそれぞれの信号出力レベルと、集音装置に対する当該音源の既知の位置とを互いに関連付けて音源位置情報として予め格納するステップと、音声を実際に受けた時の複数のマイクのそれぞれの信号出力レベルに最も近い信号出力レベルを、音源位置情報に規定されている複数の信号出力レベルのうちから選択するステップと、選択するステップで選択された信号出力レベルに対応する位置を集音装置に対する実音源の位置として音源位置情報から取得するステップとを備える。
さらに他の実施の形態に従うと、集音装置の制御プログラムが提供される。集音装置は、プロセッサと、互いに異なる位置に設けられた複数のマイクを備える。制御プログラムは、プロセッサに、互いに異なる位置にある仮想的な複数の音源の各々について、当該音源からの音声を仮に受けた場合における複数のマイクのそれぞれの信号出力レベルと、集音装置に対する当該音源の既知の位置とを互いに関連付けて音源位置情報として予め格納するステップと、音声を実際に受けた時の複数のマイクのそれぞれの信号出力レベルに最も近い信号出力レベルを、音源位置情報に規定されている複数の信号出力レベルのうちから選択するステップと、選択するステップで選択された信号出力レベルに対応する位置を集音装置に対する実音源の位置として音源位置情報から取得するステップとを実行させる。
ある局面において、複数のマイクのそれぞれから出力される音声信号から音源の位置を正確に特定することがことできる。
本発明の上記および他の目的、特徴、局面および利点は、添付の図面と関連して理解される本発明に関する次の詳細な説明から明らかとなるであろう。
以下、図面を参照しつつ、本実施の形態について説明する。以下の説明では、同一の部品および構成要素には同一の符号を付してある。それらの名称および機能も同じである。したがって、これらについての詳細な説明は繰り返さない。また、以下で説明される各実施の形態は、選択的に組み合わされてもよい。
<第1の実施の形態>
[指向特性]
まず、以下で説明する集音装置100の理解を容易にするために、図1および図2を参照して、マイクの指向特性について説明する。図1は、異なるタイプのマイクの指向特性を視覚的に示した図である。図2は、同じタイプのマイクの指向特性を視覚的に示した図である。
[指向特性]
まず、以下で説明する集音装置100の理解を容易にするために、図1および図2を参照して、マイクの指向特性について説明する。図1は、異なるタイプのマイクの指向特性を視覚的に示した図である。図2は、同じタイプのマイクの指向特性を視覚的に示した図である。
指向特性とは、マイクと音源との間の距離が一定であり、かつ、音源の音圧レベルが一定である場合における、各方向に対するマイクの音の感度のことをいう。通常、マイクの感度は、音源がマイクの正面にある時に最も高くなる。図1には、音源がマイクの正面にある場合における感度を基準とした各方向(すなわち、−90度〜+90度)の感度が示される。なお、図1には、−90度から+90度の範囲における指向特性が示されているが、図1に示される各マイクは、反対方向(すなわち、+90度〜+180度、−90度〜−180度)にも特有の指向特性を有する。
図1(A)には、無指向性のマイク20Aの指向特性が示される。無指向性のマイク20Aの感度は、−90度〜+90度でほとんど変わらない。すなわち、マイク20Aと音源との間の距離が一定であり、かつ、音源の音圧レベルが一定である場合には、マイク20Aは、どの方向から音声を受けても、同じような信号レベルの音声信号を出力する。多少の感度変化が生じる理由は、マイク20Aのパッケージや、マイク20Aの搭載方法などに起因する。
図1(B)には、単一指向性のマイク20Bの指向特性が示される。単一指向性のマイク20Bにおいては、マイク出力は、正面付近で最大となり、角度が大きくなるにつれて小さくなる。すなわち、マイク20Bは、指向性を有する。
図1(C)には、双指向性のマイク20Cの指向特性が示される。マイク20Cにおいては、マイク出力は、正面付近で最大となり、角度が大きくなるにつれて小さくなる。マイク20Cの指向性は、マイク20Bよりも強い。
このように、マイクのタイプによってマイクの指向特性が異なる。また、同じタイプのマイクであってもマイクの指向特性が異なる場合がある。たとえば、図2(A)および図2(B)に示されるように、同じタイプのマイク20Dであっても、マイク20Dの指向特性は異なっている。同じタイプのマイクであっても指向特性にばらつきが生じる理由は、マイクの製作工程における微細な組み立て誤差などに起因する。
このような指向特性にばらつきのあるマイクを用いて音源の位置が特定されると、誤った位置が音源位置として特定される。たとえば、音源が2つのマイクの中間にある場合には、本来は、同じ信号レベルの音声信号が各マイクから出力されるはずであるが、指向特性にばらつきがある場合には異なる信号レベルの音声信号が各マイクから出力される。このため、本来は、音源位置が、両マイクの中間に位置すると特定されるべきところを、音源が、どちらかのマイク寄りの場所に位置すると特定される。
以下で説明する集音装置100は、各マイクの指向特性を用いて音源の位置を特定する。このため、集音装置100は、マイクの指向特性にばらつきがあったとしても、音源の位置を正確に特定できる。集音装置100は、特定した音源位置を、複数のマイクの各々から出力される音声信号の合成処理に用いる。音声信号の合成処理の詳細については後述する。
[概要]
図3を参照して、本実施の形態に従う集音装置100の概要について説明する。図3は、集音装置100を構成するマイクアレイ10が音源18から音声を受けている様子を示した図である。音源18は、音声を発している人や、音声を発生する物体などを含む。
図3を参照して、本実施の形態に従う集音装置100の概要について説明する。図3は、集音装置100を構成するマイクアレイ10が音源18から音声を受けている様子を示した図である。音源18は、音声を発している人や、音声を発生する物体などを含む。
マイクアレイ10は、マイク1A〜1Cを有する。マイク1A〜1Cは、たとえば、互いに間隔Lを空けて、同一直線状に等間隔に設けられる。音源18の位置を特定するためには、3個以上のマイクが用いられることが望ましいが、マイクの数は、3個以上に限られない。マイクの数は、2個であってもよい。
以下では、説明を簡単にするために、マイク1Aと音源18との間の距離を直線距離D1とする。マイク1Bと音源18との間の距離を直線距離D2とする。マイク1Cと音源18との間の距離を直線距離D3とする。マイク1Aから音源18に向かう方向と、マイク列方向との間の角度を音声入射角θ1とする。マイク1Bから音源18に向かう方向と、マイク列方向との間の角度を音声入射角θ2とする。マイク1Cから音源18に向かう方向と、マイク列方向との間の角度を音声入射角θ3とする。
マイク1A〜1Cは、互いに異なる指向特性を有する。一例として、図3に示されるように、マイク1Aは、マイク列方向の角度を0度として、cos(90−θ1)の指向特性G1を有する。マイク1Bは、マイク列に直交する方向の角度を0度として、0.8×cos(90−θ2)の指向特性G2を有する。マイク1Cは、マイク列に直交する方向の角度を0度として、0.9×cos(90−θ3)の指向特性G3を有する。
図3に示される指向特性G1〜G3は、図1(C)に示される双指向性のマイク20Cの指向特性と類似しているが、マイク20Cの指向特性に限定されない。たとえば、指向特性G1〜G3は、図1に示される無指向性のマイク20Aと類似していてもよいし、他の指向特性を有してもよい。また、図3に示される指向特性G1〜G3においては、ゲインのみが異なり、形状が同じであるが、各マイクは、様々な形状の指向特性を有してもよい。この場合には、個々のマイクの指向特性が計測されて反映させることが好ましい。
集音装置100は、音源18からの音声を受けてマイク1A〜1Cから出力される音声信号(以下、「マイク出力」とも称する。)から、マイクアレイ10に対する音源18の位置(以下、「音源位置」とも称する。)を特定する。音源位置は、たとえば、マイク1Aを基準として、マイク1Aと音源18との間のマイク列方向に対する距離(すなわち、音源距離L1)と、マイク1Aと音源18との間のマイク列方向に直交する方向に対する距離(すなわち、音源距離D)とで示される。
マイク出力の大きさは、マイクの指向特性と、音源18の位置と、音源18から発せられる音の大きさとによって決まる。したがって、音源18の位置は、マイクの指向特性と、マイク出力の大きさと、音源18から発せられる音の大きさとから特定され得る。ここで、音源18から発せられる音の大きさは不明であるが、マイク1A〜1Cのマイク出力の振幅比は、音源位置が一定である場合には、音源18からの音声の大きさによらず不変である。このため、集音装置100は、音源位置の特定時にマイク出力の振幅比を用いることで、音源18から発せられる音の大きさを考慮する必要がなくなる。すなわち、音源18の位置は、マイクの指向特性と、マイク出力の振幅比とで特定され得る。集音装置100は、マイク1A〜1Cの各々の指向特性を予め保持する。これにより、集音装置100は、マイク出力の振幅比から音源18の位置を特定できる。
従来方式による音源の位置特定方法では、各マイクの指向特性による音波の減衰が考慮されておらず、結果として、たとえば、マイク1A寄りに音源18が存在しているというように、大まかにしか音源位置を特定できなかった。本実施の形態に従う集音装置100は、各マイクの指向特性による音波の減衰を用いることで、高精度に音源18の位置を特定できる。
[音源位置情報のデータ構造]
図3を再び参照しつつ、図4〜図6を参照して、集音装置100に格納される音源位置情報21_1について説明する。図4は、音源位置情報21_1のデータ構造を示す図である。図5は、実際に集音装置100に格納される音源位置情報21_2のデータ構造を示す図である。図6は、マイクの指向特性が反映されていない音源位置情報25のデータ構造を示す図である。図4に示されるように、音源位置情報21_1には、音源位置21Aと、指向特性21Bと、マイク出力比21Cとの関係が規定される。以下では、マイク1A〜1Cの間隔Lが300mmであるとする。
図3を再び参照しつつ、図4〜図6を参照して、集音装置100に格納される音源位置情報21_1について説明する。図4は、音源位置情報21_1のデータ構造を示す図である。図5は、実際に集音装置100に格納される音源位置情報21_2のデータ構造を示す図である。図6は、マイクの指向特性が反映されていない音源位置情報25のデータ構造を示す図である。図4に示されるように、音源位置情報21_1には、音源位置21Aと、指向特性21Bと、マイク出力比21Cとの関係が規定される。以下では、マイク1A〜1Cの間隔Lが300mmであるとする。
音源位置21Aは、たとえば、上述の音源距離L1と、上述の音源距離Dとを含む。あるいは、音源位置21Aは、上述の音声入射角θ1〜θ3を含んでもよいし、上述の直線距離D1〜D3を含んでもよい。指向特性21Bには、音源の位置ごとの指向特性が規定される。
たとえば、音源がL1=0mm、D=500mmの場所に位置する場合には、音源は、マイク1Aと正対する。音源がL1=300mm、D=500mmの場所に位置する場合に、音源は、マイク1Bと正対する。マイク1Aの音声入射角θ1と、マイク1Bの音声入射角θ2と、マイク1Cの音声入射角θ3は、音源位置(すなわち、音源距離L1および音源距離D)によって決まる。また、直線距離D1〜D3も、(すなわち、音源距離L1および音源距離D)によって決まる。マイク1A〜1Cのマイク出力は、直線距離D1〜D3に反比例する。
指向特性21Bには、各方向から各マイクへの音声の入射量(指向入射量G1(P)〜G3(P))が示される。たとえば、マイク1Aの指向特性G1をcos(90−θ1)とし、マイク1Bの指向特性G2を0.8×cos(90−θ2)とし、マイク1Cの指向特性G3を0.9×cos(90−θ3)とする。このとき、指向入射量G1(P)〜G3(P)は、音声入射角θ1〜θ3から算出される。図4の例では、指向入射量G1(P)〜G3(P)は、最大の入射量を1として正規化されている。
一例として、音源が、L1=0mm、D=500mmの場所に位置する場合には、マイク1Aの音声入射角θ1が90度となり、下記の式(1)から指向入射量G1(P)は1となる。
G1(P)=cos(90−θ1)=cos0=1・・・(1)
同様に、音源が、L1=0mm、D=500mmの場所に位置する場合には、下記の式(2)から、マイク1Bの音声入射角θ2が59.04度となり、下記の式(3)から指向入射量G1(P)は0.69となる。
同様に、音源が、L1=0mm、D=500mmの場所に位置する場合には、下記の式(2)から、マイク1Bの音声入射角θ2が59.04度となり、下記の式(3)から指向入射量G1(P)は0.69となる。
θ2=Tan−1(D/L)=Tan−1(500/300)=59.04・・・(2)
G2(P)=0.8×cos(90−θ2)=0.69・・・(3)
この結果から、マイク1Aの音声入射角が90度で、マイク1Bの音声入射角が59.04度の場合において、マイク1Aに対する音源距離と、マイク1Bに対する音源距離とが同一である時には、マイク1Bにはマイク1Aの約69%の音声が入力される。
G2(P)=0.8×cos(90−θ2)=0.69・・・(3)
この結果から、マイク1Aの音声入射角が90度で、マイク1Bの音声入射角が59.04度の場合において、マイク1Aに対する音源距離と、マイク1Bに対する音源距離とが同一である時には、マイク1Bにはマイク1Aの約69%の音声が入力される。
同様の計算から、マイク1Cに対する指向入射量G3(P)は、0.58となる。すなわち、マイク1Aの音声入射角が90度で、マイク1Cの音声入射角が39.81度の場合において、マイク1Aに対する音源距離と、マイク1Bに対する音源距離とが同一である時には、マイク1Bにはマイク1Aの約58%の音声が入力される。
マイク出力比21Cには、音源位置に基づいた各マイク出力の振幅比であるV1ratio、V2ratio、V3ratioが規定される。これらの振幅比は、各マイクおよび音源間の距離(すなわち、音源距離)と、指向特性との両方の影響による音波の減衰率を示すものである。たとえば、音源が、L1=0mm、D=500mmの場所に位置する場合においては、マイク1Aに対するマイク1Bの出力比V2ratioは、マイク出力の大きさが音源距離に反比例することを利用して、下記の式(4)から0.59となる。
V2ratio=G2(P)×D1/D2=0.58×500/781.02=0.37・・・(4)
上記と同様の方法で、集音装置100は、様々な位置から発せられた音声を受けた場合のマイク出力比を、音源の位置ごとに算出する。集音装置100は、算出したマイク出力比と、音源位置とを互いに関連付けて音源位置情報21_1として後述の記憶部20に格納する。これにより、集音装置100は、図4に示されるような音源位置情報21_1を得ることができる。この結果、集音装置100は、マイクの指向特性と、音源距離による減衰との両方を反映した音源位置情報21_1を得ることができる。これにより、集音装置100は、マイク出力比21Cと音源位置21Dとの関係を正確に規定できる。
上記と同様の方法で、集音装置100は、様々な位置から発せられた音声を受けた場合のマイク出力比を、音源の位置ごとに算出する。集音装置100は、算出したマイク出力比と、音源位置とを互いに関連付けて音源位置情報21_1として後述の記憶部20に格納する。これにより、集音装置100は、図4に示されるような音源位置情報21_1を得ることができる。この結果、集音装置100は、マイクの指向特性と、音源距離による減衰との両方を反映した音源位置情報21_1を得ることができる。これにより、集音装置100は、マイク出力比21Cと音源位置21Dとの関係を正確に規定できる。
なお、実際に集音装置100が取得できるデータは、各マイクからの出力だけである。このため、図5に示されるように、実際の音源位置情報21_2には、図4の音源位置情報21_1の一部である、マイク出力比21Cと音源位置21Dとが規定される。図6の音源位置21Dは、図5の音源位置21Aから、音源距離L1と音源距離Dとを抜き出したものである。当然ながら、マイク出力比21Cには、音源距離(すなわち、直線距離D1〜D3)、および指向特性(すなわち、指向入射量G1(P)〜G3(P))による音波の減衰が反映されている。
このように、集音装置100は、互いに異なる位置にある仮想的な複数の音源の各々について、当該音源からの音声を仮に受けた場合における各マイクの出力比と、集音装置100に対する当該音源の既知の位置とを互いに関連付けて音源位置情報21_2として予め格納する。
集音装置100は、音源から音声を受けると、音源位置情報21_2を参照して、音源位置を特定する。たとえば、L1=200mm、D=500mmの場所に位置する音源から音声を受けた場合に、マイク1A〜1Cの出力比が、V1ratio:V2ratio:V3ratio=1:0.86:0.7であったとする。このとき、集音装置100は、音源位置情報21を参照して、この出力比と最も値が近い行23(すなわち、V1ratio=1、V2ratio=0.89、V3ratio=0.64の行)を選択して、音源位置をL1=200mm、D=500mmと特定する。
比較のため、図6を参照して、マイクの指向特性を反映しない音源位置情報25を用いて、音源位置を特定した場合について説明する。この場合には、集音装置100は、上記の出力比と最も近い行27を選択して、音源位置をL1=50mm、D=500mmと特定する。この場合、集音装置100は、誤った位置を音源位置として特定してしまう。このため、マイクの指向特性による音波の減衰を反映していない音源位置情報25は、音源の方向を判断する程度にしか用いられない。
集音装置100は、各マイクの指向特性を音源位置の特定処理に用いることで、指向特性にばらつきがあったとしても、正確に音源位置を特定できる。特に、指向特性が鋭いマイクほど、音声が入射される方向によってマイク出力に差が出るため、集音装置100は、指向特性を反映しない場合に比べて、より正確に音源位置を特定できる。
なお、上記では、マイク出力比21Cが音源位置情報21_2に規定される例について説明を行なったが、音源位置情報21_2には、マイク出力比21Cの代わりに、各方向から音声を受けた時のマイク出力の電圧値が規定されてもよい。この場合、音源位置情報21_2には、マイクの正面を0度とした場合に、音源が0度の方向にある場合のマイク出力の電圧値や、音源が30度の方向にある場合のマイク出力の電圧値などが規定される。
[ハードウェア構成]
図7を参照して、本実施の形態に従う集音装置100の概要について説明する。図7は、集音装置100の主要なハードウェア構成の一例を示すブロック図である。
図7を参照して、本実施の形態に従う集音装置100の概要について説明する。図7は、集音装置100の主要なハードウェア構成の一例を示すブロック図である。
集音装置100は、マイクアンプ2A〜2Dと、CPU(Central Processing Unit)5と、マイクアレイ10と、記憶部20とを含む。マイクアレイ10は、マイク1A〜1Dを有する。マイク1A〜1Dのそれぞれは、音声を受けて音声信号を出力する。マイクアンプ2Aは、マイク1Aからの音声信号を増幅して、CPU5に出力する。マイクアンプ2Bは、マイク1Bからの音声信号を増幅して、CPU5に出力する。マイクアンプ2Cは、マイク1Cからの音声信号を増幅して、CPU5に出力する。マイクアンプ2Dは、マイク1Dからの音声信号を増幅して、CPU5に出力する。実質的には、マイク出力は、マイクアンプ2A〜2Dからの出力である。
なお、上述のようにマイクアンプ2A〜2Dは、マイク1A〜1Dの微小信号を増幅するものであるが、この他にも、マイク出力には、CPU5の定格電圧に合わせるために、オフセット量も加算される。上述の図4〜図6を用いた説明において音源距離による減衰について説明したが、マイク出力は、実際にはマイクアンプ2A〜2Dによる増幅と、オフセットとが加味された値になるため、単純に音源からの距離に反比例しない場合もある。このため、音源距離による減衰などに関しては、実際に使用するマイク1A〜1Dおよびマイクアンプ2A〜2Dの特性を測定して、この測定結果を用いることが望ましい。
CPU5は、記憶部20に格納された、オペレーティングシステムや集音装置100の制御プログラムなどの各種プログラムを実行することで、集音装置100の動作を制御する。より具体的には、CPU5は、マイク1A〜1Dから得られたマイク出力に基づいて、音源位置を特定し、その音源位置に対してビームフォーミングを行なう。CPU5は、ビームフォーミングによって音源位置に対する音声信号を強調して音声信号12として出力する。
記憶部20は、ROM(Read Only Memory)と、RAM(Random Access Memory)と、外部記憶装置と、その他の記憶装置とを含む。記憶部20には、上述の音源位置情報21_2が格納される。音源位置情報21_2には、上述したように、マイク1A〜1Dのそれぞれの指向特性などが規定される。集音装置100に設けられるマイクが互いに同じタイプである場合には、音源位置情報21_2には、1種類の指向特性が規定されてもよい。しかしながら、発明者らの実測では、同じタイプのマイクでも、±2dB程度の感度のばらつきが生じる。また、マイク出力が半減する音声入力角度は、同じタイプのマイク間で±10度程度のばらつきが生じる。このため、集音装置100は、同じタイプのマイクであったとしても、マイクごとに音源位置情報を保持することが好ましい。なお、マイクの指向特性のばらつきを抑えるために、スペックにばらつきが少ない高性能なマイクが使用された場合には、マイクのコストが上がってしまう。集音装置100は、マイクごとに音源位置情報を保持するだけでよいので、このようなコストアップも抑えることができる。
[機能構成]
図8を参照して、集音装置100の機能の一例について説明する。図8は、集音装置100の機能構成を示すブロック図である。CPU5は、第1の選択部210と、取得部220と、合成部260とを含む。
図8を参照して、集音装置100の機能の一例について説明する。図8は、集音装置100の機能構成を示すブロック図である。CPU5は、第1の選択部210と、取得部220と、合成部260とを含む。
第1の選択部210は、音声を実際に受けた時のマイク1A〜1Dのそれぞれの信号出力レベルに最も近い信号出力レベルを、音源位置情報21_2に規定されている信号出力レベルのうちから選択する。音源位置情報21_2に規定されている信号出力レベルは、たとえば、上述のマイク出力比21Cを含む。なお、音源位置情報21_2には、マイク出力比21Cの代わりに、マイク出力の信号強度や、マイク出力の振幅の大きさなどが規定されてもよい。第1の選択部210は、音源位置情報21_2に規定されている信号出力レベルのうちから選択した信号出力レベルを取得部220に出力する。
取得部220は、第1の選択部210によって選択された信号出力レベルに対応する位置を集音装置100に対する実音源の位置(すなわち、音源位置)として音源位置情報21_2から取得する。取得部220は、音源位置情報21_2から取得した音源位置を合成部260に出力する。
合成部260は、取得部220によって取得された音源位置に基づいて、各マイクから出力される音声信号を合成する。一例として、合成部260は、音源からマイクまでの距離に応じて生じる音声信号の遅延を補正して、各信号を足し合わせる。たとえば、図3を再び参照して、音源距離L1が0mm、音源距離Dが500mmである場合、すなわち、音源18がマイク1Aの正面に位置する場合について考える。この場合、音源18とマイク1Aとの直線距離D1は500mmとなり、音源とマイク1Aとの直線距離D2は583.1mmとなる。すなわち、マイク1Aから音源18までの距離は、マイク1Bから音源18までの距離に比べて、83.1mm長い。このため、マイク1Aへの音声よりもマイク1Bへの音声の方が遅れて入力される。マイク1Bに入力される音声の遅延時間は、距離差(すなわち、83.1mm)を音速(たとえば、340m/秒)で割ることにより算出される。合成部260は、マイク1Aからの音声信号を算出した遅延時間の分だけ遅らせて、マイク1Aの音声信号とマイク1Bの音声信号とを加算し、音源位置からの音波を増幅する。
これにより、集音装置100は、クリアな音声を得ることができる。このような特定のマイクの音声信号を強調する技術をビームフォーミングという。音声信号の強調方法は、音声信号の加算する方法のみに限らず、音声信号を周波数帯域ごとに分け、それぞれに移相量を設定する方法や、フィルタリング振幅補正するような方法も含む。
また、音源から遠いマイクは、ノイズ音を多く含む可能性が高い。そのため、音源からマイクまでの距離が予め定められた距離よりも長い場合には、合成部260は、そのマイクから出力される音声信号を合成処理に用いないように機能してもよい。これにより、集音装置100は、ノイズ音をカットでき、さらにクリアな音声を得ることできる。
[フローチャート]
図9を参照して、集音装置100の制御構造について説明する。図9は、集音装置100が実行する処理の一部を表わすフローチャートである。図9の処理は、CPU5がプログラムを実行することにより実現される。他の局面において、処理の一部または全部が、回路素子その他のハードウェアによって実行されてもよい。
図9を参照して、集音装置100の制御構造について説明する。図9は、集音装置100が実行する処理の一部を表わすフローチャートである。図9の処理は、CPU5がプログラムを実行することにより実現される。他の局面において、処理の一部または全部が、回路素子その他のハードウェアによって実行されてもよい。
ステップS110において、CPU5は、各マイクの振幅値を算出する。たとえば、CPU5は、予め定められた時間(たとえば、数ミリ秒)内のマイク出力を平均して各マイクの振幅値を算出してもよいし、予め定められた時間(たとえば、数ミリ秒)内のマイク出力の最大値をマイクの振幅値としてもよい。
ステップS112において、CPU5は、各マイクの振幅値が高い順に各マイクを順位付けする。ステップS120において、CPU5は、複数の音源から音声を受けたか否かを判断する。隣接していないマイクの順位が連番になった場合には、CPU5は、複数の音源から同時に音声を受けていると判断する。CPU5は、複数の音源から音声を受けたと判断した場合に(ステップS120においてYES)、本実施の形態に従う音声処理を中断する。そうでない場合には(ステップS120においてNO)、CPU5は、制御をステップS122に切り替える。
ステップS122において、CPU5は、各マイクの振幅比を算出する。CPU5は、たとえば、1位から3位のマイクの振幅比を算出する。ステップS124において、CPU5は、第1の選択部210として、音源位置情報21_2に規定されているマイク出力比21Cのうちから、算出した振幅比に最も近いマイク出力比を選択する。CPU5は、取得部220として、音源位置情報21_2を参照して、選択したマイク出力比に対応する音源位置21Dを取得する。CPU5は、算出した振幅比が音源位置情報21_2に規定されている値の中間に当たる場合には、上の行を選択するなどの予め定められたルールに従って音源位置を取得する。
[小括]
以上のようにして、本実施の形態に従う集音装置100は、各マイクの指向特性と、音源距離とを用いて算出されたマイク出力比を含んだ音源位置情報21_2を参照して音源位置を特定する。このため、集音装置100は、マイクの指向特性や音源位置にばらつきがあったとしても、音源位置を正確に特定できる。
以上のようにして、本実施の形態に従う集音装置100は、各マイクの指向特性と、音源距離とを用いて算出されたマイク出力比を含んだ音源位置情報21_2を参照して音源位置を特定する。このため、集音装置100は、マイクの指向特性や音源位置にばらつきがあったとしても、音源位置を正確に特定できる。
集音装置100は、音源位置を正確に特定することにより、音声が音源から各マイクに入力されるまでの時間を正確に算出できる。これにより、集音装置100は、各マイクの音声信号の遅延を高精度に補正できる。集音装置100は、補正した各音声信号を足し合わせることにより、クリアな音声を得ることができる。
なお、集音装置100に用いるマイクとしては、無指向性のマイクよりも、単一指向性あるいは双指向性などのマイクの方が望ましい。この理由は、音源位置の特定処理では、斜め方向からの音声入力が減衰されることにより、音声の入力方向ごとに差が顕著になるためである。また、使用するマイク個々による指向特性にばらつきがあると、信号振幅は位置によって定まらず、音源位置を誤検知してしまうが、集音装置100は、個々の指向特性を保持するため、マイクの指向特性にばらつきがあったとしても正確に音源位置を特定できる。
<第2の実施の形態>
以下では、図10を参照して、第2の実施の形態に従う集音装置100Aの概要について説明する。図10は、集音装置100Aを構成するマイクアレイ10が音源18から音声を受けている様子を示した図である。第2の実施の形態に従う集音装置100Aは、各マイクに入力される音声の遅延時間から音源位置を特定する点で、第1の実施の形態に従う集音装置100とは異なる。ハードウェア構成などのその他の点については第1の実施の形態に従う集音装置100と同じであるので、それらの説明は繰り返さない。
以下では、図10を参照して、第2の実施の形態に従う集音装置100Aの概要について説明する。図10は、集音装置100Aを構成するマイクアレイ10が音源18から音声を受けている様子を示した図である。第2の実施の形態に従う集音装置100Aは、各マイクに入力される音声の遅延時間から音源位置を特定する点で、第1の実施の形態に従う集音装置100とは異なる。ハードウェア構成などのその他の点については第1の実施の形態に従う集音装置100と同じであるので、それらの説明は繰り返さない。
集音装置100Aは、各マイクから出力される音声信号の波形から入力される音声の遅延時間を算出する。この遅延時間は、音源18の周波数と音速と音源距離とによって決まる。集音装置100Aは、音源距離に応じて、各マイクの音声信号の位相がずれることを利用して音源距離を算出する。
たとえば、音源18から300Hzの音声が発せられたとする。この音声の周期は、3.33ミリ秒(=1秒/300Hz)となる。また、音速を340m/秒とする。この場合、音源18から500mm離れた場所に位置するマイク1Aには、音源18からの音声が1.47ミリ秒後(=500/340)に到達する。音源18から583mm離れた場所に位置するマイク1Bには、音源18からの音声が1.72ミリ秒後(=583/340)に到達する。音源18から781mm離れた場所に位置するマイク1Cには、音源18からの音声が2.3ミリ秒後(=781/340)に到達する。
すなわち、マイク1Aが音源18からの音声を受けてから0.25ミリ秒後(=1.72ミリ秒−1.47ミリ秒)に、マイク1Bがこの音声を受ける。マイク1Aが音源18からの音声を受けてから0.83秒後(=2.3ミリ秒−1.47ミリ秒)に、マイク1Cがこの音声を受ける。
これらの時間差を位相差に換算すると、マイク1Aおよびマイク1B間では、27度(360度×0.25ミリ秒/3.33ミリ秒)の位相差が生じる。マイク1Aおよびマイク1C間では、89.6度(360度×0.83ミリ秒/3.33ミリ秒)の位相差が生じる。
このように、マイク間の音声の遅延時間または位相差は、各マイクと音源18との間の距離から算出され得るので、集音装置100Aは、マイク間の音声の遅延時間または位相差(以下では単に、「遅延時間」ともいう。)から音源位置を算出できる。遅延時間は、たとえば、各マイクの音声信号間の相関から算出される。各マイクからの音声信号の位相差や、信号レベルは、音源距離に応じて変わるが、各音声信号の波形は、音源距離に影響されず類似する。このため、集音装置100Aは、各音声信号の波形の相関性から、各音声信号間の遅延時間を算出できる。一例として、集音装置100Aは、1つのマイクから出力される音声信号を基準として、他のマイクから出力される音声信号をずらしながら相関値を順次算出する。集音装置100Aは、相関値が最大となる場合の音声信号のずれ量からマイク間の遅延時間を算出する。なお、集音装置100Aは、異なる方法で遅延時間を特定してもよい。たとえば、集音装置100Aは、各マイク出力の大きさが予め定められた閾値を超えた時間差を遅延時間としてもよい。
集音装置100Aは、マイク出力の大きさが予め定められた閾値を超えた場合に音源位置の特定を開始する。これにより、集音装置100Aは、音源18から音声が発せられた直後に音声の遅延時間を計測できる。この結果、集音装置100Aは、音の反射や回折、反響といった影響を受けにくくなる。しかしながら、マイク信号には微小な雑音が常に重畳されており、集音装置100Aは、この雑音の影響を受けて音声の遅延時間の検出を誤ってしまう可能性もある。
このため、本実施の形態に従う集音装置100Aは、マイクの指向特性を含んだ音源位置情報21_2から特定した音源位置(以下、「音源位置A」とも称する。)と、音声の遅延時間によって算出された音源位置(以下、「音源位置B」とも称する。)との両方を用いて最終的な音源位置を決定する。
たとえば、集音装置100Aは、音源位置A,B間の距離が予め定められた距離よりも短い場合に、音源位置Aと音源位置Bとの間のいずれかの位置(たとえば、中間)を最終的な音源位置として決定する。一例として、集音装置100Aは、音源位置A,B間の距離が、マイク列方向で50mm以内、マイク列方向に直交する方向で200mm以内である場合に、音源位置A,Bを平均化した位置(すなわち、音源位置A,Bの中間)を音源位置として決定する。また、音源位置A,B間の距離が、予め定められた距離よりも大きい場合には、音声の遅延時間によって算出された音源位置Bが雑音などの影響により誤検出された可能性があるため、集音装置100Aは、音源位置Aを最終的な音源位置として採用する。
このように、集音装置100Aは、2つの手法を用いて音源位置を特定する。これにより、集音装置100Aは、雑音、反射、回折などの影響を受けずに音源位置を特定できる。この結果、集音装置100Aは、信頼性が高い高精度な音源位置の特定を実現できる。
[機能構成]
図11を参照して、集音装置100Aの機能の一例について説明する。図11は、集音装置100Aの機能構成を示すブロック図である。CPU5は、第1の選択部210と、取得部220と、検出部230と、推定部240と、算出部250と、合成部260とを含む。第1の選択部210と、取得部220と、合成部260とについては、上述した通りであるので説明を繰り返さない。
図11を参照して、集音装置100Aの機能の一例について説明する。図11は、集音装置100Aの機能構成を示すブロック図である。CPU5は、第1の選択部210と、取得部220と、検出部230と、推定部240と、算出部250と、合成部260とを含む。第1の選択部210と、取得部220と、合成部260とについては、上述した通りであるので説明を繰り返さない。
検出部230は、マイク1A〜1Dのそれぞれによって出力される音声信号間の相関から、当該音声信号間の位相差または時間差を検出する。一例として、検出部230は、1つのマイクから出力される音声信号を基準として、他のマイクから出力される音声信号をずらしながら相関値を順次算出する。検出部230は、相関値が最大となる音声信号間のずれ量を、各マイクの音声信号間の遅延時間または位相差として検出する。検出部230は、検出した遅延時間または位相差を推定部240に出力する。
推定部240は、検出部230によって検出された位相差または遅延時間を用いて音源位置を推定する。たとえば、推定部240は、遅延時間に音速を掛け合わせることで、各マイク間の音源距離の差を算出し、これらの差を用いて音源位置を推定する。一例として、図10を再び参照して、マイク1Aの音源距離とマイク1Bの音源距離と差が常に一定(たとえば、83mm)になる線を描くと曲線5ABのようになる。すなわち、曲線5AB上のいずれかの位置に音源が存在することになる。また、マイク1Aの音源距離とマイク1Cの音源距離と差が常に一定(たとえば、281mm)になる線を描くと曲線5ACのようになる。推定部240は、曲線5ABと曲線5ACとの交点の位置を音源位置として推定する。推定部240は、推定した音源位置を算出部250に出力する。
算出部250は、マイクの指向特性を用いて算出された音源位置(すなわち、音源位置A)と、音声入力の遅延時間を用いて算出された音源位置(すなわち、音源位置B)とを用いて、音源位置を算出する。一例として、算出部250は、音源位置Aと音源位置Bとのいずれかを最終的な音源位置として決定してもよい。算出部250は、音源位置Aと音源位置Bとの間のいずれかの位置を最終的な音源位置として決定してもよい。算出部250は、音源位置Aと音源位置Bとの中間を最終的な音源位置として決定してもよい。算出部250は、音源位置Aと音源位置Bとの間の距離が予め定められた距離よりも長い場合には、最終的な音源位置を算出しないようにしてもよい。これにより、集音装置100Aは、音源位置の誤検知を減らすことができる。
[フローチャート]
図12を参照して、集音装置100Aの制御構造について説明する。図12は、集音装置100Aが実行する処理の一部を表わすフローチャートである。図12の処理は、CPU5がプログラムを実行することにより実現される。他の局面において、処理の一部または全部が、回路素子その他のハードウェアによって実行されてもよい。ステップS110〜S124については上述の通りであるので説明を繰り返さない。
図12を参照して、集音装置100Aの制御構造について説明する。図12は、集音装置100Aが実行する処理の一部を表わすフローチャートである。図12の処理は、CPU5がプログラムを実行することにより実現される。他の局面において、処理の一部または全部が、回路素子その他のハードウェアによって実行されてもよい。ステップS110〜S124については上述の通りであるので説明を繰り返さない。
CPU5は、好ましくは、ステップS110〜S124の処理と、ステップS130〜S134の処理とを並行して実行する。これにより、集音装置100Aは、同じタイミングで音源位置を算出できる。
ステップS130において、CPU5は、各マイクから得られた音声信号の位相差の検知を開始するか否かを判断する。たとえば、CPU5は、一部または全部のマイク出力が予め定められた信号レベルを超えた場合に、位相差の検知を開始する。CPU5は、位相差の検知を開始すると判断した場合には(ステップS130においてYES)、制御をステップS132に切り替える。そうでない場合には(ステップS130においてNO)、CPU5は、ステップS130の処理を再び実行する。
ステップS132において、CPU5は、検出部230として、各マイク出力の位相を計測する。CPU5は、たとえば、音波のゼロクロス点など特定の出力レベルになった場合の時間を各マイクについて計測し、これらの時間差を入力音声の遅延時間または位相差とする。ステップS134において、CPU5は、推定部240として、遅延時間から音源位置を算出する。音源位置の推定方法については上述の通りであるので説明を繰り返さない。好ましくは、集音装置100Aは、遅延時間と音源位置との関係を規定したデータテーブルを保持する。この場合、CPU5は、データテーブルを参照して、遅延時間をパラメータとして音源位置を取得する。ステップS140において、CPU5は、ステップS214で検知された音源位置と、ステップS134で検知された音源位置とを用いて最終的な音源位置を算出する。
[小括]
以上のようにして、本実施の形態に従う集音装置100Aは、マイクの指向特性を用いた方法と、音声入力の遅延時間を用いた方法との2種類の方法で音源位置を特定する。このため、集音装置100Aは、1種類の方法で音源位置を特定するよりも正確に音源位置を特定できる。
以上のようにして、本実施の形態に従う集音装置100Aは、マイクの指向特性を用いた方法と、音声入力の遅延時間を用いた方法との2種類の方法で音源位置を特定する。このため、集音装置100Aは、1種類の方法で音源位置を特定するよりも正確に音源位置を特定できる。
<第3の実施の形態>
[概要]
以下では、第3の実施の形態に従う集音装置100Bの概要について説明する。第3の実施の形態に従う集音装置100Bは、ノイズを除去する機能をさらに有する点で、第1の実施の形態に従う集音装置100とは異なる。ハードウェア構成などのその他の点については第1の実施の形態に従う集音装置100と同じであるので、それらの説明は繰り返さない。
[概要]
以下では、第3の実施の形態に従う集音装置100Bの概要について説明する。第3の実施の形態に従う集音装置100Bは、ノイズを除去する機能をさらに有する点で、第1の実施の形態に従う集音装置100とは異なる。ハードウェア構成などのその他の点については第1の実施の形態に従う集音装置100と同じであるので、それらの説明は繰り返さない。
本実施の形態に従う集音装置100Bは、ビームフォーミングに用いるマイクを選択し、さらに、入力音声が小さいマイクをノイズ除去用のマイク(以下、「ノイズマイク」とも称する。)として選択する。たとえば、集音装置100Bは、マイク出力の振幅比が予め定められた値(たとえば、0.3)よりも大きいものをビームフォーミングに用いるマイクとして選択する。これにより、集音装置100Bは、音源からの音声を多く取り込んだマイクを用いてビームフォーミングを行なうことができる。
また、集音装置100Bは、マイク出力の振幅比が予め定められた値(たとえば、0.3)よりも小さいマイクをノイズマイクとして選択する。これにより、集音装置100Bは、音源からの音声を多く取り込んでいないマイクからの音声信号を用いてノイズ除去を行なうことができる。
[フローチャート]
図13を参照して、集音装置100Bの制御構造について説明する。図13は、集音装置100Bが実行する処理の一部を表わすフローチャートである。図13の処理は、CPU5がプログラムを実行することにより実現される。他の局面において、処理の一部または全部が、回路素子その他のハードウェアによって実行されてもよい。ステップS110〜S124については上述の通りであるので説明を繰り返さない。
図13を参照して、集音装置100Bの制御構造について説明する。図13は、集音装置100Bが実行する処理の一部を表わすフローチャートである。図13の処理は、CPU5がプログラムを実行することにより実現される。他の局面において、処理の一部または全部が、回路素子その他のハードウェアによって実行されてもよい。ステップS110〜S124については上述の通りであるので説明を繰り返さない。
ステップS150において、CPU5は、マイク1A〜1Dのうちから、信号出力レベルが予め定められた信号出力レベルよりも低いマイクをノイズマイクとして選択する。ステップS152において、CPU5は、ノイズマイクが選択されたか否かを判断する。ステップS152において、CPU5は、ノイズマイクが選択されたと判断した場合に(ステップS152においてYES)、制御をステップS160に切り替える。そうでない場合には(ステップS152においてNO)、CPU5は、本実施の形態に従う音声処理を終了する。ステップS160において、CPU5は、合成部260として、ノイズマイクから出力される音声信号をノイズ信号として、その他のマイクから出力される音声信号から減算する。
[小括]
以上のようにして、本実施の形態に従う集音装置100Bは、音声信号の出力レベルが予め定められた出力レベルよりも小さいマイクをノイズ除去用のマイクとして選択する。これにより、音源からの音声を多く取り込んでいないマイクを用いてノイズ除去を行なうことができる。この結果、集音装置100Bは、どのような方向から雑音を受けたとしても雑音を除去でき、クリアな音声を得ることができる。
以上のようにして、本実施の形態に従う集音装置100Bは、音声信号の出力レベルが予め定められた出力レベルよりも小さいマイクをノイズ除去用のマイクとして選択する。これにより、音源からの音声を多く取り込んでいないマイクを用いてノイズ除去を行なうことができる。この結果、集音装置100Bは、どのような方向から雑音を受けたとしても雑音を除去でき、クリアな音声を得ることができる。
<第4の実施の形態>
[概要]
以下では、第4の実施の形態に従う集音装置100Cの概要について説明する。マイクに入力される雑音の大きさは、雑音のマイクの入射角や、マイクとノイズ発生源との間の距離によって変わる。このため、本実施の形態に従う集音装置100Cは、マイクに対するノイズ発生源の位置(以下、「ノイズ位置」とも称する。)を特定し、音声信号から減算するノイズ信号の割合をノイズ位置によってマイクごとに変える。これにより、集音装置100Cは、高精度に雑音を除去でき、非常にクリアな音声信号を生成できる。
[概要]
以下では、第4の実施の形態に従う集音装置100Cの概要について説明する。マイクに入力される雑音の大きさは、雑音のマイクの入射角や、マイクとノイズ発生源との間の距離によって変わる。このため、本実施の形態に従う集音装置100Cは、マイクに対するノイズ発生源の位置(以下、「ノイズ位置」とも称する。)を特定し、音声信号から減算するノイズ信号の割合をノイズ位置によってマイクごとに変える。これにより、集音装置100Cは、高精度に雑音を除去でき、非常にクリアな音声信号を生成できる。
[機能構成]
図14を参照して、集音装置100Cの機能の一例について説明する。図14は、集音装置100Cの機能構成を示すブロック図である。CPU5は、第1の選択部210と、取得部220と、検出部230と、推定部240と、算出部250と、合成部260と、マイク選択部270と、第2の選択部280と、決定部290とを含む。合成部260は、ノイズ除去部262を有する。第1の選択部210と、取得部220と、検出部230と、推定部240と、算出部250とについては、図11に示される機能構成と同じであるので説明を繰り返さない。
図14を参照して、集音装置100Cの機能の一例について説明する。図14は、集音装置100Cの機能構成を示すブロック図である。CPU5は、第1の選択部210と、取得部220と、検出部230と、推定部240と、算出部250と、合成部260と、マイク選択部270と、第2の選択部280と、決定部290とを含む。合成部260は、ノイズ除去部262を有する。第1の選択部210と、取得部220と、検出部230と、推定部240と、算出部250とについては、図11に示される機能構成と同じであるので説明を繰り返さない。
マイク選択部270は、マイク1A〜1Dのうちから、音声を受けた場合の信号出力レベルが予め定められた信号出力レベルよりも低いマイクをノイズマイクとして選択する。マイク選択部270は、選択したマイクを識別するための情報を第2の選択部280に出力する。
第2の選択部280は、ノイズマイクと、ノイズマイクに近接するマイクとのそれぞれのマイク出力比に最も近い信号出力レベルを、音源位置情報21_2に規定されているマイク出力比のうちから選択する。たとえば、マイク選択部270がマイク1Dをノイズマイクとして選択した場合に、ノイズマイクから予め定められた範囲内にあるマイク1Cをノイズマイクに近接するマイクとして特定する。第2の選択部280は、マイク1Dと、マイク1Dに近接するマイク1Cとのそれぞれのマイク出力比に最も近い信号出力レベルを、音源位置情報21_2に規定されている複数の信号出力レベルのうちから選択する。
決定部290は、音源位置情報21_2を参照して、第2の選択部280によって選択されたに信号出力レベルに対応する位置を集音装置100Cに対するノイズ発生源の位置(すなわち、ノイズ位置)として決定する。
ノイズ除去部262は、ノイズマイクから出力される音声信号をノイズ信号として、その他のマイクから出力される音声信号から減算する。より具体的には、ノイズ除去部262は、ノイズ発生源から各マイクへのノイズ音の入射方向に応じて、減算するノイズ信号の割合を変える。
[フローチャート]
図15を参照して、集音装置100Cの制御構造について説明する。図15は、集音装置100Cが実行する処理の一部を表わすフローチャートである。図15の処理は、CPU5がプログラムを実行することにより実現される。他の局面において、処理の一部または全部が、回路素子その他のハードウェアによって実行されてもよい。ステップS110〜S152については上述の通りであるので説明を繰り返さない。
図15を参照して、集音装置100Cの制御構造について説明する。図15は、集音装置100Cが実行する処理の一部を表わすフローチャートである。図15の処理は、CPU5がプログラムを実行することにより実現される。他の局面において、処理の一部または全部が、回路素子その他のハードウェアによって実行されてもよい。ステップS110〜S152については上述の通りであるので説明を繰り返さない。
ステップS172において、CPU5は、ノイズマイクの音声出力レベルが予め定められたレベルを超えている否かを判断する。CPU5は、ノイズマイクの音声出力レベルが予め定められたレベルを超えていると判断した場合には、ノイズ音がノイズマイクに入力されたと判断する。CPU5は、ノイズ音がノイズマイクに入力されたと判断した場合に(ステップS172においてYES)、制御をステップS174に切り替える。そうでない場合には(ステップS172においてNO)、CPU5は、本実施の形態に従う音声処理を中断する。
ステップS174において、CPU5は、第2の選択部280として、ノイズマイクと、ノイズマイクに近接するマイクとのそれぞれについて振幅比を算出する。CPU5は、音源位置情報21_2に規定されている振幅比(すなわち、マイク出力比21C)から算出した振幅比に最も近い振幅比を選択する。CPU5は、決定部290として、音源位置情報21_2を参照して、選択した信号出力レベルに対応する位置をノイズ位置として取得する。集音装置100Cは、音源位置情報21_2のマイク出力比21Cには各マイクの指向特性が反映されているので、ノイズ位置を正確に特定できる。
ステップS176において、CPU5は、ノイズ除去部162として、ノイズ音が各マイクに入力される割合(以下、「ノイズ割合」とも称する。)を特定する。より具体的には、CPU5は、各マイクの指向特性と、ノイズ位置から各マイクまでの距離とを用いて音声信号に含まれるノイズ割合を推定する。たとえば、マイク1D(図7参照)がノイズマイクとして選択されたとする。CPU5は、マイク1Dから出力される音声信号をノイズ信号とする。CPU5は、マイク1A〜1Cの各々から出力される音声信号からノイズ信号を減算する割合を、マイク1A〜1Cの各々とノイズ音源との間の距離によって変える。たとえば、CPU5は、マイクとノイズ音源との間の距離が長いほど、ノイズ信号を減算する割合を小さくし、マイクとノイズ音源との間の距離が短いほど、ノイズ信号を減算する割合を大きくする。CPU5は、最終的にマイク1A〜1Cの各々の音声信号からノイズ信号を減算した各信号を合成することで最終的な音声信号を出力する。
[小括]
以上のようにして、本実施の形態に従う集音装置100Cは、音声信号から減算するノイズ信号の割合をノイズ位置によってマイクごとに変える。これにより、集音装置100Cは、高精度に雑音を除去でき、非常にクリアな音声信号を生成できる。
以上のようにして、本実施の形態に従う集音装置100Cは、音声信号から減算するノイズ信号の割合をノイズ位置によってマイクごとに変える。これにより、集音装置100Cは、高精度に雑音を除去でき、非常にクリアな音声信号を生成できる。
<第5の実施の形態>
[概要]
以下では、第5の実施の形態に従う集音装置100Dの概要について説明する。本実施の形態に従う集音装置100Dは、特定した音源位置に基づいて、モニタに情報を表示する点で第1の実施の形態に従う集音装置100とは異なる。その他の点については第1の実施の形態に従う集音装置100と同じであるので、それらの説明は繰り返さない。
[概要]
以下では、第5の実施の形態に従う集音装置100Dの概要について説明する。本実施の形態に従う集音装置100Dは、特定した音源位置に基づいて、モニタに情報を表示する点で第1の実施の形態に従う集音装置100とは異なる。その他の点については第1の実施の形態に従う集音装置100と同じであるので、それらの説明は繰り返さない。
近年、インフォメーションディスプレイなどの情報表示モニタが開発されている。情報表示モニタには、液晶モニタが採用されており、複数の液晶モニタが接続されることにより、情報表示モニタの大画面化が進んでいる。このような大型の画面を有する情報表示モニタに対して、特定のユーザにだけ情報が見えるように秘匿性を向上することが望まれている。また、快適な画面操作を実現することも望まれている。本実施の形態に従う集音装置100Dは、このような秘匿性および操作性の向上を実現できる。
[ハードウェア構成]
図16を参照して、本実施の形態に従う集音装置100Dの概要について説明する。図16は、集音装置100Dの主要なハードウェア構成の一例を示すブロック図である。
図16を参照して、本実施の形態に従う集音装置100Dの概要について説明する。図16は、集音装置100Dの主要なハードウェア構成の一例を示すブロック図である。
図16に示されるように、集音装置100Dは、マイクアンプ2A〜2Dと、CPU5と、マイクアレイ10と、記憶部20と、音声認識システム22と、モニタ28とを含む。音声認識システム22は、音声認識部22Aと、表示制御部22Bとを有する。これらのハードウェア構成のうち図7に示さるハードウェア構成と同じものについては説明を繰り返さない。
CPU5は、音声信号12と音源位置示す信号24とを音声認識システム22に出力する。音声認識システム22の音声認識部22Aは、入力された音声信号12に基づいて、音声認識などの音声処理を行なう。音声認識システム22は、モニタ28に電気的に接続されている。
モニタ28は、音声認識システム22の音声認識結果に基づいた情報を表示する。より具体的には、記憶部20は、音声認識結果と表示内容とを互いに関連付けた表示情報(図示しない)を保持する。表示制御部22Bは、表示情報を参照して、音声認識システム22の音声認識結果に対応する表示内容を取得し、取得した表示情報をモニタ28に表示する。また、表示制御部22Bは、モニタ28の表示領域内のうち、音源位置からの距離が一番近い領域に情報を表示する。図16には、表示制御部22Bが、音源位置に一番近い表示領域29に星印を表示している様子が示されている。
なお、音声認識部22Aによる音声認識機能や、表示制御部22Bによる表示制御機能は、音声認識システム22ではなくCPU5に搭載されてもよい。この場合には、音声認識システム22は、必ずしも集音装置100Dに組み込まれる必要はない。
[利点]
以上のようにして、本実施の形態に従う集音装置100Dは、特定した音源位置を示す音源位置信号を音声認識システムに出力することで、音源位置付近に情報を表示できる。これにより、集音装置100Dが、たとえば、音声による操作が可能な大画面のインフォメーションディスプレイとして利用された場合に、インフォメーションディスプレイは、音源位置に基づいて、話者が存在している画面の前だけに必要な情報を表示できる。これにより、インフォメーションディスプレイは、情報の秘匿性を向上できる。集音装置100Dは、話者の前に操作画面を表示することもできる。これにより、集音装置100Dは、快適な操作を実現できる。
以上のようにして、本実施の形態に従う集音装置100Dは、特定した音源位置を示す音源位置信号を音声認識システムに出力することで、音源位置付近に情報を表示できる。これにより、集音装置100Dが、たとえば、音声による操作が可能な大画面のインフォメーションディスプレイとして利用された場合に、インフォメーションディスプレイは、音源位置に基づいて、話者が存在している画面の前だけに必要な情報を表示できる。これにより、インフォメーションディスプレイは、情報の秘匿性を向上できる。集音装置100Dは、話者の前に操作画面を表示することもできる。これにより、集音装置100Dは、快適な操作を実現できる。
今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
1A〜1D,20A〜20D マイク、2A〜2D マイクアンプ、5AB,5AC 曲線、10 マイクアレイ、12 音声信号、18 音源、20 記憶部、21_1,21_2,25 音源位置情報、21A,21D 音源位置、21B,G1〜G3 指向特性、21C マイク出力比、22 音声認識システム、22A 音声認識部、22B 表示制御部、23,27 行、24 信号、28 モニタ、29 表示領域、100,100A〜100D 集音装置、210 第1の選択部、220 取得部、230 検出部、240 推定部、250 算出部、260 合成部、262 ノイズ除去部、270 マイク選択部、280 第2の選択部、290 決定部、D,L1 音源距離、D1〜D3 直線距離、G1(p)〜G3(p) 指向入射量、L 間隔、V1ratio〜V3ratio 出力比。
Claims (7)
- 集音装置であって、
互いに異なる位置に設けられた複数のマイクと、
互いに異なる位置にある仮想的な複数の音源の各々について、当該音源からの音声を仮に受けた場合における前記複数のマイクのそれぞれの信号出力レベルと、前記集音装置に対する当該音源の既知の位置とを互いに関連付けて音源位置情報として予め格納するための記憶部と、
音声を実際に受けた時の前記複数のマイクのそれぞれの信号出力レベルに最も近い信号出力レベルを、前記音源位置情報に規定されている複数の信号出力レベルのうちから選択するための第1の選択部と、
前記第1の選択部によって選択された信号出力レベルに対応する位置を前記集音装置に対する実音源の位置として前記音源位置情報から取得するための取得部とを備える、集音装置。 - 前記集音装置は、
前記複数のマイクのそれぞれによって出力される音声信号間の相関から、当該音声信号間の位相差または時間差を検出するための検出部と、
前記位相差または前記時間差を用いて前記集音装置に対する前記実音源の位置を推定するための推定部と、
前記取得部によって取得された前記実音源の位置と前記推定部によって推定された前記実音源の位置とを用いて前記実音源の位置を算出するための算出部とをさらに備える、請求項1に記載の集音装置。 - 前記集音装置は、信号出力レベルが予め定められた信号出力レベルよりも低いマイクを前記複数のマイクのうちから選択するためのマイク選択部と、
前記マイク選択部によって選択されたマイクから出力される音声信号をノイズ信号として、その他のマイクから出力される音声信号から減算するためのノイズ除去部とをさらに備える、請求項1または2に記載の集音装置。 - 前記マイク選択部によって選択されたマイクと、当該マイクに近接するマイクとのそれぞれの信号出力レベルに最も近い信号出力レベルを、前記音源位置情報に規定されている複数の信号出力レベルのうちから選択するための第2の選択部と、
前記音源位置情報を参照して、前記第2の選択部によって選択されたに信号出力レベルに対応する位置を前記集音装置に対するノイズ発生源の位置として決定するための決定部とをさらに備え、
前記ノイズ除去部は、前記ノイズ発生源から前記複数のマイクの各々への音声の入射方向に応じて、差し引く前記ノイズ信号の割合を変える、請求項1〜3のいずれか1項に記載の集音装置。 - 前記集音装置は、
モニタと、
前記モニタの表示領域内のうち、前記実音源からの距離が一番近い領域に情報を表示するための表示制御部とをさらに備える、請求項1〜4のいずれか1項に記載の集音装置。 - 集音装置の制御方法であって、
前記集音装置は、互いに異なる位置に設けられた複数のマイクを備え、
前記制御方法は、
互いに異なる位置にある仮想的な複数の音源の各々について、当該音源からの音声を仮に受けた場合における前記複数のマイクのそれぞれの信号出力レベルと、前記集音装置に対する当該音源の既知の位置とを互いに関連付けて音源位置情報として予め格納するステップと、
音声を実際に受けた時の前記複数のマイクのそれぞれの信号出力レベルに最も近い信号出力レベルを、前記音源位置情報に規定されている複数の信号出力レベルのうちから選択するステップと、
前記選択するステップで選択された信号出力レベルに対応する位置を前記集音装置に対する実音源の位置として前記音源位置情報から取得するステップとを備える、制御方法。 - 集音装置の制御プログラムであって、
前記集音装置は、
プロセッサと、
互いに異なる位置に設けられた複数のマイクを備え、
前記制御プログラムは、前記プロセッサに、
互いに異なる位置にある仮想的な複数の音源の各々について、当該音源からの音声を仮に受けた場合における前記複数のマイクのそれぞれの信号出力レベルと、前記集音装置に対する当該音源の既知の位置とを互いに関連付けて音源位置情報として予め格納するステップと、
音声を実際に受けた時の前記複数のマイクのそれぞれの信号出力レベルに最も近い信号出力レベルを、前記音源位置情報に規定されている複数の信号出力レベルのうちから選択するステップと、
前記選択するステップで選択された信号出力レベルに対応する位置を前記集音装置に対する実音源の位置として前記音源位置情報から取得するステップとを実行させる、制御プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014125485A JP2016005181A (ja) | 2014-06-18 | 2014-06-18 | 集音装置、その制御方法、および、その制御プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014125485A JP2016005181A (ja) | 2014-06-18 | 2014-06-18 | 集音装置、その制御方法、および、その制御プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2016005181A true JP2016005181A (ja) | 2016-01-12 |
Family
ID=55224159
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014125485A Pending JP2016005181A (ja) | 2014-06-18 | 2014-06-18 | 集音装置、その制御方法、および、その制御プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2016005181A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110677773A (zh) * | 2019-05-08 | 2020-01-10 | 青岛海尔空调器有限总公司 | 用于选择音频采集设备的方法、装置和声控设备 |
CN111060874A (zh) * | 2019-12-10 | 2020-04-24 | 深圳市优必选科技股份有限公司 | 一种声源定位方法、装置、存储介质及终端设备 |
-
2014
- 2014-06-18 JP JP2014125485A patent/JP2016005181A/ja active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110677773A (zh) * | 2019-05-08 | 2020-01-10 | 青岛海尔空调器有限总公司 | 用于选择音频采集设备的方法、装置和声控设备 |
CN111060874A (zh) * | 2019-12-10 | 2020-04-24 | 深圳市优必选科技股份有限公司 | 一种声源定位方法、装置、存储介质及终端设备 |
CN111060874B (zh) * | 2019-12-10 | 2021-10-29 | 深圳市优必选科技股份有限公司 | 一种声源定位方法、装置、存储介质及终端设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11323807B2 (en) | Echo cancellation method and apparatus based on time delay estimation | |
US9082415B2 (en) | Sound determination method and sound determination apparatus | |
EP3822654A1 (en) | Audio recognition method, and target audio positioning method, apparatus and device | |
US10334357B2 (en) | Machine learning based sound field analysis | |
CN105301594B (zh) | 距离测量 | |
US20170034642A1 (en) | Information processing device, information processing method, and program | |
CN113674761B (zh) | 设备确定方法及设备确定系统 | |
US11212613B2 (en) | Signal processing device and signal processing method | |
EP3755004A1 (en) | Directional acoustic sensor, and methods of adjusting directional characteristics and attenuating acoustic signal in specific direction using the same | |
JP2008236077A (ja) | 目的音抽出装置,目的音抽出プログラム | |
US11930331B2 (en) | Method, apparatus and device for processing sound signals | |
US11900920B2 (en) | Sound pickup device, sound pickup method, and non-transitory computer readable recording medium storing sound pickup program | |
US20220054049A1 (en) | High-precision temporal measurement of vibro-acoustic events in synchronisation with a sound signal on a touch-screen device | |
US11437054B2 (en) | Sample-accurate delay identification in a frequency domain | |
US12002485B2 (en) | Information processing device and information processing method | |
JP2016005181A (ja) | 集音装置、その制御方法、および、その制御プログラム | |
JPH02296171A (ja) | 音響検出装置 | |
JP6711205B2 (ja) | 音響信号処理装置、プログラム及び方法 | |
US20170353806A1 (en) | Electronic device and sound signal processing method thereof | |
US11277692B2 (en) | Speech input method, recording medium, and speech input device | |
US10360922B2 (en) | Noise reduction device and method for reducing noise | |
JP4796777B2 (ja) | 水中探知装置 | |
US10636438B2 (en) | Method, information processing apparatus for processing speech, and non-transitory computer-readable storage medium | |
JP6236755B2 (ja) | パッシブソーナー装置、トランジェント信号処理方法及びその信号処理プログラム | |
JP6387151B2 (ja) | 雑音抑圧装置、及び、雑音抑圧方法 |