JP2016082432A

JP2016082432A - マイクシステム、ノイズ除去方法、およびプログラム

Info

Publication number: JP2016082432A
Application number: JP2014212735A
Authority: JP
Inventors: 中谷　政次; Masaji Nakatani; 政次中谷
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2014-10-17
Filing date: 2014-10-17
Publication date: 2016-05-16

Abstract

【課題】目的音信号からノイズ成分を除去する性能を損なうことなく、目的音信号の劣化を従来技術よりも抑えることが可能なマイクシステムを提供する。
【解決手段】マイクシステムのＣＰＵが実行する処理は、非集音対象に向けて設けられている第１マイクからノイズ音信号を取得し、集音対象に向けて設けられている第２マイクから目的音信号を取得するステップ（Ｓ１０）と、第１マイクの指向特性に基づいて、ノイズ音方向に対する第１マイクの第１出力レベルを特定するステップ（Ｓ１２）と、第２マイクの指向特性に基づいて、ノイズ音方向に対する第２マイクの第２出力レベルを特定するステップ（Ｓ１４）と、第１出力レベルと第２出力レベルとの比率を用いて、第１出力レベルで出力されるノイズ音信号を第２出力レベルの新たな信号に補正するステップ（Ｓ１６）と、目的音信号から新たな信号を除去するステップ（Ｓ１８）とを含む。
【選択図】図３

Description

本開示は、マイクシステムの制御に関し、特に、複数のマイクを有するマイクシステムの制御に関する。

近年、複数のマイクを備えたマイクアレイを用いて、特定の方向から発せられる音声（以下、「目的音」ともいう。）を強調するための技術が開発されている。たとえば、非特許文献１は、目的音方向に対する指向性を高める所謂遅延和処理と呼ばれる手法を開示している。遅延和処理は、目的音を発する集音対象と各マイクとの間の距離の違いに応じて、各マイクから出力される音声信号を遅延し、各音声信号を加算することで目的音方向に対する指向性を高める。遅延和処理により目的音方向（たとえば、正面に対して±３０度）に対する指向性を高めるために、多数（たとえば、数十個）のマイクが必要となる。その結果、マイクの数が増えることによるコストアップや、配線が複雑化することによる装置の大型化などの問題が生じる。

これらの問題を解決するために、少数のマイクで目的音を強調することができる手法がある。当該手法は、特定の方向から発せられた音声（すなわち、目的音）から得られた音声信号（以下、「目的音信号」ともいう。）と、その他の方向から発せられた音声（以下、「ノイズ音」ともいう。）から得られた音声信号（以下、「ノイズ音信号」ともいう。）とのそれぞれを周波数変換し、目的音の周波数データからノイズ音の周波数データを減算することで、目的音を強調する。この減算処理は、音声信号の位相に左右されない点で上述の遅延和処理とは異なる。

その他の目的音の音質を改善するための技術として、たとえば、特許文献１は、複数のノイズ音から目的音を精度よく分離することを目的とする音源分離システムを開示している。この目的を達成するために、当該音源分離システムは、目的音とノイズ音とをそれぞれ周波数変換し、目的音の周波数成分とノイズ音の周波数成分とを比較していずれかを選択する。または、当該音源分離システムは、目的音の周波数成分からノイズ音の周波数成分を減算する。これにより、当該音源分離システムは、目的音方向に対する指向性を高める。

他にも、特許文献２は、目的音とノイズ音とが類似する場合であってもノイズ音を効果的に抑圧することを目的とする音処理装置を開示している。

特開２００５−２３４２４６号公報特開２００９−２０４７１号公報

コロナ社音響システムとディジタル処理第７章

上記特許文献１，２に代表される周波数データによるノイズ音の除去は、一般にスペクトルサブトラクションと呼ばれる。無音状態の周波数データをリファレンスとし、各マイクからの音声信号の周波数データからリファレンスとしての周波数データを減算するという技術が応用されたものである。スペクトルサブトラクションは、比較的簡単な処理で高いノイズ除去性能を得ることが可能な手法として知られている。

しかしながら、従来技術の手法を応用するものには、目的音信号からノイズ音信号を除去することで目的音も減衰してしまうという問題がある。なぜならば、ノイズ音信号にはノイズ成分の他にも目的音成分が重畳されており、目的音信号からノイズ音信号が減算されると、ノイズ音成分とともに目的音成分も減算されてしまうからである。その結果、目的音の信号レベルとノイズ音の信号レベルとの比（以下、「ＳＮ（Signal to Noise）比」ともいう。）が低下したり、目的音信号の高調波成分における歪みが増加したりし、目的音信号が劣化する。

なお、スペクトルサブトラクションでは、目的音信号の劣化を抑えるために、ノイズ音信号に所定の係数を乗じた上で、目的音信号から減算することがある。しかしながら、係数が最適化されていない場合には、目的音信号がさらに劣化したり、あるいは、目的音信号からノイズ成分が除去されないこともある。

また、特許文献２に開示される音処理装置は、ノイズ音信号の周波数成分の強度に応じて係数を設定することで、目的音信号の劣化を軽減するものである。しかしながら、当該音処理装置は、ノイズ音方向からの他者の音声など突発的なノイズ音に関しては、ノイズ除去を適切に行なうことは困難である。さらには、当該音処理装置においては、ノイズ音信号に目的音がどの程度重畳されているかが不明であるため、目的音信号が劣化してしまうこともある。

また、従来技術においては、指向性を備えたマイクで目的音およびノイズ音を独立に捉えているが、マイク自体の指向性の性能はそれほど高くなく、目的音およびノイズ音を独立に捉えることは難しい。たとえば、指向性が高いマイクとして一般的に知られている単一指向性マイクは、指向性を向けた正面方向から３０度ずれた方向から音声を受けると、正面方向に対して０．９倍の音声信号を出力する。このように、単一指向性マイクであっても、目的音およびノイズ音をそれぞれ独立に捉えることは難しく、ノイズ音方向に向けられたマイクから出力されるノイズ音信号には目的音の成分が多く重畳されてしまう。そのため、従来技術では、目的音信号がノイズ成分の除去時に劣化してしまう。

本開示は上述のような問題点を解決するためになされたものであって、ある局面における目的は、目的音信号からノイズ成分を除去する性能を損なうことなく、目的音信号の劣化を従来技術よりも抑えることが可能なマイクシステムを提供することである。他の局面における目的は、目的音信号からノイズ成分を除去する性能を損なうことなく、目的音信号の劣化を従来技術よりも抑えることが可能なノイズ除去方法を提供することである。さらに他の局面における目的は、目的音信号からノイズ成分を除去する性能を損なうことなく、目的音信号の劣化を従来技術よりも抑えることが可能なノイズ除去プログラムを提供することである。

一実施の形態に従うと、マイクシステムは、複数のマイクを含むマイクアレイを備える。マイクアレイは、複数のマイクのそれぞれから出力される音声信号を用いて、当該マイクアレイに対して非集音対象が存在する第１方向に指向性を有する第１音声信号と、当該マイクアレイに対して集音対象が存在する第２方向に指向性を有する第２音声信号とを出力する。マイクシステムは、マイクアレイへの音声の入射角と、第１方向に指向性を有するときのマイクアレイの出力レベルとの対応関係を規定している第１指向特性に基づいて、音声が第１方向からマイクアレイに入射した場合におけるマイクアレイの第１出力レベルを特定するための第１特定部と、マイクアレイへの音声の入射角と、第２方向に指向性を有するときのマイクアレイの出力レベルとの対応関係を規定している第２指向特性に基づいて、音声が第１方向からマイクアレイに入射した場合におけるマイクアレイの第２出力レベルを特定するための第２特定部と、第１出力レベルと第２出力レベルとの比率を用いて、第１出力レベルで出力される第１音声信号を第２出力レベルの新たな信号に補正するための補正部と、第２音声信号から新たな信号を除去するための除去部とを備える。

好ましくは、除去部は、第２音声信号の信号強度と新たな信号の信号強度とを予め定められた周波数帯域別に比較し、第２音声信号の信号強度が新たな信号の信号強度よりも小さい周波数帯域に対応する信号成分をノイズ成分として第２音声信号から除去する。

好ましくは、第１指向特性には、マイクアレイへの音声の入射角と、第１方向に指向性を有するときのマイクアレイの出力レベルとの対応関係がマイクアレイへの音声の入射角別に規定される。第２指向特性には、マイクアレイへの音声の入射角と、第２方向に指向性を有するときのマイクアレイの出力レベルとの対応関係がマイクアレイへの音声の入射角別に規定される。第１特定部は、第１指向特性に規定されている複数の入射角のうち、第１方向から特定される入射角に最も近い入射角を選択し、選択した入射角に対応する出力レベルを第１出力レベルとして特定する。第２特定部は、第２指向特性に規定されている複数の入射角のうち、第２方向から特定される入射角に最も近い入射角を選択し、選択した入射角に対応する出力レベルを第２出力レベルとして特定する。

好ましくは、第１指向特性には、マイクアレイの音声の入射角と、音声の周波数と、第１方向に指向性を有するときのマイクアレイの出力レベルとの対応関係が、マイクアレイへの音声の入射角別、および音声の周波数別に規定される。第２指向特性には、マイクアレイの音声の入射角と、音声の周波数と、第２方向に指向性を有するときのマイクアレイの出力レベルとの対応関係が、マイクアレイへの音声の入射角別、および音声の周波数別に規定される。第１特定部は、第１指向特性に規定されている複数の入射角のうち、第１方向から特定される入射角に最も近い入射角を選択し、第１指向特性に規定されている複数の周波数のうち、第１音声信号の周波数に最も近い周波数を選択し、選択した入射角と周波数とに対応する出力レベルを第１出力レベルとして特定する。第２特定部は、第２指向特性に規定されている複数の入射角のうち、第２方向から特定される入射角に最も近い入射角を選択し、第２指向特性に規定されている複数の周波数のうち、第２音声信号の周波数に最も近い周波数を選択し、選択した入射角と周波数とに対応する出力レベルを第２出力レベルとして特定する。

好ましくは、マイクシステムは、マイクアレイに対する非集音対象の位置を検出し、当該位置から第１方向を検出するための音源検出部をさらに備える。

好ましくは、音源検出部は、第１音声信号および第２音声信号の間の時間差と、第１音声信号および第２音声信号の間の信号強度の差の少なくとも一方を用いてマイクシステムに対して非集音対象が存在する位置を検出する。

他の実施の形態に従うと、音声に含まれるノイズを除去するための方法であって、当該方法は、マイクアレイに対して非集音対象が存在する第１方向に指向性を有する第１音声信号と、当該マイクアレイに対して集音対象が存在する第２方向に指向性を有する第２音声信号とを受け付けるステップと、マイクアレイへの音声の入射角と、第１方向に指向性を有するときのマイクアレイの出力レベルとの対応関係を規定している第１指向特性に基づいて、音声が第１方向からマイクアレイに入射した場合におけるマイクアレイの第１出力レベルを特定するステップと、マイクアレイへの音声の入射角と、第２方向に指向性を有するときのマイクアレイの出力レベルとの対応関係を規定している第２指向特性に基づいて、音声が第１方向からマイクアレイに入射した場合におけるマイクアレイの第２出力レベルを特定するステップと、第１出力レベルと第２出力レベルとの比率を用いて、第１出力レベルで出力される第１音声信号を第２出力レベルの新たな信号に補正するステップと、第２音声信号から新たな信号を除去するステップとを備える。

さらに他の実施の形態に従うと、コンピュータにおいて実行されるプログラムであって、プログラムは、コンピュータに、マイクアレイに対して非集音対象が存在する第１方向に指向性を有する第１音声信号と、当該マイクアレイに対して集音対象が存在する第２方向に指向性を有する第２音声信号とを受け付けるステップと、マイクアレイへの音声の入射角と、第１方向に指向性を有するときのマイクアレイの出力レベルとの対応関係を規定している第１指向特性に基づいて、音声が第１方向からマイクアレイに入射した場合におけるマイクアレイの第１出力レベルを特定するステップと、マイクアレイへの音声の入射角と、第２方向に指向性を有するときのマイクアレイの出力レベルとの対応関係を規定している第２指向特性に基づいて、音声が第１方向からマイクアレイに入射した場合におけるマイクアレイの第２出力レベルを特定するステップと、第１出力レベルと第２出力レベルとの比率を用いて、第１出力レベルで出力される第１音声信号を第２出力レベルの新たな信号に補正するステップと、第２音声信号から新たな信号を除去するステップとを実行させる。

ある局面において、目的音信号からノイズ成分を除去する性能を損なうことなく、目的音信号の劣化を従来技術よりも抑えることができる。

本発明の上記および他の目的、特徴、局面および利点は、添付の図面と関連して理解される本発明に関する次の詳細な説明から明らかとなるであろう。

第１の実施の形態に従うマイクシステムの機能構成の一例を示すブロック図である。第１の実施の形態に従うマイクシステムに設けられている各マイクの指向特性を示した概念図である。第１の実施の形態に従うマイクシステムが実行する処理の一部を表わすフローチャートである。第２の実施の形態に従うマイクシステムの機能構成の一例を示すブロック図である。第２の実施の形態に従うマイクシステムに設けられている各マイクの指向特性を示した概念図である。第２の実施の形態に従うマイクシステムが実行する処理の一部を表わすフローチャートである。第２の実施の形態に従うマイクシステムによる効果を評価した結果を示す図である。第３の実施の形態に従うマイクシステムのマイクアレイ１の外観を示した図である。音源とマイクの各々との間の距離の違いを概略的に示した図である。第４の実施の形態に従うマイクシステムのマイクアレイ１の外観を示した図である。第４の実施の形態に従うマイクシステムの機能構成の一例を示すブロック図である。第５の実施の形態に従うマイクシステムの機能構成の一例を示すブロック図である。除去部によるノイズ成分の除去処理を概略的に示した概念図である。指向特性の内容を示した図である。変形例に従う指向特性の内容を示した図である。目的音方向およびノイズ音方向を検出するための外部装置を示した図である。第８の実施の形態に従うマイクシステムの機能構成の一例を示すブロック図である。位置情報の内容を示した図である。

以下、図面を参照しつつ、本実施の形態について説明する。以下の説明では、同一の部品および構成要素には同一の符号を付してある。それらの名称および機能も同じである。したがって、これらについての詳細な説明は繰り返さない。なお、以下で説明される各実施の形態は、適宜選択的に組み合わされてもよい。

＜第１の実施の形態＞
［概要］
第１の実施の形態に従うマイクシステム１００は、目的の方向から受けた音（すなわち、目的音）に含まれるノイズ音の大きさを特定した上で目的音信号からノイズ成分を除去することにより、目的音信号の劣化を最小限に抑える。なお、以下では、「音」の一例として「音声」を例に挙げて説明を行なうが、音は音声に限定されるものではない。すなわち、音は、人から発せられた音声だけでなく、その他の音も含み得る。

以下では、図１および図２を参照して、マイクシステム１００による音声処理の概要について説明する。図１は、マイクシステム１００の機能構成の一例を示すブロック図である。図２は、マイクシステム１００に設けられている各マイクの指向特性を示した概念図である。

マイクシステム１００は、たとえば、券売機、インフォメーションディスプレイ、スマートフォン、ゲーム機、タブレット端末、パソコン、デジタルカメラ、電子辞書、ＰＤＡ（Personal Digital Assistant）、その他のマイクを有する電子機器などに用いられる。

マイクシステム１００は、マイクアレイ１と、ＣＰＵ（Central Processing Unit）５０とを含む。マイクアレイ１は、複数のマイクによって構成される。ＣＰＵ５０は、マイクアレイ制御部６と、特定部７と、補正部８と、除去部９と、出力部１０とを含む。

図１に示される例においては、マイクアレイ１は、２つのマイク２，３によって構成されている。マイク２，３のそれぞれは、図１に示されるように、特定の方向に指向性を有する単一指向性のマイク素子であってもよいし、以下の「第３，第４の実施の形態」に示されるように、無指向性のマイク素子であってもよい。

マイク２は、ノイズ音を発する非集音対象Ｎが存在するノイズ音方向に向けて指向性が高まるように設けられたものであり、非集音対象Ｎから発せられるノイズ音を集める。マイク３は、目的音を発する集音対象ＳＰが存在する目的音方向に向けて指向性が高まるように設けられたものであり、集音対象ＳＰから発せられる目的音を集める。

ある局面において、ノイズ音方向および目的音方向は、ユーザや設計者によってマイクシステム１００に予め設定される。たとえば、マイクシステム１００が券売機やインフォメーションディスプレイとして構成される場合には、マイクシステム１００の正面に位置する操作者が集音対象となり、マイクシステム１００は、操作者から発せられる音声を目的音として集める。このよう場合には、目的音方向がマイクシステム１００の正面方向に設定され、ノイズ音方向がマイクシステム１００の正面以外の方向に設定される。このように、集音対象の方向が予め分かっている場合には、目的音方向およびノイズ音方向は、マイクシステム１００に予め設定される。なお、目的音方向およびノイズ音方向は、後述の「第７，第８の実施の形態」で説明するように検出されてもよい。

マイクアレイ１は、マイク２，３のそれぞれから出力される音声信号を用いて、マイクアレイ１に対して非集音対象Ｎが存在するノイズ音方向（第１方向）に指向性を有するノイズ音信号ｎｌ（第１第音声信号）と、マイクアレイ１に対して集音対象ＳＰが存在する目的音方向（第２方向）に指向性を有する目的音信号ｓｐ（第２音声信号）とを出力する。

より具体的には、図１に示されるように、マイク２，３が単一指向性のマイク素子である場合には、マイクアレイ１は、ノイズ音方向に指向性を有するように設けられているマイク２からの音声信号をノイズ音信号ｎｌとしてそのまま用い、目的音方向に指向性を有するように設けられているマイク３からの音声信号を目的音信号ｓｐとしてそのまま用いる。各マイクが無指向性のマイク素子である場合には、後述する「第３，４の実施の形態」で説明するように、マイクアレイ１は、マイク２，３から出力される音声信号のそれぞれを用いて、ノイズ音信号ｎｌおよび目的音信号ｓｐを生成する。

ここで、マイク２は、非集音対象Ｎから発せられたノイズ音だけでなく集音対象ＳＰから発せられた目的音も受けるので、ノイズ音信号ｎｌには、ノイズ音の成分（図１の「Ｂｆ_Ｎ」）だけでなく、目的音の成分（図１の「ａｆ_ＳＰ」）も含まれる。また、マイク３は、集音対象ＳＰから発せられた目的音だけでなく非集音対象Ｎから発せられたノイズ音も受けるので、目的音信号ｓｐには、目的音の成分（図１の「Ａｆ_ＳＰ」）だけでなく、ノイズ音の成分（図１の「ｂｆ_Ｎ」）も含まれる。

ノイズ音信号ｎｌに含まれるノイズ音の成分と目的音の成分との大きさは、マイク２の指向特性に応じて変わる。同様に、目的音信号ｓｐに含まれるノイズ音の成分と目的音の成分との大きさは、マイク３の指向特性に応じて変わる。図１には、マイク２の指向特性ＰＰＬと、マイク３の指向特性ＰＰＣとが示されている。本明細書においては、マイクの指向特性とは、マイクと音源との間の距離が一定であり、かつ、音源から発せられる音の大きさが一定である場合における、各方向に対するマイクの音の感度のことをいう。

図２を参照して、指向特性ＰＰＬ，ＰＰＣについて説明する。説明を簡単にするために、以下では、図２に示されるように、マイクアレイ１の正面方向を０度と定義する。また、マイクアレイ１の正面方向から水平面上を時計周りに角度が増加するとし、マイクアレイ１の正面方向から反時計周りに角度が減少するとする。

図２（Ａ）には、マイク２の指向特性ＰＰＬが示されている。指向特性ＰＰＬは、マイク２への音声の入射角と、ノイズ音方向に指向性を有するときのマイク２の出力レベルとの対応関係を規定している。なお、ここでいう「入射角」とは、マイクから集音対象ＳＰや非集音対象ＮＰなどの音源に向かう方向と、マイク列の垂直方向との間の角度のことをいう。また、ここでいう「出力レベル」とは、マイクから出力される音声信号の振幅の大きさや後述する振幅スペクトルの大きさのことをいう。マイク２においては、＋４５度方向対して感度が良好であり、音声の入射角が＋４５度から離れるにつれて感度が悪くなる。

図２（Ｂ）には、マイク３の指向特性ＰＰＣが示されている。指向特性ＰＰＣは、マイク３への音声の入射角と、目的音方向に指向性を有するときのマイク３の出力レベルとの対応関係を規定している。マイク３においては、０度方向に対して感度が良好であり、音声の入射角が０度から離れるにつれて感度が悪くなる。

なお、指向特性ＰＰＬ，ＰＰＣは、後述の「第６の実施の形態」で説明するように、特定の角度から音声が入射した場合におけるマイクの出力レベルを音声の入射角別に規定しているデータテーブルであってもよいし、入射角を目的変数とし、出力レベルを説明変数とする関数であってもよい。また、指向特性ＰＰＬ，ＰＰＣは、マイクシステム１００のメモリ（図示しない）などの内部記憶装置に格納されていてもよいし、外部サーバなどの外部記憶装置に格納されていてもよい。

再び図１を参照して、特定部７は、第１特定部７Ａと、第２特定部７Ｂとを含む。第１特定部７Ａは、指向特性ＰＰＬ（第１指向特性）に基づいて、音声がノイズ音方向からマイク２に入射した場合における第１出力レベルを特定する。たとえば、ノイズ音方向が「４５度」に設定されている場合には、第１特定部７Ａは、指向特性ＰＰＬに示される「４５度」に対応する「１．０」を第１出力レベルとして特定する。

また、第２特定部７Ｂは、指向特性ＰＰＣ（第２指向特性）に基づいて、音声がノイズ音方向からマイク３に入射した場合における、マイク３の第２出力レベルを特定する。たとえば、ノイズ音方向が「４５度」に設定されている場合には、第２特定部７Ｂは、指向特性ＰＰＣに示される「４５度」に対応する「０．８５」を第２出力レベルとして特定する。

マイクアレイ制御部６は、ノイズ音信号ｎｌおよび目的音信号ｓｐをそれぞれ、周波数帯域別の振幅スペクトルと、周波数帯域別の位相スペクトルとによって示される直交座標系の周波数データに変換する。たとえば、マイクアレイ制御部６は、各信号を高速フーリエ変換（以下、「ＦＦＴ（Fast Fourier Transform）」ともいう。）することにより周波数データを出力する。これにより、時間領域のノイズ音信号ｎｌが周波数領域のノイズ音信号ＮＬ１に変換され、時間領域の目的音信号ｓｐが周波数領域の目的音信号ＳＰ１に変換される。

補正部８は、第１特定部７Ａによって特定された第１出力レベルと、第２特定部７Ｂによって特定された第２出力レベルとの比率を用いて、第１出力レベルで出力されるノイズ音信号ＮＬ１を第２出力レベルの新たな信号ＮＬ２に補正する。より具体的には、補正部８は、目的音信号ＳＰ１に重畳されるノイズ音の振幅と、ノイズ音信号ＮＬ１との振幅が一致するように、ノイズ音信号ＮＬ１を補正する。たとえば、補正部８は、第１出力レベルに対する第２出力レベルの比率（すなわち、第２出力レベル÷第１出力レベル）を補正係数としてノイズ音信号ＮＬ１に乗算することにより、ノイズ音信号ＮＬ１の振幅を補正する。図１に示される例においては、補正部８は、第１出力レベル「１．０」に対する第２出力レベル「０．８５」の比率「０．８５／１．０」を補正係数として、当該補正係数をノイズ音信号ＮＬ１に積算する。これにより、補正部８は、ノイズ音信号ＮＬ１を、目的音信号に含まれるノイズ成分の大きさに合わせて補正することができる。

除去部９は、目的音信号ＳＰ１から補正後の信号ＮＬ２を除去する。たとえば、除去部９は、目的音信号ＳＰ１から補正後の信号ＮＬ２を減算する。これにより、除去部９は、目的音信号ＳＰ１からノイズ成分を除去し、ノイズ成分の除去後の音声信号Ｆを出力する。このような周波数領域でのノイズ除去処理は、各マイクから出力される音声信号の位相差に左右されない点で有利である。除去部９は、目的音信号ＳＰ１から補正後の信号ＮＬ２を減算した音声信号Ｆを出力部１０に出力する。なお、除去部９は、後述する「実施の形態５」で説明する方法でノイズ成分を除去してもよい。

出力部１０は、音声信号Ｆに対して逆高速フーリエ変換（以下、「逆ＦＦＴ」ともいう。）を実行し、周波数領域の音声信号Ｆを時間領域の音声信号ｆに変換する。また、出力部１０は、図示しないスピーカや音声認識システムなどの外部機器に合わせてアナログ信号やＩ２Ｓ（Inter‐IC Sound）通信などのディジタル信号の形式に音声信号ｆを変換し、変換後の信号を当該外部機器に出力する。

［制御構造］
図３を参照して、マイクシステム１００の制御構造について説明する。図３は、マイクシステム１００が実行する処理の一部を表わすフローチャートである。図３の処理は、マイクシステム１００のＣＰＵ５０（図１参照）がプログラムを実行することにより実現される。他の局面において、処理の一部または全部が、マイクアレイ１（図１参照）、回路素子、その他のハードウェアによって実行されてもよい。

ステップＳ１０において、ＣＰＵ５０は、非集音対象に向けて設けられているマイク２（図１参照）からノイズ音信号ｎｌを取得し、時間領域のノイズ音信号ｎｌを周波数領域のノイズ音信号ＮＬ１に変換する。また、ＣＰＵ５０は、集音対象に向けて設けられているマイク３（図１参照）から目的音信号ｓｐを取得し、時間領域の目的音信号ｓｐを周波数領域の目的音信号ＳＰ１に変換する。

ステップＳ１２において、ＣＰＵ５０は、第１特定部７Ａとして、指向特性ＰＰＬ（図２（Ａ）参照）に基づいて、ノイズ音方向に対するマイク２の第１出力レベルを特定する。たとえば、ＣＰＵ５０は、指向特性ＰＰＬに規定されている出力レベルのうち、予め設定されているノイズ音方向に対応する出力レベルを第１出力レベルとして特定する。

ステップＳ１４において、ＣＰＵ５０は、第２特定部７Ｂとして、指向特性ＰＰＣ（図２（Ｂ）参照）に基づいて、ノイズ音方向に対するマイク２の第２出力レベルを特定する。たとえば、ＣＰＵ５０は、指向特性ＰＰＣに規定されている出力レベルのうち、予め設定されているノイズ音方向に対応する出力レベルを第２出力レベルとして特定する。

ステップＳ１６において、ＣＰＵ５０は、補正部８として、第１出力レベルと第２出力レベルとの比率を用いて、第１出力レベルで出力されるノイズ音信号ＮＬ１を第２出力レベルの新たな信号ＮＬ２に補正する。たとえば、補正部８は、第１出力レベルに対する第２出力レベルの比率を補正係数としてノイズ音信号ＮＬ１に乗算することによりノイズ音信号ＮＬ１の振幅を補正する。

ステップＳ１８において、ＣＰＵ５０は、除去部９として、目的音信号ＳＰ１から補正後の信号ＮＬ２を除去する。たとえば、ＣＰＵ５０は、目的音信号ＳＰ１から補正後の信号ＮＬ２を減算する。これにより、ＣＰＵ５０は、目的音信号ＳＰ１から補正後の信号ＮＬ２を除去した周波数領域の音声信号Ｆを出力する。その後、ＣＰＵ５０は、周波数領域の音声信号Ｆを時間領域の音声信号ｆに変換し、スピーカや音声認識システムなどに音声信号ｆを出力する。

なお、上記の各ステップの処理を実現するためのプログラムは、単体のプログラムとしてではなく、任意のプログラムの一部に組み込まれて提供されてもよい。この場合、任意のプログラムと協働して本実施の形態に従う処理が実現される。このような一部のモジュールを含まないプログラムであっても、本実施の形態に従うマイクシステム１００の趣旨を逸脱するものではない。さらに、本実施の形態に従うプログラムによって提供される機能の一部または全部は、専用のハードウェアによって実現されてもよい。さらに、サーバ装置側が全ての機能を実行する必要はなく、マイクシステム１００とサーバ装置とが協働して、本実施の形態に従う処理を実現するようにしてもよい。さらに、少なくとも１つのサーバ装置が本実施の形態に従う処理を実現する、いわゆるクラウドサービスのような形態でマイクシステム１００が構成されてもよい。

［小括］
以上のようにして、本実施の形態に従うマイクシステム１００は、ノイズ成分が目的音信号にどれだけ重畳されているかを指向特性に基づいて特定することにより、目的音信号からのノイズ成分の減算量を適切に調整する。これにより、マイクシステム１００は、目的音の減衰を最小限に抑えることができ、結果として、目的音信号のＳＮ比の低下を抑制したり、目的音信号の高調波成分における歪みを抑制したりすることができる。

＜第２の実施の形態＞
［概要］
第１の実施の形態に従うマイクシステム１００においては、マイクアレイが２つの単一指向性マイクで構成されていたが、マイクアレイは３つ以上の単一指向性マイクで構成されてもよい。たとえば、第２の実施の形態に従うマイクシステム１００Ａのように、マイクアレイが３つの単一指向性マイクで構成されてもよい。

以下では、図４および図５を参照して、第２の実施の形態に従うマイクシステム１００Ａの音声処理について説明する。図４は、マイクシステム１００Ａの機能構成の一例を示すブロック図である。図５は、マイクシステム１００Ａに設けられている各マイクの指向特性を示した概念図である。

図４に示されるように、マイクシステム１００Ａは、マイクアレイ１と、ＣＰＵ（Central Processing Unit）５０とを含む。ＣＰＵ５０は、検出部５と、マイクアレイ制御部６と、特定部７と、補正部８Ａ，８Ｂと、除去部９と、出力部１０とを含む。

マイクアレイ１は、複数のマイクによって構成される。図４に示される例においては、マイクアレイ１は、一列に配置されている３つのマイク２〜４によって構成されている。マイク２〜４のそれぞれは、図１に示されるように特定の方向に指向性を有する単一指向性のマイク素子であってもよいし、後述する「第３の実施の形態」で説明するように無指向性のマイク素子であってもよい。

検出部５は、目的音方向とノイズ音方向とを検出する。たとえば、目的音方向およびノイズ音方向は、マイクシステム１００Ａに予め設定されてもよいし、後述する「第７，８の実施の形態」で説明する方法で検出されてもよい。検出部５は、目的音方向を示す角度情報とノイズ音方向を示す角度情報とをマイクアレイ制御部６に出力する。また、検出部５は、ノイズ音方向を示す角度情報を特定部７に出力する。

マイクアレイ制御部６は、マイク２〜４によって出力された音声信号を、周波数帯域別の振幅スペクトルと、周波数帯域別の位相スペクトルとによって示される直交座標系の周波数データに変換する。すなわち、マイクアレイ制御部６は、時間領域で示される音声信号を、周波数領域で示される周波数データに変換する。周波数データにおける周波数帯域の幅は、音声信号のサンプリング周期と音声信号のサンプリング数とによって決められる。

たとえば、マイクアレイ制御部６は、各音声信号を高速フーリエ変換（すなわち、ＦＦＴ）することにより周波数データを出力する。周波数データは、周波数別に示される離散的なデータであるが、本明細書においては、隣接する周波数の間を一つの周波数帯域と考えて周波数帯域別のデータもしくは単に周波数成分と記載している。また、ＦＦＴ処理されたデータを単に周波数データと称している。

図４に示される例においては、マイクアレイ制御部６は、マイク２からのノイズ音信号ＮＬ３に高速フーリエ変換することにより周波数データＮＬ４を生成し、周波数データＮＬ４を補正部８Ａに出力する。また、マイクアレイ制御部６は、マイク３からの目的音信号ＳＰ３を高速フーリエ変換することにより周波数データＳＰ４を生成し、周波数データＳＰ４を除去部９に出力する。さらに、マイクアレイ制御部６は、マイク４からのノイズ音信号ＮＲ３を高速フーリエ変換することにより周波数データＮＲ４を生成し、周波数データＮＲ４を補正部８Ｂに出力する。

特定部７は、各マイクの指向特性に基づいて、音声がノイズ音方向から各マイクに入射した場合における出力レベルを特定する。図５を参照して、指向特性について説明する。図５には、指向特性ＰＰＬ，ＰＰＣ，ＰＰＲが示されている。なお、指向特性ＰＰＬ，ＰＰＣについては、図２に示される指向特性ＰＰＬ，ＰＰＣと同じであるので説明を繰り返さない。

図５（Ｃ）には、マイク４の指向特性ＰＰＲが示されている。指向特性ＰＰＲは、マイク４への音声の入射角と、ノイズ音方向に指向性を有するときのマイク４の出力レベルとの対応関係を規定している。マイク４においては、−４５度方向対して感度が良好であり、音声の入射角が−４５度から離れるにつれて感度が悪くなる。

再び図４を参照して、特定部７は、指向特性ＰＰＬに基づいて、音声がノイズ音方向からマイク２に入射した場合における第１出力レベルを特定する。また、特定部７は、指向特性ＰＰＣに基づいて、音声がノイズ音方向からマイク３に入射した場合における第２出力レベルを特定する。さらに、特定部７は、指向特性ＰＰＲに基づいて、音声がノイズ音方向からマイク４に入射した場合における第３出力レベルを特定する。

補正部８Ａは、特定部によって特定された第１出力レベルと第２出力レベルとの比率を用いて、第１出力レベルで出力される周波数データＮＬ４を第２出力レベルの新たな周波数データＮＬ５に補正する。補正部８Ａによる補正方法は上述のとおりであるので、説明を繰り返さない。

補正部８Ｂは、特定部によって特定された第２出力レベルと第３出力レベルとの比率を用いて、第３出力レベルで出力される周波数データＮＲ４を第２出力レベルの新たな周波数データＮＲ５に補正する。補正部８Ｂによる補正方法は上述のとおりであるので、説明を繰り返さない。

なお、上記では、周波数データは、振幅スペクトルと位相スペクトルとの２つを含むものとして説明したが、補正処理の対象となるのは振幅スペクトルのみである。なぜならば、本補正処理は、振幅を補正することを目的としており、位相を補正する必要はないからである。

除去部９は、周波数データＳＰ４から周波数データＮＬ５を減算する。より具体的には、除去部９は、周波数データＳＰ４に示される振幅スペクトルのそれぞれから、同一の周波数帯域に対応付けられている周波数データＮＬ５のそれぞれを減算する。たとえば、周波数データＳＰ４において周波数帯域５０〜６０Ｈｚに対応付けられている振幅スペクトルが１００００であり、周波数データＮＬ５において同一の周波数帯域５０〜６０Ｈｚに対応付けられている振幅スペクトルが６０００である場合には、除去部９は、１００００−６０００＝４０００の減算処理を実行する。除去部９は、このような減算処理を、周波数データＳＰ４および周波数データＮＬ５に示される全ての周波数帯域について実行する。この減算処理によって、周波数データＳＰ４からノイズ成分が除去される。除去部９は、周波数データＳＰ４から周波数データＮＬ５を除去した周波数データＦを出力部１０に出力する。

同様に、除去部９は、周波数データＳＰ４から周波数データＮＲ５をさらに減算する。ここで、周波数データＮＲ５は、上述したように、−４５度方向からの音声を周波数変換して得られたものである。図４に示される例においては、−４５度方向には非集音対象が存在していないが、このことが原因で、ノイズ音の除去性能が低下することはない。なぜならば、周波数データＮＲ５には、ノイズ成分がほとんど含まれておらず、周波数データＳＰ４から周波数データＮＲ５が減算されても、周波数データＳＰ４にはほとんど影響を与えないためである。しかしながら、この減算処理により、目的音成分が減衰してしまう可能性があるため、好ましくは、除去部９は、非集音対象が存在する側の周波数データＮＬ４だけを用いて減算処理を行なう。

一方で、ノイズ音が雑踏音のような周囲に環境する依存するノイズ音が、マイクシステム１００Ａの遠くに存在する非集音対象から発せられている場合には、周波数データＮＲ５にもノイズ音成分が含まれる。そのため、このような場合には、除去部９が周波数データＳＰ４から周波数データＮＲ５を減算することにより、周囲環境に伴うノイズ音を抑制することができる。

このように、周波数データＳＰ４から周波数データＮＲ５を減算することが有利に働くか否かは、マイクシステム１００Ａの周囲の環境に依存する。マイクシステム１００Ａは、周波数データＳＰ４から周波数データＮＲ５を減算するか否かをユーザや設計者が任意に設定できるように構成される。

出力部１０は、除去部９によって目的音成分が明瞭に強調された周波数データＦに対して、逆高速フーリエ変換（すなわち、逆ＦＦＴ）を実行し、周波数領域の周波数データＦを時間領域の音声信号ｆに変換する。また、出力部１０は、図示しないスピーカや音声認識システムなどの外部機器に合わせてアナログ信号やＩ２Ｓ（Inter‐IC Sound）通信などのディジタル信号の形式に音声信号ｆを変換し、変換後の信号を当該外部機器に出力する。

［制御構造］
図６を参照して、マイクシステム１００Ａの制御構造について説明する。図６は、マイクシステム１００Ａが実行する処理の一部を表わすフローチャートである。図６の処理は、マイクシステム１００ＡのＣＰＵ５０（図１参照）がプログラムを実行することにより実現される。他の局面において、処理の一部または全部が、マイクアレイ１（図４参照）、回路素子、その他のハードウェアによって実行されてもよい。

ステップＳ３０において、ＣＰＵ５０は、マイク２（図４参照）からノイズ音信号ＮＬ３（図４参照）を取得する。また、ＣＰＵ５０は、マイク３（図４参照）から目的音信号ＳＰ３（図４参照）を取得する。さらに、ＣＰＵ５０は、マイク４（図４参照）からノイズ音信号ＮＲ３（図４参照）を取得する。

ステップＳ３２において、ＣＰＵ５０は、ノイズ音信号ＮＬ３にＦＦＴ処理を実行し、周波数データＮＬ４（図４参照）を生成する。また、ＣＰＵ５０は、目的音信号ＳＰ３にＦＦＴ処理を実行し、周波数データＳＰ４（図４参照）を生成する。さらに、ＣＰＵ５０は、ノイズ音信号ＮＲ３にＦＦＴ処理を実行し、周波数データＮＲ４（図４参照）を生成する。

ステップＳ３４において、ＣＰＵ５０は、特定部７（図４参照）として、指向特性ＰＰＬ（図５（Ａ）参照）に基づいて、ノイズ音方向に対するマイク２の第１出力レベル（図４参照）を特定する。たとえば、ＣＰＵ５０は、指向特性ＰＰＬに規定されている出力レベルのうち、予め設定されているノイズ音方向に対応する出力レベルを第１出力レベルとして特定する。

ステップＳ３６において、ＣＰＵ５０は、特定部７（図４参照）として、指向特性ＰＰＣ（図５（Ｂ）参照）に基づいて、ノイズ音方向に対するマイク３の第２出力レベル（図４参照）を特定する。たとえば、ＣＰＵ５０は、指向特性ＰＰＣに規定されている出力レベルのうち、予め設定されているノイズ音方向に対応する出力レベルを第２出力レベルとして特定する。

ステップＳ３８において、ＣＰＵ５０は、特定部７（図４参照）として、指向特性ＰＰＲ（図５（Ｃ）参照）に基づいて、ノイズ音方向に対するマイク４の第３出力レベル（図４参照）を特定する。たとえば、ＣＰＵ５０は、指向特性ＰＰＲに規定されている出力レベルのうち、予め設定されているノイズ音方向に対応する出力レベルを第３出力レベルとして特定する。

ステップＳ４０において、ＣＰＵ５０は、補正部８Ａ（図４参照）として、第１出力レベルと第２出力レベルとの比率に応じて周波数データＮＬ４を補正し、周波数データＮＬ５（図４参照）を生成する。より具体的には、ＣＰＵ５０は、第１出力レベルに対する第２出力レベルの比率を補正係数として、周波数データＮＬ４に含まれる振幅スペクトルの各々に補正係数を乗算することにより、周波数データＮＬ５を生成する。

ステップＳ４２において、ＣＰＵ５０は、補正部８Ｂ（図４参照）として、第２出力レベルと第３出力レベルとの比率に応じて周波数データＮＲ４を補正し、周波数データＮＲ５（図４参照）を生成する。より具体的には、ＣＰＵ５０は、第３出力レベルに対する第２出力レベルの比率を補正係数として、周波数データＮＲ４に含まれる振幅スペクトルの各々に補正係数を乗算することにより、周波数データＮＲ５を生成する。

ステップＳ４４において、ＣＰＵ５０は、除去部９（図４参照）として、周波数データＳＰ４から、周波数データＮＲ５および周波数データＮＬ５を減算し、周波数データＦ（図４参照）を生成する。より具体的には、ＣＰＵ５０は、周波数データＳＰ４に含まれる複数の振幅スペクトルのそれぞれから、周波数データＮＬ５に含まれる複数の振幅スペクトルのそれぞれと、周波数データＮＲ５に含まれる複数の振幅スペクトルのそれぞれとを減算する。

ステップＳ４６において、ＣＰＵ５０は、出力部１０として、周波数データＦに対して逆ＦＦＴ処理を実行し、時間領域の音声信号ｆ（図４参照）を生成する。その後、ＣＰＵ５０は、スピーカや音声認識システムなどに音声信号ｆを出力する。

［小括］
図７を参照して、本実施の形態に従うマイクシステム１００Ａの利点について説明する。図７は、マイクシステム１００Ａによる効果を評価した結果を示す図である。

マイクシステム１００Ａを評価する条件として、マイクアレイ１（図４参照）は、３つのマイク２〜４（図４参照）で構成されているものとする。また、マイク２は＋４５度方向に向けて設けられており、マイク３は０度方向に向けて設けられており、マイク４は−４５度方向に向けて設けられているものとする。さらに、マイク２は指向特性ＰＰＬ（図５（Ａ）参照）を有し、マイク３は指向特性ＰＰＣ（図５（Ｂ）参照）を有し、マイク４は指向特性ＰＰＲ（図５（Ｃ）参照）を有するものとする。さらに、ノイズ音は、＋４０度および−４０度の方向からマイクアレイ１に入射し、目的音は、０度の方向からマイクアレイ１に入射するものとする。

マイク２，４の設置角度とノイズ音の入射角との間に５度の差があるが、±４０度方向と±４５度方向との指向特性がほぼ同じであるので、マイクシステム１００Ａは、マイク２，４のそれぞれから出力される音声信号をノイズ音信号としてそのまま用い、マイク３から出力される信号を目的音信号としてそのまま用いるとする。

このような条件下において、マイクシステム１００Ａは、指向特性ＰＰＣの４０度方向に対応付けられている出力レベル「０．９」を、目的音方向の周波数データに含まれるノイズ成分の大きさとして特定する。また、マイクシステム１００Ａは、指向特性ＰＰＲ，ＰＰＬの４０度方向に対応付けられている出力レベル「約１．０」を、マイク２，４の出力レベルとして特定する。これにより、マイクシステム１００Ａは、ノイズ成分が目的音信号にどれだけ重畳されているかを示す補正係数「０．９（＝０．９／１）」を算出する。

図７には、補正係数を０．７〜１．１に可変にした場合の、マイクシステム１００ＡのＳＮ比が示されている。図７に示されるように、補正係数が０．９である場合に、マイクシステム１００ＡのＳＮ比が最も高くなっている。すなわち、補正係数が０．９である場合に、マイクシステム１００Ａは、目的音信号からノイズ成分を最も適切に除去している。図７に示される評価結果によって、補正係数が正確に算出されていること、および、目的音信号からノイズ成分が適切に除去されていることが確認できた。

＜第３の実施の形態＞
［概要］
第１の実施の形態に従うマイクシステム１００においては、マイクアレイが単一指向性のマイクによって構成されていた。これに対して、第３の実施の形態に従うマイクシステム１００Ｂにおいては、マイクアレイが無指向性のマイクによって構成される。

以下では、図８を参照して、第３の実施の形態に従うマイクシステム１００Ｂについて説明する。なお、マイクシステム１００Ｂのハードウェア構成などその他の点については上述の各実施の形態に従うマイクシステムと同じであるので、それらの説明は繰り返さない。図８は、マイクシステム１００Ｂのマイクアレイ１の外観を示した図である。

本実施の形態では、マイクアレイ１は、複数の無指向性のマイクによって構成される。図８に示される例においては、マイクアレイ１は、一列に配置されている５つの無指向性のマイク１１〜１５によって構成されている。

マイクアレイ１は、マイク１１〜１５の各々から出力される音声信号を用いて、ノイズ音方向に指向性を有するノイズ音信号と、目的音方向に指向性を有する目的音信号とを生成する。たとえば、マイクアレイ１は、図８に示されるように、マイク１１〜１５の各々から出力される音声信号を用いて、ノイズ音を発する非集音対象Ｎ１が存在する方向に指向性を有するノイズ音信号ＮＬ３と、目的音を発する集音対象ＳＰが存在する方向に指向性を有する目的音信号ＳＰ３と、ノイズ音を発する非集音対象Ｎ２が存在する方向に指向性を有するノイズ音信号ＮＲ３とを生成する。また、図８には、非集音対象Ｎ１に指向性を有する指向特性ＰＰＬ２と、集音対象ＳＰに指向性を有する指向特性ＰＰＣ２と、非集音対象Ｎ２に指向性を有する指向特性ＰＰＲ２とが示されている。

非集音対象Ｎ１，Ｎ２や集音対象ＳＰが存在する特定の方向に指向性を高める方法としては、遅延和処理がある。図９を参照して、遅延和処理について説明する。図９は、音源とマイク１１〜１５の各々との間の距離（以下、「音源距離」ともいう。）の違いを概略的に示した図である。なお、説明を簡単にするために各マイクへの音声の入射角θは、同一であるとする。

図９に示されるように、音源距離は、各マイクへの入射角θが大きくなるにつれて長くなる。たとえば、マイク１１〜１５が距離Ｌの等間隔で配置されている場合には、マイク１１とマイク１２との間には、長さＬｓｉｎθの音源距離の差が生じる。同様に、マイク１１とマイク１３との間には、長さ２Ｌｓｉｎθの音源距離の差が生じる。マイク１１とマイク１４との間には、長さ３Ｌｓｉｎθの音源距離の差が生じる。マイク１１とマイク１４との間には、長さ４Ｌｓｉｎθの音源距離の差が生じる。マイク間の距離Ｌは一定であるので、各マイクの音源距離の差は音声の入射角θによって決まる。

その結果、各マイクが音声を受けるタイミングは、マイク間の音源距離の差に応じて変わる。この点に着目して、マイクアレイ１は、各マイクから出力される音声信号を、各マイクの音源距離の差の分だけ遅延させた上で加算することにより、特定の方向に対する指向性を高める。

より具体的な例として、音声が４５度方向から入射する場合には、マイク１２は、マイク１１が音声を受けてからＬｓｉｎ４５°／ｃ秒（ｃ：音速）後に音声を受ける。同様に、マイク１３は、マイク１１が音声を受けてから２Ｌｓｉｎ４５°／ｃ秒後に音声を受ける。マイク１３は、マイク１１が音声を受けてから３Ｌｓｉｎ４５°／ｃ秒後に音声を受ける。マイク１４は、マイク１１が音声を受けてから４Ｌｓｉｎ４５°／ｃ秒後に音声を受ける。

そのため、マイクアレイ１が４５度方向（すなわち、入射角θ＝４５度）に対して指向性を有するノイズ音信号を生成する場合には、マイクアレイ１は、マイク１１の出力を４Ｌｓｉｎ４５°／ｃ秒遅延させた信号と、マイク１２の出力を３Ｌｓｉｎ４５°／ｃ秒遅延させた信号と、マイク１３の出力を２Ｌｓｉｎ４５°／ｃ秒遅延させた信号と、マイク１４の出力をＬｓｉｎ４５°／ｃ秒遅延させた信号と、マイク１５の音声信号とを加算する。これにより、マイクアレイ１は、４５度方向に対する指向性を高めた音声信号を生成することができる。

また、マイクアレイ１の正面方向（すなわち、０度方向）に対しては各マイクの音源距離に差が生じないので、マイクアレイ１が正面（すなわち、入射角θ＝０度）に対して指向性を向ける場合には、マイクアレイ１は、マイク１１〜１５の各々から出力される音声信号を遅延せずにそのまま加算する。これにより、マイクアレイ１は、０度方向に対する指向性を高めたノイズ音信号を生成することができる。

［利点］
以上のようにして、本実施の形態に従うマイクシステム１００Ｂは、各マイクからの出力される音声信号の遅延量の設定に応じて、任意の方向に対して指向性を向けることができる。そのため、マイクシステム１００Ｂは、ノイズ音方向や目的音方向が頻繁に変化するような用途に対して有効な構成である。

＜第４の実施の形態＞
［概要］
第３の実施の形態に従うマイクシステム１００Ｂにおいては、マイクアレイが５つの無指向性のマイクによって構成されていた。これに対して、第４の実施の形態に従うマイクシステム１００Ｃにおいては、マイクアレイが２つの無指向性のマイクによって構成される。

以下では、図１０を参照して、第４の実施の形態に従うマイクシステム１００Ｃについて説明する。なお、マイクシステム１００Ｃのハードウェア構成などその他の点については上述の各実施の形態に従うマイクシステムと同じであるので、それらの説明は繰り返さない。図１０は、マイクシステム１００Ｃに含まれているマイクアレイ１の外観を示した図である。

図１０に示されるように、マイクアレイ１は、２つの無指向性のマイク１６，１７によって構成されている。本実施の形態においては、マイクアレイ１は、マイク１６，１７からの各出力を加算することにより、マイク１６，１７の指向特性が重なる中央付近の指向性を高める。これにより、マイクアレイ１は、図１０に示される指向特性ＰＰＡＤＤのように、マイクアレイ１の正面方向に指向性を高めることができる。

また、マイクアレイ１は、マイク１６，１７からの各出力同士を減算することで、マイク１６，１７の指向特性が重なる中央付近の指向性を低くなる。すなわち、マイクアレイ１は、マイク１６，１７からの各出力同士を減算することにより、マイクアレイ１は、図１０に示される指向特性ＰＰＳＵＢのように、マイクアレイ１の左右方向に指向性を高めることができる。その結果、本実施の形態に従うマイクシステム１００Ｃは、特に、非集音対象がマイクアレイ１の左右に存在し、ノイズ音方向が左右で等しい場合に、ノイズ除去の性能を高めることができる。

［機能構成］
図１１を参照して、マイクシステム１００Ｃの機能について説明する。図１１は、マイクシステム１００Ｃの機能構成の一例を示すブロック図である。図１１に示されるように、マイクシステム１００ＣのＣＰＵ５０は、検出部５と、マイクアレイ制御部６と、特定部７と、補正部８と、除去部９と、出力部１０とを含む。

検出部５は、予め設定されているノイズ音方向を特定部７に出力する。なお、本実施の形態における図１１の検出部５は、図４の検出部５とは異なり、ノイズ音方向および目的音方向をマイクアレイ制御部６に出力しない。

マイクアレイ制御部６は、マイク１６から出力される音声信号ｆ１と、マイク１６から出力される音声信号ｆ２とのいずれか一方の音声信号から他方の音声信号を減算することで、マイクアレイ１の左右方向に指向性を有する音声信号を生成する。マイクアレイ制御部６は、生成した音声信号に対してＦＦＴ処理を実行することで周波数データＮＡ６を生成し、周波数データＮＡ６を補正部８に出力する。

また、マイクアレイ制御部６は、マイク１６から出力される音声信号ｆ１と、マイク１６から出力される音声信号ｆ２とを加算することで、マイクアレイ１の正面方向に対して指向性を有する音声信号を生成する。その後、マイクアレイ制御部６は、生成した音声信号に対してＦＦＴ処理を実行することで周波数データＳＰ６を生成し、周波数データＳＰ６を除去部９に出力する。

特定部７は、指向特性ＰＰＳＵＢを参照して、音声がノイズ音方向からマイクアレイ１に入射した場合におけるマイクアレイ１の第１出力レベルを特定する。第１出力レベルは、ノイズ音方向の周波数データＮＡ６に含まれるノイズ音の大きさを示す。また、特定部７は、指向特性ＰＰＳＡＤを参照して、音声がノイズ音方向からマイクアレイ１に入射した場合におけるマイクアレイ１の第２出力レベルを特定する。第２出力レベルは、目的音方向の周波数データＳＰ６に含まれるノイズ音の大きさを示す。特定部７は、第１出力レベルおよび第２出力レベルを補正部８に出力する。

補正部８は、第１出力レベルに対する第２出力レベルの比率（すなわち、第２出力レベル÷第１出力レベル）を補正係数とする。たとえば、第１出力レベルが０．９であり、第２出力レベルが０．７である場合には、補正係数は、０．７／０．９＝０．７７となる。補正部８は、ノイズ音方向の周波数データＮＡ６に含まれる周波数スペクトルの各々に補正係数を乗算することで周波数データＮＡ７を生成し、周波数データＮＡ７を除去部９に出力する。

除去部９は、周波数データＳＰ６から周波数データＮＡ７を減算する。より具体的には、除去部９は、周波数データＳＰ６に示される振幅スペクトルのそれぞれから、同一の周波数帯域に対応付けられている周波数データＮＡ７のそれぞれを減算する。

なお、上記では、目的音方向がマイクアレイ１の正面方向であり、ノイズ音方向がマイクアレイ１の左右方向である場合について説明を行なったが、目的音方向はマイクアレイ１の左右方向であり、ノイズ音方向はマイクアレイ１の正面方向であってもよい。これにより、マイクシステム１００Ｃは、マイクアレイ１の左右方向からの音声を強調し、マイクアレイ１の正面方向からの音声を除去することが可能になる。

［小括］
以上のようにして、本実施の形態に従うマイクシステム１００Ｃは、ノイズ音方向がマイクアレイ１の左右で等しい場合や、ノイズ音方向がマイクアレイ１の左右のいずれか一方に限定される場合に、ノイズ除去の性能を高めることができる。また、マイクシステム１００Ｃは、マイクアレイ１の正面方向に指向性を高めるために各マイクから出力される音声信号を加算するという容易な処理で実現でき、マイクアレイ１の左右方向に指向性を高めるために各マイクから出力される音声信号を減算するという容易な処理で実現できるため、計算量を軽減することができる。

＜第５の実施の形態＞
［概要］
第４の実施の形態に従うマイクシステム１００Ｃは、目的音信号を元に生成される周波数データから、ノイズ音信号を元に生成される周波数データを減算することによりノイズ成分を除去していた。これに対して、第５の実施の形態に従うマイクシステム１００Ｄは、目的音信号を元に生成される周波数データから周波数帯域別にノイズ成分を除去する。

以下では、図１２および図１３を参照して、第５の実施の形態に従うマイクシステム１００Ｄについて説明する。なお、マイクシステム１００Ｄのハードウェア構成などその他の点については上述の各実施の形態に従うマイクシステムと同じであるので、それらの説明は繰り返さない。

図１２は、マイクシステム１００Ｄの機能構成の一例を示すブロック図である。図１３は、除去部９によるノイズ成分の除去処理を概略的に示した概念図である。図１２に示されるように、マイクシステム１００ＤのＣＰＵ５０は、検出部５と、マイクアレイ制御部６と、特定部７と、補正部８と、除去部９と、出力部１０とを含む。除去部９は、比較部１８と、選択部１９とを含む。なお、除去部９以外の構成（すなわち、検出部５、マイクアレイ制御部６、特定部７、および補正部８）については、図１１に示される機能構成と同じであるので説明を繰り返さない。

除去部９は、目的音信号の振幅スペクトルと、ノイズ音信号に補正係数を乗算して得られた補正後信号の振幅スペクトルとを周波数帯域別に比較し、目的音信号の振幅スペクトルが補正後信号の振幅スペクトルよりも小さい周波数帯域に対応する信号成分をノイズ成分として目的音信号から除去する。

図１３を参照して、除去部９のノイズ成分の除去処理について詳細に説明する。図１３には、マイクアレイ制御部６によって出力される周波数データＳＰ６と、補正部８によって出力される周波数データＮＡ６とが示されている。比較部１８は、周波数データＳＰ６に示される振幅スペクトルのそれぞれと、周波数データＮＡ６示される振幅スペクトルのそれぞれとのうち、同じ周波数帯域に対応する振幅スペクトル同士を比較する。

たとえば、図１３に示される例においては、比較部１８は、同じ周波数帯域ｆａ〜ｆｂに対応する、周波数データＳＰ６の振幅スペクトルと周波数データＮＡ６の振幅スペクトルとの大きさを比較する。同様に、比較部１８は、同じ周波数帯域ｆｂ〜ｆｃに対応する、周波数データＳＰ６の振幅スペクトルと周波数データＮＡ６の振幅スペクトルとの大きさを比較する。同様に、比較部１８は、同じ周波数帯域ｆｃ〜ｆｄに対応する、周波数データＳＰ６の振幅スペクトルと周波数データＮＡ６の振幅スペクトルとの大きさを比較する。

選択部１９は、比較部１８による比較結果に基づいて、周波数データＳＰ６に示される振幅スペクトルのそれぞれのうち、周波数データＮＡ６示される振幅スペクトルのそれぞれよりも大きい周波数スペクトルを選択する。図１３に示される例においては、選択部１９は、周波数帯域ｆａ〜ｆｂに対応付けられている振幅スペクトルと、周波数帯域ｆｃ〜ｆｄに対応付けられている振幅スペクトルとを選択する。

除去部９は、周波数データＳＰ６に対応付けられている振幅スペクトルのうち、選択部１９によって選択された振幅スペクトルを残し、その他の振幅スペクトルについては予め定められた値に設定する。ある局面において、予め定められた値は、０または略０に設定される。たとえば、予め定められた値を母数とする演算がある場合には、演算過程でエラーが生じるため、予め定められた値は略０（たとえば、０．００１）に設定される。そうでない場合には、予め定められた値は、０に設定される。

除去部９は、選択部１９によって選択されなかった振幅スペクトルを予め定められた値に設定することによりノイズ成分を除去する。図１３に示される例においては、除去部９は、選択部１９によって選択されなかった周波数帯域ｆｂ〜ｆｃに対応付けられている振幅スペクトルを０に設定し、ノイズ成分を除去した周波数データＦを生成する。

［小括］
以上のようにして、本実施の形態に従うマイクシステム１００Ｄは、ノイズ音が支配的である周波数成分の振幅スペクトルを０または略０にする。これにより、マイクシステム１００Ｄは、ノイズ音を除去する効果をさらに高めることができる。

＜第６の実施の形態＞
［概要］
第１の実施の形態に従うマイクシステム１００においては、指向特性の構成について特に限定していなかった。すなわち、指向特性は、音声の入射角と、当該入射角から音声が入射した場合のマイクの出力レベルとの対応関係を音声の入射角別に規定しているデータテーブルであってもよいし、音声の入射角を目的変数とし、マイクの出力レベルを説明変数とする関数であってもよかった。

指向特性が関数としてデータテーブルとして構成されると、マイクシステム１００Ｅは、任意の音声の入射角に対してマイク出力レベルを算出することができる。しかしながら、マイクの指向特性には個々にばらつきがあるため、関数が複雑になる可能性がある。関数が複雑になると、マイクの出力レベルを算出するための計算時間が増大してしまう。

そこで、本実施の形態に従うマイクシステム１００Ｅは、マイクの出力レベルを算出するための計算処理を省略するために、データテーブルとして構成される指向特性を保持する。これにより、マイクシステム１００Ｅは、データテーブルを参照するだけでマイクの出力レベルを特定できる。

また、図５に示される指向特性ＰＰＬ，ＰＰＣ，ＰＰＲに示されるように、入射角が１５度程度の角度変動では出力レベルが大きく変化しないため、数度以上の誤差が許容される場合にはデータテーブルを保持することは有効な手段である。

［データ構造］
図１４を参照して、本実施の形態に従う指向特性について説明する。図１４は、指向特性の内容を示した図である。図１４には、マイク２（図４参照）の指向特性ＭＭＬと、マイク３（図４参照）の指向特性ＭＭＣと、マイク４（図４参照）の指向特性ＭＭＲとが示されている。

より具体的には、指向特性ＭＭＬには、マイク２への音声の入射角と、ノイズ音方向（＋４５度方向）に指向性を有するときのマイク２の出力レベルとの対応関係がマイク２への音声の入射角別に規定されている。指向特性ＭＭＣには、マイク３への音声の入射角と、目的音方向（０度方向）に指向性を有するときのマイク３の出力レベルとの対応関係がマイク３への音声の入射角別に規定されている。指向特性ＭＭＲには、マイク４への音声の入射角と、ノイズ音方向（３１５度方向）に指向性を有するときのマイク４の出力レベルとの対応関係がマイク４への音声の入射角別に規定されている。

なお、図１４に示される０度〜１８０度のそれぞれは、図５に示される０度〜１８０度のそれぞれに対応し、図１４に示される１９５度〜３４５度のそれぞれは、図５に示される−１６５度〜−１５度のそれぞれに対応する。

上述の特定部７（図４参照）は、指向特性ＭＭＬに規定されている複数の入射角のうち、ノイズ音方向から特定される入射角に最も近い入射角を選択し、選択した入射角に対応する出力レベルをマイク２の第１出力レベル（図４参照として特定する。たとえば、ノイズ音方向が「４０度」に設定されている場合には、特定部７は、指向特性ＭＭＬに規定されている複数の入射角のうち、「４０度」に最も近い入射角「４５度」を選択し、入射角「４５度」に対応する出力レベル「１．０５」を第１出力レベルとして特定する（点線３１参照）。

同様に、特定部７は、指向特性ＭＭＣに規定されている複数の入射角のうち、ノイズ音方向から特定される入射角に最も近い入射角を選択し、選択した入射角に対応する出力レベルをマイク３の第２出力レベルとして特定する。たとえば、ノイズ音方向が「４０度」に設定されている場合には、特定部７は、指向特性ＭＭＣに規定されている複数の入射角のうち、「４０度」に最も近い入射角「４５度」を選択し、入射角「４５度」に対応する出力レベル「０．８５」を第２出力レベルとして特定する（点線３２参照）。

なお、図１４に示される各指向特性には、入射角が１５度間隔で出力レベルが規定されているが、入射角の間隔は任意である。また、出力レベルの特定方法は、上記の方法に限定されない。たとえば、特定部７は、指向特性に規定されている複数の入射角のうち、ノイズ音方向に最も近い入射角と２番目に近い入射角とを選択し、最も近い入射角に対応付けられている出力レベルと２番目に近い入射角に対応付けられている出力レベルとを平均した値をマイクの出力レベルとして特定してもよい。

（変形例）
図１５を参照して、図１４に示される指向特性ＭＭＬ，ＭＭＣ，ＭＭＲの変形例について説明する。図１５は、変形例に従う指向特性の内容を示した図である。

マイクシステム１００Ｅが設置される環境によっては、反響音などにより特定の周波数での指向特性が他の周波数とは異なる形状になることがある。また、反響音と元の音との位相加算によって、振幅が増大もしくは減少してしまうこともある。そこで、本変形例に従う指向特性には、出力レベルが入射音声の周波数別に規定されている。これにより、マイクシステム１００Ｅは、設置される環境に起因する指向特性の差を緩和することができ、ノイズ除去処理に用いる補正係数をより正確に算出することが可能になる。

図１５には、本変形例における、マイク２（図４参照）の指向特性ＭＭＬ２と、マイク３（図４参照）の指向特性ＭＭＣ２と、マイク４（図４参照）の指向特性ＭＭＲ２とが示されている。

より具体的には、指向特性ＭＭＬ２には、マイク２への音声の入射角と、マイク２に入射する音声の周波数と、ノイズ音方向（４５度方向）に指向性を有するときのマイク２の出力レベルとの対応関係が、マイク２への音声の入射角別、および入射音声の周波数別に規定されている。

指向特性ＭＭＣ２には、マイク３への音声の入射角と、マイク３に入射する音声の周波数と、目的音方向（０度方向）に指向性を有するときのマイク３の出力レベルとの対応関係が、マイク３への音声の入射角別、および入射音声の周波数別に規定されている。

指向特性ＭＭＲ２には、マイク４への音声の入射角と、マイク４に入射する音声の周波数と、ノイズ音方向（３１５度方向＝−４５度方向）に指向性を有するときのマイク４の出力レベルとの対応関係が、マイク４への音声の入射角別、および入射音声の周波数別に規定されている。

上述の特定部７（図４参照）は、指向特性ＭＭＬ２に規定されている複数の入射角のうち、ノイズ音方向から特定される入射角に最も近い入射角を選択するとともに、指向特性ＭＭＬ２に規定されている複数の周波数のうち、ノイズ音信号の周波数に最も近い周波数を選択し、選択した入射角および周波数に対応する出力レベルをマイク２の第１出力レベル（図４参照）として特定する。

また、特定部７は、指向特性ＭＭＣ２に規定されている複数の入射角のうち、目的方向から特定される入射角に最も近い入射角を選択するとともに、指向特性ＭＭＬ２に規定されている複数の周波数のうち、目的音信号の周波数に最も近い周波数を選択し、選択した入射角および周波数に対応する出力レベルをマイク３の第２出力レベル（図４参照）として特定する。

さらに、特定部７は、指向特性ＭＭＲ２に規定されている複数の入射角のうち、ノイズ音方向から特定される入射角に最も近い入射角を選択し、指向特性ＭＭＲ２に規定されている複数の周波数のうち、ノイズ音信号の周波数に最も近い周波数を選択し、選択した入射角および周波数入射角に対応する出力レベルをマイク４の第３出力レベル（図４参照）として特定する。

以下では、特定部７による第１〜第３出力レベルの具体的な特定方法について説明する。なお、以下では、目的音方向がマイクアレイ１の正面方向（０度方向）であり、ノイズ音方向が４５度方向と３１５度方向であるとする。また、説明を簡単にするために、左側（４５度方向）から入射するノイズ音は右側（３１５度方向）のマイク４へは入射しないものとし、右側（３１５度方向）から入射するノイズ音は左側（４５度方向）のマイク２へは入射しないものとする。

ノイズ音の周波数が５００Ｈｚ未満であって、ノイズ音が４５度方向から入射する場合には、特定部７は、指向特性ＭＭＬ２を参照して、周波数「５００Ｈｚ未満」および入射角「４５度」に対応する出力レベル「１．０５」を第１出力レベルとして特定する（点線３３参照）。同様に、特定部７は、指向特性ＭＭＣ２を参照して、周波数「５００Ｈｚ未満」および入射角「４５度」に対応する出力レベル「０．８５」を第２出力レベルとして特定する（点線３４参照）。第１出力レベルと第２出力レベルとに基づいて、４５度方向に対するノイズ音の補正係数は、０．８５／１．０５＝０．８１となる。

また、特定部７は、指向特性ＭＭＲ２を参照して、周波数「５００Ｈｚ未満」および入射角「３１５度」に対応する出力レベル「１．０１」を第３出力レベルとして特定する（点線３５参照）。同様に、特定部７は、指向特性ＭＭＣ２を参照して、周波数「５００Ｈｚ未満」および入射角「３１５度」に対応する出力レベル「０．８５」を第３出力レベルとして特定する（点線３６参照）。第２出力レベルと第３出力レベルとに基づいて、４５度方向に対するノイズ音の補正係数は、０．８５／１．０１＝０．８４となる。以後、周波数成分に応じて指向特性の参照箇所が移行していき補正係数が算出される。

［小括］
以上のようにして、本実施の形態に従うマイクシステム１００Ｅは、マイクの出力レベルを音声の入射角別に示した指向特性をデータテーブルとして保持することで、マイクの出力レベルを算出するための処理を簡略化でき、処理時間を削減することができる。

＜第７の実施の形態＞
［概要］
第１の実施の形態に従うマイクシステム１００は、目的音方向およびノイズ音方向の検出方法について特に限定していなかった。これに対して、第７の実施の形態に従うマイクシステム１００Ｆにおいては、目的音方向およびノイズ音方向を検出するための手段を有する。これにより、マイクシステム１００Ｆは、目的音からノイズ成分をより正確に除去することが可能になる。

以下では、図１６を参照して、第７の実施の形態に従うマイクシステム１００Ｆについて説明する。図１６は、目的音方向およびノイズ音方向を検出するための外部装置２０を示した図である。なお、マイクシステム１００Ｆのハードウェア構成などその他の点については上述の各実施の形態に従うマイクシステムと同じであるので、それらの説明は繰り返さない。

外部装置２０は、音源検出装置２１と、音源検出制御器２２とを含む。外部装置２０は、図４などの検出部５として構成されるＣＰＵ５０の入出力ポートに電気的に接続される。音源検出装置２１は、たとえば、人感センサ、またはカメラなどの人物を検出するためのセンサで構成される。

音源検出装置２１が人感センサとして構成されている場合には、人感センサは、人物を検出した方向や人物を検出した位置を音源検出制御器２２に出力する。人感センサが人物の位置を２か所以上検出した場合には、音源検出制御器２２は、マイクアレイ１に最も近い位置に存在する人物を集音対象として、当該位置から特定される方向を目的音方向として検出する。また、音源検出制御器２２は、その他の位置に存在する人物を非集音対象として、当該位置から特定される方向をノイズ音方向として検出する。音源検出制御器２２は、検出した目的音方向およびノイズ音方向を検出部５に出力する。

音源検出装置２１がカメラとして構成されている場合には、カメラは、被写体を撮像して得られる入力画像を音源検出制御器２２に出力する。音源検出制御器２２は、入力画像に対して顔検出処理などの画像処理を実行することにより、入力画像から人物の顔を検出する。音源検出制御器２２は、２つ以上の顔を検出した場合に、顔のサイズが最も大きく写っている人物を集音対象として、当該人物の画像内の位置から特定される方向を目的音方向として検出する。また、音源検出制御器２２は、画像内に写るその他の人物を非集音対象として、当該人物の画像内の位置から特定される方向をノイズ音方向として検出する。音源検出制御器２２は、検出した目的音方向およびノイズ音方向を検出部５として構成されるＣＰＵ５０に出力する。

検出部５は、音源検出制御器２２によって出力される検出結果を受けて、目的音方向およびノイズ音方向を角度情報に換算する。その後の処理については、図４において説明したとおりであるので説明を繰り返さない。

なお、上記では、音源検出装置２１がマイクシステム１００Ｆの外部機器として構成されている例について説明を行なったが、音源検出装置２１は、マイクシステム１００Ｆの内部機器として構成されてもよい。また、音源検出制御器２２による目的音方向およびノイズ音方向を検出する機能は、マイクシステム１００ＦのＣＰＵ５０（たとえば、検出部５）やマイクアレイ１に実装されてもよい。

［小括］
以上のようにして、本実施の形態に従うマイクシステム１００Ｆは、人物の検出結果に基づいて、目的音方向およびノイズ音方向を特定する。これにより、マイクシステム１００Ｆは、集音対象および非集音対象である人物の位置が変わる場合であっても、目的音方向およびノイズ音方向を正確に特定できる。その結果、マイクシステム１００Ｆは、目的音声信号からノイズ成分を正確に除去することができ、目的音信号の劣化を抑えることができる。

＜第８の実施の形態＞
［概要］
第７の実施の形態に従うマイクシステム１００Ｆは、外部装置２０によって目的音方向およびノイズ音方向を検出していた。しかしながら、コストや設置スペースを節約するためには、付加的な装置が搭載されない方がよい。そこで、第８の実施の形態に従うマイクシステム１００Ｇは、自身に搭載されているマイクアレイ１からの音声信号に基づいて、目的音方向およびノイズ音方向を検出する。

以下では、図１７および図１８を参照して、第８の実施の形態に従うマイクシステム１００Ｇについて説明する。図１７は、マイクシステム１００Ｇの機能構成の一例を示すブロック図である。図１８は、後述する位置情報２５の内容を示した図である。

図１７に示されるように、マイクシステム１００ＧのＣＰＵ５０は、検出部５と、マイクアレイ制御部６と、特定部７と、補正部８Ａ，８Ｂと、除去部９と、出力部１０と、音源検出部２３とを含む。なお、音源検出部２３以外の構成（すなわち、検出部５、マイクアレイ制御部６、特定部７、補正部８Ａ，８Ｂ、除去部９、および出力部１０）については、図４に示される構成と同じであるので説明を繰り返さない。

マイクアレイ１に対する音源の位置に応じて、マイク２〜４の各々が音声信号を出力するタイミングに差が生じる。このことに着目して、音源検出部２３は、マイク２〜４の各々から出力される音声信号の時間差に基づいて、マイクアレイ１に対する音源（すなわち、集音対象および非集音対象）の位置を特定し、当該位置から音源の方向を特定する。

より具体的には、音源検出部２３は、マイク２〜４から出力される音声信号の時間差と、マイクアレイ１に対する音源位置とを遅延時間別に互いに対応付けている位置情報２５（図１８参照）に基づいて音源位置を特定する。図１８に示される位置情報２５は、マイク２〜４の間隔が１００ミリメートル、音速が３４０ミリメートル毎秒である前提で作成されたデータテーブルとして示される。位置情報２５に示される音声信号の時間差には、音声信号が最初に検出されたマイクを基準（すなわち、「０．００」）として、基準のマイクに対する他のマイク出力の遅延時間が示されている。遅延時間の単位は、たとえば、ミリ秒である。

また、位置情報２５に示される音源の位置は、３個のマイク２〜４の配置方向に対するマイク２からの距離を示す座標Ｘと、マイクアレイ１から音源までの距離を示す座標Ｙとで定義される。座標Ｘは、マイクアレイ１の左側がプラス、右側がマイナスとして定義される。角度は、マイクアレイ１の中心を回転中心、マイクアレイ１の正面方向を０度として、時計回り方向をプラスとして定義される。角度の単位は、たとえば、度である。

音源検出部２３は、マイク２〜４のいずれから出力される音声信号の出力レベルが予め定められたレベル以上になったことに基づいて時間の計測を開始し、他のマイクから出力される音声信号の出力レベルが予め定められたレベル以上になるまでの時間を音声信号間の時間差として計測する。

たとえば、マイク２が最初に音声信号を出力し、その０．１２ミリ秒後にマイク３が音声信号を出力し、さらにその０．３６ミリ秒後にマイク４が音声信号を出力したとする。この場合、音源検出部２３は、位置情報２５の一行目を参照して、音源が＋４５度に存在することを検出する（点線３７参照）。

なお、検出された時間差に等しい結果が位置情報２５に含まれている場合は少ないので、実際には、音源検出部２３は、位置情報２５に示される複数の時間差のうち、検出した時間差に最も近い時間差を選択し、当該時間差に対応する角度を音源が存在する方向とする。

また、マイクアレイ１に対する音源の位置に応じて、マイク２〜４の各々から出力される音声信号の強度（たとえば、振幅）に差が生じる。このことに着目して、音源検出部２３は、音声信号の遅延時間の代わりに、マイク２〜４の各々から出力される音声信号の強度の差を用いて、マイクアレイ１に対する音源（すなわち、集音対象および非集音対象）の位置を特定してもよい。

［小括］
以上のようにして、本実施の形態に従うマイクシステム１００Ｇは、音源を検出するための装置を新たに付加することなく、マイクアレイから出力される音声信号から音源の位置を特定することが可能になる。また、マイクシステム１００Ｇは、任意のタイミングで音源の位置を特定することができるので、音源の位置が変わるような場合であっても、目的音声信号からノイズ成分を正確に除去することができる。

今回開示された実施の形態は全ての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内での全ての変更が含まれることが意図される。

１マイクアレイ、２〜４，１１〜１７マイク、５検出部、６マイクアレイ制御部、７，７Ａ，７Ｂ特定部、８，８Ａ，８Ｂ補正部、９除去部、１０出力部、１８比較部、１９選択部、２０外部装置、２１音源検出装置、２２音源検出制御器、２３音源検出部、２５位置情報、３１〜３７点線、５０ＣＰＵ、１００，１００Ａ〜１００Ｇマイクシステム、Ｆ，ＮＡ６，ＮＡ７，ＮＬ４，ＮＬ５，ＮＲ４，ＮＲ５，ＳＰ４，ＳＰ６周波数データ、Ｌ距離、ＭＭＣ，ＭＭＣ２，ＭＭＬ，ＭＭＬ２，ＭＭＲ，ＭＭＲ２，ＰＰＡＤＤ，ＰＰＣ，ＰＰＣ２，ＰＰＬ，ＰＰＬ２，ＰＰＲ，ＰＰＲ２，ＰＰＳＡＤ，ＰＰＳＵＢ指向特性、Ｎ，Ｎ１，Ｎ２非集音対象、ｎｌ，ＮＬ３，ＮＲ３，ＳＰ３ノイズ音信号、ＮＬ２信号、ＳＰ集音対象、ｓｐ，ＳＰ３，ＳＰ４目的音信号、Ｘ，Ｙ座標、ｆ，ｆ１，ｆ２音声信号、ｆａ〜ｆｄ周波数帯域。

Claims

複数のマイクを含むマイクアレイを備え、前記マイクアレイは、前記複数のマイクのそれぞれから出力される音声信号を用いて、当該マイクアレイに対して非集音対象が存在する第１方向に指向性を有する第１音声信号と、当該マイクアレイに対して集音対象が存在する第２方向に指向性を有する第２音声信号とを出力し、
前記マイクアレイへの音の入射角と、前記第１方向に指向性を有するときの前記マイクアレイの出力レベルとの対応関係を規定している第１指向特性に基づいて、音が前記第１方向から前記マイクアレイに入射した場合における前記マイクアレイの第１出力レベルを特定するための第１特定部と、
前記マイクアレイへの音の入射角と、前記第２方向に指向性を有するときの前記マイクアレイの出力レベルとの対応関係を規定している第２指向特性に基づいて、音が前記第１方向から前記マイクアレイに入射した場合における前記マイクアレイの第２出力レベルを特定するための第２特定部と、
前記第１出力レベルと前記第２出力レベルとの比率を用いて、前記第１出力レベルで出力される前記第１音声信号を前記第２出力レベルの新たな信号に補正するための補正部と、
前記第２音声信号から前記新たな信号を除去するための除去部とを備える、マイクシステム。
前記除去部は、前記第２音声信号の信号強度と前記新たな信号の信号強度とを予め定められた周波数帯域別に比較し、前記第２音声信号の信号強度が前記新たな信号の信号強度よりも小さい周波数帯域に対応する信号成分をノイズ成分として前記第２音声信号から除去する、請求項１に記載のマイクシステム。
前記第１指向特性には、前記マイクアレイへの音の入射角と、前記第１方向に指向性を有するときの前記マイクアレイの出力レベルとの対応関係が前記マイクアレイへの音の入射角別に規定され、
前記第２指向特性には、前記マイクアレイへの音の入射角と、前記第２方向に指向性を有するときの前記マイクアレイの出力レベルとの対応関係が前記マイクアレイへの音の入射角別に規定され、
前記第１特定部は、前記第１指向特性に規定されている複数の入射角のうち、前記第１方向から特定される入射角に最も近い入射角を選択し、選択した入射角に対応する出力レベルを前記第１出力レベルとして特定し、
前記第２特定部は、前記第２指向特性に規定されている複数の入射角のうち、前記第２方向から特定される入射角に最も近い入射角を選択し、選択した入射角に対応する出力レベルを前記第２出力レベルとして特定する、請求項１または２に記載のマイクシステム。
前記第１指向特性には、前記マイクアレイの音の入射角と、音の周波数と、前記第１方向に指向性を有するときの前記マイクアレイの出力レベルとの対応関係が、前記マイクアレイへの音の入射角別、および音の周波数別に規定され、
前記第２指向特性には、前記マイクアレイの音の入射角と、音の周波数と、前記第２方向に指向性を有するときの前記マイクアレイの出力レベルとの対応関係が、前記マイクアレイへの音の入射角別、および音の周波数別に規定され、
前記第１特定部は、前記第１指向特性に規定されている複数の入射角のうち、前記第１方向から特定される入射角に最も近い入射角を選択し、前記第１指向特性に規定されている複数の周波数のうち、前記第１音声信号の周波数に最も近い周波数を選択し、選択した入射角と周波数とに対応する出力レベルを前記第１出力レベルとして特定し、
前記第２特定部は、前記第２指向特性に規定されている複数の入射角のうち、前記第２方向から特定される入射角に最も近い入射角を選択し、前記第２指向特性に規定されている複数の周波数のうち、前記第２音声信号の周波数に最も近い周波数を選択し、選択した入射角と周波数とに対応する出力レベルを前記第２出力レベルとして特定する、請求項３に記載のマイクシステム。
前記マイクシステムは、前記マイクアレイに対する前記非集音対象の位置を検出し、当該位置から前記第１方向を検出するための音源検出部をさらに備える、請求項１〜４のいずれか１項に記載のマイクシステム。
前記音源検出部は、前記第１音声信号および前記第２音声信号の間の時間差と、前記第１音声信号および前記第２音声信号の間の信号強度の差の少なくとも一方を用いて前記マイクシステムに対して前記非集音対象が存在する前記位置を検出する、請求項５に記載のマイクシステム。
音に含まれるノイズを除去するための方法であって、
マイクアレイに対して非集音対象が存在する第１方向に指向性を有する第１音声信号と、当該マイクアレイに対して集音対象が存在する第２方向に指向性を有する第２音声信号とを受け付けるステップと、
前記マイクアレイへの音の入射角と、前記第１方向に指向性を有するときの前記マイクアレイの出力レベルとの対応関係を規定している第１指向特性に基づいて、音が前記第１方向から前記マイクアレイに入射した場合における前記マイクアレイの第１出力レベルを特定するステップと、
前記マイクアレイへの音の入射角と、前記第２方向に指向性を有するときの前記マイクアレイの出力レベルとの対応関係を規定している第２指向特性に基づいて、音が前記第１方向から前記マイクアレイに入射した場合における前記マイクアレイの第２出力レベルを特定するステップと、
前記第１出力レベルと前記第２出力レベルとの比率を用いて、前記第１出力レベルで出力される前記第１音声信号を前記第２出力レベルの新たな信号に補正するステップと、
前記第２音声信号から前記新たな信号を除去するステップとを備える、方法。
コンピュータにおいて実行されるプログラムであって、
前記プログラムは、前記コンピュータに、
マイクアレイに対して非集音対象が存在する第１方向に指向性を有する第１音声信号と、当該マイクアレイに対して集音対象が存在する第２方向に指向性を有する第２音声信号とを受け付けるステップと、
前記マイクアレイへの音の入射角と、前記第１方向に指向性を有するときの前記マイクアレイの出力レベルとの対応関係を規定している第１指向特性に基づいて、音が前記第１方向から前記マイクアレイに入射した場合における前記マイクアレイの第１出力レベルを特定するステップと、
前記マイクアレイへの音の入射角と、前記第２方向に指向性を有するときの前記マイクアレイの出力レベルとの対応関係を規定している第２指向特性に基づいて、音が前記第１方向から前記マイクアレイに入射した場合における前記マイクアレイの第２出力レベルを特定するステップと、
前記第１出力レベルと前記第２出力レベルとの比率を用いて、前記第１出力レベルで出力される前記第１音声信号を前記第２出力レベルの新たな信号に補正するステップと、
前記第２音声信号から前記新たな信号を除去するステップとを実行させる、プログラム。