JP2016082432A - マイクシステム、ノイズ除去方法、およびプログラム - Google Patents
マイクシステム、ノイズ除去方法、およびプログラム Download PDFInfo
- Publication number
- JP2016082432A JP2016082432A JP2014212735A JP2014212735A JP2016082432A JP 2016082432 A JP2016082432 A JP 2016082432A JP 2014212735 A JP2014212735 A JP 2014212735A JP 2014212735 A JP2014212735 A JP 2014212735A JP 2016082432 A JP2016082432 A JP 2016082432A
- Authority
- JP
- Japan
- Prior art keywords
- sound
- output level
- microphone
- microphone array
- directivity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Abstract
【課題】目的音信号からノイズ成分を除去する性能を損なうことなく、目的音信号の劣化を従来技術よりも抑えることが可能なマイクシステムを提供する。
【解決手段】マイクシステムのCPUが実行する処理は、非集音対象に向けて設けられている第1マイクからノイズ音信号を取得し、集音対象に向けて設けられている第2マイクから目的音信号を取得するステップ(S10)と、第1マイクの指向特性に基づいて、ノイズ音方向に対する第1マイクの第1出力レベルを特定するステップ(S12)と、第2マイクの指向特性に基づいて、ノイズ音方向に対する第2マイクの第2出力レベルを特定するステップ(S14)と、第1出力レベルと第2出力レベルとの比率を用いて、第1出力レベルで出力されるノイズ音信号を第2出力レベルの新たな信号に補正するステップ(S16)と、目的音信号から新たな信号を除去するステップ(S18)とを含む。
【選択図】図3
【解決手段】マイクシステムのCPUが実行する処理は、非集音対象に向けて設けられている第1マイクからノイズ音信号を取得し、集音対象に向けて設けられている第2マイクから目的音信号を取得するステップ(S10)と、第1マイクの指向特性に基づいて、ノイズ音方向に対する第1マイクの第1出力レベルを特定するステップ(S12)と、第2マイクの指向特性に基づいて、ノイズ音方向に対する第2マイクの第2出力レベルを特定するステップ(S14)と、第1出力レベルと第2出力レベルとの比率を用いて、第1出力レベルで出力されるノイズ音信号を第2出力レベルの新たな信号に補正するステップ(S16)と、目的音信号から新たな信号を除去するステップ(S18)とを含む。
【選択図】図3
Description
本開示は、マイクシステムの制御に関し、特に、複数のマイクを有するマイクシステムの制御に関する。
近年、複数のマイクを備えたマイクアレイを用いて、特定の方向から発せられる音声(以下、「目的音」ともいう。)を強調するための技術が開発されている。たとえば、非特許文献1は、目的音方向に対する指向性を高める所謂遅延和処理と呼ばれる手法を開示している。遅延和処理は、目的音を発する集音対象と各マイクとの間の距離の違いに応じて、各マイクから出力される音声信号を遅延し、各音声信号を加算することで目的音方向に対する指向性を高める。遅延和処理により目的音方向(たとえば、正面に対して±30度)に対する指向性を高めるために、多数(たとえば、数十個)のマイクが必要となる。その結果、マイクの数が増えることによるコストアップや、配線が複雑化することによる装置の大型化などの問題が生じる。
これらの問題を解決するために、少数のマイクで目的音を強調することができる手法がある。当該手法は、特定の方向から発せられた音声(すなわち、目的音)から得られた音声信号(以下、「目的音信号」ともいう。)と、その他の方向から発せられた音声(以下、「ノイズ音」ともいう。)から得られた音声信号(以下、「ノイズ音信号」ともいう。)とのそれぞれを周波数変換し、目的音の周波数データからノイズ音の周波数データを減算することで、目的音を強調する。この減算処理は、音声信号の位相に左右されない点で上述の遅延和処理とは異なる。
その他の目的音の音質を改善するための技術として、たとえば、特許文献1は、複数のノイズ音から目的音を精度よく分離することを目的とする音源分離システムを開示している。この目的を達成するために、当該音源分離システムは、目的音とノイズ音とをそれぞれ周波数変換し、目的音の周波数成分とノイズ音の周波数成分とを比較していずれかを選択する。または、当該音源分離システムは、目的音の周波数成分からノイズ音の周波数成分を減算する。これにより、当該音源分離システムは、目的音方向に対する指向性を高める。
他にも、特許文献2は、目的音とノイズ音とが類似する場合であってもノイズ音を効果的に抑圧することを目的とする音処理装置を開示している。
コロナ社 音響システムとディジタル処理 第7章
上記特許文献1,2に代表される周波数データによるノイズ音の除去は、一般にスペクトルサブトラクションと呼ばれる。無音状態の周波数データをリファレンスとし、各マイクからの音声信号の周波数データからリファレンスとしての周波数データを減算するという技術が応用されたものである。スペクトルサブトラクションは、比較的簡単な処理で高いノイズ除去性能を得ることが可能な手法として知られている。
しかしながら、従来技術の手法を応用するものには、目的音信号からノイズ音信号を除去することで目的音も減衰してしまうという問題がある。なぜならば、ノイズ音信号にはノイズ成分の他にも目的音成分が重畳されており、目的音信号からノイズ音信号が減算されると、ノイズ音成分とともに目的音成分も減算されてしまうからである。その結果、目的音の信号レベルとノイズ音の信号レベルとの比(以下、「SN(Signal to Noise)比」ともいう。)が低下したり、目的音信号の高調波成分における歪みが増加したりし、目的音信号が劣化する。
なお、スペクトルサブトラクションでは、目的音信号の劣化を抑えるために、ノイズ音信号に所定の係数を乗じた上で、目的音信号から減算することがある。しかしながら、係数が最適化されていない場合には、目的音信号がさらに劣化したり、あるいは、目的音信号からノイズ成分が除去されないこともある。
また、特許文献2に開示される音処理装置は、ノイズ音信号の周波数成分の強度に応じて係数を設定することで、目的音信号の劣化を軽減するものである。しかしながら、当該音処理装置は、ノイズ音方向からの他者の音声など突発的なノイズ音に関しては、ノイズ除去を適切に行なうことは困難である。さらには、当該音処理装置においては、ノイズ音信号に目的音がどの程度重畳されているかが不明であるため、目的音信号が劣化してしまうこともある。
また、従来技術においては、指向性を備えたマイクで目的音およびノイズ音を独立に捉えているが、マイク自体の指向性の性能はそれほど高くなく、目的音およびノイズ音を独立に捉えることは難しい。たとえば、指向性が高いマイクとして一般的に知られている単一指向性マイクは、指向性を向けた正面方向から30度ずれた方向から音声を受けると、正面方向に対して0.9倍の音声信号を出力する。このように、単一指向性マイクであっても、目的音およびノイズ音をそれぞれ独立に捉えることは難しく、ノイズ音方向に向けられたマイクから出力されるノイズ音信号には目的音の成分が多く重畳されてしまう。そのため、従来技術では、目的音信号がノイズ成分の除去時に劣化してしまう。
本開示は上述のような問題点を解決するためになされたものであって、ある局面における目的は、目的音信号からノイズ成分を除去する性能を損なうことなく、目的音信号の劣化を従来技術よりも抑えることが可能なマイクシステムを提供することである。他の局面における目的は、目的音信号からノイズ成分を除去する性能を損なうことなく、目的音信号の劣化を従来技術よりも抑えることが可能なノイズ除去方法を提供することである。さらに他の局面における目的は、目的音信号からノイズ成分を除去する性能を損なうことなく、目的音信号の劣化を従来技術よりも抑えることが可能なノイズ除去プログラムを提供することである。
一実施の形態に従うと、マイクシステムは、複数のマイクを含むマイクアレイを備える。マイクアレイは、複数のマイクのそれぞれから出力される音声信号を用いて、当該マイクアレイに対して非集音対象が存在する第1方向に指向性を有する第1音声信号と、当該マイクアレイに対して集音対象が存在する第2方向に指向性を有する第2音声信号とを出力する。マイクシステムは、マイクアレイへの音声の入射角と、第1方向に指向性を有するときのマイクアレイの出力レベルとの対応関係を規定している第1指向特性に基づいて、音声が第1方向からマイクアレイに入射した場合におけるマイクアレイの第1出力レベルを特定するための第1特定部と、マイクアレイへの音声の入射角と、第2方向に指向性を有するときのマイクアレイの出力レベルとの対応関係を規定している第2指向特性に基づいて、音声が第1方向からマイクアレイに入射した場合におけるマイクアレイの第2出力レベルを特定するための第2特定部と、第1出力レベルと第2出力レベルとの比率を用いて、第1出力レベルで出力される第1音声信号を第2出力レベルの新たな信号に補正するための補正部と、第2音声信号から新たな信号を除去するための除去部とを備える。
好ましくは、除去部は、第2音声信号の信号強度と新たな信号の信号強度とを予め定められた周波数帯域別に比較し、第2音声信号の信号強度が新たな信号の信号強度よりも小さい周波数帯域に対応する信号成分をノイズ成分として第2音声信号から除去する。
好ましくは、第1指向特性には、マイクアレイへの音声の入射角と、第1方向に指向性を有するときのマイクアレイの出力レベルとの対応関係がマイクアレイへの音声の入射角別に規定される。第2指向特性には、マイクアレイへの音声の入射角と、第2方向に指向性を有するときのマイクアレイの出力レベルとの対応関係がマイクアレイへの音声の入射角別に規定される。第1特定部は、第1指向特性に規定されている複数の入射角のうち、第1方向から特定される入射角に最も近い入射角を選択し、選択した入射角に対応する出力レベルを第1出力レベルとして特定する。第2特定部は、第2指向特性に規定されている複数の入射角のうち、第2方向から特定される入射角に最も近い入射角を選択し、選択した入射角に対応する出力レベルを第2出力レベルとして特定する。
好ましくは、第1指向特性には、マイクアレイの音声の入射角と、音声の周波数と、第1方向に指向性を有するときのマイクアレイの出力レベルとの対応関係が、マイクアレイへの音声の入射角別、および音声の周波数別に規定される。第2指向特性には、マイクアレイの音声の入射角と、音声の周波数と、第2方向に指向性を有するときのマイクアレイの出力レベルとの対応関係が、マイクアレイへの音声の入射角別、および音声の周波数別に規定される。第1特定部は、第1指向特性に規定されている複数の入射角のうち、第1方向から特定される入射角に最も近い入射角を選択し、第1指向特性に規定されている複数の周波数のうち、第1音声信号の周波数に最も近い周波数を選択し、選択した入射角と周波数とに対応する出力レベルを第1出力レベルとして特定する。第2特定部は、第2指向特性に規定されている複数の入射角のうち、第2方向から特定される入射角に最も近い入射角を選択し、第2指向特性に規定されている複数の周波数のうち、第2音声信号の周波数に最も近い周波数を選択し、選択した入射角と周波数とに対応する出力レベルを第2出力レベルとして特定する。
好ましくは、マイクシステムは、マイクアレイに対する非集音対象の位置を検出し、当該位置から第1方向を検出するための音源検出部をさらに備える。
好ましくは、音源検出部は、第1音声信号および第2音声信号の間の時間差と、第1音声信号および第2音声信号の間の信号強度の差の少なくとも一方を用いてマイクシステムに対して非集音対象が存在する位置を検出する。
他の実施の形態に従うと、音声に含まれるノイズを除去するための方法であって、当該方法は、マイクアレイに対して非集音対象が存在する第1方向に指向性を有する第1音声信号と、当該マイクアレイに対して集音対象が存在する第2方向に指向性を有する第2音声信号とを受け付けるステップと、マイクアレイへの音声の入射角と、第1方向に指向性を有するときのマイクアレイの出力レベルとの対応関係を規定している第1指向特性に基づいて、音声が第1方向からマイクアレイに入射した場合におけるマイクアレイの第1出力レベルを特定するステップと、マイクアレイへの音声の入射角と、第2方向に指向性を有するときのマイクアレイの出力レベルとの対応関係を規定している第2指向特性に基づいて、音声が第1方向からマイクアレイに入射した場合におけるマイクアレイの第2出力レベルを特定するステップと、第1出力レベルと第2出力レベルとの比率を用いて、第1出力レベルで出力される第1音声信号を第2出力レベルの新たな信号に補正するステップと、第2音声信号から新たな信号を除去するステップとを備える。
さらに他の実施の形態に従うと、コンピュータにおいて実行されるプログラムであって、プログラムは、コンピュータに、マイクアレイに対して非集音対象が存在する第1方向に指向性を有する第1音声信号と、当該マイクアレイに対して集音対象が存在する第2方向に指向性を有する第2音声信号とを受け付けるステップと、マイクアレイへの音声の入射角と、第1方向に指向性を有するときのマイクアレイの出力レベルとの対応関係を規定している第1指向特性に基づいて、音声が第1方向からマイクアレイに入射した場合におけるマイクアレイの第1出力レベルを特定するステップと、マイクアレイへの音声の入射角と、第2方向に指向性を有するときのマイクアレイの出力レベルとの対応関係を規定している第2指向特性に基づいて、音声が第1方向からマイクアレイに入射した場合におけるマイクアレイの第2出力レベルを特定するステップと、第1出力レベルと第2出力レベルとの比率を用いて、第1出力レベルで出力される第1音声信号を第2出力レベルの新たな信号に補正するステップと、第2音声信号から新たな信号を除去するステップとを実行させる。
ある局面において、目的音信号からノイズ成分を除去する性能を損なうことなく、目的音信号の劣化を従来技術よりも抑えることができる。
本発明の上記および他の目的、特徴、局面および利点は、添付の図面と関連して理解される本発明に関する次の詳細な説明から明らかとなるであろう。
以下、図面を参照しつつ、本実施の形態について説明する。以下の説明では、同一の部品および構成要素には同一の符号を付してある。それらの名称および機能も同じである。したがって、これらについての詳細な説明は繰り返さない。なお、以下で説明される各実施の形態は、適宜選択的に組み合わされてもよい。
<第1の実施の形態>
[概要]
第1の実施の形態に従うマイクシステム100は、目的の方向から受けた音(すなわち、目的音)に含まれるノイズ音の大きさを特定した上で目的音信号からノイズ成分を除去することにより、目的音信号の劣化を最小限に抑える。なお、以下では、「音」の一例として「音声」を例に挙げて説明を行なうが、音は音声に限定されるものではない。すなわち、音は、人から発せられた音声だけでなく、その他の音も含み得る。
[概要]
第1の実施の形態に従うマイクシステム100は、目的の方向から受けた音(すなわち、目的音)に含まれるノイズ音の大きさを特定した上で目的音信号からノイズ成分を除去することにより、目的音信号の劣化を最小限に抑える。なお、以下では、「音」の一例として「音声」を例に挙げて説明を行なうが、音は音声に限定されるものではない。すなわち、音は、人から発せられた音声だけでなく、その他の音も含み得る。
以下では、図1および図2を参照して、マイクシステム100による音声処理の概要について説明する。図1は、マイクシステム100の機能構成の一例を示すブロック図である。図2は、マイクシステム100に設けられている各マイクの指向特性を示した概念図である。
マイクシステム100は、たとえば、券売機、インフォメーションディスプレイ、スマートフォン、ゲーム機、タブレット端末、パソコン、デジタルカメラ、電子辞書、PDA(Personal Digital Assistant)、その他のマイクを有する電子機器などに用いられる。
マイクシステム100は、マイクアレイ1と、CPU(Central Processing Unit)50とを含む。マイクアレイ1は、複数のマイクによって構成される。CPU50は、マイクアレイ制御部6と、特定部7と、補正部8と、除去部9と、出力部10とを含む。
図1に示される例においては、マイクアレイ1は、2つのマイク2,3によって構成されている。マイク2,3のそれぞれは、図1に示されるように、特定の方向に指向性を有する単一指向性のマイク素子であってもよいし、以下の「第3,第4の実施の形態」に示されるように、無指向性のマイク素子であってもよい。
マイク2は、ノイズ音を発する非集音対象Nが存在するノイズ音方向に向けて指向性が高まるように設けられたものであり、非集音対象Nから発せられるノイズ音を集める。マイク3は、目的音を発する集音対象SPが存在する目的音方向に向けて指向性が高まるように設けられたものであり、集音対象SPから発せられる目的音を集める。
ある局面において、ノイズ音方向および目的音方向は、ユーザや設計者によってマイクシステム100に予め設定される。たとえば、マイクシステム100が券売機やインフォメーションディスプレイとして構成される場合には、マイクシステム100の正面に位置する操作者が集音対象となり、マイクシステム100は、操作者から発せられる音声を目的音として集める。このよう場合には、目的音方向がマイクシステム100の正面方向に設定され、ノイズ音方向がマイクシステム100の正面以外の方向に設定される。このように、集音対象の方向が予め分かっている場合には、目的音方向およびノイズ音方向は、マイクシステム100に予め設定される。なお、目的音方向およびノイズ音方向は、後述の「第7,第8の実施の形態」で説明するように検出されてもよい。
マイクアレイ1は、マイク2,3のそれぞれから出力される音声信号を用いて、マイクアレイ1に対して非集音対象Nが存在するノイズ音方向(第1方向)に指向性を有するノイズ音信号nl(第1第音声信号)と、マイクアレイ1に対して集音対象SPが存在する目的音方向(第2方向)に指向性を有する目的音信号sp(第2音声信号)とを出力する。
より具体的には、図1に示されるように、マイク2,3が単一指向性のマイク素子である場合には、マイクアレイ1は、ノイズ音方向に指向性を有するように設けられているマイク2からの音声信号をノイズ音信号nlとしてそのまま用い、目的音方向に指向性を有するように設けられているマイク3からの音声信号を目的音信号spとしてそのまま用いる。各マイクが無指向性のマイク素子である場合には、後述する「第3,4の実施の形態」で説明するように、マイクアレイ1は、マイク2,3から出力される音声信号のそれぞれを用いて、ノイズ音信号nlおよび目的音信号spを生成する。
ここで、マイク2は、非集音対象Nから発せられたノイズ音だけでなく集音対象SPから発せられた目的音も受けるので、ノイズ音信号nlには、ノイズ音の成分(図1の「BfN」)だけでなく、目的音の成分(図1の「afSP」)も含まれる。また、マイク3は、集音対象SPから発せられた目的音だけでなく非集音対象Nから発せられたノイズ音も受けるので、目的音信号spには、目的音の成分(図1の「AfSP」)だけでなく、ノイズ音の成分(図1の「bfN」)も含まれる。
ノイズ音信号nlに含まれるノイズ音の成分と目的音の成分との大きさは、マイク2の指向特性に応じて変わる。同様に、目的音信号spに含まれるノイズ音の成分と目的音の成分との大きさは、マイク3の指向特性に応じて変わる。図1には、マイク2の指向特性PPLと、マイク3の指向特性PPCとが示されている。本明細書においては、マイクの指向特性とは、マイクと音源との間の距離が一定であり、かつ、音源から発せられる音の大きさが一定である場合における、各方向に対するマイクの音の感度のことをいう。
図2を参照して、指向特性PPL,PPCについて説明する。説明を簡単にするために、以下では、図2に示されるように、マイクアレイ1の正面方向を0度と定義する。また、マイクアレイ1の正面方向から水平面上を時計周りに角度が増加するとし、マイクアレイ1の正面方向から反時計周りに角度が減少するとする。
図2(A)には、マイク2の指向特性PPLが示されている。指向特性PPLは、マイク2への音声の入射角と、ノイズ音方向に指向性を有するときのマイク2の出力レベルとの対応関係を規定している。なお、ここでいう「入射角」とは、マイクから集音対象SPや非集音対象NPなどの音源に向かう方向と、マイク列の垂直方向との間の角度のことをいう。また、ここでいう「出力レベル」とは、マイクから出力される音声信号の振幅の大きさや後述する振幅スペクトルの大きさのことをいう。マイク2においては、+45度方向対して感度が良好であり、音声の入射角が+45度から離れるにつれて感度が悪くなる。
図2(B)には、マイク3の指向特性PPCが示されている。指向特性PPCは、マイク3への音声の入射角と、目的音方向に指向性を有するときのマイク3の出力レベルとの対応関係を規定している。マイク3においては、0度方向に対して感度が良好であり、音声の入射角が0度から離れるにつれて感度が悪くなる。
なお、指向特性PPL,PPCは、後述の「第6の実施の形態」で説明するように、特定の角度から音声が入射した場合におけるマイクの出力レベルを音声の入射角別に規定しているデータテーブルであってもよいし、入射角を目的変数とし、出力レベルを説明変数とする関数であってもよい。また、指向特性PPL,PPCは、マイクシステム100のメモリ(図示しない)などの内部記憶装置に格納されていてもよいし、外部サーバなどの外部記憶装置に格納されていてもよい。
再び図1を参照して、特定部7は、第1特定部7Aと、第2特定部7Bとを含む。第1特定部7Aは、指向特性PPL(第1指向特性)に基づいて、音声がノイズ音方向からマイク2に入射した場合における第1出力レベルを特定する。たとえば、ノイズ音方向が「45度」に設定されている場合には、第1特定部7Aは、指向特性PPLに示される「45度」に対応する「1.0」を第1出力レベルとして特定する。
また、第2特定部7Bは、指向特性PPC(第2指向特性)に基づいて、音声がノイズ音方向からマイク3に入射した場合における、マイク3の第2出力レベルを特定する。たとえば、ノイズ音方向が「45度」に設定されている場合には、第2特定部7Bは、指向特性PPCに示される「45度」に対応する「0.85」を第2出力レベルとして特定する。
マイクアレイ制御部6は、ノイズ音信号nlおよび目的音信号spをそれぞれ、周波数帯域別の振幅スペクトルと、周波数帯域別の位相スペクトルとによって示される直交座標系の周波数データに変換する。たとえば、マイクアレイ制御部6は、各信号を高速フーリエ変換(以下、「FFT(Fast Fourier Transform)」ともいう。)することにより周波数データを出力する。これにより、時間領域のノイズ音信号nlが周波数領域のノイズ音信号NL1に変換され、時間領域の目的音信号spが周波数領域の目的音信号SP1に変換される。
補正部8は、第1特定部7Aによって特定された第1出力レベルと、第2特定部7Bによって特定された第2出力レベルとの比率を用いて、第1出力レベルで出力されるノイズ音信号NL1を第2出力レベルの新たな信号NL2に補正する。より具体的には、補正部8は、目的音信号SP1に重畳されるノイズ音の振幅と、ノイズ音信号NL1との振幅が一致するように、ノイズ音信号NL1を補正する。たとえば、補正部8は、第1出力レベルに対する第2出力レベルの比率(すなわち、第2出力レベル÷第1出力レベル)を補正係数としてノイズ音信号NL1に乗算することにより、ノイズ音信号NL1の振幅を補正する。図1に示される例においては、補正部8は、第1出力レベル「1.0」に対する第2出力レベル「0.85」の比率「0.85/1.0」を補正係数として、当該補正係数をノイズ音信号NL1に積算する。これにより、補正部8は、ノイズ音信号NL1を、目的音信号に含まれるノイズ成分の大きさに合わせて補正することができる。
除去部9は、目的音信号SP1から補正後の信号NL2を除去する。たとえば、除去部9は、目的音信号SP1から補正後の信号NL2を減算する。これにより、除去部9は、目的音信号SP1からノイズ成分を除去し、ノイズ成分の除去後の音声信号Fを出力する。このような周波数領域でのノイズ除去処理は、各マイクから出力される音声信号の位相差に左右されない点で有利である。除去部9は、目的音信号SP1から補正後の信号NL2を減算した音声信号Fを出力部10に出力する。なお、除去部9は、後述する「実施の形態5」で説明する方法でノイズ成分を除去してもよい。
出力部10は、音声信号Fに対して逆高速フーリエ変換(以下、「逆FFT」ともいう。)を実行し、周波数領域の音声信号Fを時間領域の音声信号fに変換する。また、出力部10は、図示しないスピーカや音声認識システムなどの外部機器に合わせてアナログ信号やI2S(Inter‐IC Sound)通信などのディジタル信号の形式に音声信号fを変換し、変換後の信号を当該外部機器に出力する。
[制御構造]
図3を参照して、マイクシステム100の制御構造について説明する。図3は、マイクシステム100が実行する処理の一部を表わすフローチャートである。図3の処理は、マイクシステム100のCPU50(図1参照)がプログラムを実行することにより実現される。他の局面において、処理の一部または全部が、マイクアレイ1(図1参照)、回路素子、その他のハードウェアによって実行されてもよい。
図3を参照して、マイクシステム100の制御構造について説明する。図3は、マイクシステム100が実行する処理の一部を表わすフローチャートである。図3の処理は、マイクシステム100のCPU50(図1参照)がプログラムを実行することにより実現される。他の局面において、処理の一部または全部が、マイクアレイ1(図1参照)、回路素子、その他のハードウェアによって実行されてもよい。
ステップS10において、CPU50は、非集音対象に向けて設けられているマイク2(図1参照)からノイズ音信号nlを取得し、時間領域のノイズ音信号nlを周波数領域のノイズ音信号NL1に変換する。また、CPU50は、集音対象に向けて設けられているマイク3(図1参照)から目的音信号spを取得し、時間領域の目的音信号spを周波数領域の目的音信号SP1に変換する。
ステップS12において、CPU50は、第1特定部7Aとして、指向特性PPL(図2(A)参照)に基づいて、ノイズ音方向に対するマイク2の第1出力レベルを特定する。たとえば、CPU50は、指向特性PPLに規定されている出力レベルのうち、予め設定されているノイズ音方向に対応する出力レベルを第1出力レベルとして特定する。
ステップS14において、CPU50は、第2特定部7Bとして、指向特性PPC(図2(B)参照)に基づいて、ノイズ音方向に対するマイク2の第2出力レベルを特定する。たとえば、CPU50は、指向特性PPCに規定されている出力レベルのうち、予め設定されているノイズ音方向に対応する出力レベルを第2出力レベルとして特定する。
ステップS16において、CPU50は、補正部8として、第1出力レベルと第2出力レベルとの比率を用いて、第1出力レベルで出力されるノイズ音信号NL1を第2出力レベルの新たな信号NL2に補正する。たとえば、補正部8は、第1出力レベルに対する第2出力レベルの比率を補正係数としてノイズ音信号NL1に乗算することによりノイズ音信号NL1の振幅を補正する。
ステップS18において、CPU50は、除去部9として、目的音信号SP1から補正後の信号NL2を除去する。たとえば、CPU50は、目的音信号SP1から補正後の信号NL2を減算する。これにより、CPU50は、目的音信号SP1から補正後の信号NL2を除去した周波数領域の音声信号Fを出力する。その後、CPU50は、周波数領域の音声信号Fを時間領域の音声信号fに変換し、スピーカや音声認識システムなどに音声信号fを出力する。
なお、上記の各ステップの処理を実現するためのプログラムは、単体のプログラムとしてではなく、任意のプログラムの一部に組み込まれて提供されてもよい。この場合、任意のプログラムと協働して本実施の形態に従う処理が実現される。このような一部のモジュールを含まないプログラムであっても、本実施の形態に従うマイクシステム100の趣旨を逸脱するものではない。さらに、本実施の形態に従うプログラムによって提供される機能の一部または全部は、専用のハードウェアによって実現されてもよい。さらに、サーバ装置側が全ての機能を実行する必要はなく、マイクシステム100とサーバ装置とが協働して、本実施の形態に従う処理を実現するようにしてもよい。さらに、少なくとも1つのサーバ装置が本実施の形態に従う処理を実現する、いわゆるクラウドサービスのような形態でマイクシステム100が構成されてもよい。
[小括]
以上のようにして、本実施の形態に従うマイクシステム100は、ノイズ成分が目的音信号にどれだけ重畳されているかを指向特性に基づいて特定することにより、目的音信号からのノイズ成分の減算量を適切に調整する。これにより、マイクシステム100は、目的音の減衰を最小限に抑えることができ、結果として、目的音信号のSN比の低下を抑制したり、目的音信号の高調波成分における歪みを抑制したりすることができる。
以上のようにして、本実施の形態に従うマイクシステム100は、ノイズ成分が目的音信号にどれだけ重畳されているかを指向特性に基づいて特定することにより、目的音信号からのノイズ成分の減算量を適切に調整する。これにより、マイクシステム100は、目的音の減衰を最小限に抑えることができ、結果として、目的音信号のSN比の低下を抑制したり、目的音信号の高調波成分における歪みを抑制したりすることができる。
<第2の実施の形態>
[概要]
第1の実施の形態に従うマイクシステム100においては、マイクアレイが2つの単一指向性マイクで構成されていたが、マイクアレイは3つ以上の単一指向性マイクで構成されてもよい。たとえば、第2の実施の形態に従うマイクシステム100Aのように、マイクアレイが3つの単一指向性マイクで構成されてもよい。
[概要]
第1の実施の形態に従うマイクシステム100においては、マイクアレイが2つの単一指向性マイクで構成されていたが、マイクアレイは3つ以上の単一指向性マイクで構成されてもよい。たとえば、第2の実施の形態に従うマイクシステム100Aのように、マイクアレイが3つの単一指向性マイクで構成されてもよい。
以下では、図4および図5を参照して、第2の実施の形態に従うマイクシステム100Aの音声処理について説明する。図4は、マイクシステム100Aの機能構成の一例を示すブロック図である。図5は、マイクシステム100Aに設けられている各マイクの指向特性を示した概念図である。
図4に示されるように、マイクシステム100Aは、マイクアレイ1と、CPU(Central Processing Unit)50とを含む。CPU50は、検出部5と、マイクアレイ制御部6と、特定部7と、補正部8A,8Bと、除去部9と、出力部10とを含む。
マイクアレイ1は、複数のマイクによって構成される。図4に示される例においては、マイクアレイ1は、一列に配置されている3つのマイク2〜4によって構成されている。マイク2〜4のそれぞれは、図1に示されるように特定の方向に指向性を有する単一指向性のマイク素子であってもよいし、後述する「第3の実施の形態」で説明するように無指向性のマイク素子であってもよい。
検出部5は、目的音方向とノイズ音方向とを検出する。たとえば、目的音方向およびノイズ音方向は、マイクシステム100Aに予め設定されてもよいし、後述する「第7,8の実施の形態」で説明する方法で検出されてもよい。検出部5は、目的音方向を示す角度情報とノイズ音方向を示す角度情報とをマイクアレイ制御部6に出力する。また、検出部5は、ノイズ音方向を示す角度情報を特定部7に出力する。
マイクアレイ制御部6は、マイク2〜4によって出力された音声信号を、周波数帯域別の振幅スペクトルと、周波数帯域別の位相スペクトルとによって示される直交座標系の周波数データに変換する。すなわち、マイクアレイ制御部6は、時間領域で示される音声信号を、周波数領域で示される周波数データに変換する。周波数データにおける周波数帯域の幅は、音声信号のサンプリング周期と音声信号のサンプリング数とによって決められる。
たとえば、マイクアレイ制御部6は、各音声信号を高速フーリエ変換(すなわち、FFT)することにより周波数データを出力する。周波数データは、周波数別に示される離散的なデータであるが、本明細書においては、隣接する周波数の間を一つの周波数帯域と考えて周波数帯域別のデータもしくは単に周波数成分と記載している。また、FFT処理されたデータを単に周波数データと称している。
図4に示される例においては、マイクアレイ制御部6は、マイク2からのノイズ音信号NL3に高速フーリエ変換することにより周波数データNL4を生成し、周波数データNL4を補正部8Aに出力する。また、マイクアレイ制御部6は、マイク3からの目的音信号SP3を高速フーリエ変換することにより周波数データSP4を生成し、周波数データSP4を除去部9に出力する。さらに、マイクアレイ制御部6は、マイク4からのノイズ音信号NR3を高速フーリエ変換することにより周波数データNR4を生成し、周波数データNR4を補正部8Bに出力する。
特定部7は、各マイクの指向特性に基づいて、音声がノイズ音方向から各マイクに入射した場合における出力レベルを特定する。図5を参照して、指向特性について説明する。図5には、指向特性PPL,PPC,PPRが示されている。なお、指向特性PPL,PPCについては、図2に示される指向特性PPL,PPCと同じであるので説明を繰り返さない。
図5(C)には、マイク4の指向特性PPRが示されている。指向特性PPRは、マイク4への音声の入射角と、ノイズ音方向に指向性を有するときのマイク4の出力レベルとの対応関係を規定している。マイク4においては、−45度方向対して感度が良好であり、音声の入射角が−45度から離れるにつれて感度が悪くなる。
再び図4を参照して、特定部7は、指向特性PPLに基づいて、音声がノイズ音方向からマイク2に入射した場合における第1出力レベルを特定する。また、特定部7は、指向特性PPCに基づいて、音声がノイズ音方向からマイク3に入射した場合における第2出力レベルを特定する。さらに、特定部7は、指向特性PPRに基づいて、音声がノイズ音方向からマイク4に入射した場合における第3出力レベルを特定する。
補正部8Aは、特定部によって特定された第1出力レベルと第2出力レベルとの比率を用いて、第1出力レベルで出力される周波数データNL4を第2出力レベルの新たな周波数データNL5に補正する。補正部8Aによる補正方法は上述のとおりであるので、説明を繰り返さない。
補正部8Bは、特定部によって特定された第2出力レベルと第3出力レベルとの比率を用いて、第3出力レベルで出力される周波数データNR4を第2出力レベルの新たな周波数データNR5に補正する。補正部8Bによる補正方法は上述のとおりであるので、説明を繰り返さない。
なお、上記では、周波数データは、振幅スペクトルと位相スペクトルとの2つを含むものとして説明したが、補正処理の対象となるのは振幅スペクトルのみである。なぜならば、本補正処理は、振幅を補正することを目的としており、位相を補正する必要はないからである。
除去部9は、周波数データSP4から周波数データNL5を減算する。より具体的には、除去部9は、周波数データSP4に示される振幅スペクトルのそれぞれから、同一の周波数帯域に対応付けられている周波数データNL5のそれぞれを減算する。たとえば、周波数データSP4において周波数帯域50〜60Hzに対応付けられている振幅スペクトルが10000であり、周波数データNL5において同一の周波数帯域50〜60Hzに対応付けられている振幅スペクトルが6000である場合には、除去部9は、10000−6000=4000の減算処理を実行する。除去部9は、このような減算処理を、周波数データSP4および周波数データNL5に示される全ての周波数帯域について実行する。この減算処理によって、周波数データSP4からノイズ成分が除去される。除去部9は、周波数データSP4から周波数データNL5を除去した周波数データFを出力部10に出力する。
同様に、除去部9は、周波数データSP4から周波数データNR5をさらに減算する。ここで、周波数データNR5は、上述したように、−45度方向からの音声を周波数変換して得られたものである。図4に示される例においては、−45度方向には非集音対象が存在していないが、このことが原因で、ノイズ音の除去性能が低下することはない。なぜならば、周波数データNR5には、ノイズ成分がほとんど含まれておらず、周波数データSP4から周波数データNR5が減算されても、周波数データSP4にはほとんど影響を与えないためである。しかしながら、この減算処理により、目的音成分が減衰してしまう可能性があるため、好ましくは、除去部9は、非集音対象が存在する側の周波数データNL4だけを用いて減算処理を行なう。
一方で、ノイズ音が雑踏音のような周囲に環境する依存するノイズ音が、マイクシステム100Aの遠くに存在する非集音対象から発せられている場合には、周波数データNR5にもノイズ音成分が含まれる。そのため、このような場合には、除去部9が周波数データSP4から周波数データNR5を減算することにより、周囲環境に伴うノイズ音を抑制することができる。
このように、周波数データSP4から周波数データNR5を減算することが有利に働くか否かは、マイクシステム100Aの周囲の環境に依存する。マイクシステム100Aは、周波数データSP4から周波数データNR5を減算するか否かをユーザや設計者が任意に設定できるように構成される。
出力部10は、除去部9によって目的音成分が明瞭に強調された周波数データFに対して、逆高速フーリエ変換(すなわち、逆FFT)を実行し、周波数領域の周波数データFを時間領域の音声信号fに変換する。また、出力部10は、図示しないスピーカや音声認識システムなどの外部機器に合わせてアナログ信号やI2S(Inter‐IC Sound)通信などのディジタル信号の形式に音声信号fを変換し、変換後の信号を当該外部機器に出力する。
[制御構造]
図6を参照して、マイクシステム100Aの制御構造について説明する。図6は、マイクシステム100Aが実行する処理の一部を表わすフローチャートである。図6の処理は、マイクシステム100AのCPU50(図1参照)がプログラムを実行することにより実現される。他の局面において、処理の一部または全部が、マイクアレイ1(図4参照)、回路素子、その他のハードウェアによって実行されてもよい。
図6を参照して、マイクシステム100Aの制御構造について説明する。図6は、マイクシステム100Aが実行する処理の一部を表わすフローチャートである。図6の処理は、マイクシステム100AのCPU50(図1参照)がプログラムを実行することにより実現される。他の局面において、処理の一部または全部が、マイクアレイ1(図4参照)、回路素子、その他のハードウェアによって実行されてもよい。
ステップS30において、CPU50は、マイク2(図4参照)からノイズ音信号NL3(図4参照)を取得する。また、CPU50は、マイク3(図4参照)から目的音信号SP3(図4参照)を取得する。さらに、CPU50は、マイク4(図4参照)からノイズ音信号NR3(図4参照)を取得する。
ステップS32において、CPU50は、ノイズ音信号NL3にFFT処理を実行し、周波数データNL4(図4参照)を生成する。また、CPU50は、目的音信号SP3にFFT処理を実行し、周波数データSP4(図4参照)を生成する。さらに、CPU50は、ノイズ音信号NR3にFFT処理を実行し、周波数データNR4(図4参照)を生成する。
ステップS34において、CPU50は、特定部7(図4参照)として、指向特性PPL(図5(A)参照)に基づいて、ノイズ音方向に対するマイク2の第1出力レベル(図4参照)を特定する。たとえば、CPU50は、指向特性PPLに規定されている出力レベルのうち、予め設定されているノイズ音方向に対応する出力レベルを第1出力レベルとして特定する。
ステップS36において、CPU50は、特定部7(図4参照)として、指向特性PPC(図5(B)参照)に基づいて、ノイズ音方向に対するマイク3の第2出力レベル(図4参照)を特定する。たとえば、CPU50は、指向特性PPCに規定されている出力レベルのうち、予め設定されているノイズ音方向に対応する出力レベルを第2出力レベルとして特定する。
ステップS38において、CPU50は、特定部7(図4参照)として、指向特性PPR(図5(C)参照)に基づいて、ノイズ音方向に対するマイク4の第3出力レベル(図4参照)を特定する。たとえば、CPU50は、指向特性PPRに規定されている出力レベルのうち、予め設定されているノイズ音方向に対応する出力レベルを第3出力レベルとして特定する。
ステップS40において、CPU50は、補正部8A(図4参照)として、第1出力レベルと第2出力レベルとの比率に応じて周波数データNL4を補正し、周波数データNL5(図4参照)を生成する。より具体的には、CPU50は、第1出力レベルに対する第2出力レベルの比率を補正係数として、周波数データNL4に含まれる振幅スペクトルの各々に補正係数を乗算することにより、周波数データNL5を生成する。
ステップS42において、CPU50は、補正部8B(図4参照)として、第2出力レベルと第3出力レベルとの比率に応じて周波数データNR4を補正し、周波数データNR5(図4参照)を生成する。より具体的には、CPU50は、第3出力レベルに対する第2出力レベルの比率を補正係数として、周波数データNR4に含まれる振幅スペクトルの各々に補正係数を乗算することにより、周波数データNR5を生成する。
ステップS44において、CPU50は、除去部9(図4参照)として、周波数データSP4から、周波数データNR5および周波数データNL5を減算し、周波数データF(図4参照)を生成する。より具体的には、CPU50は、周波数データSP4に含まれる複数の振幅スペクトルのそれぞれから、周波数データNL5に含まれる複数の振幅スペクトルのそれぞれと、周波数データNR5に含まれる複数の振幅スペクトルのそれぞれとを減算する。
ステップS46において、CPU50は、出力部10として、周波数データFに対して逆FFT処理を実行し、時間領域の音声信号f(図4参照)を生成する。その後、CPU50は、スピーカや音声認識システムなどに音声信号fを出力する。
[小括]
図7を参照して、本実施の形態に従うマイクシステム100Aの利点について説明する。図7は、マイクシステム100Aによる効果を評価した結果を示す図である。
図7を参照して、本実施の形態に従うマイクシステム100Aの利点について説明する。図7は、マイクシステム100Aによる効果を評価した結果を示す図である。
マイクシステム100Aを評価する条件として、マイクアレイ1(図4参照)は、3つのマイク2〜4(図4参照)で構成されているものとする。また、マイク2は+45度方向に向けて設けられており、マイク3は0度方向に向けて設けられており、マイク4は−45度方向に向けて設けられているものとする。さらに、マイク2は指向特性PPL(図5(A)参照)を有し、マイク3は指向特性PPC(図5(B)参照)を有し、マイク4は指向特性PPR(図5(C)参照)を有するものとする。さらに、ノイズ音は、+40度および−40度の方向からマイクアレイ1に入射し、目的音は、0度の方向からマイクアレイ1に入射するものとする。
マイク2,4の設置角度とノイズ音の入射角との間に5度の差があるが、±40度方向と±45度方向との指向特性がほぼ同じであるので、マイクシステム100Aは、マイク2,4のそれぞれから出力される音声信号をノイズ音信号としてそのまま用い、マイク3から出力される信号を目的音信号としてそのまま用いるとする。
このような条件下において、マイクシステム100Aは、指向特性PPCの40度方向に対応付けられている出力レベル「0.9」を、目的音方向の周波数データに含まれるノイズ成分の大きさとして特定する。また、マイクシステム100Aは、指向特性PPR,PPLの40度方向に対応付けられている出力レベル「約1.0」を、マイク2,4の出力レベルとして特定する。これにより、マイクシステム100Aは、ノイズ成分が目的音信号にどれだけ重畳されているかを示す補正係数「0.9(=0.9/1)」を算出する。
図7には、補正係数を0.7〜1.1に可変にした場合の、マイクシステム100AのSN比が示されている。図7に示されるように、補正係数が0.9である場合に、マイクシステム100AのSN比が最も高くなっている。すなわち、補正係数が0.9である場合に、マイクシステム100Aは、目的音信号からノイズ成分を最も適切に除去している。図7に示される評価結果によって、補正係数が正確に算出されていること、および、目的音信号からノイズ成分が適切に除去されていることが確認できた。
<第3の実施の形態>
[概要]
第1の実施の形態に従うマイクシステム100においては、マイクアレイが単一指向性のマイクによって構成されていた。これに対して、第3の実施の形態に従うマイクシステム100Bにおいては、マイクアレイが無指向性のマイクによって構成される。
[概要]
第1の実施の形態に従うマイクシステム100においては、マイクアレイが単一指向性のマイクによって構成されていた。これに対して、第3の実施の形態に従うマイクシステム100Bにおいては、マイクアレイが無指向性のマイクによって構成される。
以下では、図8を参照して、第3の実施の形態に従うマイクシステム100Bについて説明する。なお、マイクシステム100Bのハードウェア構成などその他の点については上述の各実施の形態に従うマイクシステムと同じであるので、それらの説明は繰り返さない。図8は、マイクシステム100Bのマイクアレイ1の外観を示した図である。
本実施の形態では、マイクアレイ1は、複数の無指向性のマイクによって構成される。図8に示される例においては、マイクアレイ1は、一列に配置されている5つの無指向性のマイク11〜15によって構成されている。
マイクアレイ1は、マイク11〜15の各々から出力される音声信号を用いて、ノイズ音方向に指向性を有するノイズ音信号と、目的音方向に指向性を有する目的音信号とを生成する。たとえば、マイクアレイ1は、図8に示されるように、マイク11〜15の各々から出力される音声信号を用いて、ノイズ音を発する非集音対象N1が存在する方向に指向性を有するノイズ音信号NL3と、目的音を発する集音対象SPが存在する方向に指向性を有する目的音信号SP3と、ノイズ音を発する非集音対象N2が存在する方向に指向性を有するノイズ音信号NR3とを生成する。また、図8には、非集音対象N1に指向性を有する指向特性PPL2と、集音対象SPに指向性を有する指向特性PPC2と、非集音対象N2に指向性を有する指向特性PPR2とが示されている。
非集音対象N1,N2や集音対象SPが存在する特定の方向に指向性を高める方法としては、遅延和処理がある。図9を参照して、遅延和処理について説明する。図9は、音源とマイク11〜15の各々との間の距離(以下、「音源距離」ともいう。)の違いを概略的に示した図である。なお、説明を簡単にするために各マイクへの音声の入射角θは、同一であるとする。
図9に示されるように、音源距離は、各マイクへの入射角θが大きくなるにつれて長くなる。たとえば、マイク11〜15が距離Lの等間隔で配置されている場合には、マイク11とマイク12との間には、長さLsinθの音源距離の差が生じる。同様に、マイク11とマイク13との間には、長さ2Lsinθの音源距離の差が生じる。マイク11とマイク14との間には、長さ3Lsinθの音源距離の差が生じる。マイク11とマイク14との間には、長さ4Lsinθの音源距離の差が生じる。マイク間の距離Lは一定であるので、各マイクの音源距離の差は音声の入射角θによって決まる。
その結果、各マイクが音声を受けるタイミングは、マイク間の音源距離の差に応じて変わる。この点に着目して、マイクアレイ1は、各マイクから出力される音声信号を、各マイクの音源距離の差の分だけ遅延させた上で加算することにより、特定の方向に対する指向性を高める。
より具体的な例として、音声が45度方向から入射する場合には、マイク12は、マイク11が音声を受けてからLsin45°/c秒(c:音速)後に音声を受ける。同様に、マイク13は、マイク11が音声を受けてから2Lsin45°/c秒後に音声を受ける。マイク13は、マイク11が音声を受けてから3Lsin45°/c秒後に音声を受ける。マイク14は、マイク11が音声を受けてから4Lsin45°/c秒後に音声を受ける。
そのため、マイクアレイ1が45度方向(すなわち、入射角θ=45度)に対して指向性を有するノイズ音信号を生成する場合には、マイクアレイ1は、マイク11の出力を4Lsin45°/c秒遅延させた信号と、マイク12の出力を3Lsin45°/c秒遅延させた信号と、マイク13の出力を2Lsin45°/c秒遅延させた信号と、マイク14の出力をLsin45°/c秒遅延させた信号と、マイク15の音声信号とを加算する。これにより、マイクアレイ1は、45度方向に対する指向性を高めた音声信号を生成することができる。
また、マイクアレイ1の正面方向(すなわち、0度方向)に対しては各マイクの音源距離に差が生じないので、マイクアレイ1が正面(すなわち、入射角θ=0度)に対して指向性を向ける場合には、マイクアレイ1は、マイク11〜15の各々から出力される音声信号を遅延せずにそのまま加算する。これにより、マイクアレイ1は、0度方向に対する指向性を高めたノイズ音信号を生成することができる。
[利点]
以上のようにして、本実施の形態に従うマイクシステム100Bは、各マイクからの出力される音声信号の遅延量の設定に応じて、任意の方向に対して指向性を向けることができる。そのため、マイクシステム100Bは、ノイズ音方向や目的音方向が頻繁に変化するような用途に対して有効な構成である。
以上のようにして、本実施の形態に従うマイクシステム100Bは、各マイクからの出力される音声信号の遅延量の設定に応じて、任意の方向に対して指向性を向けることができる。そのため、マイクシステム100Bは、ノイズ音方向や目的音方向が頻繁に変化するような用途に対して有効な構成である。
<第4の実施の形態>
[概要]
第3の実施の形態に従うマイクシステム100Bにおいては、マイクアレイが5つの無指向性のマイクによって構成されていた。これに対して、第4の実施の形態に従うマイクシステム100Cにおいては、マイクアレイが2つの無指向性のマイクによって構成される。
[概要]
第3の実施の形態に従うマイクシステム100Bにおいては、マイクアレイが5つの無指向性のマイクによって構成されていた。これに対して、第4の実施の形態に従うマイクシステム100Cにおいては、マイクアレイが2つの無指向性のマイクによって構成される。
以下では、図10を参照して、第4の実施の形態に従うマイクシステム100Cについて説明する。なお、マイクシステム100Cのハードウェア構成などその他の点については上述の各実施の形態に従うマイクシステムと同じであるので、それらの説明は繰り返さない。図10は、マイクシステム100Cに含まれているマイクアレイ1の外観を示した図である。
図10に示されるように、マイクアレイ1は、2つの無指向性のマイク16,17によって構成されている。本実施の形態においては、マイクアレイ1は、マイク16,17からの各出力を加算することにより、マイク16,17の指向特性が重なる中央付近の指向性を高める。これにより、マイクアレイ1は、図10に示される指向特性PPADDのように、マイクアレイ1の正面方向に指向性を高めることができる。
また、マイクアレイ1は、マイク16,17からの各出力同士を減算することで、マイク16,17の指向特性が重なる中央付近の指向性を低くなる。すなわち、マイクアレイ1は、マイク16,17からの各出力同士を減算することにより、マイクアレイ1は、図10に示される指向特性PPSUBのように、マイクアレイ1の左右方向に指向性を高めることができる。その結果、本実施の形態に従うマイクシステム100Cは、特に、非集音対象がマイクアレイ1の左右に存在し、ノイズ音方向が左右で等しい場合に、ノイズ除去の性能を高めることができる。
[機能構成]
図11を参照して、マイクシステム100Cの機能について説明する。図11は、マイクシステム100Cの機能構成の一例を示すブロック図である。図11に示されるように、マイクシステム100CのCPU50は、検出部5と、マイクアレイ制御部6と、特定部7と、補正部8と、除去部9と、出力部10とを含む。
図11を参照して、マイクシステム100Cの機能について説明する。図11は、マイクシステム100Cの機能構成の一例を示すブロック図である。図11に示されるように、マイクシステム100CのCPU50は、検出部5と、マイクアレイ制御部6と、特定部7と、補正部8と、除去部9と、出力部10とを含む。
検出部5は、予め設定されているノイズ音方向を特定部7に出力する。なお、本実施の形態における図11の検出部5は、図4の検出部5とは異なり、ノイズ音方向および目的音方向をマイクアレイ制御部6に出力しない。
マイクアレイ制御部6は、マイク16から出力される音声信号f1と、マイク16から出力される音声信号f2とのいずれか一方の音声信号から他方の音声信号を減算することで、マイクアレイ1の左右方向に指向性を有する音声信号を生成する。マイクアレイ制御部6は、生成した音声信号に対してFFT処理を実行することで周波数データNA6を生成し、周波数データNA6を補正部8に出力する。
また、マイクアレイ制御部6は、マイク16から出力される音声信号f1と、マイク16から出力される音声信号f2とを加算することで、マイクアレイ1の正面方向に対して指向性を有する音声信号を生成する。その後、マイクアレイ制御部6は、生成した音声信号に対してFFT処理を実行することで周波数データSP6を生成し、周波数データSP6を除去部9に出力する。
特定部7は、指向特性PPSUBを参照して、音声がノイズ音方向からマイクアレイ1に入射した場合におけるマイクアレイ1の第1出力レベルを特定する。第1出力レベルは、ノイズ音方向の周波数データNA6に含まれるノイズ音の大きさを示す。また、特定部7は、指向特性PPSADを参照して、音声がノイズ音方向からマイクアレイ1に入射した場合におけるマイクアレイ1の第2出力レベルを特定する。第2出力レベルは、目的音方向の周波数データSP6に含まれるノイズ音の大きさを示す。特定部7は、第1出力レベルおよび第2出力レベルを補正部8に出力する。
補正部8は、第1出力レベルに対する第2出力レベルの比率(すなわち、第2出力レベル÷第1出力レベル)を補正係数とする。たとえば、第1出力レベルが0.9であり、第2出力レベルが0.7である場合には、補正係数は、0.7/0.9=0.77となる。補正部8は、ノイズ音方向の周波数データNA6に含まれる周波数スペクトルの各々に補正係数を乗算することで周波数データNA7を生成し、周波数データNA7を除去部9に出力する。
除去部9は、周波数データSP6から周波数データNA7を減算する。より具体的には、除去部9は、周波数データSP6に示される振幅スペクトルのそれぞれから、同一の周波数帯域に対応付けられている周波数データNA7のそれぞれを減算する。
なお、上記では、目的音方向がマイクアレイ1の正面方向であり、ノイズ音方向がマイクアレイ1の左右方向である場合について説明を行なったが、目的音方向はマイクアレイ1の左右方向であり、ノイズ音方向はマイクアレイ1の正面方向であってもよい。これにより、マイクシステム100Cは、マイクアレイ1の左右方向からの音声を強調し、マイクアレイ1の正面方向からの音声を除去することが可能になる。
[小括]
以上のようにして、本実施の形態に従うマイクシステム100Cは、ノイズ音方向がマイクアレイ1の左右で等しい場合や、ノイズ音方向がマイクアレイ1の左右のいずれか一方に限定される場合に、ノイズ除去の性能を高めることができる。また、マイクシステム100Cは、マイクアレイ1の正面方向に指向性を高めるために各マイクから出力される音声信号を加算するという容易な処理で実現でき、マイクアレイ1の左右方向に指向性を高めるために各マイクから出力される音声信号を減算するという容易な処理で実現できるため、計算量を軽減することができる。
以上のようにして、本実施の形態に従うマイクシステム100Cは、ノイズ音方向がマイクアレイ1の左右で等しい場合や、ノイズ音方向がマイクアレイ1の左右のいずれか一方に限定される場合に、ノイズ除去の性能を高めることができる。また、マイクシステム100Cは、マイクアレイ1の正面方向に指向性を高めるために各マイクから出力される音声信号を加算するという容易な処理で実現でき、マイクアレイ1の左右方向に指向性を高めるために各マイクから出力される音声信号を減算するという容易な処理で実現できるため、計算量を軽減することができる。
<第5の実施の形態>
[概要]
第4の実施の形態に従うマイクシステム100Cは、目的音信号を元に生成される周波数データから、ノイズ音信号を元に生成される周波数データを減算することによりノイズ成分を除去していた。これに対して、第5の実施の形態に従うマイクシステム100Dは、目的音信号を元に生成される周波数データから周波数帯域別にノイズ成分を除去する。
[概要]
第4の実施の形態に従うマイクシステム100Cは、目的音信号を元に生成される周波数データから、ノイズ音信号を元に生成される周波数データを減算することによりノイズ成分を除去していた。これに対して、第5の実施の形態に従うマイクシステム100Dは、目的音信号を元に生成される周波数データから周波数帯域別にノイズ成分を除去する。
以下では、図12および図13を参照して、第5の実施の形態に従うマイクシステム100Dについて説明する。なお、マイクシステム100Dのハードウェア構成などその他の点については上述の各実施の形態に従うマイクシステムと同じであるので、それらの説明は繰り返さない。
図12は、マイクシステム100Dの機能構成の一例を示すブロック図である。図13は、除去部9によるノイズ成分の除去処理を概略的に示した概念図である。図12に示されるように、マイクシステム100DのCPU50は、検出部5と、マイクアレイ制御部6と、特定部7と、補正部8と、除去部9と、出力部10とを含む。除去部9は、比較部18と、選択部19とを含む。なお、除去部9以外の構成(すなわち、検出部5、マイクアレイ制御部6、特定部7、および補正部8)については、図11に示される機能構成と同じであるので説明を繰り返さない。
除去部9は、目的音信号の振幅スペクトルと、ノイズ音信号に補正係数を乗算して得られた補正後信号の振幅スペクトルとを周波数帯域別に比較し、目的音信号の振幅スペクトルが補正後信号の振幅スペクトルよりも小さい周波数帯域に対応する信号成分をノイズ成分として目的音信号から除去する。
図13を参照して、除去部9のノイズ成分の除去処理について詳細に説明する。図13には、マイクアレイ制御部6によって出力される周波数データSP6と、補正部8によって出力される周波数データNA6とが示されている。比較部18は、周波数データSP6に示される振幅スペクトルのそれぞれと、周波数データNA6示される振幅スペクトルのそれぞれとのうち、同じ周波数帯域に対応する振幅スペクトル同士を比較する。
たとえば、図13に示される例においては、比較部18は、同じ周波数帯域fa〜fbに対応する、周波数データSP6の振幅スペクトルと周波数データNA6の振幅スペクトルとの大きさを比較する。同様に、比較部18は、同じ周波数帯域fb〜fcに対応する、周波数データSP6の振幅スペクトルと周波数データNA6の振幅スペクトルとの大きさを比較する。同様に、比較部18は、同じ周波数帯域fc〜fdに対応する、周波数データSP6の振幅スペクトルと周波数データNA6の振幅スペクトルとの大きさを比較する。
選択部19は、比較部18による比較結果に基づいて、周波数データSP6に示される振幅スペクトルのそれぞれのうち、周波数データNA6示される振幅スペクトルのそれぞれよりも大きい周波数スペクトルを選択する。図13に示される例においては、選択部19は、周波数帯域fa〜fbに対応付けられている振幅スペクトルと、周波数帯域fc〜fdに対応付けられている振幅スペクトルとを選択する。
除去部9は、周波数データSP6に対応付けられている振幅スペクトルのうち、選択部19によって選択された振幅スペクトルを残し、その他の振幅スペクトルについては予め定められた値に設定する。ある局面において、予め定められた値は、0または略0に設定される。たとえば、予め定められた値を母数とする演算がある場合には、演算過程でエラーが生じるため、予め定められた値は略0(たとえば、0.001)に設定される。そうでない場合には、予め定められた値は、0に設定される。
除去部9は、選択部19によって選択されなかった振幅スペクトルを予め定められた値に設定することによりノイズ成分を除去する。図13に示される例においては、除去部9は、選択部19によって選択されなかった周波数帯域fb〜fcに対応付けられている振幅スペクトルを0に設定し、ノイズ成分を除去した周波数データFを生成する。
[小括]
以上のようにして、本実施の形態に従うマイクシステム100Dは、ノイズ音が支配的である周波数成分の振幅スペクトルを0または略0にする。これにより、マイクシステム100Dは、ノイズ音を除去する効果をさらに高めることができる。
以上のようにして、本実施の形態に従うマイクシステム100Dは、ノイズ音が支配的である周波数成分の振幅スペクトルを0または略0にする。これにより、マイクシステム100Dは、ノイズ音を除去する効果をさらに高めることができる。
<第6の実施の形態>
[概要]
第1の実施の形態に従うマイクシステム100においては、指向特性の構成について特に限定していなかった。すなわち、指向特性は、音声の入射角と、当該入射角から音声が入射した場合のマイクの出力レベルとの対応関係を音声の入射角別に規定しているデータテーブルであってもよいし、音声の入射角を目的変数とし、マイクの出力レベルを説明変数とする関数であってもよかった。
[概要]
第1の実施の形態に従うマイクシステム100においては、指向特性の構成について特に限定していなかった。すなわち、指向特性は、音声の入射角と、当該入射角から音声が入射した場合のマイクの出力レベルとの対応関係を音声の入射角別に規定しているデータテーブルであってもよいし、音声の入射角を目的変数とし、マイクの出力レベルを説明変数とする関数であってもよかった。
指向特性が関数としてデータテーブルとして構成されると、マイクシステム100Eは、任意の音声の入射角に対してマイク出力レベルを算出することができる。しかしながら、マイクの指向特性には個々にばらつきがあるため、関数が複雑になる可能性がある。関数が複雑になると、マイクの出力レベルを算出するための計算時間が増大してしまう。
そこで、本実施の形態に従うマイクシステム100Eは、マイクの出力レベルを算出するための計算処理を省略するために、データテーブルとして構成される指向特性を保持する。これにより、マイクシステム100Eは、データテーブルを参照するだけでマイクの出力レベルを特定できる。
また、図5に示される指向特性PPL,PPC,PPRに示されるように、入射角が15度程度の角度変動では出力レベルが大きく変化しないため、数度以上の誤差が許容される場合にはデータテーブルを保持することは有効な手段である。
[データ構造]
図14を参照して、本実施の形態に従う指向特性について説明する。図14は、指向特性の内容を示した図である。図14には、マイク2(図4参照)の指向特性MMLと、マイク3(図4参照)の指向特性MMCと、マイク4(図4参照)の指向特性MMRとが示されている。
図14を参照して、本実施の形態に従う指向特性について説明する。図14は、指向特性の内容を示した図である。図14には、マイク2(図4参照)の指向特性MMLと、マイク3(図4参照)の指向特性MMCと、マイク4(図4参照)の指向特性MMRとが示されている。
より具体的には、指向特性MMLには、マイク2への音声の入射角と、ノイズ音方向(+45度方向)に指向性を有するときのマイク2の出力レベルとの対応関係がマイク2への音声の入射角別に規定されている。指向特性MMCには、マイク3への音声の入射角と、目的音方向(0度方向)に指向性を有するときのマイク3の出力レベルとの対応関係がマイク3への音声の入射角別に規定されている。指向特性MMRには、マイク4への音声の入射角と、ノイズ音方向(315度方向)に指向性を有するときのマイク4の出力レベルとの対応関係がマイク4への音声の入射角別に規定されている。
なお、図14に示される0度〜180度のそれぞれは、図5に示される0度〜180度のそれぞれに対応し、図14に示される195度〜345度のそれぞれは、図5に示される−165度〜−15度のそれぞれに対応する。
上述の特定部7(図4参照)は、指向特性MMLに規定されている複数の入射角のうち、ノイズ音方向から特定される入射角に最も近い入射角を選択し、選択した入射角に対応する出力レベルをマイク2の第1出力レベル(図4参照として特定する。たとえば、ノイズ音方向が「40度」に設定されている場合には、特定部7は、指向特性MMLに規定されている複数の入射角のうち、「40度」に最も近い入射角「45度」を選択し、入射角「45度」に対応する出力レベル「1.05」を第1出力レベルとして特定する(点線31参照)。
同様に、特定部7は、指向特性MMCに規定されている複数の入射角のうち、ノイズ音方向から特定される入射角に最も近い入射角を選択し、選択した入射角に対応する出力レベルをマイク3の第2出力レベルとして特定する。たとえば、ノイズ音方向が「40度」に設定されている場合には、特定部7は、指向特性MMCに規定されている複数の入射角のうち、「40度」に最も近い入射角「45度」を選択し、入射角「45度」に対応する出力レベル「0.85」を第2出力レベルとして特定する(点線32参照)。
なお、図14に示される各指向特性には、入射角が15度間隔で出力レベルが規定されているが、入射角の間隔は任意である。また、出力レベルの特定方法は、上記の方法に限定されない。たとえば、特定部7は、指向特性に規定されている複数の入射角のうち、ノイズ音方向に最も近い入射角と2番目に近い入射角とを選択し、最も近い入射角に対応付けられている出力レベルと2番目に近い入射角に対応付けられている出力レベルとを平均した値をマイクの出力レベルとして特定してもよい。
(変形例)
図15を参照して、図14に示される指向特性MML,MMC,MMRの変形例について説明する。図15は、変形例に従う指向特性の内容を示した図である。
図15を参照して、図14に示される指向特性MML,MMC,MMRの変形例について説明する。図15は、変形例に従う指向特性の内容を示した図である。
マイクシステム100Eが設置される環境によっては、反響音などにより特定の周波数での指向特性が他の周波数とは異なる形状になることがある。また、反響音と元の音との位相加算によって、振幅が増大もしくは減少してしまうこともある。そこで、本変形例に従う指向特性には、出力レベルが入射音声の周波数別に規定されている。これにより、マイクシステム100Eは、設置される環境に起因する指向特性の差を緩和することができ、ノイズ除去処理に用いる補正係数をより正確に算出することが可能になる。
図15には、本変形例における、マイク2(図4参照)の指向特性MML2と、マイク3(図4参照)の指向特性MMC2と、マイク4(図4参照)の指向特性MMR2とが示されている。
より具体的には、指向特性MML2には、マイク2への音声の入射角と、マイク2に入射する音声の周波数と、ノイズ音方向(45度方向)に指向性を有するときのマイク2の出力レベルとの対応関係が、マイク2への音声の入射角別、および入射音声の周波数別に規定されている。
指向特性MMC2には、マイク3への音声の入射角と、マイク3に入射する音声の周波数と、目的音方向(0度方向)に指向性を有するときのマイク3の出力レベルとの対応関係が、マイク3への音声の入射角別、および入射音声の周波数別に規定されている。
指向特性MMR2には、マイク4への音声の入射角と、マイク4に入射する音声の周波数と、ノイズ音方向(315度方向=−45度方向)に指向性を有するときのマイク4の出力レベルとの対応関係が、マイク4への音声の入射角別、および入射音声の周波数別に規定されている。
上述の特定部7(図4参照)は、指向特性MML2に規定されている複数の入射角のうち、ノイズ音方向から特定される入射角に最も近い入射角を選択するとともに、指向特性MML2に規定されている複数の周波数のうち、ノイズ音信号の周波数に最も近い周波数を選択し、選択した入射角および周波数に対応する出力レベルをマイク2の第1出力レベル(図4参照)として特定する。
また、特定部7は、指向特性MMC2に規定されている複数の入射角のうち、目的方向から特定される入射角に最も近い入射角を選択するとともに、指向特性MML2に規定されている複数の周波数のうち、目的音信号の周波数に最も近い周波数を選択し、選択した入射角および周波数に対応する出力レベルをマイク3の第2出力レベル(図4参照)として特定する。
さらに、特定部7は、指向特性MMR2に規定されている複数の入射角のうち、ノイズ音方向から特定される入射角に最も近い入射角を選択し、指向特性MMR2に規定されている複数の周波数のうち、ノイズ音信号の周波数に最も近い周波数を選択し、選択した入射角および周波数入射角に対応する出力レベルをマイク4の第3出力レベル(図4参照)として特定する。
以下では、特定部7による第1〜第3出力レベルの具体的な特定方法について説明する。なお、以下では、目的音方向がマイクアレイ1の正面方向(0度方向)であり、ノイズ音方向が45度方向と315度方向であるとする。また、説明を簡単にするために、左側(45度方向)から入射するノイズ音は右側(315度方向)のマイク4へは入射しないものとし、右側(315度方向)から入射するノイズ音は左側(45度方向)のマイク2へは入射しないものとする。
ノイズ音の周波数が500Hz未満であって、ノイズ音が45度方向から入射する場合には、特定部7は、指向特性MML2を参照して、周波数「500Hz未満」および入射角「45度」に対応する出力レベル「1.05」を第1出力レベルとして特定する(点線33参照)。同様に、特定部7は、指向特性MMC2を参照して、周波数「500Hz未満」および入射角「45度」に対応する出力レベル「0.85」を第2出力レベルとして特定する(点線34参照)。第1出力レベルと第2出力レベルとに基づいて、45度方向に対するノイズ音の補正係数は、0.85/1.05=0.81となる。
また、特定部7は、指向特性MMR2を参照して、周波数「500Hz未満」および入射角「315度」に対応する出力レベル「1.01」を第3出力レベルとして特定する(点線35参照)。同様に、特定部7は、指向特性MMC2を参照して、周波数「500Hz未満」および入射角「315度」に対応する出力レベル「0.85」を第3出力レベルとして特定する(点線36参照)。第2出力レベルと第3出力レベルとに基づいて、45度方向に対するノイズ音の補正係数は、0.85/1.01=0.84となる。以後、周波数成分に応じて指向特性の参照箇所が移行していき補正係数が算出される。
[小括]
以上のようにして、本実施の形態に従うマイクシステム100Eは、マイクの出力レベルを音声の入射角別に示した指向特性をデータテーブルとして保持することで、マイクの出力レベルを算出するための処理を簡略化でき、処理時間を削減することができる。
以上のようにして、本実施の形態に従うマイクシステム100Eは、マイクの出力レベルを音声の入射角別に示した指向特性をデータテーブルとして保持することで、マイクの出力レベルを算出するための処理を簡略化でき、処理時間を削減することができる。
<第7の実施の形態>
[概要]
第1の実施の形態に従うマイクシステム100は、目的音方向およびノイズ音方向の検出方法について特に限定していなかった。これに対して、第7の実施の形態に従うマイクシステム100Fにおいては、目的音方向およびノイズ音方向を検出するための手段を有する。これにより、マイクシステム100Fは、目的音からノイズ成分をより正確に除去することが可能になる。
[概要]
第1の実施の形態に従うマイクシステム100は、目的音方向およびノイズ音方向の検出方法について特に限定していなかった。これに対して、第7の実施の形態に従うマイクシステム100Fにおいては、目的音方向およびノイズ音方向を検出するための手段を有する。これにより、マイクシステム100Fは、目的音からノイズ成分をより正確に除去することが可能になる。
以下では、図16を参照して、第7の実施の形態に従うマイクシステム100Fについて説明する。図16は、目的音方向およびノイズ音方向を検出するための外部装置20を示した図である。なお、マイクシステム100Fのハードウェア構成などその他の点については上述の各実施の形態に従うマイクシステムと同じであるので、それらの説明は繰り返さない。
外部装置20は、音源検出装置21と、音源検出制御器22とを含む。外部装置20は、図4などの検出部5として構成されるCPU50の入出力ポートに電気的に接続される。音源検出装置21は、たとえば、人感センサ、またはカメラなどの人物を検出するためのセンサで構成される。
音源検出装置21が人感センサとして構成されている場合には、人感センサは、人物を検出した方向や人物を検出した位置を音源検出制御器22に出力する。人感センサが人物の位置を2か所以上検出した場合には、音源検出制御器22は、マイクアレイ1に最も近い位置に存在する人物を集音対象として、当該位置から特定される方向を目的音方向として検出する。また、音源検出制御器22は、その他の位置に存在する人物を非集音対象として、当該位置から特定される方向をノイズ音方向として検出する。音源検出制御器22は、検出した目的音方向およびノイズ音方向を検出部5に出力する。
音源検出装置21がカメラとして構成されている場合には、カメラは、被写体を撮像して得られる入力画像を音源検出制御器22に出力する。音源検出制御器22は、入力画像に対して顔検出処理などの画像処理を実行することにより、入力画像から人物の顔を検出する。音源検出制御器22は、2つ以上の顔を検出した場合に、顔のサイズが最も大きく写っている人物を集音対象として、当該人物の画像内の位置から特定される方向を目的音方向として検出する。また、音源検出制御器22は、画像内に写るその他の人物を非集音対象として、当該人物の画像内の位置から特定される方向をノイズ音方向として検出する。音源検出制御器22は、検出した目的音方向およびノイズ音方向を検出部5として構成されるCPU50に出力する。
検出部5は、音源検出制御器22によって出力される検出結果を受けて、目的音方向およびノイズ音方向を角度情報に換算する。その後の処理については、図4において説明したとおりであるので説明を繰り返さない。
なお、上記では、音源検出装置21がマイクシステム100Fの外部機器として構成されている例について説明を行なったが、音源検出装置21は、マイクシステム100Fの内部機器として構成されてもよい。また、音源検出制御器22による目的音方向およびノイズ音方向を検出する機能は、マイクシステム100FのCPU50(たとえば、検出部5)やマイクアレイ1に実装されてもよい。
[小括]
以上のようにして、本実施の形態に従うマイクシステム100Fは、人物の検出結果に基づいて、目的音方向およびノイズ音方向を特定する。これにより、マイクシステム100Fは、集音対象および非集音対象である人物の位置が変わる場合であっても、目的音方向およびノイズ音方向を正確に特定できる。その結果、マイクシステム100Fは、目的音声信号からノイズ成分を正確に除去することができ、目的音信号の劣化を抑えることができる。
以上のようにして、本実施の形態に従うマイクシステム100Fは、人物の検出結果に基づいて、目的音方向およびノイズ音方向を特定する。これにより、マイクシステム100Fは、集音対象および非集音対象である人物の位置が変わる場合であっても、目的音方向およびノイズ音方向を正確に特定できる。その結果、マイクシステム100Fは、目的音声信号からノイズ成分を正確に除去することができ、目的音信号の劣化を抑えることができる。
<第8の実施の形態>
[概要]
第7の実施の形態に従うマイクシステム100Fは、外部装置20によって目的音方向およびノイズ音方向を検出していた。しかしながら、コストや設置スペースを節約するためには、付加的な装置が搭載されない方がよい。そこで、第8の実施の形態に従うマイクシステム100Gは、自身に搭載されているマイクアレイ1からの音声信号に基づいて、目的音方向およびノイズ音方向を検出する。
[概要]
第7の実施の形態に従うマイクシステム100Fは、外部装置20によって目的音方向およびノイズ音方向を検出していた。しかしながら、コストや設置スペースを節約するためには、付加的な装置が搭載されない方がよい。そこで、第8の実施の形態に従うマイクシステム100Gは、自身に搭載されているマイクアレイ1からの音声信号に基づいて、目的音方向およびノイズ音方向を検出する。
以下では、図17および図18を参照して、第8の実施の形態に従うマイクシステム100Gについて説明する。図17は、マイクシステム100Gの機能構成の一例を示すブロック図である。図18は、後述する位置情報25の内容を示した図である。
図17に示されるように、マイクシステム100GのCPU50は、検出部5と、マイクアレイ制御部6と、特定部7と、補正部8A,8Bと、除去部9と、出力部10と、音源検出部23とを含む。なお、音源検出部23以外の構成(すなわち、検出部5、マイクアレイ制御部6、特定部7、補正部8A,8B、除去部9、および出力部10)については、図4に示される構成と同じであるので説明を繰り返さない。
マイクアレイ1に対する音源の位置に応じて、マイク2〜4の各々が音声信号を出力するタイミングに差が生じる。このことに着目して、音源検出部23は、マイク2〜4の各々から出力される音声信号の時間差に基づいて、マイクアレイ1に対する音源(すなわち、集音対象および非集音対象)の位置を特定し、当該位置から音源の方向を特定する。
より具体的には、音源検出部23は、マイク2〜4から出力される音声信号の時間差と、マイクアレイ1に対する音源位置とを遅延時間別に互いに対応付けている位置情報25(図18参照)に基づいて音源位置を特定する。図18に示される位置情報25は、マイク2〜4の間隔が100ミリメートル、音速が340ミリメートル毎秒である前提で作成されたデータテーブルとして示される。位置情報25に示される音声信号の時間差には、音声信号が最初に検出されたマイクを基準(すなわち、「0.00」)として、基準のマイクに対する他のマイク出力の遅延時間が示されている。遅延時間の単位は、たとえば、ミリ秒である。
また、位置情報25に示される音源の位置は、3個のマイク2〜4の配置方向に対するマイク2からの距離を示す座標Xと、マイクアレイ1から音源までの距離を示す座標Yとで定義される。座標Xは、マイクアレイ1の左側がプラス、右側がマイナスとして定義される。角度は、マイクアレイ1の中心を回転中心、マイクアレイ1の正面方向を0度として、時計回り方向をプラスとして定義される。角度の単位は、たとえば、度である。
音源検出部23は、マイク2〜4のいずれから出力される音声信号の出力レベルが予め定められたレベル以上になったことに基づいて時間の計測を開始し、他のマイクから出力される音声信号の出力レベルが予め定められたレベル以上になるまでの時間を音声信号間の時間差として計測する。
たとえば、マイク2が最初に音声信号を出力し、その0.12ミリ秒後にマイク3が音声信号を出力し、さらにその0.36ミリ秒後にマイク4が音声信号を出力したとする。この場合、音源検出部23は、位置情報25の一行目を参照して、音源が+45度に存在することを検出する(点線37参照)。
なお、検出された時間差に等しい結果が位置情報25に含まれている場合は少ないので、実際には、音源検出部23は、位置情報25に示される複数の時間差のうち、検出した時間差に最も近い時間差を選択し、当該時間差に対応する角度を音源が存在する方向とする。
また、マイクアレイ1に対する音源の位置に応じて、マイク2〜4の各々から出力される音声信号の強度(たとえば、振幅)に差が生じる。このことに着目して、音源検出部23は、音声信号の遅延時間の代わりに、マイク2〜4の各々から出力される音声信号の強度の差を用いて、マイクアレイ1に対する音源(すなわち、集音対象および非集音対象)の位置を特定してもよい。
[小括]
以上のようにして、本実施の形態に従うマイクシステム100Gは、音源を検出するための装置を新たに付加することなく、マイクアレイから出力される音声信号から音源の位置を特定することが可能になる。また、マイクシステム100Gは、任意のタイミングで音源の位置を特定することができるので、音源の位置が変わるような場合であっても、目的音声信号からノイズ成分を正確に除去することができる。
以上のようにして、本実施の形態に従うマイクシステム100Gは、音源を検出するための装置を新たに付加することなく、マイクアレイから出力される音声信号から音源の位置を特定することが可能になる。また、マイクシステム100Gは、任意のタイミングで音源の位置を特定することができるので、音源の位置が変わるような場合であっても、目的音声信号からノイズ成分を正確に除去することができる。
今回開示された実施の形態は全ての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内での全ての変更が含まれることが意図される。
1 マイクアレイ、2〜4,11〜17 マイク、5 検出部、6 マイクアレイ制御部、7,7A,7B 特定部、8,8A,8B 補正部、9 除去部、10 出力部、18 比較部、19 選択部、20 外部装置、21 音源検出装置、22 音源検出制御器、23 音源検出部、25 位置情報、31〜37 点線、50 CPU、100,100A〜100G マイクシステム、F,NA6,NA7,NL4,NL5,NR4,NR5,SP4,SP6 周波数データ、L 距離、MMC,MMC2,MML,MML2,MMR,MMR2,PPADD,PPC,PPC2,PPL,PPL2,PPR,PPR2,PPSAD,PPSUB 指向特性、N,N1,N2 非集音対象、nl,NL3,NR3,SP3 ノイズ音信号、NL2 信号、SP 集音対象、sp,SP3,SP4 目的音信号、X,Y 座標、f,f1,f2 音声信号、fa〜fd 周波数帯域。
Claims (8)
- 複数のマイクを含むマイクアレイを備え、前記マイクアレイは、前記複数のマイクのそれぞれから出力される音声信号を用いて、当該マイクアレイに対して非集音対象が存在する第1方向に指向性を有する第1音声信号と、当該マイクアレイに対して集音対象が存在する第2方向に指向性を有する第2音声信号とを出力し、
前記マイクアレイへの音の入射角と、前記第1方向に指向性を有するときの前記マイクアレイの出力レベルとの対応関係を規定している第1指向特性に基づいて、音が前記第1方向から前記マイクアレイに入射した場合における前記マイクアレイの第1出力レベルを特定するための第1特定部と、
前記マイクアレイへの音の入射角と、前記第2方向に指向性を有するときの前記マイクアレイの出力レベルとの対応関係を規定している第2指向特性に基づいて、音が前記第1方向から前記マイクアレイに入射した場合における前記マイクアレイの第2出力レベルを特定するための第2特定部と、
前記第1出力レベルと前記第2出力レベルとの比率を用いて、前記第1出力レベルで出力される前記第1音声信号を前記第2出力レベルの新たな信号に補正するための補正部と、
前記第2音声信号から前記新たな信号を除去するための除去部とを備える、マイクシステム。 - 前記除去部は、前記第2音声信号の信号強度と前記新たな信号の信号強度とを予め定められた周波数帯域別に比較し、前記第2音声信号の信号強度が前記新たな信号の信号強度よりも小さい周波数帯域に対応する信号成分をノイズ成分として前記第2音声信号から除去する、請求項1に記載のマイクシステム。
- 前記第1指向特性には、前記マイクアレイへの音の入射角と、前記第1方向に指向性を有するときの前記マイクアレイの出力レベルとの対応関係が前記マイクアレイへの音の入射角別に規定され、
前記第2指向特性には、前記マイクアレイへの音の入射角と、前記第2方向に指向性を有するときの前記マイクアレイの出力レベルとの対応関係が前記マイクアレイへの音の入射角別に規定され、
前記第1特定部は、前記第1指向特性に規定されている複数の入射角のうち、前記第1方向から特定される入射角に最も近い入射角を選択し、選択した入射角に対応する出力レベルを前記第1出力レベルとして特定し、
前記第2特定部は、前記第2指向特性に規定されている複数の入射角のうち、前記第2方向から特定される入射角に最も近い入射角を選択し、選択した入射角に対応する出力レベルを前記第2出力レベルとして特定する、請求項1または2に記載のマイクシステム。 - 前記第1指向特性には、前記マイクアレイの音の入射角と、音の周波数と、前記第1方向に指向性を有するときの前記マイクアレイの出力レベルとの対応関係が、前記マイクアレイへの音の入射角別、および音の周波数別に規定され、
前記第2指向特性には、前記マイクアレイの音の入射角と、音の周波数と、前記第2方向に指向性を有するときの前記マイクアレイの出力レベルとの対応関係が、前記マイクアレイへの音の入射角別、および音の周波数別に規定され、
前記第1特定部は、前記第1指向特性に規定されている複数の入射角のうち、前記第1方向から特定される入射角に最も近い入射角を選択し、前記第1指向特性に規定されている複数の周波数のうち、前記第1音声信号の周波数に最も近い周波数を選択し、選択した入射角と周波数とに対応する出力レベルを前記第1出力レベルとして特定し、
前記第2特定部は、前記第2指向特性に規定されている複数の入射角のうち、前記第2方向から特定される入射角に最も近い入射角を選択し、前記第2指向特性に規定されている複数の周波数のうち、前記第2音声信号の周波数に最も近い周波数を選択し、選択した入射角と周波数とに対応する出力レベルを前記第2出力レベルとして特定する、請求項3に記載のマイクシステム。 - 前記マイクシステムは、前記マイクアレイに対する前記非集音対象の位置を検出し、当該位置から前記第1方向を検出するための音源検出部をさらに備える、請求項1〜4のいずれか1項に記載のマイクシステム。
- 前記音源検出部は、前記第1音声信号および前記第2音声信号の間の時間差と、前記第1音声信号および前記第2音声信号の間の信号強度の差の少なくとも一方を用いて前記マイクシステムに対して前記非集音対象が存在する前記位置を検出する、請求項5に記載のマイクシステム。
- 音に含まれるノイズを除去するための方法であって、
マイクアレイに対して非集音対象が存在する第1方向に指向性を有する第1音声信号と、当該マイクアレイに対して集音対象が存在する第2方向に指向性を有する第2音声信号とを受け付けるステップと、
前記マイクアレイへの音の入射角と、前記第1方向に指向性を有するときの前記マイクアレイの出力レベルとの対応関係を規定している第1指向特性に基づいて、音が前記第1方向から前記マイクアレイに入射した場合における前記マイクアレイの第1出力レベルを特定するステップと、
前記マイクアレイへの音の入射角と、前記第2方向に指向性を有するときの前記マイクアレイの出力レベルとの対応関係を規定している第2指向特性に基づいて、音が前記第1方向から前記マイクアレイに入射した場合における前記マイクアレイの第2出力レベルを特定するステップと、
前記第1出力レベルと前記第2出力レベルとの比率を用いて、前記第1出力レベルで出力される前記第1音声信号を前記第2出力レベルの新たな信号に補正するステップと、
前記第2音声信号から前記新たな信号を除去するステップとを備える、方法。 - コンピュータにおいて実行されるプログラムであって、
前記プログラムは、前記コンピュータに、
マイクアレイに対して非集音対象が存在する第1方向に指向性を有する第1音声信号と、当該マイクアレイに対して集音対象が存在する第2方向に指向性を有する第2音声信号とを受け付けるステップと、
前記マイクアレイへの音の入射角と、前記第1方向に指向性を有するときの前記マイクアレイの出力レベルとの対応関係を規定している第1指向特性に基づいて、音が前記第1方向から前記マイクアレイに入射した場合における前記マイクアレイの第1出力レベルを特定するステップと、
前記マイクアレイへの音の入射角と、前記第2方向に指向性を有するときの前記マイクアレイの出力レベルとの対応関係を規定している第2指向特性に基づいて、音が前記第1方向から前記マイクアレイに入射した場合における前記マイクアレイの第2出力レベルを特定するステップと、
前記第1出力レベルと前記第2出力レベルとの比率を用いて、前記第1出力レベルで出力される前記第1音声信号を前記第2出力レベルの新たな信号に補正するステップと、
前記第2音声信号から前記新たな信号を除去するステップとを実行させる、プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014212735A JP2016082432A (ja) | 2014-10-17 | 2014-10-17 | マイクシステム、ノイズ除去方法、およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014212735A JP2016082432A (ja) | 2014-10-17 | 2014-10-17 | マイクシステム、ノイズ除去方法、およびプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2016082432A true JP2016082432A (ja) | 2016-05-16 |
Family
ID=55959384
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014212735A Pending JP2016082432A (ja) | 2014-10-17 | 2014-10-17 | マイクシステム、ノイズ除去方法、およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2016082432A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019161604A (ja) * | 2018-03-16 | 2019-09-19 | ヤマハ株式会社 | 音声処理装置 |
JP2021010118A (ja) * | 2019-07-01 | 2021-01-28 | 株式会社リコー | 集音ノイズ除去装置、集音ノイズ除去システム及び集音ノイズ除去方法 |
-
2014
- 2014-10-17 JP JP2014212735A patent/JP2016082432A/ja active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019161604A (ja) * | 2018-03-16 | 2019-09-19 | ヤマハ株式会社 | 音声処理装置 |
JP2021010118A (ja) * | 2019-07-01 | 2021-01-28 | 株式会社リコー | 集音ノイズ除去装置、集音ノイズ除去システム及び集音ノイズ除去方法 |
JP7338270B2 (ja) | 2019-07-01 | 2023-09-05 | 株式会社リコー | 集音ノイズ除去装置、集音ノイズ除去システム及び集音ノイズ除去方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020108614A1 (zh) | 音频识别方法、定位目标音频的方法、装置和设备 | |
JP5672770B2 (ja) | マイクロホンアレイ装置及び前記マイクロホンアレイ装置が実行するプログラム | |
JP4990981B2 (ja) | マイクロホンを用いた雑音抽出装置 | |
US20110158426A1 (en) | Signal processing apparatus, microphone array device, and storage medium storing signal processing program | |
EP3905718B1 (en) | Sound pickup device and sound pickup method | |
KR20090037692A (ko) | 혼합 사운드로부터 목표 음원 신호를 추출하는 방법 및장치 | |
US9699549B2 (en) | Audio capturing enhancement method and audio capturing system using the same | |
CN107121669B (zh) | 声源探测装置、声源探测方法及非瞬时性记录介质 | |
KR20090037845A (ko) | 혼합 신호로부터 목표 음원 신호를 추출하는 방법 및 장치 | |
JP6411780B2 (ja) | オーディオ信号処理回路、その方法、それを用いた電子機器 | |
JP6048596B2 (ja) | 集音装置、集音装置の入力信号補正方法および移動機器情報システム | |
JP6849055B2 (ja) | 収音装置および収音方法 | |
JP6226885B2 (ja) | 音源分離方法、装置、及びプログラム | |
JP2016082432A (ja) | マイクシステム、ノイズ除去方法、およびプログラム | |
JP7158976B2 (ja) | 収音装置、収音プログラム及び収音方法 | |
US9319788B2 (en) | Sound processing device, and sound processing method | |
JP6863004B2 (ja) | 収音装置、プログラム及び方法 | |
JP6638248B2 (ja) | 音声判定装置、方法及びプログラム、並びに、音声信号処理装置 | |
WO2019073234A1 (en) | REPRODUCTIVE ATTACK DETECTION | |
JP6763319B2 (ja) | 非目的音判定装置、プログラム及び方法 | |
CN107889022B (zh) | 噪音抑制装置以及噪音抑制方法 | |
JP6533134B2 (ja) | マイクシステム、音声認識装置、音声処理方法、および音声処理プログラム | |
JP6631127B2 (ja) | 音声判定装置、方法及びプログラム、並びに、音声処理装置 | |
JP6903947B2 (ja) | 非目的音抑圧装置、方法及びプログラム | |
JP6361360B2 (ja) | 残響判定装置及びプログラム |