JP2009239500A

JP2009239500A - マイクロホン装置

Info

Publication number: JP2009239500A
Application number: JP2008081370A
Authority: JP
Inventors: Shoji Onofuji; 祥司尾野藤
Original assignee: Brother Industries Ltd
Current assignee: Brother Industries Ltd
Priority date: 2008-03-26
Filing date: 2008-03-26
Publication date: 2009-10-15

Abstract

【課題】マイクロホンと遅延部との間のバッファを削減することができるマイクロホン装置を提供する。
【解決手段】出力信号を生成するために用いる第１マイクロホン１０ａ，１０ｂとは別に、音源方向を判定するための第２マイクロホン１４ａ，１４ｂを設け、第１マイクロホン１０ａ，１０ｂよりも音源Ａに近い位置に第２マイクロホン１４ａ，１４ｂを設ける。そして、第１マイクロホン１０ａ，１０ｂに音源Ａからの音が到達する前に、音源の方向を判定し、この判定結果に基づいて、遅延部１２ａ，１２ｂの遅延時間を設定する。
【選択図】図１

Description

本発明は、マイクロホン装置に関する。さらに詳細には、音源に対する感度を高めた遅延和アレー型のマイクロホン装置に関する。

従来より、人の発する音をマイクロホンで集音して発話内容を認識する音声認識装置や、マイクロホンとスピーカにより拡声通話形態で遠隔地間での会話を可能とする遠隔会議装置などが広く知られている。

このように音声を処理する装置においては、集音器であるマイクロホンが発話者から離れた位置にあるときでも、発話者の音声を高品質で受音することが望ましい。

そこで、発話者から離れた位置にあるマイクロホンでも発話者の音声を高音質に受音する技術として、遅延和アレーがある（例えば、特許文献１参照）。この技術は、音源から発せられる音を複数のマイクロホンのそれぞれで集音し、これらのマイクロホンで各々得られた音響信号を、音源の方向に基づいた遅延量で遅延させて同位相化し加算することで、音源の方向から到達する音を強調し、音源に対する感度を高めるものである。

図６に従来の遅延和アレー型のマイクロホン装置の概略構成を示す。同図に示すように、従来のマイクロホン装置１００は、マイクロホン１０１ａ，１０１ｂと、アナログデジタル変換器（Ａ／Ｄ）１０２ａ，１０２ｂと、ＦＩＦＯ（First In First Out）１０３ａ，１０３ｂと、バッファ（ＢＵＦ）１０４ａ，１０４ｂと、遅延部１０５ａ,１０５ｂと、加算部１０６と、音源方向判定部１１０と、遅延時間設定部１１１とを有している。また、音源方向判定部１１０には、メモリ（ＭＥＭ）１２０ａ，１２０ｂと、判定手段１２１とが設けられる。なお、以下においては、マイクロホン１０１ａ，１０１ｂのうちの任意の一つをマイクロホン１０１とし、遅延部１０５ａ,１０５ｂのうち任意の一つを遅延部１０５とする。

音源Ａから発せられる音は複数のマイクロホン１０１ａ，１０１ｂで集音され、このマイクロホン１０１ａ，１０１ｂでそれぞれ集音レベルに応じた電気的なアナログ信号（以下、「アナログ音響信号」とする。）に変換される。各アナログ音響信号はアナログデジタル変換器１０２ａ，１０２ｂでそれぞれデジタル信号（以下、「デジタル音響信号」とする。）に変換され、ＦＩＦＯ１０３ａ、１０３ｂを介して、バッファ１０４ａ，１０４ｂと音源方向判定部１１０のメモリ１２０ａ，１２０ｂとに入力される。

音源方向判定部１１０の判定手段１２１は、メモリ１２０ａ，１２０ｂに蓄積されたデジタル音響信号の情報に基づいて複数のマイクロホン１０１ａ，１０１ｂから出力される各アナログ音響信号の位相差（時間ずれ）を検出し、当該位相差から音源Ａの方向（音源Ａのマイクロホン１０１ａ，１０１ｂに対する方向）を判定する。なお、メモリ１２０ａ，１２０ｂには、判定手段１２１によりアナログ音響信号の位相差を検出するために必要な数だけデジタル音響信号の情報を記憶する記憶容量を有している。

遅延時間設定部１１１は、音源方向判定部１１０によって判定された音源Ａの方向に基づいて、複数の遅延部１０５ａ,１０５ｂの各々の遅延時間を決定し、当該決定した遅延時間を複数の遅延部１０５ａ,１０５ｂに設定する。これにより、音源Ａから発せられる音がマイクロホン１０１ａとマイクロホン１０１ｂとに到達するまでの時間差分だけの遅延処理が行われる。すなわち、音の到達時間が早いマイクロホン１０１に対応するデジタル音響信号がその時間差分だけ遅延部１０５により遅延される。その結果、各マイクロホン１０１ａ，１０１ｂに対応するデジタル音響信号が同位相化される。

そして、遅延部１０５ａ,１０５ｂを介して同位相化されたデジタル音響信号を加算部１０６により加算することで、音源Ａの方向から到達する音を強調した強調信号を出力するようにしている。
特開２００１−３１３９９２号公報

しかしながら、上記従来の遅延和アレー型のマイクロホン装置１００においては、音源方向判定部１１０による音源方向判定処理に時間を要し、その時間分だけデジタル音響信号の情報をバッファ１０４ａ，１０４ｂに蓄積させていた。

これは、音源Ａの方向が変動した場合でも感度を低減させないために、音源方向判定部１１０で判定するために使用した音響信号と同等のタイミングでマイクロホン１０１により得られた音響信号を用いているからである。

しかし、バッファ１０４ａ，１０４ｂとして大きな記憶容量が必要であり、小型化やコスト面での課題があった。

そこで、本発明は、マイクロホンと遅延部との間のバッファを削減することができる遅延和アレー型のマイクロホン装置及びそれを備えた音声認識装置を提供することを目的とする。

上記目的を達成するために、請求項１に記載の発明は、音源から発せられる音を集音する複数の第１マイクロホンと、前記複数の第１マイクロホンから出力される音響信号を各々独立な遅延時間で遅延可能な複数の遅延部と、前記複数の遅延部から出力される各遅延信号を加算して出力する加算部と、前記複数の第１マイクロホンよりも前記音源に近い位置に配置され、前記音源から発せられる音を集音する複数の第２マイクロホンと、前記複数の第２マイクロホンで各々得られた音響信号に基づいて、前記音源の方向を判定する音源方向判定部と、前記音源方向判定部によって判定された前記音源の方向に基づいて、前記複数の遅延部の各々の遅延時間を決定し、当該決定した遅延時間を前記複数の遅延部に設定する遅延時間設定部とを備えたマイクロホン装置を提供するものである。

請求項２に記載の発明は、請求項１に記載の発明において、前記複数の第１マイクロホンは第１直線上に、前記複数の第２マイクロホンは第２直線上にそれぞれ配置され、前記第１直線と前記第２直線とが平行となる関係であることを特徴とする。

請求項３に記載の発明は、請求項１又は請求項２に記載の発明において、前記複数の第１マイクロホンは、２つのマイクロホンで構成され、前記複数の第２マイクロホンは、２つのマイクロホンで構成されたことを特徴とする。

請求項４に記載の発明は、請求項３に記載の発明において、前記第２マイクロホン同士の間隔を、前記第１マイクロホン同士の間隔よりも大きくしたことを特徴とする。

請求項５に記載の発明は、請求項１〜４のいずれか１項に記載のマイクロホン装置と、前記マイクロホン装置からの出力信号に基づいて音声認識を行う音声認識部と、を備えた音声認識装置とした。

請求項１に記載の発明によれば、マイクロホンと遅延部との間のバッファを削減することができる遅延和アレー型のマイクロホン装置を提供することができる。

また、請求項２に記載の発明によれば、第２マイクロホン同士を結ぶ直線と、第１マイクロホン同士を結ぶ直線とが平行である関係であるため、複数の第１マイクロホンに対する音源方向と、複数の第２マイクロホンに対する音源方向とが同じになり、遅延時間の換算が容易になる。

また、請求項３に記載の発明によれば、第１マイクロホン及び第２マイクロホンの数をそれぞれ２つとしたため、簡単な構成で音源への感度を高めることができる。

また、請求項４に記載の発明によれば、第２マイクロホン同士の間隔を、第１マイクロホン同士の間隔よりも大きくしたので、指向性を広くすることができる。

請求項５に記載の発明によれば、マイクロホンと遅延部との間のバッファを削減することができる遅延和アレー型のマイクロホン装置を備えた音声認識装置を提供することができる。

以下、本発明にかかるマイクロホン装置及びそれを備えた音声認識装置の一実施形態について説明する。

［１．マイクロホン装置の概要］
本実施形態におけるマイクロホン装置は、音源から発せられる音を集音する複数の第１マイクロホンと、これらの第１マイクロホンから出力される音響信号を各々独立な遅延時間で遅延可能な複数の遅延部と、これらの遅延部から出力される各遅延信号を加算して出力する加算部とを備えている。

また、音源の方向に基づいて、複数の遅延部の各々の遅延時間を決定し、当該決定した遅延時間を複数の遅延部に設定する遅延時間設定部を備えている。遅延時間設定部で設定する遅延時間は、音源Ａから発せられる音が各マイクロホンに到達する時間のずれ分（以下、「時間ずれ」とする。）に基づいて設定される。例えば、第１マイクロホンとして、２つのマイクロホンがあるとき、これらのマイクロホンの間で音源から到達する音の時間ずれΔｔａがあると、音源からの音の到達が早いマイクロホンの音響信号が入力される遅延部にΔｔａが設定される。その結果、これらのマイクロホンから出力されるアナログ音響信号に対応するデジタル音響信号が同位相化され、遅延部から出力される。そして、加算部によってこのように同位相化されたデジタル音響信号が加算されて、音源が発する音が強調された信号（以下、「強調信号」とする。）が出力される。

しかも、本実施形態におけるマイクロホン装置では、複数の第１マイクロホンよりも音源に近い位置に配置され、音源から発せられる音を集音する複数の第２マイクロホンと、複数の第２マイクロホンで各々得られた音響信号に基づいて、音源の方向を判定する音源方向判定部とを備えている。

従って、複数の第１マイクロホンに音源から発せられた特定の音（以下、「音Ｂ」とする。）が到達する前に、複数の第２マイクロホンで音源からの音Ｂが集音される。このように集音した音Ｂに基づいて、音源方向判定部により、音Ｂを発したタイミングの音源の方向が判定される。

その結果、複数の第１マイクロホンに音源からの音Ｂが到達する前に、音Ｂを発したタイミングの音源の方向を判定することが可能となり、発話者の音声を強調して出力しつつも、第１マイクロホンと遅延部との間のバッファを削減することができる。

なお、第１マイクロホンと第２マイクロホンとの間隔を十分離して配置できないときや音源の方向によっては、第２マイクロホンで集音した音Ｂに基づいて音源の方向を特定した時に、第１マイクロホンでは音Ｂの次に音源から発せられた音（以下、「音Ｃ」とする。）が既に集音されていることも考えられる。このときは、音Ｂを発したタイミングの音源の方向に基づいて、音Ｃの強調信号が出力されることになる。しかしながら、第１マイクロホンと第２マイクロホンとを一直線上に並べて同様の処理をした時よりも、第１マイクロホンで集音した音を発した音源への方向に近い方向で、強調信号を出力することができる。

このマイクロホン装置は、音声認識装置やテレビ会議装置などの各種の音声処理装置で利用することができる。

［２．マイクロホン装置の具体例］
次に、本実施形態におけるマイクロホン装置の具体例を図面を参照して説明する。図１は本実施形態におけるマイクロホン装置の構成図、図２は音源に対する第１マイクロホン及び第２マイクロホンの位置関係を示す図、図３は音源に対する最大検出範囲を説明するための図、図４は音源方向と第１マイクロホン及び第２マイクロホンの位置関係を示す図である。

図１に示すように、本実施形態のマイクロホン装置１は、第１マイクロホン１０ａ，１０ｂと、アナログ／デジタル変換器（Ａ／Ｄ）１１ａ，１１ｂと、遅延部１２ａ，１２ｂと、加算器１３とを備えている。

第１マイクロホン１０ａ，１０ｂは、音源Ａから発せられる音を集音して電気的なアナログ信号（以下、「アナログ音響信号」とする。）Ｓ１ａ，Ｓ１ｂに変換して出力するものであり、これらの第１マイクロホン１０ａ，１０ｂは、所定間隔を有して配置される。

各第１マイクロホン１０ａ，１０ｂから出力されるアナログ音響信号Ｓ１ａ，Ｓ１ｂは、アナログ／デジタル変換器１１ａ，１１ｂによりデジタル信号（以下、「デジタル音響信号」とする。）Ｓ２ａ，Ｓ２ｂに変換されて出力される。

ここで、マイクロホン装置１では、音源Ａの発する音として発話者の音声を対象としており、アナログ／デジタル変換器１１ａ，１１ｂは、例えば、４４．１ｋＨｚでアナログ音響信号Ｓ１ａ，Ｓ１ｂをサンプリングして、デジタル音響信号Ｓ２ａ，Ｓ２ｂを生成する。

このように生成されたデジタル音響信号Ｓ２ａ，Ｓ２ｂは、それぞれ遅延部１２ａ，１２ｂへ入力される。遅延部１２ａ，１２ｂは、それぞれ独立な遅延時間で遅延可能な遅延部であり、リングバッファなどから構成される。遅延部１２ａ，１２ｂは、設定された遅延時間だけデジタル音響信号Ｓ２ａ，Ｓ２ｂを遅延させた信号（以下、「遅延信号」とする。）Ｓ３ａ，Ｓ３ｂを出力する。

例えば、音源Ａの発する音が一方の第１マイクロホン１０ａに到達してからΔｔａ経過して他方の第１マイクロホン１０ｂに到達するとき、遅延部１２ａに遅延時間Δｔａが設定され、遅延部１２ａに遅延時間０が設定される。このような遅延時間が遅延部１２ａ，１２ｂに設定されたとき、デジタル音響信号Ｓ２ａは遅延部１２ａにより遅延時間Δｔａだけ遅延されて遅延信号Ｓ３ａとして出力され、デジタル音響信号Ｓ２ｂは遅延部１２ｂにより遅延なしで遅延信号Ｓ３ｂとして出力される。

従って、音源Ａの発する音が第１マイクロホン１０ａ，１０ｂに到達する時間がずれたときに、遅延部１２ａ，１２ｂによって、その時間ずれが調整され、位相差のあるデジタル音響信号Ｓ２ａ，Ｓ２ｂが同位相化されて遅延信号Ｓ３ａ，Ｓ３ｂとして出力される。

そして、これらの遅延信号Ｓ３ａ、Ｓ３ｂは、加算器１３に入力されて加算されて出力される。上述のように遅延信号Ｓ３ａ、Ｓ３ｂは音源Ａの発する音に対して同位相化されて位相ずれがないことから、これらの遅延信号Ｓ３ａ、Ｓ３ｂを加算することにより、音源Ａの発する音が強調された信号（以下、「強調信号」とする。）Ｓ４が生成される。

ここで、本実施形態のマイクロホン装置１は、遅延部１２ａ，１２ｂへの遅延時間の設定を行うために、第２マイクロホン１４ａ，１４ｂと、アナログ／デジタル変換器（Ａ／Ｄ）１５ａ，１５ｂと、ＦＩＦＯ（First In First Out）１６ａ，１６ｂと、音源方向判定部１７と、遅延時間設定部１８とを有している。

上述した従来のマイクロホン装置１００では、強調信号を生成するために音源からの音を集音するマイクロホンと音源方向を判定するために音源からの音を集音するマイクロホンとを同一のマイクロホン１０１ａ，１０１ｂとしていたが、本実施形態のマイクロホン装置１ではそれぞれ別個のマイクロホンを用いることとしている。

すなわち、強調信号Ｓ４を生成するために音源Ａからの音を集音する第１マイクロホン１０ａ，１０ｂとは別に、音源方向θを判定するために音源Ａからの音を集音する第２マイクロホン１４ａ，１４ｂを設けている。

図２は音源Ａに対する第１マイクロホン１０ａ，１０ｂ及び第２マイクロホン１４ａ，１４ｂの位置関係を示す図である。同図に示すように、第２マイクロホン１４ａ，１４ｂは、音源Ａの発する音が第１マイクロホン１０ａ，１０ｂよりも早く到達するように、第１マイクロホン１０ａ，１０ｂよりも音源Ａに近い位置に配置される。

従って、第１マイクロホン１０ａ，１０ｂに音源Ａからの音が到達する前（図２に示す例では、音源Ａからの音の波面位置ａ３に到達する前）に、複数の第２マイクロホン１４ａ，１４ｂで音源Ａからの音の波面位置ａ１，ａ２でそれぞれ集音される。このように集音した音の第２マイクロホン１４ａ，１４ｂ間の時間ずれ（音源Ａからの音が波面位置ａ１から波面位置ａ２へ到達する時間）が音源方向判定部１７により検出され、これにより音源方向θが判定される。

その結果、複数の第１マイクロホン１０ａ，１０ｂに音源Ａからの音が到達する前に、音源Ａの方向を判定することが可能となり、第１マイクロホン１０ａ，１０ｂと遅延部１２ａ，１２ｂとの間のバッファを削減することができる。

ここで、第２マイクロホン１４ａ，１４ｂ同士を結ぶ直線と、第１マイクロホン１０ａ，１０ｂ同士を結ぶ直線とが平行である関係とし、第２マイクロホン１４ａ，１４ｂ同士の間隔を、第１マイクロホン１０ａ，１０ｂ同士の間隔よりも大きくしたとする。このとき、図３に示すように、第２マイクロホン１４ａと第１マイクロホン１０ｂとを結ぶ線と第２マイクロホン１４ａ，１４ｂ同士を結ぶ線とがなす角をαとすると、第１マイクロホン１０ａ，１０ｂよりも早く第２マイクロホン１４ａ，１４ｂに到達する音源方向の最大範囲はπ−２αとなる。

このように第１マイクロホン１０ａ，１０ｂ及び第２マイクロホン１４ａ，１４ｂを配置することで、第１マイクロホン１０ａ，１０ｂに音源Ａからの音が到達する前に、複数の第２マイクロホン１４ａ，１４ｂで音源Ａからの音を集音することができる。

ここで、第２マイクロホン１４ａ，１４ｂは、互いに所定間隔を有して配置され、音源Ａから発せられる音を集音してアナログ音響信号Ｓ５ａ，Ｓ５ｂに変換して出力する。そして、各第２マイクロホン１４ａ，１４ｂから出力されるアナログ音響信号Ｓ５ａ，Ｓ５ｂは、アナログ／デジタル変換器１５ａ，１５ｂによりデジタル音響信号Ｓ６ａ，Ｓ６ｂに変換されて出力される。

このように生成されたデジタル音響信号Ｓ６ａ，Ｓ６ｂは、ＦＩＦＯ１６ａ、１６ｂを介して、順次音源方向判定部１７にデジタル音響信号Ｓ７ａ，Ｓ７ｂとして入力される。なお、このＦＩＦＯ１６ａ，１６ｂは、アナログ／デジタル変換器１５ａ，１５ｂと音源方向判定部１７の動作タイミングの相違を調整するために設けられるものである。

音源方向判定部１７は、メモリ（ＭＥＭ）２０ａ，２０ｂ及び判定手段２１を有し、音源方向θを判定する。

メモリ２０ａ，２０ｂには、アナログ／デジタル変換器１５ａ，１５ｂから出力されるデジタル音響信号のうち最新のデジタル音響信号の信号レベルの情報を所定数Ｎ（例えば、２５６個とする）以上記憶しており、アナログ／デジタル変換器１５ａ，１５ｂから出力されるデジタル音響信号をＦＩＦＯ１６ａ，１６ｂを介して順次記憶する。

第２マイクロホン１４ａ，１４ｂ同士の間隔及び音速は既知であり、音源方向判定部１７の判定手段２１は、これらの情報とデジタル音響信号Ｓ７ａ，Ｓ７ｂとに基づいて音源方向θを判定している。

以下、音源方向判定部１７の判定手段２１による音源方向θの判定処理について、具体的に説明する。

第２マイクロホン１４ａ側のデジタル音響信号Ｓ７ａの信号レベルをＸ₁(ｉ)、第２マイクロホン１４ｂ側のデジタル音響信号Ｓ７ｂの信号レベルをＸ₂（ｉ)とすると、音源Ａからの音に対する２つの第２マイクロホン１４ａ，１４ｂによる集音の時間ずれτは以下の式（１），（２）から導き出すことができる。なお、０≦ｊ≦Ｎ−１（ｊは整数）、０≦ｉ≦Ｎ−１（ｉは整数）であり、最新のデジタル音響信号をｉ＝０，ｊ＝０とし、メモリ２０ａ，２０ｂに記憶したＮ個のデジタル音響信号のうち最も古いデジタル音響信号をｉ＝Ｎ−１，ｊ＝Ｎ−１とする。

判定手段２１は、まず、上記式（１）による演算を行う。すなわち、判定手段２１は、メモリ２０ａから所定のＸ₁(ｉ)を取り出し、また、メモリ２０ｂからＸ₂(０)〜Ｘ₂(Ｎ−１)を取り出す。そして、判定手段２１は、所定のＸ₁(ｉ)に対して、Ｘ₂(０)〜Ｘ₂(Ｎ−１)をそれぞれ積算した値の和を演算する。判定手段２１は、この処理を、メモリ２０ａに記憶したＸ₁(０)〜Ｘ₁（Ｎ−１）のすべてについて行う。

次に、判定手段２１は、式（２）に示すように、Ｒ_X1X2（０）〜Ｒ_X1X2（Ｎ−１）までのうち、最も値が大きいもの（以下、「最大値Ｒ_X1X2（γ）」とする）を判定する。

ここで、アナログ／デジタル変換器１５ａ，１５ｂのサンプリング周波数を４４．１ｋＨｚとすると、１サンプリング当たり２２．６７６μｓとなる。一方で、上記判定したγは、時間ずれをサンプリング数で表したものとなる。そこで、音源方向判定部１７の判定手段２１は、下記式（３）の演算を行うことで、時間ずれτを検出している。

次に、判定手段２１は、音源Ａに対する第２マイクロホン１４ａ，１４ｂ間の位置ずれＤ（図４参照）を演算する。音速をｃと規定すると、位置ずれＤは、下記式（４）に示すように、時間ずれτに音速ｃを積算したものとなり、判定手段２１は、この式（４）に基づいた演算を行う。

次に、判定手段２１は、音源方向θを判定する。音源方向θ、位置ずれＤ、第２マイクロホン１４ａ，１４ｂ間の距離Ｌ０の関係は、下記式（５）に示す関係であり判定手段２１は、この式（５）に基づいた演算を行う。

このように判定手段２１では、第２マイクロホン１４ａ，１４ｂの出力に基づいて音源方向θを判定するようにしており、この音源方向θの情報は、遅延時間設定部１８へ通知される。

遅延時間設定部１８は、遅延量テーブルが設定されており、音源方向判定部１７から通知される音源方向θの情報に基づいて、遅延部１２ａ，１２ｂへの遅延時間を決定する。この遅延量テーブルは、音源方向θのそれぞれの値に対して、遅延部１２ａ，１２ｂへの遅延時間がそれぞれ関係づけられたテーブルであり、下記式（６）〜（８）に基づいて、演算される位置ずれＤｉｆｆに基づいた遅延時間が設定される。なお、この位置ずれＤｉｆｆは、図４に示すように、音源Ａに対する第１マイクロホン１０ａ，１０ｂ間の位置ずれである。

ここで、第１マイクロホン１０ａ，１０ｂ同士を結ぶ線と第２マイクロホン１４ａ，１４ｂ同士を結ぶ線とが平行であり、音源方向θが＋３０°、距離Ｌ１が１０ｃｍのとき、距離Ｄｉｆｆは５ｃｍとなる。また、アナログ／デジタル変換器１１ａ，１１ｂのサンプリング周波数が４４．１ｋＨｚであり、音速を３４０ｍ／ｓとすると、１サンプリング期間は２２．６７６μｓとなり、１サンプリング期間での音源Ａからの音の進行距離は、７．７１０ｍｍとなる。従って、遅延時間としては、５／０．７７１＝６．４サンプリング時間となる。

このとき、遅延時間設定部１８は、音源Ａからの音が早く到達する第１マイクロホン１０ａ側のデジタル音響信号Ｓ２ａを遅延させる遅延部１２ａに遅延時間として６．４サンプリング時間を設定する。一方、第１マイクロホン１０ｂ側のデジタル音響信号Ｓ２ｂを遅延させる遅延部１２ｂの遅延時間として０サンプリング時間を設定する。

そして、各遅延部１２ａ，１２ｂはこのように設定された遅延時間に応じてデジタル音響信号Ｓ２ａ，Ｓ２ｂを遅延させて、遅延信号Ｓ３ａ，Ｓ３ｂとして加算部１０６に出力する。この遅延信号Ｓ３ａ，Ｓ３ｂは音源Ａの発する音に対して同位相化されて互いに位相が一致した信号であり、加算部１０６により、これらの遅延信号Ｓ３ａ、Ｓ３が加算され、音源Ａからの音が強調された強調信号Ｓ４が生成される。

ところで、複数の第１マイクロホン１０ａ，１０ｂは第１直線上に、複数の第２マイクロホン１４ａ，１４ｂは第２直線上にそれぞれ配置され、この第１直線と第２直線とが平行となる関係であることが望ましい。例えば、図４に示すように、第２マイクロホン１４ａ，１４ｂ同士を結ぶ直線と、第１マイクロホン１０ａ，１０ｂ同士を結ぶ直線とが平行である関係とする。このようにすることで、複数の第１マイクロホン１０ａ，１０ｂに対する音源方向θと、複数の第２マイクロホン１４ａ，１４ｂに対する音源方向θとが同じになるので、遅延時間の換算が容易になる。

また、第２マイクロホン１４ａ，１４ｂ同士の間隔を、第１マイクロホン１０ａ，１０ｂ同士の間隔よりも大きくすることが望ましい。第１マイクロホン１０ａ，１０ｂ同士の間隔よりも第２マイクロホン１４ａ，１４ｂ同士の間隔が狭いときには、指向性が狭くなってしまうからである。

広い指向性が必要な場合、第２マイクロホン１４ａ，１４ｂ同士の間隔を第１マイクロホン１０ａ，１０ｂ同士の間隔よりも大きくし、さらに、第１マイクロホン１０ａ，１０ｂ同士がなす線と第２マイクロホン１４ａ，１４ｂ同士がなす線との間隔を大きくする。

また、上述においては、第１マイクロホン及び第２マイクロホンの数をそれぞれ２つとしたため、簡単な構成で音源Ａへの感度を高めたマイクロホン装置を製造することができる。

ここで、第２マイクロホン１４ａ，１４ｂ同士を結ぶ直線と、第１マイクロホン１０ａ，１０ｂ同士を結ぶ直線とが平行である関係とし、第２マイクロホン１４ａ，１４ｂ同士の間隔を、第１マイクロホン１０ａ，１０ｂ同士の間隔よりも大きくしたとする。このとき、図３に示すように、第２マイクロホン１４ａと第１マイクロホン１０ｂとを結ぶ線と第２マイクロホン１４ａ，１４ｂ同士を結ぶ線とがなす角をαとし、第２マイクロホン１４ａと第１マイクロホン１０ａとを結ぶ線と第２マイクロホン１４ａ，１４ｂ同士を結ぶ線とがなす角をβとしたとき、音源方向θ、角α及び角βは、以下の式（９），（１０）で規定される。従って、第１マイクロホン１０ａ，１０ｂよりも早く第２マイクロホン１４ａ，１４ｂに到達するように、音源方向θを調整するためには、下記式（９），（１０）を満たすように角α及び角βを変更することになる。

なお、第１マイクロホン１０ａ，１０ｂの数を２つとしたが、さらに多数のマイクロホンであってもよい。第１マイクロホンを多数設けることで多数の音響信号が加算され、音源方向θからの音がより強調された強調信号を出力することができるからである。また、第２マイクロホン１４ａ，１４ｂも同様に２つではなく、多数のマイクロホンであってもよい。それにより、平面の波面だけではなく、立体の波面に対しても対応することができる。

上述したように本実施形態におけるマイクロホン装置１では、強調信号を出力するために用いる複数の第１マイクロホンよりも音源に近い位置に複数の第２マイクロホンを設け、この第２マイクロホンで得られた音響信号に基づいて音源の方向を判定するようにしている。従って、複数の第１マイクロホンに音源からの音が到達する前に、音源の方向を判定することが可能となり、第１マイクロホンと遅延部との間のバッファを削減することができる。

［３．マイクロホン装置を適用した装置の例］
上述のマイクロホン装置１を適用した装置として、音声認識装置を備えた音声対話装置を例にとり図面を参照して説明する。図５は、音声認識装置を備えた音声対話装置の構成図である。この音声対話装置は、音声により利用者と対話を行うことにより、利用者が要求する情報やサービスを提供する装置である。

図５に示すように、音声対話装置３０は、制御部４１、記憶部４２、デコーダ部４３、画像処理部４４、表示装置４５、音声処理部４６、スピーカ４７、入力Ｉ／Ｆ（インターフェイス）部４８と、入力操作器４９、音声認識装置５０とを有している。なお、制御部４１、記憶部４２、デコーダ部４３、入力Ｉ／Ｆ部４８及び音声認識装置５０は、システムバス５１を介して相互に接続されている。

制御部４１は、ＣＰＵ（Central Processing Unit）、ＲＯＭ（Read Only Memory）及びＲＡＭ（Random Access Memory）から構成され、音声対話装置３０全体を制御する。

記憶部４２は、ハードディスク装置などによって構成され、利用者と対話するための対話シナリオなどを記憶する。

デコーダ部４３は、記憶部４２に記憶した対話シナリオに基づいた画像データや音声データをデコードする。このデコーダ部４３によってデコードされた画像データは、画像処理部４４により表示装置４５で表示可能な情報に変換処理され、表示装置４５に表示される。また、デコーダ部４３によってデコードされた音声データは、スピーカ４７で音波として出力可能な情報に音声処理部４６により変換処理され、スピーカ４７から出力される。

入力Ｉ／Ｆ部４８は、入力操作器４９へのユーザの操作を検出して、制御部４１へ通知する。制御部４１は、この入力操作に応じた処理を行う。

音声認識装置５０は、利用者の発する音声を認識するための装置であり、マイクロホン装置６０とマイクロホン装置６０からの出力信号に基づいて音声認識を行う音声認識部６１が設けられている。この音声認識装置５０は、制御部４１によってその稼動が制御される。そして、稼動状態の音声認識装置５０によって認識した利用者の発話内容を認識して文字情報として制御部４１へ通知する。

音声認識装置５０に用いるマイクロホン装置６０として、上述したマイクロホン装置１を適用することにより、利用者が発する音声に応じた信号であって、音源Ａの方向が変動した場合に感度の低減を抑制した信号を音声認識部６１に入力することができる。従って、利用者の発する音声を認識する割合を高くすることができ、高認識率の音声認識装置が実現できる。

この音声対話装置３０は、制御部４１によって記憶部４２に記憶した対話シナリオに基づいた情報を表示装置４５やスピーカ４７から利用者に提示し、このよう提示された情報に対して利用者が発する音声を音声認識装置５０で認識し、この認識した情報と対話シナリオとに基づいて、制御部４１が次に提示する情報を決定するものであり、最終的に利用者が要求する情報やサービスを提供する。

以上、本発明の実施の形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。

本発明の一実施形態におけるマイクロホン装置の構成図を示す図である。音源に対する第１マイクロホン及び第２マイクロホンの位置関係を示す図である。音源に対する最大検出範囲を説明するための図である。音源方向と第１マイクロホン及び第２マイクロホンの位置関係を示す図である。図１のマイクロホン装置を有する音声認識装置を備えた音声対話装置の構成図である。従来の遅延和アレー型のマイクロホン装置の概略構成である。

符号の説明

１，６０マイクロホン装置
１０ａ，１０ｂ第１マイクロホン
１１ａ，１１ｂ，１５ａ，１５ｂデジタル／アナログ変換器（Ａ／Ｄ）
１２ａ，１２ｂ遅延部
１３加算部
１４ａ，１４ｂ第２マイクロホン
１６ａ，１６ｂＦＩＦＯ
１７音源方向判定部
１８遅延時間設定部
２０ａ，２１ｂメモリ
２１判定手段
３０音声対話装置
５０音声認識装置
６１音声認識部

Claims

音源から発せられる音を集音する複数の第１マイクロホンと、
前記複数の第１マイクロホンから出力される音響信号を各々独立な遅延時間で遅延可能な複数の遅延部と、
前記複数の遅延部から出力される各遅延信号を加算して出力する加算部と、
前記複数の第１マイクロホンよりも前記音源に近い位置に配置され、前記音源から発せられる音を集音する複数の第２マイクロホンと、
前記複数の第２マイクロホンで各々得られた音響信号に基づいて、前記音源の方向を判定する音源方向判定部と、
前記音源方向判定部によって判定された前記音源の方向に基づいて、前記複数の遅延部の各々の遅延時間を決定し、当該決定した遅延時間を前記複数の遅延部に設定する遅延時間設定部と、を備えたマイクロホン装置。
前記複数の第１マイクロホンは第１直線上に、前記複数の第２マイクロホンは第２直線上にそれぞれ配置され、前記第１直線と前記第２直線とが平行となる関係であることを特徴とする請求項１に記載のマイクロホン装置。
前記複数の第１マイクロホンは、２つのマイクロホンで構成され、
前記複数の第２マイクロホンは、２つのマイクロホンで構成されたことを特徴とする請求項１又は請求項２に記載のマイクロホン装置。
前記第２マイクロホン同士の間隔を、前記第１マイクロホン同士の間隔よりも大きくしたことを特徴とする請求項３に記載のマイクロホン装置。
請求項１〜４のいずれか１項に記載のマイクロホン装置と、前記マイクロホン装置からの出力信号に基づいて音声認識を行う音声認識部と、を備えた音声認識装置。