JP5129024B2

JP5129024B2 - 音声入力装置及び音声会議システム

Info

Publication number: JP5129024B2
Application number: JP2008138485A
Authority: JP
Inventors: 岳司猪田; 陸男高野; 敏美福岡; 隆介堀邊; 史記田中
Original assignee: Funai Electric Co Ltd; Funai Electric Advanced Applied Technology Research Institute Inc
Current assignee: Funai Electric Co Ltd; Funai Electric Advanced Applied Technology Research Institute Inc
Priority date: 2008-05-27
Filing date: 2008-05-27
Publication date: 2013-01-23
Anticipated expiration: 2028-05-27
Also published as: JP2009290342A; US8150086B2; US20090296972A1

Description

本発明は、音声入力装置及び音声会議システムに関する。

ケーブルによる不都合や制約をなくした音声会議システムとして、無線通信を利用した音声会議システムが開発されている（特許文献１）。

また、このような音声会議システムにも適用可能な音声入力システムとして、例えば、差動マイクの特性を利用した接話型マイクロホン装置（特許文献２）や、エコーキャンセラをノイズキャンセラとして利用する構成が提案されている（特許文献３）。
特開２００２−３４４６３５号公報特開２００７−３００５１３号公報特開２００４−１２０７１７号公報

複数のマイクロホンを利用して単一指向性マイクを構成した場合は、周囲雑音がある特定方向から発せられ、かつ別のある特定方向からは目的音のみが発せられる環境化においては、目的音が良好なＳＮＲで取得できる。しかし、特許文献３にも記載されているように、単に単一指向性マイクとして利用するのみでは、周囲雑音がある特定の方向とは違った方向から発せられたり、あるいは、目的音と同一方向の背景での雑音だったりした場合には、それらの雑音をキャンセルできなくなるという問題があった。

また、差動マイクの特性を利用して、精度の高い雑音除去機能を実現するためには、複数のマイクロホンに到来する音波の位相差による遅延歪の影響を考慮することが好ましい。

本発明は、以上のような事情に鑑みてなされたものであり、周囲雑音と遅延歪とをともに抑制し、話者音声を忠実に抽出できる音声入力装置及び音声会議システムを提供することを目的とする。

（１）本発明に係る音声入力装置は、
第１のマイクロホン、第２のマイクロホン及び装着部を含み、音声を入力して音声データを出力する音声入力装置において、
前記第１のマイクロホンに対応する第１の音孔と、
前記第２のマイクロホンに対応する第２の音孔と、
前記第１のマイクロホン及び前記第２のマイクロホンの少なくとも一方の出力に基づく信号処理を行う信号処理部と、
前記信号処理部の出力信号に基づき前記音声データを無線送信する無線送信部とを含み、
前記信号処理部は、前記第１のマイクロホン及び前記第２のマイクロホンの出力に基づく信号処理を行い、
前記第１の音孔と前記第２の音孔との距離が、所与の周波数帯域の音に対して、前記第１の音孔に入射する音声の音圧の強度に対する、前記第１の音孔と前記第２の音孔に入射する音声の差分音圧に含まれる音声成分の強度の比率である音声強度比の位相成分が０ｄＢ以下となる距離に設定されていることを特徴とする。

装着部は、クリップやピン、マジックテープ（登録商標）等、音源となる人の衣服等に装着する部分である。

第１の音孔及び第２の音孔は、それぞれ対応する第１のマイクロホン及び第２のマイクロホンの採音口となる孔である。

第１の音孔と第２の音孔との距離は、第１の音孔の開口面内に仮想的に定めた代表点と、第２の音孔の開口面内に仮想的に定めた代表点との距離としてもよい。例えば、第１の音孔の開口面の中心点と、第２の音孔の開口面の中心点との距離としてもよい。

本発明によれば、周囲雑音と遅延歪とをともに抑制し、話者音声を忠実に抽出できる音声入力装置が実現できる。

（２）この音声入力装置において、
前記所与の周波数帯域は、３．４ｋＨｚ以下の周波数帯域であってもよい。

（３）本発明に係る音声入力装置は、
第１のマイクロホン、第２のマイクロホン及び装着部を含み、音声を入力して音声データを出力する音声入力装置において、
前記第１のマイクロホンに対応する第１の音孔と、
前記第２のマイクロホンに対応する第２の音孔と、
前記第１のマイクロホン及び前記第２のマイクロホンの少なくとも一方の出力に基づく信号処理を行う信号処理部と、
前記信号処理部の出力信号に基づき前記音声データを無線送信する無線送信部とを含み、
前記信号処理部は、前記第１のマイクロホン及び前記第２のマイクロホンの出力に基づく信号処理を行い、
前記第１の音孔と前記第２の音孔との距離が１６．５ｍｍ以下となる位置に設けられていることを特徴とする。

（４）この音声入力装置において、
棒形状をなすマイク保持部を含み、
前記マイク保持部は、前記第１の音孔を有してもよい。

マイク保持部は、その一端側に音声入力装置の本体部との取付部を有し、第２の音孔を他端側に有してもよい。

（５）この音声入力装置において、
前記マイク保持部は、脱着可能に構成されていてもよい。

（６）この音声入植装置において、
前記信号処理部は、前記マイク保持部の脱着状態を判定する脱着判定部を含み、
前記脱着判定部が前記マイク保持部無しと判定した場合には前記第１のマイクロホンの出力に基づく処理を行い、前記脱着判定部が前記マイク保持部有りと判定した場合には前記第１のマイクロホンと前記第２のマイクロホンの出力に基づく処理を行ってもよい。

特に、第２の音孔がマイク保持部ではなく音声入力装置の本体部に設けられている場合には効果的である。

（７）この音声入力装置において、
前記マイク保持部は、前記第２の音孔を有してもよい。

（８）本発明に係る音声入力装置は、
第１のマイクロホン、第２のマイクロホン及び装着部を含み、音声を入力して音声データを出力する音声入力装置において、
第１のマイクロホンに対応する第１の音孔と、
第２のマイクロホンに対応する第２の音孔と、
前記第１のマイクロホン及び前記第２のマイクロホンの少なくとも一方の出力に基づく信号処理を行う信号処理部と、
前記信号処理部の出力信号に基づき前記音声データを無線送信する無線送信部と、
棒形状をなし、脱着可能に構成されたマイク保持部とを含み、
前記マイク保持部は、前記第１の音孔を有し、
前記信号処理部は、前記マイク保持部の脱着状態を判定する脱着判定部を含み、
前記脱着判定部が前記マイク保持部無しと判定した場合には前記第２のマイクロホンの出力に基づく処理を行い、前記脱着判定部が前記マイク保持部有りと判定した場合には前記第１のマイクロホンと前記第２のマイクロホンの出力に基づく処理を行うことを特徴とする。

（９）この音声入力装置において、
前記第１の音孔の断面積と前記第２の音孔の断面積とが等しく構成されていてもよい。

（１０）この音声入力装置において、
前記第１の音孔の内部空間の容積と前記第２の音孔の内部空間の容積が等しく構成されていてもよい。

音孔の内部空間は、音孔の開口面と壁面とを含む平面で囲まれた空間である。

（１１）この音声入力装置において、
前記第１のマイクロホンに対応する第１の振動板と、
前記第２のマイクロホンに対応する第２の振動板とを含み、
前記第１のマイクロホンにおける前記第１の音孔の開口面から前記第１の振動板までの経路長と、前記第２のマイクロホンにおける前記第２の音孔の開口面から前記第２の振動板までの経路長が等しく構成されていてもよい。

音孔の開口面から振動板までの経路長は、例えば、音孔の断面の中心を結ぶ線の長さであってもよい。

（１２）この音声入力装置において、
前記信号処理部は、前記第１のマイクロホンの出力信号と前記第２のマイクロホンの出力信号との差分信号を生成する処理を含む信号処理を行ってもよい。

（１３）この音声入力装置において、
前記第１のマイクロホン及び前記第２のマイクロホンに対応する共通振動板を含み、
前記第１のマイクロホンにおける前記第１の音孔の開口面から前記共通振動板までの経路長と、前記第２のマイクロホンにおける前記第２の音孔の開口面から前記共通振動板までの経路長が等しく構成されていてもよい。

（１４）この音声入力装置において、
前記第１の音孔の断面積は、前記第２の音孔の断面積よりも大きく構成されていてもよい。

特に、第２の音孔が第１の音孔よりも、音源想定位置に近くなる位置に音声入力装置を装着して使用される場合に効果的である。

（１５）この音声入力装置において、
前記装着部により、前記第１の音孔と音源想定位置との距離が１２７ｍｍ以下となる位置に装着して使用されてもよい。

音源想定位置は、例えば話者の口の位置としてもよい。

（１６）この音声入力装置において、
前記マイク保持部は、回動、伸縮及び変形の少なくとも１つにより前記第１の音孔と音源想定位置との距離を調節可能に構成されていてもよい。

（１７）この音声入力装置において、
前記信号処理部は、所与の方向を基準として所与の角度範囲を処理するビームフォーミング処理を行ってもよい。

（１８）この音声入力装置において、
前記信号処理部は、前記ビームフォーミング処理の有無を切り替える切替処理部を含んでもよい。

（１９）この音声入力装置において、
前記信号処理部は、マイク感度検出部を含み、
前記切替処理部は、前記マイク感度検出部の検出結果に基づき前記ビームフォーミング処理の有無を切り替えてもよい。

（２０）この音声入力装置において、
前記信号処理部は、前記信号処理部が前記ビームフォーミング処理を行う方向を変更する変更処理部を含んでもよい。

（２１）この音声入力装置において、
音声入力装置の傾きを検出する角度検出部を含み、
前記変更処理部は、前記角度検出部の検出結果に基づき前記ビームフォーミング処理を行う方向を変更してもよい。

（２２）本発明に係る音声会議システムは、
これらのいずれかに記載の音声入力装置と、
前記音声入力装置から音声データを受信し、音声データを再生する音声再生装置とを含むことを特徴とする。

（２３）この音声会議システムにおいて、
前記音声入力装置は、前記音声データとともに個別の識別符号を無線送信し、
前記音声再生装置は、前記識別符号を表示する表示部を含んでもよい。

以下、本発明を適用した実施の形態について図面を参照して説明する。ただし、本発明は以下の実施の形態に限定されるものではない。また、本発明は、以下の内容を自由に組み合わせたものを含むものとする。

１．音声入力装置の構成例
図１は、本実施の形態に係る音声入力装置の構成の一例を示す機能ブロック図である。

本実施の形態に係る音声入力装置１は、第１のマイクロホン４０、第２のマイクロホン５０、信号処理部６０、無線送信部７０を含む。第１のマイクロホン４０及び第２のマイクロホン５０は、入力された音声を電気信号に変換する。信号処理部６０は、第１のマイクロホン４０及び第２のマイクロホン５０の出力に基づいて、音声データを生成する。無線送信部７０は、信号処理部６０で生成した音声データを無線送信する。

信号処理部６０及び無線送信部７０の詳細については後述する。また、音声入力装置１の傾きを検出する角度検出部８０を含んでもよい。角度検出部８０の詳細についても後述する。

図２は、本実施の形態に係る音声入力装置の構成の一例を示す斜視図である。

本実施の形態に係る音声入力装置１は、音声を入力して音声データを出力する装置であり、本体部１０、マイク保持部２０、装着部３０を含んで構成されている。

本体部１０の外観は特に限定されるものではない。本実施の形態においては、略直方体に構成されている。

マイク保持部２０の外観は特に限定されるものではない。本実施の形態においては、断面が円形となる棒形状に構成されている。

装着部３０は、クリップやピン、マジックテープ（登録商標）等、音源となる人の衣服等に装着する部分である。本実施の形態においては、衣服等を挟持することにより衣服等に装着するクリップにより構成されている。

本実施の形態に係る音声入力装置１は、第１のマイクロホン４０及び第２のマイクロホン５０を含む。第１のマイクロホン４０は、対応する第１の音孔４１及び第１の振動板４２（図示せず）を含んで構成されている。同様に、第２のマイクロホン５０は、対応する第２の音孔５１及び第２の振動板５２（図示せず）を含んで構成されている。

本実施の形態においては、第１の音孔４１及び第１の振動板４２は、マイク保持部２０に設けられている。また、第２の音孔５１及び第２の振動板５２は、本体部１０に設けられている。なお、第１の振動板４２は、第１の振動板位置４２−１に設けられ、第２の振動板５２は、第２の振動板位置５２−１に設けられている。

第１の音孔４１及び第２の音孔５１は、それぞれ対応する第１のマイクロホン４０及び第２のマイクロホン５０の採音口となる孔であり、それぞれ第１の振動板４２及び第２の振動板５２と外部空間とを繋ぐ孔である。第１の音孔４１及び第２の音孔５１の開口面の形状は特に限定されるものではなく、例えば矩形、多角形や円形としてもよい。本実施の形態においては、第１の音孔４１及び第２の音孔５１の開口面の形状は円形としている。

第１の振動板４２及び第２の振動板５２は、音波が入射すると法線方向に振動する部材である。そして、音声入力装置１では、第１の振動板４２及び第２の振動板５２の振動に基づいて電気信号を抽出することで、第１の振動板４２及び第２の振動板５２に入射した音声を示す電気信号を取得する。すなわち、第１の振動板４２及び第２の振動板５２は、マイクロホンの振動板である。

以下、本実施の形態に適用可能なマイクロホンの一例として、コンデンサ型マイクロホン２００の構成について説明する。図３は、コンデンサ型マイクロホン２００の構成を模式的に示した断面図である。

コンデンサ型マイクロホン２００は、振動板２０２を有する。なお、振動板２０２が、本実施の形態に係る音声入力装置１の振動板２２に相当する。振動板２０２は、音波を受けて振動する膜（薄膜）で、導電性を有し、電極の一端を形成している。コンデンサ型マイクロホン２００は、また、電極２０４を有する。電極２０４は、振動板２０２と対向、近接して配置されている。これにより、振動板２０２と電極２０４とは容量を形成する。コンデンサ型マイクロホン２００に音波が入射すると、振動板２０２が振動して、振動板２０２と電極２０４との間隔が変化し、振動板２０２と電極２０４との間の静電容量が変化する。この静電容量の変化を、例えば電圧の変化として取り出すことによって、振動板２０２の振動に基づく電気信号を取得することができる。すなわち、コンデンサ型マイクロホン２００に入射する音波を、電気信号に変換して出力することができる。なお、コンデンサ型マイクロホン２００では、電極２０４は、音波の影響を受けない構造をなしていてもよい。例えば、電極２０４はメッシュ構造をなしていてもよい。

ただし、本発明に適用可能なマイクロホンは、コンデンサ型マイクロホンに限られるものではなく、既に公知となっているいずれかのマイクロホンを適用することができる。例えば、第１の振動板４２及び第２の振動板５２は、動電型（ダイナミック型）、電磁型（マグネティック型）、圧電型（クリスタル型）等の、種々のマイクロホンの振動板であってもよい。

あるいは、第１の振動板４２及び第２の振動板５２は、半導体膜（例えばシリコン膜）であってもよい。すなわち、第１の振動板４２及び第２の振動板５２は、シリコンマイク（Ｓｉマイク）の振動板であってもよい。シリコンマイクを利用することで、音声入力装置１の小型化、及び、高性能化を実現することができる。

なお、第１の振動板４２及び第２の振動板５２の形状は特に限定されるものではない。本実施の形態においては、第１の振動板４２及び第２の振動板５２の振動面は円形をなしているが、例えば円形であっても矩形や多角形であってもよい。

本実施の形態に係る音声入力装置１は、信号処理部６０を含む。信号処理部６０は、第１のマイクロホン４０及び第２のマイクロホン５０の出力に基づく信号処理を行う。本実施の形態においては、信号処理部６０は、第１のマイクロホン４０の出力信号と第２のマイクロホン５０の出力信号との差分信号を生成する処理を含む信号処理を行う。すなわち、音声入力装置１は、第１のマイクロホン４０及び第２のマイクロホン５０を差動マイクとして利用している。なお、本実施の形態においては、信号処理部６０は、本体部１０の内部に設けられている（図示せず）。

本実施の形態に係る音声入力装置１は、無線送信部７０を含む。無線送信部７０は、信号処理部６０の出力信号に基づき音声データを無線送信する。なお、本実施の形態においては、無線送信部７０は、本体部１０の内部に設けられている（図示せず）。

無線方式は特に限定されず、例えば、ＦＭトランスミッターを用いた方式やＩＥＥＥ８０２．１５．１（いわゆるＢｌｕｅｔｏｏｔｈ（登録商標））のような方式であってもよい。無線送信部７０を有することにより、ケーブルによる不都合や制約をなくした音声会議システム等に利用することが可能な音声入力装置となる。

図４は、本実施の形態に係る音声入力装置１の正面図である。本実施の形態に係る音声入力装置１においては、第１の音孔４１と第２の音孔５１との距離は、第１の音孔４１と第２の音孔５１との距離が、所与の周波数帯域の音に対して、第１の音孔４１に入射する音声の音圧の強度に対する、第１の音孔４１と第２の音孔５１に入射する音声の差分音圧に含まれる音声成分の強度の比率である音声強度比の位相成分が０ｄＢ以下となる距離に設定されていてもよい。所与の周波数帯域は、３．４ｋＨｚ以下の周波数帯域としてもよい。例えば、第１の音孔４１と第２の音孔５１との距離が１６．５ｍｍ以下となる位置に設けられていてもよい。第１の音孔４１と第２の音孔５１との距離は、第１の音孔４１の開口面内に仮想的に定めた代表点と、第２の音孔５１の開口面内に仮想的に定めた代表点との距離としてもよい。例えば、第１の音孔４１の開口面の中心点と、第２の音孔５１の開口面の中心点との距離としてもよい。

これにより、特に音声伝送で使用される３．４ｋＨｚ以下の帯域において、遅延歪を抑制することができるとともに、全方位からの周囲雑音を抑制することができる音声入力装置を実現することができる。なお、これらの効果についての詳細は後述する。

なお、マイク保持部２０は、脱着可能に構成されていてもよい。図５は、マイク保持部２０を取り外した状態を示す斜視図である。本実施の形態においては、本体部１０は取付穴１１を備え、マイク保持部２０の取付部２１を取付穴１１に差し込むことにより、マイク保持部２０を本体部１０に取り付けることが可能である。

またこの場合、信号処理部６０は、マイク保持部２０の脱着状態を判定する脱着判定部６１を含み、脱着判定部６１がマイク保持部２０無しと判定した場合には第２のマイクロホン５０の出力に基づく処理を行い、脱判定出部６１がマイク保持部２０有りと判定した場合には第１のマイクロホン４０と第２のマイクロホン５０の出力に基づく処理を行ってもよい。

なお、音声入力装置１がマイク保持部２０の脱着状態を検出する脱着検出部６５を有し、脱着判定部６１は、脱着検出部６５による検出結果に基づいてマイク保持部２０の脱着状態を検出してもよい。脱着検出部６５は、例えば、スイッチにより構成してもよい。

この構成により、マイク保持部２０が取り付けられていない場合であっても、第２のマイクロホン４０のみを用いることにより、音声入力装置として正常に機能させることが可能になる。

また、本実施の形態に係る音声入力装置１は、装着部３０により、第１の音孔４１と音源想定位置との距離が１２７ｍｍ以下となる位置に取り付けて使用されてもよい。音源想定位置は、例えば話者の口の位置としてもよい。

この構成により、遅延歪みを抑制することができるとともに、全方位からの周囲雑音を抑制することができることに加えて、感度を所定値以上に保った音声入力装置を実現することができる。なお、これらの効果についての詳細は後述する。

さらに、マイク保持部２０は、回動、伸縮及び変形の少なくとも１つにより第１の音孔４１と音源想定位置との距離を調節可能に構成されていてもよい。図６は、マイク保持部２０を、取付部２１を軸として回動することにより第１の音孔４１と音源想定位置との距離を調節可能に構成した場合の例を示す斜視図である。

このような構成により、音声入力装置１をユーザが装着した後であっても、音源想定位置との距離や方向を調節することができる。

上記構成に加えて、信号処理部６０は、所与の方向を基準として所与の角度範囲を処理するビームフォーミング処理を行ってもよい。例えば、第２の音孔５１よりも第１の音孔４１が音源想定位置に近い場合には、第２のマイクロホン５０の出力信号よりも第１のマイクロホン４０の出力信号の増幅率を上げる信号処理を行うことにより、第２の音孔５１から第１の音孔４１へ向かう方向を基準として設定した所与の角度範囲からの音声に対する感度を上げることができる。

さらに、信号処理部６０は、ビームフォーミング処理の有無を切り替える切替処理部６２を含んでもよい。例えばユーザの操作に基づき、ビームフォーミング処理の有無を切り替えてもよい。

また、信号処理部６０は、マイク感度検出部６３を含み、切替処理部６２は、マイク感度検出部６３の検出結果に基づきビームフォーミング処理の有無を切り替えてもよい。例えば、マイク感度が閾値以下となった場合にのみビームフォーミング処理を行ってもよい。

このように、音声入力装置の感度が不足している場合に、差動マイクの特性に加えビームフォーミング処理を補助的に行うことにより、雑音を抑圧し、かつ、感度不足を解消することができる。

加えて、信号処理部６０は、ビームフォーミング処理を行う方向を変更する変更処理部６４を含んでもよい。例えばユーザの操作に基づき、ビームフォーミング処理を行う方向を変更してもよい。ビームフォーミング処理を行う方向は、あらかじめ複数設定しておき、ユーザがその中から選択できるように構成してもよい。

また、音声入力装置１は、音声入力装置１の傾きを検出する角度検出部８０を含み、変更処理部６４は、角度検出部８０の検出結果に基づきビームフォーミング処理を行う方向を変更してもよい。例えば、重力方向とあらかじめ設定した角度をなす方向を基準としてビームフォーミング処理を行うように構成してもよい。角度検出部８０は、例えばジャイロセンサーを用いて構成してもよい。このように構成することにより、音声入力装置１の取り付け位置や角度によらず、適切な範囲に対してビームフォーミング処理を行うことができる。

〔変形例１〕
上述の音声入力装置１においては、第１の音孔４１及び第１の振動板４２は本体部１０に設けられているが、第１の音孔４１及び第１の振動板４２はマイク保持部２０に設けられていてもよい。図７は、第１の音孔４１及び第１の振動板４２（図示せず）がマイク保持部２０に設けられている音声入力装置２の正面図である。第２の音孔５１及び第２の振動板５２（図示せず）の位置以外は、音声入力装置１と同じ構成である。なお、第１の振動板４２は、第１の振動板位置４２−１に設けられ、第２の振動板５２は、第２の振動板位置５２−１に設けられている。

このような構成においても同様に、特に音声伝送で使用される３．４ｋＨｚ以下の帯域において、遅延歪みを抑制することができるとともに、全方位からの周囲雑音を抑制することができる音声入力装置を実現することができる。

なお、音声入力装置１と同様に、マイク保持部２０は、回動、伸縮及び変形の少なくとも１つにより第２の音孔５１と音源想定位置との距離を調節可能に構成されていてもよい。また、音声入力装置１と同様に、信号処理部６０は、ビームフォーミング処理を行ってもよい。これらの詳細な構成及び効果については音声入力装置１と同様であるため、詳細な説明を省略する。

〔変形例２〕
上述の音声入力装置１及び２においては、第１のマイクロホン４０に対応する第１の振動板４２と、第２のマイクロホン５０に対応する第２の振動板５２との２つの振動板を有する構成であったが、第１のマイクロホン４０と第２のマイクロホン５０が１つの振動板を共有する構成でもよい。すなわち、第１のマイクロホン４０は、第１の音孔４１と共通振動板４５を含んで構成され、第２のマイクロホン５０は、第２の音孔５１と共通振動板４５を含んで構成されてもよい。

図８は、第１のマイクロホン４０と第２のマイクロホン５０が１つの共通振動板４５（図示せず）を共有する音声入力装置３の正面図である。共通振動板４５をマイク保持部２０の内部に備え、第１の音孔４１は共通振動板４５の一方の面に通じ、第２の音孔５１は共通振動板４５の他方の面に通じる。なお、共通振動板４５は、振動板位置４５−１に備えられている。

図９（Ａ）及び図９（Ｂ）は、第１の音孔４１、第２の音孔５１及び共通振動板４５の関係を模式的に示した断面図である。

図９（Ａ）において、マイク保持部２０は、内部空間９０を有し、共通振動板４５により第１の内部空間９１と第２の内部空間９２に仕切られている。第１の内部空間９１は、第１の音孔４１を介して外部空間と連通する。また、第２の内部空間９２は、第２の音孔５１を介して外部空間と連通する。

本実施の形態では、共通振動板４５は、両側から音圧を受ける。そのため、共通振動板４５の両側に、同時に、同じ大きさの音圧がかかると、当該２つの音圧は共通振動板４５で打ち消しあい、共通振動板４５を振動させる力とはならない。逆に言うと、共通振動板４５は、両側に受ける音圧に差があるときに、その音圧の差によって振動する。

また、第１及び第２の音孔４１，５１に入射した音波の音圧は、第１及び第２の内部空間９１，９２の内壁面に均等に伝達される（パスカルの原理）。そのため、共通振動板４５の第１の内部空間９１を向く面は、第１の音孔４１に入射した音圧と等しい音圧を受け、共通振動板４５の第２の内部空間９２を向く面は、第２の音孔５１に入射した音圧と等しい音圧を受ける。

すなわち、共通振動板４５は、第１及び第２の音孔４１，５１に入射した音波の音圧の差によって振動する。

したがって、共通振動板４５は、第１の音孔４１から入力される音圧と第２の音孔５１から入力される音圧との差を出力する。すなわち、第１の音孔４１、第２の音孔５１及び共通振動板４５により、差動マイクが構成されている。

図９（Ａ）においては、第１の音孔４１の断面積と第２の音孔５１の断面積とが等しく構成されているが、図９（Ｂ）のように第２の音孔５１の断面積が第１の音孔４１の断面積よりも大きく構成されていてもよい。

例えば、第１の音孔４１よりも第２の音孔５１が音源想定位置に近い場合には、第２の音孔５１の断面積が第１の音孔４１の断面積よりも大きく、例えば第２の音孔の直径を０．３ｍｍ以上、第１の音孔の直径を０．３ｍｍより小さくすることにするより、第１のマイクロホンから第２のマイクロホンへ向かう方向を基準として設定した所与の角度範囲からの音声に対する感度を上げることができる。

また、第１の音孔４１の断面積と第２の音孔５１の断面積に加え、第１の音孔４１の内部空間の容積と、第２の音孔５１の内部空間の容積、及び第１の音孔４１の開口面から共通振動板４５までの経路長と、第２の音孔５１の開口面から共通振動板４５までの経路長とを等しくすることにより、理想的な差動特性を得ることができる。また、第１の音孔４１及び第２の音孔５１の内部空間の容積を可能な限り小さく、また各音孔の開口面から共通振動板４５までの経路長を可能な限り短くすることで、各音孔からの音圧の共振周波数を高周波域側にシフトさせることが可能となり、広い周波数範囲にわたりフラットな周波数特性を確保できるため、性能の高い差動マイクを得ることができる。

一方で、第１の音孔４１の内部空間（第１の内部空間９１）の容積と第２の音孔５１の内部空間（第２の内部空間９２）の容積、若しくは第１の音孔４１の開口面から共通振動板４５までの経路長と第２の音孔５１の開口面から共通振動板４５までの経路長を異ならせることにより、第１のマイクロホン４０から第２のマイクロホン５０へ向かう方向を基準として設定した所与の角度範囲からの音声に対する感度を上げることができる。

音孔の開口面から共通振動板４５までの経路長は、例えば、音孔の断面の中心を結ぶ線の長さであってもよい。

なお、音声入力装置１と同様に、マイク保持部２０は、回動、伸縮及び変形の少なくとも１つにより第２の音孔５１と音源想定位置との距離を調節可能に構成されていてもよい。これらの詳細な構成及び効果については音声入力装置１と同様であるため、詳細な説明を省略する。

２．音声入力装置１の周囲雑音除去原理
音波は、媒質中を進行するにつれ減衰し、音圧（音波の強度・振幅）が低下する。音圧は、音源からの距離に反比例するため、音圧Ｐは、音源からの距離Ｒとの関係において、以下の式で表すことができる。

なお、式（１）中、Ｋは比例定数である。図１０には、式（１）を表すグラフを示すが、本図からもわかるように、音圧（音波の振幅）は、音源に近い位置（グラフの左側）では急激に減衰し、音源から離れるほどなだらかに減衰する。

音声入力装置１を接話型の音声入力装置として使用する場合、ユーザの音声は、第１及び第２の音孔４１，５１の近傍から発生する。そのため、ユーザの音声は、第１及び第２の音孔４１，５１の間で大きく減衰し、第１及び第２音孔４１，５１に入射するユーザ音声の音圧には、大きな差が現れる。

これに対して雑音成分は、ユーザの音声に比べて、音源が、第１及び第２の音孔４１，５１から遠い位置に存在する。そのため、雑音の音圧は、第１及び第２の音孔４１，５１の間でほとんど減衰せず、第１及び第２の音孔４１，５１に入射する雑音の音圧には、ほとんど差が現れない。

したがって、本実施の形態に係る音声入力装置１によると、差動マイクの特性により、雑音が除去されたユーザ音声を示す電気信号を取得することが可能な音声入力装置を提供することができる。

なお、音声入力装置２及び３においても、同様の効果を有する。

３．本実施の形態に係る音声入力装置１で、より精度の高い雑音除去機能を実現するための条件
上述したように、音声入力装置１によると、差動マイクの特性により、雑音が除去された、ユーザ音声のみを示す電気信号を取得することが可能になる。ただし、音波は位相成分を含んでいる。そのため、第１及び第２の音孔４１，５１に入射する音波の位相差による遅延歪を考慮すれば、より精度の高い雑音除去機能を実現した音声入力装置の設計が可能となる。以下、より精度の高い雑音除去機能を実現するために、音声入力装置１が満たすべき条件について説明する。なお、音声入力装置２及び３についても同様の条件が成立する。

差動マイクの特性を利用した音声入力装置１によると、第１及び第２の音孔４１，５１に入射する音圧の差（差分音圧）に含まれる雑音成分が、第１及び第２の音孔４１，５１に入射する音圧に含まれる雑音成分よりも小さくなったことをもって、雑音除去機能が実現されたと評価することができる。詳しくは、差分音圧に含まれる雑音成分の強度の、第１及び第２の音孔４１，５１に入射する音圧に含まれる雑音成分の強度に対する比を示す雑音強度比が、差分音圧に含まれるユーザ音声成分の強度の、第１及び第２の音孔４１，５１に入射する音圧に含まれるユーザ音声成分の強度に対する比を示すユーザ音声強度比よりも小さくなれば、この雑音除去機能が実現されたと評価することができる。

以下、この雑音除去機能を実現するために、音声入力装置１が満たすべき具体的な条件について説明する。

はじめに、第１及び第２の音孔４１，５１に入射する音声の音圧について検討する。ユーザ音声の音源から第１の音孔４１までの距離をＲ、第１及び第２の音孔４１，５１の中心間距離をΔｒとすると、位相差を無視すれば、第１及び第２の音孔４１，５１に入射する、ユーザ音声の音圧（強度）Ｐ（Ｓ１）及びＰ（Ｓ２）は、以下の式で表すことができる。

そのため、ユーザ音声の位相差を無視したときの、第１の音孔４１に入射するユーザ音声の音圧の強度に対する、差分音圧に含まれるユーザ音声成分の強度の比率を示すユーザ音声強度比ρ（Ｐ）は、以下の式で表すことができる。

ここで、音声入力装置１が接話型の音声入力装置として使用される場合、ΔｒはＲに比べて充分小さいとみなすことができる。

そのため、上述の式（４）は、以下の式に変形することができる。

すなわち、ユーザ音声の位相差を無視した場合のユーザ音声強度比は、式（Ａ）と表されることがわかる。

ところで、ユーザ音声の位相差を考慮すると、ユーザ音声の音圧Ｑ（Ｓ１）及びＱ（Ｓ２）は、以下の式で表すことができる。

なお、式中、αは位相差である。

このとき、ユーザ音声強度比ρ（Ｓ）は、以下の式で表すことができる。

式（７）を考慮すると、ユーザ音声強度比ρ（Ｓ）の大きさは、以下の式で表すことができる。

ところで、式（８）のうち、sinωt−sin（ωt−α）項は位相成分の強度比を示し、（Δｒ／Ｒ）・sinωt項は振幅成分の強度比を示す。ユーザ音声成分であっても、位相差成分は、振幅成分に対するノイズとなるため、ユーザ音声を精度よく抽出するためには、位相成分の強度比が、振幅成分の強度比よりも充分に小さいことが必要である。すなわち、sinωt−sin（ωt−α）と、（Δｒ／Ｒ）・sinωtとは、以下の関係を満たしていることが重要である。

ここで、

と表すことができるため、上述の式（Ｂ）は、以下の式で表すことができる。

式（１０）の振幅成分を考慮すると、本実施の形態に係る音声入力装置１は、以下の条件を満たす必要があることがわかる。

なお、上述したように、ΔｒはＲに比べて充分小さいとみなすことができるため、sin
（α／２）は充分小さいとみなすことができ、以下の近似が成立する。

そのため、式（Ｃ）は、以下の式に変形することができる。

また、位相差であるαとΔｒとの関係を、

と表せば、式（Ｄ）は、以下の式に変形することができる。

すなわち、本実施の形態では、音声入力装置１が式（Ｅ）に示す関係を満たしていれば、ユーザ音声を精度よく抽出することができる。

次に、第１及び第２の音孔４１，５１に入射する雑音の音圧について検討する。

第１及び第２の音孔４１，５１に入射する雑音成分の振幅を、Ａ，Ａ´とすると、位相差成分を考慮した雑音の音圧Ｑ（Ｎ１）及びＱ（Ｎ２）は、以下の式で表すことができる。

また、第１の音孔４１に入射する雑音成分の音圧の強度に対する、差分音圧に含まれる雑音成分の強度の比率を示す雑音強度比ρ（Ｎ）は、以下の式で表すことができる。

なお、先に説明したように、第１及び第２の音孔４１，５１に入射する雑音成分の振幅（強度）はほぼ同じであり、Ａ＝Ａ´と扱うことができる。そのため、上記の式（１５）は、以下の式に変形することができる。

そして、雑音強度比の大きさは、以下の式で表すことができる。

ここで、上述の式（９）を考慮すると、式（１７）は、以下の式に変形することができる。

そして、式（１１）を考慮すると、式（１８）は、以下の式に変形することができる。

ここで、式（Ｄ）を参照すれば、雑音強度比の大きさは、以下の式で表すことができる。

なお、Δｒ／Ｒとは、式（Ａ）に示すように、ユーザ音声の振幅成分の強度比である。式（Ｆ）から、この音声入力装置１では、雑音強度比がユーザ音声の強度比Δｒ／Ｒよりも小さくなることがわかる。

以上のことから、ユーザ音声の位相成分の強度比が振幅成分の強度比よりも小さくなる音声入力装置１によれば（式（Ｂ）参照）、雑音強度比がユーザ音声強度比よりも小さくなる（式（Ｆ）参照）。逆に言うと、雑音強度比がユーザ音声強度比よりも小さくなるように設計された音声入力装置１によると、精度の高い雑音除去機能を実現することができる。

４．本実施の形態に係る音声入力装置１の製造方法
以下、本実施の形態に係る音声入力装置１の製造方法について説明する。本実施の形態では、第１及び第２の音孔４１，５１の中心間距離Δｒと雑音の波長λとの比率を示すΔｒ／λの値と、雑音強度比（雑音の位相成分に基づく強度比）との対応関係を示すデータを利用して、音声入力装置１を製造している。なお、音声入力装置２及び３についても、同様の方法で製造することができる。

雑音の位相成分に基づく強度比は、上述した式（１８）で表される。そのため、雑音の位相成分に基づく強度比のデシベル値は、以下の式で表すことができる。

そして、式（２０）のαに各値を代入すれば、位相差αと、雑音の位相成分に基づく強度比との対応関係を明らかにすることができる。図１１には、横軸をα／２πとし、縦軸に雑音の位相成分に基づく強度比（デシベル値）を取った時の、位相差と強度比との対応関係を表すデータの一例を示す。

なお、位相差αは、式（１２）に示すように、距離Δｒと波長λとの比であるΔｒ／λの関数で表すことができ、図１１の横軸は、Δｒ／λとみなすことができる。すなわち、図１１は、雑音の位相成分に基づく強度比と、Δｒ／λとの対応関係を示すデータであるといえる。

本実施の形態では、このデータを利用して、音声入力装置１を製造する。図１２は、このデータを利用して音声入力装置１を製造する手順について説明するためのフローチャート図である。

はじめに、雑音の強度比（雑音の位相成分に基づく強度比）と、Δｒ／λとの対応関係を示すデータ（図１１参照）を用意する（ステップＳ１０）。

次に、用途に応じて、雑音の強度比を設定する（ステップＳ１２）。なお、本実施の形態では、雑音の強度が低下するように雑音の強度比を設定する必要がある。そのため、本ステップでは、雑音の強度比を、０ｄＢ以下に設定する。

次に、当該データに基づいて、雑音の強度比に対応するΔｒ／λの値を導出する（ステップＳ１４）。

そして、λに主要な雑音の波長を代入することによって、Δｒが満たすべき条件を導出する（ステップＳ１６）。

具体例として、電話回線の音声周波数帯域の上限である３．４ｋＨｚ、その波長が約０．１０３ｍとなる環境下で、雑音の強度比が０ｄＢ以下になる音声入力装置１を製造する場合について考える。

図１１を参照すると、雑音の強度比を０ｄＢ以下とするためには、Δｒ／λの値を約０．１６以下とすればよいことがわかる。そして、Δｒの値が約１６．４８ｍｍ以下とすればよいことがわかる。すなわち、Δｒの値を、例えば１６．５ｍｍ以下に設定すれば、雑音除去機能を有する音声入力装置を製造することが可能になる。

なお、通常、雑音は単一の周波数に限定されるものではない。しかし、想定された周波数よりも周波数の低い雑音は、想定された周波数の音波よりも波長が長くなるため、Δｒ／λの値は小さくなり、この音声入力装置１で除去される。また、音波は、周波数が高いほどエネルギーの減衰が早い。そのため、想定された周波数よりも周波数の高い雑音は、想定された周波数の音波よりも早く減衰するため、音声入力装置１に与える影響を無視することができる。このことから、本実施の形態に係る音声入力装置１は、想定された周波数の音波とは異なる周波数の雑音が存在する環境下でも、優れた雑音除去機能を発揮することができる。

また、本実施の形態では、式（１２）からもわかるように、第１及び第２の音孔４１，５１を結ぶ直線上から入射する雑音を想定した。この雑音は、第１及び第２の音孔４１，５１の見かけ上の間隔が最も大きくなる雑音であり、現実の使用環境において、位相差が最も大きくなる雑音である。すなわち、本実施の形態に係る音声入力装置１は、位相差が最も大きくなる雑音を除去することが可能に構成されている。そのため、本実施の形態に係る音声入力装置１によると、すべての方向から入射する雑音を除去することができる。

５．本実施の形態に係る音声入力装置１の雑音除去効果
以下、音声入力装置１が奏する効果についてまとめる。なお、音声入力装置２及び３についても同様の効果を奏する。

先に説明したように、音声入力装置１によると、複雑な解析演算処理を行うことなく雑音除去機能を実現することができる。そのため、簡単な構成で、深い雑音除去が可能な高品質の音声入力装置を提供することができる。特に、第１及び第２の音孔４１，５１の中心間距離Δｒを１６．５ｍｍ以下に設定することで、位相歪が少なく、より精度の高い雑音除去機能を実現することが可能な音声入力装置を提供することができる。

また、複雑な解析演算処理を必要としないため、リアルタイムに話者音声を送信することが可能になる。

次に、音声入力装置１が奏する遅延歪除去効果について説明する。なお、音声入力装置２及び３についても同様の効果を奏する。

先に説明したように、ユーザ音声強度比ρ（Ｓ）は以下の式（８）で表される。

ここで、ユーザ音声強度比ρ（Ｓ）の位相成分ρ（Ｓ）_phaseは、s inωt−sin（ωt−α）の項である。式（８）に、

と

を代入すると、ユーザ音声強度比ρ（Ｓ）の位相成分ρ（Ｓ）_phaseは、以下の式で表すことができる。

したがって、ユーザ音声強度比ρ（Ｓ）の位相成分ρ（Ｓ）_phaseのデシベル値は、以下の式で表すことができる。

そして、式（２２）のαに各値を代入すれば、位相差αと、ユーザ音声の位相成分に基づく強度比との対応関係を明らかにすることができる。

図１３から図１５はマイク間距離とユーザ音声強度比ρ（Ｓ）の位相成分ρ（Ｓ）_phaseの関係について説明するための図である。図１３から図１５は横軸はΔｒ／λであり、縦軸はユーザ音声強度比ρ（Ｓ）の位相成分ρ（Ｓ）_phaseである。ユーザ音声強度比ρ（Ｓ）の位相成分ρ（Ｓ）_phaseとは差動マイクと単体マイクの音圧比の位相成分（ユーザ音声の位相成分に基づく強度比）であり、差動マイクを構成するマイクを単体マイクとして使用した場合の音圧が差動音圧と同じになるところを０デシベルとしている。

すなわち図１３から図１５のグラフは、Δｒ／λに対応した差動音圧の遷移を示しており、縦軸が０デシベル以上のエリアは、遅延歪（ノイズ）が大きいと考えることができる。

現行の電話回線は３．４ｋＨｚの音声周波数帯域で設計されているので、以下、３．４ｋＨｚの音声周波数帯域を想定した場合における、遅延による音声歪みの影響について考察する。

図１３はマイク間距離（Δｒ）が１６．５ｍｍである場合の、１ｋＨｚ、３．４ｋＨｚの周波数の音を差動マイクでとらえた場合のユーザ音声強度比ρ（Ｓ）の位相成分ρ（Ｓ）_phaseの分布を示している。

マイク間距離が１６．５ｍｍの場合には、図１３に示すように１ｋＨｚ、３．４ｋＨｚのいずれの周波数の音についてもユーザ音声強度比ρ（Ｓ）の位相成分ρ（Ｓ）_phaseは０デシベル以下である。

また図１４はマイク間距離（Δｒ）が２５ｍｍである場合の、１ｋＨｚ、３．４ｋＨｚの周波数の音を差動マイクでとらえた場合のユーザ音声強度比ρ（Ｓ）の位相成分ρ（Ｓ）_phaseの分布を示している。

マイク間距離が２５ｍｍになると、図１４に示すように１ｋＨｚの周波数の音についてはユーザ音声強度比ρ（Ｓ）の位相成分ρ（Ｓ）_phaseは０デシベル以下であるが、３．４ｋＨｚの周波数の音についてはユーザ音声強度比ρ（Ｓ）の位相成分ρ（Ｓ）_phaseが０デシベル以上となり遅延歪（ノイズ）が大きくなっている。なお、ユーザ音声強度比ρ（Ｓ）の位相成分ρ（Ｓ）_phaseが０デシベルとなる周波数は２．３ｋＨｚである。

また図１５はマイク間距離（Δｒ）が３０ｍｍである場合の、１ｋＨｚ、３．４ｋＨｚの周波数の音を差動マイクでとらえた場合のユーザ音声強度比ρ（Ｓ）の位相成分ρ（Ｓ）_phaseの分布を示している。

マイク間距離が３０ｍｍになると、図１５に示すように１ｋＨｚの周波数の音についてはユーザ音声強度比ρ（Ｓ）の位相成分ρ（Ｓ）_phaseは０デシベル以下であるが、３．４ｋＨｚの周波数の音についてはユーザ音声強度比ρ（Ｓ）の位相成分ρ（Ｓ）_phaseが０デシベル以上となり遅延歪（ノイズ）が大きくなっている。なお、ユーザ音声強度比ρ（Ｓ）の位相成分ρ（Ｓ）_phaseが０デシベルとなる周波数は１．９ｋＨｚである。

したがってマイク間距離を１６．５ｍｍ以下にすることで、周波数が３．４ｋＨｚ帯域まで話者音声を忠実に抽出し、かつ遠方雑音の抑制効果の高い音声入力装置を実現することができる。

本実施の形態では第１及び第２の音孔４１，５１の中心間距離を１６．５ｍｍ以下にすることで、３．４ｋＨｚ帯域まで話者音声を忠実に抽出し、かつ遠方雑音の抑制効果の高い音声入力装置を実現することができる。

また、音声入力装置１では、位相差が最も大きくなる雑音を除去することができるように、第１及び第２の音孔４１，５１を設計することが可能になる。そのため、この音声入力装置１によると、全方位から入射する雑音を除去することができる。すなわち、本発明によると、全方位から入射する雑音を除去することが可能な音声入力装置を提供することができる。

図１６（Ａ）（Ｂ）から図１８（Ａ）（Ｂ）は音源周波数とマイク間距離Δｒとマイク−音源間の距離毎の差動マイクの指向特性について説明するための図である。

図１６（Ａ）（Ｂ）はマイク間距離が１６．５ｍｍ、マイク−音源間距離が１ｍ（遠方雑音に相当）の場合において、音源の周波数がそれぞれ１ｋＨｚ、３．４ｋＨｚの場合の差動マイクの指向特性を示す図である。

１１１０は差動マイクの全方位に対する感度（差動音圧）を示すグラフであり、差動マイクの指向特性を示している。また１１１２は差動マイクを単体マイクとして使用した場合の全方位に対する感度（音圧）を示すグラフであり、単体マイクの均等特性を示している。

１１１４はマイクを２つ用いて差動マイクを構成する場合の両マイクを結ぶ直線の方向又はマイクを１つで差動マイクを実現する場合にマイクの両面に音波を到達させるための第１の音孔４１と第２の音孔５１を結ぶ直線の方向（０度−１８０度、差動マイクを構成する第１の音孔４１と第２の音孔５１はこの直線上に置かれている）を示している。この直線の方向を０度、１８０度とし、この直線の方向と直角な方向を９０度、２７０度とする。

１１１２、１１２２に示すように単体マイクは全方位から均一に音を取っており指向性を有していない。また、１１１０、１１２０に示すように差動マイクは９０度、２７０度方向で多少感度が落ちるが全方位に略均一な指向性を有している。

図１６（Ａ）（Ｂ）に示すようにマイク間距離が１６．５ｍｍの場合には、音源の周波数が１ｋＨｚ、３．４ｋＨｚの場合ともに、差動マイクの指向特性を示す差動音圧のグラフ１１１０、１１２０の示す領域は、それぞれ単体マイクの均等特性を示すグラフ１１１２、１１２２の示す領域に内包されており、差動マイクは単体マイクに比べ遠方雑音の抑制効果に優れているといえる。

図１７（Ａ）（Ｂ）はマイク間距離が２５ｍｍ、マイク−音源間距離が１ｍの場合において、音源の周波数がそれぞれ１ｋＨｚ、３．４ｋＨｚの場合の差動マイクの指向特性を示す図である。

図１７（Ａ）に示すように、音源の周波数が１ｋＨｚの場合には、差動マイクの指向特性を示すグラフ１１３０は、単体マイクの均等特性を示すグラフ１１３２の示す領域に内包されており、差動マイクは単体マイクに比べ遠方雑音の抑制効果に優れているといえる。しかし、図１７（Ｂ）に示すように、音源の周波数が３．４ｋＨｚの場合には、差動マイクの指向特性を示すグラフ１１４０は、単体マイクの均等特性を示すグラフ１１４２の示す領域に内包されておらず、差動マイクは単体マイクに比べ遠方雑音の抑制効果に優れているとはいえない。

図１８（Ａ）（Ｂ）はマイク間距離が３０ｍｍ、マイク−音源間距離が１ｍの場合において、音源の周波数がそれぞれ１ｋＨｚ、３．４ｋＨｚの場合の差動マイクの指向特性を示す図である。

図１８（Ａ）に示すように、音源の周波数が１ｋＨｚの場合には、差動マイクの指向特性を示すグラフ１１５０は、単体マイクの均等特性を示すグラフ１１５２の示す領域に内包されており、差動マイクは単体マイクに比べ遠方雑音の抑制効果に優れているといえる。しかし、図１８（Ｂ）に示すように、音源の周波数が３．４ｋＨｚの場合には、差動マイクの指向特性を示すグラフ１１６０は、単体マイクの均等特性を示すグラフ１１６２の示す領域に内包されておらず、差動マイクは単体マイクに比べ遠方雑音の抑制効果に優れているとはいえない。

したがって、差動マイクのマイク間距離を１６．５ｍｍ以下にすることで、３．４ｋＨｚ以下の周波数の音については全方位の遠方雑音の抑圧効果が単体マイクに比べ高いといえる。

なお振動板１つで差動マイクを実現する場合にも、マイクの両面に音波を到達させるための第１の音孔４１と第２の音孔５１の距離について上記と同様のことがいえる。したがって、本実施の形態では第１及び第２の音孔４１，５１の中心間距離を１６．５ｍｍ以下にすることで、３．４ｋＨｚ以下の音については指向性によらず全方位の遠方雑音を抑圧することが可能なマイクロフォンユニットを実現することができる。

なお、音声入力装置１によると、壁などで反射した後に第１及び第２の音孔４１，５１に入射したユーザ音声成分も除去することができる。詳しくは、壁などで反射したユーザ音声は、長距離を伝搬した後に音声入力装置１に入射するため、通常のユーザ音声よりも遠くに存在する音源から発生した音声であるとみなすことができ、かつ、反射により大きくエネルギーを消失しているため、雑音成分と同様に、第１及び第２の音孔４１，５１の間で音圧が大きく減衰することがない。そのため、この音声入力装置１によると、壁などで反射した後に入射するユーザ音声成分も、雑音と同様に（雑音の一種として）除去される。

同様に、ハウリングした音や、工事現場等の大きな非定常雑音についても、全方位にわたって抑圧することができる。

そして、音声入力装置１を利用すれば、雑音を含まない、ユーザ音声を示す信号を取得することができる。そのため、音声入力装置１を利用することで、精度の高い音声認識や音声認証、コマンド生成処理や音声会議システムを実現することができる。

６．本実施の形態に係る音声入力装置１の感度と、音孔と音源間の距離
既に説明したとおり、本実施の形態に係る音声入力装置１において、第１の音孔４１及び第２の音孔５１に入射する音圧は、式（２）（３）で表すことができる。したがって、差動マイクとして検出する音圧ΔＰ（５）は、以下の式で表すことができる。

式（２１）において、音孔間距離をΔｒ＝５ｍｍ、音孔と音源間の距離Ｒを５０ｍｍとした場合に差動マイクとして検出する音圧ΔＰ（５）は、以下の式で表すことができる。

音孔間距離をΔｒ＝５ｍｍとしているのは、上述の音声入力装置の製造方法により、周囲雑音の主要な周波数である１ｋＨｚの雑音強度が２０ｄＢ以下となるように設計した場合の音孔間距離が約５．２ｍｍであることに基づく。また、音孔と音源間の距離Ｒを５０ｍｍとしているのは、音声入力装置が接話型音声入力装置として用いられる場合は、音孔と音源間の距離は、通常５０ｍｍ以下であることに基づく。

本実施の形態に係る音声入力装置１は、このΔＰ（５）を基準として、６ｄＢ（すなわち１／２）の減衰を感度の許容範囲として設定することができる。音孔間距離をΔｒ＝１６．５ｍｍとした場合に、許容範囲を満たす音孔と音源間の距離Ｒは、以下の式で計算できる。

したがって、音孔と音源間の距離が１２７ｍｍ以下となるように音声入力装置を取り付けて使用することで、感度を所定値以上に保った音声入力装置を実現することができる。

７．音声会議システム
図１９は、本実施の形態に係る音声会議システムの構成の一例を示す。

本実施の形態に係る音声会議システム４は、上述の音声入力装置１と、音声入力装置１から無線送信される音声データを、無線回線７１を介して受信し音声データを再生する音声再生装置５を含んで構成されている。

図２０は、本実施の形態に係る音声再生装置５の構成の一例を示す機能ブロック図である。

音声再生装置５は、音声入力装置１からの音声データを受信する受信部５５と、受信した音声データを再生する再生部５６を含んで構成されている。

このように、音声入力装置として上述の音声入力装置１を用いることにより、周囲雑音と遅延歪とをともに抑制し、話者音声を忠実に抽出できる音声会議システムを実現することができる。

さらに、音声入力装置１は、音声データとともに個別の識別符号を無線送信し、音声再生装置５は、受信した識別符号を表示する表示部５７を含んでもよい。

このように構成することにより、複数の話者がいる場合に、誰の発言による音声であるかを聞き手が容易に識別可能になる。また、特定の話者（例えば社長）のコードをもとに、その話者の発言を編集し議事録を容易に作成することにも可能になる。

なお、上述の音声入力装置１に代えて、上述の音声入力装置２や音声入力装置３を用いても同様の効果が得られる。

本発明は、実施の形態で説明した構成と実質的に同一の構成（例えば、機能、方法及び結果が同一の構成、あるいは目的及び効果が同一の構成）を含む。また、本発明は、実施の形態で説明した構成の本質的でない部分を置き換えた構成を含む。また、本発明は、実施の形態で説明した構成と同一の作用効果を奏する構成又は同一の目的を達成することができる構成を含む。また、本発明は、実施の形態で説明した構成に公知技術を付加した構成を含む。

本実施の形態に係る音声入力装置の構成例を示す機能ブロック図。本実施の形態に係る音声入力装置の構成例を示す図。コンデンサ型マイクロホンの構成例。本実施の形態に係る音声入力装置の構成例を示す図。本実施の形態に係る音声入力装置の構成例を示す図。本実施の形態に係る音声入力装置の構成例を示す図。本実施の形態に係る音声入力装置の構成例を示す図。本実施の形態に係る音声入力装置の構成例を示す図。本実施の形態に係る音声入力装置の構成例を示す図。音波の減衰特性について説明するための図。位相差と強度比との対応関係を表すデータの一例を示す図。音声入力装置を製造する手順を示すフローチャート。音声強度比の分布について説明するための図。音声強度比の分布について説明するための図。音声強度比の分布について説明するための図。差動マイクの指向特性について説明するための図。差動マイクの指向特性について説明するための図。差動マイクの指向特性について説明するための図。本実施の形態に係る音声会議システムの構成例を示す図。本実施の形態に係る音声再生装置の構成例を示す機能ブロック図。

符号の説明

１，２，３音声入力装置、４音声会議システム、５音声再生装置、１０本体部、１１取付穴、２０マイク保持部、２１取付部、３０装着部、４０第１のマイクロホン、４１第１の音孔、４２第１の振動板、４５共通振動板、５０第２のマイクロホン、５１第２の音孔、５２第２の振動板、５５受信部、５６再生部、５７表示部、６０信号処理部、６１脱着判定部、６２切替処理部、６３マイク感度検出部、６４変更処理部、７０無線送信部、８０角度検出部、９０内部空間、９１第１の内部空間、９２第２の内部空間、２００コンデンサ型マイクロホン、２０２振動板、２０４電極

Claims

第１のマイクロホン、第２のマイクロホン及び装着部を含み、音声を入力して音声データを出力する音声入力装置において、
前記第１のマイクロホンに対応する第１の音孔と、
前記第２のマイクロホンに対応する第２の音孔と、
前記第１のマイクロホン及び前記第２のマイクロホンの少なくとも一方の出力に基づく信号処理を行う信号処理部と、
前記信号処理部の出力信号に基づき前記音声データを無線送信する無線送信部とを含み、
前記第１の音孔の開口面の中心点と前記第２の音孔の開口面の中心点との距離が、
前記第１の音孔の開口面の中心点と前記第２の音孔の開口面の中心点とを結ぶ直線上から入射するユーザ音声の周波数帯域の音に対して、
前記第１の音孔に入射する音声の音圧の強度に対する、前記第１の音孔と前記第２の音孔に入射する音声の差分音圧に含まれる音声成分の強度の比率である音声強度比の位相成分が０ｄＢ以下となる距離に設定されていることを特徴とする接話型の音声入力装置。
請求項１に記載の音声入力装置において、
前記ユーザ音声の周波数帯域は、３．４ｋＨｚ以下の周波数帯域であることを特徴とする音声入力装置。
請求項１又は２に記載の音声入力装置において、
棒形状をなすマイク保持部を含み、
前記マイク保持部は、前記第１の音孔を有することを特徴とする音声入力装置。
請求項１乃至３のいずれかに記載の音声入力装置において、
前記マイク保持部は、脱着可能に構成されていることを特徴とする音声入力装置。
請求項４に記載の音声入力装置において、
前記信号処理部は、前記マイク保持部の脱着状態を判定する脱着判定部を含み、
前記脱着判定部が前記マイク保持部無しと判定した場合には前記第２のマイクロホンの出力に基づく処理を行い、前記脱着判定部が前記マイク保持部有りと判定した場合には前記第１のマイクロホンと前記第２のマイクロホンの出力に基づく処理を行うことを特徴とする音声入力装置。
請求項１乃至４のいずれかに記載の音声入力装置において、
前記マイク保持部は、前記第２の音孔を有することを特徴とする音声入力装置。
請求項１乃至６のいずれかに記載の音声入力装置において、
前記第１の音孔の断面積と前記第２の音孔の断面積とが等しく構成されていることを特徴とする音声入力装置。
請求項１乃至７のいずれかに記載の音声入力装置において、
前記第１の音孔の内部空間の容積と前記第２の音孔の内部空間の容積が等しく構成されていることを特徴とする音声入力装置。
請求項１乃至８のいずれかに記載の音声入力装置において、
前記第１のマイクロホンに対応する第１の振動板と、
前記第２のマイクロホンに対応する第２の振動板とを含み、
前記第１のマイクロホンにおける前記第１の音孔の開口面から前記第１の振動板までの経路長と、前記第２のマイクロホンにおける前記第２の音孔の開口面から前記第２の振動板までの経路長が等しく構成されていることを特徴とする音声入力装置。
請求項１乃至９のいずれかに記載の音声入力装置において、
前記信号処理部は、前記第１のマイクロホンの出力信号と前記第２のマイクロホンの出力信号との差分信号を生成する処理を含む信号処理を行うことを特徴とする音声入力装置。
請求項１乃至８のいずれかに記載の音声入力装置において、
前記第１のマイクロホン及び前記第２のマイクロホンに対応する共通振動板を含み、
前記第１のマイクロホンにおける前記第１の音孔の開口面から前記共通振動板までの経路長と、前記第２のマイクロホンにおける前記第２の音孔の開口面から前記共通振動板までの経路長が等しく構成されていることを特徴とする音声入力装置。
請求項１乃至６のいずれかに記載の音声入力装置において、
前記第１の音孔の断面積は、前記第２の音孔の断面積よりも大きく構成されていることを特徴とする音声入力装置。
請求項１乃至１２のいずれかに記載の音声入力装置において、
前記装着部により、前記第１の音孔と音源想定位置との距離が１２７ｍｍ以下となる位置に取り付けて使用されることを特徴とする音声入力装置。
請求項１乃至１３のいずれかに記載の音声入力装置において、
前記マイク保持部は、回動、伸縮及び変形の少なくとも１つにより前記第１の音孔と音源想定位置との距離を調節可能に構成されていることを特徴とする音声入力装置。
請求項１乃至１４のいずれかに記載の音声入力装置において、
前記信号処理部は、所与の方向を基準として所与の角度範囲を処理するビームフォーミング処理を行うことを特徴とする音声入力装置。
請求項１５に記載の音声入力装置において、
前記信号処理部は、前記ビームフォーミング処理の有無を切り替える切替処理部を含むことを特徴とする音声入力装置。
請求項１６に記載の音声入力装置において、
前記信号処理部は、マイク感度検出部を含み、
前記切替処理部は、前記マイク感度検出部の検出結果に基づき前記ビームフォーミング処理の有無を切り替えることを特徴とする音声入力装置。
請求項１５乃至１７のいずれかに記載の音声入力装置において、
前記信号処理部は、前記信号処理部が前記ビームフォーミング処理を行う方向を変更する変更処理部を含むことを特徴とする音声入力装置。
請求項１８に記載の音声入力装置において、
音声入力装置の傾きを検出する角度検出部を含み、
前記変更処理部は、前記角度検出部の検出結果に基づき前記ビームフォーミング処理を行う方向を変更することを特徴とする音声入力装置。
請求項１乃至１９のいずれかに記載の音声入力装置と、
前記音声入力装置から音声データを受信し、音声データを再生する音声再生装置とを含むことを特徴とする音声会議システム。
請求項２０に記載の音声会議システムにおいて、
前記音声入力装置は、前記音声データとともに個別の識別符号を無線送信し、
前記音声再生装置は、前記識別符号を表示する表示部を含むことを特徴とする音声会議システム。
音声を入力して音声データを出力する音声入力装置において、
第１の音孔及び第２の音孔と、
前記第１の音孔及び前記第２の音孔の少なくとも一方の音孔より入力された前記音声に基づいて信号処理を行う信号処理部と、
前記信号処理部の出力信号に基づき前記音声データを無線送信する無線送信部とを含み、
前記第１の音孔の開口面の中心点と前記第２の音孔の開口面の中心点との距離が、
前記第１の音孔の開口面の中心点と前記第２の音孔の開口面の中心点とを結ぶ直線上から入射するユーザ音声の周波数帯域の音に対して、
前記第１の音孔に入射する音声の音圧の強度に対する、前記第１の音孔と前記第２の音孔に入射する音声の差分音圧に含まれる音声成分の強度の比率である音声強度比の位相成分が０ｄＢ以下となる距離に設定されていることを特徴とする接話型の音声入力装置。