JP2009296517A

JP2009296517A - 音声入力装置及び音声リモコンシステム

Info

Publication number: JP2009296517A
Application number: JP2008150475A
Authority: JP
Inventors: Takeshi Inota; 岳司猪田; Rikuo Takano; 陸男高野; Toshimi Fukuoka; 敏美福岡; Ryusuke Horibe; 隆介堀邊; Fuminori Tanaka; 史記田中
Original assignee: Funai Electric Co Ltd; Funai Electric Advanced Applied Technology Research Institute Inc
Current assignee: Funai Electric Co Ltd; Funai Electric Advanced Applied Technology Research Institute Inc
Priority date: 2008-06-09
Filing date: 2008-06-09
Publication date: 2009-12-17

Abstract

【課題】全方位からの周囲雑音と遅延歪とをともに抑制し、話者音声を忠実に抽出できる音声入力装置及び音声リモコンシステムを提供する。
【解決手段】第１のマイクロホン４０及び第２のマイクロホン５０を含み、音声を入力して音声信号を生成する音声入力装置において、回転放物曲面１１を有する反射板１０と、第１のマイクロホン４０に対応する第１の音孔４１と、第２のマイクロホン５０に対応する第２の音孔５１と、反射板１０の回転放物曲面１１に設けられ、第１の音孔４１及び第２の音孔５１を有するマイク保持部２０と、第１のマイクロホン４０及び第２のマイクロホン５０の出力に基づく信号処理を行う信号処理部６０とを含み、第１の音孔４１と第２の音孔５１との距離が８．１ｍｍ以下となる位置に設けられている。
【選択図】図２

Description

本発明は、音声入力装置及び音声リモコンシステムに関する。

周囲雑音を抑制可能な音声入力装置として、例えば、差動マイクの特性を利用した接話型マイクロホン装置（特許文献１）や、エコーキャンセラをノイズキャンセラとして利用する構成が提案されている（特許文献２）。

また、近年では、音声認識技術を用いて、テレビやパソコン、ＤＶＤプレーヤなどの電子機器を数ｍ離れた位置から音声で行う音声リモコンが開発されている。
特開２００７−３００５１３号公報特開２００４−１２０７１７号公報

従来の音声入力装置では、話者以外の人の声や、壁からの反射音などの雑音が入るため、例えば音声認識システムに用いる場合には音声認識率が低くなることがあった。

また、差動マイクの特性を利用して、精度の高い雑音除去機能を実現するためには、複数のマイクロホンに到来する音波の位相差による遅延歪の影響を考慮することが好ましい。音声認識システムは音声翻訳システムにおいて使用される音声入力装置としては、例えば英語の子音もはっきりと抽出する必要があり、そのためには、例えば７ｋＨｚ帯域までは歪まずに抽出できることが好ましい。

本発明は、以上のような事情に鑑みてなされたものであり、全方位からの周囲雑音と遅延歪とをともに抑制し、話者音声を忠実に抽出できる音声入力装置及び音声リモコンシステムを提供することを目的とする。

（１）本発明に係る音声入力装置は、
第１のマイクロホン及び第２のマイクロホンを含み、音声を入力して音声信号を生成する音声入力装置において、
回転放物曲面を有する反射板と、
前記第１のマイクロホンに対応する第１の音孔と、
前記第２のマイクロホンに対応する第２の音孔と、
前記反射板の回転放物曲面に設けられ、前記第１の音孔及び前記第２の音孔を有するマイク保持部と、
前記第１のマイクロホン及び前記第２のマイクロホンの出力に基づく信号処理を行う信号処理部とを含み、
前記第１の音孔と前記第２の音孔との距離が、所与の周波数帯域の音に対して、前記第１の音孔に入射する音声の音圧の強度に対する、前記第１の音孔と前記第２の音孔に入射する音声の差分音圧に含まれる音声成分の強度の比率である音声強度比の位相成分が０ｄＢ以下となる距離に設定されていることを特徴とする。

第１の音孔及び第２の音孔は、それぞれ対応する第１のマイクロホン及び第２のマイクロホンの採音口となる孔である。

第１の音孔と第２の音孔との距離は、第１の音孔の開口面内に仮想的に定めた代表点と、第２の音孔の開口面内に仮想的に定めた代表点との距離としてもよい。例えば、第１の音孔の開口面の中心点と、第２の音孔の開口面の中心点との距離としてもよい。

本発明によれば、全方位からの周囲雑音と遅延歪とをともに抑制し、話者音声を忠実に抽出できる音声入力装置が実現できる。

（２）この音声入力装置において、
前記所与の周波数帯域は、７ｋＨｚ以下の周波数帯域であってもよい。

（３）本発明に係る音声入力装置は、
第１のマイクロホン及び第２のマイクロホンを含み、音声を入力して音声信号を生成する音声入力装置において、
回転放物曲面を有する反射板と、
前記第１のマイクロホンに対応する第１の音孔と、
前記第２のマイクロホンに対応する第２の音孔と、
前記反射板の回転放物曲面に設けられ、前記第１の音孔及び前記第２の音孔を有するマイク保持部と、
前記第１のマイクロホン及び前記第２のマイクロホンの出力に基づく信号処理を行う信号処理部とを含み、
前記第１の音孔と前記第２の音孔との距離が８．１ｍｍ以下となる位置に設けられていることを特徴とする。

（４）この音声入力装置において、
前記第１の音孔は、前記反射板の焦点以外の位置に設けられ、
前記第２の音孔は、前記反射板の焦点と前記第１の音孔とを結ぶ線分上に設けられていてもよい。

（５）この音声入力装置において、
前記第１の音孔の断面積と前記第２の音孔の断面積とが等しく構成されていてもよい。

（６）この音声入力装置において、
前記第１の音孔の内部空間の容積と前記第２の音孔の内部空間の容積とが等しく構成されていてもよい。

音孔の内部空間は、音孔の開口面と壁面とを含む平面で囲まれた空間である。

（７）この音声入力装置において、
前記第１のマイクロホンに対応する第１の振動板と、
前記第２のマイクロホンに対応する第２の振動板とを含み、
前記第１のマイクロホンにおける前記第１の音孔の開口面から前記第１の振動板までの経路長と、前記第２のマイクロホンにおける前記第２の音孔の開口面から前記第２の振動板までの経路長が等しく構成されていてもよい。

音孔の開口面から振動板までの経路長は、例えば、音孔の断面の中心を結ぶ線の長さであってもよい。

（８）この音声入力装置において、
前記信号処理部は、前記第１のマイクロホンの出力信号と前記第２のマイクロホンの出力信号との差分信号を生成する差動マイク出力処理を行ってもよい。

（９）この音声入力装置において、
前記信号処理部は、前記差動マイク出力処理と、前記第１のマイクロホン及び前記第２のマイクロホンの出力信号のいずれかのみに基づく信号を生成する単体マイク出力処理とを切り替える切替処理を行ってもよい。

（１０）この音声入力装置において、
前記信号処理部は、前記第１のマイクロホン及び前記第２のマイクロホンの少なくとも一方の出力感度を変更する感度変更処理を行い、前記感度変更処理後の信号を用いて前記差動マイク出力処理を行ってもよい。

（１１）この音声入力装置において、
前記信号処理部は、前記第１のマイクロホン及び前記第２のマイクロホンの出力感度を検出する感度検出処理を行い、前記感度検出処理結果に基づいて前記切替処理又は前記感度変更処理を行ってもよい。

例えば、出力感度が閾値以下となった場合にのみ、差動マイク出力処理から単体マイク出力処理への切替処理を行ってもよい。

また例えば、出力感度が閾値以下となった場合にのみ、どちらか一方のマイクロホンの出力感度を上げる感度変更処理を行ってもよい。

（１２）この音声入力装置において、
前記第１のマイクロホン及び前記第２のマイクロホンに対応する共通振動板を含み、
前記第１のマイクロホンにおける前記第１の音孔の開口面から前記共通振動板までの経路長と、前記第２のマイクロホンにおける前記第２の音孔の開口面から前記共通振動板までの経路長が等しく構成されていてもよい。

（１３）この音声入力装置において、
前記マイク保持部は、前記第１の音孔と前記第２の音孔との距離を調節可能に構成されていてもよい。

例えば、マイク保持部が第１の音孔と第２の音孔を有し、第１の音孔と第２の音孔との間に調節部を設け、調節部において回動、伸縮及び変形のいずれかを行うことにより第１の音孔と第２の音孔との距離を調節してもよい。

（１４）この音声入力装置において、
前記マイク保持部は、前記第１の音孔と前記第２の音孔との距離が固定されていてもよい。

例えば、マイク保持部が第１の音孔と第２の音孔を有し、第１の音孔と第２の音孔との間では回動、伸縮及び変形のいずれも行わず、第１の音孔と第２の音孔との距離を固定してもよい。

（１５）この音声入力装置において、
前記マイク保持部は、前記反射板の焦点と前記第１の音孔及び前記第２の音孔との距離を調節可能に構成されていてもよい。

例えば、マイク保持部が第１の音孔と第２の音孔を有し、反射板と第１の音孔及び第２の音孔との間に調節部を設け、調節部において回動、伸縮及び変形のいずれかを行うことにより反射板の焦点と第１の音孔及び第２の音孔との距離を調節してもよい。

（１６）本発明に係る音声リモコンシステムは、
これらのいずれかの音声入力装置を含むことを特徴とする。

本発明に係る音声リモコンシステムによれば、周囲雑音と遅延歪とをともに抑制し、話者音声を忠実に抽出できるため、音声認識率の高い音声リモコンシステムを実現することができる。

以下、本発明を適用した実施の形態について図面を参照して説明する。ただし、本発明は以下の実施の形態に限定されるものではない。また、本発明は、以下の内容を自由に組み合わせたものを含むものとする。

１．音声入力装置の構成例
図１は、本実施の形態に係る音声入力装置の構成の一例を示す機能ブロック図である。

本実施の形態に係る音声入力装置１は、第１のマイクロホン４０、第２のマイクロホン５０、信号処理部６０、を含む。第１のマイクロホン４０及び第２のマイクロホン５０は、入力された音声を電気信号に変換する。信号処理部６０は、第１のマイクロホン４０及び第２のマイクロホン５０の出力に基づいて、音声信号を生成する。信号処理部の詳細については後述する。

また、音声入力装置１は、信号処理部６０で生成した音声信号を他の処理回路や電子機器に出力するための出力インターフェイス７０を含んでもよい。出力インターフェイス７０は、電極やコネクタ、ケーブルなどにより他の処理回路や電子機器と接続されていてもよいし、無線通信により他の処理回路や電子機器と通信してもよい。

図２は、本実施の形態に係る音声入力装置の構成の一例を示す斜視図である。

本実施の形態に係る音声入力装置１は、音声を入力して音声信号を生成する装置であり、反射板１０とマイク保持部２０を含んで構成されている。

反射板１０は、回転放物曲面１１を含んで構成される。また、反射板１０全体を支持する支持部１２を含んでいてもよい。

マイク保持部２０は、反射板１０の回転放物曲面１１に設けられている。本実施の形態においては、反射板１０の回転放物曲面１１の中心から垂直方向に延びる棒形状に構成されている。マイク保持部２０の外観は特に限定されるものではない。本実施の形態においては、断面が円形となる棒形状に構成されている。

本実施の形態に係る音声入力装置１は、第１のマイクロホン４０及び第２のマイクロホン５０を含む。第１のマイクロホン４０は、対応する第１の音孔４１及び第１の振動板４２（図示せず）を含んで構成されている。同様に、第２のマイクロホン５０は、対応する第２の音孔５１及び第２の振動板５２（図示せず）を含んで構成されている。

図３は、本実施の形態におけるマイク保持部２０の一例を拡大した斜視図である。本実施の形態において、マイク保持部２０は、マイク保持部材２０−１及び２０−２から構成されている。

図３に示す例においては、第１の音孔４１及び第１の振動板４２は、マイク保持部材２０−１に設けられている。同様に、第２の音孔５１及び第２の振動板５２は、マイク保持部材２０−２に設けられている。なお、第１の振動板４２は、第１の振動板位置４２−１に設けられ、第２の振動板５２は、第２の振動板位置５２−１に設けられている。

第１の音孔４１及び第２の音孔５１は、それぞれ対応する第１のマイクロホン４０及び第２のマイクロホン５０の採音口となる孔であり、それぞれ第１の振動板４２及び第２の振動板５２と外部空間とを繋ぐ孔である。第１の音孔４１及び第２の音孔５１の開口面の形状は特に限定されるものではなく、例えば矩形、多角形や円形としてもよい。本実施の形態においては、第１の音孔４１及び第２の音孔５１の開口面の形状は円形としている。

第１の振動板４２及び第２の振動板５２は、音波が入射すると法線方向に振動する部材である。そして、音声入力装置１では、第１の振動板４２及び第２の振動板５２の振動に基づいて電気信号を抽出することで、第１の振動板４２及び第２の振動板５２に入射した音声を示す電気信号を取得する。すなわち、第１の振動板４２及び第２の振動板５２は、マイクロホンの振動板である。

以下、本実施の形態に適用可能なマイクロホンの一例として、コンデンサ型マイクロホン２００の構成について説明する。図４は、コンデンサ型マイクロホン２００の構成を模式的に示した断面図である。

コンデンサ型マイクロホン２００は、振動板２０２を有する。なお、振動板２０２が、本実施の形態に係る音声入力装置１の振動板２２に相当する。振動板２０２は、音波を受けて振動する膜（薄膜）で、導電性を有し、電極の一端を形成している。コンデンサ型マイクロホン２００は、また、電極２０４を有する。電極２０４は、振動板２０２と対向、近接して配置されている。これにより、振動板２０２と電極２０４とは容量を形成する。コンデンサ型マイクロホン２００に音波が入射すると、振動板２０２が振動して、振動板２０２と電極２０４との間隔が変化し、振動板２０２と電極２０４との間の静電容量が変化する。この静電容量の変化を、例えば電圧の変化として取り出すことによって、振動板２０２の振動に基づく電気信号を取得することができる。すなわち、コンデンサ型マイクロホン２００に入射する音波を、電気信号に変換して出力することができる。なお、コンデンサ型マイクロホン２００では、電極２０４は、音波の影響を受けない構造をなしていてもよい。例えば、電極２０４はメッシュ構造をなしていてもよい。

ただし、本発明に適用可能なマイクロホンは、コンデンサ型マイクロホンに限られるものではなく、既に公知となっているいずれかのマイクロホンを適用することができる。例えば、第１の振動板４２及び第２の振動板５２は、動電型（ダイナミック型）、電磁型（マグネティック型）、圧電型（クリスタル型）等の、種々のマイクロホンの振動板であってもよい。

あるいは、第１の振動板４２及び第２の振動板５２は、半導体膜（例えばシリコン膜）であってもよい。すなわち、第１の振動板４２及び第２の振動板５２は、シリコンマイク（Ｓｉマイク）の振動板であってもよい。シリコンマイクを利用することで、音声入力装置１の小型化、及び、高性能化を実現することができる。

なお、第１の振動板４２及び第２の振動板５２の形状は特に限定されるものではない。本実施の形態においては、第１の振動板４２及び第２の振動板５２の振動面は円形をなしているが、例えば円形であっても矩形や多角形であってもよい。

本実施の形態に係る音声入力装置１は、信号処理部６０を含む。信号処理部６０は、第１のマイクロホン４０及び第２のマイクロホン５０の出力に基づく信号処理を行う。本実施の形態においては、信号処理部６０は、第１のマイクロホン４０の出力信号と第２のマイクロホン５０の出力信号との差分信号を生成する差動マイク出力処理を行う差動マイク出力処理部６１を含む。すなわち、音声入力装置１は、第１のマイクロホン４０及び第２のマイクロホン５０を差動マイクとして利用している。なお、本実施の形態においては、信号処理部６０は、マイク保持部２０の内部に設けられている（図示せず）。

本実施の形態に係る音声入力装置１においては、第１の音孔４１と第２の音孔５１との距離は、第１の音孔４１と第２の音孔５１との距離が、所与の周波数帯域の音に対して、第１の音孔４１に入射する音声の音圧の強度に対する、第１の音孔４１と第２の音孔５１に入射する音声の差分音圧に含まれる音声成分の強度の比率である音声強度比の位相成分が０ｄＢ以下となる距離に設定されていてもよい。所与の周波数帯域は、７ｋＨｚ以下の周波数帯域としてもよい。例えば、第１の音孔４１と第２の音孔５１との距離が５．０ｍｍ以上８．１ｍｍ以下となる位置に設けられていてもよい。第１の音孔４１と第２の音孔５１との距離は、第１の音孔４１の開口面内に仮想的に定めた代表点と、第２の音孔５１の開口面内に仮想的に定めた代表点との距離としてもよい。例えば、第１の音孔４１の開口面の中心点と、第２の音孔５１の開口面の中心点との距離としてもよい。

これにより、特に音声認識システムにおいて使用される７ｋＨｚ以下の帯域において、遅延歪を抑制することができるとともに、全方位からの周囲雑音を抑制することができる音声入力装置を実現することができる。なお、これらの効果についての詳細は後述する。

また、本実施の形態に係る音声入力装置１においては、マイク保持部２０は、調節部２２を境にして伸縮することにより、第１の音孔４１と第２の音孔５１との距離を調節可能に構成されている。

図３を参照して説明すると、マイク保持部２０は、第１のマイク保持部材２０−１と第２のマイク保持部材２０−２から構成されている。第２のマイク保持部材２０−２は筒状に構成され、第１のマイク保持部材２０−１が第２のマイク保持部材２０−１の内側に挿入されて構成されている。第１の音孔４１は第１のマイク保持部材２０−１に、第２の音孔５１は第２のマイク保持部材２０−２に設けられている。すなわち、第１の音孔４１と第２の音孔５１を、伸縮部２２を挟んだ位置に設けることにより、第１の音孔４１と第２の音孔５１との距離を調節可能に構成されている。

このような構成により、第１のマイクロホン４０及び第２のマイクロホン５０から構成される差動マイクの特性を、ユーザが必要に応じて調整することが可能になる。

また、マイク保持部２０が第１の音孔４１と第２の音孔５１を有し、反射板１０と第１の音孔４１及び第２の音孔５１との間に調節部２２を設け、調節部２２において回動、伸縮及び変形のいずれかを行うことにより反射板の焦点と第１の音孔及び第２の音孔との距離を調節してもよい。これにより、ユーザ（話者）の位置により焦点がずれることにも対応が可能になる。

なお、マイク保持部２０は、第１の音孔４１と第２の音孔５１との距離が固定されている構成であってもよい。

また、第１の音孔４１は、反射板１０の焦点以外の位置に設けられ、第２の音孔５１は、反射板１０の焦点と第１の音孔４１とを結ぶ線分上に設けられていてもよい。

図５（ａ）及び図５（ｂ）は、反射板１０からの距離とマイクロホンの感度（音圧レベル）との関係を示すグラフである。横軸は反射板１０の焦点からの距離Ｒ、縦軸はマイクロホンの感度（音圧レベル）Ｐである。また、第１の音孔４１と第２の音孔５１との距離をΔｒとする。

図５（ａ）及び図５（ｂ）に示すように、マイクロホンの感度（音圧レベル）Ｐは、焦点において最大となる。反射板１０の焦点から遠い領域においては、マイクロホンの感度（音圧レベル）Ｐは焦点からの距離の絶対値｜Ｒ｜に反比例する。反射板１０の焦点付近に近づくにつれて、マイクロホンの感度（音圧レベル）Ｐは有限の値の最大値となるようになだらかに増加し、反射板１０の焦点において最大値となる。

図５（ａ）は、第１の音孔４１を反射板１０の焦点からΔｒの距離に、第２の音孔５１を反射板１０の焦点に設けた場合を示しており、グラフ上においては第１の音孔４１の位置を点４１１、第２の音孔の位置を点５１１で示す。同様に、図５（ｂ）は、第１の音孔４１を反射板１０の焦点から２×Δｒの距離に、第２の音孔５１を反射板１０の焦点からΔｒの距離に設けた場合を示す。

図５（ａ）に示すように、音孔間距離Δｒが小さい場合には、反射板１０の焦点付近においてはマイクロホンの感度（音圧レベル）Ｐの差ΔＰ１が小さくなる。したがって、第１の音孔４１及び第２の音孔５１のいずれかを反射板１０の焦点に設けると、差動マイクとしての出力が小さくなる。

一方、図５（ｂ）に示すように、第１の音孔４１は、反射板１０の焦点以外の位置に設けられ、第２の音孔５１は、反射板１０の焦点と第１の音孔４１との間の距離に設けられている場合には、同じ音孔間距離Δｒであっても、マイクロホンの感度（音圧レベル）Ｐの差ΔＰ２が大きくなる。したがって、第１の音孔４１及び第２の音孔５１のいずれかを反射板１０の焦点に設けた場合に比べて、差動マイクとしての出力が大きくなる。

さらに、反射板１０の焦点から遠い方の音孔を第１の音孔４１としたとき、第２の音孔５１を反射板１０の焦点と第１の音孔４１とを結ぶ線分上に設けることにより、第１の音孔４１の位置及び音孔間距離Δｒを同じにした場合におけるマイクロホンの感度（音圧レベル）Ｐの差ΔＰ２を最大にすることができる。すなわち、差動マイクとしての出力を最大とすることができる。

図１９は、反射板１０の焦点Ｆ、第１の音孔４１及び第２の音孔５１の位置関係を説明するための模式図である。

第１の音孔４１の位置及び音孔間距離Δｒを同じにした場合、第２の音孔５１は仮想球面Ｃ上のいずれかに位置することになる。第２の音孔５１が位置５１ａにあるとき、反射板１０の焦点Ｆとの距離が最小となる。すなわち、第２の音孔５１が第２の音孔５１を反射板１０の焦点Ｆと第１の音孔４１とを結ぶ線分上に位置するときに、反射板１０の焦点Ｆから第１の音孔４１までの距離と、反射板１０の焦点Ｆから第２の音孔５１までの距離との差が最大となる。したがって、差動マイクとしての出力を最大とすることができる。

また、音孔間距離Δｒが小さいとき、焦点付近に第１の音孔４１及び第２の音孔５１を配置すると、反射板１０の反りや、マイクロホンの取り付け誤差、あるいは話者の移動等によって焦点が移動した場合、距離Ｒに対するマイクロホンの感度（音圧レベル）Ｐの傾きが小さくなるため、マイクロホンの感度（音圧レベル）Ｐの差ΔＰが小さくなる。また、第１の音孔４１と第２の音孔５１の位置が焦点を挟んで対称の位置になった場合にはΔＰ＝０となり、出力が全く得られなくなるといった問題が発生する。

それに対し、図５（ｂ）に示すように、第１の音孔４１は、反射板１０の焦点以外の位置に設けられ、第２の音孔５１は、反射板１０の焦点と第１の音孔４１との間の位置に設けられている場合には、同じ音孔間距離Δｒであっても、マイクロホンの感度（音圧レベル）Ｐの差ΔＰ２が大きくなり、ΔＰ＝０となる問題が避けられる。さらに、距離Ｒに対する感度Ｐの傾きが大きい領域で差動をとるため、焦点の移動に対するマージンをとることが可能となる。

また、信号処理部６０は、第１のマイクロホン４０及び第２のマイクロホン５０の出力信号のいずれかのみに基づく信号を生成する単体マイク出力処理を行う単体マイク出力処理部６２を含み、さらに、差動マイク出力処理と単体マイク出力処理とを切り替える切替処理を行う切替処理部６３を含んでもよい。

例えば、第１の音孔４１と反射板１０の焦点との距離が大きく離れて、差動出力ΔＰが小さくなる場合、切替処理部６３は、信号処理部６０で行う信号処理を差動マイク出力処理から単体マイク出力処理に切り替える切替処理を行ってもよい。

また、信号処理部６０は、第１のマイクロホン４０及び第２のマイクロホン５０の少なくとも一方の出力感度を変更する感度変更処理を行う感度変更処理部６４を含み、差動マイク出力処理部６１は、感度変更処理後の信号を用いて差動マイク出力処理を行ってもよい。

さらに、信号処理部６０は、第１のマイクロホン４０及び第２のマイクロホン５０の出力感度を検出する感度検出処理を行う感度検出処理部６５を含み、切替処理部６３は感度検出処理結果に基づいて切替処理を行ってもよい。例えば出力感度が閾値以下となった場合にのみ、差動マイク出力処理から単体マイク出力処理への切替処理を行ってもよい。

同様に、感度変更処理部６４は感度検出処理結果に基づいて感度変更処理を行ってもよい。例えば出力感度が閾値以下となった場合にのみ、どちらか一方のマイクロホンの出力感度を上げる感度変更処理を行ってもよい。

〔変形例１〕
図２に示す音声入力装置１では、マイク保持部２０は反射板１０の回転放物曲面１１の中心から垂直方向に延びる棒形状に構成され、第１の音孔４１及び第２の音孔５１も反射板１０の回転放物曲面１１の中心から垂直方向に設けられていたが、第１の音孔４１及び第２の音孔５１は反射板１０の回転放物曲面１１の中心から垂直方向には限られない。

図６は、音声入力装置の構成の他の一例を示す斜視図である。図６に示す音声入力装置２では、第１の音孔４１及び第２の音孔５１のいずれも、反射板１０の回転放物曲面１１の中心から垂直方向から外れた位置に設けられている。

このような構成であっても、先に説明した音声入力装置１と同様の効果を奏する。

また、図７に示す音声入力装置３のように、マイク保持部２０の一部が取り外し可能に構成されていたり、マイク保持部２０の一部が回動可能に構成されていたりしてもよい。図７に示す例では、マイク保持部材２３とマイク保持部材２４とが取付部２５で取り付け、取り外し及び回動が可能に構成されている。

〔変形例２〕
上述の音声入力装置１乃至３においては、第１のマイクロホン４０に対応する第１の振動板４２と、第２のマイクロホン５０に対応する第２の振動板５２との２つの振動板を有する構成であったが、第１のマイクロホン４０と第２のマイクロホン５０が１つの振動板を共有する構成でもよい。すなわち、第１のマイクロホン４０は、第１の音孔４１と共通振動板４５を含んで構成され、第２のマイクロホン５０は、第２の音孔５１と共通振動板４５を含んで構成されてもよい。

図８は、第１のマイクロホン４０と第２のマイクロホン５０が１つの共通振動板４５（図示せず）を共有する場合の音声入力装置４におけるマイク保持部２０の一例を拡大し、模式的に示した断面図である。

図８において、マイク保持部２０は、内部空間９０を有し、共通振動板４５により第１の内部空間９１と第２の内部空間９２に仕切られている。第１の内部空間９１は、第１の音孔４１を介して外部空間と連通する。また、第２の内部空間９２は、第２の音孔５１を介して外部空間と連通する。

本実施の形態では、共通振動板４５は、両側から音圧を受ける。そのため、共通振動板４５の両側に、同時に、同じ大きさの音圧がかかると、当該２つの音圧は共通振動板４５で打ち消しあい、共通振動板４５を振動させる力とはならない。逆に言うと、共通振動板４５は、両側に受ける音圧に差があるときに、その音圧の差によって振動する。

また、第１及び第２の音孔４１，５１に入射した音波の音圧は、第１及び第２の内部空間９１，９２の内壁面に均等に伝達される（パスカルの原理）。そのため、共通振動板４５の第１の内部空間９１を向く面は、第１の音孔４１に入射した音圧と等しい音圧を受け、共通振動板４５の第２の内部空間９２を向く面は、第２の音孔５１に入射した音圧と等しい音圧を受ける。

すなわち、共通振動板４５は、第１及び第２の音孔４１，５１に入射した音波の音圧の差によって振動する。

したがって、共通振動板４５は、第１の音孔４１から入力される音圧と第２の音孔５１から入力される音圧との差を出力する。すなわち、第１の音孔４１、第２の音孔５１及び共通振動板４５により、差動マイクが構成されている。

なお、図８においては、第１の音孔４１の断面積と第２の音孔５１の断面積とが等しく（例えば、ともに直径０．３ｍｍの円形で）構成されている。

また、第１の音孔４１の断面積と第２の音孔５１の断面積に加え、第１の音孔４１の内部空間（第１の内部空間９１）の容積と、第２の音孔５１の内部空間（第２の内部空間９２）の容積、及び第１の音孔４１の開口面から共通振動板４５までの経路長と、第２の音孔５１の開口面から共通振動板４５までの経路長とを等しくすることにより、理想的な差動特性を得ることができる。また、第１の音孔４１及び第２の音孔５１の内部空間の容積を可能な限り小さく、また各音孔の開口面から共通振動板４５までの経路長を可能な限り短くすることで、各音孔からの音圧の共振周波数を高周波域側にシフトさせることが可能となり、広い周波数範囲にわたりフラットな周波数特性を確保できるため、性能の高い差動マイクを得ることができる。

２．音声入力装置１の周囲雑音除去原理
音波は、媒質中を進行するにつれ減衰し、音圧（音波の強度・振幅）が低下する。音圧は、音源からの距離に反比例するため、音圧Ｐは、音源からの距離Ｒとの関係において、以下の式で表すことができる。

なお、式（１）中、Ｋは比例定数である。図９には、式（１）を表すグラフを示すが、本図からもわかるように、音圧（音波の振幅）は、音源に近い位置（グラフの左側）では急激に減衰し、音源から離れるほどなだらかに減衰する。

音声入力装置１を接話型の音声入力装置として使用する場合、ユーザの音声は、第１及び第２の音孔４１，５１の近傍から発生する。そのため、ユーザの音声は、第１及び第２の音孔４１，５１の間で大きく減衰し、第１及び第２音孔４１，５１に入射するユーザ音声の音圧には、大きな差が現れる。

これに対して雑音成分は、ユーザの音声に比べて、音源が、第１及び第２の音孔４１，５１から遠い位置に存在する。そのため、雑音の音圧は、第１及び第２の音孔４１，５１の間でほとんど減衰せず、第１及び第２の音孔４１，５１に入射する雑音の音圧には、ほとんど差が現れない。

したがって、本実施の形態に係る音声入力装置１によると、差動マイクの特性により、雑音が除去されたユーザ音声を示す電気信号を取得することが可能な音声入力装置を提供することができる。

なお、音声入力装置２乃至４においても、同様の効果を有する。

３．本実施の形態に係る音声入力装置１で、より精度の高い雑音除去機能を実現するための条件
上述したように、音声入力装置１によると、差動マイクの特性により、雑音が除去された、ユーザ音声のみを示す電気信号を取得することが可能になる。ただし、音波は位相成分を含んでいる。そのため、第１及び第２の音孔４１，５１に入射する音波の位相差による遅延歪を考慮すれば、より精度の高い雑音除去機能を実現した音声入力装置の設計が可能となる。以下、より精度の高い雑音除去機能を実現するために、音声入力装置１が満たすべき条件について説明する。なお、音声入力装置２についても同様の条件が成立する。

差動マイクの特性を利用した音声入力装置１によると、第１及び第２の音孔４１，５１に入射する音圧の差（差分音圧）に含まれる雑音成分が、第１及び第２の音孔４１，５１に入射する音圧に含まれる雑音成分よりも小さくなったことをもって、雑音除去機能が実現されたと評価することができる。詳しくは、差分音圧に含まれる雑音成分の強度の、第１及び第２の音孔４１，５１に入射する音圧に含まれる雑音成分の強度に対する比を示す雑音強度比が、差分音圧に含まれるユーザ音声成分の強度の、第１及び第２の音孔４１，５１に入射する音圧に含まれるユーザ音声成分の強度に対する比を示すユーザ音声強度比よりも小さくなれば、この雑音除去機能が実現されたと評価することができる。

以下、この雑音除去機能を実現するために、音声入力装置１が満たすべき具体的な条件について説明する。

はじめに、第１及び第２の音孔４１，５１に入射する音声の音圧について検討する。ユーザ音声の音源から第１の音孔４１までの距離をＲ、第１及び第２の音孔４１，５１の中心間距離をΔｒとすると、位相差を無視すれば、第１及び第２の音孔４１，５１に入射する、ユーザ音声の音圧（強度）Ｐ（Ｓ１）及びＰ（Ｓ２）は、以下の式で表すことができる。

そのため、ユーザ音声の位相差を無視したときの、第１の音孔４１に入射するユーザ音声の音圧の強度に対する、差分音圧に含まれるユーザ音声成分の強度の比率を示すユーザ音声強度比ρ（Ｐ）は、以下の式で表すことができる。

ここで、音声入力装置１が接話型の音声入力装置として使用される場合、ΔｒはＲに比べて充分小さいとみなすことができる。

そのため、上述の式（４）は、以下の式に変形することができる。

すなわち、ユーザ音声の位相差を無視した場合のユーザ音声強度比は、式（Ａ）と表されることがわかる。

ところで、ユーザ音声の位相差を考慮すると、ユーザ音声の音圧Ｑ（Ｓ１）及びＱ（Ｓ２）は、以下の式で表すことができる。

なお、式中、αは位相差である。

このとき、ユーザ音声強度比ρ（Ｓ）は、以下の式で表すことができる。

式（７）を考慮すると、ユーザ音声強度比ρ（Ｓ）の大きさは、以下の式で表すことができる。

ところで、式（８）のうち、sinωt−sin（ωt−α）項は位相成分の強度比を示し、（Δｒ／Ｒ）・s inωt項は振幅成分の強度比を示す。ユーザ音声成分であっても、位相差成分は、振幅成分に対するノイズとなるため、ユーザ音声を精度よく抽出するためには、位相成分の強度比が、振幅成分の強度比よりも充分に小さいことが必要である。すなわち、sinωt−sin（ωt−α）と、（Δｒ／Ｒ）・sinωtとは、以下の関係を満たしていることが重要である。

ここで、

と表すことができるため、上述の式（Ｂ）は、以下の式で表すことができる。

式（１０）の振幅成分を考慮すると、本実施の形態に係る音声入力装置１は、以下の条件を満たす必要があることがわかる。

なお、上述したように、ΔｒはＲに比べて充分小さいとみなすことができるため、sin
（α／２）は充分小さいとみなすことができ、以下の近似が成立する。

そのため、式（Ｃ）は、以下の式に変形することができる。

また、位相差であるαとΔｒとの関係を、

と表せば、式（Ｄ）は、以下の式に変形することができる。

すなわち、本実施の形態では、音声入力装置１が式（Ｅ）に示す関係を満たしていれば、ユーザ音声を精度よく抽出することができる。

次に、第１及び第２の音孔４１，５１に入射する雑音の音圧について検討する。

第１及び第２の音孔４１，５１に入射する雑音成分の振幅を、Ａ，Ａ´とすると、位相差成分を考慮した雑音の音圧Ｑ（Ｎ１）及びＱ（Ｎ２）は、以下の式で表すことができる。

また、第１の音孔４１に入射する雑音成分の音圧の強度に対する、差分音圧に含まれる雑音成分の強度の比率を示す雑音強度比ρ（Ｎ）は、以下の式で表すことができる。

なお、先に説明したように、第１及び第２の音孔４１，５１に入射する雑音成分の振幅（強度）はほぼ同じであり、Ａ＝Ａ´と扱うことができる。そのため、上記の式（１５）は、以下の式に変形することができる。

そして、雑音強度比の大きさは、以下の式で表すことができる。

ここで、上述の式（９）を考慮すると、式（１７）は、以下の式に変形することができる。

そして、式（１１）を考慮すると、式（１８）は、以下の式に変形することができる。

ここで、式（Ｄ）を参照すれば、雑音強度比の大きさは、以下の式で表すことができる。

なお、Δｒ／Ｒとは、式（Ａ）に示すように、ユーザ音声の振幅成分の強度比である。式（Ｆ）から、この音声入力装置１では、雑音強度比がユーザ音声の強度比Δｒ／Ｒよりも小さくなることがわかる。

以上のことから、ユーザ音声の位相成分の強度比が振幅成分の強度比よりも小さくなる音声入力装置１によれば（式（Ｂ）参照）、雑音強度比がユーザ音声強度比よりも小さくなる（式（Ｆ）参照）。逆に言うと、雑音強度比がユーザ音声強度比よりも小さくなるように設計された音声入力装置１によると、精度の高い雑音除去機能を実現することができる。

４．本実施の形態に係る音声入力装置１の製造方法
以下、本実施の形態に係る音声入力装置１の製造方法について説明する。本実施の形態では、第１及び第２の音孔４１，５１の中心間距離Δｒと雑音の波長λとの比率を示すΔｒ／λの値と、雑音強度比（雑音の位相成分に基づく強度比）との対応関係を示すデータを利用して、音声入力装置１を製造している。なお、音声入力装置２及び３についても、同様の方法で製造することができる。

雑音の位相成分に基づく強度比は、上述した式（１８）で表される。そのため、雑音の位相成分に基づく強度比のデシベル値は、以下の式で表すことができる。

そして、式（２０）のαに各値を代入すれば、位相差αと、雑音の位相成分に基づく強度比との対応関係を明らかにすることができる。図１０には、横軸をα／２πとし、縦軸に雑音の位相成分に基づく強度比（デシベル値）を取った時の、位相差と強度比との対応関係を表すデータの一例を示す。

なお、位相差αは、式（１２）に示すように、距離Δｒと波長λとの比であるΔｒ／λの関数で表すことができ、図１０の横軸は、Δｒ／λとみなすことができる。すなわち、図１０は、雑音の位相成分に基づく強度比と、Δｒ／λとの対応関係を示すデータであるといえる。

本実施の形態では、このデータを利用して、音声入力装置１を製造する。図１１は、このデータを利用して音声入力装置１を製造する手順について説明するためのフローチャート図である。

はじめに、雑音の強度比（雑音の位相成分に基づく強度比）と、Δｒ／λとの対応関係を示すデータ（図１０参照）を用意する（ステップＳ１０）。

次に、用途に応じて、雑音の強度比を設定する（ステップＳ１２）。なお、本実施の形態では、雑音の強度が低下するように雑音の強度比を設定する必要がある。そのため、本ステップでは、雑音の強度比を、０ｄＢ以下に設定する。

次に、当該データに基づいて、雑音の強度比に対応するΔｒ／λの値を導出する（ステップＳ１４）。

そして、λに主要な雑音の波長を代入することによって、Δｒが満たすべき条件を導出する（ステップＳ１６）。

具体例として、音声認識システムや音声翻訳システムで使用される音声周波数帯域の上限である７ｋＨｚ、その波長が約０．０５０ｍとなる環境下で、雑音の強度比が０ｄＢ以下になる音声入力装置１を製造する場合について考える。

図１０を参照すると、雑音の強度比を０ｄＢ以下とするためには、Δｒ／λの値を約０．１６以下とすればよいことがわかる。そして、Δｒの値が約８ｍｍ以下とすればよいことがわかる。すなわち、Δｒの値を、例えば８．１ｍｍ以下に設定すれば、雑音除去機能を有する音声入力装置を製造することが可能になる。

なお、通常、雑音は単一の周波数に限定されるものではない。しかし、想定された周波数よりも周波数の低い雑音は、想定された周波数の音波よりも波長が長くなるため、Δｒ／λの値は小さくなり、この音声入力装置１で除去される。また、音波は、周波数が高いほどエネルギーの減衰が早い。そのため、想定された周波数よりも周波数の高い雑音は、想定された周波数の音波よりも早く減衰するため、音声入力装置１に与える影響を無視することができる。このことから、本実施の形態に係る音声入力装置１は、想定された周波数の音波とは異なる周波数の雑音が存在する環境下でも、優れた雑音除去機能を発揮することができる。

また、本実施の形態では、式（１２）からもわかるように、第１及び第２の音孔４１，５１を結ぶ直線上から入射する雑音を想定した。この雑音は、第１及び第２の音孔４１，５１の見かけ上の間隔が最も大きくなる雑音であり、現実の使用環境において、位相差が最も大きくなる雑音である。すなわち、本実施の形態に係る音声入力装置１は、位相差が最も大きくなる雑音を除去することが可能に構成されている。そのため、本実施の形態に係る音声入力装置１によると、すべての方向から入射する雑音を除去することができる。

５．本実施の形態に係る音声入力装置１の雑音除去効果
以下、音声入力装置１が奏する効果についてまとめる。なお、音声入力装置２及び３についても同様の効果を奏する。

先に説明したように、音声入力装置１によると、複雑な解析演算処理を行うことなく雑音除去機能を実現することができる。そのため、簡単な構成で、深い雑音除去が可能な高品質の音声入力装置を提供することができる。特に、第１及び第２の音孔４１，５１の中心間距離Δｒを８．１ｍｍ以下に設定することで、位相歪が少なく、より精度の高い雑音除去機能を実現することが可能な音声入力装置を提供することができる。

また、複雑な解析演算処理を必要としないため、リアルタイムに話者音声を送信することが可能になる。

次に、音声入力装置１が奏する遅延歪除去効果について説明する。なお、音声入力装置２についても同様の効果を奏する。

先に説明したように、ユーザ音声強度比ρ（Ｓ）は以下の式（８）で表される。

ここで、ユーザ音声強度比ρ（Ｓ）の位相成分ρ（Ｓ）_phaseは、sinωt−sin（ωt−α）の項である。式（８）に、

と

を代入すると、ユーザ音声強度比ρ（Ｓ）の位相成分ρ（Ｓ）_phaseは、以下の式で表すことができる。

したがって、ユーザ音声強度比ρ（Ｓ）の位相成分ρ（Ｓ）_phaseのデシベル値は、以下の式で表すことができる。

そして、式（２２）のαに各値を代入すれば、位相差αと、ユーザ音声の位相成分に基づく強度比との対応関係を明らかにすることができる。

図１２から図１４はマイク間距離とユーザ音声強度比ρ（Ｓ）の位相成分ρ（Ｓ）_phaseの関係について説明するための図である。図１２から図１４は横軸はΔｒ／λであり、縦軸はユーザ音声強度比ρ（Ｓ）の位相成分ρ（Ｓ）_phaseである。ユーザ音声強度比ρ（Ｓ）の位相成分ρ（Ｓ）_{ph ase}とは差動マイクと単体マイクの音圧比の位相成分（ユーザ音声の位相成分に基づく強度比）であり、差動マイクを構成するマイクを単体マイクとして使用した場合の音圧が差動音圧と同じになるところを０デシベルとしている。

すなわち図１２から図１４のグラフは、Δｒ／λに対応した差動音圧の遷移を示しており、縦軸が０デシベル以上のエリアは、遅延歪（ノイズ）が大きいと考えることができる。

現行の電話回線は３．４ｋＨｚの音声周波数帯域で設計されているが、音声認識システムや音声翻訳システムでは７ｋＨｚの周波数まで忠実に再現する必要があるので、以下、７ｋＨｚの音声周波数帯域を想定した場合における、遅延による音声歪みの影響について考察する。

図１２はマイク間距離（Δｒ）が８．１ｍｍである場合の、１ｋＨｚ、７ｋＨｚの周波数の音を差動マイクでとらえた場合のユーザ音声強度比ρ（Ｓ）の位相成分ρ（Ｓ）_phaseの分布を示している。

マイク間距離が８．１ｍｍの場合には、図１２に示すように１ｋＨｚ、７ｋＨｚのいずれの周波数の音についてもユーザ音声強度比ρ（Ｓ）の位相成分ρ（Ｓ）_phaseは０デシベル以下である。

また図１３はマイク間距離（Δｒ）が２０ｍｍである場合の、１ｋＨｚ、７ｋＨｚの周波数の音を差動マイクでとらえた場合のユーザ音声強度比ρ（Ｓ）の位相成分ρ（Ｓ）_phaseの分布を示している。

マイク間距離が２０ｍｍになると、図１３に示すように１ｋＨｚの周波数の音についてはユーザ音声強度比ρ（Ｓ）の位相成分ρ（Ｓ）_phaseは０デシベル以下であるが、７ｋＨｚの周波数の音についてはユーザ音声強度比ρ（Ｓ）の位相成分ρ（Ｓ）_phaseが０デシベル以上となり遅延歪（ノイズ）が大きくなっている。なお、ユーザ音声強度比ρ（Ｓ）の位相成分ρ（Ｓ）_phaseが０デシベルとなる周波数は２．８ｋＨｚである。

また図１４はマイク間距離（Δｒ）が３０ｍｍである場合の、１ｋＨｚ、７ｋＨｚの周波数の音を差動マイクでとらえた場合のユーザ音声強度比ρ（Ｓ）の位相成分ρ（Ｓ）_phaseの分布を示している。

マイク間距離が３０ｍｍになると、図１４に示すように１ｋＨｚの周波数の音についてはユーザ音声強度比ρ（Ｓ）の位相成分ρ（Ｓ）_phaseは０デシベル以下であるが、７ｋＨｚの周波数の音についてはユーザ音声強度比ρ（Ｓ）の位相成分ρ（Ｓ）_phaseが０デシベル以上となり遅延歪（ノイズ）が大きくなっている。なお、ユーザ音声強度比ρ（Ｓ）の位相成分ρ（Ｓ）_phaseが０デシベルとなる周波数は１．９ｋＨｚである。

したがってマイク間距離を８．１ｍｍ以下にすることで、周波数が７ｋＨｚ帯域まで話者音声を忠実に抽出し、かつ遠方雑音の抑制効果の高い音声入力装置を実現することができる。

本実施の形態では第１及び第２の音孔４１，５１の中心間距離を８．１ｍｍ以下にすることで、７ｋＨｚ帯域まで話者音声を忠実に抽出し、かつ遠方雑音の抑制効果の高い音声入力装置を実現することができる。

また、音声入力装置１では、位相差が最も大きくなる雑音を除去することができるように、第１及び第２の音孔４１，５１を設計することが可能になる。そのため、この音声入力装置１によると、全方位から入射する雑音を除去することができる。すなわち、本発明によると、全方位から入射する雑音を除去することが可能な音声入力装置を提供することができる。

図１５（Ａ）（Ｂ）から図１７（Ａ）（Ｂ）は周波数とマイク間距離とマイク−音源間の距離毎の差動マイクの指向特性について説明するための図である。

図１５（Ａ）（Ｂ）はマイク間距離が８．１ｍｍ、マイク−音源間距離が１ｍ（遠方雑音に相当）の場合において、音源の周波数がそれぞれ１ｋＨｚ、７ｋＨｚの場合の差動マイクの指向特性を示す図である。

１１１０は差動マイクの全方位に対する感度（差動音圧）を示すグラフであり、差動マイクの指向特性を示している。また１１１２は差動マイクを単体マイクとして使用した場合の全方位に対する感度（音圧）を示すグラフであり、単体マイクの均等特性を示している。

１１１４はマイクを２つ用いて差動マイクを構成する場合の両マイクを結ぶ直線の方向又はマイクを１つで差動マイクを実現する場合にマイクの両面に音波を到達させるための第１の音孔４１と第２の音孔５１を結ぶ直線の方向（０度−１８０度、差動マイクを構成する第１の音孔４１と第２の音孔５１はこの直線上に置かれている）を示している。この直線の方向を０度、１８０度とし、この直線の方向と直角な方向を９０度、２７０度とする。

１１１２、１１２２に示すように単体マイクは全方位から均一に音を取っており指向性を有していない。また、１１１０、１１２０に示すように差動マイクは９０度、２７０度方向で多少感度が落ちるが全方位に略均一な指向性を有している。

図１５（Ａ）（Ｂ）に示すようにマイク間距離が８．１ｍｍの場合には、音源の周波数が１ｋＨｚ、７ｋＨｚの場合ともに、差動マイクの指向特性を示す差動音圧のグラフ１１１０、１１２０の示す領域は、それぞれ単体マイクの均等特性を示すグラフ１１１２、１１２２の示す領域に内包されており、差動マイクは単体マイクに比べ遠方雑音の抑制効果に優れているといえる。

図１６（Ａ）（Ｂ）はマイク間距離が２０ｍｍ、マイク−音源間距離が１ｍの場合において、音源の周波数がそれぞれ１ｋＨｚ、７ｋＨｚの場合の差動マイクの指向特性を示す図である。

図１６（Ａ）に示すように、音源の周波数が１ｋＨｚの場合には、差動マイクの指向特性を示すグラフ１１３０は、単体マイクの均等特性を示すグラフ１１３２の示す領域に内包されており、差動マイクは単体マイクに比べ遠方雑音の抑制効果に優れているといえる。しかし、図１６（Ｂ）に示すように、音源の周波数が７ｋＨｚの場合には、差動マイクの指向特性を示すグラフ１１４０は、単体マイクの均等特性を示すグラフ１１４２の示す領域に内包されておらず、差動マイクは単体マイクに比べ遠方雑音の抑制効果に優れているとはいえない。

図１７（Ａ）（Ｂ）はマイク間距離が３０ｍｍ、マイク−音源間距離が１ｍの場合において、音源の周波数がそれぞれ１ｋＨｚ、７ｋＨｚの場合の差動マイクの指向特性を示す図である。

図１７（Ａ）に示すように、音源の周波数が１ｋＨｚの場合には、差動マイクの指向特性を示すグラフ１１５０は、単体マイクの均等特性を示すグラフ１１５２の示す領域に内包されており、差動マイクは単体マイクに比べ遠方雑音の抑制効果に優れているといえる。しかし、図１７（Ｂ）に示すように、音源の周波数が７ｋＨｚの場合には、差動マイクの指向特性を示すグラフ１１６０は、単体マイクの均等特性を示すグラフ１１６２の示す領域に内包されておらず、差動マイクは単体マイクに比べ遠方雑音の抑制効果に優れているとはいえない。

したがって、差動マイクのマイク間距離を８．１ｍｍ以下にすることで、７ｋＨｚ以下の周波数の音については全方位の遠方雑音の抑圧効果が単体マイクに比べ高いといえる。

なお振動板１つで差動マイクを実現する場合にも、マイクの両面に音波を到達させるための第１の音孔４１と第２の音孔５１の距離について上記と同様のことがいえる。したがって、本実施の形態では第１及び第２の音孔４１，５１の中心間距離を８．１ｍｍ以下にすることで、７ｋＨｚ以下の音については指向性によらず全方位の遠方雑音を抑圧することが可能なマイクロフォンユニットを実現することができる。

なお、音声入力装置１によると、壁などで反射した後に第１及び第２の音孔４１，５１に入射したユーザ音声成分も除去することができる。詳しくは、壁などで反射したユーザ音声は、長距離を伝搬した後に音声入力装置１に入射するため、通常のユーザ音声よりも遠くに存在する音源から発生した音声であるとみなすことができ、かつ、反射により大きくエネルギーを消失しているため、雑音成分と同様に、第１及び第２の音孔４１，５１の間で音圧が大きく減衰することがない。そのため、この音声入力装置１によると、壁などで反射した後に入射するユーザ音声成分も、雑音と同様に（雑音の一種として）除去される。

同様に、ハウリングした音や、工事現場等の大きな非定常雑音についても、全方位に亘って抑圧することができる。

そして、音声入力装置１を利用すれば、雑音を含まない、ユーザ音声を示す信号を取得することができる。そのため、音声入力装置１を利用することで、精度の高い音声認識や音声認証、コマンド生成処理や音声リモコンシステムを実現することができる。

６．音声リモコンシステムの構成例
図１８は、本実施の形態に係る音声入力装置の一例を示す概略図である。図１８において、音声入力装置１は、電子機器３００の上に配置され、電子機器３００を遠隔操作するための音声リモコンシステム５００の一部として構成されている。電子機器１００は、例えばテレビやパソコン、ＤＶＤプレーヤであってもよい。音声入力装置１と電子機器３００とは、出力インターフェイス７０を介して通信する。

音声リモコンシステム５００は、音声認識技術を用いてユーザ（話者）の音声による命令を解析し、電子機器３００を制御する。音声認識処理は、音声入力装置１の信号処理部６０で行ってもよいし、電子機器３００で行ってもよい。

これにより、ユーザ（話者）は、音声入力装置１から数ｍ離れた場所から電子機器３００に対する命令を音声で指示することにより、電子機器１００を操作することができる。

本実施の形態に係る音声リモコンシステム５００によれば、周囲雑音と遅延歪とをともに抑制し、話者音声を忠実に抽出できるため、音声認識率の高い音声リモコンシステムを実現することができる。

なお、上述の音声入力装置１に代えて、上述の音声入力装置２乃至４のいずれかを用いても同様の効果が得られる。

上記実施の形態に記載の音声入力装置に含まれる反射板１０は、テレビ又はテレビリモコン等の上部に設けるものであってもよい。また、デザイン的に考慮し、通常はテレビ又はテレビリモコン等の背面に配置し、必要時にユーザの操作によってユーザの前に現れる構成でもよい。

本発明は、実施の形態で説明した構成と実質的に同一の構成（例えば、機能、方法及び結果が同一の構成、あるいは目的及び効果が同一の構成）を含む。また、本発明は、実施の形態で説明した構成の本質的でない部分を置き換えた構成を含む。また、本発明は、実施の形態で説明した構成と同一の作用効果を奏する構成又は同一の目的を達成することができる構成を含む。また、本発明は、実施の形態で説明した構成に公知技術を付加した構成を含む。

本実施の形態に係る音声入力装置の構成例を示す機能ブロック図。本実施の形態に係る音声入力装置の構成例を示す図。本実施の形態に係る音声入力装置の構成例を示す図。コンデンサ型マイクロホンの構成例。焦点からの距離とマイクロホンの感度の関係を示すグラフ。本実施の形態に係る音声入力装置の構成例を示す図。本実施の形態に係る音声入力装置の構成例を示す図。本実施の形態に係る音声入力装置の構成例を示す図。音波の減衰特性について説明するための図。位相差と強度比との対応関係を表すデータの一例を示す図。音声入力装置を製造する手順を示すフローチャート。音声強度比の分布について説明するための図。音声強度比の分布について説明するための図。音声強度比の分布について説明するための図。差動マイクの指向特性について説明するための図。差動マイクの指向特性について説明するための図。差動マイクの指向特性について説明するための図。本実施の形態に係る音声リモコンシステムの構成例を示す図。反射板の焦点、第１の音孔及び第２の音孔の位置関係を説明するための模式図。

符号の説明

１，２，３，４音声入力装置、１０反射板、１１回転放物曲面、１２支持部、２０マイク保持部、２０−１，２０−２，２３，２４マイク保持部材、２２調節部、２５取付部、４０第１のマイクロホン、４１第１の音孔、４２第１の振動板、４５共通振動板、５０第２のマイクロホン、５１第２の音孔、５２第２の振動板、６０信号処理部、７０出力インターフェイス、９０内部空間、９１第１の内部空間、９２第２の内部空間、２００コンデンサ型マイクロホン、２０２振動板、２０４電極、３００電子機器、５００音声リモコンシステム

Claims

第１のマイクロホン及び第２のマイクロホンを含み、音声を入力して音声信号を生成する音声入力装置において、
回転放物曲面を有する反射板と、
前記第１のマイクロホンに対応する第１の音孔と、
前記第２のマイクロホンに対応する第２の音孔と、
前記反射板の回転放物曲面に設けられ、前記第１の音孔及び前記第２の音孔を有するマイク保持部と、
前記第１のマイクロホン及び前記第２のマイクロホンの出力に基づく信号処理を行う信号処理部とを含み、
前記第１の音孔と前記第２の音孔との距離が、所与の周波数帯域の音に対して、前記第１の音孔に入射する音声の音圧の強度に対する、前記第１の音孔と前記第２の音孔に入射する音声の差分音圧に含まれる音声成分の強度の比率である音声強度比の位相成分が０ｄＢ以下となる距離に設定されていることを特徴とする音声入力装置。
請求項１に記載の音声入力装置において、
前記所与の周波数帯域は、７ｋＨｚ以下の周波数帯域であることを特徴とする音声入力装置。
第１のマイクロホン及び第２のマイクロホンを含み、音声を入力して音声信号を生成する音声入力装置において、
回転放物曲面を有する反射板と、
前記第１のマイクロホンに対応する第１の音孔と、
前記第２のマイクロホンに対応する第２の音孔と、
前記反射板の回転放物曲面に設けられ、前記第１の音孔及び前記第２の音孔を有するマイク保持部と、
前記第１のマイクロホン及び前記第２のマイクロホンの出力に基づく信号処理を行う信号処理部とを含み、
前記第１の音孔と前記第２の音孔との距離が８．１ｍｍ以下となる位置に設けられていることを特徴とする音声入力装置。
請求項１乃至３のいずれかに記載の音声入力装置において、
前記第１の音孔は、前記反射板の焦点以外の位置に設けられ、
前記第２の音孔は、前記反射板の焦点と前記第１の音孔とを結ぶ線分上に設けられていることを特徴とする音声入力装置。
請求項１乃至４のいずれかに記載の音声入力装置において、
前記第１の音孔の断面積と前記第２の音孔の断面積とが等しく構成されていることを特徴とする音声入力装置。
請求項１乃至５のいずれかに記載の音声入力装置において、
前記第１の音孔の内部空間の容積と前記第２の音孔の内部空間の容積とが等しく構成されていることを特徴とする音声入力装置。
請求項１乃至６のいずれかに記載の音声入力装置において、
前記第１のマイクロホンに対応する第１の振動板と、
前記第２のマイクロホンに対応する第２の振動板とを含み、
前記第１のマイクロホンにおける前記第１の音孔の開口面から前記第１の振動板までの経路長と、前記第２のマイクロホンにおける前記第２の音孔の開口面から前記第２の振動板までの経路長が等しく構成されていることを特徴とする音声入力装置。
請求項１乃至７のいずれかに記載の音声入力装置において、
前記信号処理部は、前記第１のマイクロホンの出力信号と前記第２のマイクロホンの出力信号との差分信号を生成する差動マイク出力処理を行うことを特徴とする音声入力装置。
請求項８に記載の音声入力装置において、
前記信号処理部は、前記差動マイク出力処理と、前記第１のマイクロホン及び前記第２のマイクロホンの出力信号のいずれかのみに基づく信号を生成する単体マイク出力処理とを切り替える切替処理を行うことを特徴とする音声入力装置。
請求項８に記載の音声入力装置において、
前記信号処理部は、前記第１のマイクロホン及び前記第２のマイクロホンの少なくとも一方の出力感度を変更する感度変更処理を行い、前記感度変更処理後の信号を用いて前記差動マイク出力処理を行うことを特徴とする音声入力装置。
請求項９及び１０のいずれかに記載の音声入力装置において、
前記信号処理部は、前記第１のマイクロホン及び前記第２のマイクロホンの出力感度を検出する感度検出処理を行い、前記感度検出処理結果に基づいて前記切替処理又は前記感度変更処理を行うことを特徴とする音声入力装置。
請求項１乃至６のいずれかに記載の音声入力装置において、
前記第１のマイクロホン及び前記第２のマイクロホンに対応する共通振動板を含み、
前記第１のマイクロホンにおける前記第１の音孔の開口面から前記共通振動板までの経路長と、前記第２のマイクロホンにおける前記第２の音孔の開口面から前記共通振動板までの経路長が等しく構成されていることを特徴とする音声入力装置。
請求項１乃至１２のいずれかに記載の音声入力装置において、
前記マイク保持部は、前記第１の音孔と前記第２の音孔との距離を調節可能に構成されていることを特徴とする音声入力装置。
請求項１乃至１２のいずれかに記載の音声入力装置において、
前記マイク保持部は、前記第１の音孔と前記第２の音孔との距離が固定されていることを特徴とする音声入力装置。
請求項１乃至１４のいずれかに記載の音声入力装置において、
前記マイク保持部は、前記反射板の焦点と前記第１の音孔及び前記第２の音孔との距離を調節可能に構成されていることを特徴とする音声入力装置。
請求項１乃至１５のいずれかに記載の音声入力装置を含むことを特徴とする音声リモコンシステム。