JP2004317942A

JP2004317942A - 音声処理装置、音声認識装置及び音声処理方法

Info

Publication number: JP2004317942A
Application number: JP2003114258A
Authority: JP
Inventors: Yoshiyasu Yamada; 山田　　芳靖; Kazuhiro Tsuruta; 和弘鶴田; Yoshimasa Hijikata; 啓暢土方; Taku Kaneko; 金子　　卓
Original assignee: Denso Corp
Current assignee: Denso Corp
Priority date: 2003-04-18
Filing date: 2003-04-18
Publication date: 2004-11-11

Abstract

【課題】発話区間検出を行うことによって音声認識率を向上させる技術において、接触性雑音の影響を低減する。
【解決手段】音声処理装置５０において、複数のマイクロホン３ａ…ｄから入力されたそれぞれの音声信号についての音声信号強度の２乗平均値と、前記音声信号が接触雑音によるものであるか否かを区別するための所定の第１の閾値および第１の閾値より大きい第２の閾値とを、比較回路５１ａ…５１ｄ、５２ａ…５２ｄが比較し、１つでも２乗平均値が第１の閾値と第２の閾値との間の領域にないものがあれば、当該区間の音声信号の出力をオフする。
【選択図】図１

Description

【０００１】
【発明の属する技術分野】
本発明は、音声の認識を容易にするための音声処理技術に関する。
【０００２】
【従来の技術】
音声認識技術においては、正確な認識を実現するために、どこからどこまでが認識させたい言葉であるかをできるだけ正確に音声認識装置に伝達しなければならない。現在もっとも普及している音声認識装置の一つである、自動車のカーナビゲーションシステムにおいての認識動作は次のように行う。まず操作者がＰＴＴ（ＰｕｓｈＴｏＴａｌｋ）と呼ばれる押しボタンによって今から操作コマンドを発話することを宣言する。その後に続く発話に関してもその音声レベルを計測し所定の閾値を越えたらそこから一定時間遡った時点で、音声認識を開始する。発話が終了し、音声レベルが閾値を下回ることを検知したら、そこで自動的に音声認識を終了させる。このように発話区間検知は、正確な音声認識を行う上ではきわめて重要で、この検知精度を乱す要因、すなわち周囲の人の存在やノイズ等により容易に認識率は低下する。この問題を解決するために、骨伝導音を利用する方法が提案された。骨伝導音とは声帯や声道で発せられた音声が通常の音声（以後気導音と呼ぶ）のように空気を伝わるのではなく、人体の骨や皮膚組織を伝達するものである。人体組織は空気振動に対してインピーダンスが大きいので、骨伝導音は原理的に環境のノイズを拾いにくい性質がある。従って気導音の代わりに骨伝導音を使って音声認識を行えば、周囲のノイズに影響されにくくなる。しかし骨伝導音は気導音と比較して、高周波数領域が減衰するという特徴があり、そのままでは従来の音声認識装置で認識させるのは困難である。しかし発話区間検知に骨伝導音を利用する場合には、基本的に音質は関係なく発話の有無さえ検知できれば良い。その点に着目して特許文献１では、骨伝導音による発話区間検知技術を提案した。この特許においては、一人の話者から気導音と骨伝導音を同時に採取し、このうち骨伝導音信号の強度が所定の閾値を越えたかどうかによって、オン・オフ信号を発生する。そしてオンと判定された区間においては同時に採取された気導音の信号を有効とし、逆にオフと判定された区間においては無効とする。その結果、骨伝導音信号が閾値を越えたとき、すなわち話者本人が発話している区間のみを抽出することができる。これにより発話区間が正確に抽出された話者のコマンドが、音声認識装置に入力されることにより、さらに高い音声認識率が期待できる。
【０００３】
一方骨伝導音を検出する手段としては、圧電効果を持つチタン酸ジルコン酸鉛などの圧電素子を用いた加速度センサを発話者の耳孔等に挿入して用いることが一般的であるが、このときセンサと肌が微小に擦れ合ったり、センサから繋がるケーブル付近に周囲のものあるいは発話者の手などが触れたりしたときに生ずる、いわゆるタッチノイズと呼ばれる接触性雑音が生じやすく、骨伝導音を聞き取りにくくしたり、上記の発話区間検収を行うときに、発話していないのにノイズが生じている部分を発話区間であると誤検出する可能性がある。この問題に関しては従来よりいくつかの対策方法が提案されている。例えば特許文献２で開示されている技術は、骨伝導マイクロホンと外部の筐体の空間を吸振性のある樹脂を充填することによって、外部からの余計な振動が骨伝導マイクロホンに伝達しないようにしている。また、特許文献３では、電気信号の伝わる信号線が繋がる外部筐体と、骨伝導マイクロホン本体が固定されている筐体部分を分離し、それらを吸振性の樹脂で結合することで信号線に触れる等して伝わる余分な振動が骨伝導マイクロホンに伝搬しないようにしている。また、特許文献４では、振動を検知する同一のエレメントを２つ用意してそれぞれを電気的に逆相となるように接続し、片方はタッチノイズの伝わる外側筐体の振動を、もう片方は装着者の骨伝導音を検知できるようにしている。ここで骨伝導音にタッチノイズが重畳されても、キャンセルすることができる。これらの方法のうち、吸振性の材料で防音構造とする場合、これらの材料の吸振性は厚みに比例するものであるが、本発明品のイヤホン大という大きさでは充分な吸振性は期待できない。また逆相接続により電気的にキャンセルする方法も、２つの電気信号の振幅と位相が完璧に揃っていなければ効果は期待できず、実効性に乏しい。
【０００４】
【特許文献１】
特願２００１−１６６９７２号公報
【０００５】
【特許文献２】
実公平７−２１０２６号公報
【０００６】
【特許文献３】
特開平８−３３０７４号公報
【０００７】
【特許文献４】
特開平８−３３０７３号公報
【０００８】
【発明が解決しようとしている課題】
本発明は上記点に鑑み、発話区間検出を行うことによって音声認識率を向上させる技術において、接触性雑音の影響を低減することを目的とする。
【０００９】
【課題を解決するための手段】
上記目的を達成するため、の請求項１に記載の発明は、複数のマイクロホン（３ａ…ｄ）から入力されたそれぞれの音声信号についての音声信号強度の区間代表値と、前記音声信号が接触雑音によるものであるか否かを区別するための所定の閾値と、を比較する比較手段（５１ａ…５１ｄ、５２ａ…５２ｄ）と、前記複数の比較手段の比較結果に基づいて、当該区間の音声信号のうち少なくとも１つの利得を、出力において前記接触雑音が低減されるように調整する利得調整手段（６ａ、６ｃ、７、９）と、を備えた音声処理装置である。
【００１０】
これによって、比較手段が、マイクロホンから入力された音声信号の前記音声信号が接触雑音によるものであるか否かを区別するための所定の閾値と、音声信号強度の区間代表値とを比較し、また利得調整手段が、その比較結果に基づいて、出力において前記接触雑音が低減されるように、当該区間の音声信号のうち少なくとも１つの利得を調整して出力するので、発話区間検出を行うことによって音声認識率を向上させる技術において、接触性雑音の影響を軽減することができる。
【００１１】
なお、音声信号強度の代表値とは、時間平均値、最大値、最大値とゼロとの中間値等の、その強度を特徴的に表す代表的な値を含む概念である。また、利得を調整するとは、出力のオン、オフをも含む概念である。また、音声信号強度の代表値と比較する所定の閾値は、入力元のマイクロホン毎に異なっていてもよいし、同一でもよい。また１つのマイクロホンからの入力による音声信号強度の代表値と比較する所定の閾値が複数あってもよいし、１つであってもよい。
【００１２】
また、請求項２に記載の発明は、請求項１に記載の音声処理装置において、前記利得調整手段は、前記比較手段の結果として、前期所定の閾値の１つである第１の閾値より小さい前記代表値が１つでもあれば、入力された前記複数のマイクロホンのそれぞれから入力された音声信号の利得を減少させることを特徴とする。
【００１３】
なお、利得の減少は、出力のオフも含む概念である。
【００１４】
また、請求項３に記載の発明は、請求項１に記載の音声処理装置において、前記利得調整手段は、複数の比較手段の結果として、前記所定の閾値ののうち１つでも、前期所定の閾値の１つである第２の閾値より前記代表値が大きいという結果があれば、入力された前記複数のマイクロホンのそれぞれから入力された音声信号の利得を減少させることを特徴とする請求項１に記載の音声処理装置。
【００１５】
また、請求項４に記載の発明は、請求項１に記載の音声処理装置において、前記利得調整手段は、前記複数の比較手段の結果のうち１つでも、前期所定の閾値の１つである第１の閾値より前記代表値が小さいという結果がある場合、または前記複数の比較手段の結果のうち１つでも、前期所定の閾値の１つであり前記第１の閾値よりも大きい第２の閾値より前記代表値が大きいという結果がある場合に、入力された前記複数のマイクロホンのそれぞれから入力された音声信号の利得を減少させることを特徴とする請求項１に記載の音声処理装置。
【００１６】
また、請求項５に記載の発明は、請求項４に記載の音声処理装置において、前記利得調整手段は、前記複数の比較手段の比較結果に基づいて、当該区間の音声信号のうちあらかじめ定められた１つの利得を、出力において前記接触雑音が低減されるように調整して出力することを特徴とする。
【００１７】
また、請求項６に記載の発明は、請求項５に記載の音声処理装置において、前記あらかじめ定められた１つの音声信号以外で前記比較手段によって前記第１の閾値と比較される音声信号を出力する前記マイクロホンのうち少なくとも１つは、検知できる音声周波数帯域の上限が１ｋＨｚ以下であることを特徴とする。
【００１８】
また、請求項７に記載の発明は、請求項５または６に記載の音声処理装置において、前記あらかじめ定められた１つの音声信号以外で前記比較手段によって前記第２の閾値と比較される音声信号を出力する前記マイクロホンのうち少なくとも１つは、検知できる音声周波数帯域の下限が１０ｋＨｚ以上であることを特徴とする。
【００１９】
また、請求項８に記載の発明は、請求項２または４に記載の音声処理装置において、前記利得調整手段は、前記複数の比較手段の結果の全てについて、前記代表値が前記第１の閾値より大きい場合に、前記複数のマイクロホンから入力された音声信号のうちもっとも音声信号強度が低いものを出力することを特徴とする。
【００２０】
また、請求項９に記載の発明は、請求項８に記載の音声処理装置において、前記利得調整手段は、出力する音声信号を切り替えるときに、音声信号強度が急激に変化して雑音を生じないように、信号波形の平滑化処理を行うことを特徴とする。
【００２１】
また、請求項１０に記載の発明は、請求項１ないし９のいずれか１つに記載の音声処理装置において、前記比較手段は、前記複数のマイクロホンから入力された音声信号を一定時間で分割し、この分割された時間区間の平均の信号強度を前記代表値として前記所定の閾値と比較することを特徴とする。
【００２２】
また、請求項１１に記載の発明は、請求項１０に記載の音声処理装置において、前記平均の信号強度は、２乗平均値であることを特徴とする。
【００２３】
また、請求項１２に記載の発明は、請求項１ないし１１のいずれかつに記載の音声処理装置において、前記比較手段は、話者の発話時に人体表面において固体振動として発現する骨伝導音を検知して出力する骨伝導マイクロホンから入力されたそれぞれの音声信号についての音声信号強度の代表値と所定の閾値とを比較することを特徴とする。
【００２４】
また、請求項１３に記載の発明は、請求項５ないし７のいずれか１つに記載の音声処理装置において、前記あらかじめ定められた音声信号を出力するマイクロホンは骨伝導マイクロホンではなく、それ以外のマイクロホンが骨伝導マイクロホンであることを特徴とする。
【００２５】
また、請求項１４に記載の発明は、請求項１２および１３に記載の音声処理装置において、前記骨伝導マイクロホンが、外耳道、鼻骨部、頭頂部、側頭部、後頭部、前額部、乳状突起部、こめかみ、頬部、咽頭部、首のうち、少なくとも一箇所に設置してあることを特徴とする。
【００２６】
また、請求項１５に記載の発明は、請求項１ないし１４のいずれか１つに記載の音声処理装置において、前記利得調整手段は、前記複数の比較手段の比較結果に基づいて、前記複数のマイクロホンから入力された音声信号のうち少なくとも１つの利得を調整して音声認識手段に出力することを特徴とする。
【００２７】
また、請求項１６に記載の発明は、複数のマイクロホンから入力されたそれぞれの音声信号についての音声信号強度の代表値と所定の閾値とを比較する複数の比較手段（５ａ）と、
前記複数の比較手段の比較結果に基づいて、前記複数のマイクロホンから入力された音声信号のうち少なくとも１つの利得を調整して出力する利得調整手段（６ａ、６ｃ、７、９）と、を備えた音声処理方法である。
【００２８】
また、請求項１７に記載の発明は複数のマイクロホンから入力されたそれぞれの音声信号についての音声信号強度の代表値と所定の閾値とを比較する複数の比較手段（５ａ）と、
前記複数の比較手段の比較結果に基づいて、前記複数のマイクロホンから入力された音声信号のうち少なくとも１つの利得を調整して出力する利得調整手段（６ａ、６ｃ、７、９）と、
前記利得調整手段の出力に基づいて音声認識を行う音声認識手段と、を備えた音声処理装置である。
【００２９】
なお、上記各手段の括弧内の符号は、後述する実施形態に記載の具体的手段との対応関係を示すものである。
【００３０】
【発明の実施の形態】
（第１実施形態）
図１に、本発明の第１実施形態に係る音声処理装置５０の構成を示す。この音声処理装置５０は、人の発話時の音声を検出して図示しない音声認識装置に出力するための装置であり、複数のマイクロホン３ａ…ｄ、複数の第１閾値用比較回路５１ａ…５１ｄ、複数の第２閾値用比較回路５２ａ…ｄ、第１閾値用発話区間判定回路６１、第２閾値用発話区間判定回路６２、論理積回路６３、出力オンオフ回路７、セレクタ９を有する。
【００３１】
マイクロホン３ａ…ｄは、音声を電気信号に変換して出力する装置である。本実施形態においては、このマイクロホン３ａ…ｄの全てが発話者の発声を検出できるような位置（例えば発話者の体の一部等）に設置される。
【００３２】
これらマイクロホン３ａ…ｄに対して指や身体組織が触れたり、マイクの出力を伝送するコードがガサついたいりすることによりマイクが雑音を検出することがある。これらの接触性雑音（タッチノイズ）は、その発声原因ゆえに全てのマイクロホン３ａ…ｄにおいて検出されることはまれで、マイクロホン３ａ…ｄのうちの特定の１つまたは２つによって検出されることがほとんどである。一方、一般的にマイクロホン３ａ…ｄからの出力信号の強度は、発話時の音声によるものよりもタッチノイズによるものの方が大きい。
【００３３】
本実施形態では、以上の２つの性質を利用して、マイクロホン３ａ…ｄからの出力のうち、その時間平均値が所定の第１の閾値より小さいものが１つでもあれば、マイクロホン３ａ…ｄが検出しているのは発話による音声でないとみなし、その平均値を算出した時間区間については、入力された複数のマイクロホンのそれぞれから入力された音声信号の外部（本実施形態においては音声認識装置）への出力をオフとする。さらに、マイクロホン３ａ…ｄの出力のうち、その時間平均値が所定の第２の閾値より大きいものが１つでもあれば、マイクロホン３ａ…ｄが検出しているのは発話による音声でないとみなし、その平均値を算出した時間区間については、入力された複数のマイクロホンのそれぞれから入力された音声信号の外部（本実施形態においては音声認識装置）への出力をオフとする。ただし、第２の閾値は第１の閾値よりも大きいものであり、かつ発話による音声の予想最大値よりも大きいものとする。このように、第１の閾値および第２の閾値は、音声信号が接触雑音によるものであるか否かを区別するための所定の閾値であると言える。
【００３４】
第１閾値用比較回路５１ａ…ｄは、それぞれマイクロホン３ａ…ｄからの出力の強度の時間平均値と、上記した第１の閾値との比較を行い、この時間平均値が第１の閾値を上回れば、第１閾値用発話区間判定回路６１に出力する信号をハイレベルとし、そうでなければローレベルとする。時間平均値としては、２乗平均値（ＲＭＳ）等を用いる。
【００３５】
図２に、この第１閾値用比較回路５１ａ…ｄのそれぞれへの入力信号と、第１閾値用比較回路５１ａ…ｄのそれぞれからの出力信号との関係を示す。図２中、上段のグラフが入力信号を、下段のグラフがその入力信号のＲＭＳを表している。横軸は時間、縦軸が信号の値を示しており、時間方向は時間平均値を求める単位時間１１毎に区分されている。図２下段のように、各時間区分においてＲＭＳの値が第１の閾値１３１を示す実線より大きい場合、第１閾値用比較回路５１ａ…ｄからの出力はオンとなり、それ以外の場合、第１閾値用比較回路５１ａ…ｄからの出力はオフとなる。
【００３６】
第１閾値用発話区間判定回路６１は第１閾値用比較回路５１ａ…ｄのそれぞれから入力された信号の全てがハイレベルであれば、論理積回路６３に出力する信号をハイレベルとし、第１閾値用比較回路５１ａ…ｄからの信号のうち１つでもローレベルのものがあれば、論理積回路６３に出力する信号をローレベルとする。
【００３７】
第２閾値用比較回路５２ａ…ｄは、それぞれマイクロホン３ａ…ｄからの出力の強度の時間平均値と、上記した第２の閾値との比較を行い、この時間平均値が第２の閾値を下回れば、第２閾値用発話区間判定回路６２に出力する信号をハイレベルとし、そうでなければローレベルとする。時間平均値としては、第１閾値用比較回路５１ａ…ｄと同様に２乗平均値（ＲＭＳ）等を用いる。
【００３８】
第２閾値用発話区間判定回路６２は、第２閾値用比較回路５２ａ…ｄからの信号が全てハイレベルなら、論理積回路６３に出力する信号をハイレベルとし、第２閾値用比較回路５２ａ…ｄのそれぞれから入力された信号のうち、１つでもローレベルのものがあれば、論理積回路６３に出力する信号をローレベルとする。
【００３９】
図３に、この第２閾値用比較回路５２ａ…ｄのそれぞれへの入力信号と、第２閾値用比較回路５２ａ…ｄのそれぞれからの出力信号との関係を示す。表記の形式は図２と同様である。図３下段のように、各時間区分においてＲＭＳの値が第２の閾値１３２を示す実線より小さい場合、第２閾値用比較回路５２ａ…ｄからの出力はハイレベルとなり、それ以外の場合、第２閾値用比較回路５２ａ…ｄからの出力はローレベルとなる。
【００４０】
論理積回路６３は、第１閾値用発話区間判定回路６１と第２閾値用発話区間判定回路６２から入力された信号のうち、１つでもハイレベルのものがあれば、出力オンオフ回路７に出力する信号をハイレベルとし、全てがローレベルであれば出力オンオフ回路７に出力する信号をローレベルとする。
【００４１】
このような第１閾値用発話区間判定回路６１、第２閾値用発話区間判定回路６２、論理積回路６３の作動により、第１閾値用比較回路５１ａ…ｄ、および第２閾値用比較回路５２ａ…ｄからの出力信号が全てハイレベルのときに限り、論理積回路６３から出力オンオフ回路７へ出力される信号がハイレベルとなり、それ以外の場合は論理積回路６３から出力オンオフ回路７へ出力される信号がローレベルとなる。換言すれば、マイクロホン３ａ…ｄからの入力の強度の時間平均の全てが、第１の閾値よりも大きく第２の閾値よりも小さいときに限り、論理積回路６３から出力オンオフ回路７へ入力される信号がハイレベルとなる。
【００４２】
出力オンオフ回路７は、論理積回路６３から入力される信号がハイレベルのとき、マイクロホン３ａ…ｄからの出力のそれぞれのセレクタ９への出力をオンとし、論理積回路６３から入力される信号がローレベルのとき、マイクロホン３ａ…ｄからの出力のそれぞれのセレクタ９への出力をオフとする。
【００４３】
セレクタ９は、ＲＯＭ、ＲＡＭ、ＣＰＵ、入力装置等から成る図示しないマイコンを備え、このマイコンはＣＰＵがＲＯＭから所定のプログラムを読み出して実行し、適宜出力オンオフ回路７からの信号入力およびＲＡＭへの書き込み・読み出しを行い、切替スイッチ等の入力装置から入力信号を受け付ける。セレクタ９は、このプログラムに基づくマイコンの作動により、出力音声８から入力された音声信号のうちの１つを、外部の音声認識装置に出力する。外部に出力する音声信号の選択は、その時の用途に応じて最も有用なものであってもよいし、ユーザの入力装置の操作による任意の選択によるものであってもよい。有用なものであるか否かの基準としては、出力オンオフ回路７から入力される音声信号に基づいて算出できる音声信号出力強度、周波数特性、Ｓ／Ｎ比などを用いることが考えられる。用途に応じた最適な音声信号を選択して外部に出力することによって、音声通話、音声認識等のアプリケーションに応じた出力を行えるようになる。
【００４４】
以上のような構成の音声処理装置５０において、発話者が音声を発すると、全てのマイクロホン３ａ…ｄがその音声を受信し、その発話の時間区間における入力音声４のＲＭＳは第１の閾値を超え、かつ第２の閾値より低いので、第１閾値用比較回路５１ａ…ｄ、第２閾値用比較回路５２ａ…ｄの全ての出力信号はハイレベルとなり、その結果論理積回路６３の出力もハイレベルとなる。したがって、出力オンオフ回路７に入力された音声信号はそのままセレクタ９に出力され、セレクタ９はそのうち１つをセレクタ９に接続された音声認識装置等の外部に出力する。
【００４５】
また、接触雑音等の外部ノイズ２がマイクロホン３ａ…ｄのいずれかにおいて検出されると、マイクロホン３ａ…ｄの一部のみが、そのノイズ発生の時間区間における入力音声のＲＭＳは第１の閾値を超え、それ以外は第１の閾値を超えないので、第１閾値用発話区間判定回路６１からはローレベル信号が出力される。また、その外部ノイズによる入力音声の強度は第２の閾値より高いと考えられるので、第２閾値用発話区間判定回路６２からもローレベル信号が出力される。
したがって、論理積回路６３から出力オンオフ回路７へはローレベル信号が出力され、出力オンオフ回路７に入力された音声信号の出力オンオフ回路７への出力はオフとされ、結果として音声認識装置等の外部には音声信号は出力されない。
【００４６】
以上のような作動により、第１閾値用比較回路５１ａ…ｄおよび第２閾値用比較回路５２ａ…ｄが、マイクロホン３ａ…ｄから入力された音声信号の前記音声信号がタッチノイズによるものであるか否かを区別するための所定の第１の閾値および第２の閾値と、音声信号強度の区間代表値とを比較し、第１閾値用発話区間判定回路６１、第２閾値用発話区間判定回路６２、論理積回路６３、出力オンオフ回路７、セレクタ９がその比較結果に基づいて、出力においてタッチノイズが低減されるように、当該区間の音声信号の出力をオン・オフ制御するので、発話区間検出を行うことによって音声認識率を向上させる技術において、接触性雑音の影響を軽減することができる。
【００４７】
なお、本実施形態のように第１の閾値と第２の閾値の両方を用いて発話区間の検出を行ってもよいが、これらの閾値のいずれかのみを用いることもできる。例えば第１の閾値のみを用いる場合は、図１の構成から第２閾値用比較回路５２ａ…ｄ、第２閾値用発話区間判定回路６２、および論理積回路６３を取り除いて、第１閾値用発話区間判定回路６１の出力を出力オンオフ回路７に入力するように構成すればよい。また例えば第２の閾値のみを用いる場合は、図１に構成から第１閾値用比較回路５１ａ…ｄ、第１閾値用発話区間判定回路６１、論理積回路６３取り除いて、第２閾値用発話区間判定回路６２の出力を出力オンオフ回路７に入力するように構成にすればよい。
【００４８】
（第２実施形態）
次に、本発明の第２実施形態について説明する。図４に、本実施形態に係る音声処理装置５０の構成を示す。
【００４９】
この音声処理装置５０が第１実施形態において図１に示した音声処理装置５０と異なる点は、第２閾値用比較回路５２ａ…ｄ、第２閾値用発話区間判定回路６２、論理積回路６３、最終出力音声１０を有しておらず、第１閾値用発話区間判定回路６１の出力が直接出力オンオフ回路７に入力され、出力オンオフ回路７は第１閾値用発話区間判定回路６１からの入力に基づいてマイクロホン３ａの入力を外部に出力している点である。
【００５０】
これによって、マイクロホン３ａ…ｄからの出力のうち、その時間平均値が所定の第１の閾値より小さいものが１つでもあれば、マイクロホン３ａ…ｄが検出しているのは発話による音声でないとみなし、その平均値を算出した時間区間については、マイクロホン３ａから入力された音声信号の外部（本実施形態においては音声認識装置）への出力をオフとするが、第２の閾値に基づいた発話区間の検出は行わない。
【００５１】
また、第１実施形態の音声処理装置５０では複数のマイクロホン３ａ…ｄからの入力のうち、セレクタ９によって選択された１つの入力を外部に出力するようになっていたのが、本実施形態においては、あらかじめ外部に出力する音声信号を出力するマイクロホン（以下メインのマイクロホンと記す）がマイクロホン３ａに決められている。他のマイクロホン３ｂ…ｄは、発話の有無を検知し、かつタッチノイズをより分けるための情報を得るためだけに用いる。
【００５２】
このような配置をすることで、第１実施形態の効果に加え、メインのマイクロホン３ａは音声情報を収録するための高い性能を持った物を使用し、それ以外のマイクロホン３ｂ…ｄは発話情報の有無を検知できる程度の性能を有する、より簡易的で安価な構成とすることができる。
【００５３】
また、このメイン以外のマイクロホン３ｂ…ｄが、第１の閾値、すなわち発話部の検知を主たる目的とする場合には、検知できる周波数帯域が１ｋＨｚ以下であるとさらに効果的である。その理由は、人間の発話音声信号のうち、１ｋＨｚ以下の成分はかなり大きいが、タッチノイズは白色雑音的な周波数成分を持っていて広い周波数領域に成分を持っているので、マイクロホンの検知周波数帯域を１ｋＨｚ以下にすることで相対的にタッチノイズの比率が減少することで、発話の有無の情報をより正確に検知できることが可能となるからである。
【００５４】
この時、マイクロホン自体の性能として１ｋＨｚ以下のみ検知可能なマイクロホンを使用しても良いし、マイクロホン３ｂ…ｄと第１閾値用比較回路５１ｂ…ｄの間にカットオフ周波数が１ｋＨｚのローパスフィルタを設置することで、第１閾値用比較回路５１ｂ…ｄには１ｋＨｚ以下のみの音声信号が入力されるようにしてもよい。
【００５５】
また、図４において第１閾値用比較回路５１ａ…ｄのそれぞれを第２閾値用比較回路５２ａ…ｄに置き換えてもよい。この場合、マイクロホン３ａ…ｄの出力のうち、その時間平均値が所定の第２の閾値より大きいものが１つでもあれば、マイクロホン３ａ…ｄが検出しているのは発話による音声でないとみなし、その平均値を算出した時間区間については、マイクロホン３ａから入力された音声信号の外部（本実施形態においては音声認識装置）への出力をオフとするが、第１の閾値に基づく発話区間の検出は行わない。
【００５６】
このような、メイン以外の発話情報検知用のマイクロホン３ｂ…ｄが第２の閾値に基づいたタッチノイズの検知を主たる目的とする場合には、検知できる周波数帯域が１０ｋＨｚ以上であるとさらに効果的である。その理由は、一般的に人間の発話音声信号は高々数ｋＨｚまでの周波数成分しか含まないが、タッチノイズは上述のようにそれ以上の周波数帯域にも存在する。従って、ノイズ検知用のマイクロホンの検知周波数帯域を１０ｋＨｚ以上にすることで相対的にタッチノイズの比率が上昇させることで、発話の有無の情報をより正確に検知できることが可能となるからである。
【００５７】
この時、マイクロホン自体の性能として１０ｋＨｚ以上のみ検知可能なマイクロホンを使用してもよいし、マイクロホン３ｂ…ｄと第２閾値用比較回路５２ｂ…ｄの間にカットオフ周波数が１０ｋＨｚのハイパスフィルタを設置することで、第２閾値用比較回路５２ｂ…ｄには１０ｋＨｚ以上のみの音声信号が入力されるようにしてもよい。
【００５８】
（第３実施形態）
次に、本発明の第３実施形態について説明する。図５に、本実施形態における音声処理装置５０の構成を示す。
【００５９】
前述の第２実施形態において第１の閾値を用いて発話区間の検出を行った場合は、話者が発話していないときに混入したタッチノイズは、効果的に除去できる。しかしながら話者が発話途中にノイズが混入した場合、その区間は発話区間として検出されてしまい、かつメインのマイクロホン３ａの出力の中にノイズが発生した場合には、外部の音声処理装置にノイズが除去されないまま入力音声が伝わってしまう。
【００６０】
また、第１実施形態においては、話者が発話しているときに、マイクロホン３ａ…ｄのうちのいずれか１つでもその出力にタッチノイズが混入した場合には、そのタッチノイズが混入した時間区間については音声信号が外部に出力されない。
【００６１】
この問題を解決するために、本実施形態においては、第１実施形態の音声処理装置５０から第２閾値用比較回路５２ａ…ｄ、第２閾値用発話区間判定回路６２、および論理積回路６３を取り除き、第１閾値用発話区間判定回路６１の出力を出力オンオフ回路７に入力するようにする。さらに、セレクタ９を、発話区間であると認定された音声区間、すなわち出力音声８から音声信号の出力があった区間において、複数の入力信号のうちもっとも出力の強度の小さい入力を選択して、外部に出力するようにする。
【００６２】
具体的には、セレクタ９のＣＰＵは、入力された複数の信号のうち、既定の時間区間毎に、出力オンオフ回路７から入力された複数の音声信号のその区間内での最大値を検出し、その最大値が最も小さい音声信号を出力する。すなわち、入力された音声信号のうち、その音声信号の最大値が最小であるものを出力する。なお、音声信号の最大値が最小のものではなく、その区間におけるＲＭＳ等の時間平均値が最小のものを出力するようになっていてもよい。
【００６３】
これは、除去すべきほど耳障りなタッチノイズは通常発話者の発声の情報よりも音圧が高いため、最もノイズが入っていないと推定される音声信号は、最も出力の小さい音声信号であるという推定に基づいた作動である。このような作動により、第１実施形態の効果に加え、外部には非発話時のタッチノイズのみならず発話時のタッチノイズも効果的に除去することが可能となる。
【００６４】
（第４実施形態）
次に、本発明の第４実施形態について説明する。本実施形態の音声処理装置５０が第３実施形態の音声処理装置５０と異なる点は、本実施形態においてはセレクタ９の後段に図６に示すような音声信号分離器２５、音声信号バッファ２６、音声信号利得調整装置２７、および音声信号合成装置２８が追加されていることである。
【００６５】
第３実施形態において、セレクタ９は発話区間毎に、最も入力信号が小さいものを選択して外部に出力しているため、その区間毎に異なるマイクロホン３ａ…ｄからの入力となる可能性が高い。そのため区間の境目付近で音声強度が完全には一致せず、不快な雑音の元になってしまう可能性がある。そこで本実施例では、マイクロホン３ａ…ｄが切り替わる境目の音声信号強度をその前後において一致させ、かつその一致させる音声処理を一定の時間の中で徐々に行う。
【００６６】
セレクタ９は、第３実施形態の作動の他に、出力する音声信号を切り替えたタイミングで、その旨の切替信号２９を音声信号分離器２５に出力する。
【００６７】
音声信号分離器２５は、ＲＯＭ、ＲＡＭ、ＣＰＵ等から成る図示しないマイコンを備え、このマイコンはＣＰＵがＲＯＭから所定のプログラムを読み出して実行し、適宜ＲＡＭへの書き込み・読み出しを行い、また信号の入出力を行うことでプログラムに規定の作動を実現する。具体的には、音声信号分離器２５は、セレクタ９から出力された音声信号および切替信号２９を受信すると、切替信号２９を受信したタイミングの前および後の時間区間の音声信号を音声信号利得調整装置２７に出力し、それ以外の音声信号を音声信号バッファ２６に出力する。すなわち、音声信号分離器２５は、音声強度の食い違いを含む区間（図６中では音声信号２０と２１）とそれ以外の区間（図６中では音声信号１９と２２）を分離する。
【００６８】
音声信号利得調整装置２７は、ＲＯＭ、ＲＡＭ、ＣＰＵ等から成る図示しないマイコンを備え、このマイコンはＣＰＵがＲＯＭから所定のプログラムを読み出して実行し、ＲＡＭへの書き込み・読み出しを行うことでプログラムに規定の作動を実現する。具体的には、音声信号利得調整装置２７は、図６においては、音声信号２０と２１の境界で利得が０であり、境界から離れるに従って緩やかに元の利得まで戻すという重みを付けて利得調整を行う。この重みの関数型の具体例としては、図６の音声信号利得調整装置２７の内部に示すような、区間の切り替わり点でゼロとなり、その区間からの時間的な乖離に比例して増加し、その増加の結果値が１になればそれより乖離の大きい部分は常に１となるような重み関数４９がある。音声信号利得調整装置２７は、入力された音声信号にこの重み関数４９をかけ合わせたものを音声信号合成装置２８に出力する。
【００６９】
図７に、音声信号利得調整装置２７に入力される信号と音声信号利得調整装置２７から出力される信号との関係を示す。この図に示すように、音声信号利得調整装置２７へ入力された波形１９の最後端部（波形整形前）２３および波形２１の最前端部（波形整形前）２４の波形は、音声信号利得調整装置２７から出力されるときには音声強度に飛びのない波形１９の最後端部（波形整形後）２３’および波形２１の最前端部（波形整形後）２４’となる。この処理により、例えば図６における音声信号２０と２１との間で音声強度の食い違いが更正される。
【００７０】
音声信号バッファ２６は、ＲＯＭ、ＲＡＭ、ＣＰＵ等から成る図示しないマイコンを備え、このマイコンはＣＰＵがＲＯＭから所定のプログラムを読み出して実行し、ＲＡＭへの書き込み・読み出しを行うことでプログラムに規定の作動を実現する。具体的には、音声信号バッファ２６は、音声信号利得調整装置２７からの出力と音声信号分離器２５から音声信号バッファ２６への出力とが元の出力順に並ぶように、音声信号分離器２５から入力された音声信号の音声信号合成装置２８への出力タイミングを調整する。具体的には、例えば音声信号利得調整装置２７における処理に要すると推定される所定の時間分だけ音声信号バッファ２６から入力された音声信号の出力を遅延させる。
【００７１】
音声信号合成装置２８は、重み関数４９からの入力と音声信号バッファ２６からの入力とを合成して図示しない音声認識装置等に出力する。
【００７２】
以上のような作動によって、第３実施形態の効果に加え、出力されるが音声信号が切り替わっても不快な雑音が入ることが無く、切り替えによって生じる違和感を低下させることができる。
【００７３】
（他の実施形態）
なお、上記した各実施形態において、マイクロホン３ａ…ｄとして、音声の検出に空気振動を用いる通常のマイクロホンでなく、発声した際に生じる人体の通過する音声信号（骨伝導音）を検出する骨伝導マイクロホンを用いてもよい。骨伝導マイクロホンは通常のマイクロホンに比べて周囲の雑音を拾いにくい特徴を持つことから、よりいっそう雑音に強い音声入力システムを実現することが可能である。
【００７４】
なお、マイクロホン３ａ…ｄは全てが骨伝導マイクロホンである必要はなく、一部が通常のマイクロホンであっても構わない。例えば第２実施例において、音声検出用のマイクロホン３ａには従来のマイクロホンを用い、それ以外の発声の有無を検出するためのマイクロホンに骨伝導マイクロホンを用いても良い。それにより、発声区間の検知の精度が向上し、かつ出力される音声信号は、骨伝導マイクより高音質な従来のマイクロホンからの入力信号を用いることができる。
【００７５】
図８に、骨伝導マイクロホンの設置場所を例示する。この図に示すように、鼻骨部３３、頭頂部３４、側頭部３５、後頭部３６、前額部３７、乳状突起部３８、こめかみ３９、頬部４０、咽頭部４１、首４２などに骨伝導マイクロホンが好適である。
【図面の簡単な説明】
【図１】本発明の第１実施形態に係る音声処理装置５０の構成を示す図である。
【図２】第１閾値用比較回路５１ａ…ｄのそれぞれへの入力信号と、第１閾値用比較回路５１ａ…ｄのそれぞれからの出力信号との関係を示す図である。
【図３】第２閾値用比較回路５２ａ…ｄのそれぞれへの入力信号と、第２閾値用比較回路５２ａ…ｄのそれぞれからの出力信号との関係を示す図である。
【図４】第２実施形態に係る音声処理装置５０の構成を示す図である。
【図５】第３実施形態に係る音声処理装置５０の構成を示す図である。
【図６】第４実施形態に係る音声処理装置５０における、セレクタ９の後段の構成を示す図である。
【図７】音声信号利得調整装置２７に入力される信号と音声信号利得調整装置２７から出力される信号との関係を示す図である。
【図８】骨伝導マイクロホンの設置場所を例示する図である。
【符号の説明】
１…外部音声、２…外部ノイズ、３…マイクロホン、４…入力音声、
５１…第１閾値用比較回路、５２…第２閾値用比較回路、
６１…第１閾値用発話区間判定回路、６２…第２閾値用発話区間判定回路、
６３…論理積回路、７…出力オンオフ回路、８…出力音声、９…セレクタ、
１０…最終出力音声、１１…平均値を求める単位時間、１２…平均値、
１４…メインマイクロホン、１５…サブマイクロホン、１６…メイン入力音、
１７…サブ入力音声、１８…発話区間選択回路、１９…波形、２０…波形、
２１…波形、２２…波形、２３…波形１９の最後端部（波形整形前）、
２３’…波形１９の最後端部（波形整形後）、
２４…波形２１の最前端部（波形整形前）、
２４’…波形２１の最前端部（波形整形後）、
２５…音声信号分離器、２６…音声信号バッファ、
２７…音声信号利得調整装置、２８…音声信号合成装置、２９…切替信号、
３０…気導音マイク、３１…骨伝導マイク、３２…外耳道、３３…鼻骨部、
３４…頭頂部、３５…側頭部、３６…後頭部、３７…前額部、
３８…乳状突起部、３９…こめかみ、４０…頬部、４１…咽頭部、４２…首、
５０…音声処理装置、５１…重み関数。

Claims

複数のマイクロホン（３ａ…ｄ）から入力されたそれぞれの音声信号についての音声信号強度の区間代表値と、前記音声信号が接触雑音によるものであるか否かを区別するための所定の閾値と、を比較する比較手段（５１ａ…５１ｄ、５２ａ…５２ｄ）と、
前記複数の比較手段の比較結果に基づいて、当該区間の音声信号のうち少なくとも１つの利得を、出力において前記接触雑音が低減されるように調整する利得調整手段（６ａ、６ｃ、７、９）と、を備えた音声処理装置。
前記利得調整手段は、前記比較手段の結果として、前期所定の閾値の１つである第１の閾値より小さい前記代表値が１つでもあれば、入力された前記複数のマイクロホンのそれぞれから入力された音声信号の利得を減少させることを特徴とする請求項１に記載の音声処理装置。
前記利得調整手段は、複数の比較手段の結果として、前記所定の閾値の
のうち１つでも、前期所定の閾値の１つである第２の閾値より前記代表値が大きいという結果があれば、入力された前記複数のマイクロホンのそれぞれから入力された音声信号の利得を減少させることを特徴とする請求項１に記載の音声処理装置。
前記利得調整手段は、前記複数の比較手段の結果のうち１つでも、前期所定の閾値の１つである第１の閾値より前記代表値が小さいという結果がある場合、または前記複数の比較手段の結果のうち１つでも、前期所定の閾値の１つであり前記第１の閾値よりも大きい第２の閾値より前記代表値が大きいという結果がある場合に、入力された前記複数のマイクロホンのそれぞれから入力された音声信号の利得を減少させることを特徴とする請求項１に記載の音声処理装置。
前記利得調整手段は、前記複数の比較手段の比較結果に基づいて、当該区間の音声信号のうちあらかじめ定められた１つの利得を、出力において前記接触雑音が低減されるように調整して出力することを特徴とする請求項４に記載の音声処理装置。
前記あらかじめ定められた１つの音声信号以外で前記比較手段によって前記第１の閾値と比較される音声信号を出力する前記マイクロホンのうち少なくとも１つは、検知できる音声周波数帯域の上限が１ｋＨｚ以下であることを特徴とする請求項５に記載の音声処理装置。
前記あらかじめ定められた１つの音声信号以外で前記比較手段によって前記第２の閾値と比較される音声信号を出力する前記マイクロホンのうち少なくとも１つは、検知できる音声周波数帯域の下限が１０ｋＨｚ以上であることを特徴とする請求項５または６に記載の音声処理装置。
前記利得調整手段は、前記複数の比較手段の結果の全てについて、前記代表値が前記第１の閾値より大きい場合に、前記複数のマイクロホンから入力された音声信号のうちもっとも音声信号強度が低いものを出力することを特徴とする請求項２または４に記載の音声処理装置。
前記利得調整手段は、出力する音声信号を切り替えるときに、音声信号強度が急激に変化して雑音を生じないように、信号波形の平滑化処理を行うことを特徴とする、請求項８に記載の音声処理装置。
前記比較手段は、前記複数のマイクロホンから入力された音声信号を一定時間で分割し、この分割された時間区間の平均の信号強度を前記代表値として前記所定の閾値と比較することを特徴とする請求項１ないし９のいずれか１つに記載の音声処理装置。
前記平均の信号強度は、２乗平均値であることを特徴とする請求項１０に記載の音声処理装置。
前記比較手段は、話者の発話時に人体表面において固体振動として発現する骨伝導音を検知して出力する骨伝導マイクロホンから入力されたそれぞれの音声信号についての音声信号強度の代表値と所定の閾値とを比較することを特徴とする、請求項１ないし１１のいずれか１つに記載の音声処理装置。
前記あらかじめ定められた音声信号を出力するマイクロホンは骨伝導マイクロホンではなく、それ以外のマイクロホンが骨伝導マイクロホンであることを特徴とする、請求項５ないし７のいずれか１つに記載の音声処理装置。
前記骨伝導マイクロホンが、外耳道、鼻骨部、頭頂部、側頭部、後頭部、前額部、乳状突起部、こめかみ、頬部、咽頭部、首のうち、少なくとも一箇所に設置してあることを特徴とする請求項１２および１３に記載の音声処理装置。
前記利得調整手段は、前記複数の比較手段の比較結果に基づいて、前記複数のマイクロホンから入力された音声信号のうち少なくとも１つの利得を調整して音声認識手段に出力することを特徴とする請求項１ないし１４のいずれか１つに記載の音声処理装置。
複数のマイクロホンから入力されたそれぞれの音声信号についての音声信号強度の代表値と所定の閾値とを比較する複数の比較手段（５ａ）と、
前記複数の比較手段の比較結果に基づいて、前記複数のマイクロホンから入力された音声信号のうち少なくとも１つの利得を調整して出力する利得調整手段（６ａ、６ｃ、７、９）と、を備えた音声処理方法。
複数のマイクロホンから入力されたそれぞれの音声信号についての音声信号強度の代表値と所定の閾値とを比較する複数の比較手段（５ａ）と、
前記複数の比較手段の比較結果に基づいて、前記複数のマイクロホンから入力された音声信号のうち少なくとも１つの利得を調整して出力する利得調整手段（６ａ、６ｃ、７、９）と、
前記利得調整手段の出力に基づいて音声認識を行う音声認識手段と、を備えた音声処理装置。