JP2004317942A - 音声処理装置、音声認識装置及び音声処理方法 - Google Patents

音声処理装置、音声認識装置及び音声処理方法 Download PDF

Info

Publication number
JP2004317942A
JP2004317942A JP2003114258A JP2003114258A JP2004317942A JP 2004317942 A JP2004317942 A JP 2004317942A JP 2003114258 A JP2003114258 A JP 2003114258A JP 2003114258 A JP2003114258 A JP 2003114258A JP 2004317942 A JP2004317942 A JP 2004317942A
Authority
JP
Japan
Prior art keywords
audio signal
microphones
audio
gain
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003114258A
Other languages
English (en)
Inventor
Yoshiyasu Yamada
山田  芳靖
Kazuhiro Tsuruta
和弘 鶴田
Yoshimasa Hijikata
啓暢 土方
Taku Kaneko
金子  卓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Denso Corp
Original Assignee
Denso Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Denso Corp filed Critical Denso Corp
Priority to JP2003114258A priority Critical patent/JP2004317942A/ja
Publication of JP2004317942A publication Critical patent/JP2004317942A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】発話区間検出を行うことによって音声認識率を向上させる技術において、接触性雑音の影響を低減する。
【解決手段】音声処理装置50において、複数のマイクロホン3a…dから入力されたそれぞれの音声信号についての音声信号強度の2乗平均値と、前記音声信号が接触雑音によるものであるか否かを区別するための所定の第1の閾値および第1の閾値より大きい第2の閾値とを、比較回路51a…51d、52a…52dが比較し、1つでも2乗平均値が第1の閾値と第2の閾値との間の領域にないものがあれば、当該区間の音声信号の出力をオフする。
【選択図】 図1

Description

【0001】
【発明の属する技術分野】
本発明は、音声の認識を容易にするための音声処理技術に関する。
【0002】
【従来の技術】
音声認識技術においては、正確な認識を実現するために、どこからどこまでが認識させたい言葉であるかをできるだけ正確に音声認識装置に伝達しなければならない。現在もっとも普及している音声認識装置の一つである、自動車のカーナビゲーションシステムにおいての認識動作は次のように行う。まず操作者がPTT(Push To Talk)と呼ばれる押しボタンによって今から操作コマンドを発話することを宣言する。その後に続く発話に関してもその音声レベルを計測し所定の閾値を越えたらそこから一定時間遡った時点で、音声認識を開始する。発話が終了し、音声レベルが閾値を下回ることを検知したら、そこで自動的に音声認識を終了させる。このように発話区間検知は、正確な音声認識を行う上ではきわめて重要で、この検知精度を乱す要因、すなわち周囲の人の存在やノイズ等により容易に認識率は低下する。この問題を解決するために、骨伝導音を利用する方法が提案された。骨伝導音とは声帯や声道で発せられた音声が通常の音声(以後気導音と呼ぶ)のように空気を伝わるのではなく、人体の骨や皮膚組織を伝達するものである。人体組織は空気振動に対してインピーダンスが大きいので、骨伝導音は原理的に環境のノイズを拾いにくい性質がある。従って気導音の代わりに骨伝導音を使って音声認識を行えば、周囲のノイズに影響されにくくなる。しかし骨伝導音は気導音と比較して、高周波数領域が減衰するという特徴があり、そのままでは従来の音声認識装置で認識させるのは困難である。しかし発話区間検知に骨伝導音を利用する場合には、基本的に音質は関係なく発話の有無さえ検知できれば良い。その点に着目して特許文献1では、骨伝導音による発話区間検知技術を提案した。この特許においては、一人の話者から気導音と骨伝導音を同時に採取し、このうち骨伝導音信号の強度が所定の閾値を越えたかどうかによって、オン・オフ信号を発生する。そしてオンと判定された区間においては同時に採取された気導音の信号を有効とし、逆にオフと判定された区間においては無効とする。その結果、骨伝導音信号が閾値を越えたとき、すなわち話者本人が発話している区間のみを抽出することができる。これにより発話区間が正確に抽出された話者のコマンドが、音声認識装置に入力されることにより、さらに高い音声認識率が期待できる。
【0003】
一方骨伝導音を検出する手段としては、圧電効果を持つチタン酸ジルコン酸鉛などの圧電素子を用いた加速度センサを発話者の耳孔等に挿入して用いることが一般的であるが、このときセンサと肌が微小に擦れ合ったり、センサから繋がるケーブル付近に周囲のものあるいは発話者の手などが触れたりしたときに生ずる、いわゆるタッチノイズと呼ばれる接触性雑音が生じやすく、骨伝導音を聞き取りにくくしたり、上記の発話区間検収を行うときに、発話していないのにノイズが生じている部分を発話区間であると誤検出する可能性がある。この問題に関しては従来よりいくつかの対策方法が提案されている。例えば特許文献2で開示されている技術は、骨伝導マイクロホンと外部の筐体の空間を吸振性のある樹脂を充填することによって、外部からの余計な振動が骨伝導マイクロホンに伝達しないようにしている。また、特許文献3では、電気信号の伝わる信号線が繋がる外部筐体と、骨伝導マイクロホン本体が固定されている筐体部分を分離し、それらを吸振性の樹脂で結合することで信号線に触れる等して伝わる余分な振動が骨伝導マイクロホンに伝搬しないようにしている。また、特許文献4では、振動を検知する同一のエレメントを2つ用意してそれぞれを電気的に逆相となるように接続し、片方はタッチノイズの伝わる外側筐体の振動を、もう片方は装着者の骨伝導音を検知できるようにしている。ここで骨伝導音にタッチノイズが重畳されても、キャンセルすることができる。これらの方法のうち、吸振性の材料で防音構造とする場合、これらの材料の吸振性は厚みに比例するものであるが、本発明品のイヤホン大という大きさでは充分な吸振性は期待できない。また逆相接続により電気的にキャンセルする方法も、2つの電気信号の振幅と位相が完璧に揃っていなければ効果は期待できず、実効性に乏しい。
【0004】
【特許文献1】
特願2001−166972号公報
【0005】
【特許文献2】
実公平7−21026号公報
【0006】
【特許文献3】
特開平8−33074号公報
【0007】
【特許文献4】
特開平8−33073号公報
【0008】
【発明が解決しようとしている課題】
本発明は上記点に鑑み、発話区間検出を行うことによって音声認識率を向上させる技術において、接触性雑音の影響を低減することを目的とする。
【0009】
【課題を解決するための手段】
上記目的を達成するため、の請求項1に記載の発明は、複数のマイクロホン(3a…d)から入力されたそれぞれの音声信号についての音声信号強度の区間代表値と、前記音声信号が接触雑音によるものであるか否かを区別するための所定の閾値と、を比較する比較手段(51a…51d、52a…52d)と、前記複数の比較手段の比較結果に基づいて、当該区間の音声信号のうち少なくとも1つの利得を、出力において前記接触雑音が低減されるように調整する利得調整手段(6a、6c、7、9)と、を備えた音声処理装置である。
【0010】
これによって、比較手段が、マイクロホンから入力された音声信号の前記音声信号が接触雑音によるものであるか否かを区別するための所定の閾値と、音声信号強度の区間代表値とを比較し、また利得調整手段が、その比較結果に基づいて、出力において前記接触雑音が低減されるように、当該区間の音声信号のうち少なくとも1つの利得を調整して出力するので、発話区間検出を行うことによって音声認識率を向上させる技術において、接触性雑音の影響を軽減することができる。
【0011】
なお、音声信号強度の代表値とは、時間平均値、最大値、最大値とゼロとの中間値等の、その強度を特徴的に表す代表的な値を含む概念である。また、利得を調整するとは、出力のオン、オフをも含む概念である。また、音声信号強度の代表値と比較する所定の閾値は、入力元のマイクロホン毎に異なっていてもよいし、同一でもよい。また1つのマイクロホンからの入力による音声信号強度の代表値と比較する所定の閾値が複数あってもよいし、1つであってもよい。
【0012】
また、請求項2に記載の発明は、請求項1に記載の音声処理装置において、前記利得調整手段は、前記比較手段の結果として、前期所定の閾値の1つである第1の閾値より小さい前記代表値が1つでもあれば、入力された前記複数のマイクロホンのそれぞれから入力された音声信号の利得を減少させることを特徴とする。
【0013】
なお、利得の減少は、出力のオフも含む概念である。
【0014】
また、請求項3に記載の発明は、請求項1に記載の音声処理装置において、前記利得調整手段は、複数の比較手段の結果として、前記所定の閾値ののうち1つでも、前期所定の閾値の1つである第2の閾値より前記代表値が大きいという結果があれば、入力された前記複数のマイクロホンのそれぞれから入力された音声信号の利得を減少させることを特徴とする請求項1に記載の音声処理装置。
【0015】
また、請求項4に記載の発明は、請求項1に記載の音声処理装置において、前記利得調整手段は、前記複数の比較手段の結果のうち1つでも、前期所定の閾値の1つである第1の閾値より前記代表値が小さいという結果がある場合、または前記複数の比較手段の結果のうち1つでも、前期所定の閾値の1つであり前記第1の閾値よりも大きい第2の閾値より前記代表値が大きいという結果がある場合に、入力された前記複数のマイクロホンのそれぞれから入力された音声信号の利得を減少させることを特徴とする請求項1に記載の音声処理装置。
【0016】
また、請求項5に記載の発明は、請求項4に記載の音声処理装置において、前記利得調整手段は、前記複数の比較手段の比較結果に基づいて、当該区間の音声信号のうちあらかじめ定められた1つの利得を、出力において前記接触雑音が低減されるように調整して出力することを特徴とする。
【0017】
また、請求項6に記載の発明は、請求項5に記載の音声処理装置において、前記あらかじめ定められた1つの音声信号以外で前記比較手段によって前記第1の閾値と比較される音声信号を出力する前記マイクロホンのうち少なくとも1つは、検知できる音声周波数帯域の上限が1kHz以下であることを特徴とする。
【0018】
また、請求項7に記載の発明は、請求項5または6に記載の音声処理装置において、前記あらかじめ定められた1つの音声信号以外で前記比較手段によって前記第2の閾値と比較される音声信号を出力する前記マイクロホンのうち少なくとも1つは、検知できる音声周波数帯域の下限が10kHz以上であることを特徴とする。
【0019】
また、請求項8に記載の発明は、請求項2または4に記載の音声処理装置において、前記利得調整手段は、前記複数の比較手段の結果の全てについて、前記代表値が前記第1の閾値より大きい場合に、前記複数のマイクロホンから入力された音声信号のうちもっとも音声信号強度が低いものを出力することを特徴とする。
【0020】
また、請求項9に記載の発明は、請求項8に記載の音声処理装置において、前記利得調整手段は、出力する音声信号を切り替えるときに、音声信号強度が急激に変化して雑音を生じないように、信号波形の平滑化処理を行うことを特徴とする。
【0021】
また、請求項10に記載の発明は、請求項1ないし9のいずれか1つに記載の音声処理装置において、前記比較手段は、前記複数のマイクロホンから入力された音声信号を一定時間で分割し、この分割された時間区間の平均の信号強度を前記代表値として前記所定の閾値と比較することを特徴とする。
【0022】
また、請求項11に記載の発明は、請求項10に記載の音声処理装置において、前記平均の信号強度は、2乗平均値であることを特徴とする。
【0023】
また、請求項12に記載の発明は、請求項1ないし11のいずれかつに記載の音声処理装置において、前記比較手段は、話者の発話時に人体表面において固体振動として発現する骨伝導音を検知して出力する骨伝導マイクロホンから入力されたそれぞれの音声信号についての音声信号強度の代表値と所定の閾値とを比較することを特徴とする。
【0024】
また、請求項13に記載の発明は、請求項5ないし7のいずれか1つに記載の音声処理装置において、前記あらかじめ定められた音声信号を出力するマイクロホンは骨伝導マイクロホンではなく、それ以外のマイクロホンが骨伝導マイクロホンであることを特徴とする。
【0025】
また、請求項14に記載の発明は、請求項12および13に記載の音声処理装置において、前記骨伝導マイクロホンが、外耳道、鼻骨部、頭頂部、側頭部、後頭部、前額部、乳状突起部、こめかみ、頬部、咽頭部、首のうち、少なくとも一箇所に設置してあることを特徴とする。
【0026】
また、請求項15に記載の発明は、請求項1ないし14のいずれか1つに記載の音声処理装置において、前記利得調整手段は、前記複数の比較手段の比較結果に基づいて、前記複数のマイクロホンから入力された音声信号のうち少なくとも1つの利得を調整して音声認識手段に出力することを特徴とする。
【0027】
また、請求項16に記載の発明は、複数のマイクロホンから入力されたそれぞれの音声信号についての音声信号強度の代表値と所定の閾値とを比較する複数の比較手段(5a)と、
前記複数の比較手段の比較結果に基づいて、前記複数のマイクロホンから入力された音声信号のうち少なくとも1つの利得を調整して出力する利得調整手段(6a、6c、7、9)と、を備えた音声処理方法である。
【0028】
また、請求項17に記載の発明は複数のマイクロホンから入力されたそれぞれの音声信号についての音声信号強度の代表値と所定の閾値とを比較する複数の比較手段(5a)と、
前記複数の比較手段の比較結果に基づいて、前記複数のマイクロホンから入力された音声信号のうち少なくとも1つの利得を調整して出力する利得調整手段(6a、6c、7、9)と、
前記利得調整手段の出力に基づいて音声認識を行う音声認識手段と、を備えた音声処理装置である。
【0029】
なお、上記各手段の括弧内の符号は、後述する実施形態に記載の具体的手段との対応関係を示すものである。
【0030】
【発明の実施の形態】
(第1実施形態)
図1に、本発明の第1実施形態に係る音声処理装置50の構成を示す。この音声処理装置50は、人の発話時の音声を検出して図示しない音声認識装置に出力するための装置であり、複数のマイクロホン3a…d、複数の第1閾値用比較回路51a…51d、複数の第2閾値用比較回路52a…d、第1閾値用発話区間判定回路61、第2閾値用発話区間判定回路62、論理積回路63、出力オンオフ回路7、セレクタ9を有する。
【0031】
マイクロホン3a…dは、音声を電気信号に変換して出力する装置である。本実施形態においては、このマイクロホン3a…dの全てが発話者の発声を検出できるような位置(例えば発話者の体の一部等)に設置される。
【0032】
これらマイクロホン3a…dに対して指や身体組織が触れたり、マイクの出力を伝送するコードがガサついたいりすることによりマイクが雑音を検出することがある。これらの接触性雑音(タッチノイズ)は、その発声原因ゆえに全てのマイクロホン3a…dにおいて検出されることはまれで、マイクロホン3a…dのうちの特定の1つまたは2つによって検出されることがほとんどである。一方、一般的にマイクロホン3a…dからの出力信号の強度は、発話時の音声によるものよりもタッチノイズによるものの方が大きい。
【0033】
本実施形態では、以上の2つの性質を利用して、マイクロホン3a…dからの出力のうち、その時間平均値が所定の第1の閾値より小さいものが1つでもあれば、マイクロホン3a…dが検出しているのは発話による音声でないとみなし、その平均値を算出した時間区間については、入力された複数のマイクロホンのそれぞれから入力された音声信号の外部(本実施形態においては音声認識装置)への出力をオフとする。さらに、マイクロホン3a…dの出力のうち、その時間平均値が所定の第2の閾値より大きいものが1つでもあれば、マイクロホン3a…dが検出しているのは発話による音声でないとみなし、その平均値を算出した時間区間については、入力された複数のマイクロホンのそれぞれから入力された音声信号の外部(本実施形態においては音声認識装置)への出力をオフとする。ただし、第2の閾値は第1の閾値よりも大きいものであり、かつ発話による音声の予想最大値よりも大きいものとする。このように、第1の閾値および第2の閾値は、音声信号が接触雑音によるものであるか否かを区別するための所定の閾値であると言える。
【0034】
第1閾値用比較回路51a…dは、それぞれマイクロホン3a…dからの出力の強度の時間平均値と、上記した第1の閾値との比較を行い、この時間平均値が第1の閾値を上回れば、第1閾値用発話区間判定回路61に出力する信号をハイレベルとし、そうでなければローレベルとする。時間平均値としては、2乗平均値(RMS)等を用いる。
【0035】
図2に、この第1閾値用比較回路51a…dのそれぞれへの入力信号と、第1閾値用比較回路51a…dのそれぞれからの出力信号との関係を示す。図2中、上段のグラフが入力信号を、下段のグラフがその入力信号のRMSを表している。横軸は時間、縦軸が信号の値を示しており、時間方向は時間平均値を求める単位時間11毎に区分されている。図2下段のように、各時間区分においてRMSの値が第1の閾値131を示す実線より大きい場合、第1閾値用比較回路51a…dからの出力はオンとなり、それ以外の場合、第1閾値用比較回路51a…dからの出力はオフとなる。
【0036】
第1閾値用発話区間判定回路61は第1閾値用比較回路51a…dのそれぞれから入力された信号の全てがハイレベルであれば、論理積回路63に出力する信号をハイレベルとし、第1閾値用比較回路51a…dからの信号のうち1つでもローレベルのものがあれば、論理積回路63に出力する信号をローレベルとする。
【0037】
第2閾値用比較回路52a…dは、それぞれマイクロホン3a…dからの出力の強度の時間平均値と、上記した第2の閾値との比較を行い、この時間平均値が第2の閾値を下回れば、第2閾値用発話区間判定回路62に出力する信号をハイレベルとし、そうでなければローレベルとする。時間平均値としては、第1閾値用比較回路51a…dと同様に2乗平均値(RMS)等を用いる。
【0038】
第2閾値用発話区間判定回路62は、第2閾値用比較回路52a…dからの信号が全てハイレベルなら、論理積回路63に出力する信号をハイレベルとし、第2閾値用比較回路52a…dのそれぞれから入力された信号のうち、1つでもローレベルのものがあれば、論理積回路63に出力する信号をローレベルとする。
【0039】
図3に、この第2閾値用比較回路52a…dのそれぞれへの入力信号と、第2閾値用比較回路52a…dのそれぞれからの出力信号との関係を示す。表記の形式は図2と同様である。図3下段のように、各時間区分においてRMSの値が第2の閾値132を示す実線より小さい場合、第2閾値用比較回路52a…dからの出力はハイレベルとなり、それ以外の場合、第2閾値用比較回路52a…dからの出力はローレベルとなる。
【0040】
論理積回路63は、第1閾値用発話区間判定回路61と第2閾値用発話区間判定回路62から入力された信号のうち、1つでもハイレベルのものがあれば、出力オンオフ回路7に出力する信号をハイレベルとし、全てがローレベルであれば出力オンオフ回路7に出力する信号をローレベルとする。
【0041】
このような第1閾値用発話区間判定回路61、第2閾値用発話区間判定回路62、論理積回路63の作動により、第1閾値用比較回路51a…d、および第2閾値用比較回路52a…dからの出力信号が全てハイレベルのときに限り、論理積回路63から出力オンオフ回路7へ出力される信号がハイレベルとなり、それ以外の場合は論理積回路63から出力オンオフ回路7へ出力される信号がローレベルとなる。換言すれば、マイクロホン3a…dからの入力の強度の時間平均の全てが、第1の閾値よりも大きく第2の閾値よりも小さいときに限り、論理積回路63から出力オンオフ回路7へ入力される信号がハイレベルとなる。
【0042】
出力オンオフ回路7は、論理積回路63から入力される信号がハイレベルのとき、マイクロホン3a…dからの出力のそれぞれのセレクタ9への出力をオンとし、論理積回路63から入力される信号がローレベルのとき、マイクロホン3a…dからの出力のそれぞれのセレクタ9への出力をオフとする。
【0043】
セレクタ9は、ROM、RAM、CPU、入力装置等から成る図示しないマイコンを備え、このマイコンはCPUがROMから所定のプログラムを読み出して実行し、適宜出力オンオフ回路7からの信号入力およびRAMへの書き込み・読み出しを行い、切替スイッチ等の入力装置から入力信号を受け付ける。セレクタ9は、このプログラムに基づくマイコンの作動により、出力音声8から入力された音声信号のうちの1つを、外部の音声認識装置に出力する。外部に出力する音声信号の選択は、その時の用途に応じて最も有用なものであってもよいし、ユーザの入力装置の操作による任意の選択によるものであってもよい。有用なものであるか否かの基準としては、出力オンオフ回路7から入力される音声信号に基づいて算出できる音声信号出力強度、周波数特性、S/N比などを用いることが考えられる。用途に応じた最適な音声信号を選択して外部に出力することによって、音声通話、音声認識等のアプリケーションに応じた出力を行えるようになる。
【0044】
以上のような構成の音声処理装置50において、発話者が音声を発すると、全てのマイクロホン3a…dがその音声を受信し、その発話の時間区間における入力音声4のRMSは第1の閾値を超え、かつ第2の閾値より低いので、第1閾値用比較回路51a…d、第2閾値用比較回路52a…dの全ての出力信号はハイレベルとなり、その結果論理積回路63の出力もハイレベルとなる。したがって、出力オンオフ回路7に入力された音声信号はそのままセレクタ9に出力され、セレクタ9はそのうち1つをセレクタ9に接続された音声認識装置等の外部に出力する。
【0045】
また、接触雑音等の外部ノイズ2がマイクロホン3a…dのいずれかにおいて検出されると、マイクロホン3a…dの一部のみが、そのノイズ発生の時間区間における入力音声のRMSは第1の閾値を超え、それ以外は第1の閾値を超えないので、第1閾値用発話区間判定回路61からはローレベル信号が出力される。また、その外部ノイズによる入力音声の強度は第2の閾値より高いと考えられるので、第2閾値用発話区間判定回路62からもローレベル信号が出力される。
したがって、論理積回路63から出力オンオフ回路7へはローレベル信号が出力され、出力オンオフ回路7に入力された音声信号の出力オンオフ回路7への出力はオフとされ、結果として音声認識装置等の外部には音声信号は出力されない。
【0046】
以上のような作動により、第1閾値用比較回路51a…dおよび第2閾値用比較回路52a…dが、マイクロホン3a…dから入力された音声信号の前記音声信号がタッチノイズによるものであるか否かを区別するための所定の第1の閾値および第2の閾値と、音声信号強度の区間代表値とを比較し、第1閾値用発話区間判定回路61、第2閾値用発話区間判定回路62、論理積回路63、出力オンオフ回路7、セレクタ9がその比較結果に基づいて、出力においてタッチノイズが低減されるように、当該区間の音声信号の出力をオン・オフ制御するので、発話区間検出を行うことによって音声認識率を向上させる技術において、接触性雑音の影響を軽減することができる。
【0047】
なお、本実施形態のように第1の閾値と第2の閾値の両方を用いて発話区間の検出を行ってもよいが、これらの閾値のいずれかのみを用いることもできる。例えば第1の閾値のみを用いる場合は、図1の構成から第2閾値用比較回路52a…d、第2閾値用発話区間判定回路62、および論理積回路63を取り除いて、第1閾値用発話区間判定回路61の出力を出力オンオフ回路7に入力するように構成すればよい。また例えば第2の閾値のみを用いる場合は、図1に構成から第1閾値用比較回路51a…d、第1閾値用発話区間判定回路61、論理積回路63取り除いて、第2閾値用発話区間判定回路62の出力を出力オンオフ回路7に入力するように構成にすればよい。
【0048】
(第2実施形態)
次に、本発明の第2実施形態について説明する。図4に、本実施形態に係る音声処理装置50の構成を示す。
【0049】
この音声処理装置50が第1実施形態において図1に示した音声処理装置50と異なる点は、第2閾値用比較回路52a…d、第2閾値用発話区間判定回路62、論理積回路63、最終出力音声10を有しておらず、第1閾値用発話区間判定回路61の出力が直接出力オンオフ回路7に入力され、出力オンオフ回路7は第1閾値用発話区間判定回路61からの入力に基づいてマイクロホン3aの入力を外部に出力している点である。
【0050】
これによって、マイクロホン3a…dからの出力のうち、その時間平均値が所定の第1の閾値より小さいものが1つでもあれば、マイクロホン3a…dが検出しているのは発話による音声でないとみなし、その平均値を算出した時間区間については、マイクロホン3aから入力された音声信号の外部(本実施形態においては音声認識装置)への出力をオフとするが、第2の閾値に基づいた発話区間の検出は行わない。
【0051】
また、第1実施形態の音声処理装置50では複数のマイクロホン3a…dからの入力のうち、セレクタ9によって選択された1つの入力を外部に出力するようになっていたのが、本実施形態においては、あらかじめ外部に出力する音声信号を出力するマイクロホン(以下メインのマイクロホンと記す)がマイクロホン3aに決められている。他のマイクロホン3b…dは、発話の有無を検知し、かつタッチノイズをより分けるための情報を得るためだけに用いる。
【0052】
このような配置をすることで、第1実施形態の効果に加え、メインのマイクロホン3aは音声情報を収録するための高い性能を持った物を使用し、それ以外のマイクロホン3b…dは発話情報の有無を検知できる程度の性能を有する、より簡易的で安価な構成とすることができる。
【0053】
また、このメイン以外のマイクロホン3b…dが、第1の閾値、すなわち発話部の検知を主たる目的とする場合には、検知できる周波数帯域が1kHz以下であるとさらに効果的である。その理由は、人間の発話音声信号のうち、1kHz以下の成分はかなり大きいが、タッチノイズは白色雑音的な周波数成分を持っていて広い周波数領域に成分を持っているので、マイクロホンの検知周波数帯域を1kHz以下にすることで相対的にタッチノイズの比率が減少することで、発話の有無の情報をより正確に検知できることが可能となるからである。
【0054】
この時、マイクロホン自体の性能として1kHz以下のみ検知可能なマイクロホンを使用しても良いし、マイクロホン3b…dと第1閾値用比較回路51b…dの間にカットオフ周波数が1kHzのローパスフィルタを設置することで、第1閾値用比較回路51b…dには1kHz以下のみの音声信号が入力されるようにしてもよい。
【0055】
また、図4において第1閾値用比較回路51a…dのそれぞれを第2閾値用比較回路52a…dに置き換えてもよい。この場合、マイクロホン3a…dの出力のうち、その時間平均値が所定の第2の閾値より大きいものが1つでもあれば、マイクロホン3a…dが検出しているのは発話による音声でないとみなし、その平均値を算出した時間区間については、マイクロホン3aから入力された音声信号の外部(本実施形態においては音声認識装置)への出力をオフとするが、第1の閾値に基づく発話区間の検出は行わない。
【0056】
このような、メイン以外の発話情報検知用のマイクロホン3b…dが第2の閾値に基づいたタッチノイズの検知を主たる目的とする場合には、検知できる周波数帯域が10kHz以上であるとさらに効果的である。その理由は、一般的に人間の発話音声信号は高々数kHzまでの周波数成分しか含まないが、タッチノイズは上述のようにそれ以上の周波数帯域にも存在する。従って、ノイズ検知用のマイクロホンの検知周波数帯域を10kHz以上にすることで相対的にタッチノイズの比率が上昇させることで、発話の有無の情報をより正確に検知できることが可能となるからである。
【0057】
この時、マイクロホン自体の性能として10kHz以上のみ検知可能なマイクロホンを使用してもよいし、マイクロホン3b…dと第2閾値用比較回路52b…dの間にカットオフ周波数が10kHzのハイパスフィルタを設置することで、第2閾値用比較回路52b…dには10kHz以上のみの音声信号が入力されるようにしてもよい。
【0058】
(第3実施形態)
次に、本発明の第3実施形態について説明する。図5に、本実施形態における音声処理装置50の構成を示す。
【0059】
前述の第2実施形態において第1の閾値を用いて発話区間の検出を行った場合は、話者が発話していないときに混入したタッチノイズは、効果的に除去できる。しかしながら話者が発話途中にノイズが混入した場合、その区間は発話区間として検出されてしまい、かつメインのマイクロホン3aの出力の中にノイズが発生した場合には、外部の音声処理装置にノイズが除去されないまま入力音声が伝わってしまう。
【0060】
また、第1実施形態においては、話者が発話しているときに、マイクロホン3a…dのうちのいずれか1つでもその出力にタッチノイズが混入した場合には、そのタッチノイズが混入した時間区間については音声信号が外部に出力されない。
【0061】
この問題を解決するために、本実施形態においては、第1実施形態の音声処理装置50から第2閾値用比較回路52a…d、第2閾値用発話区間判定回路62、および論理積回路63を取り除き、第1閾値用発話区間判定回路61の出力を出力オンオフ回路7に入力するようにする。さらに、セレクタ9を、発話区間であると認定された音声区間、すなわち出力音声8から音声信号の出力があった区間において、複数の入力信号のうちもっとも出力の強度の小さい入力を選択して、外部に出力するようにする。
【0062】
具体的には、セレクタ9のCPUは、入力された複数の信号のうち、既定の時間区間毎に、出力オンオフ回路7から入力された複数の音声信号のその区間内での最大値を検出し、その最大値が最も小さい音声信号を出力する。すなわち、入力された音声信号のうち、その音声信号の最大値が最小であるものを出力する。なお、音声信号の最大値が最小のものではなく、その区間におけるRMS等の時間平均値が最小のものを出力するようになっていてもよい。
【0063】
これは、除去すべきほど耳障りなタッチノイズは通常発話者の発声の情報よりも音圧が高いため、最もノイズが入っていないと推定される音声信号は、最も出力の小さい音声信号であるという推定に基づいた作動である。このような作動により、第1実施形態の効果に加え、外部には非発話時のタッチノイズのみならず発話時のタッチノイズも効果的に除去することが可能となる。
【0064】
(第4実施形態)
次に、本発明の第4実施形態について説明する。本実施形態の音声処理装置50が第3実施形態の音声処理装置50と異なる点は、本実施形態においてはセレクタ9の後段に図6に示すような音声信号分離器25、音声信号バッファ26、音声信号利得調整装置27、および音声信号合成装置28が追加されていることである。
【0065】
第3実施形態において、セレクタ9は発話区間毎に、最も入力信号が小さいものを選択して外部に出力しているため、その区間毎に異なるマイクロホン3a…dからの入力となる可能性が高い。そのため区間の境目付近で音声強度が完全には一致せず、不快な雑音の元になってしまう可能性がある。そこで本実施例では、マイクロホン3a…dが切り替わる境目の音声信号強度をその前後において一致させ、かつその一致させる音声処理を一定の時間の中で徐々に行う。
【0066】
セレクタ9は、第3実施形態の作動の他に、出力する音声信号を切り替えたタイミングで、その旨の切替信号29を音声信号分離器25に出力する。
【0067】
音声信号分離器25は、ROM、RAM、CPU等から成る図示しないマイコンを備え、このマイコンはCPUがROMから所定のプログラムを読み出して実行し、適宜RAMへの書き込み・読み出しを行い、また信号の入出力を行うことでプログラムに規定の作動を実現する。具体的には、音声信号分離器25は、セレクタ9から出力された音声信号および切替信号29を受信すると、切替信号29を受信したタイミングの前および後の時間区間の音声信号を音声信号利得調整装置27に出力し、それ以外の音声信号を音声信号バッファ26に出力する。すなわち、音声信号分離器25は、音声強度の食い違いを含む区間(図6中では音声信号20と21)とそれ以外の区間(図6中では音声信号19と22)を分離する。
【0068】
音声信号利得調整装置27は、ROM、RAM、CPU等から成る図示しないマイコンを備え、このマイコンはCPUがROMから所定のプログラムを読み出して実行し、RAMへの書き込み・読み出しを行うことでプログラムに規定の作動を実現する。具体的には、音声信号利得調整装置27は、図6においては、音声信号20と21の境界で利得が0であり、境界から離れるに従って緩やかに元の利得まで戻すという重みを付けて利得調整を行う。この重みの関数型の具体例としては、図6の音声信号利得調整装置27の内部に示すような、区間の切り替わり点でゼロとなり、その区間からの時間的な乖離に比例して増加し、その増加の結果値が1になればそれより乖離の大きい部分は常に1となるような重み関数49がある。音声信号利得調整装置27は、入力された音声信号にこの重み関数49をかけ合わせたものを音声信号合成装置28に出力する。
【0069】
図7に、音声信号利得調整装置27に入力される信号と音声信号利得調整装置27から出力される信号との関係を示す。この図に示すように、音声信号利得調整装置27へ入力された波形19の最後端部(波形整形前)23および波形21の最前端部(波形整形前)24の波形は、音声信号利得調整装置27から出力されるときには音声強度に飛びのない波形19の最後端部(波形整形後)23’および波形21の最前端部(波形整形後)24’となる。この処理により、例えば図6における音声信号20と21との間で音声強度の食い違いが更正される。
【0070】
音声信号バッファ26は、ROM、RAM、CPU等から成る図示しないマイコンを備え、このマイコンはCPUがROMから所定のプログラムを読み出して実行し、RAMへの書き込み・読み出しを行うことでプログラムに規定の作動を実現する。具体的には、音声信号バッファ26は、音声信号利得調整装置27からの出力と音声信号分離器25から音声信号バッファ26への出力とが元の出力順に並ぶように、音声信号分離器25から入力された音声信号の音声信号合成装置28への出力タイミングを調整する。具体的には、例えば音声信号利得調整装置27における処理に要すると推定される所定の時間分だけ音声信号バッファ26から入力された音声信号の出力を遅延させる。
【0071】
音声信号合成装置28は、重み関数49からの入力と音声信号バッファ26からの入力とを合成して図示しない音声認識装置等に出力する。
【0072】
以上のような作動によって、第3実施形態の効果に加え、出力されるが音声信号が切り替わっても不快な雑音が入ることが無く、切り替えによって生じる違和感を低下させることができる。
【0073】
(他の実施形態)
なお、上記した各実施形態において、マイクロホン3a…dとして、音声の検出に空気振動を用いる通常のマイクロホンでなく、発声した際に生じる人体の通過する音声信号(骨伝導音)を検出する骨伝導マイクロホンを用いてもよい。骨伝導マイクロホンは通常のマイクロホンに比べて周囲の雑音を拾いにくい特徴を持つことから、よりいっそう雑音に強い音声入力システムを実現することが可能である。
【0074】
なお、マイクロホン3a…dは全てが骨伝導マイクロホンである必要はなく、一部が通常のマイクロホンであっても構わない。例えば第2実施例において、音声検出用のマイクロホン3aには従来のマイクロホンを用い、それ以外の発声の有無を検出するためのマイクロホンに骨伝導マイクロホンを用いても良い。それにより、発声区間の検知の精度が向上し、かつ出力される音声信号は、骨伝導マイクより高音質な従来のマイクロホンからの入力信号を用いることができる。
【0075】
図8に、骨伝導マイクロホンの設置場所を例示する。この図に示すように、鼻骨部33、頭頂部34、側頭部35、後頭部36、前額部37、乳状突起部38、こめかみ39、頬部40、咽頭部41、首42などに骨伝導マイクロホンが好適である。
【図面の簡単な説明】
【図1】本発明の第1実施形態に係る音声処理装置50の構成を示す図である。
【図2】第1閾値用比較回路51a…dのそれぞれへの入力信号と、第1閾値用比較回路51a…dのそれぞれからの出力信号との関係を示す図である。
【図3】第2閾値用比較回路52a…dのそれぞれへの入力信号と、第2閾値用比較回路52a…dのそれぞれからの出力信号との関係を示す図である。
【図4】第2実施形態に係る音声処理装置50の構成を示す図である。
【図5】第3実施形態に係る音声処理装置50の構成を示す図である。
【図6】第4実施形態に係る音声処理装置50における、セレクタ9の後段の構成を示す図である。
【図7】音声信号利得調整装置27に入力される信号と音声信号利得調整装置27から出力される信号との関係を示す図である。
【図8】骨伝導マイクロホンの設置場所を例示する図である。
【符号の説明】
1…外部音声、2…外部ノイズ、3…マイクロホン、4…入力音声、
51…第1閾値用比較回路、52…第2閾値用比較回路、
61…第1閾値用発話区間判定回路、62…第2閾値用発話区間判定回路、
63…論理積回路、7…出力オンオフ回路、8…出力音声、9…セレクタ、
10…最終出力音声、11…平均値を求める単位時間、12…平均値、
14…メインマイクロホン、15…サブマイクロホン、16…メイン入力音、
17…サブ入力音声、18…発話区間選択回路、19…波形、20…波形、
21…波形、22…波形、23…波形19の最後端部(波形整形前)、
23’…波形19の最後端部(波形整形後)、
24…波形21の最前端部(波形整形前)、
24’…波形21の最前端部(波形整形後)、
25…音声信号分離器、26…音声信号バッファ、
27…音声信号利得調整装置、28…音声信号合成装置、29…切替信号、
30…気導音マイク、31…骨伝導マイク、32…外耳道、33…鼻骨部、
34…頭頂部、35…側頭部、36…後頭部、37…前額部、
38…乳状突起部、39…こめかみ、40…頬部、41…咽頭部、42…首、
50…音声処理装置、51…重み関数。

Claims (17)

  1. 複数のマイクロホン(3a…d)から入力されたそれぞれの音声信号についての音声信号強度の区間代表値と、前記音声信号が接触雑音によるものであるか否かを区別するための所定の閾値と、を比較する比較手段(51a…51d、52a…52d)と、
    前記複数の比較手段の比較結果に基づいて、当該区間の音声信号のうち少なくとも1つの利得を、出力において前記接触雑音が低減されるように調整する利得調整手段(6a、6c、7、9)と、を備えた音声処理装置。
  2. 前記利得調整手段は、前記比較手段の結果として、前期所定の閾値の1つである第1の閾値より小さい前記代表値が1つでもあれば、入力された前記複数のマイクロホンのそれぞれから入力された音声信号の利得を減少させることを特徴とする請求項1に記載の音声処理装置。
  3. 前記利得調整手段は、複数の比較手段の結果として、前記所定の閾値の
    のうち1つでも、前期所定の閾値の1つである第2の閾値より前記代表値が大きいという結果があれば、入力された前記複数のマイクロホンのそれぞれから入力された音声信号の利得を減少させることを特徴とする請求項1に記載の音声処理装置。
  4. 前記利得調整手段は、前記複数の比較手段の結果のうち1つでも、前期所定の閾値の1つである第1の閾値より前記代表値が小さいという結果がある場合、または前記複数の比較手段の結果のうち1つでも、前期所定の閾値の1つであり前記第1の閾値よりも大きい第2の閾値より前記代表値が大きいという結果がある場合に、入力された前記複数のマイクロホンのそれぞれから入力された音声信号の利得を減少させることを特徴とする請求項1に記載の音声処理装置。
  5. 前記利得調整手段は、前記複数の比較手段の比較結果に基づいて、当該区間の音声信号のうちあらかじめ定められた1つの利得を、出力において前記接触雑音が低減されるように調整して出力することを特徴とする請求項4に記載の音声処理装置。
  6. 前記あらかじめ定められた1つの音声信号以外で前記比較手段によって前記第1の閾値と比較される音声信号を出力する前記マイクロホンのうち少なくとも1つは、検知できる音声周波数帯域の上限が1kHz以下であることを特徴とする請求項5に記載の音声処理装置。
  7. 前記あらかじめ定められた1つの音声信号以外で前記比較手段によって前記第2の閾値と比較される音声信号を出力する前記マイクロホンのうち少なくとも1つは、検知できる音声周波数帯域の下限が10kHz以上であることを特徴とする請求項5または6に記載の音声処理装置。
  8. 前記利得調整手段は、前記複数の比較手段の結果の全てについて、前記代表値が前記第1の閾値より大きい場合に、前記複数のマイクロホンから入力された音声信号のうちもっとも音声信号強度が低いものを出力することを特徴とする請求項2または4に記載の音声処理装置。
  9. 前記利得調整手段は、出力する音声信号を切り替えるときに、音声信号強度が急激に変化して雑音を生じないように、信号波形の平滑化処理を行うことを特徴とする、請求項8に記載の音声処理装置。
  10. 前記比較手段は、前記複数のマイクロホンから入力された音声信号を一定時間で分割し、この分割された時間区間の平均の信号強度を前記代表値として前記所定の閾値と比較することを特徴とする請求項1ないし9のいずれか1つに記載の音声処理装置。
  11. 前記平均の信号強度は、2乗平均値であることを特徴とする請求項10に記載の音声処理装置。
  12. 前記比較手段は、話者の発話時に人体表面において固体振動として発現する骨伝導音を検知して出力する骨伝導マイクロホンから入力されたそれぞれの音声信号についての音声信号強度の代表値と所定の閾値とを比較することを特徴とする、請求項1ないし11のいずれか1つに記載の音声処理装置。
  13. 前記あらかじめ定められた音声信号を出力するマイクロホンは骨伝導マイクロホンではなく、それ以外のマイクロホンが骨伝導マイクロホンであることを特徴とする、請求項5ないし7のいずれか1つに記載の音声処理装置。
  14. 前記骨伝導マイクロホンが、外耳道、鼻骨部、頭頂部、側頭部、後頭部、前額部、乳状突起部、こめかみ、頬部、咽頭部、首のうち、少なくとも一箇所に設置してあることを特徴とする請求項12および13に記載の音声処理装置。
  15. 前記利得調整手段は、前記複数の比較手段の比較結果に基づいて、前記複数のマイクロホンから入力された音声信号のうち少なくとも1つの利得を調整して音声認識手段に出力することを特徴とする請求項1ないし14のいずれか1つに記載の音声処理装置。
  16. 複数のマイクロホンから入力されたそれぞれの音声信号についての音声信号強度の代表値と所定の閾値とを比較する複数の比較手段(5a)と、
    前記複数の比較手段の比較結果に基づいて、前記複数のマイクロホンから入力された音声信号のうち少なくとも1つの利得を調整して出力する利得調整手段(6a、6c、7、9)と、を備えた音声処理方法。
  17. 複数のマイクロホンから入力されたそれぞれの音声信号についての音声信号強度の代表値と所定の閾値とを比較する複数の比較手段(5a)と、
    前記複数の比較手段の比較結果に基づいて、前記複数のマイクロホンから入力された音声信号のうち少なくとも1つの利得を調整して出力する利得調整手段(6a、6c、7、9)と、
    前記利得調整手段の出力に基づいて音声認識を行う音声認識手段と、を備えた音声処理装置。
JP2003114258A 2003-04-18 2003-04-18 音声処理装置、音声認識装置及び音声処理方法 Pending JP2004317942A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003114258A JP2004317942A (ja) 2003-04-18 2003-04-18 音声処理装置、音声認識装置及び音声処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003114258A JP2004317942A (ja) 2003-04-18 2003-04-18 音声処理装置、音声認識装置及び音声処理方法

Publications (1)

Publication Number Publication Date
JP2004317942A true JP2004317942A (ja) 2004-11-11

Family

ID=33473912

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003114258A Pending JP2004317942A (ja) 2003-04-18 2003-04-18 音声処理装置、音声認識装置及び音声処理方法

Country Status (1)

Country Link
JP (1) JP2004317942A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015207002A (ja) * 2009-10-19 2015-11-19 テレフオンアクチーボラゲット エル エム エリクソン(パブル) 音声区間検出器及び方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015207002A (ja) * 2009-10-19 2015-11-19 テレフオンアクチーボラゲット エル エム エリクソン(パブル) 音声区間検出器及び方法

Similar Documents

Publication Publication Date Title
US10433075B2 (en) Low latency audio enhancement
CN104021798B (zh) 用于通过具有可变频谱增益和可动态调制的硬度的算法对音频信号隔音的方法
KR101402551B1 (ko) 음성 활동 감지(vad) 장치 및 잡음 억제 시스템을 함께 이용하기 위한 방법
CN111432303A (zh) 单耳耳机、智能电子设备、方法和计算机可读介质
US11900730B2 (en) Biometric identification
US11842725B2 (en) Detection of speech
JP2002358089A (ja) 音声処理装置及び音声処理方法
EP2482566B1 (en) Method for generating an audio signal
JP2009178783A (ja) コミュニケーションロボット及びその制御方法
CN111464918A (zh) 耳机及耳机组
JP5130298B2 (ja) 補聴器の動作方法、および補聴器
CN115461812A (zh) 认证所接收的语音
WO2020228332A1 (zh) 语音助手系统的控制方法、控制装置及蓝牙耳机
JP2004317942A (ja) 音声処理装置、音声認識装置及び音声処理方法
JP2007267331A (ja) 発話音声収集用コンビネーション・マイクロフォンシステム
JP2007264132A (ja) 音声検出装置及びその方法
US20200007994A1 (en) Binaural hearing aid and method of reducing noise generated by touching hearing aid
JP4635683B2 (ja) 音声認識装置および方法
US11710475B2 (en) Methods and apparatus for obtaining biometric data
JP2000039900A (ja) 自己診断機能付き音声対話装置
JP5249431B2 (ja) 信号経路を分離する方法及び電気喉頭を使用して音声を改良するための使用方法
JP4568905B2 (ja) マイクロホン装置および発話検出装置
CN114374922A (zh) 听力设备系统和其运行方法
CN114838807A (zh) 固体声敏感式加速度传感器的校准方法和系统及其测量信号的校正方法
WO2021239254A1 (en) A own voice detector of a hearing device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050531

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20071019

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071204

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080708