JP2004309536A - Speech processing unit - Google Patents
Speech processing unit Download PDFInfo
- Publication number
- JP2004309536A JP2004309536A JP2003098870A JP2003098870A JP2004309536A JP 2004309536 A JP2004309536 A JP 2004309536A JP 2003098870 A JP2003098870 A JP 2003098870A JP 2003098870 A JP2003098870 A JP 2003098870A JP 2004309536 A JP2004309536 A JP 2004309536A
- Authority
- JP
- Japan
- Prior art keywords
- signal
- power
- voice
- noise
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
【0001】
【発明の属する技術分野】
本発明は、例えば、音声認識装置や通話装置に適用される音声処理装置に関する。
【0002】
【従来の技術】
例えば、自動車等の車両に搭載されるナビゲーション装置やオーディオ装置には、マイクロホンから乗員の音声を入力して認識し、該認識内容に基づいて各種処理を行なわせる音声認識装置を備えたものが知られている。また、車両には、運転者が運転中にマイクロホン等(例えば、携帯電話の本体)を持つことなく通話するためのハンズフリー通話装置を備えたものがある。
【0003】
また、このような音声認識装置や通話装置には、2つのマイクロホンを備えて乗員(発話者)が発した声以外の音声を除去するノイズキャンセル機能を実現したものがある(例えば、特許文献1参照)。具体的には、一方のマイクロホンより入力した音声信号から、他方のマイクロホンより入力しノイズキャンセルフィルタによって処理されたノイズ信号を差し引くことで、発話者の声に対応する音声信号(出力信号)を抽出して出力するようになっている。ノイズキャンセルフィルタとしては、適応フィルタが用いられ、上記差分信号である出力信号のパワーが最小となるようにフィルタ係数が更新される構成とされている。
【0004】
しかしながら、ノイズキャンセルフィルタがフィルタ係数を常時更新する構成では、発話者の声がノイズに対し大きい場合に、該発話者の声に対応する信号の一部も除去(キャンセル)され、出力信号に大きな歪が生じてしまう。このため、上記音声認識装置や通話装置では、発話者が発話する際には、該発話者が発話スイッチを押圧操作することで、ノイズキャンセルフィルタのフィルタ係数を固定して発話者の声に対応する信号の一部が除去されることを防止し、このようにして得られた出力信号を受け付けるようになっている。これにより、出力信号の歪みが防止される。
【0005】
さらに、上記のような音声認識装置や通話装置には、上記構成とは別の構成によってノイズキャンセル機能を実現したものが知られている(例えば、特許文献2参照)。この特許文献2記載の車両用音声入力装置は、車両の各座席にそれぞれ対応して複数のマイクロホンを備えており、各マイクロホンから入力した音声信号レベルの過去所定時間における移動平均値に基づいて各閾値(ノイズに対応するパワー)を設定し、何れかのマイクロホンにおける入力信号レベルが対応する閾値を超えると何れかの乗員の発話による音声が入力されたと判断し、かつ、特定の乗員(座席)に対応するマイクロホンからの入力信号レベルが他の乗員に対応するマイクロホンからの入力信号レベルよりも大きい場合に、該特定の乗員が声を発したと判断して出力信号を出力するようになっている。
【0006】
そして、この出力信号は、特定の乗員(座席)に対応するマイクロホンからの入力信号から、他の乗員に対応するマイクロホンからの入力信号を差し引いてノイズ除去された信号とされている。すなわち、この構成では、適応フィルタであるノイズキャンセルフィルタを備えず、基本的に、他の乗員に対応したマイクロホン(特定の乗員に対応するマイクロホンから十分に離間して配置されたもの)からの入力をノイズ信号としている。これにより、この構成では、発話スイッチを操作しなくても、特定の乗員による発話の有無を判断し、該特定の乗員が発話したと判断した場合には、該特定の乗員に対応したマイクロホンからの入力信号からノイズを除去して得た出力信号を音声認識装置に出力することができる。
【0007】
【特許文献1】
特開2000−148200号公報
【特許文献2】
特開平11−65586号公報
【0008】
【発明が解決しようとする課題】
しかしながら、上記前者の構成では、発話者は発話の度に発話スイッチを操作しなければならず、操作が煩雑であるという問題があった。
【0009】
一方、後者の構成では、複数のマイクロホンが異なる乗員に対応して配置されるため、換言すれば、特定の乗員に対応するマイクロホンが1つでありノイズを分離できないため、発話の有無の判断基準である閾値が音声の大小やノイズの大小によって変動しやすく、発話有無の判断精度が悪いという問題があった。したがって、例えば、特定の乗員に対応するマイクロホンの近傍でノイズが発生する(該マイクロホンに大きな入力を与えるノイズが生じる)と、該ノイズは他のマイクロホンへの小さな入力信号によっては除去できず、発話の有無の判断を誤る可能性が高かった。特に、発話有無の判断の際に上記閾値(移動平均値に基づくパワー)と比較される入力信号レベルが瞬時値であるため、この問題が顕著となる。
【0010】
本発明は、上記事実を考慮して、発話者による発話の有無を、マイクロホンから入力される音声信号に基づいて確実に推定することができる音声処理装置を得ることが目的である。
【0011】
【課題を解決するための手段】
上記目的を達成するために請求項1記載の発明に係る音声処理装置は、特定の発話者に対し略対称に配置された第1のマイクロホン及び第2のマイクロホンからそれぞれ入力される第1音声信号及び第2音声信号を処理する音声処理装置であって、前記第1音声信号と第2音声信号とを加算した加算信号のパワーと、前記第1音声信号から第2音声信号を差し引いた差分信号のパワーとを比較して前記発話者による発話の有無を推定する発話状態推定手段を備えた、ことを特徴としている。
【0012】
請求項1記載の音声処理装置では、第1のマイクロホンから第1音声信号が入力されると共に、第2のマイクロホンから第2音声信号が入力される。これらの第1及び第2音声信号は、第1及び第2のマイクロホンが発話者に対し略対称に配置されていることにより、発話者が発した声については位相、大きさとも略同等の信号であり、発話者が発した声以外の音声すなわちノイズについては発生源との相対位置に応じて異なるものとなる。
【0013】
第1及び第2音声信号が入力されると、発話状態推定手段は、第1音声信号と第2音声信号とを加算した加算信号のパワー(以下、音声パワーという)と、第1音声信号から第2音声信号を差し引いた差分信号のパワー(以下、ノイズパワーという)とを比較して、発話者による発話の有無を推定(判定、判断)する。なお、音声パワーとノイズパワーとを直接的に比較せず、これらの一方または双方を適宜処理したパワー等を比較対象としても良いことは言うまでもない。
【0014】
具体的には、音声パワーは、発話者が声を発していないときには、共にノイズのみである第1及び第2音声信号の加算信号のパワーであるから、共にノイズのみである第1及び第2音声信号の差分信号のパワーであるノイズパワーに対する比が小さい。一方、発話者が声を発したときには、上記加算信号のパワーである音声パワーは、該発話者の声に対応する信号のパワーを含むため、上記差分信号のパワーであり発話者の声に対応する信号のパワーを含まないノイズパワーに対する比が十分に大きい。そして、ノイズパワーは、発話者の発話の有無により位相及び大きさに殆ど差を生じないので、例えば、このノイズパワーに適当な係数を乗じた閾値と音声パワーとの比較によって、発話者による発話の有無が推定される。
【0015】
そして、それぞれ特定の発話者に対応して配置された第1及び第2マイクロホンからの第1及び第2音声信号、すなわち空間的な音の情報が含まれた信号に基づいて、発話の有無により影響を受け難いノイズパワーを分離してこれを基準に上記発話の有無を推定するため、ノイズの発生源の位置に依らず、上記発話の有無を確実に推定することができる。しかも、音声パワーとノイズパワーとを比較して発話の有無を推定するため、瞬時値を用いて発話の有無を推定する場合と比較して、誤推定の可能性が著しく低減される。
【0016】
これにより、従来の如く発話スイッチを操作しなくても、発話の有無に基づいた制御を行なうことが可能となる。したがって、例えば、発話有りと推定された場合にのみ音声入力装置(音声認識装置や通や装置等)へ音声信号を出力したり、発話有りと推定された場合にノイズキャンセルフィルタのフィルタ係数を変更したり固定したりする等の制御が可能となる。
【0017】
このように、請求項1記載の音声処理装置では、発話者による発話の有無を、マイクロホンから入力される音声信号に基づいて確実に推定することができる。
【0018】
また、上記目的を達成するために請求項2記載の発明に係る音声処理装置は、特定の発話者に対し略対称に配置された第1のマイクロホン及び第2のマイクロホンからそれぞれ入力される第1音声信号及び第2音声信号を処理する音声処理装置であって、前記第1音声信号と第2音声信号とを加算した加算信号のパワーを計算して音声パワーを得る音声パワー計算手段と、前記第1音声信号から第2音声信号を差し引いた差分信号のパワーを計算してノイズパワーを得るノイズパワー計算手段と、前記音声パワーとノイズパワーとの差分と、該ノイズパワーとを比較して発話の有無を推定する発話状態推定手段と、を備えている。
【0019】
請求項2記載の音声処理装置では、第1のマイクロホンから第1音声信号が入力されると共に、第2のマイクロホンから第2音声信号が入力される。これらの第1及び第2音声信号は、第1及び第2のマイクロホンが発話者に対し略対称に配置されていることにより、発話者が発した声については位相、大きさとも略同等の信号であり、発話者が発した声以外の音声すなわちノイズについては発生源との相対位置に応じて異なるものとなる。
【0020】
第1及び第2音声信号が入力されると、音声パワー計算手段が第1音声信号と第2音声信号とを加算した加算信号のパワーを計算して音声パワーを得ると共に、ノイズパワー計算手段が第1音声信号から第2音声信号を差し引いた差分信号のパワーを計算してノイズパワーを得る。そして、発話状態推定手段は、音声パワーとノイズパワーとの差分(以下、擬似発話パワーという)と、ノイズパワーとを比較することで、発話者による発話の有無を推定(判定、判断)する。
【0021】
具体的には、音声パワーとノイズパワーとの差分である擬似発話パワーは、全音声信号のパワーからノイズ信号のパワーを差し引いたものに略相当し、発話者が声を発していないときには該発話者の声に対応する信号のパワーを含まないためにノイズパワーに対する比が小さく、発話者が声を発したときには該発話者の声に対応する信号のパワーを含むためノイズパワーに対する比が十分に大きい。そして、ノイズパワーは、発話者の発話の有無により位相及び大きさに殆ど差を生じないので、例えば、このノイズパワーに適当な係数を乗じた閾値と擬似発話パワーとの比較によって、発話者による発話の有無が推定される。
【0022】
そして、それぞれ特定の発話者に対応して配置された第1及び第2マイクロホンからの第1及び第2音声信号、すなわち空間的な音の情報が含まれた信号に基づいて、発話の有無により影響を受け難いノイズパワーを分離してこれを基準に上記発話の有無を推定するため、ノイズの発生源の位置に依らず、上記発話の有無を確実に推定することができる。しかも、擬似発話パワーとノイズパワーとを比較して発話の有無を推定するため、瞬時値を用いて発話の有無を推定する場合と比較して、誤推定の可能性が著しく低減される。
【0023】
これにより、従来のように発話スイッチを操作しなくても、発話の有無に基づいた制御を行なうことが可能となる。したがって、例えば、発話有りと推定された場合にのみ音声入力装置(音声認識装置や通や装置等)へ音声信号を出力したり、発話有りと推定された場合にノイズキャンセルフィルタのフィルタ係数を変更したり固定したりすることが可能となる。
【0024】
このように、請求項2記載の音声処理装置では、発話者による発話の有無を、マイクロホンから入力される音声信号に基づいて確実に推定することができる。
【0025】
なお、請求項1及び請求項2におけるパワーは、所定時間(所定移動時間)における信号の2乗平均値に限られず、例えば、所定時間における信号の平均値を含むフィルタ処理結果、パワースペクトル等が含まれる。
【0026】
【発明の実施の形態】
本発明の実施の形態に係る音声処理装置10について、図1に基づいて説明する。図1には、音声処理装置10の全体構成が概略のブロック図にて示されている。この図に示される如く、音声処理装置10は、マイクアレイ12と電気的に接続されており、マイクアレイ12から入力した音声信号を処理する構成とされている。
【0027】
マイクアレイ12は、第1マイクロホン12Aと第2マイクロホン12Bとで構成されており、第1マイクロホン12Aと第2マイクロホン12Bとは、特定の発話者の正面で該発話者に対し略対称に配置されている。すなわち、特定の発話者が発した音声は、第1マイクロホン12Aと第2マイクロホン12Bとに略同等の位相、大きさで入力されるようになっている。
【0028】
これらの第1マイクロホン12A、第2マイクロホン12Bは、それぞれA/D変換器14、16を介して音声処理装置10に電気的に接続されており、音声処理装置10には、A/D変換器14、16によってデジタル化された音声信号が入力される構成である。なお、以下単に「接続」というときは、電気的な接続を意味するものとする。
【0029】
音声処理装置10は、加算部18、減算部20を備えている。加算部18は、A/D変換器14、16とそれぞれ接続されており、A/D変換器14から入力した第1音声信号とA/D変換器16から入力した第2音声信号とを加算して出力する構成である。一方、減算部20は、A/D変換器14から入力した第1音声信号とA/D変換器16から入力した第2音声信号との差分(絶対値)を計算して出力する構成である。
【0030】
また、加算部18は、バンドパスフィルタ(以下、BPFという)22と接続されており、減算部20は、BPF24と接続されている。BPF22、24は、それぞれ加算部18、減算部20から入力した信号から人の音声の周波数帯域以外の信号成分をカットし、人の音声の周波数帯域の音声信号を出力する構成である。
【0031】
さらに、BPF22は、音声パワー計算手段としての音声パワー演算部26に接続されており、BPF24は、ノイズパワー計算手段としてのノイズパワー演算部28に接続されている。音声パワー演算部26は、所定時間におけるBPF22の出力信号のパワーを計算して音声パワーとして出力するようになっており、ノイズパワー演算部28は、上記所定時間におけるBPF24の出力信号のパワーを計算してノイズパワーとして出力するようになっている。これらのパワーは、例えば、上記所定時間における平均値や2乗平均値、パワースペクトル値とすることができるが、本実施の形態では2乗平均値としており、常時更新されるようになっている。
【0032】
さらにまた、音声パワー演算部26及びノイズパワー演算部28は、それぞれ減算部30に接続されている。減算部30は、音声パワー演算部26から入力した音声パワーとノイズパワー演算部28から入力したノイズパワーとの差分を計算して、擬似発話パワーとして出力する構成である。この減算部30は、発話状態推定手段としての発話有無推定部32に接続されている。この発話有無推定部32には、ノイズパワー演算部28も接続されている。
【0033】
そして、発話有無推定部32は、減算部30から入力した擬似発話パワーとノイズパワー演算部28から入力したノイズパワーとを比較して、発話者による発話の有無を推定(判断、判定)する構成とされている。本実施の形態では、発話有無推定部32は、擬似発話パワーの大きさがノイズパワーの大きさの3倍を越えるときに、発話者による発話が為されたと推定し、発話有信号Tを出力するようになっている。
【0034】
この発話有無推定部32は、必要に応じて、音声入力装置34、及び音声出力装置を構成するノイズキャンセルフィルタ36と接続されるようになっている。音声入力装置34は、例えば、ナビゲーション装置等を構成する音声認識装置や移動体電話装置等の通信装置である。また、ノイズキャンセルフィルタ36は、上記音声入力装置34に出力する音声信号からノイズを除去する適応フィルタであり、フィルタ係数を変更可能とされている。そして、発話有無推定部32は、上記発話有信号Tを、音声入力装置34に対してはトリガ情報として出力し、ノイズキャンセルフィルタ36に対しては制御信号として出力する構成である。
【0035】
なお、上記BPF22、24は、上記した周波数帯域の範囲内で、音声パワー演算部26への入力である加算信号と、ノイズパワー演算部28への入力である差分信号とのゲイン差が出やすい帯域(それぞれの帯域が異なっても良い)の信号を通過させる設計とされており、擬似発話パワー(音声パワー)とノイズパワーとを検出しやすいように構成されている。
【0036】
次に、本実施の形態の作用を説明する。
【0037】
図1に示される如く、マイクアレイ12に、その正面から発話者の音声Sが到達すると共に、その正面以外からノイズNが到達した場合、第1マイクロホン12Aには音声S及びノイズN1が入力され、第2マイクロホン12Bには音声S及びノイズN2が入力される。
【0038】
そして、第1マイクロホン12Aから入力した第1音声信号[S+N1]は、A/D変換器14によってデジタル変換された後、音声処理装置10の加算部18、減算部20にそれぞれ出力される。また、第2マイクロホン12Bから入力した第2音声信号(S+N2)は、A/D変換器16によってデジタル変換された後、加算部18、減算部20にそれぞれ出力される。
【0039】
加算部18では、第1音声信号と第2音声信号とを加算して得た加算信号[S+N’](=2S+N1+N2)を出力する。このように、加算信号は、発話者の声に対応した信号成分[S]とノイズに対応したノイズ成分[N’]とを含んでいる。一方、減算部20では、第1音声信号と第2音声信号との差分を計算して得た差分信号[N’’](=N1−N2)を出力する。このように、差分信号は、発話者の声に対応した信号成分[S]を含まず、上記ノイズ成分[N’]に似たノイズ成分[N’’]のみを含んでいる。
【0040】
加算信号は、BPF22で所定の周波数帯域以外の帯域成分がカットされ、音声パワー演算部26に入力される。音声パワー演算部26では、所定時間における加算信号の2乗平均を計算して得た音声パワー[P(S+N’)]を減算部30に出力する。
【0041】
一方、減算信号は、BPF24で所定の周波数帯域以外の帯域成分がカットされ、ノイズパワー演算部28に入力される。ノイズパワー演算部28では、所定時間における加算信号の2乗平均を計算して得たノイズパワー[P(N’’)]を減算部30、発話有無推定部32に出力する。
【0042】
音声パワー及びノイズパワーが入力された減算部30では、該音声パワーからノイズパワーを差し引いて得た擬似発話パワー[P(S’)](=P(S+N’)−P(N’’))を発話有無推定部32に出力する。そして、発話有無推定部32では、擬似発話パワー[P(S’)]とノイズパワー[P(N’’)]とを比較し、P(S’)>3×P(N’’)が成立するときに、発話者による発話が為された推定し、発話有信号Tを出力する。
【0043】
他方、発話がない場合には、音声Sがマイクアレイ12から音声処理装置10に入力されないので、加算部18の出力すなわち音声パワー演算部26への入力は、加算信号[N’](=N1+N2)となり、音声パワー演算部26の出力は、音声パワー[P(N’)]となる。また、減算部20の出力すなわちノイズパワー演算部28への入力は、上記発話がある場合と同じ差分信号[N’’]であり、ノイズパワー演算部28の出力は、ノイズパワー[P(N’’)]である。
【0044】
これにより、減算部30の出力は、擬似発話パワー[P(S’’)](=P(N’)−P(N’’))であり、この擬似発話パワーがノイズパワーの3倍を越えることがなく、発話無しが推定される。
【0045】
このように、音声処理装置10では、発話の有無により影響を受けないノイズパワーを基準として、発話による音声Sに対応する成分を含み得る擬似発話パワーの大小を判断するため、発話者による発話の有無を確実に推定することができる。そして、それぞれ特定の発話者に対応して配置された第1マイクロホン12A、第2マイクロホン12Bからの第1及び第2音声信号、すなわち空間的な音の情報が含まれた信号に基づき上記発話の有無を推定するため、ノイズの発生源の位置に依らず、上記発話の有無を一層確実に推定することができる。さらに、発話の有無を推定するために上記ノイズパワーと擬似発話パワーとを比較するため、瞬時値を用いて発話の有無を推定する場合と比較して、誤推定の可能性が著しく低減される。
【0046】
そして、この推定結果である発話有信号Tを、トリガ情報として音声入力装置34へ出力するため、該音声入力装置34では、発話者が発話スイッチを操作することなく該発話者による発話の有無を検知することが可能となる。同様に、ノイズキャンセルフィルタ36を有する音声出力装置においても、発話者が発話スイッチを操作することなく該発話者による発話の有無を検知することが可能となり、この発話有無に基づいてノイズキャンセルフィルタ36のフィルタ係数を変更する等の制御を行なうことができる。
【0047】
このように、本実施の形態に係る音声処理装置10では、発話者による発話の有無を、マイクアレイ12から入力される音声信号に基づいて確実に推定することができる。
【0048】
次に、音声処理装置10を、自動車等の車両に搭載され音声入力装置34の一形態である音声認識ナビゲーションシステム50に適用した例について図2に基づいて説明する。
【0049】
図2に示される如く、音声認識ナビゲーションシステム50は、車両乗員(本実施の形態では、運転者である発話者)の発する音声を制御コマンドとして制御されるナビゲーション装置であり、相互に接続された音声処理部52と、音声出力部54と、音声認識ナビゲーション装置56とを含み構成されている。
【0050】
音声処理部52は、BPF22、24がそれぞれ音声出力部54の加算部18、減算部20に接続されている点を除き、音声処理装置10と全く同様に構成されている。すなわち、加算部18、減算部20は、音声処理部52と音声出力部54とで共用されている。
【0051】
音声出力部54は、第1マイクロホン12Aと第2マイクロホン12Bとから成るマイクアレイ12と、A/D変換器14、16と、加算部18と、減算部20とを備えており、これらは、上記実施の形態と全く同様に接続されている。第1マイクロホン12A、第2マイクロホン12Bは、車室内における運転席前方のインストルメントパネルやルーフ前端近傍に、上記運転者に対し左右対称に所定の間隔(例えば、100mm)で配置されている。
【0052】
そして、加算部18は、上記の通り音声処理部52のBPF22に接続されると共に、遅延処理部57を介して減算器58に接続されている。一方、減算部20は、上記の通り音声処理部52のBPF24に接続されると共に、ノイズキャンセルフィルタ36の信号入力部に接続されている。
【0053】
ノイズキャンセルフィルタ36は、上記の通り適応フィルタであり、その出力部が減算器58に接続されている。減算器58は、遅延処理部57によってノイズキャンセルフィルタ36における信号処理時間に対応して遅延された加算部18の加算信号と、ノイズキャンセルフィルタ36から入力したノイズ信号(上記差分信号を処理した信号)との差分を計算し、該計算より得た音声信号である擬似発話信号を出力する構成である。
【0054】
この減算器58の出力部は、音声認識ナビゲーション装置56に接続されると共に、ノイズキャンセルフィルタ36の制御入力部に接続されている。すなわち、ノイズキャンセルフィルタ36は、音声信号(擬似発話信号)がフィードバックされるようになっており、通常はこの音声信号(のパワー)が最小となる上記ノイズ信号を出力するように、そのフィルタ係数を更新する構成である。
【0055】
また、このノイズキャンセルフィルタ36の制御入力部は、音声処理部52の発話有無推定部32と接続されており、上記発話有信号Tが制御信号として入力されるようになっている。そして、ノイズキャンセルフィルタ36は、発話有信号Tが入力されている間はフィルタ係数の更新を停止し、発話有信号Tの入力直前のフィルタ係数を維持する構成とされている。
【0056】
さらに、音声処理部52の発話有無推定部32は、音声認識ナビゲーション装置56に接続されており、上記発話有信号Tをトリガ情報として出力するようになっている。この音声認識ナビゲーション装置56は、発話有信号Tが入力されると、音声出力部54の減算器58から入力される音声信号を発話者による発話信号として受け付け、該発話信号に基づいて音声認識処理を行ない、該認識結果を制御コマンドとして使用するようになっている。すなわち、発話者の発した音声に基づいて、地図画面のスクロールやズーム、各種検索等(階層的な仮想制御パネルの切り換え)を行なうようになっている。
【0057】
以上説明した音声認識ナビゲーションシステム50では、マイクアレイ12に、その正面から発話者の音声Sが到達すると共に、その正面以外からノイズNが到達した場合、第1マイクロホン12Aには音声S及びノイズN1が入力され、第2マイクロホン12Bには音声S及びノイズN2が入力される。
【0058】
すると、上記音声処理装置10の場合と同様に、加算部18は加算信号[S+N’]を出力し、減算部20は差分信号[N’’]を出力する。差分信号[N’’]が入力されたノイズキャンセルフィルタ36は、これを処理してノイズ信号[N’’’]を出力する。一方、加算信号[S+N’]が入力された遅延処理部57は、該加算信号を、差分信号[N’’]のノイズキャンセルフィルタ36による処理時間に対応して遅延させて出力する。
【0059】
すると、音声出力部54では、減算器58が、遅延処理部57から入力した加算信号[S+N’]から、ノイズキャンセルフィルタ36から入力したノイズ信号[N’’’]を差し引いて、ノイズ成分を除去した音声信号である擬似発話信号[S’]を出力する。このとき、ノイズキャンセルフィルタ36は、擬似発話信号を最小とするように、換言すれば、時間と共に変化するノイズ成分を極力除去するように、フィルタ係数を更新している。
【0060】
一方、上記加算信号と減算信号とが入力された音声処理部52は、発話有無推定部32で擬似発話パワー[P(S’)]とノイズパワー[P(N’’)]を比較し、P(S’)>3×P(N’’)が成立するときに、この発話有無推定部32では、発話者による発話が為された推定し、発話有信号Tを出力する。
【0061】
そして、音声出力部54のノイズキャンセルフィルタ36は、発話有信号Tが入力されると、そのフィルタ係数を該入力直前のフィルタ係数に固定する。これにより、音声処理部52において発話有りを推定した後においては、減算器58からの出力は、上記発話有信号T出力直前に生じていたノイズに対応したノイズ成分を極力除去する機能を維持しつつ、ノイズキャンセルフィルタ36の擬似発話信号[S’]を最小化する動作によって発話者の声に対応した信号成分[S]の一部が除去される不具合が解消される。
【0062】
すなわち、減算器58からは、発話者の声に対応した信号成分[S]を主成分とし、歪みの少ない良好な擬似発話信号[S’]が出力される。この擬似発話信号は音声認識ナビゲーション装置56に入力され、このとき音声認識ナビゲーション装置56は、発話有信号Tが入力されているため、この擬似発話信号を発話者による発話信号として受け付ける。さらに、音声認識ナビゲーション装置56は、該発話信号に基づいて音声認識処理を行ない、該認識結果を制御コマンドとして使用する。
【0063】
以上説明したように、音声認識ナビゲーションシステム50では、音声処理部52(発話有無推定部32)がマイクアレイ12からの入力情報に基づいて発話者による発話の有無を確実に推定するため、発話者が発話前に発話スイッチを操作する必要がない。このため、発話者による発話が有る(と推定された)場合に、発話スイッチを操作することなく、ノイズキャンセルフィルタ36のフィルタ係数を固定する制御が可能となり、発話者の声に対応する信号の一部が除去されて擬似発話信号に大きな歪が生じることが防止される。すなわち、音声認識ナビゲーションシステム50では、歪みの少ない良好な擬似発話信号を音声認識ナビゲーション装置56に入力させることができる。
【0064】
また、この音声認識ナビゲーション装置56にも発話有信号Tがトリガ情報として入力されるため、音声認識ナビゲーション装置56は、発話者による発話がない場合に入力される擬似発話信号によって音声認識を行なうことがなく、誤作動等の恐れがない。そして、この機能が発話スイッチを操作することなく実現されている。
【0065】
なお、上記の実施の形態では、説明を簡単にして理解を容易にするために、主要構成要素のみを説明したが、各加算部、加算器または減算部、減算器の前に適宜減衰部や増幅部を設けて擬似発話信号の抽出精度(ノイズ等の除去精度)を向上させることが可能であることは言うまでもない。また、車両に搭載される音声認識ナビゲーションシステム50では、例えば、車載オーディオ装置の音声を除去するための適応フィルタ等を上記構成に付加して設けても良い。
【0066】
また、上記の実施の形態では、音声処理装置10、音声処理部52が擬似発話パワーとノイズパワーとを比較して発話者による発話の有無を推定する構成としたが、本発明はこれに限定されず、例えば、音声パワーとノイズパワーとの比較によって発話者による発話の有無を推定する構成としても良い。
【0067】
さらに、上記実施の形態では、音声処理装置10を音声認識ナビゲーションシステム50に適用した例を示したが、本発明はこれに限定されず、例えば、音声認識機能を有するオーディ装置や空調装置等の各種装置、車両に搭載さ入れるハンズフリー通話システム、トランシーバー装置、所謂テレビ会議システムや単なる電話装置等の各種通信装置に適用することが可能である。また、音声処理装置10を、車両等に搭載されナビゲーション装置やオーディオ装置、空調装置、ハンズフリー通話システム、その他車載機器等を統合制御するための音声認識装置等に適用しても良い。
【0068】
【発明の効果】
以上説明したように本発明に係る音声処理装置は、発話者による発話の有無を、マイクロホンから入力される音声信号に基づいて確実に推定することができるという優れた効果を有する。
【図面の簡単な説明】
【図1】本発明の実施の形態に係る音声処理装置の該略構成を示すブロック図である。
【図2】本発明の実施の形態に係る音声処理装置が音声認識ナビゲーションシステムに適用された例を示すブロック図である。
【符号の説明】
10 音声処理装置
12A 第1マイクロホン(第1のマイクロホン)
12B 第2マイクロホン(第2のマイクロホン)
26 音声パワー演算部(音声パワー計算手段)
28 ノイズパワー演算部(ノイズパワー計算手段)
32 発話有無推定部(発話状態推定手段)[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a voice processing device applied to, for example, a voice recognition device or a communication device.
[0002]
[Prior art]
For example, some navigation devices and audio devices mounted on vehicles such as automobiles are provided with a voice recognition device that inputs and recognizes the voice of an occupant from a microphone and performs various processes based on the recognition content. Have been. Some vehicles have a hands-free communication device for the driver to talk without having to hold a microphone or the like (for example, the main body of a mobile phone) while driving.
[0003]
Some of such speech recognition devices and communication devices include two microphones and realize a noise canceling function for removing voices other than voices emitted by an occupant (speaker) (for example, see Patent Document 1). reference). Specifically, an audio signal (output signal) corresponding to a speaker's voice is extracted by subtracting a noise signal input from the other microphone and processed by the noise cancellation filter from an audio signal input from one microphone. And output it. An adaptive filter is used as the noise canceling filter, and the filter coefficient is updated so that the power of the output signal as the difference signal is minimized.
[0004]
However, in the configuration in which the noise cancellation filter constantly updates the filter coefficient, when the voice of the speaker is loud relative to the noise, a part of the signal corresponding to the voice of the speaker is also removed (canceled), and the output signal is large. Distortion occurs. For this reason, in the above-described speech recognition device and the communication device, when the speaker speaks, the speaker presses the speech switch to fix the filter coefficient of the noise cancellation filter to correspond to the speaker's voice. The output signal obtained in this manner is prevented from being removed from a part of the output signal. Thereby, distortion of the output signal is prevented.
[0005]
Further, there has been known a voice recognition device or a communication device as described above that realizes a noise canceling function by a configuration different from the above configuration (for example, see Patent Document 2). The vehicle audio input device described in Patent Document 2 is provided with a plurality of microphones corresponding to each seat of the vehicle, and based on a moving average value of an audio signal level input from each microphone in a past predetermined time. A threshold value (power corresponding to noise) is set, and when an input signal level in any one of the microphones exceeds the corresponding threshold value, it is determined that a voice by any occupant has been input, and a specific occupant (seat) is determined. When the input signal level from the microphone corresponding to the other occupant is higher than the input signal level from the microphone corresponding to another occupant, it is determined that the specific occupant has uttered and an output signal is output. I have.
[0006]
The output signal is a signal obtained by subtracting an input signal from a microphone corresponding to another occupant from an input signal from a microphone corresponding to a specific occupant (seat) and removing noise. That is, this configuration does not include a noise canceling filter that is an adaptive filter, and basically receives input from a microphone corresponding to another occupant (a microphone that is sufficiently spaced from a microphone corresponding to a specific occupant). Is a noise signal. With this configuration, in this configuration, without operating the utterance switch, it is determined whether or not the specific occupant has uttered, and when it is determined that the specific occupant has uttered, the microphone corresponding to the specific occupant is used. An output signal obtained by removing noise from the input signal can be output to the speech recognition device.
[0007]
[Patent Document 1]
JP 2000-148200 A
[Patent Document 2]
JP-A-11-65586
[0008]
[Problems to be solved by the invention]
However, the former configuration has a problem in that the speaker must operate the utterance switch every time the utterance is made, and the operation is complicated.
[0009]
On the other hand, in the latter configuration, since a plurality of microphones are arranged corresponding to different occupants, in other words, since there is only one microphone corresponding to a specific occupant and noise cannot be separated, the criterion for determining the presence or absence of speech is determined. There is a problem that the threshold value is likely to fluctuate depending on the size of the voice and the size of the noise, and the accuracy of determining the presence or absence of speech is poor. Therefore, for example, when noise occurs near the microphone corresponding to a specific occupant (noise giving a large input to the microphone), the noise cannot be removed by a small input signal to another microphone, and There was a high possibility that a wrong judgment was made. In particular, since the input signal level compared with the threshold (power based on the moving average value) at the time of determining the presence or absence of speech is an instantaneous value, this problem becomes remarkable.
[0010]
SUMMARY OF THE INVENTION It is an object of the present invention to provide an audio processing device capable of reliably estimating the presence or absence of an utterance by a speaker based on an audio signal input from a microphone in consideration of the above fact.
[0011]
[Means for Solving the Problems]
In order to achieve the above object, an audio processing apparatus according to the present invention is characterized in that first audio signals respectively input from a first microphone and a second microphone arranged substantially symmetrically with respect to a specific speaker. An audio processing device for processing a second audio signal, the power of an addition signal obtained by adding the first audio signal and the second audio signal, and a difference signal obtained by subtracting a second audio signal from the first audio signal. Utterance state estimating means for estimating the presence / absence of utterance by the speaker by comparing the power with the utterance.
[0012]
In the audio processing device according to the first aspect, the first audio signal is input from the first microphone, and the second audio signal is input from the second microphone. Since the first and second microphones are arranged substantially symmetrically with respect to the speaker, the first and second audio signals are signals having substantially the same phase and loudness as to the voice emitted by the speaker. The voice other than the voice uttered by the speaker, that is, noise differs depending on the relative position to the source.
[0013]
When the first and second audio signals are input, the utterance state estimating means calculates the sum of the power of the first audio signal and the second audio signal (hereinafter referred to as audio power) and the first audio signal. By comparing the power of the difference signal obtained by subtracting the second audio signal (hereinafter referred to as noise power), the presence or absence of the utterance of the speaker is estimated (determined, determined). Needless to say, the audio power and the noise power may not be directly compared, but may be a power obtained by appropriately processing one or both of them, for example.
[0014]
Specifically, the voice power is the power of the added signal of the first and second voice signals, both of which are only noise when the speaker is not uttering, so the first and second voices, which are both noise only, The ratio of the difference signal power of the audio signal to the noise power, which is the power of the difference signal, is small. On the other hand, when the speaker utters a voice, the voice power, which is the power of the addition signal, includes the power of the signal corresponding to the voice of the speaker, and is therefore the power of the difference signal, which corresponds to the voice of the speaker. The ratio of the signal to the noise power not including the power is sufficiently large. Since the noise power has little difference in phase and magnitude depending on the presence or absence of the speaker's utterance, for example, by comparing a threshold obtained by multiplying this noise power by an appropriate coefficient with the voice power, the utterance by the speaker is determined. Is estimated.
[0015]
Then, based on the first and second audio signals from the first and second microphones respectively arranged corresponding to the specific speakers, that is, based on the signal including the information of the spatial sound, the presence or absence of the utterance is determined. Since the noise power that is hardly affected is separated and the presence or absence of the utterance is estimated based on the noise power, the presence or absence of the utterance can be reliably estimated regardless of the position of the noise source. Moreover, since the presence / absence of speech is estimated by comparing the voice power and the noise power, the possibility of erroneous estimation is significantly reduced as compared with the case where the presence / absence of speech is estimated using instantaneous values.
[0016]
As a result, control based on the presence or absence of speech can be performed without operating the speech switch as in the related art. Therefore, for example, an audio signal is output to a voice input device (speech recognition device, communication device, or the like) only when it is estimated that there is utterance, or the filter coefficient of the noise cancellation filter is changed when it is estimated that there is utterance. It is possible to perform control such as dropping and fixing.
[0017]
As described above, in the voice processing device according to the first aspect, it is possible to reliably estimate the presence or absence of the utterance by the speaker based on the voice signal input from the microphone.
[0018]
According to another aspect of the present invention, there is provided a speech processing apparatus comprising: a first microphone and a second microphone arranged substantially symmetrically with respect to a specific speaker; An audio processing device for processing an audio signal and a second audio signal, wherein the audio power calculation means obtains audio power by calculating the power of an addition signal obtained by adding the first audio signal and the second audio signal; Noise power calculating means for calculating the power of a difference signal obtained by subtracting the second audio signal from the first audio signal to obtain noise power; comparing the difference between the audio power and the noise power with the noise power; Utterance state estimating means for estimating the presence / absence of the utterance.
[0019]
In the audio processing device according to the second aspect, the first audio signal is input from the first microphone, and the second audio signal is input from the second microphone. Since the first and second microphones are arranged substantially symmetrically with respect to the speaker, the first and second audio signals are signals having substantially the same phase and loudness as to the voice emitted by the speaker. The voice other than the voice uttered by the speaker, that is, noise differs depending on the relative position to the source.
[0020]
When the first and second audio signals are input, the audio power calculation means calculates the power of the added signal obtained by adding the first audio signal and the second audio signal to obtain the audio power, and the noise power calculation means obtains the audio power. The noise power is obtained by calculating the power of the difference signal obtained by subtracting the second audio signal from the first audio signal. Then, the utterance state estimating unit estimates (determines and determines) whether or not the utterer has uttered by comparing the difference between the voice power and the noise power (hereinafter, referred to as pseudo utterance power) with the noise power.
[0021]
Specifically, the pseudo utterance power, which is the difference between the audio power and the noise power, substantially corresponds to the power of the entire audio signal minus the power of the noise signal, and when the speaker does not speak, the utterance power is reduced. Since the power of the signal corresponding to the speaker's voice is not included, the ratio to the noise power is small, and when the speaker speaks, the ratio to the noise power is sufficient because the power of the signal corresponding to the speaker's voice is included. large. Since the noise power has almost no difference in phase and magnitude depending on the presence or absence of the utterance of the speaker, for example, by comparing a threshold obtained by multiplying the noise power by an appropriate coefficient with the pseudo utterance power, The presence or absence of speech is estimated.
[0022]
Then, based on the first and second audio signals from the first and second microphones respectively arranged corresponding to the specific speakers, that is, based on the signal including the information of the spatial sound, the presence or absence of the utterance is determined. Since the noise power that is hardly affected is separated and the presence or absence of the utterance is estimated based on the noise power, the presence or absence of the utterance can be reliably estimated regardless of the position of the noise source. Moreover, since the presence or absence of the utterance is estimated by comparing the pseudo utterance power and the noise power, the possibility of erroneous estimation is significantly reduced as compared with the case where the presence or absence of the utterance is estimated using the instantaneous value.
[0023]
As a result, control based on the presence or absence of speech can be performed without operating the speech switch as in the related art. Therefore, for example, an audio signal is output to a voice input device (speech recognition device, communication device, or the like) only when it is estimated that there is utterance, or the filter coefficient of the noise cancellation filter is changed when it is estimated that there is utterance. And can be fixed.
[0024]
As described above, in the voice processing device according to the second aspect, it is possible to reliably estimate the presence or absence of the utterance by the speaker based on the voice signal input from the microphone.
[0025]
It should be noted that the power in claims 1 and 2 is not limited to the mean square value of the signal in a predetermined time (predetermined movement time). included.
[0026]
BEST MODE FOR CARRYING OUT THE INVENTION
An
[0027]
The
[0028]
The
[0029]
The
[0030]
Further, the adding
[0031]
Further, the
[0032]
Furthermore, the audio
[0033]
Then, the utterance presence /
[0034]
The utterance presence /
[0035]
In the BPFs 22 and 24, a gain difference between the addition signal input to the audio
[0036]
Next, the operation of the present embodiment will be described.
[0037]
As shown in FIG. 1, when the voice S of the speaker reaches the
[0038]
Then, the first audio signal [S + N1] input from the
[0039]
The
[0040]
In the addition signal, the band components other than the predetermined frequency band are cut by the
[0041]
On the other hand, the
[0042]
In the
[0043]
On the other hand, when there is no utterance, since the voice S is not input from the
[0044]
As a result, the output of the
[0045]
As described above, the
[0046]
Then, since the utterance presence signal T, which is the estimation result, is output to the
[0047]
As described above, in the
[0048]
Next, an example in which the
[0049]
As shown in FIG. 2, the voice
[0050]
The
[0051]
The
[0052]
The
[0053]
The
[0054]
The output of the
[0055]
The control input unit of the
[0056]
Further, the speech presence /
[0057]
In the speech
[0058]
Then, as in the case of the
[0059]
Then, in the
[0060]
On the other hand, the
[0061]
When the utterance presence signal T is input, the
[0062]
That is, the
[0063]
As described above, in the voice
[0064]
Further, since the speech presence signal T is also input as trigger information to the speech
[0065]
In the above-described embodiment, only the main components have been described for the sake of simplicity and easy understanding. However, each of the adding units, the adder or the subtracting unit, and the attenuating unit or the Needless to say, it is possible to improve the accuracy of extracting a pseudo speech signal (the accuracy of removing noise and the like) by providing an amplifier. Further, in the voice
[0066]
Further, in the above embodiment, the
[0067]
Further, in the above-described embodiment, an example in which the
[0068]
【The invention's effect】
As described above, the speech processing device according to the present invention has an excellent effect that the presence or absence of speech by a speaker can be reliably estimated based on a speech signal input from a microphone.
[Brief description of the drawings]
FIG. 1 is a block diagram illustrating a schematic configuration of an audio processing device according to an embodiment of the present invention.
FIG. 2 is a block diagram showing an example in which the speech processing device according to the embodiment of the present invention is applied to a speech recognition navigation system.
[Explanation of symbols]
10 Audio processing device
12A first microphone (first microphone)
12B 2nd microphone (2nd microphone)
26 Audio power calculation unit (Audio power calculation means)
28 Noise Power Calculator (Noise Power Calculator)
32 Speech presence / absence estimation unit (speech state estimation means)
Claims (2)
前記第1音声信号と第2音声信号とを加算した加算信号のパワーと、前記第1音声信号から第2音声信号を差し引いた差分信号のパワーとを比較して前記発話者による発話の有無を推定する発話状態推定手段を備えた、
ことを特徴とする音声処理装置。An audio processing device for processing a first audio signal and a second audio signal respectively input from a first microphone and a second microphone arranged substantially symmetrically with respect to a specific speaker,
The power of the added signal obtained by adding the first audio signal and the second audio signal is compared with the power of the difference signal obtained by subtracting the second audio signal from the first audio signal, and the presence or absence of the utterance by the speaker is determined. Provided with an utterance state estimating means for estimating,
An audio processing device characterized by the above.
前記第1音声信号と第2音声信号とを加算した加算信号のパワーを計算して音声パワーを得る音声パワー計算手段と、
前記第1音声信号から第2音声信号を差し引いた差分信号のパワーを計算してノイズパワーを得るノイズパワー計算手段と、
前記音声パワーとノイズパワーとの差分と、該ノイズパワーとを比較して発話の有無を推定する発話状態推定手段と、
を備えた音声処理装置。An audio processing device for processing a first audio signal and a second audio signal respectively input from a first microphone and a second microphone arranged substantially symmetrically with respect to a specific speaker,
Voice power calculation means for calculating the power of the added signal obtained by adding the first voice signal and the second voice signal to obtain voice power;
Noise power calculating means for calculating the power of the difference signal obtained by subtracting the second audio signal from the first audio signal to obtain noise power;
A difference between the voice power and the noise power, and a speech state estimating means for comparing the noise power to estimate the presence or absence of speech;
An audio processing device comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003098870A JP2004309536A (en) | 2003-04-02 | 2003-04-02 | Speech processing unit |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003098870A JP2004309536A (en) | 2003-04-02 | 2003-04-02 | Speech processing unit |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004309536A true JP2004309536A (en) | 2004-11-04 |
Family
ID=33463484
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003098870A Pending JP2004309536A (en) | 2003-04-02 | 2003-04-02 | Speech processing unit |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004309536A (en) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007058130A1 (en) * | 2005-11-15 | 2007-05-24 | Yamaha Corporation | Teleconference device and sound emission/collection device |
JP2007142595A (en) * | 2005-11-15 | 2007-06-07 | Yamaha Corp | Remote conference device |
JP2007251782A (en) * | 2006-03-17 | 2007-09-27 | Yamaha Corp | Sound-emitting and collecting apparatus |
CN107645584A (en) * | 2016-07-20 | 2018-01-30 | 星电株式会社 | Emergency annunciation system hands-free message equipment |
JP7497233B2 (en) | 2020-07-03 | 2024-06-10 | アルプスアルパイン株式会社 | In-car communication support system |
-
2003
- 2003-04-02 JP JP2003098870A patent/JP2004309536A/en active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007058130A1 (en) * | 2005-11-15 | 2007-05-24 | Yamaha Corporation | Teleconference device and sound emission/collection device |
JP2007142595A (en) * | 2005-11-15 | 2007-06-07 | Yamaha Corp | Remote conference device |
US8135143B2 (en) | 2005-11-15 | 2012-03-13 | Yamaha Corporation | Remote conference apparatus and sound emitting/collecting apparatus |
JP2007251782A (en) * | 2006-03-17 | 2007-09-27 | Yamaha Corp | Sound-emitting and collecting apparatus |
CN107645584A (en) * | 2016-07-20 | 2018-01-30 | 星电株式会社 | Emergency annunciation system hands-free message equipment |
CN107645584B (en) * | 2016-07-20 | 2020-09-25 | 星电株式会社 | Hands-free calling device for emergency reporting system |
JP7497233B2 (en) | 2020-07-03 | 2024-06-10 | アルプスアルパイン株式会社 | In-car communication support system |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9978355B2 (en) | System and method for acoustic management | |
JP4283212B2 (en) | Noise removal apparatus, noise removal program, and noise removal method | |
JP6635394B1 (en) | Audio processing device and audio processing method | |
JP2012025270A (en) | Apparatus for controlling sound volume for vehicle, and program for the same | |
CN108353229B (en) | Audio signal processing in a vehicle | |
JP2012195801A (en) | Conversation support device | |
GB2498009A (en) | Synchronous noise removal for speech recognition systems | |
JP2007060229A (en) | In-vehicle hands-free telephone conversation device | |
US11521615B2 (en) | Vehicular apparatus, vehicle, operation method of vehicular apparatus, and storage medium | |
JP2000231399A (en) | Noise reducing device | |
JP2004309536A (en) | Speech processing unit | |
JP2005247181A (en) | Vehicle-mounted handsfree system | |
JP2874176B2 (en) | Audio signal processing device | |
US12039965B2 (en) | Audio processing system and audio processing device | |
JP2004165775A (en) | Sound input output apparatus | |
JP6632246B2 (en) | Noise reduction device, noise reduction method, and in-vehicle system | |
JP4162860B2 (en) | Unnecessary sound signal removal device | |
KR102306739B1 (en) | Method and apparatus for voice enhacement in a vehicle | |
US20230274723A1 (en) | Communication support system | |
JPH02244098A (en) | Voice signal processor | |
JP2009015209A (en) | Speech articulation improving system and speech articulation improving method | |
JP6388256B2 (en) | Vehicle call system | |
EP3933833B1 (en) | In-vehicle communication support system | |
US20230396922A1 (en) | Communication support system | |
JP2003099100A (en) | Voice recognition device and method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20051020 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080408 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080507 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20080909 |