JP2006084639A - 音声スペクトル推定装置および音声スペクトル推定プログラム - Google Patents

音声スペクトル推定装置および音声スペクトル推定プログラム Download PDF

Info

Publication number
JP2006084639A
JP2006084639A JP2004268028A JP2004268028A JP2006084639A JP 2006084639 A JP2006084639 A JP 2006084639A JP 2004268028 A JP2004268028 A JP 2004268028A JP 2004268028 A JP2004268028 A JP 2004268028A JP 2006084639 A JP2006084639 A JP 2006084639A
Authority
JP
Japan
Prior art keywords
noise
spectrum
speech
speech spectrum
coefficient
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004268028A
Other languages
English (en)
Other versions
JP4542399B2 (ja
Inventor
Takeshi Kobayakawa
健 小早川
Hiroyuki Segi
寛之 世木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP2004268028A priority Critical patent/JP4542399B2/ja
Publication of JP2006084639A publication Critical patent/JP2006084639A/ja
Application granted granted Critical
Publication of JP4542399B2 publication Critical patent/JP4542399B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】 雑音重畳音声スペクトルから雑音スペクトル除去を良好に行うことができる音声スペクトル推定装置および音声スペクトル推定プログラムを提供する。
【解決手段】 音声スペクトル推定装置1は、音声スペクトルに雑音スペクトルが予め重畳されている雑音重畳音声スペクトルから、前記音声スペクトルを推定するものにおいて、信号対雑音比に基づいて、雑音重畳音声スペクトル係数および雑音スペクトル係数を計算する係数計算手段3と、雑音重畳音声スペクトルを計算する第一項スペクトル計算手段5と、雑音スペクトルを計算する第二項スペクトル計算手段7と、雑音重畳音声スペクトルから雑音スペクトルを減算するスペクトル減算手段9と、を備えた。
【選択図】 図1

Description

本発明は、雑音スペクトルが重畳されている雑音重畳音声スペクトルから音声スペクトルを推定する音声スペクトル推定装置および音声スペクトル推定プログラムに関する。
従来、音声(音声信号)を処理する分野において、音声に雑音(雑音信号)が予め重畳(混合)している雑音重畳音声(雑音重畳音声信号)から雑音を軽減するスペクトル・サブストラクション(スペクトル減算法)がある。このスペクトル減算法は、雑音重畳音声および雑音をスペクトル分析した結果である雑音重畳音声スペクトルおよび雑音スペクトルから音声スペクトルを推定する方法(例えば、特許文献1,2,3,4,5、非特許文献1,2を参照)であり、この方法を具現化した従来の音声スペクトル推定装置を図5に示す。
この図5に示すように、音声スペクトル推定装置101は、雑音重畳音声スペクトルrX、雑音スペクトルrNおよび信号対雑音比(S/N比)xから音声スペクトルrSを推定するもので、減算係数計算部103と、減算スペクトル計算部105と、スペクトル減算部107とを備えている。この音声スペクトル推定装置101では、次に示す数式(1)を用いて、雑音重畳音声スペクトルrX、雑音スペクトルrNおよび信号対雑音比(S/N比)xから音声スペクトルrSを推定している。
Figure 2006084639
減算係数計算部103は、入力された信号対雑音比(S/N比)xに基づいて、数式(1)の第二項(雑音スペクトルrNの項、減算スペクトル)の係数である減算係数1/(1+γ・x)を計算するものである。なお、γは、任意に調整可能なパラメータである。
減算スペクトル計算部105は、減算係数計算部103で計算した係数1/(1+γ・x)と、入力された雑音スペクトルrNとから数式(1)の第二項(減算スペクトル)を計算するものである。
スペクトル減算部107は、入力された雑音重畳音声スペクトルrX(第一項)から、減算スペクトル計算部105で計算された第二項(減算スペクトル)を減算することで、音声スペクトルrSを推定して出力するものである。
特許第2836271号明細書(段落0032〜0038、図5、図8) 特許第2863214号明細書(発明の詳細な説明、図3) 特許第3118023号明細書(段落0003、0004、図1) 特許第3451146号明細書(段落0013〜0024、図1) 特許第3454206号明細書(段落0033〜0073、図1) P.Lockwood and J.Boudy Experiments with a nonlinear spectral subtractor(nss),Hidden Markov Models and the projection,for robust speech recognition in cars.Speech Communication,Vol.11,pp.215−228,1992. Numerical Recipes in C,chapter 6.Cambridge,2nd edition,1992.
しかしながら、従来の音声スペクトル推定装置101は、雑音スペクトルrNに係る減算係数を計算して、雑音重畳音声スペクトルrX(第一項)に含まれている雑音スペクトルrNの割合を、信号対雑音比(S/N比)xに従って変化させるだけであり、雑音重畳音声スペクトルrX(第一項)が信号対雑音比(S/N比)xによってどのように変化するのかが考慮されていないので、必ずしも良好な雑音スペクトル除去が行われていないという問題がある。
そこで、本発明では、前記した問題を解決し、雑音重畳音声スペクトルから雑音スペクトル除去を良好に行うことができる音声スペクトル推定装置および音声スペクトル推定プログラムを提供することを目的とする。
前記課題を解決するため、請求項1記載の音声スペクトル推定装置は、音声スペクトルに雑音スペクトルが予め重畳されている雑音重畳音声スペクトルから、前記音声スペクトルを推定する音声スペクトル推定装置であって、係数計算手段と、雑音スペクトル減算手段と、を備える構成とした。
かかる構成によれば、音声スペクトル推定装置は、係数計算手段によって、信号対雑音比に基づいて、雑音重畳音声スペクトルの割合を示す雑音重畳音声スペクトル係数および雑音スペクトルの割合を示す雑音スペクトル係数を計算する。なお、雑音重畳音声スペクトルは、何らかの雑音が存在する場所で、発話者が発話した音声を集音し、スペクトル分析して得られたものであり、雑音スペクトルは、発話者が発話した音声以外の音声等(何らかの雑音、例えば、別の発話者が発声した音声、オフィス機器や空調機等による音声以外の騒音)を集音し、周波数変換して得られたものである。
続いて、音声スペクトル推定装置は、雑音スペクトル除去手段によって、係数計算手段で計算した雑音重畳音声スペクトル係数および雑音スペクトル係数に基づいて、雑音重畳音声スペクトルから雑音スペクトルを除去する。例えば、雑音重畳音声スペクトルおよび雑音スペクトルに、信号対雑音比が反映された係数が乗算された後に、当該雑音重畳音声スペクトルから当該雑音スペクトルを減算することで、より正確な音声スペクトルが得られることになる。
請求項2記載の音声スペクトル推定装置は、請求項1に記載の音声スペクトル推定装置において、前記係数計算手段が、前記雑音重畳音声スペクトル係数を計算する際に、楕円積分を用いることを特徴とする。
かかる構成によれば、音声スペクトル推定装置は、係数計算手段によって、信号対雑音比をパラメータとする楕円積分を含む関数を用いることで、信号対雑音比の変化に伴った最適な雑音重畳音声スペクトルを得ることができる。最も確からしい雑音重畳音声スペクトルを推定することで最も確からしい音声が推定され、効果的な雑音除去が可能になる。最も確からしいスペクトルの推定を行う際に、スペクトル強度(実スペクトル)だけでなく、楕円積分を含む関数を用いることで、スペクトル位相も考慮することとなり、従来法よりも高精度な音声スペクトルの推定が可能になる。
請求項3記載の音声スペクトル推定装置は、請求項2に記載の音声スペクトル推定装置において、前記係数計算手段が、前記雑音重畳音声スペクトル係数を計算する際に、前記楕円積分を含む関数の級数展開に基づいた多項式によって、前記楕円積分を含む関数を近似することを特徴とする。
かかる構成によれば、音声スペクトル推定装置は、係数計算手段によって、信号対雑音比をパラメータとする楕円積分を含む関数を用いることで、信号対雑音比の変化に伴った最適な雑音重畳音声スペクトルを得ることができる。楕円積分を含む関数を級数展開することで、高速な近似計算が実行でき、その結果、信号雑音比の変化に伴った最適な雑音重畳音声スペクトルを得ることができる。
請求項4記載の音声スペクトル推定装置は、請求項1に記載の音声スペクトル推定装置において、前記係数計算手段が、前記雑音重畳音声スペクトル係数を計算する際に、予め計算した前記雑音重畳音声スペクトルに係る数値表を参照し、前記信号対雑音比に応じて、当該数値表の数値を決定することを特徴とする。
かかる構成によれば、音声スペクトル推定装置は、係数計算手段によって、予め計算した雑音重畳音声スペクトルに係る数値表を参照し、信号対雑音比に応じて、当該数値表の数値を決定する。つまり、信号対雑音比に応じた数値を用いることで、信号対雑音比の変化に伴った最適な雑音重畳音声スペクトルを得ることができる。
請求項5記載の音声スペクトル推定プログラムは、音声スペクトルに雑音スペクトルが予め重畳されている雑音重畳音声スペクトルから、前記音声スペクトルを推定するために、コンピュータを、係数計算手段、雑音スペクトル除去手段、として機能させる構成とした。
かかる構成によれば、音声スペクトル推定プログラムは、係数計算手段によって、信号対雑音比に基づいて、雑音重畳音声スペクトルの割合を示す雑音重畳音声スペクトル係数および雑音スペクトルの割合を示す雑音スペクトル係数を計算する。続いて、音声スペクトル推定プログラムは、雑音スペクトル除去手段によって、係数計算手段で計算した雑音重畳音声スペクトル係数および雑音スペクトル係数に基づいて、雑音重畳音声スペクトルから雑音スペクトルを除去する。
請求項1または5に記載の発明によれば、雑音重畳音声スペクトルに、信号対雑音比に応じた雑音重畳音声スペクトル係数を反映させているので、雑音重畳音声スペクトルと雑音スペクトルとの双方に信号対雑音比が反映されることになり、雑音重畳音声スペクトルから雑音スペクトル除去を良好に行うことができ、より正確に音声スペクトルの推定を行うことができる。
請求項2に記載の発明によれば、信号対雑音比をパラメータとする関数に、音声スペクトルおよび雑音スペクトルにおける複素スペクトルの位相差によって、スペクトルのレベルを平均する際に得られる楕円積分を用いて、雑音重畳音声スペクトル係数を計算しているので、信号対雑音比の変化に伴った最適な雑音重畳音声スペクトルを得ることができる。
請求項3に記載の発明によれば、級数展開に基づいた多項式を用いて、信号対雑音比から雑音重畳音声スペクトル係数を計算しているので、信号対雑音比の変化に伴った最適な雑音重畳音声スペクトルを得ることができる。
請求項4に記載の発明によれば、予め計算した雑音重畳音声スペクトルに係る数値表を参照し、信号対雑音比に応じて、当該数値表の数値を決定する。つまり、信号対雑音比に応じた数値を用いることで、信号対雑音比の変化に伴った最適な雑音重畳音声スペクトルを得ることができる。
次に、本発明の実施形態について、適宜、図面を参照しながら詳細に説明する。
〈音声スペクトル推定活用システムの構成〉
図1は、音声スペクトル推定活用システムのブロック図である。この図1に示すように、音声スペクトル推定活用システムSは、雑音重畳音声(雑音重畳音声信号)と雑音(雑音信号)とを入力して、これらをスペクトル分析した雑音重畳音声スペクトルと雑音スペクトルとから音声スペクトルを推定し、この推定した音声スペクトルを活用(利用)するもので、音声スペクトル推定装置1と、スペクトル出力部2と、音声スペクトル活用部4とを備えている。
音声スペクトル推定装置1の説明に先立ち、スペクトル出力部2および音声スペクトル活用部4の説明をする。
〔スペクトル出力部の構成〕
スペクトル出力部2は、雑音重畳音声と雑音とを入力(取得)し、これらをスペクトル分析した雑音重畳音声スペクトルおよび雑音スペクトルと、信号対雑音比(S/N比)とを、音声スペクトル推定装置1に出力するもので、雑音重畳音声収録マイク6a(6)と、雑音収録マイク6b(6)と、マイクアンプ8a(8)と、マイクアンプ8b(8)と、スペクトル分析部10a(10)と、スペクトル分析部10b(10)と、補正装置12と、S/N比推定部14とを備えている。
なお、雑音重畳音声収録マイク6a(6)および雑音収録マイク6b(6)と、マイクアンプ8a(8)およびマイクアンプ8b(8)と、スペクトル分析部10a(10)およびスペクトル分析部10b(10)とについて、これらそれぞれの双方を指す、または、これらのいずれかに限定しない場合には、単に、収録マイク6、マイクアンプ8、スペクトル分析部10と記載することにする。
また、雑音重畳音声収録マイク6a、マイクアンプ8aおよびスペクトル分析部10aと、雑音収録マイク6b、マイクアンプ8bおよびスペクトル分析部10bとは、それぞれ所定の回線特性を有する電気回線で接続されている。
雑音重畳音声収録マイク6aは、音声スペクトル推定装置1で推定したい音声スペクトルの元となる音声(音声信号)を発話する発話者に装着(設置)され、当該発話者が発話した音声を収録するもの(主マイク)である。この雑音重畳音声収録マイク6aによって、発話者が発話する音声を収録(集音)する際に、収録される音声に雑音が重畳されることになる。この雑音は、当該発話者以外の別の発話者が発話した音声や、収録場所が室内であれば、物音、オフィス機器や空調機等による音声以外の騒音等、収録場所が室外であれば、車やバイク等の騒音等、様々な音源から発せられる、多種多様な音量、周波数の音である。
なお、この雑音重畳収録マイク6aは、可能な限り、発話者の発話する音声を良好に収録できる場所(例えば、発話者の、口元近く、胸元等)に設置することが好ましい。また、この雑音重畳音声収録マイク6aは、発話者が発話する音声のみを収録できるように、無指向性マイクよりは指向性マイクの方が好ましい。
雑音収録マイク6bは、雑音(雑音信号)を発する音源付近に設置し、当該音源が発した雑音を収録するものである。この雑音収録マイク6bは、発話者が発話した音声をなるべく収録(検出)しない場所に設置することが好ましい。なお、この雑音収録マイク6bは、雑音重畳音声収録マイク6aと同一のマイク特性を備えている方が好ましい。
この実施の形態では、雑音重畳音声収録マイク6aと雑音収録マイク6bとの2台のマイクが備えられているが、雑音重畳音声と雑音とが分離できるのであれば、1台のマイクであってもよい。なお、一般に、スペクトル・サブストラクション(スペクトル減算法)では、同一の場所(同一地点)で、雑音重畳音声と雑音とを収録することが理想とされているが、現実には不可能(雑音重畳音声と雑音との分離が困難)であるので、この音声スペクトル推定活用システムSのスペクトル出力部2のように、異なる場所(地点)で収録している。そして、雑音重畳音声と雑音とを異なる場所で収録することによって生じる違い(伝達特性)を補正するために、補正装置12(伝達特性補正部12c)が設けられている。
マイクアンプ8aは、雑音重畳音声収録マイク6aで収録(集音)し、電気信号となった雑音重畳音声(雑音重畳音声信号)の電圧を増幅して、スペクトル分析部10aに出力するものである。
マイクアンプ8bは、雑音収録マイク6bで収録(集音)し、電気信号となった雑音(雑音信号)の電圧を増幅して、スペクトル分析部10bに出力するものである。
スペクトル分析部10aは、マイクアンプ8aで電圧が増幅された雑音重畳音声(増幅雑音重畳音声信号)を周波数変換し、この周波数変換したスペクトル信号である雑音重畳音声スペクトルを、S/N比推定部14と音声スペクトル推定装置1とに出力するものである。
スペクトル分析部10bは、マイクアンプ8bで電圧が増幅された雑音(増幅雑音信号)を周波数変換し、この周波数変換したスペクトル信号である雑音スペクトルを、補正装置12に出力するものである。
補正装置12は、スペクトル分析部10bで周波数変換した雑音スペクトルを補正し、S/N比推定部14と音声スペクトル推定装置1とに出力するもので、マイク特性補正部12aと、回線特性補正部12bと、伝達特性補正部12cとを備えている。この補正装置12は、これらマイク特性補正部12a、回線特性補正部12bおよび伝達特性補正部12cによって、マイク特性、回線特性および伝達特性が補正された結果に基づいて、雑音スペクトルを補正して、S/N比推定部14と音声スペクトル推定装置1とに出力している。
なお、この補正装置12には、音声スペクトル推定活用システムSの利用者が操作する操作手段(図示せず)によって、雑音重畳音声収録マイク6aおよび雑音収録マイク6bのマイク特性と、雑音重畳音声が処理される電気回線(雑音重畳音声収録マイク6a、マイクアンプ8aおよびスペクトル分析部10aが接続されている回線)および雑音が処理される電気回線(雑音収録マイク6b、マイクアンプ8bおよびスペクトル分析部10bが接続されている回線)の回線特性と、雑音重畳音声収録マイク6aが設置されている空間および雑音収録マイク6bが設置されている空間の伝達特性(伝達関数)とが入力されている。
マイク特性補正部12aは、雑音重畳音声収録マイク6aのマイク特性と雑音収録マイク6bのマイク特性とがほぼ同一になるように、雑音収録マイク6bのマイク特性を補正するものである。
回線特性補正部12bは、雑音重畳音声が処理される電気回線の回線特性と、雑音が処理される電気回線の回線特性とがほぼ同一になるように、雑音が処理される電気回線の回線特性を補正するものである。
伝達特性補正部12cは、雑音重畳音声収録マイク6aが設置されている空間の伝達特性(伝達関数)と、雑音収録マイク6bが設置されている空間の伝達特性とがほぼ同一になるように、雑音収録マイク6bが設置されている空間の伝達特性を補正するものである。
S/N比推定部14は、スペクトル分析部10aから出力された雑音重畳音声スペクトルと、補正装置12から出力された雑音スペクトルとに基づいて、信号対雑音比(S/N比)を推定して、音声スペクトル推定装置1に出力するものである。
信号対雑音比は、有効な信号と、雑音との割合(比率)を示す尺度であり、有効な信号の電力である信号電力が、雑音の電力である雑音電力を超過したデシベル数で表されるものである。
なお、このS/N比推定部14は、スペクトル出力部2に入力される雑音重畳音声が、人工的に生成されたもの(音声に別の音[雑音]を人工的に重畳したもの)である場合、信号対雑音比は既知となるので、省略することが可能になる。
〔音声スペクトル活用部の構成〕
音声スペクトル活用部4は、音声スペクトル推定装置1から出力された音声スペクトルを活用(利用)するもので、音声認識装置4aと、話者認識装置4bと、音声合成装置4cとを備えている。この実施の形態では、音声スペクトルを活用するのに、音声認識装置4a、話者認識装置4bおよび音声合成装置4cの3つの装置を備えているが、いずれか1つを備えていればよい。
音声認識装置4aは、音声スペクトル推定装置1から出力された音声スペクトルを音声認識し、音声認識した結果であるテキストデータを出力するものである。つまり、この音声認識装置4aは、音声スペクトルをテキストデータに変換するものであり、図示を省略した、音声スペクトルを所定の探索単位(音素等)に分割する分割手段、音声スペクトルとテキストデータとを対応付けた音声データベース等を備えている。
話者認識装置4bは、音声スペクトル推定装置1から出力された音声スペクトルについて、当該音声スペクトルの元となった雑音重畳音声を発話した発話者を認識(特定)するものである。この話者認識装置4bは、図示を省略した、複数の発話者の音声を収録した発話者音声データベース等を備えている。
音声合成装置4cは、テキストデータを音声合成し、合成音声として出力するもので、図示を省略した、音声合成用データベースを備えている。そして、この音声合成用データベースに、音声スペクトル推定装置1から出力された音声スペクトルが蓄積されることで、様々な合成音声を合成可能になる。
〔音声スペクトル推定装置の構成〕
音声スペクトル推定装置1は、スペクトル出力部2から出力された雑音重畳音声スペクトル、雑音スペクトルおよび信号対雑音比から、発話者が発話した音声(音声信号)の音声スペクトルを推定するもので、係数計算手段3と、第一項スペクトル計算手段5と、第二項スペクトル計算手段7と、スペクトル減算手段9とを備えている。なお、これらの各手段は、音声スペクトル推定装置1の主制御部(図示せず)に展開しているプログラムである。また、第一項スペクトル計算手段5、第二項スペクトル計算手段7およびスペクトル減算手段9が雑音スペクトル除去手段に相当している。
係数計算手段3は、スペクトル出力部2から出力された信号対雑音比に基づいて、次に示す数式(2)における第一項の係数と、第二項の係数とを計算するもので、第一項係数計算手段3aと、第二項係数計算手段3bとを備えている。
Figure 2006084639
この数式(2)において、rSは音声スペクトル、rXは雑音重畳音声スペクトル、rNは雑音スペクトル、xは信号対雑音比(S/N比)、βは調整可能なパラメータである。また、α(x)(第一項の係数)は、xの関数であり、次に示す数式(3)および数式(4)で定義される。
Figure 2006084639
Figure 2006084639
ここで、α(x)を図2に示す(適宜、図1参照)。この図2に示すように、α(x)(太線)は、信号対雑音比xを横軸にとった場合、信号対雑音比xが1になるまでは急激に増加し、信号対雑音比が1を超えてからは緩やかに減少する関数である。
図1に戻って、音声スペクトル推定装置1の構成の説明を続ける。
第一項係数計算手段3aは、数式(2)における第一項(雑音重畳音声スペクトルrXの項)の係数、つまり、数式(3)におけるα(x)を計算するものである。なお、このα(x)を計算する際に現れるE(k)(数式(4))は、第2種完全楕円積分であり、背景技術で示した非特許文献2に記載されている数値計算法によって求めることができる。この第2種完全楕円積分を用いて、第一項の係数を計算することで、最も確からしい雑音重畳音声スペクトルを推定することで、最も確からしい音声スペクトルを推定するスペクトル減算法により、正確な音声スペクトルを推定することができる。
また、第一項係数計算手段3aは、級数展開に基づいた多項式を用いて、第一項の係数を計算することができる。この級数展開は、任意のxの周りのテーラー展開を用いて、無数に作成することができる。例えば、x=0の周りでの級数展開に基づいた多項式は、α(x)=1+x−x2/4−x3/4・・・数式(5)であり、楕円積分を含む関数のx=0の周りの値の近似計算に用いることができる。
この級数展開に基づく多項式は、無限種類作成することができ、例えば、α(x)をx=0の周りで級数展開すると、数式(5)のようになる。また、級数展開は、他の場所を中心とすることもできて、ちなみに、x=1の周りの級数展開は、α(x)=π/2+(0.196351log(x−1)−0.310123)(x−1)2+(−0.19635log(x−1)+0.211948)(x−1)3+0(x4)となる。
このように、展開する場所によって、異なる多項式が得られる。この級数展開に基づく多項式を具体的に、図2の(1)〜(3)に示す。x=0の周りで級数展開した場合を(1)のグラフが示しており、x=1の周りで級数展開した場合を(2)のグラフが示しており、x=∞の周りで級数展開した場合を(3)のグラフが示している。なお、これら(1)から(3)のグラフは、いずれも3次の項で展開を打ち切った場合のものである。
この級数展開に基づく多項式を用いる方法は、どのように計算していいか直接にはわからない関数の計算法として一般的に知られており、関数を有効に近似できる範囲(収束半径)内で用いる。例えば、図2の例では、α(x)は、x=0の周りで展開した多項式(x≦0.5のとき)、x=1の周りで展開した多項式(0.5≦x≦1.5のとき)、x=∞の周りで展開した多項式(1.5≦xのとき)とすることで、計算することができる。
さらに、第一項係数計算手段3aは、予め計算した雑音重畳音声スペクトルに係る数値表を図示を省略した記憶手段に記憶しており、この数値表を参照し、信号対雑音比xに応じて、当該数値表の数値を決定して、第一項の係数を計算することもできる(なお、数値表とは、図2を数値表にしたものである)。
第二項係数計算手段3bは、数式(2)における第二項(雑音スペクトルrNの項)の係数を計算するものである。この第二項の係数(1/(1+β・x))を計算する際には、信号対雑音比xに乗算される、調整可能なパラメータβを決定する必要がある。このパラメータβは、当該システムSの利用者が任意に調整可能なものであり、例えば、事前に予備実験を行うことにより当該システムSの性能を最適にするように決定することが可能である。
第一項スペクトル計算手段5は、スペクトル出力部2から出力された雑音重畳音声スペクトルrXに、係数計算手段3の第一項係数計算手段3aによって計算された第一項の係数α(x)を乗算して、数式(2)における第一項α(x)rXを計算して、スペクトル減算手段9に出力するものである。
第二項スペクトル計算手段7は、スペクトル出力部2から出力された雑音スペクトルrNに、係数計算手段3の第二項係数計算手段3bによって計算された第二項の係数を乗算して、数式(2)における第二項rN/(1+β・x)を計算して、スペクトル減算手段9に出力するものである。
スペクトル減算手段9は、第一項スペクトル計算手段5で計算された第一項α(x)rXから第二項スペクトル計算手段7で計算された第二項rN/(1+β・x)を減算して、音声スペクトルrSを求めて、音声スペクトル活用部4に出力するものである。
ここで、スペクトル減算手段9から出力された音声スペクトルrSが音声スペクトル活用部4の音声認識装置4aに出力された場合の、単語正解精度について、図3を参照して説明する。図3は、スペクトルサブストラクションなし(スペクトル減算法を用いずに推定した音声スペクトルを使用した場合)と、従来法(従来のスペクトル減算法による音声スペクトルを使用した場合)と、提案法(音声スペクトル推定装置1によって推定した音声スペクトルを使用した場合)とについて、信号対雑音比(S/N比)と単語正解精度との関係を示した図である。
この図3から、どの信号対雑音比であっても、スペクトルサブストラクションなしおよび従来法に比べて、提案法の方が、単語正解精度が高いことがわかる。
この音声スペクトル推定装置1によれば、雑音が存在する雑音環境下で取得された雑音重畳音声を周波数変換した雑音重畳音声スペクトルrXおよび雑音を周波数変換した雑音スペクトルrNから推定される音声スペクトルrSの信号対雑音比(S/N比)を改善することができる。その結果、音声スペクトル活用部4において、音声認識率、話者認識率および合成音声の音質を向上させることができる。
〈音声スペクトル推定活用システム(音声スペクトル推定装置)の動作〉
次に、図4に示すフローチャートを参照して、音声スペクトル推定活用システムS(音声スペクトル推定装置1)の動作を説明する(適宜、図1参照)。
まず、音声スペクトル推定活用システムSは、スペクトル出力部2の雑音重畳音声収録マイク6aおよび雑音収録マイク6bによって、雑音重畳音声および雑音を収録(集音)する(ステップS1)。続いて、音声スペクトル推定活用システムSは、スペクトル出力部2のマイクアンプ8aおよびマイクアンプ8bによって、電気信号となった雑音重畳音声および雑音の電圧を増幅し、スペクトル分析部10aおよびスペクトル分析部10bによって、周波数変換(スペクトル分析)する(ステップS2)。
そして、音声スペクトル推定活用システムSは、スペクトル出力部2の補正装置12によって、雑音スペクトルを補正し、S/N比推定部14によって、信号対雑音比(S/N比)を推定する(ステップS3)。そうしてから、音声スペクトル推定活用システムSのスペクトル出力部2は、雑音重畳音声スペクトル、雑音スペクトルおよび信号対雑音比を音声スペクトル推定装置1に出力する。
そうすると、音声スペクトル推定装置1は、係数計算手段3の第一項係数計算手段3aおよび第二項係数計算手段3bによって、第一項係数および第二項係数を計算する(ステップS4)。計算した第一項係数は第一項スペクトル計算手段5に、計算した第二項係数は第二項スペクトル計算手段7にそれぞれ出力される。そして、音声スペクトル推定装置1は、第一項スペクトル計算手段5および第二スペクトル計算手段7によって、第一項スペクトルおよび第二項スペクトルを計算する(ステップS5)。
それから、音声スペクトル推定装置1は、スペクトル減算手段9によって、第一項スペクトル計算手段5で計算された第一項スペクトルから、第二項スペクトル計算手段7で計算された第二項スペクトルを減算して、音声スペクトルを推定し、音声スペクトル活用部4に出力する(ステップS6)。その後、音声スペクトル活用部4の音声認識装置4a、話者認識装置4bおよび音声合成装置4cにおいて、信号対雑音比が改善された音声スペクトルが活用される。
以上、本発明の実施形態について説明したが、本発明は前記実施形態には限定されない。例えば、本実施形態では、音声スペクトル推定装置1として説明したが、当該装置1の各構成の処理を1つずつの過程とみなした音声スペクトル推定方法と捉えることも可能であり、1つずつの処理を汎用的または特殊なコンピュータ言語で記述した音声スペクトル推定プログラムと捉えることも可能である。この場合、音声スペクトル推定装置1と同様の効果を得ることができる。
本発明の実施形態に係る音声スペクトル推定活用システム(音声スペクトル推定装置を包含)のブロック図である。 音声スペクトルを推定する推定式における第一項の係数である関数を示した図である。 本発明の実施形態における効果と、従来の方法による効果とを比較した図である。 図1に示した音声スペクトル推定活用システム(音声スペクトル推定装置を包含)の動作を説明したフローチャートである。 従来の音声スペクトル推定装置のブロック図である。
符号の説明
1 音声スペクトル推定装置
3 係数計算手段
3a 第一項係数計算手段
3b 第二項係数計算手段
5 第一項スペクトル計算手段(雑音スペクトル除去手段)
7 第二項スペクトル計算手段(雑音スペクトル除去手段)
9 スペクトル減算手段(雑音スペクトル除去手段)

Claims (5)

  1. 音声スペクトルに雑音スペクトルが予め重畳されている雑音重畳音声スペクトルから、前記音声スペクトルを推定する音声スペクトル推定装置において、
    信号対雑音比に基づいて、前記雑音重畳音声スペクトルの割合を示す雑音重畳音声スペクトル係数および前記雑音スペクトルの割合を示す雑音スペクトル係数を計算する係数計算手段と、
    この係数計算手段で計算した雑音重畳音声スペクトル係数および雑音スペクトル係数に基づいて、前記雑音重畳音声スペクトルから前記雑音スペクトルを除去する雑音スペクトル除去手段と、
    を備えることを特徴とする音声スペクトル推定装置。
  2. 前記係数計算手段は、前記雑音重畳音声スペクトル係数を計算する際に、楕円積分を含む関数を用いることを特徴とする請求項1に記載の音声スペクトル推定装置。
  3. 前記係数計算手段は、前記雑音重畳音声スペクトル係数を計算する際に、前記楕円積分を含む関数の級数展開に基づいた多項式によって、前記楕円積分を含む関数を近似したことを特徴とする請求項2に記載の音声スペクトル推定装置。
  4. 前記係数計算手段は、前記雑音重畳音声スペクトル係数を計算する際に、予め計算した前記雑音重畳音声スペクトルに係る数値表を参照し、前記信号対雑音比に応じて、当該数値表の数値を決定することを特徴とする請求項1に記載の音声スペクトル推定装置。
  5. 音声スペクトルに雑音スペクトルが予め重畳されている雑音重畳音声スペクトルから、前記音声スペクトルを推定するために、コンピュータを、
    信号対雑音比に基づいて、前記雑音重畳音声スペクトルの割合を示す雑音重畳音声スペクトル係数および前記雑音スペクトルの割合を示す雑音スペクトル係数を計算する係数計算手段、
    この係数計算手段で計算した雑音重畳音声スペクトル係数および雑音スペクトル係数に基づいて、前記雑音重畳音声スペクトルから前記雑音スペクトルを除去する雑音スペクトル除去手段、
    として機能させることを特徴とする音声スペクトル推定プログラム。
JP2004268028A 2004-09-15 2004-09-15 音声スペクトル推定装置および音声スペクトル推定プログラム Expired - Fee Related JP4542399B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004268028A JP4542399B2 (ja) 2004-09-15 2004-09-15 音声スペクトル推定装置および音声スペクトル推定プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004268028A JP4542399B2 (ja) 2004-09-15 2004-09-15 音声スペクトル推定装置および音声スペクトル推定プログラム

Publications (2)

Publication Number Publication Date
JP2006084639A true JP2006084639A (ja) 2006-03-30
JP4542399B2 JP4542399B2 (ja) 2010-09-15

Family

ID=36163224

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004268028A Expired - Fee Related JP4542399B2 (ja) 2004-09-15 2004-09-15 音声スペクトル推定装置および音声スペクトル推定プログラム

Country Status (1)

Country Link
JP (1) JP4542399B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5773124B2 (ja) * 2008-04-21 2015-09-02 日本電気株式会社 信号分析制御及び信号制御のシステム、装置、方法及びプログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002366200A (ja) * 2001-06-06 2002-12-20 Mitsubishi Electric Corp 雑音抑圧装置
JP3454206B2 (ja) * 1999-11-10 2003-10-06 三菱電機株式会社 雑音抑圧装置及び雑音抑圧方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3454206B2 (ja) * 1999-11-10 2003-10-06 三菱電機株式会社 雑音抑圧装置及び雑音抑圧方法
JP2002366200A (ja) * 2001-06-06 2002-12-20 Mitsubishi Electric Corp 雑音抑圧装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5773124B2 (ja) * 2008-04-21 2015-09-02 日本電気株式会社 信号分析制御及び信号制御のシステム、装置、方法及びプログラム

Also Published As

Publication number Publication date
JP4542399B2 (ja) 2010-09-15

Similar Documents

Publication Publication Date Title
JP4774100B2 (ja) 残響除去装置、残響除去方法、残響除去プログラム及び記録媒体
JP5183828B2 (ja) 雑音抑圧装置
JP4753821B2 (ja) 音信号補正方法、音信号補正装置及びコンピュータプログラム
JP5000647B2 (ja) 音声状態モデルを使用したマルチセンサ音声高品質化
US20170140771A1 (en) Information processing apparatus, information processing method, and computer program product
US20070088544A1 (en) Calibration based beamforming, non-linear adaptive filtering, and multi-sensor headset
EP3276621B1 (en) Noise suppression device and noise suppressing method
JP2006087082A (ja) 多感覚音声強調のための方法および装置
JP2003337594A (ja) 音声認識装置、その音声認識方法及びプログラム
US8401844B2 (en) Gain control system, gain control method, and gain control program
JP2011033717A (ja) 雑音抑圧装置
US8423360B2 (en) Speech recognition apparatus, method and computer program product
JP5803125B2 (ja) 音声による抑圧状態検出装置およびプログラム
TWI767696B (zh) 自我語音抑制裝置及方法
JP4858663B2 (ja) 音声認識方法及び音声認識装置
JP5840087B2 (ja) 音声信号復元装置および音声信号復元方法
JP4542399B2 (ja) 音声スペクトル推定装置および音声スペクトル推定プログラム
JP2003058186A (ja) 雑音抑圧方法および雑音抑圧装置
WO2020110228A1 (ja) 情報処理装置、プログラム及び情報処理方法
JP4051325B2 (ja) 話者位置検出方法、装置、プログラム、および記録媒体
JP2002258899A (ja) 雑音抑圧方法および雑音抑圧装置
JP3118023B2 (ja) 音声区間検出方式及び音声認識装置
KR101424327B1 (ko) 잡음 제거 장치 및 방법
JP2001228893A (ja) 音声認識装置
JP2005321539A (ja) 音声認識方法、その装置およびプログラム、その記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070226

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100202

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100319

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100601

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100625

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130702

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140702

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees