JP2006084639A

JP2006084639A - 音声スペクトル推定装置および音声スペクトル推定プログラム

Info

Publication number: JP2006084639A
Application number: JP2004268028A
Authority: JP
Inventors: Takeshi Kobayakawa; 健小早川; Hiroyuki Segi; 寛之世木
Original assignee: Nippon Hoso Kyokai NHK; Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2004-09-15
Filing date: 2004-09-15
Publication date: 2006-03-30
Anticipated expiration: 2024-09-15
Also published as: JP4542399B2

Abstract

【課題】雑音重畳音声スペクトルから雑音スペクトル除去を良好に行うことができる音声スペクトル推定装置および音声スペクトル推定プログラムを提供する。
【解決手段】音声スペクトル推定装置１は、音声スペクトルに雑音スペクトルが予め重畳されている雑音重畳音声スペクトルから、前記音声スペクトルを推定するものにおいて、信号対雑音比に基づいて、雑音重畳音声スペクトル係数および雑音スペクトル係数を計算する係数計算手段３と、雑音重畳音声スペクトルを計算する第一項スペクトル計算手段５と、雑音スペクトルを計算する第二項スペクトル計算手段７と、雑音重畳音声スペクトルから雑音スペクトルを減算するスペクトル減算手段９と、を備えた。
【選択図】図１

Description

本発明は、雑音スペクトルが重畳されている雑音重畳音声スペクトルから音声スペクトルを推定する音声スペクトル推定装置および音声スペクトル推定プログラムに関する。

従来、音声（音声信号）を処理する分野において、音声に雑音（雑音信号）が予め重畳（混合）している雑音重畳音声（雑音重畳音声信号）から雑音を軽減するスペクトル・サブストラクション（スペクトル減算法）がある。このスペクトル減算法は、雑音重畳音声および雑音をスペクトル分析した結果である雑音重畳音声スペクトルおよび雑音スペクトルから音声スペクトルを推定する方法（例えば、特許文献１，２，３，４，５、非特許文献１，２を参照）であり、この方法を具現化した従来の音声スペクトル推定装置を図５に示す。

この図５に示すように、音声スペクトル推定装置１０１は、雑音重畳音声スペクトルｒ_X、雑音スペクトルｒ_Nおよび信号対雑音比（Ｓ／Ｎ比）ｘから音声スペクトルｒ_Sを推定するもので、減算係数計算部１０３と、減算スペクトル計算部１０５と、スペクトル減算部１０７とを備えている。この音声スペクトル推定装置１０１では、次に示す数式（１）を用いて、雑音重畳音声スペクトルｒ_X、雑音スペクトルｒ_Nおよび信号対雑音比（Ｓ／Ｎ比）ｘから音声スペクトルｒ_Sを推定している。

減算係数計算部１０３は、入力された信号対雑音比（Ｓ／Ｎ比）ｘに基づいて、数式（１）の第二項（雑音スペクトルｒ_Nの項、減算スペクトル）の係数である減算係数１／（１＋γ・ｘ）を計算するものである。なお、γは、任意に調整可能なパラメータである。

減算スペクトル計算部１０５は、減算係数計算部１０３で計算した係数１／（１＋γ・ｘ）と、入力された雑音スペクトルｒ_Nとから数式（１）の第二項（減算スペクトル）を計算するものである。

スペクトル減算部１０７は、入力された雑音重畳音声スペクトルｒ_X（第一項）から、減算スペクトル計算部１０５で計算された第二項（減算スペクトル）を減算することで、音声スペクトルｒ_Sを推定して出力するものである。
特許第２８３６２７１号明細書（段落００３２〜００３８、図５、図８）特許第２８６３２１４号明細書（発明の詳細な説明、図３）特許第３１１８０２３号明細書（段落０００３、０００４、図１）特許第３４５１１４６号明細書（段落００１３〜００２４、図１）特許第３４５４２０６号明細書（段落００３３〜００７３、図１）Ｐ．ＬｏｃｋｗｏｏｄａｎｄＪ．ＢｏｕｄｙＥｘｐｅｒｉｍｅｎｔｓｗｉｔｈａｎｏｎｌｉｎｅａｒｓｐｅｃｔｒａｌｓｕｂｔｒａｃｔｏｒ（ｎｓｓ），ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌｓａｎｄｔｈｅｐｒｏｊｅｃｔｉｏｎ，ｆｏｒｒｏｂｕｓｔｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎｉｎｃａｒｓ．ＳｐｅｅｃｈＣｏｍｍｕｎｉｃａｔｉｏｎ，Ｖｏｌ．１１，ｐｐ．２１５−２２８，１９９２．ＮｕｍｅｒｉｃａｌＲｅｃｉｐｅｓｉｎＣ，ｃｈａｐｔｅｒ６．Ｃａｍｂｒｉｄｇｅ，２ｎｄｅｄｉｔｉｏｎ，１９９２．

しかしながら、従来の音声スペクトル推定装置１０１は、雑音スペクトルｒ_Nに係る減算係数を計算して、雑音重畳音声スペクトルｒ_X（第一項）に含まれている雑音スペクトルｒ_Nの割合を、信号対雑音比（Ｓ／Ｎ比）ｘに従って変化させるだけであり、雑音重畳音声スペクトルｒ_X（第一項）が信号対雑音比（Ｓ／Ｎ比）ｘによってどのように変化するのかが考慮されていないので、必ずしも良好な雑音スペクトル除去が行われていないという問題がある。

そこで、本発明では、前記した問題を解決し、雑音重畳音声スペクトルから雑音スペクトル除去を良好に行うことができる音声スペクトル推定装置および音声スペクトル推定プログラムを提供することを目的とする。

前記課題を解決するため、請求項１記載の音声スペクトル推定装置は、音声スペクトルに雑音スペクトルが予め重畳されている雑音重畳音声スペクトルから、前記音声スペクトルを推定する音声スペクトル推定装置であって、係数計算手段と、雑音スペクトル減算手段と、を備える構成とした。

かかる構成によれば、音声スペクトル推定装置は、係数計算手段によって、信号対雑音比に基づいて、雑音重畳音声スペクトルの割合を示す雑音重畳音声スペクトル係数および雑音スペクトルの割合を示す雑音スペクトル係数を計算する。なお、雑音重畳音声スペクトルは、何らかの雑音が存在する場所で、発話者が発話した音声を集音し、スペクトル分析して得られたものであり、雑音スペクトルは、発話者が発話した音声以外の音声等（何らかの雑音、例えば、別の発話者が発声した音声、オフィス機器や空調機等による音声以外の騒音）を集音し、周波数変換して得られたものである。

続いて、音声スペクトル推定装置は、雑音スペクトル除去手段によって、係数計算手段で計算した雑音重畳音声スペクトル係数および雑音スペクトル係数に基づいて、雑音重畳音声スペクトルから雑音スペクトルを除去する。例えば、雑音重畳音声スペクトルおよび雑音スペクトルに、信号対雑音比が反映された係数が乗算された後に、当該雑音重畳音声スペクトルから当該雑音スペクトルを減算することで、より正確な音声スペクトルが得られることになる。

請求項２記載の音声スペクトル推定装置は、請求項１に記載の音声スペクトル推定装置において、前記係数計算手段が、前記雑音重畳音声スペクトル係数を計算する際に、楕円積分を用いることを特徴とする。

かかる構成によれば、音声スペクトル推定装置は、係数計算手段によって、信号対雑音比をパラメータとする楕円積分を含む関数を用いることで、信号対雑音比の変化に伴った最適な雑音重畳音声スペクトルを得ることができる。最も確からしい雑音重畳音声スペクトルを推定することで最も確からしい音声が推定され、効果的な雑音除去が可能になる。最も確からしいスペクトルの推定を行う際に、スペクトル強度（実スペクトル）だけでなく、楕円積分を含む関数を用いることで、スペクトル位相も考慮することとなり、従来法よりも高精度な音声スペクトルの推定が可能になる。

請求項３記載の音声スペクトル推定装置は、請求項２に記載の音声スペクトル推定装置において、前記係数計算手段が、前記雑音重畳音声スペクトル係数を計算する際に、前記楕円積分を含む関数の級数展開に基づいた多項式によって、前記楕円積分を含む関数を近似することを特徴とする。

かかる構成によれば、音声スペクトル推定装置は、係数計算手段によって、信号対雑音比をパラメータとする楕円積分を含む関数を用いることで、信号対雑音比の変化に伴った最適な雑音重畳音声スペクトルを得ることができる。楕円積分を含む関数を級数展開することで、高速な近似計算が実行でき、その結果、信号雑音比の変化に伴った最適な雑音重畳音声スペクトルを得ることができる。

請求項４記載の音声スペクトル推定装置は、請求項１に記載の音声スペクトル推定装置において、前記係数計算手段が、前記雑音重畳音声スペクトル係数を計算する際に、予め計算した前記雑音重畳音声スペクトルに係る数値表を参照し、前記信号対雑音比に応じて、当該数値表の数値を決定することを特徴とする。

かかる構成によれば、音声スペクトル推定装置は、係数計算手段によって、予め計算した雑音重畳音声スペクトルに係る数値表を参照し、信号対雑音比に応じて、当該数値表の数値を決定する。つまり、信号対雑音比に応じた数値を用いることで、信号対雑音比の変化に伴った最適な雑音重畳音声スペクトルを得ることができる。

請求項５記載の音声スペクトル推定プログラムは、音声スペクトルに雑音スペクトルが予め重畳されている雑音重畳音声スペクトルから、前記音声スペクトルを推定するために、コンピュータを、係数計算手段、雑音スペクトル除去手段、として機能させる構成とした。

かかる構成によれば、音声スペクトル推定プログラムは、係数計算手段によって、信号対雑音比に基づいて、雑音重畳音声スペクトルの割合を示す雑音重畳音声スペクトル係数および雑音スペクトルの割合を示す雑音スペクトル係数を計算する。続いて、音声スペクトル推定プログラムは、雑音スペクトル除去手段によって、係数計算手段で計算した雑音重畳音声スペクトル係数および雑音スペクトル係数に基づいて、雑音重畳音声スペクトルから雑音スペクトルを除去する。

請求項１または５に記載の発明によれば、雑音重畳音声スペクトルに、信号対雑音比に応じた雑音重畳音声スペクトル係数を反映させているので、雑音重畳音声スペクトルと雑音スペクトルとの双方に信号対雑音比が反映されることになり、雑音重畳音声スペクトルから雑音スペクトル除去を良好に行うことができ、より正確に音声スペクトルの推定を行うことができる。

請求項２に記載の発明によれば、信号対雑音比をパラメータとする関数に、音声スペクトルおよび雑音スペクトルにおける複素スペクトルの位相差によって、スペクトルのレベルを平均する際に得られる楕円積分を用いて、雑音重畳音声スペクトル係数を計算しているので、信号対雑音比の変化に伴った最適な雑音重畳音声スペクトルを得ることができる。

請求項３に記載の発明によれば、級数展開に基づいた多項式を用いて、信号対雑音比から雑音重畳音声スペクトル係数を計算しているので、信号対雑音比の変化に伴った最適な雑音重畳音声スペクトルを得ることができる。

請求項４に記載の発明によれば、予め計算した雑音重畳音声スペクトルに係る数値表を参照し、信号対雑音比に応じて、当該数値表の数値を決定する。つまり、信号対雑音比に応じた数値を用いることで、信号対雑音比の変化に伴った最適な雑音重畳音声スペクトルを得ることができる。

次に、本発明の実施形態について、適宜、図面を参照しながら詳細に説明する。
〈音声スペクトル推定活用システムの構成〉
図１は、音声スペクトル推定活用システムのブロック図である。この図１に示すように、音声スペクトル推定活用システムＳは、雑音重畳音声（雑音重畳音声信号）と雑音（雑音信号）とを入力して、これらをスペクトル分析した雑音重畳音声スペクトルと雑音スペクトルとから音声スペクトルを推定し、この推定した音声スペクトルを活用（利用）するもので、音声スペクトル推定装置１と、スペクトル出力部２と、音声スペクトル活用部４とを備えている。
音声スペクトル推定装置１の説明に先立ち、スペクトル出力部２および音声スペクトル活用部４の説明をする。

〔スペクトル出力部の構成〕
スペクトル出力部２は、雑音重畳音声と雑音とを入力（取得）し、これらをスペクトル分析した雑音重畳音声スペクトルおよび雑音スペクトルと、信号対雑音比（Ｓ／Ｎ比）とを、音声スペクトル推定装置１に出力するもので、雑音重畳音声収録マイク６ａ（６）と、雑音収録マイク６ｂ（６）と、マイクアンプ８ａ（８）と、マイクアンプ８ｂ（８）と、スペクトル分析部１０ａ（１０）と、スペクトル分析部１０ｂ（１０）と、補正装置１２と、Ｓ／Ｎ比推定部１４とを備えている。

なお、雑音重畳音声収録マイク６ａ（６）および雑音収録マイク６ｂ（６）と、マイクアンプ８ａ（８）およびマイクアンプ８ｂ（８）と、スペクトル分析部１０ａ（１０）およびスペクトル分析部１０ｂ（１０）とについて、これらそれぞれの双方を指す、または、これらのいずれかに限定しない場合には、単に、収録マイク６、マイクアンプ８、スペクトル分析部１０と記載することにする。

また、雑音重畳音声収録マイク６ａ、マイクアンプ８ａおよびスペクトル分析部１０ａと、雑音収録マイク６ｂ、マイクアンプ８ｂおよびスペクトル分析部１０ｂとは、それぞれ所定の回線特性を有する電気回線で接続されている。

雑音重畳音声収録マイク６ａは、音声スペクトル推定装置１で推定したい音声スペクトルの元となる音声（音声信号）を発話する発話者に装着（設置）され、当該発話者が発話した音声を収録するもの（主マイク）である。この雑音重畳音声収録マイク６ａによって、発話者が発話する音声を収録（集音）する際に、収録される音声に雑音が重畳されることになる。この雑音は、当該発話者以外の別の発話者が発話した音声や、収録場所が室内であれば、物音、オフィス機器や空調機等による音声以外の騒音等、収録場所が室外であれば、車やバイク等の騒音等、様々な音源から発せられる、多種多様な音量、周波数の音である。

なお、この雑音重畳収録マイク６ａは、可能な限り、発話者の発話する音声を良好に収録できる場所（例えば、発話者の、口元近く、胸元等）に設置することが好ましい。また、この雑音重畳音声収録マイク６ａは、発話者が発話する音声のみを収録できるように、無指向性マイクよりは指向性マイクの方が好ましい。

雑音収録マイク６ｂは、雑音（雑音信号）を発する音源付近に設置し、当該音源が発した雑音を収録するものである。この雑音収録マイク６ｂは、発話者が発話した音声をなるべく収録（検出）しない場所に設置することが好ましい。なお、この雑音収録マイク６ｂは、雑音重畳音声収録マイク６ａと同一のマイク特性を備えている方が好ましい。

この実施の形態では、雑音重畳音声収録マイク６ａと雑音収録マイク６ｂとの２台のマイクが備えられているが、雑音重畳音声と雑音とが分離できるのであれば、１台のマイクであってもよい。なお、一般に、スペクトル・サブストラクション（スペクトル減算法）では、同一の場所（同一地点）で、雑音重畳音声と雑音とを収録することが理想とされているが、現実には不可能（雑音重畳音声と雑音との分離が困難）であるので、この音声スペクトル推定活用システムＳのスペクトル出力部２のように、異なる場所（地点）で収録している。そして、雑音重畳音声と雑音とを異なる場所で収録することによって生じる違い（伝達特性）を補正するために、補正装置１２（伝達特性補正部１２ｃ）が設けられている。

マイクアンプ８ａは、雑音重畳音声収録マイク６ａで収録（集音）し、電気信号となった雑音重畳音声（雑音重畳音声信号）の電圧を増幅して、スペクトル分析部１０ａに出力するものである。
マイクアンプ８ｂは、雑音収録マイク６ｂで収録（集音）し、電気信号となった雑音（雑音信号）の電圧を増幅して、スペクトル分析部１０ｂに出力するものである。

スペクトル分析部１０ａは、マイクアンプ８ａで電圧が増幅された雑音重畳音声（増幅雑音重畳音声信号）を周波数変換し、この周波数変換したスペクトル信号である雑音重畳音声スペクトルを、Ｓ／Ｎ比推定部１４と音声スペクトル推定装置１とに出力するものである。

スペクトル分析部１０ｂは、マイクアンプ８ｂで電圧が増幅された雑音（増幅雑音信号）を周波数変換し、この周波数変換したスペクトル信号である雑音スペクトルを、補正装置１２に出力するものである。

補正装置１２は、スペクトル分析部１０ｂで周波数変換した雑音スペクトルを補正し、Ｓ／Ｎ比推定部１４と音声スペクトル推定装置１とに出力するもので、マイク特性補正部１２ａと、回線特性補正部１２ｂと、伝達特性補正部１２ｃとを備えている。この補正装置１２は、これらマイク特性補正部１２ａ、回線特性補正部１２ｂおよび伝達特性補正部１２ｃによって、マイク特性、回線特性および伝達特性が補正された結果に基づいて、雑音スペクトルを補正して、Ｓ／Ｎ比推定部１４と音声スペクトル推定装置１とに出力している。

なお、この補正装置１２には、音声スペクトル推定活用システムＳの利用者が操作する操作手段（図示せず）によって、雑音重畳音声収録マイク６ａおよび雑音収録マイク６ｂのマイク特性と、雑音重畳音声が処理される電気回線（雑音重畳音声収録マイク６ａ、マイクアンプ８ａおよびスペクトル分析部１０ａが接続されている回線）および雑音が処理される電気回線（雑音収録マイク６ｂ、マイクアンプ８ｂおよびスペクトル分析部１０ｂが接続されている回線）の回線特性と、雑音重畳音声収録マイク６ａが設置されている空間および雑音収録マイク６ｂが設置されている空間の伝達特性（伝達関数）とが入力されている。

マイク特性補正部１２ａは、雑音重畳音声収録マイク６ａのマイク特性と雑音収録マイク６ｂのマイク特性とがほぼ同一になるように、雑音収録マイク６ｂのマイク特性を補正するものである。

回線特性補正部１２ｂは、雑音重畳音声が処理される電気回線の回線特性と、雑音が処理される電気回線の回線特性とがほぼ同一になるように、雑音が処理される電気回線の回線特性を補正するものである。

伝達特性補正部１２ｃは、雑音重畳音声収録マイク６ａが設置されている空間の伝達特性（伝達関数）と、雑音収録マイク６ｂが設置されている空間の伝達特性とがほぼ同一になるように、雑音収録マイク６ｂが設置されている空間の伝達特性を補正するものである。

Ｓ／Ｎ比推定部１４は、スペクトル分析部１０ａから出力された雑音重畳音声スペクトルと、補正装置１２から出力された雑音スペクトルとに基づいて、信号対雑音比（Ｓ／Ｎ比）を推定して、音声スペクトル推定装置１に出力するものである。

信号対雑音比は、有効な信号と、雑音との割合（比率）を示す尺度であり、有効な信号の電力である信号電力が、雑音の電力である雑音電力を超過したデシベル数で表されるものである。

なお、このＳ／Ｎ比推定部１４は、スペクトル出力部２に入力される雑音重畳音声が、人工的に生成されたもの（音声に別の音［雑音］を人工的に重畳したもの）である場合、信号対雑音比は既知となるので、省略することが可能になる。

〔音声スペクトル活用部の構成〕
音声スペクトル活用部４は、音声スペクトル推定装置１から出力された音声スペクトルを活用（利用）するもので、音声認識装置４ａと、話者認識装置４ｂと、音声合成装置４ｃとを備えている。この実施の形態では、音声スペクトルを活用するのに、音声認識装置４ａ、話者認識装置４ｂおよび音声合成装置４ｃの３つの装置を備えているが、いずれか１つを備えていればよい。

音声認識装置４ａは、音声スペクトル推定装置１から出力された音声スペクトルを音声認識し、音声認識した結果であるテキストデータを出力するものである。つまり、この音声認識装置４ａは、音声スペクトルをテキストデータに変換するものであり、図示を省略した、音声スペクトルを所定の探索単位（音素等）に分割する分割手段、音声スペクトルとテキストデータとを対応付けた音声データベース等を備えている。

話者認識装置４ｂは、音声スペクトル推定装置１から出力された音声スペクトルについて、当該音声スペクトルの元となった雑音重畳音声を発話した発話者を認識（特定）するものである。この話者認識装置４ｂは、図示を省略した、複数の発話者の音声を収録した発話者音声データベース等を備えている。

音声合成装置４ｃは、テキストデータを音声合成し、合成音声として出力するもので、図示を省略した、音声合成用データベースを備えている。そして、この音声合成用データベースに、音声スペクトル推定装置１から出力された音声スペクトルが蓄積されることで、様々な合成音声を合成可能になる。

〔音声スペクトル推定装置の構成〕
音声スペクトル推定装置１は、スペクトル出力部２から出力された雑音重畳音声スペクトル、雑音スペクトルおよび信号対雑音比から、発話者が発話した音声（音声信号）の音声スペクトルを推定するもので、係数計算手段３と、第一項スペクトル計算手段５と、第二項スペクトル計算手段７と、スペクトル減算手段９とを備えている。なお、これらの各手段は、音声スペクトル推定装置１の主制御部（図示せず）に展開しているプログラムである。また、第一項スペクトル計算手段５、第二項スペクトル計算手段７およびスペクトル減算手段９が雑音スペクトル除去手段に相当している。

係数計算手段３は、スペクトル出力部２から出力された信号対雑音比に基づいて、次に示す数式（２）における第一項の係数と、第二項の係数とを計算するもので、第一項係数計算手段３ａと、第二項係数計算手段３ｂとを備えている。

この数式（２）において、ｒ_Sは音声スペクトル、ｒ_Xは雑音重畳音声スペクトル、ｒ_Nは雑音スペクトル、ｘは信号対雑音比（Ｓ／Ｎ比）、βは調整可能なパラメータである。また、α（ｘ）（第一項の係数）は、ｘの関数であり、次に示す数式（３）および数式（４）で定義される。

ここで、α（ｘ）を図２に示す（適宜、図１参照）。この図２に示すように、α（ｘ）（太線）は、信号対雑音比ｘを横軸にとった場合、信号対雑音比ｘが１になるまでは急激に増加し、信号対雑音比が１を超えてからは緩やかに減少する関数である。
図１に戻って、音声スペクトル推定装置１の構成の説明を続ける。

第一項係数計算手段３ａは、数式（２）における第一項（雑音重畳音声スペクトルｒ_Xの項）の係数、つまり、数式（３）におけるα（ｘ）を計算するものである。なお、このα（ｘ）を計算する際に現れるＥ（ｋ）（数式（４））は、第２種完全楕円積分であり、背景技術で示した非特許文献２に記載されている数値計算法によって求めることができる。この第２種完全楕円積分を用いて、第一項の係数を計算することで、最も確からしい雑音重畳音声スペクトルを推定することで、最も確からしい音声スペクトルを推定するスペクトル減算法により、正確な音声スペクトルを推定することができる。

また、第一項係数計算手段３ａは、級数展開に基づいた多項式を用いて、第一項の係数を計算することができる。この級数展開は、任意のｘの周りのテーラー展開を用いて、無数に作成することができる。例えば、ｘ＝０の周りでの級数展開に基づいた多項式は、α（ｘ）＝１＋ｘ−ｘ²／４−ｘ³／４・・・数式（５）であり、楕円積分を含む関数のｘ＝０の周りの値の近似計算に用いることができる。

この級数展開に基づく多項式は、無限種類作成することができ、例えば、α（ｘ）をｘ＝０の周りで級数展開すると、数式（５）のようになる。また、級数展開は、他の場所を中心とすることもできて、ちなみに、ｘ＝１の周りの級数展開は、α（ｘ）＝π／２＋（０．１９６３５１ｌｏｇ（ｘ−１）−０．３１０１２３）（ｘ−１）²＋（−０．１９６３５ｌｏｇ（ｘ−１）＋０．２１１９４８）（ｘ−１）³＋０（ｘ⁴）となる。

このように、展開する場所によって、異なる多項式が得られる。この級数展開に基づく多項式を具体的に、図２の（１）〜（３）に示す。ｘ＝０の周りで級数展開した場合を（１）のグラフが示しており、ｘ＝１の周りで級数展開した場合を（２）のグラフが示しており、ｘ＝∞の周りで級数展開した場合を（３）のグラフが示している。なお、これら（１）から（３）のグラフは、いずれも３次の項で展開を打ち切った場合のものである。

この級数展開に基づく多項式を用いる方法は、どのように計算していいか直接にはわからない関数の計算法として一般的に知られており、関数を有効に近似できる範囲（収束半径）内で用いる。例えば、図２の例では、α（ｘ）は、ｘ＝０の周りで展開した多項式（ｘ≦０．５のとき）、ｘ＝１の周りで展開した多項式（０．５≦ｘ≦１．５のとき）、ｘ＝∞の周りで展開した多項式（１．５≦ｘのとき）とすることで、計算することができる。

さらに、第一項係数計算手段３ａは、予め計算した雑音重畳音声スペクトルに係る数値表を図示を省略した記憶手段に記憶しており、この数値表を参照し、信号対雑音比ｘに応じて、当該数値表の数値を決定して、第一項の係数を計算することもできる（なお、数値表とは、図２を数値表にしたものである）。

第二項係数計算手段３ｂは、数式（２）における第二項（雑音スペクトルｒ_Nの項）の係数を計算するものである。この第二項の係数（１／（１＋β・ｘ））を計算する際には、信号対雑音比ｘに乗算される、調整可能なパラメータβを決定する必要がある。このパラメータβは、当該システムＳの利用者が任意に調整可能なものであり、例えば、事前に予備実験を行うことにより当該システムＳの性能を最適にするように決定することが可能である。

第一項スペクトル計算手段５は、スペクトル出力部２から出力された雑音重畳音声スペクトルｒ_Xに、係数計算手段３の第一項係数計算手段３ａによって計算された第一項の係数α（ｘ）を乗算して、数式（２）における第一項α（ｘ）ｒ_Xを計算して、スペクトル減算手段９に出力するものである。

第二項スペクトル計算手段７は、スペクトル出力部２から出力された雑音スペクトルｒ_Nに、係数計算手段３の第二項係数計算手段３ｂによって計算された第二項の係数を乗算して、数式（２）における第二項ｒ_N／（１＋β・ｘ）を計算して、スペクトル減算手段９に出力するものである。

スペクトル減算手段９は、第一項スペクトル計算手段５で計算された第一項α（ｘ）ｒ_Xから第二項スペクトル計算手段７で計算された第二項ｒ_N／（１＋β・ｘ）を減算して、音声スペクトルｒ_Sを求めて、音声スペクトル活用部４に出力するものである。

ここで、スペクトル減算手段９から出力された音声スペクトルｒ_Sが音声スペクトル活用部４の音声認識装置４ａに出力された場合の、単語正解精度について、図３を参照して説明する。図３は、スペクトルサブストラクションなし（スペクトル減算法を用いずに推定した音声スペクトルを使用した場合）と、従来法（従来のスペクトル減算法による音声スペクトルを使用した場合）と、提案法（音声スペクトル推定装置１によって推定した音声スペクトルを使用した場合）とについて、信号対雑音比（Ｓ／Ｎ比）と単語正解精度との関係を示した図である。

この図３から、どの信号対雑音比であっても、スペクトルサブストラクションなしおよび従来法に比べて、提案法の方が、単語正解精度が高いことがわかる。

この音声スペクトル推定装置１によれば、雑音が存在する雑音環境下で取得された雑音重畳音声を周波数変換した雑音重畳音声スペクトルｒ_Xおよび雑音を周波数変換した雑音スペクトルｒ_Nから推定される音声スペクトルｒ_Sの信号対雑音比（Ｓ／Ｎ比）を改善することができる。その結果、音声スペクトル活用部４において、音声認識率、話者認識率および合成音声の音質を向上させることができる。

〈音声スペクトル推定活用システム（音声スペクトル推定装置）の動作〉
次に、図４に示すフローチャートを参照して、音声スペクトル推定活用システムＳ（音声スペクトル推定装置１）の動作を説明する（適宜、図１参照）。
まず、音声スペクトル推定活用システムＳは、スペクトル出力部２の雑音重畳音声収録マイク６ａおよび雑音収録マイク６ｂによって、雑音重畳音声および雑音を収録（集音）する（ステップＳ１）。続いて、音声スペクトル推定活用システムＳは、スペクトル出力部２のマイクアンプ８ａおよびマイクアンプ８ｂによって、電気信号となった雑音重畳音声および雑音の電圧を増幅し、スペクトル分析部１０ａおよびスペクトル分析部１０ｂによって、周波数変換（スペクトル分析）する（ステップＳ２）。

そして、音声スペクトル推定活用システムＳは、スペクトル出力部２の補正装置１２によって、雑音スペクトルを補正し、Ｓ／Ｎ比推定部１４によって、信号対雑音比（Ｓ／Ｎ比）を推定する（ステップＳ３）。そうしてから、音声スペクトル推定活用システムＳのスペクトル出力部２は、雑音重畳音声スペクトル、雑音スペクトルおよび信号対雑音比を音声スペクトル推定装置１に出力する。

そうすると、音声スペクトル推定装置１は、係数計算手段３の第一項係数計算手段３ａおよび第二項係数計算手段３ｂによって、第一項係数および第二項係数を計算する（ステップＳ４）。計算した第一項係数は第一項スペクトル計算手段５に、計算した第二項係数は第二項スペクトル計算手段７にそれぞれ出力される。そして、音声スペクトル推定装置１は、第一項スペクトル計算手段５および第二スペクトル計算手段７によって、第一項スペクトルおよび第二項スペクトルを計算する（ステップＳ５）。

それから、音声スペクトル推定装置１は、スペクトル減算手段９によって、第一項スペクトル計算手段５で計算された第一項スペクトルから、第二項スペクトル計算手段７で計算された第二項スペクトルを減算して、音声スペクトルを推定し、音声スペクトル活用部４に出力する（ステップＳ６）。その後、音声スペクトル活用部４の音声認識装置４ａ、話者認識装置４ｂおよび音声合成装置４ｃにおいて、信号対雑音比が改善された音声スペクトルが活用される。

以上、本発明の実施形態について説明したが、本発明は前記実施形態には限定されない。例えば、本実施形態では、音声スペクトル推定装置１として説明したが、当該装置１の各構成の処理を１つずつの過程とみなした音声スペクトル推定方法と捉えることも可能であり、１つずつの処理を汎用的または特殊なコンピュータ言語で記述した音声スペクトル推定プログラムと捉えることも可能である。この場合、音声スペクトル推定装置１と同様の効果を得ることができる。

本発明の実施形態に係る音声スペクトル推定活用システム（音声スペクトル推定装置を包含）のブロック図である。音声スペクトルを推定する推定式における第一項の係数である関数を示した図である。本発明の実施形態における効果と、従来の方法による効果とを比較した図である。図１に示した音声スペクトル推定活用システム（音声スペクトル推定装置を包含）の動作を説明したフローチャートである。従来の音声スペクトル推定装置のブロック図である。

符号の説明

１音声スペクトル推定装置
３係数計算手段
３ａ第一項係数計算手段
３ｂ第二項係数計算手段
５第一項スペクトル計算手段（雑音スペクトル除去手段）
７第二項スペクトル計算手段（雑音スペクトル除去手段）
９スペクトル減算手段（雑音スペクトル除去手段）

Claims

音声スペクトルに雑音スペクトルが予め重畳されている雑音重畳音声スペクトルから、前記音声スペクトルを推定する音声スペクトル推定装置において、
信号対雑音比に基づいて、前記雑音重畳音声スペクトルの割合を示す雑音重畳音声スペクトル係数および前記雑音スペクトルの割合を示す雑音スペクトル係数を計算する係数計算手段と、
この係数計算手段で計算した雑音重畳音声スペクトル係数および雑音スペクトル係数に基づいて、前記雑音重畳音声スペクトルから前記雑音スペクトルを除去する雑音スペクトル除去手段と、
を備えることを特徴とする音声スペクトル推定装置。
前記係数計算手段は、前記雑音重畳音声スペクトル係数を計算する際に、楕円積分を含む関数を用いることを特徴とする請求項１に記載の音声スペクトル推定装置。
前記係数計算手段は、前記雑音重畳音声スペクトル係数を計算する際に、前記楕円積分を含む関数の級数展開に基づいた多項式によって、前記楕円積分を含む関数を近似したことを特徴とする請求項２に記載の音声スペクトル推定装置。
前記係数計算手段は、前記雑音重畳音声スペクトル係数を計算する際に、予め計算した前記雑音重畳音声スペクトルに係る数値表を参照し、前記信号対雑音比に応じて、当該数値表の数値を決定することを特徴とする請求項１に記載の音声スペクトル推定装置。
音声スペクトルに雑音スペクトルが予め重畳されている雑音重畳音声スペクトルから、前記音声スペクトルを推定するために、コンピュータを、
信号対雑音比に基づいて、前記雑音重畳音声スペクトルの割合を示す雑音重畳音声スペクトル係数および前記雑音スペクトルの割合を示す雑音スペクトル係数を計算する係数計算手段、
この係数計算手段で計算した雑音重畳音声スペクトル係数および雑音スペクトル係数に基づいて、前記雑音重畳音声スペクトルから前記雑音スペクトルを除去する雑音スペクトル除去手段、
として機能させることを特徴とする音声スペクトル推定プログラム。