JP7316093B2

JP7316093B2 - 音声雑音除去装置及びプログラム

Info

Publication number: JP7316093B2
Application number: JP2019095104A
Authority: JP
Inventors: 知美小倉; 岳大杉本
Original assignee: Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2019-05-21
Filing date: 2019-05-21
Publication date: 2023-07-27
Anticipated expiration: 2039-05-21
Also published as: JP2020190606A

Description

本発明は、圧縮伸長後の音声信号におけるミュージカルノイズを含む雑音を除去する音声雑音除去装置及びプログラムに関する。

音声信号を伝送又は記録する際に非可逆圧縮符号化処理を施すことがある。この圧縮符号化された音声信号を伸長復号すると、符号化劣化によって、ミュージカルノイズと呼ばれるような特徴的なノイズが生じることがある。このミュージカルノイズによって主観的な音質が劣化してしまう。ミュージカルノイズは、音声信号においてエネルギー集中の分布が所定の時間間隔で区切られた信号期間毎に不規則に変化する特徴を有し、雑音の一種である。

特に、最新の音声符号化技術では、チャンネル毎にビットの配分を或る時間間隔でダイナミックに変えることができる（例えば、非特許文献１参照）。このため、後方など或るチャンネルの或る時刻にミュージカルノイズが生じることがある。家庭でテレビを視聴する際には、伝送された圧縮音声はあるが、原音を入手することはできないため、どのように音声が劣化したのかが分からない。そのような条件の中、高品質な音声信号を視聴するためには、家庭側で音声が劣化したのか否かを推定し、補正する技術が望まれる。

尚、雑音の一種であるクリップノイズを検出する技法として、直交検波を行い、クリップノイズの強度が閾値より超過した場合に雑音として検出する技法が開示されている（例えば、特許文献１参照）。この技法はクリップノイズを検出するためのもので、クリップノイズの強度のみを評価指標としている。

また、雑音を抑圧する技法として、推定した雑音の振幅スペクトルを減算するスペクトラルサブトラクション法を用いる技法がある（例えば、特許文献２参照）。

また、ミュージカルノイズを抑圧する技法として、スペクトログラム画像の膨張・収縮処理による方法が提案されている（例えば、非特許文献２参照）。

特開２０１２－２３０１６０号公報国際公開第９９／５０８２５号

ISO/IEC 23008-3, "High Efficiency Coding and Media Delivery in Heterogeneous Environments Part 3: 3D Audio" 山口亮、金子豊、"雑音抑圧信号処理におけるミュージカルノイズ改善の検討"，日本音響学会研究発表会講演論文集，２００４年３月

上述したように、音声信号を伝送又は記録する際に非可逆圧縮符号化処理を施し、その圧縮符号化された音声信号を伸長復号すると、符号化劣化によって、ミュージカルノイズと呼ばれるような特徴的なノイズが生じることがある。このミュージカルノイズによって主観的な音質が劣化してしまう。このため、圧縮伸長後の音声信号を再生し、良好な音質を得るためには、圧縮伸長後の音声信号におけるミュージカルノイズの検出と補正が望まれる。

ここで、特許文献１に開示されるように、雑音の一種であるクリップノイズを検出する技法がある。しかし、この技法では音声信号の時間波形における位相情報を評価指標として扱うものではないため、例えば位相情報が劣化した場合にクリップノイズの強度が大きくならない場合があり、クリップノイズの強度のみで、符号化劣化によって生じるミュージカルノイズを判別することは困難である。

また、特許文献２に開示されるように、ミュージカルノイズを含む雑音を抑圧する技法がある。ただし、一般的にスペクトラルサブトラクション法を利用しようとすると、雑音を無音区間から推定することが必要となる。例えばテレビで放送される音声信号では無音区間は少ないことから、スペクトラルサブトラクション法を利用して、人の声から音楽など多岐に渡る音声信号について時々刻々と変化するミュージカルノイズを推定することは困難である。また、スペクトラルサブトラクション法では非定常な雑音やパワースペクトルを推定できない場合には、効果が十分に得られないといわれており、白色雑音下での音声強調では用いられているが、ミュージカルノイズの抑圧には向いていない。

一方、非特許文献２に開示されるように、スペクトログラム画像の膨張・収縮処理により、ミュージカルノイズを抑圧する技法がある。しかし、このスペクトログラム画像の膨張・収縮処理では音声信号の時間波形における位相情報については補正していないため、位相情報も劣化したミュージカルノイズについて十分な効果が得られない。

従って、本発明の目的は、上述の問題に鑑みて、圧縮伸長後の音声信号におけるミュージカルノイズを含む雑音を除去し、高品質の音声信号を再生可能とする音声雑音除去装置及びプログラムを提供することにある。

本発明の音声雑音除去装置は、機械学習を用いて、任意の圧縮伸長後の音声信号に対し所定の時間間隔で区切られた信号期間毎に、所定の周波数間隔で帯域分割した帯域別にミュージカルノイズを含む雑音を検出する。ここで、機械学習は、学習用の原音の音声信号と、その原音の圧縮伸長後の音声信号について、所定の信号期間毎に帯域分割した時間波形をエネルギー又は包絡線形状に基づきミュージカルノイズを含む雑音を有する帯域であるか否かを識別するよう予め事前学習されている。そして、本発明の音声雑音除去装置は、信号期間毎に雑音の有無を検出した上で、雑音有りとして判定した信号期間における当該雑音を有する帯域の時間波形を該信号期間における当該雑音を有していない帯域の時間波形から線形予測により補正して全帯域の時間波形を帯域合成し、当該雑音有りとして判定した信号期間における補正後信号を形成する。最終的に、本発明の音声雑音除去装置は、当該雑音有りとして判定した信号期間における信号と、当該雑音無しとして判定した信号期間における信号とを合成し、雑音抑圧後の音声信号を生成して出力する。

即ち、本発明の音声雑音除去装置は、圧縮伸長後の音声信号における雑音を除去する音声雑音除去装置であって、圧縮伸長後の音声信号を入力し、所定の時間間隔で区切られた信号期間毎の信号に分割する信号期間分割部と、前記信号期間毎に所定の周波数間隔の帯域分割数で帯域分割した帯域別の時間波形を生成する帯域分割部と、前記信号期間毎に、機械学習を用いて当該帯域別にミュージカルノイズを含む雑音を検出し、前記信号期間分割部に対し、雑音無しの信号期間の信号と雑音有りの信号期間の信号に分岐させる雑音学習検出部と、前記雑音学習検出部による雑音帯域情報を基に、最小帯域及び最大帯域を持つ所定の帯域分割数で帯域分割した信号期間毎の雑音帯域の最小値、及び雑音帯域の最大値を判別する雑音帯域判別部と、前記雑音帯域判別部で用いた前記所定の帯域分割数、前記帯域分割の最小帯域及び最大帯域、並びに、前記雑音帯域の最小値及び前記雑音帯域の最大値を基に、当該雑音有りの信号期間における当該雑音を有する帯域の波形を該信号期間における当該雑音を有していない帯域の波形から線形予測により補正して、当該雑音有りの信号期間毎に補正後の帯域別時間波形を生成する雑音補正部と、当該雑音有りの信号期間毎に前記補正後の帯域別時間波形を帯域合成して、当該雑音有りの信号期間毎の補正後信号を形成する帯域合成部と、当該雑音有りの信号期間毎の補正後信号と、雑音無しの信号期間の信号とを時系列に連結することで合成することにより、ミュージカルノイズを含む雑音を抑圧した音声信号を生成する信号合成部と、を備えることを特徴とする。

また、本発明の音声雑音除去装置において、前記雑音学習検出部は、ＬＳＴＭ（Long Short-Term Memory）ネットワークにより構成され、学習用の原音の音声信号と、その原音の圧縮伸長後の音声信号について、所定の信号期間毎に帯域分割した時間波形をエネルギー又は包絡線形状に基づきミュージカルノイズを含む雑音を有する帯域であるか否かを識別するよう予め事前学習されていることを特徴とする。

また、本発明の音声雑音除去装置において、前記雑音補正部は、前記雑音帯域の最小値が予め定めた周波数より高いときは、前記雑音帯域の最小値より低い帯域の信号波形を用いて第１の線形予測を行い、前記雑音帯域の最小値が前記予め定めた周波数以下であり、且つ前記雑音帯域の最大値が前記予め定めた周波数より低いときは、前記雑音帯域の最大値より高い帯域の信号波形を用いて第２の線形予測を行い、前記雑音帯域の最小値が前記予め定めた周波数以下であり、且つ前記雑音帯域の最大値が前記予め定めた周波数以上であるときは、前記第１の線形予測により得られる帯域別の時間波形と、前記第２の線形予測により得られる帯域別の時間波形とを加重平均することにより、当該雑音有りの信号期間における当該雑音を有する帯域の時間波形を補正することを特徴とする。

また、本発明のプログラムは、コンピュータを、本発明の音声雑音除去装置として機能させるためのプログラムとして構成する。

本発明によれば、任意の圧縮伸長後の音声信号に対し符号化劣化によって生じたミュージカルノイズを含む雑音を自動検出し補正することができるので、雑音を抑圧した良好な音質の音声信号を得ることができる。

本発明による一実施形態の音声雑音除去装置の概略構成を示すブロック図である。本発明による一実施形態の音声雑音除去装置の帯域分割部において帯域分割したときに得られる時間波形を概略的に例示する図である。本発明による一実施形態の音声雑音除去装置の雑音学習検出部における事前学習と、雑音学習検出処理を概念的に示すブロック図である。本発明による一実施形態の音声雑音除去装置の雑音学習検出部におけるＬＳＴＭ学習処理の概略を概念的に示す図である。本発明による一実施形態の音声雑音除去装置の雑音帯域判別部において帯域分割したときに得られるパラメータを示す図である。本発明による一実施形態の音声雑音除去装置の雑音補正部における雑音補正処理を示すフローチャートである。（ａ）乃至（ｄ）は、それぞれ原音、劣化した圧縮伸長音、非特許文献２に基づく雑音除去処理後の圧縮伸長音、及び本発明に係る雑音除去処理後の圧縮伸長音に関するスペクトログラムを示す図である。

以下、図面を参照しながら、本発明による一実施形態の音声雑音除去装置１について説明する。

〔全体構成〕
図１は、本発明による一実施形態の音声雑音除去装置１の概略構成を示すブロック図である。音声雑音除去装置１は、雑音除去処理部１１及び記憶部１２から構成される。雑音除去処理部１１は、信号期間分割部１１１、帯域分割部１１２、雑音学習検出部１１３、雑音帯域判別部１１４、雑音補正部１１５、帯域合成部１１６、及び信号合成部１１７を備える。また、音声雑音除去装置１は、コンピュータにより構成することができ、記憶部１２には本発明に係るプログラムが格納され、コンピュータ（ＡＶアンプ等の家庭用音響機器のＤＳＰのマイクロコンピュータを含む）内の中央演算処理装置（ＣＰＵ）により当該プログラムを実行することで、雑音除去処理部１１を機能させることができる。そして、記憶部１２は、雑音除去処理部１１に係る各信号処理上のデータの一時記憶や各データの遅延調整に用いる信号処理用メモリ１２１と、雑音学習検出部１１３の処理で利用する機械学習用データベース（ＤＢ）１２２とを備える。

信号期間分割部１１１は、非可逆圧縮符号化処理を経て伸長復号された圧縮伸長後の音声信号を入力し、或る一定間隔毎にその音声信号を切り出すことで所定の時間間隔で区切られた信号期間毎の信号に分割して、一旦、信号期間毎の信号を帯域分割部１１２に出力する。

帯域分割部１１２は、信号期間分割部１１１から入力される信号期間毎の信号について、信号期間毎に所定の周波数間隔の帯域分割数Ｎで帯域分割した帯域別の時間波形を生成し、雑音学習検出部１１３に出力する。

雑音学習検出部１１３は、帯域分割部１１２から信号期間毎に帯域別の時間波形を入力し、信号期間毎に、機械学習を用いて帯域別にミュージカルノイズを含む雑音を検出する。そして、雑音学習検出部１１３は、雑音無しの信号期間の信号については雑音無しの旨を信号期間分割部１１１に通知し、雑音有りの信号期間の信号についてはその雑音帯域情報付きで、雑音有りの旨を信号期間分割部１１１に通知する。

尚、詳細は後述するが、雑音学習検出部１１３は、周波数の位相情報を扱うことができる時間波形に基づいたＬＳＴＭ（Long Short-Term Memory）ネットワークで構成され、機械学習用ＤＢ１２２を参照して事前学習されたネットワークパラメータを基に学習済みの状態で雑音の有無を判定する。ここで、本実施形態の機械学習は、学習用の原音の音声信号と、その原音の圧縮伸長後の音声信号について、所定の信号期間毎に帯域分割した時間波形をエネルギー又は包絡線形状に基づきミュージカルノイズを含む雑音を有する帯域であるか否かを識別するよう予め事前学習されている。

この雑音学習検出部１１３からの通知を受けて、信号期間分割部１１１は、雑音無しの信号期間の信号と雑音有りの信号期間の信号に分岐させ、雑音無しの信号期間の信号については信号合成部１１７に出力し、雑音有りの信号期間の信号についてはその雑音帯域情報付きで雑音帯域判別部１１４に出力する。

ここで、信号期間分割部１１１は、入力された圧縮伸長後の音声信号について、雑音除去処理部１１の処理時間に必要な時間分の信号を信号処理用メモリ１２１に一時記憶しておくことで遅延調整を行う。即ち、信号期間分割部１１１は、雑音学習検出部１１３の処理を経て得られる信号期間毎の信号に対する雑音の有無の情報、及び雑音有りの信号期間の信号についてはその雑音帯域情報を関連付けて信号処理用メモリ１２１に一時記憶する。これにより、信号期間分割部１１１より後段の各処理部は、本実施形態の説明では各信号を順次処理する例を説明するが、信号処理用メモリ１２１から適宜、各処理に必要な信号及び雑音帯域情報等を読み出して処理を行う構成とすることもできる。

雑音帯域判別部１１４は、信号期間分割部１１１から雑音帯域情報付きで雑音有りの信号期間の信号を入力し、その信号期間毎に所定の周波数間隔の帯域分割数Ｍで帯域分割した帯域別の時間波形を生成し、その信号期間毎に、当該雑音帯域情報に基づいて信号期間毎の雑音帯域の最小値ｆ_ｍｉｎ、及び雑音帯域の最大値ｆ_ｍａｘを判別し、帯域分割数Ｍ、帯域分割の最小帯域ｆ_１及び最大帯域ｆ_Ｍ、並びに、雑音帯域の最小値ｆ_ｍｉｎ、及び雑音帯域の最大値ｆ_ｍａｘの情報を補正用雑音帯域情報として抽出し、帯域別の時間波形とともに雑音補正部１１５に出力する。

ここで、本実施形態では、帯域分割部１１２においては雑音学習検出部１１３による「雑音の検出」のために帯域分割数Ｎで帯域分割し、雑音帯域判別部１１４においては雑音補正部１１５による「雑音の補正」のために帯域分割数Ｍで帯域分割するとして説明したが、Ｎ＝ＭとしてもよいしＮ≠Ｍでもよい。Ｎ＝Ｍとする場合、雑音帯域判別部１１４は、ここでの帯域分割する処理を省略し、雑音学習検出部１１３による「雑音の検出」後の雑音有りの信号期間について、帯域分割部１１２における帯域別信号波形を入力するように構成して雑音帯域の最小値ｆ_ｍｉｎ、及び雑音帯域の最大値ｆ_ｍａｘを判別する構成とすることもできる。

雑音補正部１１５は、雑音帯域判別部１１４から雑音有りの信号期間毎に得られる帯域別の時間波形と、補正用雑音帯域情報（帯域分割数Ｍ、帯域分割の最小帯域ｆ_１及び最大帯域ｆ_Ｍ、並びに、雑音帯域の最小値ｆ_ｍｉｎ、及び雑音帯域の最大値ｆ_ｍａｘ）とを入力し、この補正用雑音帯域情報を基に、雑音有りの信号期間における当該雑音を有する帯域の波形を該信号期間における当該雑音を有していない帯域の波形から線形予測により補正して、雑音有りの信号期間毎に補正後の帯域別時間波形を生成し、帯域合成部１１６に出力する。

帯域合成部１１６は、雑音補正部１１５から雑音有りの信号期間毎に補正後の帯域別時間波形を入力し、信号期間毎に全帯域の時間波形を帯域合成して、当該雑音有りの信号期間毎の補正後信号を形成し、信号合成部１１７に出力する。

信号合成部１１７は、帯域合成部１１６から得られる当該雑音有りの信号期間毎の補正後信号と、信号期間分割部１１１から得られる雑音無しの信号期間の信号とを時系列に連結することで合成することにより、ミュージカルノイズを含む雑音を抑圧した音声信号を生成して出力する。

尚、信号合成部１１７は、信号期間分割部１１１に入力される圧縮伸長後の音声信号に対して、帯域合成部１１６から得られる当該雑音有りの信号期間毎の補正後信号により対応する信号期間で置き換えて合成することにより、ミュージカルノイズを含む雑音を抑圧した音声信号を生成する構成とすることもできる。

以下、より具体的に、帯域分割部１１２、雑音学習検出部１１３、雑音帯域判別部１１４、及び雑音補正部１１４について順に説明する。

〔帯域分割部〕
図２は、本発明による一実施形態の音声雑音除去装置１の帯域分割部１１２において帯域分割したときに得られる時間波形を概略的に例示する図である。帯域分割部１１２は、信号期間毎に、後段の雑音学習検出部１１３により「雑音の検出」を行わせるために帯域分割数Ｎで帯域分割を行う。

図２に示すように、帯域分割部１１２は、圧縮伸長後の音声信号の或る時刻ｔ_ｎの信号期間における信号について、予め定めた帯域分割数Ｎで、帯域分割の最小帯域ｆ_１及び最大帯域ｆ_Ｎとなる帯域ｆ_ｎ（ｆ_ｎ＝ｆ_１～ｆ_Ｎ）毎の時間波形を生成し、雑音学習検出部１１３に出力する。

〔雑音学習検出部〕
図３は、本発明による一実施形態の音声雑音除去装置１の雑音学習検出部１１３における事前学習と、雑音学習検出処理を概念的に示すブロック図である。また、図４は、雑音学習検出部１１３におけるＬＳＴＭ学習処理の概略を概念的に示す図である。雑音学習検出部１１３は、位相情報を扱うことができる時間波形に基づいたＬＳＴＭネットワークで構成され、機械学習用ＤＢ１２２を参照して事前学習されたネットワークパラメータを基に学習済みの機械学習を用いて、帯域分割部１１２から或る時刻ｔ_ｎの信号期間における帯域別の時間波形を入力すると帯域別時間波形ごとにミュージカルノイズを含む雑音の有無を検出する。

尚、隠れ層として構成されるＬＳＴＭ学習部１１３２は、ＬＳＴＭネットワークにおける少なくとも１つ以上のＬＳＴＭブロックを用いられ、ＬＳＴＭブロックは時刻が異なる情報（即ち、時間波形）を扱うことができる。そこで、図３及び図４に示す例では、帯域毎のエネルギーをＬＳＴＭネットワークにおける入力層とする例を説明したが、図２に示すように、帯域毎の時間貨幣の包絡線の形状自体（包絡線上でサンプリングした値を特徴ベクトルとして羅列表示したもの）をＬＳＴＭネットワークにおける入力層としてもよい。

雑音学習検出部１１３は、帯域分割数Ｎ分のエネルギー変換部１１３１，１１３１’と、帯域分割数Ｎ分の評価値算出部１１３２ａを有するＬＳＴＭ学習部１１３２と、帯域分割数Ｎ分の帯域別雑音判定部１１３３と、を備える。ここで、雑音学習検出部１１３について、事前学習時と、雑音学習検出処理とを区別して順に説明する。

（事前学習時）
エネルギー変換部１１３１’は、ＬＳＴＭネットワークにおける入力層として、事前学習用に用いられ、事前学習用に非圧縮の原音の音声信号の或る時刻ｔ_ｎの信号期間における帯域ｆ_ｎ（ｆ_ｎ＝ｆ_１～ｆ_Ｎ）毎の時間波形を入力し、その帯域ｆ_ｎ（ｆ_ｎ＝ｆ_１～ｆ_Ｎ）毎のエネルギー（時刻ｔ_ｎの信号期間内の単位時間毎の信号振幅の二乗の積分値）を算出し、ＬＳＴＭ学習部１１３２に出力する。

エネルギー変換部１１３１は、ＬＳＴＭネットワークにおける入力層として、事前学習時には、当該原音に対し圧縮伸長後の音声信号の対応する時刻ｔ_ｎの信号期間における帯域ｆ_ｎ（ｆ_ｎ＝ｆ_１～ｆ_Ｎ）毎の時間波形を入力し、その帯域ｆ_ｎ（ｆ_ｎ＝ｆ_１～ｆ_Ｎ）毎のエネルギーを算出し、ＬＳＴＭ学習部１１３２に出力する。

ただし、任意の圧縮伸長後の音声信号に関する雑音の有無の検出時には、圧縮伸長後の音声信号の対応する時刻ｔ_ｎの信号期間における帯域ｆ_ｎ（ｆ_ｎ＝ｆ_１～ｆ_Ｎ）毎の時間波形を入力し、その帯域ｆ_ｎ（ｆ_ｎ＝ｆ_１～ｆ_Ｎ）毎のエネルギーを算出し、ＬＳＴＭ学習部１１３２に出力する。

ＬＳＴＭ学習部１１３２は、ＬＳＴＭネットワークにおける隠れ層（ＬＳＴＭ層）として構成され、帯域分割数Ｎ分の評価値算出部１１３２ａを有しており、評価値算出部１１３２ａの各々は、エネルギー変換部１１３１’から得られる原音の音声信号に関する帯域ｆ_ｎのエネルギーと、エネルギー変換部１１３１から得られる当該原音に対する圧縮伸長後の音声信号に関する帯域ｆ_ｎのエネルギーに基づきミュージカルノイズを含む雑音を有する帯域であるか否かを識別するよう帯域別に事前学習する。ＬＳＴＭ学習部１１３２は、多数の原音を用いて事前学習し、この事前学習の結果として得られるネットワークパラメータは、機械学習用ＤＢ１２２に対し参照可能に格納される。

尚、事前学習における教示データとして、以下に例示する主観評価及び客観評価の技法を利用することができる。
［主観評価１］
ITU-R BS.1116-3 “Methods for the subjective assessment of small impairments in audio systems”
［主観評価２（ＭＵＳＨＲＡ）］
ITU-R BS.1534-3 “Method for the subjective assessment of intermediate quality level of audio systems”
［客観評価１（ＰＥＡＱ）］
ITU-R Rec. BS.1387-1 “Method of objective measurements of perceived audio quality”
［客観評価２（ＰＥＳＱ）］
ITU-T Rec. P.862 “Perceptual evaluation of speech quality(PESQ), an objective method for end-to end speech quality assessment of narrowband telephone networks and speech codecs″

（雑音学習検出処理）
雑音学習検出処理時では、エネルギー変換部１１３１’は使用せず、エネルギー変換部１１３１のみを入力層として使用する。

この雑音学習検出処理時では、エネルギー変換部１１３１は、雑音の有無が未知である任意の圧縮伸長後の音声信号の或る時刻ｔ_ｎの信号期間における帯域ｆ_ｎ（ｆ_ｎ＝ｆ_１～ｆ_Ｎ）毎の時間波形を入力し、その帯域ｆ_ｎ（ｆ_ｎ＝ｆ_１～ｆ_Ｎ）毎のエネルギーを算出し、ＬＳＴＭ学習部１１３２に出力する。

ＬＳＴＭ学習部１１３２は、機械学習用ＤＢ１２２から読み出した事前学習済みのネットワークパラメータで帯域分割数Ｎ分の評価値算出部１１３２ａがモデル化され、エネルギー変換部１１３１から雑音の有無が未知の帯域ｆ_ｎ毎のエネルギーを入力すると、学習済みのネットワークパラメータに基づき或る時刻ｔ_ｎの信号期間における帯域ｆ_ｎ毎の雑音の有無に関する評価値を算出し、それぞれ帯域分割数Ｎ分の帯域別雑音判定部１１３３に出力する。

帯域分割数Ｎ分の帯域別雑音判定部１１３３の各々は、ＬＳＴＭネットワークにおける出力層として構成され、ＬＳＴＭ学習部１１３２から得られる帯域ｆ_ｎ毎の雑音の有無に関する評価値を所定の閾値と比較して帯域ｆ_ｎ毎に雑音の有無を判定する。そして、帯域分割数Ｎ分の帯域別雑音判定部１１３３の各々は、雑音無しの信号期間の信号については雑音無しの旨を信号期間分割部１１１に通知し、雑音有りの信号期間の信号についてはその雑音帯域情報付きで、雑音有りの旨を信号期間分割部１１１に通知する。

例えば、機械学習検出部１１３は、事前学習時に、圧縮伸長された音声信号と非圧縮の音声信号を帯域毎に比較して音質の客観評価を行うＰＥＡＱの結果を教示とし、ＰＥＡＱによる評価値が当該所定の閾値よりも小さい場合、ミュージカルノイズを含む雑音と判別することができる。ここで当該所定の閾値を小さくするほど、より劣化が大きい雑音であると判断することになる。そして、多数の原音と圧縮伸長された音声信号を用いて事前学習させることで、ミュージカルノイズを検出できるようになる。

〔雑音帯域判別部〕
図５は、本発明による一実施形態の音声雑音除去装置１の雑音帯域判別部１１４において帯域分割したときに得られる補正用雑音帯域情報を示す図である。上述したように、雑音帯域判別部１１４は、信号期間分割部１１１から雑音帯域情報付きで雑音有りの或る時刻ｔ_ｎの信号期間の信号を入力すると、帯域分割数Ｍで帯域分割した帯域別の時間波形を生成し雑音補正部１１５に出力する。更に、雑音帯域判別部１１４は、当該雑音帯域情報に基づいて時刻ｔ_ｎの信号期間の雑音帯域の最小値ｆ_ｍｉｎ、及び雑音帯域の最大値ｆ_ｍａｘを判別し、図５に示すように、帯域分割数Ｍ、帯域分割の最小帯域ｆ_１及び最大帯域ｆ_Ｍ、並びに、雑音帯域の最小値ｆ_ｍｉｎ、及び雑音帯域の最大値ｆ_ｍａｘの情報を補正用雑音帯域情報として雑音補正部１１５に出力する。

例えば、雑音帯域判別部１１４は、ＭＰ３でも用いられている帯域分割技法であるＰＱＭＦ（例えば、ISO/IEC 11172-3 “Coding of moving pictures and associated audio for digital storage media at up to about 1,5 Mbit/s Part 3:Audio”参照）を用いてＭ＝３２個に帯域分割することができるし、他の帯域通過フィルタを用いてもよい。

尚、非特許文献２に開示されるようなスペクトログラムを用いて雑音除去処理を行う際には、信号の振幅と位相情報を補正しないと原信号に戻すことは不可能であるが、ＰＱＭＦの帯域分割法を用いた場合は各時刻における帯域分割された時間波形を補正すれば原理的に元の信号に戻すことは可能である。図５は、ＰＱＭＦを用いて帯域分割した結果を示すものであり、或る時刻ｔ_ｎの信号期間における雑音と識別された帯域を“■”で表している。

〔雑音補正部〕
図６は、本発明による一実施形態の音声雑音除去装置１の雑音補正部１１５における雑音補正処理を示すフローチャートである。

雑音補正部１１５は、雑音帯域判別部１１４から、或る雑音有りの時刻ｔ_ｎの信号期間における帯域分割数Ｍ、帯域分割の最小帯域ｆ_１及び最大帯域ｆ_Ｍ、雑音帯域情報ｆ_ｍｉｎ，ｆ_ｍａｘの補正用帯域情報とともに、帯域別の時間波形を入力する（ステップＳ１）。

続いて、雑音補正部１１５は、帯域分割数Ｍに対し予め定めた周波数（本例ではＭ／２）を基準に、ｆ_ｍｉｎ＞Ｍ／２を満たすか否かを判定する（ステップＳ２）。

ｆ_ｍｉｎ＞Ｍ／２を満たす場合（ステップＳ２：Ｙｅｓ）、雑音補正部１１５は、ｆ_１～“ｆ_ｍｉｎ－１”までの帯域を用いて、ｆ_ｍｉｎ～ｆ_ｍａｘまでの帯域をそれぞれ帯域別にｐ次の線形予測により補正して、帯域合成部１１６に出力する（ステップＳ３）。

例えば、ｐ＜ｆ_ｍｉｎ－２としてもよいが、ここではｐ＝ｆ_ｍｉｎ－２とする。
そして、
ｆ_ｎ’＝－Σａ［i]×｛ｆ_ｎ－i ｝（Σは、i＝１～ｐの総和）
として、
目的関数Ｊ＝Σ（ｆ_ｎ－ｆ_ｎ’）^２が、最小となるように線形予測係数ａを求める。
この求めた線形予測係数ａを用いて、
ｆ_ｍｉｎの信号＝－Σａ［i]×｛ｆ_ｍｉｎ－i ｝（Σは、i＝１～ｐの総和）
として補正する。
このようにして、帯域ｆ_ｍｉｎ～ｆ_ｍａｘの各信号を補正する。

一方、ｆ_ｍｉｎ＞Ｍ／２を満たさない場合（ステップＳ２：Ｎｏ）、雑音補正部１１５は、ｆ_ｍａｘ＜Ｍ／２を満たすか否かを判定する（ステップＳ４）。

ｆ_ｍａｘ＜Ｍ／２を満たす場合（ステップＳ４：Ｙｅｓ）、雑音補正部１１５は、“ｆ_ｍａｘ＋１”～ｆ_Ｍまでの時間波形を用いて、ｆ_ｍｉｎ～ｆ_ｍａｘまでの帯域別時間波形をそれぞれ帯域別にｐ次の線形予測により補正して、帯域合成部１１６に出力する（ステップＳ５）。

例えば、ｐ＜ｆ_Ｍ－ｆ_ｍａｘ－１としてもよいが、
ここではｐ＝ｆ_Ｍ－ｆ_ｍａｘ－１とする。
そして、
ｆ_ｎ’＝－Σａ［i]×｛ｆ_ｎ＋i ｝（Σは、i＝１～ｐの総和）
として、
目的関数Ｊ＝Σ（ｆ_ｎ－ｆ_ｎ’）^２が、最小となるように線形予測係数ａを求める。
この求めた線形予測係数ａを用いて、
ｆ_ｍａｘの信号＝－Σａ［i]×｛ｆ_ｍａｘ＋i ｝（Σは、i＝１～ｐの総和）
として補正する。
このようにして、帯域ｆ_ｍｉｎ～ｆ_ｍａｘの各信号（時間波形）を補正する。

一方、ｆ_ｍａｘ＜Ｍ／２を満たさない場合（ステップＳ４：Ｎｏ）、雑音補正部１１５は、ｆ_１～“ｆ_ｍｉｎ－１”までの時間波形を用いてｆ_ｍｉｎ～ｆ_ｍａｘまでの帯域をそれぞれ帯域別にｐ次の線形予測により補正した信号波形と、“ｆ_ｍａｘ＋１”～ｆ_Ｍまでの時間波形を用いてｆ_ｍｉｎ～ｆ_ｍａｘまでの帯域をそれぞれ帯域別にｐ次の線形予測により補正した信号波形とを加重平均して補正して、帯域合成部１１６に出力する（ステップＳ６）。

例えば、ｆ_ｍｉｎがＭ／２以下である場合でｆ_ｍａｘがＭ／２以上の場合、帯域ｆ_１～ｆ_ｍｉｎ－１を用いて上記と同様にｐ次の線形予測を行ってｆｍ_ｍｉｎの信号（時間波形）を求め、且つ帯域ｆ_ｍａｘ＋１～ｆ_Ｍを用いて上記と同様にｐ次の線形予測を行ってｆｍ_ｍａｘの信号（時間波形）を求める。
そして、
帯域ｆ_ｍｉｎ～ｆ_ｍａｘの各信号（時間波形）＝
｛(f_max－fm)×fm_min＋(fm－f_min)×fm_max}／(f_max－f_min)
となる加重平均を行って補正する。

そして、帯域合成部１１６は、雑音補正部１１５から雑音有りの信号期間毎に補正後の帯域別時間波形を入力し、信号期間毎に全帯域の時間波形を帯域合成して、当該雑音有りの信号期間毎の補正後信号を形成し、これにより位相情報も劣化させることがあるミュージカルノイズについても補正できるようになる。

一般的に音声信号の周波数成分には相関が高い場合が多く、線形予測による補正でノイズが軽減されることが予想される。

〔従来技術と本発明に係る処置との比較〕
図７（ａ）は或る原音のスペクトログラムを示す図であり、図７（ｂ）は劣化した圧縮伸長音のスペクトログラムを示す図である。図７（ｂ）を参照するに、特に４ＫＨｚ付近から低域にかけて非可逆圧縮符号化処理により情報が欠落し伸長復号後の音声信号においてミュージカルノイズが発生していることが分かる。

また、図７（ｃ）は非特許文献２に基づく雑音除去処理（収縮・膨張処理）後の圧縮伸長音のスペクトログラムを示す図である。図７（ｃ）においてよく見るとエッジがスムーズになっているが、情報の欠落部分ははっきりと分かり、依然としてミュージカルノイズが発生していることが分かる。

そして、図７（ｄ）は本発明に係る雑音除去処理後の圧縮伸長音に関するスペクトログラムを示す図である。図７（ｄ）を参照して理解されるように、はっきりと見えていた情報の欠落部分はスムーズになり、顕著なミュージカルノイズを軽減できることが確認された。従って、本発明に係る雑音除去処理は、従来技術と比較しても音声符号化によって生じる劣化を補正するのに優れていることが分かる。また、本発明に係る雑音除去処理は、ミュージカルノイズに限らず、原理的にも理解されるように、クリップノイズも抑圧することができる。

以上の実施形態における音声雑音除去装置１は、コンピュータにより構成することができ、音声雑音除去装置１の各処理部を機能させるためのプログラムを好適に用いることができる。具体的には、音声雑音除去装置１の各処理部を制御するための制御部をコンピュータ内の中央演算処理装置（ＣＰＵ）で構成でき、且つ、各処理部を動作させるのに必要となるプログラムを構成することができる。即ち、そのようなコンピュータに、ＣＰＵによって該プログラムを実行させることにより、音声雑音除去装置１の各処理部の有する機能を実現させることができる。更に、音声雑音除去装置１の各処理部の有する機能を実現させるためのプログラムを、前述の記憶部１２の所定の領域に格納させることができる。そのような記憶部は、コンピュータ内部のＲＡＭ又はＲＯＭなどで構成させることができ、或いは又、外部記憶装置（例えば、ハードディスク）で構成させることもできる。更に、そのようなコンピュータに、音声雑音除去装置１の各処理部として機能させるためのプログラムは、コンピュータ読取り可能な記録媒体に記録することができる。また、音声雑音除去装置１の各処理部をハードウェア又はソフトウェアの一部として構成させ、各々を組み合わせて実現させることもできる。

以上、特定の実施形態の例を挙げて本発明を説明したが、本発明は前述の実施形態の例に限定されるものではなく、その技術思想を逸脱しない範囲で種々変形可能である。従って、本発明に係る画像処理装置１は、上述した実施形態の例に限定されるものではなく、特許請求の範囲の記載によってのみ制限される。

本発明によれば、任意の圧縮伸長後の音声信号に対し符号化劣化によって生じたミュージカルノイズを含む雑音を自動検出し補正することができるので、雑音の抑圧を要する音声信号の信号処理の用途に有用である。

１音声雑音除去装置
１１雑音除去処理部
１２記憶部
１１１信号期間分割部
１１２帯域分割部
１１３雑音学習検出部
１１４雑音帯域判別部
１１５雑音補正部
１１６帯域合成部
１１７信号合成部
１２１信号処理用メモリ
１２２機械学習用データベース（ＤＢ）
１１３１エネルギー変換部
１１３１’ エネルギー変換部
１１３２ＬＳＴＭ学習部
１１３２ａ評価値算出部
１１３３帯域別雑音判定部

Claims

圧縮伸長後の音声信号における雑音を除去する音声雑音除去装置であって、
圧縮伸長後の音声信号を入力し、所定の時間間隔で区切られた信号期間毎の信号に分割する信号期間分割部と、
前記信号期間毎に所定の周波数間隔の帯域分割数で帯域分割した帯域別の時間波形を生成する帯域分割部と、
前記信号期間毎に、機械学習を用いて当該帯域別にミュージカルノイズを含む雑音を検出し、前記信号期間分割部に対し、雑音無しの信号期間の信号と雑音有りの信号期間の信号に分岐させる雑音学習検出部と、
前記雑音学習検出部による雑音帯域情報を基に、最小帯域及び最大帯域を持つ所定の帯域分割数で帯域分割した信号期間毎の雑音帯域の最小値、及び雑音帯域の最大値を判別する雑音帯域判別部と、
前記雑音帯域判別部で用いた前記所定の帯域分割数、前記帯域分割の最小帯域及び最大帯域、並びに、前記雑音帯域の最小値及び前記雑音帯域の最大値を基に、当該雑音有りの信号期間における当該雑音を有する帯域の波形を該信号期間における当該雑音を有していない帯域の波形から線形予測により補正して、当該雑音有りの信号期間毎に補正後の帯域別時間波形を生成する雑音補正部と、
当該雑音有りの信号期間毎に前記補正後の帯域別時間波形を帯域合成して、当該雑音有りの信号期間毎の補正後信号を形成する帯域合成部と、
当該雑音有りの信号期間毎の補正後信号と、雑音無しの信号期間の信号とを時系列に連結することで合成することにより、ミュージカルノイズを含む雑音を抑圧した音声信号を生成する信号合成部と、
を備えることを特徴とする音声雑音除去装置。
前記雑音学習検出部は、ＬＳＴＭ（Long Short-Term Memory）ネットワークにより構成され、学習用の原音の音声信号と、その原音の圧縮伸長後の音声信号について、所定の信号期間毎に帯域分割した時間波形をエネルギー又は包絡線形状に基づきミュージカルノイズを含む雑音を有する帯域であるか否かを識別するよう予め事前学習されていることを特徴とする、請求項１に記載の音声雑音除去装置。
前記雑音補正部は、
前記雑音帯域の最小値が予め定めた周波数より高いときは、前記雑音帯域の最小値より低い帯域の信号波形を用いて第１の線形予測を行い、
前記雑音帯域の最小値が前記予め定めた周波数以下であり、且つ前記雑音帯域の最大値が前記予め定めた周波数より低いときは、前記雑音帯域の最大値より高い帯域の信号波形を用いて第２の線形予測を行い、
前記雑音帯域の最小値が前記予め定めた周波数以下であり、且つ前記雑音帯域の最大値が前記予め定めた周波数以上であるときは、前記第１の線形予測により得られる帯域別の時間波形と、前記第２の線形予測により得られる帯域別の時間波形とを加重平均することにより、当該雑音有りの信号期間における当該雑音を有する帯域の時間波形を補正することを特徴とする、請求項１又は２に記載の音声雑音除去装置。
コンピュータを、請求項１から３のいずれか一項に記載の音声雑音除去装置として機能させるためのプログラム。