JP7316093B2 - 音声雑音除去装置及びプログラム - Google Patents

音声雑音除去装置及びプログラム Download PDF

Info

Publication number
JP7316093B2
JP7316093B2 JP2019095104A JP2019095104A JP7316093B2 JP 7316093 B2 JP7316093 B2 JP 7316093B2 JP 2019095104 A JP2019095104 A JP 2019095104A JP 2019095104 A JP2019095104 A JP 2019095104A JP 7316093 B2 JP7316093 B2 JP 7316093B2
Authority
JP
Japan
Prior art keywords
noise
band
signal
signal period
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019095104A
Other languages
English (en)
Other versions
JP2020190606A (ja
Inventor
知美 小倉
岳大 杉本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2019095104A priority Critical patent/JP7316093B2/ja
Publication of JP2020190606A publication Critical patent/JP2020190606A/ja
Application granted granted Critical
Publication of JP7316093B2 publication Critical patent/JP7316093B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本発明は、圧縮伸長後の音声信号におけるミュージカルノイズを含む雑音を除去する音声雑音除去装置及びプログラムに関する。
音声信号を伝送又は記録する際に非可逆圧縮符号化処理を施すことがある。この圧縮符号化された音声信号を伸長復号すると、符号化劣化によって、ミュージカルノイズと呼ばれるような特徴的なノイズが生じることがある。このミュージカルノイズによって主観的な音質が劣化してしまう。ミュージカルノイズは、音声信号においてエネルギー集中の分布が所定の時間間隔で区切られた信号期間毎に不規則に変化する特徴を有し、雑音の一種である。
特に、最新の音声符号化技術では、チャンネル毎にビットの配分を或る時間間隔でダイナミックに変えることができる(例えば、非特許文献1参照)。このため、後方など或るチャンネルの或る時刻にミュージカルノイズが生じることがある。家庭でテレビを視聴する際には、伝送された圧縮音声はあるが、原音を入手することはできないため、どのように音声が劣化したのかが分からない。そのような条件の中、高品質な音声信号を視聴するためには、家庭側で音声が劣化したのか否かを推定し、補正する技術が望まれる。
尚、雑音の一種であるクリップノイズを検出する技法として、直交検波を行い、クリップノイズの強度が閾値より超過した場合に雑音として検出する技法が開示されている(例えば、特許文献1参照)。この技法はクリップノイズを検出するためのもので、クリップノイズの強度のみを評価指標としている。
また、雑音を抑圧する技法として、推定した雑音の振幅スペクトルを減算するスペクトラルサブトラクション法を用いる技法がある(例えば、特許文献2参照)。
また、ミュージカルノイズを抑圧する技法として、スペクトログラム画像の膨張・収縮処理による方法が提案されている(例えば、非特許文献2参照)。
特開2012-230160号公報 国際公開第99/50825号
ISO/IEC 23008-3, "High Efficiency Coding and Media Delivery in Heterogeneous Environments Part 3: 3D Audio" 山口亮、金子豊、"雑音抑圧信号処理におけるミュージカルノイズ改善の検討",日本音響学会研究発表会講演論文集,2004年3月
上述したように、音声信号を伝送又は記録する際に非可逆圧縮符号化処理を施し、その圧縮符号化された音声信号を伸長復号すると、符号化劣化によって、ミュージカルノイズと呼ばれるような特徴的なノイズが生じることがある。このミュージカルノイズによって主観的な音質が劣化してしまう。このため、圧縮伸長後の音声信号を再生し、良好な音質を得るためには、圧縮伸長後の音声信号におけるミュージカルノイズの検出と補正が望まれる。
ここで、特許文献1に開示されるように、雑音の一種であるクリップノイズを検出する技法がある。しかし、この技法では音声信号の時間波形における位相情報を評価指標として扱うものではないため、例えば位相情報が劣化した場合にクリップノイズの強度が大きくならない場合があり、クリップノイズの強度のみで、符号化劣化によって生じるミュージカルノイズを判別することは困難である。
また、特許文献2に開示されるように、ミュージカルノイズを含む雑音を抑圧する技法がある。ただし、一般的にスペクトラルサブトラクション法を利用しようとすると、雑音を無音区間から推定することが必要となる。例えばテレビで放送される音声信号では無音区間は少ないことから、スペクトラルサブトラクション法を利用して、人の声から音楽など多岐に渡る音声信号について時々刻々と変化するミュージカルノイズを推定することは困難である。また、スペクトラルサブトラクション法では非定常な雑音やパワースペクトルを推定できない場合には、効果が十分に得られないといわれており、白色雑音下での音声強調では用いられているが、ミュージカルノイズの抑圧には向いていない。
一方、非特許文献2に開示されるように、スペクトログラム画像の膨張・収縮処理により、ミュージカルノイズを抑圧する技法がある。しかし、このスペクトログラム画像の膨張・収縮処理では音声信号の時間波形における位相情報については補正していないため、位相情報も劣化したミュージカルノイズについて十分な効果が得られない。
従って、本発明の目的は、上述の問題に鑑みて、圧縮伸長後の音声信号におけるミュージカルノイズを含む雑音を除去し、高品質の音声信号を再生可能とする音声雑音除去装置及びプログラムを提供することにある。
本発明の音声雑音除去装置は、機械学習を用いて、任意の圧縮伸長後の音声信号に対し所定の時間間隔で区切られた信号期間毎に、所定の周波数間隔で帯域分割した帯域別にミュージカルノイズを含む雑音を検出する。ここで、機械学習は、学習用の原音の音声信号と、その原音の圧縮伸長後の音声信号について、所定の信号期間毎に帯域分割した時間波形をエネルギー又は包絡線形状に基づきミュージカルノイズを含む雑音を有する帯域であるか否かを識別するよう予め事前学習されている。そして、本発明の音声雑音除去装置は、信号期間毎に雑音の有無を検出した上で、雑音有りとして判定した信号期間における当該雑音を有する帯域の時間波形を該信号期間における当該雑音を有していない帯域の時間波形から線形予測により補正して全帯域の時間波形を帯域合成し、当該雑音有りとして判定した信号期間における補正後信号を形成する。最終的に、本発明の音声雑音除去装置は、当該雑音有りとして判定した信号期間における信号と、当該雑音無しとして判定した信号期間における信号とを合成し、雑音抑圧後の音声信号を生成して出力する。
即ち、本発明の音声雑音除去装置は、圧縮伸長後の音声信号における雑音を除去する音声雑音除去装置であって、圧縮伸長後の音声信号を入力し、所定の時間間隔で区切られた信号期間毎の信号に分割する信号期間分割部と、前記信号期間毎に所定の周波数間隔の帯域分割数で帯域分割した帯域別の時間波形を生成する帯域分割部と、前記信号期間毎に、機械学習を用いて当該帯域別にミュージカルノイズを含む雑音を検出し、前記信号期間分割部に対し、雑音無しの信号期間の信号と雑音有りの信号期間の信号に分岐させる雑音学習検出部と、前記雑音学習検出部による雑音帯域情報を基に、最小帯域及び最大帯域を持つ所定の帯域分割数で帯域分割した信号期間毎の雑音帯域の最小値、及び雑音帯域の最大値を判別する雑音帯域判別部と、前記雑音帯域判別部で用いた前記所定の帯域分割数、前記帯域分割の最小帯域及び最大帯域、並びに、前記雑音帯域の最小値及び前記雑音帯域の最大値を基に、当該雑音有りの信号期間における当該雑音を有する帯域の波形を該信号期間における当該雑音を有していない帯域の波形から線形予測により補正して、当該雑音有りの信号期間毎に補正後の帯域別時間波形を生成する雑音補正部と、当該雑音有りの信号期間毎に前記補正後の帯域別時間波形を帯域合成して、当該雑音有りの信号期間毎の補正後信号を形成する帯域合成部と、当該雑音有りの信号期間毎の補正後信号と、雑音無しの信号期間の信号とを時系列に連結することで合成することにより、ミュージカルノイズを含む雑音を抑圧した音声信号を生成する信号合成部と、を備えることを特徴とする。
また、本発明の音声雑音除去装置において、前記雑音学習検出部は、LSTM(Long Short-Term Memory)ネットワークにより構成され、学習用の原音の音声信号と、その原音の圧縮伸長後の音声信号について、所定の信号期間毎に帯域分割した時間波形をエネルギー又は包絡線形状に基づきミュージカルノイズを含む雑音を有する帯域であるか否かを識別するよう予め事前学習されていることを特徴とする。
また、本発明の音声雑音除去装置において、前記雑音補正部は、前記雑音帯域の最小値が予め定めた周波数より高いときは、前記雑音帯域の最小値より低い帯域の信号波形を用いて第1の線形予測を行い、前記雑音帯域の最小値が前記予め定めた周波数以下であり、且つ前記雑音帯域の最大値が前記予め定めた周波数より低いときは、前記雑音帯域の最大値より高い帯域の信号波形を用いて第2の線形予測を行い、前記雑音帯域の最小値が前記予め定めた周波数以下であり、且つ前記雑音帯域の最大値が前記予め定めた周波数以上であるときは、前記第1の線形予測により得られる帯域別の時間波形と、前記第2の線形予測により得られる帯域別の時間波形とを加重平均することにより、当該雑音有りの信号期間における当該雑音を有する帯域の時間波形を補正することを特徴とする。
また、本発明のプログラムは、コンピュータを、本発明の音声雑音除去装置として機能させるためのプログラムとして構成する。
本発明によれば、任意の圧縮伸長後の音声信号に対し符号化劣化によって生じたミュージカルノイズを含む雑音を自動検出し補正することができるので、雑音を抑圧した良好な音質の音声信号を得ることができる。
本発明による一実施形態の音声雑音除去装置の概略構成を示すブロック図である。 本発明による一実施形態の音声雑音除去装置の帯域分割部において帯域分割したときに得られる時間波形を概略的に例示する図である。 本発明による一実施形態の音声雑音除去装置の雑音学習検出部における事前学習と、雑音学習検出処理を概念的に示すブロック図である。 本発明による一実施形態の音声雑音除去装置の雑音学習検出部におけるLSTM学習処理の概略を概念的に示す図である。 本発明による一実施形態の音声雑音除去装置の雑音帯域判別部において帯域分割したときに得られるパラメータを示す図である。 本発明による一実施形態の音声雑音除去装置の雑音補正部における雑音補正処理を示すフローチャートである。 (a) 乃至(d)は、それぞれ原音、劣化した圧縮伸長音、非特許文献2に基づく雑音除去処理後の圧縮伸長音、及び本発明に係る雑音除去処理後の圧縮伸長音に関するスペクトログラムを示す図である。
以下、図面を参照しながら、本発明による一実施形態の音声雑音除去装置1について説明する。
〔全体構成〕
図1は、本発明による一実施形態の音声雑音除去装置1の概略構成を示すブロック図である。音声雑音除去装置1は、雑音除去処理部11及び記憶部12から構成される。雑音除去処理部11は、信号期間分割部111、帯域分割部112、雑音学習検出部113、雑音帯域判別部114、雑音補正部115、帯域合成部116、及び信号合成部117を備える。また、音声雑音除去装置1は、コンピュータにより構成することができ、記憶部12には本発明に係るプログラムが格納され、コンピュータ(AVアンプ等の家庭用音響機器のDSPのマイクロコンピュータを含む)内の中央演算処理装置(CPU)により当該プログラムを実行することで、雑音除去処理部11を機能させることができる。そして、記憶部12は、雑音除去処理部11に係る各信号処理上のデータの一時記憶や各データの遅延調整に用いる信号処理用メモリ121と、雑音学習検出部113の処理で利用する機械学習用データベース(DB)122とを備える。
信号期間分割部111は、非可逆圧縮符号化処理を経て伸長復号された圧縮伸長後の音声信号を入力し、或る一定間隔毎にその音声信号を切り出すことで所定の時間間隔で区切られた信号期間毎の信号に分割して、一旦、信号期間毎の信号を帯域分割部112に出力する。
帯域分割部112は、信号期間分割部111から入力される信号期間毎の信号について、信号期間毎に所定の周波数間隔の帯域分割数Nで帯域分割した帯域別の時間波形を生成し、雑音学習検出部113に出力する。
雑音学習検出部113は、帯域分割部112から信号期間毎に帯域別の時間波形を入力し、信号期間毎に、機械学習を用いて帯域別にミュージカルノイズを含む雑音を検出する。そして、雑音学習検出部113は、雑音無しの信号期間の信号については雑音無しの旨を信号期間分割部111に通知し、雑音有りの信号期間の信号についてはその雑音帯域情報付きで、雑音有りの旨を信号期間分割部111に通知する。
尚、詳細は後述するが、雑音学習検出部113は、周波数の位相情報を扱うことができる時間波形に基づいたLSTM(Long Short-Term Memory)ネットワークで構成され、機械学習用DB122を参照して事前学習されたネットワークパラメータを基に学習済みの状態で雑音の有無を判定する。ここで、本実施形態の機械学習は、学習用の原音の音声信号と、その原音の圧縮伸長後の音声信号について、所定の信号期間毎に帯域分割した時間波形をエネルギー又は包絡線形状に基づきミュージカルノイズを含む雑音を有する帯域であるか否かを識別するよう予め事前学習されている。
この雑音学習検出部113からの通知を受けて、信号期間分割部111は、雑音無しの信号期間の信号と雑音有りの信号期間の信号に分岐させ、雑音無しの信号期間の信号については信号合成部117に出力し、雑音有りの信号期間の信号についてはその雑音帯域情報付きで雑音帯域判別部114に出力する。
ここで、信号期間分割部111は、入力された圧縮伸長後の音声信号について、雑音除去処理部11の処理時間に必要な時間分の信号を信号処理用メモリ121に一時記憶しておくことで遅延調整を行う。即ち、信号期間分割部111は、雑音学習検出部113の処理を経て得られる信号期間毎の信号に対する雑音の有無の情報、及び雑音有りの信号期間の信号についてはその雑音帯域情報を関連付けて信号処理用メモリ121に一時記憶する。これにより、信号期間分割部111より後段の各処理部は、本実施形態の説明では各信号を順次処理する例を説明するが、信号処理用メモリ121から適宜、各処理に必要な信号及び雑音帯域情報等を読み出して処理を行う構成とすることもできる。
雑音帯域判別部114は、信号期間分割部111から雑音帯域情報付きで雑音有りの信号期間の信号を入力し、その信号期間毎に所定の周波数間隔の帯域分割数Mで帯域分割した帯域別の時間波形を生成し、その信号期間毎に、当該雑音帯域情報に基づいて信号期間毎の雑音帯域の最小値f_min、及び雑音帯域の最大値f_maxを判別し、帯域分割数M、帯域分割の最小帯域f_1及び最大帯域f_M、並びに、雑音帯域の最小値f_min、及び雑音帯域の最大値f_maxの情報を補正用雑音帯域情報として抽出し、帯域別の時間波形とともに雑音補正部115に出力する。
ここで、本実施形態では、帯域分割部112においては雑音学習検出部113による「雑音の検出」のために帯域分割数Nで帯域分割し、雑音帯域判別部114においては雑音補正部115による「雑音の補正」のために帯域分割数Mで帯域分割するとして説明したが、N=MとしてもよいしN≠Mでもよい。N=Mとする場合、雑音帯域判別部114は、ここでの帯域分割する処理を省略し、雑音学習検出部113による「雑音の検出」後の雑音有りの信号期間について、帯域分割部112における帯域別信号波形を入力するように構成して雑音帯域の最小値f_min、及び雑音帯域の最大値f_maxを判別する構成とすることもできる。
雑音補正部115は、雑音帯域判別部114から雑音有りの信号期間毎に得られる帯域別の時間波形と、補正用雑音帯域情報(帯域分割数M、帯域分割の最小帯域f_1及び最大帯域f_M、並びに、雑音帯域の最小値f_min、及び雑音帯域の最大値f_max)とを入力し、この補正用雑音帯域情報を基に、雑音有りの信号期間における当該雑音を有する帯域の波形を該信号期間における当該雑音を有していない帯域の波形から線形予測により補正して、雑音有りの信号期間毎に補正後の帯域別時間波形を生成し、帯域合成部116に出力する。
帯域合成部116は、雑音補正部115から雑音有りの信号期間毎に補正後の帯域別時間波形を入力し、信号期間毎に全帯域の時間波形を帯域合成して、当該雑音有りの信号期間毎の補正後信号を形成し、信号合成部117に出力する。
信号合成部117は、帯域合成部116から得られる当該雑音有りの信号期間毎の補正後信号と、信号期間分割部111から得られる雑音無しの信号期間の信号とを時系列に連結することで合成することにより、ミュージカルノイズを含む雑音を抑圧した音声信号を生成して出力する。
尚、信号合成部117は、信号期間分割部111に入力される圧縮伸長後の音声信号に対して、帯域合成部116から得られる当該雑音有りの信号期間毎の補正後信号により対応する信号期間で置き換えて合成することにより、ミュージカルノイズを含む雑音を抑圧した音声信号を生成する構成とすることもできる。
以下、より具体的に、帯域分割部112、雑音学習検出部113、雑音帯域判別部114、及び雑音補正部114について順に説明する。
〔帯域分割部〕
図2は、本発明による一実施形態の音声雑音除去装置1の帯域分割部112において帯域分割したときに得られる時間波形を概略的に例示する図である。帯域分割部112は、信号期間毎に、後段の雑音学習検出部113により「雑音の検出」を行わせるために帯域分割数Nで帯域分割を行う。
図2に示すように、帯域分割部112は、圧縮伸長後の音声信号の或る時刻t_nの信号期間における信号について、予め定めた帯域分割数Nで、帯域分割の最小帯域f_1及び最大帯域f_Nとなる帯域f_n(f_n=f_1~f_N)毎の時間波形を生成し、雑音学習検出部113に出力する。
〔雑音学習検出部〕
図3は、本発明による一実施形態の音声雑音除去装置1の雑音学習検出部113における事前学習と、雑音学習検出処理を概念的に示すブロック図である。また、図4は、雑音学習検出部113におけるLSTM学習処理の概略を概念的に示す図である。雑音学習検出部113は、位相情報を扱うことができる時間波形に基づいたLSTMネットワークで構成され、機械学習用DB122を参照して事前学習されたネットワークパラメータを基に学習済みの機械学習を用いて、帯域分割部112から或る時刻t_nの信号期間における帯域別の時間波形を入力すると帯域別時間波形ごとにミュージカルノイズを含む雑音の有無を検出する。
尚、隠れ層として構成されるLSTM学習部1132は、LSTMネットワークにおける少なくとも1つ以上のLSTMブロックを用いられ、LSTMブロックは時刻が異なる情報(即ち、時間波形)を扱うことができる。そこで、図3及び図4に示す例では、帯域毎のエネルギーをLSTMネットワークにおける入力層とする例を説明したが、図2に示すように、帯域毎の時間貨幣の包絡線の形状自体(包絡線上でサンプリングした値を特徴ベクトルとして羅列表示したもの)をLSTMネットワークにおける入力層としてもよい。
雑音学習検出部113は、帯域分割数N分のエネルギー変換部1131,1131’と、帯域分割数N分の評価値算出部1132aを有するLSTM学習部1132と、帯域分割数N分の帯域別雑音判定部1133と、を備える。ここで、雑音学習検出部113について、事前学習時と、雑音学習検出処理とを区別して順に説明する。
(事前学習時)
エネルギー変換部1131’は、LSTMネットワークにおける入力層として、事前学習用に用いられ、事前学習用に非圧縮の原音の音声信号の或る時刻t_nの信号期間における帯域f_n(f_n=f_1~f_N)毎の時間波形を入力し、その帯域f_n(f_n=f_1~f_N)毎のエネルギー(時刻t_nの信号期間内の単位時間毎の信号振幅の二乗の積分値)を算出し、LSTM学習部1132に出力する。
エネルギー変換部1131は、LSTMネットワークにおける入力層として、事前学習時には、当該原音に対し圧縮伸長後の音声信号の対応する時刻t_nの信号期間における帯域f_n(f_n=f_1~f_N)毎の時間波形を入力し、その帯域f_n(f_n=f_1~f_N)毎のエネルギーを算出し、LSTM学習部1132に出力する。
ただし、任意の圧縮伸長後の音声信号に関する雑音の有無の検出時には、圧縮伸長後の音声信号の対応する時刻t_nの信号期間における帯域f_n(f_n=f_1~f_N)毎の時間波形を入力し、その帯域f_n(f_n=f_1~f_N)毎のエネルギーを算出し、LSTM学習部1132に出力する。
LSTM学習部1132は、LSTMネットワークにおける隠れ層(LSTM層)として構成され、帯域分割数N分の評価値算出部1132aを有しており、評価値算出部1132aの各々は、エネルギー変換部1131’から得られる原音の音声信号に関する帯域f_nのエネルギーと、エネルギー変換部1131から得られる当該原音に対する圧縮伸長後の音声信号に関する帯域f_nのエネルギーに基づきミュージカルノイズを含む雑音を有する帯域であるか否かを識別するよう帯域別に事前学習する。LSTM学習部1132は、多数の原音を用いて事前学習し、この事前学習の結果として得られるネットワークパラメータは、機械学習用DB122に対し参照可能に格納される。
尚、事前学習における教示データとして、以下に例示する主観評価及び客観評価の技法を利用することができる。
[主観評価1]
ITU-R BS.1116-3 “Methods for the subjective assessment of small impairments in audio systems”
[主観評価2(MUSHRA)]
ITU-R BS.1534-3 “Method for the subjective assessment of intermediate quality level of audio systems”
[客観評価1(PEAQ)]
ITU-R Rec. BS.1387-1 “Method of objective measurements of perceived audio quality”
[客観評価2(PESQ)]
ITU-T Rec. P.862 “Perceptual evaluation of speech quality(PESQ), an objective method for end-to end speech quality assessment of narrowband telephone networks and speech codecs″
(雑音学習検出処理)
雑音学習検出処理時では、エネルギー変換部1131’は使用せず、エネルギー変換部1131のみを入力層として使用する。
この雑音学習検出処理時では、エネルギー変換部1131は、雑音の有無が未知である任意の圧縮伸長後の音声信号の或る時刻t_nの信号期間における帯域f_n(f_n=f_1~f_N)毎の時間波形を入力し、その帯域f_n(f_n=f_1~f_N)毎のエネルギーを算出し、LSTM学習部1132に出力する。
LSTM学習部1132は、機械学習用DB122から読み出した事前学習済みのネットワークパラメータで帯域分割数N分の評価値算出部1132aがモデル化され、エネルギー変換部1131から雑音の有無が未知の帯域f_n毎のエネルギーを入力すると、学習済みのネットワークパラメータに基づき或る時刻t_nの信号期間における帯域f_n毎の雑音の有無に関する評価値を算出し、それぞれ帯域分割数N分の帯域別雑音判定部1133に出力する。
帯域分割数N分の帯域別雑音判定部1133の各々は、LSTMネットワークにおける出力層として構成され、LSTM学習部1132から得られる帯域f_n毎の雑音の有無に関する評価値を所定の閾値と比較して帯域f_n毎に雑音の有無を判定する。そして、帯域分割数N分の帯域別雑音判定部1133の各々は、雑音無しの信号期間の信号については雑音無しの旨を信号期間分割部111に通知し、雑音有りの信号期間の信号についてはその雑音帯域情報付きで、雑音有りの旨を信号期間分割部111に通知する。
例えば、機械学習検出部113は、事前学習時に、圧縮伸長された音声信号と非圧縮の音声信号を帯域毎に比較して音質の客観評価を行うPEAQの結果を教示とし、PEAQによる評価値が当該所定の閾値よりも小さい場合、ミュージカルノイズを含む雑音と判別することができる。ここで当該所定の閾値を小さくするほど、より劣化が大きい雑音であると判断することになる。そして、多数の原音と圧縮伸長された音声信号を用いて事前学習させることで、ミュージカルノイズを検出できるようになる。
〔雑音帯域判別部〕
図5は、本発明による一実施形態の音声雑音除去装置1の雑音帯域判別部114において帯域分割したときに得られる補正用雑音帯域情報を示す図である。上述したように、雑音帯域判別部114は、信号期間分割部111から雑音帯域情報付きで雑音有りの或る時刻t_nの信号期間の信号を入力すると、帯域分割数Mで帯域分割した帯域別の時間波形を生成し雑音補正部115に出力する。更に、雑音帯域判別部114は、当該雑音帯域情報に基づいて時刻t_nの信号期間の雑音帯域の最小値f_min、及び雑音帯域の最大値f_maxを判別し、図5に示すように、帯域分割数M、帯域分割の最小帯域f_1及び最大帯域f_M、並びに、雑音帯域の最小値f_min、及び雑音帯域の最大値f_maxの情報を補正用雑音帯域情報として雑音補正部115に出力する。
例えば、雑音帯域判別部114は、MP3でも用いられている帯域分割技法であるPQMF(例えば、ISO/IEC 11172-3 “Coding of moving pictures and associated audio for digital storage media at up to about 1,5 Mbit/s Part 3:Audio”参照)を用いてM=32個に帯域分割することができるし、他の帯域通過フィルタを用いてもよい。
尚、非特許文献2に開示されるようなスペクトログラムを用いて雑音除去処理を行う際には、信号の振幅と位相情報を補正しないと原信号に戻すことは不可能であるが、PQMFの帯域分割法を用いた場合は各時刻における帯域分割された時間波形を補正すれば原理的に元の信号に戻すことは可能である。図5は、PQMFを用いて帯域分割した結果を示すものであり、或る時刻t_nの信号期間における雑音と識別された帯域を“■”で表している。
〔雑音補正部〕
図6は、本発明による一実施形態の音声雑音除去装置1の雑音補正部115における雑音補正処理を示すフローチャートである。
雑音補正部115は、雑音帯域判別部114から、或る雑音有りの時刻t_nの信号期間における帯域分割数M、帯域分割の最小帯域f_1及び最大帯域f_M、雑音帯域情報f_min,f_maxの補正用帯域情報とともに、帯域別の時間波形を入力する(ステップS1)。
続いて、雑音補正部115は、帯域分割数Mに対し予め定めた周波数(本例ではM/2)を基準に、f_min>M/2を満たすか否かを判定する(ステップS2)。
f_min>M/2を満たす場合(ステップS2:Yes)、雑音補正部115は、f_1~“f_min-1”までの帯域を用いて、f_min~f_maxまでの帯域をそれぞれ帯域別にp次の線形予測により補正して、帯域合成部116に出力する(ステップS3)。
例えば、p<f_min-2としてもよいが、ここではp=f_min-2とする。
そして、
f_n’=-Σa[i]×{f_n-i } (Σは、i=1~pの総和)
として、
目的関数J=Σ(f_n-f_n’)が、最小となるように線形予測係数aを求める。
この求めた線形予測係数aを用いて、
f_minの信号=-Σa[i]×{f_min-i } (Σは、i=1~pの総和)
として補正する。
このようにして、帯域f_min~f_maxの各信号を補正する。
一方、f_min>M/2を満たさない場合(ステップS2:No)、雑音補正部115は、f_max<M/2を満たすか否かを判定する(ステップS4)。
f_max<M/2を満たす場合(ステップS4:Yes)、雑音補正部115は、“f_max+1”~f_Mまでの時間波形を用いて、f_min~f_maxまでの帯域別時間波形をそれぞれ帯域別にp次の線形予測により補正して、帯域合成部116に出力する(ステップS5)。
例えば、p<f_M-f_max-1としてもよいが、
ここではp=f_M-f_max-1とする。
そして、
f_n’=-Σa[i]×{f_n+i } (Σは、i=1~pの総和)
として、
目的関数J=Σ(f_n-f_n’)が、最小となるように線形予測係数aを求める。
この求めた線形予測係数aを用いて、
f_maxの信号=-Σa[i]×{f_max+i } (Σは、i=1~pの総和)
として補正する。
このようにして、帯域f_min~f_maxの各信号(時間波形)を補正する。
一方、f_max<M/2を満たさない場合(ステップS4:No)、雑音補正部115は、f_1~“f_min-1”までの時間波形を用いてf_min~f_maxまでの帯域をそれぞれ帯域別にp次の線形予測により補正した信号波形と、“f_max+1”~f_Mまでの時間波形を用いてf_min~f_maxまでの帯域をそれぞれ帯域別にp次の線形予測により補正した信号波形とを加重平均して補正して、帯域合成部116に出力する(ステップS6)。
例えば、f_minがM/2以下である場合でf_maxがM/2以上の場合、帯域f_1~f_min-1を用いて上記と同様にp次の線形予測を行ってfm_minの信号(時間波形)を求め、且つ帯域f_max+1~f_Mを用いて上記と同様にp次の線形予測を行ってfm_maxの信号(時間波形)を求める。
そして、
帯域f_min~f_maxの各信号(時間波形)=
{(f_max-fm)×fm_min+(fm-f_min)×fm_max}/(f_max-f_min)
となる加重平均を行って補正する。
そして、帯域合成部116は、雑音補正部115から雑音有りの信号期間毎に補正後の帯域別時間波形を入力し、信号期間毎に全帯域の時間波形を帯域合成して、当該雑音有りの信号期間毎の補正後信号を形成し、これにより位相情報も劣化させることがあるミュージカルノイズについても補正できるようになる。
一般的に音声信号の周波数成分には相関が高い場合が多く、線形予測による補正でノイズが軽減されることが予想される。
〔従来技術と本発明に係る処置との比較〕
図7(a)は或る原音のスペクトログラムを示す図であり、図7(b)は劣化した圧縮伸長音のスペクトログラムを示す図である。図7(b)を参照するに、特に4KHz付近から低域にかけて非可逆圧縮符号化処理により情報が欠落し伸長復号後の音声信号においてミュージカルノイズが発生していることが分かる。
また、図7(c)は非特許文献2に基づく雑音除去処理(収縮・膨張処理)後の圧縮伸長音のスペクトログラムを示す図である。図7(c)においてよく見るとエッジがスムーズになっているが、情報の欠落部分ははっきりと分かり、依然としてミュージカルノイズが発生していることが分かる。
そして、図7(d)は本発明に係る雑音除去処理後の圧縮伸長音に関するスペクトログラムを示す図である。図7(d)を参照して理解されるように、はっきりと見えていた情報の欠落部分はスムーズになり、顕著なミュージカルノイズを軽減できることが確認された。従って、本発明に係る雑音除去処理は、従来技術と比較しても音声符号化によって生じる劣化を補正するのに優れていることが分かる。また、本発明に係る雑音除去処理は、ミュージカルノイズに限らず、原理的にも理解されるように、クリップノイズも抑圧することができる。
以上の実施形態における音声雑音除去装置1は、コンピュータにより構成することができ、音声雑音除去装置1の各処理部を機能させるためのプログラムを好適に用いることができる。具体的には、音声雑音除去装置1の各処理部を制御するための制御部をコンピュータ内の中央演算処理装置(CPU)で構成でき、且つ、各処理部を動作させるのに必要となるプログラムを構成することができる。即ち、そのようなコンピュータに、CPUによって該プログラムを実行させることにより、音声雑音除去装置1の各処理部の有する機能を実現させることができる。更に、音声雑音除去装置1の各処理部の有する機能を実現させるためのプログラムを、前述の記憶部12の所定の領域に格納させることができる。そのような記憶部は、コンピュータ内部のRAM又はROMなどで構成させることができ、或いは又、外部記憶装置(例えば、ハードディスク)で構成させることもできる。更に、そのようなコンピュータに、音声雑音除去装置1の各処理部として機能させるためのプログラムは、コンピュータ読取り可能な記録媒体に記録することができる。また、音声雑音除去装置1の各処理部をハードウェア又はソフトウェアの一部として構成させ、各々を組み合わせて実現させることもできる。
以上、特定の実施形態の例を挙げて本発明を説明したが、本発明は前述の実施形態の例に限定されるものではなく、その技術思想を逸脱しない範囲で種々変形可能である。従って、本発明に係る画像処理装置1は、上述した実施形態の例に限定されるものではなく、特許請求の範囲の記載によってのみ制限される。
本発明によれば、任意の圧縮伸長後の音声信号に対し符号化劣化によって生じたミュージカルノイズを含む雑音を自動検出し補正することができるので、雑音の抑圧を要する音声信号の信号処理の用途に有用である。
1 音声雑音除去装置
11 雑音除去処理部
12 記憶部
111 信号期間分割部
112 帯域分割部
113 雑音学習検出部
114 雑音帯域判別部
115 雑音補正部
116 帯域合成部
117 信号合成部
121 信号処理用メモリ
122 機械学習用データベース(DB)
1131 エネルギー変換部
1131’ エネルギー変換部
1132 LSTM学習部
1132a 評価値算出部
1133 帯域別雑音判定部

Claims (4)

  1. 圧縮伸長後の音声信号における雑音を除去する音声雑音除去装置であって、
    圧縮伸長後の音声信号を入力し、所定の時間間隔で区切られた信号期間毎の信号に分割する信号期間分割部と、
    前記信号期間毎に所定の周波数間隔の帯域分割数で帯域分割した帯域別の時間波形を生成する帯域分割部と、
    前記信号期間毎に、機械学習を用いて当該帯域別にミュージカルノイズを含む雑音を検出し、前記信号期間分割部に対し、雑音無しの信号期間の信号と雑音有りの信号期間の信号に分岐させる雑音学習検出部と、
    前記雑音学習検出部による雑音帯域情報を基に、最小帯域及び最大帯域を持つ所定の帯域分割数で帯域分割した信号期間毎の雑音帯域の最小値、及び雑音帯域の最大値を判別する雑音帯域判別部と、
    前記雑音帯域判別部で用いた前記所定の帯域分割数、前記帯域分割の最小帯域及び最大帯域、並びに、前記雑音帯域の最小値及び前記雑音帯域の最大値を基に、当該雑音有りの信号期間における当該雑音を有する帯域の波形を該信号期間における当該雑音を有していない帯域の波形から線形予測により補正して、当該雑音有りの信号期間毎に補正後の帯域別時間波形を生成する雑音補正部と、
    当該雑音有りの信号期間毎に前記補正後の帯域別時間波形を帯域合成して、当該雑音有りの信号期間毎の補正後信号を形成する帯域合成部と、
    当該雑音有りの信号期間毎の補正後信号と、雑音無しの信号期間の信号とを時系列に連結することで合成することにより、ミュージカルノイズを含む雑音を抑圧した音声信号を生成する信号合成部と、
    を備えることを特徴とする音声雑音除去装置。
  2. 前記雑音学習検出部は、LSTM(Long Short-Term Memory)ネットワークにより構成され、学習用の原音の音声信号と、その原音の圧縮伸長後の音声信号について、所定の信号期間毎に帯域分割した時間波形をエネルギー又は包絡線形状に基づきミュージカルノイズを含む雑音を有する帯域であるか否かを識別するよう予め事前学習されていることを特徴とする、請求項1に記載の音声雑音除去装置。
  3. 前記雑音補正部は、
    前記雑音帯域の最小値が予め定めた周波数より高いときは、前記雑音帯域の最小値より低い帯域の信号波形を用いて第1の線形予測を行い、
    前記雑音帯域の最小値が前記予め定めた周波数以下であり、且つ前記雑音帯域の最大値が前記予め定めた周波数より低いときは、前記雑音帯域の最大値より高い帯域の信号波形を用いて第2の線形予測を行い、
    前記雑音帯域の最小値が前記予め定めた周波数以下であり、且つ前記雑音帯域の最大値が前記予め定めた周波数以上であるときは、前記第1の線形予測により得られる帯域別の時間波形と、前記第2の線形予測により得られる帯域別の時間波形とを加重平均することにより、当該雑音有りの信号期間における当該雑音を有する帯域の時間波形を補正することを特徴とする、請求項1又は2に記載の音声雑音除去装置。
  4. コンピュータを、請求項1から3のいずれか一項に記載の音声雑音除去装置として機能させるためのプログラム。
JP2019095104A 2019-05-21 2019-05-21 音声雑音除去装置及びプログラム Active JP7316093B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019095104A JP7316093B2 (ja) 2019-05-21 2019-05-21 音声雑音除去装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019095104A JP7316093B2 (ja) 2019-05-21 2019-05-21 音声雑音除去装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2020190606A JP2020190606A (ja) 2020-11-26
JP7316093B2 true JP7316093B2 (ja) 2023-07-27

Family

ID=73454509

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019095104A Active JP7316093B2 (ja) 2019-05-21 2019-05-21 音声雑音除去装置及びプログラム

Country Status (1)

Country Link
JP (1) JP7316093B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112908352B (zh) * 2021-03-01 2024-04-16 百果园技术(新加坡)有限公司 一种音频去噪方法、装置、电子设备及存储介质
US20230037541A1 (en) * 2021-07-29 2023-02-09 Xinapse Co., Ltd. Method and system for synthesizing speeches by scoring speeches

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004502977A (ja) 2000-07-12 2004-01-29 アンドレア エレクトロニクス コーポレイション サブバンド指数平滑雑音消去システム
JP2009003297A (ja) 2007-06-22 2009-01-08 Yamaha Corp 音声信号処理装置および音声再生装置
JP2017175584A (ja) 2016-03-25 2017-09-28 キヤノン株式会社 撮像装置及び音声記録装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004502977A (ja) 2000-07-12 2004-01-29 アンドレア エレクトロニクス コーポレイション サブバンド指数平滑雑音消去システム
JP2009003297A (ja) 2007-06-22 2009-01-08 Yamaha Corp 音声信号処理装置および音声再生装置
JP2017175584A (ja) 2016-03-25 2017-09-28 キヤノン株式会社 撮像装置及び音声記録装置

Also Published As

Publication number Publication date
JP2020190606A (ja) 2020-11-26

Similar Documents

Publication Publication Date Title
US10236015B2 (en) Encoding device and method, decoding device and method, and program
AU2012297804B2 (en) Encoding device and method, decoding device and method, and program
JP5730881B2 (ja) 録音の適応的ダイナミックレンジ強化
RU2585987C2 (ru) Устройство и способ обработки речевого/аудио сигнала
EP3340244B1 (en) Signal processing apparatus and method, and program
JP5249426B2 (ja) 信号符号化及び復号化方法及び装置、並びに符号化及び復号化システム
JP5942358B2 (ja) 符号化装置および方法、復号装置および方法、並びにプログラム
JP6769299B2 (ja) オーディオ符号化装置およびオーディオ符号化方法
KR20010021226A (ko) 디지털 음향 신호 부호화 장치, 디지털 음향 신호 부호화방법 및 디지털 음향 신호 부호화 프로그램을 기록한 매체
JP4021124B2 (ja) デジタル音響信号符号化装置、方法及び記録媒体
JP7316093B2 (ja) 音声雑音除去装置及びプログラム
US7466245B2 (en) Digital signal processing apparatus, digital signal processing method, digital signal processing program, digital signal reproduction apparatus and digital signal reproduction method
CN105324815B (zh) 信号处理装置和信号处理方法
JP5694745B2 (ja) 隠蔽信号生成装置、隠蔽信号生成方法および隠蔽信号生成プログラム
EP2828853B1 (en) Method and system for bias corrected speech level determination
JP2006018023A (ja) オーディオ信号符号化装置、および符号化プログラム
US20130085762A1 (en) Audio encoding device
JP5994073B2 (ja) 音声信号圧縮装置及び音声信号圧縮方法
JP7056340B2 (ja) 符号化音判定プログラム、符号化音判定方法、及び符号化音判定装置
JP6765124B2 (ja) 音声処理装置、音声処理方法、及び音声処理プログラム
JP4556866B2 (ja) 高能率符号化プログラム及び高能率符号化装置
JP4539180B2 (ja) 音響復号装置及び音響復号方法
JP6210338B2 (ja) 信号処理装置および方法、並びにプログラム
JP2006023658A (ja) オーディオ信号符号化装置及びオーディオ信号符号化方法
KR20100062063A (ko) 오디오 신호 디코딩 방법, 이를 적용한 오디오 디코더, 기록매체 및 av 기기

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220420

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230228

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230228

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230310

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230620

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230714

R150 Certificate of patent or registration of utility model

Ref document number: 7316093

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150