JP7316093B2 - 音声雑音除去装置及びプログラム - Google Patents
音声雑音除去装置及びプログラム Download PDFInfo
- Publication number
- JP7316093B2 JP7316093B2 JP2019095104A JP2019095104A JP7316093B2 JP 7316093 B2 JP7316093 B2 JP 7316093B2 JP 2019095104 A JP2019095104 A JP 2019095104A JP 2019095104 A JP2019095104 A JP 2019095104A JP 7316093 B2 JP7316093 B2 JP 7316093B2
- Authority
- JP
- Japan
- Prior art keywords
- noise
- band
- signal
- signal period
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
図1は、本発明による一実施形態の音声雑音除去装置1の概略構成を示すブロック図である。音声雑音除去装置1は、雑音除去処理部11及び記憶部12から構成される。雑音除去処理部11は、信号期間分割部111、帯域分割部112、雑音学習検出部113、雑音帯域判別部114、雑音補正部115、帯域合成部116、及び信号合成部117を備える。また、音声雑音除去装置1は、コンピュータにより構成することができ、記憶部12には本発明に係るプログラムが格納され、コンピュータ(AVアンプ等の家庭用音響機器のDSPのマイクロコンピュータを含む)内の中央演算処理装置(CPU)により当該プログラムを実行することで、雑音除去処理部11を機能させることができる。そして、記憶部12は、雑音除去処理部11に係る各信号処理上のデータの一時記憶や各データの遅延調整に用いる信号処理用メモリ121と、雑音学習検出部113の処理で利用する機械学習用データベース(DB)122とを備える。
図2は、本発明による一実施形態の音声雑音除去装置1の帯域分割部112において帯域分割したときに得られる時間波形を概略的に例示する図である。帯域分割部112は、信号期間毎に、後段の雑音学習検出部113により「雑音の検出」を行わせるために帯域分割数Nで帯域分割を行う。
図3は、本発明による一実施形態の音声雑音除去装置1の雑音学習検出部113における事前学習と、雑音学習検出処理を概念的に示すブロック図である。また、図4は、雑音学習検出部113におけるLSTM学習処理の概略を概念的に示す図である。雑音学習検出部113は、位相情報を扱うことができる時間波形に基づいたLSTMネットワークで構成され、機械学習用DB122を参照して事前学習されたネットワークパラメータを基に学習済みの機械学習を用いて、帯域分割部112から或る時刻t_nの信号期間における帯域別の時間波形を入力すると帯域別時間波形ごとにミュージカルノイズを含む雑音の有無を検出する。
エネルギー変換部1131’は、LSTMネットワークにおける入力層として、事前学習用に用いられ、事前学習用に非圧縮の原音の音声信号の或る時刻t_nの信号期間における帯域f_n(f_n=f_1~f_N)毎の時間波形を入力し、その帯域f_n(f_n=f_1~f_N)毎のエネルギー(時刻t_nの信号期間内の単位時間毎の信号振幅の二乗の積分値)を算出し、LSTM学習部1132に出力する。
[主観評価1]
ITU-R BS.1116-3 “Methods for the subjective assessment of small impairments in audio systems”
[主観評価2(MUSHRA)]
ITU-R BS.1534-3 “Method for the subjective assessment of intermediate quality level of audio systems”
[客観評価1(PEAQ)]
ITU-R Rec. BS.1387-1 “Method of objective measurements of perceived audio quality”
[客観評価2(PESQ)]
ITU-T Rec. P.862 “Perceptual evaluation of speech quality(PESQ), an objective method for end-to end speech quality assessment of narrowband telephone networks and speech codecs″
雑音学習検出処理時では、エネルギー変換部1131’は使用せず、エネルギー変換部1131のみを入力層として使用する。
図5は、本発明による一実施形態の音声雑音除去装置1の雑音帯域判別部114において帯域分割したときに得られる補正用雑音帯域情報を示す図である。上述したように、雑音帯域判別部114は、信号期間分割部111から雑音帯域情報付きで雑音有りの或る時刻t_nの信号期間の信号を入力すると、帯域分割数Mで帯域分割した帯域別の時間波形を生成し雑音補正部115に出力する。更に、雑音帯域判別部114は、当該雑音帯域情報に基づいて時刻t_nの信号期間の雑音帯域の最小値f_min、及び雑音帯域の最大値f_maxを判別し、図5に示すように、帯域分割数M、帯域分割の最小帯域f_1及び最大帯域f_M、並びに、雑音帯域の最小値f_min、及び雑音帯域の最大値f_maxの情報を補正用雑音帯域情報として雑音補正部115に出力する。
図6は、本発明による一実施形態の音声雑音除去装置1の雑音補正部115における雑音補正処理を示すフローチャートである。
そして、
f_n’=-Σa[i]×{f_n-i } (Σは、i=1~pの総和)
として、
目的関数J=Σ(f_n-f_n’)2が、最小となるように線形予測係数aを求める。
この求めた線形予測係数aを用いて、
f_minの信号=-Σa[i]×{f_min-i } (Σは、i=1~pの総和)
として補正する。
このようにして、帯域f_min~f_maxの各信号を補正する。
ここではp=f_M-f_max-1とする。
そして、
f_n’=-Σa[i]×{f_n+i } (Σは、i=1~pの総和)
として、
目的関数J=Σ(f_n-f_n’)2が、最小となるように線形予測係数aを求める。
この求めた線形予測係数aを用いて、
f_maxの信号=-Σa[i]×{f_max+i } (Σは、i=1~pの総和)
として補正する。
このようにして、帯域f_min~f_maxの各信号(時間波形)を補正する。
そして、
帯域f_min~f_maxの各信号(時間波形)=
{(f_max-fm)×fm_min+(fm-f_min)×fm_max}/(f_max-f_min)
となる加重平均を行って補正する。
図7(a)は或る原音のスペクトログラムを示す図であり、図7(b)は劣化した圧縮伸長音のスペクトログラムを示す図である。図7(b)を参照するに、特に4KHz付近から低域にかけて非可逆圧縮符号化処理により情報が欠落し伸長復号後の音声信号においてミュージカルノイズが発生していることが分かる。
11 雑音除去処理部
12 記憶部
111 信号期間分割部
112 帯域分割部
113 雑音学習検出部
114 雑音帯域判別部
115 雑音補正部
116 帯域合成部
117 信号合成部
121 信号処理用メモリ
122 機械学習用データベース(DB)
1131 エネルギー変換部
1131’ エネルギー変換部
1132 LSTM学習部
1132a 評価値算出部
1133 帯域別雑音判定部
Claims (4)
- 圧縮伸長後の音声信号における雑音を除去する音声雑音除去装置であって、
圧縮伸長後の音声信号を入力し、所定の時間間隔で区切られた信号期間毎の信号に分割する信号期間分割部と、
前記信号期間毎に所定の周波数間隔の帯域分割数で帯域分割した帯域別の時間波形を生成する帯域分割部と、
前記信号期間毎に、機械学習を用いて当該帯域別にミュージカルノイズを含む雑音を検出し、前記信号期間分割部に対し、雑音無しの信号期間の信号と雑音有りの信号期間の信号に分岐させる雑音学習検出部と、
前記雑音学習検出部による雑音帯域情報を基に、最小帯域及び最大帯域を持つ所定の帯域分割数で帯域分割した信号期間毎の雑音帯域の最小値、及び雑音帯域の最大値を判別する雑音帯域判別部と、
前記雑音帯域判別部で用いた前記所定の帯域分割数、前記帯域分割の最小帯域及び最大帯域、並びに、前記雑音帯域の最小値及び前記雑音帯域の最大値を基に、当該雑音有りの信号期間における当該雑音を有する帯域の波形を該信号期間における当該雑音を有していない帯域の波形から線形予測により補正して、当該雑音有りの信号期間毎に補正後の帯域別時間波形を生成する雑音補正部と、
当該雑音有りの信号期間毎に前記補正後の帯域別時間波形を帯域合成して、当該雑音有りの信号期間毎の補正後信号を形成する帯域合成部と、
当該雑音有りの信号期間毎の補正後信号と、雑音無しの信号期間の信号とを時系列に連結することで合成することにより、ミュージカルノイズを含む雑音を抑圧した音声信号を生成する信号合成部と、
を備えることを特徴とする音声雑音除去装置。 - 前記雑音学習検出部は、LSTM(Long Short-Term Memory)ネットワークにより構成され、学習用の原音の音声信号と、その原音の圧縮伸長後の音声信号について、所定の信号期間毎に帯域分割した時間波形をエネルギー又は包絡線形状に基づきミュージカルノイズを含む雑音を有する帯域であるか否かを識別するよう予め事前学習されていることを特徴とする、請求項1に記載の音声雑音除去装置。
- 前記雑音補正部は、
前記雑音帯域の最小値が予め定めた周波数より高いときは、前記雑音帯域の最小値より低い帯域の信号波形を用いて第1の線形予測を行い、
前記雑音帯域の最小値が前記予め定めた周波数以下であり、且つ前記雑音帯域の最大値が前記予め定めた周波数より低いときは、前記雑音帯域の最大値より高い帯域の信号波形を用いて第2の線形予測を行い、
前記雑音帯域の最小値が前記予め定めた周波数以下であり、且つ前記雑音帯域の最大値が前記予め定めた周波数以上であるときは、前記第1の線形予測により得られる帯域別の時間波形と、前記第2の線形予測により得られる帯域別の時間波形とを加重平均することにより、当該雑音有りの信号期間における当該雑音を有する帯域の時間波形を補正することを特徴とする、請求項1又は2に記載の音声雑音除去装置。 - コンピュータを、請求項1から3のいずれか一項に記載の音声雑音除去装置として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019095104A JP7316093B2 (ja) | 2019-05-21 | 2019-05-21 | 音声雑音除去装置及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019095104A JP7316093B2 (ja) | 2019-05-21 | 2019-05-21 | 音声雑音除去装置及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020190606A JP2020190606A (ja) | 2020-11-26 |
JP7316093B2 true JP7316093B2 (ja) | 2023-07-27 |
Family
ID=73454509
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019095104A Active JP7316093B2 (ja) | 2019-05-21 | 2019-05-21 | 音声雑音除去装置及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7316093B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112908352B (zh) * | 2021-03-01 | 2024-04-16 | 百果园技术(新加坡)有限公司 | 一种音频去噪方法、装置、电子设备及存储介质 |
US20230037541A1 (en) * | 2021-07-29 | 2023-02-09 | Xinapse Co., Ltd. | Method and system for synthesizing speeches by scoring speeches |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004502977A (ja) | 2000-07-12 | 2004-01-29 | アンドレア エレクトロニクス コーポレイション | サブバンド指数平滑雑音消去システム |
JP2009003297A (ja) | 2007-06-22 | 2009-01-08 | Yamaha Corp | 音声信号処理装置および音声再生装置 |
JP2017175584A (ja) | 2016-03-25 | 2017-09-28 | キヤノン株式会社 | 撮像装置及び音声記録装置 |
-
2019
- 2019-05-21 JP JP2019095104A patent/JP7316093B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004502977A (ja) | 2000-07-12 | 2004-01-29 | アンドレア エレクトロニクス コーポレイション | サブバンド指数平滑雑音消去システム |
JP2009003297A (ja) | 2007-06-22 | 2009-01-08 | Yamaha Corp | 音声信号処理装置および音声再生装置 |
JP2017175584A (ja) | 2016-03-25 | 2017-09-28 | キヤノン株式会社 | 撮像装置及び音声記録装置 |
Also Published As
Publication number | Publication date |
---|---|
JP2020190606A (ja) | 2020-11-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10236015B2 (en) | Encoding device and method, decoding device and method, and program | |
AU2012297804B2 (en) | Encoding device and method, decoding device and method, and program | |
JP5730881B2 (ja) | 録音の適応的ダイナミックレンジ強化 | |
RU2585987C2 (ru) | Устройство и способ обработки речевого/аудио сигнала | |
EP3340244B1 (en) | Signal processing apparatus and method, and program | |
JP5249426B2 (ja) | 信号符号化及び復号化方法及び装置、並びに符号化及び復号化システム | |
JP5942358B2 (ja) | 符号化装置および方法、復号装置および方法、並びにプログラム | |
JP6769299B2 (ja) | オーディオ符号化装置およびオーディオ符号化方法 | |
KR20010021226A (ko) | 디지털 음향 신호 부호화 장치, 디지털 음향 신호 부호화방법 및 디지털 음향 신호 부호화 프로그램을 기록한 매체 | |
JP4021124B2 (ja) | デジタル音響信号符号化装置、方法及び記録媒体 | |
JP7316093B2 (ja) | 音声雑音除去装置及びプログラム | |
US7466245B2 (en) | Digital signal processing apparatus, digital signal processing method, digital signal processing program, digital signal reproduction apparatus and digital signal reproduction method | |
CN105324815B (zh) | 信号处理装置和信号处理方法 | |
JP5694745B2 (ja) | 隠蔽信号生成装置、隠蔽信号生成方法および隠蔽信号生成プログラム | |
EP2828853B1 (en) | Method and system for bias corrected speech level determination | |
JP2006018023A (ja) | オーディオ信号符号化装置、および符号化プログラム | |
US20130085762A1 (en) | Audio encoding device | |
JP5994073B2 (ja) | 音声信号圧縮装置及び音声信号圧縮方法 | |
JP7056340B2 (ja) | 符号化音判定プログラム、符号化音判定方法、及び符号化音判定装置 | |
JP6765124B2 (ja) | 音声処理装置、音声処理方法、及び音声処理プログラム | |
JP4556866B2 (ja) | 高能率符号化プログラム及び高能率符号化装置 | |
JP4539180B2 (ja) | 音響復号装置及び音響復号方法 | |
JP6210338B2 (ja) | 信号処理装置および方法、並びにプログラム | |
JP2006023658A (ja) | オーディオ信号符号化装置及びオーディオ信号符号化方法 | |
KR20100062063A (ko) | 오디오 신호 디코딩 방법, 이를 적용한 오디오 디코더, 기록매체 및 av 기기 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220420 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230228 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230228 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230310 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230620 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230714 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7316093 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |