CN114155852A - 语音处理方法、装置、电子设备及存储介质 - Google Patents

语音处理方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN114155852A
CN114155852A CN202111464844.8A CN202111464844A CN114155852A CN 114155852 A CN114155852 A CN 114155852A CN 202111464844 A CN202111464844 A CN 202111464844A CN 114155852 A CN114155852 A CN 114155852A
Authority
CN
China
Prior art keywords
noise reduction
signal
noise
speech
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111464844.8A
Other languages
English (en)
Inventor
陈联武
张晨
郑羲光
任新蕾
张旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dajia Internet Information Technology Co Ltd
Original Assignee
Beijing Dajia Internet Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dajia Internet Information Technology Co Ltd filed Critical Beijing Dajia Internet Information Technology Co Ltd
Priority to CN202111464844.8A priority Critical patent/CN114155852A/zh
Publication of CN114155852A publication Critical patent/CN114155852A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本公开关于一种语音处理方法、装置、电子设备及存储介质,所述语音处理方法,包括:获取带噪语音信号,其中,所述带噪语音信号包括语音信号、稳态噪声信号和非稳态噪声信号;通过对所述带噪语音信号执行用于去除稳态噪声信号的第一降噪处理,获得第一降噪信号;通过对所述第一降噪信号执行用于去除非稳态噪声信号的第二降噪处理,获得第二降噪信号。

Description

语音处理方法、装置、电子设备及存储介质
技术领域
本公开涉及信号处理领域,尤其涉及一种语音处理方法、装置、电子设 备及存储介质。
背景技术
短视频已经成为当今社会人们获取信息和休闲娱乐的主要方式。在短视 频的内容制作过程中,能否很好的完成语音降噪,也成为影响用户体验的一 个重要因素。在短视频场景,对于降噪通常有两种典型的需求。第一种是传 统意义的语音降噪,保留语音的同时去除所有噪声;第二种是稳态降噪,只 去除音频中平稳的噪声成分(环境背景声,如空调),同时保留语音和非平稳 噪声(瞬时噪声,如敲击声、咀嚼声)。第二种应用的典型短视频场景包括吃 播,手工制作讲解等。然而,目前的语音降噪方式或者直接去除所有噪声(即, 传统意义的语音降噪),或者直接进行稳态降噪,而未结合传统意义的语音降 噪和稳态降噪的关系,使得仍然无法在满足正常语音降噪和稳态降噪的不同 需求的情况下以较低的计算复杂度提供较好的降噪效果。
发明内容
本公开提供一种语音处理方法、装置、电子设备及存储介质,以至少解 决相关技术中的无法在满足正常语音降噪和稳态降噪的不同需求的情况下以 较低的计算复杂度提供较好的降噪效果的问题。
根据本公开实施例的第一方面,提供了一种语音处理方法,所述语音处 理方法包括:获取带噪语音信号,其中,所述带噪语音信号包括语音信号、 稳态噪声信号和非稳态噪声信号;通过对所述带噪语音信号执行用于去除稳 态噪声信号的第一降噪处理,获得第一降噪信号;通过对所述第一降噪信号 执行用于去除非稳态噪声信号的第二降噪处理,获得第二降噪信号。
可选地,使用语音降噪模型执行第一降噪处理和第二降噪处理,其中, 所述语音降噪模型包括用于执行第一降噪处理的第一降噪模型和用于执行第 二降噪处理的第二降噪模型,所述第二降噪模型基于所述第一降噪模型的输 出信号来获得所述第二降噪信号。
可选地,所述通过对所述带噪语音信号执行用于去除稳态噪声信号的第 一降噪处理,获得第一降噪信号,包括:基于所述带噪语音信号利用所述第 一降噪模型获得第一掩蔽矩阵,并且基于所述第一掩蔽矩阵和所述带噪语音 信号获得所述第一降噪信号,
所述通过对所述第一降噪信号执行用于去除非稳态噪声信号的第二降噪 处理,获得第二降噪信号,包括:基于所述第一降噪信号利用所述第二降噪 模型获得第二掩蔽矩阵,并且基于所述第二掩蔽矩阵和所述第一降噪信号来 获得所述第二降噪信号。
可选地,所述第一降噪模型包括第一特征提取网络和第一降噪网络,所 述基于所述带噪语音信号利用所述第一降噪模型获得第一掩蔽矩阵,包括: 利用所述第一特征提取网络提取所述带噪语音信号的特征,得到第一特征输 出;将所述第一特征输出输入至所述第一降噪网络,获得所述第一掩蔽矩阵。
可选地,所述第二降噪模型包括第二特征提取网络和第二降噪网络,
所述基于第一降噪信号利用所述第二降噪模型获得第二掩蔽矩阵,包括: 利用所述第二特征提取网络提取所述第一降噪信号的特征,得到第二特征输 出;将所述第二特征输出输入至所述第二降噪网络,获得所述第二掩蔽矩阵。
可选地,所述第二降噪模型包括第二特征提取网络、特征融合网络和第 二降噪网络,
所述基于所述第一降噪信号利用所述第二降噪模型获得第二掩蔽矩阵, 包括:利用所述第二特征提取网络提取所述第一降噪信号的特征,得到第二 特征输出;利用所述特征融合网络将所述第一特征输出与所述第二特征输出 进行融合,得到融合后的特征;将所述融合后的特征输入至所述第二降噪网 络,获得所述第二掩蔽矩阵。
可选地,所述带噪语音信号包括时域带噪语音信号、频域带噪语音信号 中的一种,所述带噪语音信号包括单通道、多通道带噪语音信号中的一种。
可选地,在所述带噪语音信号是时域带噪语音信号的情况下,
所述基于所述带噪语音信号利用所述第一降噪模型获得第一掩蔽矩阵, 并且基于所述第一掩蔽矩阵和所述带噪语音信号获得所述第一降噪信号,包 括:基于所述带噪语音信号对应的带噪语音频谱利用所述第一降噪模型获得 所述第一掩蔽矩阵,通过将所述第一掩蔽矩阵与所述带噪语音频谱相乘来获 得第一频谱,并且对所述第一频谱执行逆傅里叶变换来获得所述第一降噪信 号;
所述基于所述第一降噪信号利用所述第二降噪模型获得第二掩蔽矩阵, 并且基于所述第二掩蔽矩阵和所述第一降噪信号来获得所述第二降噪信号, 包括:基于与所述第一降噪信号对应的第一频谱利用所述第二降噪模型获得 所述第二掩蔽矩阵,通过将所述第二掩蔽矩阵与所述第一频谱相乘来获得第 二频谱,并且对所述第二频谱执行逆傅里叶变换来获得所述第二降噪信号。
可选地,所述语音处理方法还包括:当接收到第一信号输出指令时,输 出所述第一降噪信号;当接收到第二信号输出指令时,输出所述第二降噪信 号。
根据本公开实施例的第二方面,提供了一种语音处理方法,所述语音处 理方法包括:获取带噪语音信号,其中,所述带噪语音信号包括语音信号、 稳态噪声信号和非稳态噪声信号;利用语音降噪模型中包括的第一降噪模型 对所述带噪语音信号执行用于去除稳态噪声信号的第一降噪处理来获得第一 降噪信号;利用所述语音降噪模型中包括的第二降噪模型对所述第一降噪信 号执行用于去除非稳态噪声信号的第二降噪处理来获得第二降噪信号;根据 所述带噪语音信号、所述第一降噪信号和所述第二降噪信号利用损失函数调 整所述语音降噪模型的参数。
可选地,所述损失函数是与所述第一降噪模型对应的第一损失函数和与 所述第二降噪模型对应的第二损失函数的加权和。
可选地,所述根据所述带噪语音信号、所述第一降噪信号和所述第二降 噪信号利用损失函数调整所述语音降噪模型的参数,包括:根据所述语音信 号和所述非稳态噪声信号之和以及所述第一降噪信号计算所述第一损失函数 的值;根据所述语音信号与所述第二降噪信号计算所述第二损失函数的值; 将所述第一损失函数的值与所述第二损失函数的值进行加权求和来计算所述 损失函数的值,并根据所述损失函数的值调整所述第一降噪模型和所述第二 降噪模型的参数。
可选地,所述根据所述带噪语音信号、所述第一降噪信号和所述第二降 噪信号利用损失函数调整所述语音降噪模型的参数,包括:
在将所述第一损失函数的权重设置为第一预设权重值并将所述第二损失 函数的权重设置为第二预设权重值的情况下,将所述第一损失函数的值与所 述第二损失函数的值进行加权求和来计算所述损失函数的值,并根据所述损 失函数的值调整所述第一降噪模型的参数,其中,所述第一预设权重值与所 述第二预设权重值的和为1;
在所述第一降噪模型的参数确定的情况下,重新设置所述第一损失函数 和所述第二损失函数的权重来更新所述损失函数,并利用更新后的损失函数 调整所述第二降噪模型的参数。
可选地,所述利用语音降噪模型中包括的第一降噪模型对所述带噪语音 信号执行用于去除稳态噪声信号的第一降噪处理来获得第一降噪信号,包括: 基于所述带噪语音信号利用所述第一降噪模型获得第一掩蔽矩阵,并且基于 所述第一掩蔽矩阵和所述带噪语音信号获得所述第一降噪信号,
其中,所述利用所述语音降噪模型中包括的第二降噪模型对所述第一降 噪信号执行用于去除非稳态噪声信号的第二降噪处理来获得第二降噪信号, 包括:基于所述第一降噪信号利用所述第二降噪模型获得第二掩蔽矩阵,并 且基于所述第二掩蔽矩阵和所述第一降噪信号来获得所述第二降噪信号。
可选地,所述第一降噪模型包括第一特征提取网络和第一降噪网络,其 中,所述基于所述带噪语音信号利用所述第一降噪模型获得第一掩蔽矩阵, 包括:利用所述第一特征提取网络提取所述带噪语音信号的特征,得到第一 特征输出;将所述第一特征输出输入至所述第一降噪网络,获得所述第一掩 蔽矩阵。
可选地,所述第二降噪模型包括第二特征提取网络和第二降噪网络,其 中,所述基于所述第一降噪信号利用所述第二降噪模型获得第二掩蔽矩阵, 包括:利用所述第二特征提取网络提取所述第一降噪信号的特征,得到第二 特征输出;将所述第二特征输出输入至所述第二降噪网络,获得所述第二掩 蔽矩阵。
可选地,所述第二降噪模型包括第二特征提取网络、特征融合网络和第 二降噪网络,其中,所述基于所述第一降噪信号利用所述第二降噪模型获得 第二掩蔽矩阵,包括:利用所述第二特征提取网络提取所述第一降噪信号的 特征,得到第二特征输出;利用所述特征融合网络将所述第一特征输出与所 述第二特征输出进行融合,得到融合后的特征;将所述融合后的特征输入至 所述第二降噪网络,获得所述第二掩蔽矩阵。根据本公开实施例的第三方面, 提供了一种语音处理装置,所述语音处理装置包括:信号获取单元,被配置 为获取带噪语音信号,其中,所述带噪语音信号包括语音信号、稳态噪声信 号和非稳态噪声信号;第一降噪单元,被配置为通过对所述带噪语音信号执 行用于去除稳态噪声信号的第一降噪处理,获得第一降噪信号;第二降噪单 元,被配置为通过对所述第一降噪信号执行用于去除非稳态噪声信号的第二 降噪处理,获得第二降噪信号。
可选地,使用语音降噪模型执行第一降噪处理和第二降噪处理,其中, 所述语音降噪模型包括用于执行第一降噪处理的第一降噪模型和用于执行第 二降噪处理的第二降噪模型,所述第二降噪模型基于所述第一降噪模型的输 出信号来获得所述第二降噪信号。
可选地,所述通过对所述带噪语音信号执行用于去除稳态噪声信号的第 一降噪处理,获得第一降噪信号,包括:基于所述带噪语音信号利用所述第 一降噪模型获得第一掩蔽矩阵,并且基于所述第一掩蔽矩阵和所述带噪语音 信号获得所述第一降噪信号,
所述通过对所述第一降噪信号执行用于去除非稳态噪声信号的第二降噪 处理,获得第二降噪信号,包括:基于所述第一降噪信号利用所述第二降噪 模型获得第二掩蔽矩阵,并且基于所述第二掩蔽矩阵和所述第一降噪信号来 获得所述第二降噪信号。
可选地,所述第一降噪模型包括第一特征提取网络和第一降噪网络,所 述基于所述带噪语音信号利用所述第一降噪模型获得第一掩蔽矩阵,包括: 利用所述第一特征提取网络提取所述带噪语音信号的特征,得到第一特征输 出;将所述第一特征输出输入至所述第一降噪网络,获得所述第一掩蔽矩阵。
可选地,所述第二降噪模型包括第二特征提取网络和第二降噪网络,
所述基于第一降噪信号利用所述第二降噪模型获得第二掩蔽矩阵,包括: 利用所述第二特征提取网络提取所述第一降噪信号的特征,得到第二特征输 出;将所述第二特征输出输入至所述第二降噪网络,获得所述第二掩蔽矩阵。
可选地,所述第二降噪模型包括第二特征提取网络、特征融合网络和第 二降噪网络,
所述基于所述第一降噪信号利用所述第二降噪模型获得第二掩蔽矩阵, 包括:利用所述第二特征提取网络提取所述第一降噪信号的特征,得到第二 特征输出;利用所述特征融合网络将所述第一特征输出与所述第二特征输出 进行融合,得到融合后的特征;将所述融合后的特征输入至所述第二降噪网 络,获得所述第二掩蔽矩阵。
可选地,所述带噪语音信号包括时域带噪语音信号、频域带噪语音信号 中的一种,所述带噪语音信号包括单通道、多通道带噪语音信号中的一种。
可选地,在所述带噪语音信号是时域带噪语音信号的情况下,
所述基于所述带噪语音信号利用所述第一降噪模型获得第一掩蔽矩阵, 并且基于所述第一掩蔽矩阵和所述带噪语音信号获得所述第一降噪信号,包 括:基于所述带噪语音信号对应的带噪语音频谱利用所述第一降噪模型获得 所述第一掩蔽矩阵,通过将所述第一掩蔽矩阵与所述带噪语音频谱相乘来获 得第一频谱,并且对所述第一频谱执行逆傅里叶变换来获得所述第一降噪信 号;
所述基于所述第一降噪信号利用所述第二降噪模型获得第二掩蔽矩阵, 并且基于所述第二掩蔽矩阵和所述第一降噪信号来获得所述第二降噪信号, 包括:基于与所述第一降噪信号对应的第一频谱利用所述第二降噪模型获得 所述第二掩蔽矩阵,通过将所述第二掩蔽矩阵与所述第一频谱相乘来获得第 二频谱,并且对所述第二频谱执行逆傅里叶变换来获得所述第二降噪信号。
可选地,所述语音处理装置还包括:降噪信号输出单元,被配置为:当 接收到第一信号输出指令时,输出所述第一降噪信号;当接收到第二信号输 出指令时,输出所述第二降噪信号。
根据本公开实施例的第四方面,提供了一种语音处理装置,所述语音处 理装置包括:信号获取单元,被配置为获取带噪语音信号,其中,所述带噪 语音信号包括语音信号、稳态噪声信号和非稳态噪声信号;训练单元,被配 置为:利用语音降噪模型中包括的第一降噪模型对所述带噪语音信号执行用 于去除稳态噪声信号的第一降噪处理来获得第一降噪信号;利用所述语音降 噪模型中包括的第二降噪模型对所述第一降噪信号执行用于去除非稳态噪声 信号的第二降噪处理来获得第二降噪信号;根据所述带噪语音信号、所述第一降噪信号和所述第二降噪信号利用损失函数调整所述语音降噪模型的参数。
可选地,所述损失函数是与所述第一降噪模型对应的第一损失函数和与 所述第二降噪模型对应的第二损失函数的加权和。
可选地,所述根据所述带噪语音信号、所述第一降噪信号和所述第二降 噪信号利用损失函数调整所述语音降噪模型的参数,包括:根据所述语音信 号和所述非稳态噪声信号之和以及所述第一降噪信号计算所述第一损失函数 的值;根据所述语音信号与所述第二降噪信号计算所述第二损失函数的值; 将所述第一损失函数的值与所述第二损失函数的值进行加权求和来计算所述 损失函数的值,并根据所述损失函数的值调整所述第一降噪模型和所述第二 降噪模型的参数。
可选地,所述根据所述带噪语音信号、所述第一降噪信号和所述第二降 噪信号利用损失函数调整所述语音降噪模型的参数,包括:
在将所述第一损失函数的权重设置为第一预设权重值并将所述第二损失 函数的权重设置为第二预设权重值的情况下,将所述第一损失函数的值与所 述第二损失函数的值进行加权求和来计算所述损失函数的值,并根据所述损 失函数的值调整所述第一降噪模型的参数,其中,所述第一预设权重值与所 述第二预设权重值的和为1;
在所述第一降噪模型的参数确定的情况下,重新设置所述第一损失函数 和所述第二损失函数的权重来更新所述损失函数,并利用更新后的损失函数 调整所述第二降噪模型的参数。
可选地,所述利用语音降噪模型中包括的第一降噪模型对所述带噪语音 信号执行用于去除稳态噪声信号的第一降噪处理来获得第一降噪信号,包括: 基于所述带噪语音信号利用所述第一降噪模型获得第一掩蔽矩阵,并且基于 所述第一掩蔽矩阵和所述带噪语音信号获得所述第一降噪信号,
其中,所述利用所述语音降噪模型中包括的第二降噪模型对所述第一降 噪信号执行用于去除非稳态噪声信号的第二降噪处理来获得第二降噪信号, 包括:基于所述第一降噪信号利用所述第二降噪模型获得第二掩蔽矩阵,并 且基于所述第二掩蔽矩阵和所述第一降噪信号来获得所述第二降噪信号。
可选地,所述第一降噪模型包括第一特征提取网络和第一降噪网络,其 中,所述基于所述带噪语音信号利用所述第一降噪模型获得第一掩蔽矩阵, 包括:利用所述第一特征提取网络提取所述带噪语音信号的特征,得到第一 特征输出;将所述第一特征输出输入至所述第一降噪网络,获得所述第一掩 蔽矩阵。
可选地,所述第二降噪模型包括第二特征提取网络和第二降噪网络,其 中,所述基于所述第一降噪信号利用所述第二降噪模型获得第二掩蔽矩阵, 包括:利用所述第二特征提取网络提取所述第一降噪信号的特征,得到第二 特征输出;将所述第二特征输出输入至所述第二降噪网络,获得所述第二掩 蔽矩阵。
可选地,所述第二降噪模型包括第二特征提取网络、特征融合网络和第 二降噪网络,其中,所述基于所述第一降噪信号利用所述第二降噪模型获得 第二掩蔽矩阵,包括:利用所述第二特征提取网络提取所述第一降噪信号的 特征,得到第二特征输出;利用所述特征融合网络将所述第一特征输出与所 述第二特征输出进行融合,得到融合后的特征;将所述融合后的特征输入至 所述第二降噪网络,获得所述第二掩蔽矩阵。
根据本公开实施例的第五方面,提供了一种电子设备,其特征在于,包 括:至少一个处理器;至少一个存储计算机可执行指令的存储器,其中,所 述计算机可执行指令在被所述至少一个处理器运行时,促使所述至少一个处 理器执行如上所述的语音处理方法。
根据本公开实施例的第六方面,提供了一种存储指令的计算机可读存储 介质,其特征在于,当所述指令被至少一个处理器运行时,促使所述至少一 个处理器执行如上所述的语音处理方法。
根据本公开实施例的第七方面,提供了一种计算机程序产品,包括计算 机指令,其特征在于,所述计算机指令被处理器执行时实现如上所述的语音 处理方法。
本公开的实施例提供的技术方案至少带来以下有益效果:
根据本公开实施例的语音处理方法,通过对所述带噪语音信号执行用于 去除稳态噪声信号的第一降噪处理,获得第一降噪信号,并且通过对第一降 噪信号执行用于去除非稳态噪声信号的第二降噪处理,获得第二降噪信号, 由于分阶段地进行降噪处理并且有效利用了稳态降噪(上述第一降噪处理) 和正常语音降噪(上述第二降噪处理)的关系(即,稳态降噪可以作为正常 语音降噪的前置处理),使得可以在满足正常语音降噪和稳态降噪的不同需求 的情况下以较低的计算复杂度提供较好的降噪效果。
根据本公开实施例的语音处理方法,利用第一降噪模型对所述带噪语音 信号执行用于去除稳态噪声信号的第一降噪处理来获得第一降噪信号,利用 第二降噪模型对第一降噪信号执行用于去除非稳态噪声信号的第二降噪处理 来获得第二降噪信号,并且根据所述带噪语音信号、第一降噪信号和第二降 噪信号利用损失函数调整所述语音降噪模型调整模型的参数,由于分阶段地 进行降噪处理并且有效利用了稳态降噪(上述第一降噪处理)和正常语音降 噪(上述第二降噪处理)的关系(即,稳态降噪可以作为正常语音降噪的前 置处理),因此,可以训练出能够在满足正常语音降噪和稳态降噪的不同需求 的情况下以较低的计算复杂度提供较好的降噪效果的语音降噪模型。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性 的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公 开的示例实施例,并与说明书一起用于解释本公开的原理,并不构成对本公 开的不当限定。
图1是本公开的示例性实施例可以应用于其中的示例性系统架构;
图2是示出本公开示例性实施例的分阶段语音降噪框架的示意图;
图3是本公开示例性实施例的语音处理方法的流程图;
图4是示出本公开示例性实施例的语音处理方法的示意图;
图5是本公开另一示例性实施例的语音处理方法的示意图;
图6是本公开另一示例性实施例的语音处理方法的流程图;
图7是本公开示例性实施例的语音处理装置的框图;
图8是示出本公开另一示例性实施例的语音处理装置的框图;
图9是根据本公开示例性实施例的电子设备的框图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图, 对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第 一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次 序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公 开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下实施 例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它 们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和 方法的例子。
在此需要说明的是,在本公开中出现的“若干项之中的至少一项”均表示 包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项 的全体”这三类并列的情况。例如“包括A和B之中的至少一个”即包括如下 三种并列的情况:(1)包括A;(2)包括B;(3)包括A和B。又例如“执行 步骤一和步骤二之中的至少一个”,即表示如下三种并列的情况:(1)执行步 骤一;(2)执行步骤二;(3)执行步骤一和步骤二。
图1示出了本公开的示例性实施例可以应用于其中的示例性系统架构 100。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104 和服务器105。网络104用以在终端设备101、102、103和服务器105之间 提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通 信链路或者光纤电缆等等。用户可以使用终端设备101、102、103通过网络 104与服务器105交互,以接收或发送消息(例如视频数据上传请求、视频 数据下载请求)等。终端设备101、102、103上可以安装有各种通讯客户端 应用,例如音视频通信软件、音视频录制软件、即使通信软件、会议软件、 邮箱客户端、社交平台软件等。终端设备101、102、103可以是硬件,也可 以是软件。当终端设备101、102、103为硬件时,可以是具有显示屏并且能 够进行音视频播放、录制、编辑等的各种电子设备,包括但不限于智能手机、 平板电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时,可以安装在上述所列举的电子设备中,其可以实现成多个软件或 软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块。在 此不做具体限定。
终端设备101、102、103可以安装有图像采集装置(例如摄像头),以采集 视频数据。实践中,组成视频的最小视觉单位是帧(Frame)。每一帧是一幅静 态的图像。将时间上连续的帧序列合成到一起便形成动态视频。此外,终端 设备101、102、103也可以安装有用于将电信号转换为声音的组件(例如扬 声器)以播放声音,并且还可以安装有用于将模拟音频信号转换为数字音频 信号的装置(例如,麦克风)以采集声音。另外,终端设备101、102、103 之间可彼此进行语音通信或视频通信。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、 103上所安装的多媒体应用提供支持的后台服务器。后台服务器可以对所接 收到的音视频数据上传请求等数据进行解析、存储等处理,并且还可以接收 终端设备101、102、103所发送的音视频数据下载请求,并将该音视频数据 下载请求所指示的音视频数据反馈至终端设备101、102、103。
需要说明的是,服务器可以是硬件,也可以是软件。当服务器为硬件时, 可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。 当服务器为软件时,可以实现成多个软件或软件模块(例如用来提供分布式 服务),也可以实现成单个软件或软件模块。在此不做具体限定。
需要说明的是,本公开实施例所提供的语音处理方法通常由终端设备执 行,但是也可由服务器执行,或者也可以由终端设备和服务器协作执行。相 应地,语音处理装置可设置在终端设备中、服务器中或者设置在终端设备和 服务器两者中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。 根据实现需要,可以具有任意数目的终端设备、网络和服务器,本公开对此 并无限制。
为满足短视频场景中对于正常语音降噪和稳态降噪的需求,本文提出一 种分阶段的语音降噪解决方案。在第一阶段中,去除音频中的平稳噪声成分, 实现稳态降噪的目的。第二阶段,基于稳态降噪的结果,进一步去除音频中 的非稳态部分,实现正常降噪目的。通过这分阶段的降噪处理,不仅可以很 好满足短视频场景的对于正常语音降噪和稳态降噪的需求,而且由于有效地 利用了稳态降噪和正常语音降噪的关系(即稳态降噪可以作为正常语音降噪 的前置处理),从而能够以较低的计算复杂度提供较好的语音降噪效果。
下面,将参照图2至图5对本公开示例性实施例的语音处理方法进行描 述。
图2是示出本公开示例性实施例的分阶段语音降噪框架的示意图。如图 2所示,可首先输入原始带噪语音信号,其中包括非稳态的语音信号、非稳 态噪声信号、稳态噪声信号。经过第一阶段的稳态降噪后,系统去除稳态噪 声成分,输出非稳态信号(包括语音和非稳态噪声)。第二阶段的非稳态降噪 去除非稳态噪声,最后输出干净语音。
图3是本公开示例性实施例的语音处理方法的流程图。
参照图3,在步骤S310,获取带噪语音信号。这里,所述带噪语音信号 包括语音信号、稳态噪声信号和非稳态噪声信号。这里,所述带噪语音信号 可以包括时域带噪语音信号、频域带噪语音信号中的一种,并且所述带噪语 音信号可以包括单通道、多通道带噪语音信号中的一种,本公开对此并无限 制。另外,稳态噪声信号可以是带噪语音信号中平稳的噪声成分,例如,白 噪声,风声,雨声,汽车胎噪,空调声,电灯电流声等等。非稳态噪声信号 可以是带噪语音信号中非平稳的噪声成分,即,瞬时噪声,例如,哭声,咀 嚼声,键盘声,敲击声,关门声等等。
在步骤S320,通过对所述带噪语音信号执行用于去除稳态噪声信号的第 一降噪处理,获得第一降噪信号。这里,第一降噪处理是稳态降噪。可采用 各种稳态降噪方式来执行第一降噪处理。步骤S320对应于图2的第一阶段的 稳态降噪。
在步骤S330,通过对第一降噪信号执行用于去除非稳态噪声信号的第二 降噪处理,获得第二降噪信号。这里,第二降噪处理是非稳态降噪。可采用 各种非稳态降噪方式来执行第二降噪处理。步骤S330对应于图2的第二阶段 的非稳态降噪。
根据上述语音处理方法,通过对所述带噪语音信号执行用于去除稳态噪 声信号的第一降噪处理,获得第一降噪信号,并且通过对第一降噪信号执行 用于去除非稳态噪声信号的第二降噪处理,获得第二降噪信号,由于分阶段 地进行降噪处理并且有效利用了稳态降噪(上述第一降噪处理)和正常语音 降噪(上述第二降噪处理)的关系(即,稳态降噪可以作为正常语音降噪的 前置处理),使得可以在满足正常语音降噪和稳态降噪的不同需求的情况下以 较低的计算复杂度提供较好的降噪效果。
稳态降噪和非稳态降噪阶段可以使用各种不同的语音降噪方式。根据本 公开示例性实施例,可以使用语音降噪模型执行第一降噪处理和第二降噪处 理,其中,所述语音降噪模型包括用于执行第一降噪处理的第一降噪模型和 用于执行第二降噪处理的第二降噪模型,第二降噪模型基于第一降噪模型的 输出信号来获得第二降噪信号。这里,语音降噪模型可以基于深度神经网络 模型,但不限于此。另外,所述输出信号可以是矩阵信号,但不限于此。在 利用上述语音降噪模型执行降噪处理的情况下,具体地,例如,图3所示的 步骤S320可以包括:基于所述带噪语音信号利用第一降噪模型获得第一掩蔽 矩阵,并且基于第一掩蔽矩阵和所述带噪语音信号获得第一降噪信号。图3 所示的步骤S330可以包括:基于第一降噪信号利用第二降噪模型获得第二掩 蔽矩阵,并且基于第二掩蔽矩阵和第一降噪信号来获得第二降噪信号。
图4是示出本公开示例性实施例的语音处理方法的示意图。下面结合图 4对上述步骤S320和步骤S330的具体操作细节进行介绍。
如上所述,所述带噪语音信号可以是时域带噪语音信号。如图4所示, 在所述带噪语音信号是时域带噪语音信号的情况下,上述基于所述带噪语音 信号利用第一降噪模型获得第一掩蔽矩阵,并且基于第一掩蔽矩阵和所述带 噪语音信号获得第一降噪信号,包括:基于所述带噪语音信号对应的带噪语 音频谱利用第一降噪模型获得第一掩蔽矩阵,通过将第一掩蔽矩阵与所述带 噪语音频谱相乘来获得第一频谱,并且对所述第一频谱执行逆傅里叶变换来 获得第一降噪信号。此外,在所述带噪语音信号是时域带噪语音信号的情况 下,上述基于第一降噪信号利用第二降噪模型获得第二掩蔽矩阵,并且基于 第二掩蔽矩阵和第一降噪信号来获得第二降噪信号,包括:基于与第一降噪 信号对应的第一频谱利用第二降噪模型获得第二掩蔽矩阵,通过将第二掩蔽 矩阵与所述第一频谱相乘来获得第二频谱,并且对所述第二频谱执行逆傅里 叶变换来获得第二降噪信号。作为示例,可以通过对所述带噪语音信号执行 短时傅里叶变换(STFT)来得到上述带噪语音频谱,相应地,上述逆傅里叶 变换可以是短时逆傅里叶变换(ISTFT)。
此外,如图4所示,第一降噪模型可以包括第一特征提取网络和第一降 噪网络。在这种情况下,上述基于所述带噪语音信号利用第一降噪模型获得 第一掩蔽矩阵可以包括:利用第一特征提取网络提取所述带噪语音信号的特 征,得到第一特征输出;将第一特征输出输入至第一降噪网络,获得第一掩 蔽矩阵。另外,如图4所示,第二降噪模型包括第二特征提取网络和第二降 噪网络,在这种情况下,上述基于第一降噪信号利用第二降噪模型获得第二 掩蔽矩阵,可以包括:利用第二特征提取网络提取第一降噪信号的特征,得 到第二特征输出;将第二特征输出输入至第二降噪网络,获得第二掩蔽矩阵。
作为示例,上述特征提取网络可以由多层CNN卷积网络构成,其用于提 取信号的局部特征信息。此外,作为示例,上述降噪网络可以由多层循环神 经网络和全连接网络构成,循环神经网络用于对信号进行全局建模,最后通 过全连接网络得到对应的掩蔽矩阵。
然而,第一降噪模型和第二降噪模型的结构不限于以上示例。在图4所 示的示例中,第一降噪模型(也可被称为“稳态降噪网络”或“非稳态降噪 模型”)和第二降噪模型(也可被称为“非稳态降噪网络”或“非稳态降噪模 型”)相对独立,然而,根据本公开另一示例性实施例,可以将稳态降噪的特 征网络输出和非稳态降噪的特征网络输出结合,使得非稳态降噪网络可以利 用原始输入信号的特征信息,进一步提升降噪效果。
图5是本公开另一示例性实施例的语音处理方法的示意图。与图4所示 的语音处理方法不同,在图5中,第二降噪模型包括第二特征提取网络、特 征融合网络和第二降噪网络。此外,上述基于第一降噪信号利用第二降噪模 型获得第二掩蔽矩阵,可以包括:利用第二特征提取网络提取第一降噪信号 的特征,得到第二特征输出;利用所述特征融合网络将第一特征输出与第二 特征输出进行融合,得到融合后的特征;将所述融合后的特征输入至第二降 噪网络,获得第二掩蔽矩阵。作为示例,特征融合网络可以通过特征相加或 特征拼接来对第一特征输出和第二特征输出进行融合来得到融合后的特征, 然而,本公开对特征进行融合的方式不限于此。
此外,根据本公开各种示例性实施例的语音处理方法还可包括:当接收 到第一信号输出指令时,输出第一降噪信号;当接收到第二信号输出指令时, 输出第二降噪信号。由此,使得可以根据用户不同的降噪需求来输出第一降 噪信号或第二降噪信号。
以上,已经结合图2至图5对根据本公开实施例的语音处理方法进行了 描述。如在上文中提及的,可以利用语音降噪模型来执行第一降噪处理和第 二降噪处理。在上文中,语音降噪模型是预先已经训练好的模型。下面,对 语音降噪模型的训练进行简要描述。
图6是本公开另一示例性实施例的语音处理方法的流程图。参照图6, 在步骤S610,获取带噪语音信号。与图2至图5的描述中提及的带噪语音信 号不同,这里的带噪语音信号是用于训练的带噪语音信号。所述带噪语音信 号可以包括语音信号、稳态噪声信号和非稳态噪声信号。语音信号是干净语 音。在获取带噪语音信号时(即,训练数据生成阶段),可以将干净语音和非 稳态噪声相加,得到目标非稳态信号,并且可以将目标非稳态信号和稳态噪 声相加来得到上述带噪语音信号。训练数据生成时需要将噪声分为稳态和非稳态两种,通常稳态噪声可以是白噪声,风声,雨声,汽车胎噪,空调声, 电灯电流声等,非稳态噪声可以是哭声,咀嚼声,键盘声,敲击声,关门声 等。
接下来,在步骤S620,利用语音降噪模型中包括的第一降噪模型对所述 带噪语音信号执行用于去除稳态噪声信号的第一降噪处理来获得第一降噪信 号。具体地,例如,可以基于所述带噪语音信号利用第一降噪模型获得第一 掩蔽矩阵,并且基于第一掩蔽矩阵和所述带噪语音信号获得第一降噪信号。 在图2至图5的描述中已经描述了与基于所述带噪语音信号利用第一降噪模 型获得第一掩蔽矩阵并且基于第一掩蔽矩阵和所述带噪语音信号获得第一降 噪信号相关的技术细节,所不同的仅是这里的带噪语音信号是用于训练的带 噪语音信号,并且这里的第一降噪模型是待训练的模型,因此,这里不再赘 述其细节。
随后,在步骤S630,利用所述语音降噪模型中包括的第二降噪模型对第 一降噪信号执行用于去除非稳态噪声信号的第二降噪处理来获得第二降噪信 号。具体地,例如,可以基于第一降噪信号利用第二降噪模型获得第二掩蔽 矩阵,并且基于第二掩蔽矩阵和第一降噪信号来获得第二降噪信号。在图2 至图5的描述中已经描述了与基于第一降噪信号利用第二降噪模型获得第二 掩蔽矩阵并且基于第二掩蔽矩阵和第一降噪信号来获得第二降噪信号相关的 技术细节,所不同的仅是这里的第一降噪模型和第二降噪模型是待训练的模 型,因此,这里不再赘述其细节。
另外,如在上文中提及的,第一降噪模型可以包括第一特征提取网络和 第一降噪网络,并且上述基于所述带噪语音信号利用第一降噪模型获得第一 掩蔽矩阵,可以包括:利用第一特征提取网络提取所述带噪语音信号的特征, 得到第一特征输出;将第一特征输出输入至第一降噪网络,获得第一掩蔽矩 阵。
此外,第二降噪模型可以包括第二特征提取网络和第二降噪网络,并且 上述基于第一降噪信号利用第二降噪模型获得第二掩蔽矩阵,可以包括:利 用第二特征提取网络提取第一降噪信号的特征,得到第二特征输出;将第二 特征输出输入至第二降噪网络,获得第二掩蔽矩阵。
根据另一示例性实施例,第二降噪模型可以包括第二特征提取网络、特 征融合网络和第二降噪网络,在这种情况下,上述基于第一降噪信号利用第 二降噪模型获得第二掩蔽矩阵,可以包括:利用第二特征提取网络提取第一 降噪信号的特征,得到第二特征输出;利用所述特征融合网络将第一特征输 出与第二特征输出进行融合,得到融合后的特征;将所述融合后的特征输入 至第二降噪网络,获得第二掩蔽矩阵。
另外,需要说明的是,以上在参照图2至图5的描述中所提及的与利用 第一降噪模型执行第一降噪处理以及与利用第二降噪模型执行第二降噪处理 有关的任何细节均适用于图6,不同之处仅是这里的第一降噪模型和第二降 噪模型是待训练的模型,而非已经训练好的模型。
最后,在步骤S640,根据所述带噪语音信号、所述第一降噪信号和所述 第二降噪信号利用损失函数调整所述语音降噪模型的参数。
如上所述,训练过程中,输入带噪语音信号,经过第一阶段的稳态降噪 网络(即,上述第一降噪模型)和第二阶段的非稳态降噪网络(即,上述第 二降噪模型),可以分别得到两个任务对应的目标掩蔽矩阵(即,上述第一掩 蔽矩阵和第二掩蔽矩阵),然后可基于两个阶段的输入信号与目标掩蔽矩阵得 到对应的降噪信号,例如,将目标掩蔽矩阵与输入信号的输入频谱相乘得到 对应的降噪信号。比如,第一阶段的输入频谱可以是带噪语音频谱,将带噪 语音频谱与第一掩蔽矩阵相乘可以得到第一频谱,通过对第一频谱执行逆傅里叶变换可以得到第一降噪信号。第二阶段的输入频谱可以是第一频谱,将 第一频谱与第二掩蔽矩阵相乘可以得到第二频谱,通过对第二频谱执行逆傅 里叶变换可以得到第二降噪信号。随后,可根据降噪信号和真实目标信号计 算损失函数的值,以最小化损失函数为目标,更新模型参数直至模型收敛。 具体地,第一阶段的真实目标信号是以上提及的语音信号和非稳态噪声信号 之和(即,这两者的加和),第二阶段的真实目标信号是以上提及的语音信号。
根据示例性实施例,所述损失函数是与第一降噪模型对应的第一损失函 数和与第二降噪模型对应的第二损失函数的加权和。具体地,根据所述带噪 语音信号、所述第一降噪信号和所述第二降噪信号利用损失函数调整所述语 音降噪模型的参数,可以包括:根据所述语音信号和所述非稳态噪声信号之 和以及第一降噪信号计算第一损失函数的值;根据所述语音信号与第二降噪 信号计算第二损失函数的值;将第一损失函数的值与第二损失函数的值进行 加权求和来计算所述损失函数的值,并根据所述损失函数的值调整第一降噪 模型和第二降噪模型的参数。
例如,上述损失函数(即,总的损失函数)可以被表示如下:
lossall=α1L12L2
其中,L1为第一阶段稳态降噪的损失函数(即,上述第一损失函数),L2为 第二阶段非稳态降噪的损失函数(即,上述第二损失函数),α1和α2为两个阶 段分别对应的损失函数权重。例如,α1=α2=0.5。
作为示例,一种典型的损失函数可以是估计信号频谱和真实信号频谱的 均方误差(MSE):
Li=mean(|Yi·Mi-Xi|2)
在以上公式中,i表示降噪阶段,Yi是第i阶段降噪的输入信号的频谱,Mi是第i阶段降噪得到的目标掩蔽矩阵,Xi是第i阶段降噪的真实目标信号的频 谱。对于第一阶段损失函数L1,Y1表示带噪语音频谱,M1表示第一掩蔽矩阵, X1表示真实的非稳态信号的频谱(即,通过语音信号和非稳态噪声信号相加 所得到的信号的频谱)。对于第二阶段损失函数L2,Y2表示上述第一频谱,M2表 示第二掩蔽矩阵,X2表示真实的语音信号的频谱。
此外,在训练过程中,既可以两个模型同时训练。也可以先训练稳态降 噪模型(例如,α1=1,α2=0),等稳态降噪模型收敛之后,再训练非稳态 降噪模型(例如,α1=0.1,α2=0.9,但不限于此)。因此,根据示例性实 施例,根据所述带噪语音信号、所述第一降噪信号和所述第二降噪信号利用 损失函数调整所述语音降噪模型调整模型的参数,可以包括:在将第一损失 函数的权重设置为第一预设权重值并将第二损失函数的权重设置为第二预设权重值的情况下,将第一损失函数的值与第二损失函数的值进行加权求和来 计算所述损失函数的值,并根据所述损失函数的值调整第一降噪模型的参数; 在第一降噪模型的参数确定的情况下,重新设置第一损失函数和第二损失函 数的权重来更新所述损失函数,并利用更新后的损失函数调整第二降噪模型 的参数。这里,第一预设权重值与第二预设权重值的和为1。作为示例,第 一预设权重值可以为1,第二预设权重值可以为0。需要说明的是,在利用更 新后的损失函数调整第二降噪模型的参数时使用训练好的第一降噪模型(即, 模型的参数已经确定的第一降噪模型)获得第一掩蔽矩阵。
在模型测试阶段,对于稳态降噪的场景,只需运行第一降噪模型,减小 系统的复杂度。对于正常降噪场景,则需要运行第一降噪模型和第二降噪模 型两者。
根据上述语音处理方法,利用第一降噪模型对所述带噪语音信号执行用 于去除稳态噪声信号的第一降噪处理来获得第一降噪信号,利用第二降噪模 型对第一降噪信号执行用于去除非稳态噪声信号的第二降噪处理来获得第二 降噪信号,并且根据所述带噪语音信号、第一降噪信号和第二降噪信号利用 损失函数调整所述语音降噪模型调整模型的参数,由于分阶段地进行降噪处 理并且有效利用了稳态降噪(上述第一降噪处理)和正常语音降噪(上述第 二降噪处理)的关系(即,稳态降噪可以作为正常语音降噪的前置处理),因 此,可以训练出能够在满足正常语音降噪和稳态降噪的不同需求的情况下以 较低的计算复杂度提供较好的降噪效果的语音降噪模型。
总体上,本发明将语音降噪分成稳态降噪和非稳态降噪两个阶段。一方 面通过这种拆分方式,很好地满足了短视频场景对于正常降噪和稳态降噪的 需求。另外一方面,通过将一个复杂任务分为两个串联的子任务,可以对每 个阶段进行更好地优化,从而在降低复杂度的同时提升降噪效果。
以上,已经对本公开示例性实施例的语音处理方法进行了描述,下面参 照图7和图8对本公开示例性实施例的语音处理装置进行简要描述。
图7是本公开示例性实施例的语音处理装置的框图。
参照图7,语音处理装置700可包括信号获取单元710、第一降噪单元 720和第二降噪单元730。具体地,信号获取单元710可被配置为获取带噪语 音信号。这里,所述带噪语音信号包括语音信号、稳态噪声信号和非稳态噪 声信号。第一降噪单元720可被配置为通过对所述带噪语音信号执行用于去 除稳态噪声信号的第一降噪处理,获得第一降噪信号。第二降噪单元730可 被配置为通过对第一降噪信号执行用于去除非稳态噪声信号的第二降噪处理, 获得第二降噪信号。根据示例性实施例,可以使用语音降噪模型执行第一降 噪处理和第二降噪处理,所述语音降噪模型可以包括用于执行第一降噪处理 的第一降噪模型和用于执行第二降噪处理的第二降噪模型,并且第二降噪模 型基于第一降噪模型的输出信号来获得第二降噪信号。由于图3所示的语音 处理方法可由图7所示的语音处理装置700来执行,并且信号获取单元710、 第一降噪单元720和第二降噪单元730可分别执行与图3中的步骤S310、步 骤S320和步骤S330对应的操作,因此,关于图7中的各单元所执行的操作中涉及的任何相关细节均可参见关于图3至图5的相应描述,这里都不再赘 述。
可选地,根据示例性实施例,语音处理装置700还包括降噪信号输出单 元(图7中未示出)。降噪输出单元可被配置为:当接收到第一信号输出指令 时,输出第一降噪信号;当接收到第二信号输出指令时,输出第二降噪信号。
此外,需要说明的是,尽管以上在介绍语音处理装置700时将其划分为 用于分别执行相应处理的单元,然而,本领域技术人员清楚的是,上述各单 元执行的处理也可以在语音处理装置700不进行任何具体单元划分或者各单 元之间并无明确划界的情况下执行。此外,语音处理装置700还可包括其他 单元,例如,存储单元等。
图8是示出本公开另一示例性实施例的语音处理装置的框图。
参照图8,语音处理装置800可包括信号获取单元810和训练单元820。 具体地,信号获取单元810可被配置为获取带噪语音信号,其中,所述带噪 语音信号包括语音信号、稳态噪声信号和非稳态噪声信号。训练单元820可 被配置为:利用语音降噪模型中包括的第一降噪模型对所述带噪语音信号执 行用于去除稳态噪声信号的第一降噪处理来获得第一降噪信号;利用所述语 音降噪模型中包括的第二降噪模型对第一降噪信号执行用于去除非稳态噪声 信号的第二降噪处理来获得第二降噪信号;根据所述带噪语音信号、第一降噪信号和第二降噪信号利用损失函数调整所述语音降噪模型的参数。
由于图6所示的语音处理方法可由图8所示的语音处理装置800来执行, 并且信号获取单元810执行与图6中的步骤S610对应的操作,训练单元820 执行与图6中的步骤S620至S640对应的操作,因此,关于图8中的各单元 所执行的操作中涉及的任何相关细节均可参见关于图6的相应描述,这里都 不再赘述。
此外,需要说明的是,尽管以上在介绍语音处理装置800时将其划分为 用于分别执行相应处理的单元,然而,本领域技术人员清楚的是,上述各单 元执行的处理也可以在语音处理装置800不进行任何具体单元划分或者各单 元之间并无明确划界的情况下执行。此外,语音处理装置800还可包括其他 单元,例如,存储单元等。
图9是根据本公开示例性实施例的电子设备的框图。
参照图9,电子设备900可包括至少一个存储器901和至少一个处理器 902,所述至少一个存储器存储计算机可执行指令,计算机可执行指令在被至 少一个处理器执行时,促使至少一个处理器902执行根据本公开实施例的语 音处理方法。
作为示例,电子设备可以是PC计算机、平板装置、个人数字助理、智 能手机、或其他能够执行上述指令集合的装置。这里,电子设备并非必须是 单个的电子设备,还可以是任何能够单独或联合执行上述指令(或指令集) 的装置或电路的集合体。电子设备还可以是集成控制系统或系统管理器的一 部分,或者可被配置为与本地或远程(例如,经由无线传输)以接口互联的 便携式电子设备。
在电子设备中,处理器可包括中央处理器(CPU)、图形处理器(GPU)、 可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限 制,处理器还可包括模拟处理器、数字处理器、微处理器、多核处理器、处 理器阵列、网络处理器等。
处理器可运行存储在存储器中的指令或代码,其中,存储器还可以存储 数据。指令和数据还可经由网络接口装置而通过网络被发送和接收,其中, 网络接口装置可采用任何已知的传输协议。
存储器可与处理器集成为一体,例如,将RAM或闪存布置在集成电路 微处理器等之内。此外,存储器可包括独立的装置,诸如,外部盘驱动、存 储阵列或任何数据库系统可使用的其他存储装置。存储器和处理器可在操作 上进行耦合,或者可例如通过I/O端口、网络连接等互相通信,使得处理器 能够读取存储在存储器中的文件。
此外,电子设备还可包括视频显示器(诸如,液晶显示器)和用户交互 接口(诸如,键盘、鼠标、触摸输入装置等)。电子设备的所有组件可经由总 线和/或网络而彼此连接。
根据本公开的实施例,还可提供一种存储指令的计算机可读存储介质, 其中,当所述指令由至少一个处理器执行时,促使所述至少一个处理器执行 根据本公开示例性实施例的语音处理方法。这里的计算机可读存储介质的示 例包括:只读存储器(ROM)、随机存取可编程只读存储器(PROM)、电可 擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存 取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、 DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、 BD-RE、蓝光或光盘存储器、硬盘驱动器(HDD)、固态硬盘(SSD)、卡式 存储器(诸如,多媒体卡、安全数字(SD)卡或极速数字(XD)卡)、磁带、 软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他 装置,所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何 相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的 数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执 行所述计算机程序。上述计算机可读存储介质中的指令或计算机程序可在诸 如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行,此 外,在一个示例中,计算机程序以及任何相关联的数据、数据文件和数据结 构分布在联网的计算机系统上,使得计算机程序以及任何相关联的数据、数 据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问 和执行。
根据本公开的实施例中,还可提供一种计算机程序产品,该计算机程序 包括计算机指令,所述计算机指令被处理器执行时实现根据本公开示例性实 施例的语音处理方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本 公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性 变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公 开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被 视为示例性的,本公开的真正范围和精神由权利要求限定。

Claims (10)

1.一种语音处理方法,其特征在于,包括:
获取带噪语音信号,其中,所述带噪语音信号包括语音信号、稳态噪声信号和非稳态噪声信号;
通过对所述带噪语音信号执行用于去除稳态噪声信号的第一降噪处理,获得第一降噪信号;
通过对所述第一降噪信号执行用于去除非稳态噪声信号的第二降噪处理,获得第二降噪信号。
2.如权利要求1所述的语音处理方法,其特征在于,使用语音降噪模型执行第一降噪处理和第二降噪处理,其中,所述语音降噪模型包括用于执行第一降噪处理的第一降噪模型和用于执行第二降噪处理的第二降噪模型,所述第二降噪模型基于所述第一降噪模型的输出信号来获得所述第二降噪信号。
3.如权利要求2所述的语音处理方法,其特征在于,
所述通过对所述带噪语音信号执行用于去除稳态噪声信号的第一降噪处理,获得第一降噪信号,包括:基于所述带噪语音信号利用所述第一降噪模型获得第一掩蔽矩阵,并且基于所述第一掩蔽矩阵和所述带噪语音信号获得所述第一降噪信号,
所述通过对所述第一降噪信号执行用于去除非稳态噪声信号的第二降噪处理,获得第二降噪信号,包括:基于所述第一降噪信号利用所述第二降噪模型获得第二掩蔽矩阵,并且基于所述第二掩蔽矩阵和所述第一降噪信号来获得所述第二降噪信号。
4.如权利要求3所述的语音处理方法,其特征在于,所述第一降噪模型包括第一特征提取网络和第一降噪网络,
所述基于所述带噪语音信号利用所述第一降噪模型获得第一掩蔽矩阵,包括:
利用所述第一特征提取网络提取所述带噪语音信号的特征,得到第一特征输出;将所述第一特征输出输入至所述第一降噪网络,获得所述第一掩蔽矩阵。
5.如权利要求4所述的语音处理方法,其特征在于,所述第二降噪模型包括第二特征提取网络和第二降噪网络,
所述基于第一降噪信号利用所述第二降噪模型获得第二掩蔽矩阵,包括:利用所述第二特征提取网络提取所述第一降噪信号的特征,得到第二特征输出;将所述第二特征输出输入至所述第二降噪网络,获得所述第二掩蔽矩阵。
6.一种语音处理方法,其特征在于,所述语音处理方法包括:
获取带噪语音信号,其中,所述带噪语音信号包括语音信号、稳态噪声信号和非稳态噪声信号;
利用语音降噪模型中包括的第一降噪模型对所述带噪语音信号执行用于去除稳态噪声信号的第一降噪处理来获得第一降噪信号;
利用所述语音降噪模型中包括的第二降噪模型对所述第一降噪信号执行用于去除非稳态噪声信号的第二降噪处理来获得第二降噪信号;
根据所述带噪语音信号、所述第一降噪信号和所述第二降噪信号利用损失函数调整所述语音降噪模型的参数。
7.一种语音处理装置,其特征在于,包括:
信号获取单元,被配置为获取带噪语音信号,其中,所述带噪语音信号包括语音信号、稳态噪声信号和非稳态噪声信号;
第一降噪单元,被配置为通过对所述带噪语音信号执行用于去除稳态噪声信号的第一降噪处理,获得第一降噪信号;
第二降噪单元,被配置为通过对所述第一降噪信号执行用于去除非稳态噪声信号的第二降噪处理,获得第二降噪信号。
8.一种语音处理装置,其特征在于,所述语音处理装置包括:
信号获取单元,被配置为获取带噪语音信号,其中,所述带噪语音信号包括语音信号、稳态噪声信号和非稳态噪声信号;
训练单元,被配置为:利用语音降噪模型中包括的第一降噪模型对所述带噪语音信号执行用于去除稳态噪声信号的第一降噪处理来获得第一降噪信号;利用所述语音降噪模型中包括的第二降噪模型对所述第一降噪信号执行用于去除非稳态噪声信号的第二降噪处理来获得第二降噪信号;根据所述带噪语音信号、所述第一降噪信号和所述第二降噪信号利用损失函数调整所述语音降噪模型的参数。
9.一种电子设备,其特征在于,包括:
至少一个处理器;
至少一个存储计算机可执行指令的存储器,
其中,所述计算机可执行指令在被所述至少一个处理器运行时,促使所述至少一个处理器执行如权利要求1到6中的任一权利要求所述的语音处理方法。
10.一种存储指令的计算机可读存储介质,其特征在于,当所述指令被至少一个处理器运行时,促使所述至少一个处理器执行如权利要求1到6中的任一权利要求所述的语音处理方法。
CN202111464844.8A 2021-12-03 2021-12-03 语音处理方法、装置、电子设备及存储介质 Pending CN114155852A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111464844.8A CN114155852A (zh) 2021-12-03 2021-12-03 语音处理方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111464844.8A CN114155852A (zh) 2021-12-03 2021-12-03 语音处理方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN114155852A true CN114155852A (zh) 2022-03-08

Family

ID=80456225

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111464844.8A Pending CN114155852A (zh) 2021-12-03 2021-12-03 语音处理方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN114155852A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115440240A (zh) * 2022-08-31 2022-12-06 恒玄科技(上海)股份有限公司 语音降噪的训练方法、语音降噪系统及语音降噪方法
WO2024029771A1 (en) * 2022-08-05 2024-02-08 Samsung Electronics Co., Ltd. Method, apparatus and computer readable medium for generating clean speech signal using speech denoising networks based on speech and noise modeling

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024029771A1 (en) * 2022-08-05 2024-02-08 Samsung Electronics Co., Ltd. Method, apparatus and computer readable medium for generating clean speech signal using speech denoising networks based on speech and noise modeling
CN115440240A (zh) * 2022-08-31 2022-12-06 恒玄科技(上海)股份有限公司 语音降噪的训练方法、语音降噪系统及语音降噪方法

Similar Documents

Publication Publication Date Title
US11812254B2 (en) Generating scene-aware audio using a neural network-based acoustic analysis
US20210343305A1 (en) Using a predictive model to automatically enhance audio having various audio quality issues
CN113436643B (zh) 语音增强模型的训练及应用方法、装置、设备及存储介质
CN114155852A (zh) 语音处理方法、装置、电子设备及存储介质
CN113241088B (zh) 语音增强模型的训练方法及装置、语音增强方法及装置
CN111883107B (zh) 语音合成、特征提取模型训练方法、装置、介质及设备
CN112116903B (zh) 语音合成模型的生成方法、装置、存储介质及电子设备
CN114121029A (zh) 语音增强模型的训练方法和装置以及语音增强方法和装置
US20230125150A1 (en) Augmentation of testing or training sets for machine learning models
CN114758668A (zh) 语音增强模型的训练方法和语音增强方法
CN113555031B (zh) 语音增强模型的训练方法及装置、语音增强方法及装置
CN113194270B (zh) 视频处理方法、装置、电子设备及存储介质
CN117059068A (zh) 语音处理方法、装置、存储介质及计算机设备
CN112423019B (zh) 调整音频播放速度的方法、装置、电子设备及存储介质
JP2020042266A (ja) ブラインド信号分離のための方法、装置及び電子デバイス
CN113707163B (zh) 语音处理方法及其装置和模型训练方法及其装置
CN113113046B (zh) 音频处理的性能检测方法、装置、存储介质及电子设备
CN113886639A (zh) 数字人视频生成方法、装置、电子设备及存储介质
CN115083440A (zh) 音频信号降噪方法、电子设备和存储介质
JP2024520985A (ja) 適応型視覚音声認識
CN113921032A (zh) 音频处理模型的训练方法及装置、音频处理方法及装置
CN114157895A (zh) 视频处理方法、装置、电子设备及存储介质
CN113744724A (zh) 一种语音转换方法、装置、设备及存储介质
WO2020087788A1 (zh) 音频处理方法和装置
CN113436644B (zh) 音质评估方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination