CN113744754A - 语音信号的增强处理方法和装置 - Google Patents

语音信号的增强处理方法和装置 Download PDF

Info

Publication number
CN113744754A
CN113744754A CN202110307449.2A CN202110307449A CN113744754A CN 113744754 A CN113744754 A CN 113744754A CN 202110307449 A CN202110307449 A CN 202110307449A CN 113744754 A CN113744754 A CN 113744754A
Authority
CN
China
Prior art keywords
amplitude spectrum
processed
frame
spectrum
statistical characteristics
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110307449.2A
Other languages
English (en)
Other versions
CN113744754B (zh
Inventor
陈泽华
吴俊仪
蔡玉玉
雪巍
杨帆
丁国宏
何晓冬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JD Digital Technology Holdings Co Ltd
Original Assignee
JD Digital Technology Holdings Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JD Digital Technology Holdings Co Ltd filed Critical JD Digital Technology Holdings Co Ltd
Priority to CN202110307449.2A priority Critical patent/CN113744754B/zh
Publication of CN113744754A publication Critical patent/CN113744754A/zh
Application granted granted Critical
Publication of CN113744754B publication Critical patent/CN113744754B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本公开涉及一种语音信号的增强处理方法和装置,涉及语音信号处理领域。该增强处理方法包括:提取待处理语音信号在时频域的幅度谱,作为待处理幅度谱,待处理语音信号中包含噪声;根据待处理语音信号的每一帧幅度谱及其相应的多帧历史幅度谱,确定待处理语音信号的幅度谱统计特征;根据待处理幅度谱、幅度谱统计特征,利用机器学习模型消除待处理幅度谱中的噪声,获取增强语音信号。

Description

语音信号的增强处理方法和装置
技术领域
本公开涉及语音信号处理领域,特别涉及一种语音信号的增强处理方法、语音信号的增强处理装置和非易失性计算机可读存储介质。
背景技术
近年来,语音识别技术的飞跃给用户带来了全新的信息输入体验。用语音输入代替传统的文本输入交互方式,提高了输入效率,降低了用户使用门槛,简化了人机交互操作过程。
目前,语音识别能力日益完善,在无噪音的环境下识别准确率高,已经达到实用标准。但是,在识别有背景噪声的语音时,准确度会有所下降。因此,对语音信号进行增强处理成为了语音识别领域的必要研究方向。
在相关技术中,在时频域上求解用于降噪的增益函数,利用该增益函数增强语音信号。
发明内容
本公开的发明人发现上述相关技术中存在如下问题:增益函数依赖于信号处理领域的专家知识,无法适应不同类型的噪声,导致语音信号增强处理的效果差。
鉴于此,本公开提出了一种语音信号的增强处理技术方案,能够提高语音信号增强处理的效果。
根据本公开的一些实施例,提供了一种语音信号的增强处理方法,包括:提取待处理语音信号在时频域的幅度谱,作为待处理幅度谱,所述待处理语音信号中包含噪声;根据所述待处理语音信号的每一帧幅度谱及其相应的多帧历史幅度谱,确定所述待处理语音信号的幅度谱统计特征;根据所述待处理幅度谱、所述幅度谱统计特征,利用机器学习模型消除所述待处理幅度谱中的噪声,获取增强语音信号。
在一些实施例中,所述根据所述待处理语音信号的每一帧幅度谱及其相应的多帧历史幅度谱,确定所述待处理语音信号的幅度谱统计特征包括:利用相应的多帧历史幅度谱,对所述每一帧幅度谱进行平滑滤波处理,确定所述幅度谱统计特征。
在一些实施例中,所述利用所述相应的多帧历史幅度谱对每一帧幅度谱进行平滑滤波处理,确定所述幅度谱统计特征包括:利用二维卷积结构,对所述每一帧幅度谱进行平滑滤波处理,确定所述幅度谱统计特征。
在一些实施例中,所述根据所述待处理语音信号的每一帧幅度谱及其相应的多帧历史幅度谱,确定所述待处理语音信号的幅度谱统计特征包括:根据所述每一帧幅度谱及其相应的多帧历史幅度谱的加权和,确定所述幅度谱统计特征。
在一些实施例中,所述根据所述待处理语音信号的每一帧幅度谱及其相应的多帧历史幅度谱,确定所述待处理语音信号的幅度谱统计特征包括:在各时间窗口内,根据所述待处理语音信号的每一帧幅度谱及其相应的多帧历史幅度谱,确定所述待处理语音信号在各时间窗口内的幅度谱统计特征。
在一些实施例中,所述根据所述待处理幅度谱、所述幅度谱统计特征,利用机器学习模型消除所述待处理幅度谱中的噪声,获取增强语音信号包括:将所述待处理幅度谱和所述幅度谱统计特征在通道维上进行拼接,生成三维特征矩阵;将所述三维特征矩阵输入所述机器学习模型,获取所述增强语音信号。
在一些实施例中,所述根据所述待处理幅度谱、所述幅度谱统计特征,利用机器学习模型消除所述待处理幅度谱中的噪声,获取增强语音信号包括:将所述待处理幅度谱、所述幅度谱统计特征输入所述机器学习模型,输出所述待处理语音信号的增强处理幅度谱;对所述增强幅度谱和提取的所述待处理语音信号在时频域的相位谱,进行逆时频变换,确定所述增强语音信号。
在一些实施例中,所述机器学习模型通过如下的方式训练:利用梯度回传方式,训练所述待处理幅度谱对于所述机器学习模型的连接权重、所述各幅度谱统计特征对于所述机器学习模型的连接权重。
根据本公开的另一些实施例,提供一种语音信号的增强处理装置,包括:提取单元,用于提取待处理语音信号在时频域的幅度谱,作为待处理幅度谱,所述待处理语音信号中包含噪声;确定单元,用于根据所述待处理语音信号的每一帧幅度谱及其相应的多帧历史幅度谱,确定所述待处理语音信号的幅度谱统计特征;消除单元,用于根据所述待处理幅度谱、所述幅度谱统计特征,利用机器学习模型消除所述待处理幅度谱中的噪声,获取增强语音信号。
在一些实施例中,所述确定单元利用相应的多帧历史幅度谱对所述每一帧幅度谱进行平滑滤波处理,确定所述幅度谱统计特征。
在一些实施例中,所述确定单元利用二维卷积结构,对所述每一帧幅度谱进行平滑滤波处理,确定所述幅度谱统计特征。
在一些实施例中,所述确定单元根据所述每一帧幅度谱及其相应的多帧历史幅度谱的加权和,确定所述幅度谱统计特征。
在一些实施例中,所述确定单元在各时间窗口内,根据所述待处理语音信号的每一帧幅度谱及其相应的多帧历史幅度谱,确定所述待处理语音信号在各时间窗口内的幅度谱统计特征。
在一些实施例中,所述消除单元将所述待处理幅度谱和所述幅度谱统计特征在通道维上进行拼接,生成三维特征矩阵,将所述三维特征矩阵输入所述机器学习模型,获取所述增强语音信号。
在一些实施例中,所述消除单元将所述待处理幅度谱、所述幅度谱统计特征输入所述机器学习模型,输出所述待处理语音信号的增强处理幅度谱,对所述增强幅度谱和提取的所述待处理语音信号在时频域的相位谱,进行逆时频变换,确定所述增强语音信号。
在一些实施例中,所述机器学习模型通过如下的方式训练:利用梯度回传方式,对所述待处理幅度谱对于所述机器学习模型的连接权重、所述各幅度谱统计特征对于所述机器学习模型的连接权重进行训练。
根据本公开的又一些实施例,提供一种语音信号的增强处理装置,包括:存储器;和耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器装置中的指令,执行上述任一个实施例中的语音信号的增强处理方法。
根据本公开的再一些实施例,提供一种非易失性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一个实施例中的语音信号的增强处理方法。
在上述实施例中,利用机器学模型学习信号与噪声之间的幅度谱统计特征差异,并基于待处理语音信号的幅度谱统计特征,消除其中的噪声。这样,可以结合噪声的时频域特征知识与机器学习技术,适应不同类型噪声的消除,从而提高语音信号增强处理的效果。
附图说明
构成说明书的一部分的附图描述了本公开的实施例,并且连同说明书一起用于解释本公开的原理。
参照附图,根据下面的详细描述,可以更加清楚地理解本公开,其中:
图1示出本公开的语音信号的增强处理方法的一些实施例的流程图;
图2示出本公开的语音信号的增强处理方法的一些实施例的示意图;
图3示出本公开的语音信号的增强处理方法的另一些实施例的示意图;
图4示出本公开的语音信号的增强处理装置的一些实施例的框图;
图5示出本公开的语音信号的增强处理装置的另一些实施例的框图;
图6示出本公开的语音信号的增强处理装置的又一些实施例的框图。
具体实施方式
现在将参照附图来详细描述本公开的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。
在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
如前所述,在非平稳噪声种类增多的情况下,基于专家知识开发增益函数的语音增强方法对噪声建模的效果会有所下降。因此,增益函数类方法的表现不如由数据驱动的深度神经网络语音增强方法。
但是,深度神经网络模型的隐藏层训练过程需要大量数据支持,导致模型效果对数据量依赖性强。当数据量较小时,深度神经网络模型可识别噪声种类较少,无法达到理想降噪效果。
也就是说,完全由数据驱动的深度神经网络模型没有融入专家知识,存在模型缺乏可解释性、模型结构优化缺乏针对性的缺点。
针对上述技术问题,本公开将专家知识与机器学习模型结合,开发了一个可以融入深度神经网络结构的ORAL(One-Parameter-Controlled Recursive Averaging Layer,仅由单参数控制的二维卷积)模块。
ORAL模块可以包含能够提升信噪比的递归平滑算法,且此模块和CNN(Convolution Neural Network,卷积神经网络)、RNN(Recurrent Neural Network,递归神经网络)、DNN(Deep Neural Network,全连接神经网络)等深度神经网络模型均能够良好结合。ORAL模块可以为这些深度神经网络模型提供信号处理领域的专家知识,从而提高语音增强效果。例如,可以通过下面的实施例实现本公开的技术方案。
图1示出本公开的语音信号的增强处理方法的一些实施例的流程图。
如图1所示,在步骤110中,提取待处理语音信号在时频域的幅度谱,作为待处理幅度谱。待处理语音信号中包含噪声。
在一些实施例中,观测到的带噪语音信号在时域产生,是一维时域信号。通过STFT(Short-Time Fourier Transform,短时傅里叶变换),可以用时频域的二维STFT复数参数来完整表达带噪语音的时域信息。此时,时域上的语音增强任务可以通过在时频域上的算法完成。
例如,待处理语音信号为y(t)=x(t)+w(t),x(t)为纯净的语音信号,w(t)为噪声。例如,可以通过STFT将y(t)变换为时频域信号Y(k,l),k为频域变量,l为时域变量(如帧序号)。提取Y(k,l)的幅度谱|Y(k,l)|2作为待处理幅度谱。
在步骤120中,根据待处理语音信号的每一帧幅度谱及其相应的多帧历史幅度谱,确定待处理语音信号的幅度谱统计特征。
在一些实施例中,利用相应的多帧历史幅度谱,对每一帧幅度谱进行平滑滤波处理,确定幅度谱统计特征。例如,对于第l帧的幅度谱,可以根据第l帧的前N帧的幅度谱对第l帧的幅度谱进行递归平滑信号处理,从而获取第l帧的幅度谱统计特征。
例如,可以利用二维卷积结构,对每一帧幅度谱进行平滑滤波处理,确定幅度谱统计特征。可以利用二维卷积结构的结构实现递归平滑信号处理,二维卷积结构能够方便地与CNN模型、RNN模型、DNN模型等的结构进行结合,从而降低技术方案的实现难度。
例如,可以根据每一帧幅度谱及其相应的多帧历史幅度谱的加权和,对每一帧幅度谱进行递归平滑信号处理,以确定幅度谱统计特征。对于第l帧的幅度谱,可以根据第l帧的幅度谱,以及第l帧的前N帧的幅度谱的加权和,确定幅度谱统计特征。
在一些实施例中,可以在各时间窗口内,根据待处理语音信号的每一帧幅度谱及其相应的多帧历史幅度谱,确定待处理语音信号在各时间窗口内的幅度谱统计特征。
例如,可以设置一个可以滑动的时间窗口,在待处理幅度谱的整个时间范围内滑动;在每次滑动的位置,确定时间窗口内的幅度谱统计特征,直到时间窗口滑动出待处理幅度谱的时间范围;根据各时间窗口内的幅度谱统计特征,确定待处理幅度谱的幅度谱统计特征。
例如,可以根据下面的公式计算时间窗口内的幅度谱统计特征:
Figure BDA0002988428680000071
D为时间窗口的宽度,即时间窗口长度为D帧(每帧10毫秒);α为根据实际需求确定的平滑因子,用于决定递归平滑算法对历史信息的利用程度;α取值范围是(0,1),例如,α可以取相对较大的值(如α=0.9)。
这样,R(k,l)中包含了历史帧的幅度谱信息,即R(k,l)能够反映幅度谱的统计特征。由于信号与噪声的统计特征具有差异性,所以可以通过机器学习模型消除待处理幅度谱中的噪声,从而提高增强处理的效果。
在步骤130中,根据待处理幅度谱、幅度谱统计特征,利用机器学习模型消除待处理幅度谱中的噪声,获取增强语音信号。例如,机器学习模型可以为CNN模型、RNN模型、DNN模型等
在一些实施例中,将待处理幅度谱和幅度谱统计特征在通道维上进行拼接,生成三维特征矩阵;将三维特征矩阵输入机器学习模型,获取增强语音信号。例如,三维特征矩阵I(k,l)为通道数为2的三维张量,可以表示为:
Figure BDA0002988428680000081
i即为三维张量中的通道维度。
在一些实施例中,将待处理幅度谱、幅度谱统计特征输入机器学习模型,输出待处理语音信号的增强处理幅度谱。例如,增强处理幅度谱可以通过下面的公式获取:
Figure BDA0002988428680000082
fθ(·)为机器学习模型学习的噪声消除函数。
对增强幅度谱和提取的待处理语音信号在时频域的相位谱,进行ISTFT(逆时频变换),确定增强语音信号
Figure BDA0002988428680000083
在一些实施例中,利用梯度回传方式,训练待处理幅度谱对于机器学习模型的连接权重、各幅度谱统计特征对于机器学习模型的连接权重。
例如,平滑因子α是是固定值的、不可学习的,深度神经网络模型可以通过梯度回传方式学习赋予Y(k,l)和R(k,l)这两个输入的连接权重,从而更加准确地从Y(k,l)中消除噪声。
图2示出本公开的语音信号的增强处理方法的一些实施例的示意图。
如图2所示,将带噪的时域语音信号y(t)=x(t)+w(t)变换到时频域上的二维STFT复数参数表达Y(k,l)。提取Y(k,l)的幅度谱|Y(k,l)|2和相位谱。
在将|Y(k,l)|2输入机器学习模型前,先将|Y(k,l)|2输入ORAL模块进行递归平滑信号处理;然后,将ORAL模块的输出R(k,l)与|Y(k,l)|2在通道维进行融合为I(k,l),输入机器学习模型。
这样,ORAL模块可以使机器学习模型的输入由二维向量Y(k,l)变为三维张量I(k,l)。即I(k,l)中既包含原始输入信息Y(k,l),也包含ORAL模块用递归平滑算法输出的结果二维向量R(k,l)。从而,可以为机器学习模型提供更多的幅度谱统计信息,从而提高语音增强效果。
通过机器学习模型,预测纯净语音信号的STFT幅度谱
Figure BDA0002988428680000091
Figure BDA0002988428680000092
与带有噪声信号的STFT复数参数相位谱结合,进行ISTFT变换,得到预测的时域上的纯净语音信号
Figure BDA0002988428680000093
在上述实施例中,在机器学习模型的基础上,融入了信号平滑算法,能够在高斯白噪声的假设下,提高带噪信号STFT参数Y(k,l)的信噪比。
在一些实施例中,图3示出了ORAL模块的输出与原始输入信息的结合,以及ORAL模块与深度神经网络模块的结合方式。
图3示出本公开的语音信号的增强处理方法的另一些实施例的示意图。
如图3所示,利用平滑因子α对待处理语音信号y(t)的待处理幅度谱|Y(k,l)|2进行处理,得到幅度谱统计特征R(k,l)。根据|Y(k,l)|2和R(k,l)与深度神经网络的连接权重,利用深度神经网络获取增强处理幅度谱。
在一些实施例中,ORAL模块下一层的深度神经网络可以通过梯度回传的方式,学习与ORAL模块的输出、原始输入信息之间的连接权重。
而且,ORAL模块采用的二维卷积结构可以和相同的二维卷积结构进行直接对接。例如,与RNN结合时,将二维卷积结构不同通道输出的特征进行拼接,即可输入LSTM等处理时序信号特征的结构当中。与全连接神经网络也可以通过相同方法,先进行不同通道的特征拼接,即可实现不同神经元之间的全连接。
这样,可以抽取深度神经网络在此任务中最需要的信息,从而提高最终的语音增强效果。实验证明在-5db,0db,5db,10db,15db的信噪比条件下,在U-Net及卷积递归网络上增加ORAL模块,语音增强评测指标均有提升。
图4示出本公开的语音信号的增强处理装置的一些实施例的框图。
如图4所示,语音信号的增强处理装置4包括提取单元41、确定单元42、消除单元43。
提取单元41提取待处理语音信号在时频域的幅度谱,作为待处理幅度谱。待处理语音信号中包含噪声。
在一些实施例中,观测到的带噪语音信号在时域产生,是一维时域信号。通过短时傅里叶变换,可以用时频域的二维STFT复数参数来完整表达带噪语音的时域信息。此时,时域上的语音增强任务可以通过在时频域上的算法完成。
例如,待处理语音信号为y(t)=x(t)+w(t),x(t)为纯净的语音信号,w(t)为噪声。例如,可以通过STFT将y(t)变换为时频域信号Y(k,l),k为频域变量,l为时域变量(如帧序号)。提取Y(k,l)的幅度谱|Y(k,l)|2作为待处理幅度谱。
确定单元42根据待处理语音信号的每一帧幅度谱及其相应的多帧历史幅度谱,确定待处理语音信号的幅度谱统计特征。
在一些实施例中,确定单元42利用二维卷积结构,对每一帧幅度谱进行平滑滤波处理,确定幅度谱统计特征。
在一些实施例中,利用相应的多帧历史幅度谱,对每一帧幅度谱进行平滑滤波处理,确定幅度谱统计特征。例如,对于第l帧的幅度谱,可以根据第l帧的前N帧的幅度谱对第l帧的幅度谱进行递归平滑信号处理,从而获取第l帧的幅度谱统计特征。
例如,可以利用二维卷积结构,对每一帧幅度谱进行平滑滤波处理,确定幅度谱统计特征。可以利用二维卷积结构的结构实现递归平滑信号处理,二维卷积结构能够方便地与CNN模型、RNN模型、DNN模型等的结构进行结合,从而降低技术方案的实现难度。
在一些实施例中,确定单元42根据每一帧幅度谱及其相应的多帧历史幅度谱的加权和,确定幅度谱统计特征。
在一些实施例中,确定单元42在各时间窗口内,根据待处理语音信号的每一帧幅度谱及其相应的多帧历史幅度谱,确定待处理语音信号在各时间窗口内的幅度谱统计特征。
例如,可以设置一个可以滑动的时间窗口,在待处理幅度谱的整个时间范围内滑动;在每次滑动的位置,确定时间窗口内的幅度谱统计特征,直到时间窗口滑动出待处理幅度谱的时间范围;根据各时间窗口内的幅度谱统计特征,确定待处理幅度谱的幅度谱统计特征。
在一些实施例中,确定单元42利用相应的多帧历史幅度谱对每一帧幅度谱进行平滑滤波处理,确定幅度谱统计特征。
这样,R(k,l)中包含了历史帧的幅度谱信息,即R(k,l)能够反映幅度谱的统计特征。由于信号与噪声的统计特征具有差异性,所以可以通过机器学习模型消除待处理幅度谱中的噪声,从而提高增强处理的效果。
消除单元43根据待处理幅度谱、幅度谱统计特征,利用机器学习模型消除待处理幅度谱中的噪声,获取增强语音信号。
在一些实施例中,消除单元43将待处理幅度谱和幅度谱统计特征在通道维上进行拼接,生成三维特征矩阵,将三维特征矩阵输入机器学习模型,获取增强语音信号。
在一些实施例中,消除单元43将待处理幅度谱、幅度谱统计特征输入机器学习模型,输出待处理语音信号的增强处理幅度谱,对增强幅度谱和提取的待处理语音信号在时频域的相位谱,进行逆时频变换,确定增强语音信号。
在一些实施例中,机器学习模型通过如下的方式训练:利用梯度回传方式,对待处理幅度谱对于机器学习模型的连接权重、各幅度谱统计特征对于所述机器学习模型的连接权重进行训练。
ORAL模块采用的二维卷积结构可以和相同的二维卷积结构进行直接对接。例如,与RNN结合时,将二维卷积结构不同通道输出的特征进行拼接,即可输入LSTM等处理时序信号特征的结构当中。与全连接神经网络也可以通过相同方法,先进行不同通道的特征拼接,即可实现不同神经元之间的全连接。
这样,可以抽取深度神经网络在此任务中最需要的信息,从而提高最终的语音增强效果。实验证明在-5db,0db,5db,10db,15db的信噪比条件下,在U-Net及卷积递归网络上增加ORAL模块,语音增强评测指标均有提升。
在上述实施例中,在机器学习模型的基础上,融入了信号平滑算法,能够在高斯白噪声的假设下,提高带噪信号STFT参数Y(k,l)的信噪比。
图5示出本公开的语音信号的增强处理装置的另一些实施例的框图。
如图5所示,该实施例的语音信号的增强处理装置5包括:存储器51以及耦接至该存储器51的处理器52,处理器52被配置为基于存储在存储器51中的指令,执行本公开中任意一个实施例中的语音信号的增强处理方法。
其中,存储器51例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)、数据库以及其他程序等。
图6示出本公开的语音信号的增强处理装置的又一些实施例的框图。
如图6所示,该实施例的语音信号的增强处理装置6包括:存储器610以及耦接至该存储器610的处理器620,处理器620被配置为基于存储在存储器610中的指令,执行前述任意一个实施例中的语音信号的增强处理方法。
存储器610例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)以及其他程序等。
语音信号的增强处理装置6还可以包括输入输出接口630、网络接口640、存储接口650等。这些接口630、640、650以及存储器610和处理器620之间例如可以通过总线660连接。其中,输入输出接口630为显示器、鼠标、键盘、触摸屏、麦克、音箱等输入输出设备提供连接接口。网络接口640为各种联网设备提供连接接口。存储接口650为SD卡、U盘等外置存储设备提供连接接口。
本领域内的技术人员应当明白,本公开的实施例可提供为方法、系统、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
至此,已经详细描述了根据本公开的语音信号的增强处理方法、语音信号的增强处理装置和非易失性计算机可读存储介质。为了避免遮蔽本公开的构思,没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述,完全可以明白如何实施这里公开的技术方案。
可能以许多方式来实现本公开的方法和系统。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和系统。用于所述方法的步骤的上述顺序仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。
虽然已经通过示例对本公开的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本公开的范围。本领域的技术人员应该理解,可在不脱离本公开的范围和精神的情况下,对以上实施例进行修改。本公开的范围由所附权利要求来限定。

Claims (18)

1.一种语音信号的增强处理方法,包括:
提取待处理语音信号在时频域的幅度谱,作为待处理幅度谱,所述待处理语音信号中包含噪声;
根据所述待处理语音信号的每一帧幅度谱及其相应的多帧历史幅度谱,确定所述待处理语音信号的幅度谱统计特征;
根据所述待处理幅度谱、所述幅度谱统计特征,利用机器学习模型消除所述待处理幅度谱中的噪声,获取增强语音信号。
2.根据权利要求1所述的增强处理方法,其中,所述根据所述待处理语音信号的每一帧幅度谱及其相应的多帧历史幅度谱,确定所述待处理语音信号的幅度谱统计特征包括:
利用相应的多帧历史幅度谱,对所述每一帧幅度谱进行平滑滤波处理,确定所述幅度谱统计特征。
3.根据权利要求2所述的增强处理方法,其中,所述利用所述相应的多帧历史幅度谱对每一帧幅度谱进行平滑滤波处理,确定所述幅度谱统计特征包括:
利用二维卷积结构,对所述每一帧幅度谱进行平滑滤波处理,确定所述幅度谱统计特征。
4.根据权利要求1所述的增强处理方法,其中,所述根据所述待处理语音信号的每一帧幅度谱及其相应的多帧历史幅度谱,确定所述待处理语音信号的幅度谱统计特征包括:
根据所述每一帧幅度谱及其相应的多帧历史幅度谱的加权和,确定所述幅度谱统计特征。
5.根据权利要求1所述的增强处理方法,其中,所述根据所述待处理语音信号的每一帧幅度谱及其相应的多帧历史幅度谱,确定所述待处理语音信号的幅度谱统计特征包括:
在各时间窗口内,根据所述待处理语音信号的每一帧幅度谱及其相应的多帧历史幅度谱,确定所述待处理语音信号在各时间窗口内的幅度谱统计特征。
6.根据权利要求1-5任一项所述的增强处理方法,其中,所述根据所述待处理幅度谱、所述幅度谱统计特征,利用机器学习模型消除所述待处理幅度谱中的噪声,获取增强语音信号包括:
将所述待处理幅度谱和所述幅度谱统计特征在通道维上进行拼接,生成三维特征矩阵;
将所述三维特征矩阵输入所述机器学习模型,获取所述增强语音信号。
7.根据权利要求1-5任一项所述的增强处理方法,其中,所述根据所述待处理幅度谱、所述幅度谱统计特征,利用机器学习模型消除所述待处理幅度谱中的噪声,获取增强语音信号包括:
将所述待处理幅度谱、所述幅度谱统计特征输入所述机器学习模型,输出所述待处理语音信号的增强处理幅度谱;
对所述增强幅度谱和提取的所述待处理语音信号在时频域的相位谱,进行逆时频变换,确定所述增强语音信号。
8.根据权利要求1-5任一项所述的增强处理方法,其中,所述机器学习模型通过如下的方式训练:
利用梯度回传方式,训练所述待处理幅度谱对于所述机器学习模型的连接权重、所述各幅度谱统计特征对于所述机器学习模型的连接权重。
9.一种语音信号的增强处理装置,包括:
提取单元,用于提取待处理语音信号在时频域的幅度谱,作为待处理幅度谱,所述待处理语音信号中包含噪声;
确定单元,用于根据所述待处理语音信号的每一帧幅度谱及其相应的多帧历史幅度谱,确定所述待处理语音信号的幅度谱统计特征;
消除单元,用于根据所述待处理幅度谱、所述幅度谱统计特征,利用机器学习模型消除所述待处理幅度谱中的噪声,获取增强语音信号。
10.根据权利要求9所述的增强处理装置,其中,
所述确定单元利用相应的多帧历史幅度谱对所述每一帧幅度谱进行平滑滤波处理,确定所述幅度谱统计特征。
11.根据权利要求10所述的增强处理装置,其中,
所述确定单元利用二维卷积结构,对所述每一帧幅度谱进行平滑滤波处理,确定所述幅度谱统计特征。
12.根据权利要求9所述的增强处理装置,其中,
所述确定单元根据所述每一帧幅度谱及其相应的多帧历史幅度谱的加权和,确定所述幅度谱统计特征。
13.根据权利要求9所述的增强处理装置,其中,
所述确定单元在各时间窗口内,根据所述待处理语音信号的每一帧幅度谱及其相应的多帧历史幅度谱,确定所述待处理语音信号在各时间窗口内的幅度谱统计特征。
14.根据权利要求9-13任一项所述的增强处理装置,其中,
所述消除单元将所述待处理幅度谱和所述幅度谱统计特征在通道维上进行拼接,生成三维特征矩阵,将所述三维特征矩阵输入所述机器学习模型,获取所述增强语音信号。
15.根据权利要求9-13任一项所述的增强处理装置,其中,
所述消除单元将所述待处理幅度谱、所述幅度谱统计特征输入所述机器学习模型,输出所述待处理语音信号的增强处理幅度谱,对所述增强幅度谱和提取的所述待处理语音信号在时频域的相位谱,进行逆时频变换,确定所述增强语音信号。
16.根据权利要求9-13任一项所述的增强处理装置,其中,所述机器学习模型通过如下的方式训练:
利用梯度回传方式,对所述待处理幅度谱对于所述机器学习模型的连接权重、所述各幅度谱统计特征对于所述机器学习模型的连接权重进行训练。
17.一种语音信号的增强处理装置,包括:
存储器;和
耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行权利要求1-8任一项所述的语音信号的增强处理方法。
18.一种非易失性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现权利要求1-8任一项所述的语音信号的增强处理方法。
CN202110307449.2A 2021-03-23 2021-03-23 语音信号的增强处理方法和装置 Active CN113744754B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110307449.2A CN113744754B (zh) 2021-03-23 2021-03-23 语音信号的增强处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110307449.2A CN113744754B (zh) 2021-03-23 2021-03-23 语音信号的增强处理方法和装置

Publications (2)

Publication Number Publication Date
CN113744754A true CN113744754A (zh) 2021-12-03
CN113744754B CN113744754B (zh) 2024-04-05

Family

ID=78728247

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110307449.2A Active CN113744754B (zh) 2021-03-23 2021-03-23 语音信号的增强处理方法和装置

Country Status (1)

Country Link
CN (1) CN113744754B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130138434A1 (en) * 2010-09-21 2013-05-30 Mitsubishi Electric Corporation Noise suppression device
WO2013078974A1 (zh) * 2011-11-29 2013-06-06 中兴通讯股份有限公司 非激活音信号参数估计方法及舒适噪声产生方法及系统
CN108735213A (zh) * 2018-05-29 2018-11-02 太原理工大学 一种基于相位补偿的语音增强方法及系统
CN109658949A (zh) * 2018-12-29 2019-04-19 重庆邮电大学 一种基于深度神经网络的语音增强方法
US20190318755A1 (en) * 2018-04-13 2019-10-17 Microsoft Technology Licensing, Llc Systems, methods, and computer-readable media for improved real-time audio processing
EP3716271A1 (en) * 2019-03-25 2020-09-30 Nxp B.V. Audio processing system for speech enhancement
US20210012767A1 (en) * 2020-09-25 2021-01-14 Intel Corporation Real-time dynamic noise reduction using convolutional networks
CN112331224A (zh) * 2020-11-24 2021-02-05 深圳信息职业技术学院 轻量级时域卷积网络语音增强方法与系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130138434A1 (en) * 2010-09-21 2013-05-30 Mitsubishi Electric Corporation Noise suppression device
WO2013078974A1 (zh) * 2011-11-29 2013-06-06 中兴通讯股份有限公司 非激活音信号参数估计方法及舒适噪声产生方法及系统
US20190318755A1 (en) * 2018-04-13 2019-10-17 Microsoft Technology Licensing, Llc Systems, methods, and computer-readable media for improved real-time audio processing
CN108735213A (zh) * 2018-05-29 2018-11-02 太原理工大学 一种基于相位补偿的语音增强方法及系统
CN109658949A (zh) * 2018-12-29 2019-04-19 重庆邮电大学 一种基于深度神经网络的语音增强方法
EP3716271A1 (en) * 2019-03-25 2020-09-30 Nxp B.V. Audio processing system for speech enhancement
US20210012767A1 (en) * 2020-09-25 2021-01-14 Intel Corporation Real-time dynamic noise reduction using convolutional networks
CN112331224A (zh) * 2020-11-24 2021-02-05 深圳信息职业技术学院 轻量级时域卷积网络语音增强方法与系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YONG XU 等: "A Regression Approach to Speech Enhancement Based on Deep Neural Networks", IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING, pages 7 - 11 *
刘鹏: "高可懂度的信号子空间语音增强算法", 中国优秀硕士学位论文全文数据库, pages 5 *

Also Published As

Publication number Publication date
CN113744754B (zh) 2024-04-05

Similar Documents

Publication Publication Date Title
CN110600017B (zh) 语音处理模型的训练方法、语音识别方法、系统及装置
CN111971743B (zh) 用于改进的实时音频处理的系统、方法和计算机可读介质
EP3926623B1 (en) Speech recognition method and apparatus, and neural network training method and apparatus
Le Roux et al. Deep NMF for speech separation
Kwon et al. NMF-based speech enhancement using bases update
KR100745976B1 (ko) 음향 모델을 이용한 음성과 비음성의 구분 방법 및 장치
CN110503128A (zh) 使用卷积生成对抗网络进行波形合成的谱图
CN111261183A (zh) 一种语音去噪的方法及装置
CN114974280A (zh) 音频降噪模型的训练方法、音频降噪的方法及装置
CN113345460B (zh) 音频信号处理方法、装置、设备及存储介质
CN112949708A (zh) 情绪识别方法、装置、计算机设备和存储介质
CN114495957A (zh) 一种基于Transformer改进的语音增强方法、系统、装置
CN117296061A (zh) 具有改进准确度和减少的计算资源消耗的扩散模型
US20230326249A1 (en) Few-shot gesture recognition method
CN113808607A (zh) 基于神经网络的语音增强方法、装置及电子设备
US11393443B2 (en) Apparatuses and methods for creating noise environment noisy data and eliminating noise
CN113707167A (zh) 残留回声抑制模型的训练方法和训练装置
Qi et al. Exploring deep hybrid tensor-to-vector network architectures for regression based speech enhancement
JP2020071482A (ja) 語音分離方法、語音分離モデル訓練方法及びコンピュータ可読媒体
Tu et al. DNN training based on classic gain function for single-channel speech enhancement and recognition
CN111681649B (zh) 语音识别方法、交互系统及包括该系统的成绩管理系统
Saleem et al. Variance based time-frequency mask estimation for unsupervised speech enhancement
CN115188389A (zh) 基于神经网络的端到端语音增强方法、装置
Astudillo et al. Uncertainty propagation
US20230186943A1 (en) Voice activity detection method and apparatus, and storage medium

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: Room 221, 2 / F, block C, 18 Kechuang 11th Street, Daxing District, Beijing, 100176

Applicant after: Jingdong Technology Holding Co.,Ltd.

Address before: Room 221, 2 / F, block C, 18 Kechuang 11th Street, Daxing District, Beijing, 100176

Applicant before: Jingdong Digital Technology Holding Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant