CN110660405B - 一种语音信号的提纯方法及装置 - Google Patents

一种语音信号的提纯方法及装置 Download PDF

Info

Publication number
CN110660405B
CN110660405B CN201910923360.1A CN201910923360A CN110660405B CN 110660405 B CN110660405 B CN 110660405B CN 201910923360 A CN201910923360 A CN 201910923360A CN 110660405 B CN110660405 B CN 110660405B
Authority
CN
China
Prior art keywords
voice signal
purified
signal
voice
denoising
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910923360.1A
Other languages
English (en)
Other versions
CN110660405A (zh
Inventor
张雅琴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Du Xiaoman Technology Beijing Co Ltd
Original Assignee
Du Xiaoman Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Du Xiaoman Technology Beijing Co Ltd filed Critical Du Xiaoman Technology Beijing Co Ltd
Priority to CN201910923360.1A priority Critical patent/CN110660405B/zh
Publication of CN110660405A publication Critical patent/CN110660405A/zh
Application granted granted Critical
Publication of CN110660405B publication Critical patent/CN110660405B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明公开了一种语音信号的提纯方法,包括:获取待提纯语音信号,其中,所述待提纯语音信号是在密闭环境下进行通话过程中产生的;将所述待提纯语音信号进行去噪声处理和去混响处理,得到目标语音信号。上述的提纯方法中,针对密闭环境下产生的待提纯语音信号进行去噪声和去混响进行处理,得到目标语音信号,实现了对待提纯语音信号的提纯。

Description

一种语音信号的提纯方法及装置
技术领域
本发明涉及语音识别技术领域,尤其涉及一种语音信号的提纯方法及装置。
背景技术
当我们在电梯、地下室、楼梯间等一些封闭而且信号不好的空间中接打电话时,由于信号不好,接收的信号往往有很严重的“滋滋”声,并且由于空间比较密闭狭小,接收的语音信号会带有很严重的混响信号。
在电销场景中,由于客服每天需要打的电话很多,因此也会遇到很多上述的场景。现有技术人员拿到上述语音信号时,一般会选择直接丢弃,直接丢弃的问题在于会产生很严重的数据资源的浪费,另一种做法是把上述语音信号进行语音前端信号处理,由于上述的语音前端信号处理是没有针对性的,没有针对具体场景对具体语音信号做具体处理。
上述语音信号在进行如语音识别或者语音合成处理时,就会导致语音识别或者语音合成不准确,为避免上述不准确的问题,亟需提供一种语音信号的提纯方法,用于对语音识别或者语音合成中的语音信号进行提纯。
发明内容
有鉴于此,本发明提供了一种语音信号的提纯方法及装置,用于实现对语音信号的提纯,具体方案如下:
一种语音信号的提纯方法,包括:
获取待提纯语音信号,其中,所述待提纯语音信号是在密闭环境下进行通话过程中产生的;
将所述待提纯语音信号进行去噪声处理和去混响处理,得到目标语音信号。
上述的方法,可选的,将所述待提纯语音信号进行去噪声处理和去混响处理,得到目标语音信号,包括:
将所述待提纯语音进行去噪声处理,得到第一语音信号;
将所述第一语音信号进行去混响处理,得到目标语音信号。
上述的方法,可选的,将所述待提纯语音进行去噪声处理,得到第一语音信号,包括:
对所述待提纯语音进行小波变换,确定所述待提纯语音时域和频域的对应关系;
依据所述对应关系,确定所述待提纯语音中的噪声的频率范围;
去除所述待提纯语音中处于所述频率范围的语音信号,得到第一语音信号。
上述的方法,可选的,将所述第一语音信号进行去混响处理,得到目标语音信号,包括:
依据所述第一语音信号,确定目标语音信号的表达式;
采用最大似然估计算法构建与所述表达式对应的损失函数;
将所述损失函数迭代预设次数后得到所述目标语音信号。
上述的方法,可选的,将所述待提纯语音信号进行去噪声处理和去混响处理,得到目标语音信号,包括:
将所述待提纯语音进行去混响处理,得到第二语音信号;
将所述第二语音信号进行去噪声处理,得到目标语音信号。
一种语音信号的提纯装置,包括:
获取模块,用于获取待提纯语音信号,其中,所述待提纯语音信号是在密闭环境下进行通话过程中产生的;
处理模块,用于将所述待提纯语音信号进行去噪声处理和去混响处理,得到目标语音信号。
上述的装置,可选的,所述处理模块包括:
第一去噪声单元,用于将所述待提纯语音进行去噪声处理,得到第一语音信号;
第一去混响单元,用于将所述第一语音信号进行去混响处理,得到目标语音信号。
上述的装置,可选的,所述第一去噪声单元包括:
小波变换子单元,用于对所述待提纯语音进行小波变换,确定所述待提纯语音时域和频域的对应关系;
频率范围确定子单元,用于依据所述对应关系,确定所述待提纯语音中的噪声的频率范围;
去除子单元,用于去除所述待提纯语音中处于所述频率范围的语音信号,得到第一语音信号。
上述的装置,可选的,所述第一去混响单元包括:
确定子单元,用于依据所述第一语音信号,确定目标语音信号的表达式;
构建子单元,用于采用最大似然估计算法构建与所述表达式对应的损失函数;
迭代子单元,用于将所述损失函数迭代预设次数后得到所述目标语音信号。
上述的装置,可选的,所述处理模块包括:
第二去混响单元,用于将所述待提纯语音进行去混响处理,得到第二语音信号;
第二去噪声单元,用于将所述第二语音信号进行去噪声处理,得到目标语音信号。
与现有技术相比,本发明包括以下优点:
本发明公开了一种语音信号的提纯方法,包括:获取待提纯语音信号,其中,所述待提纯语音信号是在密闭环境下进行通话过程中产生的;将所述待提纯语音信号进行去噪声处理和去混响处理,得到目标语音信号。上述的提纯方法中,针对密闭环境下产生的待提纯语音信号进行去噪声和去混响进行处理,得到目标语音信号,实现了对待提纯语音信号的提纯。
当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例公开的一种语音信号的提纯方法流程图;
图2为本申请实施例公开的一种语音信号的提纯方法又一流程图;
图3为本申请实施例公开的一种双通道的混响与去混响示意图;
图4为本申请实施例公开的一种迭代过程示意图;
图5为本申请实施例公开的一种语音信号的提纯装置结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
本发明公开了一种语音信号的提纯方法与装置,应用在密闭环境进行通话产生的语音信号进行提纯的过程中,其中,密闭环境可以是电梯、地下室或者楼梯间等,由于密闭环境的信号不好,会导致在通话过程中接收的语音信号带有很严重的“滋滋”声,本发明实施例中的噪声包括“滋滋”声,并且由于密闭空间相对狭小,还会导致通话过程中接收的语音信号会产生严重的混响,其中,混响的产生过程如下:声波在密闭空间传播时,要被墙壁、天花板、地板等障碍物反射,每反射一次都要被障碍物吸收一些。这样,当声源停止发声后,声波在密闭空间内要经过多次反射和吸收,最后才消失,我们就感觉到声源停止发声后还有若干个声波混合持续一段时间(密闭空间的声源停止发声后仍然存在的声延续现象),这种现象叫做混响,这段时间叫做混响时间。若将上述的语音信号应用于语音识别或者语音合成过程中,会导致识别或者合成的效果差,因此,本发明提供了一种语音信号的提纯方法,所述方法的执行流程如图1所示,包括步骤:
S101、获取待提纯语音信号,其中,所述待提纯语音信号是在密闭环境下进行通话过程中产生的;
本发明实施例中,由于所述待提纯语音信号实在密闭环境下进行通话过程中产生的,可以在对应的语音信号库中获取待提纯语音信号还可以直接将通话过程中产生的语音信号作为待提纯语音信号,其中,针对所述语音信号库获取所述待提纯语音信号的情况,可以对所述语音信号库中的语音信号进行筛选,筛选出,满足预设筛选条件的所述待提纯语音,本发明实施例中对所述预设筛选条件不进行限定;针对通话过程中直接获取所述待提纯语音信号的情况。需要对通话环境进行判定,依据判定结果确定当前通话对应的语音信号是否为待提纯语音信号。
S102、将所述待提纯语音信号进行去噪声处理和去混响处理,得到目标语音信号。
本发明实施例中,由于所述待提纯语音信号中包含“滋滋”声的噪音和混响,需要进行去噪音和去混响处理,但对去噪音和去混响执行的先后顺序不进行限定。针对去噪音,采用小波变换的方法确定所述待提纯语音信号中噪音的频率范围,将所述待提纯语音中的与所述频率范围对应的语音信号进行删除,针对去混响,采用最大似然估计算法构建所述目标语音信号的损失函数,对所述损失函数进行迭代,最终得到所述目标语音信号。
本发明公开了一种语音信号的提纯方法,包括:获取待提纯语音信号,其中,所述待提纯语音信号是在密闭环境下进行通话过程中产生的;将所述待提纯语音信号进行去噪声处理和去混响处理,得到目标语音信号。上述的提纯方法中,针对密闭环境下产生的待提纯语音信号进行去噪声和去混响进行处理,得到目标语音信号,实现了对待提纯语音信号的提纯。
本发明实施例中,以优先进行去噪声处理然后进行去混响处理为例对所述待提纯语音信号的提纯过程进行说明,具体的处理流程如图2所示,包括步骤:
S201、将所述待提纯语音进行去噪声处理,得到第一语音信号;
本发明实施例中,针对去噪声处理优选采用小波变换方法,其中,小波变换WT(wavelet transform)的物理意义是任意一个信号都可以表示为不同频率的小波的线形叠加,小波即小区域的波,它是一种能量在时域非常集中的波,它的能量有限而且集中在某一点附近。小波分析是将信号分解成一系列小波函数的叠加,而这些小波函数都是由一个母小波函数经过平移与尺度伸缩得来的。连续小波变换可以表示为:
Figure BDA0002218274210000061
上式表示小波变换是信号f(x)与被缩放和平移的小波函数ψ0之积在信号存在的整个期间里求和的结果。小波变换的结果是许多小波系数C,这些系数是缩放因子(scale)与平移(position)的函数。缩放就是指压缩或伸展基本小波,缩放系数越小,则小波越窄;平移指小波的延迟或超前,在数学上,函数f(t)延迟k的表达式为f(t-k)。
小波变换在本文的意义就是将一个时域的突变信号或者非平稳信号通过小波变换变换到频域,通过变换后的频域信号不仅可以知道原信号由哪些频率信号组成,而且可以知道这些频率信号在时域上所属的具体时间,即通过小波变换,我们可以获得一个非平稳信号的时域与频域的相关信息。
本发明实施例中具体的小波变换的流程为:
(1)首先选取一个小波信号,然后将小波信号与待提纯语音信号的第一部分做比较;
其中,小波信号的选取方式不限,待提纯语音最前边的比分依据具体情况进行限定,例如:小波信号的时长为1分钟,待提纯语音信号为4分钟,可以设定将所述待提纯语音每间隔1分钟作为一部分,共分为4部分,
2.计算小波系数C,C代表小波和当前部分的相关性;
3.移动小波,重复步骤1与2,一直遍历所述待提纯语音信号;
4.对小波信号进行缩放,重复步骤1到3;
5.在所有小波尺度下,重复上述步骤。大尺度代表所述待提纯语音信号的低频,小尺度代表所述待提纯语音信号的高频。小波变换之后可以得到许多小波系数,这些系数为缩放因子与平移的函数。缩放就是指压缩或伸展基本小波,缩放因子越小,则小波越窄,通过缩放因子,可以获得所述待提纯语音信号的频域信息;平移指小波的延迟与超前,通过平移系数,可以获得所述待提纯语音信号的时间信息。因此通过小波变换的结果,我们就可以获得所述待提纯语音信号在时域与频域的对应关系。
当获得所述对应关系后,获取所述待提纯语音信号中产生“滋滋”声的时间;然后依据所述对应关系进行对比观察,得到产生“滋滋”声的同一时间段的频率值,通过统计若干组实验结果,我们就可以得到“滋滋”声产生的频率范围。
进一步的,去除所述待提纯语音中处于所述频率范围的语音信号,得到第一语音信号。
S202、将所述第一语音信号进行去混响处理,得到目标语音信号。
本发明实施例中,图3为双通道的混响与去混响示意图,如图3所示,
其中St表示源语音信号序列,h(1)(z)与h(2)(z)表示房间脉冲信号,
Figure BDA0002218274210000081
Figure BDA0002218274210000082
表示噪音信号序列,
Figure BDA0002218274210000083
Figure BDA0002218274210000084
表示观察到语音信号序列(第一语音信号),其中t表示时间序列,那么混响的产生过程就是:源语音信号与房间的脉冲信号进行相互作用,然后加上房间的噪声信号,最后得到了我们的观察信号。用公式可以表示为:
Figure BDA0002218274210000085
去混响过程为图2后面的部分,需要估计一个去混响滤波器即图3中的w(1)(z)与w(2)(z),当这个去混响滤波器与观察信号进行卷积作用后会获得一个增强信号yt,增强信号就是我们最后需要的纯净信号,这个去混响滤波器就是所要求的滤波器,用公式表示为:
Figure BDA0002218274210000086
其中:m-通道数;
k-延迟;
Figure BDA0002218274210000087
-滤波器;
首先根据混响的固有特性,把没有噪音的观察信号分为直达信号,早期混响与晚期混响三部分。本发明实施例中,直达信号与早期信号一起合称为期望信号,用
Figure BDA0002218274210000088
表示,只有晚期混响信号才是需要消除的,用
Figure BDA0002218274210000089
表示。那么观察信号就可以表示为:
Figure BDA00022182742100000810
其中:
Figure BDA00022182742100000811
Figure BDA00022182742100000812
其中,D是将房间脉冲响应分为早期混响与晚期混响的时间索引,也叫做“prediction delay”即预测延迟。由公式(4)可以重新得到新的观察信号表达式:
Figure BDA00022182742100000813
将公式(5)用向量表示为:
Figure BDA00022182742100000814
由公式(6)可知,目前的观察信号是过去一系列观察信号与回归信号做卷积,然后加上期望信号所得到的。因此,期望信号
Figure BDA0002218274210000091
Figure BDA0002218274210000092
获得的期望信号就是去除混响之后的目标语音信号
本发明实施例中,采用最大似然估计对期望信号进行建模。其图2中的第一通道为例进行说明,第二通道的处理方式与第一通道的处理方式相同。
即损失函数表达式为
Figure BDA0002218274210000093
其中,
Figure BDA0002218274210000094
表示期望信号
Figure BDA0002218274210000095
的概率密度函数。假设语音信号是准静态过程,仅在几十毫秒量级的短时间帧内具有相关性,并且其相关性可以在不同时间帧上变化;并且语音信号具有短时高斯性。因此,假设期望信号符合均值为0,方差为σ的高斯进程,即
Figure BDA0002218274210000096
将满足高斯性质的高斯分布信号
Figure BDA0002218274210000097
带入公式(8)的损失函数表达式中,并且令
Figure BDA0002218274210000098
表示待估计的参数集合,则可以得到下面的式子:
Figure BDA0002218274210000099
通过使上面这个式子最大化来获得参数集合θ,为了避免0为除数,设置一个最小阈值∈>0,对于所有的
Figure BDA00022182742100000910
Figure BDA00022182742100000911
通过简单的迭代算法求解,具体的公式过程如下:
(1)初始化
Figure BDA00022182742100000912
Figure BDA00022182742100000913
(2)重复下面的过程直到收敛,针对于收敛的判断是根据具体情况直接设定一个迭代次数,迭代次数越多,效果越好,但是时间会更慢,最后得到的
Figure BDA0002218274210000101
就是目标语音信号。
A)更新
Figure BDA0002218274210000102
Figure BDA0002218274210000103
B)更新
Figure BDA0002218274210000104
Figure BDA0002218274210000105
C)更新
Figure BDA0002218274210000108
Figure BDA0002218274210000107
其中,迭代的过程如图4示。
本发明实施例中,以优先进行去混响处理然后进行去噪声处理的过程与上述过程相同,只是执行先后顺序的差别,先将所述待提纯语音进行去混响处理,得到第二语音信号;将所述第二语音信号进行去噪声处理,得到目标语音信号,具体的处理过程不再赘述。
基于上述的一种语音信号的提纯方法,本发明实施例中,还提供了一种语音信号的提纯装置,所述提纯装置的结构框图如图5所示,包括:
获取模块301和处理模块302。
其中,
所述获取模块301,用于获取待提纯语音信号,其中,所述待提纯语音信号是在密闭环境下进行通话过程中产生的;
所述处理模块302,用于将所述待提纯语音信号进行去噪声处理和去混响处理,得到目标语音信号。
本发明公开了一种语音信号的提纯装置,包括:获取待提纯语音信号,其中,所述待提纯语音信号是在密闭环境下进行通话过程中产生的;将所述待提纯语音信号进行去噪声处理和去混响处理,得到目标语音信号。上述的提纯装置中,针对密闭环境下产生的待提纯语音信号进行去噪声和去混响进行处理,得到目标语音信号,实现了对待提纯语音信号的提纯。
本发明实施例中,所述处理模块302包括:
第一去噪声单元303和第一去混响单元302。
其中,
所述第一去噪声单元303,用于将所述待提纯语音进行去噪声处理,得到第一语音信号;
所述第一去混响单元304,用于将所述第一语音信号进行去混响处理,得到目标语音信号。
本发明实施例中,所述第一去噪声单元303包括:
小波变换子单元305、频率范围确定子单元306和去除子单元307。
其中,
所述小波变换子单元305,用于对所述待提纯语音进行小波变换,确定所述待提纯语音时域和频域的对应关系;
所述频率范围确定子单元306,用于依据所述对应关系,确定所述待提纯语音中的噪声的频率范围;
所述去除子单元307,用于去除所述待提纯语音中处于所述频率范围的语音信号,得到第一语音信号。
本发明实施例中,所述第一去混响单元304包括:
确定子单元308、构建子单元309和迭代子单元310。
其中,
所述确定子单元308,用于依据所述第一语音信号,确定目标语音信号的表达式;
所述构建子单元309,用于采用最大似然估计算法构建与所述表达式对应的损失函数;
所述迭代子单元310,用于将所述损失函数迭代预设次数后得到所述目标语音信号。
本发明实施例中,所述处理模块302包括:
第二去混响单元311和第二去噪声单元312。
其中,
所述第二去混响单元311,用于将所述待提纯语音进行去混响处理,得到第二语音信号;
所述第二去噪声单元312,用于将所述第二语音信号进行去噪声处理,得到目标语音信号。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备,不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本发明时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
以上对本发明所提供的一种语音信号的提纯方法及装置进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (4)

1.一种语音信号的提纯方法,其特征在于,包括:
获取待提纯语音信号,其中,所述待提纯语音信号是在密闭环境下进行通话过程中产生的;
将所述待提纯语音信号进行去噪声处理和去混响处理,得到目标语音信号;
其中,将所述待提纯语音信号进行去噪声处理和去混响处理,得到目标语音信号,包括:将待提纯语音进行去噪声处理,得到第一语音信号;将所述第一语音信号进行去混响处理,得到目标语音信号;其中,将所述待提纯语音进行去噪声处理,得到第一语音信号,包括:对所述待提纯语音进行小波变换,确定所述待提纯语音时域和频域的对应关系;依据所述对应关系,确定所述待提纯语音中的噪声的频率范围;去除所述待提纯语音中处于所述频率范围的语音信号,得到第一语音信号;其中,依据所述对应关系,确定所述待提纯语音中的噪声的频率范围,包括,获取所述待提纯语音信号中产生所述噪声的时间,依据所述对应关系,得到产生所述噪声的同一时间段的频率值,根据多组频率值,确定所述噪声的频率范围;
其中,将所述第一语音信号进行去混响处理,得到目标语音信号,包括:
依据所述第一语音信号,确定目标语音信号的表达式;
采用最大似然估计算法构建与所述表达式对应的损失函数;
将所述损失函数迭代预设次数后得到所述目标语音信号;
其中,所述损失函数表达式为,
Figure FDA0003715758240000011
其中
Figure FDA0003715758240000012
为期望信号,
Figure FDA0003715758240000013
为观察信号,m为通道数,L(θ)为所述损失函数,t为时间序列,
Figure FDA0003715758240000014
表示期望信号
Figure FDA0003715758240000015
的概率密度函数,
Figure FDA0003715758240000016
为过去一系列观察信号,
Figure FDA0003715758240000017
为回归信号。
2.根据权利要求1所述的方法,其特征在于,将所述待提纯语音信号进行去噪声处理和去混响处理,得到目标语音信号,包括:
将所述待提纯语音进行去混响处理,得到第二语音信号;
将所述第二语音信号进行去噪声处理,得到目标语音信号。
3.一种语音信号的提纯装置,其特征在于,包括:
获取模块,用于获取待提纯语音信号,其中,所述待提纯语音信号是在密闭环境下进行通话过程中产生的;
处理模块,用于将所述待提纯语音信号进行去噪声处理和去混响处理,得到目标语音信号;
其中,所述处理模块包括:
第一去噪声单元,用于将待提纯语音进行去噪声处理,得到第一语音信号;
第一去混响单元,用于将所述第一语音信号进行去混响处理,得到目标语音信号;
其中,所述第一去噪声单元包括:
小波变换子单元,用于对所述待提纯语音进行小波变换,确定所述待提纯语音时域和频域的对应关系;
频率范围确定子单元,用于依据所述对应关系,确定所述待提纯语音中的噪声的频率范围;其中,依据所述对应关系,确定所述待提纯语音中的噪声的频率范围,包括,获取所述待提纯语音信号中产生所述噪声的时间,依据所述对应关系,得到产生所述噪声的同一时间段的频率值,根据多组频率值,确定所述噪声的频率范围;
去除子单元,用于去除所述待提纯语音中处于所述频率范围的语音信号,得到第一语音信号;
其中,所述第一去混响单元包括:
确定子单元,用于依据所述第一语音信号,确定目标语音信号的表达式;
构建子单元,用于采用最大似然估计算法构建与所述表达式对应的损失函数;
迭代子单元,用于将所述损失函数迭代预设次数后得到所述目标语音信号;
其中,所述损失函数表达式为,
Figure FDA0003715758240000031
其中
Figure FDA0003715758240000032
为期望信号,
Figure FDA0003715758240000033
为观察信号,m为通道数,L(θ)为所述损失函数,t为时间序列,
Figure FDA0003715758240000034
表示期望信号
Figure FDA0003715758240000035
的概率密度函数,
Figure FDA0003715758240000036
为过去一系列观察信号,
Figure FDA0003715758240000037
为回归信号。
4.根据权利要求3所述的装置,其特征在于,所述处理模块包括:
第二去混响单元,用于将所述待提纯语音进行去混响处理,得到第二语音信号;
第二去噪声单元,用于将所述第二语音信号进行去噪声处理,得到目标语音信号。
CN201910923360.1A 2019-09-24 2019-09-24 一种语音信号的提纯方法及装置 Active CN110660405B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910923360.1A CN110660405B (zh) 2019-09-24 2019-09-24 一种语音信号的提纯方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910923360.1A CN110660405B (zh) 2019-09-24 2019-09-24 一种语音信号的提纯方法及装置

Publications (2)

Publication Number Publication Date
CN110660405A CN110660405A (zh) 2020-01-07
CN110660405B true CN110660405B (zh) 2022-09-23

Family

ID=69039417

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910923360.1A Active CN110660405B (zh) 2019-09-24 2019-09-24 一种语音信号的提纯方法及装置

Country Status (1)

Country Link
CN (1) CN110660405B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102347028A (zh) * 2011-07-14 2012-02-08 瑞声声学科技(深圳)有限公司 双麦克风语音增强装置及方法
CN106448692A (zh) * 2016-07-04 2017-02-22 Tcl集团股份有限公司 应用语音存在概率优化的retf混响消除方法及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1883068B1 (en) * 2006-02-16 2013-09-04 Nippon Telegraph And Telephone Corporation Signal distortion elimination device, method, program, and recording medium containing the program
JP7175441B2 (ja) * 2016-12-23 2022-11-21 シナプティクス インコーポレイテッド 雑音のある時変環境のための重み付け予測誤差に基づくオンライン残響除去アルゴリズム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102347028A (zh) * 2011-07-14 2012-02-08 瑞声声学科技(深圳)有限公司 双麦克风语音增强装置及方法
CN106448692A (zh) * 2016-07-04 2017-02-22 Tcl集团股份有限公司 应用语音存在概率优化的retf混响消除方法及系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Joint maximum likelihood estimation of late reverberant and speech power spectral density in noisy environments;Ofer Schwartz et al.;《2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)》;20160519;第151-153页 *
Speech Dereverberation Based on Probabilistic Models of Source and Room Acoustics;T. Nakatani et al.;《2006 IEEE International Conference on Acoustics Speech and Signal Processing Proceedings》;20060724;第821-823页 *
余刘昌.基于手机麦克风阵列的语音增强方法研究.《信息科技辑》.2016,(第3期), *
基于手机麦克风阵列的语音增强方法研究;余刘昌;《信息科技辑》;20160331(第3期);第36、44-48页 *

Also Published As

Publication number Publication date
CN110660405A (zh) 2020-01-07

Similar Documents

Publication Publication Date Title
KR100549133B1 (ko) 노이즈 감소 방법 및 장치
Bae et al. Voice recognition based on adaptive MFCC and deep learning
Bednar Applications of median filtering to deconvolution, pulse estimation, and statistical editing of seismic data
CN108172231B (zh) 一种基于卡尔曼滤波的去混响方法及系统
CN105788607B (zh) 应用于双麦克风阵列的语音增强方法
JP5227393B2 (ja) 残響除去装置、残響除去方法、残響除去プログラム、および記録媒体
CN109979476B (zh) 一种语音去混响的方法及装置
EP2023342A1 (en) Noise reduction with integrated tonal noise reduction
JP2003534570A (ja) 適応ビームフォーマーにおいてノイズを抑制する方法
CN111696568B (zh) 一种半监督瞬态噪声抑制方法
KR102410850B1 (ko) 잔향 제거 오토 인코더를 이용한 잔향 환경 임베딩 추출 방법 및 장치
Awad Impulse noise reduction in audio signal through multi-stage technique
CN112037809A (zh) 基于多特征流结构深度神经网络的残留回声抑制方法
CN112017679B (zh) 用于自适应滤波器系数更新的方法及装置、设备
JP2020537172A (ja) ノイズと残響を減少させた音声信号を提供する信号処理装置及び方法
JP4965891B2 (ja) 信号処理装置およびその方法
CN115223583A (zh) 一种语音增强方法、装置、设备及介质
Molla et al. Empirical mode decomposition for advanced speech signal processing
CN110660405B (zh) 一种语音信号的提纯方法及装置
JP6142402B2 (ja) 音響信号解析装置、方法、及びプログラム
CN115662461A (zh) 降噪模型训练方法、装置以及设备
Zehtabian et al. A non-destructive approach for noise reduction in time domain
Cho et al. An efficient HMM-based feature enhancement method with filter estimation for reverberant speech recognition
Joshi et al. Comparative analysis of thresholding techniques using discrete wavelet transform
CN112837697B (zh) 一种回声抑制方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 401121 b7-7-2, Yuxing Plaza, No.5 Huangyang Road, Yubei District, Chongqing

Applicant after: Chongqing duxiaoman Youyang Technology Co.,Ltd.

Address before: 201800 room j1328, 3 / F, building 8, 55 Huiyuan Road, Jiading District, Shanghai

Applicant before: SHANGHAI YOUYANG NEW MEDIA INFORMATION TECHNOLOGY Co.,Ltd.

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20211222

Address after: 100193 Room 606, 6 / F, building 4, West District, courtyard 10, northwest Wangdong Road, Haidian District, Beijing

Applicant after: Du Xiaoman Technology (Beijing) Co.,Ltd.

Address before: 401121 b7-7-2, Yuxing Plaza, No.5 Huangyang Road, Yubei District, Chongqing

Applicant before: Chongqing duxiaoman Youyang Technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant