CN113241089B - 语音信号增强方法、装置及电子设备 - Google Patents

语音信号增强方法、装置及电子设备 Download PDF

Info

Publication number
CN113241089B
CN113241089B CN202110410394.8A CN202110410394A CN113241089B CN 113241089 B CN113241089 B CN 113241089B CN 202110410394 A CN202110410394 A CN 202110410394A CN 113241089 B CN113241089 B CN 113241089B
Authority
CN
China
Prior art keywords
signal
gain
spectrum
voice signal
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110410394.8A
Other languages
English (en)
Other versions
CN113241089A (zh
Inventor
杨闳博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Vivo Mobile Communication Co Ltd
Original Assignee
Vivo Mobile Communication Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Vivo Mobile Communication Co Ltd filed Critical Vivo Mobile Communication Co Ltd
Priority to CN202110410394.8A priority Critical patent/CN113241089B/zh
Publication of CN113241089A publication Critical patent/CN113241089A/zh
Priority to PCT/CN2022/086098 priority patent/WO2022218254A1/zh
Priority to EP22787480.7A priority patent/EP4325487A1/en
Priority to US18/484,927 priority patent/US20240046947A1/en
Application granted granted Critical
Publication of CN113241089B publication Critical patent/CN113241089B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本申请公开了一种语音信号增强方法、装置及电子设备,属于通信技术领域。该方法包括:根据第一时频谱和第一功率谱,对第一语音信号进行降噪处理,得到第二语音信号,该第一时频谱用于指示第一语音信号的时域特征和频域特征,该第一功率谱为第一语音信号中的噪声信号的功率谱;从第二语音信号中确定浊音信号,并对浊音信号进行增益补偿,该浊音信号为第二语音信号中倒谱系数大于或等于预设阈值的信号;根据增益补偿后的浊音信号,确定第二语音信号的损伤补偿增益,并基于损伤补偿增益,对第二语音信号进行增益补偿。

Description

语音信号增强方法、装置及电子设备
技术领域
本申请属于通信技术领域,具体涉及一种语音信号增强方法、装置及电子设备。
背景技术
随着终端技术的发展,用户对电子设备的通话质量的需求越来越高,为了提升电子设备在通话过程中获取的语音质量,在传统语音增强技术中,电子设备可以通过降低带噪语音信号中的噪声成分,以从该带噪语音信号中获取纯净的原始语音信号,从而保证获取的语音信号的质量。
然而,由于在降低带噪语音信号中的噪声成分的过程中,可能会损伤带噪语音信号中的原始语音信号的质量,使得电子设备获取的原始语音信号失真,从而导致电子设备输出的语音信号的质量较差。
发明内容
本申请实施例的目的是提供一种语音信号增强方法、装置及电子设备,能够解决电子设备输出的语音信号的质量较差的问题。
为了解决上述技术问题,本申请是这样实现的:
第一方面,本申请实施例提供了一种语音信号增强方法,该语音信号增强方法包括:根据第一时频谱和第一功率谱,对第一语音信号进行降噪处理,得到第二语音信号,该第一时频谱用于指示第一语音信号的时域特征和频域特征,该第一功率谱为第一语音信号中的噪声信号的功率谱;从第二语音信号中确定浊音信号,并对浊音信号进行增益补偿,该浊音信号为第二语音信号中倒谱系数大于或等于预设阈值的信号;根据增益补偿后的浊音信号,确定第二语音信号的损伤补偿增益,并基于损伤补偿增益,对第二语音信号进行增益补偿。
第二方面,本申请实施例提供了一种语音信号增强装置,该语音信号增强装置包括:处理模块、确定模块和补偿模块。其中,处理模块,用于根据第一时频谱和第一功率谱,对第一语音信号进行降噪处理,得到第二语音信号,该第一时频谱用于指示第一语音信号的时域特征和频域特征,该第一功率谱为第一语音信号中的噪声信号的功率谱。确定模块,用于从处理模块得到的第二语音信号中确定浊音信号,该浊音信号为第二语音信号中倒谱系数大于或等于预设阈值的信号。补偿模块,用于对确定模块确定的浊音信号进行增益补偿。确定模块,还用于根据增益补偿后的浊音信号,确定第二语音信号的损伤补偿增益。补偿模块,还用于基于确定模块确定的损伤补偿增益,对第二语音信号进行增益补偿。
第三方面,本申请实施例提供了一种电子设备,该电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。
第四方面,本申请实施例提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。
第五方面,本申请实施例提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现如第一方面所述的方法。
在本申请实施例中,电子设备在根据第一语音信号的时频谱和第一语音信号中噪声信号的功率谱,对第一语音信号进行降噪处理得到第二语音信号之后,可以从第二语音信号中确定浊音信号,以对该浊音信号进行增益补偿,并根据增益补偿后的浊音信号确定第二语音信号的损伤补偿增益,以基于该损伤补偿增益对第二语音信号进行增益补偿。通过本方案,由于电子设备可以先通过对带噪语音信号(例如第一语音信号)进行降噪处理,以降低带噪语音信号中的噪声成分,从而获取到纯净的原始语音信号;然后,电子设备还可以继续对得到的原始语音信号进行损伤增益补偿,以修正降噪处理过程中产生的语音损伤,从而得到最终增强后的语音信号,如此,可以避免电子设备获取的原始语音信号失真的问题,从而提高了电子设备输出的语音信号的质量。
附图说明
图1是本申请实施例提供的一种语音信号增强方法的示意图之一;
图2是本申请实施例提供的一种语音信号增强方法的示意图之二;
图3是本申请实施例提供的一种语音信号增强方法的示意图之三;
图4是本申请实施例提供的一种语音信号增强装置的结构示意图;
图5是本申请实施例提供的一种电子设备的硬件结构示意图之一;
图6是本申请实施例提供的一种电子设备的硬件结构示意图之二。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
下面对本申请实施例提供的语音信号增强方法、装置及电子设备中涉及的一些概念和/或术语做一下解释说明。
倒谱(cesptrum,CESP):一种信号的傅里叶变换谱经过对数运算后再进行傅里叶反变换得到的谱。
最小量控制递归平均(minima controlled recursive avaraging,MCRA):使用平滑参数对功率谱的过去值进行平均,该平滑参数是根据每个子带中语音存在概率进行调整的。如果给定帧的某个子带中存在语音信号,则噪声功率谱不变,如果给定帧的某个子带中不存在语音信号,则将前一帧的噪声估计值作为当前帧的噪声估计值。
改进型最小量控制递归平均(improved minima controlled recursiveaveraging,IMCRA):在MCRA的基础上,采用两次平滑处理和最小统计量跟踪进行噪声估计。
快速傅里叶变换(fast fourier transform,FFT):是离散傅氏变换的快速算法,根据离散傅氏变换的奇、偶、虚、实等特性,对离散傅里叶变换的算法进行改进获得的。
短时傅里叶变换(short-time fourier transform,STFT):是和傅里叶变换相关的一种数学变换,用以确定时变信号其局部区域正弦波的频率与相位。短时傅里叶变换就是将原来的傅里叶变换在时域截短为多段,对每一段分别进行傅里叶变换求出每一段的频域特性(也就是同时知道了时域和频域的对应关系)。
最小均方误差估计(minimum mean-square error,MMSE):基于给定的观测值求一个随机变量的估计,现有估计理论中常用方法是寻求变换函数使均方误差最小。
对数幅度谱最小均方误差估计(minimum mean-square error log-spectralamplitude,MMSE-LSA):首先根据语音信号的准平稳特性对语音信号进行分帧处理,这样每帧信号都认为具有平稳特性,再求出每帧信号的短时频谱,并提取特征参数,然后利用语音检测算法判断每帧信号是噪声信号还是带噪语音信号,并采用MMSE方法估计出纯净语音信号的短时谱幅度,最后利用人耳对语音相位不敏感的特性,对语音信号的短时谱相位和估计的短时谱幅度重构语音信号,从而得到增强后的语音信号。
下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的语音信号增强方法进行详细地说明。
在电子设备进行语音通话的场景中,以语音降噪为主的语音增强技术已逐步应用。在传统语音增强技术中,谱减法、维纳滤波及统计模型为基础的降噪方法由于其简单有效,工程运算量低等优点而被广泛使用。例如,单麦克风降噪方案,通过估计输入信号中的噪声功率谱,得到先验信噪比和后验信噪比,然后利用传统降噪方法计算降噪增益,并作用到输入信号中得到降噪处理后的语音信号。又例如,多麦克风降噪方案,利用空间信息对输入多路信号进行波束形成,在滤除相干噪声后,对波束聚合的单路信号实施单麦克风降噪方案,利用传统降噪方法计算降噪增益,并作用到波束聚合后的信号中得到降噪处理后的语音信号。下面以单麦克风降噪方案为例,说明传统降噪方法的技术实现。
麦克风接收到的带噪语音信号为:
y(t)=x(t)+n(t); (公式一)
其中,干净语音信号为x(t),加性随机噪声为n(t),该带噪语音信号经过分帧加窗和FFT转换到时频域为:
Y(f,k)=FFT[y(t)]=X(f,k)+N(f,k); (公式二)
其中,k为帧号。
定义后验信噪比γ(f,k)(也可以描述为γ(f))如下公式三,先验信噪比ξ(f,k)(也可以描述为ξ(f))如下公式四,其中,Pnn(f,k)为噪声功率谱的估计值,Pyy(f,k)为带噪语音信号功率谱(已知),Pxx(f,k)为干净语音信号功率谱(未知),
γ(f)=Pyy(f)/Pnn(f); (公式三)
ξ(f)=Pxx(f)/Pnn(f)。 (公式四)
噪声功率谱估计的常用策略如下:首先对输入信号(即带噪语音信号)进行语音活动检测,在纯噪声信号的时频段,输入信号中噪声信号的功率谱等于纯噪声信号的功率谱;在纯语音信号的时频段,噪声信号的功率谱不进行更新;在介于纯语音信号与噪声信号中间的时频段,噪声信号的功率谱按照特定常数进行更新。上述估计策略可以参考MCRA和IMCRA中噪声功率谱估计方法。
先验信噪比ξ(f,k)可以由后验信噪比γ(f,k)-1求出,并利用判决引导法与上一帧信号的先验信噪比ξ(f,k-1)经过递归平滑处理得到,具体算法为:
ξ(f,k)=α*ξ(f,k-1)+(1-α)*max(0,γ(f,k)-1), (公式五)
其中,α为平滑系数。
在通过噪声功率谱计算得到先验信噪比和后验信噪比之后,降噪增益G(f)可以由以下几种方式计算得到:
1)谱减法形式的降噪增益为:
2)维纳滤波形式的降噪增益为:
3)统计模型形式(例如MMSE对数幅度谱估计)的降噪增益为:
其中,
电子设备可以根据输入信号和降噪增益,得到降噪处理后的语音信号为:
从上述计算降噪增益的公式可以看出,这几种计算降噪增益的方式均间接依赖于噪声功率谱的准确估计和跟踪,从Pnn(f)到G(f)的误差传递过程为Pnn(f)→γ(f)→ξ(f)→G(f)。
在噪声功率谱准确估计的前提下(例如平稳噪声场景),传统降噪方法能够获得足够的降噪增益,并保证较小的语音失真。然而,在实际应用场景中,例如大噪声低信噪比场景(即干净语音信号的功率小于或等于噪声信号的功率)或者噪声强度和概率分布随时间变化场景(例如汽车经过、地铁的启动和停止),噪声功率谱估计难以做到准确且实时,其受限于语音活动检测和噪声功率谱估计方法本身的准确性和收敛时间等因素,导致噪声功率谱估计的结果可能存在偏差。
根据上述从噪声功率谱Pnn(f)到降噪增益G(f)的误差传递过程可以得知:
在第一种情况下,当噪声功率谱欠估计时,先验信噪比偏高,传统降噪方法产生的降噪增益不足,此时降噪处理对干净语音信号的损伤较小,但对噪声信号的抑制能力不足。
在第二种情况下,当噪声功率谱过估计时,先验信噪比偏低,传统降噪方法产生的降噪增益过大,此时会损伤干净语音信号的质量,使得干净语音信号失真。
综上所述,如果希望尽可能地降低带噪语音信号中的噪声成分,就必须面临第二种情况中干净语音信号损伤的问题。
为了解决上述技术问题,本申请实施例中,电子设备可以对获取的带噪语音信号进行分帧加窗处理和快速傅里叶变换(FFT),以将带噪语音信号从时域信号转换到频域信号,从而得到带噪语音信号的时频谱,然后根据带噪语音信号的时频谱确定带噪语音信号的功率谱,通过对带噪语音信号的功率谱最小值进行递归平滑处理得到带噪语音信号中噪声信号的功率谱,以根据噪声信号的功率谱计算降噪增益,从而根据带噪语音信号和降噪增益得到降噪处理后的语音信号。在降噪处理后,电子设备可以将降噪处理后的语音信号从时频域转换到倒谱域,通过对降噪处理后的语音信号进行同态正分析,得到降噪处理后的语音信号的倒谱系数,并将这些倒谱系数中较大的倒谱系数对应的信号确定为浊音信号,然后对该浊音信号的倒谱系数进行增益放大,以对浊音信号进行增益补偿,从而得到增强后的语音信号的对数时频谱,电子设备可以根据同态滤波增强前后的对数时频谱的差值,得到损伤补偿增益,以根据降噪处理后的语音信号和损伤补偿增益,实现对降噪处理后的语音信号进行增益补偿,从而得到最终增强后的语音信号。
通过本方案,由于电子设备可以先通过对带噪语音信号(例如第一语音信号)进行降噪处理,以降低带噪语音信号中的噪声成分,从而获取到纯净的原始语音信号;然后,电子设备还可以继续对得到的原始语音信号进行损伤增益补偿,以修正降噪处理过程中产生的语音损伤,从而得到最终增强后的语音信号,如此,可以避免电子设备获取的原始语音信号失真的问题,从而提高了电子设备输出的语音信号的质量。
本申请实施例提供一种语音信号增强方法,图1示出了本申请实施例提供的一种语音信号增强方法的流程图,该方法可以应用于电子设备。如图1所示,本申请实施例提供的语音信号增强方法可以包括下述的步骤201至步骤204。
步骤201、电子设备根据第一时频谱和第一功率谱,对第一语音信号进行降噪处理,得到第二语音信号。
本申请实施例中,上述第一时频谱用于指示第一语音信号的时域特征和频域特征,上述第一功率谱为第一语音信号中的噪声信号的功率谱。
本申请实施例中,在用户通过电子设备进行语音通话的过程中,电子设备可以实时检测语音通话过程中的语音信号,以获取带噪语音信号(例如第一语音信号),并根据该带噪语音信号的信号参数(例如整个带噪语音信号的时频谱、带噪语音信号中噪声信号的功率谱),对该带噪语音信号进行降噪处理,以得到降噪处理后的语音信号,从而实现对带噪语音信号的增益补偿。
需要说明的是,上述第一时频谱可以理解为:第一语音信号对应的频域信号(例如下述实施例所述的第一语音信号经过短时傅里叶变换得到的频域信号)的时频谱。上述第一时频谱用于指示第一语音信号的时域特征和频域特征可以理解为:第一时频谱不仅可以反映第一语音信号的时域特征,而且还可以反映第一语音信号的频域特征。
可选地,本申请实施例中,在上述步骤201之前,本申请实施例提供的语音信号增强方法还包括下述的步骤301至步骤303。
步骤301、电子设备对第一语音信号进行短时傅里叶变换,得到第一时频谱。
本申请实施例中,电子设备将通过麦克风接收到的第一语音信号转换为数字信号,该数字信号经过短时傅里叶变换(即分帧加窗处理和快速傅里叶变换(FFT))实现从时域信号转换到频域信号,具体算法为:
Y1(f,k)=STFT(y(n)), (公式十)
其中,Y1(f,k)为第一语音信号对应的频域信号,y(n)为第一语音信号(即时域信号),从而得到第一语音信号的时频谱。
步骤302、电子设备根据第一时频谱确定第一语音信号的功率谱,并从第一语音信号的功率谱中确定目标功率谱。
本申请实施例中,上述目标功率谱为预设时间窗口内的信号中功率谱最小的信号的功率谱。
本申请实施例中,电子设备可以根据第一语音信号的时频谱,采用第一预设算法(如下公式十一),确定第一语音信号的功率谱Pyy(f,k),并从预设时间窗口内的信号中确定功率谱最小的信号的功率谱Pymin(f)(即目标功率谱),具体算法如下公式十二,
Pyy(f,k)=|Y1(f,k)|2, (公式十一)
Pymin(f)=min[Pyy(f,k),Pyy(f,k-1),…Pyy(f,k-Nmin)], (公式十二)
其中,N为小于k的整数(N=0,1,2,…,k-1)。
需要说明的是,预设时间窗口内的信号可以为整个第一语音信号或者第一语音信号中的部分语音信号。
步骤303、电子设备对目标功率谱进行递归平滑处理,得到第一功率谱。
本申请实施例中,电子设备可以将目标功率谱Pymin(f)经过αs递归平滑处理,得到第一语音信号中噪声信号的功率谱Pnn(f)(即第一功率谱),递归平滑处理的算法为:
Pnn(f,k)=αs*Pnn(f,k-1)+(1-αs)*Pymin(f), (公式十三)
其中,平滑系数αs由当前帧的语音存在概率控制,当语音存在概率接近1时,αs接近0。
需要说明的是,带噪语音信号是由纯净语音信号和噪声信号组成,可以通过对每帧信号进行语音存在概率估计,以确定带噪语音信号中的纯净语音信号和噪声信号,即带噪语音信号中哪些帧的信号是纯净语音信号,哪些帧的信号是噪声信号。
本申请实施例中,电子设备可以对麦克风拾音到的第一语音信号(即带噪语音信号)进行短时傅里叶变换,得到第一语音信号的时频谱(即第一时频谱),以根据第一时频谱,采用第一预设算法,确定第一语音信号的功率谱,并从第一语音信号的功率谱中确定预设时间窗口内的信号中功率谱最小的信号的功率谱(即目标功率谱),以对目标功率谱进行递归平滑处理,得到第一语音信号中噪声信号的功率谱(即第一功率谱),从而电子设备可以通过第一时频谱和第一功率谱,实现对第一语音信号进行降噪处理。
可选地,本申请实施例中,上述步骤201具体可以通过下述的步骤201a至步骤201c实现。
步骤201a、电子设备根据第一功率谱和第一语音信号的功率谱,确定第一语音信号对应的后验信噪比,并对后验信噪比进行递归平滑处理,得到第一语音信号对应的先验信噪比。
本申请实施例中,后验信噪比如下公式十四,先验信噪比如下公式十五,其中,平滑因子α=0.7。
γ(f,k)=Pyy(f,k)/Pnn(f,k), (公式十四)
ξ(f,k)=α*ξ(f,k-1)+(1-α)*max(0,γ(f,k)-1), (公式十五)
步骤201b、电子设备根据后验信噪比和先验信噪比,确定目标降噪增益。
本申请实施例中,目标降噪增益G1(f,k)可以由先验信噪比和后验信噪比计算得到,具体算法为:
其中,
步骤201c、电子设备根据第一时频谱和目标降噪增益,对第一语音信号进行降噪处理,得到第二语音信号。
本申请实施例中,电子设备可以根据第一时频谱和目标降噪增益,采用第二预设算法(如下公式十七),对第一语音信号(即第一语音信号对应的频域信号)进行降噪处理,得到第二语音信号Y2(f,k)(即对第一语音信号对应的频域信号进行降噪处理后的信号),
Y2(f,k)=Y1(f,k)*G1(f,k)。 (公式十七)
本申请实施例中,电子设备可以根据第一语音信号中噪声信号的功率谱和第一语音信号的功率谱,确定第一语音信号对应的后验信噪比,并对后验信噪比进行递归平滑处理得到第一语音信号对应的先验信噪比,以根据该后验信噪比和该先验信噪比,确定目标降噪增益,从而根据第一语音信号的时频谱和目标降噪增益,采用第二预设算法,对第一语音信号进行降噪处理,以得到降噪处理后的语音信号。如此,通过对带噪语音信号进行降噪处理,以降低带噪语音信号中的噪声成分,从而获取纯净的原始语音信号,提高了电子设备输出的语音信号的质量。
步骤202、电子设备从第二语音信号中确定浊音信号,并对浊音信号进行增益补偿。
本申请实施例中,上述浊音信号为第二语音信号中倒谱系数大于或等于预设阈值的信号。
本申请实施例中,电子设备可以先确定第二语音信号的倒谱系数,然后将第二语音信号中倒谱系数较大的信号确定为浊音信号,以对该浊音信号进行增益补偿,从而实现对第二语音信号进行增益补偿。
可以理解,电子设备可以预先设定浊音信号的判决门限(即预设阈值),以从第二语音信号中确定倒谱系数大于或等于该判决门限的信号,以将该信号确定为浊音信号,该浊音信号在时频域和倒谱域具有明显的基音特征和谐波特征。
可选地,本申请实施例中,上述步骤202具体可以通过下述的步骤202a至步骤202c实现。
步骤202a、电子设备对第二语音信号进行同态正分析处理,得到第二语音信号的目标倒谱系数。
本申请实施例中,上述目标倒谱系数包括至少一个倒谱系数,每个倒谱系数分别对应第二语音信号中的一帧信号。需要说明的是,针对第二语音信号的每帧信号,电子设备可以将第二语音信号划分为至少一个语音片段,一个语音片段可以理解为第二语音信号的一帧信号。
本申请实施例中,电子设备可以对第二语音信号对应的频域信号Y2(f,k)进行同态正分析处理,得到第二语音信号的倒谱系数Q(c,k),其中c为倒谱系数的时间索引,具体算法为:
Q(c,k)=iFFT[log(|Y2(f1,k)|,|Y2(f2,k)|,…,|Y2(fn,k)|)]。 (公式十八)
示例性的,如图2中的(A)所示,示出了第一语音信号(也可以称为带噪语音时域信号)的波形图;电子设备在对该带噪语音时域信号进行降噪处理后,得到第二语音信号,并通过对数计算得到如图2中的(B)所示的第二语音信号的对数时频谱;然后,电子设备可以对该第二语音信号进行同态正分析处理,得到如图2中的(C)所示的第二语音信号的倒谱(横轴为时间索引,纵轴为倒谱系数)。
步骤202b、电子设备从目标倒谱系数中确定最大倒谱系数,并将第二语音信号中与最大倒谱系数对应的信号确定为浊音信号。
本申请实施例中,第二语音信号中的每帧信号分别对应了一个倒谱系数,电子设备可以从获取的至少一个倒谱系数中查找最大倒谱系数,以将该最大倒谱系数对应的一帧信号确定为浊音信号。
可选地,本申请实施例中,电子设备可以预先设定语音基音周期搜索范围为[70Hz-400Hz],该语音基音周期搜索范围对应的倒谱系数的范围为[Fs/400-Fs/70],其中Fs为采样频率,电子设备从目标倒谱系数中位于该范围内的倒谱系数中搜索最大倒谱系数Qmax,其对应的时间索引为cmax,假设浊音信号的判别门限为h,当Qmax(c,k)>h时,判定该最大倒谱系数对应的信号为浊音信号(例如图2中的(C)中的基因周期位置对应的信号),该浊音信号在频域和倒谱域有明显的基音特征和谐波特征。
步骤202c、电子设备对最大倒谱系数进行增益放大处理,以对浊音信号进行增益补偿。
本申请实施例中,在判定第二语音信号中的某帧信号是浊音信号时,电子设备对该浊音信号对应的最大倒谱系数进行增益放大处理,以实现对该浊音信号进行增益补偿,具体算法为:
Q(cmax,k)=g*Q(cmax,k), (公式十九)
其中,g为增益系数,g用于控制补偿增益的大小,例如g的取值可以为1.5。
本申请实施例中,电子设备可以对第二语音信号进行同态正分析处理,以得到第二语音信号的倒谱系数,然后从这些倒谱系数中确定最大倒谱系数,并将第二语音信号中与最大倒谱系数对应的信号确定为浊音信号,从而电子设备可以通过对最大倒谱系数进行增益放大处理,实现对浊音信号进行增益补偿,以便于对降噪处理后的语音信号进行增益补偿。
步骤203、电子设备根据增益补偿后的浊音信号,确定第二语音信号的损伤补偿增益,并基于损伤补偿增益,对第二语音信号进行增益补偿。
可选地,本申请实施例中,上述步骤203中的“电子设备根据增益补偿后的浊音信号,确定第二语音信号的损伤补偿增益”具体可以通过下述的步骤203a和步骤203b实现。
步骤203a、电子设备对第一倒谱系数和增益放大处理后的最大倒谱系数进行同态反分析处理,得到第一对数时频谱。
本申请实施例中,上述第一倒谱系数为目标倒谱系数中除最大倒谱系数之外的倒谱系数。
本申请实施例中,电子设备对目标倒谱系数中除最大倒谱系数之外的倒谱系数和增益放大处理后的最大倒谱系数进行同态反分析处理,以得到增强后的第二语音信号的对数时频谱LY2E(f,k)(即第一对数时频谱),具体算法为:
LY2E(f,k)=FFT[Q(c1,k),Q(c2,k),…Q(cmax,k),…Qn(cn,k)]。 (公式二十)
步骤203b、电子设备根据第二语音信号的时频谱,确定第二语音信号的对数时频谱,并根据第一对数时频谱与第二语音信号的对数时频谱的差值,确定损伤补偿增益。
本申请实施例中,电子设备可以根据第二语音信号的时频谱确定第二语音信号的对数时频谱LY2(f,k),具体算法如下公式二十一,并根据增强后的第二语音信号的对数时频谱与第二语音信号的对数时频谱的差值,确定损伤补偿增益。
LY2(f,k)=log(|Y2(f,k)|) (公式二十一)
具体的,电子设备可以由倒谱系数增强前后的对数时频谱经过F函数计算得到损伤补偿增益,即
Gc(f,k)=F(LY2(f,k),LY2E(f,k))。 (公式二十二)
需要说明的是,F函数可以通过两种方式实现。在第一种实现方式中,将对数谱的差值转换为线性系数,作为损伤补偿增益,具体算法如下公式二十三;在第二种实现方式中,在求对数谱差值的基础上,增加增益约束范围,即将对数谱差值限定在增益约束范围内,以控制每个频点上的最大增益和最小增益,从而确保损伤补偿增益Gc(f,k)在合理的范围内。
示例性的,如图3中的(A)所示,示出了同态反分析前后的对数时频谱,即同态滤波增强前后的对数时频谱。电子设备在对最大倒谱系数进行增益放大处理,以对浊音信号进行增益补偿之后,可以继续对目标倒谱系数中除最大倒谱系数之外的倒谱系数和增益放大处理后的最大倒谱系数进行同态反分析处理,得到如图3中的(A)所示的增强后的第二语音信号的对数时频谱(即第一对数时频谱),其中,图3中的(A)中以LY2表示同态滤波增强前的对数时频谱,以LY2E表示同态滤波增强后的对数时频谱;电子设备可以根据增强后的第二语音信号的对数时频谱(即LY2E所示的对数时频谱)与第二语音信号的对数时频谱(即LY2所示的对数时频谱)的差值,确定如图3中的(B)所示的损伤补偿增益Gc,以通过该损伤补偿增益对第二语音信号进行增益补偿。
本申请实施例中,电子设备在对第一语音信号进行降噪处理得到第二语音信号之后,还可以继续对第二语音信号中的浊音信号进行增益补偿,以确定第二语音信号的损伤补偿增益,从而基于该损伤补偿增益实现对第二语音信号的增益补偿,以得到最终增强后的语音信号,提升了语音信号的质量。
本申请实施例提供一种语音信号增强方法,电子设备在根据第一语音信号的时频谱和第一语音信号中噪声信号的功率谱,对第一语音信号进行降噪处理得到第二语音信号之后,可以从第二语音信号中确定浊音信号,以对该浊音信号进行增益补偿,并根据增益补偿后的浊音信号确定第二语音信号的损伤补偿增益,以基于该损伤补偿增益对第二语音信号进行增益补偿。由于电子设备可以先通过对带噪语音信号(例如第一语音信号)进行降噪处理,以降低带噪语音信号中的噪声成分,从而获取到纯净的原始语音信号;然后,电子设备还可以继续对得到的原始语音信号进行损伤增益补偿,以修正降噪处理过程中产生的语音损伤,从而得到最终增强后的语音信号,如此,可以避免电子设备获取的原始语音信号失真的问题,从而提高了电子设备输出的语音信号的质量。
相较于传统方案,由于在降噪处理的过程中会损伤原始语音信号的质量,通过本方案输出的语音信号(经过语音增强后的信号)的总能量大于输入的语音信号的总能量,且输出的语音信号中的浊音部分(包括基音成分和谐波成分)的频谱相比输入的语音信号的频谱要大(即输出的语音信号受到增强),而传统降噪方法只会衰减输入的语音信号中的噪声信号,即输出的语音信号的能量小于或等于输入的语音信号的能量,因此本方案输出的语音信号的质量高于传统方案输出的语音信号的质量。
可选地,本申请实施例中,上述第二语音信号为对目标频域信号进行降噪处理后的信号,上述目标频域信号为对第一语音信号进行短时傅里叶变换后的信号。在上述步骤203之后,本申请实施例提供的语音信号增强方法还包括下述的步骤204。
步骤204、电子设备对增益补偿后的第二语音信号进行时频反变换处理,得到目标时域信号,并输出目标时域信号。
本申请实施例中,通过对增益补偿后的第二语音信号(即增强后的频域信号)进行时频反变换,以得到语音增强后的时域信号,从而输出增强后的语音信号Y3(f,k),具体算法为:
Y3(f,k)=Y1(f,k)*G1(f,k)*Gc(f,k)。 (公式二十四)
下面对本申请实施例提供的基于同态滤波的语音信号增强方法的具体过程进行描述:在具有声音采集功能的电子设备中,电子设备将麦克风接收到的带噪语音信号(例如第一语音信号)转换为数字信号,然后对该数字信号进行分帧加窗处理和快速傅里叶变换,以将该带噪语音信号从时域信号转换到频域信号,即Y1(f,k)=STFT(y(n))。然后,电子设备对带噪语音信号的时频谱进行噪声功率谱估计和降噪增益计算,下面以MCRA和MMSE-LSA为例说明降噪处理的过程。带噪语音信号的功率谱为Pyy(f,k)=|Y1(f,k)|2,采用MCRA设置观察时间窗口,电子设备可以观察预设时间窗口内带噪语音信号的功率谱最小值,即Pymin(f)=min[Pyy(f,k),Pyy(f,k-1),…Pyy(f,k-Nmin)],噪声功率谱Pnn可以由Pymin(f)经过αs递归平滑处理得到,即Pnn(f,k)=αs*Pnn(f,k-1)+(1-αs)*Pymin(f),其中αs平滑系数由当前帧信号的语音存在概率控制,当语音概率接近1时,αs值接近0。定义后验信噪比γ(f,k)=Pyy(f,k)/Pnn(f,k),先验信噪比ξ(f,k)=α*ξ(f,k-1)+(1-α)*max(0,γ(f,k)-1),其中α=0.7。MMSE-LSA方法中降噪增益G1(f,k)由先验信噪比和后验信噪比计算得到,即
其中/>
经过降噪处理后的信号(即第二语音信号)为Y2(f,k)=Y1(f,k)*G1(f,k),且其对数时频谱LY2(f,k)=log(|Y2(f,k)|)。电子设备对Y2(f,k)进行同态正分析处理,得到降噪处理后的信号的倒谱系数Q(c,k),即Q(c,k)=iFFT[log(|Y2(f1,k)|,|Y2(f2,k)|,…,|Y2(fn,k)|)],其中c为倒谱系数的时间索引。电子设备可以预先设定语音基音周期搜索范围[70Hz-400Hz],对应的倒谱系数的范围为[Fs/400-Fs/70],在搜索范围内搜索最大倒谱系数记为Qmax,其对应的时间索引记为cmax,并设定浊音信号的判别门限为h,当Qmax(c,k)>h时判定当前帧信号为浊音信号,即当前帧信号在频域和倒谱域有明显的基音特征和谐波特征。当判断当前帧信号是浊音信号时,电子设备对cmax位置对应的倒谱系数(即浊音信号的倒谱系数)进行增益放大,即Q(cmax,k)=g*Q(cmax,k),其中g为增益系数,电子设备可以通过g控制补偿增益的大小,例如g的取值可以为1.5。电子设备对搜索范围内除最大倒谱系数之外的倒谱系数和增益放大处理后的最大倒谱系数进行同态反分析处理,得到增强后的对数时频谱,即LY2E(f,k)=FFT[Q(c1,k),Q(c2,k),…Q(cmax,k),…Qn(cn,k)]。语音损伤补偿增益可以由倒谱系数增益前后的对数时频谱经过F函数计算得到,即Gc(f,k)=F(LY2(f,k),LY2E(f,k)),F函数可以通过多种方式实现,其中一种实现方式为将对数谱的差值转换成线性系数,作为损伤补偿增益,即另一种实现方式是在对数谱差值的基础上,增加增益约束范围,即将对数谱差值限定在增益约束范围内,以控制每个频点上的最大增益和最小增益,从而确保损伤补偿增益Gc(f,k)取值在合理范围。经过上述过程,电子设备获取最终语音增强后的信号Y3(f,k)=Y1(f,k)*G1(f,k)*Gc(f,k),通过将最终语音增强后的信号Y3(f,k)经过时频反变换处理,从而得到语音增强后的时域信号。
需要说明的是,本申请实施例提供的语音信号增强方法,执行主体可以为语音信号增强装置,或者该语音信号增强装置中的用于执行语音信号增强方法的控制模块。本申请实施例中以语音信号增强装置执行语音信号增强方法为例,说明本申请实施例提供的语音信号增强装置。
图4示出了本申请实施例中涉及的语音信号增强装置的一种可能的结构示意图。如图4所示,该语音信号增强装置70可以包括:处理模块71、确定模块72和补偿模块73。
其中,上述处理模块71,用于根据第一时频谱和第一功率谱,对第一语音信号进行降噪处理,得到第二语音信号,该第一时频谱用于指示第一语音信号的时域特征和频域特征,该第一功率谱为第一语音信号中的噪声信号的功率谱。上述确定模块72,用于从处理模块71得到的第二语音信号中确定浊音信号,该浊音信号为第二语音信号中倒谱系数大于或等于预设阈值的信号。上述补偿模块73,用于对确定模块72确定的浊音信号进行增益补偿。上述确定模块72,还用于根据增益补偿后的浊音信号,确定第二语音信号的损伤补偿增益。上述补偿模块73,还用于基于确定模块72确定的损伤补偿增益,对第二语音信号进行增益补偿。
本申请实施例提供一种语音信号增强装置,由于可以先通过对带噪语音信号(例如第一语音信号)进行降噪处理,以降低带噪语音信号中的噪声成分,从而获取到纯净的原始语音信号;然后,还可以继续对得到的原始语音信号进行损伤增益补偿,以修正降噪处理过程中产生的语音损伤,从而得到最终增强后的语音信号,如此,可以避免获取的原始语音信号失真的问题,从而提高了输出的语音信号的质量。
在一种可能的实现方式中,上述处理模块71,还用于根据第一时频谱和第一功率谱,对第一语音信号进行降噪处理之前,对第一语音信号进行短时傅里叶变换,得到第一时频谱。上述确定模块72,还用于根据第一时频谱确定第一语音信号的功率谱,并从第一语音信号的功率谱中确定目标功率谱,该目标功率谱为预设时间窗口内的信号中功率谱最小的信号的功率谱。上述处理模块71,还用于对确定模块72确定的目标功率谱进行递归平滑处理,得到第一功率谱。
在一种可能的实现方式中,上述处理模块71,具体用于根据第一功率谱和第一语音信号的功率谱,确定第一语音信号对应的后验信噪比,并对后验信噪比进行递归平滑处理,得到第一语音信号对应的先验信噪比;并根据后验信噪比和先验信噪比,确定目标降噪增益;以及根据第一时频谱和目标降噪增益,对第一语音信号进行降噪处理。
在一种可能的实现方式中,上述补偿模块73,具体用于对第二语音信号进行同态正分析处理,得到第二语音信号的目标倒谱系数;并从目标倒谱系数中确定最大倒谱系数,将第二语音信号中与最大倒谱系数对应的信号确定为浊音信号;以及对最大倒谱系数进行增益放大处理,以对浊音信号进行增益补偿。
在一种可能的实现方式中,上述补偿模块73,具体用于对第一倒谱系数和增益放大处理后的最大倒谱系数进行同态反分析处理,得到第一对数时频谱,第一倒谱系数为目标倒谱系数中除最大倒谱系数之外的倒谱系数;并根据第二语音信号的时频谱,确定第二语音信号的对数时频谱,以及根据第一对数时频谱与第二语音信号的对数时频谱的差值,确定损伤补偿增益。
在一种可能的实现方式中,上述第二语音信号为对目标频域信号进行降噪处理后的信号,上述目标频域信号为对第一语音信号进行短时傅里叶变换后的信号;本申请实施例提供的语音信号增强装置70还包括输出模块。上述处理模块71,具体用于补偿模块73基于损伤补偿增益,对第二语音信号进行增益补偿之后,对增益补偿后的第二语音信号进行时频反变换处理,得到目标时域信号。上述输出模块,用于输出处理模块71得到的目标时域信号。
本申请实施例中的语音信号增强装置可以是装置,也可以是终端中的部件、集成电路、或芯片。该装置可以是移动电子设备,也可以为非移动电子设备。示例性的,移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本或者个人数字助理(personal digital assistant,PDA)等,非移动电子设备可以为服务器、网络附属存储器(Network Attached Storage,NAS)、个人计算机(personal computer,PC)、电视机(television,TV)、柜员机或者自助机等,本申请实施例不作具体限定。
本申请实施例中的语音信号增强装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统,可以为ios操作系统,还可以为其他可能的操作系统,本申请实施例不作具体限定。
本申请实施例提供的语音信号增强装置能够实现上述方法实施例实现的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
可选地,如图5所示,本申请实施例还提供一种电子设备90,包括处理器91,存储器92,存储在存储器92上并可在所述处理器91上运行的程序或指令,该程序或指令被处理器91执行时实现上述方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
需要说明的是,本申请实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。
图6为实现本申请实施例的一种电子设备的硬件结构示意图。
该电子设备100包括但不限于:射频单元101、网络模块102、音频输出单元103、输入单元104、传感器105、显示单元106、用户输入单元107、接口单元108、存储器109、以及处理器110等部件。
本领域技术人员可以理解,电子设备100还可以包括给各个部件供电的电源(比如电池),电源可以通过电源管理系统与处理器110逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图6中示出的电子设备结构并不构成对电子设备的限定,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置,在此不再赘述。
其中,处理器110,用于根据第一时频谱和第一功率谱,对第一语音信号进行降噪处理,得到第二语音信号,该第一时频谱用于指示第一语音信号的时域特征和频域特征,该第一功率谱为第一语音信号中的噪声信号的功率谱;并从第二语音信号中确定浊音信号,对浊音信号进行增益补偿,该浊音信号为第二语音信号中倒谱系数大于或等于预设阈值的信号;以及根据增益补偿后的浊音信号,确定第二语音信号的损伤补偿增益,基于损伤补偿增益,对第二语音信号进行增益补偿。
本申请实施例提供一种电子设备,由于电子设备可以先通过对带噪语音信号(例如第一语音信号)进行降噪处理,以降低带噪语音信号中的噪声成分,从而获取到纯净的原始语音信号;然后,电子设备还可以继续对得到的原始语音信号进行损伤增益补偿,以修正降噪处理过程中产生的语音损伤,从而得到最终增强后的语音信号,如此,可以避免电子设备获取的原始语音信号失真的问题,从而提高了电子设备输出的语音信号的质量。
可选地,本申请实施例中,处理器110,还用于根据第一时频谱和第一功率谱,对第一语音信号进行降噪处理之前,对第一语音信号进行短时傅里叶变换,得到第一时频谱;并根据第一时频谱确定第一语音信号的功率谱,从第一语音信号的功率谱中确定目标功率谱,该目标功率谱为预设时间窗口内的信号中功率谱最小的信号的功率谱;以及对目标功率谱进行递归平滑处理,得到第一功率谱。
可选地,本申请实施例中,处理器110,具体用于根据第一功率谱和第一语音信号的功率谱,确定第一语音信号对应的后验信噪比,对后验信噪比进行递归平滑处理,得到第一语音信号对应的先验信噪比;并根据后验信噪比和先验信噪比,确定目标降噪增益;以及根据第一时频谱和目标降噪增益,对第一语音信号进行降噪处理。
可选地,本申请实施例中,处理器110,具体用于对第二语音信号进行同态正分析处理,得到第二语音信号的目标倒谱系数;并从目标倒谱系数中确定最大倒谱系数,将第二语音信号中与最大倒谱系数对应的信号确定为浊音信号;以及对最大倒谱系数进行增益放大处理,以对浊音信号进行增益补偿。
可选地,本申请实施例中,处理器110,具体用于对第一倒谱系数和增益放大处理后的最大倒谱系数进行同态反分析处理,得到第一对数时频谱,第一倒谱系数为目标倒谱系数中除最大倒谱系数之外的倒谱系数;并根据第二语音信号的时频谱,确定第二语音信号的对数时频谱,以及根据第一对数时频谱与第二语音信号的对数时频谱的差值,确定损伤补偿增益。
可选地,本申请实施例中,上述第二语音信号为对目标频域信号进行降噪处理后的信号,上述目标频域信号为对第一语音信号进行短时傅里叶变换后的信号。处理器110,具体用于基于损伤补偿增益,对第二语音信号进行增益补偿之后,对增益补偿后的第二语音信号进行时频反变换处理,得到目标时域信号。音频输出单元103,用于输出目标时域信号。
本申请实施例提供的电子设备能够实现上述方法实施例实现的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本实施例中各种实现方式具有的有益效果具体可以参见上述方法实施例中相应实现方式所具有的有益效果,为避免重复,此处不再赘述。
应理解的是,本申请实施例中,输入单元104可以包括图形处理器(GraphicsProcessing Unit,GPU)1041和麦克风1042,图形处理器1041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元106可包括显示面板1061,可以采用液晶显示器、有机发光二极管等形式来配置显示面板1061。用户输入单元107包括触控面板1071以及其他输入设备1072。触控面板1071,也称为触摸屏。触控面板1071可包括触摸检测装置和触摸控制器两个部分。其他输入设备1072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆,在此不再赘述。存储器109可用于存储软件程序以及各种数据,包括但不限于应用程序和操作系统。处理器110可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器110中。
本申请实施例还提供一种可读存储介质,所述可读存储介质上存储有程序或指令,该程序或指令被处理器执行时实现上述方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
其中,所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质,包括计算机可读存储介质,如计算机只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等。
本申请实施例另提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现上述方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
应理解,本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外,需要指出的是,本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能,还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以添加、省去、或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本申请的保护之内。

Claims (12)

1.一种语音信号增强方法,其特征在于,所述方法包括:
根据第一时频谱和第一功率谱,对第一语音信号进行降噪处理,得到第二语音信号,所述第一时频谱用于指示所述第一语音信号的时域特征和频域特征,所述第一功率谱为所述第一语音信号中的噪声信号的功率谱;
从所述第二语音信号中确定浊音信号,并对所述浊音信号进行增益补偿,所述浊音信号为所述第二语音信号中倒谱系数大于或等于预设阈值的信号;
根据增益补偿后的所述浊音信号,确定所述第二语音信号的损伤补偿增益,并基于所述损伤补偿增益,对所述第二语音信号进行增益补偿;
所述根据增益补偿后的所述浊音信号,确定所述第二语音信号的损伤补偿增益,包括:
对第一倒谱系数和增益放大处理后的最大倒谱系数进行同态反分析处理,得到第一对数时频谱,所述第一倒谱系数为所述第二语音信号的目标倒谱系数中除所述最大倒谱系数之外的倒谱系数;
根据所述第二语音信号的时频谱,确定所述第二语音信号的对数时频谱,并根据所述第一对数时频谱与所述第二语音信号的对数时频谱的差值,确定所述损伤补偿增益。
2.根据权利要求1所述的方法,其特征在于,所述根据第一时频谱和第一功率谱,对第一语音信号进行降噪处理之前,所述方法还包括:
对所述第一语音信号进行短时傅里叶变换,得到所述第一时频谱;
根据所述第一时频谱确定所述第一语音信号的功率谱,并从所述第一语音信号的功率谱中确定目标功率谱,所述目标功率谱为预设时间窗口内的信号中功率谱最小的信号的功率谱;
对所述目标功率谱进行递归平滑处理,得到所述第一功率谱。
3.根据权利要求1或2所述的方法,其特征在于,所述根据第一时频谱和第一功率谱,对第一语音信号进行降噪处理,包括:
根据所述第一功率谱和所述第一语音信号的功率谱,确定所述第一语音信号对应的后验信噪比,并对所述后验信噪比进行递归平滑处理,得到所述第一语音信号对应的先验信噪比;
根据所述后验信噪比和所述先验信噪比,确定目标降噪增益;
根据所述第一时频谱和所述目标降噪增益,对所述第一语音信号进行降噪处理。
4.根据权利要求1所述的方法,其特征在于,所述从所述第二语音信号中确定浊音信号,并对所述浊音信号进行增益补偿,包括:
对所述第二语音信号进行同态正分析处理,得到所述第二语音信号的目标倒谱系数;
从所述目标倒谱系数中确定最大倒谱系数,并将所述第二语音信号中与所述最大倒谱系数对应的信号确定为所述浊音信号;
对所述最大倒谱系数进行增益放大处理,以对所述浊音信号进行增益补偿。
5.根据权利要求1或2所述的方法,其特征在于,所述第二语音信号为对目标频域信号进行降噪处理后的信号,所述目标频域信号为对所述第一语音信号进行短时傅里叶变换后的信号;
所述基于所述损伤补偿增益,对所述第二语音信号进行增益补偿之后,所述方法还包括:
对所述增益补偿后的所述第二语音信号进行时频反变换处理,得到目标时域信号,并输出所述目标时域信号。
6.一种语音信号增强装置,其特征在于,所述装置包括:处理模块、确定模块和补偿模块;
所述处理模块,用于根据第一时频谱和第一功率谱,对第一语音信号进行降噪处理,得到第二语音信号,所述第一时频谱用于指示所述第一语音信号的时域特征和频域特征,所述第一功率谱为所述第一语音信号中的噪声信号的功率谱;
所述确定模块,用于从所述处理模块得到的所述第二语音信号中确定浊音信号,所述浊音信号为所述第二语音信号中倒谱系数大于或等于预设阈值的信号;
所述补偿模块,用于对所述确定模块确定的所述浊音信号进行增益补偿;
所述确定模块,还用于根据增益补偿后的所述浊音信号,确定所述第二语音信号的损伤补偿增益;
所述补偿模块,还用于基于所述确定模块确定的所述损伤补偿增益,对所述第二语音信号进行增益补偿;
所述确定模块,具体用于对第一倒谱系数和增益放大处理后的最大倒谱系数进行同态反分析处理,得到第一对数时频谱,所述第一倒谱系数为所述第二语音信号的目标倒谱系数中除所述最大倒谱系数之外的倒谱系数;并根据所述第二语音信号的时频谱,确定所述第二语音信号的对数时频谱,以及根据所述第一对数时频谱与所述第二语音信号的对数时频谱的差值,确定所述损伤补偿增益。
7.根据权利要求6所述的装置,其特征在于,所述处理模块,还用于根据所述第一时频谱和所述第一功率谱,对所述第一语音信号进行降噪处理之前,对所述第一语音信号进行短时傅里叶变换,得到所述第一时频谱;
所述确定模块,还用于根据所述第一时频谱确定所述第一语音信号的功率谱,并从所述第一语音信号的功率谱中确定目标功率谱,所述目标功率谱为预设时间窗口内的信号中功率谱最小的信号的功率谱;
所述处理模块,还用于对所述确定模块确定的所述目标功率谱进行递归平滑处理,得到所述第一功率谱。
8.根据权利要求6或7所述的装置,其特征在于,所述处理模块,具体用于根据所述第一功率谱和所述第一语音信号的功率谱,确定所述第一语音信号对应的后验信噪比,并对所述后验信噪比进行递归平滑处理,得到所述第一语音信号对应的先验信噪比;并根据所述后验信噪比和所述先验信噪比,确定目标降噪增益;以及根据所述第一时频谱和所述目标降噪增益,对所述第一语音信号进行降噪处理。
9.根据权利要求6所述的装置,其特征在于,所述补偿模块,具体用于对所述第二语音信号进行同态正分析处理,得到所述第二语音信号的目标倒谱系数;并从所述目标倒谱系数中确定最大倒谱系数,将所述第二语音信号中与所述最大倒谱系数对应的信号确定为所述浊音信号;以及对所述最大倒谱系数进行增益放大处理,以对所述浊音信号进行增益补偿。
10.根据权利要求6或7所述的装置,其特征在于,所述第二语音信号为对目标频域信号进行降噪处理后的信号,所述目标频域信号为对所述第一语音信号进行短时傅里叶变换后的信号;所述装置还包括:输出模块;
所述处理模块,具体用于所述补偿模块基于所述损伤补偿增益,对所述第二语音信号进行增益补偿之后,对所述增益补偿后的所述第二语音信号进行时频反变换处理,得到目标时域信号;
所述输出模块,用于输出所述处理模块得到的所述目标时域信号。
11.一种电子设备,其特征在于,包括处理器,存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如权利要求1至5中任一项所述的语音信号增强方法的步骤。
12.一种可读存储介质,其特征在于,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如权利要求1至5中任一项所述的语音信号增强方法的步骤。
CN202110410394.8A 2021-04-16 2021-04-16 语音信号增强方法、装置及电子设备 Active CN113241089B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN202110410394.8A CN113241089B (zh) 2021-04-16 2021-04-16 语音信号增强方法、装置及电子设备
PCT/CN2022/086098 WO2022218254A1 (zh) 2021-04-16 2022-04-11 语音信号增强方法、装置及电子设备
EP22787480.7A EP4325487A1 (en) 2021-04-16 2022-04-11 Voice signal enhancement method and apparatus, and electronic device
US18/484,927 US20240046947A1 (en) 2021-04-16 2023-10-11 Speech signal enhancement method and apparatus, and electronic device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110410394.8A CN113241089B (zh) 2021-04-16 2021-04-16 语音信号增强方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN113241089A CN113241089A (zh) 2021-08-10
CN113241089B true CN113241089B (zh) 2024-02-23

Family

ID=77128304

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110410394.8A Active CN113241089B (zh) 2021-04-16 2021-04-16 语音信号增强方法、装置及电子设备

Country Status (4)

Country Link
US (1) US20240046947A1 (zh)
EP (1) EP4325487A1 (zh)
CN (1) CN113241089B (zh)
WO (1) WO2022218254A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113241089B (zh) * 2021-04-16 2024-02-23 维沃移动通信有限公司 语音信号增强方法、装置及电子设备
CN114582365B (zh) * 2022-05-05 2022-09-06 阿里巴巴(中国)有限公司 音频处理方法和装置、存储介质和电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6014620A (en) * 1995-06-21 2000-01-11 Telefonaktiebolaget Lm Ericsson Power spectral density estimation method and apparatus using LPC analysis
US6965860B1 (en) * 1999-04-23 2005-11-15 Canon Kabushiki Kaisha Speech processing apparatus and method measuring signal to noise ratio and scaling speech and noise
CN102664003A (zh) * 2012-04-24 2012-09-12 南京邮电大学 基于谐波加噪声模型的残差激励信号合成及语音转换方法
CN103456310A (zh) * 2013-08-28 2013-12-18 大连理工大学 一种基于谱估计的瞬态噪声抑制方法
CN104704560A (zh) * 2012-09-04 2015-06-10 纽昂斯通讯公司 共振峰依赖的语音信号增强
CN111899752A (zh) * 2020-07-13 2020-11-06 紫光展锐(重庆)科技有限公司 快速计算语音存在概率的噪声抑制方法及装置、存储介质、终端

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100750148B1 (ko) * 2005-12-22 2007-08-17 삼성전자주식회사 음성신호 제거 장치 및 그 방법
DK2151820T3 (da) * 2008-07-21 2012-02-06 Siemens Medical Instr Pte Ltd Fremgangsmåde til forspændingskompensation med henblik på cepstro-temporal udglatning af spektralfilterforstærkninger
EP3107097B1 (en) * 2015-06-17 2017-11-15 Nxp B.V. Improved speech intelligilibility
CN105845150B (zh) * 2016-03-21 2019-09-27 福州瑞芯微电子股份有限公司 一种采用倒谱进行修正的语音增强方法及系统
JP6545419B2 (ja) * 2017-03-08 2019-07-17 三菱電機株式会社 音響信号処理装置、音響信号処理方法、及びハンズフリー通話装置
CN107910011B (zh) * 2017-12-28 2021-05-04 科大讯飞股份有限公司 一种语音降噪方法、装置、服务器及存储介质
CN110875049B (zh) * 2019-10-25 2023-09-15 腾讯科技(深圳)有限公司 语音信号的处理方法及装置
CN113241089B (zh) * 2021-04-16 2024-02-23 维沃移动通信有限公司 语音信号增强方法、装置及电子设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6014620A (en) * 1995-06-21 2000-01-11 Telefonaktiebolaget Lm Ericsson Power spectral density estimation method and apparatus using LPC analysis
US6965860B1 (en) * 1999-04-23 2005-11-15 Canon Kabushiki Kaisha Speech processing apparatus and method measuring signal to noise ratio and scaling speech and noise
CN102664003A (zh) * 2012-04-24 2012-09-12 南京邮电大学 基于谐波加噪声模型的残差激励信号合成及语音转换方法
CN104704560A (zh) * 2012-09-04 2015-06-10 纽昂斯通讯公司 共振峰依赖的语音信号增强
CN103456310A (zh) * 2013-08-28 2013-12-18 大连理工大学 一种基于谱估计的瞬态噪声抑制方法
CN111899752A (zh) * 2020-07-13 2020-11-06 紫光展锐(重庆)科技有限公司 快速计算语音存在概率的噪声抑制方法及装置、存储介质、终端

Also Published As

Publication number Publication date
CN113241089A (zh) 2021-08-10
WO2022218254A1 (zh) 2022-10-20
US20240046947A1 (en) 2024-02-08
EP4325487A1 (en) 2024-02-21

Similar Documents

Publication Publication Date Title
US10504539B2 (en) Voice activity detection systems and methods
WO2022012367A1 (zh) 快速计算语音存在概率的噪声抑制方法及装置、存储介质、终端
CN103109320B (zh) 噪声抑制装置
WO2022218254A1 (zh) 语音信号增强方法、装置及电子设备
CN111445919B (zh) 结合ai模型的语音增强方法、系统、电子设备和介质
CN111968658B (zh) 语音信号的增强方法、装置、电子设备和存储介质
CN112309417B (zh) 风噪抑制的音频信号处理方法、装置、系统和可读介质
JPWO2013118192A1 (ja) 雑音抑圧装置
JP2008065090A (ja) ノイズサプレス装置
CN111261148B (zh) 语音模型的训练方法、语音增强处理方法及相关设备
CN110556125B (zh) 基于语音信号的特征提取方法、设备及计算机存储介质
CN110875049B (zh) 语音信号的处理方法及装置
WO2021007841A1 (zh) 噪声估计方法、噪声估计装置、语音处理芯片以及电子设备
CN112951259A (zh) 音频降噪方法、装置、电子设备及计算机可读存储介质
JP2015501002A (ja) 混合信号における音声を強調する方法
EP4189677B1 (en) Noise reduction using machine learning
WO2020024787A1 (zh) 音乐噪声抑制方法及装置
CN113160846B (zh) 噪声抑制方法和电子设备
WO2017128910A1 (zh) 一种语音出现概率的确定方法、装置及电子设备
Islam et al. Speech enhancement based on noise compensated magnitude spectrum
Pallavi et al. Phase-locked Loop (PLL) Based Phase Estimation in Single Channel Speech Enhancement.
Liu et al. An improved spectral subtraction method
CN114822577B (zh) 语音信号基频估计方法和装置
CN115346545B (zh) 一种基于测量域噪声相减的压缩感知语音增强方法
Selvi et al. Speech Enhancement using Adaptive Filtering with Different Window Functions and Overlapping Sizes

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant