CN108962275A - 一种音乐噪声抑制方法及装置 - Google Patents

一种音乐噪声抑制方法及装置 Download PDF

Info

Publication number
CN108962275A
CN108962275A CN201810863520.3A CN201810863520A CN108962275A CN 108962275 A CN108962275 A CN 108962275A CN 201810863520 A CN201810863520 A CN 201810863520A CN 108962275 A CN108962275 A CN 108962275A
Authority
CN
China
Prior art keywords
cepstrum
gain function
input signal
initial
digital speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810863520.3A
Other languages
English (en)
Other versions
CN108962275B (zh
Inventor
李佳芮
梁民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Telecommunications Science and Technology Research Institute Co Ltd
Original Assignee
Telecommunications Science and Technology Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Telecommunications Science and Technology Research Institute Co Ltd filed Critical Telecommunications Science and Technology Research Institute Co Ltd
Priority to CN201810863520.3A priority Critical patent/CN108962275B/zh
Publication of CN108962275A publication Critical patent/CN108962275A/zh
Priority to PCT/CN2019/096080 priority patent/WO2020024787A1/zh
Application granted granted Critical
Publication of CN108962275B publication Critical patent/CN108962275B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明提供了一种音乐噪声抑制方法及装置,涉及语音信号处理技术领域。该音乐噪声抑制方法,包括:获取与数字语音输入信号的语音活性程度相关联的特征参数;根据所述特征参数,获取对用于数字语音输入信号增强的初始增益函数所对应的倒谱进行平滑处理的平滑因子;利用所述平滑因子,对所述初始增益函数所对应的倒谱进行平滑处理,得到平滑处理后的倒谱所对应的用于数字语音输入信号增强的最终增益函数。上述方案,可以有效抑制数字语音增强后输出信号中的音乐噪声,从而进一步改善与提高增强处理后的语音听觉感知效果。

Description

一种音乐噪声抑制方法及装置
技术领域
本发明涉及语音信号处理技术领域,特别涉及一种音乐噪声抑制方法及装置。
背景技术
很多数字语音增强算法通过自适应频谱增益函数来修正信号频谱幅值,这些算法容易产生短时的奇异谱峰,这些短时的奇异谱峰诱发了在增强后数字语音信号中音乐噪声的出现,从而影响语音通信系统质量。
尽管目前已有技术方案对音乐噪声有一定的抑制效果,但是其缺陷也不可忽视。软增益谱加权方法虽对音乐噪声有一定的抑制,但因其对噪声功率谱密度和信噪比(SNR)的估计误差很敏感,所以达不到较好地抑制音乐噪声的效果;为改善软增益谱加权方法对相关估计误差的敏感性这一缺陷,一方面,有关学者提出了一种称之为自适应噪声环境的增益函数滤波器,但该增益函数滤波器会损伤语音信号本身,并且增强后的数字语音信号中仍有少量能感知的音乐噪声残留;另外,人们提出了利用搜索并去除诱发音乐噪声的滤波信号中奇异谱峰来达到抑制音乐噪声的目的技术,不幸的是应用该技术所生成的增强后的数字语音信号中仍有能感知音乐噪声残留。另一方面,人们还开展对短时频谱增益函数进行时间递归平滑来抑制音乐噪声的方法研究,但平滑处理也会严重影响语音信号成分的本身而带来的听觉不适。注意到在频谱增益函数的倒谱域进行平滑可以有效地抑制视为音乐噪声的持续时间短的倒谱域峰值,并且倒谱域平滑可以保留语音起始点、爆破音以及浊音等准静态窄带结构的这一特性,于是有关学者则提出对频谱增益函数的倒谱进行时间递归平滑的方法,该方法尽管取得了明显的抑制音乐噪声的效果,但其性能强烈地依赖于语音活性检测器(Voice Activity Detector,VAD)的性能,在VAD漏检或误检的情况下,该方法对音乐噪声的抑制性能急剧恶化。
发明内容
本发明实施例提供一种音乐噪声抑制方法及装置,以解决现有的音乐噪声抑制方案,存在依赖于SNR估计、影响语音成分、依赖于VAD检测准确率等的问题。
为了解决上述技术问题,本发明实施例提供一种音乐噪声抑制方法,包括:
获取与数字语音输入信号的语音活性程度相关联的特征参数;
根据所述特征参数,获取对用于数字语音输入信号增强的初始增益函数所对应的倒谱进行平滑处理的平滑因子;
利用所述平滑因子,对所述初始增益函数所对应的倒谱进行平滑处理,得到平滑处理后的倒谱所对应的用于数字语音输入信号增强的最终增益函数。
进一步地,所述特征参数包括:语音活性程度统计量或者语音出现概率。
具体地,在所述特征参数为语音活性程度统计量时,所述语音活性程度统计量的获取方式,包括:
根据公式:获取语音活性程度统计量;
其中,ξ(t)为第t帧数字语音输入信号的语音活性程度统计量;t为数字语音输入信号的帧时间索引;
当初始增益函数为初始频域增益函数时,G(t,k)为第t帧第k个频点的用于数字语音输入信号增强的初始频域增益函数,X(t,k)为第t帧第k个频点的数字语音输入信号的离散短时傅里叶变换值,k为频点索引,且k=0,1,2,...,N-1,N为离散短时傅里叶变换中窗函数的长度;或者
当初始增益函数为初始子带域增益函数时,G(t,k)为第t帧用于修正X(t,k)的初始子带域增益函数,X(t,k)为第t帧第k个子带的数字语音输入信号的子带谱,k为子带索引,k=0,1,2,...,N-1,N为数字语音输入信号的子带变换中分析滤波器组使用的离散傅里叶变换的长度。
进一步地,所述根据所述特征参数,获取对用于数字语音输入信号增强的初始增益函数所对应的倒谱进行平滑处理的平滑因子,包括:
根据公式:获取平滑因子;
其中,βsoft(t)为平滑因子;βmin为平滑因子的下界;βmax为平滑因子的上界,且0<βmin<βmax<1;Thspeech和Thnoise为预设的阈值参数,且0≤Thnoise<Thspeech≤1;A为特征参数;F(A)为正的减函数;t为信号的帧时间索引。
具体地,F(A)包括:正的线性减函数或者正的非线性减函数。
具体地,当F(A)为正的线性减函数时,F(A)采用如下方式实现:
根据公式:获取;
其中,βmin为平滑因子的下界;βmax为平滑因子的上界,且0<βmin<βmax<1;Thspeech和Thnoise为预设的阈值参数,且0≤Thnoise<Thspeech≤1;A为特征参数;t为数字语音输入信号的帧时间索引。
进一步地,所述利用所述平滑因子,对所述初始增益函数所对应的倒谱进行平滑处理,得到平滑处理后的倒谱所对应的用于数字语音输入信号增强的最终增益函数,包括:
根据所述平滑因子,对所述初始增益函数所对应的倒谱进行平滑处理;
利用进行平滑处理后的倒谱,得到平滑处理后的倒谱所对应的用于数字语音输入信号增强的最终增益函数。
进一步地,所述根据所述平滑因子,对所述初始增益函数所对应的倒谱进行平滑处理,包括:
根据公式:
对所述初始增益函数所对应的倒谱进行平滑处理;
其中,为平滑处理后的第t帧第k′倒谱域索引处的初始增益函数所对应的倒谱值;为平滑处理后的第t-1帧第k′倒谱域索引处的初始增益函数所对应的倒谱值;βmax为平滑因子的上界;Gcepst(t,k′)为用于数字语音输入信号增强的初始增益函数所对应的倒谱;βsoft(t)为平滑因子;k′为倒谱域索引,k′=0,1,2,...,N-1,k′low为对初始增益函数所对应的倒谱进行平滑处理的倒谱域预设的起始索引值;K′pb为倒谱域索引子集,且K′pb={k′pb-1,k′pb,k′pb+1},其中,k′pb满足Gcepst(t,k′pb)=max{Gcepst(t,k′),k′∈[N1,N2]}, fs是单位为赫兹的采样频率,为不大于fs/500的最大整数,为不小于fs/70的最小整数;t为数字语音输入信号的帧时间索引;
当初始增益函数为初始频域增益函数时,N为离散短时傅里叶变换中窗函数的长度;
当初始增益函数为初始子带域增益函数时,N为数字语音输入信号的子带变换中分析滤波器组使用的离散傅里叶变换的长度。
本发明实施例还提供一种音乐噪声抑制装置,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序;其中,所述处理器执行所述计算机程序时实现以下步骤:
获取与数字语音输入信号的语音活性程度相关联的特征参数;
根据所述特征参数,获取对用于数字语音输入信号增强的初始增益函数所对应的倒谱进行平滑处理的平滑因子;
利用所述平滑因子,对所述初始增益函数所对应的倒谱进行平滑处理,得到平滑处理后的倒谱所对应的用于数字语音输入信号增强的最终增益函数。
进一步地,所述特征参数包括:语音活性程度统计量或者语音出现概率。
具体地,在所述特征参数包括:语音活性程度统计量时,所述处理器执行所述计算机程序时实现以下步骤:
根据公式:获取语音活性程度统计量;
其中,ξ(t)为第t帧数字语音输入信号的语音活性程度统计量;t为数字语音输入信号的帧时间索引;
当初始增益函数为初始频域增益函数时,G(t,k)为第t帧第k个频点的用于数字语音输入信号增强的初始频域增益函数,X(t,k)为第t帧第k个频点的数字语音输入信号的离散短时傅里叶变换值,k为频点索引,且k=0,1,2,...,N-1,N为离散短时傅里叶变换中窗函数的长度;或者
当初始增益函数为初始子带域增益函数时,G(t,k)为第t帧用于修正X(t,k)的初始子带域增益函数,X(t,k)为第t帧第k个子带的数字语音输入信号的子带谱,k为子带索引,k=0,1,2,...,N-1,N为数字语音输入信号的子带变换中分析滤波器组使用的离散傅里叶变换的长度。
进一步地,所述处理器执行所述计算机程序时实现以下步骤:
根据公式:获取平滑因子;
其中,βsoft(t)为平滑因子;βmin为平滑因子的下界;βmax为平滑因子的上界,且0<βmin<βmax<1;Thspeech和Thnoise为预设的阈值参数,且0≤Thnoise<Thspeech≤1;A为特征参数;F(A)为正的减函数;t为信号的帧时间索引。
进一步地,F(A)包括:正的线性减函数或者正的非线性减函数。
具体地,当F(A)为正的线性减函数时,所述处理器执行所述计算机程序时实现以下步骤:
根据公式:获取;
其中,βmin为平滑因子的下界;βmax为平滑因子的上界,且0<βmin<βmax<1;Thspeech和Thnoise为预设的阈值参数,且0≤Thnoise<Thspeech≤1;A为特征参数;t为数字语音输入信号的帧时间索引。
进一步地,所述处理器执行所述计算机程序时实现以下步骤:
根据所述平滑因子,对所述初始增益函数所对应的倒谱进行平滑处理;
利用进行平滑处理后的倒谱,得到平滑处理后的倒谱所对应的用于数字语音输入信号增强的最终增益函数。
进一步地,所述处理器执行所述计算机程序时实现以下步骤:
根据公式:
对所述初始增益函数所对应的倒谱进行平滑处理;
其中,为平滑处理后的第t帧第k′倒谱域索引处的初始增益函数所对应的倒谱值;为平滑处理后的第t-1帧第k′倒谱域索引处的初始增益函数所对应的倒谱值;βmax为平滑因子的上界;Gcepst(t,k′)为用于数字语音输入信号增强的初始增益函数所对应的倒谱;βsoft(t)为平滑因子;k′为倒谱域索引,k′=0,1,2,...,N-1,k′low为对初始增益函数所对应的倒谱进行平滑处理的倒谱域预设的起始索引值;K′pb为倒谱域索引子集,且K′pb={k′pb-1,k′pb,k′pb+1},其中,k′pb满足Gcepst(t,k′pb)=max{Gcepst(t,k′),k′∈[N1,N2]}, fs是单位为赫兹的采样频率,为不大于fs/500的最大整数,为不小于fs/70的最小整数;t为数字语音输入信号的帧时间索引;
当初始增益函数为初始频域增益函数时,N为离散短时傅里叶变换中窗函数的长度;
当初始增益函数为初始子带域增益函数时,N为数字语音输入信号的子带变换中分析滤波器组使用的离散傅里叶变换的长度。
本发明实施例还提到一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的音乐噪声抑制方法。
本发明实施例还提到一种音乐噪声抑制装置,包括:
第一获取模块,用于获取与数字语音输入信号的语音活性程度相关联的特征参数;
第二获取模块,用于根据所述特征参数,获取对用于数字语音输入信号增强的初始增益函数所对应的倒谱进行平滑处理的平滑因子;
处理模块,用于利用所述平滑因子,对所述初始增益函数所对应的倒谱进行平滑处理,得到平滑处理后的倒谱所对应的用于数字语音输入信号增强的最终增益函数。
进一步地,所述特征参数包括:语音活性程度统计量或者语音出现概率。
具体地,在所述特征参数为语音活性程度统计量时,所述语音活性程度统计量的获取方式,包括:
根据公式:获取语音活性程度统计量;
其中,ξ(t)为第t帧数字语音输入信号的语音活性程度统计量;t为数字语音输入信号的帧时间索引;
当初始增益函数为初始频域增益函数时,G(t,k)为第t帧第k个频点的用于数字语音输入信号增强的初始频域增益函数,X(t,k)为第t帧第k个频点的数字语音输入信号的离散短时傅里叶变换值,k为频点索引,且k=0,1,2,...,N-1,N为离散短时傅里叶变换中窗函数的长度;
当初始增益函数为初始子带域增益函数时,G(t,k)为第t帧用于修正X(t,k)的初始子带域增益函数,X(t,k)为第t帧第k个子带的数字语音输入信号的子带谱,k为子带索引,k=0,1,2,...,N-1,N为数字语音输入信号的子带变换中分析滤波器组使用的离散傅里叶变换的长度。
进一步地,所述第二获取模块,用于:
根据公式:获取平滑因子;
其中,βsoft(t)为平滑因子;βmin为平滑因子的下界;βmax为平滑因子的上界,且0<βmin<βmax<1;Thspeech和Thnoise为预设的阈值参数,且0≤Thnoise<Thspeech≤1;A为特征参数;F(A)为正的减函数;t为信号的帧时间索引。
进一步地,F(A)包括:正的线性减函数或者正的非线性减函数。
具体地,当F(A)为正的线性减函数时,F(A)采用如下方式实现:
根据公式:获取;
其中,βmin为平滑因子的下界;βmax为平滑因子的上界,且0<βmin<βmax<1;Thspeech和Thnoise为预设的阈值参数,且0≤Thnoise<Thspeech≤1;A为特征参数;t为数字语音输入信号的帧时间索引。
进一步地,所述处理模块,包括:
处理单元,用于根据所述平滑因子,对所述初始增益函数所对应的倒谱进行平滑处理;
获取单元,用于利用进行平滑处理后的倒谱,得到平滑处理后的倒谱所对应的用于数字语音输入信号增强的最终增益函数。
进一步地,所述处理单元,用于:
根据公式:
对所述初始增益函数所对应的倒谱进行平滑处理;
其中,为平滑处理后的第t帧第k′倒谱域索引处的初始增益函数所对应的倒谱值;为平滑处理后的第t-1帧第k′倒谱域索引处的初始增益函数所对应的倒谱值;βmax为平滑因子的上界;Gcepst(t,k′)为用于数字语音输入信号增强的初始增益函数所对应的倒谱;βsoft(t)为平滑因子;k′为倒谱域索引,k′=0,1,2,...,N-1,k′low为对初始增益函数所对应的倒谱进行平滑处理的倒谱域预设的起始索引值;K′pb为倒谱域索引子集,且K′pb={k′pb-1,k′pb,k′pb+1},其中,k′pb满足Gcepst(t,k′pb)=max{Gcepst(t,k′),k′∈[N1,N2]}, fs是单位为赫兹的采样频率,为不大于fs/500的最大整数,为不小于fs/70的最小整数;t为数字语音输入信号的帧时间索引;
当初始增益函数为初始频域增益函数时,N为离散短时傅里叶变换中窗函数的长度;
当初始增益函数为初始子带域增益函数时,N为数字语音输入信号的子带变换中分析滤波器组使用的离散傅里叶变换的长度。
本发明的有益效果是:
上述方案,通过采用与数字语音输入信号的语音活性程度相关联的特征参数,获取对用于数字语音输入信号增强的初始增益函数所对应的倒谱进行平滑处理的平滑因子,利用该平滑因子实现对初始增益函数所对应的倒谱,进而得到倒谱平滑处理后的用于数字语音输入信号增强的最终增益函数,以此可以有效抑制数字语音增强后输出信号中的音乐噪声,从而进一步改善与提高增强处理后的语音听觉感知效果。
附图说明
图1表示本发明实施例的音乐噪声抑制方法的流程示意图;
图2表示本发明实施例的音乐噪声抑制装置的模块示意图;
图3表示本发明实施例的音乐噪声抑制装置的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图及具体实施例对本发明进行详细描述。
下面先对与本发明相关的技术进行具体说明如下。
在语音通信系统中,背景噪声严重损伤了语音质量和可懂度,并增加了听者疲劳。为此,人们研究并提出了许多用于含噪语音信号增强的行之有效的方法。在众多的语音增强技术方法中,谱减法由于其简单、易于实现,因而得到了广泛地应用。该方法基于语音信号的短时幅度比短时相位更重要的感觉特性这一观点,直接从含噪语音信号谱幅度中减去噪声谱幅度来获取增强语音谱幅度,并利用含噪语音信号自身的相位信息来重建增强后的“纯净”语音信号。传统的谱减法在抑制噪声的同时损伤了可懂度,并且带来了频谱系数的相对较大的变化,在滤波器增益的调整中,会出现一些短时异常的频谱幅度峰值,导致音乐噪声的产生。谱减技术可成功衰减原始含噪语音信号中的噪声,但由于“音乐噪声”的引入,使增强后的语音整体质量并未明显改善,听者常能发现处理后语音中的音乐噪声比原始信号中的噪声更为清晰,从而导致不舒适的听觉体验。音乐噪声严重限制了谱减技术的进一步应用和推广。
为避免或减少音乐噪声的产生,一方面,有关技术人员提出一种称之为软增益谱加权技术。该方法对每个频点计算其无语音存在的先验概率q,通过q值修正增益并控制噪声谱计算的更新。由于该方法依赖于噪声功率谱密度和信噪比(SNR)的估计,因此它对这两个参数的估计误差很敏感,而这些估计误差在含噪语音信号的统计处理中是不可避免的,由此导致该方法对音乐噪声的抑制性能通常欠佳。为此,人们设计一种对噪声环境有自适应特性噪声环境的增益函数滤波器;但这种方法会造成语音本身的损伤并同时仍有在听觉上能感知的残留音乐噪声。另一种试图改善软增益谱加权技术性能的方法,则基于搜索并去除导致音乐噪声的滤波信号中的频谱幅度短时奇异谱峰的这一思想,该方法首先对含噪语音信号进行过估计得到语音成分频谱和其区域,然后对含噪语音进行噪声估计,通过谱减法得到降噪信号,最后对未标记为语音区域的频谱成分进行中值滤波,从而抑制音乐噪声;实际应用中发现该方法仍有在听觉上能感知的音乐噪声残留。另一方面,有关技术人员将时间递归平均技术应用于波动的短时频谱增益函数的平滑,即对短时频谱增益沿着时间轴进行平滑处理;鉴于这种时间平滑通常也会严重影响到语音信号成分的本身,那么平滑处理也会严重影响语音信号成分的本身,因而带来的听觉不适。注意到在频谱增益函数的倒谱域进行平滑可以有效地抑制视为音乐噪声的持续时间短的倒谱域峰值,并且倒谱域平滑可以保留语音起始点、爆破音以及浊音等准静态窄带结构,于是有关学者则提出对频谱增益函数的倒谱进行时间递归平滑的方法,该方法尽管取得了明显的抑制音乐噪声的效果,但其性能强烈地依赖于VAD的检测性能,在VAD漏检或误检的情况下,该方法对音乐噪声的抑制性能急剧恶化。
针对上述方案依赖于SNR估计、影响语音成分、依赖于VAD检测准确率等问题,本发明实施例提出了一种音乐噪声抑制方法及装置,其主要思想是:既然倒谱平滑可以有效地抑制被视为音乐噪声的持续时间短的谱峰,并且倒谱平滑可以保留语音起始点、爆破音以及浊音等准静态窄带结构,那么针对目前已有增益函数倒谱平滑技术需要进行VAD判定的缺陷,本发明实施例提出一种改进的方案:根据用于增强数字语音输入信号x(n)的初始频域增益函数G(t,k)和其离散短时傅里叶变换值X(t,k)来计算能表达每帧输入信号的语音活性程度统计量ξ(t),基于该语音活性程度统计量ξ(t)来构造和计算一种对初始频域增益函数G(t,k)的倒谱进行递归时间平滑处理的自适应平滑因子,从而无需对输入信号进行VAD检测,以避免采用VAD时其漏检或误检对平滑结果产生影响。由于对初始频域增益函数的倒谱系数进行平滑,所以可防止滤波器初始频域增益函数的单个系数独立于其邻近频点系数而变化过大,进而抑制了增强后的语音信号中的音乐噪声。
在进行本发明实施例之前,首先要获取用于数字语音输入信号增强的初始频域增益函数,主要获取过程为:众所周知,含噪的数字语音输入信号x(n)可用公式一表示为:
公式一、x(n)=s(n)+v(n);
其中,s(n)为源语音数字信号,v(n)噪声数字信号,n为数字信号的样本点时间索引。
对公式一两边进行离散短时傅里叶变换(Discrete-time Short-Time FourierTransform,DSTFT)则得:
公式二、X(t,k)=S(t,k)+V(t,k);
其中,X(t,k)为x(n)对应的DSTFT值,S(t,k)为s(n)对应的DSTFT值,V(t,k)为v(n)对应的DSTFT值,t为数字语音输入信号的帧时间索引,k为数字信号的频率点索引,且k=0,1,2,...,N-1,N为DSTFT中窗函数的长度。
显然,用于数字语音输入信号增强的初始频域增益函数G(t,k)实际上是一个后置滤波器,用来滤除噪声信号的影响。尽管G(t,k)的求解方法有很多,在众多的方法中,谱减法因其简单和易于实现,因而广为使用。Y.Ephraim和D.Malah将决策-引导(Decision-Directed,DD)递归技术运用于谱减法,提出了一种具有良好性能的初始频域增益函数G(t,k)求解方法,主要实现过程为:
对于含噪数字语音输入信号的频谱X(t,k)而言,噪声信号功率谱PV(t,k)通过公式三确定:
公式三、PV(t,k)=E{|V(t,k)|2}
该噪声信号功率谱PV(t,k)可由基于噪声最小统计量或其他方法来估计出,这里不做赘述。
记第t帧的先验信噪比为priSNR(t,k),那么应用DD递归技术来估计先验信噪比,并由此求解用于数字语音输入信号增强的初始频域增益函数,它可表达为:
公式四、
priSNR(t,k)=α·priSNR2(t,k)+(1-α)·max{postSNR(t,k)-1,0}
其中,0<α<1为预定的递归平滑系数,postSNR(t,k)为后验信噪比,表示为:
公式五、
公式六、priSNR2(t,k)=G2(t-1,k)·postSNR(t-1,k);
公式七、
为了避免估计出的噪声信号幅度谱大于接收到的语音瞬时幅度谱,使用一个增益门限Gmin来控制增益函数的最小值。
综上,通过先验信噪比计算初始频域增益函数G(t,k)抑制噪声信号时,初始频域增益函数估计为:
公式八、G(t,k)=max{Gmin,G(t,k)}
通过上述公式便可得到用于数字语音输入信号增强的初始频域增益函数,众所周知,应用初始频域增益函数G(t,k)进行语音增强,其增强后的语音中通常存在扰人的音乐噪声。尽管用Y.Ephraim和D.Malah的方法计算得到的初始频域增益函数G(t,k)在一定程度上缓解了音乐噪声问题,但尚不能根本解决此问题。为此,本发明实施例在C.Breithaupt等人的研究基础上,提出了一种基于增益函数倒谱域自适应平滑技术来抑制音乐噪声的新方法,其具体原理介绍如下:
首先对已获得的用于增强数字语音输入信号的初始频域增益函数G(t,k),求其倒谱Gcepst(t,k′),即:
公式九、
其中,k′为倒谱域索引,k′=0,1,2,...,N-1,
C.Breithaupt等人对Gcepst(t,k′)进行如下平滑处理:
对于k′∈{0,...,k′low-1}不做平滑,即这里k′low是倒谱域预设的起始倒索引值;而对于其它的k′,做如下平滑处理:
公式十、
这里,倒谱域索引k′∈{k′low,...,D-1}\K′,β应取0到1之间的一个较大的数值,记为βmax。K′为包含基音倒谱域系数索引k′pitch及其两个相邻倒谱域系数索引的子集,即:K′={k′pitch-1,k′pitch,k′pitch+1}。考虑到基音的范围通常为70~500Hz,那么对于采样频率为fsHz,在VAD检测结果为真时,k′pitch为闭区间上对应于Gcepst(t,k′)值最大的索引k′值,在无语音活性的情况下(即VAD检测结果为伪)时,无基音倒谱域系数索引k′pitch的存在,因而子集K′为空集。由此可见,VAD的误检和漏检错误将直接严重地恶化倒谱Gcepst(t,k′)的平滑处理性能。
为此本发明实施例提出一种无需VAD协助倒谱平滑技术,其主要思想为,在闭区间[N1,N2]上寻找基音倒谱域系数索引k′pitch的备选索引k′pb,存在:
公式十一、Gcepst(t,k′pb)=max{Gcepst(t,k′),k′∈[N1,N2]};
这里,
基于基音倒谱域系数的备选索引k′pb,定义下述的倒谱域索引子集K′pb
公式十二、
对于k′∈K′pb,采用一个自适应的平滑因子βsoft(t)进行平滑,该平滑因子是语音活性程度统计量ξ(t)的非严格递减函数,当该语音帧的ξ(t)较大时,βsoft(t)取较小值,以保留语音分量;当该语音帧的ξ(t)较小时,βsoft(t)取较大值,以便对音乐噪声进行充分平滑。语音帧活性检测统计量ξ(t)可定义如下:
公式十三、
当t帧数字语音输入信号包含噪声分量较多时,该帧的初始频域增益函数值通常较小,于是公式十三的分子值相对其分母值的比值较小,因而该帧语音的活性程度较低,即ξ(t)较小;反之,当t帧数字语音输入信号包含噪声分量较少时,该帧的初始频域增益函数值通常较大,于是公式十三的分子值相对其分母值的比值较大,因而该帧语音的活性程度较高,即ξ(t)较大。可见公式十三的ξ(t)能很好地度量输入信号帧的语音活性程度,据此可构造自适应平滑因子βsoft(t)如下:
公式十四、
根据公式:
其中F(ξ(t))为任一正的减函数,参数Thspeech和Thnoise分别为二个预定的阈值参数,且1≥Thspeech>Thnoise≥0,0<βmin<βmax<1分别为自适应平滑因子βsoft(t)取值的下界和上界预定参数。作为公式十四的一种实现实例,我们可以如下定义βsoft(t):
公式十五、
需要说明的是,上述的ξ(t)只是本发明实施例中的一种具体,可选地,还可以采用语音出现概率进行平滑因子的获取,该ξ(t)和语音出现概率均可以看作是与数字语音输入信号的语音活性程度相关联的特征参数,它们分别都可以进行平滑因子的获取,具体地,本发明实施例中用A表示特征参数;F(A)为正的减函数,且F(A)包括但不限于正的线性减函数,可以是任一正的非线性减函数,具体地,公式十五中给出了一种当特征参数为ξ(t)时,正的线性减函数的一种实现方式。
综上所述,本发明提出的初始频域增益函数倒谱平滑技术可由下述公式十六来归结,即:
公式十六:
最后,对于平滑后的频域增益函数倒谱进行反变换,则得用于数字语音输入信号增强的最终增益函数为:
公式十七、
需要说明的是,上述是频域语音增强的角度进行的初始增益函数的处理过程,本发明的原理还可以类推,应用于子带域语音增强的处理过程。
具体地,如图1所示,本发明实施例的音乐噪声抑制方法,包括:
步骤11,获取与数字语音输入信号的语音活性程度相关联的特征参数;
步骤12,根据所述特征参数,获取对用于数字语音输入信号增强的初始增益函数所对应的倒谱进行平滑处理的平滑因子;
步骤13,利用所述平滑因子,对所述初始增益函数所对应的倒谱进行平滑处理,得到平滑处理后的倒谱所对应的用于数字语音输入信号增强的最终增益函数。
需要说明的,所述特征参数包括但不限于:语音活性程度统计量或者语音出现概率。
具体地,在所述特征参数为语音活性程度统计量时,所述语音活性程度统计量的获取方式,包括:
根据公式十三:获取语音活性程度统计量;
其中,ξ(t)为第t帧数字语音输入信号的语音活性程度统计量;t为数字语音输入信号的帧时间索引;
当初始增益函数为初始频域增益函数时,G(t,k)为第t帧第k个频点的用于数字语音输入信号增强的初始频域增益函数,X(t,k)为第t帧第k个频点的数字语音输入信号的离散短时傅里叶变换值,k为频点索引,且k=0,1,2,...,N-1,N为离散短时傅里叶变换中窗函数的长度;
当初始增益函数为初始子带域增益函数时,G(t,k)为第t帧用于修正X(t,k)的初始子带域增益函数,X(t,k)为第t帧第k个子带的数字语音输入信号的子带谱,k为子带索引,k=0,1,2,...,N-1,N为数字语音输入信号的子带变换中分析滤波器组使用的离散傅里叶变换的长度。
具体地,所述步骤12的具体实现方式,包括:
根据公式十四:获取平滑因子;
其中,βsoft(t)为平滑因子;βmin为平滑因子的下界;βmax为平滑因子的上界,且0<βmin<βmax<1;Thspeech和Thnoise为预设的阈值参数,且0≤Thnoise<Thspeech≤1;A为特征参数;F(A)为正的减函数;t为信号的帧时间索引。
具体地,F(A)包括但不限于:正的线性减函数或者正的非线性减函数。
进一步地,当F(A)为正的线性减函数时,F(A)采用如下方式实现:
根据公式十五:获取;
其中,βmin为平滑因子的下界;βmax为平滑因子的上界,且0<βmin<βmax<1;Thspeech和Thnoise为预设的阈值参数,且0≤Thnoise<Thspeech≤1;A为特征参数;t为数字语音输入信号的帧时间索引。
进一步地,所述步骤13的具体实现方式,包括:
根据所述平滑因子,对所述初始增益函数所对应的倒谱进行平滑处理;
利用进行平滑处理后的倒谱,得到平滑处理后的倒谱所对应的用于数字语音输入信号增强的最终增益函数。
具体地,所述根据所述平滑因子,对所述初始增益函数所对应的倒谱进行平滑处理,包括:
根据公式十六:
对所述初始增益函数所对应的倒谱进行平滑处理;
其中,为平滑处理后的第t帧第k′倒谱域索引处的初始增益函数所对应的倒谱值;为平滑处理后的第t-1帧第k′倒谱域索引处的初始增益函数所对应的倒谱值;βmax为平滑因子的上界;Gcepst(t,k′)为用于数字语音输入信号增强的初始增益函数所对应的倒谱;βsoft(t)为平滑因子;k′为倒谱域索引,k′=0,1,2,...,N-1,k′low为对初始增益函数所对应的倒谱进行平滑处理的倒谱域预设的起始索引值;K′pb为倒谱域索引子集,且K′pb={k′pb-1,k′pb,k′pb+1},其中,k′pb满足Gcepst(t,k′pb)=max{Gcepst(t,k′),k′∈[N1,N2]}, fs是单位为赫兹的采样频率,为不大于fs/500的最大整数,为不小于fs/70的最小整数;t为数字语音输入信号的帧时间索引;
当初始增益函数为初始频域增益函数时,N为离散短时傅里叶变换中窗函数的长度;
当初始增益函数为初始子带域增益函数时,N为数字语音输入信号的子带变换中分析滤波器组使用的离散傅里叶变换的长度。
综上所述,下面以初始频域增益函数G(t,k)进行音乐噪声抑制为例,对上述所说的音乐噪声抑制方法的整体实现过程说明如下:
步骤1---处理开始并初始化:
初始化常数参数:0≤Thnoise<Thspeech≤1,0<βmin<βmax<1,帧序号t=0;
步骤2---计算初始频域增益函数G(t,k):对所有k=0,1,2,...,N-1,作下述处理:
步骤2.1、更新信号帧序号t:t=t+1;
步骤2.2、根据公式四至公式六计算先验信噪比priSNR(t,k);
步骤2.3、根据公式七和公式八计算G(t,k);
步骤3---初始频域增益函数倒谱平滑:
步骤3.1、根据公式九计算初始频域增益函数的倒谱Gcepst(t,k′);
步骤3.2、根据公式十三计算当前帧语音帧活性检测统计量ξ(t);
步骤3.3、根据公式十四或公式十五计算βsoft(t);
步骤3.4、根据十一、公式十二和公式十六对初始频域增益函数的倒谱进行平滑计算;
步3.5、根据公式十七对倒谱平滑后的初始频域增益函数进行反变换,输出平滑后的最终增益函数Gsmooth(t,k);
步骤3.6、输入信号是否结束,如果是,跳转步骤4,否则,跳转步骤2;
步骤4---处理结束。
需要说明的是,本发明实施例针对目前已有增益函数倒谱平滑技术需要进行VAD判定的缺陷,提出了一种新的音乐噪声抑制方法,该方法利用与数字语音输入信号的语音活性程度相关联的特征参数构造一种正的非严格递减数学映射函数,来获得一种用于增益函数倒谱时间递归平滑的自适应的平滑因子,用该平滑因子对初始增益函数的倒谱进行平滑处理时,无需对信号进行VAD检测,从而避免VAD漏检或误检对平滑结果产生影响;将自适应平滑处理后的初始增益函数倒谱逆变化回频域,即可得数字语音输入信号增强所需的并能抑制增强后输出语音信号中音乐噪声的最终增益函数。进一步需要说明的是,该特征参数不限于由数字语音输入信号的频谱和用于其增强的初始频域增益函数来定义的语音活性程度统计量,还可以为语音出现概率;该正的非严格递减数学映射函数中定义在闭区间[Thnoise,Thspeech]上的正的严格减函数不限于是语音活性程度统计量的正的线性减函数,也可以为任一正的非线性减函数。
本发明实施例提出的初始增益函数倒谱平滑技术不需要VAD检测,因而结果可靠,对语音分量的实际损伤极小;且本发明实施例的自适应的平滑因子相对固定平滑因子而言,使相应的平滑处理具有优良的环境自适应能力。
如图2所示,本发明实施例还提供一种音乐噪声抑制装置20,包括:
第一获取模块21,用于获取与数字语音输入信号的语音活性程度相关联的特征参数;
第二获取模块22,用于根据所述特征参数,获取对用于数字语音输入信号增强的初始增益函数所对应的倒谱进行平滑处理的平滑因子;
处理模块23,用于利用所述平滑因子,对所述初始增益函数所对应的倒谱进行平滑处理,得到平滑处理后的倒谱所对应的用于数字语音输入信号增强的最终增益函数。
进一步地,所述特征参数包括:语音活性程度统计量或者语音出现概率。
具体地,在所述特征参数为语音活性程度统计量时,所述语音活性程度统计量的获取方式,包括:
根据公式:获取语音活性程度统计量;
其中,ξ(t)为第t帧数字语音输入信号的语音活性程度统计量;t为数字语音输入信号的帧时间索引;
当初始增益函数为初始频域增益函数时,G(t,k)为第t帧第k个频点的用于数字语音输入信号增强的初始频域增益函数,X(t,k)为第t帧第k个频点的数字语音输入信号的离散短时傅里叶变换值,k为频点索引,且k=0,1,2,...,N-1,N为离散短时傅里叶变换中窗函数的长度;
当初始增益函数为初始子带域增益函数时,G(t,k)为第t帧用于修正X(t,k)的初始子带域增益函数,X(t,k)为第t帧第k个子带的数字语音输入信号的子带谱,k为子带索引,k=0,1,2,...,N-1,N为数字语音输入信号的子带变换中分析滤波器组使用的离散傅里叶变换的长度。
进一步地,所述第二获取模块22,用于:
根据公式:获取平滑因子;
其中,βsoft(t)为平滑因子;βmin为平滑因子的下界;βmax为平滑因子的上界,且0<βmin<βmax<1;Thspeech和Thnoise为预设的阈值参数,且0≤Thnoise<Thspeech≤1;A为特征参数;F(A)为正的减函数;t为信号的帧时间索引。
进一步地,F(A)包括:正的线性减函数或者正的非线性减函数。
具体地,当F(A)为正的线性减函数时,F(A)采用如下方式实现:
根据公式:获取;
其中,βmin为平滑因子的下界;βmax为平滑因子的上界,且0<βmin<βmax<1;Thspeech和Thnoise为预设的阈值参数,且0≤Thnoise<Thspeech≤1;A为特征参数;t为数字语音输入信号的帧时间索引。
进一步地,所述处理模块23,包括:
处理单元,用于根据所述平滑因子,对所述初始增益函数所对应的倒谱进行平滑处理;
获取单元,用于利用进行平滑处理后的倒谱,得到平滑处理后的倒谱所对应的用于数字语音输入信号增强的最终增益函数。
具体地,所述处理单元,用于:
根据公式:
对所述初始增益函数所对应的倒谱进行平滑处理;
其中,为平滑处理后的第t帧第k′倒谱域索引处的初始增益函数所对应的倒谱值;为平滑处理后的第t-1帧第k′倒谱域索引处的初始增益函数所对应的倒谱值;βmax为平滑因子的上界;Gcepst(t,k′)为用于数字语音输入信号增强的初始增益函数所对应的倒谱;βsoft(t)为平滑因子;k′为倒谱域索引,k′=0,1,2,...,N-1,k′low为对初始增益函数所对应的倒谱进行平滑处理的倒谱域预设的起始索引值;K′pb为倒谱域索引子集,且K′pb={k′pb-1,k′pb,k′pb+1},其中,k′pb满足Gcepst(t,k′pb)=max{Gcepst(t,k′),k′∈[N1,N2]}, fs是单位为赫兹的采样频率,为不大于fs/500的最大整数,为不小于fs/70的最小整数;t为数字语音输入信号的帧时间索引;
当初始增益函数为初始频域增益函数时,N为离散短时傅里叶变换中窗函数的长度;
当初始增益函数为初始子带域增益函数时,N为数字语音输入信号的子带变换中分析滤波器组使用的离散傅里叶变换的长度。
需要说明的是,该装置的实施例是与上述方法实施例一一对应的装置,上述方法实施例中所有实现方式均适用于该装置的实施例中,也能达到相同的技术效果。
如图3所示,本发明实施例还提供一种音乐噪声抑制装置,包括存储器31、处理器32及存储在所述存储器31上并可在所述处理器上运行的计算机程序,且所述存储器31通过总线接口33与所述处理器32连接;其中,所述处理器32执行所述计算机程序时实现以下步骤:
获取与数字语音输入信号的语音活性程度相关联的特征参数;
根据所述特征参数,获取对用于数字语音输入信号增强的初始增益函数所对应的倒谱进行平滑处理的平滑因子;
利用所述平滑因子,对所述初始增益函数所对应的倒谱进行平滑处理,得到平滑处理后的倒谱所对应的用于数字语音输入信号增强的最终增益函数。
进一步地,所述特征参数包括:语音活性程度统计量或者语音出现概率。
具体地,在所述特征参数为语音活性程度统计量时,所述处理器执行所述计算机程序时实现以下步骤:
根据公式:获取语音活性程度统计量;
其中,ξ(t)为第t帧数字语音输入信号的语音活性程度统计量;t为数字语音输入信号的帧时间索引;
当初始增益函数为初始频域增益函数时,G(t,k)为第t帧第k个频点的用于数字语音输入信号增强的初始频域增益函数,X(t,k)为第t帧第k个频点的数字语音输入信号的离散短时傅里叶变换值,k为频点索引,且k=0,1,2,...,N-1,N为离散短时傅里叶变换中窗函数的长度;
当初始增益函数为初始子带域增益函数时,G(t,k)为第t帧用于修正X(t,k)的初始子带域增益函数,X(t,k)为第t帧第k个子带的数字语音输入信号的子带谱,k为子带索引,k=0,1,2,...,N-1,N为数字语音输入信号的子带变换中分析滤波器组使用的离散傅里叶变换的长度。
进一步地,所述处理器执行所述计算机程序时实现以下步骤:
根据公式:获取平滑因子;
其中,βsoft(t)为平滑因子;βmin为平滑因子的下界;βmax为平滑因子的上界,且0<βmin<βmax<1;Thspeech和Thnoise为预设的阈值参数,且0≤Thnoise<Thspeech≤1;A为特征参数;F(A)为正的减函数;t为信号的帧时间索引。
进一步地,F(A)包括:正的线性减函数或者正的非线性减函数。
具体地,当F(A)为正的线性减函数时,所述处理器执行所述计算机程序时实现以下步骤:
根据公式:获取;
其中,βmin为平滑因子的下界;βmax为平滑因子的上界,且0<βmin<βmax<1;Thspeech和Thnoise为预设的阈值参数,且0≤Thnoise<Thspeech≤1;A为特征参数;t为数字语音输入信号的帧时间索引。
进一步地,所述处理器执行所述计算机程序时实现以下步骤:
根据所述平滑因子,对所述初始增益函数所对应的倒谱进行平滑处理;
利用进行平滑处理后的倒谱,得到平滑处理后的倒谱所对应的用于数字语音输入信号增强的最终增益函数。
具体地,所述处理器执行所述计算机程序时实现以下步骤:
根据公式:
对所述初始增益函数所对应的倒谱进行平滑处理;
其中,为平滑处理后的第t帧第k′倒谱域索引处的初始增益函数所对应的倒谱值;为平滑处理后的第t-1帧第k′倒谱域索引处的初始增益函数所对应的倒谱值;βmax为平滑因子的上界;Gcepst(t,k′)为用于数字语音输入信号增强的初始增益函数所对应的倒谱;βsoft(t)为平滑因子;k′为倒谱域索引,k′=0,1,2,...,N-1,k′low为对初始增益函数所对应的倒谱进行平滑处理的倒谱域预设的起始索引值;K′pb为倒谱域索引子集,且K′pb={k′pb-1,k′pb,k′pb+1},其中,k′pb满足Gcepst(t,k′pb)=max{Gcepst(t,k′),k′∈[N1,N2]}, fs是单位为赫兹的采样频率,为不大于fs/500的最大整数,为不小于fs/70的最小整数;t为数字语音输入信号的帧时间索引;
当初始增益函数为初始频域增益函数时,N为离散短时傅里叶变换中窗函数的长度;
当初始增益函数为初始子带域增益函数时,N为数字语音输入信号的子带变换中分析滤波器组使用的离散傅里叶变换的长度。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的音乐噪声抑制方法。
以上所述的是本发明的优选实施方式,应当指出对于本技术领域的普通人员来说,在不脱离本发明所述的原理前提下还可以作出若干改进和润饰,这些改进和润饰也在本发明的保护范围内。

Claims (25)

1.一种音乐噪声抑制方法,其特征在于,包括:
获取与数字语音输入信号的语音活性程度相关联的特征参数;
根据所述特征参数,获取对用于数字语音输入信号增强的初始增益函数所对应的倒谱进行平滑处理的平滑因子;
利用所述平滑因子,对所述初始增益函数所对应的倒谱进行平滑处理,得到平滑处理后的倒谱所对应的用于数字语音输入信号增强的最终增益函数。
2.根据权利要求1所述的音乐噪声抑制方法,其特征在于,所述特征参数包括:语音活性程度统计量或者语音出现概率。
3.根据权利要求2所述的音乐噪声抑制方法,其特征在于,在所述特征参数为语音活性程度统计量时,所述语音活性程度统计量的获取方式,包括:
根据公式:获取语音活性程度统计量;
其中,ξ(t)为第t帧数字语音输入信号的语音活性程度统计量;t为数字语音输入信号的帧时间索引;
当初始增益函数为初始频域增益函数时,G(t,k)为第t帧第k个频点的用于数字语音输入信号增强的初始频域增益函数,X(t,k)为第t帧第k个频点的数字语音输入信号的离散短时傅里叶变换值,k为频点索引,且k=0,1,2,...,N-1,N为离散短时傅里叶变换中窗函数的长度;
当初始增益函数为初始子带域增益函数时,G(t,k)为第t帧用于修正X(t,k)的初始子带域增益函数,X(t,k)为第t帧第k个子带的数字语音输入信号的子带谱,k为子带索引,k=0,1,2,...,N-1,N为数字语音输入信号的子带变换中分析滤波器组使用的离散傅里叶变换的长度。
4.根据权利要求1所述的音乐噪声抑制方法,其特征在于,所述根据所述特征参数,获取对用于数字语音输入信号增强的初始增益函数所对应的倒谱进行平滑处理的平滑因子,包括:
根据公式:获取平滑因子;
其中,βsoft(t)为平滑因子;βmin为平滑因子的下界;βmax为平滑因子的上界,且0<βmin<βmax<1;Thspeech和Thnoise为预设的阈值参数,且0≤Thnoise<Thspeech≤1;A为特征参数;F(A)为正的减函数;t为信号的帧时间索引。
5.根据权利要求4所述的音乐噪声抑制方法,其特征在于,F(A)包括:正的线性减函数或者正的非线性减函数。
6.根据权利要求5所述的音乐噪声抑制方法,其特征在于,当F(A)为正的线性减函数时,F(A)采用如下方式实现:
根据公式:获取;
其中,βmin为平滑因子的下界;βmax为平滑因子的上界,且0<βmin<βmax<1;Thspeech和Thnoise为预设的阈值参数,且0≤Thnoise<Thspeech≤1;A为特征参数;t为数字语音输入信号的帧时间索引。
7.根据权利要求1所述的音乐噪声抑制方法,其特征在于,所述利用所述平滑因子,对所述初始增益函数所对应的倒谱进行平滑处理,得到平滑处理后的倒谱所对应的用于数字语音输入信号增强的最终增益函数,包括:
根据所述平滑因子,对所述初始增益函数所对应的倒谱进行平滑处理;
利用进行平滑处理后的倒谱,得到平滑处理后的倒谱所对应的用于数字语音输入信号增强的最终增益函数。
8.根据权利要求7所述的音乐噪声抑制方法,其特征在于,所述根据所述平滑因子,对所述初始增益函数所对应的倒谱进行平滑处理,包括:
根据公式:
对所述初始增益函数所对应的倒谱进行平滑处理;
其中,为平滑处理后的第t帧第k′倒谱域索引处的初始增益函数所对应的倒谱值;为平滑处理后的第t-1帧第k′倒谱域索引处的初始增益函数所对应的倒谱值;βmax为平滑因子的上界;Gcepst(t,k′)为用于数字语音输入信号增强的初始增益函数所对应的倒谱;βsoft(t)为平滑因子;k′为倒谱域索引,k′=0,1,2,...,N-1,k′low为对初始增益函数所对应的倒谱进行平滑处理的倒谱域预设的起始索引值;K′pb为倒谱域索引子集,且K′pb={k′pb-1,k′pb,k′pb+1},其中,k′pb满足Gcepst(t,k′pb)=max{Gcepst(t,k′),k′∈[N1,N2]}, fs是单位为赫兹的采样频率,为不大于fs/500的最大整数,为不小于fs/70的最小整数;t为数字语音输入信号的帧时间索引;
当初始增益函数为初始频域增益函数时,N为离散短时傅里叶变换中窗函数的长度;
当初始增益函数为初始子带域增益函数时,N为数字语音输入信号的子带变换中分析滤波器组使用的离散傅里叶变换的长度。
9.一种音乐噪声抑制装置,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序;其特征在于,所述处理器执行所述计算机程序时实现以下步骤:
获取与数字语音输入信号的语音活性程度相关联的特征参数;
根据所述特征参数,获取对用于数字语音输入信号增强的初始增益函数所对应的倒谱进行平滑处理的平滑因子;
利用所述平滑因子,对所述初始增益函数所对应的倒谱进行平滑处理,得到平滑处理后的倒谱所对应的用于数字语音输入信号增强的最终增益函数。
10.根据权利要求9所述的音乐噪声抑制装置,其特征在于,所述特征参数包括:语音活性程度统计量或者语音出现概率。
11.根据权利要求10所述的音乐噪声抑制装置,其特征在于,在所述特征参数为语音活性程度统计量时,所述处理器执行所述计算机程序时实现以下步骤:
根据公式:获取语音活性程度统计量;
其中,ξ(t)为第t帧数字语音输入信号的语音活性程度统计量;t为数字语音输入信号的帧时间索引;
当初始增益函数为初始频域增益函数时,G(t,k)为第t帧第k个频点的用于数字语音输入信号增强的初始频域增益函数,X(t,k)为第t帧第k个频点的数字语音输入信号的离散短时傅里叶变换值,k为频点索引,且k=0,1,2,...,N-1,N为离散短时傅里叶变换中窗函数的长度;
当初始增益函数为初始子带域增益函数时,G(t,k)为第t帧用于修正X(t,k)的初始子带域增益函数,X(t,k)为第t帧第k个子带的数字语音输入信号的子带谱,k为子带索引,k=0,1,2,...,N-1,N为数字语音输入信号的子带变换中分析滤波器组使用的离散傅里叶变换的长度。
12.根据权利要求9所述的音乐噪声抑制装置,其特征在于,所述处理器执行所述计算机程序时实现以下步骤:
根据公式:获取平滑因子;
其中,βsoft(t)为平滑因子;βmin为平滑因子的下界;βmax为平滑因子的上界,且0<βmin<βmax<1;Thspeech和Thnoise为预设的阈值参数,且0≤Thnoise<Thspeech≤1;A为特征参数;F(A)为正的减函数;t为信号的帧时间索引。
13.根据权利要求12所述的音乐噪声抑制装置,其特征在于,F(A)包括:正的线性减函数或者正的非线性减函数。
14.根据权利要求13所述的音乐噪声抑制装置,其特征在于,当F(A)为正的线性减函数时,所述处理器执行所述计算机程序时实现以下步骤:
根据公式:获取;
其中,βmin为平滑因子的下界;βmax为平滑因子的上界,且0<βmin<βmax<1;Thspeech和Thnoise为预设的阈值参数,且0≤Thnoise<Thspeech≤1;A为特征参数;t为数字语音输入信号的帧时间索引。
15.根据权利要求9所述的音乐噪声抑制装置,其特征在于,所述处理器执行所述计算机程序时实现以下步骤:
根据所述平滑因子,对所述初始增益函数所对应的倒谱进行平滑处理;
利用进行平滑处理后的倒谱,得到平滑处理后的倒谱所对应的用于数字语音输入信号增强的最终增益函数。
16.根据权利要求15所述的音乐噪声抑制装置,其特征在于,所述处理器执行所述计算机程序时实现以下步骤:
根据公式:
对所述初始增益函数所对应的倒谱进行平滑处理;
其中,为平滑处理后的第t帧第k′倒谱域索引处的初始增益函数所对应的倒谱值;为平滑处理后的第t-1帧第k′倒谱域索引处的初始增益函数所对应的倒谱值;βmax为平滑因子的上界;Gcepst(t,k′)为用于数字语音输入信号增强的初始增益函数所对应的倒谱;βsoft(t)为平滑因子;k′为倒谱域索引,k′=0,1,2,...,N-1,k′low为对初始增益函数所对应的倒谱进行平滑处理的倒谱域预设的起始索引值;K′pb为倒谱域索引子集,且K′pb={k′pb-1,k′pb,k′pb+1},其中,k′pb满足Gcepst(t,k'pb)=max{Gcepst(t,k′),k′∈[N1,N2]}, fs是单位为赫兹的采样频率,为不大于fs/500的最大整数,为不小于fs/70的最小整数;t为数字语音输入信号的帧时间索引;
当初始增益函数为初始频域增益函数时,N为离散短时傅里叶变换中窗函数的长度;
当初始增益函数为初始子带域增益函数时,N为数字语音输入信号的子带变换中分析滤波器组使用的离散傅里叶变换的长度。
17.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至8任一项所述的音乐噪声抑制方法。
18.一种音乐噪声抑制装置,其特征在于,包括:
第一获取模块,用于获取与数字语音输入信号的语音活性程度相关联的特征参数;
第二获取模块,用于根据所述特征参数,获取对用于数字语音输入信号增强的初始增益函数所对应的倒谱进行平滑处理的平滑因子;
处理模块,用于利用所述平滑因子,对所述初始增益函数所对应的倒谱进行平滑处理,得到平滑处理后的倒谱所对应的用于数字语音输入信号增强的最终增益函数。
19.根据权利要求18所述的音乐噪声抑制装置,其特征在于,所述特征参数包括:语音活性程度统计量或语音出现概率。
20.根据权利要求19所述的音乐噪声抑制装置,其特征在于,在所述特征参数为语音活性程度统计量时,所述语音活性程度统计量的获取方式,包括:
根据公式:获取语音活性程度统计量;
其中,ξ(t)为第t帧数字语音输入信号的语音活性程度统计量;t为数字语音输入信号的帧时间索引;
当初始增益函数为初始频域增益函数时,G(t,k)为第t帧第k个频点的用于数字语音输入信号增强的初始频域增益函数,X(t,k)为第t帧第k个频点的数字语音输入信号的离散短时傅里叶变换值,k为频点索引,且k=0,1,2,...,N-1,N为离散短时傅里叶变换中窗函数的长度;
当初始增益函数为初始子带域增益函数时,G(t,k)为第t帧用于修正X(t,k)的初始子带域增益函数,X(t,k)为第t帧第k个子带的数字语音输入信号的子带谱,k为子带索引,k=0,1,2,...,N-1,N为数字语音输入信号的子带变换中分析滤波器组使用的离散傅里叶变换的长度。
21.根据权利要求18所述的音乐噪声抑制装置,其特征在于,所述第二获取模块,用于:
根据公式:获取平滑因子;
其中,βsoft(t)为平滑因子;βmin为平滑因子的下界;βmax为平滑因子的上界,且0<βmin<βmax<1;Thspeech和Thnoise为预设的阈值参数,且0≤Thnoise<Thspeech≤1;A为特征参数;F(A)为正的减函数;t为信号的帧时间索引。
22.根据权利要求21所述的音乐噪声抑制装置,其特征在于,F(A)包括:正的线性减函数或者正的非线性减函数。
23.根据权利要求22所述的音乐噪声抑制装置,其特征在于,当F(A)包括正的线性减函数时,F(A)采用如下方式实现:
根据公式:获取;
其中,βmin为平滑因子的下界;βmax为平滑因子的上界,且0<βmin<βmax<1;Thspeech和Thnoise为预设的阈值参数,且0≤Thnoise<Thspeech≤1;A为特征参数;t为数字语音输入信号的帧时间索引。
24.根据权利要求18所述的音乐噪声抑制装置,其特征在于,所述处理模块,包括:
处理单元,用于根据所述平滑因子,对所述初始增益函数所对应的倒谱进行平滑处理;
获取单元,用于利用进行平滑处理后的倒谱,得到平滑处理后的倒谱所对应的用于数字语音输入信号增强的最终增益函数。
25.根据权利要求24所述的音乐噪声抑制装置,其特征在于,所述处理单元,用于:
根据公式:
对所述初始增益函数所对应的倒谱进行平滑处理;
其中,为平滑处理后的第t帧第k′倒谱域索引处的初始增益函数所对应的倒谱值;为平滑处理后的第t-1帧第k′倒谱域索引处的初始增益函数所对应的倒谱值;βmax为平滑因子的上界;Gcepst(t,k′)为用于数字语音输入信号增强的初始增益函数所对应的倒谱;βsoft(t)为平滑因子;k′为倒谱域索引,k′=0,1,2,...,N-1,k′low为对初始增益函数所对应的倒谱进行平滑处理的倒谱域预设的起始索引值;K′pb为倒谱域索引子集,且K′pb={k′pb-1,k′pb,k′pb+1},其中,k′pb满足Gcepst(t,k′pb)=max{Gcepst(t,k′),k′∈[N1,N2]}, fs是单位为赫兹的采样频率,为不大于fs/500的最大整数,为不小于fs/70的最小整数;t为数字语音输入信号的帧时间索引;
当初始增益函数为初始频域增益函数时,N为离散短时傅里叶变换中窗函数的长度;
当初始增益函数为初始子带域增益函数时,N为数字语音输入信号的子带变换中分析滤波器组使用的离散傅里叶变换的长度。
CN201810863520.3A 2018-08-01 2018-08-01 一种音乐噪声抑制方法及装置 Active CN108962275B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201810863520.3A CN108962275B (zh) 2018-08-01 2018-08-01 一种音乐噪声抑制方法及装置
PCT/CN2019/096080 WO2020024787A1 (zh) 2018-08-01 2019-07-16 音乐噪声抑制方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810863520.3A CN108962275B (zh) 2018-08-01 2018-08-01 一种音乐噪声抑制方法及装置

Publications (2)

Publication Number Publication Date
CN108962275A true CN108962275A (zh) 2018-12-07
CN108962275B CN108962275B (zh) 2021-06-15

Family

ID=64465543

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810863520.3A Active CN108962275B (zh) 2018-08-01 2018-08-01 一种音乐噪声抑制方法及装置

Country Status (2)

Country Link
CN (1) CN108962275B (zh)
WO (1) WO2020024787A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020024787A1 (zh) * 2018-08-01 2020-02-06 电信科学技术研究院有限公司 音乐噪声抑制方法及装置
CN113571076A (zh) * 2021-06-16 2021-10-29 北京小米移动软件有限公司 信号处理方法、装置、电子设备和存储介质
CN113596261A (zh) * 2021-07-19 2021-11-02 电信科学技术第十研究所有限公司 一种语音线路检测方法及装置

Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2306832A (en) * 1995-10-30 1997-05-07 Sony Uk Ltd Image activity in video compression
US6415253B1 (en) * 1998-02-20 2002-07-02 Meta-C Corporation Method and apparatus for enhancing noise-corrupted speech
CN101009099A (zh) * 2007-01-26 2007-08-01 北京中星微电子有限公司 数字自动增益控制方法及装置
CN101496095A (zh) * 2006-07-31 2009-07-29 高通股份有限公司 用于信号变化检测的系统、方法及设备
US20100014695A1 (en) * 2008-07-21 2010-01-21 Colin Breithaupt Method for bias compensation for cepstro-temporal smoothing of spectral filter gains
US20100177916A1 (en) * 2009-01-14 2010-07-15 Siemens Medical Instruments Pte. Ltd. Method for Determining Unbiased Signal Amplitude Estimates After Cepstral Variance Modification
CN101896971A (zh) * 2008-01-28 2010-11-24 高通股份有限公司 用于使用多个麦克风进行上下文处理的系统、方法及设备
US8275611B2 (en) * 2007-01-18 2012-09-25 Stmicroelectronics Asia Pacific Pte., Ltd. Adaptive noise suppression for digital speech signals
CN102739886A (zh) * 2011-04-01 2012-10-17 中国科学院声学研究所 基于回声频谱估计和语音存在概率的立体声回声抵消方法
CN102930870A (zh) * 2012-09-27 2013-02-13 福州大学 利用抗噪幂归一化倒谱系数的鸟类声音识别方法
CN103180900A (zh) * 2010-10-25 2013-06-26 高通股份有限公司 用于话音活动检测的系统、方法和设备
CN103489446A (zh) * 2013-10-10 2014-01-01 福州大学 复杂环境下基于自适应能量检测的鸟鸣识别方法
CN103915103A (zh) * 2014-04-15 2014-07-09 成都凌天科创信息技术有限责任公司 语音质量增强系统
CN104036777A (zh) * 2014-05-22 2014-09-10 哈尔滨理工大学 一种语音活动检测方法及装置
CN104246877A (zh) * 2012-04-23 2014-12-24 高通股份有限公司 用于音频信号处理的系统和方法
CN105845150A (zh) * 2016-03-21 2016-08-10 福州瑞芯微电子股份有限公司 一种采用倒谱进行修正的语音增强方法及系统
CN106504773A (zh) * 2016-11-08 2017-03-15 上海贝生医疗设备有限公司 一种可穿戴装置及语音与活动监测系统
US9672841B2 (en) * 2015-06-30 2017-06-06 Zte Corporation Voice activity detection method and method used for voice activity detection and apparatus thereof

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101894563B (zh) * 2010-07-15 2013-03-20 瑞声声学科技(深圳)有限公司 语音增强的方法
JP6171558B2 (ja) * 2013-05-22 2017-08-02 ヤマハ株式会社 音響処理装置
CN108962275B (zh) * 2018-08-01 2021-06-15 电信科学技术研究院有限公司 一种音乐噪声抑制方法及装置

Patent Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2306832A (en) * 1995-10-30 1997-05-07 Sony Uk Ltd Image activity in video compression
US6415253B1 (en) * 1998-02-20 2002-07-02 Meta-C Corporation Method and apparatus for enhancing noise-corrupted speech
CN101496095A (zh) * 2006-07-31 2009-07-29 高通股份有限公司 用于信号变化检测的系统、方法及设备
US8275611B2 (en) * 2007-01-18 2012-09-25 Stmicroelectronics Asia Pacific Pte., Ltd. Adaptive noise suppression for digital speech signals
CN101009099A (zh) * 2007-01-26 2007-08-01 北京中星微电子有限公司 数字自动增益控制方法及装置
CN101896971A (zh) * 2008-01-28 2010-11-24 高通股份有限公司 用于使用多个麦克风进行上下文处理的系统、方法及设备
US20100014695A1 (en) * 2008-07-21 2010-01-21 Colin Breithaupt Method for bias compensation for cepstro-temporal smoothing of spectral filter gains
US20100177916A1 (en) * 2009-01-14 2010-07-15 Siemens Medical Instruments Pte. Ltd. Method for Determining Unbiased Signal Amplitude Estimates After Cepstral Variance Modification
CN103180900A (zh) * 2010-10-25 2013-06-26 高通股份有限公司 用于话音活动检测的系统、方法和设备
CN102739886A (zh) * 2011-04-01 2012-10-17 中国科学院声学研究所 基于回声频谱估计和语音存在概率的立体声回声抵消方法
CN104246877A (zh) * 2012-04-23 2014-12-24 高通股份有限公司 用于音频信号处理的系统和方法
CN102930870A (zh) * 2012-09-27 2013-02-13 福州大学 利用抗噪幂归一化倒谱系数的鸟类声音识别方法
CN103489446A (zh) * 2013-10-10 2014-01-01 福州大学 复杂环境下基于自适应能量检测的鸟鸣识别方法
CN103915103A (zh) * 2014-04-15 2014-07-09 成都凌天科创信息技术有限责任公司 语音质量增强系统
CN104036777A (zh) * 2014-05-22 2014-09-10 哈尔滨理工大学 一种语音活动检测方法及装置
US9672841B2 (en) * 2015-06-30 2017-06-06 Zte Corporation Voice activity detection method and method used for voice activity detection and apparatus thereof
CN105845150A (zh) * 2016-03-21 2016-08-10 福州瑞芯微电子股份有限公司 一种采用倒谱进行修正的语音增强方法及系统
CN106504773A (zh) * 2016-11-08 2017-03-15 上海贝生医疗设备有限公司 一种可穿戴装置及语音与活动监测系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
COLIN BREITHAUPT ET AL: "A novel a priori SNR estimation approach based on selective cepstro-temporal smoothing", 《2008 INTERNATIONAL CONFERENCE ON ACOUSTICS,SPEECH AND SIGNAL PROCESSING (ICASSP 2008)》 *
COLIN BREITHAUPT ET AL: "Cepstral Smoothing of Spectral Filter Gains for Speech Enhancement Without Musical Noise", 《IEEE SIGNAL PROCESSING LETTERS》 *
李季碧等: "一种基于修正倒谱平滑技术改进的维纳滤波语音增强算法", 《重庆邮电大学学报(自然科学版)》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020024787A1 (zh) * 2018-08-01 2020-02-06 电信科学技术研究院有限公司 音乐噪声抑制方法及装置
CN113571076A (zh) * 2021-06-16 2021-10-29 北京小米移动软件有限公司 信号处理方法、装置、电子设备和存储介质
CN113596261A (zh) * 2021-07-19 2021-11-02 电信科学技术第十研究所有限公司 一种语音线路检测方法及装置
CN113596261B (zh) * 2021-07-19 2024-01-05 电信科学技术第十研究所有限公司 一种语音线路检测方法及装置

Also Published As

Publication number Publication date
CN108962275B (zh) 2021-06-15
WO2020024787A1 (zh) 2020-02-06

Similar Documents

Publication Publication Date Title
CN109410977B (zh) 一种基于EMD-Wavelet的MFCC相似度的语音段检测方法
US9064498B2 (en) Apparatus and method for processing an audio signal for speech enhancement using a feature extraction
CN108831499A (zh) 利用语音存在概率的语音增强方法
CN108899052B (zh) 一种基于多带谱减法的帕金森语音增强方法
Kim et al. Nonlinear enhancement of onset for robust speech recognition.
BRPI0116844B1 (pt) Processo e dispositivo de redução de ruído
CN103544961B (zh) 语音信号处理方法及装置
WO2000036592A1 (en) Improved noise spectrum tracking for speech enhancement
CN106875938A (zh) 一种改进的非线性自适应语音端点检测方法
CN108962275A (zh) 一种音乐噪声抑制方法及装置
CN105390142A (zh) 一种数字助听器语音噪声消除方法
CN109979476A (zh) 一种语音去混响的方法及装置
Shao et al. A generalized time–frequency subtraction method for robust speech enhancement based on wavelet filter banks modeling of human auditory system
Jin et al. Speech enhancement using harmonic emphasis and adaptive comb filtering
CN113241089B (zh) 语音信号增强方法、装置及电子设备
Gupta et al. Speech enhancement using MMSE estimation and spectral subtraction methods
CN111968651A (zh) 一种基于wt的声纹识别方法及系统
Mehta et al. Robust front-end and back-end processing for feature extraction for Hindi speech recognition
Liu A new wavelet threshold denoising algorithm in speech recognition
Tian et al. Application of wavelet in speech processing of cochlear implant
WO2006114100A1 (en) Estimation of signal from noisy observations
Sunnydayal et al. Speech enhancement using sub-band wiener filter with pitch synchronous analysis
Lei et al. A robust voice activity detection algorithm in nonstationary noise
Alabbasi et al. Adaptive wavelet thresholding with robust hybrid features for text-independent speaker identification system
Rohith et al. Comparitive Analysis of Speech Enhancement Techniques: A Review

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant