CN109616139B - 语音信号噪声功率谱密度估计方法和装置 - Google Patents

语音信号噪声功率谱密度估计方法和装置 Download PDF

Info

Publication number
CN109616139B
CN109616139B CN201811594883.8A CN201811594883A CN109616139B CN 109616139 B CN109616139 B CN 109616139B CN 201811594883 A CN201811594883 A CN 201811594883A CN 109616139 B CN109616139 B CN 109616139B
Authority
CN
China
Prior art keywords
voice
existence probability
noise power
probability
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811594883.8A
Other languages
English (en)
Other versions
CN109616139A (zh
Inventor
赵峰
王健宗
肖京
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201811594883.8A priority Critical patent/CN109616139B/zh
Publication of CN109616139A publication Critical patent/CN109616139A/zh
Application granted granted Critical
Publication of CN109616139B publication Critical patent/CN109616139B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise

Landscapes

  • Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Noise Elimination (AREA)

Abstract

本发明涉及语音处理技术领域,具体提供了一种语音信号噪声功率谱密度估计方法和装置,其中,方法包括:提取带噪语音信号中的时间上下文窗口特征输入到预先训练好的语音存在概率估计器中,语音存在概率估计器输出当前时间帧对应的估计语音存在概率;根据贝叶斯规则,修正估计语音存在概率,确定语音存在概率;根据语音存在概率,采用递归平滑公式,确定相应的时间帧对应的噪声功率谱密度。通过本发明的技术方案,在较小计算资源的情况下,提升了噪声功率谱密度的估计准确性,有利于有效地消除噪声信号,最小化语音处理过程中的失真,提升语音增强性能。

Description

语音信号噪声功率谱密度估计方法和装置
技术领域
本发明涉及语音处理技术领域,具体而言,涉及一种语音信号噪声功 率谱密度估计方法和一种语音信号噪声功率谱密度估计装置。
背景技术
单通道语音增强在通信系统中起着重要作用,特别是在嘈杂的环境中, 这种方法由于计算的优势而被广泛使用。在单声道语音增强中,必须确定 降噪因子以成功消除噪声,通常由时频域中的噪声功率谱密度(PSD,Power Spectrum Density)的函数设置。
相关技术中,虽然引入额外的算法来估计语音存在概率以进一步增强 估计,但由于许多调谐参数的存在,在噪声变化环境中可靠高效地确定噪 声功率谱密度并不容易。
发明内容
本发明旨在至少解决现有技术或相关技术中存在的技术问题之一。
为此,本发明的一个目的在于提供一种语音信号噪声功率谱密度估计 方法。
本发明的另一个目的在于提供一种语音信号噪声功率谱密度估计装置。
为了实现上述目的,本发明的第一方面的技术方案提供了一种语音信 号噪声功率谱密度估计方法,包括:提取带噪语音信号中的时间上下文窗 口特征输入到预先训练好的语音存在概率估计器中,语音存在概率估计器 输出当前时间帧对应的估计语音存在概率;根据贝叶斯规则,修正估计语 音存在概率,确定语音存在概率;根据语音存在概率,采用递归平滑公式, 确定相应的时间帧对应的噪声功率谱密度。
本方案中,通过提取带噪语音信号中的时间上下文窗口特征输入到预 先训练好的语音存在概率估计器中,语音存在概率估计器输出当前时间帧 对应的估计语音存在概率,有利于提升语音存在概率估计的准确性,进而 改善了噪声功率谱密度估计的准确性,有利于有效地消除噪声信号,最小 化语音处理过程中的失真,而且性能高,节约计算资源。
在上述技术方案中,优选地,根据贝叶斯规则,修正估计语音存在概 率,确定语音存在概率,具体包括:按照第一预设公式转换估计语音存在 概率为语音不存在概率;按照第二预设公式,根据语音不存在概率,确定 语音存在概率,第一预设公式包括:
第二预设公式包括:
其中,k表征为递归的次数,l表征为时间帧的次,表征为估计 语音存在概率,/>表征为语音不存在概率,ξ(k,l)表征为先验信噪比, γ(k,l)表征为后验信噪比,/>表征为语音存在概率。
本方案中,通过将估计语音存在概率转换为语音不存在概率,然后根 据语音不存在概率,确定语音存在概率,利用贝叶斯规则对参数进行敏感 调整,进一步提升了语音存在概率的可靠性,进一步有利于提升噪声功率 谱密度的估计准确性。
在上述任一项技术方案中,优选地,根据语音存在概率,采用递归平 滑公式,确定相应的时间帧对应的噪声功率谱密度,具体包括:按照第三 预设公式,根据语音存在概率,确定相应的时间帧对应的恒定平滑参数; 按照第四预设公式,根据恒定平滑参数,确定相应的时间帧对应的噪声功 率谱密度,
第三预设公式包括:
第四预设公式包括:
其中,αd表征为预设恒定平滑系数,表征为恒定平滑系数, />表征为语音存在概率,Y(k,l).表征为输入的带噪语音信号,k表征为 递归的次数,l表征为时间帧的次,/>表征噪声功率谱密度。
本方案中,根据语音存在概率,确定相应的时间帧对应的恒定平滑参 数,提升了恒定平滑参数的可靠性,之后根据恒定平滑参数,确定相应的 时间帧对应的噪声功率谱密度,进一步提升了噪声功率谱密度的准确性, 有利于有效地消除噪声信号,最小化语音处理过程中的失真,提升语音质 感。
需要说明的是,预设恒定平滑系数αd通常设置为0.50~0.99。
在上述任一项技术方案中,优选地,还包括:基于深度学习神经网络 架构,以时频域中的带噪语音信号和相应的时间上下文窗口特征作为输入 特征,采用理想二元掩模提取带噪语音信号作为目标特征,预先训练生成 语音存在概率估计器。
本方案中,通过基于深度学习神经网络架构,以时频域中的带噪语音 信号和相应的时间上下文窗口特征作为输入特征,采用理想二元掩模提取 带噪语音信号作为目标特征,预先训练生成语音存在概率估计器,语音存 在概率估计器的估计准确性较高,而且在训练过程中,所需的数据较少, 节约了计算资源,在较小计算资源中,提升了噪声功率谱密度的估计准确 性,提升了语音增强性能。
在上述任一项技术方案中,优选地,理想二元掩模包括:
其中,k表征为递归的次数,l表征为时间帧的次,IBM(k,l)表征为理 想二掩码,x(k,l)表征为带噪语音信号的能量,d(x,l)表征为估计噪声的能量, LC表征为本地信噪比标准阈值。
本方案中,通过理想二掩模将相应时间频率仓中的语音存在或不存在 表示为时频域中的二进制矩阵,可以提高语音清晰度并产生更好的语音识 别性能,有利于语音存在概率估计器训练的实现,有利于提升语音存在概 率估计器的估计准确性,进而提升语音增强性能。
本发明的第二方面的技术方案提供了一种语音信号噪声功率谱密度估 计装置,包括:估计单元,用于提取带噪语音信号中的时间上下文窗口特 征输入到预先训练好的语音存在概率估计器中,语音存在概率估计器输出 当前时间帧对应的估计语音存在概率;修正单元,用于根据贝叶斯规则, 修正估计语音存在概率,确定语音存在概率;确定单元,用于根据语音存 在概率,采用递归平滑公式,确定相应的时间帧对应的噪声功率谱密度。
本方案中,通过提取带噪语音信号中的时间上下文窗口特征输入到预 先训练好的语音存在概率估计器中,语音存在概率估计器输出当前时间帧 对应的估计语音存在概率,有利于提升语音存在概率估计的准确性,进而 改善了噪声功率谱密度估计的准确性,有利于有效地消除噪声信号,最小 化语音处理过程中的失真,而且性能高,节约计算资源。
在上述技术方案中,优选地,修正单元包括:转换子单元,用于按照 第一预设公式转换估计语音存在概率为语音不存在概率;确定子单元,用 于按照第二预设公式,根据语音不存在概率,确定语音存在概率,
第一预设公式包括:
第二预设公式包括:
其中,k表征为递归的次数,l表征为时间帧的次,表征为估计 语音存在概率,/>表征为语音不存在概率,ξ(k,l)表征为先验信噪比, γ(k,l)表征为后验信噪比,/>表征为语音存在概率。
本方案中,通过将估计语音存在概率转换为语音不存在概率,然后根 据语音不存在概率,确定语音存在概率,利用贝叶斯规则对参数进行敏感 调整,进一步提升了语音存在概率的可靠性,进一步有利于提升噪声功率 谱密度的估计准确性。
在上述任一项技术方案中,优选地,确定单元还用于:按照第三预设 公式,根据语音存在概率,确定相应的时间帧对应的恒定平滑参数;确定 单元还用于:按照第四预设公式,根据恒定平滑参数,确定相应的时间帧 对应的噪声功率谱密度,
第三预设公式包括:
第四预设公式包括:
其中,αd表征为预设恒定平滑系数,表征为恒定平滑系数, />表征为语音存在概率,Y(k,l).表征为输入的带噪语音信号,k表征为 递归的次数,l表征为时间帧的次,/>表征噪声功率谱密度。
本方案中,根据语音存在概率,确定相应的时间帧对应的恒定平滑参 数,提升了恒定平滑参数的可靠性,之后根据恒定平滑参数,确定相应的 时间帧对应的噪声功率谱密度,进一步提升了噪声功率谱密度的准确性, 有利于有效地消除噪声信号,最小化语音处理过程中的失真,提升语音质 感。
需要说明的是,预设恒定平滑系数αd通常设置为0.50~0.99。
在上述任一项技术方案中,优选地,还包括:训练单元,用于基于深 度学习神经网络架构,以时频域中的带噪语音信号和相应的时间上下文窗 口特征作为输入特征,采用理想二元掩模提取带噪语音信号作为目标特征, 预先训练生成语音存在概率估计器。
本方案中,通过基于深度学习神经网络架构,以时频域中的带噪语音 信号和相应的时间上下文窗口特征作为输入特征,采用理想二元掩模提取 带噪语音信号作为目标特征,预先训练生成语音存在概率估计器,语音存 在概率估计器的估计准确性较高,而且在训练过程中,所需的数据较少, 节约了计算资源,在较小计算资源中,提升了噪声功率谱密度的估计准确 性,提升了语音增强性能。
在上述任一项技术方案中,优选地,理想二元掩模包括:
其中,k表征为递归的次数,l表征为时间帧的次,IBM(k,l)表征为理 想二掩码,x(k,l)表征为带噪语音信号的能量,d(x,l)表征为估计噪声的能量, LC表征为本地信噪比标准阈值。
本方案中,通过理想二掩模将相应时间频率仓中的语音存在或不存在 表示为时频域中的二进制矩阵,可以提高语音清晰度并产生更好的语音识 别性能,有利于语音存在概率估计器训练的实现,有利于提升语音存在概 率估计器的估计准确性,进而提升语音增强性能。
本发明的技术方案还提出了一种计算机设备,计算机设备包括处理器, 处理器用于执行存储器中存储的计算机程序时实现如上述本发明的第一方 面的技术方案提出的任一项的语音信号噪声功率谱密度估计方法的步骤。
在该技术方案中,计算机设备包括处理器,处理器用于执行存储器中 存储的计算机程序时实现如上述本发明的第一方面的技术方案提出的任一 项的语音信号噪声功率谱密度估计方法的步骤,因此具有上述本发明的第 一方面的技术方案提出的任一项的语音信号噪声功率谱密度估计方法的全 部有益效果,在此不再赘述。
本发明的技术方案还提出了一种计算机可读存储介质,其上存储有计 算机程序,计算机程序被处理器执行时实现本发明的第一方面的技术方案 提出的任一项的语音信号噪声功率谱密度估计方法的步骤。
在该技术方案中,计算机可读存储介质,其上存储有计算机程序,计 算机程序被处理器执行时实现本发明的第一方面的技术方案提出的任一项 的语音信号噪声功率谱密度估计方法的步骤,因此具有上述本发明的第一 方面的技术方案提出的任一项的语音信号噪声功率谱密度估计方法的全部 有益效果,在此不再赘述。
通过以上技术方案,基于深度学习神经网络架构训练语音存在概率估 计器来确定估计语音存在概率,并修正,在较小计算资源的情况下,提升 了噪声功率谱密度的估计准确性,有利于有效地消除噪声信号,最小化语 音处理过程中的失真,提升语音增强性能。
本发明的附加方面和优点将在下面的描述部分中给出,部分将从下面 的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描 述中将变得明显和容易理解,其中:
图1示出了根据本发明的一个实施例的语音信号噪声功率谱密度估计 方法的示意流程图;
图2示出了根据本发明的另一个实施例的语音信号噪声功率谱密度估 计方法的示意流程图;
图3示出了根据本发明的实施例的语音信号噪声功率谱密度估计装置 的示意框图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附 图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不 冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是, 本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明 的保护范围并不受下面公开的具体实施例的限制。
如图1所示,根据本发明的实施例的语音信号噪声功率谱密度估计方 法,包括:
S102,提取带噪语音信号中的时间上下文窗口特征输入到预先训练好 的语音存在概率估计器中,语音存在概率估计器输出当前时间帧对应的估 计语音存在概率;
S104,根据贝叶斯规则,修正估计语音存在概率,确定语音存在概率;
S106,根据语音存在概率,采用递归平滑公式,确定相应的时间帧对 应的噪声功率谱密度。
本实施例中,通过提取带噪语音信号中的时间上下文窗口特征输入到 预先训练好的语音存在概率估计器中,语音存在概率估计器输出当前时间 帧对应的估计语音存在概率,有利于提升语音存在概率估计的准确性,进 而改善了噪声功率谱密度估计的准确性,有利于有效地消除噪声信号,最 小化语音处理过程中的失真,而且性能高,节约计算资源。
如图2所示,根据本发明的实施例的语音信号噪声功率谱密度估计方 法,包括:
S202,基于深度学习神经网络架构,以时频域中的带噪语音信号和相 应的时间上下文窗口特征作为输入特征,采用理想二元掩模提取带噪语音 信号作为目标特征,预先训练生成语音存在概率估计器;
S204,提取带噪语音信号中的时间上下文窗口特征输入到预先训练好 的语音存在概率估计器中,语音存在概率估计器输出当前时间帧对应的估 计语音存在概率;
S206,按照第一预设公式转换估计语音存在概率为语音不存在概率;
S208,按照第二预设公式,根据语音不存在概率,确定语音存在概率;
S210,按照第三预设公式,根据语音存在概率,确定相应的时间帧对 应的恒定平滑参数;
S212,按照第四预设公式,根据恒定平滑参数,确定相应的时间帧对 应的噪声功率谱密度。
理想二元掩模包括:
其中,k表征为递归的次数,l表征为时间帧的次,IBM(k,l)表征为理 想二掩码,x(k,l)表征为带噪语音信号的能量,d(x,l)表征为估计噪声的能量, LC表征为本地信噪比标准阈值。
第一预设公式包括:
第二预设公式包括:
其中,k表征为递归的次数,l表征为时间帧的次,表征为估计 语音存在概率,/>表征为语音不存在概率,ξ(k,l)表征为先验信噪比, γ(k,l)表征为后验信噪比,/>表征为语音存在概率。
第三预设公式包括:
第四预设公式包括:
其中,αd表征为预设恒定平滑系数,表征为恒定平滑系数, />表征为语音存在概率,Y(k,l).表征为输入的带噪语音信号,k表征为 递归的次数,l表征为时间帧的次,/>表征噪声功率谱密度。
本实施例中,通过基于深度学习神经网络架构,以时频域中的带噪语 音信号和相应的时间上下文窗口特征作为输入特征,采用理想二元掩模提 取带噪语音信号作为目标特征,预先训练生成语音存在概率估计器,语音 存在概率估计器的估计准确性较高,而且在训练过程中,所需的数据较少, 节约了计算资源,在较小计算资源中,提升了噪声功率谱密度的估计准确 性,提升了语音增强性能。
通过理想二掩模将相应时间频率仓中的语音存在或不存在表示为时频 域中的二进制矩阵,可以提高语音清晰度并产生更好的语音识别性能,有 利于语音存在概率估计器训练的实现,有利于提升语音存在概率估计器的 估计准确性,进而提升语音增强性能。
通过将估计语音存在概率转换为语音不存在概率,然后根据语音不存 在概率,确定语音存在概率,利用贝叶斯规则对参数进行敏感调整,进一 步提升了语音存在概率的可靠性,进一步有利于提升噪声功率谱密度的估 计准确性。
根据语音存在概率,确定相应的时间帧对应的恒定平滑参数,提升了 恒定平滑参数的可靠性,之后根据恒定平滑参数,确定相应的时间帧对应 的噪声功率谱密度,进一步提升了噪声功率谱密度的准确性,有利于有效 地消除噪声信号,最小化语音处理过程中的失真,提升语音质感。
需要说明的是,预设恒定平滑系数αd通常设置为0.50~0.99。
以来自TIMIT数据库中的3888条纯净语音信号,来自NOISEX-92数据 库中的噪声信号,包括12种噪声信号,白噪声、气泡噪声、工厂噪声、粉 红噪声、坦克噪声等,带噪语音信号包含四种信噪比,0分贝、5分贝、10 分贝、15分贝,作为数据集。采取32ms帧长,16ms帧移提取特征,每一 帧都利用512个节点的傅里叶变换来代表噪声功率谱密度,为了反映语音 信息随时间变化,使用过去六帧的数据和当前帧的数据作为输入特征,本 发明提出的语音存在概率估计器和传统的基于深度学习的噪声功率谱密度 估计器的默认神经网络使用相同架构,形成对比实验,大型神经网络的每 个结构都有三个隐藏层,每层有1024个节点,每个小神经网络结构有两个 隐藏层,每层有64个节点,激活函数采用双曲正切,经过对语音质量感知 评价,按照本发明提出的方法估计出来的语音信号噪声功率谱密度更准确,语音质感更强。
如图3所示,根据本发明的实施例的语音信号噪声功率谱密度估计装 置30,包括:估计单元302,用于提取带噪语音信号中的时间上下文窗口 特征输入到预先训练好的语音存在概率估计器中,语音存在概率估计器输 出当前时间帧对应的估计语音存在概率;修正单元304,用于根据贝叶斯 规则,修正估计语音存在概率,确定语音存在概率;确定单元306,用于 根据语音存在概率,采用递归平滑公式,确定相应的时间帧对应的噪声功 率谱密度。
本实施例中,通过提取带噪语音信号中的时间上下文窗口特征输入到 预先训练好的语音存在概率估计器中,语音存在概率估计器输出当前时间 帧对应的估计语音存在概率,有利于提升语音存在概率估计的准确性,进 而改善了噪声功率谱密度估计的准确性,有利于有效地消除噪声信号,最 小化语音处理过程中的失真,而且性能高,节约计算资源。
在上述实施例中,优选地,修正单元304包括:转换子单元3042,用 于按照第一预设公式转换估计语音存在概率为语音不存在概率;确定子单 元3044,用于按照第二预设公式,根据语音不存在概率,确定语音存在概 率,
第一预设公式包括:
第二预设公式包括:
其中,k表征为递归的次数,l表征为时间帧的次,表征为估计 语音存在概率,/>表征为语音不存在概率,ξ(k,l)表征为先验信噪比, γ(k,l)表征为后验信噪比,/>表征为语音存在概率。
本实施例中,通过将估计语音存在概率转换为语音不存在概率,然后 根据语音不存在概率,确定语音存在概率,利用贝叶斯规则对参数进行敏 感调整,进一步提升了语音存在概率的可靠性,进一步有利于提升噪声功 率谱密度的估计准确性。
在上述任一项实施例中,优选地,确定单元306还用于:按照第三预 设公式,根据语音存在概率,确定相应的时间帧对应的恒定平滑参数;确 定单元306还用于:按照第四预设公式,根据恒定平滑参数,确定相应的 时间帧对应的噪声功率谱密度,
第三预设公式包括:
第四预设公式包括:
其中,αd表征为预设恒定平滑系数,表征为恒定平滑系数, />表征为语音存在概率,Y(k,l).表征为输入的带噪语音信号,k表征为 递归的次数,l表征为时间帧的次,/>表征噪声功率谱密度。
本实施例中,根据语音存在概率,确定相应的时间帧对应的恒定平滑 参数,提升了恒定平滑参数的可靠性,之后根据恒定平滑参数,确定相应 的时间帧对应的噪声功率谱密度,进一步提升了噪声功率谱密度的准确性, 有利于有效地消除噪声信号,最小化语音处理过程中的失真,提升语音质 感。
需要说明的是,预设恒定平滑系数αd通常设置为0.50~0.99。
在上述任一项实施例中,优选地,还包括:训练单元308,用于基于 深度学习神经网络架构,以时频域中的带噪语音信号和相应的时间上下文 窗口特征作为输入特征,采用理想二元掩模提取带噪语音信号作为目标特 征,预先训练生成语音存在概率估计器。
本实施例中,通过基于深度学习神经网络架构,以时频域中的带噪语 音信号和相应的时间上下文窗口特征作为输入特征,采用理想二元掩模提 取带噪语音信号作为目标特征,预先训练生成语音存在概率估计器,语音 存在概率估计器的估计准确性较高,而且在训练过程中,所需的数据较少, 节约了计算资源,在较小计算资源中,提升了噪声功率谱密度的估计准确 性,提升了语音增强性能。
在上述任一项实施例中,优选地,理想二元掩模包括:
其中,k表征为递归的次数,l表征为时间帧的次,IBM(k,l)表征为理 想二掩码,x(k,l)表征为带噪语音信号的能量,d(x,l)表征为估计噪声的能量, LC表征为本地信噪比标准阈值。
本实施例中,通过理想二掩模将相应时间频率仓中的语音存在或不存 在表示为时频域中的二进制矩阵,可以提高语音清晰度并产生更好的语音 识别性能,有利于语音存在概率估计器训练的实现,有利于提升语音存在 概率估计器的估计准确性,进而提升语音增强性能。
本发明的实施例还提出了一种计算机设备,计算机设备包括处理器, 处理器用于执行存储器中存储的计算机程序时实现如上述本发明的实施例 提出的任一项的语音信号噪声功率谱密度估计方法的步骤。
在该实施例中,计算机设备包括处理器,处理器用于执行存储器中存 储的计算机程序时实现如上述本发明的实施例提出的任一项的语音信号噪 声功率谱密度估计方法的步骤,因此具有上述本发明的实施例提出的任一 项的语音信号噪声功率谱密度估计方法的全部有益效果,在此不再赘述。
本发明的实施例还提出了一种计算机可读存储介质,其上存储有计算 机程序,计算机程序被处理器执行时实现本发明的实施例提出的任一项的 语音信号噪声功率谱密度估计方法的步骤。
在该实施例中,计算机可读存储介质,其上存储有计算机程序,计算 机程序被处理器执行时实现本发明的实施例提出的任一项的语音信号噪声 功率谱密度估计方法的步骤,因此具有上述本发明的实施例提出的任一项 的语音信号噪声功率谱密度估计方法的全部有益效果,在此不再赘述。
以上结合附图详细说明了本发明的技术方案,本发明提出了一种语音 信号噪声功率谱密度估计方法和一种语音信号噪声功率谱密度估计装置, 通过基于深度学习神经网络架构训练语音存在概率估计器来确定估计语音 存在概率,并修正,在较小计算资源的情况下,提升了噪声功率谱密度的 估计准确性,有利于有效地消除噪声信号,最小化语音处理过程中的失真, 提升语音增强性能。
本发明方法中的步骤可根据实际需要进行顺序调整、合并和删减。
本发明装置中的单元可根据实际需要进行合并、划分和删减。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分 步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算 机可读存储介质中,存储介质包括只读存储器(Read-Only Memory,ROM)、 随机存储器(Random Access Memory,RAM)、可编程只读存储器 (Programmable Read-only Memory,PROM)、可擦除可编程只读存储器 (Erasable Programmable Read Only Memory,EPROM)、一次可编程只读 存储器(One-time Programmable Read-Only Memory,OTPROM)、电子抹 除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM) 或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储 数据的计算机可读的任何其他介质。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于 本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精 神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明 的保护范围之内。

Claims (5)

1.一种语音信号噪声功率谱密度估计方法,其特征在于,包括:
提取带噪语音信号中的时间上下文窗口特征输入到预先训练好的语音存在概率估计器中,所述语音存在概率估计器输出当前时间帧对应的估计语音存在概率;
根据贝叶斯规则,修正所述估计语音存在概率,确定语音存在概率;
根据所述语音存在概率,采用递归平滑公式,确定相应的时间帧对应的噪声功率谱密度;
其中,所述根据贝叶斯规则,修正所述估计语音存在概率,确定语音存在概率,具体包括:
按照第一预设公式转换所述估计语音存在概率为语音不存在概率;
按照第二预设公式,根据所述语音不存在概率,确定所述语音存在概率,
所述第一预设公式包括:
所述第二预设公式包括:
其中,所述k表征为递归的次数,所述l表征为时间帧的次,所述表征为所述估计语音存在概率,所述/>表征为所述语音不存在概率,所述/>表征为先验信噪比,所述/>表征为后验信噪比,所述/>表征为所述语音存在概率;
所述根据所述语音存在概率,采用递归平滑公式,确定相应的时间帧对应的噪声功率谱密度,具体包括:
按照第三预设公式,根据所述语音存在概率,确定相应的时间帧对应的恒定平滑参数;
按照第四预设公式,根据所述恒定平滑参数,确定相应的时间帧对应的所述噪声功率谱密度,
所述第三预设公式包括:
所述第四预设公式包括:
其中,所述表征为预设恒定平滑系数,所述/>表征为所述恒定平滑系数,所述/>表征为所述语音存在概率,所述/>表征为输入的所述带噪语音信号,所述k表征为递归的次数,所述l表征为时间帧的次,所述/>表征所述噪声功率谱密度。
2.根据权利要求1所述的语音信号噪声功率谱密度估计方法,其特征在于,还包括:
基于深度学习神经网络架构,以时频域中的带噪语音信号和相应的时间上下文窗口特征作为输入特征,采用理想二元掩模提取所述带噪语音信号作为目标特征,预先训练生成所述语音存在概率估计器;
其中,所述理想二元掩模包括:
其中,所述k表征为递归的次数,所述l表征为时间帧的次,所述IBM(k,l)表征为理想二掩码,所述x(k,l)表征为所述带噪语音信号的能量,所述d(x,l)表征为估计噪声的能量,所述LC表征为本地信噪比标准阈值。
3.一种语音信号噪声功率谱密度估计装置,其特征在于,包括:
估计单元,用于提取带噪语音信号中的时间上下文窗口特征输入到预先训练好的语音存在概率估计器中,所述语音存在概率估计器输出当前时间帧对应的估计语音存在概率;
修正单元,用于根据贝叶斯规则,修正所述估计语音存在概率,确定语音存在概率;
确定单元,用于根据所述语音存在概率,采用递归平滑公式,确定相应的时间帧对应的噪声功率谱密度;
其中,所述修正单元包括:
转换子单元,用于按照第一预设公式转换所述估计语音存在概率为语音不存在概率;
确定子单元,用于按照第二预设公式,根据所述语音不存在概率,确定所述语音存在概率,
所述第一预设公式包括:
所述第二预设公式包括:
其中,所述k表征为递归的次数,所述l表征为时间帧的次,所述表征为所述估计语音存在概率,所述/>表征为所述语音不存在概率,所述/>表征为先验信噪比,所述/>表征为后验信噪比,所述/>表征为所述语音存在概率;
所述确定单元包括:
按照第三预设公式,根据所述语音存在概率,确定相应的时间帧对应的恒定平滑参数;
按照第四预设公式,根据所述恒定平滑参数,确定相应的时间帧对应的所述噪声功率谱密度,
所述第三预设公式包括:
所述第四预设公式包括:
其中,所述表征为预设恒定平滑系数,所述/>表征为所述恒定平滑系数,所述表征为所述语音存在概率,所述/>表征为输入的所述带噪语音信号,所述k表征为递归的次数,所述l表征为时间帧的次,所述/>表征所述噪声功率谱密度。
4.一种语音信号噪声功率谱密度估计装置,其特征在于,所述估计装置包括:
至少1个存储单元;
与所述至少1个存储单元耦合的处理单元;
其中,所述至少1个存储单元用于存储计算机指令;
所述处理单元用于调用所述计算机指令,以执行权利要求1或2所述的语音信号噪声功率谱密度估计方法。
5.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令被调用时,用于执行权利要求1或2所述的语音信号噪声功率谱密度估计方法。
CN201811594883.8A 2018-12-25 2018-12-25 语音信号噪声功率谱密度估计方法和装置 Active CN109616139B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811594883.8A CN109616139B (zh) 2018-12-25 2018-12-25 语音信号噪声功率谱密度估计方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811594883.8A CN109616139B (zh) 2018-12-25 2018-12-25 语音信号噪声功率谱密度估计方法和装置

Publications (2)

Publication Number Publication Date
CN109616139A CN109616139A (zh) 2019-04-12
CN109616139B true CN109616139B (zh) 2023-11-03

Family

ID=66011313

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811594883.8A Active CN109616139B (zh) 2018-12-25 2018-12-25 语音信号噪声功率谱密度估计方法和装置

Country Status (1)

Country Link
CN (1) CN109616139B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112820310B (zh) * 2019-11-15 2022-09-23 北京声智科技有限公司 一种来波方向估计方法及装置
CN110931007B (zh) * 2019-12-04 2022-07-12 思必驰科技股份有限公司 语音识别方法及系统
CN111445919B (zh) * 2020-03-13 2023-01-20 紫光展锐(重庆)科技有限公司 结合ai模型的语音增强方法、系统、电子设备和介质
CN113470674B (zh) * 2020-03-31 2023-06-16 珠海格力电器股份有限公司 语音降噪方法、装置、存储介质及计算机设备
CN113516990A (zh) * 2020-04-10 2021-10-19 华为技术有限公司 一种语音增强方法、训练神经网络的方法以及相关设备
CN111653287A (zh) * 2020-06-04 2020-09-11 重庆邮电大学 基于dnn和频带内互相关系数的单通道语音增强算法
CN112233689B (zh) * 2020-09-24 2022-04-08 北京声智科技有限公司 音频降噪方法、装置、设备及介质
CN112233688B (zh) * 2020-09-24 2022-03-11 北京声智科技有限公司 音频降噪方法、装置、设备及介质
CN112653979A (zh) * 2020-12-29 2021-04-13 苏州思必驰信息科技有限公司 自适应去混响方法和装置
CN112969130A (zh) * 2020-12-31 2021-06-15 维沃移动通信有限公司 音频信号处理方法、装置和电子设备
CN112967738B (zh) * 2021-02-01 2024-06-14 腾讯音乐娱乐科技(深圳)有限公司 人声检测方法、装置及电子设备和计算机可读存储介质
CN116580723B (zh) * 2023-07-13 2023-09-08 合肥星本本网络科技有限公司 一种强噪声环境下的语音检测方法和系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102800322A (zh) * 2011-05-27 2012-11-28 中国科学院声学研究所 一种噪声功率谱估计与语音活动性检测方法
CN103456310A (zh) * 2013-08-28 2013-12-18 大连理工大学 一种基于谱估计的瞬态噪声抑制方法
JP2015141335A (ja) * 2014-01-29 2015-08-03 沖電気工業株式会社 雑音推定装置、方法及びプログラム
KR20160116440A (ko) * 2015-03-30 2016-10-10 한국전자통신연구원 음성인식 시스템의 신호대잡음비 추정 장치 및 방법
CN106971740A (zh) * 2017-03-28 2017-07-21 吉林大学 基于语音存在概率和相位估计的语音增强方法
CN107680609A (zh) * 2017-09-12 2018-02-09 桂林电子科技大学 一种基于噪声功率谱密度的双通道语音增强方法
CN108735225A (zh) * 2018-04-28 2018-11-02 南京邮电大学 一种基于人耳掩蔽效应与贝叶斯估计的改进谱减方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6129316B2 (ja) * 2012-09-03 2017-05-17 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 情報に基づく多チャネル音声存在確率推定を提供するための装置および方法
US9564144B2 (en) * 2014-07-24 2017-02-07 Conexant Systems, Inc. System and method for multichannel on-line unsupervised bayesian spectral filtering of real-world acoustic noise

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102800322A (zh) * 2011-05-27 2012-11-28 中国科学院声学研究所 一种噪声功率谱估计与语音活动性检测方法
CN103456310A (zh) * 2013-08-28 2013-12-18 大连理工大学 一种基于谱估计的瞬态噪声抑制方法
JP2015141335A (ja) * 2014-01-29 2015-08-03 沖電気工業株式会社 雑音推定装置、方法及びプログラム
KR20160116440A (ko) * 2015-03-30 2016-10-10 한국전자통신연구원 음성인식 시스템의 신호대잡음비 추정 장치 및 방법
CN106971740A (zh) * 2017-03-28 2017-07-21 吉林大学 基于语音存在概率和相位估计的语音增强方法
CN107680609A (zh) * 2017-09-12 2018-02-09 桂林电子科技大学 一种基于噪声功率谱密度的双通道语音增强方法
CN108735225A (zh) * 2018-04-28 2018-11-02 南京邮电大学 一种基于人耳掩蔽效应与贝叶斯估计的改进谱减方法

Also Published As

Publication number Publication date
CN109616139A (zh) 2019-04-12

Similar Documents

Publication Publication Date Title
CN109616139B (zh) 语音信号噪声功率谱密度估计方法和装置
US10332507B2 (en) Method and device for waking up via speech based on artificial intelligence
CN110164467B (zh) 语音降噪的方法和装置、计算设备和计算机可读存储介质
Davis et al. Statistical voice activity detection using low-variance spectrum estimation and an adaptive threshold
US9799331B2 (en) Feature compensation apparatus and method for speech recognition in noisy environment
JP5089772B2 (ja) 音声活動を検出するための装置および方法
WO2016192410A1 (zh) 一种音频信号增强方法和装置
CN110600017A (zh) 语音处理模型的训练方法、语音识别方法、系统及装置
WO2020107269A1 (zh) 自适应语音增强方法和电子设备
CN111785288B (zh) 语音增强方法、装置、设备及存储介质
CN114974280A (zh) 音频降噪模型的训练方法、音频降噪的方法及装置
Liu et al. Loss and double-edge-triggered detector for robust small-footprint keyword spotting
WO2022218254A1 (zh) 语音信号增强方法、装置及电子设备
Deligne et al. Audio-visual speech enhancement with AVCDCN (audio-visual codebook dependent cepstral normalization)
CN112289337B (zh) 一种滤除机器学习语音增强后的残留噪声的方法及装置
CN112201269B (zh) 基于改进噪声估计的mmse-lsa语音增强方法
WO2023093029A1 (zh) 唤醒词能量计算方法、系统、语音唤醒系统及存储介质
CN112054973A (zh) 一种最小均方误差稀疏水声信道估计方法
WO2021007841A1 (zh) 噪声估计方法、噪声估计装置、语音处理芯片以及电子设备
US20230186943A1 (en) Voice activity detection method and apparatus, and storage medium
CN116343810A (zh) 一种语音降噪方法、装置、存储介质及设备
CN114822531A (zh) 一种基于ai语音智能控制的液晶电视
CN113744754B (zh) 语音信号的增强处理方法和装置
CN117995215B (zh) 语音信号的处理方法、装置、计算机设备及存储介质
CN116364107A (zh) 一种语音信号检测方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant