CN103201793A

CN103201793A - 基于语音通信的干扰噪声去除方法和系统

Info

Publication number: CN103201793A
Application number: CN2011800499404A
Authority: CN
Inventors: 朴圣水; 郑盛日; 河东庚; 宋在勋
Original assignee: SK Telecom Co Ltd; TRANSONO Inc
Current assignee: SK Telecom Co Ltd; TRANSONO Inc
Priority date: 2010-10-18
Filing date: 2011-10-18
Publication date: 2013-07-10
Anticipated expiration: 2031-10-18
Also published as: KR20120039918A; US8935159B2; KR101173980B1; CN103201793B; US20130226573A1; WO2012053809A3; WO2012053809A2

Abstract

本发明公开了一种基于语音通信的干扰噪声去除方法和系统。本发明包括：谱减法装置，其用于基于增益函数针对语音信号执行谱减法；以及噪声去除装置，其用于将其中执行了谱减法的语音信号在谱图上聚类为频域中的连续信号并指定至少一个群，并用于识别所指定的群中的每一个群的频域的连续性和时域的连续性以提取音乐噪声，由此通过有效地从噪声域提取音乐噪声残留来提供自然的收听效果，并通过防止在语音域中的语音失真的出现而确保了语言清晰度的可靠性。另外，通过从语音域提取出音乐噪声，可以有效地降低语音扩散。

Description

基于语音通信的干扰噪声去除方法和系统

技术领域

本公开涉及噪声去除方法，并且更具体地涉及基于语音通信的去除噪声的系统和方法以及噪声去除装置和操作该噪声去除装置的方法，该系统和方法针对已经经过谱减法（SS：Spectral Subtraction）的信号执行与成束的信号（tying signal）对应的聚类以在谱图中的频率轴上从语音通信去除噪声，并基于聚类通过属于语音和音乐噪声的特性仅提取音乐噪声。

背景技术

在实际生活中，背景噪声污染纯语音并使诸如移动电话、语音识别、语音编码、讲话者识别等的语音通信系统的性能劣化。因此，对声音质量进行改善以降低噪声效果并增强系统性能的研究已开展了很长时间，并且其重要性当前受到很多的关注。

同时，由于成本低并且容易实现，在各种声音质量改善方法中，谱减法（SS）是在单通道中广泛使用的典型方法。但是，谱减法具有的一个主要缺点在于，在由谱减法所改善的语音中残留了与新的人为声音（artifact sound）对应的音乐噪声。

音乐噪声指的是通过将估计的噪声评价为低于原始噪声而生成的随机频率分量，并还指的是由于残留在声谱图中的时间轴和频率轴上的音乐噪声不连续地分布而在感觉上骚扰收听者的音调。

就此而论，为了抑制残留的音乐噪声，已经提出了基于增益函数的谱减法。

例如，存在“维纳滤波”、“具有过减因子和谱基底的非线性谱减法”、“最小均方误差短时间谱振幅估计或对数谱振幅”、“基于人类听觉系统的屏蔽特性的过减法”、和“软决策估计、最大似然法、信号子空间”。但是，已知多数提出的方法无法有效地在具有低的信噪比（SNR）的噪声环境中改善声音质量。

换言之，通过所提出的常规方法改善的语音具有以下问题。即，当使用估计为大于实际噪声的噪声以及过估计的增益函数时，残留的音乐噪声和发散度降低，但是语音失真增加。相反，当使用估计为低于实际噪声的噪声以及欠估计的增益函数时，语音失真降低，但是残留的音乐噪声和发散度增加。

发明内容

技术问题

做出本公开以解决上面的问题，并且本发明的一种实施方式是通过提供基于语音通信的噪声去除系统和方法通过属于语音和音乐噪声的特性来仅提取音乐噪声，该系统和方法为：借助谱减法装置基于增益函数对语音信号执行谱减法（SS）；针对已经执行了谱减法的语音信号执行在谱图的频率轴上连续的信号的聚类以指定一个或更多个群，并通过确定指定的群中的每一个群在频率轴和时间轴上的连续性来提取音乐噪声，以使用噪声去除装置来提取音乐噪声。

本发明的另一实施方式是通过提供噪声去除装置和方法并通过属于语音和音乐噪声的特性来仅提取音乐噪声，该系统和方法为：针对已经执行了谱减法的语音信号执行在谱图的频率轴上的信号的聚类以指定一个或更多个群；通过确定在频率轴上的指定的群中的每一个群的连续性来提取与音乐噪声相对应的群；以及针对其余的群中的每一个群，基于在时间轴上交叠的群之间的相似性来提取与音乐噪声相对应的群。

技术方案

根据本发明的实施方式，提供了一种基于语音通信的噪声去除系统。该系统包括：谱减法装置，其配置为基于增益函数针对语音信号执行谱减法（SS）；以及噪声去除装置，其配置为针对已经执行了谱减法的语音信号执行在谱图的频率轴上连续的信号的聚类以指定一个或更多个群，并且所述噪声去除装置配置为确定所指定的各个群在频率轴和时间轴上的连续性以提取音乐噪声。

噪声去除装置可以将所指定的各个群在频率轴上的连续长度与阈值进行比较以提取与音乐噪声相对应的群，并针对其余的群中的每一个群基于在时间轴上交叠的群之间的相似性来提取与音乐噪声相对应的群。

根据本发明的另一实施方式，提供了一种噪声去除装置。该装置包括：聚类单元，其配置为针对其中已经执行了基于增益函数的谱减法的语音信号执行在谱图的频率轴上的信号的聚类以指定一个或更多个群；第一提取器，其配置为确定所指定的群中的每一个群在频率轴上的连续性以提取与音乐噪声相对应的群；以及第二提取器，其配置为针对其余的群中的每一个群基于在时间轴上交叠的群之间的相似性来提取与音乐噪声相对应的群。

聚类单元可以通过在谱图的频率轴上连续的信号之间执行聚类来指定一个或更多个群。

聚类单元可以去除在谱图上除所指定的群中的每一个群以外的残留信号。

第一提取器可以通过将在频率轴上的所指定的群中的每一个群的连续长度与阈值进行比较来提取与音乐噪声相对应的群。

第一提取器可以通过预先指定的语音部提取方案将在谱图的时间轴上所区分的每个帧划分为噪声类似帧和语音类似帧，并将位于所划分的噪声类似帧或语音类似帧上的群的长度与阈值进行比较。

第二提取器可以针对其余的群中的每一个群基于在时间轴上交叠的群之间的相似性来提取与音乐噪声相对应的群。

针对其余的群中的每一个群，通过基于在时间轴上交叠的区域上的群长度的平均值或偏差来确定相似性，第二提取器可以提取与音乐噪声相对应的群。

根据本发明的另一实施方式，提供了一种基于语音通信的噪声去除方法。该方法包括：执行谱减法（SS）的步骤，由谱减法装置基于增益函数针对语音信号执行谱减法；执行聚类的步骤，由噪声去除装置针对其中已执行了所述谱减法的语音信号执行在谱图的频率轴上连续的信号的聚类以指定一个或更多个群；第一提取步骤，由所述噪声去除装置通过确定所指定的群中的每一个群在频率轴上的连续性来提取与音乐噪声相对应的群；以及第二提取步骤，由所述噪声去除装置针对其余的群中的每一个群基于在时间轴上交叠的群之间的相似性来提取与所述音乐噪声相对应的群。

对群的所述第一提取步骤可以包括：通过将所指定的群中的每一个群在频率轴上的连续长度与阈值进行比较来提取与音乐噪声相对应的群。

对群的所述第二提取步骤可以包括：针对其余的群中的每一个群，基于在时间轴上交叠的群中的相似性来提取与音乐噪声相对应的群。

根据本发明的另一实施方式，提供了一种基于语音通信的噪声去除方法。该方法包括：执行聚类的步骤，针对其中已经执行了基于增益函数的谱减法的语音信号执行在谱图的频率轴上的信号的聚类以指定一个或更多个群；第一提取步骤，通过确定所指定的群中的每一个群在频率轴上的连续性来提取与音乐噪声相对应的群；以及第二提取步骤，针对其余的群中的每一个群，基于在时间轴上交叠的群之间的相似性来提取与所述音乐噪声相对应的群。

所述执行聚类的步骤可以包括：在谱图的频率轴上连续的信号之间执行聚类以指定一个或更多个群。

所述执行聚类的步骤可以包括：去除在谱图上除所指定的群中的每一个群以外的残留信号。

对群的所述第一提取步骤可以包括：通过将在频率轴上的指定的群中的每一个群的连续长度与阈值进行比较来提取与音乐噪声相对应的群。

对群的所述第一提取步骤可以包括：通过预先指定的语音部提取方案，将在谱图的时间轴上所区分的每个帧划分为噪声类似帧和语音类似帧；以及将位于所划分的噪声类似帧或语音类似帧上的群的长度与阈值进行比较。

对群的所述第二提取步骤可以包括：针对其余的群中的每一个群，基于在时间轴上交叠的群之间的相似性来提取与音乐噪声相对应的群。

对群的所述第二提取步骤可以包括：针对其余的群中的每一个群，通过执行基于在时间轴上交叠的区域上的群长度的平均值或偏差来确定相似性以提取与音乐噪声相对应的群。

有利效果

根据依据本发明的基于语音通信的噪声去除系统和方法，通过执行与对信号进行分组（其中，已经在根据在时间轴和频率轴中的变化来对幅度上的差别进行显示的谱图的频率轴上执行了从语音通信去除噪声的谱减法（SS））的任务相对应的聚类，并基于聚类通过属于语音和音乐噪声的特性仅提取出音乐噪声，可以从噪声区域提取出残留的音乐噪声并因而提供自然的收听效果。此外，由于防止了在语音区域中生成的语音失真，所以可以确保语言清晰度的可靠性。另外，由于从语音区域提取出了音乐噪声，所以可以降低噪声的散度。

附图说明

图1是示意性地例示了根据本发明的实施方式的基于语音通信的噪声去除系统的结构图；

图2是根据本发明的实施方式的谱图；

图3是示意性地例示了根据本发明的实施方式的噪声去除装置的结构图；并且

图4和图5是示意性地例示了根据本发明的实施方式的基于语音通信的噪声去除方法的流程图。

具体实施方式

以下，将参照附图描述本发明的示例性实施方式。

图1是示意性地例示了根据本发明的实施方式的基于语音通信的噪声去除系统的结构图。

如图1所示，该系统包括：谱减法装置100，其被配置为针对语音信号执行谱减法（SS）；以及噪声去除装置200，其被配置为针对已经执行了谱减法的语音信号执行聚类（clustering）并被配置为基于聚类来提取音乐噪声。这里，语音信号指的是在流入了背景噪声并在实际生活中污染了纯语音的语音通信环境中的接收信号，并可以用在例如移动电话、语音识别、语音编码、讲话者识别等的各种领域中。

谱减法装置100针对在语音通信环境中接收的语音信号基于增益函数来执行谱减法以改善声音质量，并且下面将通过等式1至等式4描述谱减法装置100的谱减法操作。

也就是说，通过以加性噪声w(n)污染纯语音信号s(n)而生成的污染的语音x(n)由以下等式1表示。

[等式1]

x(n)＝s(n)+w(n)

在等式1中，n表示离散时间索引，并且通过傅立叶变换，x(n)可以接近于傅立叶频谱（FS）X_i(f)，如在等式2中所示。

[等式2]

X_i(f)＝S_i(f)+W_i(f)

在等式2中，i和f分别表示在帧和频率位置（bin）中的索引，S_i(f)表示纯语音的FS，并且W_i(f)表示噪声的FS。

就此而论，基于包括（为了抑制残留的音乐噪声而引入的）过减元素a(a≥1)的增益函数G_i(f)的谱减法是如在等式3和等式4中所限定的。

[等式3]

[等式4]

{\hat{S}}_{i} (f) = X_{i} G_{i} (f)

在等式3和等式4中，|X_i(f)|和

分别表示X_i(f)的傅立叶幅值谱（FMS）和估计噪声的FMS。此外，α是这样的因子，即，它增加了语音失真，同时通过比估计减去更多的噪声来减少残留噪声的峰值元素。此外，β(0≤β<1)表示用于屏蔽残留噪声的谱平滑元素，并且一般使用接近于“0”的值。另外，r表示用于确定减法挠度（subtraction bending）的形状的指数。

噪声去除装置200在谱图的频率轴上执行聚类以去除残留在已由谱减法装置100执行了谱减法的语音信号中的音乐噪声。更具体地，噪声去除装置200针对如图2所示的在谱图的频率轴上连续的信号执行聚类以指定一个或更多个群{群（i,j,f）}，并将谱图上除指定的群以外的残留信号确定为噪声以去除残留信号。这里，群{群（i,j,f）}指的是用于确定语音或音乐噪声组的单元，并且i、j和f分别指的是帧、群和频率索引。

基于上面的描述，噪声去除装置200确定在频率轴上的每个群的连续性以提取与音乐噪声相对应的群。更具体地，噪声去除装置200将每个指定的群长度{cluster_length(i,j)}（即在频率轴上的每个群的连续长度）与设置的阈值进行比较以提取并去除与音乐噪声相对应的群。为此，通过例如语音活动检测器这样的预先指定的语音部提取方案，噪声去除装置200将根据谱图的时间轴所区别的帧划分为噪声类似帧和语音类似帧。此外，噪声去除装置200将位于所划分的噪声类似帧或语音类似帧上的每个群的长度与预设的阈值进行比较以确定是否存在与每个群对应的音乐噪声。也就是说，当群长度{cluster_length(i,j)}小于在噪声类似帧中的第一阈值（TH1）时，噪声去除装置200将相应的群区分为音乐噪声，并提取该群。此外，当群长度{cluster_length(i,j)}小于在语音类似帧中的第二阈值（TH2）时，噪声去除装置200将相应的群区分为音乐噪声，并提取该群。作为参考，第二阈值（TH2）具有比第一阈值（TH1）更大的值。

此外，针对其余的群的每一个，噪声去除装置200基于在时间轴上交叠的群之间的相似性来提取与音乐噪声相对应的群。更具体地，针对其余的群的每一个，噪声去除装置200可以输出已经去除了音乐噪声的语音信号，其中，通过基于在时间轴上交叠的区域上的群长度的平均值或偏差来确定相似性并提取出与音乐噪声相对应的群来去除音乐噪声。也就是说，如图2所示，当信号从群（i-k,,f）到群（i,,f）在时间轴上不连续时，噪声去除装置200将群（i,,f）区分为音乐噪声，并通过使用语音在时间轴上连续但音乐噪声在时间轴上不连续的特性来提取群（i,,f）。这里，k表示过去的帧常数。此外，通过利用语音的平均值或偏差大于音乐噪声的平均值或偏差的特性，通过将时间轴上的从群（i-k,,f）到群（i,,f）的平均值或偏差与群（i,,f）进行比较来确定获得的相似度，噪声去除装置200可以将群（i,,f）提取为音乐噪声。

以下，将参照图3描述根据本发明的实施方式的噪声去除装置200的详细配置。

也就是说，噪声去除装置200包括：聚类单元210，配置为针对语音信号执行聚类；第一提取器220，配置为基于频率轴提取音乐噪声；以及第二提取器230，配置为基于时间轴提取音乐噪声。

聚类单元210在已经在谱图的频率轴上执行了基于增益函数的谱减法（SS）的语音信号之间执行聚类，并指定一个或更多个群。更具体地，聚类单元210针对如图2所示的谱图的频率轴上的连续的信号执行聚类以指定一个或更多个群{群（i,j,f）}，并将谱图上的除指定的群以外的残留信号确定为噪声以去除所确定的残留信号。这里，群{群（i,j,f）}指的是用于确定语音或音乐噪声组的单元，并且i、j和f分别指的是帧、群和频率索引。

第一提取器220确定在频率轴上的指定的群的连续性以提取与音乐噪声相对应的群。更具体地，第一提取器220将指定的群长度{cluster_length(i,j)}（即，每个群在频率轴上的连续长度）与设置的阈值进行比较以提取并去除与音乐噪声相对应的群。为此，通过例如语音活动检测器这样的预先指定的语音部提取方案，第一提取器220将根据谱图的时间轴所区分的帧划分为噪声类似帧和语音类似帧。此外，第一提取器220将位于所划分的噪声类似帧或语音类似帧上的每个群的长度与预设的阈值进行比较以确定是否存在与每个群对应的音乐噪声。也就是说，如图2所例示的，当群长度{cluster_length(i,j)}小于在噪声类似帧中的第一阈值（TH1）时，第一提取器220将相应的群区分为音乐噪声，并提取该群。此外，当群长度{cluster_length(i,j)}小于在语音类似帧中的第二阈值（TH2）时，第一提取器220将相应的群区分为音乐噪声，并提取该群。作为参考，第二阈值（TH2）具有比第一阈值（TH1）更大的值。

针对其余的群中的每一个群，第二提取器230基于在时间轴上交叠的群之间的相似性来提取与音乐噪声相对应的群。更具体地，针对其余的群中的每一个群，第二提取器230可以输出已经去除了音乐噪声的语音信号，其中，通过基于在时间轴上交叠的区域上的群长度的平均值或偏差来确定相似性并提取出与音乐噪声相对应的群来去除音乐噪声。也就是说，如图2所示，当信号从群（i-k,,f）到群（i,,f）在时间轴上不连续时，第二提取器230将群（i,,f）区分为音乐噪声，并通过使用语音在时间轴上连续但音乐噪声在时间轴上不连续的特性来提取群（i,,f）。这里，k表示过去的帧常数。此外，通过利用语音的平均值或偏差大于音乐噪声的平均值或偏差的特性，通过将时间轴上的从群（i-k,,f）到群（i,,f）的平均值或偏差与群（i,,f）进行比较来确定获得的相似度，第二提取器230可以将群（i,,f）提取为音乐噪声。

如上所述，根据基于语音通信的噪声去除系统，通过执行与对信号进行分组（其中，已经在根据在时间轴和频率轴中的变化来对幅度上的差别进行显示的谱图的频率轴上执行了从语音通信去除噪声的谱减法（SS））的任务相对应的聚类，并基于聚类通过属于语音和音乐噪声的特性仅提取出音乐噪声，可以从噪声区域提取出残留的音乐噪声并因而提供自然的收听效果。此外，由于防止了在语音区域中生成的语音失真，所以可以确保语言清晰度的可靠性。另外，由于从语音区域提取出了音乐噪声，所以可以降低噪声的散度。

以下，将参照图4和图5描述根据本发明的实施方式的基于语音通信的噪声去除方法。这里，为了方便描述，将通过使用相应的标号来讨论已经通过图1至图3描述的在图4和图5中示出的配置。

首先，将参照图4描述根据本发明的实施方式的对基于语音通信的噪声去除系统进行驱动的方法。

在步骤S110至S130，谱减法装置100针对在语音通信环境中接收的语音信号基于增益函数执行谱减法以改善声音质量。通过等式1到等式4可以描述谱减法装置100的谱减法操作。

[等式1]

x(n)＝s(n)+w(n)

在等式1中，n表示离散的时间索引，并且通过傅立叶变换，x(n)可以接近于傅立叶频谱（FS）X_i(f)，如在等式2中所示。

[等式2]

X_i(f)＝S_i(f)+W_i(f)

就此而论，以包括为了抑制残留的音乐噪声而引入的过减元素α(α≥1)的增益函数G_i(f)为基础的谱减法是如在等式3和等式4中所限定的。

[等式3]

[等式4]

{\hat{S}}_{i} (f) = X_{i} G_{i} (f)

在等式3和等式4中，|X_i(f)|和

分别表示X_i(f)的傅立叶幅值谱（FMS）和估计噪声的FMS。此外，α是这样的因子，即，它增加了语音失真，同时通过比估计减去更多的噪声来减少残留噪声的峰值元素。此外，β(0≤β<1)表示用于屏蔽残留噪声的谱平滑元素，并且一般使用接近于“0”的值。另外，r表示用于确定减法挠度的形状的指数。

接着，在步骤S140，噪声去除装置200在谱图的频率轴上执行聚类以去除会残留在已经由谱减法装置100执行了谱减法的语音信号中的音乐噪声。更具体地，噪声去除装置200针对在如图2所示的谱图的频率轴上连续的信号执行聚类以指定一个或更多个群{群（i,j,f）}，并将在谱图上除指定的群以外的残留信号区分为噪声以去除残留信号。这里，群{群（i,j,f）}指的是用于确定语音或音乐噪声组的单元，并且i、j和f分别指的是帧、群和频率索引。

接着，在步骤S150到S160，噪声去除装置确定每个群在频率轴上的连续性以提取与音乐噪声相对应的群。更具体地，噪声去除装置将每个指定的群长度{cluster_length(i,j)}（即，每个群在频率轴上的连续长度）与设置的阈值进行比较，以提取出与音乐噪声相对应的群。为此，通过例如语音活动检测器这样的预先指定的语音部提取方案，噪声去除装置200将根据谱图的时间轴所区分的帧划分为噪声类似帧和语音类似帧。此外，噪声去除装置200将位于所划分的噪声类似帧或语音类似帧上的每个群的长度与预设的阈值进行比较以确定是否存在与每个群相对应的音乐噪声。也就是说，当群长度{cluster_length(i,j)}小于在噪声类似帧中的第一阈值（TH1）时，噪声去除装置200将相应的群区分为音乐噪声，并提取该群。此外，当群长度{cluster_length(i,j)}小于在语音类似帧中的第二阈值（TH2）时，噪声去除装置200将相应的群区分为音乐噪声，并提取该群。作为参考，第二阈值（TH2）具有比第一阈值（TH1）更大的值。

此外，在步骤S170至S190，针对其余的群的每一个，噪声去除装置200基于在时间轴上交叠的群之间的相似性来提取与音乐噪声相对应的群。优选的是，针对其余的群的每一个，通过以在时间轴上交叠的区域上的群长度的平均值或偏差为基础来确定相似性并提取与音乐噪声相对应的群，噪声去除装置200可以输出其中已经去除了音乐噪声的语音信号。也就是说，如图2所示，当信号从群（i-k,,f）到群（i,,f）在时间轴上不连续时，噪声去除装置200将群（i,,f）区分为音乐噪声，并通过利用语音在时间轴上连续但音乐噪声在时间轴上不连续的特性来提取群（i,,f）。这里，k表示过去的帧常数。此外，通过使用语音的平均值或偏差大于音乐噪声的平均值或偏差的特性，通过将时间轴上的从群（i-k,,f）到群（i,,f）的平均值或偏差与群（i,,f）进行比较来确定所获得的相似程度，噪声去除装置200可以提取出群（i,,f）作为音乐噪声。

以下，将参照图5描述根据本发明的实施方式的对噪声去除装置200进行驱动的方法。

首先，在步骤S210至S230中，聚类单元210针对在如图2所示的谱图的频率轴上连续的信号执行聚类以指定一个或更多个群{群（i,j,f）}，并将在谱图上的除指定的群以外的残留信号确定为噪声以去除所确定的残留信号。这里，群{群（i,j,f）}指的是用于确定语音或音乐噪声组的单元，并且i、j和f分别指的是帧、群和频率索引。

接着，在步骤S240，通过例如语音活动检测器这样的预先指定的语音部提取方案，第一提取器220将根据谱图的时间轴所区分的帧划分为噪声类似帧和语音类似帧。

在步骤S250到S260中，当群长度{cluster_length(i,j)}如图2所示地小于在噪声类似帧中的第一阈值（TH1）时，第一提取器220将相应的群区分为音乐噪声，并提取该群。

此外，在步骤S270到S280中，当群长度{cluster_length(i,j)}小于在语音类似帧中的第二阈值（TH2）时，第一提取器220将相应的群区分为音乐噪声，并提取该群。作为参考，第二阈值（TH2）具有比第一阈值（TH1）更大的值。

然后，在步骤S300到S320，针对其余的群中的每一个群，通过以在时间轴上交叠的区域上的群长度的平均值或偏差为基础确定相似性并提取与音乐噪声相对应的群，第二提取器230输出其中已去除了音乐噪声的语音信号。优选地，如图2所示，当信号从群（i-k,,f）到群（i,,f）在时间轴上不连续时，第二提取器230将群（i,,f）区分为音乐噪声，并通过利用语音在时间轴上连续但音乐噪声在时间轴上不连续的特性来提取群（i,,f）。这里，k表示过去的帧常数。此外，通过使用语音的平均值或偏差大于音乐噪声的平均值或偏差的特性，通过将时间轴上的从群（i-k,,f）到群（i,,f）的平均值或偏差与群（i,,f）进行比较来确定所获得的相似程度，第二提取器230可以提取出群（i,,f）作为音乐噪声。

尽管已经参照本发明的特定的实施方式示出并描述了本发明，但本领域技术人员将理解的是，在不偏离由所附的权利要求所限定的本发明的精神和范围的情况下可以做出多种在形式上和细节上的变化。

工业适用性

根据依据本发明的基于语音通信的噪声去除系统和方法，本发明对常规技术限制的超越在于，通过使用属于语音和音乐噪声的特性并基于与对频率轴上的信号分组的任务相对应的聚类，可以仅提取音乐噪声。因此，不仅由于可以使用关联的技术而且由于应用本发明的装置极有进入市场并售卖的可能性，所以本发明具有工业适用性，并且本发明可以明显地在实际中实现。

Claims

1.一种基于语音通信的噪声去除系统，该系统包括：

谱减法装置，其配置为基于增益函数针对语音信号执行谱减法（SS）；以及

噪声去除装置，其配置为针对已经执行了所述谱减法的语音信号执行在谱图的频率轴上连续的信号的聚类以指定一个或更多个群，并且所述噪声去除装置配置为确定所指定的各个群在频率轴和时间轴上的连续性以提取音乐噪声。

2.根据权利要求1所述的系统，其中，所述噪声去除装置将所指定的各个群在频率轴上的连续长度与阈值进行比较以提取与所述音乐噪声相对应的群，并针对其余的群中的每一个群基于在时间轴上交叠的群之间的相似性来提取与音乐噪声相对应的群。

3.一种噪声去除装置，该装置包括：

聚类单元，其配置为针对其中已经执行了基于增益函数的谱减法的语音信号执行在谱图的频率轴上的信号的聚类以指定一个或更多个群；

第一提取器，其配置为确定所指定的群中的每一个群在频率轴上的连续性以提取与音乐噪声相对应的群；以及

第二提取器，其配置为针对其余的群中的每一个群基于在时间轴上交叠的群之间的相似性来提取与所述音乐噪声相对应的群。

4.根据权利要求3所述的装置，其中，所述聚类单元通过在谱图的频率轴上连续的信号之间执行聚类来指定一个或更多个群。

5.根据权利要求4所述的装置，其中，所述聚类单元去除在谱图上除所指定的群中的每一个群以外的残留信号。

6.根据权利要求3所述的装置，其中，所述第一提取器通过将在频率轴上的所指定的群中的每一个群的连续长度与阈值进行比较来提取与音乐噪声相对应的群。

7.根据权利要求6所述的装置，其中，所述第一提取器通过预先指定的语音部提取方案将在谱图的时间轴上所区分的每个帧划分为噪声类似帧和语音类似帧，并将位于所划分的噪声类似帧或语音类似帧上的群的长度与阈值进行比较。

8.根据权利要求3所述的装置，其中，针对其余的群中的每一个群，所述第二提取器基于在时间轴上交叠的群之间的相似性来提取与所述音乐噪声相对应的群。

9.根据权利要求8所述的装置，其中，针对其余的群中的每一个群，通过基于在时间轴上交叠的区域上的群长度的平均值或偏差来确定相似性，所述第二提取器提取与所述音乐噪声相对应的群。

10.一种基于语音通信的噪声去除方法，该方法包括：

执行谱减法（SS）的步骤，由谱减法装置基于增益函数针对语音信号执行谱减法；

执行聚类的步骤，由噪声去除装置针对其中已执行了所述谱减法的语音信号执行在谱图的频率轴上连续的信号的聚类以指定一个或更多个群；

第一提取步骤，由所述噪声去除装置通过确定所指定的群中的每一个群在频率轴上的连续性来提取与音乐噪声相对应的群；以及

第二提取步骤，由所述噪声去除装置针对其余的群中的每一个群基于在时间轴上交叠的群之间的相似性来提取与所述音乐噪声相对应的群。

11.根据权利要求10所述的方法，其中，对群的所述第一提取步骤包括：通过将所指定的群中的每一个群在频率轴上的连续长度与阈值进行比较来提取与所述音乐噪声相对应的群。

12.根据权利要求10所述的方法，其中，对群的所述第二提取步骤包括：针对其余的群中的每一个群，基于在时间轴上交叠的群之间的相似性来提取与所述音乐噪声相对应的群。

13.一种基于语音通信的噪声去除方法，该方法包括：

执行聚类的步骤，针对其中已经执行了基于增益函数的谱减法的语音信号执行在谱图的频率轴上的信号的聚类以指定一个或更多个群；

第一提取步骤，通过确定所指定的群中的每一个群在频率轴上的连续性来提取与音乐噪声相对应的群；以及

第二提取步骤，针对其余的群中的每一个群，基于在时间轴上交叠的群之间的相似性来提取与所述音乐噪声相对应的群。

14.根据权利要求13所述的方法，其中，所述执行聚类的步骤包括：在谱图的频率轴上连续的信号之间执行聚类以指定一个或更多个群。

15.根据权利要求14所述的方法，其中，所述执行聚类的步骤包括：去除在谱图上除所指定的群中的每一个群以外的残留信号。

16.根据权利要求13所述的方法，其中，对群的所述第一提取步骤包括：通过将在频率轴上的指定的群中的每一个群的连续长度与阈值进行比较来提取与所述音乐噪声相对应的群。

17.根据权利要求16所述的方法，其中，对群的所述第一提取步骤包括：

通过预先指定的语音部提取方案，将在谱图的时间轴上所区分的每个帧划分为噪声类似帧和语音类似帧；以及

将位于所划分的噪声类似帧或语音类似帧上的群的长度与阈值进行比较。

18.根据权利要求13所述的方法，其中，对群的所述第二提取步骤包括：针对其余的群中的每一个群，基于在时间轴上交叠的群之间的相似性来提取与所述音乐噪声相对应的群。

19.根据权利要求18所述的方法，其中，对群的所述第二提取步骤包括：针对其余的群中的每一个群，通过执行基于在时间轴上交叠的区域上的群长度的平均值或偏差来确定相似性以提取与所述音乐噪声相对应的群。