CN111429934B - 音频信号处理方法及装置、存储介质 - Google Patents
音频信号处理方法及装置、存储介质 Download PDFInfo
- Publication number
- CN111429934B CN111429934B CN202010176289.8A CN202010176289A CN111429934B CN 111429934 B CN111429934 B CN 111429934B CN 202010176289 A CN202010176289 A CN 202010176289A CN 111429934 B CN111429934 B CN 111429934B
- Authority
- CN
- China
- Prior art keywords
- frequency point
- state probability
- determining
- separation matrix
- state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 67
- 238000003672 processing method Methods 0.000 title claims abstract description 15
- 239000011159 matrix material Substances 0.000 claims abstract description 113
- 238000000926 separation method Methods 0.000 claims abstract description 102
- 238000000034 method Methods 0.000 claims abstract description 24
- 238000012545 processing Methods 0.000 claims description 24
- 238000005315 distribution function Methods 0.000 claims description 15
- 230000004913 activation Effects 0.000 description 19
- 238000005516 engineering process Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 10
- 238000009826 distribution Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 238000007476 Maximum Likelihood Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000009827 uniform distribution Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/028—Voice signal separating using properties of sound source
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02165—Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本公开是关于一种音频信号处理方法及装置、存储介质。该方法包括:由至少两个麦克风获取至少两个声源各自发出的音频信号,以获得至少两个麦克风各自的原始带噪信号;根据至少两个麦克风各自的原始带噪信号,获取至少两个声源各自的频域估计信号;将预定的频点范围划分为多个频点子带;根据每个频点子带的频域估计信号和预设的至少两个声源各自处于预设状态的第一状态概率,确定至少两个声源在每个频点子带上处于预设状态的第二状态概率;根据第二状态概率确定每个频点子带对应的各频点的分离矩阵;基于分离矩阵及原始带噪信号,获得至少两个声源各自发出的音频信号。根据本公开实施例的技术方案,能够减少系统延迟。
Description
技术领域
本公开涉及信号处理领域,尤其涉及一种音频信号处理方法及装置、存储介质。
背景技术
相关技术中,智能产品设备拾音多采用麦克风阵列,应用麦克风波束形成技术提高语 音信号处理质量,以提高真实环境下的语音识别率。但多个麦克风的波束形成技术对麦克 风位置误差敏感,性能影响较大,另外麦克风个数增多了也会导致产品成本升高。
因此,目前越来越多的智能产品设备只配置两个麦克风;两个麦克风常采用完全不同 于多个麦克风波束形成技术的盲源分离技术对语音进行增强,而如何使得基于盲源分离技 术分离后信号的语音质量更高,以及提高噪声环境下分离的语音信号的信噪比是目前的迫 切需要解决的问题。
发明内容
本公开提供一种音频信号处理方法及装置、存储介质。
根据本公开实施例的第一方面,提供一种音频信号处理方法,包括:
由至少两个麦克风获取至少两个声源各自发出的音频信号,以获得所述至少两个麦克 风各自的原始带噪信号;
对于时域上的每一帧,根据所述至少两个麦克风各自的所述原始带噪信号,获取所述 至少两个声源各自的频域估计信号;
将预定的频点范围划分为多个频点子带,其中,每个频点子带包含多个频点数据;
根据每个频点子带的所述频域估计信号和预设的所述至少两个声源各自处于预设状 态的第一状态概率,确定所述至少两个声源在每个频点子带上处于所述预设状态的第二状 态概率;
根据所述第二状态概率确定所述每个频点子带对应的各频点的分离矩阵;
基于所述分离矩阵及所述原始带噪信号,获得至少两个声源各自发出的音频信号。
在一些实施例中,所述方法包括:
若所述第二状态概率或所述第一状态概率不收敛,则根据所述第二状态概率更新所述 第一状态概率;
根据每个频点子带的所述频域估计信号和更新后的所述第一状态概率,更新所述第二 状态概率。
在一些实施例中,所述根据所述第二状态概率更新所述第一状态概率,包括:
根据各所述频点子带的所述第二状态概率的总和,以及所述频点子带的数量,更新所 述第一状态概率。
在一些实施例中,所述根据每个频点子带的所述频域估计信号和更新后的所述第一状 态概率,更新所述第二状态概率,包括:
根据每个频点子带的所述频域估计信号,确定状态概率分布函数;
根据所述状态概率分布函数和更新后的所述第一状态概率,更新所述第二状态概率。
在一些实施例中,所述根据所述第二状态概率确定所述每个频点子带对应的各频点的 分离矩阵,包括:
根据更新后的所述第二状态概率,确定所述每个频点子带对应的各频点的备选分离矩 阵;
若所述备选分离矩阵不收敛,则重新根据更新后的所述第二状态概率,确定所述每个 频点子带对应的各频点的备选分离矩阵;
若所述备选分离矩阵收敛,则将所述备选分离矩阵确定为所述分离矩阵。
在一些实施例中,所述根据更新后的所述第二状态概率,确定所述每个频点子带对应 的各频点的备选分离矩阵,包括:
根据更新后的第二状态概率,确定所述至少两个声源在每个频点子带上各频点的协方 差矩阵;
根据所述协方差矩阵,确定所述备选分离矩阵。
根据本公开实施例的第二方面,提供一种音频信号处理装置,包括:
第一获取模块,用于由至少两个麦克风获取至少两个声源各自发出的音频信号,以获 得所述至少两个麦克风各自的原始带噪信号;
第二获取模块,用于对于时域上的每一帧,根据所述至少两个麦克风各自的所述原始 带噪信号,获取所述至少两个声源各自的频域估计信号;
划分模块,用于将预定的频点范围划分为多个频点子带,其中,每个频点子带包含多 个频点数据;
第一确定模块,用于根据每个频点子带的所述频域估计信号和预设的所述至少两个声 源各自处于预设状态的第一状态概率,确定所述至少两个声源在每个频点子带上处于所述 预设状态的第二状态概率;
第二确定模块,用于根据所述第二状态概率确定所述每个频点子带对应的各频点的分 离矩阵;
第三获取模块,用于基于所述分离矩阵及所述原始带噪信号,获得至少两个声源各自 发出的音频信号。
在一些实施例中,所述装置还包括:
第一更新模块,若所述第二状态概率或所述第一状态概率不收敛,则用于根据所述第 二状态概率更新所述第一状态概率;
第二更新模块,用于根据每个频点子带的所述频域估计信号和更新后的所述第一状态 概率,更新所述第二状态概率。
在一些实施例中,所述第一更新模块,包括:
第一更新子模块,用于根据各所述频点子带的所述第二状态概率的总和,以及所述频 点子带的数量,更新所述第一状态概率。
在一些实施例中,所述第二更新模块,包括:
第一确定子模块,用于根据每个频点子带的所述频域估计信号,确定状态概率分布函 数;
第二更新子模块,用于根据所述状态概率分布函数和更新后的所述第一状态概率,更 新所述第二状态概率。
在一些实施例中,所述第二确定模块,包括:
第二确定子模块,用于根据更新后的所述第二状态概率,确定所述每个频点子带对应 的各频点的备选分离矩阵;
第三确定子模块,若所述备选分离矩阵不收敛,则用于重新根据更新后的所述第二状 态概率,确定所述每个频点子带对应的各频点的备选分离矩阵;
第四确定子模块,若所述备选分离矩阵收敛,则用于将所述备选分离矩阵确定为所述 分离矩阵。
在一些实施例中,所述第二确定子模块,包括:
第五确定子模块,用于根据更新后的第二状态概率,确定所述至少两个声源在每个频 点子带上各频点的协方差矩阵;
第六确定子模块,用于根据所述协方差矩阵,确定所述备选分离矩阵。
根据本公开实施例的第三方面,提供一种音频信号的处理装置,所述装置至少包括: 处理器和用于存储能够在所述处理器上运行的可执行指令的存储器,其中:
处理器用于运行所述可执行指令时,所述可执行指令执行上述任一项音频信号处理方 法中的步骤。
根据本公开实施例的第四方面,提供一种非临时性计算机可读存储介质,所述计算机 可读存储介质中存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现上述 任一项音频信号处理方法中的步骤。
本公开的实施例提供的技术方案可以包括以下有益效果:通过本公开实施例的技术方 案,在进行音频信号分离时,考虑到了声源的激活状态。通过确定声源激活的概率,来估 计声源的实际状态。这种方式相对于现有技术中,假设声源状态一直为激活状态的方法来 进行分离来说,更加接近实际的声源发出的音频信号,进而提升分离后的语音质量,提升 信噪比和识别率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限 制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例, 并与说明书一起用于解释本发明的原理。
图1是根据一示例性实施例示出的一种音频信号处理方法的流程图;
图2是根据一示例性实施例示出的一种音频信号处理方法的应用场景的框图;
图3是根据一示例性实施例示出的一种音频信号处理方法的流程图;
图4是根据一示例性实施例示出的一种音频信号处理装置的结构框图;
图5是根据一示例性实施例示出的一种音频信号处理装置的实体结构框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图 时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中 所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权 利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
图1是根据一示例性实施例示出的一种音频信号处理方法的流程图,如图1所示,包 括以下步骤:
步骤S101、由至少两个麦克风获取至少两个声源各自发出的音频信号,以获得所述 至少两个麦克风各自的原始带噪信号;
步骤S102、对于时域上的每一帧,根据所述至少两个麦克风各自的所述原始带噪信 号,获取所述至少两个声源各自的频域估计信号;
步骤S103、将预定的频点范围划分为多个频点子带,其中,每个频点子带包含多个频点数据;
步骤S104、根据每个频点子带的所述频域估计信号和预设的所述至少两个声源各自 处于预设状态的第一状态概率,确定所述至少两个声源在每个频点子带上处于所述预设状 态的第二状态概率;
步骤S105、根据所述第二状态概率确定所述每个频点子带对应的各频点的分离矩阵;
步骤S106、基于所述分离矩阵及所述原始带噪信号,获得至少两个声源各自发出的 音频信号。
本公开实施例所述的方法应用在终端中。这里,所述终端为集成了两个或两个以上麦 克风的电子设备。例如,所述终端可以为车载终端、计算机、或服务器等。
在一实施例中,所述终端还可以是:与集成了两个或两个以上麦克风的预定设备连接 的电子设备;所述电子设备基于所述连接接收所述预定设备采集的音频信号,且基于所述 连接将处理后的音频信号发送给所述预定设备。例如,所述预定设备为音箱等。
在实际应用中,所述终端中包括至少两个麦克风,所述至少两个麦克风同时检测至少 两个声源各自发出的音频信号,以获得所述至少两个麦克风各自的原始带噪信号。这里, 可以理解的是,本实施例中所述至少两个麦克风对所述两个声源发出的音频信号是同步进 行检测的。
在本公开实施例的所述音频信号处理方法是,需要对预定时间内的音频帧的原始带噪 信号获取完之后,才开始对该预定时间内的音频帧的音频信号进行分离。
在本公开实施例中,所述麦克风为2个或2个以上,所述声源为2个或2个以上。
在本公开实施例中,所述原始带噪信号为:包括至少两个声源发出的声音的混合信号。 例如,所述麦克风为2个,分别为麦克风1和麦克风2;所述声源为2个,分别为声源1和声源2;则所述麦克风1的原始带噪信号为包括声源1和声源2的音频信号;所述麦克 风2原始带噪信号同样也是均包括声源1和声源2音频信号。
例如,所述麦克风为3个,分别为麦克风1、麦克风2和麦克风3;所述声源为3个, 分别为声源1、声源2和声源3;则所述麦克风1的原始带噪信号为包括声源1、声源2 和声源3的音频信号;所述麦克风2和所述麦克风3的原始带噪信号同样也是均包括声源 1、声源2和声源3的音频信号。
可以理解的是,若一个声源发出的声音在一个对应的麦克风中产生的信号为音频信 号,则其它声源在所述麦克风中产生的信号为噪声信号。本公开实施例是需要从至少两个 麦克风中恢复至少两个声源发出的声源。一般声源个数是与麦克风个数相同的,在一些实 施例中,声源个数与麦克风个数也可以是不同的。
可以理解的是,麦克风采集声源发出声音的音频信号时,可以采集至少一帧音频帧的 音频信号,此时采集到的音频信号为每一个麦克风的原始带噪信号。原始带噪信号可以是 时域信号也可以是频域信号。如果原始带噪信号为时域信号,则可以根据时频转换的运算 将时域信号转换为频域信号。
这里,时频转换是指时域信号与频域信号间的相互转换,可以基于快速傅里叶变换 (Fast Fourier Transform,FFT),将时域信号进行频域变换。或者,可以基于短时傅里叶变换(short-time Fourier transform,STFT),将时域信号进行频域变换。或者,还可以基于其它傅里叶变换,将时域信号进行频域变换。
示例性的,若第p个麦克风在第n帧的时域信号为:将第n帧的时域信号变变换为频域信号,确定第n帧的原始带噪信号为:其中,所述m 为第n帧时域信号的离散时间点数量,k为频点。如此,本实施例可以通过所述时域到频 域的变化,可以获得每一帧的原始带噪信号。当然,获取每一帧的原始带噪信号也可以基 于其它的快速傅里叶变换公式,在此不做限制。
在本公开实施例中,将预定的频点范围可以是每一帧音频信号所包含的所有频点,例 如,系统的FFT点数为Nfft,则划分的每个音频帧包含的频点数量为将所 有个频点划分为D个频点子带,那么每个频点子带包函的频点为:
示例性地,设系统FFT点数为2048,划分为D=4个频点子带,则第一个频点子带为F1={1,2,L,1024},第二个频点子带为F2={1025,1026,L,1536},第三个频点子带为 F3={1537,1538,L,1792},第四个频点子带为F4={1793,1538,L,2048}。
在本公开实施例中,每个声源在频点子带Fd上不同时刻的激活状态可能有两种:激 活和未激活。也就是声源发出音频信号或者未发出音频信号。因此,这里通过第一状态概 率与第二状态概率来表示激活的状态概率。激活的状态概率,是指每个声源在各频点发出 音频信号的概率以及不发出音频信号的概率。这里,第一状态概率为估计的先验激活状态 概率,第二状态概率为根据第一状态概率确定的声源处于每个频点子带上各频点后验激活 状态概率。
这里,预设第一状态概率作为先验状态概率,示例性地,初始时可以将第一状态概率 预设为均匀分布。然后根据第一状态概率与频域估计信号来确定后验状态概率,也就是上 述第二状态概率。
示例性的,频域估计信号可以根据初始的分离矩阵或上一帧的分离矩阵分离频域带噪 信号得到,根据频域估计信号的分布,可以确定各频点子带上在两种不同的激活状态下的 信号分布模型。基于信号分布模型与上述第一状态概率,可以得到后验激活状态概率,即 上述第二状态概率。根据第二状态概率更新分离矩阵,进而对原始带噪信号进行分离。
如此,在进行音频信号分离时,考虑声源的激活状态,相对于现有技术中,假设声源 状态一直为激活状态的方法来进行分离来说,更加接近实际的声源发出的音频信号,进而 提升分离后的语音质量,提升信噪比和识别率。
在一些实施例中,所述方法包括:
若所述第二状态概率或所述第一状态概率不收敛,则根据所述第二状态概率更新所述 第一状态概率;
根据每个频点子带的所述频域估计信号和更新后的所述第一状态概率,更新所述第二 状态概率。
在本公开实施例中,可以根据第一状态概率以及第二状态概率的收敛状况来反复更新 第一状态概率和第二状态概率,直至两者收敛。最终得到的第一状态概率与第二状态概率 无限接近于固定值,也就是接近于实际的声源状态概率的分布情况。
这里,第一状态概率与第二状态概率均为对应频点子带的数列,收敛则是指 随着反复更新,最终的第一状态概率和第二状态概率趋近于实际声源状态概率的分布。
在一些实施例中,所述根据所述第二状态概率更新所述第一状态概率,包括:
根据各所述频点子带的所述第二状态概率的总和,以及所述频点子带的数量,更新所 述第一状态概率。
示例性的,这里采用如下公式(1)来估计先验激活状态概率,也就是第一状态概率:
其中,πp,n,c为第p个声源在n时刻处于c状态的先验概率,即第一状态概率,为第p个声源在频点子带Fd上n时刻处于c状态的后验概率,即第二状态概率;D为划 分的频点子带数,φc为参数,示例性地,φc=5,c=0,1。
在一些实施例中,所述根据每个频点子带的所述频域估计信号和更新后的所述第一状 态概率,更新所述第二状态概率,包括:
根据每个频点子带的所述频域估计信号,确定状态概率分布函数;
根据所述状态概率分布函数和更新后的所述第一状态概率,更新所述第二状态概率。
在本公开实施例中,可以根据频域估计信号,确定概率分布模型,也就是状态概率分 布函数,确定声源在不同状态下的概率的分布情况。
如此,根据状态概率分布函数,以及先验激活状态概率即第一状态概率,就可以确定 第二状态概率,第二状态概率则更接近声源真实的状态概率。
示例性地,可以通过如下公式(2)来更新第二状态概率:
在一些实施例中,所述根据所述第二状态概率确定所述每个频点子带对应的各频点的 分离矩阵,包括:
根据更新后的所述第二状态概率,确定所述每个频点子带对应的各频点的备选分离矩 阵;
若所述备选分离矩阵不收敛,则重新根据更新后的所述第二状态概率,确定所述每个 频点子带对应的各频点的备选分离矩阵;
若所述备选分离矩阵收敛,则将所述备选分离矩阵确定为所述分离矩阵。
在本公开实施例中,采用第二状态概率重复上述实施例中的方法,可以反复更新分离 矩阵,直至分离矩阵收敛。分离矩阵收敛,即分离矩阵中的各元素在无线趋近于固定值, 即分离矩阵中各元素收敛。最终得到更加准确的分离矩阵,提升信号分离的准确性。
在一些实施例中,所述根据更新后的所述第二状态概率,确定所述每个频点子带对应 的各频点的备选分离矩阵,包括:
根据更新后的第二状态概率,确定所述至少两个声源在每个频点子带上各频点的协方 差矩阵;
根据所述协方差矩阵,确定所述备选分离矩阵。
在本公开实施例中,可以根据频域原始带噪信号与加权系数确定加权协方差矩阵,如 下公式(3)所示:
其中,加权系数为 Y(k,n)=[Y1(k,n),Y2(k,n)]T=W(k)X(k,n)。X(k,n)为频域原始带噪信号,X(k,n)H为 X(k,n)的共轭矩阵。Y(k,n)为频域估计信号,W(K)为初始化的分离矩阵或上次一确定的 备选分离矩阵。
基于协方差矩阵,可以跟新分离矩阵,得到备选分离矩阵:
如此,更新得到备选分离矩阵,通过判断备选分离矩阵是否收敛,可以确定其是否为 最终的分离矩阵。如果备选分离矩阵不收敛,则重新确定上述协方差矩阵,并继续后续将 当前的备选分离矩阵带入,重新确定备选分离矩阵,直至备选分离矩阵收敛。
确定分离矩阵后,即可通过分离矩阵分离频域估计信号,得到最终的各声源的频域信 号,通过ISTFT以及各帧的重叠相加处理后即可得到分离后的时域声源信号。
本公开实施例还提供以下示例:
图3是根据一示例性实施例示出的一种音频信号处理方法的流程图;其中,所述音频 信号处理方法中,如图2所示,声源包括声源1和声源2,麦克风包括麦克风1和麦克风2。基于所述音频信号处理方法,从麦克风1和麦克风2的原始带噪信号中恢复出声源1 和声源2的音频信号。如图3所示,所述方法包括以下步骤:
步骤S302、确定频域带噪信号;
以代表第p个麦克风第n帧的时域信号,p=1,2;m=1,…Nfft。n=1,..,NT。加窗 进行Nfft点FFT得到对应的频域信号Xp(k,n):k=1,..,K。n=1,..,NT则观测信号矩阵,即频域带噪信号为:X(k,n)=[X1(k,n),X2(k,n)]T。 k=1,..,K。n=1,..,NT。
下面通过EM算法估计分离矩阵W(k)和先验概率πp,n,c来得到分离信号Y(k,n)的后验估计,Y(k,n)为根据初始分离矩阵得到的频域估计信号。
上述EM算法即最大期望算法(Expectation-Maximization algorithm),在统计学中常 被用于寻找依赖于不可观察的隐性变量的概率模型中,参数的最大似然估计,包括在概率 模型中寻找参数最大似然估计或者最大后验估计。EM算法经过E(期望)步骤与M(最大化)步骤的交替运算迭代来实现,第一步是计算期望(E),利用对隐藏变量的现有估计 值,计算其最大似然估计值;第二步是最大化(M),最大化在E步上求得的最大似然值 来计算参数的值。M步上找到的参数估计值再被用于下一个E步计算中,从而实现交替迭 代运算。
在本公开实施例中,EM算法包括如下步骤:
步骤S303、E步:估计声源后验激活状态概率;
首先,利用上一次的分离矩阵W(k)求取当前帧中两个声源信号的先验频域估计。令Y(k,n)=[Y1(k,n),Y2(k,n)]T,k=1,..,K,其中Y1(k,n),Y2(k,n)分别为声源s1和s2在时频点(k,n)处的估计值,通过利用分离矩阵W(k)对观测矩阵X(k,n)进行分离得到,如公 式(4)所示:
Y(k,n)=W(k)X(k,n)k=1,..,K。n=1,..,NT。(4)
则第p个声源在第n帧的频域估计为:
其中,p=1,2。
然后,估计声源后验激活状态概率,即上述第二状态概率,如下公式(6)所示:
其中,状态概率分布函数如下公式(7)所示:
其中,αc与βc为系数,示例性地,(α0,β0)=(0.09,0.1),(α1,β1)=(1,0.1)
步骤S304、M步:估计先验激活状态概率πp,n,c
根据上述后验激活状态概率,可以更新上述先验激活状态概率,如公式(10)所示:
其中,为参数,示例性地,φc=5,c=0,1,得到上述更新后的第一状态概率,则可以 重复上述步骤更新第二状态概率。
步骤S305、根据更新后的后验激活状态概率更新分离矩阵: W(k)=[w1(k),w2(k)]H,k=1,..,K,具体包括以下步骤:
a)计算加权协方差矩阵Rp,k,如下公式(11)所示:
Y(k,n)=[Y1(k,n),Y2(k,n)]T=W(k)X(k,n) (13)
b)更新分离矩阵W(k)=[w1(k),w2(k)]H:
wp(k)=(WH(k)Rn,k)-1ep (15)
重复上述公式(11)至(16),即可不断优化分离矩阵,最终得到收敛的分离矩阵。
步骤S306、利用W(k)对原始带噪信号进行分离得到声源信号的后验频域估计,如下 公式(17)所示:
Y(k,n)=[Y1(k,n),Y2(k,n)]T=W(k)X(k,n) (17)
其中,n为第n帧,m为频点数,m=1,…,Nfft。p=1,2。
图4是根据一示例性实施例示出的一种音频信号处理装置的框图。参照图4,该装置 包括第一获取模块401,第二获取模块402,划分模块403,第一确定模块404,第二确定模块405和第三获取模块406。
第一获取模块401,用于由至少两个麦克风获取至少两个声源各自发出的音频信号, 以获得所述至少两个麦克风各自的原始带噪信号;
第二获取模块402,用于对于时域上的每一帧,根据所述至少两个麦克风各自的所述 原始带噪信号,获取所述至少两个声源各自的频域估计信号;
划分模块403,用于将预定的频点范围划分为多个频点子带,其中,每个频点子带包 含多个频点数据;
第一确定模块404,用于根据每个频点子带的所述频域估计信号和预设的所述至少两 个声源各自处于预设状态的第一状态概率,确定所述至少两个声源在每个频点子带上处于 所述预设状态的第二状态概率;
第二确定模块405,用于根据所述第二状态概率确定所述每个频点子带对应的各频点 的分离矩阵;
第三获取模块406,用于基于所述分离矩阵及所述原始带噪信号,获得至少两个声源 各自发出的音频信号。
在一些实施例中,所述装置还包括:
第一更新模块,若所述第二状态概率或所述第一状态概率不收敛,则用于根据所述第 二状态概率更新所述第一状态概率;
第二更新模块,用于根据每个频点子带的所述频域估计信号和更新后的所述第一状态 概率,更新所述第二状态概率。
在一些实施例中,所述第一更新模块,包括:
第一更新子模块,用于根据各所述频点子带的所述第二状态概率的总和,以及所述频 点子带的数量,更新所述第一状态概率。
在一些实施例中,所述第二更新模块,包括:
第一确定子模块,用于根据每个频点子带的所述频域估计信号,确定状态概率分布函 数;
第二更新子模块,用于根据所述状态概率分布函数和更新后的所述第一状态概率,更 新所述第二状态概率。
在一些实施例中,所述第二确定模块,包括:
第二确定子模块,用于根据更新后的所述第二状态概率,确定所述每个频点子带对应 的各频点的备选分离矩阵;
第三确定子模块,若所述备选分离矩阵不收敛,则用于重新根据更新后的所述第二状 态概率,确定所述每个频点子带对应的各频点的备选分离矩阵;
第四确定子模块,若所述备选分离矩阵收敛,则用于将所述备选分离矩阵确定为所述 分离矩阵。
在一些实施例中,所述第二确定子模块,包括:
第五确定子模块,用于根据更新后的第二状态概率,确定所述至少两个声源在每个频 点子带上各频点的协方差矩阵;
第六确定子模块,用于根据所述协方差矩阵,确定所述备选分离矩阵。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实 施例中进行了详细描述,此处将不做详细阐述说明。
图5是根据一示例性实施例示出的一种音频信号处理装置500的实体结构框图。例如, 装置500可以是移动电话、计算机、数字广播终端、消息收发设备、游戏控制台、平板设备、医疗设备、健身设备、个人数字助理等。
参照图5,装置500可以包括以下一个或多个组件:处理组件501,存储器502,电 源组件503,多媒体组件504,音频组件505,输入/输出(I/O)接口506,传感器组件507, 以及通信组件508。
处理组件501通常控制装置500的整体操作,诸如与显示、电话呼叫、数据通信、相机操作和记录操作相关联的操作。处理组件501可以包括一个或多个处理器510来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件501还可以包括一个或多个模块,便于处理组件501和其他组件之间的交互。例如,处理组件501可以包括多媒体模块, 以方便多媒体组件504和处理组件501之间的交互。
存储器510被配置为存储各种类型的数据以支持在装置500的操作。这些数据的示例 包括用于在装置500上操作的任何应用程序或方法的指令、联系人数据、电话簿数据、消息、图片、视频等。存储器502可以由任何类型的易失性或非易失性存储设备或者它们的 组合实现,如静态随机存取存储器(SRAM)、电可擦除可编程只读存储器(EEPROM)、 可擦除可编程只读存储器(EPROM)、可编程只读存储器(PROM)、只读存储器(ROM)、 磁存储器、快闪存储器、磁盘或光盘。
电源组件503为装置500的各种组件提供电力。电源组件503可以包括:电源管理系统,一个或多个电源,及其他与为装置500生成、管理和分配电力相关联的组件。
多媒体组件504包括在所述装置500和用户之间提供一个输出接口的屏幕。在一些实 施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板, 屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传 感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动 作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中, 多媒体组件504包括一个前置摄像头和/或后置摄像头。当装置500处于操作模式,如拍 摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前 置摄像头和/或后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件505被配置为输出和/或输入音频信号。例如,音频组件505包括一个麦克风(MIC),当装置500处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克 风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器510或经由 通信组件508发送。在一些实施例中,音频组件505还包括一个扬声器,用于输出音频信 号。
I/O接口506为处理组件501和外围接口模块之间提供接口,上述外围接口模块可以 是键盘、点击轮、按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件507包括一个或多个传感器,用于为装置500提供各个方面的状态评估。 例如,传感器组件507可以检测到装置500的打开/关闭状态、组件的相对定位,例如所述组件为装置500的显示器和小键盘,传感器组件507还可以检测装置500或装置500 的一个组件的位置改变,用户与装置500接触的存在或不存在,装置500方位或加速/减 速和装置500的温度变化。传感器组件507可以包括接近传感器,被配置为在没有任何的 物理接触时检测附近物体的存在。传感器组件507还可以包括光传感器,如CMOS或CCD 图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件507还可以包括加 速度传感器、陀螺仪传感器、磁传感器、压力传感器或温度传感器。
通信组件508被配置为便于装置500和其他设备之间有线或无线方式的通信。装置500可以接入基于通信标准的无线网络,如WiFi、2G或3G,或它们的组合。在一个示例 性实施例中,通信组件508经由广播信道接收来自外部广播管理系统的广播信号或广播相 关信息。在一个示例性实施例中,所述通信组件508还包括近场通信(NFC)模块,以促 进短程通信。例如,在NFC模块可基于射频识别(RFID)技术、红外数据协会(IrDA) 技术、超宽带(UWB)技术、蓝牙(BT)技术或其他技术来实现。
在示例性实施例中,装置500可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可 编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上 述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包 括指令的存储器502,上述指令可由装置500的处理器510执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、 磁带、软盘和光数据存储设备等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器执 行时,使得移动终端能够执行上述实施例中提供的任一种方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实 施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者 适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或 惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权 利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可 以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。
Claims (14)
1.一种音频信号处理方法,其特征在于,包括:
由至少两个麦克风获取至少两个声源各自发出的音频信号,以获得所述至少两个麦克风各自的原始带噪信号;
对于时域上的每一帧,根据所述至少两个麦克风各自的所述原始带噪信号,获取所述至少两个声源各自的频域估计信号;
将预定的频点范围划分为多个频点子带,其中,每个频点子带包含多个频点数据;
根据每个频点子带的所述频域估计信号和预设的所述至少两个声源各自处于预设状态的第一状态概率,确定所述至少两个声源在每个频点子带上处于所述预设状态的第二状态概率;
根据所述第二状态概率确定所述每个频点子带对应的各频点的分离矩阵;
基于所述分离矩阵及所述原始带噪信号,获得至少两个声源各自发出的音频信号。
2.根据权利要求1所述的方法,其特征在于,所述方法包括:
若所述第二状态概率或所述第一状态概率不收敛,则根据所述第二状态概率更新所述第一状态概率;
根据每个频点子带的所述频域估计信号和更新后的所述第一状态概率,更新所述第二状态概率。
3.根据权利要求2所述的方法,其特征在于,所述根据所述第二状态概率更新所述第一状态概率,包括:
根据各所述频点子带的所述第二状态概率的总和,以及所述频点子带的数量,更新所述第一状态概率。
4.根据权利要求2所述的方法,其特征在于,所述根据每个频点子带的所述频域估计信号和更新后的所述第一状态概率,更新所述第二状态概率,包括:
根据每个频点子带的所述频域估计信号,确定状态概率分布函数;
根据所述状态概率分布函数和更新后的所述第一状态概率,更新所述第二状态概率。
5.根据权利要求2所述的方法,其特征在于,所述根据所述第二状态概率确定所述每个频点子带对应的各频点的分离矩阵,包括:
根据更新后的所述第二状态概率,确定所述每个频点子带对应的各频点的备选分离矩阵;
若所述备选分离矩阵不收敛,则重新根据更新后的所述第二状态概率,确定所述每个频点子带对应的各频点的备选分离矩阵;
若所述备选分离矩阵收敛,则将所述备选分离矩阵确定为所述分离矩阵。
6.根据权利要求5所述的方法,其特征在于,所述根据更新后的所述第二状态概率,确定所述每个频点子带对应的各频点的备选分离矩阵,包括:
根据更新后的第二状态概率,确定所述至少两个声源在每个频点子带上各频点的协方差矩阵;
根据所述协方差矩阵,确定所述备选分离矩阵。
7.一种音频信号处理装置,其特征在于,包括:
第一获取模块,用于由至少两个麦克风获取至少两个声源各自发出的音频信号,以获得所述至少两个麦克风各自的原始带噪信号;
第二获取模块,用于对于时域上的每一帧,根据所述至少两个麦克风各自的所述原始带噪信号,获取所述至少两个声源各自的频域估计信号;
划分模块,用于将预定的频点范围划分为多个频点子带,其中,每个频点子带包含多个频点数据;
第一确定模块,用于根据每个频点子带的所述频域估计信号和预设的所述至少两个声源各自处于预设状态的第一状态概率,确定所述至少两个声源在每个频点子带上处于所述预设状态的第二状态概率;
第二确定模块,用于根据所述第二状态概率确定所述每个频点子带对应的各频点的分离矩阵;
第三获取模块,用于基于所述分离矩阵及所述原始带噪信号,获得至少两个声源各自发出的音频信号。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
第一更新模块,若所述第二状态概率或所述第一状态概率不收敛,则用于根据所述第二状态概率更新所述第一状态概率;
第二更新模块,用于根据每个频点子带的所述频域估计信号和更新后的所述第一状态概率,更新所述第二状态概率。
9.根据权利要求8所述的装置,其特征在于,所述第一更新模块,包括:
第一更新子模块,用于根据各所述频点子带的所述第二状态概率的总和,以及所述频点子带的数量,更新所述第一状态概率。
10.根据权利要求8所述的装置,其特征在于,所述第二更新模块,包括:
第一确定子模块,用于根据每个频点子带的所述频域估计信号,确定状态概率分布函数;
第二更新子模块,用于根据所述状态概率分布函数和更新后的所述第一状态概率,更新所述第二状态概率。
11.根据权利要求8所述的装置,其特征在于,所述第二确定模块,包括:
第二确定子模块,用于根据更新后的所述第二状态概率,确定所述每个频点子带对应的各频点的备选分离矩阵;
第三确定子模块,若所述备选分离矩阵不收敛,则用于重新根据更新后的所述第二状态概率,确定所述每个频点子带对应的各频点的备选分离矩阵;
第四确定子模块,若所述备选分离矩阵收敛,则用于将所述备选分离矩阵确定为所述分离矩阵。
12.根据权利要求11所述的装置,其特征在于,所述第二确定子模块,包括:
第五确定子模块,用于根据更新后的第二状态概率,确定所述至少两个声源在每个频点子带上各频点的协方差矩阵;
第六确定子模块,用于根据所述协方差矩阵,确定所述备选分离矩阵。
13.一种音频信号的处理装置,其特征在于,所述装置至少包括:处理器和用于存储能够在所述处理器上运行的可执行指令的存储器,其中:
处理器用于运行所述可执行指令时,所述可执行指令执行上述权利要求1至6任一项提供的音频信号处理方法中的步骤。
14.一种非临时性计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现上述权利要求1至6任一项提供的音频信号处理方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010176289.8A CN111429934B (zh) | 2020-03-13 | 2020-03-13 | 音频信号处理方法及装置、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010176289.8A CN111429934B (zh) | 2020-03-13 | 2020-03-13 | 音频信号处理方法及装置、存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111429934A CN111429934A (zh) | 2020-07-17 |
CN111429934B true CN111429934B (zh) | 2023-02-28 |
Family
ID=71553438
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010176289.8A Active CN111429934B (zh) | 2020-03-13 | 2020-03-13 | 音频信号处理方法及装置、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111429934B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102968991A (zh) * | 2012-11-29 | 2013-03-13 | 华为技术有限公司 | 一种语音会议纪要的分类方法、设备和系统 |
CN105513605A (zh) * | 2015-12-01 | 2016-04-20 | 南京师范大学 | 手机麦克风的语音增强系统和语音增强方法 |
WO2019016494A1 (en) * | 2017-07-19 | 2019-01-24 | Cedar Audio Ltd | ACOUSTIC SOURCE SEPARATION SYSTEMS |
CN110085246A (zh) * | 2019-03-26 | 2019-08-02 | 北京捷通华声科技股份有限公司 | 语音增强方法、装置、设备和存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6976804B2 (ja) * | 2017-10-16 | 2021-12-08 | 株式会社日立製作所 | 音源分離方法および音源分離装置 |
-
2020
- 2020-03-13 CN CN202010176289.8A patent/CN111429934B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102968991A (zh) * | 2012-11-29 | 2013-03-13 | 华为技术有限公司 | 一种语音会议纪要的分类方法、设备和系统 |
CN105513605A (zh) * | 2015-12-01 | 2016-04-20 | 南京师范大学 | 手机麦克风的语音增强系统和语音增强方法 |
WO2019016494A1 (en) * | 2017-07-19 | 2019-01-24 | Cedar Audio Ltd | ACOUSTIC SOURCE SEPARATION SYSTEMS |
CN110085246A (zh) * | 2019-03-26 | 2019-08-02 | 北京捷通华声科技股份有限公司 | 语音增强方法、装置、设备和存储介质 |
Non-Patent Citations (1)
Title |
---|
基于信号相位差和后置滤波的语音增强方法;马晓红等;《电子学报》;第37卷(第09期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111429934A (zh) | 2020-07-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111128221B (zh) | 一种音频信号处理方法、装置、终端及存储介质 | |
CN111009256B (zh) | 一种音频信号处理方法、装置、终端及存储介质 | |
CN111009257B (zh) | 一种音频信号处理方法、装置、终端及存储介质 | |
CN111429933B (zh) | 音频信号的处理方法及装置、存储介质 | |
CN111179960B (zh) | 音频信号处理方法及装置、存储介质 | |
CN111402917B (zh) | 音频信号处理方法及装置、存储介质 | |
CN113223553B (zh) | 分离语音信号的方法、装置及介质 | |
CN113362848B (zh) | 音频信号处理方法、装置及存储介质 | |
CN111724801B (zh) | 音频信号处理方法及装置、存储介质 | |
CN112863537B (zh) | 一种音频信号处理方法、装置及存储介质 | |
CN112447184B (zh) | 语音信号处理方法及装置、电子设备、存储介质 | |
CN111667842B (zh) | 音频信号处理方法及装置 | |
CN111429934B (zh) | 音频信号处理方法及装置、存储介质 | |
CN111583958A (zh) | 音频信号处理方法、装置、电子设备及存储介质 | |
CN113488066B (zh) | 音频信号处理方法、音频信号处理装置及存储介质 | |
CN113362847A (zh) | 音频信号处理方法及装置、存储介质 | |
CN118259362A (zh) | 人体检测方法、装置、电子设备及存储介质 | |
CN114724578A (zh) | 一种音频信号处理方法、装置及存储介质 | |
CN116312589A (zh) | 音频信号处理方法、装置、电子设备及存储介质 | |
CN114464203A (zh) | 噪声过滤方法、装置、系统、车辆及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 100085 unit C, building C, lin66, Zhufang Road, Qinghe, Haidian District, Beijing Applicant after: Beijing Xiaomi pinecone Electronic Co.,Ltd. Address before: 100085 unit C, building C, lin66, Zhufang Road, Qinghe, Haidian District, Beijing Applicant before: BEIJING PINECONE ELECTRONICS Co.,Ltd. |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |