CN109616138A - 基于分段频点选择的语音信号盲分离方法和双耳助听系统 - Google Patents
基于分段频点选择的语音信号盲分离方法和双耳助听系统 Download PDFInfo
- Publication number
- CN109616138A CN109616138A CN201811612733.5A CN201811612733A CN109616138A CN 109616138 A CN109616138 A CN 109616138A CN 201811612733 A CN201811612733 A CN 201811612733A CN 109616138 A CN109616138 A CN 109616138A
- Authority
- CN
- China
- Prior art keywords
- frequency point
- frequency
- signal
- point
- normalization
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 89
- 230000011218 segmentation Effects 0.000 title claims abstract description 41
- 210000005069 ears Anatomy 0.000 title claims abstract description 24
- 239000011159 matrix material Substances 0.000 claims abstract description 97
- 238000000926 separation method Methods 0.000 claims abstract description 85
- 238000010606 normalization Methods 0.000 claims abstract description 62
- 238000001914 filtration Methods 0.000 claims abstract description 16
- 238000012216 screening Methods 0.000 claims abstract description 9
- 238000013450 outlier detection Methods 0.000 claims abstract description 8
- 238000004422 calculation algorithm Methods 0.000 claims description 106
- 230000008859 change Effects 0.000 claims description 8
- 239000000284 extract Substances 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 4
- 238000013139 quantization Methods 0.000 claims description 4
- 238000002474 experimental method Methods 0.000 description 30
- 238000012880 independent component analysis Methods 0.000 description 14
- 230000007423 decrease Effects 0.000 description 8
- 230000004044 response Effects 0.000 description 7
- 239000000203 mixture Substances 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 230000035939 shock Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 238000000605 extraction Methods 0.000 description 5
- 239000004615 ingredient Substances 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 241000208340 Araliaceae Species 0.000 description 3
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 3
- 235000003140 Panax quinquefolius Nutrition 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 235000008434 ginseng Nutrition 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012805 post-processing Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 241000209140 Triticum Species 0.000 description 1
- 235000021307 Triticum Nutrition 0.000 description 1
- 238000010521 absorption reaction Methods 0.000 description 1
- ODKSFYDXXFIFQN-UHFFFAOYSA-M argininate Chemical compound [O-]C(=O)C(N)CCCNC(N)=N ODKSFYDXXFIFQN-UHFFFAOYSA-M 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 239000004568 cement Substances 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000005314 correlation function Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012074 hearing test Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000007257 malfunction Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0264—Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/0308—Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明公开了一种基于分段频点选择的语音信号盲分离方法和双耳助听系统,所述方法包括:首先在低频区域和高频区域分别以混合信号的协方差矩阵行列式和混合信号的MSC为标准进行第一阶段筛选,得到初选频点集合,利用从分离矩阵中提取的归一化衰减延迟参数解决顺序不确定性和延迟参数不准确的问题;采用离群点检测方法对初选频点进行第二阶段筛选,得到终选频点集合;计算未选频点的分离矩阵;对所有频点解决幅值不确定性后完成信号的初始分离;对于未选频点,基于初始分离信号使用维纳滤波进行重新分离。本发明适用于混响的环境下,具有不限制频点选择范围,不限制麦克风之间的距离,对不同频点进行不同分离操作的特点,并且适用于双耳助听系统。
Description
技术领域
本公开属于语音信号盲源分离技术领域,尤其涉及一种适用于双耳助听系统的基于 分段频点选择的语音信号盲分离方法。
背景技术
盲源分离(Blind Source Separation,BSS)是在混合过程未知的情况下给定混合信号分 离出独立源的问题。例如,鸡尾酒会问题。实际上,由于我们不知道任何有关源信号的 有用信息,解决盲源分离问题变的非常艰巨。法国学者Herault和Jutten在此工作上开创了先河,提出了著名的H-J算法,即采用神经网络方法实现两个独立语音混合信号的 分离。在此之后,盲源分离问题得到更多专家学者们的关注并快速发展起来,在移动通 信、语音处理、生物医学信号处理等领域已得到成功应用。
本文主要关注BSS在双耳助听系统中的应用,BSS可以在进行语音增强消除人声干扰的同时保持所有声源的双耳线索,在助听系统的应用方面具有非常大的潜力。由于 声音传播引起的时间延迟和由声音反射产生的多径,在真实的混响环境中麦克风接收到 的信号为源信号的卷积混合,但由于涉及多通道卷积运算,它们在时域中可能难以编码, 简化卷积混合的一种方法是将任务变换到频域,时域卷积变为频域相乘。对于最受欢迎 的频域独立成分分析(Frequency Domain Independent Component Analysis,FDICA)算法, 通过在每个频点上进行ICA迭代得到分离矩阵,完成混合信号的分离。但是,该算法的 计算复杂度非常高,这与助听系统低延迟和低功耗的需求相矛盾。因此,要想将FDICA 算法应用到双耳助听系统中,最首要的问题是要降低算法的计算复杂度。
针对这个问题,Kondo Kazunobu估计了FDICA算法中每一步的复杂度,并指出主要的计算复杂度是在ICA迭代这一步上。仅从信号分离的角度出发,每个频点都需要进 行ICA迭代得到分离矩阵。但实际上,语音信号的能量分布特性决定了在某些能量较 低的频点上进行ICA迭代对信号整体的分离性能有较小的提升。此外,在某些独立性较 差的频点上进行ICA迭代可能导致整体分离性能下降,甚至ICA算法不能正常工作。 因此,在不影响分离性能的条件下降低算法的复杂度可以从减少执行ICA迭代的频点数 目着手。引入频点选择机制,将整个频域内的频点分为选择频点和未选频点,选择一定 数量分离性能较好的频点进行ICA迭代,从而获得精确的分离矩阵,这样更有利于未选 频点的分离,在减小计算复杂度的同时使整体性能得到提升。
近年来,各种各样的频点选择算法被提出。例如,Kondo Kazunobu指出在两个麦克风两个源信号的条件下,混合信号协方差矩阵的行列式能够描述声源的数量和功率, 选择行列式较大的频点进行ICA迭代得到分离矩阵。这只是从能量的角度进行频点选 择。在其它论文中从独立性的角度出发,将混合信号的互信息,幅值平方相关函数 (MagnitudeSquare Coherence,MSC)或者中心相关熵作为选择标准,选出标准值较小的频 点进行ICA迭代。对于未选频点的分离,则是利用从选择频点的分离矩阵中提取的DOA 信息或者衰减延迟参数构建未选频点的分离矩阵,从而完成分离。
但是,这些算法均是针对小间距麦克风提出的,将它们直接应用到双耳助听系统中 还是有问题的。考虑到助听系统中麦克风的间距约为15cm,如果我们采用16kHz的频 率对语音信号进行采样,麦克风的间距超过了信号最小波长的一半。由空间采样定理可 知,在高频区域会发生空间混叠,如果发生空间混叠的这些频点被选到,则无法正确提 取DOA信息或延迟参数,未选频点的分离就会出现问题。有的论文中将频点选择的范 围限制在不发生空间混叠的频率范围内,虽然这样避免了空间混叠所带来的问题,但对 发生空间混叠的频率范围内分离性能较好的频点没有得到有效的利用,导致最终分离性 能不好。此外,当前的频点选择算法均采用单一的频点选择标准,没有综合考虑不同频 率区域各自的特征,分离性能较好的频点没有得到充分利用,导致最终分离性能不理想。
发明内容
为克服上述现有技术的不足,本公开提出了一种适用于双耳助听系统的分段频点选 择语音信号盲分离方法。该方法的一个重点是对不同的频率区域使用不同的频点选择标 准选择分离性能较好的频点;另一个重点是利用从分离矩阵中提取的归一化衰减和延迟 参数来解决从高频区域中提取延迟参数不准确的问题;此外,我们引入了基于离群点检测的第二阶段频点选择方法,在初选频点集合中去除分离性能不好的频点,得到终选频 点集合,保证了归一化衰减延迟参数的准确性;利用最终得到的归一化衰减延迟矩阵构 建未选频点的分离矩阵,对所有频点的分离矩阵根据最小失真原则解决幅度不确定问题 后,完成信号的初步分离。对于未选频点,引入维纳滤波后处理方法对信号进行重新分 离。该方法适用于无混响和混响的环境下,不仅降低了混响的影响,提高了分离性能, 而且计算复杂度也大大降低。
为实现上述目的,本公开提供了如下技术方案:
一种适用于双耳助听系统的基于分段频点选择的语音信号盲分离方法,包括以下步 骤:
对麦克风接收到的语音信号通过短时傅里叶变换变换到频域,并划分为低频区域和 高频区域;
进行第一阶段筛选:在低频区域和高频区域分别以混合信号的协方差矩阵行列式和 混合信号的MSC为标准选择频点,将被选择的频点归入初选频点集合,未被选择的频 点归入未选频点集合;
对于初选频点集合,计算分离矩阵并从所述分离矩阵中提取归一化衰减和延迟参数, 用于解决顺序不确定性和由空间混叠引起的高频区域估计的延迟参数不准确性;
进行第二阶段筛选:根据所述归一化衰减和延迟参数,采用基于正态分布的离群点 检测方法对初选频点进行筛选,得到终选频点集合,未被选择的频点归入未选频点集合;
对终选频点集合和未选频点集合中所有频点的分离矩阵使用最小失真原则解决幅值 不确定性,完成信号的初始分离;
对于终选频点集合,初始分离信号即最终分离信号;对于未选频点集合,基于初始分离信号使用维纳滤波对混合信号进行重新分离;
将所有频点上的最终分离信号利用逆短时傅里叶变换变换到时域,完成信号的分离。
进一步地,所述第一阶段筛选具体包括:
在能量集中的低频区域,计算该区域中每个频点上混合信号协方差矩阵的行列式;
将这些频点的行列式除以最大值进行归一化处理,选择归一化后行列式值大于一定 阈值的频点归入初选频点集合;
在独立性较强的高频区域,计算该区域中每个频点上混合信号的MSC;
选择MSC值小于一定阈值的频点归入初选频点集合。
进一步地,计算分离矩阵并从所述分离矩阵中提取归一化衰减和延迟参数,用于解 决顺序不确定性和由空间混叠引起的高频区域估计的延迟参数不准确性包括:
对初选频点利用FastICA和量化自然梯度结合算法进行迭代计算得到分离矩阵,对 分离矩阵求逆得到混合矩阵;
划分发生空间混叠频点与不发生空间混叠频点;
分别对发生空间混叠频点与不发生空间混叠频点进行排序,并在每个初选频点处提 取归一化衰减和延迟参数。
进一步地,对于不发生空间混叠的初选频点,对混合矩阵基向量进行幅值,相位和频率归一化去除不确定性,利用K-mean聚类算法完成排序后,提取每个初选频点处的 归一化衰减和延迟参数;
对于发生空间混叠的初选频点,利用从不发生空间混叠频点的分离矩阵中估计的归 一化衰减和延迟参数构建发生空间混叠频点的模型向量;通过迭代寻优完成排序,得到每个初选频点处的归一化衰减和延迟参数。
进一步地,所述采用基于正态分布的离群点检测方法对初选频点集合进行筛选包括:
将遵循正态分布的数据出现在μ±3σ之外的数据点定义为离群点,其中μ为均值,σ为标准差;对于初选频点集合中的归一化衰减和延迟参数进行离群点检测,将检测出的 离群点归入未选频点集合,从而得到终选频点集合。
进一步地,所述未选频点集合的分离矩阵计算方法为:
用终选频点的归一化衰减和延迟参数表示归一化混合矩阵;
对归一化混合矩阵求逆得到未选频点分离矩阵。
进一步地,对于未选频点集合,基于初始分离信号使用维纳滤波对混合信号进行重 新分离包括:
将一个分离信号看做目标信号,另一个分离信号看做为噪声,计算每个频点上的维 纳增益,对混合信号进行重新分离。
一个或多个实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程 序被处理器执行时实现所述的基于分段频点选择的语音信号盲分离方法。
一个或多个实施例提供了一种双耳助听系统,包括存储器、处理器及存储在存储器 上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述的基于分段 频点选择的语音信号盲分离方法。
以上一个或多个技术方案存在以下有益效果:
本公开提供的基于分段频点选择的语音信号盲分离方法适用于双耳助听系统,不限 制麦克风之间的距离,不限制频点选择范围,考虑了空间混叠所带来的问题,并且根据不同频率区域各自的特点,采用不同的频点选择标准。此外,采用两阶段频点选择方法 用于选择具有良好分离性能的频点。通过使用从分离矩阵中提取的归一化衰减和延迟参 数来解决顺序不确定性和高频区域的不准确延迟问题。然后,对未选频点的分离,引入 维纳滤波后处理以减少混响的影响。无论是在无混响还是在混响环境中,与传统FDICA 算法相比,本公开提出的分段频点选择FDICA算法减少了运行时间。同时,分离性能得 到了很大提升。与限范围频点选择FDICA算法相比,该算法优于限范围频点选择FDICA 算法的最优性能。总之,本公开提出的分段频点选择FDICA算法非常有效。
附图说明
构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意 性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。
图1为传统FDICA算法流程图;
图2为本公开实施例提出的适用于双耳助听系统的基于分段频点选择的FDICA算法流程图;
图3为本公开中基于正态分布的离群点检测方法示意图,其中,图3(a)为正态分布概率分布图,图3(b)为归一化延迟参数分布直方图;
图4为本公开中语音信号盲分离方法的仿真实验的房间设置图;
图5为本公开仿真实验中归一化协方差矩阵的行列式随频率的分布,和初始选择频 点数量随阈值的分布,分别对应图5(a)和5(b);
图6为本公开仿真实验中在无混响环境下4对不同信号到达方向下三种算法的SIRimp,PESQ和运行时间的比较;
图7为本公开仿真实验中在无混响环境下4对不同信号到达方向下dSIRimp,dPESQ和运行时间下降百分比随阈值变化曲线;
图8为本公开仿真实验中去除离群点前后归一化衰减延迟参数估计值与实际值的均 方根误差比较;
图9为本公开仿真实验中在混响环境下一次实验中第一个源信号到第一个麦克风的 仿真冲击响应;
图10为本公开仿真实验中在混响环境下4对不同信号到达方向下三种算法的SIRimp,dPESQ和运行时间的比较;
图11为本公开仿真实验中在混响环境下4对不同信号到达方向下dSIRimp,dPESQ和运行时间下降百分比随阈值变化曲线;
图12为本公开仿真实验中在不同混响环境下三种不同算法的SIRimp,PESQ和运行时间的比较。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据 本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/ 或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。
盲源分离基本模型和传统算法
1、基本模型
在实际环境中,由于反射和回响的影响,麦克风接收到的信号不仅来自源信号到麦 克风的直达路径还包括一些反射路径,我们只考虑简单的确定性情况,即源信号的数量等于麦克风的数量(N=M),对于麦克风数量大于源信号数量(M>N)的不确定情况,我们 可以使用主成分分析算法来减小麦克风的维数。麦克风接收到的信号是源信号的卷积混 合可以用公式表示为:
其中,*表示卷积运算,A(n)为M×N的混合矩阵,其中的每个元素表示不同路径 上长度为P的冲击响应。s(n)=[s1(n),...,sN(n)]T是源信号向量,x(n)=[x1(n),...,xM(n)]T是混合 信号向量。对(1)式左右两端同时进行短时傅里叶变换,卷积混合可以表示为在每个频点 上的瞬时混合:
x(f,t)=A(f)s(f,t) (2)
其中,x(f,t)=[x1(f,t),...,xM(f,t)]T是混合信号向量的频域表示,s(f,t)=[s1(f,t),...,sN(f,t)]T是源信号向量的频域表示。混合矩阵A(f)可表示为:
A(f)=[a1(f),...,aN(f)] (3)
ai(f)=[a1i(f),...,aMi(f)]T,1≤i≤N (4)
其中,ai(f)是A(f)的基向量。在低混响的环境下,与来自其他路径上的反射信号和回声相比,麦克风接收信号中从直达路径到达的源信号占比重较大,类似于无混响混 合模型。因此,仅建模源信号到麦克风的直达路径对于真实混响环境是有效。因此, A(f)中的每个元素可表示为:
aji(f)=λjiexp(-j2πfτji),1≤i≤N,1≤j≤M (5)
其中,λji和τji分别表示第i个源信号到第j个麦克风的衰减和延迟参数。
对于解混合系统,我们使用复值分离矩阵W(f)来完成混合信号的分离:
y(f,t)=W(f)x(f,t)=W(f)A(f)s(f,t) (6)
其中,y(f,t)=[y1(f,t),...,yM(f,t)]T是分离信号向量的频域表示。在理想的情况下, W(f)A(f)在每个频点上是单位阵,分离矩阵W(f)可以表示为混合矩阵A(f)的逆。
分离矩阵的获得将会在第2部分中进行说明。实际上,由于频域BSS算法在每个频点上独立的进行迭代得到分离矩阵,需要对分离出的信号解决顺序不确定性和幅值不确定性问题,使分离出来的信号变为原始的源信号。最后利用逆短时傅里叶变换将信号变 换到时域,即完成信号的分离。传统FDICA算法的基本流程图如图1所示。
2、传统FDICA算法
随着对BSS问题更加深入的研究,产生了应用于不同场景的各种各样的算法。其中主要包括独立成分分析算法、稀疏成分分析算法以及非负矩阵分解算法。对频域分离矩 阵的求解,最常用的方法就是FDICA算法,本文使用频域FastICA与量化自然梯度相 结合的算法。虽然FastICA算法收敛速度快,但迭代出的分离矩阵不是最好的,为了得 到更好的分离性能,我们将FastICA迭代出的分离矩阵作为初始分离矩阵再进行量化自 然梯度算法,获得更准确的分离矩阵。
本公开提出的分段频点选择FDICA算法
本公开提出了一种适用于双耳助听系统的基于分段频点选择的语音信号盲分离快 速算法,如图2所示,包括以下步骤:
步骤1:对语音信号进行短时傅里叶变换:在麦克风数量等于源信号数量等于 2(M=N=2),麦克风间距为15cm的条件下,源信号向量、混合信号向量和混合矩阵的频 域表示分别为:
s(f,t)=[s1(f,t),s2(f,t)]T (7)
x(f,t)=[x1(f,t),x2(f,t)]T (8)
步骤2:第一阶段频点选择:我们将整个频域分成能量主要集中的低频区域和独立性更强的高频区域这两部分,不同的频率区域使用不同的频点选择标准,选中的频点归 入初选频点集合,未被选中的频点归入未选频点集合;
(1)在低频区域,使用混合信号协方差矩阵行列式作为选择标准,选择具有较大能量的频点。具体方法如下:
在两个麦克风两个源信号的条件下,行列式可以描述源信号的数量。混合信号协方 差矩阵的计算公式为:
其中,Rs(f)为源信号的协方差矩阵。我们假设源信号之间是相互独立的,此时源信号的协方差矩阵为:
其中,p1(f)和p2(f)分别表示第一个源信号和第二个源信号的功率,则协方差矩阵的行列式可以表示为:
在低频区域中的每个频点上计算混合信号协方差矩阵的行列式并除以最大值进行 归一化处理,对应较大行列式值的频点将会被选中,并归入初选频点集合。没有被选中的频点归入未选频点集合。
(2)在高频区域,使用混合信号的MSC作为选择标准,选择独立性较强的频点。 具体方法如下:
在真实的混响环境中,由于反射和回声的的影响,源信号可以从不同的方向到达麦 克风,两个麦克风接收到的混合信号具有相位差,在高频区域相位变化更明显,所以信号的独立性更强,混合信号更可分。MSC可以测量两个信号之间的相位差,较小的MSC 值对应较强的独立性。混合信号的MSC可以计算为:
其中,0≤Cx(f)≤1是混合信号x1和x2的MSC。在高频区域内的每个频点上计算混合信号的MSC,对应较小MSC值的频点将会被选中,并归入初选频点集合。没有被选中 的频点归入未选频点集合。
步骤3:采用测量传递模型参数的方法解决顺序不确定性和高频点不精确延迟问题:
频域BSS算法存在的一个重要问题是顺序不确定性,排序算法的好坏对分离性能有 较大的影响。为了能够比较本公开提出的分段频点选择FDICA算法和传统FDICA算法 的分离性能,两者应该采用相同的排序算法。一方面,考虑到选择的频点不一定是连续 的,基于频率间的相关性的排序算法将会出现很大的误差;另一方面,我们需要利用从 分离矩阵中提取的归一化衰减延迟参数完成未选频点的分离。因此,我们采用测量传递 模型参数的方法来解决顺序不确定性问题,同时也解决了高频点处估计的延迟参数不准 确的问题。
步骤3.1:对初选频点利用前述传统FDICA算法进行迭代,计算出分离矩阵W(f),对分离矩阵求逆得到混合矩阵A(f)。为了消除混合矩阵基向量ai(f)的幅值和相位不确 定性,我们选择其中一个麦克风作为参考麦克风,对混合向量ai(f)进行相位,幅值归一 化,归一化公式如下:
其中,J为参考麦克风,arg(·)和||·||表示相位和模值。
步骤3.2:划分发生空间混叠频点与不发生空间混叠频点;
因为发生空间混叠频点与不发生空间混叠频点的排序和提取归一化衰减延迟参数 的过程是不一样的,需要分别进行讨论。不发生空间混叠的频率范围FL可以计算为:
其中,v为声速,d为麦克风之间的距离,在本文中0Hz<f<1133Hz。由于语音信号 的能量主要集中在低频区域,我们将低频区域定义为不发生空间混叠的频率范围FL是合 理的,同时,FL范围外的频率区域定义为高频区域。
步骤3.3:分别对发生空间混叠与不发生空间混叠频点进行排序,并在每个初选频点处提取归一化衰减延迟参数,得到整个频域上初选频点的归一化衰减延迟参数矩阵;
(1)在FL频率范围内(不发生空间混叠)的频点的排序过程
对于FL频率范围内的初始选择频点,需要进行频率归一化去除频率依赖性:
其中,是常数,可以保证该排列算法稳定收敛。
在无混响模型中,aji(f)和ai(f)可以分别定义为cjk(f)和ck(f),不同的下标i和k代 表顺序不确定性。假设经相位,幅值,频率归一化后的模型向量ck(f)可以表示为:
此时,和都不依赖于频率。将归一化基向量的平均值作为的初始值,对Πf和进行迭代更新直到收敛:
其中,Πf表示当前频点的排序方式,|FL|表示在FL频率范围内初选频点个数,||·||2表 示欧基里德范数。我们更新基向量的下标为:
直到FL范围内的初选频点全部排序完成后,在每个初选频点处提取的归一化衰减和 延迟参数为:
其中,和分别表示第k个源信号到第j个麦克风归一化的衰减和延迟参数。该衰减和延迟参数为排序完成后提取的,因此不需要再解决顺序不确定性问题。
(2)在FL频率范围外(发生空间混叠)的频点的排序过程
对于FL范围外选择频点的排序算法,需要利用从FL范围内的频点排序过程估计的模 型向量中提取的混合参数:
使用(24)式来构成FL范围外第一个选择频点的模型向量并 用作后续参数更新的初值。由于相位和频域不再是线性关系,频率归一化对于发生空间混叠的高频区域也不再适用,所以新的代价函数为:
其中,F表示整个频率区域。最小化(32)可以化简为最大化在FL范围外选择频点提取归一化衰减延迟参数的公式为:
其中,|F|表示在整个频域范围F内初选频点的数量,Re(·)表示取实部。和构成了下一个频点的模型向量cjk(f)。直到FL范围外的频点全部排序完成,从而得 到整个频域上初选频点的归一化衰减延迟参数,写成矩阵的形式为:
步骤4:第二阶段频点选择:根据初选频点的归一化衰减延迟参数,采用基于正态分布的离群点检测方法筛选频点,得到终选频点集合,未选中的频点归入未选频点集合;
一方面,由于频率样本容量的有限性,源信号之间的独立性假设不一定完全成立;另一方面,由于反射和回声的影响,无混响混合模型的假设也不一定完全有用。所以第 一阶段频点选择可能会选到少数分离性能不好的频点,从中提取的归一化衰减延迟参数 不准确。由于不准确的归一化衰减延迟参数与实际值偏差较大,我们将其认定为离群点, 为了找到这些离群点,我们使用基于正态分布的离群点检测方法进行第二阶段频点选 择。
在正态分布概率3σ原则下,如果数据遵循正态分布,由于数据出现在μ±3σ之外的概率小于0.003,离群点被定义为偏离平均值μ超过3σ的数据。如图3(a)所示,其中σ是 标准差。我们绘制了一次实验中从第二个源信号到第一个麦克风的归一化延迟参数的直 方图,其大致遵循正态分布,如图3(b)所示。通过计算,在[-0.9,-0.85]之间的数据是离 群点,需要从初选频点集合中移除,并将它们归入未选频点集合,剩下的频点构成终选 频点集合。
对于初选频点,将归一化衰减延迟矩阵中每一个元素都用这种方法进行离群点检测,将检测出的离群点归入未选频点集合,剩余的频点为最终选择的频点。终选频点集 合中归一化衰减延迟参数的平均值为:
其中,Nf为最终选择频点的数量。
步骤5:对于未选频点集合,计算分离矩阵;
我们使用从终选频点分离矩阵中估计的归一化衰减和延迟矩阵的平均值来计算未 选频点的分离矩阵。归一化的混合矩阵可以用归一化衰减延迟参数表示为:
其中,和分别是从第k个源信号到第j个麦克风的归一化衰减和延迟参数。由于我们选择第一个麦克风为参考麦克风,所以与零点波束形成原理类似,未 选频点的分离矩阵可以通过对归一化混合矩阵求逆得到:
其中,Wus(f)是未选频点分离矩阵,inv(·)表示对矩阵求逆。
步骤6:对所有频点的分离矩阵使用最小失真原则解决幅值不确定性问题;
频域BSS算法的另一个问题是存在幅值不确定性,对所有频点的分离矩阵W(f)使用最小失真原则解决幅值不确定性问题,即对分离矩阵做如下变换:
W(f)=diag(W-1(f))W(f) (32)
其中,diag(·)表示取主对角线上的元素。
步骤7:对未选频点使用维纳滤波对混合信号进行重新分离;
解决完幅值不确定性问题后,每个频点上的初始分离信号可以表示为:
y(f,t)=W(f)x(f,t) (33)
对于具有较好分离性能的终选频点,初始分离完成后不再进行其他处理。对于未选 频点,分离性能相对较差,初始分离信号中存在一些干扰信号成分。初始分离完成后,将其中一个分离信号看做目标信号的同时,将另一个信号看做为噪声,维纳增益可以计 算为:
其中,和为初始分离信号,i∈{1,2},Mi(f,t)为第t帧第f个频点上的维纳增益。对未选频点使用维纳滤波对混合信号进行重新分离,来减少混响的影响,提 高分离性能。
最后,分离信号可以表示为:
仿真实验和结果
1、实验设置
仿真实验所用到的房间设置如图4所示。我们假设第一个麦克风为参考麦克风,混响时间(Reverberation Time,RT)定义为语音信号能量衰减到60dB所需要的时间。可以通过改变墙的反射和吸收系数来得到不同的RT。我们设置语音信号可以从5个不同角度 入射,在两个源信号两个麦克风的条件下,设置了4对从不同角度入射的实验,它们分 别为(30°,0°),(30°,-40°),(30°,-80°),(70°,-80°),对应源信号位置为(2,3),(2,4),(2,5),(1,5)。实验中 用到的源信号都是从开放语音库VoxForge中挑选的,并将它们处理成长为3秒的语音 信号。为了确保源信号具有相同的能量,我们进行去均值操作确保他们具有相同的方差。 我们使用镜像源的方法产生房间冲击响应。当RT=0ms时,源信号不与房间冲击响应卷 积,模拟信号在无混响环境下的混合。将语音信号与房间冲激响应进行卷积来模拟混响 环境下的混合过程。我们将设置不同的RT进行实验。仿真实验中用到的采样频率为16KHZ,帧长为512,帧移为256,使用汉明窗进行短时傅里叶变换。所有的仿真实验 是在CPU为Intel(R)Xeon(R)E5-2643v4@3.40GHz内存为128.0GHz的电脑上完成的, 软件平台为MATLAB2015b。
2、分离性能评价指标
由于仿真实验是在相同的电脑上完成的,传统算法和本公开提出的分段频点选择算 法所采用的FDICA算法和解决顺序和幅值不确定性问题的算法是完全相同的,运行时间的差异能够很好地体现出计算复杂度的变化情况。因此,我们使用程序的运行时间作 为衡量计算复杂度的性能指标。
另一方面,信干比的提升量(Signal to Interferences Ratio improvement,SIRimp)作为 信号分离性能的评价指标,可以计算为:
其中,SIRimpi表示第i个信号的信干比的提升量,i∈{1,2},SIRIi和SIROi分别表示第i个 信号的输入和输出信干比。sIi和sOi分别表示输入和输出信号中期望的语音信号成分,nIi和nOi分别表示输入和输出信号中所有的噪声和干扰信号成分。
除了运行时间和SIRimp,分离信号的客观评价还采用感知语音质量(PerceptualEvaluation of Speech Quality,PESQ)来衡量,它的值越大说明分离效果越好。
3、初选频点的数量
在第一阶段频点选择方案中,初始选择频点的数量要综合考虑复杂度降低的效果和 算法整体的分离性能。初始选择频点的数目不能太多,否则复杂度降低的效果就会下降。 同时初始选择频点的数目不能过小,否则估计的归一化衰减延迟参数可能不准确,未选 频点的分离性能可能会下降。在本公开中将整个频域分成低频区域和高频区域两部分并 在每个频率区域单独进行频点选择,所以还需要考虑在低频区域和高频区域各自选择频 点的数量。
一方面,我们进行了920次实验,混合信号协方差矩阵行列式的平均值随频率的变化曲线如图5(a)所示,它在一定程度上可以很好的反应语音信号能量的分布。由于语音 信号的能量主要分布在低频区域,可以期望这些频点的分离性能较好。考虑到计算复杂 度随选择频点数量的增加而增加,所以在低频区域选择的频点数量不能太多。另一方面, 由于空间混叠的高频区域频点的排序算法需要用到从低频区域选择频点中提取的归一 化衰减延迟参数,因此在低频区域选择的频点数量不能太少,否则估计的归一化衰减延 迟参数不准确,影响算法的分离性能。
根据短时傅里叶变换的参数设置,总的频点数为256,在低频区域FL范围内的频点数为36。因此,在低频区域我们选择21个具有较大行列式的频点。对于FL范围外的高 频区域,我们设置合适的阈值ε进行频点选择。在不同的阈值ε下,我们分别执行了920 次实验,平均初选频点数量随阈值的变化曲线如图5(b)所示。从图中我们可以明显的看 到,当我们设置阈值ε=0时,只有在低频区域的21个频点被选中,初选频点的数量随阈 值的增加而增加。可以预期到该算法的分离性能也随选择频点数量的增加而增加。该算 法可以根据需要设置不同的阈值,满足不同的性能需求。
4、无混响环境下的实验结果和性能比较
为了证明本公开提出的分段频点选择FDICA算法的有效性,当RT=0ms时,我们在无混响环境下进行了仿真实验。
首先,我们比较了本公开提出的分段频点选择FDICA算法与传统FDICA算法的分离性能。根据实验设置,在4对不同信号到达方向下分别进行了1000次实验,总共进 行了4000次实验。对于本公开提出的算法,我们设置阈值ε=0.07,在整个频域范围内选 择了29个频点,这近似实现了较小的运行时间同时保持了较好的分离性能。表1显示 了本公开提出的分段频点选择FDICA算法与传统FDICA算法在无混响环境中4对不同 信号到达方向下SIRimp,PESQ和运行时间的比较。表1中的值是1000次实验结果的平 均值。
表1在无混响环境中不同信号到达方向下两种算法的SIRimp,PESQ和运行时间的比较
与传统FDICA算法相比,本发明提出的分段频点选择FDICA算法的初选频点的数量约占总频点数量的11.28%,运行时间减少了84.4%。同时,性能指标SIRimp和PESQ 分别增长了20.27%和4.59%。也就是说,本发明所提出的分段频点选择FDICA算法不 仅大大降低了计算复杂度,而且显着提高了分离性能。
第二,在相同的实验设置下,我们比较了本公开提出的分段频点选择FDICA算法与限范围频点选择FDICA算法的分离性能。后者将频点选择范围限制在不发生空间混叠 的频率范围内,并且仅使用混合信号协方差矩阵行列式的标准进行频点选择,其他处理 与本公开提出的分段频点选择FDICA算法相同。当低频区域中的所有频点(36)全被选中 时,限范围频点选择FDICA算法的分离性能达到最佳。如图5(b)所示,本公开提出的 分段频点选择FDICA算法设置阈值ε=0.08,在整个频域上大约选择了36个频点其中包 括15个高频点。我们定义不同的FDICA方法,方法1,方法2和方法3如下:
方法1:传统FDICA算法
方法2:限范围频点选择FDICA算法,选择低频区域中的所有频点(36)
方法3:本发明提出的分段频点选择FDICA算法,选择36个频点,其中包括15 个高频点
图6(a),(b)和(c)显示了在无混响环境中4对不同信号到达方向下三种算法的SIRimp, PESQ和运行时间的比较,图中每个点处的值是1000次实验结果的平均值。将方法1与方法2和方法3进行比较,可以得出不管信号从哪个方向到达,频点选择FDICA算 法具有较好的分离性能和较少的运行时间。比较方法2和方法3,我们可以清楚地看到 方法3的分离性能明显优于方法2的最优分离性能。在运行时间相近的条件下,性能指 标SIRimp和PESQ分别增长了14.65%和2.79%。另外,我们还计算了每个频点处的SIR值,图6(d)显示了4000次实验结果的平均值。从图中我们可以看到,在每个频点上 方法3的SIR值都明显优于方法2的SIR值。其实,方法2和方法3的最大区别在于高 频区域中所选频点的数量不同。也就是说,在初选频点数量相同的条件下,由于高频点 的选择,方法3可以更好地提高分离性能。另外,对分离信号进行听力测试可以直观地 感受到由方法3分离出来的语音信号听起来更自然。
接下来,我们分析了本公开提出算法分离性能的提升和计算复杂度降低的原因。由 于分离矩阵的迭代计算和顺序不确定性问题的求解是传统FDICA算法的主要复杂度所在,本公开提出的分段频点选择FDICA算法通过对这两个方面的改进大大降低了计算 复杂度。一方面,我们只选择少数具有良好分离性能的频点进行ICA迭代,大多数未选 频点的分离矩阵计算简单,不需要进行ICA迭代。另一方面,我们只需要解决初选频点 的顺序不确定性问题,未选频点的分离矩阵是由排列好的归一化衰减延迟参数估计得到 的,不具有排序不确定性问题。因此,计算复杂度再次降低。
对于分离性能的提升,我们分析了以下几个方面:首先,根据本公开提出的实验设置,在不同的阈值下,在无混响环境中4对不同的信号到达方向上分别进行了200次实 验。特别地,当ε=0时,所选择的21个频点都在低频区域。随着阈值的增加,从高频区 域选择的频点数量增加。dSIRimp,dPESQ和运行时间下降百分比用于表示本公开提出 的分段频点选择FDICA算法与传统FDICA算法之间在性能指标SIRimp,PESQ和运行 时间上的差异。图7显示了在无混响环境中4对不同信号到达方向下dSIRimp,dPESQ 和运行时间下降百分比随阈值的变化曲线。
从图7可以清楚地看到,随着在高频区域中所选频点数量的增加,分离性能也得到了很大提升。由于在高频区域中混合信号更可分,因此可以获得更精确的分离矩阵,使 得提取的归一化衰减和延迟参数也更准确,从而分离性能得到了改善。实际上,虽然限 范围频点选择FDICA算法避免了由空间混叠所引起的问题,但是发生空间混叠的频率 区域中具有良好分离性能的频率点没有得到有效的利用,使得整体分离性能不理想。
其次,第二阶段频点选择方法的引入对分离性能也有较大的提升。根据实验设置,我们设置阈值ε=0.08,在4对不同的信号到达方向上分别进行200次实验。我们计算了 离群点检测前后归一化衰减和延迟参数的估计值与实际值之间的均方根误差(Root MeanSquare Error,RMSE)。由于我们选择第一个麦克风作为参考麦克风,它的归一化延 迟参数为0,这里不再对它的均方误差值进行讨论。我们仅考虑第二个麦克风的归一化 延迟和衰减参数。200次实验的RMSE的平均值如图8所示,其中,图8(a)为的RMSE 图8(b)为的RMSE、图8(c)为的RMSE、图8(d)为的RMSE。
从直方图可以看出,在去除离群点之后,归一化衰减延迟参数的RMSE显着降低。这表明基于正态分布的第二阶段频点选择方法在去除分离性能较差的频点同时,使归一化衰减和延迟参数的估计值向实际值靠近。由于未选频点的分离矩阵由归一化衰减和延迟参数求得。归一化衰减和延迟参数估计得越准确,未选频点分离的越准确,考虑到未 选频点占总频点的大多数,因此第二阶段频点选择在提高分离性能方面起着重要作用。
5、混响环境下的实验结果和性能比较
为了比较本公开提出的分段频点选择FDICA算法与传统FDICA算法在混响环境下的分离性能,我们设置不同的RT进行实验。例如,当RT=100ms时,在一次实验中第 一个源信号对第一麦克风的房间冲击响应如图9所示,房间冲击响应与源信号卷积形成 混合信号。随着RT的增加,房间冲击响应的抽头数量增加,并且混合信号更难分离。
根据实验设置,当RT=100ms时,我们设置阈值ε=0.07并进行了4000次实验。表3示出了在4对不同信号到达方向下本公开提出的分段频点选择FDICA算法和传统 FDICA算法的SIRimp,PESQ和运行时间的比较。表2中的值是1000次实验结果的平 均值。
表2在混响环境中不同信号到达方向下两种算法的SIRimp,PESQ和运行时间的比较
从表3可以清楚地看出,当RT=100ms时,本公开提出的分段频点选择FDICA算 法的分离性能优于传统的FDICA算法。在运行时间降低了85.47%的情况下,SIRimp 和PESQ分别增长了24.53%和4.95%。其次,在相同的实验设置下,我们还比较了当 RT=100ms时方法1,方法2和方法3的分离性能。图10显示了在4对不同信号到达方 向下三种算法的SIRimp,PESQ和运行时间的比较,图中的每个值是1000次实验结果 的平均值。
通过比较方法2和方法3,我们可以得到,当RT=100ms时,方法3的分离性能明 显优于方法2的最佳性能。在运行时间近似的条件下,SIRimp和PESQ分别增长了 13.72%和0.67%。当然,随着阈值的增加,在高频区域中选择的频点数量增加,并且本 文所提出的分段频点选择FDICA算法的分离性能也增加,如图11所示。也就是说,在 混响条件下,高频点的选择对分离性能也有较大的提升。
此外,在未选频点上引入维纳滤波后处理也大大提高了分离性能。当RT=100ms时在相同的实验条件下,我们设定阈值ε=0.08并进行了4000次实验。表4显示了维纳滤波 处理前后SIRimp,PESQ和运行时间的比较,表3中的每个值是4000次实验结果的平 均值。
表3维纳滤波处理前后SIRimp,PESQ和运行时间的比较
从表4中我们可以清楚地看到,在经过维纳滤波处理后,SIRimp和PESQ分别增 加了24.38%和7.05%,而进行维纳滤波处理所需要的时间相对于总的运行时间可忽略 不计。由于维纳滤波处理可以减少分离信号中的干扰信号成分,减小混响的影响,对混 响环境下分离性能的提升起很大的作用。我们还在不同的混响条件下进行了实验,设置 RT分别为100ms,150ms,200ms,设定阈值ε=0.08。图12显示了在三种不同RT下方法 1,方法2和方法3的性能比较。图12中的每个值是4000次实验结果的平均值。
从图12中我们可以清楚地看到,随着RT的增加,三种算法的分离性能均显示出一定的下降。由于BSS算法类似于零点波束形成算法,将其中一个信号看成目标信号的同 时,另一个信号看成噪声,BSS算法只能从噪声方向中去除反射和回声等干扰信号成分, 无法去除目标信号方向等其他方向上的干扰信号成分。随着RT的增加,分离信号中的 不期望信号分量增加,分离性能降低。但无论在哪种RT条件下,方法3的分离性能都 明显优于其他两种算法。例如,当RT=150ms时,方法2的SIRimp明显低于方法1的 SIRimp,但方法3的SIRimp明显优于方法1和方法2,这也表明了该算法对高频点利 用的有效性。综合考虑计算复杂度和分离性能,本公开提出的分段频点选择FDICA算 法更有效。
以上实施例具有以下技术效果:
本公开提供的基于分段频点选择的语音信号盲分离方法适用于双耳助听系统,考虑 了空间混叠所带来的问题,采用两阶段频点选择算法用于选择具有良好分离性能的频点。并且通过使用从分离矩阵中提取的归一化衰减和延迟参数来解决高频区域的不准确延迟问题。然后,引入维纳滤波后处理以减少混响的影响。无论是在无混响还是在混响 环境中,与传统FDICA算法相比,所提出的分段频点选择FDICA算法减少了运行时间。 同时,分离性能得到了提升。与限范围频点选择FDICA算法相比,该算法优于限范围频 点选择FDICA算法的最优性能。总之,本文提出的算法非常有效,将该算法应用于双耳 助听系统是可行的。
本领域技术人员应该明白,上述本公开的各模块或各步骤可以用通用的计算机装置 来实现,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将 它们中的多个模块或步骤制作成单个集成电路模块来实现。本公开不限制于任何特定的 硬件和软件的结合。
以上所述仅为本公开的优选实施例而已,并不用于限制本公开,对于本领域的技术 人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。
上述虽然结合附图对本公开的具体实施方式进行了描述,但并非对本公开保护范围 的限制,所属领域技术人员应该明白,在本公开的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。
Claims (9)
1.一种适用于双耳助听系统的基于分段频点选择的语音信号盲分离方法,其特征在于,包括以下步骤:
对麦克风接受到的语音信号通过短时傅里叶变换变换到频域,并划分为低频区域和高频区域;
进行第一阶段筛选:在低频区域和高频区域分别以混合信号的协方差矩阵行列式和混合信号的MSC为标准选择频点,将被选择的频点归入初选频点集合,未被选择的频点归入未选频点集合;
对于初选频点集合,计算分离矩阵并从所述分离矩阵中提取归一化衰减和延迟参数,用于解决顺序不确定性和由空间混叠引起的高频区域估计的延迟参数不准确性;
进行第二阶段筛选:根据所述归一化衰减和延迟参数,采用基于正态分布的离群点检测方法对初选频点进行筛选,得到终选频点集合,未被选择的频点归入未选频点集合;
对终选频点集合和未选频点集合中所有频点的分离矩阵使用最小失真原则解决幅值不确定性,完成信号的初始分离;
对于终选频点集合,初始分离信号即最终分离信号;对于未选频点集合,基于初始分离信号,使用维纳滤波对混合信号进行重新分离;
将所有频点上的最终分离信号利用逆短时傅里叶变换变换到时域,完成信号的分离。
2.如权利要求1所述的一种适用于双耳助听系统的基于分段频点选择的语音信号盲分离方法,其特征在于,所述第一阶段筛选具体包括:
在能量集中的低频区域,计算该区域中每个频点上混合信号协方差矩阵的行列式;
将这些频点的行列式除以最大值进行归一化处理,选择归一化后行列式值大于一定阈值的频点归入初选频点集合;
在独立性较强的高频区域,计算该区域中每个频点上混合信号的MSC;
选择MSC值小于一定阈值的频点归入初选频点集合。
3.如权利要求1所述的一种适用于双耳助听系统的基于分段频点选择的语音信号盲分离方法,其特征在于,计算分离矩阵并从所述分离矩阵中提取归一化衰减和延迟参数,用于解决顺序不确定性和由空间混叠引起的高频区域估计的延迟参数不准确性包括:
对初选频点利用FastICA和量化自然梯度结合算法进行迭代计算得到分离矩阵,对分离矩阵求逆得到混合矩阵;
划分发生空间混叠频点与不发生空间混叠频点;
分别对发生空间混叠频点与不发生空间混叠频点进行排序,并在每个初选频点处提取归一化衰减延迟参数。
4.如权利要求3所述的一种适用于双耳助听系统的基于分段频点选择的语音信号盲分离方法,其特征在于,
对于不发生空间混叠的初选频点,对混合矩阵基向量进行幅值,相位和频率归一化去除不确定性,利用K-mean聚类算法完成排序后,提取每个初选频点处的归一化衰减和延迟参数;
对于发生空间混叠的初选频点,利用从不发生空间混叠频点的分离矩阵中估计的归一化衰减和延迟参数构建发生空间混叠频点的模型向量;通过迭代寻优完成排序,得到每个初选频点处的归一化衰减和延迟参数。
5.如权利要求1所述的一种适用于双耳助听系统的基于分段频点选择的语音信号盲分离方法,其特征在于,所述采用基于正态分布的离群点检测方法对初选频点集合进行筛选包括:
将遵循正态分布的数据出现在μ±3σ之外的数据点定义为离群点,其中μ为均值,σ为标准差;对于初选频点集合中的归一化衰减和延迟参数进行离群点检测,将检测出的离群点归入未选频点集合,从而得到终选频点集合。
6.如权利要求1所述的一种适用于双耳助听系统的基于分段频点选择的语音信号盲分离方法,其特征在于,所述未选频点集合的分离矩阵计算方法为:
用终选频点的归一化衰减和延迟参数表示归一化混合矩阵;
对归一化混合矩阵求逆得到未选频点分离矩阵。
7.如权利要求1所述的一种适用于双耳助听系统的基于分段频点选择的语音信号盲分离方法,其特征在于,对于未选频点集合,基于初始分离信号使用维纳滤波对混合信号进行重新分离包括:
将一个分离信号看做目标信号,另一个分离信号看做为噪声,计算每个频点处的维纳增益,对混合信号进行重新分离。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7任一项所述基于分段频点选择的语音信号盲分离方法。
9.一种双耳助听系统,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7任一项所述的基于分段频点选择的语音信号盲分离方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811612733.5A CN109616138B (zh) | 2018-12-27 | 2018-12-27 | 基于分段频点选择的语音信号盲分离方法和双耳助听系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811612733.5A CN109616138B (zh) | 2018-12-27 | 2018-12-27 | 基于分段频点选择的语音信号盲分离方法和双耳助听系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109616138A true CN109616138A (zh) | 2019-04-12 |
CN109616138B CN109616138B (zh) | 2020-05-19 |
Family
ID=66012943
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811612733.5A Active CN109616138B (zh) | 2018-12-27 | 2018-12-27 | 基于分段频点选择的语音信号盲分离方法和双耳助听系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109616138B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111326168A (zh) * | 2020-03-25 | 2020-06-23 | 合肥讯飞数码科技有限公司 | 语音分离方法、装置、电子设备和存储介质 |
CN111415676A (zh) * | 2020-03-10 | 2020-07-14 | 山东大学 | 一种基于分离矩阵初始化频点选择的盲源分离方法及系统 |
CN111429933A (zh) * | 2020-03-06 | 2020-07-17 | 北京松果电子有限公司 | 音频信号的处理方法及装置、存储介质 |
CN111627459A (zh) * | 2019-09-19 | 2020-09-04 | 北京安声浩朗科技有限公司 | 音频处理方法及装置、计算机可读存储介质及电子设备 |
CN111667846A (zh) * | 2020-05-14 | 2020-09-15 | 北京声智科技有限公司 | 一种盲源分离方法及装置 |
CN112151061A (zh) * | 2019-06-28 | 2020-12-29 | 北京地平线机器人技术研发有限公司 | 信号排序方法和装置、计算机可读存储介质、电子设备 |
CN113660594A (zh) * | 2021-08-21 | 2021-11-16 | 武汉左点科技有限公司 | 一种助听系统自调节降噪方法及装置 |
CN114219088A (zh) * | 2021-11-02 | 2022-03-22 | 中北大学 | 一种混叠冲击波信号的分解方法 |
CN116866122A (zh) * | 2023-07-13 | 2023-10-10 | 中国人民解放军战略支援部队航天工程大学 | 一种变换域信号增强的含噪扰信盲分离方法 |
CN117268796A (zh) * | 2023-11-16 | 2023-12-22 | 天津大学 | 车辆故障声学事件检测方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106057210A (zh) * | 2016-07-01 | 2016-10-26 | 山东大学 | 双耳间距下基于频点选择的快速语音盲源分离方法 |
US9668066B1 (en) * | 2015-04-03 | 2017-05-30 | Cedar Audio Ltd. | Blind source separation systems |
JP2017191309A (ja) * | 2016-04-08 | 2017-10-19 | 晋哉 齋藤 | ブラインド信号分離方法およびその装置 |
CN108364659A (zh) * | 2018-02-05 | 2018-08-03 | 西安电子科技大学 | 基于多目标优化的频域卷积盲信号分离方法 |
CN108877831A (zh) * | 2018-08-28 | 2018-11-23 | 山东大学 | 基于多标准融合频点筛选的盲源分离快速方法及系统 |
-
2018
- 2018-12-27 CN CN201811612733.5A patent/CN109616138B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9668066B1 (en) * | 2015-04-03 | 2017-05-30 | Cedar Audio Ltd. | Blind source separation systems |
JP2017191309A (ja) * | 2016-04-08 | 2017-10-19 | 晋哉 齋藤 | ブラインド信号分離方法およびその装置 |
CN106057210A (zh) * | 2016-07-01 | 2016-10-26 | 山东大学 | 双耳间距下基于频点选择的快速语音盲源分离方法 |
CN108364659A (zh) * | 2018-02-05 | 2018-08-03 | 西安电子科技大学 | 基于多目标优化的频域卷积盲信号分离方法 |
CN108877831A (zh) * | 2018-08-28 | 2018-11-23 | 山东大学 | 基于多标准融合频点筛选的盲源分离快速方法及系统 |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112151061A (zh) * | 2019-06-28 | 2020-12-29 | 北京地平线机器人技术研发有限公司 | 信号排序方法和装置、计算机可读存储介质、电子设备 |
CN112151061B (zh) * | 2019-06-28 | 2023-12-12 | 北京地平线机器人技术研发有限公司 | 信号排序方法和装置、计算机可读存储介质、电子设备 |
CN111627459A (zh) * | 2019-09-19 | 2020-09-04 | 北京安声浩朗科技有限公司 | 音频处理方法及装置、计算机可读存储介质及电子设备 |
CN111627459B (zh) * | 2019-09-19 | 2023-07-18 | 北京安声浩朗科技有限公司 | 音频处理方法及装置、计算机可读存储介质及电子设备 |
CN111429933A (zh) * | 2020-03-06 | 2020-07-17 | 北京松果电子有限公司 | 音频信号的处理方法及装置、存储介质 |
CN111415676B (zh) * | 2020-03-10 | 2022-10-18 | 山东大学 | 一种基于分离矩阵初始化频点选择的盲源分离方法及系统 |
CN111415676A (zh) * | 2020-03-10 | 2020-07-14 | 山东大学 | 一种基于分离矩阵初始化频点选择的盲源分离方法及系统 |
WO2021179416A1 (zh) * | 2020-03-10 | 2021-09-16 | 山东大学 | 一种基于分离矩阵初始化频点选择的盲源分离方法及系统 |
CN111326168A (zh) * | 2020-03-25 | 2020-06-23 | 合肥讯飞数码科技有限公司 | 语音分离方法、装置、电子设备和存储介质 |
CN111326168B (zh) * | 2020-03-25 | 2023-08-22 | 合肥讯飞数码科技有限公司 | 语音分离方法、装置、电子设备和存储介质 |
CN111667846A (zh) * | 2020-05-14 | 2020-09-15 | 北京声智科技有限公司 | 一种盲源分离方法及装置 |
CN113660594A (zh) * | 2021-08-21 | 2021-11-16 | 武汉左点科技有限公司 | 一种助听系统自调节降噪方法及装置 |
CN113660594B (zh) * | 2021-08-21 | 2024-05-17 | 武汉左点科技有限公司 | 一种助听系统自调节降噪方法及装置 |
CN114219088B (zh) * | 2021-11-02 | 2022-09-27 | 中北大学 | 一种混叠冲击波信号的分解方法 |
CN114219088A (zh) * | 2021-11-02 | 2022-03-22 | 中北大学 | 一种混叠冲击波信号的分解方法 |
CN116866122A (zh) * | 2023-07-13 | 2023-10-10 | 中国人民解放军战略支援部队航天工程大学 | 一种变换域信号增强的含噪扰信盲分离方法 |
CN116866122B (zh) * | 2023-07-13 | 2024-02-13 | 中国人民解放军战略支援部队航天工程大学 | 一种变换域信号增强的含噪扰信盲分离方法 |
CN117268796A (zh) * | 2023-11-16 | 2023-12-22 | 天津大学 | 车辆故障声学事件检测方法 |
CN117268796B (zh) * | 2023-11-16 | 2024-01-26 | 天津大学 | 车辆故障声学事件检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109616138B (zh) | 2020-05-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109616138A (zh) | 基于分段频点选择的语音信号盲分离方法和双耳助听系统 | |
CN107703486B (zh) | 一种基于卷积神经网络cnn的声源定位方法 | |
Mandel et al. | Model-based expectation-maximization source separation and localization | |
CN103310789B (zh) | 一种基于改进的并行模型组合的声音事件识别方法 | |
CN110069886A (zh) | 基于vmd和cnn的电缆早期故障识别与分类方法 | |
CN109830245A (zh) | 一种基于波束成形的多说话者语音分离方法及系统 | |
CN109087664A (zh) | 语音增强方法 | |
CN111415676B (zh) | 一种基于分离矩阵初始化频点选择的盲源分离方法及系统 | |
CN112259120B (zh) | 基于卷积循环神经网络的单通道人声与背景声分离方法 | |
CN106057210B (zh) | 双耳间距下基于频点选择的快速语音盲源分离方法 | |
CN112927707A (zh) | 语音增强模型的训练方法和装置及语音增强方法和装置 | |
CN110544490B (zh) | 一种基于高斯混合模型和空间功率谱特征的声源定位方法 | |
CN111341319B (zh) | 一种基于局部纹理特征的音频场景识别方法及系统 | |
CN110473565A (zh) | 一种无需源数估计的独立向量分析信号分离方法 | |
CN109767760A (zh) | 基于振幅和相位信息的多目标学习的远场语音识别方法 | |
CN106531181A (zh) | 一种基于谐波提取的欠定语音盲分离方法及装置 | |
CN108877831A (zh) | 基于多标准融合频点筛选的盲源分离快速方法及系统 | |
CN103413548A (zh) | 一种基于受限玻尔兹曼机的联合频谱建模的声音转换方法 | |
CN111666996A (zh) | 一种基于attention机制的高精度设备源识别方法 | |
Xu et al. | Self-supervised learning–based underwater acoustical signal classification via mask modeling | |
Nesta et al. | Enhanced multidimensional spatial functions for unambiguous localization of multiple sparse acoustic sources | |
CN114613384B (zh) | 一种基于深度学习多输入语音信号波束形成信息互补方法 | |
Li et al. | Speaker and direction inferred dual-channel speech separation | |
CN110534130A (zh) | 一种欠定语音盲源分离方法及装置 | |
Hu et al. | Evaluation and comparison of three source direction-of-arrival estimators using relative harmonic coefficients |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |