CN109166590A - 一种基于空域相关性的二维时频掩模估计建模方法 - Google Patents
一种基于空域相关性的二维时频掩模估计建模方法 Download PDFInfo
- Publication number
- CN109166590A CN109166590A CN201810955158.2A CN201810955158A CN109166590A CN 109166590 A CN109166590 A CN 109166590A CN 201810955158 A CN201810955158 A CN 201810955158A CN 109166590 A CN109166590 A CN 109166590A
- Authority
- CN
- China
- Prior art keywords
- frequency
- time
- sound source
- frequency point
- probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 230000007704 transition Effects 0.000 claims abstract description 39
- 238000007476 Maximum Likelihood Methods 0.000 claims abstract description 13
- 230000000694 effects Effects 0.000 claims abstract description 4
- 230000008569 process Effects 0.000 claims description 11
- 238000001228 spectrum Methods 0.000 claims description 9
- 238000000354 decomposition reaction Methods 0.000 claims description 8
- 238000010586 diagram Methods 0.000 claims description 5
- 239000011159 matrix material Substances 0.000 claims description 5
- 238000013519 translation Methods 0.000 claims description 5
- 230000001186 cumulative effect Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 230000002123 temporal effect Effects 0.000 claims description 3
- 238000000926 separation method Methods 0.000 abstract description 6
- 230000006870 function Effects 0.000 description 14
- 238000012546 transfer Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 241000209140 Triticum Species 0.000 description 1
- 235000021307 Triticum Nutrition 0.000 description 1
- 238000012098 association analyses Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0224—Processing in the time domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
本发明涉及一种基于空域相关性的二维时频掩模估计建模方法,包括:针对麦克风阵列采集到的语音信号;计算某时频点下某对麦克风之间相位差以及被目标声源支配情况下相位差;由两相位差定义频点到目标声源的距离;采用类正态分布法计算此频点被目标声源支配的概率;将频点被目标声源支配的转移概率在时间、频率维度进行独立展开、分析;进行空域相关性时频交织建模;表示出此二维交织模型的整体参数集;表示出全局概率密度函数,将建模问题转换为按极大似然准则估计整体参数集,并精确估计语音源的掩模。该方法以空域信息为特征,将时间和频率两个维度上的信息交织在一起,发展一种二维相关模型,准确估计语音源的掩模,得到很好的语音分离效果。
Description
技术领域
本发明涉及语音信号分离处理技术领域。尤其涉及一种基于空域相关性的二维时频掩模估计建模方法。
背景技术
时频掩模是语音分离常用的手段目标,时频掩模表征语音信号在时频域内存在与否的状态矩阵。理想时频掩模保留了混合信号中由目标语音主导的时频分量,去除由噪声主导的时频点分量,从而实现目标语音信号和噪声信号的主要成分的分离。
常见的时频掩模有理想二值掩模和理想浮值掩模,前者的状态矩阵中的每个元素取值仅为0或1,表示各时频点上语音信号存在与否的硬性判决;后者采用0和模为1的单位复数表示语音存在与否。理想二值掩模为硬判决掩模分离,在很大程度上容易造成频谱丢失;理想浮值掩模则考虑了空域信息对于提高语音的感知质量的重要作用。研究表明空域信息对于提高语音的感知质量具有重要作用,但是理想浮值掩模的学习难度也相对较大,目前尚未广泛应用到监督性语音分离中。
目前大部分时频掩模估计方法也只是考虑了单个频点上的支配情况,根据单个频点的空域信息判断时频点被哪个声源支配。由于语音频谱存在二维相关性,它使得相邻频点支配声源之间也存在某种相似性,而传统的方法忽略了这种相似性。
空域信息是指示目标语音源的基本标签且空域信息散布在各对麦克接收信号的频域相位差上。因此,它可以在频域指示目标源的能量分布状况。基于空域相关性的时频掩膜估计方法充分利用了空域信息,通过将时间和频率两个维度上的信息交织在一起,发展一种二维相关模型,精确估计语音源的掩模。
发明内容
本发明的目的在于克服现有时频掩膜技术中忽略了空域相关性的缺陷,试图以空域信息为特征,将时间和频率两个维度上的信息交织在一起,发展一种二维相关模型,从而可以更加精确的估计出语音源的掩模。
为了实现上述目的,本发明提出了一种基于空域相关性的二维时频掩模估计建模方法,包括:
步骤一、将通过麦克风阵列接收到的声源信号转换为数字信号处理,所述的麦克风阵列包括K对麦克风;
步骤二、将混合语音信号通过子带滤波器处理分解为不同的时频单元;
步骤三、计算在给定相同时间和相同频点情况下M对麦克风阵列之间的相位差,所述M等于K(K-1)/2,K表示阵列拥有麦克的数量;
步骤四、计算在假设某频点被目标声源支配的情况下,M对麦克之间的相位差;
步骤五、根据以上步骤三、步骤四两种情况下计算出的两个相位差定义频点到目标声源的距离;
步骤六、采用类比于正态分布的方法定义频点被目标声源支配的概率;
步骤七、将支配转移概率的马尔可夫链在时间维度和频率维度进行分解分析,表示出时间转移概率,频率转移概率;
步骤八、根据时间维度状态相关特性和频率维度状态相关特性进行交织建模并画出示意图;
步骤九、根据以上二维交织建模表示出模型的整个参数集;
步骤十、计算全局的概率密度函数,将建模问题实现为按极大似然准则估计整体参数集;
步骤十一、将参数集的估计过程等价为以模型为基础的分类过程。
上述技术方案中,在步骤三中,所述计算在给定相同时间和相同频点情况下M对麦克风阵列之间的相位差的操作包括:
在给定t时刻和f频点上,由第p个和第q个麦克风组成的第m(m=1,2,…,M)对麦克风的相位差为:
其中∠(.)表示求取复数相位的操作,m表示麦克的索引;
在阵列中共有K对麦克风,则对于某个给定的时频点,总共有M=K(K-1)/2对麦克上的相位差组成一个向量集,以此表示声源的空域特征。
上述技术方案中,在步骤四中,所述计算在假设某频点被目标声源支配的情况下,M对麦克之间的相位差包括:
在t时刻和f频点相同的情况下,假设此时频点完全被目标声源所支配;
通过几何关系推导出此条件下的麦克风之间相位差为:
其中,三维单位矢量γ表示声源的入射方向,rk表示声源的间距,c表示声速,ζk表示从第k个麦克到第一个麦克之间的单位矢量。
上述技术方案中,在步骤五中根据步骤三、步骤四求出的两个相位差定义频点到目标声源的距离包括:
将一般时频点和被完全支配频点相位差进行取绝对值操作;
再进行取差的绝对值进行平方和的累加后求取均值;此均值类似于正态分布中的均值μ。
求得新定义的频点到目标声源的距离为:
其中F(·)表示将周期为2π的变量调整到[-π,π]之间的函数,ωf表示角频率。
上述技术方案中,在步骤六中,所述采用类比于正态分布的方法定义频点被目标声源支配的概率包括:
根据步骤五得到的频点到目标声源的距离得到,频点被目标声源支配的概率为:
其中,σ表示标准差。
上述技术方案中,在步骤七中,所述将支配转移概率的马尔可夫链在时间维度和频率维度进行分解分析,表示出时间转移概率,频率转移概率包括:
根据频点被目标声源支配或被噪声支配的转移概率的马尔可夫链,在时间维度和频率维度进行分解分析;
该马尔可夫链的时间转移概率λf,l是一个2×2矩阵,将其元素λf,l(i,j)表示为:
将该马尔可夫链沿频率方向的状态转移由频率状态转移概率cg,l表示为:
上述技术方案中,在步骤八中,所述根据时间维度状态相关特性和频率维度状态相关特性进行交织建模并画出示意图包括:
在时间维度上时间相关性仅需考虑一个单位时间间隔相邻位置上的状态;
在频率维度上频率相关性则需至少考虑2×D个频率相邻位置上的状态,超过D个单位频率间隔相邻位置上的状态则被认为不相关了;
进行二维图形绘制,横坐标代表时间也为帧序列,横向的箭头表示时间状态转移概率;
纵坐标代表频带,其中g为频率子带的间隔。
上述技术方案中,在步骤九中,所述根据以上二维交织建模表示出模型的整个参数集为:
表示时间维度上状态转移概率的参数集;
cD,l表示的是频率维度上状态转移概率的参数集;
参数集中所有的频带都共享频率状态转移概率。
上述技术方案中,在步骤十中,所述计算全局的概率密度函数,将建模问题实现为按极大似然准则估计整体参数集,进一步包括:
首先,给定一个参数集
表示从序列中获取的模型参数估计值;
对应的观察序列的概率密度函数表示为全局的概率密度函数为:
其次,表示给定状态矩阵和参数集时的情况下观察值序列的似然度,表示为:
其中表示一个因果窗内L个样本;
对语音信号在每一个频率分量上提取对数幅度谱包络;
对于一个频率分量上的对数幅度谱时间序列
建立一个隐马尔科夫模型
其中是其对应的状态序列,分别表示的是第帧语音的存在和缺失,对应语音和噪声两个状态;
其中的表示的是频点被目标声源支配的概率:
然后,是表示状态序列出现的先验概率的概率,高斯分量表示为:
λf,l(i,j),cg,l(i,j)分别表示时间状态转移概率和频率状态转移概率。
最后,将建模问题被实现为按照极大似然(Maximum Likelihood,ML)准则估计整体参数集
其依据表示为
上述技术方案中,在步骤十一中,所述将参数集的估计过程等价为以模型为基础的分类过程,将表示为:
将参数集的过程使用等价原则等价为以模型为基础的分类过程,因此得到了语音掩膜的最佳估计。
本发明的积极效果和优点在于:
1.通过求取各对麦克接收信号的频域相位差,得到麦克风阵列空域信息,而空域信息对于提高语音的感知质量具有重要作用。
2.本方法提出了一种基于空域相关性的二维时频掩模估计建模方法。将麦克风阵列的相位差即空域信息,频点被支配的状态转移概率的时间维度转移概率和频率维度转移概率三者综合一起运算,得到面向空域相关性的二维时频掩膜建模方法,最终实现空域掩膜的准确估计。
附图说明
图1为本发明的一种基于空域相关性的二维时频掩模估计建模方法的流程框图;
1表示:将通过麦克风阵列接收到的声源信号转换成数字声音信号;
2表示:将混合语音信号通过子带滤波器处理分解为不同的时频单元;
3表示:计算时频点给定情况下麦克风信号相位差;
4表示:计算假设频点被目标声源支配下的相位差;
5表示:根据两相位差定义频点到目标声源的距离;
6表示:计算频点被目标声源支配的概率;
7表示:将支配转移概率的马尔可夫链在时间、频率两维度分解分析;
8表示:进行二维相关建模;
9表示:表示出模型参数集;
10表示:计算全局概率密度,将建模问题实现为按极大似然准则估计整体参数集;
11表示:将参数集的估计过程等价为以模型为基础的分类过程。
图2为发明方法中基于使用马尔科夫模型交织而成的二维网格建模频谱的空域相关性的方法。
具体实施方式
下面通过附图和实施例,对本发明的技术方案做进一步详细描述。
参考图1,本发明的方法包括以下步骤:
步骤一,通过使用麦克风阵列将接收到的声音信号转换为数字信号;
所述的麦克风阵列包括K对麦克风;
步骤二,将混合数字声音信号使用Gammatone多子带滤波器组进行外围处理,分解为不同的时频单元,具体包括:
首先,确定Gammatone滤波器的个数M,确定每个滤波器的中心频率,使用公式gm(t)=tn-1exp(-2πbmt)cos(2πfmt+φm)U(t),1≤m≤M;
其中n为滤波器的阶数,fm是滤波器的中心频率,φm为相位,bm为等效带宽,M为滤波器个数,U(t)为阶跃函数。
其次,计算得到滤波器冲击响应gi(n)(i=1,2,…,M),采样频率为8KHZ时M可取18),并获得滤波器参数。
然后,将含噪语音x(n)用这M个Gammatone滤波器进行分离,得到M个带通语音
最后,将每个带通语音经过分帧、短时傅里叶变换得到不同的时频单元。
步骤三,给定时刻和f频点上,由第p个和第q个麦克风组成的第m(m=1,2,…,M)对麦克风的相位差为:
其中∠(.)表示求取复数相位的操作,m表示麦克的索引;
在阵列中共有K对麦克风,则对于某个给定的时频点,总共有M=K(K-1)/2对麦克上的相位差组成一个向量集,以此表示声源的空域特征。
步骤四,求取某个时频点被目标声源完全支配的情况下得到相位差包括:
在时刻和f频点相同的情况下,假设此时频点完全被目标声源所支配;
通过几何关系推导出此条件下的麦克风之间相位差为:
其中,三维单位矢量γ表示声源的入射方向,rk表示声源的间距,c表示声速,ζk表示从第k个麦克到第一个麦克之间的单位矢量,ωf表示角频率。
步骤五,根据步骤三、步骤四求出的两个相位差定义频点到目标声源的距离包括:
将一般情况时频点和被完全支配频点相位差进行取绝对值操作;
再进行取差的绝对值进行平方和的累加后求取均值;此均值类似于正态分布中的均值μ。
求得新定义的频点到目标声源的距离为:
其中F(·)函数表示将周期为2π的变量调整到[-π,π]之间的函数,ωf表示角频率
步骤六,定义频点被目标声源支配的概率包括:
联想分析正态分布中,当x趋近于μ时,概率密度函数f(x)取得最大值;
将麦克间的相位差等价于正态分布中x;
频点被目标声源支配情况下的相位差等价于正态分布中的μ;
根据类似正态分布分析定义频点被目标声源支配的概率为:
其中,其中σ表示标准差。
步骤七,将支配转移概率的马尔可夫链在时间维度和频率维度进行分解分析,表示出时间转移概率,频率转移概率包括:
由于频点只有被目标声源和被噪声支配的两个状态;
定义频点被目标声源支配的状态用来表示,被噪声支配的概率用表示;
频点被目标声源支配的概率在步骤六中已计算出,且频点在这两个状态之间来回切换,因此将该马尔可夫链在时间维度和频率维度分别表示出转移概率函数为;
该马尔可夫链的时间转移概率λf,l是一个2×2矩阵,将其元素λf,l(i,j)表示为:
将该马尔可夫链沿频率方向的状态转移由频率状态转移概率cg,l表示为:
步骤八,根据时间维度状态相关特性和频率维度状态相关特性进行交织建模并画出示意图,参考图2,具体实施步骤如下所示:
在时间维度上时间相关性仅需考虑一个单位时间间隔相邻位置上的状态;
在频率维度上频率相关性则需至少考虑2×D个频率相邻位置上的状态,超过D个单位频率间隔相邻位置上的状态则被认为不相关了;
进行二维图形绘制,横坐标代表时间也为帧序列,横向的箭头表示时间状态转移概率;
纵坐标代表频带,其中g为频率子带的间隔;
步骤九,所述根据以上二维交织建模表示出模型的整个参数集为:
表示时间维度上状态转移概率的参数集;
cD,l表示的是频率维度上状态转移概率的参数集;
参数集中所有的频带都共享频率状态转移概率;
步骤十,计算全局的概率密度函数,将建模问题实现为按极大似然准则估计整体参数集,进一步包括:
首先,给定一个参数集
表示从序列中获取的模型参数估计值;
对应的观察序列的概率密度函数表示为全局的概率密度函数为:
其次,表示给定状态矩阵和参数集时的情况下观察值序列的似然度,表示为:
其中表示一个因果窗内L个样本;
对语音信号在每一个频率分量上提取对数幅度谱包络;
对于一个频率分量上的对数幅度谱时间序列
建立一个隐马尔科夫模型
其中是其对应的状态序列,分别表示的是第帧语音的存在和缺失,对应语音和噪声两个状态;
其中的表示的是频点被目标声源支配的概率:
然后,是表示状态序列出现的先验概率的概率,高斯分量表示为
af,l(i,j),cg,l(i,j)分别表示时间状态转移概率和频率状态转移概率。
最后,将建模问题被实现为按照极大似然(Maximum Likelihood,ML)准则估计整体参数集
其依据表示为
步骤十一,所述将参数集的估计过程等价为以模型为基础的分类过程,将表示为:
最终得到了语音掩膜的最佳估计
Claims (10)
1.一种基于空域相关性的二维时频掩模估计建模方法,包括:
步骤一、将通过麦克风阵列接收到的声源信号转换为数字信号处理,所述的麦克风阵列包括K对麦克风;
步骤二、将混合语音信号通过子带滤波器处理分解为不同的时频单元;
步骤三、计算在给定相同时间和相同频点情况下M对麦克风阵列之间的相位差,所述M等于K(K-1)/2,K表示阵列拥有麦克的数量;
步骤四、计算在假设某频点被目标声源支配的情况下,M对麦克之间的相位差;
步骤五、根据以上步骤三、步骤四两种情况下计算出的两个相位差定义频点到目标声源的距离;
步骤六、采用类比于正态分布的方法定义频点被目标声源支配的概率;
步骤七、将支配转移概率的马尔可夫链在时间维度和频率维度进行分解分析,表示出时间转移概率,频率转移概率;
步骤八、根据时间维度状态相关特性和频率维度状态相关特性进行交织建模并画出示意图;
步骤九、根据以上二维交织建模表示出模型的整个参数集;
步骤十、计算全局的概率密度函数,将建模问题实现为按极大似然准则估计整体参数集;
步骤十一、将参数集的估计过程等价为以模型为基础的分类过程。
2.如权利要求1所述的一种基于空域相关性的二维时频掩模估计建模方法,在步骤三中,所述计算在给定相同时间和相同频点情况下M对麦克风阵列之间的相位差的操作包括:
在给定t时刻和f频点上,由第p个和第q个麦克风组成的第m(m=1,2,…,M)对麦克风的相位差为:
其中∠(.)表示求取复数相位的操作,m表示麦克的索引;
在阵列中共有K对麦克风,则对于某个给定的时频点,总共有M=K(K-1)/2对麦克上的相位差组成一个向量集,以此表示声源的空域特征。
3.如权利要求1所述的一种基于空域相关性的二维时频掩模估计建模方法,在步骤四中,所述计算在假设某频点被目标声源支配的情况下,M对麦克之间的相位差包括:
在t时刻和f频点相同的情况下,假设此时频点完全被目标声源所支配;
通过几何关系推导出此条件下的麦克风之间相位差为:
其中,三维单位矢量γ表示声源的入射方向,rk表示声源的间距,c表示声速,ζk表示从第k个麦克到第一个麦克之间的单位矢量。
4.如权利要求1所述的一种基于空域相关性的二维时频掩模估计建模方法,在步骤五中根据步骤三、步骤四求出的两个相位差定义频点到目标声源的距离包括:
将一般时频点和被完全支配频点相位差进行取绝对值操作;
再进行取差的绝对值进行平方和的累加后求取均值;此均值类似于正态分布中的均值μ。
求得新定义的频点到目标声源的距离为:
其中F(·)表示将周期为2π的变量调整到[-π,π]之间的函数,ωf表示角频率。
5.如权利要求1所述的一种基于空域相关性的二维时频掩模估计建模方法,在步骤六中,所述采用类比于正态分布的方法定义频点被目标声源支配的概率包括:根据步骤五得到的频点到目标声源的距离得到,频点被目标声源支配的概率为:
其中,σ表示标准差。
6.如权利要求1所述的一种基于空域相关性的二维时频掩模估计建模方法,在步骤七中,所述将支配转移概率的马尔可夫链在时间维度和频率维度进行分解分析,表示出时间转移概率,频率转移概率包括:
根据频点被目标声源支配或被噪声支配的转移概率的马尔可夫链,在时间维度和频率维度进行分解分析;
该马尔可夫链的时间转移概率λf,l是一个2×2矩阵,将其元素λf,l(i,j)表示为:
将该马尔可夫链沿频率方向的状态转移由频率状态转移概率cg,l表示为:
7.如权利要求1所述的一种基于空域相关性的二维时频掩模估计建模方法,在步骤八中,所述根据时间维度状态相关特性和频率维度状态相关特性进行交织建模并画出示意图包括:
在时间维度上时间相关性仅需考虑一个单位时间间隔相邻位置上的状态;
在频率维度上频率相关性则需至少考虑2×D个频率相邻位置上的状态,超过D个单位频率间隔相邻位置上的状态则被认为不相关了;
进行二维图形绘制,横坐标代表时间也为帧序列,横向的箭头表示时间状态转移概率;
纵坐标代表频带,其中g为频率子带的间隔。
8.如权利要求1所述的一种基于空域相关性的二维时频掩模估计建模方法,在步骤九中,所述根据以上二维交织建模表示出模型的整个参数集为:
表示时间维度上状态转移概率的参数集;
cD,l表示的是频率维度上状态转移概率的参数集;
参数集中所有的频带都共享频率状态转移概率。
9.如权利要求1所述的一种基于空域相关性的二维时频掩模估计建模方法,在步骤十中,所述计算全局的概率密度函数,将建模问题实现为按极大似然准则估计整体参数集,进一步包括:
首先,给定一个参数集
表示从序列中获取的模型参数估计值;
对应的观察序列的概率密度函数表示为全局的概率密度函数为:
其次,表示给定状态矩阵和参数集时的情况下
观察值序列的似然度,表示为:
其中表示一个因果窗内L个样本;
对语音信号在每一个频率分量上提取对数幅度谱包络;
对于一个频率分量上的对数幅度谱时间序列
建立一个隐马尔科夫模型
其中是其对应的状态序列,分别表示的是第帧语音的存在和缺失,对应语音和噪声两个状态;
其中的表示的是频点被目标声源支配的概率:
然后,是表示状态序列出现的先验概率的概率,高斯分量表示为:
λf,l(i,j),cg,l(i,j)分别表示时间状态转移概率和频率状态转移概率。
最后,将建模问题被实现为按照极大似然(MaximumLikelihood,ML)准则估计整体参数集
其依据表示为。
10.如权利要求1所述的一种基于空域相关性的二维时频掩模估计建模方法,在步骤十一中,所述将参数集的估计过程等价为以模型为基础的分类过程,将表示为:
将参数集的过程使用等价原则等价为以模型为基础的分类过程,因此得到了语音掩膜的最佳估计。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810955158.2A CN109166590B (zh) | 2018-08-21 | 2018-08-21 | 一种基于空域相关性的二维时频掩模估计建模方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810955158.2A CN109166590B (zh) | 2018-08-21 | 2018-08-21 | 一种基于空域相关性的二维时频掩模估计建模方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109166590A true CN109166590A (zh) | 2019-01-08 |
CN109166590B CN109166590B (zh) | 2020-06-30 |
Family
ID=64896292
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810955158.2A Active CN109166590B (zh) | 2018-08-21 | 2018-08-21 | 一种基于空域相关性的二维时频掩模估计建模方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109166590B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109859769A (zh) * | 2019-01-30 | 2019-06-07 | 科大讯飞股份有限公司 | 一种掩码估计方法及装置 |
CN111179920A (zh) * | 2019-12-31 | 2020-05-19 | 中国科学院声学研究所 | 一种端到端远场语音识别方法及系统 |
WO2021103672A1 (zh) * | 2019-11-29 | 2021-06-03 | 北京搜狗科技发展有限公司 | 一种音频数据处理的方法及装置、电子设备、存储介质 |
CN113378971A (zh) * | 2021-06-28 | 2021-09-10 | 燕山大学 | 近红外光谱的分类模型训练方法、系统及分类方法、系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1606798B1 (de) * | 2003-03-21 | 2006-09-06 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und verfahren zum analysieren eines audio-informationssignals |
CN1866356A (zh) * | 2005-08-15 | 2006-11-22 | 华为技术有限公司 | 一种宽带波束形成方法和装置 |
US7415117B2 (en) * | 2004-03-02 | 2008-08-19 | Microsoft Corporation | System and method for beamforming using a microphone array |
CN103873977A (zh) * | 2014-03-19 | 2014-06-18 | 惠州Tcl移动通信有限公司 | 基于多麦克风阵列波束成形的录音系统及其实现方法 |
CN108269583A (zh) * | 2017-01-03 | 2018-07-10 | 中国科学院声学研究所 | 一种基于时间延迟直方图的语音分离方法 |
-
2018
- 2018-08-21 CN CN201810955158.2A patent/CN109166590B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1606798B1 (de) * | 2003-03-21 | 2006-09-06 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und verfahren zum analysieren eines audio-informationssignals |
US7415117B2 (en) * | 2004-03-02 | 2008-08-19 | Microsoft Corporation | System and method for beamforming using a microphone array |
CN1866356A (zh) * | 2005-08-15 | 2006-11-22 | 华为技术有限公司 | 一种宽带波束形成方法和装置 |
CN103873977A (zh) * | 2014-03-19 | 2014-06-18 | 惠州Tcl移动通信有限公司 | 基于多麦克风阵列波束成形的录音系统及其实现方法 |
CN108269583A (zh) * | 2017-01-03 | 2018-07-10 | 中国科学院声学研究所 | 一种基于时间延迟直方图的语音分离方法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109859769A (zh) * | 2019-01-30 | 2019-06-07 | 科大讯飞股份有限公司 | 一种掩码估计方法及装置 |
WO2021103672A1 (zh) * | 2019-11-29 | 2021-06-03 | 北京搜狗科技发展有限公司 | 一种音频数据处理的方法及装置、电子设备、存储介质 |
CN111179920A (zh) * | 2019-12-31 | 2020-05-19 | 中国科学院声学研究所 | 一种端到端远场语音识别方法及系统 |
CN113378971A (zh) * | 2021-06-28 | 2021-09-10 | 燕山大学 | 近红外光谱的分类模型训练方法、系统及分类方法、系统 |
CN113378971B (zh) * | 2021-06-28 | 2024-05-28 | 燕山大学 | 近红外光谱的分类模型训练方法、系统及分类方法、系统 |
Also Published As
Publication number | Publication date |
---|---|
CN109166590B (zh) | 2020-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109166590A (zh) | 一种基于空域相关性的二维时频掩模估计建模方法 | |
CN107703486B (zh) | 一种基于卷积神经网络cnn的声源定位方法 | |
CN109830245A (zh) | 一种基于波束成形的多说话者语音分离方法及系统 | |
EP3633676A1 (en) | Rnn-based noise reduction method and device for real-time conference | |
CN105959723B (zh) | 一种基于机器视觉和语音信号处理相结合的假唱检测方法 | |
CN110728989B (zh) | 一种基于长短时记忆网络lstm的双耳语音分离方法 | |
CN103310789A (zh) | 一种基于改进的并行模型组合的声音事件识别方法 | |
CN108091345A (zh) | 一种基于支持向量机的双耳语音分离方法 | |
CN113191178A (zh) | 一种基于听觉感知特征深度学习的水声目标识别方法 | |
CN109977724A (zh) | 一种水下目标分类方法 | |
Shi et al. | End-to-End Monaural Speech Separation with Multi-Scale Dynamic Weighted Gated Dilated Convolutional Pyramid Network. | |
CN111179959B (zh) | 一种基于说话人嵌入空间的竞争说话人数量估计方法及系统 | |
KR101802444B1 (ko) | 독립 벡터 분석 및 반향 필터 재추정을 이용한 베이시안 특징 향상에 의한 강인한 음성 인식 장치 및 방법 | |
Borsos et al. | Micaugment: One-shot microphone style transfer | |
Narayanaswamy et al. | Audio source separation via multi-scale learning with dilated dense u-nets | |
CN113707136B (zh) | 服务型机器人语音交互的音视频混合语音前端处理方法 | |
Masnadi-Shirazi et al. | Separation and tracking of multiple speakers in a reverberant environment using a multiple model particle filter glimpsing method | |
Youssef et al. | From monaural to binaural speaker recognition for humanoid robots | |
Lim | SpecAugment for sound event detection in domestic environments using ensemble of convolutional recurrent neural networks | |
CN113327624A (zh) | 一种采用端到端时域声源分离系统进行环境噪声智能监测的方法 | |
Lee et al. | A new sound source localization approach using stereo directional microphones | |
Jhanwar et al. | Classification of environmental background noise sources using Hilbert-Huang transform | |
Naqvi et al. | Multimodal blind source separation for moving sources | |
Liu et al. | Use of bimodal coherence to resolve spectral indeterminacy in convolutive BSS | |
CN117524252B (zh) | 一种基于醉汉模型的轻量化声学场景感知方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |