CN106847301A - 一种基于压缩感知和空间方位信息的双耳语音分离方法 - Google Patents
一种基于压缩感知和空间方位信息的双耳语音分离方法 Download PDFInfo
- Publication number
- CN106847301A CN106847301A CN201710002543.0A CN201710002543A CN106847301A CN 106847301 A CN106847301 A CN 106847301A CN 201710002543 A CN201710002543 A CN 201710002543A CN 106847301 A CN106847301 A CN 106847301A
- Authority
- CN
- China
- Prior art keywords
- signal
- speaker
- dictionary
- obtains
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 210000005069 ears Anatomy 0.000 title claims abstract description 26
- 238000000926 separation method Methods 0.000 claims abstract description 17
- 238000012549 training Methods 0.000 claims abstract description 17
- 239000011159 matrix material Substances 0.000 claims abstract description 16
- 239000000203 mixture Substances 0.000 claims abstract description 10
- 238000001228 spectrum Methods 0.000 claims abstract description 10
- 238000012360 testing method Methods 0.000 claims abstract description 3
- 238000009432 framing Methods 0.000 claims description 22
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 3
- 230000004807 localization Effects 0.000 claims description 3
- 238000012804 iterative process Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 claims description 2
- 238000012546 transfer Methods 0.000 claims description 2
- 238000011084 recovery Methods 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 13
- 238000005314 correlation function Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
- G10L21/043—Time compression or expansion by changing speed
- G10L21/045—Time compression or expansion by changing speed using thinning out or insertion of a waveform
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
- G10L21/043—Time compression or expansion by changing speed
- G10L21/045—Time compression or expansion by changing speed using thinning out or insertion of a waveform
- G10L21/047—Time compression or expansion by changing speed using thinning out or insertion of a waveform characterised by the type of waveform to be thinned out or inserted
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Stereophonic System (AREA)
Abstract
本发明公开了一种基于压缩感知和空间方位信息的双耳语音分离方法,本方法在训练阶段首先建立每个说话人声信号的频域字典。测试中,由双耳声源定位阶段确定说话人方位信息,得到基于方位信息的混合矩阵,将多个说话人声信号频域字典组成的大字典与混合矩阵相乘,建立恢复模型,利用正交匹配追踪算法迭代求取多说话人声信号的稀疏系数,最后将多说话人声信号的频域数据大字典与稀疏系数相乘,得到各个说话人的频谱信号,并通过傅立叶逆变换重构每个说话人的时域信号,实现多说话人语音信号的分离。本发明分离的语音信号,分离指标如信干比和信噪比上得到有效提升。
Description
技术领域
本发明涉及语音分离技术,具体涉及一种基于压缩感知和空间方位信息的双耳语音分离方法。
背景技术
经过几十年的探索,研究人员已经提出很多混合语音分离算法。特别地,根据采集混合声音信号的麦克风的数量,可将这些方法大致归为单通道和多通道的语音分离方法。很多语音分离方法都是基于单通道语音的相关特性来研究,然而,听觉研究表明,双耳听觉的辨别功能比单耳好,特别是在噪杂环境中选择性地注意感兴趣的声音并准确地定位等复杂声信息处理时更是如此。将人耳的这种听觉特性应用到语音分离上,势必能提高系统的性能。
发明内容
发明目的:为了克服现有技术中存在的不足,本发明提供一种基于压缩感知和空间方位信息的双耳语音分离方法,利用空间信息建立观测方程,基于压缩感知理论,利用OMP算法估计说话人声信号的稀疏系数,从而实现多说话人的语音分离。
技术方案:一种基于压缩感知和空间方位信息的双耳语音分离方法,其特征在于,首先建立每个说话人声信号的频域字典,由双耳声源定位阶段确定不同说话人的方位信息,得到基于声源方位信息的混合矩阵,将多个不同方位说话人声信号的频域字典组成的大字典与混合矩阵相乘,建立恢复模型,利用正交匹配追踪算法迭代求取说话人声信号的稀疏系数,将多个说话人声信号的频域数据大字典与稀疏系数相乘,得到各个说话人声信号的频域信号,并通过傅里叶逆变换重构得到每个说话人的时域信号,实现基于压缩感知和方位的混合语音分离;该方法包括以下步骤:1)字典训练;2)混合语音分离;3)信号重构。
进一步的,步骤1)具体包括:
1.1)选择语音库中不同说话人的语音作为训练语音;
1.2)对训练语音中的每个说话人数据进行预处理;所述预处理包括幅度归一化、分帧和加窗;
1.3)对步骤1.2)分帧处理所得的单帧信号进行短时傅立叶变换,获得信号帧的频域信号;
1.4)对步骤1.3)获得的每个说话人语音的频域信号进行归一化处理,并进行字典训练,获得每个说话人的频域信号字典,将多个说话人的独立字典组成正交匹配追踪算法OMP所用的大字典。
进一步的,步骤2)具体包括:
2.1)测试过程中,对包含不同说话人的混合双耳语音信号进行预处理,所述预处理包括幅度归一化、分帧和加窗;
2.2)对步骤2.1)预处理之后的信号进行短时傅立叶变换,获得双耳频域的分帧信号XL(τ,k)、XR(τ,k);
2.3)对步骤2.1)分帧后的双耳声信号求取每帧信号的耳间时间差ITD,计算定位线索;
2.4)根据耳间时间差ITD数据进行定位处理,得到混合语音对应的说话人方位信息,根据方位信息选择对应方位的与头相关传递函数HRTF数据构建测量矩阵Λ;
2.5)初始化正交匹配追踪算法OMP,R0为初始化残差,i为迭代次数,e为相似度阈值,V为指标集,初始化为空集;
2.6)利用正交匹配追踪算法OMP估计混合双耳频谱信号的稀疏系数,其步骤为:设Φ为步骤1.4)获得的大字典与步骤2.4)获得的测量矩阵Λ的乘积;定义步骤2.2)的双耳频域信号、指标集V和稀疏系数估计值乘积之间的差值为残差信号;取Φ中的一列,使其与残差信号的相关性最大,并将Φ中列数据添加至指标集V中;
2.7)利用最小二乘法进行信号逼近;基于步骤2.2)得到的分帧双耳频域信号,通过求解指标集V与稀疏系数估计值对应的最小二乘问题,获取稀疏系数的估计值;
2.8)根据步骤2.7)获取的稀疏系数估计值,更新残差;
2.9)若步骤2.7)获得的残差满足相似度阈值,停止正交匹配追踪算法OMP迭代过程;否则,迭代步骤2.6)至步骤2.8);迭代终止后,获得稀疏系数的最终估计值。
进一步的,步骤3)具体包括:
3.1)将步骤1.4)获取的大字典与步骤2.9)获取的稀疏系数的最终估计值相乘,恢复源信号的频域信号;
3.2)将步骤3.1)获取的频域信号,根据说话人的个数进行分段,得到各个说话人对应的频域信号;
3.3)将步骤3.3)获取的各个说话人的频域信号进行短时傅里叶逆变换,得到各个说话人的时域分帧信号;
3.5)将步骤3.4)获取的各个说话人的时域分帧信号进行去加窗处理,最终合成每个说话人的语音,实现混合语音的分离。
有益效果:本发明与现有技术相比,由于本发明基于压缩感知进行双耳语音分离,将声源的数据字典与稀疏系数相乘,经过傅里叶逆变换重构原信号,在多个说话人分离方面,其分离性能参数SIR、SNR得到有效提高。
附图说明
图1为本发明声源定位和语音分离的平面空间示意图
图2为本发明语音分离算法框图
具体实施方式
下面结合附图对本发明作更进一步的说明。
本发明首先建立每个说话人声信号的频域字典,由双耳声源定位阶段确定不同说话人的方位信息,得到基于声源方位信息的混合矩阵,将多个不同方位说话人频域字典组成的大字典与混合矩阵相乘,建立恢复模型,利用正交匹配追踪算法迭代求取说话人声信号的稀疏系数,将声源的频域字典与稀疏系数相乘,得到各个说话人声信号的频域表示,通过傅里叶逆变换重构得到每个说话人的时域信号,实现基于压缩感知和方位的混合语音分离。
图1为本发明语音分离的平面空间示意图,以3个声源为例。在本发明中,说话人方位角θ定义为方向矢量在水平面的投影与中垂面的夹角,其范围为-90°≤θ≤90°。水平面上,θ=0°表示正前方,沿顺时针方向θ=90°、-90°分别表示头部的正右方、正左方。图1以3个声源为例,其方向角分别为-30°、5°、40°。
图2为本发明的系统框图,本发明方法包括字典训练、基于OMP算法的说话人频域信号稀疏系数估计和信号重构三个部分,下面结合附图对本发明技术方案的具体实施方式进行详细说明:
步骤1)字典训练:
1.1)根据图2给出的整体系统框图,在训练数据阶段,采用Grid Corpus语音库,Grid Corpus语音库中每个说话人对应1000句英文句子组成,其中每个句子有6个单词,分别为动作命令、颜色、位置、字母、数字和副词。该语音库的采样率为16kHz,我们从在语音库中随机选择每个说话人的500句作为训练数据。训练和分离采用的语音库一致,可以选择任意的语音库。
1.2)对应图2中字典训练的预处理模块,对每个说话人的语音信号进行预处理,预处理包括幅度归一化、分帧和加窗。幅度归一化方法为:
x=x/max(|x|)
其中x表示语音信号;max表示最大值计算。
本发明采取的分帧长度为32ms,帧移为10ms。
本发明使用汉明窗对分帧后的语音信号进行加窗,分帧加窗后的第τ帧信号可以表示为:
x(τ,n)=wH(n)x(τN+n) 0≤n<N
其中,汉明窗表达为:
其中N为帧长。本发明中语音信号采样率为16kHz,帧长为32ms,则N=512。
1.3)对应图2中字典训练的STFT模块,对每帧信号做短时傅立叶变换,获得信号帧的频域表示:
N同样也为STFT变换的点数。
1.4)对应图2中字典训练的归一化模块。由于OMP原子是归一化的,故首先对频域信号进行归一化处理,即将其除以幅度的最大值:
X(τ,k)=X(τ,k)/max(|X(τ,k)|)
本发明对每个说话人频谱,即对X(τ,k)建立字典。本发明对字典的训练方法不作强制要求。
以上只是单个说话人频谱字典,对于基于压缩感知的语音分离,需要将多个说话人的独立频谱字典组成OMP算法所用的大字典。假设每个说话人的字典为Dm,m=1,2,…,M,M为语音库中说话人的个数,组成的大字典为D:
步骤2)基于方位信息和OMP算法的双耳语音分离阶段:
2.1)对应图2中的混合语音预处理模块,本方法的预处理包括:幅度归一化、分帧和加窗。采用上述1.2)所述相同的方法对混合语音信号进行预处理,区别在于,此时的混合语音为双耳声信号,分别对每个声道的信号进行预处理,得到左、右两个声道的时域分帧信号xL(τ,n)、xR(τ,n)。
2.2)对应图2的STFT模块,预处理之后的双耳时域信号进行短时傅立叶变换,转换到频域,获得双耳频域的分帧信号XL(τ,k)、XR(τ,k):
将单帧的双耳频谱写成一维向量的形式,记为X(τ)∈R2N×1:
2.3)对预处理后的信号计算每帧双耳声信号的耳间时间差ITD,得到定位线索。
xL(τ,n)、xR(τ,n)为经过预处理(包括幅度归一化、分帧和加窗)后的单帧双耳声信号,该帧信号的互相关函数定义为:
RXLXR(l)表示双耳声信号的互相关函数,第τ帧的ITDτ定义为互相关函数RXLXR(l)最大值对应的延迟:
2.4)对应图2的定位HRTF模块,对计算的每一帧ITDτ值进行直方图统计,在直方图中选择最大的M个峰值对应的ITD作为候选定位参数,根据ITD值得到各个说话人方位信息,M为说话人的个数。
每个方位对应一组HRTF数据,将每个方位对应的HRTF数据组成测量矩阵Λ:
其中,表示第m个说话人方位角对应的左声道或右声道的HRTF数据。
这样,Λ∈R2N×MN为HRTF数据构成的测量矩阵,M为声源个数。
2.5)初始化OMP算法。
基于方位信息和双耳声信号的单帧压缩感知CS(Compressive Sensing)模型为:
X(τ)=ΛΨα
其中Λ是由说话人方位对应的HRTF数据构成的测量矩阵,α表示M个说话人频谱信号构成的一维向量S∈RMN×1在基Ψ下的稀疏表示。
对于Ψα,可以采用字典训练的方式获取每个说话人频谱的信号帧过完备字典D,由该字典与稀疏系数来表示和恢复源信号,即:
X(τ)=ΛDα
记Φ=ΛD,则:
X(τ)=Φα
因此可以采用压缩感知的方法重构每个说话人的语音信号,本发明中采用OMP算法估计稀疏系数,从而重构源说话人声信号。
首先初始化OMP参数,对于第τ帧频谱X(τ),初始化残差E0=X(τ)∈R2N×1,i为迭代次数,相似度阈值e设置为0.15,指标集V0初始为空集。
2.6)Φ为步骤1.4)获得的大字典与步骤2.4)获得的测量矩阵Λ的乘积,寻找Φ中某列,使其与第i次迭代时的残差Ei相关性最大:
其中j为Φ中的列序号,λi+1为与残差Ei相关性最大的Φ列序号。
此时增加指标集V的列空间:
2.7)利用最小二乘法进行信号逼近:通过求解最小二乘问题保证残差最小,获取每次稀疏系数的估计值:
其中为Vi+1的伪逆。
2.8)更新残差:
2.9)如果残差满足下式:
其中||Ei+1||2代表残差Ei+1的二范数,||X(τ)||2代表第τ帧频谱信号X(τ)的二范数;
则停止迭代过程,OMP算法完成,获取稀疏系数估计否则,迭代步骤2.6)至2.8)。
步骤3)信号重构:
3.1)对应图2中的频域源信号估计模块,步骤2.9)利用OMP估计了说话人语音信号频域的稀疏系数,将数据字典与稀疏系数相乘,可以恢复第τ帧说话人语音信号的频域信号
3.2)根据说话人个数M,将平均分成M段N维向量,即得到第τ帧、每个说话人对应的频域信号。分段的过程具体是:如果在定位阶段估计出有3个说话人,那么估计得到的频域信号的长度和说话人的个数相关,只要把每一帧的频域数据平均分成3段,那么每一段的频域数据对应一个说话人。即:
其中下标表示说话人的序号。
3.3)对应图2中的ISTFT模块,根据步骤3.2)得到的每个说话人语音的频域信号,进行傅里叶逆变换ISTFT,得到每个说话人语音的每一帧时域信号:
其中表示第m个说话人第τ帧的时域信号。
3.4)以上均为对单帧信号的重构,将所有帧信号都完成重构后,进行去加窗处理,得到第m个说话人第τ帧信号表示为:
其中wH(n)为汉明窗。
将去加窗后的各帧语音组合为最终每个说话人对应的语音信号。至此,完成基于方位信息和压缩感知的双耳语音分离。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (4)
1.一种基于压缩感知和空间方位信息的双耳语音分离方法,其特征在于,首先建立每个说话人声信号的频域字典,由双耳声源定位阶段确定不同说话人的方位信息,得到基于声源方位信息的混合矩阵,将多个不同方位说话人声信号的频域字典组成的大字典与混合矩阵相乘,建立恢复模型,利用正交匹配追踪算法迭代求取说话人声信号的稀疏系数,将多个说话人声信号的频域数据大字典与稀疏系数相乘,得到各个说话人声信号的频域信号,并通过傅里叶逆变换重构得到每个说话人的时域信号,实现基于压缩感知和方位的混合语音分离;该方法包括以下步骤:1)字典训练;2)混合语音分离;3)信号重构。
2.如权利要求1所述的一种基于压缩感知和空间方位信息的双耳语音分离方法,其特征在于,步骤1)具体包括:
1.1)选择语音库中不同说话人的语音作为训练语音;
1.2)对训练语音中的每个说话人数据进行预处理;所述预处理包括幅度归一化、分帧和加窗;
1.3)对步骤1.2)分帧处理所得的单帧信号进行短时傅立叶变换,获得信号帧的频域信号;
1.4)对步骤1.3)获得的每个说话人语音的频域信号进行归一化处理,并进行字典训练,获得每个说话人的频域信号字典,将多个说话人的独立字典组成正交匹配追踪算法OMP所用的大字典。
3.如权利要求1所述的一种基于压缩感知和空间方位信息的双耳语音分离方法,其特征在于,步骤2)具体包括:
2.1)测试过程中,对包含不同说话人的混合双耳语音信号进行预处理,所述预处理包括幅度归一化、分帧和加窗;
2.2)对步骤2.1)预处理之后的信号进行短时傅立叶变换,获得双耳频域的分帧信号XL(τ,k)、XR(τ,k);
2.3)对步骤2.1)分帧后的双耳声信号求取每帧信号的耳间时间差ITD,计算定位线索;
2.4)根据耳间时间差ITD数据进行定位处理,得到混合语音对应的说话人方位信息,根据方位信息选择对应方位的与头相关传递函数HRTF数据构建测量矩阵Λ;
2.5)初始化正交匹配追踪算法OMP,R0为初始化残差,i为迭代次数,e为相似度阈值,V为指标集,初始化为空集;
2.6)利用正交匹配追踪算法OMP估计混合双耳频谱信号的稀疏系数,其步骤为:设Φ为步骤1.4)获得的大字典与步骤2.4)获得的测量矩阵Λ的乘积;定义步骤2.2)的双耳频域信号、指标集V和稀疏系数估计值乘积之间的差值为残差信号;取Φ中的一列,使其与残差信号的相关性最大,并将Φ中列数据添加至指标集V中;
2.7)利用最小二乘法进行信号逼近;基于步骤2.2)得到的分帧双耳频域信号,通过求解指标集V与稀疏系数估计值对应的最小二乘问题,获取稀疏系数的估计值;
2.8)根据步骤2.7)获取的稀疏系数估计值,更新残差;
2.9)若步骤2.7)获得的残差满足相似度阈值,停止正交匹配追踪算法OMP迭代过程;否则,迭代步骤2.6)至步骤2.8);迭代终止后,获得稀疏系数的最终估计值。
4.如权利要求2所述的一种基于压缩感知和空间方位信息的双耳语音分离方法,其特征在于,步骤3)具体包括:
3.1)将步骤1.4)获取的大字典与步骤2.9)获取的稀疏系数的最终估计值相乘,恢复源信号的频域信号;
3.2)将步骤3.1)获取的频域信号,根据说话人的个数进行分段,得到各个说话人对应的频域信号;
3.3)将步骤3.3)获取的各个说话人的频域信号进行短时傅里叶逆变换,得到各个说话人的时域分帧信号;
3.5)将步骤3.4)获取的各个说话人的时域分帧信号进行去加窗处理,最终合成每个说话人的语音,实现混合语音的分离。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710002543.0A CN106847301A (zh) | 2017-01-03 | 2017-01-03 | 一种基于压缩感知和空间方位信息的双耳语音分离方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710002543.0A CN106847301A (zh) | 2017-01-03 | 2017-01-03 | 一种基于压缩感知和空间方位信息的双耳语音分离方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106847301A true CN106847301A (zh) | 2017-06-13 |
Family
ID=59117751
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710002543.0A Pending CN106847301A (zh) | 2017-01-03 | 2017-01-03 | 一种基于压缩感知和空间方位信息的双耳语音分离方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106847301A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109375171A (zh) * | 2018-11-21 | 2019-02-22 | 合肥工业大学 | 一种基于新型正交匹配追踪算法的声源定位方法 |
CN109584903A (zh) * | 2018-12-29 | 2019-04-05 | 中国科学院声学研究所 | 一种基于深度学习的多人语音分离方法 |
CN109830245A (zh) * | 2019-01-02 | 2019-05-31 | 北京大学 | 一种基于波束成形的多说话者语音分离方法及系统 |
CN110718232A (zh) * | 2019-09-23 | 2020-01-21 | 东南大学 | 一种基于二维语谱图和条件生成对抗网络的语音增强方法 |
CN112927710A (zh) * | 2021-01-21 | 2021-06-08 | 安徽南瑞继远电网技术有限公司 | 一种基于无监督方式的电力变压器工况噪声分离方法 |
CN113574597A (zh) * | 2018-12-21 | 2021-10-29 | 弗劳恩霍夫应用研究促进协会 | 用于使用声音质量的估计和控制的源分离的装置和方法 |
CN113782047A (zh) * | 2021-09-06 | 2021-12-10 | 云知声智能科技股份有限公司 | 语音分离方法、装置、设备和存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103903632A (zh) * | 2014-04-02 | 2014-07-02 | 重庆邮电大学 | 一种多声源环境下的基于听觉中枢系统的语音分离方法 |
CN104464750A (zh) * | 2014-10-24 | 2015-03-25 | 东南大学 | 一种基于双耳声源定位的语音分离方法 |
CN105575387A (zh) * | 2015-12-25 | 2016-05-11 | 重庆邮电大学 | 基于听觉仿生中耳蜗基底膜的声源定位方法 |
CN105609099A (zh) * | 2015-12-25 | 2016-05-25 | 重庆邮电大学 | 基于人耳听觉特性的语音识别预处理方法 |
CN105741849A (zh) * | 2016-03-06 | 2016-07-06 | 北京工业大学 | 数字助听器中融合相位估计与人耳听觉特性的语音增强方法 |
-
2017
- 2017-01-03 CN CN201710002543.0A patent/CN106847301A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103903632A (zh) * | 2014-04-02 | 2014-07-02 | 重庆邮电大学 | 一种多声源环境下的基于听觉中枢系统的语音分离方法 |
CN104464750A (zh) * | 2014-10-24 | 2015-03-25 | 东南大学 | 一种基于双耳声源定位的语音分离方法 |
CN105575387A (zh) * | 2015-12-25 | 2016-05-11 | 重庆邮电大学 | 基于听觉仿生中耳蜗基底膜的声源定位方法 |
CN105609099A (zh) * | 2015-12-25 | 2016-05-25 | 重庆邮电大学 | 基于人耳听觉特性的语音识别预处理方法 |
CN105741849A (zh) * | 2016-03-06 | 2016-07-06 | 北京工业大学 | 数字助听器中融合相位估计与人耳听觉特性的语音增强方法 |
Non-Patent Citations (1)
Title |
---|
李枭雄: "基于双耳空间信息的语音分离研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109375171A (zh) * | 2018-11-21 | 2019-02-22 | 合肥工业大学 | 一种基于新型正交匹配追踪算法的声源定位方法 |
CN113574597A (zh) * | 2018-12-21 | 2021-10-29 | 弗劳恩霍夫应用研究促进协会 | 用于使用声音质量的估计和控制的源分离的装置和方法 |
CN113574597B (zh) * | 2018-12-21 | 2024-04-12 | 弗劳恩霍夫应用研究促进协会 | 用于使用声音质量的估计和控制的源分离的装置和方法 |
CN109584903A (zh) * | 2018-12-29 | 2019-04-05 | 中国科学院声学研究所 | 一种基于深度学习的多人语音分离方法 |
CN109830245A (zh) * | 2019-01-02 | 2019-05-31 | 北京大学 | 一种基于波束成形的多说话者语音分离方法及系统 |
CN109830245B (zh) * | 2019-01-02 | 2021-03-12 | 北京大学 | 一种基于波束成形的多说话者语音分离方法及系统 |
CN110718232A (zh) * | 2019-09-23 | 2020-01-21 | 东南大学 | 一种基于二维语谱图和条件生成对抗网络的语音增强方法 |
CN112927710A (zh) * | 2021-01-21 | 2021-06-08 | 安徽南瑞继远电网技术有限公司 | 一种基于无监督方式的电力变压器工况噪声分离方法 |
CN113782047A (zh) * | 2021-09-06 | 2021-12-10 | 云知声智能科技股份有限公司 | 语音分离方法、装置、设备和存储介质 |
CN113782047B (zh) * | 2021-09-06 | 2024-03-08 | 云知声智能科技股份有限公司 | 语音分离方法、装置、设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106847301A (zh) | 一种基于压缩感知和空间方位信息的双耳语音分离方法 | |
Zhang et al. | Deep learning based binaural speech separation in reverberant environments | |
Wu et al. | An end-to-end deep learning approach to simultaneous speech dereverberation and acoustic modeling for robust speech recognition | |
CN110970053B (zh) | 一种基于深度聚类的多通道与说话人无关语音分离方法 | |
Qin et al. | Hi-mia: A far-field text-dependent speaker verification database and the baselines | |
CN109584903B (zh) | 一种基于深度学习的多人语音分离方法 | |
CN107919133A (zh) | 针对目标对象的语音增强系统及语音增强方法 | |
CN102436809B (zh) | 英语口语机考系统中网络语音识别方法 | |
CN108899047B (zh) | 音频信号的掩蔽阈值估计方法、装置及存储介质 | |
CN110600047A (zh) | 基于Perceptual STARGAN的多对多说话人转换方法 | |
CN106782565A (zh) | 一种声纹特征识别方法及系统 | |
CN110675891B (zh) | 一种基于多层注意力机制的语音分离方法、模块 | |
CN111462769B (zh) | 一种端到端的口音转换方法 | |
CN107346664A (zh) | 一种基于临界频带的双耳语音分离方法 | |
CN108520756B (zh) | 一种说话人语音分离的方法及装置 | |
CN114203163A (zh) | 音频信号处理方法及装置 | |
Hussain et al. | Ensemble hierarchical extreme learning machine for speech dereverberation | |
CN110970044A (zh) | 一种面向语音识别的语音增强方法 | |
Liang et al. | Attention-based multi-channel speaker verification with ad-hoc microphone arrays | |
CN110176243A (zh) | 语音增强方法、模型训练方法、装置和计算机设备 | |
CN113241090B (zh) | 一种基于最小体积约束的多通道盲声源分离方法 | |
Meutzner et al. | A generative-discriminative hybrid approach to multi-channel noise reduction for robust automatic speech recognition | |
Chen et al. | Improved Guided Source Separation Integrated with a Strong Back-End for the CHiME-6 Dinner Party Scenario. | |
CN108875824A (zh) | 单通道盲源分离方法 | |
Li et al. | Feature mapping of multiple beamformed sources for robust overlapping speech recognition using a microphone array |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170613 |