CN109545240B - 一种人机交互的声音分离的方法 - Google Patents
一种人机交互的声音分离的方法 Download PDFInfo
- Publication number
- CN109545240B CN109545240B CN201811375640.5A CN201811375640A CN109545240B CN 109545240 B CN109545240 B CN 109545240B CN 201811375640 A CN201811375640 A CN 201811375640A CN 109545240 B CN109545240 B CN 109545240B
- Authority
- CN
- China
- Prior art keywords
- sound
- user
- sound source
- separation
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000926 separation method Methods 0.000 title claims abstract description 63
- 230000003993 interaction Effects 0.000 title claims abstract description 9
- 238000000034 method Methods 0.000 claims abstract description 32
- 230000000694 effects Effects 0.000 claims abstract description 17
- 239000011159 matrix material Substances 0.000 claims description 72
- 238000001228 spectrum Methods 0.000 claims description 25
- 230000005284 excitation Effects 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 6
- 238000000354 decomposition reaction Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 239000013256 coordination polymer Substances 0.000 claims description 3
- 230000026676 system process Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 claims description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Stereophonic System (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明涉及一种人机交互的声音分离的方法,属于音频处理技术领域。该方法首先对待分离的音频进行初步分离,得到每个声音源的音频并划分为不发声区间和发声区间,将该声音源的区间分布图呈现用户,使得用户听音频并看到音频进度对应区间位置;若用户满意声音分离效果,则分离结束;若用户不满意分离结果,则用户可对发声区间和不发声区间进行修改,直至得到满意的分离结果;用户还可以对分离结果进行精细调整,删除声音源中包含其他声音源的声音。本发令用户分离声音无需相应的音乐知识,使得普通用户能够轻松分离视频或音频中不同来源的声音。
Description
技术领域
本发明涉及一种人机交互的声音分离的方法,属于音频处理技术领域。
背景技术
随着网络的发展,越来越多的视频、音频进入大众的生活,同时,对视频、音频的处理的需求也日益增加,越来越多的音、视频被进行处理后进一步用于人们的生活、工作和学习等。
在一段视频或音频中,经常会出现多种声音。有时这些声音会互相重叠,比如人说话的同时电话铃响了,分离这些声音是一个巨大的挑战,然而有时我们需要这样的声音分离。
目前商业音、视频软件虽然对音、视频有多种处理支持,但是在对单声道声音的分离方面,几乎只能够支持简单的降噪和分割。已有技术中,文献[ISSE:An InteractiveSource Separation Editor,Nicholas J.Bryan,Gautham J.Mysore,Ge Wang]使用概率潜在成分分析方法,并令用户涂抹声音频谱图上的频谱归属于哪一个声音来分离声音,较好的提高了声音的分离效果。但是该方法需要用户具有较强的音频相关知识,并且该过程需要耗费大量时间。文献[AN INTERACTIVE AUDIO SOURCE SEPARATION FRAMEWORK BASEDONON-NEGATIVE MATRIX FACTORIZATION,Ngoc Q.K.Duong,Alexey Ozerov,LouisChevallier,and Jo¨el Sirot]基于非负矩阵分解的方法,将声音分离分为两步,第一步用户标记出所要分离的声音源发声与不发声的时间段,然后系统进行分离;第二步,根据第一步的结果,用户对声音频谱图进行标记,标记某一特定时间的频率对特定的声音源是活跃、非活跃还是良好分离了的,直到用户得到满意的分离效果。这种方法通过两次标记能够较好分离声音,并且一定程度上减轻了用户的工作量,但是,该方法的第二步还是需要用户具有一定的音频处理专业知识,限制了大众用户的使用。
发明内容
本发明的目的是为克服已有技术的不足之处,提出一种人机交互的声音分离的方法。本发明可将视频或音频中的声音分成不同的声音源,令普通用户能够轻松分离视频、音频中不同来源的声音。
本发明提出一种人机交互的声音分离的方法,其特征在于,包括以下步骤:
(1)初步分离声音,具体步骤如下:
(1-1)设待分离音频为x,对x进行短时傅里叶变换,得到该音频的短时傅里叶变换谱X;
(1-2)根据步骤(1-1)的X,令V=|X|2,得到X的能量矩阵,V为M×N的非负矩阵,N为短时傅里叶变换后的时间维度,M为短时傅里叶变换后的频率维度;
(1-3)设非负矩阵V≈WH,其中W为M×r的非负矩阵,H为r×N的非负矩阵;r为特征频谱的个数,r=d×k,d为用户指定要分离出的声音源个数,k为每种声音的特征频谱个数,令k=1,利用非负矩阵分解法,分别得到非负矩阵W和非负矩阵H;具体步骤如下:
(1-3-1)初始化非负矩阵W为一个M×r的随机矩阵,每个元素值取为0到1之间的随机数,初始化非负矩阵H为r×N的随机矩阵,每个元素值取为0到1之间的随机数;
(1-3-2)按照如下迭代规则分别对W、H进行更新:
其中,WT,HT分别为W,H的转置,⊙为哈达玛积;
(1-3-3)重复步骤(1-3-2),迭代1000次,迭代完毕后得到最终的非负矩阵W和非负矩阵H;其中,W的每一列分别为不同声音源的特征频谱H的每一行为对应声音源的激发矩阵;
(1-4)按照以下方式分别得到各个声音源音频:
(1-4-1)计算Vi=WiHi,其中i=1,2…d;Wi为第i个声音源对应的特征频谱,Hi为第i个声音源对应的激发矩阵,则Vi为第i个声音源的短时傅里叶变换能量谱;
(1-4-3)利用短时傅里叶变换逆变换,得到各个声音源音频xi;
(1-5)对每个声音源,将xi中数值小于0.01的部分记为不发声区间,其他区域记为发声区间,并将该声音源的区间分布图呈现用户,使得用户听音频并看到音频进度对应区间位置;若用户满意声音分离效果,则分离结束;
(2)若用户不满意分离效果,进行分离调整;具体步骤如下:
(2-1)用户对声音源的发声区间和不发声区间进行修改,调整每种声音的特征频谱个数k,k的取值范围在1到min(M,N);
(2-2)用户更新分离结果,具体步骤如下:
(2-2-1)定义一个与Hi大小相同的矩阵Hmask,Hmask中令标记后发声的区域对应数值为1,不发声的区域数值为0,同时在发声和不发声区域的交界处的若干列赋值为0.1且列的数量不超过连续同数值区域的横坐标长度的10%;将步骤(1)得到的Hi与Hmask相乘,得到更新后的Hi;
(2-2-2)将更新后的Hi按照原顺序组合成为新的H,将新得到的H和步骤(1)得到的W分别作为初始H和W,重复步骤(1-3-2)至(1-3-3),得到新的非负矩阵W和非负矩阵H;
(2-3)重复步骤(1-4)至(1-5),得到新的分离结果,分离结束。
(2-4)若用户不满意分离效果,则重新进行步骤(2)或进行步骤(3),直到得到满意的分离效果,分离结束;
(3)用户对步骤(2)得到的分离结果进行精细调整,删除声音源中还包含其他声音源的声音;具体步骤如下:
(3-1)用户选择需要精细分离的声音源;
(3-2)播放步骤(3-1)的声音源的音频,令用户选择其中包含其他声音源声音的时间段;
(3-3)系统给出两个声音选项,用户选择两个声音选项中包含其他声音源声音的选项;两个声音选项的获得步骤如下:
(3-3-1)将步骤(3-1)选择的声音源的Xi取出,复制并命名为B,设B纵坐标最小值为a,最大值为b,中间值为m;
(3-3-2)将B分成两个矩阵B1、B2,其中B1是将B矩阵的a到m部分全部设置为0,B2是将B矩阵的m到b部分全部设置为0;
(3-3-3)将B1和B2分别进行短时傅里叶变换逆变换,分别得到高频段声音和低频段声音,限制声音播放区间在选定时间段内,即为第一次声音选择时的两个声音选项;
(3-4)重复(3-3-2)和(3-3-3),直到用户听到声音中只包含其他声音源声音,删除此段声音;
(3-5)记录删除段对应的横坐标范围和纵坐标范围,整个区域简记为p;
(3-6)重复(3-1)至(3-5),直到没有其他声音源声音出现;
(3-7)系统对原音频x再次进行处理,定义d个大小为M×N的全0矩阵P1,P2…Pd,令对应声音源i的记录p中的区域在Pi的值为1;
(3-8)定义d个大小为M×N的全为t矩阵Λ1,Λ2…Λd;
(3-9)令HM1i等于Hi中所有元素向右移一位,并令第一列元素全为0;令HP1i等于Hi中所有元素向左移一位,并令最后一列元素全为0;令T1为Hi的横坐标大小;
(3-11)令CPi和CMi中横坐标不在p范围内的数值置为0;
(3-12)利用步骤(2)得到的W、H、Wi和Hi作为初始化W、H、Wi和Hi;
(3-13)按照如下迭代规则分别对Wi和Hi进行更新,得到更新后的非负矩阵Wi和Hi:
其中,Wi T,Hi T分别为Wi,Hi的转置;
(3-14)重复步骤(1-4)至(1-5),得到新的分离结果,分离结束。
本发明提出的一种人机交互的声音分离的方法,具有以下优点:
1、本发明以声音自动分离为基础,同时加入用户辅助,使自动分离的声音质量可以得到进一步的提升。
2、本发明采用的算法基于非负矩阵分解,同时结合频谱分块还原声音技术,令用户只需听声音即可进行精细分离;同时结合连续性约束和0约束,避免了听声音分离相比于看图象分离的劣势,即用户标记的精准度不够的问题。
3、本发明的方法可以使对结果质量要求不高或者声音本身较为简单的工程快速简单得到结果。
4、本发明令用户分离声音无需相应的音乐知识,降低了学习成本和使用门槛,适用于普通大众使用。可以应用于教育领域,用于从网络媒体中提取素材制作课件;也可以应用于机器人领域,结合机器人视觉,加强机器人声音辨别能力;或可以为机器学习提供更多样本和标准。
具体实施方式
本发明提出的一种人机交互的声音分离的方法,包括以下步骤:
(1)初步分离声音,具体过程如下:
(1-1)设待分离音频为x(x的长度无特殊要求),对x进行短时傅里叶变换,得到该音频的短时傅里叶变换谱X;
(1-2)根据步骤(1-1)的X,令V=|X|2,得到X的能量矩阵,V为M×N的非负矩阵,N为短时傅里叶变换后的时间维度,M为短时傅里叶变换后的频率维度;
(1-3)设非负矩阵V≈WH,其中W为M×r的非负矩阵,H为r×N的非负矩阵。r为特征频谱的个数,r=d×k,d为用户指定要分离出的声音源个数,k为每种声音的特征频谱个数,令k=1,利用非负矩阵分解法,分别得到非负矩阵W和非负矩阵H,具体步骤如下:
(1-3-1)初始化非负矩阵W为一个M×r的随机矩阵,每个元素值取为0到1之间的随机数,初始化非负矩阵H为r×N的随机矩阵,每个元素值取为0到1之间的随机数;
(1-3-2)按照如下迭代规则分别对W、H进行更新:
其中,WT,HT分别为W,H的转置,⊙为哈达玛积,并且式中除法也是按矩阵元素对应运算的;
(1-3-3)重复步骤(1-3-2),迭代1000次,迭代完毕后得到最终的非负矩阵W和非负矩阵H;其中,W中的每一列分别为不同声音源的特征频谱,H的每一行为对应声音源的激发矩阵;
(1-4)按照以下方式分别得到各个声音源音频:
(1-4-1)计算Vi=WiHi,其中i=1,2…d。Wi为第i个声音源对应的特征频谱,即步骤(1-3-3)更新后的W矩阵的第i×k-k+1到第i×k列。Hi为第i个声音源对应的激发矩阵,即步骤(1-3-3)更新后的H矩阵的第i×k-k+1到第i×k行。则Vi为第i个声音源的短时傅里叶变换能量谱;
(1-4-3)利用短时傅里叶变换逆变换,得到各个声音源音频xi;
(1-5)对每个声音源,将xi中数值小于0.01的部分记为不发声区间,其他区域记为发声区间,并将该区间分布图呈现用户,使得用户听音频并看到音频进度对应区间位置;若用户满意声音分离效果,则分离结束;
(2)若用户不满意分离效果,进行分离调整;具体步骤如下:
(2-1)用户对声音源的发声区间和不发声区间进行修改,调整每种声音的特征频谱个数k,k的取值范围在1到min(M,N),使其更加符合用户要求;
(2-2)用户更新分离结果,具体步骤如下:
(2-2-1)定义一个与Hi大小相同的矩阵Hmask,Hmask中令标记后发声的区域对应数值为1,不发声的区域数值为0,同时在发声和不发声区域的交界处的若干列赋值为0.1且列的数量不超过连续同数值区域的横坐标长度的10%。将步骤(1)得到的Hi与Hmask相乘,得到更新后的Hi;
(2-2-2)将更新后的Hi按照原顺序组合成为新的H,将新得到的H和步骤(1)得到的W分别作为初始H和W,重复步骤(1-3-2)至(1-3-3),得到新的非负矩阵W和非负矩阵H;
(2-3)重复步骤(1-4)至(1-5),得到新的分离结果,分离结束;
(2-4)若用户不满意分离效果,则重新进行步骤(2)或进行步骤(3),直到得到满意的分离效果,分离结束;
(3)若进行步骤(1)和(2)后,用户想要得到的声音源中还包含其他声音源声音,可以对步骤(2)得到的分离结果进行精细调整,删除声音源中还包含其他声音源的声音。具体步骤如下:
(3-1)用户选择需要精细分离的声音源;
(3-2)播放步骤(3-1)的声音源的音频,令用户选择其中包含其他声音源声音的时间段;
(3-3)系统给出两个声音选项,供用户选择,用户选择两个声音选项中包含其他声音源声音的选项。两个声音选项的获得步骤如下:
(3-3-1)将步骤(3-1)选择的声音源的Xi取出,复制并命名为B,设B纵坐标最小值为a,最大值为b,中间值为m;
(3-3-2)将B分成两个矩阵B1、B2,其中B1是将B矩阵的a到m部分全部设置为0,B2是将B矩阵的m到b部分全部设置为0;
(3-3-3)将B1和B2分别进行短时傅里叶变换逆变换,可以分别得到高频段声音和低频段声音,限制声音播放区间在选定时间段内,即为第一次声音选择时的两个声音选项;
(3-4)重复(3-3-2)和(3-3-3),直到用户听到声音中只包含其他声音源声音,选择删除此段;
(3-5)将删除段对应的横坐标范围(时间区间)和纵坐标范围(若选择B1则是m到b,若是选择B2则是a到m)记录下来,整个区域简记为p;
(3-6)重复(3-1)至(3-5),直到没有其他声音源声音出现。
(3-7)系统对原音频x再次进行处理,定义d个大小为M×N的全0矩阵P1,P2…Pd,令对应声音源i的记录p中的区域在Pi的值为1;
(3-8)定义d个大小为M×N的全为t矩阵Λ1,Λ2…Λd,t的取值建议在1-10之间;
(3-9)令HM1i等于Hi中所有元素向右移一位,并令第一列元素全为0。令HP1i等于Hi中所有元素向左移一位,并令最后一列元素全为0;令T1为Hi的横坐标大小。
(3-11)令CPi和CMi中横坐标不在p范围内的数值置为0;
(3-12)利用步骤(2)得到的W、H、Wi和Hi作为初始化W、H、Wi和Hi;
(3-13)按照如下迭代规则分别对Wi和Hi进行更新,得到更新后的非负矩阵Wi和Hi:
其中,Wi T,Hi T分别为Wi,Hi的转置,⊙为哈达玛积,并且式中除法也是按矩阵元素对应运算的;
(3-14)重复步骤(1-4)和(1-5),得到新的分离结果,分离结束。
Claims (3)
1.一种人机交互的声音分离的方法,其特征在于,包括以下步骤:
(1)初步分离声音,具体步骤如下:
(1-1)设待分离音频为x,对x进行短时傅里叶变换,得到该音频的短时傅里叶变换谱X;
(1-2)根据步骤(1-1)的X,令V=|X|2,得到X的能量矩阵,V为M×N的非负矩阵,N为短时傅里叶变换后的时间维度,M为短时傅里叶变换后的频率维度;
(1-3)设非负矩阵V≈WH,其中W为M×r的非负矩阵,H为r×N的非负矩阵;r为特征频谱的个数,r=d×k,d为用户指定要分离出的声音源个数,k为每种声音的特征频谱个数,令k=1,利用非负矩阵分解法,分别得到非负矩阵W和非负矩阵H;具体步骤如下:
(1-3-1)初始化非负矩阵W为一个M×r的随机矩阵,每个元素值取为0到1之间的随机数,初始化非负矩阵H为r×N的随机矩阵,每个元素值取为0到1之间的随机数;
(1-3-2)按照如下迭代规则分别对W、H进行更新:
其中,WT,HT分别为W,H的转置,⊙为哈达玛积;
(1-3-3)重复步骤(1-3-2),迭代1000次,迭代完毕后得到最终的非负矩阵W和非负矩阵H;其中,W的每一列分别为不同声音源的特征频谱H的每一行为对应声音源的激发矩阵;
(1-4)按照以下方式分别得到各个声音源音频:
(1-4-1)计算Vi=WiHi,其中i=1,2…d;Wi为第i个声音源对应的特征频谱,Hi为第i个声音源对应的激发矩阵,则Vi为第i个声音源的短时傅里叶变换能量谱;
(1-4-3)利用短时傅里叶变换逆变换,得到各个声音源音频xi;
(1-5)对每个声音源,将xi中数值小于0.01的部分记为不发声区间,其他区域记为发声区间,并将该声音源的区间分布图呈现用户,使得用户听音频并看到音频进度对应区间位置;若用户满意声音分离效果,则分离结束;
(2)若用户不满意分离效果,进行分离调整;具体步骤如下:
(2-1)用户对声音源的发声区间和不发声区间进行修改,调整每种声音的特征频谱个数k,k的取值范围在1到min(M,N);
(2-2)用户更新分离结果,具体步骤如下:
(2-2-1)定义一个与Hi大小相同的矩阵Hmask,Hmask中令标记后发声的区域对应数值为1,不发声的区域数值为0,同时在发声和不发声区域的交界处的若干列赋值为0.1且列的数量不超过连续同数值区域的横坐标长度的10%;将步骤(1)得到的Hi与Hmask相乘,得到更新后的Hi;
(2-2-2)将更新后的Hi按照原顺序组合成为新的H,将新得到的H和步骤(1)得到的W分别作为初始H和W,重复步骤(1-3-2)至(1-3-3),得到新的非负矩阵W和非负矩阵H;
(2-3)重复步骤(1-4)至(1-5),得到新的分离结果,分离结束。
2.如权利要求1所述的方法,其特征在于,该方法还包括以下步骤:
(2-4)若用户不满意分离效果,则重新进行步骤(2),直到得到满意的分离效果,分离结束。
3.如权利要求1所述的方法,其特征在于,该方法还包括以下步骤:
(2-4)若用户不满意分离效果,则进入步骤(3),直到得到满意的分离效果,分离结束;
(3)用户对步骤(2)得到的分离结果进行精细调整,删除声音源中还包含其他声音源的声音;具体步骤如下:
(3-1)用户选择需要精细分离的声音源;
(3-2)播放步骤(3-1)的声音源的音频,令用户选择其中包含其他声音源声音的时间段;
(3-3)系统给出两个声音选项,用户选择两个声音选项中包含其他声音源声音的选项;两个声音选项的获得步骤如下:
(3-3-1)将步骤(3-1)选择的声音源的Xi取出,复制并命名为B,设B纵坐标最小值为a,最大值为b,中间值为m;
(3-3-2)将B分成两个矩阵B1、B2,其中B1是将B矩阵的a到m部分全部设置为0,B2是将B矩阵的m到b部分全部设置为0;
(3-3-3)将B1和B2分别进行短时傅里叶变换逆变换,分别得到高频段声音和低频段声音,限制声音播放区间在选定时间段内,即为第一次声音选择时的两个声音选项;
(3-4)重复(3-3-2)和(3-3-3),直到用户听到声音中只包含其他声音源声音,删除此段声音;
(3-5)记录删除段对应的横坐标范围和纵坐标范围,整个区域简记为p;
(3-6)重复(3-1)至(3-5),直到没有其他声音源声音出现;
(3-7)系统对原音频x再次进行处理,定义d个大小为M×N的全0矩阵P1,P2…Pd,令对应声音源i的记录p中的区域在Pi的值为1;
(3-8)定义d个大小为M×N的全为t矩阵Λ1,Λ2…Λd;
(3-9)令HM1i等于Hi中所有元素向右移一位,并令第一列元素全为0;令HP1i等于Hi中所有元素向左移一位,并令最后一列元素全为0;令T1为Hi的横坐标大小;
(3-11)令CPi和CMi中横坐标不在p范围内的数值置为0;
(3-12)利用步骤(2)得到的W、H、Wi和Hi作为初始化W、H、Wi和Hi;
(3-13)按照如下迭代规则分别对Wi和Hi进行更新,得到更新后的非负矩阵Wi和Hi:
其中,Wi T,Hi T分别为Wi,Hi的转置;
(3-14)重复步骤(1-4)至(1-5),得到新的分离结果,分离结束。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811375640.5A CN109545240B (zh) | 2018-11-19 | 2018-11-19 | 一种人机交互的声音分离的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811375640.5A CN109545240B (zh) | 2018-11-19 | 2018-11-19 | 一种人机交互的声音分离的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109545240A CN109545240A (zh) | 2019-03-29 |
CN109545240B true CN109545240B (zh) | 2022-12-09 |
Family
ID=65848227
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811375640.5A Active CN109545240B (zh) | 2018-11-19 | 2018-11-19 | 一种人机交互的声音分离的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109545240B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110324702B (zh) * | 2019-07-04 | 2022-06-07 | 三星电子(中国)研发中心 | 视频播放过程中的信息推送方法和装置 |
CN110970056B (zh) * | 2019-11-18 | 2022-03-11 | 清华大学 | 一种从视频中分离音源的方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103871423A (zh) * | 2012-12-13 | 2014-06-18 | 上海八方视界网络科技有限公司 | 一种基于nmf非负矩阵分解的音频分离方法 |
WO2014195132A1 (en) * | 2013-06-05 | 2014-12-11 | Thomson Licensing | Method of audio source separation and corresponding apparatus |
CN105045122A (zh) * | 2015-06-24 | 2015-11-11 | 张子兴 | 一种基于音频和视频的智能家居自然交互系统 |
CN105489227A (zh) * | 2014-10-06 | 2016-04-13 | 奥迪康有限公司 | 包括低延时声源分离单元的听力装置 |
CN108431891A (zh) * | 2015-12-01 | 2018-08-21 | 汤姆逊许可公司 | 基于通知源分离的音频对象编码的方法和装置 |
CN108574911A (zh) * | 2017-03-09 | 2018-09-25 | 中国科学院声学研究所 | 一种无监督单传声器语音降噪方法及系统 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120316886A1 (en) * | 2011-06-08 | 2012-12-13 | Ramin Pishehvar | Sparse coding using object exttraction |
JP5942420B2 (ja) * | 2011-07-07 | 2016-06-29 | ヤマハ株式会社 | 音響処理装置および音響処理方法 |
US9679559B2 (en) * | 2014-05-29 | 2017-06-13 | Mitsubishi Electric Research Laboratories, Inc. | Source signal separation by discriminatively-trained non-negative matrix factorization |
-
2018
- 2018-11-19 CN CN201811375640.5A patent/CN109545240B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103871423A (zh) * | 2012-12-13 | 2014-06-18 | 上海八方视界网络科技有限公司 | 一种基于nmf非负矩阵分解的音频分离方法 |
WO2014195132A1 (en) * | 2013-06-05 | 2014-12-11 | Thomson Licensing | Method of audio source separation and corresponding apparatus |
CN105489227A (zh) * | 2014-10-06 | 2016-04-13 | 奥迪康有限公司 | 包括低延时声源分离单元的听力装置 |
CN105045122A (zh) * | 2015-06-24 | 2015-11-11 | 张子兴 | 一种基于音频和视频的智能家居自然交互系统 |
CN108431891A (zh) * | 2015-12-01 | 2018-08-21 | 汤姆逊许可公司 | 基于通知源分离的音频对象编码的方法和装置 |
CN108574911A (zh) * | 2017-03-09 | 2018-09-25 | 中国科学院声学研究所 | 一种无监督单传声器语音降噪方法及系统 |
Non-Patent Citations (2)
Title |
---|
An interactive audio source separation framework based on non-negative matrix factorization;Ngoc Q. K. Duong et al;《2014 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)》;20140714;全文 * |
基于时频稀疏约束的多通道声源分离算法;黄镒东等;《信息技术》;20170125(第01期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN109545240A (zh) | 2019-03-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Pons et al. | Remixing music using source separation algorithms to improve the musical experience of cochlear implant users | |
Smaragdis et al. | Separation by “humming”: User-guided sound extraction from monophonic mixtures | |
CN109545240B (zh) | 一种人机交互的声音分离的方法 | |
US9734842B2 (en) | Method for audio source separation and corresponding apparatus | |
Kim et al. | Mixtures of local dictionaries for unsupervised speech enhancement | |
Francombe et al. | Evaluation of spatial audio reproduction methods (Part 1): Elicitation of perceptual differences | |
He et al. | Linear estimation based primary-ambient extraction for stereo audio signals | |
Cartwright et al. | Mixploration: Rethinking the audio mixer interface | |
CA2983359C (en) | An audio signal processing apparatus and method | |
CN110111808A (zh) | 音频信号处理方法及相关产品 | |
EP2437517B1 (en) | Sound scene manipulation | |
Duong et al. | An interactive audio source separation framework based on non-negative matrix factorization | |
Raj et al. | Separating a foreground singer from background music | |
Parekh et al. | Guiding audio source separation by video object information | |
CN105898667A (zh) | 从音频内容基于投影提取音频对象 | |
Uhle et al. | Ambience separation from mono recordings using non-negative matrix factorization | |
Lai et al. | Adaptive Wiener gain to improve sound quality on nonnegative matrix factorization-based noise reduction system | |
CN116013274A (zh) | 语音识别的方法、装置、计算机设备和存储介质 | |
Zieliński et al. | Feature extraction of binaural recordings for acoustic scene classification | |
Woodcock et al. | Elicitation of expert knowledge to inform object-based audio rendering to different systems | |
US10728690B1 (en) | Head related transfer function selection for binaural sound reproduction | |
Ozamoto et al. | Noise-Tolerant Time-Domain Speech Separation with Noise Bases | |
Fukumoto et al. | Optimization of sound of autonomous sensory meridian response with interactive genetic algorithm | |
WO2019233359A1 (zh) | 对音乐进行通透处理的方法及设备 | |
CN113286252B (zh) | 一种声场重建方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |