CN109545240B - 一种人机交互的声音分离的方法 - Google Patents

一种人机交互的声音分离的方法 Download PDF

Info

Publication number
CN109545240B
CN109545240B CN201811375640.5A CN201811375640A CN109545240B CN 109545240 B CN109545240 B CN 109545240B CN 201811375640 A CN201811375640 A CN 201811375640A CN 109545240 B CN109545240 B CN 109545240B
Authority
CN
China
Prior art keywords
sound
user
sound source
separation
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811375640.5A
Other languages
English (en)
Other versions
CN109545240A (zh
Inventor
刘华平
周峻峰
孙富春
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201811375640.5A priority Critical patent/CN109545240B/zh
Publication of CN109545240A publication Critical patent/CN109545240A/zh
Application granted granted Critical
Publication of CN109545240B publication Critical patent/CN109545240B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明涉及一种人机交互的声音分离的方法,属于音频处理技术领域。该方法首先对待分离的音频进行初步分离,得到每个声音源的音频并划分为不发声区间和发声区间,将该声音源的区间分布图呈现用户,使得用户听音频并看到音频进度对应区间位置;若用户满意声音分离效果,则分离结束;若用户不满意分离结果,则用户可对发声区间和不发声区间进行修改,直至得到满意的分离结果;用户还可以对分离结果进行精细调整,删除声音源中包含其他声音源的声音。本发令用户分离声音无需相应的音乐知识,使得普通用户能够轻松分离视频或音频中不同来源的声音。

Description

一种人机交互的声音分离的方法
技术领域
本发明涉及一种人机交互的声音分离的方法,属于音频处理技术领域。
背景技术
随着网络的发展,越来越多的视频、音频进入大众的生活,同时,对视频、音频的处理的需求也日益增加,越来越多的音、视频被进行处理后进一步用于人们的生活、工作和学习等。
在一段视频或音频中,经常会出现多种声音。有时这些声音会互相重叠,比如人说话的同时电话铃响了,分离这些声音是一个巨大的挑战,然而有时我们需要这样的声音分离。
目前商业音、视频软件虽然对音、视频有多种处理支持,但是在对单声道声音的分离方面,几乎只能够支持简单的降噪和分割。已有技术中,文献[ISSE:An InteractiveSource Separation Editor,Nicholas J.Bryan,Gautham J.Mysore,Ge Wang]使用概率潜在成分分析方法,并令用户涂抹声音频谱图上的频谱归属于哪一个声音来分离声音,较好的提高了声音的分离效果。但是该方法需要用户具有较强的音频相关知识,并且该过程需要耗费大量时间。文献[AN INTERACTIVE AUDIO SOURCE SEPARATION FRAMEWORK BASEDONON-NEGATIVE MATRIX FACTORIZATION,Ngoc Q.K.Duong,Alexey Ozerov,LouisChevallier,and Jo¨el Sirot]基于非负矩阵分解的方法,将声音分离分为两步,第一步用户标记出所要分离的声音源发声与不发声的时间段,然后系统进行分离;第二步,根据第一步的结果,用户对声音频谱图进行标记,标记某一特定时间的频率对特定的声音源是活跃、非活跃还是良好分离了的,直到用户得到满意的分离效果。这种方法通过两次标记能够较好分离声音,并且一定程度上减轻了用户的工作量,但是,该方法的第二步还是需要用户具有一定的音频处理专业知识,限制了大众用户的使用。
发明内容
本发明的目的是为克服已有技术的不足之处,提出一种人机交互的声音分离的方法。本发明可将视频或音频中的声音分成不同的声音源,令普通用户能够轻松分离视频、音频中不同来源的声音。
本发明提出一种人机交互的声音分离的方法,其特征在于,包括以下步骤:
(1)初步分离声音,具体步骤如下:
(1-1)设待分离音频为x,对x进行短时傅里叶变换,得到该音频的短时傅里叶变换谱X;
(1-2)根据步骤(1-1)的X,令V=|X|2,得到X的能量矩阵,V为M×N的非负矩阵,N为短时傅里叶变换后的时间维度,M为短时傅里叶变换后的频率维度;
(1-3)设非负矩阵V≈WH,其中W为M×r的非负矩阵,H为r×N的非负矩阵;r为特征频谱的个数,r=d×k,d为用户指定要分离出的声音源个数,k为每种声音的特征频谱个数,令k=1,利用非负矩阵分解法,分别得到非负矩阵W和非负矩阵H;具体步骤如下:
(1-3-1)初始化非负矩阵W为一个M×r的随机矩阵,每个元素值取为0到1之间的随机数,初始化非负矩阵H为r×N的随机矩阵,每个元素值取为0到1之间的随机数;
(1-3-2)按照如下迭代规则分别对W、H进行更新:
Figure GDA0003845378220000021
Figure GDA0003845378220000022
其中,WT,HT分别为W,H的转置,⊙为哈达玛积;
(1-3-3)重复步骤(1-3-2),迭代1000次,迭代完毕后得到最终的非负矩阵W和非负矩阵H;其中,W的每一列分别为不同声音源的特征频谱H的每一行为对应声音源的激发矩阵;
(1-4)按照以下方式分别得到各个声音源音频:
(1-4-1)计算Vi=WiHi,其中i=1,2…d;Wi为第i个声音源对应的特征频谱,Hi为第i个声音源对应的激发矩阵,则Vi为第i个声音源的短时傅里叶变换能量谱;
(1-4-2)令
Figure GDA0003845378220000023
得到每个声音源的短时傅里叶变换谱Xi
(1-4-3)利用短时傅里叶变换逆变换,得到各个声音源音频xi
(1-5)对每个声音源,将xi中数值小于0.01的部分记为不发声区间,其他区域记为发声区间,并将该声音源的区间分布图呈现用户,使得用户听音频并看到音频进度对应区间位置;若用户满意声音分离效果,则分离结束;
(2)若用户不满意分离效果,进行分离调整;具体步骤如下:
(2-1)用户对声音源的发声区间和不发声区间进行修改,调整每种声音的特征频谱个数k,k的取值范围在1到min(M,N);
(2-2)用户更新分离结果,具体步骤如下:
(2-2-1)定义一个与Hi大小相同的矩阵Hmask,Hmask中令标记后发声的区域对应数值为1,不发声的区域数值为0,同时在发声和不发声区域的交界处的若干列赋值为0.1且列的数量不超过连续同数值区域的横坐标长度的10%;将步骤(1)得到的Hi与Hmask相乘,得到更新后的Hi
(2-2-2)将更新后的Hi按照原顺序组合成为新的H,将新得到的H和步骤(1)得到的W分别作为初始H和W,重复步骤(1-3-2)至(1-3-3),得到新的非负矩阵W和非负矩阵H;
(2-3)重复步骤(1-4)至(1-5),得到新的分离结果,分离结束。
(2-4)若用户不满意分离效果,则重新进行步骤(2)或进行步骤(3),直到得到满意的分离效果,分离结束;
(3)用户对步骤(2)得到的分离结果进行精细调整,删除声音源中还包含其他声音源的声音;具体步骤如下:
(3-1)用户选择需要精细分离的声音源;
(3-2)播放步骤(3-1)的声音源的音频,令用户选择其中包含其他声音源声音的时间段;
(3-3)系统给出两个声音选项,用户选择两个声音选项中包含其他声音源声音的选项;两个声音选项的获得步骤如下:
(3-3-1)将步骤(3-1)选择的声音源的Xi取出,复制并命名为B,设B纵坐标最小值为a,最大值为b,中间值为m;
(3-3-2)将B分成两个矩阵B1、B2,其中B1是将B矩阵的a到m部分全部设置为0,B2是将B矩阵的m到b部分全部设置为0;
(3-3-3)将B1和B2分别进行短时傅里叶变换逆变换,分别得到高频段声音和低频段声音,限制声音播放区间在选定时间段内,即为第一次声音选择时的两个声音选项;
(3-3-4)当用户选择包含其他声音源声音的选项后,令被选择的矩阵为新的B;若选择的是B1对应的声音,则更新a=m,
Figure GDA0003845378220000031
若选择的是B2对应的声音,则更新b=m,
Figure GDA0003845378220000032
(3-4)重复(3-3-2)和(3-3-3),直到用户听到声音中只包含其他声音源声音,删除此段声音;
(3-5)记录删除段对应的横坐标范围和纵坐标范围,整个区域简记为p;
(3-6)重复(3-1)至(3-5),直到没有其他声音源声音出现;
(3-7)系统对原音频x再次进行处理,定义d个大小为M×N的全0矩阵P1,P2…Pd,令对应声音源i的记录p中的区域在Pi的值为1;
(3-8)定义d个大小为M×N的全为t矩阵Λ12…Λd
(3-9)令HM1i等于Hi中所有元素向右移一位,并令第一列元素全为0;令HP1i等于Hi中所有元素向左移一位,并令最后一列元素全为0;令T1为Hi的横坐标大小;
(3-10)计算
Figure GDA0003845378220000041
(3-11)令CPi和CMi中横坐标不在p范围内的数值置为0;
(3-12)利用步骤(2)得到的W、H、Wi和Hi作为初始化W、H、Wi和Hi
(3-13)按照如下迭代规则分别对Wi和Hi进行更新,得到更新后的非负矩阵Wi和Hi
Figure GDA0003845378220000042
Figure GDA0003845378220000043
其中,Wi T,Hi T分别为Wi,Hi的转置;
(3-14)重复步骤(1-4)至(1-5),得到新的分离结果,分离结束。
本发明提出的一种人机交互的声音分离的方法,具有以下优点:
1、本发明以声音自动分离为基础,同时加入用户辅助,使自动分离的声音质量可以得到进一步的提升。
2、本发明采用的算法基于非负矩阵分解,同时结合频谱分块还原声音技术,令用户只需听声音即可进行精细分离;同时结合连续性约束和0约束,避免了听声音分离相比于看图象分离的劣势,即用户标记的精准度不够的问题。
3、本发明的方法可以使对结果质量要求不高或者声音本身较为简单的工程快速简单得到结果。
4、本发明令用户分离声音无需相应的音乐知识,降低了学习成本和使用门槛,适用于普通大众使用。可以应用于教育领域,用于从网络媒体中提取素材制作课件;也可以应用于机器人领域,结合机器人视觉,加强机器人声音辨别能力;或可以为机器学习提供更多样本和标准。
具体实施方式
本发明提出的一种人机交互的声音分离的方法,包括以下步骤:
(1)初步分离声音,具体过程如下:
(1-1)设待分离音频为x(x的长度无特殊要求),对x进行短时傅里叶变换,得到该音频的短时傅里叶变换谱X;
(1-2)根据步骤(1-1)的X,令V=|X|2,得到X的能量矩阵,V为M×N的非负矩阵,N为短时傅里叶变换后的时间维度,M为短时傅里叶变换后的频率维度;
(1-3)设非负矩阵V≈WH,其中W为M×r的非负矩阵,H为r×N的非负矩阵。r为特征频谱的个数,r=d×k,d为用户指定要分离出的声音源个数,k为每种声音的特征频谱个数,令k=1,利用非负矩阵分解法,分别得到非负矩阵W和非负矩阵H,具体步骤如下:
(1-3-1)初始化非负矩阵W为一个M×r的随机矩阵,每个元素值取为0到1之间的随机数,初始化非负矩阵H为r×N的随机矩阵,每个元素值取为0到1之间的随机数;
(1-3-2)按照如下迭代规则分别对W、H进行更新:
Figure GDA0003845378220000051
Figure GDA0003845378220000052
其中,WT,HT分别为W,H的转置,⊙为哈达玛积,并且式中除法也是按矩阵元素对应运算的;
(1-3-3)重复步骤(1-3-2),迭代1000次,迭代完毕后得到最终的非负矩阵W和非负矩阵H;其中,W中的每一列分别为不同声音源的特征频谱,H的每一行为对应声音源的激发矩阵;
(1-4)按照以下方式分别得到各个声音源音频:
(1-4-1)计算Vi=WiHi,其中i=1,2…d。Wi为第i个声音源对应的特征频谱,即步骤(1-3-3)更新后的W矩阵的第i×k-k+1到第i×k列。Hi为第i个声音源对应的激发矩阵,即步骤(1-3-3)更新后的H矩阵的第i×k-k+1到第i×k行。则Vi为第i个声音源的短时傅里叶变换能量谱;
(1-4-2)令
Figure GDA0003845378220000053
得到每个声音源的短时傅里叶变换谱Xi
(1-4-3)利用短时傅里叶变换逆变换,得到各个声音源音频xi
(1-5)对每个声音源,将xi中数值小于0.01的部分记为不发声区间,其他区域记为发声区间,并将该区间分布图呈现用户,使得用户听音频并看到音频进度对应区间位置;若用户满意声音分离效果,则分离结束;
(2)若用户不满意分离效果,进行分离调整;具体步骤如下:
(2-1)用户对声音源的发声区间和不发声区间进行修改,调整每种声音的特征频谱个数k,k的取值范围在1到min(M,N),使其更加符合用户要求;
(2-2)用户更新分离结果,具体步骤如下:
(2-2-1)定义一个与Hi大小相同的矩阵Hmask,Hmask中令标记后发声的区域对应数值为1,不发声的区域数值为0,同时在发声和不发声区域的交界处的若干列赋值为0.1且列的数量不超过连续同数值区域的横坐标长度的10%。将步骤(1)得到的Hi与Hmask相乘,得到更新后的Hi
(2-2-2)将更新后的Hi按照原顺序组合成为新的H,将新得到的H和步骤(1)得到的W分别作为初始H和W,重复步骤(1-3-2)至(1-3-3),得到新的非负矩阵W和非负矩阵H;
(2-3)重复步骤(1-4)至(1-5),得到新的分离结果,分离结束;
(2-4)若用户不满意分离效果,则重新进行步骤(2)或进行步骤(3),直到得到满意的分离效果,分离结束;
(3)若进行步骤(1)和(2)后,用户想要得到的声音源中还包含其他声音源声音,可以对步骤(2)得到的分离结果进行精细调整,删除声音源中还包含其他声音源的声音。具体步骤如下:
(3-1)用户选择需要精细分离的声音源;
(3-2)播放步骤(3-1)的声音源的音频,令用户选择其中包含其他声音源声音的时间段;
(3-3)系统给出两个声音选项,供用户选择,用户选择两个声音选项中包含其他声音源声音的选项。两个声音选项的获得步骤如下:
(3-3-1)将步骤(3-1)选择的声音源的Xi取出,复制并命名为B,设B纵坐标最小值为a,最大值为b,中间值为m;
(3-3-2)将B分成两个矩阵B1、B2,其中B1是将B矩阵的a到m部分全部设置为0,B2是将B矩阵的m到b部分全部设置为0;
(3-3-3)将B1和B2分别进行短时傅里叶变换逆变换,可以分别得到高频段声音和低频段声音,限制声音播放区间在选定时间段内,即为第一次声音选择时的两个声音选项;
(3-3-4)当用户选择包含其他声音源声音的选项后,令被选择的矩阵为新的B。若选择的是B1对应的声音,则更新a=m,
Figure GDA0003845378220000071
若选择的是B2对应的声音,则更新b=m,
Figure GDA0003845378220000072
(3-4)重复(3-3-2)和(3-3-3),直到用户听到声音中只包含其他声音源声音,选择删除此段;
(3-5)将删除段对应的横坐标范围(时间区间)和纵坐标范围(若选择B1则是m到b,若是选择B2则是a到m)记录下来,整个区域简记为p;
(3-6)重复(3-1)至(3-5),直到没有其他声音源声音出现。
(3-7)系统对原音频x再次进行处理,定义d个大小为M×N的全0矩阵P1,P2…Pd,令对应声音源i的记录p中的区域在Pi的值为1;
(3-8)定义d个大小为M×N的全为t矩阵Λ12…Λd,t的取值建议在1-10之间;
(3-9)令HM1i等于Hi中所有元素向右移一位,并令第一列元素全为0。令HP1i等于Hi中所有元素向左移一位,并令最后一列元素全为0;令T1为Hi的横坐标大小。
(3-10)计算
Figure GDA0003845378220000073
(3-11)令CPi和CMi中横坐标不在p范围内的数值置为0;
(3-12)利用步骤(2)得到的W、H、Wi和Hi作为初始化W、H、Wi和Hi
(3-13)按照如下迭代规则分别对Wi和Hi进行更新,得到更新后的非负矩阵Wi和Hi
Figure GDA0003845378220000074
Figure GDA0003845378220000075
其中,Wi T,Hi T分别为Wi,Hi的转置,⊙为哈达玛积,并且式中除法也是按矩阵元素对应运算的;
(3-14)重复步骤(1-4)和(1-5),得到新的分离结果,分离结束。

Claims (3)

1.一种人机交互的声音分离的方法,其特征在于,包括以下步骤:
(1)初步分离声音,具体步骤如下:
(1-1)设待分离音频为x,对x进行短时傅里叶变换,得到该音频的短时傅里叶变换谱X;
(1-2)根据步骤(1-1)的X,令V=|X|2,得到X的能量矩阵,V为M×N的非负矩阵,N为短时傅里叶变换后的时间维度,M为短时傅里叶变换后的频率维度;
(1-3)设非负矩阵V≈WH,其中W为M×r的非负矩阵,H为r×N的非负矩阵;r为特征频谱的个数,r=d×k,d为用户指定要分离出的声音源个数,k为每种声音的特征频谱个数,令k=1,利用非负矩阵分解法,分别得到非负矩阵W和非负矩阵H;具体步骤如下:
(1-3-1)初始化非负矩阵W为一个M×r的随机矩阵,每个元素值取为0到1之间的随机数,初始化非负矩阵H为r×N的随机矩阵,每个元素值取为0到1之间的随机数;
(1-3-2)按照如下迭代规则分别对W、H进行更新:
Figure FDA0003845378210000011
Figure FDA0003845378210000012
其中,WT,HT分别为W,H的转置,⊙为哈达玛积;
(1-3-3)重复步骤(1-3-2),迭代1000次,迭代完毕后得到最终的非负矩阵W和非负矩阵H;其中,W的每一列分别为不同声音源的特征频谱H的每一行为对应声音源的激发矩阵;
(1-4)按照以下方式分别得到各个声音源音频:
(1-4-1)计算Vi=WiHi,其中i=1,2…d;Wi为第i个声音源对应的特征频谱,Hi为第i个声音源对应的激发矩阵,则Vi为第i个声音源的短时傅里叶变换能量谱;
(1-4-2)令
Figure FDA0003845378210000013
得到每个声音源的短时傅里叶变换谱Xi
(1-4-3)利用短时傅里叶变换逆变换,得到各个声音源音频xi
(1-5)对每个声音源,将xi中数值小于0.01的部分记为不发声区间,其他区域记为发声区间,并将该声音源的区间分布图呈现用户,使得用户听音频并看到音频进度对应区间位置;若用户满意声音分离效果,则分离结束;
(2)若用户不满意分离效果,进行分离调整;具体步骤如下:
(2-1)用户对声音源的发声区间和不发声区间进行修改,调整每种声音的特征频谱个数k,k的取值范围在1到min(M,N);
(2-2)用户更新分离结果,具体步骤如下:
(2-2-1)定义一个与Hi大小相同的矩阵Hmask,Hmask中令标记后发声的区域对应数值为1,不发声的区域数值为0,同时在发声和不发声区域的交界处的若干列赋值为0.1且列的数量不超过连续同数值区域的横坐标长度的10%;将步骤(1)得到的Hi与Hmask相乘,得到更新后的Hi
(2-2-2)将更新后的Hi按照原顺序组合成为新的H,将新得到的H和步骤(1)得到的W分别作为初始H和W,重复步骤(1-3-2)至(1-3-3),得到新的非负矩阵W和非负矩阵H;
(2-3)重复步骤(1-4)至(1-5),得到新的分离结果,分离结束。
2.如权利要求1所述的方法,其特征在于,该方法还包括以下步骤:
(2-4)若用户不满意分离效果,则重新进行步骤(2),直到得到满意的分离效果,分离结束。
3.如权利要求1所述的方法,其特征在于,该方法还包括以下步骤:
(2-4)若用户不满意分离效果,则进入步骤(3),直到得到满意的分离效果,分离结束;
(3)用户对步骤(2)得到的分离结果进行精细调整,删除声音源中还包含其他声音源的声音;具体步骤如下:
(3-1)用户选择需要精细分离的声音源;
(3-2)播放步骤(3-1)的声音源的音频,令用户选择其中包含其他声音源声音的时间段;
(3-3)系统给出两个声音选项,用户选择两个声音选项中包含其他声音源声音的选项;两个声音选项的获得步骤如下:
(3-3-1)将步骤(3-1)选择的声音源的Xi取出,复制并命名为B,设B纵坐标最小值为a,最大值为b,中间值为m;
(3-3-2)将B分成两个矩阵B1、B2,其中B1是将B矩阵的a到m部分全部设置为0,B2是将B矩阵的m到b部分全部设置为0;
(3-3-3)将B1和B2分别进行短时傅里叶变换逆变换,分别得到高频段声音和低频段声音,限制声音播放区间在选定时间段内,即为第一次声音选择时的两个声音选项;
(3-3-4)当用户选择包含其他声音源声音的选项后,令被选择的矩阵为新的B;若选择的是B1对应的声音,则更新a=m,
Figure FDA0003845378210000031
若选择的是B2对应的声音,则更新b=m,
Figure FDA0003845378210000032
(3-4)重复(3-3-2)和(3-3-3),直到用户听到声音中只包含其他声音源声音,删除此段声音;
(3-5)记录删除段对应的横坐标范围和纵坐标范围,整个区域简记为p;
(3-6)重复(3-1)至(3-5),直到没有其他声音源声音出现;
(3-7)系统对原音频x再次进行处理,定义d个大小为M×N的全0矩阵P1,P2…Pd,令对应声音源i的记录p中的区域在Pi的值为1;
(3-8)定义d个大小为M×N的全为t矩阵Λ12…Λd
(3-9)令HM1i等于Hi中所有元素向右移一位,并令第一列元素全为0;令HP1i等于Hi中所有元素向左移一位,并令最后一列元素全为0;令T1为Hi的横坐标大小;
(3-10)计算
Figure FDA0003845378210000033
(3-11)令CPi和CMi中横坐标不在p范围内的数值置为0;
(3-12)利用步骤(2)得到的W、H、Wi和Hi作为初始化W、H、Wi和Hi
(3-13)按照如下迭代规则分别对Wi和Hi进行更新,得到更新后的非负矩阵Wi和Hi
Figure FDA0003845378210000034
Figure FDA0003845378210000035
其中,Wi T,Hi T分别为Wi,Hi的转置;
(3-14)重复步骤(1-4)至(1-5),得到新的分离结果,分离结束。
CN201811375640.5A 2018-11-19 2018-11-19 一种人机交互的声音分离的方法 Active CN109545240B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811375640.5A CN109545240B (zh) 2018-11-19 2018-11-19 一种人机交互的声音分离的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811375640.5A CN109545240B (zh) 2018-11-19 2018-11-19 一种人机交互的声音分离的方法

Publications (2)

Publication Number Publication Date
CN109545240A CN109545240A (zh) 2019-03-29
CN109545240B true CN109545240B (zh) 2022-12-09

Family

ID=65848227

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811375640.5A Active CN109545240B (zh) 2018-11-19 2018-11-19 一种人机交互的声音分离的方法

Country Status (1)

Country Link
CN (1) CN109545240B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110324702B (zh) * 2019-07-04 2022-06-07 三星电子(中国)研发中心 视频播放过程中的信息推送方法和装置
CN110970056B (zh) * 2019-11-18 2022-03-11 清华大学 一种从视频中分离音源的方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103871423A (zh) * 2012-12-13 2014-06-18 上海八方视界网络科技有限公司 一种基于nmf非负矩阵分解的音频分离方法
WO2014195132A1 (en) * 2013-06-05 2014-12-11 Thomson Licensing Method of audio source separation and corresponding apparatus
CN105045122A (zh) * 2015-06-24 2015-11-11 张子兴 一种基于音频和视频的智能家居自然交互系统
CN105489227A (zh) * 2014-10-06 2016-04-13 奥迪康有限公司 包括低延时声源分离单元的听力装置
CN108431891A (zh) * 2015-12-01 2018-08-21 汤姆逊许可公司 基于通知源分离的音频对象编码的方法和装置
CN108574911A (zh) * 2017-03-09 2018-09-25 中国科学院声学研究所 一种无监督单传声器语音降噪方法及系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120316886A1 (en) * 2011-06-08 2012-12-13 Ramin Pishehvar Sparse coding using object exttraction
JP5942420B2 (ja) * 2011-07-07 2016-06-29 ヤマハ株式会社 音響処理装置および音響処理方法
US9679559B2 (en) * 2014-05-29 2017-06-13 Mitsubishi Electric Research Laboratories, Inc. Source signal separation by discriminatively-trained non-negative matrix factorization

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103871423A (zh) * 2012-12-13 2014-06-18 上海八方视界网络科技有限公司 一种基于nmf非负矩阵分解的音频分离方法
WO2014195132A1 (en) * 2013-06-05 2014-12-11 Thomson Licensing Method of audio source separation and corresponding apparatus
CN105489227A (zh) * 2014-10-06 2016-04-13 奥迪康有限公司 包括低延时声源分离单元的听力装置
CN105045122A (zh) * 2015-06-24 2015-11-11 张子兴 一种基于音频和视频的智能家居自然交互系统
CN108431891A (zh) * 2015-12-01 2018-08-21 汤姆逊许可公司 基于通知源分离的音频对象编码的方法和装置
CN108574911A (zh) * 2017-03-09 2018-09-25 中国科学院声学研究所 一种无监督单传声器语音降噪方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
An interactive audio source separation framework based on non-negative matrix factorization;Ngoc Q. K. Duong et al;《2014 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)》;20140714;全文 *
基于时频稀疏约束的多通道声源分离算法;黄镒东等;《信息技术》;20170125(第01期);全文 *

Also Published As

Publication number Publication date
CN109545240A (zh) 2019-03-29

Similar Documents

Publication Publication Date Title
Pons et al. Remixing music using source separation algorithms to improve the musical experience of cochlear implant users
Smaragdis et al. Separation by “humming”: User-guided sound extraction from monophonic mixtures
CN109545240B (zh) 一种人机交互的声音分离的方法
US9734842B2 (en) Method for audio source separation and corresponding apparatus
Kim et al. Mixtures of local dictionaries for unsupervised speech enhancement
Francombe et al. Evaluation of spatial audio reproduction methods (Part 1): Elicitation of perceptual differences
He et al. Linear estimation based primary-ambient extraction for stereo audio signals
Cartwright et al. Mixploration: Rethinking the audio mixer interface
CA2983359C (en) An audio signal processing apparatus and method
CN110111808A (zh) 音频信号处理方法及相关产品
EP2437517B1 (en) Sound scene manipulation
Duong et al. An interactive audio source separation framework based on non-negative matrix factorization
Raj et al. Separating a foreground singer from background music
Parekh et al. Guiding audio source separation by video object information
CN105898667A (zh) 从音频内容基于投影提取音频对象
Uhle et al. Ambience separation from mono recordings using non-negative matrix factorization
Lai et al. Adaptive Wiener gain to improve sound quality on nonnegative matrix factorization-based noise reduction system
CN116013274A (zh) 语音识别的方法、装置、计算机设备和存储介质
Zieliński et al. Feature extraction of binaural recordings for acoustic scene classification
Woodcock et al. Elicitation of expert knowledge to inform object-based audio rendering to different systems
US10728690B1 (en) Head related transfer function selection for binaural sound reproduction
Ozamoto et al. Noise-Tolerant Time-Domain Speech Separation with Noise Bases
Fukumoto et al. Optimization of sound of autonomous sensory meridian response with interactive genetic algorithm
WO2019233359A1 (zh) 对音乐进行通透处理的方法及设备
CN113286252B (zh) 一种声场重建方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant