CN117334211A - 一种应用于沉浸式视频会议系统中的语音分离方法及系统 - Google Patents
一种应用于沉浸式视频会议系统中的语音分离方法及系统 Download PDFInfo
- Publication number
- CN117334211A CN117334211A CN202311240771.3A CN202311240771A CN117334211A CN 117334211 A CN117334211 A CN 117334211A CN 202311240771 A CN202311240771 A CN 202311240771A CN 117334211 A CN117334211 A CN 117334211A
- Authority
- CN
- China
- Prior art keywords
- speaker
- signal
- separation
- sound source
- extracting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000926 separation method Methods 0.000 title claims abstract description 70
- 238000004458 analytical method Methods 0.000 claims abstract description 12
- 230000000007 visual effect Effects 0.000 claims abstract description 11
- 230000001131 transforming effect Effects 0.000 claims abstract description 5
- 238000007654 immersion Methods 0.000 claims abstract description 3
- 238000000034 method Methods 0.000 claims description 22
- 238000001514 detection method Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 5
- 230000004927 fusion Effects 0.000 claims description 5
- 238000009877 rendering Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 3
- 230000003993 interaction Effects 0.000 abstract description 8
- 238000004422 calculation algorithm Methods 0.000 description 7
- 239000012634 fragment Substances 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000013178 mathematical model Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 241000167854 Bourreria succulenta Species 0.000 description 1
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 235000019693 cherries Nutrition 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000012880 independent component analysis Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 210000001525 retina Anatomy 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/15—Conference systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Human Computer Interaction (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本发明提供了一种应用于沉浸式视频会议系统中的语音分离方法及系统,基于独立音源片段提取说话人声纹特征,分为多模态特征表示阶段和分离阶段,多模态特征表示阶段提取混合信号片段中信号特征系数,提取说话人独立音源片段建立声纹信息网络,提取说话人的人脸视觉特征,利用音源空间特征分析网络提取说话人的空间特征;分离阶段包括根据信号特征系数、声纹特征、人脸特征和空间特征,进行融合;在潜在空间中学习混合信号中每个说话人的掩膜;根据掩膜和混合信号片段中信号特征系数,获得潜在空间特征;将潜在空间特征反变换到时域;根据说话人的空间方位信息,将分离的说话人语音渲染到正确的位置,满足视频会议中用户的沉浸、灵活交互需求。
Description
技术领域
本发明属于数字音频信号处理领域,涉及沉浸式视频会议系统中的语音分离技术方案,适用于沉浸式视频会议系统,满足视频会议中用户的沉浸、灵活交互需求。
背景技术
随着行业数字化、智能化不断升级加速发展,语音交互场景从人机交互扩展到视频会议语音分离等人人交互,语音交互的场景和需求在不断增加。如何在多个说话人同时发声的场景下,有效分离纯净的单个说话人声音,准确识别说话人语音并做出相应的回复,提升视频会议中沉浸式体验,是当前语音交互中急需解决的重要问题。
音源分离问题来源于1953年Cherry在国际音频领域顶级期刊上提出的“鸡尾酒会效应”。根据分离系统输入模态的不同,音源分离技术可分为基于音频的单一模态分离方法和基于音视频的多模态分离方法。(1)基于音频的单一模态分离方法,即分离系统的输入仅是混合语音信号。当前的多说话人语音分离技术可分为传统数学模型方法和深度学习方法两大类。传统数学模型方法主要利用独立成分分析方法、非负矩阵方法和空间聚类方法分解混合语音信号;深度学习方法是使用深度学习的方法建立说话人混合信号和纯净语音信号之间的映射关系。(2)基于音视频的多模态分离方法,即分离系统的输入是混合语音信号和视频信号。已有心理声学的实验证明,在背景噪声或竞争说话人的环境下,说话人视觉信息的辅助输入有助于提升听觉感知。多模态音源分离的前言算法利用说话人的音频和视觉信息,但未充分利用说话人的音频模态声音特性,视觉模态中说话人的空间位置,导致分离的说话人声音质量受限。
发明内容
为解决上述技术问题,本发明提供一种应用于沉浸式视频会议系统中的语音分离方案,本发明能够充分利用音频、视频和空间信息全面提升分离的说话人声音质量,从而增强人沟通时的“社交临场感”。
本发明提供一种应用于沉浸式视频会议系统中的语音分离方法,基于独立音源片段提取说话人声纹特征,实现过程包括多模态特征表示阶段和分离阶段,
所述多模态特征表示阶段包括以下步骤,
步骤A1,提取混合信号片段中信号特征系数;
步骤A2,提取混合信号中每个说话人的独立音源片段;
步骤A3,对步骤A2得到的独立音源片段,建立声纹信息网络;
步骤A4,对于视频信号,利用人脸检测方式提取说话人的人脸区域,建立人脸属性分析网络,提取说话人的人脸视觉特征;
步骤A5,对于空间方位信号,利用音源空间特征分析网络提取说话人的空间特征;
所述分离阶段包括以下步骤,
步骤B1,根据步骤A1,A3,A4和A5得到说话人的信号特征系数、声纹特征、人脸特征和空间特征,进行融合;
步骤B2,根据步骤B1得到的多模态特征融合,构建多模态分离网络,在潜在空间中学习混合信号中每个说话人的掩膜;
步骤B3,根据步骤B2得到的每个说话人的掩膜和步骤A1得到的混合信号片段中信号特征系数,利用掩膜和混合信号特征系数获得每个说话人的潜在空间特征;
步骤B4,根据步骤B3得到的每个说话人的潜在空间特征,将说话人的潜在空间特征反变换到时域,得到混合信号中的时域音源信号;
步骤B5,根据步骤B4得到的单个说话人信号,根据说话人的空间方位信息,将分离的说话人语音渲染到正确的位置。
而且,输入的信号适用于不同环境下的、不同类型的语音信号。
而且,所述声纹信息网络,利用独立音源片段,提取每个说话人的高辨识度特征,包括提取独立音源片段的梅尔频率倒谱系数MFCC、对数能量、基音频率F0和共振峰频率Fn,n=1,2,3。
而且,所述利用音源空间特征分析网络提取说话人的空间特征,包括利用多维高斯变量编码空间方位信号。
而且,利用音频、视频和空间特征构建所述多模态分离网络,在潜在空间中学习混合信号中每个说话人的掩膜maskj。
而且,利用掩膜和混合信号特征系数获得每个说话人的潜在空间特征gj,实现方式如下,
其中,coeff为混合信号的时频信号,表示逐元素相乘,。
另一方面,本发明提供一种应用于沉浸式视频会议系统中的语音分离系统,包括处理器和存储器,存储器用于存储程序指令,处理器用于调用存储器中的存储指令执行如上所述的一种应用于沉浸式视频会议系统中的语音分离方法。
另一方面,本发明提供一种应用于沉浸式视频会议系统中的语音分离系统,包括可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序执行时,实现如上所述的一种应用于沉浸式视频会议系统中的语音分离方法。
本发明语音分离方案与一般的分离技术相比,在噪声和混响环境下,语音分离质量较高,提升语音的听感和可懂度,能给用户带来更好的沉浸式体验。该方法适用于沉浸式会议中的交互设备,且适用于不同环境下的、不同类型的语音信号。
附图说明
图1是本发明实施例的语音分离流程图。
具体实施方式
为了便于本领域的技术人员理解和实施本发明,下面结合附图以及具体实施示例对本发明的技术方案作进一步说明,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明:
本发明提供了一种应用于沉浸式视频会议系统中的语音分离方案,用于解决视频会议环境下,目标说话人语音受到多个声学干扰或多个目标音源影响,语音的听感和可懂度急剧下降的问题。方案分为两个阶段:(一)多模态特征表示阶段:(1)音频部分:首先提取独立音源片段和多音源片段的基音、频谱系数等特征的差异性,然后利用特征提取独立音源片段;其次根据独立音源片段,建立声纹信息网络,提取说话人的声纹特征;(2)视频部分:利用人脸检测算法从视频帧中获取说话人的面部区域,并提取说话人的人脸视觉特征;(3)空间特征部分:构建音源空间特征分析网络提空间方位信号的空间特征。(二)分离阶段:将说话人的信号特征系数、声纹特征、人脸特征和空间特征融合并建立多模态分离模型,在潜在空间中学习混合信号中每个说话人的掩膜,并利用掩膜和混合信号特征系数获得每个说话人的潜在空间特征。将说话人的潜在空间特征反变换到时域,得到混合信号中的时域音源信号。最后根据说话人的空间方位信息,将分离的说话人语音渲染到正确的位置,满足视频会议中用户的沉浸、灵活交互需求。
为改进现有语音分离技术语音分离质量低的问题,本实施例阐述了一种应用于沉浸式视频会议系统中的语音分离方法,本发明实施例提供的一种应用于沉浸式视频会议系统中的语音分离方法实施流程图如图1所示。
实施例的实现过程分为多模态特征表示阶段和分离阶段。多模态特征表示阶段:分别提取输入的音频信号、视频信号和空间方位信号的特征,并拼接成多模态特征;分离阶段:利用多模态特征映射成单个说话人语音。
实施例多模态特征表示阶段包括以下具体实施步骤:
输入为语音信号采样频率是48kHz,位深度是32位,音频格式是wav。
应注意的是,此处规定的语音参数仅为举例说明本发明的实施过程,并不用于限定本发明。本发明输入的信号适用于不同环境下的、不同类型的语音信号。
步骤A1:提取混合信号片段中信号特征系数coeff。即提取混合信号的频谱幅度X(t,f)。
X(t,f)=|STFT(x(t),N)|
其中,x(t)是混合信号,t为采样点,STFT()为短时傅里叶变换函数,N为快速傅里叶变换长度,|·|是幅值计算操作,f为频点。
步骤A2:提取混合信号中每个说话人的独立音源片段。
其中,sj表示混合信号中只包含第j个说话人声源的所有时频点的集合,(t,f)表示时频点,Mj(t,f)为第j个说话人的时频点。
步骤A3:对步骤A2得到的独立音源片段,建立声纹信息网络,提取独立音源片段的梅尔频率倒谱系数(MFCC,Mel frequency cepstral coefficient)、对数能量、基音频率F0和共振峰频率(Fn,n=1,2,3)。由于梅尔频率倒谱系数是按帧计算的,声纹信息网络为12维静态MFCC参数和一阶12维动态MFCC参数的组合。其中,n为共振峰频率的序号。
本发明通过声纹信息网络,利用独立音源片段,提取每个说话人的高辨识度特征。
应注意的是,此处规定的语音特征参数(梅尔频率倒谱系数、对数能量、基音频率和共振峰频率)仅为举例说明本发明的实施过程,并不用于限定本发明。
步骤A4:对于视频信号,利用人脸检测算法提取说话人的人脸区域,建立人脸属性分析网络,提取说话人的人脸视觉特征Vj。
Vj=v(feature(I))
其中,I为摄像头采集的说话人视频信号,feature()为人脸特征提取器,v()为视觉编码器,实施例中视觉编码器采用卷积神经网络来实现,即人脸属性分析网络。
所述人脸检测算法的实现方式为,利用MTCNN或Retina人脸检测算法提取人脸区域,然后利用时域时域卷积神经网络编码视觉特征。
步骤A5:对于空间方位信号,利用音源空间特征分析网络提取说话人的空间特征Dj。
Dj=d(feature(Lj))
其中,Lj为说话人的空间方位,d()为空间方位编码器。
实施例中所述音源空间特征分析网络的实现方式为,利用多维高斯变量编码空间方位信号利用多维高斯变量编码空间方位信号。
本发明提供一种应用于沉浸式视频会议系统中的语音分离方法,提出基于独立音源片段提取说话人声纹特征算法,其中分离器包括以下步骤:
步骤B1:根据步骤A1,A3,A4和A5得到说话人的信号特征系数X(t,f)、声纹特征、人脸特征Vj和空间特征Dj,进行融合。
F=Concatenate(X(t,f),F0,Fn,Vj,Dj)
其中,F0为基音频率,Fn为共振峰频率,Concatenate()为连接模块,融合方式为特征合并。
步骤B2:根据步骤B1得到的多模态特征融合,构建多模态分离网络g,在潜在空间中学习混合信号中每个说话人的掩膜maskj。
maskj=g(F)
其中,g()表示多模态分离网络的处理。
所述多模态分离网络的实现方式为,采用基于自注意力机制方法实现多模态特征的映射。
本发明利用音频、视频和空间特征构建多模态分离网络,在潜在空间中学习混合信号中每个说话人的掩膜。
针对步骤B2所述多模态分离网络,网络训练过程根据情况选择合适的学习算法、训练次数和损失函数等一系列超参数。
步骤B3:根据步骤B2得到的每个说话人的掩膜和步骤A1得到的混合信号片段中信号特征系数,利用掩膜和混合信号特征系数获得每个说话人的潜在空间特征gj。
其中,coeff为混合信号的时频信号,表示逐元素相乘。
步骤B4:根据步骤B3得到的每个说话人的潜在空间特征gj,将说话人的潜在空间特征反变换到时域,得到混合信号中的时域音源信号
其中,D()表示反变换到时域。
步骤B5:根据步骤B4得到的单个说话人信号,根据说话人的空间方位信息,将分离的说话人语音渲染到正确的位置。
与现有语音分离方法相比,本发明具有的优势及特点是:
在噪声和混响环境下,语音分离质量较高,提升语音的听感和可懂度,能给用户带来更好的沉浸式体验。该方法适用于沉浸式会议中的交互设备,且适用于不同环境下的、不同类型的语音信号。
具体实施时,本发明技术方案提出的方法可由本领域技术人员采用计算机软件技术实现自动运行流程,实现方法的系统装置例如存储本发明技术方案相应计算机程序的计算机可读存储介质以及包括运行相应计算机程序的计算机设备,也应当在本发明的保护范围内。
在一些可能的实施例中,提供一种应用于沉浸式视频会议系统中的语音分离系统,包括处理器和存储器,存储器用于存储程序指令,处理器用于调用存储器中的存储指令执行如上所述的一种应用于沉浸式视频会议系统中的语音分离方法。
在一些可能的实施例中,提供一种应用于沉浸式视频会议系统中的语音分离系统,包括可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序执行时,实现如上所述的一种应用于沉浸式视频会议系统中的语音分离方法。
应当理解的是,本说明书未详细阐述的部分均属于现有技术。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。
Claims (8)
1.一种应用于沉浸式视频会议系统中的语音分离方法,其特征在于,基于独立音源片段提取说话人声纹特征,实现过程包括多模态特征表示阶段和分离阶段,所述多模态特征表示阶段包括以下步骤,
步骤A1,提取混合信号片段中信号特征系数;
步骤A2,提取混合信号中每个说话人的独立音源片段;
步骤A3,对步骤A2得到的独立音源片段,建立声纹信息网络;
步骤A4,对于视频信号,利用人脸检测方式提取说话人的人脸区域,建立人脸属性分析网络,提取说话人的人脸视觉特征;
步骤A5,对于空间方位信号,利用音源空间特征分析网络提取说话人的空间特征;
所述分离阶段包括以下步骤,
步骤B1,根据步骤A1,A3,A4和A5得到说话人的信号特征系数、声纹特征、人脸特征和空间特征,进行融合;
步骤B2,根据步骤B1得到的多模态特征融合,构建多模态分离网络,在潜在空间中学习混合信号中每个说话人的掩膜;
步骤B3,根据步骤B2得到的每个说话人的掩膜和步骤A1得到的混合信号片段中信号特征系数,利用掩膜和混合信号特征系数获得每个说话人的潜在空间特征;
步骤B4,根据步骤B3得到的每个说话人的潜在空间特征,将说话人的潜在空间特征反变换到时域,得到混合信号中的时域音源信号;
步骤B5,根据步骤B4得到的单个说话人信号,根据说话人的空间方位信息,将分离的说话人语音渲染到正确的位置。
2.根据权利要求1所述的一种应用于沉浸式视频会议系统中的语音分离方法,其特征在于:输入的信号适用于不同环境下的、不同类型的语音信号。
3.根据权利要求1所述的一种应用于沉浸式视频会议系统中的语音分离方法,其特征在于:所述声纹信息网络,利用独立音源片段,提取每个说话人的高辨识度特征,包括提取独立音源片段的梅尔频率倒谱系数MFCC、对数能量、基音频率F0和共振峰频率Fn,n=1,2,3。
4.根据权利要求1所述的一种应用于沉浸式视频会议系统中的语音分离方法,其特征在于:所述利用音源空间特征分析网络提取说话人的空间特征,包括利用多维高斯变量编码空间方位信号。
5.根据权利要求1所述的一种应用于沉浸式视频会议系统中的语音分离方法,其特征在于:利用音频、视频和空间特征构建所述多模态分离网络,在潜在空间中学习混合信号中每个说话人的掩膜maskj。
6.根据权利要求5所述的一种应用于沉浸式视频会议系统中的语音分离方法,其特征在于:利用掩膜和混合信号特征系数获得每个说话人的潜在空间特征gj,实现方式如下,
其中,coeff为混合信号的时频信号,表示逐元素相乘。
7.一种应用于沉浸式视频会议系统中的语音分离系统,其特征在于:包括处理器和存储器,存储器用于存储程序指令,处理器用于调用存储器中的存储指令执行如权利要求1-6任一项所述的一种应用于沉浸式视频会议系统中的语音分离方法。
8.一种应用于沉浸式视频会议系统中的语音分离系统,其特征在于:包括可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序执行时,实现如权利要求1-6任一项所述的一种应用于沉浸式视频会议系统中的语音分离方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311240771.3A CN117334211A (zh) | 2023-09-22 | 2023-09-22 | 一种应用于沉浸式视频会议系统中的语音分离方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311240771.3A CN117334211A (zh) | 2023-09-22 | 2023-09-22 | 一种应用于沉浸式视频会议系统中的语音分离方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117334211A true CN117334211A (zh) | 2024-01-02 |
Family
ID=89292407
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311240771.3A Pending CN117334211A (zh) | 2023-09-22 | 2023-09-22 | 一种应用于沉浸式视频会议系统中的语音分离方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117334211A (zh) |
-
2023
- 2023-09-22 CN CN202311240771.3A patent/CN117334211A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11948552B2 (en) | Speech processing method, apparatus, electronic device, and computer-readable storage medium | |
CN108305615B (zh) | 一种对象识别方法及其设备、存储介质、终端 | |
CN110970053B (zh) | 一种基于深度聚类的多通道与说话人无关语音分离方法 | |
CN108877823B (zh) | 语音增强方法和装置 | |
CN111916101B (zh) | 一种融合骨振动传感器和双麦克风信号的深度学习降噪方法及系统 | |
CN107172018A (zh) | 公共背景噪声下激活式的声纹密码安全控制方法及系统 | |
CN110858476B (zh) | 一种基于麦克风阵列的声音采集方法及装置 | |
WO2007041231A2 (en) | Method and apparatus for removing or isolating voice or instruments on stereo recordings | |
Hummersone | A psychoacoustic engineering approach to machine sound source separation in reverberant environments | |
KR20080064557A (ko) | 음성 신호의 명료도를 향상시키는 장치 및 방법 | |
Delfarah et al. | Deep learning for talker-dependent reverberant speaker separation: An empirical study | |
Siam et al. | A novel speech enhancement method using Fourier series decomposition and spectral subtraction for robust speaker identification | |
CN113593601A (zh) | 基于深度学习的视听多模态语音分离方法 | |
CN118212929A (zh) | 一种个性化Ambisonics语音增强方法 | |
CN112002307B (zh) | 一种语音识别方法和装置 | |
Delfarah et al. | Recurrent neural networks for cochannel speech separation in reverberant environments | |
CN113035225B (zh) | 视觉声纹辅助的语音分离方法及装置 | |
CN116229987B (zh) | 一种校园语音识别的方法、装置及存储介质 | |
CN111009259B (zh) | 一种音频处理方法和装置 | |
CN116312570A (zh) | 一种基于声纹识别的语音降噪方法、装置、设备及介质 | |
CN117334211A (zh) | 一种应用于沉浸式视频会议系统中的语音分离方法及系统 | |
CN113345421B (zh) | 一种基于角度谱特征的多通道远场的目标语音识别方法 | |
Li et al. | A Near-Real-Time Processing Ego Speech Filtering Pipeline Designed for Speech Interruption During Human-Robot Interaction | |
Chun et al. | Comparison of cnn-based speech dereverberation using neural vocoder | |
Wang et al. | Speech enhancement based on noise classification and deep neural network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |