CN114613384A - 一种基于深度学习多输入语音信号波束形成信息互补方法 - Google Patents
一种基于深度学习多输入语音信号波束形成信息互补方法 Download PDFInfo
- Publication number
- CN114613384A CN114613384A CN202210246205.2A CN202210246205A CN114613384A CN 114613384 A CN114613384 A CN 114613384A CN 202210246205 A CN202210246205 A CN 202210246205A CN 114613384 A CN114613384 A CN 114613384A
- Authority
- CN
- China
- Prior art keywords
- voice
- deep learning
- layer
- noise
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013135 deep learning Methods 0.000 title claims abstract description 30
- 238000003169 complementation method Methods 0.000 title claims abstract description 14
- 239000011159 matrix material Substances 0.000 claims abstract description 56
- 238000000034 method Methods 0.000 claims abstract description 38
- 238000013136 deep learning model Methods 0.000 claims abstract description 24
- 238000012549 training Methods 0.000 claims abstract description 18
- 238000001914 filtration Methods 0.000 claims abstract description 16
- 238000001514 detection method Methods 0.000 claims abstract description 12
- 238000007781 pre-processing Methods 0.000 claims abstract description 11
- 230000006870 function Effects 0.000 claims description 16
- 230000004913 activation Effects 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 9
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 238000012795 verification Methods 0.000 claims description 2
- 238000010276 construction Methods 0.000 claims 1
- 238000012545 processing Methods 0.000 abstract description 5
- 230000000873 masking effect Effects 0.000 abstract description 4
- 238000004364 calculation method Methods 0.000 abstract description 3
- 230000000694 effects Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000000926 separation method Methods 0.000 description 6
- 230000009466 transformation Effects 0.000 description 5
- 238000012360 testing method Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000001934 delay Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000001612 separation test Methods 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 241001197082 Knodus beta Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10K—SOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
- G10K11/00—Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
- G10K11/16—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
- G10K11/175—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
- G10K11/178—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
- G10K11/1785—Methods, e.g. algorithms; Devices
- G10K11/17853—Methods, e.g. algorithms; Devices of the filter
- G10K11/17854—Methods, e.g. algorithms; Devices of the filter the filter being an adaptive filter
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Noise Elimination (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明公开了一种基于深度学习多输入语音信号波束形成信息互补方法,属于机载语音信号处理领域,包括步骤:S1,深度学习模型的构建和训练;S2,将多输入语音进行预处理后,转变为时频信号输入到已经训练好的深度学习模型中进行重构后得到更为纯净的语音信号;对分离后的语音信号进行语音端点检测和时延估计,得到噪声段和语音段;S3,计算噪声段和语音段的自相关矩阵、最优滤波矩阵、最优权向量;S4,利用最优滤波矩阵滤波输出信号。本发明解决了基于视频掩蔽的语音增强方法存在计算量大的问题,提高了语音质量和稳定性。
Description
技术领域
本发明涉及机载语音信号处理领域,更为具体的,涉及一种基于深度学习多输入语音信号波束形成信息互补方法。
背景技术
目前,针对机载语音信号处理领域中的语音信号断续问题的现有解决方案技术,仍然存在以下问题:1)现有选择合并方法方案选择单一信号进行输出,存在造成信号丢失的问题。2)现有等增益合并方法方案中存在容易引入更多噪声,导致合并损失的问题。3)低信噪比下端点检测对语音段检测效果差的问题。
近年来,随着深度学习的快速发展和广泛运用,基于深度学习的语音增强方法成为语音增强的主要研究方向,这类方法主要有基于掩蔽、基于映射以及端到端三类,基于映射的方法在低信噪比下比较有效,而基于掩蔽的方法在高信噪比下性能更佳,端到端的方法似乎更有发展潜力,但其计算量更大,并且往往需要复杂的模型结构。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于深度学习多输入语音信号波束形成信息互补方法,解决了基于视频掩蔽的语音增强方法存在计算量大的问题,提高了语音质量和稳定性。
本发明的目的是通过以下方案实现的:
一种基于深度学习多输入语音信号波束形成信息互补方法,包括:
步骤S1,深度学习模型的构建和训练;
步骤S2,将多输入语音进行预处理后,转变为时频信号输入到已经训练好的深度学习模型中进行重构后得到更为纯净的语音信号;对分离后的语音信号进行语音端点检测和时延估计,得到噪声段和语音段;
步骤S3,计算噪声段和语音段的自相关矩阵、最优滤波矩阵、最优权向量;
步骤S4,利用最优滤波矩阵滤波输出信号。
进一步地,在步骤S1中,包括进行机载环境带噪语音的数据集建立步骤,在该步骤中,通过真实的机载噪声数据以及开源的中文语音数据集,构建所用的数据集,并将其按照比例作为训练集和验证集。
进一步地,在步骤S1中,所述深度学习模型的构建包括选取比值掩码来构建作为深度学习的训练标签:
进一步地,在步骤S1中,所述深度学习模型包括输入层、隐藏层、输出层,输入层与隐藏层连接,隐藏层与输出层连接;所述隐藏层由多个Block构成,Block由全连接层、激活函数层、批归一化层、弃权层构成;在一个Block中,全连接层与输入层连接,同时与激活函数层连接,激活函数层与批归一化层连接,批归一化层与弃权层连接,弃权层与下一个Block层连接。
进一步地,在步骤S2中,所述预处理包括分帧加窗和短时傅里叶变换。
进一步地,在步骤S2中,所述进行重构具体为将经过深度学习模型的多输入语音信号经过逆变换,得到重构的语音信号。
进一步地,在步骤S3中,所述计算噪声段和语音段的自相关矩阵,包括子步骤:
计算噪声段和语音段的自相关矩阵:设输入i路语音信号,yi(τi)=αis(k-τi)+vi(k),其中i=1,2,...,n,αi表示各路通道所接收到的语音信号相对与原始纯净语音信号系数;s(k)表示原始的纯净语音信号;τi表示各路通道所接收到的语音信号相对与原始纯净语音信号的相对时延;vi(k)表示各路通道所接收到的语音信号相对于原始纯净语音信号的噪声;
带噪语音自相关矩阵Ryy按照如下公式计算:
进一步地,在步骤S3中,所述最优滤波矩阵按照如下公式进行计算:
进一步地,在步骤S3中,所述最优权向量包括如下公式计算:
其中h表示最优滤波器,和表示在最优滤波器变换的条件下,hy TRyyhy和hv TRvvhv代表带噪语音和噪声的输出功率,s.t.表示在约束条件下,WT表示最优滤波矩阵的转置,u'=[1,0,...,0]T是长度为Lh的矢量;
最后得到:
hST,y表示对带噪语音求得的最优滤波器,hST,v表示对噪声求得的最优滤波器。
进一步地,在步骤S4中,利用最优滤波矩阵滤波输出信号包括子步骤:使用hST,v作为滤波矩阵,最优滤波器输出的合成信号为:
本发明的有益效果包括:
本发明改善了在利用多输入语音信息之间互相补充来保证信息完整度时,由于信噪比低引起的端点检测效果差,从而使输出结果变差这一问题,这样能够增强空地、机间的通话质量以及通话稳定性。参阅图13,在信噪比低的时候,相比于图3图4中的结果,本发明能在保留完整的语音信息的同时,能够较改进前有效的提高语音质量。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为现有进行多通道语音信号比较选通的原理示意图;
图2为信噪比较差的4输入信号,带有不同的噪声类型、不同的噪声大小、不同的时间延迟;
图3为图2中4输入信号直接进行等增益合并的结果;
图4为图2中的信号采用波束形成的方法输出的结果,效果略好于等增益合并;
图5为图2中的信号采用波束形成方法前,选用语音端点检测确认语音段,可以看到低信噪比情况下无法准确的识别语音段;
图6为本发明实施例方法的步骤流程图;
图7为深度学习的语音分离方法,分为三个板块:获取数据、数据预处理和特征提取、语音分离;
图8为语音分离测试时的输入信号;
图9为图8所示信号经过训练后的模型的输出语音信号;
图10为图8所示信号经过训练后的模型的输出噪声信号;
图11为使用的神经网络结构;
图12为训练结果;
图13为图2中4输入信号经本发明实施例方法深度学习改进的多输入语音信号波束形成处理输出的结果。
具体实施方式
本说明书中所有实施例公开的所有特征,或隐含公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合和/或扩展、替换。
本发明旨在解决分集合并方法中的选择合并方法中选择单一信号进行输出,造成信号丢失的问题。其问题可参阅图1,和图1中问题相似。以及本发明还可解决分集合并方法中等增益合并方法中容易引入更多噪声,导致合并损失的问题,参阅图3。本发明还可解决低信噪比下端点检测对语音段检测效果差的问题,参阅图5。
本发明针对机载环境下多输入语音信号的波束形成方法中存在的低信噪比情况下语音端点检测方法无法准确的确定语音段和噪声段这一问题,提出一种基于深度学习多输入语音信号波束形成信息互补方法,基于改进的深度学习,详细技术方案如下:
深度学习模型训练过程,参阅图7:进行机载环境带噪语音的数据集建立、深度学习模型训练、深度学习模型测试;
深度学习改进的多输入语音信号波束形成处理,参阅图8:将多输入语音进行预处理后,转变为时频信号输入到已经训练好的模型中,随后进行逆变换得到分离后更为纯净的语音信号;对分离后的语音信号进行语音端点检测和时延估计,得到噪声段和语音段;计算噪声段和语音段的自相关矩阵、最优滤波矩阵、最优权向量;滤波输出信号。
在具体实施过程中,包括如下步骤:
一、深度学习模型训练:
第一步,通过真实的机载噪声数据以及开源的中文语音数据集,构建本文所用的数据集,最后得到约150小时,采样率为16kHz的数据集,将其按照4:1的比例作为训练集和验证集;
第二步,选取比值掩码来构建作为深度学习的训练标签;
第三步,网络模型,参阅图11。在这里选用4层神经网络作为网络模型,每层网络的单元取1300,设置迭代次数为500,最小批次为128,学习率为0.01,使用随机梯度下降法更新权重,训练结果参阅图12;
第四步,分离效果测试:参阅图8、图9、图10中的单通道语音信号的分离效果,以及表1中欧氏距离及加权结果。
二、深度学习改进的多输入语音信号波束形成处理:
第一步,进行分帧加窗等预处理以及短时傅里叶变换,将多输入的语音信号输入到训练好的深度学习模型中;
分帧时间:25ms
加窗:Sw(n)=S(n)·w(n),其中Sw(n)为加窗后的函数,S(n)为需要加窗的函数,w(n)为窗函数,w(n)选取汉明窗,
第二步,将经过深度学习模型的多输入语音信号经过逆变换,得到重构的语音信号:
第三步,进行语音端点检测和时延估计,求得语音信号的语音段和噪声段;
计算噪声段和语音段的自相关矩阵:设输入i路语音信号,yi(τi)=αis(k-τi)+vi(k),其中i=1,2,...,n,αi表示各路通道所接收到的语音信号相对与原始纯净语音信号系数;s(k)表示原始的纯净语音信号;τi表示各路通道所接收到的语音信号相对与原始纯净语音信号的相对时延;vi(k)表示各路通道所接收到的语音信号相对于原始纯净语音信号的噪声。
带噪语音自相关矩阵计算:
第四步,计算最优滤波矩阵;
第五步,计算最优权向量,即解决:
其中h表示最优滤波器,和表示在最优滤波器变换的条件下,hy TRyyhy和hv TRvvhv代表带噪语音和噪声的输出功率,s.t.表示subjectto,即在…约束条件下,WT表示最优滤波矩阵的转置,u'=[1,0,...,0]T是长度为Lh的矢量;
最后得到:
hST,y表示对带噪语音求得的最优滤波器,hST,v表示对噪声求得的最优滤波器。
第六步,由于算法条件下语音和噪声是完全不相关,所以当整个带噪语音滤波后输出功率最小时,噪声的输出功率也同时是最小的。但实际上并不会完全成立,为了防止语音段的信息被滤,所以在这里使用hST,v作为滤波矩阵,滤波输出信号:
如图1所示,以四天线接收语音123456789为例,出现语音断续时,多通道语音信号比较选通。由于仅做了选通处理,输出信号仍然会导致语音断续、字词丢失,无法得到完整的信息。
如图2所示,信噪比较差的4输入信号,带有不同的噪声类型、不同的噪声大小、不同的时间延迟。
如图3所示,图2中4输入信号直接进行等增益合并的结果。
如图4所示,图2中的信号采用波束形成的方法输出的结果,效果略好于等增益合并。
如图5所示,图2中的信号采用波束形成方法前,选用语音端点检测确认语音段,可以看到低信噪比情况下无法准确的识别语音段。
如图6所示,本发明实施例方法流程图。
如图7所示,深度学习的语音分离方法,分为三个板块:获取数据、数据预处理和特征提取、语音分离。
如图8所示,语音分离测试时的输入信号。
如图9所示,图8所示信号经过训练后的模型的输出语音信号。
如图10所示,图8所示信号经过训练后的模型的输出噪声信号。
如图11所示,使用的神经网络结构。
如图12所示,为训练结果。
如图13所示,图2中4输入信号经深度学习改进的多输入语音信号波束形成处理输出的结果。
表1为深度学习模型输出的五条单通道测试音频的欧氏距离及加权结果。
表2为十条四输入信号的PESQ评分。
表3为测试的十条信号经深度学习改进的多输入语音信号波束形成处理输出信号的PESQ评分以及和对比提升。
表1
表2
表3
实施例1
一种基于深度学习多输入语音信号波束形成信息互补方法,其特征在于,包括:
步骤S1,深度学习模型的构建和训练;
步骤S2,将多输入语音进行预处理后,转变为时频信号输入到已经训练好的深度学习模型中进行重构后得到更为纯净的语音信号;对分离后的语音信号进行语音端点检测和时延估计,得到噪声段和语音段;
步骤S3,计算噪声段和语音段的自相关矩阵、最优滤波矩阵、最优权向量;
步骤S4,利用最优滤波矩阵滤波输出信号。
实施例2
基于实施例1,在步骤S1中,包括进行机载环境带噪语音的数据集建立步骤,在该步骤中,通过真实的机载噪声数据以及开源的中文语音数据集,构建所用的数据集,并将其按照比例作为训练集和验证集。
实施例3
基于实施例1,在步骤S1中,所述深度学习模型的构建包括选取比值掩码来构建作为深度学习的训练标签:
实施例4
基于实施例1,在步骤S1中,所述深度学习模型包括输入层、隐藏层、输出层,输入层与隐藏层连接,隐藏层与输出层连接;所述隐藏层由多个Block构成,Block由全连接层、激活函数层、批归一化层、弃权层构成;在一个Block中,全连接层与输入层连接,同时与激活函数层连接,激活函数层与批归一化层连接,批归一化层与弃权层连接,弃权层与下一个Block层连接。
实施例5
基于实施例1,在步骤S2中,所述预处理包括分帧加窗和短时傅里叶变换。
实施例6
基于实施例1,在步骤S2中,所述进行重构具体为将经过深度学习模型的多输入语音信号经过逆变换,得到重构的语音信号。
实施例7
基于实施例1,在步骤S3中,所述计算噪声段和语音段的自相关矩阵,包括子步骤:
计算噪声段和语音段的自相关矩阵:设输入i路语音信号,yi(τi)=αis(k-τi)+vi(k),其中i=1,2,...,n,αi表示各路通道所接收到的语音信号相对与原始纯净语音信号系数;s(k)表示原始的纯净语音信号;τi表示各路通道所接收到的语音信号相对与原始纯净语音信号的相对时延;vi(k)表示各路通道所接收到的语音信号相对于原始纯净语音信号的噪声;
带噪语音自相关矩阵Ryy按照如下公式计算:
实施例8
基于实施例7,在步骤S3中,所述最优滤波矩阵按照如下公式进行计算:
实施例9
基于实施例8,在步骤S3中,所述最优权向量包括如下公式计算:
计算最优权向量实质上是解决波束形成方法中的最优化问题,即解决:
其中h表示最优滤波器,和表示在最优滤波器变换的条件下,hy TRyyhy和hv TRvvhv代表带噪语音和噪声的输出功率,s.t.表示在约束条件下,WT表示最优滤波矩阵的转置,u'=[1,0,...,0]T是长度为Lh的矢量;
最后得到:
hST,y表示对带噪语音求得的最优滤波器,hST,v表示对噪声求得的最优滤波器。
实施例10
基于实施例10,在步骤S4中,利用最优滤波矩阵滤波输出信号包括子步骤:
由于算法条件下语音和噪声是完全不相关,所以当整个带噪语音滤波后输出功率最小时,噪声的输出功率也同时是最小的。但实际上并不会完全成立,为了防止语音段的信息被滤,所以在这里使用hST,v作为滤波矩阵。
最优滤波器输出的合成信号为:
除以上实例以外,本领域技术人员根据上述公开内容获得启示或利用相关领域的知识或技术进行改动获得其他实施例,各个实施例的特征可以互换或替换,本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。
Claims (10)
1.一种基于深度学习多输入语音信号波束形成信息互补方法,其特征在于,包括:
步骤S1,深度学习模型的构建和训练;
步骤S2,将多输入语音进行预处理后,转变为时频信号输入到已经训练好的深度学习模型中进行重构后得到更为纯净的语音信号;对分离后的语音信号进行语音端点检测和时延估计,得到噪声段和语音段;
步骤S3,计算噪声段和语音段的自相关矩阵、最优滤波矩阵、最优权向量;
步骤S4,利用最优滤波矩阵滤波输出信号。
2.根据权利要求1所述的基于深度学习多输入语音信号波束形成信息互补方法,其特征在于,在步骤S1中,包括进行机载环境带噪语音的数据集建立步骤,在该步骤中,通过真实的机载噪声数据以及开源的中文语音数据集,构建所用的数据集,并将其按照比例作为训练集和验证集。
4.根据权利要求1所述的基于深度学习多输入语音信号波束形成信息互补方法,其特征在于,在步骤S1中,所述深度学习模型包括输入层、隐藏层、输出层,输入层与隐藏层连接,隐藏层与输出层连接;所述隐藏层由多个Block构成,Block由全连接层、激活函数层、批归一化层、弃权层构成;在一个Block中,全连接层与输入层连接,同时与激活函数层连接,激活函数层与批归一化层连接,批归一化层与弃权层连接,弃权层与下一个Block层连接。
5.根据权利要求1所述的基于深度学习多输入语音信号波束形成信息互补方法,其特征在于,在步骤S2中,所述预处理包括分帧加窗和短时傅里叶变换。
6.根据权利要求1所述的基于深度学习多输入语音信号波束形成信息互补方法,其特征在于,在步骤S2中,所述进行重构具体为将经过深度学习模型的多输入语音信号经过逆变换,得到重构的语音信号。
7.根据权利要求1所述的基于深度学习多输入语音信号波束形成信息互补方法,其特征在于,在步骤S3中,所述计算噪声段和语音段的自相关矩阵,包括子步骤:
计算噪声段和语音段的自相关矩阵:设输入i路语音信号,yi(τi)=αis(k-τi)+vi(k),其中i=1,2,...,n,αi表示各路通道所接收到的语音信号相对与原始纯净语音信号系数;s(k)表示原始的纯净语音信号;τi表示各路通道所接收到的语音信号相对与原始纯净语音信号的相对时延;vi(k)表示各路通道所接收到的语音信号相对于原始纯净语音信号的噪声;
带噪语音自相关矩阵Ryy按照如下公式计算:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210246205.2A CN114613384B (zh) | 2022-03-14 | 2022-03-14 | 一种基于深度学习多输入语音信号波束形成信息互补方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210246205.2A CN114613384B (zh) | 2022-03-14 | 2022-03-14 | 一种基于深度学习多输入语音信号波束形成信息互补方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114613384A true CN114613384A (zh) | 2022-06-10 |
CN114613384B CN114613384B (zh) | 2023-08-29 |
Family
ID=81863440
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210246205.2A Active CN114613384B (zh) | 2022-03-14 | 2022-03-14 | 一种基于深度学习多输入语音信号波束形成信息互补方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114613384B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114898732A (zh) * | 2022-07-05 | 2022-08-12 | 深圳瑞科曼环保科技有限公司 | 一种可调整频率范围的噪音处理方法及系统 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108615533A (zh) * | 2018-03-28 | 2018-10-02 | 天津大学 | 一种基于深度学习的高性能语音增强方法 |
CN108845325A (zh) * | 2018-05-25 | 2018-11-20 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 拖曳线列阵声纳子阵误差失配估计方法 |
US20190043491A1 (en) * | 2018-05-18 | 2019-02-07 | Intel Corporation | Neural network based time-frequency mask estimation and beamforming for speech pre-processing |
CN110287481A (zh) * | 2019-05-29 | 2019-09-27 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 命名实体语料标注训练系统 |
US20190341054A1 (en) * | 2018-05-07 | 2019-11-07 | Microsoft Technology Licensing, Llc | Multi-modal speech localization |
CN110473564A (zh) * | 2019-07-10 | 2019-11-19 | 西北工业大学深圳研究院 | 一种基于深度波束形成的多通道语音增强方法 |
WO2020042708A1 (zh) * | 2018-08-31 | 2020-03-05 | 大象声科(深圳)科技有限公司 | 基于时频掩蔽和深度神经网络的声源方向估计方法 |
CN111292762A (zh) * | 2018-12-08 | 2020-06-16 | 南京工业大学 | 一种基于深度学习的单通道语音分离方法 |
CN111508516A (zh) * | 2020-03-31 | 2020-08-07 | 上海交通大学 | 基于信道关联时频掩膜的语音波束形成方法 |
CN113724727A (zh) * | 2021-09-02 | 2021-11-30 | 哈尔滨理工大学 | 基于波束形成的长短时记忆网络语音分离算法 |
US11218802B1 (en) * | 2018-09-25 | 2022-01-04 | Amazon Technologies, Inc. | Beamformer rotation |
-
2022
- 2022-03-14 CN CN202210246205.2A patent/CN114613384B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108615533A (zh) * | 2018-03-28 | 2018-10-02 | 天津大学 | 一种基于深度学习的高性能语音增强方法 |
US20190341054A1 (en) * | 2018-05-07 | 2019-11-07 | Microsoft Technology Licensing, Llc | Multi-modal speech localization |
US20190043491A1 (en) * | 2018-05-18 | 2019-02-07 | Intel Corporation | Neural network based time-frequency mask estimation and beamforming for speech pre-processing |
CN108845325A (zh) * | 2018-05-25 | 2018-11-20 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 拖曳线列阵声纳子阵误差失配估计方法 |
WO2020042708A1 (zh) * | 2018-08-31 | 2020-03-05 | 大象声科(深圳)科技有限公司 | 基于时频掩蔽和深度神经网络的声源方向估计方法 |
US11218802B1 (en) * | 2018-09-25 | 2022-01-04 | Amazon Technologies, Inc. | Beamformer rotation |
CN111292762A (zh) * | 2018-12-08 | 2020-06-16 | 南京工业大学 | 一种基于深度学习的单通道语音分离方法 |
CN110287481A (zh) * | 2019-05-29 | 2019-09-27 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 命名实体语料标注训练系统 |
CN110473564A (zh) * | 2019-07-10 | 2019-11-19 | 西北工业大学深圳研究院 | 一种基于深度波束形成的多通道语音增强方法 |
CN111508516A (zh) * | 2020-03-31 | 2020-08-07 | 上海交通大学 | 基于信道关联时频掩膜的语音波束形成方法 |
CN113724727A (zh) * | 2021-09-02 | 2021-11-30 | 哈尔滨理工大学 | 基于波束形成的长短时记忆网络语音分离算法 |
Non-Patent Citations (1)
Title |
---|
王秋菊: "机载噪声环境下语音增强研究", 中国优秀硕士/博士学位论文全文数据库 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114898732A (zh) * | 2022-07-05 | 2022-08-12 | 深圳瑞科曼环保科技有限公司 | 一种可调整频率范围的噪音处理方法及系统 |
CN114898732B (zh) * | 2022-07-05 | 2022-12-06 | 深圳瑞科曼环保科技有限公司 | 一种可调整频率范围的噪音处理方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114613384B (zh) | 2023-08-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110827837B (zh) | 一种基于深度学习的鲸鱼活动音频分类方法 | |
CN109830245A (zh) | 一种基于波束成形的多说话者语音分离方法及系统 | |
CN108899044A (zh) | 语音信号处理方法及装置 | |
CN109490822B (zh) | 基于ResNet的语音DOA估计方法 | |
CN110718232B (zh) | 一种基于二维语谱图和条件生成对抗网络的语音增强方法 | |
Zhang et al. | On end-to-end multi-channel time domain speech separation in reverberant environments | |
CN108922513A (zh) | 语音区分方法、装置、计算机设备及存储介质 | |
CN110728989B (zh) | 一种基于长短时记忆网络lstm的双耳语音分离方法 | |
CN109584903A (zh) | 一种基于深度学习的多人语音分离方法 | |
CN110197665B (zh) | 一种用于公安刑侦监听的语音分离与跟踪方法 | |
CN112331216A (zh) | 基于复合声学特征和低秩分解tdnn的说话人识别系统及方法 | |
CN106847267B (zh) | 一种连续语音流中的叠音检测方法 | |
CN109427328A (zh) | 一种基于滤波网络声学模型的多通道语音识别方法 | |
CN113936681B (zh) | 一种基于掩膜映射和混合空洞卷积网络的语音增强方法 | |
CN109036470A (zh) | 语音区分方法、装置、计算机设备及存储介质 | |
Shi et al. | End-to-End Monaural Speech Separation with Multi-Scale Dynamic Weighted Gated Dilated Convolutional Pyramid Network. | |
Xiao et al. | Beamforming networks using spatial covariance features for far-field speech recognition | |
CN109300470A (zh) | 混音分离方法和混音分离装置 | |
CN112201276B (zh) | 基于TC-ResNet网络的麦克风阵列语音分离方法 | |
CN114387997B (zh) | 一种基于深度学习的语音情感识别方法 | |
CN114613384B (zh) | 一种基于深度学习多输入语音信号波束形成信息互补方法 | |
CN117310668A (zh) | 融合注意力机制与深度残差收缩网络的水声目标识别方法 | |
CN110415685A (zh) | 一种语音识别方法 | |
Li et al. | Speaker and direction inferred dual-channel speech separation | |
CN115713943A (zh) | 基于复空间角中心高斯混合聚类模型和双向长短时记忆网络的波束成形语音分离方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |