CN114613384A - 一种基于深度学习多输入语音信号波束形成信息互补方法 - Google Patents

一种基于深度学习多输入语音信号波束形成信息互补方法 Download PDF

Info

Publication number
CN114613384A
CN114613384A CN202210246205.2A CN202210246205A CN114613384A CN 114613384 A CN114613384 A CN 114613384A CN 202210246205 A CN202210246205 A CN 202210246205A CN 114613384 A CN114613384 A CN 114613384A
Authority
CN
China
Prior art keywords
voice
deep learning
layer
noise
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210246205.2A
Other languages
English (en)
Other versions
CN114613384B (zh
Inventor
黄钰
王立
雷志雄
张晓�
王梦琦
朱宇
马建民
王煦
邓诚
陈卓立
张绪皓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC 10 Research Institute
Original Assignee
CETC 10 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC 10 Research Institute filed Critical CETC 10 Research Institute
Priority to CN202210246205.2A priority Critical patent/CN114613384B/zh
Publication of CN114613384A publication Critical patent/CN114613384A/zh
Application granted granted Critical
Publication of CN114613384B publication Critical patent/CN114613384B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/178Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
    • G10K11/1785Methods, e.g. algorithms; Devices
    • G10K11/17853Methods, e.g. algorithms; Devices of the filter
    • G10K11/17854Methods, e.g. algorithms; Devices of the filter the filter being an adaptive filter
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Noise Elimination (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明公开了一种基于深度学习多输入语音信号波束形成信息互补方法,属于机载语音信号处理领域,包括步骤:S1,深度学习模型的构建和训练;S2,将多输入语音进行预处理后,转变为时频信号输入到已经训练好的深度学习模型中进行重构后得到更为纯净的语音信号;对分离后的语音信号进行语音端点检测和时延估计,得到噪声段和语音段;S3,计算噪声段和语音段的自相关矩阵、最优滤波矩阵、最优权向量;S4,利用最优滤波矩阵滤波输出信号。本发明解决了基于视频掩蔽的语音增强方法存在计算量大的问题,提高了语音质量和稳定性。

Description

一种基于深度学习多输入语音信号波束形成信息互补方法
技术领域
本发明涉及机载语音信号处理领域,更为具体的,涉及一种基于深度学习多输入语音信号波束形成信息互补方法。
背景技术
目前,针对机载语音信号处理领域中的语音信号断续问题的现有解决方案技术,仍然存在以下问题:1)现有选择合并方法方案选择单一信号进行输出,存在造成信号丢失的问题。2)现有等增益合并方法方案中存在容易引入更多噪声,导致合并损失的问题。3)低信噪比下端点检测对语音段检测效果差的问题。
近年来,随着深度学习的快速发展和广泛运用,基于深度学习的语音增强方法成为语音增强的主要研究方向,这类方法主要有基于掩蔽、基于映射以及端到端三类,基于映射的方法在低信噪比下比较有效,而基于掩蔽的方法在高信噪比下性能更佳,端到端的方法似乎更有发展潜力,但其计算量更大,并且往往需要复杂的模型结构。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于深度学习多输入语音信号波束形成信息互补方法,解决了基于视频掩蔽的语音增强方法存在计算量大的问题,提高了语音质量和稳定性。
本发明的目的是通过以下方案实现的:
一种基于深度学习多输入语音信号波束形成信息互补方法,包括:
步骤S1,深度学习模型的构建和训练;
步骤S2,将多输入语音进行预处理后,转变为时频信号输入到已经训练好的深度学习模型中进行重构后得到更为纯净的语音信号;对分离后的语音信号进行语音端点检测和时延估计,得到噪声段和语音段;
步骤S3,计算噪声段和语音段的自相关矩阵、最优滤波矩阵、最优权向量;
步骤S4,利用最优滤波矩阵滤波输出信号。
进一步地,在步骤S1中,包括进行机载环境带噪语音的数据集建立步骤,在该步骤中,通过真实的机载噪声数据以及开源的中文语音数据集,构建所用的数据集,并将其按照比例作为训练集和验证集。
进一步地,在步骤S1中,所述深度学习模型的构建包括选取比值掩码来构建作为深度学习的训练标签:
比值掩码:
Figure BDA0003544751950000021
其中IRM(k,f)、S2(k,f)、V2(k,f)分别表示为在k时刻的时频单元掩码值、信号能量以及噪声能量,β表示为一个可调节的参数;
设神经网络的输出是
Figure BDA0003544751950000022
则损失函数Loss设计为:
Figure BDA0003544751950000023
进一步地,在步骤S1中,所述深度学习模型包括输入层、隐藏层、输出层,输入层与隐藏层连接,隐藏层与输出层连接;所述隐藏层由多个Block构成,Block由全连接层、激活函数层、批归一化层、弃权层构成;在一个Block中,全连接层与输入层连接,同时与激活函数层连接,激活函数层与批归一化层连接,批归一化层与弃权层连接,弃权层与下一个Block层连接。
进一步地,在步骤S2中,所述预处理包括分帧加窗和短时傅里叶变换。
进一步地,在步骤S2中,所述进行重构具体为将经过深度学习模型的多输入语音信号经过逆变换,得到重构的语音信号。
进一步地,在步骤S3中,所述计算噪声段和语音段的自相关矩阵,包括子步骤:
计算噪声段和语音段的自相关矩阵:设输入i路语音信号,yii)=αis(k-τi)+vi(k),其中i=1,2,...,n,αi表示各路通道所接收到的语音信号相对与原始纯净语音信号系数;s(k)表示原始的纯净语音信号;τi表示各路通道所接收到的语音信号相对与原始纯净语音信号的相对时延;vi(k)表示各路通道所接收到的语音信号相对于原始纯净语音信号的噪声;
带噪语音自相关矩阵Ryy按照如下公式计算:
Ryy=E[y(k)yT(k)],其中
Figure BDA0003544751950000031
E[]表示求期望值;
噪声自相关矩阵Rvv按照如下公式计算:Rvv=E[v(k)vT(k)],其中
Figure BDA0003544751950000032
进一步地,在步骤S3中,所述最优滤波矩阵按照如下公式进行计算:
Figure BDA0003544751950000033
其中i代表通道数,
Figure BDA0003544751950000034
Figure BDA0003544751950000035
Wi,0表示对通道i的最优滤波矩阵;
由上式得到Wi,0和单位矩阵
Figure BDA0003544751950000036
构成的满秩矩阵
Figure BDA0003544751950000037
进一步地,在步骤S3中,所述最优权向量包括如下公式计算:
Figure BDA0003544751950000038
Figure BDA0003544751950000041
其中h表示最优滤波器,
Figure BDA0003544751950000042
Figure BDA0003544751950000043
表示在最优滤波器变换的条件下,hy TRyyhy和hv TRvvhv代表带噪语音和噪声的输出功率,s.t.表示在约束条件下,WT表示最优滤波矩阵的转置,u'=[1,0,...,0]T是长度为Lh的矢量;
最后得到:
Figure BDA0003544751950000044
Figure BDA0003544751950000045
hST,y表示对带噪语音求得的最优滤波器,hST,v表示对噪声求得的最优滤波器。
进一步地,在步骤S4中,利用最优滤波矩阵滤波输出信号包括子步骤:使用hST,v作为滤波矩阵,最优滤波器输出的合成信号为:
Figure BDA0003544751950000046
其中
Figure BDA0003544751950000047
为滤波输出信号,hi,ST,v代表通道i的最优滤波矩阵,xir(k)和vir(k)分别为经过最优滤波器滤波后的语音和残留噪声。
本发明的有益效果包括:
本发明改善了在利用多输入语音信息之间互相补充来保证信息完整度时,由于信噪比低引起的端点检测效果差,从而使输出结果变差这一问题,这样能够增强空地、机间的通话质量以及通话稳定性。参阅图13,在信噪比低的时候,相比于图3图4中的结果,本发明能在保留完整的语音信息的同时,能够较改进前有效的提高语音质量。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为现有进行多通道语音信号比较选通的原理示意图;
图2为信噪比较差的4输入信号,带有不同的噪声类型、不同的噪声大小、不同的时间延迟;
图3为图2中4输入信号直接进行等增益合并的结果;
图4为图2中的信号采用波束形成的方法输出的结果,效果略好于等增益合并;
图5为图2中的信号采用波束形成方法前,选用语音端点检测确认语音段,可以看到低信噪比情况下无法准确的识别语音段;
图6为本发明实施例方法的步骤流程图;
图7为深度学习的语音分离方法,分为三个板块:获取数据、数据预处理和特征提取、语音分离;
图8为语音分离测试时的输入信号;
图9为图8所示信号经过训练后的模型的输出语音信号;
图10为图8所示信号经过训练后的模型的输出噪声信号;
图11为使用的神经网络结构;
图12为训练结果;
图13为图2中4输入信号经本发明实施例方法深度学习改进的多输入语音信号波束形成处理输出的结果。
具体实施方式
本说明书中所有实施例公开的所有特征,或隐含公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合和/或扩展、替换。
本发明旨在解决分集合并方法中的选择合并方法中选择单一信号进行输出,造成信号丢失的问题。其问题可参阅图1,和图1中问题相似。以及本发明还可解决分集合并方法中等增益合并方法中容易引入更多噪声,导致合并损失的问题,参阅图3。本发明还可解决低信噪比下端点检测对语音段检测效果差的问题,参阅图5。
本发明针对机载环境下多输入语音信号的波束形成方法中存在的低信噪比情况下语音端点检测方法无法准确的确定语音段和噪声段这一问题,提出一种基于深度学习多输入语音信号波束形成信息互补方法,基于改进的深度学习,详细技术方案如下:
深度学习模型训练过程,参阅图7:进行机载环境带噪语音的数据集建立、深度学习模型训练、深度学习模型测试;
深度学习改进的多输入语音信号波束形成处理,参阅图8:将多输入语音进行预处理后,转变为时频信号输入到已经训练好的模型中,随后进行逆变换得到分离后更为纯净的语音信号;对分离后的语音信号进行语音端点检测和时延估计,得到噪声段和语音段;计算噪声段和语音段的自相关矩阵、最优滤波矩阵、最优权向量;滤波输出信号。
在具体实施过程中,包括如下步骤:
一、深度学习模型训练:
第一步,通过真实的机载噪声数据以及开源的中文语音数据集,构建本文所用的数据集,最后得到约150小时,采样率为16kHz的数据集,将其按照4:1的比例作为训练集和验证集;
第二步,选取比值掩码来构建作为深度学习的训练标签;
比值掩码:
Figure BDA0003544751950000071
其中IRM(k,f)、S2(k,f)、V2(k,f)分别表示为在k时刻的时频单元掩码值、信号能量以及噪声能量。β表示为一个可调节的参数,一般取0.5。
假设神经网络的输出是
Figure BDA0003544751950000072
则损失函数为:
Figure BDA0003544751950000073
第三步,网络模型,参阅图11。在这里选用4层神经网络作为网络模型,每层网络的单元取1300,设置迭代次数为500,最小批次为128,学习率为0.01,使用随机梯度下降法更新权重,训练结果参阅图12;
第四步,分离效果测试:参阅图8、图9、图10中的单通道语音信号的分离效果,以及表1中欧氏距离及加权结果。
二、深度学习改进的多输入语音信号波束形成处理:
第一步,进行分帧加窗等预处理以及短时傅里叶变换,将多输入的语音信号输入到训练好的深度学习模型中;
分帧时间:25ms
加窗:Sw(n)=S(n)·w(n),其中Sw(n)为加窗后的函数,S(n)为需要加窗的函数,w(n)为窗函数,w(n)选取汉明窗,
Figure BDA0003544751950000081
短时傅里叶变换:
Figure BDA0003544751950000082
其中x(m)是离散时域采样信号,w(m)是窗序列,w(m+n)可以视为窗沿时间移动到不同位所取STFT。
第二步,将经过深度学习模型的多输入语音信号经过逆变换,得到重构的语音信号:
第三步,进行语音端点检测和时延估计,求得语音信号的语音段和噪声段;
计算噪声段和语音段的自相关矩阵:设输入i路语音信号,yii)=αis(k-τi)+vi(k),其中i=1,2,...,n,αi表示各路通道所接收到的语音信号相对与原始纯净语音信号系数;s(k)表示原始的纯净语音信号;τi表示各路通道所接收到的语音信号相对与原始纯净语音信号的相对时延;vi(k)表示各路通道所接收到的语音信号相对于原始纯净语音信号的噪声。
带噪语音自相关矩阵计算:
Ryy=E[y(k)yT(k)],其中
Figure BDA0003544751950000083
噪声自相关矩阵计算:Rvv=E[v(k)vT(k)],其中
Figure BDA0003544751950000084
第四步,计算最优滤波矩阵;
Figure BDA0003544751950000085
其中i代表通道数,
Figure BDA0003544751950000086
Figure BDA0003544751950000087
Wi,0表示对通道i的最优滤波矩阵。
得到Wi,0和单位矩阵
Figure BDA0003544751950000088
构成的满秩矩阵
Figure BDA0003544751950000089
第五步,计算最优权向量,即解决:
Figure BDA0003544751950000091
Figure BDA0003544751950000092
其中h表示最优滤波器,
Figure BDA0003544751950000093
Figure BDA0003544751950000094
表示在最优滤波器变换的条件下,hy TRyyhy和hv TRvvhv代表带噪语音和噪声的输出功率,s.t.表示subjectto,即在…约束条件下,WT表示最优滤波矩阵的转置,u'=[1,0,...,0]T是长度为Lh的矢量;
最后得到:
Figure BDA0003544751950000095
Figure BDA0003544751950000096
hST,y表示对带噪语音求得的最优滤波器,hST,v表示对噪声求得的最优滤波器。
第六步,由于算法条件下语音和噪声是完全不相关,所以当整个带噪语音滤波后输出功率最小时,噪声的输出功率也同时是最小的。但实际上并不会完全成立,为了防止语音段的信息被滤,所以在这里使用hST,v作为滤波矩阵,滤波输出信号:
Figure BDA0003544751950000097
其中
Figure BDA0003544751950000098
为滤波输出信号,hi,ST,v代表通道i的最优滤波矩阵,xir(k)和vir(k)分别为经过最优滤波器滤波后的语音和残留噪声。
如图1所示,以四天线接收语音123456789为例,出现语音断续时,多通道语音信号比较选通。由于仅做了选通处理,输出信号仍然会导致语音断续、字词丢失,无法得到完整的信息。
如图2所示,信噪比较差的4输入信号,带有不同的噪声类型、不同的噪声大小、不同的时间延迟。
如图3所示,图2中4输入信号直接进行等增益合并的结果。
如图4所示,图2中的信号采用波束形成的方法输出的结果,效果略好于等增益合并。
如图5所示,图2中的信号采用波束形成方法前,选用语音端点检测确认语音段,可以看到低信噪比情况下无法准确的识别语音段。
如图6所示,本发明实施例方法流程图。
如图7所示,深度学习的语音分离方法,分为三个板块:获取数据、数据预处理和特征提取、语音分离。
如图8所示,语音分离测试时的输入信号。
如图9所示,图8所示信号经过训练后的模型的输出语音信号。
如图10所示,图8所示信号经过训练后的模型的输出噪声信号。
如图11所示,使用的神经网络结构。
如图12所示,为训练结果。
如图13所示,图2中4输入信号经深度学习改进的多输入语音信号波束形成处理输出的结果。
表1为深度学习模型输出的五条单通道测试音频的欧氏距离及加权结果。
表2为十条四输入信号的PESQ评分。
表3为测试的十条信号经深度学习改进的多输入语音信号波束形成处理输出信号的PESQ评分以及和对比提升。
表1
Figure BDA0003544751950000111
表2
Figure BDA0003544751950000112
表3
Figure BDA0003544751950000113
Figure BDA0003544751950000121
实施例1
一种基于深度学习多输入语音信号波束形成信息互补方法,其特征在于,包括:
步骤S1,深度学习模型的构建和训练;
步骤S2,将多输入语音进行预处理后,转变为时频信号输入到已经训练好的深度学习模型中进行重构后得到更为纯净的语音信号;对分离后的语音信号进行语音端点检测和时延估计,得到噪声段和语音段;
步骤S3,计算噪声段和语音段的自相关矩阵、最优滤波矩阵、最优权向量;
步骤S4,利用最优滤波矩阵滤波输出信号。
实施例2
基于实施例1,在步骤S1中,包括进行机载环境带噪语音的数据集建立步骤,在该步骤中,通过真实的机载噪声数据以及开源的中文语音数据集,构建所用的数据集,并将其按照比例作为训练集和验证集。
实施例3
基于实施例1,在步骤S1中,所述深度学习模型的构建包括选取比值掩码来构建作为深度学习的训练标签:
比值掩码:
Figure BDA0003544751950000122
其中IRM(k,f)、S2(k,f)、V2(k,f)分别表示为在k时刻的时频单元掩码值、信号能量以及噪声能量,β表示为一个可调节的参数;
设神经网络的输出是
Figure BDA0003544751950000131
则损失函数Loss设计为:
Figure BDA0003544751950000132
实施例4
基于实施例1,在步骤S1中,所述深度学习模型包括输入层、隐藏层、输出层,输入层与隐藏层连接,隐藏层与输出层连接;所述隐藏层由多个Block构成,Block由全连接层、激活函数层、批归一化层、弃权层构成;在一个Block中,全连接层与输入层连接,同时与激活函数层连接,激活函数层与批归一化层连接,批归一化层与弃权层连接,弃权层与下一个Block层连接。
实施例5
基于实施例1,在步骤S2中,所述预处理包括分帧加窗和短时傅里叶变换。
实施例6
基于实施例1,在步骤S2中,所述进行重构具体为将经过深度学习模型的多输入语音信号经过逆变换,得到重构的语音信号。
实施例7
基于实施例1,在步骤S3中,所述计算噪声段和语音段的自相关矩阵,包括子步骤:
计算噪声段和语音段的自相关矩阵:设输入i路语音信号,yii)=αis(k-τi)+vi(k),其中i=1,2,...,n,αi表示各路通道所接收到的语音信号相对与原始纯净语音信号系数;s(k)表示原始的纯净语音信号;τi表示各路通道所接收到的语音信号相对与原始纯净语音信号的相对时延;vi(k)表示各路通道所接收到的语音信号相对于原始纯净语音信号的噪声;
带噪语音自相关矩阵Ryy按照如下公式计算:
Ryy=E[y(k)yT(k)],其中
Figure BDA0003544751950000141
E[]表示求期望值;
噪声自相关矩阵Rvv按照如下公式计算:Rvv=E[v(k)vT(k)],其中
Figure BDA0003544751950000142
实施例8
基于实施例7,在步骤S3中,所述最优滤波矩阵按照如下公式进行计算:
Figure BDA0003544751950000143
其中i代表通道数,
Figure BDA0003544751950000144
Figure BDA0003544751950000145
Wi,0表示对通道i的最优滤波矩阵;
由上式得到Wi,0和单位矩阵
Figure BDA0003544751950000146
构成的满秩矩阵
Figure BDA0003544751950000147
实施例9
基于实施例8,在步骤S3中,所述最优权向量包括如下公式计算:
计算最优权向量实质上是解决波束形成方法中的最优化问题,即解决:
Figure BDA0003544751950000148
Figure BDA0003544751950000149
其中h表示最优滤波器,
Figure BDA00035447519500001410
Figure BDA00035447519500001411
表示在最优滤波器变换的条件下,hy TRyyhy和hv TRvvhv代表带噪语音和噪声的输出功率,s.t.表示在约束条件下,WT表示最优滤波矩阵的转置,u'=[1,0,...,0]T是长度为Lh的矢量;
最后得到:
Figure BDA0003544751950000151
Figure BDA0003544751950000152
hST,y表示对带噪语音求得的最优滤波器,hST,v表示对噪声求得的最优滤波器。
实施例10
基于实施例10,在步骤S4中,利用最优滤波矩阵滤波输出信号包括子步骤:
由于算法条件下语音和噪声是完全不相关,所以当整个带噪语音滤波后输出功率最小时,噪声的输出功率也同时是最小的。但实际上并不会完全成立,为了防止语音段的信息被滤,所以在这里使用hST,v作为滤波矩阵。
最优滤波器输出的合成信号为:
Figure BDA0003544751950000153
其中
Figure BDA0003544751950000154
为滤波输出信号,hi,ST,v代表通道i的最优滤波矩阵,xir(k)和vir(k)分别为经过最优滤波器滤波后的语音和残留噪声。
除以上实例以外,本领域技术人员根据上述公开内容获得启示或利用相关领域的知识或技术进行改动获得其他实施例,各个实施例的特征可以互换或替换,本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

Claims (10)

1.一种基于深度学习多输入语音信号波束形成信息互补方法,其特征在于,包括:
步骤S1,深度学习模型的构建和训练;
步骤S2,将多输入语音进行预处理后,转变为时频信号输入到已经训练好的深度学习模型中进行重构后得到更为纯净的语音信号;对分离后的语音信号进行语音端点检测和时延估计,得到噪声段和语音段;
步骤S3,计算噪声段和语音段的自相关矩阵、最优滤波矩阵、最优权向量;
步骤S4,利用最优滤波矩阵滤波输出信号。
2.根据权利要求1所述的基于深度学习多输入语音信号波束形成信息互补方法,其特征在于,在步骤S1中,包括进行机载环境带噪语音的数据集建立步骤,在该步骤中,通过真实的机载噪声数据以及开源的中文语音数据集,构建所用的数据集,并将其按照比例作为训练集和验证集。
3.根据权利要求1所述的基于深度学习多输入语音信号波束形成信息互补方法,其特征在于,在步骤S1中,所述深度学习模型的构建包括选取比值掩码来构建作为深度学习的训练标签:
比值掩码:
Figure FDA0003544751940000011
其中IRM(k,f)、S2(k,f)、V2(k,f)分别表示为在k时刻的时频单元掩码值、信号能量以及噪声能量,β表示为一个可调节的参数;
设神经网络的输出是
Figure FDA0003544751940000012
则损失函数Loss设计为:
Figure FDA0003544751940000013
4.根据权利要求1所述的基于深度学习多输入语音信号波束形成信息互补方法,其特征在于,在步骤S1中,所述深度学习模型包括输入层、隐藏层、输出层,输入层与隐藏层连接,隐藏层与输出层连接;所述隐藏层由多个Block构成,Block由全连接层、激活函数层、批归一化层、弃权层构成;在一个Block中,全连接层与输入层连接,同时与激活函数层连接,激活函数层与批归一化层连接,批归一化层与弃权层连接,弃权层与下一个Block层连接。
5.根据权利要求1所述的基于深度学习多输入语音信号波束形成信息互补方法,其特征在于,在步骤S2中,所述预处理包括分帧加窗和短时傅里叶变换。
6.根据权利要求1所述的基于深度学习多输入语音信号波束形成信息互补方法,其特征在于,在步骤S2中,所述进行重构具体为将经过深度学习模型的多输入语音信号经过逆变换,得到重构的语音信号。
7.根据权利要求1所述的基于深度学习多输入语音信号波束形成信息互补方法,其特征在于,在步骤S3中,所述计算噪声段和语音段的自相关矩阵,包括子步骤:
计算噪声段和语音段的自相关矩阵:设输入i路语音信号,yii)=αis(k-τi)+vi(k),其中i=1,2,...,n,αi表示各路通道所接收到的语音信号相对与原始纯净语音信号系数;s(k)表示原始的纯净语音信号;τi表示各路通道所接收到的语音信号相对与原始纯净语音信号的相对时延;vi(k)表示各路通道所接收到的语音信号相对于原始纯净语音信号的噪声;
带噪语音自相关矩阵Ryy按照如下公式计算:
Ryy=E[y(k)yT(k)],其中
Figure FDA0003544751940000021
E[]表示求期望值;
噪声自相关矩阵Rvv按照如下公式计算:Rvv=E[v(k)vT(k)],其中
Figure FDA0003544751940000031
8.根据权利要求7所述的基于深度学习多输入语音信号波束形成信息互补方法,其特征在于,在步骤S3中,所述最优滤波矩阵按照如下公式进行计算:
Figure FDA0003544751940000032
其中i代表通道数,
Figure FDA0003544751940000033
Figure FDA0003544751940000034
Wi,0表示对通道i的最优滤波矩阵;
由上式得到Wi,0和单位矩阵
Figure FDA0003544751940000035
构成的满秩矩阵
Figure FDA0003544751940000036
9.根据权利要求8所述的基于深度学习多输入语音信号波束形成信息互补方法,其特征在于,在步骤S3中,所述最优权向量包括如下公式计算:
Figure FDA0003544751940000037
Figure FDA0003544751940000038
其中h表示最优滤波器,
Figure FDA0003544751940000039
Figure FDA00035447519400000310
表示在最优滤波器变换的条件下,hy TRyyhy和hv TRvvhv代表带噪语音和噪声的输出功率,s.t.表示在约束条件下,WT表示最优滤波矩阵的转置,u'=[1,0,...,0]T是长度为Lh的矢量;
最后得到:
Figure FDA00035447519400000311
Figure FDA00035447519400000312
hST,y表示对带噪语音求得的最优滤波器,hST,v表示对噪声求得的最优滤波器。
10.根据权利要求1所述的基于深度学习多输入语音信号波束形成信息互补方法,其特征在于,在步骤S4中,利用最优滤波矩阵滤波输出信号包括子步骤:
使用hST,v作为滤波矩阵,最优滤波器输出的合成信号为:
Figure FDA0003544751940000041
其中
Figure FDA0003544751940000042
为滤波输出信号,hi,ST,v代表通道i的最优滤波矩阵,xir(k)和vir(k)分别为经过最优滤波器滤波后的语音和残留噪声。
CN202210246205.2A 2022-03-14 2022-03-14 一种基于深度学习多输入语音信号波束形成信息互补方法 Active CN114613384B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210246205.2A CN114613384B (zh) 2022-03-14 2022-03-14 一种基于深度学习多输入语音信号波束形成信息互补方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210246205.2A CN114613384B (zh) 2022-03-14 2022-03-14 一种基于深度学习多输入语音信号波束形成信息互补方法

Publications (2)

Publication Number Publication Date
CN114613384A true CN114613384A (zh) 2022-06-10
CN114613384B CN114613384B (zh) 2023-08-29

Family

ID=81863440

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210246205.2A Active CN114613384B (zh) 2022-03-14 2022-03-14 一种基于深度学习多输入语音信号波束形成信息互补方法

Country Status (1)

Country Link
CN (1) CN114613384B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114898732A (zh) * 2022-07-05 2022-08-12 深圳瑞科曼环保科技有限公司 一种可调整频率范围的噪音处理方法及系统

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108615533A (zh) * 2018-03-28 2018-10-02 天津大学 一种基于深度学习的高性能语音增强方法
CN108845325A (zh) * 2018-05-25 2018-11-20 西南电子技术研究所(中国电子科技集团公司第十研究所) 拖曳线列阵声纳子阵误差失配估计方法
US20190043491A1 (en) * 2018-05-18 2019-02-07 Intel Corporation Neural network based time-frequency mask estimation and beamforming for speech pre-processing
CN110287481A (zh) * 2019-05-29 2019-09-27 西南电子技术研究所(中国电子科技集团公司第十研究所) 命名实体语料标注训练系统
US20190341054A1 (en) * 2018-05-07 2019-11-07 Microsoft Technology Licensing, Llc Multi-modal speech localization
CN110473564A (zh) * 2019-07-10 2019-11-19 西北工业大学深圳研究院 一种基于深度波束形成的多通道语音增强方法
WO2020042708A1 (zh) * 2018-08-31 2020-03-05 大象声科(深圳)科技有限公司 基于时频掩蔽和深度神经网络的声源方向估计方法
CN111292762A (zh) * 2018-12-08 2020-06-16 南京工业大学 一种基于深度学习的单通道语音分离方法
CN111508516A (zh) * 2020-03-31 2020-08-07 上海交通大学 基于信道关联时频掩膜的语音波束形成方法
CN113724727A (zh) * 2021-09-02 2021-11-30 哈尔滨理工大学 基于波束形成的长短时记忆网络语音分离算法
US11218802B1 (en) * 2018-09-25 2022-01-04 Amazon Technologies, Inc. Beamformer rotation

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108615533A (zh) * 2018-03-28 2018-10-02 天津大学 一种基于深度学习的高性能语音增强方法
US20190341054A1 (en) * 2018-05-07 2019-11-07 Microsoft Technology Licensing, Llc Multi-modal speech localization
US20190043491A1 (en) * 2018-05-18 2019-02-07 Intel Corporation Neural network based time-frequency mask estimation and beamforming for speech pre-processing
CN108845325A (zh) * 2018-05-25 2018-11-20 西南电子技术研究所(中国电子科技集团公司第十研究所) 拖曳线列阵声纳子阵误差失配估计方法
WO2020042708A1 (zh) * 2018-08-31 2020-03-05 大象声科(深圳)科技有限公司 基于时频掩蔽和深度神经网络的声源方向估计方法
US11218802B1 (en) * 2018-09-25 2022-01-04 Amazon Technologies, Inc. Beamformer rotation
CN111292762A (zh) * 2018-12-08 2020-06-16 南京工业大学 一种基于深度学习的单通道语音分离方法
CN110287481A (zh) * 2019-05-29 2019-09-27 西南电子技术研究所(中国电子科技集团公司第十研究所) 命名实体语料标注训练系统
CN110473564A (zh) * 2019-07-10 2019-11-19 西北工业大学深圳研究院 一种基于深度波束形成的多通道语音增强方法
CN111508516A (zh) * 2020-03-31 2020-08-07 上海交通大学 基于信道关联时频掩膜的语音波束形成方法
CN113724727A (zh) * 2021-09-02 2021-11-30 哈尔滨理工大学 基于波束形成的长短时记忆网络语音分离算法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王秋菊: "机载噪声环境下语音增强研究", 中国优秀硕士/博士学位论文全文数据库 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114898732A (zh) * 2022-07-05 2022-08-12 深圳瑞科曼环保科技有限公司 一种可调整频率范围的噪音处理方法及系统
CN114898732B (zh) * 2022-07-05 2022-12-06 深圳瑞科曼环保科技有限公司 一种可调整频率范围的噪音处理方法及系统

Also Published As

Publication number Publication date
CN114613384B (zh) 2023-08-29

Similar Documents

Publication Publication Date Title
CN110827837B (zh) 一种基于深度学习的鲸鱼活动音频分类方法
CN109830245A (zh) 一种基于波束成形的多说话者语音分离方法及系统
CN108899044A (zh) 语音信号处理方法及装置
CN109490822B (zh) 基于ResNet的语音DOA估计方法
CN110718232B (zh) 一种基于二维语谱图和条件生成对抗网络的语音增强方法
Zhang et al. On end-to-end multi-channel time domain speech separation in reverberant environments
CN108922513A (zh) 语音区分方法、装置、计算机设备及存储介质
CN110728989B (zh) 一种基于长短时记忆网络lstm的双耳语音分离方法
CN109584903A (zh) 一种基于深度学习的多人语音分离方法
CN110197665B (zh) 一种用于公安刑侦监听的语音分离与跟踪方法
CN112331216A (zh) 基于复合声学特征和低秩分解tdnn的说话人识别系统及方法
CN106847267B (zh) 一种连续语音流中的叠音检测方法
CN109427328A (zh) 一种基于滤波网络声学模型的多通道语音识别方法
CN113936681B (zh) 一种基于掩膜映射和混合空洞卷积网络的语音增强方法
CN109036470A (zh) 语音区分方法、装置、计算机设备及存储介质
Shi et al. End-to-End Monaural Speech Separation with Multi-Scale Dynamic Weighted Gated Dilated Convolutional Pyramid Network.
Xiao et al. Beamforming networks using spatial covariance features for far-field speech recognition
CN109300470A (zh) 混音分离方法和混音分离装置
CN112201276B (zh) 基于TC-ResNet网络的麦克风阵列语音分离方法
CN114387997B (zh) 一种基于深度学习的语音情感识别方法
CN114613384B (zh) 一种基于深度学习多输入语音信号波束形成信息互补方法
CN117310668A (zh) 融合注意力机制与深度残差收缩网络的水声目标识别方法
CN110415685A (zh) 一种语音识别方法
Li et al. Speaker and direction inferred dual-channel speech separation
CN115713943A (zh) 基于复空间角中心高斯混合聚类模型和双向长短时记忆网络的波束成形语音分离方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant