CN113744751A - 一种应用于麦克风阵列的多通道语音信号增强方法 - Google Patents

一种应用于麦克风阵列的多通道语音信号增强方法 Download PDF

Info

Publication number
CN113744751A
CN113744751A CN202110935773.9A CN202110935773A CN113744751A CN 113744751 A CN113744751 A CN 113744751A CN 202110935773 A CN202110935773 A CN 202110935773A CN 113744751 A CN113744751 A CN 113744751A
Authority
CN
China
Prior art keywords
vector
voice
frame
channel
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110935773.9A
Other languages
English (en)
Other versions
CN113744751B (zh
Inventor
姜彦吉
梁振兴
张胜
邱友利
田桂源
张潇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huayan Huisheng Suzhou Electronic Technology Co ltd
Suzhou Automotive Research Institute of Tsinghua University
Original Assignee
Huayan Huisheng Suzhou Electronic Technology Co ltd
Suzhou Automotive Research Institute of Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huayan Huisheng Suzhou Electronic Technology Co ltd, Suzhou Automotive Research Institute of Tsinghua University filed Critical Huayan Huisheng Suzhou Electronic Technology Co ltd
Priority to CN202110935773.9A priority Critical patent/CN113744751B/zh
Publication of CN113744751A publication Critical patent/CN113744751A/zh
Application granted granted Critical
Publication of CN113744751B publication Critical patent/CN113744751B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明公开了一种应用于麦克风阵列的多通道语音信号增强方法,包括以下步骤:生成训练数据;对所述训练数据进行预处理;对预处理结果进行通道间特征提取;设计多通道滤波器;利用所述各个通道的滤波器对对应通道的第一分帧语音数据或第二分帧语音数据或带噪语音数据进行滤波操作,得到经过滤波后的增强语音信号;对各个通道的增强语音信号进行加权求和、取平均操作,以得到目标输出语音。本发明提供的多通道语音信号增强方法充分考虑降噪空间的空间特性,采用创新方法提取多通道间特征,并设计双阶段Bi‑LSTM作为多通道滤波器,使得声场传输特性表达更准确。

Description

一种应用于麦克风阵列的多通道语音信号增强方法
技术领域
本发明涉及语音降噪领域,尤其涉及一种应用于麦克风阵列的多通道语音信号增强方法。
背景技术
传统的多通道语音增强方法主要是基于集中式的麦克风阵列,对于分布式麦克风阵列的多通道语音增强方法研究较少。集中式麦克风阵列的算法多是基于信号处理方法,比如常见的波束成形算法。按照算法参数,波束成形方法可分为固定波束形成方法和自适应波束形成方法。固定波束形成方法基于固定结构的麦克阵列,算法设置好麦克阵列的每个方向上的滤波系数,使得阵列对特定需求方向上的声源进行增强,指向性是固定的,常见的是多通道的延迟求和法;自适应波束形成算法可以不依赖麦克风的结构位置,其滤波系数可以自适应调整,适应新环境能力比较强,常见的是多通道维纳滤波法。
基于信号处理方法的多通道语音增强具有计算实时性好的优点,但是算法设计往往基于一定假设条件,比如假设信号是平面波传播,声场均匀绝热,噪声是平稳的等等,算法在推导过程中也有一些数学上的近似,但这与实际真实场景是不相符的,并没有考虑到降噪空间的空间特性。所以这些方法在实际应用场景中,降噪性能较难提升。
发明内容
为了解决现有技术的问题,本发明提供了一种应用于麦克风阵列的多通道语音信号增强方法,具体技术方案如下:
本发明提供了一种应用于麦克风阵列的多通道语音信号增强方法,包括以下步骤:
S1、生成训练数据,包括:将预采集的语音数据输入模拟麦克风阵列场景以生成多通道的模拟语音数据,并将其与预采集或预处理的噪声数据相加,得到带噪语音数据;
S2、对所述训练数据进行预处理,包括:对带噪语音数据进行分帧处理,得到多个第一分帧语音数据,并对所述第一分帧语音数据添加上文语音窗口和/或下文语音窗口,得到多个第二分帧语音数据;
S3、对预处理结果进行通道间特征提取,包括:对所述第一分帧语音数据进行处理得到在各个帧处的第一语音特征向量;对所述第二分帧语音数据进行处理得到在各个帧处的第二语音特征向量;
S4、设计多通道滤波器,包括:将所述第一语音特征向量与第二语音特征向量联合,通过对联合后的向量进行维度调整、卷积、分块的操作后,将操作结果输入Bi-LSTM层和/或Linear层,得到层输出数据;并对所述层输出数据进行维度调整和分块合并操作,生成各个通道的滤波器;
S5、利用所述各个通道的滤波器对对应通道的第一分帧语音数据或第二分帧语音数据或带噪语音数据进行滤波操作,得到经过滤波后的增强语音信号;
S6、对各个通道的增强语音信号进行加权求和、取平均操作,以得到目标输出语音。
进一步地,步骤S3中,所述对所述第一分帧语音数据进行处理得到在各个帧处的第一语音特征向量包括:对每个第一分帧语音数据进行卷积操作及GroupNorm操作,得到在该帧处的第一语音特征向量;
所述对所述第二分帧语音数据进行处理得到在各个帧处的第二语音特征向量包括以下步骤:
S31、对所述第二分帧语音数据在帧长维度上进行平均值池化操作;
S32、将平均值池化结果输入到一组全连接层中进行数据处理;
S33、将所述全连接层输出的处理结果输入到Softmax函数,得到在各个帧处的权重向量;
S34、根据所述各个帧处的权重值,得到该帧处的第二语音特征向量。
优选地,步骤S31中的平均值池化操作包括:
Figure BDA0003212797620000031
其中,
Figure BDA0003212797620000032
是第i麦克风在帧数t处的平均值,N为麦克风阵列中麦克风的数量;
步骤S32中的数据处理包括:
Figure BDA0003212797620000033
其中,Gt是在帧数为t的麦克风阵列特征,P(*)为一组带有参数修正线性单元激活函数的全连接层,S(*)是一个带有Sigmoid激活函数的全连接层。
进一步地,步骤S4中所述设计多通道滤波器的步骤包括:
S41、将步骤S3中得到的第一语音特征向量与第二语音特征向量进行联合:xbt=concat([outt,yt]),其中,outt为第二语音特征向量,yt为第一语音特征向量,xbt表示在帧数t处的联合语音向量,xb表示联合后的语音向量;
S42、将步骤S41中联合后的语音向量进行维度调整,再输入到一维卷积中:
Figure BDA0003212797620000034
其中c为卷积输出结果,其向量维度为N×M×Z,其中,N为麦克风阵列中麦克风的数量,M为分帧处理的帧长采样点数量,Z为各个通道内分帧处理的帧数;
S43、对步骤S42中的卷积输出结果进行分块操作,设置块长为S、总块数为U,得到分块后的向量O,其向量维度为N×M×S×U;
S44、对步骤S43中分块后的向量O进行调整维度:out=reshape(O),调整后的向量out的向量维度为(S×N)×U×M;
S45、将out依次输入到Bi-LSTM、Linear层,并进行GroupNorm正则化操作如下:out1=GroupNorm(Linear(BiLSTM(out)));
S46、对out1进行维度调整:out2=reshape(out1),调整后的向量out2的向量维度为N×M×S×U;
S47、对分块进行合并:out8=OD(out2),其中,OD(·)是合并操作,out8为得到的合并向量,其向量维度为M×N×Z;
S48、将步骤S47中得到的合并向量分别输入到带有Tanh激活函数的一维卷积中:h=Tanh(Conv1d(out8)),其中,h的向量维度为N×C×Z,其中C为一维卷积的输出通道数;
S49、将h变换形状:Filter=reshape(h),其中,Filter为生成的多通道滤波器,其向量维度为N×Z×C。
优选地,在步骤S46与S47之间,还包括对步骤S47中的向量out2执行以下步骤以生成新的合并操作的对象:
S46-1-47、网络使用跳跃连接,将out2与O进行相加:out3=out2+O;
S46-2-47、对out3进行维度调整:out4=reshape(out3),其中out4的向量维度为(U×N)×S×M;
S46-3-47、将out4依次输入到第二阶Bi-LSTM层、Linear层,并进行GroupNorm正则化操作:out5=GroupNorm(Linear(BiLSTM(out4)));
S46-4-47、对out5进行维度调整:out6=reshape(out5),其中out6的向量维度为N×M×S×U;
S46-5-47、网络再次使用跳跃连接,将out6与out3进行相加:out7=out6+out3
S46-6-47、对out7调整维度,将调整维度的结果reshape(out7)作为步骤S47中的合并操作的对象,使步骤S47执行out8=OD(reshape(out7))。
优选地,所述多通道语音信号增强方法还包括对步骤S47得到的合并向量out8进行二维卷积操作:out9=Conv2d(out8),其中,out9的向量维度为M×N×S×U,二维卷积操作的输出通道数为N;
将out9作为步骤S48中输入到带有激活函数的一维卷积中的操作对象,且步骤S48中输入到带有Tanh激活函数的一维卷积的同时,还输入到带有Sigmoid激活函数的一维卷积中,并对两个输出结果进行相乘操作:h=Tanh(Conv1d(out9))⊙Sigmoid(Conv1d(out9)),其中,⊙为哈达玛积。
进一步地,步骤S1中生成训练数据的步骤包括:
S11、从预采集的语音数据集中随机选取一个语音音频,从预采集的噪声数据集中随机选取一个噪声音频;
S12、将选取的语音音频和噪声音频按照预设时长进行切分,分别得到多个语音切分音频和多个噪声切分音频;
S13、根据预设的降噪空间尺寸和麦克风、语音音频声源、噪声源在所述降噪空间内的位置,使用gpuRIR工具包,对所述多个语音切分音频进行模拟声音回响,得到模拟语音数据;并在预设的信噪比范围内,将所述噪声切分音频按照不同的信噪比与所述模拟语音数据进行相加,得到多个带噪语音。
进一步地,步骤S2中对所述训练数据进行预处理的步骤包括:
S21、对带噪语音数据的前后进行补零;
S22、对补零后的带噪语音数据进行分帧处理,设置帧长M和帧移K,以确定采样点,得到相应的语音向量,作为第一分帧语音数据,
Figure BDA0003212797620000051
其中,t是帧索引值,i是麦克风的索引,
Figure BDA0003212797620000052
表示第i麦克风在帧t处的语音向量,其向量维度为1×M,Z为帧数;
S23、对分帧后的带噪语音数据添加上下文语音窗口,得到相应的语音向量,作为第二分帧语音数据,
Figure BDA0003212797620000053
其中,W为上下文窗口大小,
Figure BDA0003212797620000054
是第i麦克风在t帧处包含上下文的语音向量,其向量维度为2W+M。
优选地,在步骤S5中所述各个通道的滤波器对对应通道第二分帧语音数据进行滤波操作后,还需要去掉先前所补的零,使得经过滤波后的增强语音信号恢复到原来的语音长度。
优选地,步骤S34中通过以下公式得到语音特征序列,作为该帧处的第二语音特征向量,
Figure BDA0003212797620000055
其中,
Figure BDA0003212797620000056
是第i麦克风在帧数t处的语音特征序列,
Figure BDA0003212797620000057
是在帧数t处的权重向量。
本发明提供的技术方案带来的有益效果如下:
a.对空间的声场传输特性表达更准确;
b.可以更好的利用空间特征,提升降噪性能;
c.提高了降噪的效率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的多通道语音信号增强方法的整体流程图;
图2是本发明实施例提供的多通道语音信号增强方法中多通道滤波器设计处理流程图;
图3是本发明实施例提供的多通道语音信号增强方法中通道间特征提取模块处理流程图;
图4是本发明实施例提供的四麦克风分布式阵列示意图;
图5是本发明实施例提供的多通道语音信号增强方法中Bi-LSTM block框架图;
图6是本发明实施例提供的多通道语音信号增强方法中Bi-LSTM层的结构示意图;
图7是本发明实施例提供的双麦克风线性阵列示意图;
图8是本发明实施例提供的2线性双麦克风分布式阵列示意图;
图9是本发明实施例提供的四麦克风线性阵列示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、装置、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其他步骤或单元。
在本发明的一个实施例中,提供了一种应用于麦克风阵列的多通道语音信号增强方法,参见图1,包括以下步骤:
S1、生成训练数据,包括:将预采集的语音数据输入模拟麦克风阵列场景以生成多通道的模拟语音数据,并将其与预采集或预处理的噪声数据相加,得到带噪语音数据;
具体地,生成训练数据的步骤包括:
S11、从预采集的语音数据集中随机选取一个语音音频,从预采集的噪声数据集中随机选取一个噪声音频;
S12、将选取的语音音频和噪声音频按照预设时长进行切分,分别得到多个语音切分音频和多个噪声切分音频;
S13、根据预设的降噪空间尺寸和麦克风、语音音频声源、噪声源在所述降噪空间内的位置,使用gpuRIR工具包,对所述多个语音切分音频进行模拟声音回响,得到模拟语音数据;并在预设的信噪比范围内,将所述噪声切分音频按照不同的信噪比与所述模拟语音数据进行相加,得到多个带噪语音。
S2、对所述训练数据进行预处理,包括:对带噪语音数据进行分帧处理,得到多个第一分帧语音数据,并对所述第一分帧语音数据添加上文语音窗口和/或下文语音窗口,得到多个第二分帧语音数据;
具体地,对所述训练数据进行预处理的步骤包括:
S21、对带噪语音数据的前后进行补零;
S22、对补零后的带噪语音数据进行分帧处理,设置帧长M和帧移K,以确定采样点,得到相应的语音向量,作为第一分帧语音数据,
Figure BDA0003212797620000071
其中,t是帧索引值,i是麦克风的索引,
Figure BDA0003212797620000072
表示第i麦克风在帧t处的语音向量,其向量维度为1×M,Z为帧数;
S23、对分帧后的带噪语音数据添加上下文语音窗口,得到相应的语音向量,作为第二分帧语音数据,
Figure BDA0003212797620000081
其中,W为上下文窗口大小,
Figure BDA0003212797620000082
是第i麦克风在t帧处包含上下文的语音向量,其向量维度为2W+M。
S3、对预处理结果进行通道间特征提取,包括:对所述第一分帧语音数据进行处理得到在各个帧处的第一语音特征向量;对所述第二分帧语音数据进行处理得到在各个帧处的第二语音特征向量;
具体地,所述对所述第一分帧语音数据进行处理得到在各个帧处的第一语音特征向量包括:对每个第一分帧语音数据进行卷积操作及GroupNorm操作,得到在该帧处的第一语音特征向量;
参见图2,所述对所述第二分帧语音数据进行处理得到在各个帧处的第二语音特征向量包括以下步骤:
S31、对所述第二分帧语音数据在帧长维度上进行平均值池化操作;
S32、将平均值池化结果输入到一组全连接层中进行数据处理;
S33、将所述全连接层输出的处理结果输入到Softmax函数,得到在各个帧处的权重向量;
S34、根据所述各个帧处的权重值,得到该帧处的第二语音特征向量。
S4、设计多通道滤波器,包括:将所述第一语音特征向量与第二语音特征向量联合,通过对联合后的向量进行维度调整、卷积、分块的操作后,将操作结果输入Bi-LSTM层和/或Linear层,得到层输出数据;并对所述层输出数据进行维度调整和分块合并操作,生成各个通道的滤波器;
其中,参见图3,所述设计多通道滤波器的步骤包括:
S41、将步骤S3中得到的第一语音特征向量与第二语音特征向量进行联合:xbt=concat([outt,yt]),其中,outt为第二语音特征向量,yt为第一语音特征向量,xbt表示在帧数t处的联合语音向量,xb表示联合后的语音向量;
S42、将步骤S41中联合后的语音向量进行维度调整,再输入到一维卷积中:
Figure BDA0003212797620000083
其中c为卷积输出结果,其向量维度为N×M×Z,其中,N为麦克风阵列中麦克风的数量,M为分帧处理的帧长采样点数量,Z为各个通道内分帧处理的帧数;
S43、对步骤S42中的卷积输出结果进行分块操作,设置块长为S、总块数为U,得到分块后的向量O,其向量维度为N×M×S×U;
S44、对步骤S43中分块后的向量O进行调整维度:out=reshape(O),调整后的向量out的向量维度为(S×N)×U×M;
S45、将out依次输入到Bi-LSTM、Linear层,并进行GroupNorm正则化操作如下:out1=GroupNorm(Linear(BiLSTM(out)));
S46、对out1进行维度调整:out2=reshape(out1),调整后的向量out2的向量维度为N×M×S×U;
S47、对分块进行合并:out8=OD(out2),其中,OD(·)是合并操作,out8为得到的合并向量,其向量维度为M×N×Z;
S48、将步骤S47中得到的合并向量分别输入到带有Tanh激活函数的一维卷积中:h=Tanh(Conv1d(out8)),其中,h的向量维度为N×C×Z,其中C为一维卷积的输出通道数;
S49、将h变换形状:Filter=reshape(h),其中,Filter为生成的多通道滤波器,其向量维度为N×Z×C。
进一步地,在步骤S46与S47之间,还包括对步骤S47中的向量out2执行以下步骤以生成新的合并操作的对象:
S46-1-47、网络使用跳跃连接,将out2与O进行相加:out3=out2+O;
S46-2-47、对out3进行维度调整:out4=reshape(out3),其中out4的向量维度为(U×N)×S×M;
S46-3-47、参见图4和图5,将out4依次输入到第二阶Bi-LSTM层、Linear层,并进行GroupNorm正则化操作:
out5=GroupNorm(Linear(BiLSTM(out4)));
S46-4-47、对out5进行维度调整:out6=reshape(out5),其中out6的向量维度为N×M×S×U;
S46-5-47、网络再次使用跳跃连接,将out6与out3进行相加:out7=out6+out3
S46-6-47、对out7调整维度,将调整维度的结果reshape(out7)作为步骤S47中的合并操作的对象,使步骤S47执行out8=OD(reshape(out7))。
对步骤S47得到的合并向量out8进行二维卷积操作:out9=Conv2d(out8),其中,out9的向量维度为M×N×S×U,二维卷积操作的输出通道数为N;
将out9作为步骤S48中输入到带有激活函数的一维卷积中的操作对象,且步骤S48中输入到带有Tanh激活函数的一维卷积的同时,还输入到带有Sigmoid激活函数的一维卷积中,并对两个输出结果进行相乘操作:h=Tanh(Conv1d(out9))⊙Sigmoid(Conv1d(out9)),其中,⊙为哈达玛积。
S5、利用所述各个通道的滤波器对对应通道的第一分帧语音数据或第二分帧语音数据或带噪语音数据进行滤波操作,得到经过滤波后的增强语音信号;
其中,所述各个通道的滤波器对对应通道第二分帧语音数据进行滤波操作后,还需要去掉先前所补的零,使得经过滤波后的增强语音信号恢复到原来的语音长度。
S6、对各个通道的增强语音信号进行加权求和、取平均操作,以得到目标输出语音。
下面以具体数值为例进行语音信号增强处理说明
步骤1、生成训练数据
从采样率均为16K Hz的纯净语音数据集和噪声数据集各随机选取一个音频,将选取的纯净语音和噪声切分为长度4s的音频文件;设置信噪比,其范围是[-5db,0db],增加训练数据的覆盖范围,设置降噪空间尺寸和分布式麦克风、说话人、噪声源位置,使用gpuRIR工具包,模拟声音回响,得到模拟语音数据,分布式麦克风阵列如图6所示,图6中圆形是麦克风,正方形是纯净语音源,五角星是噪声源;将噪声按照不同信噪比与模拟语音数据进行相加,生成带噪语音。需要注意的是,所述带噪语音包括了噪声数据、纯净语音数据及其回声数据,通过不同的信噪比叠加,更贴近实际情景。
步骤2、对训练数据进行预处理
步骤2.1对带噪语音数据前后进行补零,前后各补32个零,以防止语音数据的首末特征丢失。
步骤2.2对补零后的带噪语音数据进行分帧处理,设置帧长M为64个采样点,帧移K为32个采样点,
Figure BDA0003212797620000111
其中,t是帧索引值,i是麦克风的索引,Z为帧数,
Figure BDA0003212797620000112
表示麦克风i在帧t处的语音向量,
Figure BDA0003212797620000113
其表示
Figure BDA0003212797620000114
的向量维度为1×M,以下相似表达不再赘述。
步骤2.3对分帧后的语音数据添加上下文语音窗口
Figure BDA0003212797620000115
其中,W为上下文窗口大小,
Figure BDA0003212797620000116
Figure BDA0003212797620000117
是麦克风i在t帧处包含上下文的语音向量,以减少通道间的延时误差。
步骤2.4将所有通道的分帧语音数据x添加到数组中,形状为[N,M,Z],将所有通道的添加上下文语音数据
Figure BDA0003212797620000118
添加到另一个数组中,形状为[N,2W+M,Z],其中N为麦克风阵列中麦克风的数量,麦克风的数量与通道数量相同且对应。
步骤3、基于权重分配的通道间的特征提取
步骤3.1输入经过步骤2处理过的语音数据
Figure BDA0003212797620000119
在帧长维度上,进行平均值池化操作
Figure BDA00032127976200001110
其中,
Figure BDA00032127976200001111
Figure BDA00032127976200001112
是麦克风i在帧数t处的平均值。
步骤3.2将步骤3.1的结果输入到一组全连接层中
Figure BDA00032127976200001113
其中,
Figure BDA00032127976200001114
Gt是在帧数为t的麦克风阵列特征,参见图2,P(*)是一组带有参数修正线性单元PReLU激活函数的全连接层,这组全连接层的输出维度分别为[128,64,128],S(*)是一个带有Sigmoid激活函数的全连接层,输出维度为[N]。
步骤3.3将步骤3.2的结果输入到Softmax激活函数中
Figure BDA00032127976200001115
其中,
Figure BDA00032127976200001116
Figure BDA00032127976200001117
是在帧数t处的权重向量,其总和为1,取值范围是[0,1]。
步骤3.4将步骤3.3的结果
Figure BDA0003212797620000121
Figure BDA0003212797620000122
做乘积后输出
Figure BDA0003212797620000123
其中,
Figure BDA0003212797620000124
Figure BDA0003212797620000125
表示麦克风i在帧数t处的语音特征序列。
步骤4、对语音信号x进行一维卷积操作,并进行GroupNorm操作后输出
yt=GroupNorm(Conv1d(xt))
其中,
Figure BDA0003212797620000126
yt是帧数t处的语音特征向量,一维卷积的卷积核大小为1,其输出通道数为N。
需要注意的是,步骤3和步骤4的处理不分先后,也可同时进行。
步骤5、对多通道滤波器进行设计
步骤5.1将步骤4的输出与步骤3.4的输出进行联合
xbt=concat([outt,yt])
其中,
Figure BDA0003212797620000127
xbt表示在帧数t处的语音向量,
Figure BDA0003212797620000128
xb表示联合后的语音向量。
步骤5.2将步骤5.1联合后的向量变换形状,
Figure BDA0003212797620000129
再输入到一维卷积中后输出
Figure BDA00032127976200001210
其中
Figure BDA00032127976200001211
一维卷积的卷积核大小为1,输出通道数为64。
步骤5.3对c进行分块操作,设置块长S为50,块移动为25,总块数为U,划分后的向量设为O,
Figure BDA00032127976200001212
步骤5.4对向量O调整维度
out=reshape(O)
其中,
Figure BDA00032127976200001213
步骤5.5参见图4和图5,将out依次输入到Bi-LSTM、Linear层,并进行GroupNorm正则化操作,
out1=GroupNorm(Linear(BiLSTM(out)))
其中,
Figure BDA00032127976200001214
参见图4,Bi-LSTM层的输出维度设置为256,Linear层的输出维度设置为64,GroupNorm层的输出维度设置为64,输入层的输出维度设置为64。
步骤5.6对out1进行维度调整
out2=reshape(out1)
其中,
Figure BDA0003212797620000131
步骤5.7网络使用跳跃连接,将out2与O进行相加
out3=out2+O
步骤5.8对out3进行维度调整
out4=reshape(out3)
其中,
Figure BDA0003212797620000132
步骤5.9将out4依次输入到第二阶Bi-LSTM层、Linear层,并进行GroupNorm正则化操作
out5=GroupNorm(Linear(BiLSTM(out4)))
其中,
Figure BDA0003212797620000133
Bi-LSTM的输出维度设置为256,Linear层的输出维度设置为64。
步骤5.10对out5进行维度调整
out6=reshape(out5)
其中,
Figure BDA0003212797620000134
步骤5.11网络再次使用跳跃连接,将out6与out3进行相加
out7=out6+out3
步骤5.12对out7调整维度,然后对分块进行合并
out8=OD(reshape(out7))
其中,
Figure BDA0003212797620000135
OD(·)是合并操作
步骤5.13对out8进行二维卷积操作
out9=Conv2d(out8)
其中,
Figure BDA0003212797620000136
二维卷积操作的卷积核大小为1,其输出通道数为N。
步骤5.14将out9分别输入到带有sigmoid和Tanh激活函数的一维卷积中,并将其进行相乘
h=Tanh(Conv1d(out9))⊙Sigmoid(Conv1d(out9))
其中,
Figure BDA0003212797620000137
⊙为哈达玛积,一维卷积的卷积核大小为1,其输出通道数为C。
步骤5.15将h变换形状
Filter=reshape(h)
其中,
Figure BDA0003212797620000141
Filter为生成的多通道滤波器。
步骤6使用步骤5.15生成的多通道滤波器,对语音
Figure BDA0003212797620000142
进行卷积操作
Figure BDA0003212797620000143
其中,
Figure BDA0003212797620000144
Figure BDA0003212797620000145
表示第i麦克风经过滤波后的语音信号。
步骤7对增强语音信号
Figure BDA0003212797620000146
进行维度变化,然后去掉先前所补的零,恢复原来语音长度
Figure BDA0003212797620000147
其中,
Figure BDA0003212797620000148
Figure BDA0003212797620000149
表示第i麦克风恢复原始长度的语音增强信号。
步骤8对各个通道的增强语音信号加权求和,再取平均,以得到最终输出增强后的语音
Figure BDA00032127976200001410
其中,ai表示麦克风i的权重值,
Figure BDA00032127976200001411
y是最终输出增强后的语音。
本实施例提供的多通道语音信号增强方法适充分考虑降噪空间的空间特性,采用创新方法提取多通道间特征,并设计双阶段Bi-LSTM作为多通道滤波器,因为分布式麦克风结构对空间的声场传输特性表达更准确,该方法更适合分布式麦克风阵列结构,经过实验验证,对比了四种麦克风阵列结构的四种降噪评价指标SDR、SI-SNR、PESQ、STOR,四种麦克风阵列分别为四麦克风分布式阵列(记作4db)、双麦克风线性阵列(记作2Linear)、2线性双麦克风分布式阵列(记作2x2db)、四麦克风线性阵列(记作4Linear),参见图6至图9,图6至图9的图中圆形是指麦克风,正方形是指纯净语音源,五角星是指噪声源,四种阵列的对比结果参见表1,可明显发现基于该方法的多通道降噪取得了比基于传统麦克风阵列语音增强方法更佳的降噪性能,同时分布式四麦的指标表现优于其他结构的麦克风阵列。
表1本发明方法在不同指标和不同信噪比上的表现
Figure BDA0003212797620000151
现有技术多针对集中式麦克风阵列进行多通道语音增强,且方法中对声场的传输特性做了严格假设,对于复杂的噪声场景,多通道麦克风没有将空间特征充分利用。而本发明提供的多通道语音信号增强方法相比于单通道语音增强可以更好的利用空间特征,提升降噪性能。本发明基于语音帧级别进行通道间特征提取,充分利用多个通道间的空间特征,采用双阶段双向Bi-LSTM网络训练多通道滤波器,最后形成增强后的语音信号,需要注意的是,步骤5.5和步骤5.9对应到双阶段双向Bi-LSTM块的两次处理,也可以增加更多阶段的双向Bi-LSTM块处理,采取与步骤5.5与步骤5.9之间相似的操作进行更多次阶段的处理,具体需要依据其他设置条件而定。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本申请的具体实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (10)

1.一种应用于麦克风阵列的多通道语音信号增强方法,其特征在于,包括以下步骤:
S1、生成训练数据,包括:将预采集的语音数据输入模拟麦克风阵列场景以生成多通道的模拟语音数据,并将其与预采集或预处理的噪声数据相加,得到带噪语音数据;
S2、对所述训练数据进行预处理,包括:对带噪语音数据进行分帧处理,得到多个第一分帧语音数据,并对所述第一分帧语音数据添加上文语音窗口和/或下文语音窗口,得到多个第二分帧语音数据;
S3、对预处理结果进行通道间特征提取,包括:对所述第一分帧语音数据进行处理得到在各个帧处的第一语音特征向量;对所述第二分帧语音数据进行处理得到在各个帧处的第二语音特征向量;
S4、设计多通道滤波器,包括:将所述第一语音特征向量与第二语音特征向量联合,通过对联合后的向量进行维度调整、卷积、分块的操作后,将操作结果输入Bi-LSTM层和/或Linear层,得到层输出数据;并对所述层输出数据进行维度调整和分块合并操作,生成各个通道的滤波器;
S5、利用所述各个通道的滤波器对对应通道的第一分帧语音数据或第二分帧语音数据或带噪语音数据进行滤波操作,得到经过滤波后的增强语音信号;
S6、对各个通道的增强语音信号进行加权求和、取平均操作,以得到目标输出语音。
2.根据权利要求1所述的应用于麦克风阵列的多通道语音信号增强方法,其特征在于,步骤S3中,所述对所述第一分帧语音数据进行处理得到在各个帧处的第一语音特征向量包括:对每个第一分帧语音数据进行卷积操作及GroupNorm操作,得到在该帧处的第一语音特征向量;
所述对所述第二分帧语音数据进行处理得到在各个帧处的第二语音特征向量包括以下步骤:
S31、对所述第二分帧语音数据在帧长维度上进行平均值池化操作;
S32、将平均值池化结果输入到一组全连接层中进行数据处理;
S33、将所述全连接层输出的处理结果输入到Softmax函数,得到在各个帧处的权重向量;
S34、根据所述各个帧处的权重值,得到该帧处的第二语音特征向量。
3.根据权利要求2所述的应用于麦克风阵列的多通道语音信号增强方法,其特征在于,步骤S31中的平均值池化操作包括:
Figure FDA0003212797610000021
其中,
Figure FDA0003212797610000022
是第i麦克风在帧数t处的平均值,N为麦克风阵列中麦克风的数量;
步骤S32中的数据处理包括:
Figure FDA0003212797610000023
其中,Gt是在帧数为t的麦克风阵列特征,P(*)为一组带有参数修正线性单元激活函数的全连接层,S(*)是一个带有Sigmoid激活函数的全连接层。
4.根据权利要求1所述的应用于麦克风阵列的多通道语音信号增强方法,其特征在于,步骤S4中所述设计多通道滤波器的步骤包括:
S41、将步骤S3中得到的第一语音特征向量与第二语音特征向量进行联合:xbt=concat([outt,yt]),其中,outt为第二语音特征向量,yt为第一语音特征向量,xbt表示在帧数t处的联合语音向量,xb表示联合后的语音向量;
S42、将步骤S41中联合后的语音向量进行维度调整,再输入到一维卷积中:
Figure FDA0003212797610000024
其中c为卷积输出结果,其向量维度为N×M×Z,其中,N为麦克风阵列中麦克风的数量,M为分帧处理的帧长采样点数量,Z为各个通道内分帧处理的帧数;
S43、对步骤S42中的卷积输出结果进行分块操作,设置块长为S、总块数为U,得到分块后的向量O,其向量维度为N×M×S×U;
S44、对步骤S43中分块后的向量O进行调整维度:out=reshape(O),调整后的向量out的向量维度为(S×N)×U×M;
S45、将out依次输入到Bi-LSTM、Linear层,并进行GroupNorm正则化操作如下:out1=GroupNorm(Linear(BiLSTM(out)));
S46、对out1进行维度调整:out2=reshape(out1),调整后的向量out2的向量维度为N×M×S×U;
S47、对分块进行合并:out8=OD(out2),其中,OD(·)是合并操作,out8为得到的合并向量,其向量维度为M×N×Z;
S48、将步骤S47中得到的合并向量分别输入到带有Tanh激活函数的一维卷积中:h=Tanh(Conv1d(out8)),其中,h的向量维度为N×C×Z,其中C为一维卷积的输出通道数;
S49、将h变换形状:Filter=reshape(h),其中,Filter为生成的多通道滤波器,其向量维度为N×Z×C。
5.根据权利要求4所述的应用于麦克风阵列的多通道语音信号增强方法,其特征在于,在步骤S46与S47之间,还包括对步骤S47中的向量out2执行以下步骤以生成新的合并操作的对象:
S46-1-47、网络使用跳跃连接,将out2与O进行相加:out3=out2+O;
S46-2-47、对out3进行维度调整:out4=reshape(out3),其中out4的向量维度为(U×N)×S×M;
S46-3-47、将out4依次输入到第二阶Bi-LSTM层、Linear层,并进行GroupNorm正则化操作:out5=GroupNorm(Linear(BiLSTM(out4)));
S46-4-47、对out5进行维度调整:out6=reshape(out5),其中out6的向量维度为N×M×S×U;
S46-5-47、网络再次使用跳跃连接,将out6与out3进行相加:out7=out6+out3
S46-6-47、对out7调整维度,将调整维度的结果reshape(out7)作为步骤S47中的合并操作的对象,使步骤S47执行out8=OD(reshape(out7))。
6.根据权利要求4所述的应用于麦克风阵列的多通道语音信号增强方法,其特征在于,所述多通道语音信号增强方法还包括对步骤S47得到的合并向量out8进行二维卷积操作:out9=Cony2d(out8),其中,out9的向量维度为M×N×S×U,二维卷积操作的输出通道数为N;
将out9作为步骤S48中输入到带有激活函数的一维卷积中的操作对象,且步骤S48中输入到带有Tanh激活函数的一维卷积的同时,还输入到带有Sigmoid激活函数的一维卷积中,并对两个输出结果进行相乘操作:h=Tanh(Conv1d(out9))⊙Sigmoid(Conv1d(out9)),其中,⊙为哈达玛积。
7.根据权利要求1所述的应用于麦克风阵列的多通道语音信号增强方法,其特征在于,步骤S1中生成训练数据的步骤包括:
S11、从预采集的语音数据集中随机选取一个语音音频,从预采集的噪声数据集中随机选取一个噪声音频;
S12、将选取的语音音频和噪声音频按照预设时长进行切分,分别得到多个语音切分音频和多个噪声切分音频;
S13、根据预设的降噪空间尺寸和麦克风、语音音频声源、噪声源在所述降噪空间内的位置,使用gpuRIR工具包,对所述多个语音切分音频进行模拟声音回响,得到模拟语音数据;并在预设的信噪比范围内,将所述噪声切分音频按照不同的信噪比与所述模拟语音数据进行相加,得到多个带噪语音。
8.根据权利要求2所述的应用于麦克风阵列的多通道语音信号增强方法,其特征在于,步骤S2中对所述训练数据进行预处理的步骤包括:
S21、对带噪语音数据的前后进行补零;
S22、对补零后的带噪语音数据进行分帧处理,设置帧长M和帧移K,以确定采样点,得到相应的语音向量,作为第一分帧语音数据,
Figure FDA0003212797610000041
其中,t是帧索引值,i是麦克风的索引,
Figure FDA0003212797610000042
表示第i麦克风在帧t处的语音向量,其向量维度为1×M,Z为帧数;
S23、对分帧后的带噪语音数据添加上下文语音窗口,得到相应的语音向量,作为第二分帧语音数据,
Figure FDA0003212797610000051
其中,W为上下文窗口大小,
Figure FDA0003212797610000052
是第i麦克风在t帧处包含上下文的语音向量,其向量维度为2W+M。
9.根据权利要求8所述的应用于麦克风阵列的多通道语音信号增强方法,其特征在于,
在步骤S5中所述各个通道的滤波器对对应通道第二分帧语音数据进行滤波操作后,还需要去掉先前所补的零,使得经过滤波后的增强语音信号恢复到原来的语音长度。
10.根据权利要求8所述的应用于麦克风阵列的多通道语音信号增强方法,其特征在于,步骤S34中通过以下公式得到语音特征序列,作为该帧处的第二语音特征向量,
Figure FDA0003212797610000053
其中,
Figure FDA0003212797610000055
是第i麦克风在帧数t处的语音特征序列,
Figure FDA0003212797610000054
是在帧数t处的权重向量。
CN202110935773.9A 2021-08-16 2021-08-16 一种应用于麦克风阵列的多通道语音信号增强方法 Active CN113744751B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110935773.9A CN113744751B (zh) 2021-08-16 2021-08-16 一种应用于麦克风阵列的多通道语音信号增强方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110935773.9A CN113744751B (zh) 2021-08-16 2021-08-16 一种应用于麦克风阵列的多通道语音信号增强方法

Publications (2)

Publication Number Publication Date
CN113744751A true CN113744751A (zh) 2021-12-03
CN113744751B CN113744751B (zh) 2024-05-17

Family

ID=78731151

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110935773.9A Active CN113744751B (zh) 2021-08-16 2021-08-16 一种应用于麦克风阵列的多通道语音信号增强方法

Country Status (1)

Country Link
CN (1) CN113744751B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105206281A (zh) * 2015-09-14 2015-12-30 胡旻波 基于分布式麦克风阵列网络的语音增强方法
US20170278513A1 (en) * 2016-03-23 2017-09-28 Google Inc. Adaptive audio enhancement for multichannel speech recognition
US20180068675A1 (en) * 2016-09-07 2018-03-08 Google Inc. Enhanced multi-channel acoustic models
CN108231083A (zh) * 2018-01-16 2018-06-29 重庆邮电大学 一种基于silk的语音编码器编码效率提高方法
US20180350379A1 (en) * 2017-06-02 2018-12-06 Apple Inc. Multi-Channel Speech Signal Enhancement for Robust Voice Trigger Detection and Automatic Speech Recognition
US20190172476A1 (en) * 2017-12-04 2019-06-06 Apple Inc. Deep learning driven multi-channel filtering for speech enhancement
US20200243102A1 (en) * 2017-10-27 2020-07-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method or computer program for generating a bandwidth-enhanced audio signal using a neural network processor
CN111583948A (zh) * 2020-05-09 2020-08-25 南京工程学院 一种改进的多通道语音增强系统和方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105206281A (zh) * 2015-09-14 2015-12-30 胡旻波 基于分布式麦克风阵列网络的语音增强方法
US20170278513A1 (en) * 2016-03-23 2017-09-28 Google Inc. Adaptive audio enhancement for multichannel speech recognition
US20180068675A1 (en) * 2016-09-07 2018-03-08 Google Inc. Enhanced multi-channel acoustic models
US20180350379A1 (en) * 2017-06-02 2018-12-06 Apple Inc. Multi-Channel Speech Signal Enhancement for Robust Voice Trigger Detection and Automatic Speech Recognition
US20200243102A1 (en) * 2017-10-27 2020-07-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method or computer program for generating a bandwidth-enhanced audio signal using a neural network processor
US20190172476A1 (en) * 2017-12-04 2019-06-06 Apple Inc. Deep learning driven multi-channel filtering for speech enhancement
CN108231083A (zh) * 2018-01-16 2018-06-29 重庆邮电大学 一种基于silk的语音编码器编码效率提高方法
CN111583948A (zh) * 2020-05-09 2020-08-25 南京工程学院 一种改进的多通道语音增强系统和方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
MAXIMILIAN STRAKE. ET AL: "Separated Noise Suppression and Speech Restoration: Lstm-Based Speech Enhancement in Two Stages", IEEE *
范忠奇等: "有色噪声分布式多通道语音增强算法研究", 科技创新与应用, vol. 11, no. 14 *
邓贺元等: "一种联合频谱和空间特征的深度学习多通道语音增强算法", 电子测量技术, vol. 42, no. 18 *
闫昭宇;王晶;: "结合深度卷积循环网络和时频注意力机制的单通道语音增强算法", 信号处理, no. 06 *

Also Published As

Publication number Publication date
CN113744751B (zh) 2024-05-17

Similar Documents

Publication Publication Date Title
CN108766419B (zh) 一种基于深度学习的非常态语音区别方法
JP7258182B2 (ja) 音声処理方法、装置、電子機器及びコンピュータプログラム
Zhang et al. Deep learning based binaural speech separation in reverberant environments
Hoshen et al. Speech acoustic modeling from raw multichannel waveforms
CN110867181B (zh) 基于scnn和tcnn联合估计的多目标语音增强方法
Rivet et al. Mixing audiovisual speech processing and blind source separation for the extraction of speech signals from convolutive mixtures
CN112151059A (zh) 面向麦克风阵列的通道注意力加权的语音增强方法
KR101807961B1 (ko) Lstm 및 심화신경망 기반의 음성 신호 처리 방법 및 장치
CN112567459B (zh) 声音分离装置、声音分离系统、声音分离方法以及存储介质
JP2007033825A (ja) 音源分離装置,音源分離プログラム及び音源分離方法
Luo et al. Ultra-lightweight speech separation via group communication
CN113470671B (zh) 一种充分利用视觉与语音联系的视听语音增强方法及系统
CN110047478B (zh) 基于空间特征补偿的多通道语音识别声学建模方法及装置
Zhao et al. Noisy-Reverberant Speech Enhancement Using DenseUNet with Time-Frequency Attention.
CN111798860B (zh) 音频信号处理方法、装置、设备及存储介质
Roman et al. Pitch-based monaural segregation of reverberant speech
CN105225672A (zh) 融合基频信息的双麦克风定向噪音抑制的系统及方法
CN113823273A (zh) 音频信号处理方法、装置、电子设备及存储介质
Barros et al. Estimation of speech embedded in a reverberant and noisy environment by independent component analysis and wavelets
Qi et al. Exploring deep hybrid tensor-to-vector network architectures for regression based speech enhancement
CN112201276B (zh) 基于TC-ResNet网络的麦克风阵列语音分离方法
CN112180318A (zh) 声源波达方向估计模型训练和声源波达方向估计方法
CN113744751B (zh) 一种应用于麦克风阵列的多通道语音信号增强方法
CN114339539A (zh) 一种采用麦克风阵列拾音的多通道语音增强方法
Pandey et al. Time-domain ad-hoc array speech enhancement using a triple-path network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant