CN111210835B - 一种基于听觉模型和信源方位的多通路语音降噪方法 - Google Patents
一种基于听觉模型和信源方位的多通路语音降噪方法 Download PDFInfo
- Publication number
- CN111210835B CN111210835B CN202010018821.3A CN202010018821A CN111210835B CN 111210835 B CN111210835 B CN 111210835B CN 202010018821 A CN202010018821 A CN 202010018821A CN 111210835 B CN111210835 B CN 111210835B
- Authority
- CN
- China
- Prior art keywords
- voice
- noise reduction
- noise
- speech
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000009467 reduction Effects 0.000 title claims abstract description 101
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000001228 spectrum Methods 0.000 claims abstract description 32
- 238000003062 neural network model Methods 0.000 claims abstract description 29
- 238000013528 artificial neural network Methods 0.000 claims abstract description 27
- 238000010586 diagram Methods 0.000 claims abstract description 20
- 230000008447 perception Effects 0.000 claims abstract description 13
- 238000012545 processing Methods 0.000 claims abstract description 11
- 238000000926 separation method Methods 0.000 claims abstract description 5
- 230000009466 transformation Effects 0.000 claims abstract description 4
- 239000011159 matrix material Substances 0.000 claims description 67
- 238000012549 training Methods 0.000 claims description 32
- 238000004364 calculation method Methods 0.000 claims description 24
- 230000008569 process Effects 0.000 claims description 15
- 238000001514 detection method Methods 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 13
- 238000013507 mapping Methods 0.000 claims description 13
- 238000005070 sampling Methods 0.000 claims description 12
- 239000012634 fragment Substances 0.000 claims description 8
- 238000013527 convolutional neural network Methods 0.000 claims description 6
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000012937 correction Methods 0.000 claims description 3
- 230000000295 complement effect Effects 0.000 claims description 2
- 241000282414 Homo sapiens Species 0.000 abstract description 6
- 238000005192 partition Methods 0.000 abstract 1
- IBBLRJGOOANPTQ-JKVLGAQCSA-N quinapril hydrochloride Chemical compound Cl.C([C@@H](C(=O)OCC)N[C@@H](C)C(=O)N1[C@@H](CC2=CC=CC=C2C1)C(O)=O)CC1=CC=CC=C1 IBBLRJGOOANPTQ-JKVLGAQCSA-N 0.000 description 18
- 238000001914 filtration Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000035479 physiological effects, processes and functions Effects 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明公开一种基于听觉模型和信源方位的多通路语音降噪方法。该方法将多通路带噪语音信号进行通路分离,导入听觉模型映射成为各个独立通路的语谱灰度图;将语谱灰度图输入方向识别神经网络模型,得到各个独立通路的语声信源的方位;进一步,将语谱灰度图导入相应信源方位的降噪神经网络,降噪神经网络对语谱图有语音部分与无语音部分实施分区降噪处理;将各个独立通路的降噪后语谱图进行逆变换,再进行通路合并,最终获得降噪后的多通路语音信号。本方法利用人类听觉模型将带噪语音信号映射到初级感知域进行处理,更加符合人类生理感知;此外,对不同空间方位的语声信源实施分区域个性化降噪策略,有助于提高降噪的精准度。
Description
技术领域
本发明属于语音降噪技术领域,涉及一种基于听觉模型和信源方位的多通路语音降噪方法。
背景技术
语言是人与人之间交流的重要媒介。伴随着电子技术与通信技术的飞速发展,语音信号拥有丰富的存储媒介与传播途径。相较于书写或键入文字,语音凭借着输出信息的高效性与快捷性已经成为物联网的重要入口。人类日常生活工作的声环境十分复杂,如何获取高质量的语音信号成为亟待解决的行业难题。在噪声环境下直接取得高质量的语音信号需要昂贵的专业录音设备与严苛的录制环境。因此,一个普适性的方法是对录制得到的带噪语音信号进行后期降噪处理。常用的语音降噪处理手段有谱减法、维纳滤波法、自适应滤波法等,这些方法直接作用于带噪语音信号,针对特定类型的噪声能够得到一定的降噪效果。然而,人对于噪声的感知是生理与心理的共同作用,传统的语音降噪方法仅针对语音信号自身性质进行处理,没有考虑与人相关的因素。
目前,为了满足人们日益增长的美好生活需要,高质量的立体声重放技术得到了飞速发展。立体声重放的基础是与之匹配的多通路音源。多通路信号可以由分别布置的多个传声器分别拾音然后合并得到,也可以由传声器阵列对同一声源录制得到。目前,尚无成熟的算法可以实现对噪声环境下录制得到的多通路语音信号的有效降噪。
发明内容
本发明为了解决上述现有多通路语音信号降噪方法的缺陷,提出了一种基于听觉模型和信源方位的多通路语音降噪方法。本发明将时域多通路带噪语音信号通过听觉模型映射到初级感知域进行处理,通过对各通路信号语声信源空间方位的判断,以及对信号有语音部分和无语音部分的划分,引入神经网络实现了对多通路带噪语音信号的分时段、分空间的精细化高效降噪。
本发明的目的通过以下技术方案实现。
一种基于听觉模型和信源方位的多通路语音降噪方法,包括如下步骤:
步骤1,将多通路带噪语音信号进行通路分离,得到各通路上独立的带噪语音信号;
步骤2,将各通路信号导入听觉模型映射到初级感知域,进一步依据幅值映射成为语谱灰度图;
步骤3,将语谱灰度图输入方向识别神经网络模型,得到语声信源的空间方位;
步骤4,将语谱灰度图输入相应信源方位的降噪神经网络,对有语音部分和无语音部分分别实施Non-local Means非局部均值降噪;
步骤5,对步骤2得到的每个通路分别实施步骤3到步骤4,得到每个通路的降噪后语谱图;
步骤6:将每个通路的降噪后语谱图进行逆变换,然后进行通路合并,得到降噪后的多通路语音信号。
进一步地,步骤2具体包括:
步骤201:将各通路上独立的带噪语音信号进行短时傅里叶变换,得到M×N的时频矩阵x,其中N为短时傅里叶变换总帧数,M为每一帧包含的采样点数;
步骤202:将时频矩阵x导入听觉模型进行幅度调整,听觉模型的输出为M×N的矩阵X,所述的听觉模型如公式(1)、(2)所示:
(1)式中,G为权重(0<G<1);n为短时傅里叶变换的帧数;k为帧长,即各帧包含的采样点数;fk为每一帧内各采样点对应的频率,单位为Hz;A(fk)为频率权重调整系数,具体计算方法如(2)式所示;
步骤203:将听觉模型的输出结果X转换为M×N尺寸的灰度语谱图,转换方法如公式(3)所示:
(3)式中,α为灰度语谱图的灰度阶数;Xmin为听觉模型输出矩阵X的最小取值;Xmax为听觉模型输出矩阵X的最大取值;β为灰度语谱图各像素点的灰度值。
进一步地,步骤3所述的方向识别神经网络模型为卷积神经网络模型,训练过程具体为:
步骤301:将方位已知的单通路带噪语音信号Xi的语谱灰度图与对应语声信源的空间方位Li作为训练方向识别神经网络模型的输入;其中,方位Li为μ位的01二值序列,二值序列上各位置元素与μ个语声信源方向一一对应,根据带噪语音信号Xi的语声信源方向将二值序列Li对应位置元素的值置为1,其余位置元素的值置为0,以此类推;
步骤302:方向识别神经网络模型输出语音信号Xi的语声信源方向L′i,L′i同样为μ位的01二值序列;
步骤303:神经网络模型的损失函数为模型输出的方向序列L′i与实际方向序列Li间的均方差值,通过使损失函数最小化优化卷积神经网络参数,对神经网络进行训练,均方差值计算方法如公式(4)所示:
(4)式中,σ为语声信源方向序列的各位元素;μ为语声信源方向序列的长度;MSEdir为计算得到的方向序列均方差值。
进一步地,步骤3所述的方向识别神经网络模型训练过程,其中步骤301中单通路带噪语音信号采集方式具体为:
步骤3011:在噪声场内使用单通路传声器对某一定点语音声源进行样本采集,传声器与声源处于同一高度且相对距离固定,将传声器对准声源作为初始偏差0°位置,采集带噪语音片段;
步骤3012:在0°位置采集到足够多的带噪语音片段后,水平旋转传声器θ,此时声源相对传声器轴向偏离θ,采集带噪语音片段;
步骤3013:以θ为间隔在ρ个位置(ρ=360°/θ)取得足够的带噪语音样本,以偏转角度作为标签,对应角度采集的带噪语音片段作为样本对方向识别神经网络进行训练。
进一步地,步骤4所述的降噪神经网络采用Non-local Means非局部均值降噪法,对灰度语谱图有语音部分与无语音部分分别进行图像降噪处理,训练过程包括以下步骤:
步骤401:对灰度语谱图进行有语音部分与无语音部分划分,分别采用不同的降噪神经网络进行处理;
步骤402,将待降噪部分图像像素点设为P(ε),,构建以P(ε)点为中心的λ×λ(λ为大于1的奇数)像素点方阵Nei(ε),称为P(ε)点的邻域;
步骤403,在待降噪部分图像最外周增补值为0的像素点,增补周数为γ=(λ-1)/2;
步骤404,遍历图像,对于图像内任一像素点根据/>点邻域/>与Nei(ε)间的差异更新P(ε)点的灰度值,计算方法如公式(5)、(6)所示:
(5)式中,P′(ε)为更新后的像素点灰度值;为原图象内任一像素点灰度值;为权值函数,具体计算方法如(6)式所示;(6)式中,λ为邻域像素点方阵尺寸;h为Non-local Means降噪算法衰减因子;Nei(ε)、/>分别为点P(ε)、/>的邻域;
步骤405,根据步骤404将图像中所有像素点灰度值进行更新,即完成了待降噪部分图像的降噪处理;
步骤406,以某一方向的带噪语音灰度语谱图和对应的无噪语音灰度语谱图作为降噪神经网络的输入,对降噪神经网络模型进行训练,训练得到合适的Non-local Means降噪衰减因子h1、h2,使得降噪后语谱图与无噪语谱图间像素灰度均方误差最小,最终训练得到不同方向的μ个降噪神经网络,训练流程如公式(7)所示:
(7)式中,h1、h2分别为对语谱图有语音部分和无语音部分Non-local Means降噪的衰减因子;为降噪后语谱图像素点灰度;/>为无噪语音语谱图像素点灰度;M、N为语谱图尺寸;/>为训练得到的最优衰减因子。
进一步地,步骤401所述的对灰度语谱图进行有语音部分与无语音部分划分,具体包括以下步骤:
步骤4011:将尺寸M×N的二维灰度语谱图压缩为1×N的一维平均灰度序列,序列的每一个元素对应灰度图每一列像素的灰度均值;
步骤4012:取检测窗长为τ,步长为υ(τ、υ均为正整数,且υ≤τ),从序列第一个元素开始进行语音检测;
步骤4013:若第个检测窗内的元素均值相较于第/>个窗产生了大于+5dB的跃升,第/>个检测窗内的元素均值相较于第/>个窗产生了大于-5dB的下降,则第/>帧到第/>帧被标记为语音部分,即灰度语谱图的第/>列到第/>列像素被标记为语音部分;
步骤4014:在整个序列上进行检测窗滑动,根据步骤4013对有语音部分和无语音部分进行划分。
进一步地,步骤6具体包括以下步骤:
步骤601:降噪前灰度语谱图设为尺寸为M×N,降噪后语谱图设为计算幅值调整矩阵/>计算方法如公式(8)所示:
(8)式中,δ分别表示语谱图的第/>行、第δ列;
步骤602:将系数矩阵C与听觉模型的输出矩阵X对应相乘进行幅值调整,得到降噪矩阵X′,X′=X×C;
步骤603:通过逆听觉模型对降噪矩阵X′进行初级感知域逆映射,逆听觉模型计算方法如公式(9)、(10)、(11)所示:
(9)式中,G为权重(0<G<1);矩阵x′为逆听觉模型的输出;降噪矩阵X′为步骤602的结果,作为逆听觉模型的输入;n、k分别为矩阵的行数、列数;fk为矩阵内各采样点对应的频率,单位为Hz;A(fk)为频率权重调整系数,具体计算方法如(10)式所示;Sign[n,k]为符号修正函数,根据原听觉模型的输出调整矩阵x′的符号,具体计算方法如(11)式所示;(11)式中,矩阵x为听觉模型的输出矩阵;
步骤604:对步骤603的输出矩阵x′进行逆短时傅里叶变换,实现对各通路信号的时域还原;
步骤605:通过通路合并得到降噪后的多通路语音信号。
本发明与现有技术相比,具有以下优点及有益效果:
1.本发明提出了一种基于听觉模型的语音降噪方法,降噪结果更加贴近人类生理感知;
2.本发明根据各通路语音信号的声源方向,对多通路语音信号的每一通路进行了个性化的降噪处理,同时在降噪过程中引入了分区域降噪的概念,对有语音部分与无语音部分分别进行降噪处理,使降噪结果更加准确;
3.本发明在通路语声信源方位识别及降噪处理中引入了神经网络,提高了多通路语音信号降噪的效率。
附图说明:
图1是本发明实施例中多通路语音降噪原理示意图;
图2是本发明实施例中多通路语音降噪原理的细化步骤图;
图3是本发明实施例中方向识别神经网络模型训练过程示意图;
图4是本发明实施例中降噪神经网络模型训练过程示意图。
具体实施方式
下面结合附图对本发明作进一步的说明,但本发明要求保护范围并不局限于实施例表示的范围。
图1是本发明实施例中多通路语音降噪原理示意图。其中,多通路带噪语音信号可以在噪声场下,由分别布置的多个传声器分别拾音然后合并得到,也可以由传声器阵列对某一语音源录制得到。如图1所示,本实施例的方法,包括:
S101:将多通路带噪语音信号进行通路分离,得到各通路上独立的带噪语音信号;
S102:将各通路信号导入听觉模型映射到初级感知域,进一步依据幅值映射成为语谱灰度图;
S103:将语谱灰度图输入方向识别神经网络模型,得到语声信源的空间方位;
S104:将语谱灰度图输入相应信源方位的降噪神经网络,对有语音部分和无语音部分分别实施Non-local Means非局部均值降噪;
S105:对S102得到的每个通路分别实施S103到S104,得到每个通路的降噪后语谱图;将每个通路的降噪后语谱图进行逆变换,然后进行通路合并,得到降噪后的多通路语音信号。
图2是本发明实施例中多通路语音降噪原理的细化步骤图。如图2所示,基于听觉模型和信源方位的多通路语音降噪方法具体包括以下步骤:
S201:将通道数为T的多通路带噪语音信号进行通路分离,得到各通路上独立的带噪语音信号Sig1、Sig2…Sigm…SigT;
S202:将各通路信号进行短时傅里叶变换,得到对应的N个时频矩阵FSig1、FSig2…FSigm…FSigT;
S203:时频矩阵FSig1、FSig2…FSigm…FSigT导入听觉模型映射到初级感知域,得到经听觉模型调制的时频矩阵ASig1、ASig2…ASigm…ASigT,听觉模型幅度调制遵循公式(1)、(2):
(1)式中,权重G=0.028;xm,n[k]为第m通路语音信号经过短时傅里叶变换后第n帧的结果;Xm,n[k]为听觉模型的输出矩阵;k为帧长,即各帧包含的采样点数;fk为每一帧内各采样点对应的频率,单位为Hz;A(fk)为频率权重调整系数,具体计算方法如(2)式所示;
S204:将时频矩阵ASig1、ASig2…ASigm…ASigT依据幅值映射成为语谱灰度图。设ASigm为M×N时频矩阵,其中N为短时傅里叶变换总帧数,M为每一帧包含的采样点数,转换方法如公式(3)所示:
(3)式中,α为灰度语谱图的灰度阶数;Xmin为听觉模型输出矩阵X的最小取值;Xmax为听觉模型输出矩阵X的最大取值;β为灰度语谱图各像素点的灰度值;
本实施例以16位灰度图为例(α=16),即将ASigm矩阵中的数据线性映射为16位灰度值(0-65535),其中0对应矩阵最小值min(ASigm),65535对应矩阵最大值max(ASigm),根据公式(3)将M×N的时频矩阵ASigm转换为16位的M×N尺寸灰度语谱图PSigm;
S205:将各通道灰度语谱图PSig1、PSig2…PSigm…PSigT输入方向识别神经网络模型,判断出各通路语音信号的声源方向,其中,方向识别神经网络模型为卷积神经网络模型,由采集到的不同方向的单通路带噪语音信号语谱灰度图训练得到;
S206:依据声源方向将各通路语谱图PSig1、PSig2…PSigm…PSigT导入对应方向的降噪神经网络进行图像的降噪处理,将降噪后的语谱图记为P′Sig1、P′Sig2…P′Sigm…P′SigT。降噪神经网络将语谱图划分为有语音部分和无语音部分,采用Non-local Means非局部均值去噪滤波法,使用不同的衰减因子h1、h2,分别对有语音部分和无语音部分图像进行降噪处理。其中,降噪神经网络训练时的输入为带噪语音语谱图与无噪语音语谱图,根据降噪后语谱图与无噪语谱图间的灰度差值对神经网络进行训练,得到恰当的衰减因子h1、h2;
S207:根据降噪前后语谱图灰度值的变化,得到幅值调整矩阵CSig1、CSig2…CSigm…CSigT,幅值调整矩阵CSigm通过公式(4)得到:
(4)式中,δ分别表示语谱图的第/>行、第δ列;PSigm为第m通路带噪语音语谱图;P′Sigm为第m通路降噪后语音语谱图
S208:通过幅值调整矩阵CSig1、CSig2…CSigm…CSigT对S103中听觉模型的输出结果ASig1、ASig2…ASigm…ASigT进行调整,得到降噪后的时频矩阵A′Sig1、A′Sig2…A′Sigm…A′SigT。其中,A′Sigm=ASigm×CSigm;
S209:将时频矩阵A′Sig1、A′Sig2…A′Sigm…A′SigT导入逆听觉模型,计算方法如公式(5)、(6)、(7)所示:
(5)式中,权重G=0.028;x’m,n[k]为逆听觉模型的输出矩阵;A′Sigm,n[k]为时频矩阵A′Sigm在第n列(即第n帧)的取值;fk为每一帧内各采样点对应的频率,单位为Hz;A(fk)为频率权重调整系数,具体计算方法如(6)式所示;Sign[n,k]为符号修正函数,根据原听觉模型的输出调整矩阵x’m,n[k]的符号,具体计算方法如(7)式所示;(7)式中,矩阵xm,n[k]为听觉模型的输出矩阵;
S210:通过逆短时傅里叶变换对各通路信号进行还原;
S211:通过通路合并得到降噪后的多通路语音信号。
图3是本发明实施例中方向识别神经网络模型训练过程示意图。在噪声场内使用单通路传声器对某一定点语音声源进行样本采集,传声器与声源处于同一高度且相对距离固定,将传声器对准声源作为初始偏差0°位置,采集到足够数量的带噪语音片段后,水平旋转传声器θ,此时声源相对传声器轴向偏离θ。本实施例以15°为例(即θ=15°),以15°为间隔在24个位置(0°、15°、30°…345°)取得足够多的带噪语音片段,以偏转角度作为标签,对应角度采集的带噪语音片段作为样本对方向识别神经网络进行训练。如图3所示,方向识别神经网络模型训练方法具体包括以下步骤:
S301:将方向已知的单通路带噪语音信号Si进行短时傅里叶变换,得到对应的时频矩阵FSi。其中,语音信号Si的语声信源方位Li记为μ位(本实施例以μ=24为例)的01二值序列,二值序列上各位置元素与0°、15°、30°……345°等24个语声信源方位一一对应,语音信号的语声信源方位若为30°,则将二值序列30°方向对应位置元素的值置为1,其余位置元素的值置为0,以此类推;
S302:将时频矩阵FSi导入听觉模型映射到初级感知域,得到经听觉模型调制的时频矩阵ASi,听觉模型幅度调制公式与步骤S203相同;
S303:将时频矩阵ASi依据幅值映射成为语谱灰度图PSi,映射方法与步骤S204相同;
S304:将灰度语谱图PSi输入方向识别神经网络模型,输出语音信号Si的语声信源方位L′i,其中,方向识别神经网络模型为卷积神经网络模型,L′i同样为μ位的01二值序列;
S305:神经网络模型的损失函数为模型输出的方向序列L′i与实际方向序列Li的均方差值,通过使损失函数最小化优化卷积神经网络参数,对方向识别神经网络进行训练。均方差值计算方法如公式(8)所示:
(8)式中,σ为语声信源方向序列的各位元素,MSEdir为计算得到的方向序列均方差值。
图4是本发明实施例中降噪神经网络模型训练过程示意图。训练样本为某一方向的单通路带噪语音信号及对应的无噪语音信号。单通路带噪语音信号可以使用方向识别神经网络模型的训练样本,无噪语音信号可以是单通路带噪语音样本采集时的使用的语音源信号。如图4所示,训练方法包括:
S401:将某一方向的单通路带噪语音信号NSi与对应的无噪语音信号进行短时傅里叶变换,得到对应的时频矩阵FNSi与/>
S402:将时频矩阵FNSi与导入听觉模型映射到初级感知域,得到经听觉模型调制的时频矩阵ANSi与/>听觉模型幅度调制公式与步骤S203相同;
S403:将时频矩阵ANSi与依据幅值映射成为语谱灰度图PNSi与/>映射方法与步骤S204相同;
S404:将灰度语谱图PNSi与输入降噪神经网络模型。降噪神经网络将灰度语谱图划分为有语音部分和无语音部分,将尺寸为M×N的二维灰度语谱图压缩为1×N的一维平均能量序列,序列的每一个元素对应灰度图每一列像素的灰度均值,取检测窗长为τ,步长为υ(τ、υ均为正整数,且υ≤τ),从序列第一个元素开始进行语音检测,若/>个检测窗内的元素均值相较于第/>个窗产生了大于+5dB的跃升,第/>个检测窗内的元素均值相较于第/>个窗产生了大于-5dB的下降,则第/>帧到第/>帧被标记为语音部分,即灰度语谱图的第/>列到第/>列像素被标记为语音部分;
S405:采用Non-local Means非局部均值去噪滤波法,对灰度语谱图PNSi与有语音部分与无语音部分分别进行图像降噪处理,包括以下步骤:
步骤A,将待降噪部分图像像素点设为P(ε),构建以P(ε)点为中心的λ×λ(λ为大于1的奇数,本实施例以λ=3为例)像素点阵Nei(ε),称为P(ε)点的邻域;
步骤B,在待降噪部分图像最外围增补一周值为0的像素点;
步骤C,遍历图像,对图像所有像素点根据/>点邻域/>与Nei(ε)间的差异更新P(ε)点的灰度值,计算方法如公式(9)、(10)所示:
(9)式中,P′(ε)为更新后的像素点灰度值;为原图像内任一像素点灰度值;为权值函数,具体计算方法如(10)式所示;(10)式中,λ为邻域像素点方阵尺寸;h为Non-local Means降噪算法衰减因子;Nei(ε)、/>分别为点P(ε)、/>的邻域;
步骤D,根据步骤C对图像中所有像素点灰度值进行更新,即完成了待降噪部分图像的降噪处理;
S406:以某一方向的带噪语音灰度语谱图和对应的无噪语音灰度语谱图作为降噪神经网络的输入,对降噪神经网络模型进行训练,训练得到合适的Non-local Means降噪衰减因子h1、h2。其中,h1、h2分别为对语谱图有语音部分和无语音部分降噪的衰减因子。降噪神经网络的损失函数为降噪后语谱图与无噪语谱图间像素灰度的均方误差,训练过程如公式(11)所示:
(11)式中,h1、h2分别为对语谱图有语音部分和无语音部分Non-local Means降噪的衰减因子,为降噪后语谱图像素点灰度,/>为无噪语音语谱图像素点灰度,M、N为语谱图尺寸,/>与/>为训练得到的最佳Non-local Means图像降噪衰减因子参数。
本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (4)
1.一种基于听觉模型和信源方位的多通路语音降噪方法,其特征在于包括以下步骤:
步骤1,将多通路带噪语音信号进行通路分离,得到各通路上独立的带噪语音信号;
步骤2,将各通路带噪语音信号导入听觉模型,映射到初级感知域,进一步映射成为语谱灰度图;
步骤3,将语谱灰度图输入方向识别神经网络模型,得到语声信源的空间方位;
步骤4,将语谱灰度图输入对应信源方位的降噪神经网络,对有语音部分和无语音部分分别实施Non-local Means非局部均值降噪;所述的降噪神经网络采用Non-local Means非局部均值降噪法,对语谱灰度图的有语音部分与无语音部分分别进行图像降噪处理,训练过程包括以下步骤:
步骤401:对语谱灰度图进行有语音部分与无语音部分划分,分别采用不同参数的降噪神经网络进行处理;所述的对语谱灰度图进行有语音部分与无语音部分划分,具体包括以下步骤:
步骤4011:将尺寸为M×N的二维语谱灰度图压缩为1×N的一维平均灰度序列,序列的每一个元素对应灰度图每一列像素的灰度均值;
步骤4012:取检测窗长为τ,步长为υ,从序列第一个元素开始进行语音检测,τ、υ均为正整数,且υ≤τ;
步骤4013:若第个检测窗内的元素均值相较于第/>个窗产生了大于+5dB的跃升,第/>个检测窗内的元素均值相较于第/>个窗产生了大于-5dB的下降,则第/>帧到第/>帧被标记为语音部分,即语谱灰度图的第/>列到第/>列像素被标记为语音部分;
步骤4014:在整个序列上进行检测窗滑动,根据步骤4013对有语音部分和无语音部分进行划分;
步骤402,将待降噪部分图像像素点设为P(ε),构建以P(ε)点为中心的λ×λ像素点阵Nei(ε),称为P(ε)点的邻域;λ为大于1的奇数,且为邻域像素点方阵尺寸;
步骤403,在待降噪部分图像最外周增补值为0的像素点,增补周数为γ=(λ-1)/2;
步骤404,遍历图像,对于图像内任一像素点根据/>点邻域/>与Nei(ε)间的差异更新P(ε)点的灰度值,计算方法如公式(5)、(6)所示:
(5)式中,P′(ε)为更新后的像素点灰度值;为原图像内任一像素点灰度值;为权值函数,具体计算方法如(6)式所示;h为Non-localMeans降噪算法衰减因子;Nei(ε)、/>分别为点P(ε)、/>的邻域;
步骤405,根据步骤404将图像中所有像素点灰度值进行更新,即完成了待降噪部分图像的降噪处理;
步骤406,以其中一方向的带噪语音语谱灰度图和对应的无噪语音语谱灰度图作为降噪神经网络的输入,对降噪神经网络模型进行训练,训练得到合适的Non-local Means降噪衰减因子h1、h2,h1、h2分别为对语谱图有语音部分和无语音部分降噪的衰减因子,使得降噪后语谱图与无噪语谱图间像素灰度均方误差最小,最终训练得到不同方向的μ个降噪神经网络,训练流程如公式(7)所示:
(7)式中,h1、h2分别为对语谱图有语音部分和无语音部分Non-local Means降噪的衰减因子;为降噪后语谱图像素点灰度;/>为无噪语音语谱图像素点灰度;M、N为语谱图尺寸;/>为训练得到的最优衰减因;
步骤5,对步骤2得到的每个通路语谱灰度图分别实施步骤3到步骤4,得到每个通路的降噪后语谱图;
步骤6:将每个通路的降噪后语谱图进行逆变换,然后进行通路合并,得到降噪后的多通路语音信号;
具体包括以下步骤:
步骤601:降噪前语谱灰度图设为尺寸为M×N,降噪后语谱图设为/>计算幅值调整矩阵/>计算方法如公式(8)所示:
(8)式中,δ分别表示语谱图的第/>行、第δ列;
步骤602:将系数矩阵C与听觉模型的输出矩阵X对应相乘进行幅值调整,得到降噪矩阵X′,X′=X×C;
步骤603:通过逆听觉模型对降噪矩阵X′进行初级感知域逆映射,逆听觉模型计算方法如公式(9)、(10)、(11)所示:
(9)式中,G为权重,0<G<1;矩阵x′为逆听觉模型的输出;降噪矩阵X′为步骤602的计算结果,作为逆听觉模型的输入;n、k分别为矩阵的行数、列数;fk为矩阵内各采样点对应的频率,单位为Hz;A(fk)为频率权重调整系数,具体计算方法如(10)式所示;Sign[n,k]为符号修正函数,根据原听觉模型的输出调整矩阵x′的符号,具体计算方法如(11)式所示;(11)式中,矩阵x为听觉模型的输出矩阵;
步骤604:对步骤603的输出矩阵x′进行逆短时傅里叶变换,实现对各通路信号的时域还原;
步骤605:通过通路合并得到降噪后的多通路语音信号。
2.根据权利要求1所述的基于听觉模型和信源方位的多通路语音降噪方法,其特征在于:步骤2具体包括:
步骤201:将各通路上独立的带噪语音信号进行短时傅里叶变换,得到M×N的时频矩阵x,其中N为短时傅里叶变换总帧数,M为每一帧包含的采样点数;
步骤202:将时频矩阵x导入听觉模型进行幅度调整,听觉模型的输出为M×N的矩阵X,所述的听觉模型如公式(1)、(2)所示:
(1)式中,G为权重,0<G<1;n为短时傅里叶变换的帧数;k为帧长,即各帧包含的采样点数;fk为每一帧内各采样点对应的频率,单位为Hz;A(fk)为频率权重调整系数,具体计算方法如(2)式所示;
步骤203:将听觉模型的输出结果X转换为M×N尺寸的语谱灰度图,转换方法如公式(3)所示:
(3)式中,α为语谱灰度图的灰度阶数;Xmin为听觉模型输出矩阵X的最小取值;Xmax为听觉模型输出矩阵X的最大取值;β为语谱灰度图各像素点的灰度值。
3.根据权利要求1所述的基于听觉模型和信源方位的多通路语音降噪方法,其特征在于:步骤3所述的方向识别神经网络模型为卷积神经网络模型,训练过程具体为:
步骤301:将方位已知的单通路带噪语音信号Xi的语谱灰度图与对应语声信源的空间方位Li作为训练方向识别神经网络模型的输入;其中,方位Li为μ位的01二值序列,二值序列上各位置元素与μ个语声信源方向一一对应,根据带噪语音信号Xi的语声信源方向将二值序列Li对应位置元素的值置为1,其余位置元素的值置为0,以此类推;
步骤302:方向识别神经网络模型输出语音信号Xi的语声信源方向L′i,L′i同样为μ位的01二值序列;
步骤303:神经网络模型的损失函数为模型输出的方向序列L′i与实际方向序列Li间的均方差值,通过使损失函数最小化优化卷积神经网络参数,对神经网络进行训练,均方差值计算方法如公式(4)所示:
(4)式中,σ为语声信源方向序列的各位元素;μ为语声信源方向序列的长度;MSEdir为计算得到的方向序列均方差值。
4.根据权利要求3所述的基于听觉模型和信源方位的多通路语音降噪方法,其特征在于:步骤301中单通路带噪语音信号采集过程具体为:
步骤3011:在噪声场内使用单通路传声器对其中一定点语音声源进行样本采集,传声器与声源处于同一高度且相对距离固定,将传声器对准声源作为初始偏差0°位置,采集带噪语音片段;
步骤3012:在0°位置采集到足够多的带噪语音片段后,水平旋转传声器θ,此时声源相对传声器轴向偏离θ,采集带噪语音片段;
步骤3013:以θ为间隔在p个位置取得足够多的带噪语音样本,ρ=360°/θ,以偏转角度作为标签,对应角度采集的带噪语音片段作为样本,对方向识别神经网络进行训练。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010018821.3A CN111210835B (zh) | 2020-01-08 | 2020-01-08 | 一种基于听觉模型和信源方位的多通路语音降噪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010018821.3A CN111210835B (zh) | 2020-01-08 | 2020-01-08 | 一种基于听觉模型和信源方位的多通路语音降噪方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111210835A CN111210835A (zh) | 2020-05-29 |
CN111210835B true CN111210835B (zh) | 2023-07-18 |
Family
ID=70785231
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010018821.3A Active CN111210835B (zh) | 2020-01-08 | 2020-01-08 | 一种基于听觉模型和信源方位的多通路语音降噪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111210835B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116052227B (zh) * | 2023-03-28 | 2023-06-20 | 上海海栎创科技股份有限公司 | 基于噪声模型的电容数据处理方法、系统、程序和装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107845390A (zh) * | 2017-09-21 | 2018-03-27 | 太原理工大学 | 一种基于pcnn语谱图特征融合的情感语音识别系统 |
CN109065067A (zh) * | 2018-08-16 | 2018-12-21 | 福建星网智慧科技股份有限公司 | 一种基于神经网络模型的会议终端语音降噪方法 |
CN109524014A (zh) * | 2018-11-29 | 2019-03-26 | 辽宁工业大学 | 一种基于深度卷积神经网络的声纹识别分析方法 |
CN110136737A (zh) * | 2019-06-18 | 2019-08-16 | 北京拙河科技有限公司 | 一种语音降噪方法及装置 |
-
2020
- 2020-01-08 CN CN202010018821.3A patent/CN111210835B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107845390A (zh) * | 2017-09-21 | 2018-03-27 | 太原理工大学 | 一种基于pcnn语谱图特征融合的情感语音识别系统 |
CN109065067A (zh) * | 2018-08-16 | 2018-12-21 | 福建星网智慧科技股份有限公司 | 一种基于神经网络模型的会议终端语音降噪方法 |
CN109524014A (zh) * | 2018-11-29 | 2019-03-26 | 辽宁工业大学 | 一种基于深度卷积神经网络的声纹识别分析方法 |
CN110136737A (zh) * | 2019-06-18 | 2019-08-16 | 北京拙河科技有限公司 | 一种语音降噪方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111210835A (zh) | 2020-05-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109326302B (zh) | 一种基于声纹比对和生成对抗网络的语音增强方法 | |
Kingsbury et al. | Robust speech recognition using the modulation spectrogram | |
CN105513605A (zh) | 手机麦克风的语音增强系统和语音增强方法 | |
GB2398913A (en) | Noise estimation in speech recognition | |
WO2019205798A1 (zh) | 语音增强的方法、装置及设备 | |
CN112786064B (zh) | 一种端到端的骨气导语音联合增强方法 | |
CN112634926B (zh) | 一种基于卷积神经网络的短波信道语音抗衰落辅助增强方法 | |
WO2019205796A1 (zh) | 减少频域处理量的方法、装置及设备 | |
CN1742322A (zh) | 噪声减小和视听语音活动检测 | |
CN111489763B (zh) | 一种基于gmm模型的复杂环境下说话人识别自适应方法 | |
CN111312275B (zh) | 一种基于子带分解的在线声源分离增强系统 | |
CN110970044B (zh) | 一种面向语音识别的语音增强方法 | |
CN116030823A (zh) | 一种语音信号处理方法、装置、计算机设备及存储介质 | |
CN111210835B (zh) | 一种基于听觉模型和信源方位的多通路语音降噪方法 | |
Nandkumar et al. | Dual-channel iterative speech enhancement with constraints on an auditory-based spectrum | |
Alam et al. | Robust feature extraction for speech recognition by enhancing auditory spectrum | |
CN112185405B (zh) | 一种基于差分运算和联合字典学习的骨导语音增强方法 | |
Tu et al. | LSTM-based iterative mask estimation and post-processing for multi-channel speech enhancement | |
CN112652312A (zh) | 声纹相似度智能识别系统、方法及存储介质 | |
CN111968627B (zh) | 一种基于联合字典学习和稀疏表示的骨导语音增强方法 | |
CN112235679B (zh) | 适用于耳机的信号均衡方法、处理器及耳机 | |
CN108257607B (zh) | 一种多通道语音信号处理方法 | |
WO2019205797A1 (zh) | 噪音处理方法、装置及设备 | |
JPH0580796A (ja) | 話速制御型補聴方法および装置 | |
Thomsen et al. | Speech enhancement and noise-robust automatic speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |