CN111833896B - 融合反馈信号的语音增强方法、系统、装置和存储介质 - Google Patents
融合反馈信号的语音增强方法、系统、装置和存储介质 Download PDFInfo
- Publication number
- CN111833896B CN111833896B CN202010724097.6A CN202010724097A CN111833896B CN 111833896 B CN111833896 B CN 111833896B CN 202010724097 A CN202010724097 A CN 202010724097A CN 111833896 B CN111833896 B CN 111833896B
- Authority
- CN
- China
- Prior art keywords
- signal
- feedback
- feedforward
- noisy
- microphone
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000013528 artificial neural network Methods 0.000 claims abstract description 55
- 230000009466 transformation Effects 0.000 claims abstract description 9
- 230000006870 function Effects 0.000 claims description 100
- 238000001228 spectrum Methods 0.000 claims description 77
- 238000012549 training Methods 0.000 claims description 43
- 230000004913 activation Effects 0.000 claims description 19
- 238000012546 transfer Methods 0.000 claims description 17
- 238000004088 simulation Methods 0.000 claims description 14
- 230000003595 spectral effect Effects 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 5
- 230000000694 effects Effects 0.000 abstract description 9
- 230000002708 enhancing effect Effects 0.000 abstract description 6
- 238000000605 extraction Methods 0.000 description 13
- 239000000284 extract Substances 0.000 description 12
- 230000007613 environmental effect Effects 0.000 description 10
- 210000003027 ear inner Anatomy 0.000 description 9
- 230000009467 reduction Effects 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 6
- 230000003993 interaction Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000004927 fusion Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000013075 data extraction Methods 0.000 description 4
- 230000008447 perception Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 241001014642 Rasta Species 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000009432 framing Methods 0.000 description 2
- 238000009413 insulation Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000000873 masking effect Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- NGVDGCNFYWLIFO-UHFFFAOYSA-N pyridoxal 5'-phosphate Chemical compound CC1=NC=C(COP(O)(O)=O)C(C=O)=C1O NGVDGCNFYWLIFO-UHFFFAOYSA-N 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 241000209140 Triticum Species 0.000 description 1
- 235000021307 Triticum Nutrition 0.000 description 1
- 210000002469 basement membrane Anatomy 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 210000000214 mouth Anatomy 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000005316 response function Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10K—SOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
- G10K11/00—Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
- G10K11/16—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
- G10K11/175—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
- G10K11/178—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
- G10K11/1785—Methods, e.g. algorithms; Devices
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/10—Earpieces; Attachments therefor ; Earphones; Monophonic headphones
- H04R1/1016—Earpieces of the intra-aural type
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/10—Earpieces; Attachments therefor ; Earphones; Monophonic headphones
- H04R1/1083—Reduction of ambient noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10K—SOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
- G10K2210/00—Details of active noise control [ANC] covered by G10K11/178 but not provided for in any of its subgroups
- G10K2210/10—Applications
- G10K2210/108—Communication systems, e.g. where useful sound is kept and noise is cancelled
- G10K2210/1081—Earphones, e.g. for telephones, ear protectors or headsets
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10K—SOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
- G10K2210/00—Details of active noise control [ANC] covered by G10K11/178 but not provided for in any of its subgroups
- G10K2210/30—Means
- G10K2210/301—Computational
- G10K2210/3025—Determination of spectrum characteristics, e.g. FFT
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10K—SOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
- G10K2210/00—Details of active noise control [ANC] covered by G10K11/178 but not provided for in any of its subgroups
- G10K2210/30—Means
- G10K2210/301—Computational
- G10K2210/3026—Feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10K—SOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
- G10K2210/00—Details of active noise control [ANC] covered by G10K11/178 but not provided for in any of its subgroups
- G10K2210/30—Means
- G10K2210/301—Computational
- G10K2210/3027—Feedforward
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10K—SOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
- G10K2210/00—Details of active noise control [ANC] covered by G10K11/178 but not provided for in any of its subgroups
- G10K2210/30—Means
- G10K2210/301—Computational
- G10K2210/3035—Models, e.g. of the acoustic system
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10K—SOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
- G10K2210/00—Details of active noise control [ANC] covered by G10K11/178 but not provided for in any of its subgroups
- G10K2210/30—Means
- G10K2210/301—Computational
- G10K2210/3038—Neural networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2201/00—Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
- H04R2201/10—Details of earpieces, attachments therefor, earphones or monophonic headphones covered by H04R1/10 but not provided for in any of its subgroups
- H04R2201/107—Monophonic and stereophonic headphones with microphone for two-way hands free communication
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2460/00—Details of hearing devices, i.e. of ear- or headphones covered by H04R1/10 or H04R5/033 but not provided for in any of their subgroups, or of hearing aids covered by H04R25/00 but not provided for in any of its subgroups
- H04R2460/01—Hearing devices using active noise cancellation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本申请涉及一种融合反馈信号的语音增强方法、系统、装置和存储介质,所述方法包括:拾取前馈带噪信号和反馈带噪信号,分别进行短时傅里叶变换;提取所述反馈带噪信号的至少一个特征参数;提取所述前馈带噪信号的特征参数;将所述将反馈带噪信号短时傅里叶变换的至少一个特征参数与所述前馈带噪信号的参数组合输入训练好的深度神经网络,输出增益函数;将增益函数与前馈带噪信号结合,经过短时傅里叶逆变换后获得增强的语音信号。所述融合反馈信号的语音增强方法能够在不显著增加网络规模条件下显著改善在低信噪比场景下前馈带噪信号的语音信号增强效果。
Description
技术领域
本申请涉及语音信号处理领域,具体而言,涉及一种融合反馈信号的语音增强方法、系统、装置和存储介质。
背景技术
近年来,有源降噪技术越来越多的应用于真无线立体声(True Wireless Stereo,TWS)耳机。如图1所示,在有源降噪TWS耳机系统中,一般存在以下结构部件:前馈麦克风1、耳罩2、扬声器3、反馈麦克风4和内耳空腔5。
其中,前馈麦克风1用于拾取环境以及佩戴者声信号;耳罩2用于隔绝外部噪声到内耳的传递;扬声器3用于耳机音频以及语音信号的播放,同时在有源降噪功能开启时播放降噪控制声信号;反馈麦克风4用于有源噪声控制的反馈误差信号拾取;内耳空腔5为佩戴者佩戴耳机处的内耳空腔结构,入耳式\半入耳式耳机的扬声器以及反馈麦克风都位于内耳空腔5中。
前馈麦克风1在拾取环境声信号过程中,不可避免的会受到环境噪声的影响,比如警笛声、风噪声以及地铁进出站泊车噪声等。环境噪声会降低前馈麦克风语音信号质量,同时降低设备唤醒率,降低语音识别率等,从而严重影响此类语音交互系统性能。
发明内容
本申请的目的是克服环境噪声降低前馈麦克风语音信号质量,严重影响语音交互系统性能的问题。
为实现上述目的,本申请提供了一种融合反馈信号的语音增强方法、系统、装置和存储介质。
第一方面,提供了一种融合反馈信号的语音增强方法,包括以下步骤:拾取前馈带噪信号和反馈带噪信号,分别进行短时傅里叶变换;提取所述反馈带噪信号的至少一个特征参数;提取所述前馈带噪信号的特征参数;将所述将反馈带噪信号短时傅里叶变换的至少一个特征参数与所述前馈带噪信号的参数组合输入训练好的深度神经网络,输出增益函数;将增益函数与前馈带噪信号结合,经过短时傅里叶逆变换后获得增强的语音信号。
根据一种可能的实施方式,所述提取反馈带噪信号的至少一个特征参数,包括:
根据反馈带噪信号的短时傅里叶频谱提取特征参数,所述特征参数包括:基频、短时傅里叶变化系数、幅度谱\功率谱\对数功率谱、倒谱系数、线性预测倒谱系数、梅尔倒谱系数、频率倒谱系数、相对谱转换以及感知线性预测系数的一种或者多种组合。
根据一种可能的实施方式,所述方法还包括所述深度神经网络的训练步骤:
对所述纯净声源信号、所述反馈麦克信号和所述前馈麦克信号分别进行加窗短时傅里叶变换,获得纯净声源信号的幅度谱和所述前馈麦克信号的幅度谱;
提取所述反馈麦克信号的至少一个特征参数,提取所述前馈带噪信号的特征参数;
根据纯净声源信号的幅度谱和所述前馈麦克信号的幅度谱的比值根据计算目标增益函数;
以所述反馈麦克信号至少一个特征参数和前馈麦克信号的特征参数组合为输入,以所述目标增益函数为输出,所述深度神经网络输入层、输出层为全连接层,中间隐藏层为GRU网络模型,输入层激活函数为tanh函数;输出层激活函数为sigmoid函数,中间隐藏层激活函数采用relu以及sigmoid函数;训练所述深度神经网络,获得训练好的网络参数;以训练好的网络参数初始化所述深度神经网络。
根据一种可能的实施方式,所述方法还包括数据仿真生成的步骤,包括:
从训练数据集中提取纯净声源信号与噪声信号;
将所述纯净声源信号与前馈路径传递函数卷积生成纯净的前馈信号;
将所述纯净声源信号与反馈路径传递函数卷积生成纯净的反馈信号;
将所述纯净的前馈信号与所述纯净的反馈信号分别与噪声数据随机混合,得到前馈麦克信号和反馈麦克信号。
第二方面,提供了一种融合反馈信号的语音增强系统,包括:数据仿真生成模块、网络训练模块和网络增强模块;
所述数据仿真生成模块,用于提取纯净声源信号与噪声信号,将所述纯净声源信号与噪声信号混合生成前馈麦克信号和反馈麦克信号;
所述网络训练模块,用于利用混合生成的前馈麦克信号和反馈麦克信号训练深度神经网络参数,获得训练好的深度神经网络;
所述网络增强模块,用于分别提取反馈带噪信号的至少一个特征参数和前馈带噪信号的特征参数;将所述反馈带噪信号至少一个特征参数与所述前馈带噪信号的参数组合输入训练好的深度神经网络,输出实际增益函数;利用实际增益函数增强前馈带噪信号的语音信号强度。
根据一种可能的实施方式,所述数据仿真生成模块包括训练数据提取单元和随机混合单元;
所述训练数据提取单元,用于从训练数据集中提取纯净声源信号与噪声信号,将所述纯净声源信号与前馈路径传递函数卷积生成纯净的前馈信号;将所述纯净声源信号与反馈路径传递函数卷积生成纯净的反馈信号;
所述随机混合单元,用于将所述纯净的前馈信号与所述纯净的反馈信号分别与噪声数据随机混合,得到前馈麦克信号和反馈麦克信号。
根据一种可能的实施方式,所述网络训练模块包括短时傅里叶变换单元、模拟特征提取单元、目标提取单元和网络训练单元;
所述短时傅里叶变换单元,用于对所述纯净声源信号、所述反馈麦克信号和所述前馈麦克信号分别进行加窗短时傅里叶变换,获得纯净声源信号的幅度谱和所述前馈麦克信号的幅度谱;
所述模拟特征提取单元,用于提取所述反馈麦克信号的至少一个特征参数,提取所述前馈麦克信号的特征参数;
所述目标提取单元,用于根据纯净声源信号的幅度谱和所述前馈麦克信号的幅度谱的比值根据计算目标增益函数;
所述网络训练单元,用于以所述反馈麦克信号至少一个特征参数和前馈麦克信号的特征参数组合为输入,以所述目标增益函数为输出,所述深度神经网络输入层、输出层为全连接层,中间隐藏层为GRU网络模型,输入层激活函数为tanh函数;输出层激活函数为sigmoid函数,中间隐藏层激活函数采用relu以及sigmoid函数;训练所述深度神经网络,获得训练好的网络参数;以训练好的网络参数初始化所述深度神经网络。
根据一种可能的实施方式,所述网络增强模块包括短时傅里叶变换单元、特征提取单元、网络解码单元和短时傅里叶逆变换单元;
所述短时傅里叶变换单元,用于拾取前馈带噪信号和反馈带噪信号,分别进行短时傅里叶变换;
所述特征提取单元,用于提取反馈带噪信号短时傅里叶变换的至少一个特征参数,提取前馈带噪信号短时傅里叶变换的至少一个特征参数;
所述网络解码单元,用于将反馈带噪信号短时傅里叶变换的至少一个特征参数与前馈带噪信号的特征参数组合输入训练好的深度神经网络,输出增益函数;
短时傅里叶逆变换单元,用于将增益函数与前馈带噪信号结合,经过短时傅里叶逆变换后获得增强的语音信号。
第三方面,提供了一种融合反馈信号的语音增强装置,包括真无线立体声耳机、存储器和处理器;
所述真无线立体声耳机至少包括前馈麦克风和反馈麦克风;
所述前馈麦克风用于拾取前馈带噪信号,所述反馈麦克风用于拾取反馈带噪信号;
所述处理器用于执行所述存储器所存储的计算机执行指令,所述处理器运行所述计算机执行指令执行上述任意一项所述的融合反馈信号的语音增强方法。
第四方面,提供了一种存储介质,包括可读存储介质和存储在所述可读存储介质中的计算机程序,所述计算机程序用于实现上述任意一项所述的融合反馈信号的语音增强方法。
本申请实施例提出的一种融合反馈信号的语音增强方法,同时提取前馈麦克风以及反馈麦克风拾取信号的特征参数,构造一个带有反馈带噪信号特征参数信息深度神经网络,并训练该深度神经网络的特征数据库,该带有反馈带噪信号特征参数信息的深度神经网络,能够在不显著增加网络规模条件下显著改善在低信噪比场景下前馈带噪信号的语音信号增强效果。
附图说明
为了更清楚地说明本申请披露的多个实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请披露的多个实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本申请的有源降噪TWS耳机模型;
图2为本申请实施例提出的一种融合反馈信号的语音增强方法的短时频谱图,其中:图2(a)为前馈信号短时频谱图,图2(b)为反馈信号短时频谱图;
图3为本申请实施例提出的一种融合反馈信号的语音增强方法的框架图;
图4为本申请实施例提出的一种融合反馈信号的语音增强方法的深度神经网络模型;
图5为利用本申请系统处理的噪声信号以及增强的语音信号频谱效果图;
图6本申请实施例提供一种融合反馈信号的语音增强系统的功能框图。
具体实施方式
下面通过附图和实施例,对本申请的技术方案做进一步的详细描述。
现有的语音增强方案,大多仅利用前馈信号进行单通道语音增强,即假设语音信号s(n)与噪声信号v(n)不相关,在此假设条件下,带噪语音信号y(n)=s(n)+v(n)的功率谱等于语音信号功率谱与噪声信号功率谱之和。传统单通道语音增强算法通过估计噪声信号的功率谱,并从带噪语音信号功率谱中减去估计的噪声信号功率谱从而恢复出原始语音信号。噪声信号功率谱通常采用语音端点检测或者基于最小统计特性的方法进行估计,这种估计方式仅对平稳态噪声信号有较好的估计效果,对于非平稳态噪声信号估计不准,导致传统的单通道语音增强算法在非平稳态噪声信号场景中算法失效。
针对单通道非平稳态噪声降噪问题,近年出现大量基于深度神经网络的解决方案。深度神经网络通过非线性激活函数以及多层网络结构构造输入、输出之间复杂的非线性映射。在单通道语音增强处理过程中,一般是通过提取带噪语音信号特征向量,映射到不同增益函数实现单通道语音增强。一种方法是提取连续多帧带噪语音信号的幅度谱作为网络的输入特征,映射纯净声源信号的幅度谱;另一种方法是提取带噪语音信号的对数谱以及梅尔倒谱系数构成网络的输入特征,映射二值掩蔽函数(Ideal Binary Mask,IBM)或者理想掩蔽函数(Ideal Ratio Mask,IRM),网络输出的IRM以及IBM作用于带噪语音信号实现单通道语音信号增强。还有一种方法是将带噪语音信号的短时傅里叶频谱映射为纯净语音的短时傅里叶频谱。
在深度神经网络训练过程中,带噪语音信号的信噪比会严重影响网络性能,信噪比越低,提取的特征参数受到噪声信号的干扰越严重,在极低信噪比条件下,深度神经网络可能难以收敛,甚至发散,无法实现单通道语音增强,导致降低设备唤醒率,降低语音识别率,从而严重影响此类语音交互系统性能。
从语音信号在传播路径上受到的环境噪声影响考虑,在有源降噪TWS耳机中,反馈麦克风4由于放置在内耳空腔5中,与环境声之间有被动隔声,反馈麦克风4的噪声信号要比前馈麦克风1的噪声信号小;佩戴者在发声过程中,语音信号一方面经过传递路径声带振动—>口腔辐射—>耳罩—>内耳空腔5到达反馈麦克风4,另一方面经过声带振动—>脸颊骨—>内耳空腔5传递路径到达反馈麦克风4。第一条传递路径会受到环境噪声的严重影响,然而第二条传递路径受环境噪声影响相对较小。由于反馈带噪信号中第二条传输路径以语音信号为主,这使得内耳反馈麦克风4在佩戴者发声过程中拾取的反馈带噪信号信噪比要比前馈麦克风1拾取的前馈带噪信号信噪比更高。
图2给出了一组在极低信噪比条件下前馈麦克风1以及反馈麦克风4拾取带噪信号的短时频谱图。图2中可以看出,前馈麦克风1受到噪声干扰大,使得前馈带噪信号信噪比更低,语音结构不清晰;而反馈带噪信号具有清晰的语音频谱结构,信噪比更高,在低频段能够识取清晰的语音信号。
基于此,本申请构思同时提取前馈麦克风以及反馈麦克风拾取信号的特征参数,构造一个带有反馈带噪信号特征参数信息深度神经网络,并训练该深度神经网络的特征数据库,该带有反馈带噪信号特征参数信息的深度神经网络,能够在不显著增加网络规模条件下显著改善在低信噪比场景下前馈带噪信号的语音信号增强效果。
基于上述构思,本申请实施例设计出一种融合反馈信号的语音增强方法,该方法拾取前馈带噪信号和反馈带噪信号,分别进行短时傅里叶变换;提取所述反馈带噪信号的至少一个特征参数;提取所述前馈带噪信号的特征参数;将所述将反馈带噪信号短时傅里叶变换的至少一个特征参数与所述前馈带噪信号的参数组合输入训练好的深度神经网络,输出增益函数;将增益函数与前馈带噪信号结合,经过短时傅里叶逆变换后获得增强的语音信号。
实践结果表明,带反馈带噪信号特征参数信息的深度神经网络能够在不显著增加网络规模条件下显著改善在低信噪比场景下前馈带噪信号的语音信号增强效果,解决了环境噪声降低前馈麦克风语音信号质量的问题,提高了语音交互系统的性能。
图3为本申请实施例提出的融合反馈信号的语音增强方法的原理框图,如图3所示,图中信号x上标x′均表示仿真生成数据,除特殊说明,仿真生成数据均以上标′表示。下面通过数据仿真生成、网络训练和网络增强三个模块介绍本申请实施例提出的融合反馈信号的语音增强方法。
在图3所示的数据仿真生成模块中,本申请实施例可以从训练数据集中提取训练数据,训练数据集为纯净语音数据集以及噪声数据集,提取纯净语音数据集中的纯净声源信号s′(n)模拟说话人声源信号,纯净声源信号s′(n)与前馈传递函数hf(n)卷积生成前馈信号x′(n);纯净声源信号s′(n)与反馈传递函数hb(n)卷积生成反馈信号xb′(n),其中,前馈传递函数hf(n)以及反馈传递函数hb(n)可通过实验测量获得。
将前馈信号x′(n)与反馈信号x′b(n)与噪声数据集的噪声信号v′(n)分别随机混合,生成前馈麦克信号y′(n)以及反馈麦克信号y′b(n)。前馈麦克信号y′(n)混合信噪比在-5dB以及15dB之间随机取值。考虑到耳罩隔声影响,反馈麦克信号y′b(n)混合信噪比取值要比前馈麦克信号y′(n)混合信噪比高5dB到10dB,在此范围随机取值。前馈麦克信号y′(n)的特征参数可以和反馈麦克信号y′b(n)的特征参数相同,也可以不同。
在本申请的另一实施例中,反馈麦克信号y′b(n)由前馈麦克信号y′(n)通过一个全通随机相位滤波器生成,也可以通过卷积前馈麦克风1到反馈麦克风4的相对传递路径冲击响应函数生成,前馈麦克风1到反馈麦克风4的相对传递路径冲击响应函数也可通过实验测量获得。
在本申请的另一实施例中,也可以采用真实环境录制的纯净声源信号s(n),提取原始前馈麦克信号y′(n)以及反馈麦克信号y′b(n)的特征参数,利用该特征参数对深度神经网络进行训练。
在图3所示的网络训练模块中,本申请实施例利用混合生成的前馈麦克信号和反馈麦克信号训练深度神经网络参数。
首先对训练语音信号进行加窗短时傅里叶变换。具体地,对纯净声源信号s′(n)进行加窗短时傅里叶变换,如下:
其中,w(*)为窗函数,本申请的实施中可使用汉宁窗,但不限于使用汉宁窗,P为帧移,N为帧长。
然后分别对前馈麦克信号y′(n)以及反馈麦克信号y′b(n)采用(1)式计算加窗短时傅里叶变换Y′(k,l)以及Y′b(k,l)。
提取反馈麦克信号至少一个特征参数和前馈麦克信号的特征参数。
其中,反馈麦克信号y′b(n)的特征参数可以为基频F0,短时傅里叶变化系数,幅度谱\功率谱\对数功率谱,倒谱系数,线性预测倒谱系数,梅尔频率倒谱系数,Gammatone频率倒谱系数和相对谱转换中的一种或多种组合。下面对各个特征参数分别计算。
1)基频F0:基频F0是指语音浊音段单位时间内语音波形重复的次数。次数越多,基频F0越高;次数越少,基频F0越低。基频F0也可以用同一周期内采样点个数表示。基频F0是语音信号的重要特征,提取反馈麦克信号y′b(n)的基频参数会比提取前馈麦克信号y′(n)基频参数更准确。
2)短时傅里叶变化系数:反馈麦克信号y′b(n)进行加窗傅里叶变换计算得到的短时傅里叶频谱Y′b(k,l)。Y′b(k,l)是一复数域信号,有实部和虚部两部分,不仅包含不同频率点的幅度信号,还包括不同频率点的相位信息。
3)幅度谱\功率谱\对数功率谱:利用短时傅里叶频谱Y′b(k,l),计算幅度谱如下:
其中,幅度谱为反馈麦克信号y′b(n)加窗短时傅里叶变换的幅度信息,能够反映不同频率的幅度大小。计算功率谱/>
其中,功率谱是幅度谱的平方,反映的是不同频率能量大小。
计算对数功率谱如下:
其中,对数功率谱是功率谱的对数,α是常数系数,用于调节对数谱数据动态范围。
4)倒谱系数(Cepstral Coefficients,CCs):计算对数功率谱逆傅里叶变换,得到倒谱系数计算如下:
其中,由于对数功率谱具有对称性,倒谱系数表现为实数。
5)线性预测倒谱系数(Linear Prediction Cepstral Coefficients,LPCCs):首先提取反馈麦克信号的P阶线性预测系数ap,线性预测系数满足:
并使误差信号e(n)能量最小。
利用式(1)、(3)、(4)、(5)计算线性预测系数ap的傅里叶变换系数以及倒谱系数得到线性预测倒谱系数。
6)梅尔频率倒谱系数(Mel-frequency Cepstral Coefficients,MFCCs):梅尔频率倒谱系数考虑到了人耳的听觉特征,先将线性频谱映射到基于听觉感知的Mel非线性频谱中,然后转换到倒谱上。将普通频率转化到Mel频率的公式是:
mel(f)=2595·log10(1+f/700) (7)
梅尔频率倒谱系数计算流程:对反馈麦克信号进行分帧、加窗;对每一个短时分析窗,通过式(1)短时傅里叶变换得到对应的频谱;将频谱通过Mel滤波器组得到Mel频谱;在Mel频谱上面进行公式(3)、(4)、(5)计算梅尔频率倒谱系数。
在实际操作中(5)式也可以是通过DCT离散余弦变换来实现,取DCT后的若干个系数得到梅尔频率倒谱系数MFCC。
7)Gammatone频率倒谱系数(Gammatone Frequency Ceptral Coefficients,GFCCs):Gammatone滤波器是一种基于人耳耳蜗模型的滤波器组,该滤波器组能很好地模拟基底膜的分频特性,其时域表达形式如下:
g(f,t)=kta-1e-2πbtcos(2πft+φ) (8)
其中,k为滤波器增益,a为滤波器阶数,f为中心频率,φ为相位,b为衰减因子,决定相应滤波器带宽,中心频率关系为b=24.7(4.37·f/1000+1)。
Gammatone频率倒谱系数计算流程:对反馈麦克信号进行分帧、加窗;对每一个短时分析窗,通过式(1)短时傅里叶变换得到对应的频谱;将频谱通过Gammatone滤波器组得到Gammatone频谱;在Gammatone频谱上面进行式(3)、(4)、(5)计算Gammatone频率倒谱系数。
8)相对谱转换(Relative Spectral Transform,RASTA)-感知线性预测系数(Perceptual Linear Prediction,PLP),RASTA-PLP特征是一种经过修正的线性预测倒谱系数。PLP是在LPC线性预测上增加一个听觉感知特征参数,根据人的听觉感知特征参数修改语音功率谱,做等响度预加重和立方根压缩,RASTA能够使稳态频谱因子更加鲁棒。
本申请的实施例提取用于训练的目标增益函数,增益函数为IRM′(k,l):
其中,|S′(k,l)|、|Y′(k,l)|分别为纯净声源信号s′(n)以及前馈信号y′(n)的幅度谱。
本申请的深度神经网络结构采用五层网络结构,如图4所示,具有如下特点:
深度神经网络输入层采用全连接层,激活函数为tanh函数;输出层采用全连接层,激活函数设置为sigmoid函数;中间隐藏层为3层,采用GRU(Gated Recurrent Unit)网络模型,激活函数采用relu以及sigmoid函数,不同隐藏层之间可以跨层连接,连接方式不限于图4所示的连接方式。深度神经网络每层网络节点个数根据实际应用情况灵活调整。
训练深度神经网络时,以提取的反馈麦克信号特征参数与前馈麦克信号特征参数组合为输入参数,以提取的增益函数IRM′(k,l)为输出参数,训练深度神经网络参数;以训练好的网络参数初始化深度神经网络,得到训练好的深度神经网络。
在图3所示的网络增强模块中,本申请实施例基于训练好的深度神经网络,提取前馈带噪信号以及反馈带噪信号的特征参数;将所述特征参数输入训练好的深度神经网络,输出实际增益函数;利用实际增益函数增强前馈带噪信号的语音信号强度。
具体地,通过前馈麦克风1拾取前馈带噪信号,通过反馈麦克风4拾取反馈带噪信号,并建立信号模型。其中,前馈带噪信号y(n)的模型为:
其中,x(n)和v(n)分别为前馈麦克风1拾取的佩戴者目标语音信号和环境噪声信号。s(n)是说话人声源信号,hf(n)是说话人声源信号到前馈麦克风1的前馈传递函数,为卷积运算符。
对式(10)两边做短时傅里叶变换(Short-time Fast Fourier Transform,缩写为STFT):
Y(k,l)=X(k,l)+V(k,l) (11)
其中,Y(k,l)、X(k,l)和V(k,l)分别是y(n)、x(n)和v(n)的STFT变换,k为频率索引,l为时间帧索引。
反馈带噪信号yb(n)的模型为:
其中,xb(n)为反馈麦克风4拾取的佩戴者目标语音信号,vb(n)为环境噪声信号,hb(n)是说话人声源信号到反馈麦克风4的反馈传递函数。同样地,对公式(12)两边做STFT变换:
Yb(k,l)=Xb(k,l)+Vb(k,l) (13)
其中,Yb(k,l)、Xb(k,l)和Vb(k,l)分别是yb(n)、xb(n)和vb(n)的STFT变换。
提取反馈带噪信号短时傅里叶变换的至少一个特征参数,提取前馈带噪信号短时傅里叶变换的至少一个特征参数。前馈带噪信号y(n)的特征参数可以和反馈带噪信号yb(n)相同,也可以不同。
具体地,可以提取反馈带噪信号的至少一个特征参数,与前馈带噪信号的特征参数组合作为深度神经网络的输入参数F(l)。需要提取的反馈带噪信号特征参数,以及提取方法可以参考网络训练模块中对各个特征参数分别计算的1)-8)所述。
需要注意的是在执行时,需要将网络训练模块中的反馈麦克信号替换为反馈带噪信号。
将反馈带噪信号短时傅里叶变换的至少一个特征参数与前馈带噪信号的特征参数组合输入训练好的深度神经网络,输出增益函数。
具体地,将反馈带噪信号短时傅里叶变换的至少一个特征参数与前馈带噪信号的特征参数组合作为输入参数F(l),输入训练好的深度神经网络,输出增益函数IRM(k,l)。
将增益函数IRM(k,l)与前馈带噪信号结合,经过短时傅里叶逆变换后获得增强的语音信号。
具体地,将增益函数IRM(k,l)乘以前馈带噪信号的加窗短时傅里叶变换Y(k,l),得到增强信号的短时傅里叶变换E(k,l)。对E(k,l)进行短时傅里叶逆变换,并通过重叠相加(overlap-add)算法得到时域内增强的语音信号。
图5为利用本申请系统处理的噪声信号以及增强的语音信号频谱。如图5所示,前馈麦克风拾取的前馈带噪信号在-5dB信噪比噪声干扰条件下,利用本申请方法处理的结果能够很好地恢复声源的语音信号,同时抑制噪声。
本申请的发明点在于反馈麦克信号y′b(n)的特征参数提取以及利用,并与前馈麦克信号y′(n)提取的特征参数一起构成深度神经网络训练的输入特征参数。实验结果表明,带反馈带噪信号特征参数信息的深度神经网络能够在不显著增加网络规模条件下显著改善在低信噪比场景下前馈信号的语音信号增强效果。
第二方面,本申请实施例提供一种融合反馈信号的语音增强系统,包括:数据仿真生成模块31、网络训练模块32和网络增强模块33。
数据仿真生成模块31提取纯净声源信号与噪声信号,将纯净声源信号与噪声信号混合生成前馈麦克信号和反馈麦克信号。
具体地,如图6所示,数据仿真生成模块31包括训练数据提取单元311和随机混合单元312。训练数据提取单元311从训练数据集中提取纯净声源信号与噪声信号,将纯净声源信号与前馈路径传递函数卷积生成纯净的前馈信号;将纯净声源信号与反馈路径传递函数卷积生成纯净的反馈信号。随机混合单元312将纯净的前馈信号与纯净的反馈信号分别与噪声数据随机混合,得到前馈麦克信号和反馈麦克信号。
网络训练模块32利用混合生成的前馈麦克信号和反馈麦克信号训练深度神经网络参数,获得训练好的深度神经网络。
具体地网络训练模块32包括短时傅里叶变换单元321、模拟特征提取单元322、目标提取单元323和网络训练单元324;短时傅里叶变换单元321对纯净声源信号、反馈麦克信号和前馈麦克信号分别进行加窗短时傅里叶变换,获得纯净声源信号的幅度谱和前馈麦克信号的幅度谱;模拟特征提取单元322提取反馈麦克信号的至少一个特征参数,提取前馈带噪信号的特征参数;目标提取单元323根据纯净声源信号的幅度谱和前馈麦克信号的幅度谱的比值根据计算目标增益函数;网络训练单元324以反馈麦克信号至少一个特征参数和前馈麦克信号的特征参数组合为输入参数,以目标增益函数为输出参数,深度神经网络输入层、输出层为全连接层,中间隐藏层为GRU网络模型,输入层激活函数为tanh函数;输出层激活函数为sigmoid函数,中间隐藏层激活函数采用relu以及sigmoid函数;训练深度神经网络,获得训练好的网络参数;以训练好的网络参数初始化深度神经网络。
网络增强模块33分别提取反馈带噪信号的至少一个特征参数和前馈带噪信号的特征参数;将反馈带噪信号至少一个特征参数与前馈带噪信号的参数组合输入训练好的深度神经网络,输出实际增益函数;利用实际增益函数增强前馈带噪信号的语音信号强度。
具体地,网络增强模块33包括短时傅里叶变换单元331、特征提取单元332、网络解码单元333和短时傅里叶逆变换单元334;短时傅里叶变换单元331拾取前馈带噪信号和反馈带噪信号,分别进行短时傅里叶变换;特征提取单元332提取反馈带噪信号短时傅里叶变换的至少一个特征参数,提取前馈带噪信号短时傅里叶变换的至少一个特征参数。网络解码单元333将反馈带噪信号短时傅里叶变换的至少一个特征参数与前馈带噪信号的特征参数组合输入训练好的深度神经网络,输出增益函数;短时傅里叶逆变换单元334将增益函数与前馈带噪信号结合,经过短时傅里叶逆变换后获得增强的语音信号。
实践结果表明,本申请实施例提供的融合反馈信号的语音增强系统能够在不显著增加网络规模条件下显著改善在低信噪比场景下前馈带噪信号的语音信号增强效果,解决了环境噪声降低前馈麦克风语音信号质量的问题,提高了语音交互系统的性能。
第三方面,本申请实施例还提供一种融合反馈信号的语音增强装置,包括真无线立体声耳机,存储器和处理器;其中真无线立体声耳机至少包括前馈麦克风和反馈麦克风;通过前馈麦克风拾取前馈带噪信号,通过反馈麦克风拾取反馈带噪信号;所述处理器用于执行所述存储器所存储的计算机执行指令,所述处理器运行所述计算机执行指令时执行上述任意实施例提出的融合反馈信号的语音增强方法。实践结果表明,本申请实施例提供的融合反馈信号的语音增强装置能够在不显著增加网络规模条件下显著改善在低信噪比场景下前馈带噪信号的语音信号增强效果,解决了环境噪声降低前馈麦克风语音信号质量的问题,提高了语音交互系统的性能。
在第四方面,本申请实施例还提供一种存储介质,包括可读存储介质和存储在所述可读存储介质中的计算机程序,所述计算机程序用于实现上述任意实施例提出的融合反馈信号的语音增强方法。实践结果表明,本申请实施例提供的存储介质能够在不显著增加网络规模条件下显著改善在低信噪比场景下前馈带噪信号的语音信号增强效果,解决了环境噪声降低前馈麦克风语音信号质量的问题,提高了语音交互系统的性能。
本领域普通技术人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执轨道,取决于技术方案的特定应用和设计约束条件。本领域普通技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执轨道的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上所述的具体实施方式,对本申请的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本申请的具体实施方式而已,并不用于限定本申请的保护范围,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (5)
1.一种融合反馈信号的语音增强方法,其特征在于,包括以下步骤:
数据仿真生成的步骤,包括:从训练数据集中提取纯净声源信号与噪声信号;将所述纯净声源信号与前馈路径传递函数卷积生成纯净的前馈信号;将所述纯净声源信号与反馈路径传递函数卷积生成纯净的反馈信号;将所述纯净的前馈信号与所述纯净的反馈信号分别与噪声数据随机混合,得到前馈麦克信号和反馈麦克信号;
网络训练的步骤,包括:对所述纯净声源信号、所述反馈麦克信号和所述前馈麦克信号分别进行加窗短时傅里叶变换,获得纯净声源信号的幅度谱和所述前馈麦克信号的幅度谱;提取所述反馈麦克信号的至少一个特征参数,提取所述前馈麦克信号的特征参数;根据纯净声源信号的幅度谱和所述前馈麦克信号的幅度谱的比值根据计算目标增益函数;以所述反馈麦克信号的至少一个特征参数和所述前馈麦克信号的特征参数的组合为输入,以所述目标增益函数为输出,深度神经网络输入层、输出层为全连接层,中间隐藏层为GRU网络模型,输入层激活函数为tanh函数;输出层激活函数为sigmoid函数,中间隐藏层激活函数采用relu以及sigmoid函数;训练所述深度神经网络,获得训练好的网络参数;以训练好的网络参数初始化所述深度神经网络;
网络增强的步骤,包括:拾取前馈带噪信号和反馈带噪信号,分别进行短时傅里叶变换;所述前馈带噪信号为前馈麦克风拾取的带噪信号,所述反馈带噪信号为反馈麦克风拾取的带噪信号;提取经短时傅里叶变换后的所述反馈带噪信号的至少一个特征参数;提取经短时傅里叶变换后的所述前馈带噪信号的特征参数;将所述反馈带噪信号的至少一个特征参数与所述前馈带噪信号的特征参数组合输入训练好的深度神经网络,输出增益函数;将所述增益函数与所述前馈带噪信号的特征参数结合,经过短时傅里叶逆变换后获得增强的语音信号。
2.根据权利要求1所述的方法,其特征在于,所述提取经短时傅里叶变换后的所述反馈带噪信号的至少一个特征参数,包括:
根据反馈带噪信号的短时傅里叶频谱提取特征参数,所述特征参数包括:基频、短时傅里叶变化系数、幅度谱\功率谱\对数功率谱、倒谱系数、线性预测倒谱系数、梅尔倒谱系数、频率倒谱系数、相对谱转换以及感知线性预测系数的一种或者多种组合。
3.一种融合反馈信号的语音增强系统,其特征在于,包括:数据仿真生成模块、网络训练模块和网络增强模块;
所述数据仿真生成模块,用于从训练数据集中提取纯净声源信号与噪声信号,将所述纯净声源信号与前馈路径传递函数卷积生成纯净的前馈信号;将所述纯净声源信号与反馈路径传递函数卷积生成纯净的反馈信号;将所述纯净的前馈信号与所述纯净的反馈信号分别与噪声数据随机混合,得到前馈麦克信号和反馈麦克信号;
所述网络训练模块,用于对所述纯净声源信号、所述反馈麦克信号和所述前馈麦克信号分别进行加窗短时傅里叶变换,获得纯净声源信号的幅度谱和所述前馈麦克信号的幅度谱;提取所述反馈麦克信号的至少一个特征参数,提取所述前馈麦克信号的特征参数;根据纯净声源信号的幅度谱和所述前馈麦克信号的幅度谱的比值根据计算目标增益函数;以所述反馈麦克信号的至少一个特征参数和所述前馈麦克信号的特征参数的组合为输入,以所述目标增益函数为输出,深度神经网络输入层、输出层为全连接层,中间隐藏层为GRU网络模型,输入层激活函数为tanh函数;输出层激活函数为sigmoid函数,中间隐藏层激活函数采用relu以及sigmoid函数;训练所述深度神经网络,获得训练好的网络参数;以训练好的网络参数初始化所述深度神经网络;
所述网络增强模块,用于拾取前馈带噪信号和反馈带噪信号,分别进行短时傅里叶变换;所述前馈带噪信号为前馈麦克风拾取的带噪信号,所述反馈带噪信号为反馈麦克风拾取的带噪信号;提取经短时傅里叶变换后的所述反馈带噪信号的至少一个特征参数;提取经短时傅里叶变换后的所述前馈带噪信号的特征参数;将所述反馈带噪信号的至少一个特征参数与所述前馈带噪信号的特征参数的组合输入训练好的深度神经网络,输出增益函数;将所述增益函数与所述前馈带噪信号的特征参数结合,经过短时傅里叶逆变换后获得增强的语音信号。
4.一种融合反馈信号的语音增强装置,其特征在于,包括真无线立体声耳机、存储器和处理器;
所述真无线立体声耳机至少包括前馈麦克风和反馈麦克风;
所述前馈麦克风用于拾取前馈带噪信号,所述反馈麦克风用于拾取反馈带噪信号;
所述处理器用于执行所述存储器所存储的计算机执行指令,所述处理器运行所述计算机执行指令执行权利要求1-2任意一项所述的融合反馈信号的语音增强方法。
5.一种存储介质,其特征在于,包括可读存储介质和存储在所述可读存储介质中的计算机程序,所述计算机程序用于实现权利要求1-2任意一项所述的融合反馈信号的语音增强方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010724097.6A CN111833896B (zh) | 2020-07-24 | 2020-07-24 | 融合反馈信号的语音增强方法、系统、装置和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010724097.6A CN111833896B (zh) | 2020-07-24 | 2020-07-24 | 融合反馈信号的语音增强方法、系统、装置和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111833896A CN111833896A (zh) | 2020-10-27 |
CN111833896B true CN111833896B (zh) | 2023-08-01 |
Family
ID=72924878
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010724097.6A Active CN111833896B (zh) | 2020-07-24 | 2020-07-24 | 融合反馈信号的语音增强方法、系统、装置和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111833896B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111223493B (zh) * | 2020-01-08 | 2022-08-02 | 北京声加科技有限公司 | 语音信号降噪处理方法、传声器和电子设备 |
CN112599126B (zh) * | 2020-12-03 | 2022-05-27 | 海信视像科技股份有限公司 | 一种智能设备的唤醒方法、智能设备及计算设备 |
CN114697782A (zh) * | 2020-12-25 | 2022-07-01 | 北京小鸟听听科技有限公司 | 耳机风噪识别方法、装置及耳机 |
CN112382277A (zh) * | 2021-01-07 | 2021-02-19 | 博智安全科技股份有限公司 | 智能设备唤醒方法、智能设备和计算机可读存储介质 |
CN112951258B (zh) * | 2021-04-23 | 2024-05-17 | 中国科学技术大学 | 一种音视频语音增强处理方法及装置 |
CN113257262A (zh) * | 2021-05-11 | 2021-08-13 | 广东电网有限责任公司清远供电局 | 一种语音信号处理方法、装置、设备及存储介质 |
CN113539293B (zh) * | 2021-08-10 | 2023-12-26 | 南京邮电大学 | 基于卷积神经网络和联合优化的单通道语音分离方法 |
CN114023352B (zh) * | 2021-11-12 | 2022-12-16 | 华南理工大学 | 一种基于能量谱深度调制的语音增强方法及装置 |
CN114783152A (zh) * | 2022-03-30 | 2022-07-22 | 郑州熙禾智能科技有限公司 | 基于气声信息融合的储能电站火灾告警方法及系统 |
CN115243162B (zh) * | 2022-07-14 | 2023-09-29 | 中国科学院声学研究所 | 一种基于深度学习的闭环系统声反馈抑制方法 |
CN115884032B (zh) * | 2023-02-20 | 2023-07-04 | 深圳市九音科技有限公司 | 一种后馈式耳机的智慧通话降噪方法及系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007110532A (ja) * | 2005-10-14 | 2007-04-26 | Sharp Corp | 騒音キャンセルヘッドフォン、及びそのフィードバックループゲインばらつき調整方法 |
CN108389585A (zh) * | 2018-02-01 | 2018-08-10 | 上海今日信息科技有限公司 | 一种用于反馈式主动降噪系统的低通滤波器实现方法 |
CN108847208A (zh) * | 2018-05-04 | 2018-11-20 | 歌尔科技有限公司 | 一种降噪处理方法、装置和耳机 |
CN109785852A (zh) * | 2018-12-14 | 2019-05-21 | 厦门快商通信息技术有限公司 | 一种增强说话人语音的方法及系统 |
CN110996203A (zh) * | 2019-11-28 | 2020-04-10 | 歌尔智能科技有限公司 | 一种耳机降噪方法、装置、系统及无线耳机 |
CN111161752A (zh) * | 2019-12-31 | 2020-05-15 | 歌尔股份有限公司 | 回声消除方法和装置 |
CN111223493A (zh) * | 2020-01-08 | 2020-06-02 | 北京声加科技有限公司 | 语音信号降噪处理方法、传声器和电子设备 |
CN111243617A (zh) * | 2020-01-13 | 2020-06-05 | 中国科学院声学研究所 | 一种基于深度学习降低mfcc特征失真的语音增强方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160111107A1 (en) * | 2014-10-21 | 2016-04-21 | Mitsubishi Electric Research Laboratories, Inc. | Method for Enhancing Noisy Speech using Features from an Automatic Speech Recognition System |
US10381020B2 (en) * | 2017-06-16 | 2019-08-13 | Apple Inc. | Speech model-based neural network-assisted signal enhancement |
-
2020
- 2020-07-24 CN CN202010724097.6A patent/CN111833896B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007110532A (ja) * | 2005-10-14 | 2007-04-26 | Sharp Corp | 騒音キャンセルヘッドフォン、及びそのフィードバックループゲインばらつき調整方法 |
CN108389585A (zh) * | 2018-02-01 | 2018-08-10 | 上海今日信息科技有限公司 | 一种用于反馈式主动降噪系统的低通滤波器实现方法 |
CN108847208A (zh) * | 2018-05-04 | 2018-11-20 | 歌尔科技有限公司 | 一种降噪处理方法、装置和耳机 |
WO2019210605A1 (zh) * | 2018-05-04 | 2019-11-07 | 歌尔科技有限公司 | 一种降噪处理方法、装置和耳机 |
CN109785852A (zh) * | 2018-12-14 | 2019-05-21 | 厦门快商通信息技术有限公司 | 一种增强说话人语音的方法及系统 |
CN110996203A (zh) * | 2019-11-28 | 2020-04-10 | 歌尔智能科技有限公司 | 一种耳机降噪方法、装置、系统及无线耳机 |
CN111161752A (zh) * | 2019-12-31 | 2020-05-15 | 歌尔股份有限公司 | 回声消除方法和装置 |
CN111223493A (zh) * | 2020-01-08 | 2020-06-02 | 北京声加科技有限公司 | 语音信号降噪处理方法、传声器和电子设备 |
CN111243617A (zh) * | 2020-01-13 | 2020-06-05 | 中国科学院声学研究所 | 一种基于深度学习降低mfcc特征失真的语音增强方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111833896A (zh) | 2020-10-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111833896B (zh) | 融合反馈信号的语音增强方法、系统、装置和存储介质 | |
CN109065067B (zh) | 一种基于神经网络模型的会议终端语音降噪方法 | |
US8880396B1 (en) | Spectrum reconstruction for automatic speech recognition | |
CN110085245B (zh) | 一种基于声学特征转换的语音清晰度增强方法 | |
RU2595636C2 (ru) | Система и способ для генерации аудиосигнала | |
CN110473567A (zh) | 基于深度神经网络的音频处理方法、装置及存储介质 | |
CN111292759A (zh) | 一种基于神经网络的立体声回声消除方法及系统 | |
Maruri et al. | V-speech: Noise-robust speech capturing glasses using vibration sensors | |
JP5634959B2 (ja) | 雑音/残響除去装置とその方法とプログラム | |
JP2012155339A (ja) | 音声状態モデルを使用したマルチセンサ音声高品質化 | |
CN113241085B (zh) | 回声消除方法、装置、设备及可读存储介质 | |
WO2019014890A1 (zh) | 一种通用的单声道实时降噪方法 | |
Wang et al. | Improving the intelligibility of speech for simulated electric and acoustic stimulation using fully convolutional neural networks | |
CN115424627A (zh) | 基于卷积循环网络和wpe算法的语音增强混合处理方法 | |
Zheng et al. | Spectra restoration of bone-conducted speech via attention-based contextual information and spectro-temporal structure constraint | |
CN109215635B (zh) | 用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建方法 | |
CN117219102A (zh) | 一种基于听觉感知的低复杂度语音增强方法 | |
CN114023352B (zh) | 一种基于能量谱深度调制的语音增强方法及装置 | |
EP4207812A1 (en) | Method for audio signal processing on a hearing system, hearing system and neural network for audio signal processing | |
CN113327589B (zh) | 一种基于姿态传感器的语音活动检测方法 | |
CN111968627B (zh) | 一种基于联合字典学习和稀疏表示的骨导语音增强方法 | |
Zheng et al. | Bandwidth extension WaveNet for bone-conducted speech enhancement | |
Zheng et al. | A spectra-based equalization-generation combined framework for throat microphone speech enhancement | |
US20240005937A1 (en) | Audio signal processing method and system for enhancing a bone-conducted audio signal using a machine learning model | |
CN116895284B (zh) | 自适应声掩蔽方法、装置、设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |