CN115065912A - 基于声纹筛技术的对音箱能量进行筛选的反馈抑制装置 - Google Patents
基于声纹筛技术的对音箱能量进行筛选的反馈抑制装置 Download PDFInfo
- Publication number
- CN115065912A CN115065912A CN202210711587.1A CN202210711587A CN115065912A CN 115065912 A CN115065912 A CN 115065912A CN 202210711587 A CN202210711587 A CN 202210711587A CN 115065912 A CN115065912 A CN 115065912A
- Authority
- CN
- China
- Prior art keywords
- voiceprint
- screen
- level
- screening
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012216 screening Methods 0.000 title claims abstract description 106
- 238000005516 engineering process Methods 0.000 title claims abstract description 20
- 230000005764 inhibitory process Effects 0.000 title description 2
- 230000001629 suppression Effects 0.000 claims abstract description 44
- 230000005236 sound signal Effects 0.000 claims abstract description 32
- 238000012545 processing Methods 0.000 claims abstract description 14
- 238000000034 method Methods 0.000 claims description 26
- 230000004927 fusion Effects 0.000 claims description 24
- 230000001755 vocal effect Effects 0.000 claims description 17
- 238000013528 artificial neural network Methods 0.000 claims description 15
- 238000012549 training Methods 0.000 claims description 9
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 4
- 230000003321 amplification Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000003199 nucleic acid amplification method Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 108010076504 Protein Sorting Signals Proteins 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/02—Circuits for transducers, loudspeakers or microphones for preventing acoustic reaction, i.e. acoustic oscillatory feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/14—Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Otolaryngology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
Abstract
本发明适用于声音处理技术领域,提供了一种基于声纹筛技术的对音箱能量进行筛选的反馈抑制装置,所述装置包括输入模块、声纹筛模块、噪声抑制模块、自动均衡模块以及输出模块,其中:输入模块,用于接收外界声音信号;声纹筛模块,所述声纹筛模块包括有多级声纹筛,声纹筛用于对人声和非人声进行识别筛选;噪声抑制模块,用于对声纹筛模块识别筛选出的非人声进行抑制;自动均衡模块,用于对声纹筛模块识别筛选出的人声自动调节均衡,并将处理后的人声传输至输出模块。声纹筛模块包括有多级声纹筛,能够对人声和非人声进行反复识别和筛选,尽可能去除所有的非人声,尽可能叠加保留所有的人声,本发明对人声的破坏小,避免人声失真。
Description
技术领域
本发明涉及声音处理技术领域,具体是涉及一种基于声纹筛技术的对音箱能量进行筛选的反馈抑制装置。
背景技术
在扩声系统中,声反馈(即啸叫)产生的原因是音箱发出的声音折回到话筒,再送到扩声系统中放大,并经音箱送出,而后又折回到话筒,从而形成正反馈,如此循环所致。啸叫不仅是一种让人很难受的噪声,深度的啸叫还会使系统信号过强,从而烧毁功放或音箱。目前针对啸叫的解决方法有陷波法和移频法,陷波法就是在声反馈系统的反馈频率点插入一个陷波滤波器,降低反馈点的增益,使之无法达到啸叫的增益条件;陷波法存在以下缺点:理论上,陷波器法不能完全阻止声反馈;还会衰减人声声音中某些频率成分,从而造成人声失真。移频法通过改变输入音频信号的频率来破坏啸叫产生条件,使得再次进入系统的音频不会和原始信号频率叠加,达到抑制啸叫;移频法存在缺点:改变了人声频率,造成严重失真,尤其是对连续声音,会造成声音抖动。因此,陷波法和移频法均无法很好的解决啸叫问题,那么就需要提供一种基于声纹筛技术的对音箱能量进行筛选的反馈抑制装置,旨在解决上述问题。
发明内容
针对现有技术存在的不足,本发明的目的在于提供一种基于声纹筛技术的对音箱能量进行筛选的反馈抑制装置,以解决上述背景技术中存在的问题。
本发明是这样实现的,一种基于声纹筛技术的对音箱能量进行筛选的反馈抑制装置,所述装置包括输入模块、声纹筛模块、噪声抑制模块、自动均衡模块以及输出模块,所述声纹筛模块与输入模块、噪声抑制模块以及自动均衡模块电性连接,所述自动均衡模块与输出模块电性连接,其中:
输入模块,用于接收外界声音信号;
声纹筛模块,所述声纹筛模块包括有多级声纹筛,声纹筛用于对人声和非人声进行识别筛选;
噪声抑制模块,用于对声纹筛模块识别筛选出的非人声进行抑制;
自动均衡模块,用于对声纹筛模块识别筛选出的人声自动调节均衡,并将处理后的人声传输至输出模块。
作为本发明进一步的方案:所述声纹筛模块包括第一级人声声纹筛、第二级人声声纹筛、第三级人声声纹筛、第四级人声声纹筛和第五级人声声纹筛,第一级人声声纹筛、第二级人声声纹筛、第三级人声声纹筛、第四级人声声纹筛和第五级人声声纹筛依次串联连接,人声声纹筛用于识别筛选出人声和非人声,第一级人声声纹筛识别筛选出的人声进入第二级人声声纹筛中继续筛选,第二级人声声纹筛识别筛选出的人声进入第三级人声声纹筛中继续筛选,第三级人声声纹筛识别筛选出的人声进入第四级人声声纹筛中继续筛选,第四级人声声纹筛识别筛选出的人声进入第五级人声声纹筛中继续筛选,第五级人声声纹筛识别筛选出的人声进入自动均衡模块中。
作为本发明进一步的方案:所述第一级人声声纹筛、第二级人声声纹筛、第三级人声声纹筛、第四级人声声纹筛和第五级人声声纹筛识别筛选出的非人声依次叠加后进入噪声抑制模块中。
作为本发明进一步的方案:所述声纹筛模块包括第一级人声声纹筛、第二级人声声纹筛、第三级人声声纹筛、第四级人声声纹筛和第五级人声声纹筛,第一级人声声纹筛、第二级人声声纹筛、第三级人声声纹筛、第四级人声声纹筛和第五级人声声纹筛依次并联连接,人声声纹筛用于识别筛选出人声和非人声,所述第一级人声声纹筛、第二级人声声纹筛、第三级人声声纹筛、第四级人声声纹筛和第五级人声声纹筛识别筛选出的人声依次叠加后进入自动均衡模块中。
作为本发明进一步的方案:所述第一级人声声纹筛、第二级人声声纹筛、第三级人声声纹筛、第四级人声声纹筛和第五级人声声纹筛识别筛选出的非人声依次叠加后进入噪声抑制模块中。
作为本发明进一步的方案:所述声纹筛模块包括第一级噪声声纹筛、第二级噪声声纹筛、第三级噪声声纹筛、第四级噪声声纹筛和第五级噪声声纹筛,第一级噪声声纹筛、第二级噪声声纹筛、第三级噪声声纹筛、第四级噪声声纹筛和第五级噪声声纹筛依次串联连接,噪声声纹筛用于识别筛选出人声和非人声,所述第一级噪声声纹筛、第二级噪声声纹筛、第三级噪声声纹筛、第四级噪声声纹筛和第五级噪声声纹筛识别筛选出的人声依次叠加后进入自动均衡模块中。
作为本发明进一步的方案:所述第一级噪声声纹筛识别筛选出的非人声进入第二级噪声声纹筛中继续筛选,第二级噪声声纹筛识别筛选出的非人声进入第三级噪声声纹筛中继续筛选,第三级噪声声纹筛识别筛选出的非人声进入第四级噪声声纹筛中继续筛选,第四级噪声声纹筛识别筛选出的非人声进入第五级噪声声纹筛中继续筛选,第五级噪声声纹筛识别筛选出的非人声进入噪声抑制模块中。
作为本发明进一步的方案:声纹筛对人声和非人声进行识别筛选的步骤为:训练神经网络;根据神经网络对人声和非人声进行识别。
作为本发明进一步的方案:所述训练神经网络的步骤,具体为:
获取不包含人声的外界声音信号和包含人声的外界声音信号;
提取外界声音信号的MFCC融合特征,MFCC融合特征均包括MFCC特征、Delta信息、Delta-Delta信息以及RMSE;
对外界声音信号的MFCC融合特征进行特征处理,特征处理包括切分和补齐;
根据特征处理后的外界声音信号的MFCC融合特征对神经网络进行训练,得到训练完成的预测模型。
作为本发明进一步的方案:所述根据神经网络对人声和非人声进行识别的步骤,具体为:
获取待识别声音信号,提取待识别声音信号的MFCC融合特征;
对待识别声音信号的MFCC融合特征进行特征处理;
将特征处理后的待识别声音信号的MFCC融合特征输入训练好的预测模型,识别得到人声和非人声。
与现有技术相比,本发明的有益效果是:
本发明通过设置声纹筛模块、噪声抑制模块以及自动均衡模块,能够对人声和非人声进行识别筛选,噪声抑制模块对声纹筛模块识别筛选出的非人声进行抑制过滤,让系统更纯净,自动均衡模块对声纹筛模块识别筛选出的人声自动调节均衡,使得声音更加和谐自然;另外,声纹筛模块包括有多级声纹筛,能够对人声和非人声进行反复识别和筛选,尽可能去除所有的非人声,尽可能叠加保留所有的人声,本发明对人声的破坏小,避免人声失真;且对非人声的识别率较高,非人声无法反馈折回扩声系统中,保证了输出声音信号的纯净。
附图说明
图1为一种基于声纹筛技术的对音箱能量进行筛选的反馈抑制装置的结构示意图。
图2为一种基于声纹筛技术的对音箱能量进行筛选的反馈抑制装置中多级人声声纹筛串联的结构示意图。
图3为一种基于声纹筛技术的对音箱能量进行筛选的反馈抑制装置中多级人声声纹筛并联的结构示意图。
图4为一种基于声纹筛技术的对音箱能量进行筛选的反馈抑制装置中多级噪声声纹筛串联的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清晰,以下结合附图及具体实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
以下结合具体实施例对本发明的具体实现进行详细描述。
如图1所示,本发明实施例提供了一种基于声纹筛技术的对音箱能量进行筛选的反馈抑制装置,所述装置包括输入模块100、声纹筛模块200、噪声抑制模块300、自动均衡模块400以及输出模块500,所述声纹筛模块200与输入模块100、噪声抑制模块300以及自动均衡模块400电性连接,所述自动均衡模块400与输出模块500电性连接,其中:
输入模块100,用于接收外界声音信号;
声纹筛模块200,所述声纹筛模块200包括有多级声纹筛,声纹筛用于对人声和非人声进行识别筛选;
噪声抑制模块300,用于对声纹筛模块200识别筛选出的非人声进行抑制;
自动均衡模块400,用于对声纹筛模块200识别筛选出的人声自动调节均衡,并将处理后的人声传输至输出模块500。
需要说明的是,在扩声系统中,声反馈(即啸叫)产生的原因是音箱发出的声音折回到话筒,再送到扩声系统中放大,并经音箱送出,而后又折回到话筒,从而形成正反馈,如此循环所致。啸叫不仅是一种让人很难受的噪声,深度的啸叫还会使系统信号过强,从而烧毁功放或音箱。目前针对啸叫的解决方法有陷波法和移频法,陷波法就是在声反馈系统的反馈频率点插入一个陷波滤波器,降低反馈点的增益,使之无法达到啸叫的增益条件;陷波法存在以下缺点:理论上,陷波器法不能完全阻止声反馈;还会衰减人声声音中某些频率成分,从而造成人声失真。移频法通过改变输入音频信号的频率来破坏啸叫产生条件,使得再次进入系统的音频不会和原始信号频率叠加,达到抑制啸叫;移频法存在缺点:改变了人声频率,造成严重失真,尤其是对连续声音,会造成声音抖动。因此,陷波法和移频法均无法很好的解决啸叫问题。
本发明实施例中,通过设置声纹筛模块200、噪声抑制模块300以及自动均衡模块400,能够对人声和非人声进行识别筛选,噪声抑制模块300对声纹筛模块200识别筛选出的非人声进行抑制过滤,让系统更纯净,自动均衡模块400对声纹筛模块200识别筛选出的人声自动调节均衡,使得声音更加和谐自然;另外,声纹筛模块200包括有多级声纹筛,能够对人声和非人声进行反复识别和筛选,尽可能去除所有的非人声,尽可能叠加保留所有的人声,本发明实施例对人声的破坏最小,理论上可以做到零破坏扩声系统,即零失真;且随着算法的不断优化,非人声的识别率不断提高,非人声无法反馈折回扩声系统中,保证了输出声音信号的纯净,本发明实施例适用于教学、会议、演唱会、卡拉OK等多场景中。
如图2所示,作为本发明一个优选的实施例,所述声纹筛模块200包括第一级人声声纹筛、第二级人声声纹筛、第三级人声声纹筛、第四级人声声纹筛和第五级人声声纹筛,第一级人声声纹筛、第二级人声声纹筛、第三级人声声纹筛、第四级人声声纹筛和第五级人声声纹筛依次串联连接,人声声纹筛用于识别筛选出人声和非人声,第一级人声声纹筛识别筛选出的人声进入第二级人声声纹筛中继续筛选,第二级人声声纹筛识别筛选出的人声进入第三级人声声纹筛中继续筛选,第三级人声声纹筛识别筛选出的人声进入第四级人声声纹筛中继续筛选,第四级人声声纹筛识别筛选出的人声进入第五级人声声纹筛中继续筛选,第五级人声声纹筛识别筛选出的人声进入自动均衡模块400中。
本发明实施例中,所述第一级人声声纹筛、第二级人声声纹筛、第三级人声声纹筛、第四级人声声纹筛和第五级人声声纹筛识别筛选出的非人声依次叠加后进入噪声抑制模块300中。本发明实施例通过将第一级人声声纹筛、第二级人声声纹筛、第三级人声声纹筛、第四级人声声纹筛和第五级人声声纹筛进行串联,能够依次对一个外界声音信号进行五次筛选,筛选后基本没有非人声进入自动均衡模块400中,保证了人声的纯净度。
如图3所示,作为本发明一个优选的实施例,所述声纹筛模块200包括第一级人声声纹筛、第二级人声声纹筛、第三级人声声纹筛、第四级人声声纹筛和第五级人声声纹筛,第一级人声声纹筛、第二级人声声纹筛、第三级人声声纹筛、第四级人声声纹筛和第五级人声声纹筛依次并联连接,人声声纹筛用于识别筛选出人声和非人声,所述第一级人声声纹筛、第二级人声声纹筛、第三级人声声纹筛、第四级人声声纹筛和第五级人声声纹筛识别筛选出的人声依次叠加后进入自动均衡模块400中。
本发明实施例中,所述第一级人声声纹筛、第二级人声声纹筛、第三级人声声纹筛、第四级人声声纹筛和第五级人声声纹筛识别筛选出的非人声依次叠加后进入噪声抑制模块300中。本发明实施例通过将第一级人声声纹筛、第二级人声声纹筛、第三级人声声纹筛、第四级人声声纹筛和第五级人声声纹筛进行并联,同时将一个外界声音信号输入至五个人声声纹筛中,然后将五个人声声纹筛识别筛选出的人声叠加后进入自动均衡模块400中,这样对人声的破坏很小,避免人声声音发生失真,使用效果好。
如图4所示,作为本发明一个优选的实施例,所述声纹筛模块200包括第一级噪声声纹筛、第二级噪声声纹筛、第三级噪声声纹筛、第四级噪声声纹筛和第五级噪声声纹筛,第一级噪声声纹筛、第二级噪声声纹筛、第三级噪声声纹筛、第四级噪声声纹筛和第五级噪声声纹筛依次串联连接,噪声声纹筛用于识别筛选出人声和非人声,所述第一级噪声声纹筛、第二级噪声声纹筛、第三级噪声声纹筛、第四级噪声声纹筛和第五级噪声声纹筛识别筛选出的人声依次叠加后进入自动均衡模块400中。
本发明实施例中,所述第一级噪声声纹筛识别筛选出的非人声进入第二级噪声声纹筛中继续筛选,第二级噪声声纹筛识别筛选出的非人声进入第三级噪声声纹筛中继续筛选,第三级噪声声纹筛识别筛选出的非人声进入第四级噪声声纹筛中继续筛选,第四级噪声声纹筛识别筛选出的非人声进入第五级噪声声纹筛中继续筛选,第五级噪声声纹筛识别筛选出的非人声进入噪声抑制模块300中。本发明实施例通过将第一级噪声声纹筛、第二级噪声声纹筛、第三级噪声声纹筛、第四级噪声声纹筛和第五级噪声声纹筛进行串联,能够依次对一个外界声音信号进行五次筛选,每一级的噪声声纹筛识别筛选出的人声都不会浪费,筛选得到的人声都会叠加进入自动均衡模块400中,避免人声声音发生失真,使用效果好。
作为本发明一个优选的实施例,声纹筛对人声和非人声进行识别筛选的步骤为:训练神经网络;根据神经网络对人声和非人声进行识别。
本发明实施例中,所述训练神经网络的步骤,具体为:获取不包含人声的外界声音信号和包含人声的外界声音信号;提取外界声音信号的MFCC融合特征,MFCC融合特征均包括MFCC特征、Delta信息、Delta-Delta信息以及RMSE;对外界声音信号的MFCC融合特征进行特征处理,特征处理包括切分和补齐;根据特征处理后的外界声音信号的MFCC融合特征对神经网络进行训练,得到训练完成的预测模型。
本发明实施例中,所述根据神经网络对人声和非人声进行识别的步骤,具体为:获取待识别声音信号,提取待识别声音信号的MFCC融合特征;对待识别声音信号的MFCC融合特征进行特征处理;将特征处理后的待识别声音信号的MFCC融合特征输入训练好的预测模型,识别得到人声和非人声。
具体的,提取MFCC融合特征的方法为:对声音信号进行预校验和添加标记;将进行预校验和添加标记后的声音信号,通过N阶滤波器并剔除第零分量后,得到N-1维的MFCC特征;对N-1维的MFCC特征沿着时间轴做一次Savitsky-Golay滤波,得到Delta信息;对N维的MFCC特征沿着时间轴做两次Savitsky-Golay滤波,得到Delta-Delta信息;根据原始的声音信号的梅尔频谱计算RMSE;最后将所述MFCC特征、Delta信息、Delta-Delta信息以及RMSE拼接为3N+1维的MFCC融合特征。其中,所述对声音信号进行预校验和添加标记的方法为:遍历所有声音信号,若存在语音信号不一致的声道则拼接不一致的声道形成新的声音信号序列参与后续计算,并给予不一致标记;否则仅将声音信号中的一个声道参与后续计算,并给予一致标记。另外,在切分和补齐时,需要按预设窗口大小M(即步长)将3N+1维的MFCC融合特征进行切分,得到K个切片;并对K个切片进行自动补齐,获得K个N-1*M维的特征矩阵。所述对K个切片进行自动补齐的方法为:若K>1,则通过向前平移进行补齐;若K=1,则通过迭代自身进行补齐。需要说明的是,通用的采取补零来维持输入特征维度的方法会影响识别效果,补零越多对最终识别结果影响越大。
以上仅对本发明的较佳实施例进行了详细叙述,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
应该理解的是,虽然本发明各实施例的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
本领域技术人员在考虑说明书及实施例处的公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。
Claims (10)
1.基于声纹筛技术的对音箱能量进行筛选的反馈抑制装置,其特征在于,所述装置包括输入模块、声纹筛模块、噪声抑制模块、自动均衡模块以及输出模块,所述声纹筛模块与输入模块、噪声抑制模块以及自动均衡模块电性连接,所述自动均衡模块与输出模块电性连接,其中:
输入模块,用于接收外界声音信号;
声纹筛模块,所述声纹筛模块包括有多级声纹筛,声纹筛用于对人声和非人声进行识别筛选;
噪声抑制模块,用于对声纹筛模块识别筛选出的非人声进行抑制;
自动均衡模块,用于对声纹筛模块识别筛选出的人声自动调节均衡,并将处理后的人声传输至输出模块。
2.根据权利要求1所述的基于声纹筛技术的对音箱能量进行筛选的反馈抑制装置,其特征在于,所述声纹筛模块包括第一级人声声纹筛、第二级人声声纹筛、第三级人声声纹筛、第四级人声声纹筛和第五级人声声纹筛,第一级人声声纹筛、第二级人声声纹筛、第三级人声声纹筛、第四级人声声纹筛和第五级人声声纹筛依次串联连接,人声声纹筛用于识别筛选出人声和非人声,第一级人声声纹筛识别筛选出的人声进入第二级人声声纹筛中继续筛选,第二级人声声纹筛识别筛选出的人声进入第三级人声声纹筛中继续筛选,第三级人声声纹筛识别筛选出的人声进入第四级人声声纹筛中继续筛选,第四级人声声纹筛识别筛选出的人声进入第五级人声声纹筛中继续筛选,第五级人声声纹筛识别筛选出的人声进入自动均衡模块中。
3.根据权利要求2所述的基于声纹筛技术的对音箱能量进行筛选的反馈抑制装置,其特征在于,所述第一级人声声纹筛、第二级人声声纹筛、第三级人声声纹筛、第四级人声声纹筛和第五级人声声纹筛识别筛选出的非人声依次叠加后进入噪声抑制模块中。
4.根据权利要求1所述的基于声纹筛技术的对音箱能量进行筛选的反馈抑制装置,其特征在于,所述声纹筛模块包括第一级人声声纹筛、第二级人声声纹筛、第三级人声声纹筛、第四级人声声纹筛和第五级人声声纹筛,第一级人声声纹筛、第二级人声声纹筛、第三级人声声纹筛、第四级人声声纹筛和第五级人声声纹筛依次并联连接,人声声纹筛用于识别筛选出人声和非人声,所述第一级人声声纹筛、第二级人声声纹筛、第三级人声声纹筛、第四级人声声纹筛和第五级人声声纹筛识别筛选出的人声依次叠加后进入自动均衡模块中。
5.根据权利要求4所述的基于声纹筛技术的对音箱能量进行筛选的反馈抑制装置,其特征在于,所述第一级人声声纹筛、第二级人声声纹筛、第三级人声声纹筛、第四级人声声纹筛和第五级人声声纹筛识别筛选出的非人声依次叠加后进入噪声抑制模块中。
6.根据权利要求1所述的基于声纹筛技术的对音箱能量进行筛选的反馈抑制装置,其特征在于,所述声纹筛模块包括第一级噪声声纹筛、第二级噪声声纹筛、第三级噪声声纹筛、第四级噪声声纹筛和第五级噪声声纹筛,第一级噪声声纹筛、第二级噪声声纹筛、第三级噪声声纹筛、第四级噪声声纹筛和第五级噪声声纹筛依次串联连接,噪声声纹筛用于识别筛选出人声和非人声,所述第一级噪声声纹筛、第二级噪声声纹筛、第三级噪声声纹筛、第四级噪声声纹筛和第五级噪声声纹筛识别筛选出的人声依次叠加后进入自动均衡模块中。
7.根据权利要求6所述的基于声纹筛技术的对音箱能量进行筛选的反馈抑制装置,其特征在于,所述第一级噪声声纹筛识别筛选出的非人声进入第二级噪声声纹筛中继续筛选,第二级噪声声纹筛识别筛选出的非人声进入第三级噪声声纹筛中继续筛选,第三级噪声声纹筛识别筛选出的非人声进入第四级噪声声纹筛中继续筛选,第四级噪声声纹筛识别筛选出的非人声进入第五级噪声声纹筛中继续筛选,第五级噪声声纹筛识别筛选出的非人声进入噪声抑制模块中。
8.根据权利要求1所述的基于声纹筛技术的对音箱能量进行筛选的反馈抑制装置,其特征在于,声纹筛对人声和非人声进行识别筛选的步骤为:训练神经网络;根据神经网络对人声和非人声进行识别。
9.根据权利要求8所述的基于声纹筛技术的对音箱能量进行筛选的反馈抑制装置,其特征在于,所述训练神经网络的步骤,具体为:
获取不包含人声的外界声音信号和包含人声的外界声音信号;
提取外界声音信号的MFCC融合特征,MFCC融合特征均包括MFCC特征、Delta信息、Delta-Delta信息以及RMSE;
对外界声音信号的MFCC融合特征进行特征处理,特征处理包括切分和补齐;
根据特征处理后的外界声音信号的MFCC融合特征对神经网络进行训练,得到训练完成的预测模型。
10.根据权利要求9所述的基于声纹筛技术的对音箱能量进行筛选的反馈抑制装置,其特征在于,所述根据神经网络对人声和非人声进行识别的步骤,具体为:
获取待识别声音信号,提取待识别声音信号的MFCC融合特征;
对待识别声音信号的MFCC融合特征进行特征处理;
将特征处理后的待识别声音信号的MFCC融合特征输入训练好的预测模型,识别得到人声和非人声。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210711587.1A CN115065912B (zh) | 2022-06-22 | 2022-06-22 | 基于声纹筛技术的对音箱能量进行筛选的反馈抑制装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210711587.1A CN115065912B (zh) | 2022-06-22 | 2022-06-22 | 基于声纹筛技术的对音箱能量进行筛选的反馈抑制装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115065912A true CN115065912A (zh) | 2022-09-16 |
CN115065912B CN115065912B (zh) | 2023-04-25 |
Family
ID=83203320
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210711587.1A Active CN115065912B (zh) | 2022-06-22 | 2022-06-22 | 基于声纹筛技术的对音箱能量进行筛选的反馈抑制装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115065912B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113724720A (zh) * | 2021-07-19 | 2021-11-30 | 电信科学技术第五研究所有限公司 | 一种基于神经网络和mfcc的嘈杂环境下非人声语音过滤方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140214417A1 (en) * | 2013-01-28 | 2014-07-31 | Tencent Technology (Shenzhen) Company Limited | Method and device for voiceprint recognition |
CN108335699A (zh) * | 2018-01-18 | 2018-07-27 | 浙江大学 | 一种基于动态时间规整和语音活动检测的声纹识别方法 |
CN108831440A (zh) * | 2018-04-24 | 2018-11-16 | 中国地质大学(武汉) | 一种基于机器学习及深度学习的声纹降噪方法及系统 |
CN109065075A (zh) * | 2018-09-26 | 2018-12-21 | 广州势必可赢网络科技有限公司 | 一种语音处理方法、装置、系统及计算机可读存储介质 |
CN111145763A (zh) * | 2019-12-17 | 2020-05-12 | 厦门快商通科技股份有限公司 | 一种基于gru的音频中的人声识别方法及系统 |
CN111179975A (zh) * | 2020-04-14 | 2020-05-19 | 深圳壹账通智能科技有限公司 | 用于情绪识别的语音端点检测方法、电子设备及存储介质 |
CN112289325A (zh) * | 2019-07-24 | 2021-01-29 | 华为技术有限公司 | 一种声纹识别方法及装置 |
CN113490115A (zh) * | 2021-08-13 | 2021-10-08 | 广州市迪声音响有限公司 | 一种基于声纹识别技术的声反馈抑制方法及系统 |
CN113724720A (zh) * | 2021-07-19 | 2021-11-30 | 电信科学技术第五研究所有限公司 | 一种基于神经网络和mfcc的嘈杂环境下非人声语音过滤方法 |
-
2022
- 2022-06-22 CN CN202210711587.1A patent/CN115065912B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140214417A1 (en) * | 2013-01-28 | 2014-07-31 | Tencent Technology (Shenzhen) Company Limited | Method and device for voiceprint recognition |
CN108335699A (zh) * | 2018-01-18 | 2018-07-27 | 浙江大学 | 一种基于动态时间规整和语音活动检测的声纹识别方法 |
CN108831440A (zh) * | 2018-04-24 | 2018-11-16 | 中国地质大学(武汉) | 一种基于机器学习及深度学习的声纹降噪方法及系统 |
CN109065075A (zh) * | 2018-09-26 | 2018-12-21 | 广州势必可赢网络科技有限公司 | 一种语音处理方法、装置、系统及计算机可读存储介质 |
CN112289325A (zh) * | 2019-07-24 | 2021-01-29 | 华为技术有限公司 | 一种声纹识别方法及装置 |
CN111145763A (zh) * | 2019-12-17 | 2020-05-12 | 厦门快商通科技股份有限公司 | 一种基于gru的音频中的人声识别方法及系统 |
CN111179975A (zh) * | 2020-04-14 | 2020-05-19 | 深圳壹账通智能科技有限公司 | 用于情绪识别的语音端点检测方法、电子设备及存储介质 |
CN113724720A (zh) * | 2021-07-19 | 2021-11-30 | 电信科学技术第五研究所有限公司 | 一种基于神经网络和mfcc的嘈杂环境下非人声语音过滤方法 |
CN113490115A (zh) * | 2021-08-13 | 2021-10-08 | 广州市迪声音响有限公司 | 一种基于声纹识别技术的声反馈抑制方法及系统 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113724720A (zh) * | 2021-07-19 | 2021-11-30 | 电信科学技术第五研究所有限公司 | 一种基于神经网络和mfcc的嘈杂环境下非人声语音过滤方法 |
CN113724720B (zh) * | 2021-07-19 | 2023-07-11 | 电信科学技术第五研究所有限公司 | 一种基于神经网络和mfcc的嘈杂环境下非人声语音过滤方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115065912B (zh) | 2023-04-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111247585B (zh) | 语音转换方法、装置、设备及存储介质 | |
US10147442B1 (en) | Robust neural network acoustic model with side task prediction of reference signals | |
JP2003514263A (ja) | マッピング・マトリックスを用いた広帯域音声合成 | |
JPH0566795A (ja) | 雑音抑圧装置とその調整装置 | |
JPH0585916B2 (zh) | ||
CN110047478B (zh) | 基于空间特征补偿的多通道语音识别声学建模方法及装置 | |
Qian et al. | An investigation into using parallel data for far-field speech recognition | |
CN108184192A (zh) | 一种自适应声反馈抑制方法 | |
KR20010089769A (ko) | 음성 신호를 구분 및 인식하기 위한 시스템 및 방법 | |
CN115065912B (zh) | 基于声纹筛技术的对音箱能量进行筛选的反馈抑制装置 | |
Kai et al. | Lightweight voice anonymization based on data-driven optimization of cascaded voice modification modules | |
CN101460996A (zh) | 增益控制系统、增益控制方法和增益控制程序 | |
Coto-Jimenez et al. | Hybrid speech enhancement with wiener filters and deep lstm denoising autoencoders | |
US7143029B2 (en) | Apparatus and method for changing the playback rate of recorded speech | |
Wang et al. | NN3A: Neural network supported acoustic echo cancellation, noise suppression and automatic gain control for real-time communications | |
CN116312545B (zh) | 多噪声环境下的语音识别系统和方法 | |
Sunny et al. | Feature extraction methods based on linear predictive coding and wavelet packet decomposition for recognizing spoken words in malayalam | |
Suzuki et al. | Speech recognition robust against speech overlapping in monaural recordings of telephone conversations | |
JP3847989B2 (ja) | 信号抽出装置 | |
JP2006145694A (ja) | 音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体 | |
Fuglsig et al. | Joint Minimum Processing Beamforming and Near-End Listening Enhancement | |
CN113393858B (zh) | 语音分离方法和系统、电子设备及可读存储介质 | |
US12022268B1 (en) | Artificial intelligence (AI) acoustic feedback suppression | |
US20240196145A1 (en) | Acoustic interference suppression through speaker-aware processing | |
CN113160816A (zh) | 一种基于神经网络vad算法的人机交互方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20230404 Address after: 529000 The first and third floors of the plant, No. 27, South Enzhou Industrial Avenue, Encheng Street, Enping City, Jiangmen City, Guangdong Province Applicant after: Guangdong dibi Electronic Technology Co.,Ltd. Address before: 510000 Room 101, building 1, No. 28, Wenqiao Road, Wenbian village, Shiqi Town, Panyu District, Guangzhou City, Guangdong Province Applicant before: GUANGZHOU DESAM AUDIO CO.,LTD. |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |