CN115065912B - 基于声纹筛技术的对音箱能量进行筛选的反馈抑制装置 - Google Patents

基于声纹筛技术的对音箱能量进行筛选的反馈抑制装置 Download PDF

Info

Publication number
CN115065912B
CN115065912B CN202210711587.1A CN202210711587A CN115065912B CN 115065912 B CN115065912 B CN 115065912B CN 202210711587 A CN202210711587 A CN 202210711587A CN 115065912 B CN115065912 B CN 115065912B
Authority
CN
China
Prior art keywords
screen
voiceprint
module
voice
screening
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210711587.1A
Other languages
English (en)
Other versions
CN115065912A (zh
Inventor
徐海
汪泽培
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Dibi Electronic Technology Co ltd
Original Assignee
Guangdong Dibi Electronic Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Dibi Electronic Technology Co ltd filed Critical Guangdong Dibi Electronic Technology Co ltd
Priority to CN202210711587.1A priority Critical patent/CN115065912B/zh
Publication of CN115065912A publication Critical patent/CN115065912A/zh
Application granted granted Critical
Publication of CN115065912B publication Critical patent/CN115065912B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/02Circuits for transducers, loudspeakers or microphones for preventing acoustic reaction, i.e. acoustic oscillatory feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/14Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Otolaryngology (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

本发明适用于声音处理技术领域,提供了一种基于声纹筛技术的对音箱能量进行筛选的反馈抑制装置,所述装置包括输入模块、声纹筛模块、噪声抑制模块、自动均衡模块以及输出模块,其中:输入模块,用于接收外界声音信号;声纹筛模块,所述声纹筛模块包括有多级声纹筛,声纹筛用于对人声和非人声进行识别筛选;噪声抑制模块,用于对声纹筛模块识别筛选出的非人声进行抑制;自动均衡模块,用于对声纹筛模块识别筛选出的人声自动调节均衡,并将处理后的人声传输至输出模块。声纹筛模块包括有多级声纹筛,能够对人声和非人声进行反复识别和筛选,尽可能去除所有的非人声,尽可能叠加保留所有的人声,本发明对人声的破坏小,避免人声失真。

Description

基于声纹筛技术的对音箱能量进行筛选的反馈抑制装置
技术领域
本发明涉及声音处理技术领域,具体是涉及一种基于声纹筛技术的对音箱能量进行筛选的反馈抑制装置。
背景技术
在扩声系统中,声反馈(即啸叫)产生的原因是音箱发出的声音折回到话筒,再送到扩声系统中放大,并经音箱送出,而后又折回到话筒,从而形成正反馈,如此循环所致。啸叫不仅是一种让人很难受的噪声,深度的啸叫还会使系统信号过强,从而烧毁功放或音箱。目前针对啸叫的解决方法有陷波法和移频法,陷波法就是在声反馈系统的反馈频率点插入一个陷波滤波器,降低反馈点的增益,使之无法达到啸叫的增益条件;陷波法存在以下缺点:理论上,陷波器法不能完全阻止声反馈;还会衰减人声声音中某些频率成分,从而造成人声失真。移频法通过改变输入音频信号的频率来破坏啸叫产生条件,使得再次进入系统的音频不会和原始信号频率叠加,达到抑制啸叫;移频法存在缺点:改变了人声频率,造成严重失真,尤其是对连续声音,会造成声音抖动。因此,陷波法和移频法均无法很好的解决啸叫问题,那么就需要提供一种基于声纹筛技术的对音箱能量进行筛选的反馈抑制装置,旨在解决上述问题。
发明内容
针对现有技术存在的不足,本发明的目的在于提供一种基于声纹筛技术的对音箱能量进行筛选的反馈抑制装置,以解决上述背景技术中存在的问题。
本发明是这样实现的,一种基于声纹筛技术的对音箱能量进行筛选的反馈抑制装置,所述装置包括输入模块、声纹筛模块、噪声抑制模块、自动均衡模块以及输出模块,所述声纹筛模块与输入模块、噪声抑制模块以及自动均衡模块电性连接,所述自动均衡模块与输出模块电性连接,其中:
输入模块,用于接收外界声音信号;
声纹筛模块,所述声纹筛模块包括有多级声纹筛,声纹筛用于对人声和非人声进行识别筛选;
噪声抑制模块,用于对声纹筛模块识别筛选出的非人声进行抑制;
自动均衡模块,用于对声纹筛模块识别筛选出的人声自动调节均衡,并将处理后的人声传输至输出模块。
作为本发明进一步的方案:所述声纹筛模块包括第一级人声声纹筛、第二级人声声纹筛、第三级人声声纹筛、第四级人声声纹筛和第五级人声声纹筛,第一级人声声纹筛、第二级人声声纹筛、第三级人声声纹筛、第四级人声声纹筛和第五级人声声纹筛依次串联连接,人声声纹筛用于识别筛选出人声和非人声,第一级人声声纹筛识别筛选出的人声进入第二级人声声纹筛中继续筛选,第二级人声声纹筛识别筛选出的人声进入第三级人声声纹筛中继续筛选,第三级人声声纹筛识别筛选出的人声进入第四级人声声纹筛中继续筛选,第四级人声声纹筛识别筛选出的人声进入第五级人声声纹筛中继续筛选,第五级人声声纹筛识别筛选出的人声进入自动均衡模块中。
作为本发明进一步的方案:所述第一级人声声纹筛、第二级人声声纹筛、第三级人声声纹筛、第四级人声声纹筛和第五级人声声纹筛识别筛选出的非人声依次叠加后进入噪声抑制模块中。
作为本发明进一步的方案:所述声纹筛模块包括第一级人声声纹筛、第二级人声声纹筛、第三级人声声纹筛、第四级人声声纹筛和第五级人声声纹筛,第一级人声声纹筛、第二级人声声纹筛、第三级人声声纹筛、第四级人声声纹筛和第五级人声声纹筛依次并联连接,人声声纹筛用于识别筛选出人声和非人声,所述第一级人声声纹筛、第二级人声声纹筛、第三级人声声纹筛、第四级人声声纹筛和第五级人声声纹筛识别筛选出的人声依次叠加后进入自动均衡模块中。
作为本发明进一步的方案:所述第一级人声声纹筛、第二级人声声纹筛、第三级人声声纹筛、第四级人声声纹筛和第五级人声声纹筛识别筛选出的非人声依次叠加后进入噪声抑制模块中。
作为本发明进一步的方案:所述声纹筛模块包括第一级噪声声纹筛、第二级噪声声纹筛、第三级噪声声纹筛、第四级噪声声纹筛和第五级噪声声纹筛,第一级噪声声纹筛、第二级噪声声纹筛、第三级噪声声纹筛、第四级噪声声纹筛和第五级噪声声纹筛依次串联连接,噪声声纹筛用于识别筛选出人声和非人声,所述第一级噪声声纹筛、第二级噪声声纹筛、第三级噪声声纹筛、第四级噪声声纹筛和第五级噪声声纹筛识别筛选出的人声依次叠加后进入自动均衡模块中。
作为本发明进一步的方案:所述第一级噪声声纹筛识别筛选出的非人声进入第二级噪声声纹筛中继续筛选,第二级噪声声纹筛识别筛选出的非人声进入第三级噪声声纹筛中继续筛选,第三级噪声声纹筛识别筛选出的非人声进入第四级噪声声纹筛中继续筛选,第四级噪声声纹筛识别筛选出的非人声进入第五级噪声声纹筛中继续筛选,第五级噪声声纹筛识别筛选出的非人声进入噪声抑制模块中。
作为本发明进一步的方案:声纹筛对人声和非人声进行识别筛选的步骤为:训练神经网络;根据神经网络对人声和非人声进行识别。
作为本发明进一步的方案:所述训练神经网络的步骤,具体为:
获取不包含人声的外界声音信号和包含人声的外界声音信号;
提取外界声音信号的MFCC融合特征,MFCC融合特征均包括MFCC特征、Delta信息、Delta-Delta信息以及RMSE;
对外界声音信号的MFCC融合特征进行特征处理,特征处理包括切分和补齐;
根据特征处理后的外界声音信号的MFCC融合特征对神经网络进行训练,得到训练完成的预测模型。
作为本发明进一步的方案:所述根据神经网络对人声和非人声进行识别的步骤,具体为:
获取待识别声音信号,提取待识别声音信号的MFCC融合特征;
对待识别声音信号的MFCC融合特征进行特征处理;
将特征处理后的待识别声音信号的MFCC融合特征输入训练好的预测模型,识别得到人声和非人声。
与现有技术相比,本发明的有益效果是:
本发明通过设置声纹筛模块、噪声抑制模块以及自动均衡模块,能够对人声和非人声进行识别筛选,噪声抑制模块对声纹筛模块识别筛选出的非人声进行抑制过滤,让系统更纯净,自动均衡模块对声纹筛模块识别筛选出的人声自动调节均衡,使得声音更加和谐自然;另外,声纹筛模块包括有多级声纹筛,能够对人声和非人声进行反复识别和筛选,尽可能去除所有的非人声,尽可能叠加保留所有的人声,本发明对人声的破坏小,避免人声失真;且对非人声的识别率较高,非人声无法反馈折回扩声系统中,保证了输出声音信号的纯净。
附图说明
图1为一种基于声纹筛技术的对音箱能量进行筛选的反馈抑制装置的结构示意图。
图2为一种基于声纹筛技术的对音箱能量进行筛选的反馈抑制装置中多级人声声纹筛串联的结构示意图。
图3为一种基于声纹筛技术的对音箱能量进行筛选的反馈抑制装置中多级人声声纹筛并联的结构示意图。
图4为一种基于声纹筛技术的对音箱能量进行筛选的反馈抑制装置中多级噪声声纹筛串联的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清晰,以下结合附图及具体实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
以下结合具体实施例对本发明的具体实现进行详细描述。
如图1所示,本发明实施例提供了一种基于声纹筛技术的对音箱能量进行筛选的反馈抑制装置,所述装置包括输入模块100、声纹筛模块200、噪声抑制模块300、自动均衡模块400以及输出模块500,所述声纹筛模块200与输入模块100、噪声抑制模块300以及自动均衡模块400电性连接,所述自动均衡模块400与输出模块500电性连接,其中:
输入模块100,用于接收外界声音信号;
声纹筛模块200,所述声纹筛模块200包括有多级声纹筛,声纹筛用于对人声和非人声进行识别筛选;
噪声抑制模块300,用于对声纹筛模块200识别筛选出的非人声进行抑制;
自动均衡模块400,用于对声纹筛模块200识别筛选出的人声自动调节均衡,并将处理后的人声传输至输出模块500。
需要说明的是,在扩声系统中,声反馈(即啸叫)产生的原因是音箱发出的声音折回到话筒,再送到扩声系统中放大,并经音箱送出,而后又折回到话筒,从而形成正反馈,如此循环所致。啸叫不仅是一种让人很难受的噪声,深度的啸叫还会使系统信号过强,从而烧毁功放或音箱。目前针对啸叫的解决方法有陷波法和移频法,陷波法就是在声反馈系统的反馈频率点插入一个陷波滤波器,降低反馈点的增益,使之无法达到啸叫的增益条件;陷波法存在以下缺点:理论上,陷波器法不能完全阻止声反馈;还会衰减人声声音中某些频率成分,从而造成人声失真。移频法通过改变输入音频信号的频率来破坏啸叫产生条件,使得再次进入系统的音频不会和原始信号频率叠加,达到抑制啸叫;移频法存在缺点:改变了人声频率,造成严重失真,尤其是对连续声音,会造成声音抖动。因此,陷波法和移频法均无法很好的解决啸叫问题。
本发明实施例中,通过设置声纹筛模块200、噪声抑制模块300以及自动均衡模块400,能够对人声和非人声进行识别筛选,噪声抑制模块300对声纹筛模块200识别筛选出的非人声进行抑制过滤,让系统更纯净,自动均衡模块400对声纹筛模块200识别筛选出的人声自动调节均衡,使得声音更加和谐自然;另外,声纹筛模块200包括有多级声纹筛,能够对人声和非人声进行反复识别和筛选,尽可能去除所有的非人声,尽可能叠加保留所有的人声,本发明实施例对人声的破坏最小,理论上可以做到零破坏扩声系统,即零失真;且随着算法的不断优化,非人声的识别率不断提高,非人声无法反馈折回扩声系统中,保证了输出声音信号的纯净,本发明实施例适用于教学、会议、演唱会、卡拉OK等多场景中。
如图2所示,作为本发明一个优选的实施例,所述声纹筛模块200包括第一级人声声纹筛、第二级人声声纹筛、第三级人声声纹筛、第四级人声声纹筛和第五级人声声纹筛,第一级人声声纹筛、第二级人声声纹筛、第三级人声声纹筛、第四级人声声纹筛和第五级人声声纹筛依次串联连接,人声声纹筛用于识别筛选出人声和非人声,第一级人声声纹筛识别筛选出的人声进入第二级人声声纹筛中继续筛选,第二级人声声纹筛识别筛选出的人声进入第三级人声声纹筛中继续筛选,第三级人声声纹筛识别筛选出的人声进入第四级人声声纹筛中继续筛选,第四级人声声纹筛识别筛选出的人声进入第五级人声声纹筛中继续筛选,第五级人声声纹筛识别筛选出的人声进入自动均衡模块400中。
本发明实施例中,所述第一级人声声纹筛、第二级人声声纹筛、第三级人声声纹筛、第四级人声声纹筛和第五级人声声纹筛识别筛选出的非人声依次叠加后进入噪声抑制模块300中。本发明实施例通过将第一级人声声纹筛、第二级人声声纹筛、第三级人声声纹筛、第四级人声声纹筛和第五级人声声纹筛进行串联,能够依次对一个外界声音信号进行五次筛选,筛选后基本没有非人声进入自动均衡模块400中,保证了人声的纯净度。
如图3所示,作为本发明一个优选的实施例,所述声纹筛模块200包括第一级人声声纹筛、第二级人声声纹筛、第三级人声声纹筛、第四级人声声纹筛和第五级人声声纹筛,第一级人声声纹筛、第二级人声声纹筛、第三级人声声纹筛、第四级人声声纹筛和第五级人声声纹筛依次并联连接,人声声纹筛用于识别筛选出人声和非人声,所述第一级人声声纹筛、第二级人声声纹筛、第三级人声声纹筛、第四级人声声纹筛和第五级人声声纹筛识别筛选出的人声依次叠加后进入自动均衡模块400中。
本发明实施例中,所述第一级人声声纹筛、第二级人声声纹筛、第三级人声声纹筛、第四级人声声纹筛和第五级人声声纹筛识别筛选出的非人声依次叠加后进入噪声抑制模块300中。本发明实施例通过将第一级人声声纹筛、第二级人声声纹筛、第三级人声声纹筛、第四级人声声纹筛和第五级人声声纹筛进行并联,同时将一个外界声音信号输入至五个人声声纹筛中,然后将五个人声声纹筛识别筛选出的人声叠加后进入自动均衡模块400中,这样对人声的破坏很小,避免人声声音发生失真,使用效果好。
如图4所示,作为本发明一个优选的实施例,所述声纹筛模块200包括第一级噪声声纹筛、第二级噪声声纹筛、第三级噪声声纹筛、第四级噪声声纹筛和第五级噪声声纹筛,第一级噪声声纹筛、第二级噪声声纹筛、第三级噪声声纹筛、第四级噪声声纹筛和第五级噪声声纹筛依次串联连接,噪声声纹筛用于识别筛选出人声和非人声,所述第一级噪声声纹筛、第二级噪声声纹筛、第三级噪声声纹筛、第四级噪声声纹筛和第五级噪声声纹筛识别筛选出的人声依次叠加后进入自动均衡模块400中。
本发明实施例中,所述第一级噪声声纹筛识别筛选出的非人声进入第二级噪声声纹筛中继续筛选,第二级噪声声纹筛识别筛选出的非人声进入第三级噪声声纹筛中继续筛选,第三级噪声声纹筛识别筛选出的非人声进入第四级噪声声纹筛中继续筛选,第四级噪声声纹筛识别筛选出的非人声进入第五级噪声声纹筛中继续筛选,第五级噪声声纹筛识别筛选出的非人声进入噪声抑制模块300中。本发明实施例通过将第一级噪声声纹筛、第二级噪声声纹筛、第三级噪声声纹筛、第四级噪声声纹筛和第五级噪声声纹筛进行串联,能够依次对一个外界声音信号进行五次筛选,每一级的噪声声纹筛识别筛选出的人声都不会浪费,筛选得到的人声都会叠加进入自动均衡模块400中,避免人声声音发生失真,使用效果好。
作为本发明一个优选的实施例,声纹筛对人声和非人声进行识别筛选的步骤为:训练神经网络;根据神经网络对人声和非人声进行识别。
本发明实施例中,所述训练神经网络的步骤,具体为:获取不包含人声的外界声音信号和包含人声的外界声音信号;提取外界声音信号的MFCC融合特征,MFCC融合特征均包括MFCC特征、Delta信息、Delta-Delta信息以及RMSE;对外界声音信号的MFCC融合特征进行特征处理,特征处理包括切分和补齐;根据特征处理后的外界声音信号的MFCC融合特征对神经网络进行训练,得到训练完成的预测模型。
本发明实施例中,所述根据神经网络对人声和非人声进行识别的步骤,具体为:获取待识别声音信号,提取待识别声音信号的MFCC融合特征;对待识别声音信号的MFCC融合特征进行特征处理;将特征处理后的待识别声音信号的MFCC融合特征输入训练好的预测模型,识别得到人声和非人声。
具体的,提取MFCC融合特征的方法为:对声音信号进行预校验和添加标记;将进行预校验和添加标记后的声音信号,通过N阶滤波器并剔除第零分量后,得到N-1维的MFCC特征;对N-1维的MFCC特征沿着时间轴做一次Savitsky-Golay滤波,得到Delta信息;对N维的MFCC特征沿着时间轴做两次Savitsky-Golay滤波,得到Delta-Delta信息;根据原始的声音信号的梅尔频谱计算RMSE;最后将所述MFCC特征、Delta信息、Delta-Delta信息以及RMSE拼接为3N+1维的MFCC融合特征。其中,所述对声音信号进行预校验和添加标记的方法为:遍历所有声音信号,若存在语音信号不一致的声道则拼接不一致的声道形成新的声音信号序列参与后续计算,并给予不一致标记;否则仅将声音信号中的一个声道参与后续计算,并给予一致标记。另外,在切分和补齐时,需要按预设窗口大小M(即步长)将3N+1维的MFCC融合特征进行切分,得到K个切片;并对K个切片进行自动补齐,获得K个N-1*M维的特征矩阵。所述对K个切片进行自动补齐的方法为:若K>1,则通过向前平移进行补齐;若K=1,则通过迭代自身进行补齐。需要说明的是,通用的采取补零来维持输入特征维度的方法会影响识别效果,补零越多对最终识别结果影响越大。
以上仅对本发明的较佳实施例进行了详细叙述,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
应该理解的是,虽然本发明各实施例的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
本领域技术人员在考虑说明书及实施例处的公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。

Claims (4)

1.基于声纹筛技术的对音箱能量进行筛选的反馈抑制装置,其特征在于,所述装置包括输入模块、声纹筛模块、噪声抑制模块、自动均衡模块以及输出模块,所述声纹筛模块与输入模块、噪声抑制模块以及自动均衡模块电性连接,所述自动均衡模块与输出模块电性连接,其中:
输入模块,用于接收外界声音信号;
声纹筛模块,所述声纹筛模块包括有多级声纹筛,声纹筛用于对人声和非人声进行识别筛选;
噪声抑制模块,用于对声纹筛模块识别筛选出的非人声进行抑制;
自动均衡模块,用于对声纹筛模块识别筛选出的人声自动调节均衡,并将处理后的人声传输至输出模块;
其中,所述声纹筛模块包括第一级噪声声纹筛、第二级噪声声纹筛、第三级噪声声纹筛、第四级噪声声纹筛和第五级噪声声纹筛,第一级噪声声纹筛、第二级噪声声纹筛、第三级噪声声纹筛、第四级噪声声纹筛和第五级噪声声纹筛依次串联连接,噪声声纹筛用于识别筛选出人声和非人声,所述第一级噪声声纹筛、第二级噪声声纹筛、第三级噪声声纹筛、第四级噪声声纹筛和第五级噪声声纹筛识别筛选出的人声依次叠加后进入自动均衡模块中,所述第一级噪声声纹筛识别筛选出的非人声进入第二级噪声声纹筛中继续筛选,第二级噪声声纹筛识别筛选出的非人声进入第三级噪声声纹筛中继续筛选,第三级噪声声纹筛识别筛选出的非人声进入第四级噪声声纹筛中继续筛选,第四级噪声声纹筛识别筛选出的非人声进入第五级噪声声纹筛中继续筛选,第五级噪声声纹筛识别筛选出的非人声进入噪声抑制模块中。
2.根据权利要求1所述的基于声纹筛技术的对音箱能量进行筛选的反馈抑制装置,其特征在于,声纹筛对人声和非人声进行识别筛选的步骤为:训练神经网络;根据神经网络对人声和非人声进行识别。
3.根据权利要求2所述的基于声纹筛技术的对音箱能量进行筛选的反馈抑制装置,其特征在于,所述训练神经网络的步骤,具体为:
获取不包含人声的外界声音信号和包含人声的外界声音信号;
提取外界声音信号的MFCC融合特征,MFCC融合特征均包括MFCC特征、Delta信息、Delta-Delta信息以及RMSE;
对外界声音信号的MFCC融合特征进行特征处理,特征处理包括切分和补齐;
根据特征处理后的外界声音信号的MFCC融合特征对神经网络进行训练,得到训练完成的预测模型。
4.根据权利要求3所述的基于声纹筛技术的对音箱能量进行筛选的反馈抑制装置,其特征在于,所述根据神经网络对人声和非人声进行识别的步骤,具体为:
获取待识别声音信号,提取待识别声音信号的MFCC融合特征;
对待识别声音信号的MFCC融合特征进行特征处理;
将特征处理后的待识别声音信号的MFCC融合特征输入训练好的预测模型,识别得到人声和非人声。
CN202210711587.1A 2022-06-22 2022-06-22 基于声纹筛技术的对音箱能量进行筛选的反馈抑制装置 Active CN115065912B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210711587.1A CN115065912B (zh) 2022-06-22 2022-06-22 基于声纹筛技术的对音箱能量进行筛选的反馈抑制装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210711587.1A CN115065912B (zh) 2022-06-22 2022-06-22 基于声纹筛技术的对音箱能量进行筛选的反馈抑制装置

Publications (2)

Publication Number Publication Date
CN115065912A CN115065912A (zh) 2022-09-16
CN115065912B true CN115065912B (zh) 2023-04-25

Family

ID=83203320

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210711587.1A Active CN115065912B (zh) 2022-06-22 2022-06-22 基于声纹筛技术的对音箱能量进行筛选的反馈抑制装置

Country Status (1)

Country Link
CN (1) CN115065912B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113724720B (zh) * 2021-07-19 2023-07-11 电信科学技术第五研究所有限公司 一种基于神经网络和mfcc的嘈杂环境下非人声语音过滤方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108335699A (zh) * 2018-01-18 2018-07-27 浙江大学 一种基于动态时间规整和语音活动检测的声纹识别方法
CN112289325A (zh) * 2019-07-24 2021-01-29 华为技术有限公司 一种声纹识别方法及装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9502038B2 (en) * 2013-01-28 2016-11-22 Tencent Technology (Shenzhen) Company Limited Method and device for voiceprint recognition
CN108831440A (zh) * 2018-04-24 2018-11-16 中国地质大学(武汉) 一种基于机器学习及深度学习的声纹降噪方法及系统
CN109065075A (zh) * 2018-09-26 2018-12-21 广州势必可赢网络科技有限公司 一种语音处理方法、装置、系统及计算机可读存储介质
CN111145763A (zh) * 2019-12-17 2020-05-12 厦门快商通科技股份有限公司 一种基于gru的音频中的人声识别方法及系统
CN111179975B (zh) * 2020-04-14 2020-08-04 深圳壹账通智能科技有限公司 用于情绪识别的语音端点检测方法、电子设备及存储介质
CN113724720B (zh) * 2021-07-19 2023-07-11 电信科学技术第五研究所有限公司 一种基于神经网络和mfcc的嘈杂环境下非人声语音过滤方法
CN113490115A (zh) * 2021-08-13 2021-10-08 广州市迪声音响有限公司 一种基于声纹识别技术的声反馈抑制方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108335699A (zh) * 2018-01-18 2018-07-27 浙江大学 一种基于动态时间规整和语音活动检测的声纹识别方法
CN112289325A (zh) * 2019-07-24 2021-01-29 华为技术有限公司 一种声纹识别方法及装置

Also Published As

Publication number Publication date
CN115065912A (zh) 2022-09-16

Similar Documents

Publication Publication Date Title
DE69831288T2 (de) An Umgebungsgeräusche angepasste Sprachverarbeitung
KR101807961B1 (ko) Lstm 및 심화신경망 기반의 음성 신호 처리 방법 및 장치
WO2021128256A1 (zh) 语音转换方法、装置、设备及存储介质
JP2003514263A (ja) マッピング・マトリックスを用いた広帯域音声合成
CN115065912B (zh) 基于声纹筛技术的对音箱能量进行筛选的反馈抑制装置
US20080215344A1 (en) Method and apparatus for expanding bandwidth of voice signal
CN108184192A (zh) 一种自适应声反馈抑制方法
CN110047478B (zh) 基于空间特征补偿的多通道语音识别声学建模方法及装置
KR20010089769A (ko) 음성 신호를 구분 및 인식하기 위한 시스템 및 방법
US7143029B2 (en) Apparatus and method for changing the playback rate of recorded speech
CN113571047B (zh) 一种音频数据的处理方法、装置及设备
Kai et al. Lightweight voice anonymization based on data-driven optimization of cascaded voice modification modules
CN101460996A (zh) 增益控制系统、增益控制方法和增益控制程序
EP4409572A1 (en) Universal speech enhancement using generative neural networks
CN114339539A (zh) 一种采用麦克风阵列拾音的多通道语音增强方法
JP2005531990A (ja) 音声品質を評価する方法
Richter et al. Speech signal improvement using causal generative diffusion models
Sadjadi et al. A comparison of front-end compensation strategies for robust LVCSR under room reverberation and increased vocal effort
JP3159930B2 (ja) 音声処理装置のピッチ抽出方法
Sunny et al. Feature extraction methods based on linear predictive coding and wavelet packet decomposition for recognizing spoken words in malayalam
Muhammed Shifas et al. Speech intelligibility enhancement based on a non-causal WaveNet-like model
JP3847989B2 (ja) 信号抽出装置
KR102358151B1 (ko) 컨볼루션 순환신경망을 이용한 잡음 제거 방법
US12022268B1 (en) Artificial intelligence (AI) acoustic feedback suppression
US20240079022A1 (en) General speech enhancement method and apparatus using multi-source auxiliary information

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20230404

Address after: 529000 The first and third floors of the plant, No. 27, South Enzhou Industrial Avenue, Encheng Street, Enping City, Jiangmen City, Guangdong Province

Applicant after: Guangdong dibi Electronic Technology Co.,Ltd.

Address before: 510000 Room 101, building 1, No. 28, Wenqiao Road, Wenbian village, Shiqi Town, Panyu District, Guangzhou City, Guangdong Province

Applicant before: GUANGZHOU DESAM AUDIO CO.,LTD.

GR01 Patent grant
GR01 Patent grant