CN116580723A - 一种强噪声环境下的语音检测方法和系统 - Google Patents
一种强噪声环境下的语音检测方法和系统 Download PDFInfo
- Publication number
- CN116580723A CN116580723A CN202310854842.2A CN202310854842A CN116580723A CN 116580723 A CN116580723 A CN 116580723A CN 202310854842 A CN202310854842 A CN 202310854842A CN 116580723 A CN116580723 A CN 116580723A
- Authority
- CN
- China
- Prior art keywords
- noise
- voice
- spectral density
- power spectral
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 79
- 230000003595 spectral effect Effects 0.000 claims abstract description 79
- 230000005236 sound signal Effects 0.000 claims abstract description 62
- 238000000034 method Methods 0.000 claims abstract description 35
- 238000001228 spectrum Methods 0.000 claims abstract description 8
- 238000004364 calculation method Methods 0.000 claims description 15
- 238000004891 communication Methods 0.000 claims description 2
- 238000004458 analytical method Methods 0.000 abstract description 7
- 230000007246 mechanism Effects 0.000 abstract description 6
- 230000008901 benefit Effects 0.000 description 5
- 238000005457 optimization Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/60—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0264—Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T90/00—Enabling technologies or technologies with a potential or indirect contribution to GHG emissions mitigation
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
本申请涉及一种强噪声环境下的语音检测方法和系统,该方法包括:采集预设环境下在预设时间的声音信号;检测声音信号的幅值和频率,计算声音信号的功率谱密度;计算噪声的功率谱密度;将声音信号的功率谱密度和噪声的功率谱密度置入预设的语音检测模型,输出语音的功率谱密度;计算语音的信噪比;调整语音检测模型的系数,重新使用语音检测模型计算语音的功率谱密度以及重新计算语音的信噪比;根据信噪比达到最大值时语音的功率谱密度输出语音。本发明基于高斯白噪声机制估算强噪声环境下噪声的功率谱密度,基于玻恩—奥本海默近似理论构建语音检测模型,自动根据分析结果的信噪比对模型系数进行自动调节,从而确保最终输出准确的语音。
Description
技术领域
本发明涉及计算机技术领域,且更为具体地,涉及一种强噪声环境下的语音检测的方法和系统。
背景技术
语音检测技术是指检测语音的存在与否,通常用于语音编码、语音增强等语音处理系统中,起到降低语音编码速率、节省通信带宽、减少移动设备能耗、提高识别率等作用。真实世界充满了多种噪声源,包括经常越界进入多种声音从而形成混响的单点噪声源。在噪声环境下进行语音检测时,噪声的存在严重干扰了语音检测的准确性,传统的语音检测方案在强噪声环境下的检测结果不理想,因此需要一种新的技术方案,提升强噪声环境下的语音检测准确性。
发明内容
为了解决上述技术问题,提出了本申请,以提供一种能够提升强噪声环境下的语音检测准确性的强噪声环境下的语音检测方法和系统。
第一方面,本发明提供了一种强噪声环境下的语音检测方法,包括:采集预设环境下在时间t时的声音信号,所述声音信号对应的声音由人物发出的语音以及与所述语音相对的噪声混合形成;检测所述声音信号的幅值f和频率p,计算所述声音信号的功率谱密度;根据预设的所述环境下的噪声强度z,计算所述噪声的功率谱密度;将所述声音信号的功率谱密度/>和所述噪声的功率谱密度/>置入预设的语音检测模型,输出所述语音的功率谱密度/>,所述语音检测模型为:
;
其中,m、n为预先设置的系数;根据所述语音的功率谱密度,计算所述语音的信噪比X;调整所述语音检测模型的系数m、n,重新使用所述语音检测模型计算所述语音的功率谱密度/>以及重新计算所述语音的信噪比X,直至所述语音的信噪比X达到最大值;根据信噪比X达到最大值时所述语音的功率谱密度/>输出所述语音。
可选地,前述的强噪声环境下的语音检测方法,“根据预设的所述环境下的噪声强度z,计算所述噪声的功率谱密度”的步骤包括:通过预设的噪声预测模型计算所述噪声的功率谱密度/>,所述噪声预测模型为:
;
其中,为朗之万方程,/>为狄拉克函数,/>为预设的延迟时间,/>为在时间/>所述噪声的功率谱密度。
可选地,前述的强噪声环境下的语音检测方法,“采集预设环境下在时间t时的声音信号”的步骤包括:检测所述环境中所述人物的位置;检测所述噪声的来源的位置/>;根据所述人物的位置/>和所述噪声来源的位置/>,计算所述环境中采集所述声音信号的采集点的位置/>,使/>,其中,/>为所述人物的数量,/>为所述噪声的来源的数量;在所述采集点采集所述声音信号。
可选地,前述的强噪声环境下的语音检测方法,在“根据预设的所述环境下的噪声强度z,计算所述噪声的功率谱密度”的步骤之前,还包括:在所述环境中检测所述噪声的来源的类型;根据所述噪声的来源的类型,从预设的多种类型噪声来源的噪声强度中,查询所述环境下所述噪声来源的噪声强度z。
可选地,前述的强噪声环境下的语音检测方法,“检测所述声音信号的幅值f和频率p”的步骤还包括:判断所述声音信号的幅值f是否高于,在判断结果为否时在所述环境中更换在所述环境中采集所述声音信号的采集点的位置,并重新采集所述声音信号。
可选地,前述的强噪声环境下的语音检测方法,“重新使用所述语音检测模型计算所述语音的功率谱密度以及重新计算所述语音的信噪比X,直至所述语音的信噪比X达到最大值”的步骤包括:将每次计算得到的所述语音的信噪比存储到预设的队列中,当所述队列的长度超过预设阈值且最近一次计算得到的信噪比高于所述队列中存储的信噪比最大值时,认为最近一次计算得到的信噪比达到最大值。
第二方面,本发明提供了一种强噪声环境下的语音检测系统,包括:声音信号采集模块,采集预设环境下在时间t时的声音信号,所述声音信号对应的声音由人物发出的语音以及与所述语音相对的噪声混合形成;检测模块,检测所述声音信号的幅值f和频率p,计算所述声音信号的功率谱密度;功率谱密度计算模块,根据预设的所述环境下的噪声强度z,计算所述噪声的功率谱密度/>;功率谱密度输出模块,将所述声音信号的功率谱密度/>和所述噪声的功率谱密度/>置入预设的语音检测模型,输出所述语音的功率谱密度/>,所述语音检测模型为:
;
其中,m、n为预先设置的系数;信噪比计算模块,根据所述语音的功率谱密度,计算所述语音的信噪比X;调整模块,调整所述语音检测模型的系数m、n,重新使用所述语音检测模型计算所述语音的功率谱密度/>以及重新计算所述语音的信噪比X,直至所述语音的信噪比X达到最大值;语音输出模块,根据信噪比X达到最大值时所述语音的功率谱密度输出所述语音。
本发明上述一个或多个技术方案,至少具有如下一种或多种有益效果:
本发明的技术方案,对于在强噪声环境下采集的声音信号,首先计算声音信号的功率谱密度,并且基于高斯白噪声机制估算强噪声环境下噪声的功率谱密度,同时基于玻恩—奥本海默近似理论构建语音检测模型,通过该语音检测模型对声音信号的功率谱密度以及噪声的功率谱密度进行处理,以实现从声音中排除噪声得到语音,语音检测模型分析过程中自动根据分析结果的信噪比对模型系数进行自动调节,实现对语音检测模型的自主优化,从而确保最终输出准确的语音。
附图说明
通过结合附图对本申请实施例进行更详细的描述,本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解,并且构成说明书的一部分,与本申请实施例一起用于解释本申请,并不构成对本申请的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1为根据本申请实施例的一种强噪声环境下的语音检测方法的流程图;
图2为根据本申请实施例的一种强噪声环境下的语音检测方法的局部流程图;
图3为根据本申请实施例的一种强噪声环境下的语音检测方法的局部流程图;
图4为根据本申请实施例的一种强噪声环境下的语音检测系统的框图。
具体实施方式
下面参照附图来描述本发明的一些实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。
如图1所示,本发明的一个实施例中提供了一种强噪声环境下的语音检测方法,包括:
步骤S110,采集预设环境下在时间t时的声音信号,声音信号对应的声音由人物发出的语音以及与语音相对的噪声混合形成。
本实施例中,对预设环境中噪声大小不进行限制,当噪声影响对人物语音识别的准确率影响到达一定程度时,该环境可称为强噪声环境。
步骤S120,检测声音信号的幅值f和频率p,计算声音信号的功率谱密度。
步骤S130,根据预设的环境下的噪声强度z,计算噪声的功率谱密度。
步骤S140,将声音信号的功率谱密度和噪声的功率谱密度/>置入预设的语音检测模型,输出语音的功率谱密度/>,语音检测模型为:
;
其中,m、n为预先设置的系数。
本实施例中的语音检测模型基于玻恩—奥本海默近似理论构建,应用于语音检测技术领域中适于从原始的声音中排除噪声。
步骤S150,根据语音的功率谱密度,计算语音的信噪比X。
步骤S160,调整语音检测模型的系数m、n,重新使用语音检测模型计算语音的功率谱密度以及重新计算语音的信噪比X,直至语音的信噪比X达到最大值。
本实施例中,根据语音检测模型的输出结果信噪比对模型系数进行自动调节,实现对语音检测模型的自主优化,从而使得语音检测模型适合在变化的环境下使用。
步骤S170,根据信噪比X达到最大值时语音的功率谱密度输出语音。
根据本实施例的技术方案,对于在强噪声环境下采集的声音信号,首先计算声音信号的功率谱密度,并且基于高斯白噪声机制估算强噪声环境下噪声的功率谱密度,同时基于玻恩—奥本海默近似理论构建语音检测模型,通过该语音检测模型对声音信号的功率谱密度以及噪声的功率谱密度进行处理,以实现从声音中排除噪声得到语音,语音检测模型分析过程中自动根据分析结果的信噪比对模型系数进行自动调节,实现对语音检测模型的自主优化,从而确保最终输出准确的语音。
本发明的另一个实施例中提供了一种强噪声环境下的语音检测方法,相对于前述的实施例,本实施例的强噪声环境下的语音检测方法,步骤S130包括:
通过预设的噪声预测模型计算噪声的功率谱密度,噪声预测模型为:
;
其中,为朗之万方程,/>为狄拉克函数,/>为预设的延迟时间,/>为在时间/>噪声的功率谱密度。
本实施例中,朗之万公式是一个描述自由度的子集的时间演化的随机微分方程,狄拉克函数是一个广义函数,该函数在除了零以外的点取值都等于零,而其在整个定义域上的积分等于1。
根据本实施例的技术方案,基于高斯白噪声机制可以准确估算强噪声环境下噪声的功率谱密度。
如图2所示,本发明的另一个实施例中提供了一种强噪声环境下的语音检测方法,相对于前述的实施例,本实施例的强噪声环境下的语音检测方法,步骤S110包括:
步骤S210,检测环境中人物的位置。
步骤S220,检测噪声的来源的位置。
步骤S230,根据人物的位置和噪声来源的位置/>,计算环境中采集声音信号的采集点的位置/>,使/>,其中,/>为人物的数量,为噪声的来源的数量。
步骤S240,在采集点采集声音信号。
根据本实施例的技术方案,基于环境中的人物位置和噪声来源位置选择声音信号采集点,通过上述公式确定的采集点位置有利于采集到语音质量最佳的声音信号。
如图3所示,本发明的另一个实施例中提供了一种强噪声环境下的语音检测方法,相对于前述的实施例,本实施例的强噪声环境下的语音检测方法,在步骤S130之前,还包括:
步骤S310,在环境中检测噪声的来源的类型。
本实施例中,对环境中的噪声来源类型不进行限制,例如,其可以是机器设备、车辆等,不同类型的噪声来源的噪声强度不同。
步骤S320,根据噪声的来源的类型,从预设的多种类型噪声来源的噪声强度中,查询环境下噪声来源的噪声强度z。
根据本实施例的技术方案,预先配置好不同类型的噪声来源的噪声强度,在实际环境中检测到噪声来源的类型后,可查询得到其噪声强度。
本发明的另一个实施例中提供了一种强噪声环境下的语音检测方法,相对于前述的实施例,本实施例的强噪声环境下的语音检测方法,步骤S120还包括:
判断声音信号的幅值f是否高于,在判断结果为否时在环境中更换在环境中采集声音信号的采集点的位置,并重新采集声音信号。
根据本实施例的技术方案,在声音信号的幅值低于上述阈值时,使用该声音信号会影响基于玻恩—奥本海默近似理论构建的语音检测模型的平衡状态,进而影响语音检测的准确性,此时需要改变声音信号的采集点,使采集的声音信号的幅值高于上述阈值。
本发明的另一个实施例中提供了一种强噪声环境下的语音检测方法,相对于前述的实施例,本实施例的强噪声环境下的语音检测方法,步骤S160包括:
将每次计算得到的语音的信噪比存储到预设的队列中,当队列的长度超过预设阈值且最近一次计算得到的信噪比高于队列中存储的信噪比最大值时,认为最近一次计算得到的信噪比达到最大值。
根据本实施例的技术方案,通过队列机制选择出信噪比的最大值,从而确定语音检测模型输出的语音。
如图4所示,本发明的一个实施例中提供了一种强噪声环境下的语音检测系统,包括:
声音信号采集模块410,采集预设环境下在时间t时的声音信号,声音信号对应的声音由人物发出的语音以及与语音相对的噪声混合形成。
本实施例中,对预设环境中噪声大小不进行限制,当噪声影响对人物语音识别的准确率影响到达一定程度时,该环境可称为强噪声环境。
检测模块420,检测声音信号的幅值f和频率p,计算声音信号的功率谱密度。
功率谱密度计算模块430,根据预设的环境下的噪声强度z,计算噪声的功率谱密度。
功率谱密度输出模块440,将声音信号的功率谱密度和噪声的功率谱密度/>置入预设的语音检测模型,输出语音的功率谱密度/>,语音检测模型为:
;
其中,m、n为预先设置的系数。
本实施例中的语音检测模型基于玻恩—奥本海默近似理论构建,应用于语音检测技术领域中适于从原始的声音中排除噪声。
信噪比计算模块450,根据语音的功率谱密度,计算语音的信噪比X。
调整模块460,调整语音检测模型的系数m、n,重新使用语音检测模型计算语音的功率谱密度以及重新计算语音的信噪比X,直至语音的信噪比X达到最大值。
本实施例中,根据语音检测模型的输出结果信噪比对模型系数进行自动调节,实现对语音检测模型的自主优化,从而使得语音检测模型适合在变化的环境下使用。
语音输出模块470,根据信噪比X达到最大值时语音的功率谱密度输出语音。
根据本实施例的技术方案,对于在强噪声环境下采集的声音信号,首先计算声音信号的功率谱密度,并且基于高斯白噪声机制估算强噪声环境下噪声的功率谱密度,同时基于玻恩—奥本海默近似理论构建语音检测模型,通过该语音检测模型对声音信号的功率谱密度以及噪声的功率谱密度进行处理,以实现从声音中排除噪声得到语音,语音检测模型分析过程中自动根据分析结果的信噪比对模型系数进行自动调节,实现对语音检测模型的自主优化,从而确保最终输出准确的语音。
以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,在本申请中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本申请为必须采用上述具体的细节来实现。
本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
还需要指出的是,在本申请的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此,本申请不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。
Claims (7)
1.一种强噪声环境下的语音检测方法,其特征在于,包括:
采集预设环境下在时间t时的声音信号,所述声音信号对应的声音由人物发出的语音以及与所述语音相对的噪声混合形成;
检测所述声音信号的幅值f和频率p,计算所述声音信号的功率谱密度;根据预设的所述环境下的噪声强度z,计算所述噪声的功率谱密度;
将所述声音信号的功率谱密度 和所述噪声的功率谱密度/>置入预设的语音检测模型,输出所述语音的功率谱密度/>,所述语音检测模型为:
;
其中,m、n为预先设置的系数;
根据所述语音的功率谱密度,计算所述语音的信噪比X;调整所述语音检测模型的系数m、n,重新使用所述语音检测模型计算所述语音的功率谱密度/>以及重新计算所述语音的信噪比X,直至所述语音的信噪比X达到最大值;
根据信噪比X达到最大值时所述语音的功率谱密度输出所述语音。
2.根据权利要求1所述的强噪声环境下的语音检测方法,其特征在于,“根据预设的所述环境下的噪声强度z,计算所述噪声的功率谱密度”的步骤包括:通过预设的噪声预测模型计算所述噪声的功率谱密度/>,所述噪声预测模型为:
;
其中,为朗之万方程,/>为狄拉克函数,/>为预设的延迟时间,/>为在时间所述噪声的功率谱密度。
3.根据权利要求1所述的强噪声环境下的语音检测方法,其特征在于,“采集预设环境下在时间t时的声音信号”的步骤包括:
检测所述环境中所述人物的位置;
检测所述噪声的来源的位置;
根据所述人物的位置和所述噪声来源的位置/>,计算所述环境中采集所述声音信号的采集点的位置/>,使/>,其中,/>为所述人物的数量,/>为所述噪声的来源的数量;
在所述采集点采集所述声音信号。
4.根据权利要求1所述的强噪声环境下的语音检测方法,其特征在于,在“根据预设的所述环境下的噪声强度z,计算所述噪声的功率谱密度”的步骤之前,还包括:
在所述环境中检测所述噪声的来源的类型;
根据所述噪声的来源的类型,从预设的多种类型噪声来源的噪声强度中,查询所述环境下所述噪声来源的噪声强度z。
5.根据权利要求1所述的强噪声环境下的语音检测方法,其特征在于,“检测所述声音信号的幅值f和频率p”的步骤还包括:
判断所述声音信号的幅值f是否高于,在判断结果为否时在所述环境中更换在所述环境中采集所述声音信号的采集点的位置,并重新采集所述声音信号。
6.根据权利要求1所述的强噪声环境下的语音检测方法,其特征在于,“重新使用所述语音检测模型计算所述语音的功率谱密度以及重新计算所述语音的信噪比X,直至所述语音的信噪比X达到最大值”的步骤包括:
将每次计算得到的所述语音的信噪比存储到预设的队列中,当所述队列的长度超过预设阈值且最近一次计算得到的信噪比高于所述队列中存储的信噪比最大值时,认为最近一次计算得到的信噪比达到最大值。
7.一种强噪声环境下的语音检测系统,其特征在于,包括:
声音信号采集模块,采集预设环境下在时间t时的声音信号,所述声音信号对应的声音由人物发出的语音以及与所述语音相对的噪声混合形成;
检测模块,检测所述声音信号的幅值f和频率p,计算所述声音信号的功率谱密度;
功率谱密度计算模块,根据预设的所述环境下的噪声强度z,计算所述噪声的功率谱密度;
功率谱密度输出模块,将所述声音信号的功率谱密度和所述噪声的功率谱密度/>置入预设的语音检测模型,输出所述语音的功率谱密度/>,所述语音检测模型为:;
其中,m、n为预先设置的系数;
信噪比计算模块,根据所述语音的功率谱密度,计算所述语音的信噪比X;
调整模块,调整所述语音检测模型的系数m、n,重新使用所述语音检测模型计算所述语音的功率谱密度以及重新计算所述语音的信噪比X,直至所述语音的信噪比X达到最大值;
语音输出模块,根据信噪比X达到最大值时所述语音的功率谱密度输出所述语音。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310854842.2A CN116580723B (zh) | 2023-07-13 | 2023-07-13 | 一种强噪声环境下的语音检测方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310854842.2A CN116580723B (zh) | 2023-07-13 | 2023-07-13 | 一种强噪声环境下的语音检测方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116580723A true CN116580723A (zh) | 2023-08-11 |
CN116580723B CN116580723B (zh) | 2023-09-08 |
Family
ID=87541706
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310854842.2A Active CN116580723B (zh) | 2023-07-13 | 2023-07-13 | 一种强噪声环境下的语音检测方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116580723B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008145351A (ja) * | 2006-12-12 | 2008-06-26 | Masatada Hata | 地殻活動検知受信方式および装置 |
CN107393550A (zh) * | 2017-07-14 | 2017-11-24 | 深圳永顺智信息科技有限公司 | 语音处理方法及装置 |
CN107785029A (zh) * | 2017-10-23 | 2018-03-09 | 科大讯飞股份有限公司 | 目标语音检测方法及装置 |
CN109616139A (zh) * | 2018-12-25 | 2019-04-12 | 平安科技(深圳)有限公司 | 语音信号噪声功率谱密度估计方法和装置 |
CN109767781A (zh) * | 2019-03-06 | 2019-05-17 | 哈尔滨工业大学(深圳) | 基于超高斯先验语音模型与深度学习的语音分离方法、系统及存储介质 |
CN110610714A (zh) * | 2019-09-20 | 2019-12-24 | 科大讯飞股份有限公司 | 一种音频信号增强处理的方法和相关装置 |
US10636434B1 (en) * | 2018-09-28 | 2020-04-28 | Apple Inc. | Joint spatial echo and noise suppression with adaptive suppression criteria |
US20210327448A1 (en) * | 2018-12-18 | 2021-10-21 | Tencent Technology (Shenzhen) Company Limited | Speech noise reduction method and apparatus, computing device, and computer-readable storage medium |
CN113593599A (zh) * | 2021-09-02 | 2021-11-02 | 北京云蝶智学科技有限公司 | 一种去除语音信号中噪声信号的方法 |
WO2022012367A1 (zh) * | 2020-07-13 | 2022-01-20 | 紫光展锐(重庆)科技有限公司 | 快速计算语音存在概率的噪声抑制方法及装置、存储介质、终端 |
-
2023
- 2023-07-13 CN CN202310854842.2A patent/CN116580723B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008145351A (ja) * | 2006-12-12 | 2008-06-26 | Masatada Hata | 地殻活動検知受信方式および装置 |
CN107393550A (zh) * | 2017-07-14 | 2017-11-24 | 深圳永顺智信息科技有限公司 | 语音处理方法及装置 |
CN107785029A (zh) * | 2017-10-23 | 2018-03-09 | 科大讯飞股份有限公司 | 目标语音检测方法及装置 |
US10636434B1 (en) * | 2018-09-28 | 2020-04-28 | Apple Inc. | Joint spatial echo and noise suppression with adaptive suppression criteria |
US20210327448A1 (en) * | 2018-12-18 | 2021-10-21 | Tencent Technology (Shenzhen) Company Limited | Speech noise reduction method and apparatus, computing device, and computer-readable storage medium |
CN109616139A (zh) * | 2018-12-25 | 2019-04-12 | 平安科技(深圳)有限公司 | 语音信号噪声功率谱密度估计方法和装置 |
CN109767781A (zh) * | 2019-03-06 | 2019-05-17 | 哈尔滨工业大学(深圳) | 基于超高斯先验语音模型与深度学习的语音分离方法、系统及存储介质 |
CN110610714A (zh) * | 2019-09-20 | 2019-12-24 | 科大讯飞股份有限公司 | 一种音频信号增强处理的方法和相关装置 |
WO2022012367A1 (zh) * | 2020-07-13 | 2022-01-20 | 紫光展锐(重庆)科技有限公司 | 快速计算语音存在概率的噪声抑制方法及装置、存储介质、终端 |
CN113593599A (zh) * | 2021-09-02 | 2021-11-02 | 北京云蝶智学科技有限公司 | 一种去除语音信号中噪声信号的方法 |
Non-Patent Citations (3)
Title |
---|
TAKEFUMI OHKI 等: "Neural oscillations in the temporal pole for a temporally congruent audio-visual speech detection task", 《SCIENTIFIC REPORTS》, pages 1 - 14 * |
卢欢欢 等: "基于自适应随机共振理论强噪声背景下的弱语音信号检测", 《生物医学工程学杂志》, vol. 33, no. 2, pages 163 - 167163 * |
张君昌;张丹;崔力;: "一种鲁棒自适应阈值的语音端点检测方法", 西安电子科技大学学报, no. 05, pages 129 - 133 * |
Also Published As
Publication number | Publication date |
---|---|
CN116580723B (zh) | 2023-09-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10403299B2 (en) | Multi-channel speech signal enhancement for robust voice trigger detection and automatic speech recognition | |
TWI398855B (zh) | 多重麥克風聲音活動偵測器 | |
RU2595636C2 (ru) | Система и способ для генерации аудиосигнала | |
WO2022160593A1 (zh) | 一种语音增强方法、装置、系统及计算机可读存储介质 | |
US7383178B2 (en) | System and method for speech processing using independent component analysis under stability constraints | |
US9906882B2 (en) | Method and apparatus for wind noise detection | |
CN108831499A (zh) | 利用语音存在概率的语音增强方法 | |
CN101031956A (zh) | 用于嘈杂环境中语音信号分离的头戴式耳机 | |
JPH10191497A (ja) | ディジタル式補聴器およびフィードバック経路のモデリング方法 | |
JP2010112996A (ja) | 音声処理装置、音声処理方法およびプログラム | |
CN112689056B (zh) | 一种回声消除方法及使用该方法的回声消除装置 | |
CN101751918A (zh) | 新型消音装置及消音方法 | |
CN110248300B (zh) | 一种基于自主学习的啸叫抑制方法及扩声系统 | |
CN111951818A (zh) | 一种基于改进功率差噪声估计算法的双麦克风语音增强方法 | |
CN107360497B (zh) | 估算混响分量的计算方法及装置 | |
CN106653043A (zh) | 降低语音失真的自适应波束形成方法 | |
US9172791B1 (en) | Noise estimation algorithm for non-stationary environments | |
CN116580723B (zh) | 一种强噪声环境下的语音检测方法和系统 | |
TWI459381B (zh) | 語音增強方法 | |
WO2015114674A1 (ja) | 集音装置、集音装置の入力信号補正方法および移動機器情報システム | |
CN112289337B (zh) | 一种滤除机器学习语音增强后的残留噪声的方法及装置 | |
EP1304681A3 (en) | Speech absence probability estimation and noise removal | |
CN111225317B (zh) | 一种回声消除方法 | |
CN110718230B (zh) | 一种消除混响的方法和系统 | |
CN107346658B (zh) | 混响抑制方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |