CN116580723A

CN116580723A - 一种强噪声环境下的语音检测方法和系统

Info

Publication number: CN116580723A
Application number: CN202310854842.2A
Authority: CN
Inventors: 郭茜
Original assignee: Hefei Xingben Network Technology Co ltd
Current assignee: Hefei Xingben Network Technology Co ltd
Priority date: 2023-07-13
Filing date: 2023-07-13
Publication date: 2023-08-11
Anticipated expiration: 2043-07-13
Also published as: CN116580723B

Abstract

本申请涉及一种强噪声环境下的语音检测方法和系统，该方法包括：采集预设环境下在预设时间的声音信号；检测声音信号的幅值和频率，计算声音信号的功率谱密度；计算噪声的功率谱密度；将声音信号的功率谱密度和噪声的功率谱密度置入预设的语音检测模型，输出语音的功率谱密度；计算语音的信噪比；调整语音检测模型的系数，重新使用语音检测模型计算语音的功率谱密度以及重新计算语音的信噪比；根据信噪比达到最大值时语音的功率谱密度输出语音。本发明基于高斯白噪声机制估算强噪声环境下噪声的功率谱密度，基于玻恩—奥本海默近似理论构建语音检测模型，自动根据分析结果的信噪比对模型系数进行自动调节，从而确保最终输出准确的语音。

Description

一种强噪声环境下的语音检测方法和系统

技术领域

本发明涉及计算机技术领域，且更为具体地，涉及一种强噪声环境下的语音检测的方法和系统。

背景技术

语音检测技术是指检测语音的存在与否，通常用于语音编码、语音增强等语音处理系统中，起到降低语音编码速率、节省通信带宽、减少移动设备能耗、提高识别率等作用。真实世界充满了多种噪声源，包括经常越界进入多种声音从而形成混响的单点噪声源。在噪声环境下进行语音检测时，噪声的存在严重干扰了语音检测的准确性，传统的语音检测方案在强噪声环境下的检测结果不理想，因此需要一种新的技术方案，提升强噪声环境下的语音检测准确性。

发明内容

为了解决上述技术问题，提出了本申请，以提供一种能够提升强噪声环境下的语音检测准确性的强噪声环境下的语音检测方法和系统。

第一方面，本发明提供了一种强噪声环境下的语音检测方法，包括：采集预设环境下在时间t时的声音信号，所述声音信号对应的声音由人物发出的语音以及与所述语音相对的噪声混合形成；检测所述声音信号的幅值f和频率p，计算所述声音信号的功率谱密度；根据预设的所述环境下的噪声强度z，计算所述噪声的功率谱密度；将所述声音信号的功率谱密度/>和所述噪声的功率谱密度/>置入预设的语音检测模型，输出所述语音的功率谱密度/>，所述语音检测模型为：

；

其中，m、n为预先设置的系数；根据所述语音的功率谱密度，计算所述语音的信噪比X；调整所述语音检测模型的系数m、n，重新使用所述语音检测模型计算所述语音的功率谱密度/>以及重新计算所述语音的信噪比X，直至所述语音的信噪比X达到最大值；根据信噪比X达到最大值时所述语音的功率谱密度/>输出所述语音。

可选地，前述的强噪声环境下的语音检测方法，“根据预设的所述环境下的噪声强度z，计算所述噪声的功率谱密度”的步骤包括：通过预设的噪声预测模型计算所述噪声的功率谱密度/>，所述噪声预测模型为：

；

其中，为朗之万方程，/>为狄拉克函数，/>为预设的延迟时间，/>为在时间/>所述噪声的功率谱密度。

可选地，前述的强噪声环境下的语音检测方法，“采集预设环境下在时间t时的声音信号”的步骤包括：检测所述环境中所述人物的位置；检测所述噪声的来源的位置/>；根据所述人物的位置/>和所述噪声来源的位置/>，计算所述环境中采集所述声音信号的采集点的位置/>，使/>，其中，/>为所述人物的数量，/>为所述噪声的来源的数量；在所述采集点采集所述声音信号。

可选地，前述的强噪声环境下的语音检测方法，在“根据预设的所述环境下的噪声强度z，计算所述噪声的功率谱密度”的步骤之前，还包括：在所述环境中检测所述噪声的来源的类型；根据所述噪声的来源的类型，从预设的多种类型噪声来源的噪声强度中，查询所述环境下所述噪声来源的噪声强度z。

可选地，前述的强噪声环境下的语音检测方法，“检测所述声音信号的幅值f和频率p”的步骤还包括：判断所述声音信号的幅值f是否高于，在判断结果为否时在所述环境中更换在所述环境中采集所述声音信号的采集点的位置，并重新采集所述声音信号。

可选地，前述的强噪声环境下的语音检测方法，“重新使用所述语音检测模型计算所述语音的功率谱密度以及重新计算所述语音的信噪比X，直至所述语音的信噪比X达到最大值”的步骤包括：将每次计算得到的所述语音的信噪比存储到预设的队列中，当所述队列的长度超过预设阈值且最近一次计算得到的信噪比高于所述队列中存储的信噪比最大值时，认为最近一次计算得到的信噪比达到最大值。

第二方面，本发明提供了一种强噪声环境下的语音检测系统，包括：声音信号采集模块，采集预设环境下在时间t时的声音信号，所述声音信号对应的声音由人物发出的语音以及与所述语音相对的噪声混合形成；检测模块，检测所述声音信号的幅值f和频率p，计算所述声音信号的功率谱密度；功率谱密度计算模块，根据预设的所述环境下的噪声强度z，计算所述噪声的功率谱密度/>；功率谱密度输出模块，将所述声音信号的功率谱密度/>和所述噪声的功率谱密度/>置入预设的语音检测模型，输出所述语音的功率谱密度/>，所述语音检测模型为：

；

其中，m、n为预先设置的系数；信噪比计算模块，根据所述语音的功率谱密度，计算所述语音的信噪比X；调整模块，调整所述语音检测模型的系数m、n，重新使用所述语音检测模型计算所述语音的功率谱密度/>以及重新计算所述语音的信噪比X，直至所述语音的信噪比X达到最大值；语音输出模块，根据信噪比X达到最大值时所述语音的功率谱密度输出所述语音。

本发明上述一个或多个技术方案，至少具有如下一种或多种有益效果：

本发明的技术方案，对于在强噪声环境下采集的声音信号，首先计算声音信号的功率谱密度，并且基于高斯白噪声机制估算强噪声环境下噪声的功率谱密度，同时基于玻恩—奥本海默近似理论构建语音检测模型，通过该语音检测模型对声音信号的功率谱密度以及噪声的功率谱密度进行处理，以实现从声音中排除噪声得到语音，语音检测模型分析过程中自动根据分析结果的信噪比对模型系数进行自动调节，实现对语音检测模型的自主优化，从而确保最终输出准确的语音。

附图说明

通过结合附图对本申请实施例进行更详细的描述，本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解，并且构成说明书的一部分，与本申请实施例一起用于解释本申请，并不构成对本申请的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1为根据本申请实施例的一种强噪声环境下的语音检测方法的流程图；

图2为根据本申请实施例的一种强噪声环境下的语音检测方法的局部流程图；

图3为根据本申请实施例的一种强噪声环境下的语音检测方法的局部流程图；

图4为根据本申请实施例的一种强噪声环境下的语音检测系统的框图。

具体实施方式

下面参照附图来描述本发明的一些实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。

如图1所示，本发明的一个实施例中提供了一种强噪声环境下的语音检测方法，包括：

步骤S110，采集预设环境下在时间t时的声音信号，声音信号对应的声音由人物发出的语音以及与语音相对的噪声混合形成。

本实施例中，对预设环境中噪声大小不进行限制，当噪声影响对人物语音识别的准确率影响到达一定程度时，该环境可称为强噪声环境。

步骤S120，检测声音信号的幅值f和频率p，计算声音信号的功率谱密度。

步骤S130，根据预设的环境下的噪声强度z，计算噪声的功率谱密度。

步骤S140，将声音信号的功率谱密度和噪声的功率谱密度/>置入预设的语音检测模型，输出语音的功率谱密度/>，语音检测模型为：

；

其中，m、n为预先设置的系数。

本实施例中的语音检测模型基于玻恩—奥本海默近似理论构建，应用于语音检测技术领域中适于从原始的声音中排除噪声。

步骤S150，根据语音的功率谱密度，计算语音的信噪比X。

步骤S160，调整语音检测模型的系数m、n，重新使用语音检测模型计算语音的功率谱密度以及重新计算语音的信噪比X，直至语音的信噪比X达到最大值。

本实施例中，根据语音检测模型的输出结果信噪比对模型系数进行自动调节，实现对语音检测模型的自主优化，从而使得语音检测模型适合在变化的环境下使用。

步骤S170，根据信噪比X达到最大值时语音的功率谱密度输出语音。

根据本实施例的技术方案，对于在强噪声环境下采集的声音信号，首先计算声音信号的功率谱密度，并且基于高斯白噪声机制估算强噪声环境下噪声的功率谱密度，同时基于玻恩—奥本海默近似理论构建语音检测模型，通过该语音检测模型对声音信号的功率谱密度以及噪声的功率谱密度进行处理，以实现从声音中排除噪声得到语音，语音检测模型分析过程中自动根据分析结果的信噪比对模型系数进行自动调节，实现对语音检测模型的自主优化，从而确保最终输出准确的语音。

本发明的另一个实施例中提供了一种强噪声环境下的语音检测方法，相对于前述的实施例，本实施例的强噪声环境下的语音检测方法，步骤S130包括：

通过预设的噪声预测模型计算噪声的功率谱密度，噪声预测模型为：

；

其中，为朗之万方程，/>为狄拉克函数，/>为预设的延迟时间，/>为在时间/>噪声的功率谱密度。

本实施例中，朗之万公式是一个描述自由度的子集的时间演化的随机微分方程，狄拉克函数是一个广义函数，该函数在除了零以外的点取值都等于零，而其在整个定义域上的积分等于1。

根据本实施例的技术方案，基于高斯白噪声机制可以准确估算强噪声环境下噪声的功率谱密度。

如图2所示，本发明的另一个实施例中提供了一种强噪声环境下的语音检测方法，相对于前述的实施例，本实施例的强噪声环境下的语音检测方法，步骤S110包括：

步骤S210，检测环境中人物的位置。

步骤S220，检测噪声的来源的位置。

步骤S230，根据人物的位置和噪声来源的位置/>，计算环境中采集声音信号的采集点的位置/>，使/>，其中，/>为人物的数量，为噪声的来源的数量。

步骤S240，在采集点采集声音信号。

根据本实施例的技术方案，基于环境中的人物位置和噪声来源位置选择声音信号采集点，通过上述公式确定的采集点位置有利于采集到语音质量最佳的声音信号。

如图3所示，本发明的另一个实施例中提供了一种强噪声环境下的语音检测方法，相对于前述的实施例，本实施例的强噪声环境下的语音检测方法，在步骤S130之前，还包括：

步骤S310，在环境中检测噪声的来源的类型。

本实施例中，对环境中的噪声来源类型不进行限制，例如，其可以是机器设备、车辆等，不同类型的噪声来源的噪声强度不同。

步骤S320，根据噪声的来源的类型，从预设的多种类型噪声来源的噪声强度中，查询环境下噪声来源的噪声强度z。

根据本实施例的技术方案，预先配置好不同类型的噪声来源的噪声强度，在实际环境中检测到噪声来源的类型后，可查询得到其噪声强度。

本发明的另一个实施例中提供了一种强噪声环境下的语音检测方法，相对于前述的实施例，本实施例的强噪声环境下的语音检测方法，步骤S120还包括：

判断声音信号的幅值f是否高于，在判断结果为否时在环境中更换在环境中采集声音信号的采集点的位置，并重新采集声音信号。

根据本实施例的技术方案，在声音信号的幅值低于上述阈值时，使用该声音信号会影响基于玻恩—奥本海默近似理论构建的语音检测模型的平衡状态，进而影响语音检测的准确性，此时需要改变声音信号的采集点，使采集的声音信号的幅值高于上述阈值。

本发明的另一个实施例中提供了一种强噪声环境下的语音检测方法，相对于前述的实施例，本实施例的强噪声环境下的语音检测方法，步骤S160包括：

将每次计算得到的语音的信噪比存储到预设的队列中，当队列的长度超过预设阈值且最近一次计算得到的信噪比高于队列中存储的信噪比最大值时，认为最近一次计算得到的信噪比达到最大值。

根据本实施例的技术方案，通过队列机制选择出信噪比的最大值，从而确定语音检测模型输出的语音。

如图4所示，本发明的一个实施例中提供了一种强噪声环境下的语音检测系统，包括：

声音信号采集模块410，采集预设环境下在时间t时的声音信号，声音信号对应的声音由人物发出的语音以及与语音相对的噪声混合形成。

检测模块420，检测声音信号的幅值f和频率p，计算声音信号的功率谱密度。

功率谱密度计算模块430，根据预设的环境下的噪声强度z，计算噪声的功率谱密度。

功率谱密度输出模块440，将声音信号的功率谱密度和噪声的功率谱密度/>置入预设的语音检测模型，输出语音的功率谱密度/>，语音检测模型为：

；

其中，m、n为预先设置的系数。

信噪比计算模块450，根据语音的功率谱密度，计算语音的信噪比X。

调整模块460，调整语音检测模型的系数m、n，重新使用语音检测模型计算语音的功率谱密度以及重新计算语音的信噪比X，直至语音的信噪比X达到最大值。

语音输出模块470，根据信噪比X达到最大值时语音的功率谱密度输出语音。

以上结合具体实施例描述了本申请的基本原理，但是，需要指出的是，在本申请中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本申请为必须采用上述具体的细节来实现。

本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

还需要指出的是，在本申请的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此，本申请不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种强噪声环境下的语音检测方法，其特征在于，包括：

采集预设环境下在时间t时的声音信号，所述声音信号对应的声音由人物发出的语音以及与所述语音相对的噪声混合形成；

检测所述声音信号的幅值f和频率p，计算所述声音信号的功率谱密度；根据预设的所述环境下的噪声强度z，计算所述噪声的功率谱密度；

将所述声音信号的功率谱密度和所述噪声的功率谱密度/>置入预设的语音检测模型，输出所述语音的功率谱密度/>，所述语音检测模型为：

；

其中，m、n为预先设置的系数；

根据所述语音的功率谱密度，计算所述语音的信噪比X；调整所述语音检测模型的系数m、n，重新使用所述语音检测模型计算所述语音的功率谱密度/>以及重新计算所述语音的信噪比X，直至所述语音的信噪比X达到最大值；

根据信噪比X达到最大值时所述语音的功率谱密度输出所述语音。

2.根据权利要求1所述的强噪声环境下的语音检测方法，其特征在于，“根据预设的所述环境下的噪声强度z，计算所述噪声的功率谱密度”的步骤包括：通过预设的噪声预测模型计算所述噪声的功率谱密度/>，所述噪声预测模型为：

；

其中，为朗之万方程，/>为狄拉克函数，/>为预设的延迟时间，/>为在时间所述噪声的功率谱密度。

3.根据权利要求1所述的强噪声环境下的语音检测方法，其特征在于，“采集预设环境下在时间t时的声音信号”的步骤包括：

检测所述环境中所述人物的位置；

检测所述噪声的来源的位置；

根据所述人物的位置和所述噪声来源的位置/>，计算所述环境中采集所述声音信号的采集点的位置/>，使/>，其中，/>为所述人物的数量，/>为所述噪声的来源的数量；

在所述采集点采集所述声音信号。

4.根据权利要求1所述的强噪声环境下的语音检测方法，其特征在于，在“根据预设的所述环境下的噪声强度z，计算所述噪声的功率谱密度”的步骤之前，还包括：

在所述环境中检测所述噪声的来源的类型；

根据所述噪声的来源的类型，从预设的多种类型噪声来源的噪声强度中，查询所述环境下所述噪声来源的噪声强度z。

5.根据权利要求1所述的强噪声环境下的语音检测方法，其特征在于，“检测所述声音信号的幅值f和频率p”的步骤还包括：

判断所述声音信号的幅值f是否高于，在判断结果为否时在所述环境中更换在所述环境中采集所述声音信号的采集点的位置，并重新采集所述声音信号。

6.根据权利要求1所述的强噪声环境下的语音检测方法，其特征在于，“重新使用所述语音检测模型计算所述语音的功率谱密度以及重新计算所述语音的信噪比X，直至所述语音的信噪比X达到最大值”的步骤包括：

将每次计算得到的所述语音的信噪比存储到预设的队列中，当所述队列的长度超过预设阈值且最近一次计算得到的信噪比高于所述队列中存储的信噪比最大值时，认为最近一次计算得到的信噪比达到最大值。

7.一种强噪声环境下的语音检测系统，其特征在于，包括：

声音信号采集模块，采集预设环境下在时间t时的声音信号，所述声音信号对应的声音由人物发出的语音以及与所述语音相对的噪声混合形成；

检测模块，检测所述声音信号的幅值f和频率p，计算所述声音信号的功率谱密度；

功率谱密度计算模块，根据预设的所述环境下的噪声强度z，计算所述噪声的功率谱密度；

功率谱密度输出模块，将所述声音信号的功率谱密度和所述噪声的功率谱密度/>置入预设的语音检测模型，输出所述语音的功率谱密度/>，所述语音检测模型为：；

其中，m、n为预先设置的系数；

信噪比计算模块，根据所述语音的功率谱密度，计算所述语音的信噪比X；

调整模块，调整所述语音检测模型的系数m、n，重新使用所述语音检测模型计算所述语音的功率谱密度以及重新计算所述语音的信噪比X，直至所述语音的信噪比X达到最大值；

语音输出模块，根据信噪比X达到最大值时所述语音的功率谱密度输出所述语音。