CN113270113B

CN113270113B - 一种声音信号混杂度的识别方法及系统

Info

Publication number: CN113270113B
Application number: CN202110538829.7A
Authority: CN
Inventors: 毕路拯; 罗龙溪; 滕腾
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2021-05-18
Filing date: 2021-05-18
Publication date: 2021-12-03
Anticipated expiration: 2041-05-18
Also published as: CN113270113A

Abstract

本发明公开一种声音信号混杂度的识别方法及系统，包括，将声音信号切分为等时长的声音数据，对声音数据进行预处理，并选取参考数据；计算每段数据的功率谱密度曲线；截取功率谱密度曲线中的主要功率谱区间；计算每段数据主要功率谱区间与参考数据主要功率谱区间的相关性；计算每段数据以及参考数据的主要功率谱区间的积分；融合主要功率谱区间积分和相关性的计算结果，计算每段数据的混杂度；本发明公开的识别系统，包括信号采集模块，第一信号处理模块，第二信号处理模块，声音信号混杂度生成模块，数据存储模块，显示模块；本发明提供的识别方法及系统，实现了信号的混杂程度的衡量，弥补了声音信号处理技术领域在相关方面的不足。

Description

一种声音信号混杂度的识别方法及系统

技术领域

本发明涉及声音信号处理领域，具体涉及一种声音信号混杂度的识别方法及系统。

背景技术

从声音信号中准确地识别所包含的声音，有利于弥补或代替其它传感系统进行目标识别。然而，如果声音信号中混合了多种声音，那么声音信号处理的方法，如机器学习和深度学习的方法，很难准确地识别出信号中所包含的声音，那么所得的声音识别结果是无效的。

目前还没有衡量声音信号混杂程度的方法，为了判定声音信号处理方法的声音识别结果是否有效，急需一种声音信号混杂度的识别方法及系统，来衡量声音信号的混杂程度。混杂度越高，说明声音信号的声音来源越复杂，混杂度高的声音信号不能通过声音信号处理方法来识别，因为所获得的声音识别结果准确性低；混杂度低的声音信号可以通过声音信号处理方法来获得准确的识别结果。

发明内容

本发明的目的是提供一种声音信号混杂度的识别方法及系统，以解决上述现有技术存在的问题，获得声音信号的混杂程度。

为了实现上述目的，本发明提供了一种声音信号混杂度的识别方法，包括以下步骤：

采集原始声音信号，获得第一数据和第二数据，其中，第一数据包括第二数据；

基于第一数据，获得第一功率谱密度曲线；

基于第二数据，获得第二功率谱密度曲线；

基于第一功率谱密度曲线和第二功率谱密度曲线，构建声音信号混杂度识别模型，声音信号混杂度识别模型用于识别声音信号混杂度，其中，声音信号混杂度用于表示声音信号的混杂程度。

优选地，在获得第一数据的过程中，对原始音信号进行相等时长切分，获得第一数据。

优选地，在对原始声音信号进行相等时长切分的过程后，获得若干段声音信号数据，将每段声音信号数据的第一数值减去该段声音信号数据的第一平均值，获得第一数据。

优选地，选取若干段声音信号数据的单一声音数据，将单一声音数据的第二数值减去单一声音数据的第二平均值，获得第二数据，其中，单一声音数据用于表示每段声音信号数据只包括一种声音信号数据的声音数据。

优选地，基于第一数据，采集第一数据的第一信号功率、第一功率谱密度曲线分辨率，通过第一快速傅里叶变换方程，获得第一功率谱密度曲线。

优选地，基于第二数据，采集第二数据的第二信号功率、第二功率谱密度曲线分辨率，通过第二快速傅里叶变换方程，获得第二功率谱密度曲线。

优选地，基于第一功率谱密度曲线，获取第一功率谱密度曲线的第一主要功率谱区间数量、第一主要功率谱区间序号，构建第一主要功率谱区间集合。

优选地，基于第二功率谱密度曲线，获取第二功率谱密度曲线的第二主要功率谱区间数量、第二主要功率谱区间序号，构建第二功率谱区间集合。

优选地，基于第一主要功率谱区间集合和第二主要功率谱区间集合的Pearson相关性，获得平均相关性分析函数；

基于第一主要功率谱区间集合，获取第一主要功率谱区间集合的第一积分函数；

基于第二主要功率谱区间集合，获取第二主要功率谱区间集合的第二积分函数；

基于平均相关性分析函数、第一积分函数、第二积分函数，构建声音信号混杂度识别模型。

一种声音信号混杂度的识别系统，包括，

信号采集模块，用于采集原始声音信号；

第一信号处理模块，用于根据原始声音信号，获得第一数据和第二数据，其中，第一数据包括第二数据；

第二信号处理模块，用于基于第一数据，获得第一功率谱密度曲线，基于第二数据，获得第二功率谱密度曲线；

声音信号混杂度生成模块，用于基于第一功率谱密度曲线和第二功率谱密度曲线，构建声音信号混杂度识别模型，获得声音信号混杂度；

数据存储模块，分别与信号采集模块、第一信号处理模块、第二信号处理模块、声音信号混杂度生成模块连接；

显示模块，与数据存储模块连接，用于显示第一数据、第二数据、第一功率谱密度曲线、第二功率谱密度曲线、声音信号混杂度。

本发明公开了以下技术效果：

本发明提出一种声音信号混杂度的识别方法及系统，有利于衡量信号的混杂程度，弥补了声音信号处理技术领域在相关方面的不足，属于声音信号处理领域。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还根据这些附图获得其他的附图。

图1为本发明所述的方法流程示意图；

图2为本发明所述的系统结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1-2所示，本发明提供了一种声音信号混杂度的识别方法，包括以下步骤：

基于第一数据，获得第一功率谱密度曲线；

基于第二数据，获得第二功率谱密度曲线；

基于第一功率谱密度曲线和第二功率谱密度曲线，

在获得第一数据的过程中，对原始音信号进行相等时长切分，获得第一数据。

在对原始声音信号进行相等时长切分的过程后，获得若干段声音信号数据，将每段声音信号数据的第一数值减去该段声音信号数据的第一平均值，获得第一数据。

选取若干段声音信号数据的单一声音数据，将单一声音数据的第二数值减去单一声音数据的第二平均值，获得第二数据，其中，单一声音数据用于表示每段声音信号数据只包括一种声音信号数据的声音数据。

基于第一数据，采集第一数据的第一信号功率、第一功率谱密度曲线分辨率，通过第一快速傅里叶变换方程，获得第一功率谱密度曲线。

基于第二数据，采集第二数据的第二信号功率、第二功率谱密度曲线分辨率，通过第二快速傅里叶变换方程，获得第二功率谱密度曲线。

基于第一功率谱密度曲线，获取第一功率谱密度曲线的第一主要功率谱区间数量、第一主要功率谱区间序号，构建第一主要功率谱区间集合。

基于第二功率谱密度曲线，获取第二功率谱密度曲线的第二主要功率谱区间数量、第二主要功率谱区间序号，构建第二功率谱区间集合。

基于第一主要功率谱区间集合和第二主要功率谱区间集合的Pearson相关性，获得平均相关性分析函数；

基于平均相关性分析函数、第一积分函数、第二积分函数，构建声音信号混杂度识别模型；

基于声音信号混杂度识别模型，通过设定判定阈值，构建声音信号识别判定模型，其中，根据平均相关性、第一积分、第二积分获得原始声音信号的声音混杂度，判定阈值用于表示声音混杂度阈值。

一种声音信号混杂度的识别系统，包括，

信号采集模块，用于采集原始声音信号；

显示模块，与数据存储模块连接，用于显示第一数据、第二数据、第一功率谱密度曲线、第二功率谱密度曲线、声音信号混杂度、准确性。

实施例1：本发明提供的声音信号混杂度的识别方法，包括以下步骤：

步骤1：将原始声音信号切分为相等时长的数据，(本发明一个实施例中，每段数据时长为2秒)，对每段数据进行预处理,每段数据用x表示，预处理的方法为将每段数据的数值减去该段数据的平均值

并选取包含单一声音的声音数据，并进行预处理，获得参考数据o(本发明一个实施例中，参考数据为5段包含单一声音的预处理后的声音数据的平均值，每段数据时长为2秒)。

步骤2：计算步骤1中所述预处理后的每段数据的功率谱密度曲线S_x：

其中FFT是快速傅里叶变换方程，ω_k是功率，Δω_k是所得功率谱密度曲线的分辨率。(本发明一个实施例中，Δω_k＝1Hz)。

步骤3：根据需要，从步骤2中所述的每段数据的功率谱密度曲线S_x中截取多个主要功率谱区间，每个主要功率谱区间记为

其中m为功率谱区间的序号，共有M个主要功率谱区间。同样地，求步骤1中所述参考数据的主要功率谱区间，得到多个参考数据主要功率谱区间，记为

步骤4：计算步骤3中每段数据主要功率谱区间

和参考数据主要功率谱区间

的Pearson相关性，并平均多个主要功率谱区间的相关性，得到平均相关性

步骤5：计算步骤3中所述每段数据主要功率谱区间的积分J_x和参考数据的主要功率谱区间的积分J_o：

步骤6：通过融合步骤4中所述的每段数据的平均相关性

和步骤5中所述主要功率谱区间的积分J_x，以及步骤5中所述参考数据的主要功率谱区间的积分J_o，计算混杂度h_x:

其中，a，b是混杂度计算的系数。(本发明一个实施例中，根据实验结果，系数a和系数b的数值分别设定为1和4)。

步骤7：设定混杂度阈值t_h(本发明一个实施例中，混杂度阈值t_h设定为5)，当步骤6中所述某段数据混杂度h_x小于或者等于混杂度阈值t_h时，该段声音数据可以通过声音信号处理的方法(如机器学习或者深度学习的方法)来识别数据中的声音类别，并判定声音信号处理方法获得的该段数据的声音识别结果有效，建议通过其它的方法，如人机交互的方法来识别声音的识别。当步骤6中所述某段数据混杂度h_x大于混杂度阈值t_h时，判定声音信号处理方法获得的该段数据的声音识别结果无效。

本发明通过计算所提出的声音信号的混杂度，衡量信号的混杂程度，通过衡量信号的混杂程度，判定声音信号处理方法的声音识别结果是否有效，弥补了声音信号处理技术领域在相关方面的不足。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释，此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种声音信号混杂度的识别方法，其特征在于，包括以下步骤：

采集原始声音信号，获得第一数据和第二数据；

在获得所述第一数据的过程中，对所述原始声音信号进行相等时长切分，在对所述原始声音信号进行相等时长切分的过程后，获得若干段声音信号数据，将每段声音信号数据的第一数值减去该段声音信号数据的第一平均值，获得所述第一数据；

选取若干段所述声音信号数据的单一声音数据，将所述单一声音数据的第二数值减去所述单一声音数据的第二平均值，获得所述第二数据，其中，所述单一声音数据用于表示每段所述声音信号数据只包括一种声音信号数据的声音数据；

基于所述第一数据，获得第一功率谱密度曲线；

基于所述第一功率谱密度曲线，获取所述第一功率谱密度曲线的第一主要功率谱区间数量、第一主要功率谱区间序号，构建第一主要功率谱区间集合；

基于所述第二数据，获得第二功率谱密度曲线；

基于所述第二功率谱密度曲线，获取所述第二功率谱密度曲线的第二主要功率谱区间数量、第二主要功率谱区间序号，构建第二主要功率谱区间集合；

基于所述第一主要功率谱区间集合和所述第二主要功率谱区间集合的Pearson相关性，获得平均相关性分析函数；

基于所述第一主要功率谱区间集合，获取所述第一主要功率谱区间集合的第一积分函数；

基于所述第二主要功率谱区间集合，获取所述第二主要功率谱区间集合的第二积分函数；

基于所述平均相关性分析函数、所述第一积分函数、所述第二积分函数，构建声音信号混杂度识别模型，所述声音信号混杂度识别模型用于识别所述声音信号混杂度，其中，所述声音信号混杂度用于表示声音信号的混杂程度。

2.根据权利要求1所述的一种声音信号混杂度的识别方法，其特征在于，

基于所述第一数据，采集所述第一数据的第一信号功率、第一功率谱密度曲线分辨率，通过第一快速傅里叶变换方程，获得所述第一功率谱密度曲线。

3.根据权利要求1所述的一种声音信号混杂度的识别方法，其特征在于，

基于所述第二数据，采集所述第二数据的第二信号功率、第二功率谱密度曲线分辨率，通过第二快速傅里叶变换方程，获得所述第二功率谱密度曲线。

4.一种声音信号混杂度的识别系统，所述系统用于实施权利要求1-3任意一项所述的声音信号混杂度的识别方法，其特征在于，包括，

信号采集模块，用于采集原始声音信号；

第一信号处理模块，用于根据所述原始声音信号，获得第一数据和第二数据，其中，所述第一数据包括所述第二数据；

第二信号处理模块，用于基于所述第一数据，获得第一功率谱密度曲线，基于所述第二数据，获得第二功率谱密度曲线；

声音信号混杂度生成模块，用于基于所述第一功率谱密度曲线和所述第二功率谱密度曲线，构建声音信号混杂度识别模型，获得声音信号混杂度；

数据存储模块，分别与所述信号采集模块、所述第一信号处理模块、所述第二信号处理模块、所述声音信号混杂度生成模块连接；

显示模块，与所述数据存储模块连接，用于显示所述第一数据、所述第二数据、所述第一功率谱密度曲线、所述第二功率谱密度曲线、所述声音信号混杂度。