CN115101092B

CN115101092B - 一种基于btpnet21的施工环境声音自动分类模型的分类方法

Info

Publication number: CN115101092B
Application number: CN202210565513.1A
Authority: CN
Inventors: 蔡长青; 黎炜珉; 李益铖; 张译; 李振霖
Original assignee: Guangzhou University
Current assignee: Guangzhou University
Priority date: 2022-05-23
Filing date: 2022-05-23
Publication date: 2024-06-11
Anticipated expiration: 2042-05-23
Also published as: CN115101092A

Abstract

本发明公开了一种基于btpnet21的施工环境声音自动分类模型的分类方法，包括如下步骤：S1，压缩数据集中所有csm声音；S2，创建21个特征向量；S3，使用Chi2选择器生成与标签最相关的特征；S4，利用支持向量机分类器评估所选特征；S5，使用计算精度对特征进行限定；S6，设立参数模型；S7，合并特征向量，获得最后一个特征向量；S8，利用INCA选择器选择筛选出与分类标签最相关特征向量；S9，使用支持向量机分类器计算得到分类结果。本发明通过基于btpnet21对于声音的分类，获得较高的分类精度，且分类准确率高；通过应用这种btpnet21模型，手动设计的特征生成器得到了有效的应用。

Description

一种基于btpnet21的施工环境声音自动分类模型的分类方法

技术领域

本发明属于声音分类技术领域，具体涉及一种基于btpnet21的施工环境声音自动分类模型的分类方法。

背景技术

如今，环境声音分类(environmental sound classification，Esc)已经成为一个重要的研究课题。Esc被用于许多不同的目的，整体目的是描述或分类各种自然声音，如动物、天气状况、故障诊断、车辆、房屋噪音、环境噪音。一般来说，在Esc研究中使用的声音是非语音环境声音。声波传感器价格低廉，而且可以方便地放置在任何地方，这使得环境监测任务更加容易。周围的声音是用简单的麦克风和传感器收集的。于是利用先进的声音处理模型对环境活动进行声音分类已成为一个热门且低成本的研究课题。

建造工程项目需要有效的建造工地监察应用方法(construction sitemonitoring(CSM))，以确保成功的建造工程项目的效率、安全、表现评估、监察及维修保养。项目经理必须妥善管理施工区域使用的资源。由此可以分析与资源相关的生产率和直接工作率。此外，持续监测显示了可能的事故风险和雇员的不安全行为，并通过监测建筑工地将风险降至最低。简而言之，持续的实时施工现场监测可以为项目经理提供了完成施工的机会。然而，用人工方法监控项目区域是一个非常昂贵的过程。项目经理很难完全了解施工现场的施工情况，可能会造成许多干扰。除此之外，在大型建筑工地这么做是不可能的。因此，需要远程观测和分析系统。

为达此目的，许多观测方法如录像系统，声学传感器,Gps接收器等通常是被人们选择的。然而，由于项目经理必须手工评估收集到的图像或信号，因此工作量成本很大。因此，研究人员专注于CSM的自动分析算法。它的目的是利用计算机辅助系统从数据中获得有意义的信息。然而，基于图像的系统的安装成本很高，而且数据量很大。因此在某些情况下，不可能从摄像机的角度观察所需要的区域。而相比之下声音的分析系统更便宜，也更容易安装。由于基于声音的系统的这些特性，它成为了CSM的可用基础设施。利用声音特征监测和分析施工区域是环境监测系统(ESC)的一个分支。近年来，对基于声音的CSM进行了大量的研究和应用。这些研究证明了基于声音的系统的效率和潜力。此外，基于声音的CSM系统用于协助检测时，从基于监测系统的视频的数据获得的准确性显著不足。

因此，如何实现提高声音分类的准确性和分类精度是使其能够实现实际应用亟待解决的问题。

发明内容

施工现场监测是对施工现场活动进行分析、测量和监控的一项重要任务。为了开发一个自动化施工现场监控模型，有鉴于现有技术的上述缺陷，本发明的目的在于提供一种基于btpnet21的施工环境声音自动分类模型的分类方法，通过自动使用声音去识别和构建车辆分类的模型，以解决上述现有技术存在声音分类的准确性和分类精度不高的问题。

一种基于btpnet21的施工环境声音自动分类模型的分类方法，其特征在于，包括以下步骤：

S1，使用btpnet21中的多层帐篷地图压缩模块压缩数据集中所有csm声音，得到20个压缩信号；

S2，从20个压缩信号和csi声音中创建21个特征向量，定义创建特征向量BTP，并生成768个特性；

S3，使用Chi2选择器选择生成的21个向量中256个与分类标签最相关的特征；

S4，利用带有5倍交叉验证的支持向量机分类器评估所选特征；

S5，使用计算精度对S3中256个特征进行限定；

S6，通过选择5个与分类标签最相关向量设立参数模型；

S7，合并获得的S6所述的5个特征向量，获得最后一个特征向量；

S8，利用INCA选择器选择筛选出与分类标签最相关特征向量；

S9，使用支持向量机分类器计算所选特征向量的最小误分类率，确定分类结果。

优选的，所述S1中多层帐篷地图压缩模型基于路径的压缩函数的路由问题映射函数的表达式为：

MAP(x，t)＝αrr(ind)，arr＝{x₁，x₂，...，x_t-1}，[m_x，ind]＝max(|arr|)

MAP(x，t)是映射分解函数，arr表示长度为t的非重叠数组，x表示使用的输入一维信号，max(|arr|)是一个最大值函数，mx和ind分别是该值的绝对最大值和索引。

优选的，所述S2中，创建特征向量的函数表达式为：

feat¹＝BTP(CSM)

feat^t+1＝BTP(cs^t)，t∈{1，2，...，20}

式中，CSM(construction site monitoring)表示施工现场监测图像，将其作为输入；cs表示压缩信号。

优选的，所述S2中，所述特征向量BTP包括两个内核三元和符号，通过内核定义如下：

式中sgn(q，w)、lt(q，w)和ut(q，w)分别表示符号、下三元和上三元位提取函数，q和w为内核输入参数；SD为标准差计算函数，signal为信号。

优选的，所述S3中，chi2选择器的原理函数表达式为：

id^h＝fscChi2(f^h，y)，h∈{1，2，...，21}

sf^h(i)＝f^h(id^h(i))，i∈{1，2，...，256}

式中，fscChi2(f^h，y)为chi2特征选择函数，id^h为第h个特征向量f^h的限定索引，y为实际标签，sf^h表示长度为256的选定特征。

更优的，在所述S4中，向量机分类器函数表达式为：

Acc(h)＝SVM(sf^h，y)

式中Acc(h)代表计算精度，SVM(sf^h，y)代表支持向量机的分类函数。

优选的，所述S7中，最后一个特征向量为256×5＝1280。

优选的，所述S8中，印加选择器通过选择可变特征向量，使用支持向量分类器对可变特征向量进行评估。

优选的，所述向量机分类器通过贝叶斯优化器调整支持向量机分类器的参数，根据适应度函数以确定最小误分类率。

本发明的有益效果是：

1、本发明提供的基于btpnet21的施工环境声音自动分类模型的分类方法，通过自动使用声音去识别和构建车辆分类的模型，应用于施工现场监测是对施工现场活动进行分析、测量和监控，较好的解决了声音分类的准确性和分类精度不高的问题。

2、本发明提供的基于btpnet21的施工环境声音自动分类模型的分类方法，构建了一种新的声音分类方法模型，其使用一个二元和三元模式，同时使用一个池函数来提取特征，该分类方法模型被命名为btpnet21。该模型使用迭代邻域组分分析选择器去选择最重要的特征，并利用支持向量机作为分类器。

3、本发明通过基于btpnet21对于声音的分类，获得较高的分类精度，且分类准确率高。在一实施例中在收集的声音的连续数据集中准确率分别达到99.45％和99.17％。因此，采用btpnet21模型进行基于声音的建筑地盘自动监测方法的具有一定的实用性；通过应用这种btpnet21模型，使手动设计的特征生成器也得到了有效的应用。

附图说明

图1是本发明实施例基于Btpnet21模型的的分类方法的流程示意图；

图2是本发明实施例采用的压缩信号生成算法示意图。

具体实施方式

下面对本发明的实施例作详细说明，下述的实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

实施例：

参见附图1、2，本发明实施例提供的基于btpnet21的施工环境声音自动分类模型的分类方法，具体是使用Zoom h1录音机用来收集声音记录。两个不同的数据集被用于两个不同的目的。第一个数据集(db1)由10种不同的建筑车辆为cvc目的获得的声音组成。第二个数据集(db2)由六种不同的车辆活动的声音信号记录组成，这些车辆活动是由施工机械为人工智能目的执行的。只保留车辆或者活动声音；已手动删除其他声音(环境噪音，人类交谈声音等)，不包含车辆或活动的声音。此外，没有采用降噪方法去除使用过的声音的噪声。使用的声音(活动/车辆声音)可能包括其他环境声音。由此产生的声音记录被分成大约1-2秒的样本音频信号使用nhc波垫程序。使用的所有声音的文件格式是wav采样频率是48khz。以下是数据集的详细资料。

Db1:该数据集的目的是确定工程车辆的品牌和类型。10种不同的建筑工程车辆品牌和模型(10个类别)被用于数据集。Db1的详细信息见表1：

表1：10种不同的建筑工程车辆声音分类表

Db2:这个数据集包含工程车辆的行为。建筑车辆可在建筑地盘上作不同用途。使用创建的数据集来分析建筑工地上的活动。数据集由6个不同的车辆活动(6类)组成。数据集的详细内容如表2所示：

表2：六种不同的车辆活动的声音信号表

如图1所示，在btpnet21模型中，六种基本的学习技术被一起使用:BTP，多级帐篷映射，chi2选择器，bayesian优化器，印加(inca)选择器通过bayesian优化器精调支持向量机(support vector machine(svm))。

在btpnet21中，映射压缩函数使用五种不同的块大小，使用的块大小在映射框中表示。使用1×2大小的不重叠块映射更新信号，重复4次。将1×3,1×5,1×7,1×11块大小的帐篷映射应用于4种压缩声音，生成1种原声和20种压缩声音。Btp由20个压缩信号和一个原始声音生成功能。首先利用chi2函数选取前256个特征，得到21个长度为256的特征向量。生成这21个向量的错误率，并利用计算出的错误率选择前5个特征向量。合并这些向量，生成一个长度为256×5＝1280的最终向量。印加选择最适当数量的特征，这些特征被提供给微调支持向量机使用贝叶斯优化器。

提出的btpnet21最重要的阶段是特征提取，针对btpnet21的特征提取模型具有压缩、特征提取、特征选择和错误率计算步骤等特点，在btpnet21中引入了一种有效的ml方法作为特征提取器。这个阶段既生成特征，又应用给定的步骤选择最合适的特征向量。

当项目经理需要知道在施工现场所做的工作是什么，即本实施例基于btpnet21的施工环境声音自动分类模型的分类方法，具体采用的步骤如下：

S1，使用btpnet21中的多层帐篷地图压缩模块压缩数据集中所有csm声音，得到20个压缩信号；利用映射来解决基于路径的压缩函数的路由问题，并给出了映射函数的表达式：

MAP(x，t)＝arr(ind)，arr＝{x₁，x₂，...，x_t-1}，[mx，ind]＝max(|arr|)

其中可以使用大小不等的重叠块。这项研究使用2，3，5，7和11个大小的非重叠块，块的使用长度是一个质数。

请参见图2，基于映射的压缩信号生成算法图2，(此算法伪代码的子带创建使用多级多重池)在本实施例中用素数来避免重现同样的压缩信号。

其中创建特征向量的函数表达式为：

feat¹＝BTP(CSM)

feat^t+1＝BTP(cs^t)，t∈{1，2，...，20}

BTP是一个混合模型，它是lbp和ltp特征提取器的组合。BTP的主要目的是同时利用lbp和ltp的有效性。它是一个本地特征生成器，它使用两个内核生成特征。这些内核的名称分别是三元和符号。通过应用这些内核，一个9个大小的重叠块生成24位。

(lbp指局部二值模式，即Local Binary Patterns。最初功能为辅助图像局部对比度，后来提升为一种有效的纹理描述算子，度量和提取图像局部的纹理信息，对光照具有不变性。该描述方法还用于质量检测，人脸图像分析等领域，取得了很好的效果。)

(ltp这是一个义项。其一是指给突触前纤维一个短暂的高频刺激后，突触传递效率和强度增加几倍且能持续数小时至几天保持这种增强的现象。其二是指LTP(Linux TestProject)是一个由SGI发起并由IBM负责维护的合作计划。其三是Long-term planning，在sap系统中的一个模块，即长期计划)

特征向量BTP还包括两个内核三元和符号，通过内核定义如下：

S3，使用Chi2选择器选择生成的21个向量中256个与标签最相关的特征；其中chi2选择器其原理函数表达式为：

id^h＝fscChi2(f^h，y)，h∈{1，2，...，21}

sf^h(i)＝f^h(id^h(i))，i∈{1，2，...，256}

向量机分类器函数表达式为：

Acc(h)＝SVM(sf^h，y)

S5，使用计算精度对S3中256个特征进行限定；

S6，通过选择5个最具代表性的向量设立参数模型；在这个模型中，前五个特征向量被选中。可以选择可变数目的特征向量来创建特征，以解决其他信号处理问题。

S7，合并获得的S6所述的5个特征向量，获得最后一个特征向量；最后一个特征向量长度为256×5＝1280。

S8，利用INCA选择器选择筛选出最接近的特征向量；INCA选择器是nca特性选择器的一个参数化和改进版本。印加目标是以选择最佳的特征向量没有使用试错模型。在印加选择器中，选择可变特征向量，并使用支持向量分类器对这些向量进行评估。在本实施例中特征数字范围从40到300。因此，261个特征向量被评估在使用的印加。在本实施例中对于db1和db2，按(INCA)计算的选定特性的长度分别为130和198。

S9，使用支持向量机分类器计算所选特征向量的最小误分类率，确定分类结果；在这一步中，利用贝叶斯优化器调整支持向量机分类器的参数。在本实施例中，选择贝叶斯优化器的最大迭代次数为30，并根据适应度函数以确定最小误分类率。表3给出了调优后的支持向量机分类器的属性。

表3：向量机分类器属性表

本发明重点是通过基于btpnet21模型对于声音的分类，获得较高的分类精度，且分类准确率高；通过应用这种模型，使手动设计的特征生成器得到了有效的应用。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的试验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种基于btpnet21的施工环境声音自动分类模型的分类方法，其特征在于，包括以下步骤：

创建特征向量的函数表达式为：

feat¹＝BTP(CSM)

feat^t+1＝BTP(cs^t)

其中，t∈1，2，....20；所述CSM表示施工现场监测图像，将其作为输入；cs表示压缩信号；所述特征向量包括两个内核三元和符号，通过内核定义如下：

式中，sgn(q，w)、lt(q，w)和ut(q，w)分别表示符号、下三元和上三元位提取函数，q和w为内核输入参数，SD为标准差计算函数，signal为信号；

S3，使用Chi2选择器选择生成的21个向量中256个与分类标签最相关的特征；chi2选择器的原理函数表达式为：

id^h＝fscChi2(f^h，y)，h∈1，2，...，21；

sf^h(i)＝f^h(id^h(i))，i∈1，2，...，256；

式中，fscChi2(f^h，y)为chi2特征选择函数，id^h为第h个特征向量f^h的限定索引，y为实际标签，sf^h表示长度为256的选定特征；

S4，利用带有5倍交叉验证的支持向量机分类器评估所选特征；向量机分类器函数表达式为：

Acc(h)＝SVM(sf^h，y),式中Acc(h)代表计算精度，SVM(sf^h，y)代表支持向量机的分类函数；

S5，使用计算精度对S3中256个特征进行限定；

S6，通过选择5个与分类标签最相关向量设立参数模型；

S7，合并获得的所述S6中的5个与分类标签最相关向量，获得最后一个特征向量；

S8，利用INCA选择器选择筛选出与分类标签最相关特征向量；

2.根据权利要求1所述的基于btpnet21的施工环境声音自动分类模型的分类方法，其特征在于，

所述S1中，多层帐篷地图压缩模型基于路径的压缩函数的路由问题映射函数的表达式为：

MAP(x，t)＝arr(ind)，arr＝{x₁，x₂，...，x_t-1}，[m_x，ind]＝max(|arr|)

式中，MAP(x，t)是映射分解函数，arr表示长度为t的非重叠数组，x表示使用的输入一维信号，max(|arr|)是一个最大值函数，m_x和ind分别是max(|arr|)的绝对最大值和索引。

3.根据权利要求1所述的基于btpnet21的施工环境声音自动分类模型的分类方法，其特征在于，所述S7中，最后一个特征向量为256×5＝1280。

4.根据权利要求1所述的基于btpnet21的施工环境声音自动分类模型的分类方法，其特征在于，所述S8中，印加选择器通过选择可变特征向量，使用支持向量分类器对可变特征向量进行评估。

5.根据权利要求1所述的基于btpnet21的施工环境声音自动分类模型的分类方法，其特征在于，所述向量机分类器通过贝叶斯优化器调整支持向量机分类器的参数，根据适应度函数以确定最小误分类率，选取最小值所属类别作为分类结果。