CN116705059A - 一种音频半监督自动聚类方法、装置、设备及介质 - Google Patents
一种音频半监督自动聚类方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN116705059A CN116705059A CN202310987930.XA CN202310987930A CN116705059A CN 116705059 A CN116705059 A CN 116705059A CN 202310987930 A CN202310987930 A CN 202310987930A CN 116705059 A CN116705059 A CN 116705059A
- Authority
- CN
- China
- Prior art keywords
- clustering
- audio
- feature
- dimension
- embedded
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 230000007613 environmental effect Effects 0.000 claims abstract description 71
- 230000000007 visual effect Effects 0.000 claims abstract description 31
- 230000003595 spectral effect Effects 0.000 claims abstract description 19
- 238000003064 k means clustering Methods 0.000 claims abstract description 14
- 238000001228 spectrum Methods 0.000 claims description 45
- 239000011159 matrix material Substances 0.000 claims description 28
- 238000012545 processing Methods 0.000 claims description 28
- 230000009467 reduction Effects 0.000 claims description 24
- 238000004590 computer program Methods 0.000 claims description 22
- 238000011176 pooling Methods 0.000 claims description 17
- 230000010354 integration Effects 0.000 claims description 15
- 238000013136 deep learning model Methods 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 7
- 238000000513 principal component analysis Methods 0.000 claims description 5
- 238000012935 Averaging Methods 0.000 claims description 4
- 238000011156 evaluation Methods 0.000 claims description 4
- 238000011423 initialization method Methods 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 4
- 238000005096 rolling process Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 3
- 238000012549 training Methods 0.000 abstract description 7
- 230000000694 effects Effects 0.000 abstract description 6
- 238000012544 monitoring process Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
- G06F18/21355—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis nonlinear criteria, e.g. embedding a manifold in a Euclidean space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2323—Non-hierarchical techniques based on graph theory, e.g. minimum spanning trees [MST] or graph cuts
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0895—Weakly supervised learning, e.g. semi-supervised or self-supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2123/00—Data types
- G06F2123/02—Data types in the time domain, e.g. time-series data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
- G06F2218/08—Feature extraction
- G06F2218/10—Feature extraction by analysing the shape of a waveform, e.g. extracting parameters relating to peaks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
- G06F2218/12—Classification; Matching
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Evolutionary Biology (AREA)
- Computing Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Discrete Mathematics (AREA)
- Medical Informatics (AREA)
- Probability & Statistics with Applications (AREA)
- Complex Calculations (AREA)
Abstract
本发明提供了一种音频半监督自动聚类方法、装置、设备及介质,包括:逐秒分割工业设备环境音频,并提取出2维梅尔标度的谱图;分别通过在AudioSet预训练的视觉自注意力模型和基于原始波形的1D卷积网络提取两组嵌入特征;将两组嵌入特征通过TSNE分别降维至2维,在2维特征空间,采用谱聚类、K‑means聚类和OPTICS聚类三种方式生成九组候选聚类结果;基于聚类相似度实现九组候选聚类结果的集成。本发明在面对未见的类别场景时,能够通过预训练模型生成具有代表性和区分度的特征,实现未知场景音频的自动聚类,提高聚类效果的鲁棒性。
Description
技术领域
本发明涉及工业设备环境音频处理技术领域,具体涉及一种音频半监督自动聚类方法、装置、设备及介质。
背景技术
当前在工业设备监测领域中,对工业设备环境音频的自动聚类和分类的技术具有重要意义。然而,现有的工业设备环境音频聚类存在一些局限性,例如,对于复杂的环境音频的识别效果不佳,以及在未知场景下的适应性有限,导致对设备环境音频的监测和分析的效率和准确性不高。
有鉴于此,提出本申请。
发明内容
有鉴于此,本发明的目的在于提供一种音频半监督自动聚类方法、装置、设备及介质,能够有效解决现有技术中的工业设备环境音频聚类存在一些局限性,例如,对于复杂的环境音频的识别效果不佳,以及在未知场景下的适应性有限,导致对设备环境音频的监测和分析的效率和准确性不高的问题。
本发明公开了一种音频半监督自动聚类方法, 包括:
获取工业设备的环境音频,并提取所述环境音频的梅尔频谱特征图像;
采用视觉自注意力模型和1D卷积模型,分别对所述梅尔频谱特征图像和所述环境音频的原始波形进行提取处理,生成第一嵌入特征和第二嵌入特征;
采用TSNE算法对所述第一嵌入特征和所述第二嵌入特征进行降维处理,将所述第一嵌入特征的维度和所述第二嵌入特征的维度降至二维,并在二维特征空间,采用谱聚类、K-means聚类和OPTICS聚类三种方式对降维后的所述第一嵌入特征和所述第二嵌入特征进行处理,生成九组候选聚类结果;
计算所述九组候选聚类结果的聚类相似度矩阵,并基于其轮廓系数确定类簇数,生成所述九组候选聚类结果的集成。
优选地,获取工业设备的环境音频,并提取所述环境音频的梅尔频谱特征图像,具体为:
获取工业设备的环境音频,采用预设时间间隔分割所述环境音频,其中,所述预设时间间隔为1秒;
利用梅尔频谱从分割后的一维的所述环境音频中提取二维梅尔标度的谱图,生成所述环境音频的逐秒的梅尔频谱特征图像,其中,提取过程的参数为:傅里叶变化数量为1024,跳跃 长度为320,窗口长度为1024,窗口类型为汉宁,梅尔滤波器个数为64。
优选地,采用视觉自注意力模型和1D卷积模型,分别对所述梅尔频谱特征图像和所述环境音频的原始波形进行提取处理,生成第一嵌入特征和第二嵌入特征,具体为:
调用训练好的基于视觉自注意力模块搭建的深度学习模型,对所述梅尔频谱特征图像进行提取,生成768维的第一嵌入特征,其中,在audio-set数据集上对基于视觉自注意力模块搭建的深度学习模型进行预训练;
调用训练好的基于1D卷积的学习模型,对所述环境音频的原始波形进行提取,生成512维的第二嵌入特征,其中,在ESC-50数据集上对基于1D卷积的学习模型进行预训练。
优选地,调用训练好的基于视觉自注意力模块搭建的深度学习模型,对所述梅尔频谱特征图像进行提取,生成768维的第一嵌入特征,具体为:
对所述梅尔频谱特征图像进行划分窗口处理,在其每一个划分后的窗口内以时间帧、频率维度为标准,划分子块,生成子块 嵌入;
以基于移动窗口的视觉自注意力模型层级结构为基础架构,叠加四层 自注意力模型结构,每一层叠加的自注意力模型结构通过子块合并来压缩序列长度,将所述梅尔频谱特征图像的时间帧和频率维度的长度压缩至原来的1/8;
通过2D CNN将所述梅尔频谱特征图像的深度映射为类别数,生成逐帧的类别概率,并在时间帧和频率维度做平均值池化处理,以实现类别预测;
在Audio-set数据集上使用AdamW 优化器,采用热启动策略对基于视觉自注意力模块搭建的深度学习模型进行预训练,其中,批处理大小为32。
优选地,调用训练好的基于1D卷积的学习模型,对所述环境音频的原始波形进行提取,生成512维的第二嵌入特征,具体为:
通过两个1D的空洞卷积和池化层逐帧提取所述环境音频的底层的工业设备环境音频特征;
将所述底层的工业设备环境音频特征的维度从第一维度转为第二维度,再通过10个二维卷积提取高层的工业设备环境音频特征,并将每两个卷积层后通过一个最大值池化层扩大感受野,其中,所述第一维度包括通道、频率和时间,所述第二维度包括通道、频率和时间;
通过平均值池化层和全连接层将特征映射为类别数。
优选地,采用TSNE算法对所述第一嵌入特征和所述第二嵌入特征进行降维处理,将所述第一嵌入特征的维度和所述第二嵌入特征的维度降至二维,并在二维特征空间,采用谱聚类、K-means聚类和OPTICS聚类三种方式对降维后的所述第一嵌入特征和所述第二嵌入特征进行处理,生成九组候选聚类结果,具体为:
采用TSNE降维算法,基于主成分分析的初始化方法对所述第一嵌入特征、所述第二嵌入特征、以及所述第一嵌入特征和所述第二嵌入特征的结合特征进行处理,生成降维后的三组维度为2的特征;
采用k-means聚类、谱聚类、和OPTICS聚类算法对三组降维后特征进行处理,生成九组候选聚类结果。
优选地,计算所述九组候选聚类结果的聚类相似度矩阵,并基于其轮廓系数确定类簇数,生成所述九组候选聚类结果的集成,具体为:
计算所述九组候选聚类结果中每一组聚类结果的相似度矩阵,且在二维矩阵中,属于同一类簇的矩阵值为1,其他值为0;
将多个聚类结果的相似度矩阵求平均,再通过谱聚类算法拟合该矩阵,生成多组聚类结果的集成;
通过无监督的聚类评价指标轮廓系数,从所述多组聚类结果的集成中选择最优聚类结果和最优的类簇数,以实现未知场景工业设备环境音频的自动聚类。
本发明还公开了一种音频半监督自动聚类装置,包括:
环境音频梅尔频谱特征获取单元,用于获取工业设备的环境音频,并提取所述环境音频的梅尔频谱特征图像;
工业设备环境音频嵌入提取单元,用于采用视觉自注意力模型和1D卷积模型,分别对所述梅尔频谱特征图像和所述环境音频的原始波形进行提取处理,生成第一嵌入特征和第二嵌入特征;
候选聚类簇生成单元,用于采用TSNE算法对所述第一嵌入特征和所述第二嵌入特征进行降维处理,将所述第一嵌入特征的维度和所述第二嵌入特征的维度降至二维,并在二维特征空间,采用谱聚类、K-means聚类和OPTICS聚类三种方式对降维后的所述第一嵌入特征和所述第二嵌入特征进行处理,生成九组候选聚类结果;
集成聚类算法单元,用于计算所述九组候选聚类结果的聚类相似度矩阵,并基于其轮廓系数确定类簇数,生成所述九组候选聚类结果的集成。
本发明还公开了一种音频半监督自动聚类设备,包括处理器、存储器以及存储在所述存储器中且被配置由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上任意一项所述的一种音频半监督自动聚类方法。
本发明还公开了一种可读存储介质,存储有计算机程序,所述计算机程序能够被该存储介质所在设备的处理器执行,以实现如上任意一项所述的一种音频半监督自动聚类方法。
综上所述,本实施例提供的一种音频半监督自动聚类方法、装置、设备及介质,对于未见的类别场景,能够通过mel谱和原始波形两种预训练模型生成具有代表性和区分度的特征,结合集成聚类方法,实现对未知场景音频的自动聚类,具有更高的鲁棒性。从而解决现有技术中的工业设备环境音频聚类存在一些局限性,例如,对于复杂的环境音频的识别效果不佳,以及在未知场景下的适应性有限,导致对设备环境音频的监测和分析的效率和准确性不高的问题。
附图说明
图1是本发明第一方面提供的一种音频半监督自动聚类方法的流程示意图。
图2是本发明第二方面提供的一种音频半监督自动聚类方法的流程示意图。
图3是本发明实施例提供的一种音频半监督自动聚类装置的结构示意图。
具体实施方式
为使本发明实施方式的目的、技术方案和优点更加清楚,下面将结合本发明实施方式中的附图,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。因此,以下对在附图中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
以下结合附图对本发明的具体实施例做详细说明。
本发明公开了一种音频半监督自动聚类方法、装置、设备及介质,至少在一定程度上解决了现有技术的不足。
请参阅图1至图2,本发明的第一实施例提供了一种音频半监督自动聚类方法,其可由音频半监督自动聚类设备(以下简称聚类设备)来执行,特别的,由聚类设备内的一个或者多个处理器来执行,以实现如下步骤:
S101,获取工业设备的环境音频,并提取所述环境音频的梅尔频谱特征图像;
具体地,步骤S101包括:获取工业设备的环境音频,采用预设时间间隔分割所述环境音频,其中,所述预设时间间隔为1秒;
利用梅尔频谱梅尔频谱从分割后的一维的所述环境音频中提取二维mel标度的谱图,生成所述环境音频的逐秒的梅尔频谱特征图像,其中,提取过程的参数为:傅里叶变化数量为1024,跳跃 长度为320,窗口长度为1024,窗口类型为汉宁,mel滤波器个数为64。
在本实施例中,所述聚类设备可为用户终端设备(如智能手机、智能电脑或者其他智能设备),该用户终端设备可与云端的网关建立通讯连接,以实现数据的交互。
当前在工业设备监测领域中,对工业设备环境音频的自动聚类和分类的技术具有重要意义。然而,现有的工业设备环境音频聚类存在一些局限性,例如,对于复杂的环境音频的识别效果不佳,以及在未知场景下的适应性有限,导致对设备环境音频的监测和分析的效率和准确性不高。
具体地,在本实施例中,对于工业设备环境音频,采用1s间隔分割音频,能够在保留音频特征的同时,细化聚类结果;利用梅尔频谱从1维的音频信号中提取2维mel标度的谱图,从而支持视觉自注意力。即,针对工业设备环境音频数据,采用1秒的时间间隔对音频进行分割,以细化聚类结果。然后从音频的一维信号中提取出2维mel标度的谱图。具体参数如下:傅里叶变化数量为1024,跳跃长度为320,窗口长度为1024,窗口类型为汉宁,梅尔滤波器个数为64。其中,梅尔标度谱图是通过语谱图与若干个梅尔滤波器点乘得到,y轴转换为对数刻度,像素值转换为分贝,能够强化对高频段变化的敏感性。
S102,采用视觉自注意力模型和1D卷积模型,分别对所述梅尔频谱特征图像和所述环境音频的原始波形进行提取处理,生成第一嵌入特征和第二嵌入特征;
具体地,步骤S102包括:调用训练好的基于视觉自注意力模块搭建的深度学习模型,对所述梅尔频谱特征图像进行提取,生成768维的第一嵌入特征,其中,在audio-set数据集上对基于视觉自注意力模块搭建的深度学习模型进行预训练;
调用训练好的基于1D卷积的学习模型,对所述环境音频的原始波形进行提取,生成512维的第二嵌入特征,其中,在ESC-50数据集上对基于1D卷积的学习模型进行预训练。
对所述梅尔频谱特征图像进行划分窗口处理,在其每一个划分后的窗口内以时间帧、频率维度为标准,划分子块,生成子块嵌入;
以基于移动窗口的视觉自注意力模型层级结构为基础架构,叠加四层 自注意力模型结构,每一层叠加的自注意力模型结构通过子块合并来压缩序列长度,将所述梅尔频谱特征图像的时间帧和频率维度的长度压缩至原来的1/8;
通过2D CNN将所述梅尔频谱特征图像的深度映射为类别数,生成逐帧的类别概率,并在时间帧和频率维度做平均值池化处理,以实现类别预测;
在Audio-set数据集上使用AdamW 优化器,采用热启动策略对基于视觉自注意力模块搭建的深度学习模型进行预训练,其中,批处理大小为32。
通过两个1D的空洞卷积和池化层逐帧提取所述环境音频的底层的工业设备环境音频特征;
将所述底层的工业设备环境音频特征的维度从第一维度转为第二维度,再通过10个二维卷积提取高层的工业设备环境音频特征,并将每两个卷积层后通过一个最大值池化层扩大感受野,其中,所述第一维度包括通道、频率和时间,所述第二维度包括通道、频率和时间;
通过平均值池化层和全连接层将特征映射为类别数。
具体地,在本实施例中,工业设备环境音频嵌入提取,采用视觉自注意力和1D卷积两种不同的模型,分别基于梅尔频谱图像和原始波形提取两组嵌入特征。
首先,基于视觉自注意力的嵌入特征提取:在audio-set数据集上预训练基于视觉自注意力模块搭建的深度学习模型,在工业设备环境音频数据上提取768维的嵌入特征。在audio-set数据集上预训练基于视觉自注意力模块搭建的深度学习模型,在工业设备环境音频数据上提取768维的嵌入特征;视觉自注意力将二维图片分为多个子块,再将每个子块进行子块 嵌入和位置编码,最后通过多头注意力机制学习子块间的特征。
所述的基于视觉自注意力的嵌入特征提取具体为:在梅尔频谱的时间帧维度划分窗口,在每一个窗口内以时间帧、频率维度划分子块,实现子块 嵌入,梅尔频谱的维度为(1024,64),子块大小为4*4,子块窗口长度为256。以基于移动窗口的视觉自注意力模型为基础架构,叠加四层 自注意力模型结构,每个自注意力模型后通过子块合并来压缩序列长度,将时间帧和频率维度的长度压缩至原来的1/8,自注意力模型中注意力窗口大小为8*8,四层自注意力模型结构中,每层的自注意力模块数量分别为2,4,4,2。通过2D CNN将深度映射为类别数,在时间帧和频率维度做平均值池化,实现类别预测。在Audio-set数据集上使用AdamW 优化器进行训练,批处理大小为32,采用热启动策略进行预训练,热启动学习率为0.05,0.1,0.2。
其次,基于1D卷积的嵌入特征提取:在ESC-50数据集上预训练基于1D卷积的学习模型,在工业设备环境音频数据上提取512维的嵌入特征。在ESC-50数据集上预训练基于1D卷积的学习模型,在工业设备环境音频数据上提取512维的嵌入特征。通过两个1D的空洞卷积和池化层逐帧提取底层的工业设备环境音频特征;其中,池化层的核大小根据输入音频长度,采样率决定,本例中,音频长度为1s,采样率为36000。将特征的维度从(通道,频率,时间)转为(频率,通道,时间),再通过10个二维卷积提取高层的工业设备环境音频特征,每两个卷积层后通过一个最大值池化层扩大感受野;其中卷积核的大小均为3*3,步长均为1*1。最后通过平均值池化层和全连接层将特征映射为类别数。
S103,采用TSNE算法对所述第一嵌入特征和所述第二嵌入特征进行降维处理,将所述第一嵌入特征的维度和所述第二嵌入特征的维度降至二维,并在二维特征空间,采用谱聚类、K-means聚类和OPTICS聚类三种方式对降维后的所述第一嵌入特征和所述第二嵌入特征进行处理,生成九组候选聚类结果;
具体地,步骤S103包括:采用TSNE降维算法,基于主成分分析的初始化方法对所述第一嵌入特征、所述第二嵌入特征、以及所述第一嵌入特征和所述第二嵌入特征的结合特征进行处理,生成降维后的三组维度为2的特征;
采用k-means聚类、谱聚类、和OPTICS聚类算法对三组降维后特征进行处理,生成九组候选聚类结果。
具体地,在本实施例中,候选聚类簇生成,采用TSNE分别将两组嵌入特征降至2维,在二维特征空间,采用谱聚类、K-means聚类和OPTICS聚类三种方式生成九组候选聚类结果。分别基于768维、512维和两组结合的特征,采用TSNE降维算法,基于主成分分析的初始化方法,得到降维后的三组维度为2的特征;基于三组降维后特征,采用k-means聚类、谱聚类、和OPTICS聚类算法生成九组候选聚类结果。进一步的,TSNE算法中初始化方式为主成分分析;进一步的,k-means聚类、谱聚类的类簇数通过从2-6迭代,基于轮廓系数最优判断确定。
S104,计算所述九组候选聚类结果的聚类相似度矩阵,并基于其轮廓系数确定类簇数,生成所述九组候选聚类结果的集成。
具体地,步骤S104包括:计算所述九组候选聚类结果中每一组聚类结果的相似度矩阵,且在二维矩阵中,属于同一类簇的矩阵值为1,其他值为0;
将多个聚类结果的相似度矩阵求平均,再通过谱聚类算法拟合该矩阵,生成多组聚类结果的集成;
通过无监督的聚类评价指标轮廓系数,从所述多组聚类结果的集成中选择最优聚类结果和最优的类簇数,以实现未知场景工业设备环境音频的自动聚类。
具体地,在本实施例中,成聚类算法,计算聚类相似度矩阵,基于轮廓系数确定类簇数,实现九组候选聚类结果的集成。计算每组聚类结果的相似度矩阵,二维矩阵中,属于同一类簇的矩阵值为1,其他值为0;将多个聚类结果的相似度矩阵求平均,再通过谱聚类算法拟合该矩阵,实现多组聚类结果的集成。通过无监督的聚类评价指标轮廓系数选择最优聚类结果和最优的类簇数,实现未知场景工业设备环境音频的自动聚类。其中,轮廓系数结合了内聚合度和分离度两种因素来评价聚类算法,通过样本到类内其他样本的平均距离与其到类外所有样本的平均距离得到。
综上,所述音频半监督自动聚类方法能够有效地处理工业设备环境音频数据,并实现自动聚类,以提高监测和分析的效率和准确性;其对于未见的类别场景,能够通过梅尔谱和原始波形两种预训练模型生成具有代表性和区分度的特征,结合集成聚类方法,实现对未知场景音频的自动聚类,具有更高的鲁棒性。这种深度集成学习的方法能够提高工业设备环境音频聚类的准确性和效率,为工业监测和分析提供了有力支持,具有广泛的应用前景,并且在工业设备维护、故障检测和工业监测等领域具有重要的实际应用价值。简单来说,所述音频半监督自动聚类方法在面对未见的类别场景时,能够通过预训练模型生成具有代表性和区分度的特征,实现未知场景音频的自动聚类,提高聚类效果的鲁棒性。
请参阅图3,本发明的第二实施例提供了一种音频半监督自动聚类装置,包括:
环境音频梅尔频谱特征获取单元201,用于获取工业设备的环境音频,并提取所述环境音频的梅尔频谱特征图像;
工业设备环境音频嵌入提取单元202,用于采用视觉自注意力模型和1D卷积模型,分别对所述梅尔频谱特征图像和所述环境音频的原始波形进行提取处理,生成第一嵌入特征和第二嵌入特征;
候选聚类簇生成单元203,用于采用TSNE算法对所述第一嵌入特征和所述第二嵌入特征进行降维处理,将所述第一嵌入特征的维度和所述第二嵌入特征的维度降至二维,并在二维特征空间,采用谱聚类、K-means聚类和OPTICS聚类三种方式对降维后的所述第一嵌入特征和所述第二嵌入特征进行处理,生成九组候选聚类结果;
集成聚类算法单元204,用于计算所述九组候选聚类结果的聚类相似度矩阵,并基于其轮廓系数确定类簇数,生成所述九组候选聚类结果的集成。
本发明的第三实施例提供了一种音频半监督自动聚类设备,包括处理器、存储器以及存储在所述存储器中且被配置由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上任意一项所述的一种音频半监督自动聚类方法。
本发明的第四实施例提供了一种可读存储介质,存储有计算机程序,所述计算机程序能够被该存储介质所在设备的处理器执行,以实现如上任意一项所述的一种音频半监督自动聚类方法。
示例性地,本发明第三实施例和第四实施例中所述的计算机程序可以被分割成一个或多个模块,所述一个或者多个模块被存储在所述存储器中,并由所述处理器执行,以完成本发明。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述实现一种音频半监督自动聚类设备中的执行过程。例如,本发明第二实施例中所述的装置。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列 (Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述一种音频半监督自动聚类方法的控制中心,利用各种接口和线路连接整个所述实现对一种音频半监督自动聚类方法的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现一种音频半监督自动聚类方法的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、文字转换功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、文字消息数据等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘、智能存储卡(Smart Media Card, SMC)、安全数字(SecureDigital, SD)卡、闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
其中,所述实现的模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一个计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本发明提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。
Claims (10)
1.一种音频半监督自动聚类方法, 其特征在于,包括:
获取工业设备的环境音频,并提取所述环境音频的梅尔频谱特征图像;
采用视觉自注意力模型和1D卷积模型,分别对所述梅尔频谱特征图像和所述环境音频的原始波形进行提取处理,生成第一嵌入特征和第二嵌入特征;
采用TSNE算法对所述第一嵌入特征和所述第二嵌入特征进行降维处理,将所述第一嵌入特征的维度和所述第二嵌入特征的维度降至二维,并在二维特征空间,采用谱聚类、K-means聚类和OPTICS聚类三种方式对降维后的所述第一嵌入特征和所述第二嵌入特征进行处理,生成九组候选聚类结果;
计算所述九组候选聚类结果的聚类相似度矩阵,并基于其轮廓系数确定类簇数,生成所述九组候选聚类结果的集成。
2.根据权利要求1所述的一种音频半监督自动聚类方法,其特征在于,获取工业设备的环境音频,并提取所述环境音频的梅尔频谱特征图像,具体为:
获取工业设备的环境音频,采用预设时间间隔分割所述环境音频,其中,所述预设时间间隔为1秒;
利用梅尔频谱梅尔频谱从分割后的一维的所述环境音频中提取二维mel标度的谱图,生成所述环境音频的逐秒的梅尔频谱特征图像,其中,提取过程的参数为:傅里叶变化数量为1024,跳跃 长度为320,窗口长度为1024,窗口类型为汉宁窗,梅尔滤波器个数为64。
3.根据权利要求1所述的一种音频半监督自动聚类方法,其特征在于,采用视觉自注意力模型和1D卷积模型,分别对所述梅尔频谱特征图像和所述环境音频的原始波形进行提取处理,生成第一嵌入特征和第二嵌入特征,具体为:
调用训练好的基于视觉自注意力模块搭建的深度学习模型,对所述梅尔频谱特征图像进行提取,生成768维的第一嵌入特征,其中,在audio-set数据集上对基于视觉自注意力模块搭建的深度学习模型进行预训练;
调用训练好的基于1D卷积的学习模型,对所述环境音频的原始波形进行提取,生成512维的第二嵌入特征,其中,在ESC-50数据集上对基于1D卷积的学习模型进行预训练。
4.根据权利要求3所述的一种音频半监督自动聚类方法,其特征在于,调用训练好的基于视觉自注意力模块搭建的深度学习模型,对所述梅尔频谱特征图像进行提取,生成768维的第一嵌入特征,具体为:
对所述梅尔频谱特征图像进行划分窗口处理,在其每一个划分后的窗口内以时间帧、频率维度为标准,划分子块,生成子块 嵌入;
以基于移动窗口的视觉自注意力模型层级结构为基础架构,叠加四层 自注意力结构,每一层叠加的自注意力结构通过子块合并来压缩序列长度,将所述梅尔频谱特征图像的时间帧和频率维度的长度压缩至原来的1/8;
通过2D CNN将所述梅尔频谱特征图像的深度映射为类别数,生成逐帧的类别概率,并在时间帧和频率维度做平均值池化处理,以实现类别预测;
在Audio-set数据集上使用AdamW 优化器,采用热启动策略对基于视觉自注意力模块搭建的深度学习模型进行预训练,其中,批处理大小为32。
5.根据权利要求3所述的一种音频半监督自动聚类方法,其特征在于,调用训练好的基于1D卷积的学习模型,对所述环境音频的原始波形进行提取,生成512维的第二嵌入特征,具体为:
通过两个1D的空洞卷积和池化层逐帧提取所述环境音频的底层的工业设备环境音频特征;
将所述底层的工业设备环境音频特征的维度从第一维度转为第二维度,再通过10个二维卷积提取高层的工业设备环境音频特征,并将每两个卷积层后通过一个最大值池化层扩大感受野,其中,所述第一维度包括通道、频率和时间,所述第二维度包括通道、频率和时间;
通过平均值池化层和全连接层将特征映射为类别数。
6.根据权利要求1所述的一种音频半监督自动聚类方法,其特征在于,采用TSNE算法对所述第一嵌入特征和所述第二嵌入特征进行降维处理,将所述第一嵌入特征的维度和所述第二嵌入特征的维度降至二维,并在二维特征空间,采用谱聚类、K-means聚类和OPTICS聚类三种方式对降维后的所述第一嵌入特征和所述第二嵌入特征进行处理,生成九组候选聚类结果,具体为:
采用TSNE降维算法,基于主成分分析的初始化方法对所述第一嵌入特征、所述第二嵌入特征、以及所述第一嵌入特征和所述第二嵌入特征的结合特征进行处理,生成降维后的三组维度为2的特征;
采用k-means聚类、谱聚类、和OPTICS聚类算法对三组降维后特征进行处理,生成九组候选聚类结果。
7.根据权利要求1所述的一种音频半监督自动聚类方法,其特征在于,计算所述九组候选聚类结果的聚类相似度矩阵,并基于其轮廓系数确定类簇数,生成所述九组候选聚类结果的集成,具体为:
计算所述九组候选聚类结果中每一组聚类结果的相似度矩阵,且在二维矩阵中,属于同一类簇的矩阵值为1,其他值为0;
将多个聚类结果的相似度矩阵求平均,再通过谱聚类算法拟合该矩阵,生成多组聚类结果的集成;
通过无监督的聚类评价指标轮廓系数,从所述多组聚类结果的集成中选择最优聚类结果和最优的类簇数,以实现未知场景工业设备环境音频的自动聚类。
8.一种音频半监督自动聚类装置,其特征在于,包括:
环境音频梅尔频谱特征获取单元,用于获取工业设备的环境音频,并提取所述环境音频的梅尔频谱特征图像;
工业设备环境音频嵌入提取单元,用于采用视觉自注意力模型和1D卷积模型,分别对所述梅尔频谱特征图像和所述环境音频的原始波形进行提取处理,生成第一嵌入特征和第二嵌入特征;
候选聚类簇生成单元,用于采用TSNE算法对所述第一嵌入特征和所述第二嵌入特征进行降维处理,将所述第一嵌入特征的维度和所述第二嵌入特征的维度降至二维,并在二维特征空间,采用谱聚类、K-means聚类和OPTICS聚类三种方式对降维后的所述第一嵌入特征和所述第二嵌入特征进行处理,生成九组候选聚类结果;
集成聚类算法单元,用于计算所述九组候选聚类结果的聚类相似度矩阵,并基于其轮廓系数确定类簇数,生成所述九组候选聚类结果的集成。
9.一种音频半监督自动聚类设备,其特征在于,包括处理器、存储器以及存储在所述存储器中且被配置由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7任意一项所述的一种音频半监督自动聚类方法。
10.一种可读存储介质,其特征在于,存储有计算机程序,所述计算机程序能够被该存储介质所在设备的处理器执行,以实现如权利要求1至7任意一项所述的一种音频半监督自动聚类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310987930.XA CN116705059B (zh) | 2023-08-08 | 2023-08-08 | 一种音频半监督自动聚类方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310987930.XA CN116705059B (zh) | 2023-08-08 | 2023-08-08 | 一种音频半监督自动聚类方法、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116705059A true CN116705059A (zh) | 2023-09-05 |
CN116705059B CN116705059B (zh) | 2023-11-10 |
Family
ID=87841873
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310987930.XA Active CN116705059B (zh) | 2023-08-08 | 2023-08-08 | 一种音频半监督自动聚类方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116705059B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117636900A (zh) * | 2023-12-04 | 2024-03-01 | 广东新裕信息科技有限公司 | 一种基于音频特征形状匹配的乐器演奏质量评价方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160283185A1 (en) * | 2015-03-27 | 2016-09-29 | Sri International | Semi-supervised speaker diarization |
US20190122651A1 (en) * | 2017-10-19 | 2019-04-25 | Baidu Usa Llc | Systems and methods for neural text-to-speech using convolutional sequence learning |
CN111222585A (zh) * | 2020-01-15 | 2020-06-02 | 深圳前海微众银行股份有限公司 | 数据处理方法、装置、设备及介质 |
CN113643723A (zh) * | 2021-06-29 | 2021-11-12 | 重庆邮电大学 | 一种基于注意力CNN Bi-GRU融合视觉信息的语音情感识别方法 |
CN116226732A (zh) * | 2022-12-29 | 2023-06-06 | 国电南瑞科技股份有限公司 | 一种电动公交车充电负荷曲线分类方法及系统 |
CN116230019A (zh) * | 2022-11-17 | 2023-06-06 | 湖南大学 | 一种基于半监督语音情感识别框架的深度情感聚类方法 |
-
2023
- 2023-08-08 CN CN202310987930.XA patent/CN116705059B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160283185A1 (en) * | 2015-03-27 | 2016-09-29 | Sri International | Semi-supervised speaker diarization |
US20190122651A1 (en) * | 2017-10-19 | 2019-04-25 | Baidu Usa Llc | Systems and methods for neural text-to-speech using convolutional sequence learning |
CN111222585A (zh) * | 2020-01-15 | 2020-06-02 | 深圳前海微众银行股份有限公司 | 数据处理方法、装置、设备及介质 |
CN113643723A (zh) * | 2021-06-29 | 2021-11-12 | 重庆邮电大学 | 一种基于注意力CNN Bi-GRU融合视觉信息的语音情感识别方法 |
CN116230019A (zh) * | 2022-11-17 | 2023-06-06 | 湖南大学 | 一种基于半监督语音情感识别框架的深度情感聚类方法 |
CN116226732A (zh) * | 2022-12-29 | 2023-06-06 | 国电南瑞科技股份有限公司 | 一种电动公交车充电负荷曲线分类方法及系统 |
Non-Patent Citations (1)
Title |
---|
王文华: "聚类分类算法研究及其应用", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 4, pages 31 - 40 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117636900A (zh) * | 2023-12-04 | 2024-03-01 | 广东新裕信息科技有限公司 | 一种基于音频特征形状匹配的乐器演奏质量评价方法 |
CN117636900B (zh) * | 2023-12-04 | 2024-05-07 | 广东新裕信息科技有限公司 | 一种基于音频特征形状匹配的乐器演奏质量评价方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116705059B (zh) | 2023-11-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109151501B (zh) | 一种视频关键帧提取方法、装置、终端设备及存储介质 | |
CN110136744B (zh) | 一种音频指纹生成方法、设备及存储介质 | |
EP3701528B1 (en) | Segmentation-based feature extraction for acoustic scene classification | |
CN109446990B (zh) | 用于生成信息的方法和装置 | |
WO2018019194A1 (zh) | 图像识别方法、终端及非易失性存储介质 | |
CN110718235B (zh) | 异常声音检测的方法、电子设备及存储介质 | |
CN109684506B (zh) | 一种视频的标签化处理方法、装置和计算设备 | |
CN116705059B (zh) | 一种音频半监督自动聚类方法、装置、设备及介质 | |
CN111986699B (zh) | 基于全卷积网络的声音事件检测方法 | |
CN110797031A (zh) | 语音变音检测方法、系统、移动终端及存储介质 | |
CN111488813B (zh) | 视频的情感标注方法、装置、电子设备及存储介质 | |
CN115457980A (zh) | 一种无参考语音的自动化语音质量评估方法及系统 | |
CN113990303B (zh) | 基于多分辨率空洞深度可分卷积网络的环境声音辨识方法 | |
CN115035887A (zh) | 语音信号的处理方法、装置、设备及介质 | |
CN114863905A (zh) | 语音类别获取方法、装置、电子设备和存储介质 | |
CN116884435A (zh) | 一种基于音频提示学习的声音事件检测方法及装置 | |
CN112735466A (zh) | 一种音频检测方法及装置 | |
CN117113269A (zh) | 一种基于多尺度卷积和Transformer的运动想象识别方法、系统 | |
CN117496990A (zh) | 语音去噪方法、装置、计算机设备及存储介质 | |
CN116386669A (zh) | 基于分组自动编码器的机器运行声学状态监测方法和系统 | |
CN113487550B (zh) | 一种基于改进激活函数的目标检测方法及装置 | |
CN115328661A (zh) | 一种基于语音和图像特征的算力均衡执行方法及芯片 | |
CN115374817A (zh) | 基于混合图网络的情绪识别方法、装置、设备及存储介质 | |
CN114997210A (zh) | 一种基于深度学习的机器异响识别检测方法 | |
CN116863957B (zh) | 工业设备运行状态的识别方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |