CN117476036A - 一种环境噪声识别方法、系统、设备和介质 - Google Patents

一种环境噪声识别方法、系统、设备和介质 Download PDF

Info

Publication number
CN117476036A
CN117476036A CN202311818042.1A CN202311818042A CN117476036A CN 117476036 A CN117476036 A CN 117476036A CN 202311818042 A CN202311818042 A CN 202311818042A CN 117476036 A CN117476036 A CN 117476036A
Authority
CN
China
Prior art keywords
domain
target domain
source domain
data
audio data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311818042.1A
Other languages
English (en)
Other versions
CN117476036B (zh
Inventor
郑建辉
叶永华
殷艺敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Soundbox Acoustic Tech Co ltd
Original Assignee
Guangzhou Soundbox Acoustic Tech Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Soundbox Acoustic Tech Co ltd filed Critical Guangzhou Soundbox Acoustic Tech Co ltd
Priority to CN202311818042.1A priority Critical patent/CN117476036B/zh
Publication of CN117476036A publication Critical patent/CN117476036A/zh
Application granted granted Critical
Publication of CN117476036B publication Critical patent/CN117476036B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/14Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
    • G06F17/141Discrete Fourier transforms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/14Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
    • G06F17/148Wavelet transforms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/094Adversarial learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/096Transfer learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • G10L19/0216Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation using wavelet decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • G10L21/14Transforming into visible information by displaying frequency domain information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T90/00Enabling technologies or technologies with a potential or indirect contribution to GHG emissions mitigation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)
  • Discrete Mathematics (AREA)

Abstract

本发明涉及声音识别技术领域,公开了一种环境噪声识别方法、系统、设备和介质。本发明将原始音频数据划分为有标签的源域原始音频数据和无标签的目标域原始音频数据;构建包括对比学习网络、对抗训练学习网络和分类识别网络的音频识别网络模型;将每个音频数据转换为对应的声谱图组并进行特征提取,得到特征向量组;根据特征向量组在源域和目标域对对比学习网络和对抗训练学习网络进行训练,并根据源域特征向量组对所述分类识别网络进行标签的分类识别训练,得到训练好的音频识别网络模型;通过训练好的音频识别网络模型对环境噪声进行识别分类。本发明降低了数据标记的成本,提高了环境噪声分类的准确性,提高了模型的泛化能力。

Description

一种环境噪声识别方法、系统、设备和介质
技术领域
本发明涉及声音识别技术领域,特别是涉及一种环境噪声识别方法、系统、设备和介质。
背景技术
声音作为信息的主要载体,是人们感知周围环境的重要途径之一,也是反映生物行为的重要特征。声音信号的处理一直备受研究学者的关注,研究重点主要有人声和环境声音两类,由此衍生出的主要研究方向为自动语音识别和环境声音分类(EnvironmentalSound Classification, ESC)。
自动语音识别的任务是把平稳的人类语音信号转换为文本信息,而ESC则是将各类非平稳的环境声音信号进行准确的分类。由于ESC 的研究重点是自然界中的非平稳声信号,并且受环境因素的影响,现实中常会存在复杂的背景噪声,因此其研究难度相对较大。
由于ESC任务的标记数据相对稀缺,因此当前卷积神经网络在ESC任务上存在难以扩展模型深度问题,机器学习与深度学习模型正是依赖于海量数据,不断训练与更新模型,逐步提升模型的性能。虽然我们可以通过网络等多媒体获得海量数据,但是这些数据一般是初级的原始形态,大多都缺乏正确的人工标注。同时,根据应用的不同,所需的数据类型,数据标注样式也会有变化。因此,需要利用已知的数据标记设计有效的环境声音分类方法。
发明内容
本发明的目的是解决现有环境噪声分类技术中缺乏大规模标签数据集导致的声音分类不准确的问题。
为了实现上述目的,第一方面,本发明提供一种环境噪声识别方法,所述方法包括:
将原始音频数据依据是否有标签划分为有标签的源域原始音频数据和无标签的目标域原始音频数据;
构建音频识别网络模型,所述音频识别网络模型包括对比学习网络、对抗训练学习网络和分类识别网络;
分别将每一个源域原始音频数据和目标域原始音频数据转换为对应的源域声谱图组和目标域声谱图组;
对所述源域声谱图组和目标域声谱图组进行特征提取,分别得到源域特征向量组和目标域特征向量组;
根据所述源域特征向量组和目标域特征向量组,在源域和目标域对所述对比学习网络和对抗训练学习网络进行训练,并根据所述源域特征向量组对所述分类识别网络进行标签的分类识别训练,得到训练好的音频识别网络模型;
通过训练好的音频识别网络模型对环境噪声进行识别分类。
进一步地,所述分别将每一个源域原始音频数据和目标域原始音频数据转换为对应的源域声谱图组和目标域声谱图组,包括:
使用连续小波变换将源域原始音频数据转换为源域声谱图;
使用离散小波变换将源域原始音频数据转换为源域数据增强声谱图,并将所述源域数据增强声谱图分别进行旋转、锐化、色彩调整和翻转得到源域数据增强声谱图组;
每个源域原始音频数据对应的源域声谱图和源域数据增强声谱图组构成一个源域声谱图组;
使用短时傅里叶变换将目标域原始音频数据转换为目标域声谱图;
使用离散小波变换将目标域原始音频数据转换为目标域数据增强声谱图,并将所述目标域数据增强声谱图分别进行旋转、锐化、色彩调整和翻转得到目标域数据增强声谱图组;
每个目标域原始音频数据对应的目标域声谱图和目标域数据增强声谱图组构成一个目标域声谱图组;
进一步地,所述根据所述源域特征向量组和目标域特征向量组,在源域和目标域对所述对比学习网络和对抗训练学习网络进行训练,包括:
分别在源域和目标域,以最小批处理的大小为单位,选取单位内一个音频对应的特征向量组作为正样本,单位内其他音频的特征向量组作为负样本,通过对比学习网络进行对比学习,分别产生多个源域正负样本对和目标域正负样本对,并分别存储进源域样本队列和目标域样本队列中;
从所述源域样本队列和目标域样本队列选取数据输入对抗训练学习网络进行对抗训练学习,将源域的特征学习分类能力迁移到目标域中。
进一步地,所述通过对比学习网络进行对比学习,分别产生多个源域正负样本对和目标域正负样本对,包括:
分别在源域和目标域,对单位内每个特征向量组通过对比学习,拉近同一特征向量组内的特征向量之间的距离,拉远所述特征向量组内的特征向量与其他特征向量组内特征向量的距离,以形成正负样本对。
进一步地,从所述源域样本队列和目标域样本队列选取数据输入对抗训练学习网络进行对抗训练学习,将源域的特征学习分类能力迁移到目标域中,包括:
将源域样本队列和目标域样本队列中的数据进行梯度反转,提取时间序列,并创建相应的嵌入值,通过所述嵌入值,使用领域判别器进行对抗训练,根据源域和目标域的数据分布,预测目标域的数据所属的标签。
进一步地,所述音频识别网络模型训练过程中的总损失函数为:
其中,为预测损失,/>为领域分类损失的权重系数,取值范围为(0,1),/>为领域分类损失,/>为对比损失的权重系数,取值范围为(0,1),/>为源域的对比损失,为目标域的对比损失。
进一步地,所述短时傅里叶变换将原始音频数据的音频信号分解为一系列时间窗口,对每个时间窗口应用傅里叶变换,得到音频信号在时间和频率上的二维表示;
所述连续小波变换使用不同尺度的小波函数对原始音频数据的音频信号进行分解,得到声谱图在视频域上的连续小波变换表示;
所述离散小波变换将原始音频数据的音频信号分解为不同频带的多分辨率表示,得到多尺度域上的离散小波变换表示。
第二方面,本发明提供一种环境噪声识别系统,用于实现上述环境噪声识别方法,所述系统包括:
数据分类模块,用于将原始音频数据依据是否有标签划分为有标签的源域原始音频数据和无标签的目标域原始音频数据。
模型构建模块,用于构建音频识别网络模型,所述音频识别网络模型包括对比学习网络、对抗训练学习网络和分类识别网络。
声谱转换模块,用于分别将每一个源域原始音频数据和目标域原始音频数据转换为对应的源域声谱图组和目标域声谱图组。
特征提取模块,用于对所述源域声谱图组和目标域声谱图组进行特征提取,分别得到源域特征向量组和目标域特征向量组。
模型训练模块,用于根据所述源域特征向量组和目标域特征向量组,在源域和目标域对所述对比学习网络和对抗训练学习网络进行训练,并根据所述源域特征向量组对所述分类识别网络进行标签的分类识别训练,得到训练好的音频识别网络模型。
识别分类模块,用于通过训练好的音频识别网络模型对环境噪声进行识别分类。
第三方面,本发明提供一种计算机设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器在执行所述计算机程序时实现如上所述的环境噪声识别方法。
第四方面,本发明提供一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序;其中,所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行如上所述的环境噪声识别方法。
本发明的一种环境噪声识别方法、系统、设备和介质,与现有技术相比,其有益效果在于:基于少量标签数据和大量无标签数据,充分利用无标签环境噪声分类数据集,避免了目前需要从头收集数据、花费大量人力物力标记的问题,降低了数据标记的成本;采用对抗学习的无监督域适应方法,将有标签域的音频分类能力,迁移到无标签域中,提高环境噪声分类的准确性,缓解了小样本数据的问题,提高了模型的泛化能力。
附图说明
图1为本发明实施例提供的环境噪声识别方法的步骤流程图;
图2为本发明实施例提供的环境噪声识别方法的模型网络结构图;
图3为本发明实施例提供的环境噪声识别方法的模型的特征提取网络图;
图4为本发明实施例提供的环境噪声识别系统的结构框图;
图5为本发明实施例提供的计算机设备的结构图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
需要说明的是,文中的步骤编号,仅为了方便具体实施例的解释,不作为限定步骤执行先后顺序的作用。本实施例提供的方法可以由相关的服务器执行,且下文均以服务器作为执行主体为例进行说明。
如图1所示,本发明实施例提供的一种环境噪声识别方法,包括步骤S11至S15:
步骤S11,将原始音频数据依据是否有标签划分为有标签的源域原始音频数据和无标签的目标域原始音频数据。
由于当前带有标签的环境噪音分类公开数据集相对较少,给构建准确的分类模型带来了挑战,与此相反,大量的无标签环境音频数据却可以轻易获得。
因此,本发明实施例采用有限的少量有标签数据,和大量的无标签数据作为音频识别模型训练的源数据,并进行分类;具体地,将有标签的音频数据划分进源域,无标签的音频数据划分进目标域。
步骤S12,构建音频识别网络模型,所述音频识别网络模型包括对比学习网络、对抗训练学习网络和分类识别网络。
其中对比学习网络用于通过对比学习形成大量的正负样本对,对抗训练学习网络使用源域和目标域的正负样本对进行对抗训练,使源域和目标域的属于呈现相近的特征分布,分类识别网络用于根据源域的数据进行标签的分类识别训练。
步骤S13,分别将每一个源域原始音频数据和目标域原始音频数据转换为对应的源域声谱图组和目标域声谱图组。
为了更好地利用无标签数据,让模型学习呈现更好的特征表示,本发明实施例对输入音频识别模型的音频数据引入多种数学方式对音频数据进行处理,将每个音频数据转换为一组声谱图。
进行数据处理的数学方式具体包括短时傅里叶变换(STFT:Short-Time FourierTransform)、连续小波变换(CWT:Continuous Wavelet Transform)和离散小波变换(DWT:Discrete Wavelet Transform)。
具体地,不同的转换方式包括:
对于分布在源域中的音频数据,使用连续小波变换对音频数据进行处理,得到声谱图;使用离散小波变换对音频数据进行处理,转换为数据增强声谱图/>,并将数据增强声谱图/>分别进行旋转、锐化、色彩调整和翻转得到数据增强声谱图/>
每个音频数据对应的声谱图和数据增强声谱图/>构成一个声谱图组。
对于分布在目标域中的音频数据,使用短时傅里叶变换对音频数据进行处理,得到声谱图;使用离散小波变换对音频数据进行处理,转换为数据增强声谱图/>,并将数据增强声谱图/>分别进行旋转、锐化、色彩调整和翻转得到数据增强声谱图
每个音频数据对应的声谱图和数据增强声谱图/>构成一个声谱图组。
具体地,上述数据处理方式对声谱图进行转换的操作为:
短时傅里叶变换将音频数据信号分解为一系列时间窗口,对每个时间窗口应用傅里叶变换,得到频谱信息;该频谱信息是声谱图在时频域上的表示,也即在时间和频率上的二维表示;
连续小波变换使用不同尺度的小波函数对音频信号进行分解,可以捕捉到音频信号的瞬时频率变化,从而得到声谱图在视频域上的连续小波变换表示;
离散小波变换将音频信号分解为不同频带的多分辨率表示,可以提供紧凑的表示和较好的时间和频率分辨率,从而得到多尺度域上的离散小波变换表示。
步骤S14,对所述源域声谱图组和目标域声谱图组进行特征提取,分别得到源域特征向量组和目标域特征向量组。
对源域声谱图组和目标域声谱图组中的每个声谱图分别进行特征提取,使用特征提取器F ()对声谱图进行特征提取,使用MoCo动量更新特征提取器/>(/>)对各数据增强声谱图进行特征提取,得到它们的特征向量。其中,声谱图的特征向量表示为q,各数据增强声谱图的特征向量表示为k。分别得到源域特征向量组和目标域特征向量组;特征向量用于后续的学习训练。
步骤S15,根据所述源域特征向量组和目标域特征向量组,在源域和目标域对所述对比学习网络和对抗训练学习网络进行训练,并根据所述源域特征向量组对所述分类识别网络进行标签的分类识别训练,得到训练好的音频识别网络模型。
在训练过程中,以小批量处理(Mini-Batch)的大小为单位,本实施例以每个batch包含10个数据分别对应的特征向量组为例子,对于单位batch内的每个特征向量组进行训练。
选取一个特征向量组中,同一特征向量组内的特征向量互为正样本,单位batch内其他特征向量组中的特征向量作为负样本,进行对比学习,拉近特征向量组内的特征向量之间的距离,拉远特征向量组内的特征向量与其他特征向量组内的特征向量的距离,对batch内的每个样本计算对比损失再取均值,即为一次迭代的损失函数,表示为:
其中,q为特征向量组中的声谱图的对应特征向量,k为特征向量组中数据增强声谱图对应的特征向量,τ>0 ,为温度缩放参数。
经过多次迭代训练,可以得到多个正负样本对,将正负样本对存储进样本队列中。
该对比学习作为训练模型中的一部分,属于无监督学习的范畴,在训练过程中无需关注样本的标签,只需要关注正样本和负样本之间的空间距离,全面地学习各样本中的特征表示,增强分类器与辨别器之间的博弈能力,使用这样的方式定义正样本和负样本,不仅可以让模型学习到不同样本的差异性特征,也可以让模型学习到正样本之间不同域的图像它们之间的相似性特征,为后续迁移学习的域适应训练提供更深层的特征表示。
将源域和目标域的样本队列中的数据进行梯度反转,提取时间序列,并创建相应的嵌入值,通过所述嵌入值,使用领域判别器进行对抗训练,将源域的特征学习分类能力迁移到目标域中,根据源域和目标域的数据分布,预测目标域的数据所属的标签。
具体地,如图2所示,本发明的模型训练总损失的计算过程为:模型的特征提取器F()对样本数据进行提取,分别对/>和/>创建相应的嵌入值/>和/>,分类器网络C(/>)经过训练,可使用嵌入式/>预测源域时间序列的标签/>。判别器网络D(/>)的训练目的是区分源样本队列中的嵌入式/>和目标嵌入式/>。在这种训练中,我们为源域数据实例引入域标签 d= 0,为目标域数据实例引入域标签 d = 1。
在具体的对抗训练中,要减少预测损失和领域分类损失/>,具体地:
预测损失用于对特征提取器F(/>)和分类器C(/>)进行联合训练,以便正确预测源域的标签,预测损失为:
其中,其中,Lpred为标准交叉熵损失;
领域分类损失用于学习领域不变的特征表征,领域判别器D(/>)被训练为最小化领域分类损失,而特征提取器F(/>)则被训练为同时最大化相同的损失,此过程通过F(/>)和D(/>)之间的梯度反转层R(/>)来实现,R(/>)的定义为:
因此,领域分类损失表示为:
在本实施例中,利用动量对比(MoCo)形式的对比学习来捕捉每个领域的深度特征表征。具体地,以随机实例化的方式依次应用以下函数: DWT、旋转、锐化、色彩调整,翻转来对原始音频数据进行处理。之后会得到每个样本的两个视图,分别称为查询和关键/>。随后由特征提取器对这两个视图进行处理,得到它们的嵌入值/>= F(/>) 和/>=/>(/>)。其中,/>(/>)是 MoCo 的动量更新特征提取器。
为了训练动量更新特征提取器,使梯度不通过(/>)反向传播。相反,权重/>是通过动量更新的。
其中,m∈[0, 1) 是动量系数。对比学习的目标为通过投影网络 Q()投射/>,并使投影 Q(/>) 更接近其正向样本/>(相对于存储在队列 {/>中的负向样本),而队列{/> 是前几批/>的集合。这就产生了大量的负样本对(队列大小 J≫批次大小 N),因此有助于更好地进行上下文表征。每个训练步骤结束后,一批/>会被存储在大小为 J 的队列中。
因此,对于每个域,对比损失为:
其中,τ>0 是温度缩放参数,上式中所有的嵌入都已归一化,由于本发明实施例中存在两个域,也即源域和目标域,故分别以和/>表示。
因此,整个音频识别分类模型训练过程中的总损失函数为:
其中,为领域分类损失的权重系数,取值范围为(0,1),/>为对比损失的权重系数,取值范围为(0,1),/>为源域的对比损失,/>为目标域的对比损失。
通过源域和目标域数据进行对抗学习的训练,使得有标签数据和无标签数据保存一致的数据分布,达到让有标签的数据为无标签的数据标注的效果,同时充分利用无标签数据,可以提高模型的鲁棒性和泛化能力。
步骤S16,通过训练好的音频识别网络模型对环境噪声进行识别分类。
将需要进行识别的音频数据,输入进音频识别模型,对环境噪声进行识别分类,为之进行数据标注。
本发明的一种环境噪声识别方法基于少量标签数据和大量无标签数据,充分利用无标签环境噪声分类数据集,避免了目前需要从头收集数据、花费大量人力物力标记的问题,降低了数据标记的成本;采用对抗学习的无监督域适应方法,将有标签域的音频分类能力,迁移到无标签域中,提高环境噪声分类的准确性,缓解了小样本数据的问题,提高了模型的泛化能力。
本发明实施例还提供一种环境噪声识别系统,用于执行如上所述的环境噪声识别方法,图4为本发明实施例的系统结构框图,所述系统包括:
数据分类模块21,用于将原始音频数据依据是否有标签划分为有标签的源域原始音频数据和无标签的目标域原始音频数据;
模型构建模块22,用于构建音频识别网络模型,所述音频识别网络模型包括对比学习网络、对抗训练学习网络和分类识别网络;
声谱转换模块23,用于分别将每一个源域原始音频数据和目标域原始音频数据转换为对应的源域声谱图组和目标域声谱图组;
特征提取模块24,用于对所述源域声谱图组和目标域声谱图组进行特征提取,分别得到源域特征向量组和目标域特征向量组;
模型训练模块25,用于根据所述源域特征向量组和目标域特征向量组,在源域和目标域对所述对比学习网络和对抗训练学习网络进行训练,并根据所述源域特征向量组对所述分类识别网络进行标签的分类识别训练,得到训练好的音频识别网络模型;
识别分类模块26,用于通过训练好的音频识别网络模型对环境噪声进行识别分类。
本发明实施例提出的系统的技术特征和技术效果与本发明实施例提出的方法相同,在此不予赘述。上述系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各模块对应的操作。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序;其中,所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行如上所述的环境噪声识别方法。
本发明实施例还提供了一种计算机设备,图5为本发明提供的一种计算机设备的一个优选实施例的结构框图,所述计算机设备包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器在执行所述计算机程序时实现如上所述的环境噪声识别方法。
优选地,所述计算机程序可以被分割成一个或多个模块/单元(如计算机程序1、计算机程序2、……),所述一个或者多个模块/单元被存储在所述存储器中,并由所述处理器执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述计算机设备中的执行过程。
所述处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,通用处理器可以是微处理器,或者所述处理器也可以是任何常规的处理器,所述处理器是所述计算机设备的控制中心,利用各种接口和线路连接所述计算机设备的各个部分。
所述存储器主要包括程序存储区和数据存储区,其中,程序存储区可存储操作系统、至少一个功能所需的应用程序等,数据存储区可存储相关数据等。此外,所述存储器可以是高速随机存取存储器,还可以是非易失性存储器,例如插接式硬盘,智能存储卡(SmartMedia Card,SMC)、安全数字(Secure Digital,SD)卡和闪存卡(Flash Card)等,或所述存储器也可以是其他易失性固态存储器件。
需要说明的是,上述计算机设备可包括,但不仅限于,处理器、存储器,本领域技术人员可以理解,图5结构框图仅仅是计算机设备的示例,并不构成对计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件。
综上,本发明实施例提供的一种环境噪声识别方法、系统、设备和介质,基于少量标签数据和大量无标签数据,充分利用无标签环境噪声分类数据集,缓解目前需要从头收集数据、花费大量人力物力标记的问题,降低了数据标记的成本;采用无监督域适应方法,将有标签域的声谱图图像分类能力,迁移到无标签的声谱图中,提高环境噪声分类的准确性;应用对抗学习方法对训练集进行扩充,缓解小样本数据的问题,提高了模型的泛化能力。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通计数人员来说,在不脱离本发明计数原理的前提下,还可以做出若干改进和替换,这些改进和替换也应视为本发明的保护范围。

Claims (10)

1.一种环境噪声识别方法,其特征在于,所述方法包括:
将原始音频数据依据是否有标签划分为有标签的源域原始音频数据和无标签的目标域原始音频数据;
构建音频识别网络模型,所述音频识别网络模型包括对比学习网络、对抗训练学习网络和分类识别网络;
分别将每一个源域原始音频数据和目标域原始音频数据转换为对应的源域声谱图组和目标域声谱图组;
对所述源域声谱图组和目标域声谱图组进行特征提取,分别得到源域特征向量组和目标域特征向量组;
根据所述源域特征向量组和目标域特征向量组,在源域和目标域对所述对比学习网络和对抗训练学习网络进行训练,并根据所述源域特征向量组对所述分类识别网络进行标签的分类识别训练,得到训练好的音频识别网络模型;
通过训练好的音频识别网络模型对环境噪声进行识别分类。
2.根据权利要求1所述的环境噪声识别方法,其特征在于,所述分别将每一个源域原始音频数据和目标域原始音频数据转换为对应的源域声谱图组和目标域声谱图组,包括:
使用连续小波变换将源域原始音频数据转换为源域声谱图;
使用离散小波变换将源域原始音频数据转换为源域数据增强声谱图,并将所述源域数据增强声谱图分别进行旋转、锐化、色彩调整和翻转得到源域数据增强声谱图组;
每个源域原始音频数据对应的源域声谱图和源域数据增强声谱图组构成一个源域声谱图组;
使用短时傅里叶变换将目标域原始音频数据转换为目标域声谱图;
使用离散小波变换将目标域原始音频数据转换为目标域数据增强声谱图,并将所述目标域数据增强声谱图分别进行旋转、锐化、色彩调整和翻转得到目标域数据增强声谱图组;
每个目标域原始音频数据对应的目标域声谱图和目标域数据增强声谱图组构成一个目标域声谱图组。
3.根据权利要求1所述的环境噪声识别方法,其特征在于,所述根据所述源域特征向量组和目标域特征向量组,在源域和目标域对所述对比学习网络和对抗训练学习网络进行训练,包括:
分别在源域和目标域,以最小批处理的大小为单位,选取单位内一个音频对应的特征向量组作为正样本,单位内其他音频的特征向量组作为负样本,通过对比学习网络进行对比学习,分别产生多个源域正负样本对和目标域正负样本对,并分别存储进源域样本队列和目标域样本队列中;
从所述源域样本队列和目标域样本队列选取数据输入对抗训练学习网络进行对抗训练学习,将源域的特征学习分类能力迁移到目标域中。
4.根据权利要求3所述的环境噪声识别方法,其特征在于,所述通过对比学习网络进行对比学习,分别产生多个源域正负样本对和目标域正负样本对,包括:
分别在源域和目标域,对单位内每个特征向量组通过对比学习,拉近同一特征向量组内的特征向量之间的距离,拉远所述特征向量组内的特征向量与其他特征向量组内特征向量的距离,以形成正负样本对。
5.根据权利要求3所述的环境噪声识别方法,其特征在于,从所述源域样本队列和目标域样本队列选取数据输入对抗训练学习网络进行对抗训练学习,将源域的特征学习分类能力迁移到目标域中,包括:
将源域样本队列和目标域样本队列中的数据进行梯度反转,提取时间序列,并创建相应的嵌入值,通过所述嵌入值,使用领域判别器进行对抗训练,根据源域和目标域的数据分布,预测目标域的数据所属的标签。
6.根据权利要求1所述的环境噪声识别方法,其特征在于,所述音频识别网络模型训练过程中的总损失函数为:
其中,为预测损失,/>为领域分类损失的权重系数,取值范围为(0,1),/>为领域分类损失,/>为对比损失的权重系数,取值范围为(0,1),/>为源域的对比损失,/>为目标域的对比损失。
7.根据权利要求2所述的环境噪声识别方法,其特征在于:
所述短时傅里叶变换将原始音频数据的音频信号分解为一系列时间窗口,对每个时间窗口应用傅里叶变换,得到音频信号在时间和频率上的二维表示;
所述连续小波变换使用不同尺度的小波函数对原始音频数据的音频信号进行分解,得到声谱图在视频域上的连续小波变换表示;
所述离散小波变换将原始音频数据的音频信号分解为不同频带的多分辨率表示,得到多尺度域上的离散小波变换表示。
8.一种环境噪声识别系统,其特征在于,所述系统包括:
数据分类模块,用于将原始音频数据依据是否有标签划分为有标签的源域原始音频数据和无标签的目标域原始音频数据;
模型构建模块,用于构建音频识别网络模型,所述音频识别网络模型包括对比学习网络、对抗训练学习网络和分类识别网络;
声谱转换模块,用于分别将每一个源域原始音频数据和目标域原始音频数据转换为对应的源域声谱图组和目标域声谱图组;
特征提取模块,用于对所述源域声谱图组和目标域声谱图组进行特征提取,分别得到源域特征向量组和目标域特征向量组;
模型训练模块,用于根据所述源域特征向量组和目标域特征向量组,在源域和目标域对所述对比学习网络和对抗训练学习网络进行训练,并根据所述源域特征向量组对所述分类识别网络进行标签的分类识别训练,得到训练好的音频识别网络模型;
识别分类模块,用于通过训练好的音频识别网络模型对环境噪声进行识别分类。
9.一种计算机设备,其特征在于,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器在执行所述计算机程序时实现如权利要求1至7中任一项所述的环境噪声识别方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序;其中,所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行如权利要求1至7中任一项所述的环境噪声识别方法。
CN202311818042.1A 2023-12-27 2023-12-27 一种环境噪声识别方法、系统、设备和介质 Active CN117476036B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311818042.1A CN117476036B (zh) 2023-12-27 2023-12-27 一种环境噪声识别方法、系统、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311818042.1A CN117476036B (zh) 2023-12-27 2023-12-27 一种环境噪声识别方法、系统、设备和介质

Publications (2)

Publication Number Publication Date
CN117476036A true CN117476036A (zh) 2024-01-30
CN117476036B CN117476036B (zh) 2024-04-09

Family

ID=89631529

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311818042.1A Active CN117476036B (zh) 2023-12-27 2023-12-27 一种环境噪声识别方法、系统、设备和介质

Country Status (1)

Country Link
CN (1) CN117476036B (zh)

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200130177A1 (en) * 2018-10-29 2020-04-30 Hrl Laboratories, Llc Systems and methods for few-shot transfer learning
CN111898634A (zh) * 2020-06-22 2020-11-06 西安交通大学 一种基于深度对抗域自适应的智能故障诊断方法
CN112329536A (zh) * 2020-10-09 2021-02-05 东南大学 一种基于交替对抗迁移学习的单样本人脸识别方法
CN112906644A (zh) * 2021-03-22 2021-06-04 重庆大学 基于深度迁移学习的机械故障智能诊断方法
CN113076920A (zh) * 2021-04-20 2021-07-06 同济大学 一种基于非对称域对抗自适应模型的智能故障诊断方法
WO2021189903A1 (zh) * 2020-10-09 2021-09-30 平安科技(深圳)有限公司 基于音频的用户状态识别方法、装置、电子设备及存储介质
CN113506553A (zh) * 2021-06-25 2021-10-15 河海大学 一种基于迁移学习的音频自动标注方法
CN113593611A (zh) * 2021-07-26 2021-11-02 平安科技(深圳)有限公司 语音分类网络训练方法、装置、计算设备及存储介质
CN115640850A (zh) * 2022-09-13 2023-01-24 中国科学院信息工程研究所 一种基于对比学习的自动化知识点识别方法与装置
CN115862055A (zh) * 2022-11-15 2023-03-28 北京大学深圳研究生院 基于对比学习和对抗训练的行人重识别方法及装置
CN115954019A (zh) * 2023-03-03 2023-04-11 广州声博士声学技术有限公司 一种融合自注意力和卷积操作的环境噪声识别方法及系统
CN116089855A (zh) * 2022-12-30 2023-05-09 广西大学 基于特征分布相似性的跨域人体动作识别方法及系统
US20230142131A1 (en) * 2021-11-05 2023-05-11 Samsung Sds America, Inc. Active learning classifier engine using beta approximation
US20230141896A1 (en) * 2020-03-30 2023-05-11 University Of Florida Research Foundation, Inc. Collaborative feature ensembling adaptation for domain adaptation in unsupervised optic disc and cup segmentation
CN116109898A (zh) * 2022-12-09 2023-05-12 厦门大学 基于双向对抗训练与关系度量约束的广义零样本学习方法
CN116192500A (zh) * 2023-02-22 2023-05-30 电子科技大学 一种对抗标签噪声的恶意流量检测装置及方法
CN117217368A (zh) * 2023-09-04 2023-12-12 腾讯科技(深圳)有限公司 预测模型的训练方法、装置、设备、介质及程序产品

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200130177A1 (en) * 2018-10-29 2020-04-30 Hrl Laboratories, Llc Systems and methods for few-shot transfer learning
US20230141896A1 (en) * 2020-03-30 2023-05-11 University Of Florida Research Foundation, Inc. Collaborative feature ensembling adaptation for domain adaptation in unsupervised optic disc and cup segmentation
CN111898634A (zh) * 2020-06-22 2020-11-06 西安交通大学 一种基于深度对抗域自适应的智能故障诊断方法
CN112329536A (zh) * 2020-10-09 2021-02-05 东南大学 一种基于交替对抗迁移学习的单样本人脸识别方法
WO2021189903A1 (zh) * 2020-10-09 2021-09-30 平安科技(深圳)有限公司 基于音频的用户状态识别方法、装置、电子设备及存储介质
CN112906644A (zh) * 2021-03-22 2021-06-04 重庆大学 基于深度迁移学习的机械故障智能诊断方法
CN113076920A (zh) * 2021-04-20 2021-07-06 同济大学 一种基于非对称域对抗自适应模型的智能故障诊断方法
CN113506553A (zh) * 2021-06-25 2021-10-15 河海大学 一种基于迁移学习的音频自动标注方法
CN113593611A (zh) * 2021-07-26 2021-11-02 平安科技(深圳)有限公司 语音分类网络训练方法、装置、计算设备及存储介质
US20230142131A1 (en) * 2021-11-05 2023-05-11 Samsung Sds America, Inc. Active learning classifier engine using beta approximation
CN115640850A (zh) * 2022-09-13 2023-01-24 中国科学院信息工程研究所 一种基于对比学习的自动化知识点识别方法与装置
CN115862055A (zh) * 2022-11-15 2023-03-28 北京大学深圳研究生院 基于对比学习和对抗训练的行人重识别方法及装置
CN116109898A (zh) * 2022-12-09 2023-05-12 厦门大学 基于双向对抗训练与关系度量约束的广义零样本学习方法
CN116089855A (zh) * 2022-12-30 2023-05-09 广西大学 基于特征分布相似性的跨域人体动作识别方法及系统
CN116192500A (zh) * 2023-02-22 2023-05-30 电子科技大学 一种对抗标签噪声的恶意流量检测装置及方法
CN115954019A (zh) * 2023-03-03 2023-04-11 广州声博士声学技术有限公司 一种融合自注意力和卷积操作的环境噪声识别方法及系统
CN117217368A (zh) * 2023-09-04 2023-12-12 腾讯科技(深圳)有限公司 预测模型的训练方法、装置、设备、介质及程序产品

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HUANG, XIAOHAN 等: "Minimum Adversarial Distribution Discrepancy for Domain Adaptation", IEEE TRANSACTIONS ON COGNITIVE AND DEVELOPMENTAL SYSTEMS, vol. 14, no. 4, 31 December 2022 (2022-12-31), pages 1440 - 1448 *
邢小松 等: "基于改进半临督生成对抗网络的少量标签轴承智能诊断方法", 振动与冲击, vol. 41, no. 22, 5 December 2022 (2022-12-05), pages 184 - 192 *

Also Published As

Publication number Publication date
CN117476036B (zh) 2024-04-09

Similar Documents

Publication Publication Date Title
WO2023087558A1 (zh) 基于嵌入平滑图神经网络的小样本遥感图像场景分类方法
Jin et al. Deep learning-based framework for expansion, recognition and classification of underwater acoustic signal
CN111079847B (zh) 一种基于深度学习的遥感影像自动标注方法
US10796203B2 (en) Out-of-sample generating few-shot classification networks
WO2022001232A1 (zh) 一种问答数据增强方法、装置、计算机设备及存储介质
WO2024041479A1 (zh) 一种数据处理方法及其装置
WO2021061781A1 (en) Multi-task adapter neural networks
Hu et al. Cross-task transfer for geotagged audiovisual aerial scene recognition
CN114462290A (zh) 一种生成预训练人工智能模型的方法及装置
Gao et al. Automatic watermeter digit recognition on mobile devices
Li et al. Image decomposition with multilabel context: Algorithms and applications
Liu et al. Expansion of restricted sample for underwater acoustic signal based on generative adversarial networks
Chen et al. Time–frequency mask-aware bidirectional lstm: A deep learning approach for underwater acoustic signal separation
CN110705572B (zh) 一种图像识别方法
CN117476036B (zh) 一种环境噪声识别方法、系统、设备和介质
Dong et al. A supervised dictionary learning and discriminative weighting model for action recognition
US20240152749A1 (en) Continual learning neural network system training for classification type tasks
CN111709312B (zh) 一种基于联合主模式的局部特征人脸识别方法
CN115222047A (zh) 一种模型训练方法、装置、设备及存储介质
US20210142043A1 (en) Universal feature representation learning for face recognition
CN109146058B (zh) 具有变换不变能力且表达一致的卷积神经网络
Priya et al. Developing an offline and real-time Indian sign language recognition system with machine learning and deep learning
Mangla et al. A novel key-frame selection-based sign language recognition framework for the video data
Quach Convolutional networks for vehicle track segmentation
Pankaja et al. A hybrid approach combining CUR matrix decomposition and weighted kernel sparse representation for plant leaf recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant