CN113539297A - 一种用于声音分类的联合注意力机制模型、方法及应用 - Google Patents

一种用于声音分类的联合注意力机制模型、方法及应用 Download PDF

Info

Publication number
CN113539297A
CN113539297A CN202110774336.3A CN202110774336A CN113539297A CN 113539297 A CN113539297 A CN 113539297A CN 202110774336 A CN202110774336 A CN 202110774336A CN 113539297 A CN113539297 A CN 113539297A
Authority
CN
China
Prior art keywords
time
attention
channel
information
attention module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110774336.3A
Other languages
English (en)
Inventor
殷波
魏志强
吴剑
孙雁
倪金
孙鲁宁
王俏俏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ocean University of China
Qingdao Haier Innovation Technology Co Ltd
Original Assignee
Ocean University of China
Qingdao Haier Innovation Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ocean University of China, Qingdao Haier Innovation Technology Co Ltd filed Critical Ocean University of China
Priority to CN202110774336.3A priority Critical patent/CN113539297A/zh
Publication of CN113539297A publication Critical patent/CN113539297A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Evolutionary Computation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种用于声音分类的联合注意力机制模型、方法及应用,将联合注意力模块嵌入卷积神经网络中,所述联合注意力模块包括通道注意力模块和时间注意力模块,所述通道注意力模块通过全局最大池化和全局平均池化压缩除了通道之外的其他维度信息,利用特征通道间的关系生成通道注意力图,提取通道特征信息;所述时间注意力模块通过全局最大池化和平均池化来压缩除了时间之外的其他维度信息,利用特征之间的时间关系生成了时间注意力图,提取时间特征信息。通过本发明的联合注意力机制可以加大重要特征的权重,减小无用特征的影响,进而提高CNN的性能。

Description

一种用于声音分类的联合注意力机制模型、方法及应用
技术领域
本发明属于声音分类技术领域,特别涉及一种用于声音分类的联合注意力机制模型、方法及应用。
背景技术
声音分类任务是预先向系统中输入大量的音频数据并对数据的类别进行定义,然后将未定义的音频数据输入到系统中来进行判别。目前,有多种网络结构来对声音进行分类分类。其中DenseNet在对一些声音进行分类时,由于DenseNet存在特征冗余性的缺点,导致其分类性能并不十分理想。SENet对Feature map进行了全局平均池化,没有充分利用特征信息,可能会丢失一些信息。训练GAN网络需要达到纳什均衡,有时候可以用梯度下降法做到,有时候做不到。目前还没有找到很好的达到纳什均衡的方法,所以训练GAN相对不太稳定。
卷积神经网络(Convolutional Neural Network,CNN)能挖掘海量数据中隐含的统计模式,自动学习对分类任务最有区分力的特征。CNN的主要原理是通过过滤器和特征图的卷积运算从低维度特征中提取出高维度特征,然后将这些信息通过激活函数等非线性运算进行激活并输入到下一层网络中,直至最后输出。
传统CNN每次卷积都会提取特征,但对于重要特征信息的提取还有上升空间,仅靠传统CNN自行获取重要特征可能会有遗漏,并且对声音识别影响较小的特征对于最终结果的影响可能过大。
综合各方面的因素,基于声音的特性,本发明采用通道注意力机制和时间注意力机制相结合的联合注意力机制结合CNN来对声音进行识别。
发明内容
针对现有技术存在的不足,本发明提供一种用于声音分类的联合注意力机制模型、方法及应用,通过将通道注意力模块和时间注意力模块联合并嵌入卷积神经网络,分别提取特征图中的通道信息和时间信息,并生成新的特征图,提高卷积神经网络的性能。
为了解决上述技术问题,本发明采用的技术方案是:
首先,本发明提供一种用于声音分类的联合注意力机制模型,将联合注意力模块嵌入卷积神经网络中,所述联合注意力模块包括两个子模块,分别是用于提取通道特征信息的通道注意力模块和用于提取时间特征信息的时间注意力模块;
所述通道注意力模块通过全局最大池化和全局平均池化压缩除了通道之外其它维度信息,利用特征通道间的关系生成通道注意力图,提取通道特征信息;
所述时间注意力模块通过全局最大池化和平均池化来压缩除了时间之外的其他维度信息,利用特征之间的时间关系生成了时间注意力图,提取时间特征信息。
进一步的,所述通道注意力模块由以下方式实现:使用两个平行的最大池化和平均池化压缩其它维度信息,得到两组含有通道信息的权重,之后通过多层感知机进行特征提取后线性相加,最后将其通过Sigmoid激活函数激活。
进一步的,所述通道注意力模块由以下方式实现:首先保留时间维度,对其它维度分别进行两次池化操作,分别是平均池化和最大池化,只保留时间维度上的信息,得到两组含有时间信息的权重,之后通过多层感知机进行特征提取后线性相加,最后将其通过Sigmoid激活函数激活。
进一步的,卷积神经网络的卷积层得到的初始特征图F∈RC×H×W,先通过通道注意力模块提取通道权重系数Mc(F),然后将Mc(F)与初始特征图F相乘,重新进行通道注意力的分配,得到特征图F′;再将F′输入到时间注意力模块中提取时间权重系数Mt(F),最后将Mt(F)与F′相乘,重新进行时间注意力的分配,得到最终的特征图F″。
本发明还提供一种声音分类方法,包括以下步骤:
步骤一、采用梅尔频率倒谱系数MFCC提取声音特征;
步骤二、基于卷积神经网络得到初始特征图;
步骤三、将卷积得到的初始特征图输入联合注意力机制模型,通过联合注意力机制模型将初始特征图中不同形状、不同时间段的特征区别开、赋予不同的权值,生成新的特征图,来聚合特征信息;
步骤四、基于卷积神经网络进行声音分类识别。
进一步的,所述的联合注意力机制模型包括通道注意力模块和时间注意力模块,所述通道注意力模块通过全局最大池化和全局平均池化来压缩除了通道之外的其它维度信息,利用特征通道间的关生成了通道注意力图,进而提取通道信息;所述时间注意力模块通过全局最大池化和平均池化来压缩除了时间之外的其它维度信息,只保留时间维度,利用特征之间的时间关系生成了时间注意力图,进而提取时间信息;
聚合特征信息时,首先通过压缩其它维度的特征,然后经过多层感知机,线性相加和激活操作得到通道注意力,只提取通道权重系数Mc(F),然后将Mc(F)与初始特征图F相乘,重新进行通道注意力的分配,得到特征图F′;再将F′输入到时间注意力模块中提取时间权重系数Mt(F),最后将Mt(F)与F′相乘,重新进行时间注意力的分配,得到最终的特征图F″。
本发明还提供一种用于声音分类的联合注意力机制模型的应用,用于声音分类。
与现有技术相比,本发明优点在于:
(1)本发明的联合注意力机制中的通道注意力模块通过全局最大池化和全局平均池化来压缩其它维度信息,利用特征通道间的关系生成了通道注意力图,进而提取通道特征信息;解决了模型关注输入图像“什么特征”的问题。
(2)联合注意力机制用的时间注意力模块通过最大池化和平均池化来压缩其它维度信息,利用特征之间的时间关系生成了时间注意力图,进而提取时间特征信息;解决了模型关注输入图像“什么时间段的特征”的问题。
(3)通过联合注意力机制可以加大重要特征的权重,减小无用特征的影响,进而提高CNN的性能,与传统CNN相比,本方法对声音进行分类时具有特殊性和侧重点,提高声音分类的准确度;尤其适用于声音分类。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的整体流程示意图;
图2为本发明的生成通道注意力模块流程图;
图3为本发明的生成时间注意力模块流程图;
图4为本发明的联合注意力机制流程图;
图5为本发明的MFCC提取流程图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步的说明。
由于声音信号具有多变的时频域特性,因此本发明在CBAM的基础上引入了时间注意力机制,它可以使网络对具有明显特征的时间帧给予更大的权重,对于无声或者噪声帧给予较小的权重。经过对CBAM中两种注意力的分析对比,选择了具有较强特征提取能力的通道注意力机制,结合时间注意力机制设计了一种联合注意力机制,该联合注意力机制可以随意嵌入任意二维CNN网络中,使模型自动关注语义相关的特征,提升了模型识别性能。
本发明的声音分类总体流程图如图1所示,采用梅尔频率倒谱系数来提取环境声音的特征,然后经过卷积神经网络和联合注意力机制的处理,进行声音分类。
具体的,本发明的用于声音分类的联合注意力机制模型,是将联合注意力模块嵌入卷积神经网络中,所述联合注意力模块包括两个子模块,分别是用于提取通道特征信息的通道注意力模块和用于提取时间特征信息的时间注意力模块。
(1)通道注意力模块
通道注意力主要关注输入图像“什么特征”。为了有效地计算通道注意力,本发明采用挤压其他纬度特征,只保留通道权重系数的方式。
结合图2所示的生成通道注意力模块流程图,首先使用两个平行的最大池化和平均池化对除了通道之外的其它特征进行压缩,得到两组含有通道信息的权重,之后通过多层感知机进行特征提取后线性相加,最后将其通过Sigmoid激活函数激活,得到通道注意力机制。通道注意力模块可以利用特征通道间的关系生成通道注意力图,提取通道特征信息。
(2)时间注意力模块
本部分根据频谱图不同的时间段的特征不同生成时间注意图。与通道注意力不同,时间注意力主要关注输入图像“什么时间段的特征”。为了有效地计算时间注意力,本发明挤压其他纬度特征,只保留时间权重系数。
结合图3所示的生成时间注意力模块流程图,首先保留时间维度,对其它维度分别进行两次池化操作,分别是平均池化和最大池化,只保留时间维度上的信息,得到两组含有时间信息的权重,之后通过多层感知机进行特征提取后线性相加,最后将其通过Sigmoid激活函数激活,得到了时间注意力机制。时间注意力模块通过全局最大池化和平均池化来其它维度信息,利用特征之间的时间关系生成了时间注意力图,提取时间特征信息。
(3)联合注意力机制
在对声音进行分类时,将图像输入到CNN中经过卷积生成Feature map,再将输入的Feature map输入到联合注意力模块生成新的Feature map来聚合特征信息。结合图4所示的联合注意力机制的流程图,具体说明如下:
将经过卷积神经网络的卷积层得到的初始特征图F∈RC×H×W,先通过通道注意力模块提取通道权重系数Mc(F),然后将Mc(F)与初始特征图F相乘,重新进行通道注意力的分配,得到特征图F′;再将F′输入到时间注意力模块中提取时间权重系数Mt(F),最后将Mt(F)与F′相乘,重新进行时间注意力的分配,得到最终的特征图F″。
本发明提出的联合注意力机制可以有效的将这些特征提取出来并充分利用;注意力模块可以随意嵌入任意二维CNN网络中,提升网络性能,但是为此增加的计算成本较少,具有较高的实用性。
作为本发明另一实施例,还提供一种声音分类方法,包括以下步骤:
步骤一、采用梅尔频率倒谱系数MFCC提取声音特征;
步骤二、基于卷积神经网络得到初始特征图;
步骤三、将卷积得到的初始特征图输入联合注意力机制模型,通过联合注意力机制模型将初始特征图中不同形状、不同时间段的特征区别开、赋予不同的权值,生成新的特征图,来聚合特征信息。
其中,所述的联合注意力机制模型包括通道注意力模块和时间注意力模块,所述通道注意力模块通过全局最大池化和全局平均池化来压缩除了通道之外的其它维度信息,利用特征通道间的关生成了通道注意力图,进而提取通道信息;所述时间注意力模块通过最大池化和平均池化来压缩除了时间之外的其他维度信息,只保留时间维度,利用特征之间的时间关系生成了时间注意力图,进而提取时间信息。
聚合特征信息时,首先通过压缩其它维度的特征,然后经过多层感知机,线性相加和激活操作得到通道注意力,只提取通道权重系数Mc(F),然后将Mc(F)与初始特征图F相乘,重新进行通道注意力的分配,得到特征图F′;再将F′输入到时间注意力模块中提取时间权重系数Mt(F),最后将Mt(F)与F′相乘,重新进行时间注意力的分配,得到最终的特征图F″。各模块功能及实现方式前面已经介绍,此处不再赘述。
步骤四、基于卷积神经网络进行声音分类识别。
需要说明的是,结合图5所示,本发明采用的梅尔频率倒谱系数MFCC提取流程如下:
(1)预加重:预加重对声音信号显得尤为重要,预加重可以实现对高频段声音信号频谱进行均衡设置。
(2)分帧和加窗:采用可移动的一定长度的窗口进行加权来实现分帧。然后对每一帧乘汉明窗。
(3)傅里叶变换:对声音信号的幅度谱进行提取,此操作在声音信号加窗后进行。
(4)梅尔滤波:傅里叶变换得到幅度谱,用梅尔滤波器组对其进行滤波操作,获得对数功率谱。
(5)DCT变换:通过离散余弦变换消除冗余信号。在对声音信号处理领域,DCT是常用的计算方式,但是对数据的处理方式是有损压缩,因此使用DCT减少各个滤波器组输出的能量相关性,得到梅尔倒谱系数。
作为本发明另一实施例,提供一种用于声音分类的联合注意力机制模型的应用,用于医学图像分类。
综上所述,本发明提出了通道注意力和时间注意力两种注意力机制,这不是一个完整的网络结构,而是一个子结构。其中通道注意力用来提高图像中关键特征的权重,而空间注意力可以提升图像中关键区域的权重,从而可以将图像中不同形状、不同时间段的特征区别开赋予不同的权值,进而实现了注意力机制在声音分类中的应用,在医疗保健领域也具有很好的应用。
(1)通道注意力模块,首先将特征图通过池化、卷积和非线性激活等操作计算出在通道上的权重向量,然后将权重向量与特征图在对应的维度上相乘,实现重要程度的再分配,解决了模型关注输入图像“什么特征”的问题。以上操作可以在将计算成本控制在一定范围内的同时并且有效提取通道特征信息。
(2)时间注意力模块,首先将特征图通过池化、卷积和非线性激活等操作计算出在时间上的权重向量,然后将权重向量与特征图在对应的维度上相乘,实现重要程度的再分配。解决了模型关注输入图像“什么时间段的特征”的问题。以上操作可以在将计算成本控制在一定范围内的同时并且有效提取时间特征信息。
(3)联合注意力机制,针对声音信号多变的时频特征,将通道注意力机制和时间注意力机制相结合生成联合注意力机制,可以取得比单一注意力机制更好的分类结果,并且联合注意力机制具有很强的适应性,适用于绝大多数采用二维时频特征作为输入的模型。
当然,上述说明并非是对本发明的限制,本发明也并不限于上述举例,本技术领域的普通技术人员,在本发明的实质范围内,做出的变化、改型、添加或替换,都应属于本发明的保护范围。

Claims (7)

1.一种用于声音分类的联合注意力机制模型,其特征在于,将联合注意力模块嵌入卷积神经网络中,所述联合注意力模块包括两个子模块,分别是用于提取通道特征信息的通道注意力模块和用于提取时间特征信息的时间注意力模块;
所述通道注意力模块通过全局最大池化和全局平均池化压缩除了通道之外的其它维度信息,利用特征通道间的关系生成通道注意力图,提取通道特征信息;
所述时间注意力模块通过全局最大池化和平均池化来压缩除了时间之外的其他维度信息,利用特征之间的时间关系生成了时间注意力图,提取时间特征信息。
2.根据权利要求1所述的用于声音分类的联合注意力机制模型,其特征在于,所述通道注意力模块由以下方式实现:使用两个平行的最大池化和平均池化其它维度信息进行压缩,得到两组含有通道信息的权重,之后通过多层感知机进行特征提取后线性相加,最后将其通过Sigmoid激活函数激活。
3.根据权利要求2所述的用于声音分类的联合注意力机制模型,其特征在于,所述时间注意力模块由以下方式实现:首先保留时间维度,对其它维度分别进行两次池化操作,分别是平均池化和最大池化,只保留时间维度上的信息,得到两组含有时间信息的权重,之后通过多层感知机进行特征提取后线性相加,最后将其通过Sigmoid激活函数激活。
4.根据权利要求3所述的用于声音分类的联合注意力机制模型,其特征在于,卷积神经网络的卷积层得到的初始特征图F∈RC×H×W,先通过通道注意力模块提取通道权重系数Mc(F),然后将Mc(F)与初始特征图F相乘,重新进行通道注意力的分配,得到特征图F′;再将F′输入到时间注意力模块中提取时间权重系数Mt(F),最后将Mt(F)与F′相乘,重新进行时间注意力的分配,得到最终的特征图F″。
5.一种声音分类方法,其特征在于,包括以下步骤:
步骤一、采用梅尔频率倒谱系数MFCC提取声音特征;
步骤二、基于卷积神经网络得到初始特征图;
步骤三、将卷积得到的初始特征图输入联合注意力机制模型,通过联合注意力机制模型将初始特征图中不同形状、不同时间段的特征区别开、赋予不同的权值,生成新的特征图,来聚合特征信息;
步骤四、基于卷积神经网络进行声音分类识别。
6.根据权利要求1所述的声音分类方法,其特征在于,所述的联合注意力机制模型包括通道注意力模块和时间注意力模块,所述通道注意力模块通过全局最大池化和全局平均池化来压缩除了通道之外的其它维度信息,利用特征通道间的关系生成了通道注意力图,进而提取通道信息;所述时间注意力模块通过全局最大池化和平均池化来压缩除了时间之外的其他维度信息,只保留时间维度,利用特征之间的时间关系生成了时间注意力图,进而提取时间信息;
聚合特征信息时,首先通过压缩其它维度的特征,然后经过多层感知机,线性相加和激活操作得到通道注意力,只提取通道权重系数Mc(F),然后将Mc(F)与初始特征图F相乘,重新进行通道注意力的分配,得到特征图F′;再将F′输入到时间注意力模块中提取时间权重系数Mt(F),最后将Mt(F)与F′相乘,重新进行时间注意力的分配,得到最终的特征图F″。
7.权利要求1-4任一项所述的用于声音分类的联合注意力机制模型的应用,其特征在于,用于声音分类。
CN202110774336.3A 2021-07-08 2021-07-08 一种用于声音分类的联合注意力机制模型、方法及应用 Pending CN113539297A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110774336.3A CN113539297A (zh) 2021-07-08 2021-07-08 一种用于声音分类的联合注意力机制模型、方法及应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110774336.3A CN113539297A (zh) 2021-07-08 2021-07-08 一种用于声音分类的联合注意力机制模型、方法及应用

Publications (1)

Publication Number Publication Date
CN113539297A true CN113539297A (zh) 2021-10-22

Family

ID=78127176

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110774336.3A Pending CN113539297A (zh) 2021-07-08 2021-07-08 一种用于声音分类的联合注意力机制模型、方法及应用

Country Status (1)

Country Link
CN (1) CN113539297A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114612791A (zh) * 2022-05-11 2022-06-10 西南民族大学 一种基于改进注意力机制的目标检测方法及装置
CN115206305A (zh) * 2022-09-16 2022-10-18 北京达佳互联信息技术有限公司 语义文本的生成方法、装置、电子设备及存储介质
CN116645978A (zh) * 2023-06-20 2023-08-25 方心科技股份有限公司 基于超算并行环境的电力故障声类别增量学习系统及方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107527626A (zh) * 2017-08-30 2017-12-29 北京嘉楠捷思信息技术有限公司 一种音频识别系统
CN108364023A (zh) * 2018-02-11 2018-08-03 北京达佳互联信息技术有限公司 基于注意力模型的图像识别方法和系统
CN109949824A (zh) * 2019-01-24 2019-06-28 江南大学 基于N-DenseNet和高维mfcc特征的城市声音事件分类方法
CN111539343A (zh) * 2020-04-26 2020-08-14 安徽皖仪科技股份有限公司 一种基于卷积注意力网络的黑烟车检测方法
CN112270280A (zh) * 2020-11-02 2021-01-26 重庆邮电大学 一种基于深度学习的遥感图像中的露天矿场检测方法
CN112329760A (zh) * 2020-11-17 2021-02-05 内蒙古工业大学 基于空间变换网络端到端印刷体蒙古文识别翻译的方法
CN112581980A (zh) * 2021-02-26 2021-03-30 中国科学院自动化研究所 时频通道注意力权重计算和向量化的方法和网络
CN112653899A (zh) * 2020-12-18 2021-04-13 北京工业大学 一种基于联合注意力ResNeSt的复杂场景下网络直播视频特征提取方法
CN112990391A (zh) * 2021-05-20 2021-06-18 四川大学 基于特征融合的卷积神经网络的缺陷分类识别系统

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107527626A (zh) * 2017-08-30 2017-12-29 北京嘉楠捷思信息技术有限公司 一种音频识别系统
CN108364023A (zh) * 2018-02-11 2018-08-03 北京达佳互联信息技术有限公司 基于注意力模型的图像识别方法和系统
WO2019153908A1 (zh) * 2018-02-11 2019-08-15 北京达佳互联信息技术有限公司 基于注意力模型的图像识别方法和系统
CN109949824A (zh) * 2019-01-24 2019-06-28 江南大学 基于N-DenseNet和高维mfcc特征的城市声音事件分类方法
CN111539343A (zh) * 2020-04-26 2020-08-14 安徽皖仪科技股份有限公司 一种基于卷积注意力网络的黑烟车检测方法
CN112270280A (zh) * 2020-11-02 2021-01-26 重庆邮电大学 一种基于深度学习的遥感图像中的露天矿场检测方法
CN112329760A (zh) * 2020-11-17 2021-02-05 内蒙古工业大学 基于空间变换网络端到端印刷体蒙古文识别翻译的方法
CN112653899A (zh) * 2020-12-18 2021-04-13 北京工业大学 一种基于联合注意力ResNeSt的复杂场景下网络直播视频特征提取方法
CN112581980A (zh) * 2021-02-26 2021-03-30 中国科学院自动化研究所 时频通道注意力权重计算和向量化的方法和网络
CN112990391A (zh) * 2021-05-20 2021-06-18 四川大学 基于特征融合的卷积神经网络的缺陷分类识别系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李昊轩: "基于深度学习的音频事件分类研究", 中国优秀硕士学位论文全文数据库信息科技辑, no. 4, pages 27 - 72 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114612791A (zh) * 2022-05-11 2022-06-10 西南民族大学 一种基于改进注意力机制的目标检测方法及装置
CN114612791B (zh) * 2022-05-11 2022-07-29 西南民族大学 一种基于改进注意力机制的目标检测方法及装置
CN115206305A (zh) * 2022-09-16 2022-10-18 北京达佳互联信息技术有限公司 语义文本的生成方法、装置、电子设备及存储介质
CN115206305B (zh) * 2022-09-16 2023-01-20 北京达佳互联信息技术有限公司 语义文本的生成方法、装置、电子设备及存储介质
CN116645978A (zh) * 2023-06-20 2023-08-25 方心科技股份有限公司 基于超算并行环境的电力故障声类别增量学习系统及方法
CN116645978B (zh) * 2023-06-20 2024-02-02 方心科技股份有限公司 基于超算并行环境的电力故障声类别增量学习系统及方法

Similar Documents

Publication Publication Date Title
CN113539297A (zh) 一种用于声音分类的联合注意力机制模型、方法及应用
CN108447495B (zh) 一种基于综合特征集的深度学习语音增强方法
CN109036382B (zh) 一种基于kl散度的音频特征提取方法
US7457749B2 (en) Noise-robust feature extraction using multi-layer principal component analysis
CN110033756B (zh) 语种识别方法、装置、电子设备及存储介质
CN111276125B (zh) 一种面向边缘计算的轻量级语音关键词识别方法
JP4797342B2 (ja) オーディオデータを自動的に認識する方法及び装置
Deng et al. Exploiting time-frequency patterns with LSTM-RNNs for low-bitrate audio restoration
CN109767756B (zh) 一种基于动态分割逆离散余弦变换倒谱系数的音声特征提取算法
CN103403710A (zh) 对来自音频信号的特征指纹的提取和匹配
CN113488058B (zh) 一种基于短语音的声纹识别方法
WO2007070007A1 (en) A method and system for extracting audio features from an encoded bitstream for audio classification
CN109785847B (zh) 基于动态残差网络的音频压缩算法
CN103021405A (zh) 基于music和调制谱滤波的语音信号动态特征提取方法
CN106024010A (zh) 一种基于共振峰曲线的语音信号动态特征提取方法
US20220399007A1 (en) System and method for robust wakeword detection in presence of noise in new unseen environments without additional data
CN112735435A (zh) 具备未知类别内部划分能力的声纹开集识别方法
CN110931023A (zh) 性别识别方法、系统、移动终端及存储介质
Reddy et al. Audio compression with multi-algorithm fusion and its impact in speech emotion recognition
Verma et al. Speaker-independent source cell-phone identification for re-compressed and noisy audio recordings
CN110120228A (zh) 基于声谱图及深度残差网络的音频通用隐写分析方法及系统
CN113823303A (zh) 音频降噪方法、装置及计算机可读存储介质
CN111785262A (zh) 一种基于残差网络及融合特征的说话人年龄性别分类方法
CN104715756A (zh) 音频数据的处理方法及装置
CN113113048B (zh) 语音情绪识别方法、装置、计算机设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination