CN113220932A - 一种基于多任务学习的音频场景识别方法及装置 - Google Patents
一种基于多任务学习的音频场景识别方法及装置 Download PDFInfo
- Publication number
- CN113220932A CN113220932A CN202110362915.7A CN202110362915A CN113220932A CN 113220932 A CN113220932 A CN 113220932A CN 202110362915 A CN202110362915 A CN 202110362915A CN 113220932 A CN113220932 A CN 113220932A
- Authority
- CN
- China
- Prior art keywords
- audio
- scene
- event
- audio scene
- scene recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 239000011159 matrix material Substances 0.000 claims abstract description 62
- 238000012549 training Methods 0.000 claims abstract description 42
- 230000006870 function Effects 0.000 claims abstract description 33
- 238000009826 distribution Methods 0.000 claims abstract description 9
- 238000001514 detection method Methods 0.000 claims description 27
- 238000012545 processing Methods 0.000 claims description 16
- 239000013598 vector Substances 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 15
- 238000009432 framing Methods 0.000 claims description 11
- 238000013527 convolutional neural network Methods 0.000 claims description 9
- 238000003860 storage Methods 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 3
- 238000012360 testing method Methods 0.000 abstract description 2
- 239000000284 extract Substances 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 12
- 230000004913 activation Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011840 criminal investigation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/65—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/683—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/686—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title or artist information, time, location or usage information, user ratings
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Library & Information Science (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种基于多任务学习的音频场景识别方法及装置,该方法在训练阶段提取音频片段的特征矩阵,为其添加音频场景标签;为音频帧添加音频事件标签,构建训练集;构建音频事件与音频场景识别模型;基于交叉熵L1与交叉熵和L2构造损失函数,基于该损失函数对音频事件与音频场景识别模型进行训练,得到训练好的模型。测试阶段,提取待识别音频片段的特征矩阵作为训练好的音频事件与音频场景识别模型的输入,在音频场景识别模型输出层得到待识别音频片段在各个场景类上的概率分布,取具有最大概率值的场景类作为识别结果。本发明可以大幅度减少模型参数数量;可以节省标注成本;对于缺乏音频事件标签的音频场景数据库,本发明同样适用。
Description
技术领域
本发明属于音频场景识别相关技术领域,尤其涉及一种基于多任务学习的音频场景识别方法及装置。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
音频场景识别是指通过音频判断音频录制的周围场景信息。音频场景识别具有广阔的应用前景,可以广泛用于刑侦追踪、自动驾驶、安全监控等领域,在近几年得到科研界和工业界的广泛重视。
音频事件检测和音频场景识别作为音频领域的两大研究方向,通常是被分开研究的,但是,音频场景中通常包含一系列音频事件,音频场景类是对这一系列音频事件的高层语义表达,因此,音频事件检测研究和音频场景识别研究之间有着必然的联系,合理地结合音频事件检测技术将有助于提高音频场景识别的准确率。
发明内容
本发明为了解决上述合理地结合音频事件检测技术,以提高音频场景识别准确率问题,提供了一种基于多任务学习的音频场景识别方法及装置,该方法通过多任务学习,在一个模型中同时实现音频事件检测和音频场景识别,并通过注意力机制将音频事件检测和音频场景识别进行有效结合,使音频事件检测辅助提高音频场景识别准确率。
为了实现上述目的,本发明采用如下技术方案:
本发明的第一个方面提供一种基于多任务学习的音频场景识别方法。
一种基于多任务学习的音频场景识别方法,包括:
步骤(1):获取音频数据库,对每个音频场景片段进行分帧处理,提取每帧的音频特征,每个音频片段内所有帧的音频特征构成该音频片段的特征矩阵,构建音频特征训练集,并为每个音频场景片段添加音频场景标签;
步骤(2):采用聚类方法为音频特征训练集中的每个音频帧添加音频事件标签;
步骤(3):构建音频事件与音频场景识别模型,将步骤(1)中的音频片段的特征矩阵输入音频事件与音频场景识别模型中,基于当前音频片段的场景标签和音频场景识别输出层的输出求取交叉熵L1,同时基于当前音频片段中音频帧的音频事件标签和音频事件检测输出层的输出求取交叉熵,进而得到当前音频片段所有帧的交叉熵和L2;
步骤(4):基于交叉熵L1和交叉熵和L2构造损失函数,基于该损失函数对音频事件与音频场景识别模型进行训练,得到训练好的音频事件与音频场景识别模型;
步骤(5):对待识别的音频片段,用和步骤(1)中同样的方法对其进行分帧处理,提取每帧的音频特征,音频片段内所有帧的音频特征构成待识别音频片段的特征矩阵。将待识别音频片段的特征矩阵输入训练好的音频事件与音频场景识别模型,在音频场景识别输出层得到待识别音频片段在各个音频场景类上的概率分布,取具有最大概率值的音频场景类作为识别结果。
优选的,所述特征矩阵为logmel特征矩阵。
本发明的第二个方面提供一种基于多任务学习的音频场景识别装置。
一种基于多任务学习的音频场景识别装置,包括:
音频特征训练集构建模块,其被配置为:获取音频数据库,对每个音频场景片段进行分帧处理,提取每帧的音频特征,每个音频片段内所有帧的音频特征构成该音频片段的特征矩阵,构建音频特征训练集,并为每个音频场景片段添加音频场景标签;
音频事件标签添加模块,其被配置为:采用聚类方法为音频特征训练集中的每个音频帧添加音频事件标签;
模型构建模块,其被配置为:构建音频事件与音频场景识别模型,将音频片段的特征矩阵输入音频事件与音频场景识别模型中,基于当前音频片段的场景标签和音频场景识别输出层的输出求取交叉熵L1,同时基于当前音频片段中音频帧的音频事件标签和音频事件检测输出层的输出求取交叉熵,进而得到当前音频片段所有帧的交叉熵和L2;
模型训练模块,其被配置为:基于交叉熵L1和交叉熵和L2构造损失函数,基于该损失函数对音频事件与音频场景识别模型进行训练,得到训练好的音频事件与音频场景识别模型;
识别结果输出模块,其被配置为:对待识别的音频片段,用和步骤(1)中同样的方法对其进行分帧处理,提取每帧的音频特征,音频片段内所有帧的音频特征构成待识别音频片段的特征矩阵。将待识别音频片段的特征矩阵输入训练好的音频事件与音频场景识别模型,在音频场景识别输出层得到待识别音频片段在各个音频场景类上的概率分布,取具有最大概率值的音频场景类作为识别结果。
优选的,所述特征矩阵为logmel特征矩阵。
本发明的第三个方面提供一种计算机可读存储介质。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一方面所述的基于多任务学习的音频场景识别方法中的步骤。
本发明的第四个方面提供一种计算机设备。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述第一方面所述的基于多任务学习的音频场景识别方法中的步骤。
与现有技术相比,本发明的有益效果是:
(1)本发明通过多任务学习将音频领域的音频事件检测和音频场景识别两大技术相结合,通过一个模型同时实现音频事件检测和音频场景识别。与分别为音频事件检测和音频场景识别建模相比,在同等识别性能下,本发明设计的模型可以大幅度减少模型参数的数量。
(2)本发明通过注意力机制来有效地利用音频事件检测,使得音频事件检测能辅助提高音频场景识别准确率。
(3)本发明通过聚类方法为训练音频样本添加音频事件标签,使得多任务学习模型在训练时不需要人工标注音频样本的音频事件标签,大大节省了样本的标注成本。
(4)由于本发明提出的音频场景识别算法可以通过聚类自动添加音频事件标签,因此,本发明提出的算法不受音频场景数据库的限制,对于缺乏音频事件标签的音频场景数据库,该算法同样适用。
本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1是本发明基于多任务学习的音频场景识别方法的流程图;
图2是本发明基于多任务学习的音频场景识别方法的设计结构图;
图3是图2中的卷积神经网络的结构示意图。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
实施例一
如图1所示,本实施例提供了一种基于多任务学习的音频场景识别方法,包括:
步骤(1):获取音频数据库,对每个音频场景片段进行分帧处理,提取每帧的音频特征,每个音频片段内所有帧的音频特征构成该音频片段的特征矩阵,构建音频特征训练集,并为每个音频场景片段添加音频场景标签;
其中步骤(1)包括:
步骤(1-1):对数据库中每个音频场景片段进行分帧处理,并对每帧提取音频场景识别领域常用的音频特征:40维logmel特征,得到每个音频场景片段的尺寸为40×n的logmel特征矩阵,n表示音频场景片段中包含的帧的数量;
步骤(1-2):对每个音频场景片段,采用one-hot向量形式为其添加音频场景标签:对于数据库中的第i类场景,其场景标签为[0,0,…,1,0,…,0],标签向量只在第i维的值为1,在其它维度上的值都为0;
步骤(1-3):得到带有音频场景标签的音频特征训练集。
步骤(2):采用聚类方法为音频特征训练集中的每个音频帧添加音频事件标签;
其中步骤(2)包括:
步骤(2-1):以音频特征训练集中每个音频帧为一个样本,对音频特征训练集中的所有样本进行聚类,聚类的簇的数量设置为数据库中音频事件的类别数M;
步骤(2-2):对每个样本,求其与各个簇中心的欧式距离的倒数,并进行softmax归一,将归一化后的距离倒数向量softmax([1/d1,1/d2,…,1/dM])作为样本的音频事件标签;其中,d1表示样本与第一个簇的簇中心的欧式距离,d2表示样本与第二个簇的簇中心的欧式距离,dM表示样本与第M个簇的簇中心的欧式距离,softmax(·)表示softmax归一化;
步骤(2-3):为音频片段中的每个音频帧添加了音频事件标签,得到带有音频事件标签的音频帧。
步骤(3):构建音频事件与音频场景识别模型,将音频片段的logmel特征矩阵输入音频事件与音频场景识别模型中,基于当前音频片段的场景标签和音频场景识别输出层的输出求取交叉熵L1,同时基于当前音频片段中的音频帧的音频事件标签和音频事件检测输出层的输出求取交叉熵,进而得到当前音频片段所有帧的交叉熵和L2;
其中步骤(3)包括,如图2所示:
步骤(3-1):从音频特征训练集中按顺序选择一个音频片段,记该音频片段的logmel特征矩阵为G,将其分别作为音频事件与音频场景识别模型的输入,在音频事件检测模型的卷积神经网络输出端得到特征矩阵E,在音频场景识别模型的卷积神经网络输出端得到特征矩阵S;
其中,在训练阶段,G表示训练集中音频片段的logmel特征矩阵;
步骤(3-2):由特征矩阵S,E求得注意力系数矩阵A:A=ST·E;
步骤(3-3):由注意力系数矩阵A和特征矩阵E构造音频场景特征向量R:R=flatten(E·AT);其中flatten(·)表示将矩阵通过各行首尾相接的方式展开成向量;
步骤(3-4):根据该音频片段的场景标签和音频场景识别输出层的输出求交叉熵,记作L1;
步骤(3-5):对该音频片段中的各个帧,根据其音频事件标签和音频事件检测输出层的输出求交叉熵,将该音频片段中所有帧的交叉熵求和,记此交叉熵和为L2。
步骤(4):基于交叉熵L1和交叉熵和L2构造损失函数,基于损失函数对音频事件与音频场景识别模型进行训练,得到训练好的音频事件与音频场景识别模型;
其中步骤(4)包括:
步骤(4-1):令L=L1+L2,以L为整个网络模型的损失函数,对音频事件与音频场景识别模型进行训练;
步骤(4-2):重复步骤(3)-步骤(4-1),直至损失函数值L小于预设的阈值;
步骤(4-3):输出训练好的音频事件与音频场景识别模型。
步骤(5):对待识别的音频片段,用和步骤(1)中同样的方法对其进行分帧处理,提取每帧的音频特征,音频片段内所有帧的音频特征构成待识别音频片段的logmel特征矩阵。将待识别音频片段的特征矩阵输入训练好的音频事件与音频场景识别模型,在音频场景识别输出层得到待识别音频片段在各个音频场景类上的概率分布,取具有最大概率值的音频场景类作为识别结果。
具体的,以待识别音频片段的logmel特征矩阵作为训练好的音频事件与音频场景识别模型的输入G。
图2是本发明基于多任务学习的音频场景识别方法的设计结构图,如图2所示:图2中两个卷积神经网络的结构完全相同,其结构示意图如图3所示,包括两层卷积层和一层最大池化层。卷积层的卷积步移stride参数设置为1,通过padding方法使卷积层输出的每个特征图的尺寸和输入G的尺寸相同。卷积层节点的个数和卷积窗口的尺寸等参数根据数据情况,通过调试得到。最大池化层的窗口尺寸设置为C×1×1,C表示第二层卷积层输出的通道数量。最大池化层对第二层卷积层输出的C个通道的特征图,在每个位置处进行最大池化操作,步移stride参数设置为1。最大池化层输出的特征矩阵尺寸和输入G的尺寸相同。
假设有一带有音频场景标签的定长音频场景数据库,数据库中共包含N类音频场景,M类音频事件。
图2中的音频场景识别模型部分在特征向量R后接一层全连接层和输出层。全连接层的节点个数根据数据情况,通过调试得到,采用ReLU函数作为激活函数。音频场景识别属于多类分类,输出层节点个数设置为数据库中音频场景的类别数N,采用softmax函数作为激活函数,其输出值表示音频片段在各个音频场景类上的概率分布。
图2中的音频事件检测模型部分在特征矩阵E后接一层全连接层和输出层。全连接层的节点的个数根据数据情况,通过调试得到,采用ReLU函数作为激活函数。音频事件检测属于多类分类,输出层节点个数设置为音频事件的类别数M,采用softmax函数作为激活函数。
图2是本发明基于多任务学习的音频场景识别方法的设计结构图,如图2所示:本发明提出的一种基于多任务学习的音频场景识别方法的实施步骤为:
训练阶段:
(1)对数据库中每个音频场景片段进行分帧处理,对每帧提取音频场景识别领域常用的音频特征:40维logmel特征,得到每个音频片段的尺寸为40×n的logmel特征矩阵,n表示音频片段中包含的帧的数量。采用one-hot向量表示音频场景标签:对于数据库中的第i类场景,其场景标签为[0,0,…,1,0,…,0],标签向量只在第i维的值为1,在其它维度上的值都为0。
(2)以训练集中的一帧作为一个样本,对训练集中的所有样本进行聚类,聚类的簇的数量设置为数据库中音频事件的类别数M。对每个样本,求其与各个簇中心的欧式距离的倒数,并进行softmax归一,将归一化后的距离倒数向量softmax([1/d1,1/d2,…,1/dM])作为样本的音频事件标签。其中,d1表示样本与第一个簇的簇中心的欧式距离,d2表示样本与第二个簇的簇中心的欧式距离,dM表示样本与第M个簇的簇中心的欧式距离。softmax(·)表示softmax归一化。
(3)从数据库中按顺序选择一个音频片段,记该音频片段的logmel特征矩阵为G,将其分别作为图2中两个卷积神经网络的输入,得到特征矩阵S,E。
(4)由特征矩阵S,E求得注意力系数矩阵A:A=ST·E。
(5)由注意力系数矩阵A和特征矩阵E构造音频场景特征向量R:
R=flatten(E·AT)
其中flatten(·)表示将矩阵通过各行首尾相接的方式展开成向量。
(6)根据该音频片段的场景标签和音频场景识别输出层的输出求交叉熵,记作L1。
(7)对该音频片段中的各个帧,根据其音频事件标签和音频事件检测输出层的输出求交叉熵,将该音频片段中所有帧的交叉熵求和,记此交叉熵和为L2。
(8)令L=L1+L2,以L为整个网络模型的损失函数,对整个网络模型进行训练。整个网络模型包括音频场景识别模型部分和音频事件检测模型部分。
(9)重复步骤(3)-(8),直至整个网络模型的损失函数值L小于预设的阈值,得到训练好的整个网络模型,也即得到训练好的音频场景识别模型和训练好的音频事件检测模型。
测试阶段:
对待识别的音频片段,用和步骤(1)中同样的方法对其进行分帧处理,提取每帧的音频特征,音频片段内所有帧的音频特征构成待识别音频片段的logmel特征矩阵。以待识别音频片段的logmel特征矩阵作为训练好的音频事件与音频场景识别模型的输入G,在音频场景识别输出层得到待识别音频片段在各个音频场景类上的概率分布,取具有最大概率值的音频场景类作为识别结果。
本发明通过多任务学习将音频领域的音频事件检测和音频场景识别两大技术相结合,通过一个模型同时实现音频事件检测和音频场景识别。与分别为音频事件检测和音频场景识别建模相比,在同等识别性能下,本公开设计的模型可以大幅度减少模型参数的数量。
实施例二
本实施例提供了一种基于多任务学习的音频场景识别装置,包括:
音频特征训练集构建模块,其被配置为:获取音频数据库,对每个音频场景片段进行分帧处理,提取每帧的音频特征,每个音频片段内所有帧的音频特征构成该音频片段的特征矩阵,构建音频特征训练集,并为每个音频场景片段添加音频场景标签;
音频事件标签添加模块,其被配置为:采用聚类方法为音频特征训练集中的每个音频帧添加音频事件标签,得到带有音频事件标签的音频帧;
模型构建模块,其被配置为:构建音频事件与音频场景识别模型,将音频片段的特征矩阵输入音频事件与音频场景识别模型中,基于当前音频片段的场景标签和音频场景识别输出层的输出求取交叉熵L1,同时基于当前音频片段中音频帧的音频事件标签和音频事件检测输出层的输出求取交叉熵,进而得到当前音频片段所有帧的交叉熵和L2;
模型训练模块,其被配置为:基于交叉熵L1和交叉熵和L2构造损失函数,基于该损失函数对音频事件与音频场景识别模型进行训练,得到训练好的音频事件与音频场景识别模型;
识别结果输出模块,其被配置为:提取待识别音频片段的特征矩阵,将待识别的音频片段的特征矩阵输入训练好的音频事件与音频场景识别模型,在音频场景识别输出层得到待识别音频片段在各个音频场景类上的概率分布,取具有最大概率值的音频场景类作为识别结果。
实施例三
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述实施例一所述的基于多任务学习的音频场景识别方法中的步骤。
实施例四
本实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述实施例一所述的基于多任务学习的音频场景识别方法中的步骤。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccessMemory,RAM)等。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于多任务学习的音频场景识别方法,其特征在于,包括:
步骤(1):获取音频数据库,对每个音频场景片段进行分帧处理,提取每帧的音频特征,每个音频片段内所有帧的音频特征构成该音频片段的特征矩阵,构建音频特征训练集,并为每个音频场景片段添加音频场景标签;
步骤(2):采用聚类方法为音频特征训练集中的每个音频帧添加音频事件标签;
步骤(3):构建音频事件与音频场景识别模型,将步骤(1)中的音频片段的特征矩阵输入音频事件与音频场景识别模型中,基于当前音频片段的场景标签和音频场景识别输出层的输出求取交叉熵L1,同时基于当前音频片段中音频帧的音频事件标签和音频事件检测输出层的输出求取交叉熵,进而得到当前音频片段所有帧的交叉熵和L2;
步骤(4):基于交叉熵L1和交叉熵和L2构造损失函数,基于该损失函数对音频事件与音频场景识别模型进行训练,得到训练好的音频事件与音频场景识别模型;
步骤(5):对待识别的音频片段,用和步骤(1)中同样的方法对其进行分帧处理,提取每帧的音频特征,音频片段内所有帧的音频特征构成待识别音频片段的特征矩阵;将待识别音频片段的特征矩阵输入训练好的音频事件与音频场景识别模型,在音频场景识别输出层得到待识别音频片段在各个音频场景类上的概率分布,取具有最大概率值的音频场景类作为识别结果。
2.根据权利要求1所述的基于多任务学习的音频场景识别方法,其特征在于,所述步骤(1)包括:
步骤(1-1):对数据库中每个音频场景片段进行分帧处理,并对每帧提取音频场景识别领域常用的音频特征:40维logmel特征,得到每个音频场景片段的尺寸为40×n的logmel特征矩阵,n表示音频场景片段中包含的帧的数量;
步骤(1-2):对每个音频场景片段,采用one-hot向量形式为其添加音频场景标签:对于数据库中的第i类场景,其场景标签为[0,0,…,1,0,…,0],标签向量只在第i维的值为1,在其它维度上的值都为0;
步骤(1-3):得到带有音频场景标签的音频特征训练集。
3.根据权利要求1所述的基于多任务学习的音频场景识别方法,其特征在于,所述步骤(2)包括:
步骤(2-1):以音频特征训练集中每个音频帧为一个样本,对音频特征训练集中的所有样本进行聚类,聚类的簇的数量设置为数据库中音频事件的类别数M;
步骤(2-2):对每个样本,求其与各个簇中心的欧式距离的倒数,并进行softmax归一,将归一化后的距离倒数向量softmax([1/d1,1/d2,…,1/dM])作为样本的音频事件标签;其中,d1表示样本与第一个簇的簇中心的欧式距离,d2表示样本与第二个簇的簇中心的欧式距离,dM表示样本与第M个簇的簇中心的欧式距离,softmax(·)表示softmax归一化;
步骤(2-3):为音频片段中的每个音频帧添加了音频事件标签,得到带有音频事件标签的音频帧。
4.根据权利要求1所述的基于多任务学习的音频场景识别方法,其特征在于,所述步骤(3)包括:
步骤(3-1):从音频特征训练集中按顺序选择一个音频片段,记该音频片段的logmel特征矩阵为G,将其分别作为音频事件与音频场景识别模型的输入,在音频事件检测模型的卷积神经网络输出端得到特征矩阵E,在音频场景识别模型的卷积神经网络输出端得到特征矩阵S;
步骤(3-2):由特征矩阵S,E求得注意力系数矩阵A:A=ST·E;
步骤(3-3):由注意力系数矩阵A和特征矩阵E构造音频场景特征向量R:R=flatten(E·AT);其中flatten(·)表示将矩阵通过各行首尾相接的方式展开成向量;
步骤(3-4):根据该音频片段的场景标签和音频场景识别输出层的输出求交叉熵,记作L1;
步骤(3-5):对该音频片段中的各个帧,根据其音频事件标签和音频事件检测输出层的输出求交叉熵,将该音频片段中所有帧的交叉熵求和,记此交叉熵和为L2。
5.根据权利要求1所述的基于多任务学习的音频场景识别方法,其特征在于,所述步骤(4)包括:
步骤(4-1):令L=L1+L2,以L为整个网络模型的损失函数,对音频事件与音频场景识别模型进行训练;
步骤(4-2):重复步骤(3)-步骤(4-1),直至损失函数值L小于预设的阈值;
步骤(4-3):输出训练好的音频事件与音频场景识别模型。
6.根据权利要求1所述的基于多任务学习的音频场景识别方法,其特征在于,所述音频事件与音频场景识别模型包括:两个结构相同的卷积神经网络,每个卷积神经网络包括两层卷积层和一层最大池化层。
7.根据权利要求6所述的基于多任务学习的音频场景识别方法,其特征在于,所述卷积层的卷积步移stride参数设置为1,所述最大池化层的窗口尺寸设置为C×1×1,C表示第二层卷积层输出的通道数量。
8.一种基于多任务学习的音频场景识别装置,其特征在于,包括:
音频特征训练集构建模块,其被配置为:获取音频数据库,对每个音频场景片段进行分帧处理,提取每帧的音频特征,每个音频片段内所有帧的音频特征构成该音频片段的特征矩阵,构建音频特征训练集,并为每个音频场景片段添加音频场景标签;
音频事件标签添加模块,其被配置为:采用聚类方法为音频特征训练集中的每个音频帧添加音频事件标签;
模型构建模块,其被配置为:构建音频事件与音频场景识别模型,将音频片段的特征矩阵输入音频事件与音频场景识别模型中,基于当前音频片段的场景标签和音频场景识别输出层的输出求取交叉熵L1,同时基于当前音频片段中音频帧的音频事件标签和音频事件检测输出层的输出求取交叉熵,进而得到当前音频片段所有帧的交叉熵和L2;
模型训练模块,其被配置为:基于交叉熵L1和交叉熵和L2构造损失函数,基于该损失函数对音频事件与音频场景识别模型进行训练,得到训练好的音频事件与音频场景识别模型;
识别结果输出模块,其被配置为:提取待识别音频片段的特征矩阵,将待识别的音频片段的特征矩阵输入训练好的音频事件与音频场景识别模型,在音频场景识别输出层得到待识别音频片段在各个音频场景类上的概率分布,取具有最大概率值的音频场景类作为识别结果。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一项所述的基于多任务学习的音频场景识别方法中的步骤。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7中任一项所述的基于多任务学习的音频场景识别方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110362915.7A CN113220932B (zh) | 2021-04-02 | 2021-04-02 | 一种基于多任务学习的音频场景识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110362915.7A CN113220932B (zh) | 2021-04-02 | 2021-04-02 | 一种基于多任务学习的音频场景识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113220932A true CN113220932A (zh) | 2021-08-06 |
CN113220932B CN113220932B (zh) | 2022-06-10 |
Family
ID=77086445
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110362915.7A Expired - Fee Related CN113220932B (zh) | 2021-04-02 | 2021-04-02 | 一种基于多任务学习的音频场景识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113220932B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113593606A (zh) * | 2021-09-30 | 2021-11-02 | 清华大学 | 音频识别方法和装置、计算机设备、计算机可读存储介质 |
CN113921039A (zh) * | 2021-09-29 | 2022-01-11 | 山东师范大学 | 一种基于多任务学习的音频事件检测方法及系统 |
CN114171057A (zh) * | 2021-12-03 | 2022-03-11 | 安徽继远软件有限公司 | 基于声纹的变压器事件检测方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106205609A (zh) * | 2016-07-05 | 2016-12-07 | 山东师范大学 | 一种基于音频事件和主题模型的音频场景识别方法及其装置 |
CN109448703A (zh) * | 2018-11-14 | 2019-03-08 | 山东师范大学 | 结合深度神经网络和主题模型的音频场景识别方法及系统 |
CN110046655A (zh) * | 2019-03-26 | 2019-07-23 | 天津大学 | 一种基于集成学习的音频场景识别方法 |
CN110853672A (zh) * | 2019-11-08 | 2020-02-28 | 山东师范大学 | 一种用于音频场景分类的数据扩充方法及装置 |
CN111653290A (zh) * | 2020-05-29 | 2020-09-11 | 北京百度网讯科技有限公司 | 音频场景分类模型生成方法、装置、设备以及存储介质 |
WO2020248471A1 (zh) * | 2019-06-14 | 2020-12-17 | 华南理工大学 | 一种基于集聚交叉熵损失函数的序列识别方法 |
CN112559797A (zh) * | 2020-12-22 | 2021-03-26 | 湖南大学 | 一种基于深度学习的音频多标签分类方法 |
-
2021
- 2021-04-02 CN CN202110362915.7A patent/CN113220932B/zh not_active Expired - Fee Related
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106205609A (zh) * | 2016-07-05 | 2016-12-07 | 山东师范大学 | 一种基于音频事件和主题模型的音频场景识别方法及其装置 |
CN109448703A (zh) * | 2018-11-14 | 2019-03-08 | 山东师范大学 | 结合深度神经网络和主题模型的音频场景识别方法及系统 |
CN110046655A (zh) * | 2019-03-26 | 2019-07-23 | 天津大学 | 一种基于集成学习的音频场景识别方法 |
WO2020248471A1 (zh) * | 2019-06-14 | 2020-12-17 | 华南理工大学 | 一种基于集聚交叉熵损失函数的序列识别方法 |
CN110853672A (zh) * | 2019-11-08 | 2020-02-28 | 山东师范大学 | 一种用于音频场景分类的数据扩充方法及装置 |
CN111653290A (zh) * | 2020-05-29 | 2020-09-11 | 北京百度网讯科技有限公司 | 音频场景分类模型生成方法、装置、设备以及存储介质 |
CN112559797A (zh) * | 2020-12-22 | 2021-03-26 | 湖南大学 | 一种基于深度学习的音频多标签分类方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113921039A (zh) * | 2021-09-29 | 2022-01-11 | 山东师范大学 | 一种基于多任务学习的音频事件检测方法及系统 |
CN113593606A (zh) * | 2021-09-30 | 2021-11-02 | 清华大学 | 音频识别方法和装置、计算机设备、计算机可读存储介质 |
CN114171057A (zh) * | 2021-12-03 | 2022-03-11 | 安徽继远软件有限公司 | 基于声纹的变压器事件检测方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113220932B (zh) | 2022-06-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113220932B (zh) | 一种基于多任务学习的音频场景识别方法及装置 | |
CN109816032B (zh) | 基于生成式对抗网络的无偏映射零样本分类方法和装置 | |
CN111598860B (zh) | 基于嵌入自注意力门模块的yolov3网络的锂电池缺陷检测方法 | |
CN109063723A (zh) | 基于迭代挖掘物体共同特征的弱监督图像语义分割方法 | |
CN110929848B (zh) | 基于多挑战感知学习模型的训练、跟踪方法 | |
CN112183468A (zh) | 一种基于多注意力联合多级特征的行人再识别方法 | |
CN111639564B (zh) | 一种基于多注意力异构网络的视频行人重识别方法 | |
CN111461025B (zh) | 一种自主进化的零样本学习的信号识别方法 | |
CN113240039B (zh) | 基于空间位置特征重加权的小样本目标检测方法及系统 | |
CN114037653B (zh) | 基于二阶段知识蒸馏的工业机器视觉缺陷检测方法和系统 | |
CN111126401B (zh) | 一种基于上下文信息的车牌字符识别方法 | |
CN112927266B (zh) | 基于不确定性引导训练的弱监督时域动作定位方法及系统 | |
CN113420827A (zh) | 语义分割网络训练和图像语义分割方法、装置及设备 | |
CN112861931A (zh) | 一种基于差异注意力神经网络的多级别变化检测方法 | |
CN113343760A (zh) | 一种基于多尺度特征神经网络的人体行为识别方法 | |
CN115861646A (zh) | 一种基于结构重参数化的轻量级目标检测方法及系统 | |
CN118334323A (zh) | 一种基于紫外图像的绝缘子检测方法及系统 | |
CN116597419B (zh) | 一种基于参数化互近邻的车辆限高场景识别方法 | |
CN112085164B (zh) | 一种基于无锚框网络的区域推荐网络提取方法 | |
CN111310516A (zh) | 一种行为识别方法和装置 | |
CN117574262A (zh) | 一种面向小样本问题的水声信号分类方法、系统及介质 | |
CN116883980A (zh) | 一种紫外光绝缘子目标检测方法及系统 | |
CN110222716A (zh) | 基于全分辨率深度卷积神经网络的图像分类方法 | |
CN116403278A (zh) | 一种基于文本监督的人体动作识别方法 | |
CN115731226A (zh) | 一种皮肤镜图像中病灶的分割方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20220610 |
|
CF01 | Termination of patent right due to non-payment of annual fee |