CN111161715A - 一种基于序列分类的特定声音事件检索与定位的方法 - Google Patents

一种基于序列分类的特定声音事件检索与定位的方法 Download PDF

Info

Publication number
CN111161715A
CN111161715A CN201911363277.XA CN201911363277A CN111161715A CN 111161715 A CN111161715 A CN 111161715A CN 201911363277 A CN201911363277 A CN 201911363277A CN 111161715 A CN111161715 A CN 111161715A
Authority
CN
China
Prior art keywords
sound
frame
event
loss
specific
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911363277.XA
Other languages
English (en)
Other versions
CN111161715B (zh
Inventor
余春艳
刘煌
吴长轩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN201911363277.XA priority Critical patent/CN111161715B/zh
Publication of CN111161715A publication Critical patent/CN111161715A/zh
Application granted granted Critical
Publication of CN111161715B publication Critical patent/CN111161715B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于序列分类的特定声音事件检索与定位的方法,通过利用声音的时序性和注意力机制关注重要的上下文信息以提取特定目标声音事件的声音深层特征,再通过多任务学习联合回归损失和分类损失来训练特定声音事件检索网络。给定音频文件进行特定音频事件检索和定位时,首先,将待测声音片段的梅尔特征能量输入到声音检索模型中,得到每个声音片段的特定声音事件的检索结果,再通过后处理定位特定声音事件出现的起止音频帧,最后通过平滑处理得到音频文件完整的特定声音事件检索和定位信息。

Description

一种基于序列分类的特定声音事件检索与定位的方法
技术领域
本发明涉及音频信号处理领域,特别是一种基于序列分类的特定 声音事件检索与定位的方法。
背景技术
为了更好的介绍音域的概念,先介绍一些基本概念。
音频:音频信号一般分为语音信号和非语音信号两大类。语音主 要是人类通过发音器官发出的、进行语音交流时的声音;而非语音则 包括大自然各种声音,范围甚是宽广。
声音事件:声音事件是指音频流中具有某种特定语义或内容的一 个音频片段,例如,街道中的风声,行人的走路声和说话声,以及汽 车行驶的声音等等。
声音事件检测(Sound Event Detection,SED),也称为音频事件检测, 是指在给定的音频记录中,找出感兴趣的声音事件,判定每一个事件 的类别,并定位每一个事件在音频记录中的起始和结束位置。
梅尔能量:梅尔能量特征将线性频谱映射到基于听觉感知的Mel 非线性频谱中。
双向GRU网络:双向GRU网络的前向和后向网络有32个GRU单元; 前向和后向两个GRU神经单元使用共同的输入,连接着共同的输 出;这个结构提供了输入序列中每个点完整的过去和未来的上下文 时序信息。
多任务学习:多任务学习是利用任务之间的共享信息同时对多个 任务进行学习的一种机器学习算法。多任务在同时进行学习的过程中, 通过利用多个任务之间的相关性(共享信息),以避免学习方法的欠 学习,从而提升关键任务的泛化性能。多任务学习与单任务学习的区 别之处在于:单任务学习是一次学习一个任务,建立对应模型,各个 任务的学习是相互独立的,多任务学习则同时考虑了多个任务之间内 在相关性,以提高模型的泛化能力。
注意力机制:人类的注意力机制(Attention Mechanism)使得 当人的大脑接受到外部信息时,如听觉信息、视觉信息,往往不会对 全部信息进行处理和理解,而只会将注意力集中在显著或者感兴趣的 信息上,有助于语音识别、自然语言处理、图像检索等任务的完成。 因此,人们通过构建注意力模型来模拟这种能力,以用于从众多信息 中筛选出针对当前任务有用的重要信息。
单一的视频图像监控虽然目前在实际家庭安防应用中占据主要 的地位,但是也存在一些不利条件,比如在光照条件不好或者夜晚时, 或者目标物体被其他东西遮挡时,视频图像监控发挥的作用大大削 弱,而音频监控则不受此影响。利用重叠声音检测技术,把各种声音 分离出来,去除环境噪音,关注异常的声音,例如尖叫声、枪声等预 示危险的异常声音。视频监控与声音检测相结合能够发挥出更大的效 能,例如通过声音检测分离出异常声音,再定位到音源,然后快速使 摄像头转向音源。相较单一的视频监控,二者结合能够提升室内安防 的效果。单一的重叠声音检索也可用在视频监控无法部署的地方,或 者摄像头不方便部署的地方,来弥补视频监控的不足。
发明内容
有鉴于此,本发明的目的是提供本发明的目的是提供一种基于序 列分类的特定声音事件检索与定位的方法,对待测音源文件进行分析, 利用声音的时序性和注意力机制关注重要的上下文信息以提取特定 目标声音事件的声音深层特征,再通过多任务学习联合回归损失和分 类损失来训练特定声音检索模型。使用该模型可以检索待测音频包含 的特定声音事件和位置信息。
本发明采用以下方案实现:一种基于序列分类的特定声音事件检 索与定位的方法,包括以下步骤:
步骤S1:选取已经标注完成的含有检索目标事件音源的声音片 段分别进行特定声音事件检索模型构建;
步骤S2:对待检索的音源依据40ms为1帧,帧移20ms完成分 帧,逐帧提取梅尔能量特征;61帧为1个声音片段,将待检索的音 源依据1.2秒为1个片段,片段位移20ms完成分段,得到若干声音 片段后,逐片段输入到特定声音事件检索模型中,得到每个声音片段 的特定声音事件的检索结果;
步骤S3:检索每一帧中特定声音事件是否存在;
步骤S4:对S3得到的每帧检索结果进行平滑处理;
步骤S5:平滑处理后会输出给定音频文件中包含的声音事件出 现起止时间的标注结果的集合,即得到需检索音源中包含的所有声音 事件和每个声音事件对应的起止时间,如此得到完整的检索和定位信 息。
进一步地,所述步骤S1具体包括以下内容:
步骤S11:将所需检测的声音事件的训练数据集中的音源按照 40ms为一帧,帧移20ms,一块为61帧完整分帧、分块,得到N个 声音片段;逐帧计算其123维梅尔能量特征;
步骤S12:将每个声音片段的61帧梅尔能量特征输入到特定声 音事件检索模型进行学习。
进一步地,步骤S11中所述的对每个声音帧计算其梅尔能量特征
包括以下步骤:
步骤SA:将声音帧进行预加重处理;
步骤SB:将声音帧进行分帧处理;
步骤SC:将声音帧进行加窗处理;
步骤SD:对步骤SC中进行加窗处理完对声音帧进行快速傅里叶 变换(FastFourier Transform,FFT)得到对应的频谱;
步骤SE:再使用一组三角形带通滤波器所组成的梅尔刻度滤波 器对功率谱使用向量乘法得到梅尔能量特征;
步骤SF:最后梅尔能量特征的计算公式为:
Figure BDA0002336561840000051
进一步地,所述步骤S12的具体内容为:首先,通过卷积层提取 每帧的深层特征,将深层特征输入双向GRU层提取更加抽象的深层 特征;然后将GRU网络得到的结果输入到Flatten层中做扁平化处理 后输入到注意力层,所述注意力层包括分类注意力和回归注意力,再 输入到分类和回归层,根据声音片段的标注真值,使用分类损失和回 归损失,并且将两个损失联合起来做多任务损失学习。
进一步地,所述使用分类损失和回归损失,并且将两个损失联合 起来做多任务损失学习的具体内容为:
由于定位任务的加入,对于给定的每一声音帧,其标注数据不仅 需要包含声音事件类标签还需要给出其定位信息;给定声音片段S中 的帧序列数据S={X1,…,Xi,…,XN}及其真值集合Y={Y1,…,Yi,…,YN},其 中,N为数据集大小,总的声音类别集合为C={C0,…,CC},C0表示 背景声音事件,其余类别为前景声音事件;若Xi为背景事件C0,则 Yi={C0};若音频帧Xi中共包含l个前景声音事件,则
Figure BDA0002336561840000052
其中,
Figure BDA0002336561840000058
为声音事件的类别,
Figure BDA0002336561840000053
为 该事件在声音片段起始和结束时间位置,
Figure BDA0002336561840000054
Figure BDA0002336561840000055
分别表示Xi
Figure BDA0002336561840000056
Figure BDA0002336561840000057
的距离;使用交叉熵损失作为分类损失函数,使用修正余弦相似度 (AdjustedCosine Similarity,ACS)作为回归损失函数,最后将 两个损失联合起来做多任务损失学习;
构造多任务损失函数:交叉熵结合修正余弦相似度构成的余弦多 任务损失(MCL)。
对于使用MCL损失函数的模型,其训练过程是最小化如下损失函 数:
Figure BDA0002336561840000061
其中,θ为网络的训练参数,λ用于平衡误差项和l2范数正则化 项,Eacos(θ)为修正余弦相似度损失,λacos表示其权重系数;Ecross(θ)表 示交叉熵损失,λcross为其权重系数;
Ecross(θ)的计算公式如下:
Figure BDA0002336561840000062
Eacos(θ)的计算公式如下:
Figure BDA0002336561840000063
其中
Figure BDA0002336561840000064
是输出层距离平均值,
Figure BDA0002336561840000065
是预测平均值;余弦相似度仅考 虑向量维度方向上的相似,没有考虑各个维度量纲的差异性,是归一 化后的点积结果;而ACS同时考虑了向量维度的方向相似性和量纲差 异性,是去中心化和归一化后的点积结果。
进一步地,所述步骤S3的具体内容为:对于第i帧,使用后处理 操作得到第i帧检索结果:以第i帧开始,该帧对应起始
Figure BDA0002336561840000066
将连续的w 块数据组成W秒的时间窗口,该窗口中包含了w个块数据结果 {prei,…,prei+w};对该时间窗口判定其包含声音事件,对声音事件类cj判 断预测概率大于等于阈值p且个数大于等于q,假设声音事件类C中有 l个类存在,则输出对应检索集合
Figure BDA0002336561840000071
进一步地,步骤S4中所述进行平滑处理的具体内容为:相邻帧 中同类别事件合并后,删除事件时间长度小于阈值的事件,同时两个 可能目标段之间的无效帧小于等于设定帧时,这两段会被认为是一段。
与现有技术相比,本发明具有以下有益效果:
本发明针对重叠声音事件重叠数量不确定、特征刻画难度大的问 题,且面向片段分类的检测方法导致的大量重复检测问题;针对传统 重叠声音事件检测方法仅将重叠声音事件检测视为分类任务而忽视 了回归任务;针对重叠声音事件容易漏检和误检的问题,本发明相比 传统方法在检测性能上有整体提升。
附图说明
图1为本发明实施例的双向GRU网络结构图。
图2为本发明实施例的Street数据集“b093.wav”音频文件检索结 果图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一 步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本 申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式, 而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除 非上下文另外明确指出,否则单数形式也意图包括复数形式,此外, 还应当理解的是,当在本说明书中使用术语“包含”和/或“包括” 时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
本实施例提供一种基于序列分类的特定声音事件检索与定位的 方法,其特征在于:包括以下步骤:
步骤S1:选取已经标注完成的含有检索目标事件音源的声音片 段分别进行特定声音事件检索模型构建;
步骤S2:对待检索的音源依据40ms为1帧,帧移20ms完成分 帧,逐帧提取梅尔能量特征;61帧为1个声音片段,将待检索的音 源依据1.2秒为1个片段,片段位移20ms完成分段,得到若干声音 片段后,逐片段输入到特定声音事件检索模型中,得到每个声音片段 的特定声音事件的检索结果;
步骤S3:检索每一帧中特定声音事件是否存在;
步骤S4:对S3得到的每帧检索结果进行平滑处理;
步骤S5:平滑处理后会输出给定音频文件中包含的声音事件出 现起止时间的标注结果的集合,即得到需检索音源中包含的所有声音 事件和每个声音事件对应的起止时间,如此得到完整的检索和定位信 息。如图2。
在本实施例中,所述步骤S1具体包括以下内容:
步骤S11:将所需检测的声音事件的训练数据集中的音源(例如要检 测脚步声,需要将含有脚步声的训练数据集放入模型进行训练)按照 40ms为一帧,帧移20ms,一块为61帧(约1.2秒)完整分帧、分块, 得到N个声音片段;逐帧计算其123维梅尔能量特征;
步骤S12:将每个声音片段的61帧梅尔能量特征输入到特定声 音事件检索模型进行学习。
在本实施例中,步骤S11中所述的对每个声音帧计算其梅尔能量
特征包括以下步骤:
步骤SA:将声音帧进行预加重处理;
步骤SB:将声音帧进行分帧处理;
步骤SC:将声音帧进行加窗处理;
步骤SD:对步骤SC中进行加窗处理完对声音帧进行快速傅里叶 变换(FastFourier Transform,FFT)得到对应的频谱;
步骤SE:再使用一组三角形带通滤波器所组成的梅尔刻度滤波 器对功率谱使用向量乘法得到梅尔能量特征;
步骤SF:最后梅尔能量特征的计算公式为:
Figure BDA0002336561840000091
在本实施例中,所述步骤S12的具体内容为:首先,通过卷积层 提取每帧的深层特征,为了有效地利用上下文时序信息,将深层特征 输入双向GRU层提取更加抽象的深层特征;然后将GRU网络得到的 结果输入到Flatten层中做扁平化处理后输入到注意力层,所述注意 力层包括分类注意力和回归注意力,再输入到分类和回归层,根据声 音片段的标注真值,使用分类损失和回归损失,并且将两个损失联合 起来做多任务损失学习。
在本实施例中,所述使用分类损失和回归损失,并且将两个损失 联合起来做多任务损失学习的具体内容为:
由于定位任务的加入,对于给定的每一声音帧,其标注数据不仅 需要包含声音事件类标签还需要给出其定位信息;给定声音片段S中 的帧序列数据S={X1,…,Xi,…,XN}及其真值集合Y={Y1,…,Yi,…,YN},其 中,N为数据集大小,总的声音类别集合为C={C0,…,CC},C0表示 背景声音事件,其余类别为前景声音事件;若Xi为背景事件C0,则 Yi={C0};若音频帧Xi中共包含l个前景声音事件,则
Figure BDA0002336561840000101
其中,
Figure BDA0002336561840000102
为声音事件的类别,
Figure BDA0002336561840000103
为 该事件在声音片段起始和结束时间位置,
Figure BDA0002336561840000104
Figure BDA0002336561840000105
分别表示Xi
Figure BDA0002336561840000106
Figure BDA0002336561840000107
的距离;使用交叉熵损失作为分类损失函数,使用修正余弦相似度 (AdjustedCosine Similarity,ACS)作为回归损失函数,最后将 两个损失联合起来做多任务损失学习;
构造多任务损失函数:交叉熵结合修正余弦相似度构成的余弦多 任务损失(MCL)。
对于使用MCL损失函数的模型,其训练过程是最小化如下损失函 数:
Figure BDA0002336561840000111
其中,θ为网络的训练参数,λ用于平衡误差项和l2范数正则化 项,Eacos(θ)为修正余弦相似度损失,λacos表示其权重系数;Ecross(θ)表 示交叉熵损失,λcross为其权重系数;
Ecross(θ)的计算公式如下:
Figure BDA0002336561840000112
Eacos(θ)的计算公式如下:
Figure BDA0002336561840000113
其中
Figure BDA0002336561840000114
是输出层距离平均值,
Figure BDA0002336561840000115
是预测平均值;余弦相似度仅考 虑向量维度方向上的相似,没有考虑各个维度量纲的差异性,是归一 化后的点积结果;而ACS同时考虑了向量维度的方向相似性和量纲差 异性,是去中心化和归一化后的点积结果。
在本实施例中,所述步骤S3的具体内容为:对于第i帧,使用后 处理操作得到第i帧检索结果:以第i帧开始,该帧对应起始
Figure BDA0002336561840000116
将连 续的w块数据组成W秒的时间窗口,该窗口中包含了w个块数据结果 {prei,…,prei+w};对该时间窗口判定其包含声音事件,对声音事件类cj判 断预测概率大于等于阈值p且个数大于等于q,假设声音事件类C中有 l个类存在,则输出对应检索集合
Figure BDA0002336561840000117
在本实施例中,步骤S4中所述进行平滑处理的具体内容为:相 邻帧中同类别事件合并后,删除事件时间长度小于阈值的事件,同时 两个可能目标段之间的无效帧小于等于设定帧时,这两段会被认为是 一段。
在本实施例中,使用Street数据集中的声音事件的音源声音片段 进行模型构建,得到各个声音事件的检索模型,使用梅尔能量特征作 为声音深层特征。将音源声音依据约2.2秒设置滑动窗口,40ms为 一帧,帧移20ms,一块为61帧(约1.2秒)分帧、分块,对每个声音帧计算其梅尔能量特征。梅尔能量特征计算过程具体为:
首先,将声音帧进行预加重处理。第二步,将声音帧进行分帧处 理。
第三步,将声音帧进行加窗处理。
第四步,对处理完对声音帧进行快速傅里叶变换(Fast Fourier Transform,FFT)得到对应的频谱。
最后再使用一组三角形带通滤波器所组成的梅尔刻度滤波器对 功率谱使用向量乘法,计算得到梅尔能量特征。
一般频率f转换到Mel频率计算公式为:
Figure BDA0002336561840000121
在本实施例中,每个模型使用30帧步长获取真值,将每帧计算 出的梅尔能量特征作为卷积层的输入,其中,卷积层设置如下,第一 层的卷积网络使用128个大小为(3,3)的卷积核,激活函数为Relu, padding设置为“same”,最后通过大小为1×5的最大池化层降低特征 维度。第二、三层的卷积网络使用128个大小为(3,3)的卷积核, 激活函数为Relu,padding设置为“same”,最后通过大小为1×2的最 大池化层降低特征维度。
将卷积网络得到的抽象特征输入到双向GRU模型中,双向GRU 模型结构为:双向GRU网络的前向和后向网络有32个GRU单元; 前向和后向两个GRU神经单元使用共同的输入X,连接着共同的输 出O,这个结构提供了输入序列中每个点完整的过去和未来的上下文时序信息。具体计算过程为:
输入X经过重置门,即图1中r,重置门用于控制忽略前一时刻 的状态信息的程度,重置门的值越小说明忽略得越多。对于某一时刻 rt,重置门采用Sigmoid函数对输入信息Xt和上一层GRU输出信息 ht-1进行处理。
rt=σ(Wr·(ht-1,Xt))
更新门,即图1中z,用于控制前一时刻的状态信息被带入到当 前状态中的程度,更新门的值越大说明前一时刻的状态信息带入越多。 信息Xt经过更新门和tanh层,更新门采用Sigmoid函数决定tanh信 息是否用于更新,操作与上一步相同;tanh层对输入信息Xt、上一 层信息ht-1和rt进行编码产生一个新的信息值。
zt=σ(Wz·(ht-1,Xt))
Figure BDA0002336561840000141
对新的信息值
Figure BDA0002336561840000142
上一层信息ht-1和更新门的信息zt进行如下计算:
Figure BDA0002336561840000143
输出内容,tanh函数将状态信息进行编码:
zt=σ(Wo·ht)
对上一步输出的内容做扁平化Flatten处理,展开为一维。
将扁平化后的结果,输入到softmax前馈神经网络层(包含分类 注意力和回归注意力),以帮助网络对重要的上下文信息施加更高的 权重,再对注意力机制层输出的结果输入分类回归层,最后在分类回 归层中将二者联合起来做多任务损失学习,得到结果。再输入顺着时 间轴位移30帧后的61帧,重复步骤使损失最小,以此训练模型,得 到各个具体声音事件的ATT-MCL-CBG多任务损失检索模型。具体实 现过程为:
在双向GRU层之后,额外的引入了Softmax前馈神经网络层作 为注意力机制层。具体地,对每帧的所有通道分别进行Softmax和 Sigmoid,获得与输入大小一致的两个输出A和B,再将A和B进行 点乘,得到注意力特征,再使用全连接层将注意力特征输出成每一帧的分类结果。具体公式表示为:
定义全连接层Softmax前馈神经网络层的注意力输出为Zatt(t), 包括分类注意力输出Zclass_att(t)和回归注意力输出Zreg_att(t)。使用Sigmoid激活函数得到分类和回归结果:
Oclass(t)=Sigmoid(Zclass_att(t))
Oreg(t)=Sigmoid(Zreg_att(t))
最后,对序列的预测标签输出进行标签合并操作得到重叠声音事 件检测结果。
给定声音片段S中的帧序列数据S={X1,…,Xi,…,XN}及其真值集 合Y={Y1,…,Yi,…,YN},其中,N为数据集大小,总的声音类别集合为 C={C0,…,C|C|},C0表示背景声音事件,其余类别为前景声音事件。 若Xi为背景事件C0,则Yi={C0}。若音频帧Xi中共包含l个前景声音事 件,则
Figure BDA0002336561840000151
其中,
Figure BDA0002336561840000152
为声音事件的类别,
Figure BDA0002336561840000153
为该事件在声音片段起始和结束时间位置,
Figure BDA0002336561840000154
Figure BDA0002336561840000155
分别表示 Xi
Figure BDA0002336561840000156
Figure BDA0002336561840000157
的距离。
本实施例使用交叉熵损失用来做分类损失函数,使用修正余弦 相似度(AdjustedCosine Similarity,ACS)作为回归损失函数,最后 将两个损失联合起来做多任务损失学习。这里构造多任务损失函数: 交叉熵结合修正余弦相似度构成的余弦多任务损失(MCL)。
对于使用MCL损失函数的模型,其训练过程是最小化如下损失 函数:
Figure BDA0002336561840000158
其中,θ为网络的训练参数,λ用于平衡误差项和l2范数正则化 项,Eacos(θ)为修正余弦相似度损失,λacos表示其权重系数。Ecross(θ)表 示交叉熵损失,λcross为其权重系数。
Ecross(θ)的计算公式如下:
Figure BDA0002336561840000161
Eacos(θ)的计算公式如下:
Figure BDA0002336561840000162
其中
Figure BDA0002336561840000163
是输出层距离平均值,
Figure BDA0002336561840000164
是预测平均值。余弦相似度仅考 虑向量维度方向上的相似,没有考虑各个维度量纲的差异性,是归一 化后的点积结果;而ACS同时考虑了向量维度的方向相似性和量纲 差异性,是去中心化和归一化后的点积结果。
依据上述得到的损失函数,通过训练使其最小化,即得到 ATT-MCL-CBG多任务损失检索模型。每次输入是61帧声音的梅尔 能量特征,每次模型计算完后顺着时间轴向后位移30帧,再取61帧 作为输入,如此循环。
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所 做的均等变化与修饰,皆应属本发明的涵盖范围。

Claims (7)

1.一种基于序列分类的特定声音事件检索与定位的方法,其特征在于:包括以下步骤:
步骤S1:选取已经标注完成的含有检索目标事件音源的声音片段分别进行特定声音事件检索模型构建;
步骤S2:对待检索的音源依据40ms为1帧,帧移20ms完成分帧,逐帧提取梅尔能量特征;61帧为1个声音片段,将待检索的音源依据1.2秒为1个片段,片段位移20ms完成分段,得到若干声音片段后,逐片段输入到特定声音事件检索模型中,得到每个声音片段的特定声音事件的检索结果;
步骤S3:检索每一帧中特定声音事件是否存在;
步骤S4:对S3得到的每帧检索结果进行平滑处理;
步骤S5:平滑处理后会输出给定音频文件中包含的声音事件出现起止时间的标注结果的集合,即得到需检索音源中包含的所有声音事件和每个声音事件对应的起止时间,如此得到完整的检索和定位信息。
2.根据权利要求1所述的一种基于序列分类的特定声音事件检索与定位的方法,其特征在于:所述步骤S1具体包括以下内容:
步骤S11:将所需检测的声音事件的训练数据集中的音源按照40ms为一帧,帧移20ms,一块为61帧完整分帧、分块,得到N个声音片段;逐帧计算其123维梅尔能量特征;
步骤S12:将每个声音片段的61帧梅尔能量特征输入到特定声音事件检索模型进行学习。
3.根据权利要求2所述的一种基于序列分类的特定声音事件检索与定位的方法,其特征在于:步骤S11中所述的对每个声音帧计算其梅尔能量特征包括以下步骤:
步骤SA:将声音帧进行预加重处理;
步骤SB:将声音帧进行分帧处理;
步骤SC:将声音帧进行加窗处理;
步骤SD:对步骤SC中进行加窗处理完对声音帧进行快速傅里叶变换得到对应的功率谱;
步骤SE:再使用一组三角形带通滤波器所组成的梅尔刻度滤波器对功率谱使用向量乘法得到梅尔能量特征;
步骤SF:最后梅尔能量特征的计算公式为:
Figure FDA0002336561830000021
4.根据权利要求2所述的一种基于序列分类的特定声音事件检索与定位的方法,其特征在于:所述步骤S12的具体内容为:首先,通过卷积层提取每帧的深层特征,将深层特征输入双向GRU层提取更加抽象的深层特征;然后将GRU网络得到的结果输入到Flatten层中做扁平化处理后输入到注意力层,所述注意力层包括分类注意力和回归注意力,再输入到分类和回归层,根据声音片段的标注真值,使用分类损失和回归损失,并且将两个损失联合起来做多任务损失学习。
5.根据权利要求4所述的一种基于序列分类的特定声音事件检索与定位的方法,其特征在于:所述使用分类损失和回归损失,并且将两个损失联合起来做多任务损失学习的具体内容为:
由于定位任务的加入,对于给定的每一声音帧,其标注数据不仅需要包含声音事件类标签还需要给出其定位信息;给定声音片段S中的帧序列数据S={X1,…,Xi,…,XN}及其真值集合Y={Y1,…,Yi,…,YN},其中,N为数据集大小,总的声音类别集合为C={C0,…,C|C|},C0表示背景声音事件,其余类别为前景声音事件;若Xi为背景事件C0,则Yi={C0};若音频帧Xi中共包含l个前景声音事件,则
Figure FDA0002336561830000031
其中,
Figure FDA0002336561830000032
为声音事件的类别,
Figure FDA0002336561830000033
为该事件在声音片段起始和结束时间位置,
Figure FDA0002336561830000034
Figure FDA0002336561830000035
分别表示Xi
Figure FDA0002336561830000036
Figure FDA0002336561830000037
的距离;使用交叉熵损失作为分类损失函数,使用修正余弦相似度作为回归损失函数,最后将两个损失联合起来做多任务损失学习;
构造多任务损失函数:交叉熵结合修正余弦相似度构成的余弦多任务损失。
对于使用MCL损失函数的模型,其训练过程是最小化如下损失函数:
Figure FDA0002336561830000038
其中,θ为网络的训练参数,λ用于平衡误差项和l2范数正则化项,Eacos(θ)为修正余弦相似度损失,λacos表示其权重系数;Ecross(θ)表示交叉熵损失,λcross为其权重系数;
Ecross(θ)的计算公式如下:
Figure FDA0002336561830000041
Eacos(θ)的计算公式如下:
Figure FDA0002336561830000042
其中
Figure FDA0002336561830000043
是输出层距离平均值,
Figure FDA0002336561830000044
是预测平均值;余弦相似度仅考虑向量维度方向上的相似,没有考虑各个维度量纲的差异性,是归一化后的点积结果;而ACS同时考虑了向量维度的方向相似性和量纲差异性,是去中心化和归一化后的点积结果。
6.根据权利要求1所述的一种基于序列分类的特定声音事件检索与定位的方法,其特征在于:所述步骤S3的具体内容为:对于第i帧,使用后处理操作得到第i帧检索结果:以第i帧开始,该帧对应起始
Figure FDA0002336561830000045
将连续的w块数据组成W秒的时间窗口,该窗口中包含了w个块数据结果{prei,…,prei+w};对该时间窗口判定其包含声音事件,对声音事件类cj判断预测概率大于等于阈值p且个数大于等于q,假设声音事件类C中有l个类存在,则输出对应检索集合
Figure FDA0002336561830000046
Figure FDA0002336561830000047
7.根据权利要求1所述的一种基于序列分类的特定声音事件检索与定位的方法,其特征在于:步骤S4中所述进行平滑处理的具体内容为:相邻帧中同类别事件合并后,删除事件时间长度小于阈值的事件,同时两个可能目标段之间的无效帧小于等于设定帧时,这两段会被认为是一段。
CN201911363277.XA 2019-12-25 2019-12-25 一种基于序列分类的特定声音事件检索与定位的方法 Expired - Fee Related CN111161715B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911363277.XA CN111161715B (zh) 2019-12-25 2019-12-25 一种基于序列分类的特定声音事件检索与定位的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911363277.XA CN111161715B (zh) 2019-12-25 2019-12-25 一种基于序列分类的特定声音事件检索与定位的方法

Publications (2)

Publication Number Publication Date
CN111161715A true CN111161715A (zh) 2020-05-15
CN111161715B CN111161715B (zh) 2022-06-14

Family

ID=70556813

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911363277.XA Expired - Fee Related CN111161715B (zh) 2019-12-25 2019-12-25 一种基于序列分类的特定声音事件检索与定位的方法

Country Status (1)

Country Link
CN (1) CN111161715B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111797778A (zh) * 2020-07-08 2020-10-20 龙岩学院 一种用于breaking街舞主播连麦斗舞的自动评分方法
CN111797801A (zh) * 2020-07-14 2020-10-20 北京百度网讯科技有限公司 用于视频场景分析的方法和装置
CN111933109A (zh) * 2020-07-24 2020-11-13 南京烽火星空通信发展有限公司 一种音频监测方法及系统
CN112071330A (zh) * 2020-09-16 2020-12-11 腾讯科技(深圳)有限公司 一种音频数据处理方法、设备以及计算机可读存储介质
CN112735466A (zh) * 2020-12-28 2021-04-30 北京达佳互联信息技术有限公司 一种音频检测方法及装置
CN112863492A (zh) * 2020-12-31 2021-05-28 思必驰科技股份有限公司 声音事件定位模型训练方法和装置
CN113763988A (zh) * 2020-06-01 2021-12-07 中车株洲电力机车研究所有限公司 机车司机室监控信息与lkj监控信息的时间同步方法及系统
CN114571473A (zh) * 2020-12-01 2022-06-03 北京小米移动软件有限公司 足式机器人的控制方法、装置及足式机器人

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170372725A1 (en) * 2016-06-28 2017-12-28 Pindrop Security, Inc. System and method for cluster-based audio event detection
US20180121799A1 (en) * 2016-11-03 2018-05-03 Salesforce.Com, Inc. Training a Joint Many-Task Neural Network Model using Successive Regularization
KR20180122171A (ko) * 2017-05-02 2018-11-12 서강대학교산학협력단 심층 신경망을 기반으로 한 사운드 이벤트 검출 방법 및 사운드 이벤트 검출 장치
CN109192222A (zh) * 2018-07-23 2019-01-11 浙江大学 一种基于深度学习的声音异常检测系统
CN109473119A (zh) * 2017-09-07 2019-03-15 中国科学院声学研究所 一种声学目标事件监控方法
EP3540634A1 (en) * 2018-03-13 2019-09-18 InterDigital CE Patent Holdings Method for audio-visual events classification and localization and corresponding apparatus computer readable program product and computer readable storage medium

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170372725A1 (en) * 2016-06-28 2017-12-28 Pindrop Security, Inc. System and method for cluster-based audio event detection
US20180121799A1 (en) * 2016-11-03 2018-05-03 Salesforce.Com, Inc. Training a Joint Many-Task Neural Network Model using Successive Regularization
KR20180122171A (ko) * 2017-05-02 2018-11-12 서강대학교산학협력단 심층 신경망을 기반으로 한 사운드 이벤트 검출 방법 및 사운드 이벤트 검출 장치
CN109473119A (zh) * 2017-09-07 2019-03-15 中国科学院声学研究所 一种声学目标事件监控方法
EP3540634A1 (en) * 2018-03-13 2019-09-18 InterDigital CE Patent Holdings Method for audio-visual events classification and localization and corresponding apparatus computer readable program product and computer readable storage medium
CN109192222A (zh) * 2018-07-23 2019-01-11 浙江大学 一种基于深度学习的声音异常检测系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ARJUN PANKAJAKSHAN等: "POLYPHONIC SOUND EVENT AND SOUND ACTIVITY DETECTION: A MULTI-TASK APPROACH", 《2019 IEEE WORKSHOP ON APPLICATIONS OF SIGNAL PROCESSING TO AUDIO AND ACOUSTICS》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113763988A (zh) * 2020-06-01 2021-12-07 中车株洲电力机车研究所有限公司 机车司机室监控信息与lkj监控信息的时间同步方法及系统
CN113763988B (zh) * 2020-06-01 2024-05-28 中车株洲电力机车研究所有限公司 机车司机室监控信息与lkj监控信息的时间同步方法及系统
CN111797778B (zh) * 2020-07-08 2023-06-02 龙岩学院 一种用于breaking街舞主播连麦斗舞的自动评分方法
CN111797778A (zh) * 2020-07-08 2020-10-20 龙岩学院 一种用于breaking街舞主播连麦斗舞的自动评分方法
CN111797801B (zh) * 2020-07-14 2023-07-21 北京百度网讯科技有限公司 用于视频场景分析的方法和装置
CN111797801A (zh) * 2020-07-14 2020-10-20 北京百度网讯科技有限公司 用于视频场景分析的方法和装置
CN111933109A (zh) * 2020-07-24 2020-11-13 南京烽火星空通信发展有限公司 一种音频监测方法及系统
CN112071330A (zh) * 2020-09-16 2020-12-11 腾讯科技(深圳)有限公司 一种音频数据处理方法、设备以及计算机可读存储介质
CN112071330B (zh) * 2020-09-16 2022-09-20 腾讯科技(深圳)有限公司 一种音频数据处理方法、设备以及计算机可读存储介质
CN114571473A (zh) * 2020-12-01 2022-06-03 北京小米移动软件有限公司 足式机器人的控制方法、装置及足式机器人
CN112735466A (zh) * 2020-12-28 2021-04-30 北京达佳互联信息技术有限公司 一种音频检测方法及装置
CN112735466B (zh) * 2020-12-28 2023-07-25 北京达佳互联信息技术有限公司 一种音频检测方法及装置
CN112863492A (zh) * 2020-12-31 2021-05-28 思必驰科技股份有限公司 声音事件定位模型训练方法和装置

Also Published As

Publication number Publication date
CN111161715B (zh) 2022-06-14

Similar Documents

Publication Publication Date Title
CN111161715B (zh) 一种基于序列分类的特定声音事件检索与定位的方法
Sang et al. Convolutional recurrent neural networks for urban sound classification using raw waveforms
Xu et al. Convolutional gated recurrent neural network incorporating spatial features for audio tagging
WO2020248376A1 (zh) 情绪检测方法、装置、电子设备及存储介质
Cakir et al. Multi-label vs. combined single-label sound event detection with deep neural networks
CN110852215B (zh) 一种多模态情感识别方法、系统及存储介质
CN109635676B (zh) 一种从视频中定位音源的方法
CN108922559A (zh) 基于语音时频变换特征和整数线性规划的录音终端聚类方法
CN110853656B (zh) 基于改进神经网络的音频篡改识别方法
CN112329438B (zh) 基于域对抗训练的自动谎言检测方法及系统
CN113643723A (zh) 一种基于注意力CNN Bi-GRU融合视觉信息的语音情感识别方法
CN112183107A (zh) 音频的处理方法和装置
CN116701568A (zh) 一种基于3d卷积神经网络的短视频情感分类方法及系统
CN112183582A (zh) 一种多特征融合的水下目标识别方法
Lu et al. Temporal Attentive Pooling for Acoustic Event Detection.
CN114694255A (zh) 基于通道注意力与时间卷积网络的句子级唇语识别方法
Jin et al. Speech separation and emotion recognition for multi-speaker scenarios
CN113707175A (zh) 基于特征分解分类器与自适应后处理的声学事件检测系统
EP3847646B1 (en) An audio processing apparatus and method for audio scene classification
CN116758451A (zh) 基于多尺度和全局交叉注意力的视听情感识别方法及系统
Liu et al. Bird song classification based on improved Bi-LSTM-DenseNet network
CN116312512A (zh) 面向多人场景的视听融合唤醒词识别方法及装置
CN113488069B (zh) 基于生成式对抗网络的语音高维特征快速提取方法和装置
CN115565533A (zh) 语音识别方法、装置、设备及存储介质
CN115472182A (zh) 一种基于注意力特征融合的多通道自编码器的语音情感识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220614