CN115206294B - 训练方法、声音事件检测方法、装置、设备和介质 - Google Patents

训练方法、声音事件检测方法、装置、设备和介质 Download PDF

Info

Publication number
CN115206294B
CN115206294B CN202211129403.7A CN202211129403A CN115206294B CN 115206294 B CN115206294 B CN 115206294B CN 202211129403 A CN202211129403 A CN 202211129403A CN 115206294 B CN115206294 B CN 115206294B
Authority
CN
China
Prior art keywords
audio
audio sample
determining
feature
characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211129403.7A
Other languages
English (en)
Other versions
CN115206294A (zh
Inventor
郑鑫江
艾国
杨作兴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen MicroBT Electronics Technology Co Ltd
Original Assignee
Shenzhen MicroBT Electronics Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen MicroBT Electronics Technology Co Ltd filed Critical Shenzhen MicroBT Electronics Technology Co Ltd
Priority to CN202211129403.7A priority Critical patent/CN115206294B/zh
Publication of CN115206294A publication Critical patent/CN115206294A/zh
Application granted granted Critical
Publication of CN115206294B publication Critical patent/CN115206294B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders

Abstract

本申请实施例提供了一种训练方法、声音事件检测方法、装置、设备和介质,其中的训练方法具体包括:确定三元组音频样本;利用声音事件检测模型的编码网络,确定所述三元组音频样本对应的第一音频特征;根据三元组音频样本对应的第一音频特征,确定所述第一音频样本与所述第二音频样本之间的第一匹配信息、以及所述第一音频样本与所述第三音频样本之间的第二匹配信息;根据所述第一匹配信息和所述第二匹配信息,确定第一损失信息,并根据所述第一损失信息,更新所述编码网络的参数;从至少部分特征提取模块输出的中间特征中随机确定出若干个目标特征段,对所述目标特征段进行掩膜处理。本申请实施例可以降低声音事件检测的误唤醒率。

Description

训练方法、声音事件检测方法、装置、设备和介质
技术领域
本申请涉及音频处理技术领域,特别是涉及一种训练方法、声音事件检测方法、装置、设备和介质。
背景技术
随着音频处理技术的发展,声音事件检测(SED,Sound Event Detection)得到了广泛的应用。比如:SED可以检测敲门声、检测洗衣机结束洗衣时发出的滴滴声或检测水烧开的声音等,为日常家庭生活带来便捷;特别是在有老人和婴儿的家庭中,SED可以检测孩子的哭声或者老人的痛苦呻吟声等,并及时发送检测结果,起到预警作用。
目前,通常采用声音事件检测模型对音频进行声音事件检测。具体而言,声音事件检测模型确定音频属于预设类别的概率值,在概率值大于概率阈值的情况下,可以将相应的预设类别作为检测结果。
声音事件检测不仅要求对预设类别具有良好的唤醒率,而且要求对非预设类别具有较低的误唤醒率。然而,在实际应用中,声音事件检测模型可能存在过拟合的问题;由于过拟合表现在训练数据上的误差较小,而在检测数据上的误差较大,这样将导致检测结果的准确度较低,例如导致误唤醒率较高。
发明内容
本申请实施例提供了一种训练方法,可以降低声音事件检测的误唤醒率。
相应的,本申请实施例还提供了一种声音事件检测方法、一种训练装置、一种声音事件检测装置、一种电子设备和一种机器可读介质,用以保证上述方法的实现及应用。
为了解决上述问题,本申请实施例公开了一种训练方法,所述方法包括:
确定三元组音频样本;所述三元组音频样本包括:第一音频样本、第二音频样本和第三音频样本;其中,第二音频样本与第一音频样本对应相同的类别信息;第三音频样本与第一音频样本对应不同的类别信息;
利用声音事件检测模型的编码网络,确定所述三元组音频样本对应的第一音频特征;
根据三元组音频样本对应的第一音频特征,确定所述第一音频样本与所述第二音频样本之间的第一匹配信息、以及所述第一音频样本与所述第三音频样本之间的第二匹配信息;
根据所述第一匹配信息和所述第二匹配信息,确定第一损失信息,并根据所述第一损失信息,更新所述编码网络的参数;
其中,所述编码网络包括:至少一个特征提取模块;所述确定所述三元组音频样本对应的第一音频特征,包括:从至少部分特征提取模块输出的中间特征中随机确定出若干个目标特征段,对所述目标特征段进行掩膜处理;所述目标特征段包括连续的多个特征点。
为了解决上述问题,本申请实施例公开了一种声音事件检测方法,所述方法包括:
接收待检测音频;
利用声音事件检测模型,对所述待检测音频进行声音事件检测,以得到对应的检测结果;其中,所述声音事件检测模型包括:编码网络和解码网络;所述编码网络用于确定所述待检测音频对应的第三音频特征,所述解码网络用于确定所述第三音频特征对应的检测结果;
所述编码网络的训练过程包括:确定三元组音频样本;所述三元组音频样本包括:第一音频样本、第二音频样本和第三音频样本;其中,第二音频样本与第一音频样本对应相同的类别信息;第三音频样本与第一音频样本对应不同的类别信息;利用声音事件检测模型的编码网络,确定所述三元组音频样本对应的第一音频特征;根据三元组音频样本对应的第一音频特征,确定所述第一音频样本与所述第二音频样本之间的第一匹配信息、以及所述第一音频样本与所述第三音频样本之间的第二匹配信息;根据所述第一匹配信息和所述第二匹配信息,确定第一损失信息,并根据所述第一损失信息,更新所述编码网络的参数;其中,所述编码网络包括:至少一个特征提取模块;所述确定所述三元组音频样本对应的第一音频特征,包括:从至少部分特征提取模块输出的中间特征中随机确定出若干个目标特征段,对所述目标特征段进行掩膜处理;所述目标特征段包括连续的多个特征点。
为了解决上述问题,本申请实施例公开了一种训练装置,所述装置包括:
样本确定模块,用于确定三元组音频样本;所述三元组音频样本包括:第一音频样本、第二音频样本和第三音频样本;其中,第二音频样本与第一音频样本对应相同的类别信息;第三音频样本与第一音频样本对应不同的类别信息;
第一音频特征确定模块,用于利用声音事件检测模型的编码网络,确定所述三元组音频样本对应的第一音频特征;
匹配信息确定模块,用于根据三元组音频样本对应的第一音频特征,确定所述第一音频样本与所述第二音频样本之间的第一匹配信息、以及所述第一音频样本与所述第三音频样本之间的第二匹配信息;
第一损失确定模块,用于根据所述第一匹配信息和所述第二匹配信息,确定第一损失信息;
第一参数更新模块,用于根据所述第一损失信息,更新所述编码网络的参数;
其中,所述编码网络包括:至少一个特征提取模块;所述第一音频特征确定模块包括:
目标特征段确定模块,用于从至少部分特征提取模块输出的中间特征中随机确定出若干个目标特征段;
掩膜处理模块,用于对所述目标特征段进行掩膜处理;所述目标特征段包括连续的多个特征点。
可选地,所述目标特征段确定模块包括:
第一特征段确定模块,用于根据所述预设数量,确定中间特征包括的多个特征段;
第二特征段确定模块,用于根据掩膜概率值,从所述中间特征包括的多个特征段中确定出目标特征段。
可选地,所述掩膜处理模块包括:
替换模块,用于将所述目标特征段的特征值替换为零;
归一化处理模块,用于根据非目标特征段与所有特征段的比例、或者掩膜概率值,对非目标特征段的特征值进行归一化处理;其中,所述非目标特征段为所述中间特征中除了目标特征段之外的特征段。
可选地,所述特征提取模块包括:至少一个深度可分离卷积模块和至少一个时域残差卷积模块;针对所述至少一个深度可分离卷积模块和所述至少一个时域残差卷积模块输出的中间特征中的目标特征段进行掩膜处理;
其中,所述深度可分离卷积模块包括:至少一个第一深度可分离卷积层;
所述时域残差卷积模块包括:串联的至少一个第二深度可分离卷积层、与所述至少一个第二深度可分离卷积层并联的卷积层、以及用于将所述至少一个第二深度可分离卷积层的输出特征与所述卷积层的输出特征融合的相加层。
可选地,在所述三元组音频样本的训练完成的情况下,所述编码网络的参数为第一目标参数;
所述装置还包括:
第二音频特征确定模块,用于在所述编码网络的参数固定为第一目标参数的情况下,利用所述编码网络确定第四音频样本对应的第二音频特征;
预测模块,用于利用所述声音事件检测模型的解码网络,确定第二音频特征对应的预测结果;
第二损失确定模块,用于根据所述预测结果和所述第四音频样本对应的类别信息,确定第二损失信息;
第二参数更新模块,用于根据所述第二损失信息,对所述解码网络的参数进行更新,以得到所述解码网络的第二目标参数。
为了解决上述问题,本申请实施例公开了一种声音事件检测装置,所述装置包括:
接收模块,用于接收待检测音频;
检测模块,用于利用声音事件检测模型,对所述待检测音频进行声音事件检测,以得到对应的检测结果;其中,所述声音事件检测模型包括:编码网络和解码网络;所述编码网络用于确定所述待检测音频对应的第三音频特征,所述解码网络用于确定所述第三音频特征对应的检测结果;
所述编码网络的训练过程包括:确定三元组音频样本;所述三元组音频样本包括:第一音频样本、第二音频样本和第三音频样本;其中,第二音频样本与第一音频样本对应相同的类别信息;第三音频样本与第一音频样本对应不同的类别信息;利用声音事件检测模型的编码网络,确定所述三元组音频样本对应的第一音频特征;根据三元组音频样本对应的第一音频特征,确定所述第一音频样本与所述第二音频样本之间的第一匹配信息、以及所述第一音频样本与所述第三音频样本之间的第二匹配信息;根据所述第一匹配信息和所述第二匹配信息,确定第一损失信息,并根据所述第一损失信息,更新所述编码网络的参数;其中,所述编码网络包括:至少一个特征提取模块;所述确定所述三元组音频样本对应的第一音频特征,包括:从至少部分特征提取模块输出的中间特征中随机确定出若干个目标特征段,对所述目标特征段进行掩膜处理;所述目标特征段包括连续的多个特征点。
本申请实施例还公开了一种电子设备,包括:处理器;和存储器,其上存储有可执行代码,当所述可执行代码被执行时,使得所述处理器执行如本申请实施例所述的方法。
本申请实施例还公开了一种机器可读介质,其上存储有可执行代码,当所述可执行代码被执行时,使得处理器执行如本申请实施例所述的方法。
本申请实施例包括以下优点:
在本申请实施例的技术方案中,利用三元组音频样本进行编码网络的独立训练。在编码网络的独立训练过程中采用的第一损失信息是根据第一匹配信息和第二匹配信息得到的;这样,本申请实施例可以按照增加类内匹配度和减小类间匹配度的更新目标,对编码网络的参数进行更新。上述更新目标能够增加编码网络输出的音频特征所反映的类别区分性,上述区别区分性可以是:训练数据中出现过的预设类别与训练数据中未出现过的非预设类别之间的区分性。例如,在检测数据中待检测音频属于非预设类别的情况下,编码网络输出的音频特征会增加非预设类别对应的音频特征与预设类别对应的音频特征之间的区分性;在此基础上,编码网络将非预设类别对应的音频特征输入解码网络,解码网络输出的待检测音频属于预设类别的概率值将会低于概率阈值;因此,本申请实施例能够降低声音事件检测的误唤醒率。
并且,本申请实施例在确定该三元组音频样本对应的第一音频特征的过程中,从编码网络中至少部分特征提取模块输出的中间特征中随机确定出若干个目标特征段,并对该目标特征段进行掩膜处理。由于该目标特征段包括多个特征点,故本申请实施例经由随机丢弃目标特征段包括的连续多个特征点的中间特征,来使编码网络注重学习其他的中间特征(如非目标特征段的中间特征),可以减少编码网络对于特定中间特征的依赖性,因此能够提高编码网络和声音事件检测模型的鲁棒性。在提高编码网络的鲁棒性的情况下,即使检测数据中包含训练数据中未出现过的非预设类别的音频,本申请实施例的声音事件检测模型也能够得到准确的检测结果,因此,本申请实施例能够进一步降低声音事件检测的误唤醒率。
附图说明
图1是本申请一个实施例的声音事件检测模型的结构示意图;
图2是本申请一个实施例的训练方法的步骤流程示意图;
图3是本申请一个实施例的中间特征包括的目标特征段的示意图;
图4(a)是本申请一个实施例的编码网络的结构示意图;
图4(b)是本申请一个实施例的卷积模块401的结构示意图;
图4(c)是本申请一个实施例的深度可分离卷积模块402的结构示意图;
图4(d)是本申请一个实施例的第一时域残差卷积模块403的结构示意图;
图5是本申请一个实施例的训练方法的流程图;
图6是本申请一个实施例的训练方法的步骤流程示意图;
图7是本申请一个实施例的声音事件检测模型的第二次训练方法的流程图;
图8是本申请一个实施例的声音事件检测方法的步骤流程示意图;
图9是本申请一个实施例的训练装置的结构示意图;
图10是本申请一个实施例的声音事件检测装置的结构示意图;
图11是本申请一个实施例提供的装置的结构示意图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
本申请实施例可以应用于声音事件检测场景。在声音事件检测场景中,声音事件检测模型可以确定音频属于预设类别的概率值,在概率值大于概率阈值的情况下,可以将相应的预设类别作为检测结果。
声音事件检测场景可以包括:家庭场景、或公司场景、或商场场景、或动物园场景等。预设类别可以表征声音事件对应的类别。不同声音事件检测场景可以对应不同的预设类别。例如,家庭场景对应的预设类别可以包括:孩子啼哭、敲门或水烧开等。动物园场景对应的预设类别可以包括:动物的叫声等。可以理解,本申请实施例对于具体的预设类别不加以限制。
本申请实施例可以对数学模型进行训练,以得到声音事件检测模型。数学模型是运用数理逻辑方法和数学语言建构的科学或工程模型,数学模型是针对参照某种事物系统的特征或数量依存关系,采用数学语言,概括地或近似地表述出的一种数学结构,这种数学结构是借助于数学符号刻画出来的关系结构。其中,数学模型描述的是系统的行为和特征而不是系统的实际结构。其中,可采用机器学习、深度学习方法等方法进行数学模型的训练,机器学习方法可包括:线性回归、决策树、随机森林等,深度学习方法可包括:CNN(卷积神经网络,Convolutional Neural Networks)、LSTM(长短期记忆网络,Long Short-TermMemory)、GRU(门控循环单元,Gated Recurrent Unit)等。
参照图1,示出了本申请一个实施例的声音事件检测模型的结构示意图,该声音事件检测模型具体可以包括:编码网络101和解码网络102。
其中,编码网络101可用于对输入的音频进行特征提取,以得到对应的音频特征。编码网络101可以包括:VGG(视觉几何群网络,Visual Geometry Group Network)、ResNet(残差网络,Residual Network)、轻量级网络等。可以理解,本申请实施例对于特征提取单元101对应的具体网络不加以限制。
其中,残差网络可以为卷积网络。卷积网络可以是一种深度前馈人工神经网络,在图像识别中具有较好的性能表现。卷积网络具体可以包括卷积层(convolutional layer)和池化层(pooling layer)。卷积层用于从输入的图像中自动抽取特征,得到特征图(feature map)。池化层用于对特征图进行池化处理,以减少特征图中的特征数量。池化层的池化处理可以包括:最大池化、或者平均池化、或者随机池化等方式,其可根据实际需求选择合适的方式。
解码网络102用于根据编码网络101输出的音频特征进行声音事件检测,以得到对应的检测结果。具体而言,解码网络102确定音频属于预设类别的概率值,在概率值大于概率阈值的情况下,可以将相应的预设类别作为检测结果。
在实际应用中,声音事件检测模型可能存在过拟合的问题;由于过拟合表现在训练数据上的误差较小,而在检测数据上的误差较大,这样将导致检测结果的准确度较低。
针对检测结果的准确度较低的技术问题,本申请实施例提供了一种训练方法,该方法具体可以包括:
确定三元组音频样本;该三元组音频样本具体可以包括:第一音频样本、第二音频样本和第三音频样本;其中,第二音频样本与第一音频样本对应相同的类别信息;第三音频样本与第一音频样本对应不同的类别信息;
利用声音事件检测模型的编码网络,确定该三元组音频样本对应的第一音频特征;
根据三元组音频样本对应的第一音频特征,确定该第一音频样本与该第二音频样本之间的第一匹配信息、以及该第一音频样本与该第三音频样本之间的第二匹配信息;
根据该第一匹配信息和该第二匹配信息,确定第一损失信息,并根据该第一损失信息,更新该编码网络的参数;
其中,该编码网络具体可以包括:至少一个特征提取模块;上述确定该三元组音频样本对应的第一音频特征,具体可以包括:从至少部分特征提取模块输出的中间特征中随机确定出若干个目标特征段,对该目标特征段进行掩膜处理;该目标特征段包括连续的多个特征点。
本申请实施例的三元组音频样本中,第一音频样本与第二音频样本对应相同的类别信息,故第一匹配信息可以表征类内匹配度;第一音频样本与第三音频样本对应不同的类别信息,故第二匹配信息可以表征类间匹配度。
本申请实施例利用三元组音频样本进行编码网络的独立训练。在编码网络的独立训练过程中采用的第一损失信息是根据第一匹配信息和第二匹配信息得到的;这样,本申请实施例可以按照增加类内匹配度和减小类间匹配度的更新目标,对编码网络的参数进行更新。上述更新目标能够增加编码网络输出的音频特征所反映的类别区分性,上述区别区分性可以是:训练数据中出现过的预设类别与训练数据中未出现过的非预设类别之间的区分性。例如,在检测数据中待检测音频属于非预设类别的情况下,编码网络输出的音频特征会增加非预设类别对应的音频特征与预设类别对应的音频特征之间的区分性;在此基础上,编码网络将非预设类别对应的音频特征输入解码网络,解码网络输出的待检测音频属于预设类别的概率值将会低于概率阈值;因此,本申请实施例能够降低声音事件检测的误唤醒率。
并且,本申请实施例在确定该三元组音频样本对应的第一音频特征的过程中,从编码网络中至少部分特征提取模块输出的中间特征中随机确定出若干个目标特征段,并对该目标特征段进行掩膜处理。由于该目标特征段包括多个特征点,故本申请实施例经由随机丢弃目标特征段包括的具有连续多个特征点的中间特征,来使编码网络注重学习其他的中间特征(如非目标特征段的中间特征),可以减少编码网络对于特定中间特征的依赖性,因此能够提高编码网络和声音事件检测模型的鲁棒性。在提高编码网络的鲁棒性的情况下,即使检测数据中包含训练数据中未出现过的非预设类别的音频,本申请实施例的声音事件检测模型也能够得到准确的检测结果,因此,本申请实施例能够进一步降低声音事件检测的误唤醒率。
方法实施例一
本实施例对声音事件检测模型的训练过程进行说明,尤其地,对声音事件检测模型中编码网络的训练过程进行说明。
参考图2,示出了本申请一个实施例的训练方法的步骤流程示意图,该方法具体可以包括如下步骤:
步骤201、确定三元组音频样本;该三元组音频样本具体可以包括:第一音频样本、第二音频样本和第三音频样本;其中,第二音频样本与第一音频样本对应相同的类别信息;第三音频样本与第一音频样本对应不同的类别信息;
步骤202、利用声音事件检测模型的编码网络,确定该三元组音频样本对应的第一音频特征;
步骤203、根据三元组音频样本对应的第一音频特征,确定该第一音频样本与该第二音频样本之间的第一匹配信息、以及该第一音频样本与该第三音频样本之间的第二匹配信息;
步骤204、根据该第一匹配信息和该第二匹配信息,确定第一损失信息,并根据该第一损失信息,更新该编码网络的参数;
其中,该编码网络具体可以包括:至少一个特征提取模块;步骤202确定该三元组音频样本对应的第一音频特征,具体可以包括:
步骤221、从至少部分特征提取模块输出的中间特征中随机确定出若干个目标特征段,对该目标特征段进行掩膜处理;该目标特征段包括连续的多个特征点。
图2所示方法实施例一可以利用三元组音频样本进行编码网络的独立训练。
编码网络的独立训练过程可以包括:前向传播和反向传播。
其中,前向传播(Forward Propagation)可以根据编码网络的参数,按照从输入层到输出层的顺序,依次计算最后得到三元组音频样本对应的第一音频特征。其中,三元组音频样本对应的第一音频特征可用于确定第一损失信息。三元组音频样本对应的第一音频特征可以包括:第一音频样本对应的第一音频特征A、第二音频样本对应的第一音频特征B和第三音频样本对应的第一音频特征C。
反向传播(Backward Propagation)可以根据第一损失信息,按照从输出层到输入层的顺序,依次计算并对编码网络的参数进行更新。编码网络通常采用神经网络的结构,声音事件编码网络可以包括:神经网络的权重等参数。其中,反向传播过程中,可以确定编码网络的参数的梯度信息,并利用该梯度信息,对编码网络的参数进行更新。例如,反向传播可以依据微积分中的链式法则,沿着从输出层到输入层的顺序,依次计算并存储编码网络的处理层(包括输入层、中间层和输出层)的参数的梯度信息。
在步骤201中,三元组音频样本可以作为编码网络的训练数据。在实际应用中,可以首先确定第一音频样本,然后确定与第一音频样本同类别的第二音频样本、以及与第一音频样本不同类别的第三音频样本。
在实际应用中,可以构建音频样本集合,该音频样本集合中可以包括:经过标注的多个音频样本。其中,标注可用于确定音频样本的类别信息。类别信息可以表征音频样本属于哪一种预设类别。
本申请实施例的三元组音频样本可以表示为:(A,B1,C1)、(A,B2,C2)……(A,BP,CP),其中,A表征第一音频样本,B1-Bp表征A对应的第二音频样本,C1- CP表征A对应的第三音频样本。在实际应用中,A可以为多个,例如,A可以包括:多个预设类别下的音频样本。
在步骤202中,可以将三元组音频样本输入编码网络,由编码网络输出该三元组音频样本对应的第一音频特征。
本申请实施例在确定该三元组音频样本对应的第一音频特征的过程中,从编码网络中至少部分特征提取模块输出的中间特征中随机确定出若干个目标特征段,并对该目标特征段进行掩膜处理。该目标特征段包括特征点的数量可以为预设数量,预设数量N可由本领域技术人员根据实际应用需求确定,例如,N的数值范围为[5,15],N的例子可以为7等。
在具体实现中,上述从至少部分特征提取模块输出的中间特征中随机确定出若干个目标特征段,具体可以包括:根据预设数量,确定中间特征包括的多个特征段;根据掩膜概率值,从所述中间特征包括的多个特征段中确定出目标特征段。
假设中间特征的长度为L,也即,中间特征包括L个特征点,则中间特征包括的特征段的数量可以为L/N。掩膜概率值p可由本领域技术人员根据实际应用需求确定,例如,掩膜概率值p可以为[0.1,0.2]之间的实数。本申请实施例可以将中间特征包括的特征段的数量与掩膜概率值p的乘积,作为目标特征段的数量。
目标特征段的起始位置可以为随机确定的位置,例如,可以从中间特征的位置中随机选择一个位置,作为第i(i可以为正整数)个目标特征段的起始位置。然后,从中间特征的位置中去除第i个目标特征段的位置段(起始位置到结束位置之间的位置),以得到剩余位置,并从剩余位置中随机选择一个位置,作为第(i+1)个目标特征段的起始位置。可以理解,在随机确定目标特征段的起始位置的过程中,可以遵循不同目标特征段的位置段不冲突或不重合的原则。
参照图3,示出了本申请一个实施例的中间特征包括的目标特征段的示意图,其中,可以从中间特征301中随机确定出3个目标特征段302,并对3个目标特征段302进行掩膜处理。
本申请实施例对所述目标特征段进行掩膜处理,具体可以包括:将目标特征段的特征值替换为零。
另外,为了提高中间特征在训练过程中和检测过程中的匹配度,在将目标特征段的特征值替换为零后,还可以根据非目标特征段与所有特征段的比例、或者掩膜概率值,对非目标特征段的特征值进行归一化处理;其中,所述非目标特征段可以为所述中间特征中除了目标特征段之外的特征段。
非目标特征段与所有特征段的比例可以是非目标特征段的数量与所有特征段的数量的比值。例如,所有特征段的数量可以为L/N,目标特征段的数量为L/N*p,则非目标特征段的数量可以为L/N(1-p);因此,非目标特征段与所有特征段的比例可以为(1-p)。需要说明的是,在N不能被L整除的情况下,非目标特征段与所有特征段的比例与(1-p)可以不同,但与(1-p)相接近。
在采用非目标特征段与所有特征段的比例的情况下,本申请实施例对非目标特征段的特征值进行归一化处理具体可以为:将非目标特征段与所有特征段的比例与非目标特征段的特征值相乘。在采用掩膜概率值的情况下,本申请实施例对非目标特征段的特征值进行归一化处理具体可以为:将(1-p)与非目标特征段的特征值相乘。
在实际应用中,编码网络的特征提取模块可以包括:卷积模块。
例如,在一种示例中,上述特征提取模块具体可以包括:至少一个深度可分离卷积模块和至少一个时域残差卷积模块;针对至少一个深度可分离卷积模块和至少一个时域残差卷积模块输出的中间特征中的目标特征段进行掩膜处理;
其中,所述深度可分离卷积模块具体可以包括:至少一个第一深度可分离卷积层;
所述时域残差卷积模块具体可以包括:串联的至少一个第二深度可分离卷积层、与所述至少一个第二深度可分离卷积层并联的卷积层、以及用于将所述至少一个第二深度可分离卷积层的输出特征与所述卷积层的输出特征融合的相加层。
本申请实施例中,第一深度可分离卷积层或第二深度可分离卷积层可以采用深度可分离卷积层的结构。深度可分离卷积层的结构可以是多层结构,其可以包括:逐通道卷积(Depthwise Convolution)层和逐点卷积(PointwiseConvolution)层,其可以降低神经网络模型的参数量和计算量,有助于实现编码网络的网络结构的轻量化。
在一种实现方式中,本申请实施例可以通过快速傅里叶变换(FFT,Fast FourierTransform)提取三元组音频样本的梅尔频谱等频谱特征,再将频谱特征输入到编码网络。此种情况下,编码网络中的至少一个深度可分离卷积模块可以在频谱特征的基础上进行特征提取。
在另一种实现方式中,本申请实施例的编码网络可以在至少一个深度可分离卷积模块之前设置卷积模块。卷积模块可以在不对三元组音频样本进行快速傅里叶变换的情况下,从三元组音频样本中提取不同频率范围的音频特征。卷积模块可以采用普通的卷积层,或者卷积模块可以采用基于sinc函数(辛格函数)的带通滤波器的sinc卷积层。sinc函数的形式为sinc(x)=sin(x)/x。卷积模块可以免去频域求解梅尔频谱等频谱特征的相关处理,直接从三元组音频样本的音频提取并编码音频特征,节约了计算资源并降低了处理音频所需时间。
参照图4(a),示出了本申请一个实施例的编码网络的结构示意图,该编码网络具体可以包括:卷积模块401、深度可分离卷积模块402、第一时域残差卷积模块403、第二时域残差卷积模块404、第三时域残差卷积模块405和全局平均池化模块406。
其中,卷积模块401可以扫窗的方式,通过卷积核(Conv kernel)对三元组音频样本对应的音频进行卷积操作。三元组音频样本对应的音频的维度可以为[B,1,1,W],其中,B可以表征三元组音频样本的数量,W可以表征一个三元组音频样本对应的采样点数量。
参照图4(b),示出了本申请一个实施例的卷积模块401的结构示意图,该卷积模块401具体可以包括:卷积核大小为101×1、步长为8、输出通道数为40的卷积层411、第一批归一化层412和第一激活函数层413。批归一化层和激活函数层可以有助于收敛卷积层的滤波结果。
深度可分离卷积模块402可以对卷积模块401的输出进行进一步的特征提取。本申请实施例可以对深度可分离卷积模块402输出的中间特征进行掩膜处理。
参照图4(c),示出了本申请一个实施例的深度可分离卷积模块402的结构示意图,该深度可分离卷积模块402具体可以包括:第一逐通道卷积层421、第一逐点卷积层422、第二批归一化层423和第二激活函数层424。图4(c)示出了在第一逐点卷积层后设置批归一化层和激活函数层,可以理解,在逐通道卷积层后也可以类似地设置批归一化层和激活函数层。
第一时域残差卷积模块403可以对经过掩膜处理的中间特征(由深度可分离卷积模块402输出)进行进一步的特征提取。本申请实施例可以对第一时域残差卷积模块403输出的中间特征进行掩膜处理。
参照图4(d),示出了本申请一个实施例的第一时域残差卷积模块403的结构示意图,该第一时域残差卷积模块403可以执行两次深度可分离卷积操作。第一次深度可分离卷积操作对应的模块可以包括:第二逐通道卷积层431、第三批归一化层432、第三激活函数层433、第二逐点卷积层434、第四批归一化层435和第四激活函数层436。第二次深度可分离卷积操作对应的模块可以包括:第三逐通道卷积层437、第五批归一化层438、第五激活函数层439、第三逐点卷积层4310和第六批归一化层4311。
该第一时域残差卷积模块403还可以包括:与两次深度可分离卷积操作对应网络层并联的卷积层4312、以及用于将两次深度可分离卷积操作对应网络层的输出特征与卷积层4312的输出特征融合的相加层。卷积层4312后可以设置有第七批归一化层4313和第七激活函数层4314。相加层后面可以设置有第六激活函数层4315。
对于第二时域残差卷积模块404和第三时域残差卷积模块405的网络结构而言,由于其与第一时域残差卷积模块403的网络结构类似,故在此不作赘述,相互参照即可。
全局平均池化模块406可用于对经过掩膜处理的中间特征(由第三时域残差卷积模块405输出)进行池化处理,以减少中间特征数量。
例如,经过掩膜处理的中间特征的维度为[B,C,H,W],则全局平均池化模块406可以首先将中间特征的维度从[B,C,H,W]转换为[B,C,1],然后将中间特征的维度从[B,C,1]转变成[B,C]。其中,C可以表征中间特征的通道数。全局平均池化模块406输出的特征可以作为编码网络输出的音频特征。本申请实施例可以不对全局平均池化模块406输出的特征进行掩膜处理。
在步骤203中,可以利用度量方法,确定第一音频样本与第二音频样本之间的第一匹配信息、以及第一音频样本与第三音频样本之间的第二匹配信息。度量方法可以包括:欧式距离、或者夹角余弦、或者信息熵等,可以理解,本申请实施例对于具体的度量方法不加以限制。
第一音频样本与第二音频样本对应相同的类别信息,故第一匹配信息可以表征类内匹配度;第一音频样本与第三音频样本对应不同的类别信息,故第二匹配信息可以表征类间匹配度。
在步骤204中,可以确定第一损失函数。第一损失函数可以表征第一损失信息与第一匹配信息和第二匹配信息之间的映射关系。例如,第一损失函数可以表示为:
Loss=max(d(A,B)−d(A,C)+m,0)(1)
其中,Loss表示第一损失信息;d(A,B)表示第一音频特征A与第一音频特征B之间的距离,d(A,C)表示第一音频特征A与第一音频特征C之间的距离,d(A,B)和d(A,C)的数值范围可以为[0,1],d(A,B)或d(A,C)越小,则表征的匹配度越大,反之,d(A,B)或d(A,C)越大,则表征的匹配度越小;m为大于0的常数;max()为取大函数。
因此,本申请实施例的更新目标可以为:d(A,B)接近 0 ,d(A,C)大于d(A,B)+m。
这样,本申请实施例可以按照增加类内匹配度和减小类间匹配度的更新目标,对编码网络的参数进行更新。
在实际应用中,可以对第一损失函数的参数(编码网络的参数)求偏导数,把求得的参数的偏导数以向量的形式写出来,偏导数对应的向量可以称为参数对应的梯度信息。可以根据梯度信息及步长信息,得到参数对应的更新量。
在具体实现中,可以根据一个第一音频样本A对应的多个三元组音频样本进行迭代,或者,可以根据多个第一音频样本A对应的多个三元组音频样本进行迭代。上述迭代的收敛条件可以为:第一损失函数对应的第一损失信息符合收敛条件。收敛条件可以为:第一损失信息对应的损失值小于第一预设损失值,或者,迭代次数超过次数阈值等。换言之,在第一损失函数对应的第一损失信息符合收敛条件的情况下,可以结束迭代;此种情况下,可以得到编码网络的第一目标参数。
参照图5,示出了本申请一个实施例的训练方法的流程图,其中,可以将三元组音频样本输入编码网络,其中三元组音频样本中三个不同的音频样本可被输入具有相同网络结构和相同参数的编码网络。编码网络可以针对不同的音频样本,得到不同的输出特征。例如第一音频样本对应的输出特征为:第一音频特征A,第二音频样本对应的输出特征为:第一音频特征B,以及,第三音频样本对应的输出特征为:第一音频特征C。其中,本申请实施例在确定该三元组音频样本对应的第一音频特征的过程中,从编码网络中至少部分特征提取模块输出的中间特征中随机确定出若干个目标特征段,并对该目标特征段进行了掩膜处理。上述掩膜处理可以随机丢弃目标特征段包括的连续多个特征点的中间特征,来使编码网络注重学习其他的中间特征(如非目标特征段的中间特征),可以减少编码网络对于特定中间特征的依赖性,因此能够提高编码网络和声音事件检测模型的鲁棒性。
本申请实施例可以根据第一音频特征A和第一音频特征B,确定所述第一音频样本与第二音频样本之间的第一匹配信息,以及第一音频特征A和第一音频特征C,确定第一音频样本与第三音频样本之间的第二匹配信息。并且,本申请实施例可以根据该第一匹配信息和该第二匹配信息,确定第一损失信息,并根据该第一损失信息,更新该编码网络的参数。上述更新能够增加编码网络输出的音频特征所反映的类别区分性。
综上,本申请实施例的训练方法,利用三元组音频样本进行编码网络的独立训练。在编码网络的独立训练过程中采用的第一损失信息是根据第一匹配信息和第二匹配信息得到的;这样,本申请实施例可以按照增加类内匹配度和减小类间匹配度的更新目标,对编码网络的参数进行更新。上述更新目标能够增加编码网络输出的音频特征所反映的类别区分性,上述区别区分性可以是:训练数据中出现过的预设类别与训练数据中未出现过的非预设类别之间的区分性。例如,在检测数据中待检测音频属于非预设类别的情况下,编码网络输出的音频特征会增加非预设类别对应的音频特征与预设类别对应的音频特征之间的区分性;在此基础上,编码网络将非预设类别对应的音频特征输入解码网络,解码网络输出的待检测音频属于预设类别的概率值将会低于概率阈值;因此,本申请实施例能够降低声音事件检测的误唤醒率。
并且,本申请实施例在确定该三元组音频样本对应的第一音频特征的过程中,从编码网络中至少部分特征提取模块输出的中间特征中随机确定出若干个目标特征段,并对该目标特征段进行掩膜处理。由于该目标特征段包括多个特征点,故本申请实施例经由随机丢弃目标特征段包括的连续多个特征点的中间特征,来使编码网络注重学习其他的中间特征(如非目标特征段的中间特征),可以减少编码网络对于特定中间特征的依赖性,因此能够提高编码网络和声音事件检测模型的鲁棒性。在提高编码网络的鲁棒性的情况下,即使检测数据中包含训练数据中未出现过的非预设类别的音频,本申请实施例的声音事件检测模型也能够得到准确的检测结果,因此,本申请实施例能够进一步降低声音事件检测的误唤醒率。
方法实施例二
本实施例对声音事件检测模型的训练过程进行说明,尤其地,对声音事件检测模型中编码网络和解码网络的训练过程进行说明。
参考图6,示出了本申请一个实施例的训练方法的步骤流程示意图,该方法具体可以包括如下步骤:
步骤601、确定三元组音频样本;该三元组音频样本具体可以包括:第一音频样本、第二音频样本和第三音频样本;其中,第二音频样本与第一音频样本对应相同的类别信息;第三音频样本与第一音频样本对应不同的类别信息;
步骤602、利用声音事件检测模型的编码网络,确定该三元组音频样本对应的第一音频特征;
步骤603、根据三元组音频样本对应的第一音频特征,确定该第一音频样本与该第二音频样本之间的第一匹配信息、以及该第一音频样本与该第三音频样本之间的第二匹配信息;
步骤604、根据该第一匹配信息和该第二匹配信息,确定第一损失信息,并根据该第一损失信息,更新该编码网络的参数;
其中,该编码网络具体可以包括:至少一个特征提取模块;步骤202确定该三元组音频样本对应的第一音频特征,具体可以包括:
步骤621、从至少部分特征提取模块输出的中间特征中随机确定出若干个目标特征段,对该目标特征段进行掩膜处理;该目标特征段可以包括连续的多个特征点。
步骤605、在该编码网络的参数固定为第一目标参数的情况下,利用该编码网络确定第四音频样本对应的第二音频特征;
步骤606、利用该声音事件检测模型的解码网络,确定第二音频特征对应的预测结果;
步骤607、根据该预测结果和该第四音频样本对应的类别信息,确定第二损失信息,并根据该第二损失信息,对该解码网络的参数进行更新,以得到该解码网络的第二目标参数。
本申请实施例中,训练方法可以包括两次训练。其中,第一次训练对应步骤601至步骤604,用于进行编码网络的独立训练,也即利用三元组音频样本的训练,对编码网络的参数进行更新,在三元组音频样本的训练完成的情况下,编码网络的参数可以为第一目标参数。第二次训练可以对应步骤605至步骤607,用于进行解码网络的独立训练,也即利用第四音频样本的训练,对解码网络的参数进行更新,在第四音频样本的训练完成的情况下,解码网络的参数可以为第二目标参数。第一目标参数对应的编码网络和第二目标参数对应的解码网络可用于后续的检测过程,也即用于对待检测音频进行声音事件检测。
步骤605中的第四音频样本可以为任意的音频样本。例如,第四音频样本可以为第一音频样本、第二音频样本和第三音频样本中的任一,当然,第四音频样本可以与第一音频样本、第二音频样本和第三音频样本中的任一均不相同。
参照图7,示出了本申请一个实施例的声音事件检测模型的第二次训练方法的流程图,其中,可以将第四音频样本输入编码网络,在编码网络的第一目标参数被冻结的情况下,编码网络可以确定第四音频样本对应的第二音频特征。解码网络可以确定第二音频特征对应的预测结果。本申请实施例可以根据该预测结果和该第四音频样本对应的类别信息,确定第二损失信息,并根据该第二损失信息,对该解码网络的参数进行更新,以得到该解码网络的第二目标参数。
在实际应用中,解码网络可以采用全连接层(FC,fully connected layers)的结构,其输出的预测结果可以为:第四音频样本属于N个预设类别的概率值,N可以为20等正整数。
第二损失信息可以是预测结果与类别信息之间的匹配信息。第二损失信息可以是交叉熵信息、或者相对熵信息等。可以理解,本申请实施例对于具体的第二损失信息不加以限制。
本申请实施例可以确定第二损失函数。第二损失函数可以表征第二损失信息与预测结果和类别信息之间的映射关系。
在实际应用中,可以对第二损失函数的参数(解码网络的参数)求偏导数,把求得的参数的偏导数以向量的形式写出来,偏导数对应的向量可以称为参数对应的梯度信息。可以根据梯度信息及步长信息,得到参数对应的更新量。
在具体实现中,可以根据多个第四音频样本进行迭代。上述迭代的收敛条件可以为:第二损失函数对应的第二损失信息符合收敛条件。收敛条件可以为:第二损失信息对应的损失值小于第二预设损失值,或者,迭代次数超过次数阈值等。换言之,在第二损失函数对应的第二损失信息符合收敛条件的情况下,可以结束迭代;此种情况下,可以得到解码网络的第二目标参数。
综上,本申请实施例的训练方法,训练方法可以包括两次训练。其中,第一次训练用于进行编码网络的独立训练,也即利用三元组音频样本的训练,对编码网络的参数进行更新,在三元组音频样本的训练完成的情况下,编码网络的参数可以为第一目标参数。第二次训练用于在该编码网络的参数固定为第一目标参数的情况下,进行解码网络的独立训练,也即利用第四音频样本的训练,对解码网络的参数进行更新,在第四音频样本的训练完成的情况下,解码网络的参数可以为第二目标参数。
由于第一次训练能够增加编码网络输出的音频特征所反映的类别区分性,上述区别区分性可以是:训练数据中出现过的预设类别与训练数据中未出现过的非预设类别之间的区分性;因此,在第二次训练过程中,对编码网络的参数进行更新,也即将该编码网络的参数固定为第一目标参数,能够保持编码网络输出的音频特征所反映的类别区分性。
方法实施例三
本实施例对声音事件检测模型的检测过程进行说明,也即,利用第一目标参数对应的编码网络和第二目标参数对应的解码网络,对待检测音频进行检测。
参考图8,示出了本申请一个实施例的声音事件检测方法的步骤流程示意图,该方法具体可以包括如下步骤:
步骤801、接收待检测音频;
步骤802、利用声音事件检测模型,对该待检测音频进行声音事件检测,以得到对应的检测结果;其中,所述声音事件检测模型可以包括:编码网络和解码网络;所述编码网络用于确定所述待检测音频对应的第三音频特征,所述解码网络用于确定所述第三音频特征对应的检测结果;
所述编码网络的训练过程具体可以包括:确定三元组音频样本;所述三元组音频样本包括:第一音频样本、第二音频样本和第三音频样本;其中,第二音频样本与第一音频样本对应相同的类别信息;第三音频样本与第一音频样本对应不同的类别信息;利用声音事件检测模型的编码网络,确定所述三元组音频样本对应的第一音频特征;根据三元组音频样本对应的第一音频特征,确定所述第一音频样本与所述第二音频样本之间的第一匹配信息、以及所述第一音频样本与所述第三音频样本之间的第二匹配信息;根据所述第一匹配信息和所述第二匹配信息,确定第一损失信息,并根据所述第一损失信息,更新所述编码网络的参数;其中,所述编码网络包括:至少一个特征提取模块;所述确定所述三元组音频样本对应的第一音频特征,包括:从至少部分特征提取模块输出的中间特征中随机确定出若干个目标特征段,对所述目标特征段进行掩膜处理;所述目标特征段包括连续的多个特征点。
步骤801中的待检测音频可以源自语音采集装置。其中,语音采集装置可以为麦克风等。例如,在家庭场景下,麦克风可以对家庭内的声音进行采集,以得到待检测音频。
在步骤802中,声音事件检测模型可以按照图1所示的流程,对待检测音频进行声音事件检测。具体而言,所述编码网络用于确定所述待检测音频对应的第三音频特征,所述解码网络用于确定所述第三音频特征对应的检测结果。检测结果可以为:待检测音频属于N个预设类别的概率值。在概率值大于第一概率阈值的情况下,可以将相应的预设类别作为检测结果。
综上,本申请实施例的声音事件检测方法,由于训练方法能够提高声音事件检测的误唤醒率,故本申请实施例能够提高检测结果的准确度。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请实施例并不受所描述的动作顺序的限制,因为依据本申请实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本申请实施例所必须的。
在上述实施例的基础上,本实施例还提供了一种训练装置,参照图9,该训练装置具体可以包括:样本确定模块901、第一音频特征确定模块902、匹配信息确定模块903、第一损失确定模块904和第一参数更新模块905。
其中,样本确定模块901,用于确定三元组音频样本;所述三元组音频样本包括:第一音频样本、第二音频样本和第三音频样本;其中,第二音频样本与第一音频样本对应相同的类别信息;第三音频样本与第一音频样本对应不同的类别信息;
第一音频特征确定模块902,用于利用声音事件检测模型的编码网络,确定所述三元组音频样本对应的第一音频特征;
匹配信息确定模块903,用于根据三元组音频样本对应的第一音频特征,确定所述第一音频样本与所述第二音频样本之间的第一匹配信息、以及所述第一音频样本与所述第三音频样本之间的第二匹配信息;
第一损失确定模块904,用于根据所述第一匹配信息和所述第二匹配信息,确定第一损失信息;
第一参数更新模块905,用于根据所述第一损失信息,更新所述编码网络的参数;
其中,所述编码网络具体可以包括:至少一个特征提取模块;所述第一音频特征确定模块902具体可以包括:
目标特征段确定模块921,用于从至少部分特征提取模块输出的中间特征中随机确定出若干个目标特征段;
掩膜处理模块922,用于对所述目标特征段进行掩膜处理;所述目标特征段包括连续的多个特征点。
可选地,所述目标特征段确定模块921具体可以包括:
第一特征段确定模块,用于根据所述预设数量,确定中间特征包括的多个特征段;
第二特征段确定模块,用于根据掩膜概率值,从所述中间特征包括的多个特征段中确定出目标特征段。
可选地,所述掩膜处理模块922具体可以包括:
替换模块,用于将所述目标特征段的特征值替换为零;
归一化处理模块,用于根据非目标特征段与所有特征段的比例、或者掩膜概率值,对非目标特征段的特征值进行归一化处理;其中,所述非目标特征段为所述中间特征中除了目标特征段之外的特征段。
可选地,所述特征提取模块包括:至少一个深度可分离卷积模块和至少一个时域残差卷积模块;针对所述至少一个深度可分离卷积模块和所述至少一个时域残差卷积模块输出的中间特征中的目标特征段进行掩膜处理;
其中,所述深度可分离卷积模块包括:至少一个第一深度可分离卷积层;
所述时域残差卷积模块包括:串联的至少一个第二深度可分离卷积层、与所述至少一个第二深度可分离卷积层并联的卷积层、以及用于将所述至少一个第二深度可分离卷积层的输出特征与所述卷积层的输出特征融合的相加层。
可选地,在所述三元组音频样本的训练完成的情况下,所述编码网络的参数为第一目标参数;
所述装置还包括:
第二音频特征确定模块,用于在所述编码网络的参数固定为第一目标参数的情况下,利用所述编码网络确定第四音频样本对应的第二音频特征;
预测模块,用于利用所述声音事件检测模型的解码网络,确定第二音频特征对应的预测结果;
第二损失确定模块,用于根据所述预测结果和所述第四音频样本对应的类别信息,确定第二损失信息;
第二参数更新模块,用于根据所述第二损失信息,对所述解码网络的参数进行更新,以得到所述解码网络的第二目标参数。
在上述实施例的基础上,本实施例还提供了一种声音事件检测,参照图10,该装置具体可以包括:
接收模块1001,用于接收待检测音频;
检测模块1002,用于利用声音事件检测模型,对所述待检测音频进行声音事件检测,以得到对应的检测结果;其中,所述声音事件检测模型包括:编码网络和解码网络;所述编码网络用于确定所述待检测音频对应的第三音频特征,所述解码网络用于确定所述第三音频特征对应的检测结果;
所述编码网络的训练过程具体可以包括:确定三元组音频样本;所述三元组音频样本包括:第一音频样本、第二音频样本和第三音频样本;其中,第二音频样本与第一音频样本对应相同的类别信息;第三音频样本与第一音频样本对应不同的类别信息;利用声音事件检测模型的编码网络,确定所述三元组音频样本对应的第一音频特征;根据三元组音频样本对应的第一音频特征,确定所述第一音频样本与所述第二音频样本之间的第一匹配信息、以及所述第一音频样本与所述第三音频样本之间的第二匹配信息;根据所述第一匹配信息和所述第二匹配信息,确定第一损失信息,并根据所述第一损失信息,更新所述编码网络的参数;其中,所述编码网络包括:至少一个特征提取模块;所述确定所述三元组音频样本对应的第一音频特征,包括:从至少部分特征提取模块输出的中间特征中随机确定出若干个目标特征段,对所述目标特征段进行掩膜处理;所述目标特征段包括连续的多个特征点。
本申请实施例还提供了一种非易失性可读存储介质,该存储介质中存储有一个或多个模块(programs),该一个或多个模块被应用在设备时,可以使得该设备执行本申请实施例中各方法步骤的指令(instructions)。
本申请实施例提供了一个或多个机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得电子设备执行如上述实施例中一个或多个所述的方法。本申请实施例中,所述电子设备包括终端设备、服务器(集群)等各类型的设备。
本公开的实施例可被实现为使用任意适当的硬件,固件,软件,或及其任意组合进行想要的配置的装置,该装置可包括:终端设备、服务器(集群)等电子设备。图11示意性地示出了可被用于实现本申请中所述的各个实施例的示例性装置1100 。
对于一个实施例,图11示出了示例性装置1100,该装置具有一个或多个处理器1102、被耦合到(一个或多个)处理器1102中的至少一个的控制模块(芯片组)1104、被耦合到控制模块1104的存储器1106、被耦合到控制模块1104的非易失性存储器(NVM)/存储设备1108、被耦合到控制模块1104的一个或多个输入/输出设备1110,以及被耦合到控制模块1104的网络接口1112。
处理器1102可包括一个或多个单核或多核处理器,处理器1102可包括通用处理器或专用处理器(例如图形处理器、应用处理器、基频处理器等)的任意组合。在一些实施例中,装置1100 能够作为本申请实施例中所述终端设备、服务器(集群)等设备。
在一些实施例中,装置1100 可包括具有指令1114的一个或多个计算机可读介质(例如,存储器1106或NVM/存储设备1108) 以及与该一个或多个计算机可读介质相合并被配置为执行指令1114以实现模块从而执行本公开中所述的动作的一个或多个处理器1102。
对于一个实施例,控制模块1104可包括任意适当的接口控制器,以向(一个或多个)处理器1102中的至少一个和/或与控制模块1104通信的任意适当的设备或组件提供任意适当的接口。
控制模块1104可包括存储器控制器模块,以向存储器1106提供接口。存储器控制器模块可以是硬件模块、软件模块和/或固件模块。
存储器1106可被用于例如为装置1100加载和存储数据和/或指令1114。对于一个实施例,存储器1106可包括任意适当的易失性存储器,例如,适当的DRAM。在一些实施例中,存储器1106可包括双倍数据速率类型四同步动态随机存取存储器(DDR4SDRAM) 。
对于一个实施例,控制模块1104可包括一个或多个输入/输出控制器,以向NVM/存储设备1108及(一个或多个)输入/输出设备1110 提供接口。
例如,NVM/存储设备1108可被用于存储数据和/或指令1114。NVM/存储设备1108可包括任意适当的非易失性存储器(例如,闪存)和/或可包括任意适当的(一个或多个)非易失性存储设备(例如,一个或多个硬盘驱动器(HDD) 、一个或多个光盘(CD) 驱动器和/或一个或多个数字通用光盘(DVD) 驱动器)。
NVM/存储设备1108可包括在物理上作为装置1100 被安装在其上的设备的一部分的存储资源,或者其可被该设备访问可不必作为该设备的一部分。例如,NVM/存储设备1108可通过网络经由(一个或多个)输入/输出设备1110 进行访问。
(一个或多个)输入/输出设备1110 可为装置1100 提供接口以与任意其他适当的设备通信,输入/输出设备1110可以包括通信组件、音频组件、传感器组件等。网络接口1112可为装置1100 提供接口以通过一个或多个网络通信,装置1100 可根据一个或多个无线网络标准和/或协议中的任意标准和/或协议来与无线网络的一个或多个组件进行无线通信,例如接入基于通信标准的无线网络,如WiFi、2G、3G、4G、5G等,或它们的组合进行无线通信。
对于一个实施例,(一个或多个)处理器1102中的至少一个可与控制模块1104的一个或多个控制器(例如,存储器控制器模块) 的逻辑封装在一起。对于一个实施例,(一个或多个)处理器1102中的至少一个可与控制模块1104的一个或多个控制器的逻辑封装在一起以形成系统级封装(SiP) 。对于一个实施例, (一个或多个)处理器1102中的至少一个可与控制模块1104的一个或多个控制器的逻辑集成在同一模具上。对于一个实施例, (一个或多个)处理器1102中的至少一个可与控制模块1104的一个或多个控制器的逻辑集成在同一模具上以形成片上系统(SoC) 。
在各个实施例中,装置1100可以但不限于是:服务器、台式计算设备或移动计算设备(例如,膝上型计算设备、手持计算设备、平板电脑、上网本等)等终端设备。在各个实施例中,装置1100 可具有更多或更少的组件和/或不同的架构。例如,在一些实施例中,装置1100包括一个或多个摄像机、键盘、液晶显示器(LCD) 屏幕(包括触屏显示器)、非易失性存储器端口、多个天线、图形芯片、专用集成电路(ASIC) 和扬声器。
其中,检测装置中可采用主控芯片作为处理器或控制模块,传感器数据、位置信息等存储到存储器或NVM/存储设备中,传感器组可作为输入/输出设备,通信接口可包括网络接口。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本申请所提供的一种训练方法和装置、一种声音事件检测方法和装置、一种电子设备和一种机器可读介质,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (9)

1.一种训练方法,其特征在于,所述方法包括:
确定三元组音频样本;所述三元组音频样本包括:第一音频样本、第二音频样本和第三音频样本;其中,第二音频样本与第一音频样本对应相同的类别信息;第三音频样本与第一音频样本对应不同的类别信息;
利用声音事件检测模型的编码网络,确定所述三元组音频样本对应的第一音频特征;
根据三元组音频样本对应的第一音频特征,确定所述第一音频样本与所述第二音频样本之间的第一匹配信息、以及所述第一音频样本与所述第三音频样本之间的第二匹配信息;
根据所述第一匹配信息和所述第二匹配信息,确定第一损失信息,并根据所述第一损失信息,更新所述编码网络的参数;
其中,所述编码网络包括:至少一个特征提取模块;所述确定所述三元组音频样本对应的第一音频特征,包括:从至少部分特征提取模块输出的中间特征中随机确定出若干个目标特征段,对所述目标特征段进行掩膜处理;所述目标特征段包括连续的多个特征点;
所述对所述目标特征段进行掩膜处理,包括:
将所述目标特征段的特征值替换为零;
根据非目标特征段与所有特征段的比例、或者掩膜概率值,对非目标特征段的特征值进行归一化处理;其中,所述非目标特征段为所述中间特征中除了目标特征段之外的特征段。
2.根据权利要求1所述的方法,其特征在于,所述从至少部分特征提取模块输出的中间特征中随机确定出若干个目标特征段,包括:
根据预设数量,确定中间特征包括的多个特征段;
根据掩膜概率值,从所述中间特征包括的多个特征段中确定出目标特征段。
3.根据权利要求1所述的方法,其特征在于,所述特征提取模块包括:至少一个深度可分离卷积模块和至少一个时域残差卷积模块;针对所述至少一个深度可分离卷积模块和所述至少一个时域残差卷积模块输出的中间特征中的目标特征段进行掩膜处理;
其中,所述深度可分离卷积模块包括:至少一个第一深度可分离卷积层;
所述时域残差卷积模块包括:串联的至少一个第二深度可分离卷积层、与所述至少一个第二深度可分离卷积层并联的卷积层、以及用于将所述至少一个第二深度可分离卷积层的输出特征与所述卷积层的输出特征融合的相加层。
4.根据权利要求1所述的方法,其特征在于,在所述三元组音频样本的训练完成的情况下,所述编码网络的参数为第一目标参数;
所述方法还包括:
在所述编码网络的参数固定为第一目标参数的情况下,利用所述编码网络确定第四音频样本对应的第二音频特征;
利用所述声音事件检测模型的解码网络,确定第二音频特征对应的预测结果;
根据所述预测结果和所述第四音频样本对应的类别信息,确定第二损失信息,并根据所述第二损失信息,对所述解码网络的参数进行更新,以得到所述解码网络的第二目标参数。
5.一种声音事件检测方法,其特征在于,所述方法包括:
接收待检测音频;
利用声音事件检测模型,对所述待检测音频进行声音事件检测,以得到对应的检测结果;其中,所述声音事件检测模型包括:编码网络和解码网络;所述编码网络用于确定所述待检测音频对应的第三音频特征,所述解码网络用于确定所述第三音频特征对应的检测结果;
所述编码网络的训练过程包括:确定三元组音频样本;所述三元组音频样本包括:第一音频样本、第二音频样本和第三音频样本;其中,第二音频样本与第一音频样本对应相同的类别信息;第三音频样本与第一音频样本对应不同的类别信息;利用声音事件检测模型的编码网络,确定所述三元组音频样本对应的第一音频特征;根据三元组音频样本对应的第一音频特征,确定所述第一音频样本与所述第二音频样本之间的第一匹配信息、以及所述第一音频样本与所述第三音频样本之间的第二匹配信息;根据所述第一匹配信息和所述第二匹配信息,确定第一损失信息,并根据所述第一损失信息,更新所述编码网络的参数;其中,所述编码网络包括:至少一个特征提取模块;所述确定所述三元组音频样本对应的第一音频特征,包括:从至少部分特征提取模块输出的中间特征中随机确定出若干个目标特征段,对所述目标特征段进行掩膜处理;所述目标特征段包括连续的多个特征点;所述掩膜处理包括:将所述目标特征段的特征值替换为零;根据非目标特征段与所有特征段的比例、或者掩膜概率值,对非目标特征段的特征值进行归一化处理;其中,所述非目标特征段为所述中间特征中除了目标特征段之外的特征段。
6.一种训练装置,其特征在于,所述装置包括:
样本确定模块,用于确定三元组音频样本;所述三元组音频样本包括:第一音频样本、第二音频样本和第三音频样本;其中,第二音频样本与第一音频样本对应相同的类别信息;第三音频样本与第一音频样本对应不同的类别信息;
第一音频特征确定模块,用于利用声音事件检测模型的编码网络,确定所述三元组音频样本对应的第一音频特征;
匹配信息确定模块,用于根据三元组音频样本对应的第一音频特征,确定所述第一音频样本与所述第二音频样本之间的第一匹配信息、以及所述第一音频样本与所述第三音频样本之间的第二匹配信息;
第一损失确定模块,用于根据所述第一匹配信息和所述第二匹配信息,确定第一损失信息;
第一参数更新模块,用于根据所述第一损失信息,更新所述编码网络的参数;
其中,所述编码网络包括:至少一个特征提取模块;所述音频特征确定模块包括:
目标特征段确定模块,用于从至少部分特征提取模块输出的中间特征中随机确定出若干个目标特征段;
掩膜处理模块,用于对所述目标特征段进行掩膜处理;所述目标特征段包括连续的多个特征点;
所述掩膜处理模块包括:
替换模块,用于将所述目标特征段的特征值替换为零;
归一化处理模块,用于根据非目标特征段与所有特征段的比例、或者掩膜概率值,对非目标特征段的特征值进行归一化处理;其中,所述非目标特征段为所述中间特征中除了目标特征段之外的特征段。
7.一种声音事件检测装置,其特征在于,所述装置包括:
接收模块,用于接收待检测音频;
检测模块,用于利用声音事件检测模型,对所述待检测音频进行声音事件检测,以得到对应的检测结果;其中,所述声音事件检测模型包括:编码网络和解码网络;所述编码网络用于确定所述待检测音频对应的第三音频特征,所述解码网络用于确定所述第三音频特征对应的检测结果;
所述编码网络的训练过程包括:确定三元组音频样本;所述三元组音频样本包括:第一音频样本、第二音频样本和第三音频样本;其中,第二音频样本与第一音频样本对应相同的类别信息;第三音频样本与第一音频样本对应不同的类别信息;利用声音事件检测模型的编码网络,确定所述三元组音频样本对应的第一音频特征;根据三元组音频样本对应的第一音频特征,确定所述第一音频样本与所述第二音频样本之间的第一匹配信息、以及所述第一音频样本与所述第三音频样本之间的第二匹配信息;根据所述第一匹配信息和所述第二匹配信息,确定第一损失信息,并根据所述第一损失信息,更新所述编码网络的参数;其中,所述编码网络包括:至少一个特征提取模块;所述确定所述三元组音频样本对应的第一音频特征,包括:从至少部分特征提取模块输出的中间特征中随机确定出若干个目标特征段,对所述目标特征段进行掩膜处理;所述目标特征段包括连续的多个特征点;所述掩膜处理包括:将所述目标特征段的特征值替换为零;根据非目标特征段与所有特征段的比例、或者掩膜概率值,对非目标特征段的特征值进行归一化处理;其中,所述非目标特征段为所述中间特征中除了目标特征段之外的特征段。
8.一种电子设备,其特征在于,包括:处理器;和
存储器,其上存储有可执行代码,当所述可执行代码被执行时,使得所述处理器执行如权利要求1-5中任一项所述的方法。
9.一种机器可读介质,其上存储有可执行代码,当所述可执行代码被执行时,使得处理器执行如权利要求1-5中任一项所述的方法。
CN202211129403.7A 2022-09-16 2022-09-16 训练方法、声音事件检测方法、装置、设备和介质 Active CN115206294B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211129403.7A CN115206294B (zh) 2022-09-16 2022-09-16 训练方法、声音事件检测方法、装置、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211129403.7A CN115206294B (zh) 2022-09-16 2022-09-16 训练方法、声音事件检测方法、装置、设备和介质

Publications (2)

Publication Number Publication Date
CN115206294A CN115206294A (zh) 2022-10-18
CN115206294B true CN115206294B (zh) 2022-12-06

Family

ID=83571743

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211129403.7A Active CN115206294B (zh) 2022-09-16 2022-09-16 训练方法、声音事件检测方法、装置、设备和介质

Country Status (1)

Country Link
CN (1) CN115206294B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117238298B (zh) * 2023-11-13 2024-02-06 四川师范大学 一种基于声音事件的动物识别与定位方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110120230A (zh) * 2019-01-08 2019-08-13 国家计算机网络与信息安全管理中心 一种声学事件检测方法及装置
CN113140226A (zh) * 2021-04-28 2021-07-20 桂林电子科技大学 一种采用双Token标签的声事件标注及识别方法
CN113506566A (zh) * 2021-06-22 2021-10-15 荣耀终端有限公司 声音检测模型训练方法、数据处理方法以及相关装置
CN114758665A (zh) * 2022-06-14 2022-07-15 深圳比特微电子科技有限公司 音频数据增强方法、装置、电子设备及存储介质
CN114822557A (zh) * 2022-04-01 2022-07-29 北京中庆现代技术股份有限公司 课堂中不同声音的区分方法、装置、设备以及存储介质

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007534995A (ja) * 2004-04-29 2007-11-29 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声信号を分類する方法及びシステム
US9666183B2 (en) * 2015-03-27 2017-05-30 Qualcomm Incorporated Deep neural net based filter prediction for audio event classification and extraction
US9965685B2 (en) * 2015-06-12 2018-05-08 Google Llc Method and system for detecting an audio event for smart home devices
CN108182949A (zh) * 2017-12-11 2018-06-19 华南理工大学 一种基于深度变换特征的高速公路异常音频事件分类方法
KR102605736B1 (ko) * 2018-03-15 2023-11-27 한국전자통신연구원 주파수 변화에 강인한 음향 이벤트 검출 방법 및 그 장치
US11227586B2 (en) * 2019-09-11 2022-01-18 Massachusetts Institute Of Technology Systems and methods for improving model-based speech enhancement with neural networks
CN112989107B (zh) * 2021-05-18 2021-07-30 北京世纪好未来教育科技有限公司 音频分类和分离方法、装置、电子设备以及存储介质
CN113327621A (zh) * 2021-06-09 2021-08-31 携程旅游信息技术(上海)有限公司 模型训练方法、用户识别方法、系统、设备及介质
CN113593603A (zh) * 2021-07-27 2021-11-02 浙江大华技术股份有限公司 音频类别的确定方法、装置、存储介质及电子装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110120230A (zh) * 2019-01-08 2019-08-13 国家计算机网络与信息安全管理中心 一种声学事件检测方法及装置
CN113140226A (zh) * 2021-04-28 2021-07-20 桂林电子科技大学 一种采用双Token标签的声事件标注及识别方法
CN113506566A (zh) * 2021-06-22 2021-10-15 荣耀终端有限公司 声音检测模型训练方法、数据处理方法以及相关装置
CN114822557A (zh) * 2022-04-01 2022-07-29 北京中庆现代技术股份有限公司 课堂中不同声音的区分方法、装置、设备以及存储介质
CN114758665A (zh) * 2022-06-14 2022-07-15 深圳比特微电子科技有限公司 音频数据增强方法、装置、电子设备及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Audio content analysis for unobtrusive event detection in smart homes;Anastasios Vafeiadis et al;《Engineering Applications of Artificial Intelligence》;20200109;全文 *
AudioMask: Robust Sound Event Detection Using Mask R-CNN and Frame-Level Classifier;Alireza Nasiri et al;《2019 IEEE 31st International Conference on Tools with Artificial Intelligence》;20200213;全文 *
基于深度学习的多声音事件检测方法研究;李笑;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20220115;全文 *

Also Published As

Publication number Publication date
CN115206294A (zh) 2022-10-18

Similar Documents

Publication Publication Date Title
US20220198228A1 (en) Method for detecting defects in multi-scale images and computing device utilizing method
US10789941B2 (en) Acoustic event detector with reduced resource consumption
CN110197658B (zh) 语音处理方法、装置以及电子设备
CN112509555B (zh) 方言语音识别方法、装置、介质及电子设备
CN113035231B (zh) 关键词检测方法及装置
CN115206294B (zh) 训练方法、声音事件检测方法、装置、设备和介质
CN113192536B (zh) 语音质量检测模型的训练方法、语音质量检测方法及装置
WO2023193394A1 (zh) 语音唤醒模型的训练、唤醒方法、装置、设备及存储介质
CN112750461B (zh) 语音通信优化方法、装置、电子设备及可读存储介质
CN112967735A (zh) 语音质量检测模型的训练方法及语音质量的检测方法
CN115312033A (zh) 基于人工智能的语音情感识别方法、装置、设备及介质
US10910000B2 (en) Method and device for audio recognition using a voting matrix
CN114582325A (zh) 音频检测方法、装置、计算机设备、存储介质
CN108847251B (zh) 一种语音去重方法、装置、服务器及存储介质
CN114239805A (zh) 跨模态检索神经网络及训练方法、装置、电子设备、介质
CN112735466A (zh) 一种音频检测方法及装置
Yang et al. Personalized keyword spotting through multi-task learning
CN113555005B (zh) 模型训练、置信度确定方法及装置、电子设备、存储介质
CN116978370A (zh) 语音处理方法、装置、计算机设备和存储介质
TWI803243B (zh) 圖像擴增方法、電腦設備及儲存介質
CN117693754A (zh) 训练用于图像修复的经掩模的自动编码器
CN115457436A (zh) 视频热度预测方法及装置
CN111477248B (zh) 一种音频噪声检测方法及装置
CN113299318B (zh) 一种音频节拍的检测方法、装置、计算机设备和存储介质
CN113436633B (zh) 说话人识别方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant