CN112820322B - 一种基于自监督对比学习的半监督音频事件标注方法 - Google Patents
一种基于自监督对比学习的半监督音频事件标注方法 Download PDFInfo
- Publication number
- CN112820322B CN112820322B CN202110290710.2A CN202110290710A CN112820322B CN 112820322 B CN112820322 B CN 112820322B CN 202110290710 A CN202110290710 A CN 202110290710A CN 112820322 B CN112820322 B CN 112820322B
- Authority
- CN
- China
- Prior art keywords
- audio
- samples
- similarity
- supervised
- calculating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000002372 labelling Methods 0.000 title claims abstract description 24
- 238000001228 spectrum Methods 0.000 claims abstract description 42
- 238000000034 method Methods 0.000 claims abstract description 16
- 238000012163 sequencing technique Methods 0.000 claims abstract description 6
- 230000002708 enhancing effect Effects 0.000 claims abstract description 3
- 230000006870 function Effects 0.000 claims description 24
- 230000004913 activation Effects 0.000 claims description 21
- 238000013527 convolutional neural network Methods 0.000 claims description 6
- 230000001419 dependent effect Effects 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 6
- 230000001965 increasing effect Effects 0.000 claims description 5
- 238000001514 detection method Methods 0.000 claims description 4
- 230000002779 inactivation Effects 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000009432 framing Methods 0.000 claims 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Complex Calculations (AREA)
Abstract
本发明提出一种基于自监督对比学习的半监督音频事件标注方法,包括:提取无标注数据的梅尔对数能量谱特征,并对其做归一化;对每个频谱特征做两次随机增强生成两个特征;搭建自监督网络的编码器和投影层;计算样本输出间的相似度,通过排序确定正负样本;通过加强正负样本的对比训练网络;提取标注数据的梅尔对数能量谱特征,并对其做归一化;在训练好的编码器上加入新的分类器联合再训练;输出音频事件标注结果。本发明通过利用自监督对比学习,利用数据自身特点实现对无标注数据的监督学习,获得有效音频表征,然后利用少量标注数据再训练后生成音频中出现的事件类别。
Description
技术领域
本发明涉及半监督音频事件标注方法,特别涉及一种包含对比学习的自监督方法。
背景技术
音频事件标注是从一段连续音频中检测出是否有某种音频事件发生,是音频感知理解的重要组成部分。
传统的音频事件标注算法一般基于全监督或经典的半监督框架,可以在标注数据充足的情况下达到较好的效果,但在标注数据有限而有大量无标注数据的实际应用中,对无标注数据的利用不充分。这种方法可以从无标注数据中自动学习到对音频事件标注有益的表征。该方法引入了自监督对比学习,利用数据自身的差异性作为自监督预训练的标注,实现一种无须手动标注的监督学习。在自监督预训练再迁移到音频事件标注系统再训练后,得到发生的音频事件类别。
发明内容
本发明的目的在于克服传统音频事件标注模型过度依赖标注数据,无法充分利用无标注数据的问题,通过引入自监督对比学习,实现一种无须手动标注的监督学习。再迁移到音频事件标注系统再训练后,检测出发生的音频事件类别。
为了实现上述目的,本发明提供了一种基于自监督对比学习的半监督音频事件标注方法,包括:
步骤1)、对用来训练自监督模型的无标注音频提取对数梅尔能量谱声学特征,并计算均值方差系数,对其做归一化;
步骤2)、对步骤1)的声学特征进行两次不同的数据增强;
步骤3)、构建两组结构相同的编码器和投影层,以步骤2)的声学特征分别作为输入,得到包含语义的高级音频表征;
步骤4)、计算一批数据中每两个音频表征的相似度。将每个音频与其他音频的相似度从小到大排序。由同一个音频增强的两个声学特征互为正样本,对每个音频相似度相对大的样本作为负样本;
步骤5)、加强正负样本高级表征的对比。通过减小正样本间的相似度,增大负样本间的相似度训练编码器和投影层。
步骤6)、对用来再训练全监督模型的标注音频提取对数梅尔能量谱声学特征,并计算均值方差系数,对其做归一化;
步骤7)、载入预训练的步骤3)的编码器,在其顶部构建分类器。以步骤6)的声学特征作为输入,以模型的分类输出与音频事件标注的损失最小化作为训练目标,训练网络。
步骤8)、利用步骤7)的网络输出音频事件标注结果。
上述技术方案中,所述步骤1)中,对用来训练自监督预训练模型的音频提取对数梅尔能量谱特征,其步骤一般为:对每个音频分别分帧加窗、对每一帧计算傅里叶变换得到频谱、计算通过梅尔滤波器提取的频谱,计算频谱的对数能量。此特征的维度为T×F,其中T为帧数,由窗长和窗移决定,F为频点数,由梅尔滤波器的数量决定。
上述技术方案中,所述步骤2)进一步包括,对每个音频的对数梅尔频谱分别做两次方法相同但参数随机的数据增强。数据增强方法为先对频谱加高斯噪声,再在时域和频域上分别对频谱加长度为t和f的掩码,其中t不超过25,f不超过15。
上述技术方案中,所述步骤3)进一步包括,将步骤2)中得到的一组两个样本作为网络的输入,分别训练两组结构相同的编码器和投影层。编码器包括8层卷积神经网络模块,每层卷积神经网络模块由1层2维卷积、批归一化、上下文相关的门结构激活函数、随机失活(dropout)和2维平均池化组成。8层卷积核数目为(16,32,64,64,128,128,128,256),8层池化在时、频域上的尺度分别为((2,2),(2,2),(2,2),(2,2),(2,2),(2,2),(1,2),(1,2))。上下文相关的门结构激活函数表达式为
Y=σ(ω·X+β)⊙X
其中输入X的维数为B×C×T×F,B是批处理的大小,C是通道数,由上一层卷积核的数量决定。σ是sigmoid激活函数,⊙代表逐元素相乘,ω和β是可训练参数。Sigmoid激活函数表达式为
投影层包含一层非线性层和一层线性层,非线性层使用relu激活函数,其表达式为
上述技术方案中,所述步骤4)中,利用余弦相似度计算同一批次中每两个样本之间的相似度形成相似度矩阵。每两个样本A,B的余弦相似度表达式为
根据相似度对每个样本进行排序,依次作为锚样本。将从与锚样本从同一音频增强产生的样本作为正样本,与锚样本相似度最大的3/4样本作为负样本。
上述技术方案中,所述步骤5)中,通过增大锚样本xi与负样本xk间的距离,减小锚样本xi与正样本间xj的距离,实现对自监督中编码器和投影层的训练。损失函数表达式为
其中Nn为负样本的数量,τ是温度参数,通常设为常量0.5。
上述技术方案中,所述步骤6)中,对用来训练音频事件检测模型的标注音频提取对数梅尔能量谱特征,其步为:对每个音频分别分帧加窗、对每一帧计算傅里叶变换得到频谱、计算通过梅尔滤波器提取的频谱,计算频谱的对数能量。此特征的维度为T×F,其中T为帧数,由窗长和窗移决定,F为频点数,由梅尔滤波器的数量决定。
上述技术方案中,所述步骤7)中,取步骤6)中的向量作为模型的输入,载入步骤3)中训好的编码器作为音频事件检测的特征提取器,加入两层非线性层作为分类器。第一层非线性层的激活函数为relu,第二层的激活函数为sigmoid。将减小分类器的输出结果与标注结果的差作为网络。
上述技术方案中,所述步骤8)中,将步骤6)中的特征作输入训练好的步骤7)中的网络生成输出概率,经过二值判断后,产生音频事件标注结果。
本发明的优点在于:
本发明通过利用自监督对比学习,利用数据自身特点实现对无标注数据的监督学习,获得有效音频表征,然后利用少量标注数据再训练后生成音频中出现的事件类别。
附图说明
图1是本发明实施例提供的一种基于自监督对比学习的半监督音频事件标注方法流程示意图;
具体实施方式
先结合附图对本发明作进一步的描述。
参考图1,本发明实施例的方法包括以下步骤:
步骤101)、对用来训练自监督预训练模型的音频提取对数梅尔能量谱特征,其步骤为:对每个音频分别分帧加窗、对每一帧计算傅里叶变换得到频谱、计算通过梅尔滤波器提取的频谱,计算频谱的对数能量。此特征的维度为T×F,其中T为帧数,由窗长和窗移决定,F为频点数,由梅尔滤波器的数量决定。
步骤102)、对每个音频的对数梅尔频谱分别做两次方法相同但参数随机的数据增强。数据增强方法为先对频谱加高斯噪声,再在时域和频域上分别对频谱加长度为t和f的掩码,其中t不超过25,f不超过15。
步骤103)、将步骤102)中得到的一组两个样本作为网络的输入,分别训练两组结构相同的编码器和投影层。编码器包括8层卷积神经网络模块,每层卷积神经网络模块由1层2维卷积、批归一化、上下文相关的门结构激活函数、随机失活(dropout)和2维平均池化组成。8层卷积核数目为(16,32,64,64,128,128,128,256),8层池化在时、频域上的尺度分别为((2,2),(2,2),(2,2),(2,2),(2,2),(2,2),(1,2),(1,2))。上下文相关的门结构激活函数表达式为
Y=σ(ω·X+β)⊙X
其中,输入X的维数为B×C×T×F,B是批处理的大小,C是通道数,由上一层卷积核的数量决定。σ是sigmoid激活函数,⊙代表逐元素相乘,ω和β是可训练参数。Sigmoid激活函数表达式为
投影层包含一层非线性层和一层线性层,非线性层使用relu激活函数,其表达式为
步骤104)、利用余弦相似度计算同一批次中每两个样本之间的相似度形成相似度矩阵。每两个样本A,B的余弦相似度表达式为
根据相似度对每个样本进行排序,依次作为锚样本。将从与锚样本从同一音频增强产生的样本作为正样本,与锚样本相似度最大的3/4样本作为负样本。
步骤105)、通过增大锚样本xi与负样本xk间的距离,减小锚样本xi与正样本间xj的距离,实现对自监督中编码器和投影层的训练。损失函数表达式为
其中Nn为负样本的数量,τ是温度参数,通常设为常量0.5。
步骤106)、对用来训练音频事件检测模型的标注音频提取对数梅尔能量谱特征,其步骤为:对每个音频分别分帧加窗、对每一帧计算傅里叶变换得到频谱、计算通过梅尔滤波器提取的频谱,计算频谱的对数能量。此特征向量的维度为T×F,其中T为帧数,由窗长和窗移决定,F为频点数,由梅尔滤波器的数量决定。
步骤107)、取步骤106)中的特征向量作为模型的输入,载入步骤3)中训练好的编码器作为音频事件检测的特征提取器,加入两层非线性层作为分类器。第一层非线性层的激活函数为relu,第二层的激活函数为sigmoid。将减小分类器的输出结果与标注结果的差作为网络。
步骤108)、将步骤106)中的特征作输入训练好的步骤107)中的网络,生成输出概率,经过0-1二值判断后,产生音频事件标注结果。
本发明实施例通过利用自监督对比学习,利用数据自身特点实现对无标注数据的监督学习,获得有效音频表征,然后利用少量标注数据再训练后生成音频中出现的事件类别。
Claims (6)
1.一种基于自监督对比学习的半监督音频事件标注方法,其特征在于,包括以下步骤:
步骤1)、对用来训练自监督模型的无标注音频提取对数梅尔能量谱声学特征,并计算均值方差系数,对其做归一化;
步骤2)、对步骤1)的声学特征进行两次不同的数据增强;
步骤3)、构建两组结构相同的编码器和投影层,以步骤2)的声学特征分别作为输入,得到包含语义的高级音频表征;
步骤4)、计算一批数据中每两个音频表征的相似度;将每个音频与其他音频的相似度从小到大排序;由同一个音频增强的两个声学特征互为正样本,对每个音频相似度相对大的样本作为负样本;
步骤5)、加强正负样本高级表征的对比;通过减小正样本间的相似度,增大负样本间的相似度训练编码器和投影层;
步骤6)、对用来再训练全监督模型的标注音频提取对数梅尔能量谱声学特征,并计算均值方差系数,对其做归一化;
步骤7)、载入预训练的步骤3)的编码器,在其顶部构建分类器;以步骤6)的声学特征作为输入,以模型的分类输出与音频事件标注的损失最小化作为训练目标,训练网络;
步骤8)、利用步骤7)的网络输出音频事件标注结果;
在步骤1)中,所述对用来训练自监督预训练模型的音频提取对数梅尔能量谱特征步骤,包括:对每个音频分别分帧加窗、对每一帧计算傅里叶变换得到频谱、计算通过梅尔滤波器提取的频谱,计算频谱的对数能量;此特征的维度为T×F,其中T为帧数,由窗长和窗移决定,F为频点数,由梅尔滤波器的数量决定;
所述对步骤1)的声学特征进行两次不同的数据增强步骤,包括:对每个音频的对数梅尔频谱分别做两次方法相同但参数随机的数据增强;数据增强方法为先对频谱加高斯噪声,再在时域和频域上分别对频谱加长度为t和f的掩码,其中t不超过25,f不超过15;
所述构建两组结构相同的编码器和投影层步骤,包括:将步骤2)中得到的一组两个样本作为网络的输入,分别训练两组结构相同的编码器和投影层;所述编码器包括8层卷积神经网络模块,每层卷积神经网络模块由1层2维卷积、批归一化、上下文相关的门结构激活函数、随机失活(dropout)和2维平均池化组成;8层卷积核数目为(16,32,64,64,128,128,128,256),8层池化在时、频域上的尺度分别为((2,2),(2,2),(2,2),(2,2),(2,2),(2,2),(1,2),(1,2));上下文相关的门结构激活函数表达式为
Y=σ(ω·X+β)⊙X
其中,输入X的维数为B×C×T×F,B是批处理的大小,C是通道数,由上一层卷积核的数量决定;σ是sigmoid激活函数,⊙代表逐元素相乘,ω和β是可训练参数;Sigmoid激活函数表达式为
投影层包含一层非线性层和一层线性层,非线性层使用relu激活函数,其表达式为
4.根据权利要求1所述的方法,其特征在于,在步骤6)中,对用来训练音频事件检测模型的标注音频提取对数梅尔能量谱特征,其步骤包括:对每个音频分别分帧加窗、对每一帧计算傅里叶变换得到频谱、计算通过梅尔滤波器提取的频谱,计算频谱的对数能量;此特征的维度为T×F,其中T为帧数,由窗长和窗移决定,F为频点数,由梅尔滤波器的数量决定。
5.根据权利要求1所述的方法,其特征在于,在步骤7)中,取步骤6)中的向量作为模型的输入,载入步骤3)中训好的编码器作为音频事件检测的特征提取器,加入两层非线性层作为分类器;第一层非线性层的激活函数为relu,第二层的激活函数为sigmoid;将减小分类器的输出结果与标注结果的差作为网络。
6.根据权利要求1所述的方法,其特征在于,在步骤8)中,将步骤6)中的特征作输入训好的步骤7)中的网络生成输出概率,经过二值判断后,产生音频事件标注结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110290710.2A CN112820322B (zh) | 2021-03-18 | 2021-03-18 | 一种基于自监督对比学习的半监督音频事件标注方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110290710.2A CN112820322B (zh) | 2021-03-18 | 2021-03-18 | 一种基于自监督对比学习的半监督音频事件标注方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112820322A CN112820322A (zh) | 2021-05-18 |
CN112820322B true CN112820322B (zh) | 2022-12-23 |
Family
ID=75863429
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110290710.2A Active CN112820322B (zh) | 2021-03-18 | 2021-03-18 | 一种基于自监督对比学习的半监督音频事件标注方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112820322B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113792821B (zh) * | 2021-11-15 | 2022-02-15 | 北京爱笔科技有限公司 | 一种用于提取人体骨骼特征的模型训练方法及装置 |
CN114841257B (zh) * | 2022-04-21 | 2023-09-22 | 北京交通大学 | 一种基于自监督对比约束下的小样本目标检测方法 |
CN115273819B (zh) * | 2022-09-28 | 2022-12-06 | 深圳比特微电子科技有限公司 | 声音事件检测模型建立方法、装置及可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103793713A (zh) * | 2012-10-31 | 2014-05-14 | 中国科学院沈阳自动化研究所 | 低秩约束的在线自监督学习的场景分类方法 |
CN110363231A (zh) * | 2019-06-27 | 2019-10-22 | 平安科技(深圳)有限公司 | 基于半监督深度学习的异常识别方法、装置及存储介质 |
CN111723756A (zh) * | 2020-06-24 | 2020-09-29 | 中国科学技术大学 | 基于自监督和半监督学习的面部特征点跟踪方法 |
US10887851B1 (en) * | 2019-07-24 | 2021-01-05 | Cisco Technology, Inc. | Dynamic transmission power in wireless mesh networks using supervised and semi-supervised learning |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11829871B2 (en) * | 2019-08-20 | 2023-11-28 | Lg Electronics Inc. | Validating performance of a neural network trained using labeled training data |
-
2021
- 2021-03-18 CN CN202110290710.2A patent/CN112820322B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103793713A (zh) * | 2012-10-31 | 2014-05-14 | 中国科学院沈阳自动化研究所 | 低秩约束的在线自监督学习的场景分类方法 |
CN110363231A (zh) * | 2019-06-27 | 2019-10-22 | 平安科技(深圳)有限公司 | 基于半监督深度学习的异常识别方法、装置及存储介质 |
US10887851B1 (en) * | 2019-07-24 | 2021-01-05 | Cisco Technology, Inc. | Dynamic transmission power in wireless mesh networks using supervised and semi-supervised learning |
CN111723756A (zh) * | 2020-06-24 | 2020-09-29 | 中国科学技术大学 | 基于自监督和半监督学习的面部特征点跟踪方法 |
Non-Patent Citations (2)
Title |
---|
CONTRASTIVE LEARNING OF GENERAL-PURPOSE AUDIO REPRESENTATIONS;Eindhoven University of Technology,Google Research;《arXiv.org》;20201031;摘要,第1节第4段,第2节,第3节第1段,附图1 * |
实体关系抽取方法研究综述;李冬梅等;《计算机研究与发展》;20200707(第07期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112820322A (zh) | 2021-05-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112820322B (zh) | 一种基于自监督对比学习的半监督音频事件标注方法 | |
CN109597997B (zh) | 基于评论实体、方面级情感分类方法和装置及其模型训练 | |
Junbo et al. | Fault diagnosis method study in roller bearing based on wavelet transform and stacked auto-encoder | |
CN112100383B (zh) | 一种面向多任务语言模型的元-知识微调方法及平台 | |
Xu et al. | Investigation on the Chinese text sentiment analysis based on convolutional neural networks in deep learning. | |
CN111126386B (zh) | 场景文本识别中基于对抗学习的序列领域适应方法 | |
CN110287983B (zh) | 基于最大相关熵深度神经网络单分类器异常检测方法 | |
CN112818861B (zh) | 一种基于多模态上下文语义特征的情感分类方法及系统 | |
CN107945210B (zh) | 基于深度学习和环境自适应的目标跟踪方法 | |
CN111783841A (zh) | 基于迁移学习和模型融合的垃圾分类方法、系统及介质 | |
CN112231478A (zh) | 基于bert和多层注意力机制的方面级情感分类方法 | |
EP3874412A1 (en) | Computer architecture for multiplier-less machine learning | |
Cai et al. | The DKU-DukeECE system for the self-supervision speaker verification task of the 2021 VoxCeleb speaker recognition challenge | |
Zhang et al. | Temporal Transformer Networks for Acoustic Scene Classification. | |
CN115062727A (zh) | 一种基于多阶超图卷积网络的图节点分类方法及系统 | |
CN114881173A (zh) | 基于自注意力机制的简历分类方法和装置 | |
CN108268461A (zh) | 一种基于混合分类器的文本分类装置 | |
Wang et al. | A novel rolling bearing fault diagnosis method based on adaptive denoising convolutional neural network under noise background | |
CN117892175A (zh) | 一种snn多模态目标识别方法、系统、设备及介质 | |
CN116680639A (zh) | 一种基于深度学习的深海潜水器传感器数据的异常检测方法 | |
CN117079099A (zh) | 一种基于改进YOLOv8n的违规行为检测方法 | |
CN116680401A (zh) | 文档处理方法、文档处理装置、设备及存储介质 | |
Xiao et al. | Health assessment for piston pump using LSTM neural network | |
CN113160823B (zh) | 基于脉冲神经网络的语音唤醒方法、装置及电子设备 | |
US20230394304A1 (en) | Method and Apparatus for Neural Network Based on Energy-Based Latent Variable Models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |