CN111859010A - 一种基于深度互信息最大化的半监督音频事件识别方法 - Google Patents

一种基于深度互信息最大化的半监督音频事件识别方法 Download PDF

Info

Publication number
CN111859010A
CN111859010A CN202010661214.9A CN202010661214A CN111859010A CN 111859010 A CN111859010 A CN 111859010A CN 202010661214 A CN202010661214 A CN 202010661214A CN 111859010 A CN111859010 A CN 111859010A
Authority
CN
China
Prior art keywords
sample
semi
mutual information
supervised
depth
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010661214.9A
Other languages
English (en)
Other versions
CN111859010B (zh
Inventor
刘半藤
郑启航
王章权
陈友荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Shuren University
Original Assignee
Zhejiang Shuren University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Shuren University filed Critical Zhejiang Shuren University
Priority to CN202010661214.9A priority Critical patent/CN111859010B/zh
Publication of CN111859010A publication Critical patent/CN111859010A/zh
Application granted granted Critical
Publication of CN111859010B publication Critical patent/CN111859010B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/65Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/54Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval

Abstract

本发明涉及一种基于深度互信息最大化的半监督音频事件识别方法,使用半监督神经网络模型作为骨干,设计了基于深度互信息最大化一致性正则约束和交叉熵分类约束,构建出半监督学习模型,设计互信息判别器对模型深度表征向量间的互信息进行估计,使模型通过全局互信息挖掘样本间的潜在联系,以加强全局表征间的一致性与非线性相关性,获得具备较强鲁棒性的半监督音频事件分类模型;使用梯度下降法优化神经网络模型参数,对音频事件样本进行分类。该方法具有具有误差小、鲁棒性强、精度高等优点,能够在标签数据不足的情况下实现对声音事件分类的要求,具有较高的应用价值。

Description

一种基于深度互信息最大化的半监督音频事件识别方法
技术领域:
本发明涉及一种音频事件识别方法,具体涉及一种基于深度互信息最大化的半监督音频事件识别方法。
背景技术:
音频信号携带了大量有关日常环境以及物理事件发生位置的信息。人类可以轻松感知所处的声音场景(繁忙的街道,办公室等),并识别各个音频事件(汽车,脚步声等)。对音频事件的自动检测在现实生活中具有许多应用。对于传统的声音事件分类,较依赖于人工预处理特征,如人工选取MFCC的滤波器个数、音调质心特征能量等。这些传统方法在目前应用中缺乏效率与实用性。基于深度学习的声音事件分类方法利用神经网络进行自动特征提取与结果分类,但目前最先进的深度学习方法通常需要大量的标签数据才能获得较高的性能。特别是对于音频事件识别,数据集需要包含由音频源的不可预知性而产生的变化多样的音频数据,从而增加了的数据获取的难度,更重要的是数据标签成本随之升高。因此学者开始研究基于半监督学习的音频事件识别方法,此前研究的半监督学习算法主要研究一致性正则方法提升模型的鲁棒性,但目前的一致性正则方法通常构建基于模型输出分布的数值约束,来保证输出结果的一致,但是仅考虑输出的一致仍然存在随机性和片面性。
针对现有半监督学习的音频事件识别方法中存在的上述不足,本发明还考虑了模型中间层的输出表征的相关性,以此来构建更强壮的一致性正则约束,从而使模型获得更强的鲁棒性与泛化能力,本案由此而生。
发明内容:
为克服传统半监督音频事件识别方法中的一致性正则方法约束存在随机性和片面性的问题,无法指导模型挖掘最有效的内部表征。本发明提供一种基于深度互信息最大化的半监督音频事件识别方法,该方法通过利用模型内部的表征向量,以表征互信息最大化为目标对模型施加一致性约束,加强表征向量对相同类别数据间的非线性统计相关性,解决传统一致性正则化方法无法指导模型挖掘最有效的内部表征问题,提高建模的鲁棒性。
为了实现上述发明目的,本发明所采用的技术方案为:
一种基于深度互信息最大化的半监督音频事件识别方法,内容包括:
步骤1:构建样本数据集,样本数据集中包括无标签样本和有标签样本;
步骤2:构建半监督神经网络模型和互信息判别器模型,对输入的无标签样本进行数据增强,并将数据增强前及数据增强后的样本输入半监督神经网络模型中进行特征提取;有标签样本输出相应的分类概率分布,并计算其分类损失;无标签样本分别导出数据增强前的深度表征向量以及数据增强后的深度表征向量,将数据增强前的深度表征向量与数据增强后的深度表征向量进行矩阵式拼接,获得表征向量重组矩阵;将表征向量重组矩阵输入至互信息判别器模型进行计算,得到互信息损失,将互信息损失与分类损失结合得到半监督神经网络模型的总体损失目标函数;
步骤3:对半监督神经网络模型参数进行优化,并输出训练好的半监督神经网络模型;
步骤4:将待分类识别的音频样本进行预处理,然后输入训练好的半监督神经网络模型,最后输出对应的分类类别。
进一步,所述步骤1中样本数据集的构建内容如下:
步骤1.1:开始遍历所有音频样本;
步骤1.2:对音频样本进行STFT变换和对数Mel滤波,获得含不确定长度L的对数Mel频谱,并设置维度判断值;
步骤1.3:进行维度判断,若不确定长度L未超过设定维度值,则将获得的对数Mel频谱随机放入所设定维度的空矩阵中;若不确定长度L超过设定维度值,将对数Mel频谱随机裁剪使其符合设定维度;
步骤1.4:将步骤1.3中处理后的对数Mel频谱从幅度单位转换为分贝单位,获得输入样本;
步骤1.5:判断输入样本是否含有标签,若含有标签则将音频数据与标签形成样本对保存成标签样本,若不含标签则保存为无标签样本;
步骤1.6:判断是否遍历所有样本,是则退出,否则选择下一个样本重新执行步骤1.2。
进一步,所述步骤2中输入的无标签样本为ui,数据增强后的无标签样本为
Figure BDA0002578624580000034
输入的有标签样本对为xi,pi,分类概率分布为qi,对于无标签样本数据增强前、后的深度表征向量为zi
Figure BDA0002578624580000035
输入的样本批大小为N;分类损失Llabel采用对pi,qi计算二分类交叉熵方式计算,如下式所示:
Figure BDA0002578624580000031
表征向量重组矩阵FeatrueMat表示如下:
Figure BDA0002578624580000032
互信息损失Lglobal计算表达式如下,σ表示Sigmoid函数:
Figure BDA0002578624580000033
总体损失目标函数L表达式如下:
L=λ·Lglobal+γ·Llabel
其中,λ表示互信息损失的权重,γ表示分类损失的权重。
进一步,所述步骤2中数据增强内容包括:以50%的概率对无标签样本进行频率扭曲、以50%的概率对无标签样本进行时间扭曲、以50%的概率对无标签样本进行频率掩盖、以50%的概率对无标签样本进行时间掩盖。
进一步,所述步骤3中对半监督神经网络模型参数优化内容如下:
步骤3.1:设置学习率a、迭代次数iter、互信息损失权重λ、分类损失权重γ;
步骤3.2:输入样本对,计算出总体损失L
步骤3.3:采用梯度下降法调整模型权重参数;
步骤3.4:更新迭代次数,并判断迭代次数是否超过设定的迭代次数iter,若超过则输出训练好的半监督神经网络模型,若未超过则返回步骤3.2继续迭代训练。
进一步,所述步骤4中对待分类识别的音频样本进行预处理内容如下:
步骤4.1:对待分类音频样本进行STFT变换和对数Mel滤波,获得含不确定长度L的对数Mel频谱,并设置维度判断值;
步骤4.2:进行维度判断,若不确定长度L未超过设定维度值,则将获得的对数Mel频谱随机放入所设定维度的空矩阵中;若不确定长度L超过设定维度值,将对数Mel频谱随机裁剪使其符合设定维度;
步骤4.3:将步骤4.2中处理后的对数Mel频谱从幅度单位转换为分贝单位,获得输入样本。
进一步,所述步骤4中对待分类识别的音频样本的分类识别包括如下内容:将获得的输入样本输入训练好的半监督神经网络模型中获得概率分布向量p,根据分类判别阈值thresh按下式预测当前样本的类别I:
Figure BDA0002578624580000041
其中,k为类别索引序号,C为类别总数。本发明通过设计深度表征互信息最大化的一致性正则约束函数,构建深度神经网络模型,设计互信息判别器对模型深度表征向量间的互信息进行估计,使模型通过全局互信息挖掘样本间的潜在联系,以加强全局表征间的一致性与非线性相关性,获得具备较强鲁棒性的半监督音频事件分类模型,实现音频事件的准确识别。该方法具有误差小、鲁棒性强、泛化能力强等优点,满足音频事件识别的基本要求,具有较高的应用价值。
以下通过附图和具体实施方式对本发明做进一步阐述。
附图说明:
图1为本发明半监督音频事件识别方法的架构图;
图2为本发明半监督音频事件识别方法中样本数据集构建流程图;
图3为本发明半监督音频事件识别方法中半监督神经网络模型构建流程图;
图4为本发明半监督音频事件识别方法中半监督神经网络模型参数优化流程图;
图5为本发明半监督音频事件识别方法中音频信号活动事件类别识别流程图。
具体实施方式:
本实施例公开一种基于深度互信息最大化的半监督音频事件识别方法,其流程如图1所示,主要包括样本数据集的构建、半监督神经网络模型的构建、半监督神经网络模型的训练、以及待分类识别音频样本的分类,具体步骤如下:
步骤一:构建样本数据集,如图2所示:
步骤1.1:开始遍历所有音频样本;
步骤1.2:使用帧长度为60毫秒、步长为3毫秒汉明窗对音频样本信号进行短时傅里叶(STFT)变换;使用128个Mel对数滤波器对STFT后的信号进行滤波,得到维度为[128,L]的对数Mel频谱,其中L为不确定长度;因为音频数据长度不一,会导致预处理后的对数Mel频率数据时间维度不同,因此设置输入维度为[128,512];
步骤1.3:进行维度判断,若不确定长度L小于512,则将获得的对数Mel频谱随机放入维度为[128,512]的空矩阵中,得到处理后的对数Mel频谱矩阵;若不确定长度L大于512,将对数Mel频谱进行长度为512的随机裁剪,使其维度为[128,512],得到处理后的对数Mel频谱矩阵;
步骤1.4:将步骤1.3中处理后的对数Mel频谱从幅度单位转换为分贝单位,获得输入样本;
步骤1.5:判断输入样本是否含有标签,若含有标签则将音频数据与标签形成样本对保存成标签样本,若不含标签则保存为无标签样本;
步骤1.6:判断是否遍历所有音频样本,是则退出,否则选择下一个样本重新执行步骤1.2。
步骤二:构建半监督神经网络模型和互信息判别器模型,如图3所示,主要包括:
步骤2.1:随机选择批大小为N的无标签样本ui(ui∈[1,N])及有标签样本xi,pi(xi,pi∈[1,N]),xi,pi分别表示有标签样本及对应标签,利用数据增强方法对ui进行数据增强操作,获得数据增强后的无标签样本
Figure BDA0002578624580000061
具体数据增强方式如下:
2.1.1:以50%的概率对无标签样本ui进行频率扭曲;
2.1.2:以50%的概率对无标签样本ui进行时间扭曲;
2.1.3:以50%的概率对无标签样本ui进行频率掩盖;
2.1.4:以50%的概率对无标签样本ui进行时间掩盖。
步骤2.2:将数据增强前、后的无标签样本ui
Figure BDA0002578624580000071
输入至半监督神经网络模型中进行特征提取,对于有标签样本xi,pi输出相应的分类概率分布qi(qi∈[1,N]),对无标签增强前、后样本导出网络模型中间层的深度表征向量,即无标签样本数据增强前的深度表征向量zi,以及无标签样本数据增强后的深度表征向量
Figure BDA0002578624580000072
其中,j∈[1,N];
步骤2.3:计算有标签样本的分类损失Llabel,分类损失Llabel采用对pi,qi计算二分类交叉熵方式计算,如下式所示:
Figure BDA0002578624580000073
如果无标签样本,分类损失设置为0;
步骤2.4:计算无标签样本的互信息损失Lglobal,有标签样本直接将互信息损失设置为0,将数据增强前的深度表征向量zi与数据增强后的深度表征向量
Figure BDA0002578624580000075
进行矩阵式拼接(Matconcat),获得表征向量重组矩阵FeatrueMat,表征向量重组矩阵FeatrueMat表示如下:
Figure BDA0002578624580000074
步骤2.5:将表征向量重组矩阵FeatrueMat输入至互信息判别器模型进行计算,得到互信息损失Lglobal,互信息损失Lglobal计算表达式如下,σ表示Sigmoid函数:
Figure BDA0002578624580000081
步骤2.6:将互信息损失Lglobal与分类损失Llabel结合得到半监督神经网络模型的总体损失目标函数L,总体损失目标函数L表达式如下:
L=λ·Lglobal+γ·Llabel
其中,λ表示互信息损失的权重,γ表示分类损失的权重。
步骤三:对半监督神经网络模型进行训练(模型参数优化),如图4所示,主要包括:
步骤3.1:设置学习率a、迭代次数iter、互信息损失权重λ、分类损失权重γ;
步骤3.2:输入样本对,计算出总体损失L
步骤3.3:采用梯度下降法调整模型权重参数;
步骤3.4:更新迭代次数,并判断迭代次数是否超过设定的迭代次数iter,若超过则输出训练好的半监督神经网络模型,若未超过则返回步骤3.2继续迭代训练。
步骤四:将待分类识别的音频样本进行预处理,然后输入训练好的半监督神经网络模型,最后输出对应的分类类别,如图5所示,内容如下:
步骤4.1:输入待分类音频样本,使用帧长度为60毫秒、步长为3毫秒汉明窗对音频样本信号进行短时傅里叶(STFT)变换;使用128个Mel对数滤波器对STFT后的信号进行滤波,得到维度为[128,L]的对数Mel频谱,其中L为不确定长度;因为音频数据长度不一,会导致预处理后的对数Mel频率数据时间维度不同,因此设置输入维度为[128,512];
步骤4.2:进行维度判断,若不确定长度L小于512,则将获得的对数Mel频谱随机放入维度为[128,512]的空矩阵中,得到处理后的对数Mel频谱矩阵;若不确定长度L大于512,将对数Mel频谱进行长度为512的随机裁剪,使其维度为[128,512],得到处理后的对数Mel频谱矩阵;
步骤4.3:将步骤4.2中处理后的对数Mel频谱从幅度单位转换为分贝单位,获得输入样本;
步骤4.4:将获得的输入样本输入训练好的半监督神经网络模型中获得概率分布向量p,根据分类判别阈值thresh按下式预测当前样本的类别I:
Figure BDA0002578624580000091
其中,k为类别索引序号,C为类别总数。
本发明提供了一种基于深度互信息最大化的半监督音频事件识别方法,使用半监督神经网络模型作为骨干,设计了基于深度互信息最大化一致性正则约束和交叉熵分类约束,构建出半监督学习模型,使用梯度下降法优化神经网络模型参数,对音频事件样本进行分类。该算法具有鲁棒性强、精度高等优点,能够在标签数据不足的情况下实现对声音事件分类的要求,具有较高的应用价值。
以上实施例仅用以说明本发明的技术方案而非限制,本领域普通技术人员对本发明的技术方案所做的其他修改或者等同替换,只要不脱离本发明技术方案的精神和范围,均应涵盖在本发明的权利要求范围中。

Claims (7)

1.一种基于深度互信息最大化的半监督音频事件识别方法,其特征在于:内容包括:
步骤1:构建样本数据集,样本数据集中包括无标签样本和有标签样本;
步骤2:构建半监督神经网络模型和互信息判别器模型,对输入的无标签样本进行数据增强,并将数据增强前及数据增强后的样本输入半监督神经网络模型中进行特征提取;有标签样本输出相应的分类概率分布,并计算其分类损失;无标签样本分别导出数据增强前的深度表征向量以及数据增强后的深度表征向量,将数据增强前的深度表征向量与数据增强后的深度表征向量进行矩阵式拼接,获得表征向量重组矩阵;将表征向量重组矩阵输入至互信息判别器模型进行计算,得到互信息损失,将互信息损失与分类损失结合得到半监督神经网络模型的总体损失目标函数;
步骤3:对半监督神经网络模型参数进行优化,并输出训练好的半监督神经网络模型;
步骤4:将待分类识别的音频样本进行预处理,然后输入训练好的半监督神经网络模型,最后输出对应的分类类别。
2.根据权利要求1所述的一种基于深度互信息最大化的半监督音频事件识别方法,其特征在于:所述步骤1中样本数据集的构建内容如下:
步骤1.1:开始遍历所有音频样本;
步骤1.2:对音频样本进行STFT变换和对数Mel滤波,获得含不确定长度L的对数Mel频谱,并设置维度判断值;
步骤1.3:进行维度判断,若不确定长度L未超过设定维度值,则将获得的对数Mel频谱随机放入所设定维度的空矩阵中;若不确定长度L超过设定维度值,将对数Mel频谱随机裁剪使其符合设定维度;
步骤1.4:将步骤1.3中处理后的对数Mel频谱从幅度单位转换为分贝单位,获得输入样本;
步骤1.5:判断输入样本是否含有标签,若含有标签则将音频数据与标签形成样本对保存成标签样本,若不含标签则保存为无标签样本;
步骤1.6:判断是否遍历所有样本,是则退出,否则选择下一个样本重新执行步骤1.2。
3.根据权利要求1所述的一种基于深度互信息最大化的半监督音频事件识别方法,其特征在于:所述步骤2中输入的无标签样本为ui,数据增强后的无标签样本为
Figure FDA0002578624570000024
输入的有标签样本对为xi,pi,分类概率分布为qi,对于无标签样本数据增强前、后的深度表征向量为zi
Figure FDA0002578624570000025
输入的样本批大小为N;分类损失Llabel采用对pi,qi计算二分类交叉熵方式计算,如下式所示:
Figure FDA0002578624570000021
表征向量重组矩阵FeatrueMat表示如下:
Figure FDA0002578624570000022
互信息损失Lglobal计算表达式如下,σ表示Sigmoid函数:
Figure FDA0002578624570000023
总体损失目标函数L表达式如下:
L=λ·Lglobal+γ·Llabel
其中,λ表示互信息损失的权重,γ表示分类损失的权重。
4.根据权利要求1所述的一种基于深度互信息最大化的半监督音频事件识别方法,其特征在于:所述步骤2中数据增强内容包括:以50%的概率对无标签样本进行频率扭曲、以50%的概率对无标签样本进行时间扭曲、以50%的概率对无标签样本进行频率掩盖、以50%的概率对无标签样本进行时间掩盖。
5.根据权利要求3所述的一种基于深度互信息最大化的半监督音频事件识别方法,其特征在于:所述步骤3中对半监督神经网络模型参数优化内容如下:
步骤3.1:设置学习率a、迭代次数iter、互信息损失权重λ、分类损失权重γ;
步骤3.2:输入样本对,计算出总体损失L
步骤3.3:采用梯度下降法调整模型权重参数;
步骤3.4:更新迭代次数,并判断迭代次数是否超过设定的迭代次数iter,若超过则输出训练好的半监督神经网络模型,若未超过则返回步骤3.2继续迭代训练。
6.根据权利要求1所述的一种基于深度互信息最大化的半监督音频事件识别方法,其特征在于:所述步骤4中对待分类识别的音频样本进行预处理内容如下:
步骤4.1:对待分类音频样本进行STFT变换和对数Mel滤波,获得含不确定长度L的对数Mel频谱,并设置维度判断值;
步骤4.2:进行维度判断,若不确定长度L未超过设定维度值,则将获得的对数Mel频谱随机放入所设定维度的空矩阵中;若不确定长度L超过设定维度值,将对数Mel频谱随机裁剪使其符合设定维度;
步骤4.3:将步骤4.2中处理后的对数Mel频谱从幅度单位转换为分贝单位,获得输入样本。
7.根据权利要求6所述的一种基于深度互信息最大化的半监督音频事件识别方法,其特征在于:所述步骤4中对待分类识别的音频样本的分类识别包括如下内容:将获得的输入样本输入训练好的半监督神经网络模型中获得概率分布向量p,根据分类判别阈值thresh按下式预测当前样本的类别I:
Figure FDA0002578624570000041
其中,k为类别索引序号,C为类别总数。
CN202010661214.9A 2020-07-10 2020-07-10 一种基于深度互信息最大化的半监督音频事件识别方法 Active CN111859010B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010661214.9A CN111859010B (zh) 2020-07-10 2020-07-10 一种基于深度互信息最大化的半监督音频事件识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010661214.9A CN111859010B (zh) 2020-07-10 2020-07-10 一种基于深度互信息最大化的半监督音频事件识别方法

Publications (2)

Publication Number Publication Date
CN111859010A true CN111859010A (zh) 2020-10-30
CN111859010B CN111859010B (zh) 2022-06-03

Family

ID=73152787

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010661214.9A Active CN111859010B (zh) 2020-07-10 2020-07-10 一种基于深度互信息最大化的半监督音频事件识别方法

Country Status (1)

Country Link
CN (1) CN111859010B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113299314A (zh) * 2021-07-27 2021-08-24 北京世纪好未来教育科技有限公司 一种音频事件识别模型的训练方法、装置及其设备
CN113782029A (zh) * 2021-09-22 2021-12-10 广东电网有限责任公司 语音识别模型的训练方法、装置、设备以及存储介质
CN113813609A (zh) * 2021-06-02 2021-12-21 腾讯科技(深圳)有限公司 游戏音乐风格分类方法、装置、可读介质及电子设备
CN116010805A (zh) * 2023-03-24 2023-04-25 昆明理工大学 基于卷积神经网络的滚动轴承故障特征提取方法、装置
CN116108917A (zh) * 2023-02-21 2023-05-12 思腾合力(天津)科技有限公司 一种无标记样本增强的半监督图神经网络方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105069474A (zh) * 2015-08-05 2015-11-18 山东师范大学 用于音频事件分类的半监督学习高置信度样本挖掘方法
US20190050399A1 (en) * 2017-08-11 2019-02-14 Entit Software Llc Distinguish phrases in displayed content
CN111105786A (zh) * 2019-12-26 2020-05-05 苏州思必驰信息科技有限公司 一种多采样率语音识别方法、装置、系统及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105069474A (zh) * 2015-08-05 2015-11-18 山东师范大学 用于音频事件分类的半监督学习高置信度样本挖掘方法
US20190050399A1 (en) * 2017-08-11 2019-02-14 Entit Software Llc Distinguish phrases in displayed content
CN111105786A (zh) * 2019-12-26 2020-05-05 苏州思必驰信息科技有限公司 一种多采样率语音识别方法、装置、系统及存储介质

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113813609A (zh) * 2021-06-02 2021-12-21 腾讯科技(深圳)有限公司 游戏音乐风格分类方法、装置、可读介质及电子设备
CN113813609B (zh) * 2021-06-02 2023-10-31 腾讯科技(深圳)有限公司 游戏音乐风格分类方法、装置、可读介质及电子设备
CN113299314A (zh) * 2021-07-27 2021-08-24 北京世纪好未来教育科技有限公司 一种音频事件识别模型的训练方法、装置及其设备
CN113782029A (zh) * 2021-09-22 2021-12-10 广东电网有限责任公司 语音识别模型的训练方法、装置、设备以及存储介质
CN113782029B (zh) * 2021-09-22 2023-10-27 广东电网有限责任公司 语音识别模型的训练方法、装置、设备以及存储介质
CN116108917A (zh) * 2023-02-21 2023-05-12 思腾合力(天津)科技有限公司 一种无标记样本增强的半监督图神经网络方法
CN116108917B (zh) * 2023-02-21 2023-08-29 思腾合力(天津)科技有限公司 一种无标记样本增强的半监督图神经网络方法
CN116010805A (zh) * 2023-03-24 2023-04-25 昆明理工大学 基于卷积神经网络的滚动轴承故障特征提取方法、装置

Also Published As

Publication number Publication date
CN111859010B (zh) 2022-06-03

Similar Documents

Publication Publication Date Title
CN111859010B (zh) 一种基于深度互信息最大化的半监督音频事件识别方法
CN113378632B (zh) 一种基于伪标签优化的无监督域适应行人重识别方法
CN111061843B (zh) 一种知识图谱引导的假新闻检测方法
Lester et al. A hybrid discriminative/generative approach for modeling human activities
CN110084151B (zh) 基于非局部网络深度学习的视频异常行为判别方法
Cakir et al. Multi-label vs. combined single-label sound event detection with deep neural networks
CN111414461B (zh) 一种融合知识库与用户建模的智能问答方法及系统
CN112529638B (zh) 基于用户分类和深度学习的服务需求动态预测方法及系统
Huang et al. Large-scale weakly-supervised content embeddings for music recommendation and tagging
CN114255403A (zh) 基于深度学习的光学遥感图像数据处理方法及系统
CN114023354A (zh) 基于聚焦损失函数的指导型声学事件检测模型训练方法
CN117115581A (zh) 一种基于多模态深度学习的智能误操作预警方法及系统
CN112329974A (zh) 基于lstm-rnn的民航安保事件行为主体识别与预测方法及系统
CN115410258A (zh) 基于注意力图像的人脸表情识别方法
CN113707175B (zh) 基于特征分解分类器与自适应后处理的声学事件检测系统
Tang et al. Transound: Hyper-head attention transformer for birds sound recognition
CN112466284B (zh) 一种口罩语音鉴别方法
Xie et al. High accuracy individual identification model of crested ibis (Nipponia Nippon) based on autoencoder with self-attention
CN113987910A (zh) 一种耦合神经网络与动态时间规划的居民负荷辨识方法及装置
CN112766368A (zh) 一种数据分类方法、设备和可读存储介质
Wang et al. Interpret neural networks by extracting critical subnetworks
Ahmed et al. Sound event classification using neural networks and feature selection based methods
CN116935303A (zh) 一种弱监督自训练视频异常检测方法
CN115240647A (zh) 声音事件检测方法、装置、电子设备及存储介质
Singh Classification of animal sound using convolutional neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant