CN112101462A - 一种基于bmfcc-gbfb-dnn的机电设备视听信息融合方法 - Google Patents

一种基于bmfcc-gbfb-dnn的机电设备视听信息融合方法 Download PDF

Info

Publication number
CN112101462A
CN112101462A CN202010974747.2A CN202010974747A CN112101462A CN 112101462 A CN112101462 A CN 112101462A CN 202010974747 A CN202010974747 A CN 202010974747A CN 112101462 A CN112101462 A CN 112101462A
Authority
CN
China
Prior art keywords
matrix
auditory information
mfcc
gbfb
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010974747.2A
Other languages
English (en)
Other versions
CN112101462B (zh
Inventor
王松
胡燕祝
徐小凤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN202010974747.2A priority Critical patent/CN112101462B/zh
Publication of CN112101462A publication Critical patent/CN112101462A/zh
Application granted granted Critical
Publication of CN112101462B publication Critical patent/CN112101462B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/20Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及基于BMFCC‑GBFB‑DNN的机电设备视听信息融合方法,是一种对对现代化机电设备运行过程中分布式视觉信息和听觉信息融合的方法,属于目标追踪与神经网络领域,其特征在于采用如下步骤:(1)提取MFCC特征,确定听觉信息的F比;(2)确定MFCC参数加权后的表达式;(3)MFCC参数进行主成分分析;(4)提取听觉信息的GBFB特征;(5)将卷积后结果分解为子块矩阵;(6)图像的可听化处理;(7)搭建DNN架构。本发明利用BMFCC及GBFB提取听觉信息特征,极大地提高了特征的代表性和噪声的鲁棒性。利用DNN神经网络对视听信息融合,一定程度上提高了内容的丰富性以及融合的实时性。这说明本算法在机电设备视听信息融合时,能达到很好的效果。

Description

一种基于BMFCC-GBFB-DNN的机电设备视听信息融合方法
技术领域
本发明涉及目标追踪与神经网络领域,主要是一种对现代化机电设备运行过程中分布式视觉信息和听觉信息融合的方法。
背景技术
目前,感知信息融合技术在目标追踪领域具有广泛的应用性,因此对机电设备视听信息融合的研究成为研究热点。现有的信息大多局限于图像或视频格式的视觉信息,听觉信息并没有被很好的利用起来。将两者信息融合起来,克服视觉和听觉信息独立存在的缺陷,获取全面的信息成为研究问题的关键。常见的将视觉信息可听化多是对空间域图像像素灰度以及像素位置进行映射,其映射结果的准确性及实时性随图像内容复杂度的影响。传统的视听信息融合通常采用决策级融合算法,因为提取特征过程中经过似然度计算和大量的人工处理,其结果并不能真实反映视听结果的特征。
作为现代众多领域研究的热点,视听信息融合已经达到了成熟的阶段,本设计在已存在的成功算法基础上,结合众多算法的优点,进行算法的改善。提出的听觉信息特征的提取,有很好的抗噪性,对噪声具有很好的鲁棒性。视听信息特征级融合将视听信号特征融合形成特征矢量,一定程度上提高了内容的丰富性以及融合的实时性。特征提取的代表性,图像可听化的准确性,视听信息融合的实时性,要求我们建立一种高效的算法,实现机电设备视听信息的提取及融合过程在稳定性的基础上提高效率,有效减少算法时间,为目标领域的应用提供精确有效的融合信息,促进现代经济的现代化发展,保障国防事业的安全。
发明内容
针对上述现有技术中存在的问题,本发明要解决的技术问题是提供一种基于BMFCC-GBFB-DNN的机电设备视听信息融合方法,其具体流程如图1所示。
技术方案实施步骤如下:
(1)提取MFCC特征,确定分布式光纤信号听觉信息的F比F(k):
Figure BDA0002685372570000011
式中,Fbetween(k)为第k维分量均值的方差,Fwithin(k)为第k维分量的方差之和。
(2)确定MFCC参数加权后的表达式C(n):
首先,根据F比图特点,假设加权系数表达式为:
ci=a+bsin(π·i/p)
式中,p为滤波器阶数,i=0,1,…,p-1,a为加权系数的静态分量,b为加权系数的线性分量。根据经验细化a,b值,确定MFCC参数加权后的表达式C(n):
Figure BDA0002685372570000021
式中,M代表滤波器阶数,m为对应的分布式光纤听觉信息的帧数,s(m)为对应于m帧的分布式光纤听觉信息。
(3)MFCC参数进行主成分分析:
对加权处理过的特征分量求差分,ΔWMFCC为特征分量一阶差分,Δ2WMFCC为特征分量二阶差分。将三者组成一组特定维数的MFCC参数。
对得到的参数进行PCA主成分分析,确定相关矩阵T:
Figure BDA0002685372570000022
式中,N是MFCC参数的维数,ci是加权后的MFCC参数,C是M×N的矩阵,
Figure BDA0002685372570000023
是矩阵T的特征值及相应的特征向量,M是信号分帧后的帧数。在一定的阈值要求下,取大于阈值的前p个特征值所对应的特征向量,构成变换矩阵W。利用C·WT将C映射到特征空间X中,其中,X=[x1,x2,…,xp],为M×p的矩阵,选取新向量X中的p维特征向量。
(4)提取听觉信息的GBFB特征:
确定分布式光纤信号听觉信息声谱与Gabor滤波器进行卷积处理后的结果Gu,v(n,k)。利用mel滤波器将得到的结果进行滤波处理,得到
Figure BDA0002685372570000024
Figure BDA0002685372570000025
式中,n和k表示声谱的坐标点,u和v为Gabor滤波器的尺度与方向,MELl(n)表示mel滤波器组,Lt和Ht为mel滤波器最低和最高频率。
(5)将
Figure BDA0002685372570000031
分解为p×q个j×k大小的子块矩阵:
Figure BDA0002685372570000032
对上式中的每个子矩阵取最大值,得到Uu,v
Uu,v=[max((Gjk)ij)]p×q
将Uu,v向量化得到UQ,利用PCA将UQ映射到低维空间得到P(UQ):
P(UQ)=AT(UQ-μ)
式中,j为小块矩阵的行数,k为小块矩阵的列数,p为子矩阵一共的行数,q为子矩阵一共的列数,μ为UQ的均值,维数为M×1,M=p×q,AT为低维的映射矩阵,维数为M×d,d为主成分个数,因此,最终得到d×1维的GBFB特征。
(6)图像的可听化处理:
选择图像的像素值和像素值所在的位置作为图像映射的特征,选择声音的振幅和频率作为声音的维度,则图像与声音的映射关系为:
Figure BDA0002685372570000033
式中,sij为图像第i行第j列的听觉信息模式,n为图像总像素列数,gi,j为图像的像素值,fj为第j列的像素点的频率,t决定了听觉信息的持续时间,其中,
Figure BDA0002685372570000034
(7)搭建DNN架构:
在训练过程中,损失函数使用均方误差MSE的值:
Figure BDA0002685372570000035
式中,yi为参数估计值,yi为参数真值,m为参数总个数。
本发明比现有技术具有的优点:
(1)本发明克服了传统视觉信息可听化的结果在图像复杂情况下,准确性不高,实时性较差的缺陷,传统的视听信息融合的结果并不能真实反映视听结果的特征的缺点。
(2)本发明利用BMFCC及GBFB提取听觉信息特征,极大地提高了特征的代表性和噪声的鲁棒性。利用DNN神经网络对视听信息融合,一定程度上提高了内容的丰富性以及融合的实时性。这说明本算法在机电设备视听信息融合时,能达到很好的效果。
附图说明
图1是建立基于BMFCC-GBFB-DNN的机电设备视听信息融合方法的步骤流程图;
图2是建立基于BMFCC-GBFB-DNN的机电设备视听信息融合方法的算法流程图;
图3是DNN神经网络模型;
图4是利用本发明对四组机电设备视听信息进行融合的结果;
具体实施方案
下面通过实施案例对本发明作进一步的详细说明。
本实施案例选用的数据集一共有800组,其中视觉信息400组,分布式听觉信息400组,视觉信息由自己拍摄200组,网上查找200组,分布式光纤信号听觉信息为收集的数据。随机从2组来源不同的视觉信息中各抽取75组作为测试集,分布式光纤信号听觉信息抽取150组作为测试集,每组剩下的信息作为训练集。最终,用作训练集共有500组样本,300组样本用作测试集。
本发明所提供的机电设备视听信息融合方法整体流程如图1所示,具体步骤如下:
(1)提取MFCC特征,确定分布式光纤信号听觉信息的F比F(k):
Figure BDA0002685372570000041
式中,Fbetween(k)为第k维分量均值的方差,Fwithin(k)为第k维分量的方差之和。
(2)确定MFCC参数加权后的表达式C(n):
首先,根据F比图特点,假设加权系数表达式为:
ci=0.5+0.5sin(π·i/p)
式中,p为滤波器阶数,i=0,1,…,p-1,a为加权系数的静态分量,b为加权系数的线性分量。在本设计中,a=b=0.5,根据经验细化a,b值,确定MFCC参数加权后的表达式C(n):
Figure BDA0002685372570000051
式中,M代表滤波器阶数,本设计中为16,m为对应的分布式光纤听觉信息的帧数,s(m)为对应于m帧的分布式光纤听觉信息。
(3)MFCC参数进行主成分分析:
对加权处理过的特征分量求差分,ΔWMFCC为特征分量一阶差分,Δ2WMFCC为特征分量二阶差分。将三者组成一组39维的MFCC参数。
对得到的参数进行PCA主成分分析,确定相关矩阵T:
Figure BDA0002685372570000052
式中,N是MFCC参数的维数,在本设计中为39,ci是加权后的MFCC参数,C是M×N的矩阵,具体为16×39,
Figure BDA0002685372570000053
是矩阵T的特征值及相应的特征向量,M是信号分帧后的帧数。在一定的阈值要求下,取大于阈值的前30个特征值所对应的特征向量,构成变换矩阵W。利用C·WT将C映射到特征空间X中,其中,X=[x1,x2,…,x30]为16×30大小的矩阵,选取新向量X中的30维特征向量。
(4)提取听觉信息的GBFB特征:
确定分布式光纤信号听觉信息声谱与q×y大小的方向与尺度大小的Gabor滤波器进行卷积处理,得到
Figure BDA0002685372570000054
Figure BDA0002685372570000055
式中,n和k表示声谱的坐标点,u和v为Gabor滤波器的尺度与方向,分别为4尺度和4方向,MELl(n)表示mel滤波器组,Lt和Ht为mel滤波器最低和最高频率。
(5)将
Figure BDA0002685372570000056
分解为16×16个8×8大小的子块矩阵:
Figure BDA0002685372570000061
对上式中的每个子矩阵取最大值,得到Uu,v
Uu,v=[max((G8×8)ij)]16×16
将Uu,v向量化得到UQ,利用PCA将UQ映射到低维空间得到P(UQ):
P(UQ)=AT(UQ-μ)
式中,j为小块矩阵的行数,k为小块矩阵的列数,子矩阵有8行8列,μ为UQ的均值,维数为M×1,M=16×16,AT为低维的映射矩阵,维数为16×16×81,主成分有81个,因此,最终得到81×1维的GBFB特征。
(6)图像的可听化处理:
选择图像的像素值和像素值所在的位置作为图像映射的特征,选择声音的振幅和频率作为声音的维度,则图像与声音的映射关系为:
Figure BDA0002685372570000062
式中,sij为图像第i行第j列的听觉信息模式,n为图像总像素列数,gi,j为图像的像素值,fj为第j列的像素点的频率,听觉信息的持续时间为8s,其中,
Figure BDA0002685372570000063
(7)搭建DNN架构:
在训练过程中,损失函数使用均方误差MSE的值:
Figure BDA0002685372570000064
式中,yi为参数估计值,yi为参数真值,m为参数总个数。
为了验证本发明对机电设备视听信息融合结果的准确性,对本发明进行了四组机电设备视听信息融合实验,实验结果如图4所示。由图4可知,本发明所建立的基于BMFCC-GBFB-DNN的机电设备视听信息融合方法准确率均保持在97%以上,能够在保证稳定性的基础上达到较高的准确率,融合效果良好。这表明本发明建立的基于BMFCC-GBFB-DNN的方法是有效的,为机电设备视听信息融合提供了更好的方法,具有一定的实用性。

Claims (1)

1.本发明涉及一种基于BMFCC-GBFB-DNN的机电设备视听信息融合方法,其特征在于:提取MFCC特征,确定听觉信息的F比,确定MFCC参数加权后的表达式,MFCC参数进行主成分分析,提取听觉信息的GBFB特征,将卷积后结果分解为子块矩阵,图像的可听化处理,搭建DNN架构,具体包括以下七个步骤:
步骤一:提取MFCC特征,确定分布式光纤信号听觉信息的F比F(k);
Figure FDA0002685372560000011
式中,Fbetween(k)为第k维分量均值的方差,Fwithin(k)为第k维分量的方差之和;
步骤二:确定MFCC参数加权后的表达式C(n);
首先,根据F比图特点,假设加权系数表达式为;
ci=a+bsin(π·i/p);
式中,p为滤波器阶数,i=0,1,…,p-1,a为加权系数的静态分量,b为加权系数的线性分量,根据经验细化a,b值,确定MFCC参数加权后的表达式C(n);
Figure FDA0002685372560000012
式中,M代表滤波器阶数,m为对应的分布式光纤听觉信息的帧数,s(m)为对应于m帧的分布式光纤听觉信息;
步骤三:MFCC参数进行主成分分析;
对加权处理过的特征分量求差分,ΔWMFCC为特征分量一阶差分,Δ2WMFCC为特征分量二阶差分,将三者组成一组特定维数的MFCC参数;
对得到的参数进行PCA主成分分析,确定相关矩阵T;
Figure FDA0002685372560000013
式中,N是MFCC参数的维数,ci是加权后的MFCC参数,C是M×N的矩阵,
Figure FDA0002685372560000014
是矩阵T的特征值及相应的特征向量,M是信号分帧后的帧数,在一定的阈值要求下,取大于阈值的前p个特征值所对应的特征向量,构成变换矩阵W,利用
Figure FDA0002685372560000015
将C映射到特征空间X中,其中,X=[x1,x2,…,xp],为M×p的矩阵,选取新向量X中的p维特征向量;
步骤四:提取听觉信息的GBFB特征;
确定分布式光纤信号听觉信息声谱与Gabor滤波器进行卷积处理后的结果Gu,v(n,k),利用mel滤波器将得到的结果进行滤波处理,得到
Figure FDA0002685372560000021
Figure FDA0002685372560000022
式中,n和k表示声谱的坐标点,u和v为Gabor滤波器的尺度与方向,MELl(n)表示mel滤波器组,Lt和Ht为mel滤波器最低和最高频率;
步骤五:将
Figure FDA0002685372560000023
分解为p×q个j×k大小的子块矩阵;
Figure FDA0002685372560000024
对上式中的每个子矩阵取最大值,得到Uu,v
Uu,v=[max((Gjk)ij)]p×q
将Uu,v向量化得到UQ,利用PCA将UQ映射到低维空间得到P(UQ);
Figure FDA0002685372560000026
式中,j为小块矩阵的行数,k为小块矩阵的列数,p为子矩阵一共的行数,q为子矩阵一共的列数,μ为UQ的均值,维数为M×1,M=p×q,
Figure FDA0002685372560000027
为低维的映射矩阵,维数为M×d,d为主成分个数,因此,最终得到d×1维的GBFB特征;
步骤六:图像的可听化处理;
选择图像的像素值和像素值所在的位置作为图像映射的特征,选择声音的振幅和频率作为声音的维度,则图像与声音的映射关系为;
Figure FDA0002685372560000025
式中,sij为图像第i行第j列的听觉信息模式,n为图像总像素列数,gi,j为图像的像素值,fj为第j列的像素点的频率,t决定了听觉信息的持续时间,其中,
Figure FDA0002685372560000031
步骤七:搭建DNN架构;
在训练过程中,损失函数使用均方误差MSE的值;
Figure FDA0002685372560000032
式中,yi为参数估计值,yi为参数真值,m为参数总个数。
CN202010974747.2A 2020-09-16 2020-09-16 一种基于bmfcc-gbfb-dnn的机电设备视听信息融合方法 Active CN112101462B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010974747.2A CN112101462B (zh) 2020-09-16 2020-09-16 一种基于bmfcc-gbfb-dnn的机电设备视听信息融合方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010974747.2A CN112101462B (zh) 2020-09-16 2020-09-16 一种基于bmfcc-gbfb-dnn的机电设备视听信息融合方法

Publications (2)

Publication Number Publication Date
CN112101462A true CN112101462A (zh) 2020-12-18
CN112101462B CN112101462B (zh) 2022-04-19

Family

ID=73759324

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010974747.2A Active CN112101462B (zh) 2020-09-16 2020-09-16 一种基于bmfcc-gbfb-dnn的机电设备视听信息融合方法

Country Status (1)

Country Link
CN (1) CN112101462B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040122675A1 (en) * 2002-12-19 2004-06-24 Nefian Ara Victor Visual feature extraction procedure useful for audiovisual continuous speech recognition
US20050125223A1 (en) * 2003-12-05 2005-06-09 Ajay Divakaran Audio-visual highlights detection using coupled hidden markov models
CN1761997A (zh) * 2003-03-19 2006-04-19 英特尔公司 用于连续视听语音识别的耦合隐马尔可夫模型(chmm)
CN104361197A (zh) * 2014-09-24 2015-02-18 杭州电子科技大学 基于舰船辐射噪声mfcc特征的水声目标识别方法
CN105788608A (zh) * 2016-03-03 2016-07-20 渤海大学 基于神经网络的汉语声韵母可视化方法
CN105976809A (zh) * 2016-05-25 2016-09-28 中国地质大学(武汉) 基于语音和面部表情的双模态情感融合的识别方法及系统
CN109409296A (zh) * 2018-10-30 2019-03-01 河北工业大学 将人脸表情识别和语音情感识别融合的视频情感识别方法
US20190236416A1 (en) * 2018-01-31 2019-08-01 Microsoft Technology Licensing, Llc Artificial intelligence system utilizing microphone array and fisheye camera
CN110084266A (zh) * 2019-03-11 2019-08-02 中国地质大学(武汉) 一种基于视听特征深度融合的动态情感识别方法
CN110364163A (zh) * 2019-07-05 2019-10-22 西安交通大学 一种语音和唇语相融合的身份认证方法
CN111274955A (zh) * 2020-01-20 2020-06-12 中国地质大学(武汉) 一种基于视听特征相关性融合的情感识别方法及系统
CN111539449A (zh) * 2020-03-23 2020-08-14 广东省智能制造研究所 一种基于二阶融合注意力网络模型的声源分离及定位方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040122675A1 (en) * 2002-12-19 2004-06-24 Nefian Ara Victor Visual feature extraction procedure useful for audiovisual continuous speech recognition
CN1761997A (zh) * 2003-03-19 2006-04-19 英特尔公司 用于连续视听语音识别的耦合隐马尔可夫模型(chmm)
US20050125223A1 (en) * 2003-12-05 2005-06-09 Ajay Divakaran Audio-visual highlights detection using coupled hidden markov models
CN104361197A (zh) * 2014-09-24 2015-02-18 杭州电子科技大学 基于舰船辐射噪声mfcc特征的水声目标识别方法
CN105788608A (zh) * 2016-03-03 2016-07-20 渤海大学 基于神经网络的汉语声韵母可视化方法
CN105976809A (zh) * 2016-05-25 2016-09-28 中国地质大学(武汉) 基于语音和面部表情的双模态情感融合的识别方法及系统
US20190236416A1 (en) * 2018-01-31 2019-08-01 Microsoft Technology Licensing, Llc Artificial intelligence system utilizing microphone array and fisheye camera
CN109409296A (zh) * 2018-10-30 2019-03-01 河北工业大学 将人脸表情识别和语音情感识别融合的视频情感识别方法
CN110084266A (zh) * 2019-03-11 2019-08-02 中国地质大学(武汉) 一种基于视听特征深度融合的动态情感识别方法
CN110364163A (zh) * 2019-07-05 2019-10-22 西安交通大学 一种语音和唇语相融合的身份认证方法
CN111274955A (zh) * 2020-01-20 2020-06-12 中国地质大学(武汉) 一种基于视听特征相关性融合的情感识别方法及系统
CN111539449A (zh) * 2020-03-23 2020-08-14 广东省智能制造研究所 一种基于二阶融合注意力网络模型的声源分离及定位方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张靓等: "融合视听信息的机电设备状态监测系统设计", 《仪表技术与传感器》 *
彭玉青等: "基于图像可听化的视听信息融合方法研究", 《计算机应用与软件》 *

Also Published As

Publication number Publication date
CN112101462B (zh) 2022-04-19

Similar Documents

Publication Publication Date Title
CN110119703B (zh) 一种安防场景下融合注意力机制和时空图卷积神经网络的人体动作识别方法
CN108537743B (zh) 一种基于生成对抗网络的面部图像增强方法
CN107220611B (zh) 一种基于深度神经网络的空时特征提取方法
CN111160533A (zh) 一种基于跨分辨率知识蒸馏的神经网络加速方法
CN109598220B (zh) 一种基于多元输入多尺度卷积的人数统计方法
CN107301382B (zh) 基于时间依赖约束下深度非负矩阵分解的行为识别方法
CN110390308B (zh) 一种基于时空对抗生成网络的视频行为识别方法
CN110751612A (zh) 多通道多尺度卷积神经网络的单幅图像去雨方法
CN112270654A (zh) 基于多通道gan的图像去噪方法
CN111695456A (zh) 一种基于主动判别性跨域对齐的低分辨人脸识别方法
CN114663685B (zh) 一种行人重识别模型训练的方法、装置和设备
CN113505719B (zh) 基于局部-整体联合知识蒸馏算法的步态识别模型压缩系统及方法
CN115381466A (zh) 基于AE和Transformer的运动想象脑电信号分类方法
CN112329784A (zh) 一种基于时空感知及多峰响应的相关滤波跟踪方法
CN113888501A (zh) 一种基于注意力定位网络的无参考型图像质量评价方法
CN110148083B (zh) 基于快速bemd和深度学习的图像融合方法
CN108710836B (zh) 一种基于级联特征提取的唇部检测及读取方法
CN114359167A (zh) 一种复杂场景下基于轻量化YOLOv4的绝缘子缺陷检测方法
CN111325158B (zh) 一种基于cnn和rfc的集成学习的极化sar图像分类方法
CN112101462B (zh) 一种基于bmfcc-gbfb-dnn的机电设备视听信息融合方法
CN112308087A (zh) 基于动态视觉传感器的一体化成像识别系统和方法
CN111127386B (zh) 一种基于深度学习的图像质量评价方法
CN115909398A (zh) 一种基于特征增强的跨域行人再识别方法
CN116092512A (zh) 一种基于数据生成的小样本语音分离方法
CN113887339A (zh) 融合表面肌电信号与唇部图像的无声语音识别系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant