CN112101462A - 一种基于bmfcc-gbfb-dnn的机电设备视听信息融合方法 - Google Patents
一种基于bmfcc-gbfb-dnn的机电设备视听信息融合方法 Download PDFInfo
- Publication number
- CN112101462A CN112101462A CN202010974747.2A CN202010974747A CN112101462A CN 112101462 A CN112101462 A CN 112101462A CN 202010974747 A CN202010974747 A CN 202010974747A CN 112101462 A CN112101462 A CN 112101462A
- Authority
- CN
- China
- Prior art keywords
- matrix
- auditory information
- mfcc
- gbfb
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000007500 overflow downdraw method Methods 0.000 title claims description 8
- 239000011159 matrix material Substances 0.000 claims abstract description 31
- 238000000034 method Methods 0.000 claims abstract description 15
- 238000000513 principal component analysis Methods 0.000 claims abstract description 11
- 238000012545 processing Methods 0.000 claims abstract description 9
- 230000008569 process Effects 0.000 claims abstract description 5
- 238000013507 mapping Methods 0.000 claims description 16
- 239000013307 optical fiber Substances 0.000 claims description 11
- 239000013598 vector Substances 0.000 claims description 9
- 238000001228 spectrum Methods 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 5
- 230000003068 static effect Effects 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 2
- 238000006243 chemical reaction Methods 0.000 claims 2
- 238000000354 decomposition reaction Methods 0.000 claims 1
- 238000009432 framing Methods 0.000 claims 1
- 230000004927 fusion Effects 0.000 abstract description 17
- 230000000007 visual effect Effects 0.000 abstract description 11
- 238000013528 artificial neural network Methods 0.000 abstract description 4
- 230000000694 effects Effects 0.000 abstract description 3
- 239000000284 extract Substances 0.000 abstract description 2
- 238000013461 design Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 239000000835 fiber Substances 0.000 description 4
- 230000007547 defect Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 230000036039 immunity Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/20—Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及基于BMFCC‑GBFB‑DNN的机电设备视听信息融合方法,是一种对对现代化机电设备运行过程中分布式视觉信息和听觉信息融合的方法,属于目标追踪与神经网络领域,其特征在于采用如下步骤:(1)提取MFCC特征,确定听觉信息的F比;(2)确定MFCC参数加权后的表达式;(3)MFCC参数进行主成分分析;(4)提取听觉信息的GBFB特征;(5)将卷积后结果分解为子块矩阵;(6)图像的可听化处理;(7)搭建DNN架构。本发明利用BMFCC及GBFB提取听觉信息特征,极大地提高了特征的代表性和噪声的鲁棒性。利用DNN神经网络对视听信息融合,一定程度上提高了内容的丰富性以及融合的实时性。这说明本算法在机电设备视听信息融合时,能达到很好的效果。
Description
技术领域
本发明涉及目标追踪与神经网络领域,主要是一种对现代化机电设备运行过程中分布式视觉信息和听觉信息融合的方法。
背景技术
目前,感知信息融合技术在目标追踪领域具有广泛的应用性,因此对机电设备视听信息融合的研究成为研究热点。现有的信息大多局限于图像或视频格式的视觉信息,听觉信息并没有被很好的利用起来。将两者信息融合起来,克服视觉和听觉信息独立存在的缺陷,获取全面的信息成为研究问题的关键。常见的将视觉信息可听化多是对空间域图像像素灰度以及像素位置进行映射,其映射结果的准确性及实时性随图像内容复杂度的影响。传统的视听信息融合通常采用决策级融合算法,因为提取特征过程中经过似然度计算和大量的人工处理,其结果并不能真实反映视听结果的特征。
作为现代众多领域研究的热点,视听信息融合已经达到了成熟的阶段,本设计在已存在的成功算法基础上,结合众多算法的优点,进行算法的改善。提出的听觉信息特征的提取,有很好的抗噪性,对噪声具有很好的鲁棒性。视听信息特征级融合将视听信号特征融合形成特征矢量,一定程度上提高了内容的丰富性以及融合的实时性。特征提取的代表性,图像可听化的准确性,视听信息融合的实时性,要求我们建立一种高效的算法,实现机电设备视听信息的提取及融合过程在稳定性的基础上提高效率,有效减少算法时间,为目标领域的应用提供精确有效的融合信息,促进现代经济的现代化发展,保障国防事业的安全。
发明内容
针对上述现有技术中存在的问题,本发明要解决的技术问题是提供一种基于BMFCC-GBFB-DNN的机电设备视听信息融合方法,其具体流程如图1所示。
技术方案实施步骤如下:
(1)提取MFCC特征,确定分布式光纤信号听觉信息的F比F(k):
式中,Fbetween(k)为第k维分量均值的方差,Fwithin(k)为第k维分量的方差之和。
(2)确定MFCC参数加权后的表达式C(n):
首先,根据F比图特点,假设加权系数表达式为:
ci=a+bsin(π·i/p)
式中,p为滤波器阶数,i=0,1,…,p-1,a为加权系数的静态分量,b为加权系数的线性分量。根据经验细化a,b值,确定MFCC参数加权后的表达式C(n):
式中,M代表滤波器阶数,m为对应的分布式光纤听觉信息的帧数,s(m)为对应于m帧的分布式光纤听觉信息。
(3)MFCC参数进行主成分分析:
对加权处理过的特征分量求差分,ΔWMFCC为特征分量一阶差分,Δ2WMFCC为特征分量二阶差分。将三者组成一组特定维数的MFCC参数。
对得到的参数进行PCA主成分分析,确定相关矩阵T:
式中,N是MFCC参数的维数,ci是加权后的MFCC参数,C是M×N的矩阵,是矩阵T的特征值及相应的特征向量,M是信号分帧后的帧数。在一定的阈值要求下,取大于阈值的前p个特征值所对应的特征向量,构成变换矩阵W。利用C·WT将C映射到特征空间X中,其中,X=[x1,x2,…,xp],为M×p的矩阵,选取新向量X中的p维特征向量。
(4)提取听觉信息的GBFB特征:
式中,n和k表示声谱的坐标点,u和v为Gabor滤波器的尺度与方向,MELl(n)表示mel滤波器组,Lt和Ht为mel滤波器最低和最高频率。
对上式中的每个子矩阵取最大值,得到Uu,v:
Uu,v=[max((Gjk)ij)]p×q
将Uu,v向量化得到UQ,利用PCA将UQ映射到低维空间得到P(UQ):
P(UQ)=AT(UQ-μ)
式中,j为小块矩阵的行数,k为小块矩阵的列数,p为子矩阵一共的行数,q为子矩阵一共的列数,μ为UQ的均值,维数为M×1,M=p×q,AT为低维的映射矩阵,维数为M×d,d为主成分个数,因此,最终得到d×1维的GBFB特征。
(6)图像的可听化处理:
选择图像的像素值和像素值所在的位置作为图像映射的特征,选择声音的振幅和频率作为声音的维度,则图像与声音的映射关系为:
(7)搭建DNN架构:
在训练过程中,损失函数使用均方误差MSE的值:
式中,yi为参数估计值,yi为参数真值,m为参数总个数。
本发明比现有技术具有的优点:
(1)本发明克服了传统视觉信息可听化的结果在图像复杂情况下,准确性不高,实时性较差的缺陷,传统的视听信息融合的结果并不能真实反映视听结果的特征的缺点。
(2)本发明利用BMFCC及GBFB提取听觉信息特征,极大地提高了特征的代表性和噪声的鲁棒性。利用DNN神经网络对视听信息融合,一定程度上提高了内容的丰富性以及融合的实时性。这说明本算法在机电设备视听信息融合时,能达到很好的效果。
附图说明
图1是建立基于BMFCC-GBFB-DNN的机电设备视听信息融合方法的步骤流程图;
图2是建立基于BMFCC-GBFB-DNN的机电设备视听信息融合方法的算法流程图;
图3是DNN神经网络模型;
图4是利用本发明对四组机电设备视听信息进行融合的结果;
具体实施方案
下面通过实施案例对本发明作进一步的详细说明。
本实施案例选用的数据集一共有800组,其中视觉信息400组,分布式听觉信息400组,视觉信息由自己拍摄200组,网上查找200组,分布式光纤信号听觉信息为收集的数据。随机从2组来源不同的视觉信息中各抽取75组作为测试集,分布式光纤信号听觉信息抽取150组作为测试集,每组剩下的信息作为训练集。最终,用作训练集共有500组样本,300组样本用作测试集。
本发明所提供的机电设备视听信息融合方法整体流程如图1所示,具体步骤如下:
(1)提取MFCC特征,确定分布式光纤信号听觉信息的F比F(k):
式中,Fbetween(k)为第k维分量均值的方差,Fwithin(k)为第k维分量的方差之和。
(2)确定MFCC参数加权后的表达式C(n):
首先,根据F比图特点,假设加权系数表达式为:
ci=0.5+0.5sin(π·i/p)
式中,p为滤波器阶数,i=0,1,…,p-1,a为加权系数的静态分量,b为加权系数的线性分量。在本设计中,a=b=0.5,根据经验细化a,b值,确定MFCC参数加权后的表达式C(n):
式中,M代表滤波器阶数,本设计中为16,m为对应的分布式光纤听觉信息的帧数,s(m)为对应于m帧的分布式光纤听觉信息。
(3)MFCC参数进行主成分分析:
对加权处理过的特征分量求差分,ΔWMFCC为特征分量一阶差分,Δ2WMFCC为特征分量二阶差分。将三者组成一组39维的MFCC参数。
对得到的参数进行PCA主成分分析,确定相关矩阵T:
式中,N是MFCC参数的维数,在本设计中为39,ci是加权后的MFCC参数,C是M×N的矩阵,具体为16×39,是矩阵T的特征值及相应的特征向量,M是信号分帧后的帧数。在一定的阈值要求下,取大于阈值的前30个特征值所对应的特征向量,构成变换矩阵W。利用C·WT将C映射到特征空间X中,其中,X=[x1,x2,…,x30]为16×30大小的矩阵,选取新向量X中的30维特征向量。
(4)提取听觉信息的GBFB特征:
式中,n和k表示声谱的坐标点,u和v为Gabor滤波器的尺度与方向,分别为4尺度和4方向,MELl(n)表示mel滤波器组,Lt和Ht为mel滤波器最低和最高频率。
对上式中的每个子矩阵取最大值,得到Uu,v:
Uu,v=[max((G8×8)ij)]16×16
将Uu,v向量化得到UQ,利用PCA将UQ映射到低维空间得到P(UQ):
P(UQ)=AT(UQ-μ)
式中,j为小块矩阵的行数,k为小块矩阵的列数,子矩阵有8行8列,μ为UQ的均值,维数为M×1,M=16×16,AT为低维的映射矩阵,维数为16×16×81,主成分有81个,因此,最终得到81×1维的GBFB特征。
(6)图像的可听化处理:
选择图像的像素值和像素值所在的位置作为图像映射的特征,选择声音的振幅和频率作为声音的维度,则图像与声音的映射关系为:
(7)搭建DNN架构:
在训练过程中,损失函数使用均方误差MSE的值:
式中,yi为参数估计值,yi为参数真值,m为参数总个数。
为了验证本发明对机电设备视听信息融合结果的准确性,对本发明进行了四组机电设备视听信息融合实验,实验结果如图4所示。由图4可知,本发明所建立的基于BMFCC-GBFB-DNN的机电设备视听信息融合方法准确率均保持在97%以上,能够在保证稳定性的基础上达到较高的准确率,融合效果良好。这表明本发明建立的基于BMFCC-GBFB-DNN的方法是有效的,为机电设备视听信息融合提供了更好的方法,具有一定的实用性。
Claims (1)
1.本发明涉及一种基于BMFCC-GBFB-DNN的机电设备视听信息融合方法,其特征在于:提取MFCC特征,确定听觉信息的F比,确定MFCC参数加权后的表达式,MFCC参数进行主成分分析,提取听觉信息的GBFB特征,将卷积后结果分解为子块矩阵,图像的可听化处理,搭建DNN架构,具体包括以下七个步骤:
步骤一:提取MFCC特征,确定分布式光纤信号听觉信息的F比F(k);
式中,Fbetween(k)为第k维分量均值的方差,Fwithin(k)为第k维分量的方差之和;
步骤二:确定MFCC参数加权后的表达式C(n);
首先,根据F比图特点,假设加权系数表达式为;
ci=a+bsin(π·i/p);
式中,p为滤波器阶数,i=0,1,…,p-1,a为加权系数的静态分量,b为加权系数的线性分量,根据经验细化a,b值,确定MFCC参数加权后的表达式C(n);
式中,M代表滤波器阶数,m为对应的分布式光纤听觉信息的帧数,s(m)为对应于m帧的分布式光纤听觉信息;
步骤三:MFCC参数进行主成分分析;
对加权处理过的特征分量求差分,ΔWMFCC为特征分量一阶差分,Δ2WMFCC为特征分量二阶差分,将三者组成一组特定维数的MFCC参数;
对得到的参数进行PCA主成分分析,确定相关矩阵T;
式中,N是MFCC参数的维数,ci是加权后的MFCC参数,C是M×N的矩阵,是矩阵T的特征值及相应的特征向量,M是信号分帧后的帧数,在一定的阈值要求下,取大于阈值的前p个特征值所对应的特征向量,构成变换矩阵W,利用将C映射到特征空间X中,其中,X=[x1,x2,…,xp],为M×p的矩阵,选取新向量X中的p维特征向量;
步骤四:提取听觉信息的GBFB特征;
式中,n和k表示声谱的坐标点,u和v为Gabor滤波器的尺度与方向,MELl(n)表示mel滤波器组,Lt和Ht为mel滤波器最低和最高频率;
对上式中的每个子矩阵取最大值,得到Uu,v;
Uu,v=[max((Gjk)ij)]p×q;
将Uu,v向量化得到UQ,利用PCA将UQ映射到低维空间得到P(UQ);
式中,j为小块矩阵的行数,k为小块矩阵的列数,p为子矩阵一共的行数,q为子矩阵一共的列数,μ为UQ的均值,维数为M×1,M=p×q,为低维的映射矩阵,维数为M×d,d为主成分个数,因此,最终得到d×1维的GBFB特征;
步骤六:图像的可听化处理;
选择图像的像素值和像素值所在的位置作为图像映射的特征,选择声音的振幅和频率作为声音的维度,则图像与声音的映射关系为;
步骤七:搭建DNN架构;
在训练过程中,损失函数使用均方误差MSE的值;
式中,yi为参数估计值,yi为参数真值,m为参数总个数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010974747.2A CN112101462B (zh) | 2020-09-16 | 2020-09-16 | 一种基于bmfcc-gbfb-dnn的机电设备视听信息融合方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010974747.2A CN112101462B (zh) | 2020-09-16 | 2020-09-16 | 一种基于bmfcc-gbfb-dnn的机电设备视听信息融合方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112101462A true CN112101462A (zh) | 2020-12-18 |
CN112101462B CN112101462B (zh) | 2022-04-19 |
Family
ID=73759324
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010974747.2A Active CN112101462B (zh) | 2020-09-16 | 2020-09-16 | 一种基于bmfcc-gbfb-dnn的机电设备视听信息融合方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112101462B (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040122675A1 (en) * | 2002-12-19 | 2004-06-24 | Nefian Ara Victor | Visual feature extraction procedure useful for audiovisual continuous speech recognition |
US20050125223A1 (en) * | 2003-12-05 | 2005-06-09 | Ajay Divakaran | Audio-visual highlights detection using coupled hidden markov models |
CN1761997A (zh) * | 2003-03-19 | 2006-04-19 | 英特尔公司 | 用于连续视听语音识别的耦合隐马尔可夫模型(chmm) |
CN104361197A (zh) * | 2014-09-24 | 2015-02-18 | 杭州电子科技大学 | 基于舰船辐射噪声mfcc特征的水声目标识别方法 |
CN105788608A (zh) * | 2016-03-03 | 2016-07-20 | 渤海大学 | 基于神经网络的汉语声韵母可视化方法 |
CN105976809A (zh) * | 2016-05-25 | 2016-09-28 | 中国地质大学(武汉) | 基于语音和面部表情的双模态情感融合的识别方法及系统 |
CN109409296A (zh) * | 2018-10-30 | 2019-03-01 | 河北工业大学 | 将人脸表情识别和语音情感识别融合的视频情感识别方法 |
US20190236416A1 (en) * | 2018-01-31 | 2019-08-01 | Microsoft Technology Licensing, Llc | Artificial intelligence system utilizing microphone array and fisheye camera |
CN110084266A (zh) * | 2019-03-11 | 2019-08-02 | 中国地质大学(武汉) | 一种基于视听特征深度融合的动态情感识别方法 |
CN110364163A (zh) * | 2019-07-05 | 2019-10-22 | 西安交通大学 | 一种语音和唇语相融合的身份认证方法 |
CN111274955A (zh) * | 2020-01-20 | 2020-06-12 | 中国地质大学(武汉) | 一种基于视听特征相关性融合的情感识别方法及系统 |
CN111539449A (zh) * | 2020-03-23 | 2020-08-14 | 广东省智能制造研究所 | 一种基于二阶融合注意力网络模型的声源分离及定位方法 |
-
2020
- 2020-09-16 CN CN202010974747.2A patent/CN112101462B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040122675A1 (en) * | 2002-12-19 | 2004-06-24 | Nefian Ara Victor | Visual feature extraction procedure useful for audiovisual continuous speech recognition |
CN1761997A (zh) * | 2003-03-19 | 2006-04-19 | 英特尔公司 | 用于连续视听语音识别的耦合隐马尔可夫模型(chmm) |
US20050125223A1 (en) * | 2003-12-05 | 2005-06-09 | Ajay Divakaran | Audio-visual highlights detection using coupled hidden markov models |
CN104361197A (zh) * | 2014-09-24 | 2015-02-18 | 杭州电子科技大学 | 基于舰船辐射噪声mfcc特征的水声目标识别方法 |
CN105788608A (zh) * | 2016-03-03 | 2016-07-20 | 渤海大学 | 基于神经网络的汉语声韵母可视化方法 |
CN105976809A (zh) * | 2016-05-25 | 2016-09-28 | 中国地质大学(武汉) | 基于语音和面部表情的双模态情感融合的识别方法及系统 |
US20190236416A1 (en) * | 2018-01-31 | 2019-08-01 | Microsoft Technology Licensing, Llc | Artificial intelligence system utilizing microphone array and fisheye camera |
CN109409296A (zh) * | 2018-10-30 | 2019-03-01 | 河北工业大学 | 将人脸表情识别和语音情感识别融合的视频情感识别方法 |
CN110084266A (zh) * | 2019-03-11 | 2019-08-02 | 中国地质大学(武汉) | 一种基于视听特征深度融合的动态情感识别方法 |
CN110364163A (zh) * | 2019-07-05 | 2019-10-22 | 西安交通大学 | 一种语音和唇语相融合的身份认证方法 |
CN111274955A (zh) * | 2020-01-20 | 2020-06-12 | 中国地质大学(武汉) | 一种基于视听特征相关性融合的情感识别方法及系统 |
CN111539449A (zh) * | 2020-03-23 | 2020-08-14 | 广东省智能制造研究所 | 一种基于二阶融合注意力网络模型的声源分离及定位方法 |
Non-Patent Citations (2)
Title |
---|
张靓等: "融合视听信息的机电设备状态监测系统设计", 《仪表技术与传感器》 * |
彭玉青等: "基于图像可听化的视听信息融合方法研究", 《计算机应用与软件》 * |
Also Published As
Publication number | Publication date |
---|---|
CN112101462B (zh) | 2022-04-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110119703B (zh) | 一种安防场景下融合注意力机制和时空图卷积神经网络的人体动作识别方法 | |
CN108537743B (zh) | 一种基于生成对抗网络的面部图像增强方法 | |
CN107220611B (zh) | 一种基于深度神经网络的空时特征提取方法 | |
CN111160533A (zh) | 一种基于跨分辨率知识蒸馏的神经网络加速方法 | |
CN109598220B (zh) | 一种基于多元输入多尺度卷积的人数统计方法 | |
CN107301382B (zh) | 基于时间依赖约束下深度非负矩阵分解的行为识别方法 | |
CN110390308B (zh) | 一种基于时空对抗生成网络的视频行为识别方法 | |
CN110751612A (zh) | 多通道多尺度卷积神经网络的单幅图像去雨方法 | |
CN112270654A (zh) | 基于多通道gan的图像去噪方法 | |
CN111695456A (zh) | 一种基于主动判别性跨域对齐的低分辨人脸识别方法 | |
CN114663685B (zh) | 一种行人重识别模型训练的方法、装置和设备 | |
CN113505719B (zh) | 基于局部-整体联合知识蒸馏算法的步态识别模型压缩系统及方法 | |
CN115381466A (zh) | 基于AE和Transformer的运动想象脑电信号分类方法 | |
CN112329784A (zh) | 一种基于时空感知及多峰响应的相关滤波跟踪方法 | |
CN113888501A (zh) | 一种基于注意力定位网络的无参考型图像质量评价方法 | |
CN110148083B (zh) | 基于快速bemd和深度学习的图像融合方法 | |
CN108710836B (zh) | 一种基于级联特征提取的唇部检测及读取方法 | |
CN114359167A (zh) | 一种复杂场景下基于轻量化YOLOv4的绝缘子缺陷检测方法 | |
CN111325158B (zh) | 一种基于cnn和rfc的集成学习的极化sar图像分类方法 | |
CN112101462B (zh) | 一种基于bmfcc-gbfb-dnn的机电设备视听信息融合方法 | |
CN112308087A (zh) | 基于动态视觉传感器的一体化成像识别系统和方法 | |
CN111127386B (zh) | 一种基于深度学习的图像质量评价方法 | |
CN115909398A (zh) | 一种基于特征增强的跨域行人再识别方法 | |
CN116092512A (zh) | 一种基于数据生成的小样本语音分离方法 | |
CN113887339A (zh) | 融合表面肌电信号与唇部图像的无声语音识别系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |