CN111507311A - 一种基于多模态特征融合深度网络的视频人物识别方法 - Google Patents
一种基于多模态特征融合深度网络的视频人物识别方法 Download PDFInfo
- Publication number
- CN111507311A CN111507311A CN202010444043.4A CN202010444043A CN111507311A CN 111507311 A CN111507311 A CN 111507311A CN 202010444043 A CN202010444043 A CN 202010444043A CN 111507311 A CN111507311 A CN 111507311A
- Authority
- CN
- China
- Prior art keywords
- video
- feature
- modal
- network
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 41
- 238000000034 method Methods 0.000 title claims abstract description 15
- 238000013135 deep learning Methods 0.000 claims abstract description 18
- 238000007781 pre-processing Methods 0.000 claims abstract description 10
- 238000012549 training Methods 0.000 claims description 23
- 238000012360 testing method Methods 0.000 claims description 16
- 241000282414 Homo sapiens Species 0.000 claims description 12
- 238000012795 verification Methods 0.000 claims description 8
- 238000011156 evaluation Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000001914 filtration Methods 0.000 claims description 2
- 238000003672 processing method Methods 0.000 claims description 2
- 238000012216 screening Methods 0.000 claims 1
- 238000004422 calculation algorithm Methods 0.000 abstract description 5
- 230000000694 effects Effects 0.000 abstract description 3
- 230000010354 integration Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000004883 computer application Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 238000013100 final test Methods 0.000 description 1
- 230000005021 gait Effects 0.000 description 1
- 230000037230 mobility Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Human Computer Interaction (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种基于多模态特征融合深度网络的视频人物识别方法,是专门针对多模态人物视频特征数据的目标识别问题而提出的一种的深度学习目标识别多模态融合算法。该算法的网络结构由多个单模态多层感知器识别模块和一个多模态特征融合模块组成。该算法先预处理视频生成的多模态数据,使用预处理后的不同模态数据训练多个深度网络,在此基础上,再将多个子网络生成的特征加权融合,通过特征加权融合模块结合不同的模态的模型以达到更好的识别效果。本发明在公开视频人物数据集(iQIYI‑VID‑2019)上,对于预处理视频生成的多模态特征,使用多模态特征集权融合策略构建视频人物目标识别器,无需多模型集成,单个模型的平均精度均值达到了89.52%。
Description
技术领域
本发明涉及一种基于多模态特征融合深度网络的视频人物识别方法,属于计算机应用领域。
背景技术
互联网迅速发展的今天,各大视频网站拥有了海量视频数据和亿级在线视频用户数。与传统的图像相比,视频内容信息更加丰富。视频人物识别技术拥有了广泛的应用场景,例如应用于广告投放、用户个性化定制的智能推荐场景;用于背景音乐、表情包生成、短视频合成的智能创作场景;暴力血腥、涉黄等违规视频的智能审核场景。
人物识别成为了热门的计算机应用方向,随着深度学习技术,人脸识别、语音识别、姿态识别、步态识别等多模态识别技术的发展,人物识别精度大幅提升。近年来,在静态图片数据集上,人物识别相关技术已日趋完善,计算机人脸识别精度甚至超过了人类的识别能力。但是视频数据中各模态信息之间的关联性和可迁移性,使得原本依靠单一信息的模式识别的传统方法在视频人物识别的精度不高,原因是每个单独模态的特征都不足以涵盖人物识别的所有要素。
随着视频采集及存储设备的广泛采用,如何充分利用多模态信息,从而进一步提高模型的视频人物识别能力,有关视频人脸识别与检索的应用研究正受到越来越多的关注。推动人物识别在视频智能分析产业中的广泛应用,视频名人识别在视频人物识别中拥有得天独厚的条件。海量的影视视频数据大大简化了数据获取难度,为人物识别能力提升提供了很好的数据基础。但不同角色化妆、不同表情、不同光照条件、拍摄角度局部遮挡等,能够很好的重现了非受限的实际场景,充分体现了人物识别技术的挑战性。
发明内容
本发明针对多模态视频人物识别,提出了一种基于多模态特征融合深度网络的方法,以解决现有技术存在的上述问题。
一种基于多模态特征融合深度网络的视频人物识别方法,包括如下步骤:
步骤(1)、选取多模态人物视频特征数据集,并划分训练集和测试集,人物视频特征数据集包含人脸特征、头部特征、身体特征和音频特征;
步骤(2)、对特征数据预处理:对于不同模态,针对性地使用不用的处理方法;
步骤(3)、在深度学习框架Pytorch中,构建用于单模态数据的多层感知器深度学习网络单元;
步骤(4)、基于多层感知器网络单元,在深度学习框架中进一步构建完整的多模态特征融合深度网络;
步骤(5)、基于训练数据集上预处理后的数据,使用训练加权融合系数,训练多模态特征融合深度网络,待模型收敛后保存模型参数;
步骤(6)、使用验证加权融合系数,将训练好的深度网络在测试数据集上进行视频任务识别,计算识别结果的平均精度均值,从而为了评估人物识别检索性能。
在进一步的实施例中,所述步骤(2)特征数据预处理,人脸特征首先计算特征的L2范数,旨在体现该人脸特征的质量,过滤L2范数较小的特征后,取质量分数加权平均结果作为最终网络使用特征,头部特征、身体特征取平均结果,当音频特征缺失,在训练集中随机抽取一个音频特征值补上。
在进一步的实施例中,所述步骤(3)用于单模态数据的多层感知器深度学习网络单元,使用了三层感知机,中间层宽为1024,输入输出均为512维,三层感知机后使用了残差连接计算。针对人脸特征、头部特征、身体特征的网络使用了ArcFaceLoss的分类模块,音频模态则使用一层全连接分类。
在进一步的实施例中,所述步骤(4)多模态特征融合深度网络,主要实践的数据集会涉及了噪声身份,在特征融合后增加了一个比目标人物类别数目加一的分类器,噪声身份均被视作一个身份。
在进一步的实施例中,所述步骤(5)(6)多模态特征融合策略,使用多模态(人脸特征、头部特征、身体特征和音频特征)训练模型,使用部分模态测试(人脸特征、头部特征)重新调整权重进行测试,有助于结果的提升;由于四个模态的质量不等,因此调整不同模态的比例具有帮助提高整体模型的学习能力的作用。
在进一步的实施例中,所述步骤(6)评价指标为前一百的平均准确率,训练集中每个人物在测试集中检索到的相应人物视频的平均准确率的平均值。
本发明在不使用多个复杂模型集成学习的情况下,基于多模态特征融合加权策略。在最大的公开的视频人物数据集(iQIYI-VID-2019)上,无多模型集成的情况下,单个模型的平均精度均值达到了89.52%。
附图说明
图1本发明方法构建图。
图2本发明中单模态子网络结构图。
图3本发明中网络结构图。
图4本发明中多模态特征融合策略示意图。
具体实施方式:
为细致展示本发明的目的、特征和优点,下面将结合附图和具体的实施案例来对本发明做进一步详细说明。
视频人物识别存在如下难点:
1)视频数据量巨大:原始视频数量多,时长分辨率等参差不齐。公开的视频人物数据集包含在复杂场景下10034名明星人物、200小时、20万条影视剧与短视频。数据量非常大,这些挑战对运行模型的环境的计算能力有要求,模型复杂度会有所限制。
2)如何对视频片段中的人物进行表示:单一信息的模式识别的目标相对容易表示,而多模态数据中同一视频可能包含多个人物。用高维度的特征表示视频片段中的人物的准确程度,直接关系到模型对视频人物的学习能力。
3)不同模态数据质量不一样:视频的分辨率不同。不同视频帧的人脸质量不一样,人脸识别的准确性受多个可逆因素的影响,例如,人脸姿势变化,遮挡和光照变化等。不同模态数据部分缺失等问题,例如有的视频片段没有声音无法提取音频特征。
如图1所示,本发明是专门针对多模态人物视频特征数据的目标识别问题而提出的一种的深度学习目标识别多模态融合算法。在模型训练阶段包括如下具体步骤:
步骤(1)选取多模态人物视频特征数据集,并划分训练集和测试集,人物视频特征数据集包含人脸特征、头部特征、身体特征和音频特征。
步骤(2)对多模态特征数据进行预处理。
步骤(3)如图2所示,在深度学习框架Pytorch中,构建用于单模态数据的多层感知器深度学习网络单元。
步骤(4)如图3所示,基于多层感知器网络单元,在深度学习框架中进一步构建完整的多模态特征融合深度网络。
步骤(5)如图4所示,基于训练数据集上预处理后的数据,使用训练加权融合系数α_1=1,α_2=0.5,α_3=0.05,α_4=0.1训练多模态特征融合深度网络,待模型收敛后保存模型参数。
步骤(6)如图4所示,在步骤(5)保存的模型中,使用验证加权融合系数β_1=1,β_2=0.1,将训练好的深度网络在测试数据集上进行视频任务识别,生成最终的测试结果。
本发明提出了一种基于多模态特征融合深度网络的视频人物识别方法,本发明包括如下若干部分:
1)多模态特征(人脸特征、头部特征、身体特征和音频特征)数据预处理。
2)用于单模态数据的多层感知器深度学习网络单元。
3)基于多层感知器网络单元,构建完整的多模态特征融合深度网络。
4)多模态特征融合策略。
1、多模态特征预处理模块:
数据预处理系本发明的算法流程重要组成部分。以在公开的视频人物数据集(iQIYI-VID-2019)上的实践为例子,该视频人物数据集提供了人脸特征、头部特征、身体特征和音频特征,多模态特征数据预处理的具体流程如下:
a)以人脸特征的视频标签名为键,构造map映像。
b)缺少人脸特征的视频被跳过,直接丢弃不用于训练。该数据集每个视频片段都预先提取了若干人脸特征、头部特征、身体特征,每段视频理论上会生成一个512维度的音频特征值。
c)人脸特征计算L2范数,用于去除模糊人脸。模糊姿态或极端的人脸L2范数小。过滤较小的L2范数,可以去除他们的极端差异性。过滤后取视频中所有帧的人脸特征的加权平均结果,权重为该数据集提供的人脸特征质量分数。
d)头部特征、身体特征分别取视频中所有帧的头部特征、身体特征的平均值,如果缺少头部特征、身体特征,直接用c)中加权平均结果补全。
e)如果某个视频片段缺少音频特征,则从训练集中随机抽取一个音频特征值作为该视频的音频特征,完成多模态补全。
2、多层感知器深度学习网络单元:
本发明每个模态的基本模型中使用了多层感知器。多层感知器(Multi-layerPerceptron,缩写MLP)是一种前向结构的人工神经网络,映射一组输入向量到一组输出向量。此基本模型如图2所示。该模型的细节如下:多层感知器层数为三层,输入层特征为512维。本发明中将隐藏层的尺寸设置为1024维。除了输入节点,每个节点都是一个带有非线性激活函数的神经元。批标准化层在深度神经网络训练过程中使得每一层神经网络的输入保持相同分布的。本发明的模型中使用到了非线性激活函数的是使用PReLU(带参数的整流线性单元Parametric Rectified Linear Unit)。模型中间加入Dropout层,防止模型过拟合。输出层的特征同样为512维,经过多层感知器的特征与输入特征相加,完成残差连接操作。
3、多模态特征融合深度网络:
基于所述多层感知器深度学习网络单元,本发明构建了一个多模态学习的并行的网络结构。充分利用了四个模态的特征信息。如图3所示,简单的来说,本发明使用多模态(人脸特征、头部特征、身体特征和音频特征)训练模型,使用部分模态测试(人脸特征、头部特征)重新调整权重进行测试。
对于每种模态,我们都设计了与2.中描述的模型相似的结构。人脸特征、头部特征、身体特征具有很高的相关性,这三个特征都使用相同的模型结构,均将人脸识别目前应用最广的最好的ArcFaceloss用作损失函数且使用了ArcFace的分类模块。对于音频特性,使用一个全连接层作为分类器。经过四个并行的子模型之后,我们得到了四个相同维度的输出(以iQIYI-VID-2019为例子,将得到四个10034维的子网络分类结果输出)。四个输出的加权和被认为是最终的输出。将输出融合后,利用交叉熵损失来计算真实数据与网络输出之间的损失。从最后的softmax层,计算梯度并且反向传播到四个模态的子网络。
4、多模态特征融合策略:
本发明设计了一个多模态学习策略,有效地提高所述深度网络学习能力。如图4所示,简单的来说,本发明使用多模态(人脸特征、头部特征、身体特征和音频特征)训练模型,使用部分模态测试(人脸特征、头部特征)重新调整权重进行验证测试。
Outputtrain=α1*Oface+α2*Ohead+α3*Obody+α4*Oaudia
其中Oface,Ohead,Obody,Oaudio代表了人脸特征、头部特征、身体特征和音频特征自网络的分类结果,α1,α2,α3,α4代表了各个子网络分类结果占最终输出结果的四个权值。在验证评估阶段,本发明使用相同的模型,但是改变输出的权重来微调结果。
Outputtest=β1*Oface+β2*Ohead+β3*Obody+β4*Oaudio
在相同的数据集中,设置了比较不同参数的训练验证策略,实验结果表明:1)人脸特征和头部特征质量高,权值较大时平均精度均值较高;2)训练阶段使用特征的模态越多,验证的效果越好;3)验证阶段不使用身体特征和音频特征,可以使得检索的准确率提高,即:Outputtest=β1*Oface+β2*Ohead。
最终,本发明在不使用多个复杂模型集成学习的情况下,训练加权融合系数α1=1,α2=0.5α3=0.05,α4=0.1,验证加权融合系数β1=1,β2=0.1,仅使用一个的模型得到了平均精度均值89.52%的结果(数据集:iQIYI-VID-2019)。
Claims (6)
1.一种基于多模态特征融合深度网络的视频人物识别方法,其特征在于,包括如下步骤:
步骤(1)、选取多模态人物视频特征数据集,并划分训练集和测试集,人物视频特征数据集包含人脸特征、头部特征、身体特征和音频特征;
步骤(2)、对特征数据预处理:对于不同模态,针对性地使用不用的处理方法;
步骤(3)、在深度学习框架Pytorch中,构建用于单模态数据的多层感知器深度学习网络单元;
步骤(4)、基于多层感知器网络单元,在深度学习框架中进一步构建完整的多模态特征融合深度网络;
步骤(5)、基于训练数据集上预处理后的数据,使用训练加权融合系数,训练多模态特征融合深度网络,待模型收敛后保存模型参数;
步骤(6)、使用验证加权融合系数,将训练好的深度网络在测试数据集上进行视频任务识别,计算识别结果的平均精度均值,从而为了评估人物识别检索性能。
2.根据权利要求1所述的一种基于多模态特征融合深度网络的视频人物识别方法,其特征在于,所述步骤(2)特征数据预处理,人脸特征首先计算特征的L2范数,过滤L2范数小于预定值的特征后,取质量分数加权平均结果作为最终网络使用特征,
式中,Fface为最终用于训练的人脸特征,n为视频片段经过L2范数筛选之后的帧数;i为筛选后视频片段的帧数序列,为第i帧中的原始人脸特征值,为对应帧直接从数据集特征文件中获得原始质量分数,取值的范围大多在0到200之间;
当音频特征缺失,在训练集中随机抽取一个音频特征值补上。
3.根据权利要求1所述的一种基于多模态特征融合深度网络的视频人物识别方法,其特征在于,所述步骤(3)用于单模态数据的多层感知器深度学习网络单元,使用了三层感知机,中间层宽为1024,输入输出均为512维,三层感知机后使用了残差连接计算。针对人脸特征、头部特征、身体特征的网络使用了ArcFace Loss的分类模块,音频模态则使用一层全连接分类。
4.根据权利要求1所述的一种基于多模态特征融合深度网络的视频人物识别方法,其特征在于,所述步骤(4)多模态特征融合深度网络,主要实践的数据集会涉及了噪声身份,在特征融合后增加了一个比目标人物类别数目加一的分类器,噪声身份均被视作一个身份。
5.根据权利要求1所述的一种基于多模态特征融合深度网络的视频人物识别方法,其特征在于,所述步骤(5)和步骤(6)多模态特征融合策略,使用多模态训练模型,使用部分模态测试重新调整权重进行测试。
6.根据权利要求1所述的一种基于多模态特征融合深度网络的视频人物识别方法,其特征在于,所述步骤(6)评价指标为前一百的平均准确率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010444043.4A CN111507311B (zh) | 2020-05-22 | 2020-05-22 | 一种基于多模态特征融合深度网络的视频人物识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010444043.4A CN111507311B (zh) | 2020-05-22 | 2020-05-22 | 一种基于多模态特征融合深度网络的视频人物识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111507311A true CN111507311A (zh) | 2020-08-07 |
CN111507311B CN111507311B (zh) | 2024-02-20 |
Family
ID=71876871
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010444043.4A Active CN111507311B (zh) | 2020-05-22 | 2020-05-22 | 一种基于多模态特征融合深度网络的视频人物识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111507311B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112149638A (zh) * | 2020-10-23 | 2020-12-29 | 贵州电网有限责任公司 | 基于多模态生物特征的人员身份识别系统构建及使用方法 |
CN112669876A (zh) * | 2020-12-18 | 2021-04-16 | 平安科技(深圳)有限公司 | 情绪识别方法、装置、计算机设备及存储介质 |
CN112863538A (zh) * | 2021-02-24 | 2021-05-28 | 复旦大学 | 一种基于视听网络的多模态语音分离方法及装置 |
CN112989967A (zh) * | 2021-02-25 | 2021-06-18 | 复旦大学 | 一种基于音视频信息融合的人员身份识别方法 |
CN112990273A (zh) * | 2021-02-18 | 2021-06-18 | 中国科学院自动化研究所 | 面向压缩域的视频敏感人物识别方法、系统及设备 |
WO2022127740A1 (en) * | 2020-12-15 | 2022-06-23 | Zhejiang Dahua Technology Co., Ltd. | Identity recognition method and apparatus, computer apparatus, readable non-transitory storage medium |
WO2022188838A1 (en) * | 2021-03-11 | 2022-09-15 | International Business Machines Corporation | Adaptive selection of data modalities for efficient video recognition |
CN115100725A (zh) * | 2022-08-23 | 2022-09-23 | 浙江大华技术股份有限公司 | 目标识别方法、目标识别装置以及计算机存储介质 |
CN115391751A (zh) * | 2022-10-31 | 2022-11-25 | 知安视娱(北京)科技有限公司 | 侵权判定方法 |
CN115695852A (zh) * | 2022-12-30 | 2023-02-03 | 成都华栖云科技有限公司 | 一种基于多模态信息融合的视频镜头自动挑选组合方法 |
CN115830631A (zh) * | 2022-11-24 | 2023-03-21 | 中科天网(广东)科技有限公司 | 基于姿态辅助遮挡人体再识别的一人一档系统构建方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103793718A (zh) * | 2013-12-11 | 2014-05-14 | 台州学院 | 一种基于深度学习的人脸表情识别方法 |
CN108268859A (zh) * | 2018-02-08 | 2018-07-10 | 南京邮电大学 | 一种基于深度学习的人脸表情识别方法 |
CN110674350A (zh) * | 2019-09-23 | 2020-01-10 | 网易(杭州)网络有限公司 | 视频人物检索方法、介质、装置和计算设备 |
CN110674483A (zh) * | 2019-08-14 | 2020-01-10 | 广东工业大学 | 一种基于多模态信息的身份识别方法 |
-
2020
- 2020-05-22 CN CN202010444043.4A patent/CN111507311B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103793718A (zh) * | 2013-12-11 | 2014-05-14 | 台州学院 | 一种基于深度学习的人脸表情识别方法 |
CN108268859A (zh) * | 2018-02-08 | 2018-07-10 | 南京邮电大学 | 一种基于深度学习的人脸表情识别方法 |
CN110674483A (zh) * | 2019-08-14 | 2020-01-10 | 广东工业大学 | 一种基于多模态信息的身份识别方法 |
CN110674350A (zh) * | 2019-09-23 | 2020-01-10 | 网易(杭州)网络有限公司 | 视频人物检索方法、介质、装置和计算设备 |
Non-Patent Citations (2)
Title |
---|
周彩霞等: "基于三层感知器的人脸检测方法", 《株洲工学院学报》 * |
周彩霞等: "基于三层感知器的人脸检测方法", 《株洲工学院学报》, vol. 20, no. 6, 30 November 2006 (2006-11-30), pages 47 - 50 * |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112149638A (zh) * | 2020-10-23 | 2020-12-29 | 贵州电网有限责任公司 | 基于多模态生物特征的人员身份识别系统构建及使用方法 |
CN112149638B (zh) * | 2020-10-23 | 2022-07-01 | 贵州电网有限责任公司 | 基于多模态生物特征的人员身份识别系统构建及使用方法 |
WO2022127740A1 (en) * | 2020-12-15 | 2022-06-23 | Zhejiang Dahua Technology Co., Ltd. | Identity recognition method and apparatus, computer apparatus, readable non-transitory storage medium |
CN112669876A (zh) * | 2020-12-18 | 2021-04-16 | 平安科技(深圳)有限公司 | 情绪识别方法、装置、计算机设备及存储介质 |
CN112990273A (zh) * | 2021-02-18 | 2021-06-18 | 中国科学院自动化研究所 | 面向压缩域的视频敏感人物识别方法、系统及设备 |
CN112990273B (zh) * | 2021-02-18 | 2021-12-21 | 中国科学院自动化研究所 | 面向压缩域的视频敏感人物识别方法、系统及设备 |
CN112863538B (zh) * | 2021-02-24 | 2022-06-14 | 复旦大学 | 一种基于视听网络的多模态语音分离方法及装置 |
CN112863538A (zh) * | 2021-02-24 | 2021-05-28 | 复旦大学 | 一种基于视听网络的多模态语音分离方法及装置 |
CN112989967A (zh) * | 2021-02-25 | 2021-06-18 | 复旦大学 | 一种基于音视频信息融合的人员身份识别方法 |
WO2022188838A1 (en) * | 2021-03-11 | 2022-09-15 | International Business Machines Corporation | Adaptive selection of data modalities for efficient video recognition |
GB2620309A (en) * | 2021-03-11 | 2024-01-03 | Ibm | Adaptive selection of data modalities for efficient video recognition |
CN115100725B (zh) * | 2022-08-23 | 2022-11-22 | 浙江大华技术股份有限公司 | 目标识别方法、目标识别装置以及计算机存储介质 |
CN115100725A (zh) * | 2022-08-23 | 2022-09-23 | 浙江大华技术股份有限公司 | 目标识别方法、目标识别装置以及计算机存储介质 |
CN115391751A (zh) * | 2022-10-31 | 2022-11-25 | 知安视娱(北京)科技有限公司 | 侵权判定方法 |
CN115830631A (zh) * | 2022-11-24 | 2023-03-21 | 中科天网(广东)科技有限公司 | 基于姿态辅助遮挡人体再识别的一人一档系统构建方法 |
CN115830631B (zh) * | 2022-11-24 | 2023-11-28 | 中科天网(广东)科技有限公司 | 基于姿态辅助遮挡人体再识别的一人一档系统构建方法 |
CN115695852A (zh) * | 2022-12-30 | 2023-02-03 | 成都华栖云科技有限公司 | 一种基于多模态信息融合的视频镜头自动挑选组合方法 |
CN115695852B (zh) * | 2022-12-30 | 2023-03-28 | 成都华栖云科技有限公司 | 一种基于多模态信息融合的视频镜头自动挑选组合方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111507311B (zh) | 2024-02-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111507311A (zh) | 一种基于多模态特征融合深度网络的视频人物识别方法 | |
Huang et al. | Generative dual adversarial network for generalized zero-shot learning | |
CN108875807B (zh) | 一种基于多注意力多尺度的图像描述方法 | |
Liu et al. | Hard negative generation for identity-disentangled facial expression recognition | |
CN111126218B (zh) | 一种基于零样本学习的人体行为识别方法 | |
CN109063724B (zh) | 一种增强型生成式对抗网络以及目标样本识别方法 | |
CN113628294B (zh) | 一种面向跨模态通信系统的图像重建方法及装置 | |
CN113688723A (zh) | 一种基于改进YOLOv5的红外图像行人目标检测方法 | |
CN111178319A (zh) | 基于压缩奖惩机制的视频行为识别方法 | |
CN111582397A (zh) | 一种基于注意力机制的cnn-rnn图像情感分析方法 | |
Ocquaye et al. | Dual exclusive attentive transfer for unsupervised deep convolutional domain adaptation in speech emotion recognition | |
CN114842267A (zh) | 基于标签噪声域自适应的图像分类方法及系统 | |
CN110853656A (zh) | 基于改进神经网络的音频篡改识别算法 | |
CN111539445B (zh) | 一种半监督特征融合的对象分类方法及系统 | |
CN115858726A (zh) | 基于互信息方法表示的多阶段多模态情感分析方法 | |
CN114611617A (zh) | 基于原型网络的深度领域自适应图像分类方法 | |
CN110415261B (zh) | 一种分区域训练的表情动画转换方法及系统 | |
CN113420179B (zh) | 基于时序高斯混合空洞卷积的语义重构视频描述方法 | |
CN112380374A (zh) | 一种基于语义扩充的零样本图像分类方法 | |
CN114943912A (zh) | 视频换脸方法、装置及存储介质 | |
JP7148078B2 (ja) | 属性推定装置、属性推定方法、属性推定器学習装置、及びプログラム | |
Zhang et al. | Deep meta-relation network for visual few-shot learning | |
Yang et al. | Fine-Grained Image Quality Caption With Hierarchical Semantics Degradation | |
CN113689514A (zh) | 一种面向主题的图像场景图生成方法 | |
CN111209433A (zh) | 一种基于特征增强的视频分类算法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |