CN110674483B - 一种基于多模态信息的身份识别方法 - Google Patents

一种基于多模态信息的身份识别方法 Download PDF

Info

Publication number
CN110674483B
CN110674483B CN201910749103.0A CN201910749103A CN110674483B CN 110674483 B CN110674483 B CN 110674483B CN 201910749103 A CN201910749103 A CN 201910749103A CN 110674483 B CN110674483 B CN 110674483B
Authority
CN
China
Prior art keywords
model
score
data set
face
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910749103.0A
Other languages
English (en)
Other versions
CN110674483A (zh
Inventor
管贻生
叶家杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN201910749103.0A priority Critical patent/CN110674483B/zh
Publication of CN110674483A publication Critical patent/CN110674483A/zh
Application granted granted Critical
Publication of CN110674483B publication Critical patent/CN110674483B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/32User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/70Multimodal biometrics, e.g. combining information from different biometric modalities

Abstract

本发明公开了一种基于多模态信息的身份识别方法,包括下述步骤:步骤一,制作带有标签的多模态视频数据集;步骤二,分别构建和训练人脸和头部检测模型;步骤三,构建和训练人脸、头部和声音的特征提取模型;步骤四,通过训练好的特征提取模型,对人脸、头部和声音信息进行特征提取;步骤五,构建和训练分类模型分别对三种提取后的特征进行分类;步骤六,通过分类模型分别使用三种特征进行结果预测;步骤七,依据制定的多模态信息融合策略对分类结果进行信息融合;步骤八,对融合后的结果进行整理后输出身份识别结果;本发明提出基于多模态信息的身份识别网络模型,在人机交互、信息安全和安保监控等领域有着广泛的应用前景。

Description

一种基于多模态信息的身份识别方法
技术领域
本发明涉及模式识别和生物识别技术领域,具体涉及一种基于多模态信息的身份识别方法。
背景技术
随着经济发展与经验积累,科技创新取得了长足进步,尤其近十几年来,以生物鉴别技术为代表的一系列新兴技术突飞猛进,在身份识别的方法中,人脸识别技术最为引人关注。人脸识别技术通过收集分析人的面部特征来识别目标身份,具有易于采样、便于后台操作、不与采样对象发生接触等特点,在实际应用中相比其它识别模式有着明显优势,在身份识别和智能人机交互领域发挥显著作用,并向安全监控、多媒体娱乐等领域辐射出相当影响力。
由于近年来深度学习的兴趣,对身份识别的研究有了很大的提升,尤其在基于人脸识别和说话人识别的研究方面,在公开数据集上的表现已经超越了人的识别能力。同时,基于这些单一模态的身份识别算法不断的优化,研究者们逐渐把研究的方向从受约束环境转到无约束环境中,大大提高了身份识别的难度,在无约束环境中提高身份识别算法的识别能力也是目前研究的一个难题,而且往往在很多无约束的环境中,单靠单一模态信息不足以完成身份识别任务,需要考虑使用多种模态信息作为依据,提高识别能力。所以,基于多模态信息的身份识别方法是一个重要的研究方向。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提供一种基于多模态信息的身份识别方法,该方法通过利用多种模态信息,提高算法在无约束环境下的身份识别能力,并利用决策层级的融合方法,对多种模态信息进行有效的融合,体现基于多种模态信息在识别技术领域的作用。
本发明的目的通过下述技术方案实现:
一种基于多模态信息的身份识别方法,包括下述步骤:
步骤一,收集影视明星和知名人士的影视片段和视频片段,制作包含多种模态信息的人物数据集,并为数据集添加身份标签;
步骤二,构建人脸和头部的检测模型,分别使用不同的开源数据集进行训练,检测步骤一中人物数据集中的人脸和头部;
步骤三,根据步骤二中检测到的人脸和头部信息,构建人脸、头部和声音三种模态信息的特征提取模型,并使用开源数据集训练模型;
步骤四,依据步骤三中的特征提取模型,分别对人脸、头部和声音信息进行特征提取;
步骤五,构建分类模型,使用步骤一中人物数据集中的训练集和验证集训练分类模型;
步骤六,使用步骤五中的分类模型,分别对步骤一中人物数据集中的测试集进行结果预测;
步骤七,根据步骤六中的预测结果,通过制定融合策略对预测结果进行信息融合;
步骤八,根据步骤七中的融合结果进行整理排序,输出最终身份识别结果。
优选地,所述步骤一中制作包含多种模态信息的人物数据集并为数据集添加身份标签的具体过程为:
构建和训练一个人脸检测分数评价和质量评价模型,对已获取的大量视频进行人脸检测评分和质量分数评价,检测评分范围为0至1,质量评分范围为0至200,通过人脸检测评价和质量评价模型筛选视频,并将视频随机切分成3-30秒的视频片段,整个数据集80%视频数据为高评分视频片段,20%为低评分视频片段,并在数据集中添加5%的未知标签视频片段。
优选地,所述步骤二中构建人脸检测模型,根据Pyramidbox算法构建检测模型,使用开源数据集Megaface和MS-Celeb-1M训练检测模型;所述头部检测模型为YOLOv3,使用开源预训练好的权重,只检测人的头部位置。
优选地,所述步骤三中人脸的特征提取模型为一种基于VGG16结构和ArcFace损失函数的神经网络特征提取模型,使用开源数据集Megaface和MS-Celeb-1M训练模型;其中ArcFace损失函数,如下述公式(1)所示:
Figure BDA0002166607620000031
上式中,N代表输入数据的批量大小,s代表半径为s的超球面,m代表附加角度边缘惩罚值,
Figure BDA0002166607620000032
代表真实值的角度,θj代表第j列权重与第i个样本特征的夹角;
人脸和头部的特征提取模型具有相同的神经网络结构,相同的损失函数,但网络参数不共享;
声音的特征提取模型为一种基于Resnet50神经网络模型,最后一层损失函数为softmax,使用开源数据集VoxCeleb2训练模型。
优选地,使用步骤四中人脸、头部和声音的特征提取模型,对步骤一中的人物数据集进行特征提取,取倒数第二层全连接层的输出为所要提取的特征,其中倒数第二层共512个节点。
优选地,所述步骤五中的分类模型为多层感知机,具有三个全连接层,第一和第二层均为1024个节点,第三层节点数为分类的类数,只使用训练集和验证集中提取的三种模态信息训练分类模型,三种模态信息分别训练三个分类模型。
优选地,所述步骤六中使用分类模型对人物数据集的测试集进行结果预测,预测结果为三种,由人脸、头部和声音分类模型分别预测得出。
优选地,所述步骤七中的融合策略是一种在决策层上进行信息融合的方法,使用加权平均的方法求得融合结果,其中权值的选择分为两部分,在人脸检测分数和质量分数高的情况下,选用人脸的检测分数和质量分数作为权值,其他情况均采用预测结果排位分数作为权值;
具体来说,所述权值的选择根据人脸的检测分数和质量分数划分两部分,高评分视频通过第一部分进行预测分类,低评分视频通过第二部分进行预测分类;
其中,第一部分的融合策略主要利用检测分数和质量分数作为权值,计算加权均值,如下述公式(2)所示:
Figure BDA0002166607620000051
上式中,qua scorei表示第i帧图像的质量评分,det scorei表示第i帧图像的检测评分,n表示当前输入的视频所含有的帧数,fi表示当前视频中第i帧的特征,F表示通过加权平均所得到的合成特征表达;
第二部分的融合策略主要利用三种预测结果做决策融合,根据不同的标签把预测结果相同的视频ID进行累加,通过排名分数求加权均值,如下述公示(3)、(4)所示:
Figure BDA0002166607620000052
Figure BDA0002166607620000053
上式中,label i表示第i个标签,result scorej表示第j个预测结果,rank scorej表示第j个预测结果的排名位置,m表示在所有的预测结果中,同一标签下且同一个视频ID的预测结果数,W表示同一标签且同一视频ID的权重分数,N表示数据集中的分类类别数量,k表示在同一标签下所包含的视频ID数量。
优选地,所述步骤八中使用步骤七的融合结果,根据数据集中标签类别分别对融合结果进行排序,使用top K的方法排序选择,根据排序结果输出身份识别结果。
本发明与现有技术相比具有以下的有益效果:
(1)本发明提出了一种制作多模态信息数据集的方法,解决了在有大量数据的情况下,筛选出符合要求的多模态信息数据的技术问题;
(2)本发明提出了一种有效的多模态信息融合模型,解决了在真实无约束环境下,通过单一模态信息无法进行身份识别的问题,如人脸识别无法在图片具有曝光、侧脸和人脸有遮挡的情况下进行精确识别;
(3)本发明提出了一种基于加权均值的融合多种预测结果的方法,并结合K-fold的数据集分层抽样的方法,增强了预测结果,提高结果预测准确率,解决了在决策层级进行结果融合时容易导致预测准确率下降的问题。
附图说明
图1为本发明的流程示意图;
图2为本发明多模态信息数据集制作的流程示意图;
图3为本发明多模态特征提取的流程示意图;
图4为本发明融合策略模型的模型结构示意图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
如图1~4所示,一种基于多模态信息的身份识别方法,包括下述步骤:
步骤一,制作带有标签和多模态信息的人物视频数据集,其中多模态信息包括人脸、头部和声音等;
如图2所示,构建和训练一个人脸检测分数评价和质量评价模型,对从网络获取的大量视频进行人脸检测评分和质量分数评价,检测评分范围为0至1,质量评分范围为0至200,通过人脸检测评价和质量评价模型筛选视频,并将视频随机切分成3-30秒的视频片段,其中检测分数大于0.8且质量评分大于80为高评分视频片段,其他则为低评分视频片段,整个数据集80%视频数据为高评分视频片段,20%为低评分视频片段,并在数据集中添加5%的未知标签视频片段。
步骤二,分别构建和训练人脸和头部检测模型,其中人脸和头部检测模型神经网络结构不同,人脸检测模型使用开源数据集训练,而头部检测模型使用开源的预训练权重;
(1)构建人脸检测模型,根据Pyramidbox算法构建检测模型,使用开源数据集Megaface和MS-Celeb-1M训练检测模型。
(2)构建头部的检测模型为YOLOv3,使用开源预训练好的权重,只检测人的头部位置。
步骤三,构建和训练人脸、头部和声音的特征提取模型,人脸和头部特征提取模型均选用VGG16结构和ArcFace损失函数的神经网络特征提取模型,并使用开源数据集Megaface和MS-Celeb-1M训练模型;所述的声音提取模型为一种基于Resnet50神经网络模型,倒数第二层节点数为512,最后一层损失函数为softmax,使用开源数据集VoxCeleb2训练模型;所述ArcFace损失函数,如下述公式(1)所示:
Figure BDA0002166607620000071
上式中,N代表输入数据的批量大小,s代表半径为s的超球面,m代表附加角度边缘惩罚值,
Figure BDA0002166607620000081
代表真实值的角度,θj代表第j列权重与第i个样本特征的夹角。
步骤四,通过训练好的特征提取模型,对人脸、头部和声音信息进行特征提取,利用步骤二中的人脸和头部检测模型和步骤三中的三种特征提取模型,提取步骤一中所述的人物数据集中的人脸、头部和声音特征,取每个特征提取模型的倒数第二层的输出作为提取特征,具体特征提取流程如图3所示。
步骤五,构建和训练分类模型分别对三种提取后的特征进行分类,分类模型均选用多层感知机结构,所述的多层感知机具有三层神经网络结构即具有三个全连接层,第一和第二层均为1024个节点,第三层节点数为分类的类数,即最后一层输出层的节点数为数据集分类的类别数,最后一层的损失函数为softmax函数;只使用训练集和验证集中提取的三种模态信息训练分类模型,三种模态信息分别训练三个分类模型。
步骤六,通过分类模型分别使用三种特征进行结果预测,具体步骤:利用K-fold方法对人物数据集进行分层抽样,拆分成K个数据集,分别利用三种模型对K个人脸检测模数据集进行结果预测,得到3乘K个预测结果。
步骤七,依据制定的多模态信息融合策略对分类结果进行信息融合,具体步骤如图4所示;
所述的融合策略主要分为两个部分,根据人脸的检测分数和质量分数划分两部分,高评分视频通过第一部分进行预测分类,低评分视频通过第二部分进行预测分类。
其中,第一部分的融合策略主要利用检测分数和质量分数作为权值,计算加权均值,如下述公式(2)所示:
Figure BDA0002166607620000091
上式中,qua scorei表示第i帧图像的质量评分,det scorei表示第i帧图像的检测评分,n表示当前输入的视频所含有的帧数,fi表示当前视频中第i帧的特征,F表示通过加权平均所得到的合成特征表达。
第二部分的融合策略主要利用三种预测结果做决策融合,根据不同的标签把预测结果相同的视频ID进行累加,通过排名分数求加权均值,如下述公式(3)、(4)所示:
Figure BDA0002166607620000092
Figure BDA0002166607620000093
上式中,label i表示第i个标签,result scorej表示第j个预测结果,rank scorej表示第j个预测结果的排名位置,m表示在所有的预测结果中,同一标签下且同一个视频ID的预测结果数,W表示同一标签且同一视频ID的权重分数,N表示数据集中的分类类别数量,k表示在同一标签下所包含的视频ID数量。
步骤八,利用步骤七得到的融合结果,根据每个标签下的权重得分进行排序,最后根据Top K的方法输出身份识别结果。
本发明提出了一种制作多模态信息数据集的方法,解决了在有大量数据的情况下,筛选出符合要求的多模态信息数据的技术问题;提出了一种有效的多模态信息融合模型,解决了在真实无约束环境下,通过单一模态信息无法进行身份识别的问题,如人脸识别无法在图片具有曝光、侧脸和人脸有遮挡的情况下进行精确识别;提出了一种基于加权均值的融合多种预测结果的方法,并结合K-fold的数据集分层抽样的方法,增强了预测结果,提高结果预测准确率,解决了在决策层级进行结果融合时容易导致预测准确率下降的问题。
上述为本发明较佳的实施方式,但本发明的实施方式并不受上述内容的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (8)

1.一种基于多模态信息的身份识别方法,其特征在于,包括下述步骤:
步骤一,收集影视明星和知名人士的影视片段和视频片段,制作包含多种模态信息的人物数据集,并为数据集添加身份标签;
步骤二,构建人脸和头部的检测模型,分别使用不同的开源数据集进行训练,检测步骤一中人物数据集中的人脸和头部;
步骤三,根据步骤二中检测到的人脸和头部信息,构建人脸、头部和声音三种模态信息的特征提取模型,并使用开源数据集训练模型;
步骤四,依据步骤三中的特征提取模型,分别对人脸、头部和声音信息进行特征提取;
步骤五,构建分类模型,使用步骤一中人物数据集中的训练集和验证集训练分类模型;
步骤六,使用步骤五中的分类模型,分别对步骤一中人物数据集中的测试集进行结果预测;
步骤七,根据步骤六中的预测结果,通过制定融合策略对预测结果进行信息融合;
步骤八,根据步骤七中的融合结果进行整理排序,输出最终身份识别结果;
所述步骤七中的融合策略是一种在决策层上进行信息融合的方法,使用加权平均的方法求得融合结果,其中权值的选择分为两部分,在人脸检测分数和质量分数高的情况下,选用人脸的检测分数和质量分数作为权值,其他情况均采用预测结果排位分数作为权值;
具体来说,所述权值的选择根据人脸的检测分数和质量分数划分两部分,高评分视频通过第一部分进行预测分类,低评分视频通过第二部分进行预测分类;
其中,第一部分的融合策略主要利用检测分数和质量分数作为权值,计算加权均值,如下述公式(2)所示:
Figure FDA0003523023070000021
上式中,quascorei表示第i帧图像的质量评分,detscorei表示第i帧图像的检测评分,n表示当前输入的视频所含有的帧数,fi表示当前视频中第i帧的特征,F表示通过加权平均所得到的合成特征表达;
第二部分的融合策略主要利用三种预测结果做决策融合,根据不同的标签把预测结果相同的视频ID进行累加,通过排名分数求加权均值,如下述公式 (3)、(4)所示:
Figure FDA0003523023070000022
Figure FDA0003523023070000031
上式中,label i表示第i个标签,resultscorej表示第j个预测结果,rankscorej表示第j个预测结果的排名位置,m表示在所有的预测结果中,同一标签下且同一个视频ID的预测结果数,W表示同一标签且同一视频ID的权重分数,N表示数据集中的分类类别数量,k表示在同一标签下所包含的视频ID数量。
2.根据权利要求1所述的基于多模态信息的身份识别方法,其特征在于,所述步骤一中制作包含多种模态信息的人物数据集并为数据集添加身份标签的具体过程为:
构建和训练一个人脸检测分数评价和质量评价模型,对已获取的大量视频进行人脸检测评分和质量分数评价,检测评分范围为0至1,质量评分范围为0至200,通过人脸检测评价和质量评价模型筛选视频,并将视频随机切分成3-30秒的视频片段,整个数据集80%视频数据为高评分视频片段,20%为低评分视频片段,并在数据集中添加5%的未知标签视频片段。
3.根据权利要求1所述的基于多模态信息的身份识别方法,其特征在于,所述步骤二中构建人脸检测模型,根据Pyramidbox算法构建检测模型,使用开源数据集Megaface和MS-Celeb-1M训练检测模型;所述头部检测模型为YOLOv3,使用开源预训练好的权重,只检测人的头部位置。
4.根据权利要求1所述的基于多模态信息的身份识别方法,其特征在于,所述步骤三中人脸的特征提取模型为一种基于VGG16结构和ArcFace损失函数的神经网络特征提取模型,使用开源数据集Megaface和MS-Celeb-1M训练模型;其中ArcFace损失函数,如下述公式(1)所示:
Figure FDA0003523023070000041
上式中,N代表输入数据的批量大小,s代表半径为s的超球面,m代表附加角度边缘惩罚值,θyi代表真实值的角度,θj代表第j列权重与第i个样本特征的夹角;
人脸和头部的特征提取模型具有相同的神经网络结构,相同的损失函数,但网络参数不共享;
声音的特征提取模型为一种基于Resnet50神经网络模型,最后一层损失函数为softmax,使用开源数据集VoxCeleb2训练模型。
5.根据权利要求1所述的基于多模态信息的身份识别方法,其特征在于,使用步骤四中人脸、头部和声音的特征提取模型,对步骤一中的人物数据集进行特征提取,取倒数第二层全连接层的输出为所要提取的特征,其中倒数第二层共512个节点。
6.根据权利要求1所述的基于多模态信息的身份识别方法,其特征在于,所述步骤五中的分类模型为多层感知机,具有三个全连接层,第一和第二层均为1024个节点,第三层节点数为分类的类数,只使用训练集和验证集中提取的三种模态信息训练分类模型,三种模态信息分别训练三个分类模型。
7.根据权利要求1所述的基于多模态信息的身份识别方法,其特征在于,所述步骤六中使用分类模型对人物数据集的测试集进行结果预测,预测结果为三种,由人脸、头部和声音分类模型分别预测得出。
8.根据权利要求1所述的基于多模态信息的身份识别方法,其特征在于,所述步骤八中使用步骤七的融合结果,根据数据集中标签类别分别对融合结果进行排序,使用top K的方法排序选择,根据排序结果输出身份识别结果。
CN201910749103.0A 2019-08-14 2019-08-14 一种基于多模态信息的身份识别方法 Active CN110674483B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910749103.0A CN110674483B (zh) 2019-08-14 2019-08-14 一种基于多模态信息的身份识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910749103.0A CN110674483B (zh) 2019-08-14 2019-08-14 一种基于多模态信息的身份识别方法

Publications (2)

Publication Number Publication Date
CN110674483A CN110674483A (zh) 2020-01-10
CN110674483B true CN110674483B (zh) 2022-05-13

Family

ID=69068584

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910749103.0A Active CN110674483B (zh) 2019-08-14 2019-08-14 一种基于多模态信息的身份识别方法

Country Status (1)

Country Link
CN (1) CN110674483B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4120105A4 (en) * 2020-04-06 2023-08-23 Huawei Technologies Co., Ltd. IDENTITY AUTHENTICATION METHOD, AND IDENTITY AUTHENTICATION MODEL LEARNING METHOD AND DEVICE
CN111507311B (zh) * 2020-05-22 2024-02-20 南京大学 一种基于多模态特征融合深度网络的视频人物识别方法
CN111862990B (zh) * 2020-07-21 2022-11-11 思必驰科技股份有限公司 说话者身份验证方法及系统
CN112818175B (zh) * 2021-02-07 2023-09-01 中国矿业大学 一种厂区工作人员搜索方法及人员识别模型的训练方法
CN112989967A (zh) * 2021-02-25 2021-06-18 复旦大学 一种基于音视频信息融合的人员身份识别方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6219640B1 (en) * 1999-08-06 2001-04-17 International Business Machines Corporation Methods and apparatus for audio-visual speaker recognition and utterance verification
CN108648746A (zh) * 2018-05-15 2018-10-12 南京航空航天大学 一种基于多模态特征融合的开放域视频自然语言描述生成方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030110038A1 (en) * 2001-10-16 2003-06-12 Rajeev Sharma Multi-modal gender classification using support vector machines (SVMs)
KR102439938B1 (ko) * 2015-08-03 2022-09-05 삼성전자주식회사 사용자 인증을 위한 멀티-모달 퓨전 방법 및 사용자 인증 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6219640B1 (en) * 1999-08-06 2001-04-17 International Business Machines Corporation Methods and apparatus for audio-visual speaker recognition and utterance verification
CN108648746A (zh) * 2018-05-15 2018-10-12 南京航空航天大学 一种基于多模态特征融合的开放域视频自然语言描述生成方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"iqiyi-vid: A large dataset for multi-modal person identification";Y. Liu et al;《arXiv preprint arXiv:1811.07548》;20190422;1-11 *

Also Published As

Publication number Publication date
CN110674483A (zh) 2020-01-10

Similar Documents

Publication Publication Date Title
CN110674483B (zh) 一种基于多模态信息的身份识别方法
CN111275085B (zh) 基于注意力融合的在线短视频多模态情感识别方法
CN109376242B (zh) 基于循环神经网络变体和卷积神经网络的文本分类方法
CN110084151B (zh) 基于非局部网络深度学习的视频异常行为判别方法
Huang et al. Speech emotion recognition from variable-length inputs with triplet loss function.
CN109949317A (zh) 基于逐步对抗学习的半监督图像实例分割方法
CN111144448A (zh) 基于多尺度注意力卷积编码网络的视频弹幕情感分析方法
CN108681712A (zh) 一种融合领域知识和多阶深度特征的篮球比赛语义事件识别方法
CN105787458A (zh) 基于人工设计特征和深度学习特征自适应融合的红外行为识别方法
CN105895087A (zh) 一种语音识别方法及装置
CN111581385A (zh) 一种不平衡数据采样的中文文本类别识别系统及方法
Jing et al. Yarn-dyed fabric defect classification based on convolutional neural network
CN107301858B (zh) 基于音频特征空间分层描述的音频分类方法
CN110348416A (zh) 一种基于多尺度特征融合卷积神经网络的多任务人脸识别方法
CN108427740B (zh) 一种基于深度度量学习的图像情感分类与检索算法
CN108804453A (zh) 一种视音频识别方法及装置
CN108256307A (zh) 一种智能商务旅居房车的混合增强智能认知方法
Ocquaye et al. Dual exclusive attentive transfer for unsupervised deep convolutional domain adaptation in speech emotion recognition
Islam et al. A review on video classification with methods, findings, performance, challenges, limitations and future work
CN105930792A (zh) 一种基于视频局部特征字典的人体动作分类方法
CN112529638B (zh) 基于用户分类和深度学习的服务需求动态预测方法及系统
CN114580566A (zh) 一种基于间隔监督对比损失的小样本图像分类方法
CN112732921A (zh) 一种虚假用户评论检测方法及系统
CN113255602A (zh) 基于多模态数据的动态手势识别方法
Wu An audio classification approach based on machine learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant