CN112989967A - 一种基于音视频信息融合的人员身份识别方法 - Google Patents
一种基于音视频信息融合的人员身份识别方法 Download PDFInfo
- Publication number
- CN112989967A CN112989967A CN202110213548.4A CN202110213548A CN112989967A CN 112989967 A CN112989967 A CN 112989967A CN 202110213548 A CN202110213548 A CN 202110213548A CN 112989967 A CN112989967 A CN 112989967A
- Authority
- CN
- China
- Prior art keywords
- audio
- features
- neural network
- preprocessed
- video information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 22
- 230000004927 fusion Effects 0.000 title claims abstract description 19
- 238000003062 neural network model Methods 0.000 claims abstract description 39
- 238000012549 training Methods 0.000 claims abstract description 23
- 238000013528 artificial neural network Methods 0.000 claims abstract description 14
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 238000001228 spectrum Methods 0.000 claims description 37
- 238000009795 derivation Methods 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 7
- 238000013527 convolutional neural network Methods 0.000 claims description 6
- 238000013135 deep learning Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000001902 propagating effect Effects 0.000 claims description 3
- 238000007500 overflow downdraw method Methods 0.000 claims 4
- 238000012360 testing method Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/70—Multimodal biometrics, e.g. combining information from different biometric modalities
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/18—Artificial neural networks; Connectionist approaches
Abstract
本发明提供了一种基于音视频信息融合的人员身份识别方法,具有这样的特征,包括以下步骤,步骤S1,读入音视频资料的视频信息以及音频信息,对视频信息以及音频信息进行预处理,得到预处理视频信息以及预处理音频信息;步骤S2,将预处理音频信息进行处理,提取出音频特征;步骤S3,将预处理视频信息进行处理,提取出针对预处理视频信息中人员的人脸特征、头部特征以及身体特征;步骤S4,搭建多个MLP神经网络模型,并对多个MLP神经网络模型进行训练以及权值的设定,得到MLP神经网络联合模型;步骤S5,把音频特征、人脸特征、头部特征以及身体特征输入MLP神经网络联合模型,得到判断的类别结果。
Description
技术领域
本发明涉及计算机视觉听觉、人工智能技术领域,具体涉及到一种多基于音视频信息融合的人员身份识别方法。
背景技术
音视频资料中的人识别是计算机视觉和机器学习领域的一个具有挑战性的课题。目前这一领域有两种方案,一种叫人脸识别,另一种叫声纹识别。所谓人脸识别是指判断待测人脸图像和数据库中的已知人脸图像是否属于同一个人;声纹识别是指判断待测音频和数据库中的已知音频是否属于同一个人。
与静止图像不同,音视频资料同时包含视频信息和音频信息。但是上述的两种方案并没有真正利用到全部的音视频信息,而且由于人脸识别对姿态、模糊、遮挡等干扰因素十分敏感,以及人物并非一直出现在视频之中,这使得单纯的人脸识别时常失效。
多模式身份识别是一种更具前景的方法,可以联合利用人脸、头部、身体、音频等特征,提供更精确、稳定的身份识别。
发明内容
本发明是为了解决上述问题而进行的,目的在于提供一种多基于音视频信息融合的人员身份识别方法。
本发明提供了一种基于音视频信息融合的人员身份识别方法,具有这样的特征,包括以下步骤:步骤S1,读入音视频资料的视频信息以及音频信息,对视频信息以及音频信息进行预处理,得到预处理视频信息以及预处理音频信息;步骤S2,将预处理音频信息进行处理,提取出音频特征;步骤S3,将预处理视频信息进行处理,提取出针对预处理视频信息中人员的人脸特征、头部特征以及身体特征;步骤S4,搭建多个MLP神经网络模型,并对多个MLP神经网络模型进行训练以及权值的设定,得到MLP神经网络联合模型;步骤S5,把音频特征、人脸特征、头部特征以及身体特征输入MLP神经网络联合模型,得到判断的类别结果;其中,步骤S4包括以下子步骤,步骤S4-1,搭建多个MLP神经网络模型,其包含的模型参数为随机设置;步骤S4-2,把训练集输入多个MLP神经网络模型进行模型训练并进行一次迭代;步骤S4-3,迭代后,采用多个MLP神经网络模型最后一层的模型参数分别计算出损失误差,然后将计算得到的损失误差反向传播,从而更新模型参数;步骤S4-4,重复步骤S4-2至步骤S4-3直至达到训练完成条件,得到多个训练后的卷积神经网络模型;步骤S4-5,根据多个训练后的MLP神经网络模型在模型训练中的准确率对多个MLP神经网络模型进行权值的设定,得到MLP神经网络联合模型。
在本发明提供的基于音视频信息融合的人员身份识别方法中,还可以具有这样的特征:其中,在步骤S1中,预处理包括删除低帧率、低像素的视频信息,以及对视频信息每2秒截取一次、对音频信息每5秒截取一次。
在本发明提供的基于音视频信息融合的人员身份识别方法中,还可以具有这样的特征:其中,步骤S2包括以下子步骤,步骤S2-1,通过音频格式的转换工具ffmpeg将预处理音频信息转化为wav格式的音频,得到wav格式预处理音频信息;步骤S2-2,按sample rate乘上切割时长得到数据的长度,再按得到的数据长度切割wav格式预处理音频信息,得到切割后wav格式预处理音频信息;步骤S2-3,对切割后wav格式预处理音频信息进行梅尔频谱的特征提取,通过对切割后wav格式预处理音频信息进行对数计算而得到1*64*200维度的能量谱特征,并对能量谱特征进行一阶求导而得到与能量谱特征相同维度的一阶求导能量谱特征,对能量谱特征进行二阶求导而得到与能量谱特征相同维度的二阶求导能量谱特征;步骤S2-4,将能量谱特征、一阶导数能量谱特征、二阶导数能量谱特征在通道层面上进行融合组成一个3*64*200维度的初步音频特征;步骤S2-5,将初步音频特征输入到声纹特征提取器中提取得到1*512维度的音频特征。
在本发明提供的基于音视频信息融合的人员身份识别方法中,还可以具有这样的特征:其中,步骤S2-3中,能量谱特征为三维矩阵,这三个维度名称分别为通道、梅尔特征数量、梅尔特征长度。
在本发明提供的基于音视频信息融合的人员身份识别方法中,还可以具有这样的特征:其中,在步骤S3中,人脸特征通过arcface的模型进行特征提取,头部特征以及身体特征通过ReID的模型进行特征提取。
发明的作用与效果
根据本发明所涉及的基于音视频信息融合的人员身份识别方法,由于充分利用音视频资料的视频信息以及音频信息,提取并融合音视频资料的音频特征、人脸特征、头部特征以及身体特征,本发明所涉及的基于音视频信息融合的人员身份识别方法扩充了输入MLP神经网络模型的特征信息,并通过多个MLP神经网络模型加权后进行联合判断的形式,保证了对人员身份识别的精确性和稳定性。
附图说明
图1是本发明的实施例中基于音视频信息融合的人员身份识别方法的流程图;以及
图2是本发明的实施例中MLP神经网络模型的结构示意图。
具体实施方式
为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,以下实施例结合附图对本发明所涉及的基于音视频信息融合的人员身份识别方法作具体阐述。
<实施例>
本实施例采用iQIYI-VID2019和YouTube视频数据集为数据集,并将数据集分为训练集和测试集。
iQIYI-VID2019为包含5000位名人的60万个视频片段的名人身份数据集。这些视频片段是从爱奇艺的大量在线视频中提取出来的,所有视频中的人物都经过手动标注。
YouTube视频数据集为包含上百万个人物类别的视频数据类型,本实施例选用了5000位名人的100万个视频片段,视频的标注采用YouTude自带的人物标注信息。
另外,本实施例实现的硬件平台需要一张NVIDIA GTX 1080ti显卡(GPU加速)。
图1为本实施例中基于音视频信息融合的人员身份识别方法的流程图。由图1可知,本实施例中基于音视频信息融合的人员身份识别方法的流程图包括以下步骤:
步骤S1,读入音视频资料的视频信息以及音频信息,对视频信息以及音频信息进行预处理,得到预处理视频信息以及预处理音频信息。
预处理包括删除低帧率、低像素的视频信息,以及对视频信息每2秒截取一次、对音频信息每5秒截取一次。
步骤S2,将预处理音频信息进行处理,提取出音频特征。
提取音频特征的过程包括以下子步骤:
步骤S2-1,通过音频格式的转换工具ffmpeg将预处理音频信息转化为wav格式的音频,得到wav格式预处理音频信息。
步骤S2-2,按sample rate乘上切割时长得到数据的长度,再按得到的数据长度切割wav格式预处理音频信息,得到切割后wav格式预处理音频信息。
步骤S2-3,对切割后wav格式预处理音频信息进行梅尔频谱的特征提取,通过对切割后wav格式预处理音频信息进行对数计算得到1*64*200的能量谱特征,即切割后wav格式预处理音频信息在能量谱上的特征,并对能量谱特征进行一阶求导而得到与能量谱特征相同维度的一阶求导能量谱特征,对能量谱特征进行二阶求导而得到与能量谱特征相同维度的二阶求导能量谱特征。
能量谱特征为三维矩阵,这三个维度名称分别为通道、梅尔特征数量、梅尔特征长度,即在音频数据上提取64个梅尔特征,每个梅尔特征长度为200。
步骤S2-4,将能量谱特征、一阶导数能量谱特征、二阶导数能量谱特征在通道层面上进行融合组成一个3*64*200维度的初步音频特征。
步骤S2-5,将初步音频特征输入到声纹特征提取器中提取高层次的音频特征,得到1*512维度的音频特征。
步骤S3,将预处理视频信息进行处理,提取出针对预处理视频信息中人员的人脸特征、头部特征以及身体特征。
预处理视频信息中的人脸特征通过arcface的模型进行特征提取,预处理视频信息中的头部特征以及身体特征通过ReID的模型进行特征提取。
提取预处理视频信息中的人脸特征时,根据人脸质量对人脸特征进行排序,选出每个视频片段中排名前32位的人脸特征。如果一个视频片段中人脸特征少于32个,则进行随机抽取特征,直到特征数量达到32个。
步骤S4,搭建多个MLP神经网络模型,并对多个MLP神经网络模型进行训练以及权值的设定,得到MLP神经网络联合模型。
MLP即多层感知器,本实施例搭建的MLP神经网络模型的数量为14。
其中,步骤S4包括以下子步骤:
步骤S4-1,搭建14个MLP神经网络模型,其包含的模型参数为随机设置。
多个MLP神经网络模型通过深度学习框架pytorch进行搭建,采用了残差网络结构,引入了残差块之间的快捷连接,提高了训练效率,提高了模型的性能。
图2为本实施例的MLP神经网络模型的结构示意图。
如图2所示,MLP神经网络模型的结构中包括依次设置的输入层、特征提取层、模型判别层和最后的联合判别层。MLP神经网络模型具体包括如下结构:
(1)输入层I,用于输入各个经过预处理的特征数据,其大小与归一化后,为1*4*512。
(2)经过MLP神经网络模型之后会得到一个1*人物个数的矩阵,其中的每个数据代表着待测视频是该类别的概率大小,通常来说可以将概率最大的数据判断为是该类别。
MLP神经网络模型每一层都使用了批量规范化,提高了模型的泛化能力,并使用PRelu作为每层的激活函数。MLP神经网络模型的输入层的尺寸为2048。
步骤S4-2,通过步骤S1、步骤S2以及步骤S3从训练集集的各个音视频资料中提取音频特征、人脸特征、头部特征以及身体特征,并将训练集各个音视频资料的音频特征、人脸特征、头部特征以及身体特征依次输入各个MLP神经网络模型进行模型训练并进行一次迭代。
步骤S4-3,迭代后,采用各个MLP神经网络模型最后一层的模型参数分别计算出损失误差,然后将计算得到的损失误差反向传播,从而更新模型参数。
计算出损失误差时,采用交叉熵损失作为损失函数来计算预测标签与正确标签之间的误差。为了最小化损失,还应用Adam作为优化器,并将小批量的大小设置为512。学习率初始设置为0.001,在每个历元中衰减,衰减系数为0.01。当验证损失在10个周期内未得到改善时,采用早期停止策略。
训练集中的音频特征分批次进行训练时,每次进入网络模型的训练音频批次大小为64,一共迭代训练100次。
步骤S4-4,重复步骤S4-2至步骤S4-3直至达到训练完成条件,得到14个训练后的卷积神经网络模型。
步骤S4-5,根据多个训练后的MLP神经网络模型在模型训练中的准确率对14个MLP神经网络模型进行权值的设定,得到MLP神经网络联合模型。
本实施例中权值设定的具体过程为:根据在模型训练中的准确率对14个训练后的卷积神经网络模型进行评分,对评分高的训练后的卷积神经网络模型赋予更高的权值。
MLP神经网络联合模型通过14个训练后的卷积神经网络模型根据权值进行组合而得。
步骤S5,把音频特征、人脸特征、头部特征以及身体特征输入MLP神经网络联合模型,得到判断的类别结果。
本实施例通过步骤S1、步骤S2以及步骤S3从测试集的各个音视频资料中提取音频特征、人脸特征、头部特征以及身体特征,并将测试集各个音视频资料的音频特征、人脸特征、头部特征以及身体特征依次输入MLP神经网络联合模型中进行判断,MLP神经网络联合模型对测试集的判断准确率为87.5%。
实施例的作用与效果
根据本实施例所涉及的基于音视频信息融合的人员身份识别方法,由于充分利用音视频资料的视频信息以及音频信息,提取并融合音视频资料的音频特征、人脸特征、头部特征以及身体特征,本实施例所涉及的基于音视频信息融合的人员身份识别方法扩充了输入MLP神经网络模型的特征信息,并通过多个MLP神经网络模型加权后进行联合判断的形式,保证了对人员身份识别的精确性和稳定性。
上述实施方式为本发明的优选案例,并不用来限制本发明的保护范围。
Claims (5)
1.一种基于音视频信息融合的人员身份识别方法,其特征在于,包括以下步骤:
步骤S1,读入音视频资料的视频信息以及音频信息,对所述视频信息以及所述音频信息进行预处理,得到预处理视频信息以及预处理音频信息;
步骤S2,将所述预处理音频信息进行处理,提取出音频特征;
步骤S3,将所述预处理视频信息进行处理,提取出针对所述预处理视频信息中人员的人脸特征、头部特征以及身体特征;
步骤S4,搭建多个MLP神经网络模型,并对多个所述MLP神经网络模型进行训练以及权值的设定,得到MLP神经网络联合模型;
步骤S5,把所述音频特征、所述人脸特征、所述头部特征以及所述身体特征输入所述MLP神经网络联合模型,得到判断的类别结果;
其中,步骤S4包括以下子步骤:
步骤S4-1,搭建多个所述MLP神经网络模型,其包含的模型参数为随机设置;
步骤S4-2,把训练集输入多个所述MLP神经网络模型进行模型训练并进行一次迭代;
步骤S4-3,迭代后,采用多个所述MLP神经网络模型最后一层的模型参数分别计算出损失误差,然后将计算得到的损失误差反向传播,从而更新所述模型参数;
步骤S4-4,重复步骤S4-2至步骤S4-3直至达到训练完成条件,得到多个训练后的所述卷积神经网络模型;
步骤S4-5,根据多个训练后的所述MLP神经网络模型在所述模型训练中的准确率对多个所述MLP神经网络模型进行权值的设定,得到MLP神经网络联合模型。
2.根据权利要求1所述的一种基于深度学习的双视野眼底图像融合方法,其特征在于:
其中,在步骤S1中,所述预处理包括删除低帧率、低像素的所述视频信息,以及对视频信息每2秒截取一次、对音频信息每5秒截取一次。
3.根据权利要求1所述的一种基于深度学习的双视野眼底图像融合方法,其特征在于:
其中,步骤S2包括以下子步骤:
步骤S2-1,通过音频格式的转换工具ffmpeg将所述预处理音频信息转化为wav格式的音频,得到wav格式预处理音频信息;
步骤S2-2,按sample rate乘上切割时长得到数据的长度,再按得到的数据长度切割所述wav格式预处理音频信息,得到切割后wav格式预处理音频信息;
步骤S2-3,对所述切割后wav格式预处理音频信息进行梅尔频谱的特征提取,通过对所述切割后wav格式预处理音频信息进行对数计算而得到1*64*200维度的能量谱特征,并对所述能量谱特征进行一阶求导而得到与所述能量谱特征相同维度的一阶求导能量谱特征,对所述能量谱特征进行二阶求导而得到与所述能量谱特征相同维度的二阶求导能量谱特征;
步骤S2-4,将所述能量谱特征、所述一阶导数能量谱特征、所述二阶导数能量谱特征在通道层面上进行融合组成一个3*64*200维度的初步音频特征;
步骤S2-5,将所述初步音频特征输入到声纹特征提取器中提取得到1*512维度的所述音频特征。
4.根据权利要求3所述的一种基于深度学习的双视野眼底图像融合方法,其特征在于:
其中,步骤S2-3中,所述能量谱特征为三维矩阵,这三个维度名称分别为通道、梅尔特征数量、梅尔特征长度。
5.根据权利要求1所述的一种基于深度学习的双视野眼底图像融合方法,其特征在于:
其中,在步骤S3中,所述人脸特征通过arcface的模型进行特征提取,所述头部特征以及所述身体特征通过ReID的模型进行特征提取。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110213548.4A CN112989967A (zh) | 2021-02-25 | 2021-02-25 | 一种基于音视频信息融合的人员身份识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110213548.4A CN112989967A (zh) | 2021-02-25 | 2021-02-25 | 一种基于音视频信息融合的人员身份识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112989967A true CN112989967A (zh) | 2021-06-18 |
Family
ID=76350814
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110213548.4A Pending CN112989967A (zh) | 2021-02-25 | 2021-02-25 | 一种基于音视频信息融合的人员身份识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112989967A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113488043A (zh) * | 2021-06-30 | 2021-10-08 | 上海商汤临港智能科技有限公司 | 乘员说话检测方法及装置、电子设备和存储介质 |
CN114581570A (zh) * | 2022-03-01 | 2022-06-03 | 浙江同花顺智能科技有限公司 | 一种三维脸部动作生成方法和系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190130172A1 (en) * | 2017-10-31 | 2019-05-02 | Baidu Usa Llc | Identity authentication method, terminal device, and computer-readable storage medium |
US20190213398A1 (en) * | 2017-03-07 | 2019-07-11 | Bank Of America Corporation | Performing Image Analysis for Dynamic Personnel Identification Based On A Combination of Biometric Features |
CN110189769A (zh) * | 2019-05-23 | 2019-08-30 | 复钧智能科技(苏州)有限公司 | 基于多个卷积神经网络模型结合的异常声音检测方法 |
CN110674483A (zh) * | 2019-08-14 | 2020-01-10 | 广东工业大学 | 一种基于多模态信息的身份识别方法 |
CN110827832A (zh) * | 2018-08-14 | 2020-02-21 | 上海汇付数据服务有限公司 | 一种视频身份的识别设备及其方法 |
CN111160110A (zh) * | 2019-12-06 | 2020-05-15 | 北京工业大学 | 基于人脸特征和声纹特征识别主播的方法及装置 |
CN111507311A (zh) * | 2020-05-22 | 2020-08-07 | 南京大学 | 一种基于多模态特征融合深度网络的视频人物识别方法 |
WO2021017988A1 (zh) * | 2019-07-31 | 2021-02-04 | 华为技术有限公司 | 一种多模态身份识别方法及设备 |
-
2021
- 2021-02-25 CN CN202110213548.4A patent/CN112989967A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190213398A1 (en) * | 2017-03-07 | 2019-07-11 | Bank Of America Corporation | Performing Image Analysis for Dynamic Personnel Identification Based On A Combination of Biometric Features |
US20190130172A1 (en) * | 2017-10-31 | 2019-05-02 | Baidu Usa Llc | Identity authentication method, terminal device, and computer-readable storage medium |
CN110827832A (zh) * | 2018-08-14 | 2020-02-21 | 上海汇付数据服务有限公司 | 一种视频身份的识别设备及其方法 |
CN110189769A (zh) * | 2019-05-23 | 2019-08-30 | 复钧智能科技(苏州)有限公司 | 基于多个卷积神经网络模型结合的异常声音检测方法 |
WO2021017988A1 (zh) * | 2019-07-31 | 2021-02-04 | 华为技术有限公司 | 一种多模态身份识别方法及设备 |
CN110674483A (zh) * | 2019-08-14 | 2020-01-10 | 广东工业大学 | 一种基于多模态信息的身份识别方法 |
CN111160110A (zh) * | 2019-12-06 | 2020-05-15 | 北京工业大学 | 基于人脸特征和声纹特征识别主播的方法及装置 |
CN111507311A (zh) * | 2020-05-22 | 2020-08-07 | 南京大学 | 一种基于多模态特征融合深度网络的视频人物识别方法 |
Non-Patent Citations (5)
Title |
---|
余忠永 等: "基于 PCA 降维的多特征行人再识别", 《信息通信》 * |
吴迪: "基于音频和视频特征融合的身份识别", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
吴迪: "智能环境下基于视听信息多层级融合的身份识别", 《中国优秀博硕士学位论文全文数据库(博士)信息科技辑》 * |
周震卿 等: "基于textCNN情感预测器的情感监督聊天机器人", 《开发应用》 * |
缪希仁 等: "基于深度卷积神经网络的输电线路防鸟刺部件识别与故障检测", 《电网技术》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113488043A (zh) * | 2021-06-30 | 2021-10-08 | 上海商汤临港智能科技有限公司 | 乘员说话检测方法及装置、电子设备和存储介质 |
CN113488043B (zh) * | 2021-06-30 | 2023-03-24 | 上海商汤临港智能科技有限公司 | 乘员说话检测方法及装置、电子设备和存储介质 |
CN114581570A (zh) * | 2022-03-01 | 2022-06-03 | 浙江同花顺智能科技有限公司 | 一种三维脸部动作生成方法和系统 |
CN114581570B (zh) * | 2022-03-01 | 2024-01-26 | 浙江同花顺智能科技有限公司 | 一种三维脸部动作生成方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109919031B (zh) | 一种基于深度神经网络的人体行为识别方法 | |
US11281945B1 (en) | Multimodal dimensional emotion recognition method | |
CN111209883B (zh) | 一种基于多源运动特征融合的时序自适应视频分类方法 | |
CN108537119B (zh) | 一种小样本视频识别方法 | |
CN108509880A (zh) | 一种视频人物行为语义识别方法 | |
CN110516696A (zh) | 一种基于语音和表情的自适应权重双模态融合情感识别方法 | |
CN112989967A (zh) | 一种基于音视频信息融合的人员身份识别方法 | |
CN111753827A (zh) | 基于语义强化编码器解码器框架的场景文字识别方法及系统 | |
CN110659573B (zh) | 一种人脸识别方法、装置、电子设备及存储介质 | |
CN103902964B (zh) | 一种人脸识别方法 | |
CN113496217A (zh) | 视频图像序列中人脸微表情识别方法 | |
CN115713715B (zh) | 一种基于深度学习的人体行为识别方法及识别系统 | |
CN109685724A (zh) | 一种基于深度学习的对称感知人脸图像补全方法 | |
CN110991290A (zh) | 基于语义指导与记忆机制的视频描述方法 | |
CN112163488B (zh) | 一种视频虚假人脸检测方法及电子装置 | |
CN108550173A (zh) | 基于语音生成口型视频的方法 | |
CN111368142A (zh) | 一种基于生成对抗网络的视频密集事件描述方法 | |
CN111401637A (zh) | 融合用户行为和表情数据的用户体验质量预测方法 | |
CN110852271A (zh) | 一种基于峰值帧和深度森林的微表情识别方法 | |
CN112200124B (zh) | 融合多任务软生物特征的深度网络掌纹识别方法及系统 | |
CN112163494A (zh) | 一种视频虚假人脸检测方法及电子装置 | |
Braga et al. | Best of both worlds: Multi-task audio-visual automatic speech recognition and active speaker detection | |
CN112163493A (zh) | 一种视频虚假人脸检测方法及电子装置 | |
CN115905977A (zh) | 家庭同胞互动过程中负面情绪的监督系统及方法 | |
CN116310937A (zh) | 一种深度伪造视频检测方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210618 |