CN110222719B - 一种基于多帧音视频融合网络的人物识别方法及系统 - Google Patents
一种基于多帧音视频融合网络的人物识别方法及系统 Download PDFInfo
- Publication number
- CN110222719B CN110222719B CN201910388158.3A CN201910388158A CN110222719B CN 110222719 B CN110222719 B CN 110222719B CN 201910388158 A CN201910388158 A CN 201910388158A CN 110222719 B CN110222719 B CN 110222719B
- Authority
- CN
- China
- Prior art keywords
- frame
- fusion
- video
- features
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 167
- 238000000034 method Methods 0.000 title claims abstract description 21
- 230000000007 visual effect Effects 0.000 claims abstract description 54
- 238000007499 fusion processing Methods 0.000 claims abstract description 10
- 238000013528 artificial neural network Methods 0.000 claims abstract description 6
- 230000000306 recurrent effect Effects 0.000 claims abstract description 6
- 230000000694 effects Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000012544 monitoring process Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Image Analysis (AREA)
- Collating Specific Patterns (AREA)
Abstract
本发明提出一种基于多帧音视频融合网络的人物识别方法及系统,其特征在于,包括:视觉特征融合步骤,解码待人物识别的视频,得到该视频的连续K帧,提取该连续K帧中每一帧的人脸特征,对所有该人脸特征进行加权融合得到多帧视觉特征,K为正整数;声纹特征融合步骤,提取该连续K帧中每一帧的声纹特征,使用时间递归神经网络融合所有该声纹特征,得到多帧声纹特征;音视频特征融合步骤,使用全连接层对该多帧视觉特征和该多帧声纹特征进行融合,并用分类损失约束融合过程,得到多帧音视频融合特征,根据该多帧音视频融合特征进行人物识别。
Description
技术领域
本发明涉及人物识别领域,并特别涉及一种基于多帧音视频融合网络的人物识别方法及系统。
背景技术
视频中的人物识别主要利用该人的内在或者外在属性来确定其身份的过程。目前常用的做法主要是利用人体的生物特性,比如说人脸、声纹等,来识别人物身份。与之对应的算法有人脸识别算法、声纹识别算法等。主流的人脸识别算法使用卷积神经网络从大规模的人脸数据集中,学习从原始人脸图像到身份不变的特征的映射。研究人员往往精心设计不同的损失函数,如二元组损失、三元组损失、中心损失,来约束从图像到特征的映射过程。最小化上述的损失函数,获得最优/局部最优的解,就可以获得人脸特征的提取器。声纹识别主要利用视频中说话人的语音信息,提取声纹特征,来确定人物身份。部分研究人员采用音视频融合的方式对人物识别算法做出改进。该融合算法首先使用人脸特征和短时的声纹特征进行融合,再用融合后特征来区分人物身份。与单一的人脸特征和声纹特征相比,该融合特征充分挖掘了多个模态之间的共有信息,能够有效提高识别准确率。
人脸识别算法相对成熟,识别准确率较高。但是在低分辨率、光照变化、姿态变化、遮挡、表情变化、编解码损失、距离镜头较远等情形下区分能力下降严重。语音信号相对稳定,但声纹特征的区分能力有限。目前基于音视频融合的人物识别算法能够充分利用人脸特征和声纹特征的信息来确定人物身份,但是该融合算法未能解决视觉特征在低质情形下区分性下降的问题。
发明人在进行网络音视频监控领域上人物识别研究时,发现现有的技术以下缺陷:其一是基于单模态的算法难以解决复杂的网络音视频监控的实际问题,人脸识别算法在低质图像下退化严重,声纹识别算法识别精度也有限;其二,在网络音视频监控领域,往往存在大量难以识别的画面。直接从这些识别困难的画面中提取人脸特征,会导致特征的区分能力下降,进而影响后续融合特征的效果。发明人经过一系列分析研究后发现,解决该项缺陷可以通过多帧融合的算法来实现。我们分别提取连续帧的人脸特征,对多帧人脸特征进行加权融合得到更具鲁棒性和区分性的视觉特征,再与对应音频特征进行融合。这样能够有效地避免难以识别画面对整个融合过程的影响。
发明内容
本发明的目的是解决网络音视频监控领域上,难以识别的画面会降低音视频融合特征的可区分性,提出了一种基于多帧的音视频融合的人物识别算法。
具体来说本发明提出了一种基于多帧音视频融合网络的人物识别方法,其中包括:
视觉特征融合步骤,解码待人物识别的视频,得到该视频的连续K帧,提取该连续K帧中每一帧的人脸特征,对所有该人脸特征进行加权融合得到多帧视觉特征,K为正整数;
声纹特征融合步骤,提取该连续K帧中每一帧的声纹特征,使用时间递归神经网络融合所有该声纹特征,得到多帧声纹特征;
音视频特征融合步骤,使用全连接层对该多帧视觉特征和该多帧声纹特征进行融合,并用分类损失约束融合过程,得到多帧音视频融合特征,根据该多帧音视频融合特征进行人物识别。
所述的基于多帧音视频融合网络的人物识别方法,其中该视觉特征融合步骤包括:
提取该连续K帧的人脸特征{f1,f2,...,fK},使用基于注意力机制的多帧视觉特征融合算法,得到该连续K帧中每帧对应的权重{a1,a2,...,aK},对该连续K帧中每一帧的人脸特征进行加权融合,得到该多帧视觉特征r;
所述的基于多帧音视频融合网络的人物识别方法,其中使用MFCC特征作为单帧声频的该声纹特征。
所述的基于多帧音视频融合网络的人物识别方法,其中该视觉特征融合步骤包括:
在识别第N至第N+K-1帧的时候,将该连续K帧中人脸图像的人脸特征建立一个长度为K的队列,当识别第N帧的时候,将第N帧的人脸特征放入该队列的队尾,将队首的人脸特征移出队列,并将该队列中的人脸特征进行融合。
所述的基于多帧音视频融合网络的人物识别方法,其中该音视频特征融合步骤包括:
将该多帧音视频融合特征输入人物识别分类器,以得到该待识别人物的身份信息;或
获取已标注身份信息的多个视频,并通过该视觉特征融合步骤、该声纹特征融合步骤和该音视频特征融合步骤,得到该多个视频中每一个人物的多帧音视频融合特征,以构建包含多帧音视频融合特征和其对应身份信息的数据库,对于测试人物,以该测试人物的多帧音视频融合特征检索该数据库,输出该数据库中与该测试人物的多帧音视频融合特征相似度最高的身份信息作为该测试人物的身份信息。
本发明还提出了一种基于多帧音视频融合网络的人物识别系统,其中包括:
视觉特征融合模块,解码待人物识别的视频,得到该视频的连续K帧,提取该连续K帧中每一帧的人脸特征,对所有该人脸特征进行加权融合得到多帧视觉特征,K为正整数;
声纹特征融合模块,提取该连续K帧中每一帧的声纹特征,使用时间递归神经网络融合所有该声纹特征,得到多帧声纹特征;
音视频特征融合模块,使用全连接层对该多帧视觉特征和该多帧声纹特征进行融合,并用分类损失约束融合过程,得到多帧音视频融合特征,根据该多帧音视频融合特征进行人物识别。
所述的基于多帧音视频融合网络的人物识别系统,其中该视觉特征融合模块包括:
提取该连续K帧的人脸特征{f1,f2,...,fK},使用基于注意力机制的多帧视觉特征融合算法,得到该连续K帧中每帧对应的权重{a1,a2,...,aK},对该连续K帧中每一帧的人脸特征进行加权融合,得到该多帧视觉特征r;
所述的基于多帧音视频融合网络的人物识别系统,其中使用MFCC特征作为单帧声频的该声纹特征。
所述的基于多帧音视频融合网络的人物识别系统,其中该视觉特征融合模块包括:
在识别第N至第N+K-1帧的时候,将该连续K帧中人脸图像的人脸特征建立一个长度为K的队列,当识别第N帧的时候,将第N帧的人脸特征放入该队列的队尾,将队首的人脸特征移出队列,并将该队列中的人脸特征进行融合。
所述的基于多帧音视频融合网络的人物识别系统,其中该音视频特征融合模块包括:
将该多帧音视频融合特征输入人物识别分类器,以得到该待识别人物的身份信息;或
获取已标注身份信息的多个视频,并通过该视觉特征融合模块、该声纹特征融合模块和该音视频特征融合模块,得到该多个视频中每一个人物的多帧音视频融合特征,以构建包含多帧音视频融合特征和其对应身份信息的数据库,对于测试人物,以该测试人物的多帧音视频融合特征检索该数据库,输出该数据库中与该测试人物的多帧音视频融合特征相似度最高的身份信息作为该测试人物的身份信息。
由以上方案可知,本发明的优点在于:
1、多帧的音视频融合算法;技术效果:能够充分挖掘网络视频流中的视频和音频信息,并且能够有效避免难以识别的帧对融合过程的影响。
2、多帧音视频融合的应用优化;技术效果:使多帧的音视频融合算法的时间复杂度近似于单帧的音视频融合算法的时间复杂度。
在公开的Hu-Friends音视频数据集(简称Hu-Friends数据集)和收集的低质画面的音视频数据集(简称低质数据集)上进行实验,同时与目前领域内期刊会议公开发表的算法进行比较,均取得了优异的识别效果,具体请见图1和图2。
附图说明
图1、图2均为本发明的技术效果图;
图3为本发明多帧音视频融合网络的整体结构图;
图4为本发明多帧音视频融合网络在实际应用中优化过程图。
具体实施方式
近些年,视频占据网络流量的绝大部分,并且占比持续增大。海量视频中不免掺杂着非法视频,并且这些视频传播速度快,影响范围广,危害性极大。因此对视频内容智能分析,防止非法视频在网络泛滥成为亟须解决的问题。非法视频是一个复杂的概念,对它进行准确识别不仅需要分析底层的视觉特征,还需要理解高层的语义关联,是一项极具挑战的任务。而人作为视频内容的主体,特定人物的准确识能够有效辅助非法视频智能分析。如图1所示,多帧音视频融合算法主要分为三个阶段:多帧视觉特征的融合,多帧声纹特征融合,多帧音视频特征融合。
多帧视觉特征融合:假设对视频进行解码,得到连续的K帧,提取K帧的人脸特征为{f1,f2,...,fK}。本发明采用了基于注意力机制的多帧视觉特征融合算法,学习每帧对应的权重{a1,a2,...,aK}。其中fi区分性越高,对应的权重ai越大。对多帧特征进行加权融合就可以得到更具有区分性的人脸特征
多帧声纹特征融合:本发明使用了75维的MFCC(Mel-frequency cepstralcoefficients)特征(包括25维的一阶差分,和25维的二阶差分)作为单帧声频的声纹特征,将多帧的声纹特征使用双层的LSTM进行融合,得到融合的特征g。
多帧音视频特征融合:本发明使用多层的全连接层对人脸特征和声纹特征进行融合,用分类损失约束融合过程,使用梯度下降算法,学习融合的过程。在得到融合特征以后,可以通过以下两种方法确定人物身份:第一,收集待识别人物的人脸图片和声音片段,提取音视频融合特征,训练得到人物识别的分类器。对于测试人物,首先使用同样算法提取音视频融合特征,再根据上述分类器的预测结果确定人物身份;第二,收集待识别人物的人脸图片和声音片段,提取音视频融合特征,建立一个数据库。对于测试人物,使用同样特征提取算法提取音视频融合特征,然后计算该特征与数据库中的特征的距离(如欧式距离,余弦相似度等)。若最小的特征距离小于指定的阈值(阈值取决于特征,距离计算方式,待识别图像等,一般手动设定),则认为特征之间相似度较高,那么待识别人物与数据库内的特征最小距离的人物同属一人。
多帧融合的应用优化如图4所示。多帧融合过程中,需要分别提取K帧的人脸特征,那么总的特征时间将会变为单帧特征时间的K倍,会降低整个算法的处理时间。分析发现,直接进行多帧融合过程中,每帧都会提取K次相同的特征,存在大量的计算冗余。例如在识别第N至第N+K-1帧的时候,都会提取第N帧的特征进行融合。本发明采用操作系统流水线的策略,首先将连续帧中人脸图像的特征建立一个长度为K的队列,当识别第N帧的时候,将第N帧的人脸特征放入队尾,将队首的人脸的特征移出队列,然后将队列中的人脸特征进行融合。假设t1为提取单帧特征的时间,t2为多帧融合特征的提取时间,假设每次融合K帧人脸特征。实际应用中,融合的时间相对于单帧特征提取时间可以忽略不计。那么改进后多帧融合算法能够将原始的融合算法速度提高将近K倍,与单帧的音视频融合算法时间复杂度近似。
以下为与上述方法实施例对应的系统实施例,本实施方式可与上述实施方式互相配合实施。上述实施方式中提到的相关技术细节在本实施方式中依然有效,为了减少重复,这里不再赘述。相应地,本实施方式中提到的相关技术细节也可应用在上述实施方式中。
本发明还提出了一种基于多帧音视频融合网络的人物识别系统,其中包括:
视觉特征融合模块,解码待人物识别的视频,得到该视频的连续K帧,提取该连续K帧中每一帧的人脸特征,对所有该人脸特征进行加权融合得到多帧视觉特征,K为正整数;
声纹特征融合模块,提取该连续K帧中每一帧的声纹特征,使用时间递归神经网络融合所有该声纹特征,得到多帧声纹特征;
音视频特征融合模块,使用全连接层对该多帧视觉特征和该多帧声纹特征进行融合,并用分类损失约束融合过程,得到多帧音视频融合特征,根据该多帧音视频融合特征进行人物识别。
所述的基于多帧音视频融合网络的人物识别系统,其中该视觉特征融合模块包括:
提取该连续K帧的人脸特征{f1,f2,...,fK},使用基于注意力机制的多帧视觉特征融合算法,得到该连续K帧中每帧对应的权重{a1,a2,...,aK},对该连续K帧中每一帧的人脸特征进行加权融合,得到该多帧视觉特征r;
所述的基于多帧音视频融合网络的人物识别系统,其中使用MFCC特征作为单帧声频的该声纹特征。
所述的基于多帧音视频融合网络的人物识别系统,其中该视觉特征融合模块包括:
在识别第N至第N+K-1帧的时候,将该连续K帧中人脸图像的人脸特征建立一个长度为K的队列,当识别第N帧的时候,将第N帧的人脸特征放入该队列的队尾,将队首的人脸特征移出队列,并将该队列中的人脸特征进行融合。
所述的基于多帧音视频融合网络的人物识别系统,其中该音视频特征融合模块包括:
将该多帧音视频融合特征输入人物识别分类器,以得到该待识别人物的身份信息;或
获取已标注身份信息的多个视频,并通过该视觉特征融合模块、该声纹特征融合模块和该音视频特征融合模块,得到该多个视频中每一个人物的多帧音视频融合特征,以构建包含多帧音视频融合特征和其对应身份信息的数据库,对于测试人物,以该测试人物的多帧音视频融合特征检索该数据库,输出该数据库中与该测试人物的多帧音视频融合特征相似度最高的身份信息作为该测试人物的身份信息。
Claims (8)
1.一种基于多帧音视频融合网络的人物识别方法,其特征在于,包括:
视觉特征融合步骤,解码待人物识别的视频,得到该视频的连续K帧,提取该连续K帧中每一帧的人脸特征,对所有该人脸特征进行加权融合得到多帧视觉特征,K为正整数;
声纹特征融合步骤,提取该连续K帧中每一帧的声纹特征,使用时间递归神经网络融合所有该声纹特征,得到多帧声纹特征;
音视频特征融合步骤,使用全连接层对该多帧视觉特征和该多帧声纹特征进行融合,并用分类损失约束融合过程,得到多帧音视频融合特征,根据该多帧音视频融合特征进行人物识别;
该视觉特征融合步骤包括:
在识别第N至第N+K-1帧的时候,将该连续K帧中人脸图像的人脸特征建立一个长度为K的队列,当识别第N帧的时候,将第N帧的人脸特征放入该队列的队尾,将队首的人脸特征移出队列,并将该队列中的人脸特征进行融合。
3.如权利要求2所述的基于多帧音视频融合网络的人物识别方法,其特征在于,使用MFCC特征作为单帧声频的该声纹特征。
4.如权利要求1所述的基于多帧音视频融合网络的人物识别方法,其特征在于,该音视频特征融合步骤包括:
将该多帧音视频融合特征输入人物识别分类器,以得到待识别人物的身份信息;或
获取已标注身份信息的多个视频,并通过该视觉特征融合步骤、该声纹特征融合步骤和该音视频特征融合步骤,得到该多个视频中每一个人物的多帧音视频融合特征,以构建包含多帧音视频融合特征和其对应身份信息的数据库,对于测试人物,以该测试人物的多帧音视频融合特征检索该数据库,输出该数据库中与该测试人物的多帧音视频融合特征相似度最高的身份信息作为该测试人物的身份信息。
5.一种基于多帧音视频融合网络的人物识别系统,其特征在于,包括:
视觉特征融合模块,解码待人物识别的视频,得到该视频的连续K帧,提取该连续K帧中每一帧的人脸特征,对所有该人脸特征进行加权融合得到多帧视觉特征,K为正整数;
声纹特征融合模块,提取该连续K帧中每一帧的声纹特征,使用时间递归神经网络融合所有该声纹特征,得到多帧声纹特征;
音视频特征融合模块,使用全连接层对该多帧视觉特征和该多帧声纹特征进行融合,并用分类损失约束融合过程,得到多帧音视频融合特征,根据该多帧音视频融合特征进行人物识别;
该视觉特征融合模块包括:
在识别第N至第N+K-1帧的时候,将该连续K帧中人脸图像的人脸特征建立一个长度为K的队列,当识别第N帧的时候,将第N帧的人脸特征放入该队列的队尾,将队首的人脸特征移出队列,并将该队列中的人脸特征进行融合。
7.如权利要求6所述的基于多帧音视频融合网络的人物识别系统,其特征在于,使用MFCC特征作为单帧声频的该声纹特征。
8.如权利要求5所述的基于多帧音视频融合网络的人物识别系统,其特征在于,该音视频特征融合模块包括:
将该多帧音视频融合特征输入人物识别分类器,以得到待识别人物的身份信息;或
获取已标注身份信息的多个视频,并通过该视觉特征融合模块、该声纹特征融合模块和该音视频特征融合模块,得到该多个视频中每一个人物的多帧音视频融合特征,以构建包含多帧音视频融合特征和其对应身份信息的数据库,对于测试人物,以该测试人物的多帧音视频融合特征检索该数据库,输出该数据库中与该测试人物的多帧音视频融合特征相似度最高的身份信息作为该测试人物的身份信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910388158.3A CN110222719B (zh) | 2019-05-10 | 2019-05-10 | 一种基于多帧音视频融合网络的人物识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910388158.3A CN110222719B (zh) | 2019-05-10 | 2019-05-10 | 一种基于多帧音视频融合网络的人物识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110222719A CN110222719A (zh) | 2019-09-10 |
CN110222719B true CN110222719B (zh) | 2021-09-24 |
Family
ID=67820668
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910388158.3A Active CN110222719B (zh) | 2019-05-10 | 2019-05-10 | 一种基于多帧音视频融合网络的人物识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110222719B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112397089B (zh) * | 2019-08-19 | 2023-07-04 | 中国科学院自动化研究所 | 语音发出者身份识别方法、装置、计算机设备及存储介质 |
CN110674350B (zh) * | 2019-09-23 | 2022-02-08 | 网易(杭州)网络有限公司 | 视频人物检索方法、介质、装置和计算设备 |
CN110909613B (zh) * | 2019-10-28 | 2024-05-31 | Oppo广东移动通信有限公司 | 视频人物识别方法、装置、存储介质与电子设备 |
CN110796081B (zh) * | 2019-10-29 | 2023-07-21 | 深圳龙岗智能视听研究院 | 一种基于关系图分析的群体行为识别方法 |
CN113627218A (zh) * | 2020-05-08 | 2021-11-09 | 北京邮电大学 | 基于视频数据的人物识别方法及装置 |
CN111681681A (zh) * | 2020-05-22 | 2020-09-18 | 深圳壹账通智能科技有限公司 | 语音情绪识别方法、装置、电子设备及存储介质 |
CN112820297A (zh) * | 2020-12-30 | 2021-05-18 | 平安普惠企业管理有限公司 | 声纹识别方法、装置、计算机设备及存储介质 |
CN112947484A (zh) * | 2021-03-31 | 2021-06-11 | 哈尔滨工业大学(深圳) | 一种密集行人环境下移动机器人的视觉导航方法及装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7472063B2 (en) * | 2002-12-19 | 2008-12-30 | Intel Corporation | Audio-visual feature fusion and support vector machine useful for continuous speech recognition |
CN102982634A (zh) * | 2012-11-13 | 2013-03-20 | 上海交通大学 | 音视频融合的人员入侵检测方法 |
CN105469253A (zh) * | 2015-11-19 | 2016-04-06 | 桂林航天工业学院 | 基于声纹与面部特征融合加密的手机nfc安全支付方法 |
CN105989000A (zh) * | 2015-01-27 | 2016-10-05 | 腾讯科技(深圳)有限公司 | 音视频拷贝检测方法及装置 |
CN107958244A (zh) * | 2018-01-12 | 2018-04-24 | 成都视观天下科技有限公司 | 一种基于视频多帧人脸特征融合的人脸识别方法及装置 |
CN108460334A (zh) * | 2018-01-23 | 2018-08-28 | 北京易智能科技有限公司 | 一种基于声纹和人脸图像特征融合的年龄预测系统及方法 |
CN108921002A (zh) * | 2018-04-23 | 2018-11-30 | 中国科学院自动化研究所 | 基于多线索融合的暴恐音视频识别方法及装置 |
CN109446990A (zh) * | 2018-10-30 | 2019-03-08 | 北京字节跳动网络技术有限公司 | 用于生成信息的方法和装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101470897B (zh) * | 2007-12-26 | 2011-04-20 | 中国科学院自动化研究所 | 基于音视频融合策略的敏感影片检测方法 |
CN104376250A (zh) * | 2014-12-03 | 2015-02-25 | 优化科技(苏州)有限公司 | 基于音型像特征的真人活体身份验证方法 |
CN105913022A (zh) * | 2016-04-11 | 2016-08-31 | 深圳市飞瑞斯科技有限公司 | 一种基于视频分析的手持式打电话状态判别方法及系统 |
CN106204440A (zh) * | 2016-06-29 | 2016-12-07 | 北京互信互通信息技术有限公司 | 一种多帧超分辨图像重建方法及系统 |
-
2019
- 2019-05-10 CN CN201910388158.3A patent/CN110222719B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7472063B2 (en) * | 2002-12-19 | 2008-12-30 | Intel Corporation | Audio-visual feature fusion and support vector machine useful for continuous speech recognition |
CN102982634A (zh) * | 2012-11-13 | 2013-03-20 | 上海交通大学 | 音视频融合的人员入侵检测方法 |
CN105989000A (zh) * | 2015-01-27 | 2016-10-05 | 腾讯科技(深圳)有限公司 | 音视频拷贝检测方法及装置 |
CN105469253A (zh) * | 2015-11-19 | 2016-04-06 | 桂林航天工业学院 | 基于声纹与面部特征融合加密的手机nfc安全支付方法 |
CN107958244A (zh) * | 2018-01-12 | 2018-04-24 | 成都视观天下科技有限公司 | 一种基于视频多帧人脸特征融合的人脸识别方法及装置 |
CN108460334A (zh) * | 2018-01-23 | 2018-08-28 | 北京易智能科技有限公司 | 一种基于声纹和人脸图像特征融合的年龄预测系统及方法 |
CN108921002A (zh) * | 2018-04-23 | 2018-11-30 | 中国科学院自动化研究所 | 基于多线索融合的暴恐音视频识别方法及装置 |
CN109446990A (zh) * | 2018-10-30 | 2019-03-08 | 北京字节跳动网络技术有限公司 | 用于生成信息的方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110222719A (zh) | 2019-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110222719B (zh) | 一种基于多帧音视频融合网络的人物识别方法及系统 | |
Yang et al. | LRW-1000: A naturally-distributed large-scale benchmark for lip reading in the wild | |
CN105976809B (zh) | 基于语音和面部表情的双模态情感融合的识别方法及系统 | |
Zhou et al. | Modality attention for end-to-end audio-visual speech recognition | |
CN112668559B (zh) | 一种多模态信息融合的短视频情感判定装置及方法 | |
US20220245945A1 (en) | Video anomaly detection method based on human-machine cooperation | |
CN101719144B (zh) | 一种联合字幕和视频图像信息进行场景分割和索引的方法 | |
CN108804453B (zh) | 一种视音频识别方法及装置 | |
CN111524527B (zh) | 话者分离方法、装置、电子设备和存储介质 | |
CN111429887B (zh) | 基于端到端的语音关键词识别方法、装置以及设备 | |
CN111353395A (zh) | 一种基于长短期记忆网络的换脸视频检测方法 | |
CN110890102A (zh) | 一种基于rnn声纹识别的发动机缺陷检测算法 | |
CN112183334B (zh) | 一种基于多模态特征融合的视频深度关系分析方法 | |
Jiang et al. | An Improved Speech Segmentation and Clustering Algorithm Based on SOM and K‐Means | |
CN112735385B (zh) | 语音端点检测方法、装置、计算机设备及存储介质 | |
CN113850162A (zh) | 一种视频审核方法、装置及电子设备 | |
CN111986699B (zh) | 基于全卷积网络的声音事件检测方法 | |
CN106910495A (zh) | 一种应用于异常声音检测的音频分类系统和方法 | |
KR20050082757A (ko) | 앵커 샷 검출 방법 및 장치 | |
CN111488487A (zh) | 一种面向全媒体数据的广告检测方法及检测系统 | |
CN113488063A (zh) | 一种基于混合特征及编码解码的音频分离方法 | |
CN115565533A (zh) | 语音识别方法、装置、设备及存储介质 | |
Liu et al. | MSDWild: Multi-modal Speaker Diarization Dataset in the Wild. | |
Zuo et al. | Recognition of blue movies by fusion of audio and video | |
CN118133198A (zh) | 监控场景下异常事件的实时检测方法与系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |