CN109359636A - 视频分类方法、装置及服务器 - Google Patents

视频分类方法、装置及服务器 Download PDF

Info

Publication number
CN109359636A
CN109359636A CN201811535837.0A CN201811535837A CN109359636A CN 109359636 A CN109359636 A CN 109359636A CN 201811535837 A CN201811535837 A CN 201811535837A CN 109359636 A CN109359636 A CN 109359636A
Authority
CN
China
Prior art keywords
classification
video
result
image
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811535837.0A
Other languages
English (en)
Other versions
CN109359636B (zh
Inventor
屈冰欣
郑茂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201811535837.0A priority Critical patent/CN109359636B/zh
Priority to CN202010207957.9A priority patent/CN111428088B/zh
Publication of CN109359636A publication Critical patent/CN109359636A/zh
Priority to PCT/CN2019/116660 priority patent/WO2020119350A1/zh
Priority to US17/192,580 priority patent/US20210192220A1/en
Application granted granted Critical
Publication of CN109359636B publication Critical patent/CN109359636B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/75Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • G06F18/256Fusion techniques of classification results, e.g. of results related to same input data of results relating to different input data, e.g. multimodal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • G06V10/811Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data the classifiers operating on different input data, e.g. multi-modal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/635Overlay text, e.g. embedded captions in a TV program
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Library & Information Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Signal Processing (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种视频分类方法、装置及服务器。该方法包括:获取目标视频;通过第一分类模型对目标视频中的图像帧进行分类,得到图像分类结果,第一分类模型用于基于图像帧的图像特征进行分类;通过第二分类模型对目标视频中的音频进行分类,得到音频分类结果,第二分类模型用于基于音频的音频特征进行分类;通过第三分类模型对目标视频对应的文本描述信息进行分类,得到文本分类结果,第三分类模型用于基于文本描述信息的文本特征进行分类;根据图像分类结果、音频分类结果和文本分类结果,确定目标视频的目标分类结果。本申请中,综合图像特征、音频特征以及文本特征进行分类,充分考虑视频不同维度的特征,提高了视频分类的准确性。

Description

视频分类方法、装置及服务器
技术领域
本申请实施例涉及视频分类领域,特别涉及一种视频分类方法、装置及服务器。
背景技术
推荐功能是视频类应用程序中常见的功能,用于向用户推荐其感兴趣的视频,而推荐功能的优劣与视频分类的准确性密切相关。
相关技术中,采用基于图像识别的方式对视频进行分类。在一种基于图像识别的视频分类方法中,通过抽取视频中的图像帧,并提取图像帧的图像特征,从而按照图像帧的时序,将图像特征输入长短期记忆(Long Short-Term Memory,LSTM)网络,进而根据LSTM网络的输出确定视频分类。
然而,基于图像特征进行视频分类时,由于特征维度单一,导致视频分类效果不佳。
发明内容
本申请实施例提供了一种视频分类方法、装置及服务器,可以解决基于图像特征进行视频分类时,由于特征维度单一,导致视频分类效果不佳。所述技术方案如下:
一方面,提供了一种视频分类方法,所述方法包括:
获取目标视频;
通过第一分类模型对所述目标视频中的图像帧进行分类,得到图像分类结果,所述第一分类模型用于基于所述图像帧的图像特征进行分类;
通过第二分类模型对所述目标视频中的音频进行分类,得到音频分类结果,所述第二分类模型用于基于所述音频的音频特征进行分类;
通过第三分类模型对所述目标视频对应的文本描述信息进行分类,得到文本分类结果,所述第三分类模型用于基于所述文本描述信息的文本特征进行分类;
根据所述图像分类结果、所述音频分类结果和所述文本分类结果,确定所述目标视频的目标分类结果。
另一方面,提供了一种视频分类装置,其特征在于,所述装置包括:
视频获取模块,用于获取目标视频;
第一分类模块,用于通过第一分类模型对所述目标视频中的图像帧进行分类,得到图像分类结果,所述第一分类模型用于基于所述图像帧的图像特征进行分类;
第二分类模块,用于通过第二分类模型对所述目标视频中的音频进行分类,得到音频分类结果,所述第二分类模型用于基于所述音频的音频特征进行分类;
第三分类模块,用于通过第三分类模型对所述目标视频对应的文本描述信息进行分类,得到文本分类结果,所述第三分类模型用于基于所述文本描述信息的文本特征进行分类;
目标分类模块,用于根据所述图像分类结果、所述音频分类结果和所述文本分类结果,确定所述目标视频的目标分类结果。
另一方面,提供了一种服务器,所述服务器包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器执行以实现如上述方面所述的视频分类装置。
另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器执行以实现如上述方面所述的视频分类方法。
本申请实施例提供的技术方案带来的有益效果至少包括:
获取到待分类的目标视频后,分别通过第一分类模型对图像帧进行分类得到图像分类结果,通过第二分类模型对音频进行分类得到音频分类结果,通过第三分类模型对文本描述信息进行分类得到文本分类结果,从而根据图像分类结果、音频分类结果和文本分类结果,确定出目标视频的目标分类结果;相较于相关技术中仅基于视频的图像特征进行视频分类,本申请实施例中综合视频的图像特征、音频特征以及文本特征进行分类,充分考虑视频不同维度的特征,进而提高了视频分类的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本申请一个实施例提供的实施环境的示意图;
图2是服务器进行视频推荐的流程示意图;
图3示出了本申请一个实施例提供的视频分类方法的流程图;
图4是视频分类过程的原理示意图;
图5是基于图像帧进行视频分类过程的流程图;
图6是初始残差网络及其Stem层的结构示意图;
图7是一个示意性实施例提供的目标检测网络的结构示意图;
图8是基于音频进行视频分类过程的流程图;
图9是基于文本描述信息进行视频分类过程的流程图;
图10是通过Bi-LSTM和注意力机制进行视频分类过程的实施示意图;
图11示出了本申请一个实施例提供的视频分类装置的框图;
图12示出了本申请一个实施例提供的服务器的框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
为了方便理解,下面对本申请实施例中设计的名词进行说明。
卷积层:由卷积核的权值和偏置项构成。在一个卷积层中,上一层的输出(又称特征映射图)被一个卷积核进行卷积,并通过一个激活函数得到输出的特征映射图。其中,特征图可以表示为:
其中,表示连接第l层的i单元和l+1层的j单元的权值参数,是连接第l层偏置单元和第l+1层的j单元对应的参数,FMl是第l层的特征映射图集合,表示第l层的第i个特征映射图。
池化(pooling)层:用于进行降采样操作,常用的池化方式包括最大池化、求和池化和平均池化。
梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients,MFCC):用于表示语音信号的能量在不同频率范围的分布情况。计算MFCC时通常需要对音频进行预加重、分帧、加窗、快速傅里叶变换(Fast Fourier Transformation,FFT)、梅尔滤波器组以及离散余弦变换(Discrete Cosine Transform,DCT)处理。
长短期记忆网络(Long-Short Term Memory,LSTM):一种时间递归神经网络,适合于处理和预测时间序列中间隔和延迟非常长的重要事件。双向长短期记忆网络(Bi Long-Short Term Memory,Bi-LSTM)则是在LSTM的基础上实现双向记忆的网络(LSTM仅正向记忆,而Bi-LSTM可以实现正向和反向记忆)。
请参考图1,其示出了本申请一个实施例提供的实施环境的示意图。该实施环境中包括终端120和服务器140。
终端120是具有视频播放功能的电子设备,该电子设备可以是智能手机、平板电脑或个人计算机等等。图1中以终端120是智能手机为例进行说明。
本申请实施例中,终端120的视频播放功能可以由第三方应用程序实现,该第三方应用程序可以是视频播放应用程序、浏览器应用程序、新闻阅读类应用程序、短视频应用程序等等,本申请实施例对此不做限定。
除了具备视频播放功能外,可选的,终端120还具有视频上传功能,借助视频上传功能,终端120可以将录制的视频,或者,将本地存储的视频上传至服务器140。并且,服务器140可以将接收到的视频分享推送给其他终端,供其他终端进行播放。
终端120与服务器140之间通过有线或无线网络相连。
服务器140是一台服务器、若干台服务器构成的服务器集群或云计算中心。本申请实施例中,服务器140可以是终端120中第三方应用程序的后台服务器,用于向终端120推荐其使用者感兴趣的视频。
本申请实施例中的服务器140具有视频分类功能,通过视频分类功能,服务器140按照预定的分类类别,将视频(可以是服务器从网路中抓取的视频,也可以是终端120上传的视频)划分至其中至少一个类别中,后续即基于各个视频对应的类别进行视频推荐。
可选的,服务器140还具有生成用户画像的功能。其中,该用户画像根据用户的历史视频观看记录生成,用于描述用户的视频观看喜好。后续进行视频推荐时,服务器140根据视频对应的类别以及用户画像进行视频推荐。
可选地,上述的无线网络或有线网络使用标准通信技术和/或协议。网络通常为因特网、但也可以是任何网络,包括但不限于局域网(Local Area Network,LAN)、城域网(Metropolitan Area Network,MAN)、广域网(Wide Area Network,WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合)。在一些实施例中,使用包括超文本标记语言(Hyper Text Mark-up Language,HTML)、可扩展标记语言(Extensible MarkupLanguage,XML)等的技术和/或格式来代表通过网络交换的数据。此外还可以使用诸如安全套接字层(Secure Socket Layer,SSL)、传输层安全(Transport Layer Security,TLS)、虚拟专用网络(Virtual Private Network,VPN)、网际协议安全(Internet ProtocolSecurity,IPsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中,还可以使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。
本申请各个实施例提供的视频分类方法即由图1中的服务器140执行。
本申请实施例提供的视频分类方法可用于视频推荐场景或用户画像构建场景等需要应用到视频类别的场景,下面对不同应用场景下的视频分类方法进行说明。
视频推荐场景
视频推荐场景下,如图2所示,对于待分类的原始视频20(服务器本地存储或由终端上传),服务器首先从图像维度、音频维度和文本维度,采用图像分类模型211对原始视频20的图像帧进行图像特征提取和分类,得到图像分类结果212;采用音频分类模型221对原始视频20的音频进行音频特征提取和分类,得到音频分类结果222;采用文本分类模型231对原始视频20的文本描述信息进行文本特征提取和分类,得到文本分类结果232。进一步的,服务器对图像分类结果212、音频分类结果222以及文本分类结果232进行融合,得到原始视频20的目标分类结果24,进而根据该目标分类结果24所指示各个类别对应的概率,确定原始视频20的目标类别25,并将原始视频20与目标类别25进行关联存储。
在进行视频推荐时,服务器的推荐系统26获取当前用户的用户画像27(可以根据用户历史观看记录生成),从而根据将与用户画像27所指示用户感兴趣视频类别相匹配的视频推荐给用户。
用户画像构建场景
在视频推荐领域,用户画像用于描述用户的视频观看喜好,其准确度与视频分类的准确度密切相关。为了提高用户画像的准确性,以提高后续视频推荐的准确性,服务器首先从图像维度、音频维度和文本维度,对原始视频进行多维度分类,然后根据不同维度下原始视频的分类结果,综合确定出原始视频的目标类别。
构建用户画像时,服务器获取用户对推荐视频的操作行为(比如观看、忽略等等),从而根据操作行为确定用户对推荐视频对应视频类别的喜好程度,进而在视频类别对应喜好程度的基础上,构建出用户画像,供后续进行视频推荐时使用。
当然,除了上述应用场景外,本申请实施例提供的视频分类方法还可以用于视频整理场景(基于视频类别对同类视频进行整合)、视频搜索场景(基于搜索关键字对相应视频类别的视频进行反馈)等其他应用到视频类别的场景,本申请实施例并不对具体应用场景进行限定。
相关技术中,服务器仅基于视频的图像特征进行视频分类时,对画面相似但音频差异较大的视频的分类效果不佳。比如,在短视频应用程序中,对于自拍视频和配有搞笑配音的自拍视频,基于视频图像特征进行分类,由于两者的图像特征相似,因此两者都会被分类为“自拍”。但是实际情况下,配有搞笑配音的自拍视频应该被分类为“搞笑”。
而本申请实施例中,服务器在图像特征的基础上,加入音频特征和文本特征进行视频分类,能够弥补单纯基于图像特征进行视频分类的局限性,从而提高了视频分类的准确性,在对图像相似但音频或文本差异较大的视频进行分类时尤为明显。下面采用示意性的实施例进行说明
请参考图3,其示出了本申请一个实施例提供的视频分类方法的流程图。本实施例以该方法应用于图1中的服务器140来举例说明,该方法可以包括以下几个步骤:
步骤301,获取目标视频。
其中,该目标视频为服务器从网络中拉取的视频,或者,由终端上传的视频,本申请实施例并不对目标视频的来源进行限定。
在一个示意性的应用场景下,服务器为短视频应用程序的后台服务器,该目标视频即为用户使用短视频应用程序录制的视频。
对于获取到的目标视频,服务器通过下述步骤302至304对其进行图像特征提取分类、音频特征提取分类以及文本特征提取分类。其中,步骤302至304之间并不存在严格的先后顺序,本申请实施例以步骤302至304同时执行为例进行说明。
步骤302,通过第一分类模型对目标视频中的图像帧进行分类,得到图像分类结果,第一分类模型用于基于图像帧的图像特征进行分类。
在一种可能的实施方式中,第一分类模型中包括用于提取图像特征的深度学习网络以及基于图像特征进行分类的分类器。相应的,服务器从目标视频中提取图像帧后,将图像帧输入第一分类模型中,由第一分类模型中的深度学习网络提取图像帧的图像特征,并进一步通过分类器对图像特征进行分类,从而得到图像分类结果。
其中,图像分类结果中包含各种预设分类类别及其对应的概率,该预设分类类别为预先划分出的视频的分类类别。比如,预设分类类别包括如下至少一种:自拍、搞笑、动画、游戏、配音、篮球、足球、综艺、电影。
可选的,第一分类模型基于标注有样本类别的样本图像帧训练得到。
步骤303,通过第二分类模型对目标视频中的音频进行分类,得到音频分类结果,第二分类模型用于基于音频的音频特征进行分类。
在一种可能的实施方式中,第二分类模型中包括用于提取音频特征的神经网络(比如LSTM)以及基于音频特征进行分类的分类器。相应的,服务器提取出目标视频的音频后,将音频输入第二分类模型,由第二分类模型中的神经网络提取音频的音频特征,并进一步通过分类器对音频特征进行分类,从而得到音频分类结果。
其中,音频分类结果中包含各种预设分类类别及其对应的概率,且预设分类类别为预先划分出的视频的分类类别。
可选的,第二分类模型基于标注有样本类别的样本音频训练得到。
步骤304,通过第三分类模型对目标视频对应的文本描述信息进行分类,得到文本分类结果,第三分类模型用于基于文本描述信息的文本特征进行分类。
在一种可能的实施方式中,第三分类模型中包括用于提取文本特征的神经网络(比如LSTM)以及基于文本特征进行分类的分类器。相应的,服务器提取出目标视频的文本描述信息后,将文本描述信息输入第三分类模型,由第三分类模型中的神经网络提取文本描述信息的文本特征,并进一步通过分类器对文本特征进行分类,从而得到文本分类结果。
其中,文本分类结果中包含各种预设分类类别及其对应的概率,且预设分类类别为预先划分出的视频的分类类别。
可选的,该文本描述信息包括目标视频的视频标题、视频内容描述信息、视频背景音乐信息和视频发布者信息中的至少一种
可选的,第二分类模型基于标注有样本类别的样本文本训练得到。
步骤305,根据图像分类结果、音频分类结果和文本分类结果,确定目标视频的目标分类结果。
服务器得到基于不同维度的分类结果后,进一步对图像分类结果、音频分类结果和文本分类结果进行融合,最终确定出目标视频的目标分类结果。
在一种可能的实施方式中,服务器将融合后的分类结果输入预先训练的分类器,从而得到分类器输出的目标分类结果。
可选的,由于视频的预设分类类别通常包含多种,且不同的分类类别之间互斥,因此,各个分类模型以及对融合后分类结果进行分类时采用的分类器可以为softmax分类模型。可选的,softmax分类模型的假设函数如下:
其中,exp()是以自然常数e为底的指数,θ为模型训练参数,T表示转置。
相应的,对softmax分类模型进行优化时,采用的化代价函数如下:
其中,x(i)为输入参数,y(i)为输出参数,m为训练集中训练样本的数量。
对softmax分类模型进行优化的过程,即为最小化代价函数的过程,本申请实施例在此不再赘述。
可选的,目标分类结果中包含至少两个预设分类类别对应的概率,服务器将概率最高的n个预设分类类别确定为目标视频的目标类别,n为大于等于1的整数。
在一个示意性的例子中,对于自拍视频A和配有搞笑配音的自拍视频B,基于视频图像特征进行分类时,由于两者的图像特征相似,因此图像分类结果中“自拍”对应概率较高;而基于视频音频特征进行分类时,由于自拍视频A与自拍视频B的音频差异较大,且自拍视频B的音频具备搞笑音频的特征,因此,因此自拍视频A对应音频分类结果中“自拍”对应概率较高,而自拍视频B对应音频分类结果中“搞笑”对应概率较高;基于视频文本特征进行分类时,由于自拍视频A与自拍视频B的文本描述信息差异较大,且自拍视频B的文本描述信息具备搞笑文本描述的特征,因此,因此自拍视频A对应文本分类结果中“自拍”对应概率较高,而自拍视频B对应文本分类结果中“搞笑”对应概率较高。最终,服务器融合自拍视频A的分类结果,确定自拍视频A的目标类别为“自拍”,融合自拍视频B的分类结果,确定自拍视频B的目标类别为“搞笑”。
由此可见,在图像特征的基础上,融合音频特征和文本特征对视频进行分类,能够利用视频不同模态(图像模态、音频模态和文本模态)之间的互补性提高视频分类的准确率。
综上所述,本申请实施例中,获取到待分类的目标视频后,分别通过第一分类模型对图像帧进行分类得到图像分类结果,通过第二分类模型对音频进行分类得到音频分类结果,通过第三分类模型对文本描述信息进行分类得到文本分类结果,从而根据图像分类结果、音频分类结果和文本分类结果,确定出目标视频的目标分类结果;相较于相关技术中仅基于视频的图像特征进行视频分类,本申请实施例中综合视频的图像特征、音频特征以及文本特征进行分类,充分考虑视频不同维度的特征,进而提高了视频分类的准确性。
在一种可能的实施方式中,根据不同维度的分类结果确定目标视频的目标分类结果时可以包括如下步骤。
一、对图像分类结果、音频分类结果和文本分类结果中各个分类类别对应的概率进行拼接,生成分类特征向量。
可选的,服务器根据预定顺序,对图像分类结果、音频分类结果和文本分类结果中各个分类类别对应的概率进行拼接,从而得到分类特征向量,其中,该预定顺序为图像分类结果、音频分类结果和文本分类结果的先后顺序。
在一个示意性的例子中,视频的预设分类类别为自拍、游戏、体育、美妆、搞笑,且图像分类结果为[自拍(0.95),游戏(0.01),体育(0.01),美妆(0.02),搞笑(0.01)],音频分类结果为[自拍(0.05),游戏(0.01),体育(0.01),美妆(0.03),搞笑(0.90)],文本分类结果为[自拍(0.1),游戏(0.01),体育(0.01),美妆(0.03),搞笑(0.85)],服务器生成的分类特征向量即为(0.95,0.01,0.01,0.02,0.01,0.05,0.01,0.01,0.03,0.90,0.1,0.01,0.01,0.03,0.85)。
二、将分类特征向量输入目标分类器,得到目标分类结果,目标分类器基于softmax分类模型构建。
可选的,服务器预先构建原始softmax分类模型,并根据标注有视频类别的样本分类特征向量对原始softmax分类模型进行训练,得到目标分类器。在视频分类时,服务器即将生成的分类特征向量输入目标分类器,从而获取目标分类器输出的目标分类结果。
在一种可能的实施方式中,如图4所示,对图像帧进行图像特征提取及分类前,服务器首先从目标视频中提取RGB图像帧411以及RGB差异图像帧412,并分别将RGB图像帧411和RGB差异图像帧412输入残差网络(ResNet)413进行特征提取,从而将从RGB图像帧411中提取到的图像特征输入RGB分类器414A中得到第一图像分类结果414B,将RGB差异图像帧412中提取到的图像特征输入RGB差异分类器415A中得到第二图像分类结果415B。如图5所示,上述步骤302可以包括如下步骤。
步骤302A,将目标视频中提取到的原始图像帧确定为RGB图像帧。
由于后续进行图像特征提取需要耗费大量计算资源,且视频中相邻图像帧之间的差异较小,因此为了降低计算量,在一种可能的实施方式中,服务器按照预定采样间隔,从目标图像中提取原始图像帧,并将提取到的原始视频帧确定为RGB图像帧。比如,该预定采样间隔为1s,即服务器每隔1s提取一帧原始图像帧。
在其他可能的实施方式中,服务器也可以根据目标视频的视频长度,动态确定采样间隔,其中,该采样间隔与视频长度呈正相关关系,即视频越长,采样间隔越长。本申请并不对提取原始图像帧的具体方式进行限定。
步骤302B,通过第一分类模型中的残差网络和RGB分类器对RGB图像帧进行分类,得到第一图像分类结果,RGB分类器用于基于静态图像特征进行分类。
可选的,本申请实施例中,第一分类模型包含预先训练的残差网络以及RGB分类器,服务器提取到RGB图像帧后,即通过残差网络提取RGB图像的(静态)图像特征,并进一步通过RGB分类器对(静态)图像特征进行分类,得到指示静态图像所属类别的第一图像分类结果,该第一图像分类结果中的分类类别与预设分类类别相同。
其中,残差网络可以采用初始残差网络(Inception-ResNet等其他深度卷积神经网络,且RGB分类器可以采用softmax分类模型,本申请实施例对此不做限定。
在一个示意性的例子中,残差网络(Inception-ResNet-v2)的结构如图6所示。该残差网络包括输入层60、Stem层61、第一残差层62、第一降维层63、第二残差层64、第二降维层65、第三残差层66、池化层67、丢弃(dropout)层68和分类层69。
输入层60用于输入的图像帧,对于RGB图像帧而言,该服务器将RGB图像帧中R、G、B三个通道的像素值组成一维数组后输入输入层60。如图6中,输入层60接收到的数据为299(RGB图像帧的宽度)×299(RGB图像帧的宽度)×3(通道数)。
Stem层61用于对数据进行预处理,其中包含多次卷积和两次池化,卷积时采用了7×1+1×7的优化卷积形式,且池化时采用“卷积+池化”的并行结构,以此防止瓶颈问题。
第一残差层62中包含5个残差块(用于进行卷积处理),第二残差层64中包含10个残差块,第三残差层66中包含5个残差块。
第一降维层63用于对第一残差层62的输出进行降维,第二降维层65用于对第二残差层64的输出进行降维,以减少计算量。
池化层67用于对第三残差层66的输出进行下采样处理,此处的池化层67采用平均池化。
丢弃(dropout)层68用于根据keep参数将部分输入数据设置为0,从而达到防治过拟合的效果。比如,当keep参数为0.8时,输入数据中20%的数据在丢弃层68被设置为0。
步骤302C,根据目标视频中相邻两帧原始图像帧生成RGB差异图像帧。
上述步骤中,由于RGB图像帧仅能够反映出视频画面的静态图像特征,因此,为了提高图像分类的效果,服务器进一步基于视频画面的动态图像特征进行分类。
其中,RGB差异图像帧由相邻两帧原始图像帧进行差运算(RGB像素值相减)生成,用于表示两帧原始图像帧之间的差异性,其可以表示为:
rgbdifft=rgbt+1-rgbt
其中,rgbdifft为RGB差异图像帧,rgbt+1为t+1时刻的原始图像帧,rgbt为t时刻的原始图像帧,且t时刻和t+1时刻为采样时刻。
以图像帧中的一个像素点为例,t时刻该像素点的像素值rgbt为(100,100,100),而t+1时刻该像素点的像素值rgbt+1为(150,160,170),则计算得到的rgbdifft为(50,60,70)。
由于RGB差异图像帧能够反映出两帧原始图像帧之间的差异性,因此,对RGB差异图像进行图像特征提取,能够得到目标视频的动态图像特征。
步骤302D,通过第一分类模型中的残差网络和RGB差异分类器对RGB差异图像帧进行分类,得到第二图像分类结果,RGB差异分类器用于基于动态图像特征进行分类。
可选的,本申请实施例中,第一分类模型包含预先训练的残差网络以及RGB差异分类器,服务器生成RGB差异图像帧后,即通过残差网络提取RGB差异图像的(动态)图像特征,并进一步通过RGB差异分类器对(动态)图像特征进行分类,得到指示动态图像所属类别的第二图像分类结果,该第二图像分类结果中的分类类别与预设分类类别相同。
其中,对RGB图像帧和RGB差异图像帧进行图像特征提取时可以采用同一残差网络,也可以采用不同残差网络,本申请对此不做限定。
本实施例中,服务器基于RGB图像帧和RGB差异图像帧进行分类,综合考虑到静态图像特征和动态图像特征,进而提高了后续图像维度分类的全面性。
上述实施例中,对RGB图像帧或RGB差异图像帧进行特征提取时,得到的都是图像整体的特征(即关注图像整体),相应的,后续使用分类器仅能够基于整体图像特征进行分类。为了进一步提高图像分类结果的准确性,本申请实施例中,服务器进行图像特征提取时,不仅关注图像整体,还关注图像中的特定目标,并基于图像中特征目标的检测结果进行分类。
如图4所示,服务器从目标视频中提取RGB图像帧411后,进一步将RGB图像帧411输入目标检测网络416进行细粒度特征提取,并将提取到的细粒度图像特征输入细粒度分类器417A中得到第三图像分类结果417B。如图5所示,上述步骤302A之后还可以包括如下步骤。
步骤302E,通过第一分类模型中的目标检测网络和细粒度分类器对RGB图像进行分类,得到第三图像分类结果,目标检测网络用于提取RGB图像中目标物体的细粒度图像特征,细粒度分类器用于基于细粒度图像特征进行分类。
本申请实施例中,第一分类模型中还包括目标检测网络和细粒度分类器,其中,目标检测网络可以是区域卷积神经网络(Regions with CNN,RCNN)(包括RCNN、Fast RCNN以及Faster RCNN)、YOLO(You Only Look Once)网络、单镜多核检测(Single Shot multiBoxDetector,SSD)网络,本实施例并不对目标检测网络的具体类型进行限定。
在一种可能的试试方式中,利用目标检测网络进行目标检测时,目标检测网络能够检测出RGB图像帧中目标物体的类别、目标框位置、置信度等目标信息,从而根据目标信息确定RGB图像帧的细粒度特征。可选的,细粒度特征包括:
1、目标物体是否出现在RGB图像帧中:0表示目标物体未出现在RGB图像帧中,1表示目标物体出现在RGB图像帧中。
2、目标物体面积占比:目标物体对应目标框占RGB图像帧的最大比例。
3、目标物体相对位移:目标物体对应目标框的中心点在相邻两帧RGB图像中的位移。
在一个示意性的例子中,如图7所示,当目标检测网络采用Faster-RCNN时,RGB图像帧71首先在卷积层72经过卷积处理,输出用于表示图像特征的特征图73。特征图73输入区域预测网络74(用于预测目标物体在图像中的区域)后,由区域预测网络74输出预测图75。进一步的,对融合后的预测图75和特征图73进行兴趣区域池化(Region of Interestpooling,RoI pooling)处理,并确定RGN图像帧71的细粒度特征,进而通过细粒度分类器76对细粒度特征进行分类,得到第三图像分类结果。
本实施例中,服务器在提起图像整体特征的同时,通过目标检测网络对RGB图像帧进行细粒度图像特征提取,并融合提取到的细粒度图像特征进行分类,进一步提高了图像分类结果的准确性和全面性。
在一种可能的实施方式中,如图4所示,对目标视频的音频进行音频特征提取及分类时,服务器首先提取音频的MFCC特征421,然后通过VGGish网络422对MFCC特征421进行特征提取,得到VGGish特征423。进一步的,服务器分别使用通用分类器425A和特定分类器426B对VGGish特征423进行分类,最终得到第一音频分类结果425A和第二音频分类结果425B。如图8所示,上述步骤303可以包括如下步骤。
步骤303A,提取音频的MFCC。
在一种可能的实施方式中,服务器从目标视频中分离出音频,然后按照预定采样频率对音频进行采样,从而对采样结果进行预加重、分帧、加窗、FFT、梅尔滤波器组以及DCT处理,得到音频的MFCC。
步骤303B,通过第二分类模型中的VGGish网络对MFCC进行特征提取,得到VGGish特征。
可选的,本申请实施例中的第二分类模型中包括用于进行特征提取的VGGish网络以及用于进行分类的双层分类器。对于提取到的MFCC,服务器将MFCC输入VGGish网络,从而得到VGGish网络输出的VGGish特征。
其中,VGGish网络可以采用已有的网络结构,本申请实施例并不对VGGish网络的具体结构进行限定。
示意性的,当目标视频的音频为60s,且采样频率为128Hz时,经过VGGish网络可以提取到128×60维的特征。
步骤303C,通过第二分类模型中的通用分类器对VGGish特征进行分类,得到第一音频分类结果。
步骤303D,通过第二分类模型中的至少一个特定分类器对VGGish特征进行分类,得到至少一条第二音频分类结果。
本申请实施例中,第二分类模型中包括通用分类器和至少一个特定分类器,其中,通用分类器的分类类别数量与视频的预设分类类别数量相同,特定分类器用于基于特定类别进行分类,特定类别属于视频的预设分类类别,且不同特定分类器对应的不同特定类别。
示意性的,当视频的预设分类类别包括5个类别(分别为自拍、游戏、体育、美妆、搞笑)时,该通用分类器的分类类别也为上述5个类别,而特定分类器则基于5个类别中的某一特定类别进行分类。比如,特定分类器用于基于“搞笑”这一类别进行分类,即将视频分类为搞笑和非搞笑。
可选的,特定类别为音频模态上存在明显区别的类别。
在一种可能的实施方式中,由于相较于非搞笑视频,搞笑视频的音频中通常包含笑声(即搞笑视频与非搞笑视频在音频模态上的区别在于是否包含笑声),因此,服务器预先训练用于分类搞笑和非搞笑的特定分类器,从而在利用通用分类器进行分类的同时,利用该特定分类器对视频是否搞笑进行分类。
需要说明的是,服务器可以在第二分类模型中设置多个特定分类器,从而进一步提高音频分类结果的准确性,本实施例仅以设置一个特定分类器为例进行示意性说明,当并不对此构成限定。
本实施例中,在通用分类器的基础上,通过增加用于对特定类别进行区分的特定分类器,丰富了音频分类时的维度,进而提高了音频分类结果的准确性和全面性。
在一种可能的实施方式中,如图4所示,对目标视频的文本描述信息进行文本特征提取及分类时,服务器首先获取目标视频的文本描述信息431,然后通过预处理模块432对文本描述信息431进行预处理。进一步的,通过Bi-LSTM 433并结合注意力机制434(self-attention)对于预处理后的文本描述信息431进行文本特征提取,进而通过文本分类器对文本特征进行分类,最终得到文本分类结果435。如图9所示,上述步骤304可以包括如下步骤。
步骤304A,获取目标视频对应的文本描述信息,文本描述信息包括视频标题、视频内容描述信息、视频背景音乐信息和视频发布者信息中的至少一种。
在一种可能的实施方式中,目标视频的视频数据与文本描述信息关联存储,服务器获取目标视频的同时,即从数据库中获取目标视频关联存储的文本描述信息,该文本描述信息中包括视频标题、视频内容描述信息、视频背景音乐信息和视频发布者信息中的至少一种。
示意性的,服务器获取到的文本描述信息中包含视频标题“挑战吃100个包子”、视频内容描述信息“大胃王主播今天超越自我,挑战速吃100个包子”、视频背景音乐“歌曲A”以及视频发布者信息“大胃王阿伟”。
步骤304B,对文本描述信息进行预处理,预处理方式包括去噪声、分词、实体词回捞和去停用词中的至少一种。
为了提高后续分类的准确性,服务器需要先对文本描述信息进行预处理,其中,对文本描述信息进行预处理可以包括如下方式:
1、去噪声:去除文本描述信息中干扰分类的噪声信息。比如,对于文本描述信息中的视频背景音乐信息,若该视频背景音乐信息不包含在背景音乐库中时,视频背景音乐信息中通常会加入“用户上传”字段,而这类字段会对后续分类造成干扰,因此需要对此类字段进行去除。
2、分词:将文本描述信息中的长句切分为细粒度的词,并在切分后对词的出现频率进行统计建模。
3、实体词回捞:基于预设的实体词列表,提取文本描述信息中的实体词,从而分词阶段将实体词误分为多个词。
4、去停用词:去除文本描述信息中无意义的语气词(比如“啊”,“哇”“呀”)、代词(比如“你”“我”“他”)、助词(比如“的”、“了”)、标点符号(比如“,”、“。”)以及数字。
步骤304C,通过第三分类模型中的Bi-LSTM和文本分类器对经过预处理的文本描述信息进行分类,得到文本分类结果。
在一种可能的实施方式中,将预处理的文本描述信息输入第三分类模型之前,服务器将预处理的文本描述信息(由词构成)转化为词向量,进而将词向量输入第三分类模型。其中,将词转化为词向量时可以采用为word2vec等成熟的词向量模型,本实施例对此不做限定。
示意性的,如图10所示,服务器将预处理后的视频标题1001、视频背景音乐信息1002以及视频内容描述信息1003输入Bi-LSTM 1004中。由Bi-LSTM1004进行文本特征提取后,通过文本分类器1005输出文本分类结果1006。
为了进一步提高文本分类结果的准确性,本步骤可以包括如下步骤。
一、将经过预处理的文本描述信息输入Bi-LSTM。
二、通过注意力机制对Bi-LSTM的输出结果进行权重修正。
得到Bi-LSTM的输出结果后,服务器并非直接通过文本分类器对其进行分类,而是通过注意力机制,对输出结果中的权重进行修正,并在完成权重修正后,将修正后输出结果输入文本分类器。
其中,对权重修正的方式包括:提高关注结果的权重和减低非关注结果的权重。
示意性的,如图10所示,Bi-LSTM 1004的输出结果在输入文本分类器1005前,注意力机制1007对输出结果进行权重修正。
三、通过文本分类器对修正后的Bi-LSTM的输出结果进行分类,得到文本分类结果。
通过引入注意力机制对Bi-LSTM的输出结果进行修正,进一步提高了输出结果的准确性,进而提高最终得到的文本分类结果的准确性。
在短视频领域,用户可以使用短视频应用程序拍摄并上传短视频,并由服务器对短视频进行分类,进而根据短视频的类别对用户进行视频推荐。然而,在实际分类过程中发现,用户上传的短视频中,存在部分视频画面相似,但是音频差异极大的短视频(比如不用用户拍摄的配音短视频),而单纯基于图像特征对此类短视频进行分类时,服务器无法区分画面相似但音频差异较大的短视频,导致视频分类效果不佳。
而将上述实施例提供的视频分类方法应用于短视频分类时,用户使用短视频应用程序拍摄并上传短视频后,服务器提取短视频中的图像帧,并基于图像帧的图像特征对短视频进行分类;同时,服务器提取短视频的音频,并基于音频的音频特征对短视频进行分类;此外,服务器获取用户上传短视频时添加的文本描述信息(比如短视频的标题、背景音乐名称和短视频内容描述),并基于文本描述信息的文本特征对短视频进行分类。
进一步的,服务器对图像维度、音频维度和文本维度下得到的视频分类结果进行融合,最终确定短视频的目标类别。后续向用户推荐短视频时,服务器即根据当前用户的用户画像,将视频类别与用户画像相匹配的短视频推荐给用户,提高推荐视频与用户喜好之间的契合度。
下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
请参考图11,其示出了本申请一个实施例提供的视频分类装置的框图。该装置可以是图1所示实施环境中的服务器140,也可以设置在服务器140上。该装置可以包括:
视频获取模块1110,用于获取目标视频;
第一分类模块1120,用于通过第一分类模型对所述目标视频中的图像帧进行分类,得到图像分类结果,所述第一分类模型用于基于所述图像帧的图像特征进行分类;
第二分类模块1130,用于通过第二分类模型对所述目标视频中的音频进行分类,得到音频分类结果,所述第二分类模型用于基于所述音频的音频特征进行分类;
第三分类模块1140,用于通过第三分类模型对所述目标视频对应的文本描述信息进行分类,得到文本分类结果,所述第三分类模型用于基于所述文本描述信息的文本特征进行分类;
目标分类模块1150,用于根据所述图像分类结果、所述音频分类结果和所述文本分类结果,确定所述目标视频的目标分类结果。
可选的,所述第一分类模块1120,包括:
确定单元,用于将所述目标视频中提取到的原始图像帧确定为红绿蓝RGB图像帧;
第一图像分类单元,用于通过所述第一分类模型中的残差网络和RGB分类器对所述RGB图像帧进行分类,得到第一图像分类结果,所述RGB分类器用于基于静态图像特征进行分类;
生成单元,用于根据所述目标视频中相邻两帧原始图像帧生成所述RGB差异图像帧;
第二图像分类单元,用于通过所述第一分类模型中的残差网络和RGB差异分类器对所述RGB差异图像帧进行分类,得到第二图像分类结果,所述RGB差异分类器用于基于动态图像特征进行分类。
可选的,所述第一分类模块1120,还包括:
第三图像分类单元,用于通过所述第一分类模型中的目标检测网络和细粒度分类器对所述RGB图像进行分类,得到第三图像分类结果,所述目标检测网络用于提取所述RGB图像中目标物体的细粒度图像特征,所述细粒度分类器用于基于所述细粒度图像特征进行分类。
可选的,所述第二分类模块1130,包括:
第一提取单元,用于提取所述音频的梅尔频率倒谱系数MFCC;
第二提取单元,用于通过所述第二分类模型中的VGGish网络对所述MFCC进行特征提取,得到VGGish特征;
第一音频分类单元,用于通过所述第二分类模型中的通用分类器对所述VGGish特征进行分类,得到第一音频分类结果;
第二音频分类单元,用于通过所述第二分类模型中的至少一个特定分类器对所述VGGish特征进行分类,得到至少一条第二音频分类结果;
其中,所述通用分类器的分类类别数量与视频的预设分类类别数量相同,所述特定分类器用于基于特定类别进行分类,所述特定类别属于视频的预设分类类别,且不同特定分类器对应的不同特定类别。
可选的,所述第三分类模块1140,包括:
信息获取单元,用于获取所述目标视频对应的所述文本描述信息,所述文本描述信息包括视频标题、视频内容描述信息和视频背景音乐信息中的至少一种;
预处理单元,用于对所述文本描述信息进行预处理,预处理方式包括去噪声、分词、实体词回捞和去停用词中的至少一种;
文本分类单元,用于通过所述第三分类模型中的双向长短期记忆网络Bi-LSTM和文本分类器对经过预处理的所述文本描述信息进行分类,得到所述文本分类结果。
可选的,所述文本分类单元,用于:
将经过预处理的所述文本描述信息输入所述Bi-LSTM;
通过注意力机制对所述Bi-LSTM的输出结果进行权重修正;
通过所述文本分类器对修正后的所述Bi-LSTM的输出结果进行分类,得到所述文本分类结果。
可选的,所述目标分类模块1150,包括:
拼接单元,用于对所述图像分类结果、所述音频分类结果和所述文本分类结果中各个分类类别对应的概率进行拼接,生成分类特征向量;
目标分类单元,用于将所述分类特征向量输入目标分类器,得到所述目标分类结果,所述目标分类器基于softmax分类模型构建。
综上所述,本申请实施例中,获取到待分类的目标视频后,分别通过第一分类模型对图像帧进行分类得到图像分类结果,通过第二分类模型对音频进行分类得到音频分类结果,通过第三分类模型对文本描述信息进行分类得到文本分类结果,从而根据图像分类结果、音频分类结果和文本分类结果,确定出目标视频的目标分类结果;相较于相关技术中仅基于视频的图像特征进行视频分类,本申请实施例中综合视频的图像特征、音频特征以及文本特征进行分类,充分考虑视频不同维度的特征,进而提高了视频分类的准确性。
请参考图12,其示出了本申请一个实施例提供的服务器的结构示意图。该服务器用于实施上述实施例提供的视频分类方法。具体来讲:
所述服务器1200包括中央处理单元(CPU)1201、包括随机存取存储器(RAM)1202和只读存储器(ROM)1203的系统存储器1204,以及连接系统存储器1204和中央处理单元1201的系统总线1205。所述服务器1200还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)1206,和用于存储操作系统1213、应用程序1214和其他程序模块1215的大容量存储设备1207。
所述基本输入/输出系统1206包括有用于显示信息的显示器1208和用于用户输入信息的诸如鼠标、键盘之类的输入设备1209。其中所述显示器1208和输入设备1209都通过连接到系统总线1205的输入输出控制器1210连接到中央处理单元1201。所述基本输入/输出系统1206还可以包括输入输出控制器1210以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器1210还提供输出到显示屏、打印机或其他类型的输出设备。
所述大容量存储设备1207通过连接到系统总线1205的大容量存储控制器(未示出)连接到中央处理单元1201。所述大容量存储设备1207及其相关联的计算机可读介质为服务器1200提供非易失性存储。也就是说,所述大容量存储设备1207可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。
不失一般性,所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术,CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器1204和大容量存储设备1207可以统称为存储器。
根据本发明的各种实施例,所述服务器1200还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器1200可以通过连接在所述系统总线1205上的网络接口单元1211连接到网络1212,或者说,也可以使用网络接口单元1211来连接到其他类型的网络或远程计算机系统。
本申请实施例还提供一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器执行以实现上述各个实施例提供的视频分类方法。
本申请还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述各个实施例所述的视频分类方法。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的无线局域网的参数配置方法中全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。以上所述仅为本申请的较佳实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (15)

1.一种视频分类方法,其特征在于,所述方法包括:
获取目标视频;
通过第一分类模型对所述目标视频中的图像帧进行分类,得到图像分类结果,所述第一分类模型用于基于所述图像帧的图像特征进行分类;
通过第二分类模型对所述目标视频中的音频进行分类,得到音频分类结果,所述第二分类模型用于基于所述音频的音频特征进行分类;
通过第三分类模型对所述目标视频对应的文本描述信息进行分类,得到文本分类结果,所述第三分类模型用于基于所述文本描述信息的文本特征进行分类;
根据所述图像分类结果、所述音频分类结果和所述文本分类结果,确定所述目标视频的目标分类结果。
2.根据权利要求1所述的方法,其特征在于,所述通过第一分类模型对所述目标视频中的图像帧进行分类,得到图像分类结果,包括:
将所述目标视频中提取到的原始图像帧确定为红绿蓝RGB图像帧;
通过所述第一分类模型中的残差网络和RGB分类器对所述RGB图像帧进行分类,得到第一图像分类结果,所述RGB分类器用于基于静态图像特征进行分类;
根据所述目标视频中相邻两帧原始图像帧生成所述RGB差异图像帧;
通过所述第一分类模型中的残差网络和RGB差异分类器对所述RGB差异图像帧进行分类,得到第二图像分类结果,所述RGB差异分类器用于基于动态图像特征进行分类。
3.根据权利要求2所述的方法,其特征在于,所述将从所述目标视频中提取到的原始图像帧确定为RGB图像帧之后,所述方法还包括:
通过所述第一分类模型中的目标检测网络和细粒度分类器对所述RGB图像进行分类,得到第三图像分类结果,所述目标检测网络用于提取所述RGB图像中目标物体的细粒度图像特征,所述细粒度分类器用于基于所述细粒度图像特征进行分类。
4.根据权利要求1所述的方法,其特征在于,所述通过第二分类模型对所述目标视频中的音频进行分类,得到音频分类结果,包括:
提取所述音频的梅尔频率倒谱系数MFCC;
通过所述第二分类模型中的VGGish网络对所述MFCC进行特征提取,得到VGGish特征;
通过所述第二分类模型中的通用分类器对所述VGGish特征进行分类,得到第一音频分类结果;
通过所述第二分类模型中的至少一个特定分类器对所述VGGish特征进行分类,得到至少一条第二音频分类结果;
其中,所述通用分类器的分类类别数量与视频的预设分类类别数量相同,所述特定分类器用于基于特定类别进行分类,所述特定类别属于视频的预设分类类别,且不同特定分类器对应的不同特定类别。
5.根据权利要求1所述的方法,其特征在于,所述通过第三分类模型对所述目标视频对应的文本描述信息进行分类,得到文本分类结果,包括:
获取所述目标视频对应的所述文本描述信息,所述文本描述信息包括视频标题、视频内容描述信息、视频背景音乐信息和视频发布者信息中的至少一种;
对所述文本描述信息进行预处理,预处理方式包括去噪声、分词、实体词回捞和去停用词中的至少一种;
通过所述第三分类模型中的双向长短期记忆网络Bi-LSTM和文本分类器对经过预处理的所述文本描述信息进行分类,得到所述文本分类结果。
6.根据权利要求5所述的方法,其特征在于,所述通过所述第三分类模型中的Bi-LSTM和文本分类器对经过预处理的所述文本描述信息进行分类,得到所述文本分类结果,包括:
将经过预处理的所述文本描述信息输入所述Bi-LSTM;
通过注意力机制对所述Bi-LSTM的输出结果进行权重修正;
通过所述文本分类器对修正后的所述Bi-LSTM的输出结果进行分类,得到所述文本分类结果。
7.根据权利要求1至6任一所述的方法,其特征在于,所述根据所述图像分类结果、所述音频分类结果和所述文本分类结果,确定所述目标视频的目标分类结果,包括:
对所述图像分类结果、所述音频分类结果和所述文本分类结果中各个分类类别对应的概率进行拼接,生成分类特征向量;
将所述分类特征向量输入目标分类器,得到所述目标分类结果,所述目标分类器基于softmax分类模型构建。
8.一种视频分类装置,其特征在于,所述装置包括:
视频获取模块,用于获取目标视频;
第一分类模块,用于通过第一分类模型对所述目标视频中的图像帧进行分类,得到图像分类结果,所述第一分类模型用于基于所述图像帧的图像特征进行分类;
第二分类模块,用于通过第二分类模型对所述目标视频中的音频进行分类,得到音频分类结果,所述第二分类模型用于基于所述音频的音频特征进行分类;
第三分类模块,用于通过第三分类模型对所述目标视频对应的文本描述信息进行分类,得到文本分类结果,所述第三分类模型用于基于所述文本描述信息的文本特征进行分类;
目标分类模块,用于根据所述图像分类结果、所述音频分类结果和所述文本分类结果,确定所述目标视频的目标分类结果。
9.根据权利要求8所述的装置,其特征在于,所述第一分类模块,包括:
确定单元,用于将所述目标视频中提取到的原始图像帧确定为红绿蓝RGB图像帧;
第一图像分类单元,用于通过所述第一分类模型中的残差网络和RGB分类器对所述RGB图像帧进行分类,得到第一图像分类结果,所述RGB分类器用于基于静态图像特征进行分类;
生成单元,用于根据所述目标视频中相邻两帧原始图像帧生成所述RGB差异图像帧;
第二图像分类单元,用于通过所述第一分类模型中的残差网络和RGB差异分类器对所述RGB差异图像帧进行分类,得到第二图像分类结果,所述RGB差异分类器用于基于动态图像特征进行分类。
10.根据权利要求9所述的装置,其特征在于,所述第一分类模块,还包括:
第三图像分类单元,用于通过所述第一分类模型中的目标检测网络和细粒度分类器对所述RGB图像进行分类,得到第三图像分类结果,所述目标检测网络用于提取所述RGB图像中目标物体的细粒度图像特征,所述细粒度分类器用于基于所述细粒度图像特征进行分类。
11.根据权利要求8所述的装置,其特征在于,所述第二分类模块,包括:
第一提取单元,用于提取所述音频的梅尔频率倒谱系数MFCC;
第二提取单元,用于通过所述第二分类模型中的VGGish网络对所述MFCC进行特征提取,得到VGGish特征;
第一音频分类单元,用于通过所述第二分类模型中的通用分类器对所述VGGish特征进行分类,得到第一音频分类结果;
第二音频分类单元,用于通过所述第二分类模型中的至少一个特定分类器对所述VGGish特征进行分类,得到至少一条第二音频分类结果;
其中,所述通用分类器的分类类别数量与视频的预设分类类别数量相同,所述特定分类器用于基于特定类别进行分类,所述特定类别属于视频的预设分类类别,且不同特定分类器对应的不同特定类别。
12.根据权利要求8所述的装置,其特征在于,所述第三分类模块,包括:
信息获取单元,用于获取所述目标视频对应的所述文本描述信息,所述文本描述信息包括视频标题、视频内容描述信息和视频背景音乐信息中的至少一种;
预处理单元,用于对所述文本描述信息进行预处理,预处理方式包括去噪声、分词、实体词回捞和去停用词中的至少一种;
文本分类单元,用于通过所述第三分类模型中的双向长短期记忆网络Bi-LSTM和文本分类器对经过预处理的所述文本描述信息进行分类,得到所述文本分类结果。
13.根据权利要求12所述的装置,其特征在于,所述文本分类单元,用于:
将经过预处理的所述文本描述信息输入所述Bi-LSTM;
通过注意力机制对所述Bi-LSTM的输出结果进行权重修正;
通过所述文本分类器对修正后的所述Bi-LSTM的输出结果进行分类,得到所述文本分类结果。
14.根据权利要求8至13任一所述的装置,其特征在于,所述目标分类模块,包括:
拼接单元,用于对所述图像分类结果、所述音频分类结果和所述文本分类结果中各个分类类别对应的概率进行拼接,生成分类特征向量;
目标分类单元,用于将所述分类特征向量输入目标分类器,得到所述目标分类结果,所述目标分类器基于softmax分类模型构建。
15.一种服务器,其特征在于,所述服务器包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器执行以实现如权利要求1至7任一所述的视频分类方法。
CN201811535837.0A 2018-12-14 2018-12-14 视频分类方法、装置及服务器 Active CN109359636B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201811535837.0A CN109359636B (zh) 2018-12-14 2018-12-14 视频分类方法、装置及服务器
CN202010207957.9A CN111428088B (zh) 2018-12-14 2018-12-14 视频分类方法、装置及服务器
PCT/CN2019/116660 WO2020119350A1 (zh) 2018-12-14 2019-11-08 视频分类方法、装置、计算机设备和存储介质
US17/192,580 US20210192220A1 (en) 2018-12-14 2021-03-04 Video classification method and apparatus, computer device, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811535837.0A CN109359636B (zh) 2018-12-14 2018-12-14 视频分类方法、装置及服务器

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202010207957.9A Division CN111428088B (zh) 2018-12-14 2018-12-14 视频分类方法、装置及服务器

Publications (2)

Publication Number Publication Date
CN109359636A true CN109359636A (zh) 2019-02-19
CN109359636B CN109359636B (zh) 2023-04-28

Family

ID=65328892

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201811535837.0A Active CN109359636B (zh) 2018-12-14 2018-12-14 视频分类方法、装置及服务器
CN202010207957.9A Active CN111428088B (zh) 2018-12-14 2018-12-14 视频分类方法、装置及服务器

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN202010207957.9A Active CN111428088B (zh) 2018-12-14 2018-12-14 视频分类方法、装置及服务器

Country Status (3)

Country Link
US (1) US20210192220A1 (zh)
CN (2) CN109359636B (zh)
WO (1) WO2020119350A1 (zh)

Cited By (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109758756A (zh) * 2019-02-28 2019-05-17 国家体育总局体育科学研究所 基于3d相机的体操视频分析方法及系统
CN110020658A (zh) * 2019-03-28 2019-07-16 大连理工大学 一种基于多任务深度学习的显著目标检测方法
CN110019950A (zh) * 2019-03-22 2019-07-16 广州新视展投资咨询有限公司 视频推荐方法及装置
CN110046279A (zh) * 2019-04-18 2019-07-23 网易传媒科技(北京)有限公司 视频文件特征的预测方法、介质、装置和计算设备
CN110059225A (zh) * 2019-03-11 2019-07-26 北京奇艺世纪科技有限公司 视频分类方法、装置、终端设备及存储介质
CN110084180A (zh) * 2019-04-24 2019-08-02 北京达佳互联信息技术有限公司 关键点检测方法、装置、电子设备及可读存储介质
CN110084128A (zh) * 2019-03-29 2019-08-02 安徽艾睿思智能科技有限公司 基于语义空间约束和注意力机制的场景图生成方法
CN110099302A (zh) * 2019-04-29 2019-08-06 北京达佳互联信息技术有限公司 视频分级方法、装置、设备及存储介质
CN110110143A (zh) * 2019-04-15 2019-08-09 厦门网宿有限公司 一种视频分类方法及装置
CN110147711A (zh) * 2019-02-27 2019-08-20 腾讯科技(深圳)有限公司 视频场景识别方法、装置、存储介质和电子装置
CN110163115A (zh) * 2019-04-26 2019-08-23 腾讯科技(深圳)有限公司 一种视频处理方法、装置和计算机可读存储介质
CN110162669A (zh) * 2019-04-04 2019-08-23 腾讯科技(深圳)有限公司 视频分类处理方法、装置、计算机设备及存储介质
CN110222234A (zh) * 2019-06-14 2019-09-10 北京奇艺世纪科技有限公司 一种视频分类方法和装置
CN110287371A (zh) * 2019-06-26 2019-09-27 北京字节跳动网络技术有限公司 端到端的视频推送方法、装置及电子设备
CN110287788A (zh) * 2019-05-23 2019-09-27 厦门网宿有限公司 一种视频分类方法及装置
CN110334689A (zh) * 2019-07-16 2019-10-15 北京百度网讯科技有限公司 视频分类方法和装置
CN110489592A (zh) * 2019-07-18 2019-11-22 平安科技(深圳)有限公司 视频分类方法、装置、计算机设备和存储介质
CN110489593A (zh) * 2019-08-20 2019-11-22 腾讯科技(深圳)有限公司 视频的话题处理方法、装置、电子设备及存储介质
CN110516086A (zh) * 2019-07-12 2019-11-29 浙江工业大学 一种基于深度神经网络影视标签自动获取方法
CN110598620A (zh) * 2019-09-06 2019-12-20 腾讯科技(深圳)有限公司 模型训练方法和装置、目标检测方法和装置
CN110647804A (zh) * 2019-08-09 2020-01-03 中国传媒大学 一种暴力视频识别方法、计算机系统和存储介质
CN110674348A (zh) * 2019-09-27 2020-01-10 北京字节跳动网络技术有限公司 视频分类方法、装置及电子设备
CN110751030A (zh) * 2019-09-12 2020-02-04 厦门网宿有限公司 一种视频分类方法、设备及系统
CN110769267A (zh) * 2019-10-30 2020-02-07 北京达佳互联信息技术有限公司 一种视频的展示方法、装置、电子设备及存储介质
CN110796204A (zh) * 2019-11-01 2020-02-14 腾讯科技(深圳)有限公司 视频标签确定方法、装置和服务器
CN110839173A (zh) * 2019-11-18 2020-02-25 上海极链网络科技有限公司 一种音乐匹配方法、装置、终端及存储介质
CN111046943A (zh) * 2019-12-09 2020-04-21 国网智能科技股份有限公司 变电站隔离刀闸状态自动识别方法及系统
CN111163366A (zh) * 2019-12-30 2020-05-15 厦门市美亚柏科信息股份有限公司 一种视频处理方法及终端
CN111209970A (zh) * 2020-01-08 2020-05-29 Oppo(重庆)智能科技有限公司 视频分类方法、装置、存储介质及服务器
CN111222011A (zh) * 2020-01-06 2020-06-02 腾讯科技(深圳)有限公司 一种视频向量确定方法和装置
CN111246124A (zh) * 2020-03-09 2020-06-05 三亚至途科技有限公司 一种多媒体数字融合方法和装置
WO2020119350A1 (zh) * 2018-12-14 2020-06-18 腾讯科技(深圳)有限公司 视频分类方法、装置、计算机设备和存储介质
CN111586473A (zh) * 2020-05-20 2020-08-25 北京字节跳动网络技术有限公司 视频的裁剪方法、装置、设备及存储介质
CN111626049A (zh) * 2020-05-27 2020-09-04 腾讯科技(深圳)有限公司 多媒体信息的标题修正方法、装置、电子设备及存储介质
CN111651626A (zh) * 2020-05-25 2020-09-11 腾讯科技(深圳)有限公司 图像分类方法、装置及可读存储介质
CN111914120A (zh) * 2019-05-08 2020-11-10 阿里巴巴集团控股有限公司 视频分类方法、装置、电子设备以及计算机可读存储介质
CN112364810A (zh) * 2020-11-25 2021-02-12 深圳市欢太科技有限公司 视频分类方法及装置、计算机可读存储介质与电子设备
CN112418215A (zh) * 2020-11-17 2021-02-26 峰米(北京)科技有限公司 一种视频分类识别方法、装置、存储介质和设备
CN112714362A (zh) * 2020-12-25 2021-04-27 北京百度网讯科技有限公司 确定属性的方法、装置、电子设备、介质和程序产品
CN112738556A (zh) * 2020-12-22 2021-04-30 上海哔哩哔哩科技有限公司 视频处理方法及装置
CN112738555A (zh) * 2020-12-22 2021-04-30 上海哔哩哔哩科技有限公司 视频处理方法及装置
CN113033707A (zh) * 2021-04-25 2021-06-25 北京有竹居网络技术有限公司 视频分类方法、装置、可读介质及电子设备
CN113240004A (zh) * 2021-05-11 2021-08-10 北京达佳互联信息技术有限公司 视频信息确定方法、装置、电子设备以及存储介质
WO2021168460A1 (en) * 2020-02-21 2021-08-26 BetterUp, Inc. Determining conversation analysis indicators for a multiparty conversation
CN113343921A (zh) * 2021-06-30 2021-09-03 北京达佳互联信息技术有限公司 视频识别方法、装置、电子设备及存储介质
CN113343936A (zh) * 2021-07-15 2021-09-03 北京达佳互联信息技术有限公司 视频表征模型的训练方法及训练装置
CN113393643A (zh) * 2021-06-10 2021-09-14 上海安亭地平线智能交通技术有限公司 异常行为预警方法、装置、车载终端以及介质
CN113469920A (zh) * 2021-09-02 2021-10-01 中国建筑第五工程局有限公司 用于智能化设备管理的图像处理方法及系统
CN113821675A (zh) * 2021-06-30 2021-12-21 腾讯科技(北京)有限公司 视频识别方法、装置、电子设备及计算机可读存储介质
CN114157906A (zh) * 2020-09-07 2022-03-08 北京达佳互联信息技术有限公司 视频检测方法、装置、电子设备及存储介质
CN114882299A (zh) * 2022-07-11 2022-08-09 深圳市信润富联数字科技有限公司 水果分类方法、装置、采摘设备及存储介质
CN115082930A (zh) * 2021-03-11 2022-09-20 腾讯科技(深圳)有限公司 图像分类方法、装置、电子设备和存储介质
CN115776592A (zh) * 2022-11-03 2023-03-10 深圳创维-Rgb电子有限公司 显示方法、装置、电子设备及存储介质
US11961300B2 (en) 2019-04-29 2024-04-16 Ecole Polytechnique Federale De Lausanne (Epfl) Dynamic media content categorization method
CN115082930B (zh) * 2021-03-11 2024-05-28 腾讯科技(深圳)有限公司 图像分类方法、装置、电子设备和存储介质

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112000819B (zh) * 2019-05-27 2023-07-11 北京达佳互联信息技术有限公司 多媒体资源推荐方法、装置、电子设备及存储介质
CN113127667A (zh) * 2019-12-30 2021-07-16 阿里巴巴集团控股有限公司 图像处理方法及装置、图像分类方法及装置
US11645505B2 (en) * 2020-01-17 2023-05-09 Servicenow Canada Inc. Method and system for generating a vector representation of an image
CN111860353A (zh) * 2020-07-23 2020-10-30 北京以萨技术股份有限公司 基于双流神经网络的视频行为预测方法、装置及介质
CN111988663B (zh) * 2020-08-28 2022-09-06 北京百度网讯科技有限公司 视频播放节点的定位方法、装置、设备以及存储介质
CN112163122B (zh) * 2020-10-30 2024-02-06 腾讯科技(深圳)有限公司 确定目标视频的标签的方法、装置、计算设备及存储介质
CN112784111A (zh) * 2021-03-12 2021-05-11 有半岛(北京)信息科技有限公司 视频分类方法、装置、设备及介质
CN113095194A (zh) * 2021-04-02 2021-07-09 北京车和家信息技术有限公司 图像分类方法、装置、存储介质及电子设备
CN112989117B (zh) * 2021-04-14 2021-08-13 北京世纪好未来教育科技有限公司 视频分类的方法、装置、电子设备和计算机存储介质
CN113473628B (zh) * 2021-08-05 2022-08-09 深圳市虎瑞科技有限公司 智能平台的通信方法以及系统
CN113628249B (zh) * 2021-08-16 2023-04-07 电子科技大学 基于跨模态注意力机制与孪生结构的rgbt目标跟踪方法
CN113850162B (zh) * 2021-09-10 2023-03-24 北京百度网讯科技有限公司 一种视频审核方法、装置及电子设备
CN113837576A (zh) * 2021-09-14 2021-12-24 上海任意门科技有限公司 用于内容推荐的方法、计算设备和计算机可读存储介质
CN113837457A (zh) * 2021-09-14 2021-12-24 上海任意门科技有限公司 用于预测帖子互动行为状态的方法、计算设备和存储介质
CN113813053A (zh) * 2021-09-18 2021-12-21 长春理工大学 一种基于腹腔镜内窥影像的手术进程分析方法
CN114979767B (zh) * 2022-05-07 2023-11-21 咪咕视讯科技有限公司 视频推荐方法、装置、设备及计算机可读存储介质
CN115878804B (zh) * 2022-12-28 2023-06-20 郑州轻工业大学 基于ab-cnn模型的电商评论多分类情感分析方法
CN115797943B (zh) * 2023-02-08 2023-05-05 广州数说故事信息科技有限公司 一种基于多模态的视频文本内容提取方法、系统及存储介质
CN116567306B (zh) * 2023-05-09 2023-10-20 北京新东方迅程网络科技有限公司 一种视频的推荐方法、装置、电子设备及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101937445A (zh) * 2010-05-24 2011-01-05 中国科学技术信息研究所 一种文件自动分类系统
US20130018736A1 (en) * 2005-10-26 2013-01-17 Cortica, Ltd. System and methods thereof for visual analysis of an image on a web-page and matching an advertisement thereto

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN201796362U (zh) * 2010-05-24 2011-04-13 中国科学技术信息研究所 一种文件自动分类系统
CN103200463A (zh) * 2013-03-27 2013-07-10 天脉聚源(北京)传媒科技有限公司 一种视频摘要生成方法和装置
US11055537B2 (en) * 2016-04-26 2021-07-06 Disney Enterprises, Inc. Systems and methods for determining actions depicted in media contents based on attention weights of media content frames
CN106779073B (zh) * 2016-12-27 2019-05-31 西安石油大学 基于深度神经网络的媒体信息分类方法及装置
CN108833973B (zh) * 2018-06-28 2021-01-19 腾讯科技(深圳)有限公司 视频特征的提取方法、装置和计算机设备
CN109359636B (zh) * 2018-12-14 2023-04-28 腾讯科技(深圳)有限公司 视频分类方法、装置及服务器

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130018736A1 (en) * 2005-10-26 2013-01-17 Cortica, Ltd. System and methods thereof for visual analysis of an image on a web-page and matching an advertisement thereto
CN101937445A (zh) * 2010-05-24 2011-01-05 中国科学技术信息研究所 一种文件自动分类系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王鹏等: ""文本为主"的多模态特征融合的新闻视频分类算法", 《清华大学学报(自然科学版)》 *

Cited By (83)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020119350A1 (zh) * 2018-12-14 2020-06-18 腾讯科技(深圳)有限公司 视频分类方法、装置、计算机设备和存储介质
CN110147711A (zh) * 2019-02-27 2019-08-20 腾讯科技(深圳)有限公司 视频场景识别方法、装置、存储介质和电子装置
CN110147711B (zh) * 2019-02-27 2023-11-14 腾讯科技(深圳)有限公司 视频场景识别方法、装置、存储介质和电子装置
CN109758756B (zh) * 2019-02-28 2021-03-23 国家体育总局体育科学研究所 基于3d相机的体操视频分析方法及系统
CN109758756A (zh) * 2019-02-28 2019-05-17 国家体育总局体育科学研究所 基于3d相机的体操视频分析方法及系统
CN110059225A (zh) * 2019-03-11 2019-07-26 北京奇艺世纪科技有限公司 视频分类方法、装置、终端设备及存储介质
CN110059225B (zh) * 2019-03-11 2022-02-15 北京奇艺世纪科技有限公司 视频分类方法、装置、终端设备及存储介质
CN110019950A (zh) * 2019-03-22 2019-07-16 广州新视展投资咨询有限公司 视频推荐方法及装置
CN110020658A (zh) * 2019-03-28 2019-07-16 大连理工大学 一种基于多任务深度学习的显著目标检测方法
CN110084128A (zh) * 2019-03-29 2019-08-02 安徽艾睿思智能科技有限公司 基于语义空间约束和注意力机制的场景图生成方法
CN110084128B (zh) * 2019-03-29 2021-12-14 安徽艾睿思智能科技有限公司 基于语义空间约束和注意力机制的场景图生成方法
CN110162669A (zh) * 2019-04-04 2019-08-23 腾讯科技(深圳)有限公司 视频分类处理方法、装置、计算机设备及存储介质
CN110162669B (zh) * 2019-04-04 2021-07-02 腾讯科技(深圳)有限公司 视频分类处理方法、装置、计算机设备及存储介质
CN110110143A (zh) * 2019-04-15 2019-08-09 厦门网宿有限公司 一种视频分类方法及装置
CN110110143B (zh) * 2019-04-15 2021-08-03 厦门网宿有限公司 一种视频分类方法及装置
CN110046279B (zh) * 2019-04-18 2022-02-25 网易传媒科技(北京)有限公司 视频文件特征的预测方法、介质、装置和计算设备
CN110046279A (zh) * 2019-04-18 2019-07-23 网易传媒科技(北京)有限公司 视频文件特征的预测方法、介质、装置和计算设备
CN110084180A (zh) * 2019-04-24 2019-08-02 北京达佳互联信息技术有限公司 关键点检测方法、装置、电子设备及可读存储介质
CN110163115B (zh) * 2019-04-26 2023-10-13 腾讯科技(深圳)有限公司 一种视频处理方法、装置和计算机可读存储介质
CN110163115A (zh) * 2019-04-26 2019-08-23 腾讯科技(深圳)有限公司 一种视频处理方法、装置和计算机可读存储介质
US11288516B2 (en) 2019-04-29 2022-03-29 Beijing Dajia Internet Information Technology Co., Ltd. Video rating method, video rating device, equipment and storage medium
US11961300B2 (en) 2019-04-29 2024-04-16 Ecole Polytechnique Federale De Lausanne (Epfl) Dynamic media content categorization method
CN110099302A (zh) * 2019-04-29 2019-08-06 北京达佳互联信息技术有限公司 视频分级方法、装置、设备及存储介质
CN111914120A (zh) * 2019-05-08 2020-11-10 阿里巴巴集团控股有限公司 视频分类方法、装置、电子设备以及计算机可读存储介质
CN110287788A (zh) * 2019-05-23 2019-09-27 厦门网宿有限公司 一种视频分类方法及装置
CN110222234A (zh) * 2019-06-14 2019-09-10 北京奇艺世纪科技有限公司 一种视频分类方法和装置
CN110287371A (zh) * 2019-06-26 2019-09-27 北京字节跳动网络技术有限公司 端到端的视频推送方法、装置及电子设备
CN110516086A (zh) * 2019-07-12 2019-11-29 浙江工业大学 一种基于深度神经网络影视标签自动获取方法
CN110516086B (zh) * 2019-07-12 2022-05-03 浙江工业大学 一种基于深度神经网络影视标签自动获取方法
US11256920B2 (en) 2019-07-16 2022-02-22 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for classifying video
CN110334689B (zh) * 2019-07-16 2022-02-15 北京百度网讯科技有限公司 视频分类方法和装置
CN110334689A (zh) * 2019-07-16 2019-10-15 北京百度网讯科技有限公司 视频分类方法和装置
CN110489592A (zh) * 2019-07-18 2019-11-22 平安科技(深圳)有限公司 视频分类方法、装置、计算机设备和存储介质
CN110489592B (zh) * 2019-07-18 2024-05-03 平安科技(深圳)有限公司 视频分类方法、装置、计算机设备和存储介质
WO2021008026A1 (zh) * 2019-07-18 2021-01-21 平安科技(深圳)有限公司 视频分类方法、装置、计算机设备和存储介质
CN110647804A (zh) * 2019-08-09 2020-01-03 中国传媒大学 一种暴力视频识别方法、计算机系统和存储介质
CN110489593A (zh) * 2019-08-20 2019-11-22 腾讯科技(深圳)有限公司 视频的话题处理方法、装置、电子设备及存储介质
CN110598620A (zh) * 2019-09-06 2019-12-20 腾讯科技(深圳)有限公司 模型训练方法和装置、目标检测方法和装置
CN110751030A (zh) * 2019-09-12 2020-02-04 厦门网宿有限公司 一种视频分类方法、设备及系统
CN110674348A (zh) * 2019-09-27 2020-01-10 北京字节跳动网络技术有限公司 视频分类方法、装置及电子设备
CN110769267A (zh) * 2019-10-30 2020-02-07 北京达佳互联信息技术有限公司 一种视频的展示方法、装置、电子设备及存储介质
CN110796204B (zh) * 2019-11-01 2023-05-02 腾讯科技(深圳)有限公司 视频标签确定方法、装置和服务器
CN110796204A (zh) * 2019-11-01 2020-02-14 腾讯科技(深圳)有限公司 视频标签确定方法、装置和服务器
CN110839173A (zh) * 2019-11-18 2020-02-25 上海极链网络科技有限公司 一种音乐匹配方法、装置、终端及存储介质
CN111046943A (zh) * 2019-12-09 2020-04-21 国网智能科技股份有限公司 变电站隔离刀闸状态自动识别方法及系统
CN111163366A (zh) * 2019-12-30 2020-05-15 厦门市美亚柏科信息股份有限公司 一种视频处理方法及终端
CN111222011A (zh) * 2020-01-06 2020-06-02 腾讯科技(深圳)有限公司 一种视频向量确定方法和装置
CN111222011B (zh) * 2020-01-06 2023-11-14 腾讯科技(深圳)有限公司 一种视频向量确定方法和装置
CN111209970A (zh) * 2020-01-08 2020-05-29 Oppo(重庆)智能科技有限公司 视频分类方法、装置、存储介质及服务器
CN111209970B (zh) * 2020-01-08 2023-04-25 Oppo(重庆)智能科技有限公司 视频分类方法、装置、存储介质及服务器
WO2021168460A1 (en) * 2020-02-21 2021-08-26 BetterUp, Inc. Determining conversation analysis indicators for a multiparty conversation
CN111246124B (zh) * 2020-03-09 2021-05-25 三亚至途科技有限公司 一种多媒体数字融合方法和装置
CN111246124A (zh) * 2020-03-09 2020-06-05 三亚至途科技有限公司 一种多媒体数字融合方法和装置
CN111586473A (zh) * 2020-05-20 2020-08-25 北京字节跳动网络技术有限公司 视频的裁剪方法、装置、设备及存储介质
CN111586473B (zh) * 2020-05-20 2023-01-17 北京字节跳动网络技术有限公司 视频的裁剪方法、装置、设备及存储介质
CN111651626A (zh) * 2020-05-25 2020-09-11 腾讯科技(深圳)有限公司 图像分类方法、装置及可读存储介质
CN111651626B (zh) * 2020-05-25 2023-08-22 腾讯科技(深圳)有限公司 图像分类方法、装置及可读存储介质
CN111626049B (zh) * 2020-05-27 2022-12-16 深圳市雅阅科技有限公司 多媒体信息的标题修正方法、装置、电子设备及存储介质
CN111626049A (zh) * 2020-05-27 2020-09-04 腾讯科技(深圳)有限公司 多媒体信息的标题修正方法、装置、电子设备及存储介质
CN114157906A (zh) * 2020-09-07 2022-03-08 北京达佳互联信息技术有限公司 视频检测方法、装置、电子设备及存储介质
CN114157906B (zh) * 2020-09-07 2024-04-02 北京达佳互联信息技术有限公司 视频检测方法、装置、电子设备及存储介质
CN112418215A (zh) * 2020-11-17 2021-02-26 峰米(北京)科技有限公司 一种视频分类识别方法、装置、存储介质和设备
CN112364810A (zh) * 2020-11-25 2021-02-12 深圳市欢太科技有限公司 视频分类方法及装置、计算机可读存储介质与电子设备
CN112738555A (zh) * 2020-12-22 2021-04-30 上海哔哩哔哩科技有限公司 视频处理方法及装置
CN112738556A (zh) * 2020-12-22 2021-04-30 上海哔哩哔哩科技有限公司 视频处理方法及装置
CN112738555B (zh) * 2020-12-22 2024-03-29 上海幻电信息科技有限公司 视频处理方法及装置
CN112714362B (zh) * 2020-12-25 2023-06-27 北京百度网讯科技有限公司 确定属性的方法、装置、电子设备和介质
CN112714362A (zh) * 2020-12-25 2021-04-27 北京百度网讯科技有限公司 确定属性的方法、装置、电子设备、介质和程序产品
CN115082930B (zh) * 2021-03-11 2024-05-28 腾讯科技(深圳)有限公司 图像分类方法、装置、电子设备和存储介质
CN115082930A (zh) * 2021-03-11 2022-09-20 腾讯科技(深圳)有限公司 图像分类方法、装置、电子设备和存储介质
CN113033707B (zh) * 2021-04-25 2023-08-04 北京有竹居网络技术有限公司 视频分类方法、装置、可读介质及电子设备
CN113033707A (zh) * 2021-04-25 2021-06-25 北京有竹居网络技术有限公司 视频分类方法、装置、可读介质及电子设备
CN113240004B (zh) * 2021-05-11 2024-04-30 北京达佳互联信息技术有限公司 视频信息确定方法、装置、电子设备以及存储介质
CN113240004A (zh) * 2021-05-11 2021-08-10 北京达佳互联信息技术有限公司 视频信息确定方法、装置、电子设备以及存储介质
CN113393643A (zh) * 2021-06-10 2021-09-14 上海安亭地平线智能交通技术有限公司 异常行为预警方法、装置、车载终端以及介质
CN113821675A (zh) * 2021-06-30 2021-12-21 腾讯科技(北京)有限公司 视频识别方法、装置、电子设备及计算机可读存储介质
CN113343921B (zh) * 2021-06-30 2024-04-09 北京达佳互联信息技术有限公司 视频识别方法、装置、电子设备及存储介质
CN113343921A (zh) * 2021-06-30 2021-09-03 北京达佳互联信息技术有限公司 视频识别方法、装置、电子设备及存储介质
CN113343936A (zh) * 2021-07-15 2021-09-03 北京达佳互联信息技术有限公司 视频表征模型的训练方法及训练装置
CN113469920B (zh) * 2021-09-02 2021-11-19 中国建筑第五工程局有限公司 用于智能化设备管理的图像处理方法及系统
CN113469920A (zh) * 2021-09-02 2021-10-01 中国建筑第五工程局有限公司 用于智能化设备管理的图像处理方法及系统
CN114882299A (zh) * 2022-07-11 2022-08-09 深圳市信润富联数字科技有限公司 水果分类方法、装置、采摘设备及存储介质
CN115776592A (zh) * 2022-11-03 2023-03-10 深圳创维-Rgb电子有限公司 显示方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
WO2020119350A1 (zh) 2020-06-18
CN111428088B (zh) 2022-12-13
US20210192220A1 (en) 2021-06-24
CN111428088A (zh) 2020-07-17
CN109359636B (zh) 2023-04-28

Similar Documents

Publication Publication Date Title
CN109359636A (zh) 视频分类方法、装置及服务器
US11409791B2 (en) Joint heterogeneous language-vision embeddings for video tagging and search
US9704185B2 (en) Product recommendation using sentiment and semantic analysis
CN111798879B (zh) 用于生成视频的方法和装置
US8948515B2 (en) Method and system for classifying one or more images
CN111062871A (zh) 一种图像处理方法、装置、计算机设备及可读存储介质
CN112131411A (zh) 一种多媒体资源推荐方法、装置、电子设备及存储介质
CN111444357B (zh) 内容信息确定方法、装置、计算机设备及存储介质
CN113748439B (zh) 电影的成功商数的预测
JP2020174338A (ja) 情報を生成するための方法、装置、サーバー、コンピュータ可読記憶媒体およびコンピュータプログラム
CN110166802A (zh) 弹幕处理方法、装置及存储介质
CN113014988A (zh) 视频处理方法、装置、设备以及存储介质
US11636282B2 (en) Machine learned historically accurate temporal classification of objects
CN114661951A (zh) 一种视频处理方法、装置、计算机设备以及存储介质
CN111986259A (zh) 颜文字检测模型的训练、视频数据的审核方法及相关装置
CN116955707A (zh) 内容标签的确定方法、装置、设备、介质及程序产品
Hoy Deep learning and online video: Advances in transcription, automated indexing, and manipulation
US11770572B1 (en) Content distribution platform for uploading and linking content to products and services
US20220132209A1 (en) Method and system for real time filtering of inappropriate content from plurality of video segments
HAQUE Detection and classification of sensitive audio-visual content for automated film censorship and rating
Shamma et al. Automatic Photo to Ideophone Manga Matching
Kucer Representations and representation learning for image aesthetics prediction and image enhancement
CN114443916A (zh) 一种面向试验数据的供需匹配方法及系统
CN118071867A (zh) 将文本数据转换为图像数据的方法和装置
CN117370802A (zh) 分类模型的训练方法、装置、设备和计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant