CN109508584B - 视频分类的方法、信息处理的方法以及服务器 - Google Patents

视频分类的方法、信息处理的方法以及服务器 Download PDF

Info

Publication number
CN109508584B
CN109508584B CN201710833668.8A CN201710833668A CN109508584B CN 109508584 B CN109508584 B CN 109508584B CN 201710833668 A CN201710833668 A CN 201710833668A CN 109508584 B CN109508584 B CN 109508584B
Authority
CN
China
Prior art keywords
video frame
video
expression result
neural network
feature sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710833668.8A
Other languages
English (en)
Other versions
CN109508584A (zh
Inventor
唐永毅
马林
刘威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to CN201710833668.8A priority Critical patent/CN109508584B/zh
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201910834142.0A priority patent/CN110532996B/zh
Priority to JP2020515067A priority patent/JP7127120B2/ja
Priority to KR1020197032023A priority patent/KR102392943B1/ko
Priority to PCT/CN2018/100733 priority patent/WO2019052301A1/zh
Priority to EP18855424.0A priority patent/EP3683723A4/en
Priority to MA050252A priority patent/MA50252A/fr
Publication of CN109508584A publication Critical patent/CN109508584A/zh
Priority to US16/558,015 priority patent/US10956748B2/en
Application granted granted Critical
Publication of CN109508584B publication Critical patent/CN109508584B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/735Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/75Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/15Correlation function computation including computation of convolution operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/48Matching video sequences

Abstract

本申请公开了一种信息处理的方法,包括:获取待处理视频;根据时间特征采样规则对待处理视频进行采样,并获取至少一个视频帧特征序列,时间特征采样规则为时间特征与视频帧特征序列之间的对应关系;通过第一神经网络模型对至少一个视频帧特征序列进行处理,得到每个视频帧特征序列的特征表达结果;通过第二神经网络模型对至少一个视频帧特征序列的特征表达结果进行处理,得到至少一个视频帧特征序列所对应的预测结果,预测结果用于确定待处理视频的类别。本申请还提供一种服务器。本申请在对视频进行分类的过程中,还考虑到视频在时间维度上的特征变化,从而能够更好地表达视频内容,提高视频分类的准确率,提升视频分类的效果。

Description

视频分类的方法、信息处理的方法以及服务器
技术领域
本发明涉及计算机技术领域,尤其涉及视频分类的方法、信息处理的方法以及服务器。
背景技术
随着网络多媒体技术的飞速发展,各式各样的多媒体信息不断涌现。越来越多的用户习惯于在网络上观看视频,为了使用户能够从大量的视频中选择自己想观看的内容,通常会对视频进行分类,因此,视频分类对于实现视频的管理以及兴趣推荐具有十分重要的作用。
目前所采用的视频分类方法主要为,先对待标记视频中的每一个视频帧进行特征提取,然后通过平均特征方法将帧级别的特征变换为视频级别的特征,最后将视频级别的特征传输到分类网络中进行分类。
然而,在目前的视频分类方法中,仅采用平均特征方法对帧级别的特征进行变换是较为单一的,并没有考虑到其他维度的变化对视频帧变换的影响,从而不利于视频分类的准确性。
发明内容
本发明实施例提供了一种视频分类的方法、信息处理的方法以及服务器,在对视频进行分类的过程中,还考虑到视频在时间维度上的特征变化,从而能够更好地表达视频内容,提高视频分类的准确率,提升视频分类的效果。
有鉴于此,本发明第一方面提供了一种视频分类的方法,包括:
获取待处理视频,其中,所述待处理视频包含多个视频帧,每个视频帧对应一个时间特征;
根据时间特征采样规则对所述待处理视频进行采样,并获取至少一个视频帧特征序列,其中,所述时间特征采样规则为时间特征与视频帧特征序列之间的对应关系;
通过第一神经网络模型对所述至少一个视频帧特征序列进行处理,得到每个视频帧特征序列所对应的特征表达结果;
通过第二神经网络模型对所述至少一个视频帧特征序列所对应的特征表达结果进行处理,得到所述至少一个视频帧特征序列所对应的预测结果;
根据所述至少一个视频帧特征序列所对应的预测结果确定所述待处理视频的类别。
本发明第二方面提供了一种信息处理的方法,包括:
获取待处理视频,其中,所述待处理视频包含多个视频帧,每个视频帧对应一个时间特征;
根据时间特征采样规则对所述待处理视频进行采样,并获取至少一个视频帧特征序列,其中,所述时间特征采样规则为时间特征与视频帧特征序列之间的对应关系;
通过第一神经网络模型对所述至少一个视频帧特征序列进行处理,得到每个视频帧特征序列所对应的特征表达结果;
通过第二神经网络模型对所述至少一个视频帧特征序列所对应的特征表达结果进行处理,得到所述至少一个视频帧特征序列所对应的预测结果,其中,所述预测结果用于确定所述待处理视频的类别。
本发明第三方面提供了一种服务器,包括:
第一获取模块,用于获取待处理视频,其中,所述待处理视频包含多个视频帧,每个视频帧对应一个时间特征;
第二获取模块,用于根据时间特征采样规则对所述第一获取模块获取的所述待处理视频进行采样,并获取至少一个视频帧特征序列,其中,所述时间特征采样规则为时间特征与视频帧特征序列之间的对应关系;
第一输入模块,用于通过第一神经网络模型对所述第二获取模块获取的所述至少一个视频帧特征序列进行处理,得到每个视频帧特征序列所对应的特征表达结果;
第二输入模块,用于通过第二神经网络模型对所述第一输入模块输入后得到的所述至少一个视频帧特征序列所对应的特征表达结果进行处理,得到所述至少一个视频帧特征序列所对应的预测结果,其中,所述预测结果用于确定所述待处理视频的类别。
本发明第四方面提供了一种服务器,包括:存储器、处理器以及总线系统;
其中,所述存储器用于存储程序;
所述处理器用于执行所述存储器中的程序,具体包括如下步骤:
获取待处理视频,其中,所述待处理视频包含多个视频帧,每个视频帧对应一个时间特征;
根据时间特征采样规则对所述待处理视频进行采样,并获取至少一个视频帧特征序列,其中,所述时间特征采样规则为时间特征与视频帧特征序列之间的对应关系;
通过第一神经网络模型对所述至少一个视频帧特征序列进行处理,得到每个视频帧特征序列所对应的特征表达结果;
通过第二神经网络模型对所述至少一个视频帧特征序列所对应的特征表达结果进行处理,得到所述至少一个视频帧特征序列所对应的预测结果,其中,所述预测结果用于确定所述待处理视频的类别;
所述总线系统用于连接所述存储器以及所述处理器,以使所述存储器以及所述处理器进行通信。
本发明的第五方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各方面所述的方法。
从以上技术方案可以看出,本发明实施例具有以下优点:
本发明实施例中,提供了一种信息处理的方法,首先服务器获取待处理视频,其中,待处理视频包含多个视频帧,每个视频帧对应一个时间特征,然后根据时间特征采样规则对待处理视频进行采样,并获取至少一个视频帧特征序列,其中,时间特征采样规则为时间特征与视频帧特征序列之间的对应关系,服务器通过第一神经网络模型对所述至少一个视频帧特征序列进行处理,得到每个视频帧特征序列所对应的特征表达结果,最后服务器通过第二神经网络模型对至少一个视频帧特征序列所对应的特征表达结果进行处理,得到至少一个视频帧特征序列所对应的预测结果,预测结果用于确定待处理视频的类别。通过上述方式,在对视频进行分类的过程中,还考虑到视频在时间维度上的特征变化,从而能够更好地表达视频内容,提高视频分类的准确率,提升视频分类的效果。
附图说明
图1为本发明实施例中信息处理的架构示意图;
图2为本发明实施例中信息处理的方法一个实施例示意图;
图3为本发明实施例中待处理视频的一个示意图;
图4为本发明实施例中具有意念结构的卷积神经网络示意图;
图5为本发明实施例中第一神经网络模型的一个结构示意图;
图6为本发明实施例中第二神经网络模型的一个结构示意图;
图7为本发明实施例中服务器一个实施例示意图;
图8为本发明实施例中服务器另一个实施例示意图;
图9为本发明实施例中服务器另一个实施例示意图;
图10为本发明实施例中服务器另一个实施例示意图;
图11为本发明实施例中服务器另一个实施例示意图;
图12为本发明实施例中服务器另一个实施例示意图;
图13为本发明实施例中服务器另一个实施例示意图;
图14为本发明实施例中服务器另一个实施例示意图;
图15为本发明实施例中服务器一个结构示意图。
具体实施方式
本发明实施例提供了一种视频分类的方法、信息处理的方法以及服务器,在对视频进行分类的过程中,还考虑到视频在时间维度上的特征变化,从而能够更好地表达视频内容,提高视频分类的准确率,提升视频分类的效果。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应理解,本方案主要用于提供视频内容分类服务,在后台服务器对视频进行特征提取,时间序列建模与特征压缩,最后通过混合专家模型对视频特征进行分类,从而实现在服务器对视频进行自动化分类与标签。可以将本方案部署在视频类网站,为视频类网站中视频添加关键字词,还可以用于快速搜索与匹配内容,此外,又可以用于视频个性化推荐。
为了便于介绍,请参阅图1,图1为本发明实施例中信息处理的架构示意图,如图所示,首先,服务器获取待处理视频,从图1可以看出,待处理视频包含了多个视频帧,而且每个视频帧对应一个时间特征,不同的时间特征可以用t来表示。接下来,服务器采用卷积神经网络对待处理视频中的每个视频帧进行处理,得到每个视频帧所对应的时间特征,然后服务器根据每个视频帧所对应的时间特征,确定待处理视频的时间特征序列,时间特征序列也就是帧级别的深度学习表达。
紧接着,请继续参阅图1,服务器可以根据时间特征采样规则对待处理视频进行采样,其中,时间特征采样规则是指以不同帧率对视频特征在时间维度上进行采样,并获取至少一个视频帧特征序列,这些视频帧特征序列对应不同的时间尺度。服务器在将不同时间尺度对应的视频帧特征序列输入分别输入至双向递归神经网络,得到每个视频帧特征序列所对应的特征表达结果,该特征表达结果即为每个时间尺度上的视频特征表达。最后,服务器将所有的特征表达结果输入至混合专家模型中,并得到每个视频帧特征序列所对应的预测结果,根据这些预测结果可以确定待处理视频的类别,以此来对待处理视频进行分类。
在常见的视频数据中,用户常常会对视频信息进行描述、评论以及提供个性化的标签数据,因而形成与在线视频相关的丰富的文本信息。这些文本信息也可以作为视频分类的依据。
下面将从服务器的角度,对本发明中信息处理的方法进行介绍,请参阅图2,本发明实施例中信息处理的方法一个实施例包括:
101、获取待处理视频,其中,待处理视频包含多个视频帧,每个视频帧对应一个时间特征;
本实施例中,服务器先要获取待处理视频,具体地,请参阅图3,图3为本发明实施例中待处理视频的一个示意图,待处理视频包含了多个视频帧,如图3中每张图即为一个视频帧,每个视频帧会对应一个时间特征。
其中,由于待处理视频具有一段播放时间,因此每一帧视频帧都具有不同的播放时刻,假设待处理视频中第一个视频帧的时间特征为“1”,那么第二个视频帧的时间特征为“2”,以此类推,第T个视频帧的时间特征为“T”。
102、根据时间特征采样规则对待处理视频进行采样,并获取至少一个视频帧特征序列,其中,时间特征采样规则为时间特征与视频帧特征序列之间的对应关系;
本实施例中,接下来,服务器需要根据时间特征采样规则对该待处理视频进行采样处。其中,时间特征采样规则中包含了预先设定的时间特征和视频帧特征序列之间的关系,不同的视频帧特征序列可以具有不同的尺度大小,例如,一个待处理视频共有1000个视频帧,这1000个视频帧分别对应1至1000的时间特征,如果时间特征采样规则为每个时间特征对应一个视频帧特征序列,那么这个尺度下的视频帧特征序列长度为1000。如果时间特征采样规则为每100个时间特征对应一个视频帧特征序列,那么这个尺度下的视频帧特征序列长度为10。以此类推,此处不作赘述。
103、通过第一神经网络模型对所述至少一个视频帧特征序列进行处理,得到每个视频帧特征序列所对应的特征表达结果;
本实施例中,服务器在得到至少一个视频帧特征序列之后,可以分别将不同尺度所对应的视频帧特征序列输入至第一神经网络模型,然后由第一神经网络模型输出各个视频帧特征序列的特征表达结果。
其中,不同的尺度也就是不同的视频帧特征序列长度,如步骤102中所介绍的,假设视频的总长度为T,如果以1帧为视频帧特征序列,那么就是视频帧特征序列长度就是T/1。如果我们以10帧为视频帧特征序列,那么视频帧特征序列长度就是T/10。
104、通过第二神经网络模型对至少一个视频帧特征序列所对应的特征表达结果进行处理,得到至少一个视频帧特征序列所对应的预测结果,其中,预测结果用于确定待处理视频的类别。
本实施例中,服务器可以分别将每个视频帧特征序列所对应的特征表达结果输入至第二神经网络模型,然后由第二神经网络模型输出各个特征表达结果所对应的预测结果。最后,服务器可以根据预测结果来确定待处理视频的类别。
可以理解的是,待处理视频的类别可以有“体育”、“新闻”、“音乐”“动漫”和“游戏”等,此处不做限定。
本发明实施例中,提供了一种信息处理的方法,首先服务器获取待处理视频,其中,待处理视频包含多个视频帧,每个视频帧对应一个时间特征,然后根据时间特征采样规则对待处理视频进行采样,并获取至少一个视频帧特征序列,其中,时间特征采样规则为时间特征与视频帧特征序列之间的对应关系,服务器再将至少一个视频帧特征序列输入至第一神经网络模型,得到每个视频帧特征序列所对应的特征表达结果,最后服务器将每个视频帧特征序列所对应的特征表达结果输入至第二神经网络模型,得到每个视频帧特征序列所对应的预测结果,预测结果用于确定待处理视频的类别。通过上述方式,在对视频进行分类的过程中,还考虑到视频在时间维度上的特征变化,从而能够更好地表达视频内容,提高视频分类的准确率,提升视频分类的效果。
可选地,在上述图2对应的实施例的基础上,本发明实施例提供的信息处理的方法第一个可选实施例中,获取待处理视频之后,还可以包括:
采用卷积神经网络CNN对待处理视频中的每个视频帧进行处理,得到每个视频帧所对应的时间特征;
根据每个视频帧所对应的时间特征,确定待处理视频的时间特征序列,其中,时间特征序列用于进行采样。
本实施例中,服务器在获取待处理视频之后,需要采用具有意念(inception)结构的卷积神经网络(convolutional neural network,CNN)对待处理视频中的每个视频帧进行处理,然后提取每个视频帧所对应的时间特征。最后,服务器根据每个视频帧的时间特征,确定待处理视频的时间特征序列。假设待处理视频的第一个视频帧为1,第二个视频帧为2,以此类推,最后一个视频帧为T,那么可以确定待处理视频的时间特征序列为T(秒)。
下面将介绍inception结构的CNN,请参阅图4,图4为本发明实施例中具有意念结构的卷积神经网络示意图,如图所示,inception结构包含了3个不同尺寸的卷积,即1×1卷积层、3×3卷积层、5×5卷积层以及3×3最大池化层,去除了最后的全连接层,而使用全局平均池化层(将图片尺寸变为1×1)取代全连接层。
要想增强网络能力,可以增加网络深度,增加网络宽度。但是为了减少过拟合,也要减少自由参数。因此,在inception结构的同一层里中,有卷积1×1卷积层、3×3卷积层和5×5卷积层三个不同的卷积模板,他们可以在不同尺寸下做特征提取,也是一种混合模型。因为最大池化层本身也有特征提取的作用,而且和卷积不同,没有参数不会过拟合,也作为一个分支。但是直接这样做,整个网络计算量会较大,且层次并没有变深,因此,在3×3卷积和5×5卷积前面先做1×1的卷积,降低输入的通道的数量,这样既使得网络变深,同时计算量反而小了。
其次,本发明实施例中,服务器获取待处理视频之后,还可以采用卷积神经网络对该待处理视频中的每个视频帧进行处理,并且得到各个视频帧对应的时间特征,这些时间特征用于构成整个待处理视频的时间特征序列。通过上述方式,利用卷积神经网络对每个视频帧进行训练和处理,有利于提升时间特征提取的准确性和效果。
可选地,在上述图2对应的第一个实施例的基础上,本发明实施例提供的信息处理的方法第二个可选实施例中,根据时间特征采样规则对待处理视频进行采样,并获取至少一个视频帧特征序列,可以包括:
根据时间特征采样规则确定至少一个时间窗口,其中,每个时间窗口包含待处理视频中的至少一个视频帧;
从时间特征序列中提取每个时间窗口对应的视频帧特征序列。
本实施例中,将介绍服务器如何获取至少一个视频帧特征序列的。
具体地,首先根据时间特征采样规则定义至少一个时间窗口,以进行多尺度的视频帧特征序列采样。假设待处理视频共有T秒,分别以1帧视频帧、5帧视频帧和10帧视频帧为时间窗口,对该时间窗口内的视频帧特征做平均,得到三个不同尺度下的视频帧特征序列。如果T秒等于100帧,我们以1帧为时间窗口,那么视频帧特征序列长度就是T/1=T。如果我们以10帧为时间窗口,那么最后得到的就是视频帧特征序列长度就是T/10。因此,视频帧特征序列长度与时间窗口的大小有关。
其中,时间窗口大小可以是人为预先定义的,一个时间窗口内视频帧的数量越多,颗粒度也就越大,对于每个时间窗口中的内容我们是把它做一个平均操作,以此变成“一帧”的内容。
再次,本发明实施例中,说明了提取不同尺度下视频帧特征序列的方法,即先根据时间特征采样规则确定至少一个时间窗口,其中,每个时间窗口包含待处理视频中的至少一个视频帧,然后从时间特征序列中提取每个时间窗口对应的视频帧特征序列。通过上述方式,能够获得不同尺度下的视频帧特征序列,以此得到多个不同的样本来进行特征训练,这样的话,有利于提高视频分类结果的准确性。
可选地,在上述图2对应的实施例的基础上,本发明实施例提供的信息处理的方法第三个可选实施例中,通过第一神经网络模型对所述至少一个视频帧特征序列进行处理,得到每个视频帧特征序列所对应的特征表达结果,可以包括:
将至少一个视频帧特征序列输入至第一神经网络模型中的前向递归神经网络,以获取第一表达结果;
将至少一个视频帧特征序列输入至第一神经网络模型中的后向递归神经网络,以获取第二表达结果;
根据第一表达结果和第二表达结果,计算至少一个视频帧特征序列所对应的特征表达结果。
本实施例中,将介绍如何利用第一神经网络模型得到每个视频帧特征序列所对应的特征表达结果。
具体地,请参阅图5,图5为本发明实施例中第一神经网络模型的一个结构示意图,如图所示,整个第一神经网络模型包括两个部分,即前向递归神经网络和后向递归神经网络,将每个视频帧特征序列输入至前向递归神经网络,然后输出相应的第一表达结果。与此同时,将每个视频帧特征序列输入至后向递归神经网络,然后输出相应的第二表达结果。
最后,直接拼接第一表达结果和第二表达结果,即可得到视频帧特征序列所对应的特征表达结果。
其次,本发明实施例中,在提取视频帧特征序列的基础上,可以使用基于递归门单元的递归神经网络对视频帧特征序列进行时序建模,进一步地,为了更好地对不同时间规模的信息进行特征表达,本方案中还可以使用第一神经网络模型进行视频特征压缩。通过上述方式,对于递归神经网络,由于大多数视频的主要内容是发生在视频时间中部,因此使用双向递归神经网络分别从前向和后向往待处理视频的时间中心点位置进行特征压缩与表达。以此,提升方案的可操作性。
可选地,在上述图2对应的第三个实施例的基础上,本发明实施例提供的信息处理的方法第四个可选实施例中,根据第一表达结果和第二表达结果,计算至少一个视频帧特征序列所对应的特征表达结果,可以包括:
采用如下公式计算至少一个视频帧特征序列所对应的特征表达结果:
Figure BDA0001409303230000101
Figure BDA0001409303230000102
Figure BDA0001409303230000103
其中,h表示一个视频帧特征序列的特征表达结果,
Figure BDA0001409303230000104
表示第一表达结果,
Figure BDA0001409303230000105
表示第二表达结果,xt表示第t时刻的视频帧特征序列,GRU()表示采用门控循环单元GRU神经网络处理,T表示待处理视频的总时间,t表示从1至T中的一个整数。
本实施例中,可以使用双向递归神经网络分别从前向和后向往视频时间中心点位置进行特征压缩与表达。具体为,对于某个尺度的视频帧特征序列xt,t∈[1,T]。
前向递归神经网络为:
Figure BDA0001409303230000111
后向递归神经网络为:
Figure BDA0001409303230000112
其中,
Figure BDA0001409303230000113
为前向递归神经网络的中间层特征表达,也可表达为第一表达结果
Figure BDA0001409303230000114
Figure BDA0001409303230000115
为后向递归神经网络的中间层特征表达,也可表达为第二表达结果
Figure BDA0001409303230000116
GRU()为递归门单元函数,其具体形式为:
zt=σg(Wzxt+Uzht-1+bz);
rt=σg(Wrxt+Urht-1+br);
Figure BDA0001409303230000119
其中,σg表示sigmoid函数,σh表示反正切函数,此外,Wz、Wr、Wt、Uz、Ur和Uh均为线性变换参数矩阵,不同的下角标分别表示不同的“门”,bz、br和bh为偏置参数向量。
Figure BDA0001409303230000118
表示复合函数的计算。
由此,我们可以将第一表达结果和第二表达结果拼接起来,得到某个尺度对应的特征表达结果,即
Figure BDA0001409303230000117
再次,本发明实施例中,具体介绍了如何根据第一表达结果和第二表达结果,计算每个视频帧特征序列所对应的特征表达结果。通过上述方式,可以利用相关公式计算得到预测结果,为方案的实现提供了可行的方式,从而可以提升方案的可行性和可操作性。
可选地,在上述图2对应的实施例的基础上,本发明实施例提供的信息处理的方法第五个可选实施例中,通过第二神经网络模型对所述至少一个视频帧特征序列所对应的特征表达结果进行处理,得到至少一个视频帧特征序列所对应的预测结果,可以包括:
将至少一个视频帧特征序列所对应的特征表达结果输入至第二神经网络模型中的第一子模型,以获取第三表达结果;
将至少一个视频帧特征序列所对应的特征表达结果输入至第二神经网络模型中的第二子模型,以获取第四表达结果;
根据第三表达结果和第四表达结果,计算至少一个视频帧特征序列所对应的预测结果。
本实施例中,将介绍如何利用第二神经网络模型得到每个视频帧特征序列所对应的预测结果。
具体地,请参阅图6,图6为本发明实施例中第二神经网络模型的一个结构示意图,如图所示,整个第二神经网络模型包括两个部分,分别为第一子模型和第二子模型,第一子模型又可以称为“门表达”,第二子模型又可以称为“激活表达”。将每个视频帧特征序列所对应的特征表达结果输入至“门表达”,然后输出相应的第三表达结果。与此同时,将每个视频帧特征序列所对应的特征表达结果输入至“激活表达”,然后输出相应的第四表达结果。
将每个第三表达结果和每个第四表达结果进行相乘,再进行相加,即可得到该视频帧特征序列的预测结果。
其次,本发明实施例中,在使用第一神经网络模型获得特征表达结果之后,还可以进一步采用第二神经网络模型来对该特征表达结果进行分类。通过上述方式,可以将特征表达结果经过非线性变换分别获得门表达和激活表达,然后将两路表达进行乘积操作并进行相加,获得最终特征表达用于分类,从而有利于提升分类的准确度。
可选地,在上述图2对应的第五个实施例的基础上,本发明实施例提供的信息处理的方法第六个可选实施例中,根据第三表达结果和第四表达结果,计算至少一个视频帧特征序列所对应的预测结果,可以包括:
采用如下公式计算至少一个视频帧特征序列所对应的预测结果:
Figure BDA0001409303230000121
gn=σg(Wgh+bg),n∈[1,N];
an=σa(Wah+ba),n∈[1,N];
其中,lable表示一个视频帧特征序列的预测结果,gn表示第三表达结果,an表示第四表达结果,σg表示softmax函数,σa表示sigmoid函数,h表示视频帧特征序列的特征表达结果,Wg和bg表示第一子模型中的参数,Wa和ba表示第二子模型的参数,N表示对特征表达结果进行非线性变换后得到的计算总数,n表示从1至N中的一个整数。
本实施例中,具体介绍了如何采用相应的公式计算得到每个视频帧特征序列所对应的预测结果。
首先,利用获取对特征表达结果进行非线性变换得到的N路门表达(gaterepresentation)和激活表达(activation representation),然后计算gaterepresentation对应的第三表达结果gn,以及计算activation representation对应的第四表达结果an,需要说明的是,计算第三表达结果gn和第四表达结果an的时候不分计算顺序。
得到两路表达后,将进行乘积操作,再进行相加操作,即可得到一个视频帧特征序列的预测结果。
再次,本发明实施例中,具体介绍了如何根据第三表达结果和第四表达结果,计算每个视频帧特征序列所对应的预测结果。通过上述方式,可以利用相关公式计算得到预测结果,为方案的实现提供了可行的方式,从而可以提升方案的可行性和可操作性。
可选地,在上述图2以及图2对应的第一个至第六个实施例中任一项的基础上,本发明实施例提供的信息处理的方法第七个可选实施例中,通过第二神经网络模型对至少一个视频帧特征序列所对应的特征表达结果进行处理,得到至少一个视频帧特征序列所对应的预测结果之后,还可以包括:
根据至少一个视频帧特征序列所对应的预测结果以及至少一个视频帧特征序列所对应的权重值,计算待处理视频的类别;
根据待处理视频的类别对待处理视频进行分类。
本实施例中,服务器还可以根据每个视频帧特征序列所对应的预测结果以及每个视频帧特征序列所对应的权重值,计算待处理视频的类别,并且根据分类结果对该待处理视频进行分类。
具体地,假设预测结果最多有5个,以长度为5的“0和1”编码来表示预测结果,比如说预测结果为1的编码为00001,预测结果为3的编码为00100,以此类推,如果一个待处理视频同时包含预测结果1和预测结果3,那么该待处理视频表示为00101。
但是对于整个待处理视频而言,我们得到的是对于每个视频帧特征序列所对应的预测结果,所以每个预测结果不大于1,预测结果可以代表待处理视频属于这个类别的可能性。比如{0.01,0.02,0.9,0.005,1.0}是一个合理的预测结果,意思是该待处理视频属于第一个类别的概率为1.0即100%,属于第二个类别的概率为0.005即0.5%,属于第三个类别的概率为0.9即90%,属于第四个类别的概率为0.02即2%,属于第五个类别的概率为0.01即1%。
此时,利用预先设置的权重值对预测结果进行计算,计算可以采用加权算法,每个权重值是通过线性回归学习到的,是一个数值,代表着每个视频帧特征序列的重要性,且权重值之和为1,比如{0.1,0.4,0.5}。下面将具体说明如何计算得到待处理视频的类别。
若权重值为{0.2,0.3,0.5},视频帧特征序列1的预测结果为{0.01,0.02,0.9,0.005,1.0},视频帧特征序列2的预测结果为{0.02,0.01,0.9,0.000 0.9},视频帧特征序列3的预测结果为{0.2,0.3,0.8,0.01 0.7},则待处理视频的类别表示为:
0.2×0.01+0.3×0.02+0.5×0.2,0.2×0.02+0.3×0.01+0.5×0.3,0.2×0.9+0.3×0.9+0.5×0.8,0.2×0.005+0.3×0.000+0.5×0.01,0.2×1.0+0.3×0.9+0.5×0.7
={0.108,0.157,0.85,0.0075,0.82}
从上式的结果可以看出,待处理视频属于第三个类别的概率最大,其次是第一个类别,因此,可以将待处理视频优先显示在第三个类别的视频列表中。
进一步地,本发明实施例中,服务器在得到每个视频帧特征序列所对应的预测结果之后,还可以根据每个视频帧特征序列所对应的预测结果以及每个视频帧特征序列所对应的权重值,计算出待处理视频的类别,最后根据待处理视频的类别对待处理视频进行分类。通过上述方式,由于预测结果参考了时间特征,在分析待处理视频的时候,能够提升视频分类的能力,从而实现个性化推荐,具有较好的实用性。
下面对本发明中的服务器进行详细描述,请参阅图7,图7为本发明实施例中服务器一个实施例示意图,服务器20包括:
第一获取模块201,用于获取待处理视频,其中,所述待处理视频包含多个视频帧,每个视频帧对应一个时间特征;
第二获取模块202,用于根据时间特征采样规则对所述第一获取模块201获取的所述待处理视频进行采样,并获取至少一个视频帧特征序列,其中,所述时间特征采样规则为时间特征与视频帧特征序列之间的对应关系;
第一输入模块203,用于通过第一神经网络模型对所述第二获取模块202获取的所述至少一个视频帧特征序列进行处理,得到每个视频帧特征序列所对应的特征表达结果;
第二输入模块204,用于通过第二神经网络模型对所述第一输入模块203得到所述至少一个视频帧特征序列所对应的特征表达结果进行处理,得到所述至少一个视频帧特征序列所对应的预测结果,其中,所述预测结果用于确定所述待处理视频的类别。
本实施例中,第一获取模块201获取待处理视频,其中,所述待处理视频包含多个视频帧,每个视频帧对应一个时间特征,第二获取模块202根据时间特征采样规则对所述第一获取模块201获取的所述待处理视频进行采样,并获取至少一个视频帧特征序列,其中,所述时间特征采样规则为时间特征与视频帧特征序列之间的对应关系,第一输入模块203通过第一神经网络模型对所述第二获取模块202获取的所述至少一个视频帧特征序列进行处理,得到每个视频帧特征序列所对应的特征表达结果,第二输入模块204通过第二神经网络模型对所述第一输入模块203得到的所述至少一个视频帧特征序列所对应的特征表达结果进行处理,得到所述至少一个视频帧特征序列所对应的预测结果,其中,所述预测结果用于确定所述待处理视频的类别。
本发明实施例中,提供了一种服务器,首先该服务器获取待处理视频,其中,待处理视频包含多个视频帧,每个视频帧对应一个时间特征,然后根据时间特征采样规则对待处理视频进行采样,并获取至少一个视频帧特征序列,其中,时间特征采样规则为时间特征与视频帧特征序列之间的对应关系,服务器再将至少一个视频帧特征序列输入至第一神经网络模型,得到每个视频帧特征序列所对应的特征表达结果,最后服务器将每个视频帧特征序列所对应的特征表达结果输入至第二神经网络模型,得到每个视频帧特征序列所对应的预测结果,预测结果用于确定待处理视频的类别。通过上述方式,在对视频进行分类的过程中,还考虑到视频在时间维度上的特征变化,从而能够更好地表达视频内容,提高视频分类的准确率,提升视频分类的效果。
可选地,在上述图7所对应的实施例的基础上,请参阅图8,本发明实施例提供的服务器20的另一实施例中,所述服务器20还包括:
处理模块205,用于所述第一获取模块201获取待处理视频之后,采用卷积神经网络CNN对所述待处理视频中的每个视频帧进行处理,得到所述每个视频帧所对应的所述时间特征;
确定模块206,用于根据所述处理模块205处理的所述每个视频帧所对应的时间特征,确定所述待处理视频的时间特征序列,其中,所述时间特征序列用于进行采样。
其次,本发明实施例中,服务器获取待处理视频之后,还可以采用卷积神经网络对该待处理视频中的每个视频帧进行处理,并且得到各个视频帧对应的时间特征,这些时间特征用于构成整个待处理视频的时间特征序列。通过上述方式,利用卷积神经网络对每个视频帧进行训练和处理,有利于提升时间特征提取的准确性和效果。
可选地,在上述图8所对应的实施例的基础上,请参阅图9,本发明实施例提供的服务器20的另一实施例中,
所述第二获取模块202包括:
确定单元2021,用于根据所述时间特征采样规则确定至少一个时间窗口,其中,每个时间窗口包含所述待处理视频中的至少一个视频帧;
提取单元2022,用于从所述时间特征序列中提取所述所述确定单元2021确定的每个时间窗口对应的视频帧特征序列。
再次,本发明实施例中,说明了提取不同尺度下视频帧特征序列的方法,即先根据时间特征采样规则确定至少一个时间窗口,其中,每个时间窗口包含待处理视频中的至少一个视频帧,然后从时间特征序列中提取每个时间窗口对应的视频帧特征序列。通过上述方式,能够获得不同尺度下的视频帧特征序列,以此得到多个不同的样本来进行特征训练,这样的话,有利于提高视频分类结果的准确性。
可选地,在上述图9所对应的实施例的基础上,请参阅图10,本发明实施例提供的服务器20的另一实施例中,
所述第一输入模块203包括:
第一获取单元2031,用于将所述至少一个视频帧特征序列输入至所述第一神经网络模型中的前向递归神经网络,获取第一表达结果;
第二获取单元2032,用于将所述每个视频帧特征序列输入至所述第一神经网络模型中的后向递归神经网络,获取第二表达结果;
第一计算单元2033,用于根据所述第一获取单元2031获取的所述第一表达结果和所述第二获取单元2032获取的所述第二表达结果,计算所述至少一个视频帧特征序列所对应的特征表达结果。
其次,本发明实施例中,在提取视频帧特征序列的基础上,可以使用基于递归门单元的递归神经网络对视频帧特征序列进行时序建模,进一步地,为了更好地对不同时间规模的信息进行特征表达,本方案中还可以使用第一神经网络模型进行视频特征压缩。通过上述方式,对于递归神经网络,由于大多数视频的主要内容是发生在视频时间中部,因此使用双向递归神经网络分别从前向和后向往待处理视频的时间中心点位置进行特征压缩与表达。以此,提升方案的可操作性。
可选地,在上述图10所对应的实施例的基础上,请参阅图11,本发明实施例提供的服务器20的另一实施例中,
所述第一计算单元2033包括:
第一计算子单元20331,用于采用如下公式计算至少一个视频帧特征序列所对应的特征表达结果:
Figure BDA0001409303230000171
Figure BDA0001409303230000181
Figure BDA0001409303230000182
其中,所述h表示一个视频帧特征序列的特征表达结果,所述
Figure BDA0001409303230000183
表示所述第一表达结果,所述
Figure BDA0001409303230000184
表示所述第二表达结果,所述xt表示第t时刻的所述视频帧特征序列,所述GRU()表示采用门控循环单元GRU神经网络处理,所述T表示所述待处理视频的总时间,所述t表示从1至所述T中的一个整数。
再次,本发明实施例中,具体介绍了如何根据第一表达结果和第二表达结果,计算每个视频帧特征序列所对应的特征表达结果。通过上述方式,可以利用相关公式计算得到预测结果,为方案的实现提供了可行的方式,从而可以提升方案的可行性和可操作性。
可选地,在上述图7所对应的实施例的基础上,请参阅图12,本发明实施例提供的服务器20的另一实施例中,
所述第二输入模块204包括:
第三获取单元2041,用于将所述每个视频帧特征序列所对应的特征表达结果输入至所述第二神经网络模型中的第一子模型,以获取第三表达结果;
第四获取单元2042,用于将所述每个视频帧特征序列所对应的特征表达结果输入至所述第二神经网络模型中的第二子模型,以获取第四表达结果;
第二计算单元2043,用于根据所述第三获取单元2041获取的所述第三表达结果和所述第四获取单元2042获取的所述第四表达结果,计算所述每个视频帧特征序列所对应的预测结果。
其次,本发明实施例中,在使用第一神经网络模型获得特征表达结果之后,还可以进一步采用第二神经网络模型来对该特征表达结果进行分类。通过上述方式,可以将特征表达结果经过非线性变换分别获得门表达和激活表达,然后将两路表达进行乘积操作并进行相加,获得最终特征表达用于分类,从而有利于提升分类的准确度。
可选地,在上述图12所对应的实施例的基础上,请参阅图13,本发明实施例提供的服务器20的另一实施例中,
所述第二计算单元2043包括:
第二计算子单元20431,用于采用如下公式计算所述每个视频帧特征序列所对应的预测结果:
Figure BDA0001409303230000191
gn=σg(Wgh+bg),n∈[1,N];
an=σa(Wah+ba),n∈[1,N];
其中,所述lable表示一个视频帧特征序列的预测结果,所述gn表示所述第三表达结果,所述an表示所述第四表达结果,所述σg表示softmax函数,所述σa表示sigmoid函数,所述h表示所述视频帧特征序列的特征表达结果,所述Wg和所述bg表示所述第一子模型中的参数,所述Wa和所述ba表示所述第二子模型的参数,所述N表示对所述特征表达结果进行非线性变换后得到的计算总数,所述n表示从1至所述N中的一个整数。
再次,本发明实施例中,具体介绍了如何根据第三表达结果和第四表达结果,计算每个视频帧特征序列所对应的预测结果。通过上述方式,可以利用相关公式计算得到预测结果,为方案的实现提供了可行的方式,从而可以提升方案的可行性和可操作性。
可选地,在上述图7至图13中任一项所对应的实施例的基础上,请参阅图14,本发明实施例提供的服务器20的另一实施例中,
所述服务器20还包括:
计算模块207,用于所述第二输入模块204通过第二神经网络模型对所述至少一个视频帧特征序列所对应的特征表达结果进行处理,得到所述至少一个视频帧特征序列所对应的预测结果之后,根据所述至少一个视频帧特征序列所对应的所述预测结果以及所述至少一个视频帧特征序列所对应的权重值,计算所述待处理视频的类别;
分类模块208,用于根据所述计算模块207计算的所述待处理视频的类别对所述待处理视频进行分类。
进一步地,本发明实施例中,服务器在得到每个视频帧特征序列所对应的预测结果之后,还可以根据每个视频帧特征序列所对应的预测结果以及每个视频帧特征序列所对应的权重值,计算出待处理视频的类别,最后根据待处理视频的类别对待处理视频进行分类。通过上述方式,由于预测结果参考了时间特征,在分析待处理视频的时候,能够提升视频分类的能力,从而实现个性化推荐,具有较好的实用性。
图15是本发明实施例提供的一种服务器结构示意图,该服务器300可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processingunits,CPU)322(例如,一个或一个以上处理器)和存储器332,一个或一个以上存储应用程序342或数据344的存储介质330(例如一个或一个以上海量存储设备)。其中,存储器332和存储介质330可以是短暂存储或持久存储。存储在存储介质330的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器322可以设置为与存储介质330通信,在服务器300上执行存储介质330中的一系列指令操作。
服务器300还可以包括一个或一个以上电源326,一个或一个以上有线或无线网络接口350,一个或一个以上输入输出接口358,和/或,一个或一个以上操作系统341,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述实施例中由服务器所执行的步骤可以基于该图15所示的服务器结构。
在本发明实施例中,该服务器所包括的CPU 322具有以下功能:
获取待处理视频,其中,所述待处理视频包含多个视频帧,每个视频帧对应一个时间特征;
根据时间特征采样规则对所述待处理视频进行采样,并获取至少一个视频帧特征序列,其中,所述时间特征采样规则为时间特征与视频帧特征序列之间的对应关系;
通过第一神经网络模型对所述至少一个视频帧特征序列进行处理,得到每个视频帧特征序列所对应的特征表达结果;
通过第二神经网络模型对所述至少一个视频帧特征序列所对应的特征表达结果进行处理,得到所述至少一个视频帧特征序列所对应的预测结果,其中,所述预测结果用于确定所述待处理视频的类别。
可选地,CPU 322还用于执行如下步骤:
采用卷积神经网络CNN对所述待处理视频中的每个视频帧进行处理,得到所述每个视频帧所对应的时间特征;
根据所述每个视频帧所对应的时间特征,确定所述待处理视频的时间特征序列,其中,所述时间特征序列用于进行采样。
可选地,CPU 322具体用于执行如下步骤:
根据所述时间特征采样规则确定至少一个时间窗口,其中,每个时间窗口包含所述待处理视频中的至少一个视频帧;
从所述时间特征序列中提取所述每个时间窗口对应的视频帧特征序列。
可选地,CPU 322具体用于执行如下步骤:
将所述至少一个视频帧特征序列输入至所述第一神经网络模型中的前向递归神经网络,获取第一表达结果;
将所述至少一个视频帧特征序列输入至所述第一神经网络模型中的后向递归神经网络,获取第二表达结果;
根据所述第一表达结果和所述第二表达结果,计算所述至少一个视频帧特征序列所对应的特征表达结果。
可选地,CPU 322具体用于执行如下步骤:
采用如下公式计算所述至少一个视频帧特征序列所对应的特征表达结果:
Figure BDA0001409303230000211
Figure BDA0001409303230000212
Figure BDA0001409303230000213
其中,所述h表示一个视频帧特征序列的特征表达结果,所述
Figure BDA0001409303230000214
表示所述第一表达结果,所述
Figure BDA0001409303230000215
表示所述第二表达结果,所述xt表示第t时刻的所述视频帧特征序列,所述GRU()表示采用门控循环单元GRU神经网络处理,所述T表示所述待处理视频的总时间,所述t表示从1至所述T中的一个整数。
可选地,CPU 322具体用于执行如下步骤:
将所述至少一个视频帧特征序列所对应的特征表达结果输入至所述第二神经网络模型中的第一子模型,获取第三表达结果;
将所述至少一个视频帧特征序列所对应的特征表达结果输入至所述第二神经网络模型中的第二子模型,获取第四表达结果;
根据所述第三表达结果和所述第四表达结果,计算所述至少一个视频帧特征序列所对应的预测结果。
可选地,CPU 322具体用于执行如下步骤:
采用如下公式计算所述至少一个视频帧特征序列所对应的预测结果:
Figure BDA0001409303230000221
gn=σg(Wgh+bg),n∈[1,N];
an=σa(Wah+ba),n∈[1,N];
其中,所述lable表示一个视频帧特征序列的预测结果,所述gn表示所述第三表达结果,所述an表示所述第四表达结果,所述σg表示softmax函数,所述σa表示sigmoid函数,所述h表示所述视频帧特征序列的特征表达结果,所述Wg和所述bg表示所述第一子模型中的参数,所述Wa和所述ba表示所述第二子模型的参数,所述N表示对所述特征表达结果进行非线性变换后得到的计算总数,所述n表示从1至所述N中的一个整数。
可选地,CPU 322还用于执行如下步骤:
根据所述至少一个视频帧特征序列所对应的所述预测结果以及所述至少一个视频帧特征序列所对应的权重值,计算所述待处理视频的类别;
根据所述待处理视频的类别对所述待处理视频进行分类。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。
所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line,DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,数字通用光盘(digital versatile disc,DVD))、或者半导体介质(例如固态硬盘(solid state disk,SSD)等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (13)

1.一种视频分类的方法,其特征在于,包括:
获取待处理视频,其中,所述待处理视频包含多个视频帧,每个视频帧对应一个时间特征;
根据时间特征采样规则对所述待处理视频进行采样,并获取至少一个视频帧特征序列,其中,所述时间特征采样规则为时间特征与视频帧特征序列之间的对应关系,每个视频帧特征序列对应不同的时间尺度;
通过第一神经网络模型对所述至少一个视频帧特征序列进行处理,得到每个视频帧特征序列所对应的特征表达结果;
通过第二神经网络模型对所述至少一个视频帧特征序列所对应的特征表达结果进行处理,得到所述至少一个视频帧特征序列所对应的预测结果;
根据所述至少一个视频帧特征序列所对应的预测结果确定所述待处理视频的类别;
所述通过第一神经网络模型对所述至少一个视频帧特征序列进行处理,得到每个视频帧特征序列所对应的特征表达结果,包括:
将所述至少一个视频帧特征序列输入至所述第一神经网络模型中的前向递归神经网络,获取第一表达结果;
将所述至少一个视频帧特征序列输入至所述第一神经网络模型中的后向递归神经网络,获取第二表达结果;
根据所述第一表达结果和所述第二表达结果,计算所述至少一个视频帧特征序列所对应的特征表达结果;
所述根据所述第一表达结果和所述第二表达结果,计算所述至少一个视频帧特征序列所对应的特征表达结果,包括:
采用如下公式计算所述至少一个视频帧特征序列所对应的特征表达结果:
Figure FDA0003895682700000011
Figure FDA0003895682700000012
Figure FDA0003895682700000013
其中,所述h表示一个视频帧特征序列的特征表达结果,所述
Figure FDA0003895682700000021
表示所述第一表达结果,所述
Figure FDA0003895682700000022
表示所述第二表达结果,所述
Figure FDA0003895682700000023
表示前向递归神经网络的中间层特征表达,也表示第一表达结果
Figure FDA0003895682700000024
所述
Figure FDA0003895682700000025
表示后向递归神经网络的中间层特征表达,也表示第二表达结果
Figure FDA0003895682700000026
所述xt表示第t时刻的所述视频帧特征序列,所述GRU()表示采用门控循环单元GRU神经网络处理,所述T表示所述待处理视频的总时间,所述t表示从1至所述T中的一个整数。
2.一种信息处理的方法,其特征在于,包括:
获取待处理视频,其中,所述待处理视频包含多个视频帧,每个视频帧对应一个时间特征;
根据时间特征采样规则对所述待处理视频进行采样,并获取至少一个视频帧特征序列,其中,所述时间特征采样规则为时间特征与视频帧特征序列之间的对应关系,每个视频帧特征序列对应不同的时间尺度;
通过第一神经网络模型对所述至少一个视频帧特征序列进行处理,得到每个视频帧特征序列所对应的特征表达结果;
通过第二神经网络模型对所述至少一个视频帧特征序列所对应的特征表达结果进行处理,得到所述至少一个视频帧特征序列所对应的预测结果,其中,所述预测结果用于确定所述待处理视频的类别;
所述通过第一神经网络模型对所述至少一个视频帧特征序列进行处理,得到每个视频帧特征序列所对应的特征表达结果,包括:
将所述至少一个视频帧特征序列输入至所述第一神经网络模型中的前向递归神经网络,获取第一表达结果;
将所述至少一个视频帧特征序列输入至所述第一神经网络模型中的后向递归神经网络,获取第二表达结果;
根据所述第一表达结果和所述第二表达结果,计算所述至少一个视频帧特征序列所对应的特征表达结果;
所述根据所述第一表达结果和所述第二表达结果,计算所述至少一个视频帧特征序列所对应的特征表达结果,包括:
采用如下公式计算所述至少一个视频帧特征序列所对应的特征表达结果:
Figure FDA0003895682700000031
Figure FDA0003895682700000032
Figure FDA0003895682700000033
其中,所述h表示一个视频帧特征序列的特征表达结果,所述
Figure FDA0003895682700000034
表示所述第一表达结果,所述
Figure FDA0003895682700000035
表示所述第二表达结果,所述
Figure FDA0003895682700000036
表示前向递归神经网络的中间层特征表达,也表示第一表达结果
Figure FDA0003895682700000037
所述
Figure FDA0003895682700000038
表示后向递归神经网络的中间层特征表达,也表示第二表达结果
Figure FDA0003895682700000039
所述xt表示第t时刻的所述视频帧特征序列,所述GRU()表示采用门控循环单元GRU神经网络处理,所述T表示所述待处理视频的总时间,所述t表示从1至所述T中的一个整数。
3.根据权利要求2所述的方法,其特征在于,所述获取待处理视频之后,所述方法还包括:
采用卷积神经网络CNN对所述待处理视频中的每个视频帧进行处理,得到所述每个视频帧所对应的时间特征;
根据所述每个视频帧所对应的时间特征,确定所述待处理视频的时间特征序列,其中,所述时间特征序列用于进行采样。
4.根据权利要求3所述的方法,其特征在于,所述根据时间特征采样规则对所述待处理视频进行采样,并获取至少一个视频帧特征序列,包括:
根据所述时间特征采样规则确定至少一个时间窗口,其中,每个时间窗口包含所述待处理视频中的至少一个视频帧;
从所述时间特征序列中提取所述每个时间窗口对应的视频帧特征序列。
5.根据权利要求2所述的方法,其特征在于,所述通过第二神经网络模型对所述至少一个视频帧特征序列所对应的特征表达结果进行处理,得到所述至少一个视频帧特征序列所对应的预测结果,包括:
将所述至少一个视频帧特征序列所对应的特征表达结果输入至所述第二神经网络模型中的第一子模型,获取第三表达结果;
将所述至少一个视频帧特征序列所对应的特征表达结果输入至所述第二神经网络模型中的第二子模型,获取第四表达结果;
根据所述第三表达结果和所述第四表达结果,计算所述至少一个视频帧特征序列所对应的预测结果。
6.根据权利要求5所述的方法,其特征在于,所述根据所述第三表达结果和所述第四表达结果,计算所述至少一个视频帧特征序列所对应的预测结果,包括:
采用如下公式计算所述至少一个视频帧特征序列所对应的预测结果:
Figure FDA0003895682700000041
gn=σg(Wgh+bg),n∈[1,N];
an=σa(Wah+ba),n∈[1,N];
其中,所述lable表示一个视频帧特征序列的预测结果,所述gn表示所述第三表达结果,所述an表示所述第四表达结果,所述σg表示softmax函数,所述σa表示sigmoid函数,所述h表示所述视频帧特征序列的特征表达结果,所述Wg和所述bg表示所述第一子模型中的参数,所述Wa和所述ba表示所述第二子模型的参数,所述N表示对所述特征表达结果进行非线性变换后得到的计算总数,所述n表示从1至所述N中的一个整数。
7.根据权利要求1至6中任一项所述的方法,其特征在于,所述通过第二神经网络模型对所述至少一个视频帧特征序列所对应的特征表达结果进行处理,得到所述至少一个视频帧特征序列所对应的预测结果之后,所述方法还包括:
根据所述至少一个视频帧特征序列所对应的所述预测结果以及所述至少一个视频帧特征序列所对应的权重值,计算所述待处理视频的类别;
根据所述待处理视频的类别对所述待处理视频进行分类。
8.一种服务器,其特征在于,包括:
第一获取模块,用于获取待处理视频,其中,所述待处理视频包含多个视频帧,每个视频帧对应一个时间特征;
第二获取模块,用于根据时间特征采样规则对所述第一获取模块获取的所述待处理视频进行采样,并获取至少一个视频帧特征序列,其中,所述时间特征采样规则为时间特征与视频帧特征序列之间的对应关系,每个视频帧特征序列对应不同的时间尺度;
第一输入模块,用于通过第一神经网络模型对所述第二获取模块获取的所述至少一个视频帧特征序列进行处理,得到每个视频帧特征序列所对应的特征表达结果;
第二输入模块,用于通过第二神经网络模型对所述第一输入模块输入后得到的所述至少一个视频帧特征序列所对应的特征表达结果进行处理,得到所述至少一个视频帧特征序列所对应的预测结果,其中,所述预测结果用于确定所述待处理视频的类别;
所述第一输入模块,包括:
第一获取单元,用于将所述至少一个视频帧特征序列输入至所述第一神经网络模型中的前向递归神经网络,获取第一表达结果;
第二获取单元,用于将所述至少一个视频帧特征序列输入至所述第一神经网络模型中的后向递归神经网络,获取第二表达结果;
第一计算单元,用于根据所述第一表达结果和所述第二表达结果,计算所述至少一个视频帧特征序列所对应的特征表达结果;
所述第一计算单元,包括:
第一计算子单元,用于采用如下公式计算所述至少一个视频帧特征序列所对应的特征表达结果:
Figure FDA0003895682700000051
Figure FDA0003895682700000052
Figure FDA0003895682700000053
其中,所述h表示一个视频帧特征序列的特征表达结果,所述
Figure FDA0003895682700000054
表示所述第一表达结果,所述
Figure FDA0003895682700000055
表示所述第二表达结果,所述
Figure FDA0003895682700000056
表示前向递归神经网络的中间层特征表达,也表示第一表达结果
Figure FDA0003895682700000057
所述
Figure FDA0003895682700000058
表示后向递归神经网络的中间层特征表达,也表示第二表达结果
Figure FDA0003895682700000061
所述xt表示第t时刻的所述视频帧特征序列,所述GRU()表示采用门控循环单元GRU神经网络处理,所述T表示所述待处理视频的总时间,所述t表示从1至所述T中的一个整数。
9.根据权利要求8所述的服务器,其特征在于,所述服务器还包括:
计算模块,用于所述第二输入模块通过第二神经网络模型对所述至少一个视频帧特征序列所对应的特征表达结果进行处理,得到所述至少一个视频帧特征序列所对应的预测结果之后,根据所述至少一个视频帧特征序列所对应的所述预测结果以及所述至少一个视频帧特征序列所对应的权重值,计算所述待处理视频的类别;
分类模块,用于根据所述计算模块计算的所述待处理视频的类别对所述待处理视频进行分类。
10.一种服务器,其特征在于,包括:存储器、处理器以及总线系统;
其中,所述存储器用于存储程序;
所述处理器用于执行所述存储器中的程序,具体包括如下步骤:
获取待处理视频,其中,所述待处理视频包含多个视频帧,每个视频帧对应一个时间特征;
根据时间特征采样规则对所述待处理视频进行采样,并获取至少一个视频帧特征序列,其中,所述时间特征采样规则为时间特征与视频帧特征序列之间的对应关系,每个视频帧特征序列对应不同的时间尺度;
通过第一神经网络模型对所述至少一个视频帧特征序列进行处理,得到每个视频帧特征序列所对应的特征表达结果;
通过第二神经网络模型对所述至少一个视频帧特征序列所对应的特征表达结果进行处理,得到所述至少一个视频帧特征序列所对应的预测结果,其中,所述预测结果用于确定所述待处理视频的类别;
所述处理器在通过第一神经网络模型对所述至少一个视频帧特征序列进行处理,得到每个视频帧特征序列所对应的特征表达结果时,具体用于执行如下步骤:
将所述至少一个视频帧特征序列输入至所述第一神经网络模型中的前向递归神经网络,获取第一表达结果;
将所述至少一个视频帧特征序列输入至所述第一神经网络模型中的后向递归神经网络,获取第二表达结果;
根据所述第一表达结果和所述第二表达结果,计算所述至少一个视频帧特征序列所对应的特征表达结果;
所述处理器在根据所述第一表达结果和所述第二表达结果,计算所述至少一个视频帧特征序列所对应的特征表达结果时,具体用于执行如下步骤:
采用如下公式计算所述至少一个视频帧特征序列所对应的特征表达结果:
Figure FDA0003895682700000071
Figure FDA0003895682700000072
Figure FDA0003895682700000073
其中,所述h表示一个视频帧特征序列的特征表达结果,所述
Figure FDA0003895682700000074
表示所述第一表达结果,所述
Figure FDA0003895682700000075
表示所述第二表达结果,所述
Figure FDA0003895682700000076
表示前向递归神经网络的中间层特征表达,也表示第一表达结果
Figure FDA0003895682700000077
所述
Figure FDA0003895682700000078
表示后向递归神经网络的中间层特征表达,也表示第二表达结果
Figure FDA0003895682700000079
所述xt表示第t时刻的所述视频帧特征序列,所述GRU()表示采用门控循环单元GRU神经网络处理,所述T表示所述待处理视频的总时间,所述t表示从1至所述T中的一个整数;
所述总线系统用于连接所述存储器以及所述处理器,以使所述存储器以及所述处理器进行通信。
11.根据权利要求10所述的服务器,其特征在于,所述处理器具体用于执行如下步骤:
将所述至少一个视频帧特征序列输入至所述第一神经网络模型中的前向递归神经网络,获取第一表达结果;
将所述至少一个视频帧特征序列输入至所述第一神经网络模型中的后向递归神经网络,获取第二表达结果;
根据所述第一表达结果和所述第二表达结果,计算所述至少一个视频帧特征序列所对应的特征表达结果。
12.根据权利要求10所述的服务器,其特征在于,所述处理器具体用于执行如下步骤:
将所述至少一个视频帧特征序列所对应的特征表达结果输入至所述第二神经网络模型中的第一子模型,获取第三表达结果;
将所述至少一个视频帧特征序列所对应的特征表达结果输入至所述第二神经网络模型中的第二子模型,获取第四表达结果;
根据所述第三表达结果和所述第四表达结果,计算所述至少一个视频帧特征序列所对应的预测结果。
13.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求2-7所述的方法。
CN201710833668.8A 2017-09-15 2017-09-15 视频分类的方法、信息处理的方法以及服务器 Active CN109508584B (zh)

Priority Applications (8)

Application Number Priority Date Filing Date Title
CN201910834142.0A CN110532996B (zh) 2017-09-15 2017-09-15 视频分类的方法、信息处理的方法以及服务器
CN201710833668.8A CN109508584B (zh) 2017-09-15 2017-09-15 视频分类的方法、信息处理的方法以及服务器
KR1020197032023A KR102392943B1 (ko) 2017-09-15 2018-08-16 비디오 분류 방법, 정보 처리 방법 및 서버
PCT/CN2018/100733 WO2019052301A1 (zh) 2017-09-15 2018-08-16 视频分类的方法、信息处理的方法以及服务器
JP2020515067A JP7127120B2 (ja) 2017-09-15 2018-08-16 ビデオ分類の方法、情報処理の方法及びサーバー、並びにコンピュータ可読記憶媒体及びコンピュータプログラム
EP18855424.0A EP3683723A4 (en) 2017-09-15 2018-08-16 VIDEO CLASSIFICATION PROCESS, INFORMATION PROCESSING PROCESS AND SERVER
MA050252A MA50252A (fr) 2017-09-15 2018-08-16 Procédé de classification de vidéos, procédé de traitement d'informations et serveur
US16/558,015 US10956748B2 (en) 2017-09-15 2019-08-30 Video classification method, information processing method, and server

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710833668.8A CN109508584B (zh) 2017-09-15 2017-09-15 视频分类的方法、信息处理的方法以及服务器

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN201910834142.0A Division CN110532996B (zh) 2017-09-15 2017-09-15 视频分类的方法、信息处理的方法以及服务器

Publications (2)

Publication Number Publication Date
CN109508584A CN109508584A (zh) 2019-03-22
CN109508584B true CN109508584B (zh) 2022-12-02

Family

ID=65723493

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201710833668.8A Active CN109508584B (zh) 2017-09-15 2017-09-15 视频分类的方法、信息处理的方法以及服务器
CN201910834142.0A Active CN110532996B (zh) 2017-09-15 2017-09-15 视频分类的方法、信息处理的方法以及服务器

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201910834142.0A Active CN110532996B (zh) 2017-09-15 2017-09-15 视频分类的方法、信息处理的方法以及服务器

Country Status (7)

Country Link
US (1) US10956748B2 (zh)
EP (1) EP3683723A4 (zh)
JP (1) JP7127120B2 (zh)
KR (1) KR102392943B1 (zh)
CN (2) CN109508584B (zh)
MA (1) MA50252A (zh)
WO (1) WO2019052301A1 (zh)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11636681B2 (en) * 2018-11-21 2023-04-25 Meta Platforms, Inc. Anticipating future video based on present video
JP7352369B2 (ja) * 2019-03-29 2023-09-28 株式会社日立システムズ 予測モデル評価システム、予測モデル評価方法
CN111782734B (zh) * 2019-04-04 2024-04-12 华为技术服务有限公司 数据压缩、解压方法和装置
CN110162669B (zh) * 2019-04-04 2021-07-02 腾讯科技(深圳)有限公司 视频分类处理方法、装置、计算机设备及存储介质
KR102255312B1 (ko) * 2019-06-07 2021-05-25 국방과학연구소 순환 신경망을 이용한 코덱 분류 시스템 및 코덱 분류 방법
CN110516113B (zh) * 2019-06-13 2020-11-17 腾讯科技(深圳)有限公司 一种视频分类的方法、视频分类模型训练的方法及装置
CN113010735B (zh) * 2019-12-20 2024-03-08 北京金山云网络技术有限公司 一种视频分类方法、装置、电子设备及存储介质
CN111144508A (zh) * 2019-12-30 2020-05-12 中国矿业大学(北京) 煤矿副井轨道运输自动控制系统与控制方法
CN111104930B (zh) * 2019-12-31 2023-07-11 腾讯科技(深圳)有限公司 视频处理方法、装置、电子设备及存储介质
CN111190600B (zh) * 2019-12-31 2023-09-19 中国银行股份有限公司 基于gru注意力模型的前端代码自动生成的方法及系统
CN111209439B (zh) * 2020-01-10 2023-11-21 北京百度网讯科技有限公司 视频片段检索方法、装置、电子设备及存储介质
CN111209883B (zh) * 2020-01-13 2023-08-04 南京大学 一种基于多源运动特征融合的时序自适应视频分类方法
CN111259779B (zh) * 2020-01-13 2023-08-01 南京大学 一种基于中心点轨迹预测的视频动作检测方法
CN111428660B (zh) * 2020-03-27 2023-04-07 腾讯科技(深圳)有限公司 视频剪辑方法和装置、存储介质及电子装置
US11354906B2 (en) * 2020-04-13 2022-06-07 Adobe Inc. Temporally distributed neural networks for video semantic segmentation
CN111489378B (zh) * 2020-06-28 2020-10-16 腾讯科技(深圳)有限公司 视频帧特征提取方法、装置、计算机设备及存储介质
CN111737521B (zh) * 2020-08-04 2020-11-24 北京微播易科技股份有限公司 一种视频分类方法和装置
CN113204992B (zh) * 2021-03-26 2023-10-27 北京达佳互联信息技术有限公司 视频质量确定方法、装置、存储介质及电子设备
CN113349791A (zh) * 2021-05-31 2021-09-07 平安科技(深圳)有限公司 异常心电信号的检测方法、装置、设备及介质
CN113204655B (zh) * 2021-07-02 2021-11-23 北京搜狐新媒体信息技术有限公司 多媒体信息的推荐方法、相关装置及计算机存储介质
CN113779472A (zh) * 2021-07-30 2021-12-10 阿里巴巴(中国)有限公司 内容审核方法、装置及电子设备
KR102430989B1 (ko) 2021-10-19 2022-08-11 주식회사 노티플러스 인공지능 기반 콘텐츠 카테고리 예측 방법, 장치 및 시스템
CN114443896B (zh) * 2022-01-25 2023-09-15 百度在线网络技术(北京)有限公司 数据处理方法和用于训练预测模型的方法
CN114611584A (zh) * 2022-02-21 2022-06-10 上海市胸科医院 Cp-ebus弹性模式视频的处理方法、装置、设备与介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105550699A (zh) * 2015-12-08 2016-05-04 北京工业大学 一种基于cnn融合时空显著信息的视频识别分类方法
CN106503723A (zh) * 2015-09-06 2017-03-15 华为技术有限公司 一种视频分类方法及装置

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100656373B1 (ko) 2005-12-09 2006-12-11 한국전자통신연구원 시간구간별 우선순위와 판별정책을 적용하는 유해 동영상판별 방법 및 그 장치
US8990132B2 (en) * 2010-01-19 2015-03-24 James Ting-Ho Lo Artificial neural networks based on a low-order model of biological neural networks
CN103544498B (zh) * 2013-09-25 2017-02-08 华中科技大学 基于自适应抽样的视频内容检测方法与系统
CN104331442A (zh) * 2014-10-24 2015-02-04 华为技术有限公司 视频分类方法和装置
US10762894B2 (en) * 2015-03-27 2020-09-01 Google Llc Convolutional neural networks
JP6556509B2 (ja) 2015-06-16 2019-08-07 Cyberdyne株式会社 光音響画像化装置および光源ユニット
CN104951965B (zh) * 2015-06-26 2017-04-19 深圳市腾讯计算机系统有限公司 广告投放方法及装置
CN104966104B (zh) * 2015-06-30 2018-05-11 山东管理学院 一种基于三维卷积神经网络的视频分类方法
US9697833B2 (en) * 2015-08-25 2017-07-04 Nuance Communications, Inc. Audio-visual speech recognition with scattering operators
JP6517681B2 (ja) 2015-12-17 2019-05-22 日本電信電話株式会社 映像パターン学習装置、方法、及びプログラム
US11055537B2 (en) * 2016-04-26 2021-07-06 Disney Enterprises, Inc. Systems and methods for determining actions depicted in media contents based on attention weights of media content frames
CN106131627B (zh) * 2016-07-07 2019-03-26 腾讯科技(深圳)有限公司 一种视频处理方法、装置及系统
US10402697B2 (en) * 2016-08-01 2019-09-03 Nvidia Corporation Fusing multilayer and multimodal deep neural networks for video classification
CN106779467A (zh) * 2016-12-31 2017-05-31 成都数联铭品科技有限公司 基于自动信息筛选的企业行业分类系统
US11263525B2 (en) * 2017-10-26 2022-03-01 Nvidia Corporation Progressive modification of neural networks
US10334202B1 (en) * 2018-02-28 2019-06-25 Adobe Inc. Ambient audio generation based on visual information
US20190286990A1 (en) * 2018-03-19 2019-09-19 AI Certain, Inc. Deep Learning Apparatus and Method for Predictive Analysis, Classification, and Feature Detection
US10860858B2 (en) * 2018-06-15 2020-12-08 Adobe Inc. Utilizing a trained multi-modal combination model for content and text-based evaluation and distribution of digital video content to client devices
US10418957B1 (en) * 2018-06-29 2019-09-17 Amazon Technologies, Inc. Audio event detection
US10699129B1 (en) * 2019-11-15 2020-06-30 Fudan University System and method for video captioning

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106503723A (zh) * 2015-09-06 2017-03-15 华为技术有限公司 一种视频分类方法及装置
CN105550699A (zh) * 2015-12-08 2016-05-04 北京工业大学 一种基于cnn融合时空显著信息的视频识别分类方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Aggregating Frame-level Features for Large-Scale Video classification;Shaoxiang Chen等;《ArXiv.ORG》;20170704;论文摘要,论文第1-3页,图1 *
Object Recognition from Short Videos for Robotic Perception;Ivan Bogun等;《ArXiv.ORG》;20150904;全文 *
RECURRENT CONVOLUTIONAL NEURAL NETWORK FOR VIDEO CLASSIFICATION;Zhenqi Xu等;《2016 IEEE International Conference on Multimedia and Expo (ICME)》;20160825;全文 *
Temporal Segment Networks for Action Recognition in Videos;Limin Wang等;《ArXiv.ORG》;20170508;全文 *
The Monkeytyping Solution to the YouTube-8M Video Understanding Challenge;He-Da Wang等;《ArXiv.ORG》;20170616;论文摘要,论文第1-6页,图1-4 *

Also Published As

Publication number Publication date
CN110532996A (zh) 2019-12-03
CN110532996B (zh) 2021-01-22
JP2020533709A (ja) 2020-11-19
CN109508584A (zh) 2019-03-22
MA50252A (fr) 2020-07-22
EP3683723A1 (en) 2020-07-22
KR102392943B1 (ko) 2022-04-29
WO2019052301A1 (zh) 2019-03-21
US10956748B2 (en) 2021-03-23
US20190384985A1 (en) 2019-12-19
EP3683723A4 (en) 2021-06-23
JP7127120B2 (ja) 2022-08-29
KR20190133040A (ko) 2019-11-29

Similar Documents

Publication Publication Date Title
CN109508584B (zh) 视频分类的方法、信息处理的方法以及服务器
CN109522450B (zh) 一种视频分类的方法以及服务器
CN110147711B (zh) 视频场景识别方法、装置、存储介质和电子装置
CN110321422B (zh) 在线训练模型的方法、推送方法、装置以及设备
CN110012356B (zh) 视频推荐方法、装置和设备及计算机存储介质
CN110069709B (zh) 意图识别方法、装置、计算机可读介质及电子设备
CN110083729B (zh) 一种图像搜索的方法及系统
WO2022016556A1 (zh) 一种神经网络蒸馏方法以及装置
CN110717099A (zh) 一种推荐影片的方法及终端
CN110717325A (zh) 文本的情感分析方法、装置、电子设备及存储介质
CN113094552A (zh) 视频模板的搜索方法、装置、服务器及可读存储介质
CN111400615B (zh) 一种资源推荐方法、装置、设备及存储介质
CN110738314B (zh) 一种基于深度迁移网络的点击率预测方法及装置
CN108563648B (zh) 数据显示方法和装置、存储介质及电子装置
CN113592593A (zh) 序列推荐模型的训练及应用方法、装置、设备及存储介质
CN113435499A (zh) 标签分类方法、装置、电子设备和存储介质
CN117217284A (zh) 一种数据处理方法及其装置
Chatzis Margin-maximizing classification of sequential data with infinitely-long temporal dependencies
CN115482021A (zh) 多媒体信息推荐方法、装置、电子设备及存储介质
CN112417086B (zh) 数据处理方法、装置、服务器及存储介质
CN116611497B (zh) 一种点击率预估模型训练方法和装置
KR102549939B1 (ko) Sns 텍스트 기반의 사용자의 인테리어 스타일 분석 모델 제공 서버, 사용자 단말 및 방법
CN117390295B (zh) 基于掩码模块推荐对象的方法及装置
CN111160191B (zh) 一种视频关键帧提取方法、装置及存储介质
CN111898658B (zh) 图像分类方法、装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant