CN110166826B - 视频的场景识别方法、装置、存储介质及计算机设备 - Google Patents

视频的场景识别方法、装置、存储介质及计算机设备 Download PDF

Info

Publication number
CN110166826B
CN110166826B CN201811392100.8A CN201811392100A CN110166826B CN 110166826 B CN110166826 B CN 110166826B CN 201811392100 A CN201811392100 A CN 201811392100A CN 110166826 B CN110166826 B CN 110166826B
Authority
CN
China
Prior art keywords
image feature
sequence
sample
hidden state
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811392100.8A
Other languages
English (en)
Other versions
CN110166826A (zh
Inventor
易阳
涂娟辉
李峰
高孟平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201811392100.8A priority Critical patent/CN110166826B/zh
Publication of CN110166826A publication Critical patent/CN110166826A/zh
Application granted granted Critical
Publication of CN110166826B publication Critical patent/CN110166826B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)

Abstract

本申请涉及一种视频的场景识别方法,包括:获取待处理视频帧的图像特征;待处理视频帧是对待识别视频进行抽帧处理得到;通过递归神经网络,根据各图像特征确定各目标图像特征所对应的隐藏状态;目标图像特征包括图像特征序列中的最后一个图像特征,图像特征序列多于一个,各图像特征序列根据各图像特征确定;根据各目标图像特征所对应的隐藏状态、以及各目标图像特征所在的图像特征序列相邻的前一个图像特征序列对应的序列特征,确定各目标图像特征所在的图像特征序列对应的序列特征;根据各图像特征序列中的最后一个图像特征序列对应的序列特征,确定待识别视频的场景类别识别结果。本申请提供的方案可以提高视频场景识别的准确性。

Description

视频的场景识别方法、装置、存储介质及计算机设备
技术领域
本申请涉及计算机技术领域,特别是涉及一种视频的场景识别方法、装置、计算机可读存储介质以及计算机设备。
背景技术
随着信息技术的发展,人们越来越多地通过视频来传递信息,视频可以涉及各种各样的场景,比如美食场景、人像场景、风景场景及卡通场景等等。识别视频所属的场景,在视频内容分析、视频检索等领域具有十分重要的意义。
传统方式中,是从待识别视频中抽取视频帧,通过卷积神经网络分别提取各视频帧的图像特征,再根据各图像特征分别确定各视频帧所属的场景类别(如图1所示的视频帧属于美食场景),进而对各视频帧所属的场景类别进行均值统计,根据统计结果确定待识别视频所属的场景类别。然而,传统方式在视频的画面特征比较分散、帧间运动变化较大的情况下,识别准确率不高。
发明内容
基于此,有必要针对传统方式在画面特征比较分散、帧间运动变化较大的场景下,识别准确率不高的技术问题,提供一种视频的场景识别方法、装置、计算机可读存储介质以及计算机设备。
一种视频的场景识别方法,包括:
获取待处理视频帧的图像特征;所述待处理视频帧是对待识别视频进行抽帧处理得到;
通过递归神经网络,根据各所述图像特征确定各目标图像特征所对应的隐藏状态;所述各目标图像特征包括根据各所述图像特征确定的各图像特征序列中的最后一个图像特征,所述图像特征序列多于一个;
根据各所述目标图像特征所对应的隐藏状态、以及各所述目标图像特征所在的图像特征序列相邻的前一个图像特征序列对应的序列特征,确定各所述目标图像特征所在的图像特征序列对应的序列特征;
根据各所述图像特征序列中的最后一个图像特征序列对应的序列特征,确定所述待识别视频的场景类别识别结果。
一种视频的场景识别装置,包括:
图像特征获取模块,用于获取待处理视频帧的图像特征;所述待处理视频帧是对待识别视频进行抽帧处理得到;
第一隐藏状态确定模块,用于通过递归神经网络,根据各所述图像特征确定各目标图像特征所对应的隐藏状态;所述各目标图像特征包括:根据各所述图像特征确定的各图像特征序列中的最后一个图像特征,所述图像特征序列多于一个;
第一序列特征确定模块,用于根据各所述目标图像特征所对应的隐藏状态、以及各所述目标图像特征所在的图像特征序列相邻的前一个图像特征序列对应的序列特征,确定各所述目标图像特征所在的图像特征序列对应的序列特征;
识别结果确定模块,用于根据各所述图像特征序列中的最后一个图像特征序列对应的序列特征,确定所述待识别视频的场景类别识别结果。
一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如上所述的方法中的步骤。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如上所述的方法中的步骤。
针对如上所述的方案,获取待识别视频的待处理视频帧的图像特征,通过递归神经网络,确定各图像特征对应的隐藏状态,并根据各图像特征序列中的最后一个图像特征所对应的隐藏状态,以及各图像特征序列相邻的前一个图像特征序列对应的序列特征,确定各图像特征序列对应的序列特征,再根据各图像特征序列中的最后一个图像特征序列对应的序列特征,确定待识别视频的场景类别识别结果。如此,通过递归神经网络捕捉各图像特征之间的时间关联关系,每一个图像特征均会对相邻的下一个图像特征产生影响,因此最后一个图像特征所对应的隐藏状态,反映的是各图像特征整体上对确定视频所属的场景类别产生的影响,而稀释了有所偏离的单帧视频帧所带来的错误干扰,从而提高了识别的准确性。并且,将各图像特征划分为多个图像特征序列,以序列为单位整合图像特征序列对应的序列特征,再将图像特征序列的序列特征直接传递到下一个图像特征序列对应的序列特征中,有效地克服了图像特征数目较多时,难以学习到相距较远的在前图像特征中的信息的问题,进一步提高了识别的准确性。
附图说明
图1为所属的场景类别为美食的视频帧的示意图;
图2为一个实施例中视频的场景识别方法的应用环境图;
图3为一个实施例中视频的场景识别方法的流程示意图;
图4为一个实施例中递归神经网络的工作原理示意图;
图5为一个实施例中视频的场景识别方法的流程示意图;
图6为一个实施例中视频的场景识别方法的原理示意图;
图7为一个实施例中递归神经网络的训练方法的流程示意图;
图8为一个实施例中递归神经网络的训练方法的流程示意图;
图9为一个实施例中视频的场景识别装置的结构框图;
图10为一个实施例中递归神经网络的训练装置的结构框图;
图11为一个实施例中计算机设备的结构框图;
图12为一个实施例中计算机设备的结构框图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请文件中使用的诸如“第一”和“第二”的术语,是用于对类似的对象作出命名上的区分,但这些对象本身不受这些术语限制。在不脱离本申请的范围的情况下,这些术语在适当的情况下可以互换。
此外,本申请文件中使用的术语“和/或”,包括一个或多个相关的所列项目的任意的和所有的组合。
本申请各实施例提供的视频的场景识别方法,可以应用于如图2所示的应用环境中。该应用环境可涉及终端210和服务器220,两者通过网络连接。
具体地,可以由终端210获取待识别视频,并对待识别视频进行抽帧处理得到待处理视频帧,再将待处理视频帧发送至服务器220。服务器220接收到待处理视频帧后,提取各待处理视频帧的图像特征,并通过递归神经网络,根据各图像特征确定目标图像特征所对应的隐藏状态,各目标图像特征包括根据各图像特征确定的各图像特征序列中的最后一个图像特征,图像特征序列多于一个,再根据各目标图像特征所对应的隐藏状态、以及各目标图像特征所在的图像特征序列相邻的前一个图像特征序列对应的序列特征,确定各目标图像特征所在的图像特征序列对应的序列特征,进而根据各图像特征序列中的最后一个图像特征序列对应的序列特征,确定待识别视频的场景类别识别结果。
在其他实施例中,也可以由服务器220执行上述从获取待识别视频到确定待识别视频的场景类别识别结果的一系列步骤,而无需终端210参与。或者,还可以由终端210执行上述从获取待识别视频到确定待识别视频的场景类别识别结果的一系列步骤,而无需服务器220参与。
终端210具体可以包括手机、平板电脑、笔记本电脑、台式电脑、个人数字助理、穿戴式设备等中的至少一种,但不局限于此。服务器220可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图3所示,提供了一种视频的场景识别方法。以该方法应用于上述图1中的服务器220为例进行说明。该方法可以包括如下步骤S302至S308。
S302,获取待处理视频帧的图像特征。
待处理视频帧,是对待识别视频进行抽帧处理得到视频帧。待识别视频是需要识别所属的场景类别的视频,即从候选场景类别中确定待识别视频所属的场景类别。候选场景类别的数目及内容可以根据实际需求预先设定。
抽帧处理,是从待识别视频中抽取视频帧的操作。在一个实施例中,可以按照预定时间间隔从待识别视频中抽取视频帧,比如预定时间间隔为2秒,针对总时长为10分钟的待识别视频,可以每间隔2秒抽取一帧视频帧,抽取到的300帧视频帧即为待处理视频帧。在另一个实施例中,也可以从待识别视频中随机抽取预定数目的视频帧。抽帧处理的具体实现方式不局限于此,而可以根据实际需求采用任何适用的抽帧方式。
图像特征,是可以用于表征待处理视频帧的图像特性的信息。图像特征可以是对待处理视频帧进行特征提取得到。图像特征的数据形式可以是向量。并且,待处理视频帧与图像特征可以是分别对应的关系,即针对每一帧待处理视频帧进行特征提取,均可得到该待处理视频帧的图像特征。此外,对待处理视频帧进行特征提取,可以使用任何适用的特征提取方式实现,比如可以根据图像特征提取算法实现。需要说明的是,针对每一帧待处理视频帧,提取的该待处理视频的图像特征的种类数目,可以仅为一或者大于一,但在本申请文件中,“一个图像特征”指代的是从一帧待处理视频帧提取到的所有种类的图像特征。
需要说明的是,获取待识别视频,对待识别视频进行抽帧处理,得到待处理视频帧,再对待处理视频帧进行特征提取,得到待处理视频帧的图像特征的步骤,可以按照实际需求分配给执行视频的场景识别方法的设备(以下以图1所示的服务器220为例)或服务器220以外的设备执行。比如,可以由服务器220执行从获取待识别视频到得到图像特征的步骤,再继续执行步骤S302及后续步骤。或者,可以由服务器220以外的设备执行从获取待识别视频到得到图像特征的步骤,再将图像特征发送至服务器220,进而由服务器220执行步骤S302及后续步骤。又或者,可以由服务器220以外的设备执行从获取待识别视频到得到待处理视频帧的步骤,再将待处理视频帧发送至服务器220,进而由服务器220执行对待处理视频帧进行特征提取得到待处理视频帧的图像特征、步骤S302以及后续步骤。
S304,通过递归神经网络,根据各图像特征确定目标图像特征所对应的隐藏状态。
目标图像特征,是图像特征序列中的最后一个图像特征。各图像特征序列可以根据各待处理视频帧的图像特征进行确定,确定出的各图像特征序列的数目可以多于一个。图像特征序列与目标图像特征可以是一一对应的关系,即一个图像特征序列中存在一个目标图像特征。各图像特征序列按照一定顺序排列,且针对每一个图像特征序列,该图像特征序列包括多于一个的图像特征,各图像特征按照一定顺序排列,排列在最后的图像特征即为该图像特征序列中的目标图像特征。
在一个实施例中,图像特征序列的排列顺序及图像特征序列中的各图像特征的排列顺序,可以是与之对应的待处理视频帧在待识别视频中出现的时间先后顺序。具体地,待处理视频帧可以按照在待识别视频中出现的时间先后顺序进行排列,再按照排列顺序对各待处理视频帧依次进行特征提取,得到与各待处理视频帧分别对应的图像特征,各图像特征可以按照与各待处理视频帧相对应的时间先后顺序进行排列。相应地,根据各图像特征确定的各图像特征序列也可以按照该时间先后顺序进行排列。
递归神经网络,是可以用于处理具有时序关系的数据的神经网络。在递归神经网络内部,根据输入递归神经网络的各图像特征进行前向传播,进而可以确定与输入神经网络的各图像特征分别对应的隐藏状态。具体地,前向传播过程是一个循环运算的过程,即循环执行从各图像特征中确定当前图像特征,根据当前图像特征确定当前图像特征所对应的隐藏状态的步骤,直至确定出与各图像特征分别对应的隐藏状态。可以理解,目标图像特征对应的隐藏状态包含于确定出的与各图像特征对应的隐藏状态中。具体地,递归神经网络可以包括LSTM(Long Short-Term Memory,长短期记忆)神经网络,据此LSTM神经网络中的循环运算可以根据激活函数单元及门单元实现。
图像特征所对应的隐藏状态,即递归神经网络涉及的hidden state。假设在t时刻将图像特征传入递归神经网络中的运算单元(用于具体运算图像特征对应的隐藏状态的软件模块)进行运算,运算单元输出的h(t)参数即为该图像特征对应的隐藏状态。
基于此,目标图像特征对应的隐藏状态可以表示如下:hm=fLSTM(Fm),其中hm表示目标图像特征对应的隐藏状态,Fm表示目标图像特征所在的图像特征序列中的各图像特征,fLSTM表示LSTM神经网络下目标图像特征所在的图像特征序列中的各图像特征与目标图像特征对应的隐藏状态之间的映射关系。
此外,将图像特征输入递归神经网络的方式,可以是将各图像特征序列输入递归神经网络,也可以是直接将各图像特征输入递归神经网络。具体如下:
可以统一获取与各待处理视频帧分别对应的图像特征,再将各图像特征进行分组,得到多于一个的图像特征序列。比如,从待识别视频中抽取出300帧待处理视频帧,提取到与该300帧待处理视频帧分别对应的300个图像特征(按照时间先后顺序进行排列,由前到后依次为图像特征F1至F300),将图像特征F1至F300平均分为10组,则图像特征F1至F30为第1个图像特征序列FS1、图像特征F31至F60为第2个图像特征序列FS2、……、以此类推,图像特征F271至F300为第10个图像特征序列FS10。据此,图像特征F30、F60、F90、F120、F150、F180、F210、F240、F270以及F300即为目标图像特征。
也可以持续地获取与各待处理视频帧分别对应的图像特征,并维持用于统计当前获取到的图像特征个数的计数变量,在当前获取到的图像特征对应的计数变量等于相应数值阈值时,当前获取到的图像特征即为一个目标图像特征,这数值阈值的图像特征即可以视为该目标图像特征所在的图像特征序列。比如,数值阈值设为30,获取到图像特征F30时,计数变量等于30,图像特征F30即为第1个目标图像特征,F1至F30即可以视为第1个目标图像特征所在的图像特征序列(即第1个图像特征序列),进而将计数变量归零重新计数,获取到图像特征F60时,计数变量等于30,图像特征F60即为第2个目标图像特征,F31至F60即可以视为第2个目标图像特征所在的图像特征序列(即第2个图像特征序列)、……、以此类推,获取到图像特征F300时,计数变量等于30,图像特征F300即为第10个目标图像特征,F271至F300即可以视为第10个目标图像特征所在的图像特征序列(即第10个图像特征序列)。
相应地,可以通过上述统一分组的方式或计数变量计数的方式,先确定出图像特征序列,再将各图像特征序列输入递归神经网络。比如,通过上述统一分组的方式或计数变量计数的方式,先确定出图像特征序列FS1至FS10,再将图像特征序列FS1至FS10输入递归神经网络。
或者,也可以直接将各图像特征输入递归神经网络,在递归神经网络的工作过程中,通过上述计数变量计数的方式确定各目标图像特征及图像特征序列。比如,直接将图像特征F1至F300输入递归神经网络,在递归神经网络的工作过程中,通过上述计数变量计数的方式确定各目标图像特征分别为F30、F60、F90、F120、F150、F180、F210、F240、F270以及F300,相对应的各图像特征序列为FS1至FS10。
S306,根据各目标图像特征所对应的隐藏状态、以及各目标图像特征所在的图像特征序列相邻的前一个图像特征序列对应的序列特征,确定各目标图像特征所在的图像特征序列对应的序列特征。
图像特征序列对应的序列特征,可以根据该图像特征序列中的最后一个图像特征所对应的隐藏状态,以及该图像特征序列相邻的前一个图像特征序列对应的序列特征得到。序列特征的数据形式可以是向量。
具体地,可以通过递归神经网络,根据各目标图像特征所对应的隐藏状态、以及各目标图像特征所在的图像特征序列相邻的前一个图像特征序列对应的序列特征,依次确定各目标图像特征所在的图像特征序列对应的序列特征。其中,第一个图像特征序列不存在相邻的前一个图像特征序列,可以根据该第一个图像特征序列中的最后一个图像特征的隐藏状态、以及递归神经网络初始化时配置的初始序列特征,确定该第一个图像特征序列对应的序列特征。
承接前述示例,可以通过递归神经网络,根据图像特征序列FS1中的最后一个图像特征F30所对应的隐藏状态、以及递归神经网络初始化时配置的初始序列特征,确定图像特征序列FS1对应的序列特征。进而,根据图像特征序列FS2中的最后一个图像特征F60所对应的隐藏状态、以及图像特征序列FS1对应的序列特征,确定图像特征序列FS2对应的序列特征。以此类推,根据图像特征序列FS10中的最后一个图像特征F300所对应的隐藏状态、以及图像特征序列FS9对应的序列特征,确定图像特征序列FS10对应的序列特征。至此,通过递归神经网络确定出目标图像特征F30、F60、F90、F120、F150、F180、F210、F240、F270以及F300所在的图像特征序列,即图像特征序列FS1至FS10对应的序列特征。
基于此,目标图像特征所在的图像特征序列对应的序列特征可以表示如下:Hm=Hm-1+hm。其中,Hm表示目标图像特征所在的图像特征序列对应的序列特征,Hm-1表示目标图像特征所在的图像特征序列相邻的前一个图像特征序列对应的序列特征,hm表示目标图像特征对应的隐藏状态。
S308,根据各图像特征序列中的最后一个图像特征序列对应的序列特征,确定待识别视频的场景类别识别结果。
各图像特征序列中的最后一个图像特征序列,可以是各图像特征序列中,排列在最后位置的图像特征序列。比如,各图像特征序列按照一定顺序进行排列,由前到后依次为FS1至FS10,则FS10即为图像特征序列FS1至FS10中的最后一个图像特征序列。
场景类别识别结果,可以用于表征待识别视频所属的场景类别。场景类别识别结果可以是与各候选场景类别分别对应的评估参数,评估参数可以用于表征待识别视频属于各候选场景类别的可能性,评估参数具体可以是置信度或概率。或者,场景类别识别结果也可以直接是所属场景类别标识,所属场景类别标识是各候选场景类别中、待识别视频所属的场景类别所对应的标识。其中,候选场景类别可以根据实际需求预先设定,比如候选场景类别可以包括卡通、游戏、运动、新闻、风景、表演、教育以及食物等中的至少任意两种。
此外,在场景类别识别结果是评估参数时,可以由服务器220或服务器220以外的设备进一步根据场景类别识别结果,从各候选场景类别中确定待识别视频所属的场景类别。在场景类别识别结果直接是所属场景类别标识时,可以无需额外执行根据场景类别识别结果确定待识别视频所属的场景类别的操作。
需要说明的是,视频的画面特征比较分散且帧间运动变化较大,是指视频中的存在对应于不同场景的视频内容的切换,比如在美食节目视频中,在食物、主持人聊天、观众等不同内容中切换。可以理解,抽帧存在不确定性,在视频的画面特征比较分散且帧间运动变化较大的情况下,可能抽到偏离视频所属的场景类别的视频帧,抽取到的各视频帧中偏离视频所属的场景类别的视频帧的场景类别,将对确定视频所属的场景类别产生错误干扰,比如上述美食节目视频,视频所属的场景类别是食物场景,但抽到的视频帧可能包括与主持人聊天相关的视频帧或与观众相关的视频帧,与主持人聊天相关的视频帧所属的场景类别为人像场景,将对确定视频所属的场景类别是食物场景产生错误干扰。
在传统方式中,通过卷积神经网络确定对待识别视频进行抽帧得到的各视频帧所属的场景类别,再根据各视频帧所属的场景类别的均值统计结果,确定待识别视频所属的场景类别。如此,对单帧视频帧分别所属的场景类别进行均值统计,即各帧视频帧所属的场景类别是独立的,偏离视频所属的场景类别的视频帧的场景类别对确定视频所属的场景类别产生的错误干扰,将会很明显地体现在均值统计结果中,传统方式在视频的画面特征比较分散、帧间运动变化较大的情况下,识别准确率不高。
然而,上述视频的场景识别方法,获取待识别视频的待处理视频帧的图像特征,通过递归神经网络,确定各图像特征对应的隐藏状态,并根据各图像特征序列中的最后一个图像特征所对应的隐藏状态,以及各图像特征序列相邻的前一个图像特征序列对应的序列特征,确定各图像特征序列对应的序列特征,再根据各图像特征序列中的最后一个图像特征序列对应的序列特征,确定待识别视频的场景类别识别结果。如此,通过递归神经网络捕捉各图像特征之间的时间关联关系,每一个图像特征均会对相邻的下一个图像特征产生影响,因此最后一个图像特征所对应的隐藏状态,反映的是各图像特征整体上对确定视频所属的场景类别产生的影响,而稀释了有所偏离的单帧视频帧所带来的错误干扰,从而提高了识别的准确性。并且,将各图像特征划分为多个图像特征序列,以序列为单位整合图像特征序列对应的序列特征,再将图像特征序列的序列特征直接传递到下一个图像特征序列对应的序列特征中,有效地克服了图像特征数目较多时,难以学习到相距较远的在前图像特征中的信息的问题,进一步提高了识别的准确性。
在一个实施例中,通过递归神经网络,根据各图像特征确定目标图像特征所对应的隐藏状态的步骤,即步骤S304,可以包括如下步骤:通过递归神经网络,分别根据各图像特征及各图像特征相邻的前一个图像特征对应的隐藏状态,确定各图像特征对应的隐藏状态。
在本实施例中,图像特征对应的隐藏状态,根据该图像特征及该图像特征相邻的前一个图像特征对应的隐藏状态(针对循环过程而言,则是上一时刻的隐藏状态)确定。比如,图像特征F31对应的隐藏状态,根据图像特征F31及图像特征F31相邻的前一个图像特征F30对应的隐藏状态确定。
以下分别结合前文描述的将各图像特征序列输入递归神经网络和直接将各图像特征输入递归神经网络的方式,对确定各图像特征对应的隐藏状态及各图像特征序列对应的序列特征的过程进行详细说明:
在一个实施例中,将各图像特征序列输入递归神经网络,时间递归网络先从各图像特征序列中确定当前图像特征序列,再从当前图像特征序列中确定当前图像特征。进而,根据当前图像特征及当前图像特征相邻的前一个图像特征对应的隐藏状态,确定当前图像特征对应的隐藏状态。在当前图像特征非当前图像特征序列中的最后一个图像特征时,将当前图像特征相邻的后一个图像特征确定为当前图像特征,并返回根据当前图像特征及当前图像特征相邻的前一个图像特征对应的隐藏状态,确定当前图像特征对应的隐藏状态的步骤;在当前图像特征是当前图像特征序列中的最后一个图像特征时,根据当前图像特征所对应的隐藏状态及当前图像特征序列相邻的前一个图像特征序列对应的序列特征,确定当前图像特征序列对应的序列特征。而后,在当前图像特征序列非各图像特征序列中的最后一个图像特征序列,则将当前图像特征序列中相邻的后一个图像特征序列作为当前图像特征序列,并返回从当前图像特征序列中确定当前图像特征的步骤;若当前图像特征序列是各图像特征序列中的最后一个图像特征序列,则结束本轮循环。
需要说明的是,结束本轮循环时,已通过递归神经网络确定出各图像特征对应的隐藏状态及各图像特征序列对应的序列特征。此外,与第一个图像特征序列对应的序列特征的确定方式类似,第一个图像特征序列中的第一个图像特征不存在相邻的前一个图像特征,可以根据该图像特征和初始化时配置的隐藏状态,确定该第一个图像特征的隐藏状态,而对于除该第一个图像特征之外的其他图像特征,均可以根据该图像特征及该图像特征相邻的前一个图像特征对应的隐藏状态,确定该图像特征的隐藏状态。
举例说明,将图像特征序列FS1至FS10这10个图像特征序列输入递归神经网络,通过递归神经网络,根据图像特征序列FS1中的图像特征F1及初始化时配置的隐藏状态确定图像特征F1对应的隐藏状态,再根据图像特征F1相邻的后一个图像特征F2及图像特征F1对应的隐藏状态,确定图像特征F2对应的隐藏状态、……、以此类推,根据图像特征F30及图像特征F29对应的隐藏状态,确定图像特征F30对应的隐藏状态,根据图像特征F30所对应的隐藏状态及递归神经网络初始化时配置的初始序列特征,确定图像特征序列FS1对应的序列特征。进而,根据图像特征序列FS1相邻的后一个图像特征序列FS2中的图像特征F31及图像特征F30对应的隐藏状态,确定图像特征F31对应的隐藏状态、……、以此类推,根据图像特征F60及图像特征F59对应的隐藏状态,确定图像特征F60对应的隐藏状态,根据图像特征F60所对应的隐藏状态及图像特征序列FS1对应的序列特征,确定图像特征序列FS2对应的序列特征。以此类推,直至根据图像特征F300及图像特征F299对应的隐藏状态,确定图像特征F300对应的隐藏状态,且根据图像特征F300对应的隐藏状态及图像特征序列FS9对应的序列特征,确定图像特征序列FS10对应的序列特征时,结束本轮循环。
在另一个实施例中,可以维持一个计数变量,每确定一个图像特征对应的隐藏状态,计数变量便增加相应的调整值,每当计数变量等于数值阈值时,便将计数变量清零,再重新开始计数。据此,将与各待处理视频帧分别对应的图像特征输入时间递归网络,通过递归神经网络从各图像特征中确定当前图像特征,再根据当前图像特征及当前图像特征相邻的前一个图像特征对应的隐藏状态,确定当前图像特征对应的隐藏状态,在当前图像特征对应的计数变量等于数值阈值时,当前图像特征即为目标图像特征,根据目标图像特征所对应的隐藏状态及该目标图像特征所在的图像特征序列相邻的前一个图像特征序列对应的序列特征,确定该目标图像特征所在的图像特征序列对应的序列特征,并将计数变量清零。进而,在当前图像特征非各图像特征中的最后一个图像特征时,将当前图像特征相邻的后一个图像特征确定为当前图像特征,并返回根据当前图像特征及当前图像特征相邻的前一个图像特征对应的隐藏状态,确定当前图像特征对应的隐藏状态的步骤;在当前图像特征是各图像特征中的最后一个图像特征时,结束本轮循环。
在此情况下,位于目标图像特征的上一个目标图像特征(不含上一个目标图像特征)之后且位于该目标图像特征之前的各图像特征、以及目标图像特征所形成的序列,即可以视为该目标图像特征所在图像特征序列。此外,对各图像特征中的第一个图像特征的处理与前文描述类似,此处不加赘述。
举例说明,维持一个计数变量N,数值阈值设为30,将图像特征F1至F300输入递归神经网络,通过递归神经网络,根据图像特征F1及初始化时配置的隐藏状态确定图像特征F1对应的隐藏状态,将N从0增至1,再根据图像特征F1相邻的后一个图像特征F2及图像特征F1对应的隐藏状态,确定图像特征F2对应的隐藏状态,将N从1增至2、……、以此类推,根据图像特征F30及图像特征F29对应的隐藏状态,确定图像特征F30对应的隐藏状态,将N从29增至30,由于N等于30,图像特征F30即为目标图像特征,根据图像特征F30所对应的隐藏状态及递归神经网络初始化时配置的初始序列特征,确定图像特征F30所在的图像特征序列(图像特征F1至F30所形成的序列,即图像特征序列FS1)对应的序列特征,并将N置为0。进而,根据图像特征F31及图像特征F30对应的隐藏状态,确定图像特征F31对应的隐藏状态,将N从0增至1、……、以此类推,根据图像特征F60及图像特征F59对应的隐藏状态,确定图像特征F60对应的隐藏状态,将N从29增至30,由于N等于30,根据图像特征F60所对应的隐藏状态及图像特征序列FS1对应的序列特征,确定图像特征F60所在的图像特征序列(图像特征F31至F60所形成的序列,即图像特征序列FS2)对应的序列特征,并将N置为0。以此类推,直至根据图像特征F300及图像特征F299对应的隐藏状态,确定图像特征F300对应的隐藏状态,且根据图像特征F300对应的隐藏状态及图像特征序列FS9对应的序列特征,确定图像特征F300所在的图像特征序列(图像特征F271至F300所形成的序列,即图像特征序列FS10)对应的序列特征时,结束本轮循环。
在一个实施例中,通过递归神经网络,分别根据各图像特征及各图像特征相邻的前一个图像特征对应的隐藏状态,确定各图像特征对应的隐藏状态的步骤,可以包括如下步骤:通过递归神经网络,分别将各图像特征相邻的前一个图像特征对应的隐藏状态和第一掩码参数相乘,得到各图像特征对应的隐藏状态影响参数;分别根据各图像特征及与各图像特征对应的隐藏状态影响参数,确定各图像特征对应的隐藏状态。
掩码参数,即Mask参数,是由伯努利分布产生的二值化分布参数。掩码参数的数据形式可以是向量。相应地,第一掩码参数是确定图像特征的隐藏状态所使用的掩码参数,可以根据实际需求预先设定。
隐藏状态影响参数,可以用于衡量图像特征相邻的前一个图像特征对应的隐藏状态对该图像特征对应的隐藏状态的直接影响。隐藏状态影响参数与图像特征可以是一一对应的关系。图像特征对应的隐藏状态影响参数,具体可以是该图像特征相邻的前一个图像特征对应的隐藏状态和第一掩码参数的乘积。
在本实施例中,确定每一个图像特征对应的隐藏状态时,可以将该图像特征相邻的前一个图像特征对应的隐藏状态和第一掩码参数相乘,得到该图像特征对应的隐藏状态影响参数,再根据隐藏状态影响参数确定该图像特征对应的隐藏状态。比如,将图像特征F2相邻的前一个图像特征F1对应的隐藏状态和第一掩码参数相乘,得到图像特征F2对应的隐藏状态影响参数,再根据该隐藏状态影响参数确定图像特征F2对应的隐藏状态;进而,将图像特征F3相邻的前一个图像特征F2对应的隐藏状态和第一掩码参数相乘,得到图像特征F3对应的隐藏状态影响参数,再根据该隐藏状态影响参数确定图像特征F3对应的隐藏状态;以此类推,将图像特征F300相邻的前一个图像特征F299对应的隐藏状态和第一掩码参数相乘,得到图像特征F300对应的隐藏状态影响参数,再根据该隐藏状态影响参数确定图像特征F300对应的隐藏状态。
在一个实施例中,分别根据各图像特征及与各图像特征对应的隐藏状态影响参数,确定各图像特征对应的隐藏状态的步骤,可以包括如下步骤:通过递归神经网络,分别根据各图像特征及各图像特征相邻的前一个图像特征对应的隐藏状态,确定各图像特征对应的输入门参数、遗忘门参数及输出门参数;分别将各图像特征相邻的前一个图像特征对应的细胞状态和第二掩码参数相乘,得到各图像特征对应的细胞状态影响参数;分别根据各图像特征及与各图像特征对应的细胞状态影响参数,确定各图像特征对应的细胞状态;分别根据各图像特征对应的隐藏状态影响参数、输入门参数、遗忘门参数、输出门参数、以及各图像特征相邻的前一个图像特征对应的细胞状态,确定各图像特征对应的隐藏状态。
图像特征所对应的细胞状态,即递归神经网络涉及的cell state。假设在t时刻将图像特征传入递归神经网络中的运算单元进行运算,运算单元输出的c(t)参数即为该图像特征对应的细胞状态。图像特征与细胞状态可以是一一对应的关系。针对每一个图像特征,递归神经网络均确定该图像特征对应的细胞状态。
第二掩码参数,是确定图像特征对应的细胞状态所使用的掩码参数,可以根据实际需求预先设定。
细胞状态影响参数,可以用于衡量图像特征相邻的前一个图像特征对应的细胞状态对该图像特征对应的细胞状态的直接影响。细胞状态影响参数与图像特征可以是一一对应的关系。图像特征对应的细胞状态影响参数,具体可以是该图像特征相邻的前一个图像特征对应的细胞状态和第二掩码参数的乘积。此外,与隐藏状态影响参数类似,确定每一个图像特征对应的细胞状态时,可以将该图像特征相邻的前一个图像特征对应的细胞状态和第二掩码参数相乘,得到该图像特征对应的细胞状态影响参数,再根据细胞状态影响参数确定该图像特征对应的细胞状态。
在一个实施例中,递归神经网络为LSTM神经网络,根据图像特征对应的隐藏状态影响参数、输入门参数、遗忘门参数、输出门参数、以及图像特征相邻的前一个图像特征对应的细胞状态,确定图像特征对应的隐藏状态的方式,具体可以包括采用以下公式确定图像特征的隐藏状态:
Figure GDA0003192296040000111
其中,ht表示图像特征对应的隐藏状态,ht-1表示图像特征相邻的前一个图像特征对应的隐藏状态,
Figure GDA0003192296040000112
表示第一掩码参数,ft表示图像特征对应的遗忘门参数,it表示图像特征对应的输入门参数,ot表示图像特征对应的输出门参数,gt表示候选门(也称candidate gate)参数。
在一个实施例中,根据图像特征及与图像特征对应的细胞状态影响参数,确定图像特征对应的细胞状态的方式,具体可以包括采用以下公式确定图像特征对应的细胞状态:
Figure GDA0003192296040000113
其中,ct表示图像特征对应的细胞状态,ct-1表示该图像特征相邻的前一个图像特征对应的细胞状态,
Figure GDA0003192296040000114
表示第二掩码参数。
在一个实施例中,可以采用如下公式确定图像特征对应的输入门参数it:it=σ(Wiht-1+Vixt+bi)。其中,xt表示图像特征,σ表示非线性激活函数,Wi和Vi表示输入门对应的权重矩阵,bi表示输入门的偏置参数。
在一个实施例中,可以采用如下公式确定图像特征对应的遗忘门参数ft:ft=σ(Wfht-1+Vfxt+bf)。其中,Wf和Vf表示遗忘门对应的权重矩阵,bf表示遗忘门的偏置参数。
在一个实施例中,可以采用如下公式确定图像特征对应的输出门参数ot:ot=σ(Woht-1+Voxt+bo)。其中,Wo和Vo表示输出门对应的权重矩阵,bo表示输出门的偏置参数。
在一个实施例中,可以采用如下公式确定对图像特征对应的候选门参数gt:gt=tanh(Wgxt+Vght-1+bg)。其中,Wg和Vg表示候选门对应的权重矩阵,bg表示候选门的偏置参数。
可以理解,对于递归神经网络而言,确定图像特征对应的隐藏状态及细胞状态的具体方式不局限于前文描述,而可以采用任何适用的方式,比如还可以不考虑细胞状态影响参数和隐藏状态影响参数,采用以下公式确定图像特征的隐藏状态及细胞状态,ht=ot*tanh(ct),ct=ft*ct-1+it*gt
需要说明的是,从递归神经网络的结构而言,递归神经网络包括的隐藏层的数目可以等于或大于1,从递归神经网络的工作过程而言,递归神经网络可以进行多轮循环运算。亦即是说,隐藏层的数目大于1时,各隐藏层顺次连接,每一层隐藏层均对应一轮循环运算,每进行一轮循环运算,便确定一次各图像特征对应的隐藏状态、细胞状态及各图像特征序列对应的序列特征。其中,除第一层隐藏层以图像特征作为外部输入信息以外,每一层隐藏层以上一层隐藏层输出的细胞状态作为外部输入信息。此外,得到各隐藏层确定的最后一个图像特征序列对应的序列特征之后,可以仅根据最后一层隐藏层确定的最后一个图像特征序列对应的序列特征,确定待识别视频的场景类别识别结果;也可以根据各隐藏层确定的最后一个图像特征序列对应的序列特征,共同确定待识别视频的场景类别识别结果。
举例说明,如图4所示,递归神经网络包括的隐藏层为两层,将图像特征序列FS1至FS10输入第一层隐藏层,通过第一层隐藏层,根据图像特征序列FS1至FS10中的各图像特征F1至F300,确定各图像特征F1至F300对应的隐藏状态、细胞状态以及各图像特征序列FS1至FS10对应的序列特征,即进行第一轮循环运算。进而,将第一层隐藏层确定出的各细胞状态输出至第二隐藏层,通过第二隐藏层,根据各细胞状态,确定各图像特征F1至F300对应的隐藏状态、细胞状态及各图像特征序列FS1至FS10对应的序列特征,即进行第二轮循环运算。后续,可以根据第二层隐藏层确定的最后一个图像特征序列FS10对应的序列特征H2(10),确定待识别视频的场景类别识别结果;也可以根据第一层隐藏层确定的最后一个图像特征序列FS10对应的序列特征H1(10)、以及第二层隐藏层确定的最后一个图像特征序列FS10对应的序列特征H2(10),共同确定待识别视频的场景类别识别结果。
在一个实施例中,获取待处理视频帧的图像特征的步骤,即步骤S302,可以包括如下步骤:获取待处理视频帧;将待处理视频帧输入特征提取神经网络;通过特征提取神经网络,分别提取各待处理视频帧的图像特征。
特征提取神经网络,是具备图像特征提取能力的神经网络。特征提取神经网络分别对各待处理视频帧进行特征提取,得到各待处理视频帧的图像特征。
特征提取神经网络可以是卷积神经网络(Convolution Neural Network,CNN)。在卷积神经网络内部,一般是将待处理图像帧输入卷积层,通过卷积层上的卷积核对待处理视频帧进行卷积,得到该待处理视频帧的原始图像特征,再将原始图像特征输入池化层,通过池化层对原始图像特征进行池化,从而得到该待处理视频帧的图像特征。
具体地,可以将摘除全连接层和Softmax层后的Inception NET(比如InceptionV3)或Resnet等开源卷积神经网络,作为特征提取神经网络。或者,也可以根据样本图像和卷积神经网络框架自行进行模型训练,得到特征提取神经网络。
在本实施例中,由于特征提取神经网络根据海量样本图像进行学习得到,特征提取的准确度高,并且直接将待处理视频帧输入特征提取神经网络,特征提取神经网络便可以自动提取出待处理视频帧的图像特征,简化了特征提取的复杂度。
在一个实施例中,在根据各图像特征序列中的最后一个图像特征序列对应的序列特征,确定待识别视频的场景类别识别结果的步骤,即步骤S308之前,还可以包括如下步骤:根据各图像特征进行均值运算,得到均值特征。据此,步骤S308可以包括如下步骤:根据各图像特征序列中的最后一个图像特征序列对应的序列特征及均值特征,确定待识别视频的场景类别识别结果。
均值特征,是各待处理视频帧的图像特征的均值。可以调用递归神经网络以外的软件模块实现根据各图像特征进行均值运算,从而得到均值特征。
在本实施例中,可以根据各图像特征序列中的最后一个图像特征序列对应的序列特征及均值特征,共同确定待识别视频的场景类别识别结果。如此,综合各图像特征中的更多细节信息确定待识别视频的场景类别识别结果,能够提高识别的准确性。
在一个实施例中,根据各图像特征序列中的最后一个图像特征序列对应的序列特征,确定待识别视频的场景类别识别结果的步骤,即步骤S308可以包括如下步骤:将各图像特征序列中的最后一个图像特征序列对应的序列特征,输入递归神经网络中的全连接层;通过全连接层,根据最后一个图像特征序列对应的序列特征进行分类,确定待识别视频的场景类别识别结果。
全连接层,即Fully Connected Layer,是神经网络中可以将分布式特征映射到样本标记空间的功能层,即根据多维图像特征映射得到各向量元素与各候选分类类别分别对应的一维向量。
在一个实施例中,可以通过全连接层,将最后一个图像特征序列对应的序列特征映射为与各候选场景类别分别对应的评估参数。后续,根据全连接层输出的评估参数,从各候选场景类别中确定待识别视频所属的场景类别。
在另一个实施例中,可以通过全连接层,将最后一个图像特征序列对应的序列特征映射为与各候选场景类别分别对应的评估参数,再将评估参数输出至Softmax层,Softmax层对评估参数进行归一化处理,得到待识别视频分别属于各候选场景类别的概率。后续,根据Softmax层输出的概率,从各候选场景类别中确定待识别视频所属的场景类别。
在一个实施例中,图5所示,提供了一种视频的场景识别方法。该方法可以包括如下步骤S502至S512。
S502,对待识别视频进行抽帧处理,得到待处理视频帧。
S504,将待处理视频帧输入特征提取神经网络,通过特征提取神经网络,分别提取各待处理视频帧的图像特征。
S506,将各图像特征进行分组,得到多于一个的图像特征序列,将各图像特征序列输入递归神经网络。
S508,通过递归神经网络,分别根据各图像特征及各图像特征相邻的前一个图像特征对应的隐藏状态,确定各图像特征对应的输入门参数、遗忘门参数及输出门参数,分别将各图像特征相邻的前一个图像特征对应的细胞状态和第二掩码参数相乘,得到各图像特征对应的细胞状态影响参数,分别根据各图像特征及与各图像特征对应的细胞状态影响参数,确定各图像特征对应的细胞状态,分别根据各图像特征对应的隐藏状态影响参数、输入门参数、遗忘门参数、输出门参数、以及各图像特征相邻的前一个图像特征对应的细胞状态,确定各图像特征对应的隐藏状态。
S510,根据各图像特征中的各目标图像特征所对应的隐藏状态、以及各目标图像特征所在的图像特征序列相邻的前一个图像特征序列对应的序列特征,确定各目标图像特征所在的图像特征序列对应的序列特征;目标图像特征包括图像特征序列中的最后一个图像特征。
S512,将各图像特征序列中的最后一个图像特征序列对应的序列特征,输入时间递归网络中的全连接层,通过全连接层,根据最后一个图像特征序列对应的序列特征进行分类,得到待识别视频的场景类别识别结果。
需要说明的是,本实施例中对各技术特征的具体限定,可以与前文中对相应技术特征的限定相同,此处不加赘述。
此外,结合图6所示,以下通过一个具体示例对本申请实施例提供的视频的场景识别方法进行详细说明。
服务器获取待识别视频,对该待识别视频进行抽帧处理,得到待处理视频帧(比如,抽取得到300帧待处理视频帧V1至V300)。进而,服务器将待处理视频帧V1至V300输入特征提取网络,通过特征提取网络依次对待处理视频帧V1至V300进行特征提取,并输出与待处理视频帧V1至V300分别对应的图像特征F1至F300。
然后,服务器将图像特征F1至F300进行分组(比如,平均分为10组,即图像特征F1至F30为第1个图像特征序列FS1、图像特征F31至F60为第2个图像特征序列FS2、……、以此类推,图像特征F271至F300为第10个图像特征序列FS10)。进而,服务器将图像特征序列FS1至FS10输入递归神经网络的隐藏层。
进而,通过递归神经网络的隐藏层,根据图像特征F1及初始化时配置的隐藏状态确定图像特征F1对应的隐藏状态,再根据图像特征F2及图像特征F1对应的隐藏状态,确定图像特征F2对应的隐藏状态、……、以此类推,确定图像特征F30的隐藏状态,再根据图像特征F30对应的隐藏状态及递归神经网络初始化时配置的初始序列特征,确定图像特征序列FS1对应的序列特征。进而,根据图像特征F31及图像特征F30对应的隐藏状态,确定图像特征F31对应的隐藏状态、……、以此类推,根据图像特征F60及图像特征F59对应的隐藏状态,确定图像特征F60对应的隐藏状态,再根据图像特征F60对应的隐藏状态及图像特征序列FS1对应的序列特征,确定图像特征序列FS2对应的序列特征。以此类推,根据图像特征F300及图像特征F299对应的隐藏状态,确定图像特征F300对应的隐藏状态,再根据图像特征F300对应的隐藏状态及图像特征序列FS9对应的序列特征,确定图像特征序列FS10对应的序列特征。
进一步地,服务器将图像特征序列FS10对应的序列特征输入递归神经网络的全连接层。通过全连接层对图像特征序列FS10对应的序列特征进行分类,并输出待识别视频分别属于各候选场景类别的评估参数(比如,各候选场景类别分别为卡通、游戏、运动、新闻、风景、表演、教育以及食物,则全连接层输出待识别视频分别属于这8个场景类别的评估参数)。
而后,服务器根据待识别视频分别属于卡通、游戏、运动、新闻、风景、表演、教育以及食物这8个类别的评估参数,确定待识别视频所属的场景类别(比如,如图6所示,确定出待识别视频所属的场景类别为卡通)。
需要说明的是,在实际应用中,本申请各实施例提供的视频的场景识别方法,可以应用于根据视频进行场景类别查询、根据场景类别对视频进行归类、根据场景类别进行视频筛选等场景、以及根据视频所属的场景类别进行码率分配。比如,针对图2所示的应用场景,终端210基于待识别视频向服务器220发起视频场景识别请求,服务器220通过本申请各实施例提供的视频的场景识别方法,确定待识别视频的场景类别识别结果后,可以将该场景类别识别结果发送至终端210,以供终端210输出场景类别识别结果(如在显示界面展示或语音播报)。
在一个实施例中,如图7所示,提供了一种用于视频场景识别的递归神经网络的训练方法。以该方法应用于上述图1中的服务器220为例进行说明。该方法可以包括如下步骤S702至S712。
S702,获取样本视频帧的样本图像特征,样本视频帧是对携带场景类别标签的样本视频进行抽帧处理得到。
S704,通过待训练递归神经网络,根据各样本图像特征确定样本目标图像特征所对应的隐藏状态;各样本目标图像特征包括根据各样本图像特征确定的各样本图像特征序列中的最后一个样本图像特征,样本图像特征序列多于一个。
S706,根据各样本目标图像特征所对应的隐藏状态、以及各样本目标图像特征所在的样本图像特征序列相邻的前一个样本图像特征序列对应的序列特征,确定各样本目标图像特征所在的样本图像特征序列对应的序列特征。
S708,根据各样本图像特征序列中的最后一个样本图像特征序列对应的序列特征,确定样本视频的场景类别预测结果。
S710,根据场景类别预测结果和场景类别标签,确定损失参数。
S712,根据损失参数对待训练递归神经网络进行模型训练,确定用于视频场景识别的递归神经网络。
其中,样本视频是所属的真实场景类别已知的视频,用于训练神经网络。样本视频可以携带场景类别标签。场景类别标签用于表征样本视频所属的真实场景类别,其可以事先由人工进行标注。
在一个实施例中,可以直接将现成的视频数据集中的视频作为样本视频,现成的视频数据集比如Dynamic Scenes Data Set和Maryland“in-the-wild”Scenes Data Set。在另一个实施例中,也可以自行搜集视频,若搜集到的视频携带场景类别标签,搜集到的视频即可以直接作为样本视频,若搜集到的视频未携带场景类别标签,则为搜集到的视频标注场景类别标签,以此得到样本视频。比如,搜集视频的方式,具体可以是对Youtube-8M网页进行抓包解析,获取若干个视频的视频下载网址,再采用Python多线程下载各下载网址对应的视频。
识别过程中的候选场景类别的数目,可以与各样本视频的场景类别的数目相对应。比如,共计有卡通、游戏、运动、新闻、风景、表演、教育以及食物这8个候选场景类别,则可以获取卡通、游戏、运动、新闻、风景、表演、教育以及食物这8个场景类别的样本视频,并据此对待训练递归神经网络模型进行模型训练。在一个具体示例中,获取的样本视频所属的真实场景类别和总数量可以如表1所示。
表1
Figure GDA0003192296040000161
需要说明的是,样本视频的总数量较少、场景类别较为单一时,训练出的递归神经网络性能欠佳,比如因过拟合导致神经网络的泛化能力低下,因此尽可能地获取数据规模较大、场景类别丰富的样本视频。
场景类别预测结果,是根据各样本图像特征序列中的最后一个样本图像特征序列对应的序列特征,自行确定的样本视频所属的场景类别的预测结果。
可以理解,可以根据场景类别预测结果和场景类别标签之间的差异,对待训练递归神经网络进行模型训练。具体地,可以迭代执行根据场景类别预测结果和场景类别标签确定损失参数,再根据损失参数进行反向传播,从而调整待训练递归神经网络的参数的步骤,直至满足训练停止条件时停止训练,确定用于视频场景识别的递归神经网络。其中,训练停止条件是触发停止模型训练的条件,具体可以是达到预设的迭代次数,也可以是计算得到的损失参数满足预定条件,比如损失参数小于预定损失阈值或者损失参数不再变化或变化极其缓慢(即模型已收敛)等等。
上述递归神经网络的训练方法,获取样本视频的样本视频帧的样本图像特征,通过递归神经网络,确定各样本图像特征对应的隐藏状态,并根据各样本图像特征序列中的最后一个样本图像特征所对应的隐藏状态,以及各样本图像特征序列相邻的前一个样本图像特征序列对应的序列特征,确定各样本图像特征序列对应的序列特征,再根据各样本图像特征序列中的最后一个样本图像特征序列对应的序列特征,确定待识别视频的场景类别识别结果。如此,通过递归神经网络捕捉各样本图像特征之间的时间关联关系,每一个样本图像特征均会对相邻的下一个样本图像特征产生影响,因此最后一个样本图像特征所对应的隐藏状态,反映的是各样本图像特征整体上对确定视频所属的场景类别产生的影响,而稀释了有所偏离的单帧视频帧所带来的错误干扰。并且,将各样本图像特征划分为多个样本图像特征序列,以序列为单位整合样本图像特征序列对应的序列特征,再将样本图像特征序列的序列特征直接传递到下一个样本图像特征序列对应的序列特征中,有效地克服了样本图像特征数目较多时,难以学习到相距较远的在前样本图像特征中的信息的问题。从而,有效地提高了训练所得的神经网络的识别准确性。
在一个实施例中,通过待训练递归神经网络,根据各样本图像特征确定样本目标图像特征所对应的隐藏状态的步骤,可以包括如下步骤:通过递归神经网络,分别根据各样本图像特征及各样本图像特征相邻的前一个样本图像特征对应的隐藏状态,确定各样本图像特征对应的隐藏状态;其中,样本目标图像特征对应的隐藏状态包含于各样本图像特征对应的隐藏状态中。
在一个实施例中,通过待训练递归神经网络,分别根据各样本图像特征及各样本图像特征相邻的前一个样本图像特征对应的隐藏状态,确定各样本图像特征对应的隐藏状态的步骤,可以包括如下步骤:通过递归神经网络,分别将各样本图像特征相邻的前一个样本图像特征对应的隐藏状态和第一随机掩码参数相乘,得到各样本图像特征对应的隐藏状态影响参数;分别根据各样本图像特征及与各样本图像特征对应的隐藏状态影响参数,确定各样本图像特征对应的隐藏状态。
在一个实施例中,分别根据各样本图像特征及与各样本图像特征对应的隐藏状态影响参数,确定各样本图像特征对应的隐藏状态的步骤,可以包括如下步骤:通过递归神经网络,分别根据各样本图像特征及各样本图像特征相邻的前一个样本图像特征对应的隐藏状态,确定各样本图像特征对应的输入门参数、遗忘门参数及输出门参数;分别将各样本图像特征相邻的前一个样本图像特征对应的细胞状态和第二随机掩码参数相乘,得到各样本图像特征对应的细胞状态影响参数;分别根据各样本图像特征及与各样本图像特征对应的细胞状态影响参数,确定各样本图像特征对应的细胞状态;分别根据各样本图像特征对应的隐藏状态影响参数、输入门参数、遗忘门参数、输出门参数、以及各样本图像特征相邻的前一个样本图像特征对应的细胞状态,确定各样本图像特征对应的隐藏状态。
随机掩码参数,是随机确定的掩码参数。相应地,第一随机掩码参数是确定样本图像特征对应的隐藏状态影响参数的随机掩码参数,第二随机掩码参数是确定样本图像特征对应的细胞状态影响参数的随机掩码参数。
在本实施例中,进行模型训练时,在待训练递归神经网络上添加了正则化Zoneout,即进行前向传播的过程中,根据样本图像特征对应的细胞状态影响参数,实现随机地将样本图像特征对应的细胞状态,直接保留至该样本图像特征相邻的下一个样本图像特征对应的细胞状态中,根据样本图像特征对应的隐藏状态影响参数,实现随机地将样本图像特征对应的隐藏状态,直接保留至该样本图像特征相邻的下一个样本图像特征对应的隐藏状态,在信息传递过程中起到了信息缓冲作用,辅助了信息的传递,避免了信息的丢失。并且,由于梯度信息是和前向传播过程有关,缓和了梯度消失的问题。从而,提升了训练好的时间递归网络的泛化能力。
在一个实施例中,获取样本视频帧的样本图像特征的步骤,可以包括如下步骤:对样本视频进行抽帧处理,得到样本视频帧;将样本视频帧输入特征提取神经网络;通过特征提取神经网络,分别提取各样本视频帧的样本图像特征。
需要说明的是,本实施例中涉及的样本视频帧和前文中的待处理视频帧,两者除使用场景的不同外,其他限定可以相同。类似情况还包括样本图像特征和图像特征、样本目标图像特征和目标图像特征、样本图像特征序列和图像特征序列,且本实施例中对各技术特征的具体限定,可以与前文中对相应技术特征的限定相同,此处不加赘述。
在一个实施例中,如图8所示,提供了一种递归神经网络的训练方法。该方法可以包括如下步骤S802至S812。
S802,对携带场景类别标签的样本视频进行抽帧处理,得到样本视频帧。
S804,将样本视频帧输入特征提取神经网络,通过特征提取神经网络,分别提取各样本视频帧的样本图像特征。
S806,将各样本图像特征进行分组,得到多于一个的样本图像特征序列,将各样本图像特征序列输入待训练递归神经网络。
S808,通过待训练递归神经网络,分别根据各样本图像特征及各样本图像特征相邻的前一个样本图像特征对应的隐藏状态,确定各样本图像特征对应的输入门参数、遗忘门参数及输出门参数;分别将各样本图像特征相邻的前一个样本图像特征对应的细胞状态和第二随机掩码参数相乘,得到各样本图像特征对应的细胞状态影响参数;分别根据各样本图像特征及与各样本图像特征对应的细胞状态影响参数,确定各样本图像特征对应的细胞状态;分别根据各样本图像特征对应的隐藏状态影响参数、输入门参数、遗忘门参数、输出门参数、以及各样本图像特征相邻的前一个样本图像特征对应的细胞状态,确定各样本图像特征对应的隐藏状态。
S810,通过待训练递归神经网络,根据各样本目标图像特征所对应的隐藏状态、以及各样本目标图像特征所在的样本图像特征序列相邻的前一个样本图像特征序列对应的序列特征,确定各样本目标图像特征所在的样本图像特征序列对应的序列特征。
S812,根据各样本图像特征序列中的最后一个样本图像特征序列对应的序列特征,确定样本视频的场景类别预测结果。
S814,根据场景类别预测结果和场景类别标签确定损失参数,并根据损失参数调整待训练递归神经网络的参数。
S816,判断是否满足训练停止条件;若不满足,则返回步骤S808,若满足,则跳转至步骤S818。
S818,停止训练,确定用于视频场景识别的递归神经网络。
需要说明的是,本实施例中对各技术特征的具体限定,可以与前文中对相应技术特征的限定相同,此处不加赘述。
在合理条件下应当理解,虽然前文各实施例涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,各流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图9所示,提供了一种视频的场景识别装置900。该装置900可以包括如下模块902至908。
图像特征获取模块902,用于获取待处理视频帧的图像特征;待处理视频帧是对待识别视频进行抽帧处理得到。
第一隐藏状态确定模块904,用于通过递归神经网络,根据各图像特征确定各目标图像特征所对应的隐藏状态;各目标图像特征包括根据各图像特征确定的各图像特征序列中的最后一个图像特征,图像特征序列多于一个。
第一序列特征确定模块906,用于根据各目标图像特征所对应的隐藏状态、以及各目标图像特征所在的图像特征序列相邻的前一个图像特征序列对应的序列特征,确定各目标图像特征所在的图像特征序列对应的序列特征。
识别结果确定模块908,用于根据各图像特征序列中的最后一个图像特征序列对应的序列特征,确定待识别视频的场景类别识别结果。
上述视频的场景识别装置900,获取待识别视频的待处理视频帧的图像特征,通过递归神经网络,确定各图像特征对应的隐藏状态,并根据各图像特征序列中的最后一个图像特征所对应的隐藏状态,以及各图像特征序列相邻的前一个图像特征序列对应的序列特征,确定各图像特征序列对应的序列特征,再根据各图像特征序列中的最后一个图像特征序列对应的序列特征,确定待识别视频的场景类别识别结果。如此,通过递归神经网络捕捉各图像特征之间的时间关联关系,每一个图像特征均会对相邻的下一个图像特征产生影响,因此最后一个图像特征所对应的隐藏状态,反映的是各图像特征整体上对确定视频所属的场景类别产生的影响,而稀释了有所偏离的单帧视频帧所带来的错误干扰,从而提高了识别的准确性。并且,将各图像特征划分为多个图像特征序列,以序列为单位整合图像特征序列对应的序列特征,再将图像特征序列的序列特征直接传递到下一个图像特征序列对应的序列特征中,有效地克服了图像特征数目较多时,难以学习到相距较远的在前图像特征中的信息的问题,进一步提高了识别的准确性。
在一个实施例中,图像特征获取模块902可以包括如下单元:第一视频帧获取单元,用于获取待处理视频帧;第一视频帧输入单元,用于将待处理视频帧输入特征提取神经网络;第一特征提取单元,用于通过特征提取神经网络,分别提取各待处理视频帧的图像特征。
在一个实施例中,图像特征获取模块902可以包括如下单元:均值特征获取单元,用于根据各图像特征进行均值运算,得到均值特征。在此情况下,识别结果确定模块908,用于根据各图像特征序列中的最后一个图像特征序列对应的序列特征及均值特征,确定待识别视频的场景类别识别结果。
在一个实施例中,图像特征获取模块902可以包括如下单元:分类网络输入单元,用于将各图像特征序列中的最后一个图像特征序列对应的序列特征,输入递归神经网络的全连接层;分类单元,用于通过全连接层,根据最后一个图像特征序列对应的序列特征进行分类,得到待识别视频的场景类别识别结果。
在一个实施例中,第一隐藏状态确定模块904,用于通过递归神经网络,分别根据各图像特征及各图像特征相邻的前一个图像特征对应的隐藏状态,确定各图像特征对应的隐藏状态;其中,目标图像特征对应的隐藏状态包含于各图像特征对应的隐藏状态中。
在一个实施例中,第一隐藏状态确定模块904可以包括如下单元:第一影响参数确定单元,用于通过递归神经网络,分别将各图像特征相邻的前一个图像特征对应的隐藏状态和第一掩码参数相乘,得到各图像特征对应的隐藏状态影响参数;第一隐藏状态确定单元,用于分别根据各图像特征及与各图像特征对应的隐藏状态影响参数,确定各图像特征对应的隐藏状态。
在一个实施例中,第一隐藏状态确定单元可以包括如下子单元:第一门参数确定子单元,用于通过递归神经网络,分别根据各图像特征及各图像特征相邻的前一个图像特征对应的隐藏状态,确定各图像特征对应的输入门参数、遗忘门参数及输出门参数;第一影响参数确定子单元,用于分别将各图像特征相邻的前一个图像特征对应的细胞状态和第二掩码参数相乘,得到各图像特征对应的细胞状态影响参数;第一细胞状态确定子单元,用于分别根据各图像特征及与各图像特征对应的细胞状态影响参数,确定各图像特征对应的细胞状态;第一隐藏状态确定子单元,分别根据各图像特征对应的隐藏状态影响参数、输入门参数、遗忘门参数、输出门参数、以及各图像特征相邻的前一个图像特征对应的细胞状态,确定各图像特征对应的隐藏状态。
需要说明的是,关于视频的场景识别装置900的具体限定,可以参见上文中对于视频的场景识别方法的限定,在此不再赘述。上述场景识别装置900中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,如图10所示,提供了一种用于视频场景识别的递归神经网络的训练装置1000。该装置1000可以包括如下模块1002至1012。
样本特征获取模块1002,用于获取样本视频帧的样本图像特征;样本视频帧是对携带场景类别标签的样本视频进行抽帧处理得到。
第二隐藏状态确定模块1004,用于通过待训练递归神经网络,根据各样本图像特征确定样本目标图像特征所对应的隐藏状态;各样本目标图像特征包括根据各样本图像特征确定的各样本图像特征序列中的最后一个样本图像特征,样本图像特征序列多于一个。
第二序列特征确定模块1006,用于根据各样本目标图像特征所对应的隐藏状态、以及各样本目标图像特征所在的样本图像特征序列相邻的前一个样本图像特征序列对应的序列特征,确定各样本目标图像特征所在的样本图像特征序列对应的序列特征。
预测结果确定模块1008,用于根据各样本图像特征序列中的最后一个样本图像特征序列对应的序列特征,确定样本视频的场景类别预测结果。
损失参数确定模块1010,用于根据场景类别预测结果和场景类别标签,确定损失参数。
模型训练模块1012,用于根据损失参数对待训练递归神经网络进行模型训练,确定用于视频场景识别的递归神经网络。
上述递归神经网络的训练装置1000,获取样本视频的样本视频帧的样本图像特征,通过递归神经网络,确定各样本图像特征对应的隐藏状态,并根据各样本图像特征序列中的最后一个样本图像特征所对应的隐藏状态,以及各样本图像特征序列相邻的前一个样本图像特征序列对应的序列特征,确定各样本图像特征序列对应的序列特征,再根据各样本图像特征序列中的最后一个样本图像特征序列对应的序列特征,确定待识别视频的场景类别识别结果。如此,通过递归神经网络捕捉各样本图像特征之间的时间关联关系,每一个样本图像特征均会对相邻的下一个样本图像特征产生影响,因此最后一个样本图像特征所对应的隐藏状态,反映的是各样本图像特征整体上对确定视频所属的场景类别产生的影响,而稀释了有所偏离的单帧视频帧所带来的错误干扰。并且,将各样本图像特征划分为多个样本图像特征序列,以序列为单位整合样本图像特征序列对应的序列特征,再将样本图像特征序列的序列特征直接传递到下一个样本图像特征序列对应的序列特征中,有效地克服了样本图像特征数目较多时,难以学习到相距较远的在前样本图像特征中的信息的问题。从而,有效地提高了训练所得的神经网络的识别准确性。
在一个实施例中,第二隐藏状态确定模块1004,用于通过递归神经网络,分别根据各样本图像特征及各样本图像特征相邻的前一个样本图像特征对应的隐藏状态,确定各样本图像特征对应的隐藏状态;其中,样本目标图像特征对应的隐藏状态包含于各样本图像特征对应的隐藏状态中。
在一个实施例中,第二隐藏状态确定模块1004可以包括如下单元:第二影响参数确定单元,用于通过递归神经网络,分别将各样本图像特征相邻的前一个样本图像特征对应的隐藏状态和第一随机掩码参数相乘,得到各样本图像特征对应的隐藏状态影响参数;第二隐藏状态确定单元,用于分别根据各样本图像特征及与各样本图像特征对应的隐藏状态影响参数,确定各样本图像特征对应的隐藏状态。
在一个实施例中,第二隐藏状态确定单元可以包括如下子单元:第二门参数确定子单元,用于通过递归神经网络,分别根据各样本图像特征及各样本图像特征相邻的前一个样本图像特征对应的隐藏状态,确定各样本图像特征对应的输入门参数、遗忘门参数及输出门参数;第二影响参数确定子单元,用于分别将各样本图像特征相邻的前一个样本图像特征对应的细胞状态和第二随机掩码参数相乘,得到各样本图像特征对应的细胞状态影响参数;第二细胞状态确定子单元,用于分别根据各样本图像特征及与各样本图像特征对应的细胞状态影响参数,确定各样本图像特征对应的细胞状态;第二隐藏状态确定子单元,用于分别根据各样本图像特征对应的隐藏状态影响参数、输入门参数、遗忘门参数、输出门参数、以及各样本图像特征相邻的前一个样本图像特征对应的细胞状态,确定各样本图像特征对应的隐藏状态。
在一个实施例中,样本特征获取模块1002可以包括如下单元:第二视频帧获取单元,用于对样本视频进行抽帧处理,得到样本视频帧;第二视频帧输入单元,用于将样本视频帧输入特征提取神经网络;第二特征提取单元,用于通过特征提取神经网络,分别提取各样本视频帧的样本图像特征。
需要说明的是,关于递归神经网络的训练装置1000的具体限定,可以参见上文中对于递归神经网络的训练方法的限定,在此不再赘述。上述递归神经网络的训练装置1000中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行本申请任一实施例提供的视频的场景识别方法的步骤。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行本申请任一实施例提供的递归神经网络的训练方法的步骤。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行本申请任一实施例提供的视频的场景识别方法和递归神经网络的训练方法的步骤。
具体地,该计算机设备可以是图2中的服务器220。如图11所示,该计算机设备包括通过系统总线连接的处理器、存储器、网络接口。其中,该处理器用于提供计算和控制能力。该存储器包括非易失性存储介质和内存储器,该非易失性存储介质存储有操作系统、计算机程序,该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现本申请任一实施例提供的视频的场景识别方法。
或者,该计算机设备可以是图2中的终端110。如图12所示,该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、输入装置和显示屏。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现本申请任一实施例提供的视频的场景识别方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行本申请任一实施例提供的视频的场景识别方法。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图11或图12中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,本申请各实施例提供的视频的场景识别装置900可以实现为一种计算机程序的形式,计算机程序可在如图11或图12所示的计算机设备上运行。计算机设备的存储器中可存储组成该视频的场景识别装置900的各个程序模块,比如,图9所示的图像特征获取模块902、第一隐藏状态确定模块904、第一序列特征确定模块906以及识别结果确定模块908。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的视频的场景识别方法中的步骤,比如图11或图12所示的计算机设备可以通过如图9所示的视频的场景识别装置900中的图像特征获取模块902执行步骤S302、通过第一隐藏状态确定模块904执行步骤S304等等。
在一个实施例中,本申请各实施例提供的递归神经网络的训练装置1000可以实现为一种计算机程序的形式,计算机程序可在如图11或图12所示的计算机设备上运行。计算机设备的存储器中可存储组成该递归神经网络的训练装置1000的各个程序模块,比如,图10所示的样本特征获取模块1002、第二隐藏状态确定模块1004、第二序列特征确定模块1006、预测结果确定模块1008、损失参数确定模块1010、以及模型训练模块1012。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的递归神经网络的训练方法中的步骤,比如图11或图12所示的计算机设备可以通过如图10所示的递归神经网络的训练装置1000中的样本特征获取模块1002执行步骤S702、通过第二隐藏状态确定模块1004执行步骤S704等等。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
据此,在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时,使得处理器执行本申请任一实施例提供的视频的场景识别方法的步骤。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (24)

1.一种视频的场景识别方法,包括:
获取待处理视频帧的图像特征;所述待处理视频帧是对待识别视频进行抽帧处理得到;
通过递归神经网络,根据各所述图像特征确定各目标图像特征所对应的隐藏状态;所述各目标图像特征包括根据各所述图像特征确定的各图像特征序列中的最后一个图像特征,所述图像特征序列多于一个;所述图像特征序列是对所述图像特征进行分组得到的;所述图像特征序列中包括至少两个图像特征,所述至少两个图像特征在时间上是有先后顺序的;
根据各所述目标图像特征所对应的隐藏状态、以及各所述目标图像特征所在的图像特征序列相邻的前一个图像特征序列对应的序列特征,确定各所述目标图像特征所在的图像特征序列对应的序列特征;
根据各所述图像特征序列中的最后一个图像特征序列对应的序列特征,确定所述待识别视频的场景类别识别结果。
2.根据权利要求1所述的方法,其特征在于,所述获取待处理视频帧的图像特征,包括:
获取所述待处理视频帧;
将所述待处理视频帧输入特征提取神经网络;
通过所述特征提取神经网络,分别提取各所述待处理视频帧的图像特征。
3.根据权利要求1所述的方法,其特征在于,还包括:
根据各所述图像特征进行均值运算,得到均值特征;
所述根据各所述图像特征序列中的最后一个图像特征序列对应的序列特征,确定所述待识别视频的场景类别识别结果,包括:
根据各所述图像特征序列中的最后一个图像特征序列对应的序列特征及所述均值特征,确定所述待识别视频的场景类别识别结果。
4.根据权利要求1所述的方法,其特征在于,所述根据各所述图像特征序列中的最后一个图像特征序列对应的序列特征,确定所述待识别视频的场景类别识别结果,包括:
将各所述图像特征序列中的最后一个图像特征序列对应的序列特征,输入所述递归神经网络中的全连接层;
通过所述全连接层,根据所述最后一个图像特征序列对应的序列特征进行分类,得到所述待识别视频的场景类别识别结果。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述通过递归神经网络,根据各所述图像特征确定目标图像特征所对应的隐藏状态,包括:
通过所述递归神经网络,分别根据各所述图像特征及各所述图像特征相邻的前一个图像特征对应的隐藏状态,确定各所述图像特征对应的隐藏状态;
其中,所述目标图像特征对应的隐藏状态包含于各所述图像特征对应的隐藏状态中。
6.根据权利要求5所述的方法,其特征在于,所述通过所述递归神经网络,分别根据各所述图像特征及各所述图像特征相邻的前一个图像特征对应的隐藏状态,确定各所述图像特征对应的隐藏状态,包括:
通过所述递归神经网络,分别将各所述图像特征相邻的前一个图像特征对应的隐藏状态和第一掩码参数相乘,得到各所述图像特征对应的隐藏状态影响参数;
分别根据各所述图像特征及与各所述图像特征对应的隐藏状态影响参数,确定各所述图像特征对应的隐藏状态。
7.根据权利要求6所述的方法,其特征在于,所述分别根据各所述图像特征及与各所述图像特征对应的隐藏状态影响参数,确定各所述图像特征对应的隐藏状态,包括:
通过所述递归神经网络,分别根据各所述图像特征及各所述图像特征相邻的前一个图像特征对应的隐藏状态,确定各所述图像特征对应的输入门参数、遗忘门参数及输出门参数;
分别将各所述图像特征相邻的前一个图像特征对应的细胞状态和第二掩码参数相乘,得到各所述图像特征对应的细胞状态影响参数;
分别根据各所述图像特征及与各所述图像特征对应的细胞状态影响参数,确定各所述图像特征对应的细胞状态;
分别根据各所述图像特征对应的隐藏状态影响参数、输入门参数、遗忘门参数、输出门参数、以及各所述图像特征相邻的前一个图像特征对应的细胞状态,确定各所述图像特征对应的隐藏状态。
8.根据权利要求1所述的方法,其特征在于,确定所述递归神经网络的步骤,包括:
获取样本视频帧的样本图像特征;所述样本视频帧是对携带场景类别标签的样本视频进行抽帧处理得到;
通过待训练递归神经网络,根据各所述样本图像特征确定样本目标图像特征所对应的隐藏状态;所述各样本目标图像特征包括根据各所述样本图像特征确定的各样本图像特征序列中的最后一个样本图像特征,所述样本图像特征序列多于一个;
根据各所述样本目标图像特征所对应的隐藏状态、以及各所述样本目标图像特征所在的样本图像特征序列相邻的前一个样本图像特征序列对应的序列特征,确定各所述样本目标图像特征所在的样本图像特征序列对应的序列特征;
根据各所述样本图像特征序列中的最后一个样本图像特征序列对应的序列特征,确定所述样本视频的场景类别预测结果;
根据所述场景类别预测结果和所述场景类别标签,确定损失参数;
根据所述损失参数对所述待训练递归神经网络进行模型训练,确定所述递归神经网络。
9.根据权利要求8所述的方法,其特征在于,所述根据各所述样本图像特征确定样本目标图像特征所对应的隐藏状态,包括:
分别根据各所述样本图像特征及各所述样本图像特征相邻的前一个样本图像特征对应的隐藏状态,确定各所述样本图像特征对应的隐藏状态;
其中,所述样本目标图像特征对应的隐藏状态包含于各所述样本图像特征对应的隐藏状态中。
10.根据权利要求9所述的方法,其特征在于,所述分别根据各所述样本图像特征及各所述样本图像特征相邻的前一个样本图像特征对应的隐藏状态,确定各所述样本图像特征对应的隐藏状态,包括:
分别将各所述样本图像特征相邻的前一个样本图像特征对应的隐藏状态和第一随机掩码参数相乘,得到各所述样本图像特征对应的隐藏状态影响参数;
分别根据各所述样本图像特征及与各所述样本图像特征对应的隐藏状态影响参数,确定各所述样本图像特征对应的隐藏状态。
11.根据权利要求10所述的方法,其特征在于,分别根据各所述样本图像特征及与各所述样本图像特征对应的隐藏状态影响参数,确定各所述样本图像特征对应的隐藏状态,包括:
分别根据各所述样本图像特征及各所述样本图像特征相邻的前一个样本图像特征对应的隐藏状态,确定各所述样本图像特征对应的输入门参数、遗忘门参数及输出门参数;
分别将各所述样本图像特征相邻的前一个样本图像特征对应的细胞状态和第二随机掩码参数相乘,得到各所述样本图像特征对应的细胞状态影响参数;
分别根据各所述样本图像特征及与各所述样本图像特征对应的细胞状态影响参数,确定各所述样本图像特征对应的细胞状态;
分别根据各所述样本图像特征对应的隐藏状态影响参数、输入门参数、遗忘门参数、输出门参数、以及各所述样本图像特征相邻的前一个样本图像特征对应的细胞状态,确定各所述样本图像特征对应的隐藏状态。
12.一种视频的场景识别装置,包括:
图像特征获取模块,用于获取待处理视频帧的图像特征;所述待处理视频帧是对待识别视频进行抽帧处理得到;
第一隐藏状态确定模块,用于通过递归神经网络,根据各所述图像特征确定各目标图像特征所对应的隐藏状态;所述各目标图像特征包括根据各所述图像特征确定的各图像特征序列中的最后一个图像特征,所述图像特征序列多于一个;所述图像特征序列是对所述图像特征进行分组得到的;所述图像特征序列中包括至少两个图像特征,所述至少两个图像特征在时间上是有先后顺序的;
第一序列特征确定模块,用于根据各所述目标图像特征所对应的隐藏状态、以及各所述目标图像特征所在的图像特征序列相邻的前一个图像特征序列对应的序列特征,确定各所述目标图像特征所在的图像特征序列对应的序列特征;
识别结果确定模块,用于根据各所述图像特征序列中的最后一个图像特征序列对应的序列特征,确定所述待识别视频的场景类别识别结果。
13.根据权利要求12所述的装置,其特征在于,所述图像特征获取模块包括以下单元:
第一视频帧获取单元,用于获取所述待处理视频帧;
第一视频帧输入单元,用于将所述待处理视频帧输入特征提取神经网络;
第一特征提取单元,用于通过所述特征提取神经网络,分别提取各所述待处理视频帧的图像特征。
14.根据权利要求12所述的装置,其特征在于,所述图像特征获取模块包括以下单元:
均值特征获取单元,用于根据各所述图像特征进行均值运算,得到均值特征;
所述识别结果确定模块还用于:
根据各所述图像特征序列中的最后一个图像特征序列对应的序列特征及所述均值特征,确定所述待识别视频的场景类别识别结果。
15.根据权利要求12所述的装置,其特征在于,所述图像特征获取模块包括以下单元:
分类网络输入单元,用于将各所述图像特征序列中的最后一个图像特征序列对应的序列特征,输入所述递归神经网络中的全连接层;
分类单元,用于通过所述全连接层,根据所述最后一个图像特征序列对应的序列特征进行分类,得到所述待识别视频的场景类别识别结果。
16.根据权利要求12所述的装置,其特征在于,所述第一隐藏状态确定模块,用于通过所述递归神经网络,分别根据各所述图像特征及各所述图像特征相邻的前一个图像特征对应的隐藏状态,确定各所述图像特征对应的隐藏状态;
其中,所述目标图像特征对应的隐藏状态包含于各所述图像特征对应的隐藏状态中。
17.根据权利要求16所述的装置,其特征在于,所述第一隐藏状态确定模块包括以下单元:
第一影响参数确定单元,用于通过所述递归神经网络,分别将各所述图像特征相邻的前一个图像特征对应的隐藏状态和第一掩码参数相乘,得到各所述图像特征对应的隐藏状态影响参数;
第一隐藏状态确定单元,用于分别根据各所述图像特征及与各所述图像特征对应的隐藏状态影响参数,确定各所述图像特征对应的隐藏状态。
18.根据权利要求17所述的装置,其特征在于,所述第一隐藏状态确定单元包括以下子单元:
第一门参数确定子单元,用于通过所述递归神经网络,分别根据各所述图像特征及各所述图像特征相邻的前一个图像特征对应的隐藏状态,确定各所述图像特征对应的输入门参数、遗忘门参数及输出门参数;
第一影响参数确定子单元,用于分别将各所述图像特征相邻的前一个图像特征对应的细胞状态和第二掩码参数相乘,得到各所述图像特征对应的细胞状态影响参数;
第一细胞状态确定子单元,用于分别根据各所述图像特征及与各所述图像特征对应的细胞状态影响参数,确定各所述图像特征对应的细胞状态;
第一隐藏状态确定子单元,用于分别根据各所述图像特征对应的隐藏状态影响参数、输入门参数、遗忘门参数、输出门参数、以及各所述图像特征相邻的前一个图像特征对应的细胞状态,确定各所述图像特征对应的隐藏状态。
19.根据权利要求12所述的装置,其特征在于,所述装置还包括递归神经网络的训练装置,所述递归神经网络的训练装置包括:
样本特征获取模块,用于获取样本视频帧的样本图像特征;所述样本视频帧是对携带场景类别标签的样本视频进行抽帧处理得到;
第二隐藏状态确定模块,用于通过待训练递归神经网络,根据各所述样本图像特征确定样本目标图像特征所对应的隐藏状态;所述各样本目标图像特征包括根据各所述样本图像特征确定的各样本图像特征序列中的最后一个样本图像特征,所述样本图像特征序列多于一个;
第二序列特征确定模块,用于根据各所述样本目标图像特征所对应的隐藏状态、以及各所述样本目标图像特征所在的样本图像特征序列相邻的前一个样本图像特征序列对应的序列特征,确定各所述样本目标图像特征所在的样本图像特征序列对应的序列特征;
预测结果确定模块,用于根据各所述样本图像特征序列中的最后一个样本图像特征序列对应的序列特征,确定所述样本视频的场景类别预测结果;
损失参数确定模块,用于根据所述场景类别预测结果和所述场景类别标签,确定损失参数;
模型训练模块,用于根据所述损失参数对所述待训练递归神经网络进行模型训练,确定所述递归神经网络。
20.根据权利要求19所述的装置,其特征在于,所述第二隐藏状态确定模块还用于:
分别根据各所述样本图像特征及各所述样本图像特征相邻的前一个样本图像特征对应的隐藏状态,确定各所述样本图像特征对应的隐藏状态;
其中,所述样本目标图像特征对应的隐藏状态包含于各所述样本图像特征对应的隐藏状态中。
21.根据权利要求20所述的装置,其特征在于,所述第二隐藏状态确定模块包括以下单元:
第二影响参数确定单元,用于分别将各所述样本图像特征相邻的前一个样本图像特征对应的隐藏状态和第一随机掩码参数相乘,得到各所述样本图像特征对应的隐藏状态影响参数;
第二隐藏状态确定单元,用于分别根据各所述样本图像特征及与各所述样本图像特征对应的隐藏状态影响参数,确定各所述样本图像特征对应的隐藏状态。
22.根据权利要求21所述的装置,其特征在于,所述第二隐藏状态确定单元包括以下子单元:
第二门参数确定子单元,用于分别根据各所述样本图像特征及各所述样本图像特征相邻的前一个样本图像特征对应的隐藏状态,确定各所述样本图像特征对应的输入门参数、遗忘门参数及输出门参数;
第二影响参数确定子单元,用于分别将各所述样本图像特征相邻的前一个样本图像特征对应的细胞状态和第二随机掩码参数相乘,得到各所述样本图像特征对应的细胞状态影响参数;
第二细胞状态确定子单元,用于分别根据各所述样本图像特征及与各所述样本图像特征对应的细胞状态影响参数,确定各所述样本图像特征对应的细胞状态;
第二隐藏状态确定子单元,用于分别根据各所述样本图像特征对应的隐藏状态影响参数、输入门参数、遗忘门参数、输出门参数、以及各所述样本图像特征相邻的前一个样本图像特征对应的细胞状态,确定各所述样本图像特征对应的隐藏状态。
23.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至11中任一项所述方法的步骤。
24.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至11中任一项所述方法的步骤。
CN201811392100.8A 2018-11-21 2018-11-21 视频的场景识别方法、装置、存储介质及计算机设备 Active CN110166826B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811392100.8A CN110166826B (zh) 2018-11-21 2018-11-21 视频的场景识别方法、装置、存储介质及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811392100.8A CN110166826B (zh) 2018-11-21 2018-11-21 视频的场景识别方法、装置、存储介质及计算机设备

Publications (2)

Publication Number Publication Date
CN110166826A CN110166826A (zh) 2019-08-23
CN110166826B true CN110166826B (zh) 2021-10-08

Family

ID=67645198

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811392100.8A Active CN110166826B (zh) 2018-11-21 2018-11-21 视频的场景识别方法、装置、存储介质及计算机设备

Country Status (1)

Country Link
CN (1) CN110166826B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11552914B2 (en) 2019-10-06 2023-01-10 International Business Machines Corporation Filtering group messages
CN111291692B (zh) * 2020-02-17 2023-10-20 咪咕文化科技有限公司 视频场景识别方法、装置、电子设备及存储介质
CN113822130A (zh) * 2021-07-05 2021-12-21 腾讯科技(深圳)有限公司 模型训练方法、场景识别方法、计算设备和介质
CN113642443A (zh) * 2021-08-06 2021-11-12 深圳市宏电技术股份有限公司 模型的测试方法、装置、电子设备及存储介质
WO2023206532A1 (zh) * 2022-04-29 2023-11-02 Oppo广东移动通信有限公司 预测方法、装置、电子设备及计算机可读存储介质
CN117237856B (zh) * 2023-11-13 2024-03-01 腾讯科技(深圳)有限公司 图像识别方法、装置、计算机设备、存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105844239A (zh) * 2016-03-23 2016-08-10 北京邮电大学 一种基于cnn和lstm的暴恐视频检测方法
CN107680597A (zh) * 2017-10-23 2018-02-09 平安科技(深圳)有限公司 语音识别方法、装置、设备以及计算机可读存储介质
CN108388876A (zh) * 2018-03-13 2018-08-10 腾讯科技(深圳)有限公司 一种图像识别方法、装置以及相关设备
CN108710847A (zh) * 2018-05-15 2018-10-26 北京旷视科技有限公司 场景识别方法、装置及电子设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180190377A1 (en) * 2016-12-30 2018-07-05 Dirk Schneemann, LLC Modeling and learning character traits and medical condition based on 3d facial features

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105844239A (zh) * 2016-03-23 2016-08-10 北京邮电大学 一种基于cnn和lstm的暴恐视频检测方法
CN107680597A (zh) * 2017-10-23 2018-02-09 平安科技(深圳)有限公司 语音识别方法、装置、设备以及计算机可读存储介质
CN108388876A (zh) * 2018-03-13 2018-08-10 腾讯科技(深圳)有限公司 一种图像识别方法、装置以及相关设备
CN108710847A (zh) * 2018-05-15 2018-10-26 北京旷视科技有限公司 场景识别方法、装置及电子设备

Also Published As

Publication number Publication date
CN110166826A (zh) 2019-08-23

Similar Documents

Publication Publication Date Title
CN110166826B (zh) 视频的场景识别方法、装置、存储介质及计算机设备
WO2020221278A1 (zh) 视频分类方法及其模型的训练方法、装置和电子设备
CN110765860B (zh) 摔倒判定方法、装置、计算机设备及存储介质
Jiang et al. Learning multi-level density maps for crowd counting
Ma et al. Group maximum differentiation competition: Model comparison with few samples
CN112131943A (zh) 一种基于双重注意力模型的视频行为识别方法及系统
CN109871490B (zh) 媒体资源匹配方法、装置、存储介质和计算机设备
CN110263733B (zh) 图像处理方法、提名评估方法及相关装置
CN112508094A (zh) 垃圾图片的识别方法、装置及设备
CN110930434B (zh) 目标对象跟随方法、装置、存储介质和计算机设备
CN110555428B (zh) 行人重识别方法、装置、服务器以及存储介质
CN111401474B (zh) 视频分类模型的训练方法、装置、设备及存储介质
CN111666922A (zh) 视频匹配方法、装置、计算机设备和存储介质
CN110378245B (zh) 基于深度学习的足球比赛行为识别方法、装置及终端设备
TWI761813B (zh) 視頻分析方法及其相關的模型訓練方法、電子設備、儲存介質
CN114282047A (zh) 小样本动作识别模型训练方法、装置、电子设备及存储介质
CN113283368B (zh) 一种模型训练方法、人脸属性分析方法、装置及介质
CN110765286A (zh) 跨媒体检索方法、装置、计算机设备和存储介质
JP2021515321A (ja) メディア処理方法、その関連装置及びコンピュータプログラム
Liang et al. Deep blind image quality assessment based on multiple instance regression
CN114519863A (zh) 人体重识别方法、人体重识别装置、计算机设备及介质
WO2022088411A1 (zh) 图像检测及相关模型训练方法、装置、设备、介质及程序
CN110472151B (zh) 媒体数据推送方法、装置和计算机可读存储介质
CN112906586A (zh) 时序动作提名生成方法和相关产品
CN114155388B (zh) 一种图像识别方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant