CN109145828B - 用于生成视频类别检测模型的方法和装置 - Google Patents

用于生成视频类别检测模型的方法和装置 Download PDF

Info

Publication number
CN109145828B
CN109145828B CN201810973121.2A CN201810973121A CN109145828B CN 109145828 B CN109145828 B CN 109145828B CN 201810973121 A CN201810973121 A CN 201810973121A CN 109145828 B CN109145828 B CN 109145828B
Authority
CN
China
Prior art keywords
preset
category
probability
video
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810973121.2A
Other languages
English (en)
Other versions
CN109145828A (zh
Inventor
李伟健
王长虎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Douyin Vision Co Ltd
Douyin Vision Beijing Co Ltd
Original Assignee
Beijing ByteDance Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing ByteDance Network Technology Co Ltd filed Critical Beijing ByteDance Network Technology Co Ltd
Priority to CN201810973121.2A priority Critical patent/CN109145828B/zh
Publication of CN109145828A publication Critical patent/CN109145828A/zh
Application granted granted Critical
Publication of CN109145828B publication Critical patent/CN109145828B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本申请实施例公开了用于生成视频类别检测模型的方法和装置。该方法的一具体实施方式包括:获取样本集;从该样本集中提取样本,执行如下训练步骤:将所提取的样本中的样本视频中的帧输入至初始模型,得到样本视频属于各预设类别的概率;基于所得到的概率、预设概率、所提取的样本中的标注信息和预设的与预设类别一一对应的损失函数,确定各预设类别对应的损失值;基于所确定的损失值确定初始模型是否训练完成;响应于确定初始模型训练完成,将训练后的初始模型确定为视频类别检测模型。该实施方式能够得到一种可以用于视频类别检测的模型,且该方法丰富了模型的生成方式。

Description

用于生成视频类别检测模型的方法和装置
技术领域
本申请实施例涉及计算机技术领域,具体涉及用于生成视频类别检测模型的方法和装置。
背景技术
随着计算机技术的发展,视频类应用应运而生。用户可以利用视频类应用上传、发布视频。为保证视频质量以及便于向其他用户进行视频推送,通常需要确定用户上传的视频的所涉及的内容的类别。
相关的方式之一,通常是预先对样本进行单标签标注,利用标注后样本进行模型训练。对于某个视频,训练后的模型可以预测出一个该视频的类别。相关的另一种方式,通常是预先对样本进行多标签标注,利用标注后样本进行模型训练,对于某个视频,训练后的模型可以预测出一个或多个该视频的类别。
发明内容
本申请实施例提出了用于生成视频类别检测模型的方法和装置。
第一方面,本申请实施例提供了一种用于生成视频类别检测模型的方法,该方法包括:获取样本集,其中,样本集中的样本包括样本视频和用于指示样本视频的类别的标注信息;从样本集中提取样本,执行如下训练步骤:将所提取的样本中的样本视频中的帧输入至初始模型,得到样本视频属于各预设类别的概率;基于所得到的概率、预设概率、所提取的样本中的标注信息和预设的与预设类别一一对应的损失函数,确定各预设类别对应的损失值;基于所确定的损失值确定初始模型是否训练完成;响应于确定初始模型训练完成,将训练后的初始模型确定为视频类别检测模型。
在一些实施例中,基于所得到的概率、预设概率、所提取的样本中的标注信息和预设的与预设类别一一对应的损失函数,确定各预设类别对应的损失值,包括:将所提取的样本中的标注信息所指示的类别作为目标类别,响应于确定样本视频属于目标类别的概率不小于预设概率,并且,在除目标类别外的预设类别中,存在概率大于预设概率的预设类别,将各预设类别的概率输入至相应的损失函数,得到各个预设类别对应的损失值,将概率大于预设概率的预设类别对应的损失值进行减小处理,以对损失值进行更新。
在一些实施例中,将概率大于预设概率的预设类别对应的损失值进行减小处理,以对损失值进行更新,包括:对于概率大于预设概率的预设类别,将该预设类别对应的损失值除以第一预设数值,将所得到的数值更新为该预设类别对应的损失值。
在一些实施例中,将其他类别的损失值进行减小处理,以对损失值进行更新,包括:对于概率大于预设概率的预设类别,以该预设类别对应的损失值作为底数,以第二预设数值作为指数,进行幂运算,将幂运算所得到的数值更新为该预设类别的损失值。
在一些实施例中,基于所得到的概率、预设概率、所提取的样本中的标注信息和预设的与预设类别一一对应的损失函数,确定各预设类别对应的损失值,包括:将所提取的样本中的标注信息所指示的类别作为目标类别,在以下任一条件满足时,将各预设类别的概率输入至相应的损失函数,得到各个预设类别对应的损失值:样本视频属于目标类别的概率小于预设概率;样本视频属于目标类别的概率不小于预设概率,并且,在除目标类别外的预设类别中,不存在概率大于预设概率的预设类别。
在一些实施例中,基于所确定的损失值确定初始模型是否训练完成,包括:将各预设类别对应的损失值之和作为所提取的样本的总损失值,将总损失值与目标值进行比较;根据比较结果确定初始模型是否训练完成。
在一些实施例中,该方法还包括:响应于确定初始模型未训练完成,基于所确定的损失值,更新初始模型中的参数,从样本集中重新提取样本,使用更新参数后的初始模型作为初始模型,继续执行训练步骤。
第二方面,本申请实施例提供了一种用于生成视频类别检测模型的装置,该装置包括:获取单元,被配置成获取样本集,其中,样本集中的样本包括样本视频和用于指示样本视频的类别的标注信息;训练单元,被配置成从样本集中提取样本,执行如下训练步骤:将所提取的样本中的样本视频中的帧输入至初始模型,得到样本视频属于各预设类别的概率;基于所得到的概率、预设概率和所提取的样本中的标注信息,确定各预设类别对应的损失值;基于所确定的损失值确定初始模型是否训练完成;响应于确定初始模型训练完成,将训练后的初始模型确定为视频类别检测模型。
在一些实施例中,训练单元,进一步被配置成:将所提取的样本中的标注信息所指示的类别作为目标类别,响应于确定样本视频属于目标类别的概率不小于预设概率,并且,在除目标类别外的预设类别中,存在概率大于预设概率的预设类别,将各预设类别的概率输入至相应的损失函数,得到各个预设类别对应的损失值,将概率大于预设概率的预设类别对应的损失值进行减小处理,以对损失值进行更新。
在一些实施例中,训练单元,进一步被配置成:对于概率大于预设概率的预设类别,将该预设类别对应的损失值除以第一预设数值,将所得到的数值更新为该预设类别对应的损失值。
在一些实施例中,训练单元,进一步被配置成:对于概率大于预设概率的预设类别,以该预设类别对应的损失值作为底数,以第二预设数值作为指数,进行幂运算,将幂运算所得到的数值更新为该预设类别的损失值。
在一些实施例中,训练单元,进一步被配置成:将所提取的样本中的标注信息所指示的类别作为目标类别,在以下任一条件满足时,将各预设类别的概率输入至相应的损失函数,得到各个预设类别对应的损失值:样本视频属于目标类别的概率小于预设概率;样本视频属于目标类别的概率不小于预设概率,并且,在除目标类别外的预设类别中,不存在概率大于预设概率的预设类别。
在一些实施例中,训练单元,进一步被配置成:将各预设类别对应的损失值之和作为所提取的样本的总损失值,将总损失值与目标值进行比较;根据比较结果确定初始模型是否训练完成。
在一些实施例中,该装置还包括:更新单元,被配置成响应于确定初始模型未训练完成,基于所确定的损失值,更新初始模型中的参数,从样本集中重新提取样本,使用更新参数后的初始模型作为初始模型,继续执行训练步骤。
第三方面,本申请实施例提供了一种用于检测视频类别的方法,包括:响应于接收到包含待检测视频的视频类别检测请求,按照指定时间间隔从待检测视频中抽取多帧;将多帧输入采用如上述第一方面中任一实施例所描述的方法生成的视频类别检测模型中,将视频类别检测模型输出的、大于预设概率的概率所对应的预设类别确定为待检测视频的类别。
第四方面,本申请实施例提供了一种用于检测视频类别的装置,包括:接收单元,被配置成响应于接收到包含待检测视频的视频类别检测请求,按照指定时间间隔从待检测视频中抽取多帧;输入单元,被配置成将多帧输入采用如上述第二方面中任一实施例所描述的方法生成的视频类别检测模型中,将视频类别检测模型输出的、大于预设概率的概率所对应的预设类别确定为待检测视频的类别。
第五方面,本申请实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如上述第一方面和第三方面中任一实施例的方法。
第六方面,本申请实施例提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一方面和第三方面中任一实施例的方法。
本申请实施例提供的用于生成视频类别检测模型的方法和装置,通过获取样本集,可以从中提取样本以进行初始模型的训练。其中,样本集中的样本可以包括样本视频和用于指示样本视频的类别的标注信息。这样,将提取的样本中的样本视频中的帧输入至初始模型,便可以得到初始模型输出的样本视频属于各预设类别的概率。之后,可以基于所得到的概率、预设概率和所提取的样本中的标注信息,确定各预设类别对应的损失值。最后,可以基于所确定的损失值确定初始模型是否训练完成。如果初始模型训练完成,就可以将训练后的初始模型确定为视频类别检测模型。从而能够得到一种可以用于视频类别检测的模型,且有助于丰富模型的生成方式。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本申请的一个实施例可以应用于其中的示例性系统架构图;
图2是根据本申请的用于生成视频类别检测模型的方法的一个实施例的流程图;
图3是根据本申请的用于生成视频类别检测模型的方法的一个应用场景的示意图;
图4是根据本申请的用于生成视频类别检测模型的方法的又一个实施例的流程图;
图5是根据本申请的用于生成视频类别检测模型的装置的一个实施例的结构示意图;
图6是根据本申请用于检测视频类别的方法的一个实施例的流程图;
图7是根据本申请用于检测视频类别的装置的一个实施例的结构示意图;
图8是适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了可以应用本申请的用于生成视频类别检测模型的方法或用于生成视频类别检测模型的装置的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如视频录制类应用、视频播放类应用、语音交互类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备101、102、103可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,可以是具有显示屏的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块。在此不做具体限定。
当终端设备101、102、103为硬件时,其上还可以安装有图像采集设备。图像采集设备可以是各种能实现采集图像功能的设备,如摄像头、传感器等等。用户可以利用终端设备101、102、103上的图像采集设备,来采集视频。
服务器105可以是提供各种服务的服务器,例如用于对终端设备101、102、103上传的视频进行存储、管理或者分析的视频处理服务器。视频处理服务器可以获取样本集。样本集中可以包含大量的样本。其中,样本可以包括样本视频和用于指示样本视频的类别的标注信息。此外,视频处理服务器可以利用样本集中的样本,对初始模型进行训练,并可以将训练结果(如生成的视频类别检测模型)进行存储。这样,在用户利用终端设备101、102、103上传视频后,服务器105可以确定用户所上传的视频的类别,进而,可以对该视频进行分类存储,或者,将该视频进行针对性地推送等操作。
需要说明的是,服务器105可以是硬件,也可以是软件。当服务器为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块。在此不做具体限定。
需要说明的是,本申请实施例所提供的用于生成视频类别检测模型的方法一般由服务器105执行,相应地,用于生成视频类别检测模型的装置一般设置于服务器105中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,示出了根据本申请的用于生成视频类别检测模型的方法的一个实施例的流程200。该用于生成视频类别检测模型的方法,包括以下步骤:
步骤201,获取样本集。
在本实施例中,用于生成视频类别检测模型的方法的执行主体(例如图1所示的服务器105)可以通过多种方式来获取样本集。例如,执行主体可以通过有线连接方式或无线连接方式,从用于存储样本的另一服务器(例如数据库服务器)中获取存储于其中的现有的样本集。再例如,用户可以通过终端设备(例如图1所示的终端设备101、102、103)来收集样本。这样,上述执行主体可以接收终端所收集的样本,并将这些样本存储在本地,从而生成样本集。需要指出的是,上述无线连接方式可以包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。
此处,样本集中可以包括大量的样本。其中,样本可以包括样本视频以及用于指示样本视频的类别的标注信息。样本视频的类别可以预先划分为多种,例如:天空、海洋、田野、唱歌、跳舞等等。上述预先划分的每一种类别均作为一个预设类别。需要说明的是,样本集中的每一个样本视频,对应有一个用于指示该视频属于某一预设类别的标注信息。即,样本视频使用单标签标注。单标签标注样本,相对于多标签标注,能够节约大量人力成本。
实践中,样本集中的样本视频可以是场景单一的视频(例如场景仅为海洋的视频、场景仅为田野的视频),以便保证样本中的样本视频的标注信息的准确性。对于场景不单一的视频,则不作为样本视频。例如,某个人在田野里跳舞的视频中,既包含田野场景,又包含跳舞场景,则该视频为场景不单一的视频,不作为样本视频。由此,样本视频的类别是唯一的,可以使样本视频的标注信息更加准确。
步骤202,从样本集中提取样本。
在本实施例中,执行主体可以从步骤201中获取的样本集中选取样本,以及执行步骤203至步骤206的训练步骤。其中,样本的提取方式和提取数量在本申请中并不限制。例如,可以是随机提取至少一个样本,也可以是从中提取样本视频的清晰度较好(即样本视频的帧的像素较高)的样本。
步骤203,将所提取的样本中的样本视频中的帧输入至初始模型,得到样本视频属于各预设类别的概率。
在本实施例中,上述执行主体可以将步骤202中提取的样本中的样本视频中的帧输入至初始模型。初始模型通过对视频中的帧进行特征提取、分析等,输出样本视频属于各预设类别的概率。需要说明的是,所输入的样本视频中的帧,可以是随机抽取的一帧或多帧;也可以是按照指定时间间隔(例如1s或者2s等)从上述待检测视频中抽取的多帧。此处不作限定。
在本实施例中,初始模型可以是基于机器学习技术而创建的各种具有图像特征提取功能和分类功能的模型。初始模型可以对视频中的帧进行特征提取,而后对所提取的特征进行融合、分析等处理,最终输出样本视频属于各个预设类别的概率。
作为示例,初始模型可以是使用各种现有的结构(例如DenseBox、VGGNet、ResNet、SegNet等)的卷积神经网络。实践中,卷积神经网络(Convolutional Neural Network,CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于图像处理有出色表现,因而,可以利用卷积神经网络进行样本视频中的帧特征的提取。在本示例中,所建立的积神经网络可以包含卷积层、池化层、特征融合层、全连接层等。其中,卷积层可以用于提取图像特征。池化层可以用于对输入的信息进行降采样(downsample)。特征融合层可以用于将所得到的各帧对应的图像特征(例如,可以是特征矩阵的形式,或者特征向量的形式)进行融合。例如,可以将不同帧对应的特征矩阵中的相同位置的特征值取平均,以进行特征融合,生成一个融合后的特征矩阵。全连接层可以用于将所得到的特征进行分类。需要说明的是,全连接层可以使用Sigmoid函数计算样本视频属于各个预设类别的概率。对于每一个预设类别,利用Sigmoid函数计算出的样本视频属于该预设类别的概率可以位于区间[0,1]。Sigmoid函数计算出的样本视频属于各预设类别的概率互不相关。
需要说明的是,上述初始模型也可以是具有图像特征提取功能和分类功能的其他模型(例如使用sigmoid函数进行分类的各种现有的分类器),并不限于上述示例,具体的模型结构此处不作限定。
步骤204,基于所得到的概率、预设概率、所提取的样本中的标注信息和预设的与预设类别一一对应的损失函数,确定各预设类别对应的损失值。
在本实施例中,上述执行主体可以基于所得到的概率、预设概率、所提取的样本中的标注信息和预设的与预设类别一一对应的损失函数,确定各预设类别对应的损失值。此处,对于某一预设类别,该类别对应的损失函数可以是用来估量初始模型的预测值(如所输入的样本视频属于该预设类别的概率)与真实值(例如1或0,分别表征所输入的样本视频是否属于该预设类别)的不一致程度。它是一个非负实值函数。一般情况下,损失函数的值(损失值)越小,模型的鲁棒性就越好。损失函数可以根据实际需求来设置。
在本实施例中,初始模型可以使用Sigmoid交叉熵损失(sigmoid cross entropyloss)作为损失函数。每一个预设类别可以对应一个损失函数(即Sigmoid交叉熵损失)。
在本实施例中,可以按照如下步骤确定各个预设类别对应的损失值:
第一步,对于每一个预设类别,可以将初始模型所输出的样本视频属于该预设类别的概率和样本视频的标注信息待入至该预设类别对应的损失函数,得到该预设类别对应的初始损失值。
第二步,可以将步骤203所得到的样本视频属于各个预设类别的概率与预设概率(例如0.5)进行数值比较。根据比较结果对初始损失值进行更新(例如增大、减小)或者保持不变。
作为示例,若步骤203所得到的概率中,只有一个概率不小于预设概率,或者,各概率均小于预设概率,则可以将各个类别的初始损失值确定为最终的损失值。即,对初始损失值不作更新。
作为又一示例,若步骤203所得到的概率中,存在至少两个概率大于预设概率,并且,上述至少两个概率对应的预设类别中,包含所提取的样本中的标注信息所指示的类别(可称为目标类别),则可以将上述至少两个概率对应的预设类别中,除目标类别之外的其他类别的初始损失值减小,以对其他类别的损失值进行更新。需要说明的是,在满足本示例的条件时,所执行的操作也可以替换为,将除上述至少两个概率对应的预设类别的其他类别的损失值增大。
作为再一示例,若步骤203所得到的概率中,存在至少两个概率大于预设概率,并且,上述至少两个概率对应的预设类别中,不包含所提取的样本中的标注信息所指示的类别(可称为目标类别),则可以将各个类别的初始损失值确定为最终的损失值。即,对初始损失值不作更新。
在以往的相关方式中,若实现多标签输出,需要使用多标签标注的样本视频进行模型训练。如果对样本视频进行多标签标注,那么需要制定很多标注的标准,技术人员的工作量也很大。例如,有一万个视频,每个视频打多个标注,工作量很大。利用本实施例提供的方法,在对样本视频进行单标签标注的基础上,进行模型训练。在模型训练过程中,根据模型得到的概率和预设概率的比较结果,对所得到的部分损失值进行更新(例如减小),可以使模型既能准确预测出希望预测出的标签,同时对其他标签进行合理预测。从而能够基于单标签的样本训练出可输出多标签的预测结果(即预测出的类别不小于一个,预测出的类别可以是概率大于预设概率的类别)。由此,提高了模型训练效率,节约了人力成本。
可以理解的是,由于模型的训练过程,是利用反向传播算法求得损失值相对于权重的梯度,而后利用梯度下降算法基于梯度更新模型参数。因而,损失值越小,模型的鲁棒性就越好,参数的调整程度越小。由此,当将某一预设类别对应的损失值减小时,可以认为所预测出的该预设类别对应的概率的准确性较高。例如,该预设类别(除目标类别以外的其他类别)对应的概率为0.8,预设概率为0.5,减小该预设类别对应的损失值,可以使模型认为其预测出的预设类别对应的概率较为准确。从而,最终训练后的模型,可以在预测出目标类别外,还可以预测出该预设类别。
在本实施例的一些可选的实现方式中,上述执行主体可以将所提取的样本中的标注信息所指示的类别作为目标类别。首先,上述执行主体可以从步骤203所得到的样本视频属于各预设类别的概率中,读取样本视频属于上述目标类别的概率。而后,将所读取的概率与预设概率(例如0.5)进行比较。响应于确定所读取的概率小于上述预设概率,可以将各预设类别的概率输入至相应的损失函数,得到各个预设类别对应的损失值。具体地,对于每一个预设类别,可以将样本视频属于该预设类别的概率和样本视频的标注信息输入至该预设类别对应的损失函数,得到该预设对应的损失值。
在本实施例的一些可选的实现方式中,在将所读取的概率与预设概率进行比较之后,响应于确定样本视频属于上述目标类别的概率不小于上述预设概率,并且,在除上述目标类别外的预设类别中,不存在概率大于上述预设概率的预设类别,此时,上述执行主体也可以将各预设类别的概率输入至相应的损失函数,得到各个预设类别对应的损失值。
在本实施例的一些可选的实现方式中,在将所读取的概率与预设概率进行比较之后,响应于确定样本视频属于上述目标类别的概率不小于预设概率,并且,在除上述目标类别外的预设类别中,存在概率大于上述预设概率的预设类别,此时,上述执行主体可以首先将各预设类别的概率输入至相应的损失函数,得到各个预设类别对应的损失值。而后,可以将概率大于上述预设概率的预设类别对应的损失值进行减小处理,以对损失值进行更新。由此,当预测出的类别(即概率大于预设概率的预设类别)包括标注信息所指示的目标类别,且还包括标注信息未指示的其他类别时,将类别对应的损失值减小,可以使模型能够基于单标签的样本训练出可输出多标签的预测结果。从而,提高了模型训练效率,节约了人力成本。
在本实施例的一些可选的实现方式中,上述将概率大于上述预设概率的预设类别对应的损失值进行减小处理,以对损失值进行更新,可以按照如下步骤执行:对于概率大于上述预设概率的预设类别,首先,将该预设类别对应的损失值除以第一预设数值。而后,可以将所得到的数值更新为该预设类别对应的损失值。可以理解的是,由于损失函数是一个非负实值函数,因为损失值为非负实值。在需要对损失值进行减小处理时,可以依据对大量数据的统计和试验经验,将第一预设数值设置为大于1的数值(例如3)。
在本实施例的一些可选的实现方式中,上述将上述其他类别的损失值进行减小处理,以对损失值进行更新,可以按照如下步骤执行:对于概率大于上述预设概率的预设类别,首先,以该预设类别对应的损失值作为底数,以第二预设数值作为指数,进行幂运算。而后,可以将幂运算所得到的数值更新为该预设类别的损失值。可以理解的是,由于损失函数是一个非负实值函数,因为损失值为非负实值。在需要对损失值进行减小处理时,可以依据对大量数据的统计和试验经验,将第二预设数值设置为大于0且小于1的数值(例如0.5)。
需要说明的是,将上述其他类别的损失值进行减小处理的方式不限于上述两种方式,还可以使用其他方式,例如对数计算等方式,此处不作限定。
需要指出的是,基于初始模型所输出的样本视频属于该预设类别的概率、预设概率、样本视频的标注信息以及该预设类别对应的损失函数,确定各预设类别对应的损失值的方式不限于上述列举。还可以利用其他方式。作为示例,可以在将所读取的概率与预设概率进行比较之后,在确定出样本视频属于上述目标类别的概率不小于预设概率,并且,在除上述目标类别外的预设类别中,存在概率大于上述预设概率的预设类别之后,可以首先将各预设类别的概率输入至相应的损失函数,得到各个预设类别对应的损失值。而后,可以将概率不大于上述预设概率的预设类别对应的损失值进行增大处理,以对损失值进行更新。
步骤205,基于所确定的损失值确定初始模型是否训练完成。
在本实施例中,上述执行主体可以基于所确定的损失值,确定初始模型是否训练完成。
在本实施例的一些可选的实现方式中,上述执行主体可以将各预设类别对应的损失值之和作为所提取的样本的总损失值,将上述总损失值与目标值进行比较。根据比较结果确定初始模型是否训练完成。需要说明的是,若步骤202中选取有多个(至少两个)样本,则执行主体可以将每个样本的总损失值分别与目标值进行比较。从而可以确定每个样本的总损失值是否达到目标值。作为示例,如果步骤202中选取有多个样本,那么在每个样本的总损失值均达到目标值的情况下,执行主体可以确定初始模型训练完成。再例如,执行主体可以统计总损失值达到目标值的样本占选取的样本的比例。且在该比例达到预设样本比例(如95%),可以确定初始模型训练完成。需要说明的是,目标值一般可以用于表示预测值与真实值之间的不一致程度的理想情况。也就是说,当总损失值达到目标值时,可以认为预测值接近或近似真实值。目标值可以根据实际需求来设置。
在本实施例的一些可选的实现方式中,上述执行主体可以获取预设的、与各个类别对应的权重,将各预设类别对应的损失值进行加权处理。将加权结果作为所提取的样本的总损失值。根据比较结果确定初始模型是否训练完成。需要说明的是,预设的与各个类别对应的权重可以根据实际情况来设置。
需要说明的是,响应于确定初始模型已训练完成,则可以继续执行步骤206。响应于确定初始模型未训练完成,可以基于所确定的损失值,更新初始模型中的参数,从上述样本集中重新提取样本,使用更新参数后的初始模型作为初始模型,继续执行上述训练步骤。此处,可以利用反向传播算法求得损失值相对于模型参数的梯度,而后利用梯度下降算法基于梯度更新模型参数。需要说明的是,上述反向传播算法、梯度下降算法以及机器学习方法是目前广泛研究和应用的公知技术,在此不再赘述。需要指出的是,这里的提取方式在本申请中也不限制。例如在样本集中有大量样本的情况下,执行主体可以从中提取未被提取过的样本。
步骤206,响应于确定初始模型训练完成,将训练后的初始模型确定为视频类别检测模型。
在本实施例中,响应于确定初始模型训练完成,上述执行主体可以将训练后的初始模型确定为视频类别检测模型。
在本实施例的一些可选的实现方式中,执行主体可以将生成的视频类别检测模型存储在本地,也可以将其发送给终端设备或用于存储数据的数据库服务器。
继续参见图3,图3是根据本实施例的用于生成视频类别检测模型的方法的应用场景的一个示意图。在图3的应用场景中,用户所使用的终端设备301上可以安装有模型训练类应用。当用户打开该应用,并上传样本集或样本集的存储路径后,对该应用提供后台支持的服务器302可以运行用于生成视频类别检测模型的方法,包括:
首先,可以获取样本集。其中,样本集中的样本可以包括样本视频和用于指示样本视频的类别的标注信息。之后,可以从样本集中提取样本,以及执行如下训练步骤:将所提取的样本中的样本视频中按照固定时间间隔(例如2s)抽取的至少一帧(例如5帧)(所输入的样本视频中的帧如标号303所示)输入初始模型304,得到样本视频属于各预设类别的概率305;基于所得到的概率305、预设概率306、所提取的样本中的标注信息307和预设的与预设类别一一对应的损失函数308,确定各预设类别对应的损失值309;基于所确定的损失值确定初始模型是否训练完成;响应于确定初始模型训练完成,将训练后的初始模型确定为视频类别检测模型310。
此时,服务器302还可以向终端设备301发送用于指示模型训练完成的提示信息。该提示信息可以是语音和/或文字信息。这样,用户可以在预设的存储位置获取到视频类别检测模型。
本实施例中用于生成视频类别检测模型的方法,通过获取样本集,可以从中提取样本以进行初始模型的训练。其中,样本集中的样本可以包括样本视频和用于指示样本视频的类别的标注信息。这样,将提取的样本中的样本视频中的帧输入至初始模型,便可以得到初始模型输出的样本视频属于各预设类别的概率。之后,可以基于所得到的概率、预设概率和所提取的样本中的标注信息,确定各预设类别对应的损失值。最后,可以基于所确定的损失值确定初始模型是否训练完成。如果初始模型训练完成,就可以将训练后的初始模型确定为视频类别检测模型。从而能够得到一种可以用于视频类别检测的模型,且有助于丰富模型的生成方式。同时,利用本实施例提供的方法,在对样本视频进行单标签标注的基础上,进行模型训练。在模型训练过程中,根据模型得到的概率和预设概率的比较结果,对所得到的部分损失值进行更新(例如减小),可以使模型既能准确预测出希望预测出的标签,同时对其他标签进行合理预测。从而能够基于单标签的样本训练出可输出多标签的预测结果(即预测出的类别不小于一个,预测出的类别可以是概率大于预设概率的类别)。由此,提高了模型训练效率,节约了人力成本。
进一步参考图4,其示出了用于生成视频类别检测模型方法的又一个实施例的流程400。该用于生成视频类别检测模型方法的流程400,包括以下步骤:
步骤401,获取样本集。
在本实施例中,用于生成视频类别检测模型的方法的执行主体(例如图1所示的服务器105)可以获取样本集。样本集中可以包括大量的样本。其中,样本可以包括样本视频以及用于指示样本视频的类别的标注信息。样本视频的类别可以预先划分为多种,预先划分的每一种类别均作为一个预设类别。样本集中的每一个样本视频,对应有一个用于指示该视频属于某一预设类别的标注信息。即,样本视频使用单标签标注。单标签标注样本,相对于多标签标注,能够节约大量人力成本。实践中,样本集中的样本视频可以是场景单一的视频,以便保证样本中的样本视频的标注信息的准确性。
步骤402,从样本集中提取样本。
在本实施例中,执行主体可以从步骤401中获取的样本集中选取样本,以及执行步骤403至步骤410的训练步骤。其中,样本的提取方式和提取数量在本申请中并不限制。
步骤403,将所提取的样本中的样本视频中的帧输入至初始模型,得到样本视频属于各预设类别的概率。
在本实施例中,上述执行主体可以将步骤402中提取的样本中的样本视频中的帧输入至初始模型。初始模型通过对视频中的帧进行特征提取、分析等,输出样本视频属于各预设类别的概率。
在本实施例中,初始模型可以是基于机器学习技术而创建的卷积神经网络。所建立的积神经网络可以包含卷积层、池化层、特征融合层、全连接层等。全连接层可以使用Sigmoid函数计算样本视频属于各个预设类别的概率。
步骤404,将所提取的样本中的标注信息所指示的类别作为目标类别,确定样本视频属于目标类别的概率是否小于预设概率。
在本实施例中,上述执行主体可以将所提取的样本中的标注信息所指示的类别作为目标类别,确定样本视频属于上述目标类别的概率是否小于预设概率(例如0.5)。若否,则可以执行步骤405。若是,可以执行步骤407。
步骤405,响应于确定样本视频属于上述目标类别的概率不小于预设概率,确定在除目标类别外的预设类别中,是否存在概率大于上述预设概率的预设类别。
在本实施例中,上述执行主体响应于确定样本视频属于上述目标类别的概率不小于预设概率,确定在除上述目标类别外的预设类别中,是否存在概率大于上述预设概率的预设类别。若存在,可以执行步骤406;若不存在,可以执行步骤407。
步骤406,若存在,将各预设类别的概率输入至相应的损失函数,得到各个预设类别对应的损失值,将概率大于预设概率的预设类别对应的损失值进行减小处理,以对损失值进行更新。
在本实施例中,上述执行主体响应于确定在除上述目标类别外的预设类别中,存在概率大于上述预设概率的预设类别,可以将各预设类别的概率输入至相应的损失函数,得到各个预设类别对应的损失值;而后,可以将概率大于上述预设概率的预设类别对应的损失值进行减小处理,以对损失值进行更新。此处,可以利用各种方式进行减小处理。此处,减小处理的具体操作方法可以采用如步骤204所记载的实现方式,此处不再赘述。
在本实施例中,初始模型可以使用Sigmoid交叉熵损失(sigmoid cross entropyloss)作为损失函数。每一个预设类别可以对应一个损失函数(即Sigmoid交叉熵损失)。
步骤407,将各预设类别的概率输入至相应的损失函数,得到各个预设类别对应的损失值。
在被实施例中,在步骤404确定出样本视频属于上述目标类别的概率小于预设概率,或者,在步骤405确定出样本视频属于上述目标类别的概率不小于预设概率,并且,在除上述目标类别外的预设类别中,不存在概率大于上述预设概率的预设类别时,上述执行主体可以将各预设类别的概率输入至相应的损失函数,得到各个预设类别对应的损失值。
步骤408,将各预设类别对应的损失值之和作为所提取的样本的总损失值,将总损失值与目标值进行比较。
在本实施例中,上述执行主体可以将各预设类别对应的损失值之和作为所提取的样本的总损失值,将上述总损失值与目标值进行比较。需要说明的是,若步骤402中选取有多个(至少两个)样本,则执行主体可以将每个样本的总损失值分别与目标值进行比较。从而可以确定每个样本的总损失值是否达到目标值。
步骤409,根据比较结果确定初始模型是否训练完成。
在本实施例中,根据步骤408中的比较结果,执行主体可以确定初始模型是否训练完成。作为示例,如果步骤402中选取有多个样本,那么在每个样本的总损失值均达到目标值的情况下,执行主体可以确定初始模型训练完成。再例如,执行主体可以统计总损失值达到目标值的样本占选取的样本的比例。且在该比例达到预设样本比例(如95%),可以确定初始模型训练完成。
需要说明的是,响应于确定初始模型已训练完成,则可以继续执行步骤410。响应于确定初始模型未训练完成,可以基于所确定的损失值,更新初始模型中的参数,从上述样本集中重新提取样本,使用更新参数后的初始模型作为初始模型,继续执行训练步骤。此处,可以利用反向传播算法求得损失值相对于模型参数的梯度,而后利用梯度下降算法基于梯度更新模型参数。需要说明的是,上述反向传播算法、梯度下降算法以及机器学习方法是目前广泛研究和应用的公知技术,在此不再赘述。需要指出的是,这里的提取方式在本申请中也不限制。例如在样本集中有大量样本的情况下,执行主体可以从中提取未被提取过的样本。
步骤410,响应于确定初始模型训练完成,将训练后的初始模型确定为视频类别检测模型。
在本实施例中,在本实施例中,响应于确定初始模型训练完成,上述执行主体可以将训练后的初始模型确定为视频类别检测模型。
从图4中可以看出,与图2对应的实施例相比,本实施例中的用于生成视频类别检测模型的方法的流程400体现了在样本视频属于上述目标类别的概率小于预设概率、不小于预设概率的不同情况下,对损失值的不同的确定方式。以及,体现了在除上述目标类别外的预设类别中,存在概率大于上述预设概率的预设类别的情况下、不存在概率大于上述预设概率的预设类别的情况下,对损失值的不同的确定方式。由此,本实施例描述的方案可以更灵活地确定损失值,以便于模型既能准确预测出希望预测出的标签,同时对其他标签进行合理预测。从而能够基于单标签的样本训练出可输出多标签的预测结果,提高了模型训练效率,节约了人力成本。
进一步参考图5,作为对上述各图所示方法的实现,本申请提供了一种用于生成视频类别检测模型的装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图5所示,本实施例所述的用于生成视频类别检测模型的装置500包括:获取单元501,被配置成获取样本集,其中,上述样本集中的样本包括样本视频和用于指示样本视频的类别的标注信息;训练单元502,被配置成从上述样本集中提取样本,执行如下训练步骤:将所提取的样本中的样本视频中的帧输入至初始模型,得到样本视频属于各预设类别的概率;基于所得到的概率、预设概率、所提取的样本中的标注信息和预设的与预设类别一一对应的损失函数,确定各预设类别对应的损失值;基于所确定的损失值确定初始模型是否训练完成;响应于确定初始模型训练完成,将训练后的初始模型确定为视频类别检测模型。
在本实施例的一些可选的实现方式中,上述训练单元502可以进一步被配置成:将所提取的样本中的标注信息所指示的类别作为目标类别,响应于确定样本视频属于上述目标类别的概率不小于预设概率,并且,在除上述目标类别外的预设类别中,存在概率大于上述预设概率的预设类别,将各预设类别的概率输入至相应的损失函数,得到各个预设类别对应的损失值,将概率大于上述预设概率的预设类别对应的损失值进行减小处理,以对损失值进行更新。
在本实施例的一些可选的实现方式中,上述训练单元502可以进一步被配置成:对于概率大于上述预设概率的预设类别,将该预设类别对应的损失值除以第一预设数值,将所得到的数值更新为该预设类别对应的损失值。
在本实施例的一些可选的实现方式中,上述训练单元502可以进一步被配置成:对于概率大于上述预设概率的预设类别,以该预设类别对应的损失值作为底数,以第二预设数值作为指数,进行幂运算,将幂运算所得到的数值更新为该预设类别的损失值。
在本实施例的一些可选的实现方式中,上述训练单元502可以进一步被配置成:将所提取的样本中的标注信息所指示的类别作为目标类别,在以下任一条件满足时,将各预设类别的概率输入至相应的损失函数,得到各个预设类别对应的损失值:样本视频属于上述目标类别的概率小于预设概率;样本视频属于上述目标类别的概率不小于预设概率,并且,在除上述目标类别外的预设类别中,不存在概率大于上述预设概率的预设类别。
在本实施例的一些可选的实现方式中,上述训练单元502可以进一步被配置成:将各预设类别对应的损失值之和作为所提取的样本的总损失值,将上述总损失值与目标值进行比较;根据比较结果确定初始模型是否训练完成。
在本实施例的一些可选的实现方式中,该装置还可以包括更新单元(图中未示出)。其中,上述更新单元可以被配置成响应于确定初始模型未训练完成,基于所确定的损失值,更新初始模型中的参数,从上述样本集中重新提取样本,使用更新参数后的初始模型作为初始模型,继续执行上述训练步骤。
本申请的上述实施例提供的装置,通过获取单元501获取样本集,可以从中提取样本以进行初始模型的训练。其中,样本集中的样本可以包括样本视频和用于指示样本视频的类别的标注信息。这样,训练单元502可以将提取的样本中的样本视频中的帧输入至初始模型,便可以得到初始模型输出的样本视频属于各预设类别的概率。之后,可以基于所得到的概率、预设概率和所提取的样本中的标注信息,确定各预设类别对应的损失值。最后,可以基于所确定的损失值确定初始模型是否训练完成。如果初始模型训练完成,就可以将训练后的初始模型确定为视频类别检测模型。从而能够得到一种可以用于视频类别检测的模型,且有助于丰富模型的生成方式。同时,利用本实施例提供的方法,在对样本视频进行单标签标注的基础上,进行模型训练。在模型训练过程中,根据模型得到的概率和预设概率的比较结果,对所得到的部分损失值进行更新(例如减小),可以使模型既能准确预测出希望预测出的标签,同时对其他标签进行合理预测。从而能够基于单标签的样本训练出可输出多标签的预测结果(即预测出的类别不小于一个,预测出的类别可以是概率大于预设概率的类别)。由此,提高了模型训练效率,节约了人力成本。
请参见图6,其示出了本申请提供的用于检测视频类别的方法的一个实施例的流程600。该用于检测视频类别的方法可以包括以下步骤:
步骤601,响应于接收到包含待检测视频的视频类别检测请求,按照指定时间间隔从待检测视频中抽取多帧。
在本实施例中,用于检测视频类别的方法的执行主体(例如图1所示的服务器105)可以通过有线连接或者无线连接方式,接收包含待检测视频的视频类别检测请求,按照指定时间间隔(例如2s)从上述待检测视频中抽取多帧。上述视频类别检测请求可以由终端设备(例如图1所示的终端设备101、102、103)发送。
步骤602,将上述多帧输入视频类别检测模型中,将视频类别检测模型输出的、大于预设概率的概率所对应的预设类别确定为待检测视频的类别。
在本实施例中,上述执行主体可以将步骤601中抽取的多帧输入到视频类别检测模型中,从而生成视频类别属于各预设类别的概率。上述执行主体可以将所输出的、大于预设概率(例如0.5)的概率所对应的预设类别确定为上述待检测视频的类别。
在本实施例中,视频类别检测模型可以是采用如上述图2实施例所描述的方法而生成的。具体生成过程可以参见图2实施例的相关描述,此处不再赘述。
需要说明的是,本实施例用于检测视频类别的方法可以用于测试上述各实施例所生成的视频类别检测模型。进而根据测试结果可以不断地优化视频类别检测模型。该方法也可以是上述各实施例所生成的视频类别检测模型的实际应用方法。采用上述各实施例所生成的视频类别检测模型,来进行视频类别检测,有助于提高视频类别检测的性能。
继续参见图7,作为对上述图6所示方法的实现,本申请提供了一种用于检测视频类别的装置的一个实施例。该装置实施例与图6所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图7所示,本实施例上述的用于生成视频类别检测模型的装置700包括:接收单元701,被配置成响应于接收到包含待检测视频的视频类别检测请求,按照指定时间间隔从上述待检测视频中抽取多帧;输入单元702,被配置成将上述多帧输入采用如权利要求1-7之一上述的方法生成的视频类别检测模型中,将上述视频类别检测模型输出的、大于预设概率的概率所对应的预设类别确定为上述待检测视频的类别。
可以理解的是,该装置700中记载的诸单元与参考图6描述的方法中的各个步骤相对应。由此,上文针对方法描述的操作、特征以及产生的有益效果同样适用于装置700及其中包含的单元,在此不再赘述。
下面参考图8,其示出了适于用来实现本申请实施例的电子设备的计算机系统800的结构示意图。图8示出的电子设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图8所示,计算机系统800包括中央处理单元(CPU)801,其可以根据存储在只读存储器(ROM)802中的程序或者从存储部分808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。在RAM 803中,还存储有系统800操作所需的各种程序和数据。CPU 801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
以下部件连接至I/O接口805:包括键盘、鼠标等的输入部分806;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807;包括硬盘等的存储部分808;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器810上,以便于从其上读出的计算机程序根据需要被安装入存储部分808。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分809从网络上被下载和安装,和/或从可拆卸介质811被安装。在该计算机程序被中央处理单元(CPU)801执行时,执行本申请的方法中限定的上述功能。需要说明的是,本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括获取单元和训练单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,获取单元还可以被描述为“获取样本集的单元”。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的装置中所包含的;也可以是单独存在,而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该装置执行时,使得该装置:获取样本集,其中,该样本集中的样本包括样本视频和用于指示样本视频的类别的标注信息;从该样本集中提取样本,执行如下训练步骤:将所提取的样本中的样本视频中的帧输入至初始模型,得到样本视频属于各预设类别的概率;基于所得到的概率、预设概率、所提取的样本中的标注信息和预设的与预设类别一一对应的损失函数,确定各预设类别对应的损失值;基于所确定的损失值确定初始模型是否训练完成;响应于确定初始模型训练完成,将训练后的初始模型确定为视频类别检测模型。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (16)

1.一种用于生成视频类别检测模型的方法,包括:
获取样本集,其中,所述样本集中的样本包括样本视频和用于指示样本视频的类别的标注信息;
从所述样本集中提取样本,执行如下训练步骤:将所提取的样本中的样本视频中的帧输入至初始模型,得到样本视频属于各预设类别的概率;基于所得到的概率、预设概率、所提取的样本中的标注信息和预设的与预设类别一一对应的损失函数,确定各预设类别对应的损失值;基于所确定的损失值确定初始模型是否训练完成;响应于确定初始模型训练完成,将训练后的初始模型确定为视频类别检测模型;
响应于确定初始模型未训练完成,基于所确定的损失值,更新初始模型中的参数,从所述样本集中重新提取样本,使用更新参数后的初始模型作为初始模型,继续执行所述训练步骤。
2.根据权利要求1所述的用于生成视频类别检测模型的方法,其中,所述基于所得到的概率、预设概率、所提取的样本中的标注信息和预设的与预设类别一一对应的损失函数,确定各预设类别对应的损失值,包括:
将所提取的样本中的标注信息所指示的类别作为目标类别,响应于确定样本视频属于所述目标类别的概率不小于预设概率,并且,在除所述目标类别外的预设类别中,存在概率大于所述预设概率的预设类别,将各预设类别的概率输入至相应的损失函数,得到各个预设类别对应的损失值,将概率大于所述预设概率的预设类别对应的损失值进行减小处理,以对损失值进行更新。
3.根据权利要求2所述的用于生成视频类别检测模型的方法,其中,所述将概率大于所述预设概率的预设类别对应的损失值进行减小处理,以对损失值进行更新,包括:
对于概率大于所述预设概率的预设类别,将该预设类别对应的损失值除以第一预设数值,将所得到的数值更新为该预设类别对应的损失值。
4.根据权利要求2所述的用于生成视频类别检测模型的方法,其中,所述将概率大于所述预设概率的预设类别对应的损失值进行减小处理,以对损失值进行更新,包括:
对于概率大于所述预设概率的预设类别,以该预设类别对应的损失值作为底数,以第二预设数值作为指数,进行幂运算,将幂运算所得到的数值更新为该预设类别的损失值。
5.根据权利要求1所述的用于生成视频类别检测模型的方法,其中,所述基于所得到的概率、预设概率、所提取的样本中的标注信息和预设的与预设类别一一对应的损失函数,确定各预设类别对应的损失值,包括:
将所提取的样本中的标注信息所指示的类别作为目标类别,在以下任一条件满足时,将各预设类别的概率输入至相应的损失函数,得到各个预设类别对应的损失值:样本视频属于所述目标类别的概率小于预设概率;样本视频属于所述目标类别的概率不小于预设概率,并且,在除所述目标类别外的预设类别中,不存在概率大于所述预设概率的预设类别。
6.根据权利要求1所述的用于生成视频类别检测模型的方法,其中,所述基于所确定的损失值确定初始模型是否训练完成,包括:
将各预设类别对应的损失值之和作为所提取的样本的总损失值,将所述总损失值与目标值进行比较;
根据比较结果确定初始模型是否训练完成。
7.一种用于生成视频类别检测模型的装置,包括:
获取单元,被配置成获取样本集,其中,所述样本集中的样本包括样本视频和用于指示样本视频的类别的标注信息;
训练单元,被配置成从所述样本集中提取样本,执行如下训练步骤:将所提取的样本中的样本视频中的帧输入至初始模型,得到样本视频属于各预设类别的概率;基于所得到的概率、预设概率、所提取的样本中的标注信息和预设的与预设类别一一对应的损失函数,确定各预设类别对应的损失值;基于所确定的损失值确定初始模型是否训练完成;响应于确定初始模型训练完成,将训练后的初始模型确定为视频类别检测模型;
更新单元,被配置成响应于确定初始模型未训练完成,基于所确定的损失值,更新初始模型中的参数,从所述样本集中重新提取样本,使用更新参数后的初始模型作为初始模型,继续执行所述训练步骤。
8.根据权利要求7所述的用于生成视频类别检测模型的装置,其中,所述训练单元,进一步被配置成:
将所提取的样本中的标注信息所指示的类别作为目标类别,响应于确定样本视频属于所述目标类别的概率不小于预设概率,并且,在除所述目标类别外的预设类别中,存在概率大于所述预设概率的预设类别,将各预设类别的概率输入至相应的损失函数,得到各个预设类别对应的损失值,将概率大于所述预设概率的预设类别对应的损失值进行减小处理,以对损失值进行更新。
9.根据权利要求8所述的用于生成视频类别检测模型的装置,其中,所述训练单元,进一步被配置成:
对于概率大于所述预设概率的预设类别,将该预设类别对应的损失值除以第一预设数值,将所得到的数值更新为该预设类别对应的损失值。
10.根据权利要求8所述的用于生成视频类别检测模型的装置,其中,所述训练单元,进一步被配置成:
对于概率大于所述预设概率的预设类别,以该预设类别对应的损失值作为底数,以第二预设数值作为指数,进行幂运算,将幂运算所得到的数值更新为该预设类别的损失值。
11.根据权利要求7所述的用于生成视频类别检测模型的装置,其中,所述训练单元,进一步被配置成:
将所提取的样本中的标注信息所指示的类别作为目标类别,在以下任一条件满足时,将各预设类别的概率输入至相应的损失函数,得到各个预设类别对应的损失值:样本视频属于所述目标类别的概率小于预设概率;样本视频属于所述目标类别的概率不小于预设概率,并且,在除所述目标类别外的预设类别中,不存在概率大于所述预设概率的预设类别。
12.根据权利要求7所述的用于生成视频类别检测模型的装置,其中,所述训练单元,进一步被配置成:
将各预设类别对应的损失值之和作为所提取的样本的总损失值,将所述总损失值与目标值进行比较;
根据比较结果确定初始模型是否训练完成。
13.一种用于检测视频类别的方法,包括:
响应于接收到包含待检测视频的视频类别检测请求,按照指定时间间隔从所述待检测视频中抽取多帧;
将所述多帧输入采用如权利要求1-6之一所述的方法生成的视频类别检测模型中,将所述视频类别检测模型输出的、大于预设概率的概率所对应的预设类别确定为所述待检测视频的类别。
14.一种用于检测视频类别的装置,包括:
接收单元,被配置成响应于接收到包含待检测视频的视频类别检测请求,按照指定时间间隔从所述待检测视频中抽取多帧;
输入单元,被配置成将所述多帧输入采用如权利要求1-6之一所述的方法生成的视频类别检测模型中,将所述视频类别检测模型输出的、大于预设概率的概率所对应的预设类别确定为所述待检测视频的类别。
15.一种电子设备,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-6、13中任一所述的方法。
16.一种计算机可读介质,其上存储有计算机程序,其中,该程序被处理器执行时实现如权利要求1-6、13中任一所述的方法。
CN201810973121.2A 2018-08-24 2018-08-24 用于生成视频类别检测模型的方法和装置 Active CN109145828B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810973121.2A CN109145828B (zh) 2018-08-24 2018-08-24 用于生成视频类别检测模型的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810973121.2A CN109145828B (zh) 2018-08-24 2018-08-24 用于生成视频类别检测模型的方法和装置

Publications (2)

Publication Number Publication Date
CN109145828A CN109145828A (zh) 2019-01-04
CN109145828B true CN109145828B (zh) 2020-12-25

Family

ID=64827884

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810973121.2A Active CN109145828B (zh) 2018-08-24 2018-08-24 用于生成视频类别检测模型的方法和装置

Country Status (1)

Country Link
CN (1) CN109145828B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109344908B (zh) * 2018-10-30 2020-04-28 北京字节跳动网络技术有限公司 用于生成模型的方法和装置
CN109740018B (zh) * 2019-01-29 2021-03-02 北京字节跳动网络技术有限公司 用于生成视频标签模型的方法和装置
CN109816023B (zh) * 2019-01-29 2022-01-04 北京字节跳动网络技术有限公司 用于生成图片标签模型的方法和装置
CN110119757B (zh) * 2019-03-28 2021-05-25 北京奇艺世纪科技有限公司 模型训练方法、视频类别检测方法、装置、电子设备和计算机可读介质
CN110222649B (zh) * 2019-06-10 2020-12-18 北京达佳互联信息技术有限公司 视频分类方法、装置、电子设备及存储介质
CN112257860A (zh) * 2019-07-02 2021-01-22 微软技术许可有限责任公司 基于模型压缩的模型生成
CN111582360B (zh) * 2020-05-06 2023-08-15 北京字节跳动网络技术有限公司 用于标注数据的方法、装置、设备和介质
CN111770352B (zh) * 2020-06-24 2021-12-07 北京字节跳动网络技术有限公司 安全检测方法、装置、电子设备及存储介质
CN113128354B (zh) * 2021-03-26 2022-07-19 中山大学中山眼科中心 一种洗手质量检测方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107506793A (zh) * 2017-08-21 2017-12-22 中国科学院重庆绿色智能技术研究院 基于弱标注图像的服装识别方法及系统
CN107578034A (zh) * 2017-09-29 2018-01-12 百度在线网络技术(北京)有限公司 信息生成方法和装置
CN108197618A (zh) * 2018-04-08 2018-06-22 百度在线网络技术(北京)有限公司 用于生成人脸检测模型的方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107506793A (zh) * 2017-08-21 2017-12-22 中国科学院重庆绿色智能技术研究院 基于弱标注图像的服装识别方法及系统
CN107578034A (zh) * 2017-09-29 2018-01-12 百度在线网络技术(北京)有限公司 信息生成方法和装置
CN108197618A (zh) * 2018-04-08 2018-06-22 百度在线网络技术(北京)有限公司 用于生成人脸检测模型的方法和装置

Also Published As

Publication number Publication date
CN109145828A (zh) 2019-01-04

Similar Documents

Publication Publication Date Title
CN109344908B (zh) 用于生成模型的方法和装置
CN109145828B (zh) 用于生成视频类别检测模型的方法和装置
CN109308490B (zh) 用于生成信息的方法和装置
CN111860573B (zh) 模型训练方法、图像类别检测方法、装置和电子设备
CN109492128B (zh) 用于生成模型的方法和装置
CN108520220B (zh) 模型生成方法和装置
CN109376267B (zh) 用于生成模型的方法和装置
CN108830235B (zh) 用于生成信息的方法和装置
CN108898186B (zh) 用于提取图像的方法和装置
CN111314733B (zh) 用于评估视频清晰度的方法和装置
CN109740018B (zh) 用于生成视频标签模型的方法和装置
CN110288049B (zh) 用于生成图像识别模型的方法和装置
CN109447156B (zh) 用于生成模型的方法和装置
CN109447246B (zh) 用于生成模型的方法和装置
CN108960316B (zh) 用于生成模型的方法和装置
CN109360028B (zh) 用于推送信息的方法和装置
CN109976997B (zh) 测试方法和装置
CN109919244B (zh) 用于生成场景识别模型的方法和装置
CN109961032B (zh) 用于生成分类模型的方法和装置
CN109947989B (zh) 用于处理视频的方法和装置
JP7394809B2 (ja) ビデオを処理するための方法、装置、電子機器、媒体及びコンピュータプログラム
CN109389096B (zh) 检测方法和装置
CN109214501B (zh) 用于识别信息的方法和装置
CN110009059B (zh) 用于生成模型的方法和装置
CN112149699B (zh) 用于生成模型的方法、装置和用于识别图像的方法、装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: 100041 B-0035, 2 floor, 3 building, 30 Shixing street, Shijingshan District, Beijing.

Patentee after: Tiktok vision (Beijing) Co.,Ltd.

Address before: 100041 B-0035, 2 floor, 3 building, 30 Shixing street, Shijingshan District, Beijing.

Patentee before: BEIJING BYTEDANCE NETWORK TECHNOLOGY Co.,Ltd.

Address after: 100041 B-0035, 2 floor, 3 building, 30 Shixing street, Shijingshan District, Beijing.

Patentee after: Douyin Vision Co.,Ltd.

Address before: 100041 B-0035, 2 floor, 3 building, 30 Shixing street, Shijingshan District, Beijing.

Patentee before: Tiktok vision (Beijing) Co.,Ltd.

CP01 Change in the name or title of a patent holder