CN112000842A - 视频处理方法和装置 - Google Patents

视频处理方法和装置 Download PDF

Info

Publication number
CN112000842A
CN112000842A CN202010906983.0A CN202010906983A CN112000842A CN 112000842 A CN112000842 A CN 112000842A CN 202010906983 A CN202010906983 A CN 202010906983A CN 112000842 A CN112000842 A CN 112000842A
Authority
CN
China
Prior art keywords
video
classified
preset
classification
classification information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010906983.0A
Other languages
English (en)
Inventor
高永强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing ByteDance Network Technology Co Ltd
Original Assignee
Beijing ByteDance Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing ByteDance Network Technology Co Ltd filed Critical Beijing ByteDance Network Technology Co Ltd
Priority to CN202010906983.0A priority Critical patent/CN112000842A/zh
Publication of CN112000842A publication Critical patent/CN112000842A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/75Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了视频处理方法和装置。该方法的一具体实施方式包括:获取待分类视频;确定待分类视频包括的所有预设时长片段的预设分类信息;根据待分类视频包括的所有预设时长片段的预设分类信息,确定待分类视频的分类结果。从而提供了一种视频分类方式,准确地对待分类视频进行分类,增加了趣味性;并提高了基于分类结果对待分类视频进行后续处理的便利性。

Description

视频处理方法和装置
技术领域
本申请实施例涉及计算机技术领域,具体涉及视频处理方法和装 置。
背景技术
在很多的应用场景中,对于得到的各种视频,我们期望各个视频 具有表征视频内容的类别,以方便根据各视频的类别进行相应的选取 和处理。比如,假设有100个视频,在视频处理过程中,优先选择了 高光的视频进行拼接、剪辑等处理,而当后续处理过程中需要填充一 个分数较低非高光的视频时,则可以选择分类结果为非高光的视频进 行填充处理。目前,并未存在针对各视频的分类机制。
发明内容
本申请实施例提出了视频处理方法和装置。
第一方面,本申请实施例提供了一种视频处理方法,该方法包括: 获取待分类视频;确定待分类视频包括的所有预设时长片段的预设分 类信息;根据待分类视频包括的所有预设时长片段的预设分类信息, 确定待分类视频的分类结果。
在一些实施例中,上述确定待分类视频包括的所有预设时长片段 的预设分类信息,包括:对待分类视频进行分割,获取待分类视频的 所有预设时长片段,基于对预设时长片段的内容理解,确定预设时长 片段的预设分类信息。
在一些实施例中,上述确定待分类视频包括的所有预设时长片段 的预设分类信息,包括:将待分类视频输入预先训练的视频分类模型, 针对于待分类视频包括的所有预设时长片段中的每个预设时长片段, 通过视频分类模型中的目标全连接层得到表征该预设时长片段的预设 分类信息的特征向量;以及
根据待分类视频包括的所有预设时长片段的预设分类信息,确定 待分类视频的分类结果,包括:根据待分类视频包括的每个预设时长 片段对应的特征向量,通过视频分类模型中连接目标全连接层的柔性 最大化层确定待分类视频的分类结果,其中,视频分类模型用于表征 待分类视频与分类结果之间的对应关系。
在一些实施例中,上述根据待分类视频包括的每个预设时长片段 对应的特征向量,通过视频分类模型中连接目标全连接层的柔性最大 化层确定待分类视频的分类结果,包括:针对于待分类视频包括的每 个预设时长片段对应的特征向量,进行最大池化;将进行最大池化后 的每个特征向量输入柔性最大化层,确定待分类视频的分类结果。
在一些实施例中,视频分类模型是以残差神经网络为主干网络的 时间转移模型。
在一些实施例中,视频分类模型通过如下方式训练得到:获取训 练样本集,其中,训练样本集中的训练样本包括样本视频、样本视频 包括的所有样本视频片段的预设分类信息以及样本视频的分类结果; 采用机器学习算法,以训练样本中的样本视频作为初始视频分类模型 的输入,以输入的样本视频包括的所有样本视频片段中的每个样本视 频片段的预设分类信息,依次作为初始视频分类模型中的目标全连接 层的期望输出,以输入的样本视频的分类结果作为初始视频分类模型 中连接目标全连接层的柔性最大化层的期望输出,训练得到视频分类 模型。
在一些实施例中,视频分类模型采用对称交叉熵函数,其中,对 称交叉熵函数通过交叉熵函数和反向交叉熵函数得到。
在一些实施例中,待分类视频的分类结果包括待分类视频属于各 预设分类信息的概率,以及各预设分类信息所对应的预设时长片段的 数量。
第二方面,本申请实施例提供了一种视频处理装置,该装置包括: 获取单元,被配置成获取待分类视频;确定单元,被配置成确定待分 类视频包括的所有预设时长片段的预设分类信息;分类单元,被配置 成根据待分类视频包括的所有预设时长片段的预设分类信息,确定待 分类视频的分类结果。
在一些实施例中,确定单元,进一步被配置成对待分类视频进行 分割,获取待分类视频的所有预设时长片段,基于对预设时长片段的 内容理解,确定预设时长片段的预设分类信息。
在一些实施例中,确定单元进一步被配置成将待分类视频输入预 先训练的视频分类模型,针对于待分类视频包括的所有预设时长片段 中的每个预设时长片段,通过视频分类模型中的目标全连接层得到表 征该预设时长片段的预设分类信息的特征向量;以及
分类单元进一步被配置成根据待分类视频包括的每个预设时长片 段对应的特征向量,通过视频分类模型中连接目标全连接层的柔性最 大化层确定待分类视频的分类结果,其中,视频分类模型用于表征待 分类视频与分类结果之间的对应关系。
在一些实施例中,分类单元进一步被配置成针对于待分类视频包 括的每个预设时长片段对应的特征向量,进行最大池化;将进行最大 池化后的每个特征向量输入柔性最大化层,确定待分类视频的分类结 果。
在一些实施例中,视频分类模型是以残差神经网络为主干网络的 时间转移模型。
在一些实施例中,视频分类模型通过如下方式训练得到:获取训 练样本集,其中,训练样本集中的训练样本包括样本视频、样本视频 包括的所有样本视频片段的预设分类信息以及样本视频的分类结果; 采用机器学习算法,以训练样本中的样本视频作为初始视频分类模型 的输入,以输入的样本视频包括的所有样本视频片段中的每个样本视 频片段的预设分类信息,依次作为初始视频分类模型中的目标全连接 层的期望输出,以输入的样本视频的分类结果作为初始视频分类模型 中连接目标全连接层的柔性最大化层的期望输出,训练得到视频分类 模型。
在一些实施例中,视频分类模型采用对称交叉熵函数,其中,对 称交叉熵函数通过交叉熵函数和反向交叉熵函数得到。
在一些实施例中,待分类视频的分类结果包括待分类视频属于各 预设分类信息的概率,以及各预设分类信息所对应的预设时长片段的 数量。
第三方面,本申请实施例提供了一种服务器,该服务器包括:一 个或多个处理器;存储装置,其上存储有一个或多个程序;当一个或 多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第 一方面中任一实现方式描述的方法。
第四方面,本申请实施例提供了一种计算机可读介质,其上存储 有计算机程序,该程序被处理器执行时实现如第一方面中任一实现方 式描述的方法。
本申请实施例提供的视频处理方法和装置,首先,获取待分类视 频;然后,确定待分类视频包括的所有预设时长片段的预设分类信息; 最后,根据待分类视频包括的所有预设时长片段的预设分类信息,确 定待分类视频的分类结果。从而提供了一种视频分类方式,准确地对 待分类视频进行分类,增加了趣味性;并提高了基于分类结果对待分 类视频进行后续处理的便利性。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述, 本申请的其它特征、目的和优点将会变得更明显:
图1是本申请的一个实施例可以应用于其中的示例性系统架构图;
图2是根据本申请的视频处理方法的一个实施例的流程图;
图3是根据本申请的实施例的视频处理方法的一个应用场景的示 意图;
图4是根据本申请的视频处理方法的一个实施例的流程图;
图5是根据本申请的视频处理装置的一个实施例的结构示意图;
图6是适于用来实现本申请的实施例的电子设备的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解 的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发 明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与 有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例 中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本 申请。
图1示出了可以应用本申请的视频处理方法或视频处理装置的示 例性架构100。
如图1所示,系统架构100可以包括终端设备101、102、103, 网络104和服务器105。网络104用以在终端设备101、102、103和 服务器105之间提供通信链路的介质。网络104可以包括各种连接类 型,例如有线、无线通信链路或者光纤电缆等等。
终端设备101、102、103通过网络104与服务器105交互,以接 收或发送信息等。终端设备101、102、103上可以安装有各种通讯客 户端应用,例如网页浏览器应用、购物类应用、搜索类应用、即时通 信工具、邮箱客户端、社交平台软件、阅读类应用等。
终端设备101、102、103可以是硬件,也可以是软件。当终端设 备101、102、103为硬件时,可以是具有网络连接、信息交互、信息 处理功能的各种电子设备,包括但不限于智能手机、平板电脑、电子 书阅读器、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时,可以安装在上述所列举的电子设备中。其可以实 现成多个软件或软件模块(例如用来提供分布式服务的软件或软件模 块),也可以实现成单个软件或软件模块。在此不做具体限定。
服务器105可以是提供各种服务的服务器,例如对终端设备101、 102、103获取得待分类视频进行分类的后台服务器。后台处理服务器 可以确定待分类视频包括的所有预设时长片段的预设分类信息;进而, 根据所述待分类视频包括的所有预设时长片段的预设分类信息,确定 所述待分类视频的分类结果。可选的,后台处理服务器还可以将分类 结果反馈给终端设备,以供终端设备显示。作为示例,服务器105可 以是云端服务器。
需要说明的是,服务器可以是硬件,也可以是软件。当服务器为 硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实 现成单个服务器。当服务器为软件时,可以实现成多个软件或软件模 块(例如用来提供分布式服务的软件或软件模块),也可以实现成单个 软件或软件模块。在此不做具体限定。
还需要说明的是,本公开的实施例所提供的视频处理方法可以由 服务器执行,也可以由终端设备执行,还可以由服务器和终端设备彼 此配合执行。相应地,视频处理装置包括的各个部分(例如各个单元、 子单元、模块、子模块)可以全部设置于服务器中,也可以全部设置 于终端设备中,还可以分别设置于服务器和终端设备中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意 性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,示出了根据本申请的视频处理方法的一个实施例 的流程200。该视频处理方法包括以下步骤:
步骤201,获取待分类视频。
在本实施例中,视频处理方法的执行主体(如图1所示的终端设 备或服务器)可以通过有线连接方式或者无线连接方式从远程,或本 地获取待分类视频。
其中,待分类视频可以是以任意视频格式存储的、包括任意视频 内容的视频。视频格式包括但不限于是MPEG(Moving Picture Experts Group,运动图像专家组)、AVI(Audio Video Interleaved,音频视频交 错)、ASF(Advanced Streaming Format,高级流格式)、RM(real media, 真媒体)等格式,视频内容包括但不限于是游戏、电影、运动、新闻等内容。
本实施例中,待分类视频可以是满足时间长度要求的视频。作为 示例,时间长度要求包括最短时间长度要求(例如3秒)、最长时间长 度要求(例如15秒)。
步骤202,确定待分类视频包括的所有预设时长片段的预设分类 信息。
在本实施例中,上述执行主体可以确定步骤202获取的待分类视 频包括的所有预设时长片段的预设分类信息。
其中,预设时长可以是根据实际情况具体设定的时间长度,例如 可以是1秒。所有的预设时长片段的时长均为预设时长。预设分类信 息可以根据实际情况具体设定的分类信息。作为示例,预设分类信息 可以是根据待分类视频的内容而确定的分类信息。具体的,以待分类 视频的内容为格斗类游戏内容为例,可以预先针对游戏内容设定高光 时刻、非高光时刻。其中,高光时刻可以是游戏玩家操控游戏对象过 程中,表现比较精彩的时刻,例如释放技能造成对方伤害。相应的, 非高光时刻为是游戏玩家操控游戏对象过程中,表现比较一般的时刻。
需要说明的是,预设分类信息可以是根据实际需求而设定的粗粒 度的类别或细粒度的类别。继续以上述格斗类游戏内容为例,当预设 分类信息为粗粒度的类别时,预设分类信息可以包括高光时刻、非高 光时刻等;当预设分类信息为细粒度的类别时,针对于高光时刻,可 以进一步细分为技能释放造成对方伤害、前进砍杀对方等;针对于非 高光时刻,可以进一步细分为后退、砍空(格斗过程中未成功砍到对 方)。
可以理解,针对于预设分类信息,粗粒度分类信息与细粒度分类 信息相比,具有相对性。针对于粗粒度的分类信息进行进一步的分类, 可以得到相比于粗粒度分类信息的细粒度分类信息;针对于细粒度分 类信息进行进一步的分类,可以得到相比于细粒度分类信息的更细粒 度的分类信息。
本实施例中,上述执行主体可以首先基于预设时长,对待分类视 频进行视频分割,得到待分类视频包括的所有的预设时长片段。然后, 针对于所有的预设时长片段中的每个预设时长片段,基于对该预设时 长片段的内容理解,确定该预设时长片段的预设分类信息。
作为示例,上述执行主体中可以设置预先训练的分类模型,其中, 分类模型用于表征待分类视频包括的各预设时长片段与预设分类信息 的对应关系。上述执行主体可以将待分类视频输入上述分类模型,得 到待分类视频包括的各预设时长片段所一一对应的预设分类信息。分 类模型可以采用具有分类功能的任一网络模型,包括但不限于循环神经网络模型、残差神经网络模型等。
步骤203,根据待分类视频包括的所有预设时长片段的预设分类 信息,确定待分类视频的分类结果。
在本实施例中,上述执行主体可以根据步骤203得到的待分类视 频包括的所有预设时长片段的预设分类信息,确定待分类视频的分类 结果。作为示例,上述执行主体可以根据待分类视频中所有的预设时 长片段的预设分类信息的统计信息,确定待分类视频的分类结果。例 如,上述执行主体可以将待分类视频包括的多个预设分类信息中,预 设时长片段数量最多的预设分类信息确定为待分类视频的分类结果。
又例如,上述执行主体根据待分类视频包括的所有预设时长片段 的预设分类信息,对待分类视频的各预设分类信息进行打分,进而根 据打分结果(例如得分最高的预设分类信息)确定待分类视频的分类 结果。以待分类视频共包括10个预设时长片段为例,10个预设时长 片段有7个预设时长片段的预设分类信息为高光时刻,剩余的3个预 设时长片段的预设分类信息为非高光时刻,则可以确定该待分类视频 的打分结果为7/10=0.7;进一步根据打分结果0.7,确定待分类视频为 高光视频。
作为又一示例,可以针对不同的预设分类信息中的每一预设分类 设定对应的权重值,上述执行主体根据待分类视频中所有预设时长片 段的预设分类信息的统计信息、不同的预设分类信息中的每一预设分 类设定对应的权重值,确定待分类视频的分类结果。
继续参见图3,图3是根据本申请实施例的视频处理方法的应用 场景的一个示意图。在图3的应用场景中,用户301通过终端设备302 执行视频处理任务。执行视频处理任务前,用户需要获取视频库中的 各视频的分类结果,以方便对视频库中的视频进行视频处理。用户301 通过终端设备302将视频库中的多个待分类视频发送至服务器303。 服务器303针对获取的多个待分类视频中的每个待分类视频,确定该 待分类视频包括的所有预设时长片段的预设分类信息,然后,根据待 分类视频包括的所有预设时长片段的预设分类信息,确定待分类视频 的分类结果。服务器303获取各待分类视频的分类结果后,将分类结果反馈至终端设备302,以便用户301根据待分类视频的分类结果执 行视频处理任务。
目前,在很多的应用场景中,对于得到的各种视频,我们期望各 个视频具有表征视频内容的分数,以方便根据各视频的分数进行相应 的选取和处理。而本申请的上述实施例提供的方法,通过获取待分类 视频;确定待分类视频包括的所有预设时长片段的预设分类信息;根 据待分类视频包括的所有预设时长片段的预设分类信息,确定待分类 视频的分类结果。从而提供了一种视频分类方式,准确地对待分类视 频进行分类,增加了趣味性;并提高了基于分类结果对待分类视频进 行后续处理的便利性。
进一步参考图4,其示出了用于生成召回的物品信息的方法的一 个实施例的流程400。该用于生成召回的物品信息的方法的流程400, 包括以下步骤:
步骤401,获取待分类视频。
在本实施例中,视频处理方法的执行主体(如图1所示的终端设 备或服务器)可以通过有线连接方式或者无线连接方式从远程,或本 地获取待分类视频。在本实施例中,视频处理方法的执行主体(如图 1所示的终端设备或服务器)可以通过有线连接方式或者无线连接方 式从远程,或本地获取待分类视频。
步骤402,将待分类视频输入预先训练的视频分类模型,针对于 待分类视频包括的所有预设时长片段中的每个预设时长片段,通过视 频分类模型中的目标全连接层得到表征该预设时长片段的预设分类信 息的特征向量。
在本实施例中,上述执行主体根据将待分类视频输入预先训练的 视频分类模型,视频分类模型首先基于预设时长,对待分类视频进行 视频分割,得到待分类视频包括的所有预设时长片段。然后,针对于 所有预设时长片段中的每个预设时长片段,进行特征提取,通过视频 分类模型中的目标全连接层得到表征该预设时长片段的预设分类信息 的特征向量。作为示例,目标全连接层可以是视频分类模型中最后的 全连接层。
步骤403,根据待分类视频包括的每个预设时长片段对应的特征 向量,通过视频分类模型中连接目标全连接层的柔性最大化层确定待 分类视频的分类结果。
本实施例中,视频分类模型中的的目标全连接层与柔性最大化层 (softmax层)连接,柔性最大化层根据待分类视频包括的所有预设时 长片段中的每个预设时长片段的特征向量,确定待分类视频的分类结 果。
在本实施例的一些可选的实现方式中,上述执行主体首先针对于 待分类视频包括的每个预设时长片段对应的特征向量,进行最大池化; 然后,将进行最大池化后的每个特征向量输入柔性最大化层,确定待 分类视频的分类结果。
本实施例中,视频分类模型可以是具体视频分类功能的任一网络 模型,包括但不限于是卷积神经网络模型、残差神经网络模型。在本 实施例的一些可选的实现方式中,视频分类模型是以残差神经网络为 主干网络的时间转移模型。
以残差神经网络为主干网络的时间转移模型,是在一簇要处理的 帧之间,把相邻帧之间的通道进行了交替拼接,在保持二维的残差神 经网络模型的计算量和参数量的基础上,达到三维的残差神经网络模 型的处理效果。
其中,视频分类模型通过如下方式训练得到:
首先,获取训练样本集,其中,训练样本集中的训练样本包括样 本视频、样本视频包括的所有样本视频片段的预设分类信息以及样本 视频的分类结果。
然后,采用机器学习算法,以训练样本中的样本视频作为初始视 频分类模型的输入,以输入的样本视频包括的所有样本视频片段中的 每个样本视频片段的预设分类信息,依次作为初始视频分类模型中的 目标全连接层的期望输出,以输入的样本视频的分类结果作为初始视 频分类模型中连接目标全连接层的柔性最大化层的期望输出,训练得 到视频分类模型。
在本实施例的一些可选的实现方式中,视频分类模型采用对称交 叉熵函数,其中,所述对称交叉熵函数通过交叉熵函数和反向交叉熵 函数得到。
具体的,对称交叉熵函数表示如下:
lsce=αlce+βlrce
其中,lsce表征对称交叉熵函数,lce表征传统的交叉熵函数,lrce表征 反向交叉熵函数,α、β分别表征权重值。lrce实际上是把传统的交叉熵函 数中的标签(label)和网络输出对换位置,以网络输出作为监督信息, 把label当做预测值去计算损失。lrce大的样本大概率是带噪声的样本。
视频分类模型通过采用对称交叉熵函数,可以降低训练样本中包 括噪声而带来的视频分类模型分类不准确的问题,提高视频分类模型 的准确性和鲁棒性。
在本实施例的一些可选的实现方式中,待分类视频的分类结果包 括待分类视频属于各预设分类信息的概率,以及各预设分类信息所对 应的预设时长片段的数量。
从图4中可以看出,本实施例中的视频处理方法的流程400突出 说明了通过视频分类模型中的目标全连接层得到表征待分类视频包括 的各预设时长片段的预设分类信息的特征向量,并给予各特征向量, 通过视频分类模型中连接目标全连接层的柔性最大化层确定待分类视 频的分类结果。由此,本实施例描述的方案提高了针对待分类视频的 分类结果的准确度和分类过程的效率。
进一步参考图5,作为对上述各图所示方法的实现,本申请提供 了视频处理装置的一个实施例,该装置实施例与图2所示的方法实施 例相对应,该装置具体可以应用于各种电子设备中。
如图5所示,本实施例提供的视频处理装置500包括:获取单元 501、确定单元502和分类单元503。其中,获取单元501被配置成获 取待分类视频;确定单元502被配置成确定待分类视频包括的所有预 设时长片段的预设分类信息;分类单元503被配置成根据待分类视频 包括的所有预设时长片段的预设分类信息,确定待分类视频的分类结 果。
在一些实施例中,确定单元502进一步被配置成对待分类视频进 行分割,获取待分类视频的所有预设时长片段,基于对预设时长片段 的内容理解,确定预设时长片段的预设分类信息。
在一些实施例中,确定单元502进一步被配置成将待分类视频输 入预先训练的视频分类模型,针对于待分类视频包括的所有预设时长 片段中的每个预设时长片段,通过视频分类模型中的目标全连接层得 到表征该预设时长片段的预设分类信息的特征向量;以及
分类单元503进一步被配置成根据待分类视频包括的每个预设时 长片段对应的特征向量,通过视频分类模型中连接目标全连接层的柔 性最大化层确定待分类视频的分类结果,其中,视频分类模型用于表 征待分类视频与分类结果之间的对应关系。
在一些实施例中,分类单元503进一步被配置成针对于待分类视 频包括的每个预设时长片段对应的特征向量,进行最大池化;将进行 最大池化后的每个特征向量输入柔性最大化层,确定待分类视频的分 类结果。
在一些实施例中,视频分类模型是以残差神经网络为主干网络的 时间转移模型。
在一些实施例中,视频分类模型通过如下方式训练得到:获取训 练样本集,其中,训练样本集中的训练样本包括样本视频、样本视频 包括的所有样本视频片段的预设分类信息以及样本视频的分类结果; 采用机器学习算法,以训练样本中的样本视频作为初始视频分类模型 的输入,以输入的样本视频包括的所有样本视频片段中的每个样本视 频片段的预设分类信息,依次作为初始视频分类模型中的目标全连接 层的期望输出,以输入的样本视频的分类结果作为初始视频分类模型 中连接目标全连接层的柔性最大化层的期望输出,训练得到视频分类 模型。
在一些实施例中,视频分类模型采用对称交叉熵函数,其中,对 称交叉熵函数通过交叉熵函数和反向交叉熵函数得到。
在一些实施例中,待分类视频的分类结果包括待分类视频属于各 预设分类信息的概率,以及各预设分类信息所对应的预设时长片段的 数量。
本申请的上述实施例提供的装置,通过获取单元获取待分类视频; 确定单元确定待分类视频包括的所有预设时长片段的预设分类信息; 分类单元根据待分类视频包括的所有预设时长片段的预设分类信息, 确定待分类视频的分类结果。从而提供了一种视频分类方式,准确地 对待分类视频进行分类,增加了趣味性;并提高了基于分类结果对待 分类视频进行后续处理的便利性。
下面参考图6,其示出了适于用来实现本申请实施例的电子设备 (例如图1中的服务器)600的结构示意图。本申请实施例中的终端 设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、 PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、 台式计算机等等的固定终端。图6示出的服务器仅仅是一个示例,不 应对本申请实施例的功能和使用范围带来任何限制。
如图6所示,电子设备600可以包括处理装置(例如中央处理器、 图形处理器等)601,其可以根据存储在只读存储器(ROM)602中的 程序或者从存储装置608加载到随机访问存储器(RAM)603中的程 序而执行各种适当的动作和处理。在RAM 603中,还存储有电子设备 600操作所需的各种程序和数据。处理装置601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线 604。
通常,以下装置可以连接至I/O接口605:包括例如触摸屏、触摸 板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置 606;包括例如液晶显示器(LCD,LiquidCrystal Display)、扬声器、 振动器等的输出装置607;包括例如磁带、硬盘等的存储装置608;以 及通信装置609。通信装置609可以允许电子设备600与其他设备进 行无线或有线通信以交换数据。虽然图6示出了具有各种装置的电子 设备600,但是应理解的是,并不要求实施或具备所有示出的装置。可 以替代地实施或具备更多或更少的装置。图6中示出的每个方框可以 代表一个装置,也可以根据需要代表多个装置。
特别地,根据本申请的实施例,上文参考流程图描述的过程可以 被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程 序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程 序包含用于执行流程图所示的方法的程序代码。在这样的实施例中, 该计算机程序可以通过通信装置609从网络上被下载和安装,或者从 存储装置608被安装,或者从ROM 602被安装。在该计算机程序被处 理装置601执行时,执行本申请的实施例的方法中限定的上述功能。
需要说明的是,本申请的实施例所述的计算机可读介质可以是计 算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组 合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电 磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。 计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或 多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、 只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、 光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储 器件、或者上述的任意合适的组合。在本申请的实施例中,计算机可 读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指 令执行系统、装置或者器件使用或者与其结合使用。而在本申请的实 施例中,计算机可读信号介质可以包括在基带中或者作为载波一部分 传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的 任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质 以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播 或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用 的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传 输,包括但不限于:电线、光缆、RF(Radio Frequency,射频)等等, 或者上述的任意合适的组合。
上述计算机可读介质可以是上述服务器中所包含的;也可以是单 独存在而未装配入该服务器中。上述计算机可读介质承载有一个或者 多个程序,当上述一个或者多个程序被该服务器执行时,使得该服务 器:获取待分类视频;确定待分类视频包括的所有预设时长片段的预 设分类信息;根据待分类视频包括的所有预设时长片段的预设分类信 息,确定待分类视频的分类结果。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请 实施例的操作的计算机程序代码,所述程序设计语言包括面向对象的 程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序 设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全 地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立 的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者 完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远 程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网 (WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利 用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本申请的各种实施例的系统、 方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点 上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码 的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实 现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实 现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。 例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时 也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是, 框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合, 可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者 可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现, 也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中, 例如,可以描述为:一种处理器,包括获取单元、确定单元和分类单 元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限 定,例如,分类单元还可以被描述为“根据待分类视频包括的所有预 设时长片段的预设分类信息,确定待分类视频的分类结果的单元”。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。 本领域技术人员应当理解,本申请的实施例中所涉及的发明范围,并 不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不 脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意 组合而形成的其它技术方案。例如上述特征与本申请实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (11)

1.一种视频处理方法,包括:
获取待分类视频;
确定所述待分类视频包括的所有预设时长片段的预设分类信息;
根据所述待分类视频包括的所有预设时长片段的预设分类信息,确定所述待分类视频的分类结果。
2.根据权利要求1所述的方法,其中,所述确定所述待分类视频包括的所有预设时长片段的预设分类信息,包括:
对所述待分类视频进行分割,获取所述待分类视频的所有预设时长片段,基于对预设时长片段的内容理解,确定预设时长片段的预设分类信息。
3.根据权利要求1所述的方法,其中,所述确定所述待分类视频包括的所有预设时长片段的预设分类信息,包括:
将所述待分类视频输入预先训练的视频分类模型,针对于所述待分类视频包括的所有预设时长片段中的每个预设时长片段,通过所述视频分类模型中的目标全连接层得到表征该预设时长片段的预设分类信息的特征向量;以及
所述根据所述待分类视频包括的所有预设时长片段的预设分类信息,确定所述待分类视频的分类结果,包括:
根据所述待分类视频包括的每个预设时长片段对应的特征向量,通过所述视频分类模型中连接所述目标全连接层的柔性最大化层确定所述待分类视频的分类结果,其中,所述视频分类模型用于表征待分类视频与分类结果之间的对应关系。
4.根据权利要求3所述的方法,其中,所述根据所述待分类视频包括的每个预设时长片段对应的特征向量,通过所述视频分类模型中连接所述目标全连接层的柔性最大化层确定所述待分类视频的分类结果,包括:
针对于所述待分类视频包括的每个预设时长片段对应的特征向量,进行最大池化;
将进行最大池化后的每个特征向量输入所述柔性最大化层,确定所述待分类视频的分类结果。
5.根据权利要求1所述的方法,其中,所述视频分类模型是以残差神经网络为主干网络的时间转移模型。
6.根据权利要求1所述的方法,其中,所述视频分类模型通过如下方式训练得到:
获取训练样本集,其中,所述训练样本集中的训练样本包括样本视频、样本视频包括的所有样本视频片段的预设分类信息以及样本视频的分类结果;
采用机器学习算法,以训练样本中的样本视频作为初始视频分类模型的输入,以输入的样本视频包括的所有样本视频片段中的每个样本视频片段的预设分类信息,依次作为初始视频分类模型中的目标全连接层的期望输出,以输入的样本视频的分类结果作为初始视频分类模型中连接所述目标全连接层的柔性最大化层的期望输出,训练得到所述视频分类模型。
7.根据权利要求6所述的方法,其中,所述视频分类模型采用对称交叉熵函数,其中,所述对称交叉熵函数通过交叉熵函数和反向交叉熵函数得到。
8.根据权利要求1-7任一所述的方法,其中,所述待分类视频的分类结果包括所述待分类视频属于各预设分类信息的概率,以及各预设分类信息所对应的预设时长片段的数量。
9.一种视频处理装置,包括:
获取单元,被配置成获取待分类视频;
确定单元,被配置成确定所述待分类视频包括的所有预设时长片段的预设分类信息;
分类单元,被配置成根据所述待分类视频包括的所有预设时长片段的预设分类信息,确定所述待分类视频的分类结果。
10.一种服务器,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-8中任一所述的方法。
11.一种计算机可读介质,其上存储有计算机程序,其中,该程序被处理器执行时实现如权利要求1-8中任一所述的方法。
CN202010906983.0A 2020-08-31 2020-08-31 视频处理方法和装置 Pending CN112000842A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010906983.0A CN112000842A (zh) 2020-08-31 2020-08-31 视频处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010906983.0A CN112000842A (zh) 2020-08-31 2020-08-31 视频处理方法和装置

Publications (1)

Publication Number Publication Date
CN112000842A true CN112000842A (zh) 2020-11-27

Family

ID=73465602

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010906983.0A Pending CN112000842A (zh) 2020-08-31 2020-08-31 视频处理方法和装置

Country Status (1)

Country Link
CN (1) CN112000842A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112911332A (zh) * 2020-12-29 2021-06-04 百度在线网络技术(北京)有限公司 用于从直播视频流剪辑视频的方法、装置、设备和存储介质
CN114648713A (zh) * 2020-12-18 2022-06-21 北京字节跳动网络技术有限公司 视频分类方法、装置、电子设备及计算机可读存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105550699A (zh) * 2015-12-08 2016-05-04 北京工业大学 一种基于cnn融合时空显著信息的视频识别分类方法
CN108419145A (zh) * 2018-05-04 2018-08-17 腾讯科技(深圳)有限公司 一种视频摘要的生成方法和装置以及计算机可读存储介质
CN110263217A (zh) * 2019-06-28 2019-09-20 北京奇艺世纪科技有限公司 一种视频片段标签识别方法及装置
CN110347873A (zh) * 2019-06-26 2019-10-18 Oppo广东移动通信有限公司 视频分类方法、装置、电子设备及存储介质
CN110781818A (zh) * 2019-10-25 2020-02-11 Oppo广东移动通信有限公司 视频分类方法、模型训练方法、装置及设备
CN111444878A (zh) * 2020-04-09 2020-07-24 Oppo广东移动通信有限公司 一种视频分类方法、装置及计算机可读存储介质
CN111523566A (zh) * 2020-03-31 2020-08-11 易视腾科技股份有限公司 目标视频片段定位方法和装置
US20200320769A1 (en) * 2016-05-25 2020-10-08 Metail Limited Method and system for predicting garment attributes using deep learning

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105550699A (zh) * 2015-12-08 2016-05-04 北京工业大学 一种基于cnn融合时空显著信息的视频识别分类方法
US20200320769A1 (en) * 2016-05-25 2020-10-08 Metail Limited Method and system for predicting garment attributes using deep learning
CN108419145A (zh) * 2018-05-04 2018-08-17 腾讯科技(深圳)有限公司 一种视频摘要的生成方法和装置以及计算机可读存储介质
CN110347873A (zh) * 2019-06-26 2019-10-18 Oppo广东移动通信有限公司 视频分类方法、装置、电子设备及存储介质
CN110263217A (zh) * 2019-06-28 2019-09-20 北京奇艺世纪科技有限公司 一种视频片段标签识别方法及装置
CN110781818A (zh) * 2019-10-25 2020-02-11 Oppo广东移动通信有限公司 视频分类方法、模型训练方法、装置及设备
CN111523566A (zh) * 2020-03-31 2020-08-11 易视腾科技股份有限公司 目标视频片段定位方法和装置
CN111444878A (zh) * 2020-04-09 2020-07-24 Oppo广东移动通信有限公司 一种视频分类方法、装置及计算机可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
廖传柱 等: "基于ABC-PCNN 模型的图像分割", 《南京理工大学学报》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114648713A (zh) * 2020-12-18 2022-06-21 北京字节跳动网络技术有限公司 视频分类方法、装置、电子设备及计算机可读存储介质
CN112911332A (zh) * 2020-12-29 2021-06-04 百度在线网络技术(北京)有限公司 用于从直播视频流剪辑视频的方法、装置、设备和存储介质
CN112911332B (zh) * 2020-12-29 2023-07-25 百度在线网络技术(北京)有限公司 用于从直播视频流剪辑视频的方法、装置、设备和存储介质

Similar Documents

Publication Publication Date Title
CN108830235B (zh) 用于生成信息的方法和装置
CN110162670B (zh) 用于生成表情包的方法和装置
CN108989882B (zh) 用于输出视频中的音乐片段的方法和装置
US11758088B2 (en) Method and apparatus for aligning paragraph and video
CN109961032B (zh) 用于生成分类模型的方法和装置
CN109829164B (zh) 用于生成文本的方法和装置
CN111831855B (zh) 用于匹配视频的方法、装置、电子设备和介质
CN109934142B (zh) 用于生成视频的特征向量的方法和装置
CN111897950A (zh) 用于生成信息的方法和装置
CN112000842A (zh) 视频处理方法和装置
WO2024099171A1 (zh) 视频生成方法和装置
CN113177450A (zh) 行为识别方法、装置、电子设备和存储介质
CN112149699A (zh) 用于生成模型的方法、装置和用于识别图像的方法、装置
CN110046571B (zh) 用于识别年龄的方法和装置
CN110008926B (zh) 用于识别年龄的方法和装置
CN110097004B (zh) 面部表情识别方法和装置
CN111783731B (zh) 用于提取视频特征的方法和装置
CN114420135A (zh) 基于注意力机制的声纹识别方法及装置
CN112907628A (zh) 视频目标追踪方法、装置、存储介质及电子设备
CN110489955B (zh) 应用于电子设备的图像处理、装置、计算设备、介质
CN110414625B (zh) 确定相似数据的方法、装置、电子设备及存储介质
CN111858916B (zh) 用于聚类句子的方法和装置
CN111949527A (zh) 游戏视频的测试方法、装置、设备及存储介质
CN111782933A (zh) 用于推荐书单的方法和装置
CN110765304A (zh) 图像处理方法、装置、电子设备及计算机可读介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20201127