CN113038195A

CN113038195A - 视频处理方法、装置、系统、介质及计算机设备

Info

Publication number: CN113038195A
Application number: CN202110286335.4A
Authority: CN
Inventors: 于志鹏; 梁鼎
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2021-03-17
Filing date: 2021-03-17
Publication date: 2021-06-25
Anticipated expiration: 2041-03-17
Also published as: CN113038195B

Abstract

本公开实施例提供一种视频处理方法、装置、系统、介质及计算机设备，能够获取第一视频的多个第一视频片段的第一特征；基于多个第二视频与所述第一视频的匹配度，从所述多个第二视频中确定所述第一视频的关联视频，其中，每个第二视频与所述第一视频的匹配度基于以下方式获取：针对所述第一视频的每个第一视频片段，分别确定所述第一视频片段的第一特征与所述第二视频的多个第二视频片段中每个第二视频片段的第二特征之间的第一相似度，所述第一特征与所述第二特征均与动作相关；基于至少部分所述第一相似度，确定所述第二视频与所述第一视频的匹配度。

Description

视频处理方法、装置、系统、介质及计算机设备

技术领域

本公开涉及视频处理技术领域，尤其涉及视频处理方法、装置、系统、介质及计算机设备。

背景技术

随着5G时代的到来，视频内容迎来爆发式增长，短视频和vlog等人体动作视频都非常流行。视频推送、视频分类和视频搜索是视频应用中比较常见的视频处理任务，目前的视频处理任务一般是基于视频的标签和描述信息实现。然而，由于动作具有多样性，并且一些视频中的动作本身可能并不具有特定含义，因此，一些动作视频往往很难定义视频的标签和描述信息，导致视频处理的准确性较低。

发明内容

本公开提供一种视频处理方法、装置、系统、介质及计算机设备。

根据本公开实施例的第一方面，提供一种视频处理方法，所述方法包括：获取第一视频的多个第一视频片段的第一特征；基于多个第二视频与所述第一视频的匹配度，从所述多个第二视频中确定所述第一视频的关联视频，其中，每个第二视频与所述第一视频的匹配度基于以下方式获取：针对所述第一视频的每个第一视频片段，分别确定所述第一视频片段的第一特征与所述第二视频的多个第二视频片段中每个第二视频片段的第二特征之间的第一相似度，所述第一特征与所述第二特征均与动作相关；基于至少部分所述第一相似度，确定所述第二视频与所述第一视频的匹配度。

在一些实施例中，所述获取第一视频的多个第一视频片段的第一特征，包括：采用神经网络对所述多个第一视频片段中的目标第一视频片段进行特征提取，得到所述目标第一视频片段的第一特征；其中，所述目标第一视频片段基于第一切片率对所述第一视频进行切片得到，用于训练所述神经网络的样本视频片段基于所述第一切片率对样本视频进行切片得到。

在一些实施例中，所述基于至少部分所述第一相似度，确定所述第二视频与所述第一视频的匹配度，包括：从各个所述第一相似度中选取指定数量的目标第一相似度，被选取的任意一个目标第一相似度大于未被选取的第一相似度；基于所述指定数量的目标第一相似度，确定所述第二视频与所述第一视频的匹配度。

在一些实施例中，所述基于至少部分所述第一相似度，确定所述第二视频与所述第一视频的匹配度，包括：对至少部分所述第一相似度中的每个第一相似度进行加权平均，得到所述第二视频与所述第一视频的匹配度。

在一些实施例中，所述多个第二视频的第二视频片段的第二特征预先经过聚类，得到多个类别，其中，每个类别对应至少一个第二特征；所述对至少部分所述第一相似度中的每个第一相似度进行加权平均，得到所述第二视频与所述第一视频的匹配度，包括：基于第一权重对所述至少部分所述第一相似度中的每个第一相似度进行加权平均，得到加权平均结果；所述第一相似度的第一权重基于所述第一相似度对应的目标第二特征与所述目标第二特征所属类别的类中心的第二相似度确定；基于第二权重对所述加权平均结果进行加权处理，得到所述第二视频与所述第一视频的匹配度；所述第二权重基于至少部分所述第一相似度中的每个第一相似度对应的目标第二特征与所述目标第二特征所属类别的类中心的第二相似度的平均值确定；所述第一相似度基于所述第一相似度对应的目标第二特征与第一特征确定。

在一些实施例中，所述方法还包括：向客户端推送所述关联视频；在所述关联视频被所述客户端命中的情况下，对所述第一权重和第二权重进行更新。

在一些实施例中，在通过所述客户端针对所述关联视频执行以下至少任一操作的情况下，确定所述关联视频被所述客户端命中：播放、点赞、转发、评论、收藏、下载、关注。

在一些实施例中，所述对所述第一权重和第二权重进行更新，包括：对所述第一权重与第一预设常数的和取对数，得到更新后的第一权重；对所述第二权重取指数，得到指数权重；对所述指数权重与第二预设常数的和取对数，得到更新后的第二权重。

在一些实施例中，所述第一权重为从各个所述第一相似度中选取的指定数量的目标第一相似度的权重，被选取的任意一个目标第一相似度大于未被选取的第一相似度。

在一些实施例中，所述第一视频片段和所述第二视频片段基于多种切片率切片得到，且所述第一视频片段的多种切片率构成的集合为所述第二视频片段的多种切片率构成的集合的子集。

根据本公开实施例的第二方面，提供一种视频处理装置，所述装置包括：获取模块，用于获取第一视频的多个第一视频片段的第一特征；第一确定模块，用于基于多个第二视频与所述第一视频的匹配度，从所述多个第二视频中确定所述第一视频的关联视频，其中，每个第二视频与所述第一视频的匹配度基于以下模块获取：第二确定模块，用于针对所述第一视频的每个第一视频片段，分别确定所述第一视频片段的第一特征与所述第二视频的多个第二视频片段中每个第二视频片段的第二特征之间的第一相似度，所述第一特征与所述第二特征均与动作相关；第三确定模块，用于基于至少部分所述第一相似度，确定所述第二视频与所述第一视频的匹配度。

在一些实施例中，所述获取模块用于：采用神经网络对所述多个第一视频片段中的目标第一视频片段进行特征提取，得到所述目标第一视频片段的第一特征；其中，所述目标第一视频片段基于第一切片率对所述第一视频进行切片得到，用于训练所述神经网络的样本视频片段基于所述第一切片率对样本视频进行切片得到。

在一些实施例中，所述第三确定模块包括：选取单元，用于从各个所述第一相似度中选取指定数量的目标第一相似度，被选取的任意一个目标第一相似度大于未被选取的第一相似度；确定单元，用于基于所述指定数量的目标第一相似度，确定所述第二视频与所述第一视频的匹配度。

在一些实施例中，所述第三确定模块用于：对至少部分所述第一相似度中的每个第一相似度进行加权平均，得到所述第二视频与所述第一视频的匹配度。

在一些实施例中，所述多个第二视频的第二视频片段的第二特征预先经过聚类，得到多个类别，其中，每个类别对应至少一个第二特征；所述第三确定模块包括：第一加权单元，用于基于第一权重对所述至少部分所述第一相似度中的每个第一相似度进行加权平均，得到加权平均结果；所述第一相似度的第一权重基于所述第一相似度对应的目标第二特征与所述目标第二特征所属类别的类中心的第二相似度确定；第二加权单元，用于基于第二权重对所述加权平均结果进行加权处理，得到所述第二视频与所述第一视频的匹配度；所述第二权重基于至少部分所述第一相似度中的每个第一相似度对应的目标第二特征与所述目标第二特征所属类别的类中心的第二相似度的平均值确定；所述第一相似度基于所述第一相似度对应的目标第二特征与第一特征确定。

在一些实施例中，所述装置还包括：推送模块，用于向客户端推送所述关联视频；更新模块，用于在所述关联视频被所述客户端命中的情况下，对所述第一权重和第二权重进行更新。

在一些实施例中，所述更新模块包括：第一更新单元，用于对所述第一权重与第一预设常数的和取对数，得到更新后的第一权重，并对所述第二权重取指数，得到指数权重；第二更新单元，用于对所述指数权重与第二预设常数的和取对数，得到更新后的第二权重。

根据本公开实施例的第三方面，提供一种视频处理系统，所述系统包括：客户端，用于获取第一视频，并向服务器发送所述第一视频；以及服务器，用于获取第一视频的多个第一视频片段的第一特征；基于多个第二视频与所述第一视频的匹配度，从所述多个第二视频中确定所述第一视频的关联视频，其中，每个第二视频与所述第一视频的匹配度基于以下方式获取：针对所述第一视频的每个第一视频片段，分别确定所述第一视频片段的第一特征与所述第二视频的多个第二视频片段中每个第二视频片段的第二特征之间的第一相似度，所述第一特征与所述第二特征均与动作相关；基于至少部分所述第一相似度，确定所述第二视频与所述第一视频的匹配度。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现任一实施例所述的方法。

根据本公开实施例的第五方面，提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现任一实施例所述的方法。

本公开实施例能够基于第一视频中的对象执行的动作所具有的特征来从第二视频中获取第一视频的关联视频，由于动作的特征歧义较小，且上述基于特征的处理方式无需获取视频的标签和描述信息，避免了在视频中的动作本身可能并不具有特定含义的情况下难以生成准确的视频标签和描述信息的情况，因此，获取关联视频的准确性较高，从而基于该关联视频执行的视频推送和视频分类等视频处理任务的准确性也较高。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。

图1是本公开实施例的动作视频的示意图。

图2是传统的视频处理方法的示意图。

图3是本公开实施例的视频处理方法的流程图。

图4是本公开实施例的视频数据库的构建过程的示意图。

图5是本公开实施例的视频处理装置的框图。

图6是本公开实施例的视频处理系统的示意图。

图7是本公开实施例的计算机设备的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在本公开使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合。

应当理解，尽管在本公开可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本公开范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

为了使本技术领域的人员更好的理解本公开实施例中的技术方案，并使本公开实施例的上述目的、特征和优点能够更加明显易懂，下面结合附图对本公开实施例中的技术方案作进一步详细的说明。

由目标对象(例如，人、动物、机器人等)执行动作的视频帧构成的视频称为动作视频，同一个动作视频中可以包括多个不同的子动作，例如，抬腿、弯腰、蹲下等。这多个不同的子动作可以组合构成具有特定含义的动作，例如舞蹈、投篮、踢球、滑冰等，也可以组合构成任意不具有特定含义的动作。这里所指的动作既可以包括通过四肢、躯干等部位执行的躯体动作，也可以包括通过面部五官来执行的表情动作。图1示出了一些实施例的动作视频中的视频帧A到视频帧D，每个视频帧中均包括一个篮球运动员运球的子动作，这些子动作构成了篮球运动员投篮的动作。本领域技术人员可以理解，这4个视频帧之间(比如，视频帧A与视频帧B之间等)、在时序上位于视频帧A之前以及视频帧D之后的视频帧的数量可以大于或等于1，此处仅示出了4个子动作对应的视频帧作为举例说明，多个视频帧连续播放，从而使观看视频的用户可以观看到连续完整的投篮动作视频。

视频推送、视频分类和视频搜索是视频应用中比较常见的视频处理任务。其中，视频推送是指将用户可能感兴趣的视频推送给用户；视频分类是指基于视频的信息对视频的类别进行划分；视频搜索是从视频数据库中搜索出与用户输入的搜索关键信息(比如，关键词、图像、视频片段等)相匹配的视频。

目前的视频处理任务一般是基于视频的标签和描述信息实现，下面结合图2，对视频搜索任务的处理过程进行说明。在数据库201中可以存储多个视频2011以及每个视频2011的一个或多个标签2012和/或描述信息2013，其中，标签2012可以是由人工打标方式或者软件算法预先生成的，例如“熊猫”、“动物”这两个标签分别表示视频内容与熊猫和动物有关；描述信息2013用于对视频内容进行进一步说明，例如，“熊猫逃离动物园”这一描述信息，表示视频内容是关于熊猫逃离动物园，而不是熊猫吃竹子或者与熊猫相关的其他内容。在进行视频搜索时，用户可以在客户端202的界面2021上的搜索栏2021a输入搜索关键字，例如“熊猫”，并向服务器发送搜索关键字。服务器在接收到搜索关键字之后，可以从数据库201中查找与搜索关键字相匹配的标签和/或描述信息，并向客户端202返回搜索到的标签和/或描述信息对应的一个或多个视频。客户端202可以在界面2021的视频展示区域2021b展示返回的一个或多个视频，例如，图中的视频1和视频2。

类似地，其他视频处理任务一般也是基于视频的标签和描述信息中的至少一者，或者基于用户画像(例如，年龄、性别、职业等)、视频的标签和描述信息中的至少一者来实现，此处不再赘述。对于动作视频，无论是通过人工方式还是通过软件算法来生成标签和描述信息，都需要预先对该动作视频中的动作有一定了解，才能生成准确的标签和描述信息。例如，需要预先知道跳鞍马的动作包括跑、起跳、转体等，才会为包括这一系列动作的视频生成跳鞍马类别的动作标签。然而，由于动作具有多样性，并且一些视频中的动作本身可能并不具有特定含义，因此，一些动作视频往往很难定义视频的标签和描述信息，导致视频处理的准确性较低。

基于此，本公开实施例提供一种视频处理方法，如图3所示，所述方法包括：

步骤301：获取第一视频的多个第一视频片段的第一特征；

步骤302：基于多个第二视频与所述第一视频的匹配度，从所述多个第二视频中确定所述第一视频的关联视频，其中，每个第二视频与所述第一视频的匹配度基于以下方式获取：

步骤303：针对所述第一视频的每个第一视频片段，分别确定所述第一视频片段的第一特征与所述第二视频的多个第二视频片段中每个第二视频片段的第二特征之间的第一相似度，所述第一特征与所述第二特征均与动作相关；

步骤304：基于至少部分所述第一相似度，确定所述第二视频与所述第一视频的匹配度。

在步骤301中，第一视频可以是用户在客户端作为搜索关键信息输入的搜索视频。在这种情况下，可以基于第一视频执行视频搜索任务，例如，从客户端本地或者视频数据库中搜索与第一视频相关的视频。或者，第一视频也可以是过去一段时间内服务器或者其他终端设备向客户端返回的视频，或者是视频数据库中预设时间段内命中率达到预设值的视频，可以基于第一视频执行视频推送任务，例如，服务器或者其他终端设备向客户端推送与第一视频相关的其他视频。或者，第一视频也可以是在更新视频数据库时新加入视频数据库的视频，可以基于第一视频执行视频分类任务，例如，将第一视频划分到视频数据库中其他视频所属的类别，或者在定义新的类别后，将第一视频划分到新的类别中。第一视频还可以是客户端、服务器或者视频数据库在其他情况下获取的视频，此处对于第一视频的来源等不再一一展开说明。

可以对第一视频进行切片，得到第一视频的多个第一视频片段。可以预先设置视频的一种或多种切片率，每种切片率可以将第一视频切片成一种时长的视频片段。例如，采用的切片率为1s，则可以将第一视频切片成多个时长为1s的第一视频片段；采用的切片率为5s，则可以将第一视频切片成多个时长为5s的第一视频片段。

切片率可以基于第一视频的时长来确定。对于时长较长的第一视频，可以将该第一视频的最高切片率设置为较大的值；反之，对于时长较短的第一视频，可以将该第一视频的最高切片率设置为较小的值。或者，切片率还可以基于第一视频中的场景切换频率来确定。对于场景切换频率较慢的第一视频，可以将该第一视频的最高切片率设置为较大的值；反之，对于场景切换频率较快的第一视频，可以将该第一视频的最高切片率设置为较小的值。或者，可以对各种第一视频采用固定的一种或多种切片率。再或者，切片率还可以基于第一视频包括动作的难易程度来确定。其中，动作的难易程度可以基于该动作可被拆解得到的子动作的数量、单个子动作的持续时长等等来确定。

在一些实施例中，可以采用(1s，5s，10s，15s)这四种切片率分别对第一视频进行切片。针对每种切片率，可以采用滑动窗口方式进行切片，即，采用对应长度的滑动窗口在第一视频上滑动，每滑动一次，得到一个第一视频切片。视频中的动作在不同时长内对应的含义可能是不同的，例如，在运动员跳鞍马的视频中，前2秒的动作为奔跑，后2秒的动作为跳跃，通过采用多种不同的切片率，一方面能够挖掘出视频中的动作在较短时长内的特征，另一方面能够提取出不同时段内的特征之间的关联性，从而得到视频中的动作在较长时段内的特征，从而提高后续进行视频推送的准确性。

在一些实施例中，可以对第一视频的多个第一视频片段进行特征提取，得到所述多个第一视频片段的与动作相关的第一特征。应当说明的是，本公开实施例中所述的特征，例如第一特征以及下文中的第二特征，均为与动作相关的特征(称为动作特征)，即基于视频中的对象(例如，人、动物、机器人、卡通形象等)所执行的动作提取出的特征，动作特征与视频中的对象所执行的动作是相关的，不同的动作提取出的特征一般不同。例如，所述动作特征可以包括所述对象执行动作时的位置、位置的变化速率、位置的变化幅度、所述对象的位置与动作所针对的道具的位置之间的关系等。其中，所述位置可以包括所述对象整体的位置，也可以包括所述对象的多个关键点的位置。道具指的是在对象执行动作的过程中所使用或是借助的对象，比如，篮球、鞍马等。

可以获取第一位置序列，所述第一位置序列中包括多个位置信息，每个位置信息用于表征一个第一视频片段中目标对象执行动作时所处的位置，并基于所述第一位置序列对所述第一视频片段进行特征提取，得到所述第一视频片段的特征序列，所述特征序列即所述第一特征。

在采用多种切片率对第一视频进行切片的情况下，可以分别针对每种切片率生成的第一视频片段进行特征提取。例如，可以对采用1s的切片率切片得到的多个第一视频片段进行特征提取，得到1s时长的多个第一视频片段的特征序列；还可以对采用5s的切片率切片得到的多个第一视频片段进行特征提取，得到5s时长的多个第一视频片段的特征序列。

上述特征提取过程可以基于神经网络实现，假设采用多种切片率s₁,s₂,…,s_k对第一视频进行切片，分别得到多组第一视频片段{C₁},{C₂},…,{C_k}，其中，第一视频片段{C_i}(1≤i≤k)为采用切片率s_i对第一视频进行切片得到的一组视频片段，其中可以包括一个或多个第一视频片段c，可以分别训练多个神经网络N₁,N₂,…,N_k，用于训练神经网络N_i(1≤i≤k)的样本视频片段基于切片率s_i对样本视频进行切片得到，训练后的神经网络N_i用于对第一视频片段{C_i}进行特征提取。

在步骤302中，可以分别获取每个第二视频与所述第一视频的匹配度，并基于各个第二视频与所述第一视频的匹配度，从所述多个第二视频中确定所述第一视频的关联视频。在一些实施例中，可以将与第一视频匹配度大于预设值的第二视频均确定为第一视频的关联视频。在另一些实施例中，也可以将与第一视频匹配度由高到低的top r个第二视频确定为第一视频的关联视频，r为整数且r≥1。在另一些实施例中，还可以将与第一视频匹配度为指定数值的若干个第二视频确定为第一视频的关联视频。下面以其中一个第二视频为例，对确定第二视频与第一视频的匹配度的方式进行说明，各个第二视频与第一视频的匹配度可以采用相同的方式确定，此处不再赘述。

在步骤303中，可以获取第一视频中的任意一个第一视频片段的第一特征与第二视频中的任意一个第二视频片段的第二特征之间的第一相似度。假设第一视频中第一视频片段的数量为n，第二视频中第二视频片段的数量为m，则总共可以获取m×n个第一相似度。第二特征可以基于与第一特征相同或不同的方式提取得到，此处不再赘述。

所述第一特征与第二特征之间的第一相似度可以基于第一特征与第二特征之间的距离来确定，所述距离可以包括但不限于欧式距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离、马氏距离等中的任意一种，本公开对此不做限制。

在步骤304中，可以采用上述m×n个第一相似度中的部分或全部第一相似度来确定所述第二视频与所述第一视频的匹配度。下面先以采用一种切片率的情况为例，对本公开实施例的方案进行说明。在采用多种切片率的情况下，每种切片率下获取的第一视频片段的第一特征分别与该切片率下获取的第二视频片段的第二特征确定第一相似度，再将各个切片率下获取的第一相似度进行融合，得到第二视频与第一视频的匹配度。

在一些实施例中，针对每个第二视频片段d_i(1≤i≤m)，可以获取各个第一视频片段c₁,c₂,…,c_n与该第二视频片段d_i的第一相似度，分别记为S₁,S₂,…,S_n，获取S₁,S₂,…,S_n中的最大者

基于各个第二视频片段d₁,d₂,…,d_m对应的最大的第一相似度

确定所述第二视频与所述第一视频的匹配度。在另一些实施例中，可以从所述m×n个第一相似度中选取最大的k(k为整数且k≥1)个目标第一相似度，基于选取的k个目标第一相似度确定所述第二视频与所述第一视频的匹配度。还可以采用其他方式来从所述m×n个第一相似度中选取部分第一相似度用于确定所述第二视频与所述第一视频的匹配度，此处不再一一举例说明。其中，k的取值可以基于实现上述处理过程的设备的计算能力、资源占用情况、场景等中的一项或多项来确定，在此不予限定。

在确定所述匹配度时，可以将前述实施例中取值最大的第一相似度直接确定为所述第二视频与所述第一视频的匹配度。或者，可以对前述实施例中获取的全部第一相似度进行加权平均，得到所述第二视频与所述第一视频的匹配度。或者，可以从前述实施例中获取的全部第一相似度中选取指定数量的目标第一相似度，被选取的任意一个目标第一相似度大于未被选取的第一相似度(即目标第一相似度为取值从大到小的top k个第一相似度，k为整数且k≥1)，对各个目标第一相似度进行加权平均，得到所述第二视频与所述第一视频的匹配度。

视频中不同的视频片段在确定两个视频的匹配度的过程中，重要程度可能是不同的，例如，视频开始的视频片段中可能仅包括场景介绍、演职员名单等内容，不包括动作信息，因此，这些视频片段对于视频匹配的重要程度较低。而视频中段的视频片段往往包括动作信息，因此，这些视频片段对于视频匹配的重要程度较高。可以基于视频片段的重要程度来确定权重，再基于权重对所述至少部分第一相似度中的每一者进行加权平均处理，得到所述第二视频与所述第一视频的匹配度。

具体来说，可以基于第一权重对所述至少部分所述第一相似度中的每个第一相似度进行加权平均，得到加权平均结果；所述第一相似度的第一权重基于所述第一相似度对应的目标第二特征与所述目标第二特征所属类别的类中心的第二相似度确定。所述加权平均结果可记为：

式中，conf_v表示第一视频v的加权平均结果，K为用于确定所述第二视频与所述第一视频的匹配度的目标第一相似度的数量，S^j为第j个目标第一相似度，W^j为第j个目标第一相似度的第一权重。假设所述第j个目标第一相似度基于第二视频片段d_obj的第二特征与第一视频片段c_obj的第一特征获取，则W^j可以基于d_obj的第二特征与d_obj的第二特征所属类别的类中心的第二相似度确定。

各个第二视频的第二视频片段的第二特征可以预先经过聚类，聚类方式包括但不限于层次聚类、DBSCAN为主的密度聚类和K-means为主的基于硬化分的聚类方法等中的任意一种。一个视频片段的特征与类中心的第二相似度越大，表示该视频片段中对象的动作与类中心对应的动作越接近，该视频片段中包括动作信息的可能性越高，从而该视频片段在确定匹配度时的重要程度也越高；反之，一个视频片段的特征与类中心的第二相似度越小，表示该视频片段中对象的动作与类中心对应的动作差异越大，该视频片段中包括动作信息的可能性越低，从而该视频片段在确定匹配度时的重要程度也越低。因此，通过采用上述第一权重进行加权平均处理，能够提高重要程度较高的视频片段对于匹配度确定结果的影响程度，从而提高确定关联视频的准确度。

除了确定视频片段之间的第一相似度之外，还需要将视频片段的第一相似度映射给原视频。可以基于第二权重对所述加权平均结果进行加权处理，得到所述第二视频与所述第一视频的匹配度；所述第二权重基于至少部分所述第一相似度中的每个第一相似度对应的目标第二特征与所述目标第二特征所属类别的类中心的第二相似度的平均值确定。

假设至少部分所述第一相似度包括第二视频片段1的第二特征F₁与第一视频片段1的第一特征的第一相似度S₁₁，第二视频片段3的第二特征F₃与第一视频片段4的第一特征的第一相似度S₃₄，以及第二视频片段5的第二特征F₅与第一视频片段2的第一特征的第一相似度S₅₂，则可以获取第二特征F₁与F₁所属类别的类中心的第二相似度D₁，第二特征F₃与F₃所属类别的类中心的第二相似度D₃，以及第二特征F₅与F₅所属类别的类中心的第二相似度D₅，并基于D₁、D₃和D₅的平均值来确定第二权重。

本公开实施例通过采用上述方式，能够基于第一视频中的对象执行的动作所具有的特征来从第二视频中获取第一视频的关联视频，由于动作的特征歧义较小，且上述基于特征的处理方式无需获取视频的标签和描述信息，避免了在视频中的动作本身可能并不具有特定含义的情况下难以生成准确的视频标签和描述信息的情况，因此，获取关联视频的准确性较高。

在获取关联视频后，可以基于关联视频执行多种视频处理任务。例如，可以将关联视频推送至客户端。又例如，可以将第一视频划分为与关联视频相同的类别。由于确定关联视频与第一视频匹配度的方式的准确性较高，因此，基于该关联视频执行的视频推送和视频分类等任务的准确性也较高。

在一些实施例中，向客户端推送所述关联视频之后，可以获取客户端对所述关联视频的命中情况。其中，在通过所述客户端针对所述关联视频执行以下至少任一操作的情况下，确定所述关联视频被所述客户端命中：播放、点赞、转发、评论、收藏、下载、关注。在所述关联视频被所述客户端命中的情况下，可以对所述第一权重和所述第二权重进行更新。通过将客户端对关联视频的命中情况作为反馈来更新第一权重和所述第二权重，能够进一步提高确定关联视频的准确性。

在一些实施例中，可以对所述第一权重与第一预设常数的和取对数，得到更新后的第一权重，例如：

式中，

为更新后的第j个第一权重，W^j为更新前的第j个第一权重，所述第一预设常数为1。

在一些实施例中，可以对所述第二权重取指数，得到指数权重；对所述指数权重与第二预设常数的和取对数，得到更新后的第二权重，例如：

式中，

为更新后的第二权重，U为更新前的第二权重，所述第二预设常数为1。

下面结合图4，对本公开实施例的总体流程进行说明。

(1)建立视频数据库401。

(1.1)视频获取。可以通过用户上传、合法的网络的爬虫、协商版权购买等方式，获取尽可能多的第二视频。

(1.2)特征提取。对每个第二视频v进行切片，分别采用切片率(1s，5s，10s，15s)，按照滑动窗的采样方式将第二视频切分为多个第二视频片段，第i个切片率下包括n_i个第二视频片段，1≤i≤4。然后，每个切片率下的第二视频片段用该切片率对应的视频动作模型进行特征提取，得到每种切片率下的特征数据库。

(1.3)特征聚类。对同一种切片率下的所有第二视频切片进行聚类。经过聚类之后，就得到了四个采样率下的聚类结果集合。

(1.4)不同切片率下的聚类结果需要映射给原视频。在4种不同采样率下，第二视频v会分别有n_i个第二视频片段，根据聚类结果，可以知道这n_i个第二视频片段的特征的类别和类中心。将每个第二视频片段的特征与类中心的相似度确定为该第二视频片段的重要程度，每个视频v中所有第二视频片段的重要程度W¹,W²,…的平均值确定为该视频v的重要程度U。

(2)实时搜索结果返回

(2.1)搜索视频(即第一视频)的特征抽取，按照四个切片率(1s，5s，10s，15s)分别将搜索视频切片成多个第一视频片段。每个切片率下的第一视频片段用该切片率对应的视频动作模型进行特征提取。需要说明的是，用于对同一切片率的第一视频片段及第二视频片段的特征进行提取的视频动作模型，可以相同或是不同，在此不予限定。

(2.2)在视频数据库中进行相似度搜索，每种切片率的第一视频片段的特征，在对应切片率的特征数据库中进行搜索，得到该切片率下特征的相似度的top k返回结果。

(2.3)根据搜索结果返回推荐视频。对4种切片率的top k返回结果进行加权平均，得到第二视频v的推荐分数conf_v，再将conf_v和视频v的重要程度相乘，得到第二视频v的搜索推荐指数(即第二视频v与第一视频的匹配度)如下：

CON_v＝conf_v*U_v

其中，

式中，CON_v为第二视频v的搜索推荐指数，U_v为第二视频v的重要程度，S^i,j为第二视频v中第i个切片率下排名top j的相似度，W^i,j为S^i,j的重要程度。

(3)权重更新。根据实际的推荐效果，对于每个视频v的重要程度和top k的相似度对应的第二视频片段的重要程度进行更新。如果推荐的视频被播放、点赞或以其他形式被采纳，则被视为命中，命中的第二视频的重要程度和对应的第二视频片段的重要程度基于以下方式进行更新：

W^i,j和

分别为更新前和更新后S^i,j的重要程度，U_v和

分别为更新前和更新后第二视频v的重要程度。通常情况下，重要程度较高的第二视频可以被优先推送给用户，或是在批量推送过程中被呈现在相对靠前的位置等。

其中，如果两个或两个以上top k的相似度对应同一个第二视频片段，则对所述同一个第二视频片段的重要程度进行多次更新。例如，top1的相似度为第一视频片段c₁与第二视频片段d₁的相似度，top2的相似度为第一视频片段c₃与第二视频片段d₁的相似度，则对第二视频片段d₁的重要程度进行两次更新。当然也可以通过累计的方式，对待更新重要程度的第二视频片段需要进行重要程度更新的次数预先累计，并在对第二视频片段进行重要程度更新的过程中，连续更新两次，或是通过更新一次但加大更新力度的方式来实现，以减少更新次数，并在一定程度上简化更新过程。

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

如图5所示，本公开还提供一种装置，所述装置包括：

获取模块501，用于获取第一视频的多个第一视频片段的第一特征；

第一确定模块502，用于基于多个第二视频与所述第一视频的匹配度，从所述多个第二视频中确定所述第一视频的关联视频，其中，每个第二视频与所述第一视频的匹配度基于以下模块获取：

第二确定模块503，用于针对所述第一视频的每个第一视频片段，分别确定所述第一视频片段的第一特征与所述第二视频的多个第二视频片段中每个第二视频片段的第二特征之间的第一相似度，所述第一特征与所述第二特征均与动作相关；

第三确定模块504，用于基于至少部分所述第一相似度，确定所述第二视频与所述第一视频的匹配度。

在一些实施例中，所述装置还包括：更新模块，用于在所述关联视频被所述客户端命中的情况下，对所述第一权重和第二权重进行更新。

在一些实施例中，本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法，其具体实现可以参照上文方法实施例的描述，为了简洁，这里不再赘述。

如图6所示，本公开还提供一种视频处理系统，所述系统包括：

客户端601，用于获取第一视频，并向服务器602发送所述第一视频；以及

服务器602，用于获取第一视频的多个第一视频片段的第一特征；基于多个第二视频与所述第一视频的匹配度，从所述多个第二视频中确定所述第一视频的关联视频，其中，每个第二视频与所述第一视频的匹配度基于以下方式获取：

针对所述第一视频的每个第一视频片段，分别确定所述第一视频片段的第一特征与所述第二视频的多个第二视频片段中每个第二视频片段的第二特征之间的第一相似度，所述第一特征与所述第二特征均与动作相关；

基于至少部分所述第一相似度，确定所述第二视频与所述第一视频的匹配度。

其中，客户端601可以包括但不限于手机、平板电脑、笔记本电脑、台式电脑等智能终端中的一种，服务器602可以是单台服务器或者由多台服务器构成的服务器集群。所述第一视频可以是调用客户端601上的摄像头实时采集的视频，也可以是预先存储在客户端601的存储单元中的视频。客户端601在获取到第一视频之后，可以将第一视频作为搜索关键信息，并向服务器602发送第一视频。服务器602在接收到第一视频之后，可以对第一视频进行切片处理，得到第一视频的多个第一视频片段，并基于第一视频片段的第一特征以及第二视频的各个第二视频片段的第二特征，确定第一视频与第二视频的匹配度。其中，第二视频可以是视频数据库中的视频，所述视频数据库可以是服务器602的本地数据库，也可以是云端的数据库。服务器602在确定出各个第二视频与第一视频的匹配度之后，可以基于所述匹配度，向客户端601返回所述第一视频的关联视频。

本说明书实施例还提供一种计算机设备，其至少包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，处理器执行所述程序时实现前述任一实施例所述的方法。

图7示出了本说明书实施例所提供的一种更为具体的计算设备硬件结构示意图，该设备可以包括：处理器701、存储器702、输入/输出接口703、通信接口704和总线705。其中处理器701、存储器702、输入/输出接口703和通信接口704通过总线705实现彼此之间在设备内部的通信连接。

处理器701可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本说明书实施例所提供的技术方案。处理器701还可以包括显卡，所述显卡可以是Nvidia titan X显卡或者1080Ti显卡等。

存储器702可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器702可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器702中，并由处理器701来调用执行。

输入/输出接口703用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口704用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线705包括一通路，在设备的各个组件(例如处理器701、存储器702、输入/输出接口703和通信接口704)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器701、存储器702、输入/输出接口703、通信接口704以及总线705，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含图中所示的全部组件。

本公开实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前述任一实施例所述的方法。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本说明书实施例可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本说明书实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本说明书实施例各个实施例或者实施例的某些部分所述的方法。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机，计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，在实施本说明书实施例方案时可以把各模块的功能在同一个或多个软件和/或硬件中实现。也可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述仅是本说明书实施例的具体实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本说明书实施例原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本说明书实施例的保护范围。

Claims

1.一种视频处理方法，其特征在于，所述方法包括：

获取第一视频的多个第一视频片段的第一特征；

基于多个第二视频与所述第一视频的匹配度，从所述多个第二视频中确定所述第一视频的关联视频，其中，每个第二视频与所述第一视频的匹配度基于以下方式获取：

2.根据权利要求1所述的方法，其特征在于，所述获取第一视频的多个第一视频片段的第一特征，包括：

采用神经网络对所述多个第一视频片段中的目标第一视频片段进行特征提取，得到所述目标第一视频片段的第一特征；

其中，所述目标第一视频片段基于第一切片率对所述第一视频进行切片得到，用于训练所述神经网络的样本视频片段基于所述第一切片率对样本视频进行切片得到。

3.根据权利要求1或2所述的方法，其特征在于，所述基于至少部分所述第一相似度，确定所述第二视频与所述第一视频的匹配度，包括：

从各个所述第一相似度中选取指定数量的目标第一相似度，被选取的任意一个目标第一相似度大于未被选取的第一相似度；

基于所述指定数量的目标第一相似度，确定所述第二视频与所述第一视频的匹配度。

4.根据权利要求1至3任意一项所述的方法，其特征在于，所述基于至少部分所述第一相似度，确定所述第二视频与所述第一视频的匹配度，包括：

对至少部分所述第一相似度中的每个第一相似度进行加权平均，得到所述第二视频与所述第一视频的匹配度。

5.根据权利要求4所述的方法，其特征在于，所述多个第二视频的第二视频片段的第二特征预先经过聚类，得到多个类别，其中，每个类别对应至少一个第二特征；所述对至少部分所述第一相似度中的每个第一相似度进行加权平均，得到所述第二视频与所述第一视频的匹配度，包括：

基于第一权重对所述至少部分所述第一相似度中的每个第一相似度进行加权平均，得到加权平均结果；所述第一相似度的第一权重基于所述第一相似度对应的目标第二特征与所述目标第二特征所属类别的类中心的第二相似度确定；

基于第二权重对所述加权平均结果进行加权处理，得到所述第二视频与所述第一视频的匹配度；所述第二权重基于至少部分所述第一相似度中的每个第一相似度对应的目标第二特征与所述目标第二特征所属类别的类中心的第二相似度的平均值确定；

所述第一相似度基于所述第一相似度对应的目标第二特征与第一特征确定。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

向客户端推送所述关联视频；

在所述关联视频被所述客户端命中的情况下，对所述第一权重和第二权重进行更新。

7.根据权利要求6所述的方法，其特征在于，在通过所述客户端针对所述关联视频执行以下至少任一操作的情况下，确定所述关联视频被所述客户端命中：播放、点赞、转发、评论、收藏、下载、关注。

8.根据权利要求6或7所述的方法，其特征在于，所述对所述第一权重和第二权重进行更新，包括：

对所述第一权重与第一预设常数的和取对数，得到更新后的第一权重；

对所述第二权重取指数，得到指数权重；

对所述指数权重与第二预设常数的和取对数，得到更新后的第二权重。

9.根据权利要求8所述的方法，其特征在于，所述第一权重为从各个所述第一相似度中选取的指定数量的目标第一相似度的权重，被选取的任意一个目标第一相似度大于未被选取的第一相似度。

10.根据权利要求1至9任意一项所述的方法，其特征在于，所述第一视频片段和所述第二视频片段基于多种切片率切片得到，且所述第一视频片段的多种切片率构成的集合为所述第二视频片段的多种切片率构成的集合的子集。

11.一种视频处理装置，其特征在于，所述装置包括：

获取模块，用于获取第一视频的多个第一视频片段的第一特征；

第一确定模块，用于基于多个第二视频与所述第一视频的匹配度，从所述多个第二视频中确定所述第一视频的关联视频，其中，每个第二视频与所述第一视频的匹配度基于以下模块获取：

第二确定模块，用于针对所述第一视频的每个第一视频片段，分别确定所述第一视频片段的第一特征与所述第二视频的多个第二视频片段中每个第二视频片段的第二特征之间的第一相似度，所述第一特征与所述第二特征均与动作相关；

第三确定模块，用于基于至少部分所述第一相似度，确定所述第二视频与所述第一视频的匹配度。

12.一种视频处理系统，其特征在于，所述系统包括：

客户端，用于获取第一视频，并向服务器发送所述第一视频；以及

服务器，用于获取第一视频的多个第一视频片段的第一特征；基于多个第二视频与所述第一视频的匹配度，从所述多个第二视频中确定所述第一视频的关联视频，其中，每个第二视频与所述第一视频的匹配度基于以下方式获取：

13.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至10任意一项所述的方法。

14.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至10任意一项所述的方法。