CN113066101A

CN113066101A - 数据处理方法及装置、图像处理方法及装置

Info

Publication number: CN113066101A
Application number: CN201911395402.5A
Authority: CN
Inventors: 刘重阳; 汪玲; 刘超
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2019-12-30
Filing date: 2019-12-30
Publication date: 2021-07-02

Abstract

本申请提供数据处理方法及装置、图像处理方法及装置，其中，所述图像处理方法包括将获取待处理视频，其中，所述视频包括视频帧序列，然后根据预设的检测方式获得视频帧序列中所有视频帧中的所有对象的精度较高的目标外接框，再基于该目标外接框确定出每个对象的动作轨迹，提高动作轨迹跟踪鲁棒性，最后根据每个对象的动作轨迹对应的目标外接框序列准确的确定出该视频中的目标对象。

Description

数据处理方法及装置、图像处理方法及装置

技术领域

本说明书实施例涉及视频处理技术领域，特别涉及一种数据处理方法、一种图像处理方法。本说明书一个或者多个实施例同时涉及一种数据处理装置、一种图像处理装置，一种资产评估方法，一种资产评估装置，三种计算设备，以及两种计算机可读存储介质。

背景技术

一般情况下，用户在观看视频时，更倾向于对视频中主角的关注，对于包含主角的视频用户的关注度会更高，因此对视频中包含有主角的视频帧进行提取之后再推送给用户进行观看可以达到更好的收视效果。

而对某个视频中包含有主角的视频帧进行提取之前，首先要先确定出该视频中的主角，因此急需提供一种可以获得视频中目标对象的方法。

发明内容

有鉴于此，本说明书施例提供了一种数据处理方法、一种图像处理方法。本说明书一个或者多个实施例同时涉及一种数据处理装置、一种图像处理装置，一种资产评估方法，一种资产评估装置，三种计算设备，以及两种计算机可读存储介质，以解决现有技术中存在的技术缺陷。

根据本说明书实施例的第一方面，提供了一种数据处理方法，包括：

获取待处理视频；

分割所述待处理视频，得到一个或多个原始视频帧；

获取所述一个或多个原始视频帧中所有对象的目标外接框，并基于所述目标外接框确定所有对象的动作轨迹；

获取所有对象的动作轨迹对应的目标外接框序列，并基于所述目标外接框序列确定所述视频中的目标对象。

根据本说明书实施例的第二方面，提供了一种图像处理方法，包括：

获取待处理视频，其中，所述视频包括视频帧序列；

获得所述视频帧序列的所有视频帧，其中，所述视频帧包括一个或多个对象；

获取所述一个或多个对象的目标外接框；

基于所述目标外接框，确定所述一个或多个对象的动作轨迹；

获取所述一个或多个对象的动作轨迹对应的目标外接框序列；

基于所述目标外接框序列，确定所述视频中的目标对象。

根据本说明书实施例的第三方面，提供了一种数据处理装置，包括：

需求获取模块，被配置为获取待处理视频；

视频分割模块，被配置为分割所述待处理视频，得到一个或多个原始视频帧；

动作轨迹获取模块，被配置为获取所述一个或多个原始视频帧中所有对象的目标外接框，并基于所述目标外接框确定所有对象的动作轨迹；

对象获取模块，被配置为获取所有对象的动作轨迹对应的目标外接框序列，并基于所述目标外接框序列确定所述视频中的目标对象。

根据本说明书实施例的第四方面，提供了一种图像处理装置，包括：

视频获取模块，被配置为获取待处理视频，其中，所述视频包括视频帧序列；

视频帧获得模块，被配置为获得所述视频帧序列的所有视频帧，其中，所述视频帧包括一个或多个对象；

外接框获取模块，被配置为获取所述一个或多个对象的目标外接框；

轨迹确定模块，被配置为基于所述目标外接框，确定所述一个或多个对象的动作轨迹；

外接框序列获取模块，被配置为获取所述一个或多个对象的动作轨迹对应的目标外接框序列；

目标对象确定模块，被配置为基于所述目标外接框序列，确定所述视频中的目标对象。

根据本说明书实施例的第五方面，提供了一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令：

获取待处理视频；

分割所述待处理视频，得到一个或多个原始视频帧；

根据本说明书实施例的第六方面，提供了一种计算设备，包括：

存储器和处理器；

获取待处理视频，其中，所述视频包括视频帧序列；

获取所述一个或多个对象的目标外接框；

基于所述目标外接框序列，确定所述视频中的目标对象。

根据本说明书实施例的第七方面，提供了一种计算机可读存储介质，其存储有计算机可执行指令，该指令被处理器执行时实现所述数据处理方法或所述图像处理方法的步骤。

根据本说明书实施例的第八方面，提供了一种资产评估方法，包括：

获取待处理视频，且分割所述待处理视频，得到一个或多个原始视频帧；

获取所有对象的动作轨迹对应的目标外接框序列，并基于所述目标外接框序列确定每个对象在所述待处理视频中的面积值；

基于每个对象的面积值与预设资产值实现对所有对象的资产值的评估。

根据本说明书实施例的第九方面，提供了一种资产评估装置，包括：

视频帧获得装置，被配置为获取待处理视频，且分割所述待处理视频，得到一个或多个原始视频帧；

轨迹确定装置，被配置为获取所述一个或多个原始视频帧中所有对象的目标外接框，并基于所述目标外接框确定所有对象的动作轨迹；

面积值确定装置，被配置为获取所有对象的动作轨迹对应的目标外接框序列，并基于所述目标外接框序列确定每个对象在所述待处理视频中的面积值；

评估装置，被配置为基于每个对象的面积值与预设资产值实现对所有对象的资产值的评估。

根据本说明书实施例的第十方面，提供了一种计算设备，包括：

存储器和处理器；

根据本说明书实施例的第十一方面，提供了一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现所述资产评估方法的步骤。

本说明书一个实施例实现了一种数据处理方法及装置、图像处理方法及装置，其中，所述图像处理方法包括将获取包括视频帧序列的待处理视频，然后根据预设的检测方式获得视频帧序列中所有视频帧中的所有对象的精度较高的目标外接框，再基于该目标外接框确定出每个对象的动作轨迹，提高动作轨迹跟踪鲁棒性，最后根据每个对象的动作轨迹对应的目标外接框序列准确的确定出该视频中的目标对象。

附图说明

图1是本说明书一个实施例提供的一种数据处理方法的应用场景的示例图；

图2是本说明书一个实施例提供的一种数据处理方法的流程图；

图3是本说明书一个实施例提供的一种图像处理方法的流程图；

图4是本说明书一个实施例提供的一种图像处理方法中初始外接框以及所述初始外接框的概率值的具体获得过程示意图；

图5是本说明书一个实施例提供的一种图像处理方法在实际场景中对对象的动作轨迹获取过程示意图；

图6是本说明书一个实施例提供的根据图5中的残差图实现对视频帧中下一个对象的动作轨迹获取过程示意图；

图7是本说明书一个实施例提供的实际场景中获取的视频帧中所有对象的动作轨迹示意图；

图8是本说明书一个实施例提供的一种数据处理装置的结构示意图；

图9是本说明书一个实施例提供的一种图像处装置的结构示意图；

图10是本说明书一个实施例提供的第一种计算设备的结构框图；

图11是本说明书一个实施例提供的第二种计算设备的结构框图；

图12是本说明书一个实施例提供的一种资产评估方法的流程图；

图13是本说明书一个实施例提供的一种资产评估装置的结构示意图；

图14是本说明书一个实施例提供的第三种计算设备的结构框图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本说明书内涵的情况下做类似推广，因此本说明书不受下面公开的具体实施的限制。

在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

首先，对本说明书一个或多个实施例涉及的名词术语进行解释。

视频片段：持续一定时间的一段视频，可分解成连续的视频帧(即图像)。

人外接框：一个框，用于标注每个视频帧里人的空间区域。

人检测器：输入一视频帧/图像，输出视频帧/图像里的人外接框。

人跟踪器：输入视频里所有视频帧的外接框，找出每个人的外接框序列。

主体定位器：从视频里每个人对应的外接框序列里，找出对应的动作主体。

全卷积网络：用卷积层作为输出的神经网络。

外接框合理度：一种估值，评价一个外接框作为目标外接框的合理程度。

外接框置信度：一种估值，评价一个外接框作为目标外接框的可信的概率。

在本说明书中，提供了一种数据处理方法、一种图像处理方法。本说明书一个或者多个实施例同时涉及一种数据处理装置、一种图像处理装置，一种资产评估方法，一种资产评估装置，三种计算设备，以及两种计算机可读存储介质，在下面的实施例中逐一进行详细说明。

参见图1和图2，图1示出了根据本说明书一个实施例提供的一种数据处理方法的应用场景的示例图，图2示出了根据本说明书一个实施例提供的一种数据处理方法的流程图。

参见图1，应用场景中包括终端和服务器，具体的，用户通过终端向服务器发送待处理视频，服务器在接收到待处理视频后，通过视频分割器将待处理视频分割为一个或多个原始视频帧，获取所述一个或多个原始视频帧中所有对象的目标外接框，并基于所述目标外接框确定所有对象的动作轨迹，最后获取所有对象的动作轨迹对应的目标外接框序列，并基于所述目标外接框序列确定所述视频中的目标对象，具体处理过程可参见图2中的如下步骤：

步骤202：获取待处理视频。

具体实施时，获取待处理视频以及用户针对待处理视频的需求，其中，所述处理需求为获取该待处理视频中的目标对象，具体的，若待处理视频为电视剧的情况下，该目标对象则可以为该待处理视频中的主演。

步骤204：分割所述待处理视频，得到一个或多个原始视频帧。

步骤206：获取所述一个或多个原始视频帧中所有对象的目标外接框，并基于所述目标外接框确定所有对象的动作轨迹。

具体的，通过人检测器获取所述一个或多个原始视频帧中所有对象的目标外接框。

此外，实际应用中，基于所述目标外接框确定所有对象的动作轨迹具体包括：

S1：把所有视频帧中每个对象的目标外接框放入关联备选集合Objs中；

S2:所有对象的目标外接框轨迹集合Trks设置为空集合，轨迹计数k＝0；

S3：从所有视频帧的第i帧开始，确定第i帧中第j个对象的目标外接框和下一帧所有对象外接框的交并比，其中，所述i∈[1，n]，且所述i、j均为正整数；

S4：判断交并比是否大于等于预设阈值T，

若是，把目标j设定为轨迹k，k加入Trks，Objs中去掉k对应的对象的所有目标外接框，其中，目标j为第j个对象的目标外接框、以及下一帧所有对象外接框的交并比最大的目标外接框，并执行步骤S5，

若否，则将i自增1，执行步骤S3；

S5：判断S1是否为空，若是，则结束，若否，则继续执行S2。

步骤208：获取所有对象的动作轨迹对应的目标外接框序列，并基于所述目标外接框序列确定所述视频中的目标对象。

具体实施时，将所有对象的动作轨迹对应的目标外接框序列中的目标外接框的面积相加，以相加后的所有对象的动作轨迹对应的目标外接框的面积之和确定所述视频中的目标对象。

本说明书实施例提供的数据处理方法包括将获取的视频分割为视频帧序列，然后获得视频帧序列中所有视频帧中的所有对象的精度较高的目标外接框，再基于该目标外接框确定出每个对象的动作轨迹，提高动作轨迹跟踪鲁棒性，最后根据每个对象的动作轨迹对应的目标外接框序列准确的确定出该视频中的目标对象。

参见图3，图3示出了根据本说明书一个实施例提供的一种图像处理方法的流程图，包括步骤302至步骤312。

步骤302：获取待处理视频，其中，所述视频包括视频帧序列。

步骤304：获得所述视频帧序列的所有视频帧，其中，所述视频帧包括一个或多个对象。

其中，获取的待处理视频可以为一个视频片段或者是一个完整视频集，且视频包括但不限于任何类型的视频，例如自媒体短视频、电视剧集、电影、新闻广播、体育专辑节目等。

具体的，获取的待处理视频可以是用户上传的视频，也可以是通过第三方视频平台的安全接口获取的视频。而在待处理视频获取之后，需要将待处理视频分割为视频帧序列，以获得所述视频帧序列的所有视频帧，实际应用中，可以采用任意一种可以将视频分割为单视频帧的分割方式实现对获取的视频的分割，在此不做任何限定。

步骤306：获取所述一个或多个对象的目标外接框。

其中，对象包括但不限于视频中的任意一个物体，例如在视频为新闻类视频的情况下，对象可以为视频中的主持人、被采访人员等所有的入境人员，在视频为动画片的情况下，对象可以为视频中的所有动画角色，在所述视频为电视剧的情况下，对象为视频中所有的演员。

而为了便于理解，本说明书中提及的对象均可以理解为真实的人，具体的可以获取所述一个或多个对象的目标外接框，即为根据预设的检测方式获得所述视频帧序列的所有视频帧中每个人的目标人外接框。

具体的，预设的检测方式包括但不限于任何一种可以获得所述视频帧序列的所有视频帧中每个对象的目标外接框的方式，例如预设的检测方式为通过机器学习得到的人检测器实现获取视频帧序列中所有视频帧的所有人的目标人外接框。

具体实施时，每个对象的目标外接框是根据初始外接框以及初始外接框的概率值融合得到的，具体方式如下：

所述获取所述一个或多个对象的目标外接框包括：

根据预设的检测方式获得所述视频帧序列的所有视频帧中每个对象的初始外接框以及所述初始外接框的概率值；

在所述概率值大于等于预设概率阈值的情况下，将所述初始外接框以及所述初始外接框的概率值输入融合模型进行融合，获得每个对象的目标外接框。

具体的，首先通过检测器获得每个视频帧中每个对象的初始外接框以及每个初始外接框的概率值；

然后分别判断每个初始外接框的概率值是否大于等于预设概率阈值，若是，则将概率值大于等于预设概率阈值的初始外接框与对应的概率值输入融合模型进行融合，获得概率值大于等于预设概率阈值的初始外接框对应的对象的目标外接框；若否，则将将概率值大于等于预设概率阈值的初始外接框以及该初始外接框对应的对象进行删除。其中，预设概率阈值可以根据实际应用进行设置，例如将预设概率阈值设置为0.492或0.53等；初始外接框的概率值越大于预设概率阈值则可以说明该初始外接框中包含对象的概率越大，即包含人的概率越大。

而实际应用中，参见图4，所述根据预设的检测方式获得所述视频帧序列的所有视频帧中的对象的初始外接框以及所述初始外接框的概率值包括：

根据卷积神经网络获得所述视频帧序列的所有视频帧中的对象的初始外接框以及所述初始外接框的概率值。

由上可知，预设的检测方式可以为通过机器学习获得的人检测器，而人检测器则是通过CNN(Convolutional Neural Networks)模型实现对所有视频帧中的对象的初始外接框以及所述初始外接框的概率值的获取。

通过人检测器获得所述视频帧序列的所有视频帧中的对象的初始外接框以及所述初始外接框的概率值的具体处理过程参见图4，图4为每个对象的初始外接框以及所述初始外接框的概率值的具体获得方式，首先将视频帧(图4中的图像)输入CNN模型中，得到视频帧中每个对象的初始外接框(图4中的人检测框)、每个初始外接框的合理度(图4中框的合理度)、每个初始外接框的置信度(图4中框的置信度)，然后将每个初始外接框合理度与置信度相乘，最后将每个初始外接框的合理度与置信度的乘积作为每个初始外接框的概率值(图4中框的概率)，以输出的每个对象的初始外接框以及每个初始外接框的概率值实现后续对目标外接框的获得。

此外，融合模型包括但不限于NMS(Non-maximum suppression，非极大值抑制)算法模型，NMS算法模型的主要目的是为了消除多余的初始外接框，找到更好的对象检测位置。

本说明书实施例中，在实现每个对象的目标外接框获取时，首先根据预设的检测方式获得所述视频帧序列的所有视频帧中每个对象的初始外接框以及所述初始外接框的概率值，然后通过将概率值与预设概率阈值比对，实现对初始外接框的第一次筛选，最后将概率值大于等于预设概率阈值的初始外接框以及所述初始外接框的概率值输入融合模型进行融合，实现对初始外接框的第二次筛选，获得每个对象的目标外接框，以上述两种筛选的方式实现对目标外接框的获得，使得获得的目标外接框的置信度更高。

而本说明书实施例中的所述初始外接框的概率值则是通过如下步骤得到：

根据预设的检测方式获得所述视频帧序列的所有视频帧中每个对象的初始外接框的置信度以及合理度，

且通过所述初始外接框的置信度以及合理度的乘积得到所述初始外接框的概率值，

其中，所述初始外接框的置信度包括所述初始外接框中包含所述对象的概率，所述初始外接框的合理度包括所述初始外接框的中心与所述对象中心的距离。

举例说明，首先根据人检测器获得所有视频帧中每个人的初始外接框的置信度以及合理度，然后将每个人的初始外接框的置信度以及合理度进行相乘，将其乘积作为每个人的初始外接框的概率值，即每个初始外接框的概率分数。

而初始外接框的置信度是初始外接框的分类分数，描述初始外接框里面包含人的概率；初始外接框的合理度是初始外接框的中心接近人中心的程度，描述初始外接框的准确度。

本说明书实施例中，通过这种乘积的方式获得初始外接框的概率值，并根据初始外接框以及通过此种方式得到的初始外接框的概率值，获得目标外接框，可以极大的提高目标外接框的置信度，并且使得目标外接框更接近包含对象，即更加确定目标外接框中包含人，并且目标外接框与人更加贴合。

步骤308：基于所述目标外接框，确定所述一个或多个对象的动作轨迹。

步骤310：获取所述一个或多个对象的动作轨迹对应的目标外接框序列。

具体的，所述基于所述目标外接框，确定所述一个或多个对象的动作轨迹包括：

基于所述视频帧序列的所有视频帧中每个对象的目标外接框与前后视频帧之间的关联关系确定每个对象的动作轨迹。

例如，基于所述视频帧序列的当前视频帧中每个对象的目标外接框与前后视频帧之间的关联关系确定每个对象的动作轨迹。

其中，当前帧则为当前视频帧，下一帧则为下一个视频帧，当前帧的下一帧可以是与当前帧紧邻的下一帧，也可以是与当前帧存在间隔视频帧的下一帧。例如视频A分割为视频帧1、视频帧2和视频帧3，若视频帧1为当前帧，则视频帧2以及视频帧3均可以为视频帧1的下一帧。

具体实施时，基于所述视频帧序列的所有视频帧中每个对象的目标外接框与前后视频帧之间的关联关系确定每个对象的动作轨迹具体包括如下步骤：

S1：从当前帧开始，确定所述当前帧中第i个对象的目标外接框以及所述下一帧中具有所述第i个对象的目标外接框，其中，所述当前帧为所述视频帧序列中的任意一帧，所述i∈[1，n]，且所述i为正整数；

S2：基于所述当前帧中第i个对象的目标外接框以及所述下一帧中具有所述第i个对象的目标外接框的关联关系，确定出所述第i个对象的动作轨迹；

S3：判断i是否大于n，

若是，则结束，

若否，则将i自增1，执行步骤S1。

沿用上例，视频A分割为视频帧1至视频帧3，当前视频帧为视频帧1。

步骤一：确定视频帧1中第1个对象a的目标外接框以及具有对象a的下一视频帧2中对象a的目标外接框；

步骤二：基于视频帧1中第1个对象a的目标外接框以及视频帧2中对象a的目标外接框的关联关系，确定出对象a的动作轨迹；

步骤三：判断对象a是否是视频帧1中最后一个对象，若是，则结束，然后将视频帧2中的每个对象均以上述步骤确定出每个对象的动作轨迹；若否，则继续对视频帧1中的对象a的下一个对象按照上述方式确定出动作轨迹。

实际应用中，要先确定出下一帧中具有当前帧的第i个对象的目标外接框，才可以实现对当前帧的第i个对象的动作轨迹的获取，例如要先确定出视频帧2中是否存在对象a，具体处理方式如下：

所述确定所述下一帧中具有所述第i个对象的目标外接框包括：

确定所述当前帧中第i个对象的目标外接框与所述下一帧中每个对象的目标外接框的交并比；

判断是否存在大于等于预设阈值的交并比，

若是，则基于所述交并比确定出所述下一帧中具有所述第i个对象的目标外接框。

其中，预设阈值可以根据实际需求设置，在此不做任何限定。具体的，若i个对象的目标外接框与所述下一帧中每个对象的目标外接框的交并比中存在大于等于预设阈值的交并比，则说明所述下一帧中存在包含第i个对象的目标外接框；若不存在，则说明所述下一帧中不存在包含第i个对象的目标外接框，此时则可以基于所述当前帧中第i个对象的目标外接框与下下帧中每个对象的目标外接框的交并比确定第i个对象的动作轨迹，具体处理过程仍如上所述。

此外，在确定当前帧的下一帧时，还要先判断当前帧中的对象是否存在下一帧中，以实现下一帧的确定；以上述为例，要先确定出视频帧2中是否包含当前帧中第i个对象a，若是，则将视频帧2作为下一帧；

若否，则确定视频帧3中是否包含当前帧中的第i个对象a；

若是，则将视频帧3作为下一帧；

若否，则结束。

本说明书实施例中，在对每个对象的动作轨迹获取时，是通过将分割后的第一个视频帧中的每个对象的目标外接框与第一个视频帧之后的每个视频帧中的每个对象的目标外接框进行匹配之后得到的。

而在具体实施时，为了避免太多的动作轨迹对下一个对象动作轨迹的获取造成影响，在每确定一个对象的动作轨迹之后，均会将该对象的动作轨迹进行记录后删除，具体如下所述：

所述基于所述当前帧中第i个对象的目标外接框以及所述下一帧中具有所述第i个对象的目标外接框的关联关系，确定出所述第i个对象的动作轨迹之后，还包括：

删除所述第i个对象的动作轨迹。

参见图5-图7，图5至图7对所有视频帧中每个对象的目标外接框使用人跟踪器采用全局图贪婪算法，逐次找出每个对象的动作轨迹跟踪最优解。

参见图5，图5为实际应用场景中，在视频帧中确定一个对象的动作轨迹的具体处理过程示意图。

步骤一：建立包含所有数据关联假设的图。

具体的，以视频被分割为三个视频帧：视频帧A、视频帧B、视频帧C为例，每个视频帧包括三个对象，其中，视频帧A中包括对象a1、对象a2、对象a3，视频帧B中包括对象b1、对象b2、对象b3，视频帧C中包括对象c1、对象c2、对象c3。

首先建立视频帧A中对象a1、对象a2、对象a3分别与视频帧B中对象b1、对象b2、对象b3的关联关系，以及视频帧B中对象b1、对象b2、对象b3分别与视频帧C中对象c1、对象c2、对象c3的关联关系，实现对象关联关系图的创建；即将每个视频帧中的每个对象均与下个视频帧中所有对象相连，使得每个视频帧中的每个对象均与下个视频帧的对象之间形成三条边。

步骤二：在当前所有数据关联假设中，找到结果轨迹。

具体的，以视频帧A中对象a1为例，首先确定出视频帧A中对象a1的目标外接框分别与视频帧B中对象b1、对象b2、对象b3的目标外接框的交并比，确定出视频帧A中对象a1的目标外接框与视频帧B中对象b2的目标外接框的交并比最大，则可以确定视频帧B中对象b2的目标外接框为具有视频帧A中对象a1的目标外接框，即对象a1在视频帧B中是对象b2，然后再以上述方式确定出对象a1在视频帧C中的对象c3，最后将对象a1到对象b2的边以及对象b2到对象c3的边作为对象a1的结果动作轨迹，而每个对象的结果动作轨迹即表征每个对象的动作轨迹。

步骤三：提取结果轨迹，存入解空间。

具体的，将对象a1到对象b2的边以及对象b2到对象c3的边提取出来，作为对象a1的结果动作轨迹，存入解空间，其中，解空间是指齐次线性方程组所有解的集合构成一个向量空间，也就是一个集合。

步骤四：在数据关联假设图中去掉上次的结果轨迹，获得残差图。

具体的，为了更加清晰、准确的对视频A中对象a2的结果动作轨迹的获取，则在对象关联关系图中删除对象a1的结果动作轨迹，获得排除对象a1的结果动作轨迹之后的残差图，避免在提取a2的结果动作轨迹时进行重复的操作，快捷准确的完成对其他对象结果动作轨迹的获取。

参见图6，图6为根据图5中的残差图实现对视频帧中下一个对象的结果动作轨迹的获取。

仍以上述为例，在图5的残差图中，重复上述步骤一至步骤四，获得本次对象a3的结果动作轨迹【对象a3、对象b1、对象c2】以及新的残差图，直至获得所有对象的结果动作轨迹。

参见图7，图7为视频帧中所有对象的动作轨迹，即动作轨迹track1【对象a1、对象b2、对象c3】、动作轨迹track2【对象a3、对象b1、对象c2】、以及动作轨迹track3【对象a2、对象b3、对象c1】。

本说明书实施例中，如图5至图7，实际应用中，基于跟踪器采用全局图贪婪算法，逐次找出轨迹跟踪最优解，所有对象检测表示成一个节点，不同视频帧间所有可能组成轨迹的检测以一条边连接，形成所有对象的关联假设图。然后根据所有对象的关联假设图，找某个对象与下一个视频帧中对象的关联，作为该对象当前提取出的结果动作轨迹，存储并删除关联假设图中的这条轨迹，行成残差图，用于下次迭代和其他对象的轨迹搜索。在每次迭代中重复上述步骤一至步骤四，找到本次迭代的结果动作轨迹和残差图，在完成所有迭代后，收集所有对象的轨迹。采用此种方式获取对象的动作轨迹的方式的优点是：(至少基于全局图贪婪算法)每次都能找到全局最优动作轨迹，提高鲁棒结果；并且无需额外参数设置，例如最大轨迹数，方便推广。

步骤312：基于所述目标外接框序列，确定所述视频中的目标对象。

本说明书另一实施例中，所述基于所述目标外接框序列，确定所述视频中的目标对象包括：

确定每个对象的动作轨迹对应的目标外接框序列中的所有目标外接框的面积之和；

基于所有目标外接框的面积之和对所有对象的动作轨迹进行排序，并根据排序结果确定所述视频中的目标对象。

具体实施时，所述根据排序结果确定所述视频中的目标对象包括：

根据排序结果确定排序最高的动作轨迹，将所述排序最高的动作轨迹对应的对象确定为所述视频中的目标对象。

实际使用中，还可以基于视频中的对象确定待处理视频的类别，例如确定出的视频中的对象中男女主角的占据的面积较大，则可以认为该视频的类型为情感类型，若确定出的视频中的对象中武器等占据的面积较大，则可以认为该视频的类型为战争类型等，具体的视频类型确定还需要基于检测出的视频中的对象以及对象的面积确定，在此不做任何限定。

本说明书实施例中，在获取到每个对象的动作轨迹之后，确定出每个对象的动作轨迹对应的目标外接框序列，然后将该目标外接框序列中的目标外接框的面积进行相加，然后以目标外接框序列中目标外接框的面积之和最大的目标外接框序列对应的对象作为目标对象；采用面积之和的方式更加简单的确定出目标对象，无需特殊算法，使得图像处理方法的处理过程更加便捷、快读，可以极大的提高工作效率。

实际应用中，一般视频中的主角在视频中占据的视频帧以及近镜头较多，采用对象的动作轨迹中的目标外接框的面积之和确定目标对象是比较合理，并且更为便捷的，因此本说明书中的目标对象的确定方式更为可靠和准确。

与上述方法实施例相对应，本说明书还提供了数据处理装置实施例，图8示出了本说明书一个实施例提供的一种数据处理装置的结构示意图。如图8所示，该装置包括：

需求获取模块802，被配置为获取待处理视频；

视频分割模块804，被配置为分割所述待处理视频，得到一个或多个原始视频帧；

动作轨迹获取模块806，被配置为获取所述一个或多个原始视频帧中所有对象的目标外接框，并基于所述目标外接框确定所有对象的动作轨迹；

对象获取模块808，被配置为获取所有对象的动作轨迹对应的目标外接框序列，并基于所述目标外接框序列确定所述视频中的目标对象。

上述为本实施例的一种数据处理装置的示意性方案。需要说明的是，该数据处理装置的技术方案与上述的数据处理方法的技术方案属于同一构思，数据处理装置的技术方案未详细描述的细节内容，均可以参见上述数据处理方法的技术方案的描述。

与上述方法实施例相对应，本说明书还提供了图像处理装置实施例，图9示出了本说明书一个实施例提供的一种图像处理装置的结构示意图。如图9所示，该装置包括：

视频获取模块902，被配置为获取待处理视频，其中，所述视频包括视频帧序列；

视频帧获得模块904，被配置为获得所述视频帧序列的所有视频帧，其中，所述视频帧包括一个或多个对象；

外接框获取模块906，被配置为获取所述一个或多个对象的目标外接框；

轨迹确定模块908，被配置为基于所述目标外接框，确定所述一个或多个对象的动作轨迹；

外接框序列获取模块910，被配置为获取所述一个或多个对象的动作轨迹对应的目标外接框序列；

目标对象确定模块912，被配置为基于所述目标外接框序列，确定所述视频中的目标对象。

可选的，所述外接框获取模块910，进一步被配置为：

可选的，所述初始外接框的概率值通过如下步骤得到：

其中，所述初始外接框的置信度包括所述初始外接框中包含所述对象的概率，所述初始外接框的合理度包括所述初始外接框的中心与所述对象中心的接近的程度。

可选的，所述轨迹确定模块908，进一步被配置为：

S3：判断i是否大于n，

若是，则结束，

若否，则将i自增1，执行步骤S1。

可选的，所述轨迹确定模块908，进一步被配置为：

判断是否存在大于等于预设阈值的交并比，

可选的，所述装置，还包括：

删除模块，被配置为删除所述第i个对象的动作轨迹。

可选的，所述目标对象确定模块912，进一步被配置为：

可选的，所述外接框获取模块906，进一步被配置为：

本说明书实施例提供的图像处理装置包括将获取的视频分割为视频帧序列，然后根据预设的检测方式获得视频帧序列中所有视频帧中的所有对象的精度较高的目标外接框，再基于该目标外接框确定出每个对象的动作轨迹，提高动作轨迹跟踪鲁棒性，最后根据每个对象的动作轨迹对应的目标外接框序列准确的确定出该视频中的目标对象。

上述为本实施例的一种图像处理装置的示意性方案。需要说明的是，该图像处理装置的技术方案与上述的图像处理方法的技术方案属于同一构思，图像处理装置的技术方案未详细描述的细节内容，均可以参见上述图像处理方法的技术方案的描述。

图10示出了根据本说明书一个实施例提供的第一种计算设备1000的结构框图。该计算设备1000的部件包括但不限于存储器1010和处理器1020。处理器1020与存储器1010通过总线1030相连接，数据库1050用于保存数据。

计算设备1000还包括接入设备1040，接入设备1040使得计算设备1000能够经由一个或多个网络1060通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备1040可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本说明书的一个实施例中，计算设备1000的上述部件以及图10中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图10所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备1000可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备1000还可以是移动式或静止式的服务器。

其中，处理器1020用于执行如下计算机可执行指令：

获取待处理视频；

分割所述待处理视频，得到一个或多个原始视频帧；

上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的数据处理方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述数据处理方法的技术方案的描述。

图11示出了根据本说明书一个实施例提供的第二种计算设备1100的结构框图。该计算设备1100的部件包括但不限于存储器1110和处理器1120。处理器1120与存储器1110通过总线1130相连接，数据库1150用于保存数据。

计算设备1100还包括接入设备1140，接入设备1140使得计算设备1100能够经由一个或多个网络1060通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备1140可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本说明书的一个实施例中，计算设备1100的上述部件以及图11中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图11所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备1100可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备1100还可以是移动式或静止式的服务器。

其中，处理器1120用于执行如下计算机可执行指令：

获取待处理视频，其中，所述视频包括视频帧序列；

获取所述一个或多个对象的目标外接框；

基于所述目标外接框序列，确定所述视频中的目标对象。

上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的图像处理方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述图像处理方法的技术方案的描述。

本说明书一实施例还提供一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时以用于实现所述数据处理方法或所述图像处理方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的数据处理方法或图像处理方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述数据处理方法或图像处理方法的技术方案的描述。

参见图12，图12示出了根据本说明书一个实施例提供的一种资产评估方法的流程图，包括步骤1202至步骤1208。

步骤1202：获取待处理视频，且分割所述待处理视频，得到一个或多个原始视频帧。

步骤1204：获取所述一个或多个原始视频帧中所有对象的目标外接框，并基于所述目标外接框确定所有对象的动作轨迹。

步骤1206：获取所有对象的动作轨迹对应的目标外接框序列，并基于所述目标外接框序列确定每个对象在所述待处理视频中的面积值。

其中，步骤1202至步骤1206的具体处理方式可参见上述图像处理方法的实施例，在此不再赘述。

具体的，所述基于所述目标外接框序列确定每个对象在所述待处理视频中的面积值包括：

确定每个对象的动作轨迹对应的目标外接框序列中的所有目标外接框的面积之和，所述面积之和表征每个对象在所述待处理视频中的面积值。

举例说明，对象c的动作轨迹对应的目标外接框序列【c1、c2】，则对象c在待处理视频中的面积值则为c1和c2的目标外接框的面积之和。

步骤1208：基于每个对象的面积值与预设资产值实现对所有对象的资产值的评估。

具体实施时，所述基于每个对象的面积值与预设资产值实现对所有对象的资产值的评估包括：

基于每个对象的面积值对所有对象排序，得到第一排序结果；

基于每个对象的预设资产值对所有对象排序，得到第二排序结果；

判断所述第一排序结果与所述第二排序结果是否匹配，

若是，则确定对象的资产值合理。

此外，在所述第一排序结果与所述第二排序结果不匹配的情况下，则说明对象的资产值不合理，需要通过资产数据库中的资产负债表中面积值与资产值的关联关系重新确定对象的资产值。

实际应用中，对象的资产值可以理解为对象的价值，例如对象为视频中的演员，则该对象的资产值可以是视频制作方支付给该演员的费用，即该演员在该视频中的价值。

实际应用中，预设资产值为对象的实际资产值，即实际价值，具体实施时，对象在视频中占据的面积越大，其对应的资产值应该越高，若对象的面积值较大，而实际资产值较低，那么则该对象的资产值不合理，可能需要重新调整。

举例说明，待处理视频中包括对象1、对象2和对象3，其中，对象1在待处理视频中的面积值为30m²，对象2在待处理视频中的面积值为20m²，对象3在待处理视频中的面积值为50m²，而对象1的实际资产值为20W，对象2的实际资产值为30W，对象3的实际资产值为25W，那么可以明显看出对象3在待处理视频中的面积值最大，但是对象3的实际资产值则不是最高，而对象2在待处理视频中的面积值最小，但是对象2的实际资产值最高，此时可以确定对象2以及对象3的资产值分配不合理，需要进行重新调整。

那么在具体实施时，则可以基于每个对象在所述待处理视频中的面积值与资产数据库中资产值的匹配关系，确定每个对象的目标资产值。

其中，资产数据库中包括面积值与资产值存在关联关系的资产表，具体的，在获得每个对象在所述待处理视频中的面积值之后，基于该资产表就可以得到与每个对象在所述待处理视频中的面积值对应的目标资产值。

本说明书另一实施例中，若仅需要根据对象的面积值获取该对象对应的资产值的情况下，可以直接基于资产表实现对对象的资产值的获取，具体如下：

所述获取所有对象的动作轨迹对应的目标外接框序列，并基于所述目标外接框序列确定每个对象在所述待处理视频中的面积值之后，还包括：

基于每个对象在所述待处理视频中的面积值与资产数据库中资产值的匹配关系，确定每个对象的目标资产值。

例如对象为广告，则可以基于该广告在视频中的面积收取该广告的广告费等。

本说明书实施例提供的资产评估方法可以基于对象在待处理视频中占据的面积值评估对象的资产值是否合理，可以起到对对象的资产的审计作用，避免出现不合理的现象，用户体验好，并且还可以直接基于对象在待处理视频中占据的面积值确定对象的实际资产值，资产确定方便便捷。

参见图13，图13示出了根据本说明书一个实施例提供的一种资产评估装置，包括：

视频帧获得装置1302，被配置为获取待处理视频，且分割所述待处理视频，得到一个或多个原始视频帧；

轨迹确定装置1304，被配置为获取所述一个或多个原始视频帧中所有对象的目标外接框，并基于所述目标外接框确定所有对象的动作轨迹；

面积值确定装置1306，被配置为获取所有对象的动作轨迹对应的目标外接框序列，并基于所述目标外接框序列确定每个对象在所述待处理视频中的面积值；

评估装置1308，被配置为基于每个对象的面积值与预设资产值实现对所有对象的资产值的评估。

可选的，所述面积值确定装置1306，进一步被配置为：

可选的，所述评估装置1308，进一步被配置为：

判断所述第一排序结果与所述第二排序结果是否匹配，

若是，则确定对象的资产值合理。

可选的，所述装置，还包括：

目标资产值确定模块，被配置为基于每个对象在所述待处理视频中的面积值与资产数据库中资产值的匹配关系，确定每个对象的目标资产值。

上述为本实施例的一种资产评估装置的示意性方案。需要说明的是，该资产评估装置的技术方案与上述的资产评估方法的技术方案属于同一构思，资产评估装置的技术方案未详细描述的细节内容，均可以参见上述资产评估方法的技术方案的描述。

图14示出了根据本说明书一个实施例提供的第三种计算设备1400的结构框图。该计算设备1400的部件包括但不限于存储器1410和处理器1420。处理器1420与存储器1410通过总线1430相连接，数据库1450用于保存数据。

计算设备1400还包括接入设备1440，接入设备1440使得计算设备1400能够经由一个或多个网络1460通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备1440可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本说明书的一个实施例中，计算设备1400的上述部件以及图14中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图14所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备1400可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备1400还可以是移动式或静止式的服务器。

其中，处理器1420用于执行如下计算机可执行指令：

上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的资产评估方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述资产评估方法的技术方案的描述。

本说明书一实施例还提供一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时以用于实现所述资产评估方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的资产评估方法或图像处理方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述资产评估方法的技术方案的描述。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本说明书实施例并不受所描述的动作顺序的限制，因为依据本说明书实施例，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本说明书实施例所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书实施例的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本说明书实施例的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种数据处理方法，包括：

获取待处理视频；

分割所述待处理视频，得到一个或多个原始视频帧；

2.一种图像处理方法，包括：

获取待处理视频，其中，所述视频包括视频帧序列；

获取所述一个或多个对象的目标外接框；

基于所述目标外接框序列，确定所述视频中的目标对象。

3.根据权利要求2所述的图像处理方法，所述获取所述一个或多个对象的目标外接框包括：

4.根据权利要求3所述的图像处理方法，所述初始外接框的概率值通过如下步骤得到：

5.根据权利要求2所述的图像处理方法，所述基于所述目标外接框，确定所述一个或多个对象的动作轨迹包括：

6.根据权利要求2所述的图像处理方法，所述基于所述视频帧序列的所有视频帧中每个对象的目标外接框与前后视频帧之间的关联关系确定每个对象的动作轨迹包括：

S3：判断i是否大于n，

若是，则结束，

若否，则将i自增1，执行步骤S1。

7.根据权利要求6所述的图像处理方法，所述确定所述下一帧中具有所述第i个对象的目标外接框包括：

判断是否存在大于等于预设阈值的交并比，

8.根据权利要求6所述的图像处理方法，所述基于所述当前帧中第i个对象的目标外接框以及所述下一帧中具有所述第i个对象的目标外接框的关联关系，确定出所述第i个对象的动作轨迹之后，还包括：

删除所述第i个对象的动作轨迹。

9.根据权利要求2所述的图像处理方法，所述基于所述目标外接框序列，确定所述视频中的目标对象包括：

10.根据权利要求9所述的图像处理方法，所述根据排序结果确定所述视频中的目标对象包括：

11.根据权利要求3所述的图像处理方法，所述根据预设的检测方式获得所述视频帧序列的所有视频帧中的对象的初始外接框以及所述初始外接框的概率值包括：

12.一种数据处理装置，包括：

需求获取模块，被配置为获取待处理视频；

13.一种图像处理装置，包括：

14.一种计算设备，包括：

存储器和处理器；

获取待处理视频；

分割所述待处理视频，得到一个或多个原始视频帧；

15.一种计算设备，包括：

存储器和处理器；

获取待处理视频，其中，所述视频包括视频帧序列；

获取所述一个或多个对象的目标外接框；

基于所述目标外接框序列，确定所述视频中的目标对象。

16.一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现权利要求1所述数据处理方法或实现权利要求2-11所述图像处理方法的步骤。

17.一种资产评估方法，包括：

18.根据权利要求17所述的资产评估方法，所述基于所述目标外接框序列确定每个对象在所述待处理视频中的面积值包括：

19.根据权利要求18所述的资产评估方法，所述基于每个对象的面积值与预设资产值实现对所有对象的资产值的评估包括：

判断所述第一排序结果与所述第二排序结果是否匹配，

若是，则确定对象的资产值合理。

20.根据权利要求17所述的资产评估方法，所述获取所有对象的动作轨迹对应的目标外接框序列，并基于所述目标外接框序列确定每个对象在所述待处理视频中的面积值之后，还包括：

21.一种资产评估装置，包括：

22.一种计算设备，包括：

存储器和处理器；

23.一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现权利要求17-20所述资产评估方法的步骤。