CN116193193A

CN116193193A - 一种视频处理方法及装置

Info

Publication number: CN116193193A
Application number: CN202211697831.XA
Authority: CN
Inventors: 王军鹏; 李文成; 李煜; 卢隆; 钱翔; 陈岩; 李永; 张家旺; 晋丹; 黄允
Original assignee: Tianyi Cloud Technology Co Ltd
Current assignee: Tianyi Cloud Technology Co Ltd
Priority date: 2022-12-28
Filing date: 2022-12-28
Publication date: 2023-05-30

Abstract

本发明提供了一种视频处理方法及装置，获取待处理视频，提取待处理视频的静态背景信息以及多个动态对象信息，通过预设的画像识别网络，确定动态对象信息对应的画像信息，响应于用户获取视频的请求，根据用户的权限，从多个画像信息中筛选目标画像信息；将得到的静态背景信息，与目标画像信息对应的动态对象信息合成为目标视频，将目标视频提供给用户，使得根据不同的用户对应的不同权限，可以筛选出每个用户对应的画像信息，实现对于不同的用户合成不同的视频，将待处理视频中用户没有权限的动态对象信息隐去，使得目标视频为针对具体用户的视频，有效保护了待处理视频的隐私信息，同时使得待处理视频得到了有效利用。

Description

一种视频处理方法及装置

技术领域

本发明实施例涉及人工智能领域，尤其涉及一种视频处理方法、装置、电子设备及可读存储介质。

背景技术

摄像头或记录仪越来越多的利用在日常生活中，固定位置的摄像头可以记录固定场景的信息。

相关技术中，当需要将摄像头拍摄的内容分享给不同的对象时，仅能将摄像头拍摄的全部内容进行分享。

上述的分享方式，使得拍摄的内容包括很多无关的信息或敏感信息，导致隐私泄露问题的发生，以及视频使用效率的低下。

发明内容

鉴于上述问题，提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种视频处理方法、装置、电子设备及可读存储介质。

第一方面，本申请实施例公开了一种视频处理方法，所述方法包括：

获取待处理视频，所述待处理视频为固定场景的视频；

从所述待处理视频中提取静态背景信息以及多个动态对象信息；

将所述多个动态对象信息分别输入预先训练的画像识别网络，输出所述多个动态对象信息各自对应的画像信息；

响应于用户获取视频的请求，根据用户的权限，从所述多个画像信息中筛选目标画像信息；

将所述静态背景信息，与所述目标画像信息对应的动态对象信息合成为目标视频，将所述目标视频提供给用户。

第二方面，本申请实施例公开了一种视频处理装置，所述装置包括：

第一获取模块，用于获取待处理视频，所述待处理视频为固定场景的视频；

提取模块，用于从所述待处理视频中提取静态背景信息以及多个动态对象信息；

画像识别模块，用于将所述多个动态对象信息分别输入预先训练的画像识别网络，输出所述多个动态对象信息各自对应的画像信息；

筛选模块，用于响应于用户获取视频的请求，根据用户的权限，从所述多个画像信息中筛选目标画像信息；

合成模块，用于将所述静态背景信息，与所述目标画像信息对应的动态对象信息合成为目标视频，将所述目标视频提供给用户。

第三方面，本申请实施例还公开了一种电子设备，包括处理器和存储器、所述存储器存储可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如第一方面所述的视频处理方法的步骤。

第四方面，本申请实施例还公开了一种可读存储介质，所述可读存储介质上存储有程序或指令，所述程序或指令被处理器执行时实现如第一方面所述的视频处理方法的步骤。

本申请实施例中，获取待处理视频，提取待处理视频的静态背景信息以及多个动态对象信息，通过预设的画像识别网络，确定动态对象信息对应的画像信息，响应于用户获取视频的请求，根据用户的权限，从多个画像信息中筛选目标画像信息；将得到的静态背景信息，与目标画像信息对应的动态对象信息合成为目标视频，将目标视频提供给用户，使得根据不同的用户对应的不同权限，可以筛选出每个用户对应的画像信息，实现对于不同的用户合成不同的视频，将待处理视频中用户没有权限的动态对象信息隐去，使得目标视频为针对具体用户的视频，有效保护了待处理视频的隐私信息，同时使得待处理视频得到了有效利用。

附图说明

图1是本发明实施例提供的一种视频处理方法的步骤流程图；

图2是本发明实施例提供的又一种视频处理方法的步骤流程图；

图3是本发明实施例提供的一种画像识别网络结构图；

图4是本发明实施例提供的一种目标视频生成流程图；

图5是本发明实施例提供的一种视频处理装置；

图6是本发明实施例提供的一种电子设备的框图；

图7是本发明另一个实施例的另一种电子设备的框图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

参考图1，其示出了本申请实施例提供的一种视频处理方法，所述方法包括：

步骤101，获取待处理视频，所述待处理视频为固定场景的视频。

在本发明实施例中，待处理视频可以为固定拍摄角度的摄像机或记录仪等设备拍摄的视频，待处理视频可以为目标视频数据可以是由一组连续的图像构成的连续的图像序列，待处理视频可以是avi(Audio Video Interleaved，音频视频交错格式)、mp4(MovingPicture Experts Group 4，动态图像专家组)等格式。例如：待处理视频可以为商户门口的摄像机采集的视频或公共区域的摄像头采集的视频。

步骤102，从所述待处理视频中提取静态背景信息以及多个动态对象信息。

在本发明实施例中，对于设置在固定位置的摄像头，其拍摄的视频中的背景也为固定背景，因此可以从待处理视频中提取静态背景信息。同时提取多种动态对象信息，动态对象信息可以为待处理视频中出现的人、动物、车辆等信息。具体地，待处理视频中出现的一个行人可以提取为一个动态对象信息，一辆车也可以提取为一个动态对象信息，对于待处理视频中出现的每一个单独的个体，均可以单独提取为一段动态对象信息。动态对象信息可以为仅包含一个动态对象的图像序列。将静态背景信息与动态对象信息分别提取后，可以基于不同的需求，对待处理视频进行合成，提供给不同的用户。

步骤103，将所述多个动态对象信息分别输入预先训练的画像识别网络，输出所述多个动态对象信息各自对应的画像信息。

在本发明实施例中，对于每一个动态对象，可以通过画像识别网络，确定动态对象对应的画像信息，例如：通过对某一个行人的动态对象信息的分析，确定该行人对应的画像特征可以包括：特殊职业特征如：职业如警察、消防员和军人等；一般性特征，如性别、年龄段、是否背包等；姿态类特征，如走路步伐、走路频率等；行为类特征，如肢体冲突、徘徊等。

进一步地，可以预先对画像识别网络的特征类别进行定义，使得画像识别网络可以覆盖多种不同的画像特征。例如：通过对行人1的某一段动态对象信息识别后，确定该行人对应的画像特征包括：男、老人、背包、普通行人、走路缓慢等。在后续对待处理视频分析时，可以通过判断用户权限内的画像特征与该段动态对象信息进行匹配，确定该用户是否有权限获取到行人1对应的动态对象信息。进而保护待处理视频中的动态对象信息的隐私性。

步骤104，响应于用户获取视频的请求，根据用户的权限，从所述多个画像信息中筛选目标画像信息。

在本发明实施例中，对于不同的用户可以设置不同的权限，不同的权限对应不同的画像信息，例如：用户A权限内的画像信息为一般性特征，那么画像信息包括特殊职业的动态对象信息在用户A对应的目标视频中将隐去。

具体地，可以将用户的权限分为不同的等级，每个等级可以查看对应的限制后的动态对象信息。建立每个动态对象的特征画像{f₁,2,…,_N}后，将目标画像信息与用户级别进行对应。例如：对应规则为：为用户级别A建立每个画像信息的取值范围。对于某个具体动态对象，若其每个画像特征的值均在取值范围内，则认为该动态对象信息是对应级别A的用户可见的。通过建立不同的用户等级对应不同的权限范围，使得待处理视频中的部分内容可以不对没有权限的人展示，有效保护了待处理视频的隐私性，同时，使得待处理视频得到了合理的利用。

步骤105，将所述静态背景信息，与所述目标画像信息对应的动态对象信息合成为目标视频，将所述目标视频提供给用户。

在本发明实施例中，获得用户的权限对应的目标画像信息后，提取中动态画像信息的图像序列以及时空结构化信息，根据动态对象的出现时间及位置信息，在重生成的目标视频中进行动态对象的放置。由于动态对象存储时保留了它在原始的待处理视频的时间及位置信息，因此重建时可以将动态对象按时间及位置精准还原。得到合成的目标视频后，可以将目标视频发送给对应权限的用户。由于目标视频已经过隐私保护处理，安全性得到足够保障。

综上，本申请实施例中，获取待处理视频，提取待处理视频的静态背景信息以及多个动态对象信息，通过预设的画像识别网络，确定动态对象信息对应的画像信息，响应于用户获取视频的请求，根据用户的权限，从多个画像信息中筛选目标画像信息；将得到的静态背景信息，与目标画像信息对应的动态对象信息合成为目标视频，将目标视频提供给用户，使得根据不同的用户对应的不同权限，可以筛选出每个用户对应的画像信息，实现对于不同的用户合成不同的视频，将待处理视频中用户没有权限的动态对象信息隐去，使得目标视频为针对具体用户的视频，有效保护了待处理视频的隐私信息，同时使得待处理视频得到了有效利用。

参考图2，其示出了本申请实施例提供的另一种视频处理方法的步骤流程图，包括：

步骤201，获取待处理视频，所述待处理视频为固定场景的视频。

此步骤可参考步骤101，此处不再赘述。

步骤202，从所述待处理视频中提取静态背景信息以及多个动态对象信息。

此步骤可参考步骤101，此处不再赘述。

可选地，步骤202具体包括：

子步骤2021，从所述待处理视频中获取多张背景图像，所述多张背景图像均处于预设的时间区间。

在本发明实施例中，在从待处理视频中提取静态背景信息时，可以截取待处理视频中的一个视频片段，视频片段的长度可以为3分钟或5分钟或其他时间长度，从视频片段中按照时间顺序抽取多张背景图像，通过多张背景图像可以还原待处理视频的静态背景信息。

子步骤2022，获取每张背景图像的像素点值。

在本发明实施例中，在获取到多张背景图像后，可以对每张背景图像的像素点值计算，通过遍历背景图像获得背景图像对应的所有像素点的像素点值，若多张背景图像中相同位置的像素点值均相同，则认为该像素点可能为背景图像的像素点值，通过对多张背景图像的像素点值的比较，可以确定背景图像每一个像素点值，进而合成背景图像。

子步骤2023，根据所述像素点值，确定所述多张背景图像中的像素点值众数。

在本发明实施例中，若背景图像有10张，那么通过对同一位置的像素点值的比较，可以确定背景图像中该位置的像素点值，由于背景图像为静态，因此，在背景图像中属于实际背景的像素点值在多张背景图像中应当为同一个值。例如对于背景图像中第一行像素点中第三个像素点值，在10张背景图像中，有8张背景图像中第一行像素点中第三个像素点值对应为A，2张背景图像中第一行像素点中第三个像素点值对应为B，那么可以取10个值中的众数，即A作为实际的背景图像中第一行像素点中第三个像素点的值。

子步骤2024，根据所述像素点值众数，确定所述静态背景信息。

在本发明实施例中，通过对多张背景图像中每个像素点值的逐一比较，可以得到每个像素点的像素点值的众数，将每个像素点值的取值众数作为该像素点得像素点值。通过得到的每一个像素点的值，可以确定实际背景图像，即静态背景信息。另外，还可以使用前后景分割方法对获得的背景图像进行前景和后景的目标提取，通过多张提取的背景图像，也可以合成最终的静态背景信息，本发明实施例在此不做限定。

可选地，步骤202具体包括：

子步骤2025，通过目标检测算法，获取所述待处理视频中的动态对象。

在本发明实施例中，目标检测即为检测出图像中所有感兴趣的目标，在本申请中，目标可以为动态对象，即人物、动物、车辆等。目标检测算法可以为Two Stage类型的目标检测算法或One Stage类型的目标检测算法，本发明实施例在此不做限定。

可选地，子步骤2025具体包括：

子步骤20251，通过目标检测算法，检测所述待处理视频中的所有动态对象。

在本发明实施例中，对于待处理视频的每一帧图像，目标检测算法可以通过对待处理视频的每一帧图像的识别，确定每一张图像中包括的所有动态对象。

子步骤20252，将检测到的动态对象通过框体进行第一标记。

在本发明实施例中，检测到的动态对象可以通过框体进行第一标记，具体地，可以通过RPN(region proposal networks，区域候选网络)获取动态对象对应的框体。具体地，RPN网络可以包括：卷积层，将原始图像先经过多层卷积神经网络，提取出特征图。RPN层用于生成候选框体，并判断候选框体是前景还是背景，从中选取前景候选框体(因为动态对象一般在前景中)，并利用调整候选框体的位置，从而得到特征子图。ROI层，将大小尺寸不同的特征子图池化成相同的大小，然后送入后续的全连接层进行物体分类和位置调整回归。分类层。利用ROI层输出的特征子图，判断特征子图的类别，同时再次对候选框体进行回归从而得到精确的形状和位置。

子步骤2026，通过跟踪算法，对所述动态对象在所述待处理视频中的连续帧的位置进行定位。

在本发明实施例中，跟踪算法可以为DeepSORT算法，DeepSORT算法可以针对多个动态对象进行跟踪，通过跟踪多个动态对象的位置，获得针对每一个动态对象的动态对象信息。

可选地，子步骤2026具体包括：

子步骤20261，获取所述动态对象首次出现的目标时间点，并提取所述动态对象对应的框体内的特征信息。

在本发明实施例中，跟踪算法在获得动态对象首次出现的目标时间点如T1时刻后，可以提取动态对象对应的框体内的特征信息，同时对动态对象在T2时刻的的行动轨迹进行预测，T2时刻可以为T1时刻的后一时刻。

子步骤20262，对所述目标时间点后续的视频帧进行检测，对后续视频帧的动态对象通过框体进行第二标记。

在本发明实施例中，在目标时间点后续的视频帧，如T2时刻对应的视频帧中继续对动态对象进行检测，并确定T2时刻对应的多个动态对象，对T2时刻对应的多个动态对象进行第二标记。

子步骤20263，将所述第一标记的框体内的特征信息和第二标记的框体内特征信息进行匹配，确定所述动态对象在连续帧的位置。

在本发明实施例中，为了将T1时刻对应的动态对象与T2时刻对应的同一动态对象进行关联，可以通过对第一标记和第二标记进行相似度匹配的方式确定。通过对每一帧图像的动态对象的检测与匹配，确定同一动态对象在连续帧的位置。

子步骤2027，将在所述连续帧中出现的同一动态对象提取为一段图像序列；将所述多个动态对象各自对应的图像序列作为多种动态对象信息。

在本发明实施例中，在连续帧中出现的同一动态对象可以提取为一段图像序列，例如：可以将动态对象所在的图像区域进行裁剪，使得裁剪后的图像区域仅包括一个动态对象，将在连续帧的同一动态对象的图像进行裁剪后，得到一段仅包括一个动态对象的图像序列，该图像序列即可以作为后续合成目标视频的素材。

步骤203，将所述多个动态对象信息分别输入预先训练的画像识别网络，输出所述多个动态对象信息各自对应的画像信息。

此步骤可参考步骤103，此处不再赘述。

可选地，步骤203具体包括：

子步骤2031，将所述动态对象信息对应的图像序列输入画像识别网络。

在本发明实施例中，画像识别网络为预先训练的，用于对动态对象信息对应的图像序列进行识别，确定该图像序列中的动态对象对应的画像特征的网络。画像识别网络可以为深度学习网络，以某一个动态对象对应的整个图像序列作为画像识别网络的输入，充分发掘动态对象在整个序列上的特征，可以实现准确的画像建模。

子步骤2032，将所述图像序列中每个时刻对应的图像输入编码器，得到所述图像序列对应的多个编码特征.

可选地，子步骤2032具体包括：

子步骤20321，将第一时刻的图像以及第二时刻的时序信息输入特征编码器，得到所述第一时刻的编码特征，所述第二时刻为所述第一时刻的前一时刻；

子步骤20322，将所述第一时刻的编码特征输入时序编码器，得到所述第一时刻对应的时序信息；

子步骤20323，将所述第一时刻的时序信息与第三时刻的图像输入特征编码器，得到第三时刻的编码特征，所述第三时刻为所述第一时刻的后一时刻；

子步骤20324，对所述图像序列的所有时刻对应的图像通过所述特征编码器和时序编码器处理后，输出所述图像序列对应的多个编码特征。

在本发明实施例中，参考图3，图3为一种画像识别网络的结构图。对于一个动态对象对应的的图像序列，将该图像序列的所有图像顺序输入画像识别网络。假设此时画像识别网络输入为第一时刻t的目标图，特征编码器会接收第一时刻t的目标图，以及第一时刻之前的第二时刻的时序信息S_t-1，得到第一时刻的编码特征。通过画像识别网络的时序编码器，接收第一时刻的编码特征并进行编码得到s_t，s_t为第一时刻的时序信息。在下一个第三时刻如t+1时刻，s_t与第三时刻的目标图共同作为特征编码器的输入进行输出。时序编码器可以提取当前时刻的目标图之前的信息，从而使特征编码器产生更稳定的输出。将特征编码器的N个输出分别输入N个解码器，得到N个目标画像特征f₁,f₂,…,f_N。每一类目标画像特征用一个单独的解码器进行解码，保证了特征预测不会相互干扰。画像的具体特征类别可以根据待处理视频的使用场景的具体隐私需求确定。划分类别可参考步骤103。

子步骤2033，将所述多个编码特征输入解码器，得到对应的多个画像特征。

在本发明实施例中，解码器用于对编码特征进行解码，恢复从特征编码器提取的画像特征。

步骤204，响应于用户获取视频的请求，根据用户的权限，从所述多个画像信息中筛选目标画像信息。

此步骤可参考步骤104，此处不再赘述。

步骤205，在所述静态背景信息为多个的情况下，按照所述静态背景信息分别对应的时间区间的先后顺序，在所述目标视频展示所述静态背景信息。

在本发明实施例中，考虑到光照及环境的变化，待处理视频中不同时间阶段对应的背景图的明亮等信息不同，因此，在确定背景图像时，可以取不同时间区间的背景图像进行建模，以实现随着时间的变化，背景图像适应性变化的效果，例如：可以每隔一个小时进行一次背景建模，在生成目标视频时，使得背景图像随着时间产生均匀变化。不同时刻的背景图像之间可以通过以下公式实现平滑变换：

其中，B(t)表示视频重生成后t时刻的背景，B^i-1和Bⁱ表示重建B(t)需要的不同时刻的背景图像。t^i-1和tⁱ分别表示背景图像B^i-1和Bⁱ对应的时间。

步骤206，将所述动态对象信息按照出现在所述静态背景信息的时间与位置，插入所述静态背景信息中，合成所述目标视频。

在本发明实施例中，对每个目标画像信息对应的图像序列，提取出图像序列及时空结构化信息。根据动态对象的出现时间及位置信息，在重生成的目标视频中进行目标放置。由于动态对象信息存储时保留了在原始视频的时间及位置信息，因此重建时可以将目标按时间及位置精准还原。使得目标视频只是隐去了部分隐私信息，而保留了完整的静态背景信息和用户权限对应的动态对象信息，实现了对待处理视频的合理利用，保护了待处理视频的隐私。可以根据不同的隐私需求，生成不同的目标视频，以满足不同的场景需求。

可选地，所述方法还包括：

步骤207，建立用户权限与画像信息的对应关系。

在本发明实施例中，可以提前建立不同用户的权限对应的画像信息，用户的权限可以通过设置等级进行分类，在获取的用户的请求后，可以根据对应关系确定该用户的权限等级可以访问的画像信息。进而将符合用户的权限等级的目标视频提供给用户

可选地，步骤204具体包括：

子步骤2041，获取用户对应的用户权限。

子步骤2042，基于所述对应关系，确定所述用户对应的目标画像信息。

在本发明实施例中，在获取的用户的请求后，可以先判断用户的权限等级，确定该等级可以访问的目标画像信息。进而合成目标画像。

参考图4，图4为本发明实施例一种目标视频生成流程图，获取待处理视频后，通过背景建模模块对待处理图像的背景进行建模，通过目标提取模块提取待处理视频中的动态对象信息，通过目标画像模块对提取的动态对象信息建立对应的画像特征，通过目标筛选模块筛选用户的权限内的目标画像信息，通过视频重生成模块，将背景建模模块得到的静态背景信息与目标画像信息对应的动态对象信息进行合成，得到符合用户权限的目标视频，最后将获得的目标视频提供给对应的用户，实现了针对不同用户提供不同内容的目标视频的效果，有效保护了待处理视频的安全性，使得待处理视频的视频资源得到了有效的利用。

参考图5，其示出了本申请实施例提供的一种视频处理装置，包括：

可选地，所述提取模块，包括：

第一获取子模块，用于从所述待处理视频中获取多张背景图像，所述多张背景图像均处于预设的时间区间；

像素点值确定子模块，用于获取每张背景图像的像素点值；

像素点值众数确定子模块，用于根据所述像素点值，确定所述多张背景图像中的像素点值众数；

背景确定子模块，用于根据所述像素点值众数，确定所述静态背景信息。

可选地，所述装置还包括：

第二获取模块，用于获取多个时间区间各自对应的多张背景图像；

背景确定模块，用于根据所述多张背景图像分别确定多个时间区间各自对应的静态背景信息。

可选地，所述合成模块包括：

排序子模块，用于在所述静态背景信息为多个的情况下，按照所述静态背景信息分别对应的时间区间的先后顺序，在所述目标视频展示所述静态背景信息；

合成子模块，用于将所述动态对象信息按照出现在所述静态背景信息的时间与位置，插入所述静态背景信息中，合成所述目标视频。

可选地，所述提取模块，包括：

动态对象检测子模块，用于通过目标检测算法，获取所述待处理视频中的动态对象；

位置定位子模块，用于通过跟踪算法，对所述动态对象在所述待处理视频中的连续帧的位置进行定位；

图像序列生成子模块，用于将在所述连续帧中出现的同一动态对象提取为一段图像序列；将所述多个动态对象各自对应的图像序列作为多种动态对象信息。

可选地，所述动态对象检测子模块，包括：

检测子模块，用于通过目标检测算法，检测所述待处理视频中的所有动态对象；

第一标记子模块，用于将检测到的动态对象通过框体进行第一标记。

可选地，所述位置定位子模块，包括：

特征提取子模块，用于获取所述动态对象首次出现的目标时间点，并提取所述动态对象对应的框体内的特征信息；

第二标记子模块，用于对所述目标时间点后续的视频帧进行检测，对后续视频帧的动态对象通过框体进行第二标记；

匹配子模块，用于将所述第一标记的框体内的特征信息和第二标记的框体内特征信息进行匹配，确定所述动态对象在连续帧的位置。

可选地，所述画像识别模块，包括：

输入子模块，用于将所述动态对象信息对应的图像序列输入画像识别网络；

编码子模块，用于将所述图像序列中每个时刻对应的图像输入编码器，得到所述图像序列对应的多个编码特征；

解码子模块，用于将所述多个编码特征输入解码器，得到对应的多个画像特征。

可选地，所述编码子模块，包括：

第一子模块，用于将第一时刻的图像以及第二时刻的时序信息输入特征编码器，得到所述第一时刻的编码特征，所述第二时刻为所述第一时刻的前一时刻；

第二子模块，用于将所述第一时刻的编码特征输入时序编码器，得到所述第一时刻对应的时序信息；

第三子模块，用于将所述第一时刻的时序信息与第三时刻的图像输入特征编码器，得到第三时刻的编码特征，所述第三时刻为所述第一时刻的后一时刻；

第四子模块，用于对所述图像序列的所有时刻对应的图像通过所述特征编码器和时序编码器处理后，输出所述图像序列对应的多个编码特征。

可选地，所述装置还包括：

关系建立模块，用于建立用户权限与画像信息的对应关系；

所述筛选模块，包括：

权限获取子模块，用于获取用户对应的用户权限；

关系匹配模块，用于基于所述对应关系，确定所述用户对应的目标画像信息。

图6据一示例性实施例示出的一种电子设备600的框图。例如，电子设备600可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图6，子设备600可以包括以下一个或多个组件：处理组件602，存储器604，电源组件606，多媒体组件608，音频组件610，输入/输出(I/O)的接口612，传感器组件614，以及通信组件616。

处理组件602通常控制电子设备600的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件602可以包括一个或多个处理器620来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件602可以包括一个或多个模块，便于处理组件602和其他组件之间的交互。例如，处理组件602可以包括多媒体模块，以方便多媒体组件608和处理组件602之间的交互。

存储器604用于存储各种类型的数据以支持在电子设备600的操作。这些数据的示例包括用于在电子设备600上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，多媒体等。存储器604可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件606为电子设备600的各种组件提供电力。电源组件606可以包括电源管理系统，一个或多个电源，及其他与为电子设备600生成、管理和分配电力相关联的组件。

多媒体组件608包括在所述电子设备600和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的分界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件608包括一个前置摄像头和/或后置摄像头。当电子设备600处于操作模式，如拍摄模式或多媒体模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件610用于输出和/或输入音频信号。例如，音频组件610包括一个麦克风(MIC)，当电子设备600处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器604或经由通信组件616发送。在一些实施例中，音频组件610还包括一个扬声器，用于输出音频信号。

I/O接口612为处理组件602和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件614包括一个或多个传感器，用于为电子设备600提供各个方面的状态评估。例如，传感器组件614可以检测到电子设备600的打开/关闭状态，组件的相对定位，例如所述组件为电子设备600的显示器和小键盘，传感器组件614还可以检测电子设备600或电子设备600一个组件的位置改变，用户与电子设备600接触的存在或不存在，电子设备600方位或加速/减速和电子设备600的温度变化。传感器组件614可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件614还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件614还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件616用于便于电子设备600和其他设备之间有线或无线方式的通信。电子设备600可以接入基于通信标准的无线网络，如WiFi，运营商网络(如2G、3G、4G或5G)，或它们的组合。在一个示例性实施例中，通信组件616经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件616还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，电子设备600可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于实现本申请实施例提供的视频识别方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器604，上述指令可由电子设备600的处理器620执行以完成上述方法。例如，所述非临时性存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

图7据一示例性实施例示出的一种电子设备700的框图。例如，电子设备700可以被提供为一服务器。参照图7，电子设备700包括处理组件722，其进一步包括一个或多个处理器，以及由存储器732所代表的存储器资源，用于存储可由处理组件722的执行的指令，例如应用程序。存储器732中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件722被配置为执行指令，以执行本申请实施例提供的一种视频处理方法。

电子设备700还可以包括一个电源组件726被配置为执行电子设备700的电源管理，一个有线或无线网络接口750被配置为将电子设备700连接到网络，和一个输入输出(I/O)接口758。电子设备700可以操作基于存储在存储器732的操作系统，例如WindowsServerTM，Mac OS XTM，UnixTM，LinuxTM，FreeBSDTM或类似。

本领域技术人员在考虑说明书及实践这里公开的申请后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种视频处理方法，其特征在于，所述方法包括：

获取待处理视频，所述待处理视频为固定场景的视频；

2.根据权利要求1所述的方法，其特征在于，所述从所述待处理视频中提取静态背景信息，包括：

从所述待处理视频中获取多张背景图像，所述多张背景图像均处于预设的时间区间；

获取每张背景图像的像素点值；

根据所述像素点值，确定所述多张背景图像中的像素点值众数；

根据所述像素点值众数，确定所述静态背景信息。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

获取多个时间区间各自对应的多张背景图像；

根据所述多张背景图像分别确定多个时间区间各自对应的静态背景信息。

4.根据权利要求2所述的方法，其特征在于，所述将所述静态背景信息，与所述目标画像信息对应的动态对象信息合成为目标视频，包括：

在所述静态背景信息为多个的情况下，按照所述静态背景信息分别对应的时间区间的先后顺序，在所述目标视频展示所述静态背景信息；

将所述动态对象信息按照出现在所述静态背景信息的时间与位置，插入所述静态背景信息中，合成所述目标视频。

5.根据权利要求1所述的方法，其特征在于，所述从所述待处理视频中提取多个动态对象信息，包括：

通过目标检测算法，获取所述待处理视频中的动态对象；

通过跟踪算法，对所述动态对象在所述待处理视频中的连续帧的位置进行定位；

将在所述连续帧中出现的同一动态对象提取为一段图像序列；将所述多个动态对象各自对应的图像序列作为多种动态对象信息。

6.根据权利要求5所述的方法，其特征在于，所述通过目标检测算法，获取所述待处理视频中的动态对象，包括：

通过目标检测算法，检测所述待处理视频中的所有动态对象；

将检测到的动态对象通过框体进行第一标记。

7.根据权利要求6所述的方法，其特征在于，所述通过跟踪算法，对所述动态对象在连续帧的位置进行定位，包括：

获取所述动态对象首次出现的目标时间点，并提取所述动态对象对应的框体内的特征信息；

对所述目标时间点后续的视频帧进行检测，对后续视频帧的动态对象通过框体进行第二标记；

将所述第一标记的框体内的特征信息和第二标记的框体内特征信息进行匹配，确定所述动态对象在连续帧的位置。

8.根据权利要求5所述的方法，其特征在于，所述将所述多个动态对象信息分别输入预先训练的画像识别网络，输出所述多个动态对象信息各自对应的画像信息，包括：

将所述动态对象信息对应的图像序列输入画像识别网络；

将所述图像序列中每个时刻对应的图像输入编码器，得到所述图像序列对应的多个编码特征；

将所述多个编码特征输入解码器，得到对应的多个画像特征。

9.根据权利要求8所述的方法，其特征在于，所述将所述图像序列中每个时刻对应的图像输入编码器，得到所述图像序列对应的多个编码特征，包括：

将第一时刻的图像以及第二时刻的时序信息输入特征编码器，得到所述第一时刻的编码特征，所述第二时刻为所述第一时刻的前一时刻；

将所述第一时刻的编码特征输入时序编码器，得到所述第一时刻对应的时序信息；

将所述第一时刻的时序信息与第三时刻的图像输入特征编码器，得到第三时刻的编码特征，所述第三时刻为所述第一时刻的后一时刻；

对所述图像序列的所有时刻对应的图像通过所述特征编码器和时序编码器处理后，输出所述图像序列对应的多个编码特征。

10.根据权利要求1所述的方法，其特征在于，所述方法还包括：

建立用户权限与画像信息的对应关系；

所述根据用户的权限，从所述多个画像信息中筛选目标画像信息，包括：

获取用户对应的用户权限；

基于所述对应关系，确定所述用户对应的目标画像信息。

11.一种视频处理装置，其特征在于，所述装置包括：

12.根据权利要求11所述的装置，其特征在于，所述提取模块包括：

像素点值确定子模块，用于获取每张背景图像的像素点值；

13.根据权利要求11所述的装置，其特征在于，所提取模块包括：

14.一种电子设备，其特征在于，包括处理器和存储器、所述存储器存储可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1至10中任一项所述的视频处理的步骤。

15.一种可读存储介质，其特征在于，所述可读存储介质上存储有程序或指令，所述程序或指令被处理器执行时实现如权利要求1至10中任一项所述的视频处理方法的步骤。