CN114078223A

CN114078223A - 视频语义识别方法及设备

Info

Publication number: CN114078223A
Application number: CN202011642456.XA
Authority: CN
Inventors: 吴觊豪; 任亿; 赵彬; 贾明波; 戚向涛; 池志祥; 于远灏; 徐溢璇; 唐进; 张大曲; 徐敬业
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2020-08-17
Filing date: 2020-12-31
Publication date: 2022-02-22

Abstract

本申请涉及终端人工智能领域，尤其涉及视频语义理解、视频编辑、视频拼接、视频压缩领域，具体涉及一种视频语义识别方法设备。该方法包括：获取视频的多个视频帧；提取多个视频帧的空域特征；根据多个视频帧中的N个连续视频帧的空域特征，确定N个连续视频帧中第N个视频帧的动态语义；根据多个视频帧中第一视频帧的空域特征，确定第一视频帧的静态语义；使用具有第一动态语义且连续的视频帧合成第一时序片段；使用具有第一静态语义且连续的视频帧合成第二时序片段；输出第一时序片段的动态语义和第一位置信息，以及第二时序片段的静态语义和第二位置信息。

Description

视频语义识别方法及设备

本申请要求于2020年08月17日提交中国专利局、申请号为202010825602.6、申请名称为″一种视频中图像标签处理方法及设备″，于2020年08月31日提交中国专利局、申请号为202010894732.5、申请名称为″视频语义提取方法、视频编辑方法及设备″，于 2020年11月30日提交中国专利局、申请号为202011375148.5、申请名称为″计算机执行的、利用神经网络识别视频语义的方法及装置″，于2020年12月04日提交中国专利局、申请号为202011405457.2、申请名称为″一种景别确定方法及装置″，于2020年12月24 日提交中国专利局、申请号为202011554281.7、申请名称为″一种视频处理方法及装置″ 的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及终端人工智能(artificial intelligence，Al)领域，尤其涉及视频语义理解、视频编辑、视频拼接、视频压缩领域，具体涉及一种视频语义识别方法及设备。

背景技术

由于视频可以展示较为丰富的内容，且视听体验较好，观看视频已成为用户日常娱乐活动的一部分。为了满足用户观看视频的需求，进一步提高视频的视听体验，视频的发布者需要编辑要发布的视频。

对于视频编辑而言，通常识别多个原视频的视频语义，然后由用户按照确定的主题，根据视频的语义从该多个原视频中选择两个或更多个视频进行视频拼接，得到符合该主题的拼接视频，并进行发布。

目前，通常是利用三维(3D)卷积神经网络(convolutional neural networks，CNN) 或利用视频双流网络识别视频的语义。这两种识别语义的方案通常是按照预设的主题对视频进行分类。例如，可以设定预设的主题包括运动、过生日这两种主题。前述两种语义识别方案可以分析出某一个视频的内容是否属于运动，或者是否属于过生日。对于符合某一主题的视频而言，其可能同时包括精彩程度较低的片段和精彩程度较高的片段。例如，对于主题为运动的视频而言，仅包含篮球的片段的精彩程度，低于，传球或运球片段的精彩程度；而传球或运球片段，低于上篮片段的精彩程度。因此，利用前述两种识别语义的方案的视频分类结果，进行视频拼接，得到的拼接视频过于冗长或者精彩程度较低。

并且，三维卷积神经网络的参数较多，模型较大，模型训练困难，难以收敛。视频双流网络利用光流信息提取视频的时域信息，计算时间较长。

发明内容

本申请提供了一种视频语义识别方法及设备。

其中，一些实施例提供的方法可以对同一视频中的不同时序片段，可以提取到不同层级的语义；其中，对应同一主题而言，其不同层级的语义分别对应不同的精彩程度。在一些实施例中，在视频拼接时，可以优先选择精彩程度较高的时序片段，由此，可以方便、快捷地拼接出精彩程度高的视频。

第一方面，本申请提供了如下多个方法实施例和装置实施例，包括：

实施例1.提供了一种计算机执行的、利用神经网络提取视频语义的方法，所述神经网络包括输入层、空域特征提取层、静态语义识别层、动态语义识别层、时序片段划分层、输出层；其中，所述静态语义识别层和所述动态语义识别层并列设置；所述方法包括；在所述输入层，获取视频的多个视频帧；在所述空域特征提取层，提取所述多个视频帧中每一个视频帧的空域特征；在所述动态语义识别层，根据所述多个视频帧中的N个连续视频帧的空域特征，确定所述N个连续视频帧中第N个视频帧的动态语义；N为正整数；在所述静态语义识别层，根据所述多个视频帧中第一视频帧的空域特征，确定所述第一视频帧的静态语义；在所述时序片段划分层，当具有第一动态语义且连续的视频帧的个数大于第一阈值时，使用所述具有第一动态语义且连续的视频帧合成第一时序片段，且确定所述第一动态语义为所述第一时序片段的动态语义；在所述时序片段划分层，当具有第一静态语义且连续的视频帧的个数大于第二阈值时，使用所述具有第一静态语义且连续的视频帧合成第二时序片段，且确定所述第一静态语义为所述第二时序片段的静态语义；在所述输出层，输出所述第一时序片段的动态语义和第一位置信息；以及输出所述第二时序片段的静态语义和第二位置信息；其中，所述第一位置信息由所述第一时序片段中的第一个视频帧和最后一个视频帧各自在所述视频中的位置表示；所述第二位置信息由所述第二时序片段中的第一个视频帧和最后一个视频帧各自在所述视频中的位置表示。

实施例2.根据实施例1所述的方法，所述神经网络还包括精彩时序片段识别层；所述方法还包括：根据第一视频帧的空域特征和第二视频帧的空域特征，确定所述第一视频帧和所述第二视频帧的空域差异信息；所述第一视频帧和所述第二视频帧在所述多个视频帧中相邻；在所述精彩时序片段识别层，根据所述多个视频帧中各两两相邻视频帧的空域差异信息以及所述多个视频帧的空域特征，确定至少一个精彩时序片段。

实施例3.根据实施例2所述的方法，所述空域特征包括RGB信息，所述空域差异信息包括RGB差异信息(RGB diff)。

实施例4.根据实施例2所述的方法，所述精彩时序片段识别层包括一维卷积层和细节动态语义分类层；所述一维卷积层包括第一卷积窗口，所述第一卷积窗口对应第一细节动态语义；所述根据所述多个视频帧中各两两相邻视频帧的空域差异信息以及所述多个视频帧的空域特征，确定至少一个精彩时序片段包括：在所述一维卷积层，采用所述至少一个卷积窗口中的第一卷积窗口，对所述多个视频帧的空域特征和所述多个视频帧中各两两相邻视频帧的空域差异，进行卷积处理，得到若干个卷积结果；在所述细节语义分类层，根据所述若干个卷积结果，确定具有所述第一细节语义的精彩时序片段。

实施例5.根据实施例2所述的方法，所述神经网络还包括联合逻辑判断层，所述联合逻辑判断层为所述时序片段划分层和所述精彩时序片段识别层的下一层；所述至少一个精彩时序片段中的第一精彩时序片段包含于所述第一时序片段；所述方法还包括：在所述联合逻辑判断层，判断所述第一精彩时序片段的细节动态语义和所述第一时序片段的动态语义是否匹配；当所述第一精彩时序片段的细节动态语义和所述第一时序片段的动态语义匹配时，在所述输出层输出所述第一精彩时序片段的细节动态语义和第三位置信息；其中，所述第三位置信息由所述第一精彩时序片段中的第一个视频帧和最后一个视频帧各自在所述视频中的位置表示；当所述第一精彩时序片段的细节动态语义和所述第一时序片段的动态语义不匹配时，在所述输出层不输出所述第一精彩时序片段的相关信息。

实施例6.根据实施例2所述的方法，所述神经网络还包括语义光滑层，所述语义光滑层为所述时序片段划分层的上一层；所述方法还包括：在所述语义光滑层，根据所述多个视频帧中连续视频帧间静态语义的依赖关系，对所述多个视频帧的静态语义进行光滑处理。

实施例7.根据实施例6所述的方法，所述根据所述多个视频帧中连续视频帧间静态语义的依赖关系，对所述多个视频帧的静态语义进行光滑处理包括：确定P个连续视频帧中第三视频帧的静态语义与其他视频帧的静态语义不同，且所述其他视频帧的静态语义相同；P 大于第三阈值；所述其他视频帧为所述P个连续视频帧中除所述第三视频帧之外的视频帧；根据所述其他视频帧的静态语义，更新所述第三视频帧的静态语义。

实施例8.根据实施例1所述的方法，所述方法还包括：在所述时序片段划分层，当具有第二动态语义且连续的视频帧的个数大于所述第一阈值时，使用所述具有第二动态语义且连续的视频帧合成第三时序片段，且确定所述第二动态语义为所述第三时序片段的动态语义；当所述第二动态语义和所述第一动态语义相同，且所述第一时序片段和所述第二时序片段之间间隔的视频帧个数小于第四阈值时，将所述第一时序片段和所述第三时序片段合并为同一个时序片段。

实施例9.根据实施例1所述的方法，所述空域特征包括经由第一卷积层对所述空域特征对应视频帧的特征信息进行卷积得到的多个特征图，所述多个特征图与所述第一卷积层的多个卷积核一一对应；所述动态语义识别层包括第二卷积层和动态语义分类层；所述根据所述多个视频帧中的N个连续视频帧的空域特征，确定所述N个连续视频帧中第N个视频帧的动态语义包括：对所述N个连续视频帧进行特征图偏移处理，得到所述N个连续视频帧的残差空域特征；其中，所述特征图偏移处理包括：使用所述N个连续视频帧中第k个视频帧的第一特征图，替换所述N个连续视频帧中第k+1个视频帧的第一特征图，其中，k依次在 1至N-1中取整数值；所述第k个视频帧的第一特征图和所述第k+1个视频帧的第一特征图对应所述第一卷积层的同一卷积核；在所述第二卷积层，对所述N个连续视频帧的残差空域特征进行卷积，得到所述N个连续视频帧的时空特征；在所述动态语义分类层，根据所述N 个连续视频帧的时空特征，确定所述第N个视频帧的动态语义。

实施例10.一种视频编辑方法，包括：获取目标拼接视频的第一主题和所述目标拼接视频的第一时长；确定语义符合所述第一主题的多个时序片段；所述多个时序片段包括具有动态语义的时序片段和具有静态语义的时序片段；根据所述第一时长，从所述多个时序片段中确定用于拼接所述目标拼接视频的时序片段；其中，当所述具有动态语义的时序片段的总时长等于或大于所述第一时长时，从所述具有动态语义的时序片段中确定用于拼接所述目标拼接视频的时序片段；当所述具有动态语义的时序片段的总时长小于所述第一时长时，确定所述具有动态语义的时序片段全部用于拼接所述目标拼接视频，且从所述具有静态语义的时序片段中确定用于拼接剩余视频片段的时序片段，所述剩余视频片段的时长等于所述第一时长减去所述总时长的差值。

实施例11.一种视频编辑方法，包括：获取目标拼接视频的第一主题和所述目标拼接视频的第一时长；确定语义符合所述第一主题的多个时序片段；所述多个时序片段包括具有细节动态语义的时序片段、具有动态语义的时序片段；根据所述第一时长，从所述多个时序片段中确定用于拼接所述目标拼接视频的时序片段；其中，当所述具有细节动态语义的时序片段的总时长等于或大于所述第一时长时，从所述具有细节动态语义的时序片段中确定用于拼接所述目标拼接视频的时序片段；当所述具有细节动态语义的时序片段的总时长小于所述第一时长时，确定所述具有细节动态语义的时序片段全部用于拼接所述目标拼接视频，且从所述具有动态语义的时序片段中确定用于拼接剩余视频片段的时序片段，所述剩余视频片段的时长等于所述第一时长减去所述总时长的差值。

实施例12.一种视频编辑方法，包括：获取目标拼接视频的第一主题和所述目标拼接视频的第一时长；确定语义符合所述第一主题的多个时序片段；所述多个时序片段包括具有细节动态语义的时序片段、具有动态语义的时序片段、具有静态语义的时序片段；根据所述第一时长，从所述多个时序片段中确定用于拼接所述目标拼接视频的时序片段；其中，当所述具有细节动态语义的时序片段和所述具有动态语义的时序片段的总时长小于所述第一时长时，确定所述具有细节动态语义的时序片段和所述具有动态语义的时序片段全部用于拼接所述目标拼接视频，且从所述具有静态语义的时序片段中确定用于拼接剩余视频片段的时序片段，所述剩余视频片段的时长等于所述第一时长减去所述总时长的差值。

实施例13.一种提取视频语义的装置，包括：输入单元，用于获取视频的多个视频帧；提取单元，用于提取所述多个视频帧中每一个视频帧的空域特征；第一识别单元，用于根据所述多个视频帧中的N个连续视频帧的空域特征，确定所述N个连续视频帧中第N个视频帧的动态语义；N为正整数；第二识别单元，用于根据所述多个视频帧中第一视频帧的空域特征，确定所述第一视频帧的静态语义；划分单元，用于当具有第一动态语义且连续的视频帧的个数大于第一阈值时，使用所述具有第一动态语义且连续的视频帧合成第一时序片段，且确定所述第一动态语义为所述第一时序片段的动态语义；所述划分单元还用于当具有第一静态语义且连续的视频帧的个数大于第二阈值时，使用所述具有第一静态语义且连续的视频帧合成第二时序片段，且确定所述第一静态语义为所述第二时序片段的静态语义；输出单元，用于输出所述第一时序片段的动态语义和第一位置信息；以及输出所述第二时序片段的静态语义和第二位置信息；其中，所述第一位置信息由所述第一时序片段中的第一个视频帧和最后一个视频帧各自在所述视频中的位置表示；所述第二位置信息由所述第二时序片段中的第一个视频帧和最后一个视频帧各自在所述视频中的位置表示。

实施例14.根据实施例13所述的装置，所述装置还包括第三识别单元；所述第三识别单元用于：根据第一视频帧的空域特征和第二视频帧的空域特征，确定所述第一视频帧和所述第二视频帧的空域差异信息；所述第一视频帧和所述第二视频帧在所述多个视频帧中相邻；根据所述多个视频帧中各两两相邻视频帧的空域差异信息以及所述多个视频帧的空域特征，确定至少一个精彩时序片段。

实施例15.根据实施例14所述的装置，所述空域特征包括RGB信息，所述空域差异信息包括RGB差异信息(RGB diff)。

实施例16.根据实施例14所述的装置，所述第三识别单元包括卷积单元和分类单元；所述卷积单元用于，采用至少一个卷积窗口中的第一卷积窗口，对所述多个视频帧的空域特征和所述多个视频帧中各两两相邻视频帧的空域差异，进行卷积处理，得到若干个卷积结果；所述第一卷积窗口对应第一细节动态语义；所述分类单元用于，根据所述若干个卷积结果，确定具有所述第一细节语义的精彩时序片段。

实施例17.根据实施例14所述的装置，所述至少一个精彩时序片段中的第一精彩时序片段包含于所述第一时序片段；所述装置还包括判断单元；所述判断单元，用于判断所述第一精彩时序片段的细节动态语义和所述第一时序片段的动态语义是否匹配；所述输出单元，用于当所述第一精彩时序片段的细节动态语义和所述第一时序片段的动态语义匹配时，在所述输出层输出所述第一精彩时序片段的细节动态语义和第三位置信息；其中，所述第三位置信息由所述第一精彩时序片段中的第一个视频帧和最后一个视频帧各自在所述视频中的位置表示；所述输出单元，用于当所述第一精彩时序片段的细节动态语义和所述第一时序片段的动态语义不匹配时，在所述输出层不输出所述第一精彩时序片段的相关信息。

实施例18.根据实施例13所述的装置，所述装置还包括光滑单元，用于根据所述多个视频帧中连续视频帧间静态语义的依赖关系，对所述多个视频帧的静态语义进行光滑处理。

实施例19.根据实施例18所述的装置，所述光滑单元还用于：确定P个连续视频帧中第三视频帧的静态语义与其他视频帧的静态语义不同，且所述其他视频帧的静态语义相同；P 大于第三阈值；所述其他视频帧为所述P个连续视频帧中除所述第三视频帧之外的视频帧；根据所述其他视频帧的静态语义，更新所述第三视频帧的静态语义。

实施例20.根据实施例13所述的装置，所述装置还包括：合并单元；所述合并单元用于，当具有第二动态语义且连续的视频帧的个数大于所述第一阈值时，使用所述具有第二动态语义且连续的视频帧合成第三时序片段，且确定所述第二动态语义为所述第三时序片段的动态语义；所述合并单元还用于，当所述第二动态语义和所述第一动态语义相同，且所述第一时序片段和所述第二时序片段之间间隔的视频帧个数小于第四阈值时，将所述第一时序片段和所述第三时序片段合并为同一个时序片段。

实施例21.根据实施例所述的装置，所述空域特征包括经由第一卷积单元对所述空域特征对应视频帧的特征信息进行卷积得到的多个特征图，所述多个特征图与所述第一卷积单元的多个卷积核一一对应；所述第一识别单元包括偏移单元、第二卷积单元和动态语义分类单元；所述偏移单元，用于对所述N个连续视频帧进行特征图偏移处理，得到所述N个连续视频帧的残差空域特征；其中，所述特征图偏移处理包括：使用所述N个连续视频帧中第k个视频帧的第一特征图，替换所述N个连续视频帧中第k+1个视频帧的第一特征图，其中，k 依次在1至N-1中取整数值；所述第k个视频帧的第一特征图和所述第k+1个视频帧的第一特征图对应所述第一卷积层的同一卷积核；所述第二卷积单元，用于对所述N个连续视频帧的残差空域特征进行卷积，得到所述N个连续视频帧的时空特征；所述动态语义分类单元，用于根据所述N个连续视频帧的时空特征，确定所述第N个视频帧的动态语义。

实施例22.一种视频编辑装置，包括：获取单元，用于获取目标拼接视频的第一主题和所述目标拼接视频的第一时长；第一确定单元，用于确定语义符合所述第一主题的多个时序片段；所述多个时序片段包括具有动态语义的时序片段和具有静态语义的时序片段；第二确定单元，用于根据所述第一时长，从所述多个时序片段中确定用于拼接所述目标拼接视频的时序片段；其中，当所述具有动态语义的时序片段的总时长等于或大于所述第一时长时，从所述具有动态语义的时序片段中确定用于拼接所述目标拼接视频的时序片段；当所述具有动态语义的时序片段的总时长小于所述第一时长时，确定所述具有动态语义的时序片段全部用于拼接所述目标拼接视频，且从所述具有静态语义的时序片段中确定用于拼接剩余视频片段的时序片段，所述剩余视频片段的时长等于所述第一时长减去所述总时长的差值。

实施例23.一种视频编辑装置，包括：获取单元，用于获取目标拼接视频的第一主题和所述目标拼接视频的第一时长；第一确定单元，用于确定语义符合所述第一主题的多个时序片段；所述多个时序片段包括具有细节动态语义的时序片段、具有动态语义的时序片段；第二确定单元，用于根据所述第一时长，从所述多个时序片段中确定用于拼接所述目标拼接视频的时序片段；其中，当所述具有细节动态语义的时序片段的总时长等于或大于所述第一时长时，从所述具有细节动态语义的时序片段中确定用于拼接所述目标拼接视频的时序片段；当所述具有细节动态语义的时序片段的总时长小于所述第一时长时，确定所述具有细节动态语义的时序片段全部用于拼接所述目标拼接视频，且从所述具有动态语义的时序片段中确定用于拼接剩余视频片段的时序片段，所述剩余视频片段的时长等于所述第一时长减去所述总时长的差值。

实施例24.一种视频编辑装置，包括：获取单元，用于获取目标拼接视频的第一主题和所述目标拼接视频的第一时长；第一确定单元，用于确定语义符合所述第一主题的多个时序片段；所述多个时序片段包括具有细节动态语义的时序片段、具有动态语义的时序片段、具有静态语义的时序片段；第二确定单元，用于根据所述第一时长，从所述多个时序片段中确定用于拼接所述目标拼接视频的时序片段；其中，当所述具有细节动态语义的时序片段和所述具有动态语义的时序片段的总时长小于所述第一时长时，确定所述具有细节动态语义的时序片段和所述具有动态语义的时序片段全部用于拼接所述目标拼接视频，且从所述具有静态语义的时序片段中确定用于拼接剩余视频片段的时序片段，所述剩余视频片段的时长等于所述第一时长减去所述总时长的差值。

实施例25.一种电子设备，包括：处理器、存储器；所述存储器用于存储计算机指令；当所述电子设备运行时，所述处理器执行所述计算机指令，使得所述电子设备执行实施例1-9 任一项所述的方法或实施例10所述的方法或实施例11所述的方法或实施例12所述的方法。

实施例26.一种计算机存储介质，所述计算机存储介质包括计算机指令，当所述计算机指令在电子设备上运行时，使得所述电子设备执行实施例1-9任一项所述的方法或实施例10 所述的方法或实施例11所述的方法或实施例12所述的方法。

实施例26.一种计算机程序产品，计算机程序产品包含的程序代码被用于电子设备中的处理器执行时，实现实施例1-9任一项所述的方法或实施例10所述的方法或实施例11所述的方法或实施例12所述的方法。

本申请上述的一些实施例提供的视频语义识别方法，可以识别视频中静态语义的时序片段以及具有动态语义的视频片段，由此，可以在编辑视频时，可以根据需要选择静态语义的时序片段或动态语义的视频片段进行视频拼接，从而可以得到更为精彩的视频。

第二方面，本申请提供了如下多个方法实施例和装置实施例，包括：

实施例1.一种视频帧标签处理方法，包括：获取视频的多个视频帧，所述多个视频帧中的每一个视频帧可携带有一种或多种类别标签；所述类别标签用于表征对应视频帧中物体的类别；根据所述视频对应的标签光滑策略，对所述多个视频帧进行标签光滑处理；其中，当所述标签光滑策略包括第一类别标签在所述多个视频帧中相邻视频帧间连续时，所述对所述多个视频帧进行标签光滑处理包括：当所述多个视频帧中的第一视频帧和第二视频帧同时携带或同时不携带所述第一类别标签时，确定所述第一视频帧和所述第二视频帧在所述第一类别标签下的得分为W；当所述第一视频帧和所述第二视频帧中的一个携带所述第一类别标签，另一个不携带所述第一类别标签时，确定所述第一视频帧和所述第二视频帧在所述第一类别标签下的得分为W′；W′小于W；所述第一视频帧和所述第二视频帧为所述多个视频帧中相邻的两个视频帧，且构成一个两两相邻视频帧组；增删所述多个视频帧中K个视频帧的所述第一类别标签，使得所述多个视频帧在所述第一类别标签下的得分最大化；所述多个视频帧在所述第一类别标签下的得分包括所述多个视频帧中各个两两相邻视频帧组在所述第一类别标签下的得分的加和；K≥0，且为整数；其中，所述K个视频帧包括第三视频帧，所述增删所述多个视频帧中K个视频帧的所述第一类别标签包括：若在获取所述多个视频帧时，所述第三视频帧不携带所述第一类别标签，则为所述第三视频帧添加所述第一类别标签；若在获取所述多个视频帧时，所述第三视频帧携带所述第一类别标签，则删除所述第三视频帧的所述第一类别标签。

实施例2.根据实施例1所述的方法，所述多个视频帧在所述第一类别标签下的得分还包括所述多个视频帧中各视频帧的标签一致性得分的加和；所述增删所述多个视频帧中K个视频帧的所述第一类别标签，使得所述多个视频帧在所述第一类别标签上的得分最大化包括：确定所述多个视频帧中除所述K个视频帧外的视频帧的标签一致性得分为E；确定所述K个视频帧的标签一致性得分为E′；E′小于E。

实施例3.根据实施例2所述的方法，所述增删所述多个视频帧中K个视频帧的所述第一类别标签，使得所述多个视频帧在所述第一类别标签下的得分最大化包括：求解公式(I) 的最大和，并根据所述最大和，确定所述K个视频帧，以及增删所述K个视频帧的所述第一类别标签；

其中；

Max(N₁+N₂+N₃) (I)；

n为所述多个视频帧的个数目；w₁、w₂、w₃为预设的正数；X_0，0的绝对值为1；i对应所述第一类别标签，j对应所述多个视频帧中第j个视频帧；所述多个视频帧＝集合C1∪集合C2；其中，集合C1中的元素为在获取所述多个视频帧时，携带所述第一类别标签的视频帧；集合C2中的元素为在获取所述多个视频帧时，不携带所述第一类别标签的视频帧；在所述求解过程中，在X_i，j和X_i，j+1在X_0，0和-X_0，0之间取值。

实施例4.根据实施例3所述的方法，所述求解公式(I)的最大和，并根据所述最大和，确定所述K个视频帧，以及增删所述K个视频帧的所述第一类别标签包括：

确定列向量a＝[X_0，0；X_i，1；...；X_i，j；...；X_i，n]；

将所述列向量a乘以所述列向量a的转置向量，得到矩阵M；

以公式(I)的求和结果最大为目标，且以所述矩阵M的主对角线上的元素的值为1为约束条件，利用椭圆法或内点法求解，获得半正定矩阵M′；

根据所述半正定矩阵M′，确定所述K个视频帧，并增删所述K个视频帧的所述第一类别标签。

实施例5.根据实施例1所述的方法，所述第一视频帧和所述第二视频帧在所述

其中，w₁为预设的正数；X_0，0的绝对值为1；i对应所述第一类别标签，j对应所述第一视频帧，j+1对应所述第二视频帧；当所述第一视频帧携带所述第一类别标签时，在X_i，j＝X_0，0；当所述第一视频帧不携带所述第一类别标签时，X_i，j＝-X_0，0；当所述第二视频帧携带所述第一类别标签时，在X_i，j+1＝X_0，0；当所述第二视频帧不携带所述第一类别标签时，X_i，j+1＝-X_0，0。

实施例6.根据实施例1所述的方法，当所述视频帧标签光滑策略包括第二类别标签和第三类别标签在同一视频帧上共存时，所述对所述多个视频帧进行标签光滑处理包括：当所述多个视频帧中第四视频帧同时携带或同时不携带所述第二类别标签和所述第三类别标签时，确定所述第四视频帧在所述第二类别标签和所述第三类别标签下的得分为F；当所述第四视频帧携带所述第二类别标签和所述第三类别标签中的一个，不携带另一个时，确定所述第四视频帧在所述第二类别标签和所述第三类别标签下的得分为F′；F′小于F；为所述多个视频帧中L个视频帧添加所述第三类别标签和/或删除所述多个视频帧中L′个视频帧的所述第二类别标签，使得所述多个视频帧在所述第二类别标签和所述第三类别标签下的得分最大化；L ≥0，且为整数；L′≥0，且为整数；所述多个视频帧在所述第二类别标签和所述第三类别标签下的得分包括所述多个视频帧中各视频帧在所述第二类别标签和所述第三类别标签下的得分的加和。

实施例7.根据实施例6所述的方法，所述第四视频帧在所述第二类别标签和所述

其中，w₃为预设的正数；X_0，0的绝对值为1；i^＊对应所述第二类别标签，i对应所述第三类别标签；j对应所述第四视频帧；当所述第四视频帧携带所述第二类别标签时，在 X_i*，j＝X_0，0；当所述第四视频帧携带所述第三类别标签时，在X_i，j＝X_0，0；当所述第四视频帧不携带所述第三类别标签时，X_i，j＝-X_0，0。

实施例8.根据实施例1所述的方法，当所述标签光滑策略包括第四类别标签和第五类别标签在同一视频帧上不共存时，所述对所述多个视频帧进行标签光滑处理包括：当所述多个视频帧中的第五视频帧不同时携带所述第四类别标签和所述第五类别标签时，确定所述第五视频帧在所述第四类别标签和所述第五类别标签下的得分为H；当所述第五视频帧同时携带所述第四类别标签和所述第五类别标签时，确定所述第五视频帧在所述第四类别标签和所述第五类别标签下的得分为H′；H′小于H；删除所述多个视频帧中P个视频帧的所述第五类别标签和/或删除所述多个视频帧中P′个视频帧的所述第四类别标签，使得所述多个视频帧在所述第四类别标签和所述第五类别标签下的得分最大化；P≥0，且为整数；P′≥0，且为整数；所述多个视频帧在所述第四类别标签和所述第五类别标签下的得分包括所述多个视频帧中各视频帧在所述第四类别标签和所述第五类别标签下的得分的加和。

实施例9.根据实施例8所述的方法，所述第五视频帧在所述第四类别标签和所述

其中，w₄为预设的正数；X_0，0的绝对值为1；i^＊对应所述第四类别标签，i对应所述第五类别标签；j对应所述第五视频帧；当所述第五视频帧携带所述第四类别标签时，在 X_i*，j＝X_0，0；当所述第五视频帧携带所述第五类别标签时，在X_i，j＝X_0，0；当所述第五视频帧不携带所述第五类别标签时，X_i，j＝-X_0，0。

实施例10.根据实施例1所述的方法，当所述标签光滑策略包括第六类别标签在相邻视频帧中前一个视频帧存在，第七类别标签在所述相邻视频帧中后一个视频帧存在；所述前一个视频帧和所述后一个视频帧为在所述视频的时间顺序上的前后视频帧；所述对所述多个视频帧进行标签光滑处理包括：当所述多个视频帧中第一两两相邻视频帧组中前一个视频帧携带所述第六类别标签，且所述第一两两相邻视频帧组中后一个携带所述第七类别标签时；或者，当所述多个视频帧中第一两两相邻视频帧组中前一个视频帧不携带所述第六类别标签，且所述第一两两相邻视频帧组中后一个不携带所述第七类别标签时；确定所述第一两两相邻视频帧组在所述第六类别标签和所述第七类别标签下的得分为Z；当所述第一两两相邻视频帧组中前一个视频帧携带所述第六类别标签，且所述第一两两相邻视频帧组中后一个不携带所述第七类别标签时；或者，当所述第一两两相邻视频帧组中前一个视频帧不携带所述第六类别标签，且所述第一两两相邻视频帧组中后一个携带所述第七类别标签时；确定所述第一两两相邻视频帧组在所述第六类别标签和所述第七类别标签下的得分为Z′；Z′小于Z；为所述多个视频帧中Q个视频帧添加所述第七类别标签和/或删除所述多个视频帧中Q′个视频帧的所述第六类别，使得所述多个视频帧在所述第六类别标签和所述第七类别标签下的得分最大化；Q≥0，且为整数；Q′≥0，且为整数；所述多个视频帧在所述第六类别标签和所述第七类别标签下的得分包括所述多个视频帧中各两两相邻视频帧组在所述第一类别标签下的得分的加和。

实施例11.根据实施例10所述的方法，所述第一两两相邻视频帧组在所述第六类别标签和所述

其中，w₅为预设的正数；X_0，0的绝对值为1；i^＊对应所述第六类别标签，i对应所述第七类别标签；j对应所述第一两两相邻视频帧组中前一个视频帧，j+1对应所述第一两两相邻视频帧组中后一个视频帧；当所述第一两两相邻视频帧组中前一个视频帧携带所述第六类别标签时，在X_i*，j＝X_0，0；当所述第一两两相邻视频帧组中后一个视频帧携带所述第七类别标签时，X_i，j+1＝X_0，0；当所述第一两两相邻视频帧组中后一个视频帧携带所述第七类别标签时， X_i，j+1＝-X_0，0。

实施例12.一种视频帧标签处理装置，包括：

获取单元，用于获取视频的多个视频帧，所述多个视频帧中的每一个视频帧可携带有一种或多种类别标签；所述类别标签用于表征对应视频帧中物体的类别；

处理单元，用于根据所述视频对应的标签光滑策略，对所述多个视频帧进行标签光滑处理；其中，

当所述标签光滑策略包括第一类别标签在所述多个视频帧中相邻视频帧间连续时，所述处理单元用于：

当所述多个视频帧中的第一视频帧和第二视频帧同时携带或同时不携带所述第一类别标签时，确定所述第一视频帧和所述第二视频帧在所述第一类别标签下的得分为W；当所述第一视频帧和所述第二视频帧中的一个携带所述第一类别标签，另一个不携带所述第一类别标签时，确定所述第一视频帧和所述第二视频帧在所述第一类别标签下的得分为W′；W′ 小于W；所述第一视频帧和所述第二视频帧为所述多个视频帧中相邻的两个视频帧，且构成一个两两相邻视频帧组；

增删所述多个视频帧中K个视频帧的所述第一类别标签，使得所述多个视频帧在所述第一类别标签下的得分最大化；所述多个视频帧在所述第一类别标签下的得分包括所述多个视频帧中各个两两相邻视频帧组在所述第一类别标签下的得分的加和；K≥0，且为整数；

其中，所述K个视频帧包括第三视频帧，所述处理单元用于：

若在获取所述多个视频帧时，所述第三视频帧不携带所述第一类别标签，则为所述第三视频帧添加所述第一类别标签；

若在获取所述多个视频帧时，所述第三视频帧携带所述第一类别标签，则删除所述第三视频帧的所述第一类别标签。

实施例13.根据实施例12所述的装置，所述多个视频帧在所述第一类别标签下的得分还包括所述多个视频帧中各视频帧的标签一致性得分的加和；所述处理单元还用于：

确定所述多个视频帧中除所述K个视频帧外的视频帧的标签一致性得分为E；

确定所述K个视频帧的标签一致性得分为E′；E′小于E。

实施例14.根据实施例13所述的装置，所述处理单元还用于：求解公式(I)的最大和，并根据所述最大和，确定所述K个视频帧，以及增删所述K个视频帧的所述第一类别标签；

其中；

Max(N₁+N₂+N₃) (I)；

实施例15.根据实施例14所述的装置，所述处理单元还用于：

确定列向量a＝[X_0，0；X_i，1；...；X_i，j；...；X_i，n]；

将所述列向量a乘以所述列向量a的转置向量，得到矩阵M；

实施例16.根据实施例12所述的装置，所述第一视频帧和所述第二视频帧在所述

实施例17.根据实施例12所述的装置，当所述视频帧标签光滑策略包括第二类别标签和第三类别标签在同一视频帧上共存时，所述处理单元还用于：

当所述多个视频帧中第四视频帧同时携带或同时不携带所述第二类别标签和所述第三类别标签时，确定所述第四视频帧在所述第二类别标签和所述第三类别标签下的得分为F；当所述第四视频帧携带所述第二类别标签和所述第三类别标签中的一个，不携带另一个时，确定所述第四视频帧在所述第二类别标签和所述第三类别标签下的得分为F′；F′小于F；

为所述多个视频帧中L个视频帧添加所述第三类别标签和/或删除所述多个视频帧中L′ 个视频帧的所述第二类别标签，使得所述多个视频帧在所述第二类别标签和所述第三类别标签下的得分最大化；L≥0，且为整数；L′≥0，且为整数；所述多个视频帧在所述第二类别标签和所述第三类别标签下的得分包括所述多个视频帧中各视频帧在所述第二类别标签和所述第三类别标签下的得分的加和。

实施例18.根据权利要求17所述的装置，所述第四视频帧在所述第二类别标签和所述

实施例19.根据实施例12所述的装置，当所述标签光滑策略包括第四类别标签和第五类别标签在同一视频帧上不共存时，所述处理单元还用于：

当所述多个视频帧中的第五视频帧不同时携带所述第四类别标签和所述第五类别标签时，确定所述第五视频帧在所述第四类别标签和所述第五类别标签下的得分为H；当所述第五视频帧同时携带所述第四类别标签和所述第五类别标签时，确定所述第五视频帧在所述第四类别标签和所述第五类别标签下的得分为H′；H′小于H；

删除所述多个视频帧中P个视频帧的所述第五类别标签和/或删除所述多个视频帧中P′ 个视频帧的所述第四类别标签，使得所述多个视频帧在所述第四类别标签和所述第五类别标签下的得分最大化；P≥0，且为整数；P′≥0，且为整数；所述多个视频帧在所述第四类别标签和所述第五类别标签下的得分包括所述多个视频帧中各视频帧在所述第四类别标签和所述第五类别标签下的得分的加和。

实施例20.根据权利要求19所述的装置，所述第五视频帧在所述第四类别标签和所述

21.根据权利要求12所述的装置，当所述标签光滑策略包括第六类别标签在相邻视频帧中前一个视频帧存在，第七类别标签在所述相邻视频帧中后一个视频帧存在；所述前一个视频帧和所述后一个视频帧为在所述视频的时间顺序上的前后视频帧；所述处理单元还用于：

当所述多个视频帧中第一两两相邻视频帧组中前一个视频帧携带所述第六类别标签，且所述第一两两相邻视频帧组中后一个携带所述第七类别标签时；或者，当所述多个视频帧中第一两两相邻视频帧组中前一个视频帧不携带所述第六类别标签，且所述第一两两相邻视频帧组中后一个不携带所述第七类别标签时；确定所述第一两两相邻视频帧组在所述第六类别标签和所述第七类别标签下的得分为Z；

当所述第一两两相邻视频帧组中前一个视频帧携带所述第六类别标签，且所述第一两两相邻视频帧组中后一个不携带所述第七类别标签时；或者，当所述第一两两相邻视频帧组中前一个视频帧不携带所述第六类别标签，且所述第一两两相邻视频帧组中后一个携带所述第七类别标签时；确定所述第一两两相邻视频帧组在所述第六类别标签和所述第七类别标签下的得分为Z′；Z′小于Z；

为所述多个视频帧中Q个视频帧添加所述第七类别标签和/或删除所述多个视频帧中Q′ 个视频帧的所述第六类别，使得所述多个视频帧在所述第六类别标签和所述第七类别标签下的得分最大化；Q≥0，且为整数；Q′≥0，且为整数；所述多个视频帧在所述第六类别标签和所述第七类别标签下的得分包括所述多个视频帧中各两两相邻视频帧组在所述第一类别标签下的得分的加和。

实施例22.根据实施例21所述的装置，所述第一两两相邻视频帧组在所述第六类别标签和所述

实施例23.一种电子设备，包括：处理器、存储器、收发器；所述存储器用于存储计算机指令；当所述电子设备运行时，所述处理器执行所述计算机指令，使得所述电子设备执行实施例1-11任一项所述的方法。

实施例24.一种计算机存储介质，所述计算机存储介质包括计算机指令，当所述计算机指令在电子设备上运行时，使得所述电子设备执行实施例1-11任一项所述的方法。

实施例25.一种计算机程序产品，计算机程序产品包含的程序代码被用于电子设备中的处理器执行时，实现实施例1-11任一项所述的方法。

第二方面提供的一些实施例中，通过提供的视频帧标签处理方法及设备，可以根据视频对应的标签光滑策略，修正视频中视频帧所携带的标签，使得视频的标签流光滑或者说更加符合常识。

第三方面，本申请提供了如下多个方法实施例和装置实施例，包括：

实施例1.一种计算机执行的、利用神经网络识别视频语义的方法，所述神经网络包括输入层、空域特征提取层、多个偏移层、分类层、输出层；其中，所述空域特征提取层包括串行设置的至少一个二维卷积层；所述多个偏移层包括并行设置的第一偏移层和第二偏移层；所述方法包括：

在所述输入层，获取第一视频中的N个视频帧，N为大于1的正整数；

在所述空域特征提取层，提取所述N个视频帧中每一个视频帧在多个通道下的空域特征；其中，所述多个通道中的不同通道对应于所述至少一个二维卷积层中最后一个卷积层的不同卷积核；

在所述第一偏移层，对所述N个视频帧在所述多个通道中的至少一个通道下的空域特征进行第一时序偏移，以得到所述N个视频帧中各视频帧的第一空域特征；

在所述第二偏移层，对所述N个视频帧在所述多个通道中的至少一个通道下的空域特征进行第二时序偏移，以得到所述N个视频帧中各视频帧的第二空域特征；其中，所述第一时序偏移和所述第二时序偏移的时间偏移量不同，或者所偏移的通道不同；

在所述分类层，至少根据所述N个视频帧中各视频帧的所述第一空域特征和所述第二空域特征，确定所述第一视频的语义；

在所述输出层，输出所述第一视频的语义。

实施例2.根据实施例1所述的方法，所述第一时序偏移包括：在所述第一偏移层，对所述N个视频帧中每个视频帧在所述多个通道中的至少一个通道下的空域特征进行第一时序偏移，所述至少一个通道包括第一通道，所述第一时序偏移对应的时间偏移量为T，T为大于或等于1且小于N的正整数，或者，T为大于-N且小于或等于-1的负整数，使得所述N个视频帧中第k个视频帧在所述第一通道下的空域特征被偏移到第k+T个视频帧在所述第一通道下的空域特征，k依次在区间[1，N]中取正整数值，以得到所述N个视频帧中各视频帧的第一空域特征；

所述第二时序偏移包括：在所述第二偏移层，对所述N个视频帧中每个视频帧在所述多个通道中的至少一个通道下的空域特征进行第二时序偏移，所述至少一个通道包括第二通道，所述第二时序偏移对应的时间偏移量为T′，T′为大于或等于1且小于N的正整数，或者， T′为大于-N且小于或等于-1的负整数，使得所述N个视频帧中第k个视频帧在所述第二通道下的空域特征被偏移到第k+T′个视频帧在所述第二通道下的空域特征，k依次在区间 [1，N]中取正整数值，以得到所述N个视频帧中各视频帧的第二空域特征。

实施例3.根据实施例2所述的方法，所述方法还包括：所述T不等于T′，所述第一通道与所述第二通道为同一通道；或，

所述T等于T′，所述第一通道与所述第二通道为不同通道；或，

所述T不等于T′，所述第一通道与所述第二通道为不同通道。

实施例4.根据实施例1所述的方法，所述分类层包括并列设置的多个二维卷积层，所述多个二维卷积层中的卷积层和所述多个偏移层中的偏移层一一对应；

所述至少根据所述N个视频帧中各视频帧的所述第一空域特征和所述第二空域特征，确定所述第一视频的语义包括：

在所述多个二维卷积层中的第一卷积层，对所述N个视频帧中第一视频帧的所述第一空域特征进行卷积处理，得到所述第一视频帧的第一融合时空特征；所述第一卷积层对应所述第一偏移层；

在所述多个二维卷积层中的第二卷积层，对所述第一视频帧的所述第二空域特征进行卷积处理，得到所述第一视频帧的第二融合时空特征；

至少根据N个视频帧中各视频帧的所述第一融合时空特征和所述第二融合时空特征，确定所述第一视频帧的语义。

实施例5.根据4所述的方法，所述第一融合时空特征和所述第二融合时空特征均包括M 个通道下的特征，所述M个通道中的每一个通道下的特征由矩阵表示；M为正整数；

所述至少根据N个视频帧中各视频帧的所述第一融合时空特征和所述第二融合时空特征，确定所述第一视频帧的语义包括：

对所述第一视频帧的所述第一融合时空特征包括的M个通道中第i个通道下的特征，和所述第一视频帧的所述第二融合时空特征包括的M个通道中第i个通道下的特征，进行点对点相加，i依次在区间[1，M]取整数值，以得到所述第一视频帧的第三融合时空特征；

根据所述N个视频帧中各个视频帧的第三融合时空特征，确定所述第一视频的语义。

实施例6.根据权利要求1所述的方法，所述至少根据所述N个视频帧中各视频帧的所述第一空域特征和所述第二空域特征，确定所述第一视频的语义包括：

根据所述N个视频帧中第一视频帧在所述多个通道下的空域特征，对所述第一视频帧的所述第一空域特征进行特征补偿，以得到第一残差空域特征；

根据所述N个视频帧中第一视频帧在所述多个通道下的空域特征，对所述第一视频帧的所述第二空域特征进行特征补偿，以得到第二残差空域特征；

根据所述第一残差空域特征和所述第二残差空域特征，确定所述第一视频的语义。

实施例7.一种计算机执行的、利用神经网络识别视频语义的方法，所述神经网络包括输入层、空域特征提取层、串行设置的至少一个残差网络层、分类层、输出层；其中，所述空域特征层包括串行设置的至少一个二维卷积层；所述至少一个残差网络层中的每一个残差网络层包括串行设置的多个时空特征提取层和空域特征补偿层；其中，所述多个时空特征提取层中每个时空特征提取层包括串行设置的偏移子层和卷积子层；

所述方法包括：

在所述空域特征提取层，提取所述N个视频帧中每一个视频帧在多个通道下的空域特征；其中，所述多个通道中的不同通道对应于所述至少一个二维卷积层的最后一个卷积层的不同卷积核；

在所述至少一个残差网络层中的第一残差网络层的第一时空特征提取层，提取所述N个视频帧的第一融合时空特征；当所述第一时空特征层是所述第一残差网络层的多个时空特征提取层中的最后一个时，在所述第一残差网络层的空域特征补偿层，根据所述N个视频帧的第一融合时空特征和所述N个视频在所述多个通道下的空域特征，确定将由所述第一残差网络层输出的所述N个视频帧的残差空域特征；其中，所述提取所述N个视频帧的第一融合时空特征包括：在所述第一时空特征提取层的偏移子层，对所述N个视频帧在至少一个通道下的空域特征进行时序偏移，以得到所述N个视频帧中各视频帧的第一空域特征，所述至少一个通道下的空域特征是所述第一时空特征提取层的上一层输出的空域特征中的一部分；在所述第一时空特征提取层的卷积子层，对所述N个视频帧中各视频帧的第一空域特征进行卷积处理，以得到所述N个视频帧的第一融合时空特征；

在所述分类层，根据所述至少一个残差网络层中的最后一个残差网络层输出的所述N个视频帧的残差空域特征，确定所述第一视频的语义；

在所述输出层，输出所述第一视频的语义。

实施例8.根据7所述的方法，所述对所述N个视频帧在至少一个通道下的空域特征进行时序偏移，以得到所述N个视频帧中各视频帧的第一空域特征包括：

对所述N个视频帧中每个视频帧在所述至少一个通道下的空域特征进行时序偏移，所述至少一个通道包括第一通道，所述时序偏移对应的时间偏移量为T，T为大于或等于1且小于 N的正整数，或者，T为大于-N且小于或等于-1的负整数，使得所述N个视频帧中第k个视频帧在所述第一通道下的空域特征被偏移到第k+T个视频帧在所述第一通道下的空域特征，k依次在区间[1，N]中取正整数值，以得到所述N个视频帧中各视频帧的第一空域特征。

实施例9.一种识别视频语义的装置，包括：输入单元、空域特征提取单元、多个偏移单元、分类单元、输出单元；其中，空域特征提取单元包括串行设置的至少一个二维卷积单元，所述多个偏移单元包括并行设置的第一偏移单元和第二偏移单元；

所述输入单元，用于获取第一视频的N个视频帧，N为大于1的正整数；

所述空域特征提取单元，用于提取所述N个视频帧中每一个视频帧在多个通道下的空域特征；其中，所述多个通道中的不同通道对应于所述至少一个二维卷积单元中最后一个卷积单元的不同卷积核；

所述第一偏移单元，用于对所述N个视频帧在所述多个通道中的至少一个通道下的空域特征进行第一时序偏移，以得到所述N个视频帧中各视频帧的第一空域特征；

所述第二偏移单元，用于对所述N个视频帧在所述多个通道中的至少一个通道下的空域特征进行第二时序偏移，以得到所述N个视频帧中各视频帧的第二空域特征；其中，所述第一时序偏移和所述第二时序偏移的时间偏移量不同，或者所偏移的通道不同；

所述分类单元，用于至少根据所述N个视频帧中各视频帧的所述第一空域特征和所述第二空域特征，确定所述第一视频的语义；

所述输出单元，用于输出所述第一视频的语义。

实施例10.根据实施例9所述的装置，所述第一偏移单元还用于：对所述N个视频帧中每个视频帧在所述多个通道中的至少一个通道下的空域特征进行第一时序偏移，所述至少一个通道包括第一通道，所述第一时序偏移对应的时间偏移量为T，T为大于或等于1且小于N 的正整数，或者，T为大于-N且小于或等于-1的负整数，使得所述N个视频帧中第k个视频帧在所述第一通道下的空域特征被偏移到第k+T个视频帧在所述第一通道下的空域特征， k依次在区间[1，N]中取正整数值，以得到所述N个视频帧中各视频帧的第一空域特征；

所述第二偏移单元还用于：对所述N个视频帧中每个视频帧在所述多个通道中的至少一个通道下的空域特征进行第二时序偏移，所述至少一个通道包括第二通道，所述第二时序偏移对应的时间偏移量为T′，T′为大于或等于1且小于N的正整数，或者，T′为大于-N且小于或等于-1的负整数，使得所述N个视频帧中第k个视频帧在所述第二通道下的空域特征被偏移到第k+T′个视频帧在所述第二通道下的空域特征，k依次在区间[1，N]中取正整数值，以得到所述N个视频帧中各视频帧的第二空域特征。

实施例11.根据实施例10所述的装置，所述T不等于T′，所述第一通道与所述第二通道为同一通道；或，

实施例12.根据10所述的装置，所述分类单元包括并列设置的多个二维卷积单元，所述多个二维卷积单元中的卷积单元和所述多个偏移单元中的偏移单元一一对应；

所述多个二维卷积单元中的第一卷积单元，用于对所述N个视频帧中第一视频帧的所述第一空域特征进行卷积处理，得到所述第一视频帧的第一融合时空特征；所述第一卷积单元对应所述第一偏移单元；

所述多个二维卷积单元中的第二卷积单元，用于对所述第一视频帧的所述第二空域特征进行卷积处理，得到所述第一视频帧的第二融合时空特征；

所述分类单元，用于至少根据N个视频帧中各视频帧的所述第一融合时空特征和所述第二融合时空特征，确定所述第一视频帧的语义。

实施例13.根据实施例12所述的装置，所述第一融合时空特征和所述第二融合时空特征均包括M个通道下的特征，所述M个通道中的每一个通道下的特征由矩阵表示；M为正整数；

所述分类单元用于：

实施例14.根据实施例9所述的装置，所述分类单元用于：

实施例15.一种识别视频语义的装置，包括输入单元、空域特征提取单元、串行设置的至少一个残差网络单元、分类单元、输出单元；其中，所述空域特征提取单元包括串行设置的至少一个二维卷积单元；所述至少一个残差网络单元中的每一个残差网络单元包括串行设置的多个时空特征提取单元和空域特征补偿单元；其中，所述多个时空特征提取单元中每个时空特征提取单元包括串行设置的偏移子单元和卷积子单元；

所述输入单元，用于获取第一视频中的N个视频帧，N为大于1的正整数；

所述空域特征提取单元，用于提取所述N个视频帧中每一个视频帧在多个通道下的空域特征；其中，所述多个通道中的不同通道对应于所述至少一个二维卷积单元的最后一个卷积单元的不同卷积核；

所述至少一个残差网络单元中的第一残差网络单元的第一时空特征提取单元，用于提取所述N个视频帧的第一融合时空特征；当所述第一时空特征单元是所述第一残差网络单元的多个时空特征提取单元中的最后一个时，所述第一残差网络单元的空域特征补偿单元，用于根据所述N个视频帧的第一融合时空特征和所述N个视频在所述多个通道下的空域特征，确定将由所述第一残差网络单元输出的所述N个视频帧的残差空域特征；其中，所述第一时空特征提取层的偏移子单元，用于对所述N个视频帧在至少一个通道下的空域特征进行时序偏移，以得到所述N个视频帧中各视频帧的第一空域特征，所述至少一个通道下的空域特征是所述第一时空特征提取单元的上一单元输出的空域特征中的一部分；所述第一时空特征提取单元的卷积子单元，用于对所述N个视频帧中各视频帧的第一空域特征进行卷积处理，以得到所述N个视频帧的第一融合时空特征；

所述分类单元，用于根据所述至少一个残差网络单元中的最后一个残差网络单元输出的所述N个视频帧的残差空域特征，确定所述第一视频的语义；

所述输出单元，用于输出所述第一视频的语义。

实施例16.根据实施例15所述的装置，，所述第一时空特征提取层的偏移子单元用于：

实施例17.一种计算设备，包括：处理器、存储器；

所述存储器用于存储计算机指令；

当所述计算设备运行时，所述处理器执行所述计算机指令，使得所述计算设备执行实施例1-6任一项所述的方法。

实施例18.一种计算设备，包括：处理器、存储器；

所述存储器用于存储计算机指令；

当所述计算设备运行时，所述处理器执行所述计算机指令，使得所述计算设备执行实施例7或8所述的方法。

实施例19.一种计算机存储介质，所述计算机存储介质包括计算机指令，当所述计算机指令在计算设备上运行时，使得所述计算设备执行实施例1-6任一项所述的方法。

实施例20.一种计算机存储介质，所述计算机存储介质包括计算机指令，当所述计算机指令在计算设备上运行时，使得所述计算设备执行实施例7或8所述的方法。

实施例21.一种计算机程序产品，计算机程序产品包含的程序代码被用于电子设备中的处理器执行时，实现实施例1-8任一项所述的方法。

本申请第三方面提供的识别视频语义的方法及装置的一些实施例中，可以对视频中视频帧的空域特征进行不同时间量的时序偏移，从而可以捕捉到视频中不同运动频率物体的信息；在一些实施例中，进一步还可以对视频中视频帧的空域特征进行不同通道下空域特征的时序偏移，从而可以保证潜在物体类别的信息被捕捉到，从而提高了视频语义分类结果的准确度。并且，本申请的一些实施例提供的视频语义识别方法，采用并行的方式，对视频中视频帧的空域特征进行不同时间量的时序偏移或不同通道下空域特征的时序偏移，避免了串行方式对视频的时域信息和空域信息的多次糅杂而导致的不可解释性或解释性差的问题。

第四方面，本申请提供了如下多个方法实施例和装置实施例，包括：

实施例1.一种景别确定方法，所述方法包括：

获取第一视频中的N个视频帧，所述N个视频帧包括第一视频帧和第二视频帧，所述第一视频帧和所述第二视频帧在所述N个视频中相邻；N为大于1的正整数；

当所述第一视频帧包括第一物体，且所述第二视频包括所述第一物体时，确定所述第一物体在所述第一视频中的位置，以及确定所述第一物体在所述视频帧中的位置；

当所述第一物体在所述第一视频中的位置不同于所述第一物体在所述视频帧中的位置时，根据所述第一视频帧中所述第一物体的拍摄深度，确定所述第一视频帧的景别；其中，所述拍摄深度为相机在拍摄所述第一视频帧时所述相机与所述第一物体之间的距离。

实施例2.根据实施例1所述的方法，所述方法还包括：

确定所述第一物体在所述第一视频帧中的大小，以及确定所述第一物体在所述第二视频帧中的大小；

当所述第一物体在所述第一视频帧中的大小不同于所述第一物体在所述第二视频帧中的大小时，根据所述第一视频帧的中心区域的拍摄深度，确定所述第一视频帧的景别。

实施例3.根据实施例2所述的方法，所述第一物体包括多个物体；所述根据所述第一视频帧的中心区域的拍摄深度，确定所述第一视频帧的景别包括：

当所述第一物体在所述第一视频中的位置不同于所述第一物体在所述第二视频帧中的位置，且所述第一物体在所述第一视频帧中的大小不同于所述第一物体在所述第二视频帧中的大小时，确定所述多个物体中的第二物体最接近所述第一视频帧的中心区域；

根据所述第一视频帧中所述第二物体的拍摄深度，确定所述第一视频帧的景别。

实施例4.根据实施例1所述的方法，所述第一物体包括多个物体，其中，不同物体具有不同的注意优先级；

所述根据所述第一视频帧中所述第一物体的拍摄深度，确定所述第一视频帧的景别包括：

根据所述多个物体中注意优先级最高的物体的拍摄深度，确定所述第一视频帧的景别。

实施例5.根据实施例4所述的方法，所述多个物体包括人物、动物、植物、非生命物体；其中，人物的注意优先级高于动物的注意优先级，动物的注意优先级高于植物的注意优先级，植物的注意优先级高于非生命物体的注意优先级。

实施例6.根据实施例1所述的方法，所述根据所述第一视频帧中所述第一物体的拍摄深度，确定所述第一视频帧的景别包括：

当所述第一视频帧中所述第一物体的拍摄深度＜第一距离时，确定所述第一视频帧的景别为近景；

或者，

当所述第一视频帧中所述第一物体的拍摄深度＞第二距离时，确定所述第一视频帧的景别为远景；

或者，

当所述第一视频帧中所述第一物体的拍摄深度≥第一距离，且所述第一视频帧中所述第一物体的拍摄深度≤第二距离时，确定所述第一视频帧的景别为中景。

实施例7.根据实施例6所述的方法，所述第一距离和/或所述第二距离是由用户设置的。

实施例8.根据实施例7所述的方法，在从所述第一视频中确定N帧图像之前，所述方法还包括：

显示输入界面，所述输入界面包括第一输入框；

确定所述用户在所述第一输入框输入的第一长度，为所述第一距离或所述第二距离。

实施例9.根据7所述的方法，在从所述第一视频中确定N帧图像之前，所述方法还包括：

显示距离选择界面，所述选择界面包括多个选择功能区，所述多个选择功能中不同选择功能对应不同的长度；

响应于针对所述多个选择功能区中第一选择功能区的操作，确定所述第一选择功能区对应的长度为所述第一距离或所述第二距离。

实施例10.根据实施例1-9所述的方法，所述第一物体为通过视觉显著性检测算法从所述第一视频帧中识别到的物体。

实施例11.一种景别确定装置，所述装置包括：

获取单元，用于获取第一视频中的N个视频帧，所述N个视频帧包括第一视频帧和第二视频帧，所述第一视频帧和所述第二视频帧在所述N个视频中相邻；N为大于1的正整数；

第一确定单元，用于当所述第一视频帧包括第一物体，且所述第二视频包括所述第一物体时，确定所述第一物体在所述第一视频中的位置，以及确定所述第一物体在所述视频帧中的位置；

第二确定单元，用于当所述第一物体在所述第一视频中的位置不同于所述第一物体在所述视频帧中的位置时，根据所述第一视频帧中所述第一物体的拍摄深度，确定所述第一视频帧的景别；其中，所述拍摄深度为相机在拍摄所述第一视频帧时所述相机与所述第一物体之间的距离。

实施例12.根据11所述的装置，所述第一确定单元还用于，确定所述第一物体在所述第一视频帧中的大小，以及确定所述第一物体在所述第二视频帧中的大小；

所述第二确定单元还用于，当所述第一物体在所述第一视频帧中的大小不同于所述第一物体在所述第二视频帧中的大小时，根据所述第一视频帧的中心区域的拍摄深度，确定所述第一视频帧的景别。

实施例13.根据实施例12所述的装置，所述第一物体包括多个物体；所述第二确定单元还用于：

实施例14.根据实施例11所述的装置，所述第一物体包括多个物体，其中，不同物体具有不同的注意优先级；

所述第二确定单元还用于，根据所述多个物体中注意优先级最高的物体的拍摄深度，确定所述第一视频帧的景别。

实施例15.根据实施例14所述的装置，所述多个物体包括人物、动物、植物、非生命物体；其中，人物的注意优先级高于动物的注意优先级，动物的注意优先级高于植物的注意优先级，植物的注意优先级高于非生命物体的注意优先级。

实施例16.根据实施例11所述的装置，所述第二确定单元还用于：

或者，

实施例17.根据实施例16所述的装置，所述第一距离和/或所述第二距离是由用户设置的。

实施例18.根据实施例17所述的装置，所述装置还包括：

显示单元，用于显示输入界面，所述输入界面包括第一输入框；

第三确定单元，用于确定所述用户在所述第一输入框输入的第一长度，为所述第一距离或所述第二距离。

实施例19.根据实施例17所述的装置，所述装置还包括：

显示单元，用于显示距离选择界面，所述选择界面包括多个选择功能区，所述多个选择功能中不同选择功能对应不同的长度；

第三确定单元，用于响应于针对所述多个选择功能区中第一选择功能区的操作，确定所述第一选择功能区对应的长度为所述第一距离或所述第二距离。

实施例20.根据实施例11-19所述的装置，所述第一物体为通过视觉显著性检测算法从所述第一视频帧中识别到的物体。

实施例21.一种计算设备，包括：处理器、存储器；

所述存储器用于存储计算机指令；

当所述计算设备运行时，所述处理器执行所述计算机指令，使得所述计算设备执行实施例1-10任一项所述的方法。

实施例22.一种计算机存储介质，所述计算机存储介质包括计算机指令，当所述计算机指令在计算设备上运行时，使得所述计算设备执行实施例1-10任一项所述的方法。

实施例23.一种计算机程序产品，计算机程序产品包含的程序代码被用于电子设备中的处理器执行时，实现实施例1-10任一项所述的方法。

本申请第五方面提供的景别确定方法及装置的一些实施例中，可以模拟用户的注意力，确定用户所注意的物体，在另一些实施例中还可以进一步根据该物体的拍摄距离确定视频的景别，以得到更符合用户主观感受的景别。

第五方面，本申请提供了如下多个方法实施例和装置实施例，包括：

实施例1.一种视频处理方法，所述方法包括：

使用神经网络，提取第一视频中的每个视频帧在M个通道下的空域特征，以及提取第二视频中的每个视频帧在所述M个通道下的空域特征；所述神经网络包括至少一个二维卷积层，所述M个通道中的不同通道对应于所述至少一个二维卷积层中最后一个卷积层的不同卷积核；M为大于或等于1的正整数；

根据所述第一视频中各个视频帧在所述M个通道下的空域特征和第二视频中各个视频帧在所述M个通道下的空域特征，确定所述第一视频中各个视频帧和所述第二视频中各个视频帧之间的两两视频帧相似度；

根据所述第一视频中各个视频帧和所述第二视频中各个视频帧之间的两两视频帧相似度，确定所述第一视频和所述第二视频的拼接点，以拼接所述第一视频和所述第二视频。

实施例2.根据实施例1所述的方法，所述神经网络还包括并行设置的多个风格迁移层，其中不同的风格迁移层对应不同的物体类别；所述风格迁移层是以参考物体的空域特征为训练数据，训练生成式对抗网络GAN得到的；所述参考物体属于所述风格迁移层对应的物体类别；

所述使用神经网络，提取第一视频中的每个视频帧在M个通道下的空域特征，以及提取第二视频中的每个视频帧在所述M个通道下的空域特征，包括：

对于所述第一视频和所述第二视频中的每个视频帧，根据所述视频帧包括的物体的物体类别，从所述多个风格迁移层中确定对应于所述视频帧的风格迁移层；

使用所述对应于所述视频帧的风格迁移层，对所述视频帧在所述M个通道下的空域特征，进行风格迁移处理，得到所述视频帧在所述M个通道下的第一空域特征；

所述根据所述第一视频中各个视频帧在所述M个通道下的空域特征和第二视频中各个视频帧在所述M个通道下的空域特征，确定所述第一视频中各个视频帧和所述第二视频中各个视频帧之间的两两视频帧相似度，包括：

根据所述第一视频中各个视频帧在所述M个通道下的第一空域特征和第二视频中各个视频帧在所述M个通道下的第一空域特征，确定所述第一视频中各个视频帧和所述第二视频中各个视频帧之间的两两视频帧相似度。

实施例3.根据实施例1或2所述的方法，所述M个通道中的每个通道下的空域特征由长为K，宽为K’的矩阵表示；

将第一视频帧在所述M个通道下的空域特征，划分为所述第一视频帧的K×K’个向量；其中，所述第一视频帧的K×K’个向量中的第i×j个向量由所述第一视频帧在所述M个通道中各通道下的空域特征中坐标为(i，j)的元素组成；i为小于或等于K的正整数，j为小于或等于K’的正整数；所述第一视频帧为所述第一视频中的一个视频帧；

将第二视频帧在所述M个通道下的空域特征，划分为所述第二视频帧的K×K’个向量；其中，所述第二视频帧的K×K’个向量中的第i×j个向量由所述第二视频帧在所述M个通道中各通道下的空域特征中坐标为(i，j)的元素组成；所述第二视频帧为所述第二视频中的一个视频帧；

计算所述第一视频帧的第i×j个向量和所述第二视频帧的第i×j个向量之间的余弦距离；

根据所述余弦距离，确定所述第一视频帧和所述第二视频帧在第i×j个向量下的相似度；

根据所述第一视频帧和所述第二视频帧在K×K’个向量中各个向量下的相似度，确定所述第一视频帧和所述第二视频帧的两两视频帧相似度。

实施例4.根据实施例3所述的方法，所述方法还包括：

计算所述第一视频帧在所述M个通道中各通道下的空域特征中坐标为(i，j)的元素的第一平均值，以及所述第二视频帧在所述M个通道中各通道下的空域特征中坐标为(i，j) 的元素的第二平均值；

所述根据所述余弦距离，确定所述第一视频帧和所述第二视频帧在第i×j个向量下的相似度，包括：

计算所述余弦距离和所述第一平均值的第一乘积，以及所述余弦距离和所述第二平均值的第二乘积；

根据所述第一乘积和所述第二乘积，确定所述第一视频帧和所述第二视频帧的两两视频帧相似度。

实施例5.根据实施例1所述的方法，所述根据所述第一视频中各个视频帧和所述第二视频中各个视频帧之间的两两视频帧相似度，确定所述第一视频和所述第二视频的拼接点，包括：

确定所述第一视频中各个视频帧和所述第二视频中各个视频帧之间的两两视频帧相似度的最大的两两视频帧相似度；

确定所述最大的两两视频帧相似度对应的两个视频帧为所述第一视频和所述第二视频的拼接点。

实施例6.根据实施例5所述的方法，所述两个视频帧为所述第一视频中的第三视频帧和所述第二视频中的第四视频帧；所述方法还包括：

将所述第一视频中的第一片段和所述第二视频中的第二片段，拼接成第三视频；

其中，所述第一片段的起始视频帧为所述第一视频的第一个视频帧，终点视频帧为所述第三视频帧；所述第二片段的起始视频帧为所述第四视频帧，终点视频帧为所述第一视频的最后一个视频帧；在所述第三视频中，所述第一片段位于所述第二片段之前；或者，

所述第一片段的起始视频帧为所述第三视频帧，终点视频帧为所述第一视频的最后一个视频帧；所述第二片段的起始视频帧为所述第二视频的第一个视频帧，终点视频帧为所述第四视频帧；在所述第三视频中，所述第二片段位于所述第一片段之前。

实施例7.根据实施例1所述的方法，所述方法还包括：

获取第四视频；

确定所述第四视频中具有第一细节动态语义的片段为所述第一视频，以及确定所述第四视频中具有第二细节动态语义的片段为所述第二视频。

实施例8.一种视频处理方法，所述方法包括：

对第一视频进行抽帧处理，得到N个视频帧；

使用神经网络，提取所述N个视频帧中每个视频帧在M个通道下的空域特征；所述神经网络包括至少一个二维卷积层，所述M个通道中的不同通道对应于所述至少一个二维卷积层中最后一个卷积层的不同卷积核；

根据所述N个视频帧中各个视频帧在所述M个通道下的空域特征，确定所述N个视频帧中相邻视频帧之间的两两视频帧相似度；

根据所述N个视频帧中各相邻视频帧之间的两两视频帧相似度和N个视频帧中各视频帧的时间点，确定第一曲线；

对所述第一曲线进行傅里叶变换，得到第一变换结果；

从所述第一变换结果中，确定小于阈值的变换结果；

根据所述小于阈值的变换结果以及所述小于阈值的变换结果对应的时间点，确定第二曲线；

确定所述第一曲线和所述第二曲线的交点对应的视频帧为关键视频帧；

使用关键视频帧合成视频，得到压缩后的所述第一视频。

实施例9.根据实施例8所述的方法，所述阈值小于或等于所述第一变换结果中最大值的二分之一。

实施例10.根据9所述的方法，所述阈值为所述第一变换结果中最大值的四分之一。

实施例11.一种视频处理装置，所述装置包括：

提取单元，用于使用神经网络，提取第一视频中的每个视频帧在M个通道下的空域特征，以及提取第二视频中的每个视频帧在所述M个通道下的空域特征；所述神经网络包括至少一个二维卷积层，所述M个通道中的不同通道对应于所述至少一个二维卷积层中最后一个卷积层的不同卷积核；M为大于或等于1的正整数；

第一确定单元，用于根据所述第一视频中各个视频帧在所述M个通道下的空域特征和第二视频中各个视频帧在所述M个通道下的空域特征，确定所述第一视频中各个视频帧和所述第二视频中各个视频帧之间的两两视频帧相似度；

第二确定单元，用于根据所述第一视频中各个视频帧和所述第二视频中各个视频帧之间的两两视频帧相似度，确定所述第一视频和所述第二视频的拼接点，以拼接所述第一视频和所述第二视频。

实施例12.根据实施例11所述的装置，所述神经网络还包括并行设置的多个风格迁移层，其中不同的风格迁移层对应不同的物体类别；所述风格迁移层是以参考物体的空域特征为训练数据，训练生成式对抗网络GAN得到的；所述参考物体属于所述风格迁移层对应的物体类别；

所述提取单元还用于：

所述第一确定单元还用于：根据所述第一视频中各个视频帧在所述M个通道下的第一空域特征和第二视频中各个视频帧在所述M个通道下的第一空域特征，确定所述第一视频中各个视频帧和所述第二视频中各个视频帧之间的两两视频帧相似度。

实施例13.根据实施例11或12所述的装置，所述M个通道中的每个通道下的空域特征由长为K，宽为K’的矩阵表示；

所述第一确定单元还用于：

实施例14.根据实施例13所述的装置，所述装置还包括计算单元，用于计算所述第一视频帧在所述M个通道中各通道下的空域特征中坐标为(i，j)的元素的第一平均值，以及所述第二视频帧在所述M个通道中各通道下的空域特征中坐标为(i，j)的元素的第二平均值；

所述第一确定单元还用于：

实施例15.根据实施例11所述的装置，所述第二确定单元还用于：

实施例16.根据实施例15所述的装置，所述两个视频帧为所述第一视频中的第三视频帧和所述第二视频中的第四视频帧；所述装置还包括拼接单元，用于将所述第一视频中的第一片段和所述第二视频中的第二片段，拼接成第三视频；

实施例17.根据实施例11所述的装置，所述装置还包括：

获取单元，用于获取第四视频；

第一确定单元，用于确定所述第四视频中具有第一细节动态语义的片段为所述第一视频，以及确定所述第四视频中具有第二细节动态语义的片段为所述第二视频。

实施例18.一种视频处理装置，所述装置包括：

抽帧单元，用于对第一视频进行抽帧处理，得到N个视频帧；

提取单元，用于使用神经网络，提取所述N个视频帧中每个视频帧在M个通道下的空域特征；所述神经网络包括至少一个二维卷积层，所述M个通道中的不同通道对应于所述至少一个二维卷积层中最后一个卷积层的不同卷积核；

第一确定单元，用于根据所述N个视频帧中各个视频帧在所述M个通道下的空域特征，确定所述N个视频帧中相邻视频帧之间的两两视频帧相似度；

第二确定单元，用于根据所述N个视频帧中各相邻视频帧之间的两两视频帧相似度和N 个视频帧中各视频帧的时间点，确定第一曲线；

变换单元，用于对所述第一曲线进行傅里叶变换，得到第一变换结果；

第三确定单元，用于从所述第一变换结果中，确定小于阈值的变换结果；

第四确定单元，用于根据所述小于阈值的变换结果以及所述小于阈值的变换结果对应的时间点，确定第二曲线；

第五确定单元，用于确定所述第一曲线和所述第二曲线的交点对应的视频帧为关键视频帧；

合成单元，用于使用关键视频帧合成视频，得到压缩后的所述第一视频。

实施例19.根据实施例18所述的装置，所述阈值小于或等于所述第一变换结果中最大值的二分之一。

实施例20.根据实施例19所述的装置，所述阈值为所述第一变换结果中最大值的四分之一。

实施例21.一种计算设备，包括：处理器、存储器；

所述存储器用于存储计算机指令；

当所述计算设备运行时，所述处理器执行所述计算机指令，使得所述计算设备执行实施例1-7任一项所述的方法。

实施例22.一种计算设备，包括：处理器、存储器；

所述存储器用于存储计算机指令；

当所述计算设备运行时，所述处理器执行所述计算机指令，使得所述计算设备执行实施例8-10任一项所述的方法。

实施例23.一种计算机存储介质，所述计算机存储介质包括计算机指令，当所述计算机指令在计算设备上运行时，使得所述计算设备执行实施例1-7任一项所述的方法。

实施例24.一种计算机存储介质，所述计算机存储介质包括计算机指令，当所述计算机指令在计算设备上运行时，使得所述计算设备执行实施例8-10任一项所述的方法。

实施例25.一种计算机程序产品，计算机程序产品包含的程序代码被用于电子设备中的处理器执行时，实现实施例1-7任一项所述的方法或实施例8-10任一项所述的方法。

本申请第五方面提供的视频处理方法及装置的一些实施例中，可以利用视频帧的CNN 特征，计算不同视频或视频片段中视频帧的相似度，并根据视频帧的相似度，确定用于在时间维度上拼接不同视频或视频片段的拼接点，使得拼接后的视频更加流畅，提高了视频的观赏效果。并且，直接利用卷积神经网络提取的视频帧的CNN特征，计算相似度，提高了相似度计算的实时性。卷积神经网络可以提取到视频帧较为丰富的特征，由此也提高了相似度的准确性。

附图说明

图1是本申请实施例提供的一种神经网络的结构示意图；

图2是本申请实施例提供的一种视频语义识别方法流程图；

图3是本申请实施例提供的一种神经网络的结构示意图；

图4是本申请实施例提供的一种动态语义识别层的结构示意图；

图5是本申请实施例提供的一种视频语义识别方法流程图；

图6是本申请实施例提供的一种空域特征提取层的结构示意图；

图7是本申请实施例提供的一种动态语义识别层的结构示意图；

图8是本申请实施例提供的一种视频语义识别方法流程图；

图9是本申请实施例提供的一种视频帧标签处理方法流程图；

图10是本申请实施例提供的一种矩阵示意图；

图11是本申请实施例提供的一种矩阵示意图；

图12是本申请实施例提供的一种用于展示视频中视频帧标签光滑程度的方块图；

图13是本申请实施例提供的得分节点逻辑表达示意图；

图14是本申请实施例提供的一种最小割算法示意图；

图15是本申请实施例提供的一种视频中视频帧标签处理方法流程图；

图16A本申请实施例提供的一种用于展示视频中视频帧标签光滑程度的方块图；

图16B本申请实施例提供的一种用于展示视频中视频帧标签光滑程度的方块图；

图17A本申请实施例提供的一种用于展示视频中视频帧标签光滑程度的方块图；

图17B本申请实施例提供的一种用于展示视频中视频帧标签光滑程度的方块图；

图18A本申请实施例提供的一种用于展示视频中视频帧标签光滑程度的方块图；

图18B本申请实施例提供的一种用于展示视频中视频帧标签光滑程度的方块图；

图19A本申请实施例提供的一种用于展示视频中视频帧标签光滑程度的方块图；

图19B本申请实施例提供的一种用于展示视频中视频帧标签光滑程度的方块图；

图20是本申请实施例提供的一种景别确定方法的流程图；

图21是本申请实施例提供的一种景别确定方法的流程图；

图22是本申请实施例提供的一种景别确定方法的流程图；

图23是本申请实施例提供的一种景别确定方法的流程图；

图24是本申请实施例提供的一种视频语义识别方法流程图；

图25是本申请实施例提供的一种视频语义识别架构图；

图26是本申请实施例提供的一种视频编辑方法流程图；

图27是本申请实施例提供的一种视频编辑方法流程图；

图28是本申请实施例提供的一种视频编辑方法流程图；

图29是本申请实施例提供的一种视频编辑方法流程图；

图30是本申请实施例提供的一种视频处理方法流程图；

图31A是本申请实施例提供的一种神经网络结构示意图；

图31B是本申请实施例提供的一种神经网络结构示意图；

图32是本申请实施例提供的一种视频处理方法流程图；

图33是本申请实施例提供的一种两两视频帧相似度曲线图；

图34是本申请实施例提供的一种视频处理方法流程图；

图35是本申请实施例提供的一种视频处理方法流程图；

图36是本申请实施例提供的一种识别视频语义的装置示意图；

图37是本申请实施例提供的一种视频编辑装置示意图；

图38是本申请实施例提供的一种视频处理装置结构示意图；

图39是本申请实施例提供的一种视频处理装置结构示意图；

图40是本申请实施例提供的一种电子设备示意图。

具体实施方式

下面将结合附图，对本发明实施例中的技术方案进行描述。显然，所描述的实施例仅是本说明书一部分实施例，而不是全部的实施例。

在本说明书的描述中“一个实施例”或“一些实施例”等意味着在本说明书的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。

其中，在本说明书的描述中，除非另有说明，“/”表示或的意思，例如，A/B可以表示A 或B；本文中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如， A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，在本说明书实施例的描述中，“多个”是指两个或多于两个。

在本说明书的描述中，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

在本申请实施例中，可以定义时序片段和三个层级的语义，具体如下。

时序片段是指视频中连续多个视频帧组成的视频片段。连续是指依次相邻，连续的多个视频帧是指该多个视频帧依次相邻。时序片段可以通过组成该时序片段的连续多个视频帧中第一个视频帧在视频中的位置和最后一个视频帧在视频中的位置来表示。其中，该第一个视频帧可以称为该时序片段的起始帧，该最后一个视频帧可以称为该时序片段的截止帧。该第一个视频帧是指该连续多个视频帧中在视频中位置最靠前的视频帧，也就是说，在播放该视频时，在播放了该第一个视频帧后，才依次播放该连续多个视频帧中的其他视频帧。相应地，该最后一个视频帧是指该连续多个视频帧中在视频中位置最靠后的视频帧。具体而言，设定一段时长为60秒的视频，其中第10秒至第15秒的连续多个视频帧组成一时序片段，则该时序片段可以表示为该视频中第10秒至第15秒的片段。其中，第10秒的视频帧为该时序片段的起始帧，第15秒的片段为该时序片段的截止帧。

静态语义，也可以称为表层语义，其是指通过一个视频帧或者说一眼就能识别出的物体语义。换言之，表层语义是单张视频帧所表现的主体、客体或场景。需要说明的是，此处的场景是指场面或情景。主体是指人、动物等具有生命，可自主活动的物体。客体是指篮球、足球、生日蛋糕等不具有生命，不可自主活动的物体。示例性的，静态语义可以是指物体类别。也就是说，对于某个视频帧而言，其具有静态语义，其静态语义是指该视频帧所包含的物体的类别。可以理解，视频帧中的物体实际为相应的物体的影像，为方便描述，将视频帧中物体的影像称为视频帧中的物体的类别。

动态语义，也可以称为深层语义，其是用于表示动作的信息，其难以一眼看出，需要连续的多个视频帧联合才能识别出的语义。示例性的，动态语义可以是用于表示主体动作的信息，该动作需要连续的多个视频帧联合才能识别出来的主体动作。举例而言，动态语义可以是打篮球、踢足球等等。

细节动态语义，也可以称为细节语义，其是用于表示特定动作的信息，或者说用于表示瞬间精彩动作的信息。举例而言，细节动态语义可以是篮球上篮、足球射门等等。可以将具有细节动态语义的时序片段称为精彩时序片段。

本申请实施例提供了一种视频语义识别方法和视频编辑方法。其中，视频语义识别方法可以识别出具有动态语义的时序片段以及具有静态语义的时序片段。视频编辑方法在视频编辑时，可以优先使用动态语义的时序片段进行视频拼接，从而可以拼接处精彩程度较高的视频。

本申请实施例提供的视频语义识别方法和视频编辑方法，本申请实施例的技术方案可以应用于用户设备执行，该用户设备可以为移动的或固定的，例如该用户设备可以是具有视频帧处理功能的移动电话、平板个人电脑(tablet personal computer，TPC)、媒体播放器、智能电视、笔记本电脑(laptop computer，LC)、个人数字助理(personal digitalassistant，PDA)、个人计算机(personal computer，PC)、照相机、摄像机、智能手表、可穿戴式设备(wearable device， WD)等，本申请实施例对此不作限定。

接下来，在不同实施例中，对本申请实施例提供的视频语义识别方法以及视频编辑方法进行示例说明。

在一些实施例中，本申请实施例提供的视频语义识别方法可以通过图1所示的神经网络实现。该神经网络可以包括输入层、空域特征提取层、静态语义识别层、动态语义识别层、时序片段划分层和输出层。静态语义识别层和动态语义识别层并列设置。

参阅图2，本申请实施例提供的视频语义识别方法可以包括如下步骤。

步骤201，在输入层，获取视频的多个视频帧。

可以通过输入层，可以向该神经网络输入视频A。也就是说，在输入层，可以获取视频 A。视频A由一系列静态图像构成，其中的图像可以称为帧(frame)或者说视频帧。在获取视频A时或之后，可以对视频A进行视频分帧。视频分帧也可以称为视频解帧，其是将视频分解成序列视频帧或者说序列图像。换言之，是将视频分解成多个视频帧或者说多个图像。其中，多个视频帧中的视频帧之间的位置关系和在视频中的位置关系一致。

步骤202，在空域特征提取层，提取所述多个视频帧中每一个视频帧的空域特征。

在空域特征提取层，提取多个视频帧中每一个视频帧的空域特征。视频帧的空域特征是指视频帧的空间特征信息，或者说该视频帧所表现的空间或影像的特征信息。

示例性的，视频帧的空域特征可以通过传统的二维(2D)卷积神经网络进行卷积得到。举例而言，空域特征提取层可以包括至少一个卷积层。该至少一个卷积层可以依次相接，使得上一层的输出可以作为下一层的输入。卷积层用于进行视频帧的空域特征提取。就该至少一个卷积层中的一个卷积层而言，其卷积层可以包括多个卷积核。可以使用多个卷积核中的一个卷积核对视频帧进行卷积操作，可以得到一个特征图(feature map)(特征图也可以称为通道(channel))。多个卷积核可以到多个特征图。

其中，当卷积层不是该至少一个卷积层中的最后一层时，将该卷积层得到的多个特征图输入到下一卷积层。该下一卷积层的每一个卷积核对多个特征图进行卷积处理，得到一个特征图。当该下一层有多个卷积核时，可以得到多个特征图。

可以将在该卷积层得到的多个特征图叠加。具体而言，特征图可以表示为二维矩阵，不同特征图叠加可以是指不同二维矩阵中对应位置元素相加。叠加后的特征图可以作为下一层的输入。

当卷积层是该至少一个卷积层的最后一层时，该卷积层可以直接输出在该卷积层得到的多个特征图。该多个特征图可以用作在空域特征提取层提取得到的相应视频帧的空域特征。

继续参阅图2，本申请实施例提供的视频语义识别方法还包括：步骤203a，在动态语义识别层，根据所述多个视频帧中的N个连续视频帧的空域特征，确定所述N个连续视频帧中第N个视频帧的动态语义；N为正整数。由上所述，视频A经过视频分帧，可以得到多个视频帧。在动态语义识别层，可以根据多个视频帧中N个连续视频帧的空域特征，确定该N个连续视频帧中第N个视频帧的动态语义。N可以为设定值，例如可以为5，也可以为10，也可以为15，等等，此处不再一一赘述。

具体而言，可以联合该N个连续视频帧的空域特征，确定该N个连续视频帧整体是否具有或者是否表示出动态语义。若该N个连续视频帧整体具有或表示出动态语义，则将动态语义确定为该N个连续视频帧中第N个视频帧的动态语义。若该N个连续视频帧整体不具有或不表示动态语义，则确定该N个连续视频帧中第N个视频帧不具有动态语义。

可以理解，对于该多个视频帧中的第1个视频帧至第N-1个视频帧，由于难以根据上述方案确定是否具有动态语义，因此，在本申请实施例中，可以默认第1个视频帧至第N-1个视频帧不具有动态语义。

在一些实施例中，在动态语义识别层，可以基于时序偏移模块(temporal shiftmodule， TSM)方案，确定该N个连续视频帧所表示的动态语义，进而确定该N个连续视频帧中第N 个视频帧的动态语义。在时序偏移模块方案中，将堆叠在一起的N个连续视频帧的空域特征，在某一个或某些通道(特征图)上进行时序偏移，得到N个连续视频帧的残差空域特征。由此，通过不同视频帧通道上的融合，实现了不同视频帧时域上的融合。然后，再将N个连续视频帧的残差空域特征输入到卷积神经网络进行特征提取，从而在进一步提取空域特征的同时，可以提取到N个连续视频帧间的时域特征。可以将通道融合后的N个连续视频帧的空域特征输入到卷积神经网络进行提取，得到的提取结果称为该N个连续视频帧的时空特征。利用该N个连续视频帧的时空特征，对该N个连续视频帧进行分类，可以得到该N个连续视频帧整体具有或表示的动态语义。

接下来，对时序偏移模块方案进行举例说明。对于一个视频帧而言，可以设定空域特征提取层提取到L个通道。该L个通道可以包括通道B1、通道B2、通道B3、通道B4等。可以理解，L个通道中不同通道由空域特征提取层的不同卷积核进行卷积处理得到。在动态语义识别层，可以使用该N个连续视频帧中第1个视频帧的B1通道替换该N个连续视频帧中第2个视频帧的B1通道，使用该N个连续视频帧中第2个视频帧的B1通道替换该N个连续视频帧中第3个视频帧的B1通道，......，使用该N个连续视频帧中第N-1个视频帧的B1 通道替换该N个连续视频帧中第N个视频帧的B1通道，由此，完成通道B1的偏移处理。同理，也可以进行通道B2的偏移处理。示例性的，进行偏移的通道的个数是L的四分之一。

通过上述的通道偏移处理，得到N个连续视频帧的残差空域特征。将N个连续视频帧的残差空域特征输入到卷积神经网络进行卷积处理，可以得到该N个连续视频帧时空特征。另外，需要说明的是，若该卷积神经网络具有多个卷积层，且每个卷积层具有多个卷积核。则该多个卷积层的不同卷积层之间可以设置由通道偏移层。在通道偏移层，可以参考上述通道偏移处理方案对其上一层卷积层输出的N个连续视频帧的通道进行偏移处理，然后，作为其下一层卷积层的输入。其中，卷积神经网络对N个连续视频帧的残差空域特征的卷积处理，可以参考2D卷积神经网络对图像的堆叠通道的卷积处理过程，在此不再赘述。

通过上述方案，可以提取到N个连续视频帧的时空特征，进而可以对该N个连续视频帧的整体进行分类(例如，通过softmax函数进行分类)，得到该N个连续视频帧的整体所具有或所表示的动态语义。

在一些实施例中，提供了另一个确定视频帧的动态语义的方案。参阅图3，该方案可以根据N个连续视频帧中每一个视频帧在多个通道下的空域特征，确定该N个视频帧的整体所具有或所表示的动态语义，进而确定该N个视频帧第N个视频帧的动态语义。其中，N个视频帧可以为N个连续的视频帧，也就是说，该N个视频帧在视频A中依次相邻。该也可以为对视频A进行抽帧处理后的N个视频帧，该N个视频帧中两两相邻视频帧，在视频A 中可以不相邻。概况而言，在该N个视频帧之间进行同一通道下的空域特征的不同时间量的偏移，和/或，在该N个视频帧之间进行不同通道的下的空域特征的偏移，使得N个视频帧中的视频帧A1的空域特征中混合了位于视频帧A1前的视频帧的空域特征和/或位于视频帧 A1后的视频帧的空域特征。为了方便描述，可以将在视频帧A1在多个通道下空域特征中混合了其他视频帧在一个或多个通道下的空域特征后，得到的视频帧A1的空域特征称为视频帧A1的混合空域特征。换言之，对于视频A1中的视频帧A1而言，其混合空域特征是指在其空域特征中混合了位于其前的视频帧在至少一个通道下的空域特征和/或位于其后的视频帧在至少一个通道下空域特征后得到的空域特征。其中，在本申请实施例中，如无特殊说，前、后是指在视频的时间序列上或者说时域上的前、后。举例而言，位于视频帧A1前的视频帧是指在视频A的时间序列上或者说时域上位于视频帧A1之前的视频帧。换言之，在视频A播放时，先播放位于视频帧A1前的视频帧，然后才播放视频帧A1。同理，位于视频帧 A1后的视频帧是指在视频A的时间序列上或者说时域上位于视频帧A1之后的视频帧。

更具体地，图4示出了动态语义识别层的一种具体结构。其中，包括多个偏移层、分类层、输出层。该多个偏移层可以并行设置。

基于图4所示的动态语义识别层，可以通过如图5所示的步骤，确定视频帧的动态语义。

其中，在执行图5所示的步骤之前，动态语义识别层可以获取空域特征提取层输出的N 个视频帧的空域特征。该N个视频帧中每个视频帧的空域特征可以为在多个通道下的空域特征。在一个示例中，参阅图6，空域特征提取层可以包括至少一个二维卷积层。该至少一个二维卷积层中的二维卷积层可以依次相接，上一层的输出可以作为下一层的输入。二维卷积层用于进行视频帧的空域特征提取。就该至少一个二维卷积层中的一个二维卷积层而言，其可以包括多个卷积核。卷积核也可以称为卷积算子，可以理解为用于提取视频帧中特定信息的过滤器。本质上将，卷积核可以是一个权重矩阵，其中的参数可以经过有监督训练得到。例如，卷积核中的初始参数可以为预设值或者随机化值，在对神经网络进行有监督训练过程中，计算神经网络输出的结果会和训练集标签之间的损失(Ioss)，在损失缩小的方向更新卷积核中的参数。如此，经过训练，可以得到卷积核中的参数。另外，为方便描述，在下文中，如无特殊说明，卷积层是指二维卷积层。

对于空域特征提取层中的卷积层而言，可以使用该卷积层的多个卷积核中的一个卷积核对视频帧进行卷积操作，可以提取到空域特征。由卷积核进行卷积操作得到的空域特征，可以称为通道(channe|)下的空域特征，也可以称为特征图(feature map)。一个卷积层的多个卷积核可以得到多个通道下的空域特征，该多个通道中的通道和多个卷积核中的卷积核一一对应。

其中，当某一卷积层不是该至少一个卷积层中的最后一层时，将该卷积层得到的多个特征图输入到下一卷积层。该下一卷积层的每一个卷积核对多个特征图进行卷积处理，得到一个特征图。在一个例子中，每一个卷积核对多个特征图进行卷积处理，得到一个特征图的具体过程可以为：一个卷积核可以对该多个特征图中得每个特征图进行卷积处理，得到一个新的特征图。如此，多个特征图在一个卷积核的卷积处理下，可以得到多个新的特征图。将多个新的特征图进行叠加，得到一个特征图。具体而言，特征图可以表示为二维矩阵，不同特征图叠加可以是指不同二维矩阵中对应位置元素相加。

参考上述方式，经过该下一层的多个卷积核的卷积处理，可以得到该下一层的多个通道下的空域特征。该多个通道核和该多个卷积核一一对应。

参阅图6，当卷积层是空域特征提取层中的卷积层的最后一层卷积层时，可经过通道堆叠，将该最后一层卷积层提取的N个视频帧中每个视频帧在多个通道下的空域特征进行堆叠。该多个通道中的通道和该最后一层卷积层的卷积核一一对应。

在一个例子中，如图6所示，可以设定N个视频帧为视频帧A1、视频帧A2、视频帧A3、视频帧A4。空域特征提取层中最后一个卷积层具有8个卷积核，该8个卷积核为对应于通道C1的卷积核、对应于通道C2的卷积核、对应于通道C3的卷积核、对应于通道C4 的卷积核、对应于通道C5的卷积核、对应于通道C6的卷积核、对应于通道C7的卷积核、对应于通道C8的卷积核。在该例子中，经过空域特征提取层，可以得到视频帧A1、视频帧 A2、视频帧A3、视频帧A4各自在通道C1下的空域特征、在通道C2下的空域特征、在通道C3下的空域特征、在通道C4下的空域特征、在通道C5下的空域特征、在通道C6下的空域特征、在通道C7下的空域特征、在通道C8下的空域特征。然后，按照视频帧A1、视频帧A2、视频帧A3、视频帧A4之间的时序关系，进行通道堆叠，可以得到如图6所示的堆叠特征。

空域特征提取层可以将堆叠后的N个视频帧的在多个通道下的空域特征输出给多个偏移层。

回到图4，该多个偏移层可以包括第一偏移层和第二偏移层。

回到图5，用户设备可以执行步骤501a，在第一偏移层，对所述N个视频帧在所述多个通道中的至少一个通道下的空域特征进行第一时序偏移，以得到所述N个视频帧中各视频帧的第一空域特征。计算机可以执行步骤501b，在第二偏移层，对所述N个视频帧在所述多个通道中的至少一个通道下的空域特征进行第二时序偏移，以得到所述N个视频帧中各视频帧的第二空域特征；其中，所述第一时序偏移和所述第二时序偏移的时间偏移量不同，或者所偏移的通道不同。通道下空域特征的时序偏移可以是指在不同视频帧之间进行通道下的空域特征偏移。示例性的，空域特征偏移可以理解为空域特征替换。举例而言，视频帧A1 在通道C1的空域特征偏移到视频帧A2在通道C1的空域特征，可以理解为，视频帧A2在通道C1的空域特征被替换为了视频帧A1在通道C1的空域特征。第一时序偏移和第二时序偏移的时间偏移量不同可以是指第一时序偏移中通道下空域特征偏移的视频帧的个数和第二时序偏移中通道下空域特征偏移的视频帧的个数不同。第一时序偏移和第二时序偏移所偏移的通道不同可以是指在第一偏移所偏移的空域特征所对应的通道和第二偏移所偏移的空域特征所对应的通道不同。

接下来，对通道下空域特征的时序偏移、时间偏移量不同以及所偏移的通道不同进行具体说明。

在一个说明性示例中，如图4所示，多个偏移层可以包括偏移层B1和偏移层B2。其中，在偏移层B1进行的通道时序偏移所偏移的时间量和在偏移层B2进行的通道时序偏移所偏移的时间量不同。

具体而言，在偏移层B1，可以将通道Cx下的空域特征偏移T个视频帧，通道Cx可以包括一个或多个通道，T为大于或等于1且小于N的正整数，或者，T为大于-N且小于或等于-1的负整数。也就是说，将当前视频帧在通道Cx下的空域特征，偏移到与当前视频帧间隔T-1个视频帧的视频帧，以替换与当前视频帧间隔T-1个视频帧的视频帧在通道Cx下的空域特征。换言之，在偏移层B1，对N个视频帧中每个视频帧在通道Cx下的空域特征进行时序偏移，该时序偏移对应的时间偏移量为T，T为大于或等于1且小于N的正整数，或者， T为大于-N且小于或等于-1的负整数，使得所述N个视频帧中第k个视频帧在通道Cx下的空域特征被偏移到第k+T个视频帧在通道Cx下的空域特征，k依次在区间[1，N]中取正整数值，以得到所述N个视频帧中各视频帧的混合空域特征。示例性的，第k个可以是指在N 个视频帧按照在视频A中的时间顺序所排的序列中的正序第k个，也可以是指倒序第k个。

对于N个视频帧中的一个视频帧，在经过通道Cx下空域特征的时序偏移后，其多个通道下的空域特征中的混入了其他视频帧在通道Cx下空域特征的空域特征(例如，当前视频帧在通道Cx下的空域特征被替换了其他视频帧在通道Cx下的空域特征)，因此，经过在偏移层B1进行的通道Cx下空域特征的通道时序偏移后，视频帧在多个通道下的空域特征可以称为该视频帧的混合空域特征B11。也就是说，N个视频帧的混合空域特征B11包括N个视频帧中各视频帧的混合空域特征B11。

在偏移层B2，可以将通道Cx下的空域特征偏移T’个视频帧，T’为大于或等于1且小于N的正整数，或者，T’为大于-N且小于或等于-1的负整数。也就是说，使用当前视频帧在通道Cx下的空域特征，替换与当前视频帧间隔T’-1个视频帧的视频帧在通道Cx下的空域特征。换言之，在偏移层B2，对N个视频帧中每个视频帧在通道Cx下的空域特征进行时序偏移，该时序偏移对应的时间偏移量为T’，T’为大于或等于1且小于N的正整数，或者， T为大于-N且小于或等于-1的负整数，使得所述N个视频帧中第k个视频帧在通道Cx通道下的空域特征被偏移到第k+T个视频帧在通道Cx下的空域特征，k依次在区间[1，N]中取正整数值，以得到所述N个视频帧中各视频帧的混合空域特征。示例性的，第k个可以是指在N个视频帧按照在视频A中的时间顺序所排的序列中的正序第k个，也可以是指倒序第k 个。

可以将在偏移层B2对N个视频帧进行通道Cx下空域特征的时序偏移后得到的偏移结果称为N个视频帧的混合空域特征B21。N个视频帧中的一个视频帧在经过偏移层B2的通道Cx下空域特征的时序偏移后，该视频帧在多个通道下的空域特征可以称为该视频帧的混合空域特征B21。也就是说，N个视频帧的混合空域特征B21包括N个视频帧中各视频帧的混合空域特征B21。

需要说明的是，在本申请实施例中，两个视频帧之间间隔T-1(或者T’-1)个视频帧，是指在N个视频帧按照在视频A中的时间顺序所排的序列中，这两个视频帧之间具有T-1(或者T’-1)个视频帧。

在一个具体例子中，以N个视频帧为视频帧A1、视频帧A2、视频帧A3、视频帧A4，通道Cx为通道C1和通道C2为例，进行示例说明。在该例子中，在按照视频A中的时间顺序所排的序列中视频帧A1、视频帧A2、视频帧A3、视频帧A4依次相邻。按照N个视频帧在视频A中的时间顺序的正序进行偏移。

如图4所示，T为1。则在偏移层B1所进行的通道时序偏移具体为：将视频帧A1在通道C1下的空域特征，偏移到视频帧A2在通道C1下的空域特征；将视频帧A2在通道C1 下的空域特征，偏移到视频帧A3在通道C1下的空域特征；将视频帧A3在通道C1下的空域特征，偏移到视频帧A4在通道C1下的空域特征；将视频帧A1在通道C2下的空域特征，偏移到视频帧A2在通道C2下的空域特征；将视频帧A2在通道C2下的空域特征，偏移到视频帧A3在通道C2下的空域特征；将视频帧A3在通道C2下的空域特征，偏移到视频帧 A4在通道C2下的空域特征。

如图4所示，T’为2。则在偏移层B2所进行的通道Cx下的空域特征的时序偏移具体为：将视频帧A1在通道C1下的空域特征，偏移到视频帧A3在通道C1下的空域特征；将视频帧A2在通道C1下的空域特征，偏移到视频帧A4在通道C1下的空域特征；将视频帧 A1在通道C2下的空域特征，偏移到视频帧A3在通道C2下的空域特征；将视频帧A2在通道C2下的空域特征，偏移到视频帧A4在通道C2下的空域特征。

在另一个具体例子中，以N个视频帧为视频帧A1、视频帧A2、视频帧A3、视频帧A4，通道Cx为通道C3和通道C4为例，进行示例说明。在该例子中，在按照视频A中的时间顺序所排的序列中视频帧A1、视频帧A2、视频帧A3、视频帧A4依次相邻。按照N个视频帧在视频A中的时间顺序的倒序进行偏移。

如图4所示，T为1。则在偏移层B1所进行的通道Cx下的空域特征的时序偏移具体为：将视频帧A4在通道C3下的空域特征，偏移到视频帧A3在通道C3下的空域特征；将视频帧A3在通道C3下的空域特征，偏移到视频帧A2在通道C3下的空域特征；将视频帧A2 在通道C3下的空域特征，偏移到视频帧A1在通道C3下的空域特征；将视频帧A4在通道 C4下的空域特征，偏移到视频帧A3在通道C4下的空域特征；将视频帧A3在通道C4下的空域特征，偏移到视频帧A2在通道C4下的空域特征；将视频帧A2在通道C4下的空域特征，偏移到视频帧A1在通道C4下的空域特征。

如图4所示，T’为2。则在偏移层B2所进行的通道Cx下的空域特征的时序偏移具体为：将视频帧A4在通道C3下的空域特征，偏移到视频帧A2在通道C3下的空域特征；将视频帧A3在通道C3下的空域特征，偏移到视频帧A1在通道C3下的空域特征；将视频帧 A4在通道C4下的空域特征，偏移到视频帧A2在通道C4下的空域特征；将视频帧A3在通道C4下的空域特征，偏移到视频帧A1在通道C4下的空域特征。

在一个说明性示例中，如图4所示，多个偏移层可以包括偏移层B1和偏移层B3。其中，在偏移层B1可以进行的通道Cx下的空域特征的时序偏移。具体可以参考上文介绍，在此不再赘述。在偏移层B3，可以将通道Cy下的空域特征偏移T个视频帧。T为大于或等于1且小于N的正整数，或者，T为大于-N且小于或等于-1的负整数。也就是说，将当前视频帧在通道Cy下的空域特征，偏移到与当前视频帧间隔T-1个视频帧的视频帧在通道Cy下的空域特征。换言之，偏移层B3，对N个视频帧中每个视频帧在通道Cy下的空域特征进行时序偏移，该时序偏移对应的时间偏移量为T，T为大于或等于1且小于N的正整数，或者，T为大于-N且小于或等于-1的负整数，使得所述N个视频帧中第k个视频帧在通道Cy下的空域特征被偏移到第k+T个视频帧在通道Cy下的空域特征，k依次在区间[1，N]中取正整数值，以得到所述N个视频帧中各视频帧的混合空域特征。示例性的，第k个可以是指在N个视频帧按照在视频A中的时间顺序所排的序列中的正序第k个，也可以是指倒序第k个。可以将在偏移层B2对N个视频帧进行通道Cy下空域特征的时序偏移后得到的偏移结果称为 N个视频帧的混合空域特征B31。N个视频帧中的一个视频帧在经过偏移层B3的通道Cy 下空域特征的时序偏移后，该视频帧在多个通道下的空域特征可以称为该视频帧的混合空域特征B31。也就是说，N个视频帧的混合空域特征B31包括N个视频帧中各视频帧的混合空域特征B31。

通道Cy可以包括一个或多个通道，且该一个或多个通道不同于通道Cx或者不包含于通道Cx中。

在一个具体例子中，以N个视频帧为视频帧A1、视频帧A2、视频帧A3、视频帧A4，通道Cx为通道C1和通道C2，通道Cy为通道C8为例，进行示例说明。在该例子中，在按照视频A中的时间顺序所排的序列中视频帧A1、视频帧A2、视频帧A3、视频帧A4依次相邻。按照N个视频帧在视频A中的时间顺序的正序进行偏移。其中，在该例子中，在偏移层 B1所进行的通道时序偏移可以参考上文介绍。关于在偏移层B3进行的通道时序偏移，如图 4所示，可以设定T为1，则将视频帧A1在通道C8下的空域特征，偏移到视频帧A2在通道C8下的空域特征；将视频帧A2在通道C8下的空域特征，偏移到视频帧A3在通道C8 下的空域特征；将视频帧A3在通道C8下的空域特征，偏移到视频帧A4在通道C8下的空域特征。

在另一个具体例子中，以N个视频帧为视频帧A1、视频帧A2、视频帧A3、视频帧A4，通道Cx为通道C1和通道C2，通道Cy为通道C5为例，进行示例说明。在该例子中，在按照视频A中的时间顺序所排的序列中视频帧A1、视频帧A2、视频帧A3、视频帧A4依次相邻。按照N个视频帧在视频A中的时间顺序的倒序进行偏移。其中，在该例子中，在偏移层 B1所进行的通道时序偏移可以参考上文介绍。关于在偏移层B3进行的通道时序偏移，如图 4所示，可以设定T为1，则将视频帧A4在通道C5下的空域特征，偏移到视频帧A3在通道C5下的空域特征；将视频帧A3在通道C5下的空域特征，偏移到视频帧A2在通道C5 下的空域特征；将视频帧A2在通道C5下的空域特征，偏移到视频帧A1在通道C5下的空域特征。

在一个说明性示例中，如图4所示，多个偏移层可以同时包括偏移层B1、偏移层B3。在各偏移层进行的通道时序偏移可以参考上文所述。

在一个说明性示例中，如图4所示，多个偏移层还可以同时包括偏移层B1、偏移层B2、偏移层B3等偏移层。在各偏移层进行的通道时序偏移可以参考上文所述。

在一个说明性示例中，当一视频帧，例如视频帧A1在通道Cx(或通道Cy)下的空域特征被偏移到其他视频帧在Cx(或通道Cy)下的空域特征时，若没有空域特征被偏移到视频帧A1在通道Cx(或通道Cy)下的空域特征，可以将视频帧A1在通道Cx(或通道Cy) 下的空域特征用零代替。具体而言，空域特征可以为矩阵形式，空域特征用零代替的含义为用零填充矩阵，即矩阵中的元素为零。

在一个说明性示例中，对于一视频帧而言，可以使用空域特征提取层输出的该视频帧在多个通道下的空域特征对偏移层所输出的该视频帧在多个通道下的空域特征进行特征补偿。具体而言，可以对空域特征提取层输出的该视频帧在多个通道下的空域特征和偏移层所输出的该视频帧在多个通道下的空域特征进行对应位置累加。可以理解，空域特征可以通过矩阵表示，或者说空域特征为矩阵形式。对于一视频帧而言，可以对空域特征提取层输出的该视频帧在通道Cj下的空域特征和偏移层输出的该视频帧在通道Cj下的空域特征进行点对点相加。可以将相加后的结果称为该视频帧在通道Cj下的残差空域特征。其中，通道Cj为多个通道中的一个或多个通道。为表述方便，在下文中，残差空域特征也可以称为混合空域特征。

通过上述的空域特征的偏移处理，得到N个视频帧的混合空域特征。将N个视频帧的混合空域特征输入到分类层。

计算机可以执行步骤502，在分类层至少根据所述N个视频帧中各视频帧的所述第一空域特征和所述第二空域特征，确定所述N个视频帧的语义。其中，N个视频帧的语义是指该 N个视频帧的整体所具体或者说所表示的动态语义。

在一个说明性示例中，步骤502中所述的第一空域特征可以是指上文所述的混合空域特征B11，第二空域特征可以是指上文所述的混合空域特征B21。在一些实施例中，步骤502 中所述的第一空域特征可以是指上文所述的混合空域特征B11，第二空域特征可以是指上文所述的混合空域特征B31。在一些实施例中，步骤502中所述的第一空域特征可以是指上文所述的混合空域特征B21，第二空域特征可以是指上文所述的混合空域特征B31。

在一个说明性示例中，分类层可以包括多个二维卷积层，例如卷积层b1、卷积层b2、卷积层b3等。该多个二维卷积层中卷积层和多个偏移层中的偏移层一一对应。例如，卷积层b1对应偏移层B1，卷积层b2对应偏移层B2，卷积层b3对应偏移层B3。

偏移层可以将其得到的混合空域特征输出到对应的卷积层，在卷积层进行卷积处理，可以得到融合时空特征。可以理解，在偏移层进行空域特征时序偏移得到的混合空域特征，仅是将不同视频帧的空域特征进行了简单混合或者说机械混合，还难以体现出不同视频帧之间的时域信息。对混合空域特征进行进一步的卷积处理，可以融合视频帧的空域特征，得到可以反映不同视频帧之间时域特征的信息。在本申请实施例中，可以将对混合空域特征进行卷积处理后得到的信息称为融合时空特征。

分类层中的多个二维卷积层的不同卷积层具有相同种类和数量的卷积核。可以设定每个卷积层都包括M个卷积核，其中，不同卷积层的M个卷积核中第i个卷积核相同，i在区间 [1，M]中取正整数值。可以理解，一个卷积核用于提取图像的某一个特征。两个卷积核的相同是指该两个卷积核提取特征相同。举例而言，卷积层b1的用于提取图像红色像素特征(R 通道下特征)的卷积核和卷积层b2的用于提取图像红色像素特征(R通道下特征)的卷积核为相同卷积核。卷积层b1的用于提取图像绿色像素特征(G通道下特征)的卷积核和卷积层b2的用于提取图像绿色像素特征(G通道下特征)的卷积核为相同卷积核。卷积层b1的用于提取图像蓝色像素特征(B通道下特征)的卷积核和卷积层b2的用于提取图像蓝色像素特征(B通道下特征)的卷积核为相同卷积核。

在第一示例中，多个偏移层包括偏移层B1和偏移层B2，分类层包括对应于偏移层B1 的卷积层b1和对应于偏移层B2的卷积层b2。在卷积层b1，可以使用M个卷积核，对偏移层B1输出的N个视频帧中每个视频帧的混合空域特征B11进行卷积处理，得到每个视频帧在M个通道下的融合时空特征b11。在卷积层b2，可以使用M个卷积核，对偏移层B2 输出的N个视频帧中每个视频帧的混合空域特征B21进行卷积处理，得到每个视频帧在M 个通道下的融合时空特征b21。由上文可知，偏移层b1的M个卷积核中第i个卷积核和偏移层b2的M个卷积核中第i个卷积核为相同的卷积核。M个通道中第i个通道下的融合时空特征，是M个卷积核中第i个卷积核对混合空域特征进行卷积处理后得到的。对于一个视频帧而言，可以对卷积层b1输出的该视频帧在M个通道中第i个通道下的融合时空特征b11，和卷积层b2输出的该视频帧在M个通道中第i个通道下的融合时空特征b21，进行对应位置累加求和，i在区间[1，M]中取正整数值。每个通道下的融合时空特征可以由矩阵表示，通道下的融合时空特征和另一个通道下的融合时空特征的对应位置求和可以为矩阵和矩阵的点对点相加。

在第二示例中，多个偏移层包括偏移层B1和偏移层B3，分类层包括对应于偏移层B1 的卷积层b1和对应于偏移层B3的卷积层b3。在卷积层b3，可以使用M个卷积核，对偏移层B3输出的N个视频帧中每个视频帧的混合空域特征B31进行卷积处理，得到每个视频帧在M个通道下的融合时空特征b31。对于一个视频帧而言，可以对卷积层b1输出的该视频帧在M个通道中第i个通道下的融合时空特征b11，和卷积层b3输出的该视频帧在M个通道中第i个通道下的融合时空特征b31，进行对应位置累加求和，i在区间[1，M]中取正整数值。每个通道下的融合时空特征可以由矩阵表示，通道下的融合时空特征和另一个通道下的融合时空特征的对应位置求和可以为矩阵和矩阵的点对点相加。

在第三示例中，多个偏移层包括偏移层B2和偏移层B3，分类层包括对应于偏移层B2 的卷积层b2和对应于偏移层B3的卷积层b3。对于一个视频帧而言，可以对卷积层b2输出的该视频帧在M个通道中第i个通道下的融合时空特征b21，和卷积层b3输出的该视频帧在M个通道中第i个通道下的融合时空特征b31，进行对应位置累加求和，i在区间[1，M] 中取正整数值。每个通道下的融合时空特征可以由矩阵表示，通道下的融合时空特征和另一个通道下的融合时空特征的对应位置求和可以为矩阵和矩阵的点对点相加。

在第四示例中，多个偏移层包括偏移层B1、偏移层B2和偏移层B3，分类层包括对应于偏移层B1的卷积层b1、对应于偏移层B2的卷积层b2和对应于偏移层B3的卷积层b3。对于一个视频帧而言，可以对卷积层b1输出的该视频帧在M个通道中第i个通道下的融合时空特征b11，卷积层b2输出的该视频帧在M个通道中第i个通道下的融合时空特征b21，卷积层b3输出的该视频帧在M个通道中第i个通道下的融合时空特征b31，进行对应位置累加求和，i在区间[1，M]中取正整数值。每个通道下的融合时空特征可以由矩阵表示，通道下的融合时空特征和另一个通道下的融合时空特征的对应位置求和可以为矩阵和矩阵的点对点相加。

在第五示例中，分类层中的卷积层所卷积处理的视频帧的混合空域特征为该视频帧的残差空域特征，也就是说，卷积层获取的混合空域特征为在使用空域特征提取层输出的空域特征对偏移层输出的空域特征进行补偿后得到的空域特征。残差空域特征更详细的介绍可以参考上文介绍，在此不再赘述。

为方便描述，可以将不同卷积层输出的视频帧在M个通道中第i个通道下的融合时空特征的对应位置累加求和的结果，称为该视频帧在第i个通道下的累加融合时空特征。也就是说，上文所述的第一示例中的对应位置累加的结果、第二示例中的对应位置累加的结果、第三示例中的对应位置累加的结果、第四示例中的对应位置累加的结果均可以称为第i个通道下的累加融合时空特征。参考第i个通道下的累加融合时空特征的确定方式，可以得到M个通道中各通道下的累加融合时空特征。

在分类层，可以利用N个视频帧中各视频帧在M个通道下的累加融合时空特征，对视频A的语义进行分类，或者说识别视频A的语义。具体方案可以如下。

在一个说明性示例中，对于N个视频帧中的一个视频帧A1，可以将其在M个通道中第 i个通道下的累加融合时空特征映射成为一个特征值。示例性的，分类层还可以包括全连接层 (fully connected layer)，在全连接层，可以将视频帧A1在M个通道中第i个通道下的累加融合时空特征映射成为一个特征值。例如，可以对视频帧A1在M个通道中第i个通道下的累加融合时空特征进行卷积处理，得到一个特征值。其中，该卷积处理所使用的卷积核中的参数可以通过有监督训练得到。参考第i个通道对应的特征值的确定方式，可以得到M个通道中每个通道对应的特征值。可以将视频帧A1的M个通道中各个通道对应的特征值进行累加，得到累加特征值。

视频帧A1的累加特征值乘以Q个权重系数中的权重系数q1，以及加上权重系数q1对应的偏置，得到视频帧A1对应的数值q11。参考视频帧A1对应的数值q11的确定方式，得到N个视频帧中每个视频帧对应的数值q11。将各个视频帧对应的数值q11进行累加，得到的累加和，作为列向量中的一个元素。利用Q个权重系数每个权重系数，以及权重系数对应的偏置，对N个视频帧中视频帧的累加特征值做前述计算，可以得到含有Q个元素的列向量。其中，Q个权重系数中不同的权重系数对应预设的不同语义或者说分类结果。例如， Q个权重系数中权重系数q1对应打篮球，权重系数q2对应踢足球等等。权重系数及其对应的偏置，可以经过有监督训练得到。

可以利用softmax函数将上文所确定列向量映射为Q个概率值，其中，每个概率值对应一个分类结果。可以将该Q个概率值中最大概率值对应的分类结果，作为视频A的语义。

回到图5，计算机可以执行步骤503，在输出层，输出N个视频帧的语义。

可以将N个视频帧的语义用作该N个视频帧中第N个视频帧的动态语义。

图5所示的动态语义识别方法，可以对视频中视频帧的空域特征进行不同时间量的时序偏移，从而可以捕捉到视频中不同运动频率物体的信息；还可以对视频中视频帧的空域特征进行不同通道下空域特征的时序偏移，从而可以保证潜在物体类别的信息被捕捉到，从而提高了视频语义分类结果的准确度。并且，本申请实施例提供的视频语义识别方法，采用并行的方式，对视频中视频帧的空域特征进行不同时间量的时序偏移或不同通道下空域特征的时序偏移，避免了串行方式对视频的时域信息和空域信息的多次糅杂而导致的不可解释性或解释性差的问题。

在一些实施例中，提供了又一个确定视频帧的动态语义的方案。接下来，结合图7、图8 对该方案进行示例说明。

图7示出了动态语义识别层的一种具体结构。包括串行设置的至少一个残差网络层、分类层、输出层；其中，所述空域特征层包括串行设置的至少一个二维卷积层；所述至少一个残差网络层中的每一个残差网络层包括串行设置的多个时空特征提取层和空域特征补偿层；其中，所述多个时空特征提取层中每个时空特征提取层包括串行设置的偏移子层和卷积子层。

基于图7所示的动态语义识别层，可以通过如图8所示的步骤，确定视频帧的动态语义。

在执行图8所示各步骤之前，可以从动态语义识别层获取N个视频帧中每个视频帧在多个通道下的空域特征。该空域特征可以参考上文对图6所示实施例的介绍，在此不再赘述。

步骤801，在所述至少一个残差网络层中第一残差网络层的第一时空特征提取层，提取所述N个视频帧的第一融合时空特征；当所述第一时空特征层是所述第一残差网络层中多个时空特征提取层的最后一个时，在所述第一残差网络层的空域特征补偿层，根据所述N个视频帧的第一融合时空特征和所述N个视频在所述多个通道下的空域特征，确定将由所述第一残差网络层输出的所述N个视频帧的残差空域特征。

所述提取所述N个视频帧的第一融合时空特征包括：在所述第一时空特征提取层的偏移子层，对所述N个视频帧在至少一个通道下的空域特征进行时序偏移，以得到所述N个视频帧中各视频帧的第一空域特征，所述至少一个通道下的空域特征是所述第一时空特征提取层的上一层输出的空域特征中的一部分；在所述第一时空特征提取层的卷积子层，对所述N个视频帧中各视频帧的第一空域特征进行卷积处理，以得到所述N个视频帧的第一融合时空特征。

在一个说明性示例中，如图7所示，至少一个残差网络可以包括串行设置的残差网络层 1......残差网络层m。其中，残差网络层1为至少一个残差网络层中的第一个残差网络层。残差网络层1包括串行设置的时空特征提取层1......时空特征提取层n。在时空特征提取层1可以对空域特征提取层输出的N个视频帧中每个视频帧在多个通道中至少一个通道下的空域特征进行时序偏移。空域特征的时序偏移具体可以参考上文对步骤501a和步骤501b的介绍，在此不再赘述。在时空特征提取层1的卷积子层，对时空特征提取层1的输出进行卷积处理。具体可以参考上文对步骤502的介绍，在此不再赘述。残差网络层1中的每一个时空特征提取层的偏移子层对该偏移层的上一层的输出进行空域特征的时序偏移，该时空特征提取层的卷积层对该卷积层的上一层的输出进行卷积处理。残差网络层1中的空域特征补偿层可以使用空域特征提取层提取的N个视频帧在多个通道下的空域特征，对时空特征提取层n(即残差网络层1的多个时空特征提取层中的最后一个时空特征提取层)的卷积子层的输出进行空域特征补偿。空域特征补偿具体可以参考上文对图5所示方法实施例的介绍，在此不再赘述。

残差网络层1的空域特征补偿层可以将其处理结果输出给下一个残差网络层，该下一个残差网络的偏移子层可以对该空域特征补偿层的输出结果进行至少一个通道下的空域特征的时序偏移，等等。该下一个残差网络层的特征提取方式可以参考上文对残差网络层1的特征提取方式的介绍，在此不再赘述。

当该下一个残差网络层不是至少一个残差网络层中的最后一个时，该下一个残差网络层的空域特征补偿层可以将其处理结果输出给其下一个残差网络层。

当该下一个残差网络时至少一个残差网络层中的最后一个时，例如，该下一个残差网络为图7所示的残差网络层m，则残差网络层m的空域特征补偿层可以将其处理结果输出到分类层。

步骤802，在所述分类层，根据所述至少一个残差网络层中最后一个残差网络层输出的所述N个视频帧的残差空域特征，确定所示N个视频帧的语义。具体可以参考上文对步骤 502的介绍，在此不再赘述。

步骤803，在所述输出层，输出所述N个视频帧的语义。可以将N个视频帧的语义确定为该N个视频帧中第N个视频帧的语义

图8所示的动态语义确定方法，可以对视频中视频帧的空域特征进行多次时序偏移，在该多次时序偏移过程中，对经过时序偏移后的空域特征进行了特征补偿，实现了在多次提取时序信息的同时，保证了空域信息不丢失或丢失较少，提供了视频语义识别的准确度。

通过上述方案，可以得到具有静态语义的视频帧以及具有动态语义的视频帧。

回到图2，本申请实施例提供的视频语义识别方法还包括：步骤203b，在静态语义识别层，根据所述多个视频帧中第一视频帧的空域特征，确定所述第一视频帧的静态语义。

在静态语义识别层，可以根据视频帧对应的空域特征，识别该视频帧的静态语义。在一个例子中，可以将视频帧的空域特征输入到softmax函数中，然后进行计算，得到softmax值。利用softmax值可以对该视频帧进行分类。由此，可以得到视频帧的静态语义。

参阅图1，本申请实施例提供的神经网络还包括时序片段划分层。在时序片段划分层可以根据视频帧的静态语义或动态语义，划分出具有静态语义或动态语义的时序片段。接下来，示例介绍。

参阅图2，本申请实施例提供的视频语义识别方法还包括：步骤204a，在时序片段划分层，当具有第一动态语义且连续的视频帧的个数大于第一阈值时，使用所述具有第一动态语义且连续的视频帧合成第一时序片段，且确定所述第一动态语义为所述第一时序片段的动态语义

在时序片段划分层，可以从对视频A1进行视频分帧得到的多个视频帧中筛选出具有同一动态语义且连续的视频帧。举例而言，可以设定动态语义有动态语义F1(例如踢足球)、动态语义F2(例如洗苹果)等。可以设定该多帧视频中第h个至第h’+s’个视频帧中每一个视频帧均具有动态语义F1，而第h’-1个视频帧以及第h’+s’+1个视频帧不具有动态语义F1，则该第h’个至第h’+s’个视频帧为具有动态语义F1且连续的视频帧。为方便描述，可以将具有同一动态语义且连续的视频帧称为待整合动态视频帧集合。

可以理解，可以从该多个视频帧中筛选出一个或多个待整合动态视频帧集合。对于一个待整合动态视频帧集合，可以判断其包括的视频帧的个数是否大于阈值D1。阈值D1可以为预设值，例如可以为10，也可以为15，等等，此处不再一一列举。

若该待整合动态视频帧集合包括的视频帧的个数大于阈值D1，可以将该待整合动态视频帧集合合成为一个时序片段，并将该待整合动态视频帧集合中视频帧所具有的动态语义作为该时序片段的动态语义。需要说明的是，此处的″合成″的含义并非是使用多个图像或者说视频帧合成一个图像，而是指将多个图像或者说视频帧组成一个视频帧序列，该序列即为时序片段。

若该待整合动态视频帧集合包括的视频帧的个数小于或等于阈值D1，则不使用该待整合动态视频帧集合中的视频帧合成时序片段。

通过上述方案，得到一个或多个具有动态语义的时序片段。

在一些实施例中，若时序片段E1具有动态语义F1，时序片段E2也具有动态语义F1。并且时序片段E1和时序片段E2之间间隔的视频帧的个数小于阈值D2，可以将时序片段E2、时序片段E2以及这两者之间间隔的视频帧合成一个时序片段，并且动态语义F1作为合成后的时序片段的动态语义。阈值D2可以为预设值，例如可以为2，可以为3，等等，此处不再一一列举。

参阅图2，本申请实施例提供的视频语义识别方法还包括：步骤204b，在时序片段划分层，当具有第一静态语义且连续的视频帧的个数大于第二阈值时，使用所述具有第一静态语义且连续的视频帧合成第二时序片段，且确定所述第一静态语义为所述第二时序片段的静态语义。

在时序片段划分层，可以从对视频A1进行视频分帧得到的多个视频帧中筛选出具有同一静态语义且连续的视频帧。举例而言，可以设定静态语义有静态语义C1(例如足球)、静态语义C2(例如苹果)等。可以设定该多帧视频中第h个至第h+s个视频帧中每一个视频帧均具有静态语义C1，而第h-1个视频帧以及第h+s+1个视频帧不具有静态语义C1，则该第h 个至第h+s个视频帧为具有静态语义C1且连续的视频帧。为方便描述，可以将具有同一静态语义且连续的视频帧称为待整合静态视频帧集合。

可以理解，可以从该多个视频帧中筛选出一个或多个待整合静态视频帧集合。对于一个待整合静态视频帧集合，可以判断其包括的视频帧的个数是否大于阈值D3。阈值D3可以为预设值，例如可以为10，也可以为15，等等，此处不再一一列举。

若该待整合静态视频帧集合包括的视频帧的个数大于阈值D3，可以将该待整合静态视频帧集合合成为一个时序片段，并将该待整合静态视频帧集合中视频帧所具有的静态语义作为该时序片段的静态语义。需要说明的是，此处的″合成″的含义并非是使用多个图像或者说视频帧合成一个图像，而是指将多个图像或者说视频帧组成一个视频帧序列，该序列即为时序片段。

若该待整合静态视频帧集合包括的视频帧的个数小于或等于阈值D3，则不使用该待整合静态视频帧集合中的视频帧合成时序片段。

通过上述方案，得到一个或多个具有静态语义的时序片段。

在一些实施例中，若时序片段E3具有静态语义C1，时序片段E4也具有静态语义C1。并且时序片段E3和时序片段E4之间间隔的视频帧的个数小于阈值D4，可以将时序片段E3、时序片段E4以及这两者之间间隔的视频帧合成一个时序片段，并且静态语义C1作为合成后的时序片段的静态语义。阈值D4可以为预设值，例如可以为2，可以为3，等等，此处不再一一列举。

在一些实施例中，继续参阅图1，本申请实施例提供的神经网络还可以包括语义光滑层。语义光滑层为时序片段划分层的上一层，且为静态语义识别层和动态语义识别层的下一层。

在语义光滑层，可以根据多个视频帧中连续视频帧间静态语义(或动态语义)的依赖关系，对该多个视频帧的静态语义(或动态语义)进行光滑处理。

在一个说明性示例中，可以确定P个连续视频帧中视频帧G1的静态语义与其他视频帧的静态语义不同，且其他视频帧的静态语义相同；该其他视频帧是该P个连续视频帧中除视频帧G1之外的视频帧，并且P大于阈值D5。阈值D5可以为预设值，例如可以为10，也可以为12，等等，此处不再一一列举。根据使用该其他视频帧的静态语义更新(或者说替换) 视频帧G1的静态语义。在一个例子中，视频帧G1不是P个连续视频中的边缘视频帧。其中， P个连续视频帧的边缘视频帧可以定义是P个连续视频帧中第1个至第p个视频帧以及第P-p 个至第P个视频帧。p可以为预设值，且小于P的二分之一。

在一个说明性示例中，可以确定Q个连续视频帧中视频帧G2的动态语义与其他视频帧的动态语义不同，且其他视频帧的动态语义相同；该其他视频帧是该Q个连续视频帧中除视频帧G2之外的视频帧，并且Q大于阈值D6。阈值D6可以为预设值，例如可以为10，也可以为12，等等，此处不再一一列举。根据使用该其他视频帧的动态语义更新(或者说替换) 视频帧G2的动态语义。在一个例子中，视频帧G2不是Q个连续视频中的边缘视频帧。其中，Q个连续视频帧的边缘视频帧可以定义是Q个连续视频帧中第1个至第q个视频帧以及第Q-q个至第Q个视频帧。q可以为预设值，且小于Q的二分之一。

在一些实施例中，提供了另一种根据多个视频帧中连续视频帧间静态语义(或动态语义) 的依赖关系，对该多个视频帧的静态语义(或动态语义)进行光滑处理的方案。

如上所述，静态语义是指该视频帧所包含的物体的类别。通过静态语义识别层，可以确定出每个视频帧的静态语义，从而可以为视频帧携带或添加类别标签。该类别标签可以表示视频帧所包含的物体。也就是说，类别标签，用于表征视频帧中物体(可以理解，视频帧中的物体实际为相应的物体的影像，为方便描述，将视频帧中物体的影像称为视频帧中的物体) 的类别的信息。一般而言，一种类别标签对应一种物体类别。例如，地铁标签为一种类别标签，其对应地铁这一物体类别。再例如，公交车标签为另一种类别标签，其对应公交车这一物体类别。又例如，猫标签为又一种类别标签，其对应猫这一物体类别。等等，此处不再一一列举。

对于视频中的一个视频帧A1而言，当通过视频帧或视频语义识别模型分析其包含物体类别B1时，可以为视频帧A1携带物体类别B1对应的类别标签；当通过视频帧或视频语义识别模型分析出其包含物体类别B2时，可以为视频帧A1携带物体类别B2对应的类别标签；当通过视频帧或视频语义识别模型分析出其不包含物体类别时，可以不为其携带类别标签。也就是说，视频帧A1可以携带一种或多种类别标签，也可以不带任何类别标签，具体可以由视频帧或视频语义识别模型的分析结果而定。

视频中视频帧标签光滑是指视频中视频帧所携带的类别标签符合常识或经验。例如，前一个视频帧携带地铁标签，后一个视频帧也携带地铁标签。再例如，前一个视频帧携带猫标签，后一个视频帧携带猫粮标签。

与视频中视频帧标签光滑相对应，视频中视频帧标签不光滑是指视频中某一或某些个所携带的类别标签不符合常识或经验。例如，一个视频帧同时携带地铁标签和飞机标签。再例如，前一个视频帧携带猫标签，后一个视频帧携带狗标签。

视频中视频帧标签不光滑往往是由于视频帧或视频语义识别模型出错、视频拍摄时镜头方向是否发生了突然变化(例如抖动)等原因所导致。视频中视频帧标签不光滑对于视频编辑是不利的。例如不满足某些视频编辑算法的要求。再例如，影响编辑后的视频的观赏性。

本实施例提供的多个视频帧中连续视频帧间静态语义(或动态语义)的依赖关系，对该多个视频帧的静态语义(或动态语义)进行光滑处理的方案，根据标签光滑策略增删该多个视频帧中至少一个视频帧所携带的类别标签，实现该多个视频帧的类别标签光滑。其中，增删该多个视频帧中至少一个视频帧所携带的类别标签，可以称为对该多个视频帧或该视频的标签光滑处理。

需要说明的时，在本申请实施例中，“增删视频帧的类别标签”的含义为：当在获取该多个视频帧时，也就是说，在标签光滑处理进行之前，若该视频帧没有携带该类别标签，则为该视频帧添加该类别标签；若该视频帧携带该类别标签，则将该视频帧携带的类别标签删除。

接下来，结合图9-图19B，对本实施例提供的多个视频帧中连续视频帧间静态语义(或动态语义)的依赖关系，对该多个视频帧的静态语义(或动态语义)进行光滑处理的方案进行示例说明。

步骤901，可以获取一段视频中的多个视频帧。可以理解，视频中的一个视频帧为一个一个图像，多个视频帧也可以称为多个图像，视频帧也可以称为图像。具体而言，可以从静态语义识别层获取多个视频帧，或者从动态语义识别层获取多个视频帧。

示例性的，该多个视频帧可以为该视频中依次相邻的多个视频帧。举例而言，可以设定该视频共有100个视频帧，该100个视频帧可以用作该多个视频帧。

示例性的，该多个视频帧可以为对该视频进行抽帧处理后得到的多个视频帧，例如，可以在该视频中，每m个抽取一个(m为大于1的整数)，如此抽取多次，可以得到该多个视频帧。也就是说，在该示例中，该多个视频帧中的相邻两个视频帧，例如视频帧A1和视频帧A2，在视频中的位置并不一定相邻，它们之间可以间隔了m-1个视频帧。

该多个视频帧中的视频帧可以携带有一种或多个类别标签，其中，每个视频帧所携带的类别标签可以是视频帧或视频语义识别模型对该视频帧进行物体识别后为该视频帧添加的标签。具体可以参考上文介绍，在此不再赘述。

步骤902，根据视频对应的标签光滑策略，对所述多个视频帧进行标签光滑处理。

接下来，先示例介绍标签光滑策略。

标签光滑策略可以理解为一种期望或控制不同视频帧或同一视频帧应携带何种标签类别的策略。在本申请实施例中，标签光滑策略也可以称为先验知识。

在一个说明性示例中，可以理解，根据常识或经验，某一物体类别往往或者应该在同一视频的多个视频帧中具有连续性。物体类别的连续性可以是指按照常识或经验，该物体类别在视频的前后相邻视频帧中往往或应该同时出现或不出现。例如，在通常情况下，若视频中的视频帧A1包括地铁这一物体类别，视频帧A1的下一个视频帧(即在按照视频的时间序列，位于视频帧A1之后的视频帧)也应当包括地铁这一物体类别。若视频中的视频帧A不包括地铁这一物体类别，视频帧A1的下一个视频帧也应当不包括地铁这一物体类别。由此，在本申请实施例中，对于具有连续性的物体类别，当其对应的类别标签由视频帧A1携带时，期望视频帧A1的下一个视频帧也携带该类别标签；当其对应的类别标签不由视频帧A1携带时，期望视频帧A1的下一个视频帧也不携带该类别标签。也就是说，具有连续性的物体类别，其对应的类别标签在视频的前后相邻视频帧间也应具有连续性，如此，该视频在该类别标签下光滑。举例而言，地铁这一物体类别具有连续性，若视频帧A1携带地铁类别标签，则期望视频帧A1的下一个视频帧也携带地铁类别标签；若视频帧A1不携带地铁类别标签，则期望视频帧A1的下一个视频帧也不携带地铁类别标签。即地铁类别标签也应具有连续性。

由此，对于上述多个视频帧，标签光滑策略可以为或包括类别标签C1在该多个视频帧中相邻视频帧间连续。类别标签C对应的物体类别在多个视频帧中具有连续性。其中，为方便下文描述，可以将一种或多种类别标签在该多个视频帧中相邻视频帧间连续认为是一种光滑子策略。

在一个说明性示例中，可以理解，根据常识或经验，某两种或更多种物体类别往往或应该在同一个视频帧中同时存在，这可以称为物体类别的共存性。举例而言。地铁这一物体类别和人这一物体类别具有共存性，它们往往或应该在一个视频帧中同时存在。由此，在本申请实施例中，对于具有共存性的两种或更多种物体类别，当其一种物体类别对应的类别标签由视频帧A1携带时，期望视频帧A1也携带其他物体类别对应的类别标签。也就是说，具有共存性的物体类别对应的类别标签也应在同一个视频帧上具有共存性。举例而言，若视频帧 A1携带地铁这一物体类别对应的类别标签时，期望视频帧A1也携带人这一物体类别对应的类别标签。

由此，对于上述多个视频帧，标签光滑策略可以为或包括类别标签C2和类别标签C3在该多个视频帧中同一视频帧上共存。类别标签C2所对应的物体类别和类别标签C3所对应的物体类别具有共存性。其中，为方便下文描述，可以将类别标签C2和类别标签C3在该多个视频帧中同一视频帧上共存认为是一种光滑子策略。

在一个说明性示例中，可以理解，根据常识或经验，某两种或更多种物体类别往往不或不应该同时在同一个视频帧中存在，这可以称为物体类别的不共存性。举例而言，地铁这一物体类别和飞机这一物体类别具有不共存性，它们往往不或不应该在同一个视频帧中存在。由此，在本申请实施例中，对于具有不共存性的两种或更多种物体类别，当其一种物体类别对应的类别标签由视频帧A1携带时，可以期望视频帧A1不携带其他物体类别对应的标签。也就是说，具有不共存性的物体类别对应的类别标签也应在同一个视频帧上具有不共存性。举例而言，若视频帧A1携带地铁这一物体类别对应的类别标签时，可以期望视频帧A1不携带飞机这一物体类别对应的类别标签。

由此，对于上述多个视频帧，标签光滑策略可以为或包括类别标签C4和类别标签C5在该多个视频帧中同一视频帧上不共存。类别标签C4所对应的物体类别和类别标签C5所对应的物体类别具有不共存性。其中，为方便下文描述，可以将类别标签C4和类别标签C5在该多个视频帧中同一视频帧上不共存认为是一种光滑子策略。

在一个说明性示例中，可以理解，根据常识或经验，当视频中视频帧A1中包含一种物体类别B1时，视频帧A1的下一个视频帧往往或应该包含物体类别B2，这可以称为物体类别B1和物体类别B2的推导性。也就是说，视频帧A1包含物体类别B1，暗示了视频帧A1 的下一个视频帧应该包含物体类别B2。举例而言，视频帧A1包含地铁安检门这一物体类别，其暗示视频帧A1的下一个视频帧应该包含地铁闸机这一物体类别。由此，在本申请实施例中，在当视频帧A1携带物体类别B1对应的类别标签时，可以期望视频帧A1的下一个视频帧应该携带物体类别B2对应的类别标签。

由此，对于上述多个视频帧，标签光滑策略可以为或包括物体类别B1对应的标签类别在该多个视频帧中相邻视频帧中前一个视频帧存在，物体类别B2对应的标签类别在相邻视频帧中后一个视频帧存在。

为方便下文描述，可以将物体类别B1对应的标签类别在该多个视频帧中相邻视频帧中前一个视频帧存在，物体类别B2对应的标签类别在相邻视频帧中后一个视频帧存在认为是一种光滑子策略。

在一个说明性示例中，可以理解，根据常识或经验，当视频中视频帧A1中包含一种物体类别B3时，视频帧A1的下一个视频帧往往不或不应该包含物体类别B4，这也可以称为物体类别B3和物体类别B4的推导性。也就是说，视频帧A1包含物体类别B3，暗示了视频帧A1的下一个视频帧不应该包含物体类别B4。举例而言，视频帧A1包含草地这一物体类别，其暗示视频帧A1的下一个视频帧不应该包含沙漠这一物体类别。由此，在本申请实施例中，在当视频帧A1携带物体类别B3对应的类别标签时，可以期望视频帧A1的下一个视频帧不应该携带物体类别B4对应的类别标签。

由此，对于上述多个视频帧，标签光滑策略可以为或包括物体类别B3对应的标签类别在该多个视频帧中相邻视频帧中前一个视频帧存在，物体类别B4对应的标签类别在该相邻视频帧中后一个视频帧不存在。为方便下文描述，可以将物体类别B3对应的标签类别在该多个视频帧中相邻视频帧中前一个视频帧存在，物体类别B4对应的标签类别在该相邻视频帧中后一个视频帧不存在认为是一种光滑子策略。

在一个说明性示例中，标签光滑策略可以为预先设置的对应于该多个视频帧所属视频的策略。示例性的，用户或业务人员(例如视频在线美化业务的业务人员)，可以对一类视频，输入视频处理要求，使得电子设备可以根据视频处理要求，生成标签光滑策略。例如，用于地铁宣传的视频，相关人员可以输入“地铁连续，地铁和人共存，地铁和飞机不共存”，由此，设定的标签光滑策略可以包括地铁类别标签在相邻视频帧间连续，地铁标签和人标签在同一视频帧上共存，地铁标签和飞机标签在同一视频帧上不共存。参考前述方式，相关人员可以为不同类的视频，向电子设备输入不同的视频处理要求，使得电子设备可以生成不同类的视频对应的不同标签光滑策略。当需要对某一视频进行标签光滑处理时，可以根据该视频的语义，确定该视频所属的视频类别，进而可以根据该视频所属的视频类别对应的标签光滑策略，对该视频进行标签光滑处理。

其中，在一个例子中，视频的语义可以通过三维卷积神经网络(3-dimension CNN，3D CNN)对该视频进行分析得到。

接下来，示例介绍，根据标签光滑策略，对该多个视频帧进行标签光滑处理的过程。

在一个说明性示例中，可以设定标签光滑策略包括类别标签C1在该多个视频帧中相邻视频帧间连续，则对多个视频帧进行标签光滑处理可以包括：可以判断多个视频帧中视频帧是否携带类别标签C1，以及判断两两相邻视频帧组中的两个视频帧是否同时携带或同时不携带类别标签C1。若一个两两相邻视频帧组中的两个视频帧同时携带或同时不携带类别标签 C1，则为该两两相邻视频帧组赋予较高的得分W；若一个两两相邻视频帧组中的两个视频帧一个携带类别标签C1，另一个不携带类别标签C1，则为该两两相邻视频帧组赋予较低的得分W’。为方便描述，可以将此处的得分W以及得分W’称为两两相邻视频帧在类别标签C1 下的得分。

其中，两两视频帧组是指多个视频帧中相邻的两个视频帧组成的组合。例如，可以设定该多个视频帧包括视频帧A1、视频帧A2、......视频帧An，其中，视频帧A1、视频帧A2、...... 视频帧An在该多个视频帧中依次相邻，则视频帧A1和视频帧A2成一个两两视频帧组，视频帧A2和视频帧A3构成一个两两视频帧组，......视频帧An-1和视频帧An构成一个两两视频帧组。

可以以该多个视频帧中各个两两相邻视频帧组在类别标签C1下的得分加和最大化为目标，增删该多个视频帧中K个视频帧的类别标签C1。或者说，通过增删该多个视频帧中K 个视频帧的类别标签C1，使得多个视频帧中各个两两相邻视频帧组在类别标签C1下的得分加和最大。增删视频帧的类别标签的具体含义可以参考上文介绍，在此不再赘述。K≥0，且为整数。

其中，具体增删哪K个视频帧的类别标签C1，可通过如下方式确定。

在一个说明性示例中，可以尝试增删任一个或多个视频帧的类别标签C1，然后，计算多个视频帧中各个两两相邻视频帧组在类别标签C1下的得分加和。得分加和也可以称为总得分。通过不断尝试，可以得到多个总得分。将该多个总得分中最高得分对应的被增删了类别标签C1的视频帧确定为上述K个视频帧。

在一个说明性示例中，可以设定X_i，j表示该多个视频帧中第j个视频帧携带类别标签i的情况(具体分为携带、不携带两种情况)。还可以设定X_0，0表示携带，-X_0，0表示不携带。也就是说，当X_i，j＝X_0，0时，表示第j个视频帧携带类别标签i；当X_i，j＝-X_0，0时，表示第j个视频帧不携带类别标签i。

一个两两相邻视频帧组在类别标签C1下的

当标签光滑策略包括类别标签C1在该多个视频帧中相邻视频帧间连续这一子策略时，可以设置公式(1)，来计算多个视频帧中各个两两相邻视频帧组在类别标签C1下的得分的加和。

Max(N₁) (1)

其中，

w1为预设的正数。X_0，0的绝对值为1。j对应上述多个视频帧中的第j个视频帧，j+1对应上述多个视频帧中的第j+1个视频帧，i对应类别标签C1。也就是说，X_i，j表示多个视频帧中第j个视频帧是否携带类别标签C1。若X_i，j＝X_0，0，表示第j个视频帧携带类别标签C1；若 X_i，j＝-X_0，0，表示第j个视频帧不携带类别标签C1。n为多个视频帧中视频帧的数目；在求解过程中，在X_i，j和X_i，j+1在X_0，0和-X_0，0之间取值。

利用公式(1)进行计算，可以得到在公式(1)的值最大的条件下，多个视频帧中各视频帧携带类别标签C1的情况，由此，得到光滑处理结果。该光滑处理结果为标签光滑策略为类别标签C1在该多个视频帧中相邻视频帧间连续时的光滑处理结果。

在一个说明性示例中，可以理解，多个视频帧中的所有视频帧都不携带类别标签C1，或者所有视频帧都携带类别标签C1，该多个视频帧中各个两两相邻视频帧组在类别标签C1下的得分最高。本申请实施例提供的视频中视频帧标签光滑方案，用于消除因镜头抖动、视频帧或视频语义识别模型识别错误等导致的视频中某些个视频帧的类别标签不光滑(不符合常识)。可以理解，通常，镜头抖动、视频帧或视频语义识别模型并非普遍发生，相应地，标签不光滑的视频帧的个数在整段视频中的占比也比较小。为了避免因占比较小的视频帧的类别标签的不平衡，而增删视频中大部分视频帧的类别标签，本实施例，在包括上述一种或多种光滑子策略的基础上，标签光滑策略还可以包括增删类别标签的视频帧的个数最少化。也就是说，标签光滑操作前后，该多个视频帧中发生了类别标签增删的视频帧个数尽可能少。或者说，可以将标签光滑操作前(步骤901的获取多个视频帧时)的多个视频帧携带类别标签的情况称为输入，可以将步骤902的处理结果称为输出，则增删类别标签的视频帧的个数最少化这一光滑子策略，也可以称为输入和输出尽可能一致。

在一个说明性示例中，增删类别标签的视频帧的个数最少化这一光滑子策略可以通过公式(2)来表征。

Max(N₂+N₃) (2)

其中，

w2为预设的正数；集合C1∪集合C2＝所述多个视频帧，集合C1中的元素为在获取所述多个视频帧时，携带所述第一类别标签的视频帧；集合C2中的元素为在获取所述多个视频帧时，不携带所述第一类别标签的视频帧；在所述求解过程中，在X_i，j在X_0，0和-X_0，0之间取值。X_i，j、X_0，0、-X_0，0可以参考上文介绍，在此不再赘述。

由此，当标签光滑策略包括类别标签C1在该多个视频帧中相邻视频帧间连续和增删类别标签的视频帧的个数最小化这两种子策略时，可以设置公式(3)，来计算多个视频帧中各个两两相邻视频帧组在类别标签C1下的得分的加和。

Max(N₁+N₂+N₃) (3)。

在一个说明性示例中，可以理解，3＝1+1+1，由此，公式(3)可以通过公式(3’)的形式表征。

公式(3’)的形式更为通用，在实际使用时，可以根据具体情况设定X_ij含义以及X_pq的含义。例如，公式(3’)中的X_ijX_pq可以表示上文所述的X_0，0X_0，0，此时，公式(3’)中的X_ij＝X₀₀， X_pq＝X₀₀。再例如，公式(3’)中的X_ijX_pq可以表示上文所述的X_i，jX_i，j+1，此时，公式(3’)中的X_ij＝X_i，j，X_pq＝X_i，j+1。等等，此处不再一一列举。

在公式(3’)的求解过程中，X_ij在1和-1之间取值，X_pq也在1和-1之间取值。w_ij，pq为预设的正数。

另外，可以理解，1为定值，其不会对公式(3’)的最大和求解过程有影响，因此，公式 (3’)可以简化为公式(3”)。

由此，对公式(3)的最大和求解问题，可以转换为对公式(3”)的最大和求解问题。

对公式(3”)可能会存在计算机领域的Np困难，使得公式(3)或者说公式(3’)无法快速求解。为了提高视频中视频帧标签光滑处理的效率，在本实施例中，可以使用半正定矩阵(semi-definite matrix)表示，将对公式(3’)的最大和求解问题转换为半正定优化(semi-definite programing)问题，以实现快速求解。其中，半正定优化为数学优化术语，其是指以半正定矩阵为可行域，具有线性约束和线性目标函数的一种数学规划类型。具体方案如下。

可以设置列向量a＝[X_0，0；X_i，1；...；X_i，j；...；X_i，n]。其中，i对应类别标签C1，j对应n个视频帧(上述多个视频帧)中得第j个视频帧。列向量a具有n+1列。

将列向量a乘以列向量a的转置向量(a^T)，得到一个矩阵Y。而公式(3”)中X_ijX_pq的为矩阵Y中的一个元素。由此，可以将公式(3”)表示或转换为式(4)。

Y为半正定矩阵； (4)

Rank(Y)＝1；

Y(i，i)＝1。

也就是说，将公式(3”)最大和求解问题转换为，以公式(3”)(或者说公式(3))的求和结果最大为目标、rank(Y)＝1、矩阵Y的主对角线上的元素的值为1，为约束条件，进行半正定优化的问题。

其中，rank(Y)＝1为非凸条件，使得以公式(3”)(或者说公式(3))的求和结果最大为目标、rank(Y)＝1、矩阵Y的主对角线上的元素的值为1，为约束条件，进行半正定优化的过程，不能快速被求解。

示例性的，可以对以公式(3”)(或者说公式(3))的求和结果最大为目标、rank(Y)＝1、矩阵Y的主对角线上的元素的值为1，为约束条件，进行半正定优化的问题进行松弛(relaxation)，去掉或忽略rank(Y)＝1这一约束条件。其中，松弛为数学优化术语，其是指去掉问题的一部分约束条件，从而降低问题的难度，获得估算解。

由此，可以将公式(4)表示或转换为式(4’)。

Y为半正定矩阵； (4’)

Y(1，1)＝1。

也就是说，可以将公式(3”)(或者说公式(3))最大和求解问题，转换为以公式(3”)(或者说公式(3))的求和结果最大为目标、矩阵Y的主对角线上的元素的值为1，为约束条件，进行半正定优化的问题。该问题可以采用内点法(interior point method)或椭圆法(ellipsoid method)进行解决。椭圆法和内点法均为数学优化术语，两者均为数学优化算法，能够解决半正定优化问题。具体可以参考现有技术中关于内点法或椭圆法的介绍，在此不再赘述。

由此，可以得到松弛性答案S。S为半正定矩阵，且主对角线上的元素为1。松弛性答案也可以理解为估算解。由于在计算过程中去掉或忽略掉了rank(Y)＝1这一条件，因此，得到的计算结果为估算解。需要对松弛性答案S进行复原(recovering)，以得到真实答案。复原为数学优化术语，其是指获得松弛后问题最优解后，将该最优解转化为原问题的可行解的过程。具体复原过程如下。

可以对半正定矩阵S进行特征值分解，得到S＝Y′·Y^T。其中，Y′为n+1列的矩阵，n为上述多个视频帧中的视频帧的个数。其中，Y′中的列和上述列向量a中的列一一对应。

可以随机选取一个单位向量r。若r^T乘以Y’的第1列，得到的乘积≥0，则设定Y’的第1 列对应1，相应地，设定列向量a的第1列，即X₀₀＝1。若r^T乘以Y’的第1列，得到的乘积＜0，则设定Y’的第1列对应1，相应地，设定列向量a的第1列，即X₀₀＝-1。

r^T乘以Y’的第i列，再乘以X_0，0，得到乘积结果。若乘积结果≥0，则列向量a中的第i列为1；若乘积结果＜0，则列向量a中的第i列为-1。i＝2，3......。如此，可以得到列向量a中的各个元素的值，并结合的X₀₀的值，增删多个视频帧中视频帧的类别标签C1，使得多个视频帧中视频帧携带类别标签C1的情况和列向量中的元素保持一致。具体而言，若在列向量中，X_0，0＝1，X_i，j＝1，则第j个视频帧携带类别标签C1(若第j个视频帧原来就携带类别标签C1，则不做删除；若第j个视频帧原来没有携带类别标签C1，则为第j个视频帧添加类别标签C1)。若在列向量中，X_0，0＝-1，X_i，j＝-1，则第j个视频帧携带类别标签C1(若第j个视频帧原来就携带类别标签C1，则不做删除；若第j个视频帧原来没有携带类别标签C1，则为第j个视频帧添加类别标签C1)。也就是说，当列向量中的X_i，j＝X_0，0时，则标签光滑处理结果中，第j个视频帧携带类别标签C1。若列向量中的X_i，j＝-X_0，0时，则标签光滑处理结果中，第j个视频帧不携带类别标签C1。

上文以标签光滑策略包括类别标签C1在该多个视频帧中相邻视频帧间连续为例，以及以标签光滑策略包括类别标签C1在该多个视频帧中相邻视频帧间连续和增删类别标签的视频帧的个数最少化这两种子策略为例，举例介绍了根据标签光滑策略，对多个视频帧进行标签光滑处理过程。

在一个说明性示例中，可以设定标签光滑策略包括类别标签C2和类别标签C3在多个视频帧中同一视频帧上共存，则对多个视频帧进行标签光滑处理可以包括：可以判断多个视频帧中任一个视频帧，例如视频帧A1，是否同时携带类别标签C2和类别标签C3。当视频帧 A1同时携带或者不同时携带类别标签C2和类别标签C3时，为视频帧A1赋予较高的得分F。当视频帧A1携带类别标签C2，不携带类别标签C3时，为视频帧A1赋予较低的得分F’(F’ 小于F)；当视频帧A1不携带类别标签C2，携带类别标签C3时，也为视频帧A1赋予较低的得分F’。为方便描述，可以将此处的得分F以及得分F’称为视频帧在类别标签C2和类别标签C3下的得分。

可以以该多个视频帧中各视频帧在类别标签C2和类别标签C3下的得分加和最大化为目标，为多个视频帧中L个视频帧(该L个视频帧原来不携带类别标签C3)添加类别标签C3 和/或删除多个视频帧中L’个视频帧(该L’个视频帧原来不携带类别标签C2)的类别标签C2。 L≥0，且为整数；L’≥0，且为整数。换言之，可以以该多个视频帧中各视频帧在类别标签C2 和类别标签C3下的得分加和最大化为目标，增删该多个视频帧中L”个视频帧的类别标签C2 或类别标签C3。或者说，通过增删该多个视频帧中L”个视频帧的类别标签C2或类别标签 C3，使得多个视频帧中各个视频帧在类别标签C2和类别标签C3下的得分加和最大。L”≥0，且为整数。增删视频帧的类别标签的具体含义可以参考上文介绍，在此不再赘述。

其中，具体增删哪L”个视频帧的类别标签C2或类别标签C3，可通过如下方式确定。

在一个说明性示例中，可以尝试增删任一个或多个视频帧的类别标签C2或类别标签C3，然后，计算多个视频帧中各个视频帧在类别标签C2和类别标签C3下的得分加和。可以将得分加和称为总得分。通过不断尝试，可以得到多个总得分。将该多个总得分中最高总得分对应的被增删了类别标签C2或类别标签C3的视频帧确定为上述L”个视频帧。

在一个说明性示例中，可以设定X_i*，j表示该多个视频帧中第j个视频帧携带类别标签i* 的情况(具体分为携带、不携带两种情况)。还可以设定X_0，0表示携带，-X_0，0表示不携带。也就是说，当X_i*，j＝X_0，0时，表示第j个视频帧携带类别标签i*；当X_i*，j＝-X_0，0时，表示第j个视频帧不携带类别标签i*。可以设定X_i，j表示该多个视频帧中第j个视频帧携带类别标签i的情况(具体分为携带、不携带两种情况)。当X_i，j＝X_0，0时，表示第j个视频帧携带类别标签i；当X_i，j＝-X_0，0时，表示第j个视频帧不携带类别标签i。其中，类别标签i*为类别标签C2，类别标签i为类别标签C3。

一个视频帧在

当标签光滑策略包括类别标签C2和类别标签C3在多个视频帧中同一视频帧上共存这一子策略时，可以设置公式(5)，来计算多个视频帧中各个视频帧在类别标签C2和类别标签 C3下的得分的最大和。

Max(N₄) (5)

其中，

其中，n为多个视频帧中视频帧的个数；w₃为预设的正数；X_0，0的绝对值为1；i*对应类别标签C2，i对应类别标签C3；j对应多个视频帧中第j个视频帧；当该第j个视频帧携带类别标签C2，在X_i*，j＝X_0，0；当该第j个视频帧不携带类别标签C2，在X_i*，j＝-X_0，0；当该第j个视频帧携带类别标签C3时，在X_i，j＝X_0，0；当该第j个视频帧不携带类别标签C3时，X_i，j＝-X_0，0。

利用公式(5)进行计算，可以得到在公式(5)的值最大的条件下，多个视频帧中各视频帧携带类别标签C2以及携带类别标签C3的情况，由此，得到光滑处理结果。该光滑处理结果为标签光滑策略为类别标签C2和类别标签C3在该多个视频帧中同一视频帧上共存的光滑处理结果。

在一个说明性示例中，标签光滑策略包括类别标签C2和类别标签C3在该多个视频帧中同一视频帧上共存，还包括增删类别标签的视频帧的个数最少化。可以设置公式(6)，来计算多个视频帧中各视频帧在类别标签C2和类别标签C3下得分的加和。

Max(N₄+N₂+N₃) (6)。

其中，N₄、N₂、N₃可以参考上文介绍，在此不再赘述。

在一些实施例中，公式(6)还可以转换为上述公式(3’)以及公式(3”)的形式。同样，也可以设置向量a＝[X_0，0；X_i*，1；...；X_i*，j；...；X_i*，n；X_i，1；...；X_i，j；...；X_i，n]。其中， i*对应类别标签C2，i对应类别标签C3，j对应n个视频帧(上述多个视频帧)中得第j个视频帧。列向量a具有2n+1列。同样可以将公式(6)的最大和求解问题，转换为上述式(4) 以及式(4’)的所示的半正定矩阵优化问题，并在相应的约束条件下，采用内点法或椭圆法进行解决。然后，可以将得到的松弛性答案进行复原，得到标签光滑处理结果，并根据标签光滑处理结果，增删多个视频帧中视频帧的类别标签C2或类别标签C3。具体可以参考上文介绍，在此不再赘述。

上文以标签光滑策略包括类别标签C2和类别标签C3在多个视频帧中同一视频帧上共存为例，以及以标签光滑策略包括类别标签C2和类别标签C3在多个视频帧中同一视频帧上共存和增删类别标签的视频帧的个数最少化这两种子策略为例，举例介绍了根据标签光滑策略，对多个视频帧进行标签光滑处理的过程。

在一个说明性示例中，可以设定标签光滑策略包括类别标签C4和类别标签C5在多个视频帧中同一视频帧上不共存，则对多个视频帧进行标签光滑处理可以包括：可以判断多个视频帧中任一个视频帧，例如视频帧A1，是否同时携带类别标签C4和类别标签C5。当视频帧 A1同时不携带类别标签C4和类别标签C5时；或者，当视频帧A1只携带类别标签C4和类别标签C5中的一个，而不携带另一个时，为视频帧A1赋予较高的得分H。当视频帧A1同时携带类别标签C4和类别标签C5时，为视频帧A1赋予较低的得分H’(H’小于H)。为方便描述，可以将此处的得分H以及得分H’称为视频帧在类别标签C4和类别标签C5下的得分。

可以以该多个视频帧中各视频帧在类别标签C4和类别标签C5下的得分加和最大化为目标，删除该多个视频帧中P个视频帧(该P个视频帧原本携带类别标签C5)的类别标签C5 和/或删除该多个视频帧中P’个视频帧(该P’个视频帧原本携带类别标签C4)的类别标签C4； P≥0，且为整数；P’≥0，且为整数.

换言之，可以以该多个视频帧中各视频帧在类别标签C4和类别标签C5下的得分加和最大化为目标，增删该多个视频帧中P”个视频帧的类别标签C4或类别标签C5。或者说，通过增删该多个视频帧中P”个视频帧的类别标签C4或类别标签C5，使得多个视频帧中各个视频帧在类别标签C4和类别标签C5下的得分加和最大。P”≥0，且为整数。增删视频帧的类别标签的具体含义可以参考上文介绍，在此不再赘述。

其中，具体增删哪P”个视频帧的类别标签C4或类别标签C5，可通过如下方式确定。

在一个说明性示例中，可以尝试增删任一个或多个视频帧的类别标签C4或类别标签C5，然后，计算多个视频帧中各个视频帧在类别标签C4和类别标签C5下的得分加和。可以将得分加和称为总得分。通过不断尝试，可以得到多个总得分。将该多个总得分中最高总得分对应的被增删了类别标签C4或类别标签C5的视频帧确定为上述P”个视频帧。

在一个说明性示例中，可以设定X_i*，j表示该多个视频帧中第j个视频帧携带类别标签i* 的情况(具体分为携带、不携带两种情况)。还可以设定X_0，0表示携带，-X_0，0表示不携带。也就是说，当X_i*，j＝X_0，0时，表示第j个视频帧携带类别标签i*；当X_i*，j＝-X_0，0时，表示第j个视频帧不携带类别标签i*。可以设定X_i，j表示该多个视频帧中第j个视频帧携带类别标签i的情况(具体分为携带、不携带两种情况)。当X_i，j＝X_0，0时，表示第j个视频帧携带类别标签i；当X_i，j＝-X_0，0时，表示第j个视频帧不携带类别标签i。其中，类别标签i*为类别标签C4，类别标签i为类别标签C5。

一个视频帧在

当标签光滑策略包括类别标签C4和类别标签C5在多个视频帧中同一视频帧上不共存这一子策略时，可以设置公式(7)，来计算多个视频帧中各个视频帧在类别标签C4和类别标签C5下的得分的。

Max(N₅) (7)

其中，

其中，n为多个视频帧中视频帧的个数；w₄为预设的正数；X_0，0的绝对值为1；i*对应类别标签C4，i对应类别标签C5；j对应多个视频帧中第j个视频帧；当该第j个视频帧携带类别标签C4，在X_i*，j＝X_0，0；当该第j个视频帧不携带类别标签C4，在X_i*，j＝-X_0，0；当该第j个视频帧携带类别标签C5时，在X_i，j＝X_0，0；当该第j个视频帧不携带类别标签C5时，X_i，j＝-X_0，0。

利用公式(7)进行计算，可以得到在公式(7)的值最大的条件下，多个视频帧中各视频帧携带类别标签C4以及携带类别标签C5的情况，由此，得到光滑处理结果。该光滑处理结果为标签光滑策略为类别标签C4和类别标签C5在该多个视频帧中同一视频帧上不共存的光滑处理结果。

在一个说明性示例中，标签光滑策略包括类别标签C4和类别标签C5在该多个视频帧中同一视频帧上不共存，还包括增删类别标签的视频帧的个数最少化。可以设置公式(8)，来计算多个视频帧中各视频帧在类别标签C4和类别标签C5下得分的加和。

Max(N₅+N₂+N₃) (8)。

其中，N₅、N₂、N₃可以参考上文介绍，在此不再赘述。

在一些实施例中，公式(8)还可以转换为上述公式(3’)以及公式(3”)的形式。同样，也可以设置向量a＝[X_0，0；X_i*，1；...；X_i*，j；...；X_i*，n；X_i，1；...；X_i，j；...；X_i，n]。其中， i*对应类别标签C4，i对应类别标签C5，j对应n个视频帧(上述多个视频帧)中得第j个视频帧。列向量a具有2n+1列。同样可以将公式(8)的最大和求解问题，转换为上述式(4) 以及式(4’)的所示的半正定矩阵优化问题，并在相应的约束条件下，采用内点法或椭圆法进行解决。然后，可以将得到的松弛性答案进行复原，得到标签光滑处理结果，并根据标签光滑处理结果，增删多个视频帧中视频帧的类别标签C4或类别标签C5。具体可以参考上文介绍，在此不再赘述。

上文以标签光滑策略包括类别标签C4和类别标签C5在多个视频帧中同一视频帧上不共存为例，以及以标签光滑策略包括类别标签C4和类别标签C5在多个视频帧中同一视频帧上不共存和增删类别标签的视频帧的个数最少化这两种子策略为例，举例介绍了根据标签光滑策略，对多个视频帧进行标签光滑处理的过程。

在一个说明性示例中，可以设定标签光滑策略包括类别标签C6在相邻视频帧中前一个视频帧存在，类别标签C7在该相邻视频帧中后一个视频帧存在，则对多个视频帧进行标签光滑处理可以包括：可以判断多个视频帧中两两相邻视频帧组中的前一个视频帧是否携带类别标签C6，后一个视频帧是否携带类别标签C7。两两相邻视频帧组的含义可以参考上文介绍，在此不再赘述。对于一个两两相邻视频帧组而言，若其前一个视频帧携带类别标签C6，且其后一个视频帧携带类别标签C7，则为该两两相邻视频帧组赋予较高的得分Z。或者，若其前一个视频帧不携带类别标签C6，且其后一个视频帧不携带类别标签C7，则为该两两相邻视频帧组赋予较高的得分Z。若其前一个视频帧携带类别标签C6，且其后一个视频帧不携带类别标签C7，则为该两两相邻视频帧组赋予较低的得分Z’(Z’小于Z)。或者，若其前一个视频帧不携带类别标签C6，且其后一个视频帧携带类别标签C7，则为该两两相邻视频帧组赋予较高的得分Z’。为方便描述，可以将此处的得分Z以及得分Z’称为视频帧在类别标签 C6和类别标签C7下的得分。

可以以该多个视频帧在类别标签C6和类别标签C7下的得分最大化为目标，为该多个视频帧中Q个视频帧(该Q个视频帧原本不携带类别标签C7)添加类别标签C7和/或删除该多个视频帧中Q’个视频帧(该Q’个视频帧原本携带类别标签C6)的类别标签C6；Q≥0，且为整数；Q’≥0，且为整数。

换言之，可以以该多个视频帧在类别标签C6和类别标签C7下的得分最大化为目标，增删该多个视频帧中Q”个视频帧的类别标签C6或类别标签C7。或者说，通过增删该多个视频帧中Q”个视频帧的类别标签C6或类别标签C7，使得多个视频帧中各个两两相邻视频帧组在类别标签C6和类别标签C7下的得分加和最大。Q”≥0，且为整数。增删视频帧的类别标签的具体含义可以参考上文介绍，在此不再赘述。

其中，具体增删哪Q”个视频帧的类别标签C6或类别标签C7，可通过如下方式确定。

在一个说明性示例中，可以尝试增删任一个或多个视频帧的类别标签C6或类别标签C7，然后，计算多个视频帧中各个两两相邻视频帧组在类别标签C6和类别标签C7下的得分加和。可以将得分加和称为总得分。通过不断尝试，可以得到多个总得分。将该多个总得分中最高总得分对应的被增删了类别标签C6或类别标签C7的视频帧确定为上述Q”个视频帧。

在一个说明性示例中，可以设定X_i*，j表示该多个视频帧中第j个视频帧携带类别标签i* 的情况(具体分为携带、不携带两种情况)。还可以设定X_0，0表示携带，-X_0，0表示不携带。也就是说，当X_i*，j＝X_0，0时，表示第j个视频帧携带类别标签i*；当X_i*，j＝-X_0，0时，表示第j个视频帧不携带类别标签i*。可以设定X_i，j+1表示该多个视频帧中第j+1个视频帧携带类别标签i 的情况(具体分为携带、不携带两种情况)。当X_i，j+1＝X_0，0时，表示第j+1个视频帧携带类别标签i；当X_i，j+1＝-X_0，0时，表示第j+1个视频帧不携带类别标签i。其中，类别标签i*为类别标签C6，类别标签i为类别标签C7。

一个两两相邻视频帧组在

当标签光滑策略包括类别标签C6在相邻视频帧中前一个视频帧存在，且类别标签C7该相邻视频帧中后一个视频帧存在时，可以设置公式(9)，来计算多个视频帧中两两相邻视频帧组在类别标签C6和类别标签C7下的得分的最大和。

Max(N₆) (9)

其中，

其中，n为多个视频帧中视频帧的个数；w₅为预设的正数；X_0，0的绝对值为1；i*对应类别标签C6，i对应类别标签C7；j对应多个视频帧中第j个视频帧；当该第j个视频帧携带类别标签C6，在X_i*，j＝X_0，0；当该第j个视频帧不携带类别标签C6，在X_i*，j＝-X_0，0；当第j+1个视频帧携带类别标签C7时，在X_i，j+1＝X_0，0；当第j+1个视频帧不携带类别标签C7时， X_i，j+1＝-X_0，0。第j个视频帧为两两相邻视频帧组中前一个视频帧，第j+1个视频帧为该两两相邻视频帧组中后一个视频帧。

利用公式(9)进行计算，可以得到在公式(9)的值最大的条件下，多个视频帧中各视频帧携带类别标签C6以及携带类别标签C7的情况，由此，得到光滑处理结果。该光滑处理结果为标签光滑策略为类别标签C6在相邻视频帧中前一个视频帧存在，且类别标签C7该相邻视频帧中后一个视频帧存在的光滑处理结果。

在一个说明性示例中，标签光滑策略包括类别标签C6在相邻视频帧中前一个视频帧存在，且类别标签C7该相邻视频帧中后一个视频帧存在，且标签光滑策略还包括增删类别标签的视频帧的个数最少化。可以设置公式(10)，来计算多个视频帧中各两两视频帧组在类别标签C6和类别标签C7下得分的加和。

Max(N₆+N₂+N₃) (6)。

其中，N₆、N₂、N₃可以参考上文介绍，在此不再赘述。

在一个说明性示例中，公式(10)还可以转换为上述公式(3)以及公式(3”)的形式。同样，也可以设置向量a＝[X_0，0；X_i*，1；...；X_i*，j；...；X_i*，n；X_i，1；...；X_i，j；...；X_i，n]。其中，i*对应类别标签C6，i对应类别标签C7，j对应n个视频帧(上述多个视频帧)中得第j个视频帧。列向量a具有2n+1列。同样可以将公式(10)的最大和求解问题，转换为上述式(4)以及式(4’)的所示的半正定矩阵优化问题，并在相应的约束条件下，采用内点法或椭圆法进行解决。然后，可以将得到的松弛性答案进行复原，得到标签光滑处理结果，并根据标签光滑处理结果，增删多个视频帧中视频帧的类别标签C6或类别标签C7。具体可以参考上文介绍，在此不再赘述。

上文以标签光滑策略包括类别标签C6在相邻视频帧中前一个视频帧存在，且类别标签 C7该相邻视频帧中后一个视频帧存在为例，举例介绍了根据标签光滑策略，对多个视频帧进行标签光滑处理的过程。

在一个说明性示例中，可以设定标签光滑策略包括类别标签C8在相邻视频帧中前一个视频帧存在，类别标签C9在该相邻视频帧中后一个视频帧不存在。则对多个视频帧进行标签光滑处理可以包括：可以判断多个视频帧中两两相邻视频帧组中前一个视频帧是否携带类别标签C8，后一个视频帧是否携带类别标签C9。若一个两两相邻视频帧组中前一个视频帧携带类别标签C8，后一个视频帧不携带类别标签C9，则为该两两相邻视频帧组赋予较高的得分D。或者，该两两相邻视频帧组中前一个视频帧不携带类别标签C8，后一个视频帧携带类别标签C9，则为该两两相邻视频帧组赋予较高的得分D。或者，若该两两相邻视频帧组中前一个视频帧不携带类别标签C8，后一个视频帧也不携带类别标签C9，则为该两两相邻视频帧赋予较高的得分D。若该两两相邻视频帧组中前一个视频帧携带类别标签C8，后一个视频帧携带类别标签C9，则为该两两相邻视频帧赋予较低的得分D’(D’小于D)。为方便描述，可以将此处的得分D以及得分D’称为两两相邻视频帧组在类别标签C8和类别标签C9下的得分。

可以以该多个视频帧中各视频帧在类别标签C8和类别标签C9下的得分加和最大化为目标，删除该多个视频帧中V个视频帧(该V个视频帧原本携带类别标签C9)的类别标签C9 和/或删除该多个视频帧中V’个视频帧(该V’个视频帧原本携带类别标签C8)的类别标签 C8；V≥0，且为整数；V’≥0，且为整数.

换言之，可以以该多个视频帧中各两两相邻视频帧组在类别标签C8和类别标签C9下的得分加和最大化为目标，增删该多个视频帧中V”个视频帧的类别标签C8或类别标签C9。或者说，通过增删该多个视频帧中V”个视频帧的类别标签C8或类别标签C9，使得多个视频帧中各个两两相邻视频帧组在类别标签C8和类别标签C9下的得分加和最大。V”≥0，且为整数。增删视频帧的类别标签的具体含义，以及两两相邻视频帧组的具体含义可以参考上文介绍，在此不再赘述。

其中，具体增删哪V”个视频帧的类别标签C8或类别标签C9，可通过如下方式确定。

在一个说明性示例中，可以尝试增删任一个或多个视频帧的类别标签C9或类别标签C8，然后，计算多个视频帧中各个两两相邻视频帧组在类别标签C8和类别标签C9下的得分加和。可以将得分加和称为总得分。通过不断尝试，可以得到多个视频帧在类别标签C8和类别标签C9下的多个总得分。将该多个总得分中最高总得分对应的被增删了类别标签C8或类别标签C9的视频帧确定为上述V”个视频帧。

在一个说明性示例中，可以设定X_i*，j表示该多个视频帧中第j个视频帧携带类别标签i* 的情况(具体分为携带、不携带两种情况)。还可以设定X_0，0表示携带，-X_0，0表示不携带。也就是说，当X_i*，j＝X_0，0时，表示第j个视频帧携带类别标签i*；当X_i*，j＝-X_0，0时，表示第j个视频帧不携带类别标签i*。可以设定X_i，j+1表示该多个视频帧中第j+1个视频帧携带类别标签i 的情况(具体分为携带、不携带两种情况)。当X_i，j+1＝X_0，0时，表示第j+1个视频帧携带类别标签i；当X_i，j+1＝-X_0，0时，表示第j+1个视频帧不携带类别标签i。其中，类别标签i*为类别标签C8，类别标签i为类别标签C9。

一个两两视频帧组在

当标签光滑策略包括类别标签C8在相邻视频帧中前一个视频帧存在，类别标签C9在该相邻视频帧中后一个视频帧不存在这一子策略时，可以设置公式(11)，来计算多个视频帧中各个两两视频帧组在类别标签C8和类别标签C9下的得分的最大和。

Max(N₇) (11)

其中，

其中，n为多个视频帧中视频帧的个数；w₆为预设的正数；X_0，0的绝对值为1；i*对应类别标签C8，i对应类别标签C9；j对应多个视频帧中第j个视频帧；当该第j个视频帧携带类别标签C8，在X_i*，j＝X_0，0；当该第j个视频帧不携带类别标签C8，在X_i*，j＝-X_0，0；当第j+1个视频帧携带类别标签C9时，在X_i，j+1＝X_0，0；当第j+1个视频帧不携带类别标签C5时， X_i，j+1＝-X_0，0。第j个视频帧为两两相邻视频帧组中前一个视频帧，第j+1个视频帧为该两两相邻视频帧组中后一个视频帧。

利用公式(11)进行计算，可以得到在公式(11)的值最大的条件下，多个视频帧中各视频帧携带类别标签C8以及携带类别标签C9的情况，由此，得到光滑处理结果。该光滑处理结果为标签光滑策略为别标签C8在相邻视频帧中前一个视频帧存在，类别标签C9在该相邻视频帧中后一个视频帧不存在的光滑处理结果。

在一个说明性示例中，标签光滑策略包括别标签C8在相邻视频帧中前一个视频帧存在，类别标签C9在该相邻视频帧中后一个视频帧不存在，还包括增删类别标签的视频帧的个数最少化。可以设置公式(12)，来计算多个视频帧中各视频帧在类别标签C4和类别标签C5 下得分的加和。

Max(N₇+N₂+N₃) (12)。

其中，N₅、N₂、N₃可以参考上文介绍，在此不再赘述。

在一些实施例中，公式(12)还可以转换为上述公式(3’)以及公式(3”)的形式。同样，也可以设置向量a＝[X_0，0；X_i*，1；...；X_i*，j；...；X_i*，n；X_i，1；...；X_i，j；...；X_i，n]。

其中，i*对应类别标签C8，i对应类别标签C9，j对应n个视频帧(上述多个视频帧)中得第j个视频帧。列向量a具有2n+1列。同样可以将公式(12)的最大和求解问题，转换为上述式(4)以及式(4’)的所示的半正定矩阵优化问题，并在相应的约束条件下，采用内点法或椭圆法进行解决。然后，可以将得到的松弛性答案进行复原，得到标签光滑处理结果，并根据标签光滑处理结果，增删多个视频帧中视频帧的类别标签C8或类别标签C9。具体可以参考上文介绍，在此不再赘述。

上文以标签光滑策略包括别标签C8在相邻视频帧中前一个视频帧存在，类别标签C9在该相邻视频帧中后一个视频帧不存在为例，举例介绍了根据标签光滑策略，对多个视频帧进行标签光滑处理的过程。

通过图9所示的视频帧标签处理方法，可以根据视频对应的标签光滑策略，修正视频中视频帧所携带的标签，使得视频的标签流光滑或者说符合常识。

接下来，在一个具体实例中，对本申请实施例提供的视频中视频帧标签处理方法进行举例介绍。

可以设定一个视频帧最多可能携带m种类别标签，以L1、L2、...、Lm来描述。可以设定X_0，0表示标签存在(被视频帧携带)，-X_0，0表示标签不存在(不被视频帧携带)。X_0，0的绝对值为1。如果视频具有n个视频帧，那么该视频的标签流可以表示为图10所示的矩阵。其中，X_i，j表示第i行第列的值。该视频的标签流由该n个视频帧所携带的标签组成。

为方便描述，可以设定m≥7，n≥7，如此，用于表示该视频的标签流的矩阵至少可以包括如图11所示的矩阵。如图11所示，可以设定L1所表示的类别标签为公交对应的类别标签， L2所表示的类别标签为飞机对应的类别标签，L3所表示的类别标签为地铁对应的类别标签， L4所表示的类别标签为扶手对应的类别标签，L5所表示的类别标签为猫对应的类别标签， L6所表示的类别标签为椅子对应的类别标签，L7所表示的类别标签为门对应的类别标签。

在本申请实施例中，绘制了如图12所示的方块图来表示各视频帧携带类别标签的情况。其中，白色块代表X_0，0，黑色块代表-X_0，0。

在本申请实施例中，定义了连续节点、共存节点、推导节点、一致性节点等得分节点。得分节点表示了一种逻辑关系，其对应有布尔表达式。布尔表达式也可以为称为布尔逻辑 (boolean logic)，其为数学术语，是一种基于布尔代数的逻辑表达方式。具体如下。

连续节点，是用于体现同一类别的标签连续性的节点。根据常识或经验，同一个物体类别在相邻视频帧之间应该连续。比如当前个携带地铁类别标签，期望下一个也携带地铁类别标签。再比如，当前个不携带地铁类别标签，期望下一个也不携带地铁类别标签。连续节点对应的布尔表达式为

共存节点，用于体现不同类别标签在同一个视频帧上共存性的节点。可以理解，根据常识或经验，有些物体类别往往在同一个中同时存在，而有些物体类别几乎无法在同一个中同时存在。比如，地铁和人往往在同一个中同时存在，而地铁和飞机往往无法在同一个中同时存在。因此，期望地铁类别标签和人类别标签由同一个视频帧同时携带，而不期望地铁类别标签和飞机类别标签由同一个视频帧同时携带。共存节点对应的布尔表达式为X_i*，j→X_i，j或者，

推导节点，为体现视频不同时刻出现的物体类别之间推导性的节点。可以理解，根据常识或经验，当前个存在的一些物体类别，暗示了下一个应存在或不存在何种物体类别。推导节点对应的布尔表达式为X_i*，j→X_i，j+1或者，

一致节点，为体现视频帧前后携带的类别标签一致性的节点。在本实例中，期望视频帧在输入时携带的类别标签和在输出时携带的类别标签尽可能一致。一致节点对应的布尔表达式为X_0，0→X_i，j或者，

前者期望，视频帧在输出时携带相应类别标签。或者期望，视频帧在输出时不携带相应类别标签。

本实例，设置了各种布尔表达式各自对应的数学表达式，具体如图13所示。

对于给定的一段视频标签流，可以使用该视频对应的标签光滑策略(也可以称为先验知识)(以图11所示矩阵为例，标签光滑策略可以包括所有类别标签在相邻视频帧之间连续，飞机类别标签和地铁类别标签不共存等)，对视频中视频帧标签进行光滑处理。其中，标签光滑策略可以为预设的，其中，可以包括图11或图10所示矩阵的元素单元之间的权重数值w (例如，当两个元素单元之间的权重数值为0时，表示这两个元素单元之间不存在依赖关系。再例如，当两个元素单元之间的权重数组为无穷大时，表示这两个元素单元之间具有绝对的依赖关系)。

可以根据标签光滑策略，创建对应的得分节点。目标函数为所有得分节点的和。如此，可以将问题用公式(3’)表示。

其中，X_ij在1和-1之间取值，X_pq也在1和-1之间取值。w_ij，pq为预设的正数。

其次，可以使用半正定矩阵表示X_ijX_pq，并对原问题进行松弛，将原问题转换为半正定优化问题。方法如下。

将图10所示矩阵扁平为一个列向量a＝[X_0，0；X_1，1X_1，2；...；X_i，n；...；X_2，1X_2，2...；X_m，n]。将列向量a乘以列向量a的转置向量(a^T)，得到一个矩阵Y。而X_ijX_pq的为矩阵Y 中的一个元素。由此，可以将公式(3’)表示或转换为式(4)。

Y为半正定矩阵； (4)

Rank(Y)＝1；

Y(i，i)＝1。

也就是说，将公式(3”)最大和求解问题转换为，以公式(3”)的求和结果最大为目标、 rank(Y)＝1、矩阵Y的主对角线上的元素的值为，为约束条件，进行半正定优化的问题。

其中，rank(Y)＝1为非凸条件，使得以公式(3”)的求和结果最大为目标、rank(Y)＝1、矩阵Y的主对角线上的元素的值为1，为约束条件，进行半正定优化的过程，不能快速被求解。

示例性的，可以对以公式(3”)的求和结果最大为目标、rank(Y)＝1、矩阵Y的主对角线上的元素的值为1，为约束条件，进行半正定优化的问题进行松弛，去掉或忽略rank(Y)＝1这一约束条件。其中，松弛为数学优化术语，其是指去掉问题的一部分约束条件，从而降低问题的难度，获得估算解。

由此，可以将公式(4)表示或转换为式(4’)。

Y为半正定矩阵； (4’)

Y(i，i)＝1。

也就是说，可以将公式(3”)最大和求解问题，转换为以公式(3”)的求和结果最大为目标、矩阵Y的主对角线上的元素的值为1，为约束条件，进行半正定优化的问题。该问题可以采用内点法或椭圆法进行解决。椭圆法和内点法均为数学优化术语，两者均为数学优化算法，能够解决半正定优化问题。具体可以参考现有技术中关于内点法或椭圆法的介绍，在此不再赘述。

由此，可以得到松弛性答案S。S为半正定矩阵，且主对角线上的元素为1。松弛性答案也可以理解为估算解。由于在计算过程中去掉或忽略掉了rank(Y)＝1这一条件，因此，得到的计算结果为估算解。

需要对松弛性答案S进行复原，以得到真实答案。复原为数学优化术语，其是指获得松弛后问题最优解后，将该最优解转化为原问题的可行解的过程。具体复原过程如下。

r^T乘以Y’的第i列，再乘以X_0，0，得到乘积结果。若乘积结果≥0，则列向量a中的第i列为1；若乘积结果＜0，则列向量a中的第i列为-1。i＝2，3......。如此，可以得到列向量a中的各个元素的值，并结合的X₀₀的值，可以确定向量a中各个元素的值是X₀₀，还是-X₀₀。如此，可以得到在公式(3’)的值最大的情况下，视频中各视频帧携带的类别标签，实现该视频的标签流光滑。

在一个说明性示例中，当对式(4’)进行计算的空间要求超过计算机的最大限度时，可以采用分治算法，对上述问题进行估算。分治(divide and conquer)为计算机科学术语，字面上的解释是“分而治之”，就是把一个复杂的问题分成两个或更多的相同或相似的子问题，直到最后子问题可以简单的直接求解，原问题的解即子问题的解的合并。

对于给定的估算程度k，其k阶算法如下。

可以将原标签流(视频中视频帧在输入时携带的类别标签，例如图10所示的矩阵)分割为2子部分。若k-1不为0，则分别对这2个子部分采用k-1阶估算算法，再进行分割。如此，进行k次分割，可以得到2^k个子部分，对于每个子部分可以采用式(4’)的形式，进行半正定优化算法，得到2^k个子结果。由于，将原标签流分成了2^k个子部分，并对每子部分，按照该子部分对应的标签光滑策略，进行标签光滑处理，从而将计算的空间复杂度降低为分治前的2^k分之一，相应地，计算的空间复杂度(time complexity)为分治前的2^k分之一。空间复杂度，计算机科学术语，其理论的表达一个算法所需要的空间，体现的是算法时间和输入大小的关系。在得到2^k个子部分中每一个子部分的标签光滑处理结果后，可以将2^k个子部分的标签光滑处理结果合并。并根据合并后的结果，设置视频中各视频帧携带的类别标签，实现该视频的标签流光滑。

接下来，介绍分割的实现过程。

在进行子部分分割时，可以先采用最小割(minimum cut)算法，进行分割。最小割，图论术语：割是网络中定点的一个划分，它把网络中的所有顶点划分成两个顶点集合S和T，其中源点s∈S，汇点t∈T。记为CUT(S，T)，满足条件的从S到T的最小割(min cut)。

接下来，结合图14，以分割图10所示矩阵中元素单元为例，介绍最小割算法。其中，一个元素单元，也可以称为一个节点，其是指矩阵中一个位置。例如矩阵中第i行，第j列所指示的位置可以称为元素单元。

参阅图14，B1、B2、B3、B4、B5、B6各自代表图10所示矩阵中的一个元素单元。其中，B1和B2处于一行，B3和B4处于一行，B5和B6处于一行。如图14所示，将同一行的元素单元之间的权重数值设置为无穷大。不同行元素之间权重数值与标签光滑策略一致。例如，设定B1和B3之间具有共存性，即B1对应的类别标签和B3对应的类别标签在同一视频帧上共存，则B1和B3之间权重数值为上述公式(5)中的w₃。再例如，设定B3和B6 之间具有推导性，B3对应的类别标签在相邻两个视频帧中前一个视频帧存在，B6对应的类别标签在该相邻视频帧中后一个视频帧存在(或不存在)，则B3和B6之间权重数值为上述公式(9)中的w₅(或上述公式(11)中的w₆)。

按照上述方式，在图10所示的矩阵中的元素单元之间进行权重数值的设置，然后，采用最小割算法，按照元素单元之间的权重数值进行分割，可以得到两个子部分。例如，若w₅(或 w₆)小于w₃，则将B6所在行的元素单元和B3所在行的元素单元分割开，由此，将图10所示的矩阵分成两个子部分。

如果使用最小割算法分割后得到的两个子部分不平衡(两个子部分所包含的元素单元个数相差较大，例如两个子部分中的一个子部分所包含元素单元的比例大于该两个子部分所包含元素单元总数的60％，或者，小于该两个子部分所包含元素单元总数的40％。)，则使用最小二分类算法重新分割。最小二分类(minimum bisection)为图论术语，与最小割类似，但额外要要求的S，T的大小一致。本实施例采用的最小二分类算法可以称为Kernighan-Lin algorithm算法。

需要说明的是，由于Kernighan-Lin algorithm算法，也是根据矩阵中元素单元间的权重数值进行分割的，因此，在使用Kernighan-Lin algorithm算法进行分割前，也需要将处于同一行的不同元素单元之间的权重数值设置为无穷大，或者说，将处于同一行的不同元素单元融合为一个节点(即将处于同一行的不同元素单元视为一个元素单元)。不同行元素单元之间的权重数值，按照对应的标签光滑策略进行设置。然后，将设置后的矩阵输入到Kernighan -Lin algorithm算法，进行分割。从而可以将矩阵分割成两个子部分，且该两个子部分中含有的元素单元的个数相等。

接下来，在一个实例中，结合图15，对图9所示的视频帧标签处理方法的执行流程进行示例介绍。

首先，输入对应的逻辑表达、权重、标签流，优化方法。其中，逻辑表达和权重由标签平衡策略确定。标签流为视频中多个视频帧所携带的类别标签。优化方法可以为内点法，也可以为或椭圆法。

其次，创建对应的逻辑节点，权重矩阵，半正定松弛表达。其中，逻辑节点即上文所述的得分节点。权重矩阵为元素单元间具有相应的权重的矩阵。

然后，判断算法的空间复杂度是否超过最大限度。

若算法的空间复杂度没有超过最大限度，则使用内点法或椭圆法，进行半正定优化。再将优化结果进行复原，输出。

若算法的空间复杂度超过最大限度，输入估算程度k。k≥0，且k为正数。判断k是否等于0。若k不等于0，则采用最小割分别对每个子部分(对于首次分割，子部分只有一个，即还未被分割的矩阵)进行分割，分别得到两个新的子部分。若由同一子部分分割得到的两个新子部分平衡，则令k＝k-1。若由同一子部分分割得到的两个新子部分不平衡，则使用Kernighan-Lin algorithm算法对该同一子部分进行重新分割，并令k＝k-1。如此，进行迭代，直到k＝0。由此，可以得到2^k个个子部分。对于这2^k个子部分中的一个子部分，按照该子部分对应标签光滑策略，独立进行标签光滑处理，得到该子部分的标签光滑处理结果。标签光滑处理具体参考上文所述，在此不再赘述。采用最小割进行分割和采用Kernighan-Lin algorithm算法进行分割的过程可以参考上文介绍，在此不再赘述。

可以合并(或者说合成)2^k个子部分的标签光滑处理结果，得到最终结果。由此，可以根据最终结果，设置矩阵中元素的值，实现视频的标签流光滑。

本申请实施例采用布尔逻辑表达了光滑问题的先验知识(连续，共存，一致，推导)。这种表达方式构成本方案的基本框架，能够有效的体现数据之间的内在关系，其对应的数学表达式，能够被半正定优化松弛表达，从而快速求解。另外这种表达方式相比于动态规划，滑动窗口算法，更加通用，能够有效的体现数据之间的联系，比如当前个和当前个，当前个和下一个，当前个和下两个之间的依赖性等。这种能力允许该方法结合任意阶的马科夫，任意阶的自回归模型的先验知识获得优秀的答案。

并且，本申请实施例使用了X₀₀→X_i，j或者

来体现输入和输出的一致性而非使用常见的(X_i，j-1)²或者(X_i，j+1)²。这种设计方式即揭露了一致性与布尔逻辑的关系，也保证了该问题能够被半正定优化松弛表达。

此外，当算法空间过大时，本方法对现有的两种算法进行改进，采用分治算法对原问题进行二次估算。这种方法在损失精度的情况下，指数减低了空间要求

接下来，结合图11所示的矩阵以及不同的标签光滑策略，展示本申请实施例提供的视频中视频帧标签处理方法的技术效果。

在一些实施例中，可以以图11所示的矩阵为输入，采用的标签光滑策略为各种类别标签在相邻视频帧间连续。其中，图11所示的矩阵对应的如图16A所示的方块图。根据该标签光滑策略，进行标签光滑处理。根据该标签光滑处理设置矩阵中元素的值后，得到的矩阵对应的方块图如图16B所示。

在一个说明性示例中，可以以图11所示的矩阵为输入，采用的标签光滑策略为标签类别 L5和标签类别L6在同一视频帧上共存。其中，图11所示的矩阵对应的如图17A所示的方块图。根据该标签光滑策略，进行标签光滑处理。根据该标签光滑处理设置矩阵中元素的值后，得到的矩阵对应的方块图如图17B所示。

在一个说明性示例中，可以以图11所示的矩阵为输入，采用的标签光滑策略为：类别标签L1和标签类别L2在同一视频帧上不共存，类别标签L1和标签类别L2在同一视频帧上不共存和类别标签L2和标签类别L3在同一视频帧上不共存。即类别标签L1，类别标签L1，类别标签L1不共存。其中，图11所示的矩阵对应的如图18A所示的方块图。根据该标签光滑策略，进行标签光滑处理。根据该标签光滑处理设置矩阵中元素的值后，得到的矩阵对应的方块图如图18B所示。

在一个说明性示例中，可以以图11所示的矩阵为输入，采用的标签光滑策略为标签类别 L4在相邻视频帧的前一个视频帧存在，且标签类别5在该相邻视频帧的后一个视频帧存在。其中，图11所示的矩阵对应的如图19A所示的方块图。根据该标签光滑策略，进行标签光滑处理。根据该标签光滑处理设置矩阵中元素的值后，得到的矩阵对应的方块图如图19B所示。

其中，上述实施例平滑处理视频帧静态语义的标签为例，对标签平滑方案进行了示例说明。同理，该标签平滑方案同样可以用于平滑处理视频帧的动态语义的标签。其中，动态语义的标签为用于描述动作的信息，例如打篮球、踢足球等。可以理解的是，不同视频帧的动态语义也应该符合常识或经验。例如，前一个视频帧的动态语义是打篮球，则后一个视频帧的动态语义也应该是打篮球，而非踢足球。由此，在对视频帧的动态语义的标签进行光滑处理时，同样可以设置标签光滑策略或者说先验知识，然后，利用标签光滑策略，采用上述方案对动态语义的标签进行光滑处理。具体光滑处理过程可以参考上文对图10-图19B的介绍，在此不再一一赘述。

回到图1，在一些实施例中，本申请实施例提供的神经网络还可以包括精彩时序片段识别层。在精彩时序片段识别层，可以识别出精彩时序片段。精彩时序片段是指由具有相同细节动态语义的视频帧合成或者说组成的时序片段。

在一个说明性示例中，精彩时序片段识别层可以是空域特征提取层的下一层，由此，可以在精彩时序片段层，利用空域特征提取层输出的视频A1的各个视频帧的空域特征，确定视频A1中的精彩时序片段。

示例性的，在精彩时序片段识别层，可以根据两个相邻视频帧的空域特征，计算该两个相邻视频帧的空域差异信息。在一个例子中，空域特征可以包括对应图像的RGB信息。其中， RGB中的R表示红(red)，G表示绿(green)，B表示蓝(blue)。可以根据两个相邻视频帧的RGB信息，计算该两个相邻视频帧之间的RGB差异信息(RGB diff)。两个相邻视频帧之间的RGB diff可以用作该两个相邻视频的空域差异信息。

可以根据多个视频帧中各个两两相邻视频帧的空域差异信息以及各个视频帧的空域特征，确定出一个或多个精彩时序片段。

在一个例子中，精彩时序片段识别层可以包括一维卷积层和细节语义识别层。可以将多个视频帧中各个两两相邻视频帧的空域差异信息以及各个视频帧的空域特征输入到一维卷积层进行卷积处理。其中，一维卷积层可以包括一个或多个卷积窗口，每个卷积窗口具有一定的覆盖范围。覆盖范围可以理解为宽度，其使用视频帧的个数表示。例如，一个卷积窗口的覆盖范围为Z个视频帧，在采用该卷积窗口进行卷积处理时，可以对该卷积窗口覆盖的Z个视频进行卷积处理。示例性的，一个卷积窗口还可以对应一种细节动态语义。可以理解，在对一维卷积神经网络进行训练时，可以使用标注有细节动态语义的时序片段作为训练样本进行训练，训练出的一维卷积神经网络的卷积窗口对应的权重参数，可以将该细节动态语义作为该卷积窗口对应的细节动态语义。

可以设定一维卷积层具有卷积窗口R，卷积窗口R的覆盖范围为Z，且对应细节动态语义r(例如打篮球)。可采用该卷积窗口，对多个视频帧中第1个至第Z个视频帧中各视频帧的空域特征以及各两两相邻视频帧间的空域差异信息进行卷积运算，得到一个卷积结果。在采用该卷积窗口，对该多个视频帧中第2个至第Z+1个视频帧中各视频帧的空域特征以及各两两相邻视频帧间的空域差异信息进行卷积运算，又得到一个卷积结果。依次类推，可以得到多个卷积结果。

在细节动态语义分类层，可以根据该多个卷积结果，可确定出具有细节动态语义r的至少一个精彩时序片段。具体而言，可以根据该多个卷积结果中的一个卷积结果，计算出一个概率值(例如，可以通过softmax函数)，若该概率值大于预设阈值(例如60％)，则可以确定该卷积结果对应的Z个视频帧具有细节动态语义r，并将该Z个视频帧合并为具有细节动态语义r的精彩时序片段。

对该多个卷积结果中的其他卷积结果也进行上述处理，可能得到一个或多个具有细节动态语义r的精彩时序片段。

当具有细节动态语义r的两个精彩时序片段相邻(两者之间每一间隔视频帧)，则将该两个精彩时序片段合并成为一个精彩时序片段，且合并后的精彩时序片段具有细节动态语义r 的。

参照上述方案，可以从多个视频帧中确定出一个或多个具有其他细节动态语义的精彩时序片段。此处不再一一赘述。

在一个说明性示例中，可以提取视频A的音频特征。该视频A的音频特征可以划分为多段音频特征。该多段音频特征和构成视频A的多个视频帧一一对应。由此，可以采用一维卷积网络，根据多个视频帧对应的音频特征和各个视频帧的空域特征，确定一个或多个精彩时序片段。在具体实现时，可以参考上述根据多个视频帧中各个两两相邻视频帧的空域差异信息以及各个视频帧的空域特征，确定出一个或多个精彩时序片段的方案。其中，不同的是，从卷积运算的对象移除空域差异信息，而加入相应视频帧对应的音频特征。

在一个说明性示例中，可以提取视频A中各视频帧中骨骼关键点。由此，可以采用一维卷积网络，根据多个视频帧的骨骼关键点和各个视频帧的空域特征，确定一个或多个精彩时序片段。在具体实现时，可以参考上述根据多个视频帧中各个两两相邻视频帧的空域差异信息以及各个视频帧的空域特征，确定出一个或多个精彩时序片段的方案。其中，不同的是，从卷积运算的对象移除空域差异信息，而加入相应视频帧的骨骼关键点。

在一个说明性示例中，可以利用一维卷积网络，根据多个视频帧中各个视频帧的空域特征，确定一个或多个精彩时序片段。在具体实现时，可以参考上述根据多个视频帧中各个两两相邻视频帧的空域差异信息以及各个视频帧的空域特征，确定出一个或多个精彩时序片段的方案。其中，不同的是，从卷积运算的对象移除空域差异信息。

由此，通过上述方案可以从视频A中确定出一个或多个精彩时序片段。

在一些实施例中，继续参阅图1，本申请实施例提供的神经网络还可以包括联合逻辑判断层，该联合逻辑判断层为时序片段划分层和精彩时序片段识别层的下一层。由此，可以子联合逻辑判断层对时序片段划分层输出的时序片段和精彩时序片段识别层输出的时序片段进行联合逻辑判断，修改相互间具有矛盾的时序片段的语义。接下来，进行示例介绍。

由上所述，动态语义用于表示动作，细节动态语义用于表示特定的动作。因此，动态语义和细节动态语义具有包含关系，即一种细动态语义可包含于一种动态语义。相应地，具有该细节动态语义的精彩时序片段应包含于具该动态语义的时序片段。例如，根据常识，″上篮″ 这一细节动态语义包含于″打篮球″这一动态语义；相应地，具有″上篮″这一细节动态语义的精彩时序片段应包含于具有″打篮球″这一动态语义地时序片段。可以将这种细节动态语义和动态语义之间的包含关系称之为细节动态语义和动态语义的匹配关系。相应地，具有该细节动态语义的精彩时序片段和具有该动态语义的时序片段地包含关系称之为时序片段之间地匹配关系。可以预设配置文件，其中记录了细节动态语义和动态语义的匹配关系。例如，可以记录″上篮″与″打篮球″匹配，″足球射门″与″踢足球″匹配，等等，此处不再一一列举。

需要说明的是，在本申请实施例中，时序片段可以通过该时序片段的起始帧(该时序片段的第一个视频帧)和截止帧(该时序片段的最后一个视频帧)在视频中的位置来表示。其中，该时序片段的起始帧和截止帧在视频中的位置可以称为该时序片段的位置信息。例如，一个时序片段的起始帧位于视频中的第10秒，截止帧位于视频中的第15秒，则该时序片段可以表示为视频中的第10秒至第15秒的视频片段，该时序片段的位置信息可以为视频中的第10秒至第15秒。一个精彩时序片段包含于一个时序片段是指该精彩时序片段的起始帧和截止帧都位于该时序片段中。

示例性的，在联合逻辑判断层，可以确定时序片段E5包含时序片段E6，即时序片段E6 的起始帧和截止帧都位于时序片段E5中。举例而言，时序片段E5为视频A中第5秒至第15秒的视频片段，时序片段E6为视频A中第10秒至第12秒的视频片段。时序片段E5具有动态语义F3。时序片段E6为精彩时序片段，具体细节动态语义r1。可以根据细节动态语义和动态语义的匹配关系，判断细节动态语义r1和动态语义F3是否匹配。例如，若动态语义F3为″打篮球″，细节动态语义r1为″篮球上篮″，则细节动态语义r1和动态语义F3匹配。再例如，若动态语义F3为″打篮球″，细节动态语义r1为″足球射门″，则细节动态语义r1和动态语义F3不匹配。

若细节动态语义r1和动态语义F3匹配，则可以在输出层输出时序片段E6的细节动态语义和位置信息。

若细节动态语义r1和动态语义F3不匹配，则在输出层不输出时序片段E6的相关信息。

在一些实施例中，在联合逻辑判断层，可以根据具有动态语义的时序片段包含的具有细节动态语义的时序片段，对该具有动态语义的时序片段进行分割。具体而言，时序片段7具有动态语义，其第K个帧至第L个帧组成的时序片段具有细节动态语义，L大于K。则将时序片段7分为由第一个帧至第K-1个帧组成的时序片段，由第K帧至第L帧组成的时序片段，由第L+1帧至最后一个帧组成的时序片段。其中，设置由第一个帧至第K-1个帧组成的时序片段具有动态语义具有时序片段7的动态语义，设置由第L+1帧至最后一个帧组成的时序片段具有时序片段7的动态语义，由第K帧至第L帧组成的时序片段仍保持原来的细节动态语义。由此，当时序片段划分层输出的具有动态语义的时序片段包含具有细节动态语义的时序片头时，可以根据该具有细节动态语义的时序片段从该具有动态语义的时序片段中分割出，余下的位于该具有动态语义的时序片段一侧的视频帧重新组成具有动态语义的时序片段。并在输出层输出该重新组成的具有动态语义的时序片段。也就是说，在该实施例中，输出层输出的具有动态语义的时序片段不包含具有细节动态语义的时序片段。

通过上述方案，可以识别出视频A中的具有静态语义的时序片段、具有动态语义的时序片段、具有细节动态语义的精彩时序片段。

回到图1，在一些实施例中，本申请实施例提供的神经网络还可以包括景别识别层。景别识别层可以为输出层的上一层，且为输出层的下一层。

景别可以是指由于在焦距一定时，摄影机与被摄体的距离不同，而造成被摄体在摄影机录像器中所呈现出的范围大小的区别。其中，从拍摄者的主观性角度而言，被摄体为拍摄者所关注或所注意的物体。因此，景别的识别具有很强的人类主观性。

在图1所示的景别识别层，可以执行视频景别确定方案。具体而言，可以基于视频的时域信息，从视频帧中确定出受用户关注或注意的区域，并利用该区域的拍摄深度，确定该视频帧的景别，由此，可以得到视频中各视频帧的景别。也就是说，在本申请实施例中，可以模拟用户的注意力，识别出视频中用户所注意的区域，并据此确定视频的景别，可以使得确定出的景别更符合用户的主观。示例性的，此处的用户可以是指观看视频的用户。

接下来，结合图20、图21、图22、图23，对视频景别确定方案进行示例介绍。

图20示出了一种视频景别确定方法。可以包括如下步骤。

步骤2001，获取视频A的N个视频帧。N为大于1的正整数。其中，可以获取输出层输出的视频A的N个视频帧。

示例性的，该N个视频帧可以为对视频A进行视频分帧后得到的。视频分帧也可以称为视频解帧，其是将视频分解成序列视频帧或者说序列图像。换言之，是将视频分解成多个视频帧或者说多个图像。其中，多个视频帧中的视频帧之间的位置关系和在视频中的位置关系一致。可以将视频A经视频分帧处理后得到的视频帧中的N个视频帧作为后续分析的对象。在一个例子中，该N个视频帧可以为视频A经视频分帧后得到的所有视频帧。

示例性的，该N个视频帧可以为对视频A经视频分帧处理得到的视频帧进行抽帧后得到的。例如，可以将视频A经视频分帧处理后得到的所有视频帧，按照视频帧在视频A中的顺序进行排序。然后，从该排序得到的序列中每间隔预设帧数(例如，每间隔5个视频帧，或每间隔10个视频帧，等等)抽取一个视频帧。如此，可以抽取到N个视频帧。

步骤2002，识别所述N个视频中的视频帧A1所包括的显著性物体。可以理解，视频或者视频帧包括物体，实际是指视频或视频帧包括物体的影像。

在一个说明性示例中，可以使用视觉显著性检测(visual saliency detection)算法，检测视频帧A1包括的物体。具体而言，可以在图像层面(空域)上，利用视频帧A1的底层的信息，例如色彩、边缘、形状等预测显著区域。然后，利用语义分割(semanticsegmentation)算法，识别显著区域上的像素所属的物体。由此，可以得到视频帧A1包括的物体。在一个例子中，所使用的显著性检测算法可以为谱残差(spectral residual，SR)算法、超复数傅里叶变换 (hypercomplex fourier transform，HFT)或基于图形的流形排序(graph-based manifold ranking， GBMR)算法等。语义分割算法可以为U-Net算法或DeepLab算法等。

在本申请实施例中，可以将利用视觉显著性检测算法检测到的物体称为显著性物体。

步骤2003a，判断视频帧A1中的显著性物体中是否存在横向运动物体。

横向运动物体可以是指摄像机在拍摄视频时，被摄像机捕捉到的相对于摄像机至少发生了横向移动的物体。横向是指位于垂直于摄像机光轴的平面上的各个方向。可以理解，对于发生了横向移动的物体，其在两个相邻视频帧中的位置会发生变化。其中，相邻的两个视频帧可以是指将所述N个视频帧按照在视频A中的时序关系进行排序后的序列中的相邻的两个视频帧。物体在视频帧中的位置可以通过组成该物体的像素的坐标来表示。示例性的，可以将视频帧的两个相邻边分别作为横坐标轴和纵坐标轴，由此可以得到用来表示视频帧中各像素点位置的坐标。

示例性的，可以根据利用视频帧A1和视频帧A2共同包含的显著性物体在视频帧A1中的位置，以及该显著性物体在视频帧A2中的位置，确定该显著性物体是否为横向运动物体。其中，视频帧A2可以为所述N个视频帧中与视频帧A1相邻的视频帧。

如上所述，可以利用视觉显著性算法和语义分割算法可以确定出视频帧A1所包括的显著性物体。同理，可以确定出视频帧A2所包括的显著性物体。进而可以确定出同时包括于视频帧A1和视频帧A2的显著性物体。设定同时包括于视频帧A1和视频帧A2的显著性物体为物体B1。

在确定出物体B1时或之后，可以确定物体B1在视频帧A1中的位置和在视频帧A2中的位置是否相同。具体可以通过如下方式确定。

在一个例子中，可以利用光流算法，确定物体B1在视频帧A1中的位置以及视频帧A2 中的位置。光流算法是空间运动物体在观察成像平面上的像素运动的瞬时速度，是利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性来找到上一帧跟当前帧之间存在的对应关系，从而计算出相邻帧之间物体的运动信息的一种算法。也就是说，可以利用光流算法确定出物体B1的像素在视频帧A1中的位置以及在视频帧B1中的位置。若位置不同，则可以确定物体B1为视频帧A1所包括的横向运动物体。另外，可以理解的是，物体B1的像素是多个像素。判断物体B1的像素在视频帧A1中的位置与在视频帧B1中的位置是否相同，可以是对该多个像素的位置进行考量后的结果。例如，该多个像素中的大部分(例如百分之五十以上)像素在视频帧A1中的位置相对于在视频帧A2中的位置，发生了向某个方向的位移，则认为物体B1在视频帧A1中的位置不同于在视频帧A2中的位置。需要说明的是，前述仅对物体B1在不同视频帧中的位置是否相同进行了示例说明，并非限定。在其他例子中，还可以采用其他方式判断物体B1在不同视频帧中的位置是否相同，在此不再一一列举。并且利用光流算法判断物体是否发生了移动的具体过程具体可以参考现有技术中对光流算法的介绍，在此也不再赘述。

继续参阅图1，当视频帧A1包括的显著性物体中存在横向运动物体时，可以执行步骤 2004a，根据横向运动物体的拍摄深度，确定视频帧A1的景别。视频帧中某一物体的拍摄深度是指摄像机在捕获该视频帧时，摄像机与该物体之间的距离。具体而言，在步骤2004a可以将视频帧A1的显著性物体中的横向运动物体作为参考物体，参考物体的拍摄深度可用于确定视频帧A1的景别。

可以理解，人眼在观看视频时，注意力通常集中在运动物体上。也就是说，人眼在观看到视频帧A1时，注意力通常会集中到参考物体上。根据参考物体的拍摄深度，确定视频帧 A1的景别，从而使得确定出的景别更加匹配或符合用户的注意力。

在一些实施例中，视频帧A1中的横向运动物体可能包括多个。可以按照物体注意优先级，从多个物体中确定参考物体，然后，使用参考物体的拍摄深度，确定视频帧A1的景别。具体而言，物体的注意优先级可以预设。不同类型的物体对应不同的注意优先。示例性的，可以将物体分为人物、动物、植物和非生物物体(例如石头、栏杆等)。其中，人物的注意优先级高于动物的注意优先级，动物的注意优先级高于植物的注意优先级，植物的注意优先级高于非生命物体的注意优先级。也就是说，若步骤2003a中确定出的横向运动物体包括人物和动物，则确定人物为参考物体。若步骤2003a中确定出的横向运动物体包括动物和植物，则确定动物为参考物体。若步骤2003a中确定出的横向运动物体包括植物和非生命物体，则确定植物为参考物体。

在一个说明性示例中，可以利用图像深度预测算法，预测或者说确定参考物体的拍摄深度。在一个例子中，图像深度预测算法可以为一致性视频深度估计(consistentvideo depth estimation)算法。。

在一个说明性示例中，视频的景别可以分为近景、中景和远景。可以设置阈值Y1和阈值Y2，其中，阈值Y1小于阈值Y2。在一个例子中，阈值Y1和阈值Y2可以预先设置。在一个例子中，阈值Y1可以为1米，阈值Y2可以为5米。在另一个例子中，阈值Y1可以为 2米，阈值Y2可以为6米。等等，此处不再一一列举。在另一个例子中，阈值Y1和阈值 Y2可以由用户设置。在该示例的一个例子中，计算设备在执行步骤101之前，还可以显示输入界面，该输入界面可以包括输入框C1。输入框C1可以接收用户的输入。当用户在输入框 C1输入长度之后，计算设备可以将该长度确定为阈值Y1。该输入界面可以包括输入框C2。输入框C2可以接收用户的输入。当用户在输入框C2输入长度之后，计算设备可以将该长度确定为阈值Y2。在另一个例子中，计算设备可以显示距离选择界面，该选择界面可以包括多个选择功能区，不同的多个选择功能中不同选择功能对应不同的长度；计算设备响应于针对多个选择功能区中选择功能区D1的操作，确定选择功能区D1对应的长度为阈值Y1。计算设备还可以响应针对于多个选择功能区中选择功能区D2的操作，确定选择功能区D2对应的长度为阈值Y2。

通过上述方式可以得到阈值Y1和阈值Y2。回到步骤2003a，当参考物体的拍摄距离小于阈值Y1时，可以确定视频帧A1的景别为近景。当参考物体的拍摄距离大于或等于阈值Y1，且小于或等于阈值Y2时，可以确定视频帧A1的景别为中景。当参考物体的拍摄距离大于阈值Y2时，可以确定视频帧A1的景别为远景。

在一个说明性示例中，参阅图20，该景别确定方法还可以包括步骤2003b，视频帧A1 包括的显著性物体中是否存在纵向运动物体。

纵向运动物体可以是指摄像机在拍摄视频时，被摄像机捕捉到的相对于摄像机至少发生了纵向移动的物体。纵向是指摄像机光轴方向。可以理解，对于发生了纵向移动的物体，其在两个相邻视频帧中的大小会发生变化。其中，相邻的两个视频帧可以是指将所述N个视频帧按照在视频A中的时序关系进行排序后的序列中的相邻的两个视频帧。

在一个说明性示例中，可以使用视频帧中构成物体的像素的多少，来表示该物体在视频帧中的大小。如上所述，通过语义分割算法可以判断显著区域上的像素所属的物体，由此得到显著性物体。也就是说，通过语义分割算法可以确定构成显著性物体的像素，从而可以得知构成物体的像素的多少。

若视频帧A1中组成物体B1的像素多于或少于视频帧A2中组成物体B1的像素，则可以确定视频帧A1包括的显著性物体中存在纵向运动物体，即物体B1。

在确定视频帧A1包括的显著性物体中存在纵向运动物体之后，该景别确定方法还包括步骤2004b，根据视频帧A1的中心区域，确定视频帧A1的景别。

可以理解，在镜头拉远或拉近时，用户或者拍摄者通常将注意力集中在视频帧或者说图像中的中心区域。在确定视频帧A1为镜头拉远或拉近过程中捕获的图像时，可以利用视频帧A1的中心区域，确定视频帧A1的景别，从而使得确定出的景别更加匹配或符合用户的注意力。

视频帧A1为二维图像，其存在几何中心。在一些实施例中，可以判断视频帧A1中的显著性物体中是否存在包括了由视频帧A1几何中心处的像素参与构成的物体。若存在这样的物体，则将该物体作为参考物体。若不存在这样的物体，且视频帧A1中的显著性物体为多个物体时，可以从该多个物体中确定出最接近视频帧A1几何中心的物体。在一个例子中，可以计算构成物体的各个像素到视频帧A1几何中心的平均距离，并将该平均距离作为物体到视频帧A1几何中心的距离。比较各物体到视频帧A1几何中心的距离，得到最接近视频帧 A1几何中心的物体。

在一个说明性示例中，可以执行步骤2003a和步骤2003b，在这两个步骤的判断结果均为是的情况下。可以判断横向运动物体中是否包括了由视频帧A1几何中心处的像素参与构成的物体。若存在这样的物体，则将该物体作为参考物体。若不存在这样的物体，且横向运动物体为多个物体时，可以从多个物体中，确定出最接近视频帧A1几何中心的物体。物体到视频帧A1几何中心的距离可以参考上文介绍，在此不再赘述。

在一个说明性示例中，在步骤2003a和步骤2003b，在这两个步骤的判断结果均为否的情况下，还可以执行步骤2004c，根据视频帧A1所呈现的场景，确定视频帧A1的景别。视频帧所呈现的场景可以分为室内场景和室外场景。

在一个说明性示例中，，可以根据视频帧A1所包括的显著性物体，确定视频帧A1所呈现的场景。例如，当显著性物体为家具、家电等通常置于室内的物体时，可以确定视频帧A1 所呈现的场景为室内场景。当显著性物体为树木、白云、河流等通常位于室外的物体时，可以确定视频帧A1所呈现的场景为室外场景。

可以预先关联场景和景别。例如可以将室内场景和近景关联，将室外场景和远景关联。再例如，可以将室内场景和中景关联，将室外场景和远景关联。再例如，可以将室内场景和近景关联，将室外场景和中景关联。在确定出视频帧A1所呈现的场景后，可以将视频帧A1 所呈现的场景关联的景别作为视频帧A1的景别。

参考视频帧A1的景别确定方式，可以确定出视频A中每个视频帧的景别。在一个说明性示例中，，可以对视频A中视频帧进行滤波，以去除异常景别识别结果。示例性的，可以根据视频帧中景别的连续性，进行滤波。景别的连续性是指P个连续视频帧的景别是一致的， P为大于1的正整数。P个连续视频帧是指该P个视频帧依次相邻。可以理解，对于P个连续视频帧而言，若其中的个别视频帧的景别和其他视频帧的景别不一致，则该个别视频帧的景别可能是异常识别结果，也就是说，可能是错的识别结果。因此，可以根据视频中景别的连续性，去除异常的景别识别结果。P为小于或等于N，且大于1的正整数。

在一个例子中，可以确定P个连续视频帧中视频帧A3的景别与其他视频帧的景别不同，且该其他视频帧的景别相同。该其他视频帧是该P个连续视频帧中除视频帧A3之外的视频帧。P大于阈值Y3。阈值Y3可以为预设值，例如可以为10，也可以为12，等等，此处不再一一列举。根据使用该其他视频帧的景别更新(或者说替换)视频帧A3的景别，即将视频帧A3的景别修改为该其他视频帧的景别。在一个例子中，视频帧A3不是P个连续视频中的边缘视频帧。其中，P个连续视频帧的边缘视频帧可以定义是P个连续视频帧中第1个至第p个视频帧以及第P-p个至第P个视频帧。p可以为预设值，且小于P的二分之一。

在一个例子中，可以预设一窗口，该窗口可以覆盖Q个视频帧。Q为小于或等于N，且大于1的正整数。该窗口在N个视频帧上按照预设的步长滑动。该步长可以为1个视频帧，或2个视频帧，等等，在实现时可以自由设置。可以设定步长为1，则该窗口的每次滑动移动一个视频帧。对于每次滑动后的窗口中覆盖Q个视频帧，可以设定该Q个视频帧中间的视频帧为当前视频帧。该Q个视频帧中间的视频帧是指该Q个视频帧按照在视频A中的时序进行排序后得到的序列的中间位置上的视频帧。其中，当Q为偶数时，中间视频帧可以是该 Q个视频帧中第(Q/2)个视频帧，也可以是指第(Q/2+1)个视频帧。可以根据该Q个视频帧的景别，对当前视频帧的景别进行更新。具体如下。

在一个实例中，以为近景、中景、远景分别赋予不同的值，例如赋予近景的值为0、中景的值为1、远景的值为2。然后，计算该Q个视频帧的景别的值的平均值，并将该平均值对应的景别作为当前视频帧的景别，实现对当前视频帧的景别的更新。

在另一个实例中，可以找出该Q个视频帧中出现最频繁的景别。即在该Q个视频帧中，具有该景别的视频帧个数最多。若当前视频帧的景别和该出现最频繁的景别不一致，则可以将该出现最频繁的景别作为当前视频帧的景别，实现对当前视频帧的景别的更新。

如此，在N个视频帧上不断滑动窗口，并对每次滑动后的窗口中的当前视频帧的景别进行更新。实现对N个视频帧的景别的过滤，以排除景别的异常识别结果。

图20所示的景别确定方法，可以模拟用户的注意力，确定用户所注意的物体，并根据该物体确定视频的景别，可以得到更符合用户主观感受的景别。

在一些实施例中，在景别识别层还可以执行图21所示得景别确定方法。参阅图21，该方法具体如下。

该方法的主干由自下而上(bottom-up)方案与自上而下(top-down)方案两个分支组成。

对于自下而上方案：

先通过信息融合，模拟出视觉感知选定区域。

首先通过显著性检测对视频帧中主体进行检测，利用空域初步定位出主体。

接着，通过视频光流检测，对视频帧之间的时域信息进行分析处理，获取物体的运动轨迹，并进行光流的后处理操作，结合显著性检测筛选出的主体物体，通过深度学习的浅层卷积得出人物注意力较高的区域。

对于自上而下方案：

通过Bottom-up选定的区域与图像语义理解进行图像中类别标签的逻辑判定，做出景深判断。

首先，通过图像语义分割对视频帧进行语义分割，再通过场景检测得出当前视频场景标签。

接着，针对预先定义的关注场景的优先级对Bottom-up阶段筛选出的人物注意力比较高的区域进行逻辑判断，目前优先级如下：

人物＞动物＞植物＞室内(中景)＝室外(远景)

自下而上方案和自上而下方案结合：

在注意力较高的区域首先寻找能被分割出的物体，如人物等，结合深度图，对图像景深进行预测，最终进行景深判定。

近中远景。若没有物体检测到，可通过图像场景检测来区分近景、中景、远景。

在一些实施例中，在景别识别层还可以执行图22所示得景别确定方法。参阅图22，该方法具体如下。

1.对视频流进行抽帧，对单帧图像进行检测：

a.通过显著性检测定位出图像层面的显著区域。

b.通过光流、运用时域运动信息(如镜头拉近、拉远，定位某运动大的物体)并融合空域域显著信息来定位人物视觉注意力。

c.通过语义分割和场景检测的标签结果，对图像语义层面进行信息理解，根据预先定义的优先级进行逻辑判定选定显著物体，分类出场景的近中远景。

2.对视频进行中值滤波，通过时域结果，通过滤波去除异常视频标签值。

3.根据过滤异常值后的视频标签输出对最终的景别分类结果：近景、中景、远景。

图20-图22提供的景别确定方法，通过对于视频光流的后处理，融合显著性检测得到的空域信息，利用了人物对运动物体的敏感性，能提升显著区域检测的准确性；通过对显著区域物体的景深判断，更符合人物对于近、中、远判断的主观性；利用语义分割来对显著区域进行筛选，使其能够根据物体优先级进行确认最终关注区域，更符合预期。

综合图20-图22所示的各方法实施例，本申请的一些实施例还提供如图23所示的景别确定方法。该方法可以在景别识别层中执行。参阅图23，该方法可以包括如下步骤。

步骤2301，获取第一视频中的N个视频帧，所述N个视频帧包括第一视频帧和第二视频帧，所述第一视频帧和所述第二视频帧在所述N个视频中相邻。

步骤2302，当所述第一视频帧包括第一物体，且所述第二视频包括所述第一物体时，确定所述第一物体在所述第一视频中的位置，以及确定所述第一物体在所述视频帧中的位置。

步骤2303，当所述第一物体在所述第一视频中的位置不同于所述第一物体在所述视频帧中的位置时，根据所述第一视频帧中所述第一物体的拍摄深度，确定所述第一视频帧的景别；其中，所述拍摄深度为相机在拍摄所述第一视频帧时所述相机与所述第一物体之间的距离。

在一个说明性示例中，所述方法还包括：确定所述第一物体在所述第一视频帧中的大小，以及确定所述第一物体在所述第二视频帧中的大小；当所述第一物体在所述第一视频帧中的大小不同于所述第一物体在所述第二视频帧中的大小时，根据所述第一视频帧的中心区域的拍摄深度，确定所述第一视频帧的景别。

在一个说明性示例中，所述第一物体包括多个物体；所述根据所述第一视频帧的中心区域的拍摄深度，确定所述第一视频帧的景别包括：当所述第一物体在所述第一视频中的位置不同于所述第一物体在所述第二视频帧中的位置，且所述第一物体在所述第一视频帧中的大小不同于所述第一物体在所述第二视频帧中的大小时，确定所述多个物体中的第二物体最接近所述第一视频帧的中心区域；根据所述第一视频帧中所述第二物体的拍摄深度，确定所述第一视频帧的景别。

在一个说明性示例中，所述第一物体包括多个物体，其中，不同物体具有不同的注意优先级；所述根据所述第一视频帧中所述第一物体的拍摄深度，确定所述第一视频帧的景别包括：根据所述多个物体中注意优先级最高的物体的拍摄深度，确定所述第一视频帧的景别。

在一个说明性示例中，所述多个物体包括人物、动物、植物、非生命物体；其中，人物的注意优先级高于动物的注意优先级，动物的注意优先级高于植物的注意优先级，植物的注意优先级高于非生命物体的注意优先级。

在一个说明性示例中，所述根据所述第一视频帧中所述第一物体的拍摄深度，确定所述第一视频帧的景别包括：当所述第一视频帧中所述第一物体的拍摄深度＜第一距离时，确定所述第一视频帧的景别为近景；或者，当所述第一视频帧中所述第一物体的拍摄深度＞第二距离时，确定所述第一视频帧的景别为远景；或者，当所述第一视频帧中所述第一物体的拍摄深度≥第一距离，且所述第一视频帧中所述第一物体的拍摄深度≤第二距离时，确定所述第一初频帧的景别为中景。

在一个说明性示例中，所述第一距离和/或所述第二距离是由用户设置的。

在一个说明性示例中，在从所述第一视频中确定N帧图像之前，所述方法还包括：显示输入界面，所述输入界面包括第一输入框；确定所述用户在所述第一输入框输入的第一长度，为所述第一距离或第二距离。

在一个说明性示例中，在从所述第一视频中确定N帧图像之前，所述方法还包括：显示距离选择界面，所述选择界面包括多个选择功能区，所述多个选择功能中不同选择功能对应不同的长度；响应于针对所述多个选择功能区中第一选择功能区的操作，确定所述第一选择功能区对应的长度为所述第一距离或第二距离。

在一个说明性示例中，所述第一物体为通过视觉显著性检测算法从所述第一视频帧识别到的物体。

图23所示的景别确定方法，可以模拟用户的注意力，确定用户所注意的物体，并根据该物体确定视频的景别，可以得到更符合用户注意力的景别。

回到图2，本申请实施例提供的视频语义识别方法还可以包括步骤205，在输出层，输出所述第一时序片段的动态语义和第一位置信息；以及输出所述第二时序片段的静态语义和第二位置信息。

在输出层，可以输出具有静态语义的时序片段所具有的静态语义以及位置信息，还可以输出具有动态语义的时序片段所具有的动态语义以及位置信息，还可以输出具有细节动态语义的精彩时序片段所具有的细节静态语义以及位置信息。其中，时序片段的位置信息具体上文介绍，在此不再赘述。

用户设备可以将时序片段的语义(静态语义或动态语义或细节动态语义)、位置信息以及所属视频的标识信息作为该时序片段的特征信息一并存储，以便用于后续的视频编辑。其中，可以存储到用户设备本地的存储空间，也可以存储到云端设备。

其输出层还可以输出视频帧的景别。具体而言，可以输出景别标签。其中，景别标签可以作为相应视频帧的特征信息进行记录或存储，以便用于后续的视频编辑。

本申请实施例提供的视频语义识别方法，可以识别视频中静态语义的时序片段以及具有动态语义的视频片段，由此，可以在编辑视频时，可以根据需要选择静态语义的时序片段或动态语义的视频片段进行视频拼接，从而可以得到更为精彩的视频。

参阅图24，本申请实施例提供了一种视频语义识别方法。该方法可以包括如下步骤。

步骤一，获取手机上已拍摄视频。

步骤二：视频解帧，对输入的视频进行解帧。将视频分为不同的帧序列图像。

步骤三：解帧后的视频输入图4所示的多层语义理解架构，可得到三层语义(静态语义、动态语义、细节动态语义)的类别特征。

步骤四：每一帧输出的表层语义类别和深层语义类别的后处理算法相同。分析视频每一帧信息首先通过多帧平滑，平滑掉毛刺类别。类别多帧聚合输出每一个类别的起始帧和截止帧位置。如果类别帧数小于threshold1(阈值1，th 1)，舍弃类别及其时序片段。如果类别帧数大于threshold1(阈值1，th 1)，保留类别及其时序片段。本操作可以提高识别类别及其时序片段的精确率。对于保留的类别，如果相同类别之间的帧间隔小于threshold2(阈值2，th 2)，将类别的时序合并。

步骤五：细节语义类别在段落识别层后添加多帧时序回归网络，直接回归出每一个类别的起始帧位置和截止帧位置。

步骤六：三层语义类别进行联合逻辑处理，得到三层语义的视频类别标签和时序片段。

图25示出了本申请实施例提供的一种多层视频语义理解架构。主要分为三个模块：

第一个模块为视频解码模块：对于输入的视频进行解帧。将视屏分为不同的帧序列图像。

第二个模块为空间语义提取模块，提取每一帧视频的空间语义特征。

第三个模块为分层语义的识别算法。空间语义特征直接分类生成每一帧的表层语义类别。累积N帧视频空间语义特征，通过时序特征网络，构建视频时序特征，时序特征分类生成视频的深层语义类别。视频时序特征结合RGBdiff流通过段落识别层，生成视频的细节语义类别。

参阅图26，本申请实施例还提供了一种视频编辑方法，该方法可以由用户设备执行，该用户设备可以为移动的或固定的，例如该用户设备可以是具有视频帧处理功能的移动电话、平板个人电脑、媒体播放器、智能电视、笔记本电脑、个人数字助理、个人计算机、照相机、摄像机、智能手表、可穿戴式设备等，本申请实施例对此不作限定。

如图26所示，该方法可以包括如下步骤。

步骤2601，获取目标拼接视频的第一主题和所述目标拼接视频的第一时长。

具体而言，用户在进行视频编辑时，在视频编辑界面，可以直接输入目标拼接视频的主题或者从预设的多个主题中选择主题。例如用户设备可以提供视频编辑界面，可显示多个主题，例如篮球运动、足球运动、婚礼、生日等。可以设定用户输入或选择了篮球运动，则可以确定目标拼接视频的主题为篮球运动。

在一些实施例中，在步骤2601还可以获取目标拼接视频的景别，例如近景，或者中景，或者远景。其中，目标拼接视频的景别也可以通过视频编辑界面得到。即用户可以在视频编辑界面输入目标拼接视频的景别。

用户在视频编辑界面还可以输入目标拼接视频的时长，或者从预设的多个时长中选择一个时长，作为目标拼接视频的时长。

步骤2602，确定语义符合所述第一主题的多个时序片段；所述多个时序片段包括具有动态语义的时序片段和具有静态语义的时序片段。

由上所述，用户设备本地或者云端设备可以存储由时序片段的特征信息，特征信息包括时序片段的语义、位置信息以及所属视频的标识信息。用户设备可以通过语义匹配算法或者文本匹配算法等方法，比对时序片段的语义和目标拼接视频的主题，以判断该时序片段的语义是否符合该主题，由此，确定出语义符合该主题的时序片段。

举例而言，可以设定第一主题为″篮球运动″，可以根据用户设备本地存储和/或云存储的多个时序片段的特征信息中确定符合″篮球运动″这一主题的时序片段。其中，具有″篮球″这一静态语义的时序片段、具有″打篮球″这一动态语义的时序片段。也就是说，根据 ″篮球运动″，可以确定出具有″篮球″这一静态语义的时序片段、具有″打篮球″这一动态语义的时序片段等与″篮球运动″主题相关的时序片段。

在一些实施例中，确定语义符合所述第一主题的多个时序片段包括，确定所述多个时序片段的景别均为目标拼接视频的景别。也就是说，选择的待拼接时序片段的景别是相同的，从而减少了拼接后的视频的画面跳跃感。

步骤2603，根据所述第一时长，从所述多个时序片段中确定用于拼接所述目标拼接视频的时序片段。其中，当所述多个时序片段中具有动态语义的时序片段的总时长等于或大于所述第一时长时，从所述具有动态语义的时序片段中确定用于拼接所述目标拼接视频的时序片段；当所述多个时序片段中具有动态语义的时序片段的总时长小于所述第一时长时，确定所述具有动态语义的时序片段全部用于拼接所述目标拼接视频，且从所述多个时序片段中具有静态语义的时序片段中确定用于拼接剩余视频片段的时序片段，所述剩余视频片段的时长等于所述第一时长减去所述总时长的差值。

具体而言，在选择用于拼接目标拼接视频的时序片段时，动态语义的时序片段优先级高于静态语义的时序片段优先级。因此，可以优先从符合主题的动态语义的时序片段中选择用于拼接目标拼接视频的时序片段。当符合主题的动态语义的时序片段的时长总和小于目标拼接视频的时长时，再从符合主题的静态语义的时序片段中选择用于拼接目标拼接视频的时序片段。

举例而言，可以设定目标拼接视频的主题为″篮球运动″，时长为5分钟。若确定出的具有″打篮球″这一动态语义的时序片段的时长总和大于或等于5分钟，则从该具有″打篮球″ 这一动态语义的时序片段中确定用于拼接目标拼接视频的片段。当然，当确定出的具有″打篮球″这一懂得语义的时序片段的总和等于5分钟，则将确定出的具有″打篮球″视频语义的时序片段全部用于拼接目标拼接视频。示例性的，当具有″打篮球″这一动态语义的时序片段的时长总和大于5分钟时，可以从这些时序片段中随机选择时长总和等于5分钟的时序片段进行拼接。

若确定出的具有″打篮球″这一动态语义的时序片段的时长总和小于5分钟，则将确定出的具有″打篮球″这一动态语义的时序片段全部用于拼接目标拼接视频。然后，在从确定出的具有″篮球″这一静态语义的时序片段中选择时序片段，来拼接剩下的时长片段。例如，确定出的具有″打篮球″这一动态语义的时序片段的时长总和为3分钟，在从具有″篮球″ 这一静态语义的时序片段中选择一个时长为2分钟的时序片段或者选择时长加和为2分钟的多个时序片段，用于和确定出的具有″打篮球″这一动态语义的时序片段拼接目标拼接视频。

在确定了用于拼接目标拼接视频的时序片段后，可以根据时序片段的位置信息将时序片段从所在的视频中切割出来，然后依次进行拼接，得到目标拼接视频。

本申请实施例提供的视频编辑方法，可以优先选择具有精彩程度较高的时序片段拼接目标视频，提高了目标视频的精彩程度。

参阅图27，本申请实施例还提供了一种视频编辑方法，该方法可以由用户设备执行。该方法包括如下步骤。

步骤2701，获取目标拼接视频的第一主题和所述目标拼接视频的第一时长。具体可以参考上文对步骤2601的介绍，在此不再赘述。

步骤2702，确定语义符合所述第一主题的多个时序片段；所述多个时序片段包括具有细节动态语义的时序片段、具有动态语义的时序片段。具体可以参考上文对步骤2602的介绍，在此不再赘述。

步骤2703，根据所述第一时长，从所述多个时序片段中确定用于拼接所述目标拼接视频的时序片段；其中，当所述具有细节动态语义的时序片段的总时长等于或大于所述第一时长时，从所述具有细节动态语义的时序片段中确定用于拼接所述目标拼接视频的时序片段；当所述具有细节动态语义的时序片段的总时长小于所述第一时长时，确定所述具有细节动态语义的时序片段全部用于拼接所述目标拼接视频，且从所述具有动态语义的时序片段中确定用于拼接剩余视频片段的时序片段，所述剩余视频片段的时长等于所述第一时长减去所述总时长的差值。

也就是说，在选择用于拼接目标拼接视频的时序片段时，具有细节动态语义的时序片段的优先级高于具有动态语义的时序片段的优先级。在进行视频拼接时，优先选择具有细节动态语义的时序片段进行拼接。当具有细节动态语义的时序片段的时长不够时，再从具有动态语义的时序片段中选举时序片段继续进行拼接。

参阅图28，本申请实施例还提供了一种视频编辑方法，该方法可以由用户设备执行。该方法包括如下步骤。

步骤2801，获取目标拼接视频的第一主题和所述目标拼接视频的第一时长。具体可以参考上文对步骤2601的介绍，在此不再赘述。

步骤2802，确定语义符合所述第一主题的多个时序片段；所述多个时序片段包括具有细节动态语义的时序片段、具有动态语义的时序片段、具有静态语义的时序片段。具体可以参考上文对步骤2602的介绍，在此不再赘述。

步骤2803，根据所述第一时长，从所述多个时序片段中确定用于拼接所述目标拼接视频的时序片段；其中，当所述具有细节动态语义的时序片段和所述具有动态语义的时序片段的总时长小于所述第一时长时，确定所述具有细节动态语义的时序片段和所述具有动态语义的时序片段全部用于拼接所述目标拼接视频，且从所述具有静态语义的时序片段中确定用于拼接剩余视频片段的时序片段，所述剩余视频片段的时长等于所述第一时长减去所述总时长的差值。

也就是说，在选择用于拼接目标拼接视频的时序片段时，具有细节动态语义的时序片段的优先级高于具有动态语义的时序片段的优先级，且具有动态语义的时序片段的优先级高于具有静态语义的时序片段的优先级。在进行视频拼接时，优先选择具有细节动态语义的时序片段进行拼接。当具有细节动态语义的时序片段的时长不够时，再从具有动态语义的时序片段中选择时序片段继续进行拼接；若时长还是不够，则再从具有静态语义的时序片段中选择时序片段进行继续进行拼接。

参阅图29，本申请实施例提供了一种视频编辑方法流程图。如图29所示，该方法可以包括如下步骤。

步骤一，手机中的每一个视频根据图2所示的语义识别方法得到不同的标签语义(不同层级的语义，即静态语义、动态语义、细节动态语义)及其对应的时序片段。

步骤二，设置不同层级的标签语义的优先级。不同层级的标签语义在视频编辑中代表不同的优先级。

示例性的，可以默认同一主题下的细节动态语义的优先级高于动态语义的优先级，动态语义的优先级高于静态语义的优先级。

示例性的，可以预先设定某一主题下的语义的优先级。例如，可以设定主题Z1下的细节动态语义的优先级高于动态语义的优先级，动态语义的优先级高于静态语义的优先级。再例如，可以设定主题Z2下的静态语义的优先级高于动态语义的优先级，动态语义的优先级高于细节动态语义的优先级。等等。在具体实现时，可以预先设置某一主题下的不同层级语义的优先级的高低关系。

步骤三，获取到手机上所有视频的标签语义及其对应的时序片段和置信度。根据视频编辑主题，优先选择主题相关第一优先级的视频标签，然后选择第二优先级的视频标签，然后选择第三优先级的视频标签。切割标签对应的时间段，将所选取的视频片段拼接起来自动生成编辑后的视频。

随着短视频社交平台的发展，越来越多的用户喜欢拍摄并分享视频。随之也带来了视频一键生成等便于用户编辑视频的功能的出现。一般而言，视频一键生成功能是指对现有的多个视频在时间域上进行连接或者说拼接。通常，多个视频并非连续拍摄，它们之间并没有天然的连续性。若对该多个视频直接拼接，则拼接后的视频不连续，观赏效果较差。

此外，冗长的视频不但易使观众厌烦，也占据较大的存储空间。因此，用户具有压缩视频的需求。

因此，需要一种可以平滑拼接多个视频以及平滑压缩视频的视频处理方案。

一种视频处理方法为，检测视频中连续视频帧中目标区域的重叠度(检测框的交并比)，再根据重叠度调整跟踪的目标区域，依此获得时间连续且空间平滑的信息区域，以在该信息区域展示广告。该方法为在视频中确定用于展示广告的区域的方法，难以实现不同的视频在时间维度上的平滑拼接。并且，该方法先通过卷积神经网络识别出目标区域，然后再确定目标区域的重叠度。也就是说，在方法中，卷积神经网络所提取的某一视频帧的空域特征用于识别该视频帧中的目标区域，识别出的该视频帧的目标区域和其他视频帧的目标区域的重叠度用于调整跟踪目标区域。

一种视频处理方法为，采用运动的结构的算法来计算稀疏3D点云，据此获得视频帧的特征点。然后，利用特征点及相关算法平滑相机路径。之后，根据平滑后的相机路径，抽选特定帧的集合作为压缩后的视频。该方法通过相机的路径来选择特征帧，并未直接考虑视频帧中物体变化是否连续，因此，压缩后视频仍可能存在镜头不连续或者说不平滑的问题。并且，采用运动的结构的算法获取的特征点可能较少或有限，导致平滑相机路径的结果的准确度可能较低，这也可能导致压缩后视频不平滑。

本申请实施例提供了一种视频处理方法，可以利用卷积神经网络(convolutionalneural networks，CNN)提取视频帧的空域特征，并利用提取的空域特征，计算不同视频帧之间的两两视频帧相似度。然后，根据不同视频的视频帧之间的两两视频帧相似度确定不同视频间的拼接点。可实现流畅的视频拼接效果。

为方便描述，可以将利用卷积神经网络提取的视频帧的空域特征称为卷积特征，或者 CNN特征。

本申请实施例提供的视频处理方法可由用户设备执行，该用户设备可以为移动的或固定的，例如该用户设备可以是具有视频帧处理功能的移动电话、平板个人电脑(tablet personal computer，TPC)、媒体播放器、智能电视、笔记本电脑(laptopcomputer，LC)、个人数字助理(personal digital assistant，PDA)、个人计算机(personal computer，PC)、照相机、摄像机、智能手表、可穿戴式设备(wearable device，WD)等，本申请实施例对此不作限定。

接下来，结合附图，在不同实施例中，对本申请实施例提供的视频处理方法进行示例说明。

接下来，参阅图30，对本申请实施例提供的视频处理方法进行示例说明。该方法可以由用户设备执行。

参阅图30，用户设备可以执行步骤3001，使用神经网络，提取第一视频中的每个视频帧在M个通道下的空域特征，以及提取第二视频中的每个视频帧在所述M个通道下的空域特征。其中，所述神经网络包括至少一个二维卷积层，所述M个通道中的不同通道对应于所述至少一个二维卷积层中最后一个卷积层的不同卷积核。M为大于或等于1的正整数。

在一些实施例中，第一视频和第二视频可以为一个视频中的两个高光时刻片段。高光时刻片段的确定过程可将上文所述，在此不再赘述。例如，第一视频可以为图31A所示的视频 A中的片段A1，第二视频可以为图31A所示的视频A中的片段A2。

可以理解，有的视频比较冗长，其可能包含了一段多段高光时刻片段。为了提高视频的精彩程度，可以将一个视频中的多段高光时刻片段或多个视频中的高光时刻片段在时序上直接拼接，去除该视频中的非高光时刻片段，从而得到更为精彩的视频。

在一些实施例中，高光时刻片段可以为具有动态语义的片段。也就说，本申请实施例提高的视频处理方法还可以包括：获取视频A；确定视频A中的片段A1具有动态语义，以及视频A中的片段A2具有动态语义；将片段A1用作第一视频，将片段A2用作第二视频。其中，片段A1具有的动态语义和片段A2具有的动态语义可以相同，也可以不同。

在一些实施例中，高光时刻片段可以为具有细节动态语义的片段。也就说，本申请实施例提供的视频处理方法还可以包括：获取视频A；确定视频A中的片段A1具有细节动态语义，以及视频A中的片段A2具有细节动态语义；将片段A1用作第一视频，将片段A2用作第二视频。其中，片段A1具有的细节动态语义和片段A2具有的细节动态语义可以相同，也可以不同。

高光时刻片段的具体含义以及确定过程，以及动态语义、细节动态语义的具体含义可以参考上文图2所示各方法实施例的介绍，在此不再赘述。

在一些实施例中，第一视频和第二视频可以为两个独立的视频。例如，第一视频可以为图31B所示的视频A’，第二视频可以为图31B所示的视频A”。

参阅图31A和图31B，可以设定第一视频和第二视频输入到神经网络。该神经网络可以包括至少一个二维卷积层。该至少一个二维卷积层可以串行设置。也就是说，该至少一个二维卷积层中不同卷积层之间是串行设置的，相邻的两个卷积层是上下层关系。在对视频帧进行卷积处理，提取空域特征，或者说CNN特征。该至少一个二维卷积层的最后一个卷积层输出视频帧在M个通道下的空域特征，该M个通道中的不同通道对应于该最后一个卷积层的不同卷积核。具体可以参考上文对图2中步骤202的介绍，在此不再赘述。

在一些实施例中，参阅图31A和图31B，该神经网络还可以包括多个风格迁移层，该多个风格迁移层并行设置，也就是说，该多个风格迁移层中不同迁移层之间是并行。多个风格迁移层中的不同风格迁移层可以对应多个物体类别中的不同物体类别。在一个例子中，该多个物体类别可以包括哺乳动物类、球类(篮球、足球等属于球类)、鱼类、植物类等物体类别。在一个例子中，该多个物体类别可以包括动物类、植物类、球类等物体类别。等等。在具体实现时，具体设置该多个物体类别具体所包括的物体类别。

风格迁移层可以理解为特征近似层，其可以对同一物体类别下的物体的CNN特征进行近似处理。具体而言，风格迁移层可以具有生成器。该生成器可以为生成式对抗网络(generative adversarial networks，GAN)中的生成模型(generative model)。

可以理解，生成式对抗网络具有生成模型和判别模型(discriminative model)。其中，生成模型可以学习训练数据的数据分布。当向生成模型输入噪声(训练数据之外的数据)时，生成模型可以使噪声的数据分布接近或逼近生成模型学习到的数据分别，从而生成训练数据的模拟数据。判别模型的功能是判断一个数据是真实的训练数据，还是生成模型利用噪声生成的模拟数据。在生成模型的训练过程中，使得生成模型尽可能的学习到训练数据的真实数据分布，从而可以生成尽可能逼真的模拟数据。在判别模型的训练过程中，尽可能提高判断模型区分真实的训练数据和生成模型利用噪声生成的模拟数据的能力。可以对生成模型和判断模型进行交替迭代训练或者说单独交替迭代训练，寻找生成模型和判断模型之间的纳什均衡。前文对生成式对抗网络的基本原理进行了示例介绍。生成式对抗网络更详细的解释可以参考现有技术，特别是论文《unsupervised cross-domainimage generation》(Yaniv Taigman，Adam Polyak＆Lior Wolf，Under review as aconference paper at ICLR 2017)中利用生成式对抗网络进行图像风格迁移的介绍。

在本申请实施例中，如上所述，一风格迁移层可以对应一物体类别。可以设置物体类别下的参考物体。例如，对于哺乳动物这一物体类别，可以设置猫为哺乳动物下的参考物体。再例如，对于球类这一物体类别，可以设置篮球为球类下的参考物体。等等，此处不再一一列举。可以以含有参考物体的图像或视频帧为样本，以样本的CNN特征(通过卷积神经网络提取的样本的特征，具体参考上文介绍)为训练数据，训练GAN中的生成模型以及判断模型。然后，将训练完成的生成模型用作风格迁移层的生成器。

其中，可以理解，视频或者视频帧或图像包括物体，实际是指视频或视频帧或图像包括物体的影像。在本申请实施例中，为方便描述，在视频或视频帧或图像包括某一物体的影像时，称视频或视频帧或图像包括该物体。

步骤3001可以包括：对于所述第一视频和所述第二视频中的每个视频帧，根据所述视频帧包括的物体的物体类别，从所述多个风格迁移层中确定对应于所述视频帧的风格迁移层；使用所述对应于所述视频帧的风格迁移层，对所述视频帧在所述M个通道下的空域特征，进行风格迁移处理，得到所述视频帧在所述M个通道下的第一空域特征。

具体而言，对于每一个视频帧而言，可以确定该视频帧所包括的物体，进而可以确定该物体所属的物体类别，进而可以确定出对应于该物体类别的风格迁移层。对应于该物体类别的风格迁移层即为对应于该视频帧的风格迁移层。

可以将至少一个二维卷积层输出的该视频帧在M个通道中每个通道下的空域特征，输入到风格迁移层的生成器中，进行风格迁移或者说特征近似处理。对于该M个通道的每个通道而言，可以将生成器的输出称为该通道下的第一空域特征。视频帧的在M个通道下的空域特征输入到风格迁移层的生成器，该生成器可以输出该视频帧在M个通道下的第一空域特征。

继续参阅图30，用户设备可以执行步骤3002，根据所述第一视频中各个视频帧在所述M 个通道下的空域特征和第二视频中各个视频帧在所述M个通道下的空域特征，确定所述第一视频中各个视频帧和所述第二视频中各个视频帧之间的两两视频帧相似度。

在一些实施例中，步骤3002中的视频帧在M个通道下的空域特征具体可以是指图31A 或图31B所示的至少一个二维卷积层输出的M个通道下的空域特征。

在一些实施例中，步骤3002中的视频帧在M个通道下的空域特征具体可以是指图31A 或图31B所示的风格迁移层输出的M个通道下的空域特征。也就是说，在该实施例中，步骤 3002具体可以为或包括：根据所述第一视频中各个视频帧在所述M个通道下的第一空域特征和第二视频中各个视频帧在所述M个通道下的第一空域特征，确定所述第一视频中各个视频帧和所述第二视频中各个视频帧之间的两两视频帧相似度。

接下来，具体介绍确定视频帧之间的两两视频帧相似度的过程。

可以设定第一视频具有L个视频帧，视频帧l为该L个视频帧中的第1个视频帧。其中， l在区间[1，L]中取正整数值。第二视频具有R个视频帧，视频帧r为该R个视频帧中的第r 个视频帧。其中，r在区间[1，R]中取正整数值。可以根据视频帧l在该M个通道下的空域特征和视频帧r在该M个通道下的空域特征，计算视频帧1和视频帧r之间的两两视频帧相似度。

在一些实施例中，视频帧在M个通道中每个通道下的空域特征可以由矩阵表示。可以设定矩阵的长为K，宽为K’。也就是说，视频帧在每个通道下的空域特征可以为含有K×K’个元素的矩阵。其中，K×K’个元素中的元素可以称为视频帧在相应通道下的特征值。对于一个视频帧而言，可以取其在M个通道中各个通道下的空域特征中坐标为(i，j)的元素或特征值，得到M个特征值。其中，i在区间[1，K]中取正整数值，j在区间[1，K’]中取正整数值。将这M个特征值组合为一个向量。对于一个视频帧而言，其在每个通道下的空域特征具有K ×K’个元素，因此，该视频帧可以具有K×K’个向量。其中，可以视频帧在M个通道中各个通道下的空域特征中坐标为(i，j)的特征值组成的向量称为该视频帧的K×K’个向量中第i ×j个向量，也可以简称为该视频帧的第i×j个向量。

可以根据视频帧1的第i×j个向量和视频帧r的第i×j个向量，计算视频帧1和视频帧r 在第i×j个向量下的相似度。然后，将视频帧1和视频帧r在K×K’个向量中各个向量下的相似度，确定视频帧1和视频帧r之间的两两视频帧相似度。

在这些实施例的第一示例中，可以计算视频帧1的第i×j个向量和视频帧r的第i×j个向量之间的余弦距离。并将计算得到的余弦距离用作视频帧1和视频帧r在第i×j个向量下的相似度。然后，将视频帧1和视频帧r在K×K’个向量中各个向量下的相似度，进行累加，得到的累加和可以用作视频帧1和视频帧r之间的两两视频帧相似度。

具体而言，可以将视频帧1在M个通道中各个通道下的空域特征中坐标为(i，j)的元素组成的向量称为vecoter_l，i，j。视频帧r在M个通道中各个通道下的空域特征中坐标为(i，j) 的元素组成的向量称为vecoter_r，i，j。可以通过公式(13)计算视频帧1和视频帧r之间的两两视频帧相似度S_i，j。

其中，K为M个通道中每个通道下的空域特征对应矩阵的长度，K’为M个通道中每个通道下的空域特征对应矩阵的宽度，l表示视频帧1，r表示视频帧r。

简而言之，在该第一示例中，步骤3002包括：将第一视频帧在所述M个通道下的空域特征，划分为所述第一视频帧的K×K’个向量；其中，所述第一视频帧的K×K’个向量中的第 i×j个向量由所述第一视频帧在所述M个通道中各通道下的空域特征中坐标为(i，j)的元素组成；i为小于或等于K的正整数，j为小于或等于K’的正整数；所述第一视频帧为所述第一视频中的一个视频帧；将第二视频帧在所述M个通道下的空域特征，划分为所述第二视频帧的K×K’个向量；其中，所述第二视频帧的K×K’个向量中的第i×j个向量由所述第二视频帧在所述M个通道中各通道下的空域特征中坐标为(i，j)的元素组成；所述第二视频帧为所述第二视频中的一个视频帧；计算所述第一视频帧的第i×j个向量和所述第二视频帧的第i×j 个向量之间的余弦距离；将所述余弦距离，作为所述第一视频帧和所述第二视频帧在第i×j 个向量下的相似度；根据所述第一视频帧和所述第二视频帧在K×K’个向量中各个向量下的相似度，确定所述第一视频帧和所述第二视频帧的两两视频帧相似度。

在这些实施例的第二示例中，可以计算视频帧1在所述M个通道中各通道下的空域特征中坐标为(i，j)的元素或者说特征值的平均值。为方便描述，可以将视频帧1在所述M个通道中各通道下的空域特征中坐标为(i，j)的元素或者说特征值的平均值称为第一平均值。具体而言，可以将视频帧1在所述M个通道中各通道下的空域特征中坐标为(i，j)的元素相加，共有M个坐标为(i，j)的元素相加。将得到的相加和除以M，得到第一平均值。同理，还可以计算视频帧r在所述M个通道中各通道下的空域特征中坐标为(i，j)的元素或者说特征值的平均值。为方便描述，可以将视频帧r在所述M个通道中各通道下的空域特征中坐标为(i，j)的元素或者说特征值的平均值称为第二平均值。

可以根据第一平均值、第二平均值和视频帧1的第i×j个向量和视频帧r的第i×j个向量之间的余弦距离，确定视频帧1和视频帧r在视频帧1和视频帧r在第i×j个向量下的相似度。在一个例子中，可以计算第一平均值和第二平均值的平均值，得到第三平均值。即可以将第一平均值和第二平均值的平均值称为第三平均值。然后，计算第三平均值的平均值与该余弦距离的乘积，得到的结果可以用作视频帧1和视频帧r在第i×j个向量下的相似度。

参考视频帧1和视频帧r在第i×j个向量下的相似度的计算过程，可以计算视频帧1和视频帧r在其他向量下的相似度。由此，可以得到视频帧l和视频帧r在K×K’个向量中各个向量下的相似度。然后，可以根据视频帧1和视频帧r在K×K’个向量中各个向量下的相似度，确定视频帧1和视频帧r之间的两两视频帧相似度。

在一个例子中，可以通过公式(14)计算视频帧1和视频帧r之间的两两视频帧相似度S_i，j。

其中，mask_i，j为上述第三平均值，K为M个通道中每个通道下的空域特征对应矩阵的长度，K’为M个通道中每个通道下的空域特征对应矩阵的宽度，l表示视频帧1，r表示视频帧 r，vecoer_l，i，j为视频帧1在M个通道中各个通道下的空域特征中坐标为(i，j)的元素组成的向量。vecoter_r，i，j为视频帧r在M个通道中各个通道下的空域特征中坐标为(i，j)的元素组成的向量。

简而言之，在该第一示例中，步骤3002包括：计算所述第一视频帧在所述M个通道中各通道下的空域特征中坐标为(i，j)的元素的第一平均值，以及所述第二视频帧在所述M 个通道中各通道下的空域特征中坐标为(i，j)的元素的第二平均值；计算所述余弦距离和所述第一平均值的第一乘积，以及所述余弦距离和所述第二平均值的第二乘积；根据所述第一乘积和所述第二乘积，确定所述第一视频帧和所述第二视频帧的两两视频帧相似度。

继续参阅图30，用户设备可以执行步骤3003，根据所述第一视频中各个视频帧和所述第二视频中各个视频帧之间的两两视频帧相似度，确定所述第一视频和所述第二视频的拼接点，以拼接所述第一视频和所述第二视频。

可以理解，第一视频中的多个视频帧和第二视频中的多个视频帧的两两组合进行两两视频帧相似度计算，可以得到多个两两视频帧相似度。可以利用该多个两两视频帧相似度，确定第一视频和第二视频的拼接点。

在一些实施例中，可以确定该多个两两视频帧相似度中最大的两两视频帧相似度。然后，将该最大的两两视频帧相似度对应的视频帧作为视频拼接的拼接点或者说连接点。例如，可以设定视频帧1和视频帧r之间的两两视频帧相似度是该多个两两视频帧相似度中最大的。也就是说，视频帧1和视频帧r之间的两两视频帧相似度大于，第一视频中其他视频帧和第二视频帧中其他视频帧之间的两两视频帧相似度。如此，则可以将视频帧1作为第一视频的拼接点或者说连接点，将视频帧r作为第二视频的拼接点或连接点。

在一些实施例中，可以确定该多个两两视频帧相似度中大于预设阈值的两两视频帧相似度。若大于预设阈值的两两视频帧相似度是唯一的，可以将大于预设阈值的两两视频帧相似度对应的视频帧作为视频拼接的拼接点或者说连接点。若大于预设阈值的两两视频帧相似度有多个，则可以从其中任意选择一个大于预设阈值的两两视频帧相似度，并将选择的大于预设阈值的两两视频帧相似度对应的视频帧作为视频拼接的拼接点或者说连接点。

在一些实施例中，可以设定视频帧1为第一视频的拼接点或者说连接点，视频帧r为第二视频帧的拼接点或者说连接点。可以将第一视频的第一个视频帧和视频帧1之间的视频帧组成的片段，用作第一视频的待拼接片段。该待拼接片段可以包括视频帧1。也就是说，该待拼接片段的起始视频帧为第一视频的第一个视频帧，终点视频帧为视频帧l。可以将视频帧r 和第二视频的最后一个视频帧之间的视频帧组成的片段，用作第二视频的待拼接片段。该待拼接片段可以包括视频帧r。也就是说，该待拼接片段的起始视频帧为视频帧r，终点视频帧为第二视频的最后一个视频帧。可以按照第一视频的待拼接片段在前，第二视频的待拼接片段在后的顺序，进行视频拼接。也就是说，在拼接得到的视频中，第一视频的待拼接片段位于第二视频的待拼接片段之前。

在一些实施例中，可以设定视频帧l为第一视频的拼接点或者说连接点，视频帧r为第二视频帧的拼接点或者说连接点。可以将视频帧l和第一视频的最后一个视频帧之间的视频帧组成的片段，用作第一视频的待拼接片段。该待拼接片段可以包括视频帧1。也就是说，该待拼接片段的起始视频帧为视频帧1，终点视频帧为第一视频的最后一个视频帧。可以将第二视频的第一个视频帧和视频帧r之间的视频帧组成的片段，用作第二视频的待拼接片段。该待拼接片段可以包括视频帧r。也就是说，该待拼接片段的起始视频帧为第二视频的第一个视频帧，终点视频帧为视频帧r。可以按照第二视频的待拼接片段在前，第一视频的待拼接片段在后的顺序，进行视频拼接。也就是说，在拼接得到的视频中，第二视频的待拼接片段位于第一视频的待拼接片段之前。

本申请实施例提供的视频处理方法，可以利用视频帧的CNN特征，计算不同视频或视频片段中视频帧的相似度，并根据视频帧的相似度，确定用于在时间维度上拼接不同视频或视频片段的拼接点，使得拼接后的视频更加流畅，提高了视频的观赏效果。并且，直接利用卷积神经网络提取的视频帧的CNN特征，计算相似度，提高了相似度计算的实时性。卷积神经网络可以提取到视频帧较为丰富的特征，由此也提高了相似度的准确性。

本申请实施例提供了一种视频处理方法，可以提取视频中视频帧的CNN特征，并基于视频帧的CNN特征计算相邻视频帧之间的两两视频帧相似度；然后，基于两两视频帧相似度，可以确定关键视频帧；并且使用关键视频帧合成新的视频，实现视频的平滑压缩。视频的平滑压缩是指压缩后的视频具有较高的流畅度。

接下来，结合图32，对本申请实施例提供的视频处理方法进行示例说明。该方法可以由用户设备执行。如图32所示，该方法可以包括如下步骤。

用户设备可以执行步骤3201，对第一视频进行抽帧处理，得到N个视频帧。可以对第一视频进行视频分帧，并进行抽帧处理，得到N个视频帧。具体而言，可以将视频A经视频分帧处理后得到的所有视频帧，按照视频帧在视频A中的顺序进行排序。然后，从该排序得到的序列中每间隔预设帧数(例如，每间隔5个视频帧，或每间隔10个视频帧，等等)抽取一个视频帧。如此，可以抽取到N个视频帧。

用户设备可以执行步骤3202，使用神经网络，提取所述N个视频帧中每个视频帧在M 个通道下的空域特征；所述神经网络包括至少一个二维卷积层，所述M个通道中的不同通道对应于所述至少一个二维卷积层中最后一个卷积层的不同卷积核。具体可以参考上文对图2 中步骤202的介绍，在此不再赘述。

用户设备可以执行步骤3203，根据所述N个视频帧中各个视频帧在所述M个通道下的空域特征，确定所述N个视频帧中相邻视频帧之间的两两视频帧相似度。

具体而言，可以根据第一视频中，相邻的两个视频帧各自所述M个通道下的空域特征，确定该两个视频帧之间的两两视频帧相似度。举例而言，可以设定视频帧11和视频帧12为第一视频中相邻。其中，可以将视频帧11和视频帧l2称为第一视频中的一对相邻视频帧。可以根据视频帧11在M个通道下的空域特征和视频帧12在M个通道下的空域特征，确定视频帧 11和视频帧12之间的两两视频帧相似度。两两视频帧相似度的计算可以参考上文对图30中步骤3002的介绍。

如此，可以确定出第一视频中每对相邻视频帧之间的两两视频帧相似度。设定第一视频共有N个视频帧，则可以有N-1对相邻视频帧。相应地，可以确定出N-1个两两视频帧相似度。此处的N为大于2的正整数。

用户设备可以执行步骤3204，根据所述N个视频帧中各相邻视频帧之间的两两视频帧相似度和N个视频帧中各视频帧的时间点，确定第一曲线。

其中，视频帧的时间点是指视频帧在视频中的相对时间点。例如，对于时长为T的视频，在其播放过程，在播放到时刻t时所呈现的视频帧的时间点为即为时刻t。

在一些实施例中，可以以两两视频帧相似度为纵坐标，以视频帧的时间点为横坐标绘制曲线。可以在坐标轴中画出纵坐标为两两视频帧相似度，横坐标为该两两视频帧相似度对应的视频帧的时间点的坐标点，然后连接相邻的坐标点，得到第一曲线。示例性的，绘制的第一曲线可以如图33所示的虚线。在一个例子中，对于一两两视频帧相似度而言，其横坐标可以为其对应的一对视频帧的时间点的平均值。在另一个例子中，对于一两两视频帧相似度而言，其横坐标可以为其对应的一对视频帧中前一个视频帧的时间点。在又一个例子中，对于一两两视频帧相似度而言，其横坐标可以为其对应的一对视频帧中后一个视频帧的时间点。

用户设备可以执行步骤3205，对所述第一曲线进行傅里叶变换，得到第一变换结果。可以对图33所示的虚线进行傅里叶变换(fourier transform)，第一变换结果。可以理解，傅里叶变换用于将时延上的信息，变换为频域上的信息。因此，第一变换结果为多个频率值，其中每个频率值对应一个时间点。

用户设备可以执行步骤3206，从所述第一变换结果中，确定小于阈值的变换结果。在步骤3206中，截取第一曲线傅里叶变换后的低频信息。具体而言，选择小于阈值的变换结果。其中，阈值可以由第一变换结果中的最大值确定。在一些实施例中，阈值小于或等于该最大值的二分之一。在一个例子中，阈值具体可以为该最大值的四分之一。

用户设备可以执行步骤3207，根据所述小于阈值的变换结果以及所述小于阈值的变换结果对应的时间点，确定第二曲线。可以以步骤3206中确定出的小于阈值的变换结果为纵坐标，小于预设阈值的变换结果对应的时间点为横坐标，绘制第二曲线。具体而言，可以在坐标轴中画出纵坐标为小于预设阈值的变换结果，横坐标为该小于阈值的变换结果对应的时间点的坐标点，然后连接相邻的坐标点，可以得到第二区域。示例性的，绘制的第二曲线可以如图 33所示的实线。

用户设备可以执行步骤3208，确定所述第一曲线和所述第二曲线的交点对应的视频帧为关键视频帧。

如图33所示，第一曲线和第二曲线可以存在多个交点。该多个交点的每个交点对应的一个时间点。可以将每个交点对应的时间点对应的视频帧为关键视频帧。也就是说，若一个视频帧在视频中的相对时间点为一个交点对应的时间点时，将该视频帧作为关键视频帧。如此，通过该多个交点，可以得到多个视频帧。

用户设备可以执行步骤3209，使用关键视频帧合成视频，得到压缩后的所述第一视频。可以将步骤3208确定出的多个关键视频帧，按照在第一视频中的相对时序关系进行排序，并合成新的视频。该多个关键视频帧在新的视频中的相对时序关系和在第一视频中的相对时序关系一致。

本申请实施例提供的视频处理方法，可以利用视频帧的CNN特征，计算不同视频或视频片段中视频帧的相似度，并根据视频帧的相似度，确定关键视频帧；使用关键视频帧合成新的视频，实现对原视频的压缩；该新的视频流畅度高，也就是说，实现了视频的平滑压缩。

本申请实施例提供了一种视频处理方法，可以用于视频拼接或内容压缩。其中，该方法可以利用CNN特征计算出连续帧衔接的平滑度指标，将平滑度指标作为优化目标，可以实现流畅的拼接或内容压缩效果。具体而言，该方法可以通过CNN提取丰富的特征，可以实时处理，可以对主体(前景)和背景区分，提供更加丰富的视频拼接方法；还可以通过生成式对抗网络，实现语义分层融合；以及通过CNN提取视频帧图片的特征，根据空间域特征信息计算出连续帧衔接的平滑度指标，根据平滑度指标来进行时域上的拼接或压缩。

参阅图34，本申请实施例提供的视频处理方法可以用于多段视频拼接，利用CNN特征在空域一一比对，可以实现流畅的拼接或内容压缩效果，具体流程如下：

步骤一：获取多段待拼接的视频数据的CNN特征(例如图34中的cat、dog、basketball、 football等特征片段)，根据输入数据的类型大致分为两种情况：

情景一：输入视频为一段冗长的视频数据，对输入的视频进行解帧，将视频分为帧序列图像，通过视频语义理解CNN模型提炼高光时刻片段，并将视频进行切割，获得多段视频片段帧序列及其序列图像的CNN特征；

情景二：输入视频为多段视频片段，对输入的多段视频分别进行解帧，并利用CNN网络提取卷积特征；

步骤二：利用GAN将步骤一中获得的特征片段，利用特征迁移的方法将相同大类下的不用子类的特征近似处理，例如使得cat和dog的特征近似，或者basketball和football视频片段的特征近似。

步骤三：提取每一帧图像的mask，方法为在特征图的通道上取平均值，获得和feature map 相同宽和高的mask。

步骤四：计算任意两帧之间的平滑系数S，公式为：

其中，(i，j)为任意两帧特征图的对应点的坐标值，l为前一帧图片的index值，r为后一帧图片的index值。

步骤五：对于需要拼接的其中两个片段，左区间1可选范围设定为(0，L)，右区间r的可选范围设定为(0，R)，对于l和r，根据图步骤四中计算公式计算平滑度指标S，以最大化S为目标搜索到l和r，为拼接的最佳左右连接点。

参阅图35，本申请实施例提供的视频处理方法可以用于视频内容压缩，其可以利用上文计算出的视频平滑度指标S，可以找到最优平滑曲线实现视频内容压缩，具体流程如下：

首先输入视频为一段冗长的视频数据，对输入的视频进行解帧，将视频分为帧序列图像，通过CNN模型帧序列图像的CNN特征序列；

然后计算相邻两帧的相对平滑指标S，得到随时间的变化函数S(t)(图35中的虚线)，对这个变化剧烈的时间序列做傅里叶变换，截取低频信息作为平滑后的S(t)`(图35中的实线)， S(t)和S(t)`交点对应的时间点的集合，即为视频关键帧的集合，将关键帧序列转化成视频，即可得到平滑压缩的视频。

本申请实施例提供的视频处理方法具有如下优点。

1)可以通过CNN提取丰富的特征，可以实时处理，可以对主体(前景)和背景区分，提供更加丰富的视频拼接方法；

2)通过GAN的方法，可以实现语义分层融合；

3)通过CNN提取视频帧图片的特征，根据空间域特征信息计算出连续帧衔接的平滑度指标，根据平滑度指标来进行时域上的拼接或压缩。

参阅图36，本申请实施例提供了一种识别视频语义的装置，所述装置包括：

输入单元3610，用于获取视频的多个视频帧；

提取单元3620，用于提取所述多个视频帧中每一个视频帧的空域特征；

第一识别单元3630，用于根据所述多个视频帧中的N个连续视频帧的空域特征，确定所述N个连续视频帧中第N个视频帧的动态语义；N为正整数；

第二识别单元3640，用于根据所述多个视频帧中第一视频帧的空域特征，确定所述第一视频帧的静态语义；

划分单元3650，用于当具有第一动态语义且连续的视频帧的个数大于第一阈值时，使用所述具有第一动态语义且连续的视频帧合成第一时序片段，且确定所述第一动态语义为所述第一时序片段的动态语义；

所述划分单元3650还用于当具有第一静态语义且连续的视频帧的个数大于第二阈值时，使用所述具有第一静态语义且连续的视频帧合成第二时序片段，且确定所述第一静态语义为所述第二时序片段的静态语义；

输出单元3660，用于输出所述第一时序片段的动态语义和第一位置信息；以及输出所述第二时序片段的静态语义和第二位置信息；其中，所述第一位置信息由所述第一时序片段中的第一个视频帧和最后一个视频帧各自在所述视频中的位置表示；所述第二位置信息由所述第二时序片段中的第一个视频帧和最后一个视频帧各自在所述视频中的位置表示。

本申请实施例提供的识别视频语义的装置的各功能单元的功能可以参考上文对图2所示各方法实施例实现，在此不再赘述。

本申请实施例提供了一种视频编辑装置，参阅图37，所述装置包括：

获取单元3710，用于获取目标拼接视频的第一主题和所述目标拼接视频的第一时长；

第一确定单元3720，用于确定语义符合所述第一主题的多个时序片段；所述多个时序片段包括具有动态语义的时序片段和具有静态语义的时序片段；

第二确定单元3730，用于根据所述第一时长，从所述多个时序片段中确定用于拼接所述目标拼接视频的时序片段；

其中，当所述具有动态语义的时序片段的总时长等于或大于所述第一时长时，从所述具有动态语义的时序片段中确定用于拼接所述目标拼接视频的时序片段；

当所述具有动态语义的时序片段的总时长小于所述第一时长时，确定所述具有动态语义的时序片段全部用于拼接所述目标拼接视频，且从所述具有静态语义的时序片段中确定用于拼接剩余视频片段的时序片段，所述剩余视频片段的时长等于所述第一时长减去所述总时长的差值。

本申请实施例还提供了一种视频编辑装置，继续参阅图37，所示装置包括：

第一确定单元3720，用于确定语义符合所述第一主题的多个时序片段；所述多个时序片段包括具有细节动态语义的时序片段、具有动态语义的时序片段；

其中，当所述具有细节动态语义的时序片段的总时长等于或大于所述第一时长时，从所述具有细节动态语义的时序片段中确定用于拼接所述目标拼接视频的时序片段；当所述具有细节动态语义的时序片段的总时长小于所述第一时长时，确定所述具有细节动态语义的时序片段全部用于拼接所述目标拼接视频，且从所述具有动态语义的时序片段中确定用于拼接剩余视频片段的时序片段，所述剩余视频片段的时长等于所述第一时长减去所述总时长的差值。

第一确定单元3720，用于确定语义符合所述第一主题的多个时序片段；所述多个时序片段包括具有细节动态语义的时序片段、具有动态语义的时序片段、具有静态语义的时序片段；

其中，当所述具有细节动态语义的时序片段和所述具有动态语义的时序片段的总时长小于所述第一时长时，确定所述具有细节动态语义的时序片段和所述具有动态语义的时序片段全部用于拼接所述目标拼接视频，且从所述具有静态语义的时序片段中确定用于拼接剩余视频片段的时序片段，所述剩余视频片段的时长等于所述第一时长减去所述总时长的差值。

参阅图38，本申请实施例提供了一种视频处理装置，该装置包括：

提取单元3810，用于使用神经网络，提取第一视频中的每个视频帧在M个通道下的空域特征，以及提取第二视频中的每个视频帧在所述M个通道下的空域特征；所述神经网络包括至少一个二维卷积层，所述M个通道中的不同通道对应于所述至少一个二维卷积层中最后一个卷积层的不同卷积核；M为大于或等于1的正整数；

第一确定单元3820，用于根据所述第一视频中各个视频帧在所述M个通道下的空域特征和第二视频中各个视频帧在所述M个通道下的空域特征，确定所述第一视频中各个视频帧和所述第二视频中各个视频帧之间的两两视频帧相似度；

第二确定单元3830，用于根据所述第一视频中各个视频帧和所述第二视频中各个视频帧之间的两两视频帧相似度，确定所述第一视频和所述第二视频的拼接点，以拼接所述第一视频和所述第二视频。

本申请实施例提供的视频处理装置的各功能单元的功能可以参考上文对图30所示各方法实施例实现，在此不再赘述。

本申请实施例提供的视频处理装置，可以利用视频帧的CNN特征，计算不同视频或视频片段中视频帧的相似度，并根据视频帧的相似度，确定用于在时间维度上拼接不同视频或视频片段的拼接点，使得拼接后的视频更加流畅，提高了视频的观赏效果。并且，直接利用卷积神经网络提取的视频帧的CNN特征，计算相似度，提高了相似度计算的实时性。卷积神经网络可以提取到视频帧较为丰富的特征，由此也提高了相似度的准确性。

参阅图39，本申请实施例提供了一种视频处理装置，所述装置包括：

抽帧单元3910，用于对第一视频进行抽帧处理，得到N个视频帧；

提取单元3920，用于使用神经网络，提取所述N个视频帧中每个视频帧在M个通道下的空域特征；所述神经网络包括至少一个二维卷积层，所述M个通道中的不同通道对应于所述至少一个二维卷积层中最后一个卷积层的不同卷积核；

第一确定单元3930，用于根据所述N个视频帧中各个视频帧在所述M个通道下的空域特征，确定所述N个视频帧中相邻视频帧之间的两两视频帧相似度；

第二确定单元3940，用于根据所述N个视频帧中各相邻视频帧之间的两两视频帧相似度和N个视频帧中各视频帧的时间点，确定第一曲线；

变换单元3950，用于对所述第一曲线进行傅里叶变换，得到第一变换结果；

第三确定单元3960，用于从所述第一变换结果中，确定小于阈值的变换结果；

第四确定单元3970，用于根据所述小于阈值的变换结果以及所述小于阈值的变换结果对应的时间点，确定第二曲线；

第五确定单元3980，用于确定所述第一曲线和所述第二曲线的交点对应的视频帧为关键视频帧；

合成单元3990，用于使用关键视频帧合成视频，得到压缩后的所述第一视频。

本申请实施例提供的视频处理装置的各功能单元的功能可以参考上文对图32所示各方法实施例实现，在此不再赘述。

本申请实施例提供的一种视频处理装置，可以利用视频帧的CNN特征，计算不同视频或视频片段中视频帧的相似度，并根据视频帧的相似度，确定关键视频帧；使用关键视频帧合成新的视频，实现对原视频的压缩；该新的视频流畅度高，也就是说，实现了视频的平滑压缩。

参阅图40，本申请实施例提供了一种电子设备4000。电子设备4000可以包括处理器4010、存储器4020。存储器4020中存储有指令，该指令可被处理器4010执行。当该指令在被处理器4010执行时，电子设备4000可以执行上文所述各方法实施例所提供的方法。

本申请的实施例中的方法步骤可以通过硬件的方式来实现，也可以由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成，软件模块可以被存放于随机存取存储器(random access memory，RAM)、闪存、只读存储器(read-only memory，ROM)、可编程只读存储器(programmable rom，PROM)、可擦除可编程只读存储器(erasablePROM， EPROM)、电可擦除可编程只读存储器(electrically EPROM，EEPROM)、寄存器、硬盘、移动硬盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者通过所述计算机可读存储介质进行传输。所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘(solid statedisk，SSD))等。

可以理解的是，在本申请的实施例中涉及的各种数字编号仅为描述方便进行的区分，并不用来限制本申请的实施例的范围。

Claims

1.一种计算机执行的、利用神经网络识别视频语义的方法，其特征在于，所述神经网络包括输入层、空域特征提取层、静态语义识别层、动态语义识别层、时序片段划分层、输出层；其中，所述静态语义识别层和所述动态语义识别层并列设置；所述方法包括：

在所述输入层，获取视频的多个视频帧；

在所述空域特征提取层，提取所述多个视频帧中每一个视频帧的空域特征；

在所述动态语义识别层，根据所述多个视频帧中的N个连续视频帧的空域特征，确定所述N个连续视频帧中第N个视频帧的动态语义；N为正整数；

在所述静态语义识别层，根据所述多个视频帧中第一视频帧的空域特征，确定所述第一视频帧的静态语义；

在所述时序片段划分层，当具有第一动态语义且连续的视频帧的个数大于第一阈值时，使用所述具有第一动态语义且连续的视频帧合成第一时序片段，且确定所述第一动态语义为所述第一时序片段的动态语义；

在所述时序片段划分层，当具有第一静态语义且连续的视频帧的个数大于第二阈值时，使用所述具有第一静态语义且连续的视频帧合成第二时序片段，且确定所述第一静态语义为所述第二时序片段的静态语义；

在所述输出层，输出所述第一时序片段的动态语义和第一位置信息；以及输出所述第二时序片段的静态语义和第二位置信息；其中，所述第一位置信息由所述第一时序片段中的第一个视频帧和最后一个视频帧各自在所述视频中的位置表示；所述第二位置信息由所述第二时序片段中的第一个视频帧和最后一个视频帧各自在所述视频中的位置表示。

2.根据权利要求1所述的方法，其特征在于，所述神经网络还包括精彩时序片段识别层；所述方法还包括：

根据第一视频帧的空域特征和第二视频帧的空域特征，确定所述第一视频帧和所述第二视频帧的空域差异信息；所述第一视频帧和所述第二视频帧在所述多个视频帧中相邻；

在所述精彩时序片段识别层，根据所述多个视频帧中各两两相邻视频帧的空域差异信息以及所述多个视频帧的空域特征，确定至少一个精彩时序片段。

3.根据权利要求2所述的方法，其特征在于，所述空域特征包括RGB信息，所述空域差异信息包括RGB差异信息(RGB diff)。

4.根据权利要求2所述的方法，其特征在于，所述精彩时序片段识别层包括一维卷积层和细节动态语义分类层；所述一维卷积层包括第一卷积窗口，所述第一卷积窗口对应第一细节动态语义；

所述根据所述多个视频帧中各两两相邻视频帧的空域差异信息以及所述多个视频帧的空域特征，确定至少一个精彩时序片段包括：

在所述一维卷积层，采用所述至少一个卷积窗口中的第一卷积窗口，对所述多个视频帧的空域特征和所述多个视频帧中各两两相邻视频帧的空域差异，进行卷积处理，得到若干个卷积结果；

在所述细节语义分类层，根据所述若干个卷积结果，确定具有所述第一细节语义的精彩时序片段。

5.根据权利要求2所述的方法，其特征在于，所述神经网络还包括联合逻辑判断层，所述联合逻辑判断层为所述时序片段划分层和所述精彩时序片段识别层的下一层；

所述至少一个精彩时序片段中的第一精彩时序片段包含于所述第一时序片段；

所述方法还包括：

在所述联合逻辑判断层，判断所述第一精彩时序片段的细节动态语义和所述第一时序片段的动态语义是否匹配；

当所述第一精彩时序片段的细节动态语义和所述第一时序片段的动态语义匹配时，在所述输出层输出所述第一精彩时序片段的细节动态语义和第三位置信息；其中，所述第三位置信息由所述第一精彩时序片段中的第一个视频帧和最后一个视频帧各自在所述视频中的位置表示；

当所述第一精彩时序片段的细节动态语义和所述第一时序片段的动态语义不匹配时，在所述输出层不输出所述第一精彩时序片段的相关信息。

6.根据权利要求1所述的方法，其特征在于，所述神经网络还包括语义光滑层，所述语义光滑层为所述时序片段划分层的上一层；所述方法还包括：

在所述语义光滑层，根据所述多个视频帧中连续视频帧间静态语义的依赖关系，对所述多个视频帧的静态语义进行光滑处理。

7.根据权利要求6所述的方法，其特征在于，所述根据所述多个视频帧中连续视频帧间静态语义的依赖关系，对所述多个视频帧的静态语义进行光滑处理包括：

确定P个连续视频帧中第三视频帧的静态语义与其他视频帧的静态语义不同，且所述其他视频帧的静态语义相同；P大于第三阈值；所述其他视频帧为所述P个连续视频帧中除所述第三视频帧之外的视频帧；

根据所述其他视频帧的静态语义，更新所述第三视频帧的静态语义。

8.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在所述时序片段划分层，当具有第二动态语义且连续的视频帧的个数大于所述第一阈值时，使用所述具有第二动态语义且连续的视频帧合成第三时序片段，且确定所述第二动态语义为所述第三时序片段的动态语义；

当所述第二动态语义和所述第一动态语义相同，且所述第一时序片段和所述第二时序片段之间间隔的视频帧个数小于第四阈值时，将所述第一时序片段和所述第三时序片段合并为同一个时序片段。

9.根据权利要求1所述的方法，其特征在于，所述空域特征包括经由第一卷积层对所述空域特征对应视频帧的特征信息进行卷积得到的多个特征图，所述多个特征图与所述第一卷积层的多个卷积核一一对应；

所述动态语义识别层包括第二卷积层和动态语义分类层；

所述根据所述多个视频帧中的N个连续视频帧的空域特征，确定所述N个连续视频帧中第N个视频帧的动态语义包括：

对所述N个连续视频帧进行特征图偏移处理，得到所述N个连续视频帧的残差空域特征；其中，所述特征图偏移处理包括：使用所述N个连续视频帧中第k个视频帧的第一特征图，替换所述N个连续视频帧中第k+1个视频帧的第一特征图，其中，k依次在1至N-1中取整数值；所述第k个视频帧的第一特征图和所述第k+1个视频帧的第一特征图对应所述第一卷积层的同一卷积核；

在所述第二卷积层，对所述N个连续视频帧的残差空域特征进行卷积，得到所述N个连续视频帧的时空特征；

在所述动态语义分类层，根据所述N个连续视频帧的时空特征，确定所述第N个视频帧的动态语义。

10.一种视频编辑方法，其特征在于，所述方法包括：

获取目标拼接视频的第一主题和所述目标拼接视频的第一时长；

确定语义符合所述第一主题的多个时序片段；所述多个时序片段包括具有动态语义的时序片段和具有静态语义的时序片段；

根据所述第一时长，从所述多个时序片段中确定用于拼接所述目标拼接视频的时序片段；

11.一种视频编辑方法，其特征在于，所述方法包括：

确定语义符合所述第一主题的多个时序片段；所述多个时序片段包括具有细节动态语义的时序片段、具有动态语义的时序片段；

其中，当所述具有细节动态语义的时序片段的总时长等于或大于所述第一时长时，从所述具有细节动态语义的时序片段中确定用于拼接所述目标拼接视频的时序片段；

当所述具有细节动态语义的时序片段的总时长小于所述第一时长时，确定所述具有细节动态语义的时序片段全部用于拼接所述目标拼接视频，且从所述具有动态语义的时序片段中确定用于拼接剩余视频片段的时序片段，所述剩余视频片段的时长等于所述第一时长减去所述总时长的差值。

12.一种视频编辑方法，其特征在于，所述方法包括：

确定语义符合所述第一主题的多个时序片段；所述多个时序片段包括具有细节动态语义的时序片段、具有动态语义的时序片段、具有静态语义的时序片段；

13.一种电子设备，其特征在于，包括：处理器、存储器；

所述存储器用于存储计算机指令；

当所述电子设备运行时，所述处理器执行所述计算机指令，使得所述电子设备执行权利要求1-9任一项所述的方法或权利要求10所述的方法或权利要求11所述的方法或权利要求12所述的方法。

14.一种计算机存储介质，其特征在于，所述计算机存储介质包括计算机指令，当所述计算机指令在电子设备上运行时，使得所述电子设备执行权利要求1-9任一项所述的方法或权利要求10所述的方法或权利要求11所述的方法或权利要求12所述的方法。