CN114342353B

CN114342353B - 用于视频分割的方法和系统

Info

Publication number: CN114342353B
Application number: CN202080062449.4A
Authority: CN
Inventors: 郦睿文; 戴鹏; 瓦尔尚斯·拉文德拉·拉奥; 吕炬炜; 李维; 徐健鹏
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2019-09-10
Filing date: 2020-09-09
Publication date: 2023-07-18
Anticipated expiration: 2040-09-09
Also published as: US10963702B1; WO2021047532A1; US20210073551A1; CN114342353A

Abstract

描述了用于视频分割和场景识别的方法和系统。接收具有多个帧的视频以及与所述视频相关联的字幕文件。对所述视频执行分割，以基于所述视频的所述帧中特征的逐帧比较生成包括一个或多个视频帧的第一组视频帧。所述第一视频帧中的每个视频帧包括帧指示器，所述帧指示器至少指示视频帧的第一起始帧。解析与所述视频相关联的所述字幕文件，以基于所述字幕文件中的每个对话的起始时间和结束时间生成一个或多个字幕片段；基于所述第一组视频帧中的所述视频帧和所述一个或多个字幕片段，生成包括一个或多个第二视频帧的第二组视频帧。所述第二组视频片段包括至少一个合并视频片段，所述合并视频片段通过合并所述第一组视频片段中对应于公共字幕片段的两个或多个视频片段生成。

Description

用于视频分割的方法和系统

技术领域

本发明涉及图像处理，具体地，涉及用于视频分割的方法和系统。

背景技术

观看电影、电视节目、录制的体育赛事和在线视频等存储视频的用户在访问视频相关信息和搜索视频内容方面的选择通常有限。目前，用户可以选择基于体裁、演员、导演等广泛类别来搜索视频。然而，用户可能希望在视频中搜索特定内容。

促进视频内容搜索的传统方法是使用传统计算机视觉技术将视频分为若干个时间分区(例如，片段)，并对每个视频片段应用场景标签。然后，可以基于对视频片段应用的场景标签来搜索视频内容。基于视频片段的视觉特征，使用场景识别算法为每个视频片段生成每个场景标签。然而，传统场景识别算法具有不准确性。例如，视频中的某些拍摄风格或视频效果可能会被误认为场景变化，从而导致过多的视频片段被标上不准确地对应于视频中实际场景的场景标签。视频分割不准确还可能导致在视频中的对话中间开始或结束的视频片段，这也是不希望的。

相应地，期望提供一种用于对视频进行更加准确地分割的解决方案，这可以使得对视频场景进行更加准确地标记，从而便于搜索视频中的内容。

发明内容

本发明提供了用于将视频分割成一组视频片段的方法和系统，以及用于标记所述一组视频片段中的所述视频片段的场景识别。将视频分割成一组视频片段包括合并对应于公共字幕片段中的对话的视频片段。这可以有助于确保每个视频片段的完整性，并且当用户对视频执行内容搜索时，可以有助于提供更准确和/或更完整的结果。基于根据所述视频的视频分割生成的所述一组视频片段中的每个视频片段的帧的场景分析，以及基于每个字幕片段的分析，执行场景识别。此处公开的方法可以使每个视频片段能够使用基于所述视频片段的各个方面生成的场景标签来表示。此类方法可以有助于提高视频搜索准确性，并且可以更方便、更有效地标识每个视频片段。在一些示例中，本发明的方法和系统可以用于各种不同的应用中，诸如不同的视频播放器应用中，这些应用可以采用或不采用机器学习。

根据一个广泛的方面，本发明提供了一种方法，包括：接收包括多个帧的视频，以及与所述视频相关联的字幕文件；对所述视频执行视频分割，以基于所述视频的所述帧中特征的逐帧比较生成包括一个或多个视频片段的第一组视频片段，并为所述第一组视频片段中的每个所述视频片段生成标签，其中，每个所述视频片段的所述标签包括指示所述视频片段的开始和结束的指示器；解析与所述视频相关联的所述字幕文件，以基于所述字幕文件中的每个对话的起始时间和结束时间生成一个或多个字幕片段；基于所述第一组视频片段中的所述视频片段和所述字幕片段，生成包括一个或多个第二视频片段和每个所述第二视频片段的标签的第二组视频片段，所述第二组视频片段包括：至少一个合并视频片段，所述至少一个合并视频片段通过合并所述第一组视频片段中对应于公共字幕片段的两个或多个视频片段生成。所述第二组视频片段还可以包括未合并的所述第一组视频帧的任何剩余视频片段。

根据上述方面，所述方法还包括：基于所述第二视频片段的帧序列的场景分析，为所述第二组视频片段中的每个所述第二视频片段生成至少一个相应的第一场景标签；为所述第二组视频片段中的每个所述第二视频片段生成内容文件，所述内容文件包括为所述第二视频片段生成的所述至少一个相应的第一场景标签。

根据上述任一方面，为所述第二组视频片段中的每个所述相应的第二视频片段生成所述至少一个第一场景标签包括：将所述第二组中的所述相应的第二视频片段划分为一个或多个子片段；对于每个所述子片段，确定所述子片段的代表帧；对所述代表帧执行场景分析，以生成对应于所述子片段的所述第一场景标签；其中，为所述相应的第二视频片段生成的所述至少一个第一场景标签包括为所述多个子片段中的每个所述子片段生成的所述第一场景标签。

根据上述任一方面，每个所述子片段包括至少一个帧，确定所述子片段的代表帧可以包括：计算每个帧的相应场景置信度；选择满足置信度条件的帧作为所述代表帧。

根据上述任一方面，生成所述第二组视频片段还包括：从对应于相应视频片段的音频文件中提取对应于所述视频片段的一个或多个音频特征；合并两个或多个视频片段以生成相应的第二视频片段，所述两个或多个视频片段对应于具有满足相似性条件的音频特征的音频文件。

根据上述任一方面，在所述进一步合并之后，为每个所述第二视频片段生成所述至少一个第一场景标签。

根据上述任一方面，所述方法还包括：基于对应于所述第二视频片段的字幕片段的所述对话，为每个所述第二视频片段生成至少一个第二场景标签，其中，通过以下方法为所述第二视频片段生成所述至少一个第二场景标签：提取所述对应的字幕片段的一个或多个感兴趣词；选择要包括在所述第二场景标签中的一个或多个代表词，所述一个或多个代表词选自预定义的数据集，以表示所述一个或多个感兴趣词的一个或多个含义。

根据上述任一方面，所述方法还包括：对于每个所述第二视频片段，从所述第二视频片段的音频文件中提取音频特征，并基于所述音频文件的所述音频特征生成至少一个第三场景标签；其中，生成所述内容文件还包括：向所述内容文件添加对应于所述第二组视频片段中的每个所述第二视频片段的所述至少一个第三场景标签。

根据上述任一方面，每个所述第一场景标签与置信度评分相关联。

根据上述任一方面，所述方法还包括：标识与满足查询条件的所述场景标签相关联的至少一个第二视频片段；提供所述至少一个标识的第二视频片段以及与每个所述标识的第二视频片段相关联的一个或多个所述第一场景标签和一个或多个所述第二场景标签作为输出。

根据另一广泛的方面，本发明提供了一种系统，包括：存储器，用于存储指令；一个或多个处理器，耦合到所述存储器，并用于执行所述指令以：接收包括多个帧的视频，以及与所述视频相关联的字幕文件；对所述视频执行视频分割，以基于所述视频的所述帧中特征的逐帧比较生成包括一个或多个视频片段的第一组视频片段，并为所述第一组视频片段中的每个所述视频片段生成标签，其中，每个所述视频片段的所述标签包括指示所述视频片段的开始和结束的指示器；解析与所述视频相关联的所述字幕文件，以基于所述字幕文件中的每个对话的起始时间和结束时间生成一个或多个字幕片段；基于所述第一组视频片段中的所述视频片段和所述字幕片段，生成包括一个或多个第二视频片段和每个所述第二视频片段的标签的第二组视频片段，所述第二组视频片段包括：至少一个合并视频片段，所述至少一个合并视频片段通过合并所述第一组视频片段中对应于公共字幕片段的两个或多个视频片段生成。所述第二组视频片段还可以包括未合并的所述第一组视频帧的任何剩余视频片段。

根据另一广泛的方面，本发明提供了一种存储指令的非瞬时性计算机可读介质，所述指令在由处理器执行时使得所述处理器接收包括多个帧的视频，以及与所述视频相关联的字幕文件；对所述视频执行视频分割，以基于所述视频的所述帧中特征的逐帧比较生成包括一个或多个视频片段的第一组视频片段，并为所述第一组视频片段中的每个所述视频片段生成标签，其中，每个所述视频片段的所述标签包括指示所述视频片段的开始和结束的指示器；解析与所述视频相关联的所述字幕文件，以基于所述字幕文件中的每个对话的起始时间和结束时间生成一个或多个字幕片段；基于所述第一组视频片段中的所述视频片段和所述字幕片段，生成包括一个或多个第二视频片段和每个所述第二视频片段的标签的第二组视频片段，所述第二组视频片段包括：至少一个合并视频片段，所述至少一个合并视频片段通过合并所述第一组视频片段中对应于公共字幕片段的两个或多个视频片段生成。所述第二组视频片段还可以包括未合并的所述第一组视频帧的任何剩余视频片段。

附图说明

图1示出了根据一示例性实施例提供的适用于与电子设备(electronic device，ED)一起使用的通信系统的框图；

图2示出了可用于实现本文公开的方法和系统的示例性处理系统的框图；

图3A示出了根据本发明一实施例提供的用于执行视频分割和场景识别的示例性方法的流程图；

图3B示出了实现各种算法以执行图3A所示的方法的图像处理系统的框图；

图3C示出了用于生成示例性字幕片段的示例性方法的示意图；

图3D示出了用于视频分割的示例性方法的示意图；

图3E示出了示例性生成内容文件的示意图；

图4示出了使用视频片段和生成内容文件的示例性搜索的示意图。

在不同的附图中可以使用类似的参考标号来表示类似的组件。

具体实施方式

本发明以附图作为参考，在所述附图中示出了实施例。然而，可以使用许多不同的实施例，因此不应将该描述视为仅限于本文描述的实施例。相反，提供这些实施例是为了使本发明透彻和完整。在全文中，相同的数字表示相同的元件。所示系统和设备的功能元件或模块的单独的框或所示的分离不一定需要此类功能或模块的物理分离，因为在没有任何此类物理分离的情况下，此类元件之间的通信可以通过消息传递、功能调用、共享存储器空间等方式发生。这样，功能或模块不必在物理上或逻辑上分离的平台中实现，尽管为了便于此处的解释而分别示出了这些功能或模块。不同的设备可以具有不同的设计，使得尽管一些设备在固定功能硬件中实现一些功能，但其它设备可以在可编程处理器中利用从机器可读介质获得的代码来实现此类功能。

图1示出了根据本发明示例提供的适合操作服务器102和/或电子设备(electronic device，ED)150的示例性通信系统100的示意图。如下面进一步详细描述的，通信系统100可以包括与服务器102通信的多个不同类型的通信网络，并且这些通信网络中的每一个可以直接或间接地连接到诸如互联网的另一公用网络130，使得能够通过网络130访问一个或多个服务。在一些应用中，所述服务可以存储在服务器102中。

在示例性实施例中，通信系统100可以包括ED 150，其与至少一个用户或拥有ED150的主用户相关联。

在该示例中，服务器102包括卫星接收器120，该卫星接收器用于从卫星网络194接收卫星信号。例如，卫星网络194可以包括作为全球或区域卫星导航系统的一部分的多个卫星。在一些实施例中，服务器102可以具有能够同时接收和发送卫星信号的卫星收发器，而不是仅接收卫星信号的卫星接收器120。

服务器102还包括一个或多个无线收发器，该无线收发器用于至少交换数据通信。该示例中的无线收发器至少包括蜂窝收发器114，该蜂窝收发器用于与诸如蜂窝网络192的多个不同的无线接入网(radio access network，RAN)进行通信。所述无线收发器还可以包括无线局域网(wireless local area network，WLAN)收发器116，该无线局域网收发器用于通过WLAN接入点(access point，AP)与WLAN 190进行通信。WLAN 190可以包括符合IEEE802.11x标准(有时称为)的Wi-Fi无线网络。在其它实施例中，WLAN 190可以使用其它通信协议。

在所示实施例中，服务器102可以直接或间接地与ED 150进行无线连接，以通过通信网络130彼此通信。在一些示例中，可以在ED 150处执行以下关于服务器102描述的一个或多个功能，反之亦然，例如实现各种机器学习算法。在一些示例中，附加地或另选地，可以将存储在服务器102中的数据存储在ED 150中。例如，一些资源或数据库(例如，视频库、视频存储库、相册或图像存储库)可以存储在服务器102中，ED 150可以通过网络130访问存储在服务器102中的资源或数据库。在其它示例中，数据库可以存储在ED 150中，诸如在ED150内部的一个或多个非瞬时性存储器中，ED 150可以访问内部非瞬时性存储器中的资源或数据库。

服务器102可以是能够执行视频分割和场景识别并且与ED 150通信的任何组件(或组件集合)。在一些示例中，ED 150可以是诸如智能手机的移动设备或固定设备、诸如台式计算机或膝上型计算机的个人计算机、智能电视、平板设备或任何其它适当支持的设备。

图2示出了示例性简化处理系统200的框图，所述示例性简化处理系统可以用于实现本文公开的实施例。下面描述的示例性处理系统200或其变体可以用于实现服务器102或ED 150或通信系统100的任何组件。其它处理系统可以适用于实现本发明中所描述的实施例，并且可以包括不同于下面讨论的组件的组件。虽然图2示出了每个组件的单个实例，处理系统200中可以存在每个组件的多个实例(例如，当处理系统200用于实现服务器102或ED150时)。

处理系统200可以包括一个或多个处理设备205，诸如处理器、微处理器、图形处理单元(graphics processing unit，GPU)、张量处理单元(tensor processing unit，TPU)、专用集成电路(application-specific integrated circuit，ASIC)、现场可编程门阵列(field-programmable gate array，FPGA)、专用逻辑电路或其组合。可选地，处理系统200可以包括一个或多个输入/输出(input/output，I/O)接口204，以启用与一个或多个可选输入设备214和/或输出设备216进行连接。处理系统200可以包括一个或多个网络接口206，该网络接口用于与通信网络130进行有线或无线通信，或者与其它处理系统进行对等通信。网络接口206可以包括用于网络内和/或网络间通信的有线链路(例如，以太网线)和/或无线链路(例如，一根或多根天线)。

处理系统200还可以包括一个或多个存储单元208，该存储单元可以包括大容量存储单元，诸如固态磁盘、硬盘驱动器、磁盘驱动器和/或光盘驱动器。在一些示例性实施例中，存储单元208可以包括视频存储库2081，该视频存储库用于存储视频和/或内容文件316，下面将进一步详细描述。内容文件可以采用JSON格式。虽然图2示出了包括视频存储库2081的存储单元208，在可替代的实施例中，视频存储库2081可以包括在可通过无线或有线通信网络远程访问的一个或多个远程存储单元中。下文将进一步讨论内容文件316和视频存储库2081的详细信息。

处理系统200可以包括一个或多个非瞬时性存储器210，该非瞬时性存储器可以包括易失性或非易失性存储器(例如，闪存、随机存取存储器(random access memory，RAM)和/或只读存储器(read-only memory，ROM))。非瞬时性存储器210可以存储用于由处理设备205执行的指令，诸如执行本发明中所描述的示例性方法。存储器210可以存储其它软件(例如，用于由处理设备205执行的指令)，诸如操作系统和其它应用/功能。在一些实施例中，一个或多个数据集和/或模块可以由外部存储器(例如，与处理系统200进行有线或无线通信的外部驱动器)提供，或可以由瞬时性或非瞬时性计算机可读介质提供。非瞬时性计算机可读介质的示例包括RAM、ROM、可擦除可编程ROM(erasable programmable ROM，EPROM)、电可擦除可编程ROM(electrically erasable programmable ROM，EEPROM)、闪存、CD-ROM或其它便携式存储器。在一实施例中，存储器210存储图像处理系统310(以下简称系统310)，所述图像处理系统是包括存储在存储器210中且可由处理设备205执行的机器可读指令的软件系统。系统310包括视频片段单元313、字幕片段单元314和场景识别单元315，此类单元是系统310的软件单元(或软件子系统)。视频片段单元313可以是基于机器学习的软件单元，所述基于机器学习的软件单元实现学习的模型，所述学习的模型对视频执行视频分段，下面将进一步详细描述。字幕片段单元314可以是基于机器学习的软件单元，所述基于机器学习的软件单元实现学习的模型，所述学习的模型对与视频相关联的音频文件执行音频分割，下面将进一步详细描述。场景识别单元315可以是基于机器学习的软件单元，所述基于机器学习的软件单元实现学习的模型，所述学习的模型在视频中执行场景识别，下面将进一步详细描述。在其它实施例中，视频片段单元313可以实现对视频执行视频分割的算法，字幕片段单元314可以实现对与视频相关联的音频文件执行音频分割的算法，场景识别单元315可以实现在视频中执行场景识别的算法。在一些实施例中，系统310可以实现为单个硬件设备，诸如专用集成电路(application specific integrated circuit，ASIC)、现场可编程门阵列(field programmable gate array，FPGA)或片上系统(system on achip，SoC)。硬件设备包括执行单元313、314、315的功能的电子电路。在其它示例性实施例中，系统300可以实现为多个硬件设备(例如，多个ASIC、FPGA和/或SoC)。每个硬件设备包括执行单元313、314、315中的一个单元的功能的电子电路。下面将进一步讨论视频片段单元313、字幕片段单元314和场景识别单元315的详细信息。

可以存在总线215，该总线可提供处理系统200的组件之间的通信，这些组件包括处理设备205、可选I/O接口204、网络接口206、存储单元208和/或存储器210。总线215可以是任何合适的总线架构，例如，包括存储器总线、外围总线或视频总线。

在图2中，可选输入设备214(例如，键盘、鼠标、麦克风、集成在可包括UI的显示设备中的触摸屏和/或按键)和可选输出设备216(例如，可包括UI的显示设备、扬声器和/或打印机)显示为处理系统200的外部设备。在其它示例中，输入设备214和/或输出设备216中的一个或多个可以是处理系统200的内部组件。在ED 150的情况下，输入设备214可以包括：显示设备，具有显示屏；用户界面(user interface，UI)导航设备(例如，触摸屏输入、鼠标或手持控制器)，用于允许用户与由该显示设备显示的项目进行交互。此外，输出设备216还可以包括：显示设备，具有显示屏；用户界面(user interface，UI)导航设备，用于显示ED 150的生成结果。

传统上，通过比较从视频的两个序列帧中提取的视觉特征，逐帧对该视频执行视频分割。此类比较可能导致过多的视频片段，并且不考虑该视频中内容的语义。由于仅考虑该视频的每个帧的视觉特征，一些视频可以在对话(例如，会话)中间进行分段。当用户使用ED 150搜索特定内容的视频时，可能会令用户不愉快和/或不方便地接收搜索结果，所述搜索结果包括不完整视频片段或不精确匹配对话的视频片段。在一些情况下，传统场景识别系统可以使用与每个视频片段相关联的所提取视觉特征来表示视频片段的场景。一些传统场景识别系统是基于机器学习的系统，所述基于机器学习的系统已经使用来自理想条件的图像进行了训练。相应地，在用于对实际视频(可以包括诸如光线不佳等非理想条件下的图像)执行视频分割时，由传统场景识别系统输出的场景标签可能不准确。在实际应用中，此类场景识别方法可能会导致视频片段的场景标识不准确。

本发明描述了执行视频分割和场景识别的示例性方法。基于视频片段的帧的场景分析，以及基于对应的字幕片段的内容，生成场景标签。在一些示例中，为每个视频片段生成的场景标签可以使得视频片段能够更准确地表示。在一些示例中，所公开的方法和系统可以使得能够以更低的计算成本和更高的准确性搜索视频片段。所公开的方法和系统可以用于各种应用，包括无线通信系统中的实现。

图3A示出了根据一示例性实施例提供的由本发明的系统300执行的用于执行视频分割和场景识别的方法300的流程图。图3B示出了系统310的框图。图3C示出了由字幕分割单元314生成的字幕片段的示例。图3D示出了视频分割的示例。图3E示出了由系统310生成的内容文件的示例。为简单起见，下面的讨论是指其中处理单个视频以及与该视频相关联的一个字幕文件，并且由系统300为该单个视频生成一个单个内容文件的示例。然而，应当理解的是，下面的讨论可以同样适用于处理多个不同的视频并为每个视频生成相应的内容文件的情况。现在，描述方法300。对接收的视频文件以及与该视频相关联的字幕文件执行方法300。

在步骤301，对包括帧序列的视频执行视频分割，以生成第一组视频片段。所述第一组视频片段包括两个或多个视频片段。基于视频311中包括的多个帧中的特征的逐帧比较，系统310将视频分割或分区成两个或多个视频片段。两个或多个视频片段中的每一个视频片段包括该视频的帧序列。在图3D所示的示例中，系统310将视频311分割或分区成n个视频片段(例如，视频片段322(1)至322(n)(一般称为视频片段322，统称为视频片段322)。系统310还为每个相应的视频片段322生成标签，并将所生成的标签与相应的视频片段322相关联。每个视频片段322由其相关联的标签标识。在一些实施例中，与每个相应的视频片段322相关联的标签包括指示视频片段322的起始帧和视频片段322的结束帧的帧指示器。视频片段322的起始帧和结束帧为视频311的帧号。在其它实施例中，帧指示器指示视频片段322中的起始帧和帧数。在其它实施例中，与每个相应的视频片段322相关联的标签包括指示视频片段322的起始时间和视频片段322的结束时间的时间指示器。下面将结合图3B和3D进一步描述将视频分割或分区成视频片段322。

在步骤302，解析与视频311相关联的字幕文件，以基于在诸如图3B所示的字幕文件312的字幕文件中标识的每个对话的起始时间和结束时间生成一个或多个字幕片段。图3C示出了由来自系统310的字幕片段单元314的字幕文件312的系统310(图3B)的字幕分割单元314(图3B)生成的字幕片段321(1)至321(n)(一般称为字幕片段321，统称为字幕片段321)的示例。当字幕文件312作为输入提供给字幕片段单元314时，字幕片段单元314首先解析与视频311相关联的字幕文件312，以标识字幕文件312内的每个对话，并确定字幕文件312内每个对话的起始时间和结束时间。然后，基于在字幕文件312中标识的每个相应对话的起始时间和结束时间，字幕片段单元314将视频311分割或分区成一个或多个字幕片段321。在该示例中，对话包括完整的句子。在其它示例中，对话可以包括构成完整对话的多个句子。

在步骤303，基于视频片段322和字幕片段321，生成第二组视频片段。图3D示出了基于视频片段322和字幕片段321生成的第二组视频片段(以下一般称为第二视频片段324，以下统称为第二视频片段324)的视频片段324(1)至324(n)的示例。第二组视频片段中的每个第二视频片段324包括视频311的帧序列，并与标签相关联。第二组视频片段包括至少一个合并视频片段，所述合并视频片段通过基于字幕片段321合并第一组视频片段中的两个或多个视频片段322生成。例如，第二视频片段324(1)为合并视频片段，所述合并视频片段通过合并第一组视频片段的视频片段322(1)和322(2)生成。此外，第二视频片段324还可以包括未合并的第二视频片段324(例如，第二视频片段324(n))，对应未合并的第一组视频片段中的任何剩余视频片段322(即，未与任何其它视频片段322合并的视频片段322)。合并形成合并视频片段的两个或多个视频片段322对应于公共字幕片段321(即，与两个或多个视频片段322(1)和322(2)重叠的字幕片段321)。因此，每个第二视频片段324对应于相应的字幕片段321。与第一组视频片段相似，每个相应的第二视频片段324与标识相应的第二视频片段324的标签相关联。在一些实施例中，与第二视频片段324相关联的每个相应的标签包括帧指示器。在一些实施例中，帧指示器可以指示第二视频片段324的起始帧和第二视频片段324的结束帧。第二视频片段324的起始帧和结束帧为视频311的帧号。在其它实施例中，帧指示器可以指示第二视频片段324中的起始帧和帧数。在其它实施例中，与第二视频片段324相关联的每个相应的标签可以包括指示第二视频片段324的起始时间和第二视频片段324的结束时间的时间指示器。第二组视频帧中的第二视频片段324可以更准确地反映视频311的视频内容，因为还已考虑相应字幕的视频内容。下面将结合图3B至图3D进一步讨论生成第二组视频帧的示例。

在一些实施例中，方法300可以包括可选步骤303-1。在步骤303-1，基于第二组视频片段和从视频311获取的关于第二组视频片段中的第二视频片段324的音频信息生成第三组视频片段。从该视频获取的关于第二视频片段324的音频信息可以是音频语义特征。图3D示出了第三组视频片段(一般称为第三视频片段327，统称为第二视频片段327)的视频片段327(1)至327(n)的示例。第三组视频片段中的每个第三视频片段327包括视频311的帧序列。在一些实施例中，诸如音频提取机器学习算法的机器学习算法可以基于从视频311获取的第二视频片段324的音频信息，对第二组视频片段的第二视频片段324进行进一步合并。下面将结合图3D进一步详细描述执行所述进一步合并以生成第三视频片段327以包括在第三组视频片段中。

在步骤304，对于第二组视频片段的每个第二视频片段324(或者，如果执行可选步骤303-1，则为第三组视频片段的每个第三视频片段327)的帧，基于第二视频片段324(或第三视频片段327)的一个或多个帧的场景分析生成至少一个第一场景标签。在一些实施例中，生成至少一个第一场景标签可以由诸如图3B所示的第一场景标签生成器3151的第一场景标签生成器执行。第一场景标签生成器3151可以实现任何合适的算法，用于对第二视频片段324(或者，如果执行步骤303-1，则为第三视频片段327)的帧执行场景分析。例如，第一场景标签生成器3151可以是机器学习模块，所述机器学习模块已学习用于对第二视频片段324(或者，如果执行步骤303-1，则为第三视频片段327)的帧执行场景分析的模型，下面将进一步详细讨论。所述机器学习模块的所述学习的模型分析第二视频片段324(如果执行步骤303-1，则为第三视频片段)的代表帧的视觉特征，并为第二视频片段324(如果执行步骤303-1，则为第三视频片段327)生成至少一个第一场景标签。所述机器学习模块可以使用监督的机器学习算法和包括视频的训练数据集来学习所述模型。在一些实施例中，第一场景标签生成器3151可以包括第一神经网络，所述第一神经网络已通过训练数据集训练以从第二视频片段324的帧(或者，如果执行步骤303-1，则为第三视频片段327的帧)中提取视觉特征(例如，对象、在所述帧中发生的动作和/或背景环境)，并为第二视频片段324(或者，如果执行步骤303-1，则为第三视频片段327)生成对应的第一场景标签。作为非限制性示例，第一神经网络可以是包括输入层、多个隐藏层和输出层的深度神经网络。训练第一神经网络以满足预定精度要求。下面将结合图3B进一步描述基于第二视频片段324(或者，如果执行步骤303-1，则为第三视频片段327)的帧的场景分析生成第一场景标签。

在步骤305，基于每个字幕片段321中的对话，为第二组视频帧中的第二视频片段324(或者，如果执行步骤303-1，则为第三组视频帧中的第三视频片段327)生成至少一个第二场景标签。第二场景标签可以包括或基于从每个字幕片段321中提取的一个或多个突显词。在一些实施例中，生成至少一个第二场景标签可以由诸如图3B所示的第二场景标签发生器3152这类的第二场景标签发生器执行。第二场景标签生成器3152可以实现监督的学习算法，所述监督的学习算法从字幕片段321生成至少一个第二场景标签。例如，第二场景标签生成器3152可以是机器学习模块，所述机器学习模块已学习用于执行从字幕片段321中提取突显词的模型。所述机器学习模块的所述学习的模型从字幕片段321中提取突显词，并为第二视频片段324(或者，如果执行步骤303-1，则为第三视频片段327)生成至少一个第二场景标签。所述机器学习模块可以学习所述模型，所述模型用于使用诸如神经网络这类的监督的机器学习算法和包括视频和字幕的训练数据集从字幕片段321中提取突显词。在一些实施例中，第二场景标签生成器3152可以包括第二神经网络，所述第二神经网络已使用训练数据集从字幕片段321中提取突显词。作为非限制性示例，第二神经网络可以包括输入层、多个隐藏层和输出层。训练第二神经网络以达到从字幕片段提取突显词的预定精度要求。突显词指示每个字幕片段321中的一个或多个感兴趣词，并且用于生成第二场景标签，下面将进一步讨论。

在步骤305-1，可以从与视频311相关联的音频文件中提取对应于第二组视频片段中的每个第二视频片段324(或者，如果执行步骤303-1，则为每个第三视频片段327)的一个或多个音频特征。特别地，可以为每个第二视频片段324(或者，如果执行步骤303-1，则为每个第三视频片段)提取音频特征，例如，通过使用与每个相应的第二视频片段324相关联的标签(或者，如果执行步骤303-1，则为与每个相应的第三视频片段327相关联的标签)来标识音频文件的哪个部分对应于相应的第二视频片段324(或者，相应的第三视频片段)，并为每个相应的第二视频片段324(或者，如果执行步骤303-1，则为第三视频片段)提取音频特征。使用提取的音频特征，生成一个或多个第三场景标签以表示第二视频片段324(或者，如果执行步骤303-1，则为第三视频片段)的附加方面(例如，音频特征)。在一些实施例中，对于每个第二视频片段324(或者，如果执行步骤303-1，则为第三视频片段327)，提取一个或多个音频特征可以由诸如图3B所示的第三场景标签发生器3153这类的第三场景标签发生器执行。第三场景标签生成器3153可以实现监督的机器学习算法，所述监督的机器学习算法用于使用音频特征生成一个或多个场景标签。例如，第三场景标签生成器3153可以是机器学习模块，所述机器学习模块已学习用于使用音频特征生成一个或多个场景标签的模型。所述机器学习模块的所述学习的模型对与视频311相关联的音频文件执行特征提取，以生成一个或多个第三场景标签。所述机器学习模块可以使用监督的机器学习算法和包括音频特征的训练数据集来学习所述模型。在一些实施例中，第三场景标签生成器3153可以包括已使用包括音频特征的训练数据集进行训练的第三神经网络。作为非限制性示例，第三神经网络可以包括输入层、多个隐藏层和输出层。训练第三神经网络以满足使用音频特征生成一个或多个场景标签的预定精度要求。下面将进一步讨论一个或多个第三场景标签的生成。

在步骤306，为第二组视频片段中的每个第二视频片段324(或者，如果执行步骤303-1，则为第三组视频片段的每个第三视频片段327)生成内容文件(例如，图3B所示的内容文件316)。为第二组视频片段中的每个相应的第二视频片段324(或者，如果执行步骤303-1，则为每个相应的第三视频片段)生成的内容文件包括：与第二视频片段324相关联的标签(或者，如果执行步骤303-1，则为与第三视频片段327相关联的标签)；为相应的第二视频片段324生成的至少一个第一场景标签(或者，如果执行步骤303-1，则为相应的第三视频片段327生成的至少一个第一场景标签)；对应于相应的第二视频片段324的至少一个第二场景标签(或者，如果执行步骤303-1，则为对应于相应的第三视频片段327的至少一个第二场景标签)。在该实施例中，每个内容文件316可以具有JavaScript对象表示法(JavaScriptObject Notation，JSON)格式，尽管在可替代的实施例中可以使用其它合适的格式。在一些实施例中，可以生成所有第二视频片段324(或者，如果执行步骤303-1，则为所有第三视频片段327)的单一内容，所述单一内容具有JSON格式。单一内容文件316包括与每个第二视频片段324相关联的标签(或者，如果执行步骤303-1，则为与每个第二视频片段327相关联的标签)。

如上所述，在一些实施例中，执行可选步骤303-1，以生成包括一个或多个第三视频片段327的第三组视频片段。在这些实施例中，对第三组视频片段中的每个第三视频片段327，而不是第二组视频片段的第二视频片段324执行步骤304、305、305-1。

现在，结合图3B至3D描述方法300的示例性实现的详细信息，其中不执行步骤303-1。图3E提供了内容文件316的示例，其中，第二视频片段324的场景标签包括对应于相应的第二视频片段324的至少一个第一场景标签和对应于相应的第二视频片段324的至少一个第二场景标签。结合图3B，向视频片段单元313提供视频311(包括帧序列)作为输入，并向字幕片段单元314提供与视频311相关联的字幕文件312。在该示例中，视频311和字幕文件312可以存储在处理系统200的视频存储库2081中，并且可以由系统310的处理单元检索。在其它示例中，视频311和字幕文件312可以存储在通信系统100的一个实体内的视频存储库2081中，并发送到系统310。

如图3B所示，视频片段单元313基于视频311的帧的特征的逐帧比较对视频311进行分割或分区，并生成包括视频片段322的第一组视频片段。在该示例中，视频片段单元313可以包括视频片段单元3131和第一片段合并单元3132。视频片段单元3131可以通过逐帧比较视频311的帧的特征来处理视频，以生成包括视频片段322的第一组视频片段，如上文结合方法300的步骤301所述。由视频片段单元3131处理视频311可以称为第一级分割。如上所述，基于对视频311的序列帧的特征的变化的分析，首先将视频311分割或分区成两个或多个视频片段322。例如，视频311包括帧序列。视频片段单元3131可以计算与视频311的每个帧(例如，关于像素颜色、背景内容、帧中人物(即，角色)数量、其它内容或其组合)相关联的特征，并确定视频311的两个序列帧之间的至少一个特征的变化。然后，视频片段单元3131基于确定的帧变化是否满足分割条件执行视频片段。例如，第一级分割的分割条件可能与两个序列帧之间的人物内容的变化相关。分割条件可以定义用于确定人物内容的变化(例如，视频311中的两个序列帧之间人物总数的变化大于2)是否应导致第一级视频分割(例如，包括视频帧322的第一组视频帧)的阈值。在另一示例中，可以通过以下方程(1)确定另一分割条件：

其中，ΔI_hsv表示视频311的当前帧与视频311的前一帧的差值，I_{curr_hsv}表示当前帧中的每个像素点的属性值，I_{last_hsv}表示前一帧中的每个像素点的属性值。所述方程(1)用于计算视频311中的当前帧与前一帧之间的差值，以估计视频311中的两个序列帧之间的变化。

视频片段单元3131可以使用一个分割条件或多个分割条件执行第一级视频分割。

基于视频311中的帧序列中的确定的帧变化，视频片段单元3131生成包括视频片段322的第一组视频片段，为每个相应的视频片段322生成标签，并将每个相应的视频片段322的标签与相应的视频片段322相关联，如图3D所示。与每个相应的视频片段322相关联的标签可以包括相应的视频片段322的帧指示器。

在该实施例中，至少包括起始帧的帧指示器还可以包括起始帧的起始时间和/或结束帧的结束时间。然后，生成的第一组帧指示器将用于进一步片段合并(例如，如下面讨论的第一片段合并)，如下面所讨论的。

现在，结合图3B至图3D进一步详细示出第二组视频片段的生成。再次结合图3B，使用字幕片段321和第一组视频片段的视频片段322，第一片段合并单元3132执行第一片段合并以合并视频片段322。由第一片段合并单元3132生成第二组视频片段，如上文结合方法300的步骤303所讨论的。在一些实施例中，第一片段合并单元3132可以首先确定字幕片段321是否对应于视频片段322中的一个或多个。例如，如图3C和图3D所示，第一片段合并单元3132可以确定视频片段322(1)的起始帧的起始时间是否对应于字幕片段(例如，字幕片段321(1))的起始时间，并且视频片段322(2)的结束帧的结束时间是否对应于字幕片段321(1)的结束时间。本文公开的字幕片段321与视频片段322(或视频片段322)之间的“对应关系”可以包括：精确对齐(例如，字幕片段321与视频段322的起始时间/帧和/或结束时间/帧之间的起始时间和/或结束时间相同)；重叠(例如，字幕片段321的一部分与视频片段322的一部分彼此重叠)；被包围(例如，视频片段322的时长由字幕片段321的时长所包围，反之亦然)等。因此，当视频片段322(例如，视频片段322(1)和322(2))对应于公共字幕片段321(例如，321(1))时，不一定需要在字幕片段321与视频片段322的起始帧和/或结束帧之间精确对齐。例如，字幕片段321(1)的会话可以在发生场景变化的视频片段322(1)的起始帧的起始时间后几秒后开始，但是仍然确定该会话对应于视频片段322(1)。

然后，第一片段合并单元3132根据字幕片段321和包括视频段322的第一组视频片段生成第二组视频片段。如图3D所示，通过合并视频片段322(1)和322(2)生成第二视频片段324(1)。此外，还为第二视频片段324(1)生成标签，该标签与第二视频片段324(1)相关联。与第二视频片段324(1)相关联的标签可以是标识第二视频片段324(1)的起始帧和第二视频片段324(1)的结束帧的帧指示器。在该实施例中，第二视频片段324(1)的起始帧可以确定为最接近字幕片段321(1)的起始时间的视频片段322(1)的帧，第二视频片段324(1)的结束帧可以为最接近字幕片段321(1)的结束时间的视频片段322(2)的帧。在其它实施例中，第二视频片段324(1)的起始帧可以确定为视频片段322(1)的起始帧，第二视频片段324(1)的结束帧可以等于视频片段322(2)的结束帧。

在其它实施例中，可以考虑其它因素以生成与第二视频帧324(1)相关联的标签。此类因素可以包括，例如，合并每个字幕片段321的起始时间和结束时间、每个视频片段322(1)和322(2)的起始帧的起始时间和结束帧的结束时间以生成第二视频片段324(1)、上一次对话的结束时间和下一次对话的起始时间，和/或考虑场景转换的过渡时长。

例如，当与第二视频片段324相关联的标签包括指示第二视频片段324的起始时间(表示为CB_START)和第二视频段324的结束时间(表示为CB_END)的指示时，则第二视频片段324的起始时间(CB_START)和结束时间(CB_END)分别通过方程(2)和(3)确定。

CB_START＝Max(Sub-B_START-CONTEXT_DELAY_IN,PREV_DIALOG_END,SB_START)方程(2)

CB_END＝Min(Sub-B_END+CONTEXT_DELAY_OUT,NEXT_DIALOG_START,SB_END) 方程(3)

其中，Sub-B_START表示字幕片段(例如，321(1))的起始时间，CONTEXT_DELAY_IN表示转入截止的时间长度，PREV_DIALOG_END表示字幕片段321(1)之前的字幕片段(如果存在)的结束时间，SB_START表示字幕片段321(1)外部或之上最接近帧的起始时间；Sub-B_END表示字幕片段(例如，321(1))的结束时间，CONTEXT_DELAY_OUT表示转出的时长，NEXT_DIALOG_START表示字幕片段321(1)之后的字幕片段321(2)的起始时间，SB_END表示字幕片段321(1)外部或之上最接近帧的结束时间。使用方程(2)和(3)可以更准确地为每个第二视频片段324生成标签。

在一些实施例中，视频片段322可以对应于完整的字幕片段321(例如，对应于已完成的会话)。因此，第一片段合并单元3132可以确定(例如，使用上文讨论的比较和方程)视频片段322不需要合并。相应地，视频片段322可以简单地复制到第二组视频片段中。在该实施例中，第二组视频片段可以包括合并视频片段(即，已合并形成诸如图3D所示的第二视频片段324(1)的第二视频片段324的一个或多个视频片段322)和第一组视频片段(例如，图3D所示的第二视频片段324(n)中的一些剩余未合并视频片段322。合并第一组视频片段中的一个或多个视频片段322以形成合并视频片段，确保第二组视频片段中的每个第二视频片段324的完整性，并避免在对话中间分割视频311。

在一些实施例中，视频片段单元313可以包括第二片段合并单元3133，第二片段合并单元3133用于执行上文结合可选步骤303-1讨论的第二级分割324。第二片段合并单元3133用于处理每个视频片段324以从对应于每个第二视频片段324的音频文件中提取音频特征，并合并对应于满足相似性条件的音频特征的第二视频片段324。例如，第二片段合并单元3133可以通过对对应于相应的第二视频片段324的音频文件应用音频提取算法来处理每个相应的第二视频片段324，以从对应于相应的第二视频片段324的音频文件中提取一个或多个音频特征。每个音频特征可以包括对应于每个第二视频片段324的环境声(例如，风、水、鸟、人群、办公室噪声、交通等)的特征。第二片段合并单元3133合并对应于满足相似性条件的音频特征的第二视频片段324，以形成第三视频片段327。相似性条件可以是规定对应于两个(或多个)序列第二视频片段324的音频特征应具有高于阈值的相似性或相关性的条件，以便合并第二视频片段324。可以使用任何其它合适的相似性条件。

例如，如图3D所示，提取并确定第二视频片段324(2)至324(4)的音频特征以满足相似性条件(例如，包括鸟类产生的啁啾特征)。第二片段合并单元3133可以合并第二视频片段324(2)至324(4)以生成包括第三视频片段327(1)至327(n)的第三组视频分段。第三组视频片段中的每个第三视频分段327包括标签。标签可以标识第三视频片段327的起始帧和第三视频片段327的结束帧。与上文讨论的第二组视频片段相似，第三组视频片段还可以包括一个或多个未合并的视频片段(例如，尚未合并的第二组视频片段中的视频片段324)。例如，如图3D所示的第三视频片段327(1)为未合并的视频片段，与第二视频片段324(1)相同。

作为非限制性示例，第二片段合并单元3133可以实现用于合并第二组视频片段中的第二视频片段324的算法。在一些实施例中，第二片段合并单元3133可以包括训练过程中学习的模型。所述学习的模型将第二视频片段324合并到第三视频片段327中。在一些实施例中，第二片段合并单元3133可以包括神经网络，所述神经网络已通过训练数据集进行训练，以提取音频特征并对音频特征进行分类(即，预测提取的音频特征的类别)。作为非限制性示例，在一实施例中，神经网络包括输入层、多个隐藏层和输出层。神经网络可以是经过训练的深度1维卷积神经网络，诸如Aytar、Yusuf&Vondrick、Carl&Torralba、Antonio(2016)中描述的神经网络。SoundNet：从未标记的数据中学习声音表示。所述训练的深度1维卷积神经网络可以用于从第二组视频片段中的每个第二视频片段324中提取音频特征，以及从每个第二视频片段324中提取的波形。所述训练的深度1维卷积神经网络使得每个提取的音频特征能够使用视频片段324的视觉特征进行语义上丰富。在其它实施例中，第二片段合并单元3133可以包括其它合适的神经网络，所述神经网络经过训练，以例如基于音频特征提取的精度要求来提取与每个视频片段324相关的音频特征。

再次结合图3B，现在将进一步详细讨论可以由场景识别单元315执行的场景识别和内容文件316的生成。图3E示出了内容文件316的示例。为简单起见，下面的讨论是指未使用第二片段合并单元3133，并且不存在第三组视频片段的示例。因此，第二组视频片段中的每个第二视频片段324作为由场景识别单元315执行场景识别的视频片段。然而，应当理解，下面的讨论可以适用于第二片段合并单元3133用于合并一个或多个第二视频片段324的实施例。在这些实施例中，第三组视频片段的每个第三视频片段327用作由场景识别单元315执行场景识别的视频片段。

如图3B所示，场景识别单元315包括第一场景标签生成器3151和第二场景标签生成器3152。场景识别单元315生成要包括在生成的内容文件316中的场景标签。结合方法300的步骤306可以生成的内容文件316包括一个或多个第一场景标签331(1)至331(n)(一般称为第一场景标签331，统称为第一场景标签331)和对应于每个第二视频片段324的一个或多个第二场景标签332。第一场景标签生成器3151基于视频片段324的一个或多个帧的视觉特征执行场景识别，也可称为第一级场景识别。第二场景标签生成器3152基于对应于第二视频片段324的字幕片段的上下文执行场景识别，可称为第二级场景识别。

第一场景标签生成器3151基于每个第二视频片段324的帧的场景分析生成至少一个第一场景标签331，例如上文结合方法300的步骤304所公开的。在为每个第二视频片段324生成至少一个第一场景标签331之前，可以先选择用于执行场景分析的第二视频片段324的代表帧。现在讨论选择用于第二视频片段324的代表帧的示例性方法。场景识别单元315可以将第二视频片段324划分为一个或多个子片段。子片段的数量可以是预定的和固定的(例如，不考虑第二视频片段324中的帧数量的10个子片段)。在一些实施例中，每个子片段中的帧数可能有所不同(例如，第二视频片段324中的每20帧是子片段)。对于每个子片段，场景识别单元315可以确定该子片段的代表帧。例如，该子片段可以包括多个帧，该子片段中只有一个帧被选为用于执行场景识别的代表帧。场景识别单元315可以通过计算子片段中一组候选帧(例如，可以从子片段中随机选择20个候选帧)中每个候选帧的场景置信度来选择该代表帧。例如，可以根据任何合适的算法(例如，Chromatic Skewness和Facial&Human Dominance)计算场景置信度。然后，可以选择满足置信度条件的候选帧作为子片段的代表帧。例如，置信度条件可以包括可以规定选择具有最高计算的场景置信度的候选帧作为代表帧的条件。

在选择代表帧之后，第一场景标签生成器3151对代表帧执行场景分析，以便为子片段生成至少一个第一场景标签331。在该实施例中，场景分析可以包括按场景类型(例如，“海滩”、“船舶甲板”、“嘉年华”、“城堡”、“餐厅”)从代表帧中提取属性。在其它实施例中，场景分析可以包括按诸如片段中发生的动作类型(例如，“慢跑”、“会话”、“争辩”、“就餐”、“争论”等)的任何合适的类型从代表帧中提取属性。第一场景标签生成器3151基于代表帧的提取属性生成至少一个第一场景标签331。

在一些实施例中，根据至少一个第一场景标签331的预测概率，第一场景标签生成器3151可以包括一个或多个分类器，诸如实现学习的层次分类模型，所述层次分类模型将第一场景标签331映射到层次树的节点。层次树的叶子节点对应于具有最低置信度的第一场景标签331，根节点对应于具有最高置信度的第一场景标签331。在一些实施例中，为每个第一场景标签331分配置信度评分。例如，“室外”、“水体”、“水下”是基于代表帧的提取属性生成的第一场景标签331，并映射到三级层次树。在该实施例中，“室外”映射到根节点，“水下”映射到叶子节点。因此，“室外”分配有最高置信度评分，例如标识为“第一”，而“水下”分配有最低置信度评分，例如标识为“第三”。对于第二视频片段324的每个子片段，可以生成一个或多个第一场景标签331(即，对应于不同置信度评分的标签)。在一些实施例中，可以对多个子片段并行执行第一场景标签331的生成，或者可以串行执行，具体取决于系统310的可用计算资源。在该实施例中，可以由场景识别单元315执行每个子片段的代表帧的选择。在其它实施例中，可以由第一场景标签生成器3151执行每个子片段的代表帧的选择。

此外，场景识别单元315还包括第二场景标签生成器3152，第二场景标签生成器3152处理每个字幕片段321以生成视频片段324的一个或多个第二场景标签，例如上文结合方法300的步骤305所公开的。如上所述，基于每个字幕片段321的突显词生成第二场景标签。场景标签生成器3152可以根据字幕片段321的对话，使用自然语言处理(naturallanguage processing，NLP)算法处理每个相应的字幕片段321，以捕获相应的字幕片段321的语义特征。语义特征可以包括一个或多个感兴趣词(也称为突显词)，其反映了字幕片段321的对话的语义。在该实施例中，第二场景标签生成器3152使用NLP算法处理每个字幕片段321，以为字幕片段321生成词嵌入。词嵌入用于删除常用词，并捕获每个字幕片段的对话中的意义、语义关系和不同类型的上下文，从而提取突显词。然后，将突显词映射到向量表示，并且词嵌入将向量表示映射到诸如文本分类数据集的预定义数据集中的词。在该实施例中，可以从文本分类数据集(即，字典)中选择一个或多个词，诸如20NewsGroup作为代表词，以反映突显词的含义。然后，第二场景标签生成器3152使用一个或多个选定词来为第二视频片段324生成第二场景标签332。

在一些实施例中，场景识别单元315还可以包括第三场景标签生成器3153，所述第三场景标签生成器3153可以用于基于对应于每个第二视频片段324的音频特征实现场景识别。该过程可以称为第三级场景识别，例如上文结合方法300的可选步骤305-1描述的。第三场景标签生成器3153可以处理第二视频片段324，以从对应于第二视频片段324的音频文件中提取音频特征。在该实施例中，第三场景标签生成器3153可以使用音频提取算法处理视频片段324，以从对应于第二视频片段324的音频文件中提取音频特征。另选地，第三场景标签生成器3153可以实现深度1维卷积神经网络，以从对应于第二视频片段324的音频文件中提取音频特征。深度1维卷积神经网络可以具有如Aytar、Yusuf&Vondrick、Carl&Torralba、Antonio(2016)中描述的架构。SoundNet：从未标记的数据中学习声音表示。每个音频特征可以反映第二视频片段324中存在的背景声音。然后，第三场景标签生成器3153使用背景声音来推断场景类型。然后，由至少一个第三场景标签333包括推断的场景类型。附加地，内容文件316还可以包括至少一个第三场景标签333。

如图3E所述，对于每个第二视频片段324，内容文件316还可以包括第一片段合并单元3132生成的时间指示器325。时间指示器325包括：指示第二视频片段324的起始帧的起始时间的第一时间子指示器325(1)；指示第二视频片段324的结束帧的结束时间的第二时间子指示器325(2)。时间指示器325可以与对应于第二视频片段324的所有第一场景标签331和第二场景标签332相关联。此外，在已经生成第三场景标签333的实施例中，第三场景标签333还与内容文件316中的时间指示器325相关联。在该实施例中，一个单一内容文件316与视频311相关联。因此，单一内容文件316包括视频311中的每个单一第二视频片段324的时间指示器325，以及对应于视频311中的每个单一第二视频片段324的场景标签。在其它实施例中，可以生成多个内容文件316并将它们与视频311相关联。例如，一个内容文件316可以仅对应于视频311中的一个第二视频片段324，并且可以仅为该一个第二视频片段324提供场景标签。在一些实施例中，每个内容文件316还可以包括视频311的标识(identification，ID)。在一些实施例中，每个内容文件316还可以包括对应于时间指示器325的第二视频片段324中的相应字幕片段321的内容(例如，对话)。

应当理解，在机器学习模块实现神经网络的实施例中，可以对上述各种神经网络进行迭代训练，以最小化损失函数。损失函数是设计为针对特定任务优化相应神经网络的性能的函数，诸如音频特征提取、场景分析执行或突显词提取，以便以期望精度生成输出(即，标签)。例如，用于训练各种神经网络的训练数据可以包括来自可搜索视频存储库的视频和字幕文件，或者训练数据可以从其它合适的来源生成。此外，还应当理解，尽管上述讨论描述了场景识别单元315实现的第一、第二、第三场景标签生成器3151、3152、3153，但是第一、第二、第三场景标签生成器3151、3152、3153可以在其它系统中实现，也可以跨不同系统实现。在其它示例中，第一场景标签生成器3151可以在不同于系统310的系统中实现，而第二、第三场景标签生成器3152、3153可以在系统310中实现。此外，在一些示例中，第一、第二、第三场景标签生成器3151、3152、3153的功能可以使用更少或更多的单元来实现。

使用如上所述的第一、第二和/或第三级场景识别，可以使得从多个方面(例如，基于视觉特征的帧分析、突显词提取和/或音频特征提取)生成每个第二视频片段324(或每个第三视频片段327)的场景标签。此类生成场景标签的方法可以帮助生成的场景标签更准确地表示相关联的视频片段的内容。

图4示出了当与视频片段相关联的内容文件满足查询条件时提供视频片段作为输出的示例。如图4所示，可以在ED 150处输入查询401(例如，“水”)，然后ED 150可以将查询401发送给服务器102，服务器102在线和/或离线搜索多个内容文件。在其它示例中，通信系统100中的任何网络实体都可以用于接收查询401，搜索可以由相同或不同的网络实体执行。搜索可以在本地或远程视频存储库2081上执行。在一些示例中，ED 150可以在内部视频存储库(例如，在ED 150的存储单元208中的视频存储库2081中)上进行搜索。在其它示例中，服务器102和ED 150可以同时执行搜索。为简单起见，下面以服务器102为例，示出了实现从搜索到返回搜索输出的所有步骤，并且内容文件316还可以存储在服务器102上。在其它示例中，可以使用不同的实体来实现从搜索内容文件到返回搜索输出的步骤。

当在服务器102处接收到查询401(例如，“水”)时，服务器102搜索存储在其上的内容文件316，以标识满足一个或多个查询条件的场景标签。查询条件可以包括请求场景标签匹配或具有与查询401“水”相似的语义的条件。因此，标识包括场景标签“水”的一个或多个内容文件316。如图4所示，在该示例中，标识两个内容文件316以包括“水”一词，并标识对应于两个内容文件316的两个对应的第二视频片段324(i)和324(j)。对于每个标识的内容文件316，标识与“水”一词相关联的至少一个时间指示器(例如，每个时间指示器包括起始时间和结束时间)。搜索输出可以自动跳转至由帧指示器标识的起始帧，该帧指示器包括在与第二视频片段324(i)和324(j)相关联的标签中。此外，标识与第二视频片段324(i)和324(j)相关联的所有场景标签(至少一个第一场景标签331、至少一个第二场景标签332和/或至少一个第三场景标签333)。此外，还可以标识与标识的帧指示器相关联的字幕片段321。

如图4所示，搜索结果(例如，包括字幕片段321、第一场景标签“室外”331、第二场景标签“积雪地区”332、另一第二场景标签“建筑物”332和第三场景标签“雪山或冰结构”333)可以与第二视频片段324(i)一起返回并提供给ED 150。类似地，另一搜索结果(例如，包括字幕片段321、第一场景标签“室内”331、第二场景标签“电子”332、另一第二场景标签“大房间”332和第三场景标签“电影院”333)也可以与第二视频片段324(j)一起返回并提供给ED 150。作为非限制性示例，在其它可能的配置中，基于服务器102与ED 150之间的预定义通信协议或ED 150的显示需求，返回并提供给ED 150的搜索结果的内容可能会有所不同。例如，可以省略字幕片段321，或者仅返回与标识的第二视频片段324相关联的第一、第二、第三场景标签中的一些场景标签，而不是与标识的第二视频片段324相关联的第一、第二、第三场景标签中的所有场景标签。任何合适的搜索结果或组合可以返回并提供给ED150。

此类视频搜索方法可以使得能够更准确地标识满足查询条件的内容文件，并且可以使得能够更有效地标识相关联的视频片段或视频。与标识的视频相关联的多种标签和信息可以为用户选择期望视频提供更多选项和更大便利，这可能有助于改善用户体验。

再次结合图2，如上所述，视频存储库2081和内容文件316可以存储在一个或多个存储单元208中。在一些示例中，视频存储库2081可以包括与每个视频311相关联的相应的元数据。在一些示例中，每个内容文件316可以存储在与每个视频相关联的元数据中。

如上所述，通信系统100中的ED 150和服务器102可以各自包括相应的处理系统200。在示例性操作中，ED 150可以接收可以由用户通过输入设备214输入的查询(例如，“水”)。然后，ED 150可以使用过网络接口206将查询传达给服务器102(例如，通过网络130、蜂窝网络192、卫星网络和/或WLAN 190)。在服务器102接收到查询后，服务器102的处理设备205可以搜索视频存储库2081(可以是服务器102的本地存储库，也可以是服务器102的外部存储库)。可以由服务器102标识满足与查询相关的查询条件的场景标签。在其它示例中，内容文件316的标识可以是由服务器102发送、由通信系统100中的其它实体执行的任务或请求。

在标识内容文件316之后，服务器102可以使用服务器102的网络接口206将标识的内容文件316的部分或全部场景标签返回至ED 150(例如，通过网络130、蜂窝网络192、卫星网络和/或WLAN 190)，作为一个或多个搜索结果。然后，所述一个或多个搜索结果可以显示在ED 150的输出设备216上，以便用户查看。在一些示例中，查询(例如，“水”)可以是通过由ED 150提供的UI导航设备输入的文本。在其它示例中，查询可以是语音输入或任何其它合适的输入。虽然在该示例中通过UI导航设备接收查询，但在其它示例中，查询可以通过其它方法接收，诸如通过在线界面接收。

本发明提供了基于每个字幕片段对视频进行分割的示例，可以使得每个视频片段的起始帧和结束帧与字幕片段的对话的起始时间和结束时间对齐。这种视频分割方法可以有助于确保每个视频片段的完整性。分别对视频片段和字幕片段应用各种示例性算法，以便基于每个视频片段的帧的场景分析以及基于每个字幕片段的对话的上下文生成场景标签。各种算法可以包括机器学习算法。

本发明还示出了示例性视频分割，其中考虑每个视频片段的音频特征以合并两个或多个视频片段。这可以有助于使得每个视频片段更加准确。

在一些实施例中，可以应用另一算法来基于每个视频片段的音频特征生成额外的场景标签，这可以使得生成表示视频片段的另一方面的场景标签。此类基于音频的场景识别可以有助于提高生成每个视频片段的场景标签的准确性。

在一些实施例中，基于帧分析、字幕片段和/或音频特征生成的场景标签可以包括在内容文件中，所述内容文件可以存储为与视频(例如，视频311)相关联的元数据。内容文件可以使得能够更有效、更便利地管理生成的场景标签和生成的视频片段。

在一些实施例中，可以标识与满足查询条件的场景标签(或场景标签)相关联的一个或多个视频片段并提供为搜索输出。满足查询条件的场景标签(或场景标签)也可以在搜索输出中(例如，返回并显示在ED上供用户查看)。

已在设备(例如，服务器和/或ED)中软件实现的上下文中描述了本发明的示例。应当理解，所公开的方法和系统可以在诸如片上系统的硬件设备上实现，包括用于执行本文所描述的各种机器学习模块的功能的电路。例如，所公开的方法可以由诸如计算设备、工作站、自主车辆或非车载设备等任何合适的处理单元执行的软件执行。此类软件的编码在本领域普通技术人员的范围内计算机可读代码(或指令)可以存储在非瞬时性计算机可读介质中，诸如处理单元的存储器。在一些示例中，所公开的方法可以通过由单个物理机器(例如，计算机)的处理器、一组物理机器(例如，计算机)或在计算集群上运行的一个或多个虚拟机或由云计算服务提供的一个或多个虚拟机执行的软件来执行。

尽管本发明描述了具有按某种顺序排列的动作的方法和过程，但是可以适当省略或改变所述方法和过程的一个或多个动作。一个或多个动作可以按不同于本发明中所描述顺序的顺序执行。

尽管本发明在方法方面至少部分地进行了描述，但本领域的一般技术人员将理解，本发明也针对用于执行所述方法的至少一些方面和特征的各种组件，无论是通过硬件组件、软件还是其任意组合。相应地，本发明的技术方案可通过软件产品的形式体现。合适的软件产品可以存储在预录存储设备或其它类似的非易失性或非瞬时性计算机可读介质中，例如包括DVD、CD-ROM、USB闪存盘、可移动硬盘或其它存储介质。所述软件产品包括在其上可有形地存储的指令，所述使得处理设备(例如，个人计算机、服务器或网络设备)能够执行本文中所公开方法的示例。

在不脱离权利要求书的主题的情况下，本发明可以以其它特定形式来体现。所描述的示例性实施例在各方面都仅仅是示意性的，而不是限制性的。来自一个或多个上述实施例的选定特征可以进行结合以创建未明确描述的可替代实施例，适合此类组合的特征在本发明范围内得到理解。

本文中还公开了在所公开范围内的所有值和子范围。此外，尽管本文中所公开和示出的系统、设备和过程可以包括特定数量的元件/组件，但是系统、设备和组件可以进行修改以包括更多或更少的此类元件/组件。例如，尽管所公开的任何元件/组件可以引用为单数，但本文中所公开的实施例可以进行修改以包括多个此类元件/组件。本文中描述的主题意在涵盖和包含技术上的所有适当更改。

Claims

1.一种用于视频分割的方法，其特征在于，包括：

接收包括多个帧的视频，以及与所述视频相关联的字幕文件；

对所述视频执行视频分割，以基于所述视频的所述帧中特征的逐帧比较生成包括一个或多个视频片段的第一组视频片段，并为所述第一组视频片段中的每个所述视频片段生成标签，其中，每个所述视频片段的所述标签包括指示所述视频片段的开始和结束的指示器；

解析与所述视频相关联的所述字幕文件，以基于所述字幕文件中的每个对话的起始时间和结束时间生成一个或多个字幕片段；

基于所述第一组视频片段中的所述视频片段和所述字幕片段，生成包括一个或多个第二视频片段和每个所述第二视频片段的标签的第二组视频片段，所述第二组视频片段包括：至少一个合并视频片段，所述至少一个合并视频片段通过合并所述第一组视频片段中对应于公共字幕片段的两个或多个视频片段生成。

2.根据权利要求1所述的方法，其特征在于，还包括：

基于所述第二视频片段的帧序列的场景分析，为所述第二组视频片段中的每个所述第二视频片段生成至少一个相应的第一场景标签；

为所述第二组视频片段中的每个所述第二视频片段生成内容文件，所述内容文件包括为所述第二视频片段生成的所述至少一个相应的第一场景标签。

3.根据权利要求2所述的方法，其特征在于，为每个所述第二视频片段生成所述至少一个第一场景标签包括：

将所述第二视频片段划分为一个或多个子片段；

对于每个所述子片段：

确定所述子片段的代表帧；

对所述代表帧执行场景分析，以生成对应于所述子片段的所述至少一个第一场景标签；

其中，为所述第二组视频片段中的每个所述第二视频片段生成的所述至少一个第一场景标签包括为所述多个子片段中的每个所述子片段生成的所述第一场景标签。

4.根据权利要求3所述的方法，其特征在于，每个所述子片段包括至少一个帧，确定所述子片段的代表帧包括：

计算每个帧的相应场景置信度；

选择满足置信度条件的帧作为所述代表帧。

5.根据权利要求2至4中任一项所述的方法，其特征在于，生成所述第二组视频片段还包括：

从对应于相应视频片段的音频文件中提取对应于所述视频片段的一个或多个音频特征；

合并两个或多个视频片段以生成相应的第二视频片段，所述两个或多个视频片段对应于具有满足相似性条件的音频特征的音频文件。

6.根据权利要求5所述的方法，其特征在于，在所述合并两个或多个视频片段以生成相应的第二视频片段之后，为每个所述第二视频片段生成至少一个第一场景标签。

7.根据权利要求2所述的方法，其特征在于，还包括：基于对应于所述第二视频片段的字幕片段的所述对话，为每个所述第二视频片段生成至少一个第二场景标签，其中，通过以下方法为所述第二视频片段生成所述至少一个第二场景标签：

提取所述对应的字幕片段的一个或多个感兴趣词；

选择要包括在所述第二场景标签中的一个或多个代表词，所述一个或多个代表词选自预定义的数据集，以表示所述一个或多个感兴趣词的一个或多个含义。

8.根据权利要求2至4中任一项所述的方法，其特征在于，所述方法还包括：

对于每个所述第二视频片段，从所述第二视频片段的音频文件中提取音频特征，并基于所述音频文件的所述音频特征生成至少一个第三场景标签；

其中，生成所述内容文件还包括：向所述内容文件添加对应于所述第二组视频片段中的每个所述第二视频片段的所述至少一个第三场景标签。

9.根据权利要求5所述的方法，其特征在于，所述方法还包括：

10.根据权利要求6所述的方法，其特征在于，所述方法还包括：

11.根据权利要求7所述的方法，其特征在于，所述方法还包括：

12.根据权利要求2所述的方法，其特征在于，每个所述第一场景标签与置信度评分相关联。

13.根据权利要求2所述的方法，其特征在于，还包括：

标识与满足查询条件的所述第一场景标签相关联的至少一个第二视频片段；

提供所述标识的至少一个第二视频片段以及与每个所述标识的第二视频片段相关联的一个或多个所述第一场景标签和一个或多个第二场景标签作为输出。

14.一种用于视频分割的系统，其特征在于，包括：

存储器，用于存储指令；

一个或多个处理器，耦合到所述存储器，并用于执行所述指令以：

15.根据权利要求14所述的系统，其特征在于，所述一个或多个处理器还用于执行所述指令以：

16.根据权利要求15所述的系统，其特征在于，所述一个或多个处理器还用于执行所述指令以：

将所述第二视频片段划分为一个或多个子片段；

对于每个所述子片段：

确定所述子片段的代表帧；

对所述代表帧执行场景分析，以生成对应于所述子片段的所述第一场景标签；

其中，为所述第二组视频片段中的所述第二视频片段生成的所述至少一个第一场景标签包括为所述多个子片段中的每个所述子片段生成的所述第一场景标签。

17.根据权利要求16所述的系统，其特征在于，所述每个子片段包括至少一个帧，所述一个或多个处理器还用于执行所述指令以：

计算每个帧的相应场景置信度；

选择满足置信度条件的帧作为所述代表帧。

18.根据权利要求15至17中任一项所述的系统，其特征在于，所述一个或多个处理器还用于执行所述指令以通过以下方法生成所述第二组视频片段：

19.根据权利要求18所述的系统，其特征在于，在所述合并两个或多个视频片段以生成相应的第二视频片段之后，为每个所述第二视频片段生成至少一个第一场景标签。

20.根据权利要求15所述的系统，其特征在于，所述一个或多个处理器还执行所述指令以通过以下方法生成所述至少一个第二场景标签：

提取所述对应的字幕片段的一个或多个感兴趣词；

21.根据权利要求15至17中任一项所述的系统，其特征在于，所述一个或多个处理器还用于执行所述指令以：

对于所述第二组中的每个所述第二视频片段，从所述第二视频片段的音频文件中提取音频特征，并基于所述音频文件的所述音频特征生成至少一个第三场景标签；

其中，所述内容文件还包括：对应于所述第二组视频片段中的每个所述第二视频片段的所述至少一个第三场景标签。

22.根据权利要求18所述的系统，其特征在于，所述一个或多个处理器还用于执行所述指令以：

23.根据权利要求19所述的系统，其特征在于，所述一个或多个处理器还用于执行所述指令以：

24.根据权利要求20所述的系统，其特征在于，所述一个或多个处理器还用于执行所述指令以：

25.根据权利要求15所述的系统，其特征在于，每个所述第一场景标签与置信度评分相关联。

26.一种包括指令的计算机可读介质，其特征在于，所述指令在由处理器执行时使所述处理器执行权利要求1至13中任一项所述的方法。