CN103336955A

CN103336955A - 视频中人物播放轨迹的生成方法、装置和客户端

Info

Publication number: CN103336955A
Application number: CN2013102871322A
Authority: CN
Inventors: 由清圳
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2013-07-09
Filing date: 2013-07-09
Publication date: 2013-10-02

Abstract

本发明提出一种视频中人物播放轨迹的生成方法、装置和客户端，其中该方法包括以下步骤：客户端获取视频的字幕文件和剧本文件，并将字幕文件和剧本文件融合为融合剧本文件；客户端根据融合剧本文件获取视频中待检测人物；以及客户端根据待检测人物在视频中进行人脸检测,并根据检测结果生成待检测人物的人物播放轨迹。根据本发明实施例方法，可以实现自动的生成视频中各个人物的人物播放轨迹，满足了用户观看特定人物的需求。并且在该过程中并不需要对人脸进行识别，大大提高了自动标注过程中的实时性。此外，通过人脸跟踪技术与融合的字母文件和剧本文件的综合运用，大大提高了标注的准确性。

Description

视频中人物播放轨迹的生成方法、装置和客户端

技术领域

本发明涉及通信技术领域，尤其涉及一种视频中人物播放轨迹的生成方法、装置和客户端。

背景技术

用户在播放视频时，有时候会有特定的需求，比如说用户希望只观看视频中某个目标人物的全部片段，例如，某个自己喜爱的演员。为了在播放视频时，客户端可以按照某个目标人物出现的时段进行播放，需要对视频中的目标人物进行标注。目前，对目标人物进行标注可以有以下两种方式：（1）、手工标注目标人物，通过让工作人员观看视频，将视频中目标人物全部手工标注出来；（2）、基于人脸检测和人脸识别自动标注目标人物，首先通过训练一个针对目标人物的识别模型，然后在视频中通过人脸检测和识别来完成对视频中目标人物的标注。

目前存在的问题是，上述两种方式分别存在以下缺点：（1）、需要耗费大量的人力，在拥有海量视频数据的互联网环境下，标注目标人物的效率非常低，因此不可能被大范围的应用；（2）、为了进行人脸识别需要人工标注人脸样本，在面对海量视频的互联网环境下，同样费时费力。同时，目标人物在视频中，受到视频本身拍摄风格、以及视频播放过程中人脸角度和光照变化的影响，识别目标人物人脸的精度也很差。

发明内容

本发明旨在至少解决上述技术问题之一。

为此，本发明的第一个目的在于提出一种视频中人物播放轨迹的生成方法。该方法可以实现自动的生成视频中各个人物的人物播放轨迹，满足了用户观看特定人物的需求。并且在该过程中并不需要对人脸进行识别，大大提高了自动标注过程中的实时性。此外，通过人脸跟踪技术与融合的字母文件和剧本文件的综合运用，大大提高了标注的准确性。

本发明的第二个目的在于提出一种视频中人物播放轨迹的生成装置。

本发明的第三个目的在于提出一种客户端。

为了实现上述目的，本发明第一方面实施例的视频中人物播放轨迹的生成方法包括以下步骤：客户端获取视频的字幕文件和剧本文件，并将所述字幕文件和剧本文件融合为融合剧本文件；所述客户端根据所述融合剧本文件获取所述视频中待检测人物；以及所述客户端根据所述待检测人物在所述视频中进行人脸检测,并根据检测结果生成所述待检测人物的人物播放轨迹。

根据本发明实施例的视频中人物播放轨迹的生成方法，通过将视频的字幕文件和剧本文件互相融合，并通过人脸检测与跟踪完成对人脸的全自动标注，由此，可以实现自动的生成视频中各个人物的人物播放轨迹，满足了用户观看特定人物的需求。并且在该过程中并不需要对人脸进行识别，大大提高了自动标注过程中的实时性。此外，通过人脸跟踪技术与融合的字母文件和剧本文件的综合运用，大大提高了标注的准确性。

为了实现上述目的，本发明第二方面实施例的视频中人物播放轨迹的生成装置，包括：第一获取模块，用于获取视频的字幕文件和剧本文件；融合模块，用于将所述字幕文件和剧本文件融合为融合剧本文件；第二获取模块，用于根据所述融合剧本文件获取所述视频中待检测人物；检测模块，用于根据所述待检测人物在所述视频中进行人脸检测；以及生成模块，用于根据检测结果生成所述待检测人物的人物播放轨迹。

根据本发明实施例的视频中人物播放轨迹的生成装置，通过将视频的字幕文件和剧本文件互相融合，并通过人脸检测与跟踪完成对人脸的全自动标注，由此，可以实现自动的生成视频中各个人物的人物播放轨迹，满足了用户观看特定人物的需求。并且在该过程中并不需要对人脸进行识别，大大提高了自动标注过程中的实时性。此外，通过人脸跟踪技术与融合的字母文件和剧本文件的综合运用，大大提高了标注的准确性。

为了实现上述目的，本发明第三方面实施例的客户端包括本发明第二方面实施例的视频中人物播放轨迹的生成装置。

根据本发明实施例的客户端，通过将视频的字幕文件和剧本文件互相融合，并通过人脸检测与跟踪完成对人脸的全自动标注，由此，可以实现自动的生成视频中各个人物的人物播放轨迹，满足了用户观看特定人物的需求。并且在该过程中并不需要对人脸进行识别，大大提高了自动标注过程中的实时性。此外，通过人脸跟踪技术与融合的字母文件和剧本文件的综合运用，大大提高了标注的准确性。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中，

图1是根据本发明一个实施例的视频中人物播放轨迹的生成方法的流程图；

图2（a）、（b）和（c）是根据本发明一个实施例的字幕文件和剧本文件的示意图；

图3是根据本发明一个具体实施例的视频中人物播放轨迹的生成方法的流程图；

图4是根据本发明一个实施例的视频中人物播放轨迹的生成装置的结构示意图；

图5是根据本发明一个具体实施例的视频中人物播放轨迹的生成装置的结构示意图；以及

图6是根据本发明另一个具体实施例的视频中人物播放轨迹的生成装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。相反，本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

在本发明的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。此外，在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

下面参考附图描述根据本发明实施例的视频中人物播放轨迹的生成方法、装置和客户端。

目前，通过手工标注目标人物或者自动标注目标人物的方法，用户可以按照某个目标人物的出现时段进行播放。然而手工标注目标任务或者自动标注目标人物的方式均耗费大量的人力和时间，标注的效率非常低。如果能够将视频的字幕文件和剧本文件互相融合，通过人脸检测与跟踪完成对人脸的全自动标注，由此，可以不需要训练用于人脸识别的分类器，并且不需要对人脸进行识别，大大提高了自动标注过程中的实时性。此外，通过人脸跟踪技术与融合的字母文件和剧本文件的综合运用，大大提高了标注的准确性。为此，本发明提出了一种视频中人物播放轨迹的生成方法，包括以下步骤：客户端获取视频的字幕文件和剧本文件，并将字幕文件和剧本文件融合为融合剧本文件；客户端根据融合剧本文件获取视频中待检测人物；以及客户端根据待检测人物在视频中进行人脸检测,并根据检测结果生成待检测人物的播放轨迹。

图1是根据本发明一个实施例的视频中人物播放轨迹的生成方法的流程图。

如图1所示，视频中人物播放轨迹的生成方法包括以下步骤。

S101，客户端获取视频的字幕文件和剧本文件，并将字幕文件和剧本文件融合为融合剧本文件。

在本发明的一个实施例中，字幕文件包括视频文件播放过程中的字幕信息和对应的时间信息，剧本文件包括人物信息和对应的剧本内容信息。具体地，如图2（a）所示，字幕文件中可包括字幕信息和对应的时间信息；如图2（b）所示，剧本文件中可包括人物信息、剧本内容信息、人物的行为信息和场景信息等。

具体地，如图2（c）所示，客户端将字幕文件和剧本文件融合为基于字幕的融合剧本文件，其中，融合剧本文件中的剧本内容信息和人物信息可与字幕文件中的时间信息相互对应。

S102，客户端根据融合剧本文件获取视频中待检测人物。

具体地，客户端可从融合后的融合剧本文件中通过人物信息和剧本内容信息的对应关系，获取待检测人物。例如，客户端可获取待检测人物“Julianna”。

S103，客户端根据待检测人物在视频中进行人脸检测,并根据检测结果生成待检测人物的人物播放轨迹。

具体地，客户端根据融合剧本文件获取待检测人物对应的时间信息，并将时间信息设置为人脸检测的初始化时间。例如，待检测人物“Julianna”在视频中开始对话的时间点为“00:01:26,880”，客户端可根据该时间点获取当前帧的视频，并对当前帧视频进行人脸检测。

在本发明的一个实施例中，如果检测到视频中包含人脸，则客户端追踪人脸，并将追踪到的人脸进行标注，以及根据标注结果统计待检测人物在视频中出现的分布情况，并根据分布情况获取待检测人物对应的人物播放轨迹。具体地，如果客户端检测到当前帧视频中包含人脸，或者客户端检测到当前帧视频中包含多个人脸，则客户端根据检测到的一个或者多个人脸，在当前帧视频之后的视频中对该人脸进行追踪，同时将追踪到的人脸进行标注。直到视频中追踪不到人脸，即某一帧视频中不包含人脸，则客户端结束追踪。然后客户端将追踪到人脸的时间段，作为该人物出场的时间段，并将该时间段记录在客户端中。由此，可以保证获取的待检测人物的出场时间段的连续性。

应理解，客户端通过重复步骤S102和步骤S103，根据融合后的融合剧本文件，可获取每个待检测人物对应的全部出场时间段。

此外，客户端可对剧本文件进行分析，并从剧本文件中提取所有的人物信息。客户端判断是否包含未处理的人物信息，即是否包含未经过人脸检测的人物信息。如果包含未处理的人物信息，则重复步骤S102和步骤S103。如果未包含未处理的人物信息，则客户端统计每个待检测人物在视频中出现的分布情况，例如，人物“Julianna”的出场时间为“00:01:26,880-00:01:30,720、00:05:10,880-00:07:03,720、00:10:40,880-00:11:20,720、01:31:10,880-01:35:30,720等”。客户端根据该待检测人物在视频中出现的分布情况，生成该待检测人物的人物播放轨迹，即将该待检测人物的多个出现时间段连接在一起。由此，客户端可通过人物播放轨迹实现智能播放功能，即客户端连续播放某个人物的视频片段。

图3是根据本发明一个具体实施例的视频中人物播放轨迹的生成方法的流程图。

客户端获取视频中各个人物的人物播放轨迹后，还可将该人物播放轨迹上传到云端服务器，将人物播放轨迹作为搜索引擎检索视频时的数据依据，具体地，如图3所示，视频中人物播放轨迹的生成方法包括以下步骤。

S301，客户端获取视频的字幕文件和剧本文件，并将字幕文件和剧本文件融合为融合剧本文件。

S302，客户端根据融合剧本文件获取视频中待检测人物。

S303，客户端根据待检测人物在视频中进行人脸检测,并根据检测结果生成待检测人物的人物播放轨迹。

应理解，客户端通过重复步骤S302和步骤S303，根据融合后的融合剧本文件，可获取每个待检测人物对应的全部出场时间段。

S304，客户端将人物播放轨迹上传至云端服务器，以使云端服务器将人物播放轨迹加入至搜索引擎的数据库中。

例如，云端服务器可将客户端上传的每个人物信息对应的人物播放轨迹分别保存在搜索引擎的数据库中，作为用户通过搜索引擎检索视频的依据。如果用户通过搜索引擎搜索某个人物信息的视频，则搜索引擎可根据数据库中的人物播放轨迹生成特定人物信息的视频片段集合，并为用户进行播放。

根据本发明实施例的视频中人物播放轨迹的生成方法，搜索引擎基于挖掘出的人物信息对应的人物播放轨迹，可为日后用户通过搜索引擎检索视频提供强有力的数据依据，提升用户体验。

为了实现上述实施例，本发明还提出一种视频中人物播放轨迹的生成装置。

一种视频中人物播放轨迹的生成装置，包括：第一获取模块，用于获取视频的字幕文件和剧本文件；融合模块，用于将字幕文件和剧本文件融合为融合剧本文件；第二获取模块，用于根据融合剧本文件获取视频中待检测人物；检测模块，用于根据待检测人物在视频中进行人脸检测；以及生成模块，用于根据检测结果生成待检测人物的播放轨迹。

图4是根据本发明一个实施例的视频中人物播放轨迹的生成装置的结构示意图。

如图4所示，视频中人物播放轨迹的生成装置包括：第一获取模块110、融合模块120、第二获取模块130、检测模块140和生成模块150。

具体地，第一获取模块110用于获取视频的字幕文件和剧本文件。

融合模块120用于将字幕文件和剧本文件融合为融合剧本文件。更具体地，如图2（c）所示，融合模块120将字幕文件和剧本文件融合为基于字幕的融合剧本文件，其中，融合剧本文件中的剧本内容信息和人物信息可与字幕文件中的时间信息相互对应。

第二获取模块130用于根据融合剧本文件获取视频中待检测人物。更具体地，第二获取模块130可从融合后的融合剧本文件中通过人物信息和剧本内容信息的对应关系，获取待检测人物。例如，第二获取模块130可获取待检测人物“Julianna”。

检测模块140用于根据待检测人物在视频中进行人脸检测。更具体地，检测模块140根据融合剧本文件获取待检测人物对应的时间信息，并将时间信息设置为人脸检测的初始化时间。例如，待检测人物“Julianna”在视频中开始对话的时间点为“00:01:26,880”检测模块140可根据该时间点获取当前帧的视频，并对当前帧视频进行人脸检测。

生成模块150用于根据检测结果生成待检测人物的人物播放轨迹。

图5是根据本发明一个具体实施例的视频中人物播放轨迹的生成装置的结构示意图。

如图5所示，视频中人物播放轨迹的生成装置包括：第一获取模块110、融合模块120、第二获取模块130、检测模块140和生成模块150，其中，生成模块150包括：追踪单元151、统计单元152和获取单元153。

具体地，追踪单元151用于在检测到视频中包含人脸时，追踪人脸，并将追踪到的人脸进行标注。更具体地，如果检测模块140检测到当前帧视频中包含人脸，或者检测模块140检测到当前帧视频中包含多个人脸，则追踪单元151根据检测到的一个或者多个人脸，在当前帧视频之后的视频中对该人脸进行追踪，同时将追踪到的人脸进行标注。直到追踪单元151在视频中追踪不到人脸，即某一帧视频中不包含人脸，则追踪单元151结束追踪。然后追踪单元151将追踪到人脸的时间段，作为该人物出场的时间段，并将该时间段记录在客户端中。由此，可以保证获取的待检测人物的出场时间段的连续性。

统计单元152用于根据标注结果统计待检测人物在视频中出现的分布情况。更具体地，统计单元152可对剧本文件进行分析，并从剧本文件中提取所有的人物信息。统计单元152判断是否包含未处理的人物信息，即是否包含未经过人脸检测的人物信息。如果未包含未处理的人物信息，则统计单元152统计每个待检测人物在视频中出现的分布情况，例如，人物“Julianna”的出场时间为“00:01:26,880-00:01:30,720、00:05:10,880-00:07:03,720、00:10:40,880-00:11:20,720、01:31:10,880-01:35:30,720等”。

获取单元153用于根据分布情况获取待检测人物对应的人物播放轨迹。更具体地，获取单元153根据该待检测人物在视频中出现的分布情况，生成该待检测人物的人物播放轨迹，即将该待检测人物的多个出现时间段连接在一起。由此，客户端可通过人物播放轨迹实现智能播放功能，即客户端连续播放某个人物的视频片段。

根据本发明实施例的视频中人物播放轨迹的生成装置，可生成待检测人物的人物播放轨迹。

如图6所示，视频中人物播放轨迹的生成装置包括：第一获取模块110、融合模块120、第二获取模块130、检测模块140、生成模块150和上传模块160，其中，生成模块150包括：追踪单元151、统计单元152和获取单元153。

具体地，上传模块160用于将人物播放轨迹上传至云端服务器，以使云端服务器将人物播放轨迹加入至搜索引擎的数据库中。更具体地，云端服务器可将上传模块160上传的每个人物信息对应的人物播放轨迹分别保存在搜索引擎的数据库中，作为用户通过搜索引擎检索视频的依据。如果用户通过搜索引擎搜索某个人物信息的视频，则搜索引擎可根据数据库中的人物播放轨迹生成特定人物信息的视频片段集合，并为用户进行播放。

根据本发明实施例的视频中人物播放轨迹的生成装置，搜索引擎基于挖掘出的人物信息对应的人物播放轨迹，可为日后用户通过搜索引擎检索视频提供强有力的数据依据，提升用户体验。

为了实现上述实施例，本发明还提出一种客户端。

一种客户端，包括本发明第二方面实施例的视频中人物播放轨迹的生成装置。

应当理解，在本发明的实施例中，客户端可以是手机、平板电脑、个人数字助理、电子书等具有各种操作系统的硬件设备。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列（PGA），现场可编程门阵列（FPGA）等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.一种视频中人物播放轨迹的生成方法，其特征在于，包括以下步骤：

客户端获取视频的字幕文件和剧本文件，并将所述字幕文件和剧本文件融合为融合剧本文件；

所述客户端根据所述融合剧本文件获取所述视频中待检测人物；以及

所述客户端根据所述待检测人物在所述视频中进行人脸检测,并根据检测结果生成所述待检测人物的人物播放轨迹。

2.如权利要求1所述的方法，其特征在于，所述字幕文件包括所述视频文件播放过程中的字幕信息和对应的时间信息，所述剧本文件包括所述人物信息和对应的所述剧本内容信息。

3.如权利要求1所述的方法，其特征在于，所述客户端根据检测结果生成所述待检测人物的播放轨迹进一步包括：

如果检测到所述视频中包含所述人脸，则所述客户端追踪所述人脸，并将追踪到的人脸进行标注；

所述客户端根据标注结果统计所述待检测人物在所述视频中出现的分布情况；以及

所述客户端根据所述分布情况获取所述待检测人物对应的人物播放轨迹。

4.如权利要求1所述的方法，其特征在于，还包括：

所述客户端将所述人物播放轨迹上传至云端服务器，以使云端服务器将所述人物播放轨迹加入至搜索引擎的数据库中。

5.一种视频中任务轨迹的生成装置，其特征在于，包括：

第一获取模块，用于获取视频的字幕文件和剧本文件；

融合模块，用于将所述字幕文件和剧本文件融合为融合剧本文件；

第二获取模块，用于根据所述融合剧本文件获取所述视频中待检测人物；

检测模块，用于根据所述待检测人物在所述视频中进行人脸检测；以及

生成模块，用于根据检测结果生成所述待检测人物的人物播放轨迹。

6.如权利要求5所述的装置，其特征在于，所述字幕文件包括所述视频文件播放过程中的字幕信息和对应的时间信息，所述剧本文件包括所述人物信息和对应的所述剧本内容信息。

7.如权利要求5所述的装置，其特征在于，所述生成模块包括：

追踪单元，用于在检测到所述视频中包含所述人脸时，追踪所述人脸，并将追踪到的人脸进行标注；

统计单元，用于根据标注结果统计所述待检测人物在所述视频中出现的分布情况；以及

获取单元，用于根据所述分布情况获取所述待检测人物对应的人物播放轨迹。

8.如权利要求5所述的装置，其特征在于，还包括：

上传模块，用于将所述人物播放轨迹上传至云端服务器，以使云端服务器将所述人物播放轨迹加入至搜索引擎的数据库中。

9.一种客户端，其特征在于，包括权利要求5-8任一项所述的视频中任务轨迹的生成装置。