CN116527965A

CN116527965A - 标记视频的生成方法和装置、视频标记的检测方法和装置

Info

Publication number: CN116527965A
Application number: CN202210080317.5A
Authority: CN
Inventors: 刘绍腾; 杨天舒; 常勤伟; 黄磊超; 刘华罗
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-01-24
Filing date: 2022-01-24
Publication date: 2023-08-01

Abstract

本申请涉及一种标记视频的生成方法、装置、计算机设备和存储介质。所述方法包括：获取对象标识，并将对象标识映射为标识符序列；确定标识符序列中的各标识符分别对应的字幕偏移类型，并确定与各标识符分别对应的分片信息；对于每个标识符，获取标识符所对应的分片信息指向的、且属于相应标识符对应的字幕偏移类型的字幕偏移片段；分片信息指向的字幕偏移片段，通过对原始视频中具有相同分片信息的原始视频片段进行字幕偏移得到；基于字幕偏移片段，生成与原始视频对应、且与对象标识对应的标记视频。采用本方法能够在视频领域实现强鲁棒性的视频水印嵌入。

Description

标记视频的生成方法和装置、视频标记的检测方法和装置

技术领域

本申请涉及网络媒体技术领域，特别是涉及一种标记视频的生成方法、装置、计算机设备、存储介质、以及计算机程序产品，以及视频标记的检测方法、装置、计算机设备、存储介质、以及计算机程序产品。

背景技术

近年来，随着民众版权意识的提高，影视作品版权保护的重要性愈发体现。由于数字水印技术具有隐蔽性好、溯源方便、操作便捷的特点，其也越来越多地被引入到视频版权保护的场景中。

现有的视频数字水印技术主要是在视频画面中添加图像水印，以标记和展示视频的来源方。然而，在较强的缩放、裁剪、降质、以及剪辑等攻击下，通过这种方式添加的图像水印容易遭到破坏，导致视频版权难以被有效地保护。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高数字水印鲁棒性的标记视频的生成方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

一方面，本申请提供了一种标记视频的生成方法。所述方法包括：

获取对象标识，并将所述对象标识映射为标识符序列；

确定所述标识符序列中的各标识符分别对应的字幕偏移类型，并确定与各标识符分别对应的分片信息；

对于每个标识符，获取所述标识符所对应的分片信息指向的、且属于相应标识符对应的字幕偏移类型的字幕偏移片段；所述分片信息指向的字幕偏移片段，通过对原始视频中具有相同分片信息的原始视频片段进行字幕偏移得到；

基于所述字幕偏移片段，生成与所述原始视频对应、且与所述对象标识对应的标记视频。

另一方面，本申请还提供了一种标记视频的生成装置。所述装置包括：

获取模块，用于获取对象标识，并将所述对象标识映射为标识符序列；

确定模块，用于确定所述标识符序列中的各标识符分别对应的字幕偏移类型，并确定与各标识符分别对应的分片信息；

偏移模块，用于对于每个标识符，获取所述标识符所对应的分片信息指向的、且属于相应标识符对应的字幕偏移类型的字幕偏移片段；所述分片信息指向的字幕偏移片段，通过对原始视频中具有相同分片信息的原始视频片段进行字幕偏移得到；

生成模块，用于基于所述字幕偏移片段，生成与所述原始视频对应、且与所述对象标识对应的标记视频。

另一方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取对象标识，并将所述对象标识映射为标识符序列；

另一方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取对象标识，并将所述对象标识映射为标识符序列；

另一方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

获取对象标识，并将所述对象标识映射为标识符序列；

上述标记视频的生成方法、装置、计算机设备、存储介质和计算机程序产品，通过将视频播放方的对象标识通过一定的逻辑映射为标识符构成的标识符序列，并基于标识符序列中的各标识符分别对应的字幕偏移类型和与各标识符分别对应的分片信息，获取标识符所对应的分片信息指向的、且属于相应标识符对应的字幕偏移类型的字幕偏移片段，再将各个字幕偏移片段组合起来，生成与原始视频和对象标识均对应的标记视频，由此将对象标识作为一种标记信息或水印信息，以字幕偏移的形式隐蔽地嵌入视频中，相较于在画面维度上进行嵌入的方案鲁棒性更强，难以被诸如缩放、裁剪、降质、以及剪辑等攻击破坏，由此保证了溯源时的检出率和准确性。

另一方面，本申请还提供了一种视频标记的检测方法。所述方法包括：

获取待检测视频，确定所述待检测视频中各个视频帧对应的字幕偏移类型；

根据预设的分片信息，确定所述待检测视频中与各分片信息分别对应的视频片段；

对于每个视频片段，基于所述视频片段中包括的多个视频帧分别所属的字幕偏移类型，确定与所述视频片段对应的标识符；

基于所述待检测视频中各视频片段分别对应的标识符，确定标识符序列，并基于所述标识符序列确定所述待检测视频中标记的对象标识。

另一方面，本申请还提供了一种视频标记的检测装置。所述装置包括：

获取模块，用于获取待检测视频，确定所述待检测视频中各个视频帧对应的字幕偏移类型；

确定模块，用于根据预设的分片信息，确定所述待检测视频中与各分片信息分别对应的视频片段；

所述确定模块，还用于对于每个视频片段，基于所述视频片段中包括的多个视频帧分别所属的字幕偏移类型，确定与所述视频片段对应的标识符；

所述确定模块，还用于基于所述待检测视频中各视频片段分别对应的标识符，确定标识符序列，并基于所述标识符序列确定所述待检测视频中标记的对象标识。

上述视频标记的检测方法、装置、计算机设备、存储介质和计算机程序产品，通过确定待检测视频中各个视频帧对应的字幕偏移类型，并根据预设的分片信息确定所述待检测视频中与各分片信息分别对应的视频片段，针对每个视频片段，基于视频片段中包括的多个视频帧分别所属的字幕偏移类型，确定与视频片段对应的标识符，再基于待检测视频中各视频片段分别对应的标识符，确定标识符序列，从而基于标识符序列逆映射得到待检测视频中标记的对象标识，由此实现了对标记视频中通过字幕偏移的方式间接嵌入的水印信息，并能够根据所标记的对象标识确定视频的播放方或泄露源，保证了溯源时的检出率和准确性。

附图说明

图1为一个实施例中标记视频的生成方法的应用环境图；

图2为一个实施例中标记视频的生成方法的流程示意图；

图3为一个实施例中服务器获取字幕偏移片段的步骤的流程示意图；

图4为一个实施例中视频标记的检测方法的流程示意图；

图5A为一个实施例中字幕水印嵌入系统的示意图；

图5B为一个实施例中字幕水印检测系统的示意图；

图6为一个实施例中视频A/B面水印嵌入的流程示意图；

图7为一个实施例中A/B面水印视频分发的流程示意图；

图8为一个实施例中视频对齐的流程示意图；

图9为一个实施例中字幕位置检出的流程示意图；

图10为一个实施例中A/B序列映射的流程示意图；

图11为一个实施例中标记视频的生成装置的结构框图；

图12为一个实施例中视频标记的检测装置的结构框图；

图13为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

数字水印是一种信息隐藏技术，它利用人体感官的限制，将数字信号(如图像、文字、符号、或者数字等可以作为标记的信息)与原始数据(如图像、音频、视频数据)紧密结合并隐藏于其中。数字水印能为受到版权保护的信息产品的归属提供完全和可靠的证据。

传统的视频数字水印技术中，数字水印的叠加方式主要是在视频画面维度进行，即对图像进行域转换，并嵌入水印。然而，在画面维度进行水印叠加的方式有计算量大、影响画质的缺点，并且鲁棒性不稳定，在较强的缩放、裁剪、降质、剪辑等攻击下，水印容易被破坏。

有鉴于此，本申请实施例提供一种标记视频的生成方法和相应的视频标记的检测方法，创造性地在字幕维度进行隐藏水印的嵌入。通过利用视频编解码、计算机视觉相关技术，本申请实施例提出一种可以在字幕压制、播放过程中嵌入隐藏水印、以及对压制后的视频进行水印检出的方法。当视频泄露、被盗用后，可以根据隐藏水印进行泄露源追溯，保护视频版权。相较于现有的在画面维度上进行嵌入的方案，本申请实施例在字幕维度进行隐藏水印的嵌入，不仅能提高水印嵌入的效率，还具有较强的抗攻击性，鲁棒性强。

为了便于更好地理解本申请的技术内容，以下对本申请实施例中所涉及的相关技术术语进行说明。

字幕通常可以分为硬字幕、软字幕、以及外挂字幕等几种形式。其中，硬字幕是指字幕嵌入视频的画面中并成为图像的一部分，只要能播放视频就能看到字幕。软字幕是指将字幕和视频画面打包在一个容器中，视频播放时可选择显示字幕，也可以将字幕分拆；字幕和视频画面在容器内是分离的。外挂字幕是指字幕分离于视频容器作为与视频分开的单独文件，可以通过播放工具可以将字幕加载到视频容器中进行播放。本申请实施例中所涉及的字幕具体可以为软字幕或外挂字幕等，但不限于此。

字幕具有格式，包括但不限于SRT(SubRipper Text，文本格式字幕)、SSA(SubStation Alpha)、ASS(Advanced SubStation Alpha)等格式。以SRT格式举例说明，其组成为：一行字幕序号、一行时间代码、以及一行字幕数据。

例如：

45

00:02:52,184-->00:02:53,617

A

其表示的是第45个字幕，显示时间从该视频开始的第2分52.184秒到第2分53.617秒，字幕的具体内容为：A。

下面对本申请的方案进行详细阐述。本申请实施例提供的标记视频的生成方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据，例如视频数据和字幕数据等。数据存储系统可以集成在服务器104上，也可以放在云上或其他网络服务器上。终端102向服务器104请求播放视频，服务器104则获取与终端102对应的对象标识，基于对象标识所映射的标识符序列，生成与对象标识对应的标记视频。服务器104将生成的标记视频下发至终端102，以供终端102进行播放。

其中，终端102可以但不限于是各种台式计算机、笔记本电脑、智能手机、平板、智能语音交互设备、智能家电、车载终端、飞行器等中的一种或多种。例如，终端102可以为能够提供OTT(Over-The-Top)式服务的智能设备，包括但不限于智能电视、机顶盒等。OTT是指通过互联网提供各种应用服务，典型的OTT服务包括互联网电视服务、应用商店等。其中，终端102上可装载有应用程序，如视频播放应用程序、浏览器、邮箱应用程序、即时通信应用程序等，不做限定。应用程序具体可以是通过安装包单独安装的应用程序，也可以是不需要下载安装即可使用的小程序应用。终端可以通过装载的应用程序播放视频。

其中，服务器104可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。

在一些实施例中，如图2所示，提供了一种标记视频的生成方法，该方法可以由服务器或终端执行，也可以由服务器和终端共同执行。本申请实施例以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤S202，获取对象标识，并将对象标识映射为标识符序列。

其中，对象标识指的是用于区分不同对象或对象所使用的终端的唯一标识，可以但不限于是对象的账户信息(包括但不限于账户名称、对象ID等)、视频播放应用程序的唯一编码信息、安装有视频播放应用程序的终端的IP(Internet Protocol Address，互联网协议地址)或MAC(Media Access Control Address，介质访问控制地址)等中的一种或多种。例如，对象在视频播放平台注册的账号名称为“abc”，则对应的对象标识为“abc”。通过获取对象标识，可以经映射后作为视频的一种水印信息嵌入在字幕中，以便于日后对泄露的视频进行溯源。

由于对象标识各有差别，因此通过预设的映射规则将其转换成统一的标识符序列，能够使得计算机设备能够更快更准确地进行识别，进而提高生成标记视频的效率。通常，标识符序列预设有固定的长度，并由预设数量的标识符构成。其中，标识符用于指定字幕偏移类型，一种标识符唯一对应于一种字幕偏移类型。标识符可以是字母或者数字等字符。举例而言，假设预设有2种字幕偏移类型，则可以由二进制数字“0”和“1”分别表示不同的字幕偏移类型，或者由两个不同的字母“A”和“B”来表示。又如，假设不止有2种字幕偏移类型时，可以由数字0～9或者字母A～Z来表示不同的字幕偏移类型，或者混合字母和数字等字符来表示不同的字幕偏移类型等。

其中，字幕偏移类型指的是对字幕进行偏移的方式，字幕偏移类型可以包括但不限于对字幕的位置进行平移，改变字幕的字间距，改变字幕的字体、颜色、大小等，以及不对字幕进行偏移(即保持原始字幕的样式)等中的一种或多种。为了尽可能避免影响视频的观感，对字幕进行的偏移应当是细微的，以使得对象观看视频时无法或难以感知字幕的改变。举例而言，对于两种字幕偏移类型，其中一种例如为将字幕统一向上平移1个像素点，另一种则为将字幕统一向下平移1个像素点。

具体地，终端可通过运行的用于进行视频播放的应用程序向服务器发送视频播放请求，以获取特定的视频进行播放。视频播放请求中包括请求播放的视频信息(用于指示是哪一视频，包括但不限于视频名称、视频编号等中的一种或多种)和对象标识。服务器响应于终端的视频播放请求，确定相应的原始视频，并提取视频播放请求中携带的对象标识。服务器将对象标识转化为标识符序列，以便后续基于该标识符序列确定与原始视频对应的标记视频。

示例性地，对象ID为“abc”，则服务器可以将其映射为AAAAAAABAABA，其中AAAA代表“a”、AAAB代表“b”、AABA代表“c”。或者，服务器也可以将其映射为000110，00代表“a”，01代表“b”、10代表“c”。当对象标识映射得到的标识符序列不等于预设的长度时，服务器可以按照预设的逻辑对标识符序列进行处理，例如进行截取或补齐等。

步骤S204，确定标识符序列中的各标识符分别对应的字幕偏移类型，并确定与各标识符分别对应的分片信息。

其中，分片是在时间维度上对视频进行分片(或称分段、分区域)，相应的分片信息可以是具体的时间信息、或分片序号信息等中的一种或多种。该分片信息用于指示对原始视频进行分片所得到的原始视频片段。同样地，该分片信息还用于指示对字幕偏移视频进行分片所得到的字幕偏移片段。例如，服务器将时间轴切分为每10s一个片段(或称分片)，则分片信息可以指示第1秒～第10秒、第11秒～第20秒……依此类推。当然可以理解的是，服务器进行切分时每个片段的时长可以不均匀，例如分片信息也可以指示第1秒～第10秒、第11秒～第30秒……等。或者，分片信息也可以为分片序号，用于指示切分得到的片段的序号，例如指示第1个片段、第2个片段……等。

具体地，服务器确定由对象标识映射得到的标识符序列中，每个标识符分别对应的字幕偏移类型。例如，服务器依次逐个确定标识符序列中每个标识符分别对应的字幕偏移类型为预设的多种字幕偏移类型中的哪一种。同时，服务器还需确定每个标识符分别对应的分片信息，以确定每个时间段对应的字幕偏移类型。

示例性地，服务器预先存储有各类标识符与字幕偏移类型之间的对应关系，例如，标识符“0”对应于将字幕向上平移的字幕偏移类型，标识符“1”对应于将字幕向下平移的字幕偏移类型，又如，标识符“A”对应于增大字幕字间距的字幕偏移类型，标识符“B”对应于缩小字幕字间距的字幕偏移类型，等等。

步骤S206，对于每个标识符，获取标识符所对应的分片信息指向的、且属于相应标识符对应的字幕偏移类型的字幕偏移片段；分片信息指向的字幕偏移片段，通过对原始视频中具有相同分片信息的原始视频片段进行字幕偏移得到。

其中，单个标识符与至少一个分片信息具有对应关系。例如在标识符序列中，第一个标识符指示的是第1个视频片段、或第1秒～第10秒的视频片段，第二个标识符指示的是第2个视频片段、或第11秒～第20秒的视频片段……依此类推。

当然可以理解的是，在视频的长度较长的情况下，每个标识符可以对应有多个分片信息。例如，对于一个时长1h的原始视频，假设标识符序列为010，第一个标识符“0”指示的是第1秒～第10秒的视频片段，第二个标识符“1”指示的是第11秒～第20秒的视频片段，第三个标识符“0”指示的是第21秒～第30秒的视频片段，而遍历完标识符序列中的全部标识符后，后续仍有视频片段没有对应的标识符。则此时可以重新从标识符序列的第一位开始，重新遍历标识符序列。由此，每个标识符可以对应于多个分片信息，例如第一个标识符“0”指示的是第1秒～第10秒、第31秒～第40秒……等视频片段。

每个分片信息指向的字幕偏移片段，指的是对具有相同分片信息的原始视频片段进行字幕偏移后、包括有偏移字幕的视频片段。其中，每个字幕偏移片段包括有至少一条偏移字幕。在一些实施例中，存在至少一个字幕偏移片段中包括有多于一条的偏移字幕。也就是说，字幕偏移片段中所包括的偏移字幕，可以是一条、两条或者两条以上等，本申请实施例对此不作限定。

字幕偏移片段可以是预先对原始视频进行字幕偏移后进行切分后得到并存储于存储介质中(存储空间包括但不限于服务器的本地存储空间、数据库等)，也可以是预先对具有切片后、属于相同分片信息的原始视频片段进行字幕偏移后得到并存储于存储介质中，还可以是直接提取原始视频中具有相同分片信息的原始视频片段、并进行字幕偏移得到。

字幕偏移处理指的是对字幕进行偏移处理，对字幕进行偏移处理的方式包括但不限于对字幕的位置进行平移，改变字幕的字间距，改变字幕的字体、颜色、大小等，以及不对字幕进行偏移(即保持原始字幕的样式)等中的一种或多种。本申请实施例中所提及的字幕偏移处理，可以是对原始视频(或原始视频片段)添加已偏移的字幕，也可以是对原始视频(或原始视频片段)中的原始字幕进行偏移。

需要说明的是，字幕偏移处理是以分片得到的视频片段为单位进行偏移处理的；对于同一个字幕偏移片段，对其中的字幕所进行的偏移处理是属于同一类型的。例如，分片信息所指向的包含有10条字幕的第1个视频片段(或第1秒～第10秒的视频片段)，服务器对其中的字幕均进行A类型的字幕偏移处理，例如对于这10条字幕均将其位置向上平移1个像素点，等等。

举例而言，服务器预先对原始视频进行多种字幕偏移类型的字幕偏移，例如，服务器对原始视频中的字幕统一向上平移若干像素点，得到A类型的视频；同时，服务器对原始视频中的字幕统一向下平移若干像素点，得到B类型的视频。服务器再根据预设的分片规则(例如每10s进行分片)对得到的A类型和B类型的视频均进行分段，得到A类型的多个字幕偏移片段和B类型的多个字幕偏移片段。由此，后续服务器可以直接提取某一字幕偏移类型的字幕偏移片段。

又如，服务器根据预设的分片规则预先对原始视频进行分片，得到多个视频片段。服务器分别对各个视频片段分别进行A类型的字幕偏移、B类型的字幕偏移、C类型的字幕偏移……等，由此每个分片均对应于各个类型的字幕偏移片段。后续服务器可以直接提取某一字幕偏移类型的字幕偏移片段。

再如，服务器也可以不预先进行分片，而是根据分片信息所指示的时间段(例如指示第10秒～第20秒)，直接提取对原始视频中第10秒～第20秒的视频片段，然后对该视频片段内的字幕进行特定类型的字幕偏移，从而得到某一字幕偏移类型的字幕偏移片段。

当然并不局限于此，本领域技术人员清楚的是，在不背离本申请所揭示的发明构思和思想的情况下，任何字幕偏移的方式均可以适用，例如还可以是服务器根据分片信息所指示的时间段对该视频片段内的字幕进行特定类型的字幕偏移，再将该时间段内的视频片段从原始视频中提取出来，等等。

具体地，对于标识符序列中的每个标识符，服务器分别确定每个标识符所分别对应的分片信息，并确定在同样的分片信息下、属于各个标识符所指示的字幕偏移类型的字幕偏移片段。

示例性地，假设由对象标识映射得到的标识符序列为AAAAAAABAABA，其中标识符A表示将字幕向上平移的字幕偏移类型，标识符B表示将字幕向下平移的字幕偏移类型。对于每个标识符，服务器依次确定其所对应的分片信息，例如第1个标识符“A”对应于第1秒～第10秒的分片信息所指示的视频片段，第8个标识符“B”对应于第71秒～第80秒的分片信息所指示的视频片段……第12个标识符“A”对应于第111秒～第120秒的分片信息所指示的视频片段。以第1个标识符为例，服务器确定其对应的分片信息指向哪一视频片段，并确定该标识符所表示的字幕偏移类型，确定与标识符和分片信息均对应的字幕偏移片段。服务器可以根据分片信息和标识符从预先存储的多个字幕偏移片段中提取相应的字幕偏移片段，也可以根据分片信息所指示的时间段对该视频片段内的字幕进行标识符所指定类型的字幕偏移，再将该时间段内的视频片段从原始视频中提取出来，得到相应的字幕偏移片段。

步骤S208，基于字幕偏移片段，生成与原始视频对应、且与对象标识对应的标记视频。

具体地，服务器根据每个分片信息和相应标识符对应的各个字幕偏移片段，按照时间顺序将各个字幕偏移片段重新组合，从而生成与原始视频对应的标记视频。由于所生成的标记视频中以字幕偏移的形式间接地嵌入了对象标识，便于日后对泄露的视频通过检测字幕提取对象标识，从而溯源视频的泄露方。

上述标记视频的生成方法中，通过将视频播放方的对象标识通过一定的逻辑映射为标识符构成的标识符序列，并基于标识符序列中的各标识符分别对应的字幕偏移类型和与各标识符分别对应的分片信息，获取标识符所对应的分片信息指向的、且属于相应标识符对应的字幕偏移类型的字幕偏移片段，再将各个字幕偏移片段组合起来，生成与原始视频和对象标识均对应的标记视频，由此将对象标识作为一种标记信息或水印信息，以字幕偏移的形式隐蔽地嵌入视频中，相较于在画面维度上进行嵌入的方案具有计算量小、生成效率高的特点。同时，由于本申请仅轻微修改字幕，对视频本身的画质影响极小，不可感知性强，保证了视频播放时的良好观感。此外，本申请在字幕维度上进行水印标记的方式具有鲁棒性强的特点，难以被诸如缩放、裁剪、降质、以及剪辑等攻击破坏，由此保证了溯源时的检出率和准确性。

通常而言，对象标识由多个字符构成，字符包括但不限于数字、字母、以及特殊符号等中的一种或多种。服务器预先设定有各个字符与标识符的映射关系。例如，字符“a”对应于标识符“0000”，或者字符“*”对应于标识符“AAAB”等。在一些实施例中，将对象标识映射为标识符序列，包括：从多个字符中的首位开始，按顺序确定每个字符对应的标识符；将每个字符对应的标识符按照预设格式进行排列，得到预设长度的标识符序列。

具体地，在构成对象标识的多个字符中，服务器按照预设的读取顺序，从首位开始依次查找与之对应的标识符，从而确定每个字符对应于哪一标识符。读取顺序并不限制，可以从首位到末位，也可以反之，出于计算机处理效率的考虑，通常设置为从首位依次至末位。服务器再将各个标识符按照预设格式进行排列，从而得到具有一定长度的标识符序列。通常将确定的各个标识符按照其所对应的字符的顺序，依次排列形成最终的标识符序列。

上述实施例中，通过将对象标识映射为固定长度的标识符序列，以供后续根据标识符序列确定不同类型的字幕偏移片段，进而获得间接嵌入对象标识的标记视频，实现了对视频的字幕水印嵌入，便于后续进行溯源。

在一些实施例中，将每个字符对应的标识符按照预设格式进行排列，得到预设长度的标识符序列，包括：将每个字符对应的标识符按照预设格式进行排列，若对象标识中全部字符对应的标识符的数量小于预设数量，则在排列的尾端通过预先设置的补齐标识符进行补齐，以得到预设长度的标识符序列。

其中，补齐标识符为预先设置的标识符，为了与各个字幕偏移类型对应的标识符区分，通常设置为与其他标识符不同的字符。举例而言，与各个字幕偏移类型对应的标识符可以设置为字母或者数字，而补齐标识符则可以设置为特殊符号，例如下划线“_”、或者没有用到的字母或者数字等。由此，服务器在读取到补齐标识符时，即可确定该位标识符并不对应于某种字幕偏移类型，服务器可以不对字幕进行偏移处理。当然，补齐标识符也可以对应有一种字幕偏移类型，例如预先设置补齐标识符与某种字幕偏移类型的对应关系，当服务器读取到补齐标识符时，即可根据该位标识符对应的字幕偏移类型对字幕进行偏移处理。

具体地，服务器在将每个字符对应的标识符按照预设格式进行排列后，若得到的标识符序列小于预设长度，换言之，对象标识中全部字符对应的标识符的数量小于预设数量，则服务器通过在排列(即所得到的一定长度的标识符序列)的尾端，填充一定数量的补齐标识符进行补齐，从而使得标识符序列的长度达到预设长度。

上述实施例中，通过将对象标识映射为固定长度的标识符序列，便于后续溯源时服务器进行提取并确定对象标识，提高了溯源的准确性。

承前所述，服务器获取字幕偏移片段时可以有多种方式。例如，服务器可以预先进行字幕偏移处理得到字幕偏移片段，之后只需提取若干个字幕偏移片段即可。为此，在一些实施例中，对于每个标识符，获取标识符所对应的分片信息指向的、且属于相应标识符对应的字幕偏移类型的字幕偏移片段，包括：获取预先处理得到的与各字幕偏移类型分别对应的字幕偏移视频，其中，字幕偏移视频通过对原始视频进行相应的字幕偏移处理得到；对于标识符序列中的每个标识符，按照相应标识符对应的分片信息，从属于相应标识符所对应的字幕偏移类型的字幕偏移视频中，提取具有相同分片信息的字幕偏移片段。

具体地，服务器通过对原始视频片段进行相应的字幕偏移处理，例如分别对原始视频分别进行A类型的字幕偏移、B类型的字幕偏移、C类型的字幕偏移……等，得到多个类型的字幕偏移视频。服务器在逐个处理标识符序列中的每个标识符时，均按照该标识符对应的分片信息，确定是哪一时间段或哪一分片序号的视频片段，再提取该时间段或该分片序号对应的某种字幕偏移类型的字幕偏移片段。在一些示例中，服务器可以预先对各个类型的字幕偏移视频进行分片处理，得到各个分片信息对应的字幕偏移片段并进行存储，以供在后续获取字幕偏移片段时，根据分片信息所指示的时间段或序号，从存储介质中直接获取相应的字幕偏移片段。或者，在一些示例中，服务器也可以存储各个类型的字幕偏移视频，后续再根据分片信息所指示的时间段或序号，从字幕偏移视频中将相应的字幕偏移片段抽取出来。

上述实施例中，通过预先处理得到与各字幕偏移类型分别对应的字幕偏移视频，后续直接提取相应的字幕偏移片段，提高了获取字幕偏移片段的效率。

在一些实施例中，与多种字幕偏移类型中的各字幕偏移类型对应的字幕偏移视频通过以下步骤生成：将原始视频进行解码，得到多个视频帧，并分别逐帧添加属于同一字幕偏移类型的偏移字幕，得到相应字幕偏移类型的多个视频帧；将添加有相应字幕偏移类型的偏移字幕的多个视频帧进行编码，得到对应于字幕偏移类型的字幕偏移视频。

具体地，服务器先将原始视频进行解码，得到原始视频的多个视频帧。示例性地，服务器可以通过使用FFMPEG工具(Fast Forward Mpeg，一种多媒体视频处理工具)进行视频的编码和解码处理。其中，FFMPEG是一个开放源代码的自由软件，可以执行音频和视频多种格式的录影、转换、串流功能。服务器对于解码得到的各个视频帧，分别逐帧添加某种字幕偏移类型的偏移字幕，从而得到对应于该字幕偏移类型的多个视频帧。服务器再将添加有相应字幕偏移类型的偏移字幕的多个视频帧进行编码，将视频帧重新组合成视频，由此得到该字幕偏移类型的字幕偏移视频。对于每一种字幕偏移类型，服务器均作如上处理，由此可以得到各种不同类型的字幕偏移视频。

上述实施例中，通过解码原始视频并逐帧添加偏移字幕，再编码重新组合成视频，能够快速得到各种不同类型的字幕偏移视频，字幕水印的嵌入效率高。

服务器获取字幕偏移片段的方式还可以是根据预设的分片规则预先对原始视频进行分片，得到多个视频片段；再根据标识符对视频片段进行字幕偏移处理，从而得到与相应标识符对应的字幕偏移片段。为此，在一些实施例中，如图3所示，对于每个标识符，获取标识符所对应的分片信息指向的、且属于相应标识符对应的字幕偏移类型的字幕偏移片段，包括：

步骤S302，获取原始视频，并对原始视频进行分片处理得到多个原始视频片段。

步骤S304，确定标识符序列中每个标识符分别对应的分片信息所指向的原始视频片段。

步骤S306，对各标识符分别对应的原始视频片段，按照相应标识符对应的字幕偏移类型进行字幕偏移，得到与相应标识符对应的字幕偏移片段。

具体地，服务器获取原始视频，并根据预设的分片规则对原始视频进行分片处理，得到多个原始视频片段。示例性地，服务器可以根据终端发送的视频播放请求，提取其中请求播放的具体视频。

对于由所获取的对象标识映射得到的标识符序列中的每一个标识符，服务器确定该标识符对应的分片信息，以确定待进行字幕偏移处理的具体为哪一视频片段。确定了视频片段之后，服务器按照该标识符对应的字幕偏移类型，对标识符对应的原始视频片段进行字幕偏移，得到与相应标识符对应的字幕偏移片段。

示例性地，服务器可以对原始视频片段中的原始字幕进行位置、字间距、大小等的轻微改变，从而实现对原始视频片段的字幕偏移。又如，服务器也可以在不带字幕的原始视频片段中，添加偏移后的偏移字幕，从而实现对原始视频片段的字幕偏移。由此，服务器可以得到每个标识符对应的字幕偏移片段。

上述实施例中，通过根据映射得到的标识符序列中的标识符，对分片得到的原始视频片段进行字幕偏移，相较于画面维度的字幕嵌入效率更高；同时，服务器可以无需预先存储各个类型的字幕偏移片段，节省了存储资源。

服务器在获取多个字幕偏移片段后，需要将各个字幕偏移片段重新组合成完整的视频，以发送给终端进行播放。为此，在一些实施例中，基于字幕偏移片段，生成与原始视频对应、且与对象标识对应的标记视频，包括：按照分片信息各自对应的时间顺序，将各个分片信息对应的字幕偏移片段进行拼接，生成与原始视频对应、且与对象标识对应的标记视频。

具体地，服务器按照分片信息各自对应的时间顺序，将各个分片信息对应的字幕偏移片段进行拼接，从而生成与原始视频对应的标记视频。由于所生成的标记视频中以字幕偏移的形式间接地嵌入了对象标识，便于日后对泄露的视频通过检测字幕提取对象标识，从而溯源视频的泄露方。

示例性地，分片信息例如为第1秒～第10秒、第11秒～第20秒……等，则服务器按照时间先后顺序，依次将第1秒～第10秒对应的字幕偏移片段、第11秒～第20秒对应的字幕偏移片段……进行一一拼接，并通过诸如FFMPEG等工具进行编码，从而将拼接的各个字幕偏移片段转换为一个完整的标记视频。

又如，分片信息例如为第1个片段、第2个片段……等，则服务器按照分片序号的先后顺序，依次将第1个片段对应的字幕偏移片段、第2个片段对应的字幕偏移片段……进行一一拼接，并将拼接的各个字幕偏移片段转换为一个完整的标记视频。

上述实施例中，通过将字幕偏移片段进行拼接生成间接嵌入有对象标识的标记视频，便于日后对泄露的视频通过检测字幕提取对象标识，从而溯源视频的泄露方。

承前所述，在一些场景下可能会存在一个完整视频中各个视频片段对应的标识符是标识符序列的重复循环的情况。服务器在对标记视频进行检测确定泄露源时，需要检测出标识符序列以确定对象标识。为此，标识符序列中还设置有起止标识符，用于供计算机设备识别并以此判断标识符序列的起始和/或结束。

起止标识符可以设置为与其他标识符(包括与字幕偏移类型对应的标识符和补齐标识符)不同的一或多个字符，例如可以设置为单个特殊字符或特殊字符串、或者未被使用的字母和数字等。起止标识符可以设置在标识符序列的首端或尾端，也可以在首端与尾端均设置起止标识符。

举例而言，假设标识符序列为“@10001010”，首位即为起止标识符“@”，用于表示从后一位开始为与字幕偏移类型对应的标识符。到下一个起止标识符“@”之前，即“10001010”部分，即为标识符序列中的与字幕偏移类型对应的标识符部分。从下一个起止标识符“@”开始，即重新遍历标识符序列中的标识符。

为此，在一些实施例中，标记视频中包括有多个标记单元，每个标记单元包括与单个标识符序列对应的多个字幕偏移片段，且多个标记单元之间通过标识符序列中的起止标识符所对应的视频片段进行区分，起止标识符设置在标识符序列的首端和尾端中的至少一个位置处。

具体地，服务器将单个标识符序列对应的多个字幕偏移片段，标记为一个标记单元，而一个完整的视频中包括多个标记单元。每个标记单元之间通过标识符序列中的起止标识符进行区分。

举例而言，假设标识符序列为“@ABC”，对于第1秒～第10秒，标识符“A”对应字幕偏移片段X，对于第11秒～第20秒，标识符“B”对应字幕偏移片段Y，对于第21秒～第30秒，标识符“C”对应字幕偏移片段Z，标识符序列遍历完成，第1秒～第30秒的三个字幕偏移片段构成一个标记单元。对于第21秒～第30秒，服务器重新遍历标识符序列，继续确定每个标识符对应的字幕偏移片段的步骤。由此，当服务器对完整的标记视频进行检测时，通过提取的多个标识符“@ABC@ABC@ABC……”，即可根据起止标识符确定标识符序列为“@ABC”。又如，对于服务器针对完整的标记视频提取得到的多个标识符“！1001010！！1001010！！10001010！……”，即可提取标识符序列为“！1001010！”，其中标识符序列的首端和尾端均设置一个字符的起止标识符“！”。

上述实施例中，通过设置起止标识符并将单个标识符序列对应的多个字幕偏移片段归为一个标记单元，使得后续服务器在对视频进行检测时能够快速提取标识符序列，从而得到对象标识。

在一个具体的示例中，本申请提供的标记视频的生成方法的具体流程包括：终端向服务器发送视频播放请求，视频播放请求中包含请求播放的视频信息和对象标识。服务器从对象标识的首位开始，按顺序确定对象标识中每个字符对应的标识符，并将每个字符对应的标识符按照预设格式进行排列，从而将对象标识映射为标识符序列。

然后服务器根据标识符序列中的各标识符分别对应的字幕偏移类型，对标识符对应的分片信息下的视频片段的字幕进行偏移处理，得到字幕偏移片段。或者，服务器直接获取预先处理好并存储在存储介质的字幕偏移片段。

在获取到各个分片信息下的字幕偏移片段后，服务器将各个字幕偏移片段进行拼接，得到标记视频。服务器将生成得到的标记视频返回给终端，以供终端向对象播放标记视频。

由于所生成的标记视频中以字幕偏移的形式间接地嵌入了对象标识，便于日后对泄露的视频通过检测字幕提取对象标识，从而溯源视频的泄露方。

本申请还提供一种应用场景，该应用场景应用上述的标记视频的生成方法。具体地，该标记视频的生成方法在该应用场景的应用如下：目标对象在视频平台中浏览视频列表时，通过终端选择欲观看的视频。终端响应于目标对象的选择操作，向服务器发送视频播放请求，服务器通过提取视频播放请求中包含的例如视频名称等视频信息，在数据库中找到与之对应的原始视频。同时，服务器通过提取视频播放请求中携带的对象标识，根据对象标识转化得到的标识符序列，对原始视频中的字幕进行偏移处理，得到标记视频。服务器将标记视频返回至终端，并由终端向对象播放标记视频。其中，视频可以是预先存储的完整视频，例如娱乐视频、教学视频、电视剧、以及短视频等不作限定。但需说明的是，视频的长度最短应满足至少可以嵌入单个标识符序列的字幕。

基于同样的发明构思，本申请实施例还提供了一种视频标记的检测方法。在一些实施例中，如图4所示，提供了一种视频标记的检测方法，以该方法应用于计算机设备为例进行说明，该计算机设备具体可以是图1中的终端或服务器，该视频标记的检测方法包括以下步骤：

步骤S402，获取待检测视频，确定待检测视频中各个视频帧对应的字幕偏移类型。

具体地，计算机设备可以通过在互联网中搜索等方式，获取待检测视频。计算机设备对该待检测视频的每一个视频帧中的字幕进行检测，从而确定各个视频帧具体对应的字幕偏移类型。示例性地，计算机设备可以通过使用FFMPEG等工具对待检测视频进行解码，得到该待检测视频的全部视频帧，再逐帧确定视频帧对应的字幕偏移类型。

步骤S404，根据预设的分片信息，确定待检测视频中与各分片信息分别对应的视频片段。

具体地，计算机设备存储有预先设置的分片信息，根据每个分片信息所指示的时间段，计算机设备确定待检测视频中与各分片信息分别对应的视频片段。示例性地，计算机设备可以根据分片信息对待检测视频进行分片处理，从而得到与各分片信息分别对应的视频片段。例如，提取第1秒～10秒的待检测视频的视频片段，从而作为相应分片信息的视频片段。

步骤S406，对于每个视频片段，基于视频片段中包括的多个视频帧分别所属的字幕偏移类型，确定与视频片段对应的标识符。

每个划分得到的视频片段包括有多个视频帧。具体地，对于一个视频片段，计算机设备确定该视频片段中包含的全部视频帧，并确定各个视频帧对应的字幕偏移类型。计算机设备通过对各个视频帧对应的字幕偏移类型进行统计，根据统计结果确定与该视频片段对应的标识符。

在一些实施例中，对于每个视频片段，基于视频片段中包括的多个视频帧分别所属的字幕偏移类型，确定与视频片段对应的标识符，包括：对于每个视频片段，确定视频片段中与各个字幕偏移类型分别对应的视频帧的帧数量，并将对应有最多帧数量的字幕偏移类型对应的标识符，作为与视频片段对应的标识符。

具体地，对于一个视频片段，计算机设备确定其包含的全部视频帧分别对应的字幕偏移类型，并统计各个字幕偏移类型下视频帧的帧数量。计算机设备从中确定对应有最多帧数量的字幕偏移类型，并将该字幕偏移类型对应的标识符作为与该视频片段对应的标识符。

举例而言，一个第1秒～10秒的视频片段中包括20个视频帧，每个视频帧分别对应于A类型的字幕偏移类型和B类型的字幕偏移类型中的一种。经统计，服务器确定对应于A类型的视频帧有16个，B类型的视频帧有4个，则服务器确定最多帧数量的字幕偏移类型为A类型，而A类型对应于标识符“1”，则服务器将标识符“1”确定为该第1秒～10秒的视频片段对应的标识符。

上述实施例中，通过对不同字幕偏移类型的帧数量进行统计以确定与视频片段对应的标识符，对于视频帧的位置检测具有一定的容错率，提高了视频标记的准确性。

步骤S408，基于待检测视频中各视频片段分别对应的标识符，确定标识符序列，并基于标识符序列确定待检测视频中标记的对象标识。

具体地，对于待检测视频的每个视频片段，计算机设备均作如上处理，得到各个视频片段分别对应的标识符。根据全部视频片段对应的多个标识符，计算机设备从多个标识符中提取标识符序列，并通过对该标识符序列进行逆映射，从而得到待检测视频中通过字幕偏移的形式标记的对象标识。

举例而言，按照时间顺序，计算机设备确定待检测视频的全部视频片段分别对应的多个标识符为“100101010010101001010……”。由于标识符序列具有预设长度，且其中的标识符为预设数量，计算机设备从中提取固定长度且重复循环的标识符“1001010”并确定为标识符序列，并通过预设的映射规则进行逆映射，从而获取标识符序列对应的对象标识。

承前所述，标识符序列中还可以设置有起止标识符。由此，计算机设备在提取标识符序列时，即可根据起止标识符进行判断。例如，计算机设备确定待检测视频的全部视频片段分别对应的多个标识符为“@ABAA@ABAA@ABAA……”，则计算机设备可以从中提取标识符“@ABAA”并确定为标识符序列，再根据预设的映射规则得到对象标识。

由此，由于所生成的标记视频中以字幕偏移的形式间接地嵌入了对象标识，在对视频进行检测时，即可通过检测字幕的偏移来提取嵌入的对象标识，从而确定视频的泄露方(或请求播放方)，实现了对视频标记的溯源。

上述视频标记的检测方法中，通过确定待检测视频中各个视频帧对应的字幕偏移类型，并根据预设的分片信息确定所述待检测视频中与各分片信息分别对应的视频片段，针对每个视频片段，基于所述视频片段中包括的多个视频帧分别所属的字幕偏移类型，确定与所述视频片段对应的标识符，再基于所述待检测视频中各视频片段分别对应的标识符，确定标识符序列，从而基于所述标识符序列逆映射得到所述待检测视频中标记的对象标识，由此实现了对标记视频中通过字幕偏移的方式间接嵌入的水印信息，并能够根据所标记的对象标识确定视频的播放方或泄露源，保证了溯源时的检出率和准确性。

在一些实施例中，确定待检测视频中各个视频帧对应的字幕偏移类型，包括：获取与待检测视频对应的原始视频；在相同的视频帧维度下，基于待检测视频中每个视频帧中的待检字幕与原始视频中相应视频帧中的原始字幕之间的位置关系，确定待检测视频中各个视频帧对应的字幕偏移类型。

具体地，计算机设备可以从版权库中，获取与待检测视频对应的原始视频。示例性地，计算机设备可以通过视频指纹技术在版权视频库内进行搜索，从而找到与之对应的版权视频原片，即原始视频。其中，视频指纹技术是一种通过计算机视觉、音频处理等技术将视频内容降维成向量的技术，可以用于视频检索、视频排重、视频推荐等场景。

由于传播的待检测视频可能经过剪辑、缩放、拉伸视频画面等处理，为了保障检测的准确性，计算机设备在相同的视频帧维度下，检测待检测视频中每个视频帧中的待检字幕的位置，和原始视频中相应视频帧中的原始字幕的位置，并根据待检字幕与原始字幕之间的位置关系，确定待检测视频中各个视频帧对应的字幕偏移类型。

示例性地，计算机设备通过OCR技术对视频帧中的字幕进行检测，并判断待检测视频中的待检字幕相对于原始字幕而言的具体偏移情况。例如，计算机设备检测得到待检字幕相较于原始字幕向上移动了1个像素，则计算机设备确定该视频帧对应的字幕偏移类型为A类型；又如，计算机设备检测得到待检字幕相较于原始字幕向下移动了1个像素，则计算机设备确定该视频帧对应的字幕偏移类型为B类型。其中，OCR(Optical CharacterRecognition，光学字符识别)是指对文本资料的图像文件进行分析识别处理、获取文字及版面信息的过程。由此，通过对每个视频帧均进行字幕位置的检测，即可得到各个视频帧分别对应的字幕偏移类型。

其中，视频帧维度包括时间维度和空间维度。相应地，获取与待检测视频对应的原始视频之后，方法还包括：分别在时间维度上和空间维度上将待检测视频与原始视频进行对齐处理。具体地，计算机设备按照同一个时间轴，确定对应于同一时间的待检测视频的视频帧和原始视频的视频帧，以进行时间维度上的对齐处理。此外，计算机设备还按照同一个像素坐标系，例如以左上角为原点，将待检测视频和原始视频的视频帧的视频画面在空间维度进行对齐。

上述实施例中，通过对待检测视频和原始视频进行对齐处理，保证待检测视频和原始视频处于相同的视频帧维度，避免检测得到的字幕的位置具有误差。

承前所述，标识符序列中还可以设置有起止标识符。相应地，在一些实施例中，基于待检测视频中各视频片段分别对应的标识符，确定标识符序列，包括：从待检测视频中各视频片段分别对应的标识符中确定起止标识符，并将相邻的两个起止标识符之间的多个标识符提取为标识符序列。

具体地，计算机设备根据待检测视频的全部视频片段分别对应的多个标识符，将相邻的两个起止标识符之间的多个标识符提取为标识符序列。举例而言，计算机设备确定待检测视频的全部视频片段分别对应的多个标识符为“@AB@@AB……”，则计算机设备可以从中提取标识符“AB”并确定为标识符序列。

上述实施例中，通过设置起止标识符并将单个标识符序列对应的多个字幕偏移片段归为一个标记单元，使得服务器在对视频进行检测时，能够基于起止标识符快速提取标识符序列，从而快速得到对象标识。

在一个具体的示例中，本申请提供的视频标记的检测方法的具体流程包括：服务器可以获取由终端上报的，或者是其他途径得到的待检测视频，并在视频版权库中查找与待检测视频对应的原始视频。计算机设备通过解码器将待检测视频和原始视频均拆分成多个视频帧，并对比待检测视频的每一个视频帧中的字幕位置，和原始视频中每一个相应的视频帧的字幕位置，根据二者之间的位置关系，从而确定各个视频帧具体对应的字幕偏移类型。然后，对于每一个视频片段，计算机设备统计该视频片段下各个视频帧分别对应的字幕偏移类型，例如A类型最多，则确定该视频片段对应的字幕偏移类型为A类型，进而确定该视频片段对应的标识符为A或与A对应的标识符。计算机设备根据待检测视频的全部视频片段分别对应的多个标识符，从中提取标识符序列，并将标识符序列转化为对象标识，从而确定视频的泄露源。

本申请还提供一种应用场景，该应用场景应用上述的视频标记的检测方法。具体地，该视频标记的检测方法在该应用场景的应用如下：终端在播放标记视频时，目标对象可能会通过终端进行视频录制、缓存视频、下载视频、以及转发视频等操作。由于标记视频中通过字幕偏移的方式间接嵌入了对象标识，对象录制、缓存、下载、以及转发的视频中也包含了对象标识。

由此，当计算机设备获取到泄露的视频时，比如在网络上搜索到版权库内已有的视频时，计算机设备对搜索到的视频进行检测，根据其中字幕与版权库中原片字幕的位置关系，提取标识符序列并转化为对象标识，由此即可获知网络上泄露的视频的泄露源。

为了便于更好地理解本申请，下面以一个具体地产品示例进行举例说明。如图5A和图5B所示，在一个具体的示例中，本申请实施例中的视频标记的生成方法可以由字幕水印嵌入系统执行并实现，标记视频的检测方法由字幕水印检测系统执行并实现。其中，字幕水印嵌入系统和字幕水印检测系统可以集成在一个服务器上，也可以分别单独设置在不同的服务器上。

为了简化说明，以设置A和B两种类型的字幕偏移类型进行举例。其中，将对应于A类型的视频(或视频片段)称为A面视频(或视频片段)。同理，将对应于B类型的视频(或视频片段)称为B面视频(或视频片段)。

对于字幕水印嵌入系统，其主要包括视频A/B面水印嵌入、A/B面水印视频分发两个功能/模块。字幕水印的嵌入深层次融合进视频生产的过程(视频制作、编解码、字幕压制、视频分发等)。字幕水印嵌入系统的核心逻辑为：通过对字幕的修改，实现对输入视频(也就是前述实施例提及的原始视频)的A/B类型的字幕水印的嵌入；再通过视频分发，从A/B面视频各选取若干分片进行组合，由此实现将不同的水印视频(也就是前述实施例提及的标记视频)发送给不同的对象。例如：对于对象1分发AAAABBBB(每一个字符A或B表示一个字幕偏移片段)组合的标记视频，对于对象2分发BBBBAAAA组合的标记视频。

举例而言，视频A/B面水印嵌入的流程可以如图6所示。服务器通过获取字幕文件(例如SRT格式的软字幕等)，并在字幕压制的过程中轻微修改字幕的位置，实现对A/B两面水印的嵌入。例如：A面视频为全部字幕统一向上平移N个像素点，B面视频为全部字幕统一向下平移N个像素点。具体而言，服务器将获取的字幕文件进行字幕偏移，得到A类型字幕和B类型字幕。同时，服务器通过解码器对输入视频进行解码得到视频帧，再添加字幕，即将A类型字幕和B类型字幕分别添加到视频帧中，并通过编码器重新编码，生成A面水印视频和B面水印视频。偏移后字幕即为视频的水印。其中，字幕压制可以通过使用FFMPEG工具中的解码器和编码器实现，字幕位置调整通过修改字幕源文件实现。

举例而言，A/B面水印视频分发的流程可以如图7所示。当对象在终端(或终端安装的用于视频播放的客户端)请求播放视频之后，服务器接收终端发送的视频播放请求，并获取其中包含的对象标识，将对象标识通过预设的映射规则映射成与字幕偏移类型(A/B)对应的标识符序列。例如：将用户ID“abc”映射成AAAA AAABAABA或者000000010010，其中AAAA(或0000)代表“a”、AAAB(或者0001)代表“b”、AABA(或者0010)代表“c”。对于生成的A面水印视频和B面水印视频，服务器根据预先设置的分片规则进行分片，得到A类型的字幕偏移片段和B类型的字幕偏移片段。结合标识符序列以及预先生成的A/B类型的字幕偏移片段，服务器可以生成完整的标记视频以供服务器将播放视频下发至终端，并由终端进行播放。例如，服务器生成指定的M3U8文件，供终端利用相应的工具进行播放。其中，M3U8文件实质是一个播放列表/序列，其可能是一个媒体播放列表(Media Playlist)，或者是一个主列表(Master Playlist)。但无论是哪种播放列表，其内部文字使用的都是utf-8编码。当M3U8文件作为媒体播放列表时，其内部信息记录的是一系列媒体片段资源，顺序播放该片段资源，即可完整展示多媒体资源。

由此，服务器完成对原始视频的字幕水印嵌入，并通过对字幕进行轻微修改的方式，将对象标识嵌入在视频中，便于后续进行溯源。

对于字幕水印检出系统，其主要包括视频对齐模块、字幕位置检测模块、A/B序列映射模块。字幕水印检出系统的核心逻辑为：将待检测视频通过视频指纹技术在版权库内进行检索，找到与之对应的版权视频原片，即未添加字幕水印、正常压制字幕的原始视频。之后将待检测视频与原始视频进行时间维度、空间维度的对齐。时间维度上的对齐即指在时间轴上对齐。举例而言，视频对齐的流程可以如图8所示，服务器首先将待检视频通过视频指纹技术在视频版权库中检索与之对应的原始视频，并将原始视频在时间维度上(即在时间轴上)进行对齐。在待检测视频与原始视频处于相同的时间维度下，服务器将二者在空间维度进行对齐，从而得到对齐结果。

对齐完成后，服务器将待检测视频与原始视频的同一帧送入OCR模块进行字幕检测，随后对比两者检测框的位置关系(上/下/不变)，从而确定偏移字幕与原始字幕之间的位置关系。服务器根据位置关系即可判断该帧是否嵌入字幕水印以及相应的字幕偏移类型。举例而言，字幕位置检出的流程可以如图9所示，结合上一步得到的对齐结果，服务器将对齐后的待检测视频与原始视频的同一个时间的视频帧(即待检视频帧和原始视频帧)输入至字幕位置检测模块(即图中的OCR模块)进行字幕位置检测，将检测到的字幕位置信息(即待检帧字幕位置和原始帧字幕位置)进行对比，即可判断该视频帧的字幕偏移类型为A类型还是B类型。最终字幕位置检测输出的检出结果，即为待检测视频每个视频帧的检测结果。例如待检测视频有1000帧，则服务器输出1000位的检出帧序列ABAAA……。

举例而言，A/B序列映射的流程可以如图10所示，A/B序列映射模块将检测结果映射成最终的检测结果(即对象ID)。具体而言，服务器将上一步获得的检出帧序列ABAAA……，以与原始视频相同的分片单位时间进行分段，并进行分段投票，从而得到由字符A和字符B构成的A/B序列，再将A/B进行逆映射，即可得到对象标识。例如：某视频在分发时，具体的分片单位时间为10秒一片，由此服务器将检测结果以10秒为单位进行划分，每一段进行投票(A帧多则该段检测结果为A，反之为B)，由此得到由A/B构成的序列，最终经过预设的映射规则进行逆映射，从而得到A/B序列映射模块的检测结果，即对象标识。

由此，通过检测字幕位置并提取标记视频中的对象标识，实现了对标记视频的播放、传播、泄露等过程的溯源，有利于视频的版权保护。

应该理解的是，虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的标记视频的生成方法的标记视频的生成装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个标记视频的生成装置实施例中的具体限定可以参见上文中对于标记视频的生成方法的限定，在此不再赘述。

在一些实施例中，如图11所示，提供了一种标记视频的生成装置，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：获取模块1101、确定模块1102、偏移模块1103和生成模块1104，其中：

获取模块1101，用于获取对象标识，并将对象标识映射为标识符序列。

确定模块1102，用于确定标识符序列中的各标识符分别对应的字幕偏移类型，并确定与各标识符分别对应的分片信息。

偏移模块1103，用于对于每个标识符，获取标识符所对应的分片信息指向的、且属于相应标识符对应的字幕偏移类型的字幕偏移片段；分片信息指向的字幕偏移片段，通过对原始视频中具有相同分片信息的原始视频片段进行字幕偏移得到。

生成模块1104，用于基于字幕偏移片段，生成与原始视频对应、且与对象标识对应的标记视频。

在一些实施例中，对象标识由多个字符构成，获取模块还用于从多个字符中的首位开始，按顺序确定每个字符对应的标识符；将每个字符对应的标识符按照预设格式进行排列，得到预设长度的标识符序列。

在一些实施例中，获取模块还用于将每个字符对应的标识符按照预设格式进行排列，若对象标识中全部字符对应的标识符的数量小于预设数量，则在排列的尾端通过预先设置的补齐标识符进行补齐，以得到预设长度的标识符序列。

在一些实施例中，偏移模块还用于获取原始视频，并对原始视频进行分片处理得到多个原始视频片段；确定标识符序列中每个标识符分别对应的分片信息所指向的原始视频片段；对各标识符分别对应的原始视频片段，按照相应标识符对应的字幕偏移类型进行字幕偏移，得到与相应标识符对应的字幕偏移片段。

在一些实施例中，偏移模块还用于获取预先处理得到的与各字幕偏移类型分别对应的字幕偏移视频，其中，字幕偏移视频通过对原始视频进行相应的字幕偏移处理得到；对于标识符序列中的每个标识符，按照相应标识符对应的分片信息，从属于相应标识符所对应的字幕偏移类型的字幕偏移视频中，提取具有相同分片信息的字幕偏移片段。

在一些实施例中，偏移模块还用于将原始视频进行解码，得到多个视频帧，并分别逐帧添加属于同一字幕偏移类型的偏移字幕，得到相应字幕偏移类型的多个视频帧；将添加有相应字幕偏移类型的偏移字幕的多个视频帧进行编码，得到对应于字幕偏移类型的字幕偏移视频。

在一些实施例中，生成模块还用于按照分片信息各自对应的时间顺序，将各个分片信息对应的字幕偏移片段进行拼接，生成与原始视频对应、且与对象标识对应的标记视频。

在一些实施例中，标记视频中包括有多个标记单元，每个标记单元包括与单个标识符序列对应的多个字幕偏移片段，且多个标记单元之间通过标识符序列中的起止标识符所对应的视频片段进行区分，起止标识符设置在标识符序列的首端和尾端中的至少一个位置处。

关于标记视频的生成装置的具体限定可以参见上文中对于标记视频的生成方法的限定，在此不再赘述。上述标记视频的生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的视频标记的检测方法的视频标记的检测装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个视频标记的检测装置实施例中的具体限定可以参见上文中对于视频标记的检测方法的限定，在此不再赘述。

在一些实施例中，如图12所示，提供了一种视频标记的检测装置，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：获取模块1201和确定模块1202，其中：

获取模块1201，用于获取待检测视频，确定待检测视频中各个视频帧对应的字幕偏移类型。

确定模块1202，用于根据预设的分片信息，确定待检测视频中与各分片信息分别对应的视频片段。

确定模块1202，还用于对于每个视频片段，基于视频片段中包括的多个视频帧分别所属的字幕偏移类型，确定与视频片段对应的标识符。

确定模块1202，还用于基于待检测视频中各视频片段分别对应的标识符，确定标识符序列，并基于标识符序列确定待检测视频中标记的对象标识。

在一些实施例中，获取模块还用于获取与待检测视频对应的原始视频；在相同的视频帧维度下，基于待检测视频中每个视频帧中的待检字幕与原始视频中相应视频帧中的原始字幕之间的位置关系，确定待检测视频中各个视频帧对应的字幕偏移类型。

在一些实施例中，视频帧维度包括时间维度和空间维度，上述装置还包括对齐模块，用于分别在时间维度上和空间维度上将待检测视频与原始视频进行对齐处理。

在一些实施例中，确定模块还用于对于每个视频片段，确定视频片段中与各个字幕偏移类型分别对应的视频帧的帧数量，并将对应有最多帧数量的字幕偏移类型对应的标识符，作为与视频片段对应的标识符。

在一些实施例中，确定模块还用于从待检测视频中各视频片段分别对应的标识符中确定起止标识符，并将相邻的两个起止标识符之间的多个标识符提取为标识符序列。

关于视频标记的检测装置的具体限定可以参见上文中对于视频标记的检测方法的限定，在此不再赘述。上述视频标记的检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一些实施例中，提供了一种计算机设备，该计算机设备可以是终端或服务器，其内部结构图可以如图13所示。该计算机设备包括通过系统总线连接的处理器、存储器、输入/输出接口(Input/Output，简称I/O)和通信接口。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储视频数据和/或字幕数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种视频标记的检测方法。

本领域技术人员可以理解，图13中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一些实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述标记视频的生成方法对应的各实施例中的步骤，或实现上述视频标记的检测方法对应的各实施例中的步骤。

在一些实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述标记视频的生成方法对应的各实施例中的步骤，或实现上述视频标记的检测方法对应的各实施例中的步骤。

在一些实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述标记视频的生成方法对应的各实施例中的步骤，或实现上述视频标记的检测方法对应的各实施例中的步骤。

需要说明的是，本申请所涉及的对象信息(包括但不限于账户信息、ID、编码信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经对象授权或者经过各方充分授权的信息和数据。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种标记视频的生成方法，其特征在于，所述方法包括：

获取对象标识，并将所述对象标识映射为标识符序列；

2.根据权利要求1所述的方法，其特征在于，所述对象标识由多个字符构成，所述将所述对象标识映射为标识符序列，包括：

从所述多个字符中的首位开始，按顺序确定每个字符对应的标识符；

将所述每个字符对应的标识符按照预设格式进行排列，得到预设长度的标识符序列。

3.根据权利要求2所述的方法，其特征在于，所述将所述每个字符对应的标识符按照预设格式进行排列，得到预设长度的标识符序列，包括：

将所述每个字符对应的标识符按照预设格式进行排列，若所述对象标识中全部字符对应的标识符的数量小于预设数量，则在排列的尾端通过预先设置的补齐标识符进行补齐，以得到预设长度的标识符序列。

4.根据权利要求1所述的方法，其特征在于，所述对于每个标识符，获取所述标识符所对应的分片信息指向的、且属于相应标识符对应的字幕偏移类型的字幕偏移片段，包括：

获取原始视频，并对所述原始视频进行分片处理得到多个原始视频片段；

确定所述标识符序列中每个标识符分别对应的分片信息所指向的原始视频片段；

对各标识符分别对应的原始视频片段，按照相应标识符对应的字幕偏移类型进行字幕偏移，得到与相应标识符对应的字幕偏移片段。

5.根据权利要求1所述的方法，其特征在于，所述对于每个标识符，获取所述标识符所对应的分片信息指向的、且属于相应标识符对应的字幕偏移类型的字幕偏移片段，包括：

获取预先处理得到的与各字幕偏移类型分别对应的字幕偏移视频，其中，所述字幕偏移视频通过对原始视频进行相应的字幕偏移处理得到；

对于所述标识符序列中的每个标识符，按照相应标识符对应的分片信息，从属于相应标识符所对应的字幕偏移类型的字幕偏移视频中，提取具有相同分片信息的字幕偏移片段。

6.根据权利要求5所述的方法，其特征在于，与多种字幕偏移类型中的各字幕偏移类型对应的字幕偏移视频通过以下步骤生成：

将所述原始视频进行解码，得到多个视频帧，并分别逐帧添加属于同一字幕偏移类型的偏移字幕，得到相应字幕偏移类型的多个视频帧；

将添加有相应字幕偏移类型的偏移字幕的多个视频帧进行编码，得到对应于所述字幕偏移类型的字幕偏移视频。

7.根据权利要求1所述的方法，其特征在于，所述基于所述字幕偏移片段，生成与所述原始视频对应、且与所述对象标识对应的标记视频，包括：

按照分片信息各自对应的时间顺序，将各个分片信息对应的字幕偏移片段进行拼接，生成与所述原始视频对应、且与所述对象标识对应的标记视频。

8.根据权利要求1至7中任一项所述的方法，其特征在于，所述标记视频中包括有多个标记单元，每个标记单元包括与单个标识符序列对应的多个字幕偏移片段，且多个标记单元之间通过标识符序列中的起止标识符所对应的视频片段进行区分，所述起止标识符设置在标识符序列的首端和尾端中的至少一个位置处。

9.一种视频标记的检测方法，其特征在于，所述方法包括：

10.根据权利要求9所述的方法，其特征在于，所述确定所述待检测视频中各个视频帧对应的字幕偏移类型，包括：

获取与所述待检测视频对应的原始视频；

在相同的视频帧维度下，基于所述待检测视频中每个视频帧中的待检字幕与所述原始视频中相应视频帧中的原始字幕之间的位置关系，确定所述待检测视频中各个视频帧对应的字幕偏移类型。

11.根据权利要求10所述的方法，其特征在于，所述视频帧维度包括时间维度和空间维度，所述获取与所述待检测视频对应的原始视频之后，所述方法还包括：分别在时间维度上和空间维度上将所述待检测视频与所述原始视频进行对齐处理。

12.根据权利要求9所述的方法，其特征在于，所述对于每个视频片段，基于所述视频片段中包括的多个视频帧分别所属的字幕偏移类型，确定与所述视频片段对应的标识符，包括：

对于每个视频片段，确定所述视频片段中与各个字幕偏移类型分别对应的视频帧的帧数量，并将对应有最多帧数量的字幕偏移类型对应的标识符，作为与所述视频片段对应的标识符。

13.根据权利要求9至12中任一项所述的方法，其特征在于，所述基于所述待检测视频中各视频片段分别对应的标识符，确定标识符序列，包括：

从所述待检测视频中各视频片段分别对应的标识符中确定起止标识符，并将相邻的两个起止标识符之间的多个标识符提取为标识符序列。

14.一种标记视频的生成装置，其特征在于，所述装置包括：

15.一种视频标记的检测装置，其特征在于，所述装置包括：

16.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤，或实现权利要求9至13中任一项所述的方法的步骤。

17.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤，或实现权利要求9至13中任一项所述的方法的步骤。

18.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤，或实现权利要求9至13中任一项所述的方法的步骤。