CN106911941B

CN106911941B - 一种自适应视频切片方法

Info

Publication number: CN106911941B
Application number: CN201710121103.7A
Authority: CN
Inventors: 王一; 何钧
Original assignee: Shanghai Huandian Information Technology Co Ltd
Current assignee: Shanghai Huandian Information Technology Co Ltd
Priority date: 2017-03-02
Filing date: 2017-03-02
Publication date: 2019-08-16
Anticipated expiration: 2037-03-02
Also published as: CN106911941A

Abstract

一种自适应视频切片方法，确定视频切片点的切片时间范围，从视频关键帧列表中获取在该切片时间范围内的所有视频关键帧，形成切片点候选列表，对切片点候选列表中的视频关键帧进行排序，选择与音频帧时间戳最为匹配的视频关键帧作为切片点。本发明不需要播放器专门适配，能避免播放视频切片交界处的声音毛刺，获得更佳的播放试听体验。

Description

一种自适应视频切片方法

技术领域

本发明涉及一种自适应视频切片方法。

背景技术

目前为了提高服务能力和分发能力，并节约带宽成本，视频网站都会对一部分较长的视频内容做切片处理后输出，即根据视频的封装格式，将一个大的、长的视频文件切成若干个视频分段进行分发和服务。

如图1所示，视频中的声音和图像都是压缩后，盖上时间戳，打包成帧后装在文件中，图像和声音有各自的压缩算法和格式，声音帧和图像帧的时间关系往往是不匹配的。由于声音和图像在播放过程中按照自己的速度前进，故而正常的播放并不会有问题。而播放结束时，这种不匹配就会产生影响。

当视频内容被当成一整个视频被播放时，播放结束时，由于内容结束，并没有后续的播放，故而这种不匹配不会产生任何影响。

传统的基于关键帧图像的切片方法，由于仅仅考虑图像数据的正确性和连续性，完全不考虑声音，在切片的位置，声音和图像的时间戳往往是不匹配的。当视频被切开以后，如图2所示，在切片的交界处，需要停止播放前一个切片，再重新开始播放新切片，而播放新切片时，图像和声音会一同开始，而声音往往应该早于或者晚于图像帧出现，与正确的时间有所差异。这种差异，在观感上即表现为声音的毛刺，对于这类切片，需要播放器对这种时间线的错位进行修正，否则声音的毛刺无法消除。

目前常用的切片方法，根据切片的要求，从整个视频中寻找若干关键帧图像，作为切片点，将视频内容分割开，重新组装成小的视频分段。这种切片方法的实现最为简单，然而，这种切片方法需要专门的播放器适配，使用普通的视频播放器，播放这些切片时，在播放到切片交界处时会出现短暂的声音毛刺，造成视听体验的下降。

发明内容

本发明提供一种自适应视频切片方法，不需要播放器专门适配，能避免播放视频切片交界处的声音毛刺，获得更佳的播放试听体验。

为了达到上述目的，本发明提供一种自适应视频切片方法，选择视频关键帧作为切片点，使切片点的视频帧时间戳无限接近音频帧时间戳。

该方法具体包含以下步骤：

步骤S1、确定视频切片点的切片时间范围；

步骤S2、从视频关键帧列表中获取在该切片时间范围内的所有视频关键帧，形成切片点候选列表；

步骤S3、对切片点候选列表中的视频关键帧进行排序，选择与音频帧时间戳最为匹配的视频关键帧作为切片点。

所述的步骤S1中，确定视频切片点的切片时间范围的方法包含以下步骤：

步骤S1.1、根据业务需求，确定最佳切片点时间戳T；

步骤S1.2、确定实际切片点和最佳切片点的最大误差的容忍范围t；

步骤S1.3、根据最佳切片点时间戳和最大误差容忍范围确定视频切片点的切片时间范围[T-t，T+t]。

所述的步骤S1.1中，所述的最佳切片点时间戳T的选择需要满足条件：分段数目合理、分段后文件大小利于存储和分发调度。

所述的步骤S1.2中，所述的最大误差的容忍范围t根据采用的音频和视频的格式确定，该最大误差的容忍范围t需满足基本条件：在该最大误差的容忍范围t内能找到音频时间戳和视频时间戳完全相同的点。

所述的步骤S1中，所述的步骤S3中，对切片点候选列表中的视频关键帧进行排序选择的方法包含以下步骤：

步骤S3.1、计算切片点候选列表中每一个视频关键帧的时间戳和下一个音频帧的时间戳之间的绝对差值，作为该视频关键帧的得分；

步骤S3.2、按照得分大小对视频关键帧进行排序，选择得分最小的视频关键帧作为切片点，如果得分最小的视频关键帧有多个，则进行步骤S3.3；

步骤S3.3、计算得分相同的视频关键帧的时间戳和最佳切片点时间戳的绝对差值，按照绝对差值的大小对视频关键帧进行排序，选择绝对差值最小的视频关键帧作为切片点。

本发明不需要播放器专门适配，能避免播放视频切片交界处的声音毛刺，获得更佳的播放试听体验。

附图说明

图1是背景技术中视频中声音和图像的时间关系。

图2是背景技术中传统视频切片方法产生声音毛刺的示意图。

图3是本发明提供的一种自适应视频切片方法的流程图。

具体实施方式

以下根据图3具体说明本发明的较佳实施例。

如图3所示，本发明提供一种自适应视频切片方法，保证切片点的视频帧时间戳和音频帧时间戳相等，该方法具体包含以下步骤：

步骤S1、确定视频切片点的切片时间范围；

所述的视频关键帧所在的数据包具有专门的标志标识，用于标识视频关键帧；

步骤S1.1、根据业务需求，确定最佳切片点时间戳T；

所述的最佳切片点时间戳T的选择需要满足条件：分段数目合理、分段后文件大小利于存储和分发调度；

如果分段数目较少，则单个分段文件会较大，这样对存储较为友好，但是不利于分发和服务调度，反之，如果分段数目较大，则单个分段文件会较小，利用分发和服务调度，但不便于存储；

所述的最大误差的容忍范围t根据采用的音频和视频的格式确定，该最大误差的容忍范围t需满足基本条件：在该最大误差的容忍范围t内能找到音频时间戳和视频时间戳完全相同的点，所述的最大误差的容忍范围t在满足基本条件的基础上，越小越好；

所述的步骤S3中，对切片点候选列表中的视频关键帧进行排序选择的方法包含以下步骤：

针对声音毛刺产生的原因，本发明在切片视频的时候，尽量保证切片点的视频帧时间戳和音频帧时间戳相等，在播放后一个切片时，声音就不会与正确的时间线产生错位，也不需要播放器做专门的适配。

相比于传统的基于关键帧图像的视频切片方法，本发明提出的方法可以无需任何客户端的适配而消除播放切片的声音毛刺，带来更好的视听体验。在实际的使用中，升级客户端意味着大规模升级客户端，非常的繁琐，且不可控制。此外很多常用的播放器，必入页面播放视频所使用Flash和HTML5播放器都无法随意按需修改。本发明所提出的方法，在消除毛刺的同时，让使用者可以完全不受这些问题所困扰。

在则，本发明所提出的方法，拥有更强的适应性。如果业务需求对切片点的选择范围限制很大，本发明即使找不到时间戳完全匹配的切片点，也能找到匹配度最高的切片点（即，切片点的视频帧时间戳无限接近音频帧时间戳），尽可能减少毛刺的时长，优化体验。

本发明的方法相比于传统方法，在算法上和实现成本上增加并不多，而且由于现代处理器对向量计算的优化，性能上的损失也非常小，相比于上述的益处，这些弊端可谓微乎其微。

本发明提供的切片方法已经在www.bilibili.com线上使用，超过半年，根据实测，确定了最长10秒的关键帧距离，最佳切片点时间戳位置为6分钟的整数倍，容忍的误差范围在半分钟内，可以保证每一个切片都发生在匹配位置。产生的视频切片供该网站页面上使用的Flash播放器（无法修改播放内核）播放，上线以来从未发现声音的毛刺或接到类似的反馈。

尽管本发明的内容已经通过上述优选实施例作了详细介绍，但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后，对于本发明的多种修改和替代都将是显而易见的。因此，本发明的保护范围应由所附的权利要求来限定。

Claims

1.一种自适应视频切片方法，其特征在于，选择视频关键帧作为切片点，使切片点的视频帧时间戳无限接近音频帧时间戳；

所述的自适应视频切片方法包含以下步骤：

步骤S1、确定视频切片点的切片时间范围；

2.如权利要求1所述的自适应视频切片方法，其特征在于，所述的步骤S1中，确定视频切片点的切片时间范围的方法包含以下步骤：

步骤S1.1、根据业务需求，确定最佳切片点时间戳T；

3.如权利要求2所述的自适应视频切片方法，其特征在于，所述的步骤S1.1中，所述的最佳切片点时间戳T的选择需要满足条件：分段数目合理、分段后文件大小利于存储和分发调度。

4.如权利要求2所述的自适应视频切片方法，其特征在于，所述的步骤S1.2中，所述的最大误差的容忍范围t根据采用的音频和视频的格式确定，该最大误差的容忍范围t需满足基本条件：在该最大误差的容忍范围t内能找到音频时间戳和视频时间戳完全相同的点。

5.如权利要求2所述的自适应视频切片方法，其特征在于，所述的步骤S3中，对切片点候选列表中的视频关键帧进行排序选择的方法包含以下步骤：