CN102932670B

CN102932670B - 一种流媒体切片方法及系统

Info

Publication number: CN102932670B
Application number: CN201210501658.1A
Authority: CN
Inventors: 周少毅; 范钰华; 申青平
Original assignee: Baishitong Network TV Technology Development Co Ltd
Current assignee: Baishitong Network TV Technology Development Co Ltd
Priority date: 2012-11-29
Filing date: 2012-11-29
Publication date: 2015-09-02
Anticipated expiration: 2032-11-29
Also published as: CN102932670A

Abstract

本发明涉及一种流媒体切片方法及系统，包括：解析流媒体ES流；根据所得随机切入点的时间戳序列及给定预期切片时长，通过最小最大数值优化方法，以切片后所得各切片时长与给定预期切片时长的差值序列中的最大值最小为优化目标，计算出流媒体ES流切片时间戳的最佳序列值；并据此进行切片处理。本发明提供的方法及系统，能生成符合HLS协议的切片文件，即能使隶属于同一多媒体流的不同切片时长尽可能地接近，进而降低了对终端播放器的缓冲机制的要求；同时保证了系统运行的稳定性，使切片文件的播放更为流畅，提高用户观看体验的质量。

Description

一种流媒体切片方法及系统

技术领域

本发明涉及流媒体技术领域，更具体地，涉及一种流媒体无转码切片方法及系统。

背景技术

HLS协议(HTTP Live Streaming，HLS)是由Internet工程任务组(InternetEngineering Task Force，IETF)制定的一种基于HTTP的流媒体通信协议(协议详细内容参见http://tools.ietf.org/html/draft-pantos-http-live-streaming-08)。近年来，HLS协议在流媒体领域得到了广泛应用，因为该协议采用了HTTP传输，可以根据网络带宽自适应地调整码率，即允许服务器为同一节目内容存放多个不同码率的多媒体流，终端可根据实际的网络下载速度自适应地调整所要下载的多媒体流的码率，在网络带宽紧张时，终端可通过降低码率实现不间断播放；并且相对于其他流媒体通信协议，HLS协议在服务部署时能够更好地与其他相关技术兼容。

该协议要求服务器为每个节目(比如一部电影)存储一组时长和大小相近的媒体文件，同时为这些媒体文件形成一个m3u8播放列表。在HLS协议中，这些媒体文件被称切片。HLS切片(HLS segments)以文件形式存储于内容分发网络(Content Delivery Network，CDN)的内容服务器上，终端首先下载m3u8播放列表，再根据播放列表以HTTP方式依次下载每个切片进行播放，即终端根据m3u8播放列表，采用HTTP协议从内容服务器依次下载每个切片进行播放。

中央媒资管理系统将流媒体文件通过CDN分发到边缘内容服务器。边缘内容服务器因地制宜地采用通信协议为终端提供流媒体服务，而HLS是边缘内容服务器可采纳的通信协议之一。由于内容服务器通常位于边缘节点，数量多，存储量大，但性能相对较弱。而转码服务的计算量较大，内容服务器不会提供转码服务，因此在内容服务器上部署HLS协议会使用无转码切片来产生HLS播放所需的切片文件。

目前有两种方式可生成符合HLS协议的切片文件：一种是在转码过程中直接生成符合要求的切片，该方式能对切片时长作较高精度的控制，但需要转码器支持切片功能；另一种是对转码后的文件进行切片，该方式将转码和切片分为两个相互独立模块，使用方便。

针对内容服务器不会提供转码服务，中央媒资管理系统采用第二种生成符合HLS协议的切片文件方式，即对转码后的文件进行切片，但该方式对切片精度的控制提出了较高的要求：隶属于同一个多媒体流的不同切片的时长应当尽可能地接近。

现有两种常用无切码切片方法为：第一种方法按时间由小到大依次产生每个切片，每个切片的终点为尚未被切片的ES流中与当前切片起点距离最接近T的随机接入点。第二种方法每个切片(例如第k个)的终点为尚未被切片的ES流中与零点距离最接近kT的随机接入点。T为给定预期切片时长。实践数据表明此两种切片方法生成的切片时长文件大小波动性较大，不符合HLS协议的要求。

一方面，切片文件大小波动较大，使得对不同切片文件进行操作所消耗的时间可能相差较多。例如，在包含内容数字版权加密保护技术(Digital RightManagement，DRM)的HLS系统中，终端需要对每个切片作解密操作，解密时间通常是切片大小的线性函数，如果切片大小参差不齐，则不同切片的解密用时上下浮动，这对播放器的缓冲机制提出了更高的要求。

另一方面，由于每个切片文件的大小可能不相近，则终端在下载切片文件之前无法对切片文件的大小做出较准确的估计，也就是说，终端无法根据某一个切片大小的估计值为所有的切片一次性分配足够大的动态内存空间。如果该已分配的动态内存空间过小，终端需要在动态内存用尽时停止下载，重新开辟新的内存空间，这会对系统运行带来额外的开销。

发明内容

为解决上述现有技术的缺点，本发明的主要目的在于提供一种流媒体切片方法及系统，能够控制所生成的不同切片大小波动幅度至最小，从而使得对不同切片文件进行操作所消耗的时间尽可能相近，进而对终端播放器的缓冲机制的要求降至最低。

本发明的另一目的在于提供一种多媒体切片方法及系统，能够控制所生成的不同切片大小波动幅度至最小，从而能够在下载切片文件之前能对切片文件的大小做出较准确地估计，即终端能够根据生成的最大波动幅度的切片大小，一次性地分配足够大的动态内存空间，避免了在动态内存用尽时停止下载的情形，使得系统运行能够平稳地进行，也就是说，播放能够流畅进行，进而提高了用户观看体验的质量。

为达成上述目的，本发明提供一种多媒体切片方法，包括以下步骤：

a)解析流媒体ES流，取得PTS及DTS信息，进而得到流媒体ES流的随机切入点的时间戳序列；

b)根据所述随机切入点的时间戳序列及给定预期切片时长，以切片后所得各切片时长与给定预期切片时长的差值序列中的最大值最小为优化目标，通过采用最小最大(minimax)数值优化方法的第一切片计算模型，计算得出流媒体ES流的切片时间戳的最佳序列值；以及

c)依据所述计算得出的切片时间戳的最佳序列值，对流媒体ES流进行切片。

上述流媒体切片方法生成的切片符合HLS协议要求。

上述ES流为音频ES流，所述音频ES流的随机切入点为每一音频帧的起始样本。

上述ES流为视频ES流，所述视频ES流的随机切入点为I帧IDR帧。

上述的步骤c)后，还包括以下步骤：

d)解析音频流，取得PTS及DTS信息，进而得到音频流的随机切入点的时间戳序列；

e)根据步骤b)取得的ES流的切片时间戳的最佳序列值及步骤d)取得的音频流的随机切入点的时间戳序列，通过与相应视频ES流切片的最佳切片时间戳的序列值最相近原则的第二切片计算模型，计算得出音频流的切片时间戳的最佳序列值；

f)依据所述计算得出的音频流的切片时间戳的最佳序列值，对音频流进行切片；以及

g)将根据步骤c)取得的视频ES流切片及根据步骤f)取得的音频流切片对应进行音视频封装，生成m3u8流媒体文件。

上述的步骤d)中，音频流的随机切入点为每一音频帧的起始样本。

上述的步骤e)中，所述与相应视频ES流切片的最佳切片时间戳的序列值最相近原则的第二切片计算模型的数学表达式为：

对每个k＝1,2,……,K_j，依次执行

m_{i, j, k} = \underset{m}{\arg \min} | | t_{i, j} (m) - t_{j} (n_{j, k}) | |

s.t m>m_i,j,k-1

根据计算得出的m_i,j,k序列值，得到第i个音频流AS_i的切片时间戳序列值：{t_i,j(m_i,j,0),t_i,j(m_i,j,1),t_i,j(m_i,j,2),……,t_i,j(m_i,j,Kj)}，

其中：

{t_i(0),t_i(1),t_i(2),……,t_i(M_i)}：第i个音频流AS_i的随机切入点的时间戳，t_i(0)＝0,t_i(M_i)＝L，L为音频流的时长

K_j：音频流的切片个数，且等于视频ES流的切片个数

m_i,j,k：音频ES流的切片时间戳的序号，属于集合{0,1,2,……,M_i},对所有k,0≤k≤K_j，m_i,j,0＝0,m_i,j,Kj＝M_i

t_j(n_j,k)：视频流VS_j的切片时间戳

t_i,j(m_i,j,k-1)：第k个切片的起始时间戳

t_i,j(m_i,j,k)：第k个切片的结束时间戳

本发明还提供一种多媒体切片系统，该系统包括以下装置：

第一解析装置，用以解析流媒体ES流，取得PTS及DTS信息，进而得到流媒体ES流的随机切入点的时间戳序列；

第一切片计算装置，连接于所述第一解析装置，用以根据所述随机切入点的时间戳序列及给定预期切片时长，以切片后所得各切片时长与给定预期切片时长的差值序列中的最大值最小为优化目标，通过采用最小最大数值优化方法的第一切片计算模型，计算得出流媒体ES流的切片时间戳的最佳序列值；以及

第一切片装置，连接于所述第一切片计算装置，用以依据所述计算得出的切片时间戳的最佳序列值，对流媒体ES流进行切片。

上述流媒体切片系统生成的切片符合HLS协议要求。

上述ES流为视频ES流，所述视频ES流的随机切入点为I帧或IDR帧。

上述的流媒体切片系统还包括以下装置：

第二解析装置，用以解析音频流，取得PTS及DTS信息，进而得到音频流的随机切入点的时间戳序列；

第二切片计算装置，分别连接于所述第一切片计算装置及第二解析装置，用以根据所述第一切片计算装置得出的ES流的切片时间戳的最佳序列值及第二解析装置取得的音频流的随机切入点的时间戳序列，通过与相应视频ES流切片的最佳切片时间戳的序列值最相近原则的第二切片计算模型，计算得出音频流的切片时间戳的最佳序列值；

第二切片装置，连接于所述第二切片计算装置，用以依据所述计算得出的音频流的切片时间戳的最佳序列值，对音频流进行切片；以及

音视频封装装置，分别连接于所述第一切片装置及第二切片装置，用以将第一切片装置取得的视频ES流切片及第二切片装置取得的音频流切片对应进行音视频封装，生成m3u8流媒体文件。

上述的第二切片计算装置中，音频流的随机切入点为每一音频帧的起始样本。

上述第二切片计算装置中，所述与相应视频ES流切片的最佳切片时间戳的序列值最相近原则的第二切片计算模型的数学表达式为：

对每个k＝1,2,……,K_j，依次执行

m_{i, j, k} = \underset{m}{\arg \min} | | t_{i, j} (m) - t_{j} (n_{j, k}) | |

s.t m>m_i,j,k-1

其中：

K_j：音频流的切片个数，且等于视频ES流的切片个数

t_j(n_j,k)：视频流VS_j的切片时间戳

t_i,j(m_i,j,k-1)：第k个切片的起始时间戳

t_i,j(m_i,j,k)：第k个切片的结束时间戳

本发明针对传统的流媒体切片技术的各种缺陷和缺点，利用流媒体解码所得随机切入点的时间戳序列及给定预期切片时长，通过采用最小最大(minimax)数值优化方法，以切片后所得各切片时长与给定预期切片时长的差值序列中的最大值最小为优化目标，计算得出流媒体ES流的切片时间戳的最佳序列值，并据此进行切片处理，从而能生成符合HLS协议要求的切片文件，即隶属于同一个多媒体流的不同切片的时长尽可能地接近，这使得终端对不同切片文件进行操作所消耗的时间基本相近，降低了播放器的缓冲机制要求；由于不同切片的大小相近，终端在下载切片文件前可对切片文件大小做出较准确的估计，并根据估计值为每个切片一次性分配足够大的动态内存空间，从而保证了系统运行的稳定性，使切片文件的播放变得更为流畅，进而提高用户观看体验的质量。

附图说明

图1为本发明的流媒体切片方法的流程示意图；

图2为本发明的纯音频流切片方法的流程示意图；

图3为本发明的流媒体切片系统的结构框图；

图4为本发明的第一实施例的专利实施后的切片时长控制图；

图5为本发明的第二实施例的专利实施后的切片时长控制图；

图6为本发明的第三实施例的专利实施后的切片时长控制图；

图7为本发明的第四实施例的专利实施后的切片时长控制图；以及

图8为本发明的第五实施例的专利实施后的切片时长控制图。

具体实施方式

下面结合附图和实施例对本发明作进一步详细说明，但本发明的保护范围并不限于此。

图1为本发明的流媒体切片方法的流程示意图，该方法包括以下步骤：

在步骤S1中，解析视频基本码流(Elementary Stream，ES)，接着进行步骤S2。其中，解析视频ES流，取得演示时间戳(Presentation Time-Stamp，PTS)及解码时间戳(Decoding Time-Stamp，DTS)信息，进而得到视频ES流的随机切入点的时间戳序列，该视频ES流的随机切入点为I帧或IDR(InstantaneousDecoding Refresh)帧，例如视频ES流为H.264流，则一个IDR帧对应一个随机切入点。终端可以从任何一个随机切入点截取码流开始播放，而不需要对该切入点之前的数据作解码。

(一)多媒体流及其包含的视频ES流及音频ES流信息的数学描述如下：

记多媒体流为S，S包含J个视频ES流，分别记为VS₁,VS₂,……VS_J，包含I个音频ES流，分别记为AS₁,AS₂,……AS_I。记期望的切片时长为T，记S的持续时间为L，通常S中所有ES流的时长也是L(例如，L可能是一部电影的总时长，而其中的音频流和视频流的持续时间通常也是L)。

(二)随机切入点的数学描述如下：

设一视频基本码流的随机切入点为{t(0),t(1),t(2),……,t(N)}，

其中：

每个t(n)，1≤n≤N：相应的随机切入点(random access point)的时间戳(timestamp)；

t(0)：码流起点；

t(N)：码流终点；

N：随机切入点的个数。

在步骤S2中，采用最小最大(minimax)数值优化方法，计算出视频ES流切片时间戳的最佳序列值，接着进行步骤S3。其中，采用最小最大数值优化方法，是根据随机切入点的时间戳序列及给定预期切片时长，以切片后所得各切片时长与给定预期切片时长的差值序列中的最大值最小为优化目标，通过第一切片计算模型，计算得出视频ES流的切片时间戳的最佳序列值。

上述优化目标及第一切片计算模型的数学描述如下：

(一)最小最大数值优化方法的优化目标数学描述如下：

设视频ES流的切片可用序列为{t(n₀),t(n₁),t(n₂),……,t(n_K)}，采用最小最大数值优化方法的优化目标为：对任何数值T，产生最小最大误差意义下切片时长与T最接近的切片序列，即产生K和{n₀,n₁,n₂,……,n_K}，使得max{‖t(n_k)-t(n_k-1)–T‖:1≤k≤K}最小，

其中：

K：切片个数；

{n₀,n₁,n₂,……,n_K}：切片的序号的集合，它属于随机切入点的序号的集合{0,1,2,……,N}其中n₀＝0，n_K＝N；

n_K：随机切入点的序号；

t(n_k-1)：第k(k≥1)个切片的起始时间戳；

t(n_k)：第k(k≥1)个切片的终止时间戳，同时也是第k+1个切片的起始时间戳，因为本发明切片方法为无转码切片方法，流媒体文件是先由转码器转码，再通过CDN分发到内容服务器，再在内容服务器上采用本发明的切片方法进行切片处理，所以本发明的切片方法不能更改已有的随机切入点，也不能产生新的随机切入点，每个切片必须从某个随机切入点开始。

t(n_k)-t(n_k-1)：第k个切片的时长；

‖·‖：可以是包含绝对值在内的任何一种范数。

(二)通过第一切片计算模型，计算得出视频ES流的切片时间戳的最佳序列值的数学描述如下：

设视频ES流共有J个，第j个视频ES流记为VS_j，1≤j≤J，又记VS_j中的所有随机接入点的时间戳为{t_j(0),t_j(1),t_j(2),……,t_j(N_j)}，其中，t_j(0)为VS_j的起始时刻，t_j(N_j)为VS_j的结束时刻。对VS_j做本发明最优无转码切片的伪代码如下：

令b_j(n)＝0,c_j(n)＝‖t_j(n)-t_j(0)-T‖,k_j(n)＝1,n＝0,1,2,……,N_j。

1)对n＝2,……,N_j,依次执行下列步骤：

1.1)对m＝1,2,……,n-1,依次执行

如果max{‖t_j(n)-t_j(m)-T‖,c_j(m)}<c_j(n),则

c_j(n)＝max{‖t_j(n)-t_j(m)-T‖,c_j(m)}

k_j(n)＝k_j(m)+1

b_j(n)＝m

2)K_j＝k_j(N_j)

3)令n_j,Kj＝N_j,对k＝K_j-1,K_j-2,……,0依次执行

3.1)m＝b_j(n_j,k+1)

3.2)n_j,k＝b_j(m)

4)ES流VS_j的切片起始时间戳为：

{t_j(n_j,0),t_j(n_j,1),t_j(n_j,2),……,t_j(n_j,Kj)}。

上述伪代码求出的切片个数K_j和切片时间戳t_j(n_j,k),0≤k≤K_j,使下式最小

max{‖t_j(n'_j,k)-t_j(n'_j,k-1)-T‖:1≤k≤K'} (1)

相应的约束条件为：

1)n'_j,k：任意一种切片方法的切片序号，它属于随机切入点的集合{0,1,2,……,N_j}；

2)n'_j,0＝0，n'_j,K’＝N_j；

即对于任意满足上述约束的切片个数K'和切片时间戳t_j(n'_j,k),0≤k≤K',下式成立：

max{‖t_j(n_j,k)-t_j(n_j,k-1)-T‖:1≤k≤K_j}

≤max{‖t_j(n'_j,k)-t_j(n'_j,k-1)-T‖:1≤k≤K'}。

上述对VS_j切片的伪代码的运算复杂度为O(N_j ²)。

上述计算过程，求得第j个视频ES流VS_j的切片起始时间戳为：{t_j(n_j,0),t_j(n_j,1),t_j(n_j,2),……,t_j(n_j,Kj)}，实际操作中，是按顺序依次取j为1，2，…J，求出视频ES流VS_j的切片起始时间戳序列。

在步骤S3中，对视频ES流进行切片，接着进行步骤S4。其中，依据所述计算得出的切片时间戳的最佳序列值，对视频ES流进行切片。

由于多媒体流里包含J个视频ES流，分别记为VS1,VS2,……VSJ，对这些视频ES流按j为1，2，…J的顺序，依次为每个视频ES流按步骤S1，S2，S3的顺序做解析ES流VS_j，求出视频ES流VS_j的切片起始时间戳序列，按此切片起始时间戳序列做切片处理。

在步骤S4中，解析音频流，接着进行步骤S5。其中，解析音频流，为取得PTS及DTS信息，进而得到音频流的随机切入点的时间戳序列，而音频ES流的随机切入点为每一音频帧的起始样本。

在步骤S5中，依据与视频ES流切片的最佳切片时间戳的序列值最相近原则，计算出音频流的切片时间戳的最佳序列值，接着进行步骤S6。其中，根据步骤S2取得的视频ES流的切片时间戳的最佳序列值及步骤S4取得的音频流的随机切入点的时间戳序列，通过与相应视频ES流切片的最佳切片时间戳的序列值最相近原则的第二切片计算模型，计算得出音频流的切片时间戳的最佳序列值。

通过第二切片计算模型，计算得出音频流的切片时间戳的最佳序列值的数学描述如下：

除了纯音频流外，音频流在切片时以视频流的切片时间戳为基准。记第i个音频流AS_i的随机接入点的时间戳为{t_i(0),t_i(1),t_i(2),……,t_i(M_i)}。其中，t_i(0)＝0,t_i(M_i)＝L。记音频流AS_i以VS_j为基准做切片得到的切片时间戳为

{t_i,j(m_i,j,0),t_i,j(m_i,j,1),t_i,j(m_i,j,2),……,t_i,j(m_i,j,Kj)},

其中，

K_j：音频流AS_i的切片个数，且等于视频ES流VS_j的切片个数；

m_i,j,k：音频流AS_i的切片时间戳的序号，属于集合{0,1,2,……,M_i},对所有k,0≤k≤K_j，m_i,j,0＝0,m_i,j,Kj＝M_i

t_j(n_j,k)：视频流VS_j的切片时间戳

t_i,j(m_i,j,k-1)：第k个切片的起始时间戳

t_i,j(m_i,j,k)：第k个切片的结束时间戳

音频流AS_i以视频ES流VS_j的切片时间戳为基准做切片时，对每个k＝1,2,……,K_j,依次执行

m_{i, j, k} = \underset{m}{\arg \min} | | t_{i, j} (m) - t_{j} (n_{j, k}) | |

s.t m>m_i,j,k-1

根据计算得出的m_i,j,k序列值，得到第i个音频流AS_i的切片时间戳序列值：{t_i,j(m_i,j,0),t_i,j(m_i,j,1),t_i,j(m_i,j,2),……,t_i,j(m_i,j,Kj)}。

在步骤S6中，对音频流进行切片，接着进行步骤S7。其中，依据步骤S5中计算得出的音频流的切片时间戳的最佳序列值，对音频流进行切片。

在步骤S7中，将视频ES流切片及音频流切片进行音视频封装，生成m3u8多媒体文件。其中，将根据步骤S3取得的视频ES流切片及根据步骤S6取得的音频流切片对应进行音视频封装，数学描述具体为：每个视频ES流与I个音频流组成一个独立的多媒体文件，生成m3u8流媒体文件。而生成的m3u8多媒体文件符合HLS协议要求。

本发明的流媒体切片方法，通过分析ES流中的PTS和DTS信息获得随机切入点的时间戳，先对视频流切片，再以视频切片为基准对音频切片，最后做音视频切片封装，产生符合HLS标准的切片文件。

该方法以最短路径理论为理论基础，以ES流为实现途径，所产生的切片的时长误差在最小最大准则下是最优的，进而使得不同切片的播放时长尽可能接近，以利于终端流畅播放，并使得生成的切片文件符合现正被大量应用的HLS协议的要求。

图2为本发明的本发明的纯音频流切片方法的流程示意图，该方法包括以下步骤：

在步骤S21中，解析纯音频流，接着进行步骤S22。

在步骤S22中，采用最小最大数值优化方法，计算出音频流切片时间戳的最佳序列值，接着进行步骤S23。

在步骤S23中，对音频流进行切片。

图3为本发明的流媒体切片系统的结构框图，该系统包括以下装置：

第一解析装置，用以解析流媒体ES流，取得PTS及DTS信息，进而得到流媒体ES流的随机切入点的时间戳序列。在本实施例中，ES流为音频ES流时，所述音频ES流的随机切入点为每一音频帧的起始样本；ES流为视频ES流时，所述视频ES流的随机切入点为I帧或IDR帧。第一解析装置为解析器。多媒体流及其包含的视频ES流及音频ES流信息及随机切入点的数学描述，同步骤S1中所述，此处不再赘述。

第一切片计算装置，连接于第一解析装置，用以根据随机切入点的时间戳序列及给定预期切片时长，以切片后所得各切片时长与给定预期切片时长的差值序列中的最大值最小为优化目标，通过采用最小最大数值优化方法的第一切片计算模型，计算得出流媒体ES流的切片时间戳的最佳序列值。在本实施例中，上述优化目标及第一切片计算模型的数学描述同步骤S2中所述，此处不再赘述。

第一切片装置，连接于第一切片计算装置，用以依据计算得出的切片时间戳的最佳序列值，对流媒体ES流进行切片。在本实施例中，所述的流媒体切片系统还包括以下装置：

第二切片计算装置，分别连接于第一切片计算装置及第二解析装置，用以根据第一切片计算装置得出的ES流的切片时间戳的最佳序列值及第二解析装置取得的音频流的随机切入点的时间戳序列，通过与相应视频ES流切片的最佳切片时间戳的序列值最相近原则的第二切片计算模型，计算得出音频流的切片时间戳的最佳序列值；其中，通过第二切片计算模型，计算得出音频流的切片时间戳的最佳序列值的数学描述同步骤S5，此处不再赘述。

第二切片装置，连接于第二切片计算装置，用以依据计算得出的音频流的切片时间戳的最佳序列值，对音频流进行切片；其中，第二切片计算装置中，音频流的随机切入点为每一音频帧的起始样本。

音视频封装装置，分别连接于第一切片装置及第二切片装置，用以将第一切片装置取得的视频ES流切片及第二切片装置取得的音频流切片对应进行音视频封装，生成m3u8流媒体文件。具体为：每个视频ES流与所有的音频流组成一个独立的多媒体文件，生成m3u8流媒体文件。而生成的m3u8多媒体文件符合HLS协议要求。

下面将从理论证明及实施例数据对比两个方面，分别来阐明本发明的流媒体切片方法的步骤S2中所述：伪代码求出的切片个数K_j和切片时间戳t_j(n_j, _k),0≤k≤K_j,使下式最小

max{‖t_j(n'_j,k)-t_j(n'_j,k-1)-T‖:1≤k≤K'} (1)

相应的约束条件为：

2)n'_j,0＝0，n'_j,K’＝N_j；

(一)理论证明

式(1)的最优解满足下列性质：

性质1：对于任意的k₁,k₂,0≤k₁≤k₂≤K_j,k₁以及时间戳t_j(n_j,k),0≤k≤k₁,使下式最小

max{‖t_j(n'_j,k)-t_j(n'_j,k-1)-T‖:1≤k≤K'} (2)

相应的约束条件为：

1)切片时间戳序号n'_j,k属于集合{0,1,2,……,n_j,k1}；

2)n'_j,0＝0，n'_j,K’＝n_j,k1。

证明：假设存在k'₁以及时间戳t_j(n'_j,k),0≤k≤k'₁使得下式成立

max{‖t_j(n'_j,k)-t_j(n'_j,k-1)-T‖:1≤k≤k'₁}

<max{‖t_j(n_j,k)-t_j(n_j,k-1)-T‖:1≤k≤k₁}。

由于n'_j,k’1＝n_j,k1，则下列时间戳

{t_j(n'_j,0),t_j(n'_j,1),……,t_j(n'_j,k’1)＝t(n_j,k1),t(n_j,k1+1),……,t_j(n_j,Kj)}

对应的切片时长最大误差为：

max{max{‖t_j(n'_j,k)-t_j(n'_j,k-1)-T‖:1≤k≤k'₁},

max{‖t_j(n_j,k)-t_j(n_j,k-1)-T‖:k₁+1≤k≤K_j}}

<max{‖t_j(n_j,k)-t_j(n_j,k-1)-T‖:1≤k≤K_j}，与假设“最优解”相矛盾。

由性质1可递归地得出上述步骤S2中的伪代码的最优性，即由该代码求得的切片个数K_j和时间戳t_j(n_j,k),0≤k≤K_j使得(1)式最小，即在切片时长误差最小最大准则下是最优的。

证明：当N_j＝1时，结论成立。假设当N_j＝1,2,……,N时结论成立，当N_j＝N+1时，由伪代码步骤2.1以及性质1可知，结论成立。

(二)实施例数据对比

以下为本发明的五个实施例。源文件的参数中能够对无转码切片的精确度产生影响的有：帧率、GOP长度、I(IDR)帧插入频率等。下列实施例涵盖了这些参数值的不同组合。切片的精确程度采用统计特征描述，以反映本发明在实际应用环境中的效果。

图4为本发明的第一实施例的专利实施后的切片时长控制图。第一实施例中转码源文件参数为：

时长：02:34:24

视频编码：h.264

视频参数：逐行,profile＝high,level＝4.0,GOP长度＝50,帧率＝24.03fps

音频编码：eac3

音频参数：采样率＝48kHz

切片预期时长10秒。图4给出了采用本发明对该文件切片后得到的前100个切片文件的时长。切片时长的平均值为：10.42秒，标准差为：0.14。

图5为本发明的第二实施例的专利实施后的切片时长控制图。第二实施例中转码源文件参数为：

时长：00:25:33

视频编码：h.264

视频参数：逐行,profile＝baseline,level＝3.1,GOP长度＝75(在一个GOP内可以自适应插入I帧)，帧率＝25fps

音频编码：aac

音频参数：采样率＝48kHz

切片预期时长10秒。如图5所示，给出了采用本发明对该文件切片后得到的所有切片文件的时长。切片时长的平均值为：9.75秒，标准差为：0.89。

图6为本发明的第三实施例的专利实施后的切片时长控制图。第三实施例中转码源文件参数为：

时长：02:13:33

视频编码：h.264

视频参数：逐行,profile＝high,level＝4.1,GOP长度不固定，自适应I帧插入(I帧出现频率：平均每秒1.08个I帧)，帧率＝25fps

音频编码：mp2

音频参数：采样率＝48kHz

切片预期时长10秒。如图6所示，给出了采用本发明对该文件切片后得到的所有切片文件的时长。切片时长的平均值为：9.99秒，标准差为：0.27。由于I帧插入频率较高，所以切片的平均值非常接近预期值(10秒)。

图7为本发明的第四实施例的专利实施后的切片时长控制图。第四实施例中转码源文件参数为：

时长:01:59:33

视频编码：h264

视频参数：隔行，profile＝high,level＝2.0,GOP长度33±3,帧率＝25fps

音频编码：mp2

音频参数：采样率＝48kHz

切片预期时长10秒。图7给出了采用本发明对该文件切片后得到的前200个切片文件的时长。切片时长的平均值为：10.15秒，标准差为：0.41。

图8为本发明的第五实施例的专利实施后的切片时长控制图；第五实施例中转码源文件参数为：

时长：00:12:22

视频编码：h264

视频参数：隔行，profile＝main,level＝4.0,GOP长度不固定，自适应I帧插入(I帧出现频率：平均每秒0.7个I帧)，帧率不固定

音频编码：mp2

音频参数：采样率＝48kHz

切片预期时长10秒。图8给出了采用本发明对该文件切片后得到的切片文件的时长。切片时长的平均值为：10.03秒，标准差为：0.42。

综上，本发明以能够对无转码切片的精确度产生影响的参数值的不同组合所形成的五个源文件分别为第一实施例、第二实施例、第三实施例、第四实施例及第五实施例，对比专利实施前后切片时长平均值、切片时长波动范围及切片时长标准差，具体说明如下：

实施本专利技术前，两种常用无切码切片方法为：第一种方法按时间由小到大依次产生每个切片，每个切片的终点为尚未被切片的ES流中与当前切片起点距离最接近T的随机接入点。第二种方法每个切片(例如第k个)的终点为尚未被切片的ES流中与零点距离最接近kT的随机接入点。T为给定预期切片时长。

记ES流中视频流VSj的所有随机接入点的时间戳为{tj(0),tj(1),tj(2),……,tj(Nj)}则上述两种切片方法的伪代码如下：

现有方法1：

1)t_j(n_j,0)＝0,K_j＝0

2)对于k＝1,2,……

2.1)

n_{j, k} = \underset{n}{\arg \min} | | t_{j} (n) - t_{j} (n_{j, k - 1}) - T | |

subject to n属于{n_j,k-1+1,……,N_j}

2.2)K_j←K_j+1

2.3)如果n＝N_j

跳出循环。

3)返回{t_j(n_j,0),t_j(n_j,1),t_j(n_j,2),……,t_j(n_j,Kj)}

现有方法2：

1)t_j(n_j,0)＝0,K_j＝0

2)对于k＝1,2,……

2.1)

n_{j, k} = \underset{n}{\arg \min} | | t_{j} (n) - t_{j} (n_{j, k - 1}) - T | |

subject to n属于{n_j,k-1+1,……,N_j}

2.2)K_j←K_j+1

2.3)如果n＝N_j

跳出循环。

3)返回{t_j(n_j,0),t_j(n_j,1),t_j(n_j,2),……,t_j(n_j,Kj)}

表1五个多媒体源文件实施前后数据对比

如表1所示，多媒体源1至多媒体源5分别对应于实施例1至实施例5中的片源，M1为现有方法1，M2为现有方法2，OPT为本发明提出的最优方法，给定预期切片时长为10秒。对多媒体源1至多媒体源5分别实施现有方法1、现有方法2及本发明提出的最优方法进行切片，所得的切片又分别以“切片时长平均值”、“切片时长波动范围”、“切片时长标准差”作比较。其中，每组比较的最优结果用粗体字标识。

实验结果显示本发明相对现有方法1及2具有优势，以多媒体源3为例，实施现有方法1，所得切片时长波动范围为：9至10.48，实施现有方法2，所得切片时长波动范围为：3至10.92，由于切片文件大小波动较大，使得对不同切片文件进行操作所消耗的时间可能相差较多，这对播放器的缓冲机制提出了更高的要求；另由于所生成的每个切片文件的大小不相近，则终端在下载切片文件之前无法对切片文件的大小做出较准确的估计，如果该已分配的动态内存空间过小，终端需要在动态内存用尽时停止下载，重新开辟新的内存空间，这会使系统运行不够稳定。

而实施本发明最优方法，所得切片时长波动范围为：9.52至10.48，从表1的数据可以看出，本切片技术实施后，多媒体源3的切片时长的标准差较之现有方法1及现有方法2时比较，分别下降了50％和84％，波动的范围已经明显变小，切片精准度得到显著提升。

综上可得，本发明提供的方法及系统，生成的切片文件大小波动最小，符合HLS协议的要求，即能使隶属于同一多媒体流的不同切片时长尽可能地接近，由于不同切片时长相近，使终端对不同切片文件进行操作所消耗的时间基本相近，从而降低了对终端播放器的缓冲机制的要求；因为每个切片文件的大小相近，终端在下载切片文件之前可以对切片文件的大小做出较准确的估计，使得终端能根据切片大小的估计值为每个切片一次性分配足够大的动态内存空间，进而保证了系统运行的稳定性，使切片文件的播放更为流畅，提高用户观看体验的质量；且。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种流媒体切片方法，其特征是，该方法包括以下步骤：

2.根据权利要求1所述的流媒体切片方法，其特征是，采用所述流媒体切片方法生成的切片符合HLS协议要求。

3.根据权利要求1所述的流媒体切片方法，其特征是，所述ES流为音频ES流，所述音频ES流的随机切入点为每一音频帧的起始样本。

4.根据权利要求1所述的流媒体切片方法，其特征是，所述ES流为视频ES流，所述视频ES流的随机切入点为I帧或IDR帧。

5.根据权利要求4所述的流媒体切片方法，其特征是，所述的步骤c)后，还包括以下步骤：

6.根据权利要求5所述的流媒体切片方法，其特征是，所述的步骤d)中，音频流的随机切入点为每一音频帧的起始样本。

7.根据权利要求5所述的流媒体切片方法，其特征是，所述的步骤e)中，所述与相应视频ES流切片的最佳切片时间戳的序列值最相近原则的第二切片计算模型的数学表达式为：

对每个k＝1,2,……,K_j，依次执行

s.t m>m_i,j,k-1

根据计算得出的m_i,j,k序列值，得到第i个音频流AS_i的切片时间戳序列值： {t_i,j(m_i,j,0),t_i,j(m_i,j,1),t_i,j(m_i,j,2),……,t_i,j(m_i,j,Kj)}，

其中：

K_j：音频流的切片个数，且等于视频ES流的切片个数

t_j(n_j,k)：视频流VS_j的切片时间戳

t_i,j(m_i,j,k-1)：第k个切片的起始时间戳

t_i,j(m_i,j,k)：第k个切片的结束时间戳。

8.一种流媒体切片系统，其特征是，该系统包括以下装置：

9.根据权利要求8所述的流媒体切片系统，其特征是，采用所述流媒体切片系统生成的切片符合HLS协议要求。

10.根据权利要求8所述的流媒体切片系统，其特征是，所述ES流为音频ES流，所述音频ES流的随机切入点为每一音频帧的起始样本。

11.根据权利要求8所述的流媒体切片系统，其特征是，所述ES流为视频ES流，所述视频ES流的随机切入点为I帧或IDR帧。

12.根据权利要求11所述的流媒体切片系统，其特征是，所述的流媒体切片系统还包括以下装置：

13.根据权利要求12所述的流媒体切片系统，其特征是，所述的第二切片计算装置中，音频流的随机切入点为每一音频帧的起始样本。

14.根据权利要求12所述的流媒体切片系统，其特征是，所述第二切片计算装置中，所述与相应视频ES流切片的最佳切片时间戳的序列值最相近原则的第二切片计算模型的数学表达式为：

对每个k＝1,2,……,K_j，依次执行

s.t m>m_i,j,k-1

其中：

K_j：音频流的切片个数，且等于视频ES流的切片个数

t_j(n_j,k)：视频流VS_j的切片时间戳

t_i,j(m_i,j,k-1)：第k个切片的起始时间戳

t_i,j(m_i,j,k)：第k个切片的结束时间戳。