CN109769132B

CN109769132B - 一种基于帧同步的多路远程直播视频解说方法

Info

Publication number: CN109769132B
Application number: CN201910035693.0A
Authority: CN
Inventors: 孙剑; 赵松; 刘逸男
Original assignee: China Television Information Technology Beijing Co ltd
Current assignee: China Television Information Technology Beijing Co ltd
Priority date: 2019-01-15
Filing date: 2019-01-15
Publication date: 2021-02-02
Anticipated expiration: 2039-01-15
Also published as: CN109769132A

Abstract

本发明提供一种基于帧同步的多路远程直播视频解说方法，包括：切换设备设有直播音视频流缓存区域；切换设备在所述M个直播视频帧的前面添加计时序列，并在所述计时序列的最后一个计时帧上面添加同步标记，并发送给云平台；云平台发送给各个位于不同位置的远程的解说终端；解说终端向解说掩膜视频流中的每个解说掩膜视频帧中写入对应的直播视频帧号，并发送给云平台；云平台发送给切换设备；切换设备合成为最终的与某个解说终端对应的带解说音视频的直播音视频流。优点为：实现了异地解说同步方法，对于位于不同地理位置的各个解说员，借助解说终端可对同一个直播节目进行同步解说；能获取解说员的解说视频信息。

Description

一种基于帧同步的多路远程直播视频解说方法

技术领域

本发明属于直播视频解说技术领域，具体涉及一种基于帧同步的多路远程直播视频解说方法。

背景技术

随着社会的发展和科技的进步，体育竞技、电子竞技迅速发展，在比赛时，解说员可以对比赛内容进行同步解释和补充，一方面给观众带来更好的观看体验，使观众享受比赛，另一方面使观众更好地了解现场竞技，进一步提高了观众的分析能力、判断能力，解说员的重要性不言而喻。

传统的赛事直播视频解说方案一般分为两种：1、同步采集比赛现场的直播音视频数据和解说员的解说音频数据，然后，将直播音视频数据和解说音频数据发送到合成设备进行融合，使用户在观看直播音视频时，能够同时听到解说音频。2、采集比赛现场的直播音视频数据，并发送到解说终端，解说终端将直播音视频数据以及对应的解说音频数据进行合成。

上述两种方案均存在以下问题，第一，需要解说员聚集在一个直播间，无法实现多个解说员异地同步对同一直播音视频数据进行解说；第二，上述方案中，直播音视频数据中仅仅包含解说音频数据，不能同时包含解说员的解说视频数据，用户体验不佳。

发明内容

针对现有技术存在的缺陷，本发明提供一种基于帧同步的多路远程直播视频解说方法，可有效解决上述问题。

本发明采用的技术方案如下：

本发明提供一种基于帧同步的多路远程直播视频解说方法，包括以下步骤：

步骤1，现场采集终端实时采集现场的直播音视频流；其中，所述直播音视频流包括同步的直播音频流和直播视频流；

所述现场采集终端实时将采集到的所述直播音视频流发送到切换设备；

步骤2，所述切换设备设有直播音视频流缓存区域；当所述切换设备接收到所述直播音视频流时，所述切换设备实时将所述直播音视频流分解为直播音频流和直播视频流，并将所述直播音频流和所述直播视频流分别存储到所述直播音视频流缓存区域；

当所述直播音视频流缓存区域中缓存的直播视频流达到M个直播视频帧时，所述切换设备在所述M个直播视频帧的前面添加计时序列，并在所述计时序列的最后一个计时帧上面添加同步标记，所述计时序列和所述M个直播视频帧形成带计时序列的直播视频流；其中，对于M个直播视频帧，每个所述直播视频帧均具有在本次完整直播过程中唯一的直播视频帧号；

一方面，所述带计时序列的直播视频流缓存于所述直播音视频流缓存区域；另一方面，所述切换设备将所述带计时序列的直播视频流和对应的所述直播音频流合成为带计时序列的直播音视频流；并将所述带计时序列的直播音视频流发送到云平台；

步骤3，所述云平台将所述带计时序列的直播音视频流同时发送给各个位于不同位置的远程的解说终端；对于每个所述解说终端，均执行步骤4-步骤5；

步骤4，所述解说终端接收到所述带计时序列的直播音视频流时，所述解说终端同时具有播放模块和解说采集模块，所述播放模块播放所述带计时序列的直播音视频流；并且，从所述带计时序列的直播音视频流开始播放开始，所述解说采集模块即同步开始采集解说音频流和解说视频流，直到所述带计时序列的直播音视频流播放结束；因此，所述解说终端获得解说音频流和同步的解说视频流；

所述解说终端对所述解说视频流进行掩膜处理，得到解说掩膜视频流，所述解说掩膜视频流包括M个解说掩膜视频帧；

所述解说终端解析所述带计时序列的直播音视频流，获得带计时序列的直播视频流；然后，识别出所述带计时序列的直播视频流的同步标记，将带所述同步标记的计时帧作为第0号帧，从而确定下一帧为本次视频处理周期的第1个直播视频帧，并将定位到的第1个直播视频帧的直播视频帧号写入到解说掩膜视频流的第1个解说掩膜视频帧上面；然后，再将第1个直播视频帧下一位的第2个直播视频帧的直播视频帧号写入到解说掩膜视频流的第2个解说掩膜视频帧上面；依此类推，由于共有M个直播视频帧，因此，直到将第M个直播视频帧的直播视频帧号写入到解说掩膜视频流的第M个解说掩膜视频帧上面；由此得到写入直播视频帧号的解说掩膜视频流；

然后，所述解说终端将所述写入直播视频帧号的解说掩膜视频流和对应的解说音频流合成为解说音视频流，并将所述解说音视频流回传给所述云平台；

步骤5，所述云平台将接收到的所述解说音视频流回传到所述切换设备；

步骤6，由于存在多个解说终端，因此，所述切换设备接收到多个所述解说音视频流；

对于每个所述解说音视频流，所述切换设备首先解析所述解说音视频流，得到解说音频流和写入直播视频帧号的解说掩膜视频流；

然后，所述切换设备对所述写入直播视频帧号的解说掩膜视频流进行直播视频帧号的识别，由此识别到每个解说掩膜视频帧上被写入的直播视频帧号；

然后，所述切换设备读取所述直播音视频流缓存区域，得到直播视频流，并将解说掩膜视频流和所述直播视频流对齐，对齐方式为：具有相同直播视频帧号的解说掩膜视频帧和直播视频帧对齐，从而实现直播视频和解说视频的同步；然后，将对齐的解说掩膜视频流和直播视频流合成为带解说掩膜视频的直播视频流；

然后，所述切换设备再将所述带解说掩膜视频的直播视频流、所述直播音频流和所述解说音频流合成为最终的与某个解说终端对应的带解说音视频的直播音视频流；

步骤7，然后，一方面，所述切换设备对下一个视频处理周期的音视频数据进行处理；另一方面，所述切换设备将最近视频处理周期处理得到的与各个解说终端分别对应的带解说音视频的直播音视频流发送给所述云平台；

所述云平台存储与各个解说终端分别对应的带解说音视频的直播音视频流；当所述云平台接收到来自于某个播放终端的对特定解说终端的观看直播请求时，所述云平台即将对应特定解说终端的带解说音视频的直播音视频流发送给所述播放终端。

优选的，步骤4中，所述解说终端采用以下方法，将直播视频帧号写入到对应的解说掩膜视频帧上面：

步骤4.1，需要写入的直播视频帧号为1～999999之间的任意自然数；

将本次需要写入的直播视频帧号转换为6位数，表示为：A₆A₅A₄A₃A₂A₁；其中，A₁表示个位数字；A₂表示十位数字；A₃表示百位数字；A₄表示千位数字；A₅表示万位数字；A₆表示十万位数字；转换方式为：如果需要写入的直播视频帧号为六位数字，则直接表示为A₆A₅A₄A₃A₂A₁；如果需要写入的直播视频帧号为1位～5位数字，则将高位补0，转换为6位数字；

步骤4.2，所述解说掩膜视频帧为四通道视频帧，分别包括R通道、G通道、B通道和α通道；

所述解说终端以行优先扫描α通道，从α通道的第1行第1列的像素点开始扫描，即：首先扫描第1行第1列的像素点，然后扫描第1行第2列的像素点，依此类推，直到扫描到第1行最后列的像素点；然后扫描第2行第1列的像素点，然后扫描第2行第2列的像素点，依此类推进行扫描；当扫描到α通道值为0的像素点时，表明该像素点为有用像素点，继续扫描；当首次扫描到α通道值为1的像素点时，表明该像素点为无用像素点，将该像素点记为像素点R₀，此时，将该像素点R₀的B通道的灰度值调整为直播视频帧号个位数字A₁对应的灰度值，将该像素点R₀的G通道的灰度值调整为直播视频帧号十位数字A₂对应的灰度值，将该像素点R₀的R通道的灰度值调整为直播视频帧号百位数字A₃对应的灰度值；

然后继续扫描，当扫描到下一个α通道值为1的像素点时，将该像素点记为像素点R₁，此时，将该像素点R₁的B通道的灰度值调整为直播视频帧号千位数字A₄对应的灰度值，将该像素点R₁的G通道的灰度值调整为直播视频帧号万位数字A₅对应的灰度值，将该像素点R₁的R通道的灰度值调整为直播视频帧号十万位数字A₆对应的灰度值；至此完成直播视频帧号写入到对应的解说掩膜视频帧上面的过程。

本发明提供的一种基于帧同步的多路远程直播视频解说方法具有以下优点：

1、本发明实现了异地解说同步方法，对于位于不同地理位置的各个解说员，借助解说终端可对同一个直播节目进行同步解说；

2、本发明实现的异地解说同步方法，能够使解说员的解说音视频与赛事直播音视频同步，保证直播效果。

3、本发明实现的异地解说同步方法，能获取解说员的解说视频信息；而传统的赛事解说一般仅仅包含解说音频信息，本发明中获取仅包含解说员的视频信息。并与直播视频进行合成。

4、本发明实现的异地解说同步方法，能够让观众从众多解说视频中观看到感兴趣的解说员的解说视频，给用户带来更佳的体验。

5、本发明实现的异地解说同步方法，能够在不添加额外信道的情况下，利用视频数据结构的本身特性，更改少量像素值完成通信同步。

附图说明

图1是本发明实现的基于帧同步的多路远程直播视频解说方法的系统框架图；

图2是本发明实现基于帧同步的多路远程直播视频解说方法的的计时序列帧示意图；

图3是本发明实现基于帧同步的多路远程直播视频解说方法的将直播视频帧号写入到解说掩膜视频流的示意图；

图4本发明实现将直播视频帧号写入到解说掩膜视频流的详细示意图；

图5是本发明解析已写入直播视频帧号的解说掩膜视频流的示意图。

具体实施方式

为了使本发明所解决的技术问题、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明提供一种基于帧同步的多路远程直播视频解说方法，参考图1，包括以下步骤：

当所述直播音视频流缓存区域中缓存的直播视频流达到M个直播视频帧时，所述切换设备在所述M个直播视频帧的前面添加计时序列，并在所述计时序列的最后一个计时帧上面添加同步标记，所述计时序列和所述M个直播视频帧形成带计时序列的直播视频流；参考图2，为形成的带计时序列的直播视频流；其中，对于M个直播视频帧，每个所述直播视频帧均具有在本次完整直播过程中唯一的直播视频帧号；例如，假设某个现场比赛的直播时间为11小时，则11小时中产生的每个直播视频帧均具有唯一的直播视频帧号，假设共产生99982个直播视频帧，则其直播视频帧号分别为：1、2、3,…,99982。

本发明中，是以视频处理周期为处理周期，循环对每个视频处理周期产生的直播视频流进行处理的。

假设在每个视频处理周期，共需要对100个直播视频帧进行处理，即；M＝100。

则：在第1个视频处理周期，共接收到帧号为1-100的100个直播视频帧，并存储于直播音视频流缓存区域；然后采用后续步骤3-步骤6进行处理，并将最终得到的与各个解说终端分别对应的带解说音视频的直播音视频流发送给所述云平台；

然后，进入第2个视频处理周期，共接收到帧号为101-200个直播视频帧，并存储于直播音视频流缓存区域；此时，帧号为101-200个直播视频帧将覆盖直播音视频流缓存区域中原来的帧号为1-100的100个直播视频帧；

如此不断循环，实现实时接收直播视频帧，并不断将处理后的带解说音视频的直播音视频流发送给所述云平台。

然后，一方面，所述带计时序列的直播视频流缓存于所述直播音视频流缓存区域；另一方面，所述切换设备将所述带计时序列的直播视频流和对应的所述直播音频流合成为带计时序列的直播音视频流；并将所述带计时序列的直播音视频流发送到云平台；

本步骤中，参考图3和图4，解说终端采用以下方法，将直播视频帧号写入到对应的解说掩膜视频帧上面：

步骤4.1，需要写入的直播视频帧号为1～999999之间的任意自然数；具体的，发明人发现，对于某个直播现场，在一个直播比赛中产生的直播视频帧数量不会超过999999，因此，本发明设计的直播视频帧号写入方法，支持写入的最大直播视频帧号为999999。

将本次需要写入的直播视频帧号转换为6位数，表示为：A₆A₅A₄A₃A₂A₁；其中，A₁表示个位数字；A₂表示十位数字；A₃表示百位数字；A₄表示千位数字；A₅表示万位数字；A₆表示十万位数字；转换方式为：如果需要写入的直播视频帧号为六位数字，则直接表示为A₆A₅A₄A₃A₂A₁；如果需要写入的直播视频帧号为1位～5位数字，则将高位补0，转换为6位数字；例如，如果本次需要写入的直播视频帧号为7，则转换为000007；如果本次需要写入的直播视频帧号为25，则转换为000025；如果本次需要写入的直播视频帧号为589，则转换为000589。如果本次需要写入的直播视频帧号为589621，则不进行转换，即为589621。

申请人需要强调的是，本发明上面设计的帧号写入方法中，只需要扫描到最开始的两个α通道值为1的像素点即可，从而实现最大支持6位数的直播视频帧号写入。

当然，基于同样的原理，也可以扩展到扫描到最开始的三个α通道值为1的像素点即可，从而实现最大支持9位数的直播视频帧号写入；也可以扩展到扫描到最开始的四个α通道值为1的像素点即可，从而实现最大支持12位数的直播视频帧号写入等等。本发明对此并不限制。

此处，直播视频帧号解析识别的过程，与直播视频帧号写入的思想相对应，即：

首先以行优先扫描α通道，从α通道的第1行第1列的像素点开始扫描，即：首先扫描第1行第1列的像素点，然后扫描第1行第2列的像素点，依此类推，直到扫描到第1行最后列的像素点；然后扫描第2行第1列的像素点，然后扫描第2行第2列的像素点，依此类推进行扫描；当扫描到α通道值为0的像素点时，表明该像素点为有用像素点，继续扫描；当首次扫描到α通道值为1的像素点时，表明该像素点被写入了直播视频帧帧号；将该像素点记为像素点R₀，此时，读取该像素点R₀的B通道的灰度值，即为直播视频帧号个位数字A₁，读取该像素点R₀的G通道的灰度值，即为直播视频帧号十位数字A₂，读取该像素点R₀的R通道的灰度值，即为直播视频帧号百位数字A₃；

然后继续扫描，当扫描到下一个α通道值为1的像素点时，将该像素点记为像素点R₁，此时，读取该像素点R₁的B通道的灰度值，即为直播视频帧号千位数字A₄，读取该像素点R₁的G通道的灰度值，即为直播视频帧号万位数字A₅，读取该像素点R₁的R通道的灰度值，即为直播视频帧号十万位数字A₆；至此读取到的直播视频帧号即为A₆A₅A₄A₃A₂A₁。

此处，在正常情况下，即无网络延迟或网络故障时，即：解说掩膜视频流没有发生丢帧现象，切换设备识别出解说掩膜视频流被写入的各个直播视频帧号后，只要方便的利用音视频缓存区域对齐，即可实现解说掩膜视频流和直播视频流的同步。

而如果发生网络延迟或故障时，此时，解说掩膜视频流出现解说掩膜视频帧丢帧现象，因此，识别出解说掩膜视频流被写入的各个直播视频帧号后，需要利用解说掩膜视频帧上的每一个直播视频帧号，将其与对应的直播视频帧对应上，然后，当延迟的解说掩膜视频帧到达切换设备时，只需要再次依据其被写入的直播视频帧号，从音视频缓存区域找到对应的直播视频帧对齐即可，从而保证直播视频能够与解说视频同步。

所述云平台存储与各个解说终端分别对应的带解说音视频的直播音视频流；当所述云平台接收到来自于某个播放终端的对特定解说终端的观看直播请求时，所述云平台即将对应特定解说终端的带解说音视频的直播音视频流发送给所述播放终端。播放终端收到带解说音视频的直播音视频流后，播放直播音视频，同时可以观看到解说视频，收听到解说音频。

本发明中的解说终端，包括但不限于专业解说设备、手机、平板电脑、个人掌上电脑，播放终端包括但不限于手机、平板电脑、个人掌上电脑。

本发明提供的基于帧同步的多路远程直播视频解说方法，应用于由切换设备、云平台、解说终端及播放终端组成的系统中；

其中，切换设备用于接收现场采集终端采集到的直播音视频流；并在直播视频流上添加计时序列，同时在计时序列上添加同步标记；切换设备还用于对直播音视频和解说员音视频进行合成；切换设备和云平台相互接收和发送音视频数据。

云平台负责接收切换设备发送的带计时序列的直播音视频流；将带计时序列的直播音视频流发送给解说终端；接收所述解说终端上传的解说音视频流；其中，解说音视频流为写入直播视频帧号的解说掩膜视频流和对应的解说音频流合成的解说音视频流；云平台将每个解说终端上传的解说音视频流发送给切换设备；云平台接收切换设备发送的与某个解说终端对应的带解说音视频的直播音视频流；云平台将接收到的与某个解说终端对应的带解说音视频的直播音视频流发送给某个播放终端；

解说终端负责接收由云平台发送的带计时序列的直播音视频流；解说终端识别出带计时序列的直播音视频流的同步标记；解说终端对解说员视频使用深度学习语义分割模型生成解说掩膜视频流；解说终端在每个解说掩膜视频帧上写入对应的直播视频帧号；写入直播视频帧号的解说掩膜视频流和对应的解说音频流合成为解说音视频流，并将所述解说音视频流回传给所述云平台；

播放终端负责接收由云平台发送的某个解说终端对应的带解说音视频的直播音视频流。

本发明提供的基于帧同步的多路远程直播视频解说方法，主要创新点包括：多路远程解说同步方法、解说掩膜视频帧写入对应的直播视频帧号方法，该方法能够实现多个解说终端同时同步异地解说同一个直播节目，从而给观众带来更佳的观看体验。

本发明与现有技术相比，具有以下的优点和积极效果：

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视本发明的保护范围。

Claims

1.一种基于帧同步的多路远程直播视频解说方法，其特征在于，包括以下步骤：

所述带计时序列的直播视频流缓存于所述直播音视频流缓存区域；同时，所述切换设备将所述带计时序列的直播视频流和对应的所述直播音频流合成为带计时序列的直播音视频流；并将所述带计时序列的直播音视频流发送到云平台；

然后，所述切换设备再将所述带解说掩膜视频的直播视频流、所述直播音频流和所述解说音频流合成为最终的与解说终端对应的带解说音视频的直播音视频流；

步骤7，然后，所述切换设备对下一个视频处理周期的音视频数据进行处理；同时，所述切换设备将最近视频处理周期处理得到的与各个解说终端分别对应的带解说音视频的直播音视频流发送给所述云平台；

2.根据权利要求1所述的一种基于帧同步的多路远程直播视频解说方法，其特征在于，步骤4中，所述解说终端采用以下方法，将直播视频帧号写入到对应的解说掩膜视频帧上面：

步骤4.1，需要写入的直播视频帧号为1~999999之间的任意自然数；

将本次需要写入的直播视频帧号转换为6位数，表示为：A₆A₅A₄A₃A₂A₁；其中，A₁ 表示个位数字；A₂ 表示十位数字；A₃表示百位数字；A₄表示千位数字；A₅表示万位数字；A₆表示十万位数字；转换方式为：如果需要写入的直播视频帧号为六位数字，则直接表示为A₆A₅A₄A₃A₂A₁；如果需要写入的直播视频帧号为1位~5位数字，则将高位补0，转换为6位数字；