CN117440209B

CN117440209B - 一种基于演唱场景的实现方法及系统

Info

Publication number: CN117440209B
Application number: CN202311722903.6A
Authority: CN
Inventors: 尹茂源; 王天颖; 潘栗; 田野; 杨睿; 孙非; 李心竹
Original assignee: Mudanjiang Normal University
Current assignee: Mudanjiang Normal University
Priority date: 2023-12-15
Filing date: 2023-12-15
Publication date: 2024-03-01
Anticipated expiration: 2043-12-15
Also published as: CN117440209A

Abstract

本发明公开了一种基于演唱场景的实现方法及系统，属于视频播放优化技术领域，具体包括：获取云数据服务器向客户端传输的原视频流数据的参数和音频流数据；设置缓存区，缓存区预存时长为T的原视频流数据，播放当前缓存区的视频并继续向缓存区内传输视频，计算时长t内，传输视频的网络速率均值并标记为V1；若网络速率均值V1小于码率，对接下来T‑t时长内所述原视频流数据的码率进行压缩；识别时长t内的原视频为表演视频或歌唱视频，并根据原视频的种类分别对原视频数据的帧率和分辨率进行调整，本发明通过根据网速变化动态调整传输视频码率并根据视频类型分别制定不同的优化策略，实现了视频的流畅播放，提升播放体验。

Description

一种基于演唱场景的实现方法及系统

技术领域

本发明涉及视频播放优化技术领域，具体涉及一种基于演唱场景的实现方法及系统。

背景技术

对于实际生活来说，经常会举行晚会、演唱会和音乐会等各种类型的演唱活动，而对于一些感兴趣却无法到达现场的观众来说，通过电视、网络等渠道观看实时转播是最为常见的方式。

现有的转播技术通常是将演唱场景的图像流和音频流传入到云数据服务器中，再由云数据服务器向用户进行视频流分发传输，其中，视频流传输需要占用大量的网络带宽，当用户的网络状况变差时，会出现转播画面卡顿、停顿的现象。

目前，现有技术在面对转播画面卡顿、停顿时，解决方法是音视频完全卡住，待网络正常后再继续播放，但这样的后果通常会丢失中间一段时间的音视频数据，使用户不能得到完整的内容，有的改进方案是优先保证音频传输，让用户能听到，但视频中断，待网络状况好的时候再传输视频，但这样仍然在这段时间无法让用户看到视频图像，破坏了用户的观看体验，导致用户实际体验感极低。

发明内容

本发明的目的在于提供一种基于演唱场景的实现方法及系统，解决以下技术问题：

现有技术在面对转播画面卡顿、停顿时，解决方法是音视频完全卡住，待网络正常后再继续播放，但这样的后果通常会丢失中间一段时间的音视频数据，使用户不能得到完整的内容，有的改进方案是优先保证音频传输，让用户能听到，但视频中断，待网络状况好的时候再传输视频，但这样仍然在这段时间无法让用户看到视频图像，破坏了用户的观看体验，导致用户实际体验感极低。

本发明的目的可以通过以下技术方案实现：

一种基于演唱场景的实现方法，包括以下步骤：

S1，获取云数据服务器向客户端传输的原视频流数据的参数和音频流数据；所述参数包括码率、帧率和分辨率；

S2，设置缓存区，缓存区预存时长为T的原视频流数据，播放当前缓存区内预存的视频流数据，并继续向缓存区内传输视频，计算时长t内，传输视频的网络速率均值并标记为V1；所述时长t小于预存时长T；

S3，若网络速率均值V1小于码率，对接下来T-t时长内所述原视频流数据的码率进行压缩，预设网络余量，将压缩后码率的值设置为当前网络速率均值与所设网络余量的差值；

S4，提取时长t的音频流数据并进行分析，预测识别当前时长t内的原视频为表演视频或歌唱视频，并根据当前时长t内的原视频的种类，分别对接下来T-t时长内原视频流数据的帧率和分辨率进行调整。

作为本发明进一步的方案：对音频流数据的分析过程为：

提取时长t的音频流数据并标记为待测音频流数据，将所述待测音频流按预设帧长进行分帧处理得到若干音频帧并标记为Y1,Y2,...,Yn，n为正整数，采用线性预测编码分析处理后的每一帧音频流数据并提取音频特征，所述音频特征包括短时过零率、LPC预测系数和LPC预测残差幅度谱的偏度和峰度，根据所述音频特征形成特征向量，将所述特征向量带入预设识别支持向量模型，识别所述每一帧音频流数据中是否含有人声，若含有人声则将该音频帧标记为特殊音频帧并标记为Q1,Q2,...,Qm，m为正整数，若m/n大于预设阈值，则判定时长T内的原视频为歌唱视频，若m/n小于预设阈值，则判定时长T内的原视频为表演视频。

作为本发明进一步的方案：若当前时长t内的原视频种类为歌唱视频，则优先对接下来T-t时长内原视频流数据的分辨率进行降低。

作为本发明进一步的方案：若当前时长t内的原视频种类为表演视频，则优先对接下来T-t时长内原视频流数据的帧率进行降低。

作为本发明进一步的方案：若网络速率均值V1大于码率，则保持接下来T-t时长内所述原视频流数据的码率，并对下一T时长内的原视频流数据的码率进行增大。

作为本发明进一步的方案：具体调整过程为：

计算压缩后的视频流数据码率与原视频流数据码率的比值，并标记为压缩比值，若当前时长t内的原视频为表演视频，则根据所述压缩比值对接下来T-t时长内原视频流数据的帧率进行相应压缩，若当前时长t内的原视频为歌唱视频，则根据所述压缩比值对接下来T-t时长内原视频流数据的分辨率进行相应压缩。

作为本发明进一步的方案：所述增加原视频流数据的码率的过程为：

获取当前网络传输速率Vi和视频流数据的码率Ki，计算网络传输速率均值Vi与视频流数据的码率Ki的差值并标记为P，在t时长内将当前视频流数据码率逐渐增加为Ki+P。

一种基于演唱场景的实现系统，包括：

数据获取模块，用于获取云数据服务器向客户端传输的原视频流数据的参数和音频流数据；所述参数包括码率、帧率和分辨率；

数据处理模块，用于设置缓存区，缓存区预存时长为T的原视频流数据，播放当前缓存区的视频流，并继续向缓存区内传输视频，计算时长t内，传输视频的网络速率均值并标记为V1；所述时长t小于预存时长T；

结果生成模块，用于判断是否对当前视频码率进行修正，若网络速率均值V1小于码率，对接下来T-t时长内所述原视频流数据的码率进行压缩，预设网络余量，将压缩后码率的值设置为当前网络速率均值与所设网络余量的差值；

参数调整模块，用于提取时长t的音频流数据并进行分析，识别时长t内的原视频为表演视频或歌唱视频，并根据当前时长t内的原视频的种类，分别对接下来T-t时长内原视频数据的帧率和分辨率进行调整。

本发明的有益效果：本发明通过设置缓存区，提前获取并缓存一定时长的原视频流数据，得到缓存播放时间T，并计算时长t内的网络速率均值与当前视频流数据码率进行比较，若当前网络速率小于码率，则用户网络速率不足以支持当前直播视频流数据码率，则降低视频数据的码率，并根据提取的音频流数据进行分析，并识别当前时长t内的原视频是否为表演视频或歌唱视频，并根据预测结果，可以对接下来T-t时长内的原视频数据的帧率和分辨率进行调整，既确保了视频的流畅播放，又能够根据视频内容的特点，优化视频的展示效果，提升用户观看体验。

附图说明

下面结合附图对本发明作进一步的说明。

图1是本发明一种基于演唱场景的实现方法的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1所示，本发明为一种基于演唱场景的实现方法，包括以下步骤：

S4，提取时长t的音频流数据并进行分析，预测当前时长t内的原视频为表演视频或歌唱视频，并根据当前时长t内的原视频的种类，分别对接下来T-t时长内原视频流数据的帧率和分辨率进行调整。

在本发明一种优选的实施例中，对音频流数据的分析过程为：

提取时长t的音频流数据并标记为待测音频流数据，将所述待测音频流数据按预设帧长进行分帧处理得到若干音频帧并标记为Y1,Y2,...,Yn，n为正整数，采用线性预测编码分析处理后的每一帧音频流数据并提取音频特征，所述音频特征包括短时过零率、LPC预测系数和LPC预测残差幅度谱的偏度和峰度，根据所述音频特征形成特征向量，将所述特征向量带入预设识别支持向量模型，识别所述每一帧音频流数据中是否含有人声，若含有人声则将该音频帧标记为特殊音频帧并标记为Q1,Q2,...,Qm，m为正整数，若m/n大于预设阈值，则判定时长T内的原视频为歌唱视频，若m/n小于预设阈值，则判定时长T内的原视频为表演视频。

本发明通过设置缓存区，提前获取并缓存一定时长的原视频流数据，得到缓存播放时间T，并计算时长t内的网络速率均值与当前视频流数据码率进行比较，若当前网络速率小于码率，则用户网络速率不足以支持当前直播视频流数据码率，则降低视频数据的码率，并根据提取的音频流数据进行分析，并预测下一时长T内的原视频是否为表演视频或歌唱视频，并根据预测结果，可以对接下来T-t时长内的原视频数据的帧率和分辨率进行调整，既确保了视频的流畅播放，又能够根据视频内容的特点，优化视频的展示效果，提升用户观看体验。

在本发明一种优选的实施例中，若当前时长t内的原视频种类为歌唱视频，则优先对接下来T-t时长内原视频流数据的分辨率进行降低。

在歌唱视频中，如歌唱、相声等，音频通常是用户主要关注的内容，尤其是歌手的声音和演唱技巧。相比之下，视频的画面细节对于观看体验的重要性较低。因此，在网速有限的情况下，优先保证音频质量，而对视频分辨率进行降低可以节省带宽资源降低解码和渲染负担，较低的视频分辨率意味着需要处理的像素数量较少，这可以减轻解码器和渲染器的负担能够加快视频的解码速度和渲染速度，提高播放的流畅性，减少卡顿和缓冲时间，提供更快的响应和即时播放

在本发明一种优选的实施例中，若当前时长t内的原视频种类为表演视频，则优先对接下来T-t时长内原视频流数据的帧率进行降低。

在表演视频中，表演内容是用户的主要关注内容，如魔术、舞蹈、杂技表演等，观众更关注动作和细节，因此可以通过压缩帧率来降低数据量，同时保持视觉质量，保证画质的情况较高的帧率意味着需要更多的数据传输量，降低帧率可以减少数据传输量，在网速有限的情况下，降低帧率可以减少视频文件的大小，节约存储空间，又能够减少解码和渲染的计算负载，从而提高播放的流畅性，提高了用户提供更好的观看体验。

在本发明一种优选的实施例中，若网络速率均值V1大于码率，则保持接下来T-t时长内所述原视频流数据的码率，并对下一T时长内的原视频流数据的码率进行增大。

当网络速率大于当前视频码率，则说明当前网络质量良好，但是网络通常会存在波动，若根据当前网络速率调整当前视频码率，若下一时刻产生网络波动，则有可能导致用户播放卡顿，影响用户实际观看体验，因此，保持当前视频传输码率，并对下一时长T的原视频传输码率进行增大，既确保了视频播放的流畅又提供更好的视频质量，提高了用户的观看体验。

在本发明一种优选的实施例中，具体调整过程为：

通过计算压缩比值并根据不同的视频类型进行相应的压缩处理，可以使压缩后的视频流数据更加紧凑，从而达到更高的压缩效果。对于表演视频，压缩帧率可以降低数据传输量，节省带宽和存储空间；对于歌唱视频，压缩分辨率可以减小视频文件大小，同时保持音频质量。不同类型的视频有不同的特点和用户需求。对于表演视频，观众更关注动作和细节，因此可以通过压缩帧率来降低数据量，同时保持视觉质量。而对于歌唱视频，音频表现力更为重要，因此可以通过压缩分辨率来减少文件大小，同时不影响音频质量，能够根据视频特点和用户需求，灵活地调整压缩策略，既保证了视频的流畅播放，也提高了用户的观看体验。

在本发明一种优选的实施例中，所述增加原视频流数据的码率的过程为：

获取当前网络传输速率Vi和视频流数据的码率Ki，计算网络传输速率均值Vi与视频流数据的码率Ki的差值并标记为P，则将原视频流数据的码率增加为Ki+P。

当缓存区存储值达到预设阈值，说明此时网络速率均值是大于当前视频流带宽，因此计算网络传输速率与视频流码率之间的差值P，并将其用于调整视频流的码率，既平滑了视频码率变化，提升了直播视频质量，又能够确保直播视频流畅，增加了用户的实际观看体验。

一种基于演唱场景的实现系统，包括：

以上对本发明的一个实施例进行了详细说明，但所述内容仅为本发明的较佳实施例，不能被认为用于限定本发明的实施范围。凡依本发明申请范围所作的均等变化与改进等，均应仍归属于本发明的专利涵盖范围之内。

Claims

1.一种基于演唱场景的实现方法，其特征在于，包括以下步骤：

S4，提取时长t的音频流数据并进行分析，识别当前时长t内的原视频为表演视频或歌唱视频，并根据当前时长t内的原视频的种类，分别对接下来T-t时长内原视频流数据的帧率和分辨率进行调整；

调整的过程为：

若当前时长t内的原视频种类为歌唱视频，则对接下来T-t时长内原视频流数据的分辨率进行降低；

若当前时长t内的原视频种类为表演视频，则对接下来T-t时长内原视频流数据的帧率进行降低；

对音频流数据的分析过程为：

2.根据权利要求1所述的一种基于演唱场景的实现方法，其特征在于，若网络速率均值V1大于码率，则保持接下来T-t时长内所述原视频流数据的码率，并对下一T时长内的原视频流数据的码率进行增大。

3.根据权利要求1所述的一种基于演唱场景的实现方法，其特征在于，具体压缩调整过程为：

4.根据权利要求2所述的一种基于演唱场景的实现方法，其特征在于，增大原视频流数据的码率的过程为：

5.一种基于演唱场景的实现系统，其特征在于，包括：

参数调整模块，用于提取时长t的音频流数据并进行分析，识别时长t内的原视频为表演视频或歌唱视频，并根据当前时长t内的原视频的种类，分别对接下来T-t时长内原视频数据的帧率和分辨率进行调整；

调整的过程为：

对音频流数据的分析过程为：